JP2004234288A - Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体 - Google Patents

Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004234288A
JP2004234288A JP2003021457A JP2003021457A JP2004234288A JP 2004234288 A JP2004234288 A JP 2004234288A JP 2003021457 A JP2003021457 A JP 2003021457A JP 2003021457 A JP2003021457 A JP 2003021457A JP 2004234288 A JP2004234288 A JP 2004234288A
Authority
JP
Japan
Prior art keywords
information
search
database
web
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003021457A
Other languages
English (en)
Inventor
Kaoru Hiramatsu
薫 平松
Junichi Akahani
淳一 赤埴
Tetsuji Sato
哲司 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003021457A priority Critical patent/JP2004234288A/ja
Publication of JP2004234288A publication Critical patent/JP2004234288A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】Webページに含まれている地理情報と時間情報に基づき、時空間構造に基づくWebページ検索方法を実現することを目的とする。
【解決手段】インターネット上のWebページを収集し、収集したWebページから時空間情報を抽出し、その時空間情報に基づきWeb情報を構造化したデータベースを作成し、そのデータベースに対する地理条件及び時間条件の指定により、上記目的の検索処理を実現する。このうち、データベースがインターネット上に発信されているWeb情報を網羅するために、Webロボットを用いて大量のWebページを収集し、Webページの形式に応じて場合分け(1.メタ情報が記述されていないHTML文書、2.メタ情報が記述されているHTML文書、3.XML形式の文書、XMLデータベースおよび出力形式がXMLであるWebサービス)を行い、それぞれWeb情報から時空間情報を抽出する。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
現在、インターネット上には膨大な情報がWebページの形で発信され、街角の商店や観光地の名所など、実世界の事物に関する情報がネットワーク経由で容易に手に入るようになってきた。こうした情報は現在も増大しているが、欲しい情報をインターネット経由で手に入れるための検索方法は、キーワード検索などに限られたままである。ユーザは、数個のキーワードを指定して検索を行い、得られたリストの中から必要な情報を選択しなくてはならない。
【0002】
こうした状況の改善策の一つとして、地理的関係を用いた検索手法の導入が考えられる。Webページに記述されている情報に対応した地理属性を抽出し、その属性に基づきWebページを地図上に対応付けると、近傍情報の検索や地理的な分布の取得など、地理的な観点からWebページを検索できるようになる。これに時間的な観点を追加すると、実世界の活動に即した条件によるWeb検索が可能になると考えられる。
【0003】
そこで本発明では、Web情報から抽出した時空間構造に基づき、Webページの検索方法を拡張する。この発明により、例えば「最寄りの…」「営業中の…」といった実生活で必要となる情報を、インターネットから検索できるようになる。このような検索を実用的な速度で行うには、Webページに記述された事物の地理的な属性や時間的な属性をあらかじめ構造化し、データベースに登録しておかなくてはならない。また、大量のWeb情報を網羅するデータベースの作成には、メタ情報が記述されていないHTML文書、メタ情報が記述されているHTML文書、XML形式の文書、XMLデータベースおよび出力形式がXMLであるようなWebサービスなど、様々な形式のWeb情報から時空間属性の抽出を機械的にかつ精度良く行う必要がある。
【0004】
【従来の技術】
ジオリンク京都は、以下の2件の特許に、論文(非特許文献1)で提案した検索機能を追加し、地理的な条件に基づくWebページの検索を実現している。
【0005】
1.特許文献1では、座標付きWebページ収集提供方法を発明している。この特許では、インターネットからWebページを収集する方法と、収集したWebページから検索を目的としたデータベースを作成する方法、そしてネットワークに接続した複数のクライアントからの検索処理方法を発明している。まず、Webロボットを利用して、インターネットからWebページを再帰的に収集し、記述されている情報に従って取捨選択する。そして、選択したWebページからHTMLタグを除去し、形態素解析によって住所や名称などの固有名詞を抽出し、その固有名詞に対応する地理座標を対象地域の地理情報から求める。このWebページの地理情報をURLとともに検索用のデータベースに登録し、コンピュータネットワークに接続された複数の端末からの検索処理を実現する。
【0006】
2.特許文献2では、地図情報とその地図に関連した情報をコンピュータネットワークから受信して端末画面上に重ね合わせて表示する方法を発明している。この2件目の特許は、1件目の特許のユーザインタフェースとなる。
【0007】
このジオリンク京都では、京都市内の事物に関連したWebページをインターネットから収集し、各Webページに記述されている内容から地理座標を求めて検索対象となるデータベースを作成し、クライアントであるユーザインタフェースからの近傍検索やカテゴリ検索、キーワード検索を実現している。
【0008】
横路らの調査(非特許文献2)によると、インターネット上の全WWW文書中の約28%が、住所、ランドマーク、駅などの地理情報を含んでいるという。
【0009】
一方、2001年8月にジオリンク京都で地理属性を付与したWeb情報を対象に時間情報の有無を調査したところ、対象とした1,010サイトのうち、766サイト(75.8%)に時間情報が存在していることがわかった。この766サイトに含まれていた時間情報は、1サイトあたり平均6件、1ページあたり平均3件であった。このWebページ中の時間情報の出現パターンの分類を試みたところ、そのパターンが2,909に及び、そのうち2回以上出現したパターンは456パターンであった。この456パターンにより、1,010サイト中641サイト(63.5%)がカバーされていた。また、その出現パターンを詳しくみると、「8:00〜18:00」「月曜定休」のような営業予定に関する情報や、「11/3運動会」「御用納(12月末)」のようなイベントに関する情報など、時刻や時区間などの時間情報とともにその意味が併せて記述されている場合が多いことがわかった。
【0010】
【特許文献1】
特開2000−339330号公報(特願平11−149100号)
【特許文献2】
特開2000−339328号公報(特願平11−148490号)
【非特許文献1】
平松薫、小林堅治、Benjamin,B.、石田亨、赤埴淳一、「デジタルシティにおける情報検索のための地図インタフェース」、情報処理学会論文誌、vol.41、No.12、pp.3314−3322(2000)
【非特許文献2】
横路誠司、高橋克己、三浦信幸、島健一「位置指向の情報の収集、構造化および検索手法」、情報処理学会論文誌、Vol.41、No.7、pp.1987−1998(2000)
【0011】
【発明が解決しようとする課題】
ジオリンク京都では、地理情報に基づくWebページ検索を実現するとともに、地理属性間の関係に基づきWeb情報の構造化を実現した。また、ジオリンク京都から検索可能なWebページの記述内容に関する調査により、地理情報を含むWebページの多くに時間情報も含まれることがわかった。これらWebページに含まれている地理情報と時間情報が正しく抽出できると、実世界の事物に関するWeb情報を時空間情報に基づき詳細に構造化することができ、その構造に基づく検索処理が可能になる。
本発明は、上述したWebページに含まれている地理情報と時間情報に基づき、時空間構造に基づくWebページ検索方法を実現することを目的とする。
【0012】
【課題を解決するための手段】
インターネット上のWebページを収集し、収集したWebページから時空間情報を抽出し、その時空間情報に基づきWeb情報を構造化したデータベースを作成し、そのデータベースに対する地理条件及び時間条件の指定により、上記目的の検索処理を実現する。
このうち、データベースがインターネット上に発信されているWeb情報を網羅するために、Webロボットを用いて大量のWebページを収集し、図2に示す方法でWebページの形式に応じて場合分けを行い、次の形式のWeb情報から以下のような手段を用いて時空間情報を抽出する。
【0013】
1.メタ情報が記述されていないHTML文書
Webロボットが収集したWebページからHTMLタグを除去し、形態素解析器を用いて住所や名称などの固有名詞と、時間情報の記述部を抽出する。抽出した住所や名称などの固有名詞は、実世界における位置や形状を収録した地理情報データベースと比較し、Webページに記述されている事物に対応する地理空間内の事物を特定し、その位置、形状、住所、座標をWebページの地理属性とする。この際、Webページから抽出した地理属性は、システムの内部処理用の形式へ変換し、事物に関する情報としてデータベースに登録する。
【0014】
ただし、現在インターネットから収集可能なWebページ内の時空間情報の記述は不完全である場合が多いため、Webページから抽出した地理属性と実世界の地理情報を比較する際には、表1に示す手順で順次条件を緩和し、一致する属性の詳細度に基づく得点が最大になるようにWebページと地理座標の対応付けを行う。
【0015】
時間属性については、Webページ中に見られる時間情報の記述パターンに基づき作成した抽出ルールを用いて、Webページ中に記述されている時間属性を特定する。時間属性も地理属性と同様に、Webページから抽出した情報をシステムの内部処理用の形式へ変換し、事物に関する情報としてデータベースに登録する。
【0016】
【表1】
Figure 2004234288
【0017】
2.メタ情報が記述されているHTML文書
Webページに記述されたメタ情報から、事物に関する地理属性および時間属性を抽出し、各属性の形式を内部処理用の形式に整合させ、構造化した上で事物に関する情報をデータベースに登録する。
【0018】
3.XML形式の文書、XMLデータベースおよび出力形式がXMLであるWebサービス
XML−DBやWebサービスから事物に関する構造化された情報を取得し、一旦その構造化されたデータを分解して属性の形式を整合させ、再構成した上でデータベースに登録する。
【0019】
また、時空間構造に基づいた検索処理を実用的な速度で行うために、Webページから抽出した地理的な属性や時間的な属性を図2(3)のように構造化してデータベースに登録する。
【0020】
【発明の実施の形態】
実施例を説明する前にまず用語の意味を説明する。
Web情報:インターネットから取得可能なWWWの情報全体を意味する。
Webページ:Web情報を構成する情報の単位であり、URLと対応する。
メタ情報無しHTML文書:HTMLタグを用いて記述されたWebページで、メタタグ内にシステムが期待する属性が記述されていないものを意味する。
メタ情報ありHTML文書:HTMLタグを用いて記述されたWebページで、メタタグ内にシステムが期待する属性が記述されているものを意味する。
XML形式の文書、XMLデータベース(DB):XMLタグを用いて記述されたWebページ、データベース(DB)による自動作成も含む。
【0021】
以下、本発明の実施例を図を参照して詳細に説明する。本発明のうち、インターネットからの情報収集からデータベースの作成までの処理を行う、時空間属性自動抽出の実施例を図3に示す。この実施例では、Webロボット101(実施例では、Webページ収集ツールwget(http://www.wget.org/)を利用したがこれに限定されない)がインターネットからWeb情報を収集し、モジュール102が収集したWeb情報の形式に応じて処理の場合分けを行う。
【0022】
収集したWeb情報が、メタ情報が記述されていないHTML文書の場合は、タグ除去モジュール103でHTML文書の中のHTMLタグを取り除き、形態素解析器104でHTML文書の本文を形態素ごとに分解し、それぞれに品詞情報を追加する。品詞情報が住所や名称などの固有名詞は、地理情報抽出モジュール105に送り、地理情報データベース106中の事物の情報と比較して、Webページ中の記述されている地理情報を特定する。この比較により、事物の位置、形状、住所、座標をWebページを求める。
【0023】
例えば、Web情報の中に「京都府相楽郡精華町光台7−43東光小学校」と記述されていた場合、形態素解析により「京都府」「相楽郡」「精華町」「光台」「7」「−」「43」「東光」「小学校」のように分解され、各々の語句に対し「地名」「数詞」「記号」「固有名詞」「一般名詞」というように分類情報が付与される。このうち、地名と数詞と記号の連続する部分を住所、固有名詞と一般名詞による名詞句の部分を名称と見なし、その組み合わせに対応する地図上の事物を電子化された住宅地図から検索し、Web情報の中に記述されている事物を特定する。そして、特定した事物の住宅地図上の住所および名称の記述を正規化された地理属性とし、「都道府県」「市」「区」「町」「番地」「名称」という分割された形式でデータベースへ登録する。なお、実施例では住宅地図に(株)ゼンリンのZMAP−TownIIを利用し、その中の記述方法に合わせて地理属性の正規化を行ったが、この正規化処理はZMAP−TownIIに依存するものではない。住所及び名称が含まれる同等の電子地図が利用できれば良い。また、内部処理で利用するデータベースへの地理属性の登録形式は、実施例では上記のようにしているが、対応する属性情報が含まれていれば、この形式には限定されない。
【0024】
また、品詞情報により数値が記述されていると判明した部分とその前後は、時間情報抽出モジュール107へ送り、時間情報出現パターン108と比較し、Webページ中の記述されている時間情報を特定する。
【0025】
例えば、「営業時間 午前10時〜午後3時」とWeb情報内に記述があった場合、まず「10時」「3時」の部分が時間コア要素として抽出する。そして、時間コア要素の前後の部分「午前」「午後」を時間関連要素として抽出し、時間コア要素との修飾関係から、「10時」が24時間表記で「10時」、「3時」が24時間表記で「15時」であることを求める。また、区切り記号「〜」により、上記2つの時刻より時区間が記述されていることを認識し、その前に記述されている「営業時間」から抽出した時間属性の種類を特定する。なお、時間情報出現パターンは、上記に限定されない。対象となるWeb情報に合わせて、数値表記、区切り記号、時区間の種類をパターンとして用意することにより、Web情報からの時間属性の抽出が可能となる。
【0026】
また、時間表現が表に含まれる場合は、その行もしくは列のタイトルを時間属性の種類とするが、上記のように特に構造のない場合は、時間表記の前後からの時間属性の種類を抽出する。
【0027】
抽出されたWeb情報の時間属性は、時区間の場合は24時間表記された開始時間と終了時間、時刻の場合は24時間表記された時刻、そしてその時間属性の種類が内部処理用のデータベースに登録される。本実施例では、上記のような形式でデータベースへの登録を行ったが、対応する時間属性情報が含まれていれば、この形式に限定されるものではない。
【0028】
以上により特定された地理情報および時間情報は、時空間属性構造化モジュール109で図2(3)のように構造化し、時空間構造データベース110へ登録する。なお、図2(3)の形式は本実施例で用いた形式であり、対応する情報が含まれていれば、その形式は限定されない。
【0029】
収集したWeb情報が、メタ情報が記述されているHTML文書の場合は、HTMLタグ解析111でHTML文書中の記述情報の構造を求め、タグ分析112で地理情報及び時間情報が記述されている部分を特定する。そして、フォーマット変換113により、抽出した時空間情報をHTML文書中の形式から内部処理用のデータベース用の形式に変換し、時空間属性構造化モジュール109で図2(3)のように構造化し、時空間構造データベース110へ登録する。なお、上記の時空間情報の形式変換は、HTMLタグを含まないHTML文書に対する処理に準じて行う。また、図2(3)の形式は本実施例で用いた形式であり、対応する情報が含まれていれば、その形式は限定されない。
【0030】
また、収集したWeb情報が、XML形式の文書、XMLデータベースおよび出力形式がXML形式であるWebサービスの出力結果の場合は、XMLタグ解析114で情報中の記述情報の構造を求め、タグ分析115で地理情報及び時間情報が記述されている部分を特定する。そして、フォーマット変換116により、抽出した時空間情報を収集した情報の中の形式から内部処理用のデータベース用の形式に変換し、時空間属性構造化モジュール109で図2(3)のように構造化し、時空間構造データベース110へ登録する。なお、上記の時空間情報の形式変換は、HTMLタグを含まないHTML文書に対する処理に準じて行う。また、図2(3)の形式は本実施例で用いた形式であり、対応する情報が含まれていれば、その形式は限定されない。
【0031】
一方、検索インタフェースの実施例を図4に示す。検索インタフェース202は、接続経路203を経由して、時空間構造データベース管理システム201に接続し、ユーザからの検索要求に応える。
【0032】
このうち接続経路203は、検索インタフェース202からの検索要求を時空間構造データベース管理システム201へ送信し、その検索結果を構造データベース管理システム201から検索インタフェース202へ送信するために利用する経路であり、インターネット上でWeb情報転送のために用いるプロトコル、複数のコンピュータ間の通信のために用いるプロトコル、同一コンピュータ内で異なるプロセス間の通信のために用いるプロトコルのいずれかを用いて接続して通信する。
【0033】
検索インタフェース202からの検索要求の記述には、拡張Web空間のための検索言語(平松薫、石田亨:地域情報サービスのための拡張Web空間、情報処理学会論文誌:データベース、Vol.41、No.SIG6(TOD7)、pp.81−90(2000))に、Webページの時間属性評価を追加した検索言語を用いる。この検索言語により、時空間属性を含めたWebページの属性とWebページ間のリンク関係に関する条件を組み合わせた検索式を、SQLに似た形式で記述する。
【0034】
この検索インタフェースの実施例のうち、文章形式で検索条件を入力する場合の画面イメージを図5に示す。この場合は、SAIQAの質問解析モジュール(佐々木裕、磯崎秀樹、平博順、平尾努、賀沢秀人、鈴木潤、国領弘治、前田英作:SAIQA:大量文書に基づく質問応答システム、情報処理学会研究報告 2001−FI−64、pp.77−82(2001))を利用して、質問タイプの分類とキーワードの抽出を行い、入力された条件の質問タイプに応じてデータベースの検索式を拡張Web空間のための検索言語に基づき作成する。
【0035】
例えば「金閣寺の近くのバス停は?」という検索条件が入力された場合には、キーワードとして「金閣寺」と「バス停」が抽出される。また、「○○の近くの○○は?」という質問タイプに基づき、「金閣寺」の近くにある「バス停」を検索するための検索式(図1)が作成される。作成された検索式では、「近く」という条件が200m未満という形に変換されているが、これはシステムの既定値に基づいた処理の結果である。
【0036】
そして、ユーザインタフェースシステムは、作成された検索式に基づきデータベースの検索を行い、その検索結果を表形式などで表示する。なお、質問解析モジュールによる文章形式の検索条件の質問タイプの分類やキーワードの抽出は、上記の例に限定されない。
【0037】
また、この検索インタフェースの実施例のうち、フォーム形式で検索条件を入力する場合の画面イメージを図6に示す。このフォームの各行は、データベースに対する検索式の中の条件と一対一で対応する。上部のボタンで条件の追加、左側のチェックボックスで利用する条件の選択、右側のボタンで入力した条件の削除を行い、プルダウンメニューから条件中の属性や演算子を選択しながら検索条件を作成する。ユーザが検索実行ボタンを押すと、ユーザインタフェースシステムが、フォームに入力された条件をまとめて検索式を作成し、データベースの検索を実行する。なお、図6の例では、図5と同じ検索条件が指定されているため、作成される検索式も図1のようになる。
【0038】
最後に、この検索インタフェースの実施例のうち、検索結果表示の画面イメージを図7に示す。右下のフレームが検索条件入力用のフレームであり、左上のメニューにより、文章形式による入力もしくはフォーム形式による入力を選択することができる。検索結果は、左上の地図表示、中央上の木構造形式、右上の3次元の木構造形式、および中央下の表形式で表示される。なお、中央及び左下は、検索結果に対応するWebページをWebブラウザで表示したものである。
【0039】
木構造形式の検索結果の表示では、入力された検索条件に基づき、検索結果に含まれるWebページ間の関係が木構造形式で表示される。図7中央上のフレームでは、検索結果として、検索条件TOPから金閣寺のWebページ、金閣寺前のバス停に関するWebページへの関係が、階層化されて表示されている。また、図7右上のフレームでは、中央上のフレームと同様の検索結果が3次元の木構造表示により表示されている。
【0040】
表形式のフレームでは、検索されたWebページに含まれる情報に関する地理座標、タイトル、カテゴリ、URLといった属性値が表示される。そして、地理属性を含む検索結果が、その地理座標に従い地図上にプロットされる。この地図は、マウス操作による表示範囲の移動と、メニューにより拡大、縮小を行うことができる。
【0041】
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0042】
【発明の効果】
以上述べたように本発明によれば、
(1)インターネット上のWeb情報を時空間情報に基づき構造化でき、
(2)地理条件及び時間条件により検索できる、
という効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施例の検索式の例を示す図である。
【図2】本発明の実施例のWeb情報からの時空間属性抽出処理の流れを示す図である。
【図3】時空間属性自動抽出の実施例を示す図である。
【図4】検索インタフェースの実施例を示す図である。
【図5】検索条件の入力(文章形式)の画面例である。
【図6】検索条件の入力(フォーム形式)の画面例である。
【図7】検索インタフェースの画面例(ディスプレイ上に表示された中間調画像の写真)である。
【符号の説明】
101…Webロボット、102…モジュール、103…タグ除去モジュール、104…形態素解析器、105…地理情報抽出モジュール、106…地理情報データベース、107…時間情報抽出モジュール、108…時間情報出現パターン、109…時空間属性構造化モジュール、110…時空間構造データベース、111…HTMLタグ解析、112…タグ分析、113…フォーマット変換、114…XMLタグ解析、115…タグ分析、116…フォーマット変換

Claims (19)

  1. インターネット上のWeb情報を検索する方法において、
    インターネット上のWeb情報を取得するステップと、
    取得したWeb情報からメタ情報のないHTML文書を選択するステップと、
    HTML文書中のHTMLタグの除去と形態素解析を行うステップと、
    HTML文書中の固有名詞のうち地名、住所、建物名、組織名、および個人名と、地理情報データベースを比較してHTML文書の地理属性を特定するステップと、
    HTML文書中に数値で記述されている部分とその前後の記述と時間情報の出現パターンを比較してHTML文書の時間属性を特定するステップと、
    対象となっているHTML文書を時空間属性により構造化してデータベースへ登録するステップと、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行うステップと、
    指定した条件に合致する検索結果を返すステップ
    を備えるWeb検索方法。
  2. インターネット上のWeb情報を検索する方法において、
    インターネット上のWeb情報を取得するステップと、
    取得したWeb情報からメタ情報のあるHTML文書を選択するステップと、HTMLタグの解析によりHTML文書に記述されている情報の構造を取得するステップと、
    タグ分析により地理情報及び時間情報の記述されている部分を特定するステップと、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているHTML文書の時空間属性とし、それをデータベースに登録するステップと、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行うステップと、
    指定した条件に合致する検索結果を返すステップ
    を備えるWeb検索方法。
  3. インターネット上のWeb情報を検索する方法において、
    インターネット上のWeb情報を取得するステップと、
    取得したWeb情報からXML形式の文書を選択するステップと、
    XMLタグの解析により文書に記述されている情報の構造を取得するステップと、
    タグ分析により地理情報及び時間情報の記述されている部分を特定するステップと、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているXML文書を時空間属性とし、それをデータベースに登録するステップと、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行うステップと、
    指定した条件に合致する検索結果を返すステップ
    を備えるWeb検索方法。
  4. 前記検索インタフェースが、フォーム形式により少なくとも時間条件を検索条件として受け付けるステップを備える請求項1、2、3いずれか1項に記載のWeb検索方法。
  5. 前記検索インタフェースが、自然言語による文章で検索条件を受け付けるステップと、その文章からキーワードの抽出と質問のタイプの判別を行い、データベースへの検索式を作成するステップを備えることを特徴とする請求項1、2、3いずれか1項に記載のWeb検索方法。
  6. 前記検索インタフェースが、表形式表示、木構造形式表示、地理属性を持つ検索結果の地図上へのプロット表示の少なくとも1つ以上を組み合わせて検索結果を表示するステップを備える請求項1、2、3いずれか1項に記載のWeb検索方法。
  7. インターネット上のWeb情報を検索する装置において、
    インターネット上のWeb情報を取得する手段と、
    その中からメタ情報のないHTML文書を選択する手段と、
    HTML文書中のHTMLタグの除去と形態素解析を行う手段と、
    HTML文書中の固有名詞のうち地名、住所、建物名、組織名、および個人名と、地理情報データベースを比較してHTML文書の地理属性を特定する手段と、
    HTML文書中に数値で記述されている部分とその前後の記述と時間情報の出現パターンを比較してWebページの時間属性を特定する手段と、
    対象となっているHTML文書を時空間属性により構造化してデータベースへ登録する手段と、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う手段と、
    指定した条件に合致する検索結果を返す手段
    を備えるWeb検索装置。
  8. インターネット上のWeb情報を検索する装置において、インターネット上のWeb情報を取得する手段と、
    取得したWeb情報からメタ情報のあるHTML文書を選択する手段と、
    HTMLタグの解析によりHTML文書に記述されている情報の構造を取得する手段と、
    タグ分析により地理情報及び時間情報の記述されている部分を特定する手段と、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているHTML文書の時空間属性とする手段と、
    それをデータベースに登録する手段と、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う手段と、
    指定した条件に合致する検索結果を返す手段
    を備えるWeb検索装置。
  9. インターネット上のWeb情報を検索する装置において、
    インターネット上のWeb情報を取得する手段と、
    取得したWeb情報からXML形式の文書を選択する手段と、
    XMLタグの解析により文書に記述されている情報の構造を取得する手段と、
    タグ分析により地理情報及び時間情報の記述されている部分を特定する手段と、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているXML文書の時空間属性とする手段と、
    それをデータベースに登録する手段と、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う手段と、
    指定した条件に合致する検索結果を返す手段
    を備えるWeb検索装置。
  10. 前記検索インタフェースが、フォーム形式により少なくとも時間条件を検索条件中として受け付ける手段を備える請求項7、8、9いずれか1項に記載のWeb検索装置。
  11. 前記検索インタフェースが、自然言語による文章で検索条件を受け付ける手段と、受け付けた文章からキーワードの抽出と質問のタイプの判別を行う手段と、それに基づきデータベースへの検索式を作成する手段を備える請求項7、8、9いずれか1項に記載のWeb検索装置。
  12. 前記検索インタフェースが、表形式表示、木構造形式表示、地理属性を持つ検索結果の地図上へのプロット表示の少なくとも1つ以上を組み合わせた検索結果表示手段を備える請求項7、8、9いずれか1項に記載のWeb検索装置。
  13. インターネット上のWeb情報を検索するプログラムであって、コンピュータに、
    インターネット上のWeb情報を取得する処理と、
    その中からメタ情報のないHTML文書を選択する処理と、
    HTML文書中のHTMLタグの除去と形態素解析を行う処理と、
    HTML文書中の固有名詞のうち地名、住所、建物名、組織名、および個人名と、地理情報データベースを比較してHTML文書の地理属性を特定する処理と、
    HTML文書中に数値で記述されている部分とその前後の記述と時間情報の出現パターンを比較してHTML文書の時間属性を特定する処理と、
    対象となっているHTML文書を時空間属性により構造化してデータベースへ登録する処理と、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う処理と、
    指定した条件に合致する検索結果を返す処理
    を実行させるためのプログラム。
  14. インターネット上のWeb情報を検索するプログラムであって、コンピュータに、
    インターネット上のWeb情報を取得する処理と、
    取得したWeb情報からメタ情報のあるHTML文書を選択する処理と、
    HTMLタグの解析によりHTML文書に記述されている情報の構造を取得する処理と、
    タグ分析により地理情報及び時間情報の記述されている部分を特定する処理と、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているHTML文書の時空間属性とする処理と、
    それをデータベースに登録する処理と、検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う処理と、
    指定した条件に合致する検索結果を返す処理
    を実行させるためのプログラム。
  15. インターネット上のWeb情報を検索するプログラムであって、コンピュータに、
    インターネット上のWeb情報を取得する処理と、
    取得したWeb情報からXML形式の文書を選択する処理と、
    XMLタグの解析により文書に記述されている情報の構造を取得する処理と、タグ分析により地理情報及び時間情報の記述されている部分を特定する処理と、
    その地理情報及び時間情報それぞれを内部処理用のデータベース用の形式に変換して対象となっているXML文書の時空間属性とする処理と、
    それをデータベースに登録する処理と、
    検索インタフェースから地理条件及び時間条件を指定してそのデータベースの検索を行う処理と、
    指定した条件に合致する検索結果を返す処理
    を実行させるためのプログラム。
  16. 前記検索インタフェースが、フォーム形式により少なくとも時間条件を検索条件として受け付ける処理を含む請求項13、14、15いずれか1項に記載のプログラム。
  17. 前記検索インタフェースが、自然言語による文章で検索条件の入力を受け付ける処理と、その文章からキーワードの抽出と質問のタイプの判別を行ってデータベースへの検索式を作成する処理を含む請求項13、14、15いずれか1項に記載のプログラム。
  18. 前記検索インタフェースが、表形式表示、木構造形式表示、地理属性を持つ検索結果の地図上へのプロット表示の少なくとも1つ以上を組み合わせて検索結果を表示する処理を含む請求項13、14、15いずれか1項に記載のプログラム。
  19. 請求項13ないし18のうちいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003021457A 2003-01-30 2003-01-30 Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体 Pending JP2004234288A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003021457A JP2004234288A (ja) 2003-01-30 2003-01-30 Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003021457A JP2004234288A (ja) 2003-01-30 2003-01-30 Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004234288A true JP2004234288A (ja) 2004-08-19

Family

ID=32950788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003021457A Pending JP2004234288A (ja) 2003-01-30 2003-01-30 Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004234288A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006059049A (ja) * 2004-08-19 2006-03-02 Fuji Xerox Co Ltd 情報検索システム、情報検索方法及び情報検索プログラム
JP2006127509A (ja) * 2004-10-29 2006-05-18 Microsoft Corp 地理的検索機能を提供するシステムおよび方法
JP2006155275A (ja) * 2004-11-30 2006-06-15 Denso It Laboratory Inc 情報抽出方法及び情報抽出装置
JP2007249322A (ja) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp 文書視覚化装置及び文書視覚化プログラム
JP2009019976A (ja) * 2007-07-11 2009-01-29 Denso Corp 車両用情報表示装置
JP2009054036A (ja) * 2007-08-28 2009-03-12 Zenrin Datacom Co Ltd データベース生成方法、データベース生成装置、およびコンピュータプログラム
JP2010518495A (ja) * 2007-02-05 2010-05-27 グーグル・インコーポレーテッド 構造化された地理的なデータの検索
JP2010122841A (ja) * 2008-11-19 2010-06-03 Clarion Co Ltd 道路情報提供サービスセンタ装置、道路情報提供方法およびカーナビゲーション装置
JP2012099138A (ja) * 2005-03-02 2012-05-24 Google Inc 構造化情報の生成
JP2012164202A (ja) * 2011-02-08 2012-08-30 Denso It Laboratory Inc 関連度出力装置、関連度出力方法、およびプログラム
JP2012256356A (ja) * 2012-08-15 2012-12-27 Zenrin Datacom Co Ltd 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム
JP2013105282A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP2013242620A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 近隣情報検索装置及び方法及びプログラム
WO2016151690A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 文書検索装置、方法及びプログラム
JP7455162B2 (ja) 2022-07-08 2024-03-25 株式会社トヨタシステムズ 情報管理システム、情報管理装置、情報管理方法及び情報管理プログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543819B2 (ja) * 2004-08-19 2010-09-15 富士ゼロックス株式会社 情報検索システム、情報検索方法及び情報検索プログラム
JP2006059049A (ja) * 2004-08-19 2006-03-02 Fuji Xerox Co Ltd 情報検索システム、情報検索方法及び情報検索プログラム
JP2006127509A (ja) * 2004-10-29 2006-05-18 Microsoft Corp 地理的検索機能を提供するシステムおよび方法
KR101153030B1 (ko) 2004-10-29 2012-06-04 마이크로소프트 코포레이션 지리적 검색 기능을 제공하는 시스템 및 방법
JP2006155275A (ja) * 2004-11-30 2006-06-15 Denso It Laboratory Inc 情報抽出方法及び情報抽出装置
JP2012099138A (ja) * 2005-03-02 2012-05-24 Google Inc 構造化情報の生成
JP2007249322A (ja) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp 文書視覚化装置及び文書視覚化プログラム
KR101450358B1 (ko) * 2007-02-05 2014-10-14 구글 인코포레이티드 구조형 지리적 데이터 검색
JP2010518495A (ja) * 2007-02-05 2010-05-27 グーグル・インコーポレーテッド 構造化された地理的なデータの検索
JP2009019976A (ja) * 2007-07-11 2009-01-29 Denso Corp 車両用情報表示装置
JP2009054036A (ja) * 2007-08-28 2009-03-12 Zenrin Datacom Co Ltd データベース生成方法、データベース生成装置、およびコンピュータプログラム
JP2010122841A (ja) * 2008-11-19 2010-06-03 Clarion Co Ltd 道路情報提供サービスセンタ装置、道路情報提供方法およびカーナビゲーション装置
JP2012164202A (ja) * 2011-02-08 2012-08-30 Denso It Laboratory Inc 関連度出力装置、関連度出力方法、およびプログラム
JP2013105282A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP2013242620A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 近隣情報検索装置及び方法及びプログラム
JP2012256356A (ja) * 2012-08-15 2012-12-27 Zenrin Datacom Co Ltd 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム
WO2016151690A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 文書検索装置、方法及びプログラム
JPWO2016151690A1 (ja) * 2015-03-20 2017-05-25 株式会社東芝 文書検索装置、方法及びプログラム
US10929446B2 (en) 2015-03-20 2021-02-23 Kabushiki Kaisha Toshiba Document search apparatus and method
JP7455162B2 (ja) 2022-07-08 2024-03-25 株式会社トヨタシステムズ 情報管理システム、情報管理装置、情報管理方法及び情報管理プログラム

Similar Documents

Publication Publication Date Title
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US7660783B2 (en) System and method of ad-hoc analysis of data
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
JP2004234288A (ja) Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
US20090112862A1 (en) Image-based search system and method
KR101354721B1 (ko) 검색 시스템 및 검색 서비스 방법
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
JP2006277169A (ja) 画像データの管理
JP2003076715A (ja) ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体
JPH11224256A (ja) 情報検索方法および情報検索プログラムを記録した記録媒体
JP2006331292A (ja) Weblogコミュニティ検索支援方法、検索支援装置および検索支援方法のプログラムを記録した記録媒体
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP5121872B2 (ja) 画像検索装置
JP2000339330A (ja) 座標付きホームページ情報収集提供方法、記録媒体及び装置
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
KR100943625B1 (ko) 지역 정보와 웹사이트 정보의 통합 관리를 위한 통합데이터베이스 생성 방법 및 시스템과 그에 의해 생성된통합 데이터베이스를 이용한 검색 결과 제공 방법
JP2004220267A (ja) 画像検索方法および装置と画像検索プログラムおよび該プログラムを記録した記録媒体
WO2004102426A1 (en) A method of providing website searching service and a system thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061003