JP2004318506A - 文書情報検索装置及び文書検索方法並びにそのプログラム - Google Patents
文書情報検索装置及び文書検索方法並びにそのプログラム Download PDFInfo
- Publication number
- JP2004318506A JP2004318506A JP2003111729A JP2003111729A JP2004318506A JP 2004318506 A JP2004318506 A JP 2004318506A JP 2003111729 A JP2003111729 A JP 2003111729A JP 2003111729 A JP2003111729 A JP 2003111729A JP 2004318506 A JP2004318506 A JP 2004318506A
- Authority
- JP
- Japan
- Prior art keywords
- information
- time
- block information
- update date
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】キーワードに基づいたウェブページの検索の精度が高い文書情報検索装置を提供することを目的とする。
【解決手段】収集したウェブページの中から、検索者の指定したキーワードを含むウェブページを検索するシステムにおいて、キーワードを含むウェブページのブロック部分(ブロック情報)の更新日時に基づいてウェブページのURLを検索する。
【選択図】 図1
【解決手段】収集したウェブページの中から、検索者の指定したキーワードを含むウェブページを検索するシステムにおいて、キーワードを含むウェブページのブロック部分(ブロック情報)の更新日時に基づいてウェブページのURLを検索する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、コンピュータシステムに係り、特に、文書情報検索装置及び文書検索方法並びにそのプログラムに関するものである。
【0002】
【従来の技術】
WWW(World Wide Web)上で提供されるウェブページを検索するシステムには、人手により、収集されたウェブページのデータが入力されるディレクトリ型検索システムや、ウェブページのデータの収集をプログラムが行うロボット型の検索システムなどがある。ここで、大量のウェブページが存在する現状では人手でウェブページのデータの入力を行うのは非常に労力がかかるため、ウェブページを検索するシステムとしてロボット型検索システムを採用することが主流となっている。
ロボット型検索システムでは、検索したキーワードが含まれるウェブページの出力結果が多いときには数千から数十万のウェブページを出力することとなってしまうので、検索者はその出力結果の中から必要としている情報を探し出すのは非常に困難になる。そのために様々な手法を用いて出力する検索ウェブページの順位付けを行い、利用者の情報検索の労力を削減する処理をウェブページの検索システムに組み込んでいる。その出力の順位付けの手法としてウェブページのリンク情報を元にウェブページの重要度を算出したり、更新された日時を推定したりして、重要度や日時の順で検索されたウェブページを出力する手法が考えられている。そして従来は、上述の検索システムのように、ウェブページの重要度や更新された日時に基づいて検索結果の順位付けを行い、ウェブページのURLの情報などを出力している。なお、ウェブページの更新された日時を推定し、その日時に基づいて検索結果の順位付けを行なう技術が公開されている(例えば、特許文献1参照。)。
【0003】
【特許文献1】
特開2002−334090号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上述の検索方法により出力されたウェブページは、検索者が入力したキーワードを含む部分が時間の経過している古い情報の部分であっても、ウェブページ自体の更新日時が最新を示してれば最新の情報だと判断されてしまう。このようなことは特に電子掲示板や、個人の日記サイトのようにひとつのウェブページ上に、どんどん新しい情報を追加していき、古い情報と新しい情報が混在しているようなウェブページに多く見られる。
このように、従来の方法ではキーワードに基づくウェブページの検索を行なう際に、特にウェブページの日付順の検索を行った場合には、キーワードを含む文書の更新日時とは関係のない日時で日付順の検索を行ってしまい、利用者が必要としているキーワードを含む部分の日付順の検索の精度が低下するという問題点がある。
そこでこの発明は、キーワードに基づいたウェブページの検索の精度が高い文書情報検索装置及び文書検索方法並びにそのプログラムを提供することを目的としている。
【0005】
【課題を解決するための手段】
本発明は、上述の課題を解決すべくなされたもので、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースと、収集した文書情報を複数のブロック情報に分割する文書情報分割手段と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定手段と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録手段とを備えることを特徴とする文書情報検索装置である。
【0006】
上述の構成によれば本発明は、文書情報を分割したブロック情報の更新日時を推定してデータベースに記録するので、ブロック情報毎の更新された日時を把握することができる。
【0007】
また本発明は、上述の文書情報検索装置において、キーワードを受付けるキーワード受付け手段と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索手段とを備えることを特徴とする。これにより、ブロック情報の更新日時に基づいてキーワードが含まれるブロック情報を読み取ることができる。
【0008】
また本発明は、上述の文書情報検索装置において、前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力手段を備えることを特徴とする。これにより、文書情報または文書情報の関連情報を、ブロック情報の更新日時の順番で出力することができる。
【0009】
また本発明は、上述の文書情報検索装置において、期間を受付ける期間受付け手段を備え、前記検索手段は、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする。これにより、受付けた期間内に含まれる更新日時のブロック情報を読み取ることができる。
【0010】
また本発明は、上述の文書情報検索装置において、前記更新日時推定手段は、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録することを特徴とする。これにより、ブロック情報に対応する文書情報またはブロック情報に対応する文書情報の収集日時の何れかに基づくブロック情報の更新日時、または、データベースに記録されているブロック情報の更新日時のどちらかの日時をデータベースに記録する更新日時として推定することができる。
【0011】
また本発明は、上述の文書情報検索装置において、前記文書情報分割手段は、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする。これにより、文書情報の変更される部分ごとにブロック情報を作成することができる。
【0012】
また本発明は、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置における文書情報検索方法であって、収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程とを含むことを特徴とする文書情報検索方法である。
【0013】
また本発明は、上述の文書情報検索方法において、キーワードを受付けるキーワード受付け過程と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程とを含むことを特徴とする。
【0014】
また本発明は、上述の文書情報検索方法において、前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程とを含むことを特徴とする。
【0015】
また本発明は、上述の文書情報検索方法において、期間を受付ける期間受付け過程を含み、前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする。
【0016】
また本発明は、前記文書情報分割過程において、前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録することを特徴とする。
【0017】
また本発明は、前記文書情報分割過程において、前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする。
【0018】
また本発明は、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置のコンピュータに実行させるプログラムであって、収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程との処理を実行するプログラムである。
【0019】
また本発明は、上述のプログラムがキーワードを受付けるキーワード受付け過程と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程との処理を実行することを特徴とする。
【0020】
また本発明は、上述のプログラムが前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程の処理を実行することを特徴とする。
【0021】
また本発明は、上述のプログラムが期間を受付ける期間受付け過程の処理を実行し、前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取る処理を行なうことを特徴とする。
【0022】
また本発明は、上述のプログラムが前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録する処理を行なうことを特徴とする。
【0023】
また本発明は、上述のプログラムが前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割する処理を行なうことを特徴とする。
【0024】
【発明の実施の形態】
以下、本発明の一実施形態による文書情報検索装置を図面を参照して説明する。
図1は、この発明の一実施形態による文書情報検索システムの構成を示す概略ブロック図である。
この図において符号1は文書情報検索装置である。また2はインターネット上に接続したウェブサーバから、当該ウェブサーバの提供するウェブページを収集する収集ロボットである。また3は収集ロボット2の収集したウェブページのデータ(HTML文書(文書情報))とそのウェブページのURL(Uniform Resource Locator(文書情報の関連情報))と収集日時とを対応付けて記録する収集データベースである。また4はウェブページをインターネット上に提供するウェブサーバ、5はインターネットに接続した無数のウェブサーバ4により提供されているウェブページを検索する検索者の端末である。
【0025】
また、文書情報検索装置1において、符号11はウェブページのHTML文書を分割したブロック情報とそのブロック情報の更新日時を対応付けたブロック情報・更新日時対応テーブルと、ウェブページのURLとそのURLのウェブページを構成するブロック情報のブロックIDを対応付けたURL・ブロックID対応テーブルとを記憶するブロック情報データベースである。また12は検索者から受付けたキーワードを分解した品詞とその品詞を含むウェブページのURLと当該URLの更新日時とを対応付けて記憶する検索インデックスデータベースである。
【0026】
また13は収集データベース3に記録されているウェブページのHTML文書や、当該ウェブページのHTML文書を収集した収集日時や、ウェブページを分割したブロック情報や、ブロック情報データベース11に記録されているブロック情報に基いて、ブロック情報の更新日時を推定する更新日時推定部(文書情報分割手段、更新日時推定手段、ブロック情報記録手段)である。また14はブロック情報データベース11で記憶するブロック情報・更新日時対応テーブルやURL・ブロックID対応テーブルに基いて、品詞とURLと更新日時とが対応する検索インデックスを作成し、検索インデックスデータベース12に記録する検索インデックス作成部である。また15は検索者の端末5から受信したキーワードに基づいて検索インデックスデータベース12を検索する情報検索部(キーワード受付け手段、検索手段)である。また16は情報検索部16の出力した検索結果に基づいてウェブページのURLと更新日時の対応表を端末5に送信する検索結果出力部(検索結果出力手段、検索結果出力手段)である。
【0027】
そして、文書情報検索装置1は、予め収集ロボット2がウェブサーバ4から収集して収集データベース3に記録したウェブページのデータをブロック情報に分割しブロック情報データベース11に記録する。その際に、文書情報検索装置1は後述する処理に基づいて各ブロック情報の更新日時を推定し、ブロック情報に対応付けて記録しておく。また文書情報検索装置1は、単語ごとに、その単語を含むウェブページのURLと更新日時を対応付けて検索インデックスデータベース12に記憶しておく。なお検索インデックスデータベース12に記録される更新日時は、その更新日時に対応する単語を含むブロック情報の更新日時である。そして検索結果出力部16は検索インデックスデータベース12に記録されている更新日時の順番で、単語に対応するURLを出力する。これにより、出力結果は、ユーザが検索指示したキーワードから得られる単語を含むブロック情報の更新日時基づいて、そのブロック情報により構成されるウェブページのURLが表示されることとなる。なお、ブロック情報データベース11に記録されるデータの例を図2に示す。この図が示すようにブロック情報データベース11はブロック情報・更新日時対応テーブルとURL・ブロックID対応テーブルを保持している。また検索インデックスデータベース12に記録されるデータ例を図3に示す。この図が示すように検索インデックスデータベース12は品詞とその品詞を含むウェブページのURLと更新日時とを対応付けたテーブル記憶している。
【0028】
次に、図4を参照してブロック情報データベースを作成する処理について説明する。図4はブロック情報データベースを作成する処理フローを示す図である。
まず、更新日時推定部13は収集ロボット2がウェブサーバ4から収集して収集データベース3に記録したウェブページのHTML文書とそのURLとウェブページのHTML文書を収集した収集日時とを取得する(ステップS101)。
【0029】
次に、更新日時推定部13は取得したウェブページのHTML文書の構文解析を行なう。ここで、HTML文書の文法は「<HTML><HEAD><TITLE>title</TITLE></HEAD><BODY>本文</BODY></HTML>」のように<>で囲まれるタグの部分と、それ以外の部分に分かれる。なおタグとはHTMLのプログラム言語で記述された文書をウェブブラウザに読み込ませた時にウェブブラウザ上でのHTML文書の表示方法の命令を表すコマンドである。そして、HTML文書はタグに基づいて「HTML→HEAD→TITLE、HTML→BODY」などのような<HTML>を根とする木構造として表すことができる。これにより更新日時推定部13はHTML文書の構文解析して、HTML文書の木構造のデータを作成する。
【0030】
次に、更新日時推定部13は作成した木構造に基づいてウェブページのデータを分割したブロック情報を作成する(ステップS102)。例えば更新日時推定部13は、ウェブページのHTML文書のうちタグに基づいて分割された「<TITLE>titie</TITLE>」の部分をひとつのブロックとして考え、「<TITLE>titie</TITLE>」に基づいて「title」のようなテキストのデータと「<TITLE>」のようなタグの属性とを用いて、「TITLE>title」のような文字列のデータを作成する。この「TITLE>title」のような文字列がブロック情報である。
【0031】
次に、更新日時推定部13は作成したブロック情報の更新日時を推定する。この更新日時の推定は、まず、更新日時推定部13はブロック情報データベース11を検索して、作成したブロック情報と同一の文字列を示すブロック情報が記録されているか否かを判定する。
そして、作成したブロック情報と同一の文字列を示すブロック情報がない場合には、ブロック情報を作成した元のウェブページのHTML文書と対応付けられて収集データベース3に記録されている収集日時をブロック情報の更新日時として推定する。また更新日時推定部13は、作成したブロック情報と同一の文字列を示すブロック情報が、ブロック情報データベース11に記録されているブロック情報の中に存在する場合には、作成したブロック情報の元となるウェブページのHTML文書に対応づけられて収集データベース3に記録されている収集日時か、またはブロック情報データベース11に記録されているブロック情報に対応付けられている更新日時のいずれか古い日時を、ブロック情報データベース11に新しく記録する更新日時として推定する。
【0032】
そして更新日時推定部13は、推定した更新日時とブロック情報と該ブロック情報を識別する為のブロックIDとを対応付けてブロック情報データベース11のブロック情報・更新日時対応テーブルに記録する(ステップS103)。なお、更新日時推定部13は、収集データベース3に記録されている収集日時以外に、ウェブページのHTML文書に記録されたHTML文書の作成日時を更新日時として推定するようにしても良い。また、更新日時推定部13はHTML文書の内容から更新日時を推定するようにしてもよい。つまり、更新日時推定部13はHTM文書またはHTML文書の収集日時の何れかに基づいて更新日時を推定する。
【0033】
次に、更新日時推定部13はウェブページのURLと、そのURLのウェブページのHTML文書を分割して作成したブロック情報のブロックIDとを対応付けてブロック情報データベース11のURL・ブロックID対応テーブルに記録する(ステップS104)。そして、更新日時推定部13は収集データベース3に記録されている全てのウェブページのURLについて上述のステップS101〜ステップS104までの処理が終了したか否かを判定し(ステップS105)、終了していない場合にはステップS101〜ステップS104の処理を繰り返す。
【0034】
次に図5を参照して検索インデックスデータベースを作成する際の処理について説明する。図5は検索インデックスデータベースを作成する処理フローを示す図である。
まず、検索インデックス作成部14はブロック情報データベース11のURL・ブロックID対応テーブルにおいて、ウェブページのURLに対応して記録されているブロックIDを読み取る(ステップS201)。そして、検索インデックス作成部14は、読み取ったブロックIDに対応付けられているブロック情報を順次ブロック情報データベース11のブロック情報・更新日時対応テーブルから読み取る。次に、検索インデックス作成部14は読み取ったブロック情報からタグの属性を除いたテキストデータのみを取得する(ステップS202)。そして、検索インデックス作成部14は取得したテキストデータに対して形態素解析を行い品詞に分解する(ステップS203)。なお、形態素解析とは「本日は晴天。」などという日本語の文に対して、単語の品詞の推定を行って、文を品詞に分解する処理のことである。この処理を行うことで「本日」「は」「晴天」のように分解する。このような形態素解析を行い、テキストデータを品詞に分解する。
【0035】
次に、検索インデックス作成部14は、品詞へ分解する前のテキストデータを含むブロック情報に基づいて、更新日時とURLとをブロック情報データベース11から読み取る。そして分解した品詞毎に、読み取った更新日時とURLとを対応付けた検索インデックスのデータを作成し、その検索インデックスのデータを検索インデックスデータベース12へ記録する(ステップS204)。そして、検索インデックス作成部14は上述のステップS201〜ステップS204までの処理が、ブロック情報データベース11が記憶する全てのURLのウェブページのデータについて行なわれたか否かをチェックし(ステップS205)、終わっていない場合にはステップS201〜ステップS204の処理を繰り返す。
【0036】
次に図6を用いて検索者から受付けたキーワードに基づいてウェブページを検索する際の処理について説明する。図6はウェブページを検索する際の処理フローを示す図である。
まず検索者は端末5に備えられたウェブブラウザの機能や、ウェブページ検索専用の機能を用いて端末5にキーワードを入力し、検索指示を行なう。すると端末5は文書情報検索装置1にキーワードを送信する。次に、情報検索部15が端末5からキーワードを受信する(ステップS301)。すると情報検索部15は、受信したキーワードを品詞に分解して検索インデックスデータベース12を検索し、品詞に対応して記録されているURLとブロック情報の更新日時を取得する(ステップS302)。
【0037】
そして、情報検索部15はキーワードが複数の品詞で構成されている場合には、全ての品詞について、URLと更新日時の取得を終了したか否かを判断する(ステップS303)。ここで終了していればステップS304に進み、終了していなければステップS302に戻る。
次に、情報検索部15は取得したURLと更新日時を、キーワードを構成する品詞毎に比較する。そして情報検索部15は、キーワードを構成する全ての品詞に共通して取得したURLと、そのURLと共に取得した更新日時のうち最も最近の日時を示す更新日時を検索結果とし、検索結果出力部16に転送する(ステップS304)。これにより全ての品詞が含まれるURLが検索結果として検索結果出力部16に転送される。
【0038】
次に、図7を用いて検索結果の出力の処理について説明する。図7は検索結果の出力の処理フローを示す図である。
まず、検索結果出力部16は情報検索部15から検索結果を取得する(ステップS401)。次に、検索結果出力部16は検索者の端末5に出力手法を問い合わせ、端末5から出力手法情報を取得する(ステップS402)。なお出力手法情報とは検索結果をどの様に出力するかを表す情報である。次に、検索結果出力部16は検索に用いられたキーワードと検索結果の適合度を算出する(ステップS403)。この適合度は例えばキーワードが、検索結果のURLのウェブページにどの程度数含まれているかを表す数値に予め設定された係数を掛け合わせて算出した値である。また適合度は、例えば検索結果のURLが他のURLからリンクされている数を表す数値に予め設定された係数を掛け合わせて算出した値であっても良い。
【0039】
次に、検索結果出力部16は端末5から受信した出力手法情報が「最近の更新日時の順」と「適合度の高い順」のどちらの出力手法を示すかを判定する(ステップS404)。そして出力手法情報が「最近の更新日時の順」という出力手法を示す場合には、検索結果のURLと更新日時の対応表を更新日時の順番で端末5に出力する(ステップS405)。また、検索結果出力部16は端末5から受信した出力手法情報が「適合度の高い順」という出力手法を示す場合には、出力手法情報に「期間指定」を示す情報が含まれるか否かを判定する(ステップS406)。そして、期間指定を示す情報が含まれている場合には、検索結果から期間外の更新日時に対応する検索結果のURLを検索結果から削除する(ステップS407)。そして、検索結果出力部16は検索結果のURLを適合度順に並び替えて、URLと更新日時の対応表を端末5に出力する(ステップS408)。
【0040】
なお、上述の文書情報検索装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0041】
【発明の効果】
以上説明したように、本発明によれば、収集したウェブページの中から、検索者の指定したキーワードを含むウェブページを検索するシステムにおいて、キーワードを含むウェブページのブロック部分(ブロック情報)の更新日時に基づいてウェブページのURLを検索する。従って、キーワードを含む部分が新しい情報であるウェブページを検索することができる。ここで、ひとつのウェブページの中に随時情報が追加されるようなフォーマットを用いるようなウェブページ(例:日記サイトや掲示板サイト)や、ニュースサイトのトップページなどのように同一のページ内にさまざまな情報を複合して表示するようなウェブページでは、それぞれのブロックにより情報が発信された日時が異なるが、このようなウェブページでは、ウェブページ自体は新しくても、検索した部分は古い情報だったということが考えられる。しかし、本発明によれば、キーワードを含まない部分が最近更新されたウェブページは古い情報であるとして検索することが可能で、キーワードを含む部分が新しい情報であるウェブページを検索するような場合の検索精度の向上が図れる。
【図面の簡単な説明】
【図1】本発明の一実施形態による文書情報検索システムの構成を示す概略ブロック図である。
【図2】本実施形態によるブロック情報データベース11に記録されるデータの例を示す図である。
【図3】本実施形態による検索インデックスデータベース12に記録されるデータ例を示す図である。
【図4】ブ本実施形態によるロック情報データベースを作成する処理フローを示す図である。
【図5】本実施形態による検索インデックスデータベースを作成する処理フローを示す図である。
【図6】本実施形態によるウェブページを検索する際の処理フローを示す図である。
【図7】本実施形態による検索結果の出力の処理フローを示す図である。
【符号の説明】
1 文書情報検索装置
11 ブロック情報データベース
12 検索インデックスデータベース
13 更新日時推定部
14 検索インデックス作成部
15 情報検索部
16 検索結果出力部
2 収集ロボット
3 収集データベース
4 ウェブサーバ
5 端末
【発明の属する技術分野】
この発明は、コンピュータシステムに係り、特に、文書情報検索装置及び文書検索方法並びにそのプログラムに関するものである。
【0002】
【従来の技術】
WWW(World Wide Web)上で提供されるウェブページを検索するシステムには、人手により、収集されたウェブページのデータが入力されるディレクトリ型検索システムや、ウェブページのデータの収集をプログラムが行うロボット型の検索システムなどがある。ここで、大量のウェブページが存在する現状では人手でウェブページのデータの入力を行うのは非常に労力がかかるため、ウェブページを検索するシステムとしてロボット型検索システムを採用することが主流となっている。
ロボット型検索システムでは、検索したキーワードが含まれるウェブページの出力結果が多いときには数千から数十万のウェブページを出力することとなってしまうので、検索者はその出力結果の中から必要としている情報を探し出すのは非常に困難になる。そのために様々な手法を用いて出力する検索ウェブページの順位付けを行い、利用者の情報検索の労力を削減する処理をウェブページの検索システムに組み込んでいる。その出力の順位付けの手法としてウェブページのリンク情報を元にウェブページの重要度を算出したり、更新された日時を推定したりして、重要度や日時の順で検索されたウェブページを出力する手法が考えられている。そして従来は、上述の検索システムのように、ウェブページの重要度や更新された日時に基づいて検索結果の順位付けを行い、ウェブページのURLの情報などを出力している。なお、ウェブページの更新された日時を推定し、その日時に基づいて検索結果の順位付けを行なう技術が公開されている(例えば、特許文献1参照。)。
【0003】
【特許文献1】
特開2002−334090号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上述の検索方法により出力されたウェブページは、検索者が入力したキーワードを含む部分が時間の経過している古い情報の部分であっても、ウェブページ自体の更新日時が最新を示してれば最新の情報だと判断されてしまう。このようなことは特に電子掲示板や、個人の日記サイトのようにひとつのウェブページ上に、どんどん新しい情報を追加していき、古い情報と新しい情報が混在しているようなウェブページに多く見られる。
このように、従来の方法ではキーワードに基づくウェブページの検索を行なう際に、特にウェブページの日付順の検索を行った場合には、キーワードを含む文書の更新日時とは関係のない日時で日付順の検索を行ってしまい、利用者が必要としているキーワードを含む部分の日付順の検索の精度が低下するという問題点がある。
そこでこの発明は、キーワードに基づいたウェブページの検索の精度が高い文書情報検索装置及び文書検索方法並びにそのプログラムを提供することを目的としている。
【0005】
【課題を解決するための手段】
本発明は、上述の課題を解決すべくなされたもので、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースと、収集した文書情報を複数のブロック情報に分割する文書情報分割手段と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定手段と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録手段とを備えることを特徴とする文書情報検索装置である。
【0006】
上述の構成によれば本発明は、文書情報を分割したブロック情報の更新日時を推定してデータベースに記録するので、ブロック情報毎の更新された日時を把握することができる。
【0007】
また本発明は、上述の文書情報検索装置において、キーワードを受付けるキーワード受付け手段と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索手段とを備えることを特徴とする。これにより、ブロック情報の更新日時に基づいてキーワードが含まれるブロック情報を読み取ることができる。
【0008】
また本発明は、上述の文書情報検索装置において、前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力手段を備えることを特徴とする。これにより、文書情報または文書情報の関連情報を、ブロック情報の更新日時の順番で出力することができる。
【0009】
また本発明は、上述の文書情報検索装置において、期間を受付ける期間受付け手段を備え、前記検索手段は、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする。これにより、受付けた期間内に含まれる更新日時のブロック情報を読み取ることができる。
【0010】
また本発明は、上述の文書情報検索装置において、前記更新日時推定手段は、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録することを特徴とする。これにより、ブロック情報に対応する文書情報またはブロック情報に対応する文書情報の収集日時の何れかに基づくブロック情報の更新日時、または、データベースに記録されているブロック情報の更新日時のどちらかの日時をデータベースに記録する更新日時として推定することができる。
【0011】
また本発明は、上述の文書情報検索装置において、前記文書情報分割手段は、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする。これにより、文書情報の変更される部分ごとにブロック情報を作成することができる。
【0012】
また本発明は、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置における文書情報検索方法であって、収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程とを含むことを特徴とする文書情報検索方法である。
【0013】
また本発明は、上述の文書情報検索方法において、キーワードを受付けるキーワード受付け過程と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程とを含むことを特徴とする。
【0014】
また本発明は、上述の文書情報検索方法において、前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程とを含むことを特徴とする。
【0015】
また本発明は、上述の文書情報検索方法において、期間を受付ける期間受付け過程を含み、前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする。
【0016】
また本発明は、前記文書情報分割過程において、前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録することを特徴とする。
【0017】
また本発明は、前記文書情報分割過程において、前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする。
【0018】
また本発明は、文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置のコンピュータに実行させるプログラムであって、収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程との処理を実行するプログラムである。
【0019】
また本発明は、上述のプログラムがキーワードを受付けるキーワード受付け過程と、前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程との処理を実行することを特徴とする。
【0020】
また本発明は、上述のプログラムが前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程の処理を実行することを特徴とする。
【0021】
また本発明は、上述のプログラムが期間を受付ける期間受付け過程の処理を実行し、前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取る処理を行なうことを特徴とする。
【0022】
また本発明は、上述のプログラムが前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録する処理を行なうことを特徴とする。
【0023】
また本発明は、上述のプログラムが前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割する処理を行なうことを特徴とする。
【0024】
【発明の実施の形態】
以下、本発明の一実施形態による文書情報検索装置を図面を参照して説明する。
図1は、この発明の一実施形態による文書情報検索システムの構成を示す概略ブロック図である。
この図において符号1は文書情報検索装置である。また2はインターネット上に接続したウェブサーバから、当該ウェブサーバの提供するウェブページを収集する収集ロボットである。また3は収集ロボット2の収集したウェブページのデータ(HTML文書(文書情報))とそのウェブページのURL(Uniform Resource Locator(文書情報の関連情報))と収集日時とを対応付けて記録する収集データベースである。また4はウェブページをインターネット上に提供するウェブサーバ、5はインターネットに接続した無数のウェブサーバ4により提供されているウェブページを検索する検索者の端末である。
【0025】
また、文書情報検索装置1において、符号11はウェブページのHTML文書を分割したブロック情報とそのブロック情報の更新日時を対応付けたブロック情報・更新日時対応テーブルと、ウェブページのURLとそのURLのウェブページを構成するブロック情報のブロックIDを対応付けたURL・ブロックID対応テーブルとを記憶するブロック情報データベースである。また12は検索者から受付けたキーワードを分解した品詞とその品詞を含むウェブページのURLと当該URLの更新日時とを対応付けて記憶する検索インデックスデータベースである。
【0026】
また13は収集データベース3に記録されているウェブページのHTML文書や、当該ウェブページのHTML文書を収集した収集日時や、ウェブページを分割したブロック情報や、ブロック情報データベース11に記録されているブロック情報に基いて、ブロック情報の更新日時を推定する更新日時推定部(文書情報分割手段、更新日時推定手段、ブロック情報記録手段)である。また14はブロック情報データベース11で記憶するブロック情報・更新日時対応テーブルやURL・ブロックID対応テーブルに基いて、品詞とURLと更新日時とが対応する検索インデックスを作成し、検索インデックスデータベース12に記録する検索インデックス作成部である。また15は検索者の端末5から受信したキーワードに基づいて検索インデックスデータベース12を検索する情報検索部(キーワード受付け手段、検索手段)である。また16は情報検索部16の出力した検索結果に基づいてウェブページのURLと更新日時の対応表を端末5に送信する検索結果出力部(検索結果出力手段、検索結果出力手段)である。
【0027】
そして、文書情報検索装置1は、予め収集ロボット2がウェブサーバ4から収集して収集データベース3に記録したウェブページのデータをブロック情報に分割しブロック情報データベース11に記録する。その際に、文書情報検索装置1は後述する処理に基づいて各ブロック情報の更新日時を推定し、ブロック情報に対応付けて記録しておく。また文書情報検索装置1は、単語ごとに、その単語を含むウェブページのURLと更新日時を対応付けて検索インデックスデータベース12に記憶しておく。なお検索インデックスデータベース12に記録される更新日時は、その更新日時に対応する単語を含むブロック情報の更新日時である。そして検索結果出力部16は検索インデックスデータベース12に記録されている更新日時の順番で、単語に対応するURLを出力する。これにより、出力結果は、ユーザが検索指示したキーワードから得られる単語を含むブロック情報の更新日時基づいて、そのブロック情報により構成されるウェブページのURLが表示されることとなる。なお、ブロック情報データベース11に記録されるデータの例を図2に示す。この図が示すようにブロック情報データベース11はブロック情報・更新日時対応テーブルとURL・ブロックID対応テーブルを保持している。また検索インデックスデータベース12に記録されるデータ例を図3に示す。この図が示すように検索インデックスデータベース12は品詞とその品詞を含むウェブページのURLと更新日時とを対応付けたテーブル記憶している。
【0028】
次に、図4を参照してブロック情報データベースを作成する処理について説明する。図4はブロック情報データベースを作成する処理フローを示す図である。
まず、更新日時推定部13は収集ロボット2がウェブサーバ4から収集して収集データベース3に記録したウェブページのHTML文書とそのURLとウェブページのHTML文書を収集した収集日時とを取得する(ステップS101)。
【0029】
次に、更新日時推定部13は取得したウェブページのHTML文書の構文解析を行なう。ここで、HTML文書の文法は「<HTML><HEAD><TITLE>title</TITLE></HEAD><BODY>本文</BODY></HTML>」のように<>で囲まれるタグの部分と、それ以外の部分に分かれる。なおタグとはHTMLのプログラム言語で記述された文書をウェブブラウザに読み込ませた時にウェブブラウザ上でのHTML文書の表示方法の命令を表すコマンドである。そして、HTML文書はタグに基づいて「HTML→HEAD→TITLE、HTML→BODY」などのような<HTML>を根とする木構造として表すことができる。これにより更新日時推定部13はHTML文書の構文解析して、HTML文書の木構造のデータを作成する。
【0030】
次に、更新日時推定部13は作成した木構造に基づいてウェブページのデータを分割したブロック情報を作成する(ステップS102)。例えば更新日時推定部13は、ウェブページのHTML文書のうちタグに基づいて分割された「<TITLE>titie</TITLE>」の部分をひとつのブロックとして考え、「<TITLE>titie</TITLE>」に基づいて「title」のようなテキストのデータと「<TITLE>」のようなタグの属性とを用いて、「TITLE>title」のような文字列のデータを作成する。この「TITLE>title」のような文字列がブロック情報である。
【0031】
次に、更新日時推定部13は作成したブロック情報の更新日時を推定する。この更新日時の推定は、まず、更新日時推定部13はブロック情報データベース11を検索して、作成したブロック情報と同一の文字列を示すブロック情報が記録されているか否かを判定する。
そして、作成したブロック情報と同一の文字列を示すブロック情報がない場合には、ブロック情報を作成した元のウェブページのHTML文書と対応付けられて収集データベース3に記録されている収集日時をブロック情報の更新日時として推定する。また更新日時推定部13は、作成したブロック情報と同一の文字列を示すブロック情報が、ブロック情報データベース11に記録されているブロック情報の中に存在する場合には、作成したブロック情報の元となるウェブページのHTML文書に対応づけられて収集データベース3に記録されている収集日時か、またはブロック情報データベース11に記録されているブロック情報に対応付けられている更新日時のいずれか古い日時を、ブロック情報データベース11に新しく記録する更新日時として推定する。
【0032】
そして更新日時推定部13は、推定した更新日時とブロック情報と該ブロック情報を識別する為のブロックIDとを対応付けてブロック情報データベース11のブロック情報・更新日時対応テーブルに記録する(ステップS103)。なお、更新日時推定部13は、収集データベース3に記録されている収集日時以外に、ウェブページのHTML文書に記録されたHTML文書の作成日時を更新日時として推定するようにしても良い。また、更新日時推定部13はHTML文書の内容から更新日時を推定するようにしてもよい。つまり、更新日時推定部13はHTM文書またはHTML文書の収集日時の何れかに基づいて更新日時を推定する。
【0033】
次に、更新日時推定部13はウェブページのURLと、そのURLのウェブページのHTML文書を分割して作成したブロック情報のブロックIDとを対応付けてブロック情報データベース11のURL・ブロックID対応テーブルに記録する(ステップS104)。そして、更新日時推定部13は収集データベース3に記録されている全てのウェブページのURLについて上述のステップS101〜ステップS104までの処理が終了したか否かを判定し(ステップS105)、終了していない場合にはステップS101〜ステップS104の処理を繰り返す。
【0034】
次に図5を参照して検索インデックスデータベースを作成する際の処理について説明する。図5は検索インデックスデータベースを作成する処理フローを示す図である。
まず、検索インデックス作成部14はブロック情報データベース11のURL・ブロックID対応テーブルにおいて、ウェブページのURLに対応して記録されているブロックIDを読み取る(ステップS201)。そして、検索インデックス作成部14は、読み取ったブロックIDに対応付けられているブロック情報を順次ブロック情報データベース11のブロック情報・更新日時対応テーブルから読み取る。次に、検索インデックス作成部14は読み取ったブロック情報からタグの属性を除いたテキストデータのみを取得する(ステップS202)。そして、検索インデックス作成部14は取得したテキストデータに対して形態素解析を行い品詞に分解する(ステップS203)。なお、形態素解析とは「本日は晴天。」などという日本語の文に対して、単語の品詞の推定を行って、文を品詞に分解する処理のことである。この処理を行うことで「本日」「は」「晴天」のように分解する。このような形態素解析を行い、テキストデータを品詞に分解する。
【0035】
次に、検索インデックス作成部14は、品詞へ分解する前のテキストデータを含むブロック情報に基づいて、更新日時とURLとをブロック情報データベース11から読み取る。そして分解した品詞毎に、読み取った更新日時とURLとを対応付けた検索インデックスのデータを作成し、その検索インデックスのデータを検索インデックスデータベース12へ記録する(ステップS204)。そして、検索インデックス作成部14は上述のステップS201〜ステップS204までの処理が、ブロック情報データベース11が記憶する全てのURLのウェブページのデータについて行なわれたか否かをチェックし(ステップS205)、終わっていない場合にはステップS201〜ステップS204の処理を繰り返す。
【0036】
次に図6を用いて検索者から受付けたキーワードに基づいてウェブページを検索する際の処理について説明する。図6はウェブページを検索する際の処理フローを示す図である。
まず検索者は端末5に備えられたウェブブラウザの機能や、ウェブページ検索専用の機能を用いて端末5にキーワードを入力し、検索指示を行なう。すると端末5は文書情報検索装置1にキーワードを送信する。次に、情報検索部15が端末5からキーワードを受信する(ステップS301)。すると情報検索部15は、受信したキーワードを品詞に分解して検索インデックスデータベース12を検索し、品詞に対応して記録されているURLとブロック情報の更新日時を取得する(ステップS302)。
【0037】
そして、情報検索部15はキーワードが複数の品詞で構成されている場合には、全ての品詞について、URLと更新日時の取得を終了したか否かを判断する(ステップS303)。ここで終了していればステップS304に進み、終了していなければステップS302に戻る。
次に、情報検索部15は取得したURLと更新日時を、キーワードを構成する品詞毎に比較する。そして情報検索部15は、キーワードを構成する全ての品詞に共通して取得したURLと、そのURLと共に取得した更新日時のうち最も最近の日時を示す更新日時を検索結果とし、検索結果出力部16に転送する(ステップS304)。これにより全ての品詞が含まれるURLが検索結果として検索結果出力部16に転送される。
【0038】
次に、図7を用いて検索結果の出力の処理について説明する。図7は検索結果の出力の処理フローを示す図である。
まず、検索結果出力部16は情報検索部15から検索結果を取得する(ステップS401)。次に、検索結果出力部16は検索者の端末5に出力手法を問い合わせ、端末5から出力手法情報を取得する(ステップS402)。なお出力手法情報とは検索結果をどの様に出力するかを表す情報である。次に、検索結果出力部16は検索に用いられたキーワードと検索結果の適合度を算出する(ステップS403)。この適合度は例えばキーワードが、検索結果のURLのウェブページにどの程度数含まれているかを表す数値に予め設定された係数を掛け合わせて算出した値である。また適合度は、例えば検索結果のURLが他のURLからリンクされている数を表す数値に予め設定された係数を掛け合わせて算出した値であっても良い。
【0039】
次に、検索結果出力部16は端末5から受信した出力手法情報が「最近の更新日時の順」と「適合度の高い順」のどちらの出力手法を示すかを判定する(ステップS404)。そして出力手法情報が「最近の更新日時の順」という出力手法を示す場合には、検索結果のURLと更新日時の対応表を更新日時の順番で端末5に出力する(ステップS405)。また、検索結果出力部16は端末5から受信した出力手法情報が「適合度の高い順」という出力手法を示す場合には、出力手法情報に「期間指定」を示す情報が含まれるか否かを判定する(ステップS406)。そして、期間指定を示す情報が含まれている場合には、検索結果から期間外の更新日時に対応する検索結果のURLを検索結果から削除する(ステップS407)。そして、検索結果出力部16は検索結果のURLを適合度順に並び替えて、URLと更新日時の対応表を端末5に出力する(ステップS408)。
【0040】
なお、上述の文書情報検索装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0041】
【発明の効果】
以上説明したように、本発明によれば、収集したウェブページの中から、検索者の指定したキーワードを含むウェブページを検索するシステムにおいて、キーワードを含むウェブページのブロック部分(ブロック情報)の更新日時に基づいてウェブページのURLを検索する。従って、キーワードを含む部分が新しい情報であるウェブページを検索することができる。ここで、ひとつのウェブページの中に随時情報が追加されるようなフォーマットを用いるようなウェブページ(例:日記サイトや掲示板サイト)や、ニュースサイトのトップページなどのように同一のページ内にさまざまな情報を複合して表示するようなウェブページでは、それぞれのブロックにより情報が発信された日時が異なるが、このようなウェブページでは、ウェブページ自体は新しくても、検索した部分は古い情報だったということが考えられる。しかし、本発明によれば、キーワードを含まない部分が最近更新されたウェブページは古い情報であるとして検索することが可能で、キーワードを含む部分が新しい情報であるウェブページを検索するような場合の検索精度の向上が図れる。
【図面の簡単な説明】
【図1】本発明の一実施形態による文書情報検索システムの構成を示す概略ブロック図である。
【図2】本実施形態によるブロック情報データベース11に記録されるデータの例を示す図である。
【図3】本実施形態による検索インデックスデータベース12に記録されるデータ例を示す図である。
【図4】ブ本実施形態によるロック情報データベースを作成する処理フローを示す図である。
【図5】本実施形態による検索インデックスデータベースを作成する処理フローを示す図である。
【図6】本実施形態によるウェブページを検索する際の処理フローを示す図である。
【図7】本実施形態による検索結果の出力の処理フローを示す図である。
【符号の説明】
1 文書情報検索装置
11 ブロック情報データベース
12 検索インデックスデータベース
13 更新日時推定部
14 検索インデックス作成部
15 情報検索部
16 検索結果出力部
2 収集ロボット
3 収集データベース
4 ウェブサーバ
5 端末
Claims (18)
- 文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースと、
収集した文書情報を複数のブロック情報に分割する文書情報分割手段と、
前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定手段と、
前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録手段と、
を備えることを特徴とする文書情報検索装置。 - キーワードを受付けるキーワード受付け手段と、
前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索手段と、
を備えることを特徴とする請求項1に記載の文書情報検索装置。 - 前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力手段と、
を備えることを特徴とする請求項2に記載の文書情報検索装置。 - 期間を受付ける期間受付け手段を備え、
前記検索手段は、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする請求項2または請求項3の何れかに記載の文書情報検索装置。 - 前記更新日時推定手段は、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録する
ことを特徴とする請求項1から請求項4の何れかに記載の文書情報検索装置。 - 前記文書情報分割手段は、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする請求項1から請求項5までの何れかに記載の文書情報検索装置。
- 文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置における文書情報検索方法であって、
収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、
前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、
前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程と、
を含むことを特徴とする文書情報検索方法。 - キーワードを受付けるキーワード受付け過程と、
前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程と、
を含むことを特徴とする請求項7に記載の文書情報検索方法。 - 前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程と、
を含むことを特徴とする請求項8に記載の文書情報検索方法。 - 期間を受付ける期間受付け過程を含み、
前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取ることを特徴とする請求項8または請求項9の何れかに記載の文書情報検索方法。 - 前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録する
ことを特徴とする請求項7から請求項10の何れかに記載の文書情報検索方法。 - 前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割することを特徴とする請求項7から請求項11までの何れかに記載の文書情報検索方法。
- 文書情報を分割したブロック情報と該ブロック情報の更新日時を対応付けて記憶するデータベースを備えた文書情報検索装置のコンピュータに実行させるプログラムであって、
収集した文書情報を複数のブロック情報に分割する文書情報分割過程と、
前記収集した文書情報または前記文書情報の収集日時の何れかに基づいて、前記ブロック情報の更新日時を推定する更新日時推定過程と、
前記推定した更新日時を、前記ブロック情報に対応付けて前記データベースに記録するブロック情報記録過程と、
の処理を実行するプログラム。 - キーワードを受付けるキーワード受付け過程と、
前記データベースを検索して前記キーワードを含むブロック情報とそのブロック情報の前記更新日時とを読み取る検索過程と、
の処理を実行することを特徴とする請求項13に記載のプログラム。 - 前記読み取ったブロック情報に対応する文書情報または該文書情報に関連する関連情報を、前記読み取った更新日時に基づいて日時の順に出力する検索結果出力過程と、
の処理を実行することを特徴とする請求項14に記載のプログラム。 - 期間を受付ける期間受付け過程の処理を実行し、
前記検索過程において、前記期間内に含まれる更新日時に対応するブロック情報を前記データベースから読み取る処理を行なうことを特徴とする請求項14または請求項15の何れかに記載のプログラム。 - 前記更新日時推定過程において、前記分割後のブロック情報と前記データベースに記録されているブロック情報とを比較して、前記分割後のブロック情報と同一の情報が前記データベースに記録されていない場合には前記分割後のブロック情報の更新日時を当該ブロック情報と対応付けて前記データベースに記録し、前記分割後のブロック情報と同一の情報が前記データベースに記録されている場合には前記データベースに記録されているブロック情報の更新日時または前記分割後のブロック情報の更新日時の何れか古い日時を示す更新日時を当該ブロック情報と対応付けて前記データベースに記録する処理を行なうことを特徴とする請求項13から請求項16の何れかに記載のプログラム。
- 前記文書情報分割過程において、前記文書情報の文書構造を表すタグ情報に基づいて、前記文書情報をブロック情報に分割する処理を行なうことを特徴とする請求項13から請求項17までの何れかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003111729A JP2004318506A (ja) | 2003-04-16 | 2003-04-16 | 文書情報検索装置及び文書検索方法並びにそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003111729A JP2004318506A (ja) | 2003-04-16 | 2003-04-16 | 文書情報検索装置及び文書検索方法並びにそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004318506A true JP2004318506A (ja) | 2004-11-11 |
Family
ID=33472195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003111729A Pending JP2004318506A (ja) | 2003-04-16 | 2003-04-16 | 文書情報検索装置及び文書検索方法並びにそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004318506A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008530635A (ja) * | 2004-12-30 | 2008-08-07 | グーグル・インコーポレーテッド | 広告に関するターゲティング情報の提案、及び/または提供 |
WO2010073592A1 (ja) * | 2008-12-26 | 2010-07-01 | 日本電気株式会社 | 情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体 |
JP2011198113A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置及び方法及びプログラム |
-
2003
- 2003-04-16 JP JP2003111729A patent/JP2004318506A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008530635A (ja) * | 2004-12-30 | 2008-08-07 | グーグル・インコーポレーテッド | 広告に関するターゲティング情報の提案、及び/または提供 |
WO2010073592A1 (ja) * | 2008-12-26 | 2010-07-01 | 日本電気株式会社 | 情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体 |
JPWO2010073592A1 (ja) * | 2008-12-26 | 2012-06-07 | 日本電気株式会社 | 情報推定装置、情報推定方法、及びプログラム |
JP5494978B2 (ja) * | 2008-12-26 | 2014-05-21 | 日本電気株式会社 | 情報推定装置、情報推定方法、及びプログラム |
JP2011198113A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置及び方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
JP2002073677A (ja) | 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置 | |
CN103514289A (zh) | 一种兴趣本体库构建方法及装置 | |
JPH11224256A (ja) | 情報検索方法および情報検索プログラムを記録した記録媒体 | |
JP2007256992A (ja) | コンテンツ特定方法及び装置 | |
JP2004062600A (ja) | 構造型文書の変換方法、復元方法、変換及び復元方法及びプログラム | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004220251A (ja) | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
JP4850882B2 (ja) | Webページにリンクを挿入する方法 | |
JP2004086845A (ja) | 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体 | |
JP2004318506A (ja) | 文書情報検索装置及び文書検索方法並びにそのプログラム | |
JP2005173999A (ja) | 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体 | |
JP4439497B2 (ja) | 検索処理装置及びプログラム | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
JP2008102773A (ja) | データを共通のフォーマットに変換する方法 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
JP2006529044A (ja) | 定義付けシステムおよび方法 | |
JP2003337825A (ja) | オンラインデータベースによる情報供給方法 | |
KR100496384B1 (ko) | 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체 | |
JPH10162011A (ja) | 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置 | |
JP2000322167A (ja) | データ管理システムおよびデータ属性表示方法 | |
JP2011186692A (ja) | 情報検索システムおよび情報検索方法 | |
JP2000148778A (ja) | 情報検索支援方法及び情報検索支援プログラムを記録した記録媒体 | |
JP4152669B2 (ja) | 文書検索装置、文書検索方法、記録媒体及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090317 |