JP4088164B2 - ドキュメントスコア計算方法及び装置並びにプログラム - Google Patents

ドキュメントスコア計算方法及び装置並びにプログラム Download PDF

Info

Publication number
JP4088164B2
JP4088164B2 JP2003012517A JP2003012517A JP4088164B2 JP 4088164 B2 JP4088164 B2 JP 4088164B2 JP 2003012517 A JP2003012517 A JP 2003012517A JP 2003012517 A JP2003012517 A JP 2003012517A JP 4088164 B2 JP4088164 B2 JP 4088164B2
Authority
JP
Japan
Prior art keywords
document
attribute information
information
procedure
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003012517A
Other languages
English (en)
Other versions
JP2004227165A (ja
Inventor
信行 大森
孝史 井上
浩 竹野
久 茨木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003012517A priority Critical patent/JP4088164B2/ja
Publication of JP2004227165A publication Critical patent/JP2004227165A/ja
Application granted granted Critical
Publication of JP4088164B2 publication Critical patent/JP4088164B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えばインターネット上などに存在する多数の文書の中からユーザが参照すべき文書の候補を自動的に抽出するような場合に利用されるドキュメントスコア計算方法及び装置並びにプログラムに関する。
【0002】
【従来の技術】
従来の一般的なテキスト検索システムの技術については非特許文献1に開示されている。また、Webから情報を収集して検索を行う従来のシステムについては非特許文献2に開示されている。
例えば、インターネットやLANのようなネットワーク上には様々なコンピュータが接続され、膨大な文書情報がアクセス可能な状態で存在している。これらの膨大な文書の中には目的とする文書が存在する可能性が高い。しかし、文書の数が膨大であるし、それぞれの文書が存在する場所もそれぞれ異なるので、これらの膨大な文書情報の中からユーザが必要とする特定の文書を探し出すのは難しい。
【0003】
従来より、例えばインターネット上では目的の文書を検索するための検索サービスが提供されている。このような検索サービスを提供するシステム、すなわち検索エンジンにおいては、インターネット上で様々な場所に存在するWWW(World Wide Web)ページの文書情報を予め収集してデータベースに保持しておき、ユーザが入力したキーワードなどの検索条件と一致する文書をデータベースから抽出し、適合度の大きい順番で文書リストを一覧表示する。
【非特許文献1】
井上他:InfoBee テキスト情報検索技術,NTT R&D,vol.46,No.10,1997,pp.93−98
【非特許文献2】
McBryan:GENVL and WWWW: Tools for Taming the Web, Proc. of the first International WWW conference, 1994
【0004】
【発明が解決しようとする課題】
上記のような検索サービスを提供するシステムにおいては、例えば一定の間隔で周期的に文書情報の収集を行い、更新されてた文書情報については最新の文書情報に更新し、古い文書情報は廃棄する。そして、収集された最新の文章情報だけに基づいて検索を実行している。
【0005】
しかしながら、従来の検索サービスを利用して目的の文書を検索する場合には、ユーザの必要としない文書が検索結果として抽出される場合も多いのが実情である。
すなわち、インターネット上には信頼性の高い文書,信頼性の低い文書,利用価値の高い文書,利用価値の低い文書など様々な文書が混在しているため、キーワードの適合性を識別するだけでは、信頼性の低い文書や利用価値の低い文書が検索結果として抽出されるのを避けることはできない。
【0006】
本発明は、大量の文書を検索する場合にユーザが必要とする文書により近い結果を得ることが可能なドキュメントスコア計算方法及び装置並びにプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1は、端末からの要求に応じて、ネットワーク上の更新される可能性のある複数の文書の情報を収集する文書情報収集手順と、収集された文書群の中から特定の文書を抽出するために利用される得点を文書毎に割り当てて文書リストを作成する文書リスト作成手順と、作成した文書リストをユーザー端末に入出力する入出力手順とを有するコンピュータが実行するドキュメントスコア計算方法において、前記文書情報収集手順で収集した各文書からその特性を表す属性情報を抽出する場合に、目的の文書自身に含まれている当該文書の更新日時,文書内リンク数,文書内タグ数及び文書サイズを一次属性情報と、目的の文書を参照している他文書の数である被リンク数を二次属性情報とし、前記一次属性情報と前記二次属性情報とをそれぞれ抽出する属性情報抽出手順と、前記属性情報抽出手順によって文書毎に2つ以上の時点で抽出された一次属性情報および二次属性情報をデータベースに保持する属性情報保持手順と、前記データベースに保持されている一次属性情報の時間変化量および二次属性情報の時間変化量を文書毎に計算する時間変化検出手順とを設け、前記文書リスト作成手順は、少なくともキーワードを含む指定された検索条件に基づいて文書毎に適合度を算出し、求められた適合度と前記時間変化検出手順で求められた時間変化量との所定の計算により求められる得点を文書毎に算出し、前記得点の大きさの順番に並べて文書リストを作成し、前記入出力手順は、前記文書リスト作成手順が作成した文書リストをユーザー端末に入出力することを特徴とする。
【0008】
インターネット上などで目的の文書を検索する場合には、指定されたキーワードとの適合性だけでなく、各文書の特性、例えば文書サイズ,単語数,タグ数,リンク数,被リンク数などを反映することにより、信頼性の低い文書や利用価値の低い文書を排除し、検索結果をユーザが必要とする文書に近づけることが可能になる。
【0009】
しかし、ある1時点の文書の特性を参照するだけでは、希望する検索結果が得られない場合も多い。例えば、過去のある時点までは利用価値の高い文書であったが、現在は利用価値が低くなったような文書も存在するので、この文書を検索結果として抽出するのは好ましくない。
請求項1においては、文書毎に保持されている複数時点の属性情報(文書サイズ,単語数,タグ数,リンク数,被リンク数など)に基づいて、属性情報の経時変化を計算するので、属性情報の経時変化を反映した検索結果を得ることができる。
【0010】
例えば、第1の文書の利用価値が高い場合には、第2の文書から第1の文書にアクセスする(又は参照する)ためのリンクが形成される。このリンクは第2の文書上に存在し、第1の文書にとっては被リンクとみなすことができる。
第1の文書の利用価値が高い場合には、多数の文書が第1の文書に対してリンクを形成するので、第1の文書における被リンク数が多くなる。
【0011】
また、第1の文書の利用価値が高い時には、第1の文書における被リンク数が増大する可能性が高く、第1の文書の利用価値が低くなった時には、第1の文書における被リンク数が減少する可能性が高い。
このため、ユーザが必要とする文書により近い検索結果を得ることができ、検索制度が向上する。
【0012】
請求項においては、適合度と前記属性情報の経時変化との両者を反映した得点の大きさの順番に並べて複数の文書の情報を出力するので、ユーザが必要とする文書により近いと考えられる文書から順番に並んだ情報が得られる。
【0014】
また、請求項1のドキュメントスコア計算方法においては、一次属性情報及び二次属性情報を利用して各文書の得点を計算できるので、様々なユーザの検索条件に適した検索を実行できる。一次属性情報としては、文書サイズ,単語数,タグ数,リンク数などが考えられる。二次属性情報としては、被リンク数などが考えられる。
請求項2は、請求項1のドキュメントスコア計算方法において、前記文書リスト作成手順は、適合度と時間変化量との重み付き代数和として得点を求めることを特徴とする。
請求項3は、請求項1のドキュメントスコア計算方法において、前記文書リスト作成手順は、適合度と時間変化量との積として得点を求めることを特徴とする。
【0015】
請求項は、請求項1乃至請求項のドキュメントスコア計算方法において、前記属性情報抽出手順は、文書情報の収集の終了もしくは収集した文書情報の保存を契機として各属性情報の抽出処理を開始することを特徴とする。
請求項においては、文書情報を収集する度に新たな属性情報を得ることができる。
【0016】
請求項は、端末からの要求に応じて、ネットワーク上の更新される可能性のある複数の文書の情報を収集する文書情報収集手段と、収集された文書群の中から特定の文書を抽出するために利用される得点を文書毎に割り当てて文書リストを作成する文書リスト作成手段と、作成した文書リストをユーザー端末に入出力する入出力手段とを有するドキュメントスコア計算装置において、前記文書情報収集手順で収集した各文書からその特性を表す属性情報を抽出する場合に、目的の文書自身に含まれている当該文書の更新日時,文書内リンク数,文書内タグ数及び文書サイズを一次属性情報と、目的の文書を参照している他文書の数である被リンク数を二次属性情報とし、前記一次属性情報と前記二次属性情報とをそれぞれ抽出する属性情報抽出手段と、前記属性情報抽出手段によって文書毎に2つ以上の時点で抽出された一次属性情報および二次属性情報をデータベースに保持する属性情報保持手段と、前記データベースに保持されている一次属性情報の時間変化量および二次属性情報の時間変化量を文書毎に計算する時間変化検出手段とを設け、前記文書リスト作成手段は、少なくともキーワードを含む指定された検索条件に基づいて文書毎に適合度を算出し、求められた適合度と前記時間変化検出手段で求められた時間変化量との所定の計算により求められる得点を文書毎に算出し、前記得点の大きさの順番に並べて文書リストを作成し、前記入出力手段は、前記文書リスト作成手段が作成した文書リストをユーザー端末に入出力することを特徴とする。
【0017】
請求項においては、請求項1と同様の結果が得られる。
請求項は、請求項のドキュメントスコア計算装置において、前記文書リスト作成手段は、適合度と時間変化量との重み付き代数和として得点を求めることを特徴とする。
【0018】
請求項においては、請求項2と同様の結果が得られる。
請求項7においては、請求項5のドキュメントスコア計算装置において、前記文書リスト作成手段は、適合度と時間変化量との積として得点を求めることを特徴とする。請求項7においては、請求項3と同様の結果が得られる。
【0019】
請求項は、請求項5乃至請求項のドキュメントスコア計算装置において、前記属性情報抽出手段は、文書情報の収集の終了もしくは収集した文書情報の保存を契機として各属性情報の抽出処理を開始することを特徴とする。
請求項においては、請求項3と同様の結果が得られる。
【0020】
請求項は、請求頂5乃至請求項に記載のドキュメントスコア計算装置を構成する各手段としてコンピュータを機能させるプログラムである。
【0021】
請求項のプログラムを所定のコンピュータで実行することにより、請求項1から請求項と同様の結果が得られる。
【0025】
【発明の実施の形態】
本発明のドキュメントスコア計算方法及び装置並びにプログラムの1つの実施の形態について図1〜図14を参照して説明する。この形態は全ての請求項に対応する。
【0026】
図1はドキュメントスコア計算装置の構成例を示すブロック図である。図2は時間変化計算処理の手順を示すフローチャートである。図3はドキュメントリスト作成処理の手順を示すフローチャートである。図4は属性情報DB(データベース:以下同様)の構成を示す模式図である。図5は二次属性情報DBの構成を示す模式図である。
【0027】
図6は文書サイズテーブルの構成例を示す模式図である。図7はタグ数テーブルの構成例を示す模式図である。図8はリンク数テーブルの構成例を示す模式図である。図9は更新日時テーブルの構成例を示す模式図である。図10は被リンク数テーブルの構成例を示す模式図である。
図11は文書間関連度テーブル(1)の構成例を示す模式図である。図12はユーザインタフェースの構成例を示す正面図である。図13はユーザインタフェースの表示例(1)を示す正面図である。図14はユーザインタフェースの表示例(2)を示す正面図である。
【0028】
この形態では、請求項の属性情報抽出手段,属性情報保持手段,時間変化検出手段及び文書リスト作成手段は、それぞれ属性情報計算部12(二次属性情報計算部13),属性情報DB23(二次属性情報DB24),時間変化計算部16及び文書リスト作成部17に相当する。
この形態では、インターネット上に存在する文書群を対象として目的の文書を検索する場合を想定している。勿論、例えばLANで接続された他のコンピュータ上に存在する文書群を検索対象にすることも可能である。
【0029】
図1に示すドキュメントスコア計算装置は、文書情報収集部11,属性情報計算部12,二次属性情報計算部13,インデックス作成部14,インデックス情報検索部15,時間変化計算部16,文書リスト作成部17,入出力部18,ユーザ端末19,文書DB21,インデックス情報テーブル22,属性情報DB23及び二次属性情報DB24を備えている。
【0030】
文書情報収集部11は、インターネット31と接続されたコンピュータであり、インターネット31に接続されている任意の文書サーバ32(1),32(2),32(3),・・・からアクセス可能な全ての文書の情報を定期的に自動収集する。
文書情報収集部11が収集した文書の情報は、文書DB21に保存される。一般的な検索サービスを提供するシステムにおいては、インターネット上の同じURLのサイトから新しい文書の情報を収集する度にデータベースの内容を更新し、最新の文書情報だけを保持するが、図1の文書DB21は収集された文書情報を順次追加登録する。
【0031】
従って、文書情報収集部11が文書情報の収集を繰り返すと、文書DB21上には同じサイトから複数の時点で(例えば一日おきに)それぞれ収集された文書情報が同時に存在することになる。なお、文書DB21に空きがなくなった場合には、最も古い時点で収集された情報から順番に削除すればよい。
【0032】
属性情報計算部12及び二次属性情報計算部13は、文書情報収集部11が新たな文書情報の収集を完了する度に、あるいは収集された文書情報を文書DB21に追加する度に、それを契機として属性情報の計算を行う。
属性情報とは、各文書情報の特性を表す情報である。この例では、文書の更新日時,文書内のリンク数,文書内のタグ数,文書サイズ及び文書の被リンク数を属性情報として取得する。
【0033】
被リンク数とは、該当する文書を参照している他の文書の数である。また、文書の更新日時,文書内のリンク数,文書内のタグ数及び文書サイズは、該当する文書内の情報によって特定される。一方、被リンク数は該当する文書を参照している他の文書に埋め込まれたリンクなどの情報によって決定される。
そこで、この例では文書の更新日時,文書内のリンク数,文書内のタグ数及び文書サイズを一次属性情報として区分し、被リンク数のように他の文書の情報によって定まる情報を二次属性情報として区分している。
【0034】
属性情報計算部12は、新たに文書情報が収集され文書DB21に蓄積される度に、その情報に基づいて文書毎に一次属性情報を計算する。属性情報計算部12が計算を実施する度に、その計算結果、すなわち一次属性情報は属性情報DB23に追加登録される。
従って、属性情報計算部12が計算を繰り返すと、属性情報DB23には、それぞれの文書について互いに異なる時点で収集された文書情報に関する一次属性情報が同時に保持される。
【0035】
二次属性情報計算部13は、属性情報計算部12が計算を実施する度に、属性情報DB23に記録された一次属性情報及び文書DB21の内容に基づいて、二次属性情報を計算する。
例えば、1つの文書(第1の文書)の中に1つのリンク情報が含まれていることを検出する度に、そのリンク情報の参照先である第2の文書に関する被リンク数に1を加算すればよい。
【0036】
二次属性情報計算部13が計算を実施する度に、その結果、すなわち二次属性情報が二次属性情報DB24に追加登録される。
従って、二次属性情報計算部13が計算を繰り返すと、二次属性情報DB24には、それぞれの文書について互いに異なる時点で収集された文書情報に関する二次属性情報が同時に保持される。
【0037】
実際には、属性情報DB23には図4に示すように更新日時テーブルT11,リンク数テーブルT12,タグ数テーブルT13及び文書サイズテーブルT14が設けられている。
更新日時テーブルT11,リンク数テーブルT12,タグ数テーブルT13及び文書サイズテーブルT14は、それぞれ各文書の更新日時,リンク数,タグ数及び文書サイズを一次属性情報として保持している。
【0038】
更新日時テーブルT11,リンク数テーブルT12,タグ数テーブルT13及び文書サイズテーブルT14の構成の具体例がそれぞれ図9,図8,図7及び図6に示されている。
図6に示すように、文書サイズテーブルT14には記録年月日毎に、各文書の文書サイズ、すなわち文書ファイルのバイト数が記録されている。また、各文書を特定するための文書IDとしては、その所在を表すURLを用いている。
【0039】
例えば、文書IDが「url1.co.jp」の文書については、2002年8月29日に記録された文書サイズが871バイトであり、2002年8月30日に記録された文書サイズが773バイトであり、2002年8月31日に記録された文書サイズが136バイトである。この例では、1日おきにその時点の各文書の文書サイズを取得し、それを文書サイズテーブルT14に追加登録している。
【0040】
同様に、タグ数テーブルT13には記録年月日毎に各文書に含まれているタグの数が記録され、リンク数テーブルT12には記録年月日毎に各文書に含まれているリンクの数が記録され、更新日時テーブルT11には記録年月日毎に各文書の更新日時が記録されている。
なお、更新日時テーブルT11における各文書の更新日時は、ある基準日時(例えばデータ収集日時)に対する更新日時までの秒数を表している。例えば、基準日時が2002年8月29日の0時0分0秒である場合に、文書の更新日時が2002年8月29日の0時9分8秒であったとすると、記録される更新日時(更新日時−基準日時)は568秒になる。
【0041】
一方、二次属性情報DB24には図5に示すように被リンク数テーブルT21及び複数の文書間関連度テーブルT221,T222,T223,・・・が設けられている。
被リンク数テーブルT21の具体例は図10に示されており、文書間関連度テーブル(1)T221の具体例は図11に示されている。
【0042】
図10に示すように、被リンク数テーブルT21には記録年月日毎に、各文書に対する他の文書からの被リンク数が記録されている。また、各文書を特定するための文書IDとしては、その所在を表すURLを用いている。
各文書間関連度テーブルT221,T222,T223,・・・は、それぞれの文書について、他の文書との関連度を表す情報を保持している。例えば、図11に示す文書間関連度テーブル(1)T221は1番目の文書(文書ID:url1.co.jp)と他の各文書(文書ID:url2.co.jp:url3.ne.jp:url4,go.jp・・・)との関連度を表す情報をそれぞれ保持している。
【0043】
同様に、文書間関連度テーブルT222は2番目の文書(文書ID:url2.co.jp)と他の各文書との関連度を表す情報をそれぞれ保持し、文書間関連度テーブルT223は3番目の文書(文書ID:url3.ne.jp)と他の各文書との関連度を表す情報をそれぞれ保持している。
【0044】
時間変化計算部16は、属性情報DB23に保持されている複数時点の一次属性情報及び二次属性情報DB24に保持されている複数時点の二次属性情報に基づいて、各一次属性情報の経時変化及び二次属性情報の経時変化を文書毎に計算する。
例えば、同じ文書について2つの時点で記録された2つの属性情報の差分を計算することにより、2つの時点の間における属性の経時変化を求めることができる。
【0045】
実際には、インターネット上のHTML文書を検索対象とする場合が多い。このような文書を処理する場合には、文書サイズや更新日時はその文書自体から取得することができる。また、タグ数やリンク数については、文書のテキストを構文解析することにより取得できる。また、各文書について形態素解析処理を行えば各文書の単語数を属性情報として取得することもできる。
【0046】
なお、図6〜図11の例では各テーブルにおける属性情報の取得時刻を記録年月日として表しているが、日付又は時刻あるいはある時点からの経過日時として表しても良い。単位についても、秒,分,時などの数値を用いることができる。
また、図6〜図11の例では1日1回、24時間周期で定期的に情報を収集した場合を想定しているが、周期の長さについては任意に定めることができる。また、必ずしも一定の周期で情報を収集する必要はない。
【0047】
図1の時間変化計算部16によって実行される時間変化計算処理の内容について、図2を参照しながら説明する。
ステップS11では、計算条件を決定する情報を取得する。この情報には、計算対象文書の文書ID,対象属性,対象期間の開始時刻,対象期間の終了時刻及び計算方法が含まれる。
【0048】
これらの情報は、ユーザ端末19を操作するオペレータからの入力によって特定される。例えば、属性がページ間(文書間)の関連度の場合には、関連度の計算対象となる文書の文書ID(URL)を入力する必要がある。
ステップS12では、ステップS11で取得した計算条件の対象属性に該当するテーブルを属性情報DB23上のテーブル群(図4参照)又は二次属性情報DB24上のテーブル群(図5参照)から選択する。
【0049】
ステップS13では、S12で選択されたテーブル上で、S11で取得した計算条件の文書IDと一致する行を計算対象として選択する。
ステップS14では、S12で選択されたテーブル上のS13で選択された行から、計算条件として指定された対象期間の開始時刻と終了時刻とに含まれる全ての列を選択し、それらの属性値を記録年月日(収集日時)とともに取得する。
【0050】
例えば、計算条件として
対象属性:被リンク数
対象期間の開始時刻:2002.08.29
対象期間の終了時刻:2002.09.02
が指定された場合には、図10に示される被リンク数テーブルから次のような5つの時点の情報が抽出される。
【0051】
2002.08.29:3
2002.08.30:1
2002.08.31:4
2002.09.01:1
2002.09.02:9
ステップS15では、S14でテーブルから取得した属性値に基づき、指定された計算方法で演算を実行する。
【0052】
例えば、計算条件として
対象属性:被リンク数
対象期間の開始時刻:2002.08.29
対象期間の終了時刻:2002.09.02
計算方法:属性値の増加数
が指定された場合には、
開始時刻 2002.08.29:属性値 3
終了時刻 2002.09.02:属性値 9
から(9−3)=6が変化量として求められる。
【0053】
また、例えば、計算条件として
対象属性:被リンク数
対象期間の開始時刻:2002.08.29
対象期間の終了時刻:2002.09.02
計算方法:属性値の平均
が指定された場合には、
2002.08.29:3
2002.08.30:1
2002.08.31:4
2002.09.01:1
2002.09.02:9
から((3+1+4+1+9)/5)=3.6が変化量として求められる。
【0054】
図1に示す装置が検索サービスを提供するために設けられたインデックス作成部14,インデックス情報テーブル22,インデックス情報検索部15,文書リスト作成部17及び入出力部18については、基本的な動作は非特許文献1に記載された従来技術と同様である。
すなわち、インデックス作成部14は文書DB21に保存されている文書群のデータに基づいて検索に必要なインデックス情報を作成する。このインデックス情報はインデックス情報テーブル22に保存される。
【0055】
入出力部18は、ユーザ端末19から入力される検索条件、例えば検索すべきキーワードなどをインデックス情報検索部15に送信する。インデックス情報検索部15は、入出力部18から受け取った検索条件に一致する文書の情報をインデックス情報テーブル22から取り出して文書リスト作成部17に送信する。
文書リスト作成部17は、指定された検索条件に一致した文書群の情報を適合度の順番に並べ替えて一覧として入出力部18に送出する。この結果がユーザ端末19の画面上に表示される。
【0056】
但し、図1に示す装置においては更に次に示すような特徴的な動作を行う。すなわち、検索エンジンの検索精度を改善するために、属性値の時間変化を反映した結果を出力する。
実際には、文書リスト作成部17が、検索条件に適合した文書群を得点の順番に並べ替える。一般的には得点として適合度を利用するが、図1の文書リスト作成部17は、適合度と属性値の時間変化値の両方を反映した得点を文書毎に算出し、この得点を利用して文書群の情報を並べ替える。
【0057】
具体的な文書リスト作成部17の動作は図3に示すとおりである。
ステップS21では、ユーザ端末19からの入力によって指定された検索条件と一致する文書群の情報を抽出する。実際には、文書リスト作成部17はインデックス情報検索部15から検索結果である文書群の情報を受け取る。これらの情報には、各文書を識別するための文書IDであるURLや、指定された検索条件との適合度が含まれている。
【0058】
ステップS22では、検索条件と一致する文書群の中で未処理のものの中から1つの文書情報を選択する。
ステップS23では、選択した文書の文書ID並びに計算条件、すなわち対象属性,対象期間の開始時刻,対象期間の終了時刻及び計算方法を時間変化計算部16に与える。
【0059】
なお、この計算条件については予め定められた条件を適用することができる。また、1つの検索結果に関しては同じ計算条件が用いられる。但し、実際の検索条件は時間の経過に伴って変化する可能性がある。
例えば、被リンク数、すなわち他の文書からリンクされている場合の該当する他の文書の数は、その文書の人気度合いを表す指標として利用できる。従って、例えば最近1週間で被リンク数が上昇している文書を検索することには大きな意義がある。この場合には、開始時刻の現時点から1週間前であり、終了時刻は現時点になるのでその条件は日々変化する。
【0060】
また、対象となる属性や時間変化を計算する期間を検索条件に応じて適応的に変更することも可能である。また、ユーザ端末19を操作するオペレータの指示に応じて計算条件を変更することもできる。
計算条件を与えることにより、時間変化計算部16は前述のような処理を実行し、文書毎に変化量を算出する。文書リスト作成部17は、時間変化計算部16が出力する文書毎の変化量を受け取り保存する。
【0061】
未処理文書が無くなると、文書リスト作成部17の動作はステップS24からS25に進む。
ステップS25では、時間変化計算部16から受け取った文書毎の時間変化量の値と、インデックス情報検索部15から受け取った適合度の値との両方を予め定めた計算式に従って計算し、対象となる文書毎にその得点を求める。
【0062】
ステップS25で利用する計算式については、2つの値x(時間変化量),y(適合度)を用いるので、2つの値x,yの重み付き代数和(f(x,y)=ax+by)や2つの値の積などを用いることが考えられる。
ステップS26では、インデックス情報検索部15の検索結果である文書群の情報を得点の大きい順番で並べ替えた結果をドキュメントリストとして作成し出力する。
【0063】
従って、ユーザが指定したキーワードなどとの適合性だけでなく、被リンク数のような属性値の時間変化を反映する形で検索結果を出力することができる。このため、検索精度が向上する。
図1に示す装置を実現する場合には、ユーザ端末19上に例えば図12,図13及び図14に示すようなユーザインタフェースを設けるのが望ましい。このユーザインタフェースは、図12〜図14に示すよう状態でユーザ端末19の画面上に表示される。
【0064】
このユーザインタフェースには、図12に示すように検索条件指定部41及び検索結果表示部42が設けてある。また、検索条件指定部41には、キーワード入力部43,検索結果表示順序指定部44及び検索実行ボタン45が設けてある。
キーワード入力部43を操作することにより、検索対象となる任意のキーワードを入力することができる。また、この例では検索結果表示順序指定部44を操作することにより、2種類の表示順序、すなわち「適合度順」及び「人気上昇順」を選択することができる。
【0065】
検索結果表示部42には、キーワード入力部43で指定された検索条件と一致する文書群の各文書ID(URL)が、検索結果表示順序指定部44の指定に従って並べられて一覧表示される。
図13に示す例では、キーワード入力部43で「通信」のキーワードを指定し、検索結果表示順序指定部44で「適合度順」を指定した場合を想定している。従って、検索結果表示部42には検索結果の文書群が適合度順に並べられた状態で一覧表示されている。
【0066】
図14に示す例では、キーワード入力部43で「通信」のキーワードを指定し、検索結果表示順序指定部44で「人気上昇順」を指定した場合を想定している。従って、検索結果表示部42には検索結果の文書群が人気上昇順に並べられた状態で一覧表示されている。
【0067】
図14に示すように人気上昇順で結果を出力する場合には、時間変化計算部16が計算する属性として被リンク数を選択し、例えば最近1週間の被リンク数の増加量を反映した得点を計算すれば良い。
この場合、計算条件として例えば次のような情報を与えればよい。
対象属性:被リンク数
開始時刻:2002.08.30
終了時刻:2002.09.06
計算方法:属性値の増分
そして、図13と図14との違いから分かるように、同じキーワードを用いて検索を行う場合であっても、検索結果表示順序指定部44の指定に応じて異なる結果が得られる。
【0068】
なお、図1に示すような装置については、専用のハードウェアで実現することもできるし、コンピュータ上でプログラムを実行して実現することもできる。
【0069】
【発明の効果】
本発明によれば、複数時点の属性情報を用いて属性情報の変化を調べ、それを検索結果に反映することができるので、検索精度の改善に効果がある。
【図面の簡単な説明】
【図1】ドキュメントスコア計算装置の構成例を示すブロック図である。
【図2】時間変化計算処理の手順を示すフローチャートである。
【図3】ドキュメントリスト作成処理の手順を示すフローチャートである。
【図4】属性情報DBの構成を示す模式図である。
【図5】二次属性情報DBの構成を示す模式図である。
【図6】文書サイズテーブルの構成例を示す模式図である。
【図7】タグ数テーブルの構成例を示す模式図である。
【図8】リンク数テーブルの構成例を示す模式図である。
【図9】更新日時テーブルの構成例を示す模式図である。
【図10】被リンク数テーブルの構成例を示す模式図である。
【図11】文書間関連度テーブル(1)の構成例を示す模式図である。
【図12】ユーザインタフェースの構成例を示す正面図である。
【図13】ユーザインタフェースの表示例(1)を示す正面図である。
【図14】ユーザインタフェースの表示例(2)を示す正面図である。
【符号の説明】
11 文書情報収集部
12 属性情報計算部
13 二次属性情報計算部
14 インデックス作成部
15 インデックス情報検索部
16 時間変化計算部
17 文書リスト作成部
18 入出力部
19 ユーザ端末
21 文書DB
22 インデックス情報テーブル
23 属性情報DB
24 二次属性情報DB
31 インターネット
32 文書サーバ

Claims (9)

  1. 端末からの要求に応じて、ネットワーク上の更新される可能性のある複数の文書の情報を収集する文書情報収集手順と、収集された文書群の中から特定の文書を抽出するために利用される得点を文書毎に割り当てて文書リストを作成する文書リスト作成手順と、作成した文書リストをユーザー端末に入出力する入出力手順とを有するコンピュータが実行するドキュメントスコア計算方法において、
    前記文書情報収集手順で収集した各文書からその特性を表す属性情報を抽出する場合に、目的の文書自身に含まれている当該文書の更新日時,文書内リンク数,文書内タグ数及び文書サイズを一次属性情報と、目的の文書を参照している他文書の数である被リンク数を二次属性情報とし、前記一次属性情報と前記二次属性情報とをそれぞれ抽出する属性情報抽出手順と、
    前記属性情報抽出手順によって文書毎に2つ以上の時点で抽出された一次属性情報および二次属性情報をデータベースに保持する属性情報保持手順と、
    前記データベースに保持されている一次属性情報の時間変化量および二次属性情報の時間変化量を文書毎に計算する時間変化検出手順とを設け、
    前記文書リスト作成手順は、少なくともキーワードを含む指定された検索条件に基づいて文書毎に適合度を算出し、求められた適合度と前記時間変化検出手順で求められた時間変化量との所定の計算により求められる得点を文書毎に算出し、前記得点の大きさの順番に並べて文書リストを作成し、
    前記入出力手順は、前記文書リスト作成手順が作成した文書リストをユーザー端末に入出力する
    ことを特徴とするドキュメントスコア計算方法。
  2. 請求項1のドキュメントスコア計算方法において、
    前記文書リスト作成手順は、適合度と時間変化量との重み付き代数和として得点を求める
    ことを特徴とするドキュメントスコア計算方法。
  3. 請求項1のドキュメントスコア計算方法において、
    前記文書リスト作成手順は、適合度と時間変化量との積として得点を求める
    ことを特徴とするドキュメントスコア計算方法。
  4. 請求項1乃至請求項のドキュメントスコア計算方法において、
    前記属性情報抽出手順は、文書情報の収集の終了もしくは収集した文書情報の保存を契機として各属性情報の抽出処理を開始する
    ことを特徴とするドキュメントスコア計算方法。
  5. 端末からの要求に応じて、ネットワーク上の更新される可能性のある複数の文書の情報を収集する文書情報収集手段と、収集された文書群の中から特定の文書を抽出するために利用される得点を文書毎に割り当てて文書リストを作成する文書リスト作成手段と、作成した文書リストをユーザー端末に入出力する入出力手段とを有するドキュメントスコア計算装置において、
    前記文書情報収集手順で収集した各文書からその特性を表す属性情報を抽出する場合に、目的の文書自身に含まれている当該文書の更新日時,文書内リンク数,文書内タグ数及び文書サイズを一次属性情報と、目的の文書を参照している他文書の数である被リンク数を二次属性情報とし、前記一次属性情報と前記二次属性情報とをそれぞれ抽出する属性情報抽出手段と、
    前記属性情報抽出手段によって文書毎に2つ以上の時点で抽出された一次属性情報および二次属性情報をデータベースに保持する属性情報保持手段と、
    前記データベースに保持されている一次属性情報の時間変化量および二次属性情報の時間変化量を文書毎に計算する時間変化検出手段とを設け、
    前記文書リスト作成手段は、少なくともキーワードを含む指定された検索条件に基づいて文書毎に適合度を算出し、求められた適合度と前記時間変化検出手段で求められた時間変化量との所定の計算により求められる得点を文書毎に算出し、前記得点の大きさの順番に並べて文書リストを作成し、
    前記入出力手段は、前記文書リスト作成手段が作成した文書リストをユーザー端末に入出力する
    ことを特徴とするドキュメントスコア計算装置。
  6. 請求項のドキュメントスコア計算装置において、
    前記文書リスト作成手段は、適合度と時間変化量との重み付き代数和として得点を求める
    ことを特徴とするドキュメントスコア計算装置。
  7. 請求項5のドキュメントスコア計算装置において、
    前記文書リスト作成手段は、適合度と時間変化量との積として得点を求める
    ことを特徴とするドキュメントスコア計算装置。
  8. 請求項5乃至請求項のドキュメントスコア計算装置において、
    前記属性情報抽出手段は、文書情報の収集の終了もしくは収集した文書情報の保存を契機として各属性情報の抽出処理を開始する
    ことを特徴とするドキュメントスコア計算装置。
  9. 請求頂5乃至請求項に記載のドキュメントスコア計算装置を構成する各手段としてコンピュータを機能させるプログラム。
JP2003012517A 2003-01-21 2003-01-21 ドキュメントスコア計算方法及び装置並びにプログラム Expired - Lifetime JP4088164B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003012517A JP4088164B2 (ja) 2003-01-21 2003-01-21 ドキュメントスコア計算方法及び装置並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003012517A JP4088164B2 (ja) 2003-01-21 2003-01-21 ドキュメントスコア計算方法及び装置並びにプログラム

Publications (2)

Publication Number Publication Date
JP2004227165A JP2004227165A (ja) 2004-08-12
JP4088164B2 true JP4088164B2 (ja) 2008-05-21

Family

ID=32901100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003012517A Expired - Lifetime JP4088164B2 (ja) 2003-01-21 2003-01-21 ドキュメントスコア計算方法及び装置並びにプログラム

Country Status (1)

Country Link
JP (1) JP4088164B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0669319A (ja) * 1992-08-20 1994-03-11 Disco Abrasive Syst Ltd アライメントシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149800A1 (en) 2004-12-30 2006-07-06 Daniel Egnor Authoritative document identification
JP4830532B2 (ja) * 2006-02-22 2011-12-07 富士ゼロックス株式会社 電子化情報の重要度を算出する情報処理装置及びプログラム
JP4894011B2 (ja) * 2007-06-28 2012-03-07 アイシン・エィ・ダブリュ株式会社 情報処理装置、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0669319A (ja) * 1992-08-20 1994-03-11 Disco Abrasive Syst Ltd アライメントシステム

Also Published As

Publication number Publication date
JP2004227165A (ja) 2004-08-12

Similar Documents

Publication Publication Date Title
US8266162B2 (en) Automatic identification of related search keywords
US6640218B1 (en) Estimating the usefulness of an item in a collection of information
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
CN100428234C (zh) 用于评估搜索引擎的质量的方法和系统
US7475074B2 (en) Web search system and method thereof
US20070271255A1 (en) Reverse search-engine
EP2395443A2 (en) Query rewriting with entity detection
JP5040396B2 (ja) Webページ検索プログラム、方法、及び装置
US20070239692A1 (en) Logo or image based search engine for presenting search results
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
JP2010128928A (ja) 検索システム及び検索方法
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP4088164B2 (ja) ドキュメントスコア計算方法及び装置並びにプログラム
JP2004280569A (ja) 情報監視装置
JP2006302024A (ja) 関連文書表示方法及びプログラム
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
JP5297295B2 (ja) WWW情報閲覧システムと方法およびWebブラウザとプログラム
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2000148778A (ja) 情報検索支援方法及び情報検索支援プログラムを記録した記録媒体
JP2000339320A (ja) 情報検索方法および装置と情報検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4088164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term