JP2005056218A - 文書重要度判定装置 - Google Patents
文書重要度判定装置 Download PDFInfo
- Publication number
- JP2005056218A JP2005056218A JP2003287382A JP2003287382A JP2005056218A JP 2005056218 A JP2005056218 A JP 2005056218A JP 2003287382 A JP2003287382 A JP 2003287382A JP 2003287382 A JP2003287382 A JP 2003287382A JP 2005056218 A JP2005056218 A JP 2005056218A
- Authority
- JP
- Japan
- Prior art keywords
- document
- importance
- time
- documents
- collected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ネットワーク上を流通する大量の文書の重要度を判定するときに、作成されてから間もない文書の重要度についても的確に判定できるようにすることを目的とする。
【解決手段】単純な文書の被参照回数ではなくて、文書が発生してから経過した時間とその文書が他の文書から参照される回数との比によって、文書の重要度を評価する。すなわち、文書が発生し、人の目に触れる機会を得てから、単位時間に増加する被参照回数を求めることにより、十分時間が経過した後の被参照回数を予測・近似する。この構成により、文書が発生してからその重要度を判定する時間が比較的短かった場合においても、十分時間が経過した後の被参照回数に近似した値を得られるため、発生後間もない文書の重要度を的確に判定することが可能となる。
【選択図】図2
【解決手段】単純な文書の被参照回数ではなくて、文書が発生してから経過した時間とその文書が他の文書から参照される回数との比によって、文書の重要度を評価する。すなわち、文書が発生し、人の目に触れる機会を得てから、単位時間に増加する被参照回数を求めることにより、十分時間が経過した後の被参照回数を予測・近似する。この構成により、文書が発生してからその重要度を判定する時間が比較的短かった場合においても、十分時間が経過した後の被参照回数に近似した値を得られるため、発生後間もない文書の重要度を的確に判定することが可能となる。
【選択図】図2
Description
本発明は、ネットワーク上を流通する大量の文書の重要度を判定する文書重要度判定装置に関し、特に、作成されてから間もない文書の重要度についても的確に判定できるようにする文書重要度判定装置に関する。
インターネット上で、特定の個人・法人・製品・サービスなどに関する評判に係わる情報が発生している。このようなことを背景にして、インターネット上に流通する大量のWWW文書の重要度を判定する技術の提供が求められている。
近年、インターネットの普及に代表される情報流通インフラの急速な整備に伴い、大量の文書情報が流通するようになった。これらの文書を網羅的に収集し、指定された語句を本文に含む文書を検索するシステムが実現されている。特に、WWW(World Wide Web)上の文書を検索するWebサーチエンジンと呼ばれるサービスとして、goo(http://www.goo.ne.jp/)やgoogle(http://www.google.com/)などが実現されている。
これらのWebサーチエンジンでは、入力された検索文字列に対して、数千件〜数百万件という極めて大量の文書が検索結果として得られる。これらの大量の検索結果の中から検索ユーザの意図に合致する文書を抽出するために、様々な手法が考案されている。
検索結果の順位づけを行う手法としては、TF×IDF法などを用いて、検索キーワード及び各文書を単語数分の次元のベクトル空間に配置し、文書ベクトルと検索キーワードベクトルとのなす角の余弦の大きさによって順位づけを行う方法が広く用いられる。
なお、TF×IDF法の詳細については、下記の非特許文献1に詳しいが、簡単に説明すると、文書集合全体の中でより出現頻度が少ない単語を重要な単語と見倣し、ある文書の中でより出現頻度が高い単語を、その文書の特徴をよく表す言葉だと見倣すという二つの原理に基づいて、文書と単語との適合度を算出する手法である。
また、Web文書においてはハイパーリファレンスという形で明示的に文書間の参照関係が表されるために、これを用いて文書の重要度を算出する手法が考案されている。例えば、下記の非特許文献2に示すGoogle社のPageRankアルゴリズムは、より人気の高い文書から多く参照される文書は人気度が高いという原理によって、文書の人気度を算出する手法である。
G.Salton:Automatic Text Processing,Addison-Wesley Publishing,1989. S.Brin and L.Page:The Anatomy of a Large-Scale Hypertextual Web Search Engine,Proc.7th International World Wide Web Conference,1998.
G.Salton:Automatic Text Processing,Addison-Wesley Publishing,1989. S.Brin and L.Page:The Anatomy of a Large-Scale Hypertextual Web Search Engine,Proc.7th International World Wide Web Conference,1998.
TF/IDF手法やPageRankアルゴリズムは、Webサーチエンジンを構成する上で非常に有効に機能している。しかしながら、これらの手法では、作成されてから時間が僅かしか経過していない文書に対しては、高精度に文書の重要度を判定することができていない。
近年、Webに流通する文書は更なる大規模化を遂げる一方で、新たな文書が次々と発生しては消滅するというように、その流動性が高まる傾向が強く見られる。こうした情報の流動性が進行する要因としては、DBなどと連動した動的な文書が多く提供されるようになったことや、オンラインチャットや掲示板などのコミュニケーションの結果生成される文書が多く流通するようになったことに起因すると考えられる。
特にこうしたコミュニケーションログに類する情報の中には、特定の個人・法人・製品・サービスなどの評判に係わる情報が流通されることが多く、また、こうした情報が個人・法人に対する風評被害をもたらす場合があり、新たな危機管理の対象として注目が高まっている。
風評情報に代表されるこれらの情報には、次に示すような要件がある。
(イ)情報が発生してから短時間の間に対策を打つことが望ましい
風評情報が広がることによって大きな被害を受けることがあるため、これが広がる前にいち早く対策をうつことが望まれる。
(ロ)対策をうつべき情報とそうでない情報とを高精度に判定したい
対策(該当する文書の削除依頼の提出など)をうつことには、大きな作業コストを伴う場合がある。また、対策をうつことが却って風評の更なる拡大を呼ぶリスクを伴う場合がある。これから、対策をうつべき情報とそうでない情報とを高精度に判定することが望まれる。
(イ)情報が発生してから短時間の間に対策を打つことが望ましい
風評情報が広がることによって大きな被害を受けることがあるため、これが広がる前にいち早く対策をうつことが望まれる。
(ロ)対策をうつべき情報とそうでない情報とを高精度に判定したい
対策(該当する文書の削除依頼の提出など)をうつことには、大きな作業コストを伴う場合がある。また、対策をうつことが却って風評の更なる拡大を呼ぶリスクを伴う場合がある。これから、対策をうつべき情報とそうでない情報とを高精度に判定することが望まれる。
上記要件を満足するため、これらの情報に関しては、情報が発生してから速やかにその重要性を的確に判定する技術が要求されるのである。
なお、上記の用途における文書の重要度とは、「多くの人の間で流通し、話題となる度合」を示すものとする。ある文書が他の文書から多く参照されることは、それだけ多くの人がその文書に注目し話題にしていることを示す良い指標となる。
これに対して、発生してから間もない情報は人々の間に流布し、参照情報を受けるまでに時間を必要とするため、長期間存続する情報と比べて他の文書から参照される数が少なくなりがちであるため、既存のいかなる手法を用いても、この文書の重要度を的確に算出することが困難であった。
本発明はかかる事情に鑑みてなされたものであって、作成されてから間もない文書の重要度についても的確に判定できるようにする新たな文書重要度判定装置の提供を目的とする。
この目的を達成するために、本発明の文書重要度判定装置は、(1)例えば周期的に、重要度の判定対象となる文書を収集する収集手段と、(2)収集手段の収集した各文書から、それらの文書の作成日時の情報を抽出する抽出手段と、(3)収集手段の収集した各文書から、他の文書に対する参照情報を抽出することで、それらの文書の被参照回数を特定する特定手段と、(4)抽出手段の抽出した作成日時と特定手段の特定した被参照回数とによって、例えば、作成日時から重要度を算出する日時までの経過時間と被参照回数との比を算出することで、収集手段の収集した各文書の重要度を算出する算出手段とを備えるように構成する。
ここで、以上の各処理手段はコンピュータプログラムで実現できるものであり、このコンピュータプログラムは、半導体メモリなどの記録媒体に記録して提供したり、ネットワークを介して提供することができる。
このように構成される本発明の文書重要度判定装置では、単純な文書の被参照回数ではなくて、文書が発生してから経過した時間とその文書が他の文書から参照される回数との比によって、文書の重要度を評価する。すなわち、文書が発生し、人の目に触れる機会を得てから、単位時間に増加する被参照回数を求めることにより、十分時間が経過した後の被参照回数を予測・近似する。
この構成により、本発明の文書重要度判定装置によれば、文書が発生してからその重要度を判定する時間が比較的短かった場合においても、十分時間が経過した後の被参照回数に近似した値を得られるため、発生後間もない文書の重要度を的確に判定することが可能となる。
本発明によれば、発生してから時間経過の短い文書に対して的確に文書の重要度を算出することができ、これにより、例えば、風評情報に対して対策を打つべきか打たないべきかという判断指標を的確に与えることができるようになる。
次に、本発明の文書重要度判定装置の実施の形態について図面を参照して詳細に説明する。
図1に示すように、本発明の文書重要度判定装置1は、インターネットなどのネットワーク2に接続されて、ネットワーク2上を流通する文書を収集して、それらの文書の重要度を判定し、ユーザから要求に応答して、その判定結果を出力する処理を行うものである。
この処理を行うために、本発明の文書重要度判定装置1は、図2に示すように、文書収集部10と、収集文書一時保存部11と、文書重要度判定部12と、作業用テーブル13と、文書重要度データベース14とを備える。
この文書収集部10は、例えば規定の周期に到達するときに動作して、ネットワーク2上を流通する文書を収集し、それらの文書を収集文書一時保存部11に保存する処理を行う。
収集文書一時保存部11は、文書収集部10により収集された文書を一時的に保存する処理を行う。
文書重要度判定部12は、文書作成日時抽出機能/文書参照情報抽出機能/文書重要度算出機能を有して、収集文書一時保存部11に保存される文書を処理対象として、それらの文書の重要度を算出する処理を行う。
作業用テーブル13は、文書重要度判定部12が処理を行うための作業用に用意されて、文書IDに対応付ける形で、その文書IDの指す文書の作成日時と、その文書IDの指す文書の被参照回数とを記録する処理を行う。
文書重要度データベース14は、文書重要度判定部12により算出された文書の重要度を管理する処理を行う。
図3ないし図5に、文書重要度判定部12の実行する処理フローの一実施形態例を図示する。次に、この処理フローに従って、本発明の文書重要度判定装置1の実行する処理について詳細に説明する。
文書重要度判定部12は、例えば規定の周期に到達することで文書収集部10により収集された文書が収集文書一時保存部11に保存されると、図3の処理フローに示すように、先ず最初に、ステップ10で、収集文書一時保存部11からその収集された文書を読み出す。
続いて、ステップ11で、その読み出した収集文書の全てを処理したのか否かを判断して、未処理の収集文書が残されていることを判断するときには、ステップ12に進んで、未処理の収集文書を1つ選択し、続くステップ13で、その選択した収集文書のヘッダ情報に含まれる作成日時情報を抽出する。例えば、2003年8月1日に作成されたというような作成日時情報を抽出する。
続いて、ステップ14で、選択した収集文書のIDが作業用テーブル13に登録されているのか否かをチェックして、続くステップ15で、選択した収集文書のIDが作業用テーブル13に登録されていることを判断するときには、ステップ16に進んで、その登録済みの文書IDに対応付ける形で、抽出した作成日時情報を作業用テーブル13に登録する。
一方、ステップ15で、選択した収集文書のIDが作業用テーブル13に登録されていないことを判断するときには、ステップ17に進んで、選択した収集文書の文書IDと抽出した作成日時情報とを作業用テーブル13に登録する。
文書重要度判定部12は、選択した収集文書αが別の収集文書βを参照しているときにあって、収集文書α及び収集文書βの文書IDが作業用テーブル13に登録されていない場合には、図6に示すように、収集文書αの文書IDとその作成日時情報とを作業用テーブル13に登録するとともに、被参照文書となる収集文書βの文書IDと被参照回数の初期値(1回)とを作業用テーブル13に登録するように処理することになる。
これから、ステップ15で、それまでに処理した収集文書に従って、選択した収集文書のIDが作業用テーブル13に既に登録されていることを判断するときには、ステップ16に進んで、選択した収集文書の作成日時情報のみを作業用テーブル13に登録する。
すなわち、選択した収集文書のIDが作業用テーブル13に登録されているということは、その収集文書が被参照文書として指定されていたことで作業用テーブル13に登録済みであることを意味し、したがって作成日時情報のみが登録されていないことを意味するので、図7に示すように、選択した収集文書の作成日時情報のみを作業用テーブル13に登録する。
一方、選択した収集文書のIDが作業用テーブル13に登録されていないことを判断するときには、ステップ17に進んで、図6に示したように、選択した収集文書の文書IDと抽出した作成日時情報とを作業用テーブル13に登録する。
続いて、ステップ18で、選択した収集文書の形式(HTMLなどのタグ形式)に則ってその収集文書を解析することで、選択した収集文書が参照する文書(被参照文書)を特定する。すなわち、選択した収集文書がハイパーリンクする被参照文書を特定する。
続いて、ステップ19で、特定した被参照文書の文書IDが作業用テーブル13に登録されているのか否かをチェックして、続くステップ20で、特定した被参照文書の文書IDが作業用テーブル13に登録されていることを判断するときには、ステップ21に進んで、図8に示すように、作業用テーブル13に登録されている被参照文書の被参照回数を1つインクリメントする形で更新してから、次の収集文書を処理すべくステップ11に戻る。
一方、ステップ20で、特定した被参照文書の文書IDが作業用テーブル13に登録されていないことを判断するときには、ステップ22に進んで、図6に示したように、特定した被参照文書の文書IDを作業用テーブル13に登録するとともに、その被参照文書の被参照回数の初期値(1回)を登録してから、次の収集文書を処理すべくステップ11に戻る。
このようにして、ステップ11〜ステップ22の処理を繰り返していくことで、ステップ11で、収集文書一時保存部11から読み出した収集文書の全てを処理したことを判断することで、作業用テーブル13への登録を完了したことを判断すると、ステップ23に進んで、作業用テーブル13に登録される文書の全てを処理したのか否かを判断する。
この判断処理に従って、未処理の文書(文書ID)が残されていることを判断するときには、ステップ24に進んで、未処理の文書を1つ選択し、続くステップ25で、作業用テーブル13から、その選択した文書の作成日時と被参照回数とを取得する。
続いて、ステップ26で、取得した作成日時から現在日時までの経過時間を算出し、続くステップ27で、その算出した経過時間と取得した被参照回数との比を演算することで、選択した文書の重要度を算出する。
すなわち、T0を現在の日時、T(d)を収集文書dが作成された日時、R(d,T0)を収集文書dのT0における被参照回数、W(d,T0)を収集文書dのT0における重要度と表すならば、
W(d,T0)=R(d,T0)/(T0−T(d))
という算出式に従って、選択した文書の重要度を算出する。
W(d,T0)=R(d,T0)/(T0−T(d))
という算出式に従って、選択した文書の重要度を算出する。
続いて、ステップ28で、選択した文書のIDが文書重要度データベース14に登録されているのか否かをチェックして、続くステップ29で、選択した文書のIDが文書重要度データベース14に登録されていないことを判断するときには、ステップ30に進んで、その選択した文書のIDと、作業用テーブル13から取得した作成日時/被参照回数と、算出した重要度とを文書重要度データベース14に新規登録してから、次の文書を処理すべくステップ23に戻る。
一方、ステップ29で、選択した文書のIDが文書重要度データベース14に登録されていることを判断するときには、前回の周期のときにも重要度を算出し、そのときに作成日時については登録しているので、ステップ31に進んで、作業用テーブル13から取得した被参照回数と、算出した重要度とを文書重要度データベース14に追加登録してから、次の文書を処理すべくステップ23に戻る。
そして、ステップ23で、作業用テーブル13に登録される文書の全てを処理したことを判断するときには、文書重要度データベース14への文書重要度の完了を判断して、処理を終了する。
このようにして、文書重要度判定部12は、文書が発生してからの経過時間とその文書が他の文書から参照される回数との比によって文書の重要度を判定することで、十分時間が経過した後の被参照回数を予測・近似するように処理する。
この実施形態例では、作成日時から現在日時までの経過時間と被参照回数との比に従って、選択した文書の重要度を算出するようにしたが、前回に被参照回数が増大した日時T1の被参照回数R(d,T1)を蓄積しておき、
F(T0,T1,R(d,T0),R(d,T1))
で与えられる関数(例えば2次関数)によって算出することも可能である。
F(T0,T1,R(d,T0),R(d,T1))
で与えられる関数(例えば2次関数)によって算出することも可能である。
この場合、被参照回数を前回の分だけ蓄積するのはなくて、さらに前の時系列データを蓄積して、それらを使って文書の重要度を算出するようにしてもよい。このときには、文書収集部10は、規定の周期に従って、ネットワーク2上を流通する文書を収集することが好ましい。
本発明は、インターネット上に流通する大量のWWW文書の重要度を判定するために利用できる。
1 文書重要度判定装置
2 ネットワーク
10 文書収集部
11 収集文書一時保存部
12 文書重要度判定部
13 作業用テーブル
14 文書重要度データベース
2 ネットワーク
10 文書収集部
11 収集文書一時保存部
12 文書重要度判定部
13 作業用テーブル
14 文書重要度データベース
Claims (3)
- 文書の重要度を判定する文書重要度判定装置であって、
重要度の判定対象となる文書を収集する収集手段と、
上記収集手段の収集した各文書から、それらの文書の作成日時の情報を抽出する抽出手段と、
上記収集手段の収集した各文書から、他の文書に対する参照情報を抽出することで、それらの文書の被参照回数を特定する特定手段と、
上記作成日時と上記被参照回数とによって、上記収集手段の収集した各文書の重要度を算出する算出手段とを備えることを、
特徴とする文書重要度判定装置。 - 請求項1に記載の文書重要度判定装置において、
上記算出手段は、上記作成日時から重要度を算出する日時までの経過時間と上記被参照回数との比によって文書の重要度を算出することを、
特徴とする文書重要度判定装置。 - 請求項1又は2に記載の文書重要度判定装置において、
上記収集手段は、周期的に、重要度の判定対象となる文書を収集することを、
特徴とする文書重要度判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003287382A JP2005056218A (ja) | 2003-08-06 | 2003-08-06 | 文書重要度判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003287382A JP2005056218A (ja) | 2003-08-06 | 2003-08-06 | 文書重要度判定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005056218A true JP2005056218A (ja) | 2005-03-03 |
Family
ID=34366374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003287382A Pending JP2005056218A (ja) | 2003-08-06 | 2003-08-06 | 文書重要度判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005056218A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122685A (ja) * | 2005-09-30 | 2007-05-17 | Ricoh Co Ltd | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2007249322A (ja) * | 2006-03-14 | 2007-09-27 | Mitsubishi Electric Corp | 文書視覚化装置及び文書視覚化プログラム |
-
2003
- 2003-08-06 JP JP2003287382A patent/JP2005056218A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122685A (ja) * | 2005-09-30 | 2007-05-17 | Ricoh Co Ltd | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2007249322A (ja) * | 2006-03-14 | 2007-09-27 | Mitsubishi Electric Corp | 文書視覚化装置及び文書視覚化プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6741110B2 (ja) | イベント発見方法、装置、機器及びプログラム | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
JP5450842B2 (ja) | 単語情報エントロピの決定 | |
JP2013506189A (ja) | クエリの一般属性に基づく情報の検索 | |
JP2006107433A (ja) | 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法 | |
JP6932360B2 (ja) | オブジェクト検索方法、装置およびサーバ | |
CN109885656B (zh) | 基于量化热度的微博转发预测方法及装置 | |
JP5226241B2 (ja) | タグを付与する方法 | |
JP2009122807A (ja) | 連想検索システム | |
JP5367632B2 (ja) | 知識量推定装置及びプログラム | |
JP2008123526A (ja) | 情報検索方法及び装置 | |
JP4824070B2 (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
CN101604340B (zh) | 一种获得查询的时新性的方法 | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP2010049384A (ja) | 動画評価方法、装置及びプログラム | |
CN111259171A (zh) | 一种基于分词索引搜索多媒体资源的方法及服务器 | |
JP2005056218A (ja) | 文書重要度判定装置 | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
WO2017107651A1 (zh) | 确定新闻之间相关性、多新闻之间相关性计算方法和装置 | |
JP2011170699A (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP5410359B2 (ja) | クエリ選択装置及びプログラム | |
CN104809148B (zh) | 一种用于确定标杆对象的方法和装置 | |
CN104731867B (zh) | 一种对对象进行聚类的方法和装置 | |
JP2011128669A (ja) | 情報検索装置および情報検索プログラム |