JP2005056218A

JP2005056218A - 文書重要度判定装置

Info

Publication number: JP2005056218A
Application number: JP2003287382A
Authority: JP
Inventors: Daijiro Mori; 大二郎森; Hiroshi Takeno; 浩竹野; Teruo Hamano; 輝夫濱野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-08-06
Filing date: 2003-08-06
Publication date: 2005-03-03

Abstract

【課題】ネットワーク上を流通する大量の文書の重要度を判定するときに、作成されてから間もない文書の重要度についても的確に判定できるようにすることを目的とする。
【解決手段】単純な文書の被参照回数ではなくて、文書が発生してから経過した時間とその文書が他の文書から参照される回数との比によって、文書の重要度を評価する。すなわち、文書が発生し、人の目に触れる機会を得てから、単位時間に増加する被参照回数を求めることにより、十分時間が経過した後の被参照回数を予測・近似する。この構成により、文書が発生してからその重要度を判定する時間が比較的短かった場合においても、十分時間が経過した後の被参照回数に近似した値を得られるため、発生後間もない文書の重要度を的確に判定することが可能となる。
【選択図】図２

Description

本発明は、ネットワーク上を流通する大量の文書の重要度を判定する文書重要度判定装置に関し、特に、作成されてから間もない文書の重要度についても的確に判定できるようにする文書重要度判定装置に関する。

インターネット上で、特定の個人・法人・製品・サービスなどに関する評判に係わる情報が発生している。このようなことを背景にして、インターネット上に流通する大量のＷＷＷ文書の重要度を判定する技術の提供が求められている。

近年、インターネットの普及に代表される情報流通インフラの急速な整備に伴い、大量の文書情報が流通するようになった。これらの文書を網羅的に収集し、指定された語句を本文に含む文書を検索するシステムが実現されている。特に、ＷＷＷ（World Wide Web）上の文書を検索するＷebサーチエンジンと呼ばれるサービスとして、goo(http://www.goo.ne.jp/)やgoogle(http://www.google.com/)などが実現されている。

これらのＷebサーチエンジンでは、入力された検索文字列に対して、数千件〜数百万件という極めて大量の文書が検索結果として得られる。これらの大量の検索結果の中から検索ユーザの意図に合致する文書を抽出するために、様々な手法が考案されている。

検索結果の順位づけを行う手法としては、ＴＦ×ＩＤＦ法などを用いて、検索キーワード及び各文書を単語数分の次元のベクトル空間に配置し、文書ベクトルと検索キーワードベクトルとのなす角の余弦の大きさによって順位づけを行う方法が広く用いられる。

なお、ＴＦ×ＩＤＦ法の詳細については、下記の非特許文献１に詳しいが、簡単に説明すると、文書集合全体の中でより出現頻度が少ない単語を重要な単語と見倣し、ある文書の中でより出現頻度が高い単語を、その文書の特徴をよく表す言葉だと見倣すという二つの原理に基づいて、文書と単語との適合度を算出する手法である。

また、Ｗeb文書においてはハイパーリファレンスという形で明示的に文書間の参照関係が表されるために、これを用いて文書の重要度を算出する手法が考案されている。例えば、下記の非特許文献２に示すGoogle社のPageRankアルゴリズムは、より人気の高い文書から多く参照される文書は人気度が高いという原理によって、文書の人気度を算出する手法である。
G.Salton：Automatic Text Processing,Addison-Wesley Publishing,1989. S.Brin and L.Page:The Anatomy of a Large-Scale Hypertextual Web Search Engine,Proc.7th International World Wide Web Conference,1998.

ＴＦ／ＩＤＦ手法やPageRankアルゴリズムは、Ｗebサーチエンジンを構成する上で非常に有効に機能している。しかしながら、これらの手法では、作成されてから時間が僅かしか経過していない文書に対しては、高精度に文書の重要度を判定することができていない。

近年、Ｗebに流通する文書は更なる大規模化を遂げる一方で、新たな文書が次々と発生しては消滅するというように、その流動性が高まる傾向が強く見られる。こうした情報の流動性が進行する要因としては、ＤＢなどと連動した動的な文書が多く提供されるようになったことや、オンラインチャットや掲示板などのコミュニケーションの結果生成される文書が多く流通するようになったことに起因すると考えられる。

特にこうしたコミュニケーションログに類する情報の中には、特定の個人・法人・製品・サービスなどの評判に係わる情報が流通されることが多く、また、こうした情報が個人・法人に対する風評被害をもたらす場合があり、新たな危機管理の対象として注目が高まっている。

風評情報に代表されるこれらの情報には、次に示すような要件がある。
（イ）情報が発生してから短時間の間に対策を打つことが望ましい
風評情報が広がることによって大きな被害を受けることがあるため、これが広がる前にいち早く対策をうつことが望まれる。
（ロ）対策をうつべき情報とそうでない情報とを高精度に判定したい
対策（該当する文書の削除依頼の提出など）をうつことには、大きな作業コストを伴う場合がある。また、対策をうつことが却って風評の更なる拡大を呼ぶリスクを伴う場合がある。これから、対策をうつべき情報とそうでない情報とを高精度に判定することが望まれる。

上記要件を満足するため、これらの情報に関しては、情報が発生してから速やかにその重要性を的確に判定する技術が要求されるのである。

なお、上記の用途における文書の重要度とは、「多くの人の間で流通し、話題となる度合」を示すものとする。ある文書が他の文書から多く参照されることは、それだけ多くの人がその文書に注目し話題にしていることを示す良い指標となる。

これに対して、発生してから間もない情報は人々の間に流布し、参照情報を受けるまでに時間を必要とするため、長期間存続する情報と比べて他の文書から参照される数が少なくなりがちであるため、既存のいかなる手法を用いても、この文書の重要度を的確に算出することが困難であった。

本発明はかかる事情に鑑みてなされたものであって、作成されてから間もない文書の重要度についても的確に判定できるようにする新たな文書重要度判定装置の提供を目的とする。

この目的を達成するために、本発明の文書重要度判定装置は、（１）例えば周期的に、重要度の判定対象となる文書を収集する収集手段と、（２）収集手段の収集した各文書から、それらの文書の作成日時の情報を抽出する抽出手段と、（３）収集手段の収集した各文書から、他の文書に対する参照情報を抽出することで、それらの文書の被参照回数を特定する特定手段と、（４）抽出手段の抽出した作成日時と特定手段の特定した被参照回数とによって、例えば、作成日時から重要度を算出する日時までの経過時間と被参照回数との比を算出することで、収集手段の収集した各文書の重要度を算出する算出手段とを備えるように構成する。

ここで、以上の各処理手段はコンピュータプログラムで実現できるものであり、このコンピュータプログラムは、半導体メモリなどの記録媒体に記録して提供したり、ネットワークを介して提供することができる。

このように構成される本発明の文書重要度判定装置では、単純な文書の被参照回数ではなくて、文書が発生してから経過した時間とその文書が他の文書から参照される回数との比によって、文書の重要度を評価する。すなわち、文書が発生し、人の目に触れる機会を得てから、単位時間に増加する被参照回数を求めることにより、十分時間が経過した後の被参照回数を予測・近似する。

この構成により、本発明の文書重要度判定装置によれば、文書が発生してからその重要度を判定する時間が比較的短かった場合においても、十分時間が経過した後の被参照回数に近似した値を得られるため、発生後間もない文書の重要度を的確に判定することが可能となる。

本発明によれば、発生してから時間経過の短い文書に対して的確に文書の重要度を算出することができ、これにより、例えば、風評情報に対して対策を打つべきか打たないべきかという判断指標を的確に与えることができるようになる。

次に、本発明の文書重要度判定装置の実施の形態について図面を参照して詳細に説明する。

図１に示すように、本発明の文書重要度判定装置１は、インターネットなどのネットワーク２に接続されて、ネットワーク２上を流通する文書を収集して、それらの文書の重要度を判定し、ユーザから要求に応答して、その判定結果を出力する処理を行うものである。

この処理を行うために、本発明の文書重要度判定装置１は、図２に示すように、文書収集部１０と、収集文書一時保存部１１と、文書重要度判定部１２と、作業用テーブル１３と、文書重要度データベース１４とを備える。

この文書収集部１０は、例えば規定の周期に到達するときに動作して、ネットワーク２上を流通する文書を収集し、それらの文書を収集文書一時保存部１１に保存する処理を行う。

収集文書一時保存部１１は、文書収集部１０により収集された文書を一時的に保存する処理を行う。

文書重要度判定部１２は、文書作成日時抽出機能／文書参照情報抽出機能／文書重要度算出機能を有して、収集文書一時保存部１１に保存される文書を処理対象として、それらの文書の重要度を算出する処理を行う。

作業用テーブル１３は、文書重要度判定部１２が処理を行うための作業用に用意されて、文書ＩＤに対応付ける形で、その文書ＩＤの指す文書の作成日時と、その文書ＩＤの指す文書の被参照回数とを記録する処理を行う。

文書重要度データベース１４は、文書重要度判定部１２により算出された文書の重要度を管理する処理を行う。

図３ないし図５に、文書重要度判定部１２の実行する処理フローの一実施形態例を図示する。次に、この処理フローに従って、本発明の文書重要度判定装置１の実行する処理について詳細に説明する。

文書重要度判定部１２は、例えば規定の周期に到達することで文書収集部１０により収集された文書が収集文書一時保存部１１に保存されると、図３の処理フローに示すように、先ず最初に、ステップ１０で、収集文書一時保存部１１からその収集された文書を読み出す。

続いて、ステップ１１で、その読み出した収集文書の全てを処理したのか否かを判断して、未処理の収集文書が残されていることを判断するときには、ステップ１２に進んで、未処理の収集文書を１つ選択し、続くステップ１３で、その選択した収集文書のヘッダ情報に含まれる作成日時情報を抽出する。例えば、２００３年８月１日に作成されたというような作成日時情報を抽出する。

続いて、ステップ１４で、選択した収集文書のＩＤが作業用テーブル１３に登録されているのか否かをチェックして、続くステップ１５で、選択した収集文書のＩＤが作業用テーブル１３に登録されていることを判断するときには、ステップ１６に進んで、その登録済みの文書ＩＤに対応付ける形で、抽出した作成日時情報を作業用テーブル１３に登録する。

一方、ステップ１５で、選択した収集文書のＩＤが作業用テーブル１３に登録されていないことを判断するときには、ステップ１７に進んで、選択した収集文書の文書ＩＤと抽出した作成日時情報とを作業用テーブル１３に登録する。

文書重要度判定部１２は、選択した収集文書αが別の収集文書βを参照しているときにあって、収集文書α及び収集文書βの文書ＩＤが作業用テーブル１３に登録されていない場合には、図６に示すように、収集文書αの文書ＩＤとその作成日時情報とを作業用テーブル１３に登録するとともに、被参照文書となる収集文書βの文書ＩＤと被参照回数の初期値（１回）とを作業用テーブル１３に登録するように処理することになる。

これから、ステップ１５で、それまでに処理した収集文書に従って、選択した収集文書のＩＤが作業用テーブル１３に既に登録されていることを判断するときには、ステップ１６に進んで、選択した収集文書の作成日時情報のみを作業用テーブル１３に登録する。

すなわち、選択した収集文書のＩＤが作業用テーブル１３に登録されているということは、その収集文書が被参照文書として指定されていたことで作業用テーブル１３に登録済みであることを意味し、したがって作成日時情報のみが登録されていないことを意味するので、図７に示すように、選択した収集文書の作成日時情報のみを作業用テーブル１３に登録する。

一方、選択した収集文書のＩＤが作業用テーブル１３に登録されていないことを判断するときには、ステップ１７に進んで、図６に示したように、選択した収集文書の文書ＩＤと抽出した作成日時情報とを作業用テーブル１３に登録する。

続いて、ステップ１８で、選択した収集文書の形式（ＨＴＭＬなどのタグ形式）に則ってその収集文書を解析することで、選択した収集文書が参照する文書（被参照文書）を特定する。すなわち、選択した収集文書がハイパーリンクする被参照文書を特定する。

続いて、ステップ１９で、特定した被参照文書の文書ＩＤが作業用テーブル１３に登録されているのか否かをチェックして、続くステップ２０で、特定した被参照文書の文書ＩＤが作業用テーブル１３に登録されていることを判断するときには、ステップ２１に進んで、図８に示すように、作業用テーブル１３に登録されている被参照文書の被参照回数を１つインクリメントする形で更新してから、次の収集文書を処理すべくステップ１１に戻る。

一方、ステップ２０で、特定した被参照文書の文書ＩＤが作業用テーブル１３に登録されていないことを判断するときには、ステップ２２に進んで、図６に示したように、特定した被参照文書の文書ＩＤを作業用テーブル１３に登録するとともに、その被参照文書の被参照回数の初期値（１回）を登録してから、次の収集文書を処理すべくステップ１１に戻る。

このようにして、ステップ１１〜ステップ２２の処理を繰り返していくことで、ステップ１１で、収集文書一時保存部１１から読み出した収集文書の全てを処理したことを判断することで、作業用テーブル１３への登録を完了したことを判断すると、ステップ２３に進んで、作業用テーブル１３に登録される文書の全てを処理したのか否かを判断する。

この判断処理に従って、未処理の文書（文書ＩＤ）が残されていることを判断するときには、ステップ２４に進んで、未処理の文書を１つ選択し、続くステップ２５で、作業用テーブル１３から、その選択した文書の作成日時と被参照回数とを取得する。

続いて、ステップ２６で、取得した作成日時から現在日時までの経過時間を算出し、続くステップ２７で、その算出した経過時間と取得した被参照回数との比を演算することで、選択した文書の重要度を算出する。

すなわち、Ｔ０を現在の日時、Ｔ（ｄ）を収集文書ｄが作成された日時、Ｒ（ｄ，Ｔ０）を収集文書ｄのＴ０における被参照回数、Ｗ（ｄ，Ｔ０）を収集文書ｄのＴ０における重要度と表すならば、
Ｗ（ｄ，Ｔ０）＝Ｒ（ｄ，Ｔ０）／（Ｔ０−Ｔ（ｄ))
という算出式に従って、選択した文書の重要度を算出する。

続いて、ステップ２８で、選択した文書のＩＤが文書重要度データベース１４に登録されているのか否かをチェックして、続くステップ２９で、選択した文書のＩＤが文書重要度データベース１４に登録されていないことを判断するときには、ステップ３０に進んで、その選択した文書のＩＤと、作業用テーブル１３から取得した作成日時／被参照回数と、算出した重要度とを文書重要度データベース１４に新規登録してから、次の文書を処理すべくステップ２３に戻る。

一方、ステップ２９で、選択した文書のＩＤが文書重要度データベース１４に登録されていることを判断するときには、前回の周期のときにも重要度を算出し、そのときに作成日時については登録しているので、ステップ３１に進んで、作業用テーブル１３から取得した被参照回数と、算出した重要度とを文書重要度データベース１４に追加登録してから、次の文書を処理すべくステップ２３に戻る。

そして、ステップ２３で、作業用テーブル１３に登録される文書の全てを処理したことを判断するときには、文書重要度データベース１４への文書重要度の完了を判断して、処理を終了する。

このようにして、文書重要度判定部１２は、文書が発生してからの経過時間とその文書が他の文書から参照される回数との比によって文書の重要度を判定することで、十分時間が経過した後の被参照回数を予測・近似するように処理する。

この実施形態例では、作成日時から現在日時までの経過時間と被参照回数との比に従って、選択した文書の重要度を算出するようにしたが、前回に被参照回数が増大した日時Ｔ１の被参照回数Ｒ（ｄ，Ｔ１）を蓄積しておき、
Ｆ（Ｔ０，Ｔ１，Ｒ（ｄ，Ｔ０），Ｒ（ｄ，Ｔ１））
で与えられる関数（例えば２次関数）によって算出することも可能である。

この場合、被参照回数を前回の分だけ蓄積するのはなくて、さらに前の時系列データを蓄積して、それらを使って文書の重要度を算出するようにしてもよい。このときには、文書収集部１０は、規定の周期に従って、ネットワーク２上を流通する文書を収集することが好ましい。

本発明は、インターネット上に流通する大量のＷＷＷ文書の重要度を判定するために利用できる。

本発明の文書重要度判定装置の適用されるシステムの説明図である。本発明の文書重要度判定装置の装置構成の一実施形態例である。文書重要度判定部の実行する処理フローの一実施形態例である。文書重要度判定部の実行する処理フローの一実施形態例である。文書重要度判定部の実行する処理フローの一実施形態例である。文書重要度判定部の実行する処理の説明図である。文書重要度判定部の実行する処理の説明図である。文書重要度判定部の実行する処理の説明図である。

符号の説明

１文書重要度判定装置
２ネットワーク
１０文書収集部
１１収集文書一時保存部
１２文書重要度判定部
１３作業用テーブル
１４文書重要度データベース

Claims

文書の重要度を判定する文書重要度判定装置であって、
重要度の判定対象となる文書を収集する収集手段と、
上記収集手段の収集した各文書から、それらの文書の作成日時の情報を抽出する抽出手段と、
上記収集手段の収集した各文書から、他の文書に対する参照情報を抽出することで、それらの文書の被参照回数を特定する特定手段と、
上記作成日時と上記被参照回数とによって、上記収集手段の収集した各文書の重要度を算出する算出手段とを備えることを、
特徴とする文書重要度判定装置。
請求項１に記載の文書重要度判定装置において、
上記算出手段は、上記作成日時から重要度を算出する日時までの経過時間と上記被参照回数との比によって文書の重要度を算出することを、
特徴とする文書重要度判定装置。
請求項１又は２に記載の文書重要度判定装置において、
上記収集手段は、周期的に、重要度の判定対象となる文書を収集することを、
特徴とする文書重要度判定装置。