JP5157865B2

JP5157865B2 - 情報収集装置、情報収集方法及びプログラム

Info

Publication number: JP5157865B2
Application number: JP2008313366A
Authority: JP
Inventors: 聡森永
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-12-09
Filing date: 2008-12-09
Publication date: 2013-03-06
Anticipated expiration: 2028-12-09
Also published as: JP2010140087A

Description

本発明は、選択的に情報を収集する情報収集装置、情報収集方法及びプログラムに関する。

インターネット上には、Ｗｅｂページやブログといった様々な情報源が数多く存在しており、それらの情報源の情報は、相互に同期することなく更新されている。近年、これらの数多くの情報源から情報を収集して分析することが盛んになってきている。

この情報分析は、最新の情報を利用して行われることが望ましい。そのため、情報源の情報が更新されれば、その更新された情報を再度収集する必要がある。しかし、数多くの情報源全ての情報をそれらが更新される度に再度収集することは労力がかかる。従って、ある基準等に基づき、情報を再度収集する情報源を選択し、選択された情報源からだけ情報を収集するのが効率的である。

なお、情報分析のために情報を収集する情報源を選択する場面としては、以下の２つが考えられる。１つめは、過去に情報を収集した情報源の中から再度情報を収集する情報源を選択する場面、もう１つは、これまでに情報を収集したことがない情報源の中から新たに情報を収集する情報源を選択する場面である。ここでは、１つめに挙げた、過去に情報を収集した情報源の中から再度情報を収集する情報源を選択する場面に着目する。

ここで、過去に情報を収集したインターネット上の情報源の中から、再度情報を収集する情報源を選択するための技術が例えば、特許文献１及び非特許文献１に記載されている。

特許文献１及び非特許文献１に開示されている技術では、過去に情報を収集した情報源における情報の更新頻度を、その情報源から過去に収集した情報に基づいて推定する。そして、推定された更新頻度に基づき、過去に情報を収集した情報源それぞれに優先順位を付与する。そして、付与された優先順位に応じて再度情報を収集する情報源を選択する。
特開２００５−２２８３４３号公報田中、喜連川「大規模Webアーカイブのための更新クローラの設計と実装」日本データベース学会 Letters Vol.6, No.1

上述したように特許文献１及び非特許文献１に開示された技術では、情報源における情報の更新頻度に基づいて再度情報を収集する情報源を選択している。

各情報源における情報の更新は、その情報源からの情報が情報の分析結果へ寄与する度合いとは無関係に行われる。そのため、情報の更新頻度が高い情報源だけから情報を再度収集して分析しても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果が得られるとは限らないという課題がある。

一方、全ての情報源から再度情報を収集して分析した場合の分析結果に近い分析結果を得るために、更新頻度が低い情報源まで再度情報を収集する対象に含めると、再度情報を収集する情報源の数が多くなり、効率的な情報収集が行えないという課題がある。

本発明の目的は、上述した課題を解決する情報収集装置、情報収集方法及びプログラムを提供することにある。

上記目的を達成するために本発明は、
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定し、該特定された前記部分情報源から情報を収集する。

また、過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定処理と、
前記特定された前記部分情報源から情報を収集する収集処理と、を有する。

また、情報を収集する情報収集装置に、
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定機能と、
前記特定された前記部分情報源から情報を収集する収集機能と、を実現させる。

本発明によれば情報収集装置は、過去に複数の情報源から収集された過去情報のうち、複数の情報源の一部である部分情報源から収集された部分過去情報のそれぞれが過去情報の分析結果へ寄与する度合いに応じて特定された情報源から情報を収集する。そのため、再度全ての情報源から情報を収集しなくても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果を効率的に得ることができる。

以下に、本発明の実施の形態について図面を参照して説明する。

図１は、本発明の情報収集装置の実施の一形態の構成を示すブロック図である。

本実施形態の情報収集装置１は図１に示すように、過去データ受付部１０と、データ処理部２０と、クローリング部３０と、収集結果記憶部４０とを備えている。また、図１に示すように情報収集装置１は、インターネット２及びコンピュータ等である入力装置３と接続されている。

過去データ受付部１０は、過去にインターネット上の複数の情報源から収集された情報である過去情報を含む過去データの入力を入力装置３から受け付ける。そして、受け付けた過去データをデータ処理部２０へ出力する。なお、過去データは、過去情報に、その過去情報の情報源を識別する識別子や、その過去情報が書き込まれたり入力されたりした時間を示すタイムスタンプ、その他の情報が付加されたものである。以降、情報源の識別子の集合を候補集合といい、候補集合の一部を部分集合という。なお、情報源の１つ１つも、要素数が１の部分集合として識別することができる。

データ処理部２０は、プログラム制御によって動作し、寄与度算出部２１と、寄与度記憶部２２と、情報源特定部２３とを備えている。

寄与度算出部２１は、過去データ受付部１０から出力された過去データを受け付ける。そして、受け付けた過去データに含まれる過去情報の一部である部分過去情報のそれぞれが「想定している分析」の分析結果に寄与する度合いに応じて数値化された寄与度を部分集合毎に算出する。なお、部分過去情報は、複数の情報源の一部である部分情報源からの情報であり、部分情報源は部分集合によって識別される。そして、算出した寄与度と、その寄与度に対応する各部分集合とを示す寄与度情報１０１を情報源特定部２３へ出力する。なお、「想定している分析」の分析結果への寄与度を寄与度算出部２１が算出する方法については後述する。また、寄与度算出部２１は、算出した寄与度に関する情報を寄与度記憶部２２に記憶させる。なお、寄与度記憶部２２には寄与度そのものを記憶させる必要はなく、寄与度や寄与度の傾向を再現できる情報を記憶させればよい。また、寄与度や、寄与度を算出する過程で用いる推定式等の情報は、後に情報収集装置１によって収集される情報を分析する際に有益であるので、参考情報として情報収集装置１の外部に出力してもよい。

情報源特定部２３は、寄与度算出部２１から出力された寄与度情報１０１に基づき、情報を収集する情報源を特定するための制約条件や優先順位を付与するための情報等を勘案した上でクローリングする対象の部分集合を特定する。なお、クローリングとは、インターネット上のＷｅｂページのリンクをたどりながら情報を収集することをいう。そして、特定した部分集合を示す特定情報源情報１０２をクローリング部３０へ出力する。なお、制約条件とは例えば、情報収集装置１がクローリングする範囲や、通信量、クローラ、情報源の処理量の制限等がある。ここで、情報収集装置１がクローリングする範囲とは例えば、複数の情報収集装置が並列して稼働している際に、情報収集装置１がjpドメインに属する情報源からだけ情報を収集するように分担されている場合等を想定したものである。また、優先順位を付与するための情報の一例は、情報源の更新頻度である。優先順位を付与するための情報の他の例としては、情報収集装置１の外部からの特定の情報源をクローリングする旨の指示や、有名なサイトを優先的にクローリングする旨の指示等がある。なお、寄与度に対して優先順位等をどの程度勘案するかは、情報収集装置１の外部から指示してもよいし、情報源特定部２３内に何らかの基準を予め設定しておいてもよい。また、情報源特定部２３は、寄与度算出部２１から出力された寄与度情報１０１が複数の寄与度を含んでいる場合、それら複数の寄与度の間の重みも勘案する。

クローリング部３０は、情報源特定部２３から出力された特定情報源情報１０２が示す部分集合によって識別されるインターネット２上の部分情報源から情報を収集し、収集した情報を収集結果記憶部４０に記憶させる。

ここで、「想定している分析」の分析結果への寄与度を寄与度算出部２１が算出する方法について説明する。

まず、「想定している分析」について説明する。

「想定している分析」とは、図１に示す情報収集装置１によって収集される情報に対して行うことを想定している分析のことである。以降、この「想定している分析」のことを想定分析という。

想定分析は例えば、インターネット２上の書き込みにおけるバーストワードの分析や、特定商品に対する評判情報の分析、特定のジャンルにおけるトピックの分析等がある。なお、バーストワードとは、特定の期間において、書き込み件数が多いワードや、書き込み件数が増えたワードのことである。また、評判情報とは、ある商品に対する好意的または否定的な書き込みの件数やその書き込みの内容のことである。また、トピックとは、どのような話題の書き込みがどの程度盛り上がっているかのことである。

次に、寄与度算出部２１が寄与度を算出する方法について説明する。ここでは、以下に３つの算出方法を説明するが、寄与度を算出する方法は、以下の方法に限定されるものではない。

まず、寄与度の算出方法の１つめとして、部分集合によって識別される部分情報源からの部分過去情報だけを用いて想定分析を行った結果と、候補集合によって識別される情報源からの過去情報を用いて想定分析を行った結果との類似度を計算することにより、各部分集合の寄与度を算出する方法について説明する。以降、「候補集合によって識別される情報源からの過去情報を用いる想定分析」を「全分析」といい、「部分集合によって識別される部分情報源からの部分過去情報だけを用いる想定分析」を「部分分析」という。

この寄与度の算出方法において計算される類似度は、想定分析の目的によって異なる。例えば、バーストワードを網羅的に知りたいのであれば、部分分析によって抽出されるバーストワードが全分析によって抽出されるバーストワードを網羅している割合である網羅率を類似度とする。また、最も極端なバーストワードだけを知りたいのであれば、部分分析によって抽出される最も極端なバーストワードが全分析によって抽出される最も極端なバーストワードと一致する割合である正解率を類似度とする等である。

また、この寄与度の算出方法においては、実際に部分分析を行わなくても、全分析の結果と、部分集合によって識別される部分情報源からの部分過去情報との間の相関係数を計算する等により、簡便に類似度の計算を行う方法もある。これにより、計算資源や計算時間を節約することができる。

次に、寄与度の算出方法の２つめとして、全分析の結果と、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いた部分分析の結果との差異を計算することにより、各部分集合の寄与度を算出する方法を説明する。

この寄与度の算出方法では、計算された差異が大きいほど、除かれた一部の部分集合によって識別される部分情報源からの情報が全分析の結果に寄与する度合いが大きいことになる。従って、この差異を寄与度とすることができる。

この寄与度の算出方法においても上述した１つめの算出方法と同様に、差異は想定分析の目的によって異なる。また、この寄与度の算出方法においても上述した１つめの算出方法と同様に、簡便に差異の計算を行う方法があり、計算資源や計算時間を節約することができる。

寄与度の算出方法の３つめとして、部分集合によって識別される部分情報源からの部分過去情報から全分析の結果を推定した結果と、実際の全分析の結果との類似度を計算することにより、各部分集合の寄与度を算出する方法を説明する。

この寄与度の算出方法において例えば、特定のジャンルで盛り上がるトピックに対し、いつも先取りして時間的に早くその特定のジャンルの内容がある情報源に多く書き込まれるような場合、その情報源の情報を利用して全分析の結果を精度よく推定することができる。この場合、その特定のジャンルの内容は、その情報源に先取りして書き込まれる性質があるため、その情報源からの情報を利用して全分析の結果を推定した結果は、全分析の結果とは時間的なずれが生じており、必ずしも類似度が高くならない。このとき、時間的なずれを適切に考慮することにより、その情報源を含む部分集合の寄与度は高くなる。なお、以降、「部分集合によって識別される部分情報源からの部分過去情報から全分析の結果を推定」することを「部分推定」という。

この寄与度の算出方法の場合も、上述した２つの算出方法と同様に、類似度の計算方法は想定分析の目的によって異なる。また、実際に部分推定を行わなくても、推定式の係数等を計算して推定における部分集合の影響の大きさを評価することで、簡便に類似度の計算を行う方法もある。これにより、計算資源や計算時間を節約することができる。

また、この寄与度の算出方法の場合も、上述した２つめの算出方法のように、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いて差異を計算してもよい。つまり、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する。そして、推定した全分析の結果と実際の全分析の結果との差異を計算することにより、各部分集合の寄与度を算出する。この場合においても、簡便に差異の計算を行う方法があり、計算資源や計算時間を節約することができる。

なお、想定分析が複数ある場合には、それぞれの想定分析に対して各部分集合の寄与度を算出してもよいし、それぞれの想定分析に対する各部分集合の寄与度を統合して一つの寄与度としてもよい。また、想定分析毎に寄与度を算出するのではなく、複数の想定分析を一つの想定分析とみなし、その一つにみなされた想定分析に対する寄与度を算出してもよい。

以上が寄与度を算出する方法の説明である。

次に、寄与度を算出する対象となる部分集合を構成する構成方法について説明する。

寄与度の算出対象となる部分集合の構成方法に特に制限はない。例えば、ある特定のサイトに属する情報源を１つの部分集合とし、別のサイトに属する情報源を別の部分集合とするように構成してもよい。また、同じブログに属する情報源を１つの部分集合として構成してもよいし、さらに大きな括りである「ニュースサイト」や「企業のプレスリリース」等の括りよって１つの部分集合を構成してもよい。また、サイトが開設された時期に応じて部分集合を構成したり、被リンク数に応じて部分集合を構成したりしてもよい。また、候補集合からランダムに部分集合を構成してもよい。

また、寄与度を算出する対象となる部分集合の構成方法の他の例として、各部分集合に対応する寄与度の算出を行った結果に応じ、その結果を利用してさらに寄与度の算出を行う対象の部分集合を構成する方法がある。例えば、サイトごとに部分集合を構成している状況で（以降、サイトＡに属する情報源の集合をＳ（Ａ）と表す）、これらに対して寄与度の算出を行った結果、最も寄与度の高いサイトがＡ´であった場合、さらに寄与度の算出を行う対象の部分集合をＳ(Ａ´)とＳ（Ｂ）との和集合によって構成する。この部分集合の構成方法では、既に算出された寄与度の結果を利用するため、計算資源や計算時間をさらに節約することができる。

以下に、上記のように構成された情報収集装置１においてインターネット２上にある情報源から情報を収集する場合の動作について説明する。

図２は、図１に示した情報収集装置１の動作を説明するためのフローチャートである。

まず、過去データ受付部１０は、過去にインターネットから収集された過去情報を含む過去データを入力装置３から受け付け（ステップＳ１）、受け付けた過去データをデータ処理部２０へ出力する。

次に、データ処理部２０の寄与度算出部２１は、過去データ受付部１０から出力された過去データを受け付ける。そして、受け付けた過去データに含まれる部分過去情報のそれぞれが想定分析の分析結果へ寄与する度合いに応じて数値化された寄与度を予め決められた方法で部分集合毎に算出する（ステップＳ２）。なお、予め決められた算出方法とは上述した寄与度の算出方法のいずれかである。また、寄与度算出部２１が寄与度を算出する過程の詳細については後述する。

そして、寄与度算出部２１は、算出した寄与度とその寄与度に対応する各部分集合とを示す寄与度情報１０１を情報源特定部２３へ出力する。

また、寄与度算出部２１は、算出した寄与度に関する情報を寄与度記憶部２２に記憶させる（ステップＳ３）。

寄与度算出部２１から出力された寄与度情報１０１を受け付けた情報源特定部２３は、受け付けた寄与度情報１０１に基づいて制約条件や優先順位を付与するための情報等を勘案し、クローリングする対象の部分集合を特定する（ステップＳ４）。なお、情報源特定部２３がクローリングする対象の部分集合を特定する過程の詳細については後述する。

そして、情報源特定部２３は、特定した部分集合を示す特定情報源情報１０２をクローリング部３０へ出力する。

情報源特定部２３から出力された特定情報源情報１０２を受け付けたクローリング部３０は、特定情報源情報１０２が示す部分集合によって識別されるインターネット２上の部分情報源から情報を収集する（ステップＳ５）。

インターネット２上にある部分情報源から情報を収集したクローリング部３０は、収集した情報を収集結果記憶部４０に記憶させる（ステップＳ６）。

以上が情報収集装置１においてインターネット２上にある情報源から情報を収集する動作の説明である。

次に、上述した動作フローのステップＳ２において寄与度算出部２１が寄与度を算出する過程の一例と、ステップＳ４において情報源特定部２３がクローリングする対象の情報源の部分集合を特定する過程の一例とについて説明する。

まず、上述した動作フローのステップＳ２において寄与度算出部２１が寄与度を算出する過程の一例について説明する。ここでは、想定分析はトピック分析とする。また、ここでは、説明を簡単にするため、候補集合は５つの情報源ｊ（ｊ＝１，２，３，４，５）からなるものとする。この場合、それぞれの情報源ｊを識別する部分集合は、部分集合｛１｝、部分集合｛２｝、部分集合｛３｝、部分集合｛４｝、部分集合｛５｝と表すことができる。また、ここでは、上述した寄与度の算出方法のうち部分推定を用いた寄与度の算出方法を採用し、推定式の係数を利用することにより計算を簡便化する。また、ここでは、上述した部分集合の構成方法として、各部分集合に対応する寄与度の算出を行った結果に応じ、その結果を利用してさらに寄与度の算出を行う対象の部分集合を構成する方法を採用する。

これらの寄与度の算出方法及び部分集合の構成方法のどちらも、上述した寄与度の算出方法及び部分集合の構成方法の中では最も複雑な方法なので、それ以外の方法に関しては、自明であるとして記載を省略する。

寄与度を算出する過程においては、まず、全分析が行われる。ここで、想定分析がトピック分析である場合、過去情報に対して「特定のトピックに関する情報かどうか」が判定される。ここでは特定のトピックをトピックＡとする。そして、過去の各時刻におけるトピックＡに関する情報を含む過去情報の数が集計される。以降、時刻ｔにおいてトピックＡに関する情報を含む過去情報の数をＹ（ｔ）と表す。

Ｙ（ｔ）の値は、数値であり、その値が大きいほどトピックＡが盛り上がっていたことを示す。なお、通常は、Ｙ（ｔ）を「トピックＡに関する過去情報でタイムスタンプとして時刻ｔが付加された情報の数」として定義するが、Ｙ（ｔ）をタイムスタンプが時刻ｔである情報の数に対する相対的な頻度と定義してもよい。また、時刻ｔの前後Δｔまでのタイムスタンプが付加された過去情報までをＹ（ｔ）としてカウントしてもよい。

また、全分析の際に「トピックＡに関する情報かどうか」を情報源ｊについて集計した結果をＹ＾ｊ（ｔ）と表す。つまり、Ｙ＾１（ｔ）は、情報源１から収集された部分過去情報のうちトピックＡに関する情報であり、かつタイムスタンプとして時刻ｔが付加された情報の数である。

次に、寄与度を算出する対象の部分集合として、要素数が１のもの全てを構成する。すなわち、部分集合｛１｝、部分集合｛２｝、部分集合｛３｝、部分集合｛４｝、部分集合｛５｝を構成する。

なお、ここでは、時刻遅れ１までを考慮した時系列線形推定によって全分析の結果を推定する。すなわち、部分集合によって識別される部分情報源の１時刻前までの情報を用いて全分析の結果を推定する。この場合、ある時系列の値を別の時系列集合から推定する式を構成することができる。

全分析を行うことによって得られたトピックＡに関する様々な情報から、寄与度の算出の対象となる部分集合によって識別されるそれぞれの部分情報源からの部分過去情報を用いて全分析の結果を推定するための推定式が以下の通りに得られたとする。

Ｙ（ｔ）＝３.１*Ｙ＾１（ｔ）＋２.０*Ｙ＾１（ｔ−１）＋０.２ε＾１（ｔ）
Ｙ（ｔ）＝０.６*Ｙ＾２（ｔ）＋４.１*Ｙ＾２（ｔ−１）＋０.８ε＾２（ｔ）
Ｙ（ｔ）＝１.３*Ｙ＾３（ｔ）＋３.４*Ｙ＾３（ｔ−１）＋１.４ε＾３（ｔ）
Ｙ（ｔ）＝２.２*Ｙ＾４（ｔ）＋２.８*Ｙ＾４（ｔ−１）＋０.５ε＾４（ｔ）
Ｙ（ｔ）＝１.８*Ｙ＾５（ｔ）＋０.８*Ｙ＾５（ｔ−１）＋０.１ε＾５（ｔ）
上記の各式は、上から部分集合｛１｝、部分集合｛２｝、部分集合｛３｝、部分集合｛４｝、部分集合｛５｝によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する式である。

ここで、上記の各式の最後にあるε＾ｊ（ｔ）を含む項はノイズ項と呼ばれ、ε＾ｊ（ｔ）はそれぞれ独立に標準正規分布に従う変数とする。なお、ノイズ項の係数は、Ｙ＾ｊ（ｔ）とＹ＾ｊ（ｔ−１）とで全分析の結果を推定しきれない量の大小を表している。例えば、ノイズ項の係数が大きければ、Ｙ＾ｊ（ｔ）とＹ＾ｊ（ｔ−１）とで全分析の結果を推定しきれない量が大きいこととなる。

寄与度は、それぞれの推定式を過去情報に当てはめて得られる全分析の推定結果と、実際の全分析の結果との類似度を想定分析の目的に従った方法で計算することによって求められる。ここでは、上述したように推定式の係数を利用した簡便な方法によって寄与度を算出する。具体的には、Ｙ＾ｊ（ｔ）とＹ＾ｊ（ｔ−１）とで全分析の結果を推定しきれない量を表しているノイズ項の係数が大きいほど寄与度が低く、この係数が小さいほど寄与度が高いものとして寄与度を算出する。

ここでは、一例として１からノイズ項の係数を引いた数値を寄与度とする。この場合、寄与度を算出する対象の部分集合である部分集合｛１｝、部分集合｛２｝、部分集合｛３｝、部分集合｛４｝、部分集合｛５｝の寄与度はそれぞれ、０.８、０.２、−０.４、０.５、０.９となる。従って、部分集合｛５｝の寄与度が最も高い。

寄与度算出部２１は、ここまでに算出された各部分集合の寄与度とその寄与度に対応する部分集合とを示す寄与度情報１０１を情報源特定部２３へ出力することもできるが、ここでは、寄与度算出部２１は、さらに要素数が２の部分集合に対応する寄与度を算出する。

この場合、候補集合の要素数が５なので部分集合の数は１０個となる。ここでは、それら全てを部分集合として構成するのではなく、上述した要素数１の部分集合のうち寄与度が最も高かった部分集合を含む部分集合だけを構成する。これは、いわゆる組み合わせ爆発を避けるための貪欲アルゴリズムである。なお、組み合わせ爆発とは、最適化問題において、数学でいう順列、組み合わせの数が多くなって、計算や処理を行う対象の数が急激に増大することをいう。また、貪欲アルゴリズムとは、問題の要素を複数に分割し、分割した要素をそれぞれ独立に評価して評価値の高い要素から順番に問題に取り込んでいくことによって解を得る方法のことをいう。

上述したように要素数１の部分集合において寄与度が最も高かった部分集合は、部分集合｛５｝であった。従って、ここで構成される部分集合は、部分集合｛１，５｝、部分集合｛２，５｝、部分集合｛３，５｝、部分集合｛４，５｝の４つとなる。

これら４つの部分集合に対して上述した要素数１の部分集合の場合と同様に、部分集合によって識別される部分情報源の１時刻前までの部分過去情報を用いて全分析の結果を推定するための推定式が以下の通りに得られたとする。

Ｙ（ｔ）＝２.１*Ｙ＾１（ｔ）＋１.０*Ｙ＾１(ｔ−１)＋１.３*Ｙ＾５（ｔ）＋２．１*Ｙ＾５（ｔ−１）＋０.０６ε＾１´（ｔ）
Ｙ（ｔ）＝０.３*Ｙ＾２（ｔ）＋２.１*Ｙ^２(ｔ−１)＋１.６*Ｙ＾５（ｔ）＋１.１*Ｙ＾５（ｔ−１）＋０.０２ε＾２´（ｔ）
Ｙ（ｔ）＝１.３*Ｙ＾３（ｔ）＋３.４*Ｙ＾３(ｔ−１)＋０.３*Ｙ＾５（ｔ）＋２．２*Ｙ＾５（ｔ−１）＋０.０５ε＾３´（ｔ）
Ｙ（ｔ）＝２.２*Ｙ＾４（ｔ）＋０.８*Ｙ＾４(t-1)＋１.０*Ｙ＾５（ｔ）＋３.０*Ｙ＾５（ｔ−１）＋０.０３ε＾４´（ｔ）
上記の各式は、上から部分集合｛１，５｝、部分集合｛２，５｝、部分集合｛３，５｝、部分集合｛４，５｝によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する式である。

ここで、上述した要素数１の部分集合の場合と同様に、１からノイズ項の係数を引いた数値を寄与度とする場合、寄与度を算出する対象の部分集合である部分集合｛１，５｝、部分集合｛２，５｝、部分集合｛３，５｝、部分集合｛４，５｝の寄与度はそれぞれ、０.９４、０.９８、０.９５、０.９７となる。従って、部分集合｛２，５｝の寄与度が最も高い。

寄与度算出部２１は、ここまでに算出された各部分集合の寄与度とその寄与度に対応する部分集合とを示す寄与度情報１０１を情報源特定部２３へ出力することもできるが、ここでは、寄与度算出部２１は、さらに要素数が３の部分集合に対応する寄与度を算出する。

この場合においても上述した要素数２の部分集合の場合と同様に、要素数２の部分集合で寄与度が最も高かった部分集合を含む部分集合だけを構成する。

上述したように要素数２の部分集合において寄与度が最も高かった部分集合は、部分集合｛２，５｝であった。従って、ここで構成される部分集合は、部分集合｛１，２，５｝、部分集合｛３，２，５｝、部分集合｛４，２，５｝の３つとなる。

これら３つの部分集合に対して上述した要素数１及び要素数２の部分集合の場合と同様に、部分集合によって識別される部分情報源の１時刻前までの情報を用いて全分析の結果を推定するための推定式を得る。そして、得られた推定式において、１からノイズ項の係数を引いた数値を寄与度とした結果、部分集合｛１，２，５｝、部分集合｛３，２，５｝、部分集合｛４，２，５｝の寄与度がそれぞれ、０.９９９、０.９９８、０.９９７になったとする。

ここまでに算出された寄与度と、それぞれの寄与度に対応する部分集合は以下の通りである。

部分集合｛１｝０.８
部分集合｛２｝０.２
部分集合｛３｝ −０.４
部分集合｛４｝０.５
部分集合｛５｝０.９
部分集合｛１，５｝０.９４
部分集合｛２，５｝０.９８
部分集合｛３，５｝０.９５
部分集合｛４，５｝０.９７
部分集合｛１，２，５｝０.９９９
部分集合｛３，２，５｝０.９９８
部分集合｛４，２，５｝０.９９７
寄与度算出部２１は、これらの寄与度と、それぞれの寄与度に対応する部分集合とを示す寄与度情報１０１を情報源特定部２３へ出力する。

次に、上述した動作フローのステップＳ４において情報源特定部２３がクローリングする対象の情報源の部分集合を特定する方法の一例を説明する。

情報源特定部２３は、寄与度算出部２１から出力された寄与度情報１０１に基づき、制約条件や優先順位を付与するための情報等を勘案した上でクローリングする対象の部分集合を特定する。ここでは、情報源特定部２３は、上述した要素数が３までの部分集合に対応する寄与度の出力を受けているものとする。また、ここでは、制約条件の一例として、「クローリングする対象の情報源の数は２以下であること」だけが与えられているとする。また、優先順位を与える情報の一例として、部分集合｛１｝〜｛５｝によって識別される部分情報源から再度情報を収集するためのコストがそれぞれ０、０.０３、０、０.０１、０.０１と与えられているとする。この場合、例えば、寄与度−コストの値を算出すると、上述した各部分集合の寄与度は以下のようになる。例えば、部分集合｛２，５｝の場合、コストを勘案する前の寄与度は、上述したように０.９８である。ここで、部分集合｛２｝に対応する部分情報源から情報を収集するコストが０.０３であり、部分集合｛５｝に対応する部分情報源から情報を収集するコストが０.０１であるため、０.９８−０.０３−０.０１＝０.９４となる。

部分集合｛１｝０.８
部分集合｛２｝０.１７
部分集合｛３｝ −０.４
部分集合｛４｝０.４９
部分集合｛５｝０.８９
部分集合｛１，５｝０.９３
部分集合｛２，５｝０.９４
部分集合｛３，５｝０.９４
部分集合｛４，５｝０.９５
部分集合｛１，２，５｝０.９５９
部分集合｛３，２，５｝０.９５８
部分集合｛４，２，５｝０.９４７
さらに、上述した「クローリングする対象の情報源の数は２以下であること」という制約条件を勘案すると、この制約条件を満たして寄与度が最大の部分集合は、部分集合｛４，５｝となる。この場合、情報源特定部２３は、部分集合｛４，５｝を示す特定情報源情報１０２をクローリング部３０へ出力する。

このように本実施形態においては、情報収集装置１は、過去に複数の情報源から収集された過去情報のうち、複数の情報源の一部である部分情報源から収集された部分過去情報のそれぞれが過去情報の分析結果へ寄与する度合いに応じて特定された情報源から情報を収集する。そのため、再度全ての情報源から情報を収集しなくても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果を効率的に得ることができる。

例えば、上述した実施形態において、情報源特定部２３が、寄与度に基づかずに上述した制約条件及び優先順位を付与するための情報だけを勘案してクローリングする対象の部分集合の特定を行った場合、クローリングする対象となる部分集合は、コストが最も低い部分集合｛１，３｝となる。つまり、想定分析への寄与度が低い部分情報源から情報を収集することになる。本実施形態のように寄与度を考慮することにより、想定分析への寄与度の高い部分集合｛４，５｝によって識別される部分情報源から情報を収集することが可能となる。

なお、上述した実施形態では、情報源特定部２３によって優先順位を付与するための情報等が与えられたが、優先順位を付与するための情報等は与えられなくてもよい。この場合、クローリングする対象の情報源数による制約条件だけしか与えられないことが予め分かっていれば、情報源特定部２３は、要素数が同じ各部分集合のうち、寄与度が最も高い部分集合だけを特定情報源情報１０２として出力すればよい。

また、上述した実施形態のように、貪欲アルゴリズムにより、算出した寄与度を利用してさらに部分集合を構成する場合には、一般的に要素数の多い部分集合ほど寄与度が高くなる。この場合、寄与度算出部２１は、各部分集合に対応する寄与度の値ではなく、要素数Ｎの部分集合のうち寄与度が最も高い部分集合と、要素数Ｎ−１の部分集合のうち寄与度が最も高い部分集合との差分要素だけを寄与度情報１０１として情報源特定部２３へ出力するようにしてもよい。

また、上述した実施形態では、過去データ受付部１０やクローリング部３０、収集結果記憶部４０が、データ処理部２０とは別の構成となっているものとして説明したが、これらは、データ処理部２０に含まれていてもよい。また、逆に、データ処理部２０内の各部は、他のコンピュータ等に備えられていてもよく、他のコンピュータと情報収集装置１とを通信手段で接続するというような構成でもよい。

また、上述した実施形態で説明した以外の多次元時系列データ等に対する推定方法を利用して寄与度の算出を行うことができる。

また、本発明においては、情報収集装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを情報収集装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを情報収集装置に読み込ませ、実行するものであっても良い。情報収集装置にて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、情報収集装置に内蔵されたＨＤＤなどを指す。

本発明の情報収集装置の実施の一形態の構成を示すブロック図である。図１に示した情報収集装置の動作を説明するためのフローチャートである。

符号の説明

１情報収集装置
２インターネット
３入力装置
１０過去データ受付部
２０データ処理部
２１寄与度算出部
２２寄与度記憶部
２３情報源特定部
３０クローリング部
４０収集結果記憶部
１０１寄与度情報
１０２特定情報源情報

Claims

過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定し、該特定された前記部分情報源から情報を収集する情報収集装置。
請求項１に記載の情報収集装置において、
前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出し、該算出した寄与度と、該寄与度に対応する前記部分情報源とを示す寄与度情報を出力する寄与度算出部と、
前記寄与度算出部から出力された寄与度情報に基づいて情報を収集する前記部分情報源を特定し、該特定された前記部分情報源を示す特定情報源情報を出力する情報源特定部と、
前記情報源特定部から出力された特定情報源情報が示す前記部分情報源から情報を収集するクローリング部と、を有する情報収集装置。
請求項２に記載の情報収集装置において、
前記寄与度算出部は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する情報収集装置。
請求項２に記載の情報収集装置において、
前記寄与度算出部は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する情報収集装置。
請求項２に記載の情報収集装置において、
前記寄与度算出部は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する情報収集装置。
請求項２に記載の情報収集装置において、
前記寄与度算出部は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する情報収集装置。
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定処理と、
前記特定された前記部分情報源から情報を収集する収集処理と、を有する情報収集方法。
請求項７に記載の情報収集方法において、
前記特定処理は、
前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出する算出処理と、
前記算出された寄与度と、該寄与度に対応する前記部分情報源とに基づいて情報を収集する前記部分情報源を特定する処理と、を含み、
前記収集処理は、前記特定された前記部分情報源から情報を収集する処理である情報収集方法。
請求項８に記載の情報収集方法において、
前記算出処理は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する処理である情報収集方法。
請求項８に記載の情報収集方法において、
前記算出処理は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する処理である情報収集方法。
請求項８に記載の情報収集方法において、
前記算出処理は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する処理である情報収集方法。
請求項８に記載の情報収集方法において、
前記算出処理は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する処理である情報収集方法。
情報を収集する情報収集装置に、
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定機能と、
前記特定された前記部分情報源から情報を収集する収集機能と、を実現させるためのプログラム。
請求項１３に記載のプログラムにおいて、
前記特定機能は、
前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出する算出機能と、
前記算出された寄与度と、該寄与度に対応する前記部分情報源とに基づいて情報を収集する前記部分情報源を特定する機能と、を含み、
前記収集機能は、前記特定された前記部分情報源から情報を収集する機能であるプログラム。
請求項１４に記載のプログラムにおいて、
前記算出機能は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する機能であるプログラム。
請求項１４に記載のプログラムにおいて、
前記算出機能は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する機能であるプログラム。
請求項１４に記載のプログラムにおいて、
前記算出機能は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する機能であるプログラム。
請求項１４に記載のプログラムにおいて、
前記算出機能は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する機能であるプログラム。