JP5157865B2 - 情報収集装置、情報収集方法及びプログラム - Google Patents

情報収集装置、情報収集方法及びプログラム Download PDF

Info

Publication number
JP5157865B2
JP5157865B2 JP2008313366A JP2008313366A JP5157865B2 JP 5157865 B2 JP5157865 B2 JP 5157865B2 JP 2008313366 A JP2008313366 A JP 2008313366A JP 2008313366 A JP2008313366 A JP 2008313366A JP 5157865 B2 JP5157865 B2 JP 5157865B2
Authority
JP
Japan
Prior art keywords
information
past
contribution
partial
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008313366A
Other languages
English (en)
Other versions
JP2010140087A (ja
Inventor
聡 森永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008313366A priority Critical patent/JP5157865B2/ja
Publication of JP2010140087A publication Critical patent/JP2010140087A/ja
Application granted granted Critical
Publication of JP5157865B2 publication Critical patent/JP5157865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、選択的に情報を収集する情報収集装置、情報収集方法及びプログラムに関する。
インターネット上には、Webページやブログといった様々な情報源が数多く存在しており、それらの情報源の情報は、相互に同期することなく更新されている。近年、これらの数多くの情報源から情報を収集して分析することが盛んになってきている。
この情報分析は、最新の情報を利用して行われることが望ましい。そのため、情報源の情報が更新されれば、その更新された情報を再度収集する必要がある。しかし、数多くの情報源全ての情報をそれらが更新される度に再度収集することは労力がかかる。従って、ある基準等に基づき、情報を再度収集する情報源を選択し、選択された情報源からだけ情報を収集するのが効率的である。
なお、情報分析のために情報を収集する情報源を選択する場面としては、以下の2つが考えられる。1つめは、過去に情報を収集した情報源の中から再度情報を収集する情報源を選択する場面、もう1つは、これまでに情報を収集したことがない情報源の中から新たに情報を収集する情報源を選択する場面である。ここでは、1つめに挙げた、過去に情報を収集した情報源の中から再度情報を収集する情報源を選択する場面に着目する。
ここで、過去に情報を収集したインターネット上の情報源の中から、再度情報を収集する情報源を選択するための技術が例えば、特許文献1及び非特許文献1に記載されている。
特許文献1及び非特許文献1に開示されている技術では、過去に情報を収集した情報源における情報の更新頻度を、その情報源から過去に収集した情報に基づいて推定する。そして、推定された更新頻度に基づき、過去に情報を収集した情報源それぞれに優先順位を付与する。そして、付与された優先順位に応じて再度情報を収集する情報源を選択する。
特開2005−228343号公報 田中、喜連川「大規模Webアーカイブのための更新クローラの設計と実装」日本データベース学会 Letters Vol.6, No.1
上述したように特許文献1及び非特許文献1に開示された技術では、情報源における情報の更新頻度に基づいて再度情報を収集する情報源を選択している。
各情報源における情報の更新は、その情報源からの情報が情報の分析結果へ寄与する度合いとは無関係に行われる。そのため、情報の更新頻度が高い情報源だけから情報を再度収集して分析しても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果が得られるとは限らないという課題がある。
一方、全ての情報源から再度情報を収集して分析した場合の分析結果に近い分析結果を得るために、更新頻度が低い情報源まで再度情報を収集する対象に含めると、再度情報を収集する情報源の数が多くなり、効率的な情報収集が行えないという課題がある。
本発明の目的は、上述した課題を解決する情報収集装置、情報収集方法及びプログラムを提供することにある。
上記目的を達成するために本発明は、
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定し、該特定された前記部分情報源から情報を収集する。
また、過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定処理と、
前記特定された前記部分情報源から情報を収集する収集処理と、を有する。
また、情報を収集する情報収集装置に、
過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定機能と、
前記特定された前記部分情報源から情報を収集する収集機能と、を実現させる。
本発明によれば情報収集装置は、過去に複数の情報源から収集された過去情報のうち、複数の情報源の一部である部分情報源から収集された部分過去情報のそれぞれが過去情報の分析結果へ寄与する度合いに応じて特定された情報源から情報を収集する。そのため、再度全ての情報源から情報を収集しなくても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果を効率的に得ることができる。
以下に、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の情報収集装置の実施の一形態の構成を示すブロック図である。
本実施形態の情報収集装置1は図1に示すように、過去データ受付部10と、データ処理部20と、クローリング部30と、収集結果記憶部40とを備えている。また、図1に示すように情報収集装置1は、インターネット2及びコンピュータ等である入力装置3と接続されている。
過去データ受付部10は、過去にインターネット上の複数の情報源から収集された情報である過去情報を含む過去データの入力を入力装置3から受け付ける。そして、受け付けた過去データをデータ処理部20へ出力する。なお、過去データは、過去情報に、その過去情報の情報源を識別する識別子や、その過去情報が書き込まれたり入力されたりした時間を示すタイムスタンプ、その他の情報が付加されたものである。以降、情報源の識別子の集合を候補集合といい、候補集合の一部を部分集合という。なお、情報源の1つ1つも、要素数が1の部分集合として識別することができる。
データ処理部20は、プログラム制御によって動作し、寄与度算出部21と、寄与度記憶部22と、情報源特定部23とを備えている。
寄与度算出部21は、過去データ受付部10から出力された過去データを受け付ける。そして、受け付けた過去データに含まれる過去情報の一部である部分過去情報のそれぞれが「想定している分析」の分析結果に寄与する度合いに応じて数値化された寄与度を部分集合毎に算出する。なお、部分過去情報は、複数の情報源の一部である部分情報源からの情報であり、部分情報源は部分集合によって識別される。そして、算出した寄与度と、その寄与度に対応する各部分集合とを示す寄与度情報101を情報源特定部23へ出力する。なお、「想定している分析」の分析結果への寄与度を寄与度算出部21が算出する方法については後述する。また、寄与度算出部21は、算出した寄与度に関する情報を寄与度記憶部22に記憶させる。なお、寄与度記憶部22には寄与度そのものを記憶させる必要はなく、寄与度や寄与度の傾向を再現できる情報を記憶させればよい。また、寄与度や、寄与度を算出する過程で用いる推定式等の情報は、後に情報収集装置1によって収集される情報を分析する際に有益であるので、参考情報として情報収集装置1の外部に出力してもよい。
情報源特定部23は、寄与度算出部21から出力された寄与度情報101に基づき、情報を収集する情報源を特定するための制約条件や優先順位を付与するための情報等を勘案した上でクローリングする対象の部分集合を特定する。なお、クローリングとは、インターネット上のWebページのリンクをたどりながら情報を収集することをいう。そして、特定した部分集合を示す特定情報源情報102をクローリング部30へ出力する。なお、制約条件とは例えば、情報収集装置1がクローリングする範囲や、通信量、クローラ、情報源の処理量の制限等がある。ここで、情報収集装置1がクローリングする範囲とは例えば、複数の情報収集装置が並列して稼働している際に、情報収集装置1がjpドメインに属する情報源からだけ情報を収集するように分担されている場合等を想定したものである。また、優先順位を付与するための情報の一例は、情報源の更新頻度である。優先順位を付与するための情報の他の例としては、情報収集装置1の外部からの特定の情報源をクローリングする旨の指示や、有名なサイトを優先的にクローリングする旨の指示等がある。なお、寄与度に対して優先順位等をどの程度勘案するかは、情報収集装置1の外部から指示してもよいし、情報源特定部23内に何らかの基準を予め設定しておいてもよい。また、情報源特定部23は、寄与度算出部21から出力された寄与度情報101が複数の寄与度を含んでいる場合、それら複数の寄与度の間の重みも勘案する。
クローリング部30は、情報源特定部23から出力された特定情報源情報102が示す部分集合によって識別されるインターネット2上の部分情報源から情報を収集し、収集した情報を収集結果記憶部40に記憶させる。
ここで、「想定している分析」の分析結果への寄与度を寄与度算出部21が算出する方法について説明する。
まず、「想定している分析」について説明する。
「想定している分析」とは、図1に示す情報収集装置1によって収集される情報に対して行うことを想定している分析のことである。以降、この「想定している分析」のことを想定分析という。
想定分析は例えば、インターネット2上の書き込みにおけるバーストワードの分析や、特定商品に対する評判情報の分析、特定のジャンルにおけるトピックの分析等がある。なお、バーストワードとは、特定の期間において、書き込み件数が多いワードや、書き込み件数が増えたワードのことである。また、評判情報とは、ある商品に対する好意的または否定的な書き込みの件数やその書き込みの内容のことである。また、トピックとは、どのような話題の書き込みがどの程度盛り上がっているかのことである。
次に、寄与度算出部21が寄与度を算出する方法について説明する。ここでは、以下に3つの算出方法を説明するが、寄与度を算出する方法は、以下の方法に限定されるものではない。
まず、寄与度の算出方法の1つめとして、部分集合によって識別される部分情報源からの部分過去情報だけを用いて想定分析を行った結果と、候補集合によって識別される情報源からの過去情報を用いて想定分析を行った結果との類似度を計算することにより、各部分集合の寄与度を算出する方法について説明する。以降、「候補集合によって識別される情報源からの過去情報を用いる想定分析」を「全分析」といい、「部分集合によって識別される部分情報源からの部分過去情報だけを用いる想定分析」を「部分分析」という。
この寄与度の算出方法において計算される類似度は、想定分析の目的によって異なる。例えば、バーストワードを網羅的に知りたいのであれば、部分分析によって抽出されるバーストワードが全分析によって抽出されるバーストワードを網羅している割合である網羅率を類似度とする。また、最も極端なバーストワードだけを知りたいのであれば、部分分析によって抽出される最も極端なバーストワードが全分析によって抽出される最も極端なバーストワードと一致する割合である正解率を類似度とする等である。
また、この寄与度の算出方法においては、実際に部分分析を行わなくても、全分析の結果と、部分集合によって識別される部分情報源からの部分過去情報との間の相関係数を計算する等により、簡便に類似度の計算を行う方法もある。これにより、計算資源や計算時間を節約することができる。
次に、寄与度の算出方法の2つめとして、全分析の結果と、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いた部分分析の結果との差異を計算することにより、各部分集合の寄与度を算出する方法を説明する。
この寄与度の算出方法では、計算された差異が大きいほど、除かれた一部の部分集合によって識別される部分情報源からの情報が全分析の結果に寄与する度合いが大きいことになる。従って、この差異を寄与度とすることができる。
この寄与度の算出方法においても上述した1つめの算出方法と同様に、差異は想定分析の目的によって異なる。また、この寄与度の算出方法においても上述した1つめの算出方法と同様に、簡便に差異の計算を行う方法があり、計算資源や計算時間を節約することができる。
寄与度の算出方法の3つめとして、部分集合によって識別される部分情報源からの部分過去情報から全分析の結果を推定した結果と、実際の全分析の結果との類似度を計算することにより、各部分集合の寄与度を算出する方法を説明する。
この寄与度の算出方法において例えば、特定のジャンルで盛り上がるトピックに対し、いつも先取りして時間的に早くその特定のジャンルの内容がある情報源に多く書き込まれるような場合、その情報源の情報を利用して全分析の結果を精度よく推定することができる。この場合、その特定のジャンルの内容は、その情報源に先取りして書き込まれる性質があるため、その情報源からの情報を利用して全分析の結果を推定した結果は、全分析の結果とは時間的なずれが生じており、必ずしも類似度が高くならない。このとき、時間的なずれを適切に考慮することにより、その情報源を含む部分集合の寄与度は高くなる。なお、以降、「部分集合によって識別される部分情報源からの部分過去情報から全分析の結果を推定」することを「部分推定」という。
この寄与度の算出方法の場合も、上述した2つの算出方法と同様に、類似度の計算方法は想定分析の目的によって異なる。また、実際に部分推定を行わなくても、推定式の係数等を計算して推定における部分集合の影響の大きさを評価することで、簡便に類似度の計算を行う方法もある。これにより、計算資源や計算時間を節約することができる。
また、この寄与度の算出方法の場合も、上述した2つめの算出方法のように、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いて差異を計算してもよい。つまり、候補集合の中から部分集合の一部を除いた残りの部分集合によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する。そして、推定した全分析の結果と実際の全分析の結果との差異を計算することにより、各部分集合の寄与度を算出する。この場合においても、簡便に差異の計算を行う方法があり、計算資源や計算時間を節約することができる。
なお、想定分析が複数ある場合には、それぞれの想定分析に対して各部分集合の寄与度を算出してもよいし、それぞれの想定分析に対する各部分集合の寄与度を統合して一つの寄与度としてもよい。また、想定分析毎に寄与度を算出するのではなく、複数の想定分析を一つの想定分析とみなし、その一つにみなされた想定分析に対する寄与度を算出してもよい。
以上が寄与度を算出する方法の説明である。
次に、寄与度を算出する対象となる部分集合を構成する構成方法について説明する。
寄与度の算出対象となる部分集合の構成方法に特に制限はない。例えば、ある特定のサイトに属する情報源を1つの部分集合とし、別のサイトに属する情報源を別の部分集合とするように構成してもよい。また、同じブログに属する情報源を1つの部分集合として構成してもよいし、さらに大きな括りである「ニュースサイト」や「企業のプレスリリース」等の括りよって1つの部分集合を構成してもよい。また、サイトが開設された時期に応じて部分集合を構成したり、被リンク数に応じて部分集合を構成したりしてもよい。また、候補集合からランダムに部分集合を構成してもよい。
また、寄与度を算出する対象となる部分集合の構成方法の他の例として、各部分集合に対応する寄与度の算出を行った結果に応じ、その結果を利用してさらに寄与度の算出を行う対象の部分集合を構成する方法がある。例えば、サイトごとに部分集合を構成している状況で(以降、サイトAに属する情報源の集合をS(A)と表す)、これらに対して寄与度の算出を行った結果、最も寄与度の高いサイトがA´であった場合、さらに寄与度の算出を行う対象の部分集合をS(A´)とS(B)との和集合によって構成する。この部分集合の構成方法では、既に算出された寄与度の結果を利用するため、計算資源や計算時間をさらに節約することができる。
以下に、上記のように構成された情報収集装置1においてインターネット2上にある情報源から情報を収集する場合の動作について説明する。
図2は、図1に示した情報収集装置1の動作を説明するためのフローチャートである。
まず、過去データ受付部10は、過去にインターネットから収集された過去情報を含む過去データを入力装置3から受け付け(ステップS1)、受け付けた過去データをデータ処理部20へ出力する。
次に、データ処理部20の寄与度算出部21は、過去データ受付部10から出力された過去データを受け付ける。そして、受け付けた過去データに含まれる部分過去情報のそれぞれが想定分析の分析結果へ寄与する度合いに応じて数値化された寄与度を予め決められた方法で部分集合毎に算出する(ステップS2)。なお、予め決められた算出方法とは上述した寄与度の算出方法のいずれかである。また、寄与度算出部21が寄与度を算出する過程の詳細については後述する。
そして、寄与度算出部21は、算出した寄与度とその寄与度に対応する各部分集合とを示す寄与度情報101を情報源特定部23へ出力する。
また、寄与度算出部21は、算出した寄与度に関する情報を寄与度記憶部22に記憶させる(ステップS3)。
寄与度算出部21から出力された寄与度情報101を受け付けた情報源特定部23は、受け付けた寄与度情報101に基づいて制約条件や優先順位を付与するための情報等を勘案し、クローリングする対象の部分集合を特定する(ステップS4)。なお、情報源特定部23がクローリングする対象の部分集合を特定する過程の詳細については後述する。
そして、情報源特定部23は、特定した部分集合を示す特定情報源情報102をクローリング部30へ出力する。
情報源特定部23から出力された特定情報源情報102を受け付けたクローリング部30は、特定情報源情報102が示す部分集合によって識別されるインターネット2上の部分情報源から情報を収集する(ステップS5)。
インターネット2上にある部分情報源から情報を収集したクローリング部30は、収集した情報を収集結果記憶部40に記憶させる(ステップS6)。
以上が情報収集装置1においてインターネット2上にある情報源から情報を収集する動作の説明である。
次に、上述した動作フローのステップS2において寄与度算出部21が寄与度を算出する過程の一例と、ステップS4において情報源特定部23がクローリングする対象の情報源の部分集合を特定する過程の一例とについて説明する。
まず、上述した動作フローのステップS2において寄与度算出部21が寄与度を算出する過程の一例について説明する。ここでは、想定分析はトピック分析とする。また、ここでは、説明を簡単にするため、候補集合は5つの情報源j(j=1,2,3,4,5)からなるものとする。この場合、それぞれの情報源jを識別する部分集合は、部分集合{1}、部分集合{2}、部分集合{3}、部分集合{4}、部分集合{5}と表すことができる。また、ここでは、上述した寄与度の算出方法のうち部分推定を用いた寄与度の算出方法を採用し、推定式の係数を利用することにより計算を簡便化する。また、ここでは、上述した部分集合の構成方法として、各部分集合に対応する寄与度の算出を行った結果に応じ、その結果を利用してさらに寄与度の算出を行う対象の部分集合を構成する方法を採用する。
これらの寄与度の算出方法及び部分集合の構成方法のどちらも、上述した寄与度の算出方法及び部分集合の構成方法の中では最も複雑な方法なので、それ以外の方法に関しては、自明であるとして記載を省略する。
寄与度を算出する過程においては、まず、全分析が行われる。ここで、想定分析がトピック分析である場合、過去情報に対して「特定のトピックに関する情報かどうか」が判定される。ここでは特定のトピックをトピックAとする。そして、過去の各時刻におけるトピックAに関する情報を含む過去情報の数が集計される。以降、時刻tにおいてトピックAに関する情報を含む過去情報の数をY(t)と表す。
Y(t)の値は、数値であり、その値が大きいほどトピックAが盛り上がっていたことを示す。なお、通常は、Y(t)を「トピックAに関する過去情報でタイムスタンプとして時刻tが付加された情報の数」として定義するが、Y(t)をタイムスタンプが時刻tである情報の数に対する相対的な頻度と定義してもよい。また、時刻tの前後Δtまでのタイムスタンプが付加された過去情報までをY(t)としてカウントしてもよい。
また、全分析の際に「トピックAに関する情報かどうか」を情報源jについて集計した結果をY^j(t)と表す。つまり、Y^1(t)は、情報源1から収集された部分過去情報のうちトピックAに関する情報であり、かつタイムスタンプとして時刻tが付加された情報の数である。
次に、寄与度を算出する対象の部分集合として、要素数が1のもの全てを構成する。すなわち、部分集合{1}、部分集合{2}、部分集合{3}、部分集合{4}、部分集合{5}を構成する。
なお、ここでは、時刻遅れ1までを考慮した時系列線形推定によって全分析の結果を推定する。すなわち、部分集合によって識別される部分情報源の1時刻前までの情報を用いて全分析の結果を推定する。この場合、ある時系列の値を別の時系列集合から推定する式を構成することができる。
全分析を行うことによって得られたトピックAに関する様々な情報から、寄与度の算出の対象となる部分集合によって識別されるそれぞれの部分情報源からの部分過去情報を用いて全分析の結果を推定するための推定式が以下の通りに得られたとする。
Y(t)=3.1*Y^1(t)+2.0*Y^1(t−1)+0.2ε^1(t)
Y(t)=0.6*Y^2(t)+4.1*Y^2(t−1)+0.8ε^2(t)
Y(t)=1.3*Y^3(t)+3.4*Y^3(t−1)+1.4ε^3(t)
Y(t)=2.2*Y^4(t)+2.8*Y^4(t−1)+0.5ε^4(t)
Y(t)=1.8*Y^5(t)+0.8*Y^5(t−1)+0.1ε^5(t)
上記の各式は、上から部分集合{1}、部分集合{2}、部分集合{3}、部分集合{4}、部分集合{5}によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する式である。
ここで、上記の各式の最後にあるε^j(t)を含む項はノイズ項と呼ばれ、ε^j(t)はそれぞれ独立に標準正規分布に従う変数とする。なお、ノイズ項の係数は、Y^j(t)とY^j(t−1)とで全分析の結果を推定しきれない量の大小を表している。例えば、ノイズ項の係数が大きければ、Y^j(t)とY^j(t−1)とで全分析の結果を推定しきれない量が大きいこととなる。
寄与度は、それぞれの推定式を過去情報に当てはめて得られる全分析の推定結果と、実際の全分析の結果との類似度を想定分析の目的に従った方法で計算することによって求められる。ここでは、上述したように推定式の係数を利用した簡便な方法によって寄与度を算出する。具体的には、Y^j(t)とY^j(t−1)とで全分析の結果を推定しきれない量を表しているノイズ項の係数が大きいほど寄与度が低く、この係数が小さいほど寄与度が高いものとして寄与度を算出する。
ここでは、一例として1からノイズ項の係数を引いた数値を寄与度とする。この場合、寄与度を算出する対象の部分集合である部分集合{1}、部分集合{2}、部分集合{3}、部分集合{4}、部分集合{5}の寄与度はそれぞれ、0.8、0.2、−0.4、0.5、0.9となる。従って、部分集合{5}の寄与度が最も高い。
寄与度算出部21は、ここまでに算出された各部分集合の寄与度とその寄与度に対応する部分集合とを示す寄与度情報101を情報源特定部23へ出力することもできるが、ここでは、寄与度算出部21は、さらに要素数が2の部分集合に対応する寄与度を算出する。
この場合、候補集合の要素数が5なので部分集合の数は10個となる。ここでは、それら全てを部分集合として構成するのではなく、上述した要素数1の部分集合のうち寄与度が最も高かった部分集合を含む部分集合だけを構成する。これは、いわゆる組み合わせ爆発を避けるための貪欲アルゴリズムである。なお、組み合わせ爆発とは、最適化問題において、数学でいう順列、組み合わせの数が多くなって、計算や処理を行う対象の数が急激に増大することをいう。また、貪欲アルゴリズムとは、問題の要素を複数に分割し、分割した要素をそれぞれ独立に評価して評価値の高い要素から順番に問題に取り込んでいくことによって解を得る方法のことをいう。
上述したように要素数1の部分集合において寄与度が最も高かった部分集合は、部分集合{5}であった。従って、ここで構成される部分集合は、部分集合{1,5}、部分集合{2,5}、部分集合{3,5}、部分集合{4,5}の4つとなる。
これら4つの部分集合に対して上述した要素数1の部分集合の場合と同様に、部分集合によって識別される部分情報源の1時刻前までの部分過去情報を用いて全分析の結果を推定するための推定式が以下の通りに得られたとする。
Y(t)=2.1*Y^1(t)+1.0*Y^1(t−1)+1.3*Y^5(t)+2.1*Y^5(t−1)+0.06ε^1´(t)
Y(t)=0.3*Y^2(t)+2.1*Y^2(t−1)+1.6*Y^5(t)+1.1*Y^5(t−1)+0.02ε^2´(t)
Y(t)=1.3*Y^3(t)+3.4*Y^3(t−1)+0.3*Y^5(t)+2.2*Y^5(t−1)+0.05ε^3´(t)
Y(t)=2.2*Y^4(t)+0.8*Y^4(t-1)+1.0*Y^5(t)+3.0*Y^5(t−1)+0.03ε^4´(t)
上記の各式は、上から部分集合{1,5}、部分集合{2,5}、部分集合{3,5}、部分集合{4,5}によって識別される部分情報源からの部分過去情報を用いて全分析の結果を推定する式である。
ここで、上述した要素数1の部分集合の場合と同様に、1からノイズ項の係数を引いた数値を寄与度とする場合、寄与度を算出する対象の部分集合である部分集合{1,5}、部分集合{2,5}、部分集合{3,5}、部分集合{4,5}の寄与度はそれぞれ、0.94、0.98、0.95、0.97となる。従って、部分集合{2,5}の寄与度が最も高い。
寄与度算出部21は、ここまでに算出された各部分集合の寄与度とその寄与度に対応する部分集合とを示す寄与度情報101を情報源特定部23へ出力することもできるが、ここでは、寄与度算出部21は、さらに要素数が3の部分集合に対応する寄与度を算出する。
この場合においても上述した要素数2の部分集合の場合と同様に、要素数2の部分集合で寄与度が最も高かった部分集合を含む部分集合だけを構成する。
上述したように要素数2の部分集合において寄与度が最も高かった部分集合は、部分集合{2,5}であった。従って、ここで構成される部分集合は、部分集合{1,2,5}、部分集合{3,2,5}、部分集合{4,2,5}の3つとなる。
これら3つの部分集合に対して上述した要素数1及び要素数2の部分集合の場合と同様に、部分集合によって識別される部分情報源の1時刻前までの情報を用いて全分析の結果を推定するための推定式を得る。そして、得られた推定式において、1からノイズ項の係数を引いた数値を寄与度とした結果、部分集合{1,2,5}、部分集合{3,2,5}、部分集合{4,2,5}の寄与度がそれぞれ、0.999、0.998、0.997になったとする。
ここまでに算出された寄与度と、それぞれの寄与度に対応する部分集合は以下の通りである。
部分集合{1} 0.8
部分集合{2} 0.2
部分集合{3} −0.4
部分集合{4} 0.5
部分集合{5} 0.9
部分集合{1,5} 0.94
部分集合{2,5} 0.98
部分集合{3,5} 0.95
部分集合{4,5} 0.97
部分集合{1,2,5} 0.999
部分集合{3,2,5} 0.998
部分集合{4,2,5} 0.997
寄与度算出部21は、これらの寄与度と、それぞれの寄与度に対応する部分集合とを示す寄与度情報101を情報源特定部23へ出力する。
次に、上述した動作フローのステップS4において情報源特定部23がクローリングする対象の情報源の部分集合を特定する方法の一例を説明する。
情報源特定部23は、寄与度算出部21から出力された寄与度情報101に基づき、制約条件や優先順位を付与するための情報等を勘案した上でクローリングする対象の部分集合を特定する。ここでは、情報源特定部23は、上述した要素数が3までの部分集合に対応する寄与度の出力を受けているものとする。また、ここでは、制約条件の一例として、「クローリングする対象の情報源の数は2以下であること」だけが与えられているとする。また、優先順位を与える情報の一例として、部分集合{1}〜{5}によって識別される部分情報源から再度情報を収集するためのコストがそれぞれ0、0.03、0、0.01、0.01と与えられているとする。この場合、例えば、寄与度−コストの値を算出すると、上述した各部分集合の寄与度は以下のようになる。例えば、部分集合{2,5}の場合、コストを勘案する前の寄与度は、上述したように0.98である。ここで、部分集合{2}に対応する部分情報源から情報を収集するコストが0.03であり、部分集合{5}に対応する部分情報源から情報を収集するコストが0.01であるため、0.98−0.03−0.01=0.94となる。
部分集合{1} 0.8
部分集合{2} 0.17
部分集合{3} −0.4
部分集合{4} 0.49
部分集合{5} 0.89
部分集合{1,5} 0.93
部分集合{2,5} 0.94
部分集合{3,5} 0.94
部分集合{4,5} 0.95
部分集合{1,2,5} 0.959
部分集合{3,2,5} 0.958
部分集合{4,2,5} 0.947
さらに、上述した「クローリングする対象の情報源の数は2以下であること」という制約条件を勘案すると、この制約条件を満たして寄与度が最大の部分集合は、部分集合{4,5}となる。この場合、情報源特定部23は、部分集合{4,5}を示す特定情報源情報102をクローリング部30へ出力する。
このように本実施形態においては、情報収集装置1は、過去に複数の情報源から収集された過去情報のうち、複数の情報源の一部である部分情報源から収集された部分過去情報のそれぞれが過去情報の分析結果へ寄与する度合いに応じて特定された情報源から情報を収集する。そのため、再度全ての情報源から情報を収集しなくても、再度全ての情報源から情報を収集して分析した場合の分析結果に近い分析結果を効率的に得ることができる。
例えば、上述した実施形態において、情報源特定部23が、寄与度に基づかずに上述した制約条件及び優先順位を付与するための情報だけを勘案してクローリングする対象の部分集合の特定を行った場合、クローリングする対象となる部分集合は、コストが最も低い部分集合{1,3}となる。つまり、想定分析への寄与度が低い部分情報源から情報を収集することになる。本実施形態のように寄与度を考慮することにより、想定分析への寄与度の高い部分集合{4,5}によって識別される部分情報源から情報を収集することが可能となる。
なお、上述した実施形態では、情報源特定部23によって優先順位を付与するための情報等が与えられたが、優先順位を付与するための情報等は与えられなくてもよい。この場合、クローリングする対象の情報源数による制約条件だけしか与えられないことが予め分かっていれば、情報源特定部23は、要素数が同じ各部分集合のうち、寄与度が最も高い部分集合だけを特定情報源情報102として出力すればよい。
また、上述した実施形態のように、貪欲アルゴリズムにより、算出した寄与度を利用してさらに部分集合を構成する場合には、一般的に要素数の多い部分集合ほど寄与度が高くなる。この場合、寄与度算出部21は、各部分集合に対応する寄与度の値ではなく、要素数Nの部分集合のうち寄与度が最も高い部分集合と、要素数N−1の部分集合のうち寄与度が最も高い部分集合との差分要素だけを寄与度情報101として情報源特定部23へ出力するようにしてもよい。
また、上述した実施形態では、過去データ受付部10やクローリング部30、収集結果記憶部40が、データ処理部20とは別の構成となっているものとして説明したが、これらは、データ処理部20に含まれていてもよい。また、逆に、データ処理部20内の各部は、他のコンピュータ等に備えられていてもよく、他のコンピュータと情報収集装置1とを通信手段で接続するというような構成でもよい。
また、上述した実施形態で説明した以外の多次元時系列データ等に対する推定方法を利用して寄与度の算出を行うことができる。
また、本発明においては、情報収集装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを情報収集装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを情報収集装置に読み込ませ、実行するものであっても良い。情報収集装置にて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、情報収集装置に内蔵されたHDDなどを指す。
本発明の情報収集装置の実施の一形態の構成を示すブロック図である。 図1に示した情報収集装置の動作を説明するためのフローチャートである。
符号の説明
1 情報収集装置
2 インターネット
3 入力装置
10 過去データ受付部
20 データ処理部
21 寄与度算出部
22 寄与度記憶部
23 情報源特定部
30 クローリング部
40 収集結果記憶部
101 寄与度情報
102 特定情報源情報

Claims (18)

  1. 過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定し、該特定された前記部分情報源から情報を収集する情報収集装置。
  2. 請求項1に記載の情報収集装置において、
    前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出し、該算出した寄与度と、該寄与度に対応する前記部分情報源とを示す寄与度情報を出力する寄与度算出部と、
    前記寄与度算出部から出力された寄与度情報に基づいて情報を収集する前記部分情報源を特定し、該特定された前記部分情報源を示す特定情報源情報を出力する情報源特定部と、
    前記情報源特定部から出力された特定情報源情報が示す前記部分情報源から情報を収集するクローリング部と、を有する情報収集装置。
  3. 請求項2に記載の情報収集装置において、
    前記寄与度算出部は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する情報収集装置。
  4. 請求項2に記載の情報収集装置において、
    前記寄与度算出部は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する情報収集装置。
  5. 請求項2に記載の情報収集装置において、
    前記寄与度算出部は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する情報収集装置。
  6. 請求項2に記載の情報収集装置において、
    前記寄与度算出部は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する情報収集装置。
  7. 過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定処理と、
    前記特定された前記部分情報源から情報を収集する収集処理と、を有する情報収集方法。
  8. 請求項7に記載の情報収集方法において、
    前記特定処理は、
    前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出する算出処理と、
    前記算出された寄与度と、該寄与度に対応する前記部分情報源とに基づいて情報を収集する前記部分情報源を特定する処理と、を含み、
    前記収集処理は、前記特定された前記部分情報源から情報を収集する処理である情報収集方法。
  9. 請求項8に記載の情報収集方法において、
    前記算出処理は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する処理である情報収集方法。
  10. 請求項8に記載の情報収集方法において、
    前記算出処理は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する処理である情報収集方法。
  11. 請求項8に記載の情報収集方法において、
    前記算出処理は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する処理である情報収集方法。
  12. 請求項8に記載の情報収集方法において、
    前記算出処理は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する処理である情報収集方法。
  13. 情報を収集する情報収集装置に、
    過去に複数の情報源から収集された情報である過去情報のうち、前記複数の情報源の一部である部分情報源から収集された情報である部分過去情報のそれぞれが前記過去情報の分析結果へ寄与する度合いに応じ、情報を収集する部分情報源を特定する特定機能と、
    前記特定された前記部分情報源から情報を収集する収集機能と、を実現させるためのプログラム。
  14. 請求項13に記載のプログラムにおいて、
    前記特定機能は、
    前記部分情報源に対応し、該部分情報源から収集された前記部分過去情報のそれぞれが前記過去情報の分析結果に寄与する度合いに応じて数値化された寄与度を算出する算出機能と、
    前記算出された寄与度と、該寄与度に対応する前記部分情報源とに基づいて情報を収集する前記部分情報源を特定する機能と、を含み、
    前記収集機能は、前記特定された前記部分情報源から情報を収集する機能であるプログラム。
  15. 請求項14に記載のプログラムにおいて、
    前記算出機能は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との類似度に基づいて前記寄与度を算出する機能であるプログラム。
  16. 請求項14に記載のプログラムにおいて、
    前記算出機能は、前記部分過去情報を用いた前記過去情報の分析結果と、前記過去情報を用いた該過去情報の分析結果との差異に基づいて前記寄与度を算出する機能であるプログラム。
  17. 請求項14に記載のプログラムにおいて、
    前記算出機能は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の類似度に基づいて前記寄与度を算出する機能であるプログラム。
  18. 請求項14に記載のプログラムにおいて、
    前記算出機能は、前記部分過去情報を用いて前記過去情報の分析結果を推定し、該推定された分析結果と、前記過去情報を用いた該過去情報の分析結果と、の差異に基づいて前記寄与度を算出する機能であるプログラム。
JP2008313366A 2008-12-09 2008-12-09 情報収集装置、情報収集方法及びプログラム Active JP5157865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008313366A JP5157865B2 (ja) 2008-12-09 2008-12-09 情報収集装置、情報収集方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008313366A JP5157865B2 (ja) 2008-12-09 2008-12-09 情報収集装置、情報収集方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010140087A JP2010140087A (ja) 2010-06-24
JP5157865B2 true JP5157865B2 (ja) 2013-03-06

Family

ID=42350207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008313366A Active JP5157865B2 (ja) 2008-12-09 2008-12-09 情報収集装置、情報収集方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5157865B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2004038412A (ja) * 2002-07-01 2004-02-05 Central Res Inst Of Electric Power Ind データマイニング方法およびデータマイニングシステム並びにデータマイニング用プログラム
JP2004054631A (ja) * 2002-07-19 2004-02-19 Internatl Business Mach Corp <Ibm> 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
JP2004280569A (ja) * 2003-03-17 2004-10-07 Mitsubishi Electric Corp 情報監視装置
US7310632B2 (en) * 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
JP4718205B2 (ja) * 2005-02-22 2011-07-06 三菱電機株式会社 選択的Web情報収集装置

Also Published As

Publication number Publication date
JP2010140087A (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
US10600005B2 (en) System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
Westcott et al. OptiClust, an improved method for assigning amplicon-based sequence data to operational taxonomic units
US9465713B2 (en) Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
CN102262647B (zh) 信息处理装置、信息处理方法和程序
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
US9411875B2 (en) Tag refinement strategies for social tagging systems
Amini et al. Bayesian model averaging in R
US9111227B2 (en) Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
EP2991003B1 (en) Method and apparatus for classification
US8849738B2 (en) Predicting a user behavior number of a word
CN106030589A (zh) 使用开源数据的疾病预测系统
Ghosh et al. Time-aware ranking in dynamic citation networks
Adabor et al. SAGA: a hybrid search algorithm for Bayesian Network structure learning of transcriptional regulatory networks
WO2014199920A1 (ja) 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
JP2000194745A (ja) トレンド評価装置及びトレンド評価方法
KR20210031094A (ko) 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램
Bazil et al. A parallel algorithm for reverse engineering of biological networks
Zhao et al. F-Seq2: improving the feature density based peak caller with dynamic statistics
JP5157865B2 (ja) 情報収集装置、情報収集方法及びプログラム
JP5600693B2 (ja) クラスタリング装置及び方法及びプログラム
JPWO2009116342A1 (ja) 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
Su et al. Hidden Markov model in multiple testing on dependent count data
JP5963493B2 (ja) コスト推定システム、方法及びプログラム
JP6617605B2 (ja) 需要量予測プログラム、需要量予測方法、及び情報処理装置
JP2008171282A (ja) 最適パラメータ探索プログラム、最適パラメータ探索装置および最適パラメータ探索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110905

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121107

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5157865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3