JP5387578B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents

情報分析装置、情報分析方法、及びプログラム Download PDF

Info

Publication number
JP5387578B2
JP5387578B2 JP2010530725A JP2010530725A JP5387578B2 JP 5387578 B2 JP5387578 B2 JP 5387578B2 JP 2010530725 A JP2010530725 A JP 2010530725A JP 2010530725 A JP2010530725 A JP 2010530725A JP 5387578 B2 JP5387578 B2 JP 5387578B2
Authority
JP
Japan
Prior art keywords
series data
time
section
document
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010530725A
Other languages
English (en)
Other versions
JPWO2010035455A1 (ja
Inventor
聡 中澤
真一 安藤
剛巨 河合
穣 岡嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010530725A priority Critical patent/JP5387578B2/ja
Publication of JPWO2010035455A1 publication Critical patent/JPWO2010035455A1/ja
Application granted granted Critical
Publication of JP5387578B2 publication Critical patent/JP5387578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書集合に対して分析を行う情報分析装置、情報分析方法、及びプログラムに関する。
本願は、2008年9月24日に、日本に出願された特願2008−244753号に基づき優先権を主張し、その内容をここに援用する。
近年、文書データを分析するため、2つの文書集合間の類似度や関連度の判定が行われている。このような類似度の判定は、例えば、2つの文書集合に共通に現れる言語表現の数や、各文書集合に含まれる情報の量に基づいて行われる(例えば、非特許文献1参照)。
具体的には、非特許文献1には、似ている文書をグループ化し、テキストを整理するため、2つの文書間の類似度を求める技術が開示されている。非特許文献1では、双方の文書に共通して出現する索引語(言語表現の一種)の数を用いた式によって、2つの文書間の類似度が定義される。そして、2つの文書集合(クラスタ)間の類似度として、各文書集合に属する文書間の類似度のうち最大の値が用いられ、最も類似度の高い文書集合のペア(クラスタペア)が併合されて、1つのグループとされる。
ここで、本明細書において、「言語表現」とは、文書(テキスト)に含まれる、特定の名詞、話題、意見又は事物等を表す記述をいう。「言語表現」としては、例えば、イベント名、事件名、製品名等のいわゆる名詞で表現される名詞的表現や、名詞的表現と述語又は修飾語とを組み合わせた表現等が挙げられる。また、名詞的表現の具体例としては、「レースゲーム」、「食品偽装」、「耐震ジェル」等が挙げられる。組み合わせた表現の具体例としては、「耐震ジェルは有効」、「ディーゼルエンジンは環境によい」等が挙げられる。
更に、「言語表現」は、文書中に出現する文字列そのものであって良いし、文書に対して、形態素解析、構文解析、係り受け解析、又は同義語処理等の既存の自然言語処理技術を適用し、それによって得られる解析結果であっても良い。例えば「学校」「生徒」などはそれぞれ1単語からなる言語表現である。また、「学校へ行く」、「学校に行った」、「学校に急いで行った」等のテキストに対して、係り受け解析を行って得られる「学校→行く」のような単語間の係り受け解析の結果も、1つのまとまった意味を表す言語表現である。
また、文書データの分析は、上述した2つの文書集合間の類似度や関連度の判定による分析とは別に、特定の言語表現を含む文書集合の数の時間的な変遷を調べることによっても行われている。この点について以下に説明する。
近年、インターネット上のブログや、電子メール、コールセンターにおける応答履歴など、発信日時や作成日時、応答日時などの時間情報が付与された大量の文書データが作成され、また、これらの入手が可能となっている。こうした時間情報付き文書の文書集合から、着目する特定の言語表現が記述された文書を抽出し、それを、付与されている時間情報に基づいて順に並べ、時系列分析を行うことで、着目する言語表現の出現回数や、話題に挙がる回数等が調べられる(例えば、非特許文献2参照)。
具体的には、非特許文献2は、「Blog Watcher」という技術を開示している。この技術では、収集されたブログ全体における、特定の話題語が出現した回数、その話題語が肯定的に記述されている回数、及び否定的に記述されている回数等の時系列変化が、折れ線グラフとしてプロットされる。非特許文献2に開示の技術によれば、ユーザは、着目する話題語のブログにおける出現数の変遷を調べることができ、その着目する話題語が各時点でどの程度流行していたのか、といった分析を行うことができる。
また、統計分析の基本的な手法に回帰分析がある。これは、ある事象の各時点での出現数や価格といった時系列データが複数組存在するときに、複数の時系列データの時間変化の相関性を調べて、関連性の高い事象を検出する技術である。例えば、ある株価の時間変化と、別の株価の時間変化とに相関性があった場合に、それらの2つの株の時点ごとの価格を、それぞれの時系列データとみなして回帰分析を行うことで、両者の価格にどれくらい関連があったのかを計算することができる。
ここで、着目する事象が、ある特定の言語表現で表される事象である場合を考える。例えば、株価のような直接的な時系列データでなく、分析対象として、時間情報付の文書の文書集合が与えられた場合は、非特許文献2に開示の技術を用いることで、各言語表現の時系列データを求めることができる。この場合、分析母集団となる文書集合を、時間情報を用いて特定の期間で区切れば、期間毎における、各言語表現を含む文書の数や言語表現の出現回数が、各言語表現の期間毎の時系列データとなる。
よって、非特許文献2に開示された技術を用いて、2つの時間情報付き文書集合を2つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べれば、両者の関連度が求められる。この場合、この2つの時間情報付き文書集合において、同一又は類似の言語表現が存在しているかどうかは関係が無い。2つの時間情報付き文書集合は時系列データと見なされ、両者の変化パターンの類似性や相関性から、両者の関連度が求められる。
つまり、必ずしも、双方の文書集合に、同一または類似の言語表現が多数含まれていなくとも、それぞれの時系列データの時間変化に相関性が高く見受けられる場合は、入力された2つの文書集合の関連度は高く計算される。このように、非特許文献2に開示の技術と回帰分析等の統計的分析とを組み合わせれば、2つの時間情報付き文書集合間に対して、類似度や関連度を判定することができる。
しかしながら、回帰分析等の統計分析を用いて、時系列データの変化パターンの類似性や相関性を調べ、複数の時系列データの関連度を求める場合は、偶然の一致により、誤って関連性を高く評価してしまう問題が存在する。
例えば、図2に示す時系列データ(1)と時系列データ(2)とが存在したとする。図2は、後述するように、時系列データの一例を示す図である。図2に示す例では、時系列データ(1)と時系列データ(2)とで、2つのピークが同時期に存在している。よって、図2に示された時系列データだけからは、高い関連性が認められる。
もちろん、時系列データ(1)と時系列データ(2)との間に、一方が他方の変化の原因になっているといった何らかの因果関係が存在し、高い関連性が適切である場合もある。一方で、例えば、時系列データ(1)の2つのピークは、2つの異なる原因によるものであり、それらのピークは独立しているものであるが、時系列データ(2)の2つのピークは、別のある原因による周期的なピークである、といった場合が考えられる。即ち、時系列データ(1)と時系列データ(2)とにおいて、偶然に両者のピークの区間が重なる場合が考えられる。
これらの点から、非特許文献2に開示された技術を用いて、2つの時間情報付き文書集合を2つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べる場合は、偶然の一致によるのか、本当に関連性があるのかの判断は困難である。
また、非特許文献1に開示の技術を適用し、一の時系列データの元となった文書集合と他の時系列データの元となった文書集合との類似性を求め、求められた類似性から、時系列データ間の関連度を求める手法も考えられる。この場合、2つの文書集合間の類似度は、同一又は類似の言語表現が双方の文書集合に出現する度合いに基づいて、計算される。
しかしながら、この場合は、双方の文書集合間に関連性が存在するにも拘わらず、同一又は類似の内容が記述されていないために、関連性を適切に判断できない場合がある。具体的には、一方の文書集合で記述されている事象と他方の文書集合で記述されている事象とに因果関係が存在するが、同一又は類似の言語表現が双方の文書集合で用いられていない場合が挙げられる。また、双方の文書集合それぞれに、共通の原因について記載されているが、共通の原因に対する結果が、各文書集合で異なっている場合等も挙げられる。
長尾真編、「自然言語処理」、岩波書店、1996年、ISBN4−00−010355−5、p.436−438 南野朋之、鈴木泰裕、藤木稔明、奥村学著、「blogの自動収集と監視」、人工知能学会論文誌、Vol.19(2004)、No.6、pp.511−520
本発明の目的は、上記問題を解消し、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一態様における情報分析装置は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする。
また、上記目的を達成するため、本発明の一態様における情報分析方法は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一態様におけるプログラムは、時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とする。
以上のように本発明によれば、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制できる。
図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。 図2は、それぞれ、時系列データの一例を示す図である。 図3は、それぞれ、時系列データの一例を示す図である。 図4は、それぞれ、時系列データの一例を示す図である。 図5は、それぞれ、時系列データの一例を示す図である。 図6は、共通の原因によって変動する時系列データの例を示す図である。 図7は、共通の原因によって変動する時系列データの他の例を示す図である。 図8は、異なる原因によって変動する時系列データの他の例を示す図である。 図9は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。 図10は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。 図11は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。
(実施の形態1)
以下、本発明の実施の形態1における情報分析装置、情報分析装置及びプログラムについて、図1〜図9を参照しながら説明する。最初に、図1〜図5を用いて、本発明の実施の形態1における情報分析装置の構成について説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2〜図5は、それぞれ、時系列データの一例を示す図である。
図1に示す情報分析装置1は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する装置である。図1に示すように、情報分析装置1は、対応区間選別部30と、特徴抽出部40と、比較部50と、関連度算出部70とを備えている。分析対象となる文書集合は、時間情報が付与された複数の文章データで構成され、外部から情報分析装置1へと入力される。
また、図1に示すように、本実施の形態1では、情報分析装置1は、更に、入力部10と、時系列データ生成部20と、出力部80とを備えている。また、情報分析装置1には、データベース60が接続されている。データベース60は、後述するように、比較部50による処理に利用される。また、以下においては、2つの文書集合が入力され、それぞれに対応して変化する2つの時系列データが生成される場合について説明する。
入力部10は、分析対象とする複数の文書集合の入力を受け付けている。文書集合を構成する文書データは、入力部10に入力される。このとき、文書集合を構成する文書データは、外部のコンピュータ装置からネットワークを介して、直接、入力部10に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、入力部10としては、外部と情報分析装置1とを接続するためのインターフェイスが用いられる。後者の場合は、入力部10としては、読取装置が用いられる。
また、本実施の形態1では、上述したように、2つの文書集合が入力される。そして、後述するように、入力された2つの文書集合に対して関連度が計算され、最終的に、出力部80から外部に出力される。なお、本明細書では便宜上、入力される2つの文書集合を区別して説明する必要がある場合は、それぞれ、入力文書集合(1)、入力文書集合(2)、と表記する。また、2つの文書集合が入力される場合に、いずれを入力文書集合(1)とするか、又は入力文書集合(2)とするかについて特に限定は無く、適宜設定できる。
入力される文書集合は、上述したように、時間情報が付与された文書(文書データ)の集合である。ここで、本発明でいう「時間情報」とは、入力された文書集合に属する各文書に付与されている年月日や時刻といった時間情報を意味する。また、「時間情報」としては、各文書の作成日時、発信日時、公開日時等各文書に直接関係する時間情報を用いることができる。更に「時間情報」としては、文書中の内容で扱われる事項及び事件に関する時間情報を用いることもできる。このような時間情報の具体例としては、コールセンター等で作成される応対記録に記されている通話の着信日時や、警察の事故記録に記されている事故の発生日時等が挙げられる。
また、本実施の形態1では、1つの文書に複数の時間情報が付与されていても良い。但し、この場合は、事前に、後述する時系列データ生成部20において、どの時間情報をその文書に対する一意の時間情報として用いるのか、設定されている必要がある。時系列データ生成部20は、予め設定された種類の時間情報のみを抽出する。
時間情報の形式は、入力された文書集合に含まれる文書間で、経時的な順序づけが可能な形式であれば良く、西暦による年月日、年月日と時刻との組み合わせ、年月のみ等、いずれの形式であっても良い。また、入力される文書集合の例としては、「お菓子Aを買った」という言語表現(又はその同義表現)を含んだブログ記事や、「アイドルBのダンスがいい」という言語表現(又はその同義表現)を含んだブログ記事等が挙げられる。この場合、各ブログ記事の日付が時間情報となる。
時系列データ生成部20は、入力部10で受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、複数の時系列データを生成する。本実施の形態1では、このように、時系列データ生成部20が備えられているため、情報分析装置1には、文書集合を直接入力すれば良い。また、本実施の形態1では、二つの文書集合が入力されており、時系列データ生成部20は、二つの時系列データを生成する。なお、本明細書では、便宜上、入力文書集合(1)から生成される時系列データを「時系列データ(1)」と表記し、入力文書集合(2)から生成される時系列データを「時系列データ(2)」と表記する。
ここで、本発明でいう「時系列データ」とは、時間をある一定の期間で区切り、そして、区切られた各区間、あるいは、各区間の先頭や中点など各区間中の特定の点における任意の計数結果を時間の順に並べ、それによって得られるデータをいう。なお、文書集合から生成された時系列データではないが、年月日毎のある会社の株価は、時系列データの典型的な例である。この場合、ある一定の期間は1日である。その他、気温の時間変化や、特定の道路における交通量の時間変化等も、文書集合から生成された時系列データではないが、時系列データの例として挙げられる。
また、本実施の形態1では、時系列データ生成部20は、文書集合から時系列データを生成するため、先ず、各文書に付与されている時間情報を基にして、文書集合をある一定の期間ごとに区切り、複数の部分集合とする。このとき、一定の期間をどの程度とするかは、特に限定されず、一定の期間の長さは、情報分析装置1の用途や使用目的、文書集合を構成している文書に付与された時間情報の性質等に応じて、適宜設定される。
例えば、文書に付与された時間情報が西暦の年月日であって、一番古い文書が2005年1月1日であり、ある一定の期間が1ヶ月であったとする。この場合、時系列データ生成部20は、2005年1月の時間情報を持つ文書の文書集合、2005年2月の時間情報を持つ文書の文書集合、2005年3月の時間情報を持つ文書の文書集合、のように、一つの文書集合を複数の文書集合に分割する。そして、時系列データ生成部20は、分割によって得られた文書集合(部分集合)毎に、それぞれの部分集合を構成する文書の性質から規定される値(任意の計数結果)を求め、求められた値を時間順にソートし、時系列データとする。
また、「文書の性質から規定される値」は、各部分集合を構成する文書の性質から、一意に機械的に算出することが可能な値であれば良く、情報分析装置1の目的や用途、各文書に付与されているメタ情報の種類等に応じて適宜設定される。具体的には、「文書の性質から規定される値」としては、各部分集合を構成する文書の数やサイズ、各部分集合を構成する文書のユニーク発信者数等が挙げられる。
なお、「文書のユニーク発信者数」とは、各文書を発信している発信者の実際の数であり、同一人を複数回カウントする、のべ人数を含まない意である。また、ユニーク発信者数等、文書の内容そのものから機械的に算出不可能な数値を用いる場合は、各文書に、数値を特定する情報(例えば、発信者ID等の発信者を特定する情報)が、時間情報とは別に、文書のメタ情報として付与されている必要がある。
ここで、時系列データの例について説明する。図2〜図8の例では、入力文書集合(1)から生成された時系列データ(1)と、入力文書集合(2)から生成された時系列データ(2)とが図示されている。時系列データ(1)及び(2)は、共に、横軸を時間、縦軸を計数結果とするグラフによって表すことができ、図2〜図8においては、2004年から2007年(図3の場合は2008年)までの計数結果がプロットされている。
また、図2〜図8においては、縦軸となる計数結果として、特定の特徴語やその類似語が設定期間内で出現した回数(出現数)が用いられている。更に、時系列データにおいて縦軸として用いることができる計数結果は、出現数のような計測された値自体であっても良いし、元の数値に補正や変換をかけた値であっても良い。後者の例としては、計測された値を全文書集合の数で正規化して得られた値や、計測された値の変化を微分して得られた値等が挙げられる。また、どのような補正や変換を行うか、又は計測された値自体を使用するかは、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜選択される。
対応区間選別部30は、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する区間(対応区間)を2以上選別する。本実施の形態1では、対応区間選別部30は、時系列データ(1)と時系列データ(2)とを互いに比較し、それぞれから対応して変化する区間(対応区間)を2以上選別する。また、対応区間選別部30は、選別した各時系列データの2以上の対応区間を、特徴抽出部40に出力する。
また、本実施の形態1では、対応区間選別部30は、対応区間ペア選別部31と類似対応区間ペア選別部32とを備え、これらによって対応区間の選別を行っている。この点について以下に説明する。
対応区間ペア選別部31は、2つの時系列データ間の相関性を調べ、2つの時系列データ間で互いに対応して変化する区間(対応区間)を選別する。対応区間ペア選別部31は、時系列データ作成部20から時系列データ(1)と時系列データ(2)とを受け取り、一方の時系列データの一区間と、これに対応して変化する他方の時系列データの一区間とを検出し、両者を時系列データにおける対応区間のペア(以下「対応区間ペア」と称する)として選別する。対応区間ペア選別部31は、このような対応区間ペアを時系列データ(1)と時系列データ(2)とから2ペア以上選別する。
ここで、「対応して変化する区間(対応区間)」とは、時系列データ(1)のある部分的な一区間の値をプロットしたグラフと、時系列データ(2)のある部分的な一区間の値をプロットしたグラフとの間に高い相関性が認められる場合における、これらの部分的な一区間をいう。また、相関性が高いかどうかの判定は、本実施の形態1では、相関係数を用いて行うことができる。
具体的には、対応区間ペア選別部31は、先ず、時系列データ(1)と時系列データ(2)との相関係数を求める。そして、対応区間ペア選別部31は、2つの時系列データそれぞれにおける、相関係数の絶対値が設定された閾値を超える(又は閾値以上となる)2以上の区間を対応区間として選別することができる。このとき閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて対応区間ペアが2つ以上選別されるような適切な値に、事前に設定されているものとする。
また、相関係数の絶対値を判定に利用することから、求められた相関係数は負の値となっても良い。更に、相関係数としては、一般的なピアソンの積率相関係数や、スピアマンの順位相関係数、ケンドールの順位相関係数等を用いることができる。また、対応区間ペア選別部31は、対応区間ペアを2つ以上選別できない場合は、予め設定されている閾値が小さくなるように再度閾値の設定を行っても良いし、関連度算出部70に対して関連度の算出を中止するように指示を行っても良い。
更に、本実施の形態1では、対応区間ペア選別部31は、相関係数を用いないで、代わりに、既存の統計分析技術や、時系列分析技術を用いて、一方の時系列データの部分区間と他方の時系列データの部分区間との相関性を判断することもできる。また、対応区間ペア選別部31は、両方の時系列データの部分区間における相関性の高さのみを、対応区間ペアの選別基準とするのではなく、一方あるいは両方の時系列データが特徴的に変動する区間を検出し、その度合いを選別の基準として用いても良い。例えば、一方または両方の時系列データのグラフがそれぞれ大きく変化する区間を検出し、この区間における変化の度合いを考慮して、対応区間ペアとして選別することもできる。
対応区間ペア選別の例としては図2のグラフが挙げられる。図2のグラフでは、時系列データ(1)及び(2)は共に、上に凸となった2つのピークを有している。この場合、時系列データ間の相関係数は正の高い値となり、時系列データ(1)及び(2)は、ピークにおいて相関性が高くなっている。よって、これら2つのピークは、それぞれ対応区間ペアとして選別できる。
更に、図3のグラフでは、2004年の後半から2005年の頭にかけて、時系列データ(1)の出現数は急速に減少しているのに対して、時系列データ(2)の出現数は急速に増加している。逆に、2006年の初頭においては、時系列データ(1)の出現数が急速に増加しているのに対して、時系列データ(2)の出現数は急速に減少している。この図3の場合においては、相関係数は負となるが、その絶対値は高く、両者の急増部分及び急減部分の相関性は高いと考えられる。よって、両者の急増部分及び急減部分の区間は、対応区間ペアとして選別されることが可能である。
ここで、図2〜図8における時系列データの対応区間を、説明の便宜上、対応区間1−1、対応区間2−1、対応区間1−2、対応区間2−2、のように記述することとする。この場合、対応区間1−1は、時系列データ(1)の1番目の対応区間を意味し、対応区間1−2は、時系列データ(1)の2番目の対応区間を意味する。また、対応区間1−nは、時系列データ(1)のn番目の対応区間であることを意味する。
同様に、対応区間2−1は、時系列データ(2)の1番目の対応区間を意味し、対応区間2−2は、時系列データ(2)の2番目の対応区間を意味する。また、対応区間2−nは、時系列データ(2)のn番目の対応区間であることを意味する。更に、対応区間1−nと対応区間2−nとにおいて、「n」に当てはまる数値が同一の場合は、対応関係にある対応区間ペアであることを示す。例えば、対応区間1−1と対応区間2−1とは、対応関係にある対応区間ペアである。
また、図2及び図3に示された、各対応区間ペアでは、対応関係にある対応区間において、その長さ、開始時間、及び終了時間は、同一となっている。但し、本実施の形態1は、これに限定されず、対応関係にある対応区間において、必ずしも対応区間の長さ、開始時間、及び終了時間が同一となる必要はない。
例えば、図4に示された、対応区間1−1と対応区間2−1とのペアや、対応区間1−2と対応区間2−2とのペアのように、ペアとなっている対応区間同士で、開始時間及び終了時間がずれていても良い。更に、図4に示された、対応区間1−2と対応区間2−2とのペアのように、それぞれの長さが異なっていても良い。
なお、2つの時系列データから対応区間ペアを選別するにあたり、どの程度、開始時間及び終了時間のずれや、長さの違いを許容するかは、用いられる対応区間ペアを求める手法、即ち、相関性の判断手法に依存する。
類似対向区間ペア選別部32は、1つの時系列データに存在する複数の部分区間について、部分区間同士での相関性を調べ、対応区間として選別されたものの中から更に選別を実行する。類似対応区間ペア選別部32は、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、更に時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する。
具体的には、類似対応区間ペア選別部32は、先ず、時系列データ(1)において、選別された2以上の対応区間の変化が相互に類似するかどうかを判定する。同様に時系列データ(2)において、選別された2以上の対応区間の変化が相互に類似するかどうかを判定する。
次に、類似対応区間ペア選別部32は、判定の結果、時系列データ(1)及び(2)において、それぞれの時系列データ上で類似する2以上の対応区間が存在する場合は、時系列データ(1)の類似する2以上の対応区間と、時系列データ(2)の類似する2以上の対応区間とがそれぞれ対応して変化している(対応区間ペアをなしている)かどうかを判定する。そして、上記の条件を満たす対応区間ペアが2以上存在する場合は、類似対応区間ペア選別部32は、それらの対応区間(対応区間ペア)を選別する。
その後、類似対応区間ペア選別部32は、ここで選別された対応区間ペアをなす対応区間を特定する情報を特徴抽出部40に出力する。なお、以降において、同一の時系列データ上にあり、互いに類似している対応区間それぞれは、「類似対応区間」とする。また、同一の時系列データに属する互いに類似する類似対応区間の組は、以下、「類似対応区間組」とする。
例えば、対応区間1−mと対応区間2−m、及び対応区間1−nと対応区間2−nが、対応区間ペアとして既に選別されているとする。この場合に、対応区間1−mのグラフと対応区間1−nのグラフとが類似し、更に、対応区間2−mのグラフと対応区間2−nのグラフとが類似していると、対応区間1−m、1−n、2−m、及び2−nは、類似対応区間として再度選別される。そして、対応区間1−mと1−n、対応区間2−mと2−nは、それぞれ類似対応区間組となる。
また、類似対応区間ペア選別部32による類似の判定も、相関係数を用いて行うことができる。但し、この場合は、類似判定の対象となる対応区間の間で、例えば、対応区間1−mと対応区間1−nとの間、対応区間2−mと対応区間2−nとの間で、相関係数が求められる。そして、類似対応区間ペア選別部32は、求めた相関係数が正の値であって、閾値を超える場合(又は閾値以上となる場合)に、類似していると判定する。なお、閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて類似対応区間が2つ以上選別されるように、事前に設定されているものとする。
更に、本実施の形態1での類似対応区間ペア選別部32による類似の判定は、相関係数を用いないで行うこともできる。例えば、類似対応区間ペア選別部32は、既存の時系列分析技術を用いた手法によっても類似の判定を行うことが可能となる。時系列分析技術を用いた手法としては、各対応区間内における変曲点の数、変曲点の対応区間内における相対的な位置、変曲点間の微分計数の値等を判定要素とする手法が挙げられる。また、この場合も、判定は、予め設定された閾値に基づいて行われる。閾値の設定は、相関係数を用いる場合と同様に行うことができる。
ここで、類似対応区間ペア選別部32が、時系列分析技術によって類似を判定した場合について説明する。例えば、図2において、対応区間1−1と対応区間1−2は、共に増加の後、減少している。よって、これらは、類似していると判定できる。また、これらと対応している対応区間2−1と対応区間2−2も類似している。この場合、類似対応区間ペア選別部32は、対応区間1−1と対応区間2−1との対応区間ペア、及び対応区間1−2と対応区間2−2との対応区間ペアを、選別する。
一方、図3において、対応区間1−2と対応区間1−3は、共に単調増加にあり、類似しているが、それらと対応している対応区間2−2と対応区間2−3とは、微分係数の符号が逆であり、類似していない。よって、対応区間1−2と対応区間1−3、及び対応区間2−2と対応区間2−3それぞれは、類似対応区間組を構成しない。
また、類似対応区間ペア選別部32は、各時系列データにおいて、類似対応区間組を1つ以上選別できない場合は、上述した類似判定に用いる閾値が小さくなるように再度閾値の設定を行っても良い。更に、この場合、類似対応区間ペア選別部32は、関連度算出部70に対して関連度の算出を中止するように指示を行っても良い。
更に、本実施の形態1の類似対応区間ペア選別部32では、選別する類似対応区間の条件を拡張することも可能である。類似対応区間ペア選別部32は、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、更に時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する、と上述したが、この条件を拡張できる。例えば、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、時系列データ(1)及び時系列データ(2)それぞれにおいてともに類似性の低い対応区間ペアを選別することもできる。
例えば、図5に示すグラフでは、対応区間1−1と対応区間1−2、対応区間2−1と対応区間2−2は、それぞれ、類似の関係にある。一方、対応区間1−1と対応区間1−3、対応区間2−1と対応区間2−3は、それぞれ、非類似の関係にある。この場合に、対応区間1−1と2−1との対応区間ペアは、対応区間1−2と2−2との対応区間ペアとは類似関係にあるが、対応区間1−3と2−3との対応区間ペアとは時系列データ(1)側においても、時系列データ(2)側においても非類似関係にある。このとき、類似対応区間ペア選別部32は、対応区間1−1と2−1との対応区間ペア、対応区間1−2と2−2との対応区間ペアに加えて、対応区間1−3と2−3との対応区間ペアも選別することができる。
なお、類似対応区間ペア選別部32は、上述のように、非類似関係にある対応区間についても選別対象とする場合は、対応区間ペア毎に、他の対応区間ペアとの関係(類似関係にあるのか、非類似関係にあるのか)を登録しておくのが好ましい。
ここで、類似対応区間ペア選別部32が再度選別する対応区間についてまとめると、選別されるのは、二つの対応区間ペアを対比したときに、時系列データ(1)側と時系列データ(2)側で共に類似関係にあるか、共に非類似関係にあるか、のどちらかの場合である。二つの対応区間ペアを対比したときに、一方の時系列データ側では類似関係にあるが、他方の時系列データ側では非類似関係にある場合は、これらの対応空間ペアは選別されないこととなる。
特徴抽出部40は、複数の時系列データそれぞれについて、選別された2以上の対応区間に属する文書(文書データ)を対応区間毎に特定し、対応区間毎に特定された文書の特徴を抽出する。なお、ここでいう「文書の特徴」には、対応区間毎に特定された「文書集合の特徴」も含まれる。本実施の形態1では、特徴抽出部40は、時系列データ(1)の選別された対応区間と、時系列データ(2)の選別された対応区間とに対して、これらに属する文書の特定を対応区間毎に行い、更に、特定された文書の特徴を抽出する。例えば、図5に示した、対応区間1−1、対応区間2−1、対応区間1−2、対応区間2−2、対応区間1−3、及び対応区間2−3が選別されているとする。この場合、特徴抽出部40は、6つの対応区間それぞれに対して、各対応区間に属する文書を特定し、更に、特定された文書それぞれから特徴を抽出する。
ここで、文書から抽出される「特徴」としては、選別された対応区間に属している文書の集合に特徴的に出現する言語表現がある。ここで特徴的に出現する言語表現とは、選別された対応区間に属している文書集合において、各言語表現の単純な出現回数を計数した結果、高頻度で出現する言語表現や、対応区間以外の区間に属している文書集合、または、情報分析装置1が分析対象とする文書の母集団における出現回数と比較して、相対的に高頻度で出現する言語表現、相対的に低頻度で出現する言語表現が挙げられる。
例えば、図5に示した時系列データ(1)において、「ガンに効く」という言語表現が、対応区間1−1に属している文書集合中に、高頻度で出現する場合、「ガンに効く」は、対応区間1−1の特徴とすることができる。また、例えば、「健康に良い」という言語表現が、時系列データ(1)の対応区間1−3以外の対応区間に属する文書集合中に高頻度で出現し、対応区間1−3に属する文書集合中には低頻度で出現する場合、「健康によい」は、対応区間1−3の特徴となりうる。
また、本実施の形態1では、入力される文書集合に含まれる各文書に対して、文書サイズ、カテゴリー、分類情報、発信者情報、発信者の属性等のメタ情報が付与されている場合は、特徴抽出部40は、そうしたメタ情報を、「特徴」として抽出することもできる。
具体的には、入力される文書集合の各文書に、その発信者が、「初心者」、「普通」、又は「熟練」のいずれに当てはまるかを示す発信者情報が、付与されている場合は、これらの発信者情報を特徴として用いることができる。例えば、対応区間1−2に属する文書集合には、特に、「初心者」の発信者から発信された文書が多く含まれているとすると、「初心者」が、対応区間1−2における「特徴」として抽出される。
また、メタ情報を特徴として抽出する場合、メタ情報の種類は特に限定されず、入力される文書集合に含まれる各文書に付与されているメタ情報であれば、特徴抽出部40は、この任意のメタ情報を「特徴」として抽出することが可能である。更に、本実施の形態1において、特徴抽出部40による特定の文書集合からの特徴の抽出は、例えば、既存のテキストマイニング技術を用いて行うことができる。なお、テキストマイニング技術は、一般的な自然言語処理技術の一つであり、本発明の実施の形態1の主眼ではない。よって、テキストマイニング技術についての説明は省略する。
更に、「特徴」の抽出は、例えば、「特徴」として抽出する情報(言語表現や、メタ情報等)の個数を予め設定し、出現回数の多い情報から順に、設定された数の情報を抽出することによって行うことができる。また、「特徴」の抽出は、例えば、テキストマイニング技術を利用するのであれば、特徴スコアを用いて行うこともできる。
後者の場合は、特徴抽出部40は、先ず、抽出対象となる対応区間毎に、特徴要素(言語表現やメタ情報等)を選出し、各特徴要素について特徴スコアを算出する。そして、特徴抽出部40は、特徴スコアが設定された閾値を超えるかどうかを判定し、閾値を超える特徴要素を「特徴」として抽出する。
この場合、特徴抽出部40による「特徴スコア」の算出は、特徴要素の出現頻度等を用いて、種々の統計解析技術によって行うことができる。例えば、特徴抽出部40は、各特徴要素の出現頻度、対数尤度比、χ2値、イエーツ補正χ2値、自己相互情報量、SE、ESCなどの統計的尺度を求め、求めた値を特徴スコアとして用いることができる。
また、特徴抽出部40は、特徴要素と、その特徴スコアとの組データを「特徴」として抽出することもできる。例えば、対応区間1−1からn個の特徴要素が抽出されている場合を考える。この場合、対応区間1−1における特徴1−1は、(T1,SC1,T2,SC2,T3,SC3,・・・,Tn,SCn)のように、2n個の要素からなる特徴ベクトルで表現することができる。
なお、上記において、「T1〜Tn」は、n個の特徴要素を示す。具体的には、特徴要素T1〜Tnとしては、例えば「ガンに効く」のような言語表現や、発信者情報(発信者が「初心者」である)のような文書に付与されているメタ情報が挙げられる。「SC1〜SCn」は、各特徴要素に付加された特徴スコアを示す数値データである。また、特徴要素は、特徴スコアと組になっていなくても良く、即ち、「特徴」として特徴要素のみが抽出されていても良い。この場合は、「特徴」は、例えば、特徴1−1(T1,T2,T3,・・・,Tn)のように、n個の要素からなる特徴ベクトルで表現される。
比較部50は、時系列データ毎に、一の対応区間に属する文書から抽出された特徴と、他の対応区間に属する文書から抽出された特徴との間の特徴間距離を求める。また、本実施の形態1では、特徴間距離を求める対応区間の組み合わせが、各時系列データにおいて1組ではなく複数組存在する場合は、複数組それぞれに対して特徴間距離を求めて、求めた距離の値をベクトルデータとして扱う。
ここで、図5に示す時系列データ(1)及び(2)を例に挙げて説明する。例えば、図5においては、対応区間1−1と2−1、対応区間1−2と2−2、対応区間1−3と2−3は、それぞれ対応区間ペアとなっており、3つの対応区間ペアが存在している。そして、時系列データ(1)では、対応区間1−1、1−2、1−3の三つの対応区間が選別されているとする。
上記の場合、例えば、対応区間1−1の特徴と1−2の特徴との特徴間距離、対応区間1−1の特徴と1−3の特徴との特徴間距離、及び対応区間1−2の特徴と1−3の特徴との特徴間距離が求められる。求められた各特徴間距離は3次元のベクトルデータで表される。
同様に、時系列データ(2)では、対応区間2−1、2−2、2−3の三つの対応区間が選別されているとする。この場合は、例えば、対応区間2−1の特徴と2−2の特徴との特徴間距離、対応区間2−1の特徴と2−3の特徴との特徴間距離、及び対応区間2−2の特徴と2−3の特徴との特徴間距離が求められる。求められた各特徴間距離は同じく3次元のベクトルデータで表される。
また、上記の例では、各時系列データにおいて、対応区間選別部30が選別した全ての対応区間同士の組み合わせに対して特徴間距離を求めているが、本実施の形態1では、特徴間距離は、時系列データ上で隣り合う対応区間同士のみについてだけ求められていても良い。図5の例で、隣り合う対応区間についてのみ特徴間距離が求められる場合は、時系列データ(1)では、対応区間1−1と1−2、対応区間1−2と1−3について特徴間距離が求められる。同様に、時系列データ(2)では、対応区間2−1と2−2、対応区間2−2と2−3について特徴間距離が求められる。上記の場合も、各特徴間距離はベクトルデータで表される。
なお、隣り合う対応区間の間の特徴間距離だけを求める場合は、比較部50における計算量を少なくする事が可能となる。但し、この場合は、比較部50による比較結果の精度が、全ての対応区間同士の組み合わせについて特徴間距離を求める場合に比べて、劣化する傾向にある。よって、どのような対応区間の組み合わせについて特徴間距離を求めるかは、本実施の形態1では、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定すれば良い。
また、本実施の形態1において、比較部50は、特徴間距離を求めるための関数(距離関数)を用いて、任意の対応区間と別の対応区間とにおける特徴間距離を求める。距離関数は、予め規定され、データベース60に格納されている。距離関数は、任意の対応区間に属する文書から抽出された特徴と、別の対応区間に属する文書から抽出された特徴とが与えられたときに、それらの間の特徴間距離の計算を可能とする関数である。
本実施の形態1では、距離関数は、限定されるものではない。距離関数として、どのような関数を用いるかは、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定できる。具体的には、距離関数としては、以下の条件を満たすものを用いることができる。
(条件1)
距離関数を求める対象となる二つの対応区間から抽出された、二つの特徴が全く同一となる場合、これらの特徴間距離が0(ゼロ)となる。
(条件2)
ある対応区間から特徴(1)が抽出され、別のある対応区間から特徴(2)が抽出されている場合、特徴(1)と特徴(2)との距離は、順序を入れ替えた特徴(2)と特徴(1)との距離と等しくなる。
(条件3)
3つの対応区間の特徴として、特徴(1)、特徴(2)、特徴(3)があるとき、それらの間の距離には、下記の関係が成立する。
(特徴(1)と特徴(3)の特徴間距離)≦(特徴(1)と特徴(2)の特徴間距離)+(特徴(2)と特徴(3)の特徴間距離)
(条件4)
比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素からなるベクトルで表現され、他方の特徴がn個の特徴要素からなるベクトルで表現され、更に、両方の特徴がc個の共通の特徴要素を有しているとする。この場合、共通でない特徴要素の数は(m+n−c)個となる。特徴間距離は、共通でない特徴要素の数に応じて、単調に増加する。
(条件5)
比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素と対応するm個の特徴スコアとのベクトル(特徴ベクトル)で表現され、他方の特徴がn個の特徴要素と対応するn個の特徴スコアとのベクトル(特徴ベクトル)で表現されるとする。またこのとき、両方の特徴は、c個の共通の特徴要素も有しているとする。この場合は、以下の手順5−1〜手順5−3で、2つの特徴ベクトル間の差分が求められ、差分の大きさが特徴間距離となる。
(手順5−1)
先ず、入力された2つの特徴ベクトルが正規化され、両者の次元数の整合が行われる。これにより、それぞれの特徴ベクトルにおいて、他方のみに存在する特徴要素に対しては、その特徴要素と特徴スコア「0(ゼロ)」とが与えられ、2つの特徴ベクトルの特徴要素が全て共通とされる。
(手順5−2)
入力された2つの特徴ベクトルそれぞれに対して、特徴要素の種類毎に、特徴ベクトル内の特徴スコアの出現順序のソートが実行される。このとき、種類が同一(言語表現が同一、メタ情報が同一)の特徴要素に対しては、ベクトル内の特徴スコアの出現位置が同じになるように、ソートが実行される。
(手順5−3)
手順5−1、手順5−2により、次元数と特徴スコアの出現順序との正規化が行われた後、正規化された2つの特徴ベクトルに対して、差分ベクトルが計算される。この差分ベクトルは、2つの特徴ベクトルそれぞれの各特徴スコア間の差分を値として有し、その次元は(m+n−c)次元となる。その後、得られた差分ベクトルの大きさの絶対値を求め、入力された2つの特徴ベクトル間の距離(特徴間距離)とする。
上述した条件1から条件3は、一般的な距離関数の性質を規定している。また、条件4及び条件5は、入力された2つの特徴に、共通の特徴要素が多く、そして、両者において、特徴の度合いを示す特徴スコアが近いほど、特徴間距離が小さくなることを示している。更に、条件4及び5は、一方の特徴のみが有する特徴要素が存在している場合は、その特徴の度合いを示す特徴スコアが大きいほど、特徴間距離が大きくなることも示している。
例えば、入力された2つの特徴ベクトルが、下記に示す特徴(1)と特徴(2)とであるとする。
[特徴(1)]
(「ガンに効く」,0.8、「副作用がない」,0.6,「文書カテゴリー:広告」、0.85)
[特徴(2)]
(「即効性がある」,0.4,「副作用がない」,0.5,「文書カテゴリー:広告」,0.7)
上記において、「ガンに効く」、「副作用がない」、及び「即効性がある」は、各対応区間に属する文書において特徴的に出現する言語表現である。「文書カテゴリー:広告」は、その対応区間に属する文書集合に特徴的に出現する文書のカテゴリーを示している。また、特徴(1)及び(2)における特徴要素の次に記述されている数値は、各特徴要素の特徴スコアを示している。
ここで、手順5−1及び手順5−2により、特徴(1)と特徴(2)とに対して正規化を行うと、これらの特徴は下記の通りとなる。
[正規化された特徴(1)]
(「ガンに効く」,0.8,「副作用がない」,0.6,「即効性がある」,0,「文書カテゴリー:広告」,0.85)
[正規化された特徴(2)]
(「ガンに効く」,0,「副作用がない」,0.5,「即効性がある」,0.4,「文書カテゴリー:広告」,0.7)
次いで、手順5−3により、各特徴スコアの差分ベクトルを求めると、差分ベクトルの算出は以下の式で行われる。
差分ベクトル=((0.8−0),(0.6−0.5),(0−0.4),(0.85−0.7))
更に、上記の式を展開すると、下記の通りとなる。
差分ベクトル=(0.8,0.1,−0.4,0.15)
この差分ベクトルの大きさの絶対値を求めると、これが、特徴間距離となる。
ところで、上記の条件4及び条件5では、入力された2つの特徴に共通して出現する特徴要素の個数を用いて特徴間距離が計算されているが、本実施の形態1はこれに限定されるものではない。本実施の形態1では、完全に共通する特徴要素でなくとも、類似する特徴要素を共通要素と見なして、特徴間距離を求めることも可能である。
但し、この場合は、どの特徴要素と、どの特徴要素とを類似する特徴要素として扱うのかを示す類似基準が、事前に規定され、データベース60内に格納されていることが必要となる。なお、特徴要素が言語表現である場合、同義語辞書やシソーラスを用いることによって、類似する特徴要素を規定することができる。
更に、比較部50は、時系列データ毎に対応区間選別部30が選別した対応区間同士の特徴間距離のベクトルデータを算出した後、求めた時系列データの特徴間距離ベクトルと、他の時系列データの特徴間距離ベクトルとを比較する。比較には任意のベクトル間距離関数を用いてよい。ベクトル間距離関数の1例として、コサイン距離を用いることができる。
ついで比較部50は、比較した結果を、入力文書集合間の関連度を求めるための値として、後述する関連度算出部70に出力する。
関連度算出部70は、本実施の形態1では、比較部50から出力された比較結果に基づいて、入力文書集合(1)と入力文書集合(2)との関連度を算出する。出力部80は、関連度算出部70によって算出された関連度を、入力文書集合(1)と入力文書集合(2)との関連度として出力する。
本実施の形態1では、関連度は、比較部50から出力された比較結果を示す数値(コサイン距離等)が小さいほど、即ち、比較部50が算出した、二つの特徴間距離のベクトルデータ間の距離が小さいほど、高くなるように規定するのが良い。
関連度の算出は、例えば、時系列データ(1)における特徴間距離のベクトルデータと、時系列データ(2)における特徴間距離のベクトルデータとの比較結果の逆数を求め、これに予め設定した定数をかけて行うことができる。また、関連度の算出は、その他、予め設定した定数から、特徴間距離のベクトルデータの比較結果を減算しても行うことができる。
ここで、関連度をこのように規定する理由を図6〜図8を用いて以下に説明する。図6は、共通の原因によって変動する時系列データの例(関連性が高い時系列データなど)を示す図である。図7は、共通の原因によって変動する時系列データの他の例(関連性が高い時系列データなど)を示す図である。図8は、異なる原因によって変動する時系列データの他の例(時系列データが偶然に一致した場合など)を示す図である。
まず、例えば、図6で示されるような時系列データ(1)と時系列データ(2)とがあって、時系列データ(1)と時系列データ(2)が、真に関連性が高く、時系列データ(1)の変動と、時系列データ(2)の変動とには、共通の原因がある場合を考える。
この図6で時系列データ(1)の対応区間1−1と、時系列データ(2)の対応区間2−1は、共通の原因aによりピークを有しているものとする。また同様に、時系列データ1の対応区間1−2と、時系列データ2の対応区間2−2とも、共通の原因aによりピークを有しているとする。
さらに、時系列データ(1)において、対応区間1−1と対応区間1−2は、時系列データの形状が類似している。また、それらと対応区間ペアをなす時系列データ(2)における対応区間2−1と対応区間2−2は、時系列データの形状が類似しており、これら4つの対応区間は対応区間組の条件を満たしている。このような場合に、時系列データ(1)と時系列データ(2)との関連度を求める。
非特許文献1の技術では、時系列データ(1)に属している文書集合の特徴と、時系列データ(2)に属している文書集合の特徴とを直接比較し、共通の特徴要素の有無から、それらの間の関連度を計算する。時系列データ(1)の部分区間である対応区間1−1と、時系列データ2の部分区間である対応区間2−1との相関性が高く、それらの区間に着目している場合、各区間の特徴を求めて、それらの間の距離を求める。
しかし、時系列データ(1)の元となる入力文書集合(1)と、時系列データ(2)の元となる入力文書集合(2)は、一般には異なる性質の文書集合である。そして、これらが、共通の原因aにより同様に変動しているとしても、必ずしも対応区間1−1で見受けられる特徴1−1と、対応区間2−1で見受けられる特徴2−1とに共通要素があるとは限らない。
だが、同じ入力文書集合(1)の中で、対応区間1−1と対応区間1−2のピークが共通の原因aによるものであるのならば、特徴1−1と特徴1−2との共通要素は大きいと考えられる。同様に、同じ入力文書集合(2)の中で、対応区間2−1と対応区間2−2のピークが共通の原因aによるものであるのならば、特徴2−1と特徴2−2との共通要素は大きいと考えられる。
そこで、特徴1−1と特徴2−1との距離を直接求めるのではなく、特徴1−1と特徴1−2との距離を算出し、ついで、特徴2−1と特徴2−2との距離を算出し、算出した2つの距離を比較することで、関連度を求めることができる。この例では、特徴1−1と特徴1−2との距離は、共通要素が多く、すなわち距離が小さくなる。特徴2−1と特徴2−2との距離も同様に、共通要素が多く、距離が小さくなる。
よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに小さくなるため、それらの間の距離も小さくなり、関連度は高く計算される。
一方、図7に示すように時系列データ(1)と時系列データ(2)とが、真に関連性が高く、(同時期では)共通の原因によりそれぞれ変動しているが、対応区間1−1と対応区間2−1との対応区間ペアでは、原因aによりピークが生じ、対応区間1−2と対応区間2−2との対応区間ペアでは、原因bによりピークが生じている場合を考える。
時系列データ(1)において、特徴1−1と特徴1−2とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。同様に、時系列データ(2)において、特徴2−1と特徴2−2とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに大きくなる。このため、それらの間の距離は小さくなり、関連度は高く計算される。
時系列データ(1)と時系列データ(2)との関連性が、真に高く、対応区間ペア同士では共通の原因で変動する場合、その前提から、対応区間ペアにおける変動の原因は共通である。よって、対応区間1−1と対応区間2−1とは共通の変動原因を持ち、また、対応区間1−2と対応区間2−2とは共通の原因を持つ。
ここで、時系列データ(1)の中で、対応区間1−1と対応区間1−2とが共通の原因をもつとは限らないが、共通の原因を持つ場合(図6の場合)は、論理的に、対応区間2−1と対応区間2−2とも共通の原因を持つことになる。一方、対応区間1−1と対応区間1−2とが共通の原因を持たない場合、やはり、対応区間2−1と対応区間2−2とも共通の原因を持たないことになる。
また別の例として、今度は、図8に示すように、時系列データ(1)と時系列データ(2)との間に関連性はないが、偶然の一致により、対応区間1−1と対応区間2−1との間、および、対応区間1−2と対応区間2−2との間に相関性が高い場合を考える。
ここで、時系列データ(1)における対応区間1−1と対応区間1−2とは、ともに同じ原因aによって生じているものとする。すると、それらの特徴1−1と特徴1−2は共通の特徴要素が多くなり、距離は小さくなる。
一方、対応区間2−1は原因cによって、対応区間2−2は原因dによって生じたピークであり、原因が異なるため、特徴2−1と特徴2−2は共通要素が少なく、それらの距離は大きくなる。よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、一方は小さく、他方は大きくなるため、それらの間の距離は大きくなり、関連度は低く計算される。
もちろん、対応区間2−1と対応区間2−2とがともに同じ原因cによって生じ、さらに、対応区間2−1と対応区間1−1、対応区間2−2と対応区間1−2が同タイミングで生じた場合は、図6の場合と同様に、時系列データ1における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ2における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに小さくなる。このため、それらの間の距離も小さくなり、関連度は誤って高く計算される。
しかし、任意の異なる原因により、時系列データ(1)と時系列データ(2)との2つのピークタイミングが偶然一致する場合(図8の場合)に比べて、相互に関連性がないのにかかわらず、時系列データ(1)内で共通する原因、時系列データ(2)内でも共通する原因でピークが生じ、さらにそれらのタイミングが2つとも一致する可能性は、制約条件が厳しくなっているため、稀であると考えられる。
このように、情報分析装置1では、ある時系列データの対応区間における変化パターンと、別の時系列データの対応区間における変化パターンとが似通っていたとしても、両対応区間における文書の特徴が全く異なる場合は、そのことが明らかとなる。この結果、情報分析装置1によれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。情報分析装置1は、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。
次に、本発明の実施の形態1における情報分析方法について図9を用いて説明する。図9は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。本実施の形態1における情報分析法は、図1に示した本実施の形態1における情報分析装置1を動作させることによって実施される。このため、以下の説明は、適宜図1を参酌しながら、情報分析装置1の動作と共に説明する。
図9に示すように、先ず、入力部10が、分析対象となる複数の文書集合の入力を受け付ける(ステップA1)。本実施の形態1では、入力される文書集合は、2つであり、それぞれ入力文書集合(1)及び入力文書集合(2)である。また、各入力文書集合は、時間情報付きの複数の文書で構成されている。
次に、時系列データ生成部20が、入力部10によって受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、時系列データを生成する(ステップA2)。本実施の形態1では、時系列データ生成部20は、入力文書集合から時系列データ(1)を生成し、入力文書集合(2)から時系列データ(2)を生成する。
次いで、対応区間選別部30が、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する区間(対応区間)を2以上選別する。
具体的には、ステップA2が終了すると、対応区間ペア選別部31が、時系列データ(1)と時系列データ(2)とを対比し、相互に高い相関性を持って変動する対応区間ペアを選別する(ステップA3)。続いて、対応区間ペア選別部31は、時系列データ(1)及び(2)から、相互に高い相関性を持って変動する対応区間ペアが2ペア以上選別できたかどうか判定する(ステップA4)。
ステップA4の判定の結果、選別できた対応区間ペアが1ペア以下の場合は、対応区間ペア選別部31は、関連度算出部70に対して関連度の中止を指示し、処理を中止する。一方、ステップA4の結果、選別できた対応区間ペアが2ペア以上の場合は、対応区間ペア選別部31は、選別された対応区間ペアを特定する情報を類似対応区間ペア選別部32に入力する。
次に、類似対応区間ペア選別部32は、対応区間ペア選別部31から情報を受け取ると、既に選別されている複数の対応区間ペアの中から、時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する(ステップA5)。続いて、類似対応区間ペア選別部32は、対応区間ペアが2以上(対応区間の合計数が4つ以上)選別されているかどうかを判定する(ステップA6)。
ステップA6の判定の結果、時系列データ(1)及び(2)において対応区間ペアが2以上選別されていない場合は、類似対応区間ペア選別部32は、関連度算出部70に対して関連度の中止を指示し、処理を中止する。一方、ステップA6の結果、時系列データ(1)及び(2)において対応区間ペアが2以上選別されている場合は、類似対応区間ペア選別部32は、再度選別された対応区間ペアを特徴抽出部40に入力する。
次に、特徴抽出部40は、類似対応区間ペア選別部32から情報を受け取ると、各時系列データの選別された各対応区間に属する文書を特定し、特定された文書の特徴を、対応区間毎に抽出する(ステップA7)。そして、特徴抽出部40は、抽出した特徴を比較部50に入力する。
次に、比較部50は、時系列データ毎に、一の対応区間から抽出された特徴と、他の対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を互いに比較する(ステップA8)。
具体的には、比較部50は、各時系列データに着目して、個々の時系列データの内部において複数の対応区間どうしの特徴間距離を算出し、時系列データ(1)内における特徴間距離と、時系列データ(2)内における特徴間距離とを比較する。そして、比較部50は、時系列データ(1)における特徴間距離と、時系列データ(2)における特徴間距離との比較結果を関連度算出部70に入力する。
続いて、関連度算出部70は、比較部50が入力した比較結果に基づいて、入力された文書集合間の関連度を算出する(ステップA9)。その後、関連度算出部70が、関連度を特定する分析データを外部に出力すると、情報分析装置1における処理は終了する。
本実施の形態1における情報分析方法を実行すれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。
また、本実施の形態1におけるプログラムは、コンピュータに、図9に示すステップA1〜A9を実行させるプログラムであれば良い。よって、情報分析装置1は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのCPU(central processing unit)は、時系列データ生成部20、対応区間選別部30、特徴抽出部40、比較部50及び関連度算出部70として機能し、処理を行なう。
更に、データベース60は、ハードディスク等の記憶装置に、データファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。なお、データベース60を構成する記憶装置は、上述したプログラムがインストールされたコンピュータに備えられていても良いし、ネットワークを介して接続された別のコンピュータに備えられていても良い。また、読取装置は、上述したプログラムがインストールされたコンピュータに接続されていても良いし、ネットワークを介して接続された別のコンピュータに接続されていても良い。
(実施の形態2)
次に、本発明の実施の形態2における情報分析装置、情報分析装置及びプログラムについて、図10及び図11を参照しながら説明する。最初に、図10を用いて、本発明の実施の形態2における情報分析装置の構成について説明する。図10は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。
図10に示すように、本実施の形態2における情報分析装置2は、時系列データ生成部(図1参照)を備えておらず、この点で、実施の形態1における情報分析装置1と異なっている。また、時系列データ生成部が備えられていないことに伴い、情報分析装置2は、各部の機能の点でも、実施の形態1における情報分析装置1と異なっている。以下に、情報分析装置1との相違点について説明する。
本実施の形態2では、情報分析装置2には、予め、文書集合から生成された時系列データが入力される。入力部10は、時系列データの入力を受け付ける。なお、本実施の形態2においても、入力される時系列データは、2つである。また、本実施の形態2では、一方の時系列データの一の対応区間と、この対応区間に対応する他方の時系列データの対応区間とが予め設定されている。そして、予め設定された対応区間(設定対応区間)を特定する情報も、入力部10に入力される。
例えば、入力される時系列データ(1)及び(2)が、図2に示すものであり、更に、対応区間1−1と、これと高い相関性を持って変化する対応区間2−1との対応区間ペアが予め設定されているとする。この場合、時系列データ(1)及び(2)と、設定対応区間1−1及び設定対応区間2−1を特定する情報とが、入力部10によって受け付けられる。
また、本実施の形態2では、対応区間選別部30は、先ず、一方の時系列データについて、その設定対応区間と変化が類似する対応区間を選別する。更に、対応区間選別部30は、他方の時系列データについて、その設定対応区間と変化が類似し、且つ、一方の時系列データについて選別された対応区間に対応する、対応区間を選別する。
例えば、上述したように、時系列データ(1)及び(2)が、図2に示すものであり、対応区間1−1及び対応区間2−1が予め設定されているとする。この場合、対応区間選別部30は、時系列データ(1)の部分的な区間であって、設定対応区間1−1と類似する区間を対応区間1−2として選別する。更に、対応区間選別部30は、時系列データ(2)の部分的な区間であって、設定対応区間2−1と類似し、且つ、対応区間1−2と高い相関性を持って変化する区間を対応区間2−2として選別する。
また、本実施の形態2では、特徴抽出部40は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、特定された文書の特徴を対応区間毎に抽出する。
更に、本実施の形態2では、比較部50は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求める。なお、本実施の形態2においても、比較部50は、実施の形態1と同様に、データベース60に格納されている距離関数を用いて、特徴間距離を算出する。また、比較部50は、実施の形態1と同様に、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部70に入力する。
また、関連度算出部70は、実施の形態1の場合と同様に、比較部50による比較の結果に基づいて、関連度を算出するが、本実施の形態2では、一の設定対応区間と別の設定対応区間とについて関連度を算出する。
次に、本発明の実施の形態2における情報分析方法について図11を用いて説明する。図11は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。本実施の形態2における情報分析法は、図10に示した本実施の形態2における情報分析装置2を動作させることによって実施される。このため、以下の説明は、適宜図10を参酌しながら、情報分析装置2の動作と共に説明する。
図11に示すように、先ず、入力部10が、分析対象となる時系列データ(1)及び(2)と、それぞれの予め設定された対応区間を特定する情報(設定対応区間情報)との入力を受け付ける(ステップA11)。
次に、対応区間選別部30は、時系列データ(1)の設定対応区間と変化が類似する対応区間を選別し、更に、時系列データ(2)の設定対応区間と変化が類似し、且つ、時系列データ(1)について選別された対応区間に対応する、対応区間を選別する(ステップA12)。
次に、特徴抽出部40は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、対応区間毎に、特定された文書それぞれの特徴を抽出する(ステップA13)。
続いて、比較部50は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部70に入力する(ステップA14)。
その後、関連度算出部70は、比較部50による比較の結果に基づいて、一の設定対応区間と別の設定対応区間とについて関連度を算出する(ステップA15)。その後、関連度算出部70が、関連度を特定する分析データを外部に出力すると、情報分析装置2における処理は終了する。
このように、本実施の形態2によれば、時系列データ(1)及び時系列データ(2)それぞれの部分的な区間に対する関連度を求めることができる。また、実施の形態2においても、実施の形態1と同様に、時系列データ(1)と(2)との変化パターンの偶然の一致によって、関連性が誤って判定されてしまう事態は回避される。また、本実施の形態2も、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。
また、本実施の形態2におけるプログラムは、コンピュータに、図11に示すステップA11〜A15を実行させるプログラムである。よって、情報分析装置2は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのCPU(central processing unit)は、対応区間選別部30、特徴抽出部40、比較部50及び関連度算出部70として機能し、処理を行なう。また、データベース60は、実施の形態1の場合と同様に、ハードディスク等の記憶装置にデータファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。
本発明は、ブログ等のインターネット上の文書データや、コールセンターの応対履歴等の時間情報が付与された文書データ等の分析に利用できる。また、定期的に実行されるアンケート調査や市場調査の結果を分析する際において、関連する文書集合を求める目的にも利用できる。更に、本発明によれば、時間によって変化する文書集合間の関連度を適切に算出することができるので、文書検索のナビゲーションや、検索結果の分類等にも適用できる。
1 情報分析装置(実施の形態1)
2 情報分析装置(実施の形態2)
10 入力部
20 時系列データ生成部
30 対応区間選別部
31 対応区間ペア選別部
32 類似対向区間ペア選別部
40 特徴抽出部
50 比較部
60 データベース
70 関連度
80 出力部

Claims (15)

  1. 時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
    複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
    複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
    前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
    前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする情報分析装置。
  2. 複数の前記文書集合の入力を受け付ける入力部と、
    入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する時系列データ生成部とを、更に備えている、請求項1に記載の情報分析装置。
  3. 前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
    前記対応区間選別部が、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項2に記載の情報分析装置。
  4. 前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
    前記対応区間選別部が、更に、2つの前記時系列データそれぞれについて、選別された前記対応して変化する2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方において、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合は、これらの区間を再度選別し、
    前記特徴抽出部が、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
    前記比較部が、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項2または3に記載の情報分析装置。
  5. 前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付ける入力部を更に備え、
    前記入力部が2つの前記時系列データの入力を受け付け、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合において、
    前記対応区間選別部が、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データについて選別された前記区間に対応して変化する、区間を選別し、
    前記特徴抽出部が、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、前記区間毎に、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、特定された前記文書それぞれの特徴を抽出し、
    前記比較部が、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴係間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
    前記関連度算出部が、前記比較部による比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項1に記載の情報分析装置。
  6. 時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
    (a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
    (b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
    (c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
    (d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする情報分析方法。
  7. (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
    (f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを更に有する、請求項6に記載の情報分析方法。
  8. 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
    前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項7に記載の情報分析方法。
  9. 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
    前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
    前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
    前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項7または8に記載の情報分析方法。
  10. (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを更に有し、
    前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
    前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
    前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
    前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
    前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項6に記載の情報分析方法。
  11. 時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
    前記コンピュータに、
    (a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
    (b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
    (c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
    (d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とするプログラム。
  12. (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
    (f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを、更に、前記コンピュータに実行させる、請求項11に記載のプログラム。
  13. 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
    前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項12に記載のプログラム。
  14. 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
    前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
    前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
    前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項12または13に記載のプログラム。
  15. (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを、更に、前記コンピュータに実行させ、
    前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
    前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
    前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
    前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離係を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
    前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項11に記載のプログラム。
JP2010530725A 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム Active JP5387578B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010530725A JP5387578B2 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008244753 2008-09-24
JP2008244753 2008-09-24
PCT/JP2009/004752 WO2010035455A1 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム
JP2010530725A JP5387578B2 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010035455A1 JPWO2010035455A1 (ja) 2012-02-16
JP5387578B2 true JP5387578B2 (ja) 2014-01-15

Family

ID=42059468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010530725A Active JP5387578B2 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US20110153601A1 (ja)
JP (1) JP5387578B2 (ja)
WO (1) WO2010035455A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8407221B2 (en) * 2010-07-09 2013-03-26 International Business Machines Corporation Generalized notion of similarities between uncertain time series
JP5048852B2 (ja) * 2011-02-25 2012-10-17 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
JP5952711B2 (ja) * 2012-10-24 2016-07-13 Kddi株式会社 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5963310B2 (ja) * 2013-01-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、情報処理プログラム
GB2528792A (en) * 2013-05-16 2016-02-03 Hitachi Ltd Detection device, detection method, and recording medium
US9886422B2 (en) * 2014-08-06 2018-02-06 International Business Machines Corporation Dynamic highlighting of repetitions in electronic documents
JP5936240B2 (ja) * 2014-09-12 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データ処理装置、データ処理方法、およびプログラム
US9875228B1 (en) * 2015-03-06 2018-01-23 Google Llc Systems and methods for preserving conditional styles when copying and pasting between applications
JP7080029B2 (ja) * 2017-04-10 2022-06-03 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報提供装置、情報提供方法及びコンピュータープログラム
US11593692B2 (en) * 2017-06-20 2023-02-28 Nec Corporation Graph structure analysis apparatus, graph structure analysis method, and computer-readable recording medium
US11106664B2 (en) 2018-05-03 2021-08-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for generating a contextually and conversationally correct response to a query
US11144734B2 (en) * 2019-06-12 2021-10-12 International Business Machines Corporation Self-learning natural-language generation rules engine with diachronic linguistic analysis
KR102536201B1 (ko) * 2019-09-24 2023-05-24 주식회사 디셈버앤컴퍼니자산운용 시계열 데이터 유사도 계산 시스템 및 방법
WO2023144967A1 (ja) * 2022-01-27 2023-08-03 日本電信電話株式会社 処理装置、処理方法およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH1125169A (ja) * 1997-06-30 1999-01-29 Toshiba Corp 相関関係抽出方法
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
US20040027349A1 (en) * 2002-08-08 2004-02-12 David Landau Method and system for displaying time-series data and correlated events derived from text mining
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置
JP2006331089A (ja) * 2005-05-26 2006-12-07 Toshiba Corp Webページから時系列データを生成する方法及び装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6834266B2 (en) * 2001-10-11 2004-12-21 Profitlogic, Inc. Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US6871165B2 (en) * 2003-06-20 2005-03-22 International Business Machines Corporation Method and apparatus for classifying time series data using wavelet based approach
JP4773680B2 (ja) * 2003-08-07 2011-09-14 ソニー株式会社 情報処理装置および方法、プログラム記録媒体、並びにプログラム
US20060173668A1 (en) * 2005-01-10 2006-08-03 Honeywell International, Inc. Identifying data patterns
JP5067556B2 (ja) * 2005-09-30 2012-11-07 日本電気株式会社 トレンド評価装置と、その方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH1125169A (ja) * 1997-06-30 1999-01-29 Toshiba Corp 相関関係抽出方法
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
US20040027349A1 (en) * 2002-08-08 2004-02-12 David Landau Method and system for displaying time-series data and correlated events derived from text mining
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置
JP2006331089A (ja) * 2005-05-26 2006-12-07 Toshiba Corp Webページから時系列データを生成する方法及び装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200201687001; 仲瀬明彦、外3名: '時系列データマイニングにおける相関関係発見方式' アドバンスト・データベース・シンポジウム'97 第97巻,第11号, 19971215, p.159-164, 社団法人情報処理学会 *
JPN6009054638; 仲瀬明彦、外3名: '時系列データマイニングにおける相関関係発見方式' アドバンスト・データベース・シンポジウム'97 第97巻,第11号, 19971215, p.159-164, 社団法人情報処理学会 *
JPN6009054645; 大西貴士、外4名: '時系列分析によるWeb文書の情報信頼性判断支援:時系列変化重要トピックの抽出' 言語処理学会第15回年次大会発表論文集[CD-ROM] , 20090302, p.104-107, 言語処理学会 *

Also Published As

Publication number Publication date
US20110153601A1 (en) 2011-06-23
JPWO2010035455A1 (ja) 2012-02-16
WO2010035455A1 (ja) 2010-04-01

Similar Documents

Publication Publication Date Title
JP5387578B2 (ja) 情報分析装置、情報分析方法、及びプログラム
Shu et al. Beyond news contents: The role of social context for fake news detection
Mandal et al. Measuring similarity among legal court case documents
Tan et al. Interpreting the public sentiment variations on twitter
Tuarob et al. Fad or here to stay: Predicting product market adoption and longevity using large scale, social media data
US20100318526A1 (en) Information analysis device, search system, information analysis method, and information analysis program
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
Diaz et al. Using code ownership to improve ir-based traceability link recovery
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN105975459A (zh) 一种词项的权重标注方法和装置
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
WO2011065211A1 (ja) 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体
US9245023B2 (en) Reputation analysis system and reputation analysis method
Gupta et al. A combined approach of sentimental analysis using machine learning techniques
CN118378053B (zh) 基于数据挖掘的用户数据分析方法
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
CN110020195A (zh) 文章推荐方法及装置、存储介质、电子设备
Venkataraman et al. Classifying the sentiment polarity of Amazon mobile phone reviews and their ratings
BE1025360B1 (nl) Beheren en aanwenden van juridisch-fiscale documenten uit de rechtspraak
Sauban et al. Text categorisation using document profiling
Setievi et al. A Comparative Study of Supervised Machine Learning Algorithms for Fake Review Detection
US20170249317A1 (en) Search-based recommendation engine
Tumu et al. Context based sentiment analysis approach using n-gram and word vectorization methods
Mol et al. A trustworthy model in E-commerce by mining feedback comments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Ref document number: 5387578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150