JP2010146031A - 情報分析装置、情報分析方法、及び情報分析用プログラム - Google Patents

情報分析装置、情報分析方法、及び情報分析用プログラム Download PDF

Info

Publication number
JP2010146031A
JP2010146031A JP2007272366A JP2007272366A JP2010146031A JP 2010146031 A JP2010146031 A JP 2010146031A JP 2007272366 A JP2007272366 A JP 2007272366A JP 2007272366 A JP2007272366 A JP 2007272366A JP 2010146031 A JP2010146031 A JP 2010146031A
Authority
JP
Japan
Prior art keywords
document
information
feature
time
time slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007272366A
Other languages
English (en)
Inventor
Satoshi Nakazawa
聡 中澤
Shinichi Ando
真一 安藤
Hiraki Ishikawa
開 石川
Toshio Takeda
俊夫 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007272366A priority Critical patent/JP2010146031A/ja
Priority to PCT/JP2008/067243 priority patent/WO2009050991A1/ja
Publication of JP2010146031A publication Critical patent/JP2010146031A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できるようにする。
【解決手段】本発明では、時間情報が付与された時間情報つきドキュメントの集合を入力し、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算し、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算し、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する。
【選択図】図4

Description

本発明は、ドキュメント等の情報を分析する情報分析装置、情報分析方法、及び情報分析用プログラムに関する。
インターネット上で公開されるブログ等の大量の時間情報つきドキュメントに対して、着目する特定の単語や話題を表す表現、特定の意見・命題が記述されたドキュメントを抽出し、抽出したドキュメントを各ドキュメントに付与されている時間情報に従って順に並べて時系列分析を行うことで、着目する表現や意見の経緯を調べる技術が存在する。
例えば、着目する表現や意見の経緯を調べる技術として、非特許文献1には、BlogWatcher と呼ばれる技術が記載されている。非特許文献1では、収集したブログ全体における特定の話題語が出現した回数や、その話題語が肯定的に記述されている回数、否定的に記述されている回数の時系列変化を、折れ線グラフとしてプロットする手法が開示されている(以下、関連技術1という)。
非特許文献1に記載された関連技術1を用いることにより、着目する話題語のブログにおける出現数の変遷を調べることで、ユーザはその着目する話題語が各時点でどの程度流行していたのかといった分析を行うことができる。また、非特許文献1に記載された関連技術1には、着目する話題語の出現数が急激に変化した時点を、バーストとして検出する機能も開示されている。
ここで、バーストとは、着目する話題語がブログに出現する回数が、一定時間以内に急激に増加したり減少したりすることをいう。また、非特許文献1には、単純な増加/減少だけでなく、収集したブログ全体の母集団数で正規化してバーストを検出する手法も開示されているが、基本的には着目する話題語の出現数の変化に応じてバーストを検出する。
奥村 学 他、「blogページの自動収集と監視に基づくテキストマイニング」、[平成19年10月9日検索]、インターネット<http://www.ipa.go.jp/SPC/report/03fy-pro/mito/15-821d.pdf >
しかし、非特許文献1に記載された関連技術1は、着目する話題語の出現数の時系列変化に基づいて特徴点を検出する技術にすぎず、話題語が記述される状況や、話題語を含むドキュメントの発信者又は作成者の性質の変化を考慮して特徴点を検出することはできない。そのため、例えば、話題語の出現数は大きく変わらないが、話題語の発信者の集団が大きく変わった時点等を特徴点として検出することはできない。
そこで、本発明は、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できる情報分析装置、情報分析方法、及び情報分析用プログラムを提供することを目的とする。
本発明による情報分析装置は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段と、入力手段が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算手段と、入力手段が入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算手段と、タイムスライス特徴計算手段の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段とを備えたことを特徴とする。
本発明による情報分析方法は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力ステップと、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算ステップと、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算ステップと、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出ステップとを含むことを特徴とする。
本発明による情報分析用プログラムは、コンピュータに、時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを実行させるためのものである。
本発明によれば、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出することができる。
以下、本発明の実施形態について図面及び具体例を参照して説明する。本発明による情報分析装置は、特に、ある表現や意見を記述したドキュメント集合の時系列分析を行う際に、各ドキュメント発信者が作成したドキュメントで、着目する表現・意見が記述されている箇所以外のドキュメントの特徴を基準に、時系列分析における特徴点を求める情報分析方式を用いたものである。
本発明による情報分析装置は、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できるようにことを目的とするものである。また、情報分析装置は、着目する単語や話題を表す表現、意見が含まれるドキュメントの特徴を計算し、計算したドキュメントの特徴が大きく変化した時点を特徴点として出力できるようにすることを目的とするものである。
図1は、本発明による情報分析装置の構成の一例を示すブロック図である。図1に示すように、情報分析装置は、ドキュメント入力装置10、ドキュメント特徴計算部20、ドキュメント情報データベース30、タイムスライス特徴計算部40、時系列特徴点検出部50、及び出力装置60を含む。なお、情報分析装置は、例えば、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
ドキュメント入力装置10は、着目する特定の単語や、話題を表す表現、特定の意見・命題が記述された時間情報つきドキュメントの集合を受け付ける。ドキュメント特徴計算部20は、入力された各ドキュメントの特徴を計算する。ドキュメント情報データベース30は、ドキュメントの特徴を計算する際に用いる各ドキュメントの情報を保持する。タイムスライス特徴計算部40は、入力されたドキュメントを付与された時間情報を用いてタイムスライス毎に分割し、各タイムスライスの特徴を計算する。時系列特徴点検出部50は、タイムスライスの特徴間距離を計算し、距離が一定値以上のタイムスライス間の時間を特徴点として検出する。出力装置60は、検出された特徴点を出力する。
ドキュメント入力装置10は、例えば、プログラムに従って動作する情報処理装置のCPU及び入出力インタフェース部によって実現される。ドキュメント入力装置10は、分析対象の時間情報つきドキュメントの集合を入力として受け付ける装置である。例えば、ドキュメント入力装置10は、ハードディスク等の大容量記憶装置やネットワークインタフェース等を通して、ドキュメントの集合を入力する。
ドキュメント入力装置10が入力するドキュメントは、ユーザが分析対象とするドキュメントであれば、どのようなものであってもかまわない。例えば、ユーザがドキュメント中に特定の意見・命題が記述されたドキュメントだけを分析したいのであれば、ユーザは、予めそのような条件を満たすドキュメントを選出し入力操作を行う。すると、ドキュメント入力装置10は、ユーザの入力操作に従って、分析対象のドキュメントを入力する。なお、ドキュメント入力装置10は、ユーザの選択操作に従って、ドキュメントを選出する処理も行い、選出したドキュメントを分析対象のドキュメントとして入力してもよい。
本実施形態において、ドキュメント入力装置10が入力する各ドキュメントは、そのドキュメントが発信又は作成された日時等を示す時間情報が予め付与されているものとする。また、ドキュメント入力装置10が入力する各ドキュメントには、後述するドキュメント特徴計算部20にて各ドキュメントの特徴を計算するために必要となる情報、又はドキュメントの特徴を計算するために必要となる情報へのインデックス情報が、予めドキュメントと組として与えられているものとする。
ドキュメント入力装置10が入力するドキュメントの例としては、特定の表現や命題が含まれるWeb日記やブログを集めたもの等がある。この場合、ドキュメントに予め付与されている時間情報は、各Web日記やブログの年月日情報である。
ドキュメント特徴計算部20は、例えば、プログラムに従って動作する情報処理装置のCPUによって実現される。ドキュメント特徴計算部20は、ドキュメント入力装置10が入力した各ドキュメントに対して、そのドキュメントの特徴を示す特徴ベクトルを計算する機能を備える。例えば、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力するドキュメントの集合や、ドキュメント情報データベース30が記憶する情報に基づいて、各ドキュメントに対する特徴ベクトルを算出する。
ここで、特徴ベクトルは、入力したドキュメントを分析する際の用途や目的に応じて、予め計算方法が定められた1次元以上のベクトルとする。なお、ベクトルの次元が1次元である場合には、1つのスカラ値で表現された特徴値となる。しかし、次元が2次元以上の特徴ベクトルと区別して表記する必要はないので、本実施形態では、以下、次元数が1次元(すなわち、実質スカラ値の特徴値となる)場合も含めて、特徴ベクトルと記す。
例えば、ドキュメント特徴計算部20は、ドキュメントの特徴ベクトルを、各ドキュメントの言語解析結果や、題目、カテゴリ等のドキュメントに付与されたメタ情報、ドキュメントの発信者又は作成者に関する情報、ドキュメントの発信者又は作成者が発信/作成した他のドキュメントに関する情報等の情報を用いて計算する。
なお、ドキュメント特徴計算部20が計算するドキュメントの特徴ベクトルの種類や性質に応じて、後述するタイムスライス特徴計算部40が計算する各タイムスライスの特徴ベクトルの計算方法と、時系列特徴点検出部50が計算するタイムスライスの特徴ベクトル間距離の計算方法とを設定する必要がある。具体的にどのようなドキュメントの特徴ベクトルと、タイムスライスの特徴ベクトルと、タイムスライス特徴ベクトル間の距離とを用いるかについては、後述する時系列特徴点検出部50の説明で記述する。
ドキュメント情報データベース30は、例えば、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。ドキュメント情報データベース30は、ドキュメント入力装置10が入力したドキュメント集合と、各ドキュメントに付与されている情報とを組として格納する。例えば、ドキュメント情報データベース30は、時間情報や、題目、カテゴリ等のメタ情報、発信者又は作成者に関する情報、発信者又は作成者が発信/作成した他のドキュメントに関する情報に対応付けて、各ドキュメントを記憶する。なお、ドキュメント情報データベース30は、ドキュメント特徴計算部20が各ドキュメントの特徴ベクトルを計算する際に必要な情報を提供するデータベースである。
なお、ドキュメント特徴計算部20が特徴ベクトルを計算する際に必要となる情報そのものが、ドキュメント入力装置10によって各ドキュメントと組として入力されている場合には、ドキュメント入力装置10は、その入力した情報をドキュメント特徴計算部20に提供(出力)する。そして、ドキュメント特徴計算部20は、ドキュメント入力装置10から入力したドキュメントや情報に基づいて、ドキュメントに対する特徴ベクトルを算出する。
また、ドキュメント入力装置10が各ドキュメントと組として入力する情報が、インターネット上のURL等のドキュメントの出典やアクセス用のアドレスを示すインデックス情報である場合には、ドキュメント入力装置10は、そのインデックス情報が示す先のサーバ等から必要な情報を読み出す。そして、ドキュメント入力装置10は、読み出した情報をドキュメント特徴計算部20に提供(出力)する。
例えば、ドキュメント入力装置10が、ブログとそのブログのURLとを組として入力したとする。この場合、ドキュメント特徴計算部20が各ブログ発信者のプロフィール情報を各ブログドキュメントの特徴ベクトル計算に使用する場合には、ドキュメント入力装置10は、URLを辿って、公開されているブログ発信者のプロフィール情報を取得(例えば、インターネットを介して受信)する。そして、ドキュメント入力装置10は、取得したプロフィール情報をドキュメント特徴計算部20に提供(出力)する。
なお、ドキュメントと組になっているインデックス情報が示す先のサーバ等から、ドキュメント特徴計算部20が必要とする情報を読み出す処理は、ドキュメント特徴計算部20から要求が来た時点で行ってもよい。また、ドキュメント入力装置10にドキュメント集合が入力された時点で行ってもよい。
タイムスライス特徴計算部40は、例えば、プログラムに従って動作する情報処理装置のCPUによって実現される。タイムスライス特徴計算部40は、まず、ドキュメント入力装置10が入力した時間情報つきドキュメント集合を、各ドキュメントに付与された時間情報を用いて、タイムスライス毎に分割する機能を備える。
なお、タイムスライスの時間幅は、本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて予め定めておく。例えば、特定の商品の発売後の様子等を分析したい場合には、情報分析装置は、1日をタイムスライスの時間幅として設定(例えば、設定情報を設定)しておく。そして、タイムスライス特徴計算部40は、予め定めた設定情報に従って、1日毎に別のタイムスライスとして入力ドキュメント集合を分割する。
また、例えば、通年製品の大まかな季節毎の評判の変化等を見たい場合には、タイムスライス特徴計算部40は、予め定めた設定情報に従って、1ヶ月を時間幅として、2007年1月に作成されたドキュメント集合、2007年2月に作成されたドキュメント集合、2007年3月に作成されたドキュメント集合・・・のようなタイムスライスに分割してもよい。
さらに、タイムスライス特徴計算部40は、タイムスライスの時間幅が前後のタイムスライスと完全に重ならない範囲で重なりをもつように、ドキュメント集合をタイムスライスに分割してもよい。例えば、タイムスライス特徴計算部40は、2007年1〜3月、3〜5月、5〜7・・・のような1月ずつ前後に重なりをもつタイムスライスに、ドキュメント集合を分割してもよい。
次いで、タイムスライス特徴計算部40は、分割した全てのタイムスライスに対して、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて、タイムスライスの特徴を表す特徴ベクトルを計算する機能を備える。なお、タイムスライスの特徴ベクトル計算方法は、ドキュメント特徴計算部20が計算するドキュメント特徴ベクトルの性質に応じて、予め設定しておく。そして、タイムスライス特徴計算部40は、予め設定した設定情報に従って、タイムスライスの特徴ベクトルを算出する。
例えば、あるタイムスライスに属するドキュメントがi個存在するときに、i個のドキュメントの特徴ベクトルから、そのタイムスライスの特徴を表すm個の特徴ベクトルを計算する手法が必要となる。なお、ここで、mは1以上の整数であり、一般にはm<iとなる。また、mが2以上の時、m個の特徴ベクトルをまとめて1つの特徴ベクトルととらえてもよい。このような集合の各要素が備える特徴ベクトルから、その集合の特徴を表す1つ以上の特徴ベクトルを計算する手法は、統計分析の分野で多数既存手法が公開されており、本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて適切な計算手法を定めればよい。
時系列特徴点検出部50は、例えば、プログラムに従って動作する情報処理装置のCPUによって実現される。時系列特徴点検出部50は、タイムスライス特徴計算部40が計算した各タイムスライスの特徴ベクトルに基づいて、時間順に近接又は隣接した全てのタイムスライスのペアに対して、2つのタイムスライス間の特徴ベクトル距離を求める機能を備える。そして、時系列特徴点検出部50は、求めたタイムスライス間の特徴ベクトル距離が一定の閾値を超えた箇所を特徴点として検出する機能を備える。
なお、ここで、距離の閾値や、タイムスライス間の特徴ベクトル距離を求める時間順に近接するタイムスライスのペアの範囲は、予め本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて設定する。例えば、近接するタイムスライスのペアの範囲を前後2組のタイムスライスと設定する(例えば、予め設定情報を設定しておく)。この場合、時系列特徴点検出部50は、予め設定した設定情報に従って、タイムスライス1とタイムスライス2、タイムスライス1とタイムスライス3、タイムスライス2とタイムスライス3、タイムスライス2とタイムスライス4、タイムスライス3とタイムスライス4、タイムスライス3とタイムスライス5・・・のようなタイムスライス組で特徴ベクトル距離を計算する。
また、タイムスライスの特徴ベクトル距離の計算方法は、タイムスライス特徴計算部40が計算する特徴ベクトルの種類や計算方法に応じて設定する(例えば、予め設定情報を設定しておく)。
図2は、情報分析装置が行うドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法の例を示す説明図である。図2に示す表では、各行がドキュメント特徴ベクトル、タイムスライス特徴ベクトルの計算方法、タイムスライス間距離の計算方法、及びその計算方法で検出される特徴点の性質・効果を示す組を示している。
図2の1行目には、ドキュメント入力装置10に入力されたドキュメント集合の各ドキュメント内容に基づいて、ドキュメントの特徴ベクトルを計算する手法の例が示されている。図2の1行目に示す例では、ドキュメント特徴計算部20は、各ドキュメントに対して、形態素解析、不要語処理、及び同義語処理を実行する。そして、ドキュメント特徴計算部20は、その処理結果からワードベクトルを作成し、ドキュメントの特徴ベクトルとする。
また、特徴ベクトルの素性を単語よりも詳細な意味単位とする場合には、ドキュメント特徴計算部20は、各ドキュメントに対して、形態素解析、係り受け解析、又は構文解析を行い、さらに必要に応じて、不要語処理や不要表現処理、同義表現処理を行う。そして、ドキュメント特徴計算部20は、得られた言語解析結果から、各言語処理単位の有無や、出現頻度に基づいて、特徴ベクトルを計算する。
例えば、ドキュメント特徴計算部20は、ある短いドキュメントの言語解析結果から、(携帯→買った)、(大変→難しい)、(操作→難しい)といった、3つの係り受け関係が得られた場合には、この3つの係り受け関係に対応する次元をそれぞれ1とする特徴ベクトルを生成する。なお、このようなドキュメントの言語解析結果に基づいて、特徴ベクトルを計算する手法自体は、ドキュメントの類似度計算等の分野で広く使用されている公知技術であり、本実施形態では詳細な説明を省略する。
また、図2の1行目に示す例では、タイムスライスの特徴ベクトルの計算方法として、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて、まずm個(mは1以上の整数)のクラスタにクラスタリングし、次いで各クラスタの代表ベクトルをm個求めて、それをまとめてタイムスライスの特徴ベクトルとする計算方法が挙げられている。本実施形態では、ドキュメントのクラスタリング手法や、各クラスタの代表ベクトルを求める手法は、特定の計算方法に限定しない。例えば、タイムスライス特徴計算部40は、m=1とし、タイムスライスに属する全てのドキュメントの特徴ベクトルの重心を、そのタイムスライスの特徴ベクトルとする手法等を用いて、タイムスライスの特徴ベクトルと求める。
さらに、図2の1行目に示す例では、タイムスライスの特徴ベクトルが、m個のクラスタの代表ベクトルをまとめたものであるときの、2つのタイムスライス間の特徴ベクトル距離を計算する方法が挙げられている。例えば、時系列特徴点検出部50は、m=1の場合には、単純に特徴ベクトル同士のベクトル距離を求めればよい。また、例えば、時系列特徴点検出部50は、mが2以上の場合には、まず各クラスタの代表ベクトルの類似度を基準に、2つのタイムスライス間でクラスタの対応付けを行う。そして、時系列特徴点検出部50は、対応づけしたクラスタの代表ベクトル同士のベクトル距離を、クラスタの全対応付けに対して算出し、総和を求める。
時系列特徴点検出部50は、このようなドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法の組合せを用いることで、分析対象とするドキュメントの各タイムスライスにおけるテキスト内容の変化が大きい時点を、特徴点として検出する。例えば、時系列特徴点検出部50は、同じ「あるゲーム機を買った」という命題が記述されているドキュメントの集合であっても、初期の頃は「ゲームで遊んだ」といったテキスト内容が多いのに対して、ある時点から急に「ビデオプレーヤーとして使用」といったテキスト内容が多くなっている場合に、その変化が生じた時点を特徴点として検出する。
図2の2行目には、ドキュメント入力装置10が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信/作成した他のドキュメント内容に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。図2の1行目に示す例では、ドキュメント特徴計算部20が言語解析を行う対象として、ドキュメント入力装置10が入力したドキュメントに代えて、そのドキュメントの情報発信者又は作成者が発信/作成した他のドキュメントを用いる点で、図2の1行目に示した例と異なる。
なお、図2の2行目に示した例において、後のドキュメント特徴ベクトルの計算方法や、タイムスライスの特徴ベクトルの計算方法、及びタイムスライス間距離の計算方法については、図2の1行目に示した例と同様である。
ただし、図2の2行目に示した例では、ドキュメント入力装置10が入力したドキュメントの情報発信者又は作成者が発信/作成した他のドキュメントが複数存在する場合には、ドキュメント特徴計算部20は、複数のドキュメントを1つの大きなドキュメントと見なして、ドキュメントの特徴ベクトルを計算する。又は、ドキュメント特徴計算部20は、個々のドキュメントの特徴ベクトルを求めた後で、それらもとめた特徴ベクトルの重心ベクトルを、代表のドキュメント特徴ベクトルとして求める等の処理を行う。
なお、ドキュメント入力装置10が入力したドキュメントの情報発信者又は作成者が発信/作成した他のドキュメント全てを、特徴ベクトルの計算対象とする必要はない。例えば、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力した元のドキュメントの時間情報を基準にして、その時間情報で示される時間よりも過去一定時間に発信/作成されたドキュメントのみを特徴ベクトル計算の対象として特徴ベクトルと求めてもよい。すなわち、ドキュメント特徴計算部20は、そのように予め設定した条件に従って、特徴ベクトルの計算対象のドキュメントの選別を行ってもよい。
図2の2行目に示す計算方法では、ドキュメント特徴計算部20は、分析対象とするドキュメントの発信者/作成者の傾向を、各発信者/作成者が他に発信/作成しているドキュメントの言語解析結果から求めている。さらに、ドキュメント特徴計算部20は、求めた特徴ベクトルを、その各発信者/作成者が他に発信/作成しているドキュメントを分析対象とする元のドキュメントの特徴ベクトルとして使用する。
よって、図2の2行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信/作成する発信者/作成者がよく発信/作成するドキュメントの分野や内容が大きく変化した点を、特徴点として検出できる効果がある。従って、図2の2行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを発信/作成する人間が、興味をもって情報発信している内容に大きな変化があった時点を特徴点として検出できる。
図2の3行目には、ドキュメント入力装置10が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が公開しているプロフィール情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。なお、図2の3行目に示した例において、ドキュメントの特徴ベクトルを求める以外の後の計算方法は、図2の2行目に示した方法と全く同様である。
例えば、ブログ等では、情報発信者のプロフィール情報が公開されている場合がある。例えば、特定の話題を取り扱っているブログを分析対象とする場合、ドキュメント入力装置10は、入力した各ブログドキュメントのURLを、ドキュメント情報データベース30が蓄積する情報を辿って、各ブログ発信者の公開プロフィール情報を読み出す。そして、ドキュメント入力装置10は、読み出した公開プロフィール情報をテキストデータとしてドキュメント特徴計算部20に与える(出力する)。
ドキュメント特徴計算部20は、プロフィール情報を言語解析してワードベクトル、又は言語解析結果のベクトル表現を計算する。そして、ドキュメント特徴計算部20は、求めたベクトルを、元のドキュメントと結びつけて、元の各ドキュメントの特徴ベクトルとして求める。
図2の3行目に示す計算方法では、ドキュメント特徴計算部20は、分析対象とするドキュメントの発信者/作成者の傾向を、各発信者/作成者の公開するプロフィール情報から計算する。そして、ドキュメント特徴計算部20は、その算出結果をさらに分析対象とする元のドキュメントの特徴ベクトルとして使用する。
よって、図2の3行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信/作成する発信者/作成者の興味や、性別、年齢等プロフィール情報に記述されているような傾向が大きく変化した点を、特徴点として検出できる効果がある。従って、図2の3行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを各タイムスライスで発信/作成する人間のプロフィール傾向に大きな変化があった時点を特徴点として検出できる。
図2の4行目には、ドキュメント入力装置10が入力したドキュメント集合の各ドキュメントに付与されたカテゴリ情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。
例えば、ブログ等のインターネット上のコンテンツでは、ドキュメントに「グルメ」や「ゲーム」、「仕事」等の1つ以上のカテゴリが付与されている場合が多い。また、メールや報告書等の業務文書であっても、カテゴリに類するメタ情報が付与されている場合がある。図2の4行目に示す計算方法では、そうしたカテゴリに類するメタ情報を、ベクトル表現に直し、元のドキュメントの特徴ベクトルとして用いる。特徴ベクトルの作成方法は、各カテゴリ名を単語と見なして、ワードベクトルを作成する手法でよい。
図2の4行目に示すタイムスライスの特徴ベクトルの計算方法やタイムスライス間距離の計算方法は、タイムスライス特徴計算部40が、図2の1行目や2行目に示す手法でm=1の場合にタイムスライスの特徴ベクトルやタイムスライス間距離を求める方法と同様である。
図2の4行目に示す計算方法では、ドキュメント特徴計算部20は、分析対象とするドキュメントに対して、その発信者/作成者が付与したカテゴリ情報を元のドキュメントの特徴ベクトルとして使用する。よって、図2の4行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析分析対象とするドキュメント集合が多く属するカテゴリ傾向が大きく変化した時点を、特徴点として検出する効果がある。従って、図2の4行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントの発信者/作成者がどのようなカテゴリ分けをするか、その傾向の差異が生じた時点を検出できる。
図2の5行目には、ドキュメント入力装置10が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信/作成した他のドキュメントに付与されたカテゴリ情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。
図2の5行目に示す例では、ドキュメント特徴計算部20が特徴ベクトル計算の元とする情報として、他のドキュメントに付与されたカテゴリ情報を用いる点で、図2の1行目に示した例と異なる。なお、図2の2行目に示した例において、後のドキュメント特徴ベクトルの計算方法や、タイムスライスの特徴ベクトルの計算方法、及びタイムスライス間距離の計算方法については、図2の1行目に示した例と同様である。
図2の5行目に示す例では、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力したドキュメントの情報発信者又は作成者が発信/作成した他のドキュメントが複数存在する場合には、個々のドキュメントのカテゴリ情報から特徴ベクトルを計算する。そして、ドキュメント特徴計算部20は、最後に求めた特徴ベクトルの総和や重心を新たな特徴ベクトルとして求める。
なお、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力したドキュメントの情報発信者又は作成者が発信/作成した他のドキュメント全てのカテゴリ情報を、特徴ベクトルの計算対象とする必要はない。例えば、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力した元のドキュメントの時間情報を基準にして、その時間情報で示される時間よりも過去一定時間に発信/作成されたドキュメントのカテゴリ情報のみを特徴ベクトル計算の対象として特徴ベクトルと求めてもよい。すなわち、ドキュメント特徴計算部20は、そのように予め設定した条件に従って、選別を行ってもよい。
図2の5行目に示す計算方法では、ドキュメント特徴計算部20は、分析対象とするドキュメントの発信者/作成者の傾向を、各発信者/作成者が他に発信/作成しているドキュメントのカテゴリ情報に基づいて計算する。そして、ドキュメント特徴計算部20は、求めた特徴ベクトルを、その各発信者/作成者が他に発信/作成しているドキュメントを分析対象とする元のドキュメントの特徴ベクトルとして使用する。
よって、図2の2行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信/作成する発信者/作成者がよく発信/作成するドキュメントのカテゴリが大きく変化した点を、特徴点として検出できる効果がある。従って、図2の5行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを発信/作成する人間が、興味を持って情報発信している分野に大きな変化があった時点を特徴点として検出できる。
図2の6行目には、ドキュメント入力装置10が入力したドキュメントの情報発信者又は作成者がそのドキュメントを発信/作成する以前に発信/作成した他のドキュメントが、ドキュメント入力装置10が入力した分析対象とするドキュメント集合に含まれているか否かを求めて、その求めた結果を元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。
図2の6行目に示す例では、ドキュメント特徴計算部20は、情報発信者又は作成者が以前に発信/作成した他のドキュメントが分析対象とするドキュメント集合に含まれているか否かを判定するため、ドキュメント特徴計算部20は、求める特徴ベクトルを1又は0の2値で表現してもよい。又は、ドキュメント特徴計算部20は、情報発信者又は作成者が以前に発信/作成した他のドキュメントが含まれているドキュメント数を計数して、含まれていなかった場合には0とし、含まれていた場合にはその数を元のドキュメントの特徴ベクトル(次元数は1)として求めてもよい。
なお、図2の6行目に示した例において、後のタイムスライスの特徴ベクトルの計算方法や、及びタイムスライス間距離の計算方法については、図2の6行目の各項目に示すとおりである。例えば、タイムスライス特徴計算部40は、各タイムスライスに属するドキュメント集合のうち、新規のドキュメントの数又は新規のドキュメントの割合を求めることによって、タイムスライスの特徴ベクトルを求める。なお、新規のドキュメントとは、その情報発信者/作成者が過去に発信/作成したドキュメントが入力ドキュメントに含まれていないドキュメントのことである。また、例えば、タイムスライス特徴計算部40は、2つのタイムスライス間での新規ドキュメントの数又は新規ドキュメントの割合の差分を求めたり、新規ドキュメントの数又は新規ドキュメントの割合の比を求めることによって、タイムスライス間距離を求める。
図2の6行目に示す計算方法では、このようなドキュメントの特徴ベクトルを用いることで、例えば、特定の話題や命題を含むドキュメント集合を分析する際に、初めてその話題や命題について触れた新規発信者/作成者のドキュメントが多いのか否かの傾向を調べ、その変化が大きい点を特徴点として検出できる。
本実施形態では、以上の計算方法に従って、情報分析装置は、ドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離を算出する。
なお、図2に示すドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法は、可能な組合せの一例であり、情報分析装置は、他の特徴ベクトルの処理手順を用いて、ドキュメントの特徴ベクトルや、タイムスライスの特徴ベクトル、及びタイムスライス間距離を求めてもよい。また、情報分析装置は、図2に示す計算方法を複数組み合わせて、ドキュメントの特徴ベクトルや、タイムスライスの特徴ベクトル、及びタイムスライス間距離を求めてもよい。
例えば、図2の2行目に示す方法は、上述したように、ドキュメント入力装置10が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信/作成した他のドキュメント内容に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法である。この場合に、ドキュメント特徴計算部20は、分析対象となる元のドキュメントの発信者又は作成者が発信/作成した他のドキュメントに代えて、ハイパーリンクやトラックバック等の手法で元のドキュメントを参照しているドキュメントを用いて、元のドキュメントの特徴ベクトルを計算する手法等を用いてもよい。
出力装置60は、例えば、ディスプレイ装置等の表示装置によって実現される。また、出力装置60は、例えば、プリンタ等の印刷装置によって実現されてもよい。また、出力装置60は、例えば、情報処理装置の入出力インタフェース部によって実現され、出力情報をファイルとして出力するものであってもよい。
出力装置60は、時系列特徴点検出部50の指示に従って、時系列特徴点検出部50が検出した特徴点として、タイムスライス間の特徴ベクトル距離が閾値を超えたタイムスライスの時間情報を出力する機能を備える。この場合、出力装置60は、出力する時間情報として、時間順で古い方のタイムスライスの開始時点及び終了時点と、新しい方のタイムスライスの開始時点及び終了時点と、それらの中点の時間情報のうちのいずれか、又は全部を出力してもよい。
さらに、出力装置60は、特徴点の時間情報を出力するだけでなく、タイムスライス特徴計算部40の指示に従って、タイムスライス特徴計算部40が検出したタイムスライス間の特徴ベクトル距離や、タイムスライスの特徴ベクトルの情報をあわせて出力してもよい。
また、出力装置60は、時系列特徴点検出部50が検出した特徴点が複数存在する場合には、それらの全てを出力してもよい。又は、出力装置60は、特徴ベクトル距離が大きい方から上位n個、時間順で古い方からn個、又は時間順で新しい方からn個等、任意の設計基準に従って、n個だけ選択して出力してもよい。
本実施形態では、情報分析装置は、以上に示す構成を備えることで、分析対象とするドキュメントの数や、全ドキュメント母集団の数の時系列変化によらない特徴点を検出することができる。
なお、本実施形態において、図1に示す情報分析装置の各コンポーネントは、それぞれの機能を制御するプログラムとして実現されてもよい。例えば、情報分析装置を実現する情報処理の記憶装置は、ドキュメント等の情報を分析するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを実行させるための情報分析用プログラムを記憶している。
また、これらの情報分析用プログラムは、CD−ROMやフレキシブルディスク等の機械読み取り可能な記録媒体に記憶され、又はインターネット等のネットワークを通して提供されてもよい。そして、情報分析装置は、これらの情報分析用プログラムが計算機(コンピュータ)等に読み込まれて実行されることによって実現されるものとしてもよい。
次に、動作について説明する。図3は、情報分析装置が実行する処理の一例を示すフローチャートである。図3に示すように、まず、情報分析装置のドキュメント入力装置10は、分析対象とする時間情報つきドキュメント集合を入力する(ステップS1)。例えば、ドキュメント入力装置10は、ユーザによるキーボードやマウス等の入力デバイスを用いた操作指示に従って、ハードディスク等の大容量記憶装置やインターネット等のネットワークに接続されたネットワークインタフェース等を通してドキュメントの集合を入力する。
次いで、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力するドキュメントの集合や、ドキュメント情報データベース30が記憶する情報に基づいて、各ドキュメントの特徴を示す特徴ベクトルを計算する(ステップS2)。
次いで、タイムスライス特徴計算部40は、各ドキュメントの時間情報に基づいて、時間順に複数のタイムスライスに、ステップS1で入力したドキュメント集合を分割する(ステップS3)。なお、図3に処理手順では、ステップS2,S3の順序で処理を実行する場合を示しているが、情報分析装置は、このステップS2,S3のいずれを先に実行してもよい。
次に、タイムスライス特徴計算部40は、タイムスライス毎に、タイムスライスの特徴ベクトルを、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて計算する(ステップS4)。
次いで、時系列特徴点検出部50は、近接又は隣接するタイムスライス間の特徴ベクトル距離を計算する(ステップS5)。そして、時系列特徴点検出部50は、特徴間距離の大きいタイムスライスの時間情報を特徴点として求め、求めた特徴点を出力装置60に出力させる(ステップS6)。
以上に示す処理に従って、情報分析装置は、入力したドキュメントの集合を分析し、ドキュメントの特徴点を検出する。
以上のように、本実施形態によれば、ユーザが着目する特定の単語や話題を表す表現が含まれている等、ユーザがある基準で分析対象として選出したドキュメントの集合を、各ドキュメントに付与されている時間情報に従って時間順に並べて時系列分析を行う。本実施形態によれば、この際に、ドキュメント内容の統計的傾向に変化が生じた時点や、各ドキュメントの発信者又は作成者の背景に変化が生じた時点を、ドキュメントの特徴が大きく変化した特徴点として検出することができる。
具体的には、ドキュメントの特徴を判断可能な情報として、ドキュメントの数だけでなく、そのドキュメントのテキスト内容や、タイトル、カテゴリ等のメタ情報、さらには、各ドキュメントの発信者又は作成者に関する情報を取得できる場合がある。そのため、本実施形態では、情報分析装置は、そのような情報を用いて、各ドキュメントの特徴を計算する。そして、情報分析装置は、タイムスライス毎に、そのタイムスライスに属するドキュメントの特徴を比較して、差分の大きいタイムスライスとタイムスライスとの間の時点を、時系列的な特徴点として検出する。そのような処理を行うことによって、ドキュメント内容の統計的傾向に変化が生じた時点や、各ドキュメントの発信者又は作成者の背景に変化が生じた時点を、ドキュメントの特徴が大きく変化した特徴点として検出することができる。
従って、本実施形態によれば、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出することができる。
次に、本発明による情報分析装置の最小構成について説明する。図4は、情報分析装置の最小の構成例を示すブロック図である。図4に示すように、情報分析装置は、最小の構成要素として、ドキュメント入力装置10、ドキュメント特徴計算部20、タイムスライス特徴計算部40、及び時系列特徴点検出部50を含む。
また、図4に示す最小構成の情報分析装置において、ドキュメント入力装置10は、時間情報が付与された時間情報つきドキュメントの集合を入力する機能を備える。また、ドキュメント特徴計算部20は、ドキュメント入力装置10が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報(特徴ベクトル)を計算する機能を備える。また、タイムスライス特徴計算部40は、ドキュメント入力装置10が入力した時間情報つきドキュメントを分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算部20が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報(特徴ベクトル)を計算する機能を備える。また、時系列特徴点検出部50は、タイムスライス特徴計算部40の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する機能を備える。
なお、上記の実施形態では、以下の(1)〜(8)に示すような情報分析装置の特徴的構成が示されている。
(1)情報分析装置は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段(例えば、ドキュメント入力装置10によって実現される)と、入力手段が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報(例えば、特徴ベクトル)を計算するドキュメント特徴計算手段(例えば、ドキュメント特徴計算部20によって実現される)と、入力手段が入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報(例えば、特徴ベクトル)を計算するタイムスライス特徴計算手段(例えば、タイムスライス特徴計算部40によって実現される)と、タイムスライス特徴計算手段の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段(例えば、時系列特徴点検出部50によって実現される)とを備えたことを特徴とする。
(2)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。
(3)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算するものであってもよい。
(4)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。
(5)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算するものであってもよい。
(6)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算するものであってもよい。
(7)ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、ドキュメント入力手段が入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。
(8)ドキュメント特徴計算手段は、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。
本発明は、Web日記やブログ等のインターネット上で公開された時間情報つきドキュメントのうち、ユーザが着目する特定の条件を満たすドキュメント集合の時系列分析を行う用途に利用可能である。特に、ユーザが着目する特定の条件を満たすドキュメント集合を充分集めることができれば、その絶対数の時間変化を求めることができなくとも、着目するドキュメント集合の性質が大きく変化する時点を、特徴点として検出することでマーケティング分析等の目的に応用できる。また、本発明は、電子メールや報告書等の時間情報つき社内文書を時系列分析する用途に利用可能である。特に、社内プロジェクトの性質が変化した時点を求めることで、プロジェクト運用の見直しや改良を目的とした分析等に応用できる。
本発明による情報分析装置の構成の一例を示すブロック図である。 情報分析装置が行うドキュメント特徴ベクトル、タイムスライス特徴ベクトル、及びタイムスライス間距離の計算方法の例を示す説明図である。 情報分析装置が実行する処理の一例を示すフローチャートである。 情報分析装置の最小の構成例を示すブロック図である。
符号の説明
10 ドキュメント入力装置
20 ドキュメント特徴計算部
30 ドキュメント情報データベース
40 タイムスライス特徴計算部
50 時系列特徴点検出部
60 出力装置

Claims (24)

  1. 時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段と、
    前記入力手段が入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算手段と、
    前記入力手段が入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して前記ドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算手段と、
    前記タイムスライス特徴計算手段の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段とを
    備えたことを特徴とする情報分析装置。
  2. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項1記載の情報分析装置。
  3. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項1又は請求項2記載の情報分析装置。
  4. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項1から請求項3のうちのいずれか1項に記載の情報分析装置。
  5. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する請求項1から請求項4のうちのいずれか1項に記載の情報分析装置。
  6. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項1から請求項5のうちのいずれか1項に記載の情報分析装置。
  7. ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、ドキュメント入力手段が入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する請求項1から請求項6のうちのいずれか1項に記載の情報分析装置。
  8. ドキュメント特徴計算手段は、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項1から請求項7のうちのいずれか1項に記載の情報分析装置。
  9. 時間情報が付与された時間情報つきドキュメントの集合を入力する入力ステップと、
    入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算ステップと、
    入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算ステップと、
    前記タイムスライスの特徴を示す情報の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出ステップとを
    含むことを特徴とする情報分析方法。
  10. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項9記載の情報分析方法。
  11. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項9又は請求項10記載の情報分析方法。
  12. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項9から請求項11のうちのいずれか1項に記載の情報分析方法。
  13. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する請求項9から請求項12のうちのいずれか1項に記載の情報分析方法。
  14. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項9から請求項13のうちのいずれか1項に記載の情報分析方法。
  15. ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する請求項9から請求項14のうちのいずれか1項に記載の情報分析方法。
  16. ドキュメント特徴計算ステップで、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項9から請求項15のうちのいずれか1項に記載の情報分析方法。
  17. コンピュータに、
    時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、
    入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、
    入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、
    前記タイムスライスの特徴を示す情報の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを
    実行させるための情報分析用プログラム。
  18. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
    請求項17記載の情報分析用プログラム。
  19. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する処理を実行させる
    請求項17又は請求項18記載の情報分析用プログラム。
  20. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
    請求項17から請求項19のうちのいずれか1項に記載の情報分析用プログラム。
  21. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する処理を実行させる
    請求項17から請求項20のうちのいずれか1項に記載の情報分析用プログラム。
  22. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する処理を実行させる
    請求項17から請求項21のうちのいずれか1項に記載の情報分析用プログラム。
  23. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
    請求項17から請求項22のうちのいずれか1項に記載の情報分析用プログラム。
  24. コンピュータに、
    ドキュメント特徴計算処理で、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
    請求項17から請求項23のうちのいずれか1項に記載の情報分析用プログラム。
JP2007272366A 2007-10-19 2007-10-19 情報分析装置、情報分析方法、及び情報分析用プログラム Pending JP2010146031A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007272366A JP2010146031A (ja) 2007-10-19 2007-10-19 情報分析装置、情報分析方法、及び情報分析用プログラム
PCT/JP2008/067243 WO2009050991A1 (ja) 2007-10-19 2008-09-25 情報分析装置、情報分析方法、及び情報分析用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007272366A JP2010146031A (ja) 2007-10-19 2007-10-19 情報分析装置、情報分析方法、及び情報分析用プログラム

Publications (1)

Publication Number Publication Date
JP2010146031A true JP2010146031A (ja) 2010-07-01

Family

ID=40567264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007272366A Pending JP2010146031A (ja) 2007-10-19 2007-10-19 情報分析装置、情報分析方法、及び情報分析用プログラム

Country Status (2)

Country Link
JP (1) JP2010146031A (ja)
WO (1) WO2009050991A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5170787B2 (ja) * 2010-01-28 2013-03-27 楽天株式会社 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5092252B2 (ja) * 2006-02-27 2012-12-05 大日本印刷株式会社 トレンド解析サーバおよびトレンド解析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム

Also Published As

Publication number Publication date
WO2009050991A1 (ja) 2009-04-23

Similar Documents

Publication Publication Date Title
US7788086B2 (en) Method and apparatus for processing sentiment-bearing text
JP5387578B2 (ja) 情報分析装置、情報分析方法、及びプログラム
JP4922692B2 (ja) 検索クエリー作成装置
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
MX2008000518A (es) Alimentacion y contenido de correo electronico.
JP2010003015A (ja) 文書検索システム
Alamsyah et al. Sentiment analysis based on appraisal theory for marketing intelligence in Indonesia's mobile phone market
JP5258532B2 (ja) 評判指数を出力する方法及び評判指数出力装置
JP2007219929A (ja) 感性評価システム及び方法
JP2010224623A (ja) 関連記事推奨方法および関連記事推奨プログラム
Karkali et al. Using temporal IDF for efficient novelty detection in text streams
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
Rani et al. Study and comparision of vectorization techniques used in text classification
JP5353523B2 (ja) グラフ解析装置、グラフ解析方法及びグラフ解析プログラム
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2006004098A (ja) 評価情報生成装置、評価情報生成方法、及びプログラム
JP2010146031A (ja) 情報分析装置、情報分析方法、及び情報分析用プログラム
JP2007241452A (ja) ドキュメント情報処理装置
JPWO2009060888A1 (ja) 著者影響判定システム、著者影響判定方法、及びプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体