JP2010146031A

JP2010146031A - 情報分析装置、情報分析方法、及び情報分析用プログラム

Info

Publication number: JP2010146031A
Application number: JP2007272366A
Authority: JP
Inventors: Satoshi Nakazawa; 聡中澤; Shinichi Ando; 真一安藤; Hiraki Ishikawa; 開石川; Toshio Takeda; 俊夫竹田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-10-19
Filing date: 2007-10-19
Publication date: 2010-07-01
Also published as: WO2009050991A1

Abstract

【課題】話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できるようにする。
【解決手段】本発明では、時間情報が付与された時間情報つきドキュメントの集合を入力し、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算し、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算し、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する。
【選択図】図４

Description

本発明は、ドキュメント等の情報を分析する情報分析装置、情報分析方法、及び情報分析用プログラムに関する。

インターネット上で公開されるブログ等の大量の時間情報つきドキュメントに対して、着目する特定の単語や話題を表す表現、特定の意見・命題が記述されたドキュメントを抽出し、抽出したドキュメントを各ドキュメントに付与されている時間情報に従って順に並べて時系列分析を行うことで、着目する表現や意見の経緯を調べる技術が存在する。

例えば、着目する表現や意見の経緯を調べる技術として、非特許文献１には、BlogWatcher と呼ばれる技術が記載されている。非特許文献１では、収集したブログ全体における特定の話題語が出現した回数や、その話題語が肯定的に記述されている回数、否定的に記述されている回数の時系列変化を、折れ線グラフとしてプロットする手法が開示されている（以下、関連技術１という）。

非特許文献１に記載された関連技術１を用いることにより、着目する話題語のブログにおける出現数の変遷を調べることで、ユーザはその着目する話題語が各時点でどの程度流行していたのかといった分析を行うことができる。また、非特許文献１に記載された関連技術１には、着目する話題語の出現数が急激に変化した時点を、バーストとして検出する機能も開示されている。

ここで、バーストとは、着目する話題語がブログに出現する回数が、一定時間以内に急激に増加したり減少したりすることをいう。また、非特許文献１には、単純な増加／減少だけでなく、収集したブログ全体の母集団数で正規化してバーストを検出する手法も開示されているが、基本的には着目する話題語の出現数の変化に応じてバーストを検出する。

奥村学他、「blogページの自動収集と監視に基づくテキストマイニング」、［平成１９年１０月９日検索］、インターネット＜http://www.ipa.go.jp/SPC/report/03fy-pro/mito/15-821d.pdf ＞

しかし、非特許文献１に記載された関連技術１は、着目する話題語の出現数の時系列変化に基づいて特徴点を検出する技術にすぎず、話題語が記述される状況や、話題語を含むドキュメントの発信者又は作成者の性質の変化を考慮して特徴点を検出することはできない。そのため、例えば、話題語の出現数は大きく変わらないが、話題語の発信者の集団が大きく変わった時点等を特徴点として検出することはできない。

そこで、本発明は、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できる情報分析装置、情報分析方法、及び情報分析用プログラムを提供することを目的とする。

本発明による情報分析装置は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段と、入力手段が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算手段と、入力手段が入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算手段と、タイムスライス特徴計算手段の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段とを備えたことを特徴とする。

本発明による情報分析方法は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力ステップと、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算ステップと、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算ステップと、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出ステップとを含むことを特徴とする。

本発明による情報分析用プログラムは、コンピュータに、時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを実行させるためのものである。

本発明によれば、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出することができる。

以下、本発明の実施形態について図面及び具体例を参照して説明する。本発明による情報分析装置は、特に、ある表現や意見を記述したドキュメント集合の時系列分析を行う際に、各ドキュメント発信者が作成したドキュメントで、着目する表現・意見が記述されている箇所以外のドキュメントの特徴を基準に、時系列分析における特徴点を求める情報分析方式を用いたものである。

本発明による情報分析装置は、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出できるようにことを目的とするものである。また、情報分析装置は、着目する単語や話題を表す表現、意見が含まれるドキュメントの特徴を計算し、計算したドキュメントの特徴が大きく変化した時点を特徴点として出力できるようにすることを目的とするものである。

図１は、本発明による情報分析装置の構成の一例を示すブロック図である。図１に示すように、情報分析装置は、ドキュメント入力装置１０、ドキュメント特徴計算部２０、ドキュメント情報データベース３０、タイムスライス特徴計算部４０、時系列特徴点検出部５０、及び出力装置６０を含む。なお、情報分析装置は、例えば、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

ドキュメント入力装置１０は、着目する特定の単語や、話題を表す表現、特定の意見・命題が記述された時間情報つきドキュメントの集合を受け付ける。ドキュメント特徴計算部２０は、入力された各ドキュメントの特徴を計算する。ドキュメント情報データベース３０は、ドキュメントの特徴を計算する際に用いる各ドキュメントの情報を保持する。タイムスライス特徴計算部４０は、入力されたドキュメントを付与された時間情報を用いてタイムスライス毎に分割し、各タイムスライスの特徴を計算する。時系列特徴点検出部５０は、タイムスライスの特徴間距離を計算し、距離が一定値以上のタイムスライス間の時間を特徴点として検出する。出力装置６０は、検出された特徴点を出力する。

ドキュメント入力装置１０は、例えば、プログラムに従って動作する情報処理装置のＣＰＵ及び入出力インタフェース部によって実現される。ドキュメント入力装置１０は、分析対象の時間情報つきドキュメントの集合を入力として受け付ける装置である。例えば、ドキュメント入力装置１０は、ハードディスク等の大容量記憶装置やネットワークインタフェース等を通して、ドキュメントの集合を入力する。

ドキュメント入力装置１０が入力するドキュメントは、ユーザが分析対象とするドキュメントであれば、どのようなものであってもかまわない。例えば、ユーザがドキュメント中に特定の意見・命題が記述されたドキュメントだけを分析したいのであれば、ユーザは、予めそのような条件を満たすドキュメントを選出し入力操作を行う。すると、ドキュメント入力装置１０は、ユーザの入力操作に従って、分析対象のドキュメントを入力する。なお、ドキュメント入力装置１０は、ユーザの選択操作に従って、ドキュメントを選出する処理も行い、選出したドキュメントを分析対象のドキュメントとして入力してもよい。

本実施形態において、ドキュメント入力装置１０が入力する各ドキュメントは、そのドキュメントが発信又は作成された日時等を示す時間情報が予め付与されているものとする。また、ドキュメント入力装置１０が入力する各ドキュメントには、後述するドキュメント特徴計算部２０にて各ドキュメントの特徴を計算するために必要となる情報、又はドキュメントの特徴を計算するために必要となる情報へのインデックス情報が、予めドキュメントと組として与えられているものとする。

ドキュメント入力装置１０が入力するドキュメントの例としては、特定の表現や命題が含まれるＷｅｂ日記やブログを集めたもの等がある。この場合、ドキュメントに予め付与されている時間情報は、各Ｗｅｂ日記やブログの年月日情報である。

ドキュメント特徴計算部２０は、例えば、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力した各ドキュメントに対して、そのドキュメントの特徴を示す特徴ベクトルを計算する機能を備える。例えば、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力するドキュメントの集合や、ドキュメント情報データベース３０が記憶する情報に基づいて、各ドキュメントに対する特徴ベクトルを算出する。

ここで、特徴ベクトルは、入力したドキュメントを分析する際の用途や目的に応じて、予め計算方法が定められた１次元以上のベクトルとする。なお、ベクトルの次元が１次元である場合には、１つのスカラ値で表現された特徴値となる。しかし、次元が２次元以上の特徴ベクトルと区別して表記する必要はないので、本実施形態では、以下、次元数が１次元（すなわち、実質スカラ値の特徴値となる）場合も含めて、特徴ベクトルと記す。

例えば、ドキュメント特徴計算部２０は、ドキュメントの特徴ベクトルを、各ドキュメントの言語解析結果や、題目、カテゴリ等のドキュメントに付与されたメタ情報、ドキュメントの発信者又は作成者に関する情報、ドキュメントの発信者又は作成者が発信／作成した他のドキュメントに関する情報等の情報を用いて計算する。

なお、ドキュメント特徴計算部２０が計算するドキュメントの特徴ベクトルの種類や性質に応じて、後述するタイムスライス特徴計算部４０が計算する各タイムスライスの特徴ベクトルの計算方法と、時系列特徴点検出部５０が計算するタイムスライスの特徴ベクトル間距離の計算方法とを設定する必要がある。具体的にどのようなドキュメントの特徴ベクトルと、タイムスライスの特徴ベクトルと、タイムスライス特徴ベクトル間の距離とを用いるかについては、後述する時系列特徴点検出部５０の説明で記述する。

ドキュメント情報データベース３０は、例えば、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。ドキュメント情報データベース３０は、ドキュメント入力装置１０が入力したドキュメント集合と、各ドキュメントに付与されている情報とを組として格納する。例えば、ドキュメント情報データベース３０は、時間情報や、題目、カテゴリ等のメタ情報、発信者又は作成者に関する情報、発信者又は作成者が発信／作成した他のドキュメントに関する情報に対応付けて、各ドキュメントを記憶する。なお、ドキュメント情報データベース３０は、ドキュメント特徴計算部２０が各ドキュメントの特徴ベクトルを計算する際に必要な情報を提供するデータベースである。

なお、ドキュメント特徴計算部２０が特徴ベクトルを計算する際に必要となる情報そのものが、ドキュメント入力装置１０によって各ドキュメントと組として入力されている場合には、ドキュメント入力装置１０は、その入力した情報をドキュメント特徴計算部２０に提供（出力）する。そして、ドキュメント特徴計算部２０は、ドキュメント入力装置１０から入力したドキュメントや情報に基づいて、ドキュメントに対する特徴ベクトルを算出する。

また、ドキュメント入力装置１０が各ドキュメントと組として入力する情報が、インターネット上のＵＲＬ等のドキュメントの出典やアクセス用のアドレスを示すインデックス情報である場合には、ドキュメント入力装置１０は、そのインデックス情報が示す先のサーバ等から必要な情報を読み出す。そして、ドキュメント入力装置１０は、読み出した情報をドキュメント特徴計算部２０に提供（出力）する。

例えば、ドキュメント入力装置１０が、ブログとそのブログのＵＲＬとを組として入力したとする。この場合、ドキュメント特徴計算部２０が各ブログ発信者のプロフィール情報を各ブログドキュメントの特徴ベクトル計算に使用する場合には、ドキュメント入力装置１０は、ＵＲＬを辿って、公開されているブログ発信者のプロフィール情報を取得（例えば、インターネットを介して受信）する。そして、ドキュメント入力装置１０は、取得したプロフィール情報をドキュメント特徴計算部２０に提供（出力）する。

なお、ドキュメントと組になっているインデックス情報が示す先のサーバ等から、ドキュメント特徴計算部２０が必要とする情報を読み出す処理は、ドキュメント特徴計算部２０から要求が来た時点で行ってもよい。また、ドキュメント入力装置１０にドキュメント集合が入力された時点で行ってもよい。

タイムスライス特徴計算部４０は、例えば、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。タイムスライス特徴計算部４０は、まず、ドキュメント入力装置１０が入力した時間情報つきドキュメント集合を、各ドキュメントに付与された時間情報を用いて、タイムスライス毎に分割する機能を備える。

なお、タイムスライスの時間幅は、本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて予め定めておく。例えば、特定の商品の発売後の様子等を分析したい場合には、情報分析装置は、１日をタイムスライスの時間幅として設定（例えば、設定情報を設定）しておく。そして、タイムスライス特徴計算部４０は、予め定めた設定情報に従って、１日毎に別のタイムスライスとして入力ドキュメント集合を分割する。

また、例えば、通年製品の大まかな季節毎の評判の変化等を見たい場合には、タイムスライス特徴計算部４０は、予め定めた設定情報に従って、１ヶ月を時間幅として、２００７年１月に作成されたドキュメント集合、２００７年２月に作成されたドキュメント集合、２００７年３月に作成されたドキュメント集合・・・のようなタイムスライスに分割してもよい。

さらに、タイムスライス特徴計算部４０は、タイムスライスの時間幅が前後のタイムスライスと完全に重ならない範囲で重なりをもつように、ドキュメント集合をタイムスライスに分割してもよい。例えば、タイムスライス特徴計算部４０は、２００７年１〜３月、３〜５月、５〜７・・・のような１月ずつ前後に重なりをもつタイムスライスに、ドキュメント集合を分割してもよい。

次いで、タイムスライス特徴計算部４０は、分割した全てのタイムスライスに対して、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて、タイムスライスの特徴を表す特徴ベクトルを計算する機能を備える。なお、タイムスライスの特徴ベクトル計算方法は、ドキュメント特徴計算部２０が計算するドキュメント特徴ベクトルの性質に応じて、予め設定しておく。そして、タイムスライス特徴計算部４０は、予め設定した設定情報に従って、タイムスライスの特徴ベクトルを算出する。

例えば、あるタイムスライスに属するドキュメントがｉ個存在するときに、ｉ個のドキュメントの特徴ベクトルから、そのタイムスライスの特徴を表すｍ個の特徴ベクトルを計算する手法が必要となる。なお、ここで、ｍは１以上の整数であり、一般にはｍ＜ｉとなる。また、ｍが２以上の時、ｍ個の特徴ベクトルをまとめて１つの特徴ベクトルととらえてもよい。このような集合の各要素が備える特徴ベクトルから、その集合の特徴を表す１つ以上の特徴ベクトルを計算する手法は、統計分析の分野で多数既存手法が公開されており、本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて適切な計算手法を定めればよい。

時系列特徴点検出部５０は、例えば、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。時系列特徴点検出部５０は、タイムスライス特徴計算部４０が計算した各タイムスライスの特徴ベクトルに基づいて、時間順に近接又は隣接した全てのタイムスライスのペアに対して、２つのタイムスライス間の特徴ベクトル距離を求める機能を備える。そして、時系列特徴点検出部５０は、求めたタイムスライス間の特徴ベクトル距離が一定の閾値を超えた箇所を特徴点として検出する機能を備える。

なお、ここで、距離の閾値や、タイムスライス間の特徴ベクトル距離を求める時間順に近接するタイムスライスのペアの範囲は、予め本発明による情報分析装置を用いた情報分析を実施する際の用途や目的に応じて設定する。例えば、近接するタイムスライスのペアの範囲を前後２組のタイムスライスと設定する（例えば、予め設定情報を設定しておく）。この場合、時系列特徴点検出部５０は、予め設定した設定情報に従って、タイムスライス１とタイムスライス２、タイムスライス１とタイムスライス３、タイムスライス２とタイムスライス３、タイムスライス２とタイムスライス４、タイムスライス３とタイムスライス４、タイムスライス３とタイムスライス５・・・のようなタイムスライス組で特徴ベクトル距離を計算する。

また、タイムスライスの特徴ベクトル距離の計算方法は、タイムスライス特徴計算部４０が計算する特徴ベクトルの種類や計算方法に応じて設定する（例えば、予め設定情報を設定しておく）。

図２は、情報分析装置が行うドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法の例を示す説明図である。図２に示す表では、各行がドキュメント特徴ベクトル、タイムスライス特徴ベクトルの計算方法、タイムスライス間距離の計算方法、及びその計算方法で検出される特徴点の性質・効果を示す組を示している。

図２の１行目には、ドキュメント入力装置１０に入力されたドキュメント集合の各ドキュメント内容に基づいて、ドキュメントの特徴ベクトルを計算する手法の例が示されている。図２の１行目に示す例では、ドキュメント特徴計算部２０は、各ドキュメントに対して、形態素解析、不要語処理、及び同義語処理を実行する。そして、ドキュメント特徴計算部２０は、その処理結果からワードベクトルを作成し、ドキュメントの特徴ベクトルとする。

また、特徴ベクトルの素性を単語よりも詳細な意味単位とする場合には、ドキュメント特徴計算部２０は、各ドキュメントに対して、形態素解析、係り受け解析、又は構文解析を行い、さらに必要に応じて、不要語処理や不要表現処理、同義表現処理を行う。そして、ドキュメント特徴計算部２０は、得られた言語解析結果から、各言語処理単位の有無や、出現頻度に基づいて、特徴ベクトルを計算する。

例えば、ドキュメント特徴計算部２０は、ある短いドキュメントの言語解析結果から、（携帯→買った）、（大変→難しい）、（操作→難しい）といった、３つの係り受け関係が得られた場合には、この３つの係り受け関係に対応する次元をそれぞれ１とする特徴ベクトルを生成する。なお、このようなドキュメントの言語解析結果に基づいて、特徴ベクトルを計算する手法自体は、ドキュメントの類似度計算等の分野で広く使用されている公知技術であり、本実施形態では詳細な説明を省略する。

また、図２の１行目に示す例では、タイムスライスの特徴ベクトルの計算方法として、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて、まずｍ個（ｍは１以上の整数）のクラスタにクラスタリングし、次いで各クラスタの代表ベクトルをｍ個求めて、それをまとめてタイムスライスの特徴ベクトルとする計算方法が挙げられている。本実施形態では、ドキュメントのクラスタリング手法や、各クラスタの代表ベクトルを求める手法は、特定の計算方法に限定しない。例えば、タイムスライス特徴計算部４０は、ｍ＝１とし、タイムスライスに属する全てのドキュメントの特徴ベクトルの重心を、そのタイムスライスの特徴ベクトルとする手法等を用いて、タイムスライスの特徴ベクトルと求める。

さらに、図２の１行目に示す例では、タイムスライスの特徴ベクトルが、ｍ個のクラスタの代表ベクトルをまとめたものであるときの、２つのタイムスライス間の特徴ベクトル距離を計算する方法が挙げられている。例えば、時系列特徴点検出部５０は、ｍ＝１の場合には、単純に特徴ベクトル同士のベクトル距離を求めればよい。また、例えば、時系列特徴点検出部５０は、ｍが２以上の場合には、まず各クラスタの代表ベクトルの類似度を基準に、２つのタイムスライス間でクラスタの対応付けを行う。そして、時系列特徴点検出部５０は、対応づけしたクラスタの代表ベクトル同士のベクトル距離を、クラスタの全対応付けに対して算出し、総和を求める。

時系列特徴点検出部５０は、このようなドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法の組合せを用いることで、分析対象とするドキュメントの各タイムスライスにおけるテキスト内容の変化が大きい時点を、特徴点として検出する。例えば、時系列特徴点検出部５０は、同じ「あるゲーム機を買った」という命題が記述されているドキュメントの集合であっても、初期の頃は「ゲームで遊んだ」といったテキスト内容が多いのに対して、ある時点から急に「ビデオプレーヤーとして使用」といったテキスト内容が多くなっている場合に、その変化が生じた時点を特徴点として検出する。

図２の２行目には、ドキュメント入力装置１０が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信／作成した他のドキュメント内容に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。図２の１行目に示す例では、ドキュメント特徴計算部２０が言語解析を行う対象として、ドキュメント入力装置１０が入力したドキュメントに代えて、そのドキュメントの情報発信者又は作成者が発信／作成した他のドキュメントを用いる点で、図２の１行目に示した例と異なる。

なお、図２の２行目に示した例において、後のドキュメント特徴ベクトルの計算方法や、タイムスライスの特徴ベクトルの計算方法、及びタイムスライス間距離の計算方法については、図２の１行目に示した例と同様である。

ただし、図２の２行目に示した例では、ドキュメント入力装置１０が入力したドキュメントの情報発信者又は作成者が発信／作成した他のドキュメントが複数存在する場合には、ドキュメント特徴計算部２０は、複数のドキュメントを１つの大きなドキュメントと見なして、ドキュメントの特徴ベクトルを計算する。又は、ドキュメント特徴計算部２０は、個々のドキュメントの特徴ベクトルを求めた後で、それらもとめた特徴ベクトルの重心ベクトルを、代表のドキュメント特徴ベクトルとして求める等の処理を行う。

なお、ドキュメント入力装置１０が入力したドキュメントの情報発信者又は作成者が発信／作成した他のドキュメント全てを、特徴ベクトルの計算対象とする必要はない。例えば、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力した元のドキュメントの時間情報を基準にして、その時間情報で示される時間よりも過去一定時間に発信／作成されたドキュメントのみを特徴ベクトル計算の対象として特徴ベクトルと求めてもよい。すなわち、ドキュメント特徴計算部２０は、そのように予め設定した条件に従って、特徴ベクトルの計算対象のドキュメントの選別を行ってもよい。

図２の２行目に示す計算方法では、ドキュメント特徴計算部２０は、分析対象とするドキュメントの発信者／作成者の傾向を、各発信者／作成者が他に発信／作成しているドキュメントの言語解析結果から求めている。さらに、ドキュメント特徴計算部２０は、求めた特徴ベクトルを、その各発信者／作成者が他に発信／作成しているドキュメントを分析対象とする元のドキュメントの特徴ベクトルとして使用する。

よって、図２の２行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信／作成する発信者／作成者がよく発信／作成するドキュメントの分野や内容が大きく変化した点を、特徴点として検出できる効果がある。従って、図２の２行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを発信／作成する人間が、興味をもって情報発信している内容に大きな変化があった時点を特徴点として検出できる。

図２の３行目には、ドキュメント入力装置１０が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が公開しているプロフィール情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。なお、図２の３行目に示した例において、ドキュメントの特徴ベクトルを求める以外の後の計算方法は、図２の２行目に示した方法と全く同様である。

例えば、ブログ等では、情報発信者のプロフィール情報が公開されている場合がある。例えば、特定の話題を取り扱っているブログを分析対象とする場合、ドキュメント入力装置１０は、入力した各ブログドキュメントのＵＲＬを、ドキュメント情報データベース３０が蓄積する情報を辿って、各ブログ発信者の公開プロフィール情報を読み出す。そして、ドキュメント入力装置１０は、読み出した公開プロフィール情報をテキストデータとしてドキュメント特徴計算部２０に与える（出力する）。

ドキュメント特徴計算部２０は、プロフィール情報を言語解析してワードベクトル、又は言語解析結果のベクトル表現を計算する。そして、ドキュメント特徴計算部２０は、求めたベクトルを、元のドキュメントと結びつけて、元の各ドキュメントの特徴ベクトルとして求める。

図２の３行目に示す計算方法では、ドキュメント特徴計算部２０は、分析対象とするドキュメントの発信者／作成者の傾向を、各発信者／作成者の公開するプロフィール情報から計算する。そして、ドキュメント特徴計算部２０は、その算出結果をさらに分析対象とする元のドキュメントの特徴ベクトルとして使用する。

よって、図２の３行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信／作成する発信者／作成者の興味や、性別、年齢等プロフィール情報に記述されているような傾向が大きく変化した点を、特徴点として検出できる効果がある。従って、図２の３行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを各タイムスライスで発信／作成する人間のプロフィール傾向に大きな変化があった時点を特徴点として検出できる。

図２の４行目には、ドキュメント入力装置１０が入力したドキュメント集合の各ドキュメントに付与されたカテゴリ情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。

例えば、ブログ等のインターネット上のコンテンツでは、ドキュメントに「グルメ」や「ゲーム」、「仕事」等の１つ以上のカテゴリが付与されている場合が多い。また、メールや報告書等の業務文書であっても、カテゴリに類するメタ情報が付与されている場合がある。図２の４行目に示す計算方法では、そうしたカテゴリに類するメタ情報を、ベクトル表現に直し、元のドキュメントの特徴ベクトルとして用いる。特徴ベクトルの作成方法は、各カテゴリ名を単語と見なして、ワードベクトルを作成する手法でよい。

図２の４行目に示すタイムスライスの特徴ベクトルの計算方法やタイムスライス間距離の計算方法は、タイムスライス特徴計算部４０が、図２の１行目や２行目に示す手法でｍ＝１の場合にタイムスライスの特徴ベクトルやタイムスライス間距離を求める方法と同様である。

図２の４行目に示す計算方法では、ドキュメント特徴計算部２０は、分析対象とするドキュメントに対して、その発信者／作成者が付与したカテゴリ情報を元のドキュメントの特徴ベクトルとして使用する。よって、図２の４行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析分析対象とするドキュメント集合が多く属するカテゴリ傾向が大きく変化した時点を、特徴点として検出する効果がある。従って、図２の４行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントの発信者／作成者がどのようなカテゴリ分けをするか、その傾向の差異が生じた時点を検出できる。

図２の５行目には、ドキュメント入力装置１０が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信／作成した他のドキュメントに付与されたカテゴリ情報に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。

図２の５行目に示す例では、ドキュメント特徴計算部２０が特徴ベクトル計算の元とする情報として、他のドキュメントに付与されたカテゴリ情報を用いる点で、図２の１行目に示した例と異なる。なお、図２の２行目に示した例において、後のドキュメント特徴ベクトルの計算方法や、タイムスライスの特徴ベクトルの計算方法、及びタイムスライス間距離の計算方法については、図２の１行目に示した例と同様である。

図２の５行目に示す例では、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力したドキュメントの情報発信者又は作成者が発信／作成した他のドキュメントが複数存在する場合には、個々のドキュメントのカテゴリ情報から特徴ベクトルを計算する。そして、ドキュメント特徴計算部２０は、最後に求めた特徴ベクトルの総和や重心を新たな特徴ベクトルとして求める。

なお、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力したドキュメントの情報発信者又は作成者が発信／作成した他のドキュメント全てのカテゴリ情報を、特徴ベクトルの計算対象とする必要はない。例えば、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力した元のドキュメントの時間情報を基準にして、その時間情報で示される時間よりも過去一定時間に発信／作成されたドキュメントのカテゴリ情報のみを特徴ベクトル計算の対象として特徴ベクトルと求めてもよい。すなわち、ドキュメント特徴計算部２０は、そのように予め設定した条件に従って、選別を行ってもよい。

図２の５行目に示す計算方法では、ドキュメント特徴計算部２０は、分析対象とするドキュメントの発信者／作成者の傾向を、各発信者／作成者が他に発信／作成しているドキュメントのカテゴリ情報に基づいて計算する。そして、ドキュメント特徴計算部２０は、求めた特徴ベクトルを、その各発信者／作成者が他に発信／作成しているドキュメントを分析対象とする元のドキュメントの特徴ベクトルとして使用する。

よって、図２の２行目に示す方法を用いれば、分析対象とする元のドキュメント内容の変化が特徴点として検出されるのではなく、分析対象とするドキュメントを発信／作成する発信者／作成者がよく発信／作成するドキュメントのカテゴリが大きく変化した点を、特徴点として検出できる効果がある。従って、図２の５行目に示す計算方法により、例えば、同じ話題を取り扱っているドキュメントであっても、そうした分析対象となるドキュメントを発信／作成する人間が、興味を持って情報発信している分野に大きな変化があった時点を特徴点として検出できる。

図２の６行目には、ドキュメント入力装置１０が入力したドキュメントの情報発信者又は作成者がそのドキュメントを発信／作成する以前に発信／作成した他のドキュメントが、ドキュメント入力装置１０が入力した分析対象とするドキュメント集合に含まれているか否かを求めて、その求めた結果を元のドキュメントの特徴ベクトルとして使用する手法の例が示されている。

図２の６行目に示す例では、ドキュメント特徴計算部２０は、情報発信者又は作成者が以前に発信／作成した他のドキュメントが分析対象とするドキュメント集合に含まれているか否かを判定するため、ドキュメント特徴計算部２０は、求める特徴ベクトルを１又は０の２値で表現してもよい。又は、ドキュメント特徴計算部２０は、情報発信者又は作成者が以前に発信／作成した他のドキュメントが含まれているドキュメント数を計数して、含まれていなかった場合には０とし、含まれていた場合にはその数を元のドキュメントの特徴ベクトル（次元数は１）として求めてもよい。

なお、図２の６行目に示した例において、後のタイムスライスの特徴ベクトルの計算方法や、及びタイムスライス間距離の計算方法については、図２の６行目の各項目に示すとおりである。例えば、タイムスライス特徴計算部４０は、各タイムスライスに属するドキュメント集合のうち、新規のドキュメントの数又は新規のドキュメントの割合を求めることによって、タイムスライスの特徴ベクトルを求める。なお、新規のドキュメントとは、その情報発信者／作成者が過去に発信／作成したドキュメントが入力ドキュメントに含まれていないドキュメントのことである。また、例えば、タイムスライス特徴計算部４０は、２つのタイムスライス間での新規ドキュメントの数又は新規ドキュメントの割合の差分を求めたり、新規ドキュメントの数又は新規ドキュメントの割合の比を求めることによって、タイムスライス間距離を求める。

図２の６行目に示す計算方法では、このようなドキュメントの特徴ベクトルを用いることで、例えば、特定の話題や命題を含むドキュメント集合を分析する際に、初めてその話題や命題について触れた新規発信者／作成者のドキュメントが多いのか否かの傾向を調べ、その変化が大きい点を特徴点として検出できる。

本実施形態では、以上の計算方法に従って、情報分析装置は、ドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離を算出する。

なお、図２に示すドキュメントの特徴ベクトル、タイムスライスの特徴ベクトル、及びタイムスライス間距離の計算方法は、可能な組合せの一例であり、情報分析装置は、他の特徴ベクトルの処理手順を用いて、ドキュメントの特徴ベクトルや、タイムスライスの特徴ベクトル、及びタイムスライス間距離を求めてもよい。また、情報分析装置は、図２に示す計算方法を複数組み合わせて、ドキュメントの特徴ベクトルや、タイムスライスの特徴ベクトル、及びタイムスライス間距離を求めてもよい。

例えば、図２の２行目に示す方法は、上述したように、ドキュメント入力装置１０が入力したドキュメント集合の各ドキュメントの情報発信者又は作成者が発信／作成した他のドキュメント内容に基づいて、特徴ベクトルを計算し、その求めた特徴ベクトルを元のドキュメントの特徴ベクトルとして使用する手法である。この場合に、ドキュメント特徴計算部２０は、分析対象となる元のドキュメントの発信者又は作成者が発信／作成した他のドキュメントに代えて、ハイパーリンクやトラックバック等の手法で元のドキュメントを参照しているドキュメントを用いて、元のドキュメントの特徴ベクトルを計算する手法等を用いてもよい。

出力装置６０は、例えば、ディスプレイ装置等の表示装置によって実現される。また、出力装置６０は、例えば、プリンタ等の印刷装置によって実現されてもよい。また、出力装置６０は、例えば、情報処理装置の入出力インタフェース部によって実現され、出力情報をファイルとして出力するものであってもよい。

出力装置６０は、時系列特徴点検出部５０の指示に従って、時系列特徴点検出部５０が検出した特徴点として、タイムスライス間の特徴ベクトル距離が閾値を超えたタイムスライスの時間情報を出力する機能を備える。この場合、出力装置６０は、出力する時間情報として、時間順で古い方のタイムスライスの開始時点及び終了時点と、新しい方のタイムスライスの開始時点及び終了時点と、それらの中点の時間情報のうちのいずれか、又は全部を出力してもよい。

さらに、出力装置６０は、特徴点の時間情報を出力するだけでなく、タイムスライス特徴計算部４０の指示に従って、タイムスライス特徴計算部４０が検出したタイムスライス間の特徴ベクトル距離や、タイムスライスの特徴ベクトルの情報をあわせて出力してもよい。

また、出力装置６０は、時系列特徴点検出部５０が検出した特徴点が複数存在する場合には、それらの全てを出力してもよい。又は、出力装置６０は、特徴ベクトル距離が大きい方から上位ｎ個、時間順で古い方からｎ個、又は時間順で新しい方からｎ個等、任意の設計基準に従って、ｎ個だけ選択して出力してもよい。

本実施形態では、情報分析装置は、以上に示す構成を備えることで、分析対象とするドキュメントの数や、全ドキュメント母集団の数の時系列変化によらない特徴点を検出することができる。

なお、本実施形態において、図１に示す情報分析装置の各コンポーネントは、それぞれの機能を制御するプログラムとして実現されてもよい。例えば、情報分析装置を実現する情報処理の記憶装置は、ドキュメント等の情報を分析するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、タイムスライスの特徴を示す情報の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを実行させるための情報分析用プログラムを記憶している。

また、これらの情報分析用プログラムは、ＣＤ−ＲＯＭやフレキシブルディスク等の機械読み取り可能な記録媒体に記憶され、又はインターネット等のネットワークを通して提供されてもよい。そして、情報分析装置は、これらの情報分析用プログラムが計算機（コンピュータ）等に読み込まれて実行されることによって実現されるものとしてもよい。

次に、動作について説明する。図３は、情報分析装置が実行する処理の一例を示すフローチャートである。図３に示すように、まず、情報分析装置のドキュメント入力装置１０は、分析対象とする時間情報つきドキュメント集合を入力する（ステップＳ１）。例えば、ドキュメント入力装置１０は、ユーザによるキーボードやマウス等の入力デバイスを用いた操作指示に従って、ハードディスク等の大容量記憶装置やインターネット等のネットワークに接続されたネットワークインタフェース等を通してドキュメントの集合を入力する。

次いで、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力するドキュメントの集合や、ドキュメント情報データベース３０が記憶する情報に基づいて、各ドキュメントの特徴を示す特徴ベクトルを計算する（ステップＳ２）。

次いで、タイムスライス特徴計算部４０は、各ドキュメントの時間情報に基づいて、時間順に複数のタイムスライスに、ステップＳ１で入力したドキュメント集合を分割する（ステップＳ３）。なお、図３に処理手順では、ステップＳ２，Ｓ３の順序で処理を実行する場合を示しているが、情報分析装置は、このステップＳ２，Ｓ３のいずれを先に実行してもよい。

次に、タイムスライス特徴計算部４０は、タイムスライス毎に、タイムスライスの特徴ベクトルを、各タイムスライスに属するドキュメントの特徴ベクトルに基づいて計算する（ステップＳ４）。

次いで、時系列特徴点検出部５０は、近接又は隣接するタイムスライス間の特徴ベクトル距離を計算する（ステップＳ５）。そして、時系列特徴点検出部５０は、特徴間距離の大きいタイムスライスの時間情報を特徴点として求め、求めた特徴点を出力装置６０に出力させる（ステップＳ６）。

以上に示す処理に従って、情報分析装置は、入力したドキュメントの集合を分析し、ドキュメントの特徴点を検出する。

以上のように、本実施形態によれば、ユーザが着目する特定の単語や話題を表す表現が含まれている等、ユーザがある基準で分析対象として選出したドキュメントの集合を、各ドキュメントに付与されている時間情報に従って時間順に並べて時系列分析を行う。本実施形態によれば、この際に、ドキュメント内容の統計的傾向に変化が生じた時点や、各ドキュメントの発信者又は作成者の背景に変化が生じた時点を、ドキュメントの特徴が大きく変化した特徴点として検出することができる。

具体的には、ドキュメントの特徴を判断可能な情報として、ドキュメントの数だけでなく、そのドキュメントのテキスト内容や、タイトル、カテゴリ等のメタ情報、さらには、各ドキュメントの発信者又は作成者に関する情報を取得できる場合がある。そのため、本実施形態では、情報分析装置は、そのような情報を用いて、各ドキュメントの特徴を計算する。そして、情報分析装置は、タイムスライス毎に、そのタイムスライスに属するドキュメントの特徴を比較して、差分の大きいタイムスライスとタイムスライスとの間の時点を、時系列的な特徴点として検出する。そのような処理を行うことによって、ドキュメント内容の統計的傾向に変化が生じた時点や、各ドキュメントの発信者又は作成者の背景に変化が生じた時点を、ドキュメントの特徴が大きく変化した特徴点として検出することができる。

従って、本実施形態によれば、話題語の出現数にかかわらず、ドキュメントの特徴が大きく変化した時点を特徴点として検出することができる。

次に、本発明による情報分析装置の最小構成について説明する。図４は、情報分析装置の最小の構成例を示すブロック図である。図４に示すように、情報分析装置は、最小の構成要素として、ドキュメント入力装置１０、ドキュメント特徴計算部２０、タイムスライス特徴計算部４０、及び時系列特徴点検出部５０を含む。

また、図４に示す最小構成の情報分析装置において、ドキュメント入力装置１０は、時間情報が付与された時間情報つきドキュメントの集合を入力する機能を備える。また、ドキュメント特徴計算部２０は、ドキュメント入力装置１０が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報（特徴ベクトル）を計算する機能を備える。また、タイムスライス特徴計算部４０は、ドキュメント入力装置１０が入力した時間情報つきドキュメントを分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算部２０が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報（特徴ベクトル）を計算する機能を備える。また、時系列特徴点検出部５０は、タイムスライス特徴計算部４０の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する機能を備える。

なお、上記の実施形態では、以下の（１）〜（８）に示すような情報分析装置の特徴的構成が示されている。

（１）情報分析装置は、時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段（例えば、ドキュメント入力装置１０によって実現される）と、入力手段が入力した時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報（例えば、特徴ベクトル）を計算するドキュメント特徴計算手段（例えば、ドキュメント特徴計算部２０によって実現される）と、入力手段が入力した時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対してドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報（例えば、特徴ベクトル）を計算するタイムスライス特徴計算手段（例えば、タイムスライス特徴計算部４０によって実現される）と、タイムスライス特徴計算手段の計算結果に基づいて、タイムスライスの特徴間の距離を計算し、計算したタイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段（例えば、時系列特徴点検出部５０によって実現される）とを備えたことを特徴とする。

（２）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。

（３）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算するものであってもよい。

（４）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。

（５）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算するものであってもよい。

（６）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算するものであってもよい。

（７）ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、ドキュメント入力手段が入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。

（８）ドキュメント特徴計算手段は、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算するものであってもよい。

本発明は、Ｗｅｂ日記やブログ等のインターネット上で公開された時間情報つきドキュメントのうち、ユーザが着目する特定の条件を満たすドキュメント集合の時系列分析を行う用途に利用可能である。特に、ユーザが着目する特定の条件を満たすドキュメント集合を充分集めることができれば、その絶対数の時間変化を求めることができなくとも、着目するドキュメント集合の性質が大きく変化する時点を、特徴点として検出することでマーケティング分析等の目的に応用できる。また、本発明は、電子メールや報告書等の時間情報つき社内文書を時系列分析する用途に利用可能である。特に、社内プロジェクトの性質が変化した時点を求めることで、プロジェクト運用の見直しや改良を目的とした分析等に応用できる。

本発明による情報分析装置の構成の一例を示すブロック図である。情報分析装置が行うドキュメント特徴ベクトル、タイムスライス特徴ベクトル、及びタイムスライス間距離の計算方法の例を示す説明図である。情報分析装置が実行する処理の一例を示すフローチャートである。情報分析装置の最小の構成例を示すブロック図である。

符号の説明

１０ドキュメント入力装置
２０ドキュメント特徴計算部
３０ドキュメント情報データベース
４０タイムスライス特徴計算部
５０時系列特徴点検出部
６０出力装置

Claims

時間情報が付与された時間情報つきドキュメントの集合を入力する入力手段と、
前記入力手段が入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算手段と、
前記入力手段が入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して前記ドキュメント特徴計算手段が計算した特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算手段と、
前記タイムスライス特徴計算手段の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出手段とを
備えたことを特徴とする情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項１記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項１又は請求項２記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項１から請求項３のうちのいずれか１項に記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する請求項１から請求項４のうちのいずれか１項に記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項１から請求項５のうちのいずれか１項に記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、ドキュメント入力手段が入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する請求項１から請求項６のうちのいずれか１項に記載の情報分析装置。
ドキュメント特徴計算手段は、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項１から請求項７のうちのいずれか１項に記載の情報分析装置。
時間情報が付与された時間情報つきドキュメントの集合を入力する入力ステップと、
入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算ステップと、
入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算ステップと、
前記タイムスライスの特徴を示す情報の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出ステップとを
含むことを特徴とする情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項９記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項９又は請求項１０記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項９から請求項１１のうちのいずれか１項に記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する請求項９から請求項１２のうちのいずれか１項に記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する請求項９から請求項１３のうちのいずれか１項に記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する請求項９から請求項１４のうちのいずれか１項に記載の情報分析方法。
ドキュメント特徴計算ステップで、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する請求項９から請求項１５のうちのいずれか１項に記載の情報分析方法。
コンピュータに、
時間情報が付与された時間情報つきドキュメントの集合を入力する入力処理と、
入力した前記時間情報つきドキュメントの集合に属する各ドキュメントに対して、各ドキュメントの特徴を示す情報を計算するドキュメント特徴計算処理と、
入力した前記時間情報つきドキュメントの集合を時間情報に基づいて分割したタイムスライス毎に、各タイムスライスに属する各ドキュメントに対して計算したドキュメントの特徴を示す情報に基づいて、各タイムスライスの特徴を示す情報を計算するタイムスライス特徴計算処理と、
前記タイムスライスの特徴を示す情報の計算結果に基づいて、前記タイムスライスの特徴間の距離を計算し、計算した前記タイムスライスの特徴間の距離が予め定められた閾値を超えるタイムスライスの組を特徴点として検出する時系列特徴点検出処理とを
実行させるための情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
請求項１７記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者がドキュメントに付与した属性情報に基づいて、ドキュメントの特徴を計算する処理を実行させる
請求項１７又は請求項１８記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者のプロフィールを示すプロフィール情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
請求項１７から請求項１９のうちのいずれか１項に記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントのテキスト内容に基づいて、ドキュメントの特徴を計算する処理を実行させる
請求項１７から請求項２０のうちのいずれか１項に記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が発信又は作成した他のドキュメントに、前記発信者又は作成者が付与した属性情報に基づいて、ドキュメントの特徴を計算する処理を実行させる
請求項１７から請求項２１のうちのいずれか１項に記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントの発信者又は作成者が各ドキュメントを発信又は作成する以前に発信又は作成した他のドキュメントが、入力したドキュメントの集合に含まれているか否かに基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
請求項１７から請求項２２のうちのいずれか１項に記載の情報分析用プログラム。
コンピュータに、
ドキュメント特徴計算処理で、各ドキュメントのテキスト内容又は各ドキュメントに付加されているメタ情報に基づいて、ドキュメントの特徴を示す情報を計算する処理を実行させる
請求項１７から請求項２３のうちのいずれか１項に記載の情報分析用プログラム。