JP3813837B2

JP3813837B2 - データ分析装置及びデータ分析方法並びにプログラム

Info

Publication number: JP3813837B2
Application number: JP2001157198A
Authority: JP
Inventors: 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-05-25
Filing date: 2001-05-25
Publication date: 2006-08-23
Anticipated expiration: 2021-05-25
Also published as: JP2002351899A; US20020178155A1

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストデータ及び時間情報を含むドキュメントを分析するデータ分析装置及びデータ分析方法に関する。
【０００２】
【従来の技術】
データの電子媒体上への格納が進むに連れて、蓄積されている大量のデータの中から必要な情報を効率よく抽出することが必要になってきている。
【０００３】
この問題に対して、特開２００１−２２７７６（以下、文献１）に開示されたルール生成結果通知システムでは、ある時点においてデータベースに格納されているデータを入力として与えることにより、データに内在する規則性を発見する一方、別時点において同様に規則性を発見し、それら規則性を比較することによって、時間変化に伴う規則性の推移を示すことができるようになっている。
【０００４】
一方、「対話タスクモデルのサンプル単語時系列からの自己組織化」、電子情報通信学会Ｊ８３−Ｄ−ＩＩ、Ｎｏ．２、ｐ．８２７−８３９（２０００年）（以下、文献２）に開示された技術では、単語時系列とその応答を示す単語からなるデータを多数集めることにより、単語時系列とその応答を示す単語との間の関係をネットワーク構造にモデル化することができる。また、当該モデルを利用することにより、新たに与えられた単語時系列に対応する応答を示す単語を予測することができる。
【０００５】
また、特開平１１−１２３１９８（以下、文献３）に開示されたデータ処理装置では、時系列データを与えることにより、時系列データを意味のある単位に分割し、意味的に類似した単位ごとにモデルを学習することができる。また、当該モデルを利用することにより、新たに与えられた時系列データに対応する次の結果を予測することができる。
【０００６】
【発明が解決しようとする課題】
文献１に開示された従来技術では、変化した規則をユーザに提示するだけであり、時間変化に伴って発生する現象を予測することはできなかった。また、文献２に開示された従来技術では、時系列データの一種である単語時系列を獲得する方法に関しては示されておらず、問題に応じて単語時系列の生成方法を設計する必要がある。また、文献３に開示された従来技術では、学習されるモデルがパターンに基づいてなされているため、モデルの意味を直感的に理解することができず、かつまた、時系列データに対する意味付けが明示的になされていないため、予測結果に意味付けを与えることができなかった。
【０００７】
本発明は、上記事情を考慮してなされたもので、蓄積されたテキストデータ及び時間情報を含むドキュメントの集合から、規則性をモデル化するためのもととなる、単語（概念）時系列モデルを生成可能にするデータ分析装置及びデータ分析方法並びにプログラムを提供することを目的とする。
【０００８】
また、本発明は、時間系列の中で与えられるテキストデータに対して、その一連のテキストデータに従って発生する結果を示す規則性をモデル化することを可能にするためのデータ分析装置及びデータ分析方法並びにプログラムを提供することを目的とする。
【０００９】
また、本発明は、獲得されたモデルを利用することにより、時間情報を含んだ新たなテキストデータに対して、その後に発生する結果を予測し、ユーザの意思決定を支援することを可能にするためのデータ分析装置及びデータ分析方法並びにプログラムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明に係るデータ分析装置は、テキストデータと、時間情報と、時間情報以外の１又は複数の属性情報とを含むドキュメントの集合を格納するためのドキュメント格納手段と、前記ドキュメントのテキストデータから抽出すべきキー概念を含むキー概念辞書を格納するためのキー概念辞書格納手段と、前記属性情報に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、時間的に推移する一連のドキュメントであって最終結果を与えるものを含む部分集合を、複数選択するための選択手段と、選択された複数の前記部分集合の各々ごとに、前記キー概念辞書に基づいて、当該部分集合に属する複数のドキュメントの各々から、キー概念を抽出するための第１の抽出手段と、選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から、前記時間情報を抽出するための第２の抽出手段と、選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から抽出された前記キー概念及び該複数のドキュメントの各々に含まれる前記時間情報に基づいて、キー概念の時系列的な遷移を示す時系列データと該時系列データに対応する分類クラスとを含む概念時系列データを生成するための概念時系列データ生成手段と、選択された複数の前記部分集合の各々から生成された、複数の前記概念時系列データをもとにして、前記キー概念によって特徴付けられた有向アーク及び前記分類クラスによって特徴付けられた最終ノードを持つネットワーク表現によって構成されたモデルを生成するためのモデル生成手段とを備えたことを特徴とする。
【００１４】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムとしても成立し、該プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【００１５】
本発明によれば、蓄積されたテキストデータ及び時間情報を含むドキュメントの集合から、規則性をモデル化するためのもととなる、単語（概念）時系列モデルを生成することが可能になる。
【００１６】
また、本発明によれば、時間的に推移する一連のテキストデータの中から抽出されたキー概念の系列から、キー概念間の関係を記述するモデルを獲得することができる。
【００１７】
また、本発明によれば、時間的に推移する一連のテキストデータの中から抽出されたキー概念の系列と一連のテキストデータの最後に抽出されるキー概念の系列を分類する分類クラスから、キー概念の系列とその分類クラスの関係を記述するモデルを獲得することができる。
【００１８】
また、本発明によれば、獲得したモデルに基づいて、一連の新たなテキストデータから、引き続いて発生すると考えられるキー概念あるいは分類クラスを予測することができ、ユーザの意思決定を支援することができる。
【００１９】
例えば、営業日報等の日々蓄積されるテキストデータに対して、時系列的な内容の推移に基づいて将来を予測するモデルを抽出し、そのモデルを利用した予測を行うことにより、利用者の意思決定を支援することができる。
【００２０】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【００２１】
（第１の実施形態）
図１に、本発明の第１の実施形態に係る時系列テキストデータ分析装置の構成例を示す。図１に示されるように、本時系列テキストデータ分析装置は、ドキュメント格納部１、キー概念辞書格納部２、概念抽出部３、ドキュメント時間抽出部４、概念時系列データ生成部５、概念時系列モデル学習部６、概念時系列モデル格納部７を備えている。
【００２２】
この時系列テキストデータ分析装置は、ソフトウェアによって実現することができる（すなわち計算機上でプログラムを実行する形で実現することができる）。その際、そのソフトウェアの一部または全部の機能をチップ化あるいはボード化して該計算機に組み込んで実現することもできる。また、この時系列テキストデータ分析装置は、ソフトウェアによって実現する場合には、他のソフトウェアの一機能として組み込むようにすることも可能である。また、この時系列テキストデータ分析装置を専用のハードウェアとして構成することも可能である。
【００２３】
ドキュメント格納部１、キー概念辞書格納部２、概念時系列モデル格納部７は、いずれも、例えばハードディスクや光ディスクや半導体メモリなどの記憶装置によって構成される。なお、各記憶部は、別々の記憶装置によって構成されていてもよいし、それらの全部または一部が同一の記憶装置によって構成されていてもよい。
【００２４】
なお、図１では省略しているが、時系列テキストデータ分析装置は、外部とデータをやり取りするための入出力装置を備えている。もちろん、ＧＵＩ（グラフィカル・ユーザ・インタフェース）を備えてもよいし、ネットワーク接続インタフェースを備えてもよい。
【００２５】
ドキュメント格納部１に格納されるドキュメントは、それぞれ、テキストデータと、時間情報と、１又は複数の属性を含む。具体的には、小売業務における販売員の営業活動及び商品の売上動向を記載した時間的に推移する一連のテキスト、ヘルプデスク業務における顧客からの様々な問い合わせと回答内容を記載した時間的に推移する一連のテキストなど、種々の分野あるいは目的に適用可能である。
【００２６】
以下、本時系列テキストデータ分析装置による処理について説明する。
【００２７】
図２に、本時系列テキストデータ分析装置の処理手順の一例を示す。
【００２８】
ここで、具体例として、ドキュメント格納部１には、図３に示すドキュメントの集合が格納されているものとする。なお、ｔ１〜ｔ２１は、各ドキュメントの通し番号である。
【００２９】
まず、ステップＳ１１においては、ドキュメント格納部１に格納されているドキュメントを概念抽出部３に渡し、ドキュメントに付随する特徴に基づいて、関連するドキュメントからなるドキュメント部分集合を生成する。
【００３０】
例えば、ドキュメントの特徴として、「相手先」、「担当」を選択した場合、「相手先」と「担当」とからなる組が一致するドキュメントごとに関連するドキュメントの集合を収集する。この場合、図３のドキュメントの集合から、図４〜図７に示す４種類のドキュメントの部分集合が生成される。
【００３１】
なお、この関連するドキュメントを分類するキーは、例えば、外部から指定するようにしてもよい。また、クラスタリング手法を利用して、関連するドキュメントを集めるようにすることも可能である。その他にも、種々の方法が考えられる。
【００３２】
ステップＳ１２においては、概念抽出部３は、ステップＳ１１で得られたドキュメントの部分集合の各々ごとに、当該ドキュメントの部分集合に属する各ドキュメントに付随する時間に関する情報（図３の例では、項目名「日時」の年月日のデータ）（例えば、当該ドキュメントが作成された年月日（年月日時分）、あるいは当該ドキュメントの本文に関係する年月日（年月日時分））を参照することにより、時間の早い順にドキュメントの並べ替えを行う。なお、図４〜図７の例においては、既にドキュメントは時間順に整列されているので、並べ替えによるドキュメントの格納位置の変更は発生しない。
【００３３】
ステップＳ１３においては、概念抽出部３は、ドキュメントの部分集合を一つ取り出す。このとき、取り出すドキュメントの部分集合が存在しなければ、ステップＳ１９に処理を進める。一方、取り出すドキュメントの集合が存在する場合には、ステップＳ１４に処理を進める。例えば、図４のドキュメント部分集合が取り出されたとする。
【００３４】
ステップＳ１４においては、概念抽出部３は、取り出したドキュメントの部分事例集合の中から、上から順に、ドキュメントを一つ取り出す（すなわち、時間の早い順に取り出されることになる）。このとき、取り出すドキュメントがない場合には、ステップＳ１７に処理を進める。一方、取り出すドキュメントがある場合には、ステップＳ１５に処理を進める。例えば、図４のドキュメント部分集合から、その先頭のドキュメントｔ１が取り出されたとする。
【００３５】
ステップＳ１５においては、概念抽出部３は、ステップＳ１４にて取り出されたドキュメントに対して、形態素解析を適用して、ドキュメントを形態素に分割する。図８のｌ１に、この結果の一例を示す（なお、ｌ１〜ｌ５は、各ドキュメントを形態素解析した結果の通し番号である）。例えば、図４のドキュメントの部分集合の先頭のドキュメントｔ１の項目「本文」の内容（すなわち、“製品の売り込みに行ったところ手応えがあった。”）に対して、形態素解析を実施することにより、図８のｌ１に示す形態素の集合（すなわち、「製品」、「の」、「売り込み」、「に」、「行く」、「ところ」、「手応え」、「が」、「ある」、「。」）が得られる。
【００３６】
ステップＳ１６においては、概念抽出部３は、キー概念辞書格納部２に格納されているキー概念辞書とステップＳ１５にて形態素解析された結果とを利用して、当該ドキュメントに対応する特徴を抽出して、当該ドキュメントに割り当てる。
【００３７】
例えば、キー概念辞書格納部２に、図９に例示するキー概念辞書が格納されているものとして、図８のｌ１に示す形態素の集合に基づいて特徴を求める場合を考える。このとき、概念クラス「状況」、キー概念「売り込み」、表層表現「売り込み」が、形態素の集合の「売り込み」と一致するので、特徴「売り込み」が抽出される。また、概念クラス「印象」、キー概念「良好」、表層表現「手応えがある」が、形態素の集合の「手応え」、「が」、「ある」と一致するので、特徴「良好」が抽出される。図１０に、この結果の一例を示す（なお、ｃ１〜ｃ５は、ドキュメントに対して生成される特徴量の集合の通し番号である）。
【００３８】
以上は、繰り返し処理となり、図４の他のドキュメントについても同様に処理が行われる（図８のｌ２〜ｌ５、図１０のｃ２〜ｃ５がこれに対応する）。
【００３９】
さて、一つのドキュメント部分集合に属するすべてのドキュメントについて特徴の抽出が行われたならば、ステップＳ１４からステップＳ１７に移ることになる。
【００４０】
ステップＳ１７においては、概念時系列データ生成部５は、当該一つのドキュメント部分集合における時間的に最後のドキュメントを除いたドキュメントの集合に対して生成された特徴の集合と、ドキュメントに割り当てられている「時間」とを利用して、時系列データを生成する。なお、ドキュメントに割り当てられている「時間」は、ドキュメント時間抽出部４により与えられる。
【００４１】
なお、ここでは、一例として、１日を基準として時系列データを生成するものとする。
【００４２】
例えば、図４のドキュメントの部分集合の各ドキュメントに対して図１０に例示する特徴量の集合が生成されているとすると、最後の特徴量の集合（ｃ５）を除いた特徴量に対して、時系列データが生成される。すなわち、最初のドキュメントの時間を基準とし、特徴量の与えられている日には、特徴量の集合を与え、特徴量が与えられていない日には、特徴量が与えられていないことを示すデータ（例えば「しない」）を与えることにより、時系列データを生成する。
【００４３】
この場合、図４のドキュメントの部分集合に対しては、図１１（ｗ１〜ｗ４は、時系列データと分類クラスを組とした訓練事例の通し番号である）に例示する番号ｗ１に対応する時系列データが生成される。この時系列データにおいて、特徴量の後に書かれている数値（例えば、（売り込み，良好）／１における１）が、当該特徴量が連続する回数を表している。
【００４４】
ステップＳ１８においては、概念時系列データ生成部５は、当該ドキュメントの部分集合における時間的に最後のドキュメントを利用して、ステップＳ１７にて生成された時系列データに対応する分類クラスを生成する。なお、ドキュメントに割り当てられている「時間」は、ドキュメント時間抽出部４により与えられる。
【００４５】
例えば、図４のドキュメントの部分集合から生成された図１０の特徴量の集合において、番号ｃ５の特徴量が最後の特徴量となるので、「受注成功」が分類クラスとなる。この場合、図１１に例示する番号ｗ１に対応する分類クラスが生成される。
【００４６】
なお、これまでと同様の手順が、図５〜図７のドキュメントの部分集合に対しても実行され、ステップＳ１３で処理ループを抜けた時点で、図１１の時系列データと分類クラスの組が完成することになる（図１１において番号ｗ２〜ｗ４の時系列データと分類クラスの組がそれぞれ図５〜図７に対応する）。
【００４７】
ところで、上記の手順例では、時系列データとその分類クラスを生成する際に、時間的に最後のドキュメントから分類クラスを生成していたが、時間的に一連のドキュメントに対して、ユーザが分類クラスを指定するよう構成することも可能である。このような場合には、最後のドキュメントに対しても時系列データが生成されるようにして構わない。
【００４８】
さて、ステップＳ１９においては、概念時系列モデル学習部６は、図１１に例示したような時系列データと分類クラスの組をもとに、モデルの自己組織化を行う。モデルの自己組織化が終了したら、当該モデルを概念時系列モデル格納部７に格納して、本モデル化処理を終了する。
【００４９】
モデルの自己組織化の手法としては、ここでは、文献「対話タスクモデルのサンプル単語時系列からの自己組織化」、電子情報通信学会Ｊ８３−Ｄ−ＩＩ、Ｎｏ．２、ｐ．８２７−８３９（２０００年）に開示されている拡張画像オートマトンの自己組織化法を利用することができる。この手法は、６つの基本ルールと時系列データ間の関係に関する２種類の背景知識を利用することにより、モデルを自己組織化するものである。この手法を、時系列データとその分類クラスからなるデータに適用することによって、ネットワーク構造を持つモデルを自己組織化することができる。
【００５０】
例えば、図１１の４種類の時系列データと分類クラスの組が順に与えられるとすると、図１２のモデルを得ることができる。ここで、Ａａ１〜Ａａ１３は、概念時系列モデル格納部７に格納されるモデルを構成する通常アーク（意味的に類似した複数の単語を格納するアーク）を示す番号であり、Ａｂ１，Ａｂ２は、概念時系列モデル格納部７に格納されるモデルを構成するナル遷移アーク（単語を格納しないアーク）を示す番号であり、Ｎａ１〜Ｎａ６は、概念時系列モデル格納部７に格納されるモデルを構成する途中ノード（複数のアークの入力及び出力を可能としたノード）を示す番号であり、Ｎｂ１〜Ｎｂ３は、概念時系列モデル格納部７に格納されるモデルを構成する終了ノード（複数のアークの入力及び単語時系列に対応した応答の格納を可能としたノード）を示す番号である。
【００５１】
ここで、上記文献に開示された拡張画像オートマトンの自己組織化法について簡単に説明する（詳しくは上記の文献に開示されている）。
【００５２】
拡張画像オートマトンは、ネットワーク表現をもった知識表現であり、有向アークとノードから構成される。有向アークには、通常アーク及びナル遷移アークと呼ばれる２種類の有向アークが存在し、通常アークが意味的に類似した複数の単語を格納するのに対して、ナル遷移アークは単語を格納しない。また、通常アークを経由することにより、１単位時刻が経過するのに対して、ナル遷移アークを経由したとしても、時刻は経過しない。ここで、１単位時刻は、単語時系列における１単語の入力に対応する。このナル遷移アークを利用することにより、単語時系列に存在する複数種類の連続したノイズを表現することができる。
【００５３】
一方、ノードには、途中ノード及び終了ノードと呼ばれる２種類のノードが存在する。途中ノードは、複数のアークの入力及び出力を可能としたノードであり、終了ノードは、複数のアークの入力及び単語時系列に対応した応答の格納を可能としたノードである。このようなノードに対して、ノードとノードとの間に多数のアークが存在すると、多数の単語の組合せを表現することができる。ただし、同一方向をもった複数のアークがノード間に存在すると、どのアークを利用したかが不明確になり、単語時系列の識別が困難になるため、単語時系列に対して、適切な応答を推論することが難しくなる。したがって、任意のノード間の同一方向に対しては、各アークの種類ごとに、せいぜい一つのアークしか設定しないものとしている。
【００５４】
ここで、本手法においては、６つの基本ルールと時系列データ間の関係に関する２種類の背景知識を利用することにより、モデルを自己組織化する。
【００５５】
まず、６つの基本ルールについて簡単に説明する。
【００５６】
（１）アーク利用ルール：現在の状態に対応するノードを起点とする通常のアークに、入力された単語と同一の単語が割り当てられ、単語のタイプとアークの終点となるノードのタイプが同一ならば、当該アークを利用して、終点となるノードに状態を遷移する。
【００５７】
（２）ナル遷移アーク利用ルール：現在の状態に対応するノードを起点とするナル遷移アークの終点となるノードを起点とする通常のアークに、入力された単語と同一の単語が割り当てられ、単語のタイプと到達するノードのタイプが同一ならば、これらのアークを利用して、通常のアークの終点となるノードに状態を遷移する。
【００５８】
（３）自己ループ生成ルール：終端にない連続する二つの単語が同一であり、現在の状態に対応するノードに自己ループを生成可能であれば、当該ノードを起点かつ終点とする通常のアークを生成して、当該アークに一つの単語を割り当てる。このとき、状態の遷移は行われない。
【００５９】
（４）先読みアーク利用ルール：現在の単語の次の単語と同一の単語が割り当てられたアークで、当該アークの終点となるノードのタイプが次の単語のタイプと一致し、現在のノードから当該アークの起点となるノードに通常のアークが生成可能ならば、現在のノードと当該アークの起点となるノードの間にアークを生成し、生成したアークに現在の単語を割り当て、当該アークの終点となるノードに状態を遷移する。
【００６０】
（５）ナル遷移アーク生成ルール：現在の単語と同一の単語が割り当てられたアークで、当該アークの終点となるノードのタイプが次の単語のタイプと一致し、現在のノードから当該アークの起点となるノードにナル遷移アークが生成可能ならば、現在のノードと当該アークの起点となるノード間にナル遷移アークを生成し、当該アークの終点となるノードに状態を遷移する。
【００６１】
（６）新規ノード生成ルール：新たにノードを一つ生成し、現在のノードとそのノードの間に現在の単語を割り当てた通常アークを生成し、生成したノードに状態を遷移する。
【００６２】
次に、２種類の背景知識について簡単に説明する。
【００６３】
（１）同一視可能知識：単語時系列の識別能力を保持しつつ、コンパクトなネットワーク表現を獲得するためには、同一のアークに割り当てられる単語を制限する必要がある。そこで、同一のアークに割当て可能な単語の組合せを同一視可能知識として記述する。このような単語に隣接する単語集合は、類似したものになると期待できるので、単語時系列の識別能力を保持しつつ、コンパクトなネットワーク表現を獲得することができる。また、同一視可能な単語と隣接する単語とのすべての組合せを入力しなくても、単語の組合せを表現することができるので、少ない単語時系列とその応答からネットワーク表現を自己組織化することができる。
【００６４】
（２）交換可能知識：単語の出現順序を入れ替えた場合に、その応答が同じとなる単語時系列であったとしても、基本ルールを適用するだけでは、すべての出現順序の組合せを入力しないと、対応するネットワーク表現を自己組織化することができない。しかしながら、同じ応答に対応する類似した単語時系列を、個々に入力しなければならないとすれば、多くの単語時系列の入力が必要となる。そこで、単語の出現順序を入れ替えてもその応答が同じとなる単語を交換可能な単語として記述し、交換可能な単語の組合せが単語時系列内に出現した場合に、与えられている出現順序ばかりか、入れ替えた出現順序をも表現するネットワーク表現を自己組織化する。このとき、既存のネットワーク表現の中に交換可能な単語を格納する通常アークが存在する場合には、できるだけそのアークを利用するような自己組織化を行う。
【００６５】
次に、自己組織化フローについて簡単に説明する。
【００６６】
先の６つの基本ルールと２種類の背景知識を利用することにより、単語時系列とその応答からネットワーク表現を下記の手順にしたがって自己組織化する。
（ステップ１）単語時系列を入力する。
（ステップ２）単語時系列の中から次の単語を取り出し、現在の単語とする。取り出せない場合には、現在のノードを終了ノードとして、単語時系列とその応答を割当て、自己組織化を終了する。
（ステップ３）現在の単語が直前に適用した先読みアーク利用ルールにより、既に利用されている場合には、ステップ６に進む。また、直前に適用した自己ループ生成ルールにより、既に利用されている場合には、ステップ２に戻る。
（ステップ４）同一視可能知識を考慮して、基本ルールを評価する。
（ステップ５）条件が成立した最も上位の基本ルールを実行する。
（ステップ６）単語時系列における前出の単語を一つ取り出す。
（ステップ７）取り出す単語がない場合には、ステップ２に戻る。
（ステップ８）取り出した単語と現在の単語との間に交換可能性が成立しない場合には、ステップ６に戻る。
（ステップ９）取り出した単語と現在の単語との間で、交換可能知識による自己組織化を行い、ステップ６に戻る。
【００６７】
この手順においては、基本ルールの判定に同一視可能知識を適用し、単語が一致するかどうかの判定の代わりに、単語が同一視可能かどうかの判定を行っている。また、単語時系列の最初の単語に対しては、起点となるノードを同時に決定する必要があるため、ナル遷移に関連する基本ルールが成立する場合には、アーク利用ルールが必ず成立する。したがって、最初の単語の場合には、ナル遷移に関連する基本ルールを判定する必要がない。最後に、交換可能知識に関しては、単語時系列に現れるすべての単語の組合せに対して、検討する必要があるので、現在の単語とそれ以前に出現しているすべての単語との間に交換可能性が成立するかどうかを判定し、交換可能性が成立する場合に、対応する自己組織化を行っている。
【００６８】
以上が、拡張画像オートマトンの自己組織化法についての簡単な説明である。
【００６９】
（第２の実施形態）
図１３に、本発明の第２の実施形態に係る時系列テキストデータ分析装置の構成例を示す。図１３に示されるように、本時系列テキストデータ分析装置は、ドキュメント格納部１、キー概念辞書格納部２、概念抽出部３、ドキュメント時間抽出部４、概念時系列データ生成部５、概念時系列モデル学習部６、概念時系列モデル格納部７、概念時系列予測部８を備えている。
【００７０】
本時系列テキストデータ分析装置は、第１の実施形態の構成に、新たなドキュメントの系列に対して次に発生する状況を予測する処理等を行うための概念時系列予測部８を付加したものである。
【００７１】
本実施形態においては、モデルの自己組織化を行う機能の部分は、第１の実施形態と同様であるので、以下では、第２の実施形態で付加した予測する処理等の機能の部分について説明する。
【００７２】
図１４に、本時系列テキストデータ分析装置の処理手順の一例を示す。
【００７３】
ここで、第１の実施形態で説明したような処理によって、図１２に例示したモデルが得られ、概念時系列モデル格納部７に格納されているものとする。
【００７４】
また、予測のもとになる新たなドキュメント（評価対象のドキュメント）の系列として、図１５に例示する関連するドキュメントが、ドキュメント格納部１に与えられているものとする。なお、ｅ１，ｅ２は、評価対象のドキュメントの通し番号である。
【００７５】
まず、ステップＳ２１においては、概念抽出部３により、評価対象となる関連するドキュメントに付随する時間に従って、ドキュメントを時間順に並べる。図１５の例においては、既に時間順にドキュメントが与えられているので、本ステップにおいては特に何も行われない。
【００７６】
ステップＳ２２においては、概念抽出部３により、評価対象となる関連するドキュメントの中からドキュメントを一つ取り出す。このとき、取り出すドキュメントがなければ、ステップＳ２５に処理を進める。また、取り出すドキュメントがあれば、ステップＳ２３に処理を進める。
【００７７】
ステップＳ２３においては、概念抽出部３により、図２の処理手順のステップＳ１５と同様の処理を行い、ドキュメントに対応する形態素の集合を生成する。
【００７８】
ステップＳ２４においては、概念抽出部３により、図２の処理手順のステップＳ１６と同様の処理を行い、ドキュメントに対応する特徴を抽出し、ステップＳ２２に処理を戻す。
【００７９】
ステップＳ２５においては、概念時系列データ生成部５（とドキュメント時間抽出部４）により、図２の処理手順のステップＳ１７と同様の処理を行い、ドキュメントに対応する特徴と時間から時系列データを生成する。ただし、図２のステップＳ１７においては、時間的に最後のドキュメントを処理対象としなかったが、このステップＳ２５においては、最後のドキュメントも処理対象とする。従って、ここでは、図１５の関連するドキュメントに対して、図１６に示す時系列データが生成される。なお、ｘ１は、評価対象のドキュメントから生成される時系列データの通し番号である。
【００８０】
さて、ステップＳ２６においては、概念時系列予測部８は、概念時系列モデル格納部７に格納されている自己組織化されたモデル（図１２参照）と、ステップＳ２５で得られた時系列データ（図１６参照）をもとにして、推論を行う。
【００８１】
推論の手法としては、文献「対話タスクモデルのサンプル単語時系列からの自己組織化」、電子情報通信学会Ｊ８３−Ｄ−ＩＩ、Ｎｏ．２、ｐ．８２７−８３９（２０００年）に開示されている拡張画像オートマトンの推論法に従った推論を利用することができる。この手法では、各時系列データを一つずつモデルに適用することにより、各ノードが保持する時系列データ及び時系列データに対応する評価値を更新する。
【００８２】
例えば、図１６の時系列データを図１２のモデルに順次適用していくと、すべての時系列データを適用した段階で、ノードＮａ６にこの時系列データが伝播し、その評価値が１．０（最大値）となる。
【００８３】
ステップＳ２７においては、概念時系列予測部８は、時系列データが何もないという特別なデータをモデルに適用することにより、拡張画像オートマトンの推論法に従って、モデル内の時間を進める。また、末端ノードにおいて、到達した時系列データ及び評価値を評価し、評価値が高い場合に、当該末端ノードに対応する応答を出力する。また、概念時系列予測部８は、応答が出力される様子を観測することにより、発生しやすい状況を予測する。例えば、図１６の時系列データをすべて図１２に適用し、時間を進めると、本時系列データは、すべての末端ノードＮｂ１〜Ｎｂ３に到達する。このとき、末端ノードＮｂ２には、末端ノードＮｂ１，Ｎｂ３よりも速い時間で、時系列データが到達する。従って、現状では、「受注失敗」に到達する可能性の方が高いことがわかる。この結果、それらの予測結果をユーザに呈示することができる。
【００８４】
なお、上記の予測において、現在の時系列データから生じる可能性を示すだけでなく、望ましい方向あるいは目標とする方向に進むための方法をユーザに提示することも可能である。すなわち、ステップＳ２７において、到達した末端ノードのうち、望ましい応答を与える末端ノードから、隣接するアーク及びノードを辿り、時間を遡っていくことにより、当該方向に進むための方法あるいは条件をユーザに提示することができる。
【００８５】
なお、以上の各機能は、ソフトウェアとして実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための（あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための）プログラムとして実施することもでき、該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【００８６】
なお、この発明の実施の形態で例示した構成は一例であって、それ以外の構成を排除する趣旨のものではなく、例示した構成の一部を他のもので置き換えたり、例示した構成の一部を省いたり、例示した構成に別の機能あるいは要素を付加したり、それらを組み合わせたりすることなどによって得られる別の構成も可能である。また、例示した構成と論理的に等価な別の構成、例示した構成と論理的に等価な部分を含む別の構成、例示した構成の要部と論理的に等価な別の構成なども可能である。また、例示した構成と同一もしくは類似の目的を達成する別の構成、例示した構成と同一もしくは類似の効果を奏する別の構成なども可能である。
また、この発明の実施の形態で例示した各種構成部分についての各種バリエーションは、適宜組み合わせて実施することが可能である。
また、この発明の実施の形態は、装置全体としての発明、装置内部の構成部分についての発明、またはそれらに対応する方法の発明等、種々の観点、段階、概念またはカテゴリに係る発明を包含・内在するものである。
従って、この発明の実施の形態に開示した内容からは、例示した構成に限定されることなく発明を抽出することができるものである。
【００８７】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【００８８】
【発明の効果】
本発明によれば、蓄積されたテキストデータ及び時間情報を含むドキュメントの集合から、規則性をモデル化するためのもととなる、単語（概念）時系列モデルを生成することが可能になる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る時系列テキストデータ分析装置の構成例を示す図
【図２】同実施形態に係る時系列テキストデータ分析装置の処理手順の一例を示すフローチャート
【図３】ドキュメント格納部に格納されているドキュメントの一例を示す図
【図４】ドキュメント格納部に格納されているドキュメント集合から抽出されたＣ１社かつＭ１氏に関連するドキュメント部分集合の一例を示す図
【図５】ドキュメント格納部に格納されているドキュメント集合から抽出されたＣ２社かつＭ２氏に関連するドキュメント部分集合の一例を示す図
【図６】ドキュメント格納部に格納されているドキュメント集合から抽出されたＣ３社かつＭ１氏に関連するドキュメント部分集合の一例を示す図
【図７】ドキュメント格納部に格納されているドキュメント集合から抽出されたＣ４社かつＭ２氏に関連するドキュメント部分集合の一例を示す図
【図８】図４のドキュメント部分集合に含まれる各ドキュメントの本文を形態素解析した結果の一例を示す図
【図９】キー概念辞書格納部に格納されるキー概念辞書の一例を示す図
【図１０】図８の形態素解析結果を図９のキー概念定義辞書に適用することにより生成される特徴量の集合の一例を示す図
【図１１】ドキュメント格納部に格納されるドキュメントに対して生成される時系列データと分類クラスの組の一例を示す図
【図１２】自己組織化されたモデルの一例を示す図
【図１３】同実施形態に係る時系列テキストデータ分析装置の他の構成例を示す図
【図１４】同実施形態に係る時系列テキストデータ分析装置の自己組織化されたモデルに基づいて一連の新たなドキュメントから生じる結果を予測する処理手順の一例を示すフローチャート
【図１５】評価対象となる関連するドキュメントの一例を示す図
【図１６】図１５の関連するドキュメントから生成される時系列データの一例を示す図
【符号の説明】
１…ドキュメント格納部
２…キー概念辞書格納部
３…概念抽出部
４…ドキュメント時間抽出部
５…概念時系列データ生成部
６…概念時系列モデル学習部
７…概念時系列モデル格納部
８…概念時系列予測部

Claims

テキストデータと、時間情報と、時間情報以外の１又は複数の属性情報とを含むドキュメントの集合を格納するためのドキュメント格納手段と、
前記ドキュメントのテキストデータから抽出すべきキー概念を含むキー概念辞書を格納するためのキー概念辞書格納手段と、
前記属性情報に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、時間的に推移する一連のドキュメントであって最終結果を与えるものを含む部分集合を、複数選択するための選択手段と、
選択された複数の前記部分集合の各々ごとに、前記キー概念辞書に基づいて、当該部分集合に属する複数のドキュメントの各々から、キー概念を抽出するための第１の抽出手段と、
選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から、前記時間情報を抽出するための第２の抽出手段と、
選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から抽出された前記キー概念及び該複数のドキュメントの各々に含まれる前記時間情報に基づいて、キー概念の時系列的な遷移を示す時系列データと該時系列データに対応する分類クラスとを含む概念時系列データを生成するための概念時系列データ生成手段と、
選択された複数の前記部分集合の各々から生成された、複数の前記概念時系列データをもとにして、前記キー概念によって特徴付けられた有向アーク及び前記分類クラスによって特徴付けられた最終ノードを持つネットワーク表現によって構成されたモデルを生成するためのモデル生成手段とを備えたことを特徴とするデータ分析装置。
前記生成手段は、自己組織化法により、前記複数の前記概念時系列データをもとにして、前記モデルを生成することを特徴とする請求項１に記載のデータ分析装置。
前記キー概念辞書は、表層表現とキー概念との対応を示す情報を含み、
前記第１の抽出手段は、前記ドキュメントの形態素解析結果と、前記キー概念辞書の表層表現を比較して、該表層表現に対応する前記キー概念を抽出することを特徴とする請求項１または２に記載のデータ分析装置。
前記選択手段は、外部から指定された１又は複数の前記属性情報に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、前記部分集合を選択することを特徴とする請求項１または２に記載のデータ分析装置。
前記選択手段は、前記属性情報の全部又は一部にクラスタリングを適用した結果に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、前記部分集合を選択することを特徴とする請求項１または２に記載のデータ分析装置。
前記概念時系列データのもととなった前記部分集合において時間的に最も遅い時間情報を持つ前記ドキュメントから抽出された前記キー概念を、該概念時系列データに対応する分類クラスとするものであることを特徴とする請求項１または２に記載のデータ分析装置。
前記時間情報は、前記ドキュメントが作成された日付又は日付及び時刻を示すものであることを特徴とする請求項１ないし６のいずれか１項に記載のデータ分析装置。
前記時間情報は、前記ドキュメントに含まれる前記テキストデータの内容に関係する日付又は日付及び時刻を示すものであることを特徴とする請求項１ないし６のいずれか１項に記載のデータ分析装置。
予測対象とする複数の前記ドキュメントから生成した前記概念時系列データに前記モデルを適用して、該概念時系列データの持つ時間情報より後に発生すると予測されるキー概念を抽出するための予測手段を更に備えたことを特徴とする請求項１ないし８のいずれか１項に記載のデータ分析装置。
前記予測手段は、前記発生すると予測されるキー概念が複数存在し、そのうちに目標とするキー概念と、それ以外のキー概念とが存在する場合に、目標とするキー概念に到達するための条件を抽出することを特徴とする請求項９に記載のデータ分析装置。
テキストデータと、時間情報と、時間情報以外の１又は複数の属性情報とを含むドキュメントの集合を格納するためのドキュメント格納手段と、前記ドキュメントのテキストデータから抽出すべきキー概念を含むキー概念辞書を格納するためのキー概念辞書格納手段と、選択手段と、第１の抽出手段と、第２の抽出手段と、概念時系列データ生成手段と、モデル生成手段とを備えたデータ分析装置におけるデータ分析方法であって、
前記ドキュメント格納手段が、前記ドキュメントの集合を格納するステップと、
前記選択手段が、前記属性情報に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、時間的に推移する一連のドキュメントであって最終結果を与えるものを含む部分集合を、複数選択するステップと、
前記第１の抽出手段が、選択された複数の前記部分集合の各々ごとに、前記キー概念辞書に基づいて、当該部分集合に属する複数のドキュメントの各々から、キー概念を抽出するとともに、前記第２の抽出手段において、選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から、前記時間情報を抽出するステップと、
前記概念時系列データ生成手段が、選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から抽出された前記キー概念及び該複数のドキュメントの各々に含まれる前記時間情報に基づいて、キー概念の時系列的な遷移を示す時系列データと該時系列データに対応する分類クラスとを含む概念時系列データを生成するステップと、
前記モデル生成手段が、選択された複数の前記部分集合の各々から生成された、複数の前記概念時系列データをもとにして、前記キー概念によって特徴付けられた有向アーク及び前記分類クラスによって特徴付けられた最終ノードを持つネットワーク表現によって構成されたモデルを生成するステップとを有することを特徴とするデータ分析方法。
前記データ分析装置は予測手段を更に備えるものであり、
前記データ分析方法は、前記予測手段が、予測対象とする複数の前記ドキュメントから生成した前記概念時系列データに前記モデルを適用して、該概念時系列データの持つ時間情報より後に発生すると予測されるキー概念を抽出するステップを更に有するものであることを特徴とする請求項１１に記載のデータ分析方法。
テキストデータと、時間情報と、時間情報以外の１又は複数の属性情報とを含むドキュメントの集合を格納するためのドキュメント格納機能と、
前記ドキュメントのテキストデータから抽出すべきキー概念を含むキー概念辞書を格納するためのキー概念辞書格納機能と、
前記属性情報に基づいて、前記ドキュメント格納手段に蓄積された前記ドキュメントの集合から、時間的に推移する一連のドキュメントであって最終結果を与えるものを含む部分集合を、複数選択するための選択機能と、
選択された複数の前記部分集合の各々ごとに、前記キー概念辞書に基づいて、当該部分集合に属する複数のドキュメントの各々から、キー概念を抽出するための第１の抽出機能と、
選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から、前記時間情報を抽出するための第２の抽出機能と、
選択された複数の前記部分集合の各々ごとに、当該部分集合に属する複数のドキュメントの各々から抽出された前記キー概念及び該複数のドキュメントの各々に含まれる前記時間情報に基づいて、キー概念の時系列的な遷移を示す時系列データと該時系列データに対応する分類クラスとを含む概念時系列データを生成するための概念時系列データ生成機能と、
選択された複数の前記部分集合の各々から生成された、複数の前記概念時系列データをもとにして、前記キー概念によって特徴付けられた有向アーク及び前記分類クラスによって特徴付けられた最終ノードを持つネットワーク表現によって構成されたモデルを生成するためのモデル生成機能とをコンピュータに実現させるためのプログラム。
予測対象とする複数の前記ドキュメントから生成した前記概念時系列データに前記モデルを適用して、該概念時系列データの持つ時間情報より後に発生すると予測されるキー概念を抽出するための予測機能を更に前記コンピュータに実現させるためのものであることを特徴とする請求項１３に記載のプログラム。