JP2005044087A

JP2005044087A - テキストマイニングシステム及びプログラム

Info

Publication number: JP2005044087A
Application number: JP2003202160A
Authority: JP
Inventors: Yoshiaki Kudo; 嘉晃工藤; Hiroyuki Kumai; 裕之隈井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-07-28
Filing date: 2003-07-28
Publication date: 2005-02-17

Abstract

【課題】複数の分析ツールから構成されるテキストマイニングシステムを用いて、データの分析を行なう利用者に、次に行なうべき分析手順を提示して、利用者が分析を効率良く行なえるテキストマイニング支援システムを提供する。
【解決手段】テキストマイニング支援システムは、利用者がテキストマイニング部４の分析ツールを用いて分析を行なった際に、その操作履歴を分析履歴データとして分析履歴記憶部６に保存する。次に、充分な分析履歴データが蓄えられた後で、分析手順モデル生成部８を用いて分析履歴データを抽象化し、分析手順モデルを構築する。最後に、分析支援部１１によりその分析手順モデルを参照して、新たに分析を開始した利用者に、次に行なうべき分析手順を提示する。
【効果】適切な分析手順を利用者に提示することができるので、試行錯誤して分析ツールを操作するという作業を軽減し、過去の分析にない新たな分析手順を分析者に提示することで、新たな発見を支援するという効果もある。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明はテキストマイニングシステム、特に、テキストマイニングシステムを構成する分析ツールの操作の履歴を利用して、利用者の分析を支援するテキストマイニングシステムに関する。
【０００２】
【従来の技術】
近年、インターネットなどのネットワーク技術の進歩やデータウェアハウスに代表される大規模データベース構築技術の確立により、企業などが所有するデータベースには数値や文書、図面など電子化された大量の情報が日々蓄積されるようになった。このような大量に蓄積された情報から高速に有益な情報を抽出する手法として、テキストデータから有用な情報を抽出するテキストマイニング技術が注目されている（例えば、特許文献１参照）。
テキストマイニングシステムは、複数の分析ツールから構成される。利用者はそれら複数の分析ツールを利用してデータの分析を進め、有益な情報に辿り着く。しかしながら、有益な情報を得るためには、しばしば関連語抽出や全文検索のような複数の分析ツールを組み合わせた繁雑な操作が必要になる。このような操作の繁雑さを解消するために、操作履歴を利用したシステムがある（例えば、特許文献２参照）。
【特許文献１】特開２００２−１８３１７５号公報
【特許文献２】特開２００２−３１２３８９号公報
【発明が解決しようとする課題】
利用者は、複数の分析ツールから構成されるテキストマイニングシステムを利用することで、大量のテキストデータから何らかの情報を得ることができる。情報の抽出は比較的簡単な操作で可能であるが、有用な情報を大量のテキストデータから抽出しようとする場合、利用者は、しばしば試行錯誤しながら複数の分析ツールを組み合わせて分析を進めなければならない。そのため、多くの時間を分析に費やす必要がある。
これに対し、上記特許文献２の開示するシステムは、単純に過去の操作履歴として記憶された入力パラメータを画面に再表示する。よって利用者は、最初から入力パラメータを設定する手間を省くことができるが、利用者の意図とは異なる履歴が画面に再表示されるという問題点がある。
本発明の目的は、複数の分析ツールから構成されるテキストマイニングシステムの利用者に対して、有用な情報を抽出するための分析手順を提示し、利用者の分析に対する発想を支援し、分析にかかる時間を短縮することである。
【０００３】
【課題を解決するための手段】
上記課題を解決するために本願の開示する発明の概要は以下の通りである。データベース中に格納されるデータの解析を複数の分析ツールで行うテキストマイニングシステムであって、分析開始から分析終了までの前記分析ツールの操作手順及び分析結果を分析履歴データとして記憶する記憶部と、前記分析履歴データを抽象化して抽象分析履歴データを生成する抽象化部と、前記抽象分析履歴データを学習して分析手順モデルを構築する学習部とを有し、利用者が分析中に、表示部に前記分析手順モデルを参照して新たな分析手順を利用者に提示するシステム。及び、該システムを実現するプログラム。
【０００４】
【発明の実施の形態】
初めに本願発明の概要を説明する。
本願装置においては、利用者がテキストマイニングシステムを用いて分析を進める際に、システム側では分析開始から分析終了までの１つの分析過程毎に、分析ツールの適用順序、すなわち分析手順と、各分析ツールによって得られた分析結果を対応付けて分析履歴データとして記憶する。このとき、分析手順により最終的に得られた分析結果が、良い結果であったかを利用者が評価し、その評価情報を分析履歴データに付加する。次に、十分に蓄えられた分析履歴データを帰納的に学習し、それらのデータから模範的な分析手順のモデル（以下、分析手順モデルと呼ぶ）を構築する。本願では、データから模範的なモデルを構築することを学習と呼ぶ。構築された分析手順モデルにおける分析手順は、過去に良い結果が得られた手順とそうでない手順に分けられる。ここで、分析履歴データの学習方法について説明する。分析履歴データを単に学習した場合、分析手順モデルは基本的に過去の分析手順に基づいて構築されるので、分析手順モデルに含まれる分析手順のほとんどが、過去に既に行なわれた手順であることが考えられる。このままでは、分析手順モデルを参照しても、過去の分析手順を単に利用者に提示しているに過ぎない。この問題を解決するために、分析履歴データに含まれる入力値／出力値などの情報を概念階層や類義語辞書に従い、より抽象的な値に変換することを考える。本明細書では、この操作を分析履歴データの抽象化と呼ぶ。抽象化した分析履歴データを学習して分析手順モデルを構築することで、分析手順モデルには、過去の分析手順に類似した新たな分析手順が含まれるようになる。このような分析手順モデルを参照することにより、利用者に新たな分析手順を提示することが可能になる。ここで、過去の分析手順に類似した分析手順とは、分析ツールを適用する順序が同じであり、その入力値／出力値が過去に入出力された値と概念的または意味的に類似する手順を指す。最後に、分析手順モデルを構築した後で、新たに分析を開始した利用者が分析対象をどのように分析すればよいか判断できない場合に、構築した分析手順モデルを参照し、モデル中の抽象的な分析手順を具体化することで、過去に行なわれていない、新たな分析手順をいくつか利用者に提示する。
【０００５】
上述のように、本発明は、１つの分析ツールの入力支援だけではなく、１つ以上の分析ツールを組み合わせた分析手順の支援も行なう。また、本発明は、単純に履歴を参照するのではなく、学習フェーズ（抽象化プロセスを含む）を設け、履歴を学習することによって、より利用者の意図に合った履歴を見つけ出し、その履歴を分析の支援に適用できる。
以下、本発明の実施形態の一例を図面を用いて説明する。
【０００６】
１．全体の構成。図１は、テキストマイニング支援システムの構成を示した図である。本発明のテキストマイニング支援システムは、端末２を利用する１人以上の利用者が端末の指示入力部等を用いて、ネットワーク２‐１を介してテキストマイニング支援処理部１にアクセスすることができる。テキストマイニング支援処理部１は、次の部分から構成される。尚、以下説明する構成はプログラムをコンピュータで読むことで実現でき、又、ハードウェアとソフトウェアの協調によって実現される。
関連語抽出や全文検索のような複数の分析ツール４−１を利用して、データベース３から情報の抽出を行なうテキストマイニング部４。テキストマイニング部４においてデータを分析した手順を分析履歴データとして、利用者毎に分析履歴記憶部６に保存する分析履歴保存部５‐１と、その分析履歴データの内容を端末２に表示する分析履歴表示部５‐２から構成される分析履歴管理部５。分析履歴記憶部６に蓄積された、利用者毎の分析履歴データを、類語辞書、シソーラス、分類階層、概念階層などからなる辞書７に基づき抽象化し、抽象化した分析履歴データを抽象分析履歴データとして抽象分析履歴記憶部９に保存する分析履歴データ抽象化部８‐１と、抽象分析履歴データから分析手順モデルを構築して分析手順モデル記憶部１０に保存する分析履歴データ学習部８‐２から構成される分析手順モデル生成部８。分析手順モデル構築後、新たに分析を開始した利用者に次に行なうべき適切な分析手順を提示するために、分析手順モデル記憶部１０にある分析手順モデルから分析途中の現在の分析手順にマッチする分析手順を探す分析手順探索部１１‐１、見つかった分析手順を利用者に表示する分析手順表示部１１‐２から構成される分析支援部１１。
テキストマイニング支援システムの処理は、２つのフェーズに分けて考えることができる。１つは分析履歴データを分析履歴記憶部６に蓄積し、蓄積した分析履歴データを学習して分析手順モデルを構築するフェーズである。もう１つは構築した分析手順モデルを参照し、利用者に新たな分析手順を提示するフェーズである。前者のフェーズを分析履歴データ学習フェーズと呼び、後者のフェーズを分析手順モデル参照フェーズと呼ぶ。
テキストマイニング支援システムは、基本的に分析履歴データ学習フェーズを実行し、分析手順モデル構築後に、分析手順モデル参照フェーズを実行する。尚、分析手順モデル参照フェーズでは、分析履歴データ学習フェーズも同時に進行する。この構成によれば、分析手順モデルを参照しながら分析を進めても、その分析の手順を分析履歴データとして蓄積し、利用者の指示により新たに分析手順モデルを構築することができる。
【０００７】
１．１分析履歴データ学習フェーズ
まず、分析履歴データ学習フェーズについて説明する。このフェーズでは、テキストマイニング支援処理部１のテキストマイニング部４、分析履歴管理部５および分析手順モデル生成部８を主に用いる。
図２の流れ図は分析履歴データ学習フェーズにおける処理の流れを示す。図２のＳ１００１からＳ１００９までの詳細ステップとテキストマイニング支援システムの各部の動作ステップを対応付けると次のようになる。
動作ステップ１（Ｓ１００１−Ｓ１００３）。利用者は、テキストマイニング部４における複数の分析ツールを用いてテキスト分析を開始する。利用者が分析を終了するまで、用いたツール名とその入力値および出力値を、１つの分析データとしてテキストマイニング支援システムが分析履歴保存部５−１に保持する。このとき、分析履歴表示部５−２は、分析履歴保存部５−１で保持している分析データの内容を端末２の画面上に表示する。端末２には、図１０のようなマイニングの結果を表す画面又は図１４のような履歴を表す画面が表示される。動作ステップ２：（Ｓ１００４−Ｓ１００５）。動作ステップ１の分析が終了した時点で、分析開始から終了までの全分析データが分析履歴保存部５−１に保持される。それらの分析データは分析手順を表しており、利用者はその分析手順により良い情報が得られたかどうかを評価して該評価を入力する。このとき、分析履歴保存部５−１はその評価情報と保持している分析データを対応づけて、１つの分析履歴データとして分析履歴記憶部６に蓄積する。図１２に分析履歴データの例を示す。分析品質フラグ１００２が評価情報である。分析手順部１００１には、図１１に示すデータ構造をもつ分析データが１つ以上記録される。動作ステップ３：（Ｓ１００６）。分析履歴記憶部６に蓄積された分析履歴データの数が、テキストマイニング支援システムの管理者が設定したしきい値以下であれば、再びテキスト分析を開始する。一般に精度の良いモデル生成には有る程度の母数が必要となるので、しきい値には、分析手順モデル生成部８で品質の良い分析手順モデルを構築するために、最低限必要な分析履歴データ数を設定するようにする。例えば、分析ツールが１０種類であるときに、約５００の分析履歴データが最低必要だと管理者が考えればしきい値は５００に設定される。
動作ステップ４：（Ｓ１００７−Ｓ１００９）。分析履歴データ数がしきい値以上であれば、分析手順モデルを構築することが可能になる。このとき、利用者が分析手順モデルの構築を実行すると判断した場合、又は自動的に、分析手順モデル生成部８が分析手順モデルを構築する。分析手順モデルの構築は利用者毎の分析履歴データまたは利用者全体の分析履歴データを利用して実行することが可能である。本実施例では、利用者毎の分析履歴データに対して分析手順モデル構築する場合について述べる。
以上のように分析履歴データ学習フェーズでは、テキストマイニング支援システムは、利用者に次に行なうべき分析手順を提示するために分析手順モデルを構築する。
【０００８】
１．２分析手順モデル参照フェーズ。
次に、分析手順モデル参照フェーズを説明する。このフェーズの処理では、主に分析支援部１１を用いる。図３は、分析手順モデル参照フェーズの処理の流れを示す。図３のＳ２００１からＳ２００５までの詳細ステップとテキストマイニング支援システムの各部の動作ステップを対応付けると次のようになる。
動作ステップ１：（Ｓ２００１−Ｓ２００２）。利用者は、テキストマイニング部４における複数の分析ツール４−１を用いてテキスト分析を開始し、分析により得られた結果が有用な情報を含んでいるかどうかを評価する。もし良い結果が得られたならば分析は成功である。利用者の入力が“良い”との評価の場合には、テキストマイニング支援処理部１は分析を終了させる。逆に、有用な情報を含んだ結果が得られなかった場合は、さらに分析を続ける。
動作ステップ２：（Ｓ２００３）。Ｓ２００２の判定で、利用者が良い結果が得られなかったと評価した場合、分析支援部１１における分析手順探索部１１−１は、次に行なうべき適切な分析手順を利用者に提示するために、分析手順モデル記憶部１０に保存された分析手順モデルを参照する。参照する分析手順モデルは、分析履歴データ学習フェーズで利用者毎に構築された分析手順モデルである。もし分析手順モデルが構築されていない場合は、テキストマイニング支援システムの管理者が予め用意した分析手順モデルを利用するようにしても良い。分析支援部１１における分析手順表示部１１−２は、分析手順探索部１１−１が分析手順モデルから見つけ出した分析手順を端末２の画面上に表示する。
動作ステップ３：（Ｓ２００４−Ｓ２００５）。利用者は、分析手順表示部１１−２により端末２の画面上に表示されている複数の分析手順の候補から適切な分析手順があればその分析手順を選択し、再度Ｓ２００１から処理を行なう。もし表示された分析手順の中に適切なものがなければ、利用者は現在の手順を中断して初めから分析をやり直すことができる。
以上のように分析手順モデル参照フェーズでは、テキストマイニング支援システムは利用者に次に行なうべき分析手順を提示する。
【０００９】
２．テキストマイニング支援システムの各部
以下では、テキストマイニング支援処理部１を構成する各部を説明する。各部分は図４から図７に示す。図中の矢印はデータの流れを示す。
【００１０】
２．１テキストマイニング部
図４にテキストマイニング部４の詳細を示す。テキストマイニング部４は図８のリストに示すような複数の分析ツールから構成される。カラム８００は分析ツールの大別、カラム８０１は分析ツール名、カラム８０２は分析ルールの簡単な説明を示す。図４に示したテキストマイニング部４の処理の流れは２つに分けることができる。
（１）データの分析：テキストマイニング部４は、端末２から送られてくる利用者の要求に従って、データベース３にアクセスして図８の８００欄に示すような分析ツールを用いて、各分析ツールの対応する８０２欄に記載するようなマイニング処理を行なう。さらに、その分析結果を端末２の画面上に表示する。
（２）分析データの保存：テキストマイニング部４は、複数の分析ツールの操作履歴を、入力した値と出力された分析結果と１つのデータにまとめて分析履歴保存部５に保持する。このデータを分析データと呼ぶ。
（１）は通常のテキストマイニングの処理である。マイニングの例として、図９に示すような動物に関する相談が蓄積されたデータベースから情報を抽出する場合を考える。抽出すべき情報としては、頻繁に寄せられる相談内容や、例外的な問い合わせなどが挙げられる。このデータベースは、応対日時１０１，動物の種類１０２，相談者の住んでいる地域１０３，問い合わせの内容１０４の属性がある。そこに蓄積されたデータから有用な情報を抽出するために、利用者は図８のリストに示すような分析ツールを利用してデータの分析を行なう。ここで分析中の端末２の画面の一例を図１０に示す。図１０は関連語抽出ツールを用いた画面の一例を示す図であり、メニュー部２００と関連語抽出画面３００から構成される。関連語抽出画面３００は実行部３０１、入力部３０２、表示形式部３０３と出力部３０４からなる。入力部３０２で“馬，猫”を入力し、表示形式部３０３で結果の表示方法のパラメータを選択する。この例では、入力値と出力値を並べて表示する“ペア表示”を設定する。そして、実行部３０１におけるボタンをクリックすることで関連語抽出ツールを実行し、出力部３０４に入力値とその関連語がペアになって表示される。また、メニュー部２００は、全分析ツールに共通する部分であり、分析ツール選択部２０１，分析開始から現在までの分析手順を表示する分析手順表示ボタン２０２，分析の結果を保存する分析結果保存ボタン２０３，分析を最初からやり直すための分析終了ボタン２０４からなる。例えば分析ツール選択部２０１を“係り受け抽出”に変更すると、画面下部は図２０に示すような係り受け抽出画面７００に切り替わる。
【００１１】
一方、（２）は分析履歴保存部５−１に保持された分析データから分析履歴データを形成し、分析履歴データを分析履歴記憶部６に保存するための前処理である。分析履歴保存部５−１には、図１１に示すように、分析データを識別しかつ分析の順序を示す分析データＩＤ９００，分析の種類を示す分析名９０１，分析に際して入力された入力値リスト９０２，分析に際して設定された分析ツールのオプション値を表す入力パラメータ９０３，分析の結果を示す出力値リスト９０４からなる分析データが保持される。
図１１に示した分析データは、図１０に示した関連語抽出ツールの例であって、分析データＩＤ９００は０００１で、入力値リスト９０１は｛馬，猫｝、関連語抽出により得られた出力値リスト９０４は｛草，魚，ねずみ，りんご，にんじん｝である。
【００１２】
２．２分析履歴管理部
図５に、分析履歴保存部５−１と分析履歴表示部５−２からなる分析履歴管理部５の詳細を示す。
分析履歴保存部５−１は、テキストマイニング部４からの分析データを保持し、分析が終了したとき、分析開始から終了までの分析手順に相当する分析データをまとめて１つの分析履歴データとして、利用者毎に分析履歴記憶部６に保存する。例えば、分析履歴保存部５−１は、図１１に示すような分析データを保持し、分析終了時に分析データをまとめて図１２のような分析履歴データを生成し、分析履歴記憶部６に保存する。
分析履歴記憶部６に保存される分析履歴データは、図１２に示すように、分析履歴データＩＤ１０００、分析開始から終了までの分析手順を表す複数の分析データを記憶した分析手順部１００１と分析品質フラグ１００２からなる。分析品質フラグとは、分析開始から終了までの分析手順により、有用な情報を含んだ良い結果が得られたかどうかを判断する値である。本実施例においては、分析品質フラグの値が１であるならば良い結果が得られたことを表し、０ならば良い結果が得られなかったことを表す。図１２の分析履歴データは、分析手順部１００１に分析データＩＤが０００１から０００５までの分析データを記憶し、分析履歴データの分析品質フラグ１００２は１である。分析品質フラグの値の設定は分析終了時に利用者が行なう。分析品質フラグの設定方法は次の通りである。
まず、利用者が分析履歴保存部５−１に分析品質フラグの値を決定する。例えば、複数の分析ツールで分析を行なった後、利用者が分析の終了を指示した場合、テキストマイニング支援システムは図１３に示す画面を端末２に表示する。画面は分析品質フラグ設定部４００と分析手順表示部４０１からなる。利用者が分析品質フラグ設定部４００にある“はい”ボタン４０２をクリックすると、分析品質フラグに１が設定される。逆に“いいえ”ボタン４０３をクリックすると０が設定される。
又は、良い結果が得られた後に、必ず行なう操作、例えば、結果を保存する操作等を分析履歴管理部５に予め定義しておき、もし利用者が定義された操作を行なった場合は分析品質フラグを１とする。また、単に分析を終了した場合は分析品質フラグを０とするようにしてもよい。これにより、利用者の操作を要求することなく装置で自動的に識別が可能になる。
【００１３】
以上の２つの方法またはいずれかの一方の方法により分析品質フラグの値を設定する。以下、分析手順品質フラグが１である分析履歴データを正例、分析手順品質フラグが０である分析履歴データを負例と呼ぶ。
尚、１つの分析履歴データは分析開始から終了までの一連の分析手順を表すが、分析開始と終了は、基本的には利用者が分析終了を決定する。例えば、図１０に示す分析終了ボタン２０４を利用者がクリックすると分析終了が分析履歴管理部５に通知される。分析終了後、先に述べたように分析品質フラグを設定する。そして、利用者が新たに分析を行なうと分析開始が分析履歴管理部５に通知される。
分析履歴表示部５−２は、分析履歴保存部５−１に保持されている分析途中の分析手順や、分析履歴記憶部６に格納されている分析履歴データを端末２の画面に表示する。分析履歴表示部５−２により端末２に表示される画面の一例を図１４に示す。分析時刻表示部５００では分析開始時間および終了時間、分析データ表示部５０１は分析開始からの分析データを表示し、現在の分析手順を示す。また、データ選択部５０２では、分析履歴データ画面表示部５０３に表示するデータを選択する。オプション５０４の“過去の分析手順”を選択すると、現在から遡って過去の分析履歴データが分析履歴データ画面表示部５０３に表示され、オプション５０５の“類似した分析手順”を選択すると、分析データ表示部５０１で表示されている分析手順に類似した手順を含む分析履歴データが表示される。類似した手順を見つけ出すために、分析履歴表示部５−２は、分析履歴記憶部６に蓄積された分析履歴データと現在分析途中にある分析データを比較し、分析履歴データの分析手順部１００１の分析データの中に、分析途中の分析データが含まれているかをチェックする。もし含まれていれば類似した手順としてその分析履歴データを分析履歴データ画面表示部５０３に表示する。
【００１４】
さらに件数指定部５０６で表示件数も指定できる。分析履歴データ画面表示部５０３では、分析データ選択部５０２で選択された表示方法に従って、すでに分析履歴記憶部６に保存されている分析履歴データを、分析開始時刻５０７，分析終了時刻５０８，分析手順５０９，分析結果５１０，詳細情報５１１のカラムからなる表形式で表示する。詳細情報５１１の値、表示をクリックすると、図１２に示すような分析履歴データの内容が参照できる。図１４の例では、分析履歴データ画面表示部５０３には、最近行われた分析手順の過去５件分が表示されている。このように、表示件数を指定することで、画面上に全ての分析手順を表示することを制限できる。
【００１５】
２．３分析手順モデル生成部
図６に分析手順モデル生成部８の詳細を示す。分析手順モデル生成部８は、分析履歴データ抽象化部８−１と分析履歴データ学習部８−２から構成される。
分析履歴データ抽象化部８−１は、辞書７を用いて分析履歴記憶部６に保存された分析履歴データを抽象化し、抽象化した分析履歴データを抽象分析履歴データとして、抽象分析履歴記憶部９に保存する。辞書７は、類語辞書，シソーラス，階層を用いて、用語を分類する概念階層および分類階層のいずれか、またはその組み合わせで構成される。例えば、階層表現を用いて、製品を分類するカタログは分類階層の一種であり、その情報を辞書として利用することができる。分析履歴データ抽象化部８−１による抽象化の一例を図１５に示す。また、このとき利用した辞書７の概念階層を図１６と図１７に示す。図１５（ａ），（ｂ）に抽象化前の分析履歴データを示す。これらの分析履歴データの形式は、図１２で示した形式に従う。（ａ）と（ｂ）の分析履歴データの入力リストの値は、図１６の概念階層に従ってより抽象的な値、つまり該対象物に加え他の類似物等を含む上位の概念の言葉に置き換えられる。また、出力値リストの値は図１７の概念階層における抽象的な値に置き換えられる。例えば、各入力リストにおける入力値“犬，猫”と“ハムスター，イグアナ”は図１６の概念階層に従うと、上位概念の“ペット”に置き換えられる。さらに、図１６の階層により、入力値 “豚，馬”と“牛，羊”は“家畜”に変換される。出力値も同様な処理が行なわれる。
図１６，１７の概念階層を用いた抽象化の結果、図１５（ａ），（ｂ）の分析履歴データは、図１５（ｃ）に示すような抽象分析履歴データに変換される。抽象分析履歴データは、抽象分析履歴データＩＤ１１００，抽象化された分析データを集めた分析手順１１０１，分析品質フラグ１１０２，抽象化により１つにまとめられた分析履歴データＩＤを記録する元データＩＤ１１０３からなる。
図１５の例では、元データＩＤ１１０３は、元データＩＤの１００３２と１３０７７を記憶している。これは、図１５（ａ）と（ｂ）の分析履歴データが抽象化により図１５（ｃ）に示す抽象分析履歴データにまとめられたことを表す。
分析履歴データは、先に述べたように正例と負例に区別することができる。分析履歴データを過剰に抽象化すると、正例と負例に区別されている分析履歴データが同一の抽象分析履歴データに抽象化されることになり、分析履歴データが示す分析手順の評価情報を失う可能性がある。そこで、利用者は正例と負例の合計に対する正例または負例の割合を表す閾値を設定し、分析履歴データの抽象化で、正例と負例がなるべく同じ抽象分析履歴データに変換されないように制御する。すなわち、正例である分析履歴データに対する抽象化は、抽象化後の抽象分析履歴データに含まれる正例の割合が閾値以上であり、かつ、負例が最も含まれなくなる抽象値を概念階層から選択する。逆に負例に対する抽象化は、抽象分析履歴データに含まれる負例の割合が閾値以上であり、かつ、正例を最も含まないようにする抽象値を選択する。例えば、利用者が設定する閾値が０．７であり、図１６の階層で“犬，猫，ハムスター，イグアナ”を“ペット”に変換した場合、抽象分析履歴データに含まれる正例が４００個、負例が１０個である（すなわち、正例の割合は０．９７５）とし、さらに、“動物”に変換した場合には、正例が６００個、負例が６０個である（すなわち、正例の割合は０．９００）とするならば、前者の方が閾値０．７を満たし、かつ、より少ない負例を含むことになるので、“ペット”を適切な抽象値として選択する。
正例と負例が同じ抽象分析履歴データに変換された場合、抽象分析履歴データの分析品質フラグは、抽象化前の分析履歴データにおいて正例の方が多ければ１、負例の方が多ければ０とする。
分析履歴データの抽象化後、分析履歴データ抽象化部８−１は生成された抽象分析履歴データを抽象分析履歴記憶部９に保存する。
一方、分析履歴データ学習部８−２は、抽象分析履歴記憶部９に保存された抽象分析履歴データから分析手順モデルを構築する。さらに、構築した分析手順モデルは分析手順モデル記憶部１０に保存する。ここで、抽象分析履歴データの学習は、各利用者の抽象分析履歴データに対して個別に実行し、利用者別の分析手順モデルを構築するか、もしくは、全ての利用者の抽象分析履歴データに対して学習を実行し、１つの分析手順モデルを構築することができる。学習方法の選択は利用者が行なう。
分析履歴データ学習部８−２の実現方法の一例として、正例と負例から決定木を帰納学習する決定木アルゴリズムを採用する。決定木は正例と負例を分類するための分類ルールとみなすことができる。分析履歴データに決定木アルゴリズムを適用した場合、良い結果が得られた分析手順とそうでなかった手順を分類することができる。図１５（ｃ）に示した抽象分析履歴データが蓄えられる抽象分析履歴記憶部９から決定木を構築した場合、構築される決定木の一部を図１８に示す。決定木のノード１２００とノード１２０１は分析ツール名、エッジ１２０３とエッジ１２０４は入力値と出力値、リーフ１２０２は分析品質フラグに対応する。図１８に示した決定木の構築過程を図２１と図２２に示す。
図２１に示す抽象分析履歴データは、抽象分析履歴記憶部９に保存されている抽象分析履歴データの一部であり、ここでは、決定木構築の説明に必要な情報のみを表示する。抽象分析履歴データは、抽象分析履歴データＩＤ１３００，関連語抽出１３０１，係り受け抽出１３０２，文書要約１３０３，全文検索１３０４，概念検索１３０５，分析品質フラグ１３０６，元の分析履歴データ数１３０７からなる。関連語抽出１３０１から概念検索１３０５は分析ツール名を表し、それらの属性値は分析ツールへの入力値と出力値である。入力値をＩ：｛…｝、出力値Ｏ：｛…｝といった形式で表している。例えば、抽象分析履歴データＩＤ１３００が０００１であるデータの関連語抽出１３０１では、入力の“ペット”はＩ：｛ペット｝、出力の“ペット餌，ペットグッズ”はＯ：｛ペット餌，ペットグッズ｝と表されている。分析ツールとしてはここに表示したもの以外を採用することも可能である。
分析品質フラグ１３０６は抽象分析履歴データの評価情報を属性値にもち、元の分析履歴データ数１３０７は抽象分析履歴データにまとめられた元々の分析履歴データの数を表す。例えば、図２１において、抽象分析履歴データＩＤ１３００が０００１であるデータの元の分析履歴データ数は２３である。
ここで、決定木の構築について説明する。詳しくは「Ｃ４．５：ＰｒｏｇｒａｍｓｆｏｒＭａｃｈｉｎｅＬｅａｒｎｉｎｇ」（Ｊ．Ｒ．Ｑｕｉｎｌａｎ著、ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂ．、１９９３／０１／１５発刊）に記載される。まず複数の属性から正例と負例を分類するために、適切な属性を選択する。選択の基準は情報利得と呼ばれる情報量基準を用い、情報利得の最も高い属性を適切な属性として選択する。情報利得は選択された属性の適切さを表す指標であり、高い値ほど分類に適した属性であることを表している。抽象分析履歴記憶部９を事例集合Ｓとみなし、正例をクラスＰ、負例をクラスＮとする。クラスＰの要素はｐ個、クラスＮの要素はｎ個とする。Ｓ中の任意の要素がＰあるいはＮに属していることを決定するのに必要な情報量は、以下の数１で定義される。
【００１６】
【数１】

【００１７】
ここで、ＰとＮを分類するための決定木を構築するために、属性Ａを使うことにより、集合Ｓが部分集合Ｓ１，Ｓ２， …，Ｓｖに分割されたとする。もしＳｉがクラスＰの要素をｐｉ個、クラスＮの要素をｎｉ個含んでいるとすると、属性Ａのエントロピー、すなわち、すべての部分木Ｓｉに属する対象を分類するのに必要な情報量Ｅ（Ａ）は、以下で与えられる。
【００１８】
【数２】

【００１９】
属性Ａで分岐することによって得られる情報量（情報利得）Ｇａｉｎ（Ａ）は次式で表される。
【００２０】
【数３】

【００２１】
図２１に示す例では、決定木の構築に使用する属性は分析ツール名に関する属性１３０１から１３０５までとする。クラスＰには、分析品質フラグが１である抽象分析履歴データが属し、クラスＮにはフラグが０であるデータが属する。各クラスの要素数は元の分析履歴データ数１３０７の値を用いる。例えば、ＩＤが０００２の抽象分析履歴データはクラスＮに属し、その要素数は１０となる。
また、図２１では、情報利得を計算した結果、Ｇａｉｎ（関連語抽出）＝０．９５１，Ｇａｉｎ（係り受け抽出）＝０．４５１，Ｇａｉｎ（文書要約）＝０．６８５，Ｇａｉｎ（全文検索）＝０．４８７，Ｇａｉｎ（概念検索）＝０．８５６であるので、情報利得が最も高い値を示した属性“関連語抽出”を選択している。“関連語抽出”が決定木のルートとなり、その属性値Ｉ：｛ペット｝，Ｏ：｛ペット餌，ペットグッツ｝がエッジとなる。さらに図２２では属性“関連語抽出”が選択された後の抽象分析履歴データの集合に対して、同様に属性毎に情報利得を計算して、最も高い値をもつ属性を選択する。図２２の例では、属性“係り受け抽出”が選択される。
属性の選択はクラスＰとクラスＮの分類精度が改善されなくなるまで繰り返される。すなわち、属性による事例集合の分割は、クラスＰとクラスＮに適切に分類できる属性が選択できなくなるまで続けられる。これ以上、属性を選択してもクラスＰとクラスＮを正確に分類できないのであれば、図１８のように決定木の末端、つまりリーフ１２０２に分析品質フラグを付加する。図１８の例では、決定木により分類されたデータはクラスＰに属するので、分析品質フラグは１となる。
決定木のルートからリーフへと辿ることは、分析の開始から終了までを辿ることと等しい。図１８の決定木では、入力値｛ペット｝と出力値｛ペット餌，ペットグッツ｝の関連語抽出の後に、入力値｛家畜｝と出力値｛北海道，関東｝の係り受け抽出を行なう分析は分析品質フラグが１なので過去に良い結果が得られた手順であることを表す。決定木のエッジに相当する入力値と出力値は、既に分析履歴抽象化部８−１により抽象値に変換されている。
分析履歴データ抽象化部８−１による分析履歴データの抽象化は、過去に良い結果が得られた分析手順に類似する新たな分析手順を生成するために必要である。もし分析履歴データを抽象化しなければ、構築される分析手順モデルは単に過去の分析手順を表しているに過ぎない。そのため、いくら分析手順モデルを参照しても、既に行なわれた分析手順しか利用者に提示することしかできず、新たな発見にはつながらない。
図１８の分析手順モデルでは、関連語抽出の入力値“ペット”に変換される前の値は“犬，猫，ハムスター，イグアナ”である。図１５（ａ），（ｂ）の分析履歴データが示すように入力値“犬，猫”の関連語抽出と入力値“ハムスター，イグアナ”の関連語抽出は、既に過去の分析で実行されている。図１８の分析手順モデルからは、それ以外の入力値、例えば“犬，ハムスター”をもつ関連語抽出を新たな分析手順として見つけ出すことができる。
分析手順モデルは分析履歴データの正例と負例を判別するモデルであるので、過去に良い結果が得られた分析手順とそうでないものとを区別することができる。この分析手順モデルを利用し、過去に良い結果が得られた分析手順に類似する新たな手順を利用者に提示することで、分析を支援することができる。また、利用者は端末２の指示入力部等を用いて、構築された分析手順モデルを端末２の画面上に表示させることができる。
【００２２】
２．４分析支援部
図７に分析支援部１１の詳細を示す。分析支援部１１は分析手順探索部１１−１と分析手順表示部１１−２から構成され、分析手順モデル参照フェーズで主に用いられる。分析手順モデル参照フェーズにおいて、分析を開始した利用者は分析支援部１１から次に行なうべき適切な分析手順の提示を受けることができる。
分析手順探索部１１−１は、現在分析途中にある分析手順と分析手順モデル内の分析手順を比較し、分析手順モデルから新たな分析手順を見つけ出す。ここで、分析途中にある分析手順は、分析履歴保存部５−１で保持される分析データが表す分析手順である。また、分析手順モデルは分析手順モデル学習フェーズにおいて、利用者毎に構築した分析手順モデルを利用する。しかしながら、分析手順モデルが構築されていない場合は予め用意された分析手順モデルを利用する。
例えば、分析中の手順が関連語抽出であり、入力値が“犬，ハムスター”、出力値が“牛肉，たね，首輪”であるときの分析手順探索部１１−１の動作を図２３に示す。分析手順探索部１１−１は分析履歴保存部５−１に保持されている分析途中の分析データと分析手順モデルである決定木を比較する。まず、図２３（ａ）の分析データにおける分析名“関連語抽出”と一致するノードを、図２３（ｂ）の分析手順モデルである決定木のルートからノードを辿り見つけ出す。次に、分析データにおける入力値“犬，ハムスター”と決定木のエッジの入力値“ペット”を比較する。このとき、分析手順探索部１１−１は図２３（ｃ）に示した辞書を参照して、分析データにおける入力値“犬，パムスター”を“ペット”に変換し、決定木のエッジの入力値とマッチングを行なう。分析データの出力値についても同様に比較する。最後に、分析データとマッチした決定木のノード“関連語抽出”の先にある “係り受け抽出”を次に行なうべき分析手順とする。
【００２３】
分析手順表示部１１−２は、分析手順探索部１１−１で探索した分析手順を端末２の画面上に表示する。図１９に分析手順表示部１１−２による端末２への画面表示の例を示す。図１９の画面は、図２３の例で探索された“係り受け抽出”を提示する。分析時刻表示部６００は分析開始時間および終了時間を表示し、分析データ表示部６０１は現在の分析手順を表示する。さらに分析手順表示部６０２は次に行なうべき分析手順を表示する。分析手順の表示内容は、分析名６０３，適切な入力値６０４，入力値の候補６０５，過去の入力６０６である。図１９の例では、現在の分析手順が入力値“犬，ハムスター”の関連語抽出であるので、次に行なうべき分析手順として係り受け抽出を表示され、入力値の候補６０５には “馬，牛，豚，羊”があげられる。また、過去の入力６０６には過去に入力された値も表示されている。利用者は過去の入力値を見て、過去にはない新たな入力値を選択することができる。すなわち、過去に分析が行われていない新たな分析を実行することができる。
分析手順モデルを参照することにより、過去に良い結果が得られた分析手順に類似した分析手順を利用者に提示することができ、分析の作業効率を向上することができる。
【００２４】
【発明の効果】
以上述べたように、本発明のテキストマイニング支援システムを用いることにより、データベースに蓄えられた大量のデータを分析する際に、複数の分析ツールを組み合わせてどのように分析すれば良いのか試行錯誤する時間を大幅に減らし、データを分析するために繁雑な操作を行なわずに済むという効果がある。つまり、利用者の分析効率を向上させる効果がある。また、分析手順モデル生成部で分析履歴データを抽象化したことで、分析手順モデルからは、過去の分析手順だけでなく過去の分析手順に類似した新たな分析手順を発見することができるという効果がある。さらに、新たな分析手順を利用者に提示することで、大量のデータから新たな情報の発見を支援できるという効果がある。
【図面の簡単な説明】
【図１】テキストマイニング支援システムの一実施例の全体図。
【図２】分析履歴データ学習フェーズにおける処理の流れを示した図。
【図３】分析手順モデル参照フェーズにおける処理の流れを示した図。
【図４】テキストマイニング部のデータの流れを示した図。
【図５】分析履歴管理部のデータの流れを示した図。
【図６】分析手順モデル生成部のデータの流れを示した図。
【図７】分析支援部のデータの流れを示した図。
【図８】複数の分析ツールの例とそれらの説明を示した図。
【図９】データベースの例を示した図。
【図１０】関連語抽出ツールの画面例を示した図。
【図１１】分析データの例を示した図。
【図１２】分析履歴データの例を示した図。
【図１３】分析終了を通知する画面の例を示した図。
【図１４】分析履歴表示部により表示される画面の例を示した図。
【図１５】抽象分析履歴データの例を示した図。
【図１６】辞書内にある概念階層の例を示した図。
【図１７】辞書内にある概念階層の例を示した図。
【図１８】分析手順モデルの例を示した図。
【図１９】分析手順表示部により表示される画面の例を示した図。
【図２０】係り受け抽出の画面例を示した図。
【図２１】分析手順モデルの構築例を示した図。
【図２２】分析手順モデルの構築例を示した図。
【図２３】分析手順モデルの参照の例を示した図。
【符号の説明】
１テキストマイニング支援システム、２端末、３データベース、４テキストマイニング部、５分析履歴管理部、６分析履歴記憶部、７辞書、８分析手順モデル生成部、９抽象分析履歴記憶部、１０分析手順モデル記憶部、１１分析支援部。

Claims

データベース中に格納されるデータの解析を、複数の分析ツールで行なうテキストマイニングシステムにおいて、分析開始から分析終了までの前記分析ツールの操作手順及び分析結果を分析履歴データとして記憶する記憶部と、前記分析履歴データを抽象化して抽象分析履歴データを生成する抽象化部と、前記抽象分析履歴データを学習して分析手順モデルを構築する学習部と、前記分析手順モデルを参照して新たな分析手順を利用者に提示する表示部を有することを特徴とするテキストマイニングシステム。
前記記憶される分析履歴データは、該分析履歴に対応する分析結果についての評価情報と対応づけられて記憶されていることを特徴とする請求項１に記載のテキストマイニングシステム。
指示入力部を有し、前記評価情報は該指示入力部を介して入力されることを特徴とする請求項２記載のテキストマイニングシステム。
前記抽象化部は、前記記録される分析履歴データの入力値及び出力値を、記憶される辞書を用いて、より上位概念の値に置き換えることで抽象化を行うことを特徴とする請求項１乃至３の何れかに記載のテキストマイニングシステム。
前記学習部は、前記抽象化された分析履歴データを学習し、前記分析手順モデルを構築することを特徴とする請求項１乃至４の何れかに記載のテキストマイニングシステム。
前記抽象化部は、前記評価情報に基づいて前記分析履歴データの正例と負例の割合についての閾値を設け、前記正例又は前記負例に応じた上記抽象分析履歴データを作成することを特徴とする請求項２乃至５の何れかに記載のテキストマイニングシステム。
前記表示部は、現在分析中の分析履歴データ中の分析ツールのデータと入力値を抽象化して、前記現在分析中の分析履歴データに類似する前記分析手順モデルを探索し、前記探索された分析手順を表示することを特徴とする請求項１乃至６に記載のテキストマイニングシステム。
記録されるデータの分析履歴データ及び該分析結果を対応づけて記録し、
上記分析履歴データ中の入力値を抽象化して分析手順モデルを作成し、
分析中の分析履歴データに基づいて選択された上記分析手順モデルを表示部に表示させるテキストマイニングをコンピュータに実行させるためのプログラム。
上記分析手順モデルの選択は、現在分析中の分析履歴データ中の分析ツールのデータと入力値を抽象化して、類似する前記分析手順モデルを探索することで行うことを特徴とする請求項８に記載のテキストマイニングをコンピュータに実行させるためにプログラム。
入力部からの入力に応じて上記分析手順モデルを表示させることを特徴とする請求項８又は９に記載のテキストマイニングをコンピュータに実行させるためにプログラム。