JP2005044087A - テキストマイニングシステム及びプログラム - Google Patents

テキストマイニングシステム及びプログラム Download PDF

Info

Publication number
JP2005044087A
JP2005044087A JP2003202160A JP2003202160A JP2005044087A JP 2005044087 A JP2005044087 A JP 2005044087A JP 2003202160 A JP2003202160 A JP 2003202160A JP 2003202160 A JP2003202160 A JP 2003202160A JP 2005044087 A JP2005044087 A JP 2005044087A
Authority
JP
Japan
Prior art keywords
analysis
history data
procedure
text mining
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003202160A
Other languages
English (en)
Inventor
Yoshiaki Kudo
嘉晃 工藤
Hiroyuki Kumai
裕之 隈井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003202160A priority Critical patent/JP2005044087A/ja
Publication of JP2005044087A publication Critical patent/JP2005044087A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の分析ツールから構成されるテキストマイニングシステムを用いて、データの分析を行なう利用者に、次に行なうべき分析手順を提示して、利用者が分析を効率良く行なえるテキストマイニング支援システムを提供する。
【解決手段】テキストマイニング支援システムは、利用者がテキストマイニング部4の分析ツールを用いて分析を行なった際に、その操作履歴を分析履歴データとして分析履歴記憶部6に保存する。次に、充分な分析履歴データが蓄えられた後で、分析手順モデル生成部8を用いて分析履歴データを抽象化し、分析手順モデルを構築する。最後に、分析支援部11によりその分析手順モデルを参照して、新たに分析を開始した利用者に、次に行なうべき分析手順を提示する。
【効果】適切な分析手順を利用者に提示することができるので、試行錯誤して分析ツールを操作するという作業を軽減し、過去の分析にない新たな分析手順を分析者に提示することで、新たな発見を支援するという効果もある。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明はテキストマイニングシステム、特に、テキストマイニングシステムを構成する分析ツールの操作の履歴を利用して、利用者の分析を支援するテキストマイニングシステムに関する。
【0002】
【従来の技術】
近年、インターネットなどのネットワーク技術の進歩やデータウェアハウスに代表される大規模データベース構築技術の確立により、企業などが所有するデータベースには数値や文書、図面など電子化された大量の情報が日々蓄積されるようになった。このような大量に蓄積された情報から高速に有益な情報を抽出する手法として、テキストデータから有用な情報を抽出するテキストマイニング技術が注目されている(例えば、特許文献1参照)。
テキストマイニングシステムは、複数の分析ツールから構成される。利用者はそれら複数の分析ツールを利用してデータの分析を進め、有益な情報に辿り着く。しかしながら、有益な情報を得るためには、しばしば関連語抽出や全文検索のような複数の分析ツールを組み合わせた繁雑な操作が必要になる。このような操作の繁雑さを解消するために、操作履歴を利用したシステムがある(例えば、特許文献2参照)。
【特許文献1】特開2002−183175号公報
【特許文献2】特開2002−312389号公報
【発明が解決しようとする課題】
利用者は、複数の分析ツールから構成されるテキストマイニングシステムを利用することで、大量のテキストデータから何らかの情報を得ることができる。情報の抽出は比較的簡単な操作で可能であるが、有用な情報を大量のテキストデータから抽出しようとする場合、利用者は、しばしば試行錯誤しながら複数の分析ツールを組み合わせて分析を進めなければならない。そのため、多くの時間を分析に費やす必要がある。
これに対し、上記特許文献2の開示するシステムは、単純に過去の操作履歴として記憶された入力パラメータを画面に再表示する。よって利用者は、最初から入力パラメータを設定する手間を省くことができるが、利用者の意図とは異なる履歴が画面に再表示されるという問題点がある。
本発明の目的は、複数の分析ツールから構成されるテキストマイニングシステムの利用者に対して、有用な情報を抽出するための分析手順を提示し、利用者の分析に対する発想を支援し、分析にかかる時間を短縮することである。
【0003】
【課題を解決するための手段】
上記課題を解決するために本願の開示する発明の概要は以下の通りである。データベース中に格納されるデータの解析を複数の分析ツールで行うテキストマイニングシステムであって、分析開始から分析終了までの前記分析ツールの操作手順及び分析結果を分析履歴データとして記憶する記憶部と、前記分析履歴データを抽象化して抽象分析履歴データを生成する抽象化部と、前記抽象分析履歴データを学習して分析手順モデルを構築する学習部とを有し、利用者が分析中に、表示部に前記分析手順モデルを参照して新たな分析手順を利用者に提示するシステム。及び、該システムを実現するプログラム。
【0004】
【発明の実施の形態】
初めに本願発明の概要を説明する。
本願装置においては、利用者がテキストマイニングシステムを用いて分析を進める際に、システム側では分析開始から分析終了までの1つの分析過程毎に、分析ツールの適用順序、すなわち分析手順と、各分析ツールによって得られた分析結果を対応付けて分析履歴データとして記憶する。このとき、分析手順により最終的に得られた分析結果が、良い結果であったかを利用者が評価し、その評価情報を分析履歴データに付加する。次に、十分に蓄えられた分析履歴データを帰納的に学習し、それらのデータから模範的な分析手順のモデル(以下、分析手順モデルと呼ぶ)を構築する。本願では、データから模範的なモデルを構築することを学習と呼ぶ。構築された分析手順モデルにおける分析手順は、過去に良い結果が得られた手順とそうでない手順に分けられる。ここで、分析履歴データの学習方法について説明する。分析履歴データを単に学習した場合、分析手順モデルは基本的に過去の分析手順に基づいて構築されるので、分析手順モデルに含まれる分析手順のほとんどが、過去に既に行なわれた手順であることが考えられる。このままでは、分析手順モデルを参照しても、過去の分析手順を単に利用者に提示しているに過ぎない。この問題を解決するために、分析履歴データに含まれる入力値/出力値などの情報を概念階層や類義語辞書に従い、より抽象的な値に変換することを考える。本明細書では、この操作を分析履歴データの抽象化と呼ぶ。抽象化した分析履歴データを学習して分析手順モデルを構築することで、分析手順モデルには、過去の分析手順に類似した新たな分析手順が含まれるようになる。このような分析手順モデルを参照することにより、利用者に新たな分析手順を提示することが可能になる。ここで、過去の分析手順に類似した分析手順とは、分析ツールを適用する順序が同じであり、その入力値/出力値が過去に入出力された値と概念的または意味的に類似する手順を指す。最後に、分析手順モデルを構築した後で、新たに分析を開始した利用者が分析対象をどのように分析すればよいか判断できない場合に、構築した分析手順モデルを参照し、モデル中の抽象的な分析手順を具体化することで、過去に行なわれていない、新たな分析手順をいくつか利用者に提示する。
【0005】
上述のように、本発明は、1つの分析ツールの入力支援だけではなく、1つ以上の分析ツールを組み合わせた分析手順の支援も行なう。また、本発明は、単純に履歴を参照するのではなく、学習フェーズ(抽象化プロセスを含む)を設け、履歴を学習することによって、より利用者の意図に合った履歴を見つけ出し、その履歴を分析の支援に適用できる。
以下、本発明の実施形態の一例を図面を用いて説明する。
【0006】
1.全体の構成。図1は、テキストマイニング支援システムの構成を示した図である。本発明のテキストマイニング支援システムは、端末2を利用する1人以上の利用者が端末の指示入力部等を用いて、ネットワーク2‐1を介してテキストマイニング支援処理部1にアクセスすることができる。テキストマイニング支援処理部1は、次の部分から構成される。尚、以下説明する構成はプログラムをコンピュータで読むことで実現でき、又、ハードウェアとソフトウェアの協調によって実現される。
関連語抽出や全文検索のような複数の分析ツール4−1を利用して、データベース3から情報の抽出を行なうテキストマイニング部4。テキストマイニング部4においてデータを分析した手順を分析履歴データとして、利用者毎に分析履歴記憶部6に保存する分析履歴保存部5‐1と、その分析履歴データの内容を端末2に表示する分析履歴表示部5‐2から構成される分析履歴管理部5。分析履歴記憶部6に蓄積された、利用者毎の分析履歴データを、類語辞書、シソーラス、分類階層、概念階層などからなる辞書7に基づき抽象化し、抽象化した分析履歴データを抽象分析履歴データとして抽象分析履歴記憶部9に保存する分析履歴データ抽象化部8‐1と、抽象分析履歴データから分析手順モデルを構築して分析手順モデル記憶部10に保存する分析履歴データ学習部8‐2から構成される分析手順モデル生成部8。分析手順モデル構築後、新たに分析を開始した利用者に次に行なうべき適切な分析手順を提示するために、分析手順モデル記憶部10にある分析手順モデルから分析途中の現在の分析手順にマッチする分析手順を探す分析手順探索部11‐1、見つかった分析手順を利用者に表示する分析手順表示部11‐2から構成される分析支援部11。
テキストマイニング支援システムの処理は、2つのフェーズに分けて考えることができる。1つは分析履歴データを分析履歴記憶部6に蓄積し、蓄積した分析履歴データを学習して分析手順モデルを構築するフェーズである。もう1つは構築した分析手順モデルを参照し、利用者に新たな分析手順を提示するフェーズである。前者のフェーズを分析履歴データ学習フェーズと呼び、後者のフェーズを分析手順モデル参照フェーズと呼ぶ。
テキストマイニング支援システムは、基本的に分析履歴データ学習フェーズを実行し、分析手順モデル構築後に、分析手順モデル参照フェーズを実行する。尚、分析手順モデル参照フェーズでは、分析履歴データ学習フェーズも同時に進行する。この構成によれば、分析手順モデルを参照しながら分析を進めても、その分析の手順を分析履歴データとして蓄積し、利用者の指示により新たに分析手順モデルを構築することができる。
【0007】
1.1 分析履歴データ学習フェーズ
まず、分析履歴データ学習フェーズについて説明する。このフェーズでは、テキストマイニング支援処理部1のテキストマイニング部4、分析履歴管理部5および分析手順モデル生成部8を主に用いる。
図2の流れ図は分析履歴データ学習フェーズにおける処理の流れを示す。図2のS1001からS1009までの詳細ステップとテキストマイニング支援システムの各部の動作ステップを対応付けると次のようになる。
動作ステップ1(S1001−S1003)。利用者は、テキストマイニング部4における複数の分析ツールを用いてテキスト分析を開始する。利用者が分析を終了するまで、用いたツール名とその入力値および出力値を、1つの分析データとしてテキストマイニング支援システムが分析履歴保存部5−1に保持する。このとき、分析履歴表示部5−2は、分析履歴保存部5−1で保持している分析データの内容を端末2の画面上に表示する。端末2には、図10のようなマイニングの結果を表す画面又は図14のような履歴を表す画面が表示される。動作ステップ2:(S1004−S1005)。動作ステップ1の分析が終了した時点で、分析開始から終了までの全分析データが分析履歴保存部5−1に保持される。それらの分析データは分析手順を表しており、利用者はその分析手順により良い情報が得られたかどうかを評価して該評価を入力する。このとき、分析履歴保存部5−1はその評価情報と保持している分析データを対応づけて、1つの分析履歴データとして分析履歴記憶部6に蓄積する。図12に分析履歴データの例を示す。分析品質フラグ1002が評価情報である。分析手順部1001には、図11に示すデータ構造をもつ分析データが1つ以上記録される。動作ステップ3:(S1006)。分析履歴記憶部6に蓄積された分析履歴データの数が、テキストマイニング支援システムの管理者が設定したしきい値以下であれば、再びテキスト分析を開始する。一般に精度の良いモデル生成には有る程度の母数が必要となるので、しきい値には、分析手順モデル生成部8で品質の良い分析手順モデルを構築するために、最低限必要な分析履歴データ数を設定するようにする。例えば、分析ツールが10種類であるときに、約500の分析履歴データが最低必要だと管理者が考えればしきい値は500に設定される。
動作ステップ4:(S1007−S1009) 。分析履歴データ数がしきい値以上であれば、分析手順モデルを構築することが可能になる。このとき、利用者が分析手順モデルの構築を実行すると判断した場合、又は自動的に、分析手順モデル生成部8が分析手順モデルを構築する。分析手順モデルの構築は利用者毎の分析履歴データまたは利用者全体の分析履歴データを利用して実行することが可能である。本実施例では、利用者毎の分析履歴データに対して分析手順モデル構築する場合について述べる。
以上のように分析履歴データ学習フェーズでは、テキストマイニング支援システムは、利用者に次に行なうべき分析手順を提示するために分析手順モデルを構築する。
【0008】
1.2 分析手順モデル参照フェーズ。
次に、分析手順モデル参照フェーズを説明する。このフェーズの処理では、主に分析支援部11を用いる。図3は、分析手順モデル参照フェーズの処理の流れを示す。図3のS2001からS2005までの詳細ステップとテキストマイニング支援システムの各部の動作ステップを対応付けると次のようになる。
動作ステップ1:(S2001−S2002)。利用者は、テキストマイニング部4における複数の分析ツール4−1を用いてテキスト分析を開始し、分析により得られた結果が有用な情報を含んでいるかどうかを評価する。もし良い結果が得られたならば分析は成功である。利用者の入力が“良い”との評価の場合には、テキストマイニング支援処理部1は分析を終了させる。逆に、有用な情報を含んだ結果が得られなかった場合は、さらに分析を続ける。
動作ステップ2:(S2003)。S2002の判定で、利用者が良い結果が得られなかったと評価した場合、分析支援部11における分析手順探索部11−1は、次に行なうべき適切な分析手順を利用者に提示するために、分析手順モデル記憶部10に保存された分析手順モデルを参照する。参照する分析手順モデルは、分析履歴データ学習フェーズで利用者毎に構築された分析手順モデルである。もし分析手順モデルが構築されていない場合は、テキストマイニング支援システムの管理者が予め用意した分析手順モデルを利用するようにしても良い。分析支援部11における分析手順表示部11−2は、分析手順探索部11−1が分析手順モデルから見つけ出した分析手順を端末2の画面上に表示する。
動作ステップ3:(S2004−S2005) 。利用者は、分析手順表示部11−2により端末2の画面上に表示されている複数の分析手順の候補から適切な分析手順があればその分析手順を選択し、再度S2001から処理を行なう。もし表示された分析手順の中に適切なものがなければ、利用者は現在の手順を中断して初めから分析をやり直すことができる。
以上のように分析手順モデル参照フェーズでは、テキストマイニング支援システムは利用者に次に行なうべき分析手順を提示する。
【0009】
2.テキストマイニング支援システムの各部
以下では、テキストマイニング支援処理部1を構成する各部を説明する。各部分は図4から図7に示す。図中の矢印はデータの流れを示す。
【0010】
2.1 テキストマイニング部
図4にテキストマイニング部4の詳細を示す。テキストマイニング部4は図8のリストに示すような複数の分析ツールから構成される。カラム800は分析ツールの大別、カラム801は分析ツール名、カラム802は分析ルールの簡単な説明を示す。図4に示したテキストマイニング部4の処理の流れは2つに分けることができる。
(1) データの分析:テキストマイニング部4は、端末2から送られてくる利用者の要求に従って、データベース3にアクセスして図8の800欄に示すような分析ツールを用いて、各分析ツールの対応する802欄に記載するようなマイニング処理を行なう。さらに、その分析結果を端末2の画面上に表示する。
(2) 分析データの保存:テキストマイニング部4は、複数の分析ツールの操作履歴を、入力した値と出力された分析結果と1つのデータにまとめて分析履歴保存部5に保持する。このデータを分析データと呼ぶ。
(1)は通常のテキストマイニングの処理である。マイニングの例として、図9に示すような動物に関する相談が蓄積されたデータベースから情報を抽出する場合を考える。抽出すべき情報としては、頻繁に寄せられる相談内容や、例外的な問い合わせなどが挙げられる。このデータベースは、応対日時101, 動物の種類102, 相談者の住んでいる地域103, 問い合わせの内容104の属性がある。そこに蓄積されたデータから有用な情報を抽出するために、利用者は図8のリストに示すような分析ツールを利用してデータの分析を行なう。ここで分析中の端末2の画面の一例を図10に示す。図10は関連語抽出ツールを用いた画面の一例を示す図であり、メニュー部200と関連語抽出画面300から構成される。関連語抽出画面300は実行部301、入力部302、表示形式部303と出力部304からなる。入力部302で“馬, 猫”を入力し、表示形式部303で結果の表示方法のパラメータを選択する。この例では、入力値と出力値を並べて表示する“ペア表示”を設定する。そして、実行部301におけるボタンをクリックすることで関連語抽出ツールを実行し、出力部304に入力値とその関連語がペアになって表示される。また、メニュー部200は、全分析ツールに共通する部分であり、分析ツール選択部201, 分析開始から現在までの分析手順を表示する分析手順表示ボタン202, 分析の結果を保存する分析結果保存ボタン203, 分析を最初からやり直すための分析終了ボタン204からなる。例えば分析ツール選択部201を“係り受け抽出”に変更すると、画面下部は図20に示すような係り受け抽出画面700に切り替わる。
【0011】
一方、(2)は分析履歴保存部5−1に保持された分析データから分析履歴データを形成し、分析履歴データを分析履歴記憶部6に保存するための前処理である。分析履歴保存部5−1には、図11に示すように、分析データを識別しかつ分析の順序を示す分析データID900, 分析の種類を示す分析名901, 分析に際して入力された入力値リスト902, 分析に際して設定された分析ツールのオプション値を表す入力パラメータ903, 分析の結果を示す出力値リスト904からなる分析データが保持される。
図11に示した分析データは、図10に示した関連語抽出ツールの例であって、分析データID900は0001で、入力値リスト901は{馬, 猫}、関連語抽出により得られた出力値リスト904は{草, 魚, ねずみ, りんご, にんじん}である。
【0012】
2.2 分析履歴管理部
図5に、分析履歴保存部5−1と分析履歴表示部5−2からなる分析履歴管理部5の詳細を示す。
分析履歴保存部5−1は、テキストマイニング部4からの分析データを保持し、分析が終了したとき、分析開始から終了までの分析手順に相当する分析データをまとめて1つの分析履歴データとして、利用者毎に分析履歴記憶部6に保存する。例えば、分析履歴保存部5−1は、図11に示すような分析データを保持し、分析終了時に分析データをまとめて図12のような分析履歴データを生成し、分析履歴記憶部6に保存する。
分析履歴記憶部6に保存される分析履歴データは、図12に示すように、分析履歴データID1000、分析開始から終了までの分析手順を表す複数の分析データを記憶した分析手順部1001と分析品質フラグ1002からなる。分析品質フラグとは、分析開始から終了までの分析手順により、有用な情報を含んだ良い結果が得られたかどうかを判断する値である。本実施例においては、分析品質フラグの値が1であるならば良い結果が得られたことを表し、0ならば良い結果が得られなかったことを表す。図12の分析履歴データは、分析手順部1001に分析データIDが0001から0005までの分析データを記憶し、分析履歴データの分析品質フラグ1002は1である。分析品質フラグの値の設定は分析終了時に利用者が行なう。分析品質フラグの設定方法は次の通りである。
まず、利用者が分析履歴保存部5−1に分析品質フラグの値を決定する。例えば、複数の分析ツールで分析を行なった後、利用者が分析の終了を指示した場合、テキストマイニング支援システムは図13に示す画面を端末2に表示する。画面は分析品質フラグ設定部400と分析手順表示部401からなる。利用者が分析品質フラグ設定部400にある“はい”ボタン402をクリックすると、分析品質フラグに1が設定される。逆に“いいえ”ボタン403をクリックすると0が設定される。
又は、良い結果が得られた後に、必ず行なう操作、例えば、結果を保存する操作等を分析履歴管理部5に予め定義しておき、もし利用者が定義された操作を行なった場合は分析品質フラグを1とする。また、単に分析を終了した場合は分析品質フラグを0とするようにしてもよい。これにより、利用者の操作を要求することなく装置で自動的に識別が可能になる。
【0013】
以上の2つの方法またはいずれかの一方の方法により分析品質フラグの値を設定する。以下、分析手順品質フラグが1である分析履歴データを正例、分析手順品質フラグが0である分析履歴データを負例と呼ぶ。
尚、1つの分析履歴データは分析開始から終了までの一連の分析手順を表すが、分析開始と終了は、基本的には利用者が分析終了を決定する。例えば、図10に示す分析終了ボタン204を利用者がクリックすると分析終了が分析履歴管理部5に通知される。分析終了後、先に述べたように分析品質フラグを設定する。そして、利用者が新たに分析を行なうと分析開始が分析履歴管理部5に通知される。
分析履歴表示部5−2は、分析履歴保存部5−1に保持されている分析途中の分析手順や、分析履歴記憶部6に格納されている分析履歴データを端末2の画面に表示する。分析履歴表示部5−2により端末2に表示される画面の一例を図14に示す。分析時刻表示部500では分析開始時間および終了時間、分析データ表示部501は分析開始からの分析データを表示し、現在の分析手順を示す。また、データ選択部502では、分析履歴データ画面表示部503に表示するデータを選択する。オプション504の“過去の分析手順”を選択すると、現在から遡って過去の分析履歴データが分析履歴データ画面表示部503に表示され、オプション505の“類似した分析手順”を選択すると、分析データ表示部501で表示されている分析手順に類似した手順を含む分析履歴データが表示される。類似した手順を見つけ出すために、分析履歴表示部5−2は、分析履歴記憶部6に蓄積された分析履歴データと現在分析途中にある分析データを比較し、分析履歴データの分析手順部1001の分析データの中に、分析途中の分析データが含まれているかをチェックする。もし含まれていれば類似した手順としてその分析履歴データを分析履歴データ画面表示部503に表示する。
【0014】
さらに件数指定部506で表示件数も指定できる。分析履歴データ画面表示部503では、分析データ選択部502で選択された表示方法に従って、すでに分析履歴記憶部6に保存されている分析履歴データを、分析開始時刻507, 分析終了時刻508,分析手順509, 分析結果510, 詳細情報511のカラムからなる表形式で表示する。詳細情報511の値、表示をクリックすると、図12に示すような分析履歴データの内容が参照できる。図14の例では、分析履歴データ画面表示部503には、最近行われた分析手順の過去5件分が表示されている。このように、表示件数を指定することで、画面上に全ての分析手順を表示することを制限できる。
【0015】
2.3 分析手順モデル生成部
図6に分析手順モデル生成部8の詳細を示す。分析手順モデル生成部8は、分析履歴データ抽象化部8−1と分析履歴データ学習部8−2から構成される。
分析履歴データ抽象化部8−1は、辞書7を用いて分析履歴記憶部6に保存された分析履歴データを抽象化し、抽象化した分析履歴データを抽象分析履歴データとして、抽象分析履歴記憶部9に保存する。辞書7は、類語辞書, シソーラス, 階層を用いて、用語を分類する概念階層および分類階層のいずれか、またはその組み合わせで構成される。例えば、階層表現を用いて、製品を分類するカタログは分類階層の一種であり、その情報を辞書として利用することができる。分析履歴データ抽象化部8−1による抽象化の一例を図15に示す。また、このとき利用した辞書7の概念階層を図16と図17に示す。図15 (a), (b)に抽象化前の分析履歴データを示す。これらの分析履歴データの形式は、図12で示した形式に従う。(a)と(b)の分析履歴データの入力リストの値は、図16の概念階層に従ってより抽象的な値、つまり該対象物に加え他の類似物等を含む上位の概念の言葉に置き換えられる。また、出力値リストの値は図17の概念階層における抽象的な値に置き換えられる。例えば、各入力リストにおける入力値“犬, 猫”と“ハムスター, イグアナ”は図16の概念階層に従うと、上位概念の“ペット”に置き換えられる。さらに、図16の階層により、入力値 “豚, 馬”と“牛, 羊”は“家畜”に変換される。出力値も同様な処理が行なわれる。
図16, 17の概念階層を用いた抽象化の結果、図15(a),(b)の分析履歴データは、図15(c)に示すような抽象分析履歴データに変換される。抽象分析履歴データは、抽象分析履歴データID1100, 抽象化された分析データを集めた分析手順1101, 分析品質フラグ1102, 抽象化により1つにまとめられた分析履歴データIDを記録する元データID1103からなる。
図15の例では、元データID1103は、元データIDの10032と13077を記憶している。これは、図15 (a)と(b)の分析履歴データが抽象化により図15(c)に示す抽象分析履歴データにまとめられたことを表す。
分析履歴データは、先に述べたように正例と負例に区別することができる。分析履歴データを過剰に抽象化すると、正例と負例に区別されている分析履歴データが同一の抽象分析履歴データに抽象化されることになり、分析履歴データが示す分析手順の評価情報を失う可能性がある。そこで、利用者は正例と負例の合計に対する正例または負例の割合を表す閾値を設定し、分析履歴データの抽象化で、正例と負例がなるべく同じ抽象分析履歴データに変換されないように制御する。すなわち、正例である分析履歴データに対する抽象化は、抽象化後の抽象分析履歴データに含まれる正例の割合が閾値以上であり、かつ、負例が最も含まれなくなる抽象値を概念階層から選択する。逆に負例に対する抽象化は、抽象分析履歴データに含まれる負例の割合が閾値以上であり、かつ、正例を最も含まないようにする抽象値を選択する。例えば、利用者が設定する閾値が0.7であり、図16の階層で“犬, 猫, ハムスター, イグアナ”を“ペット”に変換した場合、抽象分析履歴データに含まれる正例が400個、負例が10個である(すなわち、正例の割合は0.975)とし、さらに、“動物”に変換した場合には、正例が600個、負例が60個である(すなわち、正例の割合は0.900)とするならば、前者の方が閾値0.7を満たし、かつ、より少ない負例を含むことになるので、“ペット”を適切な抽象値として選択する。
正例と負例が同じ抽象分析履歴データに変換された場合、抽象分析履歴データの分析品質フラグは、抽象化前の分析履歴データにおいて正例の方が多ければ1、負例の方が多ければ0とする。
分析履歴データの抽象化後、分析履歴データ抽象化部8−1は生成された抽象分析履歴データを抽象分析履歴記憶部9に保存する。
一方、分析履歴データ学習部8−2は、抽象分析履歴記憶部9に保存された抽象分析履歴データから分析手順モデルを構築する。さらに、構築した分析手順モデルは分析手順モデル記憶部10に保存する。ここで、抽象分析履歴データの学習は、各利用者の抽象分析履歴データに対して個別に実行し、利用者別の分析手順モデルを構築するか、もしくは、全ての利用者の抽象分析履歴データに対して学習を実行し、1つの分析手順モデルを構築することができる。学習方法の選択は利用者が行なう。
分析履歴データ学習部8−2の実現方法の一例として、正例と負例から決定木を帰納学習する決定木アルゴリズムを採用する。決定木は正例と負例を分類するための分類ルールとみなすことができる。分析履歴データに決定木アルゴリズムを適用した場合、良い結果が得られた分析手順とそうでなかった手順を分類することができる。図15(c)に示した抽象分析履歴データが蓄えられる抽象分析履歴記憶部9から決定木を構築した場合、構築される決定木の一部を図18に示す。決定木のノード1200とノード1201は分析ツール名、エッジ1203とエッジ1204は入力値と出力値、リーフ1202は分析品質フラグに対応する。図18に示した決定木の構築過程を図21と図22に示す。
図21に示す抽象分析履歴データは、抽象分析履歴記憶部9に保存されている抽象分析履歴データの一部であり、ここでは、決定木構築の説明に必要な情報のみを表示する。抽象分析履歴データは、抽象分析履歴データID1300, 関連語抽出1301, 係り受け抽出1302, 文書要約1303, 全文検索1304, 概念検索1305, 分析品質フラグ1306, 元の分析履歴データ数1307からなる。関連語抽出1301から概念検索1305は分析ツール名を表し、それらの属性値は分析ツールへの入力値と出力値である。入力値をI:{…}、出力値O:{…}といった形式で表している。例えば、抽象分析履歴データID1300が0001であるデータの関連語抽出1301では、入力の“ペット”は I:{ペット}、出力の“ペット餌, ペットグッズ”はO:{ペット餌, ペットグッズ}と表されている。分析ツールとしてはここに表示したもの以外を採用することも可能である。
分析品質フラグ1306は抽象分析履歴データの評価情報を属性値にもち、元の分析履歴データ数1307は抽象分析履歴データにまとめられた元々の分析履歴データの数を表す。例えば、図21において、抽象分析履歴データID1300が0001であるデータの元の分析履歴データ数は23である。
ここで、決定木の構築について説明する。詳しくは「C4.5: Programs for Machine Learning」(J.R. Quinlan 著、Morgan Kaufmann Pub.、1993/01/15発刊)に記載される。まず複数の属性から正例と負例を分類するために、適切な属性を選択する。選択の基準は情報利得と呼ばれる情報量基準を用い、情報利得の最も高い属性を適切な属性として選択する。情報利得は選択された属性の適切さを表す指標であり、高い値ほど分類に適した属性であることを表している。抽象分析履歴記憶部9を事例集合Sとみなし、正例をクラスP、負例をクラスNとする。クラスPの要素はp個、クラスNの要素はn個とする。S中の任意の要素がPあるいはNに属していることを決定するのに必要な情報量は、以下の数1で定義される。
【0016】
【数1】
Figure 2005044087
【0017】
ここで、PとNを分類するための決定木を構築するために、属性Aを使うことにより、集合Sが部分集合S1, S2 , …, Svに分割されたとする。もしSi がクラスP の要素をpi 個、クラスN の要素をni 個含んでいるとすると、属性Aのエントロピー、すなわち、すべての部分木Si に属する対象を分類するのに必要な情報量E(A)は、以下で与えられる。
【0018】
【数2】
Figure 2005044087
【0019】
属性Aで分岐することによって得られる情報量(情報利得)Gain(A)は次式で表される。
【0020】
【数3】
Figure 2005044087
【0021】
図21に示す例では、決定木の構築に使用する属性は分析ツール名に関する属性1301から1305までとする。クラスPには、分析品質フラグが1である抽象分析履歴データが属し、クラスNにはフラグが0であるデータが属する。各クラスの要素数は元の分析履歴データ数1307の値を用いる。例えば、IDが0002の抽象分析履歴データはクラスNに属し、その要素数は10となる。
また、図21では、情報利得を計算した結果、Gain(関連語抽出) = 0.951, Gain(係り受け抽出) = 0.451, Gain(文書要約) =0.685, Gain(全文検索) = 0.487, Gain(概念検索) = 0.856であるので、情報利得が最も高い値を示した属性“関連語抽出”を選択している。“関連語抽出”が決定木のルートとなり、その属性値I:{ペット},O:{ペット餌,ペットグッツ}がエッジとなる。さらに図22では属性“関連語抽出”が選択された後の抽象分析履歴データの集合に対して、同様に属性毎に情報利得を計算して、最も高い値をもつ属性を選択する。図22の例では、属性“係り受け抽出”が選択される。
属性の選択はクラスPとクラスNの分類精度が改善されなくなるまで繰り返される。すなわち、属性による事例集合の分割は、クラスPとクラスNに適切に分類できる属性が選択できなくなるまで続けられる。これ以上、属性を選択してもクラスPとクラスNを正確に分類できないのであれば、図18のように決定木の末端、つまりリーフ1202に分析品質フラグを付加する。図18の例では、決定木により分類されたデータはクラスPに属するので、分析品質フラグは1となる。
決定木のルートからリーフへと辿ることは、分析の開始から終了までを辿ることと等しい。図18の決定木では、入力値{ペット}と出力値{ペット餌, ペットグッツ}の関連語抽出の後に、入力値{家畜}と出力値{北海道, 関東}の係り受け抽出を行なう分析は分析品質フラグが1なので過去に良い結果が得られた手順であることを表す。決定木のエッジに相当する入力値と出力値は、既に分析履歴抽象化部8−1により抽象値に変換されている。
分析履歴データ抽象化部8−1による分析履歴データの抽象化は、過去に良い結果が得られた分析手順に類似する新たな分析手順を生成するために必要である。もし分析履歴データを抽象化しなければ、構築される分析手順モデルは単に過去の分析手順を表しているに過ぎない。そのため、いくら分析手順モデルを参照しても、既に行なわれた分析手順しか利用者に提示することしかできず、新たな発見にはつながらない。
図18の分析手順モデルでは、関連語抽出の入力値“ペット”に変換される前の値は“犬, 猫, ハムスター, イグアナ”である。図15(a),(b)の分析履歴データが示すように入力値“犬, 猫”の関連語抽出と入力値“ハムスター, イグアナ”の関連語抽出は、既に過去の分析で実行されている。図18の分析手順モデルからは、それ以外の入力値、例えば“犬, ハムスター”をもつ関連語抽出を新たな分析手順として見つけ出すことができる。
分析手順モデルは分析履歴データの正例と負例を判別するモデルであるので、過去に良い結果が得られた分析手順とそうでないものとを区別することができる。この分析手順モデルを利用し、過去に良い結果が得られた分析手順に類似する新たな手順を利用者に提示することで、分析を支援することができる。また、利用者は端末2の指示入力部等を用いて、構築された分析手順モデルを端末2の画面上に表示させることができる。
【0022】
2.4分析支援部
図7に分析支援部11の詳細を示す。分析支援部11は分析手順探索部11−1と分析手順表示部11−2から構成され、分析手順モデル参照フェーズで主に用いられる。分析手順モデル参照フェーズにおいて、分析を開始した利用者は分析支援部11から次に行なうべき適切な分析手順の提示を受けることができる。
分析手順探索部11−1は、現在分析途中にある分析手順と分析手順モデル内の分析手順を比較し、分析手順モデルから新たな分析手順を見つけ出す。ここで、分析途中にある分析手順は、分析履歴保存部5−1で保持される分析データが表す分析手順である。また、分析手順モデルは分析手順モデル学習フェーズにおいて、利用者毎に構築した分析手順モデルを利用する。しかしながら、分析手順モデルが構築されていない場合は予め用意された分析手順モデルを利用する。
例えば、分析中の手順が関連語抽出であり、入力値が“犬, ハムスター”、出力値が“牛肉,たね,首輪”であるときの分析手順探索部11−1の動作を図23に示す。分析手順探索部11−1は分析履歴保存部5−1に保持されている分析途中の分析データと分析手順モデルである決定木を比較する。まず、図23(a)の分析データにおける分析名“関連語抽出”と一致するノードを、図23(b)の分析手順モデルである決定木のルートからノードを辿り見つけ出す。次に、分析データにおける入力値“犬, ハムスター”と決定木のエッジの入力値“ペット”を比較する。このとき、分析手順探索部11−1は図23(c)に示した辞書を参照して、分析データにおける入力値“犬, パムスター”を“ペット”に変換し、決定木のエッジの入力値とマッチングを行なう。分析データの出力値についても同様に比較する。最後に、分析データとマッチした決定木のノード“関連語抽出”の先にある “係り受け抽出”を次に行なうべき分析手順とする。
【0023】
分析手順表示部11−2は、分析手順探索部11−1で探索した分析手順を端末2の画面上に表示する。図19に分析手順表示部11−2による端末2への画面表示の例を示す。図19の画面は、図23の例で探索された“係り受け抽出”を提示する。分析時刻表示部600は分析開始時間および終了時間を表示し、分析データ表示部601は現在の分析手順を表示する。さらに分析手順表示部602は次に行なうべき分析手順を表示する。分析手順の表示内容は、分析名603, 適切な入力値604, 入力値の候補605, 過去の入力606である。図19の例では、現在の分析手順が入力値“犬, ハムスター”の関連語抽出であるので、次に行なうべき分析手順として係り受け抽出を表示され、入力値の候補605には “馬, 牛, 豚, 羊”があげられる。また、過去の入力606には過去に入力された値も表示されている。利用者は過去の入力値を見て、過去にはない新たな入力値を選択することができる。すなわち、過去に分析が行われていない新たな分析を実行することができる。
分析手順モデルを参照することにより、過去に良い結果が得られた分析手順に類似した分析手順を利用者に提示することができ、分析の作業効率を向上することができる。
【0024】
【発明の効果】
以上述べたように、本発明のテキストマイニング支援システムを用いることにより、データベースに蓄えられた大量のデータを分析する際に、複数の分析ツールを組み合わせてどのように分析すれば良いのか試行錯誤する時間を大幅に減らし、データを分析するために繁雑な操作を行なわずに済むという効果がある。つまり、利用者の分析効率を向上させる効果がある。また、分析手順モデル生成部で分析履歴データを抽象化したことで、分析手順モデルからは、過去の分析手順だけでなく過去の分析手順に類似した新たな分析手順を発見することができるという効果がある。さらに、新たな分析手順を利用者に提示することで、大量のデータから新たな情報の発見を支援できるという効果がある。
【図面の簡単な説明】
【図1】テキストマイニング支援システムの一実施例の全体図。
【図2】分析履歴データ学習フェーズにおける処理の流れを示した図。
【図3】分析手順モデル参照フェーズにおける処理の流れを示した図。
【図4】テキストマイニング部のデータの流れを示した図。
【図5】分析履歴管理部のデータの流れを示した図。
【図6】分析手順モデル生成部のデータの流れを示した図。
【図7】分析支援部のデータの流れを示した図。
【図8】複数の分析ツールの例とそれらの説明を示した図。
【図9】データベースの例を示した図。
【図10】関連語抽出ツールの画面例を示した図。
【図11】分析データの例を示した図。
【図12】分析履歴データの例を示した図。
【図13】分析終了を通知する画面の例を示した図。
【図14】分析履歴表示部により表示される画面の例を示した図。
【図15】抽象分析履歴データの例を示した図。
【図16】辞書内にある概念階層の例を示した図。
【図17】辞書内にある概念階層の例を示した図。
【図18】分析手順モデルの例を示した図。
【図19】分析手順表示部により表示される画面の例を示した図。
【図20】係り受け抽出の画面例を示した図。
【図21】分析手順モデルの構築例を示した図。
【図22】分析手順モデルの構築例を示した図。
【図23】分析手順モデルの参照の例を示した図。
【符号の説明】
1 テキストマイニング支援システム、2 端末、3 データベース、4 テキストマイニング部、5 分析履歴管理部、6 分析履歴記憶部、7 辞書、8分析手順モデル生成部、9 抽象分析履歴記憶部、10 分析手順モデル記憶部、11 分析支援部。

Claims (10)

  1. データベース中に格納されるデータの解析を、複数の分析ツールで行なうテキストマイニングシステムにおいて、分析開始から分析終了までの前記分析ツールの操作手順及び分析結果を分析履歴データとして記憶する記憶部と、前記分析履歴データを抽象化して抽象分析履歴データを生成する抽象化部と、前記抽象分析履歴データを学習して分析手順モデルを構築する学習部と、前記分析手順モデルを参照して新たな分析手順を利用者に提示する表示部を有することを特徴とするテキストマイニングシステム。
  2. 前記記憶される分析履歴データは、該分析履歴に対応する分析結果についての評価情報と対応づけられて記憶されていることを特徴とする請求項1に記載のテキストマイニングシステム。
  3. 指示入力部を有し、前記評価情報は該指示入力部を介して入力されることを特徴とする請求項2記載のテキストマイニングシステム。
  4. 前記抽象化部は、前記記録される分析履歴データの入力値及び出力値を、記憶される辞書を用いて、より上位概念の値に置き換えることで抽象化を行うことを特徴とする請求項1乃至3の何れかに記載のテキストマイニングシステム。
  5. 前記学習部は、前記抽象化された分析履歴データを学習し、前記分析手順モデルを構築することを特徴とする請求項1乃至4の何れかに記載のテキストマイニングシステム。
  6. 前記抽象化部は、前記評価情報に基づいて前記分析履歴データの正例と負例の割合についての閾値を設け、前記正例又は前記負例に応じた上記抽象分析履歴データを作成することを特徴とする請求項2乃至5の何れかに記載のテキストマイニングシステム。
  7. 前記表示部は、現在分析中の分析履歴データ中の分析ツールのデータと入力値を抽象化して、前記現在分析中の分析履歴データに類似する前記分析手順モデルを探索し、前記探索された分析手順を表示することを特徴とする請求項1乃至6に記載のテキストマイニングシステム。
  8. 記録されるデータの分析履歴データ及び該分析結果を対応づけて記録し、
    上記分析履歴データ中の入力値を抽象化して分析手順モデルを作成し、
    分析中の分析履歴データに基づいて選択された上記分析手順モデルを表示部に表示させるテキストマイニングをコンピュータに実行させるためのプログラム。
  9. 上記分析手順モデルの選択は、現在分析中の分析履歴データ中の分析ツールのデータと入力値を抽象化して、類似する前記分析手順モデルを探索することで行うことを特徴とする請求項8に記載のテキストマイニングをコンピュータに実行させるためにプログラム。
  10. 入力部からの入力に応じて上記分析手順モデルを表示させることを特徴とする請求項8又は9に記載のテキストマイニングをコンピュータに実行させるためにプログラム。
JP2003202160A 2003-07-28 2003-07-28 テキストマイニングシステム及びプログラム Pending JP2005044087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003202160A JP2005044087A (ja) 2003-07-28 2003-07-28 テキストマイニングシステム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003202160A JP2005044087A (ja) 2003-07-28 2003-07-28 テキストマイニングシステム及びプログラム

Publications (1)

Publication Number Publication Date
JP2005044087A true JP2005044087A (ja) 2005-02-17

Family

ID=34261961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003202160A Pending JP2005044087A (ja) 2003-07-28 2003-07-28 テキストマイニングシステム及びプログラム

Country Status (1)

Country Link
JP (1) JP2005044087A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060780A1 (ja) * 2005-11-22 2007-05-31 Nec Corporation 発想支援装置、発想支援方法および発想支援用プログラム
JP2010165004A (ja) * 2009-01-13 2010-07-29 Nec Corp データ蓄積システムおよびデータ管理方法
JP2012014659A (ja) * 2010-07-05 2012-01-19 Ntt Communications Corp レコメンド装置、レコメンド方法、及びプログラム
WO2016013280A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 データ分析方法、及びデータ分析システム
WO2016013099A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 素性データ管理システム、および素性データ管理方法
WO2019176062A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 分析装置、分析方法、及び、記録媒体
JP7473799B2 (ja) 2020-05-21 2024-04-24 日新電機株式会社 検索装置、モデル生成装置、検索方法、およびモデル生成方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060780A1 (ja) * 2005-11-22 2007-05-31 Nec Corporation 発想支援装置、発想支援方法および発想支援用プログラム
JP2010165004A (ja) * 2009-01-13 2010-07-29 Nec Corp データ蓄積システムおよびデータ管理方法
JP2012014659A (ja) * 2010-07-05 2012-01-19 Ntt Communications Corp レコメンド装置、レコメンド方法、及びプログラム
WO2016013280A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 データ分析方法、及びデータ分析システム
WO2016013099A1 (ja) * 2014-07-25 2016-01-28 株式会社日立製作所 素性データ管理システム、および素性データ管理方法
JPWO2016013099A1 (ja) * 2014-07-25 2017-04-27 株式会社日立製作所 素性データ管理システム、および素性データ管理方法
WO2019176062A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 分析装置、分析方法、及び、記録媒体
JPWO2019176062A1 (ja) * 2018-03-15 2020-12-17 日本電気株式会社 分析装置、分析方法、及び、プログラム
JP7067612B2 (ja) 2018-03-15 2022-05-16 日本電気株式会社 分析装置、分析方法、及び、プログラム
JP7473799B2 (ja) 2020-05-21 2024-04-24 日新電機株式会社 検索装置、モデル生成装置、検索方法、およびモデル生成方法

Similar Documents

Publication Publication Date Title
US8117198B2 (en) Methods for generating search engine index enhanced with task-related metadata
Trippe Patinformatics: Tasks to tools
US8126888B2 (en) Methods for enhancing digital search results based on task-oriented user activity
JP2004280351A (ja) 万物識別子を用いたデータ検索システムおよびデータ検索方法
US20090157617A1 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
JP2010003015A (ja) 文書検索システム
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
KR101007613B1 (ko) 키워드를 이용한 데이터의 등록, 검색을 지원하는 장치
US20130159828A1 (en) Method and Apparatus for Building Sales Tools by Mining Data from Websites
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
Azmeh et al. Automatic web service tagging using machine learning and wordnet synsets
Al-Najran et al. A requirements specification framework for big data collection and capture
WO2008094970A9 (en) Method and apparatus for creating a tool for generating an index for a document
EP1774432A4 (en) PATENT MAPPING
JP2005044087A (ja) テキストマイニングシステム及びプログラム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Alsarkhi et al. An analysis of the effect of stop words on the performance of the matrix comparator for entity resolution
CN111078988B (zh) 一种电力服务信息热点检索方法、装置和电子设备
Vording Harvesting unstructured data in heterogenous business environments; exploring modern web scraping technologies
Chen et al. DCTracVis: a system retrieving and visualizing traceability links between source code and documentation
JP2012138027A (ja) 情報検索システム、検索キーワード提示方法、およびプログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
CN111459365B (zh) 自定义咨询帮助应用管理办法
JP2002197115A (ja) 評価基準データを用いたウェブページ検索方法及び記憶媒体
Campbell et al. An approach for the capture of context-dependent document relationships extracted from Bayesian analysis of users' interactions with information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060124

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804