JP3960530B2 - Text mining program, method and apparatus - Google Patents
Text mining program, method and apparatus Download PDFInfo
- Publication number
- JP3960530B2 JP3960530B2 JP2002177956A JP2002177956A JP3960530B2 JP 3960530 B2 JP3960530 B2 JP 3960530B2 JP 2002177956 A JP2002177956 A JP 2002177956A JP 2002177956 A JP2002177956 A JP 2002177956A JP 3960530 B2 JP3960530 B2 JP 3960530B2
- Authority
- JP
- Japan
- Prior art keywords
- related word
- keyword
- list
- route
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、蓄積されたテキストデータを分析し、特徴や傾向を把握したり、未知の情報を発見したりするプロセスを支援するテキストマイニングプログラム、方法、及び装置に関する
【0002】
【従来の技術】
従来、蓄積されたテキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見する技術として、文書分類方法、重要語の抽出方法、抽出した単語の分類方法、及び抽出した単語間の関連の表示方法など、多くのテキストマイニングの技術が提案されている。その中でテキストマイニングの可視化技術として、単語間の連想関係を図1のようなネットワーク形式で表示する方法が提案されている。図1において、矩形で囲んだ各単語は分析対象のテキストから抽出したキーワードを示し、各キーワード間をつなぐ経路に付された数値はそれらのキーワード間の関連性を示す。また、人工知能学会誌16巻第2号(2001年3月)の「ビジュアルテキストマイニング」では、テキストマイニングの可視化技術として、単語マップ、アンカーマップ、及びスケルトンマップが提案されている。
【0003】
これらは、主に注目しているキーワードと直接関連のあるキーワードをネットワーク表示することにより、傾向を把握するための表示方法である。さらに、特開2001−117935や特表2001−513242には、ネットワーク表示されたキーワードをクリックすると、クリックしたキーワードに関連するキーワードを展開し、間接的な関連を見せるという方法が提案されてはいる。ただし、間接的な関連を見るためには利用者がキーワードを指定しなければならなかった。
【0004】
【発明が解決しようとする課題】
上記従来技術では、指定されたキーワードあるいは複数のキーワードに直接関連の強いキーワードをネットワーク形式あるいはリスト形式で表示するため、直接的な関連あるいは直接的な結びつきを把握することは可能であるが、間接的な結びつきを把握することができなかった。つまり、語と語の直接的な結びつきを見ることはできるが、語と語の間にどのような語が介在しているかを見ることはできなかった。そのため、利用者はある程度推測できる連想関係しか見ることができないという問題があった。また、あるキーワードを選択し、その関連語を徐々に表示していく場合においても、利用者が探索する方向を決定し、操作しなければならず、限られた経路しか表示されないという問題があった。
【0005】
本発明の目的は、第1キーワードから第2キーワードへ至る関連語の経路をあらかじめ複数表示することにより、2つのキーワードがどのような語を経由して結びついているのかという情報を提示し、このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することにある。
【0006】
【課題を解決するための手段】
上記の目的を達成するため、本発明では、指定された2つのキーワードを結ぶ関連語の経路を探索し、探索した経路を表示することを特徴とする。例えば、指定された第1キーワードからの距離が所定値以内の範囲内で、該第1キーワードに関連する関連語及び何れかの関連語を介して該第1キーワードとつながる関連語を探索し、その探索結果から該第1キーワードの関連語リストを作成し、指定された第2キーワードについても同様にして第2キーワードの関連語リストを作成し、それらの関連語リストから、両関連語リストに出現する共通関連語を探索し、その共通関連語を介して前記第1キーワードから第2キーワードに至る経路を求め、求めた経路を表示する。
【0007】
具体的には、文書データベースから関連語辞書を作成する関連語辞書作成部と関連語辞書からキーワード間の経路を求める関連語経路探索部を設ける。これにより、指定された2つのキーワード間の経路情報を作成することが可能になる。入力画面にはキーワード指定エリアの他に距離(関連語の数)を指定するエリアを設ける。これにより、第1キーワードから第2キーワードに至る距離(関連語の数)をしきい値として、関連語の経路を探索することが可能となる。また、同じくキーワード間の関連の強さ(関連度)を指定する入力エリアを設ける。これにより、関連の強さ(関連度)をしきい値として、関連語の経路を探索することが可能となる。以上のように、指定された2つのキーワード、距離、関連度を入力として探索処理を実行し、経路情報を作成する。
【0008】
さらに、作成した経路情報を表示するためのオプションとして、表示する経路の順序を指定するエリア、キーワード間の関連度、キーワードの出現頻度によって、表示する経路の表示色や、キーワードの表示色を指定するエリア等を設ける。表示する経路の順序を指定する方法として、最短経路順あるいは最長経路順の指定と、経路の関連の強さの平均値の昇順または降順による指定方法を設ける。最短経路順が指定された場合には、経路の長さが短い順に表示する。最長経路順が指定された場合には、経路の長さが長い順に表示する。経路の関連の強さの平均値の昇順が指定された場合には、経路の要素である各キーワード間の関連の強さの平均値が小さい順に表示する。経路の関連の強さの平均値の降順が指定された場合には、経路の要素である各キーワード間の関連の強さの平均値が大きい順に表示する。また、これらの表示順序の指定については、経路を優先するか、関連度の平均値を優先するかを指定できるようにする。
【0009】
さらに、キーワード間の関連の強さによって経路の表示色を指定するオプションやキーワードの出現頻度によって表示色を指定するオプションを設けてもよい。キーワード間の関連の強さを色分け表示することにより、関連の強弱を把握することができる。また、キーワードの頻度情報を色分け表示することにより、キーワードそのものの情報つまり低頻度語なのか高頻度語なのかという情報も同時に把握することができる。このように、表示オプションを設けることにより、作成した経路情報を複数のパターンで表示することが可能となる。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
【0011】
図2は、本発明の実施の形態であるテキストマイニング装置の構成を示す。本装置は、処理装置10、入力装置60、及び表示装置70を備える。処理装置10は、入力装置60から入力された情報に従って処理を行い、結果を表示装置70の入力/出力画面80に表示する。処理装置10は、あらかじめ文書データベース20から関連語辞書40を生成する関連語辞書作成部30と、指定された2つのキーワードを結ぶ経路を探索し表示する関連語経路探索部50とを備える。関連語辞書作成部30は、単語抽出部31、及び関連語抽出部32を備える。関連語経路探索部50は、関連語リスト作成部51と、関連語リスト作成部51から出力される関連語リスト52と、関連語経路作成部53と、関連語経路作成部53から出力される関連語経路リスト54と、関連語経路リスト54を表示するための関連語経路表示部55とを備える。
【0012】
図3は、図2の関連語辞書作成部30が文書データベース20から関連語辞書40を作成するまでの処理過程を示したフローチャートである。単語抽出部31では、図4に示すような文書データを文書データベース20から読み込み(ステップ101)、図5に示すように単語の切り出しを行い(ステップ102)、図6に示すような単語テーブルを作成し、関連語辞書40に登録する(ステップ103)。単語抽出の方法としては、辞書データを参照して語を切り出す方法、文中で漢字やひらがな等の文字の種類を目印として切り出す方法などがあるが、ここでは、その方式は特に制限しない。
【0013】
関連語抽出部32では、単語間の共起関係を抽出し、1つの単語に対して関連のある語を抽出し、図7に示すような共起頻度テーブルに登録する(ステップ104)。ここでいう共起関係とは、1文中に共に使用される単語同士を意味する。図7の共起頻度テーブルの共起頻度とは、単語1と単語2とが1文中で共に使用されている回数を表すものである。共起関係の抽出については、単に同一文中に出現する単語というだけではなく、一般的な構文解析方式により、主語、述語の関係や係り受けの関係を求めることもできるが、その方式は特に制限しない。抽出した単語と共起関係をもとに単語間の関連の強さを求め、図8に示すような関連度テーブルを作成し、結果を関連語辞書40に登録する(ステップ105)。なお、共起頻度を単語間の強度(関連度)としてもよいし、単語間の関係の強さを求める手法として知られている図9に示す相互情報量を強度にしてもよい。本実施の形態では、単語間の相互情報量を強度(関連度)とする。
【0014】
図10は、図2の関連語リスト作成部51で関連語リスト52を作成する処理過程を示したフローチャートである。関連語リスト作成部51では、ユーザにより指定された2つのキーワードの関連語リスト52を作成する。まず、図2の入力装置60から入力された第1キーワードを変数Aに、距離を変数Dに、関連度を変数Rに、初期値の距離0を変数D1に代入し(ステップ201)、これらを引数として関連語リスト作成関数を呼び出し(ステップ202)、図11に示すような第1キーワードの関連語リストを作成する。
【0015】
図11では、説明の便宜上、第1キーワードをキーワードAとし、キーワードAの関連語を関連語A1、関連語A2というように記号で関連語を示している。なお、図11の関連語リストは行単位のデータの集まりで構成されている。その各行のリストは、先頭要素と、その先頭要素に関連する関連語のリストとを、並べたものである。例えば、図11の第1行目のリストである[キーワードA,[関連語A1,関連語A2,関連語A3,関連語A4]]は、キーワードAの関連語が[関連語A1,関連語A2,関連語A3,関連語A4]であることを示している。第2行目以降の各行のデータも同様の表現形式であり、さらに後述する図12の第2キーワード(キーワードB)の関連語リストも同じ表現形式である。また、図11や図12のデータ全体を「関連語リスト」と呼ぶほか、説明の便宜上、図11や図12の各行の先頭要素に関連する関連語のリストも「関連語リスト」と呼ぶものとする。例えば、図11の第1行目のリストである[キーワードA,[関連語A1,関連語A2,関連語A3,関連語A4]]の中で、キーワードAに関連する関連語を並べたリストである[関連語A1,関連語A2,関連語A3,関連語A4]も「関連語リスト」と呼ぶ。
【0016】
ステップ201,202で第1キーワードの関連語リストを作成した後、第1キーワードと同様にして、図2の入力装置60から入力された第2キーワードをBに、距離をDに、関連度をRに、初期値の距離0をD1に代入し(ステップ203)、これらを引数として関連語リスト作成関数を呼び出し(ステップ204)、図12に示すような第2キーワードの関連語リストを作成する。図12では、説明の便宜上、第2キーワードをキーワードBとし、キーワードBの関連語を関連語B1、関連語B2というように記号で関連語を示している。
【0017】
図13は、図10のステップ202とステップ204で呼び出している関連語リスト作成関数の処理過程を示したフローチャートである。関連語リスト作成関数では、指定された関連度と距離の範囲内で関連語リストを作成する処理を行う。まず、最初に引数として入力した距離D1が指定された距離D以下かを判定し(ステップ301)、すでに指定されている距離D(関連語の数)を超えていたら、リターンする。距離D1が指定された距離Dの範囲内にあれば、引数として入力したキーワードXの関連語の探索が終了したかをチェックする(ステップ302)。この探索は、図8の関連度テーブルからキーワードXを探索するものである。探索するべきキーワードXの関連語がある場合には、Xの関連語を取得し、X1に代入する(ステップ303)。そして、さらにXとX1の関連度をR1に代入する(ステップ304)。関連度R1が指定された関連度R以下であるかを判定し(ステップ305)、指定された関連度R以下の場合は、X1を関連語としては取らずに、ステップ302に戻って、Xの次の関連語を取得する処理を行う。ステップ305でR1が関連度R以上の関連度であれば、X1をXの関連語リストに追加する処理を行い(ステップ306)、ステップ302に戻って、Xの次の関連語を取得する処理を行う。このようにXの関連語についてチェックを行い、Xの関連語リストを作成する。
【0018】
Xの関連語の探索が終了したら、次にXの関連語リストの各要素について同じ処理を繰り返す。すなわち、Xの関連語リストの各要素について、その要素に関連する関連語を探索して取得する処理を行う。まず、Xの関連語リストの探索が終了したかをチェックする(ステップ307)。Xの関連語リストの探索が終了している場合にはリターンする。Xの関連語リストの探索が終了していない場合には、距離D1に1加算し(ステップ308)、Xの関連語リストの各要素の探索が終了しているかをチェックする(ステップ309)。探索が終了している場合にはリターンする。探索が終了していない場合には、Xの関連語リストから要素(未だ探索を行っていない要素)を取り出してYへ代入する(ステップ310)。そして、Xの関連語リストの要素Y、指定された距離D、指定された関連度R、及び変数D1を引数として、本関連語リスト作成関数の再帰呼び出しを行う(ステップ311)。以上のような処理を行い、図11に示す第1キーワードの関連語リストと図12に示す第2キーワードの関連語リストを作成する。
【0019】
図14は、図11と図12の関連語リストをもとに関連語経路リスト54を作成する関連語経路作成部53の処理過程を示したフローチャートである。まず、図11に示した第1キーワード(キーワードA)の関連語リストと図12に示した第2キーワード(キーワードB)の関連語リストから、図15に示す共通関連語リストを作成する(ステップ401)。次に、図15に示す共通関連語リストの左側の要素から図16に示すキーワードAに至る部分リストを作成する(ステップ402)。さらに、図15に示す共通関連語リストの右側の要素から図17に示すキーワードBに至る部分リストを作成する(ステップ403)。図16及び図17の部分リストを作成したら、図15に示す共通関連語リストの左側の要素から図16に示すキーワードAに至る部分リストを利用して、図18に示すキーワードAに至る関連語経路リストを作成する(ステップ404)。またさらに、図15に示す共通関連語リストの右側の要素から図17に示すキーワードBに至る部分リストを利用して、図19に示すキーワードBに至る関連語経路リストを作成する(ステップ405)。そして最後に、キーワードAに至る関連語経路リストとキーワードBに至る関連語経路リストを結合して、図20に示すようなキーワードAからキーワードBに至る関連語経路リストを作成する(ステップ406)。
【0020】
以下、図14の各ステップの処理の詳細を順に説明する。
【0021】
図21は、図14のステップ401の共通関連語リストを作成する処理過程を示したフローチャートである。まず、第1キーワードであるキーワードAの関連語リスト(図11)の探索が終了したかをチェックし(ステップ501)、探索が終了している場合には処理を終了する。探索が終了していない場合には、キーワードAの関連語リストの中の各要素(キーワード)の探索が終了したかをチェックし(ステップ502)、終了している場合には、ステップ501に戻る。探索が終了していない場合には、キーワードAの関連語リストから次の要素を取り出してXに代入し(ステップ503)、ステップ504に進む。
【0022】
なお、ステップ501は、図11に示した関連語リストの各行データを処理単位として処理を進めていく際、すべての行データについて処理を終了したかをチェックするものである。すなわち、図11の関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ501で次の行データを処理対象として、ステップ502に進む。処理対象の行データが無くなったら、ステップ501から処理終了する。ステップ502は、処理対象の行データ中の関連語リストの全要素について処理終了したかをチェックするものである。ステップ503で取り出している要素とは、前記処理対象の行データ中の関連語リストの各要素のことである。
【0023】
ステップ502で現在の処理対象の行データ中の関連語リストの全要素についての探索が終了していない場合には、次の要素を取り出してXに代入し(ステップ503)、キーワードBの関連語リスト(図12)の探索が終了したかをチェックする(ステップ504)。キーワードBの関連語リストの探索が終了している場合には、ステップ502に戻る。キーワードBの関連語リストの探索が終了していない場合には、キーワードBの関連語の中の各要素(キーワード)の探索が終了したかをチェックする(ステップ505)。キーワードBの関連語の中の各要素(キーワード)の探索が終了している場合にはステップ504に戻る。キーワードBの関連語の中の各要素(キーワード)の探索が終了していない場合には、キーワードBの関連語リストから各要素(キーワード)を取り出してYに代入し(ステップ506)、XとYが同じかの判定を行う(ステップ507)。XとYが同じであれば、一致したYの関連語リストの先頭要素(キーワード)とキーワードXで図15に示す共通関連語リストを作成し([X,Yの関連語リストの先頭要素]のリスト形式)、ステップ506に戻る。XとYが同じでなければ、ステップ505に戻る。
【0024】
なお、ステップ504,505,506は、それぞれステップ501,502,503と同様の処理である。ただし、処理対象の関連語リストは図12のキーワードBの関連語リストである。また、ステップ506で要素を代入する変数はYである。
【0025】
例えば、図11のキーワードAの関連語リスト中の要素であって、図12のキーワードBの関連語リストにも含まれている要素は、関連語A3、関連語A11、関連語A12であり、それらの先頭要素(図12の関連語リストでの先頭要素)は、関連語A3については関連語B3、関連語A11については関連語B2と関連語B11、関連語A12については関連語B1と関連語B11であるため、図15に示すようなリストとなる。図15の共通関連語リストの各行データの左側の要素は、図11の関連語リスト中の各行データの右側の関連語リスト中の要素のうち、図12の関連語リスト中の各行データの右側の関連語リスト中の要素と同じものがあるものである。また、図15の共通関連語リストの各行データの右側の要素は、その左側の要素に対応する先頭要素(図12の関連語リスト中の先頭要素)である。
【0026】
図22は、図14のステップ402のキーワードAに至る部分リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ601)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ601で次の行データを処理対象として、ステップ602に進む。処理対象の行データが無くなったら、ステップ601から処理終了する。ステップ601で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ602)、XがキーワードAつまり終端キーワードか否かをチェックする(ステップ603)。XがキーワードAと同じだった場合は、ステップ601に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。
【0027】
ステップ603でXがキーワードAと同じでない場合は、図11のキーワードAの関連語リストの中でXを含む関連語リストの先頭要素をYに代入する(ステップ604)。すなわち、図11の各行データ中の右側の関連語リストにXを含む行データを見つけ、その先頭要素をYに代入する。次に、YとXの部分リストがすでに作成済みかをチェックし(ステップ605)、作成済みの場合はステップ601に戻る。作成済みでない場合は、YとXの部分リストを作成する(ステップ606)。この部分リストは[X,Y]の形式である。次に、YがキーワードAつまり終端キーワードか否かをチェックする(ステップ607)。YがキーワードAと同じだった場合は、ステップ601に戻り、YがキーワードAと同じでない場合は、YをXに代入し(ステップ608)、ステップ604に戻り、図16に示すキーワードAに至る部分リストを作成する処理を繰り返す。
【0028】
例えば、図15の共通関連語リストの中の第2行目のリストで左側の要素である関連語A11をキーに図11のキーワードAの関連語リストを探索してみると、[関連語A1,[関連語A11,関連語A12,関連語A13]]と[関連語A2,[関連語A21,関連語A22,関連語A23,関連語A11]]というリストがあり、それらの先頭要素は関連語A1と関連語A2なので、キーワードAに至る部分リストとして[関連語A11,関連語A1]と[関連語A11,関連語A2]を作成することになる。
【0029】
図23は、図14のステップ403のキーワードBに至る部分リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ701)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ701で次の行データを処理対象として、ステップ702に進む。処理対象の行データが無くなったら、ステップ701から処理終了する。ステップ701で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの右側の要素を取り出してXに代入し(ステップ702)、XがキーワードBつまり終端キーワードか否かをチェックする(ステップ703)。XがキーワードBと同じだった場合は、ステップ701に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。
【0030】
ステップ703でXがキーワードBと同じでない場合は、図12のキーワードBの関連語リストの中でXを含む関連語リストの先頭要素をYに代入する(ステップ704)。すなわち、図12の各行データ中の右側の関連語リストにXを含む行データを見つけ、その先頭要素をYに代入する。次に、YとXの部分リストがすでに作成済みかをチェックし(ステップ705)、作成済みの場合はステップ701に戻る。作成済みでない場合は、YとXの部分リストを作成する(ステップ706)。この部分リストは[X,Y]の形式である。次に、YがキーワードBつまり終端キーワードか否かをチェックする(ステップ707)。YがキーワードBと同じだった場合は、ステップ701に戻り、YがキーワードBと同じでない場合は、YをXに代入し(ステップ708)、ステップ704に戻り、図17に示すキーワードBに至る部分リストを作成する処理を繰り返す。
【0031】
例えば、図15の共通関連語リストの中の第3行目のリストで右側の要素である関連語B11をキーに図12のキーワードBの関連語リストを探索してみると、[関連語B1,[関連語B11,関連語A12,関連語B12,関連語B13]]と[関連語B2,[関連語B21,関連語B11,関連語A11]]というリストがあり、それらの先頭要素は関連語B1と関連語B2なので、キーワードBに至る部分リストとして[関連語B11,関連語B1]と[関連語B11,関連語B2]を作成することになる。
【0032】
図24は、図14のステップ404のキーワードAに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ801)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ801で次の行データを処理対象として、ステップ802に進む。処理対象の行データが無くなったら、ステップ801から処理終了する。ステップ801で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ802)、Xの関連語経路リストを作成する(ステップ803)。最初の関連語経路リストはXのみを要素とするリスト[X]となる。次に、XをX1に代入し(ステップ804)、図16のキーワードAに至る部分リストの探索が終了したかをチェックする(ステップ805)。この探索は、図16のキーワードAに至る部分リストから、左側の要素がX1と一致するリストを探すものである。
【0033】
図16のキーワードAに至る部分リストの探索が終了している場合は、ステップ801に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合は、図16のキーワードAに至る部分リストの中で左側の要素がX1と一致する右側の要素Yを取得し(ステップ806)、Xの関連語経路リストにYを追加する(ステップ807)。これは、Xの関連語経路リストの先頭要素としてYを挿入する処理である。次に、YがキーワードAつまり終端キーワードか否かをチェックし(ステップ808)、キーワードAと同じだった場合つまり終端キーワードだった場合は、ステップ801に戻り、YがキーワードAと同じでない場合は、YをX1に代入し(ステップ809)、ステップ806に戻り、図18に示すキーワードAに至る関連語経路リストを作成する処理を繰り返す。
【0034】
例えば、図15の共通関連語リストの中の第4行目のリストで左側の要素である関連語A12をキーに図16のキーワードAに至る部分リストを探索してみると、左側の要素が関連語A12と一致するリストには[関連語A12,関連語A1]と[関連語A12,関連語A11]があり、そのうち前者[関連語A12,関連語A1]について見てみると、[関連語A12,関連語A1]の右側の要素は関連語A1なので、まず関連語A12の関連語経路リスト[関連語A12]に関連語A1を追加して[関連語A1,関連語A12]を作成する。さらに、関連語A1はキーワードAつまり終端キーワードではないので、さらにキーワードAに至る部分リストを探索すると、左側の要素が関連語A1と一致する[関連語A1,キーワードA]というリストが見つかるので、右側の要素キーワードAを関連語A12の関連語リストに追加し[キーワードA,関連語A1,関連語A11]というリストを作成することになる。
【0035】
図25は、図14のステップ405のキーワードBに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ901)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ901で次の行データを処理対象として、ステップ902に進む。処理対象の行データが無くなったら、ステップ901から処理終了する。ステップ901で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの右側の要素を取り出してXに代入し(ステップ902)、Xの関連語経路リストを作成する(ステップ903)。最初の関連語経路リストはXのみを要素とするリスト[X]となる。次に、XをX1に代入し(ステップ904)、図17のキーワードBに至る部分リストの探索が終了したかをチェックする(ステップ905)。この探索は、図17のキーワードBに至る部分リストから、左側の要素がX1と一致するリストを探すものである。
【0036】
図17のキーワードBに至る部分リストの探索が終了している場合は、ステップ901に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合は、図17のキーワードBに至る部分リストの中で左側の要素がX1と一致する右側の要素Yを取得し(ステップ906)、Xの関連語経路リストにYを追加する(ステップ907)。これは、Xの関連語経路リストの最後尾の要素としてYを挿入する処理である。次に、YがキーワードBつまり終端キーワードか否かをチェックし(ステップ908)、キーワードBと同じだった場合つまり終端キーワードだった場合は、ステップ901に戻り、YがキーワードBと同じでない場合は、YをX1に代入し(ステップ909)、ステップ906に戻り、図19に示すキーワードBに至る関連語経路リストを作成する処理を繰り返す。
【0037】
例えば、図15の共通関連語リストの中の第3行目のリストで右側の要素である関連語B11をキーに図17のキーワードBに至る部分リストを探索してみると、左側の要素が関連語B11と一致するリストには[関連語B11,関連語B1]と[関連語B11,関連語B2]があり、そのうち前者[関連語B11,関連語B1]について見てみると、[関連語B11,関連語B1]の右側の要素は関連語B1なので、まず関連語B11の関連語経路リスト[関連語B11]に関連語B1を追加して[関連語B11,関連語B1]を作成する。さらに、関連語B1はキーワードBつまり終端キーワードではないので、さらにキーワードBに至る部分リストを探索すると、左側の要素が関連語B1と一致する[関連語B1,キーワードB]というリストが見つかるので、右側の要素キーワードBを関連語B11の関連語リストに追加し[関連語B11,関連語B1,キーワードB]というリストを作成することになる。
【0038】
図26は、図14のステップ406のキーワードAからキーワードBに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ1001)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ1001で次の行データを処理対象として、ステップ1002に進む。処理対象の行データが無くなったら、ステップ1001から処理終了する。ステップ1001で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ1002)、さらにその右側の要素を取り出してYに代入する(ステップ1003)。次に、図18のキーワードAに至る関連語経路リストの探索が終了したかをチェックする(ステップ1004)。この探索は、図18のキーワードAに至る関連語経路リストから、一番右側の要素がXと一致するリストを探すものである。
【0039】
図18のキーワードAに至る関連語経路リストの探索が終了している場合は、ステップ1001に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合には、図18のキーワードAに至る関連語経路リストの中で一番右側の要素がXと一致するリストを取得し、L1に代入する(ステップ1005)。続いて、図19のキーワードBに至る関連語経路リストの探索が終了したかをチェックする(ステップ1006)。この探索は、図19のキーワードBに至る関連語経路リストから、一番左側の要素がYと一致するリストを探すものである。
【0040】
図19のキーワードBに至る関連語経路リストの探索が終了している場合は、ステップ1004に戻り、探索が終了していない場合には、図19のキーワードBに至る関連語経路リストの中で一番左側の要素がYと一致するリストを取得し、L2に代入する(ステップ1007)。そして、L1のリストとL2のリストを結合し、キーワードAからキーワードBに至る関連語経路リストとする(ステップ1008)。リスト結合後、ステップ1006に戻り、他のリストと結合する処理を繰り返す。
【0041】
例えば、図15の共通関連語リストの中の第1行目のリスト[関連語A3,関連語B3]について見てみると、その左側の要素は関連語A3で、図18のキーワードAに至る関連語リストの中で右側の要素が関連語A3と一致するリストは[キーワードA,関連語A3]である。また、前記第1行目のリスト[関連語A3,関連語B3]の右側の要素は関連語B3で、図19のキーワードBに至る関連語リストの中で左側の要素が関連語B3と一致するリストは[関連語B3,キーワードB]である。したがって、これら2つのリストを結合し、[キーワードA,関連語A3,関連語B3,キーワードB]というリストを作成することになる。以上のような処理を行い、図20のような第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語経路リストを作成する。図20において、各行のリストはそれぞれキーワードAからキーワードBに至る経路を表している。
【0042】
図27は、図2の関連語経路表示部55により表示用データを作成する過程を示したフローチャートである。関連語経路表示部55は、関連語経路リスト54(図20)をもとに表示用データを作成する。まず、各経路の関連度の平均値を算出し(ステップ1101)、表示する順序を決定する(ステップ1102)。各経路の関連度の平均値とは、各経路のリストにおいて、隣合う要素間の関連度の平均値のことである。表示する順序は利用者が指定した順番となる。最短経路順であれば、関連語経路リストの中の要素数が最も少ないリストから順に表示し、最長経路順であれば関連語経路リストの中の要素数が最も多いリストから順に表示する。また、関連の強さの平均値の高い順であれば、ステップ1101で算出した平均値の高い順に表示する。さらにそれらの組み合わせにより表示順序を決定する。表示する経路を決定したら、表示用のデータを作成する(ステップ1103)。オプションで、所定の関連度以下の経路の表示色を変更するように指定できる。また、キーワードの出現頻度が所定値以下のものについてはその表示色を変更するように指定できる。例えば、関連度3.0以下の経路の表示色が赤と指定されている場合には、該当するキーワード間の経路を赤に指定する。また、出現頻度50以下の関連語の表示色が青と指定されている場合には、該当するキーワードの背景を青に指定する。
【0043】
図28は、HTML(HyperText Markup Language)形式における表示用データ作成例を示す。図28は、「文字」と「見づらい」の間の経路を赤に、「見づらい」の背景を青に指定する例を示している。以上のように、指定されたオプションにしたがって表示用データを作成し、探索結果を図2の表示装置70の入力/出力画面80に表示する。
【0044】
なお、ここでは表示色を変更する例を説明したが、変更する表示態様は表示色に限らない。例えば、線の太さ、強調表示、ブリンクの有無などを変更するようにしてもよい。
【0045】
図29は、探索結果の表示例を示す。この例は、「パソコン」と「高齢者」をキーワードとして入力し探索した結果である。図29の例から、「パソコン」と「高齢者」との間には、「インターネット」「メール」「学習意欲」というキーワードが多く、「難しい」−「学習意欲」と「文字」−「見づらい」の経路が利用者の指定により赤で強調され、また「見づらい」というキーワードが青で強調されているので、高齢者向けのパソコンの要件として「メールも含めて操作がシンプルで、キーボードの文字やディスプレイの表示文字を大きくした方が良い」というようなことを推測することができる。このように、キーワード間の関連語を表示することにより、従来のネットワーク形式の表示方法では得られなかった情報を得ることが可能となる。
【0046】
なお、本発明は、図1〜図29を用いて説明した実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、上記実施の形態では、表示方法としてHTML形式で表示する例を説明したが、グラフィックイメージを作成し表示させることも可能である。
【0047】
上記実施形態によれば、第1キーワードから第2キーワードへ至る関連語の経路を複数表示するため、2つの語がどのような語を経由して結びついているのかを把握することができる。このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することが可能となる。また、最短経路順、最長経路順、関連の強さの平均値の昇順、降順と表示方法を変更することが可能であるため、視点を変えて語と語の結びつきを見ることもできる。営業日報、店長日誌などの各種報告書、一般的な新聞データをもとに注目したキーワードにどのような関連があるのか傾向を判断するだけではなく、結びつきを見ることにより、新たな知識を発見することが可能となる。例えば、高齢者向けパソコンや高齢者向け携帯電話といった製品開発にどのような機能が必要なのかなど、十分なアンケートが取れない場合にも、潜在的なニーズを探索することが可能になる。
【0048】
【発明の効果】
以上説明したように、本発明によれば、第1キーワードから第2キーワードへ至る関連語の経路をあらかじめ複数表示することにより、2つのキーワードがどのような語を経由して結びついているのかという情報を提示し、このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することができる。
【図面の簡単な説明】
【図1】単語間の連想関係をネットワーク形式で表示した図である。
【図2】本発明の実施の形態であるテキストマイニング装置の構成を示す図である。
【図3】文書データベースから関連語辞書を作成するまでの処理過程を示したフローチャートである。
【図4】文書データベースから読み込まれる文書データの例を示した図である。
【図5】単語抽出部で解析され、切り出された単語の例を示した図である。
【図6】単語抽出部で作成される単語テーブルの例を示した図である。
【図7】関連語抽出部で作成される共起頻度テーブルの例を示した図である。
【図8】関連語抽出部で作成される関連度テーブルの例を示した図である。
【図9】関連度テーブル作成過程で使用する相互情報量の計算式を示した図である。
【図10】関連語リスト作成部で関連語リストを作成する処理過程を示したフローチャートである。
【図11】第1キーワードの関連語リストの例を示した図である。
【図12】第2キーワードの関連語リストの例を示した図である。
【図13】関連語リスト作成関数の処理過程を示したフローチャートである。
【図14】関連語経路作成部で関連語経路リストを作成する処理過程を示したフローチャートである。
【図15】第1キーワードの関連語リストと第2キーワードの関連語リストの共通の関連語リストの例を示した図である。
【図16】第1キーワード(キーワードA)に至る部分リストの例を示した図である。
【図17】第2キーワード(キーワードB)に至る部分リストの例を示した図である。
【図18】第1キーワード(キーワードA)に至る関連語経路リストの例を示した図である。
【図19】第2キーワード(キーワードB)に至る関連語経路リストの例を示した図である。
【図20】第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語の経路リストの例を示した図である。
【図21】共通関連語リスト作成の処理過程を示したフローチャートである。
【図22】第1キーワード(キーワードA)に至る部分リスト作成の処理過程を示したフローチャートである。
【図23】第2キーワード(キーワードB)に至る部分リスト作成の処理過程を示したフローチャートである。
【図24】第1キーワード(キーワードA)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図25】第2キーワード(キーワードB)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図26】第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図27】関連語経路表示部で表示用データを作成する処理過程を示したフローチャートである。
【図28】HTML形式による表示用データ作成例を示した図である。
【図29】第1キーワードから第2キーワードへ至る関連語リストの探索結果を示した図である。
【符号の説明】
10……処理装置
20……文書データベース
30……関連語辞書作成部
31……単語抽出部
32……関連語抽出部
40……関連語辞書
50……関連語経路探索部
51……関連語リスト作成部
52……関連語リスト
53……関連語経路作成部
54……関連語経路リスト
55……関連語経路表示部
60……入力装置
70……表示装置
80……入力/出力装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a text mining program, method, and apparatus for supporting a process of analyzing accumulated text data, grasping characteristics and trends, and discovering unknown information.
[0002]
[Prior art]
Conventionally, document classification methods, important word extraction methods, extracted word classification methods, and between extracted words have been used as techniques for analyzing accumulated text data to understand features and trends and to discover unknown information. Many text mining techniques have been proposed, such as related display methods. Among them, as a text mining visualization technique, a method of displaying an associative relationship between words in a network format as shown in FIG. 1 has been proposed. In FIG. 1, each word surrounded by a rectangle indicates a keyword extracted from the text to be analyzed, and a numerical value attached to a path connecting the keywords indicates a relationship between the keywords. In addition, “Visual Text Mining” in Journal of the Japanese Society for Artificial Intelligence Vol. 16 No. 2 (March 2001) proposes word maps, anchor maps, and skeleton maps as text mining visualization techniques.
[0003]
These are display methods for grasping a tendency by displaying a keyword that is directly related to a keyword of interest mainly on the network. Furthermore, Japanese Patent Laid-Open No. 2001-117935 and Special Table 2001-513242 have proposed a method in which when a keyword displayed on a network is clicked, a keyword related to the clicked keyword is expanded to show an indirect relationship. . However, to see indirect associations, the user had to specify keywords.
[0004]
[Problems to be solved by the invention]
In the above prior art, keywords that are directly related to a specified keyword or a plurality of keywords are displayed in a network format or a list format, so it is possible to grasp a direct relationship or a direct connection, but indirectly I couldn't figure out a typical connection. In other words, you can see the direct connection between words, but you can't see what words are between words. Therefore, there is a problem that the user can see only associative relations that can be guessed to some extent. Even when a keyword is selected and its related words are displayed gradually, there is a problem that the user has to determine and operate the search direction, and only a limited route is displayed. It was.
[0005]
The object of the present invention is to present information on what words the two keywords are connected to by displaying a plurality of related word paths from the first keyword to the second keyword in advance. By displaying the path of the related word, unknown information that has not been noticed until now is presented to the user.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the present invention is characterized by searching for a route of related words connecting two designated keywords and displaying the searched route. For example, within a range where the distance from the designated first keyword is within a predetermined value, a related word related to the first keyword and a related word connected to the first keyword via any related word are searched. A related word list of the first keyword is created from the search result, and a related word list of the second keyword is similarly created for the designated second keyword. From the related word list, both related word lists are created. A common related word that appears is searched, a route from the first keyword to the second keyword is obtained via the common related word, and the obtained route is displayed.
[0007]
Specifically, a related word dictionary creating unit that creates a related word dictionary from a document database and a related word route searching unit that obtains a route between keywords from the related word dictionary are provided. This makes it possible to create route information between the two specified keywords. In addition to the keyword specification area, an area for specifying the distance (number of related words) is provided on the input screen. As a result, it is possible to search for the path of the related word using the distance (number of related words) from the first keyword to the second keyword as a threshold value. Similarly, an input area for specifying the strength of association (relationship) between keywords is provided. As a result, it is possible to search for the path of the related word using the strength of the relation (relevance) as a threshold. As described above, the search processing is executed with the two specified keywords, distance, and relevance as inputs, and route information is created.
[0008]
In addition, as an option to display the created route information, specify the display color of the displayed route and the display color of the keyword according to the area to specify the order of the displayed route, the degree of association between keywords, and the appearance frequency of the keyword An area to be used is provided. As a method for designating the order of the routes to be displayed, there are provided a designation method by specifying the shortest route order or the longest route order and the ascending or descending order of the average value of the related strength of the route. When the shortest route order is specified, the route lengths are displayed in ascending order. When the longest route order is designated, the route lengths are displayed in order from the longest. When the ascending order of the average value of the relationship strength of the route is designated, the average value of the relationship strength between the keywords that are the elements of the route is displayed in ascending order. When the descending order of the average value of the relation strength of the route is designated, the average value of the relation strength between the keywords as the elements of the route is displayed in descending order. Further, regarding the designation of the display order, it is possible to designate whether to give priority to the route or to give priority to the average value of relevance.
[0009]
Furthermore, an option for designating the display color of the route depending on the strength of the relationship between keywords and an option for designating the display color based on the appearance frequency of the keyword may be provided. By displaying the strength of the relationship between keywords in different colors, the strength of the relationship can be grasped. In addition, by displaying the keyword frequency information in different colors, it is possible to simultaneously grasp the information of the keyword itself, that is, information about whether it is a low-frequency word or a high-frequency word. As described above, by providing the display option, the created route information can be displayed in a plurality of patterns.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0011]
FIG. 2 shows a configuration of a text mining apparatus according to an embodiment of the present invention. The apparatus includes a processing device 10, an input device 60, and a display device 70. The processing device 10 performs processing according to the information input from the input device 60 and displays the result on the input / output screen 80 of the display device 70. The processing device 10 includes a related word dictionary creation unit 30 that generates a
[0012]
FIG. 3 is a flowchart showing a process until the related word dictionary creation unit 30 in FIG. 2 creates the
[0013]
The related
[0014]
FIG. 10 is a flowchart showing a process of creating the
[0015]
In FIG. 11, for convenience of explanation, the first keyword is a keyword A, and related words of the keyword A are related words indicated by symbols such as a related word A1 and a related word A2. The related word list in FIG. 11 is composed of a collection of data in units of lines. The list of each line is an arrangement of a head element and a list of related terms related to the head element. For example, [Keyword A, [Related Word A1, Related Word A2, Related Word A3, Related Word A4]] in the first line list in FIG. A2, related word A3, related word A4]. The data in the second and subsequent lines has the same expression format, and the related word list of the second keyword (keyword B) in FIG. 12 described later also has the same expression format. Further, in addition to calling the entire data of FIG. 11 and FIG. 12 as a “related word list”, for convenience of explanation, a list of related words related to the head element of each line of FIG. 11 and FIG. 12 is also called a “related word list”. And For example, in [Keyword A, [Related Word A1, Related Word A2, Related Word A3, Related Word A4]] which is the list on the first line in FIG. 11, a list in which related words related to Keyword A are arranged. [Related Word A1, Related Word A2, Related Word A3, Related Word A4] is also referred to as “related word list”.
[0016]
After the related words list of the first keyword is created in
[0017]
FIG. 13 is a flowchart showing the process of the related word list creation function called at
[0018]
When the search for the related word of X is completed, the same process is repeated for each element of the related word list of X. That is, for each element in the X related word list, a process for searching for and acquiring related words related to the element is performed. First, it is checked whether or not the search for the related word list of X is completed (step 307). If the search for the related word list of X has been completed, the process returns. If the search of the related word list of X is not completed, 1 is added to the distance D1 (step 308), and it is checked whether the search of each element of the related word list of X is completed (step 309). If the search is complete, return. If the search has not ended, an element (an element that has not been searched yet) is taken out from the related word list of X and assigned to Y (step 310). Then, the related word list creation function is recursively called with the element Y of the related word list of X, the specified distance D, the specified relevance level R, and the variable D1 as arguments (step 311). The above processing is performed to create a related word list of the first keyword shown in FIG. 11 and a related word list of the second keyword shown in FIG.
[0019]
FIG. 14 is a flowchart showing the process of the related word
[0020]
Hereinafter, details of the processing of each step of FIG. 14 will be described in order.
[0021]
FIG. 21 is a flowchart showing the process of creating the common related word list in
[0022]
Note that
[0023]
If the search for all the elements of the related word list in the current row data to be processed is not completed in
[0024]
[0025]
For example, the elements in the related word list of the keyword A in FIG. 11 and also included in the related word list of the keyword B in FIG. 12 are the related word A3, the related word A11, and the related word A12. Those head elements (the head element in the related word list of FIG. 12) are related words B3 for related word A3, related words B2 and related words B11 for related word A11, and related words B1 for related word A12. Since it is the word B11, the list is as shown in FIG. The element on the left side of each row data in the common related word list in FIG. 15 is the right side of each row data in the related word list in FIG. 12 among the elements in the related word list on the right side of each row data in the related word list in FIG. Has the same elements as in the related word list. Further, the element on the right side of each row data of the common related word list in FIG. 15 is the head element corresponding to the element on the left side (head element in the related word list in FIG. 12).
[0026]
FIG. 22 is a flowchart showing a process of creating a partial list reaching keyword A in
[0027]
If X is not the same as keyword A in
[0028]
For example, when searching the related word list of the keyword A in FIG. 11 using the related word A11 which is the element on the left side as a key in the second row list in the common related word list in FIG. , [Related word A11, related word A12, related word A13]] and [related word A2, [related word A21, related word A22, related word A23, related word A11]], and their head elements are related. Since the word A1 and the related word A2, [related word A11, related word A1] and [related word A11, related word A2] are created as a partial list leading to the keyword A.
[0029]
FIG. 23 is a flowchart showing a process of creating a partial list reaching keyword B in
[0030]
If X is not the same as keyword B in
[0031]
For example, when searching the related word list of the keyword B in FIG. 12 using the related word B11 which is the element on the right side in the list in the third row in the common related word list in FIG. 15, [Related Word B1 , [Related Word B11, Related Word A12, Related Word B12, Related Word B13]] and [Related Word B2, [Related Word B21, Related Word B11, Related Word A11]], and their head elements are related. Since it is the word B1 and the related word B2, [Related Word B11, Related Word B1] and [Related Word B11, Related Word B2] are created as a partial list leading to the keyword B.
[0032]
FIG. 24 is a flowchart showing a process of creating a related word path list that reaches keyword A in
[0033]
When the search for the partial list leading to the keyword A in FIG. 16 has been completed, the process returns to step 801 to perform processing for retrieving the next row data of the common related word list in FIG. 15 as a processing target. If the search is not completed, the right element Y whose left element matches X1 in the partial list leading to keyword A in FIG. 16 is obtained (step 806), and Y is added to the related word path list of X. Add (step 807). This is a process of inserting Y as the head element of the related word path list of X. Next, it is checked whether Y is the keyword A, that is, the end keyword (step 808). If it is the same as the keyword A, that is, if it is the end keyword, the process returns to step 801, and if Y is not the same as the keyword A, , Y is substituted into X1 (step 809), and the process returns to step 806 to repeat the process of creating the related word path list reaching the keyword A shown in FIG.
[0034]
For example, when searching the partial list reaching the keyword A in FIG. 16 using the related word A12 as the left element in the list in the fourth row in the common related word list in FIG. 15, the left element is The list that matches the related word A12 includes [related word A12, related word A1] and [related word A12, related word A11], and when looking at the former [related word A12, related word A1], Since the element on the right side of the word A12, the related word A1] is the related word A1, first, the related word A1 is added to the related word path list [related word A12] of the related word A12 to create [related word A1, related word A12]. To do. Further, since the related word A1 is not the keyword A, that is, the terminal keyword, further searching the partial list leading to the keyword A finds a list [related word A1, keyword A] whose left side element matches the related word A1, The element keyword A on the right side is added to the related word list of the related word A12 to create a list [keyword A, related word A1, related word A11].
[0035]
FIG. 25 is a flowchart showing a process of creating a related word path list reaching keyword B in
[0036]
If the search for the partial list reaching keyword B in FIG. 17 has been completed, the process returns to step 901 to perform processing for extracting the next row data of the common related word list in FIG. 15 as a processing target. If the search has not ended, the right element Y whose left element matches X1 in the partial list leading to the keyword B in FIG. 17 is obtained (step 906), and Y is added to the related word path list of X. It adds (step 907). This is a process of inserting Y as the last element of the related word path list of X. Next, it is checked whether or not Y is a keyword B, that is, a terminal keyword (step 908). If it is the same as keyword B, that is, if it is a terminal keyword, the process returns to step 901, and if Y is not the same as keyword B , Y is substituted for X1 (step 909), the process returns to step 906, and the process of creating the related word path list reaching the keyword B shown in FIG. 19 is repeated.
[0037]
For example, when a partial list reaching the keyword B in FIG. 17 is searched using the related word B11 as the right element in the list in the third row in the common related word list in FIG. 15, the left element is The list that matches with the related word B11 includes [related word B11, related word B1] and [related word B11, related word B2], and when looking at the former [related word B11, related word B1], Since the element on the right side of the word B11, the related word B1] is the related word B1, first, the related word B1 is added to the related word path list [related word B11] of the related word B11 to create [related word B11, related word B1]. To do. Further, since the related word B1 is not the keyword B, that is, the terminal keyword, when a partial list reaching the keyword B is further searched, a list of [related word B1, keyword B] whose left side element matches the related word B1 is found. The element keyword B on the right side is added to the related word list of the related word B11 to create a list [related word B11, related word B1, keyword B].
[0038]
FIG. 26 is a flowchart showing the process of creating a related word path list from keyword A to keyword B in
[0039]
When the search for the related word path list reaching the keyword A in FIG. 18 has been completed, the process returns to step 1001 to perform processing for extracting the next row data of the common related word list in FIG. 15 as a processing target. If the search is not completed, a list in which the rightmost element matches X in the related word path list leading to keyword A in FIG. 18 is acquired and substituted into L1 (step 1005). Subsequently, it is checked whether or not the search for the related word path list leading to the keyword B in FIG. 19 is completed (step 1006). In this search, a list in which the leftmost element matches Y is searched from the related word path list reaching the keyword B in FIG.
[0040]
If the search for the related word path list reaching the keyword B in FIG. 19 has been completed, the process returns to step 1004. If the search has not been completed, the related word path list in the related word path list reaching the keyword B in FIG. A list in which the leftmost element matches Y is acquired and assigned to L2 (step 1007). Then, the list of L1 and the list of L2 are combined to form a related word path list from the keyword A to the keyword B (step 1008). After combining the lists, the process returns to step 1006 to repeat the process of combining with other lists.
[0041]
For example, looking at the list [related word A3, related word B3] on the first line in the common related word list in FIG. 15, the element on the left side is related word A3, which leads to keyword A in FIG. In the related word list, a list whose right side element matches the related word A3 is [keyword A, related word A3]. Further, the element on the right side of the list [Related Word A3, Related Word B3] on the first row is the related word B3, and the left element in the related word list leading to the keyword B in FIG. 19 matches the related word B3. The list to be performed is [Related Word B3, Keyword B]. Therefore, these two lists are combined to create a list [keyword A, related word A3, related word B3, keyword B]. The above processing is performed to create a related word path list from the first keyword (keyword A) to the second keyword (keyword B) as shown in FIG. In FIG. 20, each list of lines represents a route from the keyword A to the keyword B.
[0042]
FIG. 27 is a flowchart showing a process of creating display data by the related word
[0043]
FIG. 28 shows an example of display data creation in the HTML (HyperText Markup Language) format. FIG. 28 shows an example in which the route between “character” and “difficult to see” is designated in red and the background of “difficult to see” is designated in blue. As described above, display data is created according to the designated option, and the search result is displayed on the input / output screen 80 of the display device 70 of FIG.
[0044]
In addition, although the example which changes a display color was demonstrated here, the display mode to change is not restricted to a display color. For example, you may make it change the thickness of a line, an emphasis display, the presence or absence of a blink, etc.
[0045]
FIG. 29 shows a display example of search results. In this example, “personal computer” and “elderly” are input as keywords and searched. From the example of FIG. 29, there are many keywords “Internet”, “Mail”, “Motivation to learn” between “PC” and “Elderly”, “Difficult”-“Motivation to learn” and “Text”-“Difficult to see” ”Is highlighted in red according to the user ’s designation, and the keyword“ difficult to see ”is highlighted in blue. And it is better to enlarge the display characters on the display. Thus, by displaying related words between keywords, it is possible to obtain information that could not be obtained by a conventional network-type display method.
[0046]
The present invention is not limited to the embodiment described with reference to FIGS. 1 to 29, and various modifications can be made without departing from the scope of the invention. For example, in the above-described embodiment, an example of displaying in the HTML format as the display method has been described. However, it is also possible to create and display a graphic image.
[0047]
According to the above embodiment, since a plurality of related word paths from the first keyword to the second keyword are displayed, it is possible to grasp what word the two words are connected to. By displaying the path of such a related word, it is possible to present unknown information that the user has not noticed until now. In addition, since it is possible to change the display method with the shortest path order, the longest path order, the ascending order of the average value of the related strengths, and the descending order, it is possible to see the connection between words from different viewpoints. Discover new knowledge not only by judging trends in various keywords such as daily reports, store manager's diaries, and general newspaper data, but also by observing the connections. It becomes possible to do. For example, it is possible to search for potential needs even when sufficient questionnaires are not available, such as what functions are necessary for product development such as a PC for elderly people and a mobile phone for elderly people.
[0048]
【The invention's effect】
As described above, according to the present invention, by displaying a plurality of related word paths from the first keyword to the second keyword in advance, it is possible to determine which word the two keywords are connected to. By presenting information and displaying the path of such related terms, it is possible to present unknown information that the user has not noticed before.
[Brief description of the drawings]
FIG. 1 is a diagram showing association relationships between words in a network format.
FIG. 2 is a diagram showing a configuration of a text mining device according to an embodiment of the present invention.
FIG. 3 is a flowchart showing a processing process until a related word dictionary is created from a document database.
FIG. 4 is a diagram showing an example of document data read from a document database.
FIG. 5 is a diagram illustrating an example of a word that is analyzed and cut out by a word extraction unit;
FIG. 6 is a diagram showing an example of a word table created by a word extraction unit.
FIG. 7 is a diagram showing an example of a co-occurrence frequency table created by a related word extraction unit.
FIG. 8 is a diagram showing an example of a relevance level table created by a related word extraction unit.
FIG. 9 is a diagram showing a calculation formula for mutual information used in the relevance degree table creation process;
FIG. 10 is a flowchart showing a process of creating a related word list by a related word list creating unit.
FIG. 11 is a diagram illustrating an example of a related word list of a first keyword.
FIG. 12 is a diagram illustrating an example of a related word list of a second keyword.
FIG. 13 is a flowchart showing a process of a related word list creation function.
FIG. 14 is a flowchart showing a process of creating a related word path list by a related word path creating unit.
FIG. 15 is a diagram showing an example of a common related word list of the related word list of the first keyword and the related word list of the second keyword.
FIG. 16 is a diagram showing an example of a partial list that reaches the first keyword (keyword A);
FIG. 17 is a diagram showing an example of a partial list that reaches the second keyword (keyword B);
FIG. 18 is a diagram showing an example of a related word path list that reaches the first keyword (keyword A);
FIG. 19 is a diagram showing an example of a related word path list that reaches the second keyword (keyword B);
FIG. 20 is a diagram showing an example of a related word path list from a first keyword (keyword A) to a second keyword (keyword B);
FIG. 21 is a flowchart showing a process of creating a common related word list.
FIG. 22 is a flowchart showing a process of creating a partial list up to the first keyword (keyword A).
FIG. 23 is a flowchart showing a process of creating a partial list up to the second keyword (keyword B).
FIG. 24 is a flowchart showing a process of creating a related word path list up to the first keyword (keyword A).
FIG. 25 is a flowchart showing a process of creating a related word path list up to the second keyword (keyword B).
FIG. 26 is a flowchart showing a process of creating a related word path list from the first keyword (keyword A) to the second keyword (keyword B).
FIG. 27 is a flowchart showing a process of creating display data in a related word path display unit.
FIG. 28 is a diagram showing an example of creating display data in HTML format.
FIG. 29 is a diagram showing a search result of a related word list from the first keyword to the second keyword.
[Explanation of symbols]
10 …… Processing device
20 …… Document database
30 …… Related word dictionary creation part
31 …… Word extractor
32 …… Related word extractor
40 …… Related word dictionary
50 …… Related word path search unit
51 …… Related word list creation part
52 …… Related word list
53 …… Related word path creation part
54 …… Related word path list
55 …… Related word path display
60 …… Input device
70 …… Display device
80 …… Input / output device
Claims (6)
コンピュータに、
指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示するステップと
を実行させるためのテキストマイニングプログラム。A text mining program for analyzing text data, understanding features and trends, and discovering unknown information.
On the computer,
Searching for a path of related terms connecting two specified keywords;
A text mining program for executing a step of displaying the searched route in the shortest route order or the longest route order according to a user's specification .
コンピュータに、
指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示するステップと
を実行させるためのテキストマイニングプログラム。A text mining program for analyzing text data, understanding features and trends, and discovering unknown information.
On the computer,
Searching for a path of related terms connecting two specified keywords;
A text mining program for executing a step of displaying the searched route in ascending or descending order of the average value of the strength of association between the keywords as the elements of the route according to the user's specification .
前記コンピュータが備える経路探索手段が、指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
前記コンピュータが備える表示手段が、ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示するステップと
を実行することを特徴とするテキストマイニング方法。 In a text mining device constructed using a computer, it is a text mining method for analyzing text data, grasping features and trends, and discovering unknown information,
A route search means provided in the computer for searching for a route of related words connecting the two specified keywords;
Text mining method which the display unit included in the computer, in response to user's designation, the shortest path order or longest path order, and executes the step of displaying the searched route.
前記コンピュータが備える経路探索手段が、指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
前記コンピュータが備える表示手段が、ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示するステップと
を実行することを特徴とするテキストマイニング方法。 In a text mining device constructed using a computer, it is a text mining method for analyzing text data, grasping features and trends, and discovering unknown information,
A route search means provided in the computer for searching for a route of related words connecting the two specified keywords;
The display means provided in the computer executes a step of displaying the searched route in ascending or descending order of the average value of the strength of association between the keywords that are the elements of the route according to the user's designation. A featured text mining method.
指定された2つのキーワードを結ぶ関連語の経路を探索する手段と、
ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示する手段と
を備えたことを特徴とするテキストマイニング装置。A text mining device for analyzing text data, understanding features and trends, and discovering unknown information,
Means for searching a path of related terms connecting two specified keywords;
A text mining device comprising: means for displaying searched routes in the shortest route order or in the longest route order according to a user's specification .
指定された2つのキーワードを結ぶ関連語の経路を探索する手段と、
ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示する手段と
を備えたことを特徴とするテキストマイニング装置。A text mining device for analyzing text data, understanding features and trends, and discovering unknown information,
Means for searching a path of related terms connecting two specified keywords;
A text mining device comprising: means for displaying the searched routes in ascending or descending order of the average value of the strength of association between the keywords that are elements of the route according to the user's specification .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002177956A JP3960530B2 (en) | 2002-06-19 | 2002-06-19 | Text mining program, method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002177956A JP3960530B2 (en) | 2002-06-19 | 2002-06-19 | Text mining program, method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004021763A JP2004021763A (en) | 2004-01-22 |
JP3960530B2 true JP3960530B2 (en) | 2007-08-15 |
Family
ID=31175818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002177956A Expired - Fee Related JP3960530B2 (en) | 2002-06-19 | 2002-06-19 | Text mining program, method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3960530B2 (en) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100806862B1 (en) | 2004-07-16 | 2008-02-26 | (주)이네스트커뮤니케이션 | Method and apparatus for providing a list of second keywords related with first keyword being searched in a web site |
JP4613346B2 (en) * | 2004-09-01 | 2011-01-19 | 独立行政法人産業技術総合研究所 | Keyword extraction method, keyword extraction program, keyword extraction device, metadata creation method, metadata creation program, and metadata creation device |
EP1825355A4 (en) | 2004-11-12 | 2009-11-25 | Make Sence Inc | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
US9330175B2 (en) | 2004-11-12 | 2016-05-03 | Make Sence, Inc. | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
US8126890B2 (en) | 2004-12-21 | 2012-02-28 | Make Sence, Inc. | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
JP2006171931A (en) * | 2004-12-14 | 2006-06-29 | Mitsubishi Electric Corp | Text mining device and text mining program |
JP4797380B2 (en) * | 2004-12-28 | 2011-10-19 | コニカミノルタホールディングス株式会社 | Medical support system |
JP4975273B2 (en) * | 2005-05-30 | 2012-07-11 | 株式会社エヌ・ティ・ティ・ドコモ | Topic transition control device, topic transition control system, and topic transition control method |
WO2006133050A2 (en) * | 2005-06-06 | 2006-12-14 | The Regents Of The University Of California | Relationship networks |
US8898134B2 (en) | 2005-06-27 | 2014-11-25 | Make Sence, Inc. | Method for ranking resources using node pool |
US8140559B2 (en) | 2005-06-27 | 2012-03-20 | Make Sence, Inc. | Knowledge correlation search engine |
KR100724122B1 (en) * | 2005-09-28 | 2007-06-04 | 최진근 | System and its method for managing database of bundle data storing related structure of data |
JP2007102501A (en) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for calculating relevancy between words |
JP2007102717A (en) * | 2005-10-07 | 2007-04-19 | Toshiba Corp | Bayesian network configuration support apparatus |
JP4864095B2 (en) * | 2005-11-14 | 2012-01-25 | メイク センス インコーポレイテッド | Knowledge correlation search engine |
US8024653B2 (en) | 2005-11-14 | 2011-09-20 | Make Sence, Inc. | Techniques for creating computer generated notes |
JP4719921B2 (en) * | 2005-11-15 | 2011-07-06 | 独立行政法人情報通信研究機構 | Data display device and data display program |
JP4469818B2 (en) * | 2006-07-18 | 2010-06-02 | 株式会社東芝 | Data management apparatus, data program, and data management method |
FR2914529A1 (en) * | 2007-03-28 | 2008-10-03 | Thomson Licensing Sas | METHOD OF NAVIGATION AMONG DISPLAYED ELEMENTS BY CREATING NAVIGATION ROADS AND APPARATUS FOR IMPLEMENTING THE METHOD |
JP4833336B2 (en) | 2007-05-08 | 2011-12-07 | 富士通株式会社 | Keyword output program, apparatus, and method |
JP2009086771A (en) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | Retrieval service device |
JP4450063B2 (en) | 2007-12-17 | 2010-04-14 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
WO2009104387A1 (en) | 2008-02-20 | 2009-08-27 | パナソニック株式会社 | Interactive program search device |
JP5009874B2 (en) * | 2008-07-31 | 2012-08-22 | 日本電信電話株式会社 | Importance acquisition device and method, and frame information creation device and method |
JP5445071B2 (en) * | 2009-11-27 | 2014-03-19 | 富士通株式会社 | Search information analysis program, search information analysis device, and search information analysis method |
JP2012123639A (en) * | 2010-12-08 | 2012-06-28 | Kyoto Univ | Image visualization system, information provision system and computer program of the same |
JP5687312B2 (en) | 2013-06-21 | 2015-03-18 | 株式会社Ubic | Digital information analysis system, digital information analysis method, and digital information analysis program |
US9558263B2 (en) | 2013-12-05 | 2017-01-31 | International Business Machines Corporation | Identifying and displaying relationships between candidate answers |
JP6181033B2 (en) * | 2014-06-20 | 2017-08-16 | 株式会社神戸製鋼所 | Document search apparatus, document search method, and document search program |
JP5853090B2 (en) * | 2014-12-09 | 2016-02-09 | 株式会社Ubic | Digital information analysis system, digital information analysis method, and digital information analysis program |
JP6448128B2 (en) * | 2014-12-25 | 2019-01-09 | 日本放送協会 | Subject word extraction device and program |
JP6764973B1 (en) * | 2019-04-25 | 2020-10-07 | みずほ情報総研株式会社 | Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05120351A (en) * | 1991-10-25 | 1993-05-18 | Nec Corp | System for making dictionary of synonym |
JPH07210565A (en) * | 1994-01-21 | 1995-08-11 | Canon Inc | Method and device for retrieving information |
JP3981170B2 (en) * | 1996-10-22 | 2007-09-26 | 富士通株式会社 | Information retrieval device |
US5963965A (en) * | 1997-02-18 | 1999-10-05 | Semio Corporation | Text processing and retrieval system and method |
JPH1131156A (en) * | 1997-07-14 | 1999-02-02 | Toshiba Corp | Device and method for retrieving document |
JP4404323B2 (en) * | 1999-02-05 | 2010-01-27 | 経済産業大臣 | Thesaurus browsing system and method |
JP2001117935A (en) * | 1999-10-19 | 2001-04-27 | Fujitsu Ltd | Device and method for accessing text information and recording medium |
-
2002
- 2002-06-19 JP JP2002177956A patent/JP3960530B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004021763A (en) | 2004-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3960530B2 (en) | Text mining program, method and apparatus | |
US9348934B2 (en) | Systems and methods for facilitating open source intelligence gathering | |
JP3915267B2 (en) | Document search apparatus and document search method | |
US20090300046A1 (en) | Method and system for document classification based on document structure and written style | |
CN111695022A (en) | Interest searching method based on knowledge graph visualization | |
US7725487B2 (en) | Content synchronization system and method of similar web pages | |
CN103942198B (en) | For excavating the method and apparatus being intended to | |
JP2002073677A (en) | Device for collecting personal preference information on reader and information reading support device using the information collecting device | |
JPH09138804A (en) | Picture retrieving device | |
JP3864235B2 (en) | Information retrieval system and information retrieval program | |
JP5121872B2 (en) | Image search device | |
KR20130113275A (en) | Apparatus and method for visualization of a hyperlink using color attribute value | |
JP2019128925A (en) | Event presentation system and event presentation device | |
JP2011100208A (en) | Action estimation device, action estimation method, and action estimation program | |
Cheng et al. | Context-based page unit recommendation for web-based sensemaking tasks | |
JP4348357B2 (en) | Related document display device | |
JP2008077252A (en) | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium | |
JP2014102625A (en) | Information retrieval system, program, and method | |
JP2005128872A (en) | Document retrieving system and document retrieving program | |
JP6960553B2 (en) | Brand dictionary creation device, product evaluation device, brand dictionary creation method and program | |
JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program | |
KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
Buzzi et al. | Accessibility and usability of search engine interfaces: Preliminary testing | |
JP3739040B2 (en) | Information processing apparatus and information processing method | |
JP2004139150A (en) | Document search system, program, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070511 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |