JP3960530B2 - Text mining program, method and apparatus - Google Patents

Text mining program, method and apparatus Download PDF

Info

Publication number
JP3960530B2
JP3960530B2 JP2002177956A JP2002177956A JP3960530B2 JP 3960530 B2 JP3960530 B2 JP 3960530B2 JP 2002177956 A JP2002177956 A JP 2002177956A JP 2002177956 A JP2002177956 A JP 2002177956A JP 3960530 B2 JP3960530 B2 JP 3960530B2
Authority
JP
Japan
Prior art keywords
related word
keyword
list
route
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002177956A
Other languages
Japanese (ja)
Other versions
JP2004021763A (en
Inventor
安彦 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002177956A priority Critical patent/JP3960530B2/en
Publication of JP2004021763A publication Critical patent/JP2004021763A/en
Application granted granted Critical
Publication of JP3960530B2 publication Critical patent/JP3960530B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、蓄積されたテキストデータを分析し、特徴や傾向を把握したり、未知の情報を発見したりするプロセスを支援するテキストマイニングプログラム、方法、及び装置に関する
【0002】
【従来の技術】
従来、蓄積されたテキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見する技術として、文書分類方法、重要語の抽出方法、抽出した単語の分類方法、及び抽出した単語間の関連の表示方法など、多くのテキストマイニングの技術が提案されている。その中でテキストマイニングの可視化技術として、単語間の連想関係を図1のようなネットワーク形式で表示する方法が提案されている。図1において、矩形で囲んだ各単語は分析対象のテキストから抽出したキーワードを示し、各キーワード間をつなぐ経路に付された数値はそれらのキーワード間の関連性を示す。また、人工知能学会誌16巻第2号(2001年3月)の「ビジュアルテキストマイニング」では、テキストマイニングの可視化技術として、単語マップ、アンカーマップ、及びスケルトンマップが提案されている。
【0003】
これらは、主に注目しているキーワードと直接関連のあるキーワードをネットワーク表示することにより、傾向を把握するための表示方法である。さらに、特開2001−117935や特表2001−513242には、ネットワーク表示されたキーワードをクリックすると、クリックしたキーワードに関連するキーワードを展開し、間接的な関連を見せるという方法が提案されてはいる。ただし、間接的な関連を見るためには利用者がキーワードを指定しなければならなかった。
【0004】
【発明が解決しようとする課題】
上記従来技術では、指定されたキーワードあるいは複数のキーワードに直接関連の強いキーワードをネットワーク形式あるいはリスト形式で表示するため、直接的な関連あるいは直接的な結びつきを把握することは可能であるが、間接的な結びつきを把握することができなかった。つまり、語と語の直接的な結びつきを見ることはできるが、語と語の間にどのような語が介在しているかを見ることはできなかった。そのため、利用者はある程度推測できる連想関係しか見ることができないという問題があった。また、あるキーワードを選択し、その関連語を徐々に表示していく場合においても、利用者が探索する方向を決定し、操作しなければならず、限られた経路しか表示されないという問題があった。
【0005】
本発明の目的は、第1キーワードから第2キーワードへ至る関連語の経路をあらかじめ複数表示することにより、2つのキーワードがどのような語を経由して結びついているのかという情報を提示し、このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することにある。
【0006】
【課題を解決するための手段】
上記の目的を達成するため、本発明では、指定された2つのキーワードを結ぶ関連語の経路を探索し、探索した経路を表示することを特徴とする。例えば、指定された第1キーワードからの距離が所定値以内の範囲内で、該第1キーワードに関連する関連語及び何れかの関連語を介して該第1キーワードとつながる関連語を探索し、その探索結果から該第1キーワードの関連語リストを作成し、指定された第2キーワードについても同様にして第2キーワードの関連語リストを作成し、それらの関連語リストから、両関連語リストに出現する共通関連語を探索し、その共通関連語を介して前記第1キーワードから第2キーワードに至る経路を求め、求めた経路を表示する。
【0007】
具体的には、文書データベースから関連語辞書を作成する関連語辞書作成部と関連語辞書からキーワード間の経路を求める関連語経路探索部を設ける。これにより、指定された2つのキーワード間の経路情報を作成することが可能になる。入力画面にはキーワード指定エリアの他に距離(関連語の数)を指定するエリアを設ける。これにより、第1キーワードから第2キーワードに至る距離(関連語の数)をしきい値として、関連語の経路を探索することが可能となる。また、同じくキーワード間の関連の強さ(関連度)を指定する入力エリアを設ける。これにより、関連の強さ(関連度)をしきい値として、関連語の経路を探索することが可能となる。以上のように、指定された2つのキーワード、距離、関連度を入力として探索処理を実行し、経路情報を作成する。
【0008】
さらに、作成した経路情報を表示するためのオプションとして、表示する経路の順序を指定するエリア、キーワード間の関連度、キーワードの出現頻度によって、表示する経路の表示色や、キーワードの表示色を指定するエリア等を設ける。表示する経路の順序を指定する方法として、最短経路順あるいは最長経路順の指定と、経路の関連の強さの平均値の昇順または降順による指定方法を設ける。最短経路順が指定された場合には、経路の長さが短い順に表示する。最長経路順が指定された場合には、経路の長さが長い順に表示する。経路の関連の強さの平均値の昇順が指定された場合には、経路の要素である各キーワード間の関連の強さの平均値が小さい順に表示する。経路の関連の強さの平均値の降順が指定された場合には、経路の要素である各キーワード間の関連の強さの平均値が大きい順に表示する。また、これらの表示順序の指定については、経路を優先するか、関連度の平均値を優先するかを指定できるようにする。
【0009】
さらに、キーワード間の関連の強さによって経路の表示色を指定するオプションやキーワードの出現頻度によって表示色を指定するオプションを設けてもよい。キーワード間の関連の強さを色分け表示することにより、関連の強弱を把握することができる。また、キーワードの頻度情報を色分け表示することにより、キーワードそのものの情報つまり低頻度語なのか高頻度語なのかという情報も同時に把握することができる。このように、表示オプションを設けることにより、作成した経路情報を複数のパターンで表示することが可能となる。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
【0011】
図2は、本発明の実施の形態であるテキストマイニング装置の構成を示す。本装置は、処理装置10、入力装置60、及び表示装置70を備える。処理装置10は、入力装置60から入力された情報に従って処理を行い、結果を表示装置70の入力/出力画面80に表示する。処理装置10は、あらかじめ文書データベース20から関連語辞書40を生成する関連語辞書作成部30と、指定された2つのキーワードを結ぶ経路を探索し表示する関連語経路探索部50とを備える。関連語辞書作成部30は、単語抽出部31、及び関連語抽出部32を備える。関連語経路探索部50は、関連語リスト作成部51と、関連語リスト作成部51から出力される関連語リスト52と、関連語経路作成部53と、関連語経路作成部53から出力される関連語経路リスト54と、関連語経路リスト54を表示するための関連語経路表示部55とを備える。
【0012】
図3は、図2の関連語辞書作成部30が文書データベース20から関連語辞書40を作成するまでの処理過程を示したフローチャートである。単語抽出部31では、図4に示すような文書データを文書データベース20から読み込み(ステップ101)、図5に示すように単語の切り出しを行い(ステップ102)、図6に示すような単語テーブルを作成し、関連語辞書40に登録する(ステップ103)。単語抽出の方法としては、辞書データを参照して語を切り出す方法、文中で漢字やひらがな等の文字の種類を目印として切り出す方法などがあるが、ここでは、その方式は特に制限しない。
【0013】
関連語抽出部32では、単語間の共起関係を抽出し、1つの単語に対して関連のある語を抽出し、図7に示すような共起頻度テーブルに登録する(ステップ104)。ここでいう共起関係とは、1文中に共に使用される単語同士を意味する。図7の共起頻度テーブルの共起頻度とは、単語1と単語2とが1文中で共に使用されている回数を表すものである。共起関係の抽出については、単に同一文中に出現する単語というだけではなく、一般的な構文解析方式により、主語、述語の関係や係り受けの関係を求めることもできるが、その方式は特に制限しない。抽出した単語と共起関係をもとに単語間の関連の強さを求め、図8に示すような関連度テーブルを作成し、結果を関連語辞書40に登録する(ステップ105)。なお、共起頻度を単語間の強度(関連度)としてもよいし、単語間の関係の強さを求める手法として知られている図9に示す相互情報量を強度にしてもよい。本実施の形態では、単語間の相互情報量を強度(関連度)とする。
【0014】
図10は、図2の関連語リスト作成部51で関連語リスト52を作成する処理過程を示したフローチャートである。関連語リスト作成部51では、ユーザにより指定された2つのキーワードの関連語リスト52を作成する。まず、図2の入力装置60から入力された第1キーワードを変数Aに、距離を変数Dに、関連度を変数Rに、初期値の距離0を変数D1に代入し(ステップ201)、これらを引数として関連語リスト作成関数を呼び出し(ステップ202)、図11に示すような第1キーワードの関連語リストを作成する。
【0015】
図11では、説明の便宜上、第1キーワードをキーワードAとし、キーワードAの関連語を関連語A1、関連語A2というように記号で関連語を示している。なお、図11の関連語リストは行単位のデータの集まりで構成されている。その各行のリストは、先頭要素と、その先頭要素に関連する関連語のリストとを、並べたものである。例えば、図11の第1行目のリストである[キーワードA,[関連語A1,関連語A2,関連語A3,関連語A4]]は、キーワードAの関連語が[関連語A1,関連語A2,関連語A3,関連語A4]であることを示している。第2行目以降の各行のデータも同様の表現形式であり、さらに後述する図12の第2キーワード(キーワードB)の関連語リストも同じ表現形式である。また、図11や図12のデータ全体を「関連語リスト」と呼ぶほか、説明の便宜上、図11や図12の各行の先頭要素に関連する関連語のリストも「関連語リスト」と呼ぶものとする。例えば、図11の第1行目のリストである[キーワードA,[関連語A1,関連語A2,関連語A3,関連語A4]]の中で、キーワードAに関連する関連語を並べたリストである[関連語A1,関連語A2,関連語A3,関連語A4]も「関連語リスト」と呼ぶ。
【0016】
ステップ201,202で第1キーワードの関連語リストを作成した後、第1キーワードと同様にして、図2の入力装置60から入力された第2キーワードをBに、距離をDに、関連度をRに、初期値の距離0をD1に代入し(ステップ203)、これらを引数として関連語リスト作成関数を呼び出し(ステップ204)、図12に示すような第2キーワードの関連語リストを作成する。図12では、説明の便宜上、第2キーワードをキーワードBとし、キーワードBの関連語を関連語B1、関連語B2というように記号で関連語を示している。
【0017】
図13は、図10のステップ202とステップ204で呼び出している関連語リスト作成関数の処理過程を示したフローチャートである。関連語リスト作成関数では、指定された関連度と距離の範囲内で関連語リストを作成する処理を行う。まず、最初に引数として入力した距離D1が指定された距離D以下かを判定し(ステップ301)、すでに指定されている距離D(関連語の数)を超えていたら、リターンする。距離D1が指定された距離Dの範囲内にあれば、引数として入力したキーワードXの関連語の探索が終了したかをチェックする(ステップ302)。この探索は、図8の関連度テーブルからキーワードXを探索するものである。探索するべきキーワードXの関連語がある場合には、Xの関連語を取得し、X1に代入する(ステップ303)。そして、さらにXとX1の関連度をR1に代入する(ステップ304)。関連度R1が指定された関連度R以下であるかを判定し(ステップ305)、指定された関連度R以下の場合は、X1を関連語としては取らずに、ステップ302に戻って、Xの次の関連語を取得する処理を行う。ステップ305でR1が関連度R以上の関連度であれば、X1をXの関連語リストに追加する処理を行い(ステップ306)、ステップ302に戻って、Xの次の関連語を取得する処理を行う。このようにXの関連語についてチェックを行い、Xの関連語リストを作成する。
【0018】
Xの関連語の探索が終了したら、次にXの関連語リストの各要素について同じ処理を繰り返す。すなわち、Xの関連語リストの各要素について、その要素に関連する関連語を探索して取得する処理を行う。まず、Xの関連語リストの探索が終了したかをチェックする(ステップ307)。Xの関連語リストの探索が終了している場合にはリターンする。Xの関連語リストの探索が終了していない場合には、距離D1に1加算し(ステップ308)、Xの関連語リストの各要素の探索が終了しているかをチェックする(ステップ309)。探索が終了している場合にはリターンする。探索が終了していない場合には、Xの関連語リストから要素(未だ探索を行っていない要素)を取り出してYへ代入する(ステップ310)。そして、Xの関連語リストの要素Y、指定された距離D、指定された関連度R、及び変数D1を引数として、本関連語リスト作成関数の再帰呼び出しを行う(ステップ311)。以上のような処理を行い、図11に示す第1キーワードの関連語リストと図12に示す第2キーワードの関連語リストを作成する。
【0019】
図14は、図11と図12の関連語リストをもとに関連語経路リスト54を作成する関連語経路作成部53の処理過程を示したフローチャートである。まず、図11に示した第1キーワード(キーワードA)の関連語リストと図12に示した第2キーワード(キーワードB)の関連語リストから、図15に示す共通関連語リストを作成する(ステップ401)。次に、図15に示す共通関連語リストの左側の要素から図16に示すキーワードAに至る部分リストを作成する(ステップ402)。さらに、図15に示す共通関連語リストの右側の要素から図17に示すキーワードBに至る部分リストを作成する(ステップ403)。図16及び図17の部分リストを作成したら、図15に示す共通関連語リストの左側の要素から図16に示すキーワードAに至る部分リストを利用して、図18に示すキーワードAに至る関連語経路リストを作成する(ステップ404)。またさらに、図15に示す共通関連語リストの右側の要素から図17に示すキーワードBに至る部分リストを利用して、図19に示すキーワードBに至る関連語経路リストを作成する(ステップ405)。そして最後に、キーワードAに至る関連語経路リストとキーワードBに至る関連語経路リストを結合して、図20に示すようなキーワードAからキーワードBに至る関連語経路リストを作成する(ステップ406)。
【0020】
以下、図14の各ステップの処理の詳細を順に説明する。
【0021】
図21は、図14のステップ401の共通関連語リストを作成する処理過程を示したフローチャートである。まず、第1キーワードであるキーワードAの関連語リスト(図11)の探索が終了したかをチェックし(ステップ501)、探索が終了している場合には処理を終了する。探索が終了していない場合には、キーワードAの関連語リストの中の各要素(キーワード)の探索が終了したかをチェックし(ステップ502)、終了している場合には、ステップ501に戻る。探索が終了していない場合には、キーワードAの関連語リストから次の要素を取り出してXに代入し(ステップ503)、ステップ504に進む。
【0022】
なお、ステップ501は、図11に示した関連語リストの各行データを処理単位として処理を進めていく際、すべての行データについて処理を終了したかをチェックするものである。すなわち、図11の関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ501で次の行データを処理対象として、ステップ502に進む。処理対象の行データが無くなったら、ステップ501から処理終了する。ステップ502は、処理対象の行データ中の関連語リストの全要素について処理終了したかをチェックするものである。ステップ503で取り出している要素とは、前記処理対象の行データ中の関連語リストの各要素のことである。
【0023】
ステップ502で現在の処理対象の行データ中の関連語リストの全要素についての探索が終了していない場合には、次の要素を取り出してXに代入し(ステップ503)、キーワードBの関連語リスト(図12)の探索が終了したかをチェックする(ステップ504)。キーワードBの関連語リストの探索が終了している場合には、ステップ502に戻る。キーワードBの関連語リストの探索が終了していない場合には、キーワードBの関連語の中の各要素(キーワード)の探索が終了したかをチェックする(ステップ505)。キーワードBの関連語の中の各要素(キーワード)の探索が終了している場合にはステップ504に戻る。キーワードBの関連語の中の各要素(キーワード)の探索が終了していない場合には、キーワードBの関連語リストから各要素(キーワード)を取り出してYに代入し(ステップ506)、XとYが同じかの判定を行う(ステップ507)。XとYが同じであれば、一致したYの関連語リストの先頭要素(キーワード)とキーワードXで図15に示す共通関連語リストを作成し([X,Yの関連語リストの先頭要素]のリスト形式)、ステップ506に戻る。XとYが同じでなければ、ステップ505に戻る。
【0024】
なお、ステップ504,505,506は、それぞれステップ501,502,503と同様の処理である。ただし、処理対象の関連語リストは図12のキーワードBの関連語リストである。また、ステップ506で要素を代入する変数はYである。
【0025】
例えば、図11のキーワードAの関連語リスト中の要素であって、図12のキーワードBの関連語リストにも含まれている要素は、関連語A3、関連語A11、関連語A12であり、それらの先頭要素(図12の関連語リストでの先頭要素)は、関連語A3については関連語B3、関連語A11については関連語B2と関連語B11、関連語A12については関連語B1と関連語B11であるため、図15に示すようなリストとなる。図15の共通関連語リストの各行データの左側の要素は、図11の関連語リスト中の各行データの右側の関連語リスト中の要素のうち、図12の関連語リスト中の各行データの右側の関連語リスト中の要素と同じものがあるものである。また、図15の共通関連語リストの各行データの右側の要素は、その左側の要素に対応する先頭要素(図12の関連語リスト中の先頭要素)である。
【0026】
図22は、図14のステップ402のキーワードAに至る部分リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ601)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ601で次の行データを処理対象として、ステップ602に進む。処理対象の行データが無くなったら、ステップ601から処理終了する。ステップ601で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ602)、XがキーワードAつまり終端キーワードか否かをチェックする(ステップ603)。XがキーワードAと同じだった場合は、ステップ601に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。
【0027】
ステップ603でXがキーワードAと同じでない場合は、図11のキーワードAの関連語リストの中でXを含む関連語リストの先頭要素をYに代入する(ステップ604)。すなわち、図11の各行データ中の右側の関連語リストにXを含む行データを見つけ、その先頭要素をYに代入する。次に、YとXの部分リストがすでに作成済みかをチェックし(ステップ605)、作成済みの場合はステップ601に戻る。作成済みでない場合は、YとXの部分リストを作成する(ステップ606)。この部分リストは[X,Y]の形式である。次に、YがキーワードAつまり終端キーワードか否かをチェックする(ステップ607)。YがキーワードAと同じだった場合は、ステップ601に戻り、YがキーワードAと同じでない場合は、YをXに代入し(ステップ608)、ステップ604に戻り、図16に示すキーワードAに至る部分リストを作成する処理を繰り返す。
【0028】
例えば、図15の共通関連語リストの中の第2行目のリストで左側の要素である関連語A11をキーに図11のキーワードAの関連語リストを探索してみると、[関連語A1,[関連語A11,関連語A12,関連語A13]]と[関連語A2,[関連語A21,関連語A22,関連語A23,関連語A11]]というリストがあり、それらの先頭要素は関連語A1と関連語A2なので、キーワードAに至る部分リストとして[関連語A11,関連語A1]と[関連語A11,関連語A2]を作成することになる。
【0029】
図23は、図14のステップ403のキーワードBに至る部分リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ701)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ701で次の行データを処理対象として、ステップ702に進む。処理対象の行データが無くなったら、ステップ701から処理終了する。ステップ701で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの右側の要素を取り出してXに代入し(ステップ702)、XがキーワードBつまり終端キーワードか否かをチェックする(ステップ703)。XがキーワードBと同じだった場合は、ステップ701に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。
【0030】
ステップ703でXがキーワードBと同じでない場合は、図12のキーワードBの関連語リストの中でXを含む関連語リストの先頭要素をYに代入する(ステップ704)。すなわち、図12の各行データ中の右側の関連語リストにXを含む行データを見つけ、その先頭要素をYに代入する。次に、YとXの部分リストがすでに作成済みかをチェックし(ステップ705)、作成済みの場合はステップ701に戻る。作成済みでない場合は、YとXの部分リストを作成する(ステップ706)。この部分リストは[X,Y]の形式である。次に、YがキーワードBつまり終端キーワードか否かをチェックする(ステップ707)。YがキーワードBと同じだった場合は、ステップ701に戻り、YがキーワードBと同じでない場合は、YをXに代入し(ステップ708)、ステップ704に戻り、図17に示すキーワードBに至る部分リストを作成する処理を繰り返す。
【0031】
例えば、図15の共通関連語リストの中の第3行目のリストで右側の要素である関連語B11をキーに図12のキーワードBの関連語リストを探索してみると、[関連語B1,[関連語B11,関連語A12,関連語B12,関連語B13]]と[関連語B2,[関連語B21,関連語B11,関連語A11]]というリストがあり、それらの先頭要素は関連語B1と関連語B2なので、キーワードBに至る部分リストとして[関連語B11,関連語B1]と[関連語B11,関連語B2]を作成することになる。
【0032】
図24は、図14のステップ404のキーワードAに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ801)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ801で次の行データを処理対象として、ステップ802に進む。処理対象の行データが無くなったら、ステップ801から処理終了する。ステップ801で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ802)、Xの関連語経路リストを作成する(ステップ803)。最初の関連語経路リストはXのみを要素とするリスト[X]となる。次に、XをX1に代入し(ステップ804)、図16のキーワードAに至る部分リストの探索が終了したかをチェックする(ステップ805)。この探索は、図16のキーワードAに至る部分リストから、左側の要素がX1と一致するリストを探すものである。
【0033】
図16のキーワードAに至る部分リストの探索が終了している場合は、ステップ801に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合は、図16のキーワードAに至る部分リストの中で左側の要素がX1と一致する右側の要素Yを取得し(ステップ806)、Xの関連語経路リストにYを追加する(ステップ807)。これは、Xの関連語経路リストの先頭要素としてYを挿入する処理である。次に、YがキーワードAつまり終端キーワードか否かをチェックし(ステップ808)、キーワードAと同じだった場合つまり終端キーワードだった場合は、ステップ801に戻り、YがキーワードAと同じでない場合は、YをX1に代入し(ステップ809)、ステップ806に戻り、図18に示すキーワードAに至る関連語経路リストを作成する処理を繰り返す。
【0034】
例えば、図15の共通関連語リストの中の第4行目のリストで左側の要素である関連語A12をキーに図16のキーワードAに至る部分リストを探索してみると、左側の要素が関連語A12と一致するリストには[関連語A12,関連語A1]と[関連語A12,関連語A11]があり、そのうち前者[関連語A12,関連語A1]について見てみると、[関連語A12,関連語A1]の右側の要素は関連語A1なので、まず関連語A12の関連語経路リスト[関連語A12]に関連語A1を追加して[関連語A1,関連語A12]を作成する。さらに、関連語A1はキーワードAつまり終端キーワードではないので、さらにキーワードAに至る部分リストを探索すると、左側の要素が関連語A1と一致する[関連語A1,キーワードA]というリストが見つかるので、右側の要素キーワードAを関連語A12の関連語リストに追加し[キーワードA,関連語A1,関連語A11]というリストを作成することになる。
【0035】
図25は、図14のステップ405のキーワードBに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ901)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ901で次の行データを処理対象として、ステップ902に進む。処理対象の行データが無くなったら、ステップ901から処理終了する。ステップ901で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの右側の要素を取り出してXに代入し(ステップ902)、Xの関連語経路リストを作成する(ステップ903)。最初の関連語経路リストはXのみを要素とするリスト[X]となる。次に、XをX1に代入し(ステップ904)、図17のキーワードBに至る部分リストの探索が終了したかをチェックする(ステップ905)。この探索は、図17のキーワードBに至る部分リストから、左側の要素がX1と一致するリストを探すものである。
【0036】
図17のキーワードBに至る部分リストの探索が終了している場合は、ステップ901に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合は、図17のキーワードBに至る部分リストの中で左側の要素がX1と一致する右側の要素Yを取得し(ステップ906)、Xの関連語経路リストにYを追加する(ステップ907)。これは、Xの関連語経路リストの最後尾の要素としてYを挿入する処理である。次に、YがキーワードBつまり終端キーワードか否かをチェックし(ステップ908)、キーワードBと同じだった場合つまり終端キーワードだった場合は、ステップ901に戻り、YがキーワードBと同じでない場合は、YをX1に代入し(ステップ909)、ステップ906に戻り、図19に示すキーワードBに至る関連語経路リストを作成する処理を繰り返す。
【0037】
例えば、図15の共通関連語リストの中の第3行目のリストで右側の要素である関連語B11をキーに図17のキーワードBに至る部分リストを探索してみると、左側の要素が関連語B11と一致するリストには[関連語B11,関連語B1]と[関連語B11,関連語B2]があり、そのうち前者[関連語B11,関連語B1]について見てみると、[関連語B11,関連語B1]の右側の要素は関連語B1なので、まず関連語B11の関連語経路リスト[関連語B11]に関連語B1を追加して[関連語B11,関連語B1]を作成する。さらに、関連語B1はキーワードBつまり終端キーワードではないので、さらにキーワードBに至る部分リストを探索すると、左側の要素が関連語B1と一致する[関連語B1,キーワードB]というリストが見つかるので、右側の要素キーワードBを関連語B11の関連語リストに追加し[関連語B11,関連語B1,キーワードB]というリストを作成することになる。
【0038】
図26は、図14のステップ406のキーワードAからキーワードBに至る関連語経路リストを作成する処理過程を示したフローチャートである。まず、図15の共通関連語リストの探索が終了したかをチェックし(ステップ1001)、探索が終了している場合には、処理を終了する。すなわち、図15の共通関連語リストの先頭行データから処理を開始して、1つの行データについて処理したら、ステップ1001で次の行データを処理対象として、ステップ1002に進む。処理対象の行データが無くなったら、ステップ1001から処理終了する。ステップ1001で探索が終了していない場合には、図15の共通関連語リストの処理対象の行データの左側の要素を取り出してXに代入し(ステップ1002)、さらにその右側の要素を取り出してYに代入する(ステップ1003)。次に、図18のキーワードAに至る関連語経路リストの探索が終了したかをチェックする(ステップ1004)。この探索は、図18のキーワードAに至る関連語経路リストから、一番右側の要素がXと一致するリストを探すものである。
【0039】
図18のキーワードAに至る関連語経路リストの探索が終了している場合は、ステップ1001に戻り、図15の共通関連語リストの次の行データを処理対象として取り出す処理を行う。探索が終了していない場合には、図18のキーワードAに至る関連語経路リストの中で一番右側の要素がXと一致するリストを取得し、L1に代入する(ステップ1005)。続いて、図19のキーワードBに至る関連語経路リストの探索が終了したかをチェックする(ステップ1006)。この探索は、図19のキーワードBに至る関連語経路リストから、一番左側の要素がYと一致するリストを探すものである。
【0040】
図19のキーワードBに至る関連語経路リストの探索が終了している場合は、ステップ1004に戻り、探索が終了していない場合には、図19のキーワードBに至る関連語経路リストの中で一番左側の要素がYと一致するリストを取得し、L2に代入する(ステップ1007)。そして、L1のリストとL2のリストを結合し、キーワードAからキーワードBに至る関連語経路リストとする(ステップ1008)。リスト結合後、ステップ1006に戻り、他のリストと結合する処理を繰り返す。
【0041】
例えば、図15の共通関連語リストの中の第1行目のリスト[関連語A3,関連語B3]について見てみると、その左側の要素は関連語A3で、図18のキーワードAに至る関連語リストの中で右側の要素が関連語A3と一致するリストは[キーワードA,関連語A3]である。また、前記第1行目のリスト[関連語A3,関連語B3]の右側の要素は関連語B3で、図19のキーワードBに至る関連語リストの中で左側の要素が関連語B3と一致するリストは[関連語B3,キーワードB]である。したがって、これら2つのリストを結合し、[キーワードA,関連語A3,関連語B3,キーワードB]というリストを作成することになる。以上のような処理を行い、図20のような第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語経路リストを作成する。図20において、各行のリストはそれぞれキーワードAからキーワードBに至る経路を表している。
【0042】
図27は、図2の関連語経路表示部55により表示用データを作成する過程を示したフローチャートである。関連語経路表示部55は、関連語経路リスト54(図20)をもとに表示用データを作成する。まず、各経路の関連度の平均値を算出し(ステップ1101)、表示する順序を決定する(ステップ1102)。各経路の関連度の平均値とは、各経路のリストにおいて、隣合う要素間の関連度の平均値のことである。表示する順序は利用者が指定した順番となる。最短経路順であれば、関連語経路リストの中の要素数が最も少ないリストから順に表示し、最長経路順であれば関連語経路リストの中の要素数が最も多いリストから順に表示する。また、関連の強さの平均値の高い順であれば、ステップ1101で算出した平均値の高い順に表示する。さらにそれらの組み合わせにより表示順序を決定する。表示する経路を決定したら、表示用のデータを作成する(ステップ1103)。オプションで、所定の関連度以下の経路の表示色を変更するように指定できる。また、キーワードの出現頻度が所定値以下のものについてはその表示色を変更するように指定できる。例えば、関連度3.0以下の経路の表示色が赤と指定されている場合には、該当するキーワード間の経路を赤に指定する。また、出現頻度50以下の関連語の表示色が青と指定されている場合には、該当するキーワードの背景を青に指定する。
【0043】
図28は、HTML(HyperText Markup Language)形式における表示用データ作成例を示す。図28は、「文字」と「見づらい」の間の経路を赤に、「見づらい」の背景を青に指定する例を示している。以上のように、指定されたオプションにしたがって表示用データを作成し、探索結果を図2の表示装置70の入力/出力画面80に表示する。
【0044】
なお、ここでは表示色を変更する例を説明したが、変更する表示態様は表示色に限らない。例えば、線の太さ、強調表示、ブリンクの有無などを変更するようにしてもよい。
【0045】
図29は、探索結果の表示例を示す。この例は、「パソコン」と「高齢者」をキーワードとして入力し探索した結果である。図29の例から、「パソコン」と「高齢者」との間には、「インターネット」「メール」「学習意欲」というキーワードが多く、「難しい」−「学習意欲」と「文字」−「見づらい」の経路が利用者の指定により赤で強調され、また「見づらい」というキーワードが青で強調されているので、高齢者向けのパソコンの要件として「メールも含めて操作がシンプルで、キーボードの文字やディスプレイの表示文字を大きくした方が良い」というようなことを推測することができる。このように、キーワード間の関連語を表示することにより、従来のネットワーク形式の表示方法では得られなかった情報を得ることが可能となる。
【0046】
なお、本発明は、図1〜図29を用いて説明した実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、上記実施の形態では、表示方法としてHTML形式で表示する例を説明したが、グラフィックイメージを作成し表示させることも可能である。
【0047】
上記実施形態によれば、第1キーワードから第2キーワードへ至る関連語の経路を複数表示するため、2つの語がどのような語を経由して結びついているのかを把握することができる。このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することが可能となる。また、最短経路順、最長経路順、関連の強さの平均値の昇順、降順と表示方法を変更することが可能であるため、視点を変えて語と語の結びつきを見ることもできる。営業日報、店長日誌などの各種報告書、一般的な新聞データをもとに注目したキーワードにどのような関連があるのか傾向を判断するだけではなく、結びつきを見ることにより、新たな知識を発見することが可能となる。例えば、高齢者向けパソコンや高齢者向け携帯電話といった製品開発にどのような機能が必要なのかなど、十分なアンケートが取れない場合にも、潜在的なニーズを探索することが可能になる。
【0048】
【発明の効果】
以上説明したように、本発明によれば、第1キーワードから第2キーワードへ至る関連語の経路をあらかじめ複数表示することにより、2つのキーワードがどのような語を経由して結びついているのかという情報を提示し、このような関連語の経路を表示することにより、利用者に今まで気がつかなかった未知の情報を提示することができる。
【図面の簡単な説明】
【図1】単語間の連想関係をネットワーク形式で表示した図である。
【図2】本発明の実施の形態であるテキストマイニング装置の構成を示す図である。
【図3】文書データベースから関連語辞書を作成するまでの処理過程を示したフローチャートである。
【図4】文書データベースから読み込まれる文書データの例を示した図である。
【図5】単語抽出部で解析され、切り出された単語の例を示した図である。
【図6】単語抽出部で作成される単語テーブルの例を示した図である。
【図7】関連語抽出部で作成される共起頻度テーブルの例を示した図である。
【図8】関連語抽出部で作成される関連度テーブルの例を示した図である。
【図9】関連度テーブル作成過程で使用する相互情報量の計算式を示した図である。
【図10】関連語リスト作成部で関連語リストを作成する処理過程を示したフローチャートである。
【図11】第1キーワードの関連語リストの例を示した図である。
【図12】第2キーワードの関連語リストの例を示した図である。
【図13】関連語リスト作成関数の処理過程を示したフローチャートである。
【図14】関連語経路作成部で関連語経路リストを作成する処理過程を示したフローチャートである。
【図15】第1キーワードの関連語リストと第2キーワードの関連語リストの共通の関連語リストの例を示した図である。
【図16】第1キーワード(キーワードA)に至る部分リストの例を示した図である。
【図17】第2キーワード(キーワードB)に至る部分リストの例を示した図である。
【図18】第1キーワード(キーワードA)に至る関連語経路リストの例を示した図である。
【図19】第2キーワード(キーワードB)に至る関連語経路リストの例を示した図である。
【図20】第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語の経路リストの例を示した図である。
【図21】共通関連語リスト作成の処理過程を示したフローチャートである。
【図22】第1キーワード(キーワードA)に至る部分リスト作成の処理過程を示したフローチャートである。
【図23】第2キーワード(キーワードB)に至る部分リスト作成の処理過程を示したフローチャートである。
【図24】第1キーワード(キーワードA)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図25】第2キーワード(キーワードB)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図26】第1キーワード(キーワードA)から第2キーワード(キーワードB)に至る関連語経路リスト作成の処理過程を示したフローチャートである。
【図27】関連語経路表示部で表示用データを作成する処理過程を示したフローチャートである。
【図28】HTML形式による表示用データ作成例を示した図である。
【図29】第1キーワードから第2キーワードへ至る関連語リストの探索結果を示した図である。
【符号の説明】
10……処理装置
20……文書データベース
30……関連語辞書作成部
31……単語抽出部
32……関連語抽出部
40……関連語辞書
50……関連語経路探索部
51……関連語リスト作成部
52……関連語リスト
53……関連語経路作成部
54……関連語経路リスト
55……関連語経路表示部
60……入力装置
70……表示装置
80……入力/出力装置
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a text mining program, method, and apparatus for supporting a process of analyzing accumulated text data, grasping characteristics and trends, and discovering unknown information.
[0002]
[Prior art]
Conventionally, document classification methods, important word extraction methods, extracted word classification methods, and between extracted words have been used as techniques for analyzing accumulated text data to understand features and trends and to discover unknown information. Many text mining techniques have been proposed, such as related display methods. Among them, as a text mining visualization technique, a method of displaying an associative relationship between words in a network format as shown in FIG. 1 has been proposed. In FIG. 1, each word surrounded by a rectangle indicates a keyword extracted from the text to be analyzed, and a numerical value attached to a path connecting the keywords indicates a relationship between the keywords. In addition, “Visual Text Mining” in Journal of the Japanese Society for Artificial Intelligence Vol. 16 No. 2 (March 2001) proposes word maps, anchor maps, and skeleton maps as text mining visualization techniques.
[0003]
These are display methods for grasping a tendency by displaying a keyword that is directly related to a keyword of interest mainly on the network. Furthermore, Japanese Patent Laid-Open No. 2001-117935 and Special Table 2001-513242 have proposed a method in which when a keyword displayed on a network is clicked, a keyword related to the clicked keyword is expanded to show an indirect relationship. . However, to see indirect associations, the user had to specify keywords.
[0004]
[Problems to be solved by the invention]
In the above prior art, keywords that are directly related to a specified keyword or a plurality of keywords are displayed in a network format or a list format, so it is possible to grasp a direct relationship or a direct connection, but indirectly I couldn't figure out a typical connection. In other words, you can see the direct connection between words, but you can't see what words are between words. Therefore, there is a problem that the user can see only associative relations that can be guessed to some extent. Even when a keyword is selected and its related words are displayed gradually, there is a problem that the user has to determine and operate the search direction, and only a limited route is displayed. It was.
[0005]
The object of the present invention is to present information on what words the two keywords are connected to by displaying a plurality of related word paths from the first keyword to the second keyword in advance. By displaying the path of the related word, unknown information that has not been noticed until now is presented to the user.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the present invention is characterized by searching for a route of related words connecting two designated keywords and displaying the searched route. For example, within a range where the distance from the designated first keyword is within a predetermined value, a related word related to the first keyword and a related word connected to the first keyword via any related word are searched. A related word list of the first keyword is created from the search result, and a related word list of the second keyword is similarly created for the designated second keyword. From the related word list, both related word lists are created. A common related word that appears is searched, a route from the first keyword to the second keyword is obtained via the common related word, and the obtained route is displayed.
[0007]
Specifically, a related word dictionary creating unit that creates a related word dictionary from a document database and a related word route searching unit that obtains a route between keywords from the related word dictionary are provided. This makes it possible to create route information between the two specified keywords. In addition to the keyword specification area, an area for specifying the distance (number of related words) is provided on the input screen. As a result, it is possible to search for the path of the related word using the distance (number of related words) from the first keyword to the second keyword as a threshold value. Similarly, an input area for specifying the strength of association (relationship) between keywords is provided. As a result, it is possible to search for the path of the related word using the strength of the relation (relevance) as a threshold. As described above, the search processing is executed with the two specified keywords, distance, and relevance as inputs, and route information is created.
[0008]
In addition, as an option to display the created route information, specify the display color of the displayed route and the display color of the keyword according to the area to specify the order of the displayed route, the degree of association between keywords, and the appearance frequency of the keyword An area to be used is provided. As a method for designating the order of the routes to be displayed, there are provided a designation method by specifying the shortest route order or the longest route order and the ascending or descending order of the average value of the related strength of the route. When the shortest route order is specified, the route lengths are displayed in ascending order. When the longest route order is designated, the route lengths are displayed in order from the longest. When the ascending order of the average value of the relationship strength of the route is designated, the average value of the relationship strength between the keywords that are the elements of the route is displayed in ascending order. When the descending order of the average value of the relation strength of the route is designated, the average value of the relation strength between the keywords as the elements of the route is displayed in descending order. Further, regarding the designation of the display order, it is possible to designate whether to give priority to the route or to give priority to the average value of relevance.
[0009]
Furthermore, an option for designating the display color of the route depending on the strength of the relationship between keywords and an option for designating the display color based on the appearance frequency of the keyword may be provided. By displaying the strength of the relationship between keywords in different colors, the strength of the relationship can be grasped. In addition, by displaying the keyword frequency information in different colors, it is possible to simultaneously grasp the information of the keyword itself, that is, information about whether it is a low-frequency word or a high-frequency word. As described above, by providing the display option, the created route information can be displayed in a plurality of patterns.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0011]
FIG. 2 shows a configuration of a text mining apparatus according to an embodiment of the present invention. The apparatus includes a processing device 10, an input device 60, and a display device 70. The processing device 10 performs processing according to the information input from the input device 60 and displays the result on the input / output screen 80 of the display device 70. The processing device 10 includes a related word dictionary creation unit 30 that generates a related word dictionary 40 from the document database 20 in advance, and a related word path search unit 50 that searches and displays a path connecting two designated keywords. The related word dictionary creation unit 30 includes a word extraction unit 31 and a related word extraction unit 32. The related word path search unit 50 is output from the related word list creation unit 51, the related word list 52 output from the related word list creation unit 51, the related word path creation unit 53, and the related word path creation unit 53. A related word path list 54 and a related word path display unit 55 for displaying the related word path list 54 are provided.
[0012]
FIG. 3 is a flowchart showing a process until the related word dictionary creation unit 30 in FIG. 2 creates the related word dictionary 40 from the document database 20. The word extraction unit 31 reads document data as shown in FIG. 4 from the document database 20 (step 101), cuts out words as shown in FIG. 5 (step 102), and creates a word table as shown in FIG. It is created and registered in the related word dictionary 40 (step 103). As a word extraction method, there are a method of cutting out a word by referring to dictionary data, a method of cutting out a character type such as kanji or hiragana in a sentence, and the method is not particularly limited here.
[0013]
The related word extraction unit 32 extracts a co-occurrence relationship between words, extracts words related to one word, and registers them in a co-occurrence frequency table as shown in FIG. 7 (step 104). The co-occurrence relationship here means words used together in one sentence. The co-occurrence frequency in the co-occurrence frequency table in FIG. 7 represents the number of times word 1 and word 2 are used together in one sentence. Regarding the extraction of co-occurrence relationships, not only words that appear in the same sentence but also general parsing methods can be used to determine the relationship between the subject, predicate, and dependency, but this method is particularly limited. do not do. Based on the extracted word and the co-occurrence relation, the strength of the relation between the words is obtained, a relation degree table as shown in FIG. 8 is created, and the result is registered in the related word dictionary 40 (step 105). The co-occurrence frequency may be the strength (relevance) between words, or the mutual information amount shown in FIG. 9 known as a method for obtaining the strength of the relationship between words may be the strength. In the present embodiment, the mutual information amount between words is assumed to be strength (relevance).
[0014]
FIG. 10 is a flowchart showing a process of creating the related word list 52 by the related word list creating unit 51 of FIG. The related word list creation unit 51 creates a related word list 52 of two keywords specified by the user. First, the first keyword input from the input device 60 of FIG. 2 is substituted into the variable A, the distance is substituted into the variable D, the relevance is substituted into the variable R, and the initial distance 0 is substituted into the variable D1 (step 201). Is used as an argument to call a related word list creation function (step 202) to create a related word list of the first keyword as shown in FIG.
[0015]
In FIG. 11, for convenience of explanation, the first keyword is a keyword A, and related words of the keyword A are related words indicated by symbols such as a related word A1 and a related word A2. The related word list in FIG. 11 is composed of a collection of data in units of lines. The list of each line is an arrangement of a head element and a list of related terms related to the head element. For example, [Keyword A, [Related Word A1, Related Word A2, Related Word A3, Related Word A4]] in the first line list in FIG. A2, related word A3, related word A4]. The data in the second and subsequent lines has the same expression format, and the related word list of the second keyword (keyword B) in FIG. 12 described later also has the same expression format. Further, in addition to calling the entire data of FIG. 11 and FIG. 12 as a “related word list”, for convenience of explanation, a list of related words related to the head element of each line of FIG. 11 and FIG. 12 is also called a “related word list”. And For example, in [Keyword A, [Related Word A1, Related Word A2, Related Word A3, Related Word A4]] which is the list on the first line in FIG. 11, a list in which related words related to Keyword A are arranged. [Related Word A1, Related Word A2, Related Word A3, Related Word A4] is also referred to as “related word list”.
[0016]
After the related words list of the first keyword is created in steps 201 and 202, the second keyword input from the input device 60 of FIG. An initial distance 0 is substituted into D1 for R (step 203), and a related word list creation function is called using these as arguments (step 204) to create a related word list of the second keyword as shown in FIG. . In FIG. 12, for convenience of explanation, the second keyword is a keyword B, and related words of the keyword B are related words B1 and related words B2, and related words are indicated by symbols.
[0017]
FIG. 13 is a flowchart showing the process of the related word list creation function called at step 202 and step 204 of FIG. In the related word list creation function, a related word list is created within a range of the specified relevance and distance. First, it is determined whether the distance D1 input as an argument is equal to or less than the specified distance D (step 301). If the distance D1 (number of related words) has already been exceeded, the process returns. If the distance D1 is within the specified distance D, it is checked whether the search for the related word of the keyword X input as an argument has been completed (step 302). In this search, the keyword X is searched from the relevance table of FIG. If there is a related word of the keyword X to be searched, the related word of X is acquired and substituted into X1 (step 303). Further, the degree of association between X and X1 is substituted into R1 (step 304). It is determined whether the relevance level R1 is equal to or less than the specified relevance level R (step 305). If the relevance level R1 is equal to or lower than the specified relevance level R, the process returns to step 302 without taking X1 as a related word. Process to get the next related word of. If R1 is a relevance level equal to or higher than the relevance level R in step 305, a process of adding X1 to the related word list of X is performed (step 306), and the process returns to step 302 to acquire the next related word of X I do. In this way, the related words of X are checked, and a related word list of X is created.
[0018]
When the search for the related word of X is completed, the same process is repeated for each element of the related word list of X. That is, for each element in the X related word list, a process for searching for and acquiring related words related to the element is performed. First, it is checked whether or not the search for the related word list of X is completed (step 307). If the search for the related word list of X has been completed, the process returns. If the search of the related word list of X is not completed, 1 is added to the distance D1 (step 308), and it is checked whether the search of each element of the related word list of X is completed (step 309). If the search is complete, return. If the search has not ended, an element (an element that has not been searched yet) is taken out from the related word list of X and assigned to Y (step 310). Then, the related word list creation function is recursively called with the element Y of the related word list of X, the specified distance D, the specified relevance level R, and the variable D1 as arguments (step 311). The above processing is performed to create a related word list of the first keyword shown in FIG. 11 and a related word list of the second keyword shown in FIG.
[0019]
FIG. 14 is a flowchart showing the process of the related word path creation unit 53 that creates the related word path list 54 based on the related word lists of FIGS. 11 and 12. First, the common related word list shown in FIG. 15 is created from the related word list of the first keyword (keyword A) shown in FIG. 11 and the related word list of the second keyword (keyword B) shown in FIG. 401). Next, a partial list from the element on the left side of the common related word list shown in FIG. 15 to the keyword A shown in FIG. 16 is created (step 402). Further, a partial list from the element on the right side of the common related word list shown in FIG. 15 to the keyword B shown in FIG. 17 is created (step 403). 16 and FIG. 17 are used, the related word reaching the keyword A shown in FIG. 18 by using the partial list from the element on the left side of the common related word list shown in FIG. 15 to the keyword A shown in FIG. A route list is created (step 404). Further, a related word path list reaching the keyword B shown in FIG. 19 is created using the partial list extending from the element on the right side of the common related word list shown in FIG. 15 to the keyword B shown in FIG. 17 (step 405). . Finally, the related word path list leading to keyword A and the related word path list leading to keyword B are combined to create a related word path list from keyword A to keyword B as shown in FIG. 20 (step 406). .
[0020]
Hereinafter, details of the processing of each step of FIG. 14 will be described in order.
[0021]
FIG. 21 is a flowchart showing the process of creating the common related word list in step 401 of FIG. First, it is checked whether the search of the related word list (FIG. 11) of the keyword A, which is the first keyword, is completed (step 501). If the search is completed, the process ends. If the search has not ended, it is checked whether the search for each element (keyword) in the related word list of keyword A has ended (step 502). If the search has ended, the process returns to step 501. . If the search has not ended, the next element is extracted from the related word list of keyword A and substituted for X (step 503), and the process proceeds to step 504.
[0022]
Note that step 501 checks whether the processing has been completed for all the row data when the processing is carried out using each row data of the related word list shown in FIG. 11 as a processing unit. That is, when the process is started from the first line data of the related word list in FIG. 11 and one line data is processed, the process proceeds to step 502 with the next line data as a processing target in step 501. If there is no more row data to be processed, the process ends from step 501. In step 502, it is checked whether the processing has been completed for all elements of the related word list in the row data to be processed. The elements extracted in step 503 are each element of the related word list in the row data to be processed.
[0023]
If the search for all the elements of the related word list in the current row data to be processed is not completed in step 502, the next element is extracted and substituted for X (step 503). It is checked whether the search of the list (FIG. 12) has been completed (step 504). If the search for the related word list of keyword B has been completed, the process returns to step 502. If the search for the related word list of keyword B has not been completed, it is checked whether the search for each element (keyword) in the related word of keyword B has been completed (step 505). If the search for each element (keyword) in the related word of keyword B has been completed, the process returns to step 504. If the search for each element (keyword) in the related word of keyword B has not been completed, each element (keyword) is extracted from the related word list of keyword B and substituted for Y (step 506). It is determined whether Y is the same (step 507). If X and Y are the same, a common related word list shown in FIG. 15 is created with the first element (keyword) of the matched Y related word list and the keyword X ([first element of the related word list of X, Y]). List format), the process returns to step 506. If X and Y are not the same, the process returns to step 505.
[0024]
Steps 504, 505, and 506 are the same processes as steps 501, 502, and 503, respectively. However, the related word list to be processed is the related word list of the keyword B in FIG. In addition, the variable to which the element is substituted in step 506 is Y.
[0025]
For example, the elements in the related word list of the keyword A in FIG. 11 and also included in the related word list of the keyword B in FIG. 12 are the related word A3, the related word A11, and the related word A12. Those head elements (the head element in the related word list of FIG. 12) are related words B3 for related word A3, related words B2 and related words B11 for related word A11, and related words B1 for related word A12. Since it is the word B11, the list is as shown in FIG. The element on the left side of each row data in the common related word list in FIG. 15 is the right side of each row data in the related word list in FIG. 12 among the elements in the related word list on the right side of each row data in the related word list in FIG. Has the same elements as in the related word list. Further, the element on the right side of each row data of the common related word list in FIG. 15 is the head element corresponding to the element on the left side (head element in the related word list in FIG. 12).
[0026]
FIG. 22 is a flowchart showing a process of creating a partial list reaching keyword A in step 402 in FIG. First, it is checked whether the search for the common related word list in FIG. 15 is completed (step 601). If the search is completed, the process is terminated. That is, when the process is started from the first row data of the common related word list in FIG. 15 and one row data is processed, the next row data is processed in step 601 and the process proceeds to step 602. If there is no more row data to be processed, the process ends from step 601. If the search is not completed in step 601, the element on the left side of the row data to be processed in the common related word list in FIG. 15 is extracted and substituted for X (step 602). It is checked whether or not (step 603). If X is the same as keyword A, the process returns to step 601 to perform processing for extracting the next row data of the common related word list in FIG. 15 as a processing target.
[0027]
If X is not the same as keyword A in step 603, the top element of the related word list including X in the related word list of keyword A in FIG. 11 is substituted for Y (step 604). That is, the line data including X in the related word list on the right side in each line data in FIG. 11 is found, and the head element is substituted for Y. Next, it is checked whether or not the partial lists of Y and X have already been created (step 605). If they have been created, the process returns to step 601. If it has not been created, a partial list of Y and X is created (step 606). This partial list is in the format [X, Y]. Next, it is checked whether Y is a keyword A, that is, a terminal keyword (step 607). If Y is the same as keyword A, the process returns to step 601. If Y is not the same as keyword A, Y is substituted for X (step 608), and the process returns to step 604 to reach the keyword A shown in FIG. Repeat the process of creating a partial list.
[0028]
For example, when searching the related word list of the keyword A in FIG. 11 using the related word A11 which is the element on the left side as a key in the second row list in the common related word list in FIG. , [Related word A11, related word A12, related word A13]] and [related word A2, [related word A21, related word A22, related word A23, related word A11]], and their head elements are related. Since the word A1 and the related word A2, [related word A11, related word A1] and [related word A11, related word A2] are created as a partial list leading to the keyword A.
[0029]
FIG. 23 is a flowchart showing a process of creating a partial list reaching keyword B in step 403 of FIG. First, it is checked whether the search for the common related word list in FIG. 15 is completed (step 701). If the search is completed, the process is terminated. That is, when the process is started from the first row data of the common related word list in FIG. 15 and one row data is processed, the next row data is processed in step 701 and the process proceeds to step 702. When there is no more row data to be processed, the process ends from step 701. If the search is not completed in step 701, the element on the right side of the row data to be processed in the common related word list in FIG. 15 is extracted and substituted for X (step 702). It is checked whether or not (step 703). If X is the same as keyword B, the process returns to step 701, and the next row data of the common related word list in FIG.
[0030]
If X is not the same as keyword B in step 703, the top element of the related word list including X in the related word list of keyword B in FIG. 12 is substituted for Y (step 704). That is, row data including X in the related word list on the right side in each row data in FIG. 12 is found, and the head element is substituted for Y. Next, it is checked whether or not the partial lists of Y and X have already been created (step 705). If they have been created, the process returns to step 701. If it has not been created, a partial list of Y and X is created (step 706). This partial list is in the format [X, Y]. Next, it is checked whether Y is a keyword B, that is, a terminal keyword (step 707). If Y is the same as keyword B, the process returns to step 701. If Y is not the same as keyword B, Y is substituted for X (step 708), and the process returns to step 704 to reach keyword B shown in FIG. Repeat the process of creating a partial list.
[0031]
For example, when searching the related word list of the keyword B in FIG. 12 using the related word B11 which is the element on the right side in the list in the third row in the common related word list in FIG. 15, [Related Word B1 , [Related Word B11, Related Word A12, Related Word B12, Related Word B13]] and [Related Word B2, [Related Word B21, Related Word B11, Related Word A11]], and their head elements are related. Since it is the word B1 and the related word B2, [Related Word B11, Related Word B1] and [Related Word B11, Related Word B2] are created as a partial list leading to the keyword B.
[0032]
FIG. 24 is a flowchart showing a process of creating a related word path list that reaches keyword A in step 404 of FIG. First, it is checked whether or not the search for the common related word list in FIG. 15 has been completed (step 801). If the search has been completed, the process is terminated. That is, if the process is started from the first row data of the common related word list in FIG. 15 and one row data is processed, the next row data is processed in step 801 and the process proceeds to step 802. When there is no more row data to be processed, the process ends from step 801. If the search is not completed in step 801, the element on the left side of the row data to be processed in the common related word list in FIG. 15 is extracted and substituted for X (step 802), and a related word path list for X is created. (Step 803). The first related word path list is a list [X] having only X as an element. Next, X is substituted into X1 (step 804), and it is checked whether the search for the partial list reaching the keyword A in FIG. 16 is completed (step 805). In this search, a list in which the element on the left side matches X1 is searched from the partial list reaching the keyword A in FIG.
[0033]
When the search for the partial list leading to the keyword A in FIG. 16 has been completed, the process returns to step 801 to perform processing for retrieving the next row data of the common related word list in FIG. 15 as a processing target. If the search is not completed, the right element Y whose left element matches X1 in the partial list leading to keyword A in FIG. 16 is obtained (step 806), and Y is added to the related word path list of X. Add (step 807). This is a process of inserting Y as the head element of the related word path list of X. Next, it is checked whether Y is the keyword A, that is, the end keyword (step 808). If it is the same as the keyword A, that is, if it is the end keyword, the process returns to step 801, and if Y is not the same as the keyword A, , Y is substituted into X1 (step 809), and the process returns to step 806 to repeat the process of creating the related word path list reaching the keyword A shown in FIG.
[0034]
For example, when searching the partial list reaching the keyword A in FIG. 16 using the related word A12 as the left element in the list in the fourth row in the common related word list in FIG. 15, the left element is The list that matches the related word A12 includes [related word A12, related word A1] and [related word A12, related word A11], and when looking at the former [related word A12, related word A1], Since the element on the right side of the word A12, the related word A1] is the related word A1, first, the related word A1 is added to the related word path list [related word A12] of the related word A12 to create [related word A1, related word A12]. To do. Further, since the related word A1 is not the keyword A, that is, the terminal keyword, further searching the partial list leading to the keyword A finds a list [related word A1, keyword A] whose left side element matches the related word A1, The element keyword A on the right side is added to the related word list of the related word A12 to create a list [keyword A, related word A1, related word A11].
[0035]
FIG. 25 is a flowchart showing a process of creating a related word path list reaching keyword B in step 405 of FIG. First, it is checked whether the search for the common related word list in FIG. 15 is completed (step 901). If the search is completed, the process is terminated. That is, if the process is started from the first row data of the common related word list in FIG. 15 and one row data is processed, the process proceeds to step 902 with the next row data as a processing target in step 901. If there is no more row data to be processed, the process ends from step 901. If the search is not completed in step 901, the element on the right side of the row data to be processed in the common related word list in FIG. 15 is extracted and substituted for X (step 902), and a related word path list for X is created. (Step 903). The first related word path list is a list [X] having only X as an element. Next, X is substituted into X1 (step 904), and it is checked whether the search for the partial list reaching the keyword B in FIG. 17 is completed (step 905). In this search, a list in which the element on the left side matches X1 is searched from the partial list that reaches keyword B in FIG.
[0036]
If the search for the partial list reaching keyword B in FIG. 17 has been completed, the process returns to step 901 to perform processing for extracting the next row data of the common related word list in FIG. 15 as a processing target. If the search has not ended, the right element Y whose left element matches X1 in the partial list leading to the keyword B in FIG. 17 is obtained (step 906), and Y is added to the related word path list of X. It adds (step 907). This is a process of inserting Y as the last element of the related word path list of X. Next, it is checked whether or not Y is a keyword B, that is, a terminal keyword (step 908). If it is the same as keyword B, that is, if it is a terminal keyword, the process returns to step 901, and if Y is not the same as keyword B , Y is substituted for X1 (step 909), the process returns to step 906, and the process of creating the related word path list reaching the keyword B shown in FIG. 19 is repeated.
[0037]
For example, when a partial list reaching the keyword B in FIG. 17 is searched using the related word B11 as the right element in the list in the third row in the common related word list in FIG. 15, the left element is The list that matches with the related word B11 includes [related word B11, related word B1] and [related word B11, related word B2], and when looking at the former [related word B11, related word B1], Since the element on the right side of the word B11, the related word B1] is the related word B1, first, the related word B1 is added to the related word path list [related word B11] of the related word B11 to create [related word B11, related word B1]. To do. Further, since the related word B1 is not the keyword B, that is, the terminal keyword, when a partial list reaching the keyword B is further searched, a list of [related word B1, keyword B] whose left side element matches the related word B1 is found. The element keyword B on the right side is added to the related word list of the related word B11 to create a list [related word B11, related word B1, keyword B].
[0038]
FIG. 26 is a flowchart showing the process of creating a related word path list from keyword A to keyword B in step 406 of FIG. First, it is checked whether or not the search for the common related word list in FIG. 15 has been completed (step 1001). If the search has been completed, the process is terminated. That is, if processing is started from the first row data of the common related word list in FIG. 15 and processing is performed for one row data, the processing proceeds to step 1002 with the next row data as a processing target in step 1001. If there is no more row data to be processed, the process ends from step 1001. If the search is not completed in step 1001, the element on the left side of the row data to be processed in the common related word list in FIG. 15 is extracted and substituted for X (step 1002), and the element on the right side is extracted. Substitute for Y (step 1003). Next, it is checked whether the search for the related word path list leading to the keyword A in FIG. 18 is completed (step 1004). In this search, a list in which the rightmost element coincides with X is searched from the related word path list reaching the keyword A in FIG.
[0039]
When the search for the related word path list reaching the keyword A in FIG. 18 has been completed, the process returns to step 1001 to perform processing for extracting the next row data of the common related word list in FIG. 15 as a processing target. If the search is not completed, a list in which the rightmost element matches X in the related word path list leading to keyword A in FIG. 18 is acquired and substituted into L1 (step 1005). Subsequently, it is checked whether or not the search for the related word path list leading to the keyword B in FIG. 19 is completed (step 1006). In this search, a list in which the leftmost element matches Y is searched from the related word path list reaching the keyword B in FIG.
[0040]
If the search for the related word path list reaching the keyword B in FIG. 19 has been completed, the process returns to step 1004. If the search has not been completed, the related word path list in the related word path list reaching the keyword B in FIG. A list in which the leftmost element matches Y is acquired and assigned to L2 (step 1007). Then, the list of L1 and the list of L2 are combined to form a related word path list from the keyword A to the keyword B (step 1008). After combining the lists, the process returns to step 1006 to repeat the process of combining with other lists.
[0041]
For example, looking at the list [related word A3, related word B3] on the first line in the common related word list in FIG. 15, the element on the left side is related word A3, which leads to keyword A in FIG. In the related word list, a list whose right side element matches the related word A3 is [keyword A, related word A3]. Further, the element on the right side of the list [Related Word A3, Related Word B3] on the first row is the related word B3, and the left element in the related word list leading to the keyword B in FIG. 19 matches the related word B3. The list to be performed is [Related Word B3, Keyword B]. Therefore, these two lists are combined to create a list [keyword A, related word A3, related word B3, keyword B]. The above processing is performed to create a related word path list from the first keyword (keyword A) to the second keyword (keyword B) as shown in FIG. In FIG. 20, each list of lines represents a route from the keyword A to the keyword B.
[0042]
FIG. 27 is a flowchart showing a process of creating display data by the related word path display unit 55 of FIG. The related word path display unit 55 creates display data based on the related word path list 54 (FIG. 20). First, the average value of the relevance of each route is calculated (step 1101), and the display order is determined (step 1102). The average value of the degree of association of each route is the average value of the degree of association between adjacent elements in each route list. The display order is the order specified by the user. In the shortest path order, the list is displayed in order from the list with the smallest number of elements in the related word path list, and in the longest path order, the list is displayed in order from the list with the largest number of elements in the related word path list. If the average value of the related strengths is in descending order, they are displayed in descending order of the average value calculated in step 1101. Further, the display order is determined by a combination thereof. When the route to be displayed is determined, display data is created (step 1103). Optionally, it can be specified to change the display color of routes below a predetermined relevance. In addition, it is possible to specify that the display color of a keyword whose appearance frequency is equal to or less than a predetermined value is changed. For example, when the display color of a route having a relevance level of 3.0 or less is designated as red, the route between the corresponding keywords is designated as red. In addition, when the display color of related words having an appearance frequency of 50 or less is designated as blue, the background of the corresponding keyword is designated as blue.
[0043]
FIG. 28 shows an example of display data creation in the HTML (HyperText Markup Language) format. FIG. 28 shows an example in which the route between “character” and “difficult to see” is designated in red and the background of “difficult to see” is designated in blue. As described above, display data is created according to the designated option, and the search result is displayed on the input / output screen 80 of the display device 70 of FIG.
[0044]
In addition, although the example which changes a display color was demonstrated here, the display mode to change is not restricted to a display color. For example, you may make it change the thickness of a line, an emphasis display, the presence or absence of a blink, etc.
[0045]
FIG. 29 shows a display example of search results. In this example, “personal computer” and “elderly” are input as keywords and searched. From the example of FIG. 29, there are many keywords “Internet”, “Mail”, “Motivation to learn” between “PC” and “Elderly”, “Difficult”-“Motivation to learn” and “Text”-“Difficult to see” ”Is highlighted in red according to the user ’s designation, and the keyword“ difficult to see ”is highlighted in blue. And it is better to enlarge the display characters on the display. Thus, by displaying related words between keywords, it is possible to obtain information that could not be obtained by a conventional network-type display method.
[0046]
The present invention is not limited to the embodiment described with reference to FIGS. 1 to 29, and various modifications can be made without departing from the scope of the invention. For example, in the above-described embodiment, an example of displaying in the HTML format as the display method has been described. However, it is also possible to create and display a graphic image.
[0047]
According to the above embodiment, since a plurality of related word paths from the first keyword to the second keyword are displayed, it is possible to grasp what word the two words are connected to. By displaying the path of such a related word, it is possible to present unknown information that the user has not noticed until now. In addition, since it is possible to change the display method with the shortest path order, the longest path order, the ascending order of the average value of the related strengths, and the descending order, it is possible to see the connection between words from different viewpoints. Discover new knowledge not only by judging trends in various keywords such as daily reports, store manager's diaries, and general newspaper data, but also by observing the connections. It becomes possible to do. For example, it is possible to search for potential needs even when sufficient questionnaires are not available, such as what functions are necessary for product development such as a PC for elderly people and a mobile phone for elderly people.
[0048]
【The invention's effect】
As described above, according to the present invention, by displaying a plurality of related word paths from the first keyword to the second keyword in advance, it is possible to determine which word the two keywords are connected to. By presenting information and displaying the path of such related terms, it is possible to present unknown information that the user has not noticed before.
[Brief description of the drawings]
FIG. 1 is a diagram showing association relationships between words in a network format.
FIG. 2 is a diagram showing a configuration of a text mining device according to an embodiment of the present invention.
FIG. 3 is a flowchart showing a processing process until a related word dictionary is created from a document database.
FIG. 4 is a diagram showing an example of document data read from a document database.
FIG. 5 is a diagram illustrating an example of a word that is analyzed and cut out by a word extraction unit;
FIG. 6 is a diagram showing an example of a word table created by a word extraction unit.
FIG. 7 is a diagram showing an example of a co-occurrence frequency table created by a related word extraction unit.
FIG. 8 is a diagram showing an example of a relevance level table created by a related word extraction unit.
FIG. 9 is a diagram showing a calculation formula for mutual information used in the relevance degree table creation process;
FIG. 10 is a flowchart showing a process of creating a related word list by a related word list creating unit.
FIG. 11 is a diagram illustrating an example of a related word list of a first keyword.
FIG. 12 is a diagram illustrating an example of a related word list of a second keyword.
FIG. 13 is a flowchart showing a process of a related word list creation function.
FIG. 14 is a flowchart showing a process of creating a related word path list by a related word path creating unit.
FIG. 15 is a diagram showing an example of a common related word list of the related word list of the first keyword and the related word list of the second keyword.
FIG. 16 is a diagram showing an example of a partial list that reaches the first keyword (keyword A);
FIG. 17 is a diagram showing an example of a partial list that reaches the second keyword (keyword B);
FIG. 18 is a diagram showing an example of a related word path list that reaches the first keyword (keyword A);
FIG. 19 is a diagram showing an example of a related word path list that reaches the second keyword (keyword B);
FIG. 20 is a diagram showing an example of a related word path list from a first keyword (keyword A) to a second keyword (keyword B);
FIG. 21 is a flowchart showing a process of creating a common related word list.
FIG. 22 is a flowchart showing a process of creating a partial list up to the first keyword (keyword A).
FIG. 23 is a flowchart showing a process of creating a partial list up to the second keyword (keyword B).
FIG. 24 is a flowchart showing a process of creating a related word path list up to the first keyword (keyword A).
FIG. 25 is a flowchart showing a process of creating a related word path list up to the second keyword (keyword B).
FIG. 26 is a flowchart showing a process of creating a related word path list from the first keyword (keyword A) to the second keyword (keyword B).
FIG. 27 is a flowchart showing a process of creating display data in a related word path display unit.
FIG. 28 is a diagram showing an example of creating display data in HTML format.
FIG. 29 is a diagram showing a search result of a related word list from the first keyword to the second keyword.
[Explanation of symbols]
10 …… Processing device
20 …… Document database
30 …… Related word dictionary creation part
31 …… Word extractor
32 …… Related word extractor
40 …… Related word dictionary
50 …… Related word path search unit
51 …… Related word list creation part
52 …… Related word list
53 …… Related word path creation part
54 …… Related word path list
55 …… Related word path display
60 …… Input device
70 …… Display device
80 …… Input / output device

Claims (6)

テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニングプログラムであって、
コンピュータに、
指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示するステップと
実行させるためのテキストマイニングプログラム。
A text mining program for analyzing text data, understanding features and trends, and discovering unknown information.
On the computer,
Searching for a path of related terms connecting two specified keywords;
A text mining program for executing a step of displaying the searched route in the shortest route order or the longest route order according to a user's specification .
テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニングプログラムであって、
コンピュータに、
指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示するステップと
実行させるためのテキストマイニングプログラム。
A text mining program for analyzing text data, understanding features and trends, and discovering unknown information.
On the computer,
Searching for a path of related terms connecting two specified keywords;
A text mining program for executing a step of displaying the searched route in ascending or descending order of the average value of the strength of association between the keywords as the elements of the route according to the user's specification .
コンピュータを用いて構築されたテキストマイニング装置において、テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニング方法であって、
前記コンピュータが備える経路探索手段が、指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
前記コンピュータが備える表示手段が、ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示するステップと
実行することを特徴とするテキストマイニング方法。
In a text mining device constructed using a computer, it is a text mining method for analyzing text data, grasping features and trends, and discovering unknown information,
A route search means provided in the computer for searching for a route of related words connecting the two specified keywords;
Text mining method which the display unit included in the computer, in response to user's designation, the shortest path order or longest path order, and executes the step of displaying the searched route.
コンピュータを用いて構築されたテキストマイニング装置において、テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニング方法であって、
前記コンピュータが備える経路探索手段が、指定された2つのキーワードを結ぶ関連語の経路を探索するステップと、
前記コンピュータが備える表示手段が、ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示するステップと
実行することを特徴とするテキストマイニング方法。
In a text mining device constructed using a computer, it is a text mining method for analyzing text data, grasping features and trends, and discovering unknown information,
A route search means provided in the computer for searching for a route of related words connecting the two specified keywords;
The display means provided in the computer executes a step of displaying the searched route in ascending or descending order of the average value of the strength of association between the keywords that are the elements of the route according to the user's designation. A featured text mining method.
テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニング装置であって、
指定された2つのキーワードを結ぶ関連語の経路を探索する手段と、
ユーザの指定に応じて、最短経路順あるいは最長経路順に、探索した経路を表示する手段と
を備えたことを特徴とするテキストマイニング装置。
A text mining device for analyzing text data, understanding features and trends, and discovering unknown information,
Means for searching a path of related terms connecting two specified keywords;
A text mining device comprising: means for displaying searched routes in the shortest route order or in the longest route order according to a user's specification .
テキストデータを解析し、特徴や傾向を把握したり、未知の情報を発見するためのテキストマイニング装置であって、
指定された2つのキーワードを結ぶ関連語の経路を探索する手段と、
ユーザの指定に応じて、経路の要素である各キーワード間の関連の強さの平均値の昇順または降順に、探索した経路を表示する手段と
を備えたことを特徴とするテキストマイニング装置。
A text mining device for analyzing text data, understanding features and trends, and discovering unknown information,
Means for searching a path of related terms connecting two specified keywords;
A text mining device comprising: means for displaying the searched routes in ascending or descending order of the average value of the strength of association between the keywords that are elements of the route according to the user's specification .
JP2002177956A 2002-06-19 2002-06-19 Text mining program, method and apparatus Expired - Fee Related JP3960530B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002177956A JP3960530B2 (en) 2002-06-19 2002-06-19 Text mining program, method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002177956A JP3960530B2 (en) 2002-06-19 2002-06-19 Text mining program, method and apparatus

Publications (2)

Publication Number Publication Date
JP2004021763A JP2004021763A (en) 2004-01-22
JP3960530B2 true JP3960530B2 (en) 2007-08-15

Family

ID=31175818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002177956A Expired - Fee Related JP3960530B2 (en) 2002-06-19 2002-06-19 Text mining program, method and apparatus

Country Status (1)

Country Link
JP (1) JP3960530B2 (en)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100806862B1 (en) 2004-07-16 2008-02-26 (주)이네스트커뮤니케이션 Method and apparatus for providing a list of second keywords related with first keyword being searched in a web site
JP4613346B2 (en) * 2004-09-01 2011-01-19 独立行政法人産業技術総合研究所 Keyword extraction method, keyword extraction program, keyword extraction device, metadata creation method, metadata creation program, and metadata creation device
EP1825355A4 (en) 2004-11-12 2009-11-25 Make Sence Inc Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
JP2006171931A (en) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp Text mining device and text mining program
JP4797380B2 (en) * 2004-12-28 2011-10-19 コニカミノルタホールディングス株式会社 Medical support system
JP4975273B2 (en) * 2005-05-30 2012-07-11 株式会社エヌ・ティ・ティ・ドコモ Topic transition control device, topic transition control system, and topic transition control method
WO2006133050A2 (en) * 2005-06-06 2006-12-14 The Regents Of The University Of California Relationship networks
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
KR100724122B1 (en) * 2005-09-28 2007-06-04 최진근 System and its method for managing database of bundle data storing related structure of data
JP2007102501A (en) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for calculating relevancy between words
JP2007102717A (en) * 2005-10-07 2007-04-19 Toshiba Corp Bayesian network configuration support apparatus
JP4864095B2 (en) * 2005-11-14 2012-01-25 メイク センス インコーポレイテッド Knowledge correlation search engine
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
JP4719921B2 (en) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 Data display device and data display program
JP4469818B2 (en) * 2006-07-18 2010-06-02 株式会社東芝 Data management apparatus, data program, and data management method
FR2914529A1 (en) * 2007-03-28 2008-10-03 Thomson Licensing Sas METHOD OF NAVIGATION AMONG DISPLAYED ELEMENTS BY CREATING NAVIGATION ROADS AND APPARATUS FOR IMPLEMENTING THE METHOD
JP4833336B2 (en) 2007-05-08 2011-12-07 富士通株式会社 Keyword output program, apparatus, and method
JP2009086771A (en) * 2007-09-27 2009-04-23 Nomura Research Institute Ltd Retrieval service device
JP4450063B2 (en) 2007-12-17 2010-04-14 ソニー株式会社 Information processing apparatus, information processing method, and program
WO2009104387A1 (en) 2008-02-20 2009-08-27 パナソニック株式会社 Interactive program search device
JP5009874B2 (en) * 2008-07-31 2012-08-22 日本電信電話株式会社 Importance acquisition device and method, and frame information creation device and method
JP5445071B2 (en) * 2009-11-27 2014-03-19 富士通株式会社 Search information analysis program, search information analysis device, and search information analysis method
JP2012123639A (en) * 2010-12-08 2012-06-28 Kyoto Univ Image visualization system, information provision system and computer program of the same
JP5687312B2 (en) 2013-06-21 2015-03-18 株式会社Ubic Digital information analysis system, digital information analysis method, and digital information analysis program
US9558263B2 (en) 2013-12-05 2017-01-31 International Business Machines Corporation Identifying and displaying relationships between candidate answers
JP6181033B2 (en) * 2014-06-20 2017-08-16 株式会社神戸製鋼所 Document search apparatus, document search method, and document search program
JP5853090B2 (en) * 2014-12-09 2016-02-09 株式会社Ubic Digital information analysis system, digital information analysis method, and digital information analysis program
JP6448128B2 (en) * 2014-12-25 2019-01-09 日本放送協会 Subject word extraction device and program
JP6764973B1 (en) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 Related word dictionary creation system, related word dictionary creation method and related word dictionary creation program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120351A (en) * 1991-10-25 1993-05-18 Nec Corp System for making dictionary of synonym
JPH07210565A (en) * 1994-01-21 1995-08-11 Canon Inc Method and device for retrieving information
JP3981170B2 (en) * 1996-10-22 2007-09-26 富士通株式会社 Information retrieval device
US5963965A (en) * 1997-02-18 1999-10-05 Semio Corporation Text processing and retrieval system and method
JPH1131156A (en) * 1997-07-14 1999-02-02 Toshiba Corp Device and method for retrieving document
JP4404323B2 (en) * 1999-02-05 2010-01-27 経済産業大臣 Thesaurus browsing system and method
JP2001117935A (en) * 1999-10-19 2001-04-27 Fujitsu Ltd Device and method for accessing text information and recording medium

Also Published As

Publication number Publication date
JP2004021763A (en) 2004-01-22

Similar Documents

Publication Publication Date Title
JP3960530B2 (en) Text mining program, method and apparatus
US9348934B2 (en) Systems and methods for facilitating open source intelligence gathering
JP3915267B2 (en) Document search apparatus and document search method
US20090300046A1 (en) Method and system for document classification based on document structure and written style
CN111695022A (en) Interest searching method based on knowledge graph visualization
US7725487B2 (en) Content synchronization system and method of similar web pages
CN103942198B (en) For excavating the method and apparatus being intended to
JP2002073677A (en) Device for collecting personal preference information on reader and information reading support device using the information collecting device
JPH09138804A (en) Picture retrieving device
JP3864235B2 (en) Information retrieval system and information retrieval program
JP5121872B2 (en) Image search device
KR20130113275A (en) Apparatus and method for visualization of a hyperlink using color attribute value
JP2019128925A (en) Event presentation system and event presentation device
JP2011100208A (en) Action estimation device, action estimation method, and action estimation program
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
JP4348357B2 (en) Related document display device
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
JP2014102625A (en) Information retrieval system, program, and method
JP2005128872A (en) Document retrieving system and document retrieving program
JP6960553B2 (en) Brand dictionary creation device, product evaluation device, brand dictionary creation method and program
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program
KR101667918B1 (en) Methodand device of providing query-adaptive smart search service
Buzzi et al. Accessibility and usability of search engine interfaces: Preliminary testing
JP3739040B2 (en) Information processing apparatus and information processing method
JP2004139150A (en) Document search system, program, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070511

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees