JP2004246491A - Text mining system and text mining program - Google Patents
Text mining system and text mining program Download PDFInfo
- Publication number
- JP2004246491A JP2004246491A JP2003034059A JP2003034059A JP2004246491A JP 2004246491 A JP2004246491 A JP 2004246491A JP 2003034059 A JP2003034059 A JP 2003034059A JP 2003034059 A JP2003034059 A JP 2003034059A JP 2004246491 A JP2004246491 A JP 2004246491A
- Authority
- JP
- Japan
- Prior art keywords
- mining
- search
- document
- result
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、大量の電子化文書の集合に対し、様々な観点から分析を行うことを可能にするテキストマイニング装置及びテキストマイニングプログラムに関するものである。
【0002】
【従来の技術】
アンケートや電子ニュース等、大量の文書データの分析を支援するための技術として、テキストマイニングが注目されている。テキストマイニングでは、処理対象の文書データのテキスト情報から単語の頻度や関連性を抽出して、新たな知識を発見する技術である。従来、大量の文書データの分析作業を対話的に進めるための支援の方法が提案されており、例えば、特許文献1に開示されたテキストマイニング装置では、以下のような処理が行われていた。
【0003】
テキストマイニングの処理対象となる対象文書集合から、対象文書集合に特徴的に出現する語句(特徴語句)を抽出し、その中からユーザが指定した分析軸の構成要素と共起する語句を取り出す。例えば、“O157”に関する新聞記事集合を処理対象とした場合、特徴語句「小学校、集団感染、患者、複数、出血性、下痢、症状、入院、…」が抽出される。その中から、分析軸として、新聞の掲載月を指定し、その構成要素(7月、8月、9月)と共起する語句を取得する。この結果、“7月”と対応付けて「感染、患者、症状、入院、…」、“8月”と対応付けて「衝撃、給食、入院、集団感染、…」、“9月”と対応付けて「売上、マイナス、食料品、生鮮、…」といった共起語句が取得される。
【0004】
この分析軸及び分析結果を分析履歴として保存しておくと共に、複数の異なる分析軸を有するようにし、分析軸の追加や任意の分析軸の変更を行った際に、複数の分析軸の構成要素の各々と共起する可能性が高い語句を分析履歴を用いて絞り込み、異なる分析軸の組み合わせによる分析を実現している。
【0005】
指定された特徴語句を含む分析軸を追加する際には、指定された構成要素にその分析軸を追加して、指定された構成要素と追加した分析軸の構成要素の組を作成すると共に、作成した構成要素の組の各々と共起する可能性が高い語句を共起語句候補として分析履歴から抽出する。そして抽出した共起語句候補の中から、作成した構成要素の組の各々と予め定められた範囲内(同一文書内、同一段落内、同一文章内、又はm語以内、n文以内)で共起する語句を取得する。例えば、構成要素“7月”と対応付けて取得した共起語句“感染”及び“症状”を含む分析軸を追加する。
【0006】
そして、指定された構成要素“7月”と追加した分析軸の構成要素の組“7月−感染”、“7月−症状”と共起する可能性が高い共起語句候補として、“7月”と共起する語句「感染、患者、症状、入院、…」を分析履歴から抽出する。そしてこの共起語句候補の中から、構成要素の組“7月−感染”、“7月−症状”と予め定められた範囲内で共起する語句を取得する。この結果、“7月−感染”と共起する語句として「患者、症状、予防法、集団、…」、“7月−症状”と共起する語句として「吐気、下痢、入院、重症、…」を得る。ここで、“7月−感染”とは、“7月”と“感染”の組であることを意味し、「“7月−感染”と予め定められた範囲内で共起する」とは、「“7月”と予め定められた範囲内で共起し、かつ、“感染”と予め定められた範囲内で共起する」ことを意味する。
【0007】
追加した分析軸を変更する際には、分析軸をユーザの指示に従って変更すると共に、構成要素の組と共起する可能性が高い語句を共起語句候補として分析履歴から抽出する。そして抽出した共起語句候補の中から、構成要素の組と予め定められた範囲内で共起する語句を取得する。「構成要素“7月”に分析軸を追加した」ことを消去して、“8月”と対応付けて取得した共起語句“給食”を含む分析軸を追加した場合、指定された構成要素“8月”と追加した分析軸の構成要素の組“8月−給食”と共起する可能性が高い共起語句候補として、“8月”と共起する語句「衝撃、給食、入院、集団感染、…」を分析結果から抽出する。そして、この共起語句候補の中から、構成要素の組“8月−給食”と予め定められた範囲内で共起する語句を取得する。
【0008】
テキストマイニング結果から指定された共起語句と共に、代表文書取得指示がユーザから入力された場合には、指定された共起語句及びその共起語句と対応する構成要素に含まれる語句でテキストマイニング対象となった文書集合の検索を行い、得点の高い文書や最新の文書、指定された書誌情報を持つ文書等を代表文書として取得する。
【0009】
このように、特許文献1のテキストマイニング装置では、分析軸及び分析結果を分析履歴として保存しておくと共に、複数の異なる分析軸を有するようにし、分析軸の追加や任意の分析軸の変更を行った際に、複数の分析軸の構成要素の各々と共起する可能性が高い語句を分析履歴を用いて絞込み、複数の異なる分析軸の組み合わせによる分析を実現している。また、分析履歴を用いて共起語句を絞り込んでから、実際に構成要素の各々と共起する語句を調べるため、全ての特徴語句について共起するか否かを調べる場合に比べ高速な分析が行える。
【0010】
【特許文献1】
特開2001−318939公報(第14頁、第4図)
【0011】
【発明が解決しようとする課題】
従来のテキストマイニング装置は、以上のようになされていたので、対話的に分析作業を進める際に、分析は常に絞り込む方向に行われ、保存された分析結果は、別の条件でさらに絞り込みを行うための中間情報として活用されるに止まっていた。そのため、保存された複数の分析結果を関連付けてユーザが新たな分析の基準を作成し、その基準に基づく分析を行うことができないという課題があった。
【0012】
例えば、“給食”、“売上”、及び“食料品”という特徴語句によって得られた分析結果に対して「社会的影響」という新たな分析の軸(属性)を作成し、“予防”、“加熱調理”、及び“情報公開”という特徴語句によって得られた分析結果に対して、“対策”という新たな分析の軸(属性)を作成し、「社会的影響」と「対策」の2つの属性の関係を分析するような処理を行うことができない。
【0013】
この発明は上記のような課題を解決するためになされたもので、保存されている分析結果同士の関連付けを行うことによって、新たな分析対象や新たな属性の作成を可能にし、元の文書に定義されていないユーザが定義した基準(分析軸)に基づく分析が行えるテキストマイニング装置及びテキストマイニングプログラムを得ることを目的とする。
【0014】
すなわち、特許文献1では、図33に示すように、対象文書集合401に分析処理402を施して出力した分析結果403に対して、細分化を行う分析処理404を繰り返し施していた。これに対し、この発明では、図34に示すように、対象文書集合411に分析処理412を施して複数の分析結果413,414を出力し、それぞれの分析結果413,414を関連付けて分析処理415を行い、新たな分析結果416を得る。これによって、この発明では、ユーザが定義した複数の分析軸を横断した分析を行うことができるようになる。
【0015】
【課題を解決するための手段】
この発明に係るテキストマイニング装置は、対象文書集合を検索・マイニングするための索引情報を保存している索引格納部と、指定された検索・マイニング条件に従って上記索引格納部に保存されている索引情報を参照して上記対象文書集合の検索・マイニングの処理を実行する検索・マイニング実行部と、上記検索・マイニング実行部による検索・マイニング結果を、各文書と検索・マイニング条件との関連度を上記各文書に付与して検索・マイニング結果格納部に保存する検索・マイニング結果保存部と、指定された複数の検索・マイニング結果を上記検索・マイニング結果格納部から読み込んで、指定された属性名に対応して、各文書毎に読み込んだ検索・マイニング結果を選択して属性値を決定する検索・マイニング結果編集部とを備えたものである。
【0016】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1によるテキストマイニング装置の構成を示すブロック図である。対象文書集合101からは、索引生成部102によって対象文書集合101を検索・マイニングするための索引情報が生成され索引格納部103に格納される。実行部104は、索引格納部103中の索引情報を読み込み、入力部105から入力される検索条件又はマイニング条件に従って、検索又はマイニング処理を実行し、検索・マイニング結果を表示部106に出力する。ユーザから検索・マイニング結果を保存する指示を受けた場合には、実行部104は検索・マイニング結果を検索・マイニング結果格納部107に保存する。
【0017】
実行部104において、索引読み込み部108は索引格納部103に保存されている索引情報を読み込む。検索・マイニング結果読み込み部109は検索・マイニング結果格納部107に格納されている検索・マイニング結果を読み込む。検索・マイニング実行部110は、指定された検索・マイニング条件に従って索引格納部103に保存されている索引情報を参照して、対象文書集合101又は検索・マイニング結果読み込み部109が読み込んだ検索・マイニング結果の検索・マイニングの処理を実行する。
【0018】
また、実行部104において、検索・マイニング結果保存部111は、検索・マイニング実行部110による検索・マイニング結果を、各文書と検索・マイニング条件との関連度を各文書に付与して検索・マイニング結果格納部107に保存する。検索・マイニング結果編集部112は、指定された複数の検索・マイニング結果を検索・マイニング結果格納部107から読み込んで、指定された属性名に対応して、読み込んだ検索・マイニング結果を各文書毎に選択して属性値を決定する。
【0019】
図2は図1における索引生成部102、索引格納部103及び検索・マイニング実行部110を詳細化したテキストマイニング装置の構成を示す詳細ブロック図である。索引生成部102は、概念辞書生成部201、文書ベクトル索引生成部202及びマイニング索引生成部203から構成されている。概念辞書生成部201、マイニング索引生成部203は、対象文書集合101からそれぞれ概念辞書204、マイニング索引206を生成し、文書ベクトル索引生成部202は概念辞書204を参照して対象文書集合101から文書ベクトル索引205を生成する。検索・マイニング実行部110は、検索処理を実行する検索部207及びマイニング処理を実行するマイニング部208から構成される。
【0020】
図3は対象文書集合101中の文書の例を示す図である。この実施の形態1では、携帯電話のアンケートを分析する例に基づいて説明する。対象文書集合101は、「性別」、「年代」、「機種」、「地域」及び「日付」のように、予め値の範囲が定められており、選択肢によって値を指定できるフィールドと、「自由意見」のように自由なテキストで記述するフィールドから構成される。前者のフィールドを、以降、その文書における属性と呼ぶ。属性の項目名を属性名と呼び、その値を属性値と呼ぶ。例えば、図3に示した対象文書集合101中の文書は、「性別」という属性名に対して「男性」という属性値を持っている。
【0021】
なお、図3の例では、1つの属性名に1つの属性値が付与されているが、アンケートにおいて回答がなかった場合等には、必ずしも属性名に属性値が付与されなくても良い。また、「機種」のように、回答者が2つ以上指定する場合があるときには、1つの属性名に2つ以上の属性値が付与されても良い。
【0022】
図4は図2に示す概念辞書生成部201の処理の流れを示すフローチャートであり、図5は概念辞書生成部201の処理を説明する図である。
図4のステップST11において、概念辞書生成部201は図5の文書集合301に含まれるテキストを形態素解析することによって、テキスト中の文字列を単語毎に分割する。なお、形態素解析に関しては広く公知の技術であるので、ここでは詳細な説明を省略する。このとき、図5に示す学習対象の文書集合301は、必ずしも対象文書集合101そのものでなくて、対象文書集合101と同一分野における他の文書集合を用いても良い。
【0023】
ステップST12において、概念辞書生成部201は形態素解析結果から複合語を抽出する。
図6は概念辞書生成部201の複合語抽出処理の流れを示すフローチャートである。図6のステップST21において、概念辞書生成部201は内部に保有している複合語候補抽出辞書に記述されている形態素の連接パターンにより複合語候補を抽出する。
【0024】
図7は複合語候補を抽出するための形態素の連接パターンを記述した複合語候補抽出辞書の例を示す図であり、2つの形態素の連接関係から複合語候補を抽出する複合語候補抽出辞書の例を示している。例えば、パターン番号001では、「品詞が名詞である形態素が2つ続いた場合、その形態素の並びを複合語候補として抽出する」ということを示している。これによって、「機種/変更」や「確認/画面」等、テキスト中で名詞が2つ連続した文字列が複合語候補として抽出される。
【0025】
同様に、パターン番号002からは、「携帯/性」、「機能/的」のような、品詞が名詞の形態素と品詞が接尾辞の形態素が連続する文字列が複合語候補として抽出され、パターン番号003からは「季節/感」、「使用/感」のような、品詞が名詞の形態素と表記が「感」の形態素が連続する文字列が、それぞれ複合語候補として抽出される。なお、「/」は、形態素の区切りを表す記号として用いている。
図8は対象文書集合101から複合語候補を抽出した結果を、「機種変更」という文字列に着目して示した図である。
【0026】
図6のステップST22において、ステップST21で抽出された複合語候補の中から、概念辞書生成部201は統計情報を使用して共起頻度表に登録する複合語を選択する。共起頻度表とは、後述するように単語の共起関係を示す表である。ステップST21によって抽出された複合語候補は莫大な数になるため、単語の統計情報を利用して、重要な語に絞って共起頻度表に登録する。統計情報としては、出現頻度や、下記の式で算出されるtf*idf値のような既知の手法によって計算される統計情報を利用する。
tf*idf(w)=f(w)*log(Nd/d(w))
ここで、f(w)は単語wの出現頻度、Ndは対象文書集合中の文書の数、d(w)は単語wが出現する文書の数を示す。
【0027】
上記ステップST22によって、出現頻度値やtf*idf値等の統計情報の値が予め設定した閾値以上の複合語候補を共起頻度表に登録する複合語として選択する。あるいは、予め抽出する複合語の個数を決めておき、統計情報の値が高い複合語候補を上位から選択しても良い。なお、この実施の形態1では、単語の2語の連続を例に説明を行ったが、2語に限らず、3語以上の連接関係を複合語候補抽出辞書に記述して、複合語抽出処理を行っても良い。
【0028】
このように、概念辞書生成部201が複合語の抽出を行うことにより、一般的な語を組み合わせた語より専門性の高い語が抽出され、後述する処理によって複合語に対する概念索引が生成されるので、より適切な語に基づいたマイニング処理を行うことができ、マイニング処理の精度を向上させることができる。
【0029】
次に、図4のステップST13において、概念辞書生成部201は文書集合301の各文書における単語と単語が同時に出現した回数である共起頻度を計算して、図5に示す共起頻度表302を求める。共起頻度表302は縦軸の単語が横軸の単語と何回共起したかを示す表である。
【0030】
ステップST14において、概念辞書生成部201は共起頻度表302を特異値分解する。特異値分解は、行列A、ここでは、図5に示す共起頻度表302を3つの行列(UΣV)303,304,305の積に分解する公知の線形代数手法である。例えば、文献3(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53−1、1999−3」)に、特異値分解を用いて作成する概念辞書を用いた文書検索方法に関する記述がある。なお、特異値分解の代りに固有値分解を用いても良い。
【0031】
ステップST15において、概念辞書生成部201は、ステップST14で特異値分解して得た行列U(左特異行列)303から、行列Σ(特異値行列)304に含まれる特異値の大きいほうから指定したk個(kは元の行列Aの列の数より小さいものとする)の列を概念辞書204として出力する。概念辞書204の横軸は行列Uのk個分の横軸成分を示している。概念辞書204は共起頻度表302よりも次元圧縮されており、各行を高次の相関関係を含む単語の概念ベクトルとみなすことができる。以降、単語の概念ベクトルを単語ベクトルと呼ぶ。ここで、概念ベクトルは共起頻度表302を特異値分解した結果生成した行列Uの左k次元を成分値としたベクトルである。
【0032】
このようにして作成された概念辞書204は、同じ単語と共起する単語同士が類似した単語ベクトルを持つ、すなわち、類似した概念を持つ単語同士が類似した単語ベクトルを持つという特徴を持っている。
【0033】
次に文書ベクトル索引生成部202の処理について説明する。
図9は文書ベクトル索引生成部202の文書ベクトル索引生成を説明する図である。文書ベクトル索引生成部202は概念辞書204を参照して対象文書集合101から文書ベクトル索引205を生成する。
【0034】
図10は文書ベクトル索引生成部202の処理の流れを示すフローチャートである。ステップST31において、文書ベクトル索引生成部202は、文書集合101の各文書を形態素解析して、文書中のテキストを単語毎に分割する。ステップST32において、文書ベクトル索引生成部202は各文書毎に出現するそれぞれの単語毎の頻度を計算する。ステップST33において、文書ベクトル索引生成部202は概念辞書204から各単語に対する単語ベクトルを取り出す。
【0035】
ステップST34において、文書ベクトル索引生成部202は、各文書に出現する単語の単語ベクトルに、ステップST32で計算した頻度を係数として乗算したベクトルを加算したものを、かかる文書の文書ベクトル索引205として出力する。なお、文書ベクトル索引205に格納されているそれぞれの文書に対応するベクトルを文書ベクトルと呼ぶ。
【0036】
図11は文書ベクトル索引205を示す図であり、各文書と文書ベクトルとが対応付けられた構造となっている。文書ベクトルは、概念辞書204中の単語ベクトルと同じ次元を有し、類似した文書ベクトルを持つ文書同士は、類似した内容を持つという特徴を持っている。
【0037】
次にマイニング索引生成部203の処理について説明する。
図12はマイニング索引生成部203の処理の流れを示すフローチャートである。ステップST41において、マイニング索引生成部203は対象文書集合101に含まれる属性名の一覧を取得する。図3に示す例の場合、「性別」、「年代」、「機種」、「地域」及び「日付」が属性名として取得される。ステップST42において、マイニング索引生成部203は、対象文書集合101中の各文書に対して、ステップST41で取得した属性名に対応する属性値を取得する。例えば、図3に示した文書からは、「性別」に対して「男性」、「年代」に対して「20代」、「機種」に対して「機種1」、「地域」に対して「東京」、「日付」に対して「2002−01−14」が取得される。
【0038】
マイニング索引生成部203は、対象文書集合101中の全ての文書に対して属性値を取得し、ステップST43において、取得した属性名と属性値をマイニング索引206に書き込む。
図13はマイニング索引生成部203により生成されたマイニング索引の例を示す図である。
【0039】
次に実行部104の処理について説明する。
図14は実行部104の処理の流れを示すフローチャートである。ステップST51において、索引読み込み部108は、索引格納部103から、概念辞書204、文書ベクトル索引205及びマイニング索引206の3つの索引情報を読み込む。
【0040】
ステップST52において、検索・マイニング結果読み込み部109は、ユーザにより指定された検索・マイニング結果を検索・マイニング結果格納部107より読み込むが、最初の時点では、検索・マイニング結果格納部107に何も情報が書き込まれていないものとし、ステップST52では何も処理を行わずに通過する。なお、この実施の形態1において、検索・マイニング結果とは、後述する図25の形式で保存される文書集合を指す。このときの検索・マイニング対象は文書ベクトル索引205に登録されている対象文書集合101全てである。
【0041】
ステップST53において、検索・マイニング実行部110は、ユーザからの検索・マイニング条件の入力があるか否かを判定し、検索・マイニング条件の入力がある場合には、ステップST54において、検索・マイニング条件を入力として受け取り、ステップST55において、検索・マイニング処理を実行する。
【0042】
ここで、図14に示すステップST55の検索・マイニング処理のうち、検索部207により実行される検索処理について説明する。
図15は検索部207により実行される検索処理の流れを示すフローチャートであり、検索部207は文書ベクトル索引205を用いて対象文書集合101の検索を実行する。ステップST61において、検索部207は入力部105からユーザにより指定された検索条件をテキストで入力する。ここでは、例えば「画面が大きい機種」を検索条件として入力する。
【0043】
ステップST62において、検索部207は概念辞書204を参照して入力された検索条件に対する概念ベクトルを生成する。ここでは、「画面」、「大きい」、「機種」に対する単語ベクトルを合成したものが概念ベクトルとなる。以降、検索条件に対する概念ベクトルを検索ベクトルと呼ぶ。このステップST62における検索ベクトルの生成処理は、図10のステップST31〜ST34の処理と同様に行われる。
【0044】
ステップST63において、検索部207は、検索ベクトルと、格納されている対象文書集合101のそれぞれの文書に該当する文書ベクトルとのベクトル同士の余弦値を計算し類似度とする。ステップST64において、検索部207は類似度の順に並べて検索結果として出力する。
【0045】
図16は検索部207による検索結果の例を示す図であり、検索条件として「画面が大きい機種」を入力した場合の検索結果であり、文書を識別する文字列(図16では文書n)、類似度、文書の自由記述部分を表示している。
【0046】
なお、検索結果として表示する対象文書集合101は、類似度に閾値を設け、その閾値以上の文書のみを表示するようにしても良い。また、予め表示する件数の最大値を設定しておき、類似度の上位から指定された件数のみを表示するようにしても良い。さらに、「性別」や「年代」等、文書の属性による絞り込みを併用しても良い。また、この実施の形態1では、概念辞書204及び文書ベクトル索引205を利用してベクトル同士の類似度を計算したが、入力された検索条件と文書との類似度が計算できる方法であれば、他の方法を用いても良い。
【0047】
次に図14に示すステップST55の検索・マイニング処理のうち、マイニング部208により実行されるマイニング処理について説明する。このマイニング処理を行うことにより、キーワードと属性の関連度を分析することができる。
図17はマイニング部208により実行されるマイニング処理の流れを示すフローチャートである。ステップST71において、マイニング部208は、入力部105からマイニング条件を入力する。ここで、入力されるマイニング条件は属性とキーワードである。属性として、属性名に「機種」を、属性値に「機種1」、「機種2」、「機種3」及び「機種4」を指定し、キーワードとして「画面」及び「着メロ」を指定した場合について説明する。
【0048】
ステップST72において、マイニング部208は指定された属性値を持つ対象文書集合101を取得する。すなわち、「機種」という属性名に対して、属性値に「機種1」を含む対象文書集合101、「機種2」を含む対象文書集合101、「機種3」を含む対象文書集合103及び「機種4」を含む対象文書集合101をそれぞれ取得する。ステップST73において、マイニング部208は取得した対象文書集合101のそれぞれに対する属性ベクトルを作成する。属性ベクトルは、同じ属性値を持つ対象文書集合101の文書ベクトルの各要素を加算平均して作成したベクトルである。
【0049】
ステップST74において、マイニング部208は各属性値とキーワードとの関連度を求める。関連度は、属性ベクトルと、キーワードに対応して概念辞書204から取り出した単語ベクトルの余弦値によって計算する。ステップST75において、マイニング部208は求めた属性とキーワードとの関連度をグラフにしてマイニング結果として出力する。
【0050】
図18はマイニング部208によるマイニング結果を示す図であり、機種の属性値を軸にとり、それぞれの属性値とキーワードとの関連度の値を、折れ線グラフを用いて表している。図18のグラフにより、「機種3」では画面に関する関心が低く着メロに関する関心が高く、逆に「機種4」では画面に関する関心が高く着メロに関する関心が低いという分析結果が読み取れる。
【0051】
なお、属性の指定は、属性名だけを指定して、マイニング部208が属性名に対応する全ての属性値をマイニング索引206から自動的に抽出し、分析を行うようにしても良い。あるいは、属性値を指定する際に、機種1又は機種2のように、各属性値の積(AND)、和(OR)、否定(NOT)の関係を指定しても良い。
【0052】
また、キーワードは、「画面」、「着メロ」のように1単語だけでなく、「画面、色」「着メロ、和音」のように複数の単語を指定しても良い。キーワードに複数の単語を指定した場合には、キーワードに対応するベクトルは、キーワード中に含まれる単語に対する単語ベクトルを加算平均して作成したベクトルとなる。また、「日付」のような属性名を指定した場合は、ステップST72において、「2002−01−01から2002−01−31まで」のように、対象文書集合101を属性値の範囲で取得し、キーワードとの関係を分析できるようにしても良い。
【0053】
次に、マイニング部208で実行されるマイニング処理のうち、2つの属性値の相関をキーワードの分布によって分析する例について説明する。
図19はマイニング部208により実行されるマイニング処理の流れを示すフローチャートである。ステップST81において、マイニング部208は入力部105からマイニング条件を入力する。ここで、ユーザから入力されるマイニング条件は、2つの属性値とキーワードである。属性値として、属性名「性別」の属性値である「男性」と「女性」を指定し、キーワードとして「フリップ」、「料金」、「着メロ」及び「キャラクター」を指定した場合について説明する。
【0054】
ステップST82において、マイニング部208は指定された属性値を持つ対象文書集合101を取得する。すなわち、「性別」という属性名に対して、属性値が「男性」である対象文書集合101と「女性」である対象文書集合101をそれぞれ取得する。ステップST83において、マイニング部208は取得した対象文書集合101のそれぞれに対する属性ベクトルを作成する。属性ベクトルの作成の方法は図17のステップST73の処理と同様である。
【0055】
ステップST84において、マイニング部208は各属性ベクトルとマイニング条件として入力されたキーワードとの関連度を求める。関連度の計算は、図17のステップST74の処理と同様である。ステップST85において、マイニング部208は属性値を座標軸として各キーワードの座標を表示してマイニング結果として出力する。
【0056】
図20はマイニング部208によるマイニング結果を示す図であり、この例では、「男性」をX座標軸、「女性」をY座標軸にとり、各キーワードの概念ベクトルと、「男性」の属性ベクトルとの関連度をX座標、「女性」の属性ベクトルとの関連度をY座標としている。図20のグラフにより、「キャラクター」や「着メロ」は女性との関連度が高く、「フリップ」は男性との関連度が高いという分析結果が読み取れる。
【0057】
属性の指定は、「年代が10代で性別が女性」のように複数の属性を組み合わせて指定しても良い。その場合は、ステップST82において、属性名「年代」の属性値が「10代」であり、かつ属性名「性別」の属性値が「女性」である対象文書集合101を取り出す処理を行う。また、キーワードも、複数の単語を組み合わせて指定しても良い。さらに、ユーザがキーワードを指定せず、辞書や統計情報を用いてキーワードを対象文書集合101から自動抽出し、抽出したキーワードをマイニング条件として入力しても良い。
【0058】
次に、マイニング部208で実行されるマイニング処理のうち、キーワードとキーワードの相関を、文書の分布によって分析する例について説明する。
図21はマイニング部208により実行されるマイニング処理の流れを示すフローチャートである。ステップST91において、マイニング部208は入力部105からマイニング条件を入力する。ここで、ユーザから入力されるマイニング条件はキーワードである。キーワードとして、「メロディー」と「曲」を指定した場合について説明する。
【0059】
ステップST92において、マイニング部208は、各キーワードについて概念辞書204から取り出した単語ベクトルと、対象文書集合101中の各文書に対応する文書ベクトルとの関連度を、ベクトルの余弦値により求める。ステップST93において、マイニング部208はキーワードを座標軸として各文書の座標を表示してマイニング結果として出力する。
【0060】
図22はマイニング部208によるマイニング結果を示す図であり、この例では、「メロディー」をX座標軸、「曲」をY座標軸により、各文書の文書ベクトルと、「メロディー」の概念ベクトルとの関連度をX座標、「曲」との関連度をY座標とした点をグラフ上に表示している。図22のグラフにより、「メロディー」と相関の高い文書は「曲」とも相関が高く、従って、「メロディー」と「曲」とは、関連の高い単語であることが読み取れる。
【0061】
図23は同様にマイニング部208によるマイニング結果を示す図であり、この例では、キーワードに「音」と「色」を指定して図21の処理を行った場合のマイニング結果であり、この例では、「音」と「色」とは関連の低い単語であることが読み取れる。
【0062】
なお、この実施の形態1では、概念辞書204と文書ベクトル索引205を用いることによって、単語と属性の関連度や単語と文書の関連度を計算している。概念辞書204では、例えば、「画面」と「液晶」は、「大きさ」、「明るさ」、「色」等、同じ語と共起するので、類似した文脈で現れる単語の単語ベクトルの距離は近くなる。従って、ある文書と「画面」という単語の関連度を求める場合、その文書に「画面」という単語が含まれていなくても、「液晶」という単語が含まれていれば、その文書と「画面」という単語の関連度は高くなる。このように、単語の表記が異なる場合も、意味的な近さで関連度を判定するマイニングが実現できる。
【0063】
図14のフローチャートに戻り、検索・マイニング実行部110は、ステップST55で実行した検索・マイニング結果を、ステップST56において表示する。ステップST57において、検索・マイニング結果保存部111はユーザからマイニング結果を保存する指示があったか否かをチェックする。指示がなかった場合には、ステップST53に戻り、検索・マイニング実行部110は次の検索・マイニング条件を受け取り、検索・マイニング処理を実行する。次の検索・マイニング条件がない場合は終了する。
【0064】
ステップST57で、検索・マイニング結果保存部111がユーザからの検索・マイニング結果を保存する指示を受け取った場合には、ステップST58において、検索・マイニング結果保存部111は検索・マイニング結果を検索・マイニング結果格納部107に保存する。
【0065】
図24は検索・マイニング結果を保存する検索・マイニング結果保存部111の処理の流れを示すフローチャートである。ステップST101において、検索・マイニング結果として保存する文書集合がユーザにより決定される。例えば、検索結果の場合は、図15のステップST64で出力された検索結果をそのまま保存すべき文書集合としても良いし、検索結果からさらに類似度の閾値や、検索件数等の条件を設定して、保存すべき文書集合を絞り込んでも良い。
【0066】
また、図17及び図18で示した、属性とキーワードの関連度を分析するマイニング処理の場合は、属性とキーワードを指定して、特定の属性を持つ文書集合の中で、特定のキーワードと関連度の高い文書集合としても良い。例えば、属性値が「機種4」で、キーワード「画面」との関連度の高い文書集合を保存すべき文書集合としても良い。
【0067】
さらに、図19及び図20で説明した属性と属性の相関を分析するマイニング処理の例では、属性とキーワードを指定して、特定の属性を持つ文書集合の中で、特定のキーワードと関連度の高い文書集合としても良い。例えば、属性名「性別」の属性値が「女性」で、キーワード「キャラクター」との高い文書集合を、保存すべき文書集合としても良い。
【0068】
さらに、図21、図22及び図23で説明したキーワードとキーワードの相関を分析するマイニング処理の例では、座標軸に指定したキーワードとの関連の高い文書集合を保存すべき文書集合としても良い。例えば、キーワード「メロディー」とキーワード「曲」の一方、又は両方との関連度の高い文書を保存すべき文書集合としても良い。
【0069】
次に、図24のステップST102において、ユーザの指示により検索・マイニング結果保存部111は、検索・マイニング結果に対して、後で参照できるように明示的に名前を付与する。ステップST103において、検索・マイニング結果保存部111は保存すべき各文書にスコアを付与し保存する。
【0070】
スコアは、文書と、検索又はマイニングで指定したキーワードとの関連度とする。例えば、図15で示した検索処理の場合は、ステップST61で指定した検索条件との類似度(関連度)をスコアとする。
【0071】
また、図17及び図18の属性とキーワードの関連度を分析するマイニング処理の場合は、マイニング条件で指定されたキーワードとの関連度をスコアとする。例えば、属性名「機種」の属性値が「機種4」で、キーワード「画面」との関連度の高い文書集合を保存すべき文書集合とした場合は、「画面」との関連度をスコアとする。
【0072】
さらに、図19及び図20で説明した属性と属性の相関を分析するマイニング処理の例では、マイニング条件で指定されたキーワードとの関連度をスコアとする。例えば、属性名「性別」の属性値が「女性」で、キーワード「キャラクター」との高い文書集合を保存すべき文書集合とした場合は、「キャラクター」との関連度をスコアとする。
【0073】
さらに、図21、図22及び図23で説明したキーワードとキーワードの相関を分析するマイニング処理の例では、座標軸に指定したキーワードとの関連度をスコアとする。例えば、各文書と、キーワード「メロディー」とキーワード「曲」の一方との関連度、又は両方の単語ベクトルを合成したベクトルとの関連度をスコアとする。
【0074】
図25は検索・マイニング結果格納部107に保存された検索・マイニング結果の例を示す図である。例えば、「ファッション性」とユーザが名前をつけた検索・マイニング結果は、「デザイン、キャラクター、色・・」等のキーワードを指定して得られ、「操作性」とユーザが名前をつけた検索・マイニング結果は、「キー、ボタン、操作・・」等のキーワードを指定して検索した結果から得られ、「機能」とユーザが名前をつけた検索・マイニング結果は、「漢字変換、メール、スケジュール表・・」等のキーワードを指定して得られ、「ビジネスユース」とユーザが名前をつけた検索・マイニング結果は、「上司、取引先、報告・・」等のキーワードを指定して得られ、「プライベートユース」とユーザが名前をつけた検索・マイニング結果は、「メル友、子供、旅行・・」等のキーワードを指定して検索した結果から得られたものとする。
【0075】
次に、図14のステップST58の処理後にステップST52に戻り、検索・マイニング結果読み込み部109は、ユーザから指定された検索・マイニング結果格納部107に格納されている検索・マイニング結果を読み込む。指定された検索・マイニング結果において、スコアが付与されている文書集合を、次の検索・マイニング対象の文書集合とする。
【0076】
例えば、図25の検索・マイニング結果のうち「ファッション性」が指定された場合には、文書1、文書3、文書5、…が検索・マイニング対象の文書集合となる。また、複数の検索・マイニング結果に対して、AND・OR・NOTの関係を指定することにより、新たな検索・マイニング対象の文書集合を定義することができる。
【0077】
例えば、図24の処理において、「ファッション性」と名づけられた検索・マイニング結果と、「プライベートユース」と名づけられた検索・マイニング結果をANDで指定することにより、「ファッション性」と「プライベートユース」の両方でスコアが定義されている文書集合が、検索・マイニング対象の文書集合となる。また、「操作性」と名づけられた検索・マイニング結果と、「機能」と名づけられた検索・マイニング結果をORで指定することにより、「操作性」又は「機能」のいずれかでスコアが付与されている文書集合が検索・マイニング対象の文書集合となる。
【0078】
このように、検索・マイニング結果を組み合わせて指定することにより、例えば「ファッション性」と「プライベートユース」のANDの組み合わせは、「プライベートユースでファッション性に関心がある人のアンケート結果の集合」のような意味を持つ分析対象の文書集合を作成することができ、「操作性」と「機能」のORの組み合わせは、「実用性に関心がある人のアンケート結果の集合」のような意味を持つ分析対象の文書集合を作成することができる。
【0079】
以降、図14のステップST52で指定された検索・マイニング結果によって作成された文書集合に対して、ステップST53で検索・マイニング条件の入力があった場合には、ステップST54でその検索・マイニング条件を入力として受け取り、ステップST55で検索・マイニング処理を実行し、ステップST56で、その結果を表示する。
【0080】
例えば、「プライベートユース」と「ファッション性」をANDで組み合わせた文書集合に対して、図17及び図18で説明した属性とキーワードの関連度を分析するマイニング処理を行う場合には、属性名に「機種」、キーワードに「画面」と「着メロ」行えば、「プライベートユースでファッション性に関心がある人」が、画面と着メロにどれだけ関心を持っているか、機種ごとに分析することができる。
【0081】
次に検索・マイニング結果編集部112の処理について説明する。
図26は検索・マイニング結果編集部112の処理の流れを示すフローチャートである。ステップST111において、検索・マイニング結果編集部112は、ユーザにより指定された対象の検索・マイニング結果及び付与する属性名を受け取る。例えば、対象の検索・マイニング結果として、図25の「ファッション性」、「操作性」及び「機能」が指定され、付与する属性名として「重視するポイント」が指定されたとする。ステップST112において、検索・マイニング結果編集部112は、ユーザから指定された検索・マイニング結果を検索・マイニング結果格納部107から読み込む。
【0082】
ステップST113において、検索・マイニング結果編集部112は、各文書毎に最もスコアの高い検索・マイニング結果を選択する。例えば、図25の文書1に関しては、「ファッション性」、「操作性」、「機能」の中で、最もスコアが高いのが「ファッション性」であるので、文書1に対しては「ファッション性」が選択される。同様に、文書2に対しては「機能」が、文書3に対しては「操作性」が、文書5に対しては「ファッション性」が、文書6に対しては「機能」が、それぞれ選択される。文書4に対しては、どの検索・マイニング結果にもスコアが付与されていないので、検索・マイニング結果は選択されない。
【0083】
ステップST114において、検索・マイニング結果編集部112は、ステップST113で選択された検索・マイニング結果の名前を、ステップST111で指定された属性名に対する属性値として各文書に付与する。
【0084】
図27は検索・マイニング結果編集部112による編集結果を示す図である。図26のステップST114の処理の結果、図27の「属性名:重視するポイント」で示す属性が生成される。文書4に関しては、ステップST113で、検索・マイニング結果が選択されていないので、属性値は定義されない。
【0085】
同様に、図26の処理において、検索・マイニング結果として「ビジネスユース」と「プライベートユース」を指定し、属性名として「利用分野」を指定した場合は、図27の「属性名:利用分野」で示す属性が生成される。
【0086】
図28は検索・マイニング結果編集部112の別の実現方法の処理の流れを示すフローチャートである。図26では1つの文書に1つの属性値を付与する処理の例について示したが、図28では1つの文書に2つ以上の属性値の付与を認める処理の例である。ステップST121、ステップST122の処理は、それぞれ図26におけるステップST111、ステップST112の処理と同様である。例として、読み込むべき検索・マイニング結果として、図25の「ファッション性」、「操作性」及び「機能」が指定され、付与する属性名として「重視するポイント」が指定された場合について説明する。
【0087】
図28のステップST123において、検索・マイニング結果編集部112は、各文書毎にスコアが閾値以上の検索・マイニング結果を選択する。例えば閾値を0.5とすると、文書1は「ファッション性」と「機能」が閾値以上の値を持つので、文書1に対しては、「ファッション性」と「機能」が選択される。同様に、文書2に対しては「機能」が選択され、文書3に対しては「操作性」が選択され、文書5に対しては「ファッション性」が選択される。
【0088】
ステップST124において、検索・マイニング結果編集部112は、ステップST123で選択された検索・マイニング結果の名前を、ステップST121で指定された属性名に対する属性値として、ユーザの指示により各文書に付与する。
【0089】
図29は検索・マイニング結果編集部112による編集結果を示す図である。図28のステップST124の処理の結果、図29の「属性名:重視するポイント」で示す属性が生成される。同様に、検索・マイニング結果として、「ビジネスユース」と「プライベートユース」を属性名として「利用分野」を指定した場合は、図29の「属性名:利用分野」で示す属性が生成される。
【0090】
このように、図26又は図28の処理により生成された属性は、マイニング部208におけるマイニング処理において、元から文書に備わっていた属性と同様に扱うことができる。すなわち、図3の対象文書集合101の例では、元から備わっていた属性「性別」、「年代」、「機種」、「地域」、「日付」に加えて、新たな属性「重視するポイント」と「利用分野」を分析に利用することができる。
【0091】
例えば、図30はマイニング部208によるマイニング結果を示す図であり、検索・マイニング結果編集部112により決定された属性値を軸にとり、それぞれの属性値とマイニング条件として入力されたキーワードとの関連度の値を、折れ線グラフを用いて表している。すなわち、図17及び図18で示した属性とキーワードの関連度の分析を、「属性名」に「重視するポイント」を指定し、キーワードに「仕事」、「価格」、「画面」を指定して実行した例を示す図である。「仕事」は、「ファッション性」との関連度が低く、「機能」との関連度が高いこと、「価格」は、「ファッション性」、「操作性」及び「機能」の何れとも関連度はあまり変わらないことを読み取ることができる。
このように、マイニング部208は、指定されたマイニング条件と、検索・マイニング結果編集部112により決定された属性値との関連度を分析することができる。
【0092】
また、図19及び図20で示した文書の属性値と属性値の相関関係を、指定された単語の分布によって分析する例についても、同様に、マイニング部208は、検索・マイニング結果編集部112により決定された属性値と属性値の相関関係を、指定されたマイニング条件の分布によって分析することもできる。
【0093】
さらに、図21、図22及び図23で示した単語と単語の相関関係を、文書の分布によって分析する例についても、同様に、マイニング部208は、単語と単語の相関関係を、検索・マイニング結果格納部107に保存されている文書の分布によって分析することもできる。
【0094】
また、検索・マイニング結果編集部112で作成された属性同士で関連度を分析することも可能である。
図31はマイニング部208におけるマイニング処理の例として、検索・マイニング結果編集部112で作成された属性同士で関連度を分析する処理の流れを示すフローチャートである。図27又は図29で示した「重視するポイント」と「利用分野」の関係を分析する例について説明する。
【0095】
ステップST131において、マイニング部208はユーザより指定された属性名1に対する属性値毎の文書集合を取得する。属性名1に「重視するポイント」を指定すると、属性値に「ファッション性」を含む文書集合、属性値に「操作性」を含む文書集合及び属性値に「機能」を含む文書集合が取得される。ステップST132において、マイニング部208はステップST131で取得した各文書集合から属性ベクトルを作成する。属性ベクトルの作成は文書集合における各文書の文書ベクトルを加算平均して作成する。
【0096】
ステップST133において、マイニング部208は指定された属性名2に対する属性値毎の文書集合を取得する。属性名2に「利用分野」を指定すると、属性値に「ビジネスユース」を含む文書集合と、属性値に「プライベートユース」を含む文書集合が取得される。ステップST134において、マイニング部208はステップST133で取得した各文書集合から属性ベクトルを作成する。
【0097】
ステップST135において、マイニング部208は、ステップST132で作成した各属性ベクトルと、ステップST134で作成した各属性ベクトルとの余弦値を計算し関連度とする。ステップST136において、マイニング部208は属性名1の各属性値に対する属性名2の各属性値の関連度をグラフに表示してマイニング結果として出力する。
【0098】
図32はのマイニング部208によるマイニング結果を示す図であり、図31の処理の結果をグラフに表示した例を示す図である。図32のグラフより、例えば「ファッション性」と「プライベートユース」の相関が高く、「機能」と「ビジネスユース」の相関が高いことを読み取ることができる。
【0099】
このように、マイニング部208は、検索・マイニング結果編集部112により、複数の属性名に対して決定された属性値同士で関連度を分析することができる。この場合、分析する属性値は検索・マイニング結果編集部112により決定された属性値だけでなく、検索・マイニング結果編集部112により決定された属性値を用いて、入力された他の属性値との関連度を分析しても良い。
【0100】
以上のように、この実施の形態1によれば、検索やテキストマイニングによって得られた結果を保存し、保存されている検索・マイニング結果を関連付けることにより、新たな分析対象や新たな属性の作成を可能にし、元の文書に定義されていないユーザが定義した基準(分析軸)に基づく分析を行うことができるという効果が得られる。
【0101】
また、この実施の形態1によれば、概念辞書204及び文書ベクトル索引205を利用することにより、表記が異なる単語に対しても、意味的な近さに基づいて、単語と単語、単語と文書、単語と属性の関連度を判定できるので、表記の異なる表現に対しても、検索、マイニング及び検索・マイニング結果の関連付けを意味的な近さに基づいて行うことができるという効果が得られる。
【0102】
さらに、この実施の形態1によれば、概念辞書生成部201が複合語の抽出を行うことにより、一般的な語を組み合わせた語より専門性の高い語が抽出され、複合語に対する概念索引が生成されるので、より適切な語に基づいたマイニング処理を行うことができ、マイニング処理の精度を向上させることができるという効果が得られる。
【0103】
なお、上記の各処理は、コンピュータに搭載されるテキストマイニングプログラムにより、コンピュータ上で実現することができる。
【0104】
【発明の効果】
以上のように、この発明によれば、対象文書集合を検索・マイニングするための索引情報を保存している索引格納部と、指定された検索・マイニング条件に従って保存されている索引情報を参照して対象文書集合の検索・マイニングの処理を実行する検索・マイニング実行部と、検索・マイニング実行部による検索・マイニング結果を、各文書と検索・マイニング条件との関連度を各文書に付与して検索・マイニング結果格納部に保存する検索・マイニング結果保存部と、指定された複数の検索・マイニング結果を検索・マイニング結果格納部から読み込んで、指定された属性名に対応して、各文書毎に読み込んだ検索・マイニング結果を選択して属性値を決定する検索・マイニング結果編集部とを備えたことにより、新たな分析対象や新たな属性の作成を可能にし、元の文書に定義されていないユーザが定義した基準に基づく分析を行うことができるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1によるテキストマイニング装置の構成を示すブロック図である。
【図2】この発明の実施の形態1によるテキストマイニング装置の構成を示す詳細ブロック図である。
【図3】対象文書集合中の文書の例を示す図である。
【図4】この発明の実施の形態1によるテキストマイニング装置の概念辞書生成部の処理の流れを示すフローチャートである。
【図5】この発明の実施の形態1によるテキストマイニング装置の概念辞書生成部の処理を説明する図である。
【図6】この発明の実施の形態1によるテキストマイニング装置の概念辞書生成部の複合語抽出処理の流れを示すフローチャートである。
【図7】この発明の実施の形態1によるテキストマイニング装置の概念辞書生成部が保有する複合語候補抽出辞書の例を示す図である。
【図8】この発明の実施の形態1によるテキストマイニング装置の概念辞書生成部の複合語候補抽出結果を示す図である。
【図9】この発明の実施の形態1によるテキストマイニング装置の文書ベクトル索引生成部の文書ベクトル索引生成を説明する図である
【図10】この発明の実施の形態1によるテキストマイニング装置の文書ベクトル索引生成部の処理の流れを示すフローチャートである。
【図11】この発明の実施の形態1によるテキストマイニング装置の文書ベクトル索引を示す図である。
【図12】この発明の実施の形態1によるテキストマイニング装置のマイニング索引生成部の処理の流れを示すフローチャートである。
【図13】この発明の実施の形態1によるテキストマイニング装置のマイニング索引生成部により生成されたマイニング索引の例を示す図である。
【図14】この発明の実施の形態1によるテキストマイニング装置の実行部の処理の流れを示すフローチャートである。
【図15】この発明の実施の形態1によるテキストマイニング装置の検索部により実行される検索処理の流れを示すフローチャートである。
【図16】この発明の実施の形態1によるテキストマイニング装置の検索部による検索結果の例を示す図である。
【図17】この発明の実施の形態1によるテキストマイニング装置のマイニング部により実行されるマイニング処理の流れを示すフローチャートである。
【図18】この発明の実施の形態1によるテキストマイニング装置のマイニング部によるマイニング結果を示す図である。
【図19】この発明の実施の形態1によるテキストマイニング装置のマイニング部により実行されるマイニング処理の流れを示すフローチャートである。
【図20】この発明の実施の形態1によるテキストマイニング装置のマイニング部によるマイニング結果を示す図である。
【図21】この発明の実施の形態1によるテキストマイニング装置のマイニング部により実行されるマイニング処理の流れを示すフローチャートである。
【図22】この発明の実施の形態1によるテキストマイニング装置のマイニング部によるマイニング結果を示す図である。
【図23】この発明の実施の形態1によるテキストマイニング装置のマイニング部によるマイニング結果を示す図である。
【図24】この発明の実施の形態1による検索・マイニング結果保存部の処理の流れを示すフローチャートである。
【図25】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果格納部に保存された検索・マイニング結果の例を示す図である。
【図26】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果編集部の処理の流れを示すフローチャートである。
【図27】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果編集部による編集結果を示す図である。
【図28】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果編集部の処理の流れを示すフローチャートである。
【図29】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果編集部による編集結果を示す図である。
【図30】この発明の実施の形態1によるテキストマイニング装置の検索・マイニング結果編集部による編集結果を示す図である。
【図31】この発明の実施の形態1によるテキストマイニング装置のマイニング部の処理の流れを示すフローチャートである。
【図32】この発明の実施の形態1によるテキストマイニング装置のマイニング部によるマイニング結果を示す図である。
【図33】従来のテキストマイニングの分析処理を説明する図である。
【図34】この発明の実施の形態1によるテキストマイニングの分析処理を説明する図である。
【符号の説明】
101 対象文書集合、102 索引生成部、103 索引格納部、104 実行部、105 入力部、106 表示部、107 検索・マイニング結果格納部、108 索引読み込み部、109 検索・マイニング結果読み込み部、110 検索・マイニング実行部、111 検索・マイニング結果保存部、112 検索・マイニング結果編集部、201 概念辞書生成部、202 文書ベクトル索引生成部、203 マイニング索引生成部、204 概念辞書、205 文書ベクトル索引、206 マイニング索引、207 検索部、208 マイニング部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a text mining apparatus and a text mining program that can analyze a set of a large number of digitized documents from various viewpoints.
[0002]
[Prior art]
Text mining has attracted attention as a technique for supporting the analysis of a large amount of document data such as questionnaires and electronic news. Text mining is a technique for extracting frequency and relevance of words from text information of document data to be processed to discover new knowledge. Conventionally, a method of supporting interactive analysis of a large amount of document data has been proposed. For example, in a text mining device disclosed in
[0003]
A phrase (characteristic phrase) characteristically appearing in the target document set is extracted from a target document set to be subjected to text mining processing, and a phrase co-occurring with a component of the analysis axis specified by the user is extracted from the extracted words. For example, when a newspaper article set regarding “O157” is to be processed, the characteristic phrase “elementary school, mass infection, patients, plural, bleeding, diarrhea, symptoms, hospitalization,...” Is extracted. From among them, the publication month of the newspaper is designated as the analysis axis, and words co-occurring with the constituent elements (July, August, September) are acquired. As a result, in association with “July”, “infection, patient, symptom, hospitalization,...”, And in association with “August”, “impact, lunch, hospitalization, mass infection,. In addition, co-occurrence phrases such as “sales, minus, food, fresh,...” Are acquired.
[0004]
The analysis axis and the analysis result are stored as an analysis history, and a plurality of different analysis axes are provided. When an analysis axis is added or an arbitrary analysis axis is changed, the constituent elements of the plurality of analysis axes are changed. Are narrowed down by using the analysis history, and the words and phrases that are likely to co-occur with each are realized by the combination of different analysis axes.
[0005]
When adding an analysis axis that includes a specified characteristic phrase, the analysis axis is added to the specified component, and a set of the specified component and the added analysis axis component is created. A phrase that is highly likely to co-occur with each of the created set of constituent elements is extracted from the analysis history as a co-occurrence phrase candidate. Then, from the extracted co-occurrence word candidates, each set of constituent elements is co-existed within a predetermined range (in the same document, in the same paragraph, in the same sentence, or in m words or n sentences). Get the words that occur. For example, an analysis axis including the co-occurrence phrases “infection” and “symptom” acquired in association with the component “July” is added.
[0006]
Then, as a co-occurrence phrase candidate having a high possibility of co-occurring with the specified component “July” and the added component of the analysis axis “July-infection” and “July-symptom”, “7 The phrase "infection, patient, symptom, hospitalization, ..." co-occurring with "month" is extracted from the analysis history. Then, from these co-occurrence word candidates, words that co-occur within a predetermined range as a set of component elements “July-infected” and “July-symptom” are acquired. As a result, as a phrase co-occurring with "July-infection", "patient, symptom, prophylaxis, population, ..." and as a phrase co-occurring with "July-symptom", "nausea, diarrhea, hospitalization, severe illness, ... To get. Here, “July-infected” means a set of “July” and “infected”, and “co-occurs within a predetermined range with“ July-infected ”” means , "Co-occurs within a predetermined range with" July "and co-occurs with" infection "within a predetermined range."
[0007]
When changing the added analysis axis, the analysis axis is changed in accordance with the user's instruction, and a phrase that is highly likely to co-occur with the set of components is extracted from the analysis history as a co-occurrence word candidate. Then, from the extracted co-occurrence word candidates, words that co-occur within a predetermined range with the set of constituent elements are acquired. If "Analysis axis was added to component" July "" is deleted and analysis axis containing co-occurrence phrase "feeding" acquired in association with "August" is added, specified component As a co-occurrence word candidate having a high possibility of co-occurring with the set of components of the analysis axis “August” and “August-lunch”, the phrase “shock, lunch, hospitalization, Mass infection, ... "is extracted from the analysis results. Then, from the co-occurrence word candidates, a word that co-occurs within a predetermined range with a set of constituent elements “August-meal” is acquired.
[0008]
When the representative document acquisition instruction is input from the user together with the co-occurrence word specified from the text mining result, the text mining target is specified by the specified co-occurrence word and the phrase included in the component corresponding to the co-occurrence word. Then, a document set having a high score, the latest document, a document having designated bibliographic information, and the like are acquired as a representative document.
[0009]
As described above, in the text mining apparatus of
[0010]
[Patent Document 1]
JP 2001-318939A (Page 14, FIG. 4)
[0011]
[Problems to be solved by the invention]
Since the conventional text mining device has been configured as described above, when performing the analysis work interactively, the analysis is always performed in a narrowing direction, and the stored analysis result is further narrowed down under another condition. It was only used as intermediate information. Therefore, there is a problem in that the user cannot create a new analysis standard by associating a plurality of stored analysis results and perform analysis based on the standard.
[0012]
For example, a new analysis axis (attribute) of “social impact” is created for the analysis results obtained by the characteristic phrases “lunch”, “sales”, and “food”, and “prevention”, “prevention”, A new analysis axis (attribute) called "measures" is created for the analysis results obtained by the characteristic words "cooking" and "information disclosure". Processing that analyzes the relationship between attributes cannot be performed.
[0013]
The present invention has been made in order to solve the above-described problems. By associating stored analysis results with each other, a new analysis target and a new attribute can be created, and the original document can be created. It is an object to obtain a text mining device and a text mining program that can perform analysis based on a criterion (analysis axis) defined by an undefined user.
[0014]
That is, in
[0015]
[Means for Solving the Problems]
A text mining device according to the present invention includes an index storage unit storing index information for searching and mining a target document set, and index information stored in the index storage unit according to a specified search / mining condition. And a search / mining execution unit for executing the search / mining process of the target document set with reference to the search / mining results by the search / mining execution unit. A search / mining result storage unit that is assigned to each document and saved in the search / mining result storage unit, and a plurality of specified search / mining results are read from the search / mining result storage unit and assigned to the specified attribute name Correspondingly, a search / mining result editor that selects the search / mining result read for each document and determines the attribute value It includes those were.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a configuration of a text mining device according to
[0017]
In the
[0018]
In the
[0019]
FIG. 2 is a detailed block diagram showing a configuration of the text mining apparatus in which the
[0020]
FIG. 3 is a diagram illustrating an example of documents in the target document set 101. The first embodiment will be described based on an example of analyzing a questionnaire on a mobile phone. The target document set 101 has a predetermined range of values such as “sex”, “age”, “model”, “region”, and “date”. It is composed of a field described in free text such as "Opinion". The former field is hereinafter referred to as an attribute in the document. The item name of the attribute is called an attribute name, and its value is called an attribute value. For example, the documents in the target document set 101 shown in FIG. 3 have an attribute value of “male” for an attribute name of “sex”.
[0021]
In the example shown in FIG. 3, one attribute value is assigned to one attribute name. However, when there is no answer in a questionnaire, the attribute value does not necessarily have to be assigned to the attribute name. Further, when there is a case where the respondent specifies two or more such as “model”, two or more attribute values may be given to one attribute name.
[0022]
FIG. 4 is a flowchart showing the flow of the process of the concept dictionary generator 201 shown in FIG. 2, and FIG. 5 is a diagram for explaining the process of the concept dictionary generator 201.
In step ST11 in FIG. 4, the concept dictionary generation unit 201 morphologically analyzes the text included in the document set 301 in FIG. 5 to divide a character string in the text into words. Since the morphological analysis is a widely known technique, a detailed description is omitted here. At this time, the learning target document set 301 shown in FIG. 5 is not necessarily the target document set 101 itself, but may be another document set in the same field as the target document set 101.
[0023]
In step ST12, the concept dictionary generation unit 201 extracts a compound word from the morphological analysis result.
FIG. 6 is a flowchart showing the flow of the compound word extraction process of the concept dictionary generation unit 201. In step ST21 of FIG. 6, the concept dictionary generation unit 201 extracts compound word candidates based on a morpheme concatenation pattern described in a compound word candidate extraction dictionary stored therein.
[0024]
FIG. 7 is a diagram showing an example of a compound word candidate extraction dictionary describing a morpheme concatenation pattern for extracting compound word candidates. FIG. 7 shows a compound word candidate extraction dictionary for extracting compound word candidates from the concatenation relationship between two morphemes. An example is shown. For example,
[0025]
Similarly, from the
FIG. 8 is a diagram illustrating a result of extracting compound word candidates from the target document set 101, focusing on a character string “model change”.
[0026]
In step ST22 of FIG. 6, from the compound word candidates extracted in step ST21, the concept dictionary generation unit 201 selects a compound word to be registered in the co-occurrence frequency table using the statistical information. The co-occurrence frequency table is a table showing the co-occurrence relationship of words as described later. Since the number of compound word candidates extracted in step ST21 is enormous, it is registered in the co-occurrence frequency table by narrowing down important words using statistical information of words. As the statistical information, statistical information calculated by a known method such as an appearance frequency or a tf * idf value calculated by the following equation is used.
tf * idf (w) = f (w) * log (Nd / d (w))
Here, f (w) indicates the frequency of appearance of the word w, Nd indicates the number of documents in the target document set, and d (w) indicates the number of documents in which the word w appears.
[0027]
In step ST22, a compound word candidate whose statistical information value such as an appearance frequency value or a tf * idf value is equal to or greater than a preset threshold is selected as a compound word to be registered in the co-occurrence frequency table. Alternatively, the number of compound words to be extracted may be determined in advance, and compound word candidates having a high statistical information value may be selected from the top. In the first embodiment, a description has been given by taking an example of a continuation of two words, but the present invention is not limited to two words, and a concatenation relationship of three or more words is described in a compound word candidate extraction dictionary, and compound word extraction is performed. Processing may be performed.
[0028]
As described above, the concept dictionary generation unit 201 extracts a compound word, so that a word having a higher degree of specialty is extracted from a word obtained by combining general words, and a concept index for the compound word is generated by processing described later. Therefore, a mining process based on a more appropriate word can be performed, and the accuracy of the mining process can be improved.
[0029]
Next, in step ST13 of FIG. 4, the concept dictionary generation unit 201 calculates a co-occurrence frequency which is the number of times a word and a word appear simultaneously in each document of the document set 301, and generates a co-occurrence frequency table 302 shown in FIG. Ask for. The co-occurrence frequency table 302 is a table showing how many times the word on the vertical axis co-occurs with the word on the horizontal axis.
[0030]
In step ST14, the concept dictionary generation unit 201 performs singular value decomposition of the co-occurrence frequency table 302. The singular value decomposition is a known linear algebra technique for decomposing a matrix A, here, a co-occurrence frequency table 302 shown in FIG. 5 into a product of three matrices (UΣV) 303, 304, and 305. For example, a document search method using a concept dictionary created by using singular value decomposition is described in Document 3 (“Information search system InfoMAP based on word associations, Takayama et al., Informatics Basics 53-1, 1999-3”). There is a description about. Note that eigenvalue decomposition may be used instead of singular value decomposition.
[0031]
In step ST15, the concept dictionary generation unit 201 designates a matrix U (left singular matrix) 303 obtained by performing singular value decomposition in step ST14, and designates a matrix Σ (singular value matrix) 304 from the largest singular value included in the matrix. k columns (k is smaller than the number of columns of the original matrix A) are output as the
[0032]
The
[0033]
Next, the processing of the document vector
FIG. 9 is a diagram illustrating the generation of a document vector index by the document vector
[0034]
FIG. 10 is a flowchart showing the flow of processing of the document vector
[0035]
In step ST34, the document vector
[0036]
FIG. 11 is a diagram showing the
[0037]
Next, the processing of the mining
FIG. 12 is a flowchart showing the flow of processing of the mining
[0038]
The mining
FIG. 13 is a diagram illustrating an example of a mining index generated by the mining
[0039]
Next, the processing of the
FIG. 14 is a flowchart illustrating the flow of the process of the
[0040]
In step ST52, the search / mining
[0041]
In step ST53, the search /
[0042]
Here, the search processing executed by the
FIG. 15 is a flowchart illustrating the flow of a search process performed by the
[0043]
In step ST62, the
[0044]
In step ST63, the
[0045]
FIG. 16 is a diagram illustrating an example of a search result obtained by the
[0046]
It should be noted that the target document set 101 displayed as a search result may be provided with a threshold value for similarity, and only documents having the threshold value or more may be displayed. Alternatively, a maximum value of the number of cases to be displayed may be set in advance, and only the number of cases specified from the highest similarity may be displayed. Further, narrowing down by document attributes such as “sex” and “age” may be used together. Further, in the first embodiment, the similarity between vectors is calculated using the
[0047]
Next, the mining process executed by the mining unit 208 among the search / mining processes in step ST55 shown in FIG. 14 will be described. By performing this mining process, the degree of association between the keyword and the attribute can be analyzed.
FIG. 17 is a flowchart showing the flow of the mining process executed by the mining unit 208. In step ST71, the mining unit 208 inputs mining conditions from the
[0048]
In step ST72, the mining unit 208 acquires the target document set 101 having the specified attribute value. That is, for the attribute name “model”, a target document set 101 including “
[0049]
In step ST74, the mining unit 208 obtains the degree of association between each attribute value and the keyword. The degree of association is calculated based on the attribute vector and the cosine value of the word vector extracted from the
[0050]
FIG. 18 is a diagram illustrating a mining result by the mining unit 208. The attribute value of the model is used as an axis, and the value of the degree of association between each attribute value and the keyword is represented using a line graph. From the graph of FIG. 18, it can be seen that the analysis result indicates that “model 3” has a low interest in the screen and high interest in the ringtone, and conversely, “
[0051]
The attribute may be specified by specifying only the attribute name, and the mining unit 208 may automatically extract all the attribute values corresponding to the attribute name from the
[0052]
In addition, the keyword may specify not only one word such as “screen” and “ringtone” but also a plurality of words such as “screen, color” and “ringtone, chord”. When a plurality of words are specified for a keyword, the vector corresponding to the keyword is a vector created by averaging word vectors for words included in the keyword. When an attribute name such as “date” is specified, the target document set 101 is acquired in the attribute value range such as “from 2002-01-01 to 2002-01-31” in step ST72. , The relationship with the keyword may be analyzed.
[0053]
Next, an example in which the correlation between two attribute values in the mining processing executed by the mining unit 208 is analyzed by keyword distribution will be described.
FIG. 19 is a flowchart showing the flow of the mining process executed by the mining unit 208. In step ST81, the mining unit 208 inputs mining conditions from the
[0054]
In step ST82, the mining unit 208 acquires the target document set 101 having the specified attribute value. That is, for the attribute name “sex”, the target document set 101 whose attribute value is “male” and the target document set 101 whose attribute value is “female” are acquired. In step ST83, the mining unit 208 creates an attribute vector for each of the acquired target document sets 101. The method of creating the attribute vector is the same as the process of step ST73 in FIG.
[0055]
In step ST84, the mining unit 208 obtains the degree of association between each attribute vector and the keyword input as the mining condition. The calculation of the degree of association is the same as the processing in step ST74 in FIG. In step ST85, the mining unit 208 displays the coordinates of each keyword using the attribute value as a coordinate axis and outputs the result as a mining result.
[0056]
FIG. 20 is a diagram illustrating a mining result by the mining unit 208. In this example, “male” is set on the X coordinate axis, “female” is set on the Y coordinate axis, and the relationship between the concept vector of each keyword and the attribute vector of “male” The degree is defined as the X coordinate, and the degree of association with the attribute vector of “female” is defined as the Y coordinate. From the graph of FIG. 20, it can be seen that "character" and "ringtone" have a high degree of association with a woman, and "flip" has a high degree of association with a man.
[0057]
The attribute may be specified by combining a plurality of attributes, such as “teens and genders”. In this case, in step ST82, a process of extracting the target document set 101 in which the attribute value of the attribute name “age” is “teens” and the attribute value of the attribute name “sex” is “female” is performed. Also, a keyword may be specified by combining a plurality of words. Further, the user may automatically specify a keyword from the target document set 101 using a dictionary or statistical information without specifying a keyword, and input the extracted keyword as a mining condition.
[0058]
Next, among mining processes executed by the mining unit 208, an example will be described in which the correlation between keywords is analyzed based on the distribution of documents.
FIG. 21 is a flowchart showing the flow of the mining process executed by the mining unit 208. In step ST91, the mining unit 208 inputs mining conditions from the
[0059]
In step ST92, the mining unit 208 obtains the degree of association between the word vector extracted from the
[0060]
FIG. 22 is a diagram illustrating a mining result by the mining unit 208. In this example, the relation between the document vector of each document and the concept vector of “melody” is indicated by “melody” on the X coordinate axis and “tune” on the Y coordinate axis. A point where the degree is the X coordinate and the degree of association with the "song" is the Y coordinate is displayed on the graph. From the graph of FIG. 22, it can be read that a document having a high correlation with “melody” also has a high correlation with “song”, and thus “melody” and “song” are words having a high relation.
[0061]
FIG. 23 is a diagram similarly showing a mining result by the mining unit 208. In this example, the mining result when the processing of FIG. 21 is performed by specifying “sound” and “color” as keywords is shown. Then, it can be read that "sound" and "color" are words having low relation.
[0062]
In the first embodiment, the relevance between a word and an attribute and the relevance between a word and a document are calculated by using the
[0063]
Returning to the flowchart of FIG. 14, the search /
[0064]
In step ST57, when the search / mining result storage unit 111 receives an instruction to save the search / mining result from the user, in step ST58, the search / mining result storage unit 111 searches / mines the search / mining result. The result is stored in the
[0065]
FIG. 24 is a flowchart showing a processing flow of the search / mining result storage unit 111 for storing the search / mining result. In step ST101, a document set to be saved as a search / mining result is determined by the user. For example, in the case of a search result, the search result output in step ST64 of FIG. 15 may be used as a set of documents to be stored as it is, or a threshold of similarity, a condition such as the number of searches, and the like may be set from the search result. Alternatively, a set of documents to be stored may be narrowed down.
[0066]
In the case of the mining process shown in FIGS. 17 and 18 for analyzing the degree of association between an attribute and a keyword, the attribute and the keyword are designated, and a document set having a specific attribute is associated with a specific keyword. A document set with a high degree may be used. For example, a document set whose attribute value is “
[0067]
Furthermore, in the example of the mining process for analyzing the correlation between the attributes described in FIGS. 19 and 20, the attribute and the keyword are designated, and the specific keyword and the relevance of the relevance are set in the document set having the specific attribute. A high document set may be used. For example, a document set whose attribute value of the attribute name “sex” is “female” and has a high keyword “character” may be set as a document set to be stored.
[0068]
Further, in the example of the mining process for analyzing the correlation between keywords described with reference to FIGS. 21, 22, and 23, a document set having a high relation with the keyword specified as the coordinate axis may be set as a document set to be stored. For example, a document set to be stored may be a document having a high degree of relevance to one or both of the keyword “melody” and the keyword “song”.
[0069]
Next, in step ST102 in FIG. 24, the search / mining result storage unit 111 explicitly assigns a name to the search / mining result so that it can be referred to later, in accordance with a user's instruction. In step ST103, the search / mining result storage unit 111 assigns a score to each document to be stored and stores it.
[0070]
The score is the degree of association between the document and the keyword specified in the search or mining. For example, in the case of the search processing shown in FIG. 15, the score is the similarity (relevance) with the search condition specified in step ST61.
[0071]
In the case of the mining process of analyzing the relevance between the attribute and the keyword in FIGS. 17 and 18, the relevance with the keyword specified by the mining condition is used as the score. For example, if the attribute value of the attribute name “model” is “
[0072]
Further, in the example of the mining process for analyzing the correlation between the attributes described in FIGS. 19 and 20, the degree of relevance with the keyword specified by the mining condition is used as the score. For example, when the attribute value of the attribute name “sex” is “female” and a set of documents having a high keyword “character” is set as a document set to be stored, the degree of association with “character” is set as the score.
[0073]
Further, in the example of the mining process for analyzing the correlation between the keywords described in FIGS. 21, 22, and 23, the degree of relevance with the keyword specified on the coordinate axis is used as the score. For example, the degree of relevance between each document and one of the keyword “melody” and the keyword “song” or the degree of relevance to a vector obtained by combining both word vectors is used as a score.
[0074]
FIG. 25 is a diagram illustrating an example of a search / mining result stored in the search / mining
[0075]
Next, returning to step ST52 after the processing of step ST58 in FIG. 14, the search / mining
[0076]
For example, when “fashion” is specified in the search / mining result of FIG. 25,
[0077]
For example, in the processing of FIG. 24, by specifying the search / mining result named “fashion” and the search / mining result named “private use” by AND, “fashion” and “private use” are designated. Are defined as a document set to be searched / mined. In addition, by specifying the search / mining result named “operability” and the search / mining result named “function” by OR, a score is assigned to either “operability” or “function”. The set of documents being searched becomes a set of documents to be searched and mined.
[0078]
In this way, by specifying the combination of the search and mining results, for example, the combination of the AND of “fashion” and “private use” becomes the “set of questionnaire results of those who are interested in fashion in private use”. A set of documents to be analyzed with such a meaning can be created, and the combination of OR of “operability” and “function” has a meaning like “set of questionnaire results of people who are interested in practicality”. A set of documents to be analyzed can be created.
[0079]
Thereafter, when a search / mining condition is input in step ST53 for the document set created by the search / mining result specified in step ST52 of FIG. 14, the search / mining condition is changed in step ST54. The search and mining process is executed in step ST55, and the result is displayed in step ST56.
[0080]
For example, when a mining process for analyzing the degree of association between an attribute and a keyword described in FIGS. 17 and 18 is performed on a document set in which “private use” and “fashion” are combined by AND, By performing “model” and “screen” and “ringtone” as keywords, “people who are interested in fashion in private use” can analyze for each model how much they are interested in screens and ringtones. .
[0081]
Next, the processing of the search / mining
FIG. 26 is a flowchart showing the flow of processing of the search / mining
[0082]
In step ST113, the search / mining
[0083]
In step ST114, the search / mining
[0084]
FIG. 27 is a diagram showing an editing result by the search / mining
[0085]
Similarly, in the process of FIG. 26, when “business use” and “private use” are specified as search / mining results and “use field” is specified as an attribute name, “attribute name: use field” in FIG. 27 is used. Is generated.
[0086]
FIG. 28 is a flowchart showing a flow of processing of another implementation method of the search / mining
[0087]
In step ST123 of FIG. 28, the search / mining
[0088]
In step ST124, the search / mining
[0089]
FIG. 29 is a diagram showing an editing result by the search / mining
[0090]
As described above, the attribute generated by the processing in FIG. 26 or FIG. 28 can be handled in the mining process in the mining unit 208 in the same manner as the attribute originally provided in the document. That is, in the example of the target document set 101 in FIG. 3, in addition to the attributes “gender”, “age”, “model”, “region”, and “date” originally provided, a new attribute “point to be emphasized” And "applications" can be used for analysis.
[0091]
For example, FIG. 30 is a diagram showing a mining result by the mining unit 208. The attribute value determined by the search / mining
As described above, the mining unit 208 can analyze the degree of association between the designated mining condition and the attribute value determined by the search / mining
[0092]
Also, in the example in which the correlation between the attribute values of the document and the attribute values shown in FIGS. 19 and 20 is analyzed based on the distribution of the specified words, the mining unit 208 similarly performs the search / mining
[0093]
Further, in the example in which the correlation between words and the words shown in FIGS. 21, 22 and 23 is analyzed based on the distribution of the documents, the mining unit 208 similarly searches and mines the correlation between words and words. The analysis can also be performed based on the distribution of the documents stored in the
[0094]
Further, it is also possible to analyze the degree of association between the attributes created by the search / mining
FIG. 31 is a flowchart showing, as an example of the mining process in the mining unit 208, the flow of the process of analyzing the degree of association between the attributes created by the search / mining
[0095]
In step ST131, the mining unit 208 acquires a document set for each attribute value for the
[0096]
In step ST133, the mining unit 208 acquires a document set for each attribute value for the specified attribute name 2. When "Usage field" is specified for the attribute name 2, a document set including "business use" in the attribute value and a document set including "private use" in the attribute value are obtained. In step ST134, the mining unit 208 creates an attribute vector from each document set acquired in step ST133.
[0097]
In step ST135, the mining unit 208 calculates a cosine value between each attribute vector created in step ST132 and each attribute vector created in step ST134, and sets the cosine value as the degree of association. In step ST136, the mining unit 208 displays the relevance of each attribute value of the attribute name 2 to each attribute value of the
[0098]
FIG. 32 is a diagram illustrating a mining result by the mining unit 208, and is a diagram illustrating an example in which a result of the processing in FIG. 31 is displayed in a graph. From the graph of FIG. 32, it can be seen that, for example, the correlation between “fashion” and “private use” is high, and the correlation between “function” and “business use” is high.
[0099]
As described above, the mining unit 208 can analyze the degree of association between attribute values determined for a plurality of attribute names by the search / mining
[0100]
As described above, according to the first embodiment, the results obtained by the search and the text mining are saved, and the saved search and mining results are associated with each other to create a new analysis target and a new attribute. And analysis based on a user-defined criterion (analysis axis) that is not defined in the original document is obtained.
[0101]
In addition, according to the first embodiment, by using the
[0102]
Furthermore, according to the first embodiment, the concept dictionary generation unit 201 extracts a compound word, so that a word having higher specialty is extracted than a word combining general words, and a concept index for the compound word is extracted. Since it is generated, it is possible to perform a mining process based on a more appropriate word, and it is possible to obtain an effect that the accuracy of the mining process can be improved.
[0103]
Each of the above processes can be realized on a computer by a text mining program installed on the computer.
[0104]
【The invention's effect】
As described above, according to the present invention, the index storage unit storing the index information for searching and mining the target document set and the index information stored according to the specified search and mining conditions are referred to. A search / mining execution unit that executes the search / mining process of the target document set, and the search / mining result by the search / mining execution unit is assigned to each document with the degree of association between each document and the search / mining condition. A search / mining result storage unit to be stored in the search / mining result storage unit, and a plurality of specified search / mining results are read from the search / mining result storage unit, and each document is read according to the specified attribute name. A search / mining result editor that selects attribute values by selecting search / mining results read in To allow creation of attributes, there is an effect that users who are not defined in the original document can be analyzed based on the criteria defined.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a text mining device according to
FIG. 2 is a detailed block diagram showing a configuration of a text mining device according to
FIG. 3 is a diagram illustrating an example of a document in a target document set.
FIG. 4 is a flowchart showing a processing flow of a concept dictionary generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 5 is a diagram for explaining processing of a concept dictionary generation unit of the text mining device according to
FIG. 6 is a flowchart showing a flow of compound word extraction processing of a concept dictionary generation unit of the text mining device according to
FIG. 7 is a diagram showing an example of a compound word candidate extraction dictionary held by the concept dictionary generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 8 is a diagram showing a compound word candidate extraction result of the concept dictionary generating unit of the text mining device according to the first embodiment of the present invention.
FIG. 9 is a diagram illustrating generation of a document vector index by a document vector index generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 10 is a flowchart showing a processing flow of a document vector index generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 11 is a diagram showing a document vector index of the text mining device according to the first embodiment of the present invention.
FIG. 12 is a flowchart showing a processing flow of a mining index generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 13 is a diagram illustrating an example of a mining index generated by a mining index generation unit of the text mining device according to the first embodiment of the present invention.
FIG. 14 is a flowchart showing a processing flow of an execution unit of the text mining device according to the first embodiment of the present invention.
FIG. 15 is a flowchart showing a flow of a search process executed by the search unit of the text mining device according to the first embodiment of the present invention.
FIG. 16 is a diagram showing an example of a search result by a search unit of the text mining device according to the first embodiment of the present invention.
FIG. 17 is a flowchart showing a flow of a mining process executed by the mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 18 is a diagram showing a mining result by a mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 19 is a flowchart showing a flow of a mining process executed by the mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 20 is a diagram showing a mining result by the mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 21 is a flowchart showing a flow of a mining process executed by the mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 22 is a diagram illustrating a mining result by a mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 23 is a diagram illustrating a mining result by a mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 24 is a flowchart showing a processing flow of a search / mining result storage unit according to the first embodiment of the present invention.
FIG. 25 is a diagram illustrating an example of a search / mining result stored in a search / mining result storage unit of the text mining device according to the first embodiment of the present invention.
FIG. 26 is a flowchart showing a processing flow of a search / mining result editing unit of the text mining device according to the first embodiment of the present invention.
FIG. 27 is a diagram showing an editing result by a search / mining result editing unit of the text mining device according to the first embodiment of the present invention.
FIG. 28 is a flowchart showing a processing flow of a search / mining result editing unit of the text mining apparatus according to
FIG. 29 is a diagram showing an editing result by a search / mining result editing unit of the text mining device according to the first embodiment of the present invention.
FIG. 30 is a diagram showing an editing result by a search / mining result editing unit of the text mining device according to the first embodiment of the present invention.
FIG. 31 is a flowchart showing a processing flow of a mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 32 is a diagram illustrating a mining result by a mining unit of the text mining device according to the first embodiment of the present invention.
FIG. 33 is a diagram illustrating a conventional text mining analysis process.
FIG. 34 is a diagram for explaining text mining analysis processing according to
[Explanation of symbols]
101 target document set, 102 index generation unit, 103 index storage unit, 104 execution unit, 105 input unit, 106 display unit, 107 search / mining result storage unit, 108 index reading unit, 109 search / mining result reading unit, 110 search Mining execution unit, 111 search / mining result storage unit, 112 search / mining result editing unit, 201 concept dictionary generation unit, 202 document vector index generation unit, 203 mining index generation unit, 204 concept dictionary, 205 document vector index, 206 Mining index, 207 search unit, 208 mining unit.
Claims (10)
指定された検索・マイニング条件に従って上記索引格納部に保存されている索引情報を参照して上記対象文書集合の検索・マイニングの処理を実行する検索・マイニング実行部と、
上記検索・マイニング実行部による検索・マイニング結果を、各文書と検索・マイニング条件との関連度を上記各文書に付与して検索・マイニング結果格納部に保存する検索・マイニング結果保存部と、
指定された複数の検索・マイニング結果を上記検索・マイニング結果格納部から読み込んで、指定された属性名に対応して、各文書毎に読み込んだ検索・マイニング結果を選択して属性値を決定する検索・マイニング結果編集部とを備えたテキストマイニング装置。An index storage unit that stores index information for searching and mining a set of target documents;
A search / mining execution unit that executes a search / mining process of the target document set by referring to the index information stored in the index storage unit according to a specified search / mining condition;
A search / mining result storage unit for assigning the degree of relevance between each document and the search / mining condition to each of the documents and storing the search / mining result by the search / mining execution unit in the search / mining result storage unit;
A plurality of specified search / mining results are read from the search / mining result storage unit, and the attribute values are determined by selecting the read / mining results read for each document in accordance with the specified attribute name. A text mining device equipped with a search / mining result editing unit.
上記第1の機能による検索・マイニング結果を、各文書と検索・マイニング条件との関連度を上記各文書に付与して検索・マイニング結果格納部に保存する第2の機能と、
指定された複数の検索・マイニング結果を上記検索・マイニング結果格納部から読み込んで、指定された属性名に対応して、各文書毎に読み込んだ検索・マイニング結果を選択して属性値を決定する第3の機能とをコンピュータに実現させるテキストマイニングプログラム。A first function of executing a search / mining process of a target document set by referring to index information stored in an index storage unit according to a specified search / mining condition;
A second function of adding the search / mining result obtained by the first function to each document and the relevance between each document and the search / mining condition, and storing the result in the search / mining result storage unit;
A plurality of specified search / mining results are read from the search / mining result storage unit, and the attribute values are determined by selecting the read / mining results read for each document in accordance with the specified attribute name. A text mining program that makes a computer realize the third function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003034059A JP2004246491A (en) | 2003-02-12 | 2003-02-12 | Text mining system and text mining program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003034059A JP2004246491A (en) | 2003-02-12 | 2003-02-12 | Text mining system and text mining program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004246491A true JP2004246491A (en) | 2004-09-02 |
Family
ID=33019852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003034059A Pending JP2004246491A (en) | 2003-02-12 | 2003-02-12 | Text mining system and text mining program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004246491A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171931A (en) * | 2004-12-14 | 2006-06-29 | Mitsubishi Electric Corp | Text mining device and text mining program |
JP2006244298A (en) * | 2005-03-04 | 2006-09-14 | Mitsubishi Electric Corp | Text mining method and device |
WO2013124949A1 (en) * | 2012-02-20 | 2013-08-29 | 株式会社アイ・エヌ情報センター | Information display device and program |
JP2014130539A (en) * | 2012-12-28 | 2014-07-10 | Fujitsu Ltd | Information processor, node extraction program and node extraction method |
JPWO2013124949A1 (en) * | 2012-02-20 | 2015-05-21 | 株式会社アイ・エヌ情報センター | Information display device, program |
JPWO2014034557A1 (en) * | 2012-08-31 | 2016-08-08 | 日本電気株式会社 | Text mining device, text mining method and program |
JP2021111420A (en) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and apparatus for processing semantic description of text entity, and device |
JP7408957B2 (en) | 2019-09-05 | 2024-01-09 | コニカミノルタ株式会社 | Idea proposal support system, idea proposal support device, idea proposal support method and program |
-
2003
- 2003-02-12 JP JP2003034059A patent/JP2004246491A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171931A (en) * | 2004-12-14 | 2006-06-29 | Mitsubishi Electric Corp | Text mining device and text mining program |
JP2006244298A (en) * | 2005-03-04 | 2006-09-14 | Mitsubishi Electric Corp | Text mining method and device |
JP4595590B2 (en) * | 2005-03-04 | 2010-12-08 | 三菱電機株式会社 | Text mining method and text mining apparatus |
WO2013124949A1 (en) * | 2012-02-20 | 2013-08-29 | 株式会社アイ・エヌ情報センター | Information display device and program |
JPWO2013124949A1 (en) * | 2012-02-20 | 2015-05-21 | 株式会社アイ・エヌ情報センター | Information display device, program |
JPWO2014034557A1 (en) * | 2012-08-31 | 2016-08-08 | 日本電気株式会社 | Text mining device, text mining method and program |
US10140361B2 (en) | 2012-08-31 | 2018-11-27 | Nec Corporation | Text mining device, text mining method, and computer-readable recording medium |
JP2014130539A (en) * | 2012-12-28 | 2014-07-10 | Fujitsu Ltd | Information processor, node extraction program and node extraction method |
JP7408957B2 (en) | 2019-09-05 | 2024-01-09 | コニカミノルタ株式会社 | Idea proposal support system, idea proposal support device, idea proposal support method and program |
JP2021111420A (en) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and apparatus for processing semantic description of text entity, and device |
JP7113097B2 (en) | 2020-01-15 | 2022-08-04 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Sense description processing method, device and equipment for text entities |
US11669690B2 (en) | 2020-01-15 | 2023-06-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing sematic description of text entity, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lebart et al. | Exploring textual data | |
Witten et al. | Text mining in a digital library | |
JP4347226B2 (en) | Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method | |
JP2007141090A (en) | Question answering system, data retrieval method and computer program | |
JP2007241888A (en) | Information processor, processing method, and program | |
JP5538185B2 (en) | Text data summarization device, text data summarization method, and text data summarization program | |
JP4967037B2 (en) | Information search device, information search method, terminal device, and program | |
Takechi et al. | Feature selection in categorizing procedural expressions | |
JP2006244305A (en) | Word-of-mouth information determination method, device, and program | |
JP2004246491A (en) | Text mining system and text mining program | |
Chalmers | Informatics, architecture and language | |
JP4499179B1 (en) | Terminal device | |
JP2017117021A (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
JP2007293377A (en) | Input/output device for separating subjective page and non-subjective page | |
JP2006286026A (en) | Opinion collection/analysis device, opinion collection/analysis method used therefor and its program | |
JP2003208447A (en) | Device, method and program for retrieving document, and medium recorded with program for retrieving document | |
JP2006293616A (en) | Document aggregating method, and device and program | |
TW201822031A (en) | Method of creating chart index with text information and its computer program product capable of generating a virtual chart message catalog and schema index information to facilitate data searching | |
Belerao et al. | Summarization using mapreduce framework based big data and hybrid algorithm (HMM and DBSCAN) | |
JP4462014B2 (en) | Topic word combination method, apparatus, and program | |
JP2004185135A (en) | Subject change extraction method and device, subject change extraction program and its information recording and transmitting medium | |
JP2010282403A (en) | Document retrieval method | |
JP2004334699A (en) | Text evaluation device, text evaluation method, program, and storage medium | |
Kleb et al. | Ontology based entity disambiguation with natural language patterns | |
JP4145776B2 (en) | Question answering apparatus and question answering method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071025 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071025 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100105 |