JP2001101194A - テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体 - Google Patents

テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体

Info

Publication number
JP2001101194A
JP2001101194A JP27306299A JP27306299A JP2001101194A JP 2001101194 A JP2001101194 A JP 2001101194A JP 27306299 A JP27306299 A JP 27306299A JP 27306299 A JP27306299 A JP 27306299A JP 2001101194 A JP2001101194 A JP 2001101194A
Authority
JP
Japan
Prior art keywords
word
words
text
cluster
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27306299A
Other languages
English (en)
Inventor
Yoichi Fujii
洋一 藤井
Yasuhiro Takayama
泰博 高山
Katsushi Suzuki
克志 鈴木
Kenji Kira
賢治 吉良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP27306299A priority Critical patent/JP2001101194A/ja
Publication of JP2001101194A publication Critical patent/JP2001101194A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 予め、分析対象のテキストに合わせてカテゴ
リ辞書を作成すれば、そのテキストの分析結果を提示す
ることができるが、コールセンターの問い合わせ業務の
ように日々蓄積されるデータを分析するのではなく、ア
ンケート結果の分析のように一度限りの分析を目的とす
る場合、カテゴリ辞書の作成がコスト的に見合わない課
題があった。 【解決手段】 各単語の出現回数の集計結果を参照し
て、切り出した単語から出現頻度が規定値以上の単語を
抽出し、その抽出した各単語間の関連性を評価して、関
連度が規定値以上の共起単語のクラスタを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えば、アンケ
ートの設問事項に対して自由に記述された回答の内容を
分析して分類するテキストマイニング方法、テキストマ
イニング装置及びテキストマイニングプログラムが記録
された記録媒体に関するものである。
【0002】
【従来の技術】従来のテキストマイニング方法は、「テ
キストマイニング」(文献:情報処理学会誌 Vol.
40 No.4 PP.358〜364)にも開示され
ているように、予め、単語をその概念や意図に対応付け
るカテゴリ辞書を用意する。そして、上記カテゴリ辞書
を利用してテキストデータを解析し、カテゴリやカテゴ
リの組合わせをテキストデータ中の文と対応付け、これ
らのカテゴリやカテゴリの組合わせを集計する。そし
て、時間的な流れの変化や、地域特性などの切り口で集
計結果を提示することにより、テキストデータの分析を
行うようにしている。
【0003】具体的には、例えば、「Win98を入れ
たら起動が早い。」というような文章の分析を行う場
合、予め、「Windows98(ソフトウェア)」、
「入れる(動作)」、「起動(動作)」、「早い(好
評)」などの上位概念と、「Win98」と「Wind
ows98」が同義語であることを示す情報をカテゴリ
辞書に登録する。そして、カテゴリ辞書を参照して、上
記の文章から「Windows98(ソフトウェ
ア)」、「入れる(動作)」、「起動(動作)」、「早
い(好評)」、「Windows98…入れる(ソフト
ウェア…動作)」、「起動する…早い(動作…好評)」
などの概念を抽出し、その概念の集計結果を提示する。
【0004】
【発明が解決しようとする課題】従来のテキストマイニ
ング方法は以上のように構成されているので、予め、分
析対象のテキストに合わせてカテゴリ辞書を作成すれ
ば、そのテキストの分析結果を提示することができる。
しかし、コールセンターの問い合わせ業務のように日々
蓄積されるデータを分析するのではなく、アンケート結
果の分析のように一度限りの分析を目的とする場合、カ
テゴリ辞書の作成がコスト的に見合わないという課題が
あった。また、予め分析対象の内容が想定される場合に
は、カテゴリ辞書を作成することができるが、アンケー
トの自由記述欄のように、解答者が何を答えてくるか分
からないような場合には、予めカテゴリ辞書を作成して
用意することが困難であるという課題もあった。
【0005】この発明は上記のような課題を解決するた
めになされたもので、予めカテゴリ辞書を作成すること
なく、アンケート結果のような自由記述のテキストを分
析することができるテキストマイニング方法、テキスト
マイニング装置及びテキストマイニングプログラムが記
録された記録媒体を得ることを目的とする。
【0006】
【課題を解決するための手段】この発明に係るテキスト
マイニング方法は、各単語の出現回数の集計結果を参照
して、切り出した単語から重要度が指定範囲内の単語を
抽出し、その抽出した各単語間の関連性を評価して、関
連度が規定値以上の単語集合で示されるクラスタを生成
するようにしたものである。
【0007】この発明に係るテキストマイニング方法
は、重要度として単語の出現頻度を用いるようにしたも
のである。
【0008】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、同一のテキストに
同一の単語が2以上出現する場合でも、その単語の当該
テキストにおける出現回数を1回として集計するように
したものである。
【0009】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、同義語辞書を参照
して、同義関係にある単語を1つの単語に統一して集計
するようにしたものである。
【0010】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、シソーラスを参照
して、各単語の上位概念を検索し、その上位概念の出現
回数を集計して、その上位概念を単語と同様に取り扱う
ようにしたものである。
【0011】この発明に係るテキストマイニング方法
は、出現頻度が規定値以上の単語を抽出する際、出現頻
度が高い単語から順番に抽出して、各単語間の関連性を
評価するようにしたものである。
【0012】この発明に係るテキストマイニング方法
は、重要度が規定値以上の単語を抽出する際、重要度が
高い単語から順番に抽出して、各単語間の関連性を評価
するようにしたものである。
【0013】この発明に係るテキストマイニング方法
は、共起単語のクラスタを生成する際、テキストから切
り出した全ての単語の組み合わせに対するクラスタ候補
を生成し、要素数が最大のクラスタ候補をクラスタとし
て生成するようにしたものである。
【0014】この発明に係るテキストマイニング方法
は、規定値の設定を許可するようにしたものである。
【0015】この発明に係るテキストマイニング装置
は、重要単語抽出手段により抽出された各単語間の関連
性を評価し、関連度が規定値以上の単語集合で示される
クラスタを生成するようにしたものである。
【0016】この発明に係るテキストマイニング装置
は、出現頻度が指定範囲内の単語を抽出する頻出単語抽
出手段から重要単語抽出手段を構成するようにしたもの
である。
【0017】この発明に係るテキストマイニングプログ
ラムが記録された記録媒体は、重要単語抽出処理で抽出
された各単語間の関連性を評価し、関連度が規定値以上
の単語集合で示されるクラスタを生成するクラスタ生成
処理を記録したものである。
【0018】この発明に係るテキストマイニングプログ
ラムが記録された記録媒体は、出現頻度が指定範囲内の
単語を抽出する頻出単語抽出処理から重要単語抽出処理
を構成するようにしたものである。
【0019】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1によるテ
キストマイニング装置を示す構成図であり、図におい
て、1はアンケート結果などの自由記述されたテキスト
を保存するとともに、単語切出部3により切り出された
単語を格納するテキストデータベース(以下、テキスト
DBという)、2は単語切出部3が単語の切り出し処理
に使用する単語辞書である。
【0020】3はテキストDB1に保存されているテキ
ストから単語を切り出す単語切出部(単語切出手段)、
4は単語切出部3により切り出された各単語の出現回数
を集計する単語頻度集計部(集計手段)、5はクラスタ
リング対象を選択するクラスタリング対象選択部、6は
単語頻度集計部4の集計結果を参照して、クラスタリン
グ対象選択部5により選択されたクラスタリング対象の
単語から出現頻度が規定値以上の単語を抽出する頻出単
語抽出部、7は頻出単語抽出部6により抽出された各単
語間の関連性を評価し、関連度が規定値以上の共起単語
のクラスタを生成するクラスタリング部(クラスタ生成
手段)である。なお、クラスタリング対象選択部5及び
頻出単語抽出部6から頻出単語抽出手段が構成されてい
る。
【0021】図2はテキストマイニング装置の記録媒体
に記録されているテキストマイニングプログラムの概略
処理内容を示すフローチャートであり、図3はテキスト
マイニングプログラムの詳細な処理内容を示すフローチ
ャートである。図4はアンケートの具体例を示す説明図
であり、Q2が自由記述の回答を求める質問であり、A
2が質問Q2の回答である。図5は複数のアンケート結
果から抽出された質問Q2の回答内容を保存するテキス
トDB1の格納例を示す説明図である。図5の例では、
図4に示す回答A2はアンケート番号“1”に格納され
ている。図6は各単語の出現回数の集計結果を示す説明
図であり、この集計結果はテキストDB1に格納され
る。
【0022】次に動作について説明する。この実施の形
態1では、図4のアンケートの質問Q2に対する回答内
容に関してテキストマイニングを行うものとする。後述
の処理により入力テキスト集合を階層的に分割してクラ
スタを順次生成し、最終的には各クラスタに含まれるテ
キスト集合が親クラスタに含まれるテキスト集合の部分
集合となるような、階層的に詳細化するクラスタの木構
造を生成することにより、入力テキスト集合から有用な
情報を抽出するテキストマイニングを行う。
【0023】まず、単語切出部3は、テキストDB1に
格納されているテキスト(図5の例では、2000個の
テキストが格納されている)、即ち、質問Q2の回答内
容から単語を切り出す処理を実行する(ステップST
1)。具体的には、単語辞書2を参照して、文の解析に
利用される形態素解析を実行し、文章から名詞、動詞や
形容詞などの自立語とその活用形、および助詞や助動詞
などの付属語とその活用形などを特定することにより、
テキストから単語を切り出すようにする。
【0024】単語頻度集計部4は、単語切出部3がテキ
ストから単語を切り出すと、各単語毎に出現回数を集計
し(ステップST2)、アンケート番号と対応付けてテ
キストDB1に格納する。例えば、アンケート番号
“1”に格納されている回答A2の場合、図6に示すよ
うに、「メモリ」、「イメージ」、「増設」、「処
理」、「使う」、「遅い」の単語がそれぞれ1回ずつカ
ウントされている。
【0025】このようにして、単語頻度集計部4がテキ
ストDB1に格納されている全てのテキストを対象とす
る単語の出現回数の集計処理を終了すると(図6を参
照)、図2のステップST3に進む。以下、ステップS
T3の内容を図3を参照しつつ説明する。クラスタリン
グ対象選択部5はクラスタの番号を示す変数iを“0”
に初期化するとともに、次に生成するクラスタの番号を
示す変数sを“1”に初期化する(ステップST11,
ST12)。ここでは、i=0,s=1なので、ステッ
プST11からステップST12に進み、クラスタリン
グ対象としてC0 が設定される。
【0026】頻出単語抽出部6は、クラスタリング対象
選択部5がクラスタリング対象を選択すると、単語頻度
集計部4の集計結果を参照して、クラスタリング対象で
あるCi の要素であるテキスト中に出現する単語から出
現頻度が規定値以上の単語を抽出する(ステップST
4)。具体的には、まず、下記の処理を実行するための
一時変数Ctmp にクラスタリング対象であるCi を設定
する(ステップST13)。ここでは、C0 がクラスタ
リング対象であるので、Ctmp にはC0 が設定される。
【0027】そして、Ctmp の要素である単語を出現回
数が多い順に並べ換える処理を実行する(ステップST
14)。図6の集計結果では、Ctmp にC0 が設定され
た場合、「処理、遅い、使う、メモリ、増設、不足、イ
メージ、...」の順番で単語が並べられる。ただし、
単語を並べ換える際、全てのテキストに対して共通に含
まれる単語は、特徴的な意味を持たないと考えられるの
で、並べ換える単語の対象から除外する。
【0028】次に、出現頻度が規定値以上の単語を抽出
するため、出現回数が最大の単語、即ち、出現回数が
“213”の「処理」に対して、一定割合α以上、出現
している単語を抽出する(ステップST15)。例え
ば、α=0.1とすると、22回以上出現する単語が抽
出対象になるので、「イメージ」が抽出対象から脱落
し、「処理、遅い、使う、メモリ、増設、不足」までを
抽出する。
【0029】クラスタリング部7は、頻出単語抽出部6
が高頻度の単語を抽出すると、各単語間の関連性を評価
し、関連度が規定値以上の単語集合で示されるクラスタ
を生成する(ステップST5)。具体的には、まず、頻
出単語抽出部6により抽出された単語の部分集合を特定
する変数jおよびkをそれぞれj=1,k=j+1とし
て初期化する。また、頻出単語抽出部6により抽出され
た単語の個数を示す定数Gを設定する(上記の例では、
6個の単語が抽出されているので、G=6を設定す
る)。なお、G=6に設定された場合、初期段階では、
j=1であるので、ステップST16の条件が成立し、
ステップST17の処理に移行する。
【0030】そして、ステップST16の条件が成立す
ると、高頻度の単語を1ずつ追加しながら、以下の評価
関数を計算することにより、関連度が規定値以上となる
単語集合を検索する。ただし、この実施の形態1では、
βの値を0.5とする。なお、式(1)の評価関数を満
足する単語集合は互いに関連度が低く評価され、式
(1)の評価関数を満足しない単語集合は互いに関連度
が高いと評価される。
【0031】 #I({Wj,...,Wk},Ctmp)/#U({Wj,...,Wk},Ctmp)<β …(1) ただし、 I({Wj,...,Wk},Ctmp)はWj 〜Wk の単
語の全てを含むアンケートの集合 U({Wj,...,Wk},Ctmp)はWj 〜Wk の単
語の何れかを含むアンケートの集合 #は集合の要素数とする。
【0032】まず、出現回数が最大の単語である「処
理」に対する他の単語の関連度を評価する。ここでは、
j=1,k=2であるので、「処理」と「遅い」の関連
度を評価する。
【0033】例えば、#I({処理,遅い},Ctmp
=80とすると(ここでの“80”は、2000個の回
答内容のうち、80個の回答内容に「処理」と「遅い」
の両方の単語が含まれていたことを示す)、下記に示す
ように、「処理」と「遅い」の関連度は“0.27”と
なり、式(1)を満たす。 #I({処理,遅い},Ctmp )/#U({処理,遅い},Ctmp ) =80/(213+156−80) =0.27
【0034】従って、「処理」と「遅い」は共に高頻度
の単語ではあるが、相互の関連度が低いと判断され(同
じテキスト中に出現する可能性が低い)、ステップST
18の処理に移行する。この段階では、j=1,k=2
であるので、ステップST18の条件が成立せず、再
度、ステップST16の処理に戻る。即ち、この段階で
は、単語集合が検出されていないので、変数jの値に
“1”を加えた値をkに代入して、ステップST16の
処理に戻る。
【0035】ステップST16では、相変わらず変数j
が定数Gと一致せず、条件が成立するので、ステップS
T17の処理に進むが、今度はj=2であるので、出現
回数が2番目に多い単語である「遅い」に対する他の単
語の関連度を評価する。従って、「処理」に対する他の
単語の関連度と同様に、「遅い」に対する他の単語の関
連度を評価するが、ここでは、説明の便宜上、「遅い」
と関連度が高い単語が検出されず、また、次の「使う」
と関連度が高い単語も検出されないものとする。
【0036】そこで、「メモリ」に対する「増設」の関
連度の評価から説明を再開する(j=4,k=5の場
合)。例えば、#I({メモリ,増設},Ctmp )=5
5とすると(ここでの“55”は、2000個の回答内
容のうち、55個の回答内容に「メモリ」と「増設」の
単語が含まれていたことを示す)、下記に示すように、
「メモリ」と「増設」の関連度は“0.509”とな
り、数式(1)を満足しない。 #I({メモリ,増設},Ctmp )/#U({メモリ,増設},Ctmp ) =55/(87+76−55) =0.509
【0037】従って、「メモリ」と「増設」は、相互の
関連度が高いと判断され(同じテキスト中に出現する可
能性が高い)、変数kをインクリメントした後、ステッ
プST16の処理に戻る。また、この段階では、相変わ
らず変数jが定数Gと一致せず、ステップST16の条
件が成立するので、ステップST17の処理に進む。
【0038】これにより、今度は、j=4,k=6とな
るので、「メモリ」と「増設」の他に、単語「不足」を
追加して、これら3個の単語の関連度を評価する。例え
ば、#I({メモリ,増設,不足},Ctmp )=17と
し、(ここでの“17”は、2000個の回答内容のう
ち、17個の回答内容に関して「メモリ」と「増設」と
「不足」の単語が含まれていたことを示す)、さらに、
♯I({メモリ,不足},Ctmp )=20、#I({増
設,不足},Ctmp )=18とすると、以下に示すよう
に、「メモリ」と「増設」と「不足」の関連度は“0.
155”となり、数式(1)を満足する。 #I({メモリ,増設,不足},Ctmp )/#U({メモリ,増設,不足 },Ctmp ) =17/(87+76+22−55−20−18+17) =0.155
【0039】従って、「メモリ」と「増設」と「不足」
は、相互の関連度が低いと判断され、ステップST18
の処理に移行する。この段階では、j=4,k=6であ
るので、ステップST18の条件が成立し、ステップS
T19の処理に移行する。そして、ステップST19で
は、「メモリ」と「増設」の関連度が高いと判断されて
いるので、「メモリ」と「増設」を要素とするクラスタ
s (s=1であるので、クラスタC1 )を生成し、ク
ラスタC0 の子クラスタとする。
【0040】次に、クラスタリング部7は、前回のクラ
スタリング対象Ctmp (=C0 )からクラスタC1 を削
除した部分を次のクラスタリング対象Ctmp に設定する
(ステップST20)。ここで、図7はクラスタC0
対して単語「メモリ」、「増設」を要素とするクラスタ
1 が子クラスタとして作成され、Ctmp としてC0
1 が新たに設定される様子を示している。
【0041】さらに、クラスタリング部7は、クラスタ
リングの処理を継続する。即ち、処理をステップST1
4に移行し、単語の頻度集計を実施する処理から再帰的
に処理を繰り返す。具体的には、単語「メモリ」と「増
設」を含むアンケートの回答内容を取り除くCtmp に対
して単語の頻度を集計する。この場合、高頻度の単語
は、「処理、遅い、使う、不足、...」といった「メ
モリ、増設」を除いた単語になるが、各単語の頻度は、
クラスタC1 に出現した単語が除外されるため小さくな
る。従って、ステップST15におけるmaxの値が小
さくなるとともに、ステップST15で選択される単語
は、頻度がより低い単語も選択されることになる。
【0042】なお、ステップST14〜ST20の処理
を繰り返すと、ステップST15で抽出する単語が1個
になるか、あるいは、単語の組合わせが存在しなくなる
(ステップST16において、jがGに等しくなる)。
そこで、処理はステップST21に移行し、クラスタC
i とCtmp が一致しない場合には、子クラスタを新たに
生成することができなかったので、クラスタリング対象
であるCtmp をクラスタCi の子クラスタ「その他」と
して設定する(ステップST22)。さらに、変数iを
カウントアップした後、ステップST11に戻って、先
に生成したクラスタをさらに細分する処理を続行する。
このようにステップST11〜ST22の処理を繰り返
すことにより、階層的に分類が為される。最後にどのク
ラスタについても、それ以上分類できなくなる(ステッ
プST11で変数iが変数sに等しくなる)と処理を終
了する。
【0043】以上説明した処理により、高頻度で関連性
が高い単語をひと固まりとするクラスタを順次作成する
ことが可能となる。図8は上記のクラスタリングの実行
結果を示すクラスタ構造図である。C0 (全体)に対し
て3つのクラスタがC1 (メモリ、増設)、C2 (プリ
ンタ、印刷)、C3 (その他)が子クラスタとして生成
され、クラスタC1 に対して、C4 (処理、遅い)、C
5 (メモリ、不足)、C6 (その他)のクラスタが生成
されたことを示している。従って、図8のクラスタ構造
が提示されれば、アンケート結果の傾向を大まかに捕ま
えることができる。
【0044】以上で明らかなように、この実施の形態1
によれば、各単語の出現回数の集計結果を参照して、切
り出した単語から出現頻度が規定値以上の単語を抽出
し、その抽出した各単語間の関連性を評価して、関連度
が規定値以上の共起単語のクラスタを生成するように構
成したので、予めカテゴリ辞書を作成することなく、ア
ンケート結果のような自由記述のテキストを分析するこ
とができる効果がある。
【0045】実施の形態2.上記実施の形態1では、切
り出した単語から出現頻度が規定値以上の単語を抽出す
るものについて示したが、切り出した単語から重要度が
規定値以上の単語を抽出するようにしてもよく、上記実
施の形態1と同様の効果を奏する。
【0046】即ち、統計的手法による文書検索や、文書
自動分類を実施する際に一般的に利用されるTF・ID
Fやχ二乗検定を応用した方法を用いて、単語の重み付
けによりテキストに対する重み計算を実施する。その
後、単語毎に全文書の重みを足し合わせた値を単語の重
要度と位置付けて、単語の重要度を計算する。そして、
重要度が規定値以上の単語のうち、重要度が高い単語か
ら順番に抽出して、各単語間の関連性を評価するように
する。
【0047】実施の形態3.上記実施の形態1では、単
語切出部3がテキストから単語を切り出すと、各単語毎
に出現回数を集計し、アンケート番号と対応付けてテキ
ストDB1に格納するものについて示したが(例えば、
同一のテキストに同一の単語が3回出現する場合、その
単語の当該テキストにおける出現回数を3回とする)、
同一のテキストに同一の単語が2以上出現する場合で
も、その単語の当該テキストにおける出現回数を1回と
して集計するようにしてもよい。即ち、任意のテキスト
に1回でも出現すれば、その単語の出現回数を“1”と
し、1回も出現しなければ、その単語の出現回数を
“0”とするようにしてもよい。
【0048】アンケート結果は一般的に短文であるた
め、同一の単語が2以上出現する確率が低いので、正確
に出現回数をカウントしなくても、クラスタリング精度
に大きな影響を与えることがない。一方、上記のよう
に、出現回数のカウントを簡略化することにより、クラ
スタリング処理が簡略化され、処理速度が向上する効果
が得られる。
【0049】実施の形態4.上記実施の形態1では、単
語の出現回数を集計する際、単語辞書2のみを参照する
ものについて示したが、同義語辞書を参照して、同義関
係にある単語を1つの単語に統一して集計するようにし
てもよい。
【0050】即ち、一般的な同義語辞書を参照し、例え
ば、「赤」と「レッド」などの同義語に対して、「レッ
ド」を「赤」という単語に置き換えして処理することに
より、表記の揺れを吸収するようにしてもよい。
【0051】実施の形態5.上記実施の形態1では、単
語の出現回数を集計する際、単語辞書2のみを参照する
ものについて示したが、シソーラスを参照して、各単語
の上位概念を検索し、その上位概念の出現回数を集計し
て、その上位概念を単語と同様に取り扱うようにしても
よい。
【0052】即ち、図9に示すような一般のシソーラス
を参照して、例えば、「赤」や「青」などの具体的な色
の表現の上位概念として、概念<色>を検索する。そし
て、ステップST2における単語頻度集計処理の処理対
象に、切り出された単語として概念<色>を追加し、最
初に概念<色>をもつクラスタを生成するようにする。
その後、概念<色>をもつクラスタに対して、さらに具
体的な「赤」や「青」などの子クラスタを生成する。こ
れにより、概念の階層が明確化され、テキストの分析が
一層容易になる効果を奏する。
【0053】実施の形態6.上記実施の形態1では、高
頻度の単語から順番に抽出して、クラスタリング処理を
実施するものについて示したが、テキストから切り出し
た単語の組み合わせ全てに対するクラスタ候補を生成
し、要素数が最大のクラスタ候補をクラスタとして生成
するようにしてもよい。
【0054】即ち、評価関数である数式(1)の単語選
択をステップST3におけるクラスタリング対象選択処
理で抽出した全ての単語に対して総当たりで実施し、ク
ラスタの要素数が最も大きなクラスタから子クラスタを
生成するようにしてもよい。
【0055】実施の形態7.上記実施の形態1では、規
定値を示すパラメータとして固定値のα、βを使用する
ものについて示したが、利用者に対してパラメータ設定
のインタフェースを提供することにより、α、βの変更
を許可し、クラスタリングの荒さや、クラスタの結合度
を変更するようにしてもよい。
【0056】実施の形態8.上記実施の形態1では、子
クラスタを和集合で定義するもの、即ち、ステップST
19において、Cs =U({Wj ,...,Wk-1 },
tmp )として、C s をCi の子クラスタとするものに
ついて示したが、子クラスタを積集合で定義する(Cs
=I({Wj ,...,Wk-1 },Ctmp )で定義す
る)ようにしてもよい。
【0057】実施の形態9.上記実施の形態1では、排
他的なクラスタを生成するものについて示したが、この
実施の形態9では、重なりを許すクラスタリングについ
て図10を用いて説明する。
【0058】ステップST31,ST32では、図3の
ステップST14,ST15と同様に、クラスタリング
に利用する単語を選択する。ステップST33では、ス
テップST32で選択した単語W1 〜WG に対して、そ
の単語が既にクラスタリングに使用されたか否かを判断
するためのフラグflg1 〜flgG を用意し、全ての
フラグを0(0は未使用を示す)に初期化する。さら
に、クラスを表現する単語集合S0 を{}({}は空集
合を示す)に初期化し、パラメータj,k,tを1、m
を0で初期化する。
【0059】次に、ステップST34では、j≦Gをチ
ェックすることにより、ステップST32で選択された
全ての単語を処理済みか否かを判断する。全ての単語を
処理している場合には、ステップST45において、生
成したクラスタからクラスタの階層構造を生成する(詳
細は後述する)。ステップST34からステップST4
4を経由するループ処理は、単語集合の先頭要素W
を順次変更しつつステップST38の条件を満たさない
(すなわちクラスタとなりうる)単語集合を見つけるた
め試行を繰り返すことを示している。
【0060】最初の段階では、ステップST33からス
テップST36の処理に進み、flg1 =0であるため
単語W1 を選択し、ステップST37において、m=
1,S 1 ={W1 }となる。続いて、ステップST38
の条件を満足しない場合には、ステップST39の処理
に進み、flg1 を1にセットし、ステップST36の
処理に戻る。また、ステップST38の条件を満足する
場合にも、ステップST40の条件を満足する場合(単
語Wk+1 〜WG が存在する場合)には、ステップST3
6の処理に戻る。
【0061】これにより、ステップST36〜ST40
において、ステップST38の条件を満足する単語集合
0 〜Sm が作成される。この場合、#I(Sm-1 ,C
0 )/#U(Sm-1 ,C0 )≧βと、#I(Sm
0 )/#U(Sm ,C0 )<βとが成立する。
【0062】ステップST41では、m≧3をチェック
する。これは、Sm の要素数がmに等しいため、Sm
要素数が3個以上であるか否かをチェックすることと等
価である。次に、ステップST42では、Sm-1 に対し
てクラスタを生成するので、その結果として、2語以上
の単語の積集合がクラスタとして生成されることにな
る。
【0063】ステップST42でクラスタを作成する
と、ステップST43でmを1減らし、tを1増やし
て、ステップST35の処理に戻る。これにより、tを
1増やしながら、クラスタを作成可能な単語の集合を求
めることになる。さらに、ステップST35で最後の単
語WG まで処理した時点で、mを0にセットし、処理対
象の単語の開始位置jを1増やして、再帰的に処理を行
う。なお、図10においては使用有無を示すフラグ情報
flgによる判定処理をステップST36において行っ
ているが、単語の再使用を禁じる処理に対する例外とな
る単語をあらかじめ指定しておくことにより、一部の単
語を複数のクラスタにおいて使用するように構成しても
よい。
【0064】最後に出来上がるクラスタは図11のよう
になる。これらの単語は、ステップST31で高頻度順
に並べられた単語の順番になっている。ステップST4
5では、これらのクラスタに対して、共通する単語をグ
ループ化して階層化し、図12に示すような階層的なク
ラスタリング結果を生成する。
【0065】実施の形態10.上記実施の形態1では、
クラスタリングの評価関数として、積集合と和集合の比
を利用するものについて示したが、相互情報量(2)を
用いる評価式(3)と評価式(4)を利用するようにし
てもよい。即ち、評価式(1)を評価式(3),(4)
に置き換えて処理するようにしてもよい(評価式
(3),(4)の双方が成立したとき、評価式が成立し
たものとする)。
【0066】
【数1】
【0067】
【発明の効果】以上のように、この発明によれば、各単
語の出現回数の集計結果を参照して、切り出した単語か
ら重要度が指定範囲内の単語を抽出し、その抽出した各
単語間の関連性を評価して、関連度が規定値以上の単語
集合で示されるクラスタを生成するように構成したの
で、予めカテゴリ辞書を作成することなく、アンケート
結果のような自由記述のテキストを分析することができ
る効果がある。
【0068】この発明によれば、重要度として単語の出
現頻度を用いるように構成したので、予めカテゴリ辞書
を作成することなく、アンケート結果のような自由記述
のテキストを分析することができる効果がある。
【0069】この発明によれば、各単語の出現回数を集
計する際、同一のテキストに同一の単語が2以上出現す
る場合でも、その単語の当該テキストにおける出現回数
を1回として集計するように構成したので、クラスタリ
ング処理が簡略化され、処理速度が向上する効果があ
る。
【0070】この発明によれば、各単語の出現回数を集
計する際、同義語辞書を参照して、同義関係にある単語
を1つの単語に統一して集計するように構成したので、
表記の揺れを吸収することができる効果がある。
【0071】この発明によれば、各単語の出現回数を集
計する際、シソーラスを参照して、各単語の上位概念を
検索し、その上位概念の出現回数を集計して、その上位
概念を単語と同様に取り扱うように構成したので、概念
の階層が明確化され、テキストの分析が一層容易になる
効果がある。
【0072】この発明によれば、出現頻度が規定値以上
の単語を抽出する際、出現頻度が高い単語から順番に抽
出して、各単語間の関連性を評価するように構成したの
で、各単語間の関連性を的確に評価することができる効
果がある。
【0073】この発明によれば、重要度が規定値以上の
単語を抽出する際、重要度が高い単語から順番に抽出し
て、各単語間の関連性を評価するように構成したので、
各単語間の関連性を的確に評価することができる効果が
ある。
【0074】この発明によれば、共起単語のクラスタを
生成する際、テキストから切り出した全ての単語の組み
合わせに対するクラスタ候補を生成し、要素数が最大の
クラスタ候補をクラスタとして生成するように構成した
ので、予めカテゴリ辞書を作成することなく、アンケー
ト結果のような自由記述のテキストを分析することがで
きる効果がある。
【0075】この発明によれば、規定値の設定を許可す
るように構成したので、利用者の要求に応じたクラスタ
リングの荒さやクラスタの結合度を設定することができ
る効果がある。
【0076】この発明によれば、重要単語抽出手段によ
り抽出された各単語間の関連性を評価し、関連度が規定
値以上の単語集合で示されるクラスタを生成するように
構成したので、予めカテゴリ辞書を作成することなく、
アンケート結果のような自由記述のテキストを分析する
ことができる効果がある。
【0077】この発明によれば、出現頻度が指定範囲内
の単語を抽出する頻出単語抽出手段から重要単語抽出手
段を構成するようにしたので、予めカテゴリ辞書を作成
することなく、アンケート結果のような自由記述のテキ
ストを分析することができる効果がある。
【0078】この発明によれば、重要単語抽出処理で抽
出された各単語間の関連性を評価し、関連度が規定値以
上の単語集合で示されるクラスタを生成するクラスタ生
成処理を記録するように構成したので、予めカテゴリ辞
書を作成することなく、アンケート結果のような自由記
述のテキストを分析することができる効果がある。
【0079】この発明によれば、出現頻度が指定範囲内
の単語を抽出する頻出単語抽出処理から重要単語抽出処
理を構成するようにしたので、予めカテゴリ辞書を作成
することなく、アンケート結果のような自由記述のテキ
ストを分析することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1によるテキストマイ
ニング装置を示す構成図である。
【図2】 テキストマイニング装置の記録媒体に記録さ
れているテキストマイニングプログラムの概略処理内容
を示すフローチャートである。
【図3】 テキストマイニングプログラムの詳細な処理
内容を示すフローチャートである。
【図4】 アンケートの具体例を示す説明図である。
【図5】 複数のアンケート結果から抽出された質問Q
2の回答内容を保存するテキストDB1の格納例を示す
説明図である。
【図6】 各単語の出現回数の集計結果を示す説明図で
ある。
【図7】 クラスタの作成状態を説明する説明図であ
る。
【図8】 クラスタリングの実行結果を示すクラスタ構
造図である。
【図9】 一般的なシソーラスを示す説明図である。
【図10】 テキストマイニングプログラムの詳細な処
理内容を示すフローチャートである。
【図11】 出来上がるクラスタを示す説明図である。
【図12】 クラスタリングの実行結果を示すクラスタ
構造図である。
【符号の説明】
1 テキストDB、2 単語辞書、3 単語切出部(単
語切出手段)、4 単語頻度集計部(集計手段)、5
クラスタリング対象選択部(頻出単語抽出手段)、6
頻出単語抽出部(頻出単語抽出手段)、7 クラスタリ
ング部(クラスタ生成手段)。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 克志 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 吉良 賢治 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B075 ND03 NR12 QM05

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 テキストから単語を切り出して、各単語
    の出現回数を集計する一方、その集計結果を参照して、
    その切り出した単語から重要度が指定範囲内の単語を抽
    出するとともに、その抽出した各単語間の関連性を評価
    して、関連度が規定値以上の単語集合で示されるクラス
    タを生成するテキストマイニング方法。
  2. 【請求項2】 重要度として単語の出現頻度を用いるこ
    とを特徴とする請求項1記載のテキストマイニング方
    法。
  3. 【請求項3】 各単語の出現回数を集計する際、同一の
    テキストに同一の単語が2以上出現する場合でも、その
    単語の当該テキストにおける出現回数を1回として集計
    することを特徴とする請求項1記載のテキストマイニン
    グ方法。
  4. 【請求項4】 各単語の出現回数を集計する際、同義語
    辞書を参照して、同義関係にある単語を1つの単語に統
    一して集計することを特徴とする請求項1記載のテキス
    トマイニング方法。
  5. 【請求項5】 各単語の出現回数を集計する際、シソー
    ラスを参照して、各単語の上位概念を検索し、その上位
    概念の出現回数を集計して、その上位概念を単語と同様
    に取り扱うことを特徴とする請求項1記載のテキストマ
    イニング方法。
  6. 【請求項6】 出現頻度が規定値以上の単語を抽出する
    際、出現頻度が高い単語から順番に抽出して、各単語間
    の関連性を評価することを特徴とする請求項1記載のテ
    キストマイニング方法。
  7. 【請求項7】 重要度が規定値以上の単語を抽出する
    際、重要度が高い単語から順番に抽出して、各単語間の
    関連性を評価することを特徴とする請求項2記載のテキ
    ストマイニング方法。
  8. 【請求項8】 共起単語のクラスタを生成する際、テキ
    ストから切り出した全ての単語の組み合わせに対するク
    ラスタ候補を生成し、要素数が最大のクラスタ候補をク
    ラスタとして生成することを特徴とする請求項1記載の
    テキストマイニング方法。
  9. 【請求項9】 規定値の設定を許可することを特徴とす
    る請求項1または請求項8記載のテキストマイニング方
    法。
  10. 【請求項10】 テキストから単語を切り出す単語切出
    手段と、上記単語切出手段により切り出された各単語の
    出現回数を集計する集計手段と、上記集計手段の集計結
    果を参照して、上記単語切出手段により切り出された単
    語から重要度が指定範囲内の単語を抽出する重要単語抽
    出手段と、上記重要単語抽出手段により抽出された各単
    語間の関連性を評価し、関連度が規定値以上の単語集合
    で示されるクラスタを生成するクラスタ生成手段とを備
    えたテキストマイニング装置。
  11. 【請求項11】 出現頻度が指定範囲内の単語を抽出す
    る頻出単語抽出手段から重要単語抽出手段を構成するこ
    とを特徴とする請求項10記載のテキストマイニング装
    置。
  12. 【請求項12】 テキストから単語を切り出す単語切出
    処理と、上記単語切出処理で切り出された各単語の出現
    回数を集計する集計処理と、その出現回数の集計結果を
    参照して、上記単語切出処理で切り出された単語から重
    要度が指定範囲内の単語を抽出する重要単語抽出処理
    と、上記重要単語抽出処理で抽出された各単語間の関連
    性を評価し、関連度が規定値以上の単語集合で示される
    クラスタを生成するクラスタ生成処理とを備えたテキス
    トマイニングプログラムが記録された記録媒体。
  13. 【請求項13】 出現頻度が指定範囲内の単語を抽出す
    る頻出単語抽出処理から重要単語抽出処理を構成するこ
    とを特徴とする請求項12記載のテキストマイニングプ
    ログラムが記録された記録媒体。
JP27306299A 1999-09-27 1999-09-27 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体 Pending JP2001101194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27306299A JP2001101194A (ja) 1999-09-27 1999-09-27 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27306299A JP2001101194A (ja) 1999-09-27 1999-09-27 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体

Publications (1)

Publication Number Publication Date
JP2001101194A true JP2001101194A (ja) 2001-04-13

Family

ID=17522629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27306299A Pending JP2001101194A (ja) 1999-09-27 1999-09-27 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体

Country Status (1)

Country Link
JP (1) JP2001101194A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058558A (ja) * 2001-08-09 2003-02-28 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム
JP2007226843A (ja) * 2007-06-14 2007-09-06 Hitachi Ltd 文書管理システム及び文書管理方法
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2009516233A (ja) * 2005-11-18 2009-04-16 マイクロソフト コーポレーション インプットデータに対するワードクラスタリング
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム
JP2011186976A (ja) * 2010-03-11 2011-09-22 Dainippon Printing Co Ltd 表記ゆれ解析装置、表記ゆれ解析方法、プログラムおよび記憶媒体
US8229956B2 (en) 2005-12-09 2012-07-24 Nec Corporation Text mining device, text mining method, and text mining program
US8380741B2 (en) 2008-08-29 2013-02-19 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
US8751531B2 (en) 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058558A (ja) * 2001-08-09 2003-02-28 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
US7398202B2 (en) 2002-12-12 2008-07-08 Honda Motor Co., Ltd. Information processing apparatus, information processing method and information processing program
WO2004053735A1 (ja) * 2002-12-12 2004-06-24 Honda Motor Co., Ltd. 情報処理装置および情報処理方法、並びに情報処理プログラム
JP2004192398A (ja) * 2002-12-12 2004-07-08 Honda Motor Co Ltd 情報処理装置および情報処理方法、並びに情報処理プログラム
EP1574968A1 (en) * 2002-12-12 2005-09-14 HONDA MOTOR CO., Ltd. Information processing device, information processing method, and information processing program
EP1574968A4 (en) * 2002-12-12 2010-03-17 Honda Motor Co Ltd INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM
JP2009516233A (ja) * 2005-11-18 2009-04-16 マイクロソフト コーポレーション インプットデータに対するワードクラスタリング
US8249871B2 (en) 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US8229956B2 (en) 2005-12-09 2012-07-24 Nec Corporation Text mining device, text mining method, and text mining program
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2007226843A (ja) * 2007-06-14 2007-09-06 Hitachi Ltd 文書管理システム及び文書管理方法
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム
US8380741B2 (en) 2008-08-29 2013-02-19 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
US8751531B2 (en) 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP2011186976A (ja) * 2010-03-11 2011-09-22 Dainippon Printing Co Ltd 表記ゆれ解析装置、表記ゆれ解析方法、プログラムおよび記憶媒体
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program
US9652526B2 (en) 2012-08-10 2017-05-16 International Business Machines Corporation Text processing method, system and computer program
US10353932B2 (en) 2012-08-10 2019-07-16 International Business Machines Corporation Text processing method, system and computer program

Similar Documents

Publication Publication Date Title
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
Kowalski et al. Information storage and retrieval systems: theory and implementation
Kiyoumarsi Evaluation of automatic text summarizations based on human summaries
US20030171914A1 (en) Method and system for retrieving information based on meaningful core word
US8478781B2 (en) Information processing apparatus, information processing method and program
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001101194A (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP3654850B2 (ja) 情報検索システム
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JPH1049543A (ja) 文書検索装置
JP4146361B2 (ja) ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
JPH11296537A (ja) 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP2000172691A (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
Litvak et al. Improving summarization quality with topic modeling
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム