JP2001101194A

JP2001101194A - テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体

Info

Publication number: JP2001101194A
Application number: JP27306299A
Authority: JP
Inventors: Yoichi Fujii; 洋一藤井; Yasuhiro Takayama; 泰博高山; Katsushi Suzuki; 克志鈴木; Kenji Kira; 賢治吉良
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-09-27
Filing date: 1999-09-27
Publication date: 2001-04-13

Abstract

(57)【要約】【課題】予め、分析対象のテキストに合わせてカテゴ
リ辞書を作成すれば、そのテキストの分析結果を提示す
ることができるが、コールセンターの問い合わせ業務の
ように日々蓄積されるデータを分析するのではなく、ア
ンケート結果の分析のように一度限りの分析を目的とす
る場合、カテゴリ辞書の作成がコスト的に見合わない課
題があった。【解決手段】各単語の出現回数の集計結果を参照し
て、切り出した単語から出現頻度が規定値以上の単語を
抽出し、その抽出した各単語間の関連性を評価して、関
連度が規定値以上の共起単語のクラスタを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、例えば、アンケ
ートの設問事項に対して自由に記述された回答の内容を
分析して分類するテキストマイニング方法、テキストマ
イニング装置及びテキストマイニングプログラムが記録
された記録媒体に関するものである。

【０００２】

【従来の技術】従来のテキストマイニング方法は、「テ
キストマイニング」（文献：情報処理学会誌Ｖｏｌ．
４０Ｎｏ．４ＰＰ．３５８〜３６４)にも開示され
ているように、予め、単語をその概念や意図に対応付け
るカテゴリ辞書を用意する。そして、上記カテゴリ辞書
を利用してテキストデータを解析し、カテゴリやカテゴ
リの組合わせをテキストデータ中の文と対応付け、これ
らのカテゴリやカテゴリの組合わせを集計する。そし
て、時間的な流れの変化や、地域特性などの切り口で集
計結果を提示することにより、テキストデータの分析を
行うようにしている。

【０００３】具体的には、例えば、「Ｗｉｎ９８を入れ
たら起動が早い。」というような文章の分析を行う場
合、予め、「Ｗｉｎｄｏｗｓ９８（ソフトウェア）」、
「入れる（動作）」、「起動（動作）」、「早い（好
評）」などの上位概念と、「Ｗｉｎ９８」と「Ｗｉｎｄ
ｏｗｓ９８」が同義語であることを示す情報をカテゴリ
辞書に登録する。そして、カテゴリ辞書を参照して、上
記の文章から「Ｗｉｎｄｏｗｓ９８（ソフトウェ
ア）」、「入れる（動作）」、「起動（動作）」、「早
い（好評）」、「Ｗｉｎｄｏｗｓ９８…入れる（ソフト
ウェア…動作）」、「起動する…早い（動作…好評）」
などの概念を抽出し、その概念の集計結果を提示する。

【０００４】

【発明が解決しようとする課題】従来のテキストマイニ
ング方法は以上のように構成されているので、予め、分
析対象のテキストに合わせてカテゴリ辞書を作成すれ
ば、そのテキストの分析結果を提示することができる。
しかし、コールセンターの問い合わせ業務のように日々
蓄積されるデータを分析するのではなく、アンケート結
果の分析のように一度限りの分析を目的とする場合、カ
テゴリ辞書の作成がコスト的に見合わないという課題が
あった。また、予め分析対象の内容が想定される場合に
は、カテゴリ辞書を作成することができるが、アンケー
トの自由記述欄のように、解答者が何を答えてくるか分
からないような場合には、予めカテゴリ辞書を作成して
用意することが困難であるという課題もあった。

【０００５】この発明は上記のような課題を解決するた
めになされたもので、予めカテゴリ辞書を作成すること
なく、アンケート結果のような自由記述のテキストを分
析することができるテキストマイニング方法、テキスト
マイニング装置及びテキストマイニングプログラムが記
録された記録媒体を得ることを目的とする。

【０００６】

【課題を解決するための手段】この発明に係るテキスト
マイニング方法は、各単語の出現回数の集計結果を参照
して、切り出した単語から重要度が指定範囲内の単語を
抽出し、その抽出した各単語間の関連性を評価して、関
連度が規定値以上の単語集合で示されるクラスタを生成
するようにしたものである。

【０００７】この発明に係るテキストマイニング方法
は、重要度として単語の出現頻度を用いるようにしたも
のである。

【０００８】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、同一のテキストに
同一の単語が２以上出現する場合でも、その単語の当該
テキストにおける出現回数を１回として集計するように
したものである。

【０００９】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、同義語辞書を参照
して、同義関係にある単語を１つの単語に統一して集計
するようにしたものである。

【００１０】この発明に係るテキストマイニング方法
は、各単語の出現回数を集計する際、シソーラスを参照
して、各単語の上位概念を検索し、その上位概念の出現
回数を集計して、その上位概念を単語と同様に取り扱う
ようにしたものである。

【００１１】この発明に係るテキストマイニング方法
は、出現頻度が規定値以上の単語を抽出する際、出現頻
度が高い単語から順番に抽出して、各単語間の関連性を
評価するようにしたものである。

【００１２】この発明に係るテキストマイニング方法
は、重要度が規定値以上の単語を抽出する際、重要度が
高い単語から順番に抽出して、各単語間の関連性を評価
するようにしたものである。

【００１３】この発明に係るテキストマイニング方法
は、共起単語のクラスタを生成する際、テキストから切
り出した全ての単語の組み合わせに対するクラスタ候補
を生成し、要素数が最大のクラスタ候補をクラスタとし
て生成するようにしたものである。

【００１４】この発明に係るテキストマイニング方法
は、規定値の設定を許可するようにしたものである。

【００１５】この発明に係るテキストマイニング装置
は、重要単語抽出手段により抽出された各単語間の関連
性を評価し、関連度が規定値以上の単語集合で示される
クラスタを生成するようにしたものである。

【００１６】この発明に係るテキストマイニング装置
は、出現頻度が指定範囲内の単語を抽出する頻出単語抽
出手段から重要単語抽出手段を構成するようにしたもの
である。

【００１７】この発明に係るテキストマイニングプログ
ラムが記録された記録媒体は、重要単語抽出処理で抽出
された各単語間の関連性を評価し、関連度が規定値以上
の単語集合で示されるクラスタを生成するクラスタ生成
処理を記録したものである。

【００１８】この発明に係るテキストマイニングプログ
ラムが記録された記録媒体は、出現頻度が指定範囲内の
単語を抽出する頻出単語抽出処理から重要単語抽出処理
を構成するようにしたものである。

【００１９】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１によるテ
キストマイニング装置を示す構成図であり、図におい
て、１はアンケート結果などの自由記述されたテキスト
を保存するとともに、単語切出部３により切り出された
単語を格納するテキストデータベース（以下、テキスト
ＤＢという）、２は単語切出部３が単語の切り出し処理
に使用する単語辞書である。

【００２０】３はテキストＤＢ１に保存されているテキ
ストから単語を切り出す単語切出部（単語切出手段）、
４は単語切出部３により切り出された各単語の出現回数
を集計する単語頻度集計部（集計手段）、５はクラスタ
リング対象を選択するクラスタリング対象選択部、６は
単語頻度集計部４の集計結果を参照して、クラスタリン
グ対象選択部５により選択されたクラスタリング対象の
単語から出現頻度が規定値以上の単語を抽出する頻出単
語抽出部、７は頻出単語抽出部６により抽出された各単
語間の関連性を評価し、関連度が規定値以上の共起単語
のクラスタを生成するクラスタリング部（クラスタ生成
手段）である。なお、クラスタリング対象選択部５及び
頻出単語抽出部６から頻出単語抽出手段が構成されてい
る。

【００２１】図２はテキストマイニング装置の記録媒体
に記録されているテキストマイニングプログラムの概略
処理内容を示すフローチャートであり、図３はテキスト
マイニングプログラムの詳細な処理内容を示すフローチ
ャートである。図４はアンケートの具体例を示す説明図
であり、Ｑ２が自由記述の回答を求める質問であり、Ａ
２が質問Ｑ２の回答である。図５は複数のアンケート結
果から抽出された質問Ｑ２の回答内容を保存するテキス
トＤＢ１の格納例を示す説明図である。図５の例では、
図４に示す回答Ａ２はアンケート番号“１”に格納され
ている。図６は各単語の出現回数の集計結果を示す説明
図であり、この集計結果はテキストＤＢ１に格納され
る。

【００２２】次に動作について説明する。この実施の形
態１では、図４のアンケートの質問Ｑ２に対する回答内
容に関してテキストマイニングを行うものとする。後述
の処理により入力テキスト集合を階層的に分割してクラ
スタを順次生成し、最終的には各クラスタに含まれるテ
キスト集合が親クラスタに含まれるテキスト集合の部分
集合となるような、階層的に詳細化するクラスタの木構
造を生成することにより、入力テキスト集合から有用な
情報を抽出するテキストマイニングを行う。

【００２３】まず、単語切出部３は、テキストＤＢ１に
格納されているテキスト（図５の例では、２０００個の
テキストが格納されている）、即ち、質問Ｑ２の回答内
容から単語を切り出す処理を実行する（ステップＳＴ
１）。具体的には、単語辞書２を参照して、文の解析に
利用される形態素解析を実行し、文章から名詞、動詞や
形容詞などの自立語とその活用形、および助詞や助動詞
などの付属語とその活用形などを特定することにより、
テキストから単語を切り出すようにする。

【００２４】単語頻度集計部４は、単語切出部３がテキ
ストから単語を切り出すと、各単語毎に出現回数を集計
し（ステップＳＴ２）、アンケート番号と対応付けてテ
キストＤＢ１に格納する。例えば、アンケート番号
“１”に格納されている回答Ａ２の場合、図６に示すよ
うに、「メモリ」、「イメージ」、「増設」、「処
理」、「使う」、「遅い」の単語がそれぞれ１回ずつカ
ウントされている。

【００２５】このようにして、単語頻度集計部４がテキ
ストＤＢ１に格納されている全てのテキストを対象とす
る単語の出現回数の集計処理を終了すると（図６を参
照）、図２のステップＳＴ３に進む。以下、ステップＳ
Ｔ３の内容を図３を参照しつつ説明する。クラスタリン
グ対象選択部５はクラスタの番号を示す変数ｉを“０”
に初期化するとともに、次に生成するクラスタの番号を
示す変数ｓを“１”に初期化する（ステップＳＴ１１，
ＳＴ１２）。ここでは、ｉ＝０，ｓ＝１なので、ステッ
プＳＴ１１からステップＳＴ１２に進み、クラスタリン
グ対象としてＣ₀が設定される。

【００２６】頻出単語抽出部６は、クラスタリング対象
選択部５がクラスタリング対象を選択すると、単語頻度
集計部４の集計結果を参照して、クラスタリング対象で
あるＣ_iの要素であるテキスト中に出現する単語から出
現頻度が規定値以上の単語を抽出する（ステップＳＴ
４）。具体的には、まず、下記の処理を実行するための
一時変数Ｃ_tmpにクラスタリング対象であるＣ_iを設定
する（ステップＳＴ１３）。ここでは、Ｃ₀がクラスタ
リング対象であるので、Ｃ_tmpにはＣ₀が設定される。

【００２７】そして、Ｃ_tmpの要素である単語を出現回
数が多い順に並べ換える処理を実行する（ステップＳＴ
１４）。図６の集計結果では、Ｃ_tmpにＣ₀が設定され
た場合、「処理、遅い、使う、メモリ、増設、不足、イ
メージ、．．．」の順番で単語が並べられる。ただし、
単語を並べ換える際、全てのテキストに対して共通に含
まれる単語は、特徴的な意味を持たないと考えられるの
で、並べ換える単語の対象から除外する。

【００２８】次に、出現頻度が規定値以上の単語を抽出
するため、出現回数が最大の単語、即ち、出現回数が
“２１３”の「処理」に対して、一定割合α以上、出現
している単語を抽出する（ステップＳＴ１５）。例え
ば、α＝０．１とすると、２２回以上出現する単語が抽
出対象になるので、「イメージ」が抽出対象から脱落
し、「処理、遅い、使う、メモリ、増設、不足」までを
抽出する。

【００２９】クラスタリング部７は、頻出単語抽出部６
が高頻度の単語を抽出すると、各単語間の関連性を評価
し、関連度が規定値以上の単語集合で示されるクラスタ
を生成する（ステップＳＴ５）。具体的には、まず、頻
出単語抽出部６により抽出された単語の部分集合を特定
する変数ｊおよびｋをそれぞれｊ＝１，ｋ＝ｊ＋１とし
て初期化する。また、頻出単語抽出部６により抽出され
た単語の個数を示す定数Ｇを設定する（上記の例では、
６個の単語が抽出されているので、Ｇ＝６を設定す
る）。なお、Ｇ＝６に設定された場合、初期段階では、
ｊ＝１であるので、ステップＳＴ１６の条件が成立し、
ステップＳＴ１７の処理に移行する。

【００３０】そして、ステップＳＴ１６の条件が成立す
ると、高頻度の単語を１ずつ追加しながら、以下の評価
関数を計算することにより、関連度が規定値以上となる
単語集合を検索する。ただし、この実施の形態１では、
βの値を０．５とする。なお、式（１）の評価関数を満
足する単語集合は互いに関連度が低く評価され、式
（１）の評価関数を満足しない単語集合は互いに関連度
が高いと評価される。

【００３１】＃Ｉ（｛Ｗ_j，...，Ｗ_k｝，Ｃ_tmp）／＃Ｕ（｛Ｗ_j，...，Ｗ_k｝，Ｃ_tmp）＜β …（１）ただし、Ｉ（｛Ｗ_j，．．．，Ｗ_k｝，Ｃ_tmp）はＷ_j〜Ｗ_kの単
語の全てを含むアンケートの集合Ｕ（｛Ｗ_j，．．．，Ｗ_k｝，Ｃ_tmp）はＷ_j〜Ｗ_kの単
語の何れかを含むアンケートの集合＃は集合の要素数とする。

【００３２】まず、出現回数が最大の単語である「処
理」に対する他の単語の関連度を評価する。ここでは、
ｊ＝１，ｋ＝２であるので、「処理」と「遅い」の関連
度を評価する。

【００３３】例えば、＃Ｉ（｛処理，遅い｝，Ｃ_tmp）
＝８０とすると（ここでの“８０”は、２０００個の回
答内容のうち、８０個の回答内容に「処理」と「遅い」
の両方の単語が含まれていたことを示す）、下記に示す
ように、「処理」と「遅い」の関連度は“０．２７”と
なり、式（１）を満たす。＃Ｉ（｛処理，遅い｝，Ｃ_tmp）／＃Ｕ（｛処理，遅い｝，Ｃ_tmp）＝８０／（２１３＋１５６−８０）＝０．２７

【００３４】従って、「処理」と「遅い」は共に高頻度
の単語ではあるが、相互の関連度が低いと判断され（同
じテキスト中に出現する可能性が低い）、ステップＳＴ
１８の処理に移行する。この段階では、ｊ＝１，ｋ＝２
であるので、ステップＳＴ１８の条件が成立せず、再
度、ステップＳＴ１６の処理に戻る。即ち、この段階で
は、単語集合が検出されていないので、変数ｊの値に
“１”を加えた値をｋに代入して、ステップＳＴ１６の
処理に戻る。

【００３５】ステップＳＴ１６では、相変わらず変数ｊ
が定数Ｇと一致せず、条件が成立するので、ステップＳ
Ｔ１７の処理に進むが、今度はｊ＝２であるので、出現
回数が２番目に多い単語である「遅い」に対する他の単
語の関連度を評価する。従って、「処理」に対する他の
単語の関連度と同様に、「遅い」に対する他の単語の関
連度を評価するが、ここでは、説明の便宜上、「遅い」
と関連度が高い単語が検出されず、また、次の「使う」
と関連度が高い単語も検出されないものとする。

【００３６】そこで、「メモリ」に対する「増設」の関
連度の評価から説明を再開する（ｊ＝４，ｋ＝５の場
合）。例えば、＃Ｉ（｛メモリ，増設｝，Ｃ_tmp）＝５
５とすると（ここでの“５５”は、２０００個の回答内
容のうち、５５個の回答内容に「メモリ」と「増設」の
単語が含まれていたことを示す）、下記に示すように、
「メモリ」と「増設」の関連度は“０．５０９”とな
り、数式（１）を満足しない。＃Ｉ（｛メモリ，増設｝，Ｃ_tmp）／＃Ｕ（｛メモリ，増設｝，Ｃ_tmp）＝５５／（８７＋７６−５５）＝０．５０９

【００３７】従って、「メモリ」と「増設」は、相互の
関連度が高いと判断され（同じテキスト中に出現する可
能性が高い）、変数ｋをインクリメントした後、ステッ
プＳＴ１６の処理に戻る。また、この段階では、相変わ
らず変数ｊが定数Ｇと一致せず、ステップＳＴ１６の条
件が成立するので、ステップＳＴ１７の処理に進む。

【００３８】これにより、今度は、ｊ＝４，ｋ＝６とな
るので、「メモリ」と「増設」の他に、単語「不足」を
追加して、これら３個の単語の関連度を評価する。例え
ば、＃Ｉ（｛メモリ，増設，不足｝，Ｃ_tmp）＝１７と
し、（ここでの“１７”は、２０００個の回答内容のう
ち、１７個の回答内容に関して「メモリ」と「増設」と
「不足」の単語が含まれていたことを示す）、さらに、
♯Ｉ（｛メモリ，不足｝，Ｃ_tmp）＝２０、＃Ｉ（｛増
設，不足｝，Ｃ_tmp）＝１８とすると、以下に示すよう
に、「メモリ」と「増設」と「不足」の関連度は“０．
１５５”となり、数式（１）を満足する。＃Ｉ（｛メモリ，増設，不足｝，Ｃ_tmp）／＃Ｕ（｛メモリ，増設，不足｝，Ｃ_tmp）＝１７／（８７＋７６＋２２−５５−２０−１８＋１７）＝０．１５５

【００３９】従って、「メモリ」と「増設」と「不足」
は、相互の関連度が低いと判断され、ステップＳＴ１８
の処理に移行する。この段階では、ｊ＝４，ｋ＝６であ
るので、ステップＳＴ１８の条件が成立し、ステップＳ
Ｔ１９の処理に移行する。そして、ステップＳＴ１９で
は、「メモリ」と「増設」の関連度が高いと判断されて
いるので、「メモリ」と「増設」を要素とするクラスタ
Ｃ_s（ｓ＝１であるので、クラスタＣ₁）を生成し、ク
ラスタＣ₀の子クラスタとする。

【００４０】次に、クラスタリング部７は、前回のクラ
スタリング対象Ｃ_tmp（＝Ｃ₀）からクラスタＣ₁を削
除した部分を次のクラスタリング対象Ｃ_tmpに設定する
（ステップＳＴ２０）。ここで、図７はクラスタＣ₀に
対して単語「メモリ」、「増設」を要素とするクラスタ
Ｃ₁が子クラスタとして作成され、Ｃ_tmpとしてＣ₀−
Ｃ₁が新たに設定される様子を示している。

【００４１】さらに、クラスタリング部７は、クラスタ
リングの処理を継続する。即ち、処理をステップＳＴ１
４に移行し、単語の頻度集計を実施する処理から再帰的
に処理を繰り返す。具体的には、単語「メモリ」と「増
設」を含むアンケートの回答内容を取り除くＣ_tmpに対
して単語の頻度を集計する。この場合、高頻度の単語
は、「処理、遅い、使う、不足、．．．」といった「メ
モリ、増設」を除いた単語になるが、各単語の頻度は、
クラスタＣ₁に出現した単語が除外されるため小さくな
る。従って、ステップＳＴ１５におけるｍａｘの値が小
さくなるとともに、ステップＳＴ１５で選択される単語
は、頻度がより低い単語も選択されることになる。

【００４２】なお、ステップＳＴ１４〜ＳＴ２０の処理
を繰り返すと、ステップＳＴ１５で抽出する単語が１個
になるか、あるいは、単語の組合わせが存在しなくなる
（ステップＳＴ１６において、ｊがＧに等しくなる）。
そこで、処理はステップＳＴ２１に移行し、クラスタＣ
_iとＣ_tmpが一致しない場合には、子クラスタを新たに
生成することができなかったので、クラスタリング対象
であるＣ_tmpをクラスタＣ_iの子クラスタ「その他」と
して設定する（ステップＳＴ２２）。さらに、変数ｉを
カウントアップした後、ステップＳＴ１１に戻って、先
に生成したクラスタをさらに細分する処理を続行する。
このようにステップＳＴ１１〜ＳＴ２２の処理を繰り返
すことにより、階層的に分類が為される。最後にどのク
ラスタについても、それ以上分類できなくなる（ステッ
プＳＴ１１で変数ｉが変数ｓに等しくなる）と処理を終
了する。

【００４３】以上説明した処理により、高頻度で関連性
が高い単語をひと固まりとするクラスタを順次作成する
ことが可能となる。図８は上記のクラスタリングの実行
結果を示すクラスタ構造図である。Ｃ₀（全体）に対し
て３つのクラスタがＣ₁（メモリ、増設）、Ｃ₂（プリ
ンタ、印刷）、Ｃ₃（その他）が子クラスタとして生成
され、クラスタＣ₁に対して、Ｃ₄（処理、遅い）、Ｃ
₅（メモリ、不足）、Ｃ₆（その他）のクラスタが生成
されたことを示している。従って、図８のクラスタ構造
が提示されれば、アンケート結果の傾向を大まかに捕ま
えることができる。

【００４４】以上で明らかなように、この実施の形態１
によれば、各単語の出現回数の集計結果を参照して、切
り出した単語から出現頻度が規定値以上の単語を抽出
し、その抽出した各単語間の関連性を評価して、関連度
が規定値以上の共起単語のクラスタを生成するように構
成したので、予めカテゴリ辞書を作成することなく、ア
ンケート結果のような自由記述のテキストを分析するこ
とができる効果がある。

【００４５】実施の形態２．上記実施の形態１では、切
り出した単語から出現頻度が規定値以上の単語を抽出す
るものについて示したが、切り出した単語から重要度が
規定値以上の単語を抽出するようにしてもよく、上記実
施の形態１と同様の効果を奏する。

【００４６】即ち、統計的手法による文書検索や、文書
自動分類を実施する際に一般的に利用されるＴＦ・ＩＤ
Ｆやχ二乗検定を応用した方法を用いて、単語の重み付
けによりテキストに対する重み計算を実施する。その
後、単語毎に全文書の重みを足し合わせた値を単語の重
要度と位置付けて、単語の重要度を計算する。そして、
重要度が規定値以上の単語のうち、重要度が高い単語か
ら順番に抽出して、各単語間の関連性を評価するように
する。

【００４７】実施の形態３．上記実施の形態１では、単
語切出部３がテキストから単語を切り出すと、各単語毎
に出現回数を集計し、アンケート番号と対応付けてテキ
ストＤＢ１に格納するものについて示したが（例えば、
同一のテキストに同一の単語が３回出現する場合、その
単語の当該テキストにおける出現回数を３回とする）、
同一のテキストに同一の単語が２以上出現する場合で
も、その単語の当該テキストにおける出現回数を１回と
して集計するようにしてもよい。即ち、任意のテキスト
に１回でも出現すれば、その単語の出現回数を“１”と
し、１回も出現しなければ、その単語の出現回数を
“０”とするようにしてもよい。

【００４８】アンケート結果は一般的に短文であるた
め、同一の単語が２以上出現する確率が低いので、正確
に出現回数をカウントしなくても、クラスタリング精度
に大きな影響を与えることがない。一方、上記のよう
に、出現回数のカウントを簡略化することにより、クラ
スタリング処理が簡略化され、処理速度が向上する効果
が得られる。

【００４９】実施の形態４．上記実施の形態１では、単
語の出現回数を集計する際、単語辞書２のみを参照する
ものについて示したが、同義語辞書を参照して、同義関
係にある単語を１つの単語に統一して集計するようにし
てもよい。

【００５０】即ち、一般的な同義語辞書を参照し、例え
ば、「赤」と「レッド」などの同義語に対して、「レッ
ド」を「赤」という単語に置き換えして処理することに
より、表記の揺れを吸収するようにしてもよい。

【００５１】実施の形態５．上記実施の形態１では、単
語の出現回数を集計する際、単語辞書２のみを参照する
ものについて示したが、シソーラスを参照して、各単語
の上位概念を検索し、その上位概念の出現回数を集計し
て、その上位概念を単語と同様に取り扱うようにしても
よい。

【００５２】即ち、図９に示すような一般のシソーラス
を参照して、例えば、「赤」や「青」などの具体的な色
の表現の上位概念として、概念＜色＞を検索する。そし
て、ステップＳＴ２における単語頻度集計処理の処理対
象に、切り出された単語として概念＜色＞を追加し、最
初に概念＜色＞をもつクラスタを生成するようにする。
その後、概念＜色＞をもつクラスタに対して、さらに具
体的な「赤」や「青」などの子クラスタを生成する。こ
れにより、概念の階層が明確化され、テキストの分析が
一層容易になる効果を奏する。

【００５３】実施の形態６．上記実施の形態１では、高
頻度の単語から順番に抽出して、クラスタリング処理を
実施するものについて示したが、テキストから切り出し
た単語の組み合わせ全てに対するクラスタ候補を生成
し、要素数が最大のクラスタ候補をクラスタとして生成
するようにしてもよい。

【００５４】即ち、評価関数である数式（１）の単語選
択をステップＳＴ３におけるクラスタリング対象選択処
理で抽出した全ての単語に対して総当たりで実施し、ク
ラスタの要素数が最も大きなクラスタから子クラスタを
生成するようにしてもよい。

【００５５】実施の形態７．上記実施の形態１では、規
定値を示すパラメータとして固定値のα、βを使用する
ものについて示したが、利用者に対してパラメータ設定
のインタフェースを提供することにより、α、βの変更
を許可し、クラスタリングの荒さや、クラスタの結合度
を変更するようにしてもよい。

【００５６】実施の形態８．上記実施の形態１では、子
クラスタを和集合で定義するもの、即ち、ステップＳＴ
１９において、Ｃ_s＝Ｕ（｛Ｗ_j，．．．，Ｗ_k-1｝，
Ｃ_tmp）として、Ｃ _sをＣ_iの子クラスタとするものに
ついて示したが、子クラスタを積集合で定義する（Ｃ_s
＝Ｉ（｛Ｗ_j，．．．，Ｗ_k-1｝，Ｃ_tmp）で定義す
る）ようにしてもよい。

【００５７】実施の形態９．上記実施の形態１では、排
他的なクラスタを生成するものについて示したが、この
実施の形態９では、重なりを許すクラスタリングについ
て図１０を用いて説明する。

【００５８】ステップＳＴ３１，ＳＴ３２では、図３の
ステップＳＴ１４，ＳＴ１５と同様に、クラスタリング
に利用する単語を選択する。ステップＳＴ３３では、ス
テップＳＴ３２で選択した単語Ｗ₁〜Ｗ_Gに対して、そ
の単語が既にクラスタリングに使用されたか否かを判断
するためのフラグｆｌｇ₁〜ｆｌｇ_Gを用意し、全ての
フラグを０（０は未使用を示す）に初期化する。さら
に、クラスを表現する単語集合Ｓ₀を｛｝（｛｝は空集
合を示す）に初期化し、パラメータｊ，ｋ，ｔを１、ｍ
を０で初期化する。

【００５９】次に、ステップＳＴ３４では、ｊ≦Ｇをチ
ェックすることにより、ステップＳＴ３２で選択された
全ての単語を処理済みか否かを判断する。全ての単語を
処理している場合には、ステップＳＴ４５において、生
成したクラスタからクラスタの階層構造を生成する（詳
細は後述する）。ステップＳＴ３４からステップＳＴ４
４を経由するループ処理は、単語集合の先頭要素Ｗ_ｊ
を順次変更しつつステップＳＴ３８の条件を満たさない
（すなわちクラスタとなりうる）単語集合を見つけるた
め試行を繰り返すことを示している。

【００６０】最初の段階では、ステップＳＴ３３からス
テップＳＴ３６の処理に進み、ｆｌｇ₁＝０であるため
単語Ｗ₁を選択し、ステップＳＴ３７において、ｍ＝
１，Ｓ ₁＝｛Ｗ₁｝となる。続いて、ステップＳＴ３８
の条件を満足しない場合には、ステップＳＴ３９の処理
に進み、ｆｌｇ₁を１にセットし、ステップＳＴ３６の
処理に戻る。また、ステップＳＴ３８の条件を満足する
場合にも、ステップＳＴ４０の条件を満足する場合（単
語Ｗ_k+1〜Ｗ_Gが存在する場合）には、ステップＳＴ３
６の処理に戻る。

【００６１】これにより、ステップＳＴ３６〜ＳＴ４０
において、ステップＳＴ３８の条件を満足する単語集合
Ｓ₀〜Ｓ_mが作成される。この場合、＃Ｉ（Ｓ_m-1，Ｃ
₀）／＃Ｕ（Ｓ_m-1，Ｃ₀）≧βと、＃Ｉ（Ｓ_m，
Ｃ₀）／＃Ｕ（Ｓ_m，Ｃ₀）＜βとが成立する。

【００６２】ステップＳＴ４１では、ｍ≧３をチェック
する。これは、Ｓ_mの要素数がｍに等しいため、Ｓ_mの
要素数が３個以上であるか否かをチェックすることと等
価である。次に、ステップＳＴ４２では、Ｓ_m-1に対し
てクラスタを生成するので、その結果として、２語以上
の単語の積集合がクラスタとして生成されることにな
る。

【００６３】ステップＳＴ４２でクラスタを作成する
と、ステップＳＴ４３でｍを１減らし、ｔを１増やし
て、ステップＳＴ３５の処理に戻る。これにより、ｔを
１増やしながら、クラスタを作成可能な単語の集合を求
めることになる。さらに、ステップＳＴ３５で最後の単
語Ｗ_Gまで処理した時点で、ｍを０にセットし、処理対
象の単語の開始位置ｊを１増やして、再帰的に処理を行
う。なお、図１０においては使用有無を示すフラグ情報
ｆｌｇによる判定処理をステップＳＴ３６において行っ
ているが、単語の再使用を禁じる処理に対する例外とな
る単語をあらかじめ指定しておくことにより、一部の単
語を複数のクラスタにおいて使用するように構成しても
よい。

【００６４】最後に出来上がるクラスタは図１１のよう
になる。これらの単語は、ステップＳＴ３１で高頻度順
に並べられた単語の順番になっている。ステップＳＴ４
５では、これらのクラスタに対して、共通する単語をグ
ループ化して階層化し、図１２に示すような階層的なク
ラスタリング結果を生成する。

【００６５】実施の形態１０．上記実施の形態１では、
クラスタリングの評価関数として、積集合と和集合の比
を利用するものについて示したが、相互情報量（２）を
用いる評価式（３）と評価式（４）を利用するようにし
てもよい。即ち、評価式（１）を評価式（３），（４）
に置き換えて処理するようにしてもよい（評価式
（３），（４）の双方が成立したとき、評価式が成立し
たものとする）。

【００６６】

【数１】

【００６７】

【発明の効果】以上のように、この発明によれば、各単
語の出現回数の集計結果を参照して、切り出した単語か
ら重要度が指定範囲内の単語を抽出し、その抽出した各
単語間の関連性を評価して、関連度が規定値以上の単語
集合で示されるクラスタを生成するように構成したの
で、予めカテゴリ辞書を作成することなく、アンケート
結果のような自由記述のテキストを分析することができ
る効果がある。

【００６８】この発明によれば、重要度として単語の出
現頻度を用いるように構成したので、予めカテゴリ辞書
を作成することなく、アンケート結果のような自由記述
のテキストを分析することができる効果がある。

【００６９】この発明によれば、各単語の出現回数を集
計する際、同一のテキストに同一の単語が２以上出現す
る場合でも、その単語の当該テキストにおける出現回数
を１回として集計するように構成したので、クラスタリ
ング処理が簡略化され、処理速度が向上する効果があ
る。

【００７０】この発明によれば、各単語の出現回数を集
計する際、同義語辞書を参照して、同義関係にある単語
を１つの単語に統一して集計するように構成したので、
表記の揺れを吸収することができる効果がある。

【００７１】この発明によれば、各単語の出現回数を集
計する際、シソーラスを参照して、各単語の上位概念を
検索し、その上位概念の出現回数を集計して、その上位
概念を単語と同様に取り扱うように構成したので、概念
の階層が明確化され、テキストの分析が一層容易になる
効果がある。

【００７２】この発明によれば、出現頻度が規定値以上
の単語を抽出する際、出現頻度が高い単語から順番に抽
出して、各単語間の関連性を評価するように構成したの
で、各単語間の関連性を的確に評価することができる効
果がある。

【００７３】この発明によれば、重要度が規定値以上の
単語を抽出する際、重要度が高い単語から順番に抽出し
て、各単語間の関連性を評価するように構成したので、
各単語間の関連性を的確に評価することができる効果が
ある。

【００７４】この発明によれば、共起単語のクラスタを
生成する際、テキストから切り出した全ての単語の組み
合わせに対するクラスタ候補を生成し、要素数が最大の
クラスタ候補をクラスタとして生成するように構成した
ので、予めカテゴリ辞書を作成することなく、アンケー
ト結果のような自由記述のテキストを分析することがで
きる効果がある。

【００７５】この発明によれば、規定値の設定を許可す
るように構成したので、利用者の要求に応じたクラスタ
リングの荒さやクラスタの結合度を設定することができ
る効果がある。

【００７６】この発明によれば、重要単語抽出手段によ
り抽出された各単語間の関連性を評価し、関連度が規定
値以上の単語集合で示されるクラスタを生成するように
構成したので、予めカテゴリ辞書を作成することなく、
アンケート結果のような自由記述のテキストを分析する
ことができる効果がある。

【００７７】この発明によれば、出現頻度が指定範囲内
の単語を抽出する頻出単語抽出手段から重要単語抽出手
段を構成するようにしたので、予めカテゴリ辞書を作成
することなく、アンケート結果のような自由記述のテキ
ストを分析することができる効果がある。

【００７８】この発明によれば、重要単語抽出処理で抽
出された各単語間の関連性を評価し、関連度が規定値以
上の単語集合で示されるクラスタを生成するクラスタ生
成処理を記録するように構成したので、予めカテゴリ辞
書を作成することなく、アンケート結果のような自由記
述のテキストを分析することができる効果がある。

【００７９】この発明によれば、出現頻度が指定範囲内
の単語を抽出する頻出単語抽出処理から重要単語抽出処
理を構成するようにしたので、予めカテゴリ辞書を作成
することなく、アンケート結果のような自由記述のテキ
ストを分析することができる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１によるテキストマイ
ニング装置を示す構成図である。

【図２】テキストマイニング装置の記録媒体に記録さ
れているテキストマイニングプログラムの概略処理内容
を示すフローチャートである。

【図３】テキストマイニングプログラムの詳細な処理
内容を示すフローチャートである。

【図４】アンケートの具体例を示す説明図である。

【図５】複数のアンケート結果から抽出された質問Ｑ
２の回答内容を保存するテキストＤＢ１の格納例を示す
説明図である。

【図６】各単語の出現回数の集計結果を示す説明図で
ある。

【図７】クラスタの作成状態を説明する説明図であ
る。

【図８】クラスタリングの実行結果を示すクラスタ構
造図である。

【図９】一般的なシソーラスを示す説明図である。

【図１０】テキストマイニングプログラムの詳細な処
理内容を示すフローチャートである。

【図１１】出来上がるクラスタを示す説明図である。

【図１２】クラスタリングの実行結果を示すクラスタ
構造図である。

【符号の説明】

１テキストＤＢ、２単語辞書、３単語切出部（単
語切出手段）、４単語頻度集計部（集計手段）、５
クラスタリング対象選択部（頻出単語抽出手段）、６
頻出単語抽出部（頻出単語抽出手段）、７クラスタリ
ング部（クラスタ生成手段）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者鈴木克志東京都千代田区丸の内二丁目２番３号三菱電機株式会社内 (72)発明者吉良賢治東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5B075 ND03 NR12 QM05

Claims

【特許請求の範囲】

【請求項１】テキストから単語を切り出して、各単語
の出現回数を集計する一方、その集計結果を参照して、
その切り出した単語から重要度が指定範囲内の単語を抽
出するとともに、その抽出した各単語間の関連性を評価
して、関連度が規定値以上の単語集合で示されるクラス
タを生成するテキストマイニング方法。
【請求項２】重要度として単語の出現頻度を用いるこ
とを特徴とする請求項１記載のテキストマイニング方
法。
【請求項３】各単語の出現回数を集計する際、同一の
テキストに同一の単語が２以上出現する場合でも、その
単語の当該テキストにおける出現回数を１回として集計
することを特徴とする請求項１記載のテキストマイニン
グ方法。
【請求項４】各単語の出現回数を集計する際、同義語
辞書を参照して、同義関係にある単語を１つの単語に統
一して集計することを特徴とする請求項１記載のテキス
トマイニング方法。
【請求項５】各単語の出現回数を集計する際、シソー
ラスを参照して、各単語の上位概念を検索し、その上位
概念の出現回数を集計して、その上位概念を単語と同様
に取り扱うことを特徴とする請求項１記載のテキストマ
イニング方法。
【請求項６】出現頻度が規定値以上の単語を抽出する
際、出現頻度が高い単語から順番に抽出して、各単語間
の関連性を評価することを特徴とする請求項１記載のテ
キストマイニング方法。
【請求項７】重要度が規定値以上の単語を抽出する
際、重要度が高い単語から順番に抽出して、各単語間の
関連性を評価することを特徴とする請求項２記載のテキ
ストマイニング方法。
【請求項８】共起単語のクラスタを生成する際、テキ
ストから切り出した全ての単語の組み合わせに対するク
ラスタ候補を生成し、要素数が最大のクラスタ候補をク
ラスタとして生成することを特徴とする請求項１記載の
テキストマイニング方法。
【請求項９】規定値の設定を許可することを特徴とす
る請求項１または請求項８記載のテキストマイニング方
法。
【請求項１０】テキストから単語を切り出す単語切出
手段と、上記単語切出手段により切り出された各単語の
出現回数を集計する集計手段と、上記集計手段の集計結
果を参照して、上記単語切出手段により切り出された単
語から重要度が指定範囲内の単語を抽出する重要単語抽
出手段と、上記重要単語抽出手段により抽出された各単
語間の関連性を評価し、関連度が規定値以上の単語集合
で示されるクラスタを生成するクラスタ生成手段とを備
えたテキストマイニング装置。
【請求項１１】出現頻度が指定範囲内の単語を抽出す
る頻出単語抽出手段から重要単語抽出手段を構成するこ
とを特徴とする請求項１０記載のテキストマイニング装
置。
【請求項１２】テキストから単語を切り出す単語切出
処理と、上記単語切出処理で切り出された各単語の出現
回数を集計する集計処理と、その出現回数の集計結果を
参照して、上記単語切出処理で切り出された単語から重
要度が指定範囲内の単語を抽出する重要単語抽出処理
と、上記重要単語抽出処理で抽出された各単語間の関連
性を評価し、関連度が規定値以上の単語集合で示される
クラスタを生成するクラスタ生成処理とを備えたテキス
トマイニングプログラムが記録された記録媒体。
【請求項１３】出現頻度が指定範囲内の単語を抽出す
る頻出単語抽出処理から重要単語抽出処理を構成するこ
とを特徴とする請求項１２記載のテキストマイニングプ
ログラムが記録された記録媒体。