JP7064871B2

JP7064871B2 - テキストマイニング装置およびテキストマイニング方法

Info

Publication number: JP7064871B2
Application number: JP2017250513A
Authority: JP
Inventors: 公司田中
Original assignee: Hitachi Social Information Services Ltd
Current assignee: Hitachi Social Information Services Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2022-05-11
Anticipated expiration: 2037-12-27
Also published as: JP2019117484A

Description

特許法第３０条第２項適用（１）平成２９年７月４日に“ｈｔｔｐ：／／ｃｏｎｆｅｒｅｎｃｅｓ．ｃｏｍｐｕｔｅｒ．ｏｒｇ／ｃｏｍｐｓａｃｗｐ／２０１７／ｐａｐｅｒｓ／０３６７ｂ６１９．ｐｄｆ”のウェブサイトにて公開された「２０１７ＩＥＥＥ４１ｓｔＡｎｎｕａｌＣｏｍｐｕｔｅｒＳｏｆｔｗａｒｅａｎｄＡｐｐｌｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ」の講演予稿集にて公開（２）平成２９年７月４日～８日に開催された「２０１７ＩＥＥＥ４１ｓｔＡｎｎｕａｌＣｏｍｐｕｔｅｒＳｏｆｔｗａｒｅａｎｄＡｐｐｌｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ」にて公開（３）平成２９年１０月１０日に「日立ＧＰジャーナル２０１７年第１８号」にて公開（４）平成２９年１１月１４日に“ｈｔｔｐ：／／ｗｗｗ．ｉｔｐｒｏ．ｔｉｔｅｃｈ．ａｃ．ｊｐ／ｅｘｐ４／ｍａｔｅｒｉａｌ／ＩＥＥＥ＿ＣＯＭＰＳＡＣ２０１７＿Ｊａ＿．ｐｄｆ”のウェブサイトにて公開

本発明は、テキストマイニング装置およびテキストマイニング方法に関する。

特許文献１には、「コンピュータがテキストマイニング処理を行うテキストマイニング方法であって、複数のデキストデータをメモリに記憶するテキスト記憶ステップと、前記テキスト記憶ステップで記憶されたテキストデータから、複数の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した文字列を所定のカテゴリー毎にまとめ、カテゴリー毎の出現頻度を算出する出現頻度算出ステップと、前記文字列抽出ステップで抽出した文字列に対応するカテゴリーが、前記テキスト記憶ステップで記憶されたテキストデータそれぞれにおいて同時に使用されている比率である同時利用率を算出する同時使用率算出ステップと、前記出現頻度算出ステップで算出した前記出現頻度と、前記同時使用率算出ステップで算出された前記同時利用率を利用して、因子分析対象とするカテゴリーを選択する分析対象選択ステップと、前記分析対象選択ステップで選択された前記カテゴリーについて、前記カテゴリー別出現間の相関係数を算出する相関係数算出ステップと、前記相関係数算出ステップで算出した前記相関係数に対して因子分析を行い、少なくとも１つの因子とその因子に対応する前記カテゴリー別出現の因子付加量とを算出する因子分析ステップとを備えるテキストマイニング方法」、および、「前記出現頻度算出ステップは、予め記憶したシソーラスを参照して前記カテゴリー毎の出現頻度を算出する」ことについて開示されている。

特開２００９－２７１７７２号公報（請求項１，２）

膨大な量の文書群に対してテキストマイニングを行う際、従来は、特許文献１のようにシソーラスを用いてテキストマイニングの精度を高めていた。具体的には、同じ意味であるが表現揺れ程度の互いに異なる語に対しては、シソーラスに基づいて１つの特徴語を割り当てることで表現揺れの影響を取り除き、特徴語の抽出の精度を高めていた。しかし、類義語や同義語の定義など、シソーラスの構築コストが非常に大きいという問題がある。また、最新の概念や一般的でない語彙への対応など、シソーラスの運用（更新）コストが非常に大きいという問題もある。その結果、シソーラスを用いたテキストマイニングは、テキストマイニングの精度を保証するために多大なコストを要するという問題がある。

本発明は、このような事情に鑑みて、シソーラスを用いない高精度なテキストマイニングを実現することを課題とする。

前記課題を解決するために、本発明は、
文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とする。
その他の発明については、後記する。

本発明によれば、シソーラスを用いない高精度なテキストマイニングを実現することができる。

本実施形態のテキストマイニング装置の機能構成図である。本実施形態のテキストマイニング処理を示すフローチャートである。文書１～３における係り受け構造を表現したグラフである。グラフのマージ（その１）の説明図である。グラフのマージ（その２）の説明図である。マージしたグラフのクラスタリング結果の説明図である。クラスタごとに抽出された特徴語、および、想定される話題との対応関係を示す表である。

続いて、本発明の実施形態について、図面を参照して説明する。本実施形態のテキストマイニング装置は、入力部、出力部、制御部、および記憶部といったハードウェアを含むコンピュータである。例えば、制御部がＣＰＵ（Central Processing Unit）から構成される場合、その制御部を含むコンピュータによる情報処理は、ＣＰＵによるプログラム実行処理で実現される。また、そのコンピュータが含む記憶部は、ＣＰＵの指令により、そのコンピュータの機能を実現するためのさまざまなプログラムを記憶する。これによりソフトウェアとハードウェアの協働が実現される。前記プログラムは、記録媒体に記録したり、ネットワークを経由したりすることで提供することができる。

≪構成≫
図１に示すように、本実施形態のテキストマイニング装置１００は、読込部１と、前処理部２と、形態素解析部３と、係り受け解析部４と、グラフ作成部５と、クラスタリング部６と、抽出部７と、設定部８と、を備える。

図１中の文書群Ｇは、例えば、１または複数の項目ごとに入力されたテキストデータを含む文書の集合である。例えば、顧客の宿泊レビューに関する文書であれば、項目としてレビュー対象施設名、および、感想コメントを用意し、レビュー対象施設名を表すテキストデータ、および、感想コメントを表すテキストデータを対応付けた文書となる。そして、顧客ごとに作成された文書の集合体が文書群Ｇとなる。なお、本実施形態が対象にする文書は、項目を有しない文書であってもよい。
また、本実施形態では、テキストデータは、日本語の文字列であるとするが、これに限定されず、他の言語の文字列であってもよい。

読込部１は、文書群Ｇからテキストデータを読み込む。
前処理部２は、テキストデータの前処理を行う。テキストデータの前処理とは、形態素解析で正しい結果を得るための予備処理である。例えば、同じ意味となる語の全角文字と半角文字が存在する場合にいずれか一方に統一すること、長音記号「ー」とマイナス記号「－」のような、字形が類似することに起因する誤用に対して正しい記号に修正すること、などがある。
なお、テキストデータの前処理は、必須ではない。

形態素解析部３は、テキストデータの形態素解析を行う。本実施形態の形態素解析は、既存の形態素解析、および、既存の形態素辞書を用いる。形態素解析によって、形態素群および各形態素の品詞が特定される。

係り受け解析部４は、テキストデータの係り受け解析を行う。本実施形態の係り受け解析は、既存の係り受け解析を用いる。係り受け解析部４によって、テキストデータの係り受け構造、つまり、どの形態素が「係り」に該当し、どの形態素が「受け」に該当するかを特定することができる。

グラフ作成部５は、係り受け解析部４が特定した係り受け構造に基づくグラフを作成する。本実施形態では、グラフの作成には既存の技術を用いる。グラフは、単語単位のノードと、ノード同士を結ぶエッジとから構成される。グラフ作成部５は、文書ごとにグラフを作成することができる。また、グラフ作成部５は、文書ごとに作成された複数のグラフをマージすることで、複数の文書に対応する１つのグラフを作成することができる。
クラスタリング部６は、グラフ作成部５が作成したグラフのクラスタリングを行う。クラスタリング部６は、複数の文書に対応する１つのグラフのクラスタリングを行うことができる。その結果、１または複数のクラスタが生成される。クラスタリングによって、グラフ上の各ノードの配置は、例えば、ばねモデルに従うようにすることができる。

抽出部７は、クラスタリング部６によって生成された各クラスタから、１または複数の特徴語を抽出する。各クラスタから抽出された特徴語は、各クラスタ内で出現回数（ＴＦ：Term Frequency）が高い語である。
設定部８は、クラスタリング部６によって生成された各クラスタを象徴する話題を設定する。クラスタごとの話題は、例えば、各クラスタに含まれる語から推測することができる。また、話題は、テキストマイニング装置１００のオペレータが設定することができる。

≪処理≫
次に、本実施形態のテキストマイニング装置１００が実行するテキストマイニング処理について、図２を参照して説明する。説明の際、図１も適宜参照する。テキストマイニング装置１００は、テキストマイニング処理の対象となる文書群Ｇを予め記憶している。

まず、テキストマイニング装置１００は、読込部１によって、文書群Ｇからテキストデータを読み込む（ステップＳ１）。レビュー対象施設名、および、感想コメントを含む、顧客の宿泊レビューに関する文書であれば、読込部１は、感想コメント中のテキストデータを読み込むことができる。

次に、テキストマイニング装置１００は、前処理部２によって、読み込まれたテキストデータの前処理を行う（ステップＳ２）。次に、テキストマイニング装置１００は、形態素解析部３および係り受け解析部４によって、テキストデータの形態素解析および係り受け解析を行う（ステップＳ３）。

次に、テキストマイニング装置１００は、グラフ作成部５によって、係り受け解析によって特定された係り受け構造に基づくグラフを文書ごとに作成する（ステップＳ４）。また、テキストマイニング装置１００は、グラフ作成部５によって、文書ごとに作成したグラフをマージし、複数の文書に対応する１つのグラフを作成する。

次に、テキストマイニング装置１００は、クラスタリング部６によって、マージしたグラフのクラスタリングを行う（ステップＳ５）。その結果、マージしたグラフに関する１または複数のクラスタが生成される。次に、テキストマイニング装置１００は、抽出部７によって、生成された各クラスタから、１または複数の特徴語を抽出する（ステップＳ６）。

最後に、テキストマイニング装置１００は、設定部８によって、生成された各クラスタに対して話題が設定される（ステップＳ７）。
テキストマイニング装置１００は、図２のテキストマイニング処理による結果を、既存のビジュアライズ技術によって、例えば、グラフ構造に従って配置された、文書群Ｇ中の語の集合の画面表示として出力することができる。

≪ホテルの宿泊レビューのテキストマイニング≫
次に、本実施形態の具体例として、顧客が利用したホテルに関する宿泊レビューのテキストマイニングを行った場合について説明する。文書群Ｇ（図１）は、レビュー対象施設名、および、感想コメントを項目として含み、顧客ごとに作成された文書の集合体であるとする。図３に示すように、本具体例では、文書群Ｇとして文書１～３を採り上げる。文書１～３はいずれも、Ａホテルに宿泊した顧客のレビュー（クチコミ）の文書であるとする。つまり、レビュー対象施設名は、Ａホテルである。しかし、レビュー対象施設名が異なる文書群であってもよく、以下の説明を適用することができる。

文書１～３の感想コメントは、以下の通りである。
文書１：安い料金プランで予約。駅にもコンビニにも近く便利だった。部屋は綺麗で広く、ベッドも広くて快適。
文書２：ベッドは広かったが、料金が高い
文書３：価格が安い

まず、テキストマイニング装置１００は、読込部１によって、文書１～３から感想コメントのテキストデータを読み込む（図２のステップＳ１に対応）。次に、テキストマイニング装置１００は、前処理部２によって、文書１～３の感想コメントのテキストデータの前処理を行う（図２のステップＳ２に対応）。本具体例では、文書１～３について、前処理によって、修正された文言は無かったとする。

次に、テキストマイニング装置１００は、形態素解析部３および係り受け解析部４によって、文書１～３の感想コメントのテキストデータの形態素解析および係り受け解析を行う（図２のステップＳ３に対応）。形態素解析によって、文書１～３の感想コメントの形態素群および各形態素の品詞が特定される。

また、本具体例では、“何が（〈属性〉）どうなのか（〈評価〉）”を知りたいため、係り受け解析部４は、名詞および形容詞の形態素を選択する。図３では、文書１～３の感想コメントにおいて、選択された名詞および形容詞は強調表示（太字＋下線）されている。係り受け解析によって、選択された名詞および形容詞の各々が、「係り」または「受け」のいずれに該当するかが判定され、係り受け構造が特定される。

ところで、例えば、形容詞“広い”は、“部屋”や“風呂”など空間・場所を示す名詞を修飾する。このように、語の係り受け関係には意味的な制限があることが知られており、このような制限は「共起制限」と呼ばれる。係り受け解析部４が特定する係り受け構造には、共起制限が強く反映される。

次に、テキストマイニング装置１００は、グラフ作成部５によって、文書１～３それぞれについて、係り受け構造に基づくグラフを作成する（図２のステップＳ４に対応）。グラフ作成部５は、選択された語（名詞および形容詞）の原型をノード（単語ノード）とし、係り受け関係をエッジとする。図３では、ノードを○で示し、エッジを実直線で示す。係り受け関係が成立している語のノード同士がエッジによって連結されている。

また、文書１～３について、係り受け関係に参加しない端点ノードと、端点ノードと連結するエッジとを便宜上用意する。端点ノードは、例えば、図３に示すように各文書の番号である「文書１」、「文書２」、「文書３」と示すことができる（図３中符号ｎ１－０～ｎ３－０）。また、端点ノードは、例えば、文書１～３内のレビュー対象施設名、つまり、「Ａホテル」と示すこともできる（図示なし）。グラフ作成部５は、端点ノードが同じ文書内のいずれかのノードに連結したグラフを作成する。

また、グラフ作成部５は、選択された語（名詞および形容詞）の出現回数（ＴＦ値）を、単語ノードのアトリビュートとして設定する。図３では、各ノード（端点ノード除く）の右肩にＴＦ値を示してある（ＴＦ：ｋ（ｋ＝１，２，・・・））。図３中文書１において、２回出現している「広く」を原型の「広い」として扱うため、「広い」ノード（図３中符号ｎ１－１）のＴＦ値は２となっている（ＴＦ：２）。

また、グラフ作成部５は、ある２単語間の係り受け関係が出現した回数を、その２単語ノード間のエッジの重み（weight）として設定する。図３では、各エッジを象徴する実直線の近傍に重みの数値を示してある。

また、グラフ作成部５は、文書１～３ごとに作成したグラフをマージする。図４には、文書１，２のグラフをマージしたグラフを示す。マージするグラフ間で、同一の単語ノード、および、同一のエッジが存在する場合、それらのノードおよびエッジは共有されるとともに、ＴＦ値および重みは加算される。図４では、文書１，２の両方に含まれる「ベッド」ノード、「料金」ノード、「広い」ノードの各々（図４中符号ｎ１２－１～ｎ１２－３）のＴＦ値が加算され、ＴＦ：２、ＴＦ：２、ＴＦ：３、と示されている。なお、図４中文書２の「広かった」は原型の「広い」として扱う。また、図４では、文書１，２の両方に含まれる「ベッド」ノード－「広い」ノード間のエッジの重み（図４中符号ｗ１）が加算され、「２」と示されている。

図５には、マージ済の文書１，２のグラフにさらに文書３のグラフをマージしたグラフを示す。その結果、図５では、文書１，３の両方に含まれる「安い」ノードの（図５中符号ｎ１３－１）のＴＦ値が加算され、ＴＦ：２と示されている。
上記のように、各ノードにＴＦ値、および各エッジに重みが設定された、マージ後の１つのグラフが作成される。

次に、テキストマイニング装置１００は、クラスタリング部６によって、文書１～３について、マージしたグラフのクラスタリングを行う（図２のステップＳ５に対応）。このクラスタリングは、エッジの重みを考慮したクラスタリングとなる。クラスタリングによって、１または複数のクラスタが生成される。

クラスタリング部６は、クラスタリングの結果として、例えば、図６に示すように、グラフ中の各ノードを、ばねモデルを用いて配置することで俯瞰的に表示することができる。なお、クラスタリングの結果の俯瞰的な表示は必須ではない。図６に示すように、文書１～３に対して、３種類のクラスタ１～３（図６中破線表示）が生成される。マージしたグラフ中の各ノードは、クラスタ１～３のいずれかに属する。同じクラスタを構成するノード群は、同じエリア内に配置される傾向にある。

図６の俯瞰的な表示において、クラスタリング部６は、クラスタごとに、ノードを色分け表示することができる。また、図６の俯瞰的な表示において、クラスタリング部６は、相対的に大きなＴＦ値が設定されたノードを、ＴＦ値に比例した大きさで表示することができる（図示なし）。また、図６の俯瞰的な表示において、クラスタリング部６は、相対的に大きな重みが設定されたエッジを象徴する実直線を、重みに比例した太さで表示することができる。図６では、重みが「２」である、「ベッド」ノード－「広い」ノード間のエッジ（図５参照）を象徴する実直線がより太く表示されている（図６中符号ｗ２）。

次に、テキストマイニング装置１００は、抽出部７によって、クラスタ１～３の各々から、１または複数の特徴語を抽出する（図２のステップＳ６に対応）。具体的には、ＴＦ値が所定値以上に大きな値となるノードの語を特徴語として抽出する。例えば、ＴＦ：２である「安い」、「料金」、「ベッド」、および、ＴＦ：３である「広い」が特徴語として抽出される（図５参照）。

説明の便宜上、図６に示すクラスタリング結果よりも大規模なクラスタリング結果の一例を図７に示す。図７のクラスタリング結果は、レビュー対象施設の数が５０であり、感想コメント数が4,986件である、ホテルの宿泊レビューの文書群Ｇについての結果である。グラフ作成部５によって、ノード数が8,302であり、エッジ数が56,071であるグラフが生成され（図２のステップＳ４に対応）、クラスタリング部６によって、１３種類のクラスタ（＃０～＃１２）が生成された（図２のステップＳ５に対応）。また、抽出部７によって、＃０～＃１２のクラスタの各々について、特徴語が抽出されるが（図２のステップＳ６に対応）、図７では、抽出された特徴語の上位２０個（Top 20 terms）を、ＴＦ値の大きい順に列挙して示す。

次に、テキストマイニング装置１００は、設定部８によって、生成されたクラスタ（＃０～＃１２）に対して話題が設定される（図２のステップＳ７に対応）。設定部８は、＃０～＃１２のクラスタの各々について、上位２０個の特徴語から想定される話題となる語を定義する。しかし、上位２０個に限定する必要はなく、上位１９個以下から定義してもよいし、上位２１個以上から定義してもよいし、上位に該当しない同じクラスタ内の任意個数の特徴語から定義してもよい。＃０～＃１２のクラスタの各々に対して、設定部８が設定した話題の各々を、図７の右欄に示す。

図７おいて、例えば、＃５のクラスタに注目すると、「値段」、「料金」、「価格」という語が特徴語として抽出されている。「値段」、「料金」、「価格」という語は互いに同義語の関係にある。つまり、同義語の関係にある複数種類の語は、同じクラスタに分類されるといえる。

また、図７において、例えば、＃１１のクラスタに注目すると、「対応」、「接客」という語が特徴語として抽出されている。「対応」、「接客」という語は互いに類義語の関係にある。つまり、類義語の関係にある複数種類の語は、同じクラスタに分類されるといえる。

また、図７において、例えば、＃１のクラスタに注目すると、「アメニティ」、「アメニティー」という語が特徴語として抽出されている。「アメニティ」、「アメニティー」という語は互いに表記揺れの関係にある。つまり、表記揺れの関係にある複数種類の語は、同じクラスタに分類されるといえる。なお、表記揺れには、漢字表記とひらがな表記の関係も含まれる（例えば、＃１２のクラスタ内の「ない」と「無い」の関係）。

上記の各種分類が可能になるのは、クラスタリングの対象となる文書群のグラフが、係り受け構造、具体的には、共起制限に基づいて作成されたことに起因する。本実施形態によれば、クラスタリングによって生成されたクラスタから、同義語、類義語、表記揺れの関係にある複数種類の語を容易に特定することができ、同義語、類義語、表記揺れを定義する役割を果たすシソーラスを不要とすることができる（クラスタ自身が実質的にシソーラスを構築している）。
したがって、本実施形態によれば、シソーラスを用いない高精度なテキストマイニング（シソーラスを用いた従来のテキストマイニングと同程度の精度のテキストマイニング）を実現することができる。

また、従来のテキストマイニングは、“何が（〈属性〉）どうなのか（〈評価〉）”を知るために、〈評価対象〉を定義する必要があった。換言すれば、〈評価対象〉を定義しなければ、〈属性〉を決定しても〈評価〉を抽出することができず、テキストマイニングを実現することができなかった。しかし、従来における〈評価対象〉の定義は、主にテキストマイニングを行うユーザが手動で行うものであったため、〈評価対象〉の定義漏れを確実に回避することはできなかった。このため、テキストマイニングの精度の低下を招くおそれがあった。

本実施形態によれば、設定部８が設定する話題が、〈評価対象〉の役割を果たす。クラスタリング部６は、テキストマイニングの対象となる文書群Ｇに対してクラスタを漏れなく生成することができる。よって、設定部８によって、生成されたクラスタごとに話題を漏れなく設定することができ、〈評価対象〉の定義漏れを確実に回避することができる。換言すれば、クラスタリング部６は、新たな〈評価対象〉を発見するためのきっかけを提供することができる。
したがって、本実施形態によれば、〈評価対象〉の定義漏れに起因するテキストマイニングの精度の低下を防ぐことができる。

≪変形例≫
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜変更可能である。（ａ）例えば、本実施形態では、係り受け解析の際、係り受け解析部４が名詞および形容詞の形態素を選択した。しかし、選択される品詞は、名詞および形容詞に限らず、例えば副詞の形態素も選択してもよい。また、“何が（〈属性〉）どうなのか（〈評価〉）”ではなく、“何が（〈属性〉）どうした（〈評価〉）”を知りたい場合には、係り受け解析部４が名詞および動詞の形態素を選択することもできる。係り受けの種類に応じて、選択する形態素の品詞を適宜変更することができる。

（ｂ）また、本実施形態では、グラフ作成部５が作成するグラフは、いわゆる無向グラフであった。しかし、グラフ作成部５が作成するグラフは、有向グラフでもよい。有向グラフの場合、「係り」に該当するノードから「受け」に該当するノードに向かうエッジとしてもよいし、「受け」に該当するノードから「係り」に該当するノードに向かうエッジとしてもよいし、「係り」に該当するノードにも「受け」に該当するノードにも向かうエッジとしてもよいし、これらが混在してもよい。

（ｃ）また、本実施形態では、クラスタリング部６によるクラスタリンク結果を、クラスタごとの特徴語の列挙として出力した（図７）。しかし、クラスタリンク結果の出力形式として、特徴語ごとに、〈属性〉と〈評価〉との関係性や、ＴＦ値を明示した出力形式とすることができる。この出力形式は、名詞ノード（〈属性〉）と連結している形容詞ノード（〈評価〉）を抽出することで実現することができる。

出力形式の一例としては、「［〈属性〉の語］（ＴＦ値）－［第１の〈評価〉の語］（ＴＦ値）／［第２の〈評価〉の語］（ＴＦ値）／・・・」とすることができる。例えば、図７の＃３のクラスタ内の部屋，広い，お部屋，風呂，ベッド，綺麗，狭い，快適，・・・と列挙されている特徴語に対して、「部屋（128）－広い（34）／綺麗（20）・・・」という出力形式をとることができる。

（ｄ）設定部８が設定する話題は、例えば、対応のクラスタに属するノードの中心性の指標にもとづいて設定してもよい。

本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

１００テキストマイニング装置
１読込部
２前処理部
３形態素解析部
４係り受け解析部
５グラフ作成部
６クラスタリング部
７抽出部
８設定部

Claims

文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とするテキストマイニング装置。
前記クラスタを象徴する話題を設定する設定部、をさらに備える、
ことを特徴とする請求項１に記載のテキストマイニング装置。
文書群のテキストマイニングを行うテキストマイニング装置におけるテキストマイニング方法であって、
前記テキストマイニング装置が、
前記文書群のテキストデータの形態素解析をする形態素解析ステップと、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析ステップと、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出ステップと、を実行する、
ことを特徴とするテキストマイニング方法。
前記テキストマイニング装置が、
前記クラスタを象徴する話題を設定する設定ステップ、をさらに実行する、
ことを特徴とする請求項３に記載のテキストマイニング方法。