JP5459203B2

JP5459203B2 - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Info

Publication number: JP5459203B2
Application number: JP2010502791A
Authority: JP
Inventors: 開石川; 晃裕田村; 真一安藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-12
Filing date: 2009-03-06
Publication date: 2014-04-02
Anticipated expiration: 2029-03-06
Also published as: JPWO2009113457A1; WO2009113457A1; US8452782B2; US20110010373A1

Description

本発明は、テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体に関する。具体的には、関連する文書データ間の差異に注目するテキストマイニングに関する。

定型化されない自然文章を自然言語処理技術によって分割したうえで統計解析処理し、その文章の傾向や特徴を分析するテキストマイニングが知られている。
このようなテキストマイニング技術を利用することにより、膨大に蓄積された文書情報から有益な情報を絞り出し、マーケティング等のビジネス手法に有効活用することが期待されている。
例えば、アンケートの回答文書をテキストマイニングで分析する手法が特許文献１、特許文献２に開示されている。
このようなテキストマイニングによって、多くのアンケート回答文書データのなかで出現頻度の高い特徴語を抽出したり、あるいは、特定の単語に対して高い相関性をもって出現する関連語を抽出したりする文書解析が可能となり、マーケティング等に活用されている。

特開２００１−２６６０６０号公報特開２００６−２８６０２６号公報

確かにアンケート回答の処理等にあっては共通語の抽出などは有益であるが、実際の文書分析にあっては、関連がある複数の文書間で違いに注目すべき時もある。
しかしながら、従前のテキストマイニングのごとく自然言語処理（例えば単語に分割）したデータに統計処理を行うだけでは文書間の差異に注目する分析結果を得ることはできない。
そのため、今なお蓄積された文書データに埋もれている有用な情報を活用できないままとなっている。

このような問題のため、複数のテキストデータ間の差異に注目する文書解析を行うテキストマイニングの手法が切望されていた。

本発明の目的は、関連ある複数の文書データ間の差異に関する解析を適切に行うテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体を提供することにある。

本発明のテキストマイニング装置は、関連する二以上の文書データのそれぞれから言語要素を抽出する要素抽出部と、前記要素抽出部にて抽出された要素を前記文書データ間で対比して前記文書データ間の差分を抽出する処理を行う差分処理部と、前記差分処理部にて抽出された差分に対して統計処理を行う統計処理部と、を備えることを特徴とする。

このような構成において、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができる。したがって、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。

第１実施形態の構成を示す図。第１実施形態において、テキストマイニング方法の手順を示すフローチャート。音声通話記録の一例を示す図。報告文書の一例を示す図。第１実施形態において、通話音声記録の要素を抽出した結果を示すテーブル。第１実施形態において、報告文書の要素を抽出した結果を示すテーブル。第１実施形態において、通話音声記録の要素と報告文書の要素とを対応付けした結果を示すテーブル。第１実施形態において、差分要素として抽出された要素のテーブル。第１実施形態において、差分を記録したデータテーブルの例。第１実施形態において、特定商品（ＭＰ３２−Ｙ）を購入した顧客に関する差分データを統計処理した結果の一例を示すテーブル。第２実施形態の構成を示す図。第２実施形態において、テキストマイニング方法の手順を示すフローチャート。第２実施形態において、抽出された差分ブロックのデータテーブル。第２実施形態において、差分を記録したデータテーブルの例を示すテーブル。第３実施形態の構成を示す図。第３実施形態において、テキストマイニング方法の手順を示すフローチャート。第３実施形態において、対応要素をもつものを抽出した結果を示すテーブル。第３実施形態において、対応要素無し差分ブロックを抽出した結果を示すテーブル。第３実施形態において、対応無し差分ブロックを記録したデータテーブル。第４実施形態の構成を示す図。第４実施形態において、テキストマイニング方法の手順を示すフローチャート。第４実施形態において、各要素の差分スコアを計算した結果を示すテーブル。第４実施形態において、差分要素を抽出した結果を示すテーブル。第４実施形態において、差分要素を記録したデータテーブルの例。第５実施形態の構成を示す図。第５実施形態において、テキストマイニング方法の手順を示すフローチャート。第５実施形態において、差分要素ごとに算出した差分スコアを示すテーブル。第５実施形態において、差分要素と差分スコアとを記録したデータテーブル。本発明を実施する最小限の構成を示す図。

符号の説明

１０、１００、２００、３００、４００、５００…テキストマイニング装置、１１０…入力部、１２０…解析部、１３０…入力データ記憶部、１４、１４０…要素抽出部、１５、１５０、２５０、３５０、４５０、５５０…差分処理部、１５１…要素対応付け部、１５２…差分要素抽出部、１５３…差分ブロック抽出部、１５４…対応要素抽出部、１５５…対応無し差分ブロック抽出部、１５６…差分スコア計算部、１５７…差分要素抽出部、１６０…差分データ記憶部、１７、１７０…統計処理部、１８０…出力部。

本発明の実施の形態を図示するとともに図中の各要素に付した符号を参照して説明する。
（第１実施形態）
図１は、本発明のテキストマイニング装置１００に係る第１実施形態の構成を示す図である。
テキストマイニング装置１００は、テキストマイニングの対象となる文書データを入力する入力部１１０と、入力された文書データを解析してテキストマイニングを行う解析部１２０と、解析した結果を出力する出力部１８０と、を備えている。

入力部１１０は、たとえば、キーボードや音声認識マイク、スキャナー、の他、外部記憶メディアの記憶データを読み込むためのドライブ装置などであってもよい。
本実施形態においてテキストマイニング処理の対象となるのは、関連ある複数の文書データであり、文書データの数は特に限定されるものではない。
説明の都合上、以下においては、関連する二つの文書データからなる組をテキストマイニングの対象として入力部１１０から入力する場合を例にし、ある組の二つの文書を第１文書データと第２文書データとする。

解析部１２０は、入力部１１０から入力された文書データを一時保存する入力データ記憶部１３０と、入力データ記憶部１３０に保存された文書データに対して言語処理を行ってテキストの構成要素としての独立単語を抜き出す要素抽出部１４０と、文書データ間の差分を抽出する差分処理部１５０と、差分処理されたデータを一時バッファする差分データ記憶部１６０と、抽出された差分に対して統計処理を行う統計処理部１７０と、を備える。

入力データ記憶部１３０は、入力部１１０から入力されるデータ（第１文書データおよび第２文書データ）を一時的に記憶保存する。

要素抽出部１４０は、第１文書データおよび第２文書データに対して自然言語処理を行うとともに文の構成要素を抽出する。要素抽出部１４０が抽出する要素としては、文書データに含まれる文字列、単語、文字Ｎグラム、単語Ｎグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上であり、本実施形態では独立単語を抽出する場合を例にして説明する。

差分処理部１５０は、二つの文書データのそれぞれから抽出された要素を対比して二つの文書間の要素同士を対応づける要素対応付け部１５１と、要素対応付け部１５１による対応付けにおいて、対応する対の要素を持たなかった要素を差分要素として抽出する差分要素抽出部１５２と、を備える。

要素対応付け部１５１は、要素抽出部１４０にて抽出された二つの文書の各要素を対比する。そして、二つの文書の各要素に対し、同一、類似、同義、類義の関係にある要素同士を対応付ける。

差分要素抽出部１５２は、要素対応付け部１５１による対応付けにおいて、二つの文書データ間で対応要素を持たなかったものを差分要素として抽出する。さらに、二つの文書データの差分として、一方の文書データには存在しかつ他方の文書データにはない要素に注目する場合には、第１文書データの要素であって第２文書データ中に対応する要素を持たなかったものを差分要素として抽出する。

差分データ記憶部１６０は、抽出された差分を統計処理の前に一時バッファする。入力部１１０から互いに関連付けられた文書データの組である第１文書データと第２文書データとが次々に入力され、差分処理を経たのちに差分データ記憶部１６０に蓄積されていく。

統計処理部１７０は、抽出された差分要素に対して統計処理を行う。
このような統計処理としては拡張型確率的コンプレキシティなどが例として挙げられる。

出力部１８０は、プリンタ、モニター等で構成され、統計処理部１７０による処理結果を表示する。

このような構成を備える第１実施形態の動作について説明する。
図２は、本実施形態におけるテキストマイニング方法の手順を示すフローチャートである。
テキストマイニングにあたって、まず、テキストマイニングの対象となる文書データを入力部１１０から入力する（入力工程、ＳＴ１００）。

ここで、ＳＴ１００の入力工程において入力する文書データについて説明する。
本実施形態のテキストマイニングでは、差分に注目すべき文書データの組を入力する。差分に注目すべき文書データの組としては、例えば、一つの対象に対して異なる方式で作成された関連ドキュメントが例として挙げられる。
このような関連ドキュメントは、互いに共通する部分と、一方の文書データには含まれるが他方の文書データには含まれていない差分の部分と、が存在する。そして、このような差分の部分に価値ある情報を有している場合がある。

コールセンターでの業務を例にして説明する。
コールセンターは、電話応対による商品のセールスを受け持つが、近年では単なる電話応対のみならず、応対結果に基づいた顧客情報のデータベース構築などにより戦略的マーケティング上でも重要な部署になっている。
コールセンターでは、コンピュータに統合された電話、ＦＡＸの機能によって通話音声記録、ＦＡＸ、電子メールといった生データで顧客との応対記録が記録されるとともに、オペレータによって作成される報告文書の形でも顧客対応が記録される。
たとえば、図３は音声通話記録の一例であり、図４は報告文書の一例である。
報告文書は、オペレータの判断により簡潔な形で作成され、顧客応対における主要な内容を含んだ有用性の高いドキュメントとなり、通常はこちらの情報で十分に必要を満たす。
ただし、オペレータが顧客の発言のなかで理解できなかった部分や、セールスの主題から外れたやり取り、顧客との間で交わされる詳細な商品説明やヒヤリングの過程などは報告文書から割愛されることが多くなる。
また、オペレータの状況判断や推測事項、顧客に対して直接に説明する必要がない事項などは通話音声記録には現れず、報告文書にのみ記録されることとなる。
このように一方にのみ記録される情報には顧客の生の声、オペレータの応対の仕方など有用な情報が大いに含まれている。そこで、このような通話音声記録と報告文書との差異を分析する必要が生じてくる。

本実施形態の説明では、入力部１１０から第１文書データとして通話音声記録（図３）を入力し、第２文書データとして報告文書（図４）を入力する。

入力工程（ＳＴ１００）にて入力された文書データは、入力データ記憶部１３０に記憶される（入力データ記憶工程ＳＴ１１０）。このとき、受付インデックスが同じである通話音声記録と報告文書とを組にして記憶していく。

入力データ記憶部１３０に記憶されたデータは、組ごとに要素抽出部１４０に出力され、要素抽出部１４０を用いて要素の抽出が行われる（要素抽出工程ＳＴ１２０）。要素としては、単語を抽出し、特に形態素解析によって得られる形態素から自立語を抽出する。なおここでは、顧客発言のなかにマーケティング上の重要情報が埋もれていると考える趣旨から、通話音声記録に対しては顧客発言から要素を抽出することとする。図５は通話音声記録に対する要素抽出の結果であり、図６は報告文書に対する要素抽出の結果である。

次に、抽出された要素は文書データごとに要素対応付け部１５１に出力され、同じ組同士の文書間において各要素に対する対応付けが行われる（要素対応付け工程ＳＴ１３０）。
すなわち、同一、類似、同義、類義の関係にある要素同士が対応付けられる。
ここで、要素同士を対応付ける手法については既存の方法を用いることができる。
例えば、同義語辞書を用いてもよく、または報告文書が通話音声記録の抄録に当たる関係から対応関係ａを次のように求めることができる。
すなわち、通話音声記録の顧客発言から抽出された要素の集合をＤ、報告文書から抽出された要素の集合をＲとすると、集合Ｒは集合Ｄの抄録という関係にある。
このとき、集合Ｄに対して集合Ｒが生成される事後確率Ｐ（Ｒ｜Ｄ）を最大化するような、集合Ｄと集合Ｒとの要素ｄ、ｒ間の対応関係ａが次のように求められる（例えば、Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. HMM-Based Word Alignment in Statistical Translation. In COLING'96: The 16th Int. Conf. on Computational Linguistics, pages 836-841, Copenhagen, Denmark, August.に開示されている）。

ａ＝argmax_aＰ（Ｒ｜Ｄ，ａ）＝argmax_aＰ（Ｄ｜Ｒ，ａ）Ｐ（Ｒ）

その結果、図７に示される対応付けが得られる。

このように対応付けされた要素のデータは差分要素抽出部１５２に出力され、差分要素抽出部１５２にて差分要素の抽出が行われる（差分要素抽出工程ＳＴ１４０）。図７中において、通話音声記録の要素であって報告文書中に対応する要素を持たなかったものが差分要素として抽出される。図８は、差分要素として抽出された要素の表である。

差分要素抽出部１５２にて抽出された要素は差分データ記憶部１６０に出力され、一時バッファされる（差分データ記憶工程ＳＴ１５０）。このとき、抽出された差分要素は、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図９は、差分を記録したデータテーブルの例である。

このようにして収集された差分データに対して統計処理部１７０により統計処理が行われる（統計処理工程ＳＴ１６０）。図１０は、商品ＭＰ３２−Ｙを購入した顧客に関する差分データを統計処理した結果の一例である。このような統計結果は、出力部１８０から出力され、プリンタによる印刷出力もしくはモニターにて表示される（出力工程ＳＴ１７０）。

このような第１実施形態によれば、たとえば、電気ポットＭＰ３２のイエローを購入する顧客の中には、「白が良い」という要望が少なからず存在するといった発見が得られる。
従来、上記のような有益な情報があるにも関わらず、通話音声記録と報告文書の双方に共通して頻度が高い表現が目立ってしまい、重要な情報であっても埋もれて利用されないままとなっていた。
この点、本実施形態では、二つの文書データの差分を抽出したうえでこの差分データに対して統計処理を行う構成を採用している。そのため、従来のテキストマイニングでは取り出すことができなかった情報を取り出すことができる。例えば、多くの顧客が色のオーダーをする際に発言する「白が良い」、「黄が良い」、「緑が良い」等の有益な情報を掘り起こすことができる。

（第２実施形態）
次に、本発明の第２実施形態に係るテキストマイニング装置２００について説明する。
第２実施形態の基本的な構成は第１実施形態に同様であるが、差分処理部２５０において差分ブロックを抽出する点に特徴を有する。
図１１は、第２実施形態の構成を示す図である。
第２実施形態において、差分処理部２５０は、要素対応付け部１５１と、差分要素抽出部１５２と、差分ブロック抽出部１５３と、を備えている。
差分ブロック抽出部１５３は、差分要素抽出部１５２にて抽出された差分の要素を受け取るとともに、この差分要素を入力データ記憶部１３０に記憶されている文書データに対比して、差分要素を含むより大きな要素を差分ブロックとして抽出する。ここで、差分ブロック抽出部は、構文構造または構文構造の部分構造を差分ブロックの単位として抽出する。

図１２は、第２実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
差分要素抽出工程（ＳＴ２４０）において、通話音声記録と報告文書との間の差分要素が抽出され、図８のテーブルが得られる。
このように抽出された差分要素を含む文が差分ブロックとして通話音声記録から抽出される（差分ブロック抽出工程ＳＴ２５０）。例えば、図８に示される差分要素に対して、これらの要素を含むもとの音声通話記録は、発言インデックスが４、５、９、１６、１７である（図３を参照）。そこで、この発言インデックス４、５、９、１６、１７を差分ブロックとして抽出する。
図１３は、このようにして抽出された差分ブロックのデータテーブルである。

このように抽出された差分ブロックは差分データ記憶部１６０にバッファされていく（差分データ記憶工程ＳＴ２６０）。差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図１４は、差分を記録したデータテーブルの例である。このようにして収集された差分データに対して統計処理部１７０により統計処理が行われ（統計処理工程ＳＴ１６０）、出力部１８０に出力される（出力工程ＳＴ１７０）。

このような第２実施形態によれば、差分要素からもとのセンテンス（差分ブロック）を抽出することとしているので、差分情報を漏れなく拾うことができ、的確かつ正確な差分データを得ることができる。そして、このように得た差分のデータに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。

（第３実施形態）
次に、本発明の第３実施形態に係るテキストマイニング装置３００について説明する。
第３実施形態の基本的構成は第２実施形態に同様であるが、差分ブロック抽出部１５３にて抽出される差分ブロックのうち、さらに、対応要素を有しないブロックだけを差分として抽出する点に特徴を有する。
図１５は、第３実施形態の構成を示す図である。
第３実施形態において、差分処理部３５０は、要素対応付け部１５１と、差分要素抽出部１５２と、差分ブロック抽出部１５３と、対応要素抽出部１５４と、対応無し差分ブロック抽出部１５５と、を備える。
要素対応付け部１５１、差分要素抽出部１５２および差分ブロック抽出部１５３は、前記実施形態にて説明した構成と同様である。
すなわち、差分ブロック抽出部１５３は、差分要素を含むブロック（センテンス）を抽出する。
ここで、対応要素抽出部１５４は、要素対応付け部１５１にて対応付けられた要素のデータから互いに対応する要素を持つものを抽出する。
対応無し差分ブロック抽出部１５５は、差分ブロック抽出部１５３にて抽出された差分ブロックのうち対応要素抽出部１５４にて抽出された対応要素を含有するものを削除して対応要素を持たない差分ブロックだけを抽出する。

図１６は、第３実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
差分ブロック抽出工程（ＳＴ３３３）において差分要素を含む差分ブロックが抽出され、図１３に示される差分ブロックのテーブルが得られる。
また、要素対応付け部１５１による対応付け（ＳＴ３３１）によって図７のテーブルが得られているところ、このテーブル（図７）から互いに対応する要素を持つものが対応要素抽出部１５４によって抽出される（対応要素抽出工程、ＳＴ３３４）。
図７に示されるテーブルから対応要素を持つものを抽出すると図１７に示すテーブルが得られる。そして、差分ブロックのテーブル（図１３）から対応要素をもつもの（図１７）を削除して対応要素を持たないブロックが抽出される（対応無しブロック抽出工程ＳＴ３３５）。すると、発言インデックス１６のブロックだけが対応要素無し差分ブロックとして抽出される（図１８）。

このように抽出された対応要素無し差分ブロックは差分データ記憶部１６０にバッファされていく（差分データ記憶工程ＳＴ３４０）。
差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。
図１９は、対応無し差分ブロックを記録したデータテーブルの例である。
このようにして収集された対応無し差分ブロックのデータに対して統計処理部１７０により統計処理が行われ（統計処理工程ＳＴ３５０）、出力部１８０に出力される（出力工程ＳＴ３６０）。

このような構成を備える第３実施形態によれば、両者の差分を差分ブロックとして不足なく抽出したうえで、さらに、対応要素を持たないものだけを抽出するので、一方の文書データにのみ固有に含まれる差分を正確かつ的確に抽出することができる。そして、このように抽出した対応無し差分ブロックに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。

（第４実施形態）
次に、本発明の第４実施形態に係るテキストマイニング装置４００について説明する。
第４実施形態の基本的構成は第１実施形態に同様であるが、差分処理部４５０において差分要素を抽出する構成に特徴を有する。
図２０は、第４実施形態の構成を示す図である。
第４実施形態において、差分処理部４５０は、差分スコア計算部１５６と、差分要素抽出部１５７と、を備えている。
差分スコア計算部は、第１文書データ中の各要素に対して差分らしさを表す差分スコアを計算する。すなわち、要素抽出部１４０によって第１文書データと第２文書データとからそれぞれの要素が抽出されているところ、第１文書データの要素と第２文書データの要素とを対比して第１文書データの要素ごとに差分スコアを計算する。
ここで、第１文書データ中の任意の要素ｄに対する差分スコア（ｄ）を次の式（１）で定義する。
なお、βは正の整数である。
Ｄは第１文書データ中に要素ｄが出現する確率であり、Ｒ_ｉは第２文書データ中に要素ｒ_ｉが出現する確率であり、Ｉ（Ｄ；Ｒ_ｉ）は前記確率変数ＤとＲ_ｉとの相互情報量である。

差分要素抽出部１５７には差分要素を抽出するための差分スコア閾値が設定されており、差分要素抽出部１５７は、差分スコア計算部１５６にて計算された差分スコアが前記閾値以上である要素を差分要素として抽出する。

図２１は、第４実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
要素抽出工程（ＳＴ４２０）にて通話音声記録と報告文書とからそれぞれ要素が抽出され、図５、図６に示される要素のテーブルがそれぞれ得られる。そして、差分スコア計算部によって、音声通話記録中の各要素（図５）に対して差分スコアが計算される（差分スコア計算工程、ＳＴ４３０）。
差分スコアは、通話音声記録中の任意の要素ｄに対して、前記式（１）を用いて算出される。ここでは前記βを１００として、通話音声記録中の各要素に対して差分スコアを算出すると、図２２に示す差分スコアのデータが得られる。

算出された差分スコアのデータは差分要素抽出部１５７に出力され、差分スコアに基づいて差分要素が抽出される（差分要素抽出工程ＳＴ４４０）。
すなわち、差分スコアが閾値以上である要素が差分要素として抽出される。
ここで、差分閾値を０．５に設定した場合、図２３のように差分要素が抽出される。

このように抽出された差分要素は差分データ記憶部１６０にバッファされていく（差分データ記憶工程ＳＴ４５０）。
差分要素のデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図２４は、差分要素を記録したデータテーブルの例である。このようにして収集された差分のデータに対して統計処理部１７０により統計処理が行われ（統計処理工程ＳＴ４６０）、出力部１８０に出力される（出力工程ＳＴ４７０）。

このような構成を備える第４実施形態によれば、差分スコアの計算値を用いて差分を抽出するので、同義語辞書や単語対応付けの学習データに頼ることなく差分要素の抽出を行うことができる。すなわち、要素同士の同一、類似、同義、類義といった対応を一つ一つ検討する手間が必要ないので、処理効率を高めることができる。また、差分要素抽出部１５７における差分スコアの閾値を任意に設定することができるため、抽出する差分の範囲を拾い出したい情報の性質に応じて広げたり狭めたりすることも任意となり、所望の情報を的確にマイニングする確度を高めると同時にテキストマイニングの効率を向上させることができる。

（第５実施形態）
次に、本発明の第５実施形態に係るテキストマイニング装置５００について説明する。
第５実施形態の基本的構成は第１実施形態に同様であるが、差分処理部５５０において差分スコア計算部１５６を備えている点に特徴を有する。
図２５は、第５実施形態の構成を示す図である。
第５実施形態において、差分処理部５５０は、要素対応付け部１５１と、差分要素抽出部１５２と、差分スコア計算部１５６と、を備える。
要素対応付け部１５１および差分要素抽出部１５２は、第１実施形態において説明した構成に同様である。
要素対応付け部によって二つの文書データの要素同士が対応付けられる。差分要素抽出部１５２によって一方の文書データのみに現れ、対応する要素を持たないものが差分要素として抽出される。

差分スコア計算部は、第４実施形態において説明した構成に同様である。
ただし、第５実施形態においては、差分スコア計算部１５６は、差分要素抽出部１５７にて抽出された各差分要素に対して差分スコアを計算する。そして、差分要素抽出部１５２にて抽出された差分要素に差分スコアが付された状態で差分データ記憶部１６０に記憶されていく。

図２６は、第５実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
要素対応付け工程（ＳＴ５３０）によって図７に示される要素対応付けの表が得られ、さらに、差分要素抽出工程（ＳＴ５４０）によって対応要素を持たない差分要素が抽出される（図８参照）。さらに、抽出された各差分要素に対して差分スコアが計算される。すると、図２７に示されるように差分要素ごとの差分スコアが得られる。
このように得られた差分要素と差分スコアとは差分データ記憶部１６０にバッファされていく（差分データ記憶工程ＳＴ５６０）。受付インデックス、担当者、顧客名、注文商品といった関連因子とともに差分要素および差分スコアがデータテーブルに整理されて記憶される（図２８参照）。
このようにして収集された差分のデータに対して統計処理部１７０により統計処理が行われる（統計処理工程ＳＴ５７０）。統計処理部１７０における統計処理工程（ＳＴ５７０）にあっては、差分要素ごとに算出された差分スコアを差分らしさの重みとして取り扱うことにより、一つのキーワードに対して抜き出される差分を単なる一様な差分集合としてではなく、さらに、確信度の高い差分の部分集合を抜き出す。処理結果は出力部１８０に出力される（出力工程ＳＴ５８０）。

このような構成を備える第５実施形態によれば、差分要素に対して差分スコアを計算し、差分スコアを考慮に入れて統計処理を行うので、二つの文書データの差分に着目するテキストマイニングにおいて、より確信度の高いテキストマイニングが可能となる。

なお、本発明は上記実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えうることはもちろんである。
上記実施形態においては本発明を実施する場合の詳細な構成を例示したが、上記実施形態に限定されることなく、本発明のテキストマイニング装置１０としては例えば図２９に示されるように要素抽出部１４と、差分処理部１５と、統計処理部１７と、を備えていればよい。
このような構成において、入力される文書データから要素抽出部によって文書データに含まれる文字列や単語等の要素を抽出し、抽出結果を差分処理部に出力する。
差分処理部は、抽出された要素同士を対比し、文書データ間の差分を抽出する。
そして、差分に対して統計処理部によって統計処理が行われ、結果が得られる。
このような構成によれば、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができるので、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。

差分処理部における差分の生成では、文書間に共通しない要素のみを差分として精度よく抽出可能な構成であることが好ましい。
差分抽出の精度が高いほど、差分に特徴的な情報をより有効に抽出できるという本発明の効果が期待できるからである。
ここで、差分として可読な文を抽出する差分の生成方法は、可読性と引き換えに差分の抽出精度を劣化させる恐れがあるため、本発明では可読性を有する文を差分として抽出する必要はない。本発明においては、差分要素の抽出精度が重要であり、差分の可読性は不要である。
また、あらかじめ特定の観点で重要情報を絞りこむ差分の生成も本発明に適した差分の生成方法とはいえない。テキストマイニングにおける統計量の評価に影響を与えるためである。

要素対応付け部において要素を対応付けるにあたっては、上記に説明した単語対応付けの手法の他、同義語辞書によって同一、類似、同義、類義の単語同士を対応付けてもよい。
上記第２実施形態および第３実施形態において、差分要素を抽出するにあたっては要素対応付け部による要素対応付けの後に対応要素が存在しないものを差分要素抽出部にて抽出する構成を採用したが、これに代えて、第４実施形態にて説明したように要素ごとに差分スコアを算出した後に差分スコアが所定閾値以上である要素を差分要素として抽出する構成を採用してもよい。

上記第３実施形態において、対応無し差分ブロックを抽出するにあたり、まず差分ブロック抽出部において差分要素を内包する差分ブロックを抽出したうえで対応要素をもつ差分ブロックを削除して対応無し差分ブロックを抽出する構成を説明したが、差分ブロック抽出部を備えていなくてもよい。すなわち、差分要素抽出部と対応要素抽出部とで差分要素と対応要素とをそれぞれ抽出しておいて、対応無し差分ブロック抽出部において差分要素を内包しかつ対応要素を内包しないブロックをもとの文書データから直に抽出してもよい。
さらには、第３実施形態において、差分要素抽出部および差分ブロック抽出部を備えずに、対応要素抽出部にて抽出した対応要素に対して、この対応要素を内包しないブロックをもとの文書データから対応無し差分ブロックとして抽出してもよい。

本発明は、各種論理素子等のハードウェアで構成されたものに限らず、ＣＰＵ（中央処理装置）、メモリ（記憶装置）等を備えたコンピュータに所定のプログラムを組み込んで、このコンピュータを上記実施形態にて説明した各機能部として動作させ、上記各工程の処理を実行させてもよい。すなわち、ＣＰＵやメモリを配置してコンピュータとして機能できるように構成し、このメモリに所定のプログラムをインターネット等の通信手段や、ＣＤ−ＲＯＭ、メモリカード等の記録媒体を介してインストールし、このインストールされたプログラムでＣＰＵ等を動作させて、各機能部の機能を実現させればよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年3月12日に出願された日本出願特願2008−062667号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、関連付けられた複数の文書データ間にある差異に注目するテキストマイニングに利用でき、例えば、一つの対象に対して複数の意見が収集される場合や、一つの対象に対して電子メール、ＦＡＸ、電話などの複数チャンネルから情報が得られる場合のテキストマイニングに利用できる。
より具体的には、特定対象に対して複数得られた自由記述のアンケートを分析するテキストマイニングや、コールセンターにおける通話音声記録と報告文書を分析するテキストマイニングなどが例として挙げられる。

Claims

関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段と、
該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段と、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段と、を備える
ことを特徴とするテキストマイニング装置。
請求項１に記載のテキストマイニング装置において、
前記要素抽出手段は、前記文書データに含まれる文字列、単語、文字Ｎグラム、単語Ｎグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上を前記要素として抽出する
ことを特徴とするテキストマイニング装置。
請求項２に記載のテキストマイニング装置において、
前記差分処理手段は、
前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニング装置。
請求項３に記載のテキストマイニング装置において、
前記差分スコア計算手段は、一の文書データの要素と他の文書データの要素との相互情報量をパラメータに含む指数関数の逆数に基づいて前記差分スコアを計算することを特徴とするテキストマイニング装置。
請求項３または請求項４に記載のテキストマイニング装置において、
前記差分要素抽出手段は、前記要素抽出手段にて抽出された一の文書データの要素のうち、他の文書データに対する前記差分スコアが所定閾値以上であって、かつ、他の文書データに含まれない要素を差分要素として抽出する
ことを特徴とするテキストマイニング装置。
請求項３または請求項４に記載のテキストマイニング装置において、
前記統計処理手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニング装置。
請求項６に記載のテキストマイニング装置において、
前記特徴度計算手段は、前記複数の差分に含まれる各差分要素に対して、該差分要素の特徴度を計算する際、該差分要素の、前記複数の一の文書データから抽出された差分における差分スコアの総和と、前記所定の幾つかの一の文書データから抽出された差分における差分スコアの総和とから計算する
ことを特徴とするテキストマイニング装置。
請求項２に記載のテキストマイニング装置において、
前記差分処理手段は、さらに、抽出された前記差分要素を内包しておりこの差分要素よりも大きな要素からなるブロックをもとの前記文書データから差分ブロックとして抽出する差分ブロック抽出手段を備え、
前記抽出された複数の差分ブロックを、一の文書データの他の文書データに対する差分として抽出する
ことを特徴とするテキストマイニング装置。
請求項８に記載のテキストマイニング装置において、
前記差分ブロック抽出手段は、構文構造、構文構造の部分構造、または文を前記差分ブロックの単位とする
ことを特徴とするテキストマイニング装置。
関連する一の文書データと他の文書データの組を複数入力して、該複数の文書データ組に含まれる各文書データから言語の要素を抽出し、
一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出して、該差分要素の集合を差分として出力し、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う
ことを特徴とするテキストマイニング方法。
請求項１０に記載のテキストマイニング方法において、
差分を出力する工程では、
一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出し、
抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出し、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニング方法。
請求項１１に記載のテキストマイニング方法において、
統計的に計算する処理を含んだテキストマイニング処理を行う工程では、
前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算し、
このとき、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニング方法。
コンピュータを、
関連する一の文書データと他の文書データの組を複数入力し、該複数の文書データ組に含まれる各文書データから言語の要素を抽出する要素抽出手段、
該要素抽出手段にて一の文書データから抽出された要素のうち他の文書データに含まれない内容に関する記述部分から抽出された要素を差分要素として抽出し、該差分要素の集合を差分として出力する差分処理手段、
該差分を複数入力し、該差分に含まれる各差分要素に対して、該差分要素の特徴度を統計的に計算する処理を含んだテキストマイニング処理を行う統計処理手段、として機能させるテキストマイニングプログラム。
請求項１３に記載のテキストマイニングプログラムにおいて、
前記差分処理手段は、
前記要素抽出手段にて一の文書データから抽出された要素が、他の文書データに含まれない内容に関する記述部分から抽出された要素である確からしさを差分スコアとして算出する差分スコア計算手段と、
前記要素抽出手段にて抽出された一の文書データの要素のうち、前記差分スコアが所定閾値以上である要素を差分要素として抽出する差分要素抽出手段と、を備え、
該差分要素の集合を差分として出力する
ことを特徴とするテキストマイニングプログラム。
請求項１４に記載のテキストマイニングプログラムにおいて、
前記統計処理手段は、
前記複数の差分に含まれる各差分要素に対して、該差分要素が所定の幾つかの一の文書データから抽出された差分に特徴的である度合いを該差分要素の特徴度として計算する特徴度計算手段を備え、
さらに、該特徴度計算手段は、該差分要素の差分スコアを加味して前記特徴度を計算する
ことを特徴とするテキストマイニングプログラム。