JP5472640B2

JP5472640B2 - テキストマイニング装置、テキストマイニング方法、及びプログラム

Info

Publication number: JP5472640B2
Application number: JP2010526563A
Authority: JP
Inventors: 開石川; 晃裕田村; 真一安藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-08-29
Filing date: 2009-08-28
Publication date: 2014-04-16
Anticipated expiration: 2029-08-28
Also published as: JPWO2010023938A1; US8751531B2; US20110161368A1; WO2010023938A1

Description

本発明は、音声認識から得られたテキストデータをマイニング対象とする、テキストマイニング装置、及びテキストマイニング方法に関する。

近年、大量のテキストデータの中から有益な情報を抽出する技術として、テキストマイニングが注目されている。テキストマイニングは、定型化されていない文章の集まりを、自然言語解析の手法を使って単語やフレーズに分割し、特徴語を抽出する。そして、特徴語の出現頻度や相関関係が分析され、分析者に有益な情報が提供される。テキストマイニングによれば、これまで人手で分析することが不可能であった、膨大な量のテキストデータの分析が可能となる。

このようなテキストマイニングの適用分野の一例として、自由記述形式のアンケートが挙げられる。この場合、テキストマイニングは、アンケートの回答結果をタイピング又は文字認識することによって得られたテキストデータに対して実行される（例えば、特許文献１、特許文献２及び非特許文献１参照。）。分析者は、テキストマイニングの結果を用いて、様々な分析や、仮説の検証を行うことができる。

また、テキストマイニングの適用分野の他の例としては、企業のコールセンターが挙げられる。コールセンターは、顧客とオペレータとの通話を録音した音声や、オペレータが応対の際にキー入力等によって作成したメモを、大量に蓄積している。これらの情報は、近年、企業にとって、消費者のニーズや、自社の製品及びサービスの改善点などを知るための重要な知識源となっている。

コールセンターへの適用の場合は、テキストマイニングは、通話の音声認識から得られたテキストデータ（音声認識テキストデータ）に対して、又はオペレータが作成した通話メモから得られるテキストデータ（通話メモテキストデータ）に対して実行される。いずれのテキストデータに対してテキストマイニングが実行されるかは、分析者が求める分析の観点によって決定される。

例えば、音声認識テキストデータは、オペレータと消費者との間の通話を全て網羅している。よって、製品やサービスに対する消費者の要望の抽出が目的である場合は、消費者の発話を全て網羅する必要があるため、音声認識テキストデータに対してテキストマイニングが実行される。

一方、通話メモテキストデータは、網羅する範囲は狭いが、オペレータが通話の中で重要であると判断した事項、更には、オペレータが通話の内容をヒントにして認識した事項や判断した事項を含んでいる。よって、他のオペレータも共有すべきベテランオペレータの判断ノウハウや、新人オペレータの判断ミスなどを抽出する場合等、オペレータの付加情報に着目した分析が求められる場合は、通話メモテキストデータに対してテキストマイニングが実行される。

但し、音声認識テキストデータは、殆どの場合、認識誤りを含んでいる。このため、音声認識テキストデータに対するテキストマイニングでは、認識誤りの影響により、特徴語の抽出が正確になされない場合がある。このような問題を解決するため、音声認識によって得られた単語候補に信頼度が付与された音声認識テキストデータ（例えば、非特許文献２参照。）を用いて、テキストマイニングを行うことが提案されている（例えば、特許文献３参照。）。特許文献３に記載のテキストマイニングにおいては、抽出された特徴語を計数する際に、信頼度に基づいた補正が行われ、認識誤りによる影響が低減される。

また、音声認識テキストデータに対するテキストマイニングは、上述のコールセンター以外の分野でも求められている。例えば、テレビやラジオで報道された内容から企業イメージを分析する場合や、会議などのコミュニケーションの場における会話内容を分析する場合等が挙げられる。前者の場合は、アナウンサー等の発話を音声認識することによって得られた音声認識テキストデータが用いられる。また、後者の場合は、会議などのコミュニケーションの場における参加者の会話を音声認識することによって得られた音声認識テキストデータが用いられる。

ところで、上記コールセンターの例で述べた、音声認識テキストデータ及び通話メモテキストデータは、同一の事象（通話）から別々のチャネルを介して得られる情報である。両者は、チャネルが異なる情報ではあるが、両者の情報源は同一である。よって、両者の特性を利用し、両者を相補的に用いるテキストマイニングを実行すれば、一方のテキストデータに対してテキストマイニングを行った場合や、単に両方それぞれに対してテキストマイニングを行った場合よりも、複雑な分析が可能になると考えられる。

具体的には、先ず、音声認識テキストデータは、通話メモテキストデータと共通の部分と、通話メモテキストデータには記述されていない通話音声に固有の部分とに分離される。同様に、通話メモテキストデータも、音声認識テキストデータと共通の部分と、音声認識テキストデータには記述されていない通話メモに固有の部分とに分離される。

次に、音声認識テキストデータの通話音声に固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話音声には出現するが、通話メモの記述から漏れている情報に対して、重点的な分析を実行する。そして、この分析により、通話メモとして記録すべきであったが、漏れてしまった情報が抽出される。抽出された情報は、通話メモの記述ガイドラインの改良に利用できる。

続いて、通話メモテキストデータの通話メモに固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話メモには出現するが、通話音声の音声認識テキストデータには現れない情報に対して、重点的な分析を実行する。この分析によれば、上述した通話メモテキストデータのみに対してテキストマイニングを実行する場合よりも、確実に、経験を積んだオペレータの判断ノウハウを抽出できる。抽出された判断ノウハウは、新人オペレータの教育材料に活用できる。

このような、同一の事象から別々のチャンネルを介して得られる複数のテキストデータに対して行うテキストマイニング（以下「クロスチャネルテキストマイニング」という。）は、他の例にも利用できる。

例えば、上述した、報道された内容から企業イメージを分析する場合は、アナウンサー等の発話からの音声認識テキストデータと、発話原稿や新聞記事等のテキストデータとに対してクロスチャネルテキストマイニングが実行される。更に、上述した、会議などのコミュニケーションの場における会話内容を分析する場合は、参加者の会話からの音声認識テキストデータと、その場において参加者が参照した文書、参加者が作成したメモや議事録等のテキストデータとに対してクロスチャネルテキストマイニングが実行される。

なお、クロスチャネルテキストマイニングにおいて、マイニング対象は、音声認識テキストデータや、キー入力によって作成されたテキストデータである必要は無い。例えば、上述したアンケートや議事録等を文字認識することによって得られた文字認識テキストデータ（非特許文献３参照。）等も、マイニング対象となる。

また、クロスチャネルテキストマイニングを実行する場合は、一方のテキストデータと他方のテキストデータとの間で、それぞれの共通部分と固有の部分とを明確に分けることが重要である。明確でない場合は、分析精度が大きく低下してしまうからである。

特開２００１−１０１１９４号公報特開２００４−１６４０７９号公報特開２００８−０３９９８３号公報

H. Li and K. Yamanishi, "Mining from open answers inquestionnaire data", In Proceedings of the seventh ACM SIGKDDinternational conference on Knowledge discovery and data mining, pp.443-449,2001. Frank Wessel 他, "Confidence Measures for Large Vocabulary Continuous SpeechRecognition", IEEE Trans. Speech and Audio Processing, vol. 9, No. 3,March 2001, pp.288-298. John F. Pitrelli, Michael P. Perrone, "Confidence-scoring post-processing for off-linehandwritten-character recognition verification", In Proceedings of the seventh InternationalConference on Document Analysis and Recognition (ICDAR), vol. 1, August 2003,pp.278-282.

しかしながら、音声認識や文字認識といったコンピュータ処理によって生成されたテキストデータには、殆どの場合、誤りが含まれている。このため、コンピュータ処理によって生成されたテキストデータと、それ以外の手法で作成された別のテキストデータとの間で、それぞれの固有の部分と共通の部分とを判別し、これらを分離することは、極めて困難である。この結果、クロスチャネルテキストマイニングの実用化も難しい状況にある。

また、上述したように、上記特許文献３は、音声認識の認識誤りがテキストマイニングに影響を与える場合に、それを軽減する技術を開示しているが、この技術はクロスチャネルテキストマイニングへの適用を考慮した技術ではない。つまり、特許文献３の発明は、音声認識テキストデータと別のテキストデータとの間で、両者の固有の部分と共通の部分とを判別する際に、認識誤りが与える影響を除去するものではない。

本発明の目的は、上記問題を解消し、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータ間において、それぞれの固有部分を精度良く判別し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供することにある。

上記目的を達成するために本発明におけるテキストマイニング装置は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
前記複数のテキストデータそれぞれに信頼度が設定されており、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とする。

更に、上記目的を達成するため本発明におけるテキストマイニング方法は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するためのテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とする。

また、上記目的を達成するため本発明におけるプログラムは、コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムであって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを実行させる、ことを特徴とする。

以上のように、本発明におけるテキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体によれば、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータ間において、それぞれの固有部分が精度良く判別される。

図１は、本発明の実施の形態１におけるテキストマイニング装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１においてテキストマイニングの対象となるデータの一例を示す図である。図３は、信頼度が設定された音声認識テキストデータの一例を示す図である。図４は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。図５は、本発明の実施の形態１におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。図６は、テキストマイニング処理の結果の一例を示す図である。図７は、本発明の実施の形態１におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。図８は、本発明の実施の形態２におけるテキストマイニング装置の概略構成を示すブロック図である。図９は、本発明の実施の形態２におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

（実施の形態１）
以下、本発明の実施の形態１におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図１〜図７を参照しながら説明する。最初に、本発明の実施の形態１におけるテキストマイニング装置の構成について図１〜図６を用いて説明する。

図１は、本発明の実施の形態１におけるテキストマイニング装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１においてテキストマイニングの対象となるデータの一例を示す図である。図３は、信頼度が設定された音声認識テキストデータの一例を示す図である。図４は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。図５は、本発明の実施の形態１におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。図６は、テキストマイニング処理の結果の一例を示す図である。

図１に示すテキストマイニング装置１は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行する。図１に示すように、テキストマイニング装置１は、固有部分抽出部６を備えている。また、複数のテキストデータそれぞれには、信頼度が設定されている。

また、固有部分抽出部６は、複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する。ここで、各テキストデータの他のテキストデータに対する固有部分とは、各テキストデータそれぞれを構成する単語又はフレーズであって、他のテキストデータに全く含まれていなもの、又は含まれていても僅かであるものをいう。

また、「信頼度」は、テキストデータを構成する単語が適切であることの度合いを示している。例えば、コンピュータ処理によって生成されたテキストデータにおいては、「信頼度」は、テキストデータを構成する各単語がコンピュータ処理の処理結果として正しいかどうかの指標となる。

よって、固有部分抽出部６による、信頼度を用いた固有部分の抽出によれば、コンピュータ処理による誤りが各テキストデータの固有部分の判別に対して与える影響を小さくすることができる。この結果、これらの固有部分の判別精度が向上され、テキストマイニング装置１は、従来困難であったクロスチャネルテキストマイニングの実現を可能にする。

なお、本発明において「コンピュータ処理」とは、一定のアルゴリズムに従ってコンピュータによって実行される解析処理をいう。また、「コンピュータ処理によって得られたテキストデータ」とは、コンピュータ処理によって自動的に生成されるテキストデータをいう。コンピュータ処理の具体例としては、音声認識処理、文字認識処理、機械翻訳処理といった処理が挙げられる。

続いて、テキストマイニング装置１の構成について更に具体的に説明する。また、以下においては、テキストマイニング装置１をコールセンターに適用する例について説明する。本実施の形態１では、コールセンターで録音された通話音声データＤ１（図２参照）を音声認識（コンピュータ処理）して得られたテキストデータと、通話メモテキストデータＤ２（図２参照）とが、マイニング対象となる。

図１に示すように、テキストマイニング装置１には、図２に示す、通話音声データＤ１、通話メモテキストデータＤ２、及び付帯情報Ｄ３といった三種類のデータが入力される。通話音声データＤ１は、コールセンターでのオペレータと顧客とのやりとりを記録した音声データである。図２において「Ａ」はオペレータを示し、「Ｂ」は顧客を示している。通話音声データＤ１を音声認識して得られるテキストデータが、上述の音声認識テキストデータとなる。

通話メモテキストデータＤ２は、オペレータが通話の際にメモとして作成したテキストデータであり、コンピュータ処理によって得られたテキストデータではない。付帯情報Ｄ３は、通話音声データＤ１及び通話メモテキストデータＤ２に付随するデータであり、図２には一部のみが示されている。付帯情報Ｄ３は、主に、後述する特徴度の算出において利用される。

また、通話音声データＤ１は、オペレータと顧客との通話の開始から終了までを１単位（１レコード）とし、通話メモテキストデータＤ２及び付帯情報Ｄ３は、１レコード毎に作成される。図２には、１レコードの通話音声データＤ１と、対応する通話メモテキストデータＤ２及び付帯情報Ｄ３とが示されている。実際には、レコード番号ｌのレコードにおける通話音声データＤ１（ｌ）と、これに対応する通話メモテキストデータＤ２（ｌ）及び付帯情報Ｄ３（ｌ）とを１組として、複数組がテキストマイニング装置１に入力される。なお、「ｌ」は、１からＬまでの自然数である（ｌ＝１、２、・・・、Ｌ）。

また、図１に示すように、テキストマイニング装置１は、固有部分抽出部６に加えて、データ入力部２と、音声認識部３と、言語処理部５と、マイニング処理部１０とを備えている。更に、テキストマイニング装置１には、入力装置１５及び出力装置１６が接続されている。入力装置１５の具体例としては、キーボードや、マウス等が挙げられる。出力装置１６の具体例としては、液晶ディスプレイ等の表示装置や、プリンタ等が挙げられる。また、入力装置１５及び出力装置１６は、テキストマイニング装置１にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。

先ず、各レコードｌにおける通話音声データＤ１（ｌ）、対応する通話メモテキストデータＤ２（ｌ）、及び同じく対応する付帯情報Ｄ３（ｌ）といった入力データは、データ入力部２に入力される。このとき、これらのデータは、外部のコンピュータ装置からネットワークを介して、直接、データ入力部２に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、データ入力部２としては、外部とテキストマイニング装置１とを接続するためのインターフェイスが用いられる。また、後者の場合は、データ入力部２としては、読取装置が用いられる。

これらのデータが入力されると、データ入力部２は、通話音声データＤ１（ｌ）を音声認識部３に出力し、通話メモテキストデータＤ２（ｌ）を言語処理部５に出力する。また、データ入力部２は、付帯情報Ｄ３（ｌ）をマイニング処理部１０に出力する。

音声認識部３は、通話音声データＤ１（ｌ）に対して音声認識を実行し、音声認識テキストデータを生成する。また、音声認識部３は、信頼度設定部４を備えている。信頼度設定部４は、音声認識テキストデータに対して、それを構成する単語毎に、信頼度を設定する。信頼度が設定された音声認識テキストデータは、固有部分抽出部６に出力される。

ここで、図２に示した通話音声データＤ１に含まれる会話を用いて、音声認識部３における処理を図３及び図４に基づいて説明する。会話としては、通話音声データＤ１に含まれる多数の会話のうち、「保温機能は付いていますか」と、「白は無いですか。」とが用いられることとする。

先ず、音声認識部３は、各レコードｌにおける通話音声データＤ１（ｌ）毎に、音声認識を行う。そして、音声認識部３は、図３に示すように、時間フレームｍ毎に候補となる単語ｗ_ｉを抽出する。図３において、横軸に付された番号はフレーム番号であり、一つのレコードｌ内においてフレーム番号は連続している。

また、同一の時間フレームｍに複数の候補が存在する場合は、音声認識部３は、複数個の単語を抽出する。図３の例では、フレーム番号２０において、「保存」と「保温」の二つの候補が抽出されている。また、フレーム番号３３において、「色」と「白」の二つが抽出されている。

また、会話の言語が英語である場合も、音声認識部３は、時間フレームｍ毎に候補となる単語ｗ_ｉを抽出する。例えば、会話が、図３の例の英訳に相当する「Does it have heat retaining function ?」及び「Do you have white color ?」である場合は、音声認識部３は、図４に示すように、単語ｗ_ｉを抽出する。

但し、図４の例では、フレーム番号２３−２４において、「heat retaining」と「eat remaining」の二つの候補が抽出され、フレーム番号３７において、「color」と「collar」の二つの候補が抽出されている。また、図４においても、横軸に付された番号はフレーム番号であり、一つのレコードｌ内においてフレーム番号は連続している。

なお、音声認識部３は全ての単語を候補として抽出する必要はない。本実施の形態１では、音声認識部３は、言語の種類に拘わらず、助詞や前置詞等の単独では意味を成さない単語については候補として抽出せず、名詞、動詞、副詞といった自立語の品詞のみを候補として抽出する。

信頼度設定部４は、単語ｗ_ｉ毎に、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を設定する。図３及び図４においては、各単語の下側に併記された１以下の数字が信頼度を表している。また、本実施の形態１では、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）は、特に限定されるものではなく、音声認識テキストデータを構成する単語が認識結果として正しいかどうかの指標となるものであれば良い。

例えば、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）としては、上述した非特許文献２に開示された「Confidence Measure」を用いることができる。具体的には、前提として、入力音声又はその音声に対して観測された音響特徴量が与えられているとする。この場合、単語ｗ_ｉの信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）は、単語ｗ_ｉの事後確率として、入力音声又は音響特徴量に対する認識結果として得られるワードグラフを元にForward-Backwardアルゴリズムを用いて計算可能である。

また、本実施の形態１は、予め、テキストマイニング装置１の外部の音声認識装置によって音声認識が行われ、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置１への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置１は音声認識部３を備える必要がなく、音声認識テキストデータは、データ入力部２を介して、固有部分抽出部６に入力される。但し、テキストマイニング装置１が、音声認識部３を備える場合は、音声認識に用いられる言語モデルや音響モデルの調整が容易となり、音声認識の認識精度の向上が図られる。

言語処理部５は、通話メモテキストデータに対して、形態素解析、係り受け解析、同義語処理、不用語処理等の言語処理を実行する。また、言語処理部５は、通話メモテキストデータを、音声認識テキストデータの単語ｗ_ｉに対応するように、単語ｗ_ｊ毎に区切り、単語列を生成する。単語列は、固有部分抽出部６に出力される。

本実施の形態１では、固有部分抽出部６は、各テキストデータを構成する単語毎に、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）又はスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出し、算出された値に基づいて、各テキストデータの固有部分を抽出する。スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）は、音声認識テキストデータを構成する各単語がその固有部分に該当する度合いを示している。また、スコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、音声メモテキストデータを構成する各単語がその固有部分に該当する度合いを示している。

上記機能を実現するため、固有部分抽出部６は、頻度算出部７と、スコア算出部８と、固有部分判定部９とを備えている。頻度算出部７には、各レコードｌにおける通話音声データＤ１（ｌ）から得られた音声認識テキストデータと、言語処理部５が通話メモテキストデータＤ２（ｌ）から生成した単語列とが入力される。

頻度算出部７は、先ず、音声認識テキストデータを構成している各単語ｗ_ｉについて、既に求められている信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を用いて、各レコードｌに対する信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）を算出する。具体的には、頻度算出部７は、下記の式（数１）を用いて、全ての単語ｗ_ｉについて計算を行う。

頻度算出部７は、次に、言語処理部５が出力した単語列を用いて、通話メモテキストデータを構成している各単語ｗ_ｊに対して信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する。本実施の形態１では、通話メモテキストデータに対しても信頼度が設定されるため、この点からも、固有部分かどうかの判別の精度が向上する。

但し、本実施の形態１では、通話メモテキストデータは、オペレータによるキー入力によって生成されている。よって、通話メモテキストデータ中に含まれている単語であれば、その信頼度は「１．０」となる。なお、通話メモテキストデータ中に含まれていない単語の信頼度は、「０．０」となる。

続いて、頻度算出部７は、単語ｗ_ｉについての信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、単語ｗ_ｊについての信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、それぞれの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）を求める。また、頻度算出部７は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、全てのレコード（レコード（１）〜レコード（Ｌ））に対する両者の共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）も求める。

具体的には、頻度算出部７は、下記の式（数２）を用いて、単語ｗ_ｉの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）を求め、下記の式（数３）を用いて、単語ｗ_ｊの出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）を求める。また、頻度算出部７は、下記の式（数４）を用いて、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）を求める。その後、頻度算出部７は、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）をスコア算出部８に出力する。

スコア算出部８は、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、及び共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）を用いて、上述したスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。具体的には、スコア算出部８は、先ず、ｗ_ｉとｗ_ｊとを離散確率変数とする相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出する。

ここで、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、及び共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）の計数対象である全レコード数が、「Ｌ」であるとする。また、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）の同時分布関数をＰ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とする。Ｐ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）は、下記の式（数５）によって算出できる。

上記の式（数５）より、Ｐ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）は、ある１レコードにおいて、単語ｗ_ｉが音声認識テキストデータＣａｌｌに出現し、且つ、単語ｗ_ｊが通話メモテキストデータＭｅｍｏに出現する確率事象に対する、同時分布関数であることが分かる。

また、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）の周辺確率分布関数をＰ_Ｃａｌｌ（ｗ_ｉ）及びＰ_Ｍｅｍｏ（ｗ_ｊ）とする。Ｐ_Ｃａｌｌ（ｗ_ｉ）は下記の式（数６）によって算出される。また、Ｐ_Ｍｅｍｏ（ｗ_ｊ）は、下記の式（数７）によって算出される。

上記の式（数６）より、Ｐ_Ｃａｌｌ（ｗ_ｉ）は、ある１レコードにおいて、単語ｗ_ｉが音声認識テキストデータＣａｌｌに出現する確率事象に対する、周辺確率分布関数であることが分かる。また、上記の式（数７）より、Ｐ_Ｍｅｍｏ（ｗ_ｊ）は、ある１レコードにおいて、単語ｗ_ｊが通話メモテキストデータＭｅｍｏに出現する確率事象に対する、周辺確率分布関数であることが分かる。

そして、ｗ_ｉとｗ_ｊとを離散確率変数とする相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）は、下記の式（数８）を用いて算出することができる。

次に、スコア算出部８は、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を利用して、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ；ｌ）を算出する。本実施の形態１では、スコアＳ_ｃａｌｌ（ｗ_ｉ；ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ；ｌ）としては、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）に対して単調に減少する関数が用いられる。具体的には、スコアＳ_ｃａｌｌ（ｗ_ｉ；ｌ）は、下記の式（数９）によって算出され、スコアＳ_Ｍｅｍｏ（ｗ_ｊ；ｌ）は、下記の式（数１０）によって算出される。なお、式（数９）及び式（数１０）において、βは、０（ゼロ）より大きい任意の定数である。算出されたスコアＳ_ｃａｌｌ（ｗ_ｉ；ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ；ｌ）は、固有部分判定部９に出力される。

このようにして算出されたスコアは、音声認識テキストデータや音声メモテキストデータに設定された信頼度の値に応じて変動する。つまり、スコアは、音声認識における認識誤りに応じても変動する。よって、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を用いれば、後述する固有部分の判定において、判定精度の向上が図られる。

なお、本実施の形態１において、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の算出方法は、上記の算出方法に限定されるものではない。スコアＳ（ｗ_ｉ，ｌ）及びスコアＳ（ｗ_ｊ，ｌ）は、固有部分かどうかの判定に使用できるものであれば良い。

固有部分判定部９は、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を、予め設定された閾値と対比し、固有部分かどうかを判定する。本実施の形態１では、固有部分判定部９は、スコアが閾値以上の場合に、その単語を固有部分と判定する。例えば、図５に示すように、音声認識テキストデータを構成する単語ｗ_ｉと通話メモテキストデータを構成する単語ｗ_ｊについてスコアが算出され、閾値がスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）のいずれに対しても０．５００に設定されていたとする。

この場合は、固有部分判定部９は、音声認識テキストデータの固有部分として、「広告」と「白」を抽出する。また、固有部分判定部９は、通話メモテキストデータの固有部分として「今後」、「カラーバリエーション」、「増加」、「新たな」、「付加」、及び「検討」を抽出する。

また、本実施の形態１において、閾値の大きさは、特に限定されず、後述するテキストマイニング処理の結果に基づいて、適宜選択すれば良い。但し、クロスチャネルテキストマイニングにおいて、良好な結果を得る点からは、閾値は、予め実験を行い、その実験結果に基づいて設定するのが好ましい。

具体的には、固有部分が予め設定された音声データと、同じく固有部分が予め設定されたテキストデータとを実験データとして用い、上述した手順でスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。そして、各データで予め設定されている各固有部分が、抽出されるように、閾値を設定する。この場合、閾値の設定は、スコア毎に行うことができる。また、設定された閾値の信頼性を高めるため、できるだけ多くの実験データを用意しておくのが好ましい。

マイニング処理部１０は、音声認識テキストデータの固有部分と、通話メモテキストデータの固有部分とのそれぞれに対してマイニング処理を行うことができる。言い換えると、マイニング処理部１０は、いわゆるクロスチャネルテキストマイニングを実行することができる。よって、テキストマイニング装置１によれば、クロスチャネルテキストマイニングが実行できない従来のテキストマイニング装置に比べて、より深い分析が可能となる。

なお、マイニング処理部１０は、クロスチャネルテキストマイニング以外のテキストマイニング、即ち、音声認識テキストデータ全体又は通話メモテキストデータ全体に対してのテキストマイニングを実行することもできる。

また、本実施の形態１においては、マイニング処理部１０は、マイニング処理として、特徴語を抽出し、その特徴度を算出する。「特徴語」とは、マイニング処理によって抽出される単語やフレーズをいう。例えば、固有部分についてマイニング処理が行われる場合は、固有部分と判断された単語の中から、特徴語が抽出される。「特徴度」は、抽出された特徴語が、任意のカテゴリー（例えば、付帯情報Ｄ３において特定の値を持つレコード集合が挙げられる。）において、どの程度特徴的であるかの度合いを示している。

上記の処理を行うため、マイニング処理部１０は、マイニング処理管理部１１と、特徴語計数部１２と、特徴度算出部１３と、マイニング結果出力部１４とを備えている。特徴語計数部１２は、音声認識テキストデータ及び通話メモテキストデータの固有部分として判断された単語に対して、各単語が、対応するテキストデータにおいて、或いは、全てのテキストデータにおいて何回出現したかカウントする。これにより、出現頻度及び総出現頻度が求められる（図６参照）。

図６の例では、特徴語の計数は、複数のレコードに対して行われている。本実施の形態１では、特徴語の計数の対象となるレコードの数は特に限定されるものではない。また、クロスチャネルテキストマイニングが行われない場合は、特徴語計数部１２は、音声認識テキストデータ又は通話メモテキストデータに含まれる全ての単語（意味をなさない単語を除く）に対して、出現頻度をカウントする。

特徴度算出部１３は、特徴語計数部１２で得られた出現頻度や総出現頻度を用いて特徴度（図６参照）を算出する。特徴度の算出方法は、特に限定されるものではなく、マイニングの目的等に応じて、種々の統計解析技術等を利用して行うことができる。

具体的には、特徴度算出部１３は、特定のカテゴリーにおける、各単語の頻度、対数尤度比、χ２値、イエーツ補正χ２値、自己相互情報量、ＳＥ、ＥＳＣなどの統計的尺度を、単語の特徴量として計算し、得られた値を特徴度とすることができる。なお、特定のカテゴリーとしては、上述したように、例えば、付帯情報Ｄ３において分析者が指定する特定の値を持つレコード集合等が挙げられる。また、特徴度の算出には、重回帰分析、主成分分析、因子分析、判別分析、クラスター解析などの統計解析技術を用いることもできる。

また、マイニング処理管理部１１は、入力装置１５を介して、ユーザが入力したマイニング条件を受け付け、受け付けた条件に応じて、特徴語計数部１２及び特徴度算出部１３を動作させている。例えば、ユーザが、音声認識テキストデータの固有部分に対してのみテキストマイニングを行う旨を指示した場合は、マイニング処理管理部１１は、特徴語計数部１２に、音声認識テキストデータの固有部分を対象として特徴語の計数を実施させる。また、マイニング処理管理部１１は、特徴度算出部１３に対しては、音声認識テキストデータの固有部分に対して特徴度の算出を行わせる。

マイニング結果出力部１４は、図６に示すようなマイニング結果を出力装置１６に出力する。図６においては、マイニング結果は、特徴語、出現頻度、総出現頻度、及び特徴度を含んでいる。また、本実施の形態１では、クロスチャネルテキストマイニングが実行されるため、音声認識テキストデータと通話メモテキストデータとの両方についてのマイニング結果が出力される。また、マイニング結果は、表示装置が出力装置１６である場合は、表示画面に表示される。

次に、本発明の実施の形態１におけるテキストマイニング方法について、図７を用いて説明する。図７は、本発明の実施の形態１におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

本実施の形態１におけるテキストマイニング方法は、図１に示したテキストマイニング装置１を動作させることによって実施できる。このため、以降において、本実施の形態１におけるテキストマイニング方法の説明は、適宜図１〜図６を参酌しながら、図１に示したテキストマイニング装置１の動作の説明と共に行う。

先ず、レコード（１）〜レコード（Ｌ）それぞれの通話音声データＤ１（ｌ）、通話メモテキストデータＤ２（ｌ）、及び付帯情報Ｄ３（ｌ）が、テキストマイニング装置１のデータ入力部２に入力される。このとき、各レコードｌ（ｌ＝１、２、・・・、Ｌ）における、通話音声データＤ１（ｌ）、通話メモテキストデータＤ２（ｌ）、及び付帯情報Ｄ３（ｌ）は、レコード番号が同一のものを一つの組として、組毎に入力される。次に、図７に示すように、音声認識部３は、音声認識を行い、候補となる単語ｗ_ｉを抽出して音声認識テキストデータを作成する（ステップＡ１）。

また、ステップＡ１においては、信頼度設定部４は、音声認識テキストデータに対して、それを構成する単語ｗ_ｉ毎に、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を設定する。なお、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置１への入力前に作成されている場合は、ステップＡ１は省略される。

続いて、言語処理部５が、通話メモテキストデータに対して、言語処理を実行する（ステップＡ２）。これにより、通話メモテキストデータは、単語ｗ_ｊの単語列となり、単語列となった状態で、出力される。なお、ステップＡ２は、ステップＡ１の前に実行されても良いし、ステップＡ１と同時に実行されても良い。

次に、頻度算出部７は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を上記の式（数１）に当てはめて、各レコードｌに対する単語ｗ_ｉの信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）を算出する（ステップＡ３）。更に、頻度算出部７は、通話メモテキストデータに対しても、単語ｗ_ｊ毎に、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する（ステップＡ４）。

続いて、頻度算出部７は、単語ｗ_ｉの信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、単語ｗ_ｊの信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、それぞれの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）と、全てのレコード（レコード（１）〜レコード（Ｌ））に対する両者の共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とを求める（ステップＡ５）。ステップＡ５では、上記の式（数２）〜（数４）が用いられる。

次に、頻度算出部７での処理（ステップＡ３〜Ａ５）が終了すると、スコア算出部８が、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）と、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とを用いて、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する（ステップＡ６）。スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の算出は、レコード（１）〜レコード（Ｌ）それぞれについて行われる。具体的には、上述したように、スコア算出部８は、上記の式（数５）〜（数８）を用いて、相互情報量Ｉ（ｗ_ｉ，ｗ_ｊ）を算出した後、これを上記の式（数９）と（数１０）とに当てはめる。ステップＡ６の結果、図５に示すデータが得られる。

次に、固有部分判定部９は、レコード（１）〜レコード（Ｌ）それぞれの各単語について、対応するスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）又はスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）が、予め設定された閾値以上となっているかどうかを判定し、閾値以上となった単語を固有部分であると判定する（ステップＡ７）。ステップＡ７において固有部分であると判定された単語を特定する情報が、マイニング処理部１０に送られる。

次いで、マイニング処理部１０がマイニング処理を実行する（ステップＡ８）。ステップＡ８の実行により、特徴語の計数処理及び特徴度の算出が行われる。ステップＡ８の結果、図６に示すデータが得られる。

その後、マイニング結果出力部１４が、ステップＡ８で得られた結果を出力装置１６に出力する（ステップＡ９）。ステップＡ９の実行後、テキストマイニング装置１は、処理を終了する。

このように、本実施の形態１におけるテキストマイニング方法によれば、音声認識テキストデータの固有の部分と、非音声認識テキストデータの固有部分との判別において、音声認識で発生する認識誤りの影響を最小限とできる。この結果、これらの固有部分の判別精度が向上され、本実施の形態１におけるテキストマイニング方法は、従来困難であったクロスチャネルテキストマイニングの実現を可能にする。

また、本実施の形態１におけるプログラムは、コンピュータに、図７に示すステップＡ１〜Ａ９を実行させる命令を含むプログラムであれば良い。この場合、コンピュータに、この本実施の形態１におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置１を実現することができる。更に、この場合、コンピュータのＣＰＵ（Central Processing Unit）は、音声認識部３、言語処理部５、固有部分抽出部６、及びマイニング処理部１０として機能し、ステップＡ１〜Ａ９の処理を行なう。

また、本実施の形態１におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

（実施の形態２）
次に、本発明の実施の形態２におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図８及び図９を用いて説明する。最初に、本発明の実施の形態２におけるテキストマイニング装置の構成について図８を用いて説明する。図８は、本発明の実施の形態２におけるテキストマイニング装置の概略構成を示すブロック図である。

図８に示すテキストマイニング装置２０は、音声認識テキストデータと、文字認識を行うことによって得られたテキストデータ（文字認識テキストデータ）とをマイニング対象とする。このため、テキストマイニング装置２０には、スキャナー等の光学読取装置から出力された文書の画像データＤ４が入力される。

なお、本実施の形態２においても、レコード番号１〜レコード番号Ｌまでのレコードがテキストマイニング装置２０に入力される。また、レコード番号ｌ（ｌ＝１、２、・・・、Ｌ）のレコードにおける通話音声データＤ１（ｌ）と、これに対応する画像データＤ４（ｌ）と、同じく対応する付帯情報Ｄ３（ｌ）とを１組として、複数組がテキストマイニング装置２０に入力される。

図８に示すように、テキストマイニング装置２０は、各レコードｌに対応する文書の画像データＤ４（ｌ）毎に、文字認識を行うため、実施の形態１において図１に示された言語処理部５の代わりに、文字認識部２１を備えている。

本実施の形態２においても、テキストマイニング装置２０は、実施の形態１と同様に、コールセンターに適用される。各レコードｌに対応する画像データＤ４（ｌ）の元となった文書は、オペレータが手書きで作成したメモや、顧客から送られてきたＦＡＸ等である。

文字認識部２１は、各レコードｌに対応する画像データＤ４（ｌ）毎に、文字認識を行い、各レコードｌに対応する文字認識テキストデータを生成する。また、文字認識部２１は、文字認識テキストデータを構成する単語を抽出し、単語毎に信頼度を設定する。この場合の信頼度は、文字認識テキストデータを構成する単語が入力画像の認識結果として正しいかどうかの指標となるものであれば良い。

具体的には、文字認識テキストデータ中の単語の信頼度としては、入力画像データＤ４（ｌ）、又は入力画像データＤ４（ｌ）から観測された文字認識の特徴量が与えられた場合における、単語の事後確率を用いることができる。具体的には、この場合の事後確率としては、上述した非特許文献３に開示された「Estimated posterior probability」を用いることができる。

なお、上述した点以外については、テキストマイニング装置２０は、図１に示したテキストマイニング装置１と同様に構成されている。よって、データ入力部２、音声認識部３、固有部分抽出部６及びマイニング処理部１０は、実施の形態１の例と同様に機能する。本実施の形態２においては、音声認識テキストデータと文字認識テキストデータとに対して、固有部分の抽出が行われ、その後、クロスチャネルマイニングが実行される。

また、本実施の形態２は、予め、テキストマイニング装置２０の外部の文字認識装置によって文字認識が行われ、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置２０への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置２０は文字認識部２１を備える必要がなく、文字認識テキストデータは、データ入力部２を介して、固有部分抽出部６に入力される。

次に、本発明の実施の形態２におけるテキストマイニング方法について、図９を用いて説明する。図９は、本発明の実施の形態２におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

本実施の形態２におけるテキストマイニング方法は、図８に示したテキストマイニング装置２０を動作させることによって実施できる。以降においては、本実施の形態２におけるテキストマイニング方法の説明は、適宜図１〜図６を参酌しながら、図８に示したテキストマイニング装置２０の動作の説明と共に行う。

先ず、レコード（１）〜レコード（Ｌ）それぞれの通話音声データＤ１（ｌ）、画像データＤ４（ｌ）、及び付帯情報Ｄ３（ｌ）が、テキストマイニング装置２０のデータ入力部２に入力される。このとき、各レコードｌ（ｌ＝１、２、・・・、Ｌ）における、通話音声データＤ１（ｌ）、画像データＤ４（ｌ）、及び付帯情報Ｄ３（ｌ）は、レコード番号が同一のものを一つの組として、組毎に入力される。

次に、図９に示すように、音声認識部３は、音声認識を行い、音声認識テキストデータを作成する（ステップＡ１１）。ステップＡ１１は、図７に示したステップＡ１と同様のステップである。

次に、文字認識部２１が、各レコードｌに対応する画像データＤ４（ｌ）それぞれに対して、文字認識を実行する（ステップＡ１２）。これにより、各画像データＤ４（ｌ）から文字認識テキストデータが生成され、更に、文字認識テキストデータを構成する単語ｗ_ｊの抽出、単語ｗ_ｊ毎の信頼度の設定が行われる。なお、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置２０への入力前に作成されている場合は、ステップＡ１２は省略される。また、ステップＡ１２は、ステップＡ１１の前に実行されても良いし、ステップＡ１１と同時に実行されても良い。

次に、頻度算出部７は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）の算出（ステップＡ１３）、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）の算出（ステップＡ１４）を実行する。ステップＡ１３及びステップＡ１４は、それぞれ、図７に示したステップＡ３及びＡ５と同様のステップである。

続いて、スコア算出部１０によるスコアの算出（ステップＡ１５）、及び固有部分判定部９による固有部分の判定（ステップＡ１６）が行われる。ステップＡ１５及びＡ１６は、それぞれ、図７に示したステップＡ６及びＡ７と同様のステップである。

その後、マイニング処理部１０によるマイニング処理（ステップＡ１７）、マイニング結果出力部１４によるマイニング結果の出力（ステップＡ１８）が行われ、処理が終了する。ステップＡ１７及びステップＡ１８は、それぞれ、図７に示したステップＡ８及びＡ９と同様のステップである。

このように、本実施の形態２によれば、音声認識テキストデータの固有部分と、文字認識テキストデータの固有部分とを、精度良く判別でき、両者を対象としたクロスチャネルテキストマイニングを実行することができる。

また、本実施の形態２におけるプログラムは、コンピュータに、図９に示すステップＡ１１〜Ａ１８を実行させるプログラムであれば良い。この場合、コンピュータに、この本実施の形態２におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置２０を実現することができる。更に、この場合、コンピュータのＣＰＵ（Central Processing Unit）は、音声認識部３、文字認識部２１、固有部分抽出部６、及びマイニング処理部１０として機能し、ステップＡ１１〜Ａ１８の処理を行なう。

また、本実施の形態２におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

実施の形態１及び２は、テキストマイニング装置がコールセンターに適用される例を示しているが、テキストマイニング装置の適用例は、これに限定されるものではない。テキストマイニング装置は、テレビやラジオで報道された内容から企業イメージを分析する場合や、会議などのコミュニケーションの場における会話内容を分析する場合等にも適用できる。また、実施の形態１及び２では、固有部分の抽出は、二つのテキストデータに対して行われているが、これに限定されるものではない。固有部分の抽出は、三つ以上のテキストデータに対して行われていても良い。

また、上述した実施の形態１は、誤りを含み得る音声認識テキストデータと、誤りを含まない通話メモテキストデータとの組を、テキストマイニングの対象とする例について説明している。上述した実施の形態２は、誤りを含み得る音声認識テキストデータと、同じく誤りを含みうる文字認識テキストデータとの組みを、テキストマイニングの対象とする例について説明している。但し、本発明は、上記の組み合わせを対象とする場合に限定されず、上記の組み合わせ以外の組み合わせに対しても、テキストマイニングを実行することができる。

本発明は、テキストデータの組のそれぞれから、その構成要素である単語集合と、その信頼度とに基づいて、各単語がそれぞれのテキストの固有部分に該当するかどうかの度合いを計算することができる。よって、例えば、上記の組以外の組、例えば、オペレータの通話音声に対する音声認識テキストデータと、顧客の通話音声に対する音声認識テキストデータとの組をテキストマイニングの対象とすることもできる。

また、テキストマイニングの対象となるテキストデータは、音声認識テキストデータや、キー入力によって生成されたテキストデータ（通話メモテキストデータ）、文字認識テキストデータ以外のテキストデータであっても良い。このようなテキストデータであっても、その構成要素である単語を抽出でき、更に単語毎に信頼度の設定が可能であれば、本発明の適用は可能である。具体的には、その他に、機械翻訳によって得られたテキストデータが挙げられる。

以上、実施の形態１及び２を参照して本願発明を説明したが、本願発明は上記実施の形態１及び２に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年８月２９日出願された日本出願特願２００８−２２２４５４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本願発明におけるテキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。

（１）コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
前記複数のテキストデータそれぞれに信頼度が設定されており、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とするテキストマイニング装置。

（２）前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（１）に記載のテキストマイニング装置。

（３）前記固有部分抽出部が、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記（２）に記載のテキストマイニング装置。

（４）二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がｗ_ｉ、他方のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記固有部分抽出部が、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、上記（３）に記載のテキストマイニング装置。

（５）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
当該テキストマイニング装置が、信頼度設定部を更に備え、
前記信頼度設定部は、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、上記（１）に記載のテキストマイニング装置。

（６）当該テキストマイニング装置が、マイニング処理部を更に備え、
前記マイニング処理部は、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行する、上記（１）に記載のテキストマイニング装置。

（７）コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するためのテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とするテキストマイニング方法。

（８）前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（７）に記載のテキストマイニング方法。

（９）前記（ｂ）のステップにおいて、
前記（ａ）のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記（８）に記載のテキストマイニング方法。

（１０）二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がｗ_ｉ、他方のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記（ｂ）のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、上記（９）に記載のテキストマイニング方法。

（１１）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記（ａ）のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、
上記（７）に記載のテキストマイニング方法。

（１２）前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、更に有する、上記（７）に記載のテキストマイニング方法。

（１３）コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。

（１４）前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（１３）に記載のコンピュータ読み取り可能な記録媒体。

（１５）前記（ｂ）のステップにおいて、
前記（ａ）のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記（１４）に記載のコンピュータ読み取り可能な記録媒体。

（１６）二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がｗ_ｉ、他方のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記（ｂ）のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。

（１７）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記（ａ）のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、上記（１３）に記載のコンピュータ読み取り可能な記録媒体。

（１８）前記プログラムが、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、前記コンピュータに実行させる命令を更に含む、上記（１３）に記載のコンピュータ読み取り可能な記録媒体。

１テキストマイニング装置（実施の形態１）
２データ入力部
３音声認識部
４信頼度設定部
５言語処理部
６固有部分抽出部
７頻度算出部
８スコア算出部
９固有部分判定部
１０マイニング処理部
１１マイニング処理管理部
１２特徴語計数部
１３特徴度算出部
１４マイニング結果出力部
１５入力装置
１６出力装置
２０テキストマイニング装置（実施の形態２）
２１文字認識部
Ｄ１（ｌ）通話音声データ
Ｄ２（ｌ）通話メモテキストデータ
Ｄ３（ｌ）付帯情報
Ｄ４（ｌ）画像データ

Claims

コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
前記複数のテキストデータそれぞれに信頼度が設定されており、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とするテキストマイニング装置。
前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
算出された値に基づいて、前記固有部分を抽出する、請求項１に記載のテキストマイニング装置。
前記固有部分抽出部が、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項２に記載のテキストマイニング装置。
前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がｗ_ｉ、前記他のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記固有部分抽出部が、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、請求項３に記載のテキストマイニング装置。
前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
当該テキストマイニング装置が、信頼度設定部を更に備え、
前記信頼度設定部は、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、請求項１〜４のいずれかに記載のテキストマイニング装置。
当該テキストマイニング装置が、マイニング処理部を更に備え、
前記マイニング処理部は、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行する、請求項１〜５のいずれかに記載のテキストマイニング装置。
コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを、コンピュータ装置によって実行するためのテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とするテキストマイニング方法。
前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
算出された値に基づいて、前記固有部分を抽出する、請求項７に記載のテキストマイニング方法。
前記（ｂ）のステップにおいて、
前記（ａ）のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項８に記載のテキストマイニング方法。
前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がｗ_ｉ、前記他のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記（ｂ）のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、請求項９に記載のテキストマイニング方法。
前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記（ａ）のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、
請求項７〜１０のいずれかに記載のテキストマイニング方法。
前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、更に、有する、請求項７〜１１のいずれかに記載のテキストマイニング方法。
コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムであって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記（ａ）のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出するステップとを実行させる、プログラム。
前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
算出された値に基づいて、前記固有部分を抽出する、請求項１３に記載のプログラム。
前記（ｂ）のステップにおいて、
前記（ａ）のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項１４に記載のプログラム。
前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がｗ_ｉ、前記他の他方のテキストデータを構成する単語がｗ_ｊで表される場合に、
前記（ｂ）のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出し、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を前記度合いの算出に利用する、請求項１５に記載のプログラム。
前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記（ａ）のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、請求項１３〜１６のいずれかに記載のプログラム。
前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、前記コンピュータに更に実行させる、請求項１３〜１７のいずれかに記載のプログラム。