JP2007026347A

JP2007026347A - テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Info

Publication number: JP2007026347A
Application number: JP2005211070A
Authority: JP
Inventors: Kenji Sato; 研治佐藤; Satoshi Nakazawa; 聡中澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-07-21
Filing date: 2005-07-21
Publication date: 2007-02-01
Anticipated expiration: 2025-07-21
Also published as: JP4735958B2

Abstract

【課題】音声認識に代表される認識結果に誤りが含まれるテキストを入力としてマイニング処理した場合に、その認識の信頼度をテキストマイニング結果と共に利用者へ提供する。
【解決手段】音声認識手段２１では、音声データを認識しテキスト化し、音声認識信頼度計算手段２２では、音声認識結果に含まれる単語１語１語に対する信頼度が計算される。マイニング計算手段２４は、音声認識テキストに対しマイニング処理する。マイニング結果信頼度計算手段２５では、音声認識信頼度を参照しつつ、テキストマイニング処理結果の上位リストに含まれる単語または表現について信頼度を計算する。マイニング結果提示手段２６では、テキストマイニング結果の上位リストに含まれる単語または表現について、その単語または表現と共に計算した信頼度を利用者へ提示する。
【選択図】図１

Description

本発明はテキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラムに関し、特に、信頼度が反映されたテキストマイニング結果が得られるテキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラムに関する。

従来の、音声を入力とせずテキスト文字列を入力としたテキストマイニング装置の一例が、特許文献１に記載されている。この従来のテキストマイニング装置は、入力されたテキストを解析することで、単語の列に分割する機能と、分割された単語やその意味的な連結である表現を、その単語や表現の種類ごとにカウントする機能とを有している。

このような機能を有する従来のテキストマイニング装置は、次のように動作する。

すなわち、入力として与えられたテキスト文字列を単語の列に分割し、分割により得られた単語や複数の単語より成る表現を、その単語や表現の種類ごとにカウントすることで、入力の中で使われている回数の多い単語や表現を抽出することを可能とする。また、従来のテキストマイニング装置は、入力としてのテキスト文字列を複数の文書集合に分けるカテゴリを与えた場合には、特定のカテゴリにおいて相対的に多く現れる単語や表現をテキスト文字列から抽出する機能も有している。

一方、音声を入力とし、音声認識を行った結果に対して利用者が或る単語等の検索を施す際に、音声認識の品質の信頼度を検索結果の各部分毎に利用者に提示する音声検索装置の一例が、特許文献２に記載されている。この従来の音声検索装置では、音響モデルや言語モデルの知識を用いて、検索された各単語毎に、それに対する品質の尤度を計算し利用者に提示する機能も有している。

このような機能を有する従来の音声検索装置は、次のように動作する。

すなわち、検索対象として与えられた音声データに対しインデクスを作成する為に音声認識を施すと共に、音声認識結果の各単語毎の信頼度を音声認識に用いる音響モデルおよび言語モデルの知識を用いて計算し、各単語と共にインデクスに格納する。次に、利用者が音声データから或単語等を検索する際には、検索結果としての単語とその出現位置の各組合せ毎の信頼度を検証し、信頼度が高ければそのまま検索結果を提示し、信頼度が低ければ利用者に検索結果の一部が誤りかもしれないことを通知すると共に、元の音声データを聞くという選択肢を利用者に示す。
特開２００１−８４２５０号公報特開２００４−３１８８８９号公報李晃伸、河原達也、鹿野清宏、「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告，２００３−ＳＬＰ−４９−４８，２００３−１２中川聖一：確率モデルによる音声認識、電子情報通信学会（１９８８）

第１の問題点は、従来のテキスト文字列入力を前提としたテキストマイニング装置では、入力が音声データや紙に書かれた文字データ等である場合に、その音声認識結果あるいは文字認識結果には誤りが含まれてしまい、テキストマイニング処理を行っても、その出力である単語や表現が信頼してよいのか信頼できないのかまったく判断ができないということである。

その理由は、現在のテキストマイニング装置のマイニング処理は、誤りを含む入力を前提に考えられていないためである。

第２の問題点は、従来の音声検索装置や文字認識検索装置等で用いられている認識の信頼度活用法では、テキストマイニング処理結果に対して信頼度を付与することができないということである。

その理由は、検索という機能を利用者に提供する場合は検索結果を１箇所毎に示すため、検索結果の認識単語や表現とその単語や表現が出現した部分の認識信頼度が１対１の関係にあるが、一般にテキストマイニングという機能を利用者に提供する場合は、テキストマイニング結果の単語や表現は入力中のそれが出現する複数個所に対応しており、複数個所の単語や表現に対する認識信頼度をテキストマイニング結果の１つの認識単語や表現と共に示す方法が提供されていないためである。

本発明の目的は、音声認識に代表される認識により得られ、一般に誤りが含まれるテキストを入力としてテキストマイニング処理した場合に、テキストマイニング結果をその信頼度と共に利用者へ提供することができるテキストマイニング装置、テキストマイニング方法及びテキストマイニングプログラムを提供することにある。

本発明の第１のテキストマイニング装置は、音声認識結果に対し、音声認識結果テキストの各部分毎の信頼度を計算する信頼度計算手段（図１の２２）と、そのそれぞれが音声認識結果の複数の部分のそれぞれに対応する複数の信頼度からテキストマイニング結果に含まれる各要素に対し１対１に対応する信頼度を計算するマイニング結果信頼度計算手段（図１の２５）とを備え、テキストマイニング結果に含まれる各単語や各表現に対して１つの音声認識信頼度を付与するよう動作する。ここで、「表現」とは、共起又は構造的依存関係を持つ２以上の単語の組合せのことである。このような構成を採用し、テキストマイニング結果に含まれる各単語や各表現と共にその単語や表現に１対１に対応する信頼度を提示することにより、本発明の目的を達成することができる。音声認識をこれ以外の認識（例えば、文字認識等）に置き換えても、同様に装置を構成することで目的を達成することができる。

また、本発明の第２のテキストマイニング装置は、音声認識処理に用いる音響モデルや言語モデル等の学習モデルをコーパスから学習するモデル学習手段（図２の２７）に対し、その学習の度合い（モデル学習度）を計算するモデル学習度計算手段（図２の２８）を備え、テキストマイニング結果の信頼度を計算するマイニング結果信頼度計算手段（図２の２５）ではこのモデル学習度を用いて信頼度を計算するよう動作する。このような構成を採用し、テキストマイニング結果に含まれる単語や表現と共にその単語や表現のモデル学習時の学習度を基に計算した信頼度を提示することにより、本発明の目的を達成することができる。音声認識をこれ以外の認識（例えば、文字認識等）に置き換えても、同様に装置を構成することで目的を達成することができる。

本装置における認識は、モデルが学習方式により構築されており学習度合いを計算することが可能であれば、音声認識以外の文字認識等でもまったく同様に装置を構成することで目的を達成することができる。

本発明によれば、入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算手段を備えることを特徴とするテキストマイニング装置が提供される。

上記のテキストマイニング装置において、前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であるようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算するようにしてもよい。

上記のテキストマイニング装置において、コーパスを基に前記学習モデルを生成するモデル学習手段から得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算手段を更に備えるようにしてもよい。

上記のテキストマイニング装置において、前記モデル学習度計算手段は、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算するようにしてもよい。

上記のテキストマイニング装置において、前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示手段を更に備えるようにしてもよい。

一般には、音声や文字を認識処理することにより得られた入力データに対しテキストマイニングをする場合、その入力データに含まれる認識誤りに起因して、そのテキストマイニングの結果に誤りが含まれる可能性がある。本発明によれば、テキストマイニング処理結果に含まれる各単語や各表現に対して１対１に対応する信頼度を付与し利用者へ提示することができることである。従って、そのテキストマイニング処理結果を信頼してよいのか信頼できないのかを利用者が判断できるようになる。

その理由は、認識処理により得られる入力データの各部分にある各単語や各表現に、認識処理の際に付与された認識信頼度を基にして、テキストマイニング結果に含まれる単語や表現に対して１対１に対応する信頼度を計算するためである。

また、その理由は、認識処理により得られる入力データの各部分にある各単語や各表現に、認識処理の際に用いられる学習モデルの学習度を基にして、テキストマイニング結果に含まれる単語や表現に対して１対１に対応する信頼度を計算するためである。

第２の効果は、テキストマイニング結果の各単語や各表現は、音声認識や文字認識の結果に含まれている各単語や各表現に付与されている認識信頼度に対して、１対１の関係ではなく、多対１の関係にあるのに対し、テキストマイニング結果の各単語や各表現に対して、１体の関係にあるテキストマイニング結果信頼度を付与できることにある。

その理由は、認識結果に含まれる各部分にある各単語や各表現に対する認識信頼度を基にして、テキストマイニング結果に含まれる各単語や各表現に対するテキストマイニングの際の信頼度（マイニング結果信頼度）を新規に計算するからである。

またその理由は、学習モデルの学習度という、学習モデルに含まれる各単語や各表現に対し１対１の関係にある尤度を利用して、テキストマイニング結果に含まれる各単語や各表現に対するテキストマイニング結果信頼度を新規に計算するからである。

以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。

［第１実施形態］
図１を参照すると、本発明の第１の実施の形態によるテキストマイニング装置は、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置等の出力装置４とを含む。

データ処理装置２は、音声認識手段２１と、音声認識信頼度計算手段２２と、マイニング条件設定手段２３と、マイニング計算手段２４と、マイニング結果信頼度計算手段２５と、マイニング結果提示手段２６とを備える。

記憶装置３は、入力カテゴリデータ記憶部３１と、音声データ集合記憶部３２と、学習モデル記憶部３３と、音声認識テキスト記憶部３４と、音声認識信頼度データ記憶部３５とを備える。

音声データ集合記憶部３２は、テキストマイニングの分析対象となるとなる音声データをあらかじめ記憶しており、更に分析時に必要となるその音声データ集合を分ける軸となるカテゴリがあらかじめ入力カテゴリデータ記憶部３１に記憶されている。また、学習モデル記憶部３３には、音声認識手段２１が動作するのに必要な処理知識データ（具体的には、言語モデル、音響モデル等）があらかじめ記憶されている。

音声認識手段２１では、学習モデル記憶部３３に記憶されている学習モデルを活用しつつ、音声データ集合記憶部３２に記憶されている音声データを認識しテキスト化する。テキスト化されたデータおよびその結果を導き出した認識処理データのうち必要データが音声認識信頼度計算手段２２へ送付され、ここで音声認識結果に含まれる単語１語１語に対する信頼度が計算される。音声認識結果に含まれる単語に対する信頼度の計算法は各種手法が提案されているが、その代表的な例として非特許文献１の手法を利用することが可能である。これは、この手法は、単語事後確率に基づく手法の一種で、探索中の部分文仮説のスコアから事後確率を近似的に算出することで、従来の単語グラフを用いる方法に比べて高速である。音声認識結果に含まれる単語に対する信頼度が計算された後、音声認識テキストは音声認識テキスト記憶部３４へ、音声認識信頼度は音声認識信頼度データ記憶部３５へ保存される。音声認識手段２１と音声認識信頼度計算手段２２の処理は、後続のテキストマイニング処理とは分けてバッチ的に行うことが可能であり、音声データ集合記憶部３２に蓄積された音声データ全体をあらかじめ全て音声認識処理することも可能である。また、音声データ集合記憶部３２へ逐次的に音声データが蓄積されるような装置である場合には、定期的な期間毎、またはある一定量を超える毎に音声認識を行うことが可能である。これらの場合も、後続のテキストマイニング処理とは非同期的に処理を行うことが可能である。

マイニング計算手段２４は、入力カテゴリデータ記憶部３１に保持された入力データのカテゴリ情報を利用し、マイニング条件設定手段２３により設定されたテキストマイニング条件に従って、音声認識テキスト記憶部３４に保存された音声認識テキストに対しマイニング処理する。ここで、カテゴリ情報とは、例えば入力の音声データが例えば男性のものであるのか女性のものであるのかといった情報や、例えば、コールセンターへの問合電話において、その音声の発話者が、購入し問い合わせて来た製品型番や製品名等、音声データに付随させることのできる様々な情報のことである。テキストマイニング条件は、これらのカテゴリ情報を用いて「男性の音声に多く発話されている単語」や「他の製品全般に比べ、特定のある製品にだけ多く発話されている単語」等を抽出することを可能とするための条件のことである。すなわち、テキストマイニング条件とは、前文のような抽出を行う際に、「男性に多い単語」であるとか「他の残り全ての製品に比べて、特定の製品にだけ多い単語」等のマイニング処理において何を抽出したいかについて装置やシステムに設定する条件のことである。

テキストマイニング処理の結果の上位に現れる単語または表現がマイニング結果信頼度計算手段２５へ送られる。マイニング結果信頼度計算手段２５では、音声認識信頼度データ記憶部３５に記憶されている信頼度を参照しつつ、テキストマイニング処理結果の上位に現れる単語または表現について信頼度を計算し、マイニング結果提示手段２６へ送る。マイニング結果提示手段２６では、テキストマイニング結果の上位に現れる単語または表現について、その単語または表現と共にそれらの信頼度を利用者へ示す。

次に、図１及び図３、図４のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

まず、マイニング計算手段２４により音声認識テキスト記憶部３４に記憶されたテキストに対しマイニング処理がなされた後、マイニング結果信頼度計算手段２５では、テキストマイニング処理の結果（上位にランキングされる１又は複数の単語又は表現のリスト）に対し、１つずつ単語または表現を選択し信頼度を付与する処理を開始する（図３のステップＡ１）。次に、選択したものが単語であるか表現であるかを判定し（ステップＡ２）、単語であれば１単語に対する信頼度を計算する処理を呼び出す（ステップＡ８）。選択したものが表現である場合は、表現内に含まれる全ての単語から順に１つを選択し（ステップＡ３）、その単語の信頼度を計算する処理を呼び出し（ステップＡ４）、表現内の全ての単語に対し信頼度を計算した後（ステップＡ５）、指定された演算を用いて計算した各単語の信頼度から表現の信頼度を計算する（ステップＡ６）。ここであらかじめ指定する演算としては、代表的なものとして各単語に対する信頼度の相加平均や相乗平均、調和平均、最大値、最小値等が考えられる。最後に、全ての単語または表現について信頼度の計算が終わると（ステップＡ９）、マイニング結果信頼度計算手段２５における信頼度の計算処理が終了する。

更に、ステップＡ４およびステップＡ８によって呼び出される、単語が１つ与えられた場合に対する信頼度の計算法を図４のフローチャートを参照して説明する。単語１つに対しその信頼度を計算する手順として、まず、該当単語のマイニング処理時の元データとなる音声認識テキストの出現位置を順に取得する（図４のステップＢ１）。続いて、その出現位置でのその単語の音声認識信頼度を音声認識信頼度データ記憶部３５より取得する（ステップＢ２）。その後、テキストマイニング処理時の元データとなる音声認識テキストの全ての出現位置について音声認識信頼度の取得が終了した場合は（ステップＢ３）、それら全ての出現位置の音声認識信頼度を用い、指定された演算を用いて該当単語のマイニング結果信頼度を計算する（ステップＢ４）。ここで、あらかじめ指定する演算としては、代表的なものとして各出現位置の音声認識信頼度の相加平均や相乗平均、調和平均、最大値、最小値等が考えられる。

次に、本実施の形態の効果について説明する。

本実施の形態では、テキストマイニング結果の上位リストに含まれる単語や表現に対し、その単語や表現のマイニング結果信頼度を付与し利用者に提示するように構成されているため、利用者がテキストマイニング結果を信頼すべきか信頼すべきでないかを判断できる。

また、本実施の形態では、さらに、テキストマイニング結果上位リストに含まれる単語や表現に対し、そのテキストマイニング処理時の元データとなる音声認識テキストの複数の出現位置にそれぞれ与えられている音声認識信頼度から、該当するテキストマイニング結果に含まれる単語や表現のマイニング結果信頼度を計算するように構成されているため、テキストマイニング結果に含まれる単語や表現と１対１の関係にあるテキストマイニング結果信頼度を利用者に提示できる。

なお、第１実施形態は、音声データを音声認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応したものであるが、音声データ集合記憶部３２を文字データ集合記憶部に置き換え、音声認識手段２１を文字認識手段に置き換え、学習モデル記憶部３３を文字認識に対応したものに置き換え、音声認識信頼度計算手段２２を文字認識信頼度計算手段に置き換え、音声認識テキスト記憶部を文字認識テキスト記憶部に置き換え、音声認識信頼度データ記憶部３５を文字認識信頼度データ記憶部に置き換えることにより、画像により表される文字を文字認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応することができる。

［第２実施形態］
次に、本発明の第２の発明を実施するための最良の形態について図面を参照して詳細に説明する。

図２を参照すると、本発明の第２の実施の形態は、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置２００と、情報を記憶する記憶装置３００と、ディスプレイ装置や印刷装置等の出力装置４とを含む。

データ処理装置２は、音声認識手段２１と、マイニング条件設定手段２３と、マイニング計算手段２４と、マイニング結果信頼度計算手段２５と、マイニング結果提示手段２６と、モデル学習手段２７と、モデル学習度計算手段２８とを備える。

記憶装置３は、入力カテゴリデータ記憶部３１と、音声データ集合記憶部３２と、学習モデル記憶部３３と、音声認識テキスト記憶部３４と、モデル学習度記憶部３６と、音声認識学習コーパス記憶部３７とを備える。

モデル学習手段２７は、音声認識学習コーパス記憶部３７にあらかじめ記憶されているコーパス（通常は、大量の音声データとその音声データに対応する正しいテキストデータ（その音声データを間違いなく認識した場合に得られるテキストデータ）を含む。）を基にモデル（言語モデル、音響モデルを含む。）を学習し、学習した学習モデルを学習モデル記憶部３３に格納すると共に、学習処理の状況データをモデル学習度計算手段２８へ送付する。モデル学習度計算手段２８では、音声認識結果に現れる単語や表現毎に、その単語や表現の統計量等の学習に対し十分な量の出現がコーパス内に存在していたかどうかを尤度として計算し、その尤度を各単語や各表現の学習度としてモデル学習度記憶部３６に保存する。マイニング結果信頼度計算手段２５では、マイニング計算手段２４によるテキストマイニング処理結果の上位リストに含まれる単語や表現に対し、モデル学習度記憶部３６に保持されている各単語や各表現の学習度を参照しそれら単語や表現の信頼度を計算しマイニング結果提示手段２６へ送る。

次に、図２を参照して本実施の形態の全体の動作について詳細に説明する。

まず、モデル学習手段２７では、音声認識学習コーパス記憶部３７に保存されているコーパスデータを参照して、モデルを学習する。この学習のアルゴリズムとしては、単語の出現頻度および単語連鎖の統計出現確率を基にした統計言語モデル学習がよく用いられている。この統計言語モデルについては、非特許文献２等に詳しく記載されている。

モデル学習手段２７において、モデルが学習された後、その学習に用いられたコーパスの量がモデル学習に十分な量であったかをモデル学習度計算手段２８で計算する。これは、出現頻度が高い単語であれば少ないコーパス量で十分な量になり、出現頻度が低い単語であれば多いコーパス量が必要になる為、単語や単語の連鎖毎に学習度を計算する。学習度の計算に当たっては、統計的検定量を正規化した数値を用いる方法が考えられるが、検定する対象として、学習したモデルの各単語や単語連鎖の出現確率が正しいかどうかを検定する手法と、前回作成した学習モデルと今回作成した学習モデルとを単語毎に比較し、その出現確率の変化量が正しいと言えるかどうかを検定する手法が考えられる。前者の検定方法は一度学習モデルを作成し半永久的に利用しつづける場合に有効であるが、一般に統計言語モデルを利用した音声認識では、音声認識の適用対象のシステムやサービスで使われる音声表現が時間変遷と共に変化してしまうことがしばしば生じ、その変化に追随する為に定期的に統計言語モデルを作り直すことがその変化への有効な対処となる場合がある為、そのようなシステムやサービスに対しては後者の検定方法が有効であると考えられる。

モデル学習度計算手段２８で単語毎や単語連鎖毎に計算された学習度はモデル学習度記憶部３６に記憶され、マイニング結果信頼度計算手段２５においてテキストマイニング結果の上位リストに含まれる単語や表現に信頼度を付与する際に参照される。テキストマイニング結果の上位リストに含まれる或る単語が、モデル学習度記憶部３６に記憶されている場合には、モデル学習度記憶部３６でその単語と関連付けられている学習度をそのままその上位リストに含まれる単語のマイニング結果信頼度として利用することが可能である。また、テキストマイニング結果の上位リストに含まれる或る表現を構成する単語が、モデル学習度記憶部３６に記憶されている、或る表現を構成する単語と一致する場合には、モデル学習度記憶部３６でその表現と関連付けられている学習度をそのままその上位リストに含まれる表現のマイニング結果信頼度として利用することが可能である。更に、テキストマイニング結果の上位リストに含まれる或る表現を構成する単語が、モデル学習度記憶部３６に記憶されている場合には、モデル学習度記憶部３６でそれらの単語と関連付けられている学習度を基に、第１実施形態の図３のステップＡ３、Ａ４、Ａ５及びＡ６を、単語の信頼度を単語の学習度に置き換えて、行なうことにより、その上位リストに含まれる表現のマイニング結果信頼度を求めることができる。

次に、本発明を実施するための最良の形態の効果について説明する。

本発明を実施するための最良の形態では、モデルの学習度を単語や表現毎に計算し、テキストマイニング結果の上位リストに含まれる単語や表現のマイニング結果信頼度を求めるために利用するように構成されているため、利用者がテキストマイニング結果を信頼すべきか信頼すべきでないかを判断できる。

また、本発明を実施するための最良の形態では、さらに、テキストマイニング処理により得られたテキストマイニング結果に含まれる単語や表現とその元となる入力データ中の単語や表現の複数出現位置という１対多の関係をまったく用いず、利用者にマイニング結果として提示される単語や表現に対し本質的に１対１の関係を有するモデルの学習度を利用して、テキストマイニングの結果の上位リストに含まれる単語や表現のマイニング結果信頼度を計算するように構成されているため、テキストマイニング結果に含まれる単語や表現と１対１の関係にあるテキストマイニング結果信頼度を利用者に提示できる。

なお、第２実施形態は、音声データを音声認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応したものであるが、音声データ集合記憶部３２を文字データ集合記憶部に置き換え、音声認識手段２１を文字認識手段に置き換え、学習モデル記憶部３３を文字認識に対応したものに置き換え、音声認識テキスト記憶部を文字認識テキスト記憶部に置き換え、音声認識学習コーパス記憶部３７を文字認識学習コーパス記憶部に置き換え、モデル学習手段２７を文字認識に対応したものに置き換え、モデル学習度計算手段２８を文字認識に対応したものに置き換えることにより、画像により表される文字を文字認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応することができる。この場合、学習モデル記憶部３３は、言語モデルと共に、音響モデルの代わりに、文字認識に必要なモデルを記憶する。

［第３実施形態］
次に、本発明の第３の発明を実施するための最良の形態について図面を参照して詳細に説明する。

図５を参照すると、本発明の第３の発明を実施するための最良の形態は、本発明の第１および第２の実施の形態と同様に、入力装置１、データ処理装置２、記憶装置３、出力装置４を備える。

テキストマイニングプログラム５は、データ処理装置２に読み込まれ、データ処理装置２の動作を制御し、本発明の第１の実施の形態におけるデータ処理装置２による処理若しくは本発明の第２の実施の形態におけるデータ処理装置２００又はこれらを文字認識に対応させるための派生形態による処理と同一の処理を実行する。

次に、本発明の第１の実施例を、図面を参照して説明する。かかる実施例は本発明の第１の実施の形態及びその派生形態に対応するものである。

本実施例は、入力装置としてキーボードを、データ処理装置としてパーソナルコンピュータを、データ記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを備えている。

パーソナルコンピュータは、音声認識手段２１、音声認識信頼度計算手段２２、マイニング条件設定手段２３、マイニング計算手段２４、マイニング結果信頼度計算手段２５、マイニング結果提示手段２６として機能する中央演算装置を有しており、また磁気ディスク記憶装置には、入力カテゴリデータ記憶部３１、音声データ集合記憶部３２、学習モデル記憶部３３、音声認識テキスト記憶部３４、音声認識信頼度データ記憶部３５が生成されている。

音声データ集合記憶部３２に記憶されている音声データに対し、音声認識手段２１で音声認識処理を行いテキスト化し、更に音声認識信頼度計算手段２２により音声認識結果に含まれる単語に信頼度を付与した結果として音声認識信頼度データ記憶部３５に記憶されているデータの例を図６に示す。図６において、括弧内の数字は、音声認識に対する信頼度である。また、図６の例に示した音声認識テキストに対し、入力カテゴリデータ記憶部３１からカテゴリが与えられ、マイニング条件設定手段２３でテキストマイニング処理手順が与えられ、テキストマイニング計算が行われた結果の出力例を図７に示す。この図７の例では、「今日」「天気」「いい」の３単語に関しては、分析対象のデータ中での出現は図６に示すとおり各３回ずつであるが、カテゴリとして与えられた他のデータとの相対的な関係で、同じ出現回数の３単語でも特徴度が異なり、「今日」「天気」「いい」の順に特徴度が高いとしてテキストマイニング結果にリストアップされている。また、「天気→いい」というデータは、図６の入力テキスト中から言語的な依存関係を言語解析技術により生成し、依存関係を持つ単語の組を１つの単語と同様に特徴表現としてテキストマイニングした結果の上位に現れたデータの例である。

マイニング結果信頼度計算手段２５では、テキストマイニング結果の上位リストに含まれる単語や表現に対し、順に信頼度を計算する。図７の「今日」という単語についての信頼度は、図６を参照すると、入力中に３箇所の出現位置があり、その３箇所の出現位置の「今日」の音声認識信頼度が出現順に０．３、０．４、０．５である為、単語のテキストマイニング結果信頼度の計算法として相加平均を採用すると、０．４となる。同様に、「天気」に対するテキストマイニング結果信頼度は０．７、「いい」に対するテキストマイニング結果信頼度は０．３となる。また「天気→いい」という表現に対するテキストマイニング結果信頼度の計算法として、表現を構成する各単語のテキストマイニング結果信頼度の最小値を採用した場合は、「天気」が０．７、「いい」が０．３であるので、「天気→いい」という表現のテキストマイニング結果信頼度は０．３となる。

また、図８に示すように、音声認識により得られたテキストに、「天気→いい」という表現が３回現れ、このような表現に含まれない「天気」という単語が５回現れ、このような表現に含まれない「いい」という表現が１回現れた、図８に示すような音声認識信頼度が付けられている場合には、「天気」という単語に対するテキストマイニング結果信頼度として、０．９、０．８、０．４、０．８、０．７、０．６、０．３の相加平均を採用し、「いい」という単語に対するテキストマイニング結果信頼度として、０．４、０．５、０．８の相加平均を採用し、「天気→いい」という表現に対するテキストマイニング結果信頼度として、０，４、０．４、０．３、０．５の相加平均を採用しても良い。

マイニング結果信頼度計算手段２５で計算したマイニング結果信頼度が反映されたマイニング結果を出力するテキストマイニング結果提示手段２６における利用者へのテキストマイニング結果の提示の例を図９に示す。これは、特徴単語又は特徴表現にその特徴度及びマイニング結果信頼度を付して出力したものである。

また、テキストマイニング結果提示手段２６は、テキストマイニング結果信頼度が所定のしきい値以下である単語や表現を除いて、テキストマイニング結果の上位リストに含まれる単語や表現を提示するようにすることにより、マイニング結果信頼度をマイニング結果に反映させても良い。

更に、テキストマイニング結果提示手段２６は、テキストマイニング結果の上位リストに含まれる各単語や各表現毎に、これらに対するテキストマイニング結果信頼度を基に、特徴度の誤差範囲を計算し、テキストマイニング結果の上位リストに含まれる単語や表現を特徴度の代表値及び誤差範囲と共に提示することにより、マイニング結果信頼度をマイニング結果に反映させても良い。

更に、テキストマイニング結果提示手段２６は、テキストマイニング結果の上位リストに含まれる各単語や各表現を、これらに対するテキストマイニング結果信頼度と１以上の所定のしきい値との比較結果を基に、グループ分けし、テキストマイニング結果の上位リストに含まれる単語や表現をそれが属するグループが分かるような様式（例えば、色、フォント、文字飾り、ページ等によりグループの区別が付くような様式）を用いて提示する。
また、テキストマイニング結果提示手段２６は、２次元のグラフ（例えば、ｘ軸に特徴度、ｙ軸にテキストマイニング結果信頼度を割り当てたもの）上にテキストマイニング結果の上位リストに含まれる単語や表現をプロットしグラフィカルに提示するようにすることにより、マイニング結果信頼度をマイニング結果に反映させても良い。

次に、本発明の第２の実施例を、図面を参照して説明する。かかる実施例は、本発明の第２の実施の形態及びその派生形態に対応するものである。

本実施例は、第１の実施例と基本的な構成を同じとするが、データ処理装置としてのパーソナルコンピュータの中央演算装置が、モデル学習手段２７およびモデル学習度計算手段２８としても機能する点、およびデータ記憶装置としての磁気ディスク記憶装置内に、モデル学習度記憶部３６および音声認識学習コーパス記憶部３７が生成されている点が、第１の実施例と異なる。

今、学習コーパスが１００万単語含み、そのコーパス中の「今日」「天気」「いい」の各単語の出現回数を計算した結果データの例を図１０に示す。全体の単語数が１００万単語である為、モデル学習手段２７において学習され学習モデル記憶部３３に格納される学習モデル中のこれら３単語の統計確率データの例としては図１１のようになる。

この図１１の場合で、モデル学習度計算手段２８として、学習した学習モデルの各単語や各表現の出現確率が正しいかどうかを示す尤度（モデル学習度として利用される。）を検定する式として、例えば、図１２に示す式を採用した場合は、各単語の学習度はそれぞれ、「今日」：０．３３、「天気」：０．１７、「いい」：０．５、となる。図１２の式により計算されたモデル学習度は、モデル学習度記憶部３６に保存され、テキストマイニング結果の上位リストに含まれる単語や表現について、その単語や表現の学習度が参照される。図１２に示す式の学習度の数値は、０から１の範囲に正規化されており、テキストマイニング結果の信頼度としてもそのまま利用可能な為、マイニング結果信頼度計算手段２５では特別な計算処理を行わず、学習度をそのまま単語の信頼度として利用することが可能である。また、表現に関しては、上述した実施形態や実施例で説明した方法によりその信頼度を計算することができる。

図１２に示す式では、全単語に対し同一式での出現確率の検定を用いたが、単語は、その品詞毎に出現頻度が極端に異なる為、品詞毎に異なる検定用の式を利用することも考えられる。また、音声認識処理では、１単語の長さが長い場合は、他の単語と混同される可能性が低下する為、単語の文字列長や音素長を利用し、同一の出現頻度であっても、文字列長や音素長の長い単語は学習度が上がり、文字列長や音素長の短い単語は学習度が低下するような検定用の式を利用することも考えられる。

本発明によれば、コールセンター等に代表される電話での対話を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、ニュース等のテレビ番組や、講義、講演、議会、会議等の音声を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途にも適用可能である。

また、本発明によれば筆記アンケートの集計結果を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。

本発明の第１実施形態によるテキストマイニング装置の構成を示すブロック図である。本発明の第２実施形態によるテキストマイニング装置の構成を示すブロック図である。本発明の第１実施形態によるテキストマイニング方法を示す流れ図（１／２）である。本発明の第１実施形態によるテキストマイニング方法を示す流れ図（１／２）である。本発明の第３実施形態によるテキストマイニング装置の構成を示すブロック図である。本発明の第１実施例によるテキストマイニング方法を説明するための図であり、各形態素毎に認識信頼度を付した例を示す。本発明の第１実施例によるテキストマイニング方法を説明するための図であり、テキストマイニング結果に含まれる特徴単語又は特徴表現及びこれらに付された特徴度の例を示す。本発明の第１実施例によるテキストマイニング方法を説明するための図であり、音声認識により得られたテキストに含まれる単語及び表現並びにこれらに付された音声認識信頼度の例を示す。本発明の第１実施例によるテキストマイニング方法を説明するための図であり、テキストマイニング結果に含まれる特徴単語又は特徴表現並びにこれらに付された特徴度及びその信頼度の例を示す。本発明の第２実施例によるテキストマイニング方法を説明するための図であり、コーパスに含まれる単語及びその出現回数の例を示す。本発明の第２実施例によるテキストマイニング方法を説明するための図であり、コーパスに含まれる単語及びその認識モデル中の統計確率の例を示す。本発明の第２実施例によるテキストマイニング方法を説明するための図であり、学習した学習モデルの各単語や各表現の出現確率が正しいかどうかを示す尤度を検定する式の例を示す図である。

符号の説明

１入力装置
２，２００データ処理装置
３，３００記憶装置
４出力装置
５テキストマイニングプログラム
２１音声認識手段
２２音声認識信頼度計算手段
２３マイニング条件設定手段
２４マイニング計算手段
２５マイニング結果信頼度計算手段
２６マイニング結果提示手段
２７モデル学習手段
２８モデル学習度計算手段
３１入力カテゴリデータ記憶部
３２音声データ集合記憶部
３３学習モデル記憶部
３４音声認識テキスト記憶部
３５音声認識信頼度データ記憶部
３６モデル学習度記憶部
３７音声認識学習コーパス記憶部

Claims

入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算手段を備えることを特徴とするテキストマイニング装置。
請求項１に記載のテキストマイニング装置において、
前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であることを特徴とするテキストマイニング装置。
請求項１に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用することを特徴とするテキストマイニング装置。
請求項３に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項３に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項３に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項１に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用することを特徴とするテキストマイニング装置。
請求項７に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項７に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項７に記載のテキストマイニング装置において、
前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
請求項７に記載のテキストマイニング装置において、
コーパスを基に前記学習モデルを生成するモデル学習手段から得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算手段を更に備えることを特徴とするテキストマイニング装置。
請求項１１に記載のテキストマイニング装置において、
前記モデル学習度計算手段は、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算することを特徴とするテキストマイニング装置。
請求項１に記載のテキストマイニング装置において、
前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示手段を更に備えることを特徴とするテキストマイニング装置。
入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算ステップを備えることを特徴とするテキストマイニング方法。
請求項１４に記載のテキストマイニング方法において、
前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であることを特徴とするテキストマイニング方法。
請求項１４に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用することを特徴とするテキストマイニング方法。
請求項１６に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項１６に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項１６に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する１又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項１４に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用することを特徴とするテキストマイニング方法。
請求項２０に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項２０に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項２０に記載のテキストマイニング方法において、
前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
請求項２０に記載のテキストマイニング方法において、
コーパスを基に前記学習モデルを生成するモデル学習ステップから得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算ステップを更に備えることを特徴とするテキストマイニング方法。
請求項２４に記載のテキストマイニング方法において、
前記モデル学習度計算ステップでは、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算することを特徴とするテキストマイニング方法。
請求項１４に記載のテキストマイニング方法において、
前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示ステップを更に備えることを特徴とするテキストマイニング方法。
請求項１４乃至２６の何れか１項に記載のテキストマイニング方法をコンピュータに実行させるためのテキストマイニングプログラム。