JP2007026347A - テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム Download PDF

Info

Publication number
JP2007026347A
JP2007026347A JP2005211070A JP2005211070A JP2007026347A JP 2007026347 A JP2007026347 A JP 2007026347A JP 2005211070 A JP2005211070 A JP 2005211070A JP 2005211070 A JP2005211070 A JP 2005211070A JP 2007026347 A JP2007026347 A JP 2007026347A
Authority
JP
Japan
Prior art keywords
reliability
mining
text
result
text mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005211070A
Other languages
English (en)
Other versions
JP4735958B2 (ja
Inventor
Kenji Sato
研治 佐藤
Satoshi Nakazawa
聡 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005211070A priority Critical patent/JP4735958B2/ja
Publication of JP2007026347A publication Critical patent/JP2007026347A/ja
Application granted granted Critical
Publication of JP4735958B2 publication Critical patent/JP4735958B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 音声認識に代表される認識結果に誤りが含まれるテキストを入力としてマイニング処理した場合に、その認識の信頼度をテキストマイニング結果と共に利用者へ提供する。
【解決手段】 音声認識手段21では、音声データを認識しテキスト化し、音声認識信頼度計算手段22では、音声認識結果に含まれる単語1語1語に対する信頼度が計算される。マイニング計算手段24は、音声認識テキストに対しマイニング処理する。マイニング結果信頼度計算手段25では、音声認識信頼度を参照しつつ、テキストマイニング処理結果の上位リストに含まれる単語または表現について信頼度を計算する。マイニング結果提示手段26では、テキストマイニング結果の上位リストに含まれる単語または表現について、その単語または表現と共に計算した信頼度を利用者へ提示する。
【選択図】 図1

Description

本発明はテキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラムに関し、特に、信頼度が反映されたテキストマイニング結果が得られるテキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラムに関する。
従来の、音声を入力とせずテキスト文字列を入力としたテキストマイニング装置の一例が、特許文献1に記載されている。この従来のテキストマイニング装置は、入力されたテキストを解析することで、単語の列に分割する機能と、分割された単語やその意味的な連結である表現を、その単語や表現の種類ごとにカウントする機能とを有している。
このような機能を有する従来のテキストマイニング装置は、次のように動作する。
すなわち、入力として与えられたテキスト文字列を単語の列に分割し、分割により得られた単語や複数の単語より成る表現を、その単語や表現の種類ごとにカウントすることで、入力の中で使われている回数の多い単語や表現を抽出することを可能とする。また、従来のテキストマイニング装置は、入力としてのテキスト文字列を複数の文書集合に分けるカテゴリを与えた場合には、特定のカテゴリにおいて相対的に多く現れる単語や表現をテキスト文字列から抽出する機能も有している。
一方、音声を入力とし、音声認識を行った結果に対して利用者が或る単語等の検索を施す際に、音声認識の品質の信頼度を検索結果の各部分毎に利用者に提示する音声検索装置の一例が、特許文献2に記載されている。この従来の音声検索装置では、音響モデルや言語モデルの知識を用いて、検索された各単語毎に、それに対する品質の尤度を計算し利用者に提示する機能も有している。
このような機能を有する従来の音声検索装置は、次のように動作する。
すなわち、検索対象として与えられた音声データに対しインデクスを作成する為に音声認識を施すと共に、音声認識結果の各単語毎の信頼度を音声認識に用いる音響モデルおよび言語モデルの知識を用いて計算し、各単語と共にインデクスに格納する。次に、利用者が音声データから或単語等を検索する際には、検索結果としての単語とその出現位置の各組合せ毎の信頼度を検証し、信頼度が高ければそのまま検索結果を提示し、信頼度が低ければ利用者に検索結果の一部が誤りかもしれないことを通知すると共に、元の音声データを聞くという選択肢を利用者に示す。
特開2001−84250号公報 特開2004−318889号公報 李晃伸、河原達也、鹿野清宏、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告, 2003−SLP−49−48, 2003−12 中川聖一:確率モデルによる音声認識、電子情報通信学会(1988)
第1の問題点は、従来のテキスト文字列入力を前提としたテキストマイニング装置では、入力が音声データや紙に書かれた文字データ等である場合に、その音声認識結果あるいは文字認識結果には誤りが含まれてしまい、テキストマイニング処理を行っても、その出力である単語や表現が信頼してよいのか信頼できないのかまったく判断ができないということである。
その理由は、現在のテキストマイニング装置のマイニング処理は、誤りを含む入力を前提に考えられていないためである。
第2の問題点は、従来の音声検索装置や文字認識検索装置等で用いられている認識の信頼度活用法では、テキストマイニング処理結果に対して信頼度を付与することができないということである。
その理由は、検索という機能を利用者に提供する場合は検索結果を1箇所毎に示すため、検索結果の認識単語や表現とその単語や表現が出現した部分の認識信頼度が1対1の関係にあるが、一般にテキストマイニングという機能を利用者に提供する場合は、テキストマイニング結果の単語や表現は入力中のそれが出現する複数個所に対応しており、複数個所の単語や表現に対する認識信頼度をテキストマイニング結果の1つの認識単語や表現と共に示す方法が提供されていないためである。
本発明の目的は、音声認識に代表される認識により得られ、一般に誤りが含まれるテキストを入力としてテキストマイニング処理した場合に、テキストマイニング結果をその信頼度と共に利用者へ提供することができるテキストマイニング装置、テキストマイニング方法及びテキストマイニングプログラムを提供することにある。
本発明の第1のテキストマイニング装置は、音声認識結果に対し、音声認識結果テキストの各部分毎の信頼度を計算する信頼度計算手段(図1の22)と、そのそれぞれが音声認識結果の複数の部分のそれぞれに対応する複数の信頼度からテキストマイニング結果に含まれる各要素に対し1対1に対応する信頼度を計算するマイニング結果信頼度計算手段(図1の25)とを備え、テキストマイニング結果に含まれる各単語や各表現に対して1つの音声認識信頼度を付与するよう動作する。ここで、「表現」とは、共起又は構造的依存関係を持つ2以上の単語の組合せのことである。このような構成を採用し、テキストマイニング結果に含まれる各単語や各表現と共にその単語や表現に1対1に対応する信頼度を提示することにより、本発明の目的を達成することができる。音声認識をこれ以外の認識(例えば、文字認識等)に置き換えても、同様に装置を構成することで目的を達成することができる。
また、本発明の第2のテキストマイニング装置は、音声認識処理に用いる音響モデルや言語モデル等の学習モデルをコーパスから学習するモデル学習手段(図2の27)に対し、その学習の度合い(モデル学習度)を計算するモデル学習度計算手段(図2の28)を備え、テキストマイニング結果の信頼度を計算するマイニング結果信頼度計算手段(図2の25)ではこのモデル学習度を用いて信頼度を計算するよう動作する。このような構成を採用し、テキストマイニング結果に含まれる単語や表現と共にその単語や表現のモデル学習時の学習度を基に計算した信頼度を提示することにより、本発明の目的を達成することができる。音声認識をこれ以外の認識(例えば、文字認識等)に置き換えても、同様に装置を構成することで目的を達成することができる。
本装置における認識は、モデルが学習方式により構築されており学習度合いを計算することが可能であれば、音声認識以外の文字認識等でもまったく同様に装置を構成することで目的を達成することができる。
本発明によれば、入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算手段を備えることを特徴とするテキストマイニング装置が提供される。
上記のテキストマイニング装置において、前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であるようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算するようにしてもよい。
上記のテキストマイニング装置において、コーパスを基に前記学習モデルを生成するモデル学習手段から得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算手段を更に備えるようにしてもよい。
上記のテキストマイニング装置において、前記モデル学習度計算手段は、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算するようにしてもよい。
上記のテキストマイニング装置において、前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示手段を更に備えるようにしてもよい。
一般には、音声や文字を認識処理することにより得られた入力データに対しテキストマイニングをする場合、その入力データに含まれる認識誤りに起因して、そのテキストマイニングの結果に誤りが含まれる可能性がある。本発明によれば、テキストマイニング処理結果に含まれる各単語や各表現に対して1対1に対応する信頼度を付与し利用者へ提示することができることである。従って、そのテキストマイニング処理結果を信頼してよいのか信頼できないのかを利用者が判断できるようになる。
その理由は、認識処理により得られる入力データの各部分にある各単語や各表現に、認識処理の際に付与された認識信頼度を基にして、テキストマイニング結果に含まれる単語や表現に対して1対1に対応する信頼度を計算するためである。
また、その理由は、認識処理により得られる入力データの各部分にある各単語や各表現に、認識処理の際に用いられる学習モデルの学習度を基にして、テキストマイニング結果に含まれる単語や表現に対して1対1に対応する信頼度を計算するためである。
第2の効果は、テキストマイニング結果の各単語や各表現は、音声認識や文字認識の結果に含まれている各単語や各表現に付与されている認識信頼度に対して、1対1の関係ではなく、多対1の関係にあるのに対し、テキストマイニング結果の各単語や各表現に対して、1体の関係にあるテキストマイニング結果信頼度を付与できることにある。
その理由は、認識結果に含まれる各部分にある各単語や各表現に対する認識信頼度を基にして、テキストマイニング結果に含まれる各単語や各表現に対するテキストマイニングの際の信頼度(マイニング結果信頼度)を新規に計算するからである。
またその理由は、学習モデルの学習度という、学習モデルに含まれる各単語や各表現に対し1対1の関係にある尤度を利用して、テキストマイニング結果に含まれる各単語や各表現に対するテキストマイニング結果信頼度を新規に計算するからである。
以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。
[第1実施形態]
図1を参照すると、本発明の第1の実施の形態によるテキストマイニング装置は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とを含む。
データ処理装置2は、音声認識手段21と、音声認識信頼度計算手段22と、マイニング条件設定手段23と、マイニング計算手段24と、マイニング結果信頼度計算手段25と、マイニング結果提示手段26とを備える。
記憶装置3は、入力カテゴリデータ記憶部31と、音声データ集合記憶部32と、学習モデル記憶部33と、音声認識テキスト記憶部34と、音声認識信頼度データ記憶部35とを備える。
音声データ集合記憶部32は、テキストマイニングの分析対象となるとなる音声データをあらかじめ記憶しており、更に分析時に必要となるその音声データ集合を分ける軸となるカテゴリがあらかじめ入力カテゴリデータ記憶部31に記憶されている。また、学習モデル記憶部33には、音声認識手段21が動作するのに必要な処理知識データ(具体的には、言語モデル、音響モデル等)があらかじめ記憶されている。
音声認識手段21では、学習モデル記憶部33に記憶されている学習モデルを活用しつつ、音声データ集合記憶部32に記憶されている音声データを認識しテキスト化する。テキスト化されたデータおよびその結果を導き出した認識処理データのうち必要データが音声認識信頼度計算手段22へ送付され、ここで音声認識結果に含まれる単語1語1語に対する信頼度が計算される。音声認識結果に含まれる単語に対する信頼度の計算法は各種手法が提案されているが、その代表的な例として非特許文献1の手法を利用することが可能である。これは、この手法は、単語事後確率に基づく手法の一種で、探索中の部分文仮説のスコアから事後確率を近似的に算出することで、従来の単語グラフを用いる方法に比べて高速である。音声認識結果に含まれる単語に対する信頼度が計算された後、音声認識テキストは音声認識テキスト記憶部34へ、音声認識信頼度は音声認識信頼度データ記憶部35へ保存される。音声認識手段21と音声認識信頼度計算手段22の処理は、後続のテキストマイニング処理とは分けてバッチ的に行うことが可能であり、音声データ集合記憶部32に蓄積された音声データ全体をあらかじめ全て音声認識処理することも可能である。また、音声データ集合記憶部32へ逐次的に音声データが蓄積されるような装置である場合には、定期的な期間毎、またはある一定量を超える毎に音声認識を行うことが可能である。これらの場合も、後続のテキストマイニング処理とは非同期的に処理を行うことが可能である。
マイニング計算手段24は、入力カテゴリデータ記憶部31に保持された入力データのカテゴリ情報を利用し、マイニング条件設定手段23により設定されたテキストマイニング条件に従って、音声認識テキスト記憶部34に保存された音声認識テキストに対しマイニング処理する。ここで、カテゴリ情報とは、例えば入力の音声データが例えば男性のものであるのか女性のものであるのかといった情報や、例えば、コールセンターへの問合電話において、その音声の発話者が、購入し問い合わせて来た製品型番や製品名等、音声データに付随させることのできる様々な情報のことである。テキストマイニング条件は、これらのカテゴリ情報を用いて「男性の音声に多く発話されている単語」や「他の製品全般に比べ、特定のある製品にだけ多く発話されている単語」等を抽出することを可能とするための条件のことである。すなわち、テキストマイニング条件とは、前文のような抽出を行う際に、「男性に多い単語」であるとか「他の残り全ての製品に比べて、特定の製品にだけ多い単語」等のマイニング処理において何を抽出したいかについて装置やシステムに設定する条件のことである。
テキストマイニング処理の結果の上位に現れる単語または表現がマイニング結果信頼度計算手段25へ送られる。マイニング結果信頼度計算手段25では、音声認識信頼度データ記憶部35に記憶されている信頼度を参照しつつ、テキストマイニング処理結果の上位に現れる単語または表現について信頼度を計算し、マイニング結果提示手段26へ送る。マイニング結果提示手段26では、テキストマイニング結果の上位に現れる単語または表現について、その単語または表現と共にそれらの信頼度を利用者へ示す。
次に、図1及び図3、図4のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、マイニング計算手段24により音声認識テキスト記憶部34に記憶されたテキストに対しマイニング処理がなされた後、マイニング結果信頼度計算手段25では、テキストマイニング処理の結果(上位にランキングされる1又は複数の単語又は表現のリスト)に対し、1つずつ単語または表現を選択し信頼度を付与する処理を開始する(図3のステップA1)。次に、選択したものが単語であるか表現であるかを判定し(ステップA2)、単語であれば1単語に対する信頼度を計算する処理を呼び出す(ステップA8)。選択したものが表現である場合は、表現内に含まれる全ての単語から順に1つを選択し(ステップA3)、その単語の信頼度を計算する処理を呼び出し(ステップA4)、表現内の全ての単語に対し信頼度を計算した後(ステップA5)、指定された演算を用いて計算した各単語の信頼度から表現の信頼度を計算する(ステップA6)。ここであらかじめ指定する演算としては、代表的なものとして各単語に対する信頼度の相加平均や相乗平均、調和平均、最大値、最小値等が考えられる。最後に、全ての単語または表現について信頼度の計算が終わると(ステップA9)、マイニング結果信頼度計算手段25における信頼度の計算処理が終了する。
更に、ステップA4およびステップA8によって呼び出される、単語が1つ与えられた場合に対する信頼度の計算法を図4のフローチャートを参照して説明する。単語1つに対しその信頼度を計算する手順として、まず、該当単語のマイニング処理時の元データとなる音声認識テキストの出現位置を順に取得する(図4のステップB1)。続いて、その出現位置でのその単語の音声認識信頼度を音声認識信頼度データ記憶部35より取得する(ステップB2)。その後、テキストマイニング処理時の元データとなる音声認識テキストの全ての出現位置について音声認識信頼度の取得が終了した場合は(ステップB3)、それら全ての出現位置の音声認識信頼度を用い、指定された演算を用いて該当単語のマイニング結果信頼度を計算する(ステップB4)。ここで、あらかじめ指定する演算としては、代表的なものとして各出現位置の音声認識信頼度の相加平均や相乗平均、調和平均、最大値、最小値等が考えられる。
次に、本実施の形態の効果について説明する。
本実施の形態では、テキストマイニング結果の上位リストに含まれる単語や表現に対し、その単語や表現のマイニング結果信頼度を付与し利用者に提示するように構成されているため、利用者がテキストマイニング結果を信頼すべきか信頼すべきでないかを判断できる。
また、本実施の形態では、さらに、テキストマイニング結果上位リストに含まれる単語や表現に対し、そのテキストマイニング処理時の元データとなる音声認識テキストの複数の出現位置にそれぞれ与えられている音声認識信頼度から、該当するテキストマイニング結果に含まれる単語や表現のマイニング結果信頼度を計算するように構成されているため、テキストマイニング結果に含まれる単語や表現と1対1の関係にあるテキストマイニング結果信頼度を利用者に提示できる。
なお、第1実施形態は、音声データを音声認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応したものであるが、音声データ集合記憶部32を文字データ集合記憶部に置き換え、音声認識手段21を文字認識手段に置き換え、学習モデル記憶部33を文字認識に対応したものに置き換え、音声認識信頼度計算手段22を文字認識信頼度計算手段に置き換え、音声認識テキスト記憶部を文字認識テキスト記憶部に置き換え、音声認識信頼度データ記憶部35を文字認識信頼度データ記憶部に置き換えることにより、画像により表される文字を文字認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応することができる。
[第2実施形態]
次に、本発明の第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図2を参照すると、本発明の第2の実施の形態は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置200と、情報を記憶する記憶装置300と、ディスプレイ装置や印刷装置等の出力装置4とを含む。
データ処理装置2は、音声認識手段21と、マイニング条件設定手段23と、マイニング計算手段24と、マイニング結果信頼度計算手段25と、マイニング結果提示手段26と、モデル学習手段27と、モデル学習度計算手段28とを備える。
記憶装置3は、入力カテゴリデータ記憶部31と、音声データ集合記憶部32と、学習モデル記憶部33と、音声認識テキスト記憶部34と、モデル学習度記憶部36と、音声認識学習コーパス記憶部37とを備える。
モデル学習手段27は、音声認識学習コーパス記憶部37にあらかじめ記憶されているコーパス(通常は、大量の音声データとその音声データに対応する正しいテキストデータ(その音声データを間違いなく認識した場合に得られるテキストデータ)を含む。)を基にモデル(言語モデル、音響モデルを含む。)を学習し、学習した学習モデルを学習モデル記憶部33に格納すると共に、学習処理の状況データをモデル学習度計算手段28へ送付する。モデル学習度計算手段28では、音声認識結果に現れる単語や表現毎に、その単語や表現の統計量等の学習に対し十分な量の出現がコーパス内に存在していたかどうかを尤度として計算し、その尤度を各単語や各表現の学習度としてモデル学習度記憶部36に保存する。マイニング結果信頼度計算手段25では、マイニング計算手段24によるテキストマイニング処理結果の上位リストに含まれる単語や表現に対し、モデル学習度記憶部36に保持されている各単語や各表現の学習度を参照しそれら単語や表現の信頼度を計算しマイニング結果提示手段26へ送る。
次に、図2を参照して本実施の形態の全体の動作について詳細に説明する。
まず、モデル学習手段27では、音声認識学習コーパス記憶部37に保存されているコーパスデータを参照して、モデルを学習する。この学習のアルゴリズムとしては、単語の出現頻度および単語連鎖の統計出現確率を基にした統計言語モデル学習がよく用いられている。この統計言語モデルについては、非特許文献2等に詳しく記載されている。
モデル学習手段27において、モデルが学習された後、その学習に用いられたコーパスの量がモデル学習に十分な量であったかをモデル学習度計算手段28で計算する。これは、出現頻度が高い単語であれば少ないコーパス量で十分な量になり、出現頻度が低い単語であれば多いコーパス量が必要になる為、単語や単語の連鎖毎に学習度を計算する。学習度の計算に当たっては、統計的検定量を正規化した数値を用いる方法が考えられるが、検定する対象として、学習したモデルの各単語や単語連鎖の出現確率が正しいかどうかを検定する手法と、前回作成した学習モデルと今回作成した学習モデルとを単語毎に比較し、その出現確率の変化量が正しいと言えるかどうかを検定する手法が考えられる。前者の検定方法は一度学習モデルを作成し半永久的に利用しつづける場合に有効であるが、一般に統計言語モデルを利用した音声認識では、音声認識の適用対象のシステムやサービスで使われる音声表現が時間変遷と共に変化してしまうことがしばしば生じ、その変化に追随する為に定期的に統計言語モデルを作り直すことがその変化への有効な対処となる場合がある為、そのようなシステムやサービスに対しては後者の検定方法が有効であると考えられる。
モデル学習度計算手段28で単語毎や単語連鎖毎に計算された学習度はモデル学習度記憶部36に記憶され、マイニング結果信頼度計算手段25においてテキストマイニング結果の上位リストに含まれる単語や表現に信頼度を付与する際に参照される。テキストマイニング結果の上位リストに含まれる或る単語が、モデル学習度記憶部36に記憶されている場合には、モデル学習度記憶部36でその単語と関連付けられている学習度をそのままその上位リストに含まれる単語のマイニング結果信頼度として利用することが可能である。また、テキストマイニング結果の上位リストに含まれる或る表現を構成する単語が、モデル学習度記憶部36に記憶されている、或る表現を構成する単語と一致する場合には、モデル学習度記憶部36でその表現と関連付けられている学習度をそのままその上位リストに含まれる表現のマイニング結果信頼度として利用することが可能である。更に、テキストマイニング結果の上位リストに含まれる或る表現を構成する単語が、モデル学習度記憶部36に記憶されている場合には、モデル学習度記憶部36でそれらの単語と関連付けられている学習度を基に、第1実施形態の図3のステップA3、A4、A5及びA6を、単語の信頼度を単語の学習度に置き換えて、行なうことにより、その上位リストに含まれる表現のマイニング結果信頼度を求めることができる。
次に、本発明を実施するための最良の形態の効果について説明する。
本発明を実施するための最良の形態では、モデルの学習度を単語や表現毎に計算し、テキストマイニング結果の上位リストに含まれる単語や表現のマイニング結果信頼度を求めるために利用するように構成されているため、利用者がテキストマイニング結果を信頼すべきか信頼すべきでないかを判断できる。
また、本発明を実施するための最良の形態では、さらに、テキストマイニング処理により得られたテキストマイニング結果に含まれる単語や表現とその元となる入力データ中の単語や表現の複数出現位置という1対多の関係をまったく用いず、利用者にマイニング結果として提示される単語や表現に対し本質的に1対1の関係を有するモデルの学習度を利用して、テキストマイニングの結果の上位リストに含まれる単語や表現のマイニング結果信頼度を計算するように構成されているため、テキストマイニング結果に含まれる単語や表現と1対1の関係にあるテキストマイニング結果信頼度を利用者に提示できる。
なお、第2実施形態は、音声データを音声認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応したものであるが、音声データ集合記憶部32を文字データ集合記憶部に置き換え、音声認識手段21を文字認識手段に置き換え、学習モデル記憶部33を文字認識に対応したものに置き換え、音声認識テキスト記憶部を文字認識テキスト記憶部に置き換え、音声認識学習コーパス記憶部37を文字認識学習コーパス記憶部に置き換え、モデル学習手段27を文字認識に対応したものに置き換え、モデル学習度計算手段28を文字認識に対応したものに置き換えることにより、画像により表される文字を文字認識することによりテキストデータを得て、そのテキストデータに対しマイニングを行なう場合に対応することができる。この場合、学習モデル記憶部33は、言語モデルと共に、音響モデルの代わりに、文字認識に必要なモデルを記憶する。
[第3実施形態]
次に、本発明の第3の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図5を参照すると、本発明の第3の発明を実施するための最良の形態は、本発明の第1および第2の実施の形態と同様に、入力装置1、データ処理装置2、記憶装置3、出力装置4を備える。
テキストマイニングプログラム5は、データ処理装置2に読み込まれ、データ処理装置2の動作を制御し、本発明の第1の実施の形態におけるデータ処理装置2による処理若しくは本発明の第2の実施の形態におけるデータ処理装置200又はこれらを文字認識に対応させるための派生形態による処理と同一の処理を実行する。
次に、本発明の第1の実施例を、図面を参照して説明する。かかる実施例は本発明の第1の実施の形態及びその派生形態に対応するものである。
本実施例は、入力装置としてキーボードを、データ処理装置としてパーソナルコンピュータを、データ記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを備えている。
パーソナルコンピュータは、音声認識手段21、音声認識信頼度計算手段22、マイニング条件設定手段23、マイニング計算手段24、マイニング結果信頼度計算手段25、マイニング結果提示手段26として機能する中央演算装置を有しており、また磁気ディスク記憶装置には、入力カテゴリデータ記憶部31、音声データ集合記憶部32、学習モデル記憶部33、音声認識テキスト記憶部34、音声認識信頼度データ記憶部35が生成されている。
音声データ集合記憶部32に記憶されている音声データに対し、音声認識手段21で音声認識処理を行いテキスト化し、更に音声認識信頼度計算手段22により音声認識結果に含まれる単語に信頼度を付与した結果として音声認識信頼度データ記憶部35に記憶されているデータの例を図6に示す。図6において、括弧内の数字は、音声認識に対する信頼度である。また、図6の例に示した音声認識テキストに対し、入力カテゴリデータ記憶部31からカテゴリが与えられ、マイニング条件設定手段23でテキストマイニング処理手順が与えられ、テキストマイニング計算が行われた結果の出力例を図7に示す。この図7の例では、「今日」「天気」「いい」の3単語に関しては、分析対象のデータ中での出現は図6に示すとおり各3回ずつであるが、カテゴリとして与えられた他のデータとの相対的な関係で、同じ出現回数の3単語でも特徴度が異なり、「今日」「天気」「いい」の順に特徴度が高いとしてテキストマイニング結果にリストアップされている。また、「天気→いい」というデータは、図6の入力テキスト中から言語的な依存関係を言語解析技術により生成し、依存関係を持つ単語の組を1つの単語と同様に特徴表現としてテキストマイニングした結果の上位に現れたデータの例である。
マイニング結果信頼度計算手段25では、テキストマイニング結果の上位リストに含まれる単語や表現に対し、順に信頼度を計算する。図7の「今日」という単語についての信頼度は、図6を参照すると、入力中に3箇所の出現位置があり、その3箇所の出現位置の「今日」の音声認識信頼度が出現順に0.3、0.4、0.5である為、単語のテキストマイニング結果信頼度の計算法として相加平均を採用すると、0.4となる。同様に、「天気」に対するテキストマイニング結果信頼度は0.7、「いい」に対するテキストマイニング結果信頼度は0.3となる。また「天気→いい」という表現に対するテキストマイニング結果信頼度の計算法として、表現を構成する各単語のテキストマイニング結果信頼度の最小値を採用した場合は、「天気」が0.7、「いい」が0.3であるので、「天気→いい」という表現のテキストマイニング結果信頼度は0.3となる。
また、図8に示すように、音声認識により得られたテキストに、「天気→いい」という表現が3回現れ、このような表現に含まれない「天気」という単語が5回現れ、このような表現に含まれない「いい」という表現が1回現れた、図8に示すような音声認識信頼度が付けられている場合には、「天気」という単語に対するテキストマイニング結果信頼度として、0.9、0.8、0.4、0.8、0.7、0.6、0.3の相加平均を採用し、「いい」という単語に対するテキストマイニング結果信頼度として、0.4、0.5、0.8の相加平均を採用し、「天気→いい」という表現に対するテキストマイニング結果信頼度として、0,4、0.4、0.3、0.5の相加平均を採用しても良い。
マイニング結果信頼度計算手段25で計算したマイニング結果信頼度が反映されたマイニング結果を出力するテキストマイニング結果提示手段26における利用者へのテキストマイニング結果の提示の例を図9に示す。これは、特徴単語又は特徴表現にその特徴度及びマイニング結果信頼度を付して出力したものである。
また、テキストマイニング結果提示手段26は、テキストマイニング結果信頼度が所定のしきい値以下である単語や表現を除いて、テキストマイニング結果の上位リストに含まれる単語や表現を提示するようにすることにより、マイニング結果信頼度をマイニング結果に反映させても良い。
更に、テキストマイニング結果提示手段26は、テキストマイニング結果の上位リストに含まれる各単語や各表現毎に、これらに対するテキストマイニング結果信頼度を基に、特徴度の誤差範囲を計算し、テキストマイニング結果の上位リストに含まれる単語や表現を特徴度の代表値及び誤差範囲と共に提示することにより、マイニング結果信頼度をマイニング結果に反映させても良い。
更に、テキストマイニング結果提示手段26は、テキストマイニング結果の上位リストに含まれる各単語や各表現を、これらに対するテキストマイニング結果信頼度と1以上の所定のしきい値との比較結果を基に、グループ分けし、テキストマイニング結果の上位リストに含まれる単語や表現をそれが属するグループが分かるような様式(例えば、色、フォント、文字飾り、ページ等によりグループの区別が付くような様式)を用いて提示する。
また、テキストマイニング結果提示手段26は、2次元のグラフ(例えば、x軸に特徴度、y軸にテキストマイニング結果信頼度を割り当てたもの)上にテキストマイニング結果の上位リストに含まれる単語や表現をプロットしグラフィカルに提示するようにすることにより、マイニング結果信頼度をマイニング結果に反映させても良い。
次に、本発明の第2の実施例を、図面を参照して説明する。かかる実施例は、本発明の第2の実施の形態及びその派生形態に対応するものである。
本実施例は、第1の実施例と基本的な構成を同じとするが、データ処理装置としてのパーソナルコンピュータの中央演算装置が、モデル学習手段27およびモデル学習度計算手段28としても機能する点、およびデータ記憶装置としての磁気ディスク記憶装置内に、モデル学習度記憶部36および音声認識学習コーパス記憶部37が生成されている点が、第1の実施例と異なる。
今、学習コーパスが100万単語含み、そのコーパス中の「今日」「天気」「いい」の各単語の出現回数を計算した結果データの例を図10に示す。全体の単語数が100万単語である為、モデル学習手段27において学習され学習モデル記憶部33に格納される学習モデル中のこれら3単語の統計確率データの例としては図11のようになる。
この図11の場合で、モデル学習度計算手段28として、学習した学習モデルの各単語や各表現の出現確率が正しいかどうかを示す尤度(モデル学習度として利用される。)を検定する式として、例えば、図12に示す式を採用した場合は、各単語の学習度はそれぞれ、「今日」:0.33、「天気」:0.17、「いい」:0.5、となる。図12の式により計算されたモデル学習度は、モデル学習度記憶部36に保存され、テキストマイニング結果の上位リストに含まれる単語や表現について、その単語や表現の学習度が参照される。図12に示す式の学習度の数値は、0から1の範囲に正規化されており、テキストマイニング結果の信頼度としてもそのまま利用可能な為、マイニング結果信頼度計算手段25では特別な計算処理を行わず、学習度をそのまま単語の信頼度として利用することが可能である。また、表現に関しては、上述した実施形態や実施例で説明した方法によりその信頼度を計算することができる。
図12に示す式では、全単語に対し同一式での出現確率の検定を用いたが、単語は、その品詞毎に出現頻度が極端に異なる為、品詞毎に異なる検定用の式を利用することも考えられる。また、音声認識処理では、1単語の長さが長い場合は、他の単語と混同される可能性が低下する為、単語の文字列長や音素長を利用し、同一の出現頻度であっても、文字列長や音素長の長い単語は学習度が上がり、文字列長や音素長の短い単語は学習度が低下するような検定用の式を利用することも考えられる。
本発明によれば、コールセンター等に代表される電話での対話を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、ニュース等のテレビ番組や、講義、講演、議会、会議等の音声を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途にも適用可能である。
また、本発明によれば筆記アンケートの集計結果を蓄積し、その内容を分析活用するテキストマイニング装置や、テキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。
本発明の第1実施形態によるテキストマイニング装置の構成を示すブロック図である。 本発明の第2実施形態によるテキストマイニング装置の構成を示すブロック図である。 本発明の第1実施形態によるテキストマイニング方法を示す流れ図(1/2)である。 本発明の第1実施形態によるテキストマイニング方法を示す流れ図(1/2)である。 本発明の第3実施形態によるテキストマイニング装置の構成を示すブロック図である。 本発明の第1実施例によるテキストマイニング方法を説明するための図であり、各形態素毎に認識信頼度を付した例を示す。 本発明の第1実施例によるテキストマイニング方法を説明するための図であり、テキストマイニング結果に含まれる特徴単語又は特徴表現及びこれらに付された特徴度の例を示す。 本発明の第1実施例によるテキストマイニング方法を説明するための図であり、音声認識により得られたテキストに含まれる単語及び表現並びにこれらに付された音声認識信頼度の例を示す。 本発明の第1実施例によるテキストマイニング方法を説明するための図であり、テキストマイニング結果に含まれる特徴単語又は特徴表現並びにこれらに付された特徴度及びその信頼度の例を示す。 本発明の第2実施例によるテキストマイニング方法を説明するための図であり、コーパスに含まれる単語及びその出現回数の例を示す。 本発明の第2実施例によるテキストマイニング方法を説明するための図であり、コーパスに含まれる単語及びその認識モデル中の統計確率の例を示す。 本発明の第2実施例によるテキストマイニング方法を説明するための図であり、学習した学習モデルの各単語や各表現の出現確率が正しいかどうかを示す尤度を検定する式の例を示す図である。
符号の説明
1 入力装置
2,200 データ処理装置
3,300 記憶装置
4 出力装置
5 テキストマイニングプログラム
21 音声認識手段
22 音声認識信頼度計算手段
23 マイニング条件設定手段
24 マイニング計算手段
25 マイニング結果信頼度計算手段
26 マイニング結果提示手段
27 モデル学習手段
28 モデル学習度計算手段
31 入力カテゴリデータ記憶部
32 音声データ集合記憶部
33 学習モデル記憶部
34 音声認識テキスト記憶部
35 音声認識信頼度データ記憶部
36 モデル学習度記憶部
37 音声認識学習コーパス記憶部

Claims (27)

  1. 入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算手段を備えることを特徴とするテキストマイニング装置。
  2. 請求項1に記載のテキストマイニング装置において、
    前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であることを特徴とするテキストマイニング装置。
  3. 請求項1に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用することを特徴とするテキストマイニング装置。
  4. 請求項3に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  5. 請求項3に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  6. 請求項3に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  7. 請求項1に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用することを特徴とするテキストマイニング装置。
  8. 請求項7に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  9. 請求項7に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  10. 請求項7に記載のテキストマイニング装置において、
    前記信頼度計算手段は、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング装置。
  11. 請求項7に記載のテキストマイニング装置において、
    コーパスを基に前記学習モデルを生成するモデル学習手段から得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算手段を更に備えることを特徴とするテキストマイニング装置。
  12. 請求項11に記載のテキストマイニング装置において、
    前記モデル学習度計算手段は、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算することを特徴とするテキストマイニング装置。
  13. 請求項1に記載のテキストマイニング装置において、
    前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示手段を更に備えることを特徴とするテキストマイニング装置。
  14. 入力データに対して認識処理を行なうことにより得られたテキストに対してマイニング処理を行なうことにより得られたマイニング結果に対し、前記認識処理の信頼度に基づいてマイニング結果信頼度を計算する信頼度計算ステップを備えることを特徴とするテキストマイニング方法。
  15. 請求項14に記載のテキストマイニング方法において、
    前記入力データは、音声データ又は画像データであり、前記認識処理は、音声認識処理又は文字認識処理であることを特徴とするテキストマイニング方法。
  16. 請求項14に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの個々の部分に付与された認識処理の信頼度を利用することを特徴とするテキストマイニング方法。
  17. 請求項16に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  18. 請求項16に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  19. 請求項16に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記テキストの、前記マイニング結果に含まれる或る表現に含まれる単語が出現する1又は複数の部分に付与された認識処理の信頼度を利用することにより、前記マイニング結果に含まれるその表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  20. 請求項14に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記認識処理のために利用する学習モデルの学習度を利用することを特徴とするテキストマイニング方法。
  21. 請求項20に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる単語に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  22. 請求項20に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  23. 請求項20に記載のテキストマイニング方法において、
    前記信頼度計算ステップでは、前記認識処理の信頼度として、前記マイニング結果に含まれる表現に含まれる単語に付与された学習度を利用することにより、前記マイニング結果に含まれる表現に対するマイニング結果信頼度を計算することを特徴とするテキストマイニング方法。
  24. 請求項20に記載のテキストマイニング方法において、
    コーパスを基に前記学習モデルを生成するモデル学習ステップから得たデータを基に、前記学習モデルの学習度を計算するモデル学習度計算ステップを更に備えることを特徴とするテキストマイニング方法。
  25. 請求項24に記載のテキストマイニング方法において、
    前記モデル学習度計算ステップでは、前記学習モデルに含まれる各単語又は各表現の学習度を、前記コーパスに含まれる全単語数及び前記コーパスにおける前記各単語又は各表現の出現回数を少なくとも基にして計算することを特徴とするテキストマイニング方法。
  26. 請求項14に記載のテキストマイニング方法において、
    前記マイニング結果信頼度が反映された前記マイニング結果を出力するマイニング結果提示ステップを更に備えることを特徴とするテキストマイニング方法。
  27. 請求項14乃至26の何れか1項に記載のテキストマイニング方法をコンピュータに実行させるためのテキストマイニングプログラム。
JP2005211070A 2005-07-21 2005-07-21 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム Active JP4735958B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005211070A JP4735958B2 (ja) 2005-07-21 2005-07-21 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005211070A JP4735958B2 (ja) 2005-07-21 2005-07-21 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Publications (2)

Publication Number Publication Date
JP2007026347A true JP2007026347A (ja) 2007-02-01
JP4735958B2 JP4735958B2 (ja) 2011-07-27

Family

ID=37786985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005211070A Active JP4735958B2 (ja) 2005-07-21 2005-07-21 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Country Status (1)

Country Link
JP (1) JP4735958B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008115A1 (ja) * 2007-07-09 2009-01-15 Mitsubishi Electric Corporation 音声認識装置およびナビゲーションシステム
WO2010023939A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
WO2010023938A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2004046106A (ja) * 2002-05-15 2004-02-12 Pioneer Electronic Corp 音声認識装置及び音声認識プログラム
JP2004302506A (ja) * 2003-03-28 2004-10-28 Honda Motor Co Ltd 修理依頼受付システムおよび修理依頼受付プログラム
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2004046106A (ja) * 2002-05-15 2004-02-12 Pioneer Electronic Corp 音声認識装置及び音声認識プログラム
JP2004302506A (ja) * 2003-03-28 2004-10-28 Honda Motor Co Ltd 修理依頼受付システムおよび修理依頼受付プログラム
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008115A1 (ja) * 2007-07-09 2009-01-15 Mitsubishi Electric Corporation 音声認識装置およびナビゲーションシステム
JPWO2009008115A1 (ja) * 2007-07-09 2010-09-02 三菱電機株式会社 音声認識装置およびナビゲーションシステム
WO2010023939A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
WO2010023938A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
US8380741B2 (en) 2008-08-29 2013-02-19 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP5472641B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
JP5472640B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
US8751531B2 (en) 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium

Also Published As

Publication number Publication date
JP4735958B2 (ja) 2011-07-27

Similar Documents

Publication Publication Date Title
US20200251091A1 (en) System and method for defining dialog intents and building zero-shot intent recognition models
US20180101522A1 (en) Machine translation method for performing translation between languages
RU2571608C2 (ru) Создание заметок с использованием голосового потока
US20200082808A1 (en) Speech recognition error correction method and apparatus
KR101983975B1 (ko) 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP6019604B2 (ja) 音声認識装置、音声認識方法、及びプログラム
CN110444198A (zh) 检索方法、装置、计算机设备和存储介质
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US10460731B2 (en) Apparatus, method, and non-transitory computer readable storage medium thereof for generating control instructions based on text
CN104462071A (zh) 语音翻译设备和语音翻译方法
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
JPWO2007138875A1 (ja) 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
CN107451119A (zh) 基于语音交互的语义识别方法及装置、存储介质、计算机设备
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101478146B1 (ko) 화자 그룹 기반 음성인식 장치 및 방법
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
CN112151021A (zh) 语言模型的训练方法、语音识别方法、装置及电子设备
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2013134753A (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP6664466B2 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080611

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100927

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110413

R150 Certificate of patent or registration of utility model

Ref document number: 4735958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3