JP2004198597A5

JP2004198597A5 -

Info

Publication number: JP2004198597A5
Application number: JP2002365074A
Authority: JP
Filing date: 2002-12-17
Publication date: 2005-05-19

Description

【０００７】
【非特許文献１】
Ｓ．スネフ、Ｒ．ラウ、Ｊ．ポリフローニ著、「Ｇａｌａｘｙ−ＩＩ会話システムの編成、通信、および制御」、ユーロスピーチ予稿集、１９９９年（Ｓ．Ｓｅｎｅｆｆ，Ｒ．Ｌａｕ，Ｊ．Ｐｏｌｉｆｒｏｎｉ，"Ｏｒｇａｎｉｚａｔｉｏｎ，Ｃｏｍｍｕｎｉｃａｔｉｏｎ，ａｎｄＣｏｎｔｒｏｌｉｎｔｈｅＧａｌａｘｙ−ＩＩＣｏｎｖｅｒｓａｔｉｏｎａｌＳｙｓｔｅｍ”，Ｐｒｏｃ．Ｅｕｒｏｓｐｅｅｃｈ，１９９９．）
【非特許文献２】
Ｆ．ウェセル、Ａ．バーダー著、「１点排除推定を用いたロバストな対話状態依存の言語モデリング」、ＩＣＡＳＳＰ予稿集第２巻、７４１−７４４頁、１９９９年（Ｆ．Ｗｅｓｓｅｌ，Ａ．Ｂａａｄｅｒ，”ＲｏｂｕｓｔＤｉａｌｏｇｕｅ−ＳｔａｔｅＤｅｐｅｎｄｅｎｔＬａｎｇｕａｇｅＭｏｄｅｌｉｎｇｕｓｉｎｇＬｅａｖｉｎｇ−Ｏｎｅ−Ｏｕｔ”，Ｐｒｏｃ．ＩＣＡＳＳＰＶｏｌ．２，ｐｐ．７４１−７４４，１９９９．）
【非特許文献３】
Ｇ．リッカルディ、Ａ．ゴーリン、Ａ．リヨリエ、Ｍ．ライリー著、「自動電話受付のための話し言葉システム」、ＩＣＡＳＳＰ予稿集、第２巻、１１４３−１１４６頁、１９９７年（Ｇ．Ｒｉｃｃａｒｄｉ，Ａ．Ｇｏｒｉｎ，Ａ．Ｌｊｏｌｉｅ，Ｍ．Ｒｉｌｅｙ，”ＡｓｐｏｋｅｎＬａｎｇｕａｇｅＳｙｓｔｅｍｆｏｒＡｕｔｏｍａｔｅｄＣａｌｌＲｏｕｔｉｎｇ”，Ｐｒｏｃ．ＩＣＡＳＳＰ，Ｖｏｌ．２，ｐｐ．１１４３−１１４６，１９９７）
【非特許文献４】
Ｔ．タケザワ、Ｅ．スミタ、Ｆ．スガヤ、Ｈ．ヤマモト、Ｓ．ヤマモト著、「実世界における旅行会話の音声翻訳のための大規模バイリンガルコーパスに向けて」、ＬＲＥＣ２００２、１４７−１５２頁、２００２年（Ｔ．Ｔａｋｅｚａｗａｅｔａｌ． "ＴｏｗａｒｄｓａＢｒｏａｄ−ｃｏｖｅｒａｇｅＢｉｌｉｎｇｕａｌＣｏｒｐｕｓｆｏｒＳｐｅｅｃｈＴｒａｎｓｌａｔｉｏｎｏｆＴｒａｖｅｌＣｏｎｖｅｒｓａｔｉｏｎｉｎｔｈｅＲｅａｌＷｏｒｌｄ”，ＬＲＥＣ２００２，ｐｐ．１４７−１５２，２００２．）
【発明が解決しようとする課題】
しかし、京都大学で開発された方式では、ドメインの数に応じた数の音声認識装置を並列に動作させる必要がある。そのため、ドメインの数が増えるたびに、システムのリソースを追加する必要があり計算コストが増えるという問題がある。また、こうしたシステムでは、ユーザの最初の発話からそれ以後の対話のトピックを同定する必要がある。そのため、できるだけトピック同定の精度を高めるとともに、万が一正確にトピックを同定できないおそれがある場合にも、できるだけ大きな誤りを生じない様なロバスト性が望まれる。特にドメインの切替が生じた場合、こうした問題が生じ易い。

この発明の第２の局面に係るコンピュータプログラムは、複数個のトピックに分類された文を含むコーパスから、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラムである。この方法は、ルートノードと、複数個のトピックに対応する複数個の葉ノードとからなるツリー構造を準備するステップと、複数個の葉ノードのうちの第１のノードを選択するステップと、第１のノードに対応する第１のトピックに対し、予め定められる方法により対応するトピック間で計算される距離が最も小さくなる第２のトピックを求めるステップと、第１のトピックと、第２のトピックとの間で計算された距離が予め定められたしきい値より小さいか否かを判定するステップと、判定するステップで、第１のトピックと第２のトピックとの間の距離が予め定められたしきい値より小さいと判定された事に基づいて、第１のノードと、第２のトピックに対応する第２のノードとに共通する親ノードをツリー構造に追加するステップと、第１のノードを以後のノードの探索の対象から除くステップと、選択するステップと、求めるステップと、判定するステップと、追加するステップと、除くステップとを、予め定められた条件が成立するまで繰り返し実行するステップとを含む。

最下層の言語モデル６４に含まれるトピック毎の言語モデル１００〜１２２は各々、トピック分類済コーパス３０に含まれる文のうち、特定のトピックのタグが付された文の集合から作成された言語モデルである。たとえばトピック毎の言語モデル１００は「両替」というトピックのタグが付された文の集合から作成された言語モデルであり、トピック毎の言語モデル１０２は「ショッピング」というトピックが付された文の集合から作成された言語モデルであり、以下同様である。ただし、後述する様に本実施の形態では、トピック分類済コーパス３０の各文にはトピックの再割当処理が行なわれ、再割当がされたトピックに基づいて最下層の言語モデル６４内の各言語モデル１００〜１２２が作成される。従って、トピック分類済コーパス３０で各文に付されたトピックのタグが最下層の言語モデル６４に含まれるトピック毎の言語モデル１００〜１２２の作成にそのまま使用されるわけではない。

次に、この第２次のトピック再割当後のコーパス１６８に含まれる各トピック別の文の集合Ｔ”₁〜Ｔ”_Nから、言語モデルＭ”₁〜Ｍ”_Nからなる第３次の言語モデル群１７０を作成する事ができる。以下同様にして、引き続き各文にトピックを再割当し、それぞれのトピックに対応した言語モデルを作成する処理を行なう事ができる。こうした処理を、たとえば分類結果が収束するまで繰り返し行なうか、または予め定められた回数だけ行ない、その結果得られたものをトピック再分類済言語モデル１４２（図３）とする。本実施の形態では、分類結果が収束するまで上記した繰り返しを行なう。

ただし、Ｔ_Ckはｋ番目のトピックに属する文の集合であり、Ｍ_Ckはｋ番目のトピックに属する文の集合から得られたユニグラムモデルであり、ＰＰ（Ｔ_Ci ，Ｍ_Cj）はｉ番目のトピックに属する文の集合内の各文とｊ番目のモデルＭ_Cjとの間で計算されるパープレキシティである

−階層的言語モデル作成部３２の動作−
階層的言語モデル作成部３２は以下の様に動作する。図３を参照して、まずトピック再分類部１４０がトピック分類済コーパス３０内の各文にトピックの再割当を行ない、トピック再分類済言語モデル１４２を作成する。その詳細は図４および図５に示した。

続いて図５のステップ１８６で、第３次の言語モデル群１７０が収束したかどうか、すなわち第３次の言語モデル群１７０が前回の処理で得られた第２次の言語モデル群１６６と一致しているか否かが判定される。判定結果がＮＯであれば制御はステップ１８２に戻り、以下同様の処理が繰り返される。判定結果がＹＥＳであればこの処理を終了する。以上の処理で、図３に示すトピック再分類済言語モデル１４２が得られる。

続いて、図３に示すトピッククラスタリング部１４４が、トピック再分類済言語モデル１４２に含まれる言語モデルをクラスタリングし、階層的言語モデル３４を作成する。すなわち、図６を参照して、まず繰り返し変数ｉに０を代入する（ステップ１９０）。続いて変数ｉに１を加算する（ステップ１９２）。ステップ１９４で変数ｉの値（＝１）が最大値（本実施の形態では「Ｎ」）と等しいか否かが判定される。本実施の形態では図２に示される様にＮ＝１２とすれば、繰り返しの１回目ではこの判定結果はＮＯとなる。従って、制御はステップ１９６に進む。

−トピック検出の精度−
次に、トピックの検出精度について調べた。この精度は、自動音声認識の結果を、元の音声からの書き起こし文に基づいて行なわれた、精度１００％の判定結果と比較する事により行なった。ユニグラムおよびＳＶＭ方式によるトピック検出精度を表３に示す。

Claims

ツリー構造の各ノードに対応する言語モデルの集合を含む階層的言語モデルを用いた音声認識装置としてコンピュータを動作させるコンピュータプログラムであって、
前記音声認識装置は、
前記ツリー構造のルートノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第１の音声認識手段と、
前記第１の音声認識手段の出力する認識結果と、前記階層的言語モデル中の前記ツリー構造の葉ノードの各々との間で計算される所定の指標に基づき、前記階層的言語モデル中の前記ツリー構造の葉ノードの内のいずれかを選択するための第１のノード選択手段と、
前記第１のノード選択手段により選択された葉ノードを特定する情報を記憶するための記憶手段と、
前記記憶手段に記憶された情報により特定される葉ノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第２の音声認識手段と、
前記第１の音声認識手段から与えられる信頼度と、前記第２の音声認識手段から与えられる信頼度とに基づいて、前記第１の音声認識手段の音声認識結果と前記第２の音声認識手段による音声認識結果とのうち、より高い信頼度に対応するものを選択するための手段とを含む、コンピュータプログラム。
前記装置はさらに、
前記第１のノード選択手段により選択された葉ノードと、前記記憶手段により記憶された情報により特定される葉ノードとを比較するための比較手段と、
前記比較手段により不一致が検出された事に応答して、前記第１のノード選択手段により選択された葉ノードに対応する言語モデルを用いて、前記第１のノード選択手段により一旦音声認識がされた入力に対し再度音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第３の音声認識手段と、
前記第１の音声認識手段より与えられる信頼度と、前記第３の音声認識手段から与えられる信頼度とに基づき、前記第１の音声認識手段の音声認識結果と前記第２の音声認識手段による音声認識結果とのうち、より高い信頼度に対応するものを選択するための手段と、
前記比較手段により不一致が検出された事に応答して、前記第１のノード選択手段が選択した葉ノードを特定する情報で前記記憶手段の記憶内容を更新するための手段とを含む、請求項１に記載のコンピュータプログラム。
前記階層的言語モデルを構成する言語モデルはＮ−グラム言語モデルからなり、
前記第１のノード選択手段は、前記第１の音声認識手段の認識結果の尤度を、前記ツリー構造中の葉ノードの各々に対応する言語モデルに対して算出し、最も高い尤度が得られた葉ノードを選択する、請求項１に記載のコンピュータプログラム。
前記階層的言語モデルを構成する言語モデルはユニグラム言語モデルである、請求項３に記載のコンピュータプログラム。
各文は、所定の特徴ベクトルで表され、
前記階層的言語モデルを構成する各言語モデルは、各々特徴ベクトルのベクトル空間を二つの空間に分離する超平面で表され、
前記超平面と前記ベクトル空間内の各点との間では、各点が、前記超平面により分離された二つの空間のうち、予め定められる一方内に位置するか否かに関する信頼度を表す所定の指標の計算方法が定義されており、
前記第１のノード選択手段は、前記第１の音声認識結果の特徴ベクトルと、前記ツリー構造の葉ノードに対応する言語モデルに対応する超平面の各々との間で前記指標を算出し、指標の値が最も高い信頼度を表す言語モデルに対応する葉ノードを選択する、請求項１に記載のコンピュータプログラム。
前記第１の音声認識手段は、予め定められる複数個の認識結果の候補をそれぞれの信頼度とともに出力し、
前記第１の音声認識手段の認識結果の特徴ベクトルが、前記複数個の認識結果の候補を総合したものに対して算出される、請求項５に記載のコンピュータプログラム。
前記装置はさらに、
前記記憶手段により選択された葉ノードと前記ルートノードの間に位置する中位のノードを特定するための手段と、
前記中位のノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第３の音声認識手段と、
前記第２の音声認識認識手段から与えられる信頼度と、前記第３の音声認識手段から得られる信頼度とに基づいて、前記第２の音声認識手段の音声認識結果と前記第３の音声認識手段による認識結果とのうち、より高い信頼度に対応するものを選択するための手段を含む、請求項１に記載のコンピュータプログラム。
複数個のトピックに分類された文を含むコーパスから、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラムであって、
前記方法は、
ルートノードと、前記複数個のトピックに対応する複数個の葉ノードとからなるツリー構造を準備するステップと、
前記複数個の葉ノードのうちの第１のノードを選択するステップと、
前記第１のノードに対応する第１のトピックに対し、予め定められる方法により対応するトピック間で計算される距離が最も小さくなる第２のトピックを求めるステップと、
前記第１のトピックと、前記第２のトピックとの間で計算された距離が予め定められたしきい値より小さいか否かを判定するステップと、
前記判定するステップで、前記第１のトピックと第２のトピックとの間の距離が予め定められたしきい値より小さいと判定された事に基づいて、前記第１のノードと、前記第２のトピックに対応する第２のノードとに共通する親ノードを前記ツリー構造に追加するステップと、
前記第１のノードを以後のノードの探索の対象から除くステップと、
前記選択するステップと、前記求めるステップと、前記判定するステップと、前記追加するステップと、前記除くステップとを、予め定められた条件が成立するまで繰り返し実行するステップとを含む、コンピュータプログラム。
前記距離は、以下の式により算出されるＤｉｓｔ_UNI（Ｃ_i，Ｃ_j）により表され、

ただし、Ｃ_i，Ｃ_jはそれぞれｉ番目のトピッククラスおよびｊ番目のトピッククラス、Ｔ_Ckはｋ番目のトピックに属する文の集合、Ｍ_Ckはｋ番目のトピックに属する文の集合から得られた言語モデル、ＰＰ（Ｔ_Ci、Ｍ_Cj）はｉ番目のトピックに属する文の集合内の各文とｊ番目の言語モデルＭ_Cjとの間で計算されるパープレキシティである、請求項８に記載のコンピュータプログラム。
前記言語モデルはユニグラムの言語モデルである、請求項９に記載のプログラム。
前記コーパス内の各文は所定の特徴ベクトルで表され、
前記モデルは前記特徴ベクトルのベクトル空間内においてサポートベクトルマシン（ＳＶＭ）により求められる超平面により表され、
前記距離は、以下の式Ｄｉｓｔ_SVM（Ｃ_i，Ｃ_j）により算出され、

である、請求項８に記載のコンピュータプログラム。
複数個のトピックに分類された文を含むコーパスの各文を、音声認識のために再度複数個のトピックに分類するための文分類装置としてコンピュータを動作させるコンピュータプログラムであって、
前記文分類装置は、
前記コーパスの前記複数個のトピックに分類された文の集合に対して予め定められた方法により、前記複数個のトピックにそれぞれ対応した複数個の言語モデルを作成するための言語モデル作成手段と、
前記コーパス内の各文と、前記言語モデル作成手段により作成された前記複数個の言語モデルとの間で予め定義される距離を算出するための距離算出手段と、
前記コーパス内の各文を、前記距離算出手段により算出された距離が最も小さい言語モデルに対応するトピックに分類するための分類手段と、
予め定められた条件が満足されるまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための繰り返し制御手段とを含む、コンピュータプログラム。
前記制御手段は、前記分類手段による分類結果が収束するまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための手段を含む、請求項１２に記載のコンピュータプログラム。
前記制御手段は、所定の回数だけ繰り返しが行なわれるまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための手段を含む、請求項１２に記載のコンピュータプログラム。
前記距離算出手段は、文ｔと言語モデルＭiとの距離Ｄｉｓｔ（Ｍi，ｔ）を、文ｔと言語モデルＭiとの間で計算されるパープレキシティＰＰ（Ｍi，ｔ）により算出する、請求項１２に記載のコンピュータプログラム。