JP2004198597A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2004198597A5 JP2004198597A5 JP2002365074A JP2002365074A JP2004198597A5 JP 2004198597 A5 JP2004198597 A5 JP 2004198597A5 JP 2002365074 A JP2002365074 A JP 2002365074A JP 2002365074 A JP2002365074 A JP 2002365074A JP 2004198597 A5 JP2004198597 A5 JP 2004198597A5
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language model
- node
- topic
- computer program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Description
【0007】
【非特許文献1】
S.スネフ、R.ラウ、J.ポリフローニ著、「Galaxy−II会話システムの編成、通信、および制御」、ユーロスピーチ予稿集、1999年(S.Seneff,R.Lau,J.Polifroni,"Organization,Communication,and Control in the Galaxy−II Conversational System”,Proc.Eurospeech,1999.)
【非特許文献2】
F.ウェセル、A.バーダー著、「1点排除推定を用いたロバストな対話状態依存の言語モデリング」、ICASSP予稿集第2巻、741−744頁、1999年(F.Wessel,A.Baader,”Robust Dialogue−State Dependent Language Modeling using Leaving−One−Out”,Proc.ICASSP Vol.2,pp.741−744,1999.)
【非特許文献3】
G.リッカルディ、A.ゴーリン、A.リヨリエ、M.ライリー著、「自動電話受付のための話し言葉システム」、ICASSP予稿集、第2巻、1143−1146頁、1997年(G.Riccardi,A.Gorin,A.Ljolie,M.Riley,”A spoken Language System for Automated Call Routing”,Proc.ICASSP,Vol.2,pp.1143−1146,1997)
【非特許文献4】
T.タケザワ、E.スミタ、F.スガヤ、H.ヤマモト、S.ヤマモト著、「実世界における旅行会話の音声翻訳のための大規模バイリンガルコーパスに向けて」、LREC2002、147−152頁、2002年(T.Takezawa et al. "Towards a Broad−coverage Bilingual Corpus for Speech Translation of Travel Conversation in the Real World”,LREC 2002,pp.147−152,2002.)
【発明が解決しようとする課題】
しかし、京都大学で開発された方式では、ドメインの数に応じた数の音声認識装置を並列に動作させる必要がある。そのため、ドメインの数が増えるたびに、システムのリソースを追加する必要があり計算コストが増えるという問題がある。また、こうしたシステムでは、ユーザの最初の発話からそれ以後の対話のトピックを同定する必要がある。そのため、できるだけトピック同定の精度を高めるとともに、万が一正確にトピックを同定できないおそれがある場合にも、できるだけ大きな誤りを生じない様なロバスト性が望まれる。特にドメインの切替が生じた場合、こうした問題が生じ易い。
【非特許文献1】
S.スネフ、R.ラウ、J.ポリフローニ著、「Galaxy−II会話システムの編成、通信、および制御」、ユーロスピーチ予稿集、1999年(S.Seneff,R.Lau,J.Polifroni,"Organization,Communication,and Control in the Galaxy−II Conversational System”,Proc.Eurospeech,1999.)
【非特許文献2】
F.ウェセル、A.バーダー著、「1点排除推定を用いたロバストな対話状態依存の言語モデリング」、ICASSP予稿集第2巻、741−744頁、1999年(F.Wessel,A.Baader,”Robust Dialogue−State Dependent Language Modeling using Leaving−One−Out”,Proc.ICASSP Vol.2,pp.741−744,1999.)
【非特許文献3】
G.リッカルディ、A.ゴーリン、A.リヨリエ、M.ライリー著、「自動電話受付のための話し言葉システム」、ICASSP予稿集、第2巻、1143−1146頁、1997年(G.Riccardi,A.Gorin,A.Ljolie,M.Riley,”A spoken Language System for Automated Call Routing”,Proc.ICASSP,Vol.2,pp.1143−1146,1997)
【非特許文献4】
T.タケザワ、E.スミタ、F.スガヤ、H.ヤマモト、S.ヤマモト著、「実世界における旅行会話の音声翻訳のための大規模バイリンガルコーパスに向けて」、LREC2002、147−152頁、2002年(T.Takezawa et al. "Towards a Broad−coverage Bilingual Corpus for Speech Translation of Travel Conversation in the Real World”,LREC 2002,pp.147−152,2002.)
【発明が解決しようとする課題】
しかし、京都大学で開発された方式では、ドメインの数に応じた数の音声認識装置を並列に動作させる必要がある。そのため、ドメインの数が増えるたびに、システムのリソースを追加する必要があり計算コストが増えるという問題がある。また、こうしたシステムでは、ユーザの最初の発話からそれ以後の対話のトピックを同定する必要がある。そのため、できるだけトピック同定の精度を高めるとともに、万が一正確にトピックを同定できないおそれがある場合にも、できるだけ大きな誤りを生じない様なロバスト性が望まれる。特にドメインの切替が生じた場合、こうした問題が生じ易い。
この発明の第2の局面に係るコンピュータプログラムは、複数個のトピックに分類された文を含むコーパスから、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラムである。この方法は、ルートノードと、複数個のトピックに対応する複数個の葉ノードとからなるツリー構造を準備するステップと、複数個の葉ノードのうちの第1のノードを選択するステップと、第1のノードに対応する第1のトピックに対し、予め定められる方法により対応するトピック間で計算される距離が最も小さくなる第2のトピックを求めるステップと、第1のトピックと、第2のトピックとの間で計算された距離が予め定められたしきい値より小さいか否かを判定するステップと、判定するステップで、第1のトピックと第2のトピックとの間の距離が予め定められたしきい値より小さいと判定された事に基づいて、第1のノードと、第2のトピックに対応する第2のノードとに共通する親ノードをツリー構造に追加するステップと、第1のノードを以後のノードの探索の対象から除くステップと、選択するステップと、求めるステップと、判定するステップと、追加するステップと、除くステップとを、予め定められた条件が成立するまで繰り返し実行するステップとを含む。
最下層の言語モデル64に含まれるトピック毎の言語モデル100〜122は各々、トピック分類済コーパス30に含まれる文のうち、特定のトピックのタグが付された文の集合から作成された言語モデルである。たとえばトピック毎の言語モデル100は「両替」というトピックのタグが付された文の集合から作成された言語モデルであり、トピック毎の言語モデル102は「ショッピング」というトピックが付された文の集合から作成された言語モデルであり、以下同様である。ただし、後述する様に本実施の形態では、トピック分類済コーパス30の各文にはトピックの再割当処理が行なわれ、再割当がされたトピックに基づいて最下層の言語モデル64内の各言語モデル100〜122が作成される。従って、トピック分類済コーパス30で各文に付されたトピックのタグが最下層の言語モデル64に含まれるトピック毎の言語モデル100〜122の作成にそのまま使用されるわけではない。
次に、この第2次のトピック再割当後のコーパス168に含まれる各トピック別の文の集合T”1〜T”Nから、言語モデルM”1〜M”Nからなる第3次の言語モデル群170を作成する事ができる。以下同様にして、引き続き各文にトピックを再割当し、それぞれのトピックに対応した言語モデルを作成する処理を行なう事ができる。こうした処理を、たとえば分類結果が収束するまで繰り返し行なうか、または予め定められた回数だけ行ない、その結果得られたものをトピック再分類済言語モデル142(図3)とする。本実施の形態では、分類結果が収束するまで上記した繰り返しを行なう。
−階層的言語モデル作成部32の動作−
階層的言語モデル作成部32は以下の様に動作する。図3を参照して、まずトピック再分類部140がトピック分類済コーパス30内の各文にトピックの再割当を行ない、トピック再分類済言語モデル142を作成する。その詳細は図4および図5に示した。
階層的言語モデル作成部32は以下の様に動作する。図3を参照して、まずトピック再分類部140がトピック分類済コーパス30内の各文にトピックの再割当を行ない、トピック再分類済言語モデル142を作成する。その詳細は図4および図5に示した。
続いて図5のステップ186で、第3次の言語モデル群170が収束したかどうか、すなわち第3次の言語モデル群170が前回の処理で得られた第2次の言語モデル群166と一致しているか否かが判定される。判定結果がNOであれば制御はステップ182に戻り、以下同様の処理が繰り返される。判定結果がYESであればこの処理を終了する。以上の処理で、図3に示すトピック再分類済言語モデル142が得られる。
続いて、図3に示すトピッククラスタリング部144が、トピック再分類済言語モデル142に含まれる言語モデルをクラスタリングし、階層的言語モデル34を作成する。すなわち、図6を参照して、まず繰り返し変数iに0を代入する(ステップ190)。続いて変数iに1を加算する(ステップ192)。ステップ194で変数iの値(=1)が最大値(本実施の形態では「N」)と等しいか否かが判定される。本実施の形態では図2に示される様にN=12とすれば、繰り返しの1回目ではこの判定結果はNOとなる。従って、制御はステップ196に進む。
−トピック検出の精度−
次に、トピックの検出精度について調べた。この精度は、自動音声認識の結果を、元の音声からの書き起こし文に基づいて行なわれた、精度100%の判定結果と比較する事により行なった。ユニグラムおよびSVM方式によるトピック検出精度を表3に示す。
次に、トピックの検出精度について調べた。この精度は、自動音声認識の結果を、元の音声からの書き起こし文に基づいて行なわれた、精度100%の判定結果と比較する事により行なった。ユニグラムおよびSVM方式によるトピック検出精度を表3に示す。
Claims (15)
- ツリー構造の各ノードに対応する言語モデルの集合を含む階層的言語モデルを用いた音声認識装置としてコンピュータを動作させるコンピュータプログラムであって、
前記音声認識装置は、
前記ツリー構造のルートノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第1の音声認識手段と、
前記第1の音声認識手段の出力する認識結果と、前記階層的言語モデル中の前記ツリー構造の葉ノードの各々との間で計算される所定の指標に基づき、前記階層的言語モデル中の前記ツリー構造の葉ノードの内のいずれかを選択するための第1のノード選択手段と、
前記第1のノード選択手段により選択された葉ノードを特定する情報を記憶するための記憶手段と、
前記記憶手段に記憶された情報により特定される葉ノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第2の音声認識手段と、
前記第1の音声認識手段から与えられる信頼度と、前記第2の音声認識手段から与えられる信頼度とに基づいて、前記第1の音声認識手段の音声認識結果と前記第2の音声認識手段による音声認識結果とのうち、より高い信頼度に対応するものを選択するための手段とを含む、コンピュータプログラム。 - 前記装置はさらに、
前記第1のノード選択手段により選択された葉ノードと、前記記憶手段により記憶された情報により特定される葉ノードとを比較するための比較手段と、
前記比較手段により不一致が検出された事に応答して、前記第1のノード選択手段により選択された葉ノードに対応する言語モデルを用いて、前記第1のノード選択手段により一旦音声認識がされた入力に対し再度音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第3の音声認識手段と、
前記第1の音声認識手段より与えられる信頼度と、前記第3の音声認識手段から与えられる信頼度とに基づき、前記第1の音声認識手段の音声認識結果と前記第2の音声認識手段による音声認識結果とのうち、より高い信頼度に対応するものを選択するための手段と、
前記比較手段により不一致が検出された事に応答して、前記第1のノード選択手段が選択した葉ノードを特定する情報で前記記憶手段の記憶内容を更新するための手段とを含む、請求項1に記載のコンピュータプログラム。 - 前記階層的言語モデルを構成する言語モデルはN−グラム言語モデルからなり、
前記第1のノード選択手段は、前記第1の音声認識手段の認識結果の尤度を、前記ツリー構造中の葉ノードの各々に対応する言語モデルに対して算出し、最も高い尤度が得られた葉ノードを選択する、請求項1に記載のコンピュータプログラム。 - 前記階層的言語モデルを構成する言語モデルはユニグラム言語モデルである、請求項3に記載のコンピュータプログラム。
- 各文は、所定の特徴ベクトルで表され、
前記階層的言語モデルを構成する各言語モデルは、各々特徴ベクトルのベクトル空間を二つの空間に分離する超平面で表され、
前記超平面と前記ベクトル空間内の各点との間では、各点が、前記超平面により分離された二つの空間のうち、予め定められる一方内に位置するか否かに関する信頼度を表す所定の指標の計算方法が定義されており、
前記第1のノード選択手段は、前記第1の音声認識結果の特徴ベクトルと、前記ツリー構造の葉ノードに対応する言語モデルに対応する超平面の各々との間で前記指標を算出し、指標の値が最も高い信頼度を表す言語モデルに対応する葉ノードを選択する、請求項1に記載のコンピュータプログラム。 - 前記第1の音声認識手段は、予め定められる複数個の認識結果の候補をそれぞれの信頼度とともに出力し、
前記第1の音声認識手段の認識結果の特徴ベクトルが、前記複数個の認識結果の候補を総合したものに対して算出される、請求項5に記載のコンピュータプログラム。 - 前記装置はさらに、
前記記憶手段により選択された葉ノードと前記ルートノードの間に位置する中位のノードを特定するための手段と、
前記中位のノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第3の音声認識手段と、
前記第2の音声認識認識手段から与えられる信頼度と、前記第3の音声認識手段から得られる信頼度とに基づいて、前記第2の音声認識手段の音声認識結果と前記第3の音声認識手段による認識結果とのうち、より高い信頼度に対応するものを選択するための手段を含む、請求項1に記載のコンピュータプログラム。 - 複数個のトピックに分類された文を含むコーパスから、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラムであって、
前記方法は、
ルートノードと、前記複数個のトピックに対応する複数個の葉ノードとからなるツリー構造を準備するステップと、
前記複数個の葉ノードのうちの第1のノードを選択するステップと、
前記第1のノードに対応する第1のトピックに対し、予め定められる方法により対応するトピック間で計算される距離が最も小さくなる第2のトピックを求めるステップと、
前記第1のトピックと、前記第2のトピックとの間で計算された距離が予め定められたしきい値より小さいか否かを判定するステップと、
前記判定するステップで、前記第1のトピックと第2のトピックとの間の距離が予め定められたしきい値より小さいと判定された事に基づいて、前記第1のノードと、前記第2のトピックに対応する第2のノードとに共通する親ノードを前記ツリー構造に追加するステップと、
前記第1のノードを以後のノードの探索の対象から除くステップと、
前記選択するステップと、前記求めるステップと、前記判定するステップと、前記追加するステップと、前記除くステップとを、予め定められた条件が成立するまで繰り返し実行するステップとを含む、コンピュータプログラム。 - 前記言語モデルはユニグラムの言語モデルである、請求項9に記載のプログラム。
- 複数個のトピックに分類された文を含むコーパスの各文を、音声認識のために再度複数個のトピックに分類するための文分類装置としてコンピュータを動作させるコンピュータプログラムであって、
前記文分類装置は、
前記コーパスの前記複数個のトピックに分類された文の集合に対して予め定められた方法により、前記複数個のトピックにそれぞれ対応した複数個の言語モデルを作成するための言語モデル作成手段と、
前記コーパス内の各文と、前記言語モデル作成手段により作成された前記複数個の言語モデルとの間で予め定義される距離を算出するための距離算出手段と、
前記コーパス内の各文を、前記距離算出手段により算出された距離が最も小さい言語モデルに対応するトピックに分類するための分類手段と、
予め定められた条件が満足されるまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための繰り返し制御手段とを含む、コンピュータプログラム。 - 前記制御手段は、前記分類手段による分類結果が収束するまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための手段を含む、請求項12に記載のコンピュータプログラム。
- 前記制御手段は、所定の回数だけ繰り返しが行なわれるまで、前記言語モデル作成手段、前記距離算出手段、および前記分類手段が繰り返し動作する様に制御するための手段を含む、請求項12に記載のコンピュータプログラム。
- 前記距離算出手段は、文tと言語モデルMiとの距離Dist(Mi,t)を、文tと言語モデルMiとの間で計算されるパープレキシティPP(Mi,t)により算出する、請求項12に記載のコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002365074A JP2004198597A (ja) | 2002-12-17 | 2002-12-17 | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002365074A JP2004198597A (ja) | 2002-12-17 | 2002-12-17 | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004198597A JP2004198597A (ja) | 2004-07-15 |
JP2004198597A5 true JP2004198597A5 (ja) | 2005-05-19 |
Family
ID=32762729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002365074A Pending JP2004198597A (ja) | 2002-12-17 | 2002-12-17 | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004198597A (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716056B2 (en) * | 2004-09-27 | 2010-05-11 | Robert Bosch Corporation | Method and system for interactive conversational dialogue for cognitively overloaded device users |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
JP2006184813A (ja) * | 2004-12-28 | 2006-07-13 | Advanced Telecommunication Research Institute International | 外国語学習装置 |
EP1922717A4 (en) * | 2005-08-09 | 2011-03-23 | Mobile Voice Control Llc | USE OF MULTIPLE VOICE RECOGNITION SOFTWARE |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
JP2008003266A (ja) * | 2006-06-22 | 2008-01-10 | Alpine Electronics Inc | 行き先設定装置及び行き先設定方法 |
US20090271195A1 (en) * | 2006-07-07 | 2009-10-29 | Nec Corporation | Speech recognition apparatus, speech recognition method, and speech recognition program |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
JP4890518B2 (ja) * | 2008-08-29 | 2012-03-07 | ヤフー株式会社 | 複数言語モデルによる統合音声認識装置 |
US9043209B2 (en) | 2008-11-28 | 2015-05-26 | Nec Corporation | Language model creation device |
JP2011154341A (ja) * | 2009-12-28 | 2011-08-11 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP5346327B2 (ja) * | 2010-08-10 | 2013-11-20 | 日本電信電話株式会社 | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
JP6019604B2 (ja) * | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
JP2015092286A (ja) * | 2015-02-03 | 2015-05-14 | 株式会社東芝 | 音声認識装置、方法及びプログラム |
KR102410825B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 문장의 도메인 판단 방법 및 장치 |
US20230046851A1 (en) * | 2021-08-13 | 2023-02-16 | Avanade Holdings Llc | Multi-model approach to natural language processing and recommendation generation |
-
2002
- 2002-12-17 JP JP2002365074A patent/JP2004198597A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5241379B2 (ja) | 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム | |
US8024188B2 (en) | Method and system of optimal selection strategy for statistical classifications | |
JP5223673B2 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
JP2018133070A (ja) | 対話システム、対話方法、および対話システムを適合させる方法 | |
JP2004198597A5 (ja) | ||
WO2017127296A1 (en) | Analyzing textual data | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
KR20140041735A (ko) | 가변길이 문맥을 이용한 음성인식 | |
JP2014521115A (ja) | 信頼度計算の方法及び装置 | |
Scharenborg et al. | Building an ASR system for a low-research language through the adaptation of a high-resource language ASR system: preliminary results | |
Béchet et al. | Is ATIS too shallow to go deeper for benchmarking Spoken Language Understanding models? | |
Gulyaev et al. | Goal-oriented multi-task bert-based dialogue state tracker | |
JP2004198597A (ja) | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
Moyal et al. | Phonetic search methods for large speech databases | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
JP5975938B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
Thomson et al. | N-best error simulation for training spoken dialogue systems | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4191021B2 (ja) | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
CN111831823B (zh) | 一种语料生成、模型训练方法 | |
Andra et al. | Contextual keyword spotting in lecture video with deep convolutional neural network | |
JP2014232145A (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN112528679A (zh) | 一种意图理解模型训练方法及装置、意图理解方法及装置 |