JP2004101963A

JP2004101963A - 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム

Info

Publication number: JP2004101963A
Application number: JP2002264718A
Authority: JP
Inventors: Dohen Marion; マリオン　ドーへン; Tomoko Matsui; 松井　知子; Satoru Nakamura; 中村　哲
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-09-10
Filing date: 2002-09-10
Publication date: 2004-04-02

Abstract

【課題】確率論的に定式化できない信頼尺度を用いながら，認識結果の訂正を最適化できるような音声認識結果の訂正方法を提供する。
【解決手段】本方法は、複数の認識結果候補の単語列を出力する音声認識処理により得られた第１位の認識結果候補に含まれる単語ごとに、第１の信頼尺度を得るようにコンピュータを動作させるステップ２００と、第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップ２０２と、第１の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、音声認識処理により得られた第２位以下の認識結果候補に含まれる対応する単語列に対して第２の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップ２０４−２０８とを含む。
【選択図】　　　図９

Description

【０００１】
【発明の属する技術分野】
この発明は音声認識技術に関し、特に、音声認識の後処理として、結果を単語ごとに検証して訂正することにより音声認識の精度を向上させる技術に関する。
【０００２】
【従来の技術】
音声認識はもはや研究室だけで研究される段階を過ぎ、実際に幅広い範囲で応用が期待される。音声認識を実際に応用する場合、最も問題となるのは種々の環境の中でいかに精度よく、ロバストに音声認識を行なうことができるか、である。一般的に、そのようなロバストな音声認識を実現するための方策として二つが考えられる。認識そのものの精度を高めることと、認識後の後処理により認識の精度を高めることとである。
【０００３】
前者はノイズに対する適合と補償とにより行なわれる。後者は、主として認識結果に対する信頼性を再評価することにより行なわれる。この場合、後処理の信頼性の尺度としては認識に用いられるものよりも複雑な言語モデル（ＬＭ）、または信頼尺度（ＣＭ）が用いられる。後処理では、ＣＭとして事後確率を用いて再スコアリングを行なう技術が後にあげる非特許文献１において報告されている。この報告では、事後確率に基づくＣＭを用い、一度認識した後、その発声全体にわたるＣＭスコアの積を最大化する基準によりその認識結果を再評価する。
【非特許文献１】
Ｆ．ウェセル（Ｆ．　Ｗｅｓｓｅｌ）、Ｒ．シュルター（Ｒ．
Ｓｃｈｌｕｔｅｒ）、Ｈ．ネイ（Ｈ．Ｎｅｙ）著「改善された音声認識のための事後単語確率の使用（Ｕｓｉｎｇ　Ｐｏｓｔｅｒｉｏｒ　ｗｏｒｄｐｒｏｂａｂｉｌｉｔｉｅｓ　ｆｏｒ　ｉｍｐｒｏｖｅｄ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ）」、ＩＣＡＳＳ　２０００予稿集、ｐｐ．５３６−５６６
【非特許文献２】
Ｇ．エバーマン（Ｇ．　Ｅｖｅｒｍａｎ）、Ｐ．Ｃ．ウッドランド（Ｐ．Ｃ．Ｗｏｏｌｄｌａｎｄ）著「単語事後確率を用いた大ボキャブラリでコーディングおよび信頼性推定（Ｌａｒｇｅ　ｖｏｃａｂｕｌａｒｙ　ｄｅｃｏｄｉｎｇ　ａｎｄｃｏｎｆｉｄｅｎｃｅ　ｅｓｔｉｍａｔｉｏｎ　ｕｓｉｎｇ　ｗｏｒｄ　ｐｏｓｔｅｒｉｏｒ　ｐｒｏｂａｂｉｌｉｔｉｅｓ）」、ＩＣＡＳＳＰ　２０００予稿集、ｐｐ．２３６６−２３６９
【非特許文献３】
Ｔ．マツイ（Ｔ．　Ｍａｔｓｕｉ）、Ｆ．Ｋ．スーン（Ｆ．Ｋ．Ｓｏｏｎｇ）、Ｂ．−Ｈ．ファン（Ｂ．−Ｈ．　Ｊｕａｎ）著「多重クラス認識結果の検証のための識別関数の設計（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｄｅｓｉｇｎ　ｆｏｒＶｅｒｉｆｉｃａｔｉｏｎ　ｏｆ　Ｍｕｌｔｉ−Ｃｌａｓｓ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｄｅｓｉｇｎ）」、日本音響学会２００２年春季研究発表会予稿集　Ｖｏｌ．１，
ｐｐ．８５−８６，　２００２
【非特許文献４】
Ｊ．Ｇ．フィスカス（Ｊ．Ｇ．　Ｆｉｓｃｕｓ）著「エラー率を低減する後処理システム：認識装置出力多数決エラーリダクション（ＲＯＶＥＲ）（ＡＰｏｓｔ−ｐｒｏｃｅｓｓｉｎｇ　ｓｙｓｔｅｍ　ｔｏ　ｙｉｅｌｄ　ｒｅｄｕｃｅｄ　ｅｒｒｏｒ　ｒａｔｅｓ：　Ｒｅｃｏｇｎｉｚｅｒ　ｏｕｔｐｕｔ　ｖｏｔｉｎｇｅｒｒｏｒ　ｒｅｄｕｃｔｉｏｎ　（ＲＯＶＥＲ））」
【非特許文献５】
Ｊ．ツァン（Ｊ．　Ｚｈａｎｇ）、Ｋ．マルコフ（Ｋ．　Ｍａｒｋｏｖ）、Ｔ．マツイ（Ｔ．Ｍａｔｓｕｉ）、Ｒ．グルーン（Ｒ．　Ｇｒｕｈｎ）、およびＳ．ナカムラ（Ｓ．　Ｎａｋａｍｕｒａ）著「ＳＰＩＮＥ２　プロジェクトのための耐雑音性に優れたベースライン音響モデルの構築（ＤｅｖｅｌｏｐｉｎｇＲｏｂｕｓｔ　Ｂａｓｅｌｉｎｅ　Ａｃｏｕｓｔｉｃ　Ｍｏｄｅｌｓ　ｆｏｒ　Ｎｏｉｓｙ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　ｉｎ　ＳＰＩＮＥ２　Ｐｒｏｊｅｃｔ）日本音響学会２００２年春季研究発表会予稿集
Ｖｏｌ．１，　ｐｐ．６５−６６，　２００２
【発明が解決しようとする課題】
しかし、ＣＭは通常は実験的に定められるものであり、事後確率のように確率論的に定式化できない場合が多い。その場合には、非特許文献１のように、発声全体にわたり算出される基準でＣＭを適用したとしても、それは必ずしも真の最適化とはいえない。
【０００４】
それゆえに本発明の目的は、確率論的に定式化できないＣＭを用いながら，認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【０００５】
本発明の他の目的は、確率論的に定式化できないＣＭを認識結果に対して局部的に適用することにより，認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【０００６】
本発明のさらに他の目的は、確率論的に定式化できないＣＭを認識結果に対して局部的に適用して認識結果が正しいか否かを判定し、誤認識の場合にその部分を局部的に訂正することにより，認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【０００７】
【課題を解決するための手段】
本発明の第１の局面にかかる音声認識結果の訂正方法は、複数の認識結果候補の単語列を出力する音声認識処理により得られた第１位の認識結果候補に含まれる単語ごとに、所定の第１の信頼尺度を得るようにコンピュータを動作させるステップと、第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、第１の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、音声認識処理により得られた第２位以下の認識結果候補に含まれる対応する単語列に対して所定の第２の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む。
【０００８】
所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含んでもよい。
【０００９】
所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含んでもよい。
【００１０】
所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理によって単語ごとに出力される当該単語の尤度と、音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含んでもよい。
【００１１】
好ましくは、音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む。
【００１２】
第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、第１の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含んでもよい。
【００１３】
所定の第２の信頼尺度は、言語モデル、好ましくはトリグラムによる言語モデルによる単語列の統計的発生確率でもよい。
【００１４】
さらに好ましくは、音声認識結果は、認識結果候補の単語列により構成されるラティスと、各認識結果候補に含まれる各単語の時間情報とを含んでもよい。最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、ラティスおよび時間情報に基づいて、音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、第１の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、単語遷移ネットワーク上で対応する第２位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して第２の信頼尺度を算出するようにコンピュータを動作させるステップと、算出された第２の信頼尺度が最も大きな単語列によって、第１の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含んでもよい。
【００１５】
さらに好ましくは、選択するようにコンピュータを動作させるステップは、第１の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、単語遷移ネットワーク上で対応する第２位以下の認識結果候補において、開始時刻が判定された単語の開始時刻以後であり、かつ終了時刻が所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含んでもよい。
【００１６】
上記した方法は、コンピュータプログラムにより実現できる。
【００１７】
【発明の実施の形態】
本実施の形態のシステムでは、主に二つのステップで認識結果に対する後処理を行なう。すなわち、単語の検証と訂正とである。単語の検証では、各単語が正しく認識されたか否か、という二値（バイナリ）判定を行なう。そして誤って認識されたと判定された単語について事後的にＣＭを算出し、このＣＭを用いて単語の訂正（置換）を行なう。このように単語ごとの判定と訂正とを行なうことにより、ローカルに認識結果の最適化を図ることができ、結果として全体の最適化も図ることができる。
【００１８】
図１に、本実施の形態にかかる認識結果訂正装置３２を採用した音声認識装置２０のブロック図を示す。図１を参照して、この音声認識装置２０は、入力音声２２に対する音声認識を行ない、結果を後述するＮ−ベストの情報を含むラティス、認識結果の各単語の尤度、および各単語の時間情報（開始タイムスタンプ、終了タイムスタンプ）の形で出力する音声認識回路３０と、この音声認識回路３０の出力に対し、前述したように単語単位でＣＭによる単語検証の判定（バイナリ判定）と訂正処理とを行ない訂正後の認識結果２４を出力するための認識結果訂正装置３２とを含む。
【００１９】
なお、本明細書で「回路」という場合、それをハードウェアとして実現したものはもちろん、コンピュータソフトウェアおよび関連のハードウェアで同等の機能を実現したものも含むものとする。
【００２０】
図３に、音声認識回路３０の出力例を示す。図３の上部には、音声認識回路３０の出力するラティスを概念的に示し、図３の下部にはこのラティスに対応する認識結果のＮ個の候補（これを「Ｎ−ベスト」と称する。）９０と、各候補を構成する単語列とを示す。Ｎ−ベストの候補には、それぞれ第１位から第Ｎ位までの順位がつけられている。なお本明細書では、「単語列」という語は、単一の単語と複数の単語との双方を指し得るものとする。
【００２１】
ラティスとは、認識結果に含まれるＮ−ベストの認識文を構成する単語列をグラフ（ネットワーク）状に表したものである。説明をわかりやすくするために、図３に示した例では各単語列が交わらないような表現となっている。Ｎ−ベストの各候補は、入力音声の認識結果である単語列を含む。
【００２２】
再び図１を参照して、認識結果訂正装置３２は、音声認識回路３０の出力するラティスから後述する単語遷移ネットワークを作成するための単語遷移ネットワーク作成部４２と、入力音声２２から、音声認識回路３０とは独立に、単語の検証のためのサブ音声認識を行ない、単語ごとの検証（バイナリ判定）のためのＣＭを出力するためのサブ音声認識回路４０と、単語遷移ネットワークおよびサブ音声認識回路４０から出力されるＣＭに基づいて、音声認識回路３０の認識結果Ｎ−ベストのうち第１位のものについて、単語ごとに認識が正しく行なわれたか否かのバイナリ判定を行なうための検証回路４４と、検証回路４４の検証結果と、単語遷移ネットワークとに基づき、音声認識３０の出力する音声認識結果の第１位の単語列のうち、認識が正しく行なわれなかったと判定された部分を抽出し、第２位以下の候補の対応する部分について、訂正のためのＣＭの再スコアリングを行ない最もＣＭの高い部分と置換して訂正後の認識結果２４として出力するための訂正回路４６とを含む。本実施の形態では、再スコアリングはトリグラムのＬＭスコアにより行なう。なお、ＬＭスコアとは、通常は、ある言語において、ある数の特定の単語列が表れる統計的な確率により表わされる。特定の２つの単語が連続して現れる場合にをバイグラム、３つの単語が連続して現れる場合をトリグラム、一般的にＮ個の単語が連続して現れる場合をＮグラムとよぶ。これらは、たとえばその言語のコーパスを統計的に処理して算出することができる。
【００２３】
ＬＭスコアでは、統計的によく現れる（正しい）Ｎグラムのスコアが高くなる。ＬＭスコアが低ければ、そのＮグラムがよく使われる（正しい）ものである確率も低くなる。
【００２４】
サブ音声認識回路４０は、単語ごとの認識結果の検証（バイナリ判定）を行なうためのＣＭを算出する。ここで問題となるのは、各単語の正確さを最もよく反映するＣＭとしてどのようなものがあるか、ということである。本実施の形態では、サブ音声認識回路４０に音韻ループモデルと呼ばれるものを用い、出力されるスコアを単語検証のためのＣＭとして用いる。ほかにも、ファーストベスト、事後単語確率、ファーストベスト／音韻ループなど種々のものが考えられる。ファーストベスト尺度は、音声認識回路３０での認識により得られる尤度をそのまま用いるものである。この場合には、サブ音声認識回路４０は不要となる。事後単語確率については、非特許文献１に記載されている。ファーストベスト／音韻ループは、ファーストベストのスコアと音韻ループのスコアとの比をＣＭとして用いるものである。
【００２５】
単語遷移ネットワーク作成部４２は、ラティスおよび各単語の時間情報に基づいて単語遷移ネットワークを作成する。ラティスおよびそれから作成される単語遷移ネットワークについて、図４および図５を参照して説明する。図４に、ラティスの一例を示す。この例では、「私／は／行く」が認識結果の第１位の候補、「あなた／が／行く」が第２候補となっていることを想定する。これらは別々の単語列として示され、各候補の間の単語の対応関係まではわからない。これに対し図５に示す単語遷移ネットワークでは、単語音声の持続時間も含めて、候補の語ごとに、ほかの候補の語との対応関係がわかるようになっている。すなわち、図５に示す例では、第１位の候補の「私」と第２位の候補の「あなた」とが対応関係にあること、第１位の候補の「は」と第２位の候補の「が」が対応関係にあること、第１位の候補の「行く」と第２位の候補の「行く」とが一致していることがわかる。これは、認識結果とそれに対応する音声の時間（開始時刻および終了時刻のタイムスタンプ）に関する情報が単語遷移ネットワークに含まれているためである。単語遷移ネットワークの作成には、非特許文献４に記載されたＲＯＶＥＲアライメントツールを用いる。
【００２６】
誤認識された単語（列）についてはさらに、その単語（列）の持続時間についても情報を抽出しておく。誤認識された単語がいくつか連続して発声中に存在している場合、誤認識された語列の先頭の語の開始時刻から最後の語の終了時刻までの時間をグローバル持続時間と定義する。
【００２７】
図２に示すバイナリ判定部７０は、第１位の候補の各単語について、サブ音声認識回路４０から与えられる対応するＣＭが所定のしきい値以上か否かを判定する機能を持つ。判定結果は、第１位の候補の各単語に関連付けられて記憶される。例を図６に示す。
【００２８】
図６において、第１位の候補が単語列Ｗ_１ ^（１），Ｗ_２ ^（１），…，Ｗ_ｎ１ ^（１）を含むものとする。ここで下付きの添字「１，２、…ｎ１」はこの単語列内での各単語の順番を示す。「ｎ１」は、第１位の候補に含まれる単語の数を示す。（一般に「ｎｋ」は、第ｋ位の候補に含まれる単語の数を表わすものとする。）上付きの添字「（１）」は、各単語が第１位の候補に含まれる単語であることを示す。（同様に、一般に上付きの添字「（ｊ）」は、その単語が第ｊ位の候補に含まれる単語であることを示すものとする。）
図６では、単語Ｗ_１ ^（１），Ｗ_３ ^（１），Ｗ_ｎ１ ^（１）などについてはＣＭがしきい値以上であり、正解であると判定されたものとする。正解の判定結果の例を図６において「○」で示してある。一方、Ｗ_２ ^（１）についてはＣＭがしきい値未満であり、誤認識であると判定されたものとする。誤認識と判定された結果は図６において「×」で示してある。
【００２９】
図２に示す区間抽出部７２は、誤認識と判定された領域であって、その前後が正解と判定された単語にはさまれている領域を抽出する機能を持つ。図６においては、領域１００および領域１０２がそうした領域に相当する。この領域の最初と最後については認識結果は正しいが、途中の単語列はいずれも誤認識と判定されている。誤認識と判定された単語は一つの場合もあるであろうし、複数個連続している場合もあり得る。本明細書において、「連続する単語列」という場合には、その両者を含み得るものとする。
【００３０】
なお図６においては、Ｗ_１ ^（１）とＷ_ｎ１ ^（１）とはいずれも誤認識でないと判定されている。これらが誤認識と判定された場合については、前または後ろが正解ということはないから、上述した基準ではこれらを抽出はできない。しかし、たとえば単語列の先頭および最後においては、その前または後に正解の単語が存在することを仮定するなどして、それ以外の部分と同様の処理を行なうことができる。
【００３１】
図２に示す候補リスト作成部８０は、単語遷移ネットワークと持続時間情報とに基づいて、語認識された単語シーケンスに対する置換候補を選択しリストにする。この置換候補としては、単語遷移ネットワーク上のパスのうち、誤認識された単語シーケンスと対応する、第２位以下の候補の単語列に対応するパスが基本的に選ばれる。図６において、単語Ｗ_２ ^（１），が誤認識であると判定された場合の置換候補を枠１１０で囲って示してある。本実施の形態では、置換候補には、そのパスの単語シーケンスのグローバル持続時間が、誤認識された単語シーケンスのグローバル持続時間以下であり、その開始時刻が、誤認識された単語シーケンスの開始時刻以後であり、その終了時刻が、誤認識された単語シーケンスの終了時刻以前であるものという条件を課してある。ただし、この条件についてはその一部のみを課すようにしてもよい。さらに、上記したのとは別の時間的条件を課すようにしてもよい。また、場合によっては時間的条件を課さなくてもよい。
【００３２】
この方法では、候補内の単語列の数には制約は設けられておらず、そのために一つの単語が複数の単語で置換されることもあり得る。そのため、誤認識のうち、単語の置換だけでなく、削除誤りや挿入誤りも訂正することが可能である。
【００３３】
本実施の形態では、単語の訂正では「ＬＭのみ」モードと呼ばれる手法を用いた。この手法では図２に示すＬＭスコア計算部８２は、各候補について訂正のためのＣＭとしてＬＭスコアを算出する。このＬＭスコアはトリグラムを用いたもので、前後の文脈を考慮して算出される。選択・置換部８４は、ＬＭスコアが最も高いものを選択して誤認識された単語列と置換する。
【００３４】
―構成―
以上に述べた本発明の各実施の形態は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以上に述べた機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
【００３５】
図７に、本実施の形態で利用されるコンピュータシステム１２０の外観図を、図８にコンピュータシステム１２０のブロック図を、それぞれ示す。なおここに示すコンピュータシステム１２０はあくまで一例であり、この他にも種々の構成が可能である。
【００３６】
図７を参照して、コンピュータシステム１２０は、コンピュータ１４０と、いずれもこのコンピュータ１４０に接続されたモニタ１４２、キーボード１４６、およびマウス１４８を含む。コンピュータ１４０にはさらに、ＣＤ―ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）ドライブ１５０と、ＦＤ（Ｆｌｅｘｉｂｌｅ　Ｄｉｓｋ）ドライブ１５２とが内蔵されている。
【００３７】
図８を参照して、コンピュータシステム１２０はさらに、コンピュータ１４０に接続されるプリンタ１４４を含むが、これは図７には示していない。またコンピュータ１４０はさらに、ＣＤ―ＲＯＭドライブ１５０およびＦＤドライブ１５２に接続されたバス１６６と、いずれもバス１６６に接続された中央演算装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）１５６、コンピュータ１４０のブートアッププログラムなどを記憶したＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）１５８、ＣＰＵ１１５６が使用する作業エリアおよびＣＰＵ１５６により実行されるプログラムの格納エリアを提供するＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１６０、およびハードディスク１５４を含む。
【００３８】
上に述べた実施の形態のシステムを実現するソフトウェアは、たとえば、ＣＤ―ＲＯＭ１６２のような記録媒体上に記録されて流通し、ＣＤ―ＲＯＭドライブ１５０のような読取装置を介してコンピュータ１４０に読込まれ、ハードディスク１５４に格納される。ＣＰＵ１５６がこのプログラムを実行する際には、ハードディスク１５４からこのプログラムを読み出してＲＡＭ１６０に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。ＣＰＵ１５６は、処理対象のデータをハードディスク１５４から読出し、処理結果を同じくハードディスク１５４に格納する。
【００３９】
コンピュータシステム１２０の動作自体は周知であるので、ここではその詳細については繰り返さない。
【００４０】
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク１５４中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク１５４に取込んで実行時に統合するような形の流通形態もあり得る。
【００４１】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム（ＯＳ）またはいわゆるサードパーティ等によってコンピュータ上で提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、ＯＳまたはサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム（群）であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム（群）である限り、それらが本発明の技術的範囲に含まれることは明らかである。
【００４２】
ただし、本発明をプログラムではなくハードウェア回路によって実現することも可能であることはもちろんである。
【００４３】
図９に、このコンピュータシステム１２０が実行するプログラムの概略フローチャートを示す。図９を参照して、コンピュータシステム１２０はまず、音声認識を行い、ラティスを作成して出力する（２００）。出力されたラティスには、Ｎ−ベストの情報が含まれている。このとき、同時にサブ音声認識処理により、第１位の候補の各単語ごとにＣＭの値が計算される。
【００４４】
続いて、さらにそのＣＭが所定のしきい値以上か否かを判定する（２０２）。所定のしきい値以上であればその単語は正しく認識されたものと判定され、所定のしきい値未満であればその単語は誤認識されたものと判定される。ここでのしきい値の値は実験的に定められるものである。
【００４５】
ステップ２０４で、ステップ２００の処理で作成されたラティスから単語遷移ネットワークが作成される。この単語遷移ネットワークには、誤認識された単語列の持続時間についての情報も含まれる。単語遷移ネットワークの作成には、前述したＲＯＶＥＲを使用する。
【００４６】
ステップ２０６で、ステップ２０２で行なったバイナリ判定の結果、第１の候補を構成する単語列のうち、他の候補で置換する区間が抽出される。抽出される区間は、本実施の形態では、両端を正しい認識結果で囲まれた、誤認識された単語列である。
【００４７】
続いてステップ２０８で、抽出された各区間ごとに単語遷移ネットワークを調べ、他候補の、単語または単語列のうちでこの区間に対応するものが置換候補として選択される。さらにそれらの候補についてＣＭ（本実施の形態ではトリグラムのＬＭスコア）が計算される。そして最も高いＣＭが得られた単語または単語列が選択され、第１の候補の当該区間の単語または単語列と置換される。
【００４８】
以上の処理により、上述した本発明の実施の形態の装置が実現される。
−実験結果−
上記した音声認識システムを実際にコンピュータ上で作成し、以下に述べるような実験を行なった。用いたベースライン音声認識システムは非特許文献５に記載されたものである。データベースとしてはＳＰＩＮＥ（ｓｐｅｅｃｈ　ｉｎ　ｎｏｉｓｙ　ｅｎｖｉｒｏｎｍｅｎｔｓ）２を用いた。利用したＬＭはＳＰＩＮＥ２のためにＣＭＵ（カーネギーメロン大学）が設計したバイグラムとトリグラムとである。背景雑音が存在する環境下で、１０人の女性および１０人の男性話者による発声データを、５ｄＢから２０ｄＢまでの種々のＳＮＲ（Ｓｉｇｎａｌ−ｔｏ−Ｎｏｉｓｅ
Ｒａｔｉｏ）で学習データとして収集した。テストデータは、男性話者一人および女性話者一人（学習データの話者とは別の話者）について、４種類の異なる背景雑音のもとで収集した。
【００４９】
一般的に、単語列に含まれる単語数が多いとＬＭスコアは低くなるので、単語数の少ない単語列が選ばれる傾向が強くなる。そこで、本実験では、ＬＭスコアだけではなく、単語列に含まれる単語数ｉに基づいて単語ペナルティλｉを導入した手法も用いた。これをＬＭ＋ＷＰ手法と呼び、そのスコアをＳ_{ＬＭ＋ＷＰ}と表わす。Ｓ_{ＬＭ＋ＷＰ}は次の式により定義される。
【００５０】
Ｓ_{ＬＭ＋ＷＰ}　＝　Ｓ_{ＬＭｏｎｌｙ}＋λ_ｉ
ただしＳ_{ＬＭｏｎｌｙ}はＬＭのみ手法によるスコアである。単語ペナルティλ_ｉをλ_１＝２．２，　λ_２＝２．９，　λ_３＝４．６，　λ_４＝５．６とし、ｉ＞４に対してはλ_ｉ＝９．０としてＳ_{ＬＭｏｎｌｙ}を計算し、この計算結果が最も高い候補を選択するようにした。
【００５１】
得られたベースライン性能を再スコアリングにより評価した結果、バイグラムのＬＭに対して単語の正解率５６．０％、トリグラムのＬＭに対して正解率６２．１％であった。単語の訂正では、１０ベストリストを用いた。１０ベストの正解率は７３．３パーセントであった。
【００５２】
単語の検証では、ファーストベスト／音韻ループの信頼尺度（ＣＭ）が最も良い性能を示しＥＥＲ（Ｅｑｕａｌ　Ｅｒｒｏｒ　Ｒａｔｅ）３６．５％であった。
【００５３】
最初に、単語の検証が完全（０％ＥＥＲ）と仮定した。表１にこの場合のＬＭのみおよびＬＭ＋ＷＰ手法でトリグラム再スコアリングを用いた場合の結果を示す。
【００５４】
【表１】

この結果から、本実施の形態の手法を用いた場合、再スコアリングをした場合にもしない場合にも有効であること分かる。ＬＭのみ手法を用い、再スコアリングを行なわなかった場合と、ベースライン手法で再スコアリングを行なった場合とはほぼ同じ結果を示した。後処理として最初にグローバルまたはローカルにトリグラムＬＭを用いた場合でも、同様の効果が得られると考えられる。
【００５５】
再スコアリングを行なった場合、ＬＭのみ手法ではベースライン手法より４．１％まさる結果を示したが、これはさらにローカルにトリグラムＬＭを適用した結果と思われる。単語ペナルティを用いた場合、再スコアリングなしではＬＭのみに比べやや結果は改善したが再スコアリングをした場合には効果はない。
【００５６】
次に、ファーストベスト／音韻ループによる尺度を用いた単語検証によるバイナリ判定に基づいて実験を行なった。ＬＭ＋ＷＰ手法に対し再スコアリングを用いた場合の単語精度は６２．１％であった。単語検証の性能が低いため、単語の訂正の性能も低くなっている。ここでの問題は、本手法による単語訂正を有効とするためには、単語検証のレベルとしてどの程度のものが必要か、ということである。それを調べるため、次に述べるような単語検証性能に関するシミュレーションを行なった。
【００５７】
まず、所望のＥＥＲを定め、どの単語が実際に正確に認識されどの単語が誤認識されたかを調べた上で、所望のＥＥＲを得るために、いくつかの単語をわざと誤って正解と判定させたり、または誤認識と判定させたりした。
【００５８】
図１０に、シミュレーションの結果、本手法を用いた場合の単語精度の改善を示す。この結果によれば、単語検証の精度が２０％ＥＥＲを下回ると本手法による単語の訂正が有効になることが分かる。
【図面の簡単な説明】
【図１】本発明の一実施の形態にかかる音声認識装置のブロック図である。
【図２】図１に示す検証部４４および訂正部４６をより詳細に示すブロック図である。
【図３】音声認識回路３０から出力される認識結果のラティスおよびＮ−ベスト情報を模式的に示す図である。
【図４】ラティスの一例を模式的に示す図である。
【図５】単語遷移ネットワークの一例を模式的に示す図である。
【図６】本実施の形態にかかる認識結果の単語の検証処理および訂正処理の原理を説明するための図である。
【図７】本発明の一実施の形態を実現するコンピュータシステムの外界図である。
【図８】図７に示すコンピュータシステムのブロック図である。
【図９】本発明の一実施の形態の音声認識装置および認識結果訂正回路を実現するようにコンピュータシステムを動作させるためのプログラムのフローチャートである。
【図１０】本発明の一実施の形態が効果を発揮する条件を検証するためのシミュレーション結果を示すグラフである。
【符号の説明】
２０　音声認識装置、２２　入力音声、２４　認識結果、３０　音声認識回路、３２　認識結果訂正装置、４０　サブ音声認識回路、４２　単語遷移ネットワーク作成部、４４　検証部、４６　訂正部、７０　バイナリ判定部、７２　区間抽出部、８０　候補リスト作成部、８２　ＬＭスコア計算部、８４　選択・置換部

Claims

複数の認識結果候補の単語列を出力する音声認識処理により得られた第１位の認識結果候補に含まれる単語ごとに、所定の第１の信頼尺度を得るようにコンピュータを動作させるステップと、
前記第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記音声認識処理により得られた第２位以下の認識結果候補に含まれる対応する単語列に対して所定の第２の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む、音声認識結果の訂正方法。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含む、請求項１に記載の音声認識結果の訂正方法。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含む、請求項１に記載の音声認識結果の訂正方法。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度と、前記音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含む、請求項１に記載の音声認識結果の訂正方法。
前記音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む、請求項３または請求項４に記載の音声認識結果の訂正方法。
前記第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、前記第１の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含む、請求項１から請求項５のいずれかに記載の音声認識結果の訂正方法。
前記所定の第２の信頼尺度は、言語モデルによる単語列の統計的な発生確率である、請求項１から請求項６のいずれかに記載の音声認識結果の訂正方法。
前記言語モデルは、トリグラムによる言語モデルである、請求項７に記載の音声認識結果の訂正方法。
前記音声認識結果は、
認識結果候補の単語列により構成されるラティスと、
各認識結果候補に含まれる各単語の時間情報とを含み、
前記最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、
前記ラティスおよび前記時間情報に基づいて、前記音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第２位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、
前記選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して前記第２の信頼尺度を算出するようにコンピュータを動作させるステップと、
算出された前記第２の信頼尺度が最も大きな単語列によって、前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含む、請求項１から請求項８のいずれかに記載の音声認識結果の訂正方法。
前記選択するようにコンピュータを動作させるステップは、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第２位以下の認識結果候補において、開始時刻が前記判定された単語の開始時刻以後であり、かつ終了時刻が前記前記所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含む、請求項９に記載の音声認識結果の訂正方法。
音声認識結果を訂正する音声認識結果の訂正方法を実施するようにコンピュータを動作させるための、音声認識結果の訂正のためのコンピュータプログラムであって、前記音声認識結果の訂正方法は、
前記音声認識結果の複数の認識結果候補の単語列を出力する音声認識処理により得られた第１位の認識結果候補に含まれる単語ごとに、所定の第１の信頼尺度を得るようにコンピュータを動作させるステップと、
前記第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記音声認識処理により得られた第２位以下の認識結果候補に含まれる対応する単語列に対して所定の第２の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む、音声認識結果の訂正のためのコンピュータプログラム。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含む、請求項１１に記載の音声認識結果の訂正のためのコンピュータプログラム。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含む、請求項１１に記載の音声認識結果の訂正のためのコンピュータプログラム。
前記所定の第１の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度と、前記音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含む、請求項１１に記載の音声認識結果の訂正のためのコンピュータプログラム。
前記音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む、請求項１３または請求項１４に記載の音声認識結果の訂正のためのコンピュータプログラム。
前記第１の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、前記第１の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含む、請求項１１から請求項１５のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。
前記所定の第２の信頼尺度は、言語モデルによる単語列の統計的な発生確率である、請求項１１から請求項１６のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。
前記言語モデルは、トリグラムによる言語モデルである、請求項１７に記載の音声認識結果の訂正のためのコンピュータプログラム。
前記音声認識結果は、
認識結果候補の単語列により構成されるラティスと、
各認識結果候補に含まれる各単語の時間情報とを含み、
前記最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、
前記ラティスおよび前記時間情報に基づいて、前記音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第２位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、
前記選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して前記第２の信頼尺度を算出するようにコンピュータを動作させるステップと、
算出された前記第２の信頼尺度が最も大きな単語列によって、前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含む、請求項１１から請求項１８のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。
前記選択するようにコンピュータを動作させるステップは、
前記第１の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第２位以下の認識結果候補において、開始時刻が前記判定された単語の開始時刻以後であり、かつ終了時刻が前記前記所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含む、請求項１９に記載の音声認識結果の訂正のためのコンピュータプログラム。