JP2004101963A - 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム - Google Patents
音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2004101963A JP2004101963A JP2002264718A JP2002264718A JP2004101963A JP 2004101963 A JP2004101963 A JP 2004101963A JP 2002264718 A JP2002264718 A JP 2002264718A JP 2002264718 A JP2002264718 A JP 2002264718A JP 2004101963 A JP2004101963 A JP 2004101963A
- Authority
- JP
- Japan
- Prior art keywords
- word
- computer
- recognition result
- speech recognition
- operating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】本方法は、複数の認識結果候補の単語列を出力する音声認識処理により得られた第1位の認識結果候補に含まれる単語ごとに、第1の信頼尺度を得るようにコンピュータを動作させるステップ200と、第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップ202と、第1の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、音声認識処理により得られた第2位以下の認識結果候補に含まれる対応する単語列に対して第2の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップ204−208とを含む。
【選択図】 図9
Description
【発明の属する技術分野】
この発明は音声認識技術に関し、特に、音声認識の後処理として、結果を単語ごとに検証して訂正することにより音声認識の精度を向上させる技術に関する。
【0002】
【従来の技術】
音声認識はもはや研究室だけで研究される段階を過ぎ、実際に幅広い範囲で応用が期待される。音声認識を実際に応用する場合、最も問題となるのは種々の環境の中でいかに精度よく、ロバストに音声認識を行なうことができるか、である。一般的に、そのようなロバストな音声認識を実現するための方策として二つが考えられる。認識そのものの精度を高めることと、認識後の後処理により認識の精度を高めることとである。
【0003】
前者はノイズに対する適合と補償とにより行なわれる。後者は、主として認識結果に対する信頼性を再評価することにより行なわれる。この場合、後処理の信頼性の尺度としては認識に用いられるものよりも複雑な言語モデル(LM)、または信頼尺度(CM)が用いられる。後処理では、CMとして事後確率を用いて再スコアリングを行なう技術が後にあげる非特許文献1において報告されている。この報告では、事後確率に基づくCMを用い、一度認識した後、その発声全体にわたるCMスコアの積を最大化する基準によりその認識結果を再評価する。
【非特許文献1】
F.ウェセル(F. Wessel)、R.シュルター(R.
Schluter)、H.ネイ(H.Ney)著「改善された音声認識のための事後単語確率の使用(Using Posterior wordprobabilities for improved speech recognition)」、ICASS 2000予稿集、pp.536−566
【非特許文献2】
G.エバーマン(G. Everman)、P.C.ウッドランド(P.C.Wooldland)著「単語事後確率を用いた大ボキャブラリでコーディングおよび信頼性推定(Large vocabulary decoding andconfidence estimation using word posterior probabilities)」、ICASSP 2000予稿集、pp.2366−2369
【非特許文献3】
T.マツイ(T. Matsui)、F.K.スーン(F.K.Soong)、B.−H.ファン(B.−H. Juan)著「多重クラス認識結果の検証のための識別関数の設計(Classification design forVerification of Multi−Class Recognition Design)」、日本音響学会2002年春季研究発表会予稿集 Vol.1,
pp.85−86, 2002
【非特許文献4】
J.G.フィスカス(J.G. Fiscus)著「エラー率を低減する後処理システム:認識装置出力多数決エラーリダクション(ROVER)(APost−processing system to yield reduced error rates: Recognizer output votingerror reduction (ROVER))」
【非特許文献5】
J.ツァン(J. Zhang)、K.マルコフ(K. Markov)、T.マツイ(T.Matsui)、R.グルーン(R. Gruhn)、およびS.ナカムラ(S. Nakamura)著「SPINE2 プロジェクトのための耐雑音性に優れたベースライン音響モデルの構築(DevelopingRobust Baseline Acoustic Models for Noisy Speech Recognition in SPINE2 Project)日本音響学会2002年春季研究発表会予稿集
Vol.1, pp.65−66, 2002
【発明が解決しようとする課題】
しかし、CMは通常は実験的に定められるものであり、事後確率のように確率論的に定式化できない場合が多い。その場合には、非特許文献1のように、発声全体にわたり算出される基準でCMを適用したとしても、それは必ずしも真の最適化とはいえない。
【0004】
それゆえに本発明の目的は、確率論的に定式化できないCMを用いながら,認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【0005】
本発明の他の目的は、確率論的に定式化できないCMを認識結果に対して局部的に適用することにより,認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【0006】
本発明のさらに他の目的は、確率論的に定式化できないCMを認識結果に対して局部的に適用して認識結果が正しいか否かを判定し、誤認識の場合にその部分を局部的に訂正することにより,認識結果の訂正を最適化できるような音声認識結果の訂正方法およびそのためのコンピュータプログラムを提供することである。
【0007】
【課題を解決するための手段】
本発明の第1の局面にかかる音声認識結果の訂正方法は、複数の認識結果候補の単語列を出力する音声認識処理により得られた第1位の認識結果候補に含まれる単語ごとに、所定の第1の信頼尺度を得るようにコンピュータを動作させるステップと、第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、第1の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、音声認識処理により得られた第2位以下の認識結果候補に含まれる対応する単語列に対して所定の第2の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む。
【0008】
所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含んでもよい。
【0009】
所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含んでもよい。
【0010】
所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、音声認識処理によって単語ごとに出力される当該単語の尤度と、音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含んでもよい。
【0011】
好ましくは、音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む。
【0012】
第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、第1の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含んでもよい。
【0013】
所定の第2の信頼尺度は、言語モデル、好ましくはトリグラムによる言語モデルによる単語列の統計的発生確率でもよい。
【0014】
さらに好ましくは、音声認識結果は、認識結果候補の単語列により構成されるラティスと、各認識結果候補に含まれる各単語の時間情報とを含んでもよい。最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、ラティスおよび時間情報に基づいて、音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、第1の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、単語遷移ネットワーク上で対応する第2位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して第2の信頼尺度を算出するようにコンピュータを動作させるステップと、算出された第2の信頼尺度が最も大きな単語列によって、第1の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含んでもよい。
【0015】
さらに好ましくは、選択するようにコンピュータを動作させるステップは、第1の信頼尺度がしきい値との間で所定の関係を充足しないと判定された連続する単語列ごとに、単語遷移ネットワーク上で対応する第2位以下の認識結果候補において、開始時刻が判定された単語の開始時刻以後であり、かつ終了時刻が所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含んでもよい。
【0016】
上記した方法は、コンピュータプログラムにより実現できる。
【0017】
【発明の実施の形態】
本実施の形態のシステムでは、主に二つのステップで認識結果に対する後処理を行なう。すなわち、単語の検証と訂正とである。単語の検証では、各単語が正しく認識されたか否か、という二値(バイナリ)判定を行なう。そして誤って認識されたと判定された単語について事後的にCMを算出し、このCMを用いて単語の訂正(置換)を行なう。このように単語ごとの判定と訂正とを行なうことにより、ローカルに認識結果の最適化を図ることができ、結果として全体の最適化も図ることができる。
【0018】
図1に、本実施の形態にかかる認識結果訂正装置32を採用した音声認識装置20のブロック図を示す。図1を参照して、この音声認識装置20は、入力音声22に対する音声認識を行ない、結果を後述するN−ベストの情報を含むラティス、認識結果の各単語の尤度、および各単語の時間情報(開始タイムスタンプ、終了タイムスタンプ)の形で出力する音声認識回路30と、この音声認識回路30の出力に対し、前述したように単語単位でCMによる単語検証の判定(バイナリ判定)と訂正処理とを行ない訂正後の認識結果24を出力するための認識結果訂正装置32とを含む。
【0019】
なお、本明細書で「回路」という場合、それをハードウェアとして実現したものはもちろん、コンピュータソフトウェアおよび関連のハードウェアで同等の機能を実現したものも含むものとする。
【0020】
図3に、音声認識回路30の出力例を示す。図3の上部には、音声認識回路30の出力するラティスを概念的に示し、図3の下部にはこのラティスに対応する認識結果のN個の候補(これを「N−ベスト」と称する。)90と、各候補を構成する単語列とを示す。N−ベストの候補には、それぞれ第1位から第N位までの順位がつけられている。なお本明細書では、「単語列」という語は、単一の単語と複数の単語との双方を指し得るものとする。
【0021】
ラティスとは、認識結果に含まれるN−ベストの認識文を構成する単語列をグラフ(ネットワーク)状に表したものである。説明をわかりやすくするために、図3に示した例では各単語列が交わらないような表現となっている。N−ベストの各候補は、入力音声の認識結果である単語列を含む。
【0022】
再び図1を参照して、認識結果訂正装置32は、音声認識回路30の出力するラティスから後述する単語遷移ネットワークを作成するための単語遷移ネットワーク作成部42と、入力音声22から、音声認識回路30とは独立に、単語の検証のためのサブ音声認識を行ない、単語ごとの検証(バイナリ判定)のためのCMを出力するためのサブ音声認識回路40と、単語遷移ネットワークおよびサブ音声認識回路40から出力されるCMに基づいて、音声認識回路30の認識結果N−ベストのうち第1位のものについて、単語ごとに認識が正しく行なわれたか否かのバイナリ判定を行なうための検証回路44と、検証回路44の検証結果と、単語遷移ネットワークとに基づき、音声認識30の出力する音声認識結果の第1位の単語列のうち、認識が正しく行なわれなかったと判定された部分を抽出し、第2位以下の候補の対応する部分について、訂正のためのCMの再スコアリングを行ない最もCMの高い部分と置換して訂正後の認識結果24として出力するための訂正回路46とを含む。本実施の形態では、再スコアリングはトリグラムのLMスコアにより行なう。なお、LMスコアとは、通常は、ある言語において、ある数の特定の単語列が表れる統計的な確率により表わされる。特定の2つの単語が連続して現れる場合にをバイグラム、3つの単語が連続して現れる場合をトリグラム、一般的にN個の単語が連続して現れる場合をNグラムとよぶ。これらは、たとえばその言語のコーパスを統計的に処理して算出することができる。
【0023】
LMスコアでは、統計的によく現れる(正しい)Nグラムのスコアが高くなる。LMスコアが低ければ、そのNグラムがよく使われる(正しい)ものである確率も低くなる。
【0024】
サブ音声認識回路40は、単語ごとの認識結果の検証(バイナリ判定)を行なうためのCMを算出する。ここで問題となるのは、各単語の正確さを最もよく反映するCMとしてどのようなものがあるか、ということである。本実施の形態では、サブ音声認識回路40に音韻ループモデルと呼ばれるものを用い、出力されるスコアを単語検証のためのCMとして用いる。ほかにも、ファーストベスト、事後単語確率、ファーストベスト/音韻ループなど種々のものが考えられる。ファーストベスト尺度は、音声認識回路30での認識により得られる尤度をそのまま用いるものである。この場合には、サブ音声認識回路40は不要となる。事後単語確率については、非特許文献1に記載されている。ファーストベスト/音韻ループは、ファーストベストのスコアと音韻ループのスコアとの比をCMとして用いるものである。
【0025】
単語遷移ネットワーク作成部42は、ラティスおよび各単語の時間情報に基づいて単語遷移ネットワークを作成する。ラティスおよびそれから作成される単語遷移ネットワークについて、図4および図5を参照して説明する。図4に、ラティスの一例を示す。この例では、「私/は/行く」が認識結果の第1位の候補、「あなた/が/行く」が第2候補となっていることを想定する。これらは別々の単語列として示され、各候補の間の単語の対応関係まではわからない。これに対し図5に示す単語遷移ネットワークでは、単語音声の持続時間も含めて、候補の語ごとに、ほかの候補の語との対応関係がわかるようになっている。すなわち、図5に示す例では、第1位の候補の「私」と第2位の候補の「あなた」とが対応関係にあること、第1位の候補の「は」と第2位の候補の「が」が対応関係にあること、第1位の候補の「行く」と第2位の候補の「行く」とが一致していることがわかる。これは、認識結果とそれに対応する音声の時間(開始時刻および終了時刻のタイムスタンプ)に関する情報が単語遷移ネットワークに含まれているためである。単語遷移ネットワークの作成には、非特許文献4に記載されたROVERアライメントツールを用いる。
【0026】
誤認識された単語(列)についてはさらに、その単語(列)の持続時間についても情報を抽出しておく。誤認識された単語がいくつか連続して発声中に存在している場合、誤認識された語列の先頭の語の開始時刻から最後の語の終了時刻までの時間をグローバル持続時間と定義する。
【0027】
図2に示すバイナリ判定部70は、第1位の候補の各単語について、サブ音声認識回路40から与えられる対応するCMが所定のしきい値以上か否かを判定する機能を持つ。判定結果は、第1位の候補の各単語に関連付けられて記憶される。例を図6に示す。
【0028】
図6において、第1位の候補が単語列W1 (1),W2 (1),…,Wn1 (1)を含むものとする。ここで下付きの添字「1,2、…n1」はこの単語列内での各単語の順番を示す。「n1」は、第1位の候補に含まれる単語の数を示す。(一般に「nk」は、第k位の候補に含まれる単語の数を表わすものとする。)上付きの添字「(1)」は、各単語が第1位の候補に含まれる単語であることを示す。(同様に、一般に上付きの添字「(j)」は、その単語が第j位の候補に含まれる単語であることを示すものとする。)
図6では、単語W1 (1),W3 (1),Wn1 (1)などについてはCMがしきい値以上であり、正解であると判定されたものとする。正解の判定結果の例を図6において「○」で示してある。一方、W2 (1)についてはCMがしきい値未満であり、誤認識であると判定されたものとする。誤認識と判定された結果は図6において「×」で示してある。
【0029】
図2に示す区間抽出部72は、誤認識と判定された領域であって、その前後が正解と判定された単語にはさまれている領域を抽出する機能を持つ。図6においては、領域100および領域102がそうした領域に相当する。この領域の最初と最後については認識結果は正しいが、途中の単語列はいずれも誤認識と判定されている。誤認識と判定された単語は一つの場合もあるであろうし、複数個連続している場合もあり得る。本明細書において、「連続する単語列」という場合には、その両者を含み得るものとする。
【0030】
なお図6においては、W1 (1)とWn1 (1)とはいずれも誤認識でないと判定されている。これらが誤認識と判定された場合については、前または後ろが正解ということはないから、上述した基準ではこれらを抽出はできない。しかし、たとえば単語列の先頭および最後においては、その前または後に正解の単語が存在することを仮定するなどして、それ以外の部分と同様の処理を行なうことができる。
【0031】
図2に示す候補リスト作成部80は、単語遷移ネットワークと持続時間情報とに基づいて、語認識された単語シーケンスに対する置換候補を選択しリストにする。この置換候補としては、単語遷移ネットワーク上のパスのうち、誤認識された単語シーケンスと対応する、第2位以下の候補の単語列に対応するパスが基本的に選ばれる。図6において、単語W2 (1),が誤認識であると判定された場合の置換候補を枠110で囲って示してある。本実施の形態では、置換候補には、そのパスの単語シーケンスのグローバル持続時間が、誤認識された単語シーケンスのグローバル持続時間以下であり、その開始時刻が、誤認識された単語シーケンスの開始時刻以後であり、その終了時刻が、誤認識された単語シーケンスの終了時刻以前であるものという条件を課してある。ただし、この条件についてはその一部のみを課すようにしてもよい。さらに、上記したのとは別の時間的条件を課すようにしてもよい。また、場合によっては時間的条件を課さなくてもよい。
【0032】
この方法では、候補内の単語列の数には制約は設けられておらず、そのために一つの単語が複数の単語で置換されることもあり得る。そのため、誤認識のうち、単語の置換だけでなく、削除誤りや挿入誤りも訂正することが可能である。
【0033】
本実施の形態では、単語の訂正では「LMのみ」モードと呼ばれる手法を用いた。この手法では図2に示すLMスコア計算部82は、各候補について訂正のためのCMとしてLMスコアを算出する。このLMスコアはトリグラムを用いたもので、前後の文脈を考慮して算出される。選択・置換部84は、LMスコアが最も高いものを選択して誤認識された単語列と置換する。
【0034】
―構成―
以上に述べた本発明の各実施の形態は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以上に述べた機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
【0035】
図7に、本実施の形態で利用されるコンピュータシステム120の外観図を、図8にコンピュータシステム120のブロック図を、それぞれ示す。なおここに示すコンピュータシステム120はあくまで一例であり、この他にも種々の構成が可能である。
【0036】
図7を参照して、コンピュータシステム120は、コンピュータ140と、いずれもこのコンピュータ140に接続されたモニタ142、キーボード146、およびマウス148を含む。コンピュータ140にはさらに、CD―ROM(Compact Disc Read−Only Memory)ドライブ150と、FD(Flexible Disk)ドライブ152とが内蔵されている。
【0037】
図8を参照して、コンピュータシステム120はさらに、コンピュータ140に接続されるプリンタ144を含むが、これは図7には示していない。またコンピュータ140はさらに、CD―ROMドライブ150およびFDドライブ152に接続されたバス166と、いずれもバス166に接続された中央演算装置(Central Processing Unit:CPU)156、コンピュータ140のブートアッププログラムなどを記憶したROM(Read−Only Memory)158、CPU1156が使用する作業エリアおよびCPU156により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)160、およびハードディスク154を含む。
【0038】
上に述べた実施の形態のシステムを実現するソフトウェアは、たとえば、CD―ROM162のような記録媒体上に記録されて流通し、CD―ROMドライブ150のような読取装置を介してコンピュータ140に読込まれ、ハードディスク154に格納される。CPU156がこのプログラムを実行する際には、ハードディスク154からこのプログラムを読み出してRAM160に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU156は、処理対象のデータをハードディスク154から読出し、処理結果を同じくハードディスク154に格納する。
【0039】
コンピュータシステム120の動作自体は周知であるので、ここではその詳細については繰り返さない。
【0040】
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク154中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク154に取込んで実行時に統合するような形の流通形態もあり得る。
【0041】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)またはいわゆるサードパーティ等によってコンピュータ上で提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、OSまたはサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれることは明らかである。
【0042】
ただし、本発明をプログラムではなくハードウェア回路によって実現することも可能であることはもちろんである。
【0043】
図9に、このコンピュータシステム120が実行するプログラムの概略フローチャートを示す。図9を参照して、コンピュータシステム120はまず、音声認識を行い、ラティスを作成して出力する(200)。出力されたラティスには、N−ベストの情報が含まれている。このとき、同時にサブ音声認識処理により、第1位の候補の各単語ごとにCMの値が計算される。
【0044】
続いて、さらにそのCMが所定のしきい値以上か否かを判定する(202)。所定のしきい値以上であればその単語は正しく認識されたものと判定され、所定のしきい値未満であればその単語は誤認識されたものと判定される。ここでのしきい値の値は実験的に定められるものである。
【0045】
ステップ204で、ステップ200の処理で作成されたラティスから単語遷移ネットワークが作成される。この単語遷移ネットワークには、誤認識された単語列の持続時間についての情報も含まれる。単語遷移ネットワークの作成には、前述したROVERを使用する。
【0046】
ステップ206で、ステップ202で行なったバイナリ判定の結果、第1の候補を構成する単語列のうち、他の候補で置換する区間が抽出される。抽出される区間は、本実施の形態では、両端を正しい認識結果で囲まれた、誤認識された単語列である。
【0047】
続いてステップ208で、抽出された各区間ごとに単語遷移ネットワークを調べ、他候補の、単語または単語列のうちでこの区間に対応するものが置換候補として選択される。さらにそれらの候補についてCM(本実施の形態ではトリグラムのLMスコア)が計算される。そして最も高いCMが得られた単語または単語列が選択され、第1の候補の当該区間の単語または単語列と置換される。
【0048】
以上の処理により、上述した本発明の実施の形態の装置が実現される。
−実験結果−
上記した音声認識システムを実際にコンピュータ上で作成し、以下に述べるような実験を行なった。用いたベースライン音声認識システムは非特許文献5に記載されたものである。データベースとしてはSPINE(speech in noisy environments)2を用いた。利用したLMはSPINE2のためにCMU(カーネギーメロン大学)が設計したバイグラムとトリグラムとである。背景雑音が存在する環境下で、10人の女性および10人の男性話者による発声データを、5dBから20dBまでの種々のSNR(Signal−to−Noise
Ratio)で学習データとして収集した。テストデータは、男性話者一人および女性話者一人(学習データの話者とは別の話者)について、4種類の異なる背景雑音のもとで収集した。
【0049】
一般的に、単語列に含まれる単語数が多いとLMスコアは低くなるので、単語数の少ない単語列が選ばれる傾向が強くなる。そこで、本実験では、LMスコアだけではなく、単語列に含まれる単語数iに基づいて単語ペナルティλiを導入した手法も用いた。これをLM+WP手法と呼び、そのスコアをSLM+WPと表わす。SLM+WPは次の式により定義される。
【0050】
SLM+WP = SLMonly+λi
ただしSLMonlyはLMのみ手法によるスコアである。単語ペナルティλiをλ1=2.2, λ2=2.9, λ3=4.6, λ4=5.6とし、i>4に対してはλi=9.0としてSLMonlyを計算し、この計算結果が最も高い候補を選択するようにした。
【0051】
得られたベースライン性能を再スコアリングにより評価した結果、バイグラムのLMに対して単語の正解率56.0%、トリグラムのLMに対して正解率62.1%であった。単語の訂正では、10ベストリストを用いた。10ベストの正解率は73.3パーセントであった。
【0052】
単語の検証では、ファーストベスト/音韻ループの信頼尺度(CM)が最も良い性能を示しEER(Equal Error Rate)36.5%であった。
【0053】
最初に、単語の検証が完全(0%EER)と仮定した。表1にこの場合のLMのみおよびLM+WP手法でトリグラム再スコアリングを用いた場合の結果を示す。
【0054】
【表1】
この結果から、本実施の形態の手法を用いた場合、再スコアリングをした場合にもしない場合にも有効であること分かる。LMのみ手法を用い、再スコアリングを行なわなかった場合と、ベースライン手法で再スコアリングを行なった場合とはほぼ同じ結果を示した。後処理として最初にグローバルまたはローカルにトリグラムLMを用いた場合でも、同様の効果が得られると考えられる。
【0055】
再スコアリングを行なった場合、LMのみ手法ではベースライン手法より4.1%まさる結果を示したが、これはさらにローカルにトリグラムLMを適用した結果と思われる。単語ペナルティを用いた場合、再スコアリングなしではLMのみに比べやや結果は改善したが再スコアリングをした場合には効果はない。
【0056】
次に、ファーストベスト/音韻ループによる尺度を用いた単語検証によるバイナリ判定に基づいて実験を行なった。LM+WP手法に対し再スコアリングを用いた場合の単語精度は62.1%であった。単語検証の性能が低いため、単語の訂正の性能も低くなっている。ここでの問題は、本手法による単語訂正を有効とするためには、単語検証のレベルとしてどの程度のものが必要か、ということである。それを調べるため、次に述べるような単語検証性能に関するシミュレーションを行なった。
【0057】
まず、所望のEERを定め、どの単語が実際に正確に認識されどの単語が誤認識されたかを調べた上で、所望のEERを得るために、いくつかの単語をわざと誤って正解と判定させたり、または誤認識と判定させたりした。
【0058】
図10に、シミュレーションの結果、本手法を用いた場合の単語精度の改善を示す。この結果によれば、単語検証の精度が20%EERを下回ると本手法による単語の訂正が有効になることが分かる。
【図面の簡単な説明】
【図1】本発明の一実施の形態にかかる音声認識装置のブロック図である。
【図2】図1に示す検証部44および訂正部46をより詳細に示すブロック図である。
【図3】音声認識回路30から出力される認識結果のラティスおよびN−ベスト情報を模式的に示す図である。
【図4】ラティスの一例を模式的に示す図である。
【図5】単語遷移ネットワークの一例を模式的に示す図である。
【図6】本実施の形態にかかる認識結果の単語の検証処理および訂正処理の原理を説明するための図である。
【図7】本発明の一実施の形態を実現するコンピュータシステムの外界図である。
【図8】図7に示すコンピュータシステムのブロック図である。
【図9】本発明の一実施の形態の音声認識装置および認識結果訂正回路を実現するようにコンピュータシステムを動作させるためのプログラムのフローチャートである。
【図10】本発明の一実施の形態が効果を発揮する条件を検証するためのシミュレーション結果を示すグラフである。
【符号の説明】
20 音声認識装置、22 入力音声、24 認識結果、30 音声認識回路、32 認識結果訂正装置、40 サブ音声認識回路、42 単語遷移ネットワーク作成部、44 検証部、46 訂正部、70 バイナリ判定部、72 区間抽出部、80 候補リスト作成部、82 LMスコア計算部、84 選択・置換部
Claims (20)
- 複数の認識結果候補の単語列を出力する音声認識処理により得られた第1位の認識結果候補に含まれる単語ごとに、所定の第1の信頼尺度を得るようにコンピュータを動作させるステップと、
前記第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記音声認識処理により得られた第2位以下の認識結果候補に含まれる対応する単語列に対して所定の第2の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む、音声認識結果の訂正方法。 - 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含む、請求項1に記載の音声認識結果の訂正方法。
- 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含む、請求項1に記載の音声認識結果の訂正方法。
- 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度と、前記音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含む、請求項1に記載の音声認識結果の訂正方法。
- 前記音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む、請求項3または請求項4に記載の音声認識結果の訂正方法。
- 前記第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、前記第1の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含む、請求項1から請求項5のいずれかに記載の音声認識結果の訂正方法。
- 前記所定の第2の信頼尺度は、言語モデルによる単語列の統計的な発生確率である、請求項1から請求項6のいずれかに記載の音声認識結果の訂正方法。
- 前記言語モデルは、トリグラムによる言語モデルである、請求項7に記載の音声認識結果の訂正方法。
- 前記音声認識結果は、
認識結果候補の単語列により構成されるラティスと、
各認識結果候補に含まれる各単語の時間情報とを含み、
前記最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、
前記ラティスおよび前記時間情報に基づいて、前記音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第2位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、
前記選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して前記第2の信頼尺度を算出するようにコンピュータを動作させるステップと、
算出された前記第2の信頼尺度が最も大きな単語列によって、前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含む、請求項1から請求項8のいずれかに記載の音声認識結果の訂正方法。 - 前記選択するようにコンピュータを動作させるステップは、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第2位以下の認識結果候補において、開始時刻が前記判定された単語の開始時刻以後であり、かつ終了時刻が前記前記所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含む、請求項9に記載の音声認識結果の訂正方法。 - 音声認識結果を訂正する音声認識結果の訂正方法を実施するようにコンピュータを動作させるための、音声認識結果の訂正のためのコンピュータプログラムであって、前記音声認識結果の訂正方法は、
前記音声認識結果の複数の認識結果候補の単語列を出力する音声認識処理により得られた第1位の認識結果候補に含まれる単語ごとに、所定の第1の信頼尺度を得るようにコンピュータを動作させるステップと、
前記第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップと、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記音声認識処理により得られた第2位以下の認識結果候補に含まれる対応する単語列に対して所定の第2の信頼尺度を算出し、最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップとを含む、音声認識結果の訂正のためのコンピュータプログラム。 - 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度を得るようにコンピュータを動作させるステップを含む、請求項11に記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理とは独立の処理によって、単語ごとの尤度を算出するようにコンピュータを動作させるステップを含む、請求項11に記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記所定の第1の信頼尺度を得るようにコンピュータを動作させるステップは、前記音声認識処理によって単語ごとに出力される当該単語の尤度と、前記音声認識処理とは独立の処理によって算出された単語ごとの尤度との比を算出するようにコンピュータを動作させるステップを含む、請求項11に記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記音声認識処理とは独立の処理は、音韻ループモデルによる単語ごとの尤度の算出処理を含む、請求項13または請求項14に記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記第1の信頼尺度が予め定められたしきい値との間で所定の関係を充足するか否かを単語ごとに判定するようにコンピュータを動作させるステップは、前記第1の信頼尺度が予め定められたしきい値以上か否かを単語ごとに判定するようにコンピュータを動作させるステップを含む、請求項11から請求項15のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記所定の第2の信頼尺度は、言語モデルによる単語列の統計的な発生確率である、請求項11から請求項16のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記言語モデルは、トリグラムによる言語モデルである、請求項17に記載の音声認識結果の訂正のためのコンピュータプログラム。
- 前記音声認識結果は、
認識結果候補の単語列により構成されるラティスと、
各認識結果候補に含まれる各単語の時間情報とを含み、
前記最も高い信頼尺度が得られた単語列で置換するようにコンピュータを動作させるステップは、
前記ラティスおよび前記時間情報に基づいて、前記音声認識結果に対する単語遷移ネットワークを作成するようにコンピュータを動作させるステップと、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第2位以下の認識結果候補において対応する単語列を選択するようにコンピュータを動作させるステップと、
前記選択するようにコンピュータを動作させるステップにより選択された単語列の各々に対して前記第2の信頼尺度を算出するようにコンピュータを動作させるステップと、
算出された前記第2の信頼尺度が最も大きな単語列によって、前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列を置換するようにコンピュータを動作させるステップとを含む、請求項11から請求項18のいずれかに記載の音声認識結果の訂正のためのコンピュータプログラム。 - 前記選択するようにコンピュータを動作させるステップは、
前記第1の信頼尺度が前記しきい値との間で前記所定の関係を充足しないと判定された連続する単語列ごとに、前記単語遷移ネットワーク上で対応する第2位以下の認識結果候補において、開始時刻が前記判定された単語の開始時刻以後であり、かつ終了時刻が前記前記所定の関係を充足しないと判定された単語の終了時刻以前である単語列を選択するようにコンピュータを動作させるステップを含む、請求項19に記載の音声認識結果の訂正のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264718A JP2004101963A (ja) | 2002-09-10 | 2002-09-10 | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002264718A JP2004101963A (ja) | 2002-09-10 | 2002-09-10 | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004101963A true JP2004101963A (ja) | 2004-04-02 |
JP2004101963A5 JP2004101963A5 (ja) | 2005-05-19 |
Family
ID=32264077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002264718A Pending JP2004101963A (ja) | 2002-09-10 | 2002-09-10 | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004101963A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006343405A (ja) * | 2005-06-07 | 2006-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 |
JP2014106272A (ja) * | 2012-11-26 | 2014-06-09 | National Institute Of Information & Communication Technology | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
CN107750378A (zh) * | 2015-03-06 | 2018-03-02 | 泽泰斯工业股份有限公司 | 用于语音识别结果后处理的方法和系统 |
JP2018045123A (ja) * | 2016-09-15 | 2018-03-22 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN110047486A (zh) * | 2019-05-20 | 2019-07-23 | 合肥美的电冰箱有限公司 | 语音控制方法、装置、服务器、系统及存储介质 |
-
2002
- 2002-09-10 JP JP2002264718A patent/JP2004101963A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006343405A (ja) * | 2005-06-07 | 2006-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 |
JP2014106272A (ja) * | 2012-11-26 | 2014-06-09 | National Institute Of Information & Communication Technology | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
JP2016110087A (ja) * | 2014-12-02 | 2016-06-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
US11176946B2 (en) | 2014-12-02 | 2021-11-16 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN107750378A (zh) * | 2015-03-06 | 2018-03-02 | 泽泰斯工业股份有限公司 | 用于语音识别结果后处理的方法和系统 |
JP2018507446A (ja) * | 2015-03-06 | 2018-03-15 | ゼテス・インダストリーズ・エス・ア | 音声認識結果の後処理のための方法およびシステム |
JP2018045123A (ja) * | 2016-09-15 | 2018-03-22 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US11468902B2 (en) | 2016-09-15 | 2022-10-11 | Toshiba Tec Kabushiki Kaisha | Voice recognition device and voice recognition method |
CN110047486A (zh) * | 2019-05-20 | 2019-07-23 | 合肥美的电冰箱有限公司 | 语音控制方法、装置、服务器、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
US9002705B2 (en) | Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents | |
US9224386B1 (en) | Discriminative language model training using a confusion matrix | |
US20040186714A1 (en) | Speech recognition improvement through post-processsing | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
Liao et al. | Uncertainty decoding for noise robust speech recognition | |
Lehr et al. | Learning a discriminative weighted finite-state transducer for speech recognition | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2004101963A (ja) | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer | |
JP2004101963A5 (ja) | ||
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6276516B2 (ja) | 辞書作成装置、及び辞書作成プログラム | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2003345388A (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
JP4528076B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060912 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070130 |