JP6461308B2 - 音声認識装置およびリスコアリング装置 - Google Patents

音声認識装置およびリスコアリング装置 Download PDF

Info

Publication number
JP6461308B2
JP6461308B2 JP2017507782A JP2017507782A JP6461308B2 JP 6461308 B2 JP6461308 B2 JP 6461308B2 JP 2017507782 A JP2017507782 A JP 2017507782A JP 2017507782 A JP2017507782 A JP 2017507782A JP 6461308 B2 JP6461308 B2 JP 6461308B2
Authority
JP
Japan
Prior art keywords
language model
learned
learning
discriminatively
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017507782A
Other languages
English (en)
Other versions
JP2017527846A (ja
Inventor
勇気 太刀岡
勇気 太刀岡
渡部 晋治
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2017527846A publication Critical patent/JP2017527846A/ja
Application granted granted Critical
Publication of JP6461308B2 publication Critical patent/JP6461308B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

本発明は音声認識装置およびリスコアリング装置に関し、とくにリカレントニューラルネットワーク(Recurrent Neural Network, RNN)に基づく言語モデルを用いるものに関する。
音声認識において、RNNを言語モデル(LM)に使う(RNN−LM)ことで、大幅に性能が向上することが広く知られている。これはたとえば、T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur, “Recurrent neural network based language model,”in Proceedings of INTERSPEECH, 2010, pp. 1045--1048 に記載される。
また、音声認識によりスコアリングされた認識結果候補を、n−gramモデルをベースとした識別的言語モデルによってリスコアリングする手法が知られている。これはたとえば、B. Roark, M. Saraclar, M. Collins, and M. Johnson, “Discriminative language modeling with conditional random fields and the perceptron algorithm,” in Proceedings of ACL, 2004, pp. 47--54、および、特開2014−089247号公報に記載される。
通常のn−gramを用いた言語モデルでは長いコンテキストを考慮することができない。これに対して、RNNをLMに用いることで、原理的には無限の長さのコンテキストを保持することができる。この方式を図1に示す。入力ベクトルxはN単語からなる辞書の1−of−N表現である。出力ベクトルyはN単語それぞれに対応する事後確率である。隠れ層には低次元のベクトルsがある。射影行列Uは入力層を隠れ層に関連付ける。射影行列Vは隠れ層を出力層に関連付ける。直前の時刻の隠れ層が入力層にコピーされ、これによってコンテキストが保持される。この構造を利用したLMを使うことにより、n−gramを利用したLMが考慮できるコンテキストよりも長いコンテキストを考慮して、よりよい認識候補を生成できる。さらに、隠れ層への写像は低次元のベクトル上に行われるので、語の間の類似性が考慮される。例えば、単語「犬」と「猫」は、文脈によっては交替可能であり、その場合にはそれらのベクトルsの間のコサイン類似度が高くなる。
RNN−LMは、従来のテーブルルックアップを用いたn−gram手法に比べると長い処理時間を要するため、主にはリスコアリングに使われる。リスコアリングに使った場合の構成を図2に示す。認識手段4は、音声1を入力として受け取り、音響モデル2と認識用の言語モデル3を用いて、複数の候補列をスコアリングし、スコアリングの結果を認識結果5を出力として提供する。これに対してリスコアリング手段6は、認識結果5を入力として受け取り、リスコアリング用の言語モデル7を用いて、候補を尤度の降順に並び替えた認識結果8を返す。リスコアリング用の言語モデル7はRNN−LMである。長いコンテキストを考慮できる言語モデル7を使うことで、修正済認識結果8の方が認識結果5よりも認識性能がよくなることが期待できる。
なお、認識手段4が認識し得る語は、いずれも認識結果5に現れる可能性があるので、リスコアリング手段6が認識すべき語の語彙は、認識手段4の語彙をカバーすることが好ましい。ただし未知語(UNK)をクラスとしてモデリングすることでリスコアリング手段6の語彙数を認識手段4に比べて少なくすることができる。
RNN−LMでは、現在までの単語列w,w,…,wから次の単語wt+1の事後確率を計算する。認識すべき語彙に単語が|V|個含まれるとし、各単語にそれぞれ異なる単語番号を付与する。単語番号をnで表す(ただし1≦n≦|V|である)。なお、単語番号は、各単語をなんらかの基準に基づいてソートした結果に基づき付与されるものであってもよい。音声においてt番目に出現する単語の単語番号がcで与えられたとき、クロスエントロピー(CE)基準での学習の評価関数は式(1)のように与えられる。
Figure 0006461308
Cは、音声中に出現する単語列(正解単語列)を単語番号列に変換したものであり、cはそのうちt番目の単語の単語番号である。すなわちCはc,c,c,…という順序づけられた列である。δはクロネッカーのデルタである。ベクトルyは通常、式(2)で表されるソフトマックス関数が使われる。
Figure 0006461308
ただし、aはアクティベーションであり、たとえばa=V・sである。学習則はFCEをaで微分することで式(3)のように得られる。
Figure 0006461308
学習の際、現在の単語x(c)=1を入力した際に得られる、次の単語の事後確率y(n)を計算する。正解はδ(n,c)で与えられるので、正解δ(n,c)と、現時点で推測した確率y(n)との差を誤差ε(n)として、逆伝搬させることで、NN(neural network)のパラメータを更新する。
学習すべきNNのパラメータは、図1の射影行列Uおよび/またはVの、少なくとも1つの要素を含む。また、学習すべきNNのパラメータは、射影行列UおよびVによる射影に伴って加算されるオフセットを表すベクトルの各成分を含んでもよい。逆伝搬は、たとえば誤差ε(n)を最小とするようなパラメータセットを求めるために行われる。また、逆伝搬の具体的な方法および計算式は、公知のものを用いることができる。
従来のリスコアリング手段6の具体例として、識別的言語モデルを用いるものがある。これは、学習データに基づき、正解列またはN−best認識結果を用いて学習を行うものである。N−best認識結果とは、たとえば、すべての候補のうちから、スコアが大きい順に上位N個の候補を並べた認識結果を意味する。
スコアは、たとえば音響モデルスコアおよび言語モデルスコアの関数として表され、たとえばこれらの重み付き和である。識別的言語モデルは、正解列もしくはN−best認識結果の中で最も認識誤りが少ない候補を正解とし、N−best認識結果の中で最も認識誤りが多い候補を不正解として、それぞれに含まれるn−gramに基づき、(平均化)パーセプトロンアルゴリズムで学習するものである。この方法の例は、上述のRoark2004および特開2014−089247号公報に記載されている。
このような従来の方法の欠点としては、第1にn−gramを超えるコンテキストを考慮できないという点にある。すなわち、バイグラムのモデルであればバイグラムを超える文脈長を考慮できず、また、トライグラムのモデルであればトライグラムを超える文脈長を考慮できない。
第2に、N−best認識結果に表れなかったn−gramには全くスコアを付けることができないという問題もある。そのために、学習データと評価データの認識ドメインが近い場合には有効であるが、それらが離れている場合(たとえば、学習データが新聞記事の読み上げタスクであり、評価データが自由なe−mailの文面作成である場合等)には効果を発揮しない可能性がある。
第3に、RNN−LMと組み合わせて使う場合にはリスコアリングを2回行う必要があるという問題点がある。すなわち、リスコアリング手段6によるリスコアリング(識別的言語モデルを用いたもの)に加えて、その前または後に、RNN−LMを用いたリスコアリングが必要になる。
この発明は上記のような問題点を解決するためになされたものであり、RNN−LMに識別的な効果を導入することにより認識誤りを減らし、識別的言語モデルよりも長いコンテキストを考慮可能とし、未知のコンテキストに対してもある程度頑健な、音声認識装置およびリスコアリング装置を構築することを目的とする。
上述の問題を解決するため、この発明に係る音声認識装置は、識別的に学習された言語モデルを記憶した音声認識装置であって、識別的に学習された言語モデルは、学習データに基づき、正解列またはN−best認識結果を用いて学習が行われたものであり、識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである。アライメントは例えば動的計画法などを用いて文字列の最大一致を実現することで求めることができる。
また、この発明に係るリスコアリング装置は、識別的に学習された言語モデルを用いて、音声認識の候補列をリスコアリングする、リスコアリング装置であって、識別的に学習された言語モデルは、学習データに基づき、正解列またはN−best認識結果を用いて学習が行われたものであり、識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである。
音声認識装置は、リスコアリング装置では、元の言語モデルのパラメータと、識別的に学習された言語モデルのパラメータとの重みづけ平均を取り、元の言語モデルは、元の言語モデルに対して識別的学習が実行されることにより、識別的に学習された言語モデルが生成される、元の言語モデルであってもよい。
候補列の各単語はそれぞれ信頼度を付すことができる。識別的に学習された言語モデルを学習する際には、識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習されてもよい。
音声認識装置は、元の言語モデルに基づいて、候補列を含む第1の結果を取得し、元の言語モデルは、元の言語モデルに対して識別的学習が実行されることにより、識別的に学習された言語モデルが生成される、元の言語モデルであり、識別的に学習された言語モデルに基づいて、候補列を含む第2の結果を取得し、第1の結果および第2の結果を統合してもよい。
この発明によれば、認識誤りを減らし、識別的言語モデルよりも長いコンテキストを考慮可能とし、未知のコンテキストに対してもある程度頑健な、音声認識装置およびリスコアリング装置が提供される。
リカレントニューラルネットワークに基づく言語モデルを説明する図である。 従来の音声認識装置の機能ブロック図である。 正解列と候補列とのアライメントを説明する図である。 実施の形態1に係る音声認識装置のハードウェア構成の例である。 図4の音声認識装置が学習のために実行する処理のフローチャートである。 図4の音声認識装置が適用のために実行する処理のフローチャートである。 図4の音声認識装置の機能ブロック図である。 実施の形態2に係る音声認識装置の機能ブロック図である。 実施の形態3に係る音声認識装置の機能ブロック図である。 実施の形態4に係る音声認識装置の機能ブロック図である。 実施の形態5に係る音声認識装置の機能ブロック図である。 実施の形態6に係る音声認識装置の機能ブロック図である。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
実施の形態1は、識別的基準に基づくRNN−LMを用いるものである。本発明はRNN−LMを識別的に学習することで認識性能を向上させることを目的としている。言語モデルの重要な目的のひとつは、認識したい音声を正しいテキストデータに変換することなので、従来の音声認識結果を補正できるような言語モデルを構築することが望ましい。
そこで、上述の正解ラベルcに加え、音声認識による候補hを使い、RNN−LMを識別的に構築することが考えられる。この際の目的関数は、以下の式(4)のように、単語レベルでの尤度比を用いることが考えられる。このほかにも、識別学習によく用いられる、相互情報量最大化や最小音素誤りといった評価関数を使うこともできる。
Figure 0006461308
Hはh,h,h,…という順序づけられた列であり、βは割引係数である。同様にしてaで微分すると、以下の式(5)の学習則が得られる。
Figure 0006461308
この手順を、具体的に図3を用いて説明する。今、正解列がA,B,C,Dであり、認識結果に挿入(I)、脱落(@)、置換(S)誤りが発生している場合を考える。正解列Cと音声認識結果Hとを初めに整列させることで、図3(a)のような対応関係が得られる。
通常のRNN−LMの学習ではA,B,C,Dの重みをそれぞれ1とし、誤差εを計算し、式(3)に従ってRNN−LMのパラメータを更新する。これに対し、実施の形態1では、図3(b)に示すように、正解の認識結果よりも、不正解の認識結果に大きい重みを置いて学習するために、正解の場合(この例では単語AとD)の重みを割り引く。この例では、正解に対する重みを、不正解に対する重み1から割引係数βだけ小さくすることにより、B,Cの学習に比較的大きい重みを与えることができる。これが式(5)の意図である。
この際に、挿入誤りに対しては、特別な扱いが必要となる。たとえば、図3(a)の正解列に対し、単語Iが誤って挿入されたABCIDという候補列が得られたとする。この場合にはIに対応する正解単語が存在しない。この場合には、たとえばIを無視して候補列が「ABCD」であるものとして処理してもよいし、図3(b)のように直前の時刻の単語Cが繰り返されたと考えたりすることで処理してもよい。
候補の数は2以上(たとえばN-best認識結果)である。各候補をそれぞれ同様に処理してもよい。たとえば、2-bestの場合には、1位の候補に対して図3のような整列処理を行ってRNN−LMのパラメータを更新し、同様に2位の候補に対しても図3のような整列処理を行ってRNN−LMのパラメータを更新する。
図4に、本発明の実施の形態1に係る音声認識装置10のハードウェア構成の例を示す。音声認識装置10は、たとえば公知のコンピュータを用いて構成することができる。音声認識装置10は、演算手段20と、記憶手段30と、音声入力手段40と、結果出力手段50とを備える。演算手段20はプロセッサを含み、記憶手段30は半導体メモリおよびHDD(ハードディスクドライブ)等の記憶媒体を含む。記憶手段30には図示しないプログラムが記憶されており、演算手段20はこのプログラムを実行することにより、本明細書に記載される音声認識装置10の各機能を実現する。このプログラムは、過渡的でない(non-transitory)情報記憶媒体に記録されてもよい。
音声入力手段40はたとえばマイクロホンであり、単語列を含む音声60の入力を受け付ける。または、音声入力手段40は電子データ入力手段であってもよく、音声60の入力を電子データとして受け付けてもよい。結果出力手段50はたとえば液晶ディスプレイ、プリンタ、ネットワークインタフェース等であり、並び替えたN−best認識結果70を出力する。
図5および図6に、音声認識装置10が実行する処理を表すフローチャートを示す。
図5は学習のフローチャートである。音声認識装置10が図5のフローチャートに従って動作する場合には、音声認識装置10は音声認識学習装置であるということができる。まず、音声認識装置10は、トレーニング用の音声60の入力を受け付ける(ステップS1)。次に、音声認識装置10は、音声60に対して音声認識処理を行い、N−best認識結果を取得する(ステップS2)。次に、音声認識装置10は、N−best認識結果に含まれる各候補列を正解列とアラインする(ステップS3)。次に、音声認識装置10は、アライニング結果に基づき、言語モデルを識別的に学習する(ステップS4)。次に、音声認識装置10は、識別的に学習された言語モデルを出力する(ステップS5)。なお、通常は多数の正解列を用いて学習が行われるが、少なくとも1つの正解列と少なくとも1つの候補列があれば本発明は実施可能である。
図6は適用のフローチャートである。音声認識装置10が図6のフローチャートに従って動作する場合には、音声認識装置10はリスコアリング装置であるということができる。まず、音声認識装置10は、認識すべき音声60の入力を受け付ける(ステップS6)。次に、音声認識装置10は、音声60に対して音声認識処理を行い、N−best認識結果を取得する(ステップS7)。次に、音声認識装置10は、識別的に学習された言語モデルに基づき、N−best認識結果に含まれる各候補列をリスコアリングする(ステップS8)。次に、音声認識装置10は、リスコアリングの結果に従って並び替えたN−best認識結果70を出力する(ステップS9)。なお、通常は複数の候補列が出力されるが、少なくとも1つの候補列を出力するものであれば本発明に該当し得る。
図7に、音声認識装置10の機能ブロック図を示す。音声認識装置10の演算手段20は、認識手段21、アライメント手段22、識別的学習手段23およびリスコアリング手段24として機能する。また、音声認識装置10の記憶手段30には、音響モデル31、第1言語モデル32、N−best認識結果33、正解ラベル34および第2言語モデル35が記憶可能である。第1言語モデル32はたとえば音声認識用に構成された言語モデルであり、第2言語モデル35はたとえばリスコアリング用に構成された言語モデルである。
認識手段21、音響モデル31、および第1言語モデル32は、従来の構成のものであってもよい。すなわち、図2の認識手段4、音響モデル2および言語モデル3を用いてもよい。
図7の構成では、図2の従来構成に対し、正解ラベル34、アライメント手段22、識別的学習手段23および第2言語モデル35が追加されている。
アライメント手段22は、N−best認識結果33と正解ラベル34とを整列させる。「整列させる」とは、たとえば、正解列に含まれる各単語と、候補列に含まれる各単語とを対応付けることを意味する。たとえば図3(a)の例では、正解列の単語A、B、Dに、候補列の単語A、S、Dがそれぞれ対応付けられている。また、対応付けられない単語については、挿入または脱落が発生したと考えられる。たとえば図3(a)の例では単語Cが脱落し単語Iが挿入されている。整列には、例えば動的計画法により最大一致を取ることができる。
識別的学習手段23は、整列処理の結果に基づき、識別的に学習を行って第2言語モデル35を生成または更新する。第2言語モデル35は、RNNに基づいて構成される。第2言語モデル35の識別的学習は、たとえば上述の式(5)を用いた逆伝搬により行われ、これによってRNNのパラメータが更新される。これは従来の学習における逆伝搬と同様の方法で行い得る。このように、第2言語モデル35は、正解列と候補列とのアライメントに基づいて学習される。
リスコアリング手段24は、第2言語モデル35に基づき、N−best認識結果33をリスコアリングして並び替えたN−best認識結果70を得る。「リスコアリング」とは、たとえば一度スコアのつけられた候補列に再びスコアを付け直すことを意味する。最初のスコアリングは、実施の形態1では認識手段21によるスコアリングである。
たとえば、各候補のスコアが音響モデルスコアと言語モデルスコアとによって表される場合には、リスコアリング手段24は、N−best認識結果33に含まれる各候補の言語モデルスコアを、NNを用いて推定した言語モデルスコアに置き換える。もしくは元の言語モデルスコアとの重みづけ平均を取る。このように、識別的に学習された第2言語モデル35を用いることにより、認識手段21における音声認識の誤り傾向を考慮したリスコアリングが行える。
例えばカーナビで音声認識技術によるショートメール作成を行う場合に、特定ユーザに対する誤り傾向を学習しておくことで、より正確なテキストデータを得ることができる。あるいは、所定のコマンドのように、語彙や構文が限られた音声であれば、第2言語モデル35を適切なドメインで作成しておけば、第1言語モデル32は汎用のものを用いることができるという利点もある。
以上のように、RNN−LMに識別的に学習した効果が得られるので、従来の構成よりも効果的にN−best認識結果を訂正することができる。
また従来の構成に識別的言語モデルを組み合わせた場合と比べて、本願発明では学習データに現れなかったコンテキストに対する類推が可能になるので、たとえばドメインの違いに対してより頑健になると考えられる。たとえば単語「犬」と「猫」とは文脈によっては交替可能であるが、そのような単語を低次元のベクトルsに写像した場合にはそれらの間のcosine類似度は高くなる。このため、学習データに「犬」が現れた場合の学習効果は、「猫」が現れた場合の学習効果に似たものとなり、交替可能な語を含むような近いコンテキストから類推する効果を得ることができる。このような効果は従来の識別的言語モデルでは得られない。なお、ベクトルsの具体的な次元は、一般には|V|より小さくなるように適宜設計可能である。
さらに、RNN−LMと識別的言語モデルを併用した従来の構成に比べ、リスコアリングは1回で済むという利点もある。もちろん、この後段としてさらに別の識別的言語モデルを併用して、性能をさらに向上させることもできる。たとえば、リスコアリング手段24の後段に追加のリスコアリング手段を設け、この追加のリスコアリング手段が、別の識別的言語モデルに基づいて、並び替えたN−best認識結果70のリスコアリングを行ってもよい。
なお、本明細書の各実施形態では、それぞれ単一の装置を用いて学習および適用を行っているが、学習および適用はそれぞれ異なる装置(異なるコンピュータ等)を用いて行われてもよい。たとえば、学習用の装置はリスコアリング手段24を備えないものであってもよく、適用用の装置はアライメント手段22や識別的学習手段23を備えないものであってもよい。また、適用用の装置は、たとえば従来の音声認識装置(図2に示すような構成のもの)であってもよい(ただしリスコアリングには第2言語モデル35を用いる)。
実施の形態2.
実施の形態1では識別的に学習された第2言語モデル35をそのまま用いた。実施の形態2では、元の言語モデル36と、第2言語モデル35との間で重みづけ平均されたパラメータを用いる。このような構成より、過学習の影響を減らすことができる。
元の言語モデル36は、識別的学習手段23によるNNパラメータの更新がなされる前の第2言語モデル35、すなわち初期状態の第2言語モデル35と同じものを意味する。言い換えると、元の言語モデル36に対して識別的学習が実行されることにより、第2言語モデル35が生成される。
実施の形態2に係る構成を図8に示す。重みづけ手段25が追加されている。音声認識装置10の演算手段20が重みづけ手段25として機能してもよい。重みづけ手段25は、元の言語モデル36のパラメータと、第2言語モデル35のパラメータとを重み付け平均する。例えば図1の構成では、式(6)のようになる。
Figure 0006461308
CE,VCEはクロスエントロピーを用いて学習されたモデルのパラメータであり、ULR,VLRは識別的に学習されたモデルのパラメータである。τは平滑化係数である。なお、通常は各言語モデルは複数のパラメータを含むが、少なくとも1つのパラメータを含む言語モデルであれば重みづけ平均は可能である。
以上のように、元の言語モデル36と識別的に学習された第2言語モデル35との平均を取ることで、識別学習で起こりやすい過学習の影響を低減し、識別学習の効果をより安定的なものにできる。
実施の形態3.
実施の形態3では、単語信頼度を用いた識別的基準に基づくRNN−LMを用いる。
実施の形態3に係る構成を図9に示す。この例では、実施の形態1および2の認識手段21に代えて認識手段121を備え、実施の形態1および2の識別的学習手段23に代えて識別的学習手段123を備える。音声認識装置10の演算手段20が、認識手段121および識別的学習手段123として機能してもよい。
認識手段121は、N−best認識結果33を出力するとともに、N−best認識結果33に含まれる単語ごとに信頼度を求め、単語信頼度37として出力する。単語信頼度37は、たとえば音声認識装置10の記憶手段30に記憶される。識別的学習手段123は、整列処理の結果に加え、単語信頼度37に基づき、識別的に学習を行って第2言語モデル35を生成または更新する。
単語信頼度を求める方法としては多数のものが公知である。一例として、ある時刻におけるある特定候補の尤度が、その時刻における全候補の尤度の和において占める比率を、その特定候補の単語信頼度として用いることができる。たとえば、時刻tにおける各単語候補をw (1≦i≦I)としたときに、各単語候補の尤度p(w )を用いて、
Figure 0006461308
と表すことができる。
単語信頼度の高い誤りの方が単語信頼度の低い誤りよりも深刻であると考えられるので、単語信頼度に基づいて割引率を変えることができる。例えば以下の式(7)のように計算する。
Figure 0006461308
νは単語信頼度であり、0≦ν≦1である。
不正解の単語が最大の信頼度(たとえばν=1)を持つ場合には、最大の重み(たとえば1)をもって学習される。一方で、不正解の単語が最小の信頼度(たとえばν=0)を持つ場合には、その単語による学習はあまり効果的でないと考えられるので、正解と同じように割り引いた重み(たとえば1−β)をもって学習される。
このように、実施の形態3では、候補列の各単語はそれぞれ信頼度を有し、第2言語モデル35は、より高い信頼度を有する単語がより重点的となるよう学習される。
このような構成により、同じ単語の誤りであっても異なった重みをもって学習させ、とくに、深刻なものをより大きな重みで学習させることができる。以上のように、単語信頼度を用いた学習により、認識誤りの重大性に応じた学習を行うことができる。
なお、図9では実施の形態2と同様に重みづけ手段25および元の言語モデル36が設けられているが、実施の形態1と同様にこれらを設けないことも可能である。
実施の形態4.
実施の形態1および2では、学習の結果を言語モデルレベルで統合した。これに対し、実施の形態4では、学習の結果を認識結果レベルで統合する。
実施の形態4に係る構成を図10に示す。実施の形態1および2におけるリスコアリング手段24に代えて、第1リスコアリング手段224および第2リスコアリング手段225が設けられる。音声認識装置10の演算手段20が第1リスコアリング手段224および第2リスコアリング手段225として機能してもよい。
第1リスコアリング手段224は、元の言語モデル36に基づき、N−best認識結果33をリスコアリングして並び替えたN−best認識結果270(第1の結果)を得る。第2リスコアリング手段225は、識別的に学習された第2言語モデル35に基づき、N−best認識結果33をリスコアリングして並び替えたN−best認識結果271(第2の結果)を得る。並び替えたN−best認識結果270および271は、音声認識装置10の記憶手段30に記憶されてもよい。
また、実施の形態4では、結果統合手段26が設けられる。音声認識装置10の演算手段20が結果統合手段26として機能してもよい。結果統合手段26は、並び替えたN−best認識結果270および271を統合し、最終的な並び替えたN−best認識結果70を得る。
統合は、例えば各候補をスコアに基づいて比較し、スコアが高い候補を選択することにより行われてもよい。
または、統合は、多数決により行われてもよい。多数決の具体的な適用方法は任意に設計可能であるが、たとえば3つ以上のシステムを使った多数決を採用してもよく、各システムがそれぞれ異なる候補を出力した場合には、スコアで比較してもよい。
また、統合の際に、いずれかの言語モデルのスコアを適当に割り引いておいてもよい。たとえば、あまり信頼できないことがわかっている言語モデルに対しては、各候補のスコアに1より小さい重み(例えば0.8)を掛けてから、各候補をスコアに基づいて比較し統合してもよい。
もちろん、このような統合処理は、実施の形態3のように単語信頼度を用いた構成にも同様に適用できる。
以上のように、複数の言語モデルを使って独立にリスコアリングを行うことで、単一の(または平均化された)言語モデルを使った場合よりも、頑健にリスコアリングが行える。
実施の形態5.
実施の形態5は、言語モデルの識別的学習に、不正解仮説のみを用いる構成である。
実施の形態1〜4では、正解の候補および不正解の候補の双方を用いて学習を行った。しかしながら、より簡便に識別的学習の効果を得るためには、不正解仮説のみから学習した言語モデルを使用することが考えられる。
実施の形態5に係る構成を図11に示す。実施の形態2のアライメント手段22に代えてアライメント手段322が設けられる。アライメント手段322は、N−best認識結果33から不正解候補38を抽出して整列させる。
実施の形態2の識別的学習手段23に代えて、モデル学習手段323が設けられる。モデル学習手段323は、整列処理の結果に基づき、不正解候補38を用いて学習を行い、第2言語モデル335を生成または更新する。この学習処理自体は、識別的手法に従って行われる必要はない。たとえば、モデル学習手段323は、式(3)に従い、NNのパラメータを更新することにより学習を行う。
また、実施の形態2の重みづけ手段25に代えて、重みづけ手段325が設けられる。重みづけ手段325は、不正解候補を出力するパラメータにペナルティを課すように、元の言語モデル36のパラメータと、第2言語モデル335のパラメータとを重み付け平均する。たとえば、重みづけ手段325は、第2言語モデル335のパラメータが負になるように(すなわち式(6)のτが1より大きくなるように)重みづけする。
ここで、言語モデルの学習自体は識別的ではなかったとしても、元の言語モデルと、不正解候補により学習した言語モデルとを組み合わせることにより、音声認識装置10は全体として識別的な学習を行っているということができる。
音声認識装置10の演算手段20が、アライメント手段322、モデル学習手段323および重みづけ手段325として機能してもよい。また、不正解候補38および第2言語モデル335は、音声認識装置10の記憶手段30に記憶されてもよい。
以上のように、元の言語モデル36に加え、不正解候補のみから学習した第2言語モデル335を使用することで、言語モデル学習の方法を変えないまま、簡便に識別的学習の効果を得ることができる。
実施の形態6.
実施の形態1では、音声認識用の第1言語モデル32は識別的学習の対象とならない。これに対し、実施の形態6では、RNN−LMを用いて、音声認識用の言語モデルを学習する。
実施の形態6に係る構成を図12に示す。実施の形態6では、実施の形態1の識別的学習手段23に代えて識別的学習手段423が設けられる。識別的学習手段423は、アライニング処理の結果に基づき、識別的に学習を行って言語モデル432を更新する。また、実施の形態1の認識手段21に代えて認識手段421が設けられる。認識手段421は、識別的に学習された言語モデル432に基づき、音声認識を行ってN−best認識結果33を出力する。
このような構成によっても、実施の形態1と同様に、識別的学習による効果を得ることができる。

Claims (8)

  1. 識別的に学習された言語モデルを記憶した音声認識装置であって、
    前記識別的に学習された言語モデルは、学習データに基づき、正解列またはN−best認識結果を用いて学習が行われたものであり、
    前記識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、
    前記識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである、
    音声認識装置。
  2. 前記音声認識装置は、元の言語モデルのパラメータと、前記識別的に学習された言語モデルのパラメータとの重みづけ平均を取
    前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
    請求項1に記載の音声認識装置。
  3. 前記候補列の各単語はそれぞれ信頼度を有し、
    前記識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習される、
    請求項1に記載の音声認識装置。
  4. 前記音声認識装置は、元の言語モデルに基づいて、候補列を含む第1の結果を取得し、
    前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
    前記識別的に学習された言語モデルに基づいて、候補列を含む第2の結果を取得し、
    前記第1の結果および前記第2の結果を統合する、
    請求項1に記載の音声認識装置。
  5. 識別的に学習された言語モデルを用いて、音声認識の候補列をリスコアリングする、リスコアリング装置であって、
    前記識別的に学習された言語モデルは、学習データに基づき、正解列またはN−best認識結果を用いて学習が行われたものであり、
    前記識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、
    前記識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである、
    リスコアリング装置。
  6. 前記音声認識装置は、元の言語モデルのパラメータと、前記識別的に学習された言語モデルのパラメータとの重みづけ平均を取
    前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
    請求項5に記載のリスコアリング装置。
  7. 前記候補列の各単語はそれぞれ信頼度を有し、
    前記識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習される、
    請求項5に記載のリスコアリング装置。
  8. 前記音声認識装置は、元の言語モデルに基づいて、候補列を含む第1の結果を取得し、
    前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
    前記識別的に学習された言語モデルに基づいて、候補列を含む第2の結果を取得し、
    前記第1の結果および前記第2の結果を統合する、
    請求項5に記載のリスコアリング装置。
JP2017507782A 2015-04-16 2015-04-16 音声認識装置およびリスコアリング装置 Active JP6461308B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2015/026217 WO2016167779A1 (en) 2015-04-16 2015-04-16 Speech recognition device and rescoring device

Publications (2)

Publication Number Publication Date
JP2017527846A JP2017527846A (ja) 2017-09-21
JP6461308B2 true JP6461308B2 (ja) 2019-01-30

Family

ID=57125816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017507782A Active JP6461308B2 (ja) 2015-04-16 2015-04-16 音声認識装置およびリスコアリング装置

Country Status (3)

Country Link
JP (1) JP6461308B2 (ja)
TW (1) TW201638931A (ja)
WO (1) WO2016167779A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
WO2018062265A1 (ja) * 2016-09-30 2018-04-05 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
JP6744633B2 (ja) * 2017-06-26 2020-08-19 株式会社Rutilea 物品判定装置、システム、学習方法及びプログラム
CN108288468B (zh) * 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置
CN108335694B (zh) 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
AU2019270168B2 (en) * 2018-05-18 2024-01-04 Genesys Cloud Services Holdings II, LLC System and method for a multiclass approach for confidence modeling in automatic speech recognition systems
JP6965846B2 (ja) * 2018-08-17 2021-11-10 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
US11011156B2 (en) 2019-04-11 2021-05-18 International Business Machines Corporation Training data modification for training model
CN112163636B (zh) * 2020-10-15 2023-09-26 电子科技大学 基于孪生神经网络的电磁信号辐射源的未知模式识别方法
US11574639B2 (en) * 2020-12-18 2023-02-07 Microsoft Technology Licensing, Llc Hypothesis stitcher for speech recognition of long-form audio

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
WO2004049305A2 (en) * 2002-11-21 2004-06-10 Scansoft, Inc. Discriminative training of hidden markov models for continuous speech recognition
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
JP2008026721A (ja) * 2006-07-24 2008-02-07 Nec Corp 音声認識装置、音声認識方法、および音声認識用プログラム
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
JP2013125144A (ja) * 2011-12-14 2013-06-24 Nippon Hoso Kyokai <Nhk> 音声認識装置およびそのプログラム
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Also Published As

Publication number Publication date
WO2016167779A1 (en) 2016-10-20
JP2017527846A (ja) 2017-09-21
TW201638931A (zh) 2016-11-01

Similar Documents

Publication Publication Date Title
JP6461308B2 (ja) 音声認識装置およびリスコアリング装置
Ogawa et al. Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks
US11900915B2 (en) Multi-dialect and multilingual speech recognition
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
Shannon Optimizing expected word error rate via sampling for speech recognition
Lou et al. Disfluency detection using auto-correlational neural networks
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP7418991B2 (ja) 音声認識方法及び装置
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
Ogawa et al. ASR error detection and recognition rate estimation using deep bidirectional recurrent neural networks
Wu et al. Encoding linear models as weighted finite-state transducers.
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
US11620992B2 (en) Automated speech recognition confidence classifier
US20230104228A1 (en) Joint Unsupervised and Supervised Training for Multilingual ASR
Audhkhasi et al. Theoretical analysis of diversity in an ensemble of automatic speech recognition systems
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN114020887B (zh) 用于确定响应语句的方法、设备、装置和介质
Saraçlar Pronunciation modeling for conversational speech recognition
Andrew et al. Sequential deep belief networks
Jeon et al. On modeling ASR word confidence
Granell et al. Multimodal output combination for transcribing historical handwritten documents
Heigold et al. On the equivalence of Gaussian HMM and Gaussian HMM-like hidden conditional random fields.
Fosler-Lussier et al. Crandem systems: Conditional random field acoustic models for hidden Markov models
JP2024512579A (ja) ルックアップテーブルリカレント言語モデル
Shinozaki et al. Semi-Supervised Learning of a Pronunciation Dictionary from Disjoint Phonemic Transcripts and Text.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181225

R150 Certificate of patent or registration of utility model

Ref document number: 6461308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250