JP6461308B2

JP6461308B2 - 音声認識装置およびリスコアリング装置

Info

Publication number: JP6461308B2
Application number: JP2017507782A
Authority: JP
Inventors: 勇気太刀岡; 渡部　晋治; 晋治渡部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2019-01-30
Anticipated expiration: 2035-04-16
Also published as: WO2016167779A1; JP2017527846A; TW201638931A

Description

本発明は音声認識装置およびリスコアリング装置に関し、とくにリカレントニューラルネットワーク（Recurrent Neural Network, ＲＮＮ）に基づく言語モデルを用いるものに関する。

音声認識において、ＲＮＮを言語モデル（ＬＭ）に使う（ＲＮＮ−ＬＭ）ことで、大幅に性能が向上することが広く知られている。これはたとえば、T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur, “Recurrent neural network based language model,”in Proceedings of INTERSPEECH, 2010, pp. 1045--1048 に記載される。

また、音声認識によりスコアリングされた認識結果候補を、ｎ−ｇｒａｍモデルをベースとした識別的言語モデルによってリスコアリングする手法が知られている。これはたとえば、B. Roark, M. Saraclar, M. Collins, and M. Johnson, “Discriminative language modeling with conditional random fields and the perceptron algorithm,” in Proceedings of ACL, 2004, pp. 47--54、および、特開２０１４−０８９２４７号公報に記載される。

通常のｎ−ｇｒａｍを用いた言語モデルでは長いコンテキストを考慮することができない。これに対して、ＲＮＮをＬＭに用いることで、原理的には無限の長さのコンテキストを保持することができる。この方式を図１に示す。入力ベクトルｘはＮ単語からなる辞書の１−ｏｆ−Ｎ表現である。出力ベクトルｙはＮ単語それぞれに対応する事後確率である。隠れ層には低次元のベクトルｓがある。射影行列Ｕは入力層を隠れ層に関連付ける。射影行列Ｖは隠れ層を出力層に関連付ける。直前の時刻の隠れ層が入力層にコピーされ、これによってコンテキストが保持される。この構造を利用したＬＭを使うことにより、ｎ−ｇｒａｍを利用したＬＭが考慮できるコンテキストよりも長いコンテキストを考慮して、よりよい認識候補を生成できる。さらに、隠れ層への写像は低次元のベクトル上に行われるので、語の間の類似性が考慮される。例えば、単語「犬」と「猫」は、文脈によっては交替可能であり、その場合にはそれらのベクトルｓの間のコサイン類似度が高くなる。

ＲＮＮ−ＬＭは、従来のテーブルルックアップを用いたｎ−ｇｒａｍ手法に比べると長い処理時間を要するため、主にはリスコアリングに使われる。リスコアリングに使った場合の構成を図２に示す。認識手段４は、音声１を入力として受け取り、音響モデル２と認識用の言語モデル３を用いて、複数の候補列をスコアリングし、スコアリングの結果を認識結果５を出力として提供する。これに対してリスコアリング手段６は、認識結果５を入力として受け取り、リスコアリング用の言語モデル７を用いて、候補を尤度の降順に並び替えた認識結果８を返す。リスコアリング用の言語モデル７はＲＮＮ−ＬＭである。長いコンテキストを考慮できる言語モデル７を使うことで、修正済認識結果８の方が認識結果５よりも認識性能がよくなることが期待できる。

なお、認識手段４が認識し得る語は、いずれも認識結果５に現れる可能性があるので、リスコアリング手段６が認識すべき語の語彙は、認識手段４の語彙をカバーすることが好ましい。ただし未知語（ＵＮＫ）をクラスとしてモデリングすることでリスコアリング手段6の語彙数を認識手段4に比べて少なくすることができる。

ＲＮＮ−ＬＭでは、現在までの単語列ｗ_１，ｗ_２，…，ｗ_ｔから次の単語ｗ_ｔ＋１の事後確率を計算する。認識すべき語彙に単語が｜Ｖ｜個含まれるとし、各単語にそれぞれ異なる単語番号を付与する。単語番号をｎで表す（ただし１≦ｎ≦｜Ｖ｜である）。なお、単語番号は、各単語をなんらかの基準に基づいてソートした結果に基づき付与されるものであってもよい。音声においてｔ番目に出現する単語の単語番号がｃ_ｔで与えられたとき、クロスエントロピー（ＣＥ）基準での学習の評価関数は式（１）のように与えられる。

Ｃは、音声中に出現する単語列（正解単語列）を単語番号列に変換したものであり、ｃ_ｔはそのうちｔ番目の単語の単語番号である。すなわちＣはｃ_１，ｃ_２，ｃ_３，…という順序づけられた列である。δはクロネッカーのデルタである。ベクトルｙは通常、式（２）で表されるソフトマックス関数が使われる。

ただし、ａはアクティベーションであり、たとえばａ＝Ｖ・ｓ_ｔである。学習則はＦ^ＣＥをａで微分することで式（３）のように得られる。

学習の際、現在の単語ｘ_ｔ（ｃ_ｔ）＝１を入力した際に得られる、次の単語の事後確率ｙ_ｔ（ｎ）を計算する。正解はδ（ｎ，ｃ_ｔ）で与えられるので、正解δ（ｎ，ｃ_ｔ）と、現時点で推測した確率ｙ_ｔ（ｎ）との差を誤差ε_ｔ（ｎ）として、逆伝搬させることで、ＮＮ（neural network）のパラメータを更新する。

学習すべきNNのパラメータは、図１の射影行列Ｕおよび／またはＶの、少なくとも１つの要素を含む。また、学習すべきＮＮのパラメータは、射影行列ＵおよびＶによる射影に伴って加算されるオフセットを表すベクトルの各成分を含んでもよい。逆伝搬は、たとえば誤差ε_ｔ（ｎ）を最小とするようなパラメータセットを求めるために行われる。また、逆伝搬の具体的な方法および計算式は、公知のものを用いることができる。

従来のリスコアリング手段６の具体例として、識別的言語モデルを用いるものがある。これは、学習データに基づき、正解列またはＮ−ｂｅｓｔ認識結果を用いて学習を行うものである。Ｎ−ｂｅｓｔ認識結果とは、たとえば、すべての候補のうちから、スコアが大きい順に上位N個の候補を並べた認識結果を意味する。

スコアは、たとえば音響モデルスコアおよび言語モデルスコアの関数として表され、たとえばこれらの重み付き和である。識別的言語モデルは、正解列もしくはＮ−ｂｅｓｔ認識結果の中で最も認識誤りが少ない候補を正解とし、Ｎ−ｂｅｓｔ認識結果の中で最も認識誤りが多い候補を不正解として、それぞれに含まれるｎ−ｇｒａｍに基づき、(平均化)パーセプトロンアルゴリズムで学習するものである。この方法の例は、上述のRoark2004および特開２０１４−０８９２４７号公報に記載されている。

このような従来の方法の欠点としては、第1にｎ−ｇｒａｍを超えるコンテキストを考慮できないという点にある。すなわち、バイグラムのモデルであればバイグラムを超える文脈長を考慮できず、また、トライグラムのモデルであればトライグラムを超える文脈長を考慮できない。

第2に、Ｎ−ｂｅｓｔ認識結果に表れなかったｎ−ｇｒａｍには全くスコアを付けることができないという問題もある。そのために、学習データと評価データの認識ドメインが近い場合には有効であるが、それらが離れている場合（たとえば、学習データが新聞記事の読み上げタスクであり、評価データが自由なｅ−ｍａｉｌの文面作成である場合等）には効果を発揮しない可能性がある。

第３に、ＲＮＮ−ＬＭと組み合わせて使う場合にはリスコアリングを２回行う必要があるという問題点がある。すなわち、リスコアリング手段６によるリスコアリング（識別的言語モデルを用いたもの）に加えて、その前または後に、ＲＮＮ−ＬＭを用いたリスコアリングが必要になる。

この発明は上記のような問題点を解決するためになされたものであり、ＲＮＮ−ＬＭに識別的な効果を導入することにより認識誤りを減らし、識別的言語モデルよりも長いコンテキストを考慮可能とし、未知のコンテキストに対してもある程度頑健な、音声認識装置およびリスコアリング装置を構築することを目的とする。

上述の問題を解決するため、この発明に係る音声認識装置は、識別的に学習された言語モデルを記憶した音声認識装置であって、識別的に学習された言語モデルは、学習データに基づき、正解列またはＮ−ｂｅｓｔ認識結果を用いて学習が行われたものであり、識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである。アライメントは例えば動的計画法などを用いて文字列の最大一致を実現することで求めることができる。

また、この発明に係るリスコアリング装置は、識別的に学習された言語モデルを用いて、音声認識の候補列をリスコアリングする、リスコアリング装置であって、識別的に学習された言語モデルは、学習データに基づき、正解列またはＮ−ｂｅｓｔ認識結果を用いて学習が行われたものであり、識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである。

音声認識装置は、リスコアリング装置では、元の言語モデルのパラメータと、識別的に学習された言語モデルのパラメータとの重みづけ平均を取り、元の言語モデルは、元の言語モデルに対して識別的学習が実行されることにより、識別的に学習された言語モデルが生成される、元の言語モデルであってもよい。

候補列の各単語はそれぞれ信頼度を付すことができる。識別的に学習された言語モデルを学習する際には、識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習されてもよい。

音声認識装置は、元の言語モデルに基づいて、候補列を含む第１の結果を取得し、元の言語モデルは、元の言語モデルに対して識別的学習が実行されることにより、識別的に学習された言語モデルが生成される、元の言語モデルであり、識別的に学習された言語モデルに基づいて、候補列を含む第２の結果を取得し、第１の結果および第２の結果を統合してもよい。

この発明によれば、認識誤りを減らし、識別的言語モデルよりも長いコンテキストを考慮可能とし、未知のコンテキストに対してもある程度頑健な、音声認識装置およびリスコアリング装置が提供される。

リカレントニューラルネットワークに基づく言語モデルを説明する図である。従来の音声認識装置の機能ブロック図である。正解列と候補列とのアライメントを説明する図である。実施の形態１に係る音声認識装置のハードウェア構成の例である。図４の音声認識装置が学習のために実行する処理のフローチャートである。図４の音声認識装置が適用のために実行する処理のフローチャートである。図４の音声認識装置の機能ブロック図である。実施の形態２に係る音声認識装置の機能ブロック図である。実施の形態３に係る音声認識装置の機能ブロック図である。実施の形態４に係る音声認識装置の機能ブロック図である。実施の形態５に係る音声認識装置の機能ブロック図である。実施の形態６に係る音声認識装置の機能ブロック図である。

以下、この発明の実施の形態を添付図面に基づいて説明する。

実施の形態１．
実施の形態１は、識別的基準に基づくＲＮＮ−ＬＭを用いるものである。本発明はＲＮＮ−ＬＭを識別的に学習することで認識性能を向上させることを目的としている。言語モデルの重要な目的のひとつは、認識したい音声を正しいテキストデータに変換することなので、従来の音声認識結果を補正できるような言語モデルを構築することが望ましい。

そこで、上述の正解ラベルｃ_ｔに加え、音声認識による候補ｈ_ｔを使い、ＲＮＮ−ＬＭを識別的に構築することが考えられる。この際の目的関数は、以下の式（４）のように、単語レベルでの尤度比を用いることが考えられる。このほかにも、識別学習によく用いられる、相互情報量最大化や最小音素誤りといった評価関数を使うこともできる。

Ｈはｈ_１，ｈ_２，ｈ_３，…という順序づけられた列であり、βは割引係数である。同様にしてａで微分すると、以下の式（５）の学習則が得られる。

この手順を、具体的に図３を用いて説明する。今、正解列がＡ，Ｂ，Ｃ，Ｄであり、認識結果に挿入（Ｉ）、脱落（＠）、置換（Ｓ）誤りが発生している場合を考える。正解列Ｃと音声認識結果Ｈとを初めに整列させることで、図３（ａ）のような対応関係が得られる。

通常のＲＮＮ−ＬＭの学習ではＡ，Ｂ，Ｃ，Ｄの重みをそれぞれ1とし、誤差εを計算し、式（３）に従ってＲＮＮ−ＬＭのパラメータを更新する。これに対し、実施の形態１では、図３（ｂ）に示すように、正解の認識結果よりも、不正解の認識結果に大きい重みを置いて学習するために、正解の場合（この例では単語ＡとＤ）の重みを割り引く。この例では、正解に対する重みを、不正解に対する重み１から割引係数βだけ小さくすることにより、Ｂ，Ｃの学習に比較的大きい重みを与えることができる。これが式（５）の意図である。

この際に、挿入誤りに対しては、特別な扱いが必要となる。たとえば、図３（ａ）の正解列に対し、単語Ｉが誤って挿入されたＡＢＣＩＤという候補列が得られたとする。この場合にはＩに対応する正解単語が存在しない。この場合には、たとえばＩを無視して候補列が「ＡＢＣＤ」であるものとして処理してもよいし、図３（ｂ）のように直前の時刻の単語Ｃが繰り返されたと考えたりすることで処理してもよい。

候補の数は２以上（たとえばN-best認識結果）である。各候補をそれぞれ同様に処理してもよい。たとえば、2-bestの場合には、１位の候補に対して図３のような整列処理を行ってＲＮＮ−ＬＭのパラメータを更新し、同様に２位の候補に対しても図３のような整列処理を行ってＲＮＮ−ＬＭのパラメータを更新する。

図４に、本発明の実施の形態１に係る音声認識装置１０のハードウェア構成の例を示す。音声認識装置１０は、たとえば公知のコンピュータを用いて構成することができる。音声認識装置１０は、演算手段２０と、記憶手段３０と、音声入力手段４０と、結果出力手段５０とを備える。演算手段２０はプロセッサを含み、記憶手段３０は半導体メモリおよびＨＤＤ（ハードディスクドライブ）等の記憶媒体を含む。記憶手段３０には図示しないプログラムが記憶されており、演算手段２０はこのプログラムを実行することにより、本明細書に記載される音声認識装置１０の各機能を実現する。このプログラムは、過渡的でない（non-transitory）情報記憶媒体に記録されてもよい。

音声入力手段４０はたとえばマイクロホンであり、単語列を含む音声６０の入力を受け付ける。または、音声入力手段４０は電子データ入力手段であってもよく、音声６０の入力を電子データとして受け付けてもよい。結果出力手段５０はたとえば液晶ディスプレイ、プリンタ、ネットワークインタフェース等であり、並び替えたＮ−ｂｅｓｔ認識結果７０を出力する。

図５および図６に、音声認識装置１０が実行する処理を表すフローチャートを示す。

図５は学習のフローチャートである。音声認識装置１０が図５のフローチャートに従って動作する場合には、音声認識装置１０は音声認識学習装置であるということができる。まず、音声認識装置１０は、トレーニング用の音声６０の入力を受け付ける（ステップＳ１）。次に、音声認識装置１０は、音声６０に対して音声認識処理を行い、Ｎ−ｂｅｓｔ認識結果を取得する（ステップＳ２）。次に、音声認識装置１０は、Ｎ−ｂｅｓｔ認識結果に含まれる各候補列を正解列とアラインする（ステップＳ３）。次に、音声認識装置１０は、アライニング結果に基づき、言語モデルを識別的に学習する（ステップＳ４）。次に、音声認識装置１０は、識別的に学習された言語モデルを出力する（ステップＳ５）。なお、通常は多数の正解列を用いて学習が行われるが、少なくとも１つの正解列と少なくとも１つの候補列があれば本発明は実施可能である。

図６は適用のフローチャートである。音声認識装置１０が図６のフローチャートに従って動作する場合には、音声認識装置１０はリスコアリング装置であるということができる。まず、音声認識装置１０は、認識すべき音声６０の入力を受け付ける（ステップＳ６）。次に、音声認識装置１０は、音声６０に対して音声認識処理を行い、Ｎ−ｂｅｓｔ認識結果を取得する（ステップＳ７）。次に、音声認識装置１０は、識別的に学習された言語モデルに基づき、Ｎ−ｂｅｓｔ認識結果に含まれる各候補列をリスコアリングする（ステップＳ８）。次に、音声認識装置１０は、リスコアリングの結果に従って並び替えたＮ−ｂｅｓｔ認識結果７０を出力する（ステップＳ９）。なお、通常は複数の候補列が出力されるが、少なくとも１つの候補列を出力するものであれば本発明に該当し得る。

図７に、音声認識装置１０の機能ブロック図を示す。音声認識装置１０の演算手段２０は、認識手段２１、アライメント手段２２、識別的学習手段２３およびリスコアリング手段２４として機能する。また、音声認識装置１０の記憶手段３０には、音響モデル３１、第１言語モデル３２、Ｎ−ｂｅｓｔ認識結果３３、正解ラベル３４および第２言語モデル３５が記憶可能である。第１言語モデル３２はたとえば音声認識用に構成された言語モデルであり、第２言語モデル３５はたとえばリスコアリング用に構成された言語モデルである。

認識手段２１、音響モデル３１、および第１言語モデル３２は、従来の構成のものであってもよい。すなわち、図２の認識手段４、音響モデル２および言語モデル３を用いてもよい。

図７の構成では、図２の従来構成に対し、正解ラベル３４、アライメント手段２２、識別的学習手段２３および第２言語モデル３５が追加されている。

アライメント手段２２は、Ｎ−ｂｅｓｔ認識結果３３と正解ラベル３４とを整列させる。「整列させる」とは、たとえば、正解列に含まれる各単語と、候補列に含まれる各単語とを対応付けることを意味する。たとえば図３（ａ）の例では、正解列の単語Ａ、Ｂ、Ｄに、候補列の単語Ａ、Ｓ、Ｄがそれぞれ対応付けられている。また、対応付けられない単語については、挿入または脱落が発生したと考えられる。たとえば図３（ａ）の例では単語Ｃが脱落し単語Ｉが挿入されている。整列には、例えば動的計画法により最大一致を取ることができる。

識別的学習手段２３は、整列処理の結果に基づき、識別的に学習を行って第２言語モデル３５を生成または更新する。第２言語モデル３５は、ＲＮＮに基づいて構成される。第２言語モデル３５の識別的学習は、たとえば上述の式（５）を用いた逆伝搬により行われ、これによってＲＮＮのパラメータが更新される。これは従来の学習における逆伝搬と同様の方法で行い得る。このように、第２言語モデル３５は、正解列と候補列とのアライメントに基づいて学習される。

リスコアリング手段２４は、第２言語モデル３５に基づき、Ｎ−ｂｅｓｔ認識結果３３をリスコアリングして並び替えたＮ−ｂｅｓｔ認識結果７０を得る。「リスコアリング」とは、たとえば一度スコアのつけられた候補列に再びスコアを付け直すことを意味する。最初のスコアリングは、実施の形態１では認識手段２１によるスコアリングである。

たとえば、各候補のスコアが音響モデルスコアと言語モデルスコアとによって表される場合には、リスコアリング手段２４は、Ｎ−ｂｅｓｔ認識結果３３に含まれる各候補の言語モデルスコアを、ＮＮを用いて推定した言語モデルスコアに置き換える。もしくは元の言語モデルスコアとの重みづけ平均を取る。このように、識別的に学習された第２言語モデル３５を用いることにより、認識手段２１における音声認識の誤り傾向を考慮したリスコアリングが行える。

例えばカーナビで音声認識技術によるショートメール作成を行う場合に、特定ユーザに対する誤り傾向を学習しておくことで、より正確なテキストデータを得ることができる。あるいは、所定のコマンドのように、語彙や構文が限られた音声であれば、第２言語モデル３５を適切なドメインで作成しておけば、第１言語モデル３２は汎用のものを用いることができるという利点もある。

以上のように、ＲＮＮ−ＬＭに識別的に学習した効果が得られるので、従来の構成よりも効果的にＮ−ｂｅｓｔ認識結果を訂正することができる。

また従来の構成に識別的言語モデルを組み合わせた場合と比べて、本願発明では学習データに現れなかったコンテキストに対する類推が可能になるので、たとえばドメインの違いに対してより頑健になると考えられる。たとえば単語「犬」と「猫」とは文脈によっては交替可能であるが、そのような単語を低次元のベクトルｓに写像した場合にはそれらの間のcosine類似度は高くなる。このため、学習データに「犬」が現れた場合の学習効果は、「猫」が現れた場合の学習効果に似たものとなり、交替可能な語を含むような近いコンテキストから類推する効果を得ることができる。このような効果は従来の識別的言語モデルでは得られない。なお、ベクトルｓの具体的な次元は、一般には｜Ｖ｜より小さくなるように適宜設計可能である。

さらに、ＲＮＮ−ＬＭと識別的言語モデルを併用した従来の構成に比べ、リスコアリングは１回で済むという利点もある。もちろん、この後段としてさらに別の識別的言語モデルを併用して、性能をさらに向上させることもできる。たとえば、リスコアリング手段２４の後段に追加のリスコアリング手段を設け、この追加のリスコアリング手段が、別の識別的言語モデルに基づいて、並び替えたＮ−ｂｅｓｔ認識結果７０のリスコアリングを行ってもよい。

なお、本明細書の各実施形態では、それぞれ単一の装置を用いて学習および適用を行っているが、学習および適用はそれぞれ異なる装置（異なるコンピュータ等）を用いて行われてもよい。たとえば、学習用の装置はリスコアリング手段２４を備えないものであってもよく、適用用の装置はアライメント手段２２や識別的学習手段２３を備えないものであってもよい。また、適用用の装置は、たとえば従来の音声認識装置（図２に示すような構成のもの）であってもよい（ただしリスコアリングには第２言語モデル３５を用いる）。

実施の形態２．
実施の形態1では識別的に学習された第２言語モデル３５をそのまま用いた。実施の形態２では、元の言語モデル３６と、第２言語モデル３５との間で重みづけ平均されたパラメータを用いる。このような構成より、過学習の影響を減らすことができる。

元の言語モデル３６は、識別的学習手段２３によるＮＮパラメータの更新がなされる前の第２言語モデル３５、すなわち初期状態の第２言語モデル３５と同じものを意味する。言い換えると、元の言語モデル３６に対して識別的学習が実行されることにより、第２言語モデル３５が生成される。

実施の形態２に係る構成を図８に示す。重みづけ手段２５が追加されている。音声認識装置１０の演算手段２０が重みづけ手段２５として機能してもよい。重みづけ手段２５は、元の言語モデル３６のパラメータと、第２言語モデル３５のパラメータとを重み付け平均する。例えば図１の構成では、式（６）のようになる。

Ｕ^ＣＥ，Ｖ^ＣＥはクロスエントロピーを用いて学習されたモデルのパラメータであり、Ｕ^ＬＲ，Ｖ^ＬＲは識別的に学習されたモデルのパラメータである。τは平滑化係数である。なお、通常は各言語モデルは複数のパラメータを含むが、少なくとも１つのパラメータを含む言語モデルであれば重みづけ平均は可能である。

以上のように、元の言語モデル３６と識別的に学習された第２言語モデル３５との平均を取ることで、識別学習で起こりやすい過学習の影響を低減し、識別学習の効果をより安定的なものにできる。

実施の形態３．
実施の形態３では、単語信頼度を用いた識別的基準に基づくＲＮＮ−ＬＭを用いる。

実施の形態３に係る構成を図９に示す。この例では、実施の形態１および２の認識手段２１に代えて認識手段１２１を備え、実施の形態１および２の識別的学習手段２３に代えて識別的学習手段１２３を備える。音声認識装置１０の演算手段２０が、認識手段１２１および識別的学習手段１２３として機能してもよい。

認識手段１２１は、Ｎ−ｂｅｓｔ認識結果３３を出力するとともに、Ｎ−ｂｅｓｔ認識結果３３に含まれる単語ごとに信頼度を求め、単語信頼度３７として出力する。単語信頼度３７は、たとえば音声認識装置１０の記憶手段３０に記憶される。識別的学習手段１２３は、整列処理の結果に加え、単語信頼度３７に基づき、識別的に学習を行って第２言語モデル３５を生成または更新する。

単語信頼度を求める方法としては多数のものが公知である。一例として、ある時刻におけるある特定候補の尤度が、その時刻における全候補の尤度の和において占める比率を、その特定候補の単語信頼度として用いることができる。たとえば、時刻ｔにおける各単語候補をｗ_ｔ ^ｉ（１≦ｉ≦Ｉ）としたときに、各単語候補の尤度ｐ（ｗ_ｔ ^ｉ）を用いて、

と表すことができる。

単語信頼度の高い誤りの方が単語信頼度の低い誤りよりも深刻であると考えられるので、単語信頼度に基づいて割引率を変えることができる。例えば以下の式（７）のように計算する。

ν_ｔは単語信頼度であり、０≦ν_ｔ≦１である。

不正解の単語が最大の信頼度（たとえばν_ｔ＝1）を持つ場合には、最大の重み（たとえば１）をもって学習される。一方で、不正解の単語が最小の信頼度（たとえばν_ｔ＝０）を持つ場合には、その単語による学習はあまり効果的でないと考えられるので、正解と同じように割り引いた重み（たとえば１−β）をもって学習される。

このように、実施の形態３では、候補列の各単語はそれぞれ信頼度を有し、第２言語モデル３５は、より高い信頼度を有する単語がより重点的となるよう学習される。

このような構成により、同じ単語の誤りであっても異なった重みをもって学習させ、とくに、深刻なものをより大きな重みで学習させることができる。以上のように、単語信頼度を用いた学習により、認識誤りの重大性に応じた学習を行うことができる。

なお、図９では実施の形態２と同様に重みづけ手段２５および元の言語モデル３６が設けられているが、実施の形態１と同様にこれらを設けないことも可能である。

実施の形態４．
実施の形態１および２では、学習の結果を言語モデルレベルで統合した。これに対し、実施の形態４では、学習の結果を認識結果レベルで統合する。

実施の形態４に係る構成を図１０に示す。実施の形態１および２におけるリスコアリング手段２４に代えて、第１リスコアリング手段２２４および第２リスコアリング手段２２５が設けられる。音声認識装置１０の演算手段２０が第１リスコアリング手段２２４および第２リスコアリング手段２２５として機能してもよい。

第１リスコアリング手段２２４は、元の言語モデル３６に基づき、Ｎ−ｂｅｓｔ認識結果３３をリスコアリングして並び替えたＮ−ｂｅｓｔ認識結果２７０（第１の結果）を得る。第２リスコアリング手段２２５は、識別的に学習された第２言語モデル３５に基づき、Ｎ−ｂｅｓｔ認識結果３３をリスコアリングして並び替えたＮ−ｂｅｓｔ認識結果２７１（第２の結果）を得る。並び替えたＮ−ｂｅｓｔ認識結果２７０および２７１は、音声認識装置１０の記憶手段３０に記憶されてもよい。

また、実施の形態４では、結果統合手段２６が設けられる。音声認識装置１０の演算手段２０が結果統合手段２６として機能してもよい。結果統合手段２６は、並び替えたＮ−ｂｅｓｔ認識結果２７０および２７１を統合し、最終的な並び替えたＮ−ｂｅｓｔ認識結果７０を得る。

統合は、例えば各候補をスコアに基づいて比較し、スコアが高い候補を選択することにより行われてもよい。

または、統合は、多数決により行われてもよい。多数決の具体的な適用方法は任意に設計可能であるが、たとえば３つ以上のシステムを使った多数決を採用してもよく、各システムがそれぞれ異なる候補を出力した場合には、スコアで比較してもよい。

また、統合の際に、いずれかの言語モデルのスコアを適当に割り引いておいてもよい。たとえば、あまり信頼できないことがわかっている言語モデルに対しては、各候補のスコアに1より小さい重み(例えば０．８)を掛けてから、各候補をスコアに基づいて比較し統合してもよい。

もちろん、このような統合処理は、実施の形態３のように単語信頼度を用いた構成にも同様に適用できる。

以上のように、複数の言語モデルを使って独立にリスコアリングを行うことで、単一の（または平均化された）言語モデルを使った場合よりも、頑健にリスコアリングが行える。

実施の形態５．
実施の形態５は、言語モデルの識別的学習に、不正解仮説のみを用いる構成である。

実施の形態１〜４では、正解の候補および不正解の候補の双方を用いて学習を行った。しかしながら、より簡便に識別的学習の効果を得るためには、不正解仮説のみから学習した言語モデルを使用することが考えられる。

実施の形態５に係る構成を図１１に示す。実施の形態２のアライメント手段２２に代えてアライメント手段３２２が設けられる。アライメント手段３２２は、Ｎ−ｂｅｓｔ認識結果３３から不正解候補３８を抽出して整列させる。

実施の形態２の識別的学習手段２３に代えて、モデル学習手段３２３が設けられる。モデル学習手段３２３は、整列処理の結果に基づき、不正解候補３８を用いて学習を行い、第２言語モデル３３５を生成または更新する。この学習処理自体は、識別的手法に従って行われる必要はない。たとえば、モデル学習手段３２３は、式（３）に従い、NNのパラメータを更新することにより学習を行う。

また、実施の形態２の重みづけ手段２５に代えて、重みづけ手段３２５が設けられる。重みづけ手段３２５は、不正解候補を出力するパラメータにペナルティを課すように、元の言語モデル３６のパラメータと、第２言語モデル３３５のパラメータとを重み付け平均する。たとえば、重みづけ手段３２５は、第２言語モデル３３５のパラメータが負になるように(すなわち式（６）のτが１より大きくなるように)重みづけする。

ここで、言語モデルの学習自体は識別的ではなかったとしても、元の言語モデルと、不正解候補により学習した言語モデルとを組み合わせることにより、音声認識装置１０は全体として識別的な学習を行っているということができる。

音声認識装置１０の演算手段２０が、アライメント手段３２２、モデル学習手段３２３および重みづけ手段３２５として機能してもよい。また、不正解候補３８および第２言語モデル３３５は、音声認識装置１０の記憶手段３０に記憶されてもよい。

以上のように、元の言語モデル３６に加え、不正解候補のみから学習した第２言語モデル３３５を使用することで、言語モデル学習の方法を変えないまま、簡便に識別的学習の効果を得ることができる。

実施の形態６．
実施の形態１では、音声認識用の第１言語モデル３２は識別的学習の対象とならない。これに対し、実施の形態６では、ＲＮＮ−ＬＭを用いて、音声認識用の言語モデルを学習する。

実施の形態６に係る構成を図１２に示す。実施の形態６では、実施の形態１の識別的学習手段２３に代えて識別的学習手段４２３が設けられる。識別的学習手段４２３は、アライニング処理の結果に基づき、識別的に学習を行って言語モデル４３２を更新する。また、実施の形態１の認識手段２１に代えて認識手段４２１が設けられる。認識手段４２１は、識別的に学習された言語モデル４３２に基づき、音声認識を行ってＮ−ｂｅｓｔ認識結果３３を出力する。

このような構成によっても、実施の形態１と同様に、識別的学習による効果を得ることができる。

Claims

識別的に学習された言語モデルを記憶した音声認識装置であって、
前記識別的に学習された言語モデルは、学習データに基づき、正解列またはＮ−ｂｅｓｔ認識結果を用いて学習が行われたものであり、
前記識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、
前記識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである、
音声認識装置。
前記音声認識装置は、元の言語モデルのパラメータと、前記識別的に学習された言語モデルのパラメータとの重みづけ平均を取り、
前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
請求項１に記載の音声認識装置。
前記候補列の各単語はそれぞれ信頼度を有し、
前記識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習される、
請求項１に記載の音声認識装置。
前記音声認識装置は、元の言語モデルに基づいて、候補列を含む第１の結果を取得し、
前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
前記識別的に学習された言語モデルに基づいて、候補列を含む第２の結果を取得し、
前記第１の結果および前記第２の結果を統合する、
請求項１に記載の音声認識装置。
識別的に学習された言語モデルを用いて、音声認識の候補列をリスコアリングする、リスコアリング装置であって、
前記識別的に学習された言語モデルは、学習データに基づき、正解列またはＮ−ｂｅｓｔ認識結果を用いて学習が行われたものであり、
前記識別的に学習された言語モデルは、正解列と候補列との単語単位でのアライメントに基づいて正解の認識結果よりも不正解の認識結果に大きい重みを置いて学習され、
前記識別的に学習された言語モデルは、リカレントニューラルネットワークに基づいて構成されたものである、
リスコアリング装置。
前記音声認識装置は、元の言語モデルのパラメータと、前記識別的に学習された言語モデルのパラメータとの重みづけ平均を取り、
前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
請求項５に記載のリスコアリング装置。
前記候補列の各単語はそれぞれ信頼度を有し、
前記識別的に学習された言語モデルは、より高い信頼度を有する単語がより重点的となるよう学習される、
請求項５に記載のリスコアリング装置。
前記音声認識装置は、元の言語モデルに基づいて、候補列を含む第１の結果を取得し、
前記元の言語モデルは、前記元の言語モデルに対して識別的学習が実行されることにより、前記識別的に学習された言語モデルが生成される、元の言語モデルであり、
前記識別的に学習された言語モデルに基づいて、候補列を含む第２の結果を取得し、
前記第１の結果および前記第２の結果を統合する、
請求項５に記載のリスコアリング装置。