JP2020034625A

JP2020034625A - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP2020034625A
Application number: JP2018158780A
Authority: JP
Inventors: 智大田中; Tomohiro Tanaka; 亮増村; Akira Masumura
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2020-03-05
Also published as: WO2020044755A1

Abstract

【課題】音声認識の精度を高めることが可能な音声認識装置を提供する。【解決手段】音声認識装置１００は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部１１０と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部１２０と、を備える。【選択図】図１

Description

本発明は、音声認識装置、音声認識方法、及びプログラムに関する。

音声認識装置において、音声認識の過程で得られる複数の音声認識結果候補をリスコアリングすることで、音声認識の精度を高められることが知られている。特に、過去の文脈を考慮することが可能なＲＮＮ（リカレントニューラルネットワーク）による言語モデルを用いたリスコアリングが広く知られている（非特許文献１参照）。

ＲＮＮ言語モデルは、例えば、音声認識結果候補の単語系列
W={w₁,w₂,…,w_s,…w_S}を入力とし、音声認識結果候補の単語系列W={w₁,w₂,…,w_s,…w_S}に含まれる単語w_sの次に出現する単語w_s+1の生起確率O_s+1を出力とするモデルである。音声認識結果候補の単語系列に含まれる全ての単語の生起確率の総積が、この音声認識結果候補の単語系列に対応するスコアとなる。

ＲＮＮ言語モデルにおいて、まず、次式（１）に示すように単語w_sが単語の分散表現E_sに変換される。単語の分散表現とは、単語を単語ベクトルで表すことである。
EMBEDDING()は、単語を単語ベクトルに変換する機能を持つ関数であり、例えば、線形変換の関数などを適用することができる。

次に、次式（２）に示すように単語の分散表現E_sと過去の固定長の連続値ベクトルh_s-1とがＮＮに入力される。
NN()は、可変長の連続値ベクトルを固定長の連続値ベクトルに変換する機能を持つ関数である。

次に、次式（３）に示すように固定長の連続値ベクトルh_sが識別関数に入力されて、単語w_s+1の生起確率O_s+1が計算される。
DISTRIBUTE()は、固定長の連続値ベクトルに基づいて、全ての単語の生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。

また、近年、入力された音声を単語や文字などのシンボル系列に直接変換可能なend-to-end音声認識に関する研究が盛んに行われている。特に、可変長の系列を入力として可変長の系列を出力とすることが可能なsequence-to-sequenceモデルを用いた手法（非特許文献２参照）が、高い精度を示すことが知られている。

sequence-to-sequenceモデルは、例えば、音声信号から得られる音響特徴量系列X={x₁,x₂,…,x_t,…x_T}を入力とし、単語や文字のシンボルの系列W={w₁,w₂,…,w_s,…w_S}を音声認識結果として出力するモデルである。

sequence-to-sequenceモデルにおいて、まず、次式（４）に示すように音響特徴量系列X={x₁,x₂,…,x_t,…x_T}が１つの分散表現C_sに変換される。
ＮＮには、一般的にＲＮＮが用いられるが、構造の一つとして注意機構を利用することも可能である（非特許文献３参照）。

次に、次式（５）に示すように音声認識結果シンボルw_sが分散表現E_sに変換される。

次に、次式（６）に示すように音声認識結果シンボルの分散表現E_s、音響特徴量の分散表現C_s、及び固定長の連続値ベクトルh_s-1が、ＮＮに入力される。

次に、次式（７）に示すように固定長の連続値ベクトルh_sが識別関数に入力されて、シンボルw_s+1の生起確率O_s+1が計算される。
始端シンボルが出力されてから終端シンボルが出力されるまで生起確率が繰り返し計算され、その間に出力されたシンボル系列W={w₁,w₂,…,w_s,…w_S}が、音声認識結果となる。

Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur, "Recurrent Neural Network Based Language Model", In Proc. INTERSPEECH, pp. 1045-1048, 2010. J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, "Attention-Based Models for Speech Recognition," in Proc. NIPS, 2015. pp. 577-585.. Minh-Thang Luong, Hieu Pham, Christopher D. Manning, "Effective Approaches to Attention-based Neural Machine Translation", In Proc. EMNLP, pp. 1412-1421, 2015.

ところで、音声認識装置において、従来のようにＲＮＮ言語モデルを用いて、複数の音声認識結果候補をリスコアリングする場合、文脈を考慮してスコアを計算することはできるものの、実際に入力される音声を考慮してスコアを計算することはできなかった。このため、従来の音声認識装置では、リスコアリングの精度が不十分であり、音声認識の精度を高めることが困難であるという問題があった。

上記のような問題点に鑑みてなされた本発明の目的は、音声認識の精度を高めることが可能な音声認識装置、音声認識方法、及びプログラムを提供することにある。

上記課題を解決するため、本発明に係る音声認識装置は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係る音声認識方法は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、を含むことを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の音声認識装置として機能させることを特徴とする。

本発明によれば、音声認識の精度を高めることが可能な音声認識装置を提供できる。

本実施形態に係る音声認識装置の構成の一例を示す図である。本実施形態に係る音声認識方法の一例を示すフローチャートである。本実施形態に係る追加スコア計算部の構成の一例を示す図である。本実施形態に係る追加スコア計算部の計算方法の一例を示すフローチャートである。本実施形態に係るＮ＝３の場合の処理結果の一例を示す図である。本実施形態に係る計算モデルを学習する学習部の構成の一例を示す図である。

以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。

＜音声認識装置１００の構成＞
図１及び図２を参照して、本実施形態に係る音声認識装置の構成及び音声認識方法について説明する。図１は、本実施形態に係る音声認識装置の構成の一例を示す図である。図２は、本実施形態に係る音声認識方法の一例を示すフローチャートである。

図１に示すように、音声認識装置１００は、追加スコア計算部（スコア計算部）１１０と、音声認識結果候補順位付け部（順位付け部）１２０と、を備える。

音声認識装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。音声認識装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置１００が備える各記憶部は、例えば、RAMなどの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声認識装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、音声認識装置１００の外部に備える構成としてもよい。

以下、本明細書において、「スコア」とは、音声認識の過程で得られる音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す値を意味するものとする。
また、「追加スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、追加スコア計算部１１０によって、計算モデルを用いて計算されるスコアを意味するものとする。
また、「音声認識スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識部（不図示）などによって、予め計算されたスコアを意味するものとする。
また、「新スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識結果候補順位付け部１２０によって、追加スコアと音声認識スコアとが、重み付け加算されるスコアを意味するものとする。

追加スコア計算部１１０は、計算モデルを用いて、音声認識装置１００に実際に入力される音声を表す音声信号から得られる音響特徴量系列、及び音声信号に対する複数（例えば、Ｎ（≧２）個）の音声認識結果候補のシンボル系列に基づいて、複数の音声認識結果に対応する複数（例えば、Ｎ（≧２）個）の追加スコアを計算する（図２に示すステップＳ１１０参照）。そして、追加スコア計算部１１０は、複数の追加スコアを、音声認識結果候補順位付け部１２０へと出力する。

計算モデルは、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、追加スコアを出力とするモデルである。計算モデルは、例えば、ＲＮＮに基づいて構成される。

音声認識結果候補順位付け部１２０は、追加スコア計算部１１０から入力される複数の追加スコアに基づいて、複数の音声認識結果候補を順位付けする（図２に示すステップＳ１２０参照）。例えば、音声認識結果候補順位付け部１２０は、追加スコア計算部１１０から取得した複数の音声認識結果候補に対応する追加スコアと、音声認識部（不図示）から取得した複数の音声認識結果候補に対応する音声認識スコアとを、それぞれ重み付け加算した複数（例えば、Ｎ（≧２）個）の新スコアに基づいて、複数の音声認識結果候補を順位付けする。

具体的には、音声認識結果候補順位付け部１２０は、次式（８）に示すように、音声認識スコアS_ASR、追加スコアS_ADD、追加スコアの重みλ（０＜λ≦１）、に基づいて、新スコアS_NEWを計算する。なお、追加スコアの重みλ（０＜λ≦１）は、適宜調整される。

例えば、Ｎ＝３の場合、音声認識結果候補順位付け部１２０は、３個の新スコアS_{NEW_1}、S_{NEW_2}、S_{NEW_3}を計算し、３個の新スコアに基づいて、３個の音声認識結果候補を順位付けする。
１個目の音声認識結果候補が「今日の天気は晴れ」、重みλ（０＜λ≦１）が「０．５」、１個目の音声認識結果候補に対応する追加スコアS_{ADD_1}が「０．９」、１個目の音声認識結果候補に対応する音声認識スコアS_{ASR_1}が「０．７」である場合、音声認識結果候補順位付け部１２０は、１個目の音声認識結果候補「今日の天気は晴れ」に対応する新スコアS_{NEW_1}を、式（８）に従い「０．８」と計算する。
２個目の音声認識結果候補が「昨日の天気は晴れ」、重みλ（０＜λ≦１）が「０．５」、２個目の音声認識結果候補に対応する追加スコアS_{ADD_2}が「０．６」、２個目の音声認識結果候補に対応する音声認識スコアS_{ASR_2}が「０．８」である場合、音声認識結果候補順位付け部１２０は、２個目の音声認識結果候補「昨日の天気は晴れ」に対応する新スコアS_{NEW_2}を、式（８）に従い「０．７」と計算する。
３個目の音声認識結果候補「昨日の天気は雨」、重みλ（０＜λ≦１）が「０．５」、３個目の音声認識結果候補に対応する追加スコアS_{ADD_3}が「０．４」、３個目の音声認識結果候補に対応する音声認識スコアS_{ASR_3}が「０．５」である場合、音声認識結果候補順位付け部１２０は、３個目の音声認識結果候補「昨日の天気は雨」に対応する新スコアS_{NEW_3}を、式（８）に従い「０．４５」と計算する。

そして、音声認識結果候補順位付け部１２０は、１個目の音声認識結果候補に対応する新スコアS_{NEW_1}が「０．８」、２個目の音声認識結果候補に対応する新スコアS_{NEW_2}が「０．７」、３個目の音声認識結果候補に対応する新スコアS_{NEW_3}が「０．４５」、という結果に基づいて、１個目の音声認識結果候補「今日の天気は晴れ」の順位が１位、２個目の音声認識結果候補「昨日の天気は晴れ」の順位が２位、３個目の音声認識結果候補「昨日の天気は雨」の順位が３位というように、３個（Ｎ＝３）の音声認識結果候補を順位付けする。

更に、音声認識結果候補順位付け部１２０は、３個の音声認識結果候補の順位と共に、３個の音声認識結果候補の順位に対応させて、昇順或いは降順に並び替えられた音声認識結果候補を出力する。例えば、音声認識結果候補順位付け部１２０は、１個目の音声認識結果候補の順位１位に対応させて、「今日の天気は晴れ」を出力し、２個目の音声認識結果候補の順位２位に対応させて、「昨日の天気は晴れ」を出力し、３個目の音声認識結果候補の順位３位に対応させて、「昨日の天気は雨」を出力する。

ここで、重みλ＝１の場合、音声認識結果候補順位付け部１２０は、次式（９）に示すように、追加スコアS_ADDに基づいて、新スコアS_NEWを計算する。
例えば、Ｎ＝３の場合、音声認識結果候補順位付け部１２０は、３個の新スコアS_{NEW_1}、S_{NEW_2}、S_{NEW_3}（追加スコアS_{ADD_1}、S_{ADD_2}、S_{ADD_3}）を計算し、３個の新スコアに基づいて、３個の音声認識結果候補を順位付けする。

上述した例では、１個目の音声認識結果候補に対応する新スコア（＝追加スコア）S_{NEW_1}が「０．９」、２個目の音声認識結果候補に対応する新スコア（＝追加スコア）S_{NEW_2}が「０．６」、３個目の音声認識結果候補に対応する新スコア（＝追加スコア）S_{NEW_3}が「０．４」、という結果に基づいて、１個目の音声認識結果候補「今日の天気は晴れ」の順位が１位、２個目の音声認識結果候補「昨日の天気は晴れ」の順位が２位、３個目の音声認識結果候補「昨日の天気は雨」の順位が３位というように、３個（Ｎ＝３）の音声認識結果候補を順位付けする。

＜追加スコア計算部１１０の構成＞
次に、図３及び図４を参照して、追加スコア計算部１１０の構成及び計算方法について詳細に説明する。図３は、追加スコア計算部１１０の構成の一例を示す図である。図４は、追加スコア計算部１１０の計算方法の一例を示すフローチャートである。

図３に示すように、追加スコア計算部１１０は、音声分散表現系列変換部（第１変換部）１１１と、シンボル系列スコア計算部１１２と、を備える。更に、シンボル系列スコア計算部１１２は、シンボル分散表現系列変換部（第２変換部）１１２１と、シンボル系列生起確率計算部（生起確率計算部）１１２２と、を備える。

[音声分散表現系列変換部１１１]
音声分散表現系列変換部１１１の入力及び出力は以下のとおりである。
入力：音声信号から得られる音響特徴量系列X={x₁,x₂,…,x_t,…x_T}、
音声信号に対する音声認識結果候補のシンボル系列W={w₁,w₂,…,w_s,…w_S}
出力：音声分散表現C_s=NN{x₁,x₂,…,x_t,…x_T,w_s}

音声分散表現系列変換部１１１は、音響特徴量系列Ｘを、１つの分散表現に変換する（図４に示すステップＳ１１１参照）。音響特徴量系列Ｘの分散表現（音声分散表現）C_sは、次式（１０）のように表すことができる。

[シンボル系列スコア計算部１１２]
シンボル系列スコア計算部１１２の入力及び出力は以下のとおりである。
入力：音声分散表現C_s=NN{x₁,x₂,…,x_t,…x_T,w_s}、
音声信号に対する音声認識結果候補のシンボル系列W={w₁,w₂,…,w_s,…w_S}
出力：追加スコアS_ADD

シンボル分散表現系列変換部１１２１は、音声認識結果候補のシンボル系列を、分散表現に変換する（図４に示すステップＳ１１２１参照）。音声認識結果候補のシンボル系列W={w₁,w₂,…,w_s,…w_S}に含まれるシンボルw_sの分散表現（音声認識結果候補分散表現）E_sは、次式（１１）のように表すことができる。

シンボル系列生起確率計算部１１２２は、音声分散表現C_s及び音声認識結果候補分散表現E_sを用いて、音声認識結果候補のシンボル系列に含まれるシンボルの生起確率を計算する（図４に示すステップＳ１１２２参照）。音声認識結果候補のシンボル系列W={w₁,w₂,…,w_s,…w_S}に含まれるシンボルw_s+1の生起確率O_s+1は、次式（１２）で求められるh_sを用いて次式（１３）のように表すことができる。
ここで、h_sは連続値ベクトルであり、O_s+1は登録している全てのシンボルの生起確率を表す出力である。DISTRIBUTE()は、固定長ベクトルに基づいて、全てのシンボルの生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。

シンボル系列生起確率計算部１１２２は、始端シンボルから終端シンボルまで、生起確率を繰り返し計算し、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率を計算する。

そして、シンボル系列生起確率計算部１１２２は、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、この音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。
更に、シンボル系列生起確率計算部１１２２は、複数の音声認識結果候補のシンボル系列の全てに対して、それぞれの音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、それぞれの音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。

例えば、シンボル系列生起確率計算部１１２２は、１個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、１個目の音声認識結果候補のシンボル系列に対応する追加スコアS_{ADD_1}として計算する。
例えば、シンボル系列生起確率計算部１１２２は、２個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、２個目の音声認識結果候補のシンボル系列に対応する追加スコアS_{ADD_2}として計算する。
例えば、シンボル系列生起確率計算部１１２２は、３個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、３個目の音声認識結果候補のシンボル系列に対応する追加スコアS_{ADD_3}として計算する。

上述の構成を有する追加スコア計算部１１０によれば、文脈を考慮して追加スコアを計算するのみならず、実際に入力される音声を考慮して追加スコアを計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置１００を実現できる。

＜音声認識結果候補が３個（Ｎ＝３）である場合の具体例＞
図５は、音声認識結果候補が３個（Ｎ＝３）である場合における音声認識装置１００の処理結果の一例を示す図である。

１個目の音声認識結果候補シンボル系列が「今日の天気は晴れ」、２個目の音声認識結果候補シンボル系列が「昨日の天気は晴れ」、３個目の音声認識結果候補シンボル系列が「昨日の天気は雨」であるとする。

１個目の音声認識結果候補シンボル系列の音声認識スコアS_{ASR_1}が「０．７」、２個目の音声認識結果候補シンボル系列の音声認識スコアS_{ASR_2}が「０．８」、３個目の音声認識結果候補シンボル系列の音声認識スコアS_{ASR_3}が「０．５」であるとする。

追加スコア計算部１１０は、計算モデルを用いて、１個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアS_{ADD_1}＝０．９を計算する。
追加スコア計算部１１０は、計算モデルを用いて、２個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアS_{ADD_2}＝０．６を計算する。
追加スコア計算部１１０は、計算モデルを用いて、３個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアS_{ADD_3}＝０．４を計算する。

音声認識結果候補順位付け部１２０は、重みλ＝０．５、音声認識スコアS_{ASR_1}＝０．７、追加スコアS_{ADD_1}＝０．９に基づいて、新スコアS_{NEW_1}＝（１−λ）×S_{ASR_1}＋λ×S_{ADD_1}＝（１−０．５）×０．７＋０．５×０．９＝０．８を計算する。

音声認識結果候補順位付け部１２０は、重みλ＝０．５、音声認識スコアS_{ASR_2}＝０．８、追加スコアS_{ADD_2}＝０．６に基づいて、新スコアS_{NEW_2}＝（１−λ）×S_{ASR_2}＋λ×S_{ADD_2}＝（１−０．５）×０．８＋０．５×０．６＝０．７を計算する。

音声認識結果候補順位付け部１２０は、重みλ＝０．５、音声認識スコアS_{ASR_3}＝０．５、追加スコアS_{ADD_3}＝０．４に基づいて、新スコアS_{NEW_3}＝（１−λ）×S_{ASR_3}＋λ×S_{ADD_3}＝（１−０．５）×０．５＋０．５×０．４＝０．４５を計算する。

更に、音声認識結果候補順位付け部１２０は、３個の音声認識結果候補の順位付けを行い、１個目の音声認識結果候補「今日の天気は晴れ」の順位が１位、２個目の音声認識結果候補「昨日の天気は晴れ」の順位が２位、３個目の音声認識結果候補「昨日の天気は雨」の順位が３位というように、３個（Ｎ＝３）の音声認識結果候補を順位付けする。

上述したように、本実施形態に係る音声認識装置１００によれば、追加スコア計算部１１０により、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の音声認識結果候補に対応する複数の追加スコアを計算する。そして、音声認識結果候補順位付け部１２０により、追加スコア計算部１１０によって計算された精度の高い複数の追加スコアS_ADDに基づいて、複数の音声認識結果候補を順位付けする。これにより、複数の音声認識結果候補の高精度なリランキングが可能になるため、音声認識の精度を高めることが可能な音声認識装置１００を実現できる。

＜学習部２１０＞
次に、図６を参照して、上述の計算モデルを学習する学習部２１０について説明する。

学習部２１０は、例えば、Ｐ個の学習用の音響特徴量系列と、Ｐ個の組Ｓ_Ｐ(例えば、１つの組Ｓ_Ｐには、Ｑ_Ｐ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とが含まれるものとする)とに基づいて、計算モデルを学習する。

ｐ＝１，２，…，Ｐとして、ｐ番目の組を組Ｓ_ｐとすると、Ｑ_ｐは、ｐ番目の組Ｓ_ｐにおいて、所定の音声信号に対して推定される全ての学習用の音声認識結果候補のシンボル系列の個数を表すものとする。
例えば、１番目の組Ｓ_１には、Ｑ_１個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、２番目の組Ｓ_２には、Ｑ_２個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、ｐ番目の組Ｓ_ｐには、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とが含まれる。

なお、Ｑ_ｐは、１以上の整数の何れかである。また、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列には、少なくとも、学習用の正解の音声認識結果のシンボル系列とは異なる学習用の音声認識結果候補のシンボル系列が含まれることが好ましい。また、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列には、学習用の正解の音声認識結果のシンボル系列が含まれていてもよいし、含まれていなくてもよい。

学習用の音声認識結果候補のシンボル系列は、学習部２１０が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる候補文のシンボル系列などである。

学習用の正解の音声認識結果のシンボル系列は、学習部２１０が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる正解文のシンボル系列などである。

学習用の音響特徴量系列は、学習部２１０が、計算モデルを学習するための学習データであり、例えば、テレビ番組の音声、会議音声、取材音声等を表す音声信号から得られる音響特徴量系列などである。

ここで、学習部２１０に入力される学習データの組み合わせ（学習用の音声認識結果候補のシンボル系列と学習用の正解の音声認識結果のシンボル系列との組み合わせ）の一例について説明する。

（１）組Ｓ_ｐとして、１個の学習用の音声認識結果候補のシンボル系列が入力される場合
例えば、学習部２１０には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するＱ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から選択された１個の学習用の音声認識結果候補のシンボル系列、及び、１個の学習用の正解の音声認識結果のシンボル系列が入力される。
学習部２１０は、学習用の音響特徴量系列、及び、１個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、１個の学習用の音声認識結果候補のシンボル系列について、１個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。

この場合、学習部２１０は、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から、１個の学習用の音声認識結果候補のシンボル系列のみを学習に使用する。学習部２１０が、学習に使用する１個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアS_ASRの最も大きいものが選択されてもよい。或いは、学習部２１０が、学習に使用する１個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアS_ASRの最も小さいものが選択されてもよい。

（２）組Ｓ_ｐとして、複数の学習用の音声認識結果候補のシンボル系列が別々に入力される場合
例えば、学習部２１０には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するＱ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から選択されたＬ個の学習用の音声認識結果候補のシンボル系列、及び、１個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Ｌは、１≦Ｌ≦Ｑ_ｐの整数である。
学習部２１０は、学習用の音響特徴量系列、及び、Ｌ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、まず、Ｌ個の学習用の音声認識結果候補のシンボル系列の中から選択された１個の学習用の音声認識結果候補のシンボル系列について、１個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
そして、学習部２１０は、学習用の音響特徴量系列、及び、Ｌ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、順次、Ｌ個の学習用の音声認識結果候補のシンボル系列の中から選択された１個の学習用の音声認識結果候補のシンボル系列について、１個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。

この場合、学習部２１０は、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から、Ｌ個の学習用の音声認識結果候補のシンボル系列を順次学習に使用する。学習部２１０が、学習に使用するＬ個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアS_ASRの大きいものから順に、Ｌ個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。或いは、学習部２１０が、学習に使用するＬ個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアS_ASRの小さいものから順に、Ｌ個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。

（３）組Ｓ_ｐとして、複数の学習用の音声認識結果候補のシンボル系列がまとめて入力される場合
例えば、学習部２１０には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するＱ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から選択されたＬ個の学習用の音声認識結果候補のシンボル系列がまとまったもの、及び、１個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Ｌは、１≦Ｌ≦Ｑ_ｐの整数である。
学習部２１０は、学習用の音響特徴量系列、及び、Ｌ個の学習用の音声認識結果候補のシンボル系列の全てと１個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、Ｌ個の学習用の音声認識結果候補のシンボル系列の全てについて、１個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。

この場合、学習部２１０は、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中から、Ｌ個の学習用の音声認識結果候補のシンボル系列をまとめて学習に使用する。学習部２１０が、学習に使用するＬ個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中で、Ｌ個の学習用の音声認識結果候補のシンボル系列の音声認識スコアS_ASRが大きいものからまとめて選択されてもよい。或いは、学習部２１０が、学習に使用するＬ個の学習用の音声認識結果候補のシンボル系列として、例えば、Ｑ_ｐ個の学習用の音声認識結果候補のシンボル系列の中で、Ｌ個の学習用の音声認識結果候補のシンボル系列の音声認識スコアS_ASRが小さいものからまとめて選択されてもよい。なお、Ｌ個のまとまった学習用の音声認識結果候補のシンボル系列としては、例えば、コンフュージョンネットワークなどを適用できる。

＜学習部２１０の構成＞
次に、図６を参照して、学習部２１０の構成の一例について説明する。
学習部２１０は、例えば、音声分散表現系列変換部２１１と、音声認識結果候補分散表現系列変換部２１２と、モデル学習部２１３と、を備える。

[音声分散表現系列変換部２１１]
音声分散表現系列変換部２１１の入力及び出力は以下のとおりである。
入力：Ｐ個の学習用の音響特徴量系列、
Ｐ個の組（例えば、Ｑ_Ｐ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とを含む組）
出力：音声分散表現

音声分散表現系列変換部２１１は、Ｐ個の学習用の音響特徴量系列を、音声分散表現に変換する。

[音声認識結果候補分散表現系列変換部２１２]
音声認識結果候補分散表現系列変換部２１２の入力及び出力は以下のとおりである。
入力：Ｐ個の組（例えば、Ｑ_Ｐ個の学習用の音声認識結果候補のシンボル系列と１個の学習用の正解の音声認識結果のシンボル系列とを含む組）
出力：音声認識結果候補分散表現

音声認識結果候補分散表現系列変換部２１２は、Ｐ×Ｑ_Ｐ個の学習用の音声認識結果候補のシンボル系列を、音声認識結果候補分散表現に変換する。
同様に、音声認識結果候補分散表現系列変換部２１２は、Ｐ個の学習用の正解の音声認識結果のシンボル系列を、音声認識結果候補分散表現に変換する。

[モデル学習部２１３]
モデル学習部２１３の入力及び出力は以下のとおりである。
入力：音声分散表現、
音声認識結果候補分散表現
出力：計算モデル

モデル学習部２１３は、Ｐ個の学習用の音響特徴量系列に対応する音声分散表現、Ｐ×Ｑ_Ｐ個の学習用の音声認識結果候補のシンボル系列に対応する音声認識結果候補分散表現、Ｐ個の学習用の正解の音声認識結果のシンボル系列に対応する音声認識結果候補分散表現、に基づいて、計算モデルを学習する。

即ち、従来のＲＮＮ言語モデルは、テキストデータのみを入力として学習が行われていたが、本実施形態に係る計算モデルは、テキストデータ及び実際の音声を入力として学習が行われる。当該計算モデルを適用することで、追加スコア計算部１１０は、複数の音声認識結果候補に対応する追加スコアを高精度に計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置１００を実現できる。

＜変形例＞
本実施形態では、詳細な説明は省略しているが、音声認識装置１００は、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることが可能である。また、図示しない音声認識部の構成は、特に限定されるものではなく、音声信号から音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１００音声認識装置
１１０追加スコア計算部（スコア計算部）
１１１音声分散表現系列変換部（第１変換部）
１２０音声認識結果候補順位付け部（順位付け部）
２１０学習部
２１１音声分散表現系列変換部
２１２音声認識結果候補分散表現系列変換部
２１３モデル学習部
１１２１シンボル分散表現系列変換部（第２変換部）
１１２２シンボル系列生起確率計算部（生起確率計算部）

Claims

音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、
複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、
を備える、音声認識装置。
前記スコア計算部は、
前記音響特徴量系列を分散表現に変換して音声分散表現を出力する第１変換部と、
前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力する第２変換部と、
前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算する生起確率計算部と、
を備える、請求項１に記載の音声認識装置。
前記順位付け部は、音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
請求項１又は２に記載の音声認識装置。
前記計算モデルは、リカレントニューラルネットワークに基づいて構成される、
請求項１から３のいずれか一項に記載の音声認識装置。
音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、
複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、
を含む、音声認識方法。
前記追加スコアを計算するステップは、
前記音響特徴量系列を分散表現に変換して音声分散表現を出力するステップと、
前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力するステップと、
前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算するステップと、
を含む、請求項５に記載の音声認識方法。
前記音声認識結果候補を順位付けするステップは、
音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
請求項５又は６に記載の音声認識方法。
コンピュータを、請求項１から４のいずれか一項に記載の音声認識装置として機能させるプログラム。