JP2020034625A - 音声認識装置、音声認識方法、及びプログラム - Google Patents

音声認識装置、音声認識方法、及びプログラム Download PDF

Info

Publication number
JP2020034625A
JP2020034625A JP2018158780A JP2018158780A JP2020034625A JP 2020034625 A JP2020034625 A JP 2020034625A JP 2018158780 A JP2018158780 A JP 2018158780A JP 2018158780 A JP2018158780 A JP 2018158780A JP 2020034625 A JP2020034625 A JP 2020034625A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition result
learning
score
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018158780A
Other languages
English (en)
Inventor
智大 田中
Tomohiro Tanaka
智大 田中
亮 増村
Akira Masumura
亮 増村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018158780A priority Critical patent/JP2020034625A/ja
Priority to PCT/JP2019/025187 priority patent/WO2020044755A1/ja
Publication of JP2020034625A publication Critical patent/JP2020034625A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声認識の精度を高めることが可能な音声認識装置を提供する。【解決手段】音声認識装置100は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部110と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部120と、を備える。【選択図】図1

Description

本発明は、音声認識装置、音声認識方法、及びプログラムに関する。
音声認識装置において、音声認識の過程で得られる複数の音声認識結果候補をリスコアリングすることで、音声認識の精度を高められることが知られている。特に、過去の文脈を考慮することが可能なRNN(リカレントニューラルネットワーク)による言語モデルを用いたリスコアリングが広く知られている(非特許文献1参照)。
RNN言語モデルは、例えば、音声認識結果候補の単語系列
W={w1,w2,…,ws,…wS}を入力とし、音声認識結果候補の単語系列W={w1,w2,…,ws,…wS}に含まれる単語wsの次に出現する単語ws+1の生起確率Os+1を出力とするモデルである。音声認識結果候補の単語系列に含まれる全ての単語の生起確率の総積が、この音声認識結果候補の単語系列に対応するスコアとなる。
RNN言語モデルにおいて、まず、次式(1)に示すように単語wsが単語の分散表現Esに変換される。単語の分散表現とは、単語を単語ベクトルで表すことである。
EMBEDDING()は、単語を単語ベクトルに変換する機能を持つ関数であり、例えば、線形変換の関数などを適用することができる。
次に、次式(2)に示すように単語の分散表現Esと過去の固定長の連続値ベクトルhs-1とがNNに入力される。
NN()は、可変長の連続値ベクトルを固定長の連続値ベクトルに変換する機能を持つ関数である。
次に、次式(3)に示すように固定長の連続値ベクトルhsが識別関数に入力されて、単語ws+1の生起確率Os+1が計算される。
DISTRIBUTE()は、固定長の連続値ベクトルに基づいて、全ての単語の生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。
また、近年、入力された音声を単語や文字などのシンボル系列に直接変換可能なend-to-end音声認識に関する研究が盛んに行われている。特に、可変長の系列を入力として可変長の系列を出力とすることが可能なsequence-to-sequenceモデルを用いた手法(非特許文献2参照)が、高い精度を示すことが知られている。
sequence-to-sequenceモデルは、例えば、音声信号から得られる音響特徴量系列X={x1,x2,…,xt,…xT}を入力とし、単語や文字のシンボルの系列W={w1,w2,…,ws,…wS}を音声認識結果として出力するモデルである。
sequence-to-sequenceモデルにおいて、まず、次式(4)に示すように音響特徴量系列X={x1,x2,…,xt,…xT}が1つの分散表現Csに変換される。
NNには、一般的にRNNが用いられるが、構造の一つとして注意機構を利用することも可能である(非特許文献3参照)。
次に、次式(5)に示すように音声認識結果シンボルwsが分散表現Esに変換される。
次に、次式(6)に示すように音声認識結果シンボルの分散表現Es、音響特徴量の分散表現Cs、及び固定長の連続値ベクトルhs-1が、NNに入力される。
次に、次式(7)に示すように固定長の連続値ベクトルhsが識別関数に入力されて、シンボルws+1の生起確率Os+1が計算される。
始端シンボルが出力されてから終端シンボルが出力されるまで生起確率が繰り返し計算され、その間に出力されたシンボル系列W={w1,w2,…,ws,…wS}が、音声認識結果となる。
Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur, "Recurrent Neural Network Based Language Model", In Proc. INTERSPEECH, pp. 1045-1048, 2010. J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, "Attention-Based Models for Speech Recognition," in Proc. NIPS, 2015. pp. 577-585.. Minh-Thang Luong, Hieu Pham, Christopher D. Manning, "Effective Approaches to Attention-based Neural Machine Translation", In Proc. EMNLP, pp. 1412-1421, 2015.
ところで、音声認識装置において、従来のようにRNN言語モデルを用いて、複数の音声認識結果候補をリスコアリングする場合、文脈を考慮してスコアを計算することはできるものの、実際に入力される音声を考慮してスコアを計算することはできなかった。このため、従来の音声認識装置では、リスコアリングの精度が不十分であり、音声認識の精度を高めることが困難であるという問題があった。
上記のような問題点に鑑みてなされた本発明の目的は、音声認識の精度を高めることが可能な音声認識装置、音声認識方法、及びプログラムを提供することにある。
上記課題を解決するため、本発明に係る音声認識装置は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、を備えることを特徴とする。
また、上記課題を解決するため、本発明に係る音声認識方法は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、を含むことを特徴とする。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の音声認識装置として機能させることを特徴とする。
本発明によれば、音声認識の精度を高めることが可能な音声認識装置を提供できる。
本実施形態に係る音声認識装置の構成の一例を示す図である。 本実施形態に係る音声認識方法の一例を示すフローチャートである。 本実施形態に係る追加スコア計算部の構成の一例を示す図である。 本実施形態に係る追加スコア計算部の計算方法の一例を示すフローチャートである。 本実施形態に係るN=3の場合の処理結果の一例を示す図である。 本実施形態に係る計算モデルを学習する学習部の構成の一例を示す図である。
以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。
<音声認識装置100の構成>
図1及び図2を参照して、本実施形態に係る音声認識装置の構成及び音声認識方法について説明する。図1は、本実施形態に係る音声認識装置の構成の一例を示す図である。図2は、本実施形態に係る音声認識方法の一例を示すフローチャートである。
図1に示すように、音声認識装置100は、追加スコア計算部(スコア計算部)110と、音声認識結果候補順位付け部(順位付け部)120と、を備える。
音声認識装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。音声認識装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置100が備える各記憶部は、例えば、RAMなどの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声認識装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、音声認識装置100の外部に備える構成としてもよい。
以下、本明細書において、「スコア」とは、音声認識の過程で得られる音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す値を意味するものとする。
また、「追加スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、追加スコア計算部110によって、計算モデルを用いて計算されるスコアを意味するものとする。
また、「音声認識スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識部(不図示)などによって、予め計算されたスコアを意味するものとする。
また、「新スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識結果候補順位付け部120によって、追加スコアと音声認識スコアとが、重み付け加算されるスコアを意味するものとする。
追加スコア計算部110は、計算モデルを用いて、音声認識装置100に実際に入力される音声を表す音声信号から得られる音響特徴量系列、及び音声信号に対する複数(例えば、N(≧2)個)の音声認識結果候補のシンボル系列に基づいて、複数の音声認識結果に対応する複数(例えば、N(≧2)個)の追加スコアを計算する(図2に示すステップS110参照)。そして、追加スコア計算部110は、複数の追加スコアを、音声認識結果候補順位付け部120へと出力する。
計算モデルは、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、追加スコアを出力とするモデルである。計算モデルは、例えば、RNNに基づいて構成される。
音声認識結果候補順位付け部120は、追加スコア計算部110から入力される複数の追加スコアに基づいて、複数の音声認識結果候補を順位付けする(図2に示すステップS120参照)。例えば、音声認識結果候補順位付け部120は、追加スコア計算部110から取得した複数の音声認識結果候補に対応する追加スコアと、音声認識部(不図示)から取得した複数の音声認識結果候補に対応する音声認識スコアとを、それぞれ重み付け加算した複数(例えば、N(≧2)個)の新スコアに基づいて、複数の音声認識結果候補を順位付けする。
具体的には、音声認識結果候補順位付け部120は、次式(8)に示すように、音声認識スコアSASR、追加スコアSADD、追加スコアの重みλ(0<λ≦1)、に基づいて、新スコアSNEWを計算する。なお、追加スコアの重みλ(0<λ≦1)は、適宜調整される。
例えば、N=3の場合、音声認識結果候補順位付け部120は、3個の新スコアSNEW_1、SNEW_2、SNEW_3を計算し、3個の新スコアに基づいて、3個の音声認識結果候補を順位付けする。
1個目の音声認識結果候補が「今日の天気は晴れ」、重みλ(0<λ≦1)が「0.5」、1個目の音声認識結果候補に対応する追加スコアSADD_1が「0.9」、1個目の音声認識結果候補に対応する音声認識スコアSASR_1が「0.7」である場合、音声認識結果候補順位付け部120は、1個目の音声認識結果候補「今日の天気は晴れ」に対応する新スコアSNEW_1を、式(8)に従い「0.8」と計算する。
2個目の音声認識結果候補が「昨日の天気は晴れ」、重みλ(0<λ≦1)が「0.5」、2個目の音声認識結果候補に対応する追加スコアSADD_2が「0.6」、2個目の音声認識結果候補に対応する音声認識スコアSASR_2が「0.8」である場合、音声認識結果候補順位付け部120は、2個目の音声認識結果候補「昨日の天気は晴れ」に対応する新スコアSNEW_2を、式(8)に従い「0.7」と計算する。
3個目の音声認識結果候補「昨日の天気は雨」、重みλ(0<λ≦1)が「0.5」、3個目の音声認識結果候補に対応する追加スコアSADD_3が「0.4」、3個目の音声認識結果候補に対応する音声認識スコアSASR_3が「0.5」である場合、音声認識結果候補順位付け部120は、3個目の音声認識結果候補「昨日の天気は雨」に対応する新スコアSNEW_3を、式(8)に従い「0.45」と計算する。
そして、音声認識結果候補順位付け部120は、1個目の音声認識結果候補に対応する新スコアSNEW_1が「0.8」、2個目の音声認識結果候補に対応する新スコアSNEW_2が「0.7」、3個目の音声認識結果候補に対応する新スコアSNEW_3が「0.45」、という結果に基づいて、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
更に、音声認識結果候補順位付け部120は、3個の音声認識結果候補の順位と共に、3個の音声認識結果候補の順位に対応させて、昇順或いは降順に並び替えられた音声認識結果候補を出力する。例えば、音声認識結果候補順位付け部120は、1個目の音声認識結果候補の順位1位に対応させて、「今日の天気は晴れ」を出力し、2個目の音声認識結果候補の順位2位に対応させて、「昨日の天気は晴れ」を出力し、3個目の音声認識結果候補の順位3位に対応させて、「昨日の天気は雨」を出力する。
ここで、重みλ=1の場合、音声認識結果候補順位付け部120は、次式(9)に示すように、追加スコアSADDに基づいて、新スコアSNEWを計算する。
例えば、N=3の場合、音声認識結果候補順位付け部120は、3個の新スコアSNEW_1、SNEW_2、SNEW_3(追加スコアSADD_1、SADD_2、SADD_3)を計算し、3個の新スコアに基づいて、3個の音声認識結果候補を順位付けする。
上述した例では、1個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_1が「0.9」、2個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_2が「0.6」、3個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_3が「0.4」、という結果に基づいて、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
<追加スコア計算部110の構成>
次に、図3及び図4を参照して、追加スコア計算部110の構成及び計算方法について詳細に説明する。図3は、追加スコア計算部110の構成の一例を示す図である。図4は、追加スコア計算部110の計算方法の一例を示すフローチャートである。
図3に示すように、追加スコア計算部110は、音声分散表現系列変換部(第1変換部)111と、シンボル系列スコア計算部112と、を備える。更に、シンボル系列スコア計算部112は、シンボル分散表現系列変換部(第2変換部)1121と、シンボル系列生起確率計算部(生起確率計算部)1122と、を備える。
[音声分散表現系列変換部111]
音声分散表現系列変換部111の入力及び出力は以下のとおりである。
入力:音声信号から得られる音響特徴量系列X={x1,x2,…,xt,…xT}、
音声信号に対する音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}
出力:音声分散表現Cs=NN{x1,x2,…,xt,…xT,ws}
音声分散表現系列変換部111は、音響特徴量系列Xを、1つの分散表現に変換する(図4に示すステップS111参照)。音響特徴量系列Xの分散表現(音声分散表現)Csは、次式(10)のように表すことができる。
[シンボル系列スコア計算部112]
シンボル系列スコア計算部112の入力及び出力は以下のとおりである。
入力:音声分散表現Cs=NN{x1,x2,…,xt,…xT,ws}、
音声信号に対する音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}
出力:追加スコアSADD
シンボル分散表現系列変換部1121は、音声認識結果候補のシンボル系列を、分散表現に変換する(図4に示すステップS1121参照)。音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}に含まれるシンボルwsの分散表現(音声認識結果候補分散表現)Esは、次式(11)のように表すことができる。
シンボル系列生起確率計算部1122は、音声分散表現Cs及び音声認識結果候補分散表現Esを用いて、音声認識結果候補のシンボル系列に含まれるシンボルの生起確率を計算する(図4に示すステップS1122参照)。音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}に含まれるシンボルws+1の生起確率Os+1は、次式(12)で求められるhsを用いて次式(13)のように表すことができる。
ここで、hsは連続値ベクトルであり、Os+1は登録している全てのシンボルの生起確率を表す出力である。DISTRIBUTE()は、固定長ベクトルに基づいて、全てのシンボルの生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。
シンボル系列生起確率計算部1122は、始端シンボルから終端シンボルまで、生起確率を繰り返し計算し、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率を計算する。
そして、シンボル系列生起確率計算部1122は、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、この音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。
更に、シンボル系列生起確率計算部1122は、複数の音声認識結果候補のシンボル系列の全てに対して、それぞれの音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、それぞれの音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。
例えば、シンボル系列生起確率計算部1122は、1個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、1個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_1として計算する。
例えば、シンボル系列生起確率計算部1122は、2個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、2個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_2として計算する。
例えば、シンボル系列生起確率計算部1122は、3個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、3個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_3として計算する。
上述の構成を有する追加スコア計算部110によれば、文脈を考慮して追加スコアを計算するのみならず、実際に入力される音声を考慮して追加スコアを計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
<音声認識結果候補が3個(N=3)である場合の具体例>
図5は、音声認識結果候補が3個(N=3)である場合における音声認識装置100の処理結果の一例を示す図である。
1個目の音声認識結果候補シンボル系列が「今日の天気は晴れ」、2個目の音声認識結果候補シンボル系列が「昨日の天気は晴れ」、3個目の音声認識結果候補シンボル系列が「昨日の天気は雨」であるとする。
1個目の音声認識結果候補シンボル系列の音声認識スコアSASR_1が「0.7」、2個目の音声認識結果候補シンボル系列の音声認識スコアSASR_2が「0.8」、3個目の音声認識結果候補シンボル系列の音声認識スコアSASR_3が「0.5」であるとする。
追加スコア計算部110は、計算モデルを用いて、1個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_1=0.9を計算する。
追加スコア計算部110は、計算モデルを用いて、2個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_2=0.6を計算する。
追加スコア計算部110は、計算モデルを用いて、3個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_3=0.4を計算する。
音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_1=0.7、追加スコアSADD_1=0.9に基づいて、新スコアSNEW_1=(1−λ)×SASR_1+λ×SADD_1=(1−0.5)×0.7+0.5×0.9=0.8を計算する。
音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_2=0.8、追加スコアSADD_2=0.6に基づいて、新スコアSNEW_2=(1−λ)×SASR_2+λ×SADD_2=(1−0.5)×0.8+0.5×0.6=0.7を計算する。
音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_3=0.5、追加スコアSADD_3=0.4に基づいて、新スコアSNEW_3=(1−λ)×SASR_3+λ×SADD_3=(1−0.5)×0.5+0.5×0.4=0.45を計算する。
更に、音声認識結果候補順位付け部120は、3個の音声認識結果候補の順位付けを行い、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
上述したように、本実施形態に係る音声認識装置100によれば、追加スコア計算部110により、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の音声認識結果候補に対応する複数の追加スコアを計算する。そして、音声認識結果候補順位付け部120により、追加スコア計算部110によって計算された精度の高い複数の追加スコアSADDに基づいて、複数の音声認識結果候補を順位付けする。これにより、複数の音声認識結果候補の高精度なリランキングが可能になるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
<学習部210>
次に、図6を参照して、上述の計算モデルを学習する学習部210について説明する。
学習部210は、例えば、P個の学習用の音響特徴量系列と、P個の組S(例えば、1つの組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれるものとする)とに基づいて、計算モデルを学習する。
p=1,2,…,Pとして、p番目の組を組Sとすると、Qは、p番目の組Sにおいて、所定の音声信号に対して推定される全ての学習用の音声認識結果候補のシンボル系列の個数を表すものとする。
例えば、1番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、2番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、p番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。
なお、Qは、1以上の整数の何れかである。また、Q個の学習用の音声認識結果候補のシンボル系列には、少なくとも、学習用の正解の音声認識結果のシンボル系列とは異なる学習用の音声認識結果候補のシンボル系列が含まれることが好ましい。また、Q個の学習用の音声認識結果候補のシンボル系列には、学習用の正解の音声認識結果のシンボル系列が含まれていてもよいし、含まれていなくてもよい。
学習用の音声認識結果候補のシンボル系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる候補文のシンボル系列などである。
学習用の正解の音声認識結果のシンボル系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる正解文のシンボル系列などである。
学習用の音響特徴量系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の音声、会議音声、取材音声等を表す音声信号から得られる音響特徴量系列などである。
ここで、学習部210に入力される学習データの組み合わせ(学習用の音声認識結果候補のシンボル系列と学習用の正解の音声認識結果のシンボル系列との組み合わせ)の一例について説明する。
(1)組Sとして、1個の学習用の音声認識結果候補のシンボル系列が入力される場合
例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。
学習部210は、学習用の音響特徴量系列、及び、1個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、1個の学習用の音声認識結果候補のシンボル系列のみを学習に使用する。学習部210が、学習に使用する1個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアSASRの最も大きいものが選択されてもよい。或いは、学習部210が、学習に使用する1個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアSASRの最も小さいものが選択されてもよい。
(2)組Sとして、複数の学習用の音声認識結果候補のシンボル系列が別々に入力される場合
例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択されたL個の学習用の音声認識結果候補のシンボル系列、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Lは、1≦L≦Qの整数である。
学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、まず、L個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
そして、学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、順次、L個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、L個の学習用の音声認識結果候補のシンボル系列を順次学習に使用する。学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアSASRの大きいものから順に、L個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。或いは、学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアSASRの小さいものから順に、L個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。
(3)組Sとして、複数の学習用の音声認識結果候補のシンボル系列がまとめて入力される場合
例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択されたL個の学習用の音声認識結果候補のシンボル系列がまとまったもの、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Lは、1≦L≦Qの整数である。
学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列の全てと1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、L個の学習用の音声認識結果候補のシンボル系列の全てについて、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、L個の学習用の音声認識結果候補のシンボル系列をまとめて学習に使用する。学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、L個の学習用の音声認識結果候補のシンボル系列の音声認識スコアSASRが大きいものからまとめて選択されてもよい。或いは、学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、L個の学習用の音声認識結果候補のシンボル系列の音声認識スコアSASRが小さいものからまとめて選択されてもよい。なお、L個のまとまった学習用の音声認識結果候補のシンボル系列としては、例えば、コンフュージョンネットワークなどを適用できる。
<学習部210の構成>
次に、図6を参照して、学習部210の構成の一例について説明する。
学習部210は、例えば、音声分散表現系列変換部211と、音声認識結果候補分散表現系列変換部212と、モデル学習部213と、を備える。
[音声分散表現系列変換部211]
音声分散表現系列変換部211の入力及び出力は以下のとおりである。
入力:P個の学習用の音響特徴量系列、
P個の組(例えば、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とを含む組)
出力:音声分散表現
音声分散表現系列変換部211は、P個の学習用の音響特徴量系列を、音声分散表現に変換する。
[音声認識結果候補分散表現系列変換部212]
音声認識結果候補分散表現系列変換部212の入力及び出力は以下のとおりである。
入力:P個の組(例えば、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とを含む組)
出力:音声認識結果候補分散表現
音声認識結果候補分散表現系列変換部212は、P×Q個の学習用の音声認識結果候補のシンボル系列を、音声認識結果候補分散表現に変換する。
同様に、音声認識結果候補分散表現系列変換部212は、P個の学習用の正解の音声認識結果のシンボル系列を、音声認識結果候補分散表現に変換する。
[モデル学習部213]
モデル学習部213の入力及び出力は以下のとおりである。
入力:音声分散表現、
音声認識結果候補分散表現
出力:計算モデル
モデル学習部213は、P個の学習用の音響特徴量系列に対応する音声分散表現、P×Q個の学習用の音声認識結果候補のシンボル系列に対応する音声認識結果候補分散表現、P個の学習用の正解の音声認識結果のシンボル系列に対応する音声認識結果候補分散表現、に基づいて、計算モデルを学習する。
即ち、従来のRNN言語モデルは、テキストデータのみを入力として学習が行われていたが、本実施形態に係る計算モデルは、テキストデータ及び実際の音声を入力として学習が行われる。当該計算モデルを適用することで、追加スコア計算部110は、複数の音声認識結果候補に対応する追加スコアを高精度に計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
<変形例>
本実施形態では、詳細な説明は省略しているが、音声認識装置100は、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることが可能である。また、図示しない音声認識部の構成は、特に限定されるものではなく、音声信号から音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
100 音声認識装置
110 追加スコア計算部(スコア計算部)
111 音声分散表現系列変換部(第1変換部)
120 音声認識結果候補順位付け部(順位付け部)
210 学習部
211 音声分散表現系列変換部
212 音声認識結果候補分散表現系列変換部
213 モデル学習部
1121 シンボル分散表現系列変換部(第2変換部)
1122 シンボル系列生起確率計算部(生起確率計算部)

Claims (8)

  1. 音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、
    複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、
    を備える、音声認識装置。
  2. 前記スコア計算部は、
    前記音響特徴量系列を分散表現に変換して音声分散表現を出力する第1変換部と、
    前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力する第2変換部と、
    前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算する生起確率計算部と、
    を備える、請求項1に記載の音声認識装置。
  3. 前記順位付け部は、音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
    請求項1又は2に記載の音声認識装置。
  4. 前記計算モデルは、リカレントニューラルネットワークに基づいて構成される、
    請求項1から3のいずれか一項に記載の音声認識装置。
  5. 音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、
    複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、
    を含む、音声認識方法。
  6. 前記追加スコアを計算するステップは、
    前記音響特徴量系列を分散表現に変換して音声分散表現を出力するステップと、
    前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力するステップと、
    前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算するステップと、
    を含む、請求項5に記載の音声認識方法。
  7. 前記音声認識結果候補を順位付けするステップは、
    音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
    請求項5又は6に記載の音声認識方法。
  8. コンピュータを、請求項1から4のいずれか一項に記載の音声認識装置として機能させるプログラム。
JP2018158780A 2018-08-27 2018-08-27 音声認識装置、音声認識方法、及びプログラム Pending JP2020034625A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018158780A JP2020034625A (ja) 2018-08-27 2018-08-27 音声認識装置、音声認識方法、及びプログラム
PCT/JP2019/025187 WO2020044755A1 (ja) 2018-08-27 2019-06-25 音声認識装置、音声認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018158780A JP2020034625A (ja) 2018-08-27 2018-08-27 音声認識装置、音声認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2020034625A true JP2020034625A (ja) 2020-03-05

Family

ID=69645089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158780A Pending JP2020034625A (ja) 2018-08-27 2018-08-27 音声認識装置、音声認識方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2020034625A (ja)
WO (1) WO2020044755A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体
WO2017136070A1 (en) * 2016-02-03 2017-08-10 Google Inc. Compressed recurrent neural network models
JP6738436B2 (ja) * 2016-12-20 2020-08-12 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム

Also Published As

Publication number Publication date
WO2020044755A1 (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
Schneider et al. wav2vec: Unsupervised pre-training for speech recognition
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110275939B (zh) 对话生成模型的确定方法及装置、存储介质、电子设备
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN112214585B (zh) 回复消息生成方法、系统、计算机设备及存储介质
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN111897935B (zh) 基于知识图谱的话术路径选择方法、装置和计算机设备
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN113761841A (zh) 将文本数据转换为声学特征的方法
Wu et al. End-to-end recurrent entity network for entity-value independent goal-oriented dialog learning
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
WO2020044755A1 (ja) 音声認識装置、音声認識方法、及びプログラム
CN113743117B (zh) 用于实体标注的方法和装置
CN109918484B (zh) 对话生成方法和装置
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN114707509A (zh) 交通命名实体识别方法、装置、计算机设备及存储介质
US20220013136A1 (en) Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
Pandey et al. LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi Language.
Li et al. A hierarchical tracker for multi-domain dialogue state tracking