JP2021039216A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP2021039216A
JP2021039216A JP2019159951A JP2019159951A JP2021039216A JP 2021039216 A JP2021039216 A JP 2021039216A JP 2019159951 A JP2019159951 A JP 2019159951A JP 2019159951 A JP2019159951 A JP 2019159951A JP 2021039216 A JP2021039216 A JP 2021039216A
Authority
JP
Japan
Prior art keywords
voice
feature amount
neural network
voice recognition
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019159951A
Other languages
English (en)
Inventor
マーク デルクロア
Marc Delcroix
マーク デルクロア
小川 厚徳
Atsunori Ogawa
厚徳 小川
成樹 苅田
Shigeki Karita
成樹 苅田
中谷 智広
Tomohiro Nakatani
智広 中谷
渡部 晋治
Shinji Watabe
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Original Assignee
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Johns Hopkins University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019159951A priority Critical patent/JP2021039216A/ja
Publication of JP2021039216A publication Critical patent/JP2021039216A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】end-to-endの音声認識モデルを音響条件に適応させること。【解決手段】end-to-endのニューラルネットワークモデルは、計算部12と適応部11と第1変換部13と第2変換部14とから構成される。計算部12は、音声特徴量の系列から、音響条件への適応のための特徴量である補助特徴量を計算する。また、適応部11は、補助特徴量を用いて、音声特徴量を音響条件に適応させた適応済み音声特徴量を計算する。また、第1変換部13及び第2変換部14は、適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する。【選択図】図1

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
従来、ニューラルネットワーク(以降、NNと表記する場合がある。)を用いた音声認識において、音声認識モデルを話者や環境等の音響条件に適応させる技術が知られている。例えば、入力特徴量に加えて、話者の声の特徴を表す特徴量(i-vector, SSNN(系列要約ネットワーク:Sequence summarizing neural network))を補助特徴量として追加することで、音響モデルの話者適応を実現する方法が知られている(例えば、非特許文献1を参照)。
ここで、非特許文献1に記載の技術は、従来の音響モデルと言語モデルとに基づく音声認識モデルを話者適応させる技術である。つまり、音声認識モデルは、音声信号を中間状態に変換する音響モデルと、中間状態をシンボル列を特定可能なデータに変換する言語モデルとで構成され、音響モデルと言語モデルはそれぞれ別個の学習用データに基づいて学習される。
また、1つのニューラルネットワークにより、音声信号をシンボル列を特定可能なデータに変換することができるend-to-endの音声認識モデルを用いた音声認識技術も知られている(非特許文献2)。この場合、音声認識モデルの入力である音声データと、出力であるシンボル列を特定可能なデータと、に基づいて、ニューラルネットワークの全てのパラメータが学習される。つまり、入力から出力を得るまでの中間処理過程の全てが、同じ基準に基づいてまとめて学習される。
K. Vesely, S. Watanabe, K. Zmolikova, M. Karafiat, L. Burget, and J. H. Cernocky, "Sequence summarizing neural network for speaker adaptation," in Proc. of ICASSP’16, 2016, pp. 5315-5319. S. Watanabe, T. Hori, S. Kim, J. R. Hershey, and T. Hayashi,"Hybrid CTC/attention architecture for end-to-end speech recognition," IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1240-1253, 2017.
一般に、end-to-end学習された音声認識モデルを用いた音声認識のほうが、入力から理想的な出力が得られるように直接学習されるので、end-to-endではない学習をされた音響モデルと言語モデルを併用した音声認識よりも精度が高くなることが期待される。
一方で、end-to-end学習をしたとしても、学習時と異なる環境(学習用データとは異なる話者の音声、学習用データとは異なる雑音環境、等)において精度の良い音声認識結果を得るためには、学習済みの音声認識モデルを認識時の環境に応じて適応させる技術が必要となる。
しかしながら、非特許文献1はend-to-endではない音声認識モデルにおける音響モデルの話者適応技術であり、end-to-endの音声認識モデルとは前提とするモデルが異なるため、end-to-endの音声認識モデルにおける話者適用に利用することはできない。また、非特許文献2は、end-to-endの音声認識モデルを用いた音声認識技術であるが、話者適応の機能を有していない。
これまで、end-to-endの音声認識モデルを話者適応させる技術は知られていなかった。
上述した課題を解決し、目的を達成するために、音声認識装置の音声認識モデルは、入力された音声信号又は音声特徴量を当該音声信号に対応するシンボル列を特定可能なデータに直接変換するニューラルネットワークにより構成され、当該ニューラルネットワークは、声特徴量の系列から音響条件への適応のための特徴量である補助特徴量を計算する層(計算部)と、前記補助特徴量を用いて、音声特徴量を前記音響条件に適応させた適応済み音声特徴量を計算する層(適応部)と、を含むことを特徴とする。
本発明によれば、end-to-endの音声認識モデルを音響条件に適応させることができる。
図1は、第1の実施形態に係る音声認識装置の構成の一例を示す図である。 図2は、第1の実施形態に係る計算部の構成の一例を示す図である。 図3は、第1の実施形態に係る第2変換部の構成の一例を示す図である。 図4は、第1の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。 図5は、第1の実施形態に係る補助特徴量の計算処理の流れを示すフローチャートである。 図6は、コーパスを示す図である。 図7は、実験結果を示す図である。 図8は、実験結果を示す図である。 図9は、第2の実施形態に係る学習装置の構成の一例を示す図である。 図10は、その他の実施形態に係る第2変換部の構成の一例を示す図である。 図11は、音声認識プログラムを実行するコンピュータの一例を示す図である。 図12は、従来の音声認識装置の構成を示す図である。
以下に、本願に係る音声認識装置、音声認識方法及び音声認識プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[従来の音声認識装置]
まず、非特許文献2に開示されている従来のend-to-end音声認識装置について説明する。図12は、従来の音声認識装置の構成を示す図である。図12に示すように従来の音声認識装置50は、第1変換部51及び第2変換部52を有する。第1変換部と第2変換部とをあわせた全体が、1つのニューラルネットワークで構成されるend-to-endのモデルとなっている。
音声認識装置50には、音声特徴量の系列が入力される。音声特徴量は、音声信号そのものであってもよいし、音声信号から抽出された特徴量であってもよい。第1変換部51は、ニューラルネットワークの層の一部であり、入力された音声特徴量を中間表現に変換する。また、第2変換部52は、ニューラルネットワークの層の一部であり、中間特徴量を、シンボル列を特定可能なデータに変換する。例えば、シンボル列を特定可能なデータとは、シンボル系列の各シンボルに対応する事後確率である。
ここで、音声認識装置50の音声認識モデルは、第1変換部51をencoderとし、第2変換部52をdecoderとするencoder-decoderモデルである。また、音声認識装置50の音声認識モデルは、音声特徴量を入力とし、シンボル系列の事後確率を出力するend-to-endの音声認識モデルである。また、音声認識装置50の音声認識モデルの学習は、学習用のデータを入力した際に出力されるシンボル系列の事後確率が最適化されるように、第1変換部51及び第2変換部52のパラメータを更新していくことによって行われる。
また、音声認識装置50の第2変換部52は、単一のdecoderであってもよいし、CTC decoderや注意機構を備えたものであってもよい(参考文献1:S. Watanabe, T. Hori, S. Kim, J. R. Hershey, and T. Hayashi,“Hybrid CTC/attention architecture for end-to-end speech recognition,” IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1240-1253, 2017.)。
[第1の実施形態の音声認識装置の構成]
図1を用いて、第1の実施形態の音声認識装置の構成について説明する。図1は、第1の実施形態に係る音声認識装置の構成の一例を示す図である。図1に示すように、音声認識装置10は、適応部11、計算部12、第1変換部13及び第2変換部14を有する。適応部11と計算部12と第1変換部13と第2変換部14とをあわせた全体が、1つのニューラルネットワークで構成されるend-to-endのモデルとなっている。音声認識装置10は、適応部11及び計算部12を有している点で、図12の音声認識装置50と異なる。
図1に示すように、音声認識装置10には、音声特徴量の系列Xが入力される。例えば、音声特徴量系列Xは、音声信号から計算されたMFCC(Mel frequency cepstral coefficient)、FBANK(Log mel filterbank coefficients)、ΔMFCC(MFCCの1階微分)、ΔΔMFCC(MFCCの2階微分)、対数パワー、Δ対数パワー(対数パワーの1階微分)等である。音声特徴量系列Xは、音声信号そのものであってもよい。
また、音声認識装置10は、音声特徴量の系列Xが入力された場合のシンボル系列w,w,…の各シンボルwの事後確率p(w|w,…,wl−l,X)を出力する。シンボル系列とは、アルファベット、漢字、スペース等のあらゆるシンボルの系列である。また、音声認識装置10は、シンボル系列の事後確率を用いて単語を探索し、探索した単語を出力するようにしてもよい。
また、補助特徴量は、音声認識の際に、音声認識モデルを音響条件に適応させるための特徴量である。音響条件の適応により、音声認識モデルの音響条件に対するロバスト性が向上し、音声認識の精度が向上する。
ここで、音響条件とは、音声が収集された際の環境や話者に関する条件である。例えば、話者に関する音響条件には、話者の性別、年齢、出身地域等がある。また、環境に関する音響条件には、フォーマル又はカジュアルといった場の雰囲気、雑音及び残響の状況等がある。また、その他の音響条件として、話題、過去のフレームにおける認識結果シンボル列の品詞、対話相手との関係(上司、部下、友人、初対面等)がある。また、i-vectorは、話者適応のための補助特徴量の一例である。
適応部11は、補助特徴量を用いて、音声特徴量を音響条件に適応させた適応済み音声特徴量を計算する。適応部11は、適応済み音声特徴量^x(xの直上に^)を、(1)式のように計算する。
Figure 2021039216
ここで、xは、音声特徴量系列Xのフレームtに対応する要素である。tは、フレームのインデックスである。つまり、音声特徴量系列Xの総フレーム数をT、xをD次元実ベクトルとすると、X={x∈R,t=1,…,T}(ただし、RはD次元実ベクトル全体の集合)と書ける。
また、Pは、ベクトルである補助特徴量sの次元を、音声特徴量xと同じ次元の実ベクトルに射影する変換行列である。このように、適応部11は、学習済みの変換行列を用いて、補助特徴量を音声特徴量と同じ次元の実ベクトルに射影し、当該射影した実ベクトルを音声特徴量に加算することで適応済み音声特徴量を計算する。また、xはD次元実ベクトルなので、sをV次元実ベクトルとすると、PはD×V実行列である。
つまり、適応部11は、音声特徴量と補助特徴量を入力として適応済み音声特徴量に変換するニューラルネットワークの層(複数の層であってもよい)である。適応部11における演算は、補助特徴量を音声特徴量と同じ次元のベクトルに射影し、当該射影したベクトルを音声特徴量に加算することに等しい。つまり、音声特徴量とは次数の異なる実ベクトルで補助特徴量が表現されていても、適応部11の入力として受け付けることができる。これにより、音声認識装置10のencoderを、補助特徴用に合わせて変更する必要がなくなる。
ここで、(1)式のように、音声特徴量xに補助特徴量Psを加えることは、計算部12の出力と、第1変換部13の入力部分を結び付けていることに等しい。なお、計算部12の出力は、補助特徴量sである。また、第1変換部の入力部部分とは、encoderの入力層である。つまり、本発明のend-to-endニューラルネットワークは、所定時間区間の音声特徴量を補助特徴量に変換する層(計算部12)の出力と、音声特徴量を中間表現に変換する層(第1変換部13)の入力層とを連結していることを特徴とする。これにより、シンプルなモデルで補助特徴量を計算することができる。
ここで、encoderの入力層が、M個の隠れユニットを持つものとする。また、M×(D+V)行列であるWにより、音声特徴量x及び補助特徴量sをencoderの入力層に合うようにM次元ベクトルに変換すると仮定する。このとき、変換式は、(2)式のように変形できる。
Figure 2021039216
これより、(2)式の第3辺のW −1をPと定義すれば、補助特徴量sに対応する(2)式のWの学習を行うことなく、Pを直接学習することができる。これにより、補助特徴量に合わせたencoderの設定の変更が不要になり、encoderで用いられるCNN(Convolutional neural network)をシンプルにすることができる。
計算部12は、ニューラルネットワークを用いて、音声特徴量の系列から、音響条件への適応のための特徴量である補助特徴量を計算する。すなわち、図1に示すように、計算部12は、音声特徴量系列Xの入力を受け付け、補助特徴量sを出力する。計算部12は、end-to-end音声認識モデルを構成するニューラルネットワークの一部の層であり、この層は、音声特徴量の系列を補助特徴量に変換する役割を担う。ここでは、計算部12は、音声特徴量を入力とするSSNN(系列要約ネットワーク:Sequence summarizing neural network)により構成される。
計算部12は、(3)式のように補助特徴量sを計算する。つまり、計算部12は(3)式の演算を行うニューラルネットワークの層である。
Figure 2021039216
ここで、図2に示すように、計算部12は、第3変換部11a及び統合部113を有する。図2は、第1の実施形態に係る計算部の構成の一例を示す図である。また、第3変換部11aは、完全結合を持つ階層型のニューラルネットワークである。図2の例では、第3変換部11aは、第1層111及び第2層112を有する。(3)式のg(・)は、第3変換部11aに対応するニューラルネットワークの層における変換を表す関数である。
また、統合部113は、第3変換部11aの出力を統合する。すなわち、(3)式に示すように、統合部113は、t=1からt=Tまでの時間区間における、音声特徴量xを入力としたときの第3変換部11aの出力g(x)の平均を計算する。
このように、計算部12は、所定の時間区間(1以上の時間フレームからなるとする)、すなわちt=1からt=Tまでの時間区間の音声特徴量の系列Xを基に補助特徴量sを計算する。つまり、補助特徴量を求める対象である所定の時間区間は、第1変換部13で中間出力に変換する対象となる音声特徴量の時間区間(1フレーム)よりも大きい。言い換えれば、補助特徴量は、事後確率算出対象とするフレームtの音声特徴量と、その前後少なくとも何れかの1以上のフレームの音声特徴量とを用いて算出される。これにより、音声認識装置10は、認識対象の音声特徴量の前後のフレームの音声特徴量を考慮した補助特徴量を計算することができる。一方で、適応部11は、時間区間内の単位時間ごと、すなわちt=1からt=Tまでのそれぞれの時間フレームについて適応済み音声特徴量^xを計算する。
なお、上記の例では、計算部12における補助特徴量sは、時間に関係なく固定である物として説明した。つまり、事後確率算出対象とするフレームtの値に関係なく、t=1からt=Tの区間における音声特徴量の平均を補助特徴量sとしていた。
ただし、補助特徴量sは必ずしも時間不変である必要はなく、計算部12は、時変の特徴量として補助特徴量sを計算しても良い。例えば、計算部12は、事後確率算出対象とするフレームtに応じて、算出対象の時間区間をずらして平均をとった移動平均を補助特徴量sとしても良い。
第1変換部13及び第2変換部14は、ニューラルネットワークの層の一部であり、適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する。また、第1変換部13及び第2変換部14は、既知のencoder-decoderと同様の構成であってよい。
例えば、第1変換部13は、適応済み音声特徴量^xの入力を受け付け、中間表現hを出力するencoderである。第1変換部13は、例えば、VGG(Very deep convolutional neural network(CNN))層と、VGG層に続くBLSTM(Bidirectional long short-term memory)層を有するものである。第1変換部13が出力する中間表現hは、(4)式のように表される。
Figure 2021039216
図3に示すように、第2変換部14は、中間表現H={h,t=1,…,T}の入力を受け付け、シンボル系列の事後確率p(w|w,…,wl−l,X)を出力する。ここで、p(w|w,…,wl−l,X)は、^xよりも前の時刻の適応済み音声特徴量から推定されたシンボル系列w,…,wl−lと音声特徴量Xとが与えられた下で、次のシンボルがwである確率を表す。図3は、第1の実施形態に係る第2変換部の構成の一例を示す図である。なお、事後確率は、音声に対応するシンボル列を特定可能なデータの一例である。
図3に示すように、第2変換部14は、注意機構141及びデコーダ142を有する。また、第2変換部14は、中間表現Hの入力を受け付け、事後確率を出力する。ただし、H={h,t=1,…,T}である。デコーダ142は、例えば、LSTM(Long short-term memory)層と、LSTM層と完全結合された層と、softmax層とを有するよう構成される。また、注意機構141は、シンボル系列のl番目のシンボルに対応する中間表現h,…,hの重み付け和であるコンテクストベクトルcを、(5)式のように計算し、デコーダ142に受け渡す。
Figure 2021039216
ここで、l番目のシンボルの注意重みを{al,tt=1 、デコーダ142のRNN(Recurrent neural network)の内部状態をqすると、注意機構141は、al,tを(6)式のように計算する。なお、注意機構141は、参考文献1に記載された方法によってattention(・)を計算する。
Figure 2021039216
また、第2変換部14が出力する事後確率は、(7)式のように表される。decoder(・)はデコーダ142に対応するニューラルネットワークの層(複数層でもよい)における変換を表す関数である。
Figure 2021039216
ここで、lは、予め用意されたシンボル系列のインデックスである。シンボル系列のシンボルの総数をLとすると、W={w∈U,l=1,…,L}(ただし、Uは互いに異なるシンボルの集合)と書ける。これより、音声認識装置10に入力された音声特徴量系列Xに対して出力されるシンボル系列がWである事後確率は、(8)式のように表される。
Figure 2021039216
[第1の実施形態の音声認識装置の処理]
図4を用いて、本実施形態の音声認識装置10の処理の流れを説明する。図4は、第1の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。図4に示すように、まず、音声認識装置10は、音声特徴量系列の入力を受け付ける(ステップS11)。
次に、音声認識装置10は、補助特徴量を計算する(ステップS12)。そして、音声認識装置10は、補助特徴量を用いて適応済み音声特徴量を計算する(ステップS13)。
ここで、音声認識装置10は、適応済み音声特徴量を中間表現に変換する(ステップS14)。さらに、音声認識装置10は、中間表現を事後確率に変換する(ステップS15)。最後に、音声認識装置10は、事後確率を出力する(ステップS16)。
図5を用いて、ステップS12の補助特徴量の計算処理の流れを説明する。図5は、第1の実施形態に係る補助特徴量の計算処理の流れを示すフローチャートである。例えば、音声認識装置10は、SSNNを用いて補助特徴量の計算処理を行う。
図5に示すように、まず、音声認識装置10は、tに1を代入する(ステップS121)。次に、音声認識装置10は、第tフレームの部分補助特徴量g(x)を計算する(ステップS122)。そして、音声認識装置10は、t=Tであるか否かを判定する(ステップS123)。
このとき、t=Tであれば(ステップS123、Yes)、音声認識装置10は、部分補助特徴量を統合する(ステップS125)。一方、t=Tでない場合(ステップS123、No)、音声認識装置10は、tにt+1を代入し(ステップS124)、ステップS122に戻り、処理を繰り返す。
[第1の実施形態の効果]
これまで説明してきたように、計算部12は、音声特徴量の系列から、音響条件への適応のための特徴量である補助特徴量を計算する。また、適応部11は、補助特徴量を用いて、音声特徴量を音響条件に適応させた適応済み音声特徴量を計算する。また、第1変換部13及び第2変換部14は、適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する。ここで、計算部12、適応部11、第1変換部13、第2変換部14は、音声特徴量を入力として事後確率を出力するend-to-endのニューラルネットワークの層の一部である。このように、音声認識装置10は、音響条件への適応処理及び音声特徴量をシンボル列を特定可能なデータに変換する処理を、end-to-endで行うことができる。
なお、end-to-endのニューラルネットワークの各層のパラメータは、最終出力である事後確率についての所定の最適化基準を満たすように予め学習しておく。学習方法については後述する。
ここで、図6、図7及び図8を用いて、従来技術と実施形態を用いて行った実験について説明する。図6は、コーパスを示す図である。また、図7及び図8は、実験結果を示す図である。
実験は、図6に示すWSJ、TED−LIUM及びCSJという3つのコーパスを対象として行われた。WSJ及びTED−LIUMは、英語のコーパスである。また、CSJは、日本語のコーパスである。図6に示すように、コーパスごとに複数のテストデータがある。
図7及び図8において、Baselineは、参考文献1に記載された音声認識手法に対応している。また、adapt.enc.は、実施形態の手法に対応している。また、図7の表中の数字は文字誤り率(CER:Character error rate)である。また、図8の表中の数字は単語誤り率(WER:Word error rate)である。
図7に示すように、全てのテストデータで、実施形態の文字誤り率が、従来技術の文字誤り率より低くなった。また、図8に示すように、全てのテストデータで、実施形態の単語誤り率が、従来技術の単語誤り率以下になった。なお、+RNNLM(Recurrent neural network language model)は、decoderに、文字ベースの2層のLSTMを使ったことを示している。
[第2の実施形態]
ここで、第2の実施形態として、音声認識装置10を構成するend-to-endニューラルネットワークのパラメータを学習するための学習装置について説明する。図9は、第2の実施形態に係る学習装置の構成の一例を示す図である。図9に示すように、学習装置20は、事後確率算出部20a及び更新部25を有する。
事後確率算出部20aは、適応部21、計算部22、第1変換部23及び第2変換部24を有する。また、適応部21、計算部22、第1変換部23及び第2変換部24は、それぞれ音声認識装置10の計算部12、適応部11、第1変換部13及び第2変換部14と同等の機能を有する。つまり、適応部21、計算部22、第1変換部23及び第2変換部24は、音声認識装置10と同様に、音声特徴量を事後確率に変換するend-to-endのニューラルネットワークにより構成される。
更新部25は、入力された音声特徴量と予め対応付けられた正解のシンボル系列(学習用に予め与えられているものとする)と、事後確率算出部20aによって計算されたシンボル系列の事後確率とから、事後確率算出部20aを1つのend-to-endのモデルとみなした損失関数を生成する。そして、更新部25は、損失関数が小さくなるように事後確率算出部20aで用いられる各パラメータを更新する。このとき、更新部25は、誤差逆伝播法等の既知のモデル最適化手法を用いることができる。
また、更新部25によって更新されたパラメータは、音声認識装置10で用いられる。このため、計算部12で用いられるニューラルネットワークのパラメータ及び第1変換部13及び第2変換部14で用いられる各ニューラルネットワークのパラメータは、これら全体を1つのend-to-endのニューラルネットワークとみなして学習されたものとすることができる。
さらに、更新部25は、適応部11及び適応部21で用いられる変換行列Pについても、end-to-endのモデルのパラメータの一部とみなし、各ニューラルネットワークのパラメータと同時に学習するようにしてもよい。
[その他の実施形態]
上記の実施形態では、図3に示すように、第2変換部14が注意機構141及びデコーダ142を有するものとして説明した。一方で、図10に示すように、第2変換部14は、参考文献1に記載の構成と同様に、CTCデコーダ143を有していてもよい。図10は、その他の実施形態に係る第2変換部の構成の一例を示す図である。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、音声認識装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、音声認識装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音声認識処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、音声データ及び記号列データを入力とし、パラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の音声認識処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図11は、音声認識プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声認識装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音声認識装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 音声認識装置
11、21 適応部
11a 第3変換部
12、22 計算部
13、23 第1変換部
14、24 第2変換部
20 学習装置
20a 事後確率算出部
111 第1層
112 第2層
113 統合部
141 注意機構
142 デコーダ

Claims (8)

  1. ニューラルネットワークを用いて、音声信号に対応する音声特徴量から認識結果であるシンボル系列を特定可能なデータを得る音声認識装置であって、
    前記ニューラルネットワークは、
    前記音声特徴量の系列を入力として、音響条件への適応のための特徴量である補助特徴量に変換する計算部と、
    前記補助特徴量を用いて、前記音声特徴量を前記音響条件に適応させた適応済み音声特徴量に変換する適応部と、
    前記適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する変換部と、
    を含むことを特徴とする音声認識装置。
  2. 前記計算部の出力は、前記変換部の入力と連結されている
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記適応部における変換は、
    前記補助特徴量を前記音声特徴量と同じ次元のベクトルに射影し、当該射影したベクトルを前記音声特徴量に加算するものである
    ことを特徴とする請求項1又は2記載の音声認識装置。
  4. 前記適応部の入力となる前記補助特徴量は、前記適応部の変換対象とする前記音声特徴量に対応する時間フレームと、当該時間フレームの前後の1以上の時間フレームとにそれぞれ対応する音声特徴量から得たものである
    ことを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。
  5. 前記計算部は、前記音声特徴量を入力とするSSNN(Sequence summarizing neural network)を用いて前記補助特徴量を計算することを特徴とする請求項1乃至4の何れか1項に記載の音声認識装置。
  6. 前記計算部で用いられるニューラルネットワークのパラメータ及び前記変換部で用いられるニューラルネットワークのパラメータは、各ニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして学習されたものであることを特徴とする請求項1乃至5の何れか1項に記載の音声認識装置。
  7. ニューラルネットワークにより、音声信号に対応する音声特徴量から認識結果であるシンボル系列を特定可能なデータを得る音声認識方法であって、
    前記ニューラルネットワークの計算部により、音声特徴量の系列を、音響条件への適応のための特徴量である補助特徴量に変換する計算工程と、
    前記ニューラルネットワークの適応部により、前記補助特徴量を用いて、前記音声特徴量を前記音響条件に適応させた適応済み音声特徴量を計算する適応工程と、
    前記ニューラルネットワークの変換部により、前記適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する変換工程と、
    を含むことを特徴とする音声認識方法。
  8. コンピュータを、請求項1から6の何れか1項に記載の音声認識装置として機能させるための音声認識プログラム。
JP2019159951A 2019-09-02 2019-09-02 音声認識装置、音声認識方法及び音声認識プログラム Pending JP2021039216A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019159951A JP2021039216A (ja) 2019-09-02 2019-09-02 音声認識装置、音声認識方法及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019159951A JP2021039216A (ja) 2019-09-02 2019-09-02 音声認識装置、音声認識方法及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2021039216A true JP2021039216A (ja) 2021-03-11

Family

ID=74848556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019159951A Pending JP2021039216A (ja) 2019-09-02 2019-09-02 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2021039216A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024029875A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치, 지능형 서버, 및 화자 적응형 음성 인식 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279444A (ja) * 2006-04-07 2007-10-25 Toshiba Corp 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279444A (ja) * 2006-04-07 2007-10-25 Toshiba Corp 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DELCROIX, MARC ET AL.: ""Auxiliary feature based adaptation of end-to-end ASR systems"", PROC. OF THE INTERSPEECH 2018, JPN7022003445, 2 September 2018 (2018-09-02), pages 2444 - 2448, ISSN: 0005000185 *
TOMASHENKO, NATALIA ET AL: ""Evaluation of Feature-Space Speaker Adaptation for End-to-End Acoustic Models"", PROC. OF THE LANGUAGE RESOURCES AND EVALUATION CONFERENCE 2018, JPN7022003444, 7 May 2018 (2018-05-07), pages 3163 - 3170, ISSN: 0004833974 *
VESELY, KAREL ET AL.: ""SEQUENCE SUMMARIZING NEURAL NETWORK FOR SPEAKER ADAPTATION"", PROC. OF THE 2016 IEEE ICASSP, JPN7022003443, 19 May 2016 (2016-05-19), pages 5315 - 5319, ISSN: 0005000186 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024029875A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치, 지능형 서버, 및 화자 적응형 음성 인식 방법

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11081105B2 (en) Model learning device, method and recording medium for learning neural network model
US11586930B2 (en) Conditional teacher-student learning for model training
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
US11610108B2 (en) Training of student neural network with switched teacher neural networks
US9123333B2 (en) Minimum bayesian risk methods for automatic speech recognition
US8494847B2 (en) Weighting factor learning system and audio recognition system
CN113743117B (zh) 用于实体标注的方法和装置
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP2021039216A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
JP6772115B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム
JPWO2020166125A1 (ja) 翻訳用データ生成システム
JP2020129061A (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
US11893983B2 (en) Adding words to a prefix tree for improving speech recognition
JP2015141368A (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP2021039218A (ja) 学習装置、学習方法及び学習プログラム
WO2024023946A1 (ja) 音声処理装置、音声処理方法及び音声処理プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190917

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230228