JP6633556B2 - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム - Google Patents

音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP6633556B2
JP6633556B2 JP2017003893A JP2017003893A JP6633556B2 JP 6633556 B2 JP6633556 B2 JP 6633556B2 JP 2017003893 A JP2017003893 A JP 2017003893A JP 2017003893 A JP2017003893 A JP 2017003893A JP 6633556 B2 JP6633556 B2 JP 6633556B2
Authority
JP
Japan
Prior art keywords
vector
acoustic model
context
preserving
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017003893A
Other languages
English (en)
Other versions
JP2018081294A (ja
Inventor
祐太 河内
祐太 河内
太一 浅見
太一 浅見
伸克 北条
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JP2018081294A publication Critical patent/JP2018081294A/ja
Application granted granted Critical
Publication of JP6633556B2 publication Critical patent/JP6633556B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、音声認識に用いる音響モデルを学習する技術に関する。
主に音声認識に用いられるConnectionist Temporal Classification(以下、CTC)は、ニューラルネットワーク(NN: Neural Network)を用いた機械学習による系列変換モデルの一種であり、隠れマルコフモデル(HMM: Hidden Markov Model)相当の機能をニューラルネットワークに行わせることができる枠組みである。音声認識において現在一般的に使われているNN-HMMハイブリッド方式では、音をシンボルに変換する音響モデルにおいて、入力系列と出力系列の長さが一対一である制約がある。一方、CTCでは通常の出力シンボルに加えて、空白を表現する空シンボルを導入することにより、系列長の短くなる変換をNN音響モデルに行わせることができるようになっている。そのため、音声認識であれば、単位時間(以下、フレームとも言う。)毎の音響特徴ベクトルの入力に対し、音素や文字、単語等を直接出力系列として、音響モデルや音声認識器を学習することができる(非特許文献1参照)。
Yajie Miao, Mohammad Gowayyed, and Florian Metze, "EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding", 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), IEEE, 2015.
例えば、CTCを用いた音声認識において出力されるものは、各出力シンボルと空文字の事後確率系列である。しかしながら、この事後確率系列はフレームごとに出力されるため、現在の音に対して様々な表記の可能性が足し合わされて出力される。例えば、英語において文字単位でCTCを学習すると、xという表記に対して/ks/という音が発音されている場合、/k/のフレームに対してはc, g, k, q, x等の確率が高くなり、/s/のフレームに対してはsの確率が高くなることが起きる。このような場合に、正解であるxに対してxsを出力してしまうといったことが起きる。通常、CTCにおいてはリカレント構造を持つニューラルネットワークを用いるため、この現象は時系列構造の暗黙的な学習によりある程度緩和することが可能であるが、それだけでは不十分な場合が多い。また、空シンボル数が長くなるに連れて記憶が困難になることも考えられる。これに対して、明示的に出力シンボルが空シンボルかどうかを区別して情報を記憶するメカニズムを導入することにより、CTCを用いた機械学習タスクにおける精度向上が期待できる。
この発明の目的は、上述のような点に鑑みて、CTCによる音響モデルを用いた音声認識の精度を向上することである。
上記の課題を解決するために、この発明の第一の態様の音響モデル学習装置は、音響特徴ベクトルを入力として、音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルを記憶する音響モデル記憶部と、学習音声から抽出した音響特徴ベクトルをニューラルネットワークに入力して事後確率ベクトルと空シンボル確率とを得る事後確率計算部と、空シンボル確率に基づいてニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくはニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算する文脈保存ベクトル計算部と、文脈保存ベクトルが計算されるたびに文脈保存ベクトルをニューラルネットワークの入力層もしくは隠れ層に連結する文脈保存ベクトル連結部と、を含む。
この発明の第二の態様の音声認識装置は、第一の態様の音響モデル学習装置により学習した音響モデルを記憶する音響モデル記憶部と、音響モデルを用いて入力音声の音声認識を行う音声認識部と、を含む。
この発明では、CTCを用いた音声認識の音響モデル学習において、CTCが出力したシンボルが空シンボルである可能性が低いときには、出力シンボルに関する情報を記憶し、空シンボルである可能性が高いときには、CTCが最後に出力した空シンボル以外のシンボルに関する情報を記憶する文脈保存ベクトルを導入する。これにより、特に時間的に間隔を置いた複数の入力特徴ベクトルが1つの出力結果になるようなケースにおいて、複数のシンボルを出力する誤りを減らすことができる。したがって、CTCによる音響モデルを用いた音声認識の精度が向上する。
図1は、音響モデル学習装置の機能構成を例示する図である。 図2は、音声認識装置の機能構成を例示する図である。 図3は、文脈保存ベクトルの計算方法を例示する図である。 図4は、マルコフ性を表す行列の獲得方法を例示する図である。 図5は、保持値ベクトルの計算方法を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態の音声認識システムは、例えば、音響モデル学習装置と音声認識装置とを含む。音響モデル学習装置は、学習音声と各学習音声に関するテキスト情報(例えば、文字、音素、HMM状態等、音声の変換先のシンボル情報)とを含む学習データを用いて、学習音声から生成された音響特徴ベクトルとともに音響特徴ベクトルの変換先の正解系列としてテキスト情報を入力し、このペアを用いてCTCによる音響モデルを学習する。音声認識装置は、音響モデル学習装置により学習した音響モデルを用いて、入力音声の音声認識を行う。音響モデル学習装置は、図1に示すように、学習データ記憶部10、文脈保存ベクトル生成部11、事後確率計算部12、文脈保存ベクトル計算部13、文脈保存ベクトル連結部14、および音響モデル記憶部20を含む。この音響モデル学習装置が後述の各ステップの処理を行うことにより実施形態の音響モデル学習方法が実現される。音声認識装置は、図2に示すように、音響モデル記憶部20、言語モデル記憶部21、および音声認識部22を含む。この音声認識装置が後述の各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
音響モデル学習装置および音声認識装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知または専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響モデル学習装置および音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響モデル学習装置および音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音響モデル学習装置および音声認識装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音響モデル学習装置および音声認識装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響モデル学習装置および音声認識装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
音響モデル学習装置の学習データ記憶部10には、音響モデルの学習に用いる学習データが記憶されている。学習データは、学習音声と各学習音声の内容に関するテキスト情報(例えば、HMM状態、音素、文字、単語等)とを含む。学習データは手動で収集してもよいし、公知の学習データ生成技術を用いて自動的に生成してもよい。学習データは予め十分な量を用意して学習データ記憶部10に記憶しておく。
以下、実施形態の音響モデル学習装置が実行する音響モデル学習方法を説明する。
音響モデル学習装置の音響モデル記憶部20には、CTCによる音響モデルが記憶されている。初期状態では従来技術のCTCによる音響モデルを用意して記憶しておけばよい。
音響モデル学習装置の文脈保存ベクトル生成部11は、文脈保存ベクトルK0=[k0,1, k0,2, k0,3, k0,4, …]Tを生成する。ここで、[…]Tはベクトルの転置を表す。文脈保存ベクトルK0の各次元は任意の値(例えば、0や1)に初期化する。文脈保存ベクトル生成部11は入力なしに動作することができるが、初期化に用いる値(例えば、0や1)を入力としてもよい。生成した文脈保存ベクトルK0は、音響モデル記憶部20に記憶されている音響モデルにおけるCTCニューラルネットワークの入力層もしくは隠れ層の任意の位置に連結する。連結とは、文脈保存ベクトルの情報を用いてCTCニューラルネットワークのパラメータに影響を与えるようにすることである。例えば、元々のCTCニューラルネットワークの隠れ層の前または後ろに文脈保存ベクトルを繋げ、隠れ層のベクトルの長さと文脈保存ベクトルの長さの和の長さであるベクトルを新規に生成する。または、個々の文脈保存ベクトルを隠れ層や出力層の大きさに変換する行列を別に用意し、行列による変換の結果を元々のCTCニューラルネットワークの出力層のベクトルと加算する。
音響モデル学習装置の事後確率計算部12は、学習データ記憶部10に記憶されている学習音声から抽出した時刻t+1(t≧0)における音響特徴ベクトルXt+1=[xt+1,1, xt+1,2, xt+1,3, xt+1,4, …]Tと、前の時刻tにおける文脈保存ベクトルKtとを、音響モデル記憶部20に記憶されている音響モデルのCTCニューラルネットワークへ入力し、出力シンボルに対する事後確率ベクトルCt+1=[ct+1,1, ct+1,2, ct+1,3, ct+1,4, …]T(以下、出力事後確率ベクトルと呼ぶ。)と、出力シンボルが空シンボルである確率を表す空シンボル確率φt+1とを得る。出力事後確率ベクトルCt+1と正解系列とは、CTCニューラルネットワークの誤差関数へ入力され、CTCニューラルネットワークのパラメータの更新に使用される。出力事後確率ベクトルCt+1および空シンボル確率φt+1は文脈保存ベクトル計算部13へ送られる。
音響モデル学習装置の文脈保存ベクトル計算部13は、事後確率計算部12から出力事後確率ベクトルCt+1および空シンボル確率φt+1を受け取り、空シンボル確率φt+1に基づいて一つ前の時刻tにおける文脈保存ベクトルKt=[kt,1, kt,2, kt,3, kt,4, …]Tを更新して、現在の時刻t+1における文脈保存ベクトルKt+1=[kt+1,1, kt+1,2, kt+1,3, kt+1,4, …]Tを生成する。文脈保存ベクトル計算部13は、例えば、空シンボル確率φt+1が空シンボルであることを示す場合には、CTCニューラルネットワークが最後に空シンボル以外のシンボルを出力した際の出力事後確率ベクトルを保持し、空シンボル確率φt+1が空シンボルでないことを示す場合には、CTCニューラルネットワークが今回出力した出力事後確率ベクトルCt+1を記録するように、文脈保存ベクトルKt+1を計算する。計算した文脈保存ベクトルKt+1は文脈保存ベクトル連結部14へ送られる。
文脈保存ベクトルの計算には、例えば、電子回路におけるフリップフロップ回路に類似した更新則を用いる。CTCニューラルネットワークが出力する空シンボル確率φt+1は0から1までの値を取り、1に近いほど空シンボルである可能性が高いことを表す。簡単のため、その両端の場合を考えると、
Figure 0006633556
のように、空シンボルではない場合(φt+1=0)には現在の時刻t+1における出力事後確率ベクトルCt+1の内容を記録し、空シンボルの場合(φt+1=1)には一つ前の時刻tにおける文脈保存ベクトルKtの内容を保持する。具体的には、出力された空シンボル確率φt+1が所定の閾値以上であればφt+1=1とし、空シンボル確率φt+1が所定の閾値未満であればφt+1=0とする等の手段により空シンボル確率φt+1を二値化し、式(1)のような更新則を用いればよい。また、両端が含まれるように自然に連続的に拡張した更新則として、式(2)を定義して計算してもよい。
Figure 0006633556

ただし、
Figure 0006633556
は要素毎の積を表す。[1, …, 1]Tは1を縦に並べたベクトルを表す。Φt+1は空シンボル確率φt+1を出力事後確率ベクトルCt+1の次元数分並べた縦ベクトル、すなわち、Φt+1=[φt+1, …, φt+1]Tである。
式(2)は式(3)のように書き下すことも可能である。
Figure 0006633556
文脈保存ベクトル計算部13は、出力シンボルに対する事後確率ベクトルCt+1の代わりに、図3に示す入力層、第一隠れ層、最終隠れ層等の、ニューラルネットワークの隠れ層等の他の内部パラメータや、入力された音響特徴ベクトルXt+1を用いてもよい。また、文脈保存ベクトル計算部13は、公知の次元削減手段を用いて文脈保存ベクトルKt+1を低次元化して出力してもよいし、平均化や正規化、離散化等の予め固定された関数による変換を行った後に出力してもよい。
音響モデル学習装置の文脈保存ベクトル連結部14は、文脈保存ベクトル計算部13から文脈保存ベクトルKt+1を受け取り、音響モデル記憶部20に記憶されているCTCニューラルネットワークの入力層または隠れ層の任意の位置に対して文脈保存ベクトルKt+1を連結する。文脈保存ベクトルの連結は、各時刻に更新された文脈保存ベクトルを受け取るたびに行う。連結する位置は、文脈保存ベクトル生成部11が初期状態の文脈保存ベクトルK0を連結した位置でもよいし、その他の任意の位置でもよい。一般的には、各時刻に文脈保存ベクトルを連結する位置は同一とする。すなわち、CTCニューラルネットワークに追加した文脈保存ベクトルK0を、文脈保存ベクトルKt+1を計算するたびに更新する。
以下、実施形態の音声認識装置が実行する音声認識方法を説明する。
音声認識装置の音響モデル記憶部20には、音響モデル学習装置により学習したCTCによる音響モデルが記憶されている。
音声認識装置の言語モデル記憶部21には、音声認識に用いる言語モデルが記憶されている。言語モデルの種類は、音声認識部22が音声認識を行う際に利用可能なものであればどのようなものであってもよい。
音声認識装置の音声認識部22は、音響モデル記憶部20に記憶された音響モデルと言語モデル記憶部21に記憶された言語モデルとを用いて、入力音声を音声認識し、その音声認識結果を出力する。音声認識部22は、CTCによる音響モデル単体を用いて音声認識を行う音声認識器でもよいし、CTCによる音響モデルを重み付き有限状態トランスデューサ(WFST: Weighted Finite-State Transducer)と組み合わせた音声認識器であってもよい。
上述の実施形態では、音響モデル学習装置と音声認識装置とを別々の装置として構成した音声認識システムを説明したが、音響モデル学習装置と音声認識装置とが備える機能をすべて備えた一台の音声認識装置として構成してもよい。すなわち、学習データ記憶部10、文脈保存ベクトル生成部11、事後確率計算部12、文脈保存ベクトル計算部13、文脈保存ベクトル連結部14、音響モデル記憶部20、言語モデル記憶部21、および音声認識部22を含む音声認識装置を構成することも可能である。
[変形例]
文脈保存ベクトルの計算では、過去の1シンボルの分布についての情報だけを保存する更新則を用いる例を説明したが、複数シンボルの分布についての情報を保存するように構成することも可能である。例えば、3シンボルの分布についての情報を保存する場合であれば、文脈保存ベクトル計算部13は、式(4)の計算により、文脈保存ベクトルKt=[kt,1, kt,2, kt,3, kt,4, …]Tと同様の事後確率ベクトルLt+1=[lt+1,1, lt+1,2, lt+1,3, lt+1,4, …]T, Mt+1=[mt+1,1, mt+1,2, mt+1,3, mt+1,4, …]Tを生成し、文脈保存ベクトルKt+1に事後確率ベクトルLt+1, Mt+1を連結したベクトルを文脈保存ベクトルKt+1として扱う。
Figure 0006633556

4シンボル以上の分布についての情報を保持する場合は、同様にしてシンボル数分の事後確率ベクトルを生成し、文脈保存ベクトルKt+1に連結すればよい。例えば、Nシンボルの分布についての情報を保存する場合、i=1, …, N-1について式(5)を計算して事後確率ベクトルK(1) t+1, …, K(N-1) t+1を生成し、文脈保存ベクトルKt+1に連結する。
Figure 0006633556
文脈保存ベクトルを連結する際には、図4に示すように、出力シンボル系列のマルコフ性を表す行列を用いた線形変換を適用した後、直接出力層に加算等で統合するようなCTCニューラルネットワークを作成してもよい。出力シンボル系列のマルコフ性を表す行列は、例えば誤差逆伝播法等の一般的なニューラルネットワーク学習法により、学習データから自動的に獲得することができる。
上記のように、行列による線形変換を適用する場合、文脈保存ベクトルが入力される行列を、外部の言語資源等からの情報を反映したような出力シンボル系列のマルコフ性を表す行列としてもよい。この行列は、外部の言語資源等を集計することにより算出したシンボル遷移確率を用いて、外部から行列の値に影響を与える任意の操作(例えば、初期化、上書き、線形補間等)により、外部の言語資源等からの情報を反映するように構成されるものである。
CTCニューラルネットワークでは、出力した複数の同一シンボルを1つにまとめることによって、系列長が短くなる変換を実現している。その際、正解として同じシンボルが2つ以上連続するものがある場合に、それらの間に挟むことのできる無意味なシンボルを追加し、同じシンボルを連続して出力できるようにすることを主目的として空シンボルが導入されている。したがって、学習の途中では、空シンボル以外のシンボルを連続して出力しても、それは1つのシンボルとして扱うことが正しい。例えば、空シンボルを「_」とし、CTCニューラルネットワークが事後確率系列の最大値を取るシンボルとして、「aabbbccccd」を出力した場合は「abcd」が、「aabb_bccccd」を出力した場合は「abbcd」が出力結果ということになる。このような状況下で、「aabb_bcccc」までの出力結果から最後のシンボルを決める状況において、aとbとcとに対応するベクトル情報を覚えることにより、過去の履歴を反映した推論を行えることが期待できる。しかしながら、空シンボルによる制御のみでは、空シンボルが出力されているとき以外の、「aabbbcccc」に関するベクトルの全ての情報を覚えておく必要があるため、無駄が多い。そこで、出力したシンボルに対応するベクトルが、記憶している最後のベクトルと類似しているかどうかによって情報の維持を制御する機構を追加してもよい。
具体的には、図5に示すように、文脈保存ベクトル計算部13が、文脈保存ベクトルKtと、新たに記憶しようとするベクトル(例えば、現在の出力事後確率ベクトルCt+1)との間のベクトル間類似度st+1を、コサイン距離やKLダイバージェンス等のベクトル間類似度計算手法により計算し、必要に応じて正規化等を行う。その類似度st+1の値と空シンボル確率φt+1を、最大値関数や平均化等の処理で統合し、保持値gt+1とする。その保持値gt+1を出力事後確率ベクトルCt+1の次元数分縦に並べた保持値ベクトルGt+1=[gt+1, …, gt+1]Tを元々の空シンボル確率ベクトルΦt+1の代わりとして用い、文脈保存ベクトルKt+1の計算を行う。上述のように、複数シンボルの分布についての情報を保存する場合には、最後の情報を記憶している文脈保存ベクトルKtに対してベクトル間類似度を計算してもよいし、それ以外のより過去の文脈保存ベクトルを対象としてベクトル間類似度を計算してもよい。
文脈保存ベクトルKt+1として、出力事後確率ベクトルCt+1に加え、空シンボル確率φt+1や入力特徴量ベクトルXt+1等の入出力ベクトルや、その他のニューラルネットワークパラメータ等のモデルパラメータを組み合わせて連結したベクトルを用いてもよい。
出力層から文脈保存ベクトルを計算する処理および文脈保存ベクトルを連結する処理を行列演算等の微分可能な方法で表現し、ニューラルネットワーク学習を適用する際に、その処理に関わる行列に関しても学習を行い、値を変更してもよい。行列の初期値は任意でよく、例えば、上述の実施形態と等価な計算を実現する行列を初期値としてもよいし、乱数を並べた行列としてもよい。また、ベクトル間類似度の計算を行う場合には、その演算についても微分可能な方法で表現し、それに対して同様の学習を実施してもよい。
ベクトルの連結操作として、2つ以上のベクトルを、その次の層の大きさのベクトルに変換する任意の手法を用いてもよい。2つのベクトルを連結する場合での例として、2つのベクトルを並べて、2つのベクトルの長さの和の長さを持つベクトルを作った後、そのベクトルが入力される先の行列の列数をその長さまで拡張した行列との積を取る方法で行ってもよい。また、各々のベクトルに対し、個別に行列を用意し、行列積を実施した後、その結果を加算等で統合してもよい。3つ以上の場合についても同様である。
文脈保存ベクトルを連結する際には、文脈保存ベクトルを直接連結するのではなく、関数による任意の変換を通してから連結してもよい。例えば、文脈保存ベクトルを一度別のニューラルネットワークに入力し、そこから得られる値(例えば、出力値)を連結に用いる等、学習可能なパラメータを持った関数を用いてもよい。また、最大値関数を用いて離散化する等、固定の関数での変換結果を連結してもよい。また、それらの変換結果を文脈保存ベクトルとして保持してもよい。
この発明の音声認識技術では、CTCによる音響モデルに対して、以前の時刻に出力した空シンボル以外のシンボルに関する情報を記憶するための文脈保存ベクトルを用意し、空シンボルである可能性が高いときには文脈保存ベクトルに記憶している情報を保持し、空シンボルでない可能性が高いときには文脈保存ベクトルの情報を更新する機構を追加した。これにより、特に時間的に間隔を置いた複数の入力音響特徴ベクトルが1つの出力結果となるようなケースにおいて複数のシンボルを出力する誤りを減らすことができる。したがって、上述のように構成することにより、この発明の音声認識技術によれば、CTCによる音響モデルを用いた音声認識の精度を向上することができる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10 学習データ記憶部
11 文脈保存ベクトル生成部
12 事後確率計算部
13 文脈保存ベクトル計算部
14 文脈保存ベクトル連結部
20 音響モデル記憶部
21 言語モデル記憶部
22 音声認識部

Claims (9)

  1. 音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルを記憶する音響モデル記憶部と、
    学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得る事後確率計算部と、
    上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算する文脈保存ベクトル計算部と、
    上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する文脈保存ベクトル連結部と、
    を含む音響モデル学習装置。
  2. 請求項1に記載の音響モデル学習装置であって、
    Ktを時刻tの上記文脈保存ベクトルとし、Ct+1を時刻t+1の上記事後確率ベクトルとし、φt+1を時刻t+1の上記空シンボル確率とし、
    上記文脈保存ベクトル計算部は、上記空シンボル確率φt+1を二値化し、次式により時刻t+1の上記文脈保存ベクトルKt+1を計算するものである、
    Figure 0006633556

    音響モデル学習装置。
  3. 請求項1に記載の音響モデル学習装置であって、
    Ktを時刻tの上記文脈保存ベクトルとし、Ct+1を時刻t+1の上記事後確率ベクトルとし、φt+1を時刻t+1の上記空シンボル確率とし、Φt+1を上記空シンボル確率φt+1を縦に並べたベクトルとし、[1, …, 1]Tを1を縦に並べたベクトルとし、
    Figure 0006633556

    を要素毎の積とし、
    上記文脈保存ベクトル計算部は、次式により時刻t+1の上記文脈保存ベクトルKt+1を計算するものである、
    Figure 0006633556

    音響モデル学習装置。
  4. 請求項2または3に記載の音響モデル学習装置であって、
    上記文脈保存ベクトル計算部は、N≧2とし、i=1, …, N-1とし、次式により計算した時刻t+1の事後確率ベクトルK(1) t+1, …, K(N-1) t+1を上記文脈保存ベクトルKt+1に連結したものを時刻t+1の文脈保存ベクトルKt+1とする、
    Figure 0006633556

    音響モデル学習装置。
  5. 請求項1から4のいずれかに記載の音響モデル学習装置であって、
    上記文脈保存ベクトル計算部は、以前の時刻に計算した上記文脈保存ベクトルと上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルとの類似度を計算し、その類似度を上記空シンボル確率と統合した保持値を用いて上記文脈保存ベクトルを計算する、
    音響モデル学習装置。
  6. 請求項1から5のいずれかに記載の音響モデル学習装置により学習した音響モデルを記憶する音響モデル記憶部と、
    上記音響モデルを用いて入力音声の音声認識を行う音声認識部と、
    を含む音声認識装置。
  7. 音響モデル記憶部に、音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルが記憶されており、
    事後確率計算部が、学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得、
    文脈保存ベクトル計算部が、上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算し、
    文脈保存ベクトル連結部が、上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する、
    音響モデル学習方法。
  8. 音響モデル記憶部に、請求項7に記載の音響モデル学習方法により学習した音響モデルが記憶されており、
    音声認識部が、上記音響モデルを用いて入力音声の音声認識を行う、
    音声認識方法。
  9. 請求項1から5のいずれかに記載の音響モデル学習装置もしくは請求項6に記載の音声認識装置としてコンピュータを機能させるためのプログラム。
JP2017003893A 2016-11-10 2017-01-13 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Active JP6633556B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016219658 2016-11-10
JP2016219658 2016-11-10

Publications (2)

Publication Number Publication Date
JP2018081294A JP2018081294A (ja) 2018-05-24
JP6633556B2 true JP6633556B2 (ja) 2020-01-22

Family

ID=62198883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017003893A Active JP6633556B2 (ja) 2016-11-10 2017-01-13 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6633556B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109273003B (zh) * 2018-11-20 2021-11-02 思必驰科技股份有限公司 用于行车记录仪的语音控制方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60158493A (ja) * 1984-01-27 1985-08-19 カシオ計算機株式会社 エラ−除去装置
JP4381404B2 (ja) * 2006-09-25 2009-12-09 株式会社エヌ・ティ・ティ・ドコモ 音声合成システム、音声合成方法、音声合成プログラム

Also Published As

Publication number Publication date
JP2018081294A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
US10902845B2 (en) System and methods for adapting neural network acoustic models
US10395641B2 (en) Modifying a language conversation model
CN111523640B (zh) 神经网络模型的训练方法和装置
CN110807515A (zh) 模型生成方法和装置
US11355097B2 (en) Sample-efficient adaptive text-to-speech
WO2019037700A1 (zh) 语音情感检测方法、装置、计算机设备及存储介质
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN111950295A (zh) 一种训练自然语言处理模型的方法和系统
US20210073645A1 (en) Learning apparatus and method, and program
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
CN114065915A (zh) 网络模型的构建方法、数据处理方法、装置、介质及设备
JP6691501B2 (ja) 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム
JP2024510816A (ja) タイイングされ縮小されたrnn-t
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN111402864A (zh) 语音处理方法及电子设备
CN116842153A (zh) 一种基于反馈特征学习的多模态情感分析方法、系统
KR102663654B1 (ko) 적응형 시각적 스피치 인식
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
CN117355840A (zh) 正则化词分割
JP6965846B2 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191212

R150 Certificate of patent or registration of utility model

Ref document number: 6633556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150