JP7212596B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7212596B2
JP7212596B2 JP2019159955A JP2019159955A JP7212596B2 JP 7212596 B2 JP7212596 B2 JP 7212596B2 JP 2019159955 A JP2019159955 A JP 2019159955A JP 2019159955 A JP2019159955 A JP 2019159955A JP 7212596 B2 JP7212596 B2 JP 7212596B2
Authority
JP
Japan
Prior art keywords
neural network
symbol string
posterior probability
transformer
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019159955A
Other languages
English (en)
Other versions
JP2021039220A (ja
Inventor
成樹 苅田
厚徳 小川
マーク デルクロア
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
Original Assignee
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johns Hopkins University filed Critical Johns Hopkins University
Priority to JP2019159955A priority Critical patent/JP7212596B2/ja
Publication of JP2021039220A publication Critical patent/JP2021039220A/ja
Application granted granted Critical
Publication of JP7212596B2 publication Critical patent/JP7212596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 ESPnet:end-to-end speech processing toolkit pytorch-transformer2 GitHub:https://github.com/ShigekiKarita/espnet/tree/pytorch-transformer2 掲載日 2019年4月21日
本発明は、音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラムに関する。
ニューラルネットワークを用いた音声認識モデルとして、Transformerが知られている(非特許文献1参照)。Transformerは、RNN(Recurrent Neural Networks)を使わないエンコーダ・デコーダモデルであり、RNNベースの音声認識モデルと比較して、高速にモデルの学習が可能である。
また、RNNベースの音声認識モデルに言語モデルを統合するjoint decodingの技術が知られている(非特許文献2参照)。この技術によれば、言語モデルに含まれる膨大なテキスト情報を活用することにより、入力された音声を記号列へ復号する復号化器(デコーダ)の性能向上が期待される。
L.Dong, S.Xu, B.Xu, "SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODEL FOR SPEECH RECOGNITION",IEEE International Conference on Acoustics, 2018年, Speech and Signal Processing, pp.5884-5888 D.Bahdanau, J.Chorowski, D.Serdyuk, Y.Bengio, "END-TO-END ATTENTION-BASED LARGE VOCABULARY SPEECH RECOGNITION",IEEE International Conference on Acoustics, 2016年, Speech and Signal Processing, pp.4945-4949
しかしながら、従来、Transformerに言語モデルを統合することは困難であった。例えば、RNNベースの音声認識モデルとTransformerとでは、出力の特性が異なる。そのため、非特許文献2に記載された技術において、RNNベースの音声認識モデルをTransformerに置き換えて、復号化器の性能向上を図ることは困難であった。
本発明は、上記に鑑みてなされたものであって、Transformerに言語モデルを統合することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声認識装置は、第1のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する変換部と、第2のニューラルネットワークを用いて、予測済みの記号列と前記中間特徴量とから、前記予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のTransformerに基づく事後確率とを算出する第1の算出部と、第3のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第2の算出部と、言語モデルを用いて、前記第2のニューラルネットワークを用いて予測された記号列および前記第3のニューラルネットワークを用いて予測された記号列の尤度を算出する第3の算出部と、前記Transformerに基づく事後確率と、前記CTCに基づく事後確率と、前記尤度とを用いて、予測される記号列を探索する探索部と、を有することを特徴とする。
また、本発明に係る学習装置は、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換部と、第2のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する第1の算出部と、第3のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第2の算出部と、前記Transformerに基づく事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新するパラメータ更新部と、を有することを特徴とする。
本発明によれば、Transformerに言語モデルを統合することが可能となる。
図1は、本実施形態の音声認識装置の概略構成を例示する模式図である。 図2は、本実施形態の学習装置の概略構成を例示する模式図である。 図3は、音声認識処理手順を示すフローチャートである。 図4は、学習処理手順を示すフローチャートである。 図5は、音声認識プログラムおよび学習プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[音声認識装置の構成]
図1は、本実施形態の音声認識装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の音声認識装置10は、パソコン等の汎用コンピュータで実現され、記憶部11、および制御部12を備える。
記憶部11は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部11には、音声認識装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。
本実施形態において、記憶部11は、後述する音声認識処理に適用されるend-to-endニューラルネットワークNのパラメータ11aを記憶する。これらのパラメータ11aは、後述する音声認識処理に先立って、学習された値である。
制御部12は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部12は、図1に例示するように、Transformerエンコーダ12a、Transformerデコーダ12b、CTCデコーダ12c、言語評価部12dおよび探索部12eとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部12は、その他の機能部を備えてもよい。
Transformerエンコーダ12aは、変換部の一例であり、第1のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する。例えば、Transformerエンコーダ12aは、単位時間ごとの音声信号の特徴量である対数メルフィルタバンク特徴量Xfbankを、前処理用のニューラルネットワークによって長さ等を縮約した特徴量Xsubを入力として受け付ける。そして、Transformerエンコーダ12aは、特徴量Xsubを第1のニューラルネットワークにより中間特徴量に変換して出力する。
ここで、Transformerエンコーダ12aを構成する第1のニューラルネットワークの層の総数e、第i層(i=0,1,…,e-1)の入力Xi、出力Xi+1と表記すると、次式(1)に示すように、各層iは、入力特徴量Xiを中間特徴量Xi+1に変換して出力する。また、最終層は第e-1層は、中間特徴量として音声特徴量Xを出力する。
Figure 0007212596000001
ここで、PEは、フレーム番号1,2,…,nsubを入力として、datt次元の特徴量を出力するニューラルネットワークである。また、MHAは、3つの特徴量系列を入力として、1つ目の特徴量系列と同じ次元・長さの特徴量系列を出力するニューラルネットワークである。また、FFは、2層の全結合層とReLU(Rectified Linear Units)活性化層からなる、入力特徴量と時刻ごとに同じ次元の特徴量系列を出力するニューラルネットワークである。
なお、Transformerエンコーダ12aを構成する第1のニューラルネットワークは、上記(1)式以外に、前処理用のニューラルネットワークとして、例えば、2層のCNN(Convolution Neural Networks)とReLU活性化層とで構成される場合がある。その場合には、CNNの出力の長さnsub、チャネル数dattとすれば、各中間特徴量Xは、nsub×datt次元のベクトルとなる。
Transformerデコーダ12bは、第1の算出部の一例であり、第2のニューラルネットワークを用いて、予測済みの記号列と中間特徴量Xとから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する。ここで、予測される記号列とは、予測済みの記号列に後続する記号を含む新たな記号列のことである。
具体的には、Transformerデコーダ12bは、従来のTransformerにおけるデコーダに相当する。すなわち、Transformerデコーダ12bは、Transformerエンコーダ12aで変換して得られた音声特徴量Xと、既に予測済みの記号列Y[1:u]=Y[1],…,Y[u]を入力とし、次式(2)に示すように、後続する記号列Y[2:u+1]を予測して出力する。
Figure 0007212596000002
ここで、Embedは、PEと同様のニューラルネットワークであり、PEにおける時刻(フレーム)に代えて記号の系列Y[1:u]を入力として、datt次元の特徴量を出力する。
なお、Transformerデコーダ12bを構成する第2のニューラルネットワークの層の総数d、第j層(j=0,1,…,d-1)の入力Zj、出力Zj+1と表記する。この場合に、Transformerデコーダ12bは、次式(3)に示すように、Y[1:u]およびXが与えられたもとで、Transformerに基づく事後確率、つまり、次の記号がY[u+1]となる事後確率ps2s(Y|X)を算出して出力する。
Figure 0007212596000003
ここで、重み行列Wattおよびバイアスベクトルbattは、第2のニューラルネットワークのパラメータであり、予め学習されたものである。
CTCデコーダ12cは、第2の算出部の一例であり、第3のニューラルネットワークを用いて、中間特徴量Xから、予測される記号列と該記号列のCTCに基づく事後確率を算出する。例えば、CTCデコーダ12cは、第3のニューラルネットワークを用いて、中間特徴量Xの時刻(フレーム)に対応する記号を配置した記号列であるアライメントついて、あらゆるアライメントに対する事後確率を算出する。
具体的には、CTCデコーダ12cは、Transformerエンコーダ12aの出力であるXを用いて、次式(4)に示すように、CTCに基づく事後確率pctc(Y|X)を算出して出力する。
Figure 0007212596000004
ここで、重み行列Wctcおよびバイアスベクトルbctcは、第3のニューラルネットワークのパラメータであり、予め学習されたものである。
そして、CTCに基づく事後確率pctc(Y|X)とは、XとYとの間の任意のアライメントに対する事後確率である。アライメントとは、各入力系列データの時刻tに対応する記号列Yを配置した系列である。例えば、5フレームからなる入力系列に対するアライメントπとして、aabcc、abbbc、aaabc、…等が挙げられる。
Cは、CTCデコーダ12cの出力であり、C[t,π[t]]は、出力記号π[t]とXのt番目のフレームとの間のアライメントである。
また、多対1のマッピング関数B(π)は、アライメントπから冗長な記号を取り除く関数である、例えば、φを空白記号(blank symbol)とすれば、B(aaφb)=abである。また、1対多のマッピング関数B-1は、記号列を入力として、上記したアライメントのすべての集合を出力する。
上記式(4)の第2式では、Xを観測した場合の各アライメントπの事後確率を、「時刻tに記号π[t]を配置する確率C[t,π[t]]を全時刻で総乗したもの」として算出している。
また、上記式(4)の第3式では、Xを観測した場合の記号列Yの事後確率を、「Yの出現の場合わけであるアライメントのすべてにおける上記した第2式の事後確率を総和したもの」として算出している。
なお、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークは、全体として1つのend-to-endのニューラルネットワークNとみなして学習されたものである。
言語評価部12dは、第3の算出部の一例であり、言語モデルを用いて、第2のニューラルネットワークを用いて予測された記号列および第3のニューラルネットワークを用いて予測された記号列の尤度を算出する。
ここで、言語モデルは、周知のn-gramやニューラルネットワークに基づく言語モデルであり、記号列Yのみからなるデータセットにおける、綴り方や文法などに起因する記号列Yの尤度plm(Y)を最大化するように、パラメータが学習されたものである。
探索部12eは、Transformerに基づく事後確率ps2s(Y|X)と、CTCに基づく事後確率pctc(Y|X)と、尤度plm(Y)とを用いて、予測される記号列を探索する。
具体的には、探索部12eは、次式(5)を満たす記号列^Yを探索することにより、入力された音声信号に対して尤もらしい記号列^Yを予測記号列として出力する。
Figure 0007212596000005
ここで、探索部12eは、Transformerに基づく事後確率ps2s(Y|X)の対数を、Transformerスコアとして算出する。また、探索部12eは、CTCに基づく事後確率pctc(Y|X)の対数を、CTCスコアとして算出する。また、探索部12eは、言語評価部12dから得られた尤度plm(Y)を、言語モデルスコアとする。
そして、探索部12eは、上記式(5)に示すように、3つのスコアの重み付け和が最大となる記号列を予測記号列として探索する。なお、記号列の探索は、3つのスコアの重み付け和とする点を除いて、従来の手法と同様であり、例えば、ビームサーチ等によって求めることができる。
[学習装置の構成]
図2は、本実施形態の学習装置の概略構成を例示する模式図である。図2に例示するように、本実施形態の学習装置20は、パソコン等の汎用コンピュータで実現され、記憶部21、および制御部22を備える。
記憶部21は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部21には、学習装置20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。
本実施形態において、記憶部21は、上記した音声認識装置10の記憶部11と同様に、end-to-endニューラルネットワークNのパラメータ11aを記憶する。このパラメータ11aは、後述する学習処理で更新される。
制御部22は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部22は、図2に例示するように、Transformerエンコーダ12a、Transformerデコーダ12b、CTCデコーダ12c、パラメータ更新部22dおよび終了判定部22eとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。また、制御部22は、その他の機能部を備えてもよい。
Transformerエンコーダ12aは、入力された学習用の音声信号の特徴量を処理の対象とする点を除き、上記した音声認識装置10と同一の機能部であるので、説明を省略する。また、Transformerデコーダ12b、およびCTCデコーダ12cは、上記した音声認識装置10と同一の機能部であるので、説明を省略する。
なお、学習時には、正解記号列が教師データとして与えられるので、Transformerデコーダ12bは、予測済みの記号列の代わりに正解記号列を用いて、予測される記号列と該記号列のTransurofmerに基づく事後確率とを算出する構成としてもよい。この場合、Transformerの入力として予測済みの記号列を用いる必要はない。
パラメータ更新部22dは、Transformerに基づく事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータ11aを更新する。
具体的には、パラメータ更新部22dは、次式(6)に示すように、損失関数の値を算出する。ここで、αは予め適当な値が設定されたハイパーパラメータである。
Figure 0007212596000006
パラメータ更新部22dは、上記式(6)の損失関数を用いる点を除き、例えば誤差逆変換学習等の周知の手法を用いて、end-to-endニューラルネットワークNのパラメータの値を算出し、記憶部21に記憶されているパラメータ11aを更新する。
なお、学習装置20は、パラメータ11aの更新が行われた後、再び学習用の音声信号の特徴量の入力を受け付けて、end-to-endニューラルネットワークNを用いて、記号列の予測を行う。
終了判定部22eは、所定の終了条件を満たした場合に、パラメータ11aの更新を終了する。例えば、終了判定部22eは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合に、パラメータ11aの更新を終了する。
[音声認識処理]
次に、図3を参照して、本実施形態に係る音声認識装置10による音声認識処理について説明する。図3は、音声認識処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
まず、Transformerエンコーダ12aが、入力された音声信号の特徴量を受け付ける(ステップS1)。また、Transformerエンコーダ12aが、第1のニューラルネットワークを用いて、受け付けた音声信号の特徴量を符号化した中間特徴量に変換する(ステップS2)。
次に、Transformerデコーダ12bが、第2のニューラルネットワークを用いて、遂次的に記号列を予測する。具体的には、Transformerデコーダ12bは、予測済みの記号列(ない場合は、空の記号列)と中間特徴量とから、当該予測済の記号列に後続する記号を含む新たな記号列(以下、「予測される記号列」という)と該記号列のTransformerに基づく事後確率とを算出する(ステップS3)。例えば、予測済みの記号列をY[1:u]とし、Transformerデコーダ12bは、Y[2:u+1]を予測される記号列として予測する。
また、CTCデコーダ12cが、第3のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する(ステップS4)。
また、言語評価部12dが、言語モデルを用いて、予測された記号列の尤度を算出する(ステップS5)。
そして、探索部12eが、Transformerに基づく事後確率と、CTCに基づく事後確率と、尤度とを用いて、記号列を予測する(ステップS6)。そして、探索部12eは、十分な尤度の予測された記号列が得られることを終了条件として、終了条件を満たすまで(ステップS7、No)、ステップS3~S6の処理を繰り返し、新たな記号列の逐次的な予測を繰り返す。探索部12eは、終了条件を満たした場合に(ステップS7、Yes)、一連の音声認識処理を終了する。
[学習処理]
次に、図4を参照して、本実施形態に係る学習装置20による学習処理について説明する。図4は、学習処理手順を示すフローチャートである。図4のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
まず、まず、Transformerエンコーダ12aが、入力された学習用の音声信号の特徴量を受け付ける(ステップS11)。そして、Transformerエンコーダ12a、Transformerデコーダ12bおよびCTCデコーダ12cが、記号列を予測する(ステップS12)。
すなわち、Transformerエンコーダ12aが、第1のニューラルネットワークを用いて、受け付けた音声信号の特徴量を符号化した中間特徴量に変換する。また、Transformerデコーダ12bが、第2のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する。また、CTCデコーダ12cが、第3のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。
次に、パラメータ更新部22dが、Transformerに基づく事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、end-to-endニューラルネットワークのパラメータ11aを更新する(ステップS13)。
そして、終了判定部22eが、所定の終了条件を満たすか否かを確認する(ステップS14)。例えば、終了判定部22eは、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合に、終了条件を満たすと判定する。
終了判定部22eは、所定の終了条件を満たさないと判定した場合には(ステップS14、No)、ステップS11に処理を戻して、記号列の予測とパラメータ11aの更新とを繰り返す。一方、終了判定部22eは、所定の終了条件を満たすと判定した場合には(ステップS14、Yes)、一連の学習処理を終了する。
以上、説明したように、本実施形態の音声認識装置10において、Transformerエンコーダ12aが、第1のニューラルネットワークを用いて、入力された音声信号の特徴量を符号化した中間特徴量に変換する。また、Transformerデコーダ12bが、第2のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測済みの記号列に後続する記号を含む記号列である予測される記号列と該記号列のTransformerに基づく事後確率とを算出する。また、CTCデコーダ12cが、第3のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。また、言語評価部12dが、言語モデルを用いて、予測された記号列の尤度を算出する。また、探索部12eが、Transformerに基づく事後確率と、CTCに基づく事後確率と、尤度とを用いて、予測される記号列を探索する。
これにより、音声認識装置10は、Transformerに言語モデルを統合して音声認識処理を行うことが可能となる。したがって、入力された音声を記号列に復号する復号化器の性能向上を図ることが可能となる。その結果、音声認識の精度向上が可能となる。
また、音声認識装置10において、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークは、全体として1つのend-to-endのニューラルネットワークとみなして学習されたものである。これにより、音声認識処理が最適化され、より高精度に音声認識が可能となる。
また、本実施形態の学習装置20において、Transformerエンコーダ12aが、第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する。また、Transformerデコーダ12bが、第2のニューラルネットワークを用いて、予測済みの記号列と中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する。また、CTCデコーダ12cが、第3のニューラルネットワークを用いて、中間特徴量から、予測される記号列と該記号列のCTCに基づく事後確率を算出する。また、パラメータ更新部22dが、Transformerに基づく事後確率と、CTCに基づく事後確率とから算出した損失関数値を用いて、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータ11aを更新する。
なお、学習時には、正解記号列が教師データとして与えられるので、Transformerデコーダ12bは、予測済みの記号列の代わりに正解記号列を用いて、予測される記号列と該記号列のTransurofmerに基づく事後確率とを算出する構成としてもよい。この場合、Transformerの入力として予測済みの記号列を用いる必要はない。
これにより、学習装置20は、end-to-endのニューラルネットワークを学習することが可能となる。また、学習したTransformerに言語モデルを統合することが可能となる。これにより、入力された音声を記号列に復号する復号化器の性能向上を図ることが可能となる。その結果、音声認識の精度向上が可能となる。
また、学習装置20は、終了判定部22eが、損失関数値が所定の閾値以下となった場合、パラメータ11aの更新回数が所定の回数に到達した場合、またはパラメータ11aの更新量が所定の閾値以下となった場合に、パラメータ11aの更新を終了する。これにより、学習処理の処理負荷を抑制することが可能となる。
[プログラム]
上記実施形態に係る音声認識装置10および学習装置20が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声認識装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置10として機能させることができる。また、学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置20として機能させることができる。
ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、音声認識装置10または学習装置20の機能を、クラウドサーバに実装してもよい。
図5は、音声認識プログラムおよび学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、音声認識プログラムまたは学習プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した音声認識装置10または学習装置20が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、音声認識プログラムまたは学習プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、音声認識プログラムまたは学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、音声認識プログラムまたは学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
10 音声認識装置
11 記憶部
11a パラメータ
12 制御部
12a Transformerエンコーダ
12b Transformerデコーダ
12c CTCデコーダ
12d 言語評価部
12e 探索部
20 学習装置
21 記憶部
22 制御部
22d パラメータ更新部
22e 終了判定部
N end-to-endニューラルネットワーク

Claims (4)

  1. 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換部と、
    第2のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する第1の算出部と、
    第3のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第2の算出部と、
    前記Transformerに基づく事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新するパラメータ更新部と、
    を有することを特徴とする学習装置。
  2. 前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項に記載の学習装置。
  3. 学習装置で実行される学習方法であって、
    第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換工程と、
    第2のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する第1の算出工程と、
    第3のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第2の算出工程と、
    前記Transformerに基づく事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新するパラメータ更新工程と、
    を含んだことを特徴とする学習方法。
  4. 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を符号化した中間特徴量に変換する変換ステップと、
    第2のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列のTransformerに基づく事後確率とを算出する第1の算出ステップと、
    第3のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第2の算出ステップと、
    前記Transformerに基づく事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新するパラメータ更新ステップと、
    をコンピュータに実行させるための学習プログラム。
JP2019159955A 2019-09-02 2019-09-02 学習装置、学習方法および学習プログラム Active JP7212596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019159955A JP7212596B2 (ja) 2019-09-02 2019-09-02 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019159955A JP7212596B2 (ja) 2019-09-02 2019-09-02 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2021039220A JP2021039220A (ja) 2021-03-11
JP7212596B2 true JP7212596B2 (ja) 2023-01-25

Family

ID=74849209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019159955A Active JP7212596B2 (ja) 2019-09-02 2019-09-02 学習装置、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP7212596B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN113674764A (zh) * 2021-08-20 2021-11-19 广东外语外贸大学 基于双向循环神经网络的口译评测方法、系统及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190189115A1 (en) 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3238178B2 (ja) * 1990-12-27 2001-12-10 株式会社東芝 学習機械の学習法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190189115A1 (en) 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG, Linhao et al.,"SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODEL FOR SPEECH RECOGNITION",Proc. of the 2018 IEEE ICASSP,2018年04月15日,pp. 5884-5888

Also Published As

Publication number Publication date
JP2021039220A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
US11271876B2 (en) Utilizing a graph neural network to identify supporting text phrases and generate digital query responses
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
EP3373293B1 (en) Speech recognition method and apparatus
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN110603583A (zh) 语音识别系统和用于语音识别的方法
US11657802B2 (en) Utilizing a dynamic memory network for state tracking
US11521071B2 (en) Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration
US20170243114A1 (en) Adaptation of model for recognition processing
JP7212596B2 (ja) 学習装置、学習方法および学習プログラム
CN112767922B (zh) 一种对比预测编码自监督结构联合训练的语音识别方法
JP2020042257A (ja) 音声認識方法及び装置
CN113158687A (zh) 语义的消歧方法及装置、存储介质、电子装置
CN110275928B (zh) 迭代式实体关系抽取方法
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP7274441B2 (ja) 学習装置、学習方法および学習プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190917

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230113

R150 Certificate of patent or registration of utility model

Ref document number: 7212596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150