JP2019159058A - 音声認識システム、音声認識方法、学習済モデル - Google Patents

音声認識システム、音声認識方法、学習済モデル Download PDF

Info

Publication number
JP2019159058A
JP2019159058A JP2018044491A JP2018044491A JP2019159058A JP 2019159058 A JP2019159058 A JP 2019159058A JP 2018044491 A JP2018044491 A JP 2018044491A JP 2018044491 A JP2018044491 A JP 2018044491A JP 2019159058 A JP2019159058 A JP 2019159058A
Authority
JP
Japan
Prior art keywords
frame
vector
neural network
layers
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018044491A
Other languages
English (en)
Other versions
JP7109771B2 (ja
Inventor
勝 李
Sheng Li
勝 李
シュガン ルー
Xugang Lu
シュガン ルー
遼一 高島
Ryoichi Takashima
遼一 高島
鵬 沈
Peng Shen
鵬 沈
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2018044491A priority Critical patent/JP7109771B2/ja
Publication of JP2019159058A publication Critical patent/JP2019159058A/ja
Application granted granted Critical
Publication of JP7109771B2 publication Critical patent/JP7109771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】先に提案されているモデル化技術を利用した構成に比較して性能を高めた音声認識システムを提供する。【解決手段】遅延操作層の各々は、直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、第1の内部ベクトルと、第2の内部ベクトルと、第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される。【選択図】図5

Description

本技術は、音声認識システム、音声認識方法、学習済モデルに関する。
音声認識のための有効なE2E(end-to-end)フレームワークとして、CTC(connectionist temporal classification)を用いたモデルが知られている(例えば、非特許文献1など参照)。CTCの基本的な原理を何らかの形で利用したモデルを、以下では「CTCベースドモデル」とも称す。
CTCのモデル化技術では、音響モデルパイプラインを高度に簡単化している。そのため、CTCベースドモデルにおいては、フレームレベルでのラベルや初期のGMM−HMM(Gaussian mixture model and hidden Markov model)モデル(音響モデルに相当)を必要としない。CTCベースドモデルは、再帰型ニューラルネットワーク(RNN:recurrent neural network)の一例であるBLSTM(bidirectional long short term memory)ネットワークを用いることで(以下、「BLSTM−CTCモデル」とも称す。)、音声認識タスクについて現時点では最高の性能を発揮することが示されている。
しかしながら、BLSTM−CTCモデルは、フレーム順に出力を推定するために、発話全体を時間軸の双方向からたどる必要がある。そのため、BLSTM−CTCモデルは、時間遅れが大きく、例えば、オンライン音声認識などに応用することはできない。
BLSTM−CTCモデルは、コンテキストセンシティブチャンクBLSTM(CSC−BLSTM:context-sensitive-chunk BLSTM)を用いることで改善できる。この手法は、センテンス全体を互いに重複する複数のチャンクに分割し、いくつかのコンテキスト上のチャンクを追加(過去方向および未来方向の両方)することで、時間遅れを制御する。このような時間遅れを制御したBLSTM(LC−BLSTM:latency controlled BLSTM)においては、各チャンクについての計算を最適化することで、学習速度および認識速度をさらに高めることができると提案されている。
Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "End-to-End continuous speech recognition using attention-based recurrent NN: First results," arXiv preprint arXiv:1412160, 2014. A. Waibel, "Modular construction of time-delay neural networks for speech recognition," Neural computation, vol.1, no.1, pp.39-46, 1989. V. Peddinti, D. Povey, and S. Khudanpur, "A time delay neural network architecture for efficient modeling of long temporal contexts," in Proc. INTERSPEECH, 2015. M. Baskar et al., "Residual memory networks: Feed-forward approach to learn long-term temporal dependencies," in Proc. IEEE-ICASSP, 2017. Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pegah Ghahrmani, Vimal Manohar, Xingyu Na, Yiming Wang and Sanjeev Khudanpur, "Purely sequence-trained neural networks for ASR based on lattice-free MMI," Interspeech 2016. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proc. the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778.
一方、双方向からたどる必要のあるBLSTMネットワークに代えて、時間遅れを生じない、より直接的な方法が模索されている。具体的には、BLSTMネットワークに代えてULSTM(unidirectional long short term memory)ネットワークを採用したCTCベースドモデル(以下、「ULSTM−CTCモデル」とも称す。)が提案されている。同様のパラメータサイズを有するBLSTMネットワークとして、FSMN(feedforward sequential memory networks)、TDNN(time-delay neural network)(例えば、非特許文献2および非特許文献3など参照)、LF−MMI TNDD(lattice-free maximum mutual information TDNN)(例えば、非特許文献4および非特許文献5など参照)、RMN(residual memory network)、LACEA(layer-wise context expansion and attention)ネットワークなどが提案されている。これらのネットワークは、再帰フィードバックを用いずに、単方向の長時間依存性を学習することができ、それによって、CTCトレーニングと組み合わせることで、非常に高い性能を発揮することが予想されている。
本技術は、先に提案されているモデル化技術を利用した構成に比較して性能を高めた音声認識システムを提供することを目的としている。
本発明のある局面に従う音声認識システムは、入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成する特徴量抽出部と、特徴量抽出部からのフレームごとの第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、第1のニューラルネットワークブロックからのフレームごとの第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、第2のニューラルネットワークブロックからのフレームごとの第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを含む。第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含む。第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含む。遅延操作層の各々は、直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、第1の内部ベクトルと、第2の内部ベクトルと、第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される。
好ましくは、第2のニューラルネットワークブロックは、第2のニューラルネットワークブロックに含まれる第1の遅延操作層および第2の遅延操作層からそれぞれ出力される2つの内部ベクトルを入力とし、重みを出力とするニューラルネットワークである第1のモジュールと、重みを第1の遅延操作層から出力される内部ベクトルに反映する第2のモジュールとを含む。
さらに好ましくは、第1のモジュールは、第2のニューラルネットワークブロックにおいて最も入力側に近い遅延操作層から出力される内部ベクトルに、重みを反映するように構成される。
好ましくは、第1のモジュールおよび第2のモジュールは、第2のニューラルネットワークブロックに含まれる各遅延操作層から出力されるそれぞれの内部ベクトルを一旦キャッシュした上で、重みの計算および重みの反映を実行する。
好ましくは、遅延操作層の各々は、タイムステップより短いタイムステップに対応する複数の内部ベクトルに基づいて、第2の内部ベクトルおよび第3の内部ベクトルを生成する。
好ましくは、第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組をバイパスするスキップ経路を含む。
好ましくは、出力層は、入力される音声信号に対応するテキストを出力する。
本発明の別の局面に従う音声認識方法は、入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成するステップと、フレームごとの第1の特徴ベクトルを学習済モデルに入力してテキストを出力するステップとを含む。学習済モデルは、フレームごとの第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、第1のニューラルネットワークブロックからのフレームごとの第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、第2のニューラルネットワークブロックからのフレームごとの第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを含む。第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含む。第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含む。遅延操作層の各々は、直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、第1の内部ベクトルと、第2の内部ベクトルと、第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される。
本発明のさらに別の局面に従えば、入力される音声信号からテキストを出力するように、コンピュータを機能させるための学習済モデルが提供される。学習済モデルは、音声信号からフレームごとに順次生成される特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、第1のニューラルネットワークブロックからのフレームごとの第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、第2のニューラルネットワークブロックからのフレームごとの第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを含む。第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含む。第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含む。遅延操作層の各々は、直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、第1の内部ベクトルと、第2の内部ベクトルと、第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される。
本技術によれば、先に提案されているモデル化技術を利用した構成に比較して性能を高めた音声認識システムを実現できる。
本実施の形態に従う学習済モデルを用いたアプリケーション例を示す模式図である。 図1に示す音声認識システムの学習方法を説明するための模式図である。 BLSTM−CTCモデルの処理内容を説明するための模式図である。 ULSTM−CTCモデルの処理内容を説明するための模式図である。 本実施の形態に従うCTCベースドモデルのネットワーク構造の一例を示す模式図である。 本実施の形態に従うCTCベースドモデルに含まれる標準残差ブロックの構造の一例を示す模式図である。 本実施の形態に従うCTCベースドモデルに含まれる時間遅延残差ブロックの構造の一例を示す模式図である。 本実施の形態に従うCTCベースドモデルに含まれる時間遅延残差ブロックの遅延操作層の処理構造を示す模式図である。 本実施の形態に従うCTCベースドモデルの時間遅延残差ブロック層におけるコンテキストのキャプチャ範囲を時間方向に拡大する操作を説明するための模式図である。 本実施の形態に従うCTCベースドモデルが採用するアテンションメカニズムの構造の一例を示す模式図である。 本実施の形態に従うCTCベースドモデルが採用するアテンションメカニズムの実装例を説明するための模式図である。 本実施の形態に従う音声認識システムを実現するハードウェア構成の一例を示す模式図である。 本実施の形態に従うCTCベースドモデルの学習処理の処理手順を示すフローチャートである。 本実施の形態に従うCTCベースドモデルを用いたエンコーディングの処理手順を示すフローチャートである。
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。
[A.アプリケーション例]
まず、本実施の形態に従う学習済モデルを用いたアプリケーション例について説明する。
図1は、本実施の形態に従う学習済モデルを用いたアプリケーション例を示す模式図である。図1には、アプリケーション例として、音声認識システムSを示す。音声認識システムSは、音声信号の入力を受けて認識結果を出力する。より具体的には、音声認識システムSは、音声信号の入力を受けて、予め定められた区間(以下、「フレーム」とも称す。)ごとの時系列データから特徴ベクトルを抽出する特徴量抽出部2と、特徴量抽出部2からのベクトルの入力を受けてテキストなどの認識結果を出力する認識エンジン4とを含む。
特徴量抽出部2は、入力される音声信号からフレームごとに特徴ベクトルを順次生成する。特徴量抽出部2から出力される特徴ベクトルは、予め定められた次元数を有しており、入力される音声信号の対応するフレームに相当する部分の特徴量を反映する。特徴ベクトルは、入力される音声信号の長さに応じて、順次出力されることになる。以下では、このような一連の特徴ベクトルの全部または一部を「音響特徴シーケンス」とも総称する。
認識エンジン4は、特徴量抽出部2から出力されるフレームごとの特徴ベクトルを学習済モデルに入力してテキストを出力する。このように、認識エンジン4は、本実施の形態に従う学習済モデルで構成され、デコーダとして機能する。すなわち、認識エンジン4は、音声認識のためのE2Eフレームワーク(音響モデルおよび言語モデルが一体化されて構成される)であり、音声フレームの入力を受けて対応するテキストを出力する。
図2は、図1に示す音声認識システムSの学習方法を説明するための模式図である。図2を参照して、音声信号42と対応するテキスト44とからなるトレーニングデータセット40を用意する。音声信号42を特徴量抽出部2に入力するとともに、特徴量抽出部2により順次生成される音声フレームを認識エンジン4に入力することで、認識エンジン4からの認識結果(テキスト)を得る。認識エンジン4からの認識結果と、入力される音声信号42に対応するラベル(テキスト44)との誤差に基づいて、認識エンジン4を規定するネットワークのパラメータを順次更新することで、ネットワークが最適化される。
[B.先行技術および解決手段]
次に、本実施の形態に従う手法に関連するいくつかの先行技術および当該先行技術に対する解決手段の概要について説明する。
図3は、BLSTM−CTCモデルの処理内容を説明するための模式図である。図3を参照して、BLSTM−CTCモデルは、前進(順方向)の経路および後進(逆方向)の経路の両方を有しており、入力される音声信号のセンテンス全体(センテンスの先頭から最後まで)をたどることで、CTC出力を推定する。図3に示すように、音声信号のセンテンス全体をたどる必要があるので、時間遅れが大きくなる。
なお、センテンスは、言語的に意味のある区切りを意味し、通常、予め定められた区間長さの音声フレームを複数含むことになる。
図4は、ULSTM−CTCモデルの処理内容を説明するための模式図である。図4を参照して、ULSTM−CTCモデルは、図3に示すBLSTM−CTCモデルとは異なり、前進の経路のみを有しており、入力される音声信号のセンテンスの先頭にウィンドウ(10−15個の音声フレームを含む)を設定するとともに、ウィンドウを複数個所にスライドさせることで、CTC出力を推定する。図4に示すような、ULSTM−CTCモデルにおいては、過去の入力情報のみを必要とするので、入力音声の終了を待つ必要がない。但し、満足いく性能を得ることは難しい。
本願発明者らは、以下に説明するように、CTCベースドモデルに分類される手法を発明した。本願発明者らの手法によれば、BLSTM−CTCモデルのような時間遅れは問題とならず、かつ、十分実用性のある性能を得られる。
[C.ネットワーク構造]
本実施の形態に従うCTCベースドモデル1は、図1および図2の認識エンジン4を実現する学習済モデルに相当する。本実施の形態においては、再帰フィードバックを用いずに、単方向の長時間依存性を反映した出力を得られるように、大きな層数を有するニューラルネットワークを用いる。本願発明者らは、本実施の形態に従うCTCベースドモデル1のネットワークを「超深層残差時間遅延ニューラルネットワーク(very deep residual time-delay neural network):VResTD−CTC」と称する。
本実施の形態に従うCTCベースドモデル1は、公知のTDNN(例えば、非特許文献2および非特許文献3など参照)に類似したネットワーク構造を有しており、公知のTDNNに比較してCTCトレーニングをより強化できる。また、残差構造については、非特許文献6などを参照されたい。
(c1:CTC)
まず、CTC(connectionist temporal classification)の基本的な考え方について説明する。CTCは、入力される可変長な音声フレームと出力されるラベル(単音(phones)、文字(character)音節(syllable)などの単位)との間で生じるシーケンスラベリング問題を解決するために、E2E音響モデルにおけるトレーニング判定基準として、しばしば用いられる。
CTC学習済モデルに基づく出力は、パスと称される(以下、「p」とも表現する。)フレームレベルのトークンシーケンスである。いくつかの仮説の下、多くのパスが生成される。いくつかのパスには、CTCラベルの間に挿入される、何らのCTCラベルもないブランク(以下、「φ」とも表現する。)を含む。これらのパスは、デコーディングにおいて検出されたブランクシンボルの集合を取り除くとともに、同一ラベルの重複を取り除くことで、ラベルシーケンスにマッピングされる。したがって、1つのラベルシーケンスZは、複数のCTCラベルバス(以下、「Path(Z)」とも表現する。)にマッピングされることになる。以下の(1)式に示されるように、ラベルシーケンスZの尤度は、対応するCTCパスの確率の集合に基づいて評価される。
但し、Xは、発話全体における音声フレームシーケンスであり、pは、ラベルシーケンスZに対応するCTCパスである。(1)式を微分することで誤差逆伝播を適用でき、forward−backwardアルゴリズムを用いてネットワークパラメータを順次更新できる。
(c2:ネットワーク全体の構造)
次に、本実施の形態に従うCTCベースドモデル1のネットワーク構造について説明する。
図5は、本実施の形態に従うCTCベースドモデル1のネットワーク構造の一例を示す模式図である。図5を参照して、CTCベースドモデル1は、2種類の積層された残差ブロック群を含む。
より具体的には、CTCベースドモデル1は、複数の標準残差ブロック10−1〜10−N(以下、「標準残差ブロック10」とも総称し、「ResBlock」と表現することもある。以下の図面においても同様である。)からなる標準残差ブロック層100と、複数の時間遅延残差ブロック20−1〜20−M(以下、「時間遅延残差ブロック20」とも総称し、「TDResBlock」と表現することもある。以下の図面においても同様である。)からなる時間遅延残差ブロック層200とを含む。
標準残差ブロック層100は、音響特徴シーケンス(フレームごとの特徴ベクトル)の入力を受けて、上位層に向けた表現(representation)として、フレームごとに特徴ベクトル(内部層の出力ベクトル)を出力するニューラルネットワークブロックに相当する。
図5には、標準残差ブロック層100に含まれる標準残差ブロック10の数としては、例えば、N=3と設定でき、時間遅延残差ブロック層200に含まれる時間遅延残差ブロック20の数としては、例えば、M=5と設定できる。各ブロック層に含まれるブロック数Nおよびブロック数Mはそれぞれ任意に設定できる。
時間遅延残差ブロック層200は、標準残差ブロック層100からのフレームごとの特徴ベクトル(内部層の出力ベクトル)を受けて、さらに上位の表現としてフレームごとに特徴ベクトル(内部層の出力ベクトル)を出力するニューラルネットワークブロックに相当する。時間遅延残差ブロック層200から出力される特徴ベクトルは、後述するような時間遅延操作の結果が反映されたものとなる。
標準残差ブロック層100は、入力側に配置されており、入力される音響特徴シーケンスをより上位の表現に変換する。後述するように、標準残差ブロック層100としては、ボトルネック型のn次の階層構造を採用してもよい。標準残差ブロック層100においては、時間遅延残差ブロック層200とは異なり、時間遅延操作は行なわれない。
時間遅延残差ブロック層200は、順次入力される音響特徴シーケンスに対する時間遅延操作を行なう。この時間遅延操作は、実質的に双方向で実行される。但し、本実施の形態においては、過去の入力情報のみを用いるため、入力されたフレームの特徴量を所定のタイムステップだけ遅延させた第1の遅延特徴量と、当該遅延させた特徴量をさらに所定のタイムステップだけ遅延させた第2の遅延特徴量との3つの特徴量を用いて、過去、現在、未来に対応するそれぞれの特徴量を生成する。
CTCベースドモデル1は、さらに出力層300を含む。出力層300は、時間遅延残差ブロック層200からのフレームごとの特徴ベクトルを受けて、対応するテキストを推定する。
より具体的には、出力層300は、全結合層30と、softmax関数32と、マッピング関数34とを含む。全結合層30は、時間遅延残差ブロック層200のすべての出力ノードは、全結合層30のすべての出力ノードに結合されている。softmax関数32は、全結合層30から出力される特徴ベクトルについての確率を正規化して、最も確からしいラベルを出力する。softmax関数32からは、フレームごとにラベルが出力されるので、入力される音声信号に対応してラベルが順次出力されることになる。
図5には、ラベルとして単音を用いる例を示しており、音声信号に対応する音響特徴シーケンスがCTCベースドモデル1に順次入力されることで、順次出力される一連の音響推定結果(ラベル)の全部または一部を「CTC出力シーケンス」とも総称する。CTCベースドモデル1の推定結果には、対応するラベルが存在しない、ブランク(図5においては「φ」で示されている。)を含み得る。
時間遅延残差ブロック層200は、さらにマッピング関数34を有しており、CTC出力シーケンスから対応するテキスト(サブワードシーケンス)を出力する。
上述した一連のニューラルネットワークを用いた特徴量抽出処理によって、入力された音声信号を認識した結果として、出力層300からは対応するテキストが出力される。
(c3:標準残差ブロック10の構造)
次に、図5に示されるCTCベースドモデル1を構成する標準残差ブロック層100に含まれる標準残差ブロック10の構造について説明する。
図6は、本実施の形態に従うCTCベースドモデル1に含まれる標準残差ブロック10の構造の一例を示す模式図である。図6を参照して、各標準残差ブロック10の各々は、全結合層(以下、「FC」または「FC層」とも称す。)と活性化関数とが交互に配置された複数の層を含む。活性化関数の典型例としては、正規化線形関数(ReLU:rectified linear unit)が用いられてもよい。以下では、説明の便宜上、活性化関数を「ReLU」と表現することもある。
より具体的には、標準残差ブロック10の各々は、n次の階層構造を有しており、n個の全結合層12と、(n−1)個の活性化関数14とを含む。図6においては、全結合層12および活性化関数14について、配置されている位置の段数を示す数字をハイフンとともに示す。標準残差ブロック10の段数は特に限定されるものではなく、入力される音響特徴シーケンスの次元数などに応じて適宜設計できる。
標準残差ブロック層100は、図6に示す標準残差ブロック10が積層されているので、積層された複数の全結合層12と、隣接する全結合層12の間にそれぞれ配置された活性化関数14とを含むことになる。
標準残差ブロック10の各々は、入力された特徴を、全結合層12および活性化関数14を通過することなく、そのまま出力するためのスキップ経路11を有する。スキップ経路11は、特徴抽出を省略するための残差スキップを実現する経路である。すなわち、標準残差ブロック層100は、積層された全結合層12をバイパスするスキップ経路11を含む。なお、残差スキップは、次元マッチングのための線形写像を用いることになる。
(c4:時間遅延残差ブロック20の構造)
次に、図5に示されるCTCベースドモデル1を構成する時間遅延残差ブロック層200に含まれる時間遅延残差ブロック20の構造について説明する。
図7は、本実施の形態に従うCTCベースドモデル1に含まれる時間遅延残差ブロック20の構造の一例を示す模式図である。図7を参照して、時間遅延残差ブロック20の各々は、標準残差ブロック10に時間遅延操作を行なうための遅延操作層を追加したものに相当する。
より具体的には、時間遅延残差ブロック20の各々は、m次の階層構造を有しており、m個の全結合層22と、m個の遅延操作層23と、(m−1)個の活性化関数24とを含む。図7においては、全結合層22、遅延操作層23および活性化関数24について、配置されている位置の段数を示す数字をハイフンとともに示す。時間遅延残差ブロック20の段数は特に限定されるものではなく、入力される音響特徴シーケンスの次元数などに応じて適宜設計できる。
時間遅延残差ブロック層200は、図7に示す時間遅延残差ブロック20が積層されているので、積層された全結合層22および遅延操作層23からなる複数の組と、隣接する全結合層22と遅延操作層23との間にそれぞれ配置された活性化関数24とを含む。
遅延操作層23の各々は、ステップ遅延処理232と、サブサンプリング処理234と、メモリエンコーディング処理236とを含む。
ステップ遅延処理232は、入力されたフレームの特徴量を所定のタイムステップtだけ双方向にずらしたフレームの特徴量を生成する。より具体的には、ステップ遅延処理232は、直前の全結合層22から第1の内部ベクトルが入力されると、当該内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップtだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップtだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成する。
図8は、本実施の形態に従うCTCベースドモデルに含まれる時間遅延残差ブロック20の遅延操作層23の処理構造を示す模式図である。図8を参照して、遅延操作層23は、2つの遅延要素238−1,238−2を含む。
遅延要素238−1,238−2の各々は、タイムステップtだけ入力を遅延させる。入力されるフレームは、遅延要素238−1に入力されて、タイムステップtの遅延が与えられた後に、遅延要素238−2に与えられる。遅延要素238−2は、遅延要素238−1から入力されたフレームに対して、さらにタイムステップtの遅延を与える。このような2段の遅延要素によって、タイミングがタイムステップtずつ異なる3種類のフレームが生成される。
入力されるフレームを過去フレームとし、遅延要素238−1から出力されるフレームを現在フレームとし、遅延要素238−2から出力されるフレームを未来フレームとすることで、実質的に双方向にタイムステップを拡大できる。
サブサンプリング処理234は、ステップ遅延処理232による時間遅延操作の結果をサブサンプリングする。図7のサブサンプリング処理234に示されるトリプレット{−t,0,t}は、(−t〜t)の範囲内にある任意のタイムステップでサブサンプリングして得られた、3個のタイムステップ(−t,0,t)におけるそれぞれのフレームを示す(詳細については、非特許文献3を参照のこと。)。但し、「−」、「+」、「0」は、それぞれ過去、未来、現在のタイムステップを示す。
メモリエンコーディング処理236は、ステップ遅延処理232およびサブサンプリング処理234の実行ごとに得られる出力信号をエンコーディングする。すなわち、メモリエンコーディング処理236は、現在フレームに対応する内部ベクトルと、過去フレームに対応する内部ベクトルと、将来フレームに対応する内部ベクトルとに基づいて、出力する内部ベクトルを算出する。
本実施の形態においては、時間遅延操作を実現するために一対のグローバルメモリベクトル(過去用および未来用)が用意される。メモリエンコーディング処理236においては、時間遅延操作の結果に応じて、一対のグローバルメモリベクトルへアクセスし、対応する領域の内容を更新する。
時間遅延残差ブロック20の各々は、入力された特徴を、全結合層22、遅延操作層23および活性化関数24を通過することなく、そのまま出力するためのスキップ経路21を有する。スキップ経路21は、特徴抽出を省略するための残差スキップを実現する経路である。すなわち、時間遅延残差ブロック層200は、積層された全結合層22および遅延操作層23からなる複数の組をバイパスするスキップ経路21を含む。なお、残差スキップは、次元マッチングのための線形写像を用いることになる。
上述したような時間遅延操作を数学的に表現すると、以下のようになる。
本実施の形態に従うCTCベースドモデル1において、l(エル)番目の時間遅延を有する隠れ層への入力シーケンスの全体は、以下の(2)式のように示すことができる。
いずれのh に関しても、注目しているl(エル)番目の層についての標準重み行列Wおよびバイアスbを用いて、以下の(3)式のように線形変換できる。
サブサンプリングを行なうことで、入力シーケンスの全体は、以下の(5)式のように近似できる。
なお、(5)式中のウィンドウサイズの設定例については後述のTable1に示す。
上述の(4)式および(5)式に示すように、サブサンプリング処理234は、所定のタイムステップより短いタイムステップに対応する複数の内部ベクトルに基づいて、過去フレームに対応する内部ベクトルおよび未来フレームに対応する内部ベクトルを生成する処理を含む。
次に、l(エル)番目の層についての時間tにおける偏差e は、以下の(6)式のように示すことができる。
なお、実装においては、グローバルエンコーディングの重みの1または複数の組は共有されてもよい。
ここで、注目しているl(エル)番目の層が時間遅延残差ブロック20の内部に位置している場合には、次の層である(l+1)番目の層への入力は、以下の(7)式のように示すことができる。
また、注目しているl(エル)番目の層が時間遅延残差ブロック20の最終層に位置している場合には、次の時間遅延残差ブロック20への入力は、以下の(8)式のように示すことができる。
(c5:時間遅延残差ブロック層200によるタイムステップの拡大)
次に、上述した時間遅延操作を行なう時間遅延残差ブロック20が積層されることで実現されるタイムステップの拡大について説明する。
図9は、本実施の形態に従うCTCベースドモデル1の時間遅延残差ブロック層200におけるコンテキストのキャプチャ範囲を時間方向に拡大する操作を説明するための模式図である。図9は、積層された複数の時間遅延残差ブロック20によって、コンテキストに対して局所的にキャプチャされる範囲がどのように双方向に拡大されるのかを示す。
図9を参照して、標準残差ブロック10−1〜10−Nを含む標準残差ブロック層100は、入力される音響特徴シーケンスをより上位の表現(内部層の出力ベクトル102)に変換して出力する。
図7を参照して説明したように、時間遅延残差ブロック20の各々は、m個の全結合層22およびm個の遅延操作層23を含む。
遅延操作層23の各々においては、現在のフレームの特徴量に加えて、過去のフレーム(−t)および未来のフレーム(t)の特徴量を入力とする。ある階層の遅延操作層23には、3個のタイムステップ(−t,0,t)のそれぞれにおける特徴量が入力され、1層下位の遅延操作層23には、5個のタイムステップ(−2×t,−t,0,t,2×t)のそれぞれにおける特徴量が入力されることになる。同様にして、全結合層22および遅延操作層23を順次積層することで、最上層の遅延操作層23に入力される特徴量の時間幅(コンテキストをキャプチャする範囲)は、順次拡大することになる(タイムステップの拡大)。
図9に示すように、本実施の形態に従うCTCベースドモデル1の時間遅延残差ブロック層200は、時間遅延ネットワークを積層することで、入力される音声信号を実質的に双方向にエンコーディングすることになる。双方向にエンコーディング範囲は、全結合層22および遅延操作層23の積層数によって、任意に拡大できることが分かる。
図9に示すように、時間遅延残差ブロック20を積層することで、コンテキストに設定されるウィンドウサイズを実質的に拡大できることが分かる。コンテキストをキャプチャする範囲(ウィンドウサイズ)は、時間遅延残差ブロック20の層数に応じた長さになることが分かる。時間遅延残差ブロック20(時間遅延操作)を積層することで得られるウィンドウサイズの変化を以下のTable1に示す。
Table1に示すように、時間遅延残差ブロック層200に含まれる全結合層22と遅延操作層23との組の積層数をl(エル)とすると、コンテキストをキャプチャするウィンドウサイズは、(l×(l+1)/2+1)となる。
(c6:アテンション(attention)メカニズム)
本実施の形態に従うCTCベースドモデル1には、アテンションメカニズムをさらに追加してもよい。アテンションメカニズムは、隠れ層に存在するベクトルから特定の特徴を有する成分を抽出する機能を有している。
まず、アテンションメカニズムを実装したE2Eフレームワークの理論について説明する。アテンションメカニズムを実装したE2Eフレームワークは、長さTの入力特徴シーケンス(O)を長さNの出力ラベルシーケンス(Y)にマッピングする。
典型的なアテンションメカニズムは、エンコーダRNNと、デコーダRNNと、両RNNに接続されたアテンションモジュールとを含む。これらの要素間の関係は、以下の(9)式のように示すことができる。
なお、上述の(9)式において、エンコーダRNNにおいてサブサンプリングを行なわない場合には、エンコーダRNNの出力Hの長さは、入力特徴シーケンスの長さTと一致する。より一般化する観点から、上述の(9)式は、再帰ネットワークの状態を含まない形になっている。
図10は、本実施の形態に従うCTCベースドモデル1が採用するアテンションメカニズムの構造の一例を示す模式図である。図10を参照して、時間遅延残差ブロック20に含まれる任意のj番目の層(全結合層22および遅延操作層23)の出力側に、重みα を反映するための係数モジュール26が配置される。
アテンションモジュール28は、j番目の層(全結合層22および遅延操作層23)の出力H と、l(エル)番目の層(全結合層22および遅延操作層23)の出力H とを受けて、重みα を出力する。すなわち、アテンションモジュール28は、時間遅延残差ブロック層200に含まれるj番目の遅延操作層23およびl(エル)番目の遅延操作層23からそれぞれ出力される2つの内部ベクトルを入力とし、重みα を出力とするニューラルネットワークである。係数モジュール26は、アテンションモジュール28により算出される重みα をj番目の遅延操作層23から出力される内部ベクトルに反映するモジュールに相当する。
本実施の形態に従うCTCベースドモデル1が採用するアテンションメカニズムにおいては、典型的なアテンションメカニズムにおいて採用されている、エンコーダRNNおよびデコーダRNNを明示的には有していない。典型的なエンコーダRNNおよびデコーダRNNに代えて、本実施の形態に従うCTCベースドモデル1においては、時間遅延残差ブロック20を構成する任意の2つの層(全結合層22および遅延操作層23)の出力を受けて、重みα を決定するアテンションモジュール28を採用する。
すなわち、本実施の形態に従うアテンションメカニズムにおいては、上述の(9)式に示されるような、直前のタイムステップt−1についてのアテンションスコアのベクトル(重み)αt−1を入力に含めず、現在のタイムステップtについての重みαを計算するのみとする。
また、本実施の形態に従うアテンションメカニズムにおいては、上述の(9)式に示されるような、エンコーダRNNの出力Hに代えて、現在のj番目の層(全結合層22および遅延操作層23)の出力H と、未来のl(エル)番目の層(全結合層22および遅延操作層23)の出力H とを用いる。
同様に、上述の(9)式に示されるタイムステップtについてのアテンションスコアのベクトルαおよび次のタイムステップtについてのアテンションモジュールの出力eに代えて、層に対応したベクトルα および出力e を用いる。すなわち、図10に示す構造におけるアテンションモジュールの出力e は、以下の(10)式のように示すことができる。
上述の(10)式に示す関数Attentionは、以下の(11)式および(12)式に沿って導出できる。
ここで、関数Rewriteは、パラメータ(U,V,batt)でトレーニング可能な多層パーセプトロン(MLP:multilayer perceptron)ネットワーク、および、softmax出力を含む。その結果、アテンションモジュールの出力e は、以下の(11)式のように示すことができる。
上述の(12)式に示されるように、アテンションモジュールの出力e は、上述の(7)式および(8)式と同様に、時間遅延残差ブロック20における層の位置(j番目)に依存して決定される。
なお、本実施の形態に従うCTCベースドモデル1においては、エンコーダRNNおよびデコーダRNNを明示的には有していないが、標準残差ブロック層100(複数の標準残差ブロック10が積層されている)がエンコーダRNNに相当する機能を発揮し、図10に示すようなアテンションメカニズムを有する時間遅延残差ブロック層200(複数の時間遅延残差ブロック20が積層されている)がデコーダRNNに相当する機能を発揮すると考えることもできる。
本実施の形態に従うアテンションモジュール28は、任意の2つの層に関連付けることが可能であるが、後述する評価実験の結果によれば、標準残差ブロック層100に最も近い、1番目の層(全結合層12および活性化関数14)の出力と、2番目の層(全結合層12および活性化関数14)の出力とを利用できるように構成することで、性能を高めることができる。このように、本実施の形態に従うアテンションモジュール28は、時間遅延残差ブロック層200において最も入力側に近い遅延操作層23から出力される内部ベクトルに、重みを反映するように構成されることが好ましい。
(c7:アテンションメカニズムの実装例)
上述の図10に示すような本実施の形態に従うCTCベースドモデル1が採用するアテンションメカニズムを実装するにあたっては、ネットワーク構造において何らの自己ループも生じないように、以下のような実装例を採用してもよい。
図11は、本実施の形態に従うCTCベースドモデル1が採用するアテンションメカニズムの実装例を説明するための模式図である。図11を参照して、j番目の層とl(エル)番目の層のそれぞれから出力される内部ベクトル(フィードフォワード出力)をキャッシュする(ST1)。アテンションモジュール28は、キャッシュされたそれぞれの内部ベクトルを用いてアテンションスコアを計算する(ST2)。そして、(j+1)番目の層の出力は、計算されたアテンションスコアを用いて、重みが更新される(ST3)。
図11に示すように、アテンションモジュール28は、時間遅延残差ブロック層200に含まれる遅延操作層23から出力されるそれぞれの内部ベクトルを一旦キャッシュした上で、重みの計算および重みの反映を実行することが好ましい。すなわち、各層のフィードフォワード出力を一旦キャッシュすることで、重みの更新処理を適切に実行できる。
[D.学習処理]
次に、本実施の形態に従うCTCベースドモデル1を構築するための学習処理について説明する。本実施の形態に従うCTCベースライン1は、E2Eフレームワークを提供するものであり、音響モデルおよび言語モデルを別々に学習する必要はない。すなわち、CTCベースライン1は、入力される音声信号に対応するテキストを直接出力するものであり、学習処理においても、デコーディングと同様に、音声信号と対応するテキストとからなるトレーニングデータセットを用いる。
本実施の形態に従うCTCベースライン1の学習処理は、ニューラルネットワークの一般的な学習処理と同様に、教師有り学習を用いることができる。具体的には、CTCベースライン1を構成する各コンポーネントのパラメータに任意の初期値を設定する。その上で、トレーニングデータセットに含まれる音声信号(音響特徴シーケンス)をCTCベースライン1に順次入力するとともに、CTCベースライン1から順次出力されるCTC出力シーケンス(テキスト)と入力された音声信号に対応するテキストとの誤差を算出し、その算出した誤差に基づいて、CTCベースライン1を構成する各コンポーネントのパラメータを逐次更新する。このとき、上述の(1)式に従って、算出される誤差に基づいて誤差逆伝播法を適用できる。
このような音声信号の入力に対してCTCベースドモデル1から出力されるCTC出力シーケンスと、当該入力された音声信号に対応するテキストとの誤差が予め定められたしきい値以下になるまで、CTCベースライン1を構成する各コンポーネントのパラメータが順次更新される。
以上のような学習処理によって、トレーニングデータから本実施の形態に従うCTCベースドモデル1を構築できる。
[E.音声認識システムを実現するためのハードウェア構成]
次に、本実施の形態に従うCTCベースドモデル1を用いた音声認識システムSを実現するためのハードウェア構成の一例について説明する。
図12は、本実施の形態に従う音声認識システムSを実現するハードウェア構成の一例を示す模式図である。音声認識システムSは、典型的には、コンピュータの一例である情報処理装置500を用いて実現される。
図12を参照して、音声認識システムSを実現する情報処理装置500は、主要なハードウェアコンポーネントとして、CPU(central processing unit)502と、GPU(graphics processing unit)504と、主メモリ506と、ディスプレイ508と、ネットワークインターフェイス(I/F:interface)510と、二次記憶装置512と、入力デバイス522と、光学ドライブ524とを含む。これらのコンポーネントは、内部バス528を介して互いに接続される。
CPU502および/またはGPU504は、後述するような各種プログラムを実行することで、本実施の形態に従う音声認識システムSの実現に必要な処理を実行するプロセッサである。CPU502およびGPU504は、複数個配置されてもよいし、複数のコアを有していてもよい。
主メモリ506は、プロセッサ(CPU502および/またはGPU504)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
ディスプレイ508は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
ネットワークインターフェイス510は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス510としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
入力デバイス522は、ユーザからの指示や操作などを受付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス522は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受付けるためのインターフェイスを含んでいてもよい。
光学ドライブ524は、CD−ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク526に格納されている情報を読出して、内部バス528を介して他のコンポーネントへ出力する。光学ディスク526は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ524が光学ディスク526からプログラムを読み出して、二次記憶装置512などにインストールすることで、コンピュータが情報処理装置500として機能するようになる。したがって、本発明の主題は、二次記憶装置512などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク526などの記録媒体でもあり得る。
図12には、非一過的な記録媒体の一例として、光学ディスク526などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
二次記憶装置512は、コンピュータを情報処理装置500として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
より具体的には、二次記憶装置512は、図示しないOS(operating system)の他、学習処理を実現するためのトレーニングプログラム514と、学習対象のネットワーク構造を定義するモデル定義データ516と、学習済モデルを規定するためのネットワークパラメータ518と、トレーニングデータセット520とを格納している。
トレーニングプログラム514は、プロセッサ(CPU502および/またはGPU504)により実行されることで、ネットワークパラメータ518を決定するための学習処理を実現する。モデル定義データ516は、学習対象となるCTCベースドモデル1のネットワーク構造を構成するコンポーネントおよび接続関係などを定義するための情報を含む。ネットワークパラメータ518は、学習対象のモデル(ネットワーク)を構成する要素ごとのパラメータを含む。ネットワークパラメータ518に含まれる各パラメータの値は、トレーニングプログラム514の実行により最適化される。トレーニングデータセット520は、例えば、後述するようなCSJに含まれるデータセットを用いることができる。例えば、学習対象のCTCベースドモデル1が音声認識タスクに向けられたものである場合には、トレーニングデータセット520は、講演などの音声信号と、当該音声信号に対応する発話内容を示す転記テキストとを含む。
プロセッサ(CPU502および/またはGPU504)がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
図12には、単一のコンピュータを用いて情報処理装置500を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、情報処理装置500および情報処理装置500を含む音声認識システムSを実現するようにしてもよい。
プロセッサ(CPU502および/またはGPU504)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置500を実現できるであろう。
説明の便宜上、同一の情報処理装置500を用いて、学習(CTCベースドモデル1の構築)およびデコーディング(CTCベースドモデル1を含むモデルによる音声認識)を実行する例を示したが、学習およびデコーディングを異なるハードウェアを用いて実現してもよい。
[F.処理手順]
次に、本実施の形態に従うCTCベースドモデル1における処理手順の一例について説明する。
(f1:学習処理)
図13は、本実施の形態に従うCTCベースドモデル1の学習処理の処理手順を示すフローチャートである。図13に示す各ステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)がトレーニングプログラム514を実行することで実現される。
図13を参照して、情報処理装置500には、音声信号42と対応するテキスト44とからなるトレーニングデータセット40が入力される(ステップS100)。情報処理装置500は、CTCベースドモデル1を規定するネットワークパラメータの初期値をランダムに決定する(ステップS102)。
情報処理装置500は、トレーニングデータセット40に含まれる音声信号42からフレームごとに特徴ベクトルを生成する(ステップS104)。そして、情報処理装置500は、生成した特徴ベクトルを入力として用いて、CTCベースドモデル1に含まれる標準残差ブロック層100の演算を実行し(ステップS106)、標準残差ブロック層100から出力される内部層の出力ベクトル102をキャッシュする(ステップS108)。
情報処理装置500は、予め定められた数の出力ベクトル102がキャッシュされているか否かを判断する(ステップS110)。このステップS110の処理は、時間遅延残差ブロック層200における時間遅延操作に必要な数の出力ベクトル102が確保されることを保証するための処理である。ステップS104〜S108の処理は、予め定められた数の出力ベクトル102がキャッシュされるまで繰返される。
予め定められた数の出力ベクトル102がキャッシュされていれば(ステップS110においてYES)、キャッシュされた出力ベクトル102を入力として用いて、時間遅延残差ブロック層200の演算を実行する(ステップS112)。
情報処理装置500は、時間遅延残差ブロック層200からの出力を入力として用いて、出力層300の演算を実行する(ステップS114)。
情報処理装置500は、出力層300からの推定結果が予め定められた数に到達したか否かを判断する(ステップS116)。出力層300からの推定結果が予め定められた数に到達していなければ(ステップS116においてNO)、ステップS104以下の処理が繰返される。
出力層300からの推定結果が予め定められた数に到達していれば(ステップS116においてYES)、情報処理装置500は、出力層300からの推定結果(出力シーケンス)と対応するテキスト44(ラベルシーケンス)との間の誤差に基づいて、学習処理の収束条件が満たされているか否かを判断する(ステップS118)。
学習処理の収束条件が満たされていなければ(ステップS118においてNO)、情報処理装置500は、出力層300からの推定結果(出力シーケンス)と対応するテキスト44(ラベルシーケンス)との間の誤差に基づいて、CTCベースドモデル1を規定するネットワークパラメータの値を更新し(ステップS120)、ステップS104以下の処理を繰返す。
これに対して、学習処理の収束条件が満たされていれば(ステップS118においてYES)、現在のネットワークパラメータを学習結果として出力する(ステップS122)。すなわち、現在のネットワークパラメータにより規定されるCTCベースドモデル1が学習済モデルとして出力される。そして、学習処理は完了する。
なお、上述の説明においては、音声信号42と対応するテキスト44(ラベルシーケンス)とからなるトレーニングデータセット40を用いた学習方法を例示したが、これに限らず、例えば、音声信号42と対応する単音(phones)シーケンスとからなる第1のトレーニングデータセットを用いて、図5に示すCTCベースドモデル1のマッピング関数34を除く部分を学習し、その後、単音シーケンスとテキスト44とからなる第2のトレーニングデータセットを用いてマッピング関数34を学習するようにしてもよい。
(f2:エンコーディング)
図14は、本実施の形態に従うCTCベースドモデル1を用いたエンコーディングの処理手順を示すフローチャートである。図14に示す各ステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)がトレーニングプログラム514を実行することで実現される。
図14を参照して、情報処理装置500には、入力される音声信号からフレームごとに特徴ベクトルを生成する(ステップS200)。そして、情報処理装置500は、生成した特徴ベクトルを入力として用いて、CTCベースドモデル1に含まれる標準残差ブロック層100の演算を実行し(ステップS202)、標準残差ブロック層100から出力される内部層の出力ベクトル102をキャッシュする(ステップS204)。
情報処理装置500は、予め定められた数の出力ベクトル102がキャッシュされているか否かを判断する(ステップS206)。予め定められた数の出力ベクトル102がキャッシュされていなければ(ステップS206においてNO)、ステップS200以下の処理が繰返される。
予め定められた数の出力ベクトル102がキャッシュされていれば(ステップS206においてYES)、キャッシュされた出力ベクトル102を入力として用いて、時間遅延残差ブロック層200の演算を実行する(ステップS208)。そして、情報処理装置500は、時間遅延残差ブロック層200からの出力を入力として用いて、出力層300の演算を実行する(ステップS210)。最終的に、情報処理装置500は、出力層300の演算結果を推定結果として出力する(ステップS212)。
そして、情報処理装置500は、音声信号の入力が継続しているか否かを判断する(ステップS214)。音声信号の入力が継続していれば(ステップS214においてYES)、ステップS200以下の処理が繰返される。
一方、音声信号の入力が継続していなければ(ステップS214においてNO)、エンコーディングの処理は終了する。
[G.評価実験]
本願発明者らは、上述した本実施の形態に従うCTCベースドモデル1の性能について評価実験を行なった。以下、評価実験について説明する。
(g1:タスクおよびデータの説明)
評価実験には、トレーニングデータセットおよび評価データとして、国立国語研究所が提供している「日本語話し言葉コーパス(Corpus of Spontaneous Japanese:CSJ)」を用いた。
先行研究における知見に従って、CSJに含まれる240時間分の講演の音声をトレーニングデータセット(以下、「CSJ−Train」とも称す。)として構成した。
CSJは、3個の公式の評価データセット(CSJ−Eval01、CSJ−Eval02、CSJ−Eval03)を含む。各評価データセットは、10講演分の音声を含む。これらの評価データセットを音声認識結果の評価に用いた。また、10講演分の音声からなる開発データセット(CSJ−Dev)をトレーニング中の評価用として用いた。
さらに、ウオームアップ初期化およびパラメータチューニングのためのシードモデルのトレーニングのために、CSJに含まれる27.6時間分のデータセット(以下、「CSJ−Trainsmall」とも称す。)を選択した。
これらのデータセットに含まれる講演の数および時間は、以下のTable2に示す通りである。
(g2:ベースラインモデル)
まず、CSJ−Trainを用いて、評価基準となるベースラインをトレーニングした。第1のベースラインモデルとして、DNN−HMM−CE(deep neural network and hidden Markov model cross entropy)モデルを取り上げる。DNN−HMM−CEモデルを構築するにあたって、まず、音響モデルに相当するGMM−HMM(Gaussian mixture model and hidden Markov model)モデルをトレーニングし、続いて、5個の隠れ層(各層は2048個の隠れノードを有する)からなるDNNモデル(言語モデルに相当する)をトレーニングした。出力層は、約8500個のノードを有しており、これは、GMM−HMMモデルの結合トライフォン(triphone)状態に対応する。これらのトレーニングにおいて、72次元のフィルタバンク特徴(24次元のスタティック+Δ+ΔΔ)を用いた。フィルタバンク特徴は、話者ごとに平均化および正規化が行なわれた結果であり、分割された11フレーム(過去5フレーム、現在フレーム、未来5フレーム)からなる。DNNモデルは、交差エントロピー損失基準に基づく標準的な確率的勾配降下法(SGD:stochastic gradient descent)を用いてトレーニングした。
第2のベースラインモデルとして、BLSTM−CTCモデルを取り上げる。BLSTM−CTCモデルについても、DNN−HMM−CEモデルと同様に、72次元のフィルタバンク特徴(24次元のスタティック+Δ+ΔΔ)(非分割)を用いてトレーニングした。BLSTM−CTCモデルを構成するBLSTMネットワークとしては、5個の隠れ層(各層は320個の隠れノードを有する)からなるネットワークを用いた。また、CTCのトレーニングに対しては、音響単位として、28個のコンテキスト非依存の日本語の単音(phones)(以下、「CI−phones」とも称す。)およびブランク(φ)を用いた。
第3のベースラインモデルとして、ULSTM−CTCモデルを取り上げる。ULSTM−CTCモデルは、上述のBLSTM−CTCモデルと同じパラメータサイズ(5個の隠れ層(各層は640個の隠れノードを有する))を有するものを構成した。ULSTM−CTCモデルは、単方向であるので、過去側の特徴は8個のフレームを有する一方、未来側の特徴は存在しない。
デコードに関して、4グラム単語言語モデル(WLM:word language model)を、591時間分のCSJトレーニングデータセットの転記テキストによりトレーニングした。WLMの語彙サイズは98×10である。
(g3:CTCベースドモデル1のトレーニングのための設定)
本実施の形態に従うCTCベースドモデル1は、上述のBLSTM−CTCモデルと同様に、72次元のフィルタバンク特徴(24次元のスタティック+Δ+ΔΔ)(非分割)を用いてトレーニングした。ラベルは、上述したベースラインとなる2つのCTCベースドモデルのラベルと同じものを用いた。
CSJに含まれる27.6時間分のデータセット(CSJ−Trainsmall)を用いて、交差エントロピー損失基準に基づいてシードモデルをトレーニングし、それにより得られたモデルパラメータを用いてCTCモデルを初期化した。CTCのトレーニングには、FsAdaGradアルゴリズムを用いた。240時間分の講演の音声を含むトレーニングデータセット(CSJ−Train)を用いたトレーニングを高速化するために、BMUF(block-wise model update filtering)を適用した。各フレームに対する学習レートの初期値は0.00001とし、CSJ−Devについての検定結果に応じて学習レートを自動的に変更した。ミニバッチサイズは2048とし、同一のミニバッチにおいて並列処理されるシーケンス数は16とした。エポック数の最大値は25とした。
(g4:CTCベースドモデル1のモデル構造のチューニング)
次に、実施の形態に従うCTCベースドモデル1のモデル構造の最適化を行なった。この際、トレーニングデータセット(CSJ−Train)を用いてネットワークのプロトタイプを構成し、評価データセット(CSJ−Eval01)を用いて最適な構造の一例を選択した。評価実験に用いたネットワーク構造を示すパラメータは、以下のTable3に示す通りである。
上記のネットワーク構造において、すべての層は活性化関数(ReLU)を用いて全結合されている。
このネットワーク構造においては、3個の標準残差ブロック10(ResBlock1,ResBlock2,ResBlock3)(各々が3個の全結合層を有している。)と、3個の時間遅延残差ブロック層200(TDResBlock1,TDResBlock2,TDResBlock3)(各々が5個の全結合層および5個の時間遅延操作を有している。)とを含む。時間遅延操作のすべては、一対のグローバルメモリベクトルに関連付けられており、最終的に、過去および未来の特徴は、一対のグローバルメモリベクトル(各々が[1024×1])にそれぞれ格納される。評価実験に用いたネットワーク全体としては、26の全結合層(標準残差ブロック層100内の3×3層+時間遅延残差ブロック層200内の3×5層+全結合層×2)で構成されることになる。
(g5:CTCベースドモデル1の時間遅延残差ブロック層200の数)
次に、CTCベースドモデル1に含まれる時間遅延残差ブロック層200の数についての評価した結果を、以下のTable4に示す。
Table4においては、CTCベースドモデル1に含まれる時間遅延残差ブロック層200の数を2〜4の範囲で変化させて、その性能を評価した。評価指標としては、自動音声認識(ASR:Automatic Speech Recognition)の単語誤り率(WER:word error rate)を用いた。WERは、評価対象のモデルに音声を入力したときに出力されるテキストについて、当該入力された音声に対応する正解テキストに対する誤り率を示す。WERの値が小さいほど性能が高いことを示す。
Table4に示される評価結果によれば、時間遅延残差ブロック層200の数を変化させたとしても、有意な性能向上は得られなかった。
(g6:CTCベースドモデル1のメモリエンコーディング)
次に、CTCベースドモデル1のメモリエンコーディングの方法について評価した結果を、以下のTable5に示す。
Table5においては、メモリエンコーディングを用いない場合(w/o MemVec)に加えて、メモリエンコーディングの方法を4種類に異ならせて、その性能を評価した。評価指標としてはWERを用いている。
一対のグローバルメモリベクトルのみを用いる場合(2MemVec)に加えて、時間遅延残差ブロック層200の各々に一対のグローバルメモリベクトルをさらに用いる場合(2MemVec×3TDResBlocks)と、時間遅延残差ブロック層200に含まれる遅延操作層23の各層にそれぞれ関連付けられた一対のグローバルメモリベクトルを用いる場合(2MemVec×5Layers)と、各時間遅延残差ブロック層200に含まれる各遅延操作層23に一対のグローバルメモリベクトルを用いる場合(2MemVec×5Layers×3TDResBlocks)とについて、それぞれ性能を評価した。
Table5に示される評価結果によれば、メモリエンコーディングを用いない(すなわち、グローバルメモリベクトルが存在しない)場合には、急激に性能が低下することが分かる。一方、遅延操作層23ごとにグローバルメモリベクトルを配置したとしても(2MemVec×5Layers×3TDResBlocks)、他の場合に比較して、有意な性能向上は得られなかった。そのため、本実施の形態においては、CTCベースドモデル1全体に対して一対のグローバルメモリベクトルを配置する、最もシンプルなメモリエンコーディングを採用する。
(g7:フレームの非対称性)
上述したような注目するフレーム(現在フレーム)を中心にして、過去未来同数のフレームをCTCベースドモデル1に入力する例を示したが、音声信号に対して非対称にウィンドウを設定した場合の性能を評価した。その評価結果を以下のTable6に示す。
Table6に示される評価結果によれば、ウィンドウの設定位置を非対称に設定したとしても、有意な性能向上は得られなかった。
(g8:アテンションメカニズムの位置)
本実施の形態に従うCTCベースドモデル1の性能を高める観点から、上述したようなアテンションメカニズムが時間遅延残差ブロック層200のいずれの層に配置されるのかを異ならせて、CTCベースドモデル1の性能を評価した。その評価結果を以下のTable7に示す。
Table7において、「L2」は1番目の層と2番目の層との出力をアテンションメカニズムに入力した場合を示し、「L5」は1番目の層と5番目の層との出力をアテンションメカニズムに入力した場合を示し、「L10」は1番目の層と10番目の層との出力をアテンションメカニズムに入力した場合を示し、「L15」は1番目の層と15番目の層との出力をアテンションメカニズムに入力した場合を示す。「L2+L15」は、2番目の層と15番目の層との出力をアテンションメカニズムに入力した場合を示す。
Table7に示される評価結果によれば、時間遅延残差ブロック層200の1番目の層と2番目の層との出力を用いたアテンションメカニズムを採用することで、性能を飛躍的に高めることができる。
(g9:音声認識性能)
次に、本実施の形態に従うCTCベースドモデル1の音声認識性能の一例について説明する。音声認識性能の評価には、CSJに含まれる3個の評価データセット(CSJ−Eval01、CSJ−Eval02、CSJ−Eval03)を用いた。音声認識性能の評価結果を以下のTable8に示す。
Table8において、最下段の「VResTD−CTC」が本実施の形態に従うCTCベースドモデル1(アテンションメカニズムを含んでいない)を示す。
「DNN−HMM−CE」は上述の第1のベースラインモデルを示し、「BLSTM−CTC」は上述の第2のベースラインモデルを示す。「BLSTM−CTC−ss3」は、第2のベースラインモデル(BLSTM−CTC)を低フレームレート(サブサンプリングレートを「3」に設定)でトレーニングしたモデルを示す。また、「ULSTM−CTC−ss3」は、第3のベースラインモデル(ULSTM−CTC)を低フレームレート(サブサンプリングレートを「3」に設定)でトレーニングしたモデルを示す。
Table8に示すように、ベースラインモデルである、DNN−HMM−CEモデルとBLSTM−CTCモデルとは、ほぼ同等の性能を有していることが分かる。本実施の形態に従うCTCベースドモデル1のCSJ−Eval01およびCSJ−Eval02に対するWERは、これら2つのベースラインモデルに比較して、それぞれ約1.2%および約0.6%高い。しかしながら、CSJ−Eval03については、本実施の形態に従うCTCベースドモデル1は、これら2つのベースラインモデルに比較して、高い性能を示すことが分かる。
また、本実施の形態に従うCTCベースドモデル1は、すべての評価データセットについて、ULSTM−CTC−ss3に比較して、高い性能を示すことが分かる。
このような音声認識性能の差は、BLSTMネットワークを用いるBLSTM−CTCモデルと、TDNNを用いるモデル(本実施の形態に従うCTCベースドモデル1を含む)との間のネットワーク構造の相違に起因すると考えることができる。
すなわち、TDNNを用いるモデルにおいて、各層には、その下位の層から過去および未来の特徴がフィードバックされるのみであるのに対して、BLSTMネットワークにおいては、同一の層からもフィードバックを受けることができるため、より高い性能を発揮できると考えられる。
本実施の形態に従うCTCベースドモデル1は、アテンションメカニズムを含んでいなくとも、ベースラインモデルを超える性能を発揮できることが示されているが、以下に示すように、アテンションメカニズムを有効化することで、より性能を高めることができる。アテンションメカニズムを有効化した、本実施の形態に従うCTCベースドモデル1を含む、音声認識性能の評価結果を以下のTable9に示す。
Table9において、最下段の「VResTD−Atten−CTC」が本実施の形態に従うCTCベースドモデル1(アテンションメカニズムを含む)を示す。
Table9に示すように、アテンションメカニズムを有効化することで、本実施の形態に従うCTCベースドモデル1は、WERの平均値が「14.3%」から「13.9%」に改善していることが分かる。
本実施の形態に従うCTCベースドモデル1が示すWERの平均値は、第1のベースラインモデル(DNN−HMM−CE)および第2のベースラインモデル(BLSTM−CTC)が示すWERの平均値とほぼ同等である。また、BLSTM−CTCモデルおよびULSTM−CTCの低フレームレート版に比較して、より高い性能を発揮することが分かる。
[H.まとめ]
本実施の形態に従うCTCベースライン1を用いた音声認識システムSによれば、BLSTMネットワークのような再帰フィードバックを用いることなく、連続するフレームシーケンスで構成される音声信号に対する音声認識を実現できる。再帰フィードバックを含まないネットワーク構造を採用することで、BLSTM−CTCモデルでは実現が難しい、オンライン音声認識などを実現できる。
本実施の形態に従うCTCベースライン1を用いた音声認識システムSによれば、音声信号からテキストを直接的に出力できる、E2Eフレームワークを実現できる。
本実施の形態に従うCTCベースライン1においては、比較的次元の小さなニューラルネットワークにより実現されるアテンションメカニズムを採用することで、認識精度を大幅に高めることができる。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 CTCベースドモデル、2 特徴量抽出部、4 認識エンジン、10 標準残差ブロック、11,21 スキップ経路、12,22,30 全結合層、14,24 活性化関数、20 時間遅延残差ブロック、23 遅延操作層、26 係数モジュール、28 アテンションモジュール、32 softmax関数、34 マッピング関数、40,520 トレーニングデータセット、42 音声信号、44 テキスト、100 標準残差ブロック層、200 時間遅延残差ブロック層、232 ステップ遅延処理、234 サブサンプリング処理、236 メモリエンコーディング処理、238−1,238−2 遅延要素、300 出力層、500 情報処理装置、502 CPU、504 GPU、506 主メモリ、508 ディスプレイ、510 ネットワークインターフェイス、512 二次記憶装置、514 トレーニングプログラム、516 モデル定義データ、518 ネットワークパラメータ、522 入力デバイス、524 光学ドライブ、526 光学ディスク、528 内部バス。

Claims (6)

  1. 入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成する特徴量抽出部と、
    前記特徴量抽出部からのフレームごとの前記第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
    前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
    前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
    前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
    前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
    前記遅延操作層の各々は、
    直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
    前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される、音声認識システム。
  2. 前記第2のニューラルネットワークブロックは、
    前記第2のニューラルネットワークブロックに含まれる第1の遅延操作層および第2の遅延操作層からそれぞれ出力される2つの内部ベクトルを入力とし、重みを出力とするニューラルネットワークである第1のモジュールと、
    前記重みを前記第1の遅延操作層から出力される内部ベクトルに反映する第2のモジュールとを含む、請求項1に記載の音声認識システム。
  3. 前記第1のモジュールは、前記第2のニューラルネットワークブロックにおいて最も入力側に近い遅延操作層から出力される内部ベクトルに、前記重みを反映するように構成される、請求項2に記載の音声認識システム。
  4. 前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組をバイパスするスキップ経路を含む、請求項1〜3のいずれか1項に記載の音声認識システム。
  5. 入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成するステップと、
    フレームごとの前記第1の特徴ベクトルを学習済モデルに入力してテキストを出力するステップとを備え、
    前記学習済モデルは、
    フレームごとの前記第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
    前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
    前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
    前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
    前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
    前記遅延操作層の各々は、
    直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
    前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される、音声認識方法。
  6. 入力される音声信号からテキストを出力するように、コンピュータを機能させるための学習済モデルであって、前記学習済モデルは、
    前記音声信号からフレームごとに順次生成される特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
    前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
    前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
    前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
    前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
    前記遅延操作層の各々は、
    直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
    前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される、学習済モデル。
JP2018044491A 2018-03-12 2018-03-12 音声認識システム、音声認識方法、学習済モデル Active JP7109771B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018044491A JP7109771B2 (ja) 2018-03-12 2018-03-12 音声認識システム、音声認識方法、学習済モデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018044491A JP7109771B2 (ja) 2018-03-12 2018-03-12 音声認識システム、音声認識方法、学習済モデル

Publications (2)

Publication Number Publication Date
JP2019159058A true JP2019159058A (ja) 2019-09-19
JP7109771B2 JP7109771B2 (ja) 2022-08-01

Family

ID=67996997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018044491A Active JP7109771B2 (ja) 2018-03-12 2018-03-12 音声認識システム、音声認識方法、学習済モデル

Country Status (1)

Country Link
JP (1) JP7109771B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063336A (zh) * 2019-12-30 2020-04-24 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的端对端语音识别系统
CN111680732A (zh) * 2020-05-28 2020-09-18 浙江师范大学 一种基于深度学习注意力机制碗碟识别的训练方法
CN111833886A (zh) * 2020-07-27 2020-10-27 中国科学院声学研究所 全连接多尺度的残差网络及其进行声纹识别的方法
CN112530410A (zh) * 2020-12-24 2021-03-19 北京地平线机器人技术研发有限公司 一种命令词识别方法及设备
JPWO2021117089A1 (ja) * 2019-12-09 2021-06-17
CN113327590A (zh) * 2021-04-15 2021-08-31 中标软件有限公司 一种语音识别方法
CN113409769A (zh) * 2020-11-24 2021-09-17 腾讯科技(深圳)有限公司 基于神经网络模型的数据识别方法、装置、设备及介质
JP2021176022A (ja) * 2020-12-23 2021-11-04 北京百度網訊科技有限公司 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN114067800A (zh) * 2021-04-28 2022-02-18 北京有竹居网络技术有限公司 语音识别方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02235141A (ja) * 1989-03-09 1990-09-18 Sharp Corp 音節認識装置
JPH0394364A (ja) * 1989-09-07 1991-04-19 Matsushita Electric Ind Co Ltd ニューラルネットワーク
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02235141A (ja) * 1989-03-09 1990-09-18 Sharp Corp 音節認識装置
JPH0394364A (ja) * 1989-09-07 1991-04-19 Matsushita Electric Ind Co Ltd ニューラルネットワーク
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7298714B2 (ja) 2019-12-09 2023-06-27 日本電信電話株式会社 モデル学習装置、音声認識装置、それらの方法、およびプログラム
JPWO2021117089A1 (ja) * 2019-12-09 2021-06-17
WO2021117089A1 (ja) * 2019-12-09 2021-06-17 日本電信電話株式会社 モデル学習装置、音声認識装置、それらの方法、およびプログラム
CN111063336A (zh) * 2019-12-30 2020-04-24 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的端对端语音识别系统
CN111680732A (zh) * 2020-05-28 2020-09-18 浙江师范大学 一种基于深度学习注意力机制碗碟识别的训练方法
CN111833886A (zh) * 2020-07-27 2020-10-27 中国科学院声学研究所 全连接多尺度的残差网络及其进行声纹识别的方法
CN113409769A (zh) * 2020-11-24 2021-09-17 腾讯科技(深圳)有限公司 基于神经网络模型的数据识别方法、装置、设备及介质
CN113409769B (zh) * 2020-11-24 2024-02-09 腾讯科技(深圳)有限公司 基于神经网络模型的数据识别方法、装置、设备及介质
JP2021176022A (ja) * 2020-12-23 2021-11-04 北京百度網訊科技有限公司 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7264951B2 (ja) 2020-12-23 2023-04-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN112530410A (zh) * 2020-12-24 2021-03-19 北京地平线机器人技术研发有限公司 一种命令词识别方法及设备
CN113327590A (zh) * 2021-04-15 2021-08-31 中标软件有限公司 一种语音识别方法
CN114067800B (zh) * 2021-04-28 2023-07-18 北京有竹居网络技术有限公司 语音识别方法、装置和电子设备
CN114067800A (zh) * 2021-04-28 2022-02-18 北京有竹居网络技术有限公司 语音识别方法、装置和电子设备

Also Published As

Publication number Publication date
JP7109771B2 (ja) 2022-08-01

Similar Documents

Publication Publication Date Title
JP7109771B2 (ja) 音声認識システム、音声認識方法、学習済モデル
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
Zia et al. Long short-term memory recurrent neural network architectures for Urdu acoustic modeling
Ravanelli et al. Light gated recurrent units for speech recognition
CN108960277B (zh) 使用语言模型对序列到序列模型进行冷聚变
Dahl et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
US9460711B1 (en) Multilingual, acoustic deep neural networks
CN106910497B (zh) 一种中文词语发音预测方法及装置
US9984683B2 (en) Automatic speech recognition using multi-dimensional models
Arisoy et al. Bidirectional recurrent neural network language models for automatic speech recognition
US20180174576A1 (en) Acoustic-to-word neural network speech recognizer
CN111914067B (zh) 中文文本匹配方法及系统
WO2020226778A1 (en) On-device custom wake word detection
US11521071B2 (en) Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
Deng et al. Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications
JP7418991B2 (ja) 音声認識方法及び装置
JP2022545860A (ja) コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却
KR102541660B1 (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
KR20220130565A (ko) 키워드 검출 방법 및 장치
Gopalakrishnan et al. Sentiment analysis using simplified long short-term memory recurrent neural networks
Deng et al. Deep dynamic models for learning hidden representations of speech features
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN114267366A (zh) 通过离散表示学习进行语音降噪

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180404

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220712

R150 Certificate of patent or registration of utility model

Ref document number: 7109771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150