JP6827548B2

JP6827548B2 - 音声認識システム及び音声認識の方法

Info

Publication number: JP6827548B2
Application number: JP2019541213A
Authority: JP
Inventors: 堀　貴明; 貴明堀; 渡部　晋治; 晋治渡部; ハーシェイ、ジョン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-05-11
Filing date: 2017-11-10
Publication date: 2021-02-10
Anticipated expiration: 2037-11-10
Also published as: EP3417451B1; WO2018207390A1; CN110603583A; US20180330718A1; JP2020505650A; CN110603583B; EP3417451A1

Description

本発明は包括的には音声認識のシステム及び方法に関し、より詳細には、エンドツーエンド音声認識の方法及びシステムに関する。

自動音声認識は、現在では、広く展開されている十分に成熟した１組の技術であり、音声検索等のインターフェースアプリケーションにおいて大きな成功を収めている。しかしながら、高い認識精度を達成する音声認識システムを構築するのは容易ではない。１つの問題は、システムが受け入れる対象言語に関して、深い言語的知識を必要とすることである。例えば、そのようなシステムを構築するのに、１組の音素、語彙及び発音辞書が不可欠である。音素セットは、その言語に通じた人によって注意深く定義される必要がある。発音辞書は、１０万語を超える単語を含む語彙内の各単語に１つ以上の音素系列を割り当てることによって、手作業で作成される必要がある。さらに、言語の中には、語境界を明確に有しないものもあり、それゆえ、テキストコーパスから語彙を作成するために、トークン化を必要とする場合がある。結果として、マイナーな言語の場合に特に、専門家でない人が音声認識システムを開発するのは極めて難しい。他の問題は、音声認識システムが、別々に最適化される音響モデル、辞書モデル及び言語モデルを含む、いくつかのモジュールに分解されることである。各モデルが他のモデルに一致するようにトレーニングされる場合であっても、このアーキテクチャの結果として、局所的な最適条件がもたらされる場合がある。

エンドツーエンド音声認識は、従来のアーキテクチャを簡略化して、深層学習のフレームワーク内の単一のニューラルネットワークアーキテクチャにするという目的を有する。これらの問題に対処するために、又はこれらの問題を解決するために、いくつかの文献において種々の技法が論じられてきた。しかしながら、極端に不連続なアライメント、結果として生じる削除及び挿入誤りを許すという意味において、基本となる時間的な注意機構に融通性がありすぎること、及びラベル系列仮説が、部分的に欠落するラベル系列の場合に短くなりすぎる場合があるか、又は同じラベル系列を繰り返す場合に長くなりすぎる場合があることを含む、複数の問題が依然として存在する。

本開示のいくつかの実施の形態は、仮説をスコアリングするために、注意ベース確率をＣＴＣベース確率と結合することによって、関連のないアライメントで取得されたラベル系列仮説を削減し、認識精度を改善することができるという認識に基づく。

音声認識システムは、声音を受け取る入力デバイスと、１つ以上のプロセッサと、パラメーターと、１つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールとを記憶する１つ以上の記憶デバイスであって、命令は、実行されるときに、１つ以上のプロセッサに動作を実行させる、１つ以上の記憶デバイスとを備える。この動作は、音響特徴抽出モジュールを用いて、声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、エンコーダーネットワークパラメーターを有するエンコーダーネットワークを用いて、音響特徴系列を隠れベクトル系列に符号化することと、隠れベクトル系列を、デコーダーネットワークパラメーターを有するデコーダーネットワークに送り込むことによって、第１の出力ラベル系列確率を予測することと、コネクショニスト時系列分類（ＣＴＣ）ネットワークパラメーターを使用するＣＴＣモジュールと、エンコーダーネットワークからの隠れベクトル系列とによって、第２の出力ラベル系列確率を予測することと、ラベル系列探索モジュールを用いて、デコーダーネットワーク及びＣＴＣモジュールから与えられた第１の出力ラベル系列確率及び第２の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することとを含む。

さらに、本開示のいくつかの実施の形態は、音響特徴抽出モジュールを用いて、入力デバイスによって受け取られる声音から変換されるオーディオ波形データから音響特徴系列を抽出することと、１つ以上の記憶デバイスからエンコーダーネットワークパラメーターを取得するエンコーダーネットワークを用いて、音響特徴系列を隠れベクトル系列に符号化することと、１つ以上の記憶デバイスからデコーダーネットワークパラメーターを取得するデコーダーネットワークに隠れベクトル系列を送り込むことによって、第１の出力ラベル系列確率を予測することと、コネクショニスト時系列分類（ＣＴＣ）ネットワークパラメーターを使用するＣＴＣモジュールと、エンコーダーネットワークからの隠れベクトル系列とによって、第２の出力ラベル系列確率を予測することと、ラベル系列探索モジュールを用いて、デコーダーネットワーク及びＣＴＣモジュールから与えられる第１の出力ラベル系列確率及び第２の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することとを含む、音声認識の方法を提供する。

ここに開示されている実施の形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施の形態の原理を示すことに強調が置かれている。

関連技術による、注意ベースエンドツーエンド音声認識方法を示すブロック図である。本発明の実施の形態による、エンドツーエンド音声認識モジュールを示すブロック図である。本発明の実施の形態による、エンドツーエンド音声認識モジュール内のニューラルネットワークを示す概略図である。本発明の実施の形態による、エンドツーエンド音声認識システムを示すブロック図である。日本語タスクに関してエンドツーエンド音声認識を実行することによって得られる評価結果を示す図である。標準中国語（Mandarin Chinese）タスクに関してエンドツーエンド音声認識を実行することによって得られる評価結果を示す図である。

上記で明らかにされた図面は、ここに開示されている実施の形態を記載しているが、この論述において言及されるように、他の実施の形態も意図されている。この開示は、限定ではなく代表例として例示の実施の形態を提示している。ここに開示されている実施の形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施の形態を当業者は考案することができる。

以下の説明は、例示的な実施の形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施の形態の以下の説明は１つ以上の例示的な実施の形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。

以下の説明では、実施の形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施の形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施の形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施の形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施の形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施の形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施の形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ（複数の場合もある）が、それらの必要なタスクを実行することができる。

本開示において例示されるモジュール及びネットワークは、コンピュータープログラム、ソフトウェア又は命令コードとすることができ、１つ以上のプロセッサを用いて命令を実行することができる。モジュール及びネットワークは１つ以上の記憶デバイスに記憶することができるか、又は別の状況では、例えば、磁気ディスク、光ディスク若しくはテープ等の、記憶媒体、コンピューター記憶媒体又はデータ記憶デバイス（取外し可能及び／又は非取外し可能）等のコンピューター可読媒体に記憶することができ、コンピューター可読媒体は、命令を実行するために１つ以上のプロセッサからアクセス可能である。

コンピューター記憶媒体は、コンピューター可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶するための任意の方法又は技術において実現される揮発性及び不揮発性、取外し可能及び非取外し可能の媒体を含むことができる。コンピューター記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ若しくはフラッシュメモリ、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）若しくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用することができ、１つ以上のプロセッサを用いて、アプリケーション、モジュール又は両方によってアクセスすることができる任意の他の媒体とすることができる。任意のそのようなコンピューター記憶媒体は、そのデバイスの一部とすることができるか、そのデバイスからアクセス可能とすることができるか、又はそのデバイスに接続可能とすることができる。本明細書において説明される任意のアプリケーション又はモジュールは、そのようなコンピューター可読媒体によって記憶できるか、又は別の方法で保持できるコンピューター可読／実行可能命令を用いて実現することができる。

関連技術において見いだされた要件を明確にするために、本開示の実施の形態を説明する前に、以下において音声認識に関して論じられることになる。

図１は、関連技術による、注意ベースエンドツーエンド音声認識モジュール１００を示すブロック図である。

注意ベースエンドツーエンド音声認識モジュール１００において、エンコーダーモジュール１０２が最初に、音響特徴系列１０１を、エンコーダーネットワークパラメーター１０３から読み出されたエンコーダーネットワークを用いて、隠れベクトル系列に変換する。次に、注意デコーダーモジュール１０４が、エンコーダーネットワークモジュール１０２から隠れベクトル系列を、ラベル系列探索モジュール１０６から先行するラベルを受信し、デコーダーネットワークパラメーター１０５から読み出されたデコーダーネットワークを用いて、先行するラベルに関する次のラベルの事後確率分布を計算し、ラベルは文字、音節、単語又は対象言語を表現する任意の単位とすることができるが、文字が広く使用される。ラベル系列探索モジュール１０６は、注意デコーダーモジュール１０４によって与えられた事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。ラベル系列の事後確率は、系列におけるラベルの事後確率の積として計算される。

しかしながら、注意ベース手法は重大な問題を含む。注意デコーダーモジュール１０４は、音響特徴を得るために、注意機構を用いて、出力ラベル系列の各要素と、エンコーダーモジュール１０２によって生成される隠れベクトルとの間のアライメントを見つける。各出力位置において、デコーダーモジュール１０４は、その状態ベクトルと、各入力フレームにおけるエンコーダーモジュール１０２の隠れベクトルとの間の照合スコアを計算して、時間的アライメント分布を形成し、その後、それを用いて、対応するエンコーダー隠れベクトルの平均を抽出する。この基本となる時間的な注意機構は、極端に不連続なアライメントを許し、音声認識の不正確さを増大させるという意味において、融通性がありすぎる。

本発明のいくつかの実施の形態は、仮説をスコアリングするために、注意ベース確率をＣＴＣベース確率と結合することによって、システム出力に関して選択される、関連のないアライメントを用いて得られたラベル系列仮説を削減することができるという認識に基づく。

本開示の実施の形態によれば、注意ベースエンドツーエンド音声認識の復号プロセスに、ＣＴＣベース確率を使用することによる厳密な制約を組み込むことが可能になる。ＣＴＣは、動的計画法を用いて、厳密に単調なアライメントを効率的に計算できるようにするので、関連のない非単調なアライメントを伴うラベル系列の事後確率を、他のアライメントを伴うラベル系列の事後確率より下げることができる。

また、本開示の実施の形態は、各ラベル系列仮説が注意ベース確率だけでなく、ＣＴＣベース確率によってもスコアリングされることを規定し、スコアは、注意デコーダー及びＣＴＣによって計算された対数事後確率の線形結合とすることができる。結果として、本開示のエンドツーエンド音声認識は、出力ラベルと音響特徴との間の類似度及びアライメント正確性の両方に関して最良の仮説を選択することが可能になり、認識精度が向上する。したがって、本開示の実施の形態によるエンドツーエンド音声認識のシステム及び方法は、上記で論じられた問題を軽減することができる。

エンドツーエンド音声認識装置は、マイクロフォン、ハードディスクドライブ及びコンピューターネットワーク等の入力デバイスから音響特徴系列を受信することができる。その装置は、音響特徴系列に関して、エンコーダーネットワークパラメーター、デコーダーネットワークパラメーター及びＣＴＣネットワークパラメーターを用いてエンドツーエンド音声認識法を実行し、予測されるラベル系列を、ハードディスクドライブ、表示モニター及びコンピューターネットワーク等の出力デバイスに出力する。

図２は、本発明の実施の形態による、エンドツーエンド音声認識モジュール２００を示すブロック図である。

エンドツーエンド音声認識モジュール２００は、エンコーダーネットワークモジュール２０２と、エンコーダーネットワークパラメーター２０３と、注意デコーダーモジュール２０４と、デコーダーネットワークパラメーター２０５と、ラベル系列探索モジュール２０６と、ＣＴＣモジュール２０８と、ＣＴＣネットワークパラメーター２０９とを含む。エンコーダーネットワークパラメーター２０３、デコーダーネットワークパラメーター２０５及びＣＴＣネットワークパラメーター２０９はそれぞれ、対応するモジュール２０２、２０４及び２０８にパラメーターを与えるために、記憶デバイスに記憶される。図４の音響特徴抽出モジュール４３４を用いて、オーディオ波形データ又はスペクトルデータから音響特徴系列２０１が抽出される。オーディオ波形データ又はスペクトルデータは、記憶デバイスに記憶し、エンコーダーネットワークモジュール２０２に与えることができる。オーディオ波形データ又はスペクトルデータは、声音を受信し、オーディオ波形データ又はスペクトルデータに変換するデジタル信号処理モジュール(図示せず）を用いて、図４の入力デバイス４７５を介して取得することができる。さらに、記憶デバイス４３０又はメモリ４４０に記憶されるオーディオ波形データ又はスペクトルデータは、エンコーダーネットワークモジュール２０２に与えることができる。声音の信号は図４のネットワーク４９０を介して与えることができ、入力デバイス４７５はマイクロフォンデバイスとすることができる。

エンコーダーネットワークモジュール２０２はエンコーダーネットワークを含み、エンコーダーネットワークパラメーター２０３からパラメーターを読み出すエンコーダーネットワークを用いて、音響特徴系列２０１が隠れベクトル系列に変換される。

注意デコーダーネットワーク２０４を使用する注意機構が、以下のように説明される。注意デコーダーネットワークモジュール２０４はデコーダーネットワークを含む。注意デコーダーネットワークモジュール２０４は、エンコーダーネットワークモジュール２０２から隠れベクトル系列を、ラベル系列探索モジュール２０６から先行するラベルを受信し、その後、デコーダーネットワークパラメーター２０５からパラメーターを読み出すデコーダーネットワークを用いて、先行するラベルに関する次のラベルの第１の事後確率分布を計算する。注意デコーダーネットワークモジュール２０４は、第１の事後確率分布をラベル系列探索モジュール２０６に与える。ＣＴＣモジュール２０８は、エンコーダーネットワークモジュール２０２から隠れベクトル系列を、ラベル系列探索モジュール２０６から先行するラベルを受信し、ＣＴＣネットワークパラメーター２０９及び動的計画法を用いて、次のラベル系列の第２の事後確率分布を計算する。計算後に、ＣＴＣモジュール２０８は、第２の事後確率分布をラベル系列探索モジュール２０６に与える。

ラベル系列探索モジュール２０６は、注意デコーダーネットワークモジュール２０４及びＣＴＣモジュール２０８から与えられる第１の事後確率分布及び第２の事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。注意デコーダーネットワークモジュール２０４及びＣＴＣモジュール２０８によって計算されるラベル系列の第１の事後確率及び第２の事後確率は結合され、１つの確率にされる。この場合、計算された事後確率の結合は、線形結合に基づいて実行することができる。エンドツーエンド音声認識モジュール２００によれば、ＣＴＣ確率を考慮に入れて、入力音響特徴系列に対してより良好にアラインされた仮説を見つけることが可能になる。

注意ベースエンドツーエンド音声認識
エンドツーエンド音声認識は、包括的には、入力音響特徴Ｘを与えられるときに、最確ラベル系列Ｙ(ハット)を見つける問題と定義され、すなわち、

である。ただし、

は１組の所定の文字

を与えられるときの１組の取り得るラベル系列を表す。

エンドツーエンド音声認識において、発音辞書及び言語モデルを用いることなく、あらかじめトレーニングされたニューラルネットワークによってｐ(Ｙ|Ｘ)が計算される。関連技術の注意ベースエンドツーエンド音声認識では、ニューラルネットワークは、エンコーダーネットワーク及びデコーダーネットワークからなる。

エンコーダーモジュール１０２は、

として、音響特徴系列Ｘ＝ｘ_１，…，ｘ_Ｔを隠れベクトル系列

に変換するために使用されるエンコーダーネットワークを含む。ただし、関数Ｅｎｃｏｄｅｒ(Ｘ)は、スタックされる、１つ以上の再帰型ニューラルネットワーク（ＲＮＮ：recurrent neural network）からなることができる。ＲＮＮは長短期メモリ（ＬＳＴＭ：Long Short-Term Memory）として実現することができ、長短期メモリは、各隠れユニット内に入力ゲート、忘却ゲート、出力ゲート及びメモリセルを有する。別のＲＮＮは双方向ＲＮＮ（ＢＲＮＮ）又は双方向ＬＳＴＭ（ＢＬＳＴＭ）とすることができる。ＢＬＳＴＭは一対のＬＳＴＭＲＮＮであり、一方は順方向ＬＳＴＭであり、他方は逆方向ＬＳＴＭである。ＢＬＳＴＭの隠れベクトルは、順方向ＬＳＴＭ及び逆方向ＬＳＴＭの隠れベクトルの連結として取得される。

順方向ＬＳＴＭの場合、順方向の第ｔの隠れベクトルｈ_ｔ ^Ｆは以下のように計算される。

ただし、σ(・)は要素ごとのシグモイド関数であり、ｔａｎｈ(・)は要素ごとの双曲線正接関数であり、ｉ_ｔ ^Ｆ，ｆ_ｔ ^Ｆ，ｏ_ｔ ^Ｆ及びｃ_ｔ ^Ｆはそれぞれ、ｘ_ｔに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。

はベクトル間の要素ごとの乗算を表す。重み行列Ｗ_ｚｚ ^Ｆ及びバイアスベクトルｂ_ｚ ^ＦはＬＳＴＭのパラメーターであり、それは下付き文字ｚ∈{ｘ，ｈ，ｉ，ｆ，ｏ，ｃ}によって識別される。例えば、Ｗ_ｈｉ ^Ｆは隠れ／入力ゲート行列であり、Ｗ_ｘｏ ^Ｆは入力／出力ゲート行列である。隠れベクトルｈ_ｔ ^Ｆは入力ベクトルｘ_ｔ及び先行する隠れベクトルｈ_ｔ−１ ^Ｆから再帰的に取得される。ただし、ｈ₀ ^Ｆは零ベクトルであると仮定される。

逆方向ＬＳＴＭによれば、逆方向の第ｔの隠れベクトルｈ_ｔ ^Ｂは以下のように計算される。

ただし、ｉ_ｔ ^Ｂ，ｆ_ｔ ^Ｂ，ｏ_ｔ ^Ｂ及びｃ_ｔ ^Ｂはそれぞれ、ｘ_ｔに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列Ｗ_ｚｚ ^Ｂ及びバイアスベクトルｂ_ｚ ^ＢはＬＳＴＭのパラメーターであり、それは順方向ＬＳＴＭと同様にして下付き文字によって識別される。隠れベクトルｈ_ｔ ^Ｂは入力ベクトルｘ_ｔ及び後続の隠れベクトルｈ_ｔ＋１ ^Ｂから再帰的に取得される。ただし、ｈ_Ｔ＋１ ^Ｂは零ベクトルであると仮定される。

ＢＬＳＴＭの隠れベクトルは、以下のように、順方向隠れベクトル及び逆方向隠れベクトルを連結することによって取得される。

ただし、

は、全てのベクトルが列ベクトルであると仮定するときに、ベクトルに関する転置演算を表す。Ｗ_ｚｚ ^Ｆ，ｂ_ｚ ^Ｆ，Ｗ_ｚｚ ^Ｂ及びｂ_ｚ ^ＦはＢＬＳＴＭのパラメーターと見なされる。

より良好な隠れベクトルを取得するために、第１のＢＬＳＴＭの隠れベクトルを第２のＢＬＳＴＭに送り込み、その後、第２のＢＬＳＴＭの隠れベクトルを第３のＢＬＳＴＭに送り込み、以下同様にすることによって、複数のＢＬＳＴＭをスタックすることができる。

が１つのＢＬＳＴＭによって取得された隠れベクトルである場合には、それを別のＢＬＳＴＭに送り込むときに、

であると仮定する。計算を削減するために、１つのＢＬＳＴＭから別のＢＬＳＴＭに１つおきの隠れベクトルのみを送り込むことができる。この場合、出力隠れベクトル系列の長さは、入力音響特徴系列の長さの半分になる。

注意デコーダーモジュール１０４は、隠れベクトル系列

を用いて、ラベル系列確率ｐ(Ｙ|Ｘ)を計算するために使用されるデコーダーネットワークを含む。ＹがＬ長のラベル系列ｙ_１，ｙ_２，…，ｙ_Ｌであると仮定する。ｐ(Ｙ|Ｘ)を効率的に計算するために、その確率は、

として確率連鎖律によって分割することができ、各ラベル確率ｐ(ｙ_ｌ(エル)|ｙ_１，…ｙ_{ｌ(エル)−１}、Ｘ)はラベルにわたる確率分布から取得され、その確率分布は、

としてデコーダーネットワークを用いて推定される。ただし、

はラベルを表す確率変数であり、

はコンテンツベクトルと呼ばれ、それは

のコンテンツ情報を有する。

はデコーダー状態ベクトルであり、それは、先行するラベルｙ_１，…ｙ_{ｌ(エル)−１}及び先行するコンテンツベクトル

の文脈情報を含む。したがって、ラベル確率は、文脈を与えられるとすると、

の確率として取得され、すなわち、

である。

コンテンツベクトルｒ_ｌ(エル)は一般に、エンコーダーネットワークの隠れベクトルの加重和として与えられ、すなわち、

である。ただし、ａ_{ｌ(エル)ｔ}は注意重みと呼ばれ、それはΣ_ｔａ_{ｌ(エル)ｔ}＝１を満たす。注意重みは

及び

を用いて、以下のように計算される。

ただし、Ｗ，Ｖ，Ｆ及びＵは行列であり、ｗ及びｂはベクトルであり、それらはデコーダーネットワークのトレーニング可能なパラメーターである。ｅ_{ｌ(エル)ｔ}は第（ｌ(エル)−１）の状態ベクトルｑ_{ｌ(エル)−１}と第ｔの隠れベクトルｈ_ｔとの間の照合スコアであり、時間的なアライメント分布ａ_ｌ(エル)＝{ａ_{ｌ(エル)ｔ}|ｔ＝１，…，Ｔ}を形成する。ａ_{ｌ(エル)−１}は、先行するラベルｙ_{ｌ(エル)−１}を予測するために使用される先行するアライメント分布₎{ａ_{(ｌ(エル)−１)ｔ}|ｔ＝１，…，Ｔ}を表す。ｆ_ｌ(エル)＝{ｆ_{ｌ(エル)ｔ}|ｔ＝１，…，Ｔ}は、ａ_{ｌ(エル)−１}に関するＦとの畳み込み結果であり、それは、先行するアライメントを現在のアライメントに反映させるために使用される。「＊」は畳み込み演算を表す。

ラベル確率分布は、

として状態ベクトルｑ_{ｌ(エル)−１}及びコンテンツベクトルｒ_ｌ(エル)を用いて取得される。ただし、Ｗ_ｑｙ及びＷ_ｒｙは行列であり、ｂ_ｙはベクトルであり、それらはデコーダーネットワークのトレーニング可能なパラメーターである。ｓｏｆｔｍａｘ（）関数は、Ｋ次元ベクトルｖの場合に、

として計算される。ただし、ｖ[ｉ]は、ｖの第ｉの要素を示す。

その後、デコーダー状態ベクトルｑ_{ｌ(エル)−１}が、以下のように、ＬＳＴＭを用いて、ｑ_ｌ(エル)に更新される。

ただし、ｉ_ｌ(エル) ^Ｄ，ｆ_ｌ(エル) ^Ｄ，ｏ_ｌ(エル) ^Ｄ及びｃ_ｌ(エル) ^Ｄはそれぞれ、入力ベクトルｘ_ｌ(エル)に関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列Ｗ_ｚｚ ^Ｄ及びバイアスベクトルｂ_ｚ ^ＤはＬＳＴＭのパラメーターであり、それは順方向ＬＳＴＭと同様にして下付き文字によって識別される。状態ベクトルｑ_ｌ(エル)は入力ベクトルｘ_ｌ(エル) ^Ｄ及び先行する状態ベクトルｑ_{ｌ(エル)−１}から再帰的に取得され、ただし、ｑ₀は、ｑ_−１＝０、ｙ_０＝＜ｓｏｓ＞及びａ_０＝１／Ｔを仮定して計算される。デコーダーネットワークの場合、入力ベクトルｘ_ｌ(エル) ^Ｄは、ラベルｙ_ｌ(エル)及びコンテンツベクトルｒ_ｌ(エル)の連結ベクトルとして与えられ、それは

として取得することができ、ただし、

は、ラベルを固定次元ベクトルに変換するラベル埋め込みを表す。

注意ベース音声認識において、コンテンツベクトルｒ_ｌ(エル)は、式（１７）に示されるように、アライメント分布ａ_ｌ(エル)に大きく依存するので、正確なラベルを予測する上で、適切な注意重みを推定することが非常に重要である。音声認識において、コンテンツベクトルはアライメント分布のピークの周りのエンコーダーの隠れベクトル内の音響情報を表し、音響情報は、ラベルｙ_ｌ(エル)を予測する上で最も重要な手がかりである。それにもかかわらず、ｙ_ｌ(エル)を徐々に予測するときに、分布のピークが時間とともに単調に進むような明確な制約はないので、注意機構は多くの場合に不規則なアライメント分布を与える。音声認識において、入力系列と出力系列との間のアライメントは一般に単調にすべきである。畳み込み特徴ｆ_{ｌ(エル)ｔ}は不規則なアライメントを生成するのを軽減するが、不規則なアライメントを回避するほど十分に強くない。

ジョイントＣＴＣ／注意ベースエンドツーエンド音声認識
本発明の実施の形態による、エンドツーエンド音声認識モジュール２００を用いてエンドツーエンド音声認識を実行する方法において、より正確なラベル系列確率を得るために、ＣＴＣ順方向確率、式（３４）が、式（１４）において注意ベース確率と結合される。

ＣＴＣモジュール２０８は、隠れベクトル系列

を与えられると、ラベル系列ＹのＣＴＣ順方向確率を計算する。ＣＴＣ定式化は、１組の異なるラベル

を有するＬ長のラベル系列

を使用することに留意されたい。付加的な「ブランク」ラベルを有するフレームごとのラベル系列を導入することによって、

である。ただし、ｂはブランクラベルを表す。確率連鎖律と、条件付き独立仮定とを使用することによって、事後確率ｐ(Ｙ|Ｘ)は以下のように分解される。

ただし、ｐ(ｚ_ｔ|ｚ_ｔ−１|Ｙ)はブランクラベルを含むラベル遷移確率と見なされる。ｐ(ｚ_ｔ|Ｘ)は、入力系列Ｘを条件とし、双方向長短期メモリ（ＢＬＳＴＭ）を使用することによってモデル化される、フレームごとの事後確率である。

ただし、ｈ_ｔはエンコーダーネットワークを用いて得られる。Ｗ_ｈｙ ^ＣＴＣは行列であり、ｂ_ｙ ^ＣＴＣはベクトルであり、それらはＣＴＣのトレーニング可能なパラメーターである。式（２８）は、全ての取り得るＺにわたる総和を取り扱わなければならないが、順方向アルゴリズムを使用することによって効率的に計算される。

ＣＴＣのための順方向アルゴリズムは以下のように実行される。長さ２Ｌ＋１の拡張ラベル系列

が使用される。ただし、ブランクラベル

が各対の隣接するラベル間に挿入される。α_ｔ(ｓ)を順方向確率とする。それは時間フレーム１，…，ｔに関するラベル系列ｙ_１，…，ｙ_ｌ(エル)の事後確率を表し、ただし、ｓは、拡張ラベル系列Ｙ’内の位置を示す。

初期化のために、

が設定される。ｔ＝２〜Ｔの場合に、α_ｔ(ｓ)は、

として再帰的に計算される。ただし、

である。最後に、ＣＴＣベースラベル系列確率が

として得られる。

フレームごとのラベル系列Ｚは、音響特徴系列Ｘと出力ラベル系列Ｙとの間のアライメントを表す。順方向確率を計算するとき、式（３３）の再帰によって、Ｚが単調になるように強制し、アライメントＺにおいてｓがループ又は大きくジャンプできないようにする。なぜなら、α_ｔ(ｓ)を得るための再帰は、多くてもα_ｔ−１(ｓ)、α_ｔ−１(ｓ−１)、α_ｔ−１(ｓ−２)しか考慮しないためである。これは、時間フレームが１フレームだけ進むとき、ラベルが先行するラベル又はブランクから変化するか、又は同じラベルを維持することを意味する。この制約は、アライメントが単調になるように強制する遷移確率ｐ(ｚ_ｔ|ｚ_ｔ−１、Ｙ)の役割を果たす。それゆえ、ｐ(Ｙ|Ｘ)が、不規則な（非単調の）アライメントに基づいて計算されるときに、０又は非常に小さい値とすることができる。

図３は、本発明の実施の形態による、結合ニューラルネットワークモジュール３００を示す概略図である。結合ニューラルネットワーク３００は、エンコーダーネットワークモジュール２０２と、注意デコーダーネットワークモジュール２０４と、ＣＴＣモジュール２０８とを含む。各矢印は、変換を伴う、又は伴わないデータ転送を表し、各正方形又は円形ノードは、ベクトル又は予測ラベルを表す。音響特徴系列Ｘ＝ｘ_１，…，ｘ_Ｔが、エンコーダーネットワークモジュール２０２に送り込まれ、エンコーダーネットワークモジュールでは、２つのＢＬＳＴＭがスタックされ、第１のＢＬＳＴＭの１つおきの隠れベクトルが第２のＢＬＳＴＭに送り込まれる。エンコーダーモジュール２０２の出力の結果、隠れベクトル系列

が生成される。ただし、Ｔ’＝Ｔ／２である。その後、

がＣＴＣモジュール２０８及びデコーダーネットワークモジュール２０４に送り込まれる。ＣＴＣベース系列確率及び注意ベース系列確率がそれぞれ、ＣＴＣモジュール２０８及びデコーダーネットワークモジュール２０４を用いて計算され、ラベル系列確率を取得するために結合される。

本発明の実施の形態において、確率は、

として対数領域において結合することができる。ただし、ｐ_ｃｔｃ(Ｙ|Ｘ)は式（３５）におけるＣＴＣベースラベル系列確率であり、ｐ_ａｔｔ(Ｙ|Ｘ)は式（１４）における注意ベースラベル系列確率である。λは、ＣＴＣベース確率及び注意ベース確率のバランスをとるための倍率である。

ラベル系列探索
ラベル系列探索モジュール２０６が、ラベル系列確率分布ｐ(Ｙ|Ｘ)に従って、最確ラベル系列Ｙ(ハット)を見つける。すなわち、

である。

従来技術の注意ベース音声認識では、ｐ(Ｙ|Ｘ)がｐ_ａｔｔ(Ｙ|Ｘ)であると仮定される。本発明の実施の形態では、ｐ(Ｙ|Ｘ)が、式（３６）のようにラベル系列確率の結合によって計算され、すなわち、

に従ってＹ(ハット)を見つける。

しかしながら、取り得るラベル系列の数は、系列の長さとともに指数関数的に増加するので、Ｙに関する全ての取り得るラベル系列を列挙し、ｐ(Ｙ|Ｘ)を計算するのは難しい。それゆえ、Ｙ(ハット)を見つけるために、一般にビーム探索技法が使用され、その技法では、短い方のラベル系列仮説が最初に生成され、長い方の仮説を取得するために、他の仮説より高いスコアを有する限られた数の仮説のみが拡張される。最後に、系列の最後に達した完全な仮説において、最良のラベル系列仮説が選択される。

ビーム探索プロセスにおいて、デコーダーはラベル系列仮説ごとにスコアを計算する必要がある。しかしながら、ＣＴＣがフレーム同期状態でそれを実行する一方で、注意デコーダーが出力ラベル同期状態でそれを実行するので、ビーム探索においてＣＴＣベーススコア及び注意ベーススコアを結合するのは簡単ではない。仮説スコアにＣＴＣ確率を組み込むために、本発明の実施の形態による、ラベル系列探索モジュール２０６は、以下に説明される２つの方法のいずれかを使用することができる。

（１）リスコアリング法
第１の方法は２パス手法である。第１のパスがビーム探索を用いて１組の完全な仮説を見つけ、その場合に、注意ベーススコアのみが考慮される。第２のパスは、式（３６）に示されるように、ＣＴＣ確率及び注意確率の結合を用いて完全な仮説をリスコアリングし、最良のラベル系列仮説を見つける。

リスコアリング方法によれば、ラベル系列探索モジュール２０６が、以下のように、Ｙ(ハット)を見つける。Ω_ｌ(エル)を長さｌ(エル)の１組の部分仮説であるとする。第１のパスのビーム探索の開始時に、Ω_０は、開始記号＜ｓｏｓ＞を有する１つの仮説のみを含む。ｌ(エル)＝１〜Ｌ_ｍａｘの場合に、Ω_{ｌ(エル)−１}内の各部分仮説が、取り得る単一のラベルを付加することによって拡張され、新たな仮説Ω_ｌ(エル)がに記憶される。ただし、Ｌ_ｍａｘは、探索されることになる仮説の最大長である。新たな各仮説のスコアは

として対数領域において計算される。ただし、ｇはΩ_{ｌ(エル)−１}内の部分仮説である。ｙはｇに付加される単一のラベルであり、ｈは新たな仮説であり、すなわち、ｈ＝ｇ・ｙである。確率ｐ_ａｔｔ(ｙ|ｇ)は式（１６）によって計算することができる。ただし、ψ_ａｔｔ(＜ｓｏｓ＞)＝０であると仮定する。

ｙが系列の終了を表す特殊なラベル＜ｅｏｓ＞である場合には、ｈがΩ(ハット)に加えられるが、Ω_ｌ(エル)には加えられない。ただし、Ω(ハット)は１組の完全な仮説を表す。第２のパスは、

として、ＣＴＣスコア及び注意スコアの結合に基づいて、Ｙ(ハット)を見つける。ただし、ＣＴＣスコアψ_ｃｔｃ(ｈ，Ｘ)はｌｏｇｐ_ｃｔｃ(ｈ|Ｘ)として計算される。

ビーム探索プロセスにおいて、Ω_ｌ(エル)は、より高いスコアを有する限られた数の仮説のみを保持することを許され、他の仮説は、探索効率を改善するために切り取られる。リスコアリング方法のより具体的な手順が以下のように要約される。

この手順において、Ω_ｌ(エル)及びΩ(ハット)はそれぞれ、長さｌ(エル)の部分仮説及び完全な仮説を受け入れる待ち行列として実現される。１行目〜２行目において、Ω₀及びΩ(ハット)が空の待ち行列として初期化される。３行目において、初期仮説のためのスコア＜ｓｏｓ＞が０に設定される。４行目〜２３行目において、Ω_{ｌ(エル)−１}内の各部分仮説ｇが、ラベルセット

内の各ラベルｙによって拡張される。ただし、演算Ｈｅａｄ(Ω)は待ち行列Ω内の第１の仮説を返し、Ｄｅｑｕｅｓｕ(Ω)は待ち行列から第１の仮説を除去する。

拡張された各仮説ｈは、１１行目において注意デコーダーネットワークを用いてスコアリングされる。その後、ｙ＝＜ｅｏｓ＞である場合には、仮説ｈは完全であると仮定され、１３行目においてΩ(ハット)内に記憶される。ただし、Ｅｎｑｕｅｕｅ(Ω(ハット)，ｈ)はｈをΩ(ハット)に加える演算である。ｙ≠＜ｅｏｓ＞である場合には、１５行目においてｈがΩ_ｌ(エル)に記憶される。ここで、Ω_ｌ(エル)内の仮説の数、すなわち、、|Ω_ｌ(エル)|が１６行目において所定の数ｂｅａｍｗｉｄｔｈと比較される。|Ω_ｌ(エル)|がｂｅａｍｗｉｄｔｈを超える場合には、１７行目〜１８行目において、Ω_ｌ(エル)内の最少スコアｈ_ｍｉｎを有する仮説がΩ_ｌ(エル)から除去される。ただし、Ｒｅｍｏｖｅ(Ω_ｌ(エル)，ｈ_ｍｉｎ)は、Ω_ｌ(エル)からｈ_ｍｉｎを除去する演算である。最後に、２４行目において、Ｙ(ハット)が最良の仮説として選択される。

（２）１パス法
第２の方法は１パス手法であり、その手法は、ビーム探索中に各部分仮説のスコアをＣＴＣベース確率及び注意ベース確率の結合として計算する。ここで、そのプレフィックスとしてｈを有する全てのラベル系列の累積確率として定義されるＣＴＣプレフィックス確率を利用し、

ＣＴＣスコアを

と定義する。ただし、ｖは、空のストリングを除く、全ての取り得るラベル系列を表す。ＣＴＣスコアは、式（３９）のように再帰的に得ることはできないが、入力時間フレームにわたって順方向確率を維持することによって、部分仮説ごとに効率的に計算することができる。その後、倍率λを用いて、ψ_ａｔｔ(ｈ)と結合される。

１パス法によれば、ラベル系列探索モジュール２０６が、以下の手順に従ってＹ(ハット)を見つける。

リスコアリング法との違いは、ＣＴＣスコアψ_ｃｔｃ(ｈ，Ｘ)及び注意ベーススコアψ_ａｔｔ(ｈ)を用いてジョイントスコア（joint score）ψ_{ｊｏｉｎｔ}(ｈ)を計算する１２行目、及びジョイントスコアψ_{ｊｏｉｎｔ}(ｈ)を用いて、ｈminを選択する１８行目である。

ＣＴＣスコアψ_ｃｔｃ(ｈ，Ｘ)は、修正順方向アルゴリズムを用いて計算することができる。γ_ｔ ^(ｎ)(ｈ)及びγ_ｔ ^(ｂ)(ｈ)を時間フレーム１，…，ｔにわたる仮説ｈの順方向確率であるとする。ただし、上付き文字（ｎ）及び（ｂ）はそれぞれ、全てのＣＴＣ経路が非ブランクラベル又はブランクラベルで終了する異なる事例を表す。ビーム探索を開始する前に、γ_ｔ ^(ｎ)(・)及びγ_ｔ ^(ｂ)(・)が、ｔ＝１，…，Ｔに関して、

として初期化される。ただし、γ_０ ^(ｂ)(＜ｓｏｓ＞)＝１であり、

がブランクラベルであると仮定する。エンコーダーに関するサブサンプリング技法のため、時間インデックスｔ及び入力長Ｔは入力発話Ｘの時間インデックス及び入力長とは異なる場合があることに留意されたい。ＣＴＣスコア関数は以下のように実施することができる。

この関数において、所与の仮説ｈが、１行目において、最初に、最後のラベルｙ及び残りのラベルｇに分割される。ｙが＜ｅｏｓ＞である場合には、３行目において、ｈが完全な仮説であると仮定して、順方向確率の対数を返す。ｈの順方向確率は、γ_ｔ ^(ｎ)(・)及びγ_ｔ ^(ｂ)(・)の定義に従って、

によって与えられる。ｙが＜ｅｏｓ＞でない場合には、ｈが完全な仮説でないと仮定して、順方向確率γ_ｔ ^(ｎ)(ｈ)及びγ_ｔ ^(ｂ)(ｈ)並びにプレフィックス確率Ψ＝ｐ_ｃｔｃ(ｈ，…|Ｘ)を計算する。それらの確率に関する初期化ステップ及び再帰ステップが５行目〜１３行目に記述される。この関数において、１０行目〜１２行目において、γ_ｔ ^(ｎ)(ｈ)、γ_ｔ ^(ｂ)(ｈ)及びΨを計算するときにはいつでも、ｇがｈのプレフィックスであり、|ｇ|＜|ｈ|であるので、９行目の確率γ_ｔ−１ ^(ｎ)(ｇ)及びγ_ｔ−１ ^(ｂ)(ｇ)がビーム探索プロセスを通して既に取得されていると仮定される。したがって、プレフィックス確率及び順方向確率を効率的に計算することができる。９行目のｌａｓｔ(ｇ)は、ｇの最後のラベルを返す関数であることを留意されたい。

したがって、１パス法は、ビーム探索中にＣＴＣスコアによって不規則なアライメントを伴う部分仮説を除外することができ、リスコアリング法と比べて少ない計算で、望ましくは探索誤りの数を削減する。探索誤りは、ビーム探索によって最確仮説が見逃されることを意味する。この場合、最良の仮説の代わりに、スコアが低い代替の仮説が取得され、代替の仮説は一般に、最良の仮説より多くの認識誤りを含む。

ネットワークトレーニング
トレーニング段階において、損失関数を低減するために、全てのネットワークパラメーター２０３、２０５及び２０９が同時に最適化される。

ただし、

及び

は、音響特徴系列及びラベル系列を含むトレーニングデータである。Φは１組のネットワークパラメーターを表す。Ｎは、トレーニングサンプルの数であり、Ｘｎ及びＹｎはそれぞれ、トレーニングデータ内の第ｎの音響特徴系列及び対応するラベル系列である。ｐ_ｃｔｃ(Ｙ_ｎ|Ｘ_ｎ，φ)はＣＴＣベース系列確率であり、ｐ_ａｔｔ(Ｙ_ｎ|Ｘ_ｎ，φ)は注意ベース系列確率である。ネットワークパラメーターは、確率的勾配降下法によって最適化することができる。

トレーニング手順は、エンコーダーネットワーク、デコーダーネットワーク及びＣＴＣネットワークを同時に最適化する。しかし、この方法は、ＣＴＣネットワークだけを用いて、従来技術の注意ベースエンドツーエンド音声認識のためのエンコーダーパラメーター及びデコーダーパラメーターを正規化する。ＣＴＣネットワークはトレーニング後に破棄され、認識段階では使用されない。本発明の方法において、ＣＴＣネットワークを用いて、認識段階において系列確率ｐ(Ｙ|Ｘ)を予測し、それにより、認識誤りを削減する。これは、本開示の実施の形態の重要な利点のうちの１つである。

エンドツーエンド音声認識装置
図４は、本発明のいくつかの実施の形態による、エンドツーエンド音声認識システム４００のブロック図を示す。エンドツーエンド音声認識システム４００は、キーボード４１１及びポインティングデバイス／媒体４１２と接続可能なヒューマンマシンインターフェース（ＨＭＩ）４１０と、１つ以上のプロセッサ４２０と、記憶デバイス４３０と、メモリ４４０と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク４９０と接続可能なネットワークインターフェースコントローラー４５０（ＮＩＣ）と、ディスプレイインターフェース４６０と、マイクロフォンデバイス４７５と接続可能なオーディオインターフェース４７０と、印刷デバイス４８５と接続可能なプリンタインターフェース４８０とを含む。メモリ４４０は１つ以上のメモリユニットとすることができる。エンドツーエンド音声認識システム４００は、ＮＩＣ４５０に接続されるネットワーク４９０を介して電気的なオーディオ波形／スペクトルデータ４９５を受信することができる。記憶デバイス４３０は、エンドツーエンド音声認識モジュール２００、注意デコーダーネットワークモジュール２０４、エンコーダーネットワークモジュール２０２、ＣＴＣモジュール２０８、及び音響特徴抽出モジュール４３４を含む。ラベル系列探索モジュール、エンコーダーネットワークパラメーター、デコーダーネットワークパラメーター及びＣＴＣネットワークパラメーターは図において省略される。ポインティングデバイス／媒体４１２は、コンピューター可読記録媒体上に記憶されるプログラムを読み出すモジュールを含むことができる。注意デコーダーネットワークモジュール２０４、エンコーダーネットワークモジュール２０２及びＣＴＣモジュール２０８は、ニューラルネットワークパラメーターによって形成することができる。音響特徴抽出モジュール４３４は、音響特徴系列を抽出するために使用されるプログラムである。音響特徴系列は、一次及び二次時間導関数及び／又はピッチ特徴を伴うメルスケールフィルターバンク係数の系列とすることができる。

エンドツーエンド音声認識を実行するために、キーボード４１１、ポインティングデバイス／媒体４１２を用いて、又は他のコンピューター（図示せず）に接続されるネットワーク４９０を介して、エンドツーエンド音声認識システム４００に命令を送信することができる。システム４００は、ＨＭＩ４１０を介して命令を受信し、記憶デバイス４３０に記憶されるエンドツーエンド音声認識モジュール２００、注意デコーダーネットワークモジュール２０４、エンコーダーネットワークモジュール２０２、ＣＴＣモジュール２０８及び音響特徴抽出モジュール４３４をロードすることによって、メモリ４４０に関連するプロセッサ４２０を用いてエンドツーエンド音声認識を実行するための命令を実行する。

評価結果
本発明の有効性を示すために、日本語及び中国標準語音声認識ベンチマーク（Japanese and Mandarin Chinese speech recognition benchmarks）を使用した。

日本語話し言葉コーパス（ＣＳＪ）
日本語話し言葉コーパス（ＣＳＪ：MAEKAWA, K., KOISO, H., FURUI, S., AND ISAHARA, H. Spontaneous speech corpus of Japanese in International Conference on Language Resources and Evaluation (LREC) (2000), vol. 2, pp. 947-952.）を使用することによって、音声認識実験を実施した。ＣＳＪは、学術講演及び模擬講演を含む、モノローグ音声データの集合体に基づく標準的な日本語音声認識タスクである。それは全部で５８１時間のトレーニングデータと、３つのタイプの評価データ（タスク１、タスク２、タスク３）を有し、各評価タスクは１０回の講演（全部で５時間）からなる。入力特徴として、その一次及び二次時間導関数を伴う、４０個のメルスケールフィルターバンク係数を用いて、フレームあたり全部で１２０次元の特徴ベクトルを取得した。エンコーダーは各層及び方向において３２０セルを有する４層ＢＬＳＴＭであり、線形射影層（linear projection layer）に各ＢＬＳＴＭ層が後続した。エンコーダーの第２及び第３のボトム層は、下方のネットワークにおいて１つおきの隠れベクトルを読み出し、発話長を４分の１に削減する。ロケーションベース注意機構（location-based attention mechanism）が使用され、幅１００の１０個の中央畳み込みフィルター（centered convolution filter）を用いて、畳み込み特徴を抽出した。デコーダーネットワークは、３２０セルを有する１層ＬＳＴＭであった。最適化のために、勾配クリッピングを有するＡｄａＤｅｌｔａアルゴリズムが使用された。エンコーダーネットワーク、デコーダーネットワーク及びＣＴＣネットワークはマルチタスク学習手法においてトレーニングされ、倍率λは０．１に設定された。

図５は、従来の注意ベース音声認識及び本発明に関する文字誤り率（ＣＥＲ：character error rate）を比較する。図５の表は、３つの全てのタスクにおいて、本発明によって従来技術のＣＥＲが低減されることを示す。ただし、倍率λは０．１に設定された。本発明において、１パス法は、タスク１及びタスク３においてリスコアリング法よりわずかに良好であった。

標準中国語電話音声
ＨＫＵＳＴ標準中国語会話電話音声認識（ＭＴＳ）に関する実験を実施した。それは評価用の５時間の録音（Ｅｖａｌｓｅｔ）を有し、トレーニングセットから開発セット（Ｄｅｖｓｅｔ）として５時間が抽出され、残り（１６７時間）はトレーニングセットとして使用された。予備調査に基づいて、トレーニング及び復号において０．１の代わりにλ＝０．５が使用されたこと、及びピッチ特徴を有する８０個のメルスケールフィルターバンク係数が使用されたことを除いて、全ての実験条件をＣＳＪ実験の条件と同じにした。図６は、従来技術の注意ベース法より優れた本発明の有効性を示す。開発セット及び評価セットの両方において、ＣＥＲが著しく低減される。ＣＳＪ実験と同様に、１パス法が両方のセットにおいてリスコアリング法よりわずかに良好であった。

本開示のいくつかの実施の形態において、上記のエンドツーエンド音声認識システムがコンピューターシステム内にインストールされるときに、少ない計算能力で音声認識を実効的、かつ正確に実行することができ、それゆえ、本開示のエンドツーエンド音声認識方法又はシステムを使用することにより、中央処理ユニット使用量及び電力消費量を削減することができる。

さらに、本開示による実施の形態は、エンドツーエンド音声認識を実行する実効的な方法を提供し、それゆえ、そのエンドツーエンド音声認識モデルを使用する方法及びシステムを使用することによって、中央処理ユニット（ＣＰＵ）使用量、電力消費量及び／又はネットワーク帯域幅使用量を削減することができる。

本開示の上記で説明した実施の形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施の形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の１つを用いる１つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び／又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施の形態において所望に応じて組み合わせることもできるし、分散させることもできる。

さらに、本開示の実施の形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施の形態を構築することができ、この順序は、いくつかの動作が例示の実施の形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第１、第２等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

声音を受け取る入力デバイスと、
１つ以上のプロセッサと、
パラメーターと、前記１つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールとを記憶する１つ以上の記憶デバイスであって、該命令は、実行されるときに、前記１つ以上のプロセッサに動作を実行させ、該動作は、
音響特徴抽出モジュールを用いて、前記声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、
エンコーダーネットワークパラメーターを有するエンコーダーネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
前記隠れベクトル系列を、デコーダーネットワークパラメーターを有するデコーダーネットワークに送り込むことによって、第１の出力ラベル系列確率を予測することと、
コネクショニスト時系列分類（ＣＴＣ）ネットワークパラメーターを使用するＣＴＣモジュールと、前記エンコーダーネットワークからの前記隠れベクトル系列とによって、第２の出力ラベル系列確率を予測することと、
ラベル系列探索モジュールを用いて、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
を含むものと、
を備える、音声認識システム。
前記デコーダーネットワークは、前記第１の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項１に記載の音声認識システム。
前記ＣＴＣモジュールは、前記第２の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項１に記載の音声認識システム。
前記エンコーダーネットワークは、スタックされた双方向長短期メモリ（ＢＬＳＴＭ）を含む、請求項１に記載の音声認識システム。
前記デコーダーネットワークはスタックされた長短期メモリ（ＬＳＴＭ）を含み、前記隠れベクトル系列に関する注意機構を用いて、出力ラベル系列確率をそれぞれ予測する、請求項１に記載の音声認識システム。
前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合するために、対数領域における線形結合が使用される、請求項１に記載の音声認識システム。
前記探索することは、ビーム探索を用いて、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項１に記載の音声認識システム。
前記ビーム探索は、最初に、前記デコーダーネットワークから与えられた第１のラベル系列確率を用いて１組の完全なラベル系列仮説を見つけ、その後、前記１組の完全なラベル系列仮説の中から、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項７に記載の音声認識システム。
前記ビーム探索は、他の不完全なラベル系列仮説のうちいずれかの系列確率より低い系列確率を有する不完全なラベル系列仮説を取り除き、前記系列確率は、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られる、請求項７に記載の音声認識システム。
前記ＣＴＣモジュールは、前記第２の出力ラベル系列確率を予測するために、前記ＣＴＣネットワークパラメーター及び動的計画法を用いて、事後確率分布を計算する、請求項１に記載の音声認識システム。
音響特徴抽出モジュールを用いて、入力デバイスによって受け取られる声音から変換されるオーディオ波形データから音響特徴系列を抽出することと、
１つ以上の記憶デバイスからエンコーダーネットワークパラメーターを取得するエンコーダーネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
前記１つ以上の記憶デバイスからデコーダーネットワークパラメーターを取得するデコーダーネットワークに前記隠れベクトル系列を送り込むことによって、第１の出力ラベル系列確率を予測することと、
コネクショニスト時系列分類（ＣＴＣ）ネットワークパラメーターを使用するＣＴＣモジュールと、前記エンコーダーネットワークからの前記隠れベクトル系列とによって、第２の出力ラベル系列確率を予測することと、
ラベル系列探索モジュールを用いて、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
を含む、音声認識の方法。
前記デコーダーネットワークは、前記第１の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項１１に記載の方法。
前記ＣＴＣモジュールは、前記第２の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項１１に記載の方法。
前記エンコーダーネットワークはスタックされた双方向長短期メモリ（ＢＬＳＴＭ）を含む、請求項１１に記載の方法。
前記デコーダーネットワークはスタックされた長短期メモリ（ＬＳＴＭ）を含み、前記隠れベクトル系列に関する注意機構を用いて、出力ラベル系列確率をそれぞれ予測する、請求項１１に記載の方法。
前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合するために、対数領域における線形結合が使用される、請求項１１に記載の方法。
前記探索することは、ビーム探索を用いて、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項１１に記載の方法。
前記ビーム探索は、最初に、前記デコーダーネットワークから与えられる第１のラベル系列確率を用いて１組の完全なラベル系列仮説を見つけ、その後、前記１組の完全なラベル系列仮説の中から、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項１７に記載の方法。
前記ビーム探索は、他の不完全なラベル系列仮説のうちいずれかの系列確率より低い系列確率を有する不完全なラベル系列仮説を取り除き、前記系列確率は、前記デコーダーネットワーク及び前記ＣＴＣモジュールから与えられた前記第１の出力ラベル系列確率及び前記第２の出力ラベル系列確率を結合することによって得られる、請求項１７に記載の方法。
前記ＣＴＣモジュールは、前記第２の出力ラベル系列確率を予測するために、前記ＣＴＣネットワークパラメーター及び動的計画法を用いて、事後確率分布を計算する、請求項１１に記載の方法。