JP6929466B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP6929466B2
JP6929466B2 JP2020537900A JP2020537900A JP6929466B2 JP 6929466 B2 JP6929466 B2 JP 6929466B2 JP 2020537900 A JP2020537900 A JP 2020537900A JP 2020537900 A JP2020537900 A JP 2020537900A JP 6929466 B2 JP6929466 B2 JP 6929466B2
Authority
JP
Japan
Prior art keywords
probability
label sequence
word
output label
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537900A
Other languages
English (en)
Other versions
JP2021501376A (ja
Inventor
堀 貴明
貴明 堀
晋司 渡部
晋司 渡部
ハーシェイ、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021501376A publication Critical patent/JP2021501376A/ja
Application granted granted Critical
Publication of JP6929466B2 publication Critical patent/JP6929466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)

Description

本発明は、包括的には、オープン語彙(open−vocabulary:語彙制限のない)エンドツーエンド音声認識のための装置及び方法に関し、より具体的には、文字レベル及び単語レベルの言語モデルに基づくエンドツーエンド自動音声認識のための方法及びシステムに関する。
自動音声認識は、現在では、広く展開されている十分に成熟した1組の技術であり、音声検索等のインターフェースアプリケーションにおいて大きな成功を収めている。しかしながら、高い認識精度を達成する音声認識システムを構築するのは容易ではない。1つの問題は、システムが受け入れる対象言語に関して、深い言語的知識を必要とすることである。例えば、そのようなシステムを構築するのに、1組の音素、語彙及び発音辞書が不可欠である。音素セットは、その言語に通じた人によって注意深く定義される必要がある。発音辞書は、10万語を超える単語を含む語彙内の各単語に1つ以上の音素系列を割り当てることによって、手作業で作成される必要がある。さらに、言語の中には、語境界を明確に有しないものもあり、それゆえ、テキストコーパスから語彙を作成するために、トークン化を必要とする場合がある。結果として、マイナーな言語の場合に特に、専門家でない人が音声認識システムを開発するのは極めて難しい。他の問題は、音声認識システムが、別々に最適化される音響モデル、辞書モデル及び言語モデルを含む、いくつかのモジュールに分解されることである。各モデルが他のモデルに一致するようにトレーニングされる場合であっても、このアーキテクチャの結果として、局所的な最適条件がもたらされる場合がある。
エンドツーエンド音声認識は、従来のアーキテクチャを簡略化して、深層学習のフレームワーク内の単一のニューラルネットワークアーキテクチャにするという目的を有する。これらの問題に対処するために、又はこれらの問題を解決するために、いくつかの文献において種々の技法が論じられてきた。現行技術水準のエンドツーエンド音声認識システムは、所与の音声入力の文字系列を予測するように設計されている。なぜなら、発音辞書なしに音声から直接単語系列を予測することは、文字系列を予測するよりはるかに難しいからである。一方、文字ベース予測は、長い文字系列にわたって言語的制約をモデル化することが難しいことから、単語ベース予測に比べて一般に性能が劣る。対応するトランスクリプトを有する音声データが更に多く存在する場合、単語系列を予測するより良好なニューラルネットワークをトレーニングすることができる。しかしながら、そのようなトランスクリプト付き音声データを収集し、大きなデータセットを用いてネットワークをトレーニングすることは非常に多くのコストを要する。したがって、エンドツーエンド音声認識に単語レベル予測を組み込んで認識精度を改善することは容易ではない。
本開示のいくつかの実施形態は、エンドツーエンド自動音声認識(ASR:automatic speech recognition)アーキテクチャにおける文字レベル言語モデル(LM:language models)及び単語レベル言語モデルの結合によってラベル系列予測を改善することが可能であるという認識に基づく。LMは、長短期メモリ(LSTM:long short−term memory)ユニットを含む再帰型ニューラルネットワーク(RNN:recurrent neural network)とすることができる。
文字レベルLMは、エンドツーエンドASRの注意デコーダネットワークモジュール及びコネクショニスト時系列分類(CTC:connectionist temporal classification)モジュールと組み合わされる。文字レベルLMは、いくつかの言語において競争相手の現行技術水準のDNN/HMMベースASRシステムに対して認識精度を改善する。文字レベルアーキテクチャは、オープン語彙ASRの方法を提供することができるが、文字レベルLMは、文字の長い系列にわたって言語的制約をモデル化することが困難であることから、スモールアルファベット(small alphabet)を有する英語等の言語については単語レベルLMに比べて一般に性能が劣る。
本発明のいくつかの実施形態は、文字レベル及び単語レベルの双方においてLMを用いたエンドツーエンドASR復号の新規の方法を提供する。本発明の復号プロセスでは、単語境界に遭遇するまで、文字系列仮説が、文字レベルLMを用いて最初にスコアリングされる。次に、既知の単語が、単語レベルLMを用いて再スコアリングされるとともに、文字レベルLMは、語彙外単語のスコアを与える。
この手法は、文字レベルアーキテクチャ及び単語レベルアーキテクチャの双方の利点を活用し、高精度のオープン語彙エンドツーエンドASRを可能にする。評価結果は、本開示の終わりに、標準的なウォールストリートジャーナル(WSJ:Wall Street Journal)タスクを用いて議論され、オープン語彙エンドツーエンドASRによる大幅な改善を示している。
本発明のいくつかの実施形態によれば、音声認識システムは、声音を受け取る入力デバイスと、1つ以上のプロセッサと、パラメータ、及び前記1つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールを記憶する1つ以上の記憶デバイスとを備える。前記1つ以上の記憶デバイスにおいて、前記命令は、実行されると、前記1つ以上のプロセッサに動作を実行させる。前記1つ以上の記憶デバイスにおいて、前記動作は、音響特徴抽出モジュールを用いて、前記声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、エンコーダネットワークパラメータを有するエンコーダネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、前記隠れベクトル系列を、デコーダネットワークパラメータを有するデコーダネットワークに送り込むことによって、第1の出力ラベル系列確率を予測することと、文字レベル言語モデル(LM)及び単語レベルLMを使用するハイブリッドネットワークによって第2の出力ラベル系列確率を予測することと、ラベル系列探索モジュールを用いて、前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することとを含む。
本発明のいくつかの実施形態によれば、メモリと通信するコンピュータに音声認識プロセスを実行させるプログラムを記憶する非一時的コンピュータ可読記録媒体を開示する。前記非一時的コンピュータ可読記録媒体において、前記音声認識プロセスは、声音を準備することと、音響特徴抽出モジュールを用いて、前記声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、エンコーダネットワークパラメータを有するエンコーダネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、デコーダネットワークパラメータを有するデコーダネットワークに前記隠れベクトル系列を送り込むことによって、第1の出力ラベル系列確率を予測することと、文字レベル言語モデル(LM)及び単語レベルLMを使用するハイブリッドネットワークによって第2の出力ラベル系列確率を予測することと、ラベル系列探索モジュールを用いて、前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することとを含む。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではない。図面は、その代わり、一般的に、ここに開示されている実施形態の原理を強調するように示されている。
関連技術による注意ベースエンドツーエンド音声認識方法を示すブロック図である。 本発明の実施形態によるオープン語彙エンドツーエンド音声認識モジュールを示すブロック図である。 本発明の実施形態によるオープン語彙エンドツーエンド音声認識モジュール内のニューラルネットワークを示す概略図である。 本発明の実施形態によるオープン語彙エンドツーエンド音声認識システムを示すブロック図である。 本発明の実施形態によるオープン語彙エンドツーエンド音声認識を実行することによって得られる評価結果を示す図である。 本発明の実施形態による異なる言語モデルを用いた単語誤り率(WER::word error rate)を示す図である。 本発明の実施形態によるオープン語彙エンドツーエンド音声認識による、ビーム幅の関数としての単語誤り率を示す評価結果を示す図である。 20K〜65Kの異なる語彙サイズ及びオープン語彙条件を用いたときのWERの比較を示す評価結果を示す図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も、限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解できる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細によって不明瞭とならないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細を省いて示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
本開示において例示されるモジュール及びネットワークは、コンピュータプログラム、ソフトウェア又は命令コードとすることができ、1つ以上のプロセッサを用いて命令を実行することができる。モジュール及びネットワークは1つ以上の記憶デバイスに記憶することができるか、又は別の状況では、例えば、磁気ディスク、光ディスク若しくはテープ等の、記憶媒体、コンピュータ記憶媒体又はデータ記憶デバイス(取外し可能及び/又は非取外し可能)等のコンピュータ可読媒体に記憶することができ、コンピュータ可読媒体は、命令を実行するために1つ以上のプロセッサからアクセス可能である。
コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶するための任意の方法又は技術において実現される揮発性及び不揮発性、取外し可能及び非取外し可能の媒体を含むことができる。コンピュータ記憶媒体は、RAM、ROM、EEPROM若しくはフラッシュメモリ、CD−ROM、デジタルバーサタイルディスク(DVD)若しくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用することができ、1つ以上のプロセッサを用いて、アプリケーション、モジュール又は両方によってアクセスすることができる任意の他の媒体とすることができる。任意のそのようなコンピュータ記憶媒体は、そのデバイスの一部とすることができるか、そのデバイスからアクセス可能とすることができるか、又はそのデバイスに接続可能とすることができる。本明細書において説明される任意のアプリケーション又はモジュールは、そのようなコンピュータ可読媒体によって記憶できるか、又は別の方法で保持できるコンピュータ可読/実行可能命令を用いて実現することができる。
図1は、関連技術による、注意ベースエンドツーエンド音声認識モジュール100を示すブロック図である。注意ベースエンドツーエンド音声認識モジュール100において、エンコーダモジュール102は、最初に、エンコーダネットワークパラメータ103から読み出されたエンコーダネットワークを用いて、音響特徴系列101を隠れベクトル系列に変換する。次に、注意デコーダモジュール104は、エンコーダネットワークモジュール102から隠れベクトル系列を受信するとともに、ラベル系列探索モジュール106から先行するラベルを受信し、デコーダネットワークパラメータ105から読み出されたデコーダネットワークを用いて、先行するラベルに関する次のラベルの事後確率分布を計算する。ラベルは、文字、音節、単語又は対象言語を表現する任意の単位とすることができるが、文字が広く使用される。ラベル系列探索モジュール106は、注意デコーダモジュール104によって与えられた事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。ラベル系列の事後確率は、系列におけるラベルの事後確率の積として計算される。
注意ベースエンドツーエンド音声認識システムは、通常、所与の音声入力の文字系列を予測するように設計される。なぜなら、エンコーダネットワークパラメータ103及びデコーダネットワークパラメータ105を最適化するために使用されるデータ量が、システムが単語系列を予測する場合と比較してはるかに少なくなるからである。一方、十分なトレーニングデータが利用可能である場合、文字ベース予測は、長い文字系列にわたって言語的制約をモデル化することが難しいことから、単語ベース予測に比べて一般に性能が劣る。しかし、対応する手動トランスクリプションを有する大量の音声データを収集することは、非常に多くのコストを要する。したがって、エンドツーエンド音声認識に単語レベル予測を組み込んで認識精度を改善することは容易ではない。
その上、単語レベル予測を行うときは別の問題もあり、これは、語彙外(OOV:out−of−vocabulary)問題として知られている。一般に、全ての単語がトレーニングデータに現れるわけではなく、また、新たな単語が人間によって生み出されることが多いので、ASRシステムの語彙に含まれない多くの単語が存在する。OOV問題は、音声信号内のそのようなOOV単語をASRシステムによって正しく認識することができないということである。
本発明のいくつかの実施形態は、注意ベース確率を文字レベルLM確率及び単語レベルLM確率と組み合わせることによってラベル系列仮説の精度を改善することが可能であるという認識に基づいている。文字レベルLM及び単語レベルLMは、テキストのみのデータを用いてトレーニングすることができる。テキストデータは、トランスクリプト付き音声データより容易に収集することができるので、本発明によって、エンドツーエンドASRの単語レベル予測を行うことが可能になる。これによって、十分なテキストデータを用いて単語レベルLMをトレーニングすることによって音声認識精度が改善される。さらに、本発明は、文字レベルLM及び単語レベルLMを組み合わせることによってOOV問題も緩和する。
図2は、本発明の実施形態によるオープン語彙エンドツーエンド音声認識モジュール200を示すブロック図である。オープン語彙エンドツーエンド音声認識モジュール200は、エンコーダネットワークモジュール202と、エンコーダネットワークパラメータ203と、注意デコーダモジュール204と、デコーダネットワークパラメータ205と、ラベル系列探索モジュール206と、CTCモジュール208と、CTCネットワークパラメータ209と、LMモジュール210と、文字LMパラメータ211と、単語LMパラメータ212とを含む。エンコーダネットワークパラメータ203、デコーダネットワークパラメータ205、CTCネットワークパラメータ209、LMパラメータは、対応するモジュール202、204、208及び210にパラメータを提供する記憶デバイスにそれぞれ記憶される。音響特徴系列201は、図4の音響特徴抽出モジュール434を用いて、オーディオ波形データ又はスペクトルデータから抽出される。オーディオ波形データ又はスペクトルデータは、記憶デバイスに記憶され、エンコーダネットワークモジュール202に与えることができる。オーディオ波形データ又はスペクトルデータは、声音を受信し、オーディオ波形データ又はスペクトルデータに変換するデジタル信号処理モジュール(図示せず)を用いて、図4の入力デバイス475を介して取得することができる。さらに、記憶デバイス430又はメモリ440に記憶されるオーディオ波形データ又はスペクトルデータは、エンコーダネットワークモジュール202に与えることができる。声音の信号は、図4のネットワーク490を介して与えることができる。入力デバイス475は、マイクロフォンデバイスとすることができる。
エンコーダネットワークモジュール202はエンコーダネットワークを含み、エンコーダネットワークパラメータ203からパラメータを読み出すエンコーダネットワークを用いて、音響特徴系列201が隠れベクトル系列に変換される。
注意デコーダネットワークモジュール204を使用する注意機構は、以下のように説明される。注意デコーダネットワークモジュール204は、デコーダネットワークを含む。注意デコーダネットワークモジュール204は、エンコーダネットワークモジュール202から隠れベクトル系列を受信するとともに、ラベル系列探索モジュール206から先行するラベルを受信し、その後、デコーダネットワークパラメータ205からパラメータを読み出すデコーダネットワークを用いて、先行するラベルに関する次のラベルの第1の事後確率分布を計算する。注意デコーダネットワークモジュール204は、第1の事後確率分布をラベル系列探索モジュール206に与える。CTCモジュール208は、エンコーダネットワークモジュール202から隠れベクトル系列を受信するとともに、ラベル系列探索モジュール206から先行するラベルを受信し、CTCネットワークパラメータ209及び動的計画法を用いて、次のラベル系列の第2の事後確率分布を計算する。この計算後、CTCモジュール208は、第2の事後確率分布をラベル系列探索モジュール206に与える。
LMモジュール210は、先行するラベルをラベル系列探索モジュール206から受信し、LMパラメータ211を用いて次のラベル系列の第3の事後確率分布を計算する。さらに、この計算後、LMモジュール210は、第3の事後確率分布をラベル系列探索モジュール206に提供する。
ラベル系列探索モジュール206は、注意デコーダネットワークモジュール204、CTCモジュール208及びLMモジュール210からそれぞれ与えられる第1の事後確率分布、第2の事後確率分布及び第3の事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。注意デコーダネットワークモジュール204、CTCモジュール208及びLMモジュール210によって計算されるラベル系列の第1の事後確率分布、第2の事後確率分布及び第3の事後確率は、1つの確率に結合される。この場合、事後確率の結合の計算は、線形結合に基づいて実行することができる。オープン語彙エンドツーエンド音声認識モジュール200によれば、CTCベース確率、注意ベース確率及びLMベース確率を考慮に入れて、入力音響特徴系列に対してより良好な仮説を見つけることが可能になる。
本開示の実施形態によれば、LMモジュール210を導入することによってエンドツーエンドASRの認識精度を改善することが可能になる。LMモジュール210は、文字レベル再帰型ニューラルネットワーク(RNN)及び単語レベルRNNを含むことができる。いくつかの場合において、LMモジュール210は、ハイブリッドネットワーク又はハイブリッドネットワークモジュールと呼ばれる場合がある。この場合、LMモジュール210は、文字LMパラメータ211によって定義された文字レベルLMと、単語LMパラメータ212によって定義された単語レベルLMとを用いてLM確率を計算する。LMモジュールは、オープン語彙音声認識の実行も可能にする。すなわち、OOV単語が発話された場合であっても、それらのOOV単語は、文字レベルLM及び単語レベルLMの双方を用いることによって認識される。本発明の復号プロセスでは、単語境界に遭遇するまで、文字系列仮説が、文字レベルLM確率を用いて最初にスコアリングされる。次に、既知の単語が、単語レベルLM確率を用いて再スコアリングされるとともに、文字レベルLMは、OOV単語のLM確率スコアを与える。
注意ベースエンドツーエンド音声認識
エンドツーエンド音声認識は、入力音響特徴系列Xが与えられたときの最確ラベル系列
Figure 0006929466
を見つける問題と一般に定義される。すなわち、
Figure 0006929466
である。ただし、
Figure 0006929466
は1組の所定のラベル
Figure 0006929466
が与えられたときの1組の取り得るラベル系列を表す。ラベルは、文字又は単語とすることができる。
エンドツーエンド音声認識において、発音辞書及び言語モデルを用いることなく、あらかじめトレーニングされたニューラルネットワークによってp(Y|X)が計算される。関連技術の注意ベースエンドツーエンド音声認識では、ニューラルネットワークは、エンコーダネットワーク及びデコーダネットワークからなる。
エンコーダモジュール102は、
Figure 0006929466
として、音響特徴系列X=x,...,xを隠れベクトル系列H=h,...,hに変換するために使用されるエンコーダネットワークを含む。ただし、関数Encoder(X)は、スタックされる、1つ以上の再帰型ニューラルネットワーク(RNN)からなることができる。RNNは長短期メモリ(LSTM)として実現することができ、長短期メモリは、各隠れユニット内に入力ゲート、忘却ゲート、出力ゲート及びメモリセルを有する。別のRNNは双方向RNN(BRNN)又は双方向LSTM(BLSTM)とすることができる。BLSTMは一対のLSTM RNNであり、一方は順方向LSTMであり、他方は逆方向LSTMである。BLSTMの隠れベクトルは、順方向LSTM及び逆方向LSTMの隠れベクトルの連結として取得される。
順方向LSTMの場合、順方向の第tの隠れベクトル
Figure 0006929466
は以下のように計算される。
Figure 0006929466
ただし、σ(・)は要素ごとのシグモイド関数であり、tanh(・)は要素ごとの双曲線正接関数であり、
Figure 0006929466
、及び
Figure 0006929466
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。
Figure 0006929466
はベクトル間の要素ごとの乗算を表す。重み行列
Figure 0006929466
及びバイアスベクトル
Figure 0006929466
はLSTMのパラメータであり、それらは下付き文字z∈{x,h,i,f,o,c}
によって識別される。例えば、
Figure 0006929466
は隠れ/入力ゲート行列であり、
Figure 0006929466
は入力/出力ゲート行列である。隠れベクトル
Figure 0006929466
は入力ベクトルx及び先行する隠れベクトル
Figure 0006929466
から再帰的に取得される。ただし、
Figure 0006929466
は零ベクトルであると仮定される。
逆方向LSTMによれば、逆方向の第tの隠れベクトル
Figure 0006929466
は以下のように計算される。
Figure 0006929466
ただし、
Figure 0006929466
及び
Figure 0006929466
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 0006929466
及びバイアスベクトル
Figure 0006929466
はLSTMのパラメータであり、それらは順方向LSTMと同様にして下付き文字によって識別される。隠れベクトル
Figure 0006929466
は入力ベクトルx及び後続の隠れベクトル
Figure 0006929466
から再帰的に取得される。ただし、
Figure 0006929466
は零ベクトルであると仮定される。
BLSTMの隠れベクトルは、以下のように、順方向隠れベクトル及び逆方向隠れベクトルを連結することによって取得される。
Figure 0006929466
ただし、Tは、全てのベクトルが列ベクトルであると仮定するときに、ベクトルに関する転置演算を表す。
Figure 0006929466
及び
Figure 0006929466
はBLSTMのパラメータと見なされる。
より良好な隠れベクトルを取得するために、第1のBLSTMの隠れベクトルを第2のBLSTMに送り込み、その後、第2のBLSTMの隠れベクトルを第3のBLSTMに送り込み、以下同様にすることによって、複数のBLSTMをスタックすることができる。h’が1つのBLSTMによって取得された隠れベクトルである場合には、それを別のBLSTMに送り込むときに、x=h’であると仮定する。計算を削減するために、1つのBLSTMから別のBLSTMに1つおきの隠れベクトルのみを送り込むことができる。この場合、出力隠れベクトル系列の長さは、入力音響特徴系列の長さの半分になる。
複数のBLSTMの下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 0006929466
及び
Figure 0006929466
は、エンコーダネットワークパラメータ203に記憶され、隠れベクトル系列Hを計算するために使用される。
注意デコーダモジュール104は、隠れベクトル系列Hを用いて、ラベル系列確率patt(Y|X)を計算するために使用されるデコーダネットワークを含む。YがL長のラベル系列y,y,...,yであると仮定する。patt(Y|X)を効率的に計算するために、その確率は、
Figure 0006929466
として確率連鎖律によって分割することができ、各ラベル確率patt(y|y,...,yl−1,X)はラベルにわたる確率分布から取得され、その確率分布は、
Figure 0006929466
としてデコーダネットワークを用いて推定される。ただし、yはラベルを表す確率変数であり、rはコンテンツベクトルと呼ばれ、それはHのコンテンツ情報を有する。ql−1はデコーダ状態ベクトルであり、それは、先行するラベルy,...,yl−1及び先行するコンテンツベクトルr,...,rl−1の文脈情報を含む。したがって、ラベル確率は、文脈を与えられるとすると、y=yの確率として取得され、すなわち、
Figure 0006929466
である。
コンテンツベクトルrは一般に、エンコーダネットワークの隠れベクトルの加重和として与えられ、すなわち、
Figure 0006929466
である。ただし、altは注意重みと呼ばれ、それはΣlt=1を満たす。注意重みはql−1及びHを用いて、以下のように計算することができる。
Figure 0006929466
ただし、W、V、F及びUは行列であり、w及びbはベクトルであり、それらはデコーダネットワークのトレーニング可能なパラメータである。eltは第(l−1)の状態ベクトルql−1と第tの隠れベクトルhとの間の照合スコアであり、時間的なアライメント分布a={alt|t=1,...,T}を形成する。al−1は、先行するラベルyl−1を予測するために使用される先行するアライメント分布{a(l−1)t|t=1,...,T}を表す。f={flt|t=1,...,T}は、al−1に関するFとの畳み込み結果であり、それは、先行するアライメントを現在のアライメントに反映させるために使用される。「*」は畳み込み演算を表す。
ラベル確率分布は、
Figure 0006929466
として状態ベクトルql−1及びコンテンツベクトルrを用いて取得される。ただし、Wqy及びWryは行列であり、bはベクトルであり、それらはデコーダネットワークのトレーニング可能なパラメータである。softmax()関数は、K次元ベクトルvの場合に、
Figure 0006929466
として計算される。ただし、v[i]は、vの第iの要素を示す。
その後、デコーダ状態ベクトルql−1が、以下のように、LSTMを用いて、qに更新される。
Figure 0006929466
ただし、
Figure 0006929466
及び
Figure 0006929466
はそれぞれ、入力ベクトルxに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 0006929466
及びバイアスベクトル
Figure 0006929466
はLSTMのパラメータであり、それは順方向LSTMと同様にして下付き文字によって識別される。状態ベクトルqは入力ベクトル
Figure 0006929466
及び先行する状態ベクトルql−1から再帰的に取得され、ただし、qは、q−1=0、y=<sos>及びa=1/Tを仮定して計算される。デコーダネットワークの場合、入力ベクトル
Figure 0006929466
は、ラベルy及びコンテンツベクトルrの連結ベクトルとして与えられ、それは
Figure 0006929466
として取得することができ、ただし、Embed(・)は、ラベルを固定次元ベクトルに変換するラベル埋め込みを表す。例えば、これは、以下の式によって計算することができる。
Figure 0006929466
ただし、OneHot(y)は、ラベルインデックスをワンホットベクトル表現に変換するラベルyの1−of−Nコーディングを表す。
Figure 0006929466
は、行列であり、トレーニング可能なパラメータである。
下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 0006929466
及び
Figure 0006929466
と、Wqy、Wry、b
Figure 0006929466
は、デコーダネットワークパラメータ205に記憶され、ラベル確率分布patt(y|y,...,yl−1,X)を計算するために使用される。
関連技術のラベル系列探索モジュール106は、式(1)における最確ラベル系列
Figure 0006929466
を見つける。しかしながら、Yの全ての取り得るラベル系列を列挙し、patt(Y|X)を計算することは困難である。なぜなら、取り得るラベル系列の数は、系列の長さに対して指数関数的に増加するからである。それゆえ、
Figure 0006929466
を見つけるために、一般にビーム探索技法が使用され、その技法では、短い方のラベル系列仮説が最初に生成され、長い方の仮説を取得するために、他の仮説より高いスコアを有する限られた数の仮説のみが拡張される。最後に、系列の最後に達した完全な仮説において、最良のラベル系列仮説が選択される。
ビーム探索方法によれば、ラベル系列探索モジュール106は、以下のように、
Figure 0006929466
を見つける。Ωを長さlの1組の部分仮説であるとする。第1のパスのビーム探索の開始時に、Ωは、開始記号<sos>を有する1つの仮説のみを含む。l=1〜Lmaxの場合に、Ωl−1内の各部分仮説が、取り得る単一のラベルを付加することによって拡張され、新たな仮説がΩに記憶される。ただし、Lmaxは、探索されることになる仮説の最大長である。新たな各仮説のスコアは
Figure 0006929466
として対数領域において計算される。ただし、gはΩl−1内の部分仮説であり、yはgに付加される単一のラベルであり、hは新たな仮説であり、すなわち、h=g・yである。確率patt(y|g)は式(16)によって計算することができる。ただし、Φatt(<sos>)=0であると仮定する。
yが、系列の終了を表す特殊なラベル<eos>である場合には、hが
Figure 0006929466
に加えられるが、Ωには加えられない。ただし、
Figure 0006929466
は1組の完全な仮説を表す。最後に、
Figure 0006929466
が、
Figure 0006929466
として取得される。
ビーム探索プロセスにおいて、Ωは、より高いスコアを有する限られた数の仮説のみを保持することを許され、他の仮説は、探索効率を改善するために切り取られる。
より具体的な手順が以下のように要約される。
Figure 0006929466
この手順において、Ω及び
Figure 0006929466
はそれぞれ、長さlの部分仮説及び完全な仮説を受け入れる待ち行列として実現される。1行目〜2行目において、Ω及び
Figure 0006929466
が空の待ち行列として初期化される。3行目において、初期仮説<sos>のスコアが0に設定される。4行目〜23行目において、Ωl−1内の各部分仮説gが、ラベルセットU∪{<eos>}内の各ラベルyによって拡張される。ただし、演算Head(Ω)は待ち行列Ω内の第1の仮説を返し、Dequeue(Ω)は待ち行列から第1の仮説を除去する。
拡張された各仮説hは、11行目において注意デコーダネットワークを用いてスコアリングされる。その後、y=<eos>である場合には、仮説hは完全であると仮定され、13行目において
Figure 0006929466
に記憶される。ただし、
Figure 0006929466
はhを
Figure 0006929466
に加える演算である。y≠<eos>である場合には、15行目においてhがΩに記憶される。ここで、Ω内の仮説の数、すなわち、|Ω|が16行目において所定の数beamWidthと比較される。|Ω|がbeamWidthを超えている場合には、17行目〜18行目において、Ω内の最少スコアhminを有する仮説がΩから除去される。ただし、Remove(Ω,hmin)は、Ωからhminを除去する演算である。最後に、24行目において、
Figure 0006929466
が最良の仮説として選択される。
オープン語彙エンドツーエンド音声認識
本発明の実施形態による、オープン語彙エンドツーエンド音声認識モジュール200を用いたエンドツーエンド音声認識を実行する方法を以下に説明する。
より正確なラベル系列確率を得るために、式(31)におけるLMベースラベル系列確率plm(Y)及び式(53)におけるCTCベースラベル系列確率pctc(Y|X)が、式(14)における注意ベースラベル系列確率patt(Y|X)と結合される。ただし、これらの確率は、線形結合によって結合することができる。
マルチレベルRNN−LMを用いたLM確率
LM確率は、本発明の実施形態によれば、RNN−LM又はマルチレベルRNN−LMを用いて、
Figure 0006929466
として計算することができる。
LMモジュール210は、文字レベルRNN−LM及び単語レベルRNN−LMを含み、それらのパラメータは、それぞれ文字LMパラメータ211及び単語LMパラメータ212から読み出される。
RNN−LMは、ラベルにわたる確率分布を計算するために使用することができ、この確率分布は、RNN−LMを用いて、
Figure 0006929466
として推定される。ただし、
Figure 0006929466
は行列であり、
Figure 0006929466
はベクトルであり、これらはRNN−LMのトレーニング可能なパラメータである。sl−1はLM状態ベクトルであり、RNN−LMのLSTMを用いて、
Figure 0006929466
として、sに更新することができる。ただし、
Figure 0006929466
及び
Figure 0006929466
はそれぞれ、入力ベクトル
Figure 0006929466
に関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 0006929466
及びバイアスベクトル
Figure 0006929466
はRNN−LMに関するLSTMのパラメータであり、それは順方向LSTMと同様にして下付き文字によって識別される。状態ベクトルsは入力ベクトル
Figure 0006929466
及び先行する状態ベクトルsl−1から再帰的に取得され、ただし、sは、s−1=0及びy=<sos>を仮定して計算される。デコーダネットワークの場合、入力ベクトル
Figure 0006929466
は、ラベルyのベクトルとして与えられ、それは
Figure 0006929466
として取得することができ、ただし、Embed(・)は、ラベルを固定次元ベクトルに変換するラベル埋め込みを表す。例えば、これは、以下の式によって計算することができる。
Figure 0006929466
ただし、OneHot(y)は、ラベルインデックスをワンホットベクトル表現に変換するラベルyの1−of−Nコーディングを表す。
Figure 0006929466
は行列であり、RNN−LMのトレーニング可能なパラメータである。
ラベル確率は、文脈が与えられると、y=yの確率として取得され、すなわち、
Figure 0006929466
である。
注意デコーダネットワークモジュール204によって与えられるラベル確率と異なり、LM確率は音響特徴系列Xに依存しない。
以下では、オープン語彙エンドツーエンドASRの文字レベルLM及び単語レベルLMを結合することによって、ラベル確率plm(y|y,...,yl−1)を計算する方法を導入する。
2つのRNN−LMが存在すると仮定する。一方は、1組の文字系列を用いてトレーニングされる文字レベルRNN−LMであり、他方は、1組の単語系列を用いてトレーニングされる単語レベルRNN−LMである。
文字系列y,...,yl−1、yに関して文字レベルRNN−LMによって計算される文字確率をpclm(y|y,...,yl−1)と表し、単語系列w,...,wm−1、wに関して単語レベルRNN−LMによって計算される単語確率をpwlm(w|w,...,wm−1)と表すことにする。双方の確率は、式(32)〜(39)と同じ方法であるが、異なるパラメータセットを用いて計算することができる。
文字ベースエンドツーエンドASRシステムは、単語内の文字と同様に単語間の空白(space)文字も予測することを考慮に入れる。空白文字は実際の文字コードを有することに留意されたい。空白文字を用いると、任意の文字系列を単語系列に決定論的にマッピングすることが可能であり、例えば、文字系列
a,<space>,c,a,t,<space>,e,a,t,s
は、一意の単語系列
a,cat,eats
にマッピングされる。ただし、<space>は、空白文字を形式的に表す。したがって、デコーダが空白文字を仮定するときにのみ、デコーダは、単語レベルRNN−LMを用いて最後の単語の確率を計算し、この確率を仮説スコアに単に累算する。種々のタイプの同形異音語及び同音異形語(homonym)について特殊な扱いは必要ない。すなわち、同じスペルを有するが異なる発音を有する単語は、単語言語モデルによって文脈に応じた方法で取り扱われる一方、同じ発音を有するが異なるスペルを有する単語は、ビーム探索において異なる単語仮説として自動的に取り扱われる。同様に、多義的な単語分割は、異なる復号仮説として自動的に取り扱われる。
一実施形態による機構は、以下のように文字レベルLM確率を変更することによって実施することができる。
Vを、単語レベルRNN−LMの語彙とし、<UNK>等のOOV単語の抽象記号を含むものとする。式(31)における条件付きラベル確率を、
Figure 0006929466
として計算する。ただし、Sは、単語の終了を示す1組のラベルを表す。すなわち、S={<space>,<eos>}である。wは、文字系列gの最後の単語であり、ψは、wを除くgに対応する単語系列である単語レベル履歴である。上記例について、g、w及びψは、
Figure 0006929466
として設定される。
Figure 0006929466
は、OOV単語の確率を調整するために使用される倍率である。
式(40)の右辺における第1の条件は、文字cが先行する単語の終了を示すときに使用される。この場合、単語レベル確率pwlm(w|ψ)は、単語レベルRNN−LMを用いて計算される。分母pclm(w|ψ)は、文字レベルRNN−LMによって取得されるとともに、wについて累算された文字レベルLM確率をキャンセルするために使用されるwの確率である。この確率は、
Figure 0006929466
として計算することができる。ただし、|w|は、単語wの文字数であり、wg,iは、wの第i文字を示し、
Figure 0006929466
は、ψの文字表現であり、例えば、
ψ=a,catである場合に、
Figure 0006929466
である。
したがって、文字系列gに関する累算された文字レベルLM確率は、対応する単語レベルLM確率によってリスコアリングされる。
第2項pwlm(<UNK>|ψ)は、文字レベルLMに対する重みとして機能し、結合された言語モデルが、単語境界及び中間の双方において文字系列にわたって正規化されることを保証する。
が、第2の条件におけるようにOOV単語である場合には、単語レベルRNN−LM及び文字レベルRNN−LMを用いてOOV単語の単語レベル確率を、
Figure 0006929466
として計算することができると仮定する。文字レベル確率は、
Figure 0006929466
を満たすので、文字レベル確率は、
Figure 0006929466
として近似され、
Figure 0006929466
が取得される。ただし、倍率
Figure 0006929466
であると仮定され、これは調節可能なパラメータとして設定される。式(40)の第2の条件において、文字ベース確率pclm(w|ψ)は、この仮説について既に累算されているので削除される。この項によって、OOV単語及び語彙内単語の予測が可能になり、オープン語彙ASRが可能になる。
式(40)の第3の場合は、文字レベルLM確率を単語内の仮説に与える。文字レベルLM確率は、あらゆる既知の単語仮説の終了時にキャンセルされる。そのため、文字レベルLM確率は、OOV単語をスコアリングするためにのみ使用されるが、単語レベルLM確率が適用される単語の終了まで、ビーム探索において正しい単語仮説を能動的なものに保つ際に別の重要な役割を果たす。
下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 0006929466
及び
Figure 0006929466
と、文字レベルLM及び単語レベルLMの
Figure 0006929466
とはそれぞれ、文字LMパラメータ211及び単語LMパラメータ212に記憶される。
これらのパラメータは、ラベル確率分布plm(y|y,...,yl−1)を計算するために使用される。
CTC確率
CTCモジュール208は、隠れベクトル系列Hが与えられると、ラベル系列YのCTC順方向確率を計算する。CTC定式化は、1組の異なるラベルUを有するL長のラベル系列Y={y∈U|l=1,...,L}を使用することに留意されたい。付加的な「ブランク」ラベルを有するフレームごとのラベル系列を導入することによって、Z={z∈U∪{b}|t=1,...,T}となる。ただし、bはブランクラベルを表す。確率連鎖律と、条件付き独立仮定とを使用することによって、事後確率p(Y|X)は以下のように分解される。
Figure 0006929466
ただし、p(z|zt−1|Y)はブランクラベルを含むラベル遷移確率とみなされる。p(z|X)は、入力系列Xを条件とし、双方向長短期メモリ(BLSTM)を使用することによってモデル化される、フレームごとの事後確率である。
Figure 0006929466
ただし、hはエンコーダネットワークを用いて得られる。
Figure 0006929466
は行列であり、
Figure 0006929466
はベクトルであり、それらはCTCのトレーニング可能なパラメータであり、CTCネットワークパラメータ209に記憶される。式(46)は、全ての取り得るZにわたる総和を取り扱わなければならないが、順方向アルゴリズムを使用することによって効率的に計算される。
CTCのための順方向アルゴリズムは以下のように実行される。長さ2L+1の拡張ラベル系列Y’=y’,y’,...,y’2L+1=b,y,b,y,...,b,y,bが使用される。ただし、ブランクラベル「b」が各対の隣接するラベル間に挿入される。α(s)を順方向確率とする。それは時間フレーム1,...,tに関するラベル系列y,...,yの事後確率を表し、ただし、sは、拡張ラベル系列Y’内の位置を示す。
初期化のために、
Figure 0006929466
が設定される。t=2〜Tの場合に、α(s)は、
Figure 0006929466
として再帰的に計算される。ただし、
Figure 0006929466
である。最後に、CTCベースラベル系列確率が
Figure 0006929466
として得られる。
フレームごとのラベル系列Zは、入力音響特徴系列Xと出力ラベル系列Yとの間のアライメントを表す。順方向確率を計算するとき、式(51)の再帰によって、Zが単調になるように強制され、アライメントZにおいてsがループ又は大きくジャンプできないようにされる。なぜなら、α(s)を得るための再帰は、多くてもαt−1(s)、αt−1(s−1)、αt−1(s−2)しか考慮しないためである。これは、時間フレームが1フレームだけ進むとき、ラベルが先行するラベル又はブランクから変化するか、又は同じラベルを維持することを意味する。この制約は、アライメントが単調になるように強制する遷移確率p(z|zt−1,Y)の役割を果たす。それゆえ、pctc(Y|X)が、不規則な(非単調の)アライメントに基づいて計算されるときに、0又は非常に小さい値とすることができる。
図3は、本発明の実施形態による結合ニューラルネットワークモジュール300を示す概略図である。結合ニューラルネットワーク300は、エンコーダネットワークモジュール202と、注意デコーダネットワークモジュール204と、CTCモジュール208と、LMモジュール210とを含む。各矢印は、変換を伴う、又は伴わないデータ転送を表し、各正方形ノード又は円形ノードは、ベクトル又は予測ラベルを表す。音響特徴系列X=x,...,xが、エンコーダネットワークモジュール202に送り込まれ、エンコーダネットワークモジュールでは、2つのBLSTMがスタックされ、第1のBLSTMの1つおきの隠れベクトルが第2のBLSTMに送り込まれる。エンコーダモジュール202の出力の結果、隠れベクトル系列H=h’,h’,...,h’T’が生成される。ただし、T’=T/2である。その後、HがCTCモジュール208及びデコーダネットワークモジュール204に送り込まれる。CTCベース系列確率、注意ベース系列確率及びLMベース系列確率がそれぞれ、CTCモジュール208、デコーダネットワークモジュール204、及びLMモジュール210を用いて計算され、ラベル系列確率を取得するために結合される。
オープン語彙エンドツーエンドASRのためのラベル系列探索
ラベル系列探索モジュール206は、結合されたラベル系列確率分布に従って、最確ラベル系列
Figure 0006929466

Figure 0006929466
として見つける。ただし、pctc(Y|X)は式(53)におけるCTCベースラベル系列確率であり、patt(Y|X)は式(14)における注意ベースラベル系列確率であり、plm(Y)は式(31)におけるLMベースラベル系列確率である。λ及びκは、これらの3つの確率のバランスをとるための倍率である。
本発明のビーム探索プロセスにおいて、各部分仮説hのスコアが、
Figure 0006929466
として計算される。ただし、Φatt(h)は式(29)によって計算され、Φlm(h)は、
Figure 0006929466
として得られる。
Φctc(h,X)を計算するために、自身のプレフィックスとしてhを有する全てのラベル系列の累積確率として定義されるCTCプレフィックス確率
Figure 0006929466
が利用され、CTCスコアは、
Figure 0006929466
と定義される。ただし、vは、空のストリングを除く、全ての取り得るラベル系列を表す。CTCスコアは、式(29)におけるΦatt(h)及び式(56)におけるΦlm(h)として再帰的に得ることはできないが、入力時間フレームにわたって順方向確率を維持することによって、部分仮説ごとに効率的に計算することができる。
本発明の実施形態によれば、ラベル系列探索モジュール206は、
Figure 0006929466
を以下の手順に従って見つける。
Figure 0006929466
従来技術の注意ベースエンドツーエンドASRのためのビーム探索方法との相違がいくつかある。
4行目において、LMスコアが初期化される。14行目において、ジョイントスコアΦjoint(h)が、CTCスコアΦctc(h、X)、注意ベーススコアΦatt(h)、及びLMスコアΦlm(h)を用いて計算される。20行目において、ジョイントスコアΦjoint(h)が、hminを選択するために使用される。27行目において、ジョイントスコアΦjoint(h)及び<eos>の単語レベルLM確率が結合され、
Figure 0006929466
が決定される。<eos>の単語レベルLM確率は、式(40)において考慮されないので、最終決定において結合する必要がある。
CTCスコアΦctc(h,X)は、修正順方向アルゴリズムを用いて計算することができる。
Figure 0006929466
及び
Figure 0006929466
を時間フレームt=1,...,tにわたる仮説hの順方向確率であるとする。ただし、上付き文字(n)及び(b)はそれぞれ、全てのCTC経路が非ブランクラベル又はブランクラベルで終了する異なる事例を表す。ビーム探索を開始する前に、
Figure 0006929466
及び
Figure 0006929466
が、t=1,...,Tに関して、
Figure 0006929466
として初期化される。ただし、
Figure 0006929466
であり、bがブランクラベルであると仮定する。エンコーダに関するサブサンプリング技法のため、時間インデックスt及び入力長Tは入力発話Xの時間インデックス及び入力長とは異なる場合があることに留意されたい。CTCスコア関数は以下のように実施することができる。
Figure 0006929466
この関数において、所与の仮説hが、1行目において、最初に、最後のラベルy及び残りのラベルgに分割される。yが<eos>である場合には、3行目において、hが完全な仮説であると仮定して、順方向確率の対数を返す。hの順方向確率は、
Figure 0006929466
及び
Figure 0006929466
の定義に従って、
Figure 0006929466
によって与えられる。yが<eos>でない場合には、hが完全な仮説でないと仮定して、順方向確率
Figure 0006929466
及び
Figure 0006929466
並びにプレフィックス確率Ψ=pctc(h,...|X)を計算する。それらの確率に関する初期化ステップ及び再帰ステップが5行目〜13行目に記述される。この関数において、10行目〜12行目において
Figure 0006929466
及びΨを計算するときにはいつでも、gがhのプレフィックスであり、|g|<|h|であるので、9行目の確率
Figure 0006929466
及び
Figure 0006929466
がビーム探索プロセスを通して既に取得されていると仮定される。したがって、プレフィックス確率及び順方向確率を効率的に計算することができる。9行目のlast(g)は、gの最後のラベルを返す関数であることを留意されたい。
したがって、ビーム探索法は、探索プロセス中にCTCスコアによって不規則なアライメントを伴う部分仮説を除外することができ、リスコアリング法と比べて少ない計算で、望ましくは探索誤りの数を削減する。探索誤りは、ビーム探索によって最確仮説が見逃されることを意味する。この場合、最良の仮説の代わりに、スコアが低い代替の仮説が取得され、代替の仮説は一般に、最良の仮説より多くの認識誤りを含む。
ネットワークトレーニング
ASRシステムを使用する前に、ネットワークパラメータ203、205及び209が、損失関数
Figure 0006929466
を低減するように同時に最適化される。ただし、X及びYは、音響特徴系列及びラベル系列を含むトレーニングデータである。Θは1組のネットワークパラメータを表す。Nは、トレーニングサンプルの数であり、X及びYはそれぞれ、トレーニングデータ内の第nの音響特徴系列及び対応するラベル系列である。pctc(Y|X,Θ)は、パラメータセットΘを用いて計算される式(53)におけるCTCベース系列確率であり、patt(Y|X,Θ)は、パラメータセットΘを用いて計算される式(14)における注意ベース系列確率である。ネットワークパラメータは、損失関数を低減するように確率的勾配降下法によって最適化することができる。このトレーニング手順は、エンコーダネットワーク、デコーダネットワーク、及びCTCネットワークを同時に最適化する。
文字LMパラメータ211及び単語レベルLMパラメータ212は、文字系列データY(C)及び単語系列データY(W)を用いて独立して最適化される。文字レベルRNN−LMの損失関数は、
Figure 0006929466
であり、単語レベルRNN−LMの損失関数は、
Figure 0006929466
である。ただし、Θclm及びΘwlmはそれぞれ、1組の文字LMパラメータ及び1組の単語LMパラメータを表す。
Figure 0006929466
及び
Figure 0006929466
は、式(31)と同様に計算されるLM確率である。N(c)は、Y(c)におけるトレーニングサンプルの数であり、
Figure 0006929466
は、Y(c)における第nの文字系列である。N(w)は、Y(w)におけるトレーニングサンプルの数であり、
Figure 0006929466
は、Y(w)における第nの文字系列である。
LMパラメータは、損失関数を低減するように確率的勾配降下法によって最適化することができる。
オープン語彙エンドツーエンド音声認識装置
図4は、本発明のいくつかの実施形態による、オープン語彙エンドツーエンド音声認識システム(音声認識システム)400のブロック図を示す。音声認識システム400は、キーボード411及びポインティングデバイス/媒体412と接続可能なヒューマンマシンインターフェース(HMI)410と、1つ以上のプロセッサ420と、記憶デバイス430と、メモリ440と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク490と接続可能なネットワークインターフェースコントローラー450(NIC)と、ディスプレイインターフェース460と、マイクロフォンデバイス475と接続可能なオーディオインターフェース470と、印刷デバイス485と接続可能なプリンタインターフェース480とを含む。メモリ440は1つ以上のメモリユニットとすることができる。エンドツーエンド音声認識システム400は、NIC450に接続されるネットワーク490を介して電気的なオーディオ波形/スペクトルデータ495を受信することができる。記憶デバイス430は、エンドツーエンド音声認識モジュール200、注意デコーダネットワークモジュール204、エンコーダネットワークモジュール202、CTCモジュール208、及び音響特徴抽出モジュール434を含む。ラベル系列探索モジュール、エンコーダネットワークパラメータ、デコーダネットワークパラメータ及びCTCネットワークパラメータは図において省略される。ポインティングデバイス/媒体412は、コンピュータ可読記録媒体上に記憶されるプログラムを読み出すモジュールを含むことができる。注意デコーダネットワークモジュール204、エンコーダネットワークモジュール202及びCTCモジュール208は、ニューラルネットワークパラメータによって形成することができる。音響特徴抽出モジュール434は、音響特徴系列を抽出するために使用されるプログラムである。音響特徴系列は、一次及び二次時間導関数及び/又はピッチ特徴を伴うメルスケールフィルターバンク係数の系列とすることができる。
エンドツーエンド音声認識を実行するために、キーボード411、ポインティングデバイス/媒体412を用いて、又は他のコンピュータ(図示せず)に接続されるネットワーク490を介して、エンドツーエンド音声認識システム400に命令を送信することができる。システム400は、HMI410を介して命令を受信し、記憶デバイス430に記憶されるエンドツーエンド音声認識モジュール200、注意デコーダネットワークモジュール204、エンコーダネットワークモジュール202、CTCモジュール208及び音響特徴抽出モジュール434をロードすることによって、メモリ440に関連するプロセッサ420を用いてエンドツーエンド音声認識を実行するための命令を実行する。
評価結果
図5は、本発明の実施形態によるオープン語彙エンドツーエンド音声認識を実行することによって得られた評価結果である。
この評価は、よく知られている英語のクリーン音声データベースであるウォールストリートジャーナル(WSJ)コーパスを用いて行った。トレーニング用にsi284データセットを使用し、有効性確認用にdev93データセットを使用し、評価用にeval92データセットを使用した。これらのデータセットは、図5Aに要約されている。
入力特徴量として、BLSTMエンコーダのピッチ特徴量並びにそれらのデルタ特徴量及びデルタデルタ特徴量を有する80個のメルスケールフィルターバンク係数を使用した。BLSTMエンコーダの前には、畳み込みニューラルネットワーク(CNN:convolutional neural network)層も追加した。注意モデルには、32個の異なるラベル、すなわち、26個の英字トークン、アポストロフィートークン、ピリオドトークン、ダッシュトークン、空白トークン、ノイズトークン、及びsos/eosトークンのみを使用した。CTCモデルは、sos/eosの代わりにブランクを使用し、本発明者らのMTLモデルは、sos/eos及びブランクの双方を使用した。
さらに、このエンコーダネットワークは、CNNを用いることによって増強されている。これは、これまでの研究によって動機付けられたものである。CNNアーキテクチャの初期層に基づく6層アーキテクチャと、それに続くエンコーダネットワークにおける8つのBLSTM層とが使用される。このCNNアーキテクチャにおいて、最初の3つの入力チャネルは、スペクトル特徴量、デルタ特徴量、及びデルタデルタ特徴量から構成される。入力音声特徴量イメージが、2つのマックスプーリング層を通じて時間周波数軸とともに(1/4×1/4)イメージにダウンサンプリングされる。BLSTM層は、各層及び各方向に320個のセルを有し、320個のユニットを有する線形射影層の後に、各BLSTM層が続いている。
ロケーションベース注意機構(location−based attention mechanism)を使用し、幅100の10個の中央畳み込みフィルター(centered convolution filter)を用いて、畳み込み特徴量を抽出した。デコーダは、300個のセルを有する1層単方向LSTMであった。
最適化には、勾配クリッピングを有するAdaDeltaアルゴリズムを使用した。過剰信頼予測(over−confidence prediction)を回避するために、ユニグラムラベル平滑化技法も適用した。ハイブリッド注意/CTCアーキテクチャでは、トレーニングにはλ=0.1を使用し、復号にはλ=0.2及びγ=1.1を使用した。ビーム幅は、全ての条件下の復号において30に設定した。マルチレベルLMを有するハイブリッド注意/CTCベースASRは、Chainer深層学習ツールキットを用いることによって実施した。
文字レベルRNN−LM及び単語レベルRNN−LMは、1.6Mの文からの37Mの単語からなるWSJテキストコーパスを用いてトレーニングした。文字レベルLMは、800個のセルを有する単一のLSTM層と32次元softmax層とを有していた一方、単語レベルLMは、1000個のセルを有する単一のLSTM層と、LMの語彙サイズに等しい20000次元softmax層とを有していた。確率的勾配降下法(SGD:stochastic gradient descent)を使用してRNN−LMを最適化した。最初の実験は、言語モデルの寄与度を評価するものである。
図5Bは、本発明の実施形態による異なる言語モデルを用いたときの単語誤り率(WER)を示す。文字レベルLMは、サイズがWSJテキストコーパスの1.8%しかないsi284音声データのトランスクリプションをLMトレーニングに使用したときであっても、WERを13.4%から11.5%に低減している。これは、その個別の言語モデルが予測性能に対して或る補完性効果を有することを意味する。WERは、WSJテキストコーパスからのより多くのデータを用いることによって7.7%に低減される。次に、文字レベルを有しない単語レベルRNN−LMを組み込む。
ここでは、単語レベルRNN−LM確率のみが、空白文字又は文末文字の全ての位置に適用された。この場合、WERは12.6%まで増加した。最後に、提案した方法に従って文字レベルRNN−LM及び単語レベルRNN−LMの双方を使用すると、5.6%のWERに達する大幅な改善が得られた。
単語レベルRNN−LMのみを使用したときの高いWERの理由を詳細に調べるために、5〜40の範囲を有する異なるビーム幅を用いて追加の実験を行った。
図6は、本発明の実施形態によるオープン語彙エンドツーエンド音声認識による、ビーム幅の関数としての単語誤り率を示す評価結果である。図6は、ビーム幅ごとのWERを示す。文字LMを有しない場合、すなわち、LM無し又は単語LMの場合、WERは、ビーム幅とはほぼ無関係である。これは、デコーダネットワークが高い信頼度を有するラベルを予測し、より広いビームを用いてもその結果を変更しないことを意味する。その結果、各語尾において単語レベルLM確率を適用することは遅過ぎるため、単語レベル情報を用いてより良好な仮説を回復することができない。本発明者らが提案した方法(単語LM+文字LM)は、ビーム探索においてより良好な単語系列仮説を見つけるためのガイドとして文字レベルLMを組み合わせることによって、最も低いWERを達成する。ネットワークをトレーニングするために用いたラベル平滑化技法は、この過剰信頼問題を或る程度緩和するが、文字レベルLMの支援がないと、信頼度の低いラベルを回復することは困難であると考えられる。
2番目の実験は、提案した方法によって与えられるオープン語彙の利点を詳細に調べるものである。
図7は、20K〜65Kの種々の語彙サイズ及びオープン語彙条件を用いたときのWERを比較した評価結果である。WERの比較は、制限された語彙を用いて復号中に実行される。
語彙は、全ての仮説を語彙内単語のみからなるように制約するために使用されていたにすぎない。この制約は、復号中に語彙に現れる文字系列のみを許容することによって強制することができる。表に示すように、クローズド語彙(closed vocabulary:未知語を含まない語彙)を使用したとき、WERは、オープン語彙条件における最良のWERに達しない。65Kの語彙による小さなOOV比率を有する場合であっても、依然として、最良のWERに対して1.8%のギャップがある。認識結果を調べると、それらの結果にはより多くの削除誤りがあることが分かった。これは、デコーダが、語彙制約に起因して高確率を有するラベル系列を仮定することができないとき、能動的(active)仮説のスコアがより小さくなり、それゆえ、より短い仮説が結果として選択される傾向があるからであると考えられる。標準的なウォールストリートジャーナル(WSJ)タスクでは、Eval’92テストセットについて、SI284トレーニングセット及びWSJテキストデータのみを用いて5.6%のWERが達成され、これが最良である。
本開示のいくつかの実施形態において、上記のエンドツーエンド音声認識システムがコンピュータシステム内にインストールされるときに、少ない計算能力で音声認識を実効的、かつ正確に実行することができ、それゆえ、本開示のエンドツーエンド音声認識方法又はシステムを使用することにより、中央処理ユニット使用量及び電力消費量を削減することができる。
さらに、本開示による実施形態は、エンドツーエンド音声認識を実行する実効的な方法を提供し、それゆえ、そのエンドツーエンド音声認識モデルを使用する方法及びシステムを使用することによって、中央処理ユニット(CPU)使用量、電力消費量及び/又はネットワーク帯域幅使用量を削減することができる。
本開示の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の1つを用いる1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び/又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることもできるし、分散させることもできる。
さらに、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、いくつかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第1、第2等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (17)

  1. 1つ以上のプロセッサと、
    パラメータと、前記1つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールとを記憶する1つ以上の記憶デバイスであって、前記命令は、実行されると、前記1つ以上のプロセッサに動作を実行させ、前記動作は、
    オーディオインターフェース又はネットワークインターフェースコントローラによって得られるオーディオ波形データから音響特徴系列を抽出することと、
    エンコーダネットワークパラメータを有するエンコーダネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
    前記隠れベクトル系列を、デコーダネットワークパラメータを有するデコーダネットワークに送り込むことによって、第1の出力ラベル系列確率を予測することと、
    文字レベル言語モデル(LM)及び単語レベルLMを使用するハイブリッドネットワークによって第2の出力ラベル系列確率を予測することであって、
    先行する単語の後ろの文字が単語の終わりを示す所定のラベルセットに属し、前記先行する単語が前記単語レベルLMの語彙に含まれている場合、前記第2の出力ラベル系列確率は、前記単語レベルLMおよび前記文字レベルLMを使用して得られた確率の除算によって計算され、
    前記先行する単語の前記後ろの文字が前記所定のラベルセットに属し、前記先行する単語が前記単語レベルLMの語彙に含まれていない場合、前記第2の出力ラベル系列確率は、前記単語レベルLMとスケーリング係数を使用して計算され、
    前記先行する単語の前記後ろの文字が前記所定のラベルセットに属していない場合、前記第2の出力ラベル系列確率は、前記文字レベルLMを使用して計算されることによって、前記予測することと、
    前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
    を含む、1つ以上の記憶デバイスと、
    を備える、音声認識システム。
  2. 前記動作は、コネクショニスト時系列分類(CTC)ネットワークパラメータを使用するCTCと、前記エンコーダネットワークからの前記隠れベクトル系列とによって、第3の出力ラベル系列確率を予測することを更に含み、
    前記探索することは、前記デコーダネットワーク、前記ハイブリッドネットワーク及び前記CTCから与えられた前記第1の出力ラベル系列確率、前記第2の出力ラベル系列確率及び前記第3の出力ラベル系列確率を結合することによって実行される、請求項1に記載の音声認識システム。
  3. 前記ハイブリッドネットワークは、文字レベル確率を計算する文字レベル再帰型ニューラルネットワーク(RNN)と、単語レベル確率を計算する単語レベルRNNとを備える、請求項1に記載の音声認識システム。
  4. 前記デコーダネットワークは、前記第1の出力ラベル系列確率を予測する前に、先行するラベルを受信する、請求項1に記載の音声認識システム。
  5. 前記CTCは、前記第3の出力ラベル系列確率を予測する前に、先行するラベルを受信する、請求項2に記載の音声認識システム。
  6. 前記エンコーダネットワークは、スタックされた双方向長短期メモリ(BLSTM)と、畳み込みニューラルネットワーク(CNN)とを含む、請求項1に記載の音声認識システム。
  7. 前記デコーダネットワークはスタックされた長短期メモリ(LSTM)を含み、前記隠れベクトル系列に関する注意機構を用いて、前記第1の出力ラベル系列確率をそれぞれ予測する、請求項1に記載の音声認識システム。
  8. 前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合するために、対数領域における線形結合が使用される、請求項1に記載の音声認識システム。
  9. 前記探索することは、ビーム探索を用いて、前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項1に記載の音声認識システム。
  10. 前記ビーム探索は、最初に、前記デコーダネットワークから与えられた前記第1の出力ラベル系列確率を用いて1組の完全なラベル系列仮説を見つけ、その後、前記1組の完全なラベル系列仮説の中から、前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項9に記載の音声認識システム。
  11. 前記ビーム探索は、他の不完全なラベル系列仮説と比べて低い系列確率を有する不完全なラベル系列仮説を剪定し、前記結合された出力ラベル系列確率は、前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られる、請求項9に記載の音声認識システム。
  12. 前記CTCは、前記第3の出力ラベル系列確率を予測するために、前記CTCネットワークパラメータ及び動的計画法を用いて、事後確率分布を計算する、請求項2に記載の音声認識システム。
  13. メモリと通信するコンピュータに音声認識プロセスを実行させるプログラムを記憶する非一時的コンピュータ可読記録媒体であって、前記音声認識プロセスは、
    声音を準備することと、
    前記声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、
    エンコーダネットワークパラメータを有するエンコーダネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
    デコーダネットワークパラメータを有するデコーダネットワークに前記隠れベクトル系列を送り込むことによって、第1の出力ラベル系列確率を予測することと、
    文字レベル言語モデル(LM)及び単語レベルLMを使用するハイブリッドネットワークによって第2の出力ラベル系列確率を予測することであって、
    先行する単語の後ろの文字が単語の終わりを示す所定のラベルセットに属し、前記先行する単語が前記単語レベルLMの語彙に含まれている場合、前記第2の出力ラベル系列確率は、前記単語レベルLMおよび前記文字レベルLMを使用して得られた確率の除算によって計算され、
    前記先行する単語の前記後ろの文字が前記所定のラベルセットに属し、前記先行する単語が前記単語レベルLMの語彙に含まれていない場合、前記第2の出力ラベル系列確率は、前記単語レベルLMとスケーリング係数を使用して計算され、
    前記先行する単語の前記後ろの文字が前記所定のラベルセットに属していない場合、前記第2の出力ラベル系列確率は、前記文字レベルLMを使用して計算されることによって、前記予測することと、
    前記デコーダネットワーク及び前記ハイブリッドネットワークから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
    を含む、非一時的コンピュータ可読記録媒体。
  14. 前記音声認識プロセスは、コネクショニスト時系列分類(CTC)ネットワークパラメータを使用するCTCと、前記エンコーダネットワークからの前記隠れベクトル系列とによって、第3の出力ラベル系列確率を予測することを更に含み、
    前記探索することは、前記デコーダネットワーク、前記ハイブリッドネットワーク及び前記CTCから与えられた前記第1の出力ラベル系列確率、前記第2の出力ラベル系列確率及び前記第3の出力ラベル系列確率を結合することによって実行される、請求項13に記載の媒体。
  15. 前記ハイブリッドネットワークは、文字レベル確率を計算する文字レベル再帰型ニューラルネットワーク(RNN)と、単語レベル確率を計算する単語レベルRNNとを備える、請求項13に記載の媒体。
  16. 前記デコーダネットワークは、前記第1の出力ラベル系列確率を予測する前に、先行するラベルを受け取る、請求項13に記載の媒体。
  17. 前記CTCは、前記第3の出力ラベル系列確率を予測する前に、先行するラベルを受け取る、請求項14に記載の媒体。
JP2020537900A 2017-12-15 2018-05-21 音声認識システム Active JP6929466B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/843,055 2017-12-15
US15/843,055 US10672388B2 (en) 2017-12-15 2017-12-15 Method and apparatus for open-vocabulary end-to-end speech recognition
PCT/JP2018/020250 WO2019116604A1 (en) 2017-12-15 2018-05-21 Speech recognition system

Publications (2)

Publication Number Publication Date
JP2021501376A JP2021501376A (ja) 2021-01-14
JP6929466B2 true JP6929466B2 (ja) 2021-09-01

Family

ID=62685026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537900A Active JP6929466B2 (ja) 2017-12-15 2018-05-21 音声認識システム

Country Status (5)

Country Link
US (1) US10672388B2 (ja)
EP (1) EP3711045B1 (ja)
JP (1) JP6929466B2 (ja)
CN (1) CN111480197B (ja)
WO (1) WO2019116604A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
JP6831343B2 (ja) * 2018-02-01 2021-02-17 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP6911785B2 (ja) * 2018-02-02 2021-07-28 日本電信電話株式会社 判定装置、判定方法及び判定プログラム
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing
JP6910987B2 (ja) * 2018-06-07 2021-07-28 株式会社東芝 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
WO2020003534A1 (en) * 2018-06-29 2020-01-02 Nec Corporation Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
US11210475B2 (en) 2018-07-23 2021-12-28 Google Llc Enhanced attention mechanisms
US11625595B2 (en) * 2018-08-29 2023-04-11 International Business Machines Corporation Knowledge transfer between recurrent neural networks
US11270084B2 (en) * 2018-10-12 2022-03-08 Johnson Controls Tyco IP Holdings LLP Systems and methods for using trigger words to generate human-like responses in virtual assistants
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN112242144A (zh) 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN110444203B (zh) * 2019-07-17 2024-02-27 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN110442693B (zh) * 2019-07-27 2022-02-22 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029627A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
JP7212596B2 (ja) * 2019-09-02 2023-01-25 日本電信電話株式会社 学習装置、学習方法および学習プログラム
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
CN110556100B (zh) * 2019-09-10 2021-09-17 思必驰科技股份有限公司 端到端语音识别模型的训练方法及系统
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
US11551000B2 (en) * 2019-10-20 2023-01-10 International Business Machines Corporation Introspective extraction and complement control
US11657271B2 (en) 2019-10-20 2023-05-23 International Business Machines Corporation Game-theoretic frameworks for deep neural network rationalization
CN111008276B (zh) * 2019-10-29 2023-04-18 云知声智能科技股份有限公司 一种完整实体关系抽取方法及装置
CN110808036B (zh) * 2019-11-07 2022-06-07 南京大学 一种增量式语音命令词识别方法
CN110851673B (zh) * 2019-11-12 2022-08-09 西南科技大学 一种改进的集束搜索方法及问答系统
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN110970031B (zh) * 2019-12-16 2022-06-24 思必驰科技股份有限公司 语音识别系统及方法
CN113077785B (zh) * 2019-12-17 2022-07-12 中国科学院声学研究所 一种端到端的多语言连续语音流语音内容识别方法及系统
CN111223489B (zh) * 2019-12-20 2022-12-06 厦门快商通科技股份有限公司 一种基于Attention注意力机制的特定关键词识别方法及系统
CN111243578A (zh) * 2020-01-10 2020-06-05 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111354345B (zh) * 2020-03-11 2021-08-31 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
US11562745B2 (en) * 2020-04-06 2023-01-24 Microsoft Technology Licensing, Llc Sequence-to-sequence speech recognition with latency threshold
US11462211B2 (en) 2020-04-09 2022-10-04 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting adversarial attacks
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
US11580959B2 (en) * 2020-09-28 2023-02-14 International Business Machines Corporation Improving speech recognition transcriptions
CN112599122B (zh) * 2020-12-10 2022-10-14 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置
WO2022162767A1 (ja) * 2021-01-27 2022-08-04 日本電信電話株式会社 誤り訂正装置、誤り訂正方法、プログラム
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN112967710B (zh) * 2021-03-25 2022-06-14 江西师范大学 一种低资源客家方言点识别方法
CN112863489B (zh) * 2021-04-26 2021-07-27 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质
CN113763927B (zh) * 2021-05-13 2024-03-08 腾讯科技(深圳)有限公司 语音识别的方法、装置、计算机设备及可读存储介质
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113160803A (zh) * 2021-06-09 2021-07-23 中国科学技术大学 基于多层级标识的端到端语音识别模型及建模方法
CN113488028B (zh) * 2021-06-23 2024-02-27 中科极限元(杭州)智能科技股份有限公司 基于快速跳跃解码的语音转写识别训练解码方法及系统
CN113327599B (zh) * 2021-06-30 2023-06-02 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN113689867B (zh) * 2021-08-18 2022-06-28 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
US11984116B2 (en) * 2021-11-08 2024-05-14 Genesys Cloud Services, Inc. Method and system for unsupervised discovery of unigrams in speech recognition systems
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102617914B1 (ko) * 2023-05-10 2023-12-27 주식회사 포지큐브 음성 인식 방법 및 그 시스템
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070136A (en) * 1997-10-27 2000-05-30 Advanced Micro Devices, Inc. Matrix quantization with vector quantization error compensation for robust speech recognition
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8589162B2 (en) * 2007-09-19 2013-11-19 Nuance Communications, Inc. Method, system and computer program for enhanced speech recognition of digits input strings
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
CN106294460B (zh) 2015-05-29 2019-10-22 中国科学院声学研究所 一种基于字和词混合语言模型的汉语语音关键词检索方法
KR102386854B1 (ko) 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
EP3371807B1 (en) * 2015-11-12 2023-01-04 Google LLC Generating target phoneme sequences from input speech sequences using partial conditioning
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
US11068660B2 (en) 2016-01-26 2021-07-20 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
KR20170108693A (ko) 2016-03-18 2017-09-27 서울대학교산학협력단 입출력 회로를 가지는 계층적 신경망 구조의 언어모델 장치
US10210862B1 (en) * 2016-03-21 2019-02-19 Amazon Technologies, Inc. Lattice decoding and result confirmation using recurrent neural networks
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9792900B1 (en) * 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Generation of phoneme-experts for speech recognition
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치
US10481863B2 (en) * 2016-07-06 2019-11-19 Baidu Usa Llc Systems and methods for improved user interface
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107145483B (zh) * 2017-04-24 2018-09-04 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法

Also Published As

Publication number Publication date
US10672388B2 (en) 2020-06-02
JP2021501376A (ja) 2021-01-14
EP3711045A1 (en) 2020-09-23
CN111480197B (zh) 2023-06-27
US20190189115A1 (en) 2019-06-20
CN111480197A (zh) 2020-07-31
EP3711045B1 (en) 2021-09-15
WO2019116604A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
JP6929466B2 (ja) 音声認識システム
JP6827548B2 (ja) 音声認識システム及び音声認識の方法
JP6818941B2 (ja) 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム
US11238845B2 (en) Multi-dialect and multilingual speech recognition
CN107870902B (zh) 神经机器翻译系统
Hori et al. End-to-end speech recognition with word-based RNN language models
US10431206B2 (en) Multi-accent speech recognition
Hori et al. Multi-level language modeling and decoding for open vocabulary end-to-end speech recognition
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
US20050197838A1 (en) Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
Zhang et al. Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
US20240177706A1 (en) Monte Carlo Self-Training for Speech Recognition
Liu et al. Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR
JP2000075885A (ja) 音声認識装置
JP4631076B2 (ja) 音素単位セットを最適化する方法及びシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210810

R150 Certificate of patent or registration of utility model

Ref document number: 6929466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150