JP6979028B2 - 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 - Google Patents

雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 Download PDF

Info

Publication number
JP6979028B2
JP6979028B2 JP2018549245A JP2018549245A JP6979028B2 JP 6979028 B2 JP6979028 B2 JP 6979028B2 JP 2018549245 A JP2018549245 A JP 2018549245A JP 2018549245 A JP2018549245 A JP 2018549245A JP 6979028 B2 JP6979028 B2 JP 6979028B2
Authority
JP
Japan
Prior art keywords
neural network
acoustic
deep neural
deep
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018549245A
Other languages
English (en)
Other versions
JP2019514046A (ja
Inventor
ミトラ,ヴィクラムジット
フランコ,オラシオ
バルテルス,クリス
ヴェルジリ,ディミトラ
ハウト,ジュリアン ファン
グラシアレナ,マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc filed Critical SRI International Inc
Publication of JP2019514046A publication Critical patent/JP2019514046A/ja
Application granted granted Critical
Publication of JP6979028B2 publication Critical patent/JP6979028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)

Description

関連出願の相互参照
本願は、2016年3月22日に出願された「Unsupervised Adaptation of Deep Nural Networks to Unseen and Noisy Channel Conditions(雑音の多い未知のチャネル条件に対する深層ニューラルネットワークの教師なし適応)」という名称の米国仮特許出願第62/311,717号に基づくものであり、それによる優先権の主張し、その全体を本明細書に組み込む。
連邦政府による資金提供を受けた研究開発の記載
本発明は、アメリカ国防高等研究計画局(DARPA)によって支援される契約第HR0011−15−C−0037号の下でアメリカ合衆国連邦政府の支援を受けて行われたものである。アメリカ合衆国連邦政府は本発明に特定の権利を有する。
本開示は、一般的に、音声認識のために音声データを処理するためのシステムおよび方法に関する。より具体的には、本開示は、雑音の多い未知のチャネル条件における音声認識のための改善されたシステムおよび方法に関する。
変化する背景条件における音声認識は困難な課題である。トレーニングデータと評価データとの間の音響条件の不一致は、認識性能を顕著に低下させ得る。不一致の条件については、典型的には、音響モデルを新たなデータ条件に晒すデータ適応技術が有用であることが見出されている。教師あり適応技術は、通常、かなりの性能改善を提供するが、そのようなゲインは、ラベリングまたは音声表記されたデータを有することを条件としており、そのようなデータは入手できない場合が多い。代替手段としては、教師なし適応があり、典型的には、特徴変換方法およびモデル適応技術が研究される。
本願は、未知のチャネルおよび雑音条件の問題に対処するための、ロバストな特徴、特徴空間最尤線形回帰(fMLLR)変換、および深層畳み込みネットワークを研究する。更に、本願は、音声信号から抽出された音響特徴を用いることによってトレーニングされた深層オートエンコーダ(DAE)ネットワークから抽出されたボトルネック(BN)特徴を研究する。そのような表現は、ロバストなシステムを生成するだけでなく、教師なしモデル適応のためのデータ選択を行うために用いられ得ることが示される。本願の最後に示されている例で論じられる結果は、本願において呈示される技術が、未知のチャネルおよび雑音条件における音声認識システムの性能を顕著に改善することを示している。
本開示は例として示されるものであり、添付の図面に限定するものではない。図面は、単独でまたは組合せにおいて、本開示の1以上の実施形態を示し得る。図面に示されている要素は必ずしも縮尺通りに描かれていない。図面間で、参照ラベルは、対応するまたは類似の要素を示すために繰り返され得る。
本開示の態様による例示的なシステムの少なくとも1つの実施形態の簡略化されたブロック図を示す 本開示の態様による自動音声認識システムの少なくとも1つの実施形態の簡略化されたブロック図を示す 本開示の態様による特徴抽出モジュールについての動作のステップを説明するフローチャート 本開示の態様による深層ニューラルネットワークの少なくとも1つの実施形態を示す模式図 本開示の態様による深層オートエンコーダの少なくとも1つの実施形態を示す模式図 本開示の態様によるニューラルネットワークシステムの少なくとも1つの実施形態を示す模式図 本開示の態様によるニューラルネットワークシステムの少なくとも1つの実施形態を示す模式図 深層オートエンコーダがソース(即ち既知の)音声信号を受信したときの、深層オートエンコーダのボトルネック層の活性化されたニューロンを示すチャート 深層オートエンコーダが未知の音声信号を受信したときの、深層オートエンコーダのボトルネック層の活性化されたニューロンを示すチャート 本開示の態様による時間周波数畳み込みニューラルネットワークの少なくとも1つの実施形態を示す模式図 本開示の態様による図1の例示的なシステムについての例示的な使用方法のステップを説明するフローチャート
本発明の上記または他の態様および長所は、以下の説明から明らかになる。この説明において、説明の一部をなす添付の図面が参照され、図面には、本発明の好ましい実施形態が例示の目的で示されている。しかし、そのような実施形態は、必ずしも本発明の全範囲を表しておらず、従って、本発明の範囲を解釈するためには、特許請求の範囲および本明細書が参照される。
深層ニューラルネットワーク(DNN)隠れマルコフモデル(HMM)に基づく自動音声認識(ASR)システムは、トレーニング条件と評価条件が似ている限りは、印象的な性能を示す。残念ながら、DNN-HMMシステムは、データが不足していると共にデータの影響を受け易い。DNN音響モデルは、音響条件の不一致の影響をかなり受け得るものであり、雑音、残響、および/またはチャネルの歪みに起因する背景音響条件の僅かな変化によって、そのようなモデルの脆弱性が露呈し得る。典型的には、DNN音響モデルの脆弱性を補償するために、データ拡張によってサポートされる多条件トレーニングが用いられ、文献では、多様なソースから収集された数千時間の音響データを用いてロバストなDNN音響モデルをトレーニングできることが報告されている。データ拡張は、顕著な影響を有することも見出されている。そのような全ての条件では、モデルが遭遇する歪みの種類に関するアプリオリな知識があることを想定しており、そうではないケースがしばしばあり得る。現実世界のASRの適用は、典型的には多様な音響条件に遭遇し、それらは、しばしば独特であり、従って予測困難である。そのような条件の1つは、チャネルのばらつきおよび雑音であり、これは実際上はオープンセット問題である。
ここで図1を参照すると、本開示の態様による例示的なシステム100のブロック図が示されている。一般的に、システム100は、入力102、プロセッサ104、メモリ106、および出力108を含み得るものであり、本開示の態様による音声認識のために聴覚的サンプルを解析する工程を行うよう構成され得る。
図1に示されるように、システム100は、入力102への有線または無線接続を介して、聴覚システム110、ストレージサーバ112、またはデータベース114のうちの1以上と通信し得る。一般的に、システム100は、様々なコンピュータ、システム、デバイス、マシン、メインフレーム、ネットワーク、および/またはサーバに対する指示を実行するよう構成された任意のデバイス、装置、またはシステムであり得、様々なコンピュータ、システム、デバイス、マシン、メインフレーム、ネットワーク、および/またはサーバの一部として、またはそれらと協働して動作し得る。
幾つかの態様において、システム100は、ポータブルまたはモバイル機器(例えば、セルラーまたはスマートフォン、ラップトップ、タブレット等)であり得る。この点に関して、システム100は、様々なソフトウェアおよびハードウェアの能力および機能性を統合するよう設計されたシステムであり得る、および/または、自律的に動作可能であり得る。更に、聴覚システム110とは別々に示されているが、幾つかの態様において、システム100またはその一部は、聴覚システム110の一部であり得るか、または聴覚システム110に組み込まれ得る。
入力102は、ユーザからの様々な選択および動作の指示を受信するための任意の1以上の異なる入力要素(例えば、マウス、キーボード、タッチパッド、タッチスクリーン、ボタン)等を含み得る。入力102は、様々なデータおよび情報を受け取るための様々なドライブおよびレセプタクル(例えば、フラッシュドライブ、USBドライブ、CD/DVDドライブ、および他のコンピュータ可読媒体のレセプタクル等)も含み得る。この目的で、入力102は、これらおよび他の外部コンピュータ、システム、デバイス、マシン、メインフレーム、サーバ、またはネットワークとデータおよび情報を交換するための様々な通信ポートおよびモジュール(例えば、イーサネット、Bluetooth、またはWiFi等)も含み得る。
プロセッサ104は、システム100を動作させるための様々な工程を行うよう構成されることに加えて、本明細書に記載される方法による音声認識のために聴覚的サンプルを解析するようプログラムされ得る。具体的には、プロセッサ104は、メモリ106内の非一過性のコンピュータ可読媒体116内に格納されている指示を実行するよう構成され得る。プロセッサ104によって実行可能な指示は、様々な自動音声認識(ASR)システムに対応し得るものであり、その例については後述する。図1では、非一過性のコンピュータ可読媒体116はメモリ106に含まれるものとして示されているが、それに加えて、またはその代わりに、プロセッサ104によって実行可能な指示は、非一過性のコンピュータ可読媒体を有する別のデータ格納場所に格納されてもよい。
幾つかの態様において、プロセッサ104は、音声信号を受信して、様々な情報(文字列、テキストベースのコマンド、仮説の信頼性レベル、および他のデータを含む)を生成するために処理するよう構成され得る。幾つかの態様において、プロセッサ104は、入力102を用いて、聴覚システム110、ストレージサーバ112、データベース114、または他のデータ格納場所に格納されている、またはそこから発せられる情報およびデータ(音声信号を含む)にアクセスし得る。幾つかの態様において、聴覚システム110は、例えば、スピーカー118を用いて連続的に記録するためのマイクまたは他の音声記録装置を用いて、音声信号を連続的に取得し得る。
本開示の実施形態は、本技術の実施形態による方法およびシステムのフローチャート、および/または、コンピュータプログラム製品としても実装され得るアルゴリズム、式、もしくは他の計算表現を参照して説明され得る。この点に関して、フローチャートの各ブロックまたはステップ、フローチャートのブロック(および/またはステップ)の組合せ、アルゴリズム、式、または計算表現は、コンピュータ可読プログラムコード論理において具現化される1以上のコンピュータプログラム指示を含む様々な手段(例えば、ハードウェア、ファームウェア、および/またはソフトウェア等)によって実装され得る。なお、任意のそのようなコンピュータプログラム指示が、図1を参照して説明されるようなシステム100、並びに、汎用コンピュータもしくは専用コンピュータ、または他のプログラム可能処理装置を含むがそれらに限定されない他の任意のコンピュータにロードされて、コンピュータまたは他のプログラム可能処理装置上で実行されるコンピュータプログラム指示が、フローチャートのブロックにおいて指定されている機能を実装するための手段を生成するようなマシンを生成し得る。
従って、フローチャートのブロック、アルゴリズム、式、または計算表現は、指定されている機能を行うための手段の組合せ、指定されている機能を行うためのステップの組合せ、および指定されている機能を行うためのコンピュータプログラム指示(例えば、コンピュータ可読プログラムコード論理手段において具現化される指示等)をサポートする。また、本明細書に記載されるフローチャートの各ブロック、アルゴリズム、式、または計算表現、およびそれらの組合せは、指定されている機能もしくはステップを行う専用ハードウェアに基づくコンピュータシステム、または専用ハードウェアとコンピュータ可読プログラムコード論理手段との組合せによって実装され得ることも理解されよう。
更に、これらのコンピュータプログラム指示(例えば、コンピュータ可読プログラムコード論理手段において具現化される指示等)は、コンピュータまたは他のプログラム可能処理装置に特定の方法で機能するよう指示可能な非一過性のコンピュータ可読媒体の形態のコンピュータ可読メモリに格納され、コンピュータ可読メモリに格納された指示が、フローチャートのブロックにおいて指定されている機能を実装する指示手段を含む製品を生成し得る。また、コンピュータプログラム指示は、コンピュータまたは他のプログラム可能処理装置にロードされて、コンピュータまたは他のプログラム可能処理装置上において一続きの処理ステップを行わせてコンピュータによって実装される処理を生じ、コンピュータまたは他のプログラム可能処理装置上で実行される指示が、フローチャートのブロック、アルゴリズム、式、または計算表現において指定されている機能を実装するためのステップを設けるようになっている。
更に、本明細書において用いられる「プログラミングム」または「プログラムで実行可能」という用語は、本明細書に記載される機能を行うためにプロセッサによって実行可能な1以上の指示を指すものである。指示は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組合せで具現化され得る。指示は、装置に対してローカルに非一過性の媒体に格納され得るか、例えばサーバ等にリモートで格納され得るか、または、指示の全てもしくは一部がローカルにおよびリモートで格納され得る。リモートで格納された指示は、ユーザによる開始によって、または1以上の要因に基づいて自動的に装置にダウンロード(プッシュ)され得る。更に、本明細書において用いられるプロセッサ、コンピュータプロセッサ、中央処理装置(「CPU」)、およびコンピュータという用語は、指示を実行すると共に入力/出力インターフェースおよび/または周辺機器と通信する機能がある装置を示すために同義で用いられる。
ここで図2を参照すると、例示的なASRシステム200のブロック図が示されており、ASRシステム200内で行われる工程はプロセッサ104によって実行され得る。例えば、プロセッサ104は、入力102を介して音声信号または発話201を受信し、次に、これが図示されているASRシステム200を用いて処理され得る(詳細は後述する)。
なお、以下のASRシステム200の説明、および添付の図面は、説明を意図したものであり、限定するものではない。他のASRシステムは、異なる構成であり得、異なる構成要素またはモジュールを含み得るが、依然として本願に開示される特徴を行うことができる。
図示されるように、ASRシステム200は、特徴抽出モジュール202、ニューラルネットワークモジュール204、音響モデル206、辞書208、および言語モデル210を含み得る。
音声信号または発話201の処理において、ASRシステム200は、入力102から、人間の発話(例えば、話された単語、複数の単語、句、複数の句、文、複数の文、または発話の他のセグメント等)のアナログまたはデジタル表現を含み得る発話201を受信し得る。
次に、発話201は特徴抽出モジュール202に送信され、特徴抽出モジュール202は、発話201を、特徴ベクトル203で表される様々な音響特徴に分割し得る。具体的には、特徴解析モジュール202は、時系列の重複するまたは重複しない時間的フレーム内にある発話201をサンプリングして定量化し、フレームに対してスペクトル解析を行って、各フレームと関連づけられた特徴ベクトル203を導出し得る。
次に、特徴ベクトル203は、深層ニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、時間畳み込みニューラルネットワーク(TCNN)、時間周波数CNN(TFCNN)、および融合CNN(fCNN)(それぞれについては後述する)のうちのいずれかを含み得るニューラルネットワークモジュール204に送信され得る。次に、ニューラルネットワークモジュール204を用いて、所与の発話201についての仮説211が生成され得る。
仮説211は、まず、音響モデル206、辞書208、および言語モデル210を用いてニューラルネットワークモジュール204をトレーニングすることによって決定され得る。トレーニング中、音響モデル206は、辞書208および言語モデル210によって供給されるガイダンスおよび制約を受けて、特徴ベクトル203において表されている観察されたデータをモデリングするために用いられ得る。モデリング処理は、特徴ベクトル203の特定のシーケンスが、話された部分語の音の特定のシーケンスから導出される確率を決定する。モデリングは、格納されている基本発話単位のコーパスからの1以上の基本発話単位(例えば、音素、トライフォン、クインフォン等)に対する特徴ベクトル203のシーケンスの確率的マッピングも含み得る。
言語モデル210は、ASRシステム200に入力された発話201において、或る音素、トライフォン、クインフォン、または単語のシーケンスが生じている尤度に基づいて、その音素、トライフォン、クインフォン、または単語のシーケンスに確率を割り当て得る。例えば、言語モデル210は、その句における以前のn−1個の単語のパターンの値を所与として、w(発話201から音声表記された句におけるn番目の単語)の条件付き確率を決定し得る。この条件付き確率は、P(w|w,w,…,wn−1)として表すことができる。
ニューラルネットワークモジュール204が仮説211を生成したら、次に、プロセッサ104は、仮説211を用いて、プログラムされている様々なタスク(文字列(必要に応じて、文字列の信頼性レベルを含み得る)をディスプレイに出力することを含む)、テキストベースのコマンド、または他の任意の所定の応答を行い得る。
図3は、特徴抽出モジュール202についての様々な動作のステップを詳細に示すフローチャート300を示す。まず、ステップ302において、入力102を介して発話201が受信され得る。次に、ステップ304において、発話201は複数のテストセグメントに分割され得る。例えば、各テストセグメントは、周期的に進むスライドする時間窓(即ち解析窓)内において取得され得る。時間窓の各進行は、時間窓の幅の分数単位で測定される増分で行われ得る。例えば、各フレーム(およびスライドする時間窓)の幅は26ミリ秒(ms)であり得、各フレーム取得間の時間の増分(即ちフレームレート)は10msであり得る。この構成では、各新たな26msのフレームが、以前のフレームの最後を過ぎて10msだけ進められ、各新たな26msのフレームの最初の16msが、以前のフレームの最後の16msと重複する。従って、連続した2フレーム毎に、16msの共通の(例えば、発話の)音声データが含まれる。他の任意の適切なフレームサイズ、窓サイズ、およびフレームレートも用いられ得る。
ステップ304において、発話201が複数のテストセグメントに分割されたら、ステップ306において、各テストセグメントから、1組の特徴ベクトル203で表される音響特徴が抽出され得る。特徴ベクトル203は、対応するテストセグメントの音響特徴の定量的尺度を表し得る。幾つかの例では、音響特徴は、テストセグメントに対してスペクトル解析を行い、特徴ベクトル203を生成することによって抽出され得る。スペクトル解析は、ガンマトーンフィルタバンクエネルギー(GFB)、正規化された変調係数(NMC)、メルフィルタバンクエネルギー(MFB)、メル周波数ケプストラム係数(MFCC)、および/または、音声認識のための他の任意の適切な音響特徴を抽出するために用いられ得る。幾つかの例では、各テストセグメントは、2以上の同一のテストセグメントに複製され得る。テストセグメントを複製することにより、同じまたは同一のテストセグメントから、別個の2以上の組の音響特徴が抽出され得る。これにより、本明細書に記載される様々なタイプのニューラルネットワークのための入力として用いられる、よりロバストな1組の特徴ベクトル203が提供され得る。
幾つかの例では、ステップ306において、テストセグメントから1組の特徴ベクトル203が抽出された後、ステップ308において、特徴ベクトル203はニューラルネットワークモジュール204に直に出力され得る。
しかし、他の幾つかの例では、特徴ベクトル203をニューラルネットワークモジュール204に出力する前に、ステップ310において、特徴ベクトル203に対して、特徴空間変換が行われ得る。特徴空間変換は、正規化された形態の特徴ベクトル203を生成するために用いられ得る。特徴ベクトル203を正規化することによって、発話201内にある予期しないまたは望ましくない雑音の様々なソースを除去または低減できる。
様々なタイプの雑音は、例えば、非線形性、周波数シフト、変調された雑音、および断続的なバースト等の多くの独特なアーチファクトのうちのいずれかを含み得る。特徴空間変換は、特徴空間最尤線形回帰(fMLLR)変換、スペクトルサブトラクション、声道長正規化、制限付き最尤回帰、話者適応トレーニング、クラスタ適応トレーニング、および特徴空間最小音誤差のうちのいずれかであり得る。
更に、テストセグメントが複製される例では、別個の各組の音響特徴に対して特徴空間変換が行われ、それにより、単一のテストセグメントから取得された、特徴空間変換された別個の複数の組の音響特徴が提供され得る。これにより、本明細書に記載される様々なニューラルネットワークのうちのいずれかに、ロバストな1組の正規化されたベクトル203を入力できるようになる。
図4は、ニューラルネットワークモジュール204として実装され得る例示的な完全に接続された深層ニューラルネットワーク(DNN)400を示す。DNN400は、入力層404、複数の隠れた層406、および出力層408として組織された複数のノード402を含む。各層404、406、408は、ノード出力410によって接続されている。各層に示されているノード402の数は例示を意図したものであり、限定するものではないことが理解されよう。従って、各層におけるノード402の数は、1000〜2000個のノード402の範囲で様々であり得る。同様に、図示されている隠れた層406の数は例示を意図したものであり、4〜6個の隠れた層406の範囲で様々であり得る。更に、図示されているDNN400は、完全に接続されたものとして示されているが、DNN400は他の構成を有してもよい。
DNN400の概観として、特徴ベクトル203は入力層404のノード402に入力され得る。各ノード402は、調節可能なパラメータを有する数学的関数に対応し得る。全てのノード402は、例えば、異なり得るパラメータ値によってのみ異なる、同じスカラー関数であり得る。或いは、様々なノード402は、層の位置、入力パラメータ、または他の判別できる特徴に応じた異なるスカラー関数であってもよい。例として、数学的関数は、シグモイド関数の形態をとり得る。それに加えて、またはその代わりに、他の関数形態が用いられ得ることが理解されよう。各数学的関数は、1または複数の入力を受信して、1または複数の入力からスカラー出力を算出または計算するよう構成され得る。シグモイド関数を例にすると、各ノード402は、その入力の重み付き合計値のシグモイド非線形性を計算し得る。
従って、入力層404のノード402は、特徴ベクトル203を取り込んで、ノード出力410を生成し、ノード出力410は隠れた層406を通って順次送出され、入力層404のノード出力410は第1の隠れた層406のノード402に向かい、第1の隠れた層406のノード出力410は第2の隠れた層406のノード402に向かう(以下同様)。最後に、最後の隠れた層406のノード402は出力層408に送出され、次に、出力層408は、解析テストセグメント412に含まれている特定の音素についての仮説211を出力し得る。
DNN400の実行時使用の前に、DNN400は、ラベリングまたは音声表記された聴覚データを用いてトレーニングされ得る。例えば、トレーニング中に、発話211はラベリングされ得るか、または、前もって音声表記され得る。従って、発話211は、上述のようにDNN400に適用され、各層のノード出力410(仮説211を含む)は、予期されるまたは「真の」出力値と比較され得る。音響モデル206、辞書208、および言語モデル210と併せて、この比較は、様々なノード出力410についての交差エントロピーレベルを生成するために用いられ得る。この交差エントロピーレベルを用いて、確率的勾配降下法を用いてDNN400の交差エントロピーを最小化するよう逆伝搬を行うことによって、ノード402の数学的関数において用いられる様々なパラメータおよび重みが更新され得る。パラメータおよび重みは、他の任意の適切な方法に従って更新されてもよい。
図示されるように、DNN400は、入力層404および隠れた層406の各ノード402のノード出力410が、次の隠れた層406または出力層408のあらゆるノード402の入力に接続されているので、「完全に接続されている」と見なされる。従って、上述のように特徴抽出モジュール202から特徴ベクトル203を受信する入力層404のノード402を除き、各ノード402は、その前の層404、406からの入力値を受信する。
幾つかの例では、ノード出力410、および最終的には仮説211を正確に生成するために、所与のテストセグメントについての文脈的情報が有用であり得る。従って、解析される解析テストセグメント412の特徴ベクトル203は、複数の先行するテストセグメント414および後続のテストセグメント416の特徴ベクトル203と結合され得る。この結合は、仮説211の決定を補助するために、上述のように、言語モデルから取得された発話201における各単語または単語の断片についてのwの条件付き確率と併せて用いられ得る。
図5は、更にまたは代わりにニューラルネットワークモジュール204として実装され得る完全に接続された深層オートエンコーダ(DAE)500を示す。DNN400と同様に、DAE500は、入力層504、複数の隠れた層506、および出力層508として組織された複数のノード502を含む。ここでも、各層504、506、508はノード出力510によって接続されている。更に、ここでも、各ノード502は、調節可能なパラメータを有する数学的関数に対応し得る。
しかし、DAE500の隠れた層506は、DAE−ボトルネック(DAE−BN)層512を更に含む。図示されているDAE500は3つの隠れた層506を含む。入力層504および出力層508はそれぞれ3つのノード502を含み、第1および第3の隠れた層506はそれぞれ4つのノード502を含み、ボトルネック層512は真ん中の隠れた層506であり、2つのノード502を含む。ここでも、図示されているノード502および隠れた層506の数は、DAE500の相対的なレイアウトの例示を意図したものであり、所望に応じて変更され得る。
DAE500等のオートエンコーダの挙動は、上述のDNN400等の深層ニューラルネットワークと類似しているが、DAE500は、仮説を出力する代わりに、DAE500に入力された特徴ベクトル203(Xで表されている)に対応すべき1組の再現された特徴ベクトル513(X´で表されている)を出力する。幾つかの例では、再現された特徴ベクトル513は、DAE500に入力された特徴ベクトル203と完全に同じように結合され得る。他の幾つかの例では、再現された特徴ベクトル513は、DAE500に入力された特徴ベクトル203とは異なるように結合され得る。多くの例において、DAE500は、エンコーダ514およびデコーダ516を含むものと見なされ得る。エンコーダ514は、入力層504、少なくとも1つの隠れた層506(ボトルネック層512を含まない)、およびボトルネック層512を含み得る。エンコーダ514は、特徴ベクトル203(Xで表されている)を取り込んで特徴ベクトル203を処理し、ボトルネック層512のノード出力510において、DAE−ボトルネック(DAE−BN)特徴518(Yで表されている)を生成し得る。
デコーダ516は、DAE−BN層512、少なくとも1つの隠れた層506(ボトルネック層512を含まない)、および出力層508を含み得る。デコーダ516は、DAE−BN特徴518を取り込んで、1組の再現された特徴ベクトル513を出力するよう構成され得る。従って、デコーダ516の層で用いられる関数は、本質的に、エンコーダ514の層で用いられる関数と逆の関係である。なお、DAE−BN層512のノード502の数を減らすことにより、DAE−BN層512から出力されるDAE−BN特徴518は、より低い次元の特徴ベクトルで構成され、これは音響特徴の不変表現をより正確に示し得るので、未知のチャネルおよび雑音条件から取得された入力音声信号における音響のばらつきのDAE−BN特徴518に対する影響が、DAE500に入力された特徴ベクトル203と比較して低減される。
DAE500の実行時使用の前に、DAEは、ラベリングされたまたはラベリングされていない(未知の)データを用いてトレーニングされ得る。例えば、DAE500のトレーニング中に、1組の再現された特徴ベクトル513をDAE500に入力された特徴ベクトル203と比較することによって、誤差信号520が計算され得る。次に、誤差信号520は、平均二乗誤差(MSE)逆伝搬を用いて最小化され得る。それに加えて、またはその代わりに、誤差信号520は、他の任意の適切な方法を用いて最小化され得る。
上記で示唆したように、DAE500は、再現された特徴ベクトル513を特徴ベクトル203と比較することによってトレーニングされるので、DAE500は、例えば上述の完全に接続されたDNN400よりも遥かに少ないラベリングされたデータでトレーニングできる。
また、DAE500は入力特徴から雑音を除去するようトレーニングされるのではなく、層毎にトレーニングされるのでもないという意味で、本明細書に記載されるDAE500からのDAE−BN特徴518は、当該技術分野において公知のスタックオートエンコーダからの先に提案されている深層BN特徴とは異なる。
ここで図6を参照すると、ニューラルネットワーク(NN)システム600が示されている。NNシステム600は、(上述のDAE500と同様の)DAE602および(上述のDNN400と同様の)完全に接続されたDNN604の両方を含む。NNシステム600のトレーニングは、まず、DAE602をトレーニングし、次に、DAE602からトレーニングDAE−BN特徴606を抽出して、DNN604を再トレーニングすることによって行われる。
具体的には、トレーニングコーパス608はトレーニング音声信号または発話610を供給し、そこから、上記の説明に従ってトレーニング特徴ベクトル612が抽出される。次に、トレーニング特徴ベクトル612は、上述のように、DAE602をトレーニングするためにDAE602に入力される。DAE602がトレーニングされたら、トレーニングDAE−BN特徴606は、上述のように、仮説614の交差エントロピーおよび様々なノード出力616を用いてDNN604をトレーニングするために用いられ得る。トレーニング特徴ベクトル612をDNN604に直に入力するのとは異なり、DNN604をトレーニングするためにトレーニングDAE−BN特徴606を用いることにより、より低い次元のトレーニングDAE−BN特徴606が、ばらつきの低減を提供する。
ここで図7を参照すると、トレーニングされたNNシステム600は、まず、上述の方法を用いて、入力102を介して未知のチャネルおよび雑音条件から取得されたラベリングされていない音声信号704から、未知の特徴ベクトル702を抽出することによって、音声認識に用いられ得る。次に、未知の特徴ベクトル702はDAE602を通されて、未知のDAE−BN特徴706が生成され得る。次に、未知のDAE−BN特徴706は、DNN400を参照して上述したように、仮説712を提供するために用いられ得るDNN604に入力され得る。DAE−BN特徴706のより低い次元を理由としたばらつきの低減は、DNN604がより正確な仮説712を提供するのを補助する。
更に、未知のDAE−BN特徴706をDNN604に入力する前に、DAE602は、ラベリングされていない音声信号704を用いて適応され得る。この適応は、単に、上述の方法に従って、実行時使用中に、ラベリングされていない音声信号704を用いてDAE602を再トレーニングすることによって達成される。DAE602を適応させることにより、DAE602における様々な接続のパラメータおよび重みが、新たな音声信号704の様々な未知の雑音条件をより良好に考慮するよう更新される。従って、未知のDAE−BN特徴706は、DNN604をトレーニングするために用いられるトレーニングDAE−BN特徴606により近いはずであり、それによってより正確な仮説712が提供されるはずである。
ここで図8Aおよび図8Bを参照すると、チャートは、NNシステム600のDAE602と類似のDAEについての活性化されたDAE−BN層ニューロンを示す。図8Aのチャートは、DAEがソース(即ち既知の)音声信号からの特徴ベクトルを受信したときの活性化されたニューロンを示す。図8Bのチャートは、DAEが未知の音声信号を受信したときの活性化されたニューロンを示す。各チャートは、暗色を有する活性化されたニューロン802と、活性化されていないニューロン804とを含む。未知の条件については、DAE−BN層における幾つかの更なるニューロンが誤ってトリガされていることが明らかであり、従って、この短期間の窓にわたるDAE−BN活性化出力の交差エントロピーは、未知の音声信号については、既知の音声信号と比較してより高くなることが予期できる。
例えば、上述のニューラルネットワークのうちのいずれかのような、完全に接続されたニューラルネットワークでは、雑音の多いテストセグメントからの未知の雑音が、ニューラルネットワーク全体にわたって伝搬し、それによってニューラルネットワークの完全な失敗が生じて、正しくない仮説を生じ得る。従って、処理するためにテストセグメントをDNNに入力する前に、高い量の雑音を有するテストセグメントが音声信号から選択的に除去され得るように、このより高い交差エントロピーを用いて、未知の音声信号内の特に雑音の多いテストセグメントを識別するのが有用であり得る。エントロピーレベルが最も高いテストセグメントを識別するために、以下に説明するように、正規化されランク付けされた集約エントロピー尺度(NRSE)が生成され得る。
具体的には、DAE−BN層Nが、各ニューロンが所与の瞬間tにおける活性化x(ここで、i=1:n)を生じるn個のニューロンを有する場合には、tを中心とするmの時間窓にわたるこれらの活性化のエントロピーを推定できる。この場合、Xt,jが、tを中心とする時間窓mにわたる隠れた層Nにおけるニューロンjの活性化を表すランダムベクトルである場合には、
Figure 0006979028
となる。
t,jのエントロピーは、
Figure 0006979028
として定義でき、式中、iはxのあり得る値である。なお、(2)によれば、エントロピーは、mの実行窓にわたる各活性化jについて取得される。最後に、N番目の隠れた層におけるn個のニューロンの各々から実行時エントロピーが取得されたら、各活性化についての平均エントロピーを推定することによって集約尺度が取得され、NRSEを生成するために、その活性化にわたる所定の上位パーセンタイルエントロピー尺度が選択され得る。幾つかの例では、所定の上位パーセンタイルエントロピー尺度は、上位30パーセンタイルのエントロピー尺度であり得る。
NRSEが生成されたら、NRSEは、各発話からのテストセグメントをソートするために用いられ得る。次に、NRSEでソートされた低い方からN個のテストセグメント(即ち、最も低いパーセンタイル累積エントロピーを有するテストセグメント)を用いて、上述のニューラルネットワークのうちのいずれかに入力され得る特徴ベクトルの単一の適応セットを生成し、次に、これが上述の方法に従って用いられ得る。
なお、上述のNRSEはDAE−BN特徴(またはDAE−BN出力活性化)を参照しているが、NRSEは、本明細書に記載されるニューラルネットワークのうちのいずれかの任意の隠れた層の音響特徴(または出力活性化)を用いて生成され得る。
更に、未知の音声信号における雑音のよくあるソースの1つは残響である。残響は、音響信号におけるスペクトル情報の時間的な不鮮明化を生じる。残響の程度は、室内インパルス応答の特性によって決定される。残響に起因する時間的な不鮮明化は、時間畳み込みを行う畳み込みニューラルネットワーク(CNN)を用いて、室内残響の逆フィルタリングを行うことによって最小化され得る。このタイプのニューラルネットワークは、時間畳み込みニューラルネットワーク(TCNN)として参照され得る。しかし、音響特徴空間に対して、(残響に起因する情報の時間的な不鮮明化を軽減するための)時間にわたる畳み込みおよび(雑音の影響を最小化するための)周波数にわたる畳み込みの2つのレベルの畳み込み演算を行う修正された畳み込みネットワークを設けることが有用であり得る。
ここで図9を参照すると、時間周波数畳み込みニューラルネットワーク(TFCNN)900が示されている。TFCNN900では、時間畳み込み層904からの音響特徴902および周波数畳み込み層908からの音響特徴906が、入力特徴マップ910から取得される。次に、最大値プーリングを用いて、時間畳み込み層904の音響特徴902が組み合わされると共に、周波数畳み込み層908の音響特徴906が組み合わされる。次に、最大値プーリングされた特徴912が単一の完全に接続されたDNN914に供給されて、仮説916が生成される。
以下において、時間および周波数畳み込み、並びにその次の最大値プーリングが、どのように行われ得るかについて説明する。
入力特徴マップは、特徴ベクトルVまたはUで表され得る。
V=[V,V,...V,....V] …(3)
U=[U,U,...U,....U …(4)
式中、Vは周波数帯域fにおける特徴ベクトルを表し、Uは時間フレームtにおける特徴ベクトルを表す。なお、簡潔のために、これらの特徴ベクトルはスペクトルエネルギーのみを表し、それらの動的な情報(ΔおよびΔΔ)は用いない。周波数畳み込みについては、周波数畳み込み層は、N個の活性化を有するK個の帯域を有する。非線形活性化関数演算の後の畳み込み層の活性化は、
Figure 0006979028
として表すことができ、式中、σ( )は出力活性化関数であり、BはVに対する畳み込み演算の帯域サイズであり、wおよびβは畳み込み層の重み項およびバイアス項を表す。時間畳み込みについても同様に、時間畳み込み層は、(時間フレームに対する)L個の帯域およびM個の活性化を有する。この場合には、非線形活性化関数演算の後の畳み込み層の活性化は、
Figure 0006979028
として表すことができ、式中、σ( )は出力活性化関数であり、CはUに対する畳み込み演算のフレーム帯域サイズであり、ωおよびγは時間畳み込み層の重み項およびバイアス項を表す。ここで、プーリング層の後の、これらの各層の出力は、
Figure 0006979028
として表すことができ、式中、周波数畳み込み層および時間畳み込み層のそれぞれについて、rおよびsはプーリングサイズであり、iおよびjはサブサンプリング係数であり、bおよびcはプーリング帯域サイズである。出力特徴空間は平坦にされてベクトルにされ、連結されて、完全に接続されたニューラルネットワークに供給され得る。幾つかの例では、TFCNNは、時間畳み込みを行うために75個のフィルタを用い得ると共に、周波数畳み込みを行うために200個のフィルタを用い得る。更に、時間および周波数畳み込みについては、8個の帯域が用いられ得る。幾つかの例では、周波数畳み込みについては、3つのサンプルにわたる最大値プーリングが用いられ、時間畳み込みについては、5つのサンプルにわたる最大値プーリングが用いられ得る。
音響モデルが、残響のあるデータに対する逆フィルタリングを学習するのを補助するために、残響のある雑音の多いデータを用いてモデルをトレーニングする必要がある。幾つかの研究は、多条件付きトレーニングを通して、多様性を高めた残響条件を用いると、トレーニングデータとテストデータとの間の音響条件の不一致が低減されることにより、音響モデルのロバスト性が改善されることを示している。トレーニングデータには、(異なるサイズおよび異なる室内インパルス応答を有する)複数の室内条件および異なるSN比(SNR)における様々な背景雑音条件を用いて、人工的に残響がつけられ得る。様々な音響条件を用いたデータ拡張は、モデルに、音響歪みを最小化するのを補助する逆フィルタを推定させることにより、音響モデルの性能を改善するのを補助する。本開示を生じた研究では、多条件付きトレーニングを受けたTFCNNが用いられ、そのようなモデルは、現実の残響のある雑音の多い音響条件下でロバストに働くことが示された。
なお、ガンマトーンフィルタバンクエネルギー、正規化された変調係数、メルフィルタバンクエネルギー、メル周波数ケプストラム係数、および/または、音声認識のための他の任意の適切な音響特徴を含むがそれらに限定されない上述の音響特徴のうちのいずれかは、必要に応じて、特徴空間最尤線形回帰、スペクトルサブトラクション、声道長正規化、制限付き最尤回帰、話者適応トレーニング、クラスタ適応トレーニング、および特徴空間最小音誤差を含むがそれらに限定されない上述のタイプの特徴空間変換のうちのいずれかを用いて特徴空間変換され得る。次に、これらの特徴空間変換のうちのいずれかを受けたまたは特徴空間変換されていない音響特徴は、深層ニューラルネットワーク、畳み込みニューラルネットワーク、融合畳み込みニューラルネットワーク、時間畳み込みニューラルネットワーク、時間周波数畳み込みニューラルネットワーク、および/または他の任意の適切なニューラルネットワークを含むがそれらに限定されない上述のニューラルネットワークのうちのいずれかに入力され得る。
ここで図10を参照すると、本明細書に記載される様々な有利なニューラルネットワークの改善を用いた図1のシステム100についての例示的な使用方法のステップで構成されるフローチャート1000が示されている。まず、ステップ1002において、プロセッサ104は、入力102から音声信号を受信し得る。次に、ステップ1004において、プロセッサ104は、本明細書に記載される方法に従って、音声信号を複数のテストセグメントに分割し得る。次に、ステップ1006において、プロセッサ104は、本明細書に記載される方法のうちのいずれかに従って、各テストセグメントから1組の音響特徴を抽出し得る。
ステップ1006において、テストセグメントから1組の音響特徴が抽出された後、決定ステップ1008において、プロセッサ104は、用いられている深層ニューラルネットワークの間接的適応および直接的適応のうちの少なくとも一方を選択的に行うよう構成される。適応される深層ニューラルネットワークは、本明細書に記載される深層ニューラルネットワーク(DNN、CNN、TCNN、およびTFCNNを含む)のうちのいずれかであり得るが、明確のために、フローチャート1000に記載されているステップの以下の説明では、一般的に深層ニューラルネットワーク(DNN)として参照される。決定ステップ1008におけるプロセッサ104による選択は、ユーザ入力、入力音声信号の特性、計算時間要件、または実行時使用の前に予め決定され得る他の任意の適用可能な選択基準に基づき得る。
ステップ1010において、プロセッサ104がDNNの間接的適応を選択的に行う場合、プロセッサ104は、ステップ1012において、各テストセグメントから少なくとも第2の別個の組の音響特徴を抽出するよう構成され得る。これは、図2に関して上述したように、各テストセグメントを少なくとも1回複製し、元の各テストセグメントおよび同一の複製されたテストセグメントに対してそれぞれ別々のスペクトル解析を行うことによって行われ得る。対応するテストセグメントから、第2(および可能性として第3、第4等)の別個の組の音響特徴が抽出されたら、ステップ1014において、(元から抽出された1組の音響特徴および複製されたテストセグメントから抽出された更なる組の音響特徴の両方を含む)これらのテストセグメントから抽出された別個の各組の音響特徴が深層ニューラルネットワークに適用され、それにより、融合DNN(fDNN)または融合CNN(fCNN)が生成され得る。必要に応じて、ステップ1014において別個の組の音響特徴を深層ニューラルネットワークに適用する前に、ステップ1016において、別個の各組の音響特徴に対して、特徴空間変換が行われ得る。特徴空間変換は、上述の特徴空間変換のうちのいずれかであり得るが、多くの例では特徴空間最尤線形回帰変換であり得る。上述のように、更なる別個の組の音響特徴は、深層ニューラルネットワークに、よりロバストな1組の音響特徴を提供する。更に、特徴空間変換は、様々な組の音響特徴を正規化するのを補助することにより、受信された音声信号内の望ましくない雑音を除去または低減し得る。これらの方法は、プロセッサ104が雑音の多い未知のチャネル条件からの音声信号を処理する際の、DNNの仮説の精度を改善し得る。
ステップ1018において、プロセッサ104がDNNの直接的適応を選択的に行う場合には、プロセッサは、ステップ1020において、音響特徴を事前トレーニングされた深層ニューラルネットワークに適用して、上述の方法に従って、エントロピーに基づく信頼性の尺度を生成するよう構成され得る。事前トレーニングされた深層ニューラルネットワークも、本明細書に記載される深層ニューラルネットワーク((後述するような)標準的なDNN、CNN、TCNN、TFCNN、またはfCNNを含む)のうちのいずれかであり得る。次に、ステップ1020において生成されたエントロピーに基づく信頼性の尺度は、ステップ1022において、図8Aおよび図8Bを参照して上述したように、音響特徴の直接的適応セットを設けるために、全体的な累積エントロピーが最も低いテストセグメントを選択するために用いられ得る。ステップ1022において、音響特徴の直接的適応セットのためのテストセグメントが選択されたら、ステップ1014において、上述の方法に従って、音響特徴の直接的適応セットがDNNに適用され得る。
更に、幾つかの例では、プロセッサ104は、DNNの間接的適応および直接的適応の両方を行うことを決定し得る。この場合には、プロセッサ104は、まず、ステップ1010においてDNNの間接的適応を行う。これは、ステップ1012において、第2の別個の組の音響特徴を抽出し、必要に応じて、ステップ1016において、別個の複数の組の音響特徴の特徴空間変換を行うことを含み得る。次に、ステップ1018において、特徴空間変換された、または特徴空間変換されていない、DNNの間接的適応中に抽出された別個の複数の組の音響特徴は、DNNの直接的適応に用いられ得る。次に、ステップ1020において、特徴空間変換された、または特徴空間変換されていない、別個の複数の組の音響特徴は、エントロピーに基づく信頼性の尺度を生成するために、事前トレーニングされたDNNに適用され得る。ここでも、ステップ1022において、エントロピーに基づく信頼性の尺度を用いて、音響特徴の直接的適応セットのためにテストセグメントが選択され得る。最後に、特徴空間変換された、または特徴空間変換されていない、更なる複数の組の別個の音響特徴を含む音響特徴の直接的適応セットは、DNNに適用され、上述の方法およびシステムに従って、仮説が生成され得る。
上記の説明に加えて、本開示による具体的な実験について以下に説明する。これらの実験は、単に例示の目的で提供されるものであり、本発明の範囲を限定することは意図しない。実際、当業者には、上記の説明および以下の例から、本明細書に示され記載されたものに加えて様々な変更が自明であり、それらは添付の特許請求の範囲に含まれる。
実験
ここで、以下の実験を参照し、これらは、上記の説明と共に、本発明を限定せずに示すものである。以下の実験では、特徴空間変換されたおよび特徴空間変換されていない様々な音響特徴を用いて、様々なDNN、CNN、TCNN、TFCNN、およびfCNN音響モデルをトレーニングした。システム性能は単語誤り率(WER)に関して報告される。
音声認識システム
以下の実験で用いた音声データセットは、DARPA(アメリカ国防高等研究計画局)のRATSプログラムの下でLinguistic Data Consortium(LDC)によって収集されたものであり、雑音の多いまたは非常に歪んだチャネルにおけるレバント・アラビア語(LAR)およびペルシャ語の2つの言語の音声に焦点を当てたものである。これらのデータは、電話音声(ソースチャネルとして示されている)を、それぞれに或る範囲の歪みが関連づけられた8つの通信チャネル(A、B、C、D、E、F、G、およびHとして示されている)を介して再送信することによって収集された。DARPAのRATSデータセットは、雑音およびチャネルの劣化が、クリーンな音声信号に対して数学的演算を行うことによって人工的に導入されたものではなく、その代わりに、信号が、チャネル劣化および雑音劣化を有する環境を介して再同報されてから、再記録されたものであるという点で、独特である。その結果、これらのデータは、例えば、非線形性、周波数シフト、変調された雑音、および断続的なバースト等の幾つかの独特なアーチファクトを含んでおり、これらの条件下では、付加雑音の文脈で開発された雑音に対してロバストな従来の手法は良好に働いていない。
この節の最後で参照されている実験は、LARデータセットのみに焦点を当てたものである。
LAR音響モデル(AM)トレーニングのために、約250時間の再送信された会話音声(LDC2011E111およびLDC2011E93)を用いた。
言語モデル(LM)トレーニングのために、以下のものを含む様々なソースを用いた。
LDCのEARS(Effective, Affordable, Reusable Speech-to-Text)データコレクションから1.3Mワード(LDC2006S29、LDC2006T07)、
Levantine Fisherから437Kワード(LDC2011E111およびLDC2011E93)、
RATSデータコレクションから53Kワード(LDC2011E111)、
GALE(Global Autonomous Language Exploitation)のレバント語放送番組から342Kワード(LDC2012E79)、および、
アラビア語方言のウェブデータから942Kワード(LDC2010E17)。
LMのチューニングのために、Fisherデータコレクションから選択された、約46Kワードを含むホールドアウトされたセットを用いた。
LARについてのASRおよびキーワード発見(KWS)性能を評価するために、本明細書ではdev−1およびdev−2と称する2つのテストセットを用いた。各テストセットは10時間のホールドアウトされた会話音声で構成された。Dev−2は参照用音声表記を備えておらず、KWS評価のみを意図したものであり、焦点はASRのみに当てられているので、結果はdev−1のみについて報告される。なお、各チャネル条件からの約2Kのセグメントを、モデルのトレーニングおよび最適化のためのホールドアウト検証セットとして用いた。
LARデータは、A〜Hで示される8つのチャネルを有した。この実験では、チャネルAおよびBはトレーニングセットから除外し(ここでは「AB無しトレーニング」として参照される)、8つのチャネルの全て、およびDARPAのRATSディストリビューションにおいてdev−1セットとして配布されたソースデータ(再送信されていないデータ)にわたってモデルを評価した。図5および図6に示されているものと類似のDAE−BNシステムをトレーニングするために、LARデータに加えて、2500時間の通信チャネルが劣化した標準中国語データも用いた。なお、この標準中国語トレーニングデータに追加によって、DAE−BNシステムの性能が改善した。
以下の実験では、実験のための音響特徴のうちの1つとして、ガンマトーンフィルタバンクエネルギー(GFB)を用いた。ガンマトーンフィルタは、人間の耳において見出される聴覚フィルタバンクの線形近似である。このGFB処理については、等価矩形帯域幅(ERB)スケール上の等間隔の40個のガンマトーンフィルタのバンクを用いることによって音声を解析した。約26msの解析窓において、10msのフレームレートで、帯域制限時間信号のパワーを計算した。次に、このサブバンドパワーを、15乗根を用いることによってルート圧縮し、得られた40次元の特徴ベクトルをGFBとして用いた。
以下の実験では、正規化された変調係数(NMC)も候補特徴として用いた。NMCは、帯域制限音声信号から振幅変調(AM)情報を捕捉する。NMCは、10msのフレームレートを有する26msのHamming窓を用いることによって、時間領域におけるサブバンド音声信号のAM軌道を追跡する。AM信号のパワーを、15乗根を用いることによって同様にルート圧縮した。得られた40次元の特徴ベクトルを、この実験におけるNMC特徴として用いた。
上記の特徴セットに加えて、標準的なメルフィルタバンクエネルギー(MFB)およびメル周波数ケプストラム係数(MFCC)も候補特徴セットとして用いた。
この実験で用いたDAE−BNシステムは、5つの隠れた層を有する完全に接続されたDNNシステムであり、第3の隠れた層は80個のニューロンのボトルネックを含んだ。残りの隠れた層は1024個のニューロンを有した。隠れた層はシグモイド活性化を有し、一方、出力層は線形活性化を有した。DAE−BNを、平均二乗誤差(MSE)逆伝搬を用いることによってトレーニングした。DAE−BNシステムへの入力は、11の結合(即ち、先行する5つのテストセグメントおよび後続の5つのテストセグメントを、解析されるテストセグメントと結合)を有する40個のGFBであり、440次元の特徴を生じ、一方、出力は同じ40個のGFBであったが、5の結合を有した。
トレーニングされると、DAE−BN層のシグモイド活性化は、線形活性化によって置き換えられた。次に、DAE−BNシステムからのDAE−BN特徴を用いて、図6に示されているような完全に接続されたDNN音響モデルをトレーニングした。
なお、「AB無しトレーニング」データについては、DAE−BNシステムは、AおよびB以外の全てのチャネルを用いてトレーニングされた。DAE−BNシステムは同じ入力−出力特徴を用いてトレーニングされたが、上述のように、入力側における特徴の結合は出力側とは異なっていた。
図8Aおよび図8Bは、(図8Aに示されている)ソース(比較的クリーンな)データおよび(図8Bに示されている)未知の(チャネルA)再送信されたLARデータについてのDAE−BN特徴の最初の20次元の特徴マップを示す。上述のように、未知の条件については、DAE−BN層におけるニューロンの幾つかが誤ってトリガされていることが明らかであり、従って、この短期間の窓にわたるDAE−BN活性化出力のエントロピーは、未知のケースについては、既知のケースと比較してより高くなることが予期できる。従って、上述のNRSEと同様に、DAE−BN活性化出力のエントロピーを用いて、DAE−BN特徴から推定されたエントロピーに基づく信頼性の尺度を生成し、これを用いて、教師なしモデル適応のためのテストデータおよびそれらの第1パス仮説を選択した。
AB無しトレーニングデータを用いて、マルチチャネル音響モデルをトレーニングした。得られたモデルは、本明細書では「AB無しモデル」と称される。また、ソースからのデータおよび8つの再送信されたチャネルのバージョンを含む全てのトレーニングデータを用いて、ベースラインモデルをトレーニングした。まず、三状態文脈依存(CD)時系列(left-to-right)GMM−HMM音響モデルをトレーニングし、これを用いて、DNN音響モデルのトレーニングのためのセノン(senone:結ばれた3つの音素)アラインメントを生成した。トレーニングコーパスを、教師なし凝集クラスタリングを用いることによっクラスタ化して、疑似話者クラスタにした。
GMM−HMM音響モデルによって生成されたセノンアラインメントを用いて、交差エントロピーを用いることによって、複数のDNNをトレーニングした。DNNは、シグモイド活性化を有する2048サイズの5つの隠れた層を有したが、但し、DAE−BNシステムからのBN特徴に対してトレーニングされたDNNは、2048個のニューロンを有する3つの隠れた層を有した。これらのDNNを、まず、0.008の一定の学習率を有する4回の反復を用い、次に、交差検証誤差の減少に基づいて学習率を半分にすることによってトレーニングした。交差検証誤差の更なる顕著な減少が見られないとき、または、交差検証誤差が増加し始めたときには、トレーニングが停止される。256個のトレーニング例のミニバッチを用いた確率的勾配降下法を用いて逆伝搬を行った。
SRILM(言語モデルを構築するためのツールキット)を用いることによって、LMを生成した。ホールドアウトされたチューニングセットを用いて、LARについて47Kワードの語彙を選択し、その結果、dev−1に対して4.3%の未知語(OOV)率となった。
実験1−既知のチャネルについてのWERと未知のチャネルについてのWERとを比較するベースラインDNN音響モデル
未知のチャネル条件に起因する性能劣化を評価するために、(a)トレーニングデータにターゲットチャネル(A、B)を含む、および(b)トレーニングデータからターゲットチャネル(A、B)を除外した、2つのDNN音響モデルをトレーニングした。表1は、dev−1評価セットからチャネルA、B、CおよびEがデコードされたときの、これらの2つのシステムからのWERを示す。
Figure 0006979028
表1は、未知のチャネルについての性能劣化を示しており、DNNモデルは90%を超える誤り率を与えた。表1の結果は、音響モデルが未知の雑音/チャネル条件下で失敗するのを防止するために、より良好な戦略が必要であることを示している。なお、アラビア語音響モデルは典型的にはより高いWERを有するものであり、その上、チャネルA、B、C、およびEは高レベルの雑音、チャネル劣化、および非定常アーチファクトを含むかなり悪いチャネルであるので、表1で報告されている誤り率はかなり高い。
実験2−MFCC、MFB、NMC、およびDAE−BN音響特徴を用いてトレーニングされたDNN音響モデル
次に、異なるチャネル条件について、異なる特徴についての認識率がどのように変化するかを研究した。表2は、2048個のニューロンを有する5つの隠れた層を有するDNNと共に用いたときの、MFCC、MFB、およびNMC特徴についてのWERを示している。表2は、ロバストな特徴が、DNNが不一致のチャネル条件下で失敗するのを防止できなかったことを示しており、これは、妥当な認識精度を達成するために適応メカニズムが必要であることを示している。
Figure 0006979028
表2は、未知のチャネル条件については、MFCCおよびMFB特徴が失敗したことを示している。しかしこれらは、既知のチャネル条件については性能を保持できた(表1の「全てを含むトレーニング」を受けたモデルからのそれらの性能と比較して)。DAE−BN特徴は、未知のチャネル条件については比較的ロバストであったが、既知のチャネル条件については、それらの性能はMFBおよびNMC特徴よりも悪かった。
実験3−fMLLR変換されたMFCC、MFB、およびNMC音響特徴を用いてトレーニングされたDNN音響モデル
次に、DNNをトレーニングおよびテストするためにfMLLR変換されたMFCCおよびMFB特徴表現を用いることについて研究した。表3は、fMLLR変換されたMFCCおよびMFB特徴表現についてのWERを示しており、これは、fMLLR変換が顕著な性能改善を生じたことを示している。
Figure 0006979028
表3は、fMLLR変換が、未知のチャネルAおよびBについての誤り率を顕著に低減し、それらを、表1で報告されている既知のチャネル条件から取得された誤り率に近づけたことを示している。また、fMLLR−変換されたMFB特徴は、fMLLR−変換されたMFCC特徴よりも低いWERを与えたことも興味深い。
実験4−fMLLR−変換されたMFB、NMC、およびDAE−BN音響特徴を用いてトレーニングされたCNN音響モデル
畳み込みニューラルネットワーク(CNN)は、典型的には、雑音およびチャネルの歪みに対してロバストであることが認められており、従って、上記で示した特徴と共に用いるためのCNN音響モデルについて研究した。具体的には、fMLLR変換されたMFB、NMC、およびDAE−BN特徴に対してCNNモデルを用いることについて研究した。なお、特徴の次元にわたる畳み込みは、DAE−BN特徴については、近傍の特徴の次元がスペクトル特徴ほど相関していない場合があるので、有意義ではない。よって、畳み込みは、時間(時間畳み込みニューラルネットワーク(TCNN))のみにわたって行われ、8の帯域サイズと5の窓サイズにわたる最大値プーリングとを有する75個のフィルタを用いた。他のスペクトル特徴(NMCおよびMFB)については、8の帯域サイズと3つのフレームにわたる最大値プーリングとを有する200個の畳み込みフィルタを有する従来のCNNを研究した。畳み込み層は、各層が2048個のニューロンを有する4つの隠れた層を有する完全に接続されたニューラルネットワークと接続された。このCNNモデルからの結果が表4に示されており、DAE−BN特徴を除く全ての特徴について、既知のチャネル条件および未知のチャネル条件の両方について、DNNモデルと比較してWERの更なる低減が観察されたことがわかる。
Figure 0006979028
表4は、CNNモデルが、表3で報告されているDNNモデルより低いWERを与えたことを示している。DAE−BN特徴に対する畳み込み演算は、DNNモデルと比較してWERを低減しなかった。
第3の層に60次元のBNを有する5つの隠れた層を有する完全に接続されたDNNの教師ありトレーニングによって取得されたボトルネック(BN)特徴についても研究した。BN−DNNへの入力は、15フレームにわたって結合された特徴を有した。母音符号を備えた辞書を用いてLARデータから学習されたSBNは、母音符号を備えていない標準的な辞書を用いたものよりも良好な性能を与えたことが観察され、よって、前者を用いてBN−DNNモデルをトレーニングした。DAE−BNシステムは、第3の層にBNを有する5つの隠れた層という、BN−DNNシステムと類似の構成を有した。BN−DNNシステムからのBN特徴は、DAE−BNシステムからの特徴と比較して、未知のチャネル条件については僅かに性能が悪く(相対的に0.4%)、既知のチャネル条件については僅かに良好であった。
実験5−fMLLR変換されたNMCおよびMFB音響特徴を用いてトレーニングされた時間周波数CNN
次に、fMLLR変換されたNMCおよびMFB特徴に対する時間周波数CNN(TFCNN)について研究した。TFCNNは、常に、それらに対応するCNNよりも良好な性能を示しており、ここでは、CNN音響モデルを用いた場合と比較して、WERの低減も観察された。表5は、TFCNN音響モデルからのWERを示している。更に、fMLLR変換されたMFBおよびNMC特徴を組み合わせて、融合CNNモデル(fCNN)をトレーニングした。この場合、2つの個々の特徴のそれぞれについて、2つの並列畳み込み層がトレーニングされる。
Figure 0006979028
実験6−fMLLR変換されたMFB、NMC、およびMFB/NMC融合音響特徴を用いてトレーニングされたDAE−BN適応TFCNN音響モデル
次に、DAE−BNネットワークからのBN特徴について研究し、これらを用いて、信頼性の尺度を生成した。DAE−BN特徴の各次元について、21フレーム(即ち、約230msの時間的情報)のデータの実行窓にわたるエントロピーを推定し、次に、各次元についての最大エントロピーを計算した。全ての次元にわたる上位30%パーセンタイル最大エントロピーからの累積エントロピーを信頼性の尺度として用いた。なお、図8Bに示されているように、未知のデータは、典型的には、複数のニューロンにわたって誤った活性化をより多く生じており、それにより、既知のデータ条件と比較して、より高いエントロピーを生じた。エントロピーに基づく信頼性の尺度を用いて、各チャネル条件についての全体的な30パーセンタイル累積エントロピーが最も低かった各チャネル条件について、上位1Kのテストセグメントを選択し、これらのテストセグメントを用いて、音響モデルを適応または再トレーニングした。具体的には、これらのテストセグメントを用いて、0.02のL2正則化を用いて、以前にトレーニングしたTFCNNおよびfCNNモデルを再トレーニングした。
表6は、MFBfMLLR、NMCfMLLR、およびMFBfMLLR+NMCfMLLR特徴についての、TFCNNおよびfCNNモデル適応から取得されたWERを示している。DAE−BNDNNシステムに対する同じ再トレーニング手順は、WERの4.3%の相対的な低減を生じた。
Figure 0006979028
従って、本明細書において、雑音の多い未知のチャネル条件における音声認識のための様々な改善されたシステムおよび方法が提供される。なお、本明細書に記載される雑音の多い未知のチャネル条件における音声認識を改善するための方法のいずれも、互いに併用され得る。例えば、上述の考えられる音響特徴のうちのいずれかが、既知のまたは未知の音声信号から取得されたテストセグメントから抽出され、次に、抽出された音響特徴のうちのいずれかに対して、上述の特徴空間変換のうちのいずれかが行われてもよく、または行われなくてもよく、特徴空間変換されたまたは特徴空間変換されていない抽出された音響特徴が、本明細書において考えられるニューラルネットワークのうちのいずれかに入力され得る。更に、考えられるニューラルネットワークのうちのいずれかの使用中に、ニューラルネットワークを適応させるために、本明細書に記載されるエントロピーに基づく信頼性の尺度を用いて、最も低い累積エントロピーを有するテストセグメントが選択され得る。
本発明を、1以上の好ましい実施形態に関して説明したが、明記されたもの以外にも多くの等価物、変更、変形、および修正が可能であり、本発明の範囲に含まれることが認識されるべきである。
更なる例
本明細書において開示された技術の事例を以下に示す。本技術の実施形態は、以下に記載する例のいずれか1以上、および任意の組合せを含み得る。
例1において、音声認識のための方法は、入力を用いて音声信号を受信する工程を含む。本方法は、前記音声信号を複数の聴覚テストセグメントに分割する工程を更に含む。本方法は、各前記聴覚テストセグメントから1組の音響特徴を抽出する工程を更に含む。本方法は、前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程を更に含む。本方法は、前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程を更に含む。
例2は、例1の主題を含み、前記深層ニューラルネットワークの間接的適応を行う前記工程が、各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを含む。
例3は、例1および2のいずれかの主題を含み、本方法が、前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程を更に含む。
例4は、例1、2、および3のいずれかの主題を含み、前記特徴空間変換が特徴空間最尤線形回帰変換である。
例5は、例1、2、3、および4のいずれかの主題を含み、前記1組の音響特徴が、対応する前記聴覚テストセグメントの音響特性の定量的尺度を各特徴ベクトルが含む1組の特徴ベクトルを含む。
例6は、例1、2、3、4、および5のいずれかの主題を含み、前記音響特性の定量的尺度が、ガンマトーンフィルタバンクエネルギー、正規化された変調係数、メルフィルタバンクエネルギー、およびメル周波数ケプストラム係数のうちの少なくとも1つを含む。
例7は、例1、2、3、4、5、および6のいずれかの主題を含み、前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる。
例8は、例1、2、3、4、5、6、および7のいずれかの主題を含み、本方法が、前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程を更に含む。
例9は、例1、2、3、4、5、6、7、および8のいずれかの主題を含み、前記1組の深層オートエンコーダボトルネック特徴が、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる。
例10は、例1、2、3、4、5、6、7、8、および9のいずれかの主題を含み、前記深層ニューラルネットワークの直接的適応を行う前記工程が、前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程とを含む。
例11は、例1、2、3、4、5、6、7、8、9、および10のいずれかの主題を含み、前記深層オートエンコーダが、音声表記された音声信号を用いて、平均二乗誤差逆伝搬を用いて事前トレーニングされる。
例12は、例1、2、3、4、5、6、7、8、9、10、および11のいずれかの主題を含み、前記深層ニューラルネットワークが、畳み込みニューラルネットワーク、時間畳み込みニューラルネットワーク、および時間周波数畳み込みニューラルネットワークのうちの1つである。
例13において、音声認識システムは、音声信号を受信するよう構成された入力を含む。本音声認識システムは、プロセッサと、該プロセッサによって実行可能な指示を有するメモリであって、前記プロセッサに、前記入力を用いて前記音声信号を受信する工程と、前記音声信号を複数の聴覚テストセグメントに分割する工程と、各前記聴覚テストセグメントから1組の音響特徴を抽出する工程と、前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程と、前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程とを行わせる指示を有するメモリとを更に含む。本音声認識システムは、前記仮説を送信するよう構成された出力を更に含む。
例14は、例13の主題を含み、前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる。
例15は、例13および14のいずれかの主題を含み、前記深層ニューラルネットワークの間接的適応を行うときに、前記プロセッサが、各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを行うよう構成される。
例16は、例13、14、および15のいずれかの主題を含み、前記プロセッサが、前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程を行うよう更に構成される。
例17は、例13、14、15、および16のいずれかの主題を含み、前記特徴空間変換が特徴空間最尤線形回帰変換である。
例18は、例13、14、15、16、および17のいずれかの主題を含み、前記プロセッサが、前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程を行うよう更に構成される。
例19は、例13、14、15、16、17、および18のいずれかの主題を含み、前記1組の深層オートエンコーダボトルネック特徴が、前記プロセッサによって、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる。
例20は、例13、14、15、16、17、18、および19のいずれかの主題を含み、前記深層ニューラルネットワークの直接的適応を行う前記工程が、前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程とを含む。
100 システム
102 入力
104 プロセッサ
106 メモリ
110 聴覚システム
112 ストレージサーバ
114 データベース
116 非一過性のコンピュータ可読媒体
200 ASRシステム
201 発話
202 特徴抽出モジュール
203 特徴ベクトル
204 ニューラルネットワークモジュール
206 音響モデル
208 辞書
210 言語モデル
211 仮説
400 深層ニューラルネットワーク(DNN)
500 深層オートエンコーダ(DAE)
600 ニューラルネットワーク(NN)システム
900 時間周波数畳み込みニューラルネットワーク(TFCNN)

Claims (19)

  1. 音声認識のための方法であって、
    入力を用いて音声信号を受信する工程と、
    前記音声信号を複数の聴覚テストセグメントに分割する工程と、
    各前記聴覚テストセグメントから1組の音響特徴を抽出する工程と、
    前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程と、
    前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程と
    を含み、前記深層ニューラルネットワークの間接的適応を行う前記工程が、
    各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
    前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを含むことを特徴とする方法。
  2. 前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程を更に含む、請求項記載の方法。
  3. 前記特徴空間変換が特徴空間最尤線形回帰変換である、請求項記載の方法。
  4. 前記1組の音響特徴が、対応する前記聴覚テストセグメントの音響特性の定量的尺度を各特徴ベクトルが含む1組の特徴ベクトルを含む、請求項1記載の方法。
  5. 前記音響特性の定量的尺度が、ガンマトーンフィルタバンクエネルギー、正規化された変調係数、メルフィルタバンクエネルギー、およびメル周波数ケプストラム係数のうちの少なくとも1つを含む、請求項記載の方法。
  6. 前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる、請求項1記載の方法。
  7. 前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程
    を更に含む、請求項記載の方法。
  8. 前記1組の深層オートエンコーダボトルネック特徴が、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる、請求項記載の方法。
  9. 前記深層ニューラルネットワークの直接的適応を行う前記工程が、
    前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、
    前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程と
    を含む、請求項記載の方法。
  10. 前記深層オートエンコーダが、音声表記された音声信号を用いて、平均二乗誤差逆伝搬を用いて事前トレーニングされる、請求項記載の方法。
  11. 前記深層ニューラルネットワークが、畳み込みニューラルネットワーク、時間畳み込みニューラルネットワーク、および時間周波数畳み込みニューラルネットワークのうちの1つである、請求項1記載の方法。
  12. 音声認識システムにおいて、
    音声信号を受信するよう構成された入力と、
    プロセッサと、
    前記プロセッサによって実行可能な指示を有するメモリであって、前記プロセッサに、
    前記入力を用いて前記音声信号を受信する工程と、
    前記音声信号を複数の聴覚テストセグメントに分割する工程と、
    各前記聴覚テストセグメントから1組の音響特徴を抽出する工程と、
    前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程と、
    前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程と
    を行わせる指示を有するメモリと、
    前記仮説を送信するよう構成された出力と
    を含み、前記深層ニューラルネットワークの間接的適応を行う前記工程が、
    各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
    前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを含むことを特徴とする音声認識システム。
  13. 前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる、請求項12記載の音声認識システム。
  14. 前記深層ニューラルネットワークの間接的適応を行うときに、前記プロセッサが、
    各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
    前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程と
    を行うよう構成される、請求項13記載の音声認識システム。
  15. 前記プロセッサが、
    前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程
    を行うよう更に構成される、請求項14記載の音声認識システム。
  16. 前記特徴空間変換が特徴空間最尤線形回帰変換である、請求項15記載の音声認識システム。
  17. 前記プロセッサが、
    前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程
    を行うよう更に構成される、請求項13記載の音声認識システム。
  18. 前記1組の深層オートエンコーダボトルネック特徴が、前記プロセッサによって、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる、請求項17記載の音声認識システム。
  19. 前記深層ニューラルネットワークの直接的適応を行う前記工程が、
    前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、
    前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程と
    を含む、請求項18記載の音声認識システム。
JP2018549245A 2016-03-22 2017-03-22 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 Active JP6979028B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662311717P 2016-03-22 2016-03-22
US62/311,717 2016-03-22
PCT/US2017/023638 WO2017165551A1 (en) 2016-03-22 2017-03-22 Systems and methods for speech recognition in unseen and noisy channel conditions

Publications (2)

Publication Number Publication Date
JP2019514046A JP2019514046A (ja) 2019-05-30
JP6979028B2 true JP6979028B2 (ja) 2021-12-08

Family

ID=59900853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018549245A Active JP6979028B2 (ja) 2016-03-22 2017-03-22 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法

Country Status (3)

Country Link
US (1) US11217228B2 (ja)
JP (1) JP6979028B2 (ja)
WO (1) WO2017165551A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11217228B2 (en) 2016-03-22 2022-01-04 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
JP6966803B2 (ja) * 2017-11-28 2021-11-17 国立研究開発法人産業技術総合研究所 モニタリング対象機器の異常発生予兆検知方法及びシステム
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
US20210073645A1 (en) * 2018-01-10 2021-03-11 Sony Corporation Learning apparatus and method, and program
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
EP3528432B1 (en) * 2018-02-16 2020-09-02 Nokia Solutions and Networks Oy Method and apparatus for monitoring a telecommunication network
JP7059695B2 (ja) * 2018-03-01 2022-04-26 コニカミノルタ株式会社 学習方法および学習装置
JP7109771B2 (ja) * 2018-03-12 2022-08-01 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル
CN108922560B (zh) * 2018-05-02 2022-12-02 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
US11645467B2 (en) * 2018-08-06 2023-05-09 Functionize, Inc. Training a system to perform a task with multiple specific steps given a general natural language command
US11276413B2 (en) * 2018-10-26 2022-03-15 Electronics And Telecommunications Research Institute Audio signal encoding method and audio signal decoding method, and encoder and decoder performing the same
KR20200051278A (ko) 2018-11-05 2020-05-13 삼성전자주식회사 인공 신경망에서의 작업 관리 방법 및 이를 포함하는 시스템
KR102316537B1 (ko) 2019-06-21 2021-10-22 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR102688685B1 (ko) * 2019-07-30 2024-07-25 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
JP7290507B2 (ja) * 2019-08-06 2023-06-13 本田技研工業株式会社 情報処理装置、情報処理方法、認識モデルならびにプログラム
US11341945B2 (en) * 2019-08-15 2022-05-24 Samsung Electronics Co., Ltd. Techniques for learning effective musical features for generative and retrieval-based applications
CN110867181B (zh) * 2019-09-29 2022-05-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
EP3876054A1 (en) * 2020-03-05 2021-09-08 Siemens Aktiengesellschaft Methods and systems for workpiece quality control
CN112016038B (zh) * 2020-08-03 2023-07-28 广西大学 一种超超临界燃煤锅炉高温再热器炉外壁温预测方法
CN111968635B (zh) * 2020-08-07 2024-03-05 北京小米松果电子有限公司 语音识别的方法、装置及存储介质
CN116997962A (zh) * 2020-11-30 2023-11-03 杜比国际公司 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN112562716A (zh) * 2020-12-03 2021-03-26 兰州交通大学 基于神经网络的语音增强方法、装置、终端和介质
CN114550706B (zh) * 2022-02-21 2024-06-18 苏州市职业大学 基于深度学习的智慧校园语音识别方法
FR3135890A1 (fr) * 2022-05-25 2023-12-01 My Medical Assistant Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
US20240055012A1 (en) * 2022-08-15 2024-02-15 Mitsubishi Electric Research Laboratories, Inc. Method and System for Reverberation Modeling of Speech Signals

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185184A (ja) 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JP4543644B2 (ja) * 2003-09-16 2010-09-15 富士ゼロックス株式会社 データ認識装置
US8103646B2 (en) * 2007-03-13 2012-01-24 Microsoft Corporation Automatic tagging of content based on a corpus of previously tagged and untagged content
US9524730B2 (en) 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
JP5777178B2 (ja) 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9373324B2 (en) * 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US10360901B2 (en) 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
US10552730B2 (en) * 2015-06-30 2020-02-04 Adobe Inc. Procedural modeling using autoencoder neural networks
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US11217228B2 (en) 2016-03-22 2022-01-04 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
US9984682B1 (en) * 2016-03-30 2018-05-29 Educational Testing Service Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems

Also Published As

Publication number Publication date
JP2019514046A (ja) 2019-05-30
US11217228B2 (en) 2022-01-04
US20200168208A1 (en) 2020-05-28
WO2017165551A1 (en) 2017-09-28

Similar Documents

Publication Publication Date Title
JP6979028B2 (ja) 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
Malik et al. Automatic speech recognition: a survey
US11132992B2 (en) On-device custom wake word detection
Li et al. An overview of noise-robust automatic speech recognition
US11158305B2 (en) Online verification of custom wake word
US9640186B2 (en) Deep scattering spectrum in acoustic modeling for speech recognition
US9466292B1 (en) Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
Toledano et al. Multi-resolution speech analysis for automatic speech recognition using deep neural networks: Experiments on TIMIT
Wazir et al. Spoken Arabic digits recognition using deep learning
US11315548B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
WO2019240228A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US20230186905A1 (en) System and method for tone recognition in spoken languages
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Nivetha A survey on speech feature extraction and classification techniques
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review
Mitra et al. Speech recognition in unseen and noisy channel conditions
JP7423056B2 (ja) 推論器および推論器の学習方法
Bawa et al. Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
Jannu et al. An Overview of Speech Enhancement Based on Deep Learning Techniques
Saha Development of a bangla speech to text conversion system using deep learning
US11670292B2 (en) Electronic device, method and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210414

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211112

R150 Certificate of patent or registration of utility model

Ref document number: 6979028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150