JP2020503570A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2020503570A
JP2020503570A JP2019556085A JP2019556085A JP2020503570A JP 2020503570 A JP2020503570 A JP 2020503570A JP 2019556085 A JP2019556085 A JP 2019556085A JP 2019556085 A JP2019556085 A JP 2019556085A JP 2020503570 A JP2020503570 A JP 2020503570A
Authority
JP
Japan
Prior art keywords
network
channel
mask
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019556085A
Other languages
English (en)
Other versions
JP6808069B2 (ja
Inventor
渡部 晋治
晋治 渡部
翼 落合
翼 落合
堀 貴明
貴明 堀
ハーシェイ、ジョン・アール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020503570A publication Critical patent/JP2020503570A/ja
Application granted granted Critical
Publication of JP6808069B2 publication Critical patent/JP6808069B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声認識システムが、音声信号を含む音響信号を受信する複数のマイクロフォンと、音響信号からマルチチャネル入力を生成する入力インターフェースと、マルチチャネル音声認識ネットワークを記憶する1つ以上のストレージであって、マルチチャネル音声認識ネットワークは、マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、時間周波数マスクを用いてマルチチャネル入力から参照チャネル入力を選択して、この参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークとを備える。本システムは、1つ以上のストレージと、1つ以上のストレージと関連してマルチチャネル音声認識ネットワークを用いて、マルチチャネル入力からテキストを生成する1つ以上のプロセッサと、テキストをレンダリングする出力インターフェースとを更に備える。

Description

本発明は、包括的には、音声処理に関し、より詳細には、マルチチャネル音声認識に関する。
既存の自動音声認識(ASR)システムは、音響モデル、音声学モデル、及び言語モデルを含む、別個のコンポーネントの複雑なハイブリッドに基づいている。そのようなシステムは、通常、隠れマルコフモデルと組み合わされたディープニューラルネットワーク音響モデルに基づくことで、言語及び音声学のコンテキスト依存状態、及び音響信号とのそれらの時間的アライメント(DNN−HMM)を表す。
一代替形態として、ストリームライン音声認識パラダイムが、研究上の多大な関心を集めている。このパラダイムは、上記のハイブリッドアーキテクチャを、ニューラルネットワークに包含することによって、このアーキテクチャを簡略化する。例えば、アテンション(attention)ベースエンコーダ−デコーダフレームワークは、再帰型ニューラルネットワーク(RNN)のセットを用いてこれらのコンポーネントの全てを統合し、これは、音響特徴シーケンスから文字ラベルシーケンスにマッピングする。非特許文献1を参照されたい。
しかしながら、既存のエンドツーエンドフレームワークは、雑音混入環境において良好な性能を達成するためにクリーンな音声にのみ焦点を置いており、マルチチャネル音響信号に適用することができない。
Chorowski「End-to-end Continuous Speech Recognition using Attention-based Recurrent NN」(2014)
いくつかの実施形態の一目的は、音声を認識し、認識された音声を、複数のマイクロフォンのマルチチャネル音響信号からテキストに変換するのに適した自動音声認識(ASR)のためのシステム及び方法を提供することである。実施形態によれば、マルチチャネルエンドツーエンド音声認識フレームワークは、音声信号を有するマルチチャネル音響信号をテキストに直接変換するようにトレーニングされる。この場合、マルチチャネルエンドツーエンドフレームワークは、単語/文字誤り率(WER/CER)等の最終ASR目標に基づいて、ビームフォーミングを含む推論手順全体を最適化する。
音声認識タスクとは独立して信号レベル損失関数に基づいて遅延和及びフィルタリング和を最適化する従来のビームフォーミング方法とは異なり、本発明のいくつかの実施形態によるマルチチャネルエンドツーエンドフレームワークは、ニューラルビームフォーミングメカニズムを、微分可能コンポーネントとして組み込むことで、エンドツーエンドシステム内のマルチチャネル音声強調の共同最適化を可能にして、ASR目標を改善する。換言すれば、いくつかの実施形態によるマルチチャネルエンドツーエンドフレームワークは、まず時間周波数マスクを推定するネットワークを含み、これらのマスクは、音声信号及び雑音信号に関連したパワースペクトル密度(PSD)行列に関する予想音声統計値及び雑音統計値を計算するのに用いられる。この場合、音声統計値及び雑音統計値は、時間不変特徴である。これらの統計値を用いて、フィルタ係数がMVDR(最小分散無歪応答)形式化に基づいて計算され、その後、推定されたフィルタ係数は、マルチチャネル雑音混入音声信号に適用されて、音声信号が強調される。
いくつかの実施形態の別の目的は、雑音混入環境において音声を認識するのに適した音声認識システムを提供することである。いくつかの実施形態の別の目的は、エンドツーエンド方式においてトレーニングされたニューラルネットワークを用いて音声認識を実行することである。
いくつかの実施形態は、ビームフォーミングを用いるマルチチャネル音声強調技法により、背景雑音の存在において音声認識を改善することができるという認識に基づいている。さらに、ビームフォーミングは、ビームフォーミングを微分可能にするニューラルネットワークを用いて実行することができることが認識された。したがって、ビームフォーミングニューラルネットワークは、クリーンな音声を認識するようにトレーニングされたニューラルネットワークと統合することができる。そのようにして、音声信号を強調するように設計されたニューラルネットワークは、音声を認識するように設計されたニューラルネットワークと組み合わされることで、サブネットワークの組み合わせによって形成される単一ニューラルネットワークを含むマルチチャネルエンドツーエンド音声認識システムが形成される。サブネットワークは、マスク推定ネットワーク、フィルタ推定ネットワーク、ビームフォーマネットワーク、アテンション(attention)ベースエンコーダ−デコーダネットワークを含むエンコーダ−デコーダネットワークを含むことができる。
いくつかの実施形態では、ビームフォーマネットワークは、マスク推定ネットワーク及びフィルタ推定ネットワークを含むことができる。さらに、ビームフォーマネットワークは、時間周波数マスクを用いて複数のマイクロフォンからのマルチチャネル入力から参照チャネル入力を選択して、この参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングすることができる。
いくつかの実施形態は、これらのネットワークを別個にトレーニングすることができ、例えば、ビームフォーミングニューラルネットワークは、雑音混入音声からクリーンな音声を生成するようにトレーニングすることができ、音声認識ニューラルネットワークは、クリーンな音声を認識してテキストに変換するようにトレーニングすることができるという理解に基づいている。しかしながら、そのようなトレーニングは、クリーンな音声を表すグラウンドトゥルースデータを要求する。例えば、遅延和及びフィルタリング和等のビームフォーミング技法は、音声認識タスクとは独立して、信号レベル損失関数に基づいて最適化することができることが認識される。
いくつかの実施形態は、ニューラルビームフォーミングメカニズムを、微分可能コンポーネントとして組み込むことで、エンドツーエンドシステム内のマルチチャネル音声強調の共同最適化を可能にして、ASR目標を改善する。そのようにして、いくつかの実施形態によるマルチチャネルエンドツーエンド音声認識システムは、音声信号を含む、雑音混入背景に適応可能である。例えば、いくつかの実施形態は、双方のサブネットワークをエンドツーエンド方式において共同でトレーニングして、雑音混入音声を認識してテキストに変換する。
そのような共同トレーニングは、マルチチャネルエンドツーエンド音声認識システムの性能を改善することができる。なぜならば、マルチチャネルエンドツーエンドフレームワークは、単語/文字誤り率(WER/CER)等の最終ASR目標に基づいて、ビームフォーミングを含む推論手順全体を最適化することを可能にするためである。
本発明の実施形態によれば、ビームフォーマネットワーク及びマスク推定ネットワークを含むマルチチャネルエンドツーエンド音声認識システムは、中央処理装置(CPU)使用量又は画像処理装置(GPU)使用量、電力消費、及び/又はネットワーク帯域幅使用量を低減することができる。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。
本発明のいくつかの実施形態による、音声認識のための音声認識システムのブロック図である。 本発明のいくつかの実施形態による、アテンション(attention)ベースエンコーダ−デコーダネットワークを示すブロック図である。 本発明のいくつかの実施形態による、フィルタ推定ネットワークを用いたビームフォーミングを示すブロック図である。 本発明のいくつかの実施形態による、マスク推定ネットワーク及びMVDR形式化を用いたビームフォーミングを示すブロック図である。 本発明の実施形態による、図3Bのビームフォーミングにおいてフィルタ係数を計算する全体手順を示すブロック図である。 本発明の実施形態による、CHiME−4コーパスについての文字誤り率を示す実験結果を示す図である。 本発明の実施形態による、3つのシステムの認識性能の比較を示す、AMIコーパスについての実験結果を示す図である。 本発明の実施形態による、CHiME−4検証精度の影響を示す実験結果を示す図である。 本発明の実施形態による、第5のチャネル雑音混入信号を有する、CHiME−4発話の対数振幅スペクトログラムを示す図である。 本発明の実施形態による、BeamformItを用いて強調された信号の対数振幅スペクトログラムを示す図である。 本発明の実施形態による、MASK_NET(ATT)を用いて強調された信号の対数振幅スペクトログラムを示す図である。 本発明の実施形態による、エンドツーエンドASRシステムを示すブロック図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
図1は、いくつかの実施形態による、音声認識のための音声認識システム100のブロック図を示している。システム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な自動音声認識(ASR)ネットワーク、エンコーダ−デコーダネットワーク110、ビームフォーマネットワーク112、マスク推定ネットワーク114、及びフィルタ推定ネットワーク115に関する命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、画像処理装置(GPU)、コンピューティングクラスター、又は任意の数の他の構成とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の好適なメモリシステムを含むことができる。メモリ104は、ハードドライブ、光学ドライブ、サムドライブ(thumbdrive)、ドライブのアレイ、又はこれらの任意の組み合わせを含むこともできる。プロセッサ102は、バス106を通して、1つ以上の入力及び出力インターフェース/デバイスに接続される。
メモリ104は、マルチチャネル音声信号をテキストに変換するようにトレーニングされたニューラルネットワーク108を記憶し、記憶された命令を実行するプロセッサ102は、メモリ104から索出されたニューラルネットワーク108を用いて音声認識を実行する。ニューラルネットワーク108は、マルチチャネル雑音混入音声信号をテキストに変換するようにトレーニングされる。ニューラルネットワーク108は、音声信号を強調するように設計されるとともにマルチチャネル信号から単一チャネル信号を選択するようにトレーニングされた第1のニューラルサブネットワークとしてアテンション(attention)ベースエンコーダ−デコーダASRネットワーク110を含むことができる。ニューラルネットワーク108は、第2のサブネットワークとして、ビームフォーマネットワーク112、マスク推定ネットワーク114及びフィルタ推定ネットワーク115も含み、この第2のサブネットワークにおいて、ネットワーク114及び115の双方は、音声認識のためにエンコーダ−デコーダネットワークネットワーク110と統合されるように設計するとともに、マルチチャネル信号の音声特徴からテキストを認識するようにトレーニングすることができる。さらに、正確な音声認識を実行するために、ビームフォーマネットワーク112を用いて、複数のマイクロフォン120から参照マイクを決定することで、マルチチャネル音声信号から主音声信号を決定することができる。第1のサブネットワーク及び第2のサブネットワークは、共同でトレーニングして、マルチチャネルエンドツーエンド音声認識システム100を形成することができる。
1つの実施形態では、ニューラルネットワーク108は、第2のサブネットワークによって用いるべき単一チャネル信号から音声特徴を抽出するように構成された特徴抽出器(図示せず)も含む。特徴抽出器は、微分可能関数(differentiable function)であり、したがって、単一のエンドツーエンドニューラルネットワークに接続することができる。微分可能関数の例として、チャネル信号の振幅のMel関数、及びチャネル信号の振幅のbark関数が挙げられる。
1つの実施態様では、微分可能関数は、チャネル信号から音声特徴を抽出するようにトレーニングされた第3のニューラルサブネットワークである。この実施態様では、第3のサブネットワークは、第1のサブネットワーク及び第2のサブネットワークと共同でトレーニングされる。
微分可能関数は、関数の出力が所与の入力の目標出力に近づくように勾配降下法を用いて最適化することができる。この関数は、全ての入力サンプルが可能な限り正確に対応する目標サンプルにマッピングされるように、対にされる入力サンプル及び目標出力サンプルを用いて未知のマッピング関数を近似することもできる。
微分可能関数の編成もまた微分可能であるので、カスケード接続された処理モジュールを組み合わせることでこれらの処理モジュールを共同で最適化することができ、これらの処理モジュールの各々は、微分可能関数として設計される。
ニューラルネットワークは、微分可能関数である。本発明では、複数のニューラルネットワークを含む微分可能関数を用いて、全てのエンドツーエンドマルチチャネル音声認識のコンポーネントを実施することができる。
システム100は、マルチチャネル音声信号を受け取る入力インターフェースと、認識されたテキストをレンダリングする出力インターフェースとを備える。入力インターフェースの例として、サウンドをマルチチャネル音声信号138に変換する複数のマイクロフォン120が挙げられる。付加的又は代替的に、入力インターフェースは、システム100を、バス106を通してネットワーク136に接続するように適合されたネットワークインターフェースコントローラー(NIC)130を含むことができる。ネットワーク136を通して、マルチチャネル音声信号138をダウンロードして更なる処理のために記憶することができる。
出力インターフェースの例として、ディスプレイインターフェース122、撮像インターフェース126、及びプリンタインターフェース130が挙げられる。例えば、システム100は、システム100をディスプレイデバイス124に接続するように適合されたディスプレイインターフェース122に、バス106を通してリンクすることができ、ここで、ディスプレイデバイス124は、とりわけ、コンピューターモニター、カメラ、テレビジョン、プロジェクター、又はモバイルデバイスを含むことができる。
付加的又は代替的に、システム100は、このシステムを撮像デバイス128に接続するように適合された撮像インターフェース126に接続することができる。撮像デバイス128は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム(webcam)、又はこれらの任意の組み合わせを含むことができる。付加的又は代替的に、システム100は、システム100を印刷デバイス132に接続するように適合されたプリンタインターフェース131に接続することができる。印刷デバイス132は、とりわけ、液体インクジェットプリンタ、固体インクプリンタ、大規模商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
図2は、実施形態による、文字シーケンス(テキスト)を生成するように設計されたアテンション(attention)ベースエンコーダ−デコーダネットワーク200の概略図を示している。これらの実施形態では、ネットワーク200は、エンコーダネットワーク(エンコーダ)210と、アテンション(attention)ベースデコーダニューラルネットワーク(アテンション(attention)デコーダ)240とを含む。エンコーダネットワーク210は、入力シーケンスO 220を高水準特徴シーケンスH 230に変換し、次に、デコーダネットワーク240は、アテンション(attention)メカニズムを通して文字シーケンスY 245を生成する。
具体的には、アテンション(attention)ベースエンコーダ−デコーダニューラルネットワーク200は、可変長のシーケンスの処理を可能にする。エンコーダ−デコーダニューラルネットワークは、本明細書においてそれぞれエンコーダ210及びデコーダ240と称される2つの再帰型ニューラルネットワーク(RNN)と、エンコーダ及びデコーダを接続するアテンション(attention)メカニズム230とを含む。
音声特徴のT長シーケンス
Figure 2020503570
を所与とすると、ネットワーク200は、出力ラベルのN長シーケンス(文字シーケンス)
Figure 2020503570
を生成する。
いくつかの実施形態では、音声特徴oは、入力時間ステップtにおけるD次元特徴ベクトル(例えば、対数メルフィルタバンク)であり、yは、ラベルセットVにおける出力時間ステップnにおけるラベルシンボル(例えば、文字)である。
まず、エンコーダ210は、入力シーケンスo 220を、L長高水準特徴シーケンス
Figure 2020503570
に変換し(225)、ここで、hは、エンコーダの最上層の時間ステップlにおけるD次元状態ベクトル227である。この場合、サブサンプリング技法が、所定のサンプリング比に従って入力シーケンスo 220の長さを削減するように適用される。
いくつかの実施形態では、エンコーダは、双方向長期短期記憶(BLSTM)再帰型ネットワークである。入力シーケンス長を削減するために、いくつかの実施態様は、いくつかの層にサブサンプリング技法を適用する。したがって、lは、tからサブサンプリングされたフレームインデックスを表しており、Lは、Tより短い。
次に、アテンション(attention)デコーダネットワーク240のアテンション(attention)メカニズムは、L次元アテンション(attention)重みベクトルa∈[0,1] 235に基づいて、全てのエンコーダ出力Hを統合して、D次元コンテキストベクトル
Figure 2020503570
にし、これは、出力時間ステップnにおけるエンコーダ出力のソフトアライメント(soft alignment)を表している。例えば、1つの実施形態は、aを用いたロケーションベースアテンション(attention)メカニズムを用い、a及びcは、以下のように定式化される。
Figure 2020503570
ここで、
Figure 2020503570
は、トレーニング可能重み行列であり、
Figure 2020503570
は、トレーニング可能バイアスベクトルであり、
Figure 2020503570
は、トレーニング可能畳み込みフィルタである。
Figure 2020503570
は、nにおける上位デコーダネットワークから得られたD次元隠れ状態ベクトルであり、αは、畳み込み演算を示す。
その後、アテンション(attention)デコーダネットワーク240は、以下のように、隠れ状態sを増分的に更新し、出力ラベルy 245を生成する。
Figure 2020503570
ここで、Generate(・)関数及びUpdate(・)関数は、それぞれ、フィードフォワードネットワーク及びLSTMベース再帰型ネットワークから構成される。
ここで、これらの手順を以下のように要約することができる。
Figure 2020503570
ここで、Encoder(・)=BLSTM(・)であり、Attention(・)は、式(1)〜式(3)に対応し、Decoder(・)は、式(4)及び式(5)に対応する。ここで、start−of−sentence(sos)250及びend−of−sentence(eos)255のための特別なトークンが、ラベルセットVに追加される。デコーダは、(sos)ラベル250を用いて再帰計算を開始し、(eos)ラベル255が送出されるまで出力ラベル245を生成し続ける。
1つの実施形態では、クロスエントロピー基準に基づいて、損失関数は、以下のように式(6)を用いて規定される。
Figure 2020503570
ここで、Yは、出力ラベルのシーケンス全体のグラウンドトゥルースであり、
Figure 2020503570
は、出力時間ステップn−1までのそのサブシーケンスのグラウンドトゥルースである。
したがって、エンコーダ210及びアテンション(attention)デコーダ240を含むネットワーク全体は、シーケンス全体のグラウンドトゥルースを用いて正しいラベルシーケンスを生成するように最適化することができる。
ニューラルビームフォーマ(ビームフォーマネットワーク)
ニューラルビームフォーマが以下において詳細に記述される。また、ニューラルビームフォーマは、ビームフォーマネットワークと称される場合がある。ビームフォーミングは、複数のマイクロフォンの信号から、参照マイクロフォン信号を選択する手順である。
ニューラルビームフォーマは、エンコーダ−デコーダネットワークと統合することができる。本開示の一実施形態に従って、マルチチャネルニューラル処理における大幅な計算複雑度の低減、計算パワーの低減を達成するために、時間領域ビームフォーマを用いるのではなく、周波数領域ビームフォーマを用いることができる。したがって、ビームフォーマネットワークの各々は、周波数領域データセットを用いる。これは、中央処理装置(CPU)使用量又は画像処理装置(GPU)使用量、電力消費、及び/又はネットワーク帯域幅使用量を低減することができる。
例えば、いくつかの実施態様は、時間領域ビームフォーマではなく周波数領域ビームフォーマを用いることで、マルチチャネルニューラル処理における計算複雑度の低減を達成する。
周波数領域表現において、フィルタリング和ビームフォーマは、以下のように線形フィルタを適用することによって強調された信号を得る。
Figure 2020503570
ここで、xt、f、c∈Cは、時間周波数ビン(t,f)における第cのチャネル雑音混入信号のSTFT係数である。gt,f,c∈Cは、対応するビームフォーミングフィルタ係数である。
Figure 2020503570
は、強調されたSTFT係数であり、Cは、チャネルの数である。
いくつかの実施形態は、式(11)を用いて異なるタイプのニューラルビームフォーマを実施する。第1のタイプは、フィルタ推定ニューラルネットワークを実施し、第2のタイプは、マスク推定ニューラルネットワークを実施する。フィルタ推定ニューラルネットワークとマスク推定ニューラルネットワークとの間の差のうちの1つは、フィルタ係数gt,f,cを計算する方法である。
フィルタ推定ネットワーク
図3Aは、本発明のいくつかの実施形態による、フィルタ推定ネットワーク300を用いたビームフォーミングを示すブロック図である。この場合、フィルタ推定ネットワーク300は、いくつかの実施形態に従って、フィルタ係数を直接推定する。例えば、1つの実施形態は、ネットワークの出力として、時変フィルタ係数
Figure 2020503570
を直接推定する。Fは、STFT特徴の次元である。
フィルタ推定ネットワーク300は、時間ステップごとに複素値フィルタ係数の実部及び虚部を予測するのに単一の実数値BLSTMネットワーク310を用いる。したがって、1つの実施態様は、複数の(2×C)出力層を導入して、チャネルごとにフィルタ係数の実部及び虚部を別個に計算する。その場合、ネットワークは、以下のように、第cのチャネルについて時間ステップtにおける時変フィルタ係数
Figure 2020503570
を出力する。
Figure 2020503570
ここで、
Figure 2020503570
は、BLSTMネットワークのD次元出力ベクトルのシーケンスである。
Figure 2020503570
は、BLSTMネットワークについての2FC次元実数値ベクトルの入力特徴である。これは、全てのチャネルにおける全てのSTFT係数の実部及び虚部を連結することによって得られる。
Figure 2020503570
及び
Figure 2020503570
は、フィルタ係数の実部及び虚部であり、
Figure 2020503570
及び
Figure 2020503570
は、第cのチャネルについての出力層の重み行列であり、そして、
Figure 2020503570
及び
Figure 2020503570
は、それらの対応するバイアスベクトルである。推定されたフィルタgt、cを用いて、強調されたSTFT係数
Figure 2020503570
は、式(11)に基づいて得られる。
この手法は、その定式化に起因していくつかの起こり得る問題を有する。第1の問題は、推定されたフィルタ
Figure 2020503570
の高い融通性であり、このフィルタは、少数の観測値から推定される多数の非制約の変数(2TFC)から構成される。これにより、トレーニング困難性及びオーバーフィッティング等の問題が引き起こされる。第2の問題は、ネットワーク構造がチャネルの数及び順序に依存することである。したがって、マイクロフォン構成を変更する場合、新たなフィルタ推定ネットワークをトレーニングしなければならない。
マスク推定ネットワーク
図3Bは、本発明のいくつかの実施形態による、BLSTMマスク360及びMVDR形式化モジュール370を含むマスク推定ネットワーク350を用いたビームフォーミングを示すブロック図である。この場合、マスク推定ネットワーク350は、BLSTM360を用いて時間周波数マスクを推定し、最小分散無歪応答(MVDR)形式化に基づいて、MVDRモジュール370を用いてフィルタ係数を求める。マスク推定ネットワークは、根拠が確かであるアレイ信号処理原理に基づいて、推定されたフィルタを制約することが有利である。
1つの実施形態では、ネットワークは、時間周波数マスクを推定し、これらの時間周波数マスクは、MVDR形式化に基づいて時間不変フィルタ係数
Figure 2020503570
を計算するのに用いられる。また、マスクベースのビームフォーミング手法は、雑音混入音声認識ベンチマークにおいて非常に良好な性能を達成した。したがって、本発明の1つの実施形態は、マスクベースのMDVRビームフォーマ(マスクベースのMVDRビームフォーマネットワーク)を使用し、ここで、全体手順は、後続のエンドツーエンド音声認識システムのための微分可能ネットワークとして定式化される。
一実施形態によるマスク推定ネットワーク350は、式(11)における時間不変フィルタ係数
Figure 2020503570
を以下のように計算する。
Figure 2020503570
ここで、Φ(f)∈CC×C及びΦ(f)∈CC×Cは、それぞれ、音声信号及び雑音信号についてのクロスチャネルパワースペクトル密度(PSD)行列(空間共分散行列としても知られる)である。u∈Rは、参照マイクロフォンを表すワンホットベクトルであり、Tr(・)は、行列トレース演算である。この定式は逆行列を含むものの、チャネルの数は比較的小さいので、フォワードパス及び導関数を効率的に計算することができることに留意されたい。
PSD行列は、時間周波数マスクに対する期待値を用いて以下のように推定される。
Figure 2020503570
ここで
Figure 2020503570
は、時間周波数ビンごとに観測された信号の空間ベクトルであり、
Figure 2020503570
及び
Figure 2020503570
は、それぞれ音声及び雑音についての時間周波数マスクである。†は、共役転置を表す。
マスク推定ネットワーク
図4は、本発明の一実施形態による、図3Bのビームフォーミングにおいてフィルタ係数を計算する全体手順を示すブロック図である。
この場合、マスク推定は、2つの実数値BLSTMネットワーク405及び410を用いる。BLSTMネットワーク405は、音声マスクを生成するために用いられ、BLSTMネットワーク410は、雑音マスクを生成するためのものである。BLSTMネットワーク405及び410の各々は、以下のように、それぞれステップS1及びS1’において音声信号及び雑音信号に関連した時間周波数マスクを出力する。
Figure 2020503570
ここで、
Figure 2020503570
は、第cのチャネルの入力STFTに対する音声マスクを得るための、BLSTMネットワークのD次元ベクトルの出力シーケンスである。
Figure 2020503570
は、雑音マスクのためのBLSTM出力シーケンスである。
Figure 2020503570
は、2F次元実数値ベクトルの入力特徴である。これは、第cのチャネルにおける全てのSTFT特徴の実部及び虚部を連結することによって得ることができる。
Figure 2020503570
及び
Figure 2020503570
は、それぞれ時間ステップtにおいて第cのチャネルごとの推定された音声マスク及び雑音マスクである。
Figure 2020503570
は、それぞれ最終的に音声マスク及び雑音マスクを出力するための出力層の重み行列であり、
Figure 2020503570
は、それらの対応するバイアスベクトルである。
チャネルごとに音声マスク及び雑音マスクを計算した後、平均マスクが以下のように得られる。
Figure 2020503570
これらの平均マスクは、式(16)及び式(17)において記述されたように、それぞれステップS2及びS2’においてPSD行列を推定するのに用いられる。PSD行列は、チャネル同士の間の相関情報を表す。3次元空間(例えば、部屋)において配置された複数のマイクロフォンから参照マイクロフォンを選択するために、音声信号に関連した空間相関がより有益であり、したがって、音声PSD行列Φ(f)のみをステップS3における特徴として用いる。さらに、時間平均状態ベクトル
Figure 2020503570
が、ステップS4において、音声マスク及び雑音マスクについてBLSTMネットワーク405及び410から抽出される。次のステップS5において、参照マイクロフォンは、式(15)に従って参照マイクロフォンベクトルuを用いて推定される。参照マイクロフォンベクトルuは、以下のセクションにおいて述べられるように、時間不変特徴ベクトルq及びPSD特徴ベクトルrからのものであることに留意されたい。ステップS5におけるアテンション(attention)ベースニューラルネットワーク415(アテンション(Attention)メカニズム)に基づく参照マイクロフォン(参照チャネル又は参照チャネル入力)の選択に続いて、ステップS6において、MVDR形式化に基づいてマスク推定ネットワーク420を用いて、フィルタ係数
Figure 2020503570
が計算される。ステップS6において計算されたフィルタ係数は、エンドツーエンドASRシステム430に出力されて、マルチチャネル入力
Figure 2020503570
からの音声認識が実行される。マルチチャネル入力の定式化手順が、以下で述べられる。
いくつかの場合、音声信号に関連したPSD行列は、音声統計値(speech statistics)と称される場合があり、雑音信号に関連したPSD行列は、雑音統計値(noise statistics)と称される場合がある。さらに、マイクロフォンは、3D空間において空間的に配置され、複数のマイクロフォンのうちの各々は、1つのチャネルに対応することができる。したがって、複数のマイクロフォンは、マルチチャネル信号を生成し、1つのマイクロフォンは、1つのチャネルを提供し、主チャネル信号(参照マイクロフォン)は、音声統計値、又は、音声及び雑音統計値を用いて選択することができる。音声及び雑音統計値は、時間不変特徴であるので、参照マイクロフォン(参照チャネル)選択プロセスは、時変信号処理と比較して簡略化することができることに留意されたい。
アテンション(attention)ベース参照選択
アテンション(attention)ベースエンコーダ−デコーダニューラルネットワークは、エンコーダニューラルネットワークとアテンション(attention)ベースデコーダニューラルネットワークとを含むことができ、このネットワークにおいて、エンコーダニューラルネットワーク及びデコーダニューラルネットワークは、再帰型ニューラルネットワーク(RNN)である。いくつかの場合、エンコーダニューラルネットワークは、エンコーダネットワークと称される場合があり、デコーダニューラルネットワークは、デコーダネットワークと称される場合がある。この場合、入力シーケンス長を削減するためにネットワーク内のいくつかの層にサブサンプリング技法が適用され、入力シーケンス長は、入力(入力データ)の数に関連する。エンコーダネットワークは、双方向長期短期記憶再帰型ネットワークを含むことができる。さらに、デコーダネットワークは、LSTMベース再帰型ネットワークをフィードフォワードネットワークとして含むことができる。
参照マイクロフォン選択をニューラルビームフォーマフレームワーク(ビームフォーマネットワーク)に組み込むために、実施形態は、アテンション(attention)メカニズム(アテンション(attention)ベースネットワークと称される、アテンション(attention)ベースニューラルネットワーク)から導出された式(15)におけるベクトルuのためにソフトマックスを用いる。この手法において、参照マイクロフォンベクトルuは、以下のように時間不変特徴ベクトルq及びrから推定される。
Figure 2020503570
ここで、
Figure 2020503570
は、トレーニング可能重みパラメーターであり、
Figure 2020503570
は、トレーニング可能バイアスベクトルである。βは、シャープニング係数(sharpening factor)である。2つのタイプの特徴、すなわち、1)式(18)及び式(20)における音声及び雑音マスクについてBLSTMネットワークから抽出された時間平均状態ベクトル
Figure 2020503570
、すなわち、
Figure 2020503570
と、2)アテンション(attention)メカニズムに空間情報を組み込むPSD特徴
Figure 2020503570
とが用いられる。以下の式
Figure 2020503570
は、rを計算する方法を表しており、ここで、
Figure 2020503570
は、式(16)における音声PSD行列Φ(f)の第cの行及び第c’の列におけるエントリである。PSD行列は、チャネル同士の間の相関情報を表す。参照マイクロフォンを選択するために、音声信号に関連した空間相関がより有益であり、したがって、音声PSD行列Φ(f)のみを特徴として用いる。
このマスク推定ベースMVDRビームフォーマにおいて、チャネルごとのマスクを、式(12)とは異なるように、同じBLSTMネットワークを用いて別個に計算することができ、マスク推定ネットワークは、チャネルとは独立していることに留意されたい。同様に、参照選択ネットワークもチャネルとは独立しており、ビームフォーマネットワークは、ネットワークを再トレーニングすることも再構成することもなく、チャネルの任意の数及び順序で入力信号に対処する。
マルチチャネルエンドツーエンドASR
マルチチャネルエンドツーエンド音声認識システムは、単一のニューラルアーキテクチャ内で異なる微分コンポーネントを統合する。例えば、マルチチャネルエンドツーエンド自動音声認識(ASR)システムの1つの実施態様は、音声強調部分としてニューラルビームフォーマを含むとともに、音声認識部分としてアテンション(attention)ベースエンコーダ−デコーダを含む。
マルチチャネル入力
Figure 2020503570
から出力ラベル
Figure 2020503570
のシーケンスを生成する全体手順は、以下のように定式化される。
Figure 2020503570
Enhance(・)は、フィルタ推定ネットワーク300又はマスク推定ネットワーク350を用いて、式(11)に基づいてニューラルビームフォーマによって実現される音声強調関数である。
Feature(・)は、特徴抽出関数である。この場合、正規化対数メルフィルタバンク変換を用いて、アテンション(attention)ベースエンコーダ−デコーダ200の入力として、強調されたSTFT係数
Figure 2020503570
から計算された
Figure 2020503570
を得る。
Figure 2020503570
ここで、p∈Rは、時間ステップtにおける強調された信号のパワースペクトルの実数値ベクトルであり、Mel(・)は、D×Fメル行列乗算の演算であり、Norm(・)は、平均が0及び分散が1になるような全体の平均及び分散の正規化の演算である。Encoder(・)、Attention(・)、及びDecoder(・)は、それぞれ、強調された対数メルフィルタバンクのような特徴
Figure 2020503570
のシーケンスを入力として用いて、式(7)、式(8)、及び式(9)において規定される。とりわけ、強調、特徴抽出、エンコーダ、アテンション(attention)、及びデコーダ等の全ての手順は、微分可能グラフを用いて接続される。したがって、実施形態は、推論全体を最適化して、正しいラベルシーケンスを生成することができる。エンドツーエンド方式におけるニューラルネットワーク108の共同トレーニングは、最適化を実行する。
共同トレーニング
いくつかの実施形態では、ニューラルネットワーク108は、エンドツーエンド方式においてトレーニングされることで、雑音混入マルチチャネル音声信号の認識と、雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減する。
ニューラルネットワークをトレーニングすることは、人工ニューラルネットワークネットワークにおける結合に関連付けられた重み値を計算することを伴う。そのために、本明細書においてそうではないことを明言されない限り、トレーニングは、全結合ネットワーク、補間及び畳み込みにおける結合のための重み値を電子的に計算することを含む。
例示の構成
いくつかの実施形態は、雑音混入音声信号及び強調された音声信号の双方のための入力特徴ベクトルとして、40次元対数メルフィルタバンク係数を用いる(D=40)。1つの実施形態は、エンコーダにおいて320個のセルを有する4層BLSTMを用いるとともに(D=320)、デコーダにおいて320個のセルを有する1層LSTMを用いる(D=320)。エンコーダにおいて、この実施形態は、第1の層及び第2の層の隠れ状態をサブサンプリングし、後続層の入力のために1つおきの隠れ状態を用いる。したがって、エンコーダの出力層における隠れ状態の数は、L=T/4に低減される。全てのBLSTM層の後、この実施形態は、320個のユニットを有する線形射影層を用いて、前方LSTM出力及び後方LSTM出力を組み合わせる。アテンション(attention)メカニズムの場合、幅100(D=100)の10個の中心畳み込みフィルタ(D=10)が用いられて、畳み込み特徴が抽出される。いくつかの実施態様は、アテンション(attention)内積次元を320として設定し(D=320)、シャープニング係数α=2を用いる。雑音混入環境において最適化をブーストするために、1つの実施形態は、共同コネクショニスト時系列分類(CTC:Connectionist Temporal Classification)アテンション(attention)マルチタスク損失関数を使用し、CTC損失重みを0.1として設定する。
復号の場合、いくつかの実施形態は、各出力ステップにおいてビームサイズ20でビーム探索法を用いて、計算コストを低減する。CTCスコアを用いて、0.1の重みを用いて仮説を再スコアリングすることもできる。1つの実施形態は、復号目標に長さペナルティ項を用いて、ペナルティ重みを0.3として設定する。いくつかの実施形態は、外部辞書又は言語モデルを何ら用いることなく純粋にエンドツーエンドセットアップを追求し、CERを評価メトリックとして用いた。
いくつかの実施態様は、256個のSTFT係数を用いており、オフセットは、10msのシフトを有する25ms幅ハミングウィンドウから計算された(F=257)。フィルタ推定ネットワーク及びマスク推定ネットワークの双方は、サブサンプリング技法を用いることなく、320個のセルを有する同様の3層BLSTM(D=320)を用いることができる。参照選択アテンション(attention)メカニズムの場合、いくつかの実施形態は、エンコーダ−デコーダネットワークのものと同じアテンション(attention)内積次元(D=320)及びシャープニング係数β=2を用いた。
共有される構成
いくつかの構成において、全てのパラメーターは、最適化のために勾配クリッピング(gradient clipping)を用いて、AdaDelta法を用いた一様分布の範囲[−0.1,0.1]で初期化される。いくつかの実施態様は、AdaDeltaハイパーパラメーターρ=0.95及びε=1−8を初期化する。バリデーションセットにわたる損失が劣化すると、これらの実施態様は、各後続のエポックにおいて、AdaDeltaハイパーパラメーターεに0.01を乗算することによって、このAdaDeltaハイパーパラメーターεを減少させる。例えば、トレーニング手順は、15個のエポックの後に停止することができる。トレーニング中、いくつかの実施形態は、複数条件トレーニング戦略を採用した。すなわち、ニューラルビームフォーマを通して強調された特徴を用いた最適化に加えて、これらの実施形態は、ニューラルビームフォーマを通すことなくエンコーダ−デコーダネットワークの入力として、雑音混入マルチチャネル音声データも用いた。ネットワーク全体は、事前トレーニング手順を何ら用いることなく、スクラッチからトレーニングされる。ニューラルネットワークは、Chainerを用いることによって実施することができる。
実施態様の例示のセットアップ
図5は、本発明の実施形態による、CHiME−4コーパスについての文字誤り率を示す実験結果を示している。この図は、5つのシステム、すなわち、NOISY、BEAMFORMIT、FILTER NET、MASK_NET(REF)、及びMASK_NET(ATT)を用いたCHiME−4の認識性能を示している。NOISY及びBEAMFORMITは、基準の単一チャネルエンドツーエンドシステムであり、これらは、それらのフレームワークにおいて音声強調部分を含まなかった。それらのエンドツーエンドネットワークは、従来的な複数条件トレーニング戦略に従うことによって雑音混入音声データのみを用いてトレーニングされた。復号中、NOISYは、入力としてCHiME−4において「隔離された1チャネルトラック」からの単一チャネル雑音混入音声データを用いた一方、BEAMFORMITは、入力として、遅延和ビームフォーマとして当業者に既知のBeamformItを用いて5チャネル信号から得られた強調された音声データを用いた。
FILTER NET、MASK_NET(REF)、及びMASK_NET(ATT)は、上記で記述したマルチチャネルエンドツーエンドシステムであった。参照選択の有効性を評価するために、本発明者らは、アテンション(attention)ベース参照選択を用いるマスクベースのビームフォーマに基づくMASK_NET(ATT)を準備した。換言すれば、ビームフォーマネットワークは、マスク推定ネットワークである。さらに、第5のチャネルを用いたMASK_NET(REF)は、固定参照マイクロフォンとして用いられ、これは、タブレットデバイスの中央正面に配置される。
図5において、BEAMFORMIT、FILTER NET、MASK_NET(REF)、及びMASK_NET(ATT)は、NOISYに性能で優ることも示しており、このことは、音声強調をアテンション(attention)ベースエンコーダ−デコーダフレームワークと組み合わせることの有効性を裏付ける。MASK_NET(REF)及びMASK_NET(ATT)の比較は、参照選択のためにアテンション(attention)ベースメカニズムの使用を検証する。セクション3.1において記述されるフィルタ推定ネットワークに基づくFILTER NETも、NOISYに比較して性能を改善していたが、MASK_NET(ATT)よりも不良である。これは、制約の欠如に起因してフィルタ推定ネットワークを最適化してフィルタ係数を推定することが困難であり、何らかの慎重な最適化が必要であるためである。最後に、MASK_NET(ATT)は、BEAMFORMITよりも良好な認識性能を達成しており、このことは、音声強調及び(エンドツーエンド)音声認識のパイプライン組み合わせに優る、本発明の共同統合の有効性を証明する。
さらに、マルチチャネルエンドツーエンドフレームワークの有効性が、以下で記述される。図6は、実施形態による、3つのシステムの認識性能の比較を示す、AMIコーパスについての実験結果を示している。
この場合、図6は、3つのシステム、すなわち、NOISY、BEAMFORMIT、及びMASK_NET(ATT)の認識性能の比較を示す、AMIコーパスについての実験結果を示している。NOISYにおいて、本発明者らは、システムへの入力としてAMIにおける第1のチャネルからの雑音混入音声データを用いた。図6は、AMIにおいてでさえ、本発明者らによって提案されたMASK_NET(ATT)は、アテンション(attention)ベースの基準(NOISY及びBEAMFORMIT)よりも良好な認識性能を達成したことも示し、このことも、本発明者らによって提案されたマルチチャネルエンドツーエンドフレームワークの有効性を裏付ける。BEAMFORMITは、強調された信号を用いてさえ、NOISYよりも不良であったことに留意されたい。この現象は、音声強調のみによって引き起こされた歪みが、再トレーニングを伴わないと性能を劣化させるという、雑音混入音声認識において時として観察される。本発明者らによるエンドツーエンドシステムは、音声強調部分をASR目標と共同で最適化し、そのような劣化を回避することができる。
図7は、本発明の実施形態による、CHiME−4検証精度の影響を示す実験結果を示している。図7は、チャネルの数及び順序に対するCHiME−4検証精度の影響を示している。検証精度は、デコーダの再帰的文字生成中に、式(10)においてグラウンドトゥルースラベルy 1:n−1について条件付けられて計算され、これは、CERとの強力な相関を有する。表の第2の列は、チャネルインデックスを表しており、これは、同じMASK_NET(ATT)ネットワークの入力として用いられた。
5_6_4_3_1及び3_4_1_5_6の比較は、チャネルの順序がMASK_NET(ATT)の認識性能に影響を及ぼさなかったことを示している。加えて、本発明者らが入力としてより少数である3つ又は4つのチャネルを用いた場合でさえ、MASK_NET(ATT)は、依然としてNOISY(単一チャネル)に性能で優った。これらの結果は、本開示によるマルチチャネルエンドツーエンドシステムが、再構成及び再トレーニングを何らすることなく、チャネルの任意の数及び順序で入力信号に対処することができることを裏付ける。
ビームフォーマネットワークによって処理される特徴の視覚化
本発明者らは、本発明の実施形態による、ニューラルビームフォーマ(ビームフォーマネットワーク)を用いる、本発明者らによって展開された音声強調成分の挙動を解析する。
図8A〜図8Cは、第5のチャネル雑音混入信号、BeamformItを用いて強調された信号(関連技術)、及び本発明者らによって提案されたMASK_NET(ATT)を用いて強調された信号を有する、同じCHiME−4発話のスペクトログラムを示している。
図8Aは、第5のチャネル雑音混入信号を有する、CHiME−4発話の対数振幅スペクトログラムを示す図であり、図8Bは、BeamformItを用いて強調された信号の対数振幅スペクトログラムを示す図であり、図8Cは、MASK_NET(ATT)を用いて強調された信号の対数振幅スペクトログラムを示す図である。これらの図面において、雑音混入信号及び強調された信号に関連した四角エリアが抽出され、図面の側部に示される。
本発明者らは、BeamformIt及びMASK_NET(ATT)が、ぼやけたグレーエリアを全体的に消去することによって、第5のチャネル信号と比較して雑音を抑制することに成功したことを確認することができた。加えて、ブラックボックスの内側に焦点を合わせることによって、第5のチャネル信号においては崩壊していた高調波構造が、BeamformIt及びMASK_NET(ATT)において復元された。この結果は、本発明者らによって提案されたMASK_NET(ATT)が、目標としてクリーンデータを明示的に用いることなく、エンドツーエンドASR目標に基づいて最適されるものの、従来的なビームフォーマと同様の雑音抑制関数を学習することに成功したことを示唆している。
雑音混入音声認識の計算コストの削減
さらに、本発明は、雑音混入音声認識の計算コストを削減することができ、したがって、本発明は、中央処理装置(CPU)使用量、又は画像処理装置(GPU)使用量、電力消費、及び/又はネットワーク帯域幅使用量を低減する。
一般に、音声認識において、所与の音声入力について最も可能性の高い単語/文字シーケンスを発見するために、少数の単語/文字シーケンス仮説のみが探索される。例えば、ビーム探索方法が用いられ、この方法において、より短い仮説がまずスコアリングされ、上位N個の高スコアを有する、見込みのある仮説のみが、各見込みのある仮説の末尾に単語/文字を加えることによって拡張される。ここで、Nは、ビームサイズである。仮説が或る特定の長さを有するまでこの仮説の拡張及びスコアリングを繰り返した後、最良のスコアの仮説が、全てのスコアを有する仮説の中からもたらされる音声認識として選択される。ビーム探索の計算コストは、全ての可能性のある仮説を列挙するとともにスコアリングする全探索よりも遥かに低い。
しかしながら、音声信号において背景雑音が存在する場合、ビーム探索法は、見込みのある仮説の特定に失敗する場合がある。なぜならば、雑音信号は、音声特徴の曖昧性を増大させ、スコアが互いに近くなるためである。この場合、最良のスコアを実際に有する仮説は、その長さが短い間に剪定される場合があるため、発見されない場合がある。最良のスコアが発見されることを確実にするために、より多くの仮説が、ビームサイズを増大させることによって拡張される必要がある。これは、音声認識の計算コストを明らかに増大させる。本発明は、共同でトレーニングされたビームフォーマネットワークを含み、これは、雑音を抑制することによって音声特徴の曖昧性を低減させるため、雑音混入音声でさえ最良の仮説を発見するために、数Nを増大させる必要がない。
図9は、本発明の一実施形態による、マルチチャネルエンドツーエンド音声認識システム900によって実行されるエンドツーエンドマルチチャネル音声認識を示す図である。
マルチチャネルエンドツーエンド自動音声認識(ASR)システム900は、インターフェース911に接続された複数のマイクロフォン910を含む。マルチチャネルASRシステム900は、第1の特徴抽出器920、マスク推定ネットワーク930、ビームフォーマ(BF)ネットワーク940、第2の特徴抽出器950、及びエンドツーエンドASRニューラルネットワーク(ASRネットワーク)960も含む。第1の特徴抽出器920、マスク推定ネットワーク930、BFネットワーク940及び第2の特徴抽出器950は、ASRシステム900の1つ以上のメモリ又はストレージ(図示せず)に記憶されたプログラムモジュールであり、システム900内の1つ以上のプロセッサ(図示せず)によって実行されると、プログラムモジュールのプログラムコードに従ってデータ処理を実行する。
マスク推定ネットワーク930は、所定のマスク推定グラウンドトゥルース入力データを用いてマスク推定ネットワーク930をトレーニングすることによって得られている事前トレーニングされたマスクデータセットを含む。
ビームフォーマネットワーク940は、所定のビームフォーマグラウンドトゥルース入力データを用いてBFネットワーク940をトレーニングすることによって得られている事前トレーニングされたビームフォーマデータセットを含む。
ASRネットワーク960は、所定のASRグラウンドトゥルース入力データを用いてASRネットワーク960をトレーニングすることによって得られている事前トレーニングされたASRデータセットを含む。
インターフェース911は、マイクロフォン910から提供された音響音声及び雑音混入信号を、マルチチャネルデジタル入力データ(マルチチャネル入力)912に変換する。この場合、マルチチャネル入力912は、それぞれ、マイクロフォン910の出力に対応する。いくつかの場合、マイクロフォン910は、マイクロフォンのアレイとすることもできるし、3次元(3D)空間内の所定の位置において配置することもできる。
マルチチャネル入力912は、個々のマイクロフォン910の出力から、短期フーリエ変換(STFT)アルゴリズムに基づいて信号特徴921を抽出する第1の特徴抽出器920に導入される。マルチチャネル入力912の信号特徴921は、マスク推定ネットワーク930を用いて処理され、このマスク推定ネットワーク930は、音声関連マスク及び雑音関連マスクを含むマスク931を推定して生成し、これらのマスクは、MVDR形式化に基づいて時間不変フィルタ係数
Figure 2020503570
を計算するための、それぞれのチャネルに対応する時間周波数マスクである。音声関連マスク及び雑音関連マスクは、チャネルの数によってそれぞれ平均化され、式(16)及び式(17)において表現されたPSD行列が推定される。したがって、マスク931は、平均音声関連マスク及び平均雑音マスク(図示せず)である。この場合、マスク推定ネットワーク930は、所定のグラウンドトゥルースデータセットを用いて事前トレーニングされる。
さらに、抽出された特徴921は、BFネットワーク940に含まれるMVDR推定モジュールに基づいてマスク931を用いて処理され、BFフィルタ係数941が計算される。この場合、フィルタ係数941は、音声信号及び雑音信号のためのクロスチャネルパワースペクトル密度(PSD)行列(特徴)に対応する時間不変フィルタ係数
Figure 2020503570
である。計算されたフィルタ係数941は、ビームフォーマプロセス942においてBFネットワーク940によって特徴921を用いて処理され、ビームフォーミングされた音声データセット943が生成される。この場合、ビームフォーミングされた音声データセット943は、単一チャネルの強調された音声データセットである。さらに、第2の特徴抽出器950は、BF音声データセットから特徴を抽出し、抽出された特徴951をエンドツーエンドASRネットワーク(ASRネットワーク)960に提供する。最後に、ASRネットワーク960は、抽出された特徴951を処理することによってテキスト970を出力する。
エンドツーエンドASRシステム900をトレーニングする間、所定のエンドツーエンドグラウンドトゥルースデータセットが、抽出された特徴921を用いる代わりに直接マスク推定ネットワーク930に導入され、出力テキスト970とその対応するグラウンドトゥルースとの間の誤差がグラウンドトゥルースデータセットごとに得られ、後方伝播プロセスが、所定のエンドツーエンドグラウンドトゥルースデータセット全体が処理されるまで実行される。所定のエンドツーエンドグラウンドトゥルースデータセットを用いたエンドツーエンドトレーニングプロセスを通して得られたマスク推定ネットワーク930、BFネットワーク940及びASRネットワーク960のネットワークパラメーターは、エンドツーエンドマルチチャネル認識トレーニングセットとして1つ以上のストレージ980に記憶される。
1つの実施形態による別のエンドツーエンドASRシステムでは、エンドツーエンドASRシステムは、バスによってリードオンリーメモリ(ROM)及びメモリに接続されたプロセッサを含むことができる。トレーニングシステムは、ユーザーに情報を提示するディスプレイ、並びに、キーボード、マウス及び入力/出力ポートを介してアタッチすることができる他のデバイスを含む複数の入力デバイスも含むことができる。他のポインティングデバイス又はボイスセンサー又は画像センサー等の他の入力デバイスもアタッチすることができる。他のポインティングデバイスは、タブレット、テンキーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。I/Oは、通信線、ディスクストレージ、入力デバイス、出力デバイス又は他のI/O機器に接続することができる。メモリは、ディスプレイスクリーンのピクセル強度値を含むディスプレイバッファーを含む。ディスプレイは、これらの値をディスプレイスクリーン上に表示するディスプレイバッファーからピクセル値を周期的に読み取る。ピクセル強度値は、グレーレベル又は色を表すことができる。
メモリは、データベース、トレーナー、ニューラルネットワーク、プリプロセッサを含む。データベースは、履歴データ、トレーニングデータ、テストデータを含むことができる。データベースは、ニューラルネットワークを用いる運用モード、トレーニングモード又は維持モードからの結果も含むことができる。これらの要素は、上記で詳述している。
メモリには、オペレーティングシステムも示されている。オペレーティングシステムの例として、AIX、OS/2、及びDOSが挙げられる。メモリに示す他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバーを含む。メモリには、ワーキングメモリエリアも示されている。ワーキングメモリエリアは、メモリに示す要素のうちの任意のものが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク、トレーナー、オペレーティングシステム及び他の機能が利用することができる。ワーキングメモリエリアは、複数の要素間で区切ることができ、1つの要素内で区切ることができる。ワーキングメモリエリアは、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶のために利用することができる。
本開示の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の1つを用いる1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び/又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることもできるし、分散させることもできる。
さらに、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、いくつかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第1、第2等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (15)

  1. 音声信号を含む音響信号を受信する複数のマイクロフォンと、
    前記音響信号からマルチチャネル入力を生成する入力インターフェースと、
    マルチチャネル音声認識ネットワークを記憶する1つ以上のストレージであって、前記マルチチャネル音声認識ネットワークは、
    前記マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、
    前記時間周波数マスクを用いて前記マルチチャネル入力から参照チャネル入力を選択して、前記参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、
    前記強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークと、
    を含む、1つ以上のストレージと、
    前記1つ以上のストレージと関連して前記マルチチャネル音声認識ネットワークを用いて、前記マルチチャネル入力から前記テキストを生成する1つ以上のプロセッサと、
    前記テキストをレンダリングする出力インターフェースと、
    を備える、音声認識システム。
  2. 前記マスク推定ネットワークは、第1のマスクネットワーク及び第2のマスクネットワークを含み、前記第1のマスクネットワークは、前記マルチチャネル入力の音声マスクを生成するようにトレーニングされ、前記第2のマスクネットワークは、前記マルチチャネル入力の雑音マスクを生成するようにトレーニングされる、請求項1に記載の音声認識システム。
  3. 前記第1のマスクネットワーク及び前記第2のマスクネットワークは、前記ビームフォーマネットワークと統合される、請求項1に記載の音声認識システム。
  4. 前記エンコーダ−デコーダネットワークは、アテンション(attention)ベースエンコーダ−デコーダネットワークである、請求項1に記載の音声認識システム。
  5. 前記ビームフォーマネットワークは、周波数領域データセットを用いる、請求項1に記載の音声認識システム。
  6. 前記マルチチャネル音声認識ネットワークは、短期フーリエ変換アルゴリズムに基づいて前記マルチチャネル入力から信号特徴を抽出する第1の特徴抽出器を含む、請求項1に記載の音声認識システム。
  7. 前記第1の特徴抽出器は、前記信号特徴のために、対数メルフィルタバンク係数を用いた、請求項6に記載の音声認識システム。
  8. 前記ビームフォーマネットワーク及び前記エンコーダ−デコーダネットワークは、共同で最適化される、請求項1に記載のシステム。
  9. 前記ビームフォーマネットワークは、音声パワースペクトル密度(PSD)行列を用いる、請求項1に記載のシステム。
  10. 前記マスク推定ネットワークは、双方向長期短期記憶再帰型ニューラルネットワークである、請求項1に記載のシステム。
  11. 前記マルチチャネル音声認識ネットワークは、前記マスク推定ネットワークに接続された第1の特徴抽出器を更に含み、前記第1の特徴抽出器は、微分可能関数である、請求項1に記載のシステム。
  12. 前記微分可能関数は、チャネル信号の振幅のbark関数である、請求項11に記載のシステム。
  13. 前記入力インターフェースは、マイクロフォンのアレイであり、前記出力インターフェースは、ディスプレイデバイスを含む、請求項1に記載のシステム。
  14. 前記ニューラルネットワークは、雑音混入マルチチャネル音声信号の認識と、前記雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減するように、エンドツーエンド方式においてトレーニングされる、請求項1に記載のシステム。
  15. 方法を実行するプロセッサによって実行可能であるプログラムが具現化された非一時的コンピューター可読記憶媒体であって、前記方法は、
    入力インターフェースからマルチチャネル音声信号を受信することと、
    マルチチャネル信号を単一チャネル信号に設定する第1のマイクロフォンデータを求めるようにトレーニングされたビームフォーマネットワークを含むマルチチャネル音声認識ニューラルネットワークと、前記単一チャネル信号の音声特徴からテキストを認識するようにトレーニングされた認識サブネットワークとを用いた前記音声認識を実行することであって、強調サブネットワーク及び前記認識サブネットワークは、共同でトレーニングされることと、
    前記認識されたテキストを出力インターフェースに提供することと、
    を含む、非一時的コンピューター可読記憶媒体。
JP2019556085A 2017-03-13 2018-02-23 音声認識システム Active JP6808069B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762470511P 2017-03-13 2017-03-13
US62/470,511 2017-03-13
US15/723,672 US11133011B2 (en) 2017-03-13 2017-10-03 System and method for multichannel end-to-end speech recognition
US15/723,672 2017-10-03
PCT/JP2018/007914 WO2018168509A1 (en) 2017-03-13 2018-02-23 Speech recognition system

Publications (2)

Publication Number Publication Date
JP2020503570A true JP2020503570A (ja) 2020-01-30
JP6808069B2 JP6808069B2 (ja) 2021-01-06

Family

ID=63444962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019556085A Active JP6808069B2 (ja) 2017-03-13 2018-02-23 音声認識システム

Country Status (5)

Country Link
US (1) US11133011B2 (ja)
EP (1) EP3596730B1 (ja)
JP (1) JP6808069B2 (ja)
CN (1) CN110383377B (ja)
WO (1) WO2018168509A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021161543A1 (ja) * 2020-02-14 2021-08-19
US11955128B2 (en) 2021-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method for voice identification and device using same

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
US10902205B2 (en) 2017-10-25 2021-01-26 International Business Machines Corporation Facilitating automatic detection of relationships between sentences in conversations
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN111445905B (zh) * 2018-05-24 2023-08-08 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
US11107463B2 (en) 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109431507A (zh) * 2018-10-26 2019-03-08 平安科技(深圳)有限公司 基于深度学习的咳嗽疾病识别方法及装置
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
CN109545228A (zh) * 2018-12-14 2019-03-29 厦门快商通信息技术有限公司 一种端到端说话人分割方法及系统
WO2020146873A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
JP7222277B2 (ja) * 2019-03-13 2023-02-15 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム
US11100920B2 (en) * 2019-03-25 2021-08-24 Mitsubishi Electric Research Laboratories, Inc. System and method for end-to-end speech recognition with triggered attention
US10803881B1 (en) 2019-03-28 2020-10-13 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US11393487B2 (en) * 2019-03-28 2022-07-19 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US11501761B2 (en) 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN110111803B (zh) * 2019-05-09 2021-02-19 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
KR20210014949A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
JP2021039216A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
CN110600050B (zh) * 2019-09-12 2022-04-15 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110675891B (zh) * 2019-09-25 2020-09-18 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110739003B (zh) * 2019-10-23 2022-10-28 北京计算机技术及应用研究所 基于多头自注意力机制的语音增强方法
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110970053B (zh) * 2019-12-04 2022-03-15 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111179920B (zh) * 2019-12-31 2023-01-24 中国科学院声学研究所 一种端到端远场语音识别方法及系统
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
US11594212B2 (en) * 2020-01-22 2023-02-28 Google Llc Attention-based joint acoustic and text on-device end-to-end model
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111246469B (zh) * 2020-03-05 2020-10-16 北京花兰德科技咨询服务有限公司 人工智能保密通信系统及通信方法
US11646009B1 (en) * 2020-06-16 2023-05-09 Amazon Technologies, Inc. Autonomously motile device with noise suppression
CN112151059A (zh) * 2020-09-25 2020-12-29 南京工程学院 面向麦克风阵列的通道注意力加权的语音增强方法
CN114333811A (zh) * 2020-09-30 2022-04-12 中国移动通信有限公司研究院 一种语音识别方法、系统及设备
US11380307B2 (en) * 2020-09-30 2022-07-05 Tencent America LLC All deep learning minimum variance distortionless response beamformer for speech separation and enhancement
CN114937449B (zh) * 2021-02-05 2024-07-05 清华大学 一种语音关键词识别方法及系统
CN113113000B (zh) * 2021-04-06 2022-05-13 重庆邮电大学 基于自适应掩膜和分组线性变换的轻量级语音识别方法
CN113127622B (zh) * 2021-04-29 2023-06-09 西北师范大学 一种从语音到图像的生成方法及系统
CN113611323B (zh) * 2021-05-07 2024-02-20 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113205818B (zh) * 2021-05-24 2023-04-18 网易有道信息技术(北京)有限公司 用于优化语音识别过程的方法、设备和存储介质
CN113284485B (zh) * 2021-07-09 2021-11-09 中国科学院自动化研究所 统一中英混合文本生成和语音识别的端到端系统
CN113724713B (zh) * 2021-09-07 2024-07-05 中国科学技术大学 一种语音识别方法、装置、设备及存储介质
CN113644947A (zh) * 2021-10-14 2021-11-12 西南交通大学 一种自适应波束形成方法、装置、设备及可读存储介质
CN115452392B (zh) * 2021-11-30 2023-08-08 广州汽车集团股份有限公司 一种车辆发动机故障声学诊断方法及系统
WO2023192327A1 (en) * 2022-03-29 2023-10-05 Dolby Laboratories Licensing Corporation Representation learning using informed masking for speech and other audio applications
CN114842864B (zh) * 2022-04-19 2023-05-23 电子科技大学 一种基于神经网络的短波信道信号分集合并方法
CN114863916A (zh) * 2022-04-26 2022-08-05 北京小米移动软件有限公司 语音识别模型训练方法、语音识别方法、装置及存储介质
CN115295002B (zh) * 2022-07-26 2024-05-14 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086602A1 (en) * 2014-09-19 2016-03-24 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305008A (en) * 1991-08-12 1994-04-19 Integrated Silicon Design Pty. Ltd. Transponder system
US6304618B1 (en) * 1998-08-31 2001-10-16 Ericsson Inc. Methods and systems for reducing co-channel interference using multiple timings for a received signal
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
DK1509065T3 (da) * 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
CH702399B1 (fr) * 2009-12-02 2018-05-15 Veovox Sa Appareil et procédé pour la saisie et le traitement de la voix.
US9215527B1 (en) * 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
US9201871B2 (en) * 2010-06-11 2015-12-01 Microsoft Technology Licensing, Llc Joint optimization for machine translation system combination
US9291697B2 (en) * 2012-04-13 2016-03-22 Qualcomm Incorporated Systems, methods, and apparatus for spatially directive filtering
CN102969000B (zh) * 2012-12-04 2014-10-22 中国科学院自动化研究所 一种多通道语音增强方法
US20140337021A1 (en) * 2013-05-10 2014-11-13 Qualcomm Incorporated Systems and methods for noise characteristic dependent speech enhancement
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
GB2519379B (en) * 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
CN105845127B (zh) * 2015-01-13 2019-10-01 阿里巴巴集团控股有限公司 语音识别方法及其系统
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
CN105469785B (zh) * 2015-11-25 2019-01-18 南京师范大学 通信终端双麦克风消噪系统中的语音活动检测方法及装置
US10347271B2 (en) 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
US9747920B2 (en) * 2015-12-17 2017-08-29 Amazon Technologies, Inc. Adaptive beamforming to create reference channels
WO2017143095A1 (en) * 2016-02-16 2017-08-24 Red Pill VR, Inc. Real-time adaptive audio source separation
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086602A1 (en) * 2014-09-19 2016-03-24 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HEYMANN, JAHN ET AL.: ""BEAMNET: END-TO-END TRAINING OF A BEAMFORMER-SUPPORTED MULTI-CHANNEL ASR SYSTEM"", PROC. OF 2017 IEEE ICASSP, JPN6020029105, 5 March 2017 (2017-03-05), pages 5325 - 5329, XP033259427, ISSN: 0004322006, DOI: 10.1109/ICASSP.2017.7953173 *
KIM, SUYOUN ET AL.: ""Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition"", PROC. OF INTERSPEECH 2016, JPN7020002354, 8 September 2016 (2016-09-08), pages 3838 - 3842, ISSN: 0004322007 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021161543A1 (ja) * 2020-02-14 2021-08-19
WO2021161543A1 (ja) * 2020-02-14 2021-08-19 日本電信電話株式会社 信号処理装置、信号処理方法、および、信号処理プログラム
JP7315087B2 (ja) 2020-02-14 2023-07-26 日本電信電話株式会社 信号処理装置、信号処理方法、および、信号処理プログラム
US11955128B2 (en) 2021-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method for voice identification and device using same

Also Published As

Publication number Publication date
WO2018168509A1 (en) 2018-09-20
EP3596730B1 (en) 2024-02-21
CN110383377B (zh) 2023-10-13
JP6808069B2 (ja) 2021-01-06
CN110383377A (zh) 2019-10-25
EP3596730A1 (en) 2020-01-22
US20180261225A1 (en) 2018-09-13
US11133011B2 (en) 2021-09-28

Similar Documents

Publication Publication Date Title
JP6808069B2 (ja) 音声認識システム
Li et al. Glance and gaze: A collaborative learning framework for single-channel speech enhancement
Ravanelli et al. Improving speech recognition by revising gated recurrent units
Sisman et al. A Voice Conversion Framework with Tandem Feature Sparse Representation and Speaker-Adapted WaveNet Vocoder.
Hosseini-Asl et al. A multi-discriminator cyclegan for unsupervised non-parallel speech domain adaptation
Bellegarda et al. The metamorphic algorithm: A speaker mapping approach to data augmentation
JP2019535063A (ja) マルチモーダルフュージョンモデルのための方法及びシステム
Erdogan et al. Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio
Tu et al. An iterative mask estimation approach to deep learning based multi-channel speech recognition
Tu et al. On Design of Robust Deep Models for CHiME-4 Multi-Channel Speech Recognition with Multiple Configurations of Array Microphones.
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
Cui et al. Multi-objective based multi-channel speech enhancement with BiLSTM network
Manjunath et al. Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion.
Shi et al. Train from scratch: Single-stage joint training of speech separation and recognition
Zhang et al. Cacnet: Cube attentional cnn for automatic speech recognition
Plantinga et al. An exploration of mimic architectures for residual network based spectral mapping
Ueno et al. Encoder Transfer for Attention-based Acoustic-to-word Speech Recognition.
CN112542176A (zh) 信号增强方法、装置及存储介质
Xu et al. Channel and temporal-frequency attention UNet for monaural speech enhancement
Jannu et al. An Overview of Speech Enhancement Based on Deep Learning Techniques
CN112989794A (zh) 模型训练方法、装置、智能机器人和存储介质
CN113096636B (zh) 语音合成装置、方法、电子设备和存储介质
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
Kaur et al. Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement
Wang et al. Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201208

R150 Certificate of patent or registration of utility model

Ref document number: 6808069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250