JP2020503570A

JP2020503570A - 音声認識システム

Info

Publication number: JP2020503570A
Application number: JP2019556085A
Authority: JP
Inventors: 渡部　晋治; 晋治渡部; 翼落合; 堀　貴明; 貴明堀; ハーシェイ、ジョン・アール
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-03-13
Filing date: 2018-02-23
Publication date: 2020-01-30
Anticipated expiration: 2038-02-23
Also published as: WO2018168509A1; EP3596730B1; CN110383377B; JP6808069B2; CN110383377A; EP3596730A1; US20180261225A1; US11133011B2

Abstract

音声認識システムが、音声信号を含む音響信号を受信する複数のマイクロフォンと、音響信号からマルチチャネル入力を生成する入力インターフェースと、マルチチャネル音声認識ネットワークを記憶する１つ以上のストレージであって、マルチチャネル音声認識ネットワークは、マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、時間周波数マスクを用いてマルチチャネル入力から参照チャネル入力を選択して、この参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークとを備える。本システムは、１つ以上のストレージと、１つ以上のストレージと関連してマルチチャネル音声認識ネットワークを用いて、マルチチャネル入力からテキストを生成する１つ以上のプロセッサと、テキストをレンダリングする出力インターフェースとを更に備える。

Description

本発明は、包括的には、音声処理に関し、より詳細には、マルチチャネル音声認識に関する。

既存の自動音声認識（ＡＳＲ）システムは、音響モデル、音声学モデル、及び言語モデルを含む、別個のコンポーネントの複雑なハイブリッドに基づいている。そのようなシステムは、通常、隠れマルコフモデルと組み合わされたディープニューラルネットワーク音響モデルに基づくことで、言語及び音声学のコンテキスト依存状態、及び音響信号とのそれらの時間的アライメント（ＤＮＮ−ＨＭＭ）を表す。

一代替形態として、ストリームライン音声認識パラダイムが、研究上の多大な関心を集めている。このパラダイムは、上記のハイブリッドアーキテクチャを、ニューラルネットワークに包含することによって、このアーキテクチャを簡略化する。例えば、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダフレームワークは、再帰型ニューラルネットワーク（ＲＮＮ）のセットを用いてこれらのコンポーネントの全てを統合し、これは、音響特徴シーケンスから文字ラベルシーケンスにマッピングする。非特許文献１を参照されたい。

しかしながら、既存のエンドツーエンドフレームワークは、雑音混入環境において良好な性能を達成するためにクリーンな音声にのみ焦点を置いており、マルチチャネル音響信号に適用することができない。

Chorowski「End-to-end Continuous Speech Recognition using Attention-based Recurrent NN」(2014)

いくつかの実施形態の一目的は、音声を認識し、認識された音声を、複数のマイクロフォンのマルチチャネル音響信号からテキストに変換するのに適した自動音声認識（ＡＳＲ）のためのシステム及び方法を提供することである。実施形態によれば、マルチチャネルエンドツーエンド音声認識フレームワークは、音声信号を有するマルチチャネル音響信号をテキストに直接変換するようにトレーニングされる。この場合、マルチチャネルエンドツーエンドフレームワークは、単語／文字誤り率（ＷＥＲ／ＣＥＲ）等の最終ＡＳＲ目標に基づいて、ビームフォーミングを含む推論手順全体を最適化する。

音声認識タスクとは独立して信号レベル損失関数に基づいて遅延和及びフィルタリング和を最適化する従来のビームフォーミング方法とは異なり、本発明のいくつかの実施形態によるマルチチャネルエンドツーエンドフレームワークは、ニューラルビームフォーミングメカニズムを、微分可能コンポーネントとして組み込むことで、エンドツーエンドシステム内のマルチチャネル音声強調の共同最適化を可能にして、ＡＳＲ目標を改善する。換言すれば、いくつかの実施形態によるマルチチャネルエンドツーエンドフレームワークは、まず時間周波数マスクを推定するネットワークを含み、これらのマスクは、音声信号及び雑音信号に関連したパワースペクトル密度（ＰＳＤ）行列に関する予想音声統計値及び雑音統計値を計算するのに用いられる。この場合、音声統計値及び雑音統計値は、時間不変特徴である。これらの統計値を用いて、フィルタ係数がＭＶＤＲ（最小分散無歪応答）形式化に基づいて計算され、その後、推定されたフィルタ係数は、マルチチャネル雑音混入音声信号に適用されて、音声信号が強調される。

いくつかの実施形態の別の目的は、雑音混入環境において音声を認識するのに適した音声認識システムを提供することである。いくつかの実施形態の別の目的は、エンドツーエンド方式においてトレーニングされたニューラルネットワークを用いて音声認識を実行することである。

いくつかの実施形態は、ビームフォーミングを用いるマルチチャネル音声強調技法により、背景雑音の存在において音声認識を改善することができるという認識に基づいている。さらに、ビームフォーミングは、ビームフォーミングを微分可能にするニューラルネットワークを用いて実行することができることが認識された。したがって、ビームフォーミングニューラルネットワークは、クリーンな音声を認識するようにトレーニングされたニューラルネットワークと統合することができる。そのようにして、音声信号を強調するように設計されたニューラルネットワークは、音声を認識するように設計されたニューラルネットワークと組み合わされることで、サブネットワークの組み合わせによって形成される単一ニューラルネットワークを含むマルチチャネルエンドツーエンド音声認識システムが形成される。サブネットワークは、マスク推定ネットワーク、フィルタ推定ネットワーク、ビームフォーマネットワーク、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダネットワークを含むエンコーダ−デコーダネットワークを含むことができる。

いくつかの実施形態では、ビームフォーマネットワークは、マスク推定ネットワーク及びフィルタ推定ネットワークを含むことができる。さらに、ビームフォーマネットワークは、時間周波数マスクを用いて複数のマイクロフォンからのマルチチャネル入力から参照チャネル入力を選択して、この参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングすることができる。

いくつかの実施形態は、これらのネットワークを別個にトレーニングすることができ、例えば、ビームフォーミングニューラルネットワークは、雑音混入音声からクリーンな音声を生成するようにトレーニングすることができ、音声認識ニューラルネットワークは、クリーンな音声を認識してテキストに変換するようにトレーニングすることができるという理解に基づいている。しかしながら、そのようなトレーニングは、クリーンな音声を表すグラウンドトゥルースデータを要求する。例えば、遅延和及びフィルタリング和等のビームフォーミング技法は、音声認識タスクとは独立して、信号レベル損失関数に基づいて最適化することができることが認識される。

いくつかの実施形態は、ニューラルビームフォーミングメカニズムを、微分可能コンポーネントとして組み込むことで、エンドツーエンドシステム内のマルチチャネル音声強調の共同最適化を可能にして、ＡＳＲ目標を改善する。そのようにして、いくつかの実施形態によるマルチチャネルエンドツーエンド音声認識システムは、音声信号を含む、雑音混入背景に適応可能である。例えば、いくつかの実施形態は、双方のサブネットワークをエンドツーエンド方式において共同でトレーニングして、雑音混入音声を認識してテキストに変換する。

そのような共同トレーニングは、マルチチャネルエンドツーエンド音声認識システムの性能を改善することができる。なぜならば、マルチチャネルエンドツーエンドフレームワークは、単語／文字誤り率（ＷＥＲ／ＣＥＲ）等の最終ＡＳＲ目標に基づいて、ビームフォーミングを含む推論手順全体を最適化することを可能にするためである。

本発明の実施形態によれば、ビームフォーマネットワーク及びマスク推定ネットワークを含むマルチチャネルエンドツーエンド音声認識システムは、中央処理装置（ＣＰＵ）使用量又は画像処理装置（ＧＰＵ）使用量、電力消費、及び／又はネットワーク帯域幅使用量を低減することができる。

ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。

本発明のいくつかの実施形態による、音声認識のための音声認識システムのブロック図である。本発明のいくつかの実施形態による、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダネットワークを示すブロック図である。本発明のいくつかの実施形態による、フィルタ推定ネットワークを用いたビームフォーミングを示すブロック図である。本発明のいくつかの実施形態による、マスク推定ネットワーク及びＭＶＤＲ形式化を用いたビームフォーミングを示すブロック図である。本発明の実施形態による、図３Ｂのビームフォーミングにおいてフィルタ係数を計算する全体手順を示すブロック図である。本発明の実施形態による、ＣＨｉＭＥ−４コーパスについての文字誤り率を示す実験結果を示す図である。本発明の実施形態による、３つのシステムの認識性能の比較を示す、ＡＭＩコーパスについての実験結果を示す図である。本発明の実施形態による、ＣＨｉＭＥ−４検証精度の影響を示す実験結果を示す図である。本発明の実施形態による、第５のチャネル雑音混入信号を有する、ＣＨｉＭＥ−４発話の対数振幅スペクトログラムを示す図である。本発明の実施形態による、ＢｅａｍｆｏｒｍＩｔを用いて強調された信号の対数振幅スペクトログラムを示す図である。本発明の実施形態による、ＭＡＳＫ＿ＮＥＴ（ＡＴＴ）を用いて強調された信号の対数振幅スペクトログラムを示す図である。本発明の実施形態による、エンドツーエンドＡＳＲシステムを示すブロック図である。

上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。

以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は１つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。

以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ（複数の場合もある）が、それらの必要なタスクを実行することができる。

図１は、いくつかの実施形態による、音声認識のための音声認識システム１００のブロック図を示している。システム１００は、記憶された命令を実行するように構成されたプロセッサ１０２と、このプロセッサによって実行可能な自動音声認識（ＡＳＲ）ネットワーク、エンコーダ−デコーダネットワーク１１０、ビームフォーマネットワーク１１２、マスク推定ネットワーク１１４、及びフィルタ推定ネットワーク１１５に関する命令を記憶するメモリ１０４とを備える。プロセッサ１０２は、シングルコアプロセッサ、マルチコアプロセッサ、画像処理装置（ＧＰＵ）、コンピューティングクラスター、又は任意の数の他の構成とすることができる。メモリ１０４は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の好適なメモリシステムを含むことができる。メモリ１０４は、ハードドライブ、光学ドライブ、サムドライブ（thumbdrive）、ドライブのアレイ、又はこれらの任意の組み合わせを含むこともできる。プロセッサ１０２は、バス１０６を通して、１つ以上の入力及び出力インターフェース／デバイスに接続される。

メモリ１０４は、マルチチャネル音声信号をテキストに変換するようにトレーニングされたニューラルネットワーク１０８を記憶し、記憶された命令を実行するプロセッサ１０２は、メモリ１０４から索出されたニューラルネットワーク１０８を用いて音声認識を実行する。ニューラルネットワーク１０８は、マルチチャネル雑音混入音声信号をテキストに変換するようにトレーニングされる。ニューラルネットワーク１０８は、音声信号を強調するように設計されるとともにマルチチャネル信号から単一チャネル信号を選択するようにトレーニングされた第１のニューラルサブネットワークとしてアテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダＡＳＲネットワーク１１０を含むことができる。ニューラルネットワーク１０８は、第２のサブネットワークとして、ビームフォーマネットワーク１１２、マスク推定ネットワーク１１４及びフィルタ推定ネットワーク１１５も含み、この第２のサブネットワークにおいて、ネットワーク１１４及び１１５の双方は、音声認識のためにエンコーダ−デコーダネットワークネットワーク１１０と統合されるように設計するとともに、マルチチャネル信号の音声特徴からテキストを認識するようにトレーニングすることができる。さらに、正確な音声認識を実行するために、ビームフォーマネットワーク１１２を用いて、複数のマイクロフォン１２０から参照マイクを決定することで、マルチチャネル音声信号から主音声信号を決定することができる。第１のサブネットワーク及び第２のサブネットワークは、共同でトレーニングして、マルチチャネルエンドツーエンド音声認識システム１００を形成することができる。

１つの実施形態では、ニューラルネットワーク１０８は、第２のサブネットワークによって用いるべき単一チャネル信号から音声特徴を抽出するように構成された特徴抽出器（図示せず）も含む。特徴抽出器は、微分可能関数（differentiable function）であり、したがって、単一のエンドツーエンドニューラルネットワークに接続することができる。微分可能関数の例として、チャネル信号の振幅のＭｅｌ関数、及びチャネル信号の振幅のｂａｒｋ関数が挙げられる。

１つの実施態様では、微分可能関数は、チャネル信号から音声特徴を抽出するようにトレーニングされた第３のニューラルサブネットワークである。この実施態様では、第３のサブネットワークは、第１のサブネットワーク及び第２のサブネットワークと共同でトレーニングされる。

微分可能関数は、関数の出力が所与の入力の目標出力に近づくように勾配降下法を用いて最適化することができる。この関数は、全ての入力サンプルが可能な限り正確に対応する目標サンプルにマッピングされるように、対にされる入力サンプル及び目標出力サンプルを用いて未知のマッピング関数を近似することもできる。

微分可能関数の編成もまた微分可能であるので、カスケード接続された処理モジュールを組み合わせることでこれらの処理モジュールを共同で最適化することができ、これらの処理モジュールの各々は、微分可能関数として設計される。

ニューラルネットワークは、微分可能関数である。本発明では、複数のニューラルネットワークを含む微分可能関数を用いて、全てのエンドツーエンドマルチチャネル音声認識のコンポーネントを実施することができる。

システム１００は、マルチチャネル音声信号を受け取る入力インターフェースと、認識されたテキストをレンダリングする出力インターフェースとを備える。入力インターフェースの例として、サウンドをマルチチャネル音声信号１３８に変換する複数のマイクロフォン１２０が挙げられる。付加的又は代替的に、入力インターフェースは、システム１００を、バス１０６を通してネットワーク１３６に接続するように適合されたネットワークインターフェースコントローラー（ＮＩＣ）１３０を含むことができる。ネットワーク１３６を通して、マルチチャネル音声信号１３８をダウンロードして更なる処理のために記憶することができる。

出力インターフェースの例として、ディスプレイインターフェース１２２、撮像インターフェース１２６、及びプリンタインターフェース１３０が挙げられる。例えば、システム１００は、システム１００をディスプレイデバイス１２４に接続するように適合されたディスプレイインターフェース１２２に、バス１０６を通してリンクすることができ、ここで、ディスプレイデバイス１２４は、とりわけ、コンピューターモニター、カメラ、テレビジョン、プロジェクター、又はモバイルデバイスを含むことができる。

付加的又は代替的に、システム１００は、このシステムを撮像デバイス１２８に接続するように適合された撮像インターフェース１２６に接続することができる。撮像デバイス１２８は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム（webcam）、又はこれらの任意の組み合わせを含むことができる。付加的又は代替的に、システム１００は、システム１００を印刷デバイス１３２に接続するように適合されたプリンタインターフェース１３１に接続することができる。印刷デバイス１３２は、とりわけ、液体インクジェットプリンタ、固体インクプリンタ、大規模商用プリンタ、サーマルプリンタ、ＵＶプリンタ、又は昇華型プリンタを含むことができる。

図２は、実施形態による、文字シーケンス（テキスト）を生成するように設計されたアテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダネットワーク２００の概略図を示している。これらの実施形態では、ネットワーク２００は、エンコーダネットワーク（エンコーダ）２１０と、アテンション（ａｔｔｅｎｔｉｏｎ）ベースデコーダニューラルネットワーク（アテンション（ａｔｔｅｎｔｉｏｎ）デコーダ）２４０とを含む。エンコーダネットワーク２１０は、入力シーケンスＯ２２０を高水準特徴シーケンスＨ２３０に変換し、次に、デコーダネットワーク２４０は、アテンション（ａｔｔｅｎｔｉｏｎ）メカニズムを通して文字シーケンスＹ２４５を生成する。

具体的には、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダニューラルネットワーク２００は、可変長のシーケンスの処理を可能にする。エンコーダ−デコーダニューラルネットワークは、本明細書においてそれぞれエンコーダ２１０及びデコーダ２４０と称される２つの再帰型ニューラルネットワーク（ＲＮＮ）と、エンコーダ及びデコーダを接続するアテンション（ａｔｔｅｎｔｉｏｎ）メカニズム２３０とを含む。

音声特徴のＴ長シーケンス

を所与とすると、ネットワーク２００は、出力ラベルのＮ長シーケンス（文字シーケンス）

を生成する。
いくつかの実施形態では、音声特徴ｏ_ｔは、入力時間ステップｔにおけるＤ_ｏ次元特徴ベクトル（例えば、対数メルフィルタバンク）であり、ｙ_ｎは、ラベルセットＶにおける出力時間ステップｎにおけるラベルシンボル（例えば、文字）である。

まず、エンコーダ２１０は、入力シーケンスｏ_ｔ２２０を、Ｌ長高水準特徴シーケンス

に変換し（２２５）、ここで、ｈ_ｌは、エンコーダの最上層の時間ステップｌにおけるＤ_Ｈ次元状態ベクトル２２７である。この場合、サブサンプリング技法が、所定のサンプリング比に従って入力シーケンスｏ_ｔ２２０の長さを削減するように適用される。

いくつかの実施形態では、エンコーダは、双方向長期短期記憶（ＢＬＳＴＭ）再帰型ネットワークである。入力シーケンス長を削減するために、いくつかの実施態様は、いくつかの層にサブサンプリング技法を適用する。したがって、ｌは、ｔからサブサンプリングされたフレームインデックスを表しており、Ｌは、Ｔより短い。

次に、アテンション（ａｔｔｅｎｔｉｏｎ）デコーダネットワーク２４０のアテンション（ａｔｔｅｎｔｉｏｎ）メカニズムは、Ｌ次元アテンション（ａｔｔｅｎｔｉｏｎ）重みベクトルａ_ｎ∈［０，１］^Ｌ２３５に基づいて、全てのエンコーダ出力Ｈを統合して、Ｄ_Ｈ次元コンテキストベクトル

にし、これは、出力時間ステップｎにおけるエンコーダ出力のソフトアライメント（soft alignment）を表している。例えば、１つの実施形態は、ａ_ｎを用いたロケーションベースアテンション（ａｔｔｅｎｔｉｏｎ）メカニズムを用い、ａ_ｎ及びｃ_ｎは、以下のように定式化される。

ここで、

は、トレーニング可能重み行列であり、

は、トレーニング可能バイアスベクトルであり、

は、トレーニング可能畳み込みフィルタである。

は、ｎにおける上位デコーダネットワークから得られたＤ_Ｓ次元隠れ状態ベクトルであり、αは、畳み込み演算を示す。
その後、アテンション（ａｔｔｅｎｔｉｏｎ）デコーダネットワーク２４０は、以下のように、隠れ状態ｓ_ｎを増分的に更新し、出力ラベルｙ_ｎ２４５を生成する。

ここで、Ｇｅｎｅｒａｔｅ（・）関数及びＵｐｄａｔｅ（・）関数は、それぞれ、フィードフォワードネットワーク及びＬＳＴＭベース再帰型ネットワークから構成される。
ここで、これらの手順を以下のように要約することができる。

ここで、Ｅｎｃｏｄｅｒ（・）＝ＢＬＳＴＭ（・）であり、Ａｔｔｅｎｔｉｏｎ（・）は、式（１）〜式（３）に対応し、Ｄｅｃｏｄｅｒ（・）は、式（４）及び式（５）に対応する。ここで、ｓｔａｒｔ−ｏｆ−ｓｅｎｔｅｎｃｅ（ｓｏｓ）２５０及びｅｎｄ−ｏｆ−ｓｅｎｔｅｎｃｅ（ｅｏｓ）２５５のための特別なトークンが、ラベルセットＶに追加される。デコーダは、（ｓｏｓ）ラベル２５０を用いて再帰計算を開始し、（ｅｏｓ）ラベル２５５が送出されるまで出力ラベル２４５を生成し続ける。

１つの実施形態では、クロスエントロピー基準に基づいて、損失関数は、以下のように式（６）を用いて規定される。

ここで、Ｙ^＊は、出力ラベルのシーケンス全体のグラウンドトゥルースであり、

は、出力時間ステップｎ−１までのそのサブシーケンスのグラウンドトゥルースである。

したがって、エンコーダ２１０及びアテンション（ａｔｔｅｎｔｉｏｎ）デコーダ２４０を含むネットワーク全体は、シーケンス全体のグラウンドトゥルースを用いて正しいラベルシーケンスを生成するように最適化することができる。

ニューラルビームフォーマ（ビームフォーマネットワーク）
ニューラルビームフォーマが以下において詳細に記述される。また、ニューラルビームフォーマは、ビームフォーマネットワークと称される場合がある。ビームフォーミングは、複数のマイクロフォンの信号から、参照マイクロフォン信号を選択する手順である。

ニューラルビームフォーマは、エンコーダ−デコーダネットワークと統合することができる。本開示の一実施形態に従って、マルチチャネルニューラル処理における大幅な計算複雑度の低減、計算パワーの低減を達成するために、時間領域ビームフォーマを用いるのではなく、周波数領域ビームフォーマを用いることができる。したがって、ビームフォーマネットワークの各々は、周波数領域データセットを用いる。これは、中央処理装置（ＣＰＵ）使用量又は画像処理装置（ＧＰＵ）使用量、電力消費、及び／又はネットワーク帯域幅使用量を低減することができる。

例えば、いくつかの実施態様は、時間領域ビームフォーマではなく周波数領域ビームフォーマを用いることで、マルチチャネルニューラル処理における計算複雑度の低減を達成する。

周波数領域表現において、フィルタリング和ビームフォーマは、以下のように線形フィルタを適用することによって強調された信号を得る。

ここで、ｘ_{ｔ、ｆ、ｃ}∈Ｃは、時間周波数ビン（ｔ，ｆ）における第ｃのチャネル雑音混入信号のＳＴＦＴ係数である。ｇ_{ｔ，ｆ，ｃ}∈Ｃは、対応するビームフォーミングフィルタ係数である。

は、強調されたＳＴＦＴ係数であり、Ｃは、チャネルの数である。

いくつかの実施形態は、式（１１）を用いて異なるタイプのニューラルビームフォーマを実施する。第１のタイプは、フィルタ推定ニューラルネットワークを実施し、第２のタイプは、マスク推定ニューラルネットワークを実施する。フィルタ推定ニューラルネットワークとマスク推定ニューラルネットワークとの間の差のうちの１つは、フィルタ係数ｇ_{ｔ，ｆ，ｃ}を計算する方法である。

フィルタ推定ネットワーク
図３Ａは、本発明のいくつかの実施形態による、フィルタ推定ネットワーク３００を用いたビームフォーミングを示すブロック図である。この場合、フィルタ推定ネットワーク３００は、いくつかの実施形態に従って、フィルタ係数を直接推定する。例えば、１つの実施形態は、ネットワークの出力として、時変フィルタ係数

を直接推定する。Ｆは、ＳＴＦＴ特徴の次元である。

フィルタ推定ネットワーク３００は、時間ステップごとに複素値フィルタ係数の実部及び虚部を予測するのに単一の実数値ＢＬＳＴＭネットワーク３１０を用いる。したがって、１つの実施態様は、複数の（２×Ｃ）出力層を導入して、チャネルごとにフィルタ係数の実部及び虚部を別個に計算する。その場合、ネットワークは、以下のように、第ｃのチャネルについて時間ステップｔにおける時変フィルタ係数

を出力する。

ここで、

は、ＢＬＳＴＭネットワークのＤ_Ｚ次元出力ベクトルのシーケンスである。

は、ＢＬＳＴＭネットワークについての２ＦＣ次元実数値ベクトルの入力特徴である。これは、全てのチャネルにおける全てのＳＴＦＴ係数の実部及び虚部を連結することによって得られる。

及び

は、フィルタ係数の実部及び虚部であり、

及び

は、第ｃのチャネルについての出力層の重み行列であり、そして、

及び

は、それらの対応するバイアスベクトルである。推定されたフィルタｇ_ｔ、ｃを用いて、強調されたＳＴＦＴ係数

は、式（１１）に基づいて得られる。

この手法は、その定式化に起因していくつかの起こり得る問題を有する。第１の問題は、推定されたフィルタ

の高い融通性であり、このフィルタは、少数の観測値から推定される多数の非制約の変数（２ＴＦＣ）から構成される。これにより、トレーニング困難性及びオーバーフィッティング等の問題が引き起こされる。第２の問題は、ネットワーク構造がチャネルの数及び順序に依存することである。したがって、マイクロフォン構成を変更する場合、新たなフィルタ推定ネットワークをトレーニングしなければならない。

マスク推定ネットワーク
図３Ｂは、本発明のいくつかの実施形態による、ＢＬＳＴＭマスク３６０及びＭＶＤＲ形式化モジュール３７０を含むマスク推定ネットワーク３５０を用いたビームフォーミングを示すブロック図である。この場合、マスク推定ネットワーク３５０は、ＢＬＳＴＭ３６０を用いて時間周波数マスクを推定し、最小分散無歪応答（ＭＶＤＲ）形式化に基づいて、ＭＶＤＲモジュール３７０を用いてフィルタ係数を求める。マスク推定ネットワークは、根拠が確かであるアレイ信号処理原理に基づいて、推定されたフィルタを制約することが有利である。

１つの実施形態では、ネットワークは、時間周波数マスクを推定し、これらの時間周波数マスクは、ＭＶＤＲ形式化に基づいて時間不変フィルタ係数

を計算するのに用いられる。また、マスクベースのビームフォーミング手法は、雑音混入音声認識ベンチマークにおいて非常に良好な性能を達成した。したがって、本発明の１つの実施形態は、マスクベースのＭＤＶＲビームフォーマ（マスクベースのＭＶＤＲビームフォーマネットワーク）を使用し、ここで、全体手順は、後続のエンドツーエンド音声認識システムのための微分可能ネットワークとして定式化される。

一実施形態によるマスク推定ネットワーク３５０は、式（１１）における時間不変フィルタ係数

を以下のように計算する。

ここで、Φ^Ｓ（ｆ）∈Ｃ^Ｃ×Ｃ及びΦ^Ｎ（ｆ）∈Ｃ^Ｃ×Ｃは、それぞれ、音声信号及び雑音信号についてのクロスチャネルパワースペクトル密度（ＰＳＤ）行列（空間共分散行列としても知られる）である。ｕ∈Ｒ^Ｃは、参照マイクロフォンを表すワンホットベクトルであり、Ｔｒ（・）は、行列トレース演算である。この定式は逆行列を含むものの、チャネルの数は比較的小さいので、フォワードパス及び導関数を効率的に計算することができることに留意されたい。

ＰＳＤ行列は、時間周波数マスクに対する期待値を用いて以下のように推定される。

ここで

は、時間周波数ビンごとに観測された信号の空間ベクトルであり、

及び

は、それぞれ音声及び雑音についての時間周波数マスクである。†は、共役転置を表す。

マスク推定ネットワーク
図４は、本発明の一実施形態による、図３Ｂのビームフォーミングにおいてフィルタ係数を計算する全体手順を示すブロック図である。

この場合、マスク推定は、２つの実数値ＢＬＳＴＭネットワーク４０５及び４１０を用いる。ＢＬＳＴＭネットワーク４０５は、音声マスクを生成するために用いられ、ＢＬＳＴＭネットワーク４１０は、雑音マスクを生成するためのものである。ＢＬＳＴＭネットワーク４０５及び４１０の各々は、以下のように、それぞれステップＳ１及びＳ１’において音声信号及び雑音信号に関連した時間周波数マスクを出力する。

ここで、

は、第ｃのチャネルの入力ＳＴＦＴに対する音声マスクを得るための、ＢＬＳＴＭネットワークのＤ_Ｚ次元ベクトルの出力シーケンスである。

は、雑音マスクのためのＢＬＳＴＭ出力シーケンスである。

は、２Ｆ次元実数値ベクトルの入力特徴である。これは、第ｃのチャネルにおける全てのＳＴＦＴ特徴の実部及び虚部を連結することによって得ることができる。

及び

は、それぞれ時間ステップｔにおいて第ｃのチャネルごとの推定された音声マスク及び雑音マスクである。

は、それぞれ最終的に音声マスク及び雑音マスクを出力するための出力層の重み行列であり、

は、それらの対応するバイアスベクトルである。

チャネルごとに音声マスク及び雑音マスクを計算した後、平均マスクが以下のように得られる。

これらの平均マスクは、式（１６）及び式（１７）において記述されたように、それぞれステップＳ２及びＳ２’においてＰＳＤ行列を推定するのに用いられる。ＰＳＤ行列は、チャネル同士の間の相関情報を表す。３次元空間（例えば、部屋）において配置された複数のマイクロフォンから参照マイクロフォンを選択するために、音声信号に関連した空間相関がより有益であり、したがって、音声ＰＳＤ行列Φ^Ｓ（ｆ）のみをステップＳ３における特徴として用いる。さらに、時間平均状態ベクトル

が、ステップＳ４において、音声マスク及び雑音マスクについてＢＬＳＴＭネットワーク４０５及び４１０から抽出される。次のステップＳ５において、参照マイクロフォンは、式（１５）に従って参照マイクロフォンベクトルｕを用いて推定される。参照マイクロフォンベクトルｕは、以下のセクションにおいて述べられるように、時間不変特徴ベクトルｑ_ｃ及びＰＳＤ特徴ベクトルｒ_ｃからのものであることに留意されたい。ステップＳ５におけるアテンション（ａｔｔｅｎｔｉｏｎ）ベースニューラルネットワーク４１５（アテンション（Ａｔｔｅｎｔｉｏｎ）メカニズム）に基づく参照マイクロフォン（参照チャネル又は参照チャネル入力）の選択に続いて、ステップＳ６において、ＭＶＤＲ形式化に基づいてマスク推定ネットワーク４２０を用いて、フィルタ係数

が計算される。ステップＳ６において計算されたフィルタ係数は、エンドツーエンドＡＳＲシステム４３０に出力されて、マルチチャネル入力

からの音声認識が実行される。マルチチャネル入力の定式化手順が、以下で述べられる。

いくつかの場合、音声信号に関連したＰＳＤ行列は、音声統計値（speech statistics）と称される場合があり、雑音信号に関連したＰＳＤ行列は、雑音統計値（noise statistics）と称される場合がある。さらに、マイクロフォンは、３Ｄ空間において空間的に配置され、複数のマイクロフォンのうちの各々は、１つのチャネルに対応することができる。したがって、複数のマイクロフォンは、マルチチャネル信号を生成し、１つのマイクロフォンは、１つのチャネルを提供し、主チャネル信号（参照マイクロフォン）は、音声統計値、又は、音声及び雑音統計値を用いて選択することができる。音声及び雑音統計値は、時間不変特徴であるので、参照マイクロフォン（参照チャネル）選択プロセスは、時変信号処理と比較して簡略化することができることに留意されたい。

アテンション（ａｔｔｅｎｔｉｏｎ）ベース参照選択
アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダニューラルネットワークは、エンコーダニューラルネットワークとアテンション（ａｔｔｅｎｔｉｏｎ）ベースデコーダニューラルネットワークとを含むことができ、このネットワークにおいて、エンコーダニューラルネットワーク及びデコーダニューラルネットワークは、再帰型ニューラルネットワーク（ＲＮＮ）である。いくつかの場合、エンコーダニューラルネットワークは、エンコーダネットワークと称される場合があり、デコーダニューラルネットワークは、デコーダネットワークと称される場合がある。この場合、入力シーケンス長を削減するためにネットワーク内のいくつかの層にサブサンプリング技法が適用され、入力シーケンス長は、入力（入力データ）の数に関連する。エンコーダネットワークは、双方向長期短期記憶再帰型ネットワークを含むことができる。さらに、デコーダネットワークは、ＬＳＴＭベース再帰型ネットワークをフィードフォワードネットワークとして含むことができる。

参照マイクロフォン選択をニューラルビームフォーマフレームワーク（ビームフォーマネットワーク）に組み込むために、実施形態は、アテンション（ａｔｔｅｎｔｉｏｎ）メカニズム（アテンション（ａｔｔｅｎｔｉｏｎ）ベースネットワークと称される、アテンション（ａｔｔｅｎｔｉｏｎ）ベースニューラルネットワーク）から導出された式（１５）におけるベクトルｕのためにソフトマックスを用いる。この手法において、参照マイクロフォンベクトルｕは、以下のように時間不変特徴ベクトルｑ_ｃ及びｒ_ｃから推定される。

ここで、

は、トレーニング可能重みパラメーターであり、

は、トレーニング可能バイアスベクトルである。βは、シャープニング係数（sharpening factor）である。２つのタイプの特徴、すなわち、１）式（１８）及び式（２０）における音声及び雑音マスクについてＢＬＳＴＭネットワークから抽出された時間平均状態ベクトル

、すなわち、

と、２）アテンション（ａｔｔｅｎｔｉｏｎ）メカニズムに空間情報を組み込むＰＳＤ特徴

とが用いられる。以下の式

は、ｒ_ｃを計算する方法を表しており、ここで、

は、式（１６）における音声ＰＳＤ行列Φ^Ｓ（ｆ）の第ｃの行及び第ｃ’の列におけるエントリである。ＰＳＤ行列は、チャネル同士の間の相関情報を表す。参照マイクロフォンを選択するために、音声信号に関連した空間相関がより有益であり、したがって、音声ＰＳＤ行列Φ^Ｓ（ｆ）のみを特徴として用いる。

このマスク推定ベースＭＶＤＲビームフォーマにおいて、チャネルごとのマスクを、式（１２）とは異なるように、同じＢＬＳＴＭネットワークを用いて別個に計算することができ、マスク推定ネットワークは、チャネルとは独立していることに留意されたい。同様に、参照選択ネットワークもチャネルとは独立しており、ビームフォーマネットワークは、ネットワークを再トレーニングすることも再構成することもなく、チャネルの任意の数及び順序で入力信号に対処する。

マルチチャネルエンドツーエンドＡＳＲ
マルチチャネルエンドツーエンド音声認識システムは、単一のニューラルアーキテクチャ内で異なる微分コンポーネントを統合する。例えば、マルチチャネルエンドツーエンド自動音声認識（ＡＳＲ）システムの１つの実施態様は、音声強調部分としてニューラルビームフォーマを含むとともに、音声認識部分としてアテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダを含む。

マルチチャネル入力

から出力ラベル

のシーケンスを生成する全体手順は、以下のように定式化される。

Ｅｎｈａｎｃｅ（・）は、フィルタ推定ネットワーク３００又はマスク推定ネットワーク３５０を用いて、式（１１）に基づいてニューラルビームフォーマによって実現される音声強調関数である。

Ｆｅａｔｕｒｅ（・）は、特徴抽出関数である。この場合、正規化対数メルフィルタバンク変換を用いて、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダ２００の入力として、強調されたＳＴＦＴ係数

から計算された

を得る。

ここで、ｐ_ｔ∈Ｒ^Ｆは、時間ステップｔにおける強調された信号のパワースペクトルの実数値ベクトルであり、Ｍｅｌ（・）は、Ｄ_Ｏ×Ｆメル行列乗算の演算であり、Ｎｏｒｍ（・）は、平均が０及び分散が１になるような全体の平均及び分散の正規化の演算である。Ｅｎｃｏｄｅｒ（・）、Ａｔｔｅｎｔｉｏｎ（・）、及びＤｅｃｏｄｅｒ（・）は、それぞれ、強調された対数メルフィルタバンクのような特徴

のシーケンスを入力として用いて、式（７）、式（８）、及び式（９）において規定される。とりわけ、強調、特徴抽出、エンコーダ、アテンション（ａｔｔｅｎｔｉｏｎ）、及びデコーダ等の全ての手順は、微分可能グラフを用いて接続される。したがって、実施形態は、推論全体を最適化して、正しいラベルシーケンスを生成することができる。エンドツーエンド方式におけるニューラルネットワーク１０８の共同トレーニングは、最適化を実行する。

共同トレーニング
いくつかの実施形態では、ニューラルネットワーク１０８は、エンドツーエンド方式においてトレーニングされることで、雑音混入マルチチャネル音声信号の認識と、雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減する。

ニューラルネットワークをトレーニングすることは、人工ニューラルネットワークネットワークにおける結合に関連付けられた重み値を計算することを伴う。そのために、本明細書においてそうではないことを明言されない限り、トレーニングは、全結合ネットワーク、補間及び畳み込みにおける結合のための重み値を電子的に計算することを含む。

例示の構成
いくつかの実施形態は、雑音混入音声信号及び強調された音声信号の双方のための入力特徴ベクトルとして、４０次元対数メルフィルタバンク係数を用いる（Ｄ_Ｏ＝４０）。１つの実施形態は、エンコーダにおいて３２０個のセルを有する４層ＢＬＳＴＭを用いるとともに（Ｄ_Ｈ＝３２０）、デコーダにおいて３２０個のセルを有する１層ＬＳＴＭを用いる（Ｄ_Ｓ＝３２０）。エンコーダにおいて、この実施形態は、第１の層及び第２の層の隠れ状態をサブサンプリングし、後続層の入力のために１つおきの隠れ状態を用いる。したがって、エンコーダの出力層における隠れ状態の数は、Ｌ＝Ｔ／４に低減される。全てのＢＬＳＴＭ層の後、この実施形態は、３２０個のユニットを有する線形射影層を用いて、前方ＬＳＴＭ出力及び後方ＬＳＴＭ出力を組み合わせる。アテンション（ａｔｔｅｎｔｉｏｎ）メカニズムの場合、幅１００（Ｄ_ｆ＝１００）の１０個の中心畳み込みフィルタ（Ｄ_Ｆ＝１０）が用いられて、畳み込み特徴が抽出される。いくつかの実施態様は、アテンション（ａｔｔｅｎｔｉｏｎ）内積次元を３２０として設定し（Ｄ_Ｗ＝３２０）、シャープニング係数α＝２を用いる。雑音混入環境において最適化をブーストするために、１つの実施形態は、共同コネクショニスト時系列分類（ＣＴＣ：Connectionist Temporal Classification）アテンション（ａｔｔｅｎｔｉｏｎ）マルチタスク損失関数を使用し、ＣＴＣ損失重みを０．１として設定する。

復号の場合、いくつかの実施形態は、各出力ステップにおいてビームサイズ２０でビーム探索法を用いて、計算コストを低減する。ＣＴＣスコアを用いて、０．１の重みを用いて仮説を再スコアリングすることもできる。１つの実施形態は、復号目標に長さペナルティ項を用いて、ペナルティ重みを０．３として設定する。いくつかの実施形態は、外部辞書又は言語モデルを何ら用いることなく純粋にエンドツーエンドセットアップを追求し、ＣＥＲを評価メトリックとして用いた。

いくつかの実施態様は、２５６個のＳＴＦＴ係数を用いており、オフセットは、１０ｍｓのシフトを有する２５ｍｓ幅ハミングウィンドウから計算された（Ｆ＝２５７）。フィルタ推定ネットワーク及びマスク推定ネットワークの双方は、サブサンプリング技法を用いることなく、３２０個のセルを有する同様の３層ＢＬＳＴＭ（Ｄ_Ｚ＝３２０）を用いることができる。参照選択アテンション（ａｔｔｅｎｔｉｏｎ）メカニズムの場合、いくつかの実施形態は、エンコーダ−デコーダネットワークのものと同じアテンション（ａｔｔｅｎｔｉｏｎ）内積次元（Ｄ_Ｖ＝３２０）及びシャープニング係数β＝２を用いた。

共有される構成
いくつかの構成において、全てのパラメーターは、最適化のために勾配クリッピング（gradient clipping）を用いて、ＡｄａＤｅｌｔａ法を用いた一様分布の範囲［−０．１，０．１］で初期化される。いくつかの実施態様は、ＡｄａＤｅｌｔａハイパーパラメーターρ＝０．９５及びε＝１^−８を初期化する。バリデーションセットにわたる損失が劣化すると、これらの実施態様は、各後続のエポックにおいて、ＡｄａＤｅｌｔａハイパーパラメーターεに０．０１を乗算することによって、このＡｄａＤｅｌｔａハイパーパラメーターεを減少させる。例えば、トレーニング手順は、１５個のエポックの後に停止することができる。トレーニング中、いくつかの実施形態は、複数条件トレーニング戦略を採用した。すなわち、ニューラルビームフォーマを通して強調された特徴を用いた最適化に加えて、これらの実施形態は、ニューラルビームフォーマを通すことなくエンコーダ−デコーダネットワークの入力として、雑音混入マルチチャネル音声データも用いた。ネットワーク全体は、事前トレーニング手順を何ら用いることなく、スクラッチからトレーニングされる。ニューラルネットワークは、Ｃｈａｉｎｅｒを用いることによって実施することができる。

実施態様の例示のセットアップ
図５は、本発明の実施形態による、ＣＨｉＭＥ−４コーパスについての文字誤り率を示す実験結果を示している。この図は、５つのシステム、すなわち、ＮＯＩＳＹ、ＢＥＡＭＦＯＲＭＩＴ、ＦＩＬＴＥＲＮＥＴ、ＭＡＳＫ＿ＮＥＴ（ＲＥＦ）、及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）を用いたＣＨｉＭＥ−４の認識性能を示している。ＮＯＩＳＹ及びＢＥＡＭＦＯＲＭＩＴは、基準の単一チャネルエンドツーエンドシステムであり、これらは、それらのフレームワークにおいて音声強調部分を含まなかった。それらのエンドツーエンドネットワークは、従来的な複数条件トレーニング戦略に従うことによって雑音混入音声データのみを用いてトレーニングされた。復号中、ＮＯＩＳＹは、入力としてＣＨｉＭＥ−４において「隔離された１チャネルトラック」からの単一チャネル雑音混入音声データを用いた一方、ＢＥＡＭＦＯＲＭＩＴは、入力として、遅延和ビームフォーマとして当業者に既知のＢｅａｍｆｏｒｍＩｔを用いて５チャネル信号から得られた強調された音声データを用いた。

ＦＩＬＴＥＲＮＥＴ、ＭＡＳＫ＿ＮＥＴ（ＲＥＦ）、及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）は、上記で記述したマルチチャネルエンドツーエンドシステムであった。参照選択の有効性を評価するために、本発明者らは、アテンション（ａｔｔｅｎｔｉｏｎ）ベース参照選択を用いるマスクベースのビームフォーマに基づくＭＡＳＫ＿ＮＥＴ（ＡＴＴ）を準備した。換言すれば、ビームフォーマネットワークは、マスク推定ネットワークである。さらに、第５のチャネルを用いたＭＡＳＫ＿ＮＥＴ（ＲＥＦ）は、固定参照マイクロフォンとして用いられ、これは、タブレットデバイスの中央正面に配置される。

図５において、ＢＥＡＭＦＯＲＭＩＴ、ＦＩＬＴＥＲＮＥＴ、ＭＡＳＫ＿ＮＥＴ（ＲＥＦ）、及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）は、ＮＯＩＳＹに性能で優ることも示しており、このことは、音声強調をアテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダフレームワークと組み合わせることの有効性を裏付ける。ＭＡＳＫ＿ＮＥＴ（ＲＥＦ）及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）の比較は、参照選択のためにアテンション（ａｔｔｅｎｔｉｏｎ）ベースメカニズムの使用を検証する。セクション３．１において記述されるフィルタ推定ネットワークに基づくＦＩＬＴＥＲＮＥＴも、ＮＯＩＳＹに比較して性能を改善していたが、ＭＡＳＫ＿ＮＥＴ（ＡＴＴ）よりも不良である。これは、制約の欠如に起因してフィルタ推定ネットワークを最適化してフィルタ係数を推定することが困難であり、何らかの慎重な最適化が必要であるためである。最後に、ＭＡＳＫ＿ＮＥＴ（ＡＴＴ）は、ＢＥＡＭＦＯＲＭＩＴよりも良好な認識性能を達成しており、このことは、音声強調及び（エンドツーエンド）音声認識のパイプライン組み合わせに優る、本発明の共同統合の有効性を証明する。

さらに、マルチチャネルエンドツーエンドフレームワークの有効性が、以下で記述される。図６は、実施形態による、３つのシステムの認識性能の比較を示す、ＡＭＩコーパスについての実験結果を示している。

この場合、図６は、３つのシステム、すなわち、ＮＯＩＳＹ、ＢＥＡＭＦＯＲＭＩＴ、及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）の認識性能の比較を示す、ＡＭＩコーパスについての実験結果を示している。ＮＯＩＳＹにおいて、本発明者らは、システムへの入力としてＡＭＩにおける第１のチャネルからの雑音混入音声データを用いた。図６は、ＡＭＩにおいてでさえ、本発明者らによって提案されたＭＡＳＫ＿ＮＥＴ（ＡＴＴ）は、アテンション（ａｔｔｅｎｔｉｏｎ）ベースの基準（ＮＯＩＳＹ及びＢＥＡＭＦＯＲＭＩＴ）よりも良好な認識性能を達成したことも示し、このことも、本発明者らによって提案されたマルチチャネルエンドツーエンドフレームワークの有効性を裏付ける。ＢＥＡＭＦＯＲＭＩＴは、強調された信号を用いてさえ、ＮＯＩＳＹよりも不良であったことに留意されたい。この現象は、音声強調のみによって引き起こされた歪みが、再トレーニングを伴わないと性能を劣化させるという、雑音混入音声認識において時として観察される。本発明者らによるエンドツーエンドシステムは、音声強調部分をＡＳＲ目標と共同で最適化し、そのような劣化を回避することができる。

図７は、本発明の実施形態による、ＣＨｉＭＥ−４検証精度の影響を示す実験結果を示している。図７は、チャネルの数及び順序に対するＣＨｉＭＥ−４検証精度の影響を示している。検証精度は、デコーダの再帰的文字生成中に、式（１０）においてグラウンドトゥルースラベルｙ^＊ _{１：ｎ−１}について条件付けられて計算され、これは、ＣＥＲとの強力な相関を有する。表の第２の列は、チャネルインデックスを表しており、これは、同じＭＡＳＫ＿ＮＥＴ（ＡＴＴ）ネットワークの入力として用いられた。

５＿６＿４＿３＿１及び３＿４＿１＿５＿６の比較は、チャネルの順序がＭＡＳＫ＿ＮＥＴ（ＡＴＴ）の認識性能に影響を及ぼさなかったことを示している。加えて、本発明者らが入力としてより少数である３つ又は４つのチャネルを用いた場合でさえ、ＭＡＳＫ＿ＮＥＴ（ＡＴＴ）は、依然としてＮＯＩＳＹ（単一チャネル）に性能で優った。これらの結果は、本開示によるマルチチャネルエンドツーエンドシステムが、再構成及び再トレーニングを何らすることなく、チャネルの任意の数及び順序で入力信号に対処することができることを裏付ける。

ビームフォーマネットワークによって処理される特徴の視覚化
本発明者らは、本発明の実施形態による、ニューラルビームフォーマ（ビームフォーマネットワーク）を用いる、本発明者らによって展開された音声強調成分の挙動を解析する。

図８Ａ〜図８Ｃは、第５のチャネル雑音混入信号、ＢｅａｍｆｏｒｍＩｔを用いて強調された信号（関連技術）、及び本発明者らによって提案されたＭＡＳＫ＿ＮＥＴ（ＡＴＴ）を用いて強調された信号を有する、同じＣＨｉＭＥ−４発話のスペクトログラムを示している。

図８Ａは、第５のチャネル雑音混入信号を有する、ＣＨｉＭＥ−４発話の対数振幅スペクトログラムを示す図であり、図８Ｂは、ＢｅａｍｆｏｒｍＩｔを用いて強調された信号の対数振幅スペクトログラムを示す図であり、図８Ｃは、ＭＡＳＫ＿ＮＥＴ（ＡＴＴ）を用いて強調された信号の対数振幅スペクトログラムを示す図である。これらの図面において、雑音混入信号及び強調された信号に関連した四角エリアが抽出され、図面の側部に示される。

本発明者らは、ＢｅａｍｆｏｒｍＩｔ及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）が、ぼやけたグレーエリアを全体的に消去することによって、第５のチャネル信号と比較して雑音を抑制することに成功したことを確認することができた。加えて、ブラックボックスの内側に焦点を合わせることによって、第５のチャネル信号においては崩壊していた高調波構造が、ＢｅａｍｆｏｒｍＩｔ及びＭＡＳＫ＿ＮＥＴ（ＡＴＴ）において復元された。この結果は、本発明者らによって提案されたＭＡＳＫ＿ＮＥＴ（ＡＴＴ）が、目標としてクリーンデータを明示的に用いることなく、エンドツーエンドＡＳＲ目標に基づいて最適されるものの、従来的なビームフォーマと同様の雑音抑制関数を学習することに成功したことを示唆している。

雑音混入音声認識の計算コストの削減
さらに、本発明は、雑音混入音声認識の計算コストを削減することができ、したがって、本発明は、中央処理装置（ＣＰＵ）使用量、又は画像処理装置（ＧＰＵ）使用量、電力消費、及び／又はネットワーク帯域幅使用量を低減する。

一般に、音声認識において、所与の音声入力について最も可能性の高い単語／文字シーケンスを発見するために、少数の単語／文字シーケンス仮説のみが探索される。例えば、ビーム探索方法が用いられ、この方法において、より短い仮説がまずスコアリングされ、上位Ｎ個の高スコアを有する、見込みのある仮説のみが、各見込みのある仮説の末尾に単語／文字を加えることによって拡張される。ここで、Ｎは、ビームサイズである。仮説が或る特定の長さを有するまでこの仮説の拡張及びスコアリングを繰り返した後、最良のスコアの仮説が、全てのスコアを有する仮説の中からもたらされる音声認識として選択される。ビーム探索の計算コストは、全ての可能性のある仮説を列挙するとともにスコアリングする全探索よりも遥かに低い。

しかしながら、音声信号において背景雑音が存在する場合、ビーム探索法は、見込みのある仮説の特定に失敗する場合がある。なぜならば、雑音信号は、音声特徴の曖昧性を増大させ、スコアが互いに近くなるためである。この場合、最良のスコアを実際に有する仮説は、その長さが短い間に剪定される場合があるため、発見されない場合がある。最良のスコアが発見されることを確実にするために、より多くの仮説が、ビームサイズを増大させることによって拡張される必要がある。これは、音声認識の計算コストを明らかに増大させる。本発明は、共同でトレーニングされたビームフォーマネットワークを含み、これは、雑音を抑制することによって音声特徴の曖昧性を低減させるため、雑音混入音声でさえ最良の仮説を発見するために、数Ｎを増大させる必要がない。

図９は、本発明の一実施形態による、マルチチャネルエンドツーエンド音声認識システム９００によって実行されるエンドツーエンドマルチチャネル音声認識を示す図である。

マルチチャネルエンドツーエンド自動音声認識（ＡＳＲ）システム９００は、インターフェース９１１に接続された複数のマイクロフォン９１０を含む。マルチチャネルＡＳＲシステム９００は、第１の特徴抽出器９２０、マスク推定ネットワーク９３０、ビームフォーマ（ＢＦ）ネットワーク９４０、第２の特徴抽出器９５０、及びエンドツーエンドＡＳＲニューラルネットワーク（ＡＳＲネットワーク）９６０も含む。第１の特徴抽出器９２０、マスク推定ネットワーク９３０、ＢＦネットワーク９４０及び第２の特徴抽出器９５０は、ＡＳＲシステム９００の１つ以上のメモリ又はストレージ（図示せず）に記憶されたプログラムモジュールであり、システム９００内の１つ以上のプロセッサ（図示せず）によって実行されると、プログラムモジュールのプログラムコードに従ってデータ処理を実行する。

マスク推定ネットワーク９３０は、所定のマスク推定グラウンドトゥルース入力データを用いてマスク推定ネットワーク９３０をトレーニングすることによって得られている事前トレーニングされたマスクデータセットを含む。

ビームフォーマネットワーク９４０は、所定のビームフォーマグラウンドトゥルース入力データを用いてＢＦネットワーク９４０をトレーニングすることによって得られている事前トレーニングされたビームフォーマデータセットを含む。

ＡＳＲネットワーク９６０は、所定のＡＳＲグラウンドトゥルース入力データを用いてＡＳＲネットワーク９６０をトレーニングすることによって得られている事前トレーニングされたＡＳＲデータセットを含む。

インターフェース９１１は、マイクロフォン９１０から提供された音響音声及び雑音混入信号を、マルチチャネルデジタル入力データ（マルチチャネル入力）９１２に変換する。この場合、マルチチャネル入力９１２は、それぞれ、マイクロフォン９１０の出力に対応する。いくつかの場合、マイクロフォン９１０は、マイクロフォンのアレイとすることもできるし、３次元（３Ｄ）空間内の所定の位置において配置することもできる。

マルチチャネル入力９１２は、個々のマイクロフォン９１０の出力から、短期フーリエ変換（ＳＴＦＴ）アルゴリズムに基づいて信号特徴９２１を抽出する第１の特徴抽出器９２０に導入される。マルチチャネル入力９１２の信号特徴９２１は、マスク推定ネットワーク９３０を用いて処理され、このマスク推定ネットワーク９３０は、音声関連マスク及び雑音関連マスクを含むマスク９３１を推定して生成し、これらのマスクは、ＭＶＤＲ形式化に基づいて時間不変フィルタ係数

を計算するための、それぞれのチャネルに対応する時間周波数マスクである。音声関連マスク及び雑音関連マスクは、チャネルの数によってそれぞれ平均化され、式（１６）及び式（１７）において表現されたＰＳＤ行列が推定される。したがって、マスク９３１は、平均音声関連マスク及び平均雑音マスク（図示せず）である。この場合、マスク推定ネットワーク９３０は、所定のグラウンドトゥルースデータセットを用いて事前トレーニングされる。

さらに、抽出された特徴９２１は、ＢＦネットワーク９４０に含まれるＭＶＤＲ推定モジュールに基づいてマスク９３１を用いて処理され、ＢＦフィルタ係数９４１が計算される。この場合、フィルタ係数９４１は、音声信号及び雑音信号のためのクロスチャネルパワースペクトル密度（ＰＳＤ）行列（特徴）に対応する時間不変フィルタ係数

である。計算されたフィルタ係数９４１は、ビームフォーマプロセス９４２においてＢＦネットワーク９４０によって特徴９２１を用いて処理され、ビームフォーミングされた音声データセット９４３が生成される。この場合、ビームフォーミングされた音声データセット９４３は、単一チャネルの強調された音声データセットである。さらに、第２の特徴抽出器９５０は、ＢＦ音声データセットから特徴を抽出し、抽出された特徴９５１をエンドツーエンドＡＳＲネットワーク（ＡＳＲネットワーク）９６０に提供する。最後に、ＡＳＲネットワーク９６０は、抽出された特徴９５１を処理することによってテキスト９７０を出力する。

エンドツーエンドＡＳＲシステム９００をトレーニングする間、所定のエンドツーエンドグラウンドトゥルースデータセットが、抽出された特徴９２１を用いる代わりに直接マスク推定ネットワーク９３０に導入され、出力テキスト９７０とその対応するグラウンドトゥルースとの間の誤差がグラウンドトゥルースデータセットごとに得られ、後方伝播プロセスが、所定のエンドツーエンドグラウンドトゥルースデータセット全体が処理されるまで実行される。所定のエンドツーエンドグラウンドトゥルースデータセットを用いたエンドツーエンドトレーニングプロセスを通して得られたマスク推定ネットワーク９３０、ＢＦネットワーク９４０及びＡＳＲネットワーク９６０のネットワークパラメーターは、エンドツーエンドマルチチャネル認識トレーニングセットとして１つ以上のストレージ９８０に記憶される。

１つの実施形態による別のエンドツーエンドＡＳＲシステムでは、エンドツーエンドＡＳＲシステムは、バスによってリードオンリーメモリ（ＲＯＭ）及びメモリに接続されたプロセッサを含むことができる。トレーニングシステムは、ユーザーに情報を提示するディスプレイ、並びに、キーボード、マウス及び入力／出力ポートを介してアタッチすることができる他のデバイスを含む複数の入力デバイスも含むことができる。他のポインティングデバイス又はボイスセンサー又は画像センサー等の他の入力デバイスもアタッチすることができる。他のポインティングデバイスは、タブレット、テンキーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。Ｉ／Ｏは、通信線、ディスクストレージ、入力デバイス、出力デバイス又は他のＩ／Ｏ機器に接続することができる。メモリは、ディスプレイスクリーンのピクセル強度値を含むディスプレイバッファーを含む。ディスプレイは、これらの値をディスプレイスクリーン上に表示するディスプレイバッファーからピクセル値を周期的に読み取る。ピクセル強度値は、グレーレベル又は色を表すことができる。

メモリは、データベース、トレーナー、ニューラルネットワーク、プリプロセッサを含む。データベースは、履歴データ、トレーニングデータ、テストデータを含むことができる。データベースは、ニューラルネットワークを用いる運用モード、トレーニングモード又は維持モードからの結果も含むことができる。これらの要素は、上記で詳述している。

メモリには、オペレーティングシステムも示されている。オペレーティングシステムの例として、ＡＩＸ、ＯＳ／２、及びＤＯＳが挙げられる。メモリに示す他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバーを含む。メモリには、ワーキングメモリエリアも示されている。ワーキングメモリエリアは、メモリに示す要素のうちの任意のものが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク、トレーナー、オペレーティングシステム及び他の機能が利用することができる。ワーキングメモリエリアは、複数の要素間で区切ることができ、１つの要素内で区切ることができる。ワーキングメモリエリアは、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶のために利用することができる。

本開示の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の１つを用いる１つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び／又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることもできるし、分散させることもできる。

さらに、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、いくつかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第１、第２等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

音声信号を含む音響信号を受信する複数のマイクロフォンと、
前記音響信号からマルチチャネル入力を生成する入力インターフェースと、
マルチチャネル音声認識ネットワークを記憶する１つ以上のストレージであって、前記マルチチャネル音声認識ネットワークは、
前記マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、
前記時間周波数マスクを用いて前記マルチチャネル入力から参照チャネル入力を選択して、前記参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、
前記強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークと、
を含む、１つ以上のストレージと、
前記１つ以上のストレージと関連して前記マルチチャネル音声認識ネットワークを用いて、前記マルチチャネル入力から前記テキストを生成する１つ以上のプロセッサと、
前記テキストをレンダリングする出力インターフェースと、
を備える、音声認識システム。
前記マスク推定ネットワークは、第１のマスクネットワーク及び第２のマスクネットワークを含み、前記第１のマスクネットワークは、前記マルチチャネル入力の音声マスクを生成するようにトレーニングされ、前記第２のマスクネットワークは、前記マルチチャネル入力の雑音マスクを生成するようにトレーニングされる、請求項１に記載の音声認識システム。
前記第１のマスクネットワーク及び前記第２のマスクネットワークは、前記ビームフォーマネットワークと統合される、請求項１に記載の音声認識システム。
前記エンコーダ−デコーダネットワークは、アテンション（ａｔｔｅｎｔｉｏｎ）ベースエンコーダ−デコーダネットワークである、請求項１に記載の音声認識システム。
前記ビームフォーマネットワークは、周波数領域データセットを用いる、請求項１に記載の音声認識システム。
前記マルチチャネル音声認識ネットワークは、短期フーリエ変換アルゴリズムに基づいて前記マルチチャネル入力から信号特徴を抽出する第１の特徴抽出器を含む、請求項１に記載の音声認識システム。
前記第１の特徴抽出器は、前記信号特徴のために、対数メルフィルタバンク係数を用いた、請求項６に記載の音声認識システム。
前記ビームフォーマネットワーク及び前記エンコーダ−デコーダネットワークは、共同で最適化される、請求項１に記載のシステム。
前記ビームフォーマネットワークは、音声パワースペクトル密度（ＰＳＤ）行列を用いる、請求項１に記載のシステム。
前記マスク推定ネットワークは、双方向長期短期記憶再帰型ニューラルネットワークである、請求項１に記載のシステム。
前記マルチチャネル音声認識ネットワークは、前記マスク推定ネットワークに接続された第１の特徴抽出器を更に含み、前記第１の特徴抽出器は、微分可能関数である、請求項１に記載のシステム。
前記微分可能関数は、チャネル信号の振幅のｂａｒｋ関数である、請求項１１に記載のシステム。
前記入力インターフェースは、マイクロフォンのアレイであり、前記出力インターフェースは、ディスプレイデバイスを含む、請求項１に記載のシステム。
前記ニューラルネットワークは、雑音混入マルチチャネル音声信号の認識と、前記雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減するように、エンドツーエンド方式においてトレーニングされる、請求項１に記載のシステム。
方法を実行するプロセッサによって実行可能であるプログラムが具現化された非一時的コンピューター可読記憶媒体であって、前記方法は、
入力インターフェースからマルチチャネル音声信号を受信することと、
マルチチャネル信号を単一チャネル信号に設定する第１のマイクロフォンデータを求めるようにトレーニングされたビームフォーマネットワークを含むマルチチャネル音声認識ニューラルネットワークと、前記単一チャネル信号の音声特徴からテキストを認識するようにトレーニングされた認識サブネットワークとを用いた前記音声認識を実行することであって、強調サブネットワーク及び前記認識サブネットワークは、共同でトレーニングされることと、
前記認識されたテキストを出力インターフェースに提供することと、
を含む、非一時的コンピューター可読記憶媒体。