JP2017515140A

JP2017515140A - 混合音声認識

Info

Publication number: JP2017515140A
Application number: JP2016558287A
Authority: JP
Inventors: ユー，ドン; ウェン，チャオ; エル．セルトザー，マイケル; ドロッポ，ジェイムズ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-03-24
Filing date: 2015-03-19
Publication date: 2017-06-08
Anticipated expiration: 2035-03-19
Also published as: WO2015148237A1; CN106104674A; US20160284348A1; EP3123466B1; RU2016137972A; RU2016137972A3; US9558742B2; EP3123466A1; RU2686589C2; US20150269933A1; CN106104674B; US9390712B2; US20170110120A1; US9779727B2; JP6486381B2

Abstract

特許請求される主題は、ソースからの混合音声を認識するためのシステム及び方法を含む。本方法は、混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第１のニューラルネットワークをトレーニングすることを含む。本方法はまた、混合音声サンプルからのより低レベルの音声特性を有する話者により発話された音声信号を認識するように、第２のニューラルネットワークをトレーニングすることを含む。さらに、本方法は、特定のフレームが音声特性の切り替わりポイントである確率を考慮して、これら２つの音声信号を観測する統合尤度を最適化することにより、第１のニューラルネットワーク及び第２のニューラルネットワークを使用して、混合音声サンプルを復号することを含む。

Description

音声認識システムの雑音ロバスト性を向上させることにおける進歩がなされているが、競合話者の存在下における音声（混合音声）を認識することには、課題が残されている。競合話者の存在下における単一マイクロフォン音声認識の場合について、研究者は、混合音声サンプルに対して様々な技術を適用し、これらの技術の間で比較を行っている。これらの技術は、ターゲット音声信号と競合音声信号との間の相互作用及びそれらの時間的力学（temporal dynamics）について階乗（factorial）ガウス混合モデル−隠れマルコフモデル（ＧＭＭ−ＨＭＭ）を用いるモデルベースの手法を含む。この技術を使用すると、統合推定すなわち統合復号により、２つの最も可能性が高い音声信号すなわち発話文が識別される。

計算論的聴覚情景分析（ＣＡＳＡ）及び「ミッシングフィーチャ」の手法において、セグメンテーションルールが、各話者に属する信号成分を分離する時間周波数マスクを推定するために、低レベル特徴量に対して作用する。このマスクは、信号を再構成するために、又は、復号プロセスに通知するために、使用され得る。他の手法は、分離とピッチに基づく強調とのために、非負値行列分解（ＮＭＦ）を用いる。

１つの手法において、分離システムは、２５６個のガウス分布（Gaussian）を有する階乗ＧＭＭ−ＨＭＭ生成モデルを使用して、各話者について音響空間をモデル化する。これは、小語彙については有用であるが、大語彙タスクについてはプリミティブなモデルである。より多数のガウス分布を使用すると、階乗ＧＭＭ−ＨＭＭに対して推定を実行することは、計算的に実現困難になる。さらに、そのようなシステムは、話者依存のトレーニング（学習）データ、及び、トレーニングとテストとの間の話者のクローズドセット（closed set）の利用可能性を想定しており、これは、多数の話者については実現困難であり得る。

以下において、本明細書に記載のいくつかの態様の基本的理解を提供するために、本イノベーションの簡略化された概要が提示される。この概要は、特許請求される主題の広範な概要ではない。この概要は、特許請求される主題の主要な要素を特定することを意図するものでもないし、特許請求される主題の範囲を線引きすることを意図するものでもない。その唯一の目的は、後で提示されるより詳細な説明の前段として、特許請求される主題のいくつかのコンセプトを、簡略化された形で提示することにある。

システム及び方法は、ソースからの混合音声を認識する。本方法は、混合音声サンプルからのより高レベルの音声特性を有する話者の音声信号を認識するように、第１のニューラルネットワークをトレーニングする（学習させる）ことを含む。本方法はまた、混合音声サンプルからのより低レベルの音声特性を有する話者の音声信号を認識するように、第２のニューラルネットワークをトレーニングすることを含む。さらに、本方法は、特定のフレームが話者のパワーの切り替わりポイント（switching point）である確率を考慮して、これら２つの音声信号を観測する統合尤度を最適化することにより、第１のニューラルネットワーク及び第２のニューラルネットワークを使用して、混合音声サンプルを復号することを含む。

実施形態は、コンピュータ読み取り可能な命令を記憶するための１以上のコンピュータ読み取り可能な記憶メモリデバイスを含む。コンピュータ読み取り可能な命令は、１以上の処理デバイスにより実行される。コンピュータ読み取り可能な命令は、混合音声サンプルからの第１の音声信号におけるより高レベルの音声特性を認識するように、第１のニューラルネットワークをトレーニングさせるよう構成されているコードを含む。第２のニューラルネットワークが、混合音声サンプルからの第２の音声信号におけるより低レベルの音声特性を認識するように、トレーニングされる。第３のニューラルネットワークが、各フレームについての切り替わり確率を推定するように、トレーニングされる。混合音声サンプルが、これら２つの音声信号を観測する統合尤度を最適化することにより、第１のニューラルネットワーク、第２のニューラルネットワーク、及び第３のニューラルネットワークを使用して復号される。ここで、統合尤度は、特定のフレームが、音声特性の切り替わりポイントである確率を意味する。

以下の説明及び添付の図面は、特許請求される主題の所定の例示的な態様を詳細に示している。しかしながら、これらの態様は、本イノベーションの原理が使用され得る様々な態様のうちのほんの一部を示すに過ぎず、特許請求される主題は、全てのそのような態様及びそれらの均等な態様を含むことが意図されている。特許請求される主題の他の利点及び新規な特徴が、図面とともに検討されると、本イノベーションの以下の詳細な説明から明らかになるであろう。

本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのデータフロー図。本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図。本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図。本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのブロック図。特許請求される主題の様々な態様を実装するための例示的なネットワーキング環境のブロック図。特許請求される主題の様々な態様を実装するための例示的な動作環境のブロック図。

予備的事項として、図面のうちの一部は、機能、モジュール、特徴、要素等と様々に呼ばれる１以上の構造的コンポーネントのコンテキストにおいて、コンセプトを示している。図面に示される様々なコンポーネントは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組合せ等、任意の形で実装することができる。いくつかの実施形態において、様々なコンポーネントは、実際の実装における対応するコンポーネントの使用を反映する。他の実施形態においては、図面に示される任意の単一のコンポーネントは、複数の実際のコンポーネントにより実装されてもよい。図面における任意の２以上の別個のコンポーネントの図示は、単一の実際のコンポーネントにより実行される異なる機能を反映することがある。以下で説明する図１は、図面に示される機能を実装するために使用され得る１つのシステムに関する詳細を提供している。

他の図面は、フローチャートの形でコンセプトを示している。この形において、所定の動作は、所定の順序で実行される異なるブロックを構成するものとして説明される。このような実装は、例示的なものであり非限定的なものである。本明細書に記載の所定のブロックは、単一の動作に一緒にグループ化され実行されてもよく、所定のブロックは、複数のコンポーネントブロックに分割されてもよく、所定のブロックは、並列形式でブロックを実行することを含め、本明細書で示される順序とは異なる順序で実行されてもよい。フローチャートに示されるブロックは、ソフトウェア、ハードウェア、ファームウェア、手動処理等により実装され得る。本明細書で使用されるとき、ハードウェアは、コンピュータシステム、特定用途向け集積回路（ＡＳＩＣ）等のディスクリートロジックコンポーネント等を含み得る。

用語に関して、「〜するよう構成されている」という語句は、任意の種類の機能が、特定された動作を実行するよう構築され得る任意のやり方を包含する。機能は、例えば、ソフトウェア、ハードウェア、ファームウェア等を使用して動作を実行するよう構成され得る。「ロジック」という用語は、タスクを実行するための任意の機能を包含する。例えば、フローチャートに示される各動作は、その動作を実行するためのロジックに対応する。動作は、ソフトウェア、ハードウェア、ファームウェア等を使用して実行され得る。「コンポーネント」、「システム」等という用語は、実行中のソフトウェア、コンピュータ関連エンティティ、ハードウェア、ファームウェア、又はこれらの組合せを指し得る。コンポーネントは、プロセッサ上で実行されるプロセス、オブジェクト、実行ファイル、プログラム、ファンクション、サブルーチン、コンピュータ、又はソフトウェアとハードウェアとの組合せであり得る。「プロセッサ」という用語は、コンピュータシステムの処理ユニット等のハードウェアコンポーネントを指し得る。

さらに、特許請求される主題は、標準的なプログラミング技術及びエンジニアリング技術を使用して、ソフトウェア、ファームウェア、ハードウェア、又はこれらの任意の組合せを作成し、開示する主題を実施するようにコンピューティングデバイスを制御するための方法、装置、又は製品として実装され得る。本明細書で使用される「製品」という用語は、任意のコンピュータ読み取り可能な記憶デバイス又は記憶媒体からアクセス可能なコンピュータプログラムを包含することが意図されている。コンピュータ読み取り可能な記憶媒体は、とりわけ、例えば、ハードディスク、フロッピー（登録商標）ディスク、磁気ストリップといった磁気記憶デバイス、光ディスク、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、スマートカード、フラッシュメモリデバイスを含み得るが、これらに限定されるものではない。反対に、コンピュータ読み取り可能な媒体、すなわち、非記憶媒体は、無線信号のための伝送媒体といった通信媒体等を含み得る。

ニューラルネットワークは、動物の脳における活動を模擬するよう試みる計算論的モデルである。ニューラルネットワークにおいて、相互接続されたシステムが、ネットワークを介して情報を与えることにより、入力から値を計算する。これらのシステムは、脳のニューロン間の相互接続と同様に相互接続される。深層ニューラルネットワーク（ＤＮＮ）は、一般的には、２以上の隠れ層を有するネットワークであり、ここで、これらの層は、完全に接続される。すなわち、ある層における全てのニューロンは、それに続く層における全てのニューロンに相互接続される。

音声認識において、入力ニューロンのセットは、混合音声の入力フレームの音声信号によりアクティブ化され得る。入力フレームは、最初の層におけるニューロンにより処理され、他の層におけるニューロンに渡され得る。他の層におけるニューロンも、自身への入力を処理し、その出力を渡す。ニューラルネットワークの出力は、特定の音素又はサブ音素ユニットが観測される確率を指定する出力ニューロンにより生成される。

高分解能特徴量が、一般的には、音声分離システムにより使用されるが、従来のＧＭＭ−ＨＭＭ自動音声認識（ＡＳＲ）システムは、そのような高分解能特徴量を効果的にモデル化することができない。したがって、研究者は、従来のＧＭＭ−ＨＭＭベースのＡＳＲシステムが使用される場合には、通常、音声分離及び音声認識の処理を分離する。

しかしながら、ニューラルネットワークベースのシステムは、ケプストラム領域の特徴量を処理することと比べて、スペクトル領域の特徴量を処理することによる利点を示した。さらに、ニューラルネットワークは、話者変化及び環境歪みに対するロバスト性を示した。特許請求される主題の実施形態において、統合されたニューラルネットワークベースのシステムは、２人の話者の音声について分離処理及び認識処理の両方を実行することができる。有利なことに、ニューラルネットワークは、従来のＡＳＲシステムよりスケールアップする可能性が高い方法で、これを行うことができる。

図１は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステム１００のデータフロー図である。システム１００において、トレーニングセット１０２が、複数のニューラルネットワーク１０４に入力される。ニューラルネットワーク１０４は、トレーニングセット１０２を使用してトレーニングされ、トレーニングされたネットワーク１０６が生成される。混合音声フレーム１０８が、トレーニングされたネットワーク１０６に入力され、音素確率（phonetic probability）１１０が生成される。音素確率１１０は、特定の音素又はサブ音素ユニットが信号内で観測される尤度の集合を表す。一実施形態において、音素確率１１０が、重み付き有限状態トランスデューサ（ＷＦＳＴ）１１２に入力され、ＷＦＳＴ１１２が、統合復号を実行して、発話語を選択する。システム１００は、マルチスタイルトレーニングを、複数話者タスクのために定義された異なる目的関数と組み合わせた、同一チャンネル音声認識のためのいくつかの方法を含む。

例示的な実施例により、競合話者の妨害に対する雑音ロバスト性が実証された。１つの実施例は、１９．７％という全単語誤り率（ＷＥＲ）を達成し、これは、最先端のシステムと比べ、１．９％の絶対的向上であった。有利なことに、特許請求される主題の実施形態は、より低い複雑度及びより少ない仮定を用いてこれを実現している。

１．序論
特許請求される主題の実施形態は、深層ニューラルネットワーク（ニューラルネットワーク１０４）を使用して、単一チャンネル混合音声認識を実行する。人工的混合音声データ（例えば、混合音声フレーム１０８）に対してマルチスタイルトレーニング方策を使用することにより、複数の異なるトレーニングセットアップ（training setup）は、ＤＮＮシステムが、対応する類似パターンを一般化することを可能にする。さらに、ＷＦＳＴ復号器１１２は、トレーニングされたニューラルネットワーク１０４と協働する統合復号器である。

２．混合音声を用いたＤＮＮマルチスタイルトレーニング
図２は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法２００のプロセスフロー図である。このプロセスフロー図は、特許請求される主題の技術のみを表すものであり、必ずしもこのシーケンスを表すわけではないことを理解されたい。方法２００は、システム１００により実行され得、ブロック２０２から開始する。ブロック２０２において、トレーニングセット１０２が、クリーンなトレーニングセットから作成される。ニューラルネットワークベースの音響モデルは、従来のシステムより環境歪みに対してロバストであることが分かっているが、このロバスト性は、トレーニングセット１０２と混合音声フレーム１０８との間により多くの歪みが存在する場合には十分に保たれない。したがって、トレーニング中に、代表的なバリエーションの例をニューラルネットワークに提示することが、トレーニングされたネットワーク１０６がより乱された音声を一般化するのに役立つ。

単一話者音声に対してトレーニングされたニューラルネットワークベースのモデルは、良好には一般化しない。しかしながら、特許請求される主題の実施形態は、マルチスタイルトレーニング方策を使用することにより、この問題を解決する。この方策において、クリーンなトレーニングデータは、予期される音声を表すように変更される。例示的なトレーニングセット１０２において、クリーンな単一話者音声データベースが、様々な音量、エネルギー等での他の話者からの競合音声のサンプルにより「乱される」。ブロック２０４において、ニューラルネットワーク１０４が、マルチコンディション波形（複数条件波形（multi-condition waveform））を含むこの変更されたトレーニングデータを使用してトレーニングされる。有利なことに、マルチコンディションデータを使用して、複数話者音声における音声信号を分離することができるトレーニングされたネットワーク１０６を生成することができる。実施形態において、ニューラルネットワーク１０４は、話者の各々についてトレーニングされ得る。

ブロック２０６において、統合復号が実行され得る。一実施形態において、ＷＦＳＴ復号器が、複数の話者について音声を復号するように変更される。

２．１．高エネルギー信号モデル及び低エネルギー信号モデル
複数の音声信号を含む各混合音声発声において、１つの信号がターゲット音声であり、１つの信号が妨害音声であると仮定する。システムは両方の信号を復号するので、このラベリングはいくらか恣意的である。一実施形態は、音声信号のエネルギーに関する仮定を用いる。この実施形態において、一方の信号は、他方の信号より高い平均エネルギーを有すると仮定する。この仮定の下で、ターゲット音声を、高い方のエネルギー信号（正信号対雑音比（ＳＮＲ））又は低い方のエネルギー信号（負ＳＮＲ）のいずれかとして識別することが可能である。したがって、２つのニューラルネットワーク１０４が使用される。混合音声入力を所与として、一方のネットワークは、高い方のエネルギーの音声信号を認識するようにトレーニングされるのに対し、他方のネットワークは、低い方のエネルギーの音声信号を認識するようにトレーニングされる。

図３は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図である。このプロセスフロー図は、特許請求される主題の技術のみを表すものであり、必ずしもこのシーケンスを表すわけではないことを理解されたい。方法３００は、システム１００により実行され得、ブロック３０２から開始する。ブロック３０２において、システム１００は、トレーニングセット１０２のエネルギーを正規化する。クリーンなトレーニングデータセット

を所与として、データセット内の各音声発声が同じパワーレベルを有するように、エネルギーの正規化が実行される。ブロック３０４において、ランダムサンプルが、トレーニングセット１０２に混合される。ターゲット音声信号がより高い又はより低い平均エネルギーを有する音響環境をシミュレートするために、別の信号が、トレーニングセット１０２からランダムに選択され、その振幅が、適切にスケーリングされてトレーニングセット１０２に追加される。このようにして、トレーニングセット１０２が、

及び

で表記される、高エネルギーデータ及び低エネルギーデータについての２つのマルチコンディションデータセットを作成するために変更される。

ブロック３０６において、ニューラルネットワーク１０４が、

及び

の各々についてトレーニングされ、２つのトレーニングされたネットワーク１０６が生成される。高エネルギーターゲット話者について、ニューラルネットワーク１０４は、損失関数

を使用してトレーニングされ得る。

上記（１）において、

は、

のフレームにおける基準セノンラベル（基準音声要素ラベル（reference senone label））である。セノンラベルの項は、クリーンなデータにおけるアライメントに由来することに留意されたい。これは、例示的な実施例において良好な性能を得るのに有用であった。同様に、低エネルギーターゲット話者についてのニューラルネットワーク１０４は、データセット

に対してトレーニングされ得る。さらに、２つのデータセット

及び

を使用すると、最小二乗誤差（ＭＳＥ）損失関数

を使用して、雑音除去器（denoiser）としてのニューラルネットワーク１０４をトレーニングすることが可能である。上記（２）において、

は、対応するクリーンな音声特徴量であり、

は、深層雑音除去器を使用した、乱されていない入力の推定量である。同様に、低エネルギーターゲット話者についての雑音除去器は、データセット

に対してトレーニングされ得る。３１０において、統合復号が実行され得る。

２．２．高ピッチ信号モデル及び低ピッチ信号モデル
平均高エネルギー音声信号及び平均低エネルギー音声信号に基づく上記トレーニング方策に伴う１つの潜在的問題は、混合信号が、同様の平均エレルギーレベル、すなわち、ほぼ０ｄＢのＳＮＲを有する場合、トレーニングされたモデルが良好に機能しないことがあることである。トレーニングの観点においては、同じ混合音声入力について、トレーニングラベルが、相反する値を有する（高い方のエネルギーの話者及び低い方のエネルギーの話者の両方からのラベルであり得る）ために、この問題は不明瞭になる。しかしながら、２人の話者が同じピッチで発話している可能性はそれほど高くない。したがって、別の実施形態において、ニューラルネットワーク１０４は、高い方のピッチ又は低い方のピッチを伴う音声を認識するようにトレーニングされる。この実施形態において、単一のトレーニングセット１０２である

が、妨害音声信号をランダムに選択し、選択された妨害音声信号をターゲット音声信号と混合することにより、オリジナルのクリーンなデータセット

から、作成される。トレーニングはまた、ターゲット音声信号及び妨害音声信号の両方についてのピッチ推定を含み、このピッチ推定を用いて、トレーニングについてのラベルを選択する。したがって、高ピッチ音声信号についてニューラルネットワーク１０４をトレーニングするための損失関数は、

である。上記（３）において、

は、高い方の平均ピッチの音声信号におけるアライメントから得られた基準セノンラベルである。同様に、低い方のピッチの音声信号についてのニューラルネットワーク１０４は、低い方の平均ピッチの音声信号のセノンアライメントを用いてトレーニングされ得る。

２．３．瞬時高エネルギー信号モデル及び瞬時低エネルギー信号モデル
ニューラルネットワーク１０４はまた、各フレーム１０８における瞬時エネルギーに基づいてトレーニングされ得る。０ｄＢという平均エネルギーを有する発声は、各フレームにおいてゼロでない瞬時ＳＮＲ値を有することになり、これは、ラベリングにおいて不明確さがないことを意味する。トレーニングセット

が、音声信号を混合し、ターゲット信号及び妨害信号における瞬時フレームエネルギーを算出することにより、作成され得る。瞬時高エネルギー信号についての損失関数は、

により与えられる。上記（４）において、

は、フレームｔにおいてより高いエネルギーを含む信号ソースからのセノンラベルに対応する。このシナリオにおいて、分離のための基準として、発声ベースのエネルギーではなく、フレームベースのエネルギーが使用される。したがって、どの出力が、フレーム１０８ごとにターゲット話者に対応するか又は妨害話者に対応するかについての不確実さが存在する。例えば、ターゲット話者は、あるフレームにおいてはより高いエネルギーを有し、その次のフレームにおいてはより低いエネルギーを有することがある。

３．ＤＮＮモデルを用いた統合復号
瞬時エネルギーに基づくニューラルネットワーク１０４について、２つのトレーニングされたネットワーク１０６の各々は、どの出力が、各フレーム１０８においてどの話者に属するかを判定する。これを行うために、統合復号器は、トレーニングされたネットワーク１０６から、事後確率推定値（例えば、音素確率１１０）を得て、最良の２つの状態系列（各話者につき１つの状態系列）を統合的に発見する。ＷＦＳＴフレームワークにおける復号グラフを作成するための標準的レシピ（recipe）は、

として記述され得る。上記（５）において、Ｈ、Ｃ、Ｌ、及びＧはそれぞれ、ＨＭＭ構造（HMM structure）、音素のコンテキスト依存性（phonetic context-dependency）、レキシコン（lexicon）、及びグラマー（grammar）を表し、

は、ＷＦＳＴ合成（composition）である。ＨＣＬＧの入力ラベルは、コンテキスト依存ＨＭＭ状態の識別子（セノンラベル）であり、出力ラベルは、単語を表す。瞬時高エネルギー信号のトレーニングされたネットワーク及び瞬時低エネルギー信号のトレーニングされたネットワークは、

及び

で表記される。統合復号器のタスクは、以下のように、各状態系列対数尤度の和が最大にされるように、２−Ｄ統合状態空間において最良の２つの状態系列を発見することである。

復号アルゴリズムは、２つのＨＣＬＧ復号グラフに対して、統合トークンパッシング（joint token passing）を実行する。統合復号と従来の復号との間のトークンパッシングにおける差異は、統合復号においては、各トークンが、復号グラフにおいて、１つの状態ではなく、２つの状態に関連付けられることである。

図４は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのブロック図である。図４は、統合トークンパッシングを例示する些細な例を示している。２つのＷＦＳＴグラフにおいて：

、

で表される状態空間は、２人の話者のうちの一方の話者に対応し；

は、統合状態空間を表す。第１の話者Ｓ_１についてのトークンが状態１にあり、第２の話者Ｓ_２に関連付けられているトークンが状態２にあると仮定する。

でない入力ラベルを有する出力アーク（音響フレームを使用するアーク）について、拡張アークは、２つの出力アークのセットの間のデカルト積を表す。各拡張アークのグラフコストは、これらの２つの半環の乗算値（semiring multiplication）である。各拡張アークの音響コストは、瞬時高エネルギー及び瞬時低エネルギーについての２つのニューラルネットワーク１０４からのセノン仮定（hypothesis）を用いて算出される。両方の場合（２つのソースのうちのいずれか一方が、高い方のエネルギーを有する）が考慮される。音響コストは、以下のように、より高い尤度の組合せにより与えられる。

式（７）を使用すると、どの話者の発話が、この探索パスに沿った所定のフレームｔでの対応する信号におけるより高いエネルギーを有するかを判定することも可能である。

である入力ラベルを有するアークについて、

であるアークは、音響フレームを使用していない。したがって、２つの復号グラフにおけるトークンの同期を確実にするために、現フレームについての新たな統合状態が作成される。例えば、図４における状態（３，２）を参照されたい。

統合復号器１１２の１つの潜在的問題は、発声全体を復号している間、これが、フレームごとに自由なエネルギー切り替わりを可能にしてしまうことである。さらに、実際には、エネルギー切り替わりは、通常、頻繁には生じない。特許請求される主題の実施形態は、大きい方の信号が最後のフレームから変化した場合、探索パスにおいて一定のペナルティを導入することにより、この問題に対処する。代替的に、所定のフレームがエネルギー切り替わりポイントである確率が、推定され得、ペナルティの値が、それに伴って適応的に変更されてもよい。トレーニングセット１０２は、音声信号を混合することにより作成されるので、各オリジナルの音声フレームのエネルギーが利用可能である。トレーニングセットを使用して、エネルギー切り替わりポイントが所定のフレームにおいて生じるかどうかを予測するように、ニューラルネットワーク１０４をトレーニングすることができる。

が、エネルギー切り替わりポイントを検出するようにトレーニングされたモデルを表すとすると、エネルギー切り替わりについての適応的ペナルティは、

により与えられる。

４．実験結果
４．１．例示的な実施例
例示的な実施例において、音声データが、ＧＲＩＤコーパスから取り出された。トレーニングセット１０２は、３４人の異なる話者からの１７０００個のクリーンな音声発声（各話者につき５００個の発声）を含む。評価セットは、クリーン、６ｄＢ、３ｄＢ、０ｄＢ、−３ｄＢ、−６ｄＢ、−９ｄＢというターゲット対マスク比（ＴＭＲ：target-to-mask ratio）である７つのコンディションにおける４２００個の混合音声発声を含み、開発セットは、（クリーンのコンディションがない）６つのコンディションにおける１８００個の混合音声発声を含む。固定のグラマーは、例えば、「ｐｌａｃｅｗｈｉｔｅａｔＬ３ｎｏｗ」といった、命令、色、前置詞、（Ｗを除く）文字、数字、及び副詞の６つの部分を含む。テスト段階中、色「ｗｈｉｔｅ」を発話した話者が、ターゲット話者として扱われた。評価基準は、ターゲット話者により発話された文字及び数字についてのＷＥＲである。全ての単語についてのＷＥＲが低くなり、別途示されない限り、以下の実験結果における全てのレポートされたＷＥＲは、文字及び数字についてのみ評価されたものであることに留意されたい。

４．２．ベースラインシステム
ベースラインシステムが、１７０００個のクリーンな音声発声からなるオリジナルのトレーニングセットに対してトレーニングされたＤＮＮを使用して構築された。ＧＭＭ−ＨＭＭシステムが、２７１個の異なるセノンを有する３９次元ＭＦＣＣ特徴量を使用してトレーニングされた。さらに、６４次元対数メルフィルタバンクが特徴量として使用され、ＤＮＮをトレーニングするために９つのフレームであるコンテキストウィンドウが使用された。ＤＮＮは、各層において１０２４個の隠れユニットを有する７つの隠れ層と、ＧＭＭ−ＨＭＭシステムのセノンに対応する２７１次元ソフトマックス出力層と、を有する。このトレーニング方式が、全てのＤＮＮ実験を通じて使用された。パラメータ初期化が、生成プレトレーニングを用いその後に識別プレトレーニングを用いて、層ごとに行われた。ネットワークが、誤差逆伝播法（バックプロパゲーション）を用いて識別トレーニングされた。ミニバッチサイズが、２５６に設定され、初期学習率が、０．００８に設定された。各トレーニング期間の後、フレーム精度が、開発セットについて妥当性検証された。向上が０．５％未満である場合、学習率が、０．５という係数の分だけ低減された。トレーニングプロセスは、フレーム精度の向上が０．１％未満であった後に、停止された。ベースラインのＧＭＭ−ＨＭＭシステム及びＤＮＮ−ＨＭＭシステムのＷＥＲが、表２に示されている。示されるように、クリーンなデータに対してトレーニングされたＤＮＮ−ＨＭＭシステムは、クリーンのコンディションを除くすべてのＳＮＲコンディションにおいて良好には機能せず、ＤＮＮマルチスタイルトレーニングの有効性が示された。

４．３．マルチスタイルトレーニングされたＤＮＮシステム
高エネルギー信号モデル及び低エネルギー信号モデルについてのマルチスタイルトレーニングの使用を調べるために、２つの混合音声トレーニングデータセットが生成された。セットＩと呼ばれる高エネルギートレーニングセットが次のように作成された：各クリーンな発声について、３つの他の発声がランダムに選択され、クリーン、６ｄＢ、３ｄＢ、０ｄＢの４つのコンディション下で、ターゲットのクリーンな発声と混合された（１７０００×１２）。低エネルギートレーニングセットであるセットＩＩが、同様に作成されたが、混合は、クリーン、０ｄＢ、−３ｄＢ、−６ｄＢ、−９ｄＢというＴＭＲの５つのコンディション下で行われた（１７０００×１５）。これらの２つのトレーニングセット１０２を使用して、高エネルギー信号及び低エネルギー信号それぞれについての２つのＤＮＮモデルであるＤＮＮＩ及びＤＮＮＩＩをトレーニングした。結果が、表３に列挙されている。

上記表から、２つの混合信号が、大きなエネルギーレベル差を有する場合、すなわち、６ｄＢ、−６ｄＢ、−９ｄＢの場合、結果が良好であった。さらに、ターゲット話者が色「ｗｈｉｔｅ」を常に発話するというルールを使用して、ＤＮＮＩシステム及びＤＮＮＩＩシステムからの結果を組み合わせることにより、組み合わせたＤＮＮＩ＋ＩＩシステムは、クリーンなデータのみに対してトレーニングされたＤＮＮを使用して得られた６７．４％と比べ、２５．４％というＷＥＲを達成した。

同じトレーニングセットＩを使用して、ＤＮＮが、フロントエンド雑音除去器としてトレーニングされた。トレーニングされた深層雑音除去器を使用して、２つの異なるセットアップが試行された：第１のセットアットは、雑音除去された特徴量を、クリーンなデータに対してトレーニングされたＤＮＮに直接与え、第２のセットアップにおいては、別のＤＮＮが、雑音除去されたデータに対して再トレーニングされた。両セットアップの結果が、表４に示されている。

上記実験結果から、セノンラベルを予測するようにトレーニングされたＤＮＮを含むシステムは、トレーニングされた深層雑音除去器に続いて別の再トレーニングされたＤＮＮを含むシステムよりわずかに良好であったことが分かる。これは、ＤＮＮが、ロバストな表現を自動的に学習できることを暗示している。したがって、手作業で作られた（hand-crafted）特徴量は、フロントエンドにおいては抽出され得ない。組み合わせたシステムＤＮＮＩ＋ＩＩは、最先端のシステムほど良好ではなかった。これは、２つの混合信号が、非常に近いエネルギーレベルを有する場合、すなわち、０ｄＢ、−３ｄＢの場合、このシステムが、あまり良好には機能しないためであると思われる。具体的には、高エネルギー信号及び低エネルギー信号についてのマルチスタイルトレーニング方策は、トレーニング中に相反するラベルを割り当てる潜在的問題を有している。表４は、高エネルギー信号及び低エネルギー信号についての深層雑音除去器のＷＥＲ（％）を示している。

高ピッチ信号モデル及び低ピッチ信号モデルについて、ピッチが、クリーンなトレーニングセットから、各話者について推定された。次いで、トレーニングセットＩ及びトレーニングセットＩＩを組み合わせてトレーニングセットＩＩＩ（１７０００×２４）を形成し、高ピッチ信号及び低ピッチ信号それぞれについて２つのニューラルネットワーク１０４をトレーニングした。高ピッチ信号についてのニューラルネットワーク１０４をトレーニングしたときに、ラベルが、高ピッチ話者に対応する、クリーンな音声発声におけるアライメントから割り当てられた。低ピッチ信号についてのニューラルネットワーク１０４をトレーニングしたときに、ラベルが、低ピッチ話者に対応するアライメントから割り当てられた。２つのトレーニングされたネットワーク１０６を使用して、復号が、従来通り、独立して実行された。具体的には、復号結果が、ターゲット話者が色「ｗｈｉｔｅ」を常に発話するというルールを使用して、組み合わされた。ＷＥＲが、表５に示されている。

示されるように、高ピッチ信号モデル及び低ピッチ信号モデルを用いたシステムは、０ｄＢの場合、高エネルギーモデル及び低エネルギーモデルを用いたシステムより良好に機能したが、他の場合には良好には機能しなかった。

４．４．統合復号器を有するＤＮＮシステム
トレーニングセットＩＩＩを使用して、セクション３で説明したように、瞬時高エネルギー信号及び瞬時低エネルギー信号についての２つのＤＮＮモデルをトレーニングした。これらの２つのトレーニングされたモデルを使用して、セクション３で説明したように、統合復号が実行された。この統合復号器の手法の結果が、表６に示されている。最後の２つのシステムは、エネルギー切り替わりペナルティが導入された場合に対応する。統合復号器Ｉは、一定のエネルギー切り替わりペナルティを伴うシステムであり、統合復号器ＩＩは、適応的切り替わりペナルティを伴うシステムである。（８）で定義されるエネルギー切り替わりペナルティの値を得るために、ＤＮＮが、各フレームについてのエネルギー切り替わり確率を推定するようにトレーニングされた。表６は、統合復号器を有するＤＮＮシステムのＷＥＲ（％）を示している。

４．５．システムの組合せ
表６は、２つの混合音声信号が、大きなエネルギーレベル差を有する場合、すなわち、６ｄＢ、−６ｄＢ、−９ｄＢの場合、ＤＮＮＩ＋ＩＩシステムが良好に機能したのに対し、２つの混合信号が、同様のエネルギーレベルを有する場合、統合復号器ＩＩシステムが良好に機能したことを示している。これは、２つの信号間のエネルギー差に応じたシステムの組合せが使用されるのがよいことを示唆している。混合信号が、２つの深層雑音除去器に入力され、結果として生じた２つの出力信号を使用して、高エネルギー信号及び低エネルギー信号を推定する。これらの分離された信号を使用して、エネルギー比が、２つのオリジナルの信号のエネルギー差を近似するために算出され得る。閾値が、開発セットに関するエネルギー比について調整されて得られ、システムの組合せに対して使用される。すなわち、雑音除去器からの２つの分離された信号のエネルギー比が、閾値より高い場合、テスト発声を復号するためにＤＮＮＩ＋ＩＩシステムが使用され、そうでない場合、テ統合復号器ＩＩシステムが使用される。結果が、表６に列挙されている。

５．結び
本研究において、我々は、マルチスタイルトレーニング方策を使用することにより、単一チャンネル混合音声認識のためのＤＮＮベースのシステムを調べた。我々はまた、トレーニングされたニューラルネットワーク１０４と協働するＷＦＳＴベースの統合復号器を導入した。２００６個の音声分離及び認識チャレンジデータに対する実験結果により、提案しているＤＮＮベースのシステムが、競合話者の妨害に対する顕著な雑音ロバスト性を有することが実証された。我々が提案しているシステムの最良のセットアップは、１９．７％という全ＷＥＲを達成し、これは、ＩＢＭ（登録商標）スーパーヒューマンシステムにより得られた結果と比べ、より低い複雑度及びより少ない仮定を用いて、１．９％の絶対的向上であった。

図５は、特許請求される主題の様々な態様を実装するための例示的なネットワーキング環境５００のブロック図である。さらに、例示的なネットワーキング環境５００を使用して、ＤＢＭＳエンジンを用いて外部データセットを処理するシステム及び方法を実装することができる。

ネットワーキング環境５００は、１以上のクライアント５０２を含む。１以上のクライアント５０２は、ハードウェア及び／又はソフトウェア（例えば、スレッド、プロセス、コンピューティングデバイス）であり得る。一例として、１以上のクライアント５０２は、インターネット等の通信フレームワーク５０８を介するサーバ５０４へのアクセスを提供するクライアントデバイスであり得る。

環境５００はまた、１以上のサーバ５０４を含む。１以上のサーバ５０４は、ハードウェア及び／又はソフトウェア（例えば、スレッド、プロセス、コンピューティングデバイス）であり得る。１以上のサーバ５０４は、サーバデバイスを含み得る。１以上のサーバ５０４は、１以上のクライアント５０２によりアクセスされ得る。

クライアント５０２とサーバ５０４との間の１つの可能な通信は、２以上のコンピュータプロセスの間で伝送されるよう適合されているデータパケットの形態であり得る。環境５００は、１以上のクライアント５０２と１以上のサーバ５０４との間の通信を円滑にするために使用され得る通信フレームワーク５０８を含む。

１以上のクライアント５０２は、１以上のクライアント５０２のローカルにある情報を記憶するために使用され得る１以上のクライアントデータ記憶部５１０に動作可能に接続される。１以上のクライアントデータ記憶部５１０は、１以上のクライアント５０２内に位置してもよいし、クラウドサーバ内といったリモートに位置してもよい。同様に、１以上のサーバ５０４は、１以上のサーバ５０４のローカルにある情報を記憶するために使用され得る１以上のサーバデータ記憶部５０６に動作可能に接続される。

特許請求される主題の様々な態様を実装するためのコンテキストを提供するために、図６は、特許請求される主題の様々な態様が実装され得るコンピューティング環境の簡潔で一般的な説明を提供するよう意図されている。例えば、フルカラー３Ｄオブジェクトを作成するための方法及びシステムは、このようなコンピューティング環境において実装され得る。特許請求される主題が、ローカルコンピュータ又はリモートコンピュータ上で実行されるコンピュータプログラムのコンピュータ実行可能な命令の一般的なコンテキストにおいて上述されたが、特許請求される主題はまた、他のプログラムモジュールと組み合わせて実装されてもよい。一般に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造等を含む。

図６は、特許請求される主題の様々な態様を実装するための例示的な動作環境６００のブロック図である。例示的な動作環境６００は、コンピュータ６０２を含む。コンピュータ６０２は、処理ユニット６０４、システムメモリ６０６、及びシステムバス６０８を含む。

システムバス６０８は、システムメモリ６０６を含むがこれに限定されないシステムコンポーネントを、処理ユニット６０４に接続する。処理ユニット６０４は、種々の利用可能なプロセッサのうちの任意のプロセッサであり得る。デュアルマイクロプロセッサ及び他のマルチプロセッサアーキテクチャも、処理ユニット６０４として使用され得る。

システムバス６０８は、メモリバス若しくはメモリコントローラ、周辺バス若しくは外部バス、又は、当業者に知られている種々の利用可能なバスアーキテクチャのうちの任意のバスアーキテクチャを使用するローカルバスを含む複数のタイプのバス構造のうちの任意のバス構造であり得る。システムメモリ６０６は、揮発性メモリ６１０及び不揮発性メモリ６１２を含むコンピュータ読み取り可能な記憶媒体を含む。

起動中等にコンピュータ６０２内の要素間で情報を転送するための基本ルーチンを含む基本入出力システム（ＢＩＯＳ）は、不揮発性メモリ６１２に記憶される。限定ではなく例として、不揮発性メモリ６１２は、読み取り専用メモリ（ＲＯＭ）、プログラム可能なＲＯＭ（ＰＲＯＭ）、電気的にプログラム可能なＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能なＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含み得る。

揮発性メモリ６１０は、外部キャッシュメモリとして動作するランダムアクセスメモリ（ＲＡＭ）を含む。限定ではなく例として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンストＳＤＲＡＭ（ＥＳＤＲＡＭ）、ＳｙｎｃｈＬｉｎｋＤＲＡＭ（ＳＬＤＲＡＭ）、Ｒａｍｂｕｓ（登録商標）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトＲａｍｂｕｓ（登録商標）ダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びＲａｍｂｕｓ（登録商標）ダイナミックＲＡＭ（ＲＤＲＡＭ）等の多くの形態で利用可能である。

コンピュータ６０２はまた、取り外し可能／取り外し不可能な揮発性／不揮発性のコンピュータ記憶媒体等の他のコンピュータ読み取り可能な媒体を含む。図６は、例えば、ディスク記憶デバイス６１４を示している。ディスク記憶デバイス６１４は、磁気ディスクドライブ、フロッピー（登録商標）ディスクドライブ、テープドライブ、Ｊａｚドライブ、Ｚｉｐドライブ、ＬＳ−２１０ドライブ、フラッシュメモリカード、又はメモリスティック等のデバイスを含むが、これらに限定されるものではない。

さらに、ディスク記憶デバイス６１４は、他の記憶媒体と分離された又は他の記憶媒体と組み合わせた記憶媒体を含み得る。そのような記憶媒体は、コンパクトディスクＲＯＭドライブ（ＣＤ−ＲＯＭドライブ）、ＣＤレコーダブルドライブ（ＣＤ−Ｒドライブ）、ＣＤリライタブルドライブ（ＣＤ−ＲＷドライブ）、又はデジタル多用途ディスクＲＯＭドライブ（ＤＶＤ−ＲＯＭドライブ）等の光ディスクドライブを含むが、これらに限定されるものではない。システムバス６０８へのディスク記憶デバイス６１４の接続を円滑にするために、インタフェース６１６等の取り外し可能又は取り外し不可能なインタフェースが、通常使用される。

図６は、ユーザと、適切な動作環境６００内に示される基本コンピュータリソースと、の間の仲介として動作するソフトウェアを示していることを理解されたい。そのようなソフトウェアは、オペレーティングシステム６１８を含む。ディスク記憶デバイス６１４に記憶され得るオペレーティングシステム６１８は、コンピュータシステム６０２のリソースを制御して割り当てるよう動作する。

システムアプリケーション６２０は、システムメモリ６０６又はディスク記憶デバイス６１４のいずれかに記憶されているプログラムデータ６２４及びプログラムモジュール６２２を通じたオペレーティングシステム６１８によるリソースの管理を利用する。特許請求される主題は、様々なオペレーティングシステム又はオペレーティングシステムの組合せとともに実装され得ることを理解されたい。

ユーザは、入力デバイス６２６を介して、命令又は情報をコンピュータ６０２に入力する。入力デバイス６２６は、マウス、トラックボール、スタイラス等といったポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、サテライトディッシュ、スキャナ、ＴＶチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラ等を含むが、これらに限定されるものではない。入力デバイス６２６は、インタフェースポート６２８を介しシステムバス６０８を介して、処理ユニット６０４に接続される。インタフェースポート６２８は、例えば、シリアルポート、パラレルポート、ゲームポート、及びユニバーサルシリアルバス（ＵＳＢ）を含む。

出力デバイス６３０は、入力デバイス６２６と同じタイプのポートのうちの一部を使用する。したがって、例えば、入力をコンピュータ６０２に提供するとともに、コンピュータ６０２からの情報を出力デバイス６２０に出力するために、ＵＳＢポートが使用され得る。

出力アダプタ６３２は、数ある出力デバイス６３０の中でもとりわけ、モニタ、スピーカ、及びプリンタ等のいくつかの出力デバイス６３０が存在することを示すために設けられる。これらのいくつかの出力デバイス６３０は、アダプタを介してアクセス可能である。出力アダプタ６３２は、限定ではなく例として、出力デバイス６３０とシステムバス６０８との間の接続の手段を提供するビデオカード及びサウンドカードを含む。リモートコンピュータ６３４等の、他のデバイス、及びデバイスのシステムは、入力機能及び出力機能の両方を提供することに留意されたい。

コンピュータ６０２は、リモートコンピュータ６３４等の１以上のリモートコンピュータへの論理接続を使用して、ネットワーク環境において様々なソフトウェアアプリケーションをホストするサーバであり得る。リモートコンピュータ６３４は、ウェブブラウザ、ＰＣアプリケーション、携帯電話機アプリケーション等を有するよう構成されているクライアントシステムであり得る。

リモートコンピュータ６３４は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ワークステーション、マイクロプロセッサベースの機器、携帯電話機、ピアデバイス、又は他の一般的なネットワークノード等であり得、通常は、コンピュータ６０２に関して説明した要素の多く又は全てを含む。

簡潔さのために、メモリ記憶デバイス６３６が、リモートコンピュータ６３４とともに図示されている。リモートコンピュータ６３４は、ネットワークインタフェース６３８を介してコンピュータ６０２に論理的に接続され、次いで、無線通信接続６４０を介して接続される。

ネットワークインタフェース６３８は、ローカルエリアネットワーク（ＬＡＮ）及びワイドエリアネットワーク（ＷＡＮ）等の無線通信ネットワークを包含する。ＬＡＮ技術は、ファイバ分散データインタフェース（ＦＤＤＩ）、銅線分散データインタフェース（ＣＤＤＩ）、イーサネット（登録商標）、トークンリング等を含む。ＷＡＮ技術は、ポイントツーポイントリンク、統合サービスデジタルネットワーク（ＩＳＤＮ）及びその変形版等の回路交換ネットワーク、パケット交換ネットワーク、及びデジタル加入者回線（ＤＳＬ）を含むが、これらに限定されるものではない。

通信接続６４０は、ネットワークインタフェース６３８をバス６０８に接続するために使用されるハードウェア／ソフトウェアを指す。通信接続６４０が、例示の明瞭さのために、コンピュータ６０２内に図示されているが、通信接続６４０が、コンピュータ６０２の外部にあってもよい。ネットワークインタフェース６３８への接続のためのハードウェア／ソフトウェアは、例えば、携帯電話機スイッチ、通常の電話品質モデム、ケーブルモデム、及びＤＳＬモデムを含むモデム、ＩＳＤＮアダプタ、並びにイーサネット（登録商標）カード等の内蔵技術及び外付け技術を含み得る。

サーバのための例示的な処理ユニット６０４は、Ｉｎｔｅｌ（登録商標）Ｘｅｏｎ（登録商標）ＣＰＵを含むコンピューティングクラスタであり得る。ディスク記憶デバイス６１４は、例えば数千のインプレッション（impression）を保持するエンタープライズデータ記憶システムを含み得る。

上述したものは、特許請求される主題の例を含む。もちろん、特許請求される主題を説明するために、コンポーネント又は方法の全ての考えられる組合せを説明することは不可能であるが、当業者であれば、特許請求される主題の多くのさらなる組合せ及び置換が可能であることが認識できよう。したがって、特許請求される主題は、請求項の主旨及び範囲に属する全てのそのような変更形態、修正形態、及び変形形態を包含することが意図されている。

特に上述したコンポーネント、デバイス、回路、システム等により実行される様々な機能に関して、そのようなコンポーネントを説明するために使用された（「手段」との言及を含む）用語は、別途示されない限り、説明したコンポーネントの特定の機能を実行する任意のコンポーネント（例えば、機能的均等物）に対応し、これは、開示した構造と構造的には同等ではないとしても、特許請求される主題の本明細書において示された例示的な態様における機能を実行する。これに関して、本イノベーションは、システムだけでなく、特許請求される主題の様々な方法の動作及びイベントを実行するためのコンピュータ実行可能な命令を有するコンピュータ読み取り可能な記憶媒体も含むことが認識されよう。

例えば、アプリケーション及びサービスが本明細書に記載の技術を使用できるようにする適切なＡＰＩ、ツールキット、ドライバコード、オペレーティングシステム、コントロール、スタンドアロンソフトウェアオブジェクト、ダウンロード可能なソフトウェアオブジェクト等といった、特許請求される主題を実装する複数の方法が存在する。特許請求される主題は、ＡＰＩ（又は、他のソフトウェアオブジェクト）の観点からの使用だけでなく、本明細書に記載の技術に従って動作するソフトウェアオブジェクト又はハードウェアオブジェクトからの使用も想定している。したがって、本明細書に記載の特許請求される主題の様々な実装は、全体がハードウェアによる態様、部分的にハードウェアにより部分的にソフトウェアによる態様、及びソフトウェアによる態様を含み得る。

上述したシステムは、複数のコンポーネント間の相互作用に関連して説明されている。そのようなシステム及びコンポーネントは、上記の様々な置換及び組合せに応じたコンポーネント又は特定のサブコンポーネント、特定のコンポーネント又はサブコンポーネントのうちの一部、及びさらなるコンポーネントを含み得ることが理解できよう。サブコンポーネントはまた、親コンポーネント内に含まれる（階層的）以外に、他のコンポーネントに通信可能に接続されるコンポーネントとして実装されてもよい。

さらに、１以上のコンポーネントは、集約機能を提供する単一のコンポーネントに組み合わされてもよいし、複数の別個のサブコンポーネントに分割されてもよく、統合機能を提供するために、管理層等の任意の１以上の中間層が、そのようなサブコンポーネントに通信可能に接続されるよう設けられてもよい。本明細書に記載の任意のコンポーネントがまた、本明細書では具体的に説明されていないが当業者により一般的に知られている１以上の他のコンポーネントと相互作用し得る。

さらに、特許請求される主題の特定の特徴が、複数の実施形態のうちの１つの実施形態に関連して開示されている場合もあるが、そのような特徴は、任意の所与の又は特定のアプリケーションのために望まれ有利であり得るように、他の実施形態の１以上の他の特徴と組み合されてもよい。さらに、「含む」、「有する」、「包含する」という用語、これらの変形、及び他の同様の用語が、詳細な説明又は特許請求の範囲において使用される限りにおいて、これらの用語は、オープンな移行語である「備える」という用語と同様に、さらなる要素又は他の要素を排除することなく非排他的であることが意図されている。

Claims

ソースからの混合音声を認識するための方法であって、
混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第１のニューラルネットワークをトレーニングするステップと、
前記混合音声サンプルからのより低レベルの前記音声特性を有する話者により発話された音声信号を認識するように、第２のニューラルネットワークをトレーニングするステップと、
２つの前記音声信号を観測する統合尤度を最適化することにより、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークを使用して、前記混合音声サンプルを復号するステップと、
を含む方法。
特定のフレームが、前記話者らの切り替わりポイントである確率を考慮することにより復号するステップを含む、請求項１記載の方法。
別のニューラルネットワークから推定された切り替わりの前記確率に基づいて、復号プロセスにおいて生じる前記切り替わりポイントを補償するステップを含む、請求項２記載の方法。
前記混合音声サンプルは、単一オーディオチャンネルを含み、前記単一オーディオチャンネルは、マイクロフォンにより生成されている、請求項１記載の方法。
前記音声特性は、
前記混合音声サンプルのフレームにおける瞬時エネルギーと、
エネルギーと、
ピッチと、
のうちの１つを含む、請求項１記載の方法。
音声特性切り替わりを予測するように、第３のニューラルネットワークをトレーニングするステップと、
エネルギーが、あるフレームからその次のフレームで切り替わっているかどうかを予測するステップと、
前記予測に基づいて、前記混合音声サンプルを復号するステップと、
を含む、請求項１記載の方法。
エネルギー切り替わりが予測されるフレームに続くフレームにおけるエネルギー切り替わりの尤度に対して重み付けするステップを含む、請求項６記載の方法。
ソースからの混合音声を認識するためのシステムであって、
第１の複数の相互接続されたシステムを含む第１のニューラルネットワークと、
第２の複数の相互接続されたシステムを含む第２のニューラルネットワークと、
を有し、
各相互接続されたシステムは、
処理ユニットと、
コードを含むシステムメモリであって、前記コードは、前記処理ユニットに
混合音声サンプルからの第１の音声信号におけるより高レベルの音声特性を認識するように、前記第１のニューラルネットワークをトレーニングさせ、
前記混合音声サンプルからの第２の音声信号におけるより低レベルの前記音声特性を認識するように、前記第２のニューラルネットワークをトレーニングさせ、
２つの前記音声信号を観測する統合尤度を最適化することにより、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークを使用して、前記混合音声サンプルを復号させる
よう構成されている、システムメモリと、
を有する、システム。
特定のフレームが、前記音声特性の切り替わりポイントである確率を考慮することにより復号させるよう構成されているコードを有する、請求項８記載のシステム。
前記処理ユニットに、ニューラルネットワークから推定された前記確率に基づいて、復号プロセスにおいて生じる前記切り替わりポイントを補償させるよう構成されているコードを有する、請求項９記載のシステム。
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、深層ニューラルネットワークを含む、請求項８記載のシステム。
前記音声特性は、ピッチと、エネルギーと、前記混合音声サンプルのフレームにおける瞬時エネルギーと、のうちの選択された１つを含む、請求項８記載のシステム。
前記処理ユニットに、
エネルギー切り替わりを予測するように、第３のニューラルネットワークをトレーニングさせ、
エネルギーが、あるフレームからその次のフレームで切り替わっているかどうかを予測させ、
前記予測に基づいて、前記混合音声サンプルを復号させる
よう構成されているコードを有する、請求項８記載のシステム。
エネルギー切り替わりが予測されるフレームに続くフレームにおけるエネルギー切り替わりの尤度に対して重み付けすることを含む、請求項１３記載のシステム。
コンピュータ読み取り可能な命令を記憶した１以上のコンピュータ読み取り可能な記憶メモリデバイスであって、前記コンピュータ読み取り可能な命令は、１以上の処理デバイスにより実行されたときに、
単一オーディオチャンネルを含む混合音声サンプルからの第１の音声信号におけるより高レベルの音声特性を認識するように、第１のニューラルネットワークをトレーニングすることと、
前記混合音声サンプルからの第２の音声信号におけるより低レベルの前記音声特性を認識するように、第２のニューラルネットワークをトレーニングすることと、
各フレームについての切り替わり確率を推定するように、第３のニューラルネットワークをトレーニングすることと、
２つの前記音声信号を観測する統合尤度を最適化することにより、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク、及び前記第３のニューラルネットワークを使用して、前記混合音声サンプルを復号することであって、前記統合尤度は、特定のフレームが、前記音声特性の切り替わりポイントである確率を意味する、復号することと、
を行わせるよう構成されているコードを含む、１以上のコンピュータ読み取り可能な記憶メモリデバイス。