JP2017515140A - 混合音声認識 - Google Patents

混合音声認識 Download PDF

Info

Publication number
JP2017515140A
JP2017515140A JP2016558287A JP2016558287A JP2017515140A JP 2017515140 A JP2017515140 A JP 2017515140A JP 2016558287 A JP2016558287 A JP 2016558287A JP 2016558287 A JP2016558287 A JP 2016558287A JP 2017515140 A JP2017515140 A JP 2017515140A
Authority
JP
Japan
Prior art keywords
speech
neural network
energy
mixed
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016558287A
Other languages
English (en)
Other versions
JP2017515140A5 (ja
JP6486381B2 (ja
Inventor
ユー,ドン
ウェン,チャオ
エル. セルトザー,マイケル
エル. セルトザー,マイケル
ドロッポ,ジェイムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017515140A publication Critical patent/JP2017515140A/ja
Publication of JP2017515140A5 publication Critical patent/JP2017515140A5/ja
Application granted granted Critical
Publication of JP6486381B2 publication Critical patent/JP6486381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

特許請求される主題は、ソースからの混合音声を認識するためのシステム及び方法を含む。本方法は、混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第1のニューラルネットワークをトレーニングすることを含む。本方法はまた、混合音声サンプルからのより低レベルの音声特性を有する話者により発話された音声信号を認識するように、第2のニューラルネットワークをトレーニングすることを含む。さらに、本方法は、特定のフレームが音声特性の切り替わりポイントである確率を考慮して、これら2つの音声信号を観測する統合尤度を最適化することにより、第1のニューラルネットワーク及び第2のニューラルネットワークを使用して、混合音声サンプルを復号することを含む。

Description

音声認識システムの雑音ロバスト性を向上させることにおける進歩がなされているが、競合話者の存在下における音声(混合音声)を認識することには、課題が残されている。競合話者の存在下における単一マイクロフォン音声認識の場合について、研究者は、混合音声サンプルに対して様々な技術を適用し、これらの技術の間で比較を行っている。これらの技術は、ターゲット音声信号と競合音声信号との間の相互作用及びそれらの時間的力学(temporal dynamics)について階乗(factorial)ガウス混合モデル−隠れマルコフモデル(GMM−HMM)を用いるモデルベースの手法を含む。この技術を使用すると、統合推定すなわち統合復号により、2つの最も可能性が高い音声信号すなわち発話文が識別される。
計算論的聴覚情景分析(CASA)及び「ミッシングフィーチャ」の手法において、セグメンテーションルールが、各話者に属する信号成分を分離する時間周波数マスクを推定するために、低レベル特徴量に対して作用する。このマスクは、信号を再構成するために、又は、復号プロセスに通知するために、使用され得る。他の手法は、分離とピッチに基づく強調とのために、非負値行列分解(NMF)を用いる。
1つの手法において、分離システムは、256個のガウス分布(Gaussian)を有する階乗GMM−HMM生成モデルを使用して、各話者について音響空間をモデル化する。これは、小語彙については有用であるが、大語彙タスクについてはプリミティブなモデルである。より多数のガウス分布を使用すると、階乗GMM−HMMに対して推定を実行することは、計算的に実現困難になる。さらに、そのようなシステムは、話者依存のトレーニング(学習)データ、及び、トレーニングとテストとの間の話者のクローズドセット(closed set)の利用可能性を想定しており、これは、多数の話者については実現困難であり得る。
以下において、本明細書に記載のいくつかの態様の基本的理解を提供するために、本イノベーションの簡略化された概要が提示される。この概要は、特許請求される主題の広範な概要ではない。この概要は、特許請求される主題の主要な要素を特定することを意図するものでもないし、特許請求される主題の範囲を線引きすることを意図するものでもない。その唯一の目的は、後で提示されるより詳細な説明の前段として、特許請求される主題のいくつかのコンセプトを、簡略化された形で提示することにある。
システム及び方法は、ソースからの混合音声を認識する。本方法は、混合音声サンプルからのより高レベルの音声特性を有する話者の音声信号を認識するように、第1のニューラルネットワークをトレーニングする(学習させる)ことを含む。本方法はまた、混合音声サンプルからのより低レベルの音声特性を有する話者の音声信号を認識するように、第2のニューラルネットワークをトレーニングすることを含む。さらに、本方法は、特定のフレームが話者のパワーの切り替わりポイント(switching point)である確率を考慮して、これら2つの音声信号を観測する統合尤度を最適化することにより、第1のニューラルネットワーク及び第2のニューラルネットワークを使用して、混合音声サンプルを復号することを含む。
実施形態は、コンピュータ読み取り可能な命令を記憶するための1以上のコンピュータ読み取り可能な記憶メモリデバイスを含む。コンピュータ読み取り可能な命令は、1以上の処理デバイスにより実行される。コンピュータ読み取り可能な命令は、混合音声サンプルからの第1の音声信号におけるより高レベルの音声特性を認識するように、第1のニューラルネットワークをトレーニングさせるよう構成されているコードを含む。第2のニューラルネットワークが、混合音声サンプルからの第2の音声信号におけるより低レベルの音声特性を認識するように、トレーニングされる。第3のニューラルネットワークが、各フレームについての切り替わり確率を推定するように、トレーニングされる。混合音声サンプルが、これら2つの音声信号を観測する統合尤度を最適化することにより、第1のニューラルネットワーク、第2のニューラルネットワーク、及び第3のニューラルネットワークを使用して復号される。ここで、統合尤度は、特定のフレームが、音声特性の切り替わりポイントである確率を意味する。
以下の説明及び添付の図面は、特許請求される主題の所定の例示的な態様を詳細に示している。しかしながら、これらの態様は、本イノベーションの原理が使用され得る様々な態様のうちのほんの一部を示すに過ぎず、特許請求される主題は、全てのそのような態様及びそれらの均等な態様を含むことが意図されている。特許請求される主題の他の利点及び新規な特徴が、図面とともに検討されると、本イノベーションの以下の詳細な説明から明らかになるであろう。
本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのデータフロー図。 本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図。 本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図。 本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのブロック図。 特許請求される主題の様々な態様を実装するための例示的なネットワーキング環境のブロック図。 特許請求される主題の様々な態様を実装するための例示的な動作環境のブロック図。
予備的事項として、図面のうちの一部は、機能、モジュール、特徴、要素等と様々に呼ばれる1以上の構造的コンポーネントのコンテキストにおいて、コンセプトを示している。図面に示される様々なコンポーネントは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組合せ等、任意の形で実装することができる。いくつかの実施形態において、様々なコンポーネントは、実際の実装における対応するコンポーネントの使用を反映する。他の実施形態においては、図面に示される任意の単一のコンポーネントは、複数の実際のコンポーネントにより実装されてもよい。図面における任意の2以上の別個のコンポーネントの図示は、単一の実際のコンポーネントにより実行される異なる機能を反映することがある。以下で説明する図1は、図面に示される機能を実装するために使用され得る1つのシステムに関する詳細を提供している。
他の図面は、フローチャートの形でコンセプトを示している。この形において、所定の動作は、所定の順序で実行される異なるブロックを構成するものとして説明される。このような実装は、例示的なものであり非限定的なものである。本明細書に記載の所定のブロックは、単一の動作に一緒にグループ化され実行されてもよく、所定のブロックは、複数のコンポーネントブロックに分割されてもよく、所定のブロックは、並列形式でブロックを実行することを含め、本明細書で示される順序とは異なる順序で実行されてもよい。フローチャートに示されるブロックは、ソフトウェア、ハードウェア、ファームウェア、手動処理等により実装され得る。本明細書で使用されるとき、ハードウェアは、コンピュータシステム、特定用途向け集積回路(ASIC)等のディスクリートロジックコンポーネント等を含み得る。
用語に関して、「〜するよう構成されている」という語句は、任意の種類の機能が、特定された動作を実行するよう構築され得る任意のやり方を包含する。機能は、例えば、ソフトウェア、ハードウェア、ファームウェア等を使用して動作を実行するよう構成され得る。「ロジック」という用語は、タスクを実行するための任意の機能を包含する。例えば、フローチャートに示される各動作は、その動作を実行するためのロジックに対応する。動作は、ソフトウェア、ハードウェア、ファームウェア等を使用して実行され得る。「コンポーネント」、「システム」等という用語は、実行中のソフトウェア、コンピュータ関連エンティティ、ハードウェア、ファームウェア、又はこれらの組合せを指し得る。コンポーネントは、プロセッサ上で実行されるプロセス、オブジェクト、実行ファイル、プログラム、ファンクション、サブルーチン、コンピュータ、又はソフトウェアとハードウェアとの組合せであり得る。「プロセッサ」という用語は、コンピュータシステムの処理ユニット等のハードウェアコンポーネントを指し得る。
さらに、特許請求される主題は、標準的なプログラミング技術及びエンジニアリング技術を使用して、ソフトウェア、ファームウェア、ハードウェア、又はこれらの任意の組合せを作成し、開示する主題を実施するようにコンピューティングデバイスを制御するための方法、装置、又は製品として実装され得る。本明細書で使用される「製品」という用語は、任意のコンピュータ読み取り可能な記憶デバイス又は記憶媒体からアクセス可能なコンピュータプログラムを包含することが意図されている。コンピュータ読み取り可能な記憶媒体は、とりわけ、例えば、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップといった磁気記憶デバイス、光ディスク、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、スマートカード、フラッシュメモリデバイスを含み得るが、これらに限定されるものではない。反対に、コンピュータ読み取り可能な媒体、すなわち、非記憶媒体は、無線信号のための伝送媒体といった通信媒体等を含み得る。
ニューラルネットワークは、動物の脳における活動を模擬するよう試みる計算論的モデルである。ニューラルネットワークにおいて、相互接続されたシステムが、ネットワークを介して情報を与えることにより、入力から値を計算する。これらのシステムは、脳のニューロン間の相互接続と同様に相互接続される。深層ニューラルネットワーク(DNN)は、一般的には、2以上の隠れ層を有するネットワークであり、ここで、これらの層は、完全に接続される。すなわち、ある層における全てのニューロンは、それに続く層における全てのニューロンに相互接続される。
音声認識において、入力ニューロンのセットは、混合音声の入力フレームの音声信号によりアクティブ化され得る。入力フレームは、最初の層におけるニューロンにより処理され、他の層におけるニューロンに渡され得る。他の層におけるニューロンも、自身への入力を処理し、その出力を渡す。ニューラルネットワークの出力は、特定の音素又はサブ音素ユニットが観測される確率を指定する出力ニューロンにより生成される。
高分解能特徴量が、一般的には、音声分離システムにより使用されるが、従来のGMM−HMM自動音声認識(ASR)システムは、そのような高分解能特徴量を効果的にモデル化することができない。したがって、研究者は、従来のGMM−HMMベースのASRシステムが使用される場合には、通常、音声分離及び音声認識の処理を分離する。
しかしながら、ニューラルネットワークベースのシステムは、ケプストラム領域の特徴量を処理することと比べて、スペクトル領域の特徴量を処理することによる利点を示した。さらに、ニューラルネットワークは、話者変化及び環境歪みに対するロバスト性を示した。特許請求される主題の実施形態において、統合されたニューラルネットワークベースのシステムは、2人の話者の音声について分離処理及び認識処理の両方を実行することができる。有利なことに、ニューラルネットワークは、従来のASRシステムよりスケールアップする可能性が高い方法で、これを行うことができる。
図1は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステム100のデータフロー図である。システム100において、トレーニングセット102が、複数のニューラルネットワーク104に入力される。ニューラルネットワーク104は、トレーニングセット102を使用してトレーニングされ、トレーニングされたネットワーク106が生成される。混合音声フレーム108が、トレーニングされたネットワーク106に入力され、音素確率(phonetic probability)110が生成される。音素確率110は、特定の音素又はサブ音素ユニットが信号内で観測される尤度の集合を表す。一実施形態において、音素確率110が、重み付き有限状態トランスデューサ(WFST)112に入力され、WFST112が、統合復号を実行して、発話語を選択する。システム100は、マルチスタイルトレーニングを、複数話者タスクのために定義された異なる目的関数と組み合わせた、同一チャンネル音声認識のためのいくつかの方法を含む。
例示的な実施例により、競合話者の妨害に対する雑音ロバスト性が実証された。1つの実施例は、19.7%という全単語誤り率(WER)を達成し、これは、最先端のシステムと比べ、1.9%の絶対的向上であった。有利なことに、特許請求される主題の実施形態は、より低い複雑度及びより少ない仮定を用いてこれを実現している。
1.序論
特許請求される主題の実施形態は、深層ニューラルネットワーク(ニューラルネットワーク104)を使用して、単一チャンネル混合音声認識を実行する。人工的混合音声データ(例えば、混合音声フレーム108)に対してマルチスタイルトレーニング方策を使用することにより、複数の異なるトレーニングセットアップ(training setup)は、DNNシステムが、対応する類似パターンを一般化することを可能にする。さらに、WFST復号器112は、トレーニングされたニューラルネットワーク104と協働する統合復号器である。
2.混合音声を用いたDNNマルチスタイルトレーニング
図2は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法200のプロセスフロー図である。このプロセスフロー図は、特許請求される主題の技術のみを表すものであり、必ずしもこのシーケンスを表すわけではないことを理解されたい。方法200は、システム100により実行され得、ブロック202から開始する。ブロック202において、トレーニングセット102が、クリーンなトレーニングセットから作成される。ニューラルネットワークベースの音響モデルは、従来のシステムより環境歪みに対してロバストであることが分かっているが、このロバスト性は、トレーニングセット102と混合音声フレーム108との間により多くの歪みが存在する場合には十分に保たれない。したがって、トレーニング中に、代表的なバリエーションの例をニューラルネットワークに提示することが、トレーニングされたネットワーク106がより乱された音声を一般化するのに役立つ。
単一話者音声に対してトレーニングされたニューラルネットワークベースのモデルは、良好には一般化しない。しかしながら、特許請求される主題の実施形態は、マルチスタイルトレーニング方策を使用することにより、この問題を解決する。この方策において、クリーンなトレーニングデータは、予期される音声を表すように変更される。例示的なトレーニングセット102において、クリーンな単一話者音声データベースが、様々な音量、エネルギー等での他の話者からの競合音声のサンプルにより「乱される」。ブロック204において、ニューラルネットワーク104が、マルチコンディション波形(複数条件波形(multi-condition waveform))を含むこの変更されたトレーニングデータを使用してトレーニングされる。有利なことに、マルチコンディションデータを使用して、複数話者音声における音声信号を分離することができるトレーニングされたネットワーク106を生成することができる。実施形態において、ニューラルネットワーク104は、話者の各々についてトレーニングされ得る。
ブロック206において、統合復号が実行され得る。一実施形態において、WFST復号器が、複数の話者について音声を復号するように変更される。
2.1.高エネルギー信号モデル及び低エネルギー信号モデル
複数の音声信号を含む各混合音声発声において、1つの信号がターゲット音声であり、1つの信号が妨害音声であると仮定する。システムは両方の信号を復号するので、このラベリングはいくらか恣意的である。一実施形態は、音声信号のエネルギーに関する仮定を用いる。この実施形態において、一方の信号は、他方の信号より高い平均エネルギーを有すると仮定する。この仮定の下で、ターゲット音声を、高い方のエネルギー信号(正信号対雑音比(SNR))又は低い方のエネルギー信号(負SNR)のいずれかとして識別することが可能である。したがって、2つのニューラルネットワーク104が使用される。混合音声入力を所与として、一方のネットワークは、高い方のエネルギーの音声信号を認識するようにトレーニングされるのに対し、他方のネットワークは、低い方のエネルギーの音声信号を認識するようにトレーニングされる。
図3は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための方法のプロセスフロー図である。このプロセスフロー図は、特許請求される主題の技術のみを表すものであり、必ずしもこのシーケンスを表すわけではないことを理解されたい。方法300は、システム100により実行され得、ブロック302から開始する。ブロック302において、システム100は、トレーニングセット102のエネルギーを正規化する。クリーンなトレーニングデータセット
Figure 2017515140
を所与として、データセット内の各音声発声が同じパワーレベルを有するように、エネルギーの正規化が実行される。ブロック304において、ランダムサンプルが、トレーニングセット102に混合される。ターゲット音声信号がより高い又はより低い平均エネルギーを有する音響環境をシミュレートするために、別の信号が、トレーニングセット102からランダムに選択され、その振幅が、適切にスケーリングされてトレーニングセット102に追加される。このようにして、トレーニングセット102が、
Figure 2017515140
及び
Figure 2017515140
で表記される、高エネルギーデータ及び低エネルギーデータについての2つのマルチコンディションデータセットを作成するために変更される。
ブロック306において、ニューラルネットワーク104が、
Figure 2017515140
及び
Figure 2017515140
の各々についてトレーニングされ、2つのトレーニングされたネットワーク106が生成される。高エネルギーターゲット話者について、ニューラルネットワーク104は、損失関数
Figure 2017515140
を使用してトレーニングされ得る。
上記(1)において、
Figure 2017515140
は、
Figure 2017515140
のフレームにおける基準セノンラベル(基準音声要素ラベル(reference senone label))である。セノンラベルの項は、クリーンなデータにおけるアライメントに由来することに留意されたい。これは、例示的な実施例において良好な性能を得るのに有用であった。同様に、低エネルギーターゲット話者についてのニューラルネットワーク104は、データセット
Figure 2017515140
に対してトレーニングされ得る。さらに、2つのデータセット
Figure 2017515140
及び
Figure 2017515140
を使用すると、最小二乗誤差(MSE)損失関数
Figure 2017515140
を使用して、雑音除去器(denoiser)としてのニューラルネットワーク104をトレーニングすることが可能である。上記(2)において、
Figure 2017515140
は、対応するクリーンな音声特徴量であり、
Figure 2017515140
は、深層雑音除去器を使用した、乱されていない入力の推定量である。同様に、低エネルギーターゲット話者についての雑音除去器は、データセット
Figure 2017515140
に対してトレーニングされ得る。310において、統合復号が実行され得る。
2.2.高ピッチ信号モデル及び低ピッチ信号モデル
平均高エネルギー音声信号及び平均低エネルギー音声信号に基づく上記トレーニング方策に伴う1つの潜在的問題は、混合信号が、同様の平均エレルギーレベル、すなわち、ほぼ0dBのSNRを有する場合、トレーニングされたモデルが良好に機能しないことがあることである。トレーニングの観点においては、同じ混合音声入力について、トレーニングラベルが、相反する値を有する(高い方のエネルギーの話者及び低い方のエネルギーの話者の両方からのラベルであり得る)ために、この問題は不明瞭になる。しかしながら、2人の話者が同じピッチで発話している可能性はそれほど高くない。したがって、別の実施形態において、ニューラルネットワーク104は、高い方のピッチ又は低い方のピッチを伴う音声を認識するようにトレーニングされる。この実施形態において、単一のトレーニングセット102である
Figure 2017515140
が、妨害音声信号をランダムに選択し、選択された妨害音声信号をターゲット音声信号と混合することにより、オリジナルのクリーンなデータセット
Figure 2017515140
から、作成される。トレーニングはまた、ターゲット音声信号及び妨害音声信号の両方についてのピッチ推定を含み、このピッチ推定を用いて、トレーニングについてのラベルを選択する。したがって、高ピッチ音声信号についてニューラルネットワーク104をトレーニングするための損失関数は、
Figure 2017515140
である。上記(3)において、
Figure 2017515140
は、高い方の平均ピッチの音声信号におけるアライメントから得られた基準セノンラベルである。同様に、低い方のピッチの音声信号についてのニューラルネットワーク104は、低い方の平均ピッチの音声信号のセノンアライメントを用いてトレーニングされ得る。
2.3.瞬時高エネルギー信号モデル及び瞬時低エネルギー信号モデル
ニューラルネットワーク104はまた、各フレーム108における瞬時エネルギーに基づいてトレーニングされ得る。0dBという平均エネルギーを有する発声は、各フレームにおいてゼロでない瞬時SNR値を有することになり、これは、ラベリングにおいて不明確さがないことを意味する。トレーニングセット
Figure 2017515140
が、音声信号を混合し、ターゲット信号及び妨害信号における瞬時フレームエネルギーを算出することにより、作成され得る。瞬時高エネルギー信号についての損失関数は、
Figure 2017515140
により与えられる。上記(4)において、
Figure 2017515140
は、フレームtにおいてより高いエネルギーを含む信号ソースからのセノンラベルに対応する。このシナリオにおいて、分離のための基準として、発声ベースのエネルギーではなく、フレームベースのエネルギーが使用される。したがって、どの出力が、フレーム108ごとにターゲット話者に対応するか又は妨害話者に対応するかについての不確実さが存在する。例えば、ターゲット話者は、あるフレームにおいてはより高いエネルギーを有し、その次のフレームにおいてはより低いエネルギーを有することがある。
3.DNNモデルを用いた統合復号
瞬時エネルギーに基づくニューラルネットワーク104について、2つのトレーニングされたネットワーク106の各々は、どの出力が、各フレーム108においてどの話者に属するかを判定する。これを行うために、統合復号器は、トレーニングされたネットワーク106から、事後確率推定値(例えば、音素確率110)を得て、最良の2つの状態系列(各話者につき1つの状態系列)を統合的に発見する。WFSTフレームワークにおける復号グラフを作成するための標準的レシピ(recipe)は、
Figure 2017515140
として記述され得る。上記(5)において、H、C、L、及びGはそれぞれ、HMM構造(HMM structure)、音素のコンテキスト依存性(phonetic context-dependency)、レキシコン(lexicon)、及びグラマー(grammar)を表し、
Figure 2017515140
は、WFST合成(composition)である。HCLGの入力ラベルは、コンテキスト依存HMM状態の識別子(セノンラベル)であり、出力ラベルは、単語を表す。瞬時高エネルギー信号のトレーニングされたネットワーク及び瞬時低エネルギー信号のトレーニングされたネットワークは、
Figure 2017515140
及び
Figure 2017515140
で表記される。統合復号器のタスクは、以下のように、各状態系列対数尤度の和が最大にされるように、2−D統合状態空間において最良の2つの状態系列を発見することである。
Figure 2017515140
復号アルゴリズムは、2つのHCLG復号グラフに対して、統合トークンパッシング(joint token passing)を実行する。統合復号と従来の復号との間のトークンパッシングにおける差異は、統合復号においては、各トークンが、復号グラフにおいて、1つの状態ではなく、2つの状態に関連付けられることである。
図4は、本明細書に記載の実施形態に従った、単一チャンネル混合音声認識のための例示的なシステムのブロック図である。図4は、統合トークンパッシングを例示する些細な例を示している。2つのWFSTグラフにおいて:
Figure 2017515140

Figure 2017515140
で表される状態空間は、2人の話者のうちの一方の話者に対応し;
Figure 2017515140
は、統合状態空間を表す。第1の話者Sについてのトークンが状態1にあり、第2の話者Sに関連付けられているトークンが状態2にあると仮定する。
Figure 2017515140
でない入力ラベルを有する出力アーク(音響フレームを使用するアーク)について、拡張アークは、2つの出力アークのセットの間のデカルト積を表す。各拡張アークのグラフコストは、これらの2つの半環の乗算値(semiring multiplication)である。各拡張アークの音響コストは、瞬時高エネルギー及び瞬時低エネルギーについての2つのニューラルネットワーク104からのセノン仮定(hypothesis)を用いて算出される。両方の場合(2つのソースのうちのいずれか一方が、高い方のエネルギーを有する)が考慮される。音響コストは、以下のように、より高い尤度の組合せにより与えられる。
Figure 2017515140
式(7)を使用すると、どの話者の発話が、この探索パスに沿った所定のフレームtでの対応する信号におけるより高いエネルギーを有するかを判定することも可能である。
Figure 2017515140
である入力ラベルを有するアークについて、
Figure 2017515140
であるアークは、音響フレームを使用していない。したがって、2つの復号グラフにおけるトークンの同期を確実にするために、現フレームについての新たな統合状態が作成される。例えば、図4における状態(3,2)を参照されたい。
統合復号器112の1つの潜在的問題は、発声全体を復号している間、これが、フレームごとに自由なエネルギー切り替わりを可能にしてしまうことである。さらに、実際には、エネルギー切り替わりは、通常、頻繁には生じない。特許請求される主題の実施形態は、大きい方の信号が最後のフレームから変化した場合、探索パスにおいて一定のペナルティを導入することにより、この問題に対処する。代替的に、所定のフレームがエネルギー切り替わりポイントである確率が、推定され得、ペナルティの値が、それに伴って適応的に変更されてもよい。トレーニングセット102は、音声信号を混合することにより作成されるので、各オリジナルの音声フレームのエネルギーが利用可能である。トレーニングセットを使用して、エネルギー切り替わりポイントが所定のフレームにおいて生じるかどうかを予測するように、ニューラルネットワーク104をトレーニングすることができる。
Figure 2017515140
が、エネルギー切り替わりポイントを検出するようにトレーニングされたモデルを表すとすると、エネルギー切り替わりについての適応的ペナルティは、
Figure 2017515140
により与えられる。
4.実験結果
4.1.例示的な実施例
例示的な実施例において、音声データが、GRIDコーパスから取り出された。トレーニングセット102は、34人の異なる話者からの17000個のクリーンな音声発声(各話者につき500個の発声)を含む。評価セットは、クリーン、6dB、3dB、0dB、−3dB、−6dB、−9dBというターゲット対マスク比(TMR:target-to-mask ratio)である7つのコンディションにおける4200個の混合音声発声を含み、開発セットは、(クリーンのコンディションがない)6つのコンディションにおける1800個の混合音声発声を含む。固定のグラマーは、例えば、「place white at L 3 now」といった、命令、色、前置詞、(Wを除く)文字、数字、及び副詞の6つの部分を含む。テスト段階中、色「white」を発話した話者が、ターゲット話者として扱われた。評価基準は、ターゲット話者により発話された文字及び数字についてのWERである。全ての単語についてのWERが低くなり、別途示されない限り、以下の実験結果における全てのレポートされたWERは、文字及び数字についてのみ評価されたものであることに留意されたい。
4.2.ベースラインシステム
ベースラインシステムが、17000個のクリーンな音声発声からなるオリジナルのトレーニングセットに対してトレーニングされたDNNを使用して構築された。GMM−HMMシステムが、271個の異なるセノンを有する39次元MFCC特徴量を使用してトレーニングされた。さらに、64次元対数メルフィルタバンクが特徴量として使用され、DNNをトレーニングするために9つのフレームであるコンテキストウィンドウが使用された。DNNは、各層において1024個の隠れユニットを有する7つの隠れ層と、GMM−HMMシステムのセノンに対応する271次元ソフトマックス出力層と、を有する。このトレーニング方式が、全てのDNN実験を通じて使用された。パラメータ初期化が、生成プレトレーニングを用いその後に識別プレトレーニングを用いて、層ごとに行われた。ネットワークが、誤差逆伝播法(バックプロパゲーション)を用いて識別トレーニングされた。ミニバッチサイズが、256に設定され、初期学習率が、0.008に設定された。各トレーニング期間の後、フレーム精度が、開発セットについて妥当性検証された。向上が0.5%未満である場合、学習率が、0.5という係数の分だけ低減された。トレーニングプロセスは、フレーム精度の向上が0.1%未満であった後に、停止された。ベースラインのGMM−HMMシステム及びDNN−HMMシステムのWERが、表2に示されている。示されるように、クリーンなデータに対してトレーニングされたDNN−HMMシステムは、クリーンのコンディションを除くすべてのSNRコンディションにおいて良好には機能せず、DNNマルチスタイルトレーニングの有効性が示された。
Figure 2017515140
4.3.マルチスタイルトレーニングされたDNNシステム
高エネルギー信号モデル及び低エネルギー信号モデルについてのマルチスタイルトレーニングの使用を調べるために、2つの混合音声トレーニングデータセットが生成された。セットIと呼ばれる高エネルギートレーニングセットが次のように作成された:各クリーンな発声について、3つの他の発声がランダムに選択され、クリーン、6dB、3dB、0dBの4つのコンディション下で、ターゲットのクリーンな発声と混合された(17000×12)。低エネルギートレーニングセットであるセットIIが、同様に作成されたが、混合は、クリーン、0dB、−3dB、−6dB、−9dBというTMRの5つのコンディション下で行われた(17000×15)。これらの2つのトレーニングセット102を使用して、高エネルギー信号及び低エネルギー信号それぞれについての2つのDNNモデルであるDNN I及びDNN IIをトレーニングした。結果が、表3に列挙されている。
Figure 2017515140
上記表から、2つの混合信号が、大きなエネルギーレベル差を有する場合、すなわち、6dB、−6dB、−9dBの場合、結果が良好であった。さらに、ターゲット話者が色「white」を常に発話するというルールを使用して、DNN Iシステム及びDNN IIシステムからの結果を組み合わせることにより、組み合わせたDNN I+IIシステムは、クリーンなデータのみに対してトレーニングされたDNNを使用して得られた67.4%と比べ、25.4%というWERを達成した。
同じトレーニングセットIを使用して、DNNが、フロントエンド雑音除去器としてトレーニングされた。トレーニングされた深層雑音除去器を使用して、2つの異なるセットアップが試行された:第1のセットアットは、雑音除去された特徴量を、クリーンなデータに対してトレーニングされたDNNに直接与え、第2のセットアップにおいては、別のDNNが、雑音除去されたデータに対して再トレーニングされた。両セットアップの結果が、表4に示されている。
Figure 2017515140
上記実験結果から、セノンラベルを予測するようにトレーニングされたDNNを含むシステムは、トレーニングされた深層雑音除去器に続いて別の再トレーニングされたDNNを含むシステムよりわずかに良好であったことが分かる。これは、DNNが、ロバストな表現を自動的に学習できることを暗示している。したがって、手作業で作られた(hand-crafted)特徴量は、フロントエンドにおいては抽出され得ない。組み合わせたシステムDNN I+IIは、最先端のシステムほど良好ではなかった。これは、2つの混合信号が、非常に近いエネルギーレベルを有する場合、すなわち、0dB、−3dBの場合、このシステムが、あまり良好には機能しないためであると思われる。具体的には、高エネルギー信号及び低エネルギー信号についてのマルチスタイルトレーニング方策は、トレーニング中に相反するラベルを割り当てる潜在的問題を有している。表4は、高エネルギー信号及び低エネルギー信号についての深層雑音除去器のWER(%)を示している。
高ピッチ信号モデル及び低ピッチ信号モデルについて、ピッチが、クリーンなトレーニングセットから、各話者について推定された。次いで、トレーニングセットI及びトレーニングセットIIを組み合わせてトレーニングセットIII(17000×24)を形成し、高ピッチ信号及び低ピッチ信号それぞれについて2つのニューラルネットワーク104をトレーニングした。高ピッチ信号についてのニューラルネットワーク104をトレーニングしたときに、ラベルが、高ピッチ話者に対応する、クリーンな音声発声におけるアライメントから割り当てられた。低ピッチ信号についてのニューラルネットワーク104をトレーニングしたときに、ラベルが、低ピッチ話者に対応するアライメントから割り当てられた。2つのトレーニングされたネットワーク106を使用して、復号が、従来通り、独立して実行された。具体的には、復号結果が、ターゲット話者が色「white」を常に発話するというルールを使用して、組み合わされた。WERが、表5に示されている。
Figure 2017515140
示されるように、高ピッチ信号モデル及び低ピッチ信号モデルを用いたシステムは、0dBの場合、高エネルギーモデル及び低エネルギーモデルを用いたシステムより良好に機能したが、他の場合には良好には機能しなかった。
4.4.統合復号器を有するDNNシステム
トレーニングセットIIIを使用して、セクション3で説明したように、瞬時高エネルギー信号及び瞬時低エネルギー信号についての2つのDNNモデルをトレーニングした。これらの2つのトレーニングされたモデルを使用して、セクション3で説明したように、統合復号が実行された。この統合復号器の手法の結果が、表6に示されている。最後の2つのシステムは、エネルギー切り替わりペナルティが導入された場合に対応する。統合復号器Iは、一定のエネルギー切り替わりペナルティを伴うシステムであり、統合復号器IIは、適応的切り替わりペナルティを伴うシステムである。(8)で定義されるエネルギー切り替わりペナルティの値を得るために、DNNが、各フレームについてのエネルギー切り替わり確率を推定するようにトレーニングされた。表6は、統合復号器を有するDNNシステムのWER(%)を示している。
Figure 2017515140
4.5.システムの組合せ
表6は、2つの混合音声信号が、大きなエネルギーレベル差を有する場合、すなわち、6dB、−6dB、−9dBの場合、DNN I+IIシステムが良好に機能したのに対し、2つの混合信号が、同様のエネルギーレベルを有する場合、統合復号器IIシステムが良好に機能したことを示している。これは、2つの信号間のエネルギー差に応じたシステムの組合せが使用されるのがよいことを示唆している。混合信号が、2つの深層雑音除去器に入力され、結果として生じた2つの出力信号を使用して、高エネルギー信号及び低エネルギー信号を推定する。これらの分離された信号を使用して、エネルギー比が、2つのオリジナルの信号のエネルギー差を近似するために算出され得る。閾値が、開発セットに関するエネルギー比について調整されて得られ、システムの組合せに対して使用される。すなわち、雑音除去器からの2つの分離された信号のエネルギー比が、閾値より高い場合、テスト発声を復号するためにDNN I+IIシステムが使用され、そうでない場合、テ統合復号器IIシステムが使用される。結果が、表6に列挙されている。
5.結び
本研究において、我々は、マルチスタイルトレーニング方策を使用することにより、単一チャンネル混合音声認識のためのDNNベースのシステムを調べた。我々はまた、トレーニングされたニューラルネットワーク104と協働するWFSTベースの統合復号器を導入した。2006個の音声分離及び認識チャレンジデータに対する実験結果により、提案しているDNNベースのシステムが、競合話者の妨害に対する顕著な雑音ロバスト性を有することが実証された。我々が提案しているシステムの最良のセットアップは、19.7%という全WERを達成し、これは、IBM(登録商標)スーパーヒューマンシステムにより得られた結果と比べ、より低い複雑度及びより少ない仮定を用いて、1.9%の絶対的向上であった。
図5は、特許請求される主題の様々な態様を実装するための例示的なネットワーキング環境500のブロック図である。さらに、例示的なネットワーキング環境500を使用して、DBMSエンジンを用いて外部データセットを処理するシステム及び方法を実装することができる。
ネットワーキング環境500は、1以上のクライアント502を含む。1以上のクライアント502は、ハードウェア及び/又はソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であり得る。一例として、1以上のクライアント502は、インターネット等の通信フレームワーク508を介するサーバ504へのアクセスを提供するクライアントデバイスであり得る。
環境500はまた、1以上のサーバ504を含む。1以上のサーバ504は、ハードウェア及び/又はソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)であり得る。1以上のサーバ504は、サーバデバイスを含み得る。1以上のサーバ504は、1以上のクライアント502によりアクセスされ得る。
クライアント502とサーバ504との間の1つの可能な通信は、2以上のコンピュータプロセスの間で伝送されるよう適合されているデータパケットの形態であり得る。環境500は、1以上のクライアント502と1以上のサーバ504との間の通信を円滑にするために使用され得る通信フレームワーク508を含む。
1以上のクライアント502は、1以上のクライアント502のローカルにある情報を記憶するために使用され得る1以上のクライアントデータ記憶部510に動作可能に接続される。1以上のクライアントデータ記憶部510は、1以上のクライアント502内に位置してもよいし、クラウドサーバ内といったリモートに位置してもよい。同様に、1以上のサーバ504は、1以上のサーバ504のローカルにある情報を記憶するために使用され得る1以上のサーバデータ記憶部506に動作可能に接続される。
特許請求される主題の様々な態様を実装するためのコンテキストを提供するために、図6は、特許請求される主題の様々な態様が実装され得るコンピューティング環境の簡潔で一般的な説明を提供するよう意図されている。例えば、フルカラー3Dオブジェクトを作成するための方法及びシステムは、このようなコンピューティング環境において実装され得る。特許請求される主題が、ローカルコンピュータ又はリモートコンピュータ上で実行されるコンピュータプログラムのコンピュータ実行可能な命令の一般的なコンテキストにおいて上述されたが、特許請求される主題はまた、他のプログラムモジュールと組み合わせて実装されてもよい。一般に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造等を含む。
図6は、特許請求される主題の様々な態様を実装するための例示的な動作環境600のブロック図である。例示的な動作環境600は、コンピュータ602を含む。コンピュータ602は、処理ユニット604、システムメモリ606、及びシステムバス608を含む。
システムバス608は、システムメモリ606を含むがこれに限定されないシステムコンポーネントを、処理ユニット604に接続する。処理ユニット604は、種々の利用可能なプロセッサのうちの任意のプロセッサであり得る。デュアルマイクロプロセッサ及び他のマルチプロセッサアーキテクチャも、処理ユニット604として使用され得る。
システムバス608は、メモリバス若しくはメモリコントローラ、周辺バス若しくは外部バス、又は、当業者に知られている種々の利用可能なバスアーキテクチャのうちの任意のバスアーキテクチャを使用するローカルバスを含む複数のタイプのバス構造のうちの任意のバス構造であり得る。システムメモリ606は、揮発性メモリ610及び不揮発性メモリ612を含むコンピュータ読み取り可能な記憶媒体を含む。
起動中等にコンピュータ602内の要素間で情報を転送するための基本ルーチンを含む基本入出力システム(BIOS)は、不揮発性メモリ612に記憶される。限定ではなく例として、不揮発性メモリ612は、読み取り専用メモリ(ROM)、プログラム可能なROM(PROM)、電気的にプログラム可能なROM(EPROM)、電気的に消去可能なプログラム可能なROM(EEPROM)、又はフラッシュメモリを含み得る。
揮発性メモリ610は、外部キャッシュメモリとして動作するランダムアクセスメモリ(RAM)を含む。限定ではなく例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDR SDRAM)、エンハンストSDRAM(ESDRAM)、SynchLink DRAM(SLDRAM)、Rambus(登録商標)ダイレクトRAM(RDRAM)、ダイレクトRambus(登録商標)ダイナミックRAM(DRDRAM)、及びRambus(登録商標)ダイナミックRAM(RDRAM)等の多くの形態で利用可能である。
コンピュータ602はまた、取り外し可能/取り外し不可能な揮発性/不揮発性のコンピュータ記憶媒体等の他のコンピュータ読み取り可能な媒体を含む。図6は、例えば、ディスク記憶デバイス614を示している。ディスク記憶デバイス614は、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−210ドライブ、フラッシュメモリカード、又はメモリスティック等のデバイスを含むが、これらに限定されるものではない。
さらに、ディスク記憶デバイス614は、他の記憶媒体と分離された又は他の記憶媒体と組み合わせた記憶媒体を含み得る。そのような記憶媒体は、コンパクトディスクROMドライブ(CD−ROMドライブ)、CDレコーダブルドライブ(CD−Rドライブ)、CDリライタブルドライブ(CD−RWドライブ)、又はデジタル多用途ディスクROMドライブ(DVD−ROMドライブ)等の光ディスクドライブを含むが、これらに限定されるものではない。システムバス608へのディスク記憶デバイス614の接続を円滑にするために、インタフェース616等の取り外し可能又は取り外し不可能なインタフェースが、通常使用される。
図6は、ユーザと、適切な動作環境600内に示される基本コンピュータリソースと、の間の仲介として動作するソフトウェアを示していることを理解されたい。そのようなソフトウェアは、オペレーティングシステム618を含む。ディスク記憶デバイス614に記憶され得るオペレーティングシステム618は、コンピュータシステム602のリソースを制御して割り当てるよう動作する。
システムアプリケーション620は、システムメモリ606又はディスク記憶デバイス614のいずれかに記憶されているプログラムデータ624及びプログラムモジュール622を通じたオペレーティングシステム618によるリソースの管理を利用する。特許請求される主題は、様々なオペレーティングシステム又はオペレーティングシステムの組合せとともに実装され得ることを理解されたい。
ユーザは、入力デバイス626を介して、命令又は情報をコンピュータ602に入力する。入力デバイス626は、マウス、トラックボール、スタイラス等といったポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、サテライトディッシュ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラ等を含むが、これらに限定されるものではない。入力デバイス626は、インタフェースポート628を介しシステムバス608を介して、処理ユニット604に接続される。インタフェースポート628は、例えば、シリアルポート、パラレルポート、ゲームポート、及びユニバーサルシリアルバス(USB)を含む。
出力デバイス630は、入力デバイス626と同じタイプのポートのうちの一部を使用する。したがって、例えば、入力をコンピュータ602に提供するとともに、コンピュータ602からの情報を出力デバイス620に出力するために、USBポートが使用され得る。
出力アダプタ632は、数ある出力デバイス630の中でもとりわけ、モニタ、スピーカ、及びプリンタ等のいくつかの出力デバイス630が存在することを示すために設けられる。これらのいくつかの出力デバイス630は、アダプタを介してアクセス可能である。出力アダプタ632は、限定ではなく例として、出力デバイス630とシステムバス608との間の接続の手段を提供するビデオカード及びサウンドカードを含む。リモートコンピュータ634等の、他のデバイス、及びデバイスのシステムは、入力機能及び出力機能の両方を提供することに留意されたい。
コンピュータ602は、リモートコンピュータ634等の1以上のリモートコンピュータへの論理接続を使用して、ネットワーク環境において様々なソフトウェアアプリケーションをホストするサーバであり得る。リモートコンピュータ634は、ウェブブラウザ、PCアプリケーション、携帯電話機アプリケーション等を有するよう構成されているクライアントシステムであり得る。
リモートコンピュータ634は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースの機器、携帯電話機、ピアデバイス、又は他の一般的なネットワークノード等であり得、通常は、コンピュータ602に関して説明した要素の多く又は全てを含む。
簡潔さのために、メモリ記憶デバイス636が、リモートコンピュータ634とともに図示されている。リモートコンピュータ634は、ネットワークインタフェース638を介してコンピュータ602に論理的に接続され、次いで、無線通信接続640を介して接続される。
ネットワークインタフェース638は、ローカルエリアネットワーク(LAN)及びワイドエリアネットワーク(WAN)等の無線通信ネットワークを包含する。LAN技術は、ファイバ分散データインタフェース(FDDI)、銅線分散データインタフェース(CDDI)、イーサネット(登録商標)、トークンリング等を含む。WAN技術は、ポイントツーポイントリンク、統合サービスデジタルネットワーク(ISDN)及びその変形版等の回路交換ネットワーク、パケット交換ネットワーク、及びデジタル加入者回線(DSL)を含むが、これらに限定されるものではない。
通信接続640は、ネットワークインタフェース638をバス608に接続するために使用されるハードウェア/ソフトウェアを指す。通信接続640が、例示の明瞭さのために、コンピュータ602内に図示されているが、通信接続640が、コンピュータ602の外部にあってもよい。ネットワークインタフェース638への接続のためのハードウェア/ソフトウェアは、例えば、携帯電話機スイッチ、通常の電話品質モデム、ケーブルモデム、及びDSLモデムを含むモデム、ISDNアダプタ、並びにイーサネット(登録商標)カード等の内蔵技術及び外付け技術を含み得る。
サーバのための例示的な処理ユニット604は、Intel(登録商標) Xeon(登録商標) CPUを含むコンピューティングクラスタであり得る。ディスク記憶デバイス614は、例えば数千のインプレッション(impression)を保持するエンタープライズデータ記憶システムを含み得る。
上述したものは、特許請求される主題の例を含む。もちろん、特許請求される主題を説明するために、コンポーネント又は方法の全ての考えられる組合せを説明することは不可能であるが、当業者であれば、特許請求される主題の多くのさらなる組合せ及び置換が可能であることが認識できよう。したがって、特許請求される主題は、請求項の主旨及び範囲に属する全てのそのような変更形態、修正形態、及び変形形態を包含することが意図されている。
特に上述したコンポーネント、デバイス、回路、システム等により実行される様々な機能に関して、そのようなコンポーネントを説明するために使用された(「手段」との言及を含む)用語は、別途示されない限り、説明したコンポーネントの特定の機能を実行する任意のコンポーネント(例えば、機能的均等物)に対応し、これは、開示した構造と構造的には同等ではないとしても、特許請求される主題の本明細書において示された例示的な態様における機能を実行する。これに関して、本イノベーションは、システムだけでなく、特許請求される主題の様々な方法の動作及びイベントを実行するためのコンピュータ実行可能な命令を有するコンピュータ読み取り可能な記憶媒体も含むことが認識されよう。
例えば、アプリケーション及びサービスが本明細書に記載の技術を使用できるようにする適切なAPI、ツールキット、ドライバコード、オペレーティングシステム、コントロール、スタンドアロンソフトウェアオブジェクト、ダウンロード可能なソフトウェアオブジェクト等といった、特許請求される主題を実装する複数の方法が存在する。特許請求される主題は、API(又は、他のソフトウェアオブジェクト)の観点からの使用だけでなく、本明細書に記載の技術に従って動作するソフトウェアオブジェクト又はハードウェアオブジェクトからの使用も想定している。したがって、本明細書に記載の特許請求される主題の様々な実装は、全体がハードウェアによる態様、部分的にハードウェアにより部分的にソフトウェアによる態様、及びソフトウェアによる態様を含み得る。
上述したシステムは、複数のコンポーネント間の相互作用に関連して説明されている。そのようなシステム及びコンポーネントは、上記の様々な置換及び組合せに応じたコンポーネント又は特定のサブコンポーネント、特定のコンポーネント又はサブコンポーネントのうちの一部、及びさらなるコンポーネントを含み得ることが理解できよう。サブコンポーネントはまた、親コンポーネント内に含まれる(階層的)以外に、他のコンポーネントに通信可能に接続されるコンポーネントとして実装されてもよい。
さらに、1以上のコンポーネントは、集約機能を提供する単一のコンポーネントに組み合わされてもよいし、複数の別個のサブコンポーネントに分割されてもよく、統合機能を提供するために、管理層等の任意の1以上の中間層が、そのようなサブコンポーネントに通信可能に接続されるよう設けられてもよい。本明細書に記載の任意のコンポーネントがまた、本明細書では具体的に説明されていないが当業者により一般的に知られている1以上の他のコンポーネントと相互作用し得る。
さらに、特許請求される主題の特定の特徴が、複数の実施形態のうちの1つの実施形態に関連して開示されている場合もあるが、そのような特徴は、任意の所与の又は特定のアプリケーションのために望まれ有利であり得るように、他の実施形態の1以上の他の特徴と組み合されてもよい。さらに、「含む」、「有する」、「包含する」という用語、これらの変形、及び他の同様の用語が、詳細な説明又は特許請求の範囲において使用される限りにおいて、これらの用語は、オープンな移行語である「備える」という用語と同様に、さらなる要素又は他の要素を排除することなく非排他的であることが意図されている。

Claims (15)

  1. ソースからの混合音声を認識するための方法であって、
    混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第1のニューラルネットワークをトレーニングするステップと、
    前記混合音声サンプルからのより低レベルの前記音声特性を有する話者により発話された音声信号を認識するように、第2のニューラルネットワークをトレーニングするステップと、
    2つの前記音声信号を観測する統合尤度を最適化することにより、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを使用して、前記混合音声サンプルを復号するステップと、
    を含む方法。
  2. 特定のフレームが、前記話者らの切り替わりポイントである確率を考慮することにより復号するステップを含む、請求項1記載の方法。
  3. 別のニューラルネットワークから推定された切り替わりの前記確率に基づいて、復号プロセスにおいて生じる前記切り替わりポイントを補償するステップを含む、請求項2記載の方法。
  4. 前記混合音声サンプルは、単一オーディオチャンネルを含み、前記単一オーディオチャンネルは、マイクロフォンにより生成されている、請求項1記載の方法。
  5. 前記音声特性は、
    前記混合音声サンプルのフレームにおける瞬時エネルギーと、
    エネルギーと、
    ピッチと、
    のうちの1つを含む、請求項1記載の方法。
  6. 音声特性切り替わりを予測するように、第3のニューラルネットワークをトレーニングするステップと、
    エネルギーが、あるフレームからその次のフレームで切り替わっているかどうかを予測するステップと、
    前記予測に基づいて、前記混合音声サンプルを復号するステップと、
    を含む、請求項1記載の方法。
  7. エネルギー切り替わりが予測されるフレームに続くフレームにおけるエネルギー切り替わりの尤度に対して重み付けするステップを含む、請求項6記載の方法。
  8. ソースからの混合音声を認識するためのシステムであって、
    第1の複数の相互接続されたシステムを含む第1のニューラルネットワークと、
    第2の複数の相互接続されたシステムを含む第2のニューラルネットワークと、
    を有し、
    各相互接続されたシステムは、
    処理ユニットと、
    コードを含むシステムメモリであって、前記コードは、前記処理ユニットに
    混合音声サンプルからの第1の音声信号におけるより高レベルの音声特性を認識するように、前記第1のニューラルネットワークをトレーニングさせ、
    前記混合音声サンプルからの第2の音声信号におけるより低レベルの前記音声特性を認識するように、前記第2のニューラルネットワークをトレーニングさせ、
    2つの前記音声信号を観測する統合尤度を最適化することにより、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを使用して、前記混合音声サンプルを復号させる
    よう構成されている、システムメモリと、
    を有する、システム。
  9. 特定のフレームが、前記音声特性の切り替わりポイントである確率を考慮することにより復号させるよう構成されているコードを有する、請求項8記載のシステム。
  10. 前記処理ユニットに、ニューラルネットワークから推定された前記確率に基づいて、復号プロセスにおいて生じる前記切り替わりポイントを補償させるよう構成されているコードを有する、請求項9記載のシステム。
  11. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、深層ニューラルネットワークを含む、請求項8記載のシステム。
  12. 前記音声特性は、ピッチと、エネルギーと、前記混合音声サンプルのフレームにおける瞬時エネルギーと、のうちの選択された1つを含む、請求項8記載のシステム。
  13. 前記処理ユニットに、
    エネルギー切り替わりを予測するように、第3のニューラルネットワークをトレーニングさせ、
    エネルギーが、あるフレームからその次のフレームで切り替わっているかどうかを予測させ、
    前記予測に基づいて、前記混合音声サンプルを復号させる
    よう構成されているコードを有する、請求項8記載のシステム。
  14. エネルギー切り替わりが予測されるフレームに続くフレームにおけるエネルギー切り替わりの尤度に対して重み付けすることを含む、請求項13記載のシステム。
  15. コンピュータ読み取り可能な命令を記憶した1以上のコンピュータ読み取り可能な記憶メモリデバイスであって、前記コンピュータ読み取り可能な命令は、1以上の処理デバイスにより実行されたときに、
    単一オーディオチャンネルを含む混合音声サンプルからの第1の音声信号におけるより高レベルの音声特性を認識するように、第1のニューラルネットワークをトレーニングすることと、
    前記混合音声サンプルからの第2の音声信号におけるより低レベルの前記音声特性を認識するように、第2のニューラルネットワークをトレーニングすることと、
    各フレームについての切り替わり確率を推定するように、第3のニューラルネットワークをトレーニングすることと、
    2つの前記音声信号を観測する統合尤度を最適化することにより、前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記第3のニューラルネットワークを使用して、前記混合音声サンプルを復号することであって、前記統合尤度は、特定のフレームが、前記音声特性の切り替わりポイントである確率を意味する、復号することと、
    を行わせるよう構成されているコードを含む、1以上のコンピュータ読み取り可能な記憶メモリデバイス。
JP2016558287A 2014-03-24 2015-03-19 混合音声認識 Active JP6486381B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/223,468 US9390712B2 (en) 2014-03-24 2014-03-24 Mixed speech recognition
US14/223,468 2014-03-24
PCT/US2015/021363 WO2015148237A1 (en) 2014-03-24 2015-03-19 Mixed speech recognition

Publications (3)

Publication Number Publication Date
JP2017515140A true JP2017515140A (ja) 2017-06-08
JP2017515140A5 JP2017515140A5 (ja) 2018-04-19
JP6486381B2 JP6486381B2 (ja) 2019-03-20

Family

ID=52808176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016558287A Active JP6486381B2 (ja) 2014-03-24 2015-03-19 混合音声認識

Country Status (6)

Country Link
US (3) US9390712B2 (ja)
EP (1) EP3123466B1 (ja)
JP (1) JP6486381B2 (ja)
CN (1) CN106104674B (ja)
RU (1) RU2686589C2 (ja)
WO (1) WO2015148237A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013034A (ja) * 2018-07-19 2020-01-23 株式会社日立製作所 音声認識装置及び音声認識方法
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
KR20210145733A (ko) 2019-03-27 2021-12-02 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10650805B2 (en) * 2014-09-11 2020-05-12 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
US9672810B2 (en) * 2014-09-26 2017-06-06 Intel Corporation Optimizations to decoding of WFST models for automatic speech recognition
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US10339921B2 (en) 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
US10332509B2 (en) 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10318813B1 (en) 2016-03-11 2019-06-11 Gracenote, Inc. Digital video fingerprinting using motion segmentation
CN111081231B (zh) 2016-03-23 2023-09-05 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US10657437B2 (en) 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US10204620B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
ES2608613B2 (es) * 2016-09-16 2018-04-02 Universidad De Las Palmas De Gran Canaria Metodología para el reconocimiento automatizado de reptiles mediante la transformación del modelo de Markov de la fusión paramétrica de características de su producción sonora.
US10552002B1 (en) * 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10529319B2 (en) 2017-05-22 2020-01-07 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
US11106974B2 (en) * 2017-07-05 2021-08-31 International Business Machines Corporation Pre-training of neural network by parameter decomposition
CN107393526B (zh) * 2017-07-19 2024-01-02 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
US11763834B2 (en) * 2017-07-19 2023-09-19 Nippon Telegraph And Telephone Corporation Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
US11537892B2 (en) * 2017-08-18 2022-12-27 Intel Corporation Slimming of neural networks in machine learning environments
US10580430B2 (en) * 2017-10-19 2020-03-03 Bose Corporation Noise reduction using machine learning
US11556775B2 (en) 2017-10-24 2023-01-17 Baidu Usa Llc Systems and methods for trace norm regularization and faster inference for embedded models
US10839822B2 (en) 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN110709924B (zh) * 2017-11-22 2024-01-09 谷歌有限责任公司 视听语音分离
US10762914B2 (en) 2018-03-01 2020-09-01 Google Llc Adaptive multichannel dereverberation for automatic speech recognition
US10832660B2 (en) 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
EP3775821A1 (en) 2018-04-11 2021-02-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11456003B2 (en) * 2018-04-12 2022-09-27 Nippon Telegraph And Telephone Corporation Estimation device, learning device, estimation method, learning method, and recording medium
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US11416741B2 (en) 2018-06-08 2022-08-16 International Business Machines Corporation Teacher and student learning for constructing mixed-domain model
CN108962271B (zh) * 2018-06-29 2021-06-22 广州视源电子科技股份有限公司 多加权有限状态转换器合并方法、装置、设备及存储介质
US10699700B2 (en) * 2018-07-31 2020-06-30 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN110867191B (zh) * 2018-08-28 2024-06-25 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN110288978B (zh) * 2018-10-25 2022-08-30 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
JP7167335B2 (ja) 2018-10-29 2022-11-08 ドルビー・インターナショナル・アーベー 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
CN109639377B (zh) * 2018-12-13 2021-03-23 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109545199B (zh) * 2019-01-09 2022-06-21 四川虹微技术有限公司 一种音频处理方法、装置及可读存储介质
CN109616102B (zh) * 2019-01-09 2021-08-31 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109753938B (zh) * 2019-01-10 2021-11-05 京东方科技集团股份有限公司 图像识别方法和设备及应用、神经网络的训练方法
US10803875B2 (en) 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
CN110459238B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN111836281B (zh) * 2019-04-23 2024-02-09 三星电子株式会社 用于优化物理层参数的设备和方法
US11146287B2 (en) * 2019-04-23 2021-10-12 Samsjung Electronics Co., Ltd. Apparatus and method for optimizing physical layer parameter
CN110213165B (zh) * 2019-06-05 2021-04-13 北京灵汐科技有限公司 一种异构协同系统及其通信方法
CN110288995B (zh) * 2019-07-19 2021-07-16 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN110674277A (zh) * 2019-09-29 2020-01-10 北京金山安全软件有限公司 交互数据有效性识别方法和装置
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN111354375A (zh) * 2020-02-25 2020-06-30 咪咕文化科技有限公司 一种哭声分类方法、装置、服务器和可读存储介质
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
CN111885280B (zh) * 2020-07-17 2021-04-13 电子科技大学 一种混合卷积神经网络视频编码环路滤波方法
US11450310B2 (en) * 2020-08-10 2022-09-20 Adobe Inc. Spoken language understanding
RU2754920C1 (ru) * 2020-08-17 2021-09-08 Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" Способ синтеза речи с передачей достоверного интонирования клонируемого образца
US11756551B2 (en) 2020-10-07 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. System and method for producing metadata of an audio signal
GB2602959B (en) * 2020-11-10 2023-08-09 Sony Interactive Entertainment Inc Audio processing
CN112863489B (zh) * 2021-04-26 2021-07-27 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质
US20230153957A1 (en) * 2021-11-15 2023-05-18 Samsung Electronics Co., Ltd. System and method for training of noise model using noisy signal pairs

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275410A (ja) * 2004-03-23 2005-10-06 Herman Becker Automotive Systems-Wavemakers Inc ニューラルネットワークを利用してスピーチ信号を分離する。

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69328275T2 (de) * 1992-06-18 2000-09-28 Seiko Epson Corp Spracherkennungssystem
CN1163009A (zh) * 1994-09-30 1997-10-22 摩托罗拉公司 用以识别出连续语音中在声音之间的边界的方法和系统
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
RU2161826C2 (ru) * 1998-08-17 2001-01-10 Пензенский научно-исследовательский электротехнический институт Способ автоматической идентификации личности
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
KR20050115857A (ko) * 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR100959983B1 (ko) * 2005-08-11 2010-05-27 아사히 가세이 가부시키가이샤 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램
US20070124264A1 (en) * 2005-11-18 2007-05-31 International Business Machines Corporation Deconvolution and segmentation based on a network of dynamical units
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8515096B2 (en) * 2008-06-18 2013-08-20 Microsoft Corporation Incorporating prior knowledge into independent component analysis
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US9047867B2 (en) 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
WO2013149123A1 (en) 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US9111547B2 (en) * 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
US8880444B2 (en) * 2012-08-22 2014-11-04 Kodak Alaris Inc. Audio based control of equipment and systems
KR102219346B1 (ko) * 2013-05-30 2021-02-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 베이지안 최적화를 수행하기 위한 시스템 및 방법
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275410A (ja) * 2004-03-23 2005-10-06 Herman Becker Automotive Systems-Wavemakers Inc ニューラルネットワークを利用してスピーチ信号を分離する。

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013034A (ja) * 2018-07-19 2020-01-23 株式会社日立製作所 音声認識装置及び音声認識方法
KR20210145733A (ko) 2019-03-27 2021-12-02 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
US11862141B2 (en) 2019-03-27 2024-01-02 Sony Group Corporation Signal processing device and signal processing method
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
WO2021033587A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JPWO2021033587A1 (ja) * 2019-08-16 2021-02-25
JP7205635B2 (ja) 2019-08-16 2023-01-17 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Also Published As

Publication number Publication date
WO2015148237A1 (en) 2015-10-01
CN106104674A (zh) 2016-11-09
US20160284348A1 (en) 2016-09-29
EP3123466B1 (en) 2017-11-15
RU2016137972A (ru) 2018-03-28
RU2016137972A3 (ja) 2018-10-15
US9558742B2 (en) 2017-01-31
EP3123466A1 (en) 2017-02-01
RU2686589C2 (ru) 2019-04-29
US20150269933A1 (en) 2015-09-24
CN106104674B (zh) 2019-10-01
US9390712B2 (en) 2016-07-12
US20170110120A1 (en) 2017-04-20
US9779727B2 (en) 2017-10-03
JP6486381B2 (ja) 2019-03-20

Similar Documents

Publication Publication Date Title
JP6486381B2 (ja) 混合音声認識
Nicolson et al. Deep learning for minimum mean-square error approaches to speech enhancement
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Tan et al. Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
US9721559B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
Wang et al. A joint training framework for robust automatic speech recognition
Yoshioka et al. Environmentally robust ASR front-end for deep neural network acoustic models
Shah et al. Time-frequency mask-based speech enhancement using convolutional generative adversarial network
Weng et al. Single-channel mixed speech recognition using deep neural networks
Nikzad et al. Deep residual-dense lattice network for speech enhancement
Yuliani et al. Speech enhancement using deep learning methods: A review
Borgström et al. Speech enhancement via attention masking network (SEAMNET): An end-to-end system for joint suppression of noise and reverberation
Borsdorf et al. Universal Speaker Extraction in the Presence and Absence of Target Speakers for Speech of One and Two Talkers.
Mimura et al. Reverberant speech recognition combining deep neural networks and deep autoencoders augmented with a phone-class feature
Li et al. A conditional generative model for speech enhancement
Nguyen et al. Feature adaptation using linear spectro-temporal transform for robust speech recognition
Saeki et al. DRSpeech: Degradation-robust text-to-speech synthesis with frame-level and utterance-level acoustic representation learning
Mimura et al. Deep autoencoders augmented with phone-class feature for reverberant speech recognition
Nathwani et al. DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR
Li et al. Single channel speech enhancement using temporal convolutional recurrent neural networks
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
Narayanan et al. Large-scale, sequence-discriminative, joint adaptive training for masking-based robust ASR.
Wang et al. An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190219

R150 Certificate of patent or registration of utility model

Ref document number: 6486381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250