JP6873333B2 - 音声認識システム及び音声認識システムを用いる方法 - Google Patents

音声認識システム及び音声認識システムを用いる方法 Download PDF

Info

Publication number
JP6873333B2
JP6873333B2 JP2020537034A JP2020537034A JP6873333B2 JP 6873333 B2 JP6873333 B2 JP 6873333B2 JP 2020537034 A JP2020537034 A JP 2020537034A JP 2020537034 A JP2020537034 A JP 2020537034A JP 6873333 B2 JP6873333 B2 JP 6873333B2
Authority
JP
Japan
Prior art keywords
network
speaker
encoder
recognition
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537034A
Other languages
English (en)
Other versions
JP2021507312A (ja
Inventor
ル・ルー、ジョナサン
堀 貴明
貴明 堀
セトル、シェーン
博史 関
博史 関
晋司 渡部
晋司 渡部
ハーシェイ、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021507312A publication Critical patent/JP2021507312A/ja
Application granted granted Critical
Publication of JP6873333B2 publication Critical patent/JP6873333B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は、包括的には、音響信号に関し、より詳細には、1つ以上のマイクロフォンを用いた音声分離及び音声認識に関する。
従来の音声認識システムは、環境からの背景雑音、及び対象音声源以外の音声源等の干渉源に悩まされている。
例えば、多くの人々が存在し、数人が同時に発話している状況では、異なる人々からの音声は入り交じり、カクテルパーティ効果として知られる効果によって単一の信号混合体になる。人は、或る範囲の他の刺激をフィルタリング除去しながら特定の刺激に聴覚注意を集中させることが可能である。この例示として、パーティによく行く人が雑音の多い部屋において単一の会話に集中することができる点が挙げられる。しかしながら、機械がそのような状況において1人以上の対象話者の音声をトランスクリプトすることは非常に難しい。
したがって、1つ以上のマイクロフォンを用いた音声認識を改善することが必要とされている。
本開示は、包括的には、音響信号に関し、より詳細には、1つ以上のマイクロフォンを用いた音声分離及び音声認識に関する。
本開示の幾つかの実施の形態は、重複音声信号の分離及び認識のための完全エンドツーエンドの共同トレーニングされたディープ学習システムを含む。共同トレーニングフレームワークは、分離及び認識を互いに相乗的に適応させることができる。数ある利点の中でも特に追加の利点は、共同トレーニングフレームワークは、混在信号及びそれらのトランスクリプションのみを含むより現実的なデータに関してトレーニングすることができ、したがって、既存のトランスクリプトされたデータに関する大規模なトレーニングに適合することができる点である。
本開示の幾つかの実施の形態は、基礎をなす音声信号の明確な分離を伴わない重複音声信号の認識のための完全エンドツーエンドディープ学習システムを含む。上記の分離及び認識のための共同トレーニングされたディープ学習システムと同様に、明確な分離を伴わないシステムは、数ある利点の中でも特に、混在信号及びそれらのトランスクリプションのみを含む、より現実的なデータに関してトレーニングすることができ、したがって、既存のトランスクリプトされたデータに関する大規模なトレーニングに適合することができるという追加の利点を有する。
例えば、エンコーダデコーダリカレントニューラルネットワーク(RNN:recurrent neural networks)とともに用いられ、表音/言語構成体の明確な中間表現を用いることなく入力音声特徴系列を出力ラベル系列に直接変換するエンドツーエンド自動音声認識(ASR:automatic speech recognition)システムが、実験を通じて学習される。認識システム全体をモノリシックニューラルネットワークとして実施することによって、アドホック言語リソースへの依存をなくすことができる。また、認識システムは、識別トレーニング及び他のシステムとの統合の容易性を大幅に改善することができることが見出されている。本開示は、これらの特性を利用して、ASRを複数の重なり合う話者の認識に拡張する。複数の話者の不協和音の中で音声を認識することは、技術空間内においてカクテルパーティ問題として知られている長年にわたる難題である。このカクテルパーティ問題を解決することによって、特に実世界のヒューマンマシンインタラクション(HMI:human machine interaction)のための劇的に優れた技術が可能になる。
この実験プロセスの間、ディープクラスタリングが、各時間周波数(T−F)単位を高次元埋め込みベクトルに投影するように強力なディープニューラルネットワークをトレーニングすることができることが分かった。それによって、同じ話者によって支配されるT−F単位対の埋め込みは互いに近接する一方、異なる話者によって支配される対の埋め込みはそれよりも離れている。したがって、各T−F単位の話者割り当ては、各単一の話者を分離するマスクを生成する単純なクラスタリングアルゴリズムによって埋め込みから推論することができる。
音声分離パラダイムの使用を試みる際に最初に直面する幾つかの難題は、音声分離及び音声認識の構成要素を分離してトレーニングし、トレーニング後にそれらを互いに接続することを試みることである。しかしながら、そのような手法は、本開示の一般の実世界信号には理想的でないことが後に分かった。1つの理由は、当初用いられていた音声分離トレーニングパラダイムが、個々の音声源の信号レベルグラウンドトゥルース基準に依存していることである。具体的には、反響する音響を有する未加工の録音物では、そのような信号レベル基準は利用可能でなく、唯一の代替手段はシミュレーションである。したがって、一般の実世界信号に対して最良の性能を得るために音声分離システムを単独でトレーニングすることは困難である。他方、音声の自然の音響及びトランスクリプションを有するデータは容易に入手可能である。このため、本開示において少なくとも1つの認識されていたことは、2つのシステムを組み合わせ、それらのシステムを認識用に共同トレーニングする動機があったこと、又は、代替案として、明確な分離を行わない単一のシステムを設計する動機があったことである。今や、この認識を実現することによって、ディープネットワークを用いて複数の話者による音声の認識の最良の実施が得られている。上述したように、重複音声信号の認識のための完全エンドツーエンドの共同トレーニングされたディープ学習システムが得られている。共同トレーニングフレームワークでは、分離及び認識を互いに相乗的に適合させることができ、これによって、性能が改善される。或いは、明確な分離を有しないシステムでは、複数の重なり合う話者を有する音響信号から音声を認識するように認識を直接最適化することができ、これによって、性能が改善される。
本開示の一実施の形態によれば、複数の話者による重複音声を含む音声を認識する音声認識システムが提供される。このシステムはハードウェアプロセッサを備える。このシステムは、ハードウェアプロセッサによって実行されると、記憶された音声認識ネットワークを実施するコンピュータ実行可能な命令を記憶するとともに、データを記憶するコンピュータ記憶メモリを備える。このシステムは、音響信号を受信する入力インターフェースを備え、受信された音響信号は、複数の話者による音声信号の混合体を含み、複数の話者は、対象話者を含む。記憶された音声認識ネットワークのエンコーダネットワーク及びデコーダネットワークは、受信された音響信号を対象話者ごとのテキストに変換するようにトレーニングされる。エンコーダネットワークは、一組の認識エンコーディング(recognition encoding:認識符号)を出力し、デコーダネットワークは、一組の認識エンコーディングを用いて対象話者ごとのテキストを出力するようになっている。このシステムは、対象話者ごとのテキストを送信する出力インターフェースを備える。
本開示の別の実施の形態によれば、複数の話者による重複音声を含む音声を認識する音声認識システムが提供される。このシステムはハードウェアプロセッサを備える。このシステムは、プロセッサによって実行されると、記憶された音声認識ネットワークを実施するコンピュータ実行可能な命令を記憶するとともに、データを記憶するコンピュータ記憶メモリを備える。このシステムは、音響信号を受信する入力インターフェースを備え、受信された音響信号は、複数の話者による音声信号の混合体を含み、複数の話者は、対象話者を含む。記憶された音声認識ネットワークのエンコーダネットワーク及びデコーダネットワークは、受信された音響信号を対象話者ごとのテキストに変換するようにトレーニングされる。エンコーダネットワークは、一組の認識エンコーディングを出力し、デコーダネットワークは、一組の認識エンコーディングを用いて対象話者ごとのテキストを出力するようになっている。エンコーダネットワークは、混合体エンコーダネットワーク、一組の話者区別エンコーダネットワーク、及び認識エンコーダネットワークも備える。このシステムは、対象話者ごとのテキストを送信する出力インターフェースを備える。
本開示の別の実施の形態によれば、音声認識システムを用いて複数の話者による重複音声を有する音響信号内の個々の話者信号を認識する方法が提供される。この方法は、対象話者を含む複数の話者による音声信号の混合体を含む音響信号を入力インターフェースを介して受信することを含む。この方法は、ハードウェアプロセッサを用いて、受信された音響信号を、コンピュータ可読メモリに記憶された事前にトレーニングされた音声認識ネットワーク内に入力することを含む。事前にトレーニングされた音声認識ネットワークは、事前にトレーニングされた音声認識ネットワークのエンコーダネットワークを用いて一組の認識エンコーディングを出力することによって、エンコーダネットワーク及び事前にトレーニングされた音声認識ネットワークのデコーダネットワークを用いて受信された音響信号を対象話者ごとのテキストに変換するように構成され、デコーダネットワークは、一組の認識エンコーディングを用いて、対象話者ごとのテキストを出力する。この方法は、出力インターフェースを用いて対象話者ごとのテキストを送信することを含む。
本開示の実施形態による方法を実施する幾つかの方法ステップを示すフロー図である。 本開示の実施形態によるシステム及び方法を実施するのに用いることができる幾つかの構成要素を示すブロック図である。 本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図である。 本開示の実施形態による、事前にトレーニングされる音声認識ネットワーク(エンコーダデコーダネットワークとも呼ばれる)を含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図であり、エンコーダデコーダネットワークは、エンコーダネットワーク及びデコーダネットワークを備え、エンコーダネットワークは、デコーダネットワークが各話者によるテキストを出力するために用いる一組の認識エンコーディングを出力する。 本開示の実施形態による、事前にトレーニングされる音声認識ネットワーク(エンコーダデコーダネットワークとも呼ばれる)を含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図であり、エンコーダデコーダネットワークは、エンコーダネットワーク及びデコーダネットワークを備え、エンコーダネットワークは、話者ごとの認識エンコーディングを出力し、デコーダネットワークは、話者ごとの認識エンコーディングを用いてその話者のテキストを出力する。 本開示の実施形態による、暗黙の分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すフロー図である。 本開示の実施形態による、単一の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いる初期音声認識ネットワーク、すなわち、エンコーダデコーダネットワークのトレーニングを示すフロー図であり、このトレーニングはエラー計算を含む。 本開示の実施形態による、初期音声認識ネットワークの話者区別エンコーダネットワークを用いる一組の話者区別エンコーダネットワーク内の話者区別エンコーダネットワークの初期化に基づく、初期音声認識ネットワークを用いる一組の話者区別エンコーダネットワークを有する音声認識ネットワーク、すなわち、エンコーダデコーダネットワークの初期化を示すフロー図である。 本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識の暗黙の分離を有する複数話者ASRネットワークのトレーニングを示すフロー図であり、トレーニングはエラー計算を含む。 本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図である。 本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図であり、複数話者ASRネットワークは、対象話者ごとの分離エンコーディング(separation encoding:分離符号)を出力する話者分離ネットワークと、対象話者ごとの分離エンコーディングからその対象話者の認識エンコーディングを出力する音響エンコーダネットワークと、一組の認識エンコーディングから対象話者ごとのテキストを出力するデコーダネットワークとを備える。 本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図であり、複数話者ASRネットワークは、対象話者ごとの分離エンコーディングを出力する話者分離ネットワークと、対象話者ごとの分離エンコーディングからその対象話者の認識エンコーディングを出力する音響エンコーダネットワークと、対象話者ごとの認識エンコーディングからその対象話者のテキストを出力するデコーダネットワークとを備える。 本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すフロー図であり、明確な分離はマスク推論を伴う。 本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド分離及び認識を示すフロー図である。 本開示の実施形態による単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による単一チャネルディープクラスタリングネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による単一チャネルキメラネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識の明確な分離を有する複数話者ASRネットワークのトレーニングを示すフロー図であり、トレーニングはエラー計算を含む。 本開示の実施形態による、複数の言語で同時に発話する複数の話者による音声のエンドツーエンド認識を示す概略図である。 本開示の実施形態による、ハイブリッドCTC/注意エンドツーエンドネットワークを用いる音声認識モジュールを示すブロック図である。 本開示の実施形態による、ハイブリッドCTC/注意音声認識モジュールにおけるニューラルネットワークを示すブロック図である。 本開示の実施形態による、多言語音声認識モジュールにおけるニューラルネットワークを示す概略図である。 本開示の幾つかの実施形態による音声認識のための代替の音声認識システムのブロック図であり、特に、図17Aは、音声認識ネットワーク、すなわち、エンコーダデコーダネットワークを含む。 本開示の幾つかの実施形態による音声認識のための代替の音声認識システムのブロック図であり、特に、図17Bは、ハイブリッドCTC/注意ベース音声認識ASRネットワークとともに音声分離ネットワークを含む。 本開示の実施形態による方法及びシステムの幾つかの技法を実施するのに用いることができるコンピューティング装置を示す概略図である。 本開示の実施形態による方法及びシステムの幾つかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。
(概説)
本開示は、1つ以上のマイクロフォンを用いた音声分離及び音声認識に関する。
本開示の幾つかの実施形態は、重複音声信号の分離及び認識のための完全エンドツーエンドの共同トレーニングされたディープ学習システムを含む。共同トレーニングフレームワークは、分離及び認識を互いに相乗的に適応させることができる。数ある利点の中でも特に追加の利点として、共同トレーニングフレームワークは、混在信号及びそれらのトランスクリプションのみを含むより現実的なデータに関してトレーニングすることができ、したがって、既存のトランスクリプトされたデータに関する大規模なトレーニングに適合することができる。
本開示の幾つかの実施形態は、明確な分離を伴わない重複音声信号の認識のための完全エンドツーエンドディープ学習システムを含む。上記の分離及び認識のための共同トレーニングされたディープ学習システムと同様に、明確な分離を伴わないシステムは、数ある利点の中でも特に、混在信号及びそれらのトランスクリプションのみを含む、より現実的なデータに関してトレーニングすることができ、したがって、既存のトランスクリプトされたデータに関する大規模なトレーニングに適合することができるという追加の利点を有する。
例えば、エンコーダデコーダリカレントニューラルネットワーク(RNN)とともに用いられ、表音/言語構成体の明確な中間表現を用いることなく入力音声特徴系列を出力ラベル系列に直接変換するエンドツーエンド自動音声認識(ASR)システムは、実験を通じて学習される。認識システム全体をモノリシックニューラルネットワークとして実施することによって、アドホック言語リソースへの依存をなくすことができる。また、認識システムでは、識別トレーニング及び他のシステムとの統合の容易性を大幅に改善できることが見出されている。本開示は、これらの特性を利用して、ASRを複数の重なり合う話者の認識に拡張する。複数の話者の不協和音の中で音声を認識することは、技術空間内においてカクテルパーティ問題として知られている長年にわたる難題である。このカクテルパーティ問題を解決することによって、特に実世界のヒューマンマシンインターラクション(HMI)のための劇的に優れた技術が可能になる。
図1Aは、本開示の実施形態による方法を実施する幾つかの方法ステップを示すフロー図である。例えば、方法100Aでは、音声認識システムを用いて、複数の話者による重複音声を有する音響信号内の個々の話者信号を認識する。方法100Aは、クライアントデバイス又は他の或るデバイス上で実行することができる。
方法100Aのステップ110は、複数の話者による音声信号の混合体を有する音響信号を受信することを含むことができる。例えば、この音響信号は、音響信号を形成する単一のマイクロフォンにおいてキャプチャすることができる、同時に話をしている複数の話者からの音声を含むことができる。各話者に関連した信号の一態様は、複数の話者がマイクロフォンから同じ距離においてほぼ同じ音量で発話している可能性があるので、非限定例として、ほぼ同じ音量レベルとすることができる。
図1Aのステップ115は、ハードウェアプロセッサを用いて、受信音響信号をコンピュータ可読メモリに記憶された事前にトレーニングされた音声認識ネットワーク内に入力することを含む。事前にトレーニングされた音声認識ネットワークは、この事前にトレーニングされた音声認識ネットワークのエンコーダネットワーク及びデコーダネットワークを用いて、受信音響信号を対象話者ごとのテキストに変換するように構成されている。特定のアプリケーションに応じて、複数のハードウェアプロセッサを用いることができることが考えられる。上述したように、幾つかの実施形態は、重複音声信号の分離及び認識のための完全エンドツーエンド共同トレーニングディープ学習システムを含むことができる。共同トレーニングフレームワークは、分離及び認識を互いに相乗的に適応させることができる。数ある利点の中でも特に追加の利点として、共同トレーニングフレームワークは、混在信号及びそれらをトランスクリプションのみを含むより現実的なデータに関してトレーニングすることができ、したがって、既存のトランスクリプトされたデータに関する大規模なトレーニングに適合することができる。
図1Aのステップ120は、ハードウェアプロセッサが、事前にトレーニングされた音声認識ネットワークを用い、この事前にトレーニングされた音声認識ネットワークのエンコーダネットワーク及びデコーダネットワークを用いて受信音響信号を対象話者ごとのテキストに変換することを含む。
図1Aのステップ125は、エンコーダネットワークを用いて、一組の認識エンコーディングを出力することを含む。
図1Aのステップ130は、一組の認識エンコーディングを用いるデコーダネットワークを用いて、対象話者ごとのテキストを出力することを含む。
図1Aのステップ135は、出力インターフェースを用いて対象話者ごとのテキストを送信することを含む。
図1Bは、本開示の実施形態によるシステム及び方法を実施するのに用いることができる幾つかの構成要素を示すブロック図である。例えば、システム100Bは、環境1から音響信号8を含むデータを収集する音響センサ等の単数のセンサ2又は複数のセンサと通信するハードウェアプロセッサ11を備えることができる。音響信号は、重複音声を伴う複数の話者の音響信号を含むことができる。さらに、センサ2は、音響入力を音響信号に変換することができる。ハードウェアプロセッサ11は、コンピュータ記憶メモリ、すなわちメモリ9と通信し、メモリ9は、ハードウェアプロセッサ11によって実施することができるアルゴリズム、命令及び他のデータを含む記憶データを含むようになっている。
任意選択で、ハードウェアプロセッサ11は、データソース3、コンピュータデバイス4、モバイルフォンデバイス5及び記憶デバイス6と通信するネットワーク7に接続することができる。また、任意選択で、ハードウェアプロセッサ11は、クライアントデバイス15に接続されたネットワーク対応サーバ13に接続することもできる。ハードウェアプロセッサ11は、任意選択で、外部メモリデバイス17、送信機19に接続することができる。さらに、対象話者ごとのテキストは、特定のユーザ使用目的に従って出力することができ(21)、例えば、幾つかのタイプのユーザ使用は、更なる解析等のために、モニタ若しくはスクリーン等の1つ以上のディスプレイデバイス上にテキストを表示すること、又は、対象話者ごとのテキストをコンピュータ関連デバイス内に入力することを含むことができる。
ハードウェアプロセッサ11は、特定のアプリケーションの要件に応じて2つ以上のハードウェアプロセッサを含むことができることが考えられ、これらのプロセッサは、内部のものとすることもできるし、外部のものとすることもできる。確かに、他のデバイスの中でも特に出力インターフェース及び送受信機を含む他の構成要素をシステム100Bに組み込むことができる。
ネットワーク7は、限定されない例として、1つ以上のローカルエリアネットワーク(LAN:local area networks)及び/又はワイドエリアネットワーク(WAN:wide area networks)を含むことができる。ネットワーク接続環境は、企業全体のコンピュータネットワーク、イントラネット及びインターネットと同様のものとすることができる。言及した全ての構成要素について、任意の数のクライアントデバイス、記憶構成要素、及びデータソースをシステム100B内で用いることが可能であると考えられる。それぞれは、単一のデバイスを含むこともできるし、分散環境において協働する複数のデバイスを含むこともできる。さらに、システム100Bは、1つ以上のデータソース3を備えることができる。データソース3は、音声認識ネットワークをトレーニングするデータリソースを含む。データソース3によって提供されるデータは、トランスクリプトされたデータ及びトランスクリプトされていないデータ等のラベル付きデータ及びラベル無しデータを含むことができる。例えば、一実施形態では、データは、1つ以上の音を含み、対応するトランスクリプション情報又は音声認識ネットワークを初期化するのに用いることができるラベルも含むことができる。トレーニングデータは、同時に話をする複数の話者の音響信号を含むことができる。トレーニングデータは、単独で話をする単一の話者の音響信号、雑音の多い環境において話をする単一の話者又は複数の話者の音響信号、及び雑音の多い環境の音響信号も含むことができる。
さらに、データソース3におけるラベル無しデータは、1つ以上のフィードバックループによって提供することができる。例えば、検索エンジンに対して実行される発話された検索クエリからの使用データは、トランスクリプトされていないデータとして提供することができる。以下に限定されるものではないが、データソースの他の例として、ストリーミングサウンド若しくはストリーミングビデオ、ウェブクエリ、モバイルデバイスカメラ若しくは音響情報、ウェブカムフィード、スマートグラスフィード及びスマートウォッチフィード、顧客ケアシステム、セキュリティカメラフィード、ウェブ文書、カタログ、ユーザフィード、SMSログ、インスタントメッセージングログ、発話単語トランスクリプト、音声コマンド若しくはキャプチャ画像(例えば、深度カメラ画像)等のゲームシステムユーザインタラクション、ツイート、チャット記録若しくはビデオ通話記録、又はソーシャルネットワークメディアを含む様々な発話言語音響源若しくは画像源を含むことができる。使用される特定のデータソース3は、データが、性質上、或る特定のクラスのデータ(例えば、機械システム、娯楽システムを含む、例えば、特定のタイプの音にのみ関係したデータ)であるのか又は一般的なもの(非クラス固有のもの)であるのかという用途に基づいて決定することができる。
システム100Bは、コンピューティングデバイス上に自動音声認識(ASR)システムを有する対象となり得るような任意のタイプのコンピューティングデバイスを含むことができるサードパーティデバイス4、5を備えることができる。例えば、サードパーティデバイスは、本明細書では、図18Aに関して説明するタイプのコンピューティングデバイス等のコンピュータデバイス4、又は、図18Bに関して説明するタイプのモバイルコンピューティングデバイス等のモバイルデバイス5を含む。ユーザデバイスは、パーソナルデジタルアシスタント(PDA:personal digital assistant)、スマートフォン、スマートウォッチ、スマートグラス(又は他のウェアラブルスマートデバイス)等のモバイルデバイス、拡張現実ヘッドセット、仮想現実ヘッドセットとして具現化することができることが考えられる。さらに、ユーザデバイスは、タブレット等のラップトップ、リモコン、娯楽システム、車両コンピュータシステム、組み込みシステムコントローラ、電気器具、ホームコンピュータシステム、セキュリティシステム、民生用電子デバイス、又は他の同様の電子デバイスとすることができる。1つの実施形態では、クライアントデバイスは、当該デバイス上で動作しており、本明細書において説明するASRシステムによって使用可能な音響情報及び画像情報等の入力データを受信することが可能である。例えば、サードパーティデバイスは、音響情報を受信するマイクロフォン若しくはライン入力端子、ビデオ情報若しくは画像情報を受信するカメラ、又はインターネット若しくはデータソース3等の別の情報源からそのような情報を受信する通信構成要素(例えば、Wi−Fi機能)を有することができる。
音声認識ネットワークを用いるASRモデルは、入力データを処理して、コンピュータ使用可能情報を求めることができる。例えば、質問が尋ねられる場合において、例えば、室内で複数の人々が話をしている間にユーザによってマイクロフォンに発話されたクエリを処理して、クエリの内容を求めることができる。例示のサードパーティデバイス4、5は、任意選択で、ディープニューラルネットワークモデルを展開することができる環境を例示するためにシステム100Bに含められる。さらに、本開示の幾つかの実施形態は、サードパーティデバイス4、5を備えないものとすることもできる。例えば、ディープニューラルネットワークモデルは、サーバ上に存在することもできるし、クラウドネットワーク、クラウドシステム又は同様の装置構成内に存在することもできる。
記憶装置6は、本明細書において説明する技術の実施形態において用いられるデータ、コンピュータ命令(例えば、ソフトウェアプログラム命令、ルーチン、又はサービス)、及び/又はモデルを含む情報を記憶することができる。例えば、記憶装置6は、1つ以上のデータソース3からのデータ、1つ以上のディープニューラルネットワークモデル、ディープニューラルネットワークモデルを生成及びトレーニングする情報、並びに1つ以上のディープニューラルネットワークモデルによって出力されるコンピュータ使用可能情報を記憶することができる。
図1Cは、本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図である。図1Cは、請求項1に記載の特徴のうちの幾つかを示している。音声認識ネットワーク、すなわち、エンコーダデコーダネットワーク143は、センサ2を用いて記録された環境1からの音響信号8を、記憶されたネットワークパラメータ141を用いて処理し、C人の対象話者が存在する場合にテキスト1 145〜テキストC 147の対象話者ごとのテキストを出力する。
図1Dは、本開示の実施形態による、音声認識ネットワーク、すなわち、エンコーダデコーダネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図であり、エンコーダデコーダネットワークは、エンコーダネットワーク及びデコーダネットワークを備え、エンコーダネットワークは、各話者によるテキストを出力するためにデコーダネットワークによって用いられる一組の認識エンコーディングを出力する。図1Dは、請求項1に記載の特徴のうちの幾つかを示している。図1Dのエンコーダデコーダネットワーク143は、エンコーダネットワーク146を用いて一組の認識エンコーディング148を出力し、この一組の認識エンコーディングをデコーダネットワーク150によって更に処理して、C人の対象話者が存在する場合にテキスト1 145〜テキストC 147の対象話者ごとのテキストを出力することによって、音響信号8を処理する。幾つかの実施形態では、エンコーダ146は、エンコーダデコーダネットワークによって用いられる音響特徴系列を音響信号8から抽出するように構成された特徴抽出器(図示せず)を備える。特徴抽出器は、微分可能関数であり、したがって、単一のエンコーダデコーダネットワークに接続することができる。微分可能関数の例には、チャネル信号の振幅のMel関数及びチャネル信号の振幅のbark関数が含まれる。
図2は、本開示の実施形態による、音声認識ネットワーク、すなわち、エンコーダデコーダネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すブロック図であり、エンコーダデコーダネットワークは、エンコーダネットワーク及びデコーダネットワークを備え、エンコーダネットワークは、話者ごとの認識エンコーディングを出力し、デコーダネットワークは、話者ごとの認識エンコーディングを用いて、その話者のテキストを出力する。
図2を引き続き参照すると、図2は、請求項2に記載の特徴のうちの幾つかを示している。音声認識ネットワーク、すなわち、エンコーダデコーダネットワーク243は、エンコーダネットワーク240を用いて、C人の対象話者が存在する場合に、話者1の認識エンコーディング248から話者Cの認識エンコーディング249の話者ごとの認識エンコーディングを出力することによって音響信号8を処理する。各認識エンコーディングはデコーダネットワーク250によって個別に処理され、対応する対象話者のテキストが出力される。特に、話者1の認識エンコーディング248がデコーダネットワーク250によって処理され、テキスト1 245が出力され、話者Cの認識エンコーディング249がデコーダネットワーク250によって処理され、テキストC 247が出力される。エンコーダネットワーク240及びデコーダネットワーク250は、記憶されたネットワークパラメータ241を用いる。
図3は、本開示の実施形態による、暗黙の分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すフロー図である。図3は、幾つかの特徴を示している。入力混合体308は、混合体エンコーダ310によって処理され、混合体エンコーディング(mixture encoding:混合体符号化)される。この図は、2人の対象話者の場合を例として用いて概念を示している。混合体エンコーディングは、話者区別エンコーダ1 312及び話者区別エンコーダ2 322によって個別に更に処理され、話者区別エンコーディング(speaker-differentiated encodings:話者区別符号)が得られる。各話者区別エンコーディングは、認識エンコーダ314によって個別に更に処理され、認識エンコーディングがそれぞれ得られる。各認識エンコーディングは、デコーダネットワーク350のCTCモジュール316及び注意デコーダ318の双方によって個別に更に処理される。話者区別エンコーダ1 312から開始するパイプライン用のCTCモジュール316及び注意デコーダ318の出力は組み合わされ、一組の仮説1 320が出力され、話者区別エンコーダ2 322から開始するパイプライン用のCTCモジュール316及び注意デコーダ318の出力は組み合わされ、一組の仮説2 330が出力される。一組の仮説1 320からテキスト1 345が出力される。一組の仮説2 330からテキスト2 347が出力される。
図4は、本開示の実施形態による、単一の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いる初期音声認識ネットワーク、すなわち、エンコーダデコーダネットワークのトレーニングを示すフロー図であり、このトレーニングはエラー計算を含む。図4は、幾つかの特徴を示している。単一話者音声を有する入力信号408及び対応する基準ラベル432が、データセット406からサンプリングされる。混合体エンコーダ410は、単一話者音声を有する入力信号408を処理し、混合体エンコーディングを出力する。混合体エンコーディングは、次に、話者区別エンコーダ1 412によって処理され、話者区別エンコーディングが出力される。話者区別エンコーディングは、次に、認識エンコーダ414によって処理され、認識エンコーディングが出力される。認識エンコーディングは、デコーダネットワーク450のCTCモジュール416及び注意デコーダ418によって更に処理される。エラー計算モジュール430は、CTCモジュール416の出力及び基準ラベル432を用いてCTC損失を計算し、注意デコーダ418の出力及び基準ラベル432を用いて注意損失を計算する。CTC損失LCTC及び注意損失Lattの加重結合が、単一話者音声に関してトレーニングされた初期エンコーダデコーダネットワーク411のパラメータの更新を計算するのに用いられる認識損失LASRである。通常、単一話者音声を有する入力信号408と、対応する基準ラベル432との複数対のバッチが、上記のようにデータセット406からサンプリングされて処理され、このバッチ内の複数対にわたる認識損失の合計が、単一話者音声に関してトレーニングされた初期エンコーダデコーダネットワーク411のパラメータの更新を計算するのに用いられる。そのような更新は、パラメータに対する認識損失の勾配に基づいて取得することができる。
図5は、本開示の実施形態による、初期音声認識ネットワークの話者区別エンコーダネットワークを用いる一組の話者区別エンコーダネットワーク内の話者区別エンコーダネットワークの初期化に基づく、初期音声認識ネットワークを用いる一組の話者区別エンコーダネットワークを備える音声認識ネットワーク、すなわち、エンコーダデコーダネットワークの初期化を示すフロー図である。音声認識ネットワーク511の話者区別エンコーダ2 522のパラメータは、そのパラメータをコピーし、任意選択で、例えば、ランダム摂動を用いてそれらを摂動することによって、図4の話者区別エンコーダ1 412から取得することができる。音声認識ネットワーク511の他の全てのパラメータは、図4の対応する構成要素のパラメータを用いて初期化することができる。そのような初期化の後、入力混合体508は、図3のように処理することができる。
図6は、本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識の暗黙の分離を有する複数話者ASRネットワークのトレーニングを示すフロー図であり、トレーニングはエラー計算を含む。入力混合体608及び対応する基準ラベル632が、データセット606からサンプリングされる。混合体エンコーダ610は、入力混合体608を処理し、混合体エンコーディングを出力する。この混合体エンコーディングは、話者区別エンコーダ1 612及び話者区別エンコーダ2 622によって個別に更に処理され、話者区別エンコーディングが得られる。各話者区別エンコーディングは、認識エンコーダ614によって個別に更に処理され、認識エンコーディングがそれぞれ得られる。各認識エンコーディングは、デコーダネットワーク650のCTCモジュール616及び注意デコーダ618の双方によって個別に更に処理される。エラー計算モジュール630は、CTCモジュール616の出力及び基準ラベル632の双方を用いてCTC損失Lctcを計算し、注意デコーダ618の出力及び基準ラベル632の双方を用いて注意損失Lattを計算する。CTC損失及び注意損失の加重結合が認識損失LASRである。エラー計算モジュール630は、話者区別エンコーダ1 612及び話者区別エンコーダ2 622の出力を用いて話者区別損失LKLも計算する。認識損失及び話者区別損失の加重結合が、暗黙の分離を有する複数話者ASRネットワーク611のパラメータの更新を計算するのに用いられる。
図7は、本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図である。エンコーダデコーダネットワーク743は、エンコーダネットワーク740を用いて一組の認識エンコーディング748を出力し、この一組の認識エンコーディングをデコーダネットワーク750によって更に処理して、C人の対象話者が存在する場合にテキスト1 745〜テキストC 747の対象話者ごとのテキストを出力することによって、音響信号8を処理する。エンコーダネットワーク740は、音響信号8を処理して一組の分離エンコーディング744を出力する話者分離ネットワーク742と、一組の分離エンコーディング744を処理して一組の認識エンコーディング748を出力する音響エンコーダネットワーク746とを備える。ネットワークパラメータ741は、話者分離ネットワーク742、音響エンコーダネットワーク746、及びデコーダネットワーク750のパラメータを指定する。
図8は、本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図であり、複数話者ASRネットワークは、対象話者ごとの分離エンコーディングを出力する話者分離ネットワークと、対象話者ごとの分離エンコーディングからその対象話者の認識エンコーディングを出力する音響エンコーダネットワークと、一組の認識エンコーディングから対象話者ごとのテキストを出力するデコーダネットワークとを備える。エンコーダネットワーク840は、音響信号8を処理して一組の認識エンコーディング848を出力し、この一組の認識エンコーディングは、デコーダネットワーク850によって更に処理され、C人の対象話者が存在する場合にテキスト1 845〜テキストC 847の対象話者ごとのテキストが出力される。エンコーダネットワーク840は、話者分離ネットワーク842及び音響エンコーダネットワーク846を備える。話者分離ネットワーク842は、音響信号8を処理して分離エンコーディング1 843〜分離エンコーディングC 844の対象話者ごとの分離エンコーディングを出力する。音響エンコーダネットワーク846は、各分離エンコーディングを個別に処理して対応する認識エンコーディングを出力する。分離エンコーディング1 843は音響エンコーダネットワーク846によって処理されて、認識エンコーディング1 853が出力され、分離エンコーディングC 844は、音響エンコーダネットワーク846によって処理されて、認識エンコーディングC 854が出力される。一組の認識エンコーディング848は、認識エンコーディング1 853〜認識エンコーディングC 854を含む。ネットワークパラメータ841は、話者分離ネットワーク842、音響エンコーダネットワーク846、及びデコーダネットワーク850のパラメータを指定する。分離エンコーディングは、限定ではなく例として、対応する対象話者の音声が単独で観測されたものである場合に、その音声の推定値に対応する特徴ベクトル系列の形態のものとすることができる。
図9Aは、本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識の別の方法を示すフロー図であり、複数話者ASRネットワークは、対象話者ごとの分離エンコーディングを出力する話者分離ネットワークと、対象話者ごとの分離エンコーディングからその対象話者の認識エンコーディングを出力する音響エンコーダネットワークと、対象話者ごとの認識エンコーディングからその対象話者のテキストを出力するデコーダネットワークとを備える。エンコーダネットワーク940は、話者分離ネットワーク942及び音響エンコーダネットワーク946を備える。話者分離ネットワーク942は、音響信号8を処理して、C人の対象話者が存在する場合に分離エンコーディング1 943〜分離エンコーディングC 944の対象話者ごとの分離エンコーディングを出力する。音響エンコーダネットワーク946は、各分離エンコーディングを個別に処理して対応する認識エンコーディングを出力する。分離エンコーディング1 943は、音響エンコーダネットワーク946によって処理されて、認識エンコーディング1 953が出力され、分離エンコーディングC 944は、音響エンコーダネットワーク946によって処理されて、認識エンコーディングC 954が出力される。これらの認識エンコーディングは、デコーダネットワーク950によって個別に更に処理されて、対象話者ごとのテキストが出力される。認識エンコーディング1 953はデコーダネットワーク950によって処理されて、テキスト1 945が出力され、認識エンコーディングC 954はデコーダネットワーク950によって処理されて、テキストC 947が出力される。ネットワークパラメータ941は、話者分離ネットワーク942、音響エンコーダネットワーク946、及びデコーダネットワーク950のパラメータを指定する。
図9Bは、本開示の実施形態による、明確な分離を有する複数話者ASRネットワークを含む、同時に発話する複数の話者による音声のエンドツーエンド認識を示すフロー図であり、明確な分離はマスク推論を伴う。この図は、2人の対象話者の場合を例として用いて概念を示している。入力混合体908は話者分離ネットワーク942によって処理され、対象話者ごとの分離エンコーディングが出力される。
話者分離ネットワーク942は、混合体エンコーダ910、マスク推論モジュール912、及び分離エンコーディング推定モジュール913を備える。混合体エンコーダ910は、入力混合体908を処理して混合体エンコーディングを出力する。この混合体エンコーディングは、一組のマスクを推定するマスク推論モジュール912によって更に処理される。この一組のマスクは、分離エンコーディング推定モジュール913によって入力混合体とともに用いられ、対象話者ごとの分離エンコーディングが取得される。例えば、マスク推論モジュール912は、対象話者ごとのマスクを出力することができ、分離エンコーディング推定モジュールは、対象話者のマスクを入力混合体の表現に適用して、その対象話者の分離された信号の推定値の表現を取得することができる。この表現は、例えば、短時間フーリエ変換等の入力混合体の時間周波数表現とすることができ、この場合、マスクは入力混合体の短時間フーリエ変換に適用され、その対象話者の分離された信号の短時間フーリエ変換の推定値が取得される。この推定値は、その対象話者の隔離された信号が単独で観測された場合の信号の短時間フーリエ変換の推定値である。各分離エンコーディングは音響エンコーダ946によって個別に更に処理され、認識エンコーディングがそれぞれ得られる。
図9Bを引き続き参照すると、各認識エンコーディングは、CTCモジュール916及び注意デコーダ918の双方によって個別に更に処理される。CTCモジュール916及び注意デコーダ918の出力は組み合わされて、第1の対象話者の分離エンコーディング1を入力として取り込むパイプライン用の一組の仮説1 920と、入力としての第2の対象話者の分離エンコーディング2から開始するパイプライン用の一組の仮説2 930とが出力される。テキスト1 945は一組の仮説1 920から出力される。テキスト2 947は一組の仮説2 930から出力される。
図10は、本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド分離及び認識を示すフロー図である。エンコーダデコーダネットワーク1043は、エンコーダネットワーク1040を用いて一組の認識エンコーディング1048を出力し、この一組の認識エンコーディングをデコーダネットワーク1050によって更に処理して、C人の対象話者が存在する場合にテキスト1 1045〜テキストC 1047の対象話者ごとのテキストを出力することによって、音響信号8を処理する。エンコーダネットワーク1040は、音響信号8を処理して一組の分離エンコーディング1044を出力する話者分離ネットワーク1042と、一組の分離エンコーディング1044を処理して一組の認識エンコーディング1048を出力する音響エンコーダネットワーク1046とを備える。ネットワークパラメータ1041は、話者分離ネットワーク1042、音響エンコーダネットワーク1046、及びデコーダネットワーク1050のパラメータを指定する。一組の分離エンコーディング1044は、信号1 1055〜信号C 1057の対象話者ごとの分離された信号の推定値を出力するために信号再構成モジュール1051によって音響信号8とともに用いることができる。推定された分離信号は、その話者の信号が単独で観測された場合のような信号の推定値である。例えば、話者分離ネットワーク1042は、対象話者ごとの振幅短時間フーリエ変換領域における推定された振幅スペクトログラムの形で一組の分離エンコーディング1044を出力することができる。対象話者ごとの振幅スペクトログラムを音響信号8の位相と組み合わせて、対象話者ごとの推定された複素スペクトログラムを取得することができ、この複素スペクトログラムから、逆短時間フーリエ変換によって時間領域信号を再構成することができる。
図11Aは、本開示の実施形態による、単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ1110への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ1110は、最初のBLSTM層1130から最後のBLSTM層1135までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM:long short-term memory)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層1130における各LSTMの出力の次元はNとすることができ、最後のBLSTM層1135を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。最後のBLSTM層1135の出力は、線形ニューラルネットワーク層1140及び非線形部1145を備えるマスク推論モジュール1112への入力として用いられる。時間周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層1140は、最後のBLSTM層1135の出力を用いて、Cの数を出力する。ここで、Cは対象話者の数である。非線形部1145は、各時間フレーム及び各周波数についてこの一組のCの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性(dominance)を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール1113は、マスクが推定された時間周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、マスクからの分離エンコーディング推定モジュール1113は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が単独で観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
図11Bは、本開示の実施形態による、単一チャネルディープクラスタリングネットワークアーキテクチャを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ1120への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ1120は、最初のBLSTM層1101から最後のBLSTM層1103までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層1101における各LSTMの出力の次元はNとすることができ、最後のBLSTM層1103を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。最後のBLSTM層1103の出力は、埋め込み計算モジュール1122への入力として用いられる。この埋め込み計算モジュールは、線形ニューラルネットワーク層1105と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール1107とを備える。時間周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層1105は、最後のBLSTM層1103の出力を用いてD次元ベクトルを出力する。ここで、Dは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール1107は、D次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール1123は、埋め込みが推定された時間周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール1123は、k平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをC個のグループにクラスタリングすることができる。ここで、Cは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分及び周波数成分がその話者によって支配されるか否かを示す2値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール1123は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が単独で観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。埋め込みからの分離エンコーディング推定モジュール1123を用いてそのようなマスクを取得するより精巧な方式も考えることができ、上記説明は決して限定とみなされるべきでない。
図11Cは、本開示の実施形態による、単一チャネルキメラネットワークアーキテクチャを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ1150への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ1150は、最初のBLSTM層1171から最後のBLSTM層1173までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層1171における各LSTMの出力の次元はNとすることができ、最後のBLSTM層1173を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。
最後のBLSTM層1173の出力は、線形ニューラルネットワーク層1175及び非線形部1177を備えるマスク推論モジュール1152への入力として用いられる。時間周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層1175は、最後のBLSTM層1173の出力を用いて、Cの数を出力する。ここで、Cは対象話者の数である。非線形部1177は、各時間フレーム及び各周波数についてこの一組のCの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール1153は、マスクが推定された時間周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、マスクからの分離エンコーディング推定モジュール1153は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が単独で観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
最後のBLSTM層1173の出力は、埋め込み計算モジュール1162への入力としても用いることができる。この埋め込み計算モジュールは、線形ニューラルネットワーク層1185と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール1187とを備える。時間周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層1185は、最後のBLSTM層1173の出力を用いてD次元ベクトルを出力する。ここで、Dは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール1187は、D次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール1163は、埋め込みが推定された時間周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール1163は、k平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをC個のグループにクラスタリングすることができる。ここで、Cは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分及び周波数成分がその話者によって支配されるか否かを示す2値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール1163は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が単独で観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
トレーニング時には、最後のBLSTM層1173の出力は、マスク推論モジュール1152及び埋め込み計算モジュール1162の双方への入力として用いられる。埋め込み計算モジュール1162によって出力される埋め込み、マスク推論モジュール1152によって出力されるマスク、埋め込みからのエンコーディング推定モジュール1163によって出力される分離エンコーディング、及びマスクからのエンコーディング推定モジュール1153によって出力される分離エンコーディングのうちの1つ以上を用いて、図12において説明するようなトレーニングエラーを計算することができる。テスト時には、双方のモジュールを用い、それぞれから取得される分離エンコーディングを組み合わせることもできるし、1つのモジュールのみを続けるように選択し、対応する分離エンコーディングを用いることもできる。
図12は、本開示の実施形態による、同時に発話する複数の話者による音声のエンドツーエンド認識の明確な分離を有する複数話者ASRネットワークのトレーニングを示すフロー図であり、トレーニングはエラー計算を含む。この図は、2人の対象話者の場合を例として用いて概念を示している。明確な分離を有する複数話者音声認識ネットワーク1211は、エンコーダネットワーク1240及びデコーダネットワーク1250を備える。エンコーダネットワーク1240は、話者分離ネットワーク1242及び音響エンコーダネットワーク1246を備える。入力混合体1208及び対応する基準ラベル1232並びに基準音声源信号1234が、データセット1206からサンプリングされる。基準音声源信号は、単独で観測された各対象話者に対応する入力混合体1208の部分に対応する。入力混合体1208は話者分離ネットワーク1242によって処理され、対象話者ごとの分離エンコーディングが出力される。話者分離ネットワーク1242は、混合体エンコーダ1210、マスク推論モジュール1212、マスクからの分離エンコーディング推定モジュール1213、埋め込み計算モジュール1222、及び任意選択による埋め込みからの分離エンコーディング推定モジュール1223を備える。
混合体エンコーダ1210は、入力混合体1208を処理して混合体エンコーディングを出力する。この混合体エンコーディングは、一組のマスクを推定するマスク推論モジュール1212によって更に処理される。この一組のマスクは、マスクからの分離エンコーディング推定モジュール1213によって入力混合体とともに用いられ、対象話者ごとの分離エンコーディングが取得される。例えば、マスク推論モジュール1212は、対象話者ごとのマスクを出力することができ、マスクからの分離エンコーディング推定モジュールは、対象話者のマスクを入力混合体の表現に適用して、その対象話者の分離された信号の推定値の表現を取得することができ、この表現は、その対象話者の分離エンコーディングとして用いられる。この表現は、例えば、短時間フーリエ変換等の入力混合体の時間周波数表現とすることができ、この場合、マスクは入力混合体の短時間フーリエ変換に適用され、その対象話者の分離された信号の短時間フーリエ変換の推定値が取得される。この推定値は、その対象話者の隔離された信号が単独で観測された場合の信号の短時間フーリエ変換の推定値である。
混合体エンコーディングは、一組の埋め込みを推定する埋め込み計算モジュール1222によっても更に処理される。埋め込みからの分離エンコーディング推定モジュール1223は、これらの埋め込みベクトルを入力混合体1208とともに用いて、別の一組の分離エンコーディングを出力することができる。
これらの埋め込みからの分離エンコーディングは、マスクからの分離エンコーディングと結合して結合分離エンコーディングを取得することもできるし、マスクからの分離エンコーディングの代わりに用いて、音響エンコーダネットワーク1246及びその後のステップへの入力として用いることもできる。各分離エンコーディングは、音響エンコーダ1246によって個別に更に処理され、認識エンコーディングがそれぞれ得られる。各認識エンコーディングは、CTCモジュール1216及び注意デコーダ1218の双方によって個別に更に処理される。エラー計算モジュール1230は、CTCモジュール1216の出力及び基準ラベル1232の双方を用いてCTC損失Lctcを計算し、注意デコーダ1218の出力及び基準ラベル1232を用いて注意損失Lattを計算する。CTC損失及び注意損失の加重結合が認識損失LASRである。エラー計算モジュール1230は、マスクからの分離エンコーディング推定モジュール1213の出力及び基準音声源信号1234を用いて分離エンコーディング損失LSEも計算する。エラー計算モジュール1230は、上記分離エンコーディング損失と組み合わせて又はその代わりに、埋め込みからの分離エンコーディング推定モジュール1223の出力及び基準音声源信号1234を用いて分離エンコーディング損失LSEを計算することもできる。エラー計算モジュール1230は、埋め込み計算モジュール1222の出力及び基準音声源信号1234を用いて埋め込み損失Lembも計算する。分離エンコーディング損失及び埋め込み損失の加重結合が音声源分離損失LSSである。認識損失及び音声源分離損失の加重結合を用いて、明確な分離を有する複数話者ASRネットワーク1211のパラメータの更新が計算される。
図13は、本開示の実施形態による、複数の言語で同時に発話する複数の話者による音声のエンドツーエンド認識を示す概略図である。音声混合体1305は、複数の話者、例えば2人の話者による音声を含み、発語1 1306は、日本語による第1の部分1307及び英語による第2の部分1308を有する、話者1によって発話された発語であり、発語2 1309は、話者2によって中国語で発話された発語である。音声混合体1305は、2つのエンコーダネットワークであるエンコーダ1 1310及びエンコーダ2 1315によって処理され、エンコーディング1 1311及びエンコーディング2 1316が出力される。エンコーディング1 1311及びエンコーディング2 1316は、デコーダネットワークであるデコーダ1 1320及びデコーダ2 1325によってそれぞれ個別に処理され、例えば、日本語、次に英語による話者1のテキスト、及び、例えば、中国語による話者2のテキストが得られる。デコーダ1 1320によって出力されたテキストが発語1 1306に対応するとともに、デコーダ2 1325によって出力されたテキストが発語2 1309に対応するのか、又は、その逆であるのかは、システムによって判断される。
図14は、本開示の実施形態による、ハイブリッドCTC/注意エンドツーエンドネットワークを用いる音声認識モジュールを示すブロック図である。
エンドツーエンド音声認識モジュール1400は、エンコーダネットワークモジュール1402と、エンコーダネットワークパラメータ1403と、注意デコーダモジュール1404及びCTCモジュール1408を備えるデコーダネットワークと、注意デコーダネットワークパラメータ1405と、CTCネットワークパラメータ1409と、ラベル系列探索モジュール1406とを備える。エンコーダネットワークパラメータ1403、注意デコーダネットワークパラメータ1405及びCTCネットワークパラメータ1409は、対応するモジュール1402、1404及び1408にパラメータを提供する記憶デバイスにそれぞれ記憶される。
エンコーダネットワークモジュール1402は、エンコーダネットワークを含み、エンコーダネットワークパラメータ1403からパラメータを読み出すエンコーダネットワークを用いて、音響信号1401が隠れベクトル系列に変換される。幾つかの実施形態では、エンコーダネットワークモジュール1402は、エンコーダネットワークによって更に処理されることになる音響信号から音響特徴系列を抽出するように構成された特徴抽出器(図示せず)を備える。この特徴抽出器は微分可能関数であり、したがって、単一のエンドツーエンドニューラルネットワーク内に接続することができる。微分可能関数の例には、チャネル信号の振幅のMel関数及びチャネル信号の振幅のbark関数が含まれる。
図14を引き続き参照すると、注意デコーダネットワークモジュール1404を使用する注意機構が、以下のように説明される。注意デコーダネットワークモジュール1404は、注意デコーダネットワークを含む。注意デコーダネットワークモジュール1404は、エンコーダネットワークモジュール1402から隠れベクトル系列を、ラベル系列探索モジュール1406から先行するラベルを受信し、その後、注意デコーダネットワークパラメータ1405からパラメータを読み出すデコーダネットワークを用いて、先行するラベルに関する次のラベルの第1の事後確率分布を計算する。注意デコーダネットワークモジュール1404は、第1の事後確率分布をラベル系列探索モジュール1406に与える。CTCモジュール1408は、エンコーダネットワークモジュール1402から隠れベクトル系列を、ラベル系列探索モジュール1406から先行するラベルを受信し、CTCネットワークパラメータ1409及び動的計画法を用いて、次のラベル系列の第2の事後確率分布を計算する。この計算後、CTCモジュール1408は、第2の事後確率分布をラベル系列探索モジュール1406に与える。
ラベル系列探索モジュール1406は、注意デコーダネットワークモジュール1404及びCTCモジュール1408から与えられる第1の事後確率分布及び第2の事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。注意デコーダネットワークモジュール1404及びCTCモジュール1408によって計算されるラベル系列の第1の事後確率分布及び第2の事後確率分布は結合され、1つの確率にされる。この場合、計算された事後確率の結合は、線形結合に基づいて実行することができる。エンドツーエンド音声認識モジュール1400によれば、CTC確率を考慮に入れて、入力音響特徴系列に対してより良好なアライメントされた仮説を見つけることが可能になる。
(言語非依存エンドツーエンド音声認識のためのニューラルネットワークアーキテクチャ)
エンドツーエンド音声認識は、入力音響特徴系列Xが与えられたときの最も確からしいラベル系列
Figure 0006873333
を見つける問題と一般に定義され、すなわち、
Figure 0006873333
である。ただし、Uは所定のラベルの集合Uが与えられたときの取り得るラベル系列の集合を表す。ラベルは、文字又は単語とすることができる。ラベル系列確率p(Y|X)を、事前にトレーニングされたニューラルネットワークを用いて計算することができる。
本開示の実施形態において、言語非依存ニューラルネットワークは、フィードフォワードニューラルネットワーク(FFNN)、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)等の様々なネットワークの組み合わせとすることができる。
図14を引き続き参照すると、例えば、ニューラルネットワークのために、ハイブリッド注意/CTCアーキテクチャを用いることができる。図14は、ハイブリッド注意/CTCアーキテクチャを有するエンドツーエンドネットワークを用いる音声認識モジュール1400を示すブロック図であり、ラベル系列確率は以下のように計算される。
エンコーダモジュール1402は、
Figure 0006873333
として、音響特徴系列X=x,...,xを隠れベクトル系列H=h,...,hに変換するために使用されるエンコーダネットワークを含む。ただし、関数Encoder(X)は、スタックされる、1つ以上のリカレントニューラルネットワーク(RNN)からなることができる。RNNは、長短期メモリ(LSTM)として実現することができ、長短期メモリは、各隠れユニット内に入力ゲート、忘却ゲート、出力ゲート及びメモリセルを有する。別のRNNは、双方向RNN(BRNN)又は双方向LSTM(BLSTM)とすることができる。BLSTMは一対のLSTM RNNであり、一方は順方向LSTMであり、他方は逆方向LSTMである。BLSTMの隠れベクトルは、順方向LSTM及び逆方向LSTMの隠れベクトルの連結として取得される。
順方向LSTMの場合、順方向の第tの隠れベクトル
Figure 0006873333
は以下のように計算される。
Figure 0006873333
ただし、σ(・)は要素ごとのシグモイド関数であり、tanh(・)は要素ごとの双曲線正接関数であり、
Figure 0006873333
、及び
Figure 0006873333
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。
Figure 0006873333
はベクトル間の要素ごとの乗算を表す。重み行列
Figure 0006873333
及びバイアスベクトル
Figure 0006873333
はLSTMのパラメータであり、それらは下付き文字z∈{x,h,i,f,o,c}によって識別される。例えば、
Figure 0006873333
は隠れ/入力ゲート行列であり、
Figure 0006873333
は入力/出力ゲート行列である。隠れベクトル
Figure 0006873333
は入力ベクトルx及び先行する隠れベクトル
Figure 0006873333
から再帰的に取得される。ただし、
Figure 0006873333
はゼロベクトルであると仮定される。
図14を引き続き参照すると、逆方向LSTMの場合、逆方向の第tの隠れベクトル
Figure 0006873333
は以下のように計算される。
Figure 0006873333
ただし、
Figure 0006873333
及び
Figure 0006873333
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 0006873333
及びバイアスベクトル
Figure 0006873333
はLSTMのパラメータであり、それらは順方向LSTMと同様にして下付き文字によって識別される。隠れベクトル
Figure 0006873333
は入力ベクトルx及び後続の隠れベクトル
Figure 0006873333
から再帰的に取得される。ただし、
Figure 0006873333
はゼロベクトルであると仮定される。
BLSTMの隠れベクトルは、以下のように、順方向隠れベクトル及び逆方向隠れベクトルを連結することによって取得される。
Figure 0006873333
ただし、Tは、全てのベクトルが列ベクトルであると仮定するときに、ベクトルに関する転置演算を表す。
Figure 0006873333
及び
Figure 0006873333
はBLSTMのパラメータとみなされる。
より良好な隠れベクトルを取得するために、第1のBLSTMの隠れベクトルを第2のBLSTMに送り込み、その後、第2のBLSTMの隠れベクトルを第3のBLSTMに送り込み、以下同様にすることによって、複数のBLSTMをスタックすることができる。h’が1つのBLSTMによって取得された隠れベクトルである場合には、それを別のBLSTMに送り込むときに、x=h’であると仮定する。計算を削減するために、1つのBLSTMから別のBLSTMに1つおきの隠れベクトルのみを送り込むことができる。この場合、出力隠れベクトル系列の長さは、入力音響特徴系列の長さの半分になる。
複数のBLSTMの下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 0006873333
及び
Figure 0006873333
は、エンコーダネットワークパラメータ1403に記憶され、隠れベクトル系列Hを計算するために使用される。
注意デコーダネットワークモジュール1404は、隠れベクトル系列Hを用いて、ラベル系列確率patt(Y|X)を計算するために使用される注意デコーダネットワークを含む。YがL長のラベル系列y、y、...、yであると仮定する。patt(Y|X)を効率的に計算するために、その確率は、
Figure 0006873333
として確率連鎖律によって分解することができ、各ラベル確率patt(y|y,...,yl−1,X)はラベルにわたる確率分布から取得され、その確率分布は、
Figure 0006873333
として注意デコーダネットワークを用いて推定される。ただし、yはラベルを表す確率変数であり、rはコンテンツベクトルと呼ばれ、それはHのコンテンツ情報を有する。ql−1はデコーダ状態ベクトルであり、それは、先行するラベルy、...、yl−1及び先行するコンテンツベクトルr、...、rl−1の文脈情報を含む。したがって、ラベル確率は、文脈を与えられるとすると、y=yの確率として取得され、すなわち、
Figure 0006873333
である。
コンテンツベクトルrは一般に、エンコーダネットワークの隠れベクトルの加重和として与えられ、すなわち、
Figure 0006873333
である。ただし、altは注意重みと呼ばれ、それはΣlt=1を満たす。注意重みはql−1及びHを用いて、以下のように計算することができる。
Figure 0006873333
ただし、W、V、F及びUは行列であり、w及びbはベクトルであり、それらは注意デコーダネットワークのトレーニング可能なパラメータである。eltは第(l−1)の状態ベクトルql−1と第tの隠れベクトルhとの間の照合スコアであり、時間的なアライメント分布a={alt|t=1,...,T}を形成する。al−1は、先行するラベルyl−1を予測するために使用される先行するアライメント分布{a(l−1)t|t=1,...,T}を表す。f={flt|t=1,...,T}は、al−1に関するFとの畳み込み結果であり、それは、先行するアライメントを現在のアライメントに反映させるために使用される。「*」は畳み込み演算を表す。
ラベル確率分布は、
Figure 0006873333
として状態ベクトルql−1及びコンテンツベクトルrを用いて取得される。ただし、Wqy及びWryは行列であり、bはベクトルであり、それらは注意デコーダネットワークのトレーニング可能なパラメータである。softmax()関数は、K次元ベクトルvの場合に、
Figure 0006873333
として計算される。ただし、v[i]は、vの第iの要素を示す。
その後、デコーダ状態ベクトルql−1が、以下のように、LSTMを用いて、qに更新される。
Figure 0006873333
ただし、
Figure 0006873333
及び
Figure 0006873333
はそれぞれ、入力ベクトルxに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 0006873333
及びバイアスベクトル
Figure 0006873333
はLSTMのパラメータであり、それは順方向LSTMと同様にして下付き文字によって識別される。状態ベクトルqは入力ベクトル
Figure 0006873333
及び先行する状態ベクトルql−1から再帰的に取得され、ただし、qは、q−1=0、y=<sos>及びa=1/Tを仮定して計算される。注意デコーダネットワークの場合、入力ベクトル
Figure 0006873333
は、ラベルy及びコンテンツベクトルrの連結ベクトルとして与えられ、それは
Figure 0006873333
として取得することができ、ただし、Embed(・)は、ラベルを固定次元ベクトルに変換するラベル埋め込みを表す。例えば、これは、以下の式によって計算することができる。
Figure 0006873333
ただし、OneHot(y)は、ラベルインデックスをワンホットベクトル表現に変換するラベルyの1−of−Nコーディングを表す。
Figure 0006873333
は、行列であり、トレーニング可能なパラメータである。
下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 0006873333
及び
Figure 0006873333
と、Wqy、Wry、b
Figure 0006873333
は、注意デコーダネットワークパラメータ1405に記憶され、ラベル確率分布patt(y|y,...,yl−1,X)を計算するために使用される。
CTCモジュール1408は、隠れベクトル系列Hを与えられると、ラベル系列YのCTC順方向確率を計算する。CTC定式化は、異なるラベルの集合Uを有するL長のラベル系列Y={y∈U|l=1,...,L}を使用することに留意されたい。付加的な「ブランク」ラベルを有するフレームごとのラベル系列を導入することによって、Z={z∈U∪{b}|t=1,...,T}である。ただし、bはブランクラベルを表す。確率連鎖律と、条件付き独立仮定とを使用することによって、事後確率p(Y|X)は以下のように分解される。
Figure 0006873333
ただし、p(z|zt−1,Y)はブランクラベルを含むラベル遷移確率とみなされる。p(z|X)は、入力系列Xを条件とし、双方向長短期メモリ(BLSTM)を使用することによってモデル化される、フレームごとの事後確率である。
Figure 0006873333
ただし、hはエンコーダネットワークを用いて得られる。
Figure 0006873333
は行列であり、
Figure 0006873333
はベクトルであり、それらはCTCのトレーニング可能なパラメータであり、CTCネットワークパラメータ1409に記憶される。式(29)は、全ての取り得るZにわたる総和を取り扱わなければならないが、順方向アルゴリズムを使用することによって効率的に計算される。
CTCのための順方向アルゴリズムは以下のように実行される。長さ2L+1の拡張ラベル系列Y’=y’,y’,...,y’2L+1=b,y,b,y,...,b,y,bが使用される。ただし、ブランクラベル「b」が各対の隣接するラベル間に挿入される。α(s)を順方向確率とする。それは時間フレーム1、...、tに関するラベル系列y、...、yの事後確率を表し、ただし、sは、拡張ラベル系列Y’内の位置を示す。
初期化のために、
Figure 0006873333
が設定される。t=2〜Tの場合に、α(s)は、
Figure 0006873333
として再帰的に計算される。ただし、
Figure 0006873333
である。最後に、CTCベースラベル系列確率が
Figure 0006873333
として得られる。
フレームごとのラベル系列Zは、入力音響特徴系列Xと出力ラベル系列Yとの間のアライメントを表す。順方向確率を計算するとき、式(34)の再帰によって、Zが単調になるように強制し、アライメントZにおいてsがループ又は大きくジャンプできないようにする。なぜなら、α(s)を得るための再帰は、多くてもαt−1(s)、αt−1(s−1)、αt−1(s−2)しか考慮しないためである。これは、時間フレームが1フレームだけ進むと、ラベルが先行するラベル又はブランクから変化するか、又は同じラベルを維持することを意味する。この制約は、アライメントが単調になるように強制する遷移確率p(z|zt−1,Y)の役割を果たす。それゆえ、pctc(Y|X)が、不規則な(非単調の)アライメントに基づいて計算されるときに、0又は非常に小さい値とすることができる。
最終的に、式(36)のCTCベース確率及び式(14)の注意ベース確率を対数領域において以下のように結合することによってラベル系列確率を得る。
Figure 0006873333
ここで、λは、0≦λ≦1となるようなスカラー重みであり、手動で求めることができる。
図15は、本開示の実施形態による、ハイブリッドCTC/注意音声認識モジュールにおけるニューラルネットワークを示す概略図である。結合ニューラルネットワーク1500は、エンコーダネットワークモジュール1502と、注意デコーダネットワークモジュール1504と、CTCモジュール1508とを含む。各矢印は、変換を伴う、又は伴わないデータ転送を表し、各正方形ノード又は円形ノードは、ベクトル又は予測ラベルを表す。音響特徴系列X=x,...,xが、エンコーダネットワークモジュール1502に送り込まれ、エンコーダネットワークモジュールでは、2つのBLSTMがスタックされ、第1のBLSTMの1つおきの隠れベクトルが第2のBLSTMに送り込まれる。エンコーダモジュール1502の出力の結果、隠れベクトル系列H=h’,h’,...,h’T’が生成される。ただし、T’=T/2である。その後、HがCTCモジュール1508及び注意デコーダネットワークモジュール1504に送り込まれる。CTCベース系列確率及び注意ベース系列確率がそれぞれ、CTCモジュール1508及び注意デコーダネットワークモジュール1504を用いて計算され、ラベル系列確率を取得するために結合される。
(同時の言語識別及び音声認識)
言語非依存エンドツーエンドシステムの主要な着想は、全てのターゲット言語に現れる文字集合の和集合を含む拡張文字集合を出力ラベルの集合とみなすことである。すなわち、Uunion=UEN∪UJP∪...,であり、ここで、UEN/JP/...は、特定の言語の文字集合である。この拡張文字集合を用いることによって、別個の言語識別モジュールを必要とすることなく、任意の言語について文字系列の尤度を計算することができる。ネットワークは、各発語のターゲット言語のための正しい文字系列を自動的に予測するようにトレーニングされる。和集合の使用は、言語ごとに一意の文字集合を用いることと対照的に、複数の言語において生じる出力シンボルの複製を排除し、低減された計算コストで、よりコンパクトなモデル表現をもたらす。言語非依存システムは、連続した多言語音声を与えられると、言語ID及び音声認識の予測を繰り返す。
さらに、出力ラベルの集合を、言語IDを含むように更に拡張することによって、言語IDの予測をシステムの明確な部分にし、それにより、エンドツーエンド音声認識のためのラベルの集合Uとして用いられる最終増強文字集合Ufinal=Uunion∪{[EN],[JP],...}が得られる。本開示の実施形態によれば、ネットワークは、まず、言語ID、k∈{[EN],[JP],...}を予測する。Y=y,...,yは、Uにおける文字の系列であり、Xは音響特徴ベクトルの系列である、事後分布p(Y|X)の代わりに、システムは、言語ID、及び拡張系列Y’=(k,Y)の文字系列としての文字系列の同時分布p(k,Y|X)をモデル化する。ここで、y’=kであり、y’=yl+1,∀l>1である。これは、以下のように確率連鎖律を用いることによって定式化される。
Figure 0006873333
さらに、発語に複数の言語を含む場合、ネットワークが、全体を通じて複数の言語IDを出力することが可能になる。Ufinalにおける文字の系列Y’=y’,...,y’L’について、言語IDである、Y’における文字
Figure 0006873333
のインデックスを、l、...、lによって表す(すなわち、k∈{[EN],[JP],...}である)。ここで、システムは、言語ID及び文字の同時分布を以下のようにモデル化する。
Figure 0006873333
これは、「[EN]how<space>are<space>you?[FR]comment<space>allez-vous?」等の、言語IDを含む言語混合文字系列の分布のモデル化と同じである。ここで、<space>は形式上、スペース文字を表す。
図16は、本開示の実施形態による、多言語音声認識モジュールにおけるニューラルネットワークを示す概略図である。ハイブリッド注意/CTCアーキテクチャを用いて、そのような言語混合文字系列をモデル化することができる。言語混合発語を認識するとき、ネットワークは、出力系列の言語を切り替えることができる。図16は、ハイブリッド注意/CTCネットワーク1600を用いた文字系列予測の例を示す。エンコーダネットワークは、日本語及び英語の音声からなる音響特徴を入力として取ることによって、隠れベクトル系列Hを計算する。この例では、x、...、xが日本語に対応し、x、...、xが英語に対応すると仮定するが、実際の音響特徴系列には、言語を分離するインジケーターが存在しない。本開示の実施形態によれば、注意デコーダネットワークは、日本語文字系列が続く言語ID「[JP]」を予測することができ、第1の日本語文字系列を復号した後、ネットワークは、続く文字系列に一致する言語ID、ここでは「[EN]」を更に予測することができる。
(多言語音声認識のためのデータ生成)
言語混合発語を予測するために、ハイブリッド注意/CTCネットワークが、そのような言語混合コーパスの集合を用いてトレーニングされる必要がある。しかしながら、同じ発語内に複数の言語が現れるそのような音声コーパスを十分な量収集することは非常に困難である。実際には、そのような発語を収集及びトランスクリプトすることは非常にコストが高く、時間がかかる。しかしながら、そのようなコーパスは、既に存在する言語依存コーパスの集合から人工的に生成することができる。
複数のコーパス内の各発語が、文字の系列として対応するトランスクリプトを有すると仮定する。以後、そのような言語混合コーパスを生成する方法が説明される。第1に、言語依存コーパス内の各発語のトランスクリプトに言語IDを挿入する。言語IDは、各文字系列の先頭に位置することができる。次に、以下で更に説明されるように、選択された発語のカバレッジ、及び言語推移の変動に注意を払いながら、言語依存コーパスから発語をランダムに選択する。次に、選択された発語(及びそれらのトランスクリプト)が連結され、生成されたコーパスにおいて単一の発語とみなされる。この手順は、生成されたコーパスの持続時間が、元のコーパスの和集合の持続時間に到達するまで繰り返される。
言語をサンプリングする確率は、元のコーパスの持続時間と比例し、データサイズによって生じる選択バイアスを緩和するために、定数項1/Nが付加される。本発明者らの実験では、連結する発語の最大数Nconcatを3に設定する。1とNconcatとの間の各数nconcatについて、nconcat個の言語及び発語をそれらのサンプリング確率に基づいてサンプリングすることによって、元のコーパスからのnconcat個の発語からなる連結された発語を生成する。元のコーパスの適用範囲を最大にするために、トレーニングセットについて5に設定され、開発セット及び評価セットについて2に設定された最大使用カウントnreuseを導入することによって、発語が過度に再利用されることを防ぐ。この手順を用いて、トレーニングセット、開発セット及び評価セットを生成する。
複数話者多言語トレーニングデータを生成するために、上記で生成されたような多言語発語をランダムに選択し、それらをランダム利得とともに混合することができる。
(トレーニング手順)
損失関数
Figure 0006873333
の値を小さくするように、図14のエンコーダネットワークパラメータ1403、注意デコーダネットワークパラメータ1405、及びCTCネットワークパラメータ1409が同時に最適化される。ここで、X及びYは、音響特徴系列及びラベル系列を含むトレーニングデータである。
Θは、図14のエンコーダネットワークパラメータ1403、注意デコーダネットワークパラメータ1405及びCTCネットワークパラメータ1409を含むネットワークパラメータの集合を表す。Nは、トレーニングサンプルの数である。Xは、Xにおける第nの音響特徴系列であり、Yは、Yにおける第nのラベル系列である。pctc(Y|X,Θ)は、パラメータ集合Θを用いて計算されたCTCベースの系列確率であり、patt(Y|X,Θ)は、パラメータ集合Θを用いて計算された注意ベースの系列確率である。
ネットワークパラメータの集合Θは、確率的勾配降下法によって最適化することができる。行列及びベクトルのサイズは、手作業で又は自動的に決定することができる。例えば、ラベル集合Ufinalのサイズに依存する行列及びベクトルの場合、サイズは、ラベル集合サイズ|Ufinal|に従って求められる。例えば、行列Wqy及びWryの行数が|Ufinal|に等しい場合、ベクトルbの次元数も|Ufinal|に等しいはずである。なぜなら、この数はラベル確率分布patt(y|y,...,yl−1,X)の次元と等しくなるはずであるためである。行列及びベクトルの各要素は、ランダム実数として設定することができる。対象となるデータセットにおける一意の文字及び言語IDを取得することによって、Ufinalが求められる。
次に、パラメータ集合Θ内のエンコーダネットワークパラメータ、デコーダネットワークパラメータ及びCTCネットワークパラメータが同時に最適化される。勾配降下法に基づいて、パラメータ集合Θの各要素は、L(X,Y,Θ)が収束するまで、
Figure 0006873333
として繰り返し更新される。ここで、ηは学習速度である。
Figure 0006873333
及び
Figure 0006873333
となるように、X及びYをM個の小さな部分集合
Figure 0006873333
に分割し、m=1,...,Mについて以下を繰り返すことによってパラメータを更新することも可能である。
Figure 0006873333
小さな部分集合を用いてパラメータを更新することによって、パラメータはより頻繁に更新され、損失関数はより迅速に収束する。
本開示における全てのネットワークのパラメータは、上記で説明したのと同様に最適化することができることが分かる。例えば、図10に関して、話者分離ネットワーク1042、音響エンコーダネットワーク1046、及びデコーダネットワーク1050のネットワークパラメータ1041は、上記で説明した手順と同様の手順を用いて同時に最適化することができる。
(ラベル系列探索)
図14のラベル系列探索モジュール1406は、組み合わされたラベル系列確率に従って、以下のように最も確からしいラベル系列
Figure 0006873333
を得る。
Figure 0006873333
ここで、pctc(Y|X)は、式(36)におけるCTCベースのラベル系列確率であり、patt(Y|X)は、式(14)における注意ベースのラベル系列確率であり、本開示の実施形態によればU=Ufinalである。
しかしながら、あり得るラベル系列の数は系列の長さに対し指数関数的に増大するため、Yの全ての可能なラベル系列を列挙し、λ log pctc(Y|X)+(1−λ)log patt(Y|X)を計算することは困難である。したがって、通例、ビーム探索技法を用いて
Figure 0006873333
が得られ、ビーム探索技法では、最初に、より短いラベル系列仮説が生成され、他よりも高いスコアを有する限られた数の仮説のみが、より長い仮説を得るように拡張される。最終的に、完全な仮説において、系列の末尾に到達した最良のラベル系列仮説が選択される。
Ωを、長さlの部分的仮説の集合とする。ビーム探索の開始時に、Ωは、開始シンボル<sos>を有する1つのみの仮説を含む。l=1〜Lmaxについて、Ωl−1における各部分仮説は、あり得る単一のラベルを付加することによって拡張され、新たな仮説はΩに記憶される。ここで、Lmaxは、探索されることになる仮説の最大長である。
各部分仮説hのスコアは以下のように計算される。
Figure 0006873333
ここで、ψatt(h)は以下のように計算される。
Figure 0006873333
ψctc(h,X)を計算するために、自身のプレフィックスとしてhを有する全てのラベル系列の累積確率として定義されるCTCプレフィックス確率
Figure 0006873333
が利用され、CTCスコアは、
Figure 0006873333
と定義される。ただし、vは、空のストリングを除く、全ての取り得るラベル系列を表す。CTCスコアは、式(45)におけるψatt(h)として再帰的に得ることはできないが、入力時間フレームにわたって順方向確率を維持することによって、部分仮説ごとに効率的に計算することができる。
本開示の実施形態によれば、ラベル系列探索モジュール1406は、
Figure 0006873333
を以下の手順に従って見つける。
Figure 0006873333
この手順において、Ω及び
Figure 0006873333
は、それぞれ長さlの部分的仮説及び完全な仮説を受け入れるキューとして実施される。1行目〜2行目において、Ω及び
Figure 0006873333
が、空のキューとして初期化される。3行目において、初期仮説<sos>のためのスコアが0に設定される。4行目〜24行目において、Ωl−1における各部分仮説gが、ラベル集合U∪{<eos>}内の各ラベルyによって拡張される。ここで、演算Head(Ω)は、キューΩにおける第1の仮説を返し、Dequeue(Ω)はキューから第1の仮説を除去する。
各拡張された仮説hは、11行目において注意デコーダネットワークを用いてスコアリングされ、12行目においてCTCスコアと組み合わされる。その後、y=<eos>の場合、仮説hは、完全であると仮定され、14行目において、
Figure 0006873333
に記憶される。ここで、
Figure 0006873333
は、hを
Figure 0006873333
に加算する演算である。y≠<eos>の場合、hは16行目においてΩに記憶される。ここで、Ωにおける仮説数、すなわち|Ω|は、17行目において所定の数beamWidthと比較される。|Ω|がbeamWidthを超える場合、Ωにおいて最小スコアhminを有する仮説が18行目〜19行目においてΩから除去され、ここで、Remove(Ω,hmin)は、hminをΩから除去する演算である。最終的に、25行目において、
Figure 0006873333
が最良仮説として選択される。
CTCスコアψctc(h,X)は、修正順方向アルゴリズムを用いて計算することができる。
Figure 0006873333
及び
Figure 0006873333
を時間フレーム1...tにわたる仮説hの順方向確率であるとする。ただし、上付き文字(n)及び(b)はそれぞれ、全てのCTC経路が非ブランクラベル又はブランクラベルで終了する異なる事例を表す。ビーム探索を開始する前に、
Figure 0006873333
及び
Figure 0006873333
が、t=1,...,Tに関して、
Figure 0006873333
として初期化される。ただし、
Figure 0006873333
であり、bがブランクラベルであると仮定する。エンコーダに関するサブサンプリング技法のため、時間インデックスt及び入力長Tは入力発語Xの時間インデックス及び入力長とは異なる場合があることに留意されたい。CTCスコア関数は以下のように実施することができる。
Figure 0006873333
この関数において、所与の仮説hが、1行目において、最初に、最後のラベルy及び残りのラベルgに分割される。yが<eos>である場合には、3行目において、hが完全な仮説であると仮定して、順方向確率の対数を返す。hの順方向確率は、
Figure 0006873333
及び
Figure 0006873333
の定義に従って、
Figure 0006873333
によって与えられる。yが<eos>でない場合には、hが完全な仮説でないと仮定して、順方向確率
Figure 0006873333
及び
Figure 0006873333
並びにプレフィックス確率Ψ=pctc(h,...|X)を計算する。それらの確率に関する初期化ステップ及び再帰ステップが5行目〜13行目に記述されている。この関数において、10行目〜12行目における
Figure 0006873333
及びΨを計算するときにはいつでも、gがhのプレフィックスであり、|g|<|h|であるので、9行目の確率
Figure 0006873333
及び
Figure 0006873333
がビーム探索プロセスを通して既に取得されていると仮定される。したがって、プレフィックス確率及び順方向確率を効率的に計算することができる。9行目のlast(g)は、gの最後のラベルを返す関数であることを留意されたい。
(技術的概念の更なる再検討)
(音声分離−ディープクラスタリング)
この実験プロセスの間、認識されたことは、ディープクラスタリングが、同時に発話する複数の話者を有する音響信号を入力として与えられると、ディープニューラルネットワークをトレーニングして、時間周波数領域の時間周波数(T−F)単位ごとに高次元埋め込みベクトルを出力することができるということであった。それによって、入力音響信号において同じ話者によって支配されるT−F単位対の埋め込みは互いに接近する一方、異なる話者によって支配される対の埋め込みはそれよりも離れている。したがって、各T−F単位の話者割り当ては、各単一の話者を分離するマスクを生成する単純なクラスタリングアルゴリズムによって埋め込みから推論することができる。
N個のT−F要素及びC人の話者を有する混合体スペクトログラムについて、T−F要素iが音声源cによって支配される場合にはyi,c=1であり、そうでない場合にはyi,c=0であるようなラベル行列
Figure 0006873333
を定義することができる。したがって、第i行yは、T−F要素iを支配する話者の単位長インジケーターベクトルである。C人の話者の順序付けは任意の順列を有するのに対して、理想類似性行列(ideal affinity matrix)YYは同じ情報の順列不変表現を与える。T−F要素i及びjが同じ話者によって支配されている場合には、この行列(YYi,j=1であり、そうでない場合には、(YYi,j=0である。ネットワークは、類似性行列VVが理想類似性行列を近似するように、単位長D次元埋め込みベクトルvから構成される行列
Figure 0006873333
を生成することを学習する。トレーニング時において、ディープクラスタリングが、トレーニング混合体ごとにVに関して以下の目的関数を最小にする。
Figure 0006873333
ここで、埋め込み行列
Figure 0006873333
及びラベル行列
Figure 0006873333
はそれぞれ、発語における全ての埋め込みベクトルv及び全てのワンホットベクトルyを縦方向にスタックすることによって得られる。幾つかの実施形態では、ネットワークは、互いの上にスタックされた複数の双方向長短期メモリ(BLSTM)リカレントニューラルネットワーク(RNN)層と、その後に続く、BLSTM層のスタックの出力からの所与のフレーム内のT−F単位ごとにそのフレームにおいてD次元ベクトルを計算する線形層と、その後に続く、D次元埋め込みを取得するD次元ベクトルのシグモイド及び単位ノルム正規化等の非線形部とからなる。
本開示は、k平均目的関数における埋め込みをホワイト化することに基づく代替のコスト関数を用いて更なる改善を提供する他の実施形態を含む。
Figure 0006873333
本開示の幾つかの実施形態は、特定の目的又は追求している結果に基づく更なる改善を提供する異なるディープクラスタリング目的関数及び他の目的関数を用いることができることも考えられる。
本開示は、ソフト重みを用いて、トレーニング時において非常に低いエネルギーを有するT−Fビンの影響を低減する他の実施形態も含む。幾つかの実施形態は、発語内の全てのビンにおける混合体振幅の合計に対するT−Fビンiにおける混合体振幅の比w=|x|/Σ|x|として定義される振幅比重みWMRを用いる。ここで、|x|は混合体の振幅である。非限定例として2値重み等の他のタイプの重みも考慮することができる。
(音声分離−キメラネットワーク)
本開示の幾つかの実施形態は、音声分離のマスク推論(MI:mask-inference)ネットワークをトレーニングする。幾つかの実施形態はマスク近似(MA:mask approximation)目的関数を用いる。この場合、損失関数は、推定されたマスクと基準マスクとの間の距離に基づいて計算される。幾つかの実施形態は振幅スペクトル近似(MSA:magnitude spectrum approximation)を用いる。この場合、損失関数は、推定されたマスクを混合体振幅と乗算することによって得られる対象音声源の推定された振幅と、基準振幅との間の距離に基づいて計算される。幾つかの実施形態は位相敏感スペクトル近似(PSA:phase-sensitive spectrum approximation)を用いる。この場合、損失関数は、推定されたマスクを混合体振幅と乗算することによって得られる対象音声源の推定された振幅と、混合体と音声源との間の位相差に依存する項を乗算された基準振幅との間の距離に基づいて計算される。幾つかの実施形態は切断(truncated:トランケート)位相敏感スペクトル近似(tPSA)を用いる。この場合、損失関数は、推定されたマスクを混合体振幅と乗算することによって得られる対象音声源の推定された振幅と、混合体と音声源との間の位相差に依存する項と基準振幅とを乗算した乗算結果の出力を所与の範囲に切断したものとの間の距離に基づいて計算される。
実験を通して分かったことは、マスク推論ネットワークの最後の層のロジスティックシグモイド活性化を、L距離を用いて切断位相敏感近似を測定する目的関数とともに用いることが、マスク推論(MI)ネットワークの中で最良の結果をもたらしたということである。
Figure 0006873333
ここで、Pは、{1,...,C}に関する順列の集合であり、|X|及びθは、混合体の振幅及び位相であり、
Figure 0006873333
は、第cの推定されたマスクであり、|S|及びθは、第cの基準音声源の振幅及び位相であり、
Figure 0006873333
である。
幾つかの実施形態は、ディープクラスタリングをマスク推論と組み合わせたキメラネットワークをマルチタスク学習形式において用い、ディープクラスタリング損失の正規化特性及びマスク推論ネットワークの単純さを利用する。これらの実施形態は、全結合層を介してBLSTM隠れ層の出力から直接マスクを予測するアーキテクチャを用いる。最小化されている話者分離損失Lssは、以下の式のように、ディープクラスタリング損失及びMI損失の加重和である。
Figure 0006873333
ここで、LDCは、上述したLDC,classic損失及びLDC,W損失等の埋め込みに関係するディープクラスタリング損失であり、LMIは、上述した
Figure 0006873333
損失等のマスクに関係するマスク推論損失であり、αDCは、0≦αDC≦1の重みである。ディープクラスタリング損失LDCは、埋め込みに関係する埋め込み損失Lembの一例である。マスク推論損失LMIは、分離エンコーディングに関係する分離エンコーディング損失LSEの一例であり、マスク推論ネットワークの場合には、分離エンコーディングは、対象話者の推定された振幅スペクトログラムとして定義することができる。話者分離損失Lssのより一般的な式は、したがって、以下の式となる。
Figure 0006873333
ここで、αembは、0≦αemb≦1の重みである。例えば、他の埋め込み損失及び分離エンコーディング損失を同様に用いて、例えばクラスタリングステップを介してマスクを取得し、これらのマスクに基づくマスク推論損失として分離エンコーディング損失を計算することによって、それらの他の埋め込み損失及び分離エンコーディング損失も同様に考慮することができる。
実行時において、幾つかの実施形態では、MI出力を用いて予測を行うことができ、その場合、ディープクラスタリングブランチに固有の計算を省略することができる。他の実施形態では、ディープクラスタリング埋め込みを、クラスタリングアルゴリズムを用いてマスクに変換することができ、その場合、マスク推論ブランチに固有の計算を省略することができる。
重みαDCを0に設定することによって、幾つかの実施形態は、マスク推論ネットワークを効果的にトレーニングする。重みαDCを1に設定することによって、幾つかの実施形態は、ディープクラスタリングネットワークを効果的にトレーニングする。
分離された信号が所望されている場合、対象話者の推定されたマスクを入力混合体の複素スペクトログラムと乗算してその対象話者の推定された複素スペクトログラムを取得し、逆短時間フーリエ変換をその推定された複素スペクトログラムに適用して時間領域波形信号を取得することによって、それらの分離された信号を再構成することができる。
(明確な分離を有する音声認識)
(音声認識−コネクショニスト時間分類(CTC))
本開示の幾つかの実施形態は、ハイブリッドCTC/注意アーキテクチャを用いて、各手法の長所をより良く利用し欠点を軽減する。
CTCは、入力系列をより短い長さの出力系列にマッピングする。ここで、本発明者のモデルへの入力は、長さTのフレーム活性化系列
Figure 0006873333
であり、出力は、異なる文字の集合Uからの長さLの文字系列C={c∈U|l=1,...,L}であると仮定する。CTCは、入力Xと出力Z={z∈U∪<blank>|t=1,...,T}との間の1対1対応を与える「空白(blank)」シンボルを導入する。条件付き独立の仮定を用いることによって、事後分布p(C|X)を以下のように因数分解することができる。
Figure 0006873333
以下の式を定義する。
Figure 0006873333
CTC目的関数は、言語モデルp(C)を含まないLctc=−logpctc(C|X)として定義することができる。
スタックされた双方向長短期メモリ(BLSTM)ネットワークは、全ての入力Xを条件とするフレームごとの事後分布p(z|X)を得るのに用いることができる。
Figure 0006873333
(音声認識−注意ベースエンコーダデコーダ)
注意ベース方法は、CTCのように条件付き独立の仮定を行うことなく連鎖律を用いて事後分布p(C|X)を直接推定する。
Figure 0006873333
att=−logpatt(C|X)を注意ベース目的関数として定義する。p(c|c,...,cl−1,X)は、以下の式によって得られる。
Figure 0006873333
入力
Figure 0006873333
は、エンコーダネットワークを用いてフレームごとの隠れベクトルhに変換される。例えば、BLSTMネットワークをエンコーダネットワークに用いることができ、この場合、
Figure 0006873333
である。上記式におけるAttention(・)は、畳み込み特徴を有するロケーションベース注意メカニズムに基づいている。デコーダネットワークは、以前の出力cl−1、隠れベクトルql−1、及び文字ごとの隠れベクトルrを条件とする別のリカレントネットワークである。以下の定義を用いることができる。
Figure 0006873333
(音声認識−マルチタスク学習)
注意ベースモデルは、全てのこれまでの予測を条件として予測を行い、したがって、言語モデルのような出力コンテキストを学習することができる。しかしながら、厳密な単調制約がない場合、これらの注意ベースデコーダモデルは、過度に柔軟なものとなる可能性があり、準最適なアライメントを学習する場合もあるし、望ましいアライメントへの収束がより低速になる場合もある。
ハイブリッドシステムでは、BLSTMエンコーダは、CTC及び注意デコーダネットワークの双方によって共有される。注意モデルと異なり、CTCの順方向逆方向アルゴリズムは、トレーニング中に音声とラベル系列との間の単調なアライメントを実施する。この手法は、システムを単調なアライメントに向けて誘導することを助ける。最小化されるマルチタスク目的関数は以下のものとなる。
Figure 0006873333
ただし、調整可能なパラメータλは、0≦λ≦1である。
(音声認識−復号)
注意ベース音声認識の推論ステップは、ビーム探索を有する出力ラベル同期復号によって実行される。しかしながら、入力音声に対してより良くアライメントされた仮説を見つけるためにCTC確率も考慮される。すなわち、デコーダは、音声入力Xが与えられると、最も可能性の高い文字系列
Figure 0006873333
を以下の式に従って見つける。
Figure 0006873333
ビーム探索プロセスでは、デコーダは、各部分的仮説のスコアを計算する。ビーム探索中、相対的に低いスコアを有する仮説を除外するために、各長さの部分的仮説の数は、ビーム幅と呼ばれる既定の数に制限され、これによって、探索効率は劇的に改善される。
(同時の音声分離及び音声認識)
分離ネットワーク及び認識ネットワークの構成要素を接続して共同システムにするために、キメラネットワークからのマスク出力を用いて、入力混合体の振幅スペクトログラムを各音声源のマスクと乗算することによって、各音声源が、推定された振幅スペクトログラムの形態で抽出される。各音声源の推定された振幅スペクトログラムは、その音声源の分離エンコーディングとして用いられる。音響エンコーダネットワークは、分離エンコーディング、すなわち推定された振幅スペクトログラムから、対数melフィルターバンク特徴量を計算し、上記ハイブリッドCTC/注意アーキテクチャのエンコーダネットワークを用いて各音声源の認識エンコーディングを出力する。
トレーニング中に音声源トランスクリプト順列を選ぶために、2つの当然の選択肢は、分離された信号の信号レベル近似誤差を最小にする順列πsig又はASR損失を最小にする順列πasrのいずれかを用いることである。
Figure 0006873333
順列πsigは、利用可能なデータが、分離された信号のグラウンドトゥルースを含むとき、例えば、データセットにおける混合体が、単一話者音声を人工的に互いに混合することによって得られていたときに用いることができる。他方、順列πasrは、分離された信号のグラウンドトゥルースが利用可能であることに依存せず、したがって、トランスクリプションレベルラベルのみが利用可能である場合に、より大きく音響的により現実的なデータに対するトレーニングと可能にするという利点を有する。
同時分離認識ネットワークをトレーニングする複数の方法がある。例えば、幾つかの実施形態では、まず、分離ネットワークが、分離された信号のグラウンドトゥルースが利用可能であるデータに対して単独でトレーニングされ、認識ネットワークが、基準ラベルを有するクリーンな単一話者音声に対して単独でトレーニングされ、その後、これらの2つの事前にトレーニングされたネットワークの組み合わせが、認識損失の単独からなる損失関数、又は、認識損失及び分離損失の加重結合からなる損失関数のいずれかに基づく更なるトレーニングによって微調整される。この組み合わせにおける重みは、実験を通じて、ヘルドアウト検証セットに対する実行に基づいて求めることができる。
(暗黙の分離を有する複数話者音声認識)
他の実施形態では、明確な分離が行われず、エンドツーエンドASRシステムは、同時に発話する複数の話者の混合体内の複数の対象話者の音声を直接認識するように設計される。
本開示の幾つかの実施形態は、エンドツーエンド方法で音声源分離機能及び音声認識機能を一体化することによって単一の音声系列から複数のラベル系列を直接復号する新たな系列対系列(sequence-to-sequence:シーケンスツーシーケンス)フレームワークを含む。本開示の幾つかの態様は、同様の仮説の生成を回避するために隠れベクトルの分離(disjointness)を促進する新たな目的関数を含むことができる。本開示の態様は、明確な音声分離ステップを行うことなくディープクラスタリング及びエンドツーエンド音声認識を組み合わせる2ステップ手順を含み、これは、実験中に成功したことが分かった。
実験中、同時CTC/注意ベースエンコーダデコーダネットワークを利用することによって低計算コストを有する順列を適用するトレーニング手順が得られた。実験結果は、モデルが、表音アライメント情報又は対応する非混合音声を含む明確な中間表現を必要とすることなく、入力音声混合体を複数のラベル系列に直接変換することができることを示している。
仮説及び基準の適切な順列を選択することによって、バックプロパゲーションの出力及びラベルの通常の1対1マッピングを1対多に拡張し、したがって、ネットワークが単一チャネル音声混合体から複数の独立した仮説を生成することを可能にする順列フリートレーニング方式が実験中に得られた。例えば、音声混合体が、S人の話者によって同時に発語された音声を含むとき、ネットワークは、D次元入力特徴ベクトルのTフレーム系列からのN個のラベルを有するS個のラベル系列
Figure 0006873333
を生成し、
Figure 0006873333
であるので、
Figure 0006873333
となる。ここで、変換gは、通常は幾つかの構成要素を互いに共有するニューラルネットワークとして実施される。トレーニング段階において、N’個の基準ラベルのS個の系列
Figure 0006873333
の全ての可能な順列が考慮され(仮説に関する順列を考慮することが等価である)、最小損失をもたらす順列がバックプロパゲーション用に採用される。{1,...,S}に関する順列の集合をPによって表すことにする。最終損失Lは以下の式として定義される。
Figure 0006873333
ここで、π(s)は順列πの第sの要素である。例えば、2人の話者の場合、Pは2つの順列(1,2)及び(2,1)を含み、損失は以下の式として定義される。
Figure 0006873333
本開示の実施形態によれば、注意ベースエンコーダデコーダネットワークは、入力特徴ベクトル系列O及び過去のラベル履歴からの中間表現を必要とすることなく対象ラベル系列Y=(y,...,y)を予測する。推論時には、これまで放出されたラベルが用いられる一方、トレーニング時には、それらは、教師強制形式で基準ラベル系列R=(r,...,r)と交換される。第nのラベルyの確率は、過去の履歴y1:n−1を条件とすることによって計算することができる。
Figure 0006873333
モデルは、エンコーダネットワーク及びデコーダネットワークの2つの主要なサブモジュールから構成することができる。エンコーダネットワークは、入力特徴ベクトル系列を高レベル表現
Figure 0006873333
に変換する。デコーダネットワークは、ラベル履歴yと、注意重みaを用いて表現HのC次元系列を加重し加算する注意メカニズムを用いて計算されたコンテキストベクトルcとに基づくラベルを放出する。デコーダの隠れ状態eが、以前の状態、以前のコンテキストベクトル、及び以前の放出ラベルに基づいて更新される。このメカニズムは、以下のように要約される。
Figure 0006873333
デコーダネットワークは、コンテキストベクトルc及びラベル履歴y1:n−1を用いて第nのラベルyを順次生成する。
Figure 0006873333
コンテキストベクトルは、表現
Figure 0006873333
のC次元系列を、注意重みan,lを用いて加重して加算するロケーションベース注意メカニズムにおいて計算される。
Figure 0006873333
ロケーションベース注意メカニズムは、an,lを以下のように定義する。
Figure 0006873333
ここで、w、V、V、V、b、Fは調整可能なパラメータであり、αは逆温度と呼ばれる定数値であり、*は畳み込み演算である。fの導入によって、注意メカニズムは以前のアライメント情報を考慮する。幾つかの実験では、例えば、幅200の10個の畳み込みフィルターを用いることができ、αを2に設定することができる。
隠れ状態eは、更新LSTM関数によって再帰的に更新される。
Figure 0006873333
ここで、Emb(・)は埋め込み関数である。
エンコーダネットワーク及びデコーダネットワークは、バックプロパゲーションを用いて条件付き確率を最大にするようにトレーニングすることができる。
Figure 0006873333
ここで、Rはグラウンドトゥルース基準ラベル系列であり、Lossattは交差エントロピー損失関数である。
同時CTC/注意手法に関して、幾つかの実施形態は、コネクショニスト時間分類(CTC)目的関数を補助タスクとして用いてネットワークをトレーニングする。注意モデルと異なり、CTCの順方向逆方向アルゴリズムは、トレーニング及び復号中に入力音声と出力ラベル系列との間に単調なアライメントを実施する。CTC損失は、以下のようにエンコーダネットワークの出力から計算することができる。
Figure 0006873333
CTC損失及び注意ベースエンコーダデコーダ損失を、以下のように内挿重みλ∈[0,1]と組み合わせることができる。
Figure 0006873333
CTC及びエンコーダデコーダネットワークの双方は、推論ステップにおいても用いることができる。最終仮説は、以下のように加重条件付き確率を最大にする系列である。
Figure 0006873333
ここで、γ∈[0,1]は内挿重みである。
本開示の幾つかの実施形態は、複数話者エンドツーエンド同時CTC/注意ベースネットワークをトレーニングする。エンコーダネットワークは、音声源独立(共有)エンコーダネットワーク及び音声源依存(固有)エンコーダネットワークを通過することによって入力系列Oを一組の高レベル特徴系列に変換する。YctcとRとの間のCTC損失を最小にするラベル順列が選択され、デコーダネットワークは、教師強制のための並べ替えられた基準ラベルを用いて出力ラベル系列を生成する。
ネットワーク出力を複数の仮説にするために、実験中に検討されたことは、共有ニューラルネットワークモジュール及び非共有(又は固有)ニューラルネットワークモジュールの双方を組み合わせたスタックアーキテクチャであった。この特定のアーキテクチャは、エンコーダネットワークを3つの段階に分割する。すなわち、(第1の段階)混合体エンコーダとも呼ばれる第1の段階は、入力系列を処理し、混合体エンコーディングとも呼ばれる中間特徴系列Hを出力する;(第2の段階)その系列、すなわち混合体エンコーディングが、次に、話者区別エンコーダとも呼ばれる、パラメータを共有しないS個の独立エンコーダサブネットワークによって処理され、話者区別エンコーディングとも呼ばれるS個の特徴系列Hを与える;(第3の段階)最後の段階では、各特徴系列Hが、認識エンコーダとも呼ばれる同じネットワークによって独立に処理され、認識エンコーディングとも呼ばれるS個の最終の高レベル表現Gを与える。
出力インデックス(対象話者のうちの1人による音声のトランスクリプションに対応する)をu∈{1...,S}によって表し、基準インデックスをv∈{1...,S}によって表すことにする。混合体エンコーダをEncoderMixによって表し、第uの話者区別エンコーダをEncoder SDによって表し、認識エンコーダをEncoderRecによって表すと、入力混合体に対応する入力系列Oは、以下のようにエンコーダネットワークによって処理することができる。
Figure 0006873333
そのようなアーキテクチャを設計する数ある動機の中で特に少なくとも1つの動機は、分離及び認識が個別に明確に行われるアーキテクチャとの類似性に従って、次のように説明することができる。すなわち、第1の段階、すなわち混合体エンコーダは、混合体を、複数の音声源を区別するのに用いることができるエンコーディングに符号化する;音声源に依存する第2の段階、すなわち一組の話者区別エンコーダは、第1の段階の出力を用いて、混合体から各話者の音声内容を峻別し、各話者の音声内容を認識に備えて準備する;最終段階は、デコーダによる最終的な復号のために単一話者音声を符号化する音響モデルに従う。
デコーダネットワークは、エンコーダネットワークのS個の出力から各話者の条件付き確率を計算する。一般に、デコーダネットワークは、教師強制形式でトレーニング中に基準ラベルRを履歴として用いて注意重みを生成する。しかしながら、上記順列フリートレーニング方式では、特定の出力に起因する基準ラベルは、損失関数が計算されるまで決定されず、注意デコーダは、全ての基準ラベルについて実行される。したがって、エンコーダネットワークの各出力Gのデコーダ出力Yu,vの条件付き確率は、その出力の基準ラベルがRである仮定の下では、以下のように考えられる。
Figure 0006873333
次に、以下のように、基準ラベルの全ての順列を考慮することによって最終損失が計算される。
Figure 0006873333
エンコーダネットワークの各出力Gの全ての可能な基準ラベルRを考慮するときに伴うコストと比較して計算コストを削減するために、CTC損失単独の最小化に基づいて基準ラベルの順列を固定することができ、次に、注意メカニズムの同じ順列も同様に用いることができる。これは、同時CTC/注意ベースエンドツーエンド音声認識を用いることの数ある利点の中で特に少なくとも1つの利点とすることができる。順列がCTCの出力によって決定される同期出力を仮定することによって、順列はCTC損失についてのみ実行される。
Figure 0006873333
次に、CTC損失を最小にする順列
Figure 0006873333
によって決定されるラベルとともに教師強制を用いて、同じ隠れ表現Gに対して注意ベース復号を実行することができる。
Figure 0006873333
全ての可能な基準が考慮される場合とは対照的に、注意ベース復号は、その場合、エンコーダネットワークの各出力Gについて1回しか実行されない。最終の損失は、内挿λを用いた2つの目的関数の和として定義することができる。
Figure 0006873333
推論時には、CTC及び注意ベース復号の双方が同じエンコーダ出力Gに対して実行され、したがって、同じ話者に関係するべきであるので、それらのスコアは、以下のように組み込むことができる。
Figure 0006873333
ここで、pctc(Y|G)及びpatt(Y|G)は、同じエンコーダ出力Gを用いて取得される。
エンコーダネットワークによって生成される複数の隠れベクトルを独立に復号することによって、単一のデコーダネットワークを用いて複数のラベル系列を出力することができる。この単一のデコーダネットワークが複数の異なるラベル系列を生成するために、その入力のそれぞれ、すなわち、認識エンコーディングとも呼ばれる、エンコーダネットワークによって出力される隠れベクトル系列のそれぞれは、他のものと十分に異なるべきである。隠れベクトル間のこの相違を促進するために、負対称的カルバック・ライブラー(negative symmetric Kullback-Leibler(KL))ダイバージェンスに基づく新たな項を目的関数に導入することができる。2人話者混合体の特定の場合には、以下の追加の損失関数が考慮される。
Figure 0006873333
ここで、ηは小さな定数値であり、
Figure 0006873333
は、確率分布に従う物理量を取得するために追加のフレームごとのsoftmax演算を適用することによって、エンコーダネットワークの出力における隠れベクトル系列Gから取得される。
特にエンコーダネットワークについて、様々なネットワークアーキテクチャを考慮することができる。幾つかの実施形態では、混合体エンコーダとしてVGGネットワークを用い、各話者区別エンコーダに1つ以上の層を有するBLSTMを用い、認識エンコーダに1つ以上の層を有するBLSTMを用いることができる。他の幾つかの実施形態では、混合体エンコーダとしてVGGネットワークの1つ以上の層を用い、各話者区別エンコーダにVGGネットワークの1つ以上の層を用い、認識エンコーダに1つ以上の層を有するBLSTMを用いることができる。更に他の幾つかの実施形態では、混合体エンコーダとしてVGGネットワークの1つ以上の層を用い、各話者区別エンコーダに、VGGネットワークの1つ以上の層及びその後に続く1つ以上のBLSTM層を用い、認識エンコーダに、1つ以上の層を有するBLSTMを用いることができる。
実施形態のうちの幾つかを実施する本発明者らの実験では、ピッチ特徴量並びにそれらのデルタ特徴量及びデルタデルタ特徴量(83×3=249次元)を有する80次元対数Melフィルターバンク係数が入力特徴量として用いられる。入力特徴量をゼロ平均及び単位分散に正規化することができる。
例えば、幾つかの実験では、混合体エンコーダは6層VGGネットワーク(畳み込み、畳み込み、マックスプーリング、畳み込み、畳み込み、マックスプーリング)からなり、各話者区別エンコーダは2層BLSTMネットワークからなり、認識エンコーダは5層BLSTMネットワークからなっていた。VGGネットワークは、底部(すなわち、最初)から最上部(すなわち、最後)の順に以下の6層CNNアーキテクチャを有する。
畳み込み(入力数=3、出力数=64、フィルター=3×3)
畳み込み(入力数=64、出力数=64、フィルター=3×3)
マックスプーリング(パッチ=2×2、ストライド=2×2)
畳み込み(入力数=64、出力数=128、フィルター=3×3)
畳み込み(入力数=128、出力数=128、フィルター=3×3)
マックスプーリング(パッチ=2×2、ストライド=2×2)
最初の3つのチャネルは、統計特徴量、デルタ特徴量、及びデルタデルタ特徴量である。BLSTM層は、線形射影層Lin(・)を用いて、順方向LSTM
Figure 0006873333
及び逆方向LSTM
Figure 0006873333
の連結として定義することができる。
Figure 0006873333
各BLSTM層は、順方向LSTM及び逆方向LSTMに320個のセルを有することができ、線形射影層に320個のユニットを有することができる。デコーダネットワークは、320個のセルを有する1層LSTMを有することができる。
幾つかの実験では、混合体エンコーダは、上記6層VGGネットワークのうちの下部4層(畳み込み、畳み込み、マックスプーリング、畳み込み)からなり、各話者区別エンコーダは、上記6層VGGネットワークのうちの上部2層(畳み込み、マックスプーリング)からなり、認識エンコーダは、7層BLSTMネットワークからなっていた。
ネットワークは、−0.1〜0.1の範囲内の一様分布からランダムに初期化された。AdaDeltaアルゴリズムが最適化のための勾配クリッピングとともに用いられた。AdaDeltaハイパーパラメータは、ρ=0.95及びε=10−8として初期化された。εは、開発セットの損失が低下するときに半減するように減衰される。ネットワークは、最初に、1つの話者区別ネットワークのみで単一話者音声を用いてトレーニングされ、ネットワークパラメータは、単一の話者のラベル系列を出力するように最適化される。話者区別ネットワークのアーキテクチャは、次に、存在する対象話者と同数の話者区別ネットワークを取得するように再現される。新たに追加された話者区別ネットワークのパラメータは、各パラメータwのランダム摂動を有するパラメータw’=w×(1+Uniform(−0.1,0.1))をコピーすることによって、単一話者音声を用いてトレーニングされた初期ネットワークからの話者区別ネットワークのパラメータから取得される。モデルは、まず、負KLダイバージェンス損失を用いずにトレーニングすることができ、次に、重みηを有する負KLダイバージェンス損失を加えて再トレーニングすることができる。ここで、ηは、本発明者らの実験のうちの幾つかでは0.1に設定された。目的関数においてCTC及び注意損失をバランスさせるのに用いられる重みλは、例えば、実験によって、ヘルドアウトデータセットに対する実行に基づいて求めることができる。
推論段階では、事前にトレーニングされたRNNLM(リカレントニューラルネットワーク言語モデル)をCTC及びデコーダネットワークを並列に組み合わせることができる。それらのラベル確率をビーム探索中に対数領域において線形結合して、最も可能性が高い仮説を見つけることができる。
(多言語複数話者音声認識)
本開示の幾つかの実施形態は、エンドツーエンド多言語複数話者ASRシステムを含む。システムが出力する文字を選択する文字集合は、一組の言語IDとともに複数の言語の文字集合の和集合からなる最終増強文字集合Ufinalに設定することができる。暗黙の分離を有する複数話者ASRシステム等のシステムは、多言語複数話者混合体及びそれらの基準ラベルのデータセットに対してトレーニングすることができる。例えば、そのようなデータセットは、1つ以上の言語による1人以上の話者からの複数の単一話者発語を時間において連結して一組の多言語音声発語を取得するとともに、複数の多言語音声発語を更に混合して複数話者多言語音声を取得することによって取得することができる。複数話者多言語音声の対応する基準ラベルは、単一話者発語の基準ラベルから取得することができる。
図17A及び図17Bは、本開示の幾つかの実施形態による音声認識の他の音声認識システムのブロック図を示し、特に、図17Aは、音声認識ネットワーク、すなわち、エンコーダデコーダネットワークを含み、図17Bは、ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワークとともに音声分離ネットワークを含む。
図17Aを参照すると、システムは、記憶された命令を実行するように構成されたプロセッサ1702と、自動音声認識(ASR)ネットワーク、エンコーダデコーダネットワーク、ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1712に関する命令を記憶するメモリ1704とを備える。プロセッサ1702は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィック処理装置(GPU)、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ/記憶装置1705は、ランダムアクセスメモリ(RAM:random access memory)、リードオンリーメモリ(ROM:read only memory)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ1705は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせも含むことができる。プロセッサ1702は、バス1706を通じて1つ以上の入力インターフェース/デバイス及び出力インターフェース/デバイスに接続される。
メモリ1705は、マルチチャネル音声信号をテキストに変換するようにトレーニングされたニューラルネットワーク1708を記憶し、記憶された命令を実行するプロセッサ1702は、メモリ1705から取り出されたニューラルネットワーク1708を用いて音声認識を実行する。ニューラルネットワーク1708は、マルチチャネル有雑音音声信号をテキストに変換するようにトレーニングされる。ニューラルネットワーク1708は、音響信号の音声特徴からテキストを認識するようにトレーニングされるエンコーダデコーダネットワーク1712を含むことができる。
1つの実施形態では、ニューラルネットワーク1708は、エンコーダデコーダネットワークによって用いられる単一チャネル信号から音声特徴を抽出するように構成された特徴抽出器(図示せず)も含む。この特徴抽出器は微分可能関数であり、したがって、単一のエンドツーエンドニューラルネットワーク内に接続することができる。微分可能関数の例には、チャネル信号の振幅のMel関数及びチャネル信号の振幅のbark関数が含まれる。
1つの実施態様では、微分可能関数は、チャネル信号から音声特徴を抽出するようにトレーニングされた別のニューラルサブネットワークである。この実施態様では、特徴抽出サブネットワークは、エンコーダデコーダネットワークと共同トレーニングされる。
微分可能関数は、関数の出力が所与の入力の目標出力に接近するように勾配降下法を用いて最適化することができる。この関数は、全ての入力サンプルが、対応する目標サンプルに可能な限り正確にマッピングされるように、入力サンプル及び目標出力サンプルを対にしたものを用いて未知のマッピング関数に近似することもできる。
微分可能関数を合成したものも微分可能であるので、それぞれが微分可能関数として設計された連結された処理モジュールを組み合わせて、それらの処理モジュールを併せて最適化することができる。
ニューラルネットワークは微分可能関数である。本発明では、エンドツーエンドマルチチャネル音声認識の全ての構成要素を、複数のニューラルネットワークを含む微分可能関数を用いて実施することができる。
システム1700Aは、音声信号を受け取る入力インターフェース、すなわちマイクロフォン1720と、認識されたテキストをレンダリングする出力インターフェース、すなわちディスプレイインターフェース1722とを備えることができる。例えば、複数のマイクロフォン1720が、音をマルチチャネル音声信号1738に変換することができる。加えて又は代替的に、入力インターフェースは、システム1700Aをバス1706を通じてネットワーク1736に接続するように適合されたネットワークインターフェースコントローラ(NIC:network interface controller)1730を含むことができる。ネットワーク1736を通じて、音声信号1738をダウンロードし、更なる処理のために記憶することができる。
図17Aを引き続き参照すると、出力インターフェースの他の例は、撮像インターフェース1726、及びプリンタインターフェース1731を含むことができる。例えば、システム1700Aは、システム1700Aをディスプレイデバイス1724に接続するように適合されたディスプレイインターフェース1722にバス1706を通じてリンクすることができ、ディスプレイデバイス1724は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
加えて又は代替的に、システムは、このシステムを撮像デバイス1728に接続するように適合された撮像インターフェース1726に接続することができる。撮像デバイス1728は、カメラ、コンピュータ、スキャナ、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。加えて又は代替的に、システム1700Aは、システムを印刷デバイス1732に接続するように適合されたプリンタインターフェース1731に接続することができる。印刷デバイス1732は、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
図17Bを参照すると、図17Bは、本開示の幾つかの実施形態による音声分離ネットワークをハイブリッドCTC/注意ベースエンコーダデコーダASRネットワークとともに含む。ニューラルネットワーク1708は、音声分離ネットワーク1714及びハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715を含む。音声分離ネットワーク1714は、音声信号1738を処理して、対象話者ごとの分離された音声を、例えば音声特徴の形態で出力することができ、各分離された音声は、ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715によって更に処理され、各対象話者によるテキストが出力される。音声分離ネットワーク1714は、音声信号の混合体から音声を分離するようにトレーニングすることができる。ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715は、音声分離ネットワーク1714によって分離された音声からテキストを出力するようにトレーニングすることができる。音声分離ネットワーク1714及びハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715の双方は、同時に発話する複数の話者による音声の混合体からなる音声信号から対象話者ごとのテキストを出力するように共同トレーニングすることができる。ニューラルネットワーク1708は、図9Bにおいて説明したような明確な分離を有する複数話者音声認識ネットワーク911の一例とみなすことができる。すなわち、音声分離ネットワーク1714は、話者分離ネットワーク942の一例とみなすことができる一方、ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715のエンコーダ部分は、音響エンコーダネットワーク946の一例とみなすことができ、ハイブリッドCTC/注意ベースエンコーダデコーダASRネットワーク1715のデコーダ部分は、デコーダネットワーク950の一例とみなすことができる。
図18Aは、本開示の実施形態による方法及びシステムの幾つかの技法を実施するのに用いることができるコンピューティング装置1800を非限定例として示す概略図である。コンピューティング装置又はデバイス1800は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。
コンピューティングデバイス1800は、電力源1808、プロセッサ1809、メモリ1810、記憶デバイス1811を備えることができる。これらは全てバス1850に接続されている。さらに、高速インターフェース1812、低速インターフェース1813、高速拡張ポート1814及び低速拡張ポート1815をバス1850に接続することができる。また、低速接続ポート1816がバス1850と接続されている。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。またさらに、入力インターフェース1817を、バス1850を介して外部受信機1806及び出力インターフェース1818に接続することができる。受信機1819を、バス1850を介して外部送信機1807及び送信機1820に接続することができる。外部メモリ1804、外部センサ1803、機械1802及び環境1801もバス1850に接続することができる。さらに、1つ以上の外部入力/出力デバイス1805をバス1850に接続することができる。ネットワークインターフェースコントローラ(NIC)1821は、バス1850を通じてネットワーク1822に接続するように適合することができ、特にデータ又は他のデータは、コンピュータデバイス1800の外部のサードパーティディスプレイデバイス、サードパーティ画像デバイス、及び/又はサードパーティ印刷デバイス上にレンダリングすることができる。
メモリ1810は、コンピュータデバイス1800によって実行可能な命令、履歴データ、並びに本開示の方法及びシステムによって利用することができる任意のデータを記憶することができると考えられる。メモリ1810は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ1810は、単数若しくは複数の揮発性メモリユニット及び/又は単数若しくは複数の不揮発性メモリユニットとすることができる。メモリ1810は、磁気ディスク又は光ディスク等の別の形態のコンピュータ可読媒体とすることもできる。
図18Aを引き続き参照すると、記憶デバイス1811は、コンピュータデバイス1800によって用いられる補助データ及び/又はソフトウェアモジュールを記憶するように適合することができる。例えば、記憶デバイス1811は、本開示に関して上述したような履歴データ及び他の関連データを記憶することができる。加えて又は代替的に、記憶デバイス1811は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス1811は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。さらに、記憶デバイス1811は、ストレージエリアネットワーク又は他の構成におけるデバイスを含めて、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の同様の固体メモリデバイス、又はデバイスのアレイ等のコンピュータ可読媒体を含むことができる。命令は情報担体に記憶することができる。命令は、1つ以上の処理デバイス(例えば、プロセッサ1809)によって実行されると、上記で説明した方法等の1つ以上の方法を実行する。
システムは、任意選択で、このシステムをディスプレイデバイス1825及びキーボード1824に接続するように適合されたディスプレイインターフェース又はユーザインターフェース(HMI)1823にバス1850を通じてリンクすることができる。ディスプレイデバイス1825は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
図18Aを引き続き参照すると、コンピュータデバイス1800は、バス1850を通じてプリンタインターフェース(図示せず)に接続するとともに、印刷デバイス(図示せず)に接続するように適合されたユーザ入力インターフェース1817を備えることができる。印刷デバイスは、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
高速インターフェース1812は、コンピューティングデバイス1800の帯域幅消費型動作を管理する一方、低速インターフェース1813は、より低い帯域幅消費型動作を管理する。そのような機能の割り当ては一例にすぎない。幾つかの実施態様では、高速インターフェース1812は、メモリ1810、ユーザインターフェース(HMI)1823に結合することができ、(例えば、グラフィックスプロセッサ又はアクセラレーターを通じて)キーボード1824及びディスプレイ1825に結合することができ、高速拡張ポート1814に結合することができる。この高速拡張ポートは、バス1850を介して様々な拡張カード(図示せず)を受容することができる。この実施態様では、低速インターフェース1813は、バス1850を介して記憶デバイス1811及び低速拡張ポート1815に結合されている。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができる低速拡張ポート1815は、1つ以上の入力/出力デバイス1805、及び他のデバイス、キーボード1824、ポインティングデバイス(図示せず)、スキャナ(図示せず)に結合することもできるし、スイッチ又はルータ等のネットワーク接続デバイスに、例えば、ネットワークアダプターを通じて結合することもできる。
図18Aを引き続き参照すると、コンピューティングデバイス1800は、この図に示すように、複数の異なる形態で実施することができる。例えば、このコンピューティングデバイスは、標準的なサーバ1826として実施することもできるし、そのようなサーバが複数個ある一群のサーバとして実施することもできる。加えて、このコンピューティングデバイスは、ラップトップコンピュータ1827等のパーソナルコンピュータにおいて実施することができる。このコンピューティングデバイスは、ラックサーバシステム1828の一部として実施することもできる。或いは、コンピューティングデバイス1800からの構成要素は、図18Bのモバイルコンピューティングデバイス1899等のモバイルデバイス(図示せず)における他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、コンピューティングデバイス1800及びモバイルコンピューティングデバイス1899のうちの1つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイスから構成することができる。
図18Bは、本開示の実施形態による方法及びシステムの幾つかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。モバイルコンピューティングデバイス1899は、他の構成要素の中でも特に、プロセッサ1861、メモリ1862、入力/出力デバイス1863、通信インターフェース1864を接続するバス1895を備える。バス1895は、追加の記憶装置を提供するマイクロドライブ又は他のデバイス等の記憶デバイス1865にも接続することができる。
図18Bを参照すると、プロセッサ1861は、メモリ1862に記憶された命令を含む命令をモバイルコンピューティングデバイス1899内で実行することができる。プロセッサ1861は、個別の複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施することができる。プロセッサ1861は、例えば、モバイルコンピューティングデバイス1899によって実行されるユーザインターフェース、アプリケーションの制御、及びモバイルコンピューティングデバイス1899による無線通信等のモバイルコンピューティングデバイス1899の他の構成要素の協調を行うことができる。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。
プロセッサ1861は、ディスプレイ1868に結合された制御インターフェース1866及びディスプレイインターフェース1867を通じてユーザと通信することができる。ディスプレイ1868は、例えば、TFT(薄膜トランジスタ)液晶ディスプレイ若しくはOLED(有機発光ダイオード)ディスプレイ、又は他の適切なディスプレイ技術とすることができる。ディスプレイインターフェース1867は、ディスプレイ1868を駆動してグラフィカル情報及び他の情報をユーザに提示する適切な回路部を備えることができる。制御インターフェース1866は、ユーザからコマンドを受信し、それらのコマンドをプロセッサ1861にサブミットするために変換することができる。加えて、外部インターフェース1869は、モバイルコンピューティングデバイス1899と他のデバイスとの近領域通信を可能にするために、プロセッサ1861との通信を提供することができる。外部インターフェース1869は、幾つかの実施態様では、例えば、有線通信を提供することもできるし、他の実施態様では、無線通信を提供することもでき、複数のインターフェースも用いることができる。
図18Bを引き続き参照すると、メモリ1862は、モバイルコンピューティングデバイス1899内に情報を記憶する。メモリ1862は、単数若しくは複数のコンピュータ可読媒体、単数若しくは複数の揮発性メモリユニット、又は単数若しくは複数の不揮発性メモリユニットのうちの1つ以上として実施することができる。拡張メモリ1870も設けることができ、拡張インターフェース1869を通じてモバイルコンピューティングデバイスに接続することができる。この拡張インターフェースは、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェースを含むことができる。拡張メモリ1870は、モバイルコンピューティングデバイス1899の予備の記憶空間を提供することもできるし、モバイルコンピューティングデバイス1899のアプリケーション又は他の情報を記憶することもできる。具体的には、拡張メモリ1870は、上記で説明したプロセスを実行又は補足する命令を含むことができ、セキュアな情報も含むことができる。したがって、例えば、拡張メモリ1870は、モバイルコンピューティングデバイス1899のセキュリティモジュールとして提供することができ、モバイルコンピューティングデバイス1899のセキュアな使用を可能にする命令を用いてプログラミングすることができる。加えて、ハッキング不可能な方法でSIMMカード上に識別情報を配置するようなセキュアなアプリケーションを、追加の情報とともにSIMMカードを介して提供することができる。
メモリ1862は、後述するように、例えば、フラッシュメモリ及び/又はNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含むことができる。幾つかの実施態様では、命令は情報担体に記憶される。これらの命令は、1つ以上の処理デバイス(例えば、プロセッサ1861)によって実行されると、上記で説明した方法等の1つ以上の方法を実行する。命令は、1つ以上のコンピュータ可読媒体又は機械可読媒体(例えば、メモリ1862、拡張メモリ1870、又はプロセッサ1861上のメモリ)等の1つ以上の記憶デバイスによって記憶することもできる。幾つかの実施態様では、命令は、例えば、送受信機1871又は外部インターフェース1869を介して伝播信号で受信することができる。
図18Bのモバイルコンピューティング装置又はデバイス1899は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことを意図している。モバイルコンピューティングデバイス1899は、必要に応じてデジタル信号処理回路部を備えることができる通信インターフェース1864を通じて無線で通信することができる。通信インターフェース1864は、特に、GSM音声呼(モバイル通信用グローバルシステム)、SMS(ショートメッセージサービス)、EMS(エンハンストメッセージングサービス)、若しくはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多元接続)、TDMA(時分割多元接続)、PDC(パーソナルデジタルセルラー)、WCDMA(登録商標)(広帯域符号分割多元接続)、CDMA2000、又はGPRS(汎用パケット無線サービス)等の様々なモード又はプロトコルの下で通信を提供することができる。そのような通信は、例えば、無線周波数を用いる送受信機1871を通じて行うことができる。加えて、Bluetooth、WiFi、又は他のそのような送受信機(図示せず)等を用いて短距離通信を行うことができる。加えて、GPS(全地球測位システム)受信機モジュール1873が、モバイルコンピューティングデバイス1899上で動作するアプリケーションによって適宜用いることができる追加のナビゲーションデータ及びロケーション関連無線データをモバイルコンピューティングデバイス1899に提供することができる。
モバイルコンピューティングデバイス1899は、ユーザから発話情報を受信して使用可能なデジタル情報に変換することができる音響コーデック1872を用いて聴覚的に通信することもできる。音響コーデック1872は、例えば、モバイルコンピューティングデバイス1899のハンドセット内のスピーカー等を通じて、ユーザ向けの可聴音を同様に生成することができる。そのような音は、音声通話からの音を含むことができ、録音された音(例えば、音声メッセージ、音楽ファイル等)を含むことができ、モバイルコンピューティングデバイス1899上で動作するアプリケーションによって生成された音も含むことができる。
図18Bを引き続き参照すると、モバイルコンピューティングデバイス1899は、この図に示すように、複数の異なる形態で実施することができる。例えば、このモバイルコンピューティングデバイスは、携帯電話1874として実施することができる。また、このモバイルコンピューティングデバイスは、スマートフォン1875、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実施することもできる。
(特徴)
本開示の態様によれば、一組の認識エンコーディングは、対象話者ごとの認識エンコーディングを含むことができ、デコーダネットワークは、対象話者ごとの認識エンコーディングを用いて、その対象話者のテキストを出力することができる。さらに、一態様は、混合体エンコーダネットワーク、一組の話者区別エンコーダネットワーク、及び認識エンコーダネットワークを備えるエンコーダネットワークを含むことができ、話者区別エンコーダネットワークの数は対象話者の数以上であり、混合体エンコーダネットワークは、受信された音響信号の混合体エンコーディングを出力し、各話者区別エンコーダネットワークは、混合体エンコーディングからの話者区別エンコーディングを出力し、認識エンコーダネットワークは、各話者区別エンコーディングからの認識エンコーディングを出力する。記憶された音声認識ネットワークは、単一の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて、初期話者区別エンコーダネットワークとともに事前にトレーニングされる。さらに、一組の話者区別エンコーダネットワークにおける話者区別エンコーダネットワークのうちの幾つかは、初期話者区別エンコーダネットワークに基づいて初期化される。初期化はランダム摂動を含む。
本開示の別の態様は、エンコーダネットワークが、話者分離ネットワーク及び音響エンコーダネットワークを備えることを含むことができ、話者分離ネットワークは、一組の分離エンコーディングを出力するようになっており、分離エンコーディングの数は対象話者の数以上であり、音響エンコーダネットワークは、一組の分離エンコーディングを用いて一組の認識エンコーディングを出力する。一組の認識エンコーディングの各認識エンコーディングは、一組の分離エンコーディングにおける各分離エンコーディングに対応し、音響エンコーダネットワークは、各分離エンコーディングの認識エンコーディングを出力するようになっている。さらに、一組の分離エンコーディングは、対象話者ごとの単一の分離エンコーディングを含み、一組の認識エンコーディングは、対象話者ごとの単一の認識エンコーディングを含み、音響エンコーダネットワークは、対象話者ごとの単一の分離エンコーディングを用いて、その対象話者の単一の認識エンコーディングを出力するようになっている。さらにまた、一組の分離エンコーディング及び受信された音響信号は、対象話者ごとの分離された信号を出力するのに用いられる。少なくとも1つの話者分離ネットワークは、複数の話者からの音響信号及びそれらの対応する混合体を含むデータセットを用いて、分離エンコーディングを出力するようにトレーニングすることが可能である。さらに、音響エンコーダネットワーク及びデコーダネットワークは、少なくとも1人の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて、テキストを出力するようにトレーニングされる。さらにまた、少なくとも1つの話者分離ネットワーク、音響エンコーダネットワーク、及びデコーダネットワークは、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて共同トレーニングされる。記憶された音声認識ネットワークは、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いてトレーニングすることが可能であり、トレーニングは、復号コスト及び分離コストの加重結合を用いて目的関数を最小にすることを含むようになっている。
本開示の別の態様は、対象話者からの音声が、1つ以上の言語からの音声を含むことを含むことができる。少なくとも1人の対象話者のテキストは、その少なくとも1人の対象話者の音声の言語についての情報を含む。さら、一態様は、記憶された音声認識ネットワークが、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いてトレーニングされることを含むことができる。
本開示の別の態様は、話者区別エンコーダネットワークの数が対象話者の数以上であることを含むことができ、混合体エンコーダネットワークは、受信された音響信号の混合体エンコーディングを出力し、各話者区別エンコーダネットワークは、混合体エンコーディングからの話者区別エンコーディングを出力し、認識エンコーダネットワークは、各予備認識エンコーディングからの認識エンコーディングを出力するようになっている。さら、一態様は、記憶された音声認識ネットワークが、単一の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて、初期話者区別エンコーダネットワークとともに事前にトレーニングされることを含むことができ、一組の話者区別エンコーダネットワークにおける話者区別エンコーダネットワークのうちの幾つかは、初期話者区別エンコーダネットワークに基づいて初期化され、初期化はランダム摂動を含む。
(実施形態)
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、既知のプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、機械可読媒体に記憶することができる。プロセッサが、それらの必要なタスクを実行することができる。
さらに、本開示の実施形態及び本明細書において説明された機能動作は、本明細書に開示された構造及びそれらの構造的均等物を含むデジタル電子回路部、有形に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらのうちの1つ以上のものの組み合わせにおいて実施することができる。さらに、本開示の幾つかの実施形態は、データ処理装置によって実行されるか又はデータ処理装置の動作を制御する1つ以上のコンピュータプログラム、すなわち、有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実施することができる。またさらに、プログラム命令は、データ処理装置による実行のために、適した受信機装置への送信用の情報を符号化するように生成される人工的に生成された伝播信号、例えば、機械によって生成された電気信号、光信号、又は電磁信号において符号化することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶デバイス基板、ランダムアクセスメモリデバイス若しくはシリアルアクセスメモリデバイス、又はそれらのうちの1つ以上のものの組み合わせとすることができる。
本開示の実施形態によれば、用語「データ処理装置」は、データを処理する全ての種類の装置、デバイス、及び機械を包含することができ、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む。装置は、専用論理回路部、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)を備えることができる。装置は、ハードウェアに加えて、問題になっているコンピュータプログラムの実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの1つ以上の組み合わせを構成するコードも有することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、又はコードと呼称又は記載される場合もある)は、コンパイラー型言語若しくはインタープリター型言語、又は宣言型言語若しくは手続型言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアローンプログラムとしての形態、又は、モジュール、コンポーネント、サブルーチン、若しくはコンピューティング環境における使用に適した他のユニットとしての形態を含む任意の形態で配備することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応する場合があるが、必ずしも対応する必要はない。プログラムは、他のプログラム又はデータ、例えば、マークアップ言語ドキュメントに記憶された1つ以上のスクリプトを保持するファイルの一部分に記憶することもできるし、問題となっているプログラムに専用化された単一のファイルに記憶することもできるし、複数のコーディネートファイル、例えば、1つ以上のモジュール、サブプログラム、又はコード部分を記憶するファイルに記憶することもできる。コンピュータプログラムは、1つのコンピュータ上で実行されるように配備することもできるし、1つのサイトに配置された複数のコンピュータ上で、又は、複数のサイトにわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配備することもできる。コンピュータプログラムの実行に適したコンピュータは、例として、汎用マイクロプロセッサ若しくは専用マイクロプロセッサ若しくはそれらの双方、又は他の任意の種類の中央処理装置を含む。一般に、中央処理装置は、リードオンリーメモリ若しくはランダムアクセスメモリ又はそれらの双方から命令及びデータを受け取る。コンピュータの必須素子は、命令を遂行又は実行する中央処理装置と、命令及びデータを記憶する1つ以上のメモリデバイスとである。一般に、コンピュータは、データを含むか、又は、データを記憶する1つ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、若しくは光ディスクからのデータの受信若しくはそれらへのデータの転送若しくはそれらの双方を行うように作動結合される。ただし、コンピュータは、必ずしもそのようなデバイスを有するとは限らない。その上、コンピュータは、別のデバイスに組み込むことができ、例えば、数例を挙げると、モバイル電話機、パーソナルデジタルアシスタント(PDA)、モバイルアーディオプレーヤー若しくはモバイルビデオプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信機、又はポータブル記憶デバイス、例えば、ユニバーサルシリアルバス(USB)フラッシュドライブに組み込むことができる。
ユーザとのインタラクションを提供するために、本明細書において説明した主題の実施形態は、ユーザに情報を表示するディスプレイデバイス、例えば、CRT(陰極線管)モニタ又はLCD(液晶ディスプレイ)モニタと、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えば、マウス又はトラックボールとを有するコンピュータ上で実施することができる。他の種類のデバイスを用いて、ユーザとのインタラクションを同様に提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形態で受信することができる。加えて、コンピュータは、ユーザによって用いられるデバイスに文書を送信すること及びこのデバイスから文書を受信することによって、例えば、ウェブブラウザーから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザーにウェブページを送信することによって、ユーザとインタラクトすることができる。
本明細書において説明した主題の実施形態は、バックエンド構成要素を、例えばデータサーバとして備えるコンピューティングシステム、又はミドルウェア構成要素、例えば、アプリケーションサーバを備えるコンピューティングシステム、又はフロントエンド構成要素、例えば、ユーザが本明細書において説明した主題の実施態様とインタラクトすることをできるようにするグラフィカルユーザインターフェース又はウェブブラウザーを有するクライアントコンピュータを備えるコンピューティングシステム、又は1つ以上のそのようなバックエンド構成要素、ミドルウェア構成要素、若しくはフロントエンド構成要素の任意の組み合わせを備えるコンピューティングシステムにおいて実施することができる。システムのこれらの構成要素は、任意の形態又は媒体のデジタルデータ通信、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)及びワイドエリアネットワーク(「WAN」)、例えば、インターネットがある。
コンピューティングシステムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に互いにリモートであり、通常、通信ネットワークを通じてインタラクトする。クライアント及びサーバの関係は、それぞれのコンピュータ上で動作するとともに互いにクライアントサーバ関係を有するコンピュータプログラムによって生じる。

Claims (19)

  1. ハードウェアプロセッサと、
    前記ハードウェアプロセッサによって実行されると、記憶された音声認識ネットワークを実施するコンピュータ実行可能な命令を記憶するとともに、データを記憶するコンピュータ記憶メモリと、
    音響信号を受信する入力インターフェースであって、前記受信された音響信号は、複数の話者による音声信号の混合体を含み、前記複数の話者は対象話者を含む、入力インターフェースと、
    前記受信された音響信号を対象話者ごとのテキストに変換するようにトレーニングされる前記記憶された音声認識ネットワークのエンコーダネットワーク及びデコーダネットワークであって、前記エンコーダネットワークは、対話者ごとの認識エンコーディングを含む一組の認識エンコーディングを出力し、前記デコーダネットワークは、前記一組の認識エンコーディングを用いて対象話者ごとの前記テキストを出力するようになっている、エンコーダネットワーク及びデコーダネットワークと、
    対象話者ごとの前記テキストを送信する出力インターフェースと、
    を備える、複数の話者による重複音声を含む音声を認識する音声認識システム。
  2. 前記デコーダネットワークは、対象話者ごとの前記認識エンコーディングを用いて、その対象話者の前記テキストを出力する、請求項1に記載の音声認識システム。
  3. 前記エンコーダネットワークは、混合体エンコーダネットワーク、一組の話者区別エンコーダネットワーク、及び認識エンコーダネットワークを備える、請求項1に記載の音声認識システム。
  4. 話者区別エンコーダネットワークの数は対象話者の数以上であり、前記混合体エンコーダネットワークは、前記受信された音響信号の混合体エンコーディングを出力し、各話者区別エンコーダネットワークは、前記混合体エンコーディングからの話者区別エンコーディングを出力し、前記認識エンコーダネットワークは、各話者区別エンコーディングからの認識エンコーディングを出力する、請求項に記載の音声認識システム。
  5. 前記記憶された音声認識ネットワークは、単一の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて、初期話者区別エンコーダネットワークとともに事前にトレーニングされる、請求項に記載の音声認識システム。
  6. 前記一組の話者区別エンコーダネットワークにおける前記話者区別エンコーダネットワークのうちの幾つかは、前記初期話者区別エンコーダネットワークに基づいて初期化される、請求項に記載の音声認識システム。
  7. 前記初期化はランダム摂動を含む、請求項に記載の音声認識システム。
  8. 前記エンコーダネットワークは、話者分離ネットワーク及び音響エンコーダネットワークを備え、前記話者分離ネットワークは、一組の分離エンコーディングを出力するようになっており、分離エンコーディングの数は対象話者の数以上であり、前記音響エンコーダネットワークは、前記一組の分離エンコーディングを用いて一組の認識エンコーディングを出力する、請求項1に記載の音声認識システム。
  9. 前記一組の認識エンコーディングの各認識エンコーディングは、前記一組の分離エンコーディングにおける各分離エンコーディングに対応し、前記音響エンコーダネットワークは、各分離エンコーディングの認識エンコーディングを出力するようになっている、請求項に記載の音声認識システム。
  10. 前記一組の分離エンコーディングは、対象話者ごとの単一の分離エンコーディングを含み、前記一組の認識エンコーディングは、対象話者ごとの単一の認識エンコーディングを含み、前記音響エンコーダネットワークは、対象話者ごとの前記単一の分離エンコーディングを用いて、その対象話者の前記単一の認識エンコーディングを出力するようになっている、請求項に記載の音声認識システム。
  11. 前記一組の分離エンコーディング及び前記受信された音響信号は、対象話者ごとの分離された信号を出力するのに用いられる、請求項に記載の音声認識システム。
  12. 少なくとも1つの前記話者分離ネットワークは、複数の話者からの音響信号及びそれらの対応する混合体を含むデータセットを用いて、分離エンコーディングを出力するようにトレーニングされる、請求項に記載の音声認識システム。
  13. 前記音響エンコーダネットワーク及び前記デコーダネットワークは、少なくとも1人の話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて、テキストを出力するようにトレーニングされる、請求項に記載の音声認識システム。
  14. 少なくとも1つの前記話者分離ネットワーク、前記音響エンコーダネットワーク、及び前記デコーダネットワークは、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて共同トレーニングされる、請求項に記載の音声認識システム。
  15. 前記記憶された音声認識ネットワークは、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いてトレーニングされ、前記トレーニングは、復号コスト及び分離コストの加重結合を用いて目的関数を最小にすることを含むようになっている、請求項に記載の音声認識システム。
  16. 前記対象話者からの音声は、1つ以上の言語からの音声を含む、請求項1に記載の音声認識システム。
  17. 少なくとも1人の対象話者の前記テキストは、その少なくとも1人の対象話者の前記音声の前記言語についての情報を含む、請求項16に記載の音声認識システム。
  18. 前記記憶された音声認識ネットワークは、前記エンコーダネットワーク及び前記デコーダネットワークが、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いて共同トレーニングされるように、複数の重なり合う話者による音声を有する音響信号及び対応するテキストラベルを含むデータセットを用いてトレーニングされる、請求項1に記載の音声認識システム。
  19. 対象話者を含む複数の話者による音声信号の混合体を含む音響信号を入力インターフェースを介して受信することと、
    ハードウェアプロセッサを用いて、前記受信された音響信号を、コンピュータ可読メモリに記憶された事前にトレーニングされた音声認識ネットワーク内に入力することであって、前記事前にトレーニングされた音声認識ネットワークは、前記事前にトレーニングされた音声認識ネットワークのエンコーダネットワークを用いて対話者ごとの認識エンコーディングを含む一組の認識エンコーディングを出力することによって、前記事前にトレーニングされた音声認識ネットワークのエンコーダネットワーク及び前記事前にトレーニングされた音声認識ネットワークのデコーダネットワークを用いて前記受信された音響信号を対象話者ごとのテキストに変換するように構成され、前記デコーダネットワークは、前記一組の認識エンコーディングを用いて、対象話者ごとの前記テキストを出力するようになっていることと、
    出力インターフェースを用いて対象話者ごとの前記テキストを送信することと、
    を含む、音声認識システムを用いて複数の話者による重複音声を有する音響信号内の個々の話者信号を認識する方法。
JP2020537034A 2018-04-13 2018-10-24 音声認識システム及び音声認識システムを用いる方法 Active JP6873333B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/952,330 US10811000B2 (en) 2018-04-13 2018-04-13 Methods and systems for recognizing simultaneous speech by multiple speakers
US15/952,330 2018-04-13
PCT/JP2018/040422 WO2019198265A1 (en) 2018-04-13 2018-10-24 Speech recognition system and method using speech recognition system

Publications (2)

Publication Number Publication Date
JP2021507312A JP2021507312A (ja) 2021-02-22
JP6873333B2 true JP6873333B2 (ja) 2021-05-19

Family

ID=64477238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537034A Active JP6873333B2 (ja) 2018-04-13 2018-10-24 音声認識システム及び音声認識システムを用いる方法

Country Status (5)

Country Link
US (1) US10811000B2 (ja)
EP (1) EP3577650B1 (ja)
JP (1) JP6873333B2 (ja)
CN (1) CN111989742B (ja)
WO (1) WO2019198265A1 (ja)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
WO2020068176A2 (en) * 2018-05-18 2020-04-02 Battelle Energy Alliance, Llc Spectrum monitoring and analysis, and related methods, systems, and devices
US11190944B2 (en) 2017-05-05 2021-11-30 Ball Aerospace & Technologies Corp. Spectral sensing and allocation using deep machine learning
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
JP6911785B2 (ja) * 2018-02-02 2021-07-28 日本電信電話株式会社 判定装置、判定方法及び判定プログラム
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
WO2019214798A1 (en) * 2018-05-07 2019-11-14 Bayerische Motoren Werke Aktiengesellschaft Dialog system capable of semantic-understanding mapping between user intents and machine services
US11138471B2 (en) * 2018-05-18 2021-10-05 Google Llc Augmentation of audiographic images for improved machine learning
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10832678B2 (en) * 2018-06-08 2020-11-10 International Business Machines Corporation Filtering audio-based interference from voice commands using interference information
US11210475B2 (en) * 2018-07-23 2021-12-28 Google Llc Enhanced attention mechanisms
KR102025566B1 (ko) * 2018-07-27 2019-09-26 엘지전자 주식회사 인공지능을 이용한 홈어플라이언스 및 음성 인식 서버 시스템과, 이의 제어 방법
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US10885277B2 (en) 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
US11152013B2 (en) * 2018-08-02 2021-10-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a triplet network with attention for speaker diartzation
CN110544488B (zh) * 2018-08-09 2022-01-28 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
CN110867191B (zh) * 2018-08-28 2024-06-25 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
US11004443B2 (en) * 2018-08-30 2021-05-11 Tencent America LLC Multistage curriculum training framework for acoustic-to-word speech recognition
US11049501B2 (en) * 2018-09-25 2021-06-29 International Business Machines Corporation Speech-to-text transcription with multiple languages
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11182672B1 (en) 2018-10-09 2021-11-23 Ball Aerospace & Technologies Corp. Optimized focal-plane electronics using vector-enhanced deep learning
US11257481B2 (en) 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
CN110288978B (zh) * 2018-10-25 2022-08-30 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10879946B1 (en) * 2018-10-30 2020-12-29 Ball Aerospace & Technologies Corp. Weak signal processing systems and methods
US10930300B2 (en) * 2018-11-02 2021-02-23 Veritext, Llc Automated transcript generation from multi-channel audio
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11851217B1 (en) 2019-01-23 2023-12-26 Ball Aerospace & Technologies Corp. Star tracker using vector-based deep learning for enhanced performance
US11526680B2 (en) * 2019-02-14 2022-12-13 Google Llc Pre-trained projection networks for transferable natural language representations
US11412124B1 (en) 2019-03-01 2022-08-09 Ball Aerospace & Technologies Corp. Microsequencer for reconfigurable focal plane control
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10964309B2 (en) * 2019-04-16 2021-03-30 Microsoft Technology Licensing, Llc Code-switching speech recognition with end-to-end connectionist temporal classification model
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11488024B1 (en) 2019-05-29 2022-11-01 Ball Aerospace & Technologies Corp. Methods and systems for implementing deep reinforcement module networks for autonomous systems control
US11303348B1 (en) 2019-05-29 2022-04-12 Ball Aerospace & Technologies Corp. Systems and methods for enhancing communication network performance using vector based deep learning
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11704600B2 (en) * 2019-06-27 2023-07-18 Microsoft Technology Licensing, Llc Multistage feed ranking system with methodology providing scalable multi-objective model approximation
US11908457B2 (en) * 2019-07-03 2024-02-20 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks
CN110795703B (zh) * 2019-09-20 2024-04-16 华为技术有限公司 数据防窃取方法和相关产品
CN110648680B (zh) * 2019-09-23 2024-05-14 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
CN111126563B (zh) * 2019-11-25 2023-09-29 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及系统
CN111027562B (zh) * 2019-12-06 2023-07-18 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN110992978B (zh) * 2019-12-18 2022-03-29 思必驰科技股份有限公司 音视频分离模型的训练方法及系统
CN111179961B (zh) * 2020-01-02 2022-10-25 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111179959B (zh) * 2020-01-06 2022-08-05 北京大学 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN111243609B (zh) * 2020-01-10 2023-07-14 平安科技(深圳)有限公司 有效语音智能检测方法、装置及计算机可读存储介质
JP7264282B2 (ja) * 2020-01-16 2023-04-25 日本電信電話株式会社 音声強調装置、学習装置、それらの方法、およびプログラム
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111261186B (zh) * 2020-01-16 2023-05-30 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN111243579B (zh) * 2020-01-19 2022-10-14 清华大学 一种时域单通道多说话人语音识别方法与系统
JP2023512178A (ja) * 2020-02-03 2023-03-24 ピンドロップ セキュリティー、インコーポレイテッド 音声バイオメトリクスのクロスチャネル登録と認証
US11475909B2 (en) * 2020-02-07 2022-10-18 Google Llc Separating speech by source in audio recordings by predicting isolated audio signals conditioned on speaker representations
CN111317653B (zh) * 2020-02-24 2023-10-13 江苏大学 一种交互式盲人智能辅助装置及方法
CN113314096A (zh) * 2020-02-25 2021-08-27 阿里巴巴集团控股有限公司 语音合成方法、装置、设备和存储介质
CN111540364A (zh) * 2020-04-21 2020-08-14 同盾控股有限公司 音频识别方法、装置、电子设备及计算机可读介质
US11521595B2 (en) * 2020-05-01 2022-12-06 Google Llc End-to-end multi-talker overlapping speech recognition
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111710343B (zh) * 2020-06-03 2022-09-30 中国科学技术大学 一种在双变换域上的单通道语音分离方法
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN113808583B (zh) * 2020-06-16 2024-05-28 浙江未来精灵人工智能科技有限公司 一种语音识别方法、装置及系统
CN111863009B (zh) * 2020-07-15 2022-07-26 思必驰科技股份有限公司 上下文信息预测模型的训练方法及系统
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、系统、电子设备和存储介质
CN112071329B (zh) * 2020-09-16 2022-09-16 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
US12020708B2 (en) 2020-10-12 2024-06-25 SoundHound AI IP, LLC. Method and system for conversation transcription with metadata
CN112289338B (zh) * 2020-10-15 2024-03-12 腾讯科技(深圳)有限公司 信号处理方法及装置、计算机设备以及可读存储介质
WO2022086252A1 (ko) * 2020-10-22 2022-04-28 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112420024B (zh) * 2020-10-23 2022-09-09 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
CN112420075B (zh) * 2020-10-26 2022-08-19 四川长虹电器股份有限公司 一种基于多任务的音素检测方法及装置
US20220189501A1 (en) 2020-12-16 2022-06-16 Truleo, Inc. Audio analysis of body worn camera
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
US11942078B2 (en) * 2021-02-26 2024-03-26 International Business Machines Corporation Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition
CN112951218B (zh) * 2021-03-22 2024-03-29 百果园技术(新加坡)有限公司 基于神经网络模型的语音处理方法、装置及电子设备
US11568878B2 (en) * 2021-04-16 2023-01-31 Google Llc Voice shortcut detection with speaker verification
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN113241092A (zh) * 2021-06-15 2021-08-10 新疆大学 基于双注意力机制和多阶段混合卷积网络声源分离方法
US11978433B2 (en) * 2021-06-22 2024-05-07 Microsoft Technology Licensing, Llc. Multi-encoder end-to-end automatic speech recognition (ASR) for joint modeling of multiple input devices
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN113470698B (zh) * 2021-06-30 2023-08-08 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质
CN113744753B (zh) * 2021-08-11 2023-09-08 清华大学苏州汽车研究院(相城) 一种多人语音分离方法及语音分离模型的训练方法
CN113643722B (zh) * 2021-08-27 2024-04-19 杭州电子科技大学 一种基于多层矩阵随机神经网络的城市噪声识别方法
CN113724713B (zh) * 2021-09-07 2024-07-05 中国科学技术大学 一种语音识别方法、装置、设备及存储介质
CN113782013B (zh) * 2021-09-15 2024-01-30 北京百度网讯科技有限公司 语音识别及模型训练的方法、设备、存储介质及程序产品
KR20240053639A (ko) * 2021-09-23 2024-04-24 구글 엘엘씨 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
WO2023056920A1 (en) * 2021-10-05 2023-04-13 Huawei Technologies Co., Ltd. Multilayer perceptron neural network for speech processing
CN113870863B (zh) * 2021-10-11 2024-07-02 中国电信股份有限公司 声纹识别方法及装置、存储介质及电子设备
US12087307B2 (en) 2021-11-30 2024-09-10 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
CN114155844A (zh) * 2021-12-21 2022-03-08 科大讯飞股份有限公司 一种评分方法、装置、计算设备及存储介质
WO2023132018A1 (ja) * 2022-01-05 2023-07-13 日本電信電話株式会社 学習装置、信号処理装置、学習方法及び学習プログラム
CN114170482B (zh) * 2022-02-11 2022-05-17 阿里巴巴达摩院(杭州)科技有限公司 一种文档预训练模型训练方法、装置、设备及介质
US12106753B2 (en) * 2022-03-08 2024-10-01 Microsoft Technology Licensing, Llc Code-mixed speech recognition using attention and language-specific joint analysis
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
US20230351099A1 (en) * 2022-05-02 2023-11-02 Optum, Inc. Supervised and unsupervised machine learning techniques for communication summarization
CN115188366A (zh) * 2022-05-12 2022-10-14 广州云趣信息科技有限公司 基于深度学习的语种识别方法、装置、可读存储介质
CN115116448B (zh) * 2022-08-29 2022-11-15 四川启睿克科技有限公司 语音提取方法、神经网络模型训练方法、装置及存储介质
CN115440198B (zh) * 2022-11-08 2023-05-02 南方电网数字电网研究院有限公司 混合音频信号的转换方法、装置、计算机设备和存储介质
CN116229943B (zh) * 2023-05-08 2023-08-15 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置
CN116758902A (zh) * 2023-06-01 2023-09-15 镁佳(北京)科技有限公司 一种多人说话场景下音视频识别模型训练及识别方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US20070263823A1 (en) * 2006-03-31 2007-11-15 Nokia Corporation Automatic participant placement in conferencing
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8175244B1 (en) * 2011-07-22 2012-05-08 Frankel David P Method and system for tele-conferencing with simultaneous interpretation and automatic floor control
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9620108B2 (en) 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
CA2964906A1 (en) * 2014-10-20 2016-04-28 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10438588B2 (en) * 2017-09-12 2019-10-08 Intel Corporation Simultaneous multi-user audio signal recognition and processing for far field audio
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
JP6985221B2 (ja) * 2018-07-19 2021-12-22 株式会社日立製作所 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
EP3577650B1 (en) 2020-07-15
US10811000B2 (en) 2020-10-20
JP2021507312A (ja) 2021-02-22
WO2019198265A1 (en) 2019-10-17
CN111989742B (zh) 2024-08-30
EP3577650A1 (en) 2019-12-11
CN111989742A (zh) 2020-11-24
US20190318725A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP6873333B2 (ja) 音声認識システム及び音声認識システムを用いる方法
JP7034339B2 (ja) オーディオ信号処理システム、及び入力オーディオ信号を変換する方法
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
JP2024050850A (ja) 非発話テキストおよび音声合成を使う音声認識
KR20210009596A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
EP3948852A1 (en) Contextual biasing for speech recognition
US11574628B1 (en) Deep multi-channel acoustic modeling using multiple microphone array geometries
US10963819B1 (en) Goal-oriented dialog systems and methods
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
US11495215B1 (en) Deep multi-channel acoustic modeling using frequency aligned network
KR20230084229A (ko) 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts
US12087305B2 (en) Speech processing
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
WO2023060002A1 (en) Training for long-form speech recognition
Picheny et al. Trends and advances in speech recognition
WO2022086640A1 (en) Fast emit low-latency streaming asr with sequence-level emission regularization
WO2024129789A1 (en) Semi-supervised training scheme for speech recognition
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
US20230013587A1 (en) Advancing the Use of Text and Speech in ASR Pretraining With Consistency and Contrastive Losses
KR102699035B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
US20230298565A1 (en) Using Non-Parallel Voice Conversion for Speech Conversion Models
Banjara et al. Nepali speech recognition using cnn and sequence models
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200702

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210420

R150 Certificate of patent or registration of utility model

Ref document number: 6873333

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250