JP7709552B2

JP7709552B2 - 反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーション

Info

Publication number: JP7709552B2
Application number: JP2023570013A
Authority: JP
Inventors: デイヴィッド・グランジエ; ニール・ゼギドゥール; オリヴァー・テブル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-05-11
Filing date: 2021-06-22
Publication date: 2025-07-16
Anticipated expiration: 2041-06-22
Also published as: US11887623B2; US20240144957A1; CN117337467A; EP4323988A1; WO2022240449A1; KR20230175258A; EP4323988B1; US20220375492A1; JP2024520933A

Description

本開示は、反復的な話者埋め込みによるエンドツーエンドの話者ダイアライゼーションに関する。

話者ダイアライゼーションは、入力オーディオストリームを話者の識別に従って同質のセグメントに区分化するプロセスである。複数の話者がいる環境では、話者ダイアライゼーションは、「誰がいつ話しているのか」という疑問に答えるものであり、いくつかの例を挙げると、マルチメディア情報検索、話者ターン分析、音声処理、および会話音声の自動文字起こしを含む様々な用途がある。たとえば、話者ダイアライゼーションは、入力オーディオストリームの第1のセグメントが(第1の人間の話者が誰であるかを特に識別することなく)第1の人間の話者に起因すること、入力オーディオストリームの第2のセグメントが(第2の人間の話者が誰であるかを特に識別することなく)異なる第2の人間の話者に起因すること、入力オーディオストリームの第3のセグメントが第1の人間の話者に起因することなどを識別することによって、会話における話者のターンに注釈を付けるタスクを伴う。

本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、動作を実施させるコンピュータ実装方法を提供する。動作は、複数の話者によって話された発話に対応する入力オーディオ信号を受信することを含む。動作はまた、入力オーディオ信号をT個の時間的埋め込みのシーケンスに符号化することも含む。各時間的埋め込みは、対応する時間ステップに関連付けられ、対応する時間ステップにおいて入力オーディオ信号から抽出された音声コンテンツを表す。複数の話者のそれぞれの話者に各々対応する複数の反復の各々の間に、動作は、それぞれの話者についてのそれぞれの話者埋め込みを選択することを含む。T個の時間的埋め込みのシーケンスにおける各時間的埋め込みについて、動作は、対応する時間的埋め込みが、以前の反復中に話者埋め込みが以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することによって、それぞれの話者埋め込みを選択する。動作はまた、それぞれの話者についてのそれぞれの話者埋め込みを、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられたT個の時間的埋め込みのシーケンスにおける時間的埋め込みとして選択することによって、それぞれの話者埋め込みを選択する。動作はまた、各時間ステップにおいて、複数の反復中に選択されたそれぞれの話者埋め込みおよび対応する時間ステップに関連付けられた時間的埋め込みに基づいて、複数の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータを予測することも含む。それぞれの音声アクティビティインジケータは、対応する時間ステップにおいてそれぞれの話者の音声がアクティブであるか非アクティブであるかを示す。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、受信された入力オーディオ信号における発話の少なくとも一部は重複している。いくつかの例では、入力オーディオ信号が受信されたとき、複数の話者の数は不明である。動作は、入力オーディオ信号を符号化する間に、入力オーディオ信号から符号化されたT個の時間的埋め込みのシーケンスをダウンサンプリングされた埋め込み空間に投影することをさらに含み得る。

いくつかの実装形態では、時間的埋め込みのシーケンスにおける各時間的埋め込みについての複数の反復の各々の間に、対応する時間的埋め込みが一人の新しい話者による音声アクティビティの存在を含む確率を決定することは、対応する時間的埋め込みについての可能なイベントタイプの確率分布を決定することを含む。可能なイベントタイプは、一人の新しい話者による音声アクティビティの存在、以前の反復中に別のそれぞれの話者埋め込みが以前に選択された、一人の前の話者の音声アクティビティの存在、重複した音声の存在、および沈黙の存在を含む。いくつかの実装形態では、対応する時間的埋め込みについての可能なイベントタイプの確率分布を決定することは、完全接続ネットワークを有するマルチクラス線形分類器への入力として、対応する時間的埋め込みと、以前の反復中に以前に選択されたそれぞれの話者埋め込みの平均を含む以前に選択された話者埋め込みとを受信することと、完全接続ネットワークを有するマルチクラス線形分類器を使用して、対応する時間的埋め込みを、可能なイベントタイプの各々にマッピングすることとを含み得る。マルチクラス線形分類器は、トレーニング時間的埋め込みのシーケンスに各々符号化されたトレーニングオーディオ信号のコーパス上でトレーニングされ得る。ここで、各トレーニング時間的埋め込みは、それぞれの話者ラベルを含む。

いくつかの例では、最初の反復に続く各反復中に、対応する時間的埋め込みが一人の新しい話者による音声アクティビティの存在を含む確率を決定することは、対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込みに基づく。いくつかの実装形態では、動作は、複数の反復の各々の間に、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率が、信頼度しきい値を満たすかどうかを決定することをさらに含む。ここで、それぞれの話者埋め込みを選択することは、信頼度しきい値を満たす一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率に条件付けられる。これらの実装形態では、動作は、複数の反復の各々の間に、それぞれの話者埋め込みを選択することは、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率が信頼度しきい値を満たさないとき、対応する反復中にそれぞれの話者埋め込みの選択をバイパスすることをさらに含み得る。任意選択で、対応する反復中にそれぞれの話者埋め込みの選択をバイパスした後、動作は、対応する反復に先立つ反復中に以前に選択された話者埋め込みの数に基づいて、複数の話者の数Nを決定することをさらに含み得る。

各時間ステップにおける複数の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータを予測することは、対応する時間ステップに関連付けられた時間的埋め込み、それぞれの話者について選択されたそれぞれの話者埋め込み、および複数の反復中に選択されたすべての話者埋め込みの平均に基づき得る。いくつかの例では、各時間ステップにおける複数の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータを予測することは、並列の第1および第2の完全接続ニューラルネットワークを有する音声アクティビティ検出器を使用することを含む。これらの例では、音声アクティビティ検出器の第1の完全接続ニューラルネットワークは、対応する時間ステップに関連付けられた時間的埋め込みを投影するように構成されており、音声アクティビティ検出器の第2の完全接続ニューラルネットワークは、それぞれの話者のために選択されたそれぞれの話者埋め込みと、複数の反復中に選択されたすべての話者埋め込みの平均との連結を投影するように構成されている。

トレーニングプロセスは、時間的埋め込みのシーケンスに各々が符号化されたトレーニングオーディオ信号のコーパス上で音声アクティビティインジケータをトレーニングし得る。ここで、各時間的埋め込みは、対応する話者ラベルを含む。任意選択で、トレーニングプロセスは、話者ターン境界の周りの半径内に入るトレーニング時間的埋め込みのいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセスを含み得る。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる命令を記憶するメモリハードウェアとを含むシステムを提供する。動作は、複数の話者によって話された発話に対応する入力オーディオ信号を受信することを含む。動作はまた、入力オーディオ信号をT個の時間的埋め込みのシーケンスに符号化することも含む。各時間的埋め込みは、対応する時間ステップに関連付けられ、対応する時間ステップにおいて入力オーディオ信号から抽出された音声コンテンツを表す。複数の話者のそれぞれの話者に各々対応する複数の反復の各々の間に、動作は、それぞれの話者についてのそれぞれの話者埋め込みを選択することを含む。T個の時間的埋め込みのシーケンスにおける各時間的埋め込みについて、動作は、対応する時間的埋め込みが、以前の反復中に話者埋め込みが以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することによって、それぞれの話者埋め込みを選択する。動作はまた、それぞれの話者についてのそれぞれの話者埋め込みを、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられたT個の時間的埋め込みのシーケンスにおける時間的埋め込みとして選択することによって、それぞれの話者埋め込みを選択する。動作はまた、各時間ステップにおいて、複数の反復中に選択されたそれぞれの話者埋め込みおよび対応する時間ステップに関連付けられた時間的埋め込みに基づいて、複数の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータを予測することも含む。それぞれの音声アクティビティインジケータは、対応する時間ステップにおいてそれぞれの話者の音声がアクティブであるか非アクティブであるかを示す。

いくつかの例では、最初の反復に続く各反復中に、対応する時間的埋め込みが一人の新しい話者による音声アクティビティの存在を含む確率を決定することは、対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込みに基づく。いくつかの実装形態では、動作は、複数の反復の各々の間に、一人の新しい話者による音声アクティビティ動の存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率が、信頼度しきい値を満たすかどうかを決定することをさらに含む。ここで、それぞれの話者埋め込みを選択することは、信頼度しきい値を満たす一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率に条件付けられる。これらの実装形態では、動作は、複数の反復の各々の間に、それぞれの話者埋め込みを選択することは、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込みのシーケンスにおける対応する時間的埋め込みの確率が信頼度しきい値を満たさないとき、対応する反復中にそれぞれの話者埋め込みの選択をバイパスすることをさらに含み得る。任意選択で、対応する反復中にそれぞれの話者埋め込みの選択をバイパスした後、動作は、対応する反復に先立つ反復中に以前に選択された話者埋め込みの数に基づいて、複数の話者の数Nを決定することをさらに含み得る。

本開示の1つまたは複数の実装形態の詳細について、添付図面および以下の説明に示す。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

話者ダイアライゼーションを実行するための例示的な話者ダイアライゼーションシステムの概略図である。図1の例示的話者ダイアライゼーションシステムの概略図である。図1の話者ダイアライゼーションシステムをトレーニングし、推論中に図1のトレーニング済み話者ダイアライゼーションシステムを使用するための例示的なトレーニングプロセスの概略図である。カラートレーニングが適用されていないときのダイアライゼーション誤り率(DER)の例示的なプロットを示す図である。カラートレーニングが適用されたときのダイアライゼーション誤り率(DER)の例示的なプロットを示す図である。複数の異なる話者によって話された発話を含む入力オーディオ信号に対して話者ダイアライゼーションを実行する方法のための動作の例示的な配置のフローチャートである。本明細書で説明するシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面における同様の参照符号は、同様の要素を示す。

自動音声認識(ASR)システムは、一般に、与えられた入力オーディオ信号に1人の話者しか存在しないと仮定する音声処理アルゴリズムに依存している。複数の話者の存在を含む入力オーディオ信号は、これらの音声処理アルゴリズムを混乱させる可能性があり、それによって、ASRシステムが出力する音声認識結果が不正確になる可能性がある。したがって、話者ダイアライゼーションとは、誰が話しているかを具体的に決定する(話者認識/識別)のではなく、誰かが話しているときを決定するために、より大きい会話における同じ話者の音声をセグメント化するプロセスである。別の言い方をすれば、話者ダイアライゼーションは、短い発話による一連の話者認識タスクを含み、与えられた会話の2つのセグメントが、同じ個人によって話されたのか、それとも異なる個人によって話されたのかを判断し、それは会話のすべてのセグメントについて繰り返される。

既存の話者ダイアライゼーションシステムは、一般に、たとえば、限定はしないが、音声セグメント化モジュール、埋め込み抽出モジュール、およびクラスタリングモジュールなど、複数の比較的独立したコンポーネントを含む。音声セグメント化モジュールは、一般に、入力発話から非音声部分を除去し、入力発話を小さい固定長セグメントに分割するように構成され、埋め込み抽出モジュールは、各固定長セグメントから、対応する話者識別埋め込みを抽出するように構成される。話者識別埋め込みは、iベクトルまたはdベクトルを含み得る。既存の話者ダイアライゼーションシステムによって採用されているクラスタリングモジュールは、入力発話に存在する話者の数を決定し、各固定長セグメントに話者識別(ラベルなど)を割り当てる役割を担う。これらのクラスタリングモジュールは、ガウス混合モデル、平均シフトクラスタリング、凝集型階層クラスタリング(agglomerative hierarchical clustering)、k平均法クラスタリング、リンククラスタリング、およびスペクトラルクラスタリングを含む一般的なクラスタリングアルゴリズムを使用することができる。話者ダイアライゼーションシステムは、追加の制約を強制することによって、クラスタリングモジュールから出力されたダイアライゼーション結果をさらに洗練するために、追加の再セグメント化モジュールを使用することもできる。

これらの既存の話者ダイアライゼーションは、抽出された話者識別埋め込みがダイアライゼーションのために最適化されておらず、したがって、重複が存在する場合に話者の曖昧性を解消するための関連する特徴を必ずしも抽出しない場合があるという事実によって制限されている。さらに、クラスタリングモジュールは教師なし方式で動作し、したがって、すべての話者が未知であると仮定され、クラスタリングアルゴリズムは、新しい入力発話ごとに、新しい/未知の話者に対応するための新しい「クラスタ」を生成する必要がある。これらの教師なしフレームワークの欠点は、話者ターン(すなわち、話者の変更)の細かい注釈、タイムスタンプ付きの話者のラベル、およびグランドトゥルースを含む、ラベル付きのトレーニングデータの大規模なセットから学習することによって改善することができないことである。このラベル付きトレーニングデータは、多くのドメイン固有のアプリケーションおよびダイアライゼーショントレーニングデータセットで容易に取得可能であるので、話者ダイアライゼーションシステムは、ダイアライゼーション結果の生成において、よりロバストで正確になることによって、ラベル付きトレーニングデータの恩恵を受ける可能性がある。さらに、既存の最先端のクラスタリングアルゴリズムは、ほとんどがオフラインで実行され、それによって、リアルタイムのシナリオでのクラスタリングによってダイアライゼーション結果を生成することが困難になる。話者ダイアライゼーションシステムは、長い音声シーケンス(すなわち、数分間など)に対して実行することも必要であるが、大きいバッチサイズを有する長い音声シーケンスにわたって話者ダイアライゼーションシステムをトレーニングすることは、メモリの制約により困難な場合がある。

上述した典型的なダイアライゼーションシステムの制限を克服するために、本明細書の実装形態は、反復的音声埋め込みによるダイアライゼーション(DIVE)システムを対象とする。DIVEシステムは、エンドツーエンドのニューラルダイアライゼーションシステムを含み、このシステムは、3つの別個のコンポーネント/モジュール、入力オーディオ信号を、対応する時間ステップにおける現在の音声コンテンツを各々表す時間的埋め込みのシーケンスを含むダウンサンプリングされた埋め込み空間に投影する役割を担う時間エンコーダ、入力音声ストリーム内のすべての話者の長期話者ベクトルを選択する反復話者選択プロセスを実行する役割を担う話者セレクタ、および複数の時間ステップの各々において、各話者の音声アクティビティを検出する役割を担う音声アクティビティ検出器(VAD)を組み合わせて共同トレーニングする。

図1を参照すると、システム100は、話者(たとえば、ユーザ)10、10a～nのグループから音声発話120を捕捉し、ネットワーク130を介してリモートシステム140と通信するユーザデバイス110を含む。リモートシステム140は、拡張可能な/弾性のあるリソース142を有する分散システム(たとえば、クラウドコンピューティング環境)であってもよい。リソース142は、コンピューティングリソース144(たとえば、データ処理ハードウェア)および/またはストレージリソース146(たとえば、メモリハードウェア)を含む。いくつかの実装形態では、ユーザデバイス110および/またはリモートシステム140は、複数の話者10から、捕捉された発話120に対応する入力オーディオ信号(すなわち、オーディオデータ)122を受信するように構成されたDIVEシステム200(エンドツーエンドニューラルダイアライゼーションシステム200とも呼ばれる)を実行する。DIVEシステム200は、入力オーディオ信号122をT個の時間的埋め込み220、220a～tのシーケンスに符号化し、それぞれの話者10について、それぞれの話者埋め込み240、240a～nを反復的に選択する。T個の時間的埋め込み220のシーケンスおよび各選択された話者埋め込み240を使用して、DIVEシステム200は、複数の時間ステップの各々の間のそれぞれの話者10についてのそれぞれの音声アクティビティインジケータ262を予測する。ここで、音声アクティビティインジケータ262は、各時間ステップにおいて、それぞれの話者の音声がアクティブであるか非アクティブであるかを示す。複数の時間ステップの各々の間にそれぞれの話者10について予測されたそれぞれの音声アクティビティインジケータ262は、入力オーディオ信号122において、各話者の音声がアクティブ(または非アクティブ)であるときを示すダイアライゼーション結果280を提供することができる。各時間ステップは、時間的埋め込みのそれぞれに対応し得る。いくつかの例では、各時間ステップは1ミリ秒の持続時間を含む。したがって、ダイアライゼーション結果280は、各時間ステップにおいて予測された話者ごとの音声アクティビティインジケータ262に基づくタイムスタンプ付き話者ラベルを提供することができ、このラベルは、所与の時間に誰が話しているかを識別するだけでなく、隣接する時間ステップ間で話者の変更(たとえば、話者ターン)がいつ起こるかも識別する。

いくつかの例では、リモートシステム140は、オーディオデータ122を受信し、対応するASR結果152へと文字起こしするように構成された自動音声認識(ASR)モジュール150をさらに実行する。ユーザデバイス110は、同様に、リモートシステム140の代わりに、ASRモジュール150をデバイス上で実行することができ、これは、ネットワーク接続が利用できない場合、または(忠実度は低いが)迅速な文字起こしが望ましい場合に有用である。追加または代替として、ユーザデバイス110およびリモートシステム140はいずれも、デバイス上、リモートシステム140経由、またはそれらの何らかの組合せにより、オーディオデータ122の文字起こしが行われ得るように、対応するASRモジュール150を実行し得る。いくつかの実装形態では、ASRモジュール150とDIVEシステム200はいずれも、ユーザデバイス110上で完全に実行され、リモートシステム140へのいかなるネットワーク接続も必要としない。ASR結果152は、「文字起こし」または単に「テキスト」と呼ばれることもある。ASRモジュール150は、オーディオデータ122における音声認識を向上させるために、オーディオデータ122に関連付けられたダイアライゼーション結果280を利用するために、DIVEシステム200と通信することができる。たとえば、ASRモジュール150は、ダイアライゼーション結果280から識別された異なる話者について、異なる音声認識モデル(たとえば、言語モデル、韻律モデル)を適用し得る。追加または代替として、ASRモジュール150および/またはDIVEシステム200(または何らかの他のコンポーネント)は、話者ごと、時間ステップごとの音声アクティビティインジケータ262を使用して、オーディオデータ122の文字起こし152にインデックスを付けることができる。たとえば、仕事の会議中の複数の同僚(たとえば、話者10)間の会話の文字起こしは、各話者が何を言ったかを識別するために、文字起こしの一部をそれぞれの話者に関連付けるために、話者ごとにインデックスを付けられ得る。

ユーザデバイス110は、データ処理ハードウェア112およびメモリハードウェア114を含む。ユーザデバイス110は、話者10から音声発話120を捕捉し、オーディオデータ122(たとえば、電気信号)に変換するための音声捕捉デバイス(たとえば、マイクロフォン)を含み得る。いくつかの実装形態では、データ処理ハードウェア112は、DIVEシステム200の一部をローカルで実行すると同時に、ダイアライゼーションシステム200の残りの部分がリモートシステム140上で実行されるように構成される。あるいは、データ処理ハードウェア112は、リモートシステム140上でDIVEシステム200を実行する代わりに、DIVEシステム200を実行してもよい。ユーザデバイス110は、ネットワーク130を介してリモートシステム140と通信可能な任意のコンピューティングデバイスであり得る。ユーザデバイス110には、限定はしないが、デスクトップ型コンピューティングデバイス、ならびにラップトップ、タブレット、スマートフォン、スマートスピーカ/ディスプレイ、スマート家電、モノのインターネット(IoT)デバイス、およびウェアラブルコンピューティングデバイス(たとえば、ヘッドセットおよび/または腕時計)などのモバイルコンピューティングデバイスがある。ユーザデバイス110は、任意選択で、ASRモジュール150を実行して、オーディオデータ122を対応するテキスト152に文字起こしすることができる。たとえば、ネットワーク通信がダウンしているか、または利用できないとき、ユーザデバイス110は、オーディオデータ122のダイアライゼーション結果を生成し、および/またはオーディオデータ122の文字起こし152を生成するために、ダイアライゼーションシステム200および/またはASRモジュール150をローカルで実行することができる。

図示の例では、話者10およびユーザデバイス110は、ユーザデバイス110が話者10によって話された音声発話120を捕捉し、オーディオ信号122(オーディオデータ122とも呼ばれる)に変換するように構成された環境(たとえば、部屋)内に配置され得る。たとえば、話者10は会議中に会話をしている同僚に対応し、ユーザデバイス110は、音声発話120を録音してオーディオ信号122に変換することができる。次に、ユーザデバイス110は、複数の時間ステップの各々の間の話者10の各々についての音声アクティビティインジケータ262を予測するために、オーディオ信号122をDIVEシステム200に提供することができる。したがって、DIVEシステム200は、話者認識/識別を介して、誰が話しているかを具体的に判断することなく、誰かが話しているときを決定するように、オーディオ信号122を処理する役割を担う。

いくつかの例では、オーディオ信号122で伝達される発話120の少なくとも一部は、所与の瞬間に2人以上の話者10の音声がアクティブになるように重複している。注目すべきは、入力オーディオ信号122がDIVEシステム200に入力として提供されるとき、複数の話者10の数Nは不明である可能性があり、DIVEシステム200は複数の話者10の数Nを予測し得る。いくつかの実装形態では、ユーザデバイス110は、話者10から離れた場所にある。たとえば、ユーザデバイス110は、電話またはビデオ会議の参加者である話者からの音声発話120を捕捉するリモートデバイス(たとえば、ネットワークサーバ)を含み得る。このシナリオでは、各話者10は、音声発話120をオーディオデータ122に変換するために、音声発話120を捕捉し、リモートユーザデバイス110に提供する自身のデバイス(たとえば、電話、ラジオ、コンピュータ、スマートウォッチなど)に向かって話すことになる。もちろん、このシナリオでは、発話120は、各ユーザデバイスで処理を受け、リモートユーザデバイス110に送信される対応するオーディオ信号122に変換され、リモートユーザデバイス110は、DIVEシステム200への入力として提供されるオーディオ信号122をさらに処理し得る。

図示の例では、DIVEシステム200は、時間エンコーダ210、反復話者セレクタ230、および音声アクティビティ検出器(VAD)260を含む。時間エンコーダ210は、オーディオ信号122を受信し、入力オーディオ信号122を時間的埋め込みh220、220a～tのシーケンスに符号化するように構成されている。各時間的埋め込みh220は、対応する時間ステップtに関連付けられ、対応する時間ステップt中に入力オーディオ信号122から抽出された音声コンテンツを表し得る。時間エンコーダ210は、時間的埋め込み220のシーケンスを反復話者セレクタ230およびVAD260に送信する。

複数の話者10のそれぞれの話者に各々対応する複数の反復iの各々の間に、反復話者セレクタ230は、それぞれの話者10のためのそれぞれの話者埋め込み240、240a～nを選択するように構成される。簡単にするために、図1のオーディオ信号122は、2つの異なる話者10のみによって話された発話120を含むが、反復話者セレクタ230は、入力オーディオ信号122に存在する任意の数Nの異なる話者10のための話者埋め込み240を選択することができる。したがって、例示的な2話者シナリオでは、反復話者セレクタ230は、最初の第1の反復(i=1)中に、第1の話者10aのための第1の話者埋め込みs₁ 240を選択し、その後の第2の反復(i=2)中に、反復話者セレクタ230は、第2の話者10bのための第2の話者埋め込みs₂ 240を選択する。各反復i中に、反復話者セレクタ230は、T個の時間的埋め込み220のシーケンスにおける各時間的埋め込み220について、対応する時間的埋め込み220が、以前の反復中に話者埋め込み240が以前に選択されなかった一人の新しい話者10による音声アクティビティの存在を含む確率を決定することによって、それぞれの話者埋め込み240を選択する。その後、反復話者セレクタ230は、対応する反復i中に、それぞれの話者10のためのそれぞれの話者埋め込み240を、一人の新しい話者10による音声アクティビティの存在に関する最も高い確率に関連付けられたT個の時間的埋め込み220のシーケンスにおける時間的埋め込み220として選択する。すなわち、反復話者セレクタ230は、それぞれのT個の時間的埋め込み220の音声コンテンツに関連付けられる最も高い確率を有するそれぞれの話者埋め込み240を選択する。

VAD260は、時間的埋め込み220および話者埋め込み240(たとえば、図1の2話者シナリオにおけるs₁およびs₂)を受信し、各時間ステップにおいて、複数のN人の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ262を予測する。特に、VAD260は、それぞれの時間ステップtにおける音声コンテンツを表す時間的埋め込み220、対象の話者の識別を表す話者埋め込み240、および話者10の全員を表す別の話者埋め込み240に基づいて、音声アクティビティインジケータ262を予測する。ここで、それぞれの音声アクティビティインジケータ262は、対応する時間ステップにおいて、それぞれの話者10の音声がアクティブであるか非アクティブであるかを示す。注目すべきは、VAD260は、複数の話者10からそれぞれの話者10を特に識別することなく、音声アクティビティインジケータ262を予測する。DIVEシステム200は、各時間ステップで音声アクティビティインジケータ262を使用して、ダイアライゼーション結果280を提供することができる。図1に示すように、ダイアライゼーション結果280は、時間ステップtにおける話者iの音声アクティビティインジケータy_i,tを含む。したがって、ダイアライゼーション結果280の音声アクティビティインジケータy_i,t262は、時間ステップt中に、話者10が非アクティブであるとき「0」の値を有し、話者10がアクティブであるとき「1」の値を有する、話者ごと、時間ステップごとのVAD結果を提供する。時間ステップ(t=4)に示すように、複数の話者10が同時にアクティブになることがある。

図2は、DIVEシステム200の時間エンコーダ210、反復話者セレクタ230、およびVAD260を示している。時間エンコーダ210は、入力オーディオ信号122を、対応する時間ステップtに各々関連付けられた時間的埋め込み220、220a～tのシーケンスに符号化する。時間エンコーダ210は、入力オーディオ信号122から符号化された時間的埋め込み220のシーケンスを、ダウンサンプリングされた埋め込み空間に投影してもよい。時間エンコーダ210は、パラメトリック整流線形ユニット(PReLU)活性化およびレイヤ正規化により、膨張1D-畳み込みの残差ブロックをカスケードし、残差ブロック間に1D平均プーリング層を導入することによってダウンサンプリングを実行することができる。したがって、入力オーディオ信号122は、時間エンコーダ210が次元Dを各々有するT個の時間的埋め込み220(たとえば、潜在ベクトル)を生成するように入力波形xに対応し得る。したがって、各時間的埋め込み220は、次のように表され得る。

反復話者セレクタ230は、入力オーディオ信号122において検出された話者10ごとに、それぞれの話者埋め込み240、240a～nを出力する。複数の反復iの各々の間、反復話者セレクタ230は、時間的埋め込み220を受信し、前の反復iで選択されなかったそれぞれの話者埋め込み240(すなわち、新しい話者埋め込み240)を選択する。いくつかの例では、話者セレクタ230は、各反復i中、T個の時間的埋め込み220のシーケンスとともに、以前に選択された話者埋め込み240を入力として受信し、各対応する時間的埋め込み220が一人の新しい話者による音声アクティビティの存在を含む確率を信頼度cとして出力する。以前に選択された話者埋め込み240は、以前の反復中に以前に選択されたそれぞれの話者埋め込み240の平均を含み得る。注目すべきは、以前に選択された話者埋め込み240がないので、最初の第1の反復中、以前に選択された話者埋め込み240はゼロになることである。有利なことに、反復話者セレクタ230によって実行される反復プロセスは、話者埋め込み240を選択するためにトレーニングに対する特定の話者順序を必要とせず、したがって、話者順序を選択するためのペナルティを回避するための順列不変トレーニング(PIT)を必要としない。PITは、長いオーディオシーケンスに適用すると、割当てに一貫性がなくなるという問題があり、したがって、長期的な話者表現/埋め込みの学習に使用するのは好ましくない。

簡単にするために、図2は、2人の異なる話者10のみによって話された発話120を含むオーディオ信号122を示しているが、これは非限定的な例であり、オーディオ信号122は、任意の数の異なる話者10によって話された発話を含み得る。図示の例では、反復話者セレクタ230は、第1の反復(i=1)において、T個の時間的埋め込み220のシーケンスを受信し、第1の話者埋め込みs₁ 240、240aを選択する第1の話者セレクタ230、230aを含む。第1の話者埋め込みs₁ 240aは、時間的埋め込み220が第1の話者埋め込みs₁ 240aを含む尤度を示す第1の信頼度c₁を含む。ここで、以前に選択された話者埋め込み240は存在しないので、第1の話者セレクタ230aは、任意の話者埋め込み240を選択し得る。この例を続けると、反復話者セレクタ230は、後続の反復(i=2)において、T個の時間的埋め込み220のシーケンスと、以前に選択された第1の話者埋め込みs₁ 240aとを受信し、第2の話者埋め込みs₂ 240、240bを選択する第2の話者セレクタ230、230bを含む。第2の話者埋め込みs₂ 240bは、時間的埋め込み220が第2の話者埋め込みs₂ 240bを含む尤度を示す第2の信頼度c₂を含む。ここで、第2の話者セレクタ230bは、以前に選択された話者埋め込み(たとえば、第1の話者埋め込みs₁ 240a)以外の話者埋め込み240のいずれかを選択してもよい。

反復話者セレクタ230は、話者埋め込み240を選択するために、任意の数の話者セレクタ230を含むことができる。いくつかの例では、反復話者セレクタ230は、一人の新しい話者による音声アクティビティの存在に関する最も高い確率に関連付けられた対応する時間的埋め込み220に対する話者埋め込み240に関連付けられた信頼度cが、信頼度しきい値を満たすかどうかを判定する。反復話者セレクタ230は、信頼度cが信頼度しきい値を満たさなくなるまで、話者埋め込み240を反復的に選択し続けることができる。

いくつかの実装形態では、反復話者セレクタ230は、各反復iの間、各対応する時間的埋め込み220の可能なイベントタイプeの確率分布を決定するように構成された完全接続ネットワークを有するマルチクラス線形分類器を含む。可能なイベントタイプe_tは、4つの可能なタイプ、一人の新しい話者10による音声アクティビティの存在、以前の反復中に別のそれぞれの話者埋め込み240が以前に選択された、一人の前の話者10の音声アクティビティの存在、重複した音声の存在、および沈黙の存在を含み得る。したがって、完全接続ネットワークを有するマルチクラス線形分類器は、各時間的埋め込みh_t220を4つの可能なイベントタイプe_tうちの1つにマッピングする4クラス線形分類器を表す4×D行列g_μ(μ_i)を含み得る。ここで、各時間的埋め込み220は、各反復i中、可能なイベントタイプの確率分布において最も高い確率を有するイベントタイプにマッピングされ得る。確率分布は、次のように表され得る。
P(e_t|h_t,u_i)=softmax(g_u(μ_i)g_h(h_t)) (1)
式1において、e_tは、イベントタイプを表し、h_tは、時間tにおけるそれぞれの時間的埋め込みを表し、u_iは、反復iにおける以前に選択された各話者の平均埋め込みを表し、g_hは、完全接続ニューラルネットワークを表す。推論中、それぞれの話者埋め込み240に対する信頼度cは、次のように表され得る。

式中、

は、一人の新しい話者10による音声アクティビティの存在に関する最も高い確率に関連付けられた時間的埋め込み220に対応する。したがって、各反復中に選択された話者埋め込み240は、式1に従って最大信頼度(すなわち、最高確率)に達する時間的埋め込みに対応する。話者埋め込み240を選択することは、

が信頼度しきい値を満たすことを条件とし得る。信頼度しきい値が満たされない場合、反復話者セレクタ230は、対応する反復中に選択をバイパスし、それ以降の反復を実行しないことがある。このシナリオでは、DIVEシステム200は、話者埋め込み240の選択をバイパスする対応する反復に先立つ反復中に以前に選択された話者埋め込み240の数に基づいて、複数の話者10の数Nを決定することができる。トレーニング中

は、反復話者セレクタ230によって出力されず、代わりに、時間的埋め込みh_t220は、ラベル付けされたトレーニングデータにおいて新規話者がアクティブとしてマークされた時間から一様にサンプリングされる。反復話者セレクタ230は、トレーニングプロセスによって教師ありの方法でトレーニングされ、トレーニングプロセスのパラメータは、次のように4ウェイ線形分類器の負の対数尤度を最小化するように学習する。

話者埋め込み240が選択された後(たとえば、図2の2話者シナリオにおけるs₁およびs₂)、VAD260は、各時間ステップにおいて、次のように、それぞれの話者埋め込み240、以前に選択されたすべての話者埋め込み240の平均、および対応する時間ステップに関連付けられた時間的埋め込み220に基づいて、複数のN人の話者のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ262を予測する。
y_i∈{0,1}^T (4)
式中、i=1, 2, ...Nである。それぞれの音声アクティビティインジケータ(y_i,t)262は、対応する時間ステップ(時間ステップtによってインデックス付けされる)において、それぞれの話者(反復iによってインデックス付けされる)10の音声がアクティブ(y_i,t=1)であるか、非アクティブ(y_i,t=0)であるかを示す。それぞれの音声アクティビティインジケータ262は、時間ステップt中、それぞれの話者が非アクティブであるとき、「0」の値を提供し、それぞれの話者がアクティブであるとき、「1」の値を提供する、2値の話者ごとの音声アクティビティマスクに対応し得る。各話者iについて各時間ステップtにおいて予測された音声アクティビティインジケータ(y_i,t)262は、対応する時間ステップに関連付けられた時間的埋め込みh_t、それぞれの話者について選択されたそれぞれの話者埋め込みs_i、および複数の反復中に選択されたすべての話者埋め込みの平均

に基づき得る。

いくつかの実装形態では、VAD260は、線形射影を含む最後の線形投影層を除いて、層正規化によるPReLU活性化を有する2つの並列完全接続ニューラルネットワークf_hおよびf_sを含む。これらの実装形態では、時間ステップtにおける話者iの音声アクティビティインジケータy_i,tを予測するために、f_hおよびf_sは、対応する時間ステップにおける時間的埋め込み

および話者埋め込み

を次のように投影する。

式5では、

は、対応する話者iについて選択されたそれぞれの話者埋め込みs_iおよび

、すべての話者埋め込み240の平均値のチャンネル軸に沿った連結を表す。注目すべきは、平均話者埋め込みは、対象の話者iに関連付けられたそれぞれの話者埋め込み240と、時間的埋め込み220のシーケンス内に存在する他のすべての話者との間のコントラストを利用するために、VAD260を呼び出す。図示の例では、VAD260は、時間ステップ(t=2)において、第1および第2の話者10の音声アクティビティインジケータ262を予測する。音声アクティビティインジケータ262は、第1の話者10が時間ステップ(t=2)においてアクティブであり(たとえば、y_1,2=1)、第2の話者10が時間ステップ(t=2)において非アクティブである(たとえば、y_2,2=0)ことを示すダイアライゼーション結果280を提供することができる。

図3を参照すると、概略図300は、DIVEシステム200の例示的なトレーニングプロセス301および推論304を示している。いくつかの実装形態では、トレーニングプロセス301は、複数の異なる話者10によって話された発話120を各々含むトレーニングオーディオ信号x*のコーパスを含む、完全にラベル付けされたトレーニングデータ302上で、DIVEシステム200の時間エンコーダ210、完全接続ネットワークを有するマルチクラス線形分類器を含む反復話者セレクタ230、およびVAD260を共同でトレーニングする。トレーニングオーディオ信号x*は、数分間の音声を表す長い音声シーケンスを含み得る。いくつかの例では、トレーニングプロセス301は、トレーニングオーディオ信号x*ごとにW個の固定長ウィンドウをサンプリングし、時間エンコーダ210を使用してトレーニングオーディオ信号x*を符号化し、時間軸に沿ってW個の固定長ウィンドウを連結する。W個の固定長ウィンドウを連結することによって、完全にラベル付けされたトレーニングデータ302は、メモリ使用量を低く抑えながら、各トレーニングオーディオ信号x*の話者の多様性と話者ターンを増加させる。すなわち、トレーニングオーディオ信号x*は、長い音声シーケンスの間、離れたウィンドウ上の同じ話者を表す可能性がある。トレーニングオーディオ信号x*の中には、2人以上の異なる話者10によって話された発話120が重なる部分が含まれる場合がある。各トレーニングオーディオ信号x*は、時間エンコーダ210によって、アクティブな話者または沈黙を示すそれぞれの話者ラベル350が各々割り当てられたトレーニング時間的埋め込み220のシーケンスに符号化される。

話者ラベル350は、トレーニング話者ラベルのシーケンス

として表すことができ、式中、シーケンスにおけるエントリ

は、時間ステップtにおけるトレーニング時間的埋め込み220に割り当てられた話者ラベル350を表す。図示の例では、トレーニングプロセス301は、複数のi回の反復の各々の間、時間エンコーダ210によって符号化されたトレーニング時間的埋め込み220Tのシーケンス、および反復話者セレクタ230をトレーニングするための割り当てられた話者ラベル350を提供し、その後、複数回の反復の間に反復話者セレクタ230によって選択された話者埋め込み240に基づいてVAD260を提供する。

時間エンコーダ210、反復話者セレクタ230、およびVAD260が共同でトレーニングされると、VAD260もまた、トレーニングオーディオ信号x*のコーパス上でトレーニングされ、各トレーニングオーディオ信号x*は、対応するトレーニング時間的埋め込みにおいて、どの音声が存在し/アクティブであるかを示す、対応する音声アクティビティインジケータ(すなわち、話者ラベル)

を各々含むトレーニング時間的埋め込みのシーケンスに符号化される。トレーニングプロセスは、以下のVAD損失についてVAD260をトレーニングすることができる。

ここで、トレーニングプロセスは、式6の話者ごと、時間ステップごとのVAD損失を、独立した2値分類タスクとして逆伝搬する。DIVEシステム200は、ダイアライゼーション結果280のダイアライゼーション誤り率(DER)の観点から評価され得る。いくつかの例では、トレーニングプロセスは、式6のトレーニングVAD損失がトレーニングデータ内の小さい注釈エラーに対してVAD260にペナルティを与えないように、話者境界付近の許容差を提供するカラーを適用する。いくつかの例では、カラーを表す許容差の典型的な値は、ラベル付けされたトレーニングデータで指定された話者ターン境界(500ms)の両側で約250msである。したがって、トレーニングプロセスは、次のように、全損失からカラー内に入るフレーム/時間ステップに関連付けられたVAD損失を除去することによって、マスクされたVAD損失を計算することができる。

式中、B_rは、話者ターン境界の周りの半径r内にあるオーディオフレーム/時間ステップのセットを含む。トレーニングプロセスは、式7によって計算されたマスクされたVAD損失を逆伝搬し得る。トレーニング中、DIVEシステム200の全損失は、時間エンコーダ210、反復話者セレクタ230、およびVAD260を共同でトレーニングするために、次のように計算される。

全損失は、式7のVAD損失を代入することによって、カラー損失を適用せずに、同様に計算することができる。

反復話者セレクタ230は、式3で表される話者セレクタ損失に基づいてトレーニングされ、VAD260は、トレーニングカラーが適用されるとき、式6または式7によって表されるVAD損失に基づいてトレーニングされ得る。すなわち、トレーニングプロセス301は、話者ターン境界の周りの半径内に入るトレーニング時間的埋め込み220のいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセスを含み得る。カラーアウェアトレーニングプロセスは、小さい注釈エラーに対してDIVEシステム200にペナルティを与えたり、トレーニングしたりすることはない。たとえば、話者ターン境界の周りの半径は、話者ターン境界の両側に250ms(合計500ms)を含み得る。したがって、DIVEシステム200は、式8によって計算される全損失でトレーニングされ得る。

DIVEシステム200の別個のコンポーネント210、230、260は、トレーニングプロセス201が、式3、6、7、および8の損失を最小化するように、隠れノード、完全にラベル付けされたトレーニングデータ302に対応する隠れノードと入力ノードとの間の接続の重み、隠れノードと出力ノードとの間の接続の重み、および隠れノード自体の層間の接続の重みを生成するように、それぞれのニューラルネットワークを含み得る。その後、推論304中、完全にトレーニングされたDIVEシステム200は、ダイアライゼーション結果280に対応する未知の出力データ(たとえば、音声アクティビティインジケータ262)を生成するために、入力データ(たとえば、生のオーディオ信号122)に対して採用され得る。

図4は、DIVEシステム200をトレーニングするために使用される標準的なトレーニングプロセスおよびカラーアウェアトレーニングプロセスについての生のダイアライゼーション誤り率(DER)(%)評価のプロット400を示す。プロット400では、生のDER(%)評価を使用したとき、標準的なトレーニングプロセスがカラーアウェアトレーニングプロセスを上回っている。図5は、標準的なトレーニングプロセスおよびカラーアウェアトレーニングプロセスについて、話者ターン境界の両側に250msのカラーを適用したカラーアウェアDER評価のプロット500を示す。ここで、250msは、式7に従って話者ターン境界の両側に適用される。注目すべきは、カラーアウェアDER評価を使用して評価したとき、カラーアウェアトレーニングプロセスが標準的なトレーニングプロセスを上回ることである。したがって、図5は、評価技術がカラーアウェアDER評価を含むとき、DIVEシステム200をトレーニングするためにカラーアウェアトレーニングを統合することが有益であることを示している。

図6は、受信された発話120に対して話者ダイアライゼーションを実行する方法600の例示的な動作配置のフローチャートである。データ処理ハードウェア112、144は、メモリハードウェア114、146上に記憶された命令を実行することによって方法600のための動作を実行し得る。動作602において、方法600は、複数の話者10、10a～nによって話された発話120に対応する入力オーディオ信号122を受信するステップを含む。動作604において、方法600は、入力オーディオ信号122をT個の時間的埋め込み220、220a～tのシーケンスに符号化するステップを含む。ここで、各時間的埋め込み220は、対応する時間ステップtに関連付けられ、対応する時間ステップtにおいて入力オーディオ信号122から抽出された音声コンテンツを表す。

複数の話者10のそれぞれの話者10に各々対応する複数の反復iの各々の間に、方法600は、動作606において、それぞれの話者10のためのそれぞれの話者埋め込み240、240a～nを選択するステップを含む。T個の時間的埋め込み220のシーケンス内の各時間的埋め込み220について、方法600は、動作608において、対応する時間的埋め込み220が、以前の反復i中に話者埋め込み240が以前に選択されなかった一人の新しい話者10による音声アクティビティの存在を含む確率(たとえば、信頼度c)を決定するステップを含む。動作610において、方法600は、それぞれの話者10のためのそれぞれの話者埋め込み240を、単一の新しい話者10による音声アクティビティの存在に対する最も高い確率に関連付けられたT個の時間的埋め込み220のシーケンスにおける時間的埋め込み(220)として選択するステップを含む。動作612は、方法600は、各時間ステップtにおいて、複数の反復iの間に選択されたそれぞれの話者埋め込み240および対応する時間ステップtに関連付けられた時間的埋め込み220に基づいて、複数の話者10のそれぞれの話者10についてのそれぞれの音声アクティビティインジケータ262を予測するステップを含む。ここで、それぞれの音声アクティビティインジケータ262は、対応する時間ステップtにおいて、それぞれの話者10の音声がアクティブであるか非アクティブであるかを示す。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含む。

非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェアのために使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

図7は、本明細書で説明するシステムおよび方法を実装するために使用され得る、例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを意図しており、本明細書で説明および/または請求する本発明の実装形態を限定することは意図していない。

コンピューティングデバイス700は、プロセッサ710と、メモリ720と、記憶デバイス730と、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740と、低速バス770および記憶デバイス730に接続する低速インターフェース/コントローラ760とを含む。構成要素710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続され、共通マザーボード上に、または適宜に他の方法で搭載され得る。プロセッサ710、すなわち、図1のデータ処理ハードウェア112、144は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース740に結合されたディスプレイ780などの外部入力/出力デバイス上に表示するための、メモリ720、すなわち、図1のメモリハードウェア114、146中、または記憶デバイス730、すなわち、図1のメモリハードウェア144、146上に記憶された命令を含む、コンピューティングデバイス700内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使用されてよい。また、複数のコンピューティングデバイス700が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ720は、コンピューティングデバイス700内に情報を非一時的に記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ720は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス700による使用のために、一時的または永続的に記憶するのに使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

記憶デバイス730は、コンピューティングデバイス700用の大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス730は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス730は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、あるいは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上記で説明したものなど、1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ720、記憶デバイス730、またはプロセッサ710上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ740は、コンピューティングデバイス700のための帯域幅集約的な動作を管理するが、低速コントローラ760は、帯域幅低集約的な動作を管理する。義務のそのような割振りは、例示的なものにすぎない。いくつかの実装形態において、高速コントローラ740は、メモリ720、ディスプレイ780に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート750に結合される。いくつかの実装形態において、低速コントローラ760は、記憶デバイス730および低速拡張ポート790に結合される。低速拡張ポート790は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。

コンピューティングデバイス700は、図に示すように、いくつかの異なる形態で実装され得る。たとえば、コンピューティングデバイス700は、標準的なサーバ700aとして、もしくはそのようなサーバ700aのグループで複数回、またはラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装され得る。

本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができ、プログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、かつそれらにデータおよび命令を送信するように結合され、専用または汎用であってもよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)は、プログラマブルプロセッサ用の機械命令を含み、高水準手続き型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。

本明細書で説明するプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行され得る。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得るか、専用論理回路に組み込まれ得る。

ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、随意に、それによってユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有する、コンピュータ上で実装され得る。他の種類のデバイスも、ユーザとの対話を提供するために使用されてよく、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形態で受信されてよい。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態について説明した。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態が、以下の特許請求の範囲内にある。

100 システム
110 ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
120 発話
122 入力オーディオ信号
130 完全接続ニューラルネットワーク
140 リモートシステム
142 拡張可能な/弾性のあるリソース
144 コンピューティングリソース
146 ストレージリソース
150 自動音声認識(ASR)モジュール
152 ASR結果
152 文字起こし
200 DIVEシステム
210 時間エンコーダ
220 時間的埋め込み
230 反復話者セレクタ
240 話者埋め込み
260 音声アクティビティ検出器
262 音声アクティビティインジケータ
280 ダイアライゼーション結果
301 トレーニングプロセス
302 トレーニングデータ
304 推論
350 話者ラベル
600 コンピュータ実装方法
700 コンピューティングデバイス
710 データ処理ハードウェア
720 メモリハードウェア
730 記憶デバイス
740 高速インターフェース
750 高速拡張ポート
760 低速コントローラ
780 ディスプレイ
790 低速拡張ポート

Claims

コンピュータ実装方法(600)であって、データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に、
複数の話者(10)によって話された発話(120)に対応する入力オーディオ信号(122)を受信することと、
前記入力オーディオ信号(122)をT個の時間的埋め込み(220)のシーケンスに符号化することであり、各時間的埋め込み(220)が、対応する時間ステップに関連付けられ、前記対応する時間ステップにおいて前記入力オーディオ信号(122)から抽出された音声コンテンツを表す、符号化することと、
前記複数の話者(10)のそれぞれの話者に各々対応する複数の反復の各々の間に、
T個の時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)について、前記対応する時間的埋め込み(220)が、以前の反復中に話者埋め込み(240)が以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することと、
前記それぞれの話者についてのそれぞれの話者埋め込み(240)を、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられたT個の時間的埋め込み(220)の前記シーケンスにおける前記時間的埋め込み(220)として選択することと
によって、前記それぞれの話者についてのそれぞれの話者埋め込み(240)を選択することと、
各時間ステップにおいて、前記複数の反復中に選択された前記それぞれの話者埋め込み(240)および前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)に基づいて、前記複数の話者(10)のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ(262)を予測することであり、前記それぞれの音声アクティビティインジケータ(262)は、前記対応する時間ステップにおいて前記それぞれの話者の音声がアクティブであるか非アクティブであるかを示す、予測することと
を含む動作を実行させる、コンピュータ実装方法(600)。
前記受信された入力オーディオ信号(122)における前記発話(120)の少なくとも一部が重複している、請求項1に記載のコンピュータ実装方法(600)。
前記入力オーディオ信号(122)が受信されたとき、前記複数の話者(10)の数が不明である、請求項1または2に記載のコンピュータ実装方法(600)。
前記動作が、前記入力オーディオ信号(122)を符号化する間に、前記入力オーディオ信号(122)から符号化されたT個の時間的埋め込み(220)の前記シーケンスをダウンサンプリングされた埋め込み空間に投影することをさらに含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法(600)。
時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)についての前記複数の反復の各々の間に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する時間的埋め込み(220)についての可能なイベントタイプの確率分布を決定することを含み、前記可能なイベントタイプが、
前記一人の新しい話者による音声アクティビティの前記存在、
以前の反復中に別のそれぞれの話者埋め込み(240)が以前に選択された、一人の前の話者の音声アクティビティの存在、
重複した音声の存在、および
沈黙の存在
を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法(600)。
前記対応する時間的埋め込み(220)についての可能なイベントタイプの前記確率分布を決定することが、
完全接続ネットワークを有するマルチクラス線形分類器への入力として、前記対応する時間的埋め込み(220)と、以前の反復中に以前に選択されたそれぞれの話者埋め込み(240)の平均を含む以前に選択された話者埋め込み(240)とを受信することと、
完全接続ネットワークを有する前記マルチクラス線形分類器を使用して、前記対応する時間的埋め込み(220)を、前記可能なイベントタイプの各々にマッピングすることと
を含む、請求項5に記載のコンピュータ実装方法(600)。
前記マルチクラス線形分類器が、トレーニングオーディオ信号(122)のコーパス上でトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、それぞれの話者ラベル(350)を含む、請求項6に記載のコンピュータ実装方法(600)。
最初の反復に続く各反復中に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込み(240)に基づく、請求項1から7のいずれか一項に記載のコンピュータ実装方法(600)。
前記動作が、前記複数の反復の各々の間に、
前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が、信頼度しきい値を満たすかどうかを決定することをさらに含み、
前記それぞれの話者埋め込み(240)を選択することが、前記信頼度しきい値を満たす前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率に条件付けられる、
請求項1から8のいずれか一項に記載のコンピュータ実装方法(600)。
前記動作が、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が前記信頼度しきい値を満たさないとき、前記複数の反復の各々の間に、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスすることをさらに含む、請求項9に記載のコンピュータ実装方法(600)。
前記動作が、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスした後、前記対応する反復に先立つ前記反復中に以前に選択された話者埋め込み(240)の数に基づいて、前記複数の話者(10)の数Nを決定することをさらに含む、請求項10に記載のコンピュータ実装方法(600)。
各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)、前記それぞれの話者について選択された前記それぞれの話者埋め込み(240)、および前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均に基づく、請求項1から11のいずれか一項に記載のコンピュータ実装方法(600)。
各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、並列の第1および第2の完全接続ニューラルネットワークを有する音声アクティビティ検出器(260)を使用することを含み、
前記音声アクティビティ検出器(260)の前記第1の完全接続ニューラルネットワーク(130)が、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)を投影するように構成されており、
前記音声アクティビティ検出器(260)の前記第2の完全接続ニューラルネットワーク(130)が、前記それぞれの話者のために選択された前記それぞれの話者埋め込み(240)と、前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均との連結を投影するように構成されている、
請求項1から12のいずれか一項に記載のコンピュータ実装方法(600)。
トレーニングプロセス(301)において、トレーニングオーディオ信号(122)のコーパス上で前記音声アクティビティインジケータ(262)がトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、対応する話者ラベル(350)を含む、請求項1から13のいずれか一項に記載のコンピュータ実装方法(600)。
前記トレーニングプロセス(301)が、話者ターン境界の周りの半径内に入る前記トレーニング時間的埋め込み(220)のいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセス(301)を含む、請求項14に記載のコンピュータ実装方法(600)。
システム(100)であって、
データ処理ハードウェア(710)と、
前記データ処理ハードウェア(710)と通信しているメモリハードウェア(720)とを備え、前記データ処理ハードウェア(710)によって実行されると、前記データ処理ハードウェア(710)に動作を行わせる命令を記憶し、前記動作が、
複数の話者(10)によって話された発話(120)に対応する入力オーディオ信号(122)を受信することと、
前記入力オーディオ信号(122)をT個の時間的埋め込み(220)のシーケンスに符号化することであり、各時間的埋め込み(220)が、対応する時間ステップに関連付けられ、前記対応する時間ステップにおいて前記入力オーディオ信号(122)から抽出された音声コンテンツを表す、符号化することと、
前記複数の話者(10)のそれぞれの話者に各々対応する複数の反復の各々の間に、
T個の時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)について、前記対応する時間的埋め込み(220)が、以前の反復中に話者埋め込み(240)が以前に選択されなかった一人の新しい話者による音声アクティビティの存在を含む確率を決定することと、
前記それぞれの話者についてのそれぞれの話者埋め込み(240)を、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられたT個の時間的埋め込み(220)の前記シーケンスにおける前記時間的埋め込み(220)として選択することと
によって、前記それぞれの話者についてのそれぞれの話者埋め込み(240)を選択することと、
各時間ステップにおいて、前記複数の反復中に選択された前記それぞれの話者埋め込み(240)および前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)に基づいて、前記複数の話者(10)のそれぞれの話者についてのそれぞれの音声アクティビティインジケータ(262)を予測することであり、前記それぞれの音声アクティビティインジケータ(262)は、前記対応する時間ステップにおいて前記それぞれの話者の音声がアクティブであるか非アクティブであるかを示す、予測することと
を含む、システム(100)。
前記受信された入力オーディオ信号(122)における前記発話(120)の少なくとも一部が重複している、請求項16に記載のシステム(100)。
前記入力オーディオ信号(122)が受信されたとき、前記複数の話者(10)の数が不明である、請求項16または17に記載のシステム(100)。
前記動作が、前記入力オーディオ信号(122)を符号化する間に、前記入力オーディオ信号(122)から符号化されたT個の時間的埋め込み(220)の前記シーケンスをダウンサンプリングされた埋め込み空間に投影することをさらに含む、請求項16から18のいずれか一項に記載のシステム(100)。
時間的埋め込み(220)の前記シーケンスにおける各時間的埋め込み(220)についての前記複数の反復の各々の間に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する時間的埋め込み(220)についての可能なイベントタイプの確率分布を決定することを含み、前記可能なイベントタイプが、
前記一人の新しい話者による音声アクティビティの前記存在、
以前の反復中に別のそれぞれの話者埋め込み(240)が以前に選択された、一人の前の話者の音声アクティビティの存在、
重複した音声の存在、および
沈黙の存在
を含む、請求項16から19のいずれか一項に記載のシステム(100)。
前記対応する時間的埋め込み(220)についての可能なイベントタイプの前記確率分布を決定することが、
完全接続ネットワーク(130)を有するマルチクラス線形分類器への入力として、前記対応する時間的埋め込み(220)と、以前の反復中に以前に選択されたそれぞれの話者埋め込み(240)の平均を含む以前に選択された話者埋め込み(240)とを受信することと、
完全接続ネットワーク(130)を有する前記マルチクラス線形分類器を使用して、前記対応する時間的埋め込み(220)を、前記可能なイベントタイプの各々にマッピングすることと
を含む、請求項20に記載のシステム(100)。
前記マルチクラス線形分類器が、トレーニングオーディオ信号(122)のコーパス上でトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、それぞれの話者ラベル(350)を含む、請求項21に記載のシステム(100)。
最初の反復に続く各反復中に、前記対応する時間的埋め込み(220)が前記一人の新しい話者による音声アクティビティの前記存在を含む前記確率を決定することが、前記対応する反復に先立つ各反復中に以前に選択された他のそれぞれの話者埋め込み(240)に基づく、請求項16から22のいずれか一項に記載のシステム(100)。
前記動作が、前記複数の反復の各々の間に、
前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が、信頼度しきい値を満たすかどうかを決定することをさらに含み、
前記それぞれの話者埋め込み(240)を選択することが、前記信頼度しきい値を満たす前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率に条件付けられる、
請求項16から23のいずれか一項に記載のシステム(100)。
前記動作が、前記一人の新しい話者による音声アクティビティの前記存在に関する最も高い確率に関連付けられた時間的埋め込み(220)の前記シーケンスにおける前記対応する時間的埋め込み(220)の前記確率が前記信頼度しきい値を満たさないとき、前記複数の反復の各々の間に、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスすることをさらに含む、請求項24に記載のシステム(100)。
前記動作が、前記対応する反復中に前記それぞれの話者埋め込み(240)の選択をバイパスした後、前記対応する反復に先立つ前記反復中に以前に選択された話者埋め込み(240)の数に基づいて、前記複数の話者(10)の数Nを決定することをさらに含む、請求項25に記載のシステム(100)。
各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)、前記それぞれの話者について選択された前記それぞれの話者埋め込み(240)、および前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均に基づく、請求項16から26のいずれか一項に記載のシステム(100)。
各時間ステップにおける前記複数の話者(10)のそれぞれの話者についての前記それぞれの音声アクティビティインジケータ(262)を予測することが、並列の第1および第2の完全接続ニューラルネットワークを有する音声アクティビティ検出器(260)を使用することを含み、
前記音声アクティビティ検出器(260)の前記第1の完全接続ニューラルネットワーク(130)が、前記対応する時間ステップに関連付けられた前記時間的埋め込み(220)を投影するように構成されており、
前記音声アクティビティ検出器(260)の前記第2の完全接続ニューラルネットワーク(130)が、前記それぞれの話者のために選択された前記それぞれの話者埋め込み(240)と、前記複数の反復中に選択されたすべての前記話者埋め込み(240)の平均との連結を投影するように構成されている、
請求項16から27のいずれか一項に記載のシステム(100)。
トレーニングプロセス(301)において、トレーニングオーディオ信号(122)のコーパス上で前記音声アクティビティインジケータ(262)がトレーニングされ、各トレーニングオーディオ信号(122)が、トレーニング時間的埋め込み(220)のシーケンスに符号化され、各トレーニング時間的埋め込み(220)が、対応する話者ラベル(350)を含む、請求項16から28のいずれか一項に記載のシステム(100)。
前記トレーニングプロセス(301)が、話者ターン境界の周りの半径内に入る前記トレーニング時間的埋め込み(220)のいずれかに関連付けられた損失を除去する、カラーアウェアトレーニングプロセス(301)を含む、請求項29に記載のシステム(100)。