JP7442631B2

JP7442631B2 - エンドツーエンドのマルチスピーカ視聴覚自動音声認識

Info

Publication number: JP7442631B2
Application number: JP2022522999A
Authority: JP
Inventors: オタヴィオ・ブラガ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-10-18
Filing date: 2020-10-02
Publication date: 2024-03-04
Anticipated expiration: 2040-10-02
Also published as: WO2021076349A1; US20230223012A1; CN114616620A; US11615781B2; EP4038607A1; US11900919B2; JP2022553233A; US20210118427A1; KR20220084359A

Description

本開示は、エンドツーエンドのマルチスピーカ視聴覚自動音声認識に関する。

自動音声認識(ASR)は、モバイルデバイスおよび他のデバイスにおいて使用される重要な技術である。一般に、自動音声認識は、人が言ったことの正確な文字起こしを提供しようとする。ノイズの多い環境、または録音された発話の音質が悪い場合、正確なASR結果を取得することは困難な作業になる可能性がある。話者のビデオデータが利用可能な場合、ASRの結果を向上させるためにビデオデータを活用することができる。たとえば、話者のビデオデータは、話者が発話を話している間の唇の動きを提供し得、これは、次に、ASR結果の処理を支援するために発話のオーディオデータと組み合わせることができる。

本開示の一態様は、視聴覚データから音声を文字起こしするための単一の視聴覚音声認識(AV-ASR)モデルを提供する。AV-ASRモデルは、視聴覚データのオーディオトラックおよび視聴覚データのビデオ部分を受信するように構成された注意メカニズムを有するエンコーダフロントエンドを含む。視聴覚データのビデオ部分は、複数のビデオ顔トラックを含む。複数のビデオ顔トラックの各ビデオ顔トラックは、それぞれの人の顔に関連付けられている。複数のビデオ顔トラックのうちのビデオ顔トラックごとに、注意メカニズムは、ビデオ顔トラックに関連付けられるそれぞれの人の顔がオーディオトラックの話し顔を含む可能性を示す信頼スコアを決定するようにさらに構成される。AV-ASRモデルは、オーディオトラックの音声認識結果を決定するために、最高の信頼スコアに関連付けられるオーディオトラックおよび複数のビデオ顔トラックのうちのビデオ顔トラックを処理するように構成されたデコーダをさらに含む。

本開示の実装形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、単一のAV-ASRモデルはシーケンス間モデルを含む。たとえば、AV-ASRモデルは、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデルを含み得る。デコーダは、オーディオトラックのストリーミング文字起こしを提供するために、オーディオトラックの音声認識結果をリアルタイムで発信するように構成され得る。いくつかの例では、単一のAV-ASRモデルは、複数のビデオ顔トラックのうちのどのビデオ顔トラックがオーディオトラックの話し顔を備えるかをハード選択するための別個の顔選択システムを含まない。

注意メカニズムは、複数のビデオ顔トラックの注意加重視覚特徴ベクトルを出力として生成するように構成され得る。ここで、注意加重視覚特徴ベクトルは、オーディオトラックの話し顔を含む可能性が最も高いそれぞれの人の顔を含む複数のビデオ顔トラックのうちのビデオ顔トラックのソフト選択を表す。追加的または代替的に、注意メカニズムは、注意メカニズムに、最高の信頼スコアに関連付けられる複数のビデオ顔トラックのうちのビデオ顔トラックを、オーディオトラックの話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を含み得る。

いくつかの例では、エンコーダフロントエンドは、トレーニングオーディオトラック、第1のトレーニングビデオ顔トラック、および1つまたは複数の第2のビデオ顔トラックを含むトレーニングデータセットにおいてトレーニングされる。トレーニングオーディオトラックは、1つまたは複数の発話を含み、第1のトレーニングビデオトラックは、トレーニングオーディオトラックの1つまたは複数の発話の正しい話し顔を含む。各第2のトレーニングビデオ顔トラックは、トレーニングオーディオトラックの1つまたは複数の発話の誤った話し顔を含む。これらの例では、トレーニング中に、注意メカニズムは、トレーニングオーディオトラックの1つまたは複数の発話の正しい話し顔として第1のトレーニングビデオ顔トラックをゲート制御する方法を学習するように構成される。ここで、注意メカニズムはクロスエントロピ損失を用いてトレーニングされ得る。

本開示の別の態様は、視聴覚データから音声を文字起こしするための方法を提供する。本方法は、単一の視聴覚自動音声認識(AV-ASR)モデルのエンコーダフロントエンドの注意メカニズムにおいて、視聴覚データのオーディオトラックおよび視聴覚データのビデオ部分を受信するステップを含む。視聴覚データのビデオ部分は、複数のビデオ顔トラックを含み、複数のビデオ顔トラックの各ビデオ顔トラックは、それぞれの人の顔に関連付けられている。複数のビデオ顔トラックのうちのビデオ顔トラックごとに、本方法はまた、注意メカニズムによって、ビデオ顔トラックに関連付けられるそれぞれの人の顔がオーディオトラックの話し顔を備える可能性を示す信頼スコアを決定するステップを含む。本方法はまた、単一のAV-ASRモデルのデコーダによってオーディオトラックの音声認識結果を決定するために、最高の信頼スコアに関連付けられるオーディオトラックおよび複数のビデオ顔トラックのうちのビデオ顔トラックを処理するステップを含む。

本態様は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、単一のAV-ASRモデルはシーケンス間モデルを含む。たとえば、AV-ASRモデルは、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデルを含み得る。デコーダは、オーディオトラックのストリーミング文字起こしを提供するために、オーディオトラックの音声認識結果をリアルタイムで発信するように構成され得る。いくつかの例では、単一のAV-ASRモデルは、複数のビデオ顔トラックのうちのどのビデオ顔トラックがオーディオトラックの話し顔を備えるかをハード選択するための別個の顔選択システムを含まない。

いくつかの例では、複数のビデオ顔トラックのうちのビデオ顔トラックごとの信頼スコアを決定するステップは、複数のビデオ顔トラックの注意加重視覚特徴ベクトルを生成するステップを含む。ここで、注意加重視覚特徴ベクトルは、オーディオトラックの話し顔を備える可能性が最も高いそれぞれの人の顔を含む複数のビデオ顔トラックのうちのビデオ顔トラックのソフト選択を表す。追加的または代替的に、注意メカニズムは、注意メカニズムに、最高の信頼スコアに関連付けられる複数のビデオ顔トラックのうちのビデオ顔トラックを、オーディオトラックの話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を含み得る。

いくつかの実装形態では、本方法はまた、トレーニングオーディオトラック、第1のトレーニングビデオ顔トラック、および1つまたは複数の第2のビデオ顔トラックを含むトレーニングデータセットにおいてエンコーダフロントエンドをトレーニングするステップを含む。トレーニングオーディオトラックは、1つまたは複数の発話を含み、第1のトレーニングビデオトラックは、トレーニングオーディオトラックの1つまたは複数の発話の正しい話し顔を含む。各第2のトレーニングビデオ顔トラックは、トレーニングオーディオトラックの1つまたは複数の発話の誤った話し顔を含む。これらの例では、エンコーダフロントエンドをトレーニングするステップは、トレーニングオーディオトラックの1つまたは複数の発話の正しい話し顔として、第1のトレーニングビデオ顔トラックをゲート制御する方法を学習するように注意メカニズムをトレーニングするステップを含む。ここで、注意メカニズムはクロスエントロピ損失を用いてトレーニングされ得る。

本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

視聴覚データから音声を文字起こしするための単一の視聴覚自動音声認識モデルを含む例示的なマルチスピーカ環境の概略図である。図1の単一の視聴覚自動音声認識モデルの例の概略図である。図1の単一の視聴覚自動音声認識モデルのエンコーダフロントエンドをトレーニングするための例示的なトレーニングプロセスの概略図である。視聴覚データから音声を文字起こしする方法の動作の例示的な配置である。本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面における同様の参照記号は、同様の要素を示す。

視聴覚(A/V)自動音声認識(ASR)は、話者から話されたオーディオデータに加えて、話者の顔のビデオデータを活用することによって、従来のASRをより堅牢にすることができる。現実的な設定では、画像に複数の顔がある場合、各時点でオーディオトラックの話し顔として指定する顔を決定する必要がある。A/V ASRの従来のパイプラインは、顔追跡モジュール、アクティブスピーカ選択モデル、およびA/V ASRモデルを含む、システム/モデルのシーケンスを含む。顔追跡モジュールは、オーディオビデオデータ内の顔を検出および追跡し、アクティブスピーカ選択モデルは、オーディオの部分ごとに話し顔を選択し、選択された話し顔の顔トラックおよび対応するオーディオトラックをA/V ASRモデルに渡す。A/V ASRモデルは、オーディオビデオデータのセグメントの音声認識仮説(たとえば、予測された文字起こし)を出力するために、アクティブスピーカ選択モデルによって選択されたオーディオトラックおよび顔トラックを使用する。

従来、アクティブスピーカ選択モデルおよびA/V ASRモデルは、別々にトレーニングされた別々のモデルであり、互いに独立している。すなわち、A/V ASRモデルは、従来、オーディオトラックの所与の部分に対して選択された話し顔であると想定される単一の顔トラックを用いてトレーニングされている。この従来の手法では、A/V ASRモデルのパフォーマンス(たとえば、文字起こしの正確さ)は、オーディオビデオデータにおいて正しい話し顔を正確に選択するための別個のアクティブスピーカ選択モデルの機能に依存する。そうしないと、アクティブスピーカ選択モデルによる間違った話し顔の選択は、A/V ASRモデルによるパフォーマンスの低下につながる。

本明細書の実装形態は、A/V ASRモデルが、音声認識を支援するためにオーディオトラックの各セグメントの正しい顔トラックをゲート制御する方法を学習できるように、複数の顔トラックおよびオーディオトラックを同時に用いてビデオデータ上で単一のA/V ASRモデルエンドツーエンド(E2E)をトレーニングすることを目的としている。したがって、複数の顔トラックで動作するように単一のA/V ASRモデルをトレーニングすることによって、本明細書の実装形態は、複数の顔を追跡し、単一の顔トラックとしてA/V ASRモデルに渡された正しい話し顔を検出することを任務とする別個のアクティブスピーカ選択モデルの必要性を破棄する。簡単に言えば、マルチスピーカA/V ASRタスクの場合、単一のA/V ASRモデルは、複数の顔トラックおよびオーディオトラックを備えた視聴覚入力を受信することと、オーディオトラックの部分ごとに話し顔として適切な顔トラックをソフト選択し、オーディオトラックの部分ごとに音声認識結果を決定する際にデコーダ部分を支援するために、エンコーダフロントエンドにおいて注意層を使用することとを行うように構成される。

別々にトレーニングされたアクティブスピーカの選択と、それぞれが同様の役割を実行する可能性のある別々のビジュアルフロントエンドに依存するA/V ASRモデルに依存するのとは対照的に、複数の顔ビデオトラックを処理するように単一のA/V ASRモデルをトレーニングすると、別個のビジュアルフロントエンドによって実行される同様のタスクに関連付けられる冗長性を排除することによって計算パフォーマンスが向上する。さらに、A/V ASRモデルへの唯一の入力が、標準のコンピュータービジョンにおける一般的なコンポーネントである顔トラッカモジュールからの出力であるため、単一のA/V ASRモデルのE2Eの性質により、サブシステム間の調整が簡素化される。明らかになるように、別個のアクティブな顔選択モデルを使用する従来の技法の場合のように、アクティブな顔トラックを選択するために早期の難しい決定は必要とされないため、単一のA/V ASRモデルはまた、マルチスピーカASRタスクにおいてより堅牢な音声認識を提供する。代わりに、単一のA/V ASRモデルは、アクティブな顔トラック(すなわち、アクティブな話し顔に関連付けられる顔トラック)をソフト選択するために、注意メカニズムを使用し、それによって、たとえ間違った顔トラックに高い確率が割り当てられている場合でも、A/V ASRモデルの残りの部分を自然に適応させることができる。正しいアクティブ顔トラックを選択するために別個のアクティブスピーカ選択モデルを使用することも、トレーニング中にエミュレートすることが難しい、時間の経過に伴う別個のスピーカの変化のダイナミクスに敏感である。

図1を参照すると、いくつかの実装形態では、環境100は、会議(たとえば、ビデオ会議)に出席する複数の参加者10、10a～jを含む。ここで、環境100は、6人の参加者10a～fがホスト会議室における会議(たとえば、ビデオ会議)に出席するホスト会議室である。環境100は、リモートシステム130からネットワーク120を介して1つまたは複数のコンテンツフィード12(マルチメディアフィード、コンテンツストリーム、またはフィードとも呼ばれる)を受信するユーザデバイス110を含む。図示されている例では、ユーザデバイス110は、それぞれが異なるリモート会議室に対応する2つのフィード12a、12bを受信する。ここで、第1のフィード12aは、ニューヨークのリモートオフィスから会議に参加する3人の参加者10、10g～iを含み、第2のフィードは、参加者10jの離れた場所にある住居から参加する1人の参加者10、10jを含む。各コンテンツフィード12は、オーディオトラックに対応するオーディオ部分210、および1つまたは複数のビデオ顔トラック230を含むビデオ部分220を含む視聴覚データ204に対応し得る(図2)。本明細書で使用される場合、「オーディオトラック」および「オーディオ部分」という用語は、交換可能に使用され得る。ビデオ部分220は、ビデオコンテンツ、ビデオ信号、またはビデオストリームなどの画像データに関連付けられ得る。ユーザデバイス110は、視聴覚データ204のビデオ部分220を表示するように構成されたディスプレイ111を含むか、またはそれと通信している。ユーザデバイス110はまた、視聴覚データ204のオーディオ部分210を聴覚的に出力するように構成されたオーディオスピーカ112を含むか、またはそれと通信している。

それぞれのコンテンツフィード12を介してリモート会議室から視聴覚データ204を受信することに加えて、ユーザデバイス110は、ホスト会議室から視聴覚データ204をキャプチャするための1つまたは複数の周辺機器116を含むか、またはそれと通信している。たとえば、オーディオキャプチャデバイス116、116a(たとえば、1つまたは複数のマイクロフォンのアレイ)は、参加者10a～gによって話される発話14をキャプチャし、キャプチャされた発話14を視聴覚データの204のオーディオ部分210に対応するオーディオデータに変換するように構成される。一方、画像キャプチャデバイス116、116b(たとえば、1つまたは複数のカメラ)は、視聴覚データ204のビデオ部分220に対応する画像データをキャプチャするように構成される。ここで、ビデオ部分220は、参加者10a～gのうちのそれぞれの1人の顔にそれぞれ関連付けられるビデオ顔トラック230を含む。いくつかの構成では、画像キャプチャデバイス116bは、環境100の全景をキャプチャするために、ユーザデバイス110の周りを360度キャプチャするように構成される。たとえば、画像キャプチャデバイス116bは、360度ビューをキャプチャするように構成されたカメラのアレイを含む。

リモートシステム130は、スケーラブル/弾性リソース132を有する分散システム(たとえば、クラウドコンピューティング環境またはストレージ抽象化)であり得る。リソース132は、コンピューティングリソース134(たとえば、データ処理ハードウェア)および/またはストレージリソース136(たとえば、メモリハードウェア)を含む。いくつかの実装形態では、リモートシステム130は、環境100を調整するソフトウェアをホストする(たとえば、コンピューティングリソース132上で)。たとえば、リモートシステム130のコンピューティングリソース132は、リアルタイム通信アプリケーションまたは特殊会議プラットフォームなどのソフトウェアを実行する。いくつかの例では、顔トラッカモジュールは、視聴覚データ204のビデオ部分220内のビデオ顔トラック230を検出するために、データ処理ハードウェア114上で実行される。

図示される例では、ユーザデバイス110は、データ処理ハードウェア114と、データ処理ハードウェア114と通信し、データ処理ハードウェア114上で実行されるとデータ処理ハードウェア114に動作を実行させる命令を記憶するメモリハードウェア118とを含む。いくつかの例では、顔トラッカモジュールは、視聴覚データ204のビデオ部分220内のビデオ顔トラック230を検出するために、データ処理ハードウェア114上で実行される。ユーザデバイス110のいくつかの例は、ビデオ会議コンピューティングデバイス、コンピュータ、ラップトップ、モバイルコンピューティングデバイス、テレビ、モニタ、スマートデバイス(たとえば、スマートスピーカ、スマートディスプレイ、スマートアプライアンス)、ウェアラブルデバイスなどを含む。

引き続き図1を参照すると、視聴覚自動音声認識(AV-ASR)モデル200は、視聴覚データ204のオーディオトラック210から文字起こし250を生成するために、視聴覚データ204を処理する。特に、以下で図2を参照してより詳細に説明するように、AV-ASRモデル200は、視聴覚データ204のオーディオトラック210およびビデオ部分220内で検出された複数のビデオ顔トラック230の両方を受信する単一のエンドツーエンドモデルを含み、ビデオ顔トラック230のうちのどれが、オーディオトラック210のアクティブな話し顔を含む可能性が最も高いかを決定する。次いで、AV-ASRモデル200は、オーディオトラック210からの音声の文字起こしを支援するために、オーディオトラック210のアクティブな話し顔を含む可能性が最も高いビデオ顔トラック230を使用する。したがって、ビデオ部分220の使用は、ビデオ顔トラック230がAV-ASRモデル200に視覚的特徴(たとえば、顔の特徴/唇)を提供するので、オーディオトラック210の文字起こし250の精度を高める。いくつかの特定の例では、オーディオが音声障害のある話者に関連付けられている場合、音声認識にオーディオのみを使用することは困難である。ビデオ部分は、ユーザからの唇の動きをオーディオデータと一致して特定の音声障害と相関させる技法を使用して、音声認識の精度を向上させることができる。

ユーザデバイス110に関連付けられるディスプレイ111は、AV-ASRモデル200によって生成された文字起こし250を表示し得る。AV-ASRモデル200は、ディスプレイ111および/または遠隔地にいる参加者10h～j、10kに関連付けられるディスプレイに出力するために、文字起こし250をリアルタイムでストリーミングし得る。追加的または代替的に、文字起こし250は、メモリハードウェア118、136に保存され、後で閲覧するために取り出され得る。AV-ASRモデル200は、ユーザデバイス110のデータ処理ハードウェア114上で実行し得、それによって、ユーザデバイス110が、サーバ(たとえば、リモートシステム130)上で音声認識を実行する必要なしに、デバイス上での音声認識を実行することを可能にする。デバイス上の音声認識は、サーバとのネットワーク接続を確立する要件を軽減し、帯域幅の制約による遅延を招き、またユーザがサーバと共有したくない可能性があるデータを保持する。さらに、ユーザデバイス110上でAV-ASRモデル200を実行することは、データ204が処理のためにサーバに送信された場合に必要とされる可能性があるように、オーディオ部分210またはビデオ部分220のいずれもネットワーク帯域幅の制約を満たすために圧縮される必要がないので、より忠実な視聴覚データ204の使用を許可し得る。

AV-ASRモデル200はまた、リモートシステム130のデータ処理ハードウェア134上で実行し得る。たとえば、リモートシステム130のデータ処理ハードウェア344は、AV-ASRモデル200を実行するために、リモートシステム130のメモリハードウェア136に記憶された命令を実行し得る。ここで、AV-ASRモデル200は、上記のように文字起こし250を生成するために、マルチスピーカ視聴覚データ204を処理し得る。リモートシステム130は、ディスプレイ111上に表示するために、ネットワーク120を介して文字起こし250をユーザデバイス110に送信し得る。リモートシステム134は、同様に、文字起こし250を、第1のフィード12aに対応する参加者10g～i、および/または第2のフィード12bに対応する参加者10jに関連付けられるコンピューティングデバイス/ディスプレイデバイスに送信し得る。

リモートシステム130のデータ処理ハードウェア134は、クライアントデバイスでは達成できない処理能力の向上を提供し得、メモリの制約に限定されず、それによって、精度を高めるためにより多くのパラメータを備えたより大きいモデルの使用を可能にする。いくつかの例では、AV-ASRモデル200のいくつかの部分は、ユーザデバイス110上で実行され、一方、AV-ASRモデル200の他の部分は、リモートシステム(たとえば、サーバ)130上で実行される。

図2は、オーディオトラック210の音声認識結果248を決定するために、オーディオトラック210と、複数の顔トラック230、230a～cを有するビデオ部分220とを含む視聴覚データ204を受信するように構成された、図1のエンドツーエンドの単一のAV-ASRモデル200の例を提供する。図1の例示的な環境100は、ビデオ会議シナリオに由来する視聴覚データ204を示しており、視聴覚データ204の単一のフィードは、任意のソースから到着し得る。たとえば、AV-ASRモデル200は、映画または生放送のテレビ放送などのメディアコンテンツから視聴覚データ204の単一のフィードを受信し得る。このシナリオでは、AV-ASRモデル200は、同様に、オーディオトラック210の音声認識結果248を決定する際に支援するために、視聴覚データ204のビデオ部分220を使用し、したがって、ディスプレイ(たとえば、テレビ画面)上でクローズドキャプションとして提供され得るオーディオトラック210内の音声の文字起こし250を提供し得る。

各ビデオ顔トラック230は、それぞれの人10の顔に関連付けられている。AV-ASRモデル200は、3つのビデオ顔トラック230a～cを受信するものとして例において示されているが、AV-ASRモデル200が受信し、その後処理するビデオ顔トラック230の数は無制限である。したがって、AV-ASRモデル200は、3つ未満のビデオ顔トラック230、または他の例では3つを超えるビデオ顔トラックを受信し得る。特に、単一のAV-ASRモデル200は、複数のビデオ顔トラックのうちのどのビデオ顔トラック230がオーディオトラックの話し顔を含むかをハード選択するための別個の顔選択システムを含まない。

AV-ASRモデル200は、エンコーダ部分(「エンコーダ」)260およびデコーダ部分(「デコーダ」)280を含む。AV-ASRモデル200は、シーケンス間モデルを含み得る。いくつかの例では、AV-ASRモデル200は、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデルを含む。視聴覚RNN-Tは、エンコーダ260の層正規化を使用する512ユニットの5つの双方向長短期記憶(BiLSTM)層のスタックと、デコーダ280の文字トークンを備えた2048ユニットの2つのLSTM層を含み得る。

エンコーダ260は、注意メカニズム270を含むエンコーダフロントエンドに関連付けられている。注意メカニズム270は、ニューラルネットワークモデル200のエンコーダ部分260内の注意層に関連付けられ得る。エンコーダは、視聴覚データ204のオーディオトラック210と、複数のビデオ顔トラック230、230a～cを含む視聴覚データ204のビデオ部分220とを受信するように構成される。オーディオトラック210は、連続するオーディオフレーム間に10ミリ秒のステップで25ミリ秒(ms)のオーディオフレームにセグメント化され得る。対数関数でその範囲を圧縮するために80メルフィルタバンクチャネルなどのメルスペクトルエネルギをオーディオフレームごとに計算して、その後、240次元の音響特徴ベクトル210a～nを生成するために、30ミリ秒ごとに3つの連続する特徴ベクトルごとに折りたたむことができる。したがって、エンコーダ部分は、オーディオトラック210から導出された音響特徴ベクトル210a～nを受信して処理する。

ビデオ顔トラック230ごとに、注意メカニズム270は、対応するビデオ顔トラック230に関連付けられるそれぞれの人の顔がオーディオトラック210の話し顔を含む可能性を示す対応する信頼スコアを決定する。いくつかの実装形態では、注意メカニズム270は、注意メカニズム270に、最高の信頼スコアに関連付けられる複数のビデオ顔トラック230a～cのうちのビデオ顔トラック230を、オーディオトラック110の話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を含む。AV-ASRモデル200のデコーダ部分280は、オーディオトラック210の音声認識結果248を決定するために、最高の信頼スコアを有するオーディオトラック210および複数のビデオ顔トラック230a～cのうちのビデオ顔トラック230を処理するように構成される。

いくつかの例では、注意メカニズム270は、対応するビデオ顔トラック230に関連付けられる視覚的特徴ベクトルに適用される対応する注意加重として、各ビデオ顔トラック230に関連付けられる信頼度を表す。したがって、注意メカニズム270は、オーディオトラック210の対応する同期セグメント(たとえば、音響特徴ベクトル)のアクティブな話し顔を含む可能性が最も高いビデオ顔トラック230をソフト選択する複数のビデオ顔トラック230に対して注意加重視覚特徴ベクトル272を出力し得る。

いくつかの実装形態では、エンコーダ260は、各時間ステップにおいて対応する組み合わされた特徴ベクトルを提供するために、アクティブな話し顔に関連付けられるビデオ顔トラック230を音響特徴ベクトルとソフト選択する注意加重視覚特徴ベクトル272を連結する。各時間ステップにおいて組み合わされた特徴ベクトルは、最高の信頼スコアに関連付けられるオーディオトラック210および複数のビデオ顔トラックのうちのビデオ顔トラック230のエンコーディングを示す。したがって、各時間ステップにおいて、デコーダ部分280は、オーディオトラック210の対応する音声認識結果248を決定するために、組み合わされた特徴ベクトルをデコードするように構成される。各時間ステップにおける音声認識結果248は、可能な認識結果の確率分布を含み得る。例では、AV-ASRモデル200が視聴覚RNN-Tモデルである場合、モデル200は、ストリーミング方式で各時間ステップにおいて音声認識結果248を発信し得る。音声認識結果は、文字、スペース、ワードピース、または単語を含み得る。オーディオトラック210の文字起こし250を提供するために、複数の音声認識結果248を組み合わせることができる。したがって、視聴覚RNN-Tモデルは、オーディオトラック210の文字起こし250をリアルタイムでストリーミングすることができる。いくつかの例では、オーディオトラック210は、第1の言語で話された音声を含み、デコーダ280は、第1の言語で話された音声の翻訳として、第2の言語で対応する音声認識結果248を決定するように構成される。

いくつかの例では、AV-ASRモデル200は、文字起こしされたコンテンツのソースを識別するために、文字起こし250に話者ラベル255を提供するようにさらに構成される。たとえば、文字起こしされたコンテンツの話者にラベルを付けることは、「誰が何を話したか」および「誰がいつ話したか」の両方に答えるための話者ダイアリゼーションと呼ばれ得る。したがって、視聴覚データ204のビデオ部分220を活用することによって、AV-ASRモデル200は、「誰が何を話したか」および「誰がいつ話したか」を識別するために、文字起こし250の各セグメントに割り当てられた対応する話者ラベル255を含むダイアリゼーション結果を提供し得る。

図3は、音声認識を支援するためにオーディオトラックのセグメントごとに正しいビデオ顔トラック230をゲート制御する方法を学習するために、AV-ASRモデル200のエンコーダ部分260をトレーニングするための例示的なトレーニングプロセス300を示している。エンコーダ部分260は、トレーニングオーディオトラック210T、第1のトレーニングビデオ顔トラック230Ta、および1つまたは複数の第2のトレーニングビデオ顔トラック230Tbを含むトレーニングデータセット302においてトレーニングされる。トレーニングオーディオトラック210は、1つまたは複数の発話を含む。第1のトレーニングビデオ顔トラック230Taは、トレーニングオーディオトラック210Tの1つまたは複数の発話の正しい話し顔を含む。第1のトレーニングビデオ顔トラック230Taは、グラウンドトゥルースの正しい顔ラベル232Cとペアになっている。各第2のトレーニングビデオ顔トラック230Tbは、オーディオトラック210の1つまたは複数の発話の誤った話し顔を含む。各第2のトレーニングビデオ顔トラック230Tbは、グラウンドトゥルースの誤った顔ラベル232Iとペアになっている。

トレーニングプロセス300中の複数の時間ステップの各々において、エンコーダ部分260は、入力として、トレーニングオーディオトラック210T、第1のトレーニングビデオ顔トラック230Ta、および1つまたは複数の第2のトレーニングビデオ顔トラック230Tbを受信し、また、注意メカニズム270を介して、出力として、時間ステップにおいてオーディオトラック210のアクティブな話し顔を含む可能性が最も高いビデオ顔トラック230Ta、230Tbのソフト選択に対応する注意加重視覚特徴ベクトル272を生成/予測する。注意加重視覚特徴ベクトル272を計算する代わりに、エンコーダ部分260は、オーディオトラック210の正しい話し顔を含む可能なトレーニングビデオ顔トラック230Tにわたって予測された確率分布を出力し得る。

注意加重視覚特徴ベクトル272(または、確率分布)は、オーディオトラック210の正しい話し顔を含むものとして第1のトレーニングビデオ顔トラック230Taをソフト選択する際の注意メカニズム270の精度を示す損失項325(すなわち、損失関数)を決定するために損失モジュール320に供給される。したがって、損失モジュール320は、第1のトレーニングビデオ顔トラック210Taとペアにされた正しい話し顔ラベル232C、および各第2のトレーニングビデオ顔トラック210Tbとペアにされた誤った話し方ラベル232Iをグラウンドトゥルースとして受信する監視された損失項モジュールである。損失項325は、注意メカニズムのクロスエントロピ損失を示し、注意メカニズム270を教示して、トレーニングオーディオトラック210の1つまたは複数の発話の正しい話し顔として第1のトレーニングビデオ顔トラック230Taをゲート制御する方法を学習するために、注意メカニズム270にフィードバックされる。したがって、損失項325は、注意メカニズム270のパラメータを更新することによって、勾配降下クロスエントロピ損失で注意メカニズム270をトレーニングする。

図4は、視聴覚データ204から音声14を文字起こしするために、単一の視聴覚自動音声認識(AV-ASR)モデル200を使用する方法400の動作の例示的な配置のフローチャートを提供する。単一のAV-ASRモデル200および方法400の動作は、図1のユーザデバイス110のデータ処理ハードウェア114、図1のリモートシステム(たとえば、分散システム)130のデータ処理ハードウェア134、またはそれらの組合せ上で実行し得る。

動作402において、方法400は、単一のAV-ASRモデル200のエンコーダフロントエンド460の注意メカニズム470において、視聴覚データ402のオーディオトラック210と、視聴覚データ402のビデオ部分220とを受信するステップを含む。ビデオ部分220は、複数のビデオ顔トラック230を含む。複数のビデオ顔トラック230の各ビデオ顔トラック230は、それぞれの人の顔に関連付けられている。

動作404において、複数のビデオ顔トラックのうちのビデオ顔トラック230ごとに、方法400はまた、注意メカニズム270によって、ビデオ顔トラック230に関連付けられるそれぞれの人の顔がオーディオトラック210の話し顔を含む可能性を示す信頼スコアを決定するステップを含む。ここで、複数のビデオ顔トラック230のうちのビデオ顔トラック230ごとの信頼スコアを決定するステップは、複数のビデオ顔トラック230の注意加重視覚特徴ベクトル272を生成する注意メカニズム270を含み得る。注意加重視覚特徴ベクトル272は、オーディオトラック210の話し顔を含む可能性が最も高いそれぞれの人の顔を含む、複数のビデオ顔トラック230のうちのビデオ顔トラック230のソフト選択を表し得る。いくつかの例では、注意メカニズム270は、注意メカニズム270に、最高の信頼スコアに関連付けられる複数のビデオ顔トラック230のうちのビデオ顔トラック230を、オーディオトラック210の話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を含む。

動作406において、方法400は、単一のAV-ASRモデル200のデコーダ280によってオーディオトラック210の音声認識結果248を決定するために、最高の信頼スコアに関連付けられるオーディオトラック210および複数のビデオ顔トラック230のうちのビデオ顔トラック230を処理するステップを含む。いくつかの例では、デコーダ280は、オーディオトラック210のストリーミング文字起こし250を提供するために、オーディオトラック210の音声認識結果248をリアルタイムで発信するように構成される。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれ得る。アプリケーションの例は、これらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。

非一時的メモリは、コンピューティングデバイスによって使用するために一時的または永続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性のアドレス可能な半導体メモリであり得る。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/電子的消去可能プログラム可能読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。

図5は、本明細書に記載されているシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。本明細書に示されているコンポーネント、それらの接続および関係、ならびにそれらの機能は、単なる例示を意味するものであり、本明細書において記載および/または主張されている発明の実装形態を制限することを意味するものではない。

コンピューティングデバイス500は、プロセッサ510、メモリ520、ストレージデバイス530、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540、ならびに低速バス570およびストレージデバイス530に接続する低速インターフェース/コントローラ560を含む。コンポーネント510、520、530、540、550、および560の各々は、様々なバスを使用して相互接続されており、共通のマザーボードに、または必要に応じて他の方法で取り付けられ得る。プロセッサ510は、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上のグラフィカルユーザインターフェース(GUI)のグラフィック情報を表示するために、メモリ520またはストレージデバイス530に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実装形態では、複数のメモリおよびメモリのタイプとともに、必要に応じて、複数のプロセッサおよび/または複数のバスが使用され得る。また、複数のコンピューティングデバイス500が接続され得、各デバイスは、必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。

メモリ520は、コンピューティングデバイス500内に非一時的に情報を記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ520は、コンピューティングデバイス500によって使用するために一時的または永続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/電子的消去可能プログラム可能読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。

ストレージデバイス530は、コンピューティングデバイス500に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス530は、コンピュータ可読媒体である。様々な異なる実施形態では、ストレージデバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品は、情報キャリアに有形に具体化される。コンピュータプログラム製品は、実行されると、上記のような1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ520、ストレージデバイス530、またはプロセッサ510上のメモリなどの、コンピュータ可読または機械可読媒体である。

高速コントローラ540は、コンピューティングデバイス500の帯域幅を大量に消費する動作を管理し、低速コントローラ560は、低帯域幅を大量に消費する動作を管理する。そのような役目の割当ては模範的なものにすぎない。いくつかの実装形態では、高速コントローラ540は、メモリ520、ディスプレイ580に(たとえば、グラフィックプロセッサまたはアクセラレータを通じて)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート550に結合される。いくつかの実装形態では、低速コントローラ560は、ストレージデバイス530および低速拡張ポート590に結合されている。様々な通信ポート(たとえば、USB、ブルートゥース（登録商標）、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力デバイス、または、たとえばネットワークアダプタを通じて、スイッチまたはルータなどのネットワークデバイスに結合され得る。

コンピューティングデバイス500は、図面に示されるように、いくつかの異なる形態において実装され得る。たとえば、コンピューティングデバイス500は、標準サーバ500aとして、またはそのようなサーバ500aのグループ内で複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装され得る。

本明細書に記載のシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、かつそこにデータおよび命令を送信するために結合された、専用または汎用であり得る、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラム可能なプロセッサの機械命令を含み、高レベルの手続き型言語および/もしくはオブジェクト指向プログラミング言語において、ならびに/またはアセンブリ言語/機械語において実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機械命令および/またはデータを機械可読信号として機械命令を受信する機械可読媒体を含むプログラム可能なプロセッサに提供するために使用される装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラム可能なプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。

本明細書に記載のプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能なプロセッサによって実行することができ、入力データに対して動作して出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを実行する。プロセスおよび論理フローは、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは読取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの重要な要素は、命令を実行するためのプロセッサならびに、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、あるいはそこからデータを受信するか、もしくはデータをそこに転送するか、またはその両方に動作可能に結合される。しかしながら、コンピュータにそのようなデバイスが必要なわけではない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、たとえば、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスクならびにCDROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完されてもよく、またはそれに組み込まれてもよい。

ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはユーザに情報を表示するためのタッチスクリーン、ならびに任意で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上に実装することができる。ユーザとの対話を提供するために他の種類のデバイスも使用することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなどのあらゆる形態の感覚的フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態が説明されてきた。それにもかかわらず、本開示の趣旨および範囲から逸脱することなしに、様々な変更が行われてよいことが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内にある。

10 それぞれの人
10、10a～j 参加者
10a～g 参加者
10h～j、10k 参加者
12 コンテンツフィード
12a 第1のフィード
12b 第2のフィード
14 発話
14 音声
100 環境
110 ユーザデバイス
111 ディスプレイ
112 オーディオスピーカ
114 データ処理ハードウェア
116 周辺機器
116、116a オーディオキャプチャデバイス
116、116b 画像キャプチャデバイス
118 メモリハードウェア
120 ネットワーク
130 リモートシステム
132 スケーラブル/弾性リソース
134 コンピューティングリソース、データ処理ハードウェア
136 ストレージリソース、メモリハードウェア
200 AV-ASRモデル、ニューラルネットワークモデル
204 マルチスピーカ視聴覚データ、視聴覚データ
210 オーディオ部分、オーディオトラック
210a～n 音響特徴ベクトル
210T トレーニングオーディオトラック
220 ビデオ部分
230 ビデオ顔トラック
230 ビデオトラック
230、230a～c 顔トラック
230a～c ビデオ顔トラック
230T トレーニングビデオ顔トラック
230Ta 第1のトレーニングビデオ顔トラック
230Tb 第2のトレーニングビデオ顔トラック
232C 正しい顔ラベル、正しい話し顔ラベル
232I 誤った顔ラベル、誤った話し方ラベル
248 音声認識結果
250 文字起こし
255 話者ラベル
260 エンコーダ部分
270 注意メカニズム
272 注意加重視覚特徴ベクトル
280 デコーダ部分
300 トレーニングプロセス
302 トレーニングデータセット
320 損失モジュール
325 損失項
400 方法
402 動作、視聴覚データ
404 動作
406 動作
460 エンコーダフロントエンド
470 注意メカニズム
500 コンピューティングデバイス
500a 標準サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 ストレージデバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート

Claims

視聴覚データ(204)から音声を文字起こしするための単一の視聴覚自動音声認識(AV-ASR)モデル(200)であって、前記AV-ASRモデル(200)が、
前記視聴覚データ(204)のオーディオトラック(210)および前記視聴覚データ(204)のビデオ部分(220)を受信することであって、前記視聴覚データ(204)の前記ビデオ部分(220)が複数のビデオ顔トラック(230)を備え、前記複数のビデオ顔トラック(230)の各ビデオ顔トラック(230)が、それぞれの人の顔に関連付けられている、受信することと、
前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとに、
前記ビデオ顔トラック(230)に関連付けられる前記それぞれの人の前記顔が前記オーディオトラック(210)の話し顔を備える可能性を示す信頼スコアを決定することと、
前記複数のビデオ顔トラック(230)のうちの各ビデオ顔トラック(230)の視覚特徴ベクトルを生成することと、
前記オーディオトラックの音響特徴ベクトルおよび各ビデオ顔トラック(230)の前記視覚特徴ベクトルを含む、組み合わされた特徴ベクトルを生成することであって、前記組み合わされた特徴ベクトルは、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記ビデオ顔トラック(230)に関連付けられる、ことと、
を行うように構成された注意メカニズム(270)を備えるエンコーダフロントエンド(260)と、
前記オーディオトラック(210)の音声認識結果(248)を決定するために、前記組み合わされた特徴ベクトルを処理するように構成されたデコーダ(280)と
を備え、
前記単一のAV-ASRモデル(200)が、前記複数のビデオ顔トラック(230)のうちのどのビデオ顔トラックが前記オーディオトラック(210)の前記話し顔を備えるかをハード選択するための別個の顔選択システムを含まない、単一の視聴覚自動音声認識(AV-ASR)モデル(200)。
前記単一のAV-ASRモデル(200)がシーケンス間モデル(200)を備える、請求項1に記載のAV-ASRモデル(200)。
前記単一のAV-ASRモデル(200)が、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200)を備える、請求項1または2に記載のAV-ASRモデル(200)。
前記注意メカニズム(270)が、前記信頼スコアを前記ビデオ顔トラック(230)に利用することで、前記複数のビデオ顔トラック(230)の注意加重視覚特徴ベクトル(272)を出力として生成するように構成され、前記注意加重視覚特徴ベクトル(272)が、前記組み合わされた特徴ベクトルに含まれ、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記それぞれの人の前記顔を含む前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)のソフト選択を表す、請求項1から3のいずれか一項に記載のAV-ASRモデル(200)。
前記注意メカニズム(270)が、前記注意メカニズム(270)に、前記最高の信頼スコアに関連付けられる前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)を、前記オーディオトラック(210)の前記話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を備える、請求項1から4のいずれか一項に記載のAV-ASRモデル(200)。
前記エンコーダフロントエンド(260)が、
1つまたは複数の発話を備えるトレーニングオーディオトラック(210T)と、
前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の正しい話し顔を備える第1のトレーニングビデオ顔トラック(230Ta)と、
1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)であって、各第2のトレーニングビデオ顔トラック(230Tb)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の誤った話し顔を備える、1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)と
を備えるトレーニングデータセット(302)においてトレーニングされる、請求項1から5のいずれか一項に記載のAV-ASRモデル(200)。
トレーニング中に、前記注意メカニズム(270)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の前記正しい話し顔として前記第1のトレーニングビデオ顔トラック(230Ta)をゲート制御する方法を学習するように構成される、請求項6に記載のAV-ASRモデル(200)。
前記注意メカニズム(270)がクロスエントロピ損失を用いてトレーニングされる、請求項6または7に記載のAV-ASRモデル(200)。
前記デコーダ(280)が、前記オーディオトラック(210)のストリーミング文字起こし(250)を提供するために、前記オーディオトラック(210)の前記音声認識結果(248)をリアルタイムで発信するように構成される、請求項1から8のいずれか一項に記載のAV-ASRモデル(200)。
視聴覚データ(204)から音声を文字起こしするための方法(400)であって、
単一の視聴覚自動音声認識(AV-ASR)モデル(200)のエンコーダフロントエンド(260)の注意メカニズム(270)において、
前記視聴覚データ(204)のオーディオトラック(210)および前記視聴覚データ(204)のビデオ部分(220)を受信するステップであって、前記視聴覚データ(204)の前記ビデオ部分(220)が複数のビデオ顔トラック(230)を備え、前記複数のビデオ顔トラック(230)の各ビデオ顔トラック(230)が、それぞれの人の顔に関連付けられている、ステップと、
前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとに、
前記注意メカニズム(270)によって、前記ビデオ顔トラック(230)に関連付けられる前記それぞれの人の前記顔が前記オーディオトラック(210)の話し顔を備える可能性を示す信頼スコアを決定するステップと、
前記注意メカニズム(270)によって、前記複数のビデオ顔トラック(230)のうちの各ビデオ顔トラック(230)の視覚特徴ベクトルを生成するステップと、
前記注意メカニズム(270)によって、前記オーディオトラックの音響特徴ベクトルおよび各ビデオ顔トラック(230)の前記視覚特徴ベクトルを含む、組み合わされた特徴ベクトルを生成するステップであって、前記組み合わされた特徴ベクトルは、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記ビデオ顔トラック(230)に関連付けられる、ステップと、
前記単一のAV-ASRモデル(200)のデコーダ(280)によって前記オーディオトラック(210)の音声認識結果(248)を決定するために、前記組み合わされた特徴ベクトルを処理するステップと
を備え、
前記単一のAV-ASRモデル(200)が、前記複数のビデオ顔トラック(230)のうちのどのビデオ顔トラックが前記オーディオトラック(210)の前記話し顔を備えるかをハード選択するための別個の顔選択システムを含まない、方法(400)。
前記単一のAV-ASRモデル(200)がシーケンス間モデル(200)を備える、請求項10に記載の方法(400)。
前記単一のAV-ASRモデル(200)が、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200)を備える、請求項10または11に記載の方法(400)。
前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとの前記信頼スコアを決定するステップが、前記信頼スコアを前記ビデオ顔トラック(230)に利用することで、前記複数のビデオ顔トラック(230)の注意加重視覚特徴ベクトル(272)を生成するステップを備え、前記注意加重視覚特徴ベクトル(272)が、前記組み合わされた特徴ベクトルに含まれ、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記それぞれの人の前記顔を含む前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)のソフト選択を表す、請求項10から12のいずれか一項に記載の方法(400)。
前記注意メカニズム(270)が、前記注意メカニズム(270)に、前記最高の信頼スコアに関連付けられる前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)を、前記オーディオトラック(210)の前記話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を備える、請求項10から13のいずれか一項に記載の方法(400)。
1つまたは複数の発話を備えるトレーニングオーディオトラック(210T)と、
前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の正しい話し顔を備える第1のトレーニングビデオ顔トラック(230Ta)と、
1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)であって、各第2のトレーニングビデオ顔トラック(230Tb)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の誤った話し顔を備える、1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)と
を備えるトレーニングデータセット(302)において前記エンコーダフロントエンド(260)をトレーニングするステップをさらに備える、請求項10から14のいずれか一項に記載の方法(400)。
前記エンコーダフロントエンド(260)をトレーニングするステップが、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の前記正しい話し顔として、前記第1のトレーニングビデオ顔トラック(230Ta)をゲート制御する方法を学習するように前記注意メカニズム(270)をトレーニングするステップを備える、請求項15に記載の方法(400)。
前記注意メカニズム(270)がクロスエントロピ損失を用いてトレーニングされる、請求項15または16に記載の方法(400)。
前記デコーダ(280)によって、前記オーディオトラック(210)のストリーミング文字起こし(250)を提供するために、前記オーディオトラック(210)の前記音声認識結果(248)をリアルタイムで発信するステップをさらに備える、請求項10から17のいずれか一項に記載の方法(400)。