JP2024505944A

JP2024505944A - 音声オーディオストリーム中断を処理するシステムおよび方法

Info

Publication number: JP2024505944A
Application number: JP2023546311A
Authority: JP
Inventors: フェルディナンド・オリヴィエリ; リード・ウェストバーグ; シャンカール・タガドゥル・シヴァッパ
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2021-02-03
Filing date: 2021-12-09
Publication date: 2024-02-08
Also published as: KR20230133864A; WO2022169534A1; EP4289129A1; TW202236084A; US20220246133A1; BR112023014966A2; US11580954B2; CN116830559A

Abstract

通信用のデバイスは、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するように構成された1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサはまた、第1のユーザの音声を表すテキストストリームを受信するように構成される。1つまたは複数のプロセッサは、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するようにさらに構成される。

Description

優先権の主張
本出願は、その内容全体が参照により本明細書に明確に組み込まれる、2021年2月3日に出願された、同一出願人が所有する米国非仮特許出願第17/166,250号の優先権の利益を主張する。

本開示は、一般に、音声オーディオストリーム中断を処理するシステムおよび方法に関する。

技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で軽量であり、ユーザによって容易に携帯される、モバイルフォンおよびスマートフォンなどのワイヤレス電話、タブレットおよびラップトップコンピュータを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイスは、ワイヤレスネットワークを介して音声およびデータパケットを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなどの追加の機能を組み込んでいる。また、そのようなデバイスは、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのデバイスは、かなりの計算能力を含むことができる。

そのようなコンピューティングデバイスは、しばしば、1つまたは複数のマイクロフォンからのオーディオ信号を受信する機能を組み込んでいる。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザ音声、マイクロフォンによってキャプチャされた外部音、またはそれらの組合せを表し得る。そのようなデバイスは、オンライン会議または通話のために使用される通信デバイスを含み得る。第1のユーザと第2のユーザとの間のオンライン会議の間のネットワーク問題は、第1のユーザの第1のデバイスによって送られたいくつかのオーディオフレームおよびビデオフレームが第2のユーザの第2のデバイスによって受信されないような、フレーム損失を引き起こす可能性がある。ネットワーク問題によるフレーム損失は、オンライン会議の間の回復不可能な情報損失につながる可能性がある。たとえば、第2のユーザは、何を聞き逃したのかを推測するか、または聞き逃したことを繰り返してもらうように第1のユーザに依頼しなければならず、このことは、ユーザエクスペリエンスに悪影響を及ぼす。

本開示の一実装形態によれば、通信用のデバイスは、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するように構成された1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサはまた、第1のユーザの音声を表すテキストストリームを受信するように構成される。1つまたは複数のプロセッサは、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するようにさらに構成される。

本開示の別の実装形態によれば、通信の方法は、デバイスにおいて、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するステップを含む。方法はまた、デバイスにおいて、第1のユーザの音声を表すテキストストリームを受信するステップを含む。方法は、デバイスにおいて、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するステップをさらに含む。

本開示の別の実装形態によれば、非一時的コンピュータ可読媒体は命令を含み、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信することを行わせる。命令はまた、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、第1のユーザの音声を表すテキストストリームを受信することを行わせる。命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成することをさらに行わせる。

本開示の別の実装形態によれば、装置は、オンライン会議の間に音声オーディオストリームを受信するための手段であって、音声オーディオストリームが第1のユーザの音声を表す、手段を含む。装置はまた、第1のユーザの音声を表すテキストストリームを受信するための手段を含む。装置は、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するための手段をさらに含む。

本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明、発明を実施するための形態、および特許請求の範囲を含む本開示全体を検討した後に明らかとなろう。

本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なシステムの特定の例示的な態様のブロック図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なシステムの例示的な態様の図である。本開示のいくつかの例による、図1のシステムまたは図2のシステムによって生成された例示的なグラフィカルユーザインターフェース(GUI)の図である。本開示のいくつかの例による、図1のシステムまたは図2のシステムによって生成された例示的なGUIの図である。本開示のいくつかの例による、図1のシステムまたは図2のシステムによって生成された例示的なGUIの図である。本開示のいくつかの例による、図1のシステムまたは図2のシステムの動作の例示的な態様の図である。本開示のいくつかの例による、図1のシステムまたは図2のシステムの動作の例示的な態様の図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なシステムの例示的な態様の図である。本開示のいくつかの例による、図5のシステムによって生成された例示的なグラフィカルユーザインターフェース(GUI)の図である。本開示のいくつかの例による、図5のシステムによって生成された例示的なGUIの図である。本開示のいくつかの例による、図5のシステムによって生成された例示的なGUIの図である。本開示のいくつかの例による、図5のシステムの動作の例示的な態様の図である。本開示のいくつかの例による、図5のシステムの動作の例示的な態様の図である。本開示のいくつかの例による、図1、図2、または図5のシステムのいずれかによって実行され得る、音声オーディオストリーム中断を処理する方法の特定の実装形態の図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能な集積回路の一例を示す図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なモバイルデバイスの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なヘッドセットの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なウェアラブル電子デバイスの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能な音声制御スピーカーシステムの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なカメラの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能な仮想現実ヘッドセットまたは拡張現実ヘッドセットなどのヘッドセットの図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なビークルの第1の例の図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なビークルの第2の例の図である。本開示のいくつかの例による、音声オーディオストリーム中断を処理するように動作可能なデバイスの特定の例示的な例のブロック図である。

オンライン会議または通話の一部分を聞き逃すことは、ユーザエクスペリエンスに悪影響を及ぼす可能性がある。たとえば、第1のユーザと第2のユーザとの間のオンライン会議の間に、第1のユーザの第1のデバイスによって送られたいくつかのオーディオフレームが第2のユーザの第2のデバイスによって受信されなかった場合、第2のユーザは第1のユーザの音声の一部分を聞き逃す可能性がある。第2のユーザは、第1のユーザが何を言ったかを推測するか、または聞き逃したことを繰り返してもらうように第1のユーザに依頼しなければならない。このことは、誤解を生じさせ、会話の流れを混乱させ、時間を浪費する可能性がある。

音声オーディオストリーム中断を処理するシステムおよび方法が開示される。たとえば、各デバイスは、そのデバイスと1つまたは複数の他のデバイスとの間のオンライン会議または通話を確立するように構成された会議マネージャを含む。(デバイスにおけるまたはサーバにおける)中断マネージャは、音声オーディオストリーム中断を処理するように構成される。

第1のユーザの第1のデバイスと第2のユーザの第2のデバイスとの間のオンライン会議の間に、第1のデバイスの会議マネージャはメディアストリームを第2のデバイスに送る。メディアストリームは、音声オーディオストリーム、ビデオストリーム、またはその両方を含む。音声オーディオストリームは、会議の間の第1のユーザの音声に対応する。

(第1のデバイスにおけるまたはサーバにおける)ストリームマネージャは、音声オーディオストリームに対して音声テキスト変換を実行することによってテキストストリームを生成し、テキストストリームを第2のデバイスに転送する。ストリームマネージャ(たとえば、第1のデバイスにおけるまたはサーバにおける会議マネージャ)は、第1の動作モード(たとえば、キャプションデータ送信モード)では、オンライン会議全体にわたって、メディアストリームと同時に、テキストストリームを転送する。代替例では、ストリームマネージャ(たとえば、第1のデバイスにおけるまたはサーバにおける中断マネージャ)は、第2の動作モード(たとえば、中断データ送信モード)では、メディアストリームを第2のデバイスに送るのと同時に、ネットワーク問題(たとえば、低帯域幅、パケット損失など)を検出したことに応答して、テキストストリームを第2のデバイスに転送する。

いくつかの例では、ネットワーク問題は、テキストストリームの受信の中断がなくても、第2のデバイスにおけるメディアストリームの受信の中断を引き起こす。いくつかの例では、第2のデバイスは、第1の動作モード(たとえば、キャプションデータ表示モード)では、ネットワーク問題を検出したこととは無関係に、テキストストリームをディスプレイに提供する。他の例では、第2のデバイスは、第2の動作モード(たとえば、中断データ表示モード)では、メディアストリームの中断を検出したことに応答して、テキストストリームを表示する。

特定の例では、ストリームマネージャ(たとえば、会議マネージャまたは中断マネージャ)は、テキストデータに加えてメタデータストリームを転送する。メタデータは、第1のユーザの音声の感情、イントネーション、他の属性を示す。特定の例では、第2のデバイスは、テキストストリームに加えてメタデータストリームを表示する。たとえば、テキストストリームは、メタデータストリームに基づいて注釈を付けられる。

特定の例では、第2のデバイスは、合成音声オーディオストリームを生成するためにテキストストリームに対してテキスト音声変換を実行し、(たとえば、中断された音声オーディオストリームと置き換えるために)合成音声オーディオストリームを出力する。特定の例では、テキスト音声変換は、メタデータストリームに少なくとも部分的に基づく。

特定の例では、第2のデバイスは、合成音声オーディオストリームの出力の間に、(たとえば、中断されたビデオストリームと置き換えるために)アバターを表示する。特定の例では、テキスト音声変換は、汎用音声モデルに基づく。たとえば、リスナーが異なるユーザに対応する音声を区別することができるように、第1の汎用音声モデルが1人のユーザのために使用される場合があり、第2の汎用音声モデルが別のユーザのために使用される場合がある。別の特定の例では、テキスト音声変換は、第1のユーザの音声に基づいて生成されたユーザ音声モデルに基づく。特定の例では、ユーザ音声モデルは、オンライン会議に先立って生成される。特定の例では、ユーザ音声モデルは、オンライン会議の間に生成(または更新)される。特定の例では、ユーザ音声モデルは、汎用音声モデルから初期化され、第1のユーザの音声に基づいて更新される。

特定の例では、アバターは、音声モデルが訓練されていることを示す。たとえば、アバターは、汎用音声モデルが使用されていること(またはユーザ音声モデルの準備が整っていないこと)を示す赤色として初期化され、アバターは、時間がたつと赤色から音声モデルが訓練されていることを示す緑色に移行する。緑色のアバターは、ユーザ音声モデルが訓練されたこと(またはユーザ音声モデルの準備が整っていること)を示す。

オンライン会議は、2人以上のユーザ間のものであり得る。第1のデバイスがネットワーク問題を経験しているが、オンライン会議における第3のユーザの第3のデバイスがネットワーク問題を経験していない状況では、第2のデバイスは、第3のユーザの音声、ビデオ、またはその両方に対応する第3のデバイスから受信された第2のメディアストリームを出力するのと同時に、第1のユーザ用の合成音声オーディオストリームを出力することができる。

本開示の特定の態様について、図面を参照しながら以下で説明する。本説明では、共通の特徴は共通の参照番号によって指定される。本明細書で使用する様々な用語は、特定の実装形態を説明することのみを目的として使用され、実装形態を限定することは意図されていない。たとえば、単数形「a」、「an」、および「the」は、文脈が別段に明確に示さない限り、複数形も含むことが意図されている。さらに、本明細書で説明するいくつかの特徴は、いくつかの実装形態では単数形であり、他の実装形態では複数形である。例示すると、図1は、1つまたは複数のプロセッサ(図1の「プロセッサ(processor(s))」160)を含むデバイス104を示しており、このことは、いくつかの実装形態ではデバイス104が単一のプロセッサ160を含み、他の実装形態ではデバイス104が複数のプロセッサ160を含むことを示す。

本明細書で使用する「備える(comprise)」、「備える(comprises)」、および「備える(comprising)」という用語は、「含む(include)」、「含む(includes)」、または「含む(including)」と互換的に使用され得る。加えて、「ここにおいて(wherein)」という用語は、「ここで(where)」と互換的に使用され得る。本明細書で使用する「例示的な(exemplary)」は、一例、一実装形態、および/または一態様を示し、選好もしくは好ましい実装形態を限定するものとして、または選好もしくは好ましい実装形態を示すものとして解釈されるべきではない。本明細書で使用する、構造、構成要素、動作などの要素を修飾するために使用される順序を示す用語(たとえば、「第1の(first)」、「第2の(second)」、「第3の(third)」など)は、それ自体で別の要素に対するその要素の任意の優先度または順序を示すものではなく、むしろ、その要素と(順序を示す用語の使用を別にすれば)同じ名称を有する別の要素を区別するものにすぎない。本明細書で使用する「セット(set)」という用語は、特定の要素のうちの1つまたは複数を指し、「複数(plurality)」という用語は、複数(たとえば、2つ以上)の特定の要素を指す。

本明細書で使用する「結合された(coupled)」は、「通信可能に結合された(communicatively coupled)」、「電気的に結合された(electrically coupled)」、または「物理的に結合された(physically coupled)」を含んでもよく、同じく(または代替として)それらの任意の組合せを含んでもよい。2つのデバイス(または構成要素)は、1つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク(たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ)などを介して直接または間接的に結合され(たとえば、通信可能に結合され、電気的に結合され、または物理的に結合され)てもよい。電気的に結合された2つのデバイス(または構成要素)は、同じデバイスにまたは異なるデバイスに含まれてもよく、例示的で非限定的な例として、電子回路、1つもしくは複数のコネクタ、または誘導結合を介して接続されてもよい。いくつかの実装形態では、電気通信しているなどの、通信可能に結合された2つのデバイス(または構成要素)は、信号(たとえば、デジタル信号またはアナログ信号)を1つまたは複数のワイヤ、バス、ネットワークなどを介して直接または間接的に送信および受信してもよい。本明細書で使用する「直接結合された(directly coupled)」は、介在する構成要素なしに結合された(たとえば、通信可能に結合された、電気的に結合された、または物理的に結合された)2つのデバイスを含んでもよい。

本開示では、「決定する」、「計算する」、「推定する」、「シフトする」、「調整する」などの用語は、1つまたは複数の動作がどのように実行されるかを説明するために使用され得る。そのような用語は限定的なものと解釈されるべきではなく、同様の動作を実行するために他の技法が利用され得ることに留意されたい。加えて、本明細書で言及する「生成する」、「計算する」、「推定する」、「使用する」、「選択する」、「アクセスする」、および「決定する」は、互換的に使用され得る。たとえば、パラメータ(または信号)を「生成すること」、「計算すること」、「推定すること」、または「決定すること」は、パラメータ(または信号)を能動的に生成すること、推定すること、計算すること、または決定することを指す場合があるか、あるいは別の構成要素またはデバイスなどによってすでに生成されたパラメータ(または信号)を使用すること、選択すること、またはそれにアクセスすることを指す場合がある。

図1を参照すると、音声オーディオストリーム中断を処理するように構成されたシステムの特定の例示的な態様が開示され、全体的に100と指定されている。システム100は、ネットワーク106を介してデバイス104に結合されたデバイス102を含む。ネットワーク106は、ワイヤードネットワーク、ワイヤレスネットワーク、またはその両方を含む。デバイス102は、カメラ150、マイクロフォン152、またはその両方に結合される。デバイス104は、スピーカー154、ディスプレイデバイス156、またはその両方に結合される。

デバイス104は、メモリ132に結合された1つまたは複数のプロセッサ160を含む。1つまたは複数のプロセッサ160は、中断マネージャ164に結合された会議マネージャ162を含む。会議マネージャ162および中断マネージャ164は、グラフィカルユーザインターフェース(GUI)生成器168に結合される。中断マネージャ164は、テキスト音声変換器166を含む。デバイス102は、中断マネージャ124に結合された会議マネージャ122を含む1つまたは複数のプロセッサ120を含む。会議マネージャ122および会議マネージャ162は、オンライン会議(たとえば、オーディオ通話、ビデオ通話、電話会議など)を確立するように構成される。特定の例では、会議マネージャ122および会議マネージャ162は、通信アプリケーション(たとえば、オンライン会議アプリケーション)のクライアントに対応する。中断マネージャ124および中断マネージャ164は、音声オーディオ中断を処理するように構成される。

いくつかの実装形態では、会議マネージャ122および会議マネージャ162は、中断マネージャ124および中断マネージャ164によって管理されるいかなる音声オーディオ中断も見えていない(たとえば、気づいていない)。いくつかの実装形態では、会議マネージャ122および会議マネージャ162は、それぞれ、デバイス102およびデバイス104のネットワークプロトコルスタック(たとえば、開放型システム間相互接続(OSI)モデル)の上位レイヤ(たとえば、アプリケーションレイヤ)に対応する。いくつかの実装形態では、中断マネージャ124および中断マネージャ164は、それぞれ、デバイス102およびデバイス104のネットワークプロトコルスタックの下位レベル(たとえば、トランスポートレイヤ)に対応する。

いくつかの実装形態では、デバイス102、デバイス104、またはその両方は、様々なタイプのデバイスに対応するか、またはそれらのデバイスに含まれる。例示的な例では、1つもしくは複数のプロセッサ120、1つもしくは複数のプロセッサ160、またはそれらの組合せは、図11を参照しながらさらに説明するものなどのヘッドセットデバイスに統合される。他の例では、1つもしくは複数のプロセッサ120、1つもしくは複数のプロセッサ160、またはそれらの組合せは、図10を参照しながら説明するようなモバイルフォンまたはタブレットコンピュータデバイス、図12を参照しながら説明するようなウェアラブル電子デバイス、図13を参照しながら説明するような音声制御スピーカーシステム、図14を参照しながら説明するようなカメラデバイス、または図15を参照しながら説明するような仮想現実ヘッドセット、拡張現実ヘッドセット、もしくは複合現実ヘッドセットのうちの少なくとも1つに統合される。別の例示的な例では、1つもしくは複数のプロセッサ120、1つもしくは複数のプロセッサ160、またはそれらの組合せは、図16および図17を参照しながらさらに説明するものなどのビークルに統合される。

動作中に、会議マネージャ122および会議マネージャ162は、デバイス102とデバイス104との間のオンライン会議(たとえば、オーディオ通話、ビデオ通話、電話会議、またはそれらの組合せ)を確立する。たとえば、オンライン会議は、デバイス102のユーザ142とデバイス104のユーザ144との間のものである。マイクロフォン152は、ユーザ142が話している間にユーザ142の音声をキャプチャし、その音声を表すオーディオ入力153をデバイス102に提供する。特定の態様では、カメラ150(たとえば、スチルカメラ、ビデオカメラ、またはその両方)は、ユーザ142の1つまたは複数の画像(たとえば、静止画像またはビデオ)をキャプチャし、その1つまたは複数の画像を表すビデオ入力151をデバイス102に提供する。特定の態様では、カメラ150は、マイクロフォン152がオーディオ入力153をデバイス102に提供するのと同時に、ビデオ入力151をデバイス102に提供する。

会議マネージャ122は、オーディオ入力153、ビデオ入力151、またはその両方に基づいてメディアフレームのメディアストリーム109を生成する。たとえば、メディアストリーム109は、音声オーディオストリーム111、ビデオストリーム113、またはその両方を含む。特定の態様では、会議マネージャ122は、メディアストリーム109をネットワーク106を介してデバイス104にリアルタイムで送る。たとえば、会議マネージャ122は、ビデオ入力151、オーディオ入力153、またはその両方が受信されているときにメディアストリーム109のメディアフレームを生成し、メディアフレームが生成されるとメディアフレームのメディアストリーム109を送る(たとえば、その送信を開始する)。

特定の実装形態では、会議マネージャ122は、デバイス102の第1の動作モード(たとえば、キャプションデータ送信モード)の間に、オーディオ入力153に基づいてテキストストリーム121、メタデータストリーム123、またはその両方を生成する。たとえば、会議マネージャ122は、テキストストリーム121を生成するために、オーディオ入力153に対して音声テキスト変換を実行する。テキストストリーム121は、オーディオ入力153において検出された音声に対応するテキストを示す。特定の態様では、会議マネージャ122は、メタデータストリーム123を生成するために、オーディオ入力153に対して音声イントネーション分析を実行する。たとえば、メタデータストリーム123は、オーディオ入力153において検出された音声のイントネーション(たとえば、感情、ピッチ、トーン、またはそれらの組合せ)を示す。デバイス102の第1の動作モード(たとえば、キャプションデータ送信モード)では、会議マネージャ122は、テキストストリーム121、メタデータストリーム123、またはその両方を(たとえば、字幕付けデータとして)メディアストリーム109とともにデバイス104に(たとえば、ネットワーク問題または音声オーディオ中断とは無関係に)送る。代替として、会議マネージャ122は、デバイス102の第2の動作モード(たとえば、中断データ送信モード)の間に、音声オーディオ中断が検出されないとの決定に応答して、テキストストリーム121およびメタデータストリーム123を生成するのを控える。

デバイス104は、デバイス102からネットワーク106を介してメディアフレームのメディアストリーム109を受信する。特定の実装形態では、デバイス104は、メディアストリーム109のメディアフレームのセット(たとえば、バースト)を受信する。代替実装形態では、デバイス104は、一度にメディアストリーム109の1つのメディアフレームを受信する。会議マネージャ162は、メディアストリーム109のメディアフレームをプレイアウトする。たとえば、会議マネージャ162は、音声オーディオストリーム111に基づいてオーディオ出力143を生成し、(たとえば、ストリーミングオーディオコンテンツとして)オーディオ出力143をスピーカー154を介してプレイアウトする。特定の態様では、GUI生成器168は、図3Aを参照しながらさらに説明するように、メディアストリーム109に基づいてGUI145を生成する。たとえば、GUI生成器168は、ビデオストリーム113のビデオコンテンツを表示するためにGUI145を生成(または更新)し、ディスプレイデバイス156にGUI145を提供(たとえば、ビデオコンテンツをストリーミング)する。ユーザ144は、スピーカー154を介してユーザ142のオーディオ音声を聞きながら、ディスプレイデバイス156上でユーザ142の画像を閲覧することができる。

特定の実装形態では、会議マネージャ162は、プレイアウトに先立って、メディアストリーム109のメディアフレームをバッファに記憶する。たとえば、会議マネージャ162は、バッファ内で後続のメディアフレームが対応する再生時間(たとえば、第2の再生時間)において利用可能である尤度を高めるために、メディアフレームを受信することと第1の再生時間におけるメディアフレームの再生との間の遅延を加える。特定の態様では、会議マネージャ162は、メディアストリーム109をリアルタイムでプレイアウトする。たとえば、会議マネージャ162は、メディアストリーム109の後続のメディアフレームがデバイス104によって受信されている(または受信されると予想される)間に、オーディオ出力143、GUI145のビデオコンテンツ、またはその両方をプレイアウトするためにバッファからメディアストリーム109のメディアフレームを取り出す。

会議マネージャ162は、デバイス104の第1の動作モード(たとえば、キャプションデータ表示モード)では、(たとえば、音声オーディオストリーム111の中断を検出することとは無関係に)メディアストリーム109とともにテキストストリーム121をプレイアウトする。特定の態様では、会議マネージャ162は、たとえば、デバイス102の第1の動作モード(たとえば、キャプションデータ送信モード)の間に、メディアストリーム109とともにテキストストリーム121、メタデータストリーム123、またはその両方を受信する。代替態様では、会議マネージャ162は、たとえば、デバイス102の第2の動作モード(たとえば、中断データ送信モード)の間に、テキストストリーム121、メタデータストリーム123、またはその両方を受信せず、音声オーディオストリーム111、ビデオストリーム113、またはその両方に基づいてテキストストリーム121、メタデータストリーム123、またはその両方を生成する。たとえば、会議マネージャ162は、テキストストリーム121を生成するために音声オーディオストリーム111に対して音声テキスト変換を実行し、メタデータストリーム123を生成するために音声オーディオストリーム111に対してイントネーション分析を実行する。

デバイス104の第1の動作モード(たとえば、キャプションデータ表示モード)の間に、会議マネージャ162は、テキストストリーム121を出力としてディスプレイデバイス156に提供する。たとえば、会議マネージャ162は、ビデオストリーム113のビデオコンテンツを表示すること、オーディオ出力143をスピーカー154に提供すること、またはその両方と同時に、GUI145を使用してテキストストリーム121のテキストコンテンツを(たとえば、字幕として)表示する。例示すると、会議マネージャ162は、ビデオストリーム113をGUI生成器168に提供するのと同時に、テキストストリーム121をGUI生成器168に提供する。GUI生成器168は、テキストストリーム121、ビデオストリーム113、またはその両方を表示するようにGUI145を更新する。GUI生成器168は、会議マネージャ162が音声オーディオストリーム111をオーディオ出力143としてスピーカー154に提供するのと同時に、GUI145の更新をディスプレイデバイス156に提供する。

特定の例では、会議マネージャ162は、テキストストリーム121およびメタデータストリーム123に基づいて注釈付きテキストストリーム137を生成する。特定の態様では、会議マネージャ162は、メタデータストリーム123に基づいて注釈をテキストストリーム121に追加することによって、注釈付きテキストストリーム137を生成する。会議マネージャ162は、注釈付きテキストストリーム137を出力としてディスプレイデバイス156に提供する。たとえば、会議マネージャ162は、メディアストリーム109とともに注釈付きテキストストリーム137をプレイアウトする。例示すると、会議マネージャ162は、ビデオストリーム113のビデオコンテンツを表示すること、オーディオ出力143をスピーカー154に提供すること、またはその両方と同時に、GUI145を使用して注釈付きテキストストリーム137の注釈付きテキストコンテンツを(たとえば、イントネーション表示を伴う字幕として)表示する。

特定の実装形態では、会議マネージャ162は、デバイス104の第2の動作モード(たとえば、中断データ表示モードまたは字幕無効化モード)においてテキストストリーム121(たとえば、注釈付きテキストストリーム137)をプレイアウトするのを控える。たとえば、会議マネージャ162は、(たとえば、デバイス102の第2の動作モードの間に)テキストストリーム121を受信せず、第2の動作モード(たとえば、中断データ表示モードまたは字幕無効化モード)においてテキストストリーム121を生成しない。別の例として、会議マネージャ162は、テキストストリーム121を受信し、デバイス104の第2の動作モード(たとえば、中断データ表示モードまたは字幕無効化モード)を検出したことに応答して、テキストストリーム121(たとえば、注釈付きテキストストリーム137)をプレイアウトするのを控える。特定の態様では、中断マネージャ164は、デバイス104の第2の動作モード(たとえば、中断データ表示モード)では、メディアストリーム109において中断が検出されなかった(たとえば、テキストストリーム121に対応するメディアストリーム109の部分が受信された)との決定に応答して、テキストストリーム121(たとえば、注釈付きテキストストリーム137)をプレイアウトするのを控える。

特定の態様では、中断マネージャ164は、オンライン会議に先立ってまたはオンライン会議の開始の近くで、汎用音声モデルに基づいて人工ニューラルネットワークなどの音声モデル131を初期化する。特定の態様では、中断マネージャ164は、汎用音声モデルがユーザの年齢、ロケーション、性別、またはそれらの組合せなどのユーザ142の人口統計学データと一致する(たとえば、それに関連付けられる)との決定に基づいて、複数の汎用音声モデルから汎用音声モデルを選択する。特定の態様では、中断マネージャ164は、オンライン会議(たとえば、スケジュールされた会議)に先立って、ユーザ142の連絡先情報(たとえば、名前、ロケーション、電話番号、住所、またはそれらの組合せ)に基づいて人口統計学データを予測する。特定の態様では、中断マネージャ164は、オンライン会議の開始部分の間に、音声オーディオストリーム111、ビデオストリーム113、またはその両方に基づいて人口統計学データを推定する。たとえば、中断マネージャ164は、ユーザ142の年齢、地方なまり、性別、またはそれらの組合せを推定するために、音声オーディオストリーム111、ビデオストリーム113、またはその両方を分析する。特定の態様では、中断マネージャ164は、ユーザ142に関連付けられた(たとえば、ユーザ142のユーザ識別子と一致する)(たとえば、以前に生成された)音声モデル131を取り出す。

特定の態様では、中断マネージャ164は、オンライン会議の間に(たとえば、音声オーディオストリーム111の中断に先立って)音声オーディオストリーム111において検出された音声に基づいて音声モデル131を訓練(たとえば、生成または更新)する。例示すると、テキスト音声変換器166は、テキスト音声変換を実行するために音声モデル131を使用するように構成される。特定の態様では、中断マネージャ164は、音声オーディオストリーム111に対応するテキストストリーム121、メタデータストリーム123、もしくはその両方を(たとえば、デバイス102の第1の動作モードの間に)受信するか、またはそれらを(たとえば、デバイス102の第2の動作モードの間に)生成する。テキスト音声変換器166は、テキストストリーム121、メタデータストリーム123、またはその両方に対してテキスト音声変換を実行することによって合成音声オーディオストリーム133を生成するために音声モデル131を使用する。中断マネージャ164は、音声オーディオストリーム111と合成音声オーディオストリーム133との比較に基づいて音声モデル131を更新するための訓練技法を使用する。音声モデル131が人工ニューラルネットワークを含む例示的な例では、中断マネージャ164は、音声モデル131の重みおよびバイアスを更新するために逆伝搬を使用する。いくつかの態様によれば、音声モデル131は、音声モデル131を使用する後続のテキスト音声変換がユーザ142の音声特性とよく一致する合成音声を生成する可能性がより高くなるように更新される。

特定の態様では、中断マネージャ164は、ユーザ142のアバター135(たとえば、視覚表現)を生成する。特定の態様では、アバター135は、図3A～図3Cを参照しながらさらに説明するように、音声モデル131の訓練のレベルを示す訓練インジケータを含むか、またはそれに対応する。たとえば、中断マネージャ164は、第1の訓練基準が満たされていないとの決定に応答して、アバター135を音声モデル131が訓練されていないことを示す第1の視覚表現に初期化する。オンライン会議の間に、中断マネージャ164は、第1の訓練基準が満たされており、第2の訓練基準が満たされていないとの決定に応答して、アバター135を第1の視覚表現から音声モデル131の訓練が進行中であることを示す第2の視覚表現に更新する。中断マネージャ164は、第2の訓練基準が満たされているとの決定に応答して、アバター135を音声モデル131の訓練が完了したことを示す第3の視覚表現に更新する。

訓練基準は、音声モデル131を訓練するために使用されるオーディオサンプルのカウント、音声モデル131を訓練するために使用されるオーディオサンプルの再生持続時間、音声モデル131を訓練するために使用されるオーディオサンプルのカバレージ、音声モデル131の成功メトリック、またはそれらの組合せに基づき得る。特定の態様では、音声モデル131を訓練するために使用されるオーディオサンプルのカバレージは、オーディオサンプルによって表される別個の音(たとえば、母音、子音など)に対応する。特定の態様では、成功メトリックは、音声モデル131を訓練するために使用されるオーディオサンプルと音声モデル131に基づいて生成された合成音声との比較(たとえば、オーディオサンプルと合成音声との間の一致)に基づく。

いくつかの実装形態によれば、アバター135の第1の色、第1の陰影、第1のサイズ、第1のアニメーション、またはそれらの組合せは、音声モデル131が訓練されていないことを示す。アバター135の第2の色、第2の陰影、第2のサイズ、第2のアニメーション、またはそれらの組合せは、音声モデル131が部分的に訓練されたことを示す。アバター135の第3の色、第3の陰影、第3のサイズ、第3のアニメーション、またはそれらの組合せは、音声モデル131の訓練が完了したことを示す。特定の態様では、GUI生成器168は、アバター135の視覚表現を示すためにGUI145を生成(または更新)する。

特定の態様では、中断マネージャ124は、デバイス104への通信リンクにおけるネットワーク問題(たとえば、低減された帯域幅)を検出する。中断マネージャ124は、ネットワーク問題を検出したことに応答して、音声オーディオストリーム111の中断を示す中断通知119をデバイス104に送ること、ネットワーク問題が解決されたことを検出するまで、メディアストリーム109の後続のメディアフレームをデバイス104に送るのを控える(たとえば、その送信を停止する)こと、またはその両方を行う。たとえば、中断マネージャ124は、ネットワーク問題を検出したことに応答して、中断の終了まで、音声オーディオストリーム111、ビデオストリーム113、またはその両方をデバイス104に送るのを控える(たとえば、その送信を停止する)。

中断マネージャ124は、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方を送る。たとえば、中断マネージャ124は、デバイス102の第1の動作モード(たとえば、キャプションデータ送信モード)では、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方を送り続ける。例示すると、第1の動作モード(たとえば、キャプションデータ送信モード)では、会議マネージャ122は、メディアストリーム109、テキストストリーム121、メタデータストリーム123、またはそれらの組合せを生成する。中断マネージャ124は、第1の動作モード(たとえば、キャプションデータ送信モード)におけるネットワーク問題を検出したことに応答して、メディアストリーム109の後続のメディアフレームの送信を停止し、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方のデバイス104への送信を継続する。代替として、中断マネージャ124は、デバイス102の第2の動作モード(たとえば、中断データ送信モード)におけるネットワーク問題を検出したことに応答して、オーディオ入力153に基づいて後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方を生成する。例示すると、第2の動作モード(たとえば、中断データ送信モード)では、会議マネージャ122は、メディアストリーム109を生成し、テキストストリーム121、メタデータストリーム123、またはその両方を生成しない。中断マネージャ124は、デバイス102の第2の動作モード(たとえば、中断データ送信モード)におけるネットワーク問題を検出したことに応答して、メディアストリーム109の後続のメディアフレームの送信を停止し、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方のデバイス104への送信を開始する。特定の態様では、デバイス102の第2の動作モード(たとえば、中断データ送信モード)では、テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送ることは、中断通知119をデバイス104に送ることに対応する。

特定の態様では、中断マネージャ164は、デバイス102から中断通知119を受信したことに応答して、音声オーディオストリーム111の中断を検出する。特定の態様では、デバイス102が第2の動作モード(たとえば、中断データ送信モード)で動作しているとき、中断マネージャ164は、テキストストリーム121、メタデータストリーム123、またはその両方を受信したことに応答して、音声オーディオストリーム111の中断を検出する。

特定の態様では、中断マネージャ164は、音声オーディオストリーム111のオーディオフレームが音声オーディオストリーム111の最後に受信されたオーディオフレームのしきい値持続時間内に受信されなかったとの決定に応答して、音声オーディオストリーム111の中断を検出する。たとえば、音声オーディオストリーム111の最後に受信されたオーディオフレームは、デバイス104で第1の受信時間において受信される。中断マネージャ164は、音声オーディオストリーム111のオーディオフレームが第1の受信時間のしきい値持続時間内に受信されなかったとの決定に応答して、中断を検出する。特定の態様では、中断マネージャ164は、中断通知をデバイス102に送る。特定の態様では、中断マネージャ124は、デバイス104から中断通知を受信したことに応答して、ネットワーク問題を検出する。中断マネージャ124は、ネットワーク問題を検出したことに応答して、上記で説明したように、(たとえば、メディアストリーム109の後続のメディアフレームを送る代わりに)テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送る。

中断マネージャ164は、中断を検出したことに応答して、テキストストリーム121に基づいて出力を選択的に生成する。たとえば、中断マネージャ164は、中断に応答して、テキストストリーム121、メタデータストリーム123、注釈付きテキストストリーム137、またはそれらの組合せをテキスト音声変換器166に提供する。テキスト音声変換器166は、テキストストリーム121、メタデータストリーム123、注釈付きテキストストリーム137、またはそれらの組合せに基づいてテキスト音声変換を実行するために音声モデル131を使用することによって、合成音声オーディオストリーム133を生成する。たとえば、テキストストリーム121に基づいた、メタデータストリーム123とは無関係の合成音声オーディオストリーム133は、音声モデル131によって表される、ユーザ142のニューラル音声特性を有するテキストストリーム121によって示される音声に対応する。別の例として、注釈付きテキストストリーム137(たとえば、テキストストリーム121およびメタデータストリーム123)に基づいた合成音声オーディオストリーム133は、メタデータストリーム123によって示されるイントネーションを有する音声モデル131によって表される、ユーザ142の音声特性を有するテキストストリーム121によって示される音声に対応する。テキスト音声変換を実行するためにユーザ142の音声(たとえば、音声オーディオストリーム111)について少なくとも部分的に訓練された音声モデル131を使用することにより、合成音声オーディオストリーム133がユーザ142の音声特性によりよく一致することが可能になる。中断マネージャ164は、中断に応答して、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供すること、音声オーディオストリーム111の再生を停止すること、ビデオストリーム113の再生を停止すること、またはそれらの組合せを行う。

特定の態様では、中断マネージャ164は、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのと同時に、アバター135を選択的に表示する。たとえば、中断マネージャ164は、音声オーディオストリーム111をオーディオ出力143としてスピーカー154に提供している間に、アバター135を表示するのを控える。別の例として、中断マネージャ164は、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供している間に、アバター135を表示する。例示すると、GUI生成器168は、合成音声オーディオストリーム133がスピーカー154によるプレイアウトのためにオーディオ出力143として出力される間に、ビデオストリーム113の代わりにアバター135を表示するようにGUI145を更新する。特定の態様では、中断マネージャ164は、音声オーディオストリーム111をオーディオ出力143としてスピーカー154に提供するのと同時に、アバター135の第1の表現を表示し、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのと同時に、アバター135の第2の表現を表示する。たとえば、図3Cを参照しながらさらに説明するように、第1の表現は、アバター135が訓練されているかまたは訓練されたこと(たとえば、音声モデル131の訓練インジケータ)を示し、第2の表現は、アバター135が話している(たとえば、音声モデル131が合成音声を生成するために使用されている)ことを示す。

特定の実装形態では、中断マネージャ164は、テキストストリーム121、注釈付きテキストストリーム137、またはその両方を出力としてディスプレイデバイス156に選択的に提供する。たとえば、中断マネージャ164は、デバイス104の第2の動作モード(たとえば、中断データ表示モード)の間の中断に応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方を表示するようにGUI145を更新するために、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をGUI生成器168に提供する。代替実装形態では、中断マネージャ164は、デバイス104の第1の動作モード(たとえば、キャプションデータ表示モード)の間に、テキストストリーム121、注釈付きテキストストリーム137、またはその両方を出力としてディスプレイデバイス156に(たとえば、中断とは無関係に)提供し続ける。特定の態様では、中断マネージャ164は、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのと同時に、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をディスプレイデバイス156に提供する。

特定の実装形態では、中断マネージャ164は、中断構成設定に基づいてかつ中断に応答して、合成音声オーディオストリーム133、テキストストリーム121、または注釈付きテキストストリーム137のうちの1つまたは複数を出力する。たとえば、中断マネージャ164は、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのと同時に、中断に応答してかつ中断構成設定が第1の値(たとえば、0または「オーディオおよびテキスト」)を有するとの決定に応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をディスプレイデバイス156に提供する。中断マネージャ164は、中断に応答してかつ中断構成設定が第2の値(たとえば、1または「テキストのみ」)を有するとの決定に応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をディスプレイデバイス156に提供し、オーディオ出力143をスピーカー154に提供するのを控える。中断マネージャ164は、中断に応答してかつ中断構成設定が第3の値(たとえば、2または「オーディオのみ」)を有するとの決定に応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をディスプレイデバイス156に提供するのを控え、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供する。特定の態様では、中断構成設定は、デフォルトデータ、ユーザ入力、またはその両方に基づく。

特定の態様では、中断マネージャ124は、中断が終了したことを検出し、中断終了通知をデバイス104に送る。たとえば、中断マネージャ124は、デバイス104との通信リンクの利用可能な通信帯域幅がしきい値よりも大きいとの決定に応答して、中断が終了したことを検出する。特定の態様では、中断マネージャ164は、デバイス102から中断終了通知を受信したことに応答して、中断が終了したことを検出する。

別の特定の態様では、中断マネージャ164は、中断が終了したことを検出し、中断終了通知をデバイス102に送る。たとえば、中断マネージャ164は、デバイス102との通信リンクの利用可能な通信帯域幅がしきい値よりも大きいとの決定に応答して、中断が終了したことを検出する。特定の態様では、中断マネージャ124は、デバイス104から中断終了通知を受信したことに応答して、中断が終了したことを検出する。

会議マネージャ122は、中断が終了したことを検出したことに応答して、音声オーディオストリーム111、ビデオストリーム113、またはその両方のデバイス104への送信を再開する。特定の態様では、音声オーディオストリーム111、ビデオストリーム113、またはその両方の送信は、中断終了通知の送信に対応する。中断マネージャ124は、デバイス102の第2の動作モード(たとえば、中断データ送信モード)の間に中断が終了したことを検出したことに応答して、テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送るのを控える。

会議マネージャ162は、中断が終了したことを検出したことに応答して、テキストストリーム121に基づいて合成音声オーディオストリーム133を生成するのを控え、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのを控え(たとえば、停止し)、スピーカー154へのオーディオ出力143としての音声オーディオストリーム111の再生(たとえば、音声オーディオストリーム111を提供すること)を再開する。会議マネージャ162は、中断が終了したことを検出したことに応答して、ビデオストリーム113をディスプレイデバイス156に提供することを再開する。たとえば、会議マネージャ162は、ビデオストリーム113を表示するようにGUI145を更新するために、ビデオストリーム113をGUI生成器168に提供する。

特定の態様では、中断マネージャ164は、中断が終了したことを検出したことに応答して、音声モデル131が合成音声オーディオを出力するために使用されていない(たとえば、アバター135が話していない)ことを示すようにGUI145を更新するために第1の要求をGUI生成器168に送る。GUI生成器168は、第1の要求を受信したことに応答して、音声モデル131が訓練されているかまたは訓練されたことおよび音声モデル131が合成音声オーディオを出力するために使用されていない(たとえば、アバター135が話していない)ことを示す、アバター135の第1の表現を表示するようにGUI145を更新する。代替態様では、中断マネージャ164は、中断が終了したことを検出したことに応答して、アバター135の表示を停止するために第2の要求をGUI生成器168に送る。たとえば、GUI生成器168は、第2の要求を受信したことに応答して、アバター135を表示するのを控えるようにGUI145を更新する。

特定の態様では、中断マネージャ164は、第2の動作モード(たとえば、中断データ表示モードまたはキャプション付きデータなしモード)の間に中断が終了したことを検出したことに応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をディスプレイデバイス156に提供するのを控える。たとえば、GUI生成器168は、テキストストリーム121、注釈付きテキストストリーム137、またはその両方を表示するのを控えるようにGUI145を更新する。

このようにして、システム100は、オンライン会議の間の音声オーディオストリーム111の中断の間の情報損失を低減する(たとえば、なくす)。たとえば、ネットワーク問題が音声オーディオストリーム111がデバイス104によって受信されることを妨げるが、テキストがデバイス104によって受信され得る場合、ユーザ144は、ユーザ142の音声に対応するオーディオ(たとえば、合成音声オーディオストリーム133)、テキスト(たとえば、テキストストリーム121、注釈付きテキストストリーム137、またはその両方)、またはそれらの組合せを受信し続ける。

カメラ150およびマイクロフォン152はデバイス102に結合されるものとして示されているが、他の実装形態では、カメラ150、マイクロフォン152、またはその両方はデバイス102に統合されてもよい。スピーカー154およびディスプレイデバイス156はデバイス104に結合されるものとして示されているが、他の実装形態では、スピーカー154、ディスプレイデバイス156、またはその両方はデバイス104に統合されてもよい。1つのマイクロフォンおよび1つのスピーカーが示されているが、他の実装形態では、ユーザ音声をキャプチャするように構成された1つもしくは複数の追加のマイクロフォン、音声オーディオを出力するように構成された1つもしくは複数の追加のスピーカー、またはそれらの組合せが含まれてもよい。

説明しやすいように、デバイス102は送信デバイスとして説明され、デバイス104は受信デバイスとして説明されることを理解されたい。通話の間に、デバイス102およびデバイス104の役割は、ユーザ144が話し始めるときに切り替えることができる。たとえば、デバイス104が送信デバイスであってもよく、デバイス102が受信デバイスであってもよい。例示すると、デバイス104は、ユーザ144のオーディオおよびビデオをキャプチャするためのマイクロフォンおよびカメラを含むことができ、デバイス102は、オーディオおよびビデオをユーザ142にプレイアウトするためのスピーカーおよびディスプレイを含むことができるか、またはスピーカーおよびディスプレイに結合され得る。特定の態様では、たとえば、ユーザ142とユーザ144の両方が同時にまたは重複する時間に話しているとき、デバイス102およびデバイス104の各々は送信デバイスおよび受信デバイスであり得る。

特定の態様では、会議マネージャ122はまた、会議マネージャ162を参照しながら説明した1つまたは複数の動作を実行するように構成され、その逆も同様である。特定の態様では、中断マネージャ124はまた、中断マネージャ164を参照しながら説明した1つまたは複数の動作を実行するように構成され、その逆も同様である。GUI生成器168は、会議マネージャ162および中断マネージャ164とは別個のものとして説明されているが、他の実装形態では、GUI生成器168は、会議マネージャ162、中断マネージャ164、またはその両方に統合される。例示すると、いくつかの例では、会議マネージャ162、中断マネージャ164、またはその両方は、GUI生成器168を参照しながら説明したいくつかの動作を実行するように構成される。

図2を参照すると、音声オーディオストリーム中断を処理するように動作可能なシステムが示され、全体的に200と指定されている。特定の態様では、図1のシステム100は、システム200の1つまたは複数の構成要素を含む。

システム200は、ネットワーク106を介してデバイス102とデバイス104とに結合されたサーバ204を含む。サーバ204は、会議マネージャ122および中断マネージャ124を含む。サーバ204は、オンライン会議データをデバイス102からデバイス104に、およびその逆に転送するように構成される。たとえば、会議マネージャ122は、デバイス102とデバイス104との間のオンライン会議を確立するように構成される。

デバイス102は、会議マネージャ222を含む。オンライン会議の間に、会議マネージャ222は、メディアストリーム109(たとえば、音声オーディオストリーム111、ビデオストリーム113、またはその両方)をサーバ204に送る。サーバ204の会議マネージャ122は、デバイス102からメディアストリーム109(たとえば、音声オーディオストリーム111、ビデオストリーム113、またはその両方)を受信する。特定の実装形態では、デバイス102は、メディアストリーム109をサーバ204に送るのと同時に、テキストストリーム121、メタデータストリーム123、またはその両方を送る。

特定の態様では、後続の動作は図1を参照しながら説明したように実行され、サーバ204がデバイス102に取って代わる。たとえば、(図1の場合のようにデバイス102において動作する代わりにサーバ204において動作する)会議マネージャ122は、図1を参照しながら説明した方法と同様の方法で、メディアストリーム109、テキストストリーム121、メタデータストリーム123、またはそれらの組合せをデバイス104に送る。たとえば、会議マネージャ122は、サーバ204の第1の動作モード(たとえば、キャプション付きデータ送信モード)の間に、テキストストリーム121、メタデータストリーム123、またはその両方を送る。特定の実装形態では、会議マネージャ122は、デバイス102から受信されたテキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に転送する。いくつかの実装形態では、会議マネージャ122は、テキストストリーム121、メディアストリーム109、またはそれらの組合せに基づいてメタデータストリーム123を生成する。これらの実装形態では、会議マネージャ122は、デバイス102から受信されたテキストストリーム121をデバイス104に転送すること、サーバ204において生成されたメタデータストリーム123をデバイス104に送ること、またはその両方を行う。いくつかの実装形態では、会議マネージャ122は、メディアストリーム109に基づいてテキストストリーム121、メタデータストリーム123、またはその両方を生成し、テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に転送する。代替として、会議マネージャ122は、サーバ204の第2の動作モード(たとえば、中断データ送信モード)の間に、中断が検出されないとの決定に応答して、テキストストリーム121、メタデータストリーム123、またはその両方を送るのを控える。デバイス104は、メディアストリーム109、テキストストリーム121、注釈付きテキストストリーム137、またはそれらの組合せをネットワーク106を介してサーバ204から受信する。会議マネージャ162は、図1を参照しながら説明したように、メディアストリーム109のメディアフレーム、テキストストリーム121、注釈付きテキストストリーム137、またはそれらの組合せをプレイアウトする。中断マネージャ164は、図1を参照しながら説明したように、音声モデル131を訓練すること、アバター135を表示すること、またはその両方を行う。

特定の態様では、中断マネージャ124は、ネットワーク問題を検出したことに応答して、音声オーディオストリーム111の中断を示す中断通知119をデバイス104に送ること、ネットワーク問題が解決された(たとえば、中断が終了した)ことを検出するまで、メディアストリーム109の後続のメディアフレームをデバイス104に送るのを控える(たとえば、その送信を停止する)こと、またはその両方を行う。中断マネージャ124は、図1を参照しながら説明したように、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送る。たとえば、中断マネージャ124は、デバイス102から受信されたテキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に転送する。いくつかの例では、中断マネージャ124は、サーバ204において生成されたメタデータストリーム123、テキストストリーム121、またはその両方をデバイス104に送る。特定の態様では、中断マネージャ124は、サーバ204の第2の動作モード(たとえば、中断データ送信モード)の間に、音声オーディオストリーム111の中断を検出したことに応答して、メタデータストリーム123、テキストストリーム121、またはその両方を選択的に生成する。

特定の態様では、中断マネージャ164は、中断マネージャ124から中断通知119を(たとえば、サーバ204において)受信したこと、サーバ204が第2の動作モード(たとえば、中断データ送信モード)で動作しているときにテキストストリーム121、メタデータストリーム123、もしくはその両方を受信したこと、音声オーディオストリーム111のオーディオフレームが音声オーディオストリーム111の最後に受信されたオーディオフレームのしきい値持続時間内で受信されないと決定したこと、またはそれらの組合せに応答して、図1を参照しながら説明したような方法と同様の方法で、音声オーディオストリーム111の中断を検出する。特定の態様では、中断マネージャ164は、中断通知をサーバ204に送る。特定の態様では、中断マネージャ124は、デバイス104から中断通知を受信したことに応答して、ネットワーク問題を検出する。中断マネージャ124は、図1を参照しながら説明したように、後続のメディアフレームに対応するテキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送る。

中断マネージャ164は、中断を検出したことに応答して、テキストストリーム121、メタデータストリーム123、注釈付きテキストストリーム137、またはそれらの組合せをテキスト音声変換器166に提供する。テキスト音声変換器166は、図1を参照しながら説明したように、テキストストリーム121、メタデータストリーム123、注釈付きテキストストリーム137、またはそれらの組合せに基づいてテキスト音声変換を実行するために音声モデル131を使用することによって、合成音声オーディオストリーム133を生成する。中断マネージャ164は、図1を参照しながら説明したように、中断に応答して、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供すること、音声オーディオストリーム111の再生を停止すること、ビデオストリーム113の再生を停止すること、アバター135を表示すること、アバター135の特定の表現を表示すること、テキストストリーム121を表示すること、注釈付きテキストストリーム137を表示すること、またはそれらの組合せを行う。

会議マネージャ122は、中断が終了したことを検出したことに応答して、音声オーディオストリーム111、ビデオストリーム113、またはその両方のデバイス104への送信を再開する。特定の態様では、中断マネージャ124は、サーバ204の第2の動作モード(たとえば、中断データ送信モード)の間に中断が終了したことを検出したことに応答して、テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に送るのを控える(たとえば、その送信をやめる)。

会議マネージャ162は、中断が終了したことを検出したことに応答して、テキストストリーム121に基づいて合成音声オーディオストリーム133を生成するのを控えること、合成音声オーディオストリーム133をオーディオ出力143としてスピーカー154に提供するのを控える(たとえば、停止する)こと、スピーカー154へのオーディオ出力143としての音声オーディオストリーム111の再生を再開すること、ビデオストリーム113をディスプレイデバイス156に提供するのを再開すること、アバター135の表示を停止もしくは調整すること、テキストストリーム121をディスプレイデバイス156に提供するのを控えること、注釈付きテキストストリーム137をディスプレイデバイス156に提供するのを控えること、またはそれらの組合せを行う。

このようにして、システム200は、レガシーデバイス(たとえば、中断マネージャを含まないデバイス102)とのオンライン会議の間の音声オーディオストリーム111の中断の間の情報損失を低減する(たとえば、なくす)。たとえば、ネットワーク問題が音声オーディオストリーム111がデバイス104によって受信されることを妨げるが、テキストがデバイス104によって受信され得る場合、ユーザ144は、ユーザ142の音声に対応するオーディオ(たとえば、合成音声オーディオストリーム133)、テキスト(たとえば、テキストストリーム121、注釈付きテキストストリーム137、またはその両方)、またはそれらの組合せを受信し続ける。

特定の態様では、サーバ204は、デバイス104により近い(たとえば、より少ないネットワークホップ)こともあり、テキストストリーム121、メタデータストリーム123、またはその両方を(たとえば、デバイス102からの代わりに)サーバ204から送ることは、全体的なネットワークリソースを節約することができる。特定の態様では、サーバ204は、テキストストリーム121、メタデータストリーム123、またはその両方をデバイス104に成功裡に送るのに有用であり得るネットワーク情報にアクセスできる場合がある。一例として、サーバ204は最初に、第1のネットワークリンクを介してメディアストリーム109を送信する。サーバ204は、ネットワーク問題を検出し、第1のネットワークリンクが利用不可能であるかまたは機能していないとの決定に少なくとも部分的に基づいて、テキスト送信を受け入れるために利用可能であるように見える第2のネットワークリンクを使用して、テキストストリーム121、メタデータストリーム123、またはその両方を送信する。

図3Aを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図1のシステム100、図2のシステム200、またはその両方によって生成される。

GUI145は、ビデオディスプレイ306と、アバター135と、訓練インジケータ(TI)304とを含む。たとえば、GUI生成器168は、オンライン会議の開始の間にGUI145を生成する。ビデオストリーム113(たとえば、ユーザ142(たとえば、Jill Pratt)の画像)が、ビデオディスプレイ306を介して表示される。

訓練インジケータ304は、音声モデル131の訓練レベル(たとえば、0%または訓練されていない)を示す。たとえば、訓練インジケータ304は、音声モデル131がカスタム訓練されていないことを示す。特定の態様では、アバター135の表現(たとえば、無色)も、訓練レベルを示す。特定の態様では、アバター135の表現は、合成音声が出力されていないことを示す。たとえば、GUI145は、図3Cを参照しながらさらに説明するものなどの合成音声インジケータを含まない。

特定の実装形態では、音声モデル131のカスタム訓練に先立って中断が発生し、テキスト音声変換器166が音声モデル131(たとえば、カスタマイズされていない汎用音声モデル)を使用して合成音声オーディオストリーム133を生成する場合、合成音声オーディオストリーム133は、ユーザ142の音声特性とは異なり得る汎用音声特性を有するオーディオ音声に対応する。特定の態様では、音声モデル131は、ユーザ142の人口統計学データに関連付けられた汎用音声モデルを使用して初期化される。この態様では、合成音声オーディオストリーム133は、ユーザ142の人口統計学データ(たとえば、年齢、性別、地方なまりなど)と一致する汎用音声特性に対応する。

図3Bを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図1のシステム100、図2のシステム200、またはその両方によって生成される。

特定の例では、GUI生成器168は、オンライン会議の間にGUI145を更新する。訓練インジケータ304は、音声モデル131の第2の訓練レベル(たとえば、20%または部分的に訓練された)を示す。たとえば、訓練インジケータ304は、音声モデル131がカスタム訓練されているかまたは部分的にカスタム訓練されたことを示す。特定の態様では、アバター135の(たとえば、部分的に着色された)表現も、第2の訓練レベルを示す。特定の態様では、アバター135の表現は、合成音声が出力されていないことを示す。たとえば、GUI145は、合成音声インジケータを含まない。

特定の実装形態では、音声モデル131の部分的なカスタム訓練の後に中断が発生し、テキスト音声変換器166が音声モデル131(たとえば、部分的にカスタマイズされた音声モデル)を使用して合成音声オーディオストリーム133を生成する場合、合成音声オーディオストリーム133は、ユーザ142の音声特性といくらかの類似性を有する音声特性を有するオーディオ音声に対応する。

図3Cを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図1のシステム100、図2のシステム200、またはその両方によって生成される。

特定の例では、GUI生成器168は、中断に応答してGUI145を更新する。訓練インジケータ304は、音声モデル131の第3の訓練レベル(たとえば、100%または訓練が完了している)を示す。たとえば、訓練インジケータ304は、音声モデル131がカスタム訓練されているかまたはカスタム訓練が完了した(たとえば、しきい値レベルに達した)ことを示す。特定の態様では、アバター135の(たとえば、完全に着色された)表現も、第3の訓練レベルを示す。特定の態様では、アバター135の表現は、合成音声が出力されていることを示す。たとえば、GUI145は、アバター135の一部としてまたはそれとともに表示される、プレイアウトされている音声が合成音声であることを示す合成音声インジケータ398を含む。

図3Cの例では、音声モデル131のカスタム訓練の後に中断が発生し、テキスト音声変換器166が音声モデル131(たとえば、カスタマイズされた音声モデル)を使用して合成音声オーディオストリーム133を生成するので、合成音声オーディオストリーム133は、ユーザ142の音声特性と類似する音声特性を有するオーディオ音声に対応する。

中断マネージャ164は、中断に応答して、ビデオストリーム113の出力を停止する。たとえば、ビデオディスプレイ306は、中断(たとえば、ネットワーク問題)によりビデオストリーム113の出力が停止されたことを示す。GUI145は、テキストディスプレイ396を含む。たとえば、中断マネージャ164は、中断に応答して、テキストストリーム121をテキストディスプレイ396を介して出力する。

特定の態様では、ユーザ144が会話に参加し続けることができるように、テキストストリーム121がリアルタイムで表示される。たとえば、ユーザ144は、ユーザ142が言ったことをテキストディスプレイ396で読んだ後に、ユーザ142への応答を話すことができる。特定の態様では、ネットワーク問題がユーザ144の音声に対応する音声オーディオストリームがデバイス102によって受信されることを妨げる場合、中断マネージャ124は、ユーザ144の音声に対応するテキストストリームをデバイス102において表示することができる。このようにして、オンライン会議の1人または複数の参加者が、他の参加者の音声に対応するテキストストリームまたは音声オーディオストリームを受信することができる。

図4Aを参照すると、図1のシステム100または図2のシステム200の動作の例示的な態様の図が示され、全体的に400と指定されている。図4Aに示されたタイミングおよび動作は説明のためのものであり、限定的ではない。他の態様では、追加のまたはより少ない動作が実行されてもよく、タイミングが異なってもよい。

図400は、デバイス102からのメディアストリーム109のメディアフレームの送信のタイミングを示す。特定の態様では、メディアストリーム109のメディアフレームは、図1を参照しながら説明したように、デバイス102からデバイス104に送信される。代替態様では、メディアストリーム109のメディアフレームは、図2を参照しながら説明したように、デバイス102からサーバ204に、かつサーバ204からデバイス102に送信される。

デバイス102は、第1の送信時間においてメディアストリーム109のメディアフレーム(FR)410を送信する。デバイス104は、第1の受信時間においてメディアフレーム410を受信し、第1の再生時間における再生のためにメディアフレーム410を提供する。特定の例では、会議マネージャ162は、第1の受信時間と第1の再生時間との間の第1のバッファ間隔の間に、メディアフレーム410をバッファに記憶する。特定の態様では、メディアフレーム410は、ビデオストリーム113の第1の部分および音声オーディオストリーム111の第1の部分を含む。会議マネージャ162は、第1の再生時間において、音声オーディオストリーム111の第1の部分をオーディオ出力143の第1の部分としてスピーカー154に出力し、ビデオストリーム113の第1の部分をディスプレイデバイス156に出力する。

デバイス102(またはサーバ204)は、第2の予想送信時間においてメディアフレーム411を送信すると予想される。デバイス104は、第2の予想受信時間においてメディアフレーム411を受信すると予想される。デバイス104の中断マネージャ164は、メディアストリーム109のメディアフレームが第1の受信時間の受信しきい値持続時間内で受信されていないとの決定に応答して、音声オーディオストリーム111の中断を検出する。たとえば、中断マネージャ164は、第1の受信時間および受信しきい値持続時間に基づいて第2の時間を決定する(たとえば、第2の時間=第1の受信時間+受信しきい値持続時間)。中断マネージャ164は、メディアストリーム109のメディアフレームが第1の受信時間と第2の時間との間で受信されていないとの決定に応答して、音声オーディオストリーム111の中断を検出する。第2の時間は、メディアフレーム411の第2の予想受信時間の後であり、かつメディアフレーム411の予想再生時間に先立つ。たとえば、第2の時間は、メディアフレーム411の予想バッファ間隔の間である。

デバイス102(またはサーバ204)は、図1～図2を参照しながら説明したように、音声オーディオストリーム111の中断を検出する。(デバイス102またはサーバ204の)中断マネージャ124は、音声オーディオストリーム111の中断に応答して、中断が終了するまで、後続のメディアフレーム(たとえば、メディアフレームのセット491)に対応するテキストストリーム121をデバイス104に送る。特定の態様では、メディアフレーム411は、ビデオストリーム113の第2の部分および音声オーディオストリーム111の第2の部分を含む。中断マネージャ124(または会議マネージャ122)は、音声オーディオストリーム111の第2の部分に対して音声テキスト変換を実行することによってテキストストリーム121のテキスト451を生成し、テキスト451をデバイス104に送る。

デバイス104は、図1～図2を参照しながら説明したように、デバイス102またはサーバ204からテキストストリーム121のテキスト451を受信する。中断マネージャ164は、中断に応答して、中断が終了するまで、後続のメディアフレームに対応するテキストストリーム121の再生を開始する。たとえば、中断マネージャ164は、第2の再生時間においてテキスト451をディスプレイデバイス156に提供する。特定の態様では、第2の再生時間は、メディアフレーム411の予想再生時間に基づく(たとえば、それと同じである)。

特定の態様では、図2の会議マネージャ222は、中断に気づいておらず、メディアストリーム109のメディアフレーム413をサーバ204に送信する。特定の態様では、(図1のデバイス102または図2のサーバ204の)中断マネージャ124は、中断に応答して、デバイス104へのメディアフレーム413の送信を停止する。特定の態様では、メディアフレーム413は、ビデオストリーム113の第3の部分および音声オーディオストリーム111の第3の部分を含む。中断マネージャ124は、音声オーディオストリーム111の第3の部分に基づいてテキスト453を生成する。中断マネージャ124は、テキスト453をデバイス104に送信する。

デバイス104は、テキスト453を受信する。中断マネージャ164は、中断に応答して、第3の再生時間においてテキスト453をディスプレイデバイス156に提供する。特定の態様では、第3の再生時間は、メディアフレーム413の予想再生時間に基づく(たとえば、それと同じである)。

(デバイス102またはサーバ204の)中断マネージャ124は、図1～図2を参照しながら説明したように、中断が終了したことに応答して、デバイス104へのメディアストリーム109の後続のメディアフレーム(たとえば、次のメディアフレーム493)の送信を再開する。たとえば、会議マネージャ122は、メディアフレーム415をデバイス104に送信する。中断マネージャ164は、中断が終了したことに応答して、メディアストリーム109の再生を再開し、テキストストリーム121の再生を停止する。特定の態様では、メディアフレーム415は、ビデオストリーム113の第4の部分および音声オーディオストリーム111の第4の部分を含む。会議マネージャ162は、第4の再生時間において、音声オーディオストリーム111の第4の部分をオーディオ出力143の一部分としてスピーカー154に出力し、ビデオストリーム113の第4の部分をディスプレイデバイス156に出力する。

別の例として、会議マネージャ122は、メディアフレーム417をデバイス104に送信する。特定の態様では、メディアフレーム417は、ビデオストリーム113の第5の部分および音声オーディオストリーム111の第5の部分を含む。会議マネージャ162は、第5の再生時間において、音声オーディオストリーム111の第5の部分をオーディオ出力143の一部分としてスピーカー154に出力し、ビデオストリーム113の第5の部分をディスプレイデバイス156に出力する。

このようにして、デバイス104は、メディアストリーム109の中断の間にテキストストリーム121を再生することによって、情報損失を防止する。メディアストリーム109の再生は、中断が終了したときに再開する。

図4Bを参照すると、図1のシステム100または図2のシステム200の動作の例示的な態様の図が示され、全体的に490と指定されている。図4Bに示されたタイミングおよび動作は説明のためのものであり、限定的ではない。他の態様では、追加のまたはより少ない動作が実行されてもよく、タイミングが異なってもよい。

図490は、デバイス102からのメディアストリーム109のメディアフレームの送信のタイミングを示す。図1のGUI生成器168は、アバター135の訓練レベルを示すGUI145を生成する。たとえば、GUI145は、アバター135(たとえば、音声モデル131)が訓練されていないかまたは部分的に訓練されたことを示す。デバイス104は、ビデオストリーム113の第1の部分および音声オーディオストリーム111の第1の部分を含むメディアフレーム410を受信する。会議マネージャ162は、図4Aを参照しながら説明したように、第1の再生時間において、音声オーディオストリーム111の第1の部分をオーディオ出力143の第1の部分としてスピーカー154に出力し、ビデオストリーム113の第1の部分をディスプレイデバイス156に出力する。中断マネージャ164は、図1を参照しながら説明したように、メディアフレーム410(たとえば、音声オーディオストリーム111の第1の部分)に基づいて音声モデル131を訓練する。GUI生成器168は、アバター135の更新された訓練レベル(たとえば、部分的に訓練されたまたは完全に訓練された)を示すGUI145を更新する。

デバイス104は、図4Aを参照しながら説明したように、デバイス102またはサーバ204からテキストストリーム121のテキスト451を受信する。中断マネージャ164は、中断に応答して、メディアストリーム109の再生を停止し、音声モデル131の訓練を停止し、合成音声オーディオストリーム133の再生を開始する。たとえば、中断マネージャ164は、テキスト451に基づいて合成音声オーディオストリーム133の合成音声フレーム471を生成する。例示すると、中断マネージャ164は、テキスト451をテキスト音声変換器166に提供する。テキスト音声変換器166は、テキスト451に対してテキスト音声変換を実行して合成音声フレーム(SFR)471を生成するために、音声モデル131を使用する。中断マネージャ164は、第2の再生時間において、合成音声フレーム471をオーディオ出力143の第2の部分として提供する。GUI生成器168は、合成音声が出力されていることを示す合成音声インジケータ398を含めるようにGUI145を更新する。たとえば、GUI145は、アバター135が話していることを示す。

デバイス104は、図4Aを参照しながら説明したように、テキスト453を受信する。中断マネージャ164は、中断に応答して、テキスト453に基づいて合成音声オーディオストリーム133の合成音声フレーム473を生成する。中断マネージャ164は、第3の再生時間において、合成音声フレーム473をオーディオ出力143の第3の部分として提供する。

(デバイス102またはサーバ204の)中断マネージャ124は、図4Aを参照しながら説明したように、中断が終了したことに応答して、デバイス104へのメディアストリーム109の後続のメディアフレーム(たとえば、次のメディアフレーム493)の送信を再開する。たとえば、会議マネージャ122は、メディアフレーム415をデバイス104に送信する。中断マネージャ164は、中断が終了したことに応答して、メディアストリーム109の再生を再開し、合成音声オーディオストリーム133の再生を停止し、音声モデル131の訓練を再開する。GUI生成器168は、合成音声が出力されていないことを示す合成音声インジケータ398を削除するようにGUI145を更新する。

特定の例では、会議マネージャ162は、メディアフレーム415およびメディアフレーム417をプレイアウトする。例示すると、メディアフレーム415は、ビデオストリーム113の第4の部分および音声オーディオストリーム111の第4の部分を含む。会議マネージャ162は、第4の再生時間において、音声オーディオストリーム111の第4の部分をオーディオ出力143の第4の部分としてスピーカー154に出力し、ビデオストリーム113の第4の部分をディスプレイデバイス156に出力する。特定の態様では、会議マネージャ162は、第5の再生時間において、音声オーディオストリーム111の第5の部分をオーディオ出力143の第5の部分としてスピーカー154に出力し、ビデオストリーム113の第5の部分をディスプレイデバイス156に出力する。

このようにして、デバイス104は、メディアストリーム109の中断の間に合成音声オーディオストリーム133を再生することによって、情報損失を防止する。メディアストリーム109の再生は、中断が終了したときに再開する。

図5を参照すると、音声オーディオストリーム中断を処理するように動作可能なシステムが示され、全体的に500と指定されている。特定の態様では、図1のシステム100は、システム500の1つまたは複数の構成要素を含む。

システム500は、ネットワーク106を介してデバイス104に結合されたデバイス502を含む。動作中に、会議マネージャ162は、複数のデバイス(たとえば、デバイス102およびデバイス502)とのオンライン会議を確立する。たとえば、会議マネージャ162は、デバイス102のユーザ142およびデバイス502のユーザ542とのユーザ144のオンライン会議を確立する。デバイス104は、図1～図2を参照しながら説明したように、デバイス102またはサーバ204から、ユーザ142の音声、画像、またはその両方を表すメディアストリーム109(たとえば、音声オーディオストリーム111、ビデオストリーム113、またはその両方)を受信する。同様に、デバイス104は、デバイス502またはサーバ(たとえば、サーバ204または別のサーバ)から、ユーザ542の音声、画像、またはその両方を表すメディアストリーム509(たとえば、第2の音声オーディオストリーム511、第2のビデオストリーム513、またはその両方)を受信する。

会議マネージャ162は、図6Aを参照しながらさらに説明するように、メディアストリーム509をプレイアウトするのと同時に、メディアストリーム109をプレイアウトする。たとえば、会議マネージャ162は、第2のビデオストリーム513をディスプレイデバイス156に提供するのと同時に、ビデオストリーム113をディスプレイデバイス156に提供する。例示すると、ユーザ144は、オンライン会議の間にユーザ542の画像を閲覧するのと同時に、ユーザ142の画像を閲覧することができる。別の例として、会議マネージャ162は、音声オーディオストリーム111、第2の音声オーディオストリーム511、またはその両方をオーディオ出力143としてスピーカー154に提供する。例示すると、ユーザ144は、ユーザ142の音声、ユーザ542の音声、またはその両方を聞くことができる。特定の態様では、中断マネージャ164は、図1を参照しながら説明したように、音声オーディオストリーム111に基づいて音声モデル131を訓練する。同様に、中断マネージャ164は、第2の音声オーディオストリーム511に基づいてユーザ542の第2の音声モデルを訓練する。

特定の例では、デバイス104は、音声オーディオストリーム111の中断の間にメディアストリーム509を受信し続ける。中断マネージャ164は、図6Cを参照しながらさらに説明するように、合成音声オーディオストリーム133、テキストストリーム121、注釈付きテキストストリーム137、またはそれらの組合せをプレイアウトするのと同時に、メディアストリーム509をプレイアウトする。たとえば、中断マネージャ164は、合成音声オーディオストリーム133を生成し、合成音声オーディオストリーム133をスピーカー154に提供するのと同時に、第2の音声オーディオストリーム511を提供する。別の例として、中断マネージャ164は、GUI145に対するテキストストリーム121または注釈付きテキストストリーム137を含む更新を生成し、GUI145の更新をディスプレイデバイス156に提供するのと同時に、第2のビデオストリーム513をディスプレイデバイス156に提供する。このようにして、ユーザ144は、音声オーディオストリーム111の中断の間のユーザ142とユーザ542との間の会話についていくことができる。

特定の態様では、メディアストリーム509の中断は、音声オーディオストリーム111の中断と重複する。中断マネージャ164は、第2の音声オーディオストリーム511に対応する、第2のテキストストリーム、第2のメタデータストリーム、またはその両方を受信する。特定の態様では、中断マネージャ164は、第2のテキストストリーム、第2のメタデータストリーム、またはその両方に基づいて第2の注釈付きテキストストリームを生成する。中断マネージャ164は、第2のテキストストリーム、第2のメタデータストリーム、第2の注釈付きテキストストリーム、またはそれらの組合せに基づいてテキスト音声変換を実行するために第2の音声モデルを使用することによって、第2の合成音声オーディオストリームを生成する。中断マネージャ164は、合成音声オーディオストリーム133をプレイアウトするのと同時に、第2の音声オーディオストリーム511をスピーカー154にプレイアウトする。特定の態様では、中断マネージャ164は、第2のテキストストリーム、第2の注釈付きテキストストリーム、またはその両方をディスプレイデバイス156にプレイアウトするのと同時に、テキストストリーム121、注釈付きテキストストリーム137、またはその両方をプレイアウトする。このようにして、ユーザ144は、音声オーディオストリーム111および第2の音声オーディオストリーム511の中断の間のユーザ142とユーザ542との間の会話についていくことができる。

このようにして、システム500は、複数のユーザとのオンライン会議の間の1つまたは複数の音声オーディオストリーム(たとえば、音声オーディオストリーム111、第2の音声オーディオストリーム511、またはその両方)の中断の間の情報損失を低減する(たとえば、なくす)。たとえば、ネットワーク問題が1つまたは複数の音声オーディオストリームがデバイス104によって受信されることを妨げるが、テキストがデバイス104によって受信され得る場合、ユーザ144はユーザ142の音声およびユーザ542の音声に対応するオーディオ、テキスト、またはそれらの組合せを受信し続ける。

図6Aを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図5のシステム500によって生成される。

GUI145は、オンライン会議の複数の参加者のためのビデオディスプレイ、アバター、訓練インジケータ、またはそれらの組合せを含む。たとえば、GUI145は、図3Aを参照しながら説明したように、ユーザ142のためのビデオディスプレイ306、アバター135、訓練インジケータ304、またはそれらの組合せを含む。GUI145はまた、ユーザ542のためのビデオディスプレイ606、アバター635、訓練インジケータ(TI)604、またはそれらの組合せを含む。たとえば、GUI生成器168は、オンライン会議の開始の間にGUI145を生成する。ビデオディスプレイ306を介したビデオストリーム113(たとえば、ユーザ142(たとえば、Jill P.)の画像)の表示と同時に、メディアストリーム509の第2のビデオストリーム513(たとえば、ユーザ542(たとえば、Emily F.)の画像)がビデオディスプレイ606を介して表示される。

訓練インジケータ304は、音声モデル131の訓練レベル(たとえば、0%または訓練されていない)を示し、訓練インジケータ604は、第2の音声モデルの訓練レベル(たとえば、10%または部分的に訓練された)を示す。一方のユーザが他方のユーザよりも多く話す場合、または一方のユーザの音声が多種多様な音を含む(たとえば、モデルカバレージがより高い)場合、音声モデルの訓練レベルは異なり得る。

特定の態様では、アバター135の表現(たとえば、無色)およびアバター635の(たとえば、部分的に着色された)表現も、それぞれの音声モデルの訓練レベルを示す。特定の態様では、アバター135の表現およびアバター635の表現は、合成音声が出力されていないことを示す。たとえば、GUI145は、いかなる合成音声インジケータも含まない。

特定の実装形態では、メディアストリーム109を受信する際に中断が生じた場合、テキスト音声変換器166は、音声モデル131(たとえば、カスタマイズされていない汎用音声モデル)を使用して合成音声オーディオストリーム133を生成する。メディアストリーム509を受信する際に中断が生じた場合、テキスト音声変換器166は、第2の音声モデル(たとえば、部分的にカスタマイズされた音声モデル)を使用して第2の合成音声オーディオストリームを生成する。特定の態様では、中断マネージャ164は、音声モデル131および第2の音声モデルの訓練(または完全な訓練)に先立って中断が生じた場合にユーザ142の合成音声がユーザ542の合成音声と区別可能であるように、音声モデル131を初期化するために使用される第1の汎用音声モデルとは別個の第2の汎用音声モデルに基づいて第2の音声モデルを初期化する。特定の態様では、音声モデル131は、ユーザ142の人口統計学データに関連付けられた第1の汎用音声モデルを使用して初期化され、第2の音声モデルは、ユーザ542の人口統計学データに関連付けられた第2の汎用音声モデルを使用して初期化される。

図6Bを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図5のシステム500によって生成される。

特定の例では、GUI生成器168は、オンライン会議の間にGUI145を更新する。たとえば、訓練インジケータ304は、音声モデル131の第2の訓練レベル(たとえば、20%または部分的に訓練された)および第2の音声モデルの第2の訓練レベル(たとえば、100%または完全に訓練された)を示す。

図6Cを参照すると、GUI145の一例が示されている。特定の態様では、GUI145は、図5のシステム500によって生成される。

特定の例では、GUI生成器168は、メディアストリーム109の受信の中断に応答してGUI145を更新する。訓練インジケータ304は、音声モデル131の第3の訓練レベル(たとえば、55%または部分的に訓練された)を示し、訓練インジケータ604は、第2の音声モデルの第3の訓練レベル(たとえば、100%または完全に訓練された)を示す。特定の態様では、アバター135の表現は、合成音声が出力されていることを示す。たとえば、GUI145は、合成音声インジケータ398を含む。アバター635の表現は、ユーザ542に対して合成音声が出力されていないことを示す。たとえば、GUI145は、アバター635に関連付けられた合成音声インジケータを含まない。

中断マネージャ164は、中断に応答して、ビデオストリーム113の出力を停止する。たとえば、ビデオディスプレイ306は、中断(たとえば、ネットワーク問題)によりビデオストリーム113の出力が停止されたことを示す。中断マネージャ164は、中断に応答して、テキストストリーム121をテキストディスプレイ396を介して出力する。

特定の態様では、ユーザ144が会話についていき、会話に参加し続けることができるように、テキストストリーム121がリアルタイムで表示される。たとえば、ユーザ144は、ユーザ142が第1の発言(たとえば、「何かお祝いするようなことがあったことと思います」)を行ったことを、合成音声オーディオストリーム133から聞くこと、テキストディスプレイ396上で読むこと、またはその両方を行うことができる。ユーザ144は、スピーカー154によって出力されたメディアストリーム509の第2の音声オーディオストリームにおいてユーザ542からの応答を聞くことができる。ユーザ144は、ユーザ142が第2の発言(たとえば、「それはとても面白いですね。楽しんでもらえてうれしいです」)を行ったことを、合成音声オーディオストリーム133から聞くこと、テキストディスプレイ396上で読むこと、またはその両方を行うことができる。このようにして、ユーザ144は、オンライン会議の1人または複数の他の参加者についてのメディアストリームを受信しながら、オンライン会議の1人または複数の参加者について、合成音声オーディオストリームからオーディオを聞くこと、テキストストリームのテキストを読むこと、またはその両方を行うことができる。

図7Aを参照すると、図5のシステム500の動作の例示的な態様の図が示され、全体的に700と指定されている。図7Aに示されたタイミングおよび動作は説明のためのものであり、限定的ではない。他の態様では、追加のまたはより少ない動作が実行されてもよく、タイミングが異なってもよい。

図700は、デバイス102からのメディアストリーム109およびデバイス502からのメディアストリーム509のメディアフレームの送信のタイミングを示す。特定の態様では、メディアストリーム109のメディアフレームは、図1～図2を参照しながら説明したように、デバイス102またはサーバ204からデバイス104に送信される。同様に、メディアストリーム509のメディアフレームは、デバイス502またはサーバ(たとえば、サーバ204または別のサーバ)からデバイス104に送信される。

デバイス104は、メディアストリーム109のメディアフレーム410およびメディアストリーム509のメディアフレーム710を受信し、再生のためにメディアフレーム410およびメディアフレーム710を提供する。たとえば、会議マネージャ162は、図6Aを参照しながら説明したように、(たとえば、メディアフレーム410によって示される)音声オーディオストリーム111の第1の部分および(たとえば、メディアフレーム710によって示される)第2の音声オーディオストリームの第1の部分をオーディオ出力143としてスピーカー154に出力し、(たとえば、メディアフレーム410によって示される)ビデオストリーム113の第1の部分をビデオディスプレイ306を介して出力し、(たとえば、メディアフレーム710によって示される)第2のビデオストリームの第1の部分をビデオディスプレイ606を介して出力する。

デバイス104は、図4Aを参照しながら説明したように、メディアストリーム109の中断の間に、テキストストリーム121の(メディアフレーム411に対応する)テキスト451を受信する。デバイス104は、メディアストリーム509のメディアフレーム711を受信する。中断マネージャ164は、中断に応答して、メディアストリーム509の再生と同時に、中断が終了するまで、メディアストリーム109の後続のメディアフレームに対応するテキストストリーム121の再生を開始する。たとえば、中断マネージャ164は、再生のためにメディアフレーム711を提供するのと同時に、(たとえば、メディアフレーム411によって示される)テキスト451をディスプレイデバイス156に提供する。

デバイス104は、図4Aを参照しながら説明したように、メディアストリーム109の中断の間に、テキストストリーム121の(メディアフレーム413に対応する)テキスト453を受信する。デバイス104は、メディアストリーム509のメディアフレーム713を受信する。中断マネージャ164は、再生のためにメディアフレーム713を提供するのと同時に、テキスト453をディスプレイデバイス156に提供する。

中断マネージャ164は、図4Aを参照しながら説明したように、中断が終了したことに応答して、メディアストリーム109の再生を再開し、テキストストリーム121の再生を停止する。会議マネージャ162は、メディアフレーム415およびメディアフレーム715を受信し、再生する。同様に、会議マネージャ162は、メディアフレーム417およびメディアフレーム717を受信し、再生する。

このようにして、デバイス104は、メディアストリーム509の再生と同時に、メディアストリーム109の中断の間にテキストストリーム121を再生することによって、情報損失を防止する。メディアストリーム109の再生は、中断が終了したときに再開する。

図7Bを参照すると、図5のシステム500の動作の例示的な態様の図が示され、全体的に790と指定されている。図7Bに示されたタイミングおよび動作は説明のためのものであり、限定的ではない。他の態様では、追加のまたはより少ない動作が実行されてもよく、タイミングが異なってもよい。

図790は、デバイス102からのメディアストリーム109およびデバイス502からのメディアストリーム509のメディアフレームの送信のタイミングを示す。図1のGUI生成器168は、アバター135の訓練レベルおよびアバター635の訓練レベルを示すGUI145を生成する。たとえば、GUI145は、アバター135(たとえば、音声モデル131)が訓練されておらず、アバター635(たとえば、第2の音声モデル)が部分的に訓練されたことを示す。デバイス104は、メディアフレーム410およびメディアフレーム710を受信し、再生する。中断マネージャ164は、図4Bを参照しながら説明したように、メディアフレーム410に基づいて音声モデル131を訓練し、メディアフレーム710に基づいて第2の音声モデルを訓練する。GUI生成器168は、アバター135の更新された訓練レベル(たとえば、部分的に訓練された)およびアバター635の更新された訓練レベル(たとえば、完全に訓練された)を示すGUI145を更新する。

デバイス104は、テキストストリーム121のテキスト451およびメディアフレーム711を受信する。中断マネージャ164は、図4Bを参照しながら説明したように、テキスト451に基づいて合成音声フレーム471を生成する。中断マネージャ164は、合成音声フレーム471およびメディアフレーム711を再生する。GUI生成器168は、ユーザ142に対して合成音声が出力されていることを示す合成音声インジケータ398を含めるようにGUI145を更新する。たとえば、GUI145は、アバター135が話していることを示す。GUI145は、ユーザ542のための合成音声インジケータを含まない(たとえば、アバター635は話しているものとして示されていない)。

デバイス104は、テキスト453およびメディアフレーム713を受信する。中断マネージャ164は、図4Bを参照しながら説明したように、テキスト453に基づいて合成音声フレーム473を生成する。中断マネージャ164は、合成音声フレーム473およびメディアフレーム713を再生する。

中断マネージャ164は、図4Bを参照しながら説明したように、中断が終了したことに応答して、メディアストリーム109の再生を再開し、合成音声オーディオストリーム133の再生を停止し、音声モデル131の訓練を再開する。GUI生成器168は、合成音声が出力されていないことを示す合成音声インジケータ398を削除するようにGUI145を更新する。

特定の例では、会議マネージャ162は、メディアフレーム415およびメディアフレーム715を受信し、プレイアウトする。別の例として、会議マネージャ162は、メディアフレーム417およびメディアフレーム717を受信し、プレイアウトする。

このようにして、デバイス104は、メディアストリーム509をプレイアウトするのと同時に、メディアストリーム109の中断の間に合成音声オーディオストリーム133を再生することによって、情報損失を防止する。メディアストリーム109の再生は、中断が終了したときに再開する。

図8を参照すると、音声オーディオストリーム中断を処理する方法800の特定の実装形態が示されている。特定の態様では、方法800の1つまたは複数の動作は、図1の会議マネージャ162、中断マネージャ164、1つもしくは複数のプロセッサ160、デバイス104、システム100、またはそれらの組合せによって実行される。

方法800は、802において、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するステップを含む。たとえば、図1のデバイス104は、図1を参照しながら説明したように、オンライン会議の間にユーザ142の音声を表す音声オーディオストリーム111を受信する。

方法800はまた、804において、第1のユーザの音声を表すテキストストリームを受信するステップを含む。たとえば、図1のデバイス104は、図1を参照しながら説明したように、ユーザ142の音声を表すテキストストリーム121を受信する。

方法800は、806において、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するステップをさらに含む。たとえば、図1の中断マネージャ164は、図1を参照しながら説明したように、音声オーディオストリーム111の中断に応答して、テキストストリーム121に基づいて合成音声オーディオストリーム133を選択的に生成する。特定の実装形態では、中断マネージャ164は、図1を参照しながら説明したように、音声オーディオストリーム111の中断に応答して、テキストストリーム121、注釈付きテキストストリーム137、またはその両方を選択的に出力する。

方法800は、オンライン会議の間の音声オーディオストリーム111の中断の間の情報損失を改善する、したがって低減する(たとえば、なくす)。たとえば、ネットワーク問題が音声オーディオストリーム111がデバイス104によって受信されることを妨げるが、テキストがデバイス104によって受信され得る場合、ユーザ144は、ユーザ142の音声に対応するオーディオ(たとえば、合成音声オーディオストリーム133)、テキスト(たとえば、テキストストリーム121、注釈付きテキストストリーム137、またはその両方)、またはそれらの組合せを受信し続ける。

図8の方法800は、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、中央処理ユニット(CPU)などの処理ユニット、DSP、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図8の方法800は、図18を参照しながら説明するものなどの命令を実行するプロセッサによって実行され得る。

図9は、1つまたは複数のプロセッサ160を含む集積回路902としてのデバイス104の一実装形態900を示す。集積回路902はまた、入力データ928(たとえば、音声オーディオストリーム111、ビデオストリーム113、メディアストリーム109、中断通知119、テキストストリーム121、メタデータストリーム123、メディアストリーム509、またはそれらの組合せ)が処理のために受信されることを可能にするための入力部904(たとえば、1つまたは複数のバスインターフェース)を含む。集積回路902はまた、出力信号(たとえば、音声オーディオストリーム111、合成音声オーディオストリーム133、オーディオ出力143、ビデオストリーム113、テキストストリーム121、注釈付きテキストストリーム137、GUI145、またはそれらの組合せ)の送信を可能にするための出力部906(たとえば、バスインターフェース)を含む。集積回路902は、図10に示されているモバイルフォンもしくはタブレット、図11に示されているヘッドセット、図12に示されているウェアラブル電子デバイス、図13に示されている音声制御スピーカーシステム、図14に示されているカメラ、図15に示されている仮想現実ヘッドセットもしくは拡張現実ヘッドセット、または図16もしくは図17に示されているビークルなどの、システムの中の構成要素としての音声オーディオストリーム中断を処理する実装形態を可能にする。

図10は、デバイス104が、例示的で非限定的な例として、電話またはタブレットなどのモバイルデバイス1002を含む、一実装形態1000を示す。モバイルデバイス1002は、マイクロフォン1010、スピーカー154、およびディスプレイスクリーン1004を含む。会議マネージャ162、中断マネージャ164、GUI生成器168、またはそれらの組合せを含む、1つまたは複数のプロセッサ160の構成要素は、モバイルデバイス1002に統合され、一般的にはモバイルデバイス1002のユーザには見えない内部構成要素を示すために破線を使用して示されている。特定の例では、会議マネージャ162が音声オーディオストリーム111を出力するか、または中断マネージャ164が合成音声オーディオストリーム133を出力し、次いで、音声オーディオストリーム111または合成音声オーディオストリーム133は、(たとえば、統合「スマートアシスタント」アプリケーションを介して)グラフィカルユーザインターフェースを起動するかまたはさもなければユーザの音声に関連付けられた他の情報をディスプレイスクリーン1004において表示するためなどの、モバイルデバイス1002における1つまたは複数の動作を実行するために処理される。

図11は、デバイス104がヘッドセットデバイス1102を含む、一実装形態1100を示す。ヘッドセットデバイス1102は、スピーカー154、マイクロフォン1110、またはその両方を含む。会議マネージャ162、中断マネージャ164、またはその両方を含む、1つまたは複数のプロセッサ160の構成要素は、ヘッドセットデバイス1102に統合される。特定の例では、会議マネージャ162が音声オーディオストリーム111を出力するか、または中断マネージャ164が合成音声オーディオストリーム133を出力し、音声オーディオストリーム111または合成音声オーディオストリーム133は、ユーザ音声に対応するオーディオデータをさらなる処理のために第2のデバイス(図示せず)に送信するための、ヘッドセットデバイス1102における1つまたは複数の動作をヘッドセットデバイス1102に実行させることができる。

図12は、デバイス104が「スマートウォッチ」として示されたウェアラブル電子デバイス1202を含む、一実装形態1200を示す。会議マネージャ162、中断マネージャ164、GUI生成器168、スピーカー154、マイクロフォン1210、またはそれらの組合せは、ウェアラブル電子デバイス1202に統合される。特定の例では、会議マネージャ162が音声オーディオストリーム111を出力するか、または中断マネージャ164が合成音声オーディオストリーム133を出力し、次いで、音声オーディオストリーム111または合成音声オーディオストリーム133は、GUI145を起動するかまたはさもなければユーザの音声に関連付けられた他の情報をウェアラブル電子デバイス1202のディスプレイスクリーン1204において表示するためなどの、ウェアラブル電子デバイス1202における1つまたは複数の動作を実行するために処理される。例示すると、ウェアラブル電子デバイス1202は、ウェアラブル電子デバイス1202によって検出されたユーザ音声に基づいて通知を表示するように構成されたディスプレイスクリーンを含み得る。特定の例では、ウェアラブル電子デバイス1202は、ユーザ音声の検出に応答して触覚通知を提供する(たとえば、振動する)触覚デバイスを含む。たとえば、触覚通知は、ユーザに、ユーザによって話されたキーワードの検出を示す表示された通知を確認するためにウェアラブル電子デバイス1202を見るようにさせることができる。このようにして、ウェアラブル電子デバイス1202は、聴覚障害を有するユーザまたはヘッドセットを装着しているユーザに、ユーザの音声が検出されたことをアラートすることができる。

図13は、デバイス104がワイヤレススピーカーおよび音声起動型デバイス1302を含む、一実装形態1300である。ワイヤレススピーカーおよび音声起動型デバイス1302は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。会議マネージャ162、中断マネージャ164、またはその両方、スピーカー154、マイクロフォン1310、またはそれらの組合せを含む1つまたは複数のプロセッサ160は、ワイヤレススピーカーおよび音声起動型デバイス1302に含まれる。動作中に、会議マネージャ162によって出力された音声オーディオストリーム111の中のまたは中断マネージャ164によって出力された合成音声オーディオストリーム133の中のユーザ音声として識別されたバーバルコマンドを受信したことに応答して、ワイヤレススピーカーおよび音声起動型デバイス1302は、音声起動システム(たとえば、統合アシスタントアプリケーション)の実行を介してなど、アシスタント動作を実行することができる。アシスタント動作は、カレンダーイベントを作成すること、温度を調整すること、音楽を再生すること、明かりをつけることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ(たとえば、「ハロー、アシスタント」)の後にコマンドを受信したことに応答して実行される。

図14は、デバイス104がカメラデバイス1402に対応するポータブル電子デバイスを含む、一実装形態1400を示す。会議マネージャ162、中断マネージャ164、GUI生成器168、スピーカー154、マイクロフォン1410、またはそれらの組合せは、カメラデバイス1402に含まれる。動作中に、会議マネージャ162によって出力された音声オーディオストリーム111の中のまたは中断マネージャ164によって出力された合成音声オーディオストリーム133の中のユーザ音声として識別されたバーバルコマンドを受信したことに応答して、カメラデバイス1402は、例示的な例として、画像もしくはビデオキャプチャ設定、画像もしくはビデオ再生設定を調整するための、または画像もしくはビデオキャプチャ命令などの、口頭のユーザコマンドに応答する動作を実行することができる。

図15は、デバイス104が仮想現実、拡張現実、または複合現実ヘッドセット1502に対応するポータブル電子デバイスを含む、一実装形態1500を示す。会議マネージャ162、中断マネージャ164、GUI生成器168、スピーカー154、マイクロフォン1510、またはそれらの組合せは、ヘッドセット1502に統合される。ユーザ音声検出は、会議マネージャ162によって出力された音声オーディオストリーム111または中断マネージャ164によって出力された合成音声オーディオストリーム133に基づいて実行され得る。視覚インターフェースデバイスは、ヘッドセット1502が装着されている間に拡張現実または仮想現実の画像またはシーンをユーザに表示することを可能にするために、ユーザの眼の前に配置される。特定の例では、視覚インターフェースデバイスは、オーディオストリームの中で検出されたユーザ音声を示す通知を表示するように構成される。別の例では、視覚インターフェースデバイスは、GUI145を表示するように構成される。

図16は、デバイス104が有人または無人の航空デバイス(たとえば、宅配ドローン)として示されたビークル1602に対応するかまたはビークル1602内に統合される、一実装形態1600を示す。会議マネージャ162、中断マネージャ164、GUI生成器168、スピーカー154、マイクロフォン1610、またはそれらの組合せは、ビークル1602に統合される。ユーザ音声検出は、ビークル1602の許可ユーザからの配送命令についてなどの、会議マネージャ162によって出力された音声オーディオストリーム111または中断マネージャ164によって出力された合成音声オーディオストリーム133に基づいて実行され得る。

図17は、デバイス104が自動車として示されたビークル1702に対応するかまたはビークル1702内に統合される、別の実装形態1700を示す。ビークル1702は、会議マネージャ162、中断マネージャ164、GUI生成器168、またはそれらの組合せを含む、1つまたは複数のプロセッサ160を含む。ビークル1702はまた、スピーカー154、マイクロフォン1710、またはその両方を含む。ユーザ音声検出は、会議マネージャ162によって出力された音声オーディオストリーム111または中断マネージャ164によって出力された合成音声オーディオストリーム133に基づいて実行され得る。たとえば、ユーザ音声検出は、(たとえば、エンジンまたは暖房をスタートするための)ビークル1702の許可ユーザからの音声コマンドを検出するために使用され得る。特定の実装形態では、会議マネージャ162によって出力された音声オーディオストリーム111の中のまたは中断マネージャ164によって出力された合成音声オーディオストリーム133の中のユーザ音声として識別されたバーバルコマンドを受信したことに応答して、ビークル1702の音声起動システムは、ディスプレイ1720または1つもしくは複数のスピーカー(たとえば、スピーカー154)を介してフィードバックまたは情報を提供することなどによって、音声オーディオストリーム111または合成音声オーディオストリーム133の中で検出された1つまたは複数のキーワード(たとえば、「ロック解除して」、「エンジンをスタートして」、「音楽を再生して」、「天気予報を表示して」、または別の音声コマンド)に基づいてビークル1702の1つまたは複数の動作を開始する。特定の実装形態では、GUI生成器168は、オンライン会議(たとえば、通話)に関する情報をディスプレイ1720に提供する。たとえば、GUI生成器168は、GUI145をディスプレイ1720に提供する。

図18を参照すると、デバイスの特定の例示的な実装形態のブロック図が示され、全体的に1800と指定されている。様々な実装形態では、デバイス1800は、図18に示されるよりも多数または少数の構成要素を有し得る。例示的な実装形態では、デバイス1800は、デバイス104に対応し得る。例示的な実装形態では、デバイス1800は、図1～図17を参照しながら説明した1つまたは複数の動作を実行し得る。

特定の実装形態では、デバイス1800は、プロセッサ1806(たとえば、中央処理ユニット(CPU))を含む。デバイス1800は、1つまたは複数の追加のプロセッサ1810(たとえば、1つまたは複数のDSP)を含み得る。特定の態様では、図1の1つまたは複数のプロセッサ160は、プロセッサ1806、プロセッサ1810、またはそれらの組合せに対応する。プロセッサ1810は、音声コーダ(「ボコーダ」)エンコーダ1836、ボコーダデコーダ1838、会議マネージャ162、中断マネージャ164、GUI生成器168、またはそれらの組合せを含む、音声および音楽コーダデコーダ(コーデック)1808を含み得る。特定の態様では、図1の1つまたは複数のプロセッサ160は、プロセッサ1806、プロセッサ1810、またはそれらの組合せを含む。

デバイス1800は、メモリ1886およびコーデック1834を含み得る。メモリ1886は、会議マネージャ162、中断マネージャ164、GUI生成器168、またはそれらの組合せを参照しながら説明した機能を実装するように1つまたは複数の追加のプロセッサ1810(またはプロセッサ1806)によって実行可能な命令1856を含み得る。特定の態様では、メモリ1886は、会議マネージャ162、中断マネージャ164、GUI生成器168、またはそれらの組合せによって使用または生成されるプログラムデータ1858を記憶する。特定の態様では、メモリ1886は図1のメモリ132を含む。デバイス1800は、トランシーバ1850を介してアンテナ1842に結合されたモデム1840を含み得る。

デバイス1800は、ディスプレイコントローラ1826に結合されたディスプレイデバイス156を含み得る。スピーカー154および1つまたは複数のマイクロフォン1832は、コーデック1834に結合され得る。コーデック1834は、デジタルアナログ変換器(DAC)1802、アナログデジタル変換器(ADC)1804、またはその両方を含み得る。特定の実装形態では、コーデック1834は、1つまたは複数のマイクロフォン1832からアナログ信号を受信し、アナログデジタル変換器1804を使用してアナログ信号をデジタル信号に変換し、デジタル信号を音声および音楽コーデック1808に提供することができる。音声および音楽コーデック1808は、デジタル信号を処理することができ、デジタル信号は、会議マネージャ162、中断マネージャ164、またはその両方によってさらに処理され得る。特定の実装形態では、音声および音楽コーデック1808は、デジタル信号をコーデック1834に提供することができる。コーデック1834は、デジタルアナログ変換器1802を使用してデジタル信号をアナログ信号に変換することができ、アナログ信号をスピーカー154に提供することができる。

特定の実装形態では、デバイス1800は、システムインパッケージまたはシステムオンチップデバイス1822に含まれ得る。特定の実装形態では、メモリ1886、プロセッサ1806、プロセッサ1810、ディスプレイコントローラ1826、コーデック1834、モデム1840、およびトランシーバ1850は、システムインパッケージまたはシステムオンチップデバイス1822に含まれる。特定の実装形態では、入力デバイス1830および電源1844は、システムオンチップデバイス1822に結合される。さらに、特定の実装形態では、図18に示されるように、ディスプレイデバイス156、入力デバイス1830、スピーカー154、1つまたは複数のマイクロフォン1832、アンテナ1842、および電源1844は、システムオンチップデバイス1822の外部にある。特定の実装形態では、ディスプレイデバイス156、入力デバイス1830、スピーカー154、1つまたは複数のマイクロフォン1832、アンテナ1842、および電源1844の各々は、インターフェースまたはコントローラなどの、システムオンチップデバイス1822の構成要素に結合され得る。

デバイス1800は、仮想アシスタント、ホームアプライアンス、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲームコンソール、音楽プレーヤ、ラジオ、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、ナビゲーションデバイス、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、タブレット、携帯情報端末、デジタルビデオディスク(DVD)プレーヤ、チューナー、拡張現実ヘッドセット、仮想現実ヘッドセット、航空ビークル、ホームオートメーションシステム、音声起動型デバイス、ワイヤレススピーカーおよび音声起動型デバイス、ポータブル電子デバイス、自動車、コンピューティングデバイス、仮想現実(VR)デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。

説明した実装形態に関連して、装置は、オンライン会議の間に音声オーディオストリームを受信するための手段であって、音声オーディオストリームが第1のユーザの音声を表す、手段を含む。たとえば、音声オーディオストリームを受信するための手段は、図1の会議マネージャ162、中断マネージャ164、1つもしくは複数のプロセッサ160、デバイス104、システム100、図2の会議マネージャ122、サーバ204、システム200、1つもしくは複数のプロセッサ1810、プロセッサ1806、音声および音楽コーデック1808、モデム1840、トランシーバ1850、アンテナ1842、デバイス1800、オンライン会議の間に音声オーディオストリームを受信するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

装置はまた、第1のユーザの音声を表すテキストストリームを受信するための手段を含む。たとえば、テキストストリームを受信するための手段は、図1の会議マネージャ162、中断マネージャ164、テキスト音声変換器166、1つもしくは複数のプロセッサ160、デバイス104、システム100、図2の会議マネージャ122、中断マネージャ124、サーバ204、システム200、1つもしくは複数のプロセッサ1810、プロセッサ1806、音声および音楽コーデック1808、モデム1840、トランシーバ1850、アンテナ1842、デバイス1800、テキストストリームを受信するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

装置は、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するための手段をさらに含む。たとえば、出力を選択的に生成するための手段は、図1の中断マネージャ164、テキスト音声変換器166、GUI生成器168、1つもしくは複数のプロセッサ160、デバイス104、システム100、図2の中断マネージャ124、サーバ204、システム200、1つもしくは複数のプロセッサ1810、プロセッサ1806、音声および音楽コーデック1808、デバイス1800、出力を選択的に生成するように構成された1つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せに対応することができる。

いくつかの実装形態では、非一時的コンピュータ可読媒体(たとえば、メモリ1886などのコンピュータ可読記憶デバイス)は、命令(たとえば、命令1856)を含み、命令は、1つまたは複数のプロセッサ(たとえば、1つもしくは複数のプロセッサ1810またはプロセッサ1806)によって実行されると、1つまたは複数のプロセッサに、オンライン会議の間に第1のユーザ(たとえば、ユーザ142)の音声を表す音声オーディオストリーム(たとえば、音声オーディオストリーム111)を受信することを行わせる。命令はまた、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、第1のユーザ(たとえば、ユーザ142)の音声を表すテキストストリーム(たとえば、テキストストリーム121)を受信することを行わせる。命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力(たとえば、合成音声オーディオストリーム133、注釈付きテキストストリーム137、またはその両方)を選択的に生成することをさらに行わせる。

本開示の特定の態様について、相互に関係する条項の第1のセットにおいて以下で説明する。

条項1によれば、通信用のデバイスは、1つまたは複数のプロセッサを含み、1つまたは複数のプロセッサは、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信することと、第1のユーザの音声を表すテキストストリームを受信することと、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成することとを行うように構成される。

条項2は条項1のデバイスを含み、1つまたは複数のプロセッサは、音声オーディオストリームのオーディオフレームが音声オーディオストリームの最後に受信されたオーディオフレームのしきい値持続時間内に受信されなかったとの決定に応答して、中断を検出するように構成される。

条項3は条項1のデバイスを含み、1つまたは複数のプロセッサは、テキストストリームを受信したことに応答して、中断を検出するように構成される。

条項4は条項1のデバイスを含み、1つまたは複数のプロセッサは、中断通知を受信したことに応答して、中断を検出するように構成される。

条項5は条項1～4のいずれかのデバイスを含み、1つまたは複数のプロセッサは、テキストストリームを出力としてディスプレイに提供するように構成される。

条項6は条項1～5のいずれかのデバイスを含み、1つまたは複数のプロセッサは、第1のユーザの音声のイントネーションを示すメタデータストリームを受信することと、メタデータストリームに基づいてテキストストリームに注釈を付けることとを行うようにさらに構成される。

条項7は条項1～6のいずれかのデバイスを含み、1つまたは複数のプロセッサは、合成音声オーディオストリームを生成するためにテキストストリームに対してテキスト音声変換を実行することと、合成音声オーディオストリームを出力としてスピーカーに提供することとを行うようにさらに構成される。

条項8は条項7のデバイスを含み、1つまたは複数のプロセッサは、第1のユーザの音声のイントネーションを示すメタデータストリームを受信するようにさらに構成され、テキスト音声変換は、メタデータストリームに基づく。

条項9は条項7のデバイスを含み、1つまたは複数のプロセッサは、合成音声オーディオストリームをスピーカーに提供するのと同時に、アバターを表示するようにさらに構成される。

条項10は条項9のデバイスを含み、1つまたは複数のプロセッサは、オンライン会議の間にメディアストリームを受信するように構成され、メディアストリームは、第1のユーザの音声オーディオストリームおよびビデオストリームを含む。

条項11は条項10のデバイスを含み、1つまたは複数のプロセッサは、中断に応答して、音声オーディオストリームの再生を停止することと、ビデオストリームの再生を停止することとを行うように構成される。

条項12は条項10のデバイスを含み、1つまたは複数のプロセッサは、中断が終了したことに応答して、合成音声オーディオストリームをスピーカーに提供するのを控えることと、アバターを表示するのを控えることと、ビデオストリームの再生を再開することと、音声オーディオストリームの再生を再開することとを行うように構成される。

条項13は条項7のデバイスを含み、テキスト音声変換は、音声モデルに基づいて実行される。

条項14は条項13のデバイスを含み、音声モデルは、汎用音声モデルに対応する。

条項15は条項13または条項14のデバイスを含み、1つまたは複数のプロセッサは、中断に先立って、音声オーディオストリームに基づいて音声モデルを更新するように構成される。

条項16は条項1～15のいずれかのデバイスを含み、1つまたは複数のプロセッサは、オンライン会議の間に第2のユーザの音声を表す第2の音声オーディオストリームを受信することと、出力を生成するのと同時に、第2の音声オーディオストリームをスピーカーに提供することとを行うように構成される。

条項17は条項1～16のいずれかのデバイスを含み、1つまたは複数のプロセッサは、音声オーディオストリームの中断に応答して、音声オーディオストリームの再生を停止することと、中断が終了したことに応答して、テキストストリームに基づいて出力を生成するのを控えることと、音声オーディオストリームの再生を再開することとを行うように構成される。

本開示の特定の態様について、相互に関係する条項の第2のセットにおいて以下で説明する。

条項18によれば、通信の方法は、デバイスにおいて、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するステップと、デバイスにおいて、第1のユーザの音声を表すテキストストリームを受信するステップと、デバイスにおいて、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するステップとを含む。

条項19は条項18の方法を含み、音声オーディオストリームのオーディオフレームが音声オーディオストリームの最後に受信されたオーディオフレームのしきい値持続時間内に受信されなかったとの決定に応答して、中断を検出するステップをさらに含む。

条項20は条項18の方法を含み、テキストストリームを受信したことに応答して、中断を検出するステップをさらに含む。

条項21は条項18の方法を含み、中断通知を受信したことに応答して、中断を検出するステップをさらに含む。

条項22は条項18～21のいずれかの方法を含み、テキストストリームを出力としてディスプレイに提供するステップをさらに含む。

条項23は条項18～22のいずれかの方法を含み、第1のユーザの音声のイントネーションを示すメタデータストリームを受信するステップと、メタデータストリームに基づいてテキストストリームに注釈を付けるステップとをさらに含む。

本開示の特定の態様について、相互に関係する条項の第3のセットにおいて以下で説明する。

条項24によれば、非一時的コンピュータ可読記憶媒体は命令を記憶し、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信することと、第1のユーザの音声を表すテキストストリームを受信することと、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成することとを行わせる。

条項25は条項24の非一時的コンピュータ可読記憶媒体を含み、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、合成音声オーディオストリームを生成するためにテキストストリームに対してテキスト音声変換を実行することと、合成音声オーディオストリームを出力としてスピーカーに提供することとを行わせる。

条項26は条項25の非一時的コンピュータ可読記憶媒体を含み、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、第1のユーザの音声のイントネーションを示すメタデータストリームを受信することを行わせ、テキスト音声変換は、メタデータストリームに基づく。

条項27は条項25または条項26の非一時的コンピュータ可読記憶媒体を含み、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、合成音声オーディオストリームをスピーカーに提供するのと同時に、アバターを表示することを行わせる。

条項28は条項25～27のいずれかの非一時的コンピュータ可読記憶媒体を含み、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、中断に先立って、音声オーディオストリームに基づいて音声モデルを更新することを行わせ、テキスト音声変換は、音声モデルに基づいて実行される。

本開示の特定の態様について、相互に関係する条項の第4のセットにおいて以下で説明する。

条項29によれば、装置は、オンライン会議の間に音声オーディオストリームを受信するための手段であって、音声オーディオストリームが第1のユーザの音声を表す、手段と、第1のユーザの音声を表すテキストストリームを受信するための手段と、音声オーディオストリームの中断に応答して、テキストストリームに基づいて出力を選択的に生成するための手段とを含む。

条項30は条項29の装置を含み、音声オーディオストリームを受信するための手段、テキストストリームを受信するための手段、および出力を選択的に生成するための手段は、仮想アシスタント、ホームアプライアンス、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲームコンソール、音楽プレーヤ、ラジオ、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される。

当業者は、本明細書で開示する実装形態に関して説明する様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることをさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップについて、それらの機能に関して概略的に上記で説明した。そのような機能がハードウェアとして実装されるかまたはプロセッサ実行可能命令として実装されるかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装することができ、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

本明細書で開示する実装形態に関して説明する方法またはアルゴリズムのステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはその2つの組合せにおいて具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD-ROM)、または当技術分野で知られている任意の他の形態の非一時的記憶媒体内に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)内に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末内に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内に個別の構成要素として存在し得る。

開示した態様の前述の説明は、開示した態様を当業者が作成または使用することを可能にするために提供される。これらの態様の様々な修正は当業者には容易に明らかになり、本明細書で定義した原理は、本開示の範囲から逸脱することなく、他の態様に適用され得る。したがって、本開示は、本明細書で示される態様に限定されることを意図するものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する、できる限り最も広い範囲を与えられるべきである。

100 システム
102 デバイス
104 デバイス
106 ネットワーク
109 メディアストリーム
111 音声オーディオストリーム
113 ビデオストリーム
119 中断通知
120 プロセッサ
121 テキストストリーム
122 会議マネージャ
123 メタデータストリーム
124 中断マネージャ
131 音声モデル
132 メモリ
133 合成音声オーディオストリーム
135 アバター
137 注釈付きテキストストリーム
142 ユーザ
143 オーディオ出力
144 ユーザ
145 GUI
150 カメラ
151 ビデオ入力
152 マイクロフォン
153 オーディオ入力
154 スピーカー
156 ディスプレイデバイス
160 プロセッサ
162 会議マネージャ
164 中断マネージャ
166 テキスト音声変換器
168 グラフィカルユーザインターフェース(GUI)生成器、GUI生成器
200 システム
204 サーバ
222 会議マネージャ
304 訓練インジケータ(TI)、訓練インジケータ
306 ビデオディスプレイ
396 テキストディスプレイ
398 合成音声インジケータ
400 図
410 メディアフレーム(FR)、メディアフレーム
411 メディアフレーム
413 メディアフレーム
415 メディアフレーム
417 メディアフレーム
451 テキスト
453 テキスト
471 合成音声フレーム
473 合成音声フレーム
491 メディアフレームのセット
493 次のメディアフレーム
500 システム
502 デバイス
509 メディアストリーム
511 第2の音声オーディオストリーム
513 第2のビデオストリーム
542 ユーザ
604 訓練インジケータ(TI)、訓練インジケータ
606 ビデオディスプレイ
635 アバター
700 図
710 メディアフレーム
711 メディアフレーム
713 メディアフレーム
715 メディアフレーム
717 メディアフレーム
790 図
800 方法
900 実装形態
902 集積回路
904 入力部
906 出力部
928 入力データ
1000 実装形態
1002 モバイルデバイス
1004 ディスプレイスクリーン
1010 マイクロフォン
1100 実装形態
1102 ヘッドセットデバイス
1110 マイクロフォン
1200 実装形態
1202 ウェアラブル電子デバイス
1204 ディスプレイスクリーン
1210 マイクロフォン
1300 実装形態
1302 ワイヤレススピーカーおよび音声起動型デバイス
1310 マイクロフォン
1400 実装形態
1402 カメラデバイス
1410 マイクロフォン
1500 実装形態
1502 仮想現実、拡張現実、または複合現実ヘッドセット、ヘッドセット
1510 マイクロフォン
1600 実装形態
1602 ビークル
1610 マイクロフォン
1700 実装形態
1702 ビークル
1710 マイクロフォン
1720 ディスプレイ
1800 デバイス
1802 デジタルアナログ変換器(DAC)、デジタルアナログ変換器
1804 アナログデジタル変換器(ADC)、アナログデジタル変換器
1806 プロセッサ
1808 音声および音楽コーダデコーダ(コーデック)
1810 プロセッサ
1822 システムインパッケージまたはシステムオンチップデバイス、システムオンチップデバイス
1826 ディスプレイコントローラ
1830 入力デバイス
1832 マイクロフォン
1834 コーデック
1836 音声コーダ(「ボコーダ」)エンコーダ
1838 ボコーダデコーダ
1840 モデム
1842 アンテナ
1844 電源
1850 トランシーバ
1856 命令
1858 プログラムデータ
1886 メモリ

Claims

通信用のデバイスであって、
1つまたは複数のプロセッサを備え、前記1つまたは複数のプロセッサが、
オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信することと、
前記第1のユーザの前記音声を表すテキストストリームを受信することと、
前記音声オーディオストリームの中断に応答して、前記テキストストリームに基づいて出力を選択的に生成することと
を行うように構成される、デバイス。
前記1つまたは複数のプロセッサが、前記音声オーディオストリームのオーディオフレームが前記音声オーディオストリームの最後に受信されたオーディオフレームのしきい値持続時間内に受信されなかったとの決定に応答して、前記中断を検出するように構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記テキストストリームを受信したことに応答して、前記中断を検出するように構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、中断通知を受信したことに応答して、前記中断を検出するように構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記テキストストリームを前記出力としてディスプレイに提供するように構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、
前記第1のユーザの前記音声のイントネーションを示すメタデータストリームを受信することと、
前記メタデータストリームに基づいて前記テキストストリームに注釈を付けることと
を行うようにさらに構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、
合成音声オーディオストリームを生成するために前記テキストストリームに対してテキスト音声変換を実行することと、
前記合成音声オーディオストリームを前記出力としてスピーカーに提供することと
を行うようにさらに構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記第1のユーザの前記音声のイントネーションを示すメタデータストリームを受信するようにさらに構成され、前記テキスト音声変換が、前記メタデータストリームに基づく、請求項7に記載のデバイス。
前記1つまたは複数のプロセッサが、前記合成音声オーディオストリームを前記スピーカーに提供するのと同時に、アバターを表示するようにさらに構成される、請求項7に記載のデバイス。
前記1つまたは複数のプロセッサが、前記オンライン会議の間にメディアストリームを受信するように構成され、前記メディアストリームが、前記第1のユーザの前記音声オーディオストリームおよびビデオストリームを含む、請求項9に記載のデバイス。
前記1つまたは複数のプロセッサが、前記中断に応答して、
前記音声オーディオストリームの再生を停止することと、
前記ビデオストリームの再生を停止することと
を行うように構成される、請求項10に記載のデバイス。
前記1つまたは複数のプロセッサが、前記中断が終了したことに応答して、
前記合成音声オーディオストリームを前記スピーカーに提供するのを控えることと、
前記アバターを表示するのを控えることと、
前記ビデオストリームの再生を再開することと、
前記音声オーディオストリームの再生を再開することと
を行うように構成される、請求項10に記載のデバイス。
前記テキスト音声変換が、音声モデルに基づいて実行される、請求項7に記載のデバイス。
前記音声モデルが、汎用音声モデルに対応する、請求項13に記載のデバイス。
前記1つまたは複数のプロセッサが、前記中断に先立って、前記音声オーディオストリームに基づいて前記音声モデルを更新するように構成される、請求項13に記載のデバイス。
前記1つまたは複数のプロセッサが、
前記オンライン会議の間に第2のユーザの音声を表す第2の音声オーディオストリームを受信することと、
前記出力を生成するのと同時に、前記第2の音声オーディオストリームをスピーカーに提供することと
を行うように構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、
前記音声オーディオストリームの前記中断に応答して、前記音声オーディオストリームの再生を停止することと、
前記中断が終了したことに応答して、
前記テキストストリームに基づいて前記出力を生成するのを控えることと、
前記音声オーディオストリームの再生を再開することと
を行うように構成される、請求項1に記載のデバイス。
通信の方法であって、
デバイスにおいて、オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信するステップと、
前記デバイスにおいて、前記第1のユーザの前記音声を表すテキストストリームを受信するステップと、
前記デバイスにおいて、前記音声オーディオストリームの中断に応答して、前記テキストストリームに基づいて出力を選択的に生成するステップと
を含む方法。
前記音声オーディオストリームのオーディオフレームが前記音声オーディオストリームの最後に受信されたオーディオフレームのしきい値持続時間内に受信されなかったとの決定に応答して、前記中断を検出するステップをさらに含む、請求項18に記載の方法。
前記テキストストリームを受信したことに応答して、前記中断を検出するステップをさらに含む、請求項18に記載の方法。
中断通知を受信したことに応答して、前記中断を検出するステップをさらに含む、請求項18に記載の方法。
前記テキストストリームを前記出力としてディスプレイに提供するステップをさらに含む、請求項18に記載の方法。
前記第1のユーザの前記音声のイントネーションを示すメタデータストリームを受信するステップと、
前記メタデータストリームに基づいて前記テキストストリームに注釈を付けるステップと
をさらに含む、請求項18に記載の方法。
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
オンライン会議の間に第1のユーザの音声を表す音声オーディオストリームを受信することと、
前記第1のユーザの前記音声を表すテキストストリームを受信することと、
前記音声オーディオストリームの中断に応答して、前記テキストストリームに基づいて出力を選択的に生成することと
を行わせる、非一時的コンピュータ可読記憶媒体。
前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
合成音声オーディオストリームを生成するために前記テキストストリームに対してテキスト音声変換を実行することと、
前記合成音声オーディオストリームを前記出力としてスピーカーに提供することと
を行わせる、請求項24に記載の非一時的コンピュータ可読記憶媒体。
前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、前記第1のユーザの前記音声のイントネーションを示すメタデータストリームを受信することを行わせ、前記テキスト音声変換が、前記メタデータストリームに基づく、請求項25に記載の非一時的コンピュータ可読記憶媒体。
前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、前記合成音声オーディオストリームを前記スピーカーに提供するのと同時に、アバターを表示することを行わせる、請求項25に記載の非一時的コンピュータ可読記憶媒体。
前記命令が、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、前記中断に先立って、前記音声オーディオストリームに基づいて音声モデルを更新することを行わせ、前記テキスト音声変換が、音声モデルに基づいて実行される、請求項25に記載の非一時的コンピュータ可読記憶媒体。
オンライン会議の間に音声オーディオストリームを受信するための手段であって、前記音声オーディオストリームが第1のユーザの音声を表す、手段と、
前記第1のユーザの前記音声を表すテキストストリームを受信するための手段と、
前記音声オーディオストリームの中断に応答して、前記テキストストリームに基づいて出力を選択的に生成するための手段と
を備える装置。
前記音声オーディオストリームを受信するための前記手段、前記テキストストリームを受信するための前記手段、および前記出力を選択的に生成するための前記手段が、仮想アシスタント、ホームアプライアンス、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲームコンソール、音楽プレーヤ、ラジオ、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、請求項29に記載の装置。