JP2022111966A

JP2022111966A - 音声及びビデオ会議アプリケーションの音量調節

Info

Publication number: JP2022111966A
Application number: JP2021033337A
Authority: JP
Inventors: リスダルヘニング; Lysdal Henning; ライルルーシー; Lyle Ruthie
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2021-01-20
Filing date: 2021-03-03
Publication date: 2022-08-01
Also published as: CN114816315A; DE102022100815A1; US11487498B2; US20220229626A1

Abstract

【課題】音声及びビデオ会議アプリケーションの音量調節を提供する。【解決手段】ローカルユーザが、ビデオ会議アプリケーションのインスタンスを開始するとき、ユーザは、ユーザに対応するアイコン並びにビデオ会議アプリケーションのインスタンスの参加者に対応するいくつかの他のアイコンを表示するＵＩを提供される。ユーザが会話をするとき、ローカルユーザは、特定の参加者がその他のリモートユーザと比べて大声で話していることを見つける。ローカルユーザは、その特定の参加者に対応するアイコンを選択し、そのアイコンをＵＩ内でローカル・ユーザのアイコンから離す。リモートユーザのアイコンをローカルユーザのアイコンから離すことに基づいて、その参加者の音声データの出力音量を下げる。ローカルユーザが、参加者アイコンをローカルユーザのアイコンの近くに移動した場合、その参加者の音量は、上げられる。【選択図】図１

Description

本発明は、音声及びビデオ会議アプリケーションの音量調節に関するものである。

マルチパーティ・アプリケーション－たとえば、オンライン・ビデオ会議、ゲーム・ストリーミング・サービス、ビデオ・ストリーミング・サービスなど－のユーザは、複数の参加者が同時に話しているとき、又は異なる参加者が異なる音量レベルで話すときに、１人のスピーカ又は参加者に集中することが難しいと思うことがしばしばある。たとえば、２人の参加者が、同時に話しているが、１人が、より静かな参加者と比較して、非常に大声で話すことがある。その場合、特に、両方の参加者が、同時に話している場合、音声ストリームを受信するユーザは、より静かな参加者を聞く及び／又は理解するのが難しいことがある。ユーザは、ストリーム内のすべての参加者の出力音量を上げる又は下げることができるが、ストリームにおける各個々の参加者の音量が、ユーザの制御の枠外の要因－たとえば、どのくらい大声で参加者が話すか及び／又はその他の参加者が彼ら自身に対してマイクロフォンをどこに配置するか－によって決定される。結果として、受信しているユーザは、クロストークの解読を試みる、より静かな参加者にもっと大声で話すように求める若しくはより大声の参加者にもっと静かに話すように求める、及び／又はクロストークが少なくなるように参加者の話す順番を制御することを試みる必要がある。しかしながら、これらのオプションは、ユーザにとって不快であることがあり、又は、ユーザが他の参加者の音量レベルでの彼らの体験を伝達するためのマイクロフォン機能若しくは他の通信手段へのアクセスを有しない参加者である場合などに、利用不可能なことがある。

本開示の実施例は、音声及びビデオ会議の、位置に基づく音量調節に関する。参加者アイコンへの操作に基づいてアプリケーション参加者に更新された音声設定を適用する、システム及び方法が、開示される。たとえば、従来のシステム、たとえば、前述のもの、とは対照的に、本開示のシステム及び方法は、ローカル・ユーザが、リモート参加者に関連付けられたアイコン（たとえば、サムネイル、タイル、ビデオ・フィード、写真、アバタ、グラフィック画像、若しくは他の表現）を移動する（たとえば、ローカル・ユーザに関連付けられたアイコンの方へ又はそれから遠くへ）又は他の方法で操作する（たとえば、音量を下げるために縮小する、音量を上げるために拡大する）とき、リモート参加者（たとえば、アプリケーションのインスタンス内の他のユーザ）に対応する音声データの音量出力を自動的に修正する。

非限定的一実例として、ローカル・ユーザが、ビデオ会議アプリケーションのインスタンスを開始するとき、ユーザは、ユーザに対応するアイコン（又は他の表現又はインジケータ）並びにビデオ会議アプリケーションのインスタンスの参加者に対応する１つ又は複数の他のアイコンを表示するユーザ・インターフェイス（ＵＩ：ｕｓｅｒｉｎｔｅｒｆａｃｅ）を提供され得る。しかしながら、ユーザが会話をするとき、ローカル・ユーザは、特定の参加者が、その他の参加者と比べて、非常に大声で話していることに気付くことがある。ローカル・ユーザは、次いで、その特定の参加者に対応するアイコンを選択し、ＵＩにおいてそのアイコンをローカル・ユーザのアイコンから離すことができる。特定の参加者のアイコンをローカル・ユーザのアイコンから離すことに基づいて、本システムは、特定の参加者に対応する１サブセットの音声データを識別し（たとえば、音声データのストリーム内から）、その参加者の音声データの出力音量を下げることができる。さらに、又は別法として、ローカル・ユーザが、参加者のアイコンをローカル・ユーザのアイコンの近くに移動した場合、その参加者の音声データの音量が、上げられ得る。有利に、ローカル・ユーザは、ローカル・ユーザのアイコンに対して各リモート・ユーザのアイコンを配置すること（又は他の方法で操作すること）によって、各リモート・ユーザに対応する出力音量を調整することができる－それにより、ローカル・ユーザがビデオ会議アプリケーション内の会話をより明確に理解する及び追跡することを可能にする。

音声及びビデオ会議のための位置に基づく音量調節のためのシステム及び方法について、以下のような添付の図面を参照して、詳しく後述する。

本開示のいくつかの実施例の実装に使用するのに適した、例示的音声操作システムの図である。本開示のいくつかの実施例の実装に使用するのに適した、ユーザ・アイコンを操作するための例示的ユーザ・インターフェイス（ＵＩ）を示す図である。本開示のいくつかの実施例の実装に使用するのに適した、ユーザ・アイコンを操作するための例示的ユーザ・インターフェイス（ＵＩ）を示す図である。本開示のいくつかの実施例の実装に使用するのに適した、ユーザ・アイコンを操作するための例示的ユーザ・インターフェイス（ＵＩ）を示す図である。本開示のいくつかの実施例の実装に使用するのに適した、ユーザ・アイコンを操作するための例示的ＵＩを示す図である。本開示のいくつかの実施例の実装に使用するのに適した、アイコンへの操作に基づいて音声設定を更新するための方法を示す流れ図である。本開示のいくつかの実施例の実装に使用するのに適した例示的コンテンツ・ストリーミング・システムのブロック図である。本開示のいくつかの実施例の実装に使用するのに適した例示的コンピューティング・デバイスのブロック図である。本開示のいくつかの実施例の実装に使用するのに適した例示的データ・センタのブロック図である。

音声及びビデオ会議のための位置に基づく音量調節に関するシステム及び方法が、開示される。主にビデオ会議実装形態に関して本明細書では説明されているが、これは、限定を意図しておらず、本開示のシステム及び方法は、アイコンへの操作に基づいて音声設定を更新するための任意の実装形態において実装され得る。非限定的実例として、本明細書に記載のシステム及び方法は、ビデオ・ストリーミング・アプリケーション、ゲーム・ストリーミング・アプリケーション、仮想学習アプリケーション、ソーシャル・メディア・コンテンツ共用アプリケーション、ビデオ共用アプリケーション、及び／又は、１人又は複数の参加者への音量調節が行われ得る他のアプリケーション・タイプのために実装され得る。

いくつかの実施例において、ローカル・ユーザが、ビデオ会議アプリケーションのインスタンスを開始するとき、ユーザは、ユーザに対応するアイコン（又は他の表現又はインジケータ）並びにビデオ会議アプリケーションのインスタンスの参加者に対応するいくつかの他のアイコン（又は他の表現又はインジケータ）を表示するユーザ・インターフェイス（ＵＩ）を提供され得る。最初に、音量レベルは、各リモート・ユーザについて設定され得る－たとえば、アプリケーションによって設定された又は特定の参加者に対応する学習された若しくはユーザ設定された音量レベルに基づくデフォルト・レベル。加えて又は別法として、ローカル・ユーザは、特定の参加者のデフォルト音量レベルを手動で選択する又は事前に指定することができる（たとえば、ビデオ会議の初期化の前にユーザ・アイコンを選択すること及び特定のユーザの音量レベルを設定することによって）。しかしながら、ユーザが会話をするとき、ローカル・ユーザは、特定の参加者がその他の参加者と比較して非常に大声で話している又は非常に静かに話しているのを見つけることがあり、すべての参加者に同じ一般音量レベルが適用されるとき、その不一致は、聴取の難しさ又は不快感につながる。ローカル・ユーザは、次いで、特定の参加者に対応するアイコンを選択し、アイコンを移動する又は他の方法で操作すること（たとえば、音量を下げるためにアイコン・サイズを縮小する、音量を上げるためにアイコン・サイズを拡大する）によって、特定の参加者に対応する（たとえば、特有の）音声データの音量出力を修正することができる。たとえば、ローカル・ユーザは、ＵＩにおいて、より大声の参加者のアイコンをローカル・ユーザのアイコンから離すことができる。より大声の参加者のアイコンをローカル・ユーザのアイコンから離すことに基づいて、本システムは、より大声の参加者のアイコンの更新された音量レベルを決定する（たとえば、音量を下げる）ことができる。その後、本システムは、より大声の参加者に対応する１サブセットの音声データを識別し（たとえば、音声データの１つ又は複数のストリーム内から）、より大声の参加者の音声データの出力音量を下げることができる。さらに、ローカル・ユーザが、参加者のアイコンをローカル・ユーザのアイコンの近くに移動した場合、参加者の音声データ出力の音量は、自動的に上げられ得る。１つ又は複数の実施例において、ローカル・ユーザは、１人又は複数の参加者のアイコン又は他の表現を特定の効果に関連付けられたユーザ・インターフェイス内の（事前）指名エリアに配置又は再配置することができる。たとえば、ローカル・ユーザは、そのエリアに配置された表現を有する参加者に対応する音声データの音量レベルを増幅するように指名されるエリアに１つ又は複数の参加者アイコンを再配置することができる。類似して、ローカル・ユーザは、そのエリアに配置された表現を有する参加者に対応する音声データの音量レベルを下げる（又はミュートする）ように指名されるエリアに１つ又は複数の参加者アイコンを再配置することができる。有利に、ローカル・ユーザは、ローカル・ユーザのアイコンに対して各参加者のアイコンを配置することによって、各参加者（同時に何人かを含む）に対応する出力音量を調整する－それにより、参加者ごとの音声設定（たとえば、音量、トレブル、バス、雑音消去など）への動的調節を可能にすることによってローカル・ユーザのユーザ体験を高める－ことができる。

他の実施例において、ユーザは、参加者に対応する参加者アイコンのサイズを操作することによって、参加者に対応する音声データの音量レベルを調節することができる。たとえば、タッチスクリーン・モバイル・デバイス（たとえば、スマートフォン、タブレットなど）－画面サイズが、距離に基づくアイコン操作にあまり適していないことがある－のアプリケーションにおいて、ユーザは、参加者アイコンにピンチ・トゥ・ズーム・イン／アウト・ジェスチャを実行することができ、それによって、ジェスチャが、ピンチ・トゥ・ズーム・イン・ジェスチャ（たとえば、２本の指を使用してアイコンを選択すること及びそれらの指を外側へ広げること）であるか、ピンチ・トゥ・ズーム・アウト・ジェスチャ（たとえば、２本の指を使用してアイコンを選択すること及びそれらの指を互いに向けて移動すること）であるかに応じて、参加者アイコンのサイズを大きくする又は小さくすることができる。したがって、音量レベルは、参加者アイコンの相対的サイズに関連付けられ得る。たとえば、ユーザが、参加者アイコンのサイズを大きくするとき、その参加者に関連付けられた音声データの音量レベルは、上げられ得、ユーザが、参加者アイコンのサイズを小さくするとき、音声データの音量レベルは、下げられ得る、或いは逆もまた同様である。類似して、アイコン・サイズは、デスクトップ・アプリケーションにおいて音量レベルを上げる／下げるために使用され得る。しかしながら、タッチスクリーンが利用不可能な場合、ユーザは、参加者のアイコンの角又は辺を選択し、角又は辺を操作して参加者のアイコンのサイズ又は次元を調節することができる。

いくつかの実施例において、ユーザの第１のデバイスでの参加者アイコンの構成は、ユーザの第２のデバイスに動的にポートされ得る。たとえば、ユーザは、ユーザのパーソナル・コンピュータ（ＰＣ：ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）でのアプリケーション・セッションのインスタンスに参加しながら１つ又は複数の参加者アイコンを構成し、ユーザのモバイル・デバイスでのアプリケーション・セッションの新しいインスタンスを開始する（たとえば、アプリケーション・セッションの２つのインスタンスの共通のログイン情報を使用して）ことができる。ユーザのモバイル・デバイスでアプリケーション・セッションの新しいインスタンスを開始したとき、本システムは、ユーザのＰＣでのアプリケーション・セッションのインスタンスからの１つ又は複数の参加者アイコンの構成、及び／又は音量レベルにアクセスし、それぞれの対応する参加者の音量レベルに一致するようにモバイル・デバイス上の１つ又は複数の参加者アイコンを調節することができる。音量レベルは、アプリケーション・セッションの新しいユーザ・インターフェイスにおいて構成を再作成するために使用され得る。たとえば、各参加者に対応する音量レベルは、モバイル・デバイスで参加者アイコンのサイズを調節するために使用され得る。

いくつかの実施例において、音量レベルは、アプリケーション内の距離／位置に基づいてアプリケーションを横断して調節され得る。たとえば、２つ以上のプレーヤ・アバタが、仮想環境において－たとえば、ビデオ・ゲームにおいて－互いにリンクされ得る（たとえば、ＡＰＩ、プラグインなどを介して）。仮想環境内のユーザ・アバタに対する１つ又は複数の参加者アバタの距離／位置は、参加者アバタの、空間音量レベル（たとえば、左、右、前、後ろ、上、下など）を含む、音量レベルを調節するために使用され得る。出力音量設定は、現実世界の環境を模倣するために、較正され得る。たとえば、ユーザ・アバタの位置から離れている、及びユーザ・アバタに関して方向付けられている参加者アバタに基づいて、本システムは、ユーザへの参加者アバタ出力（たとえば、ユーザのステレオ・ヘッドフォン、ステレオ・スピーカ、サラウンド・サウンド・スピーカ、スピーカ・アレイなどを介する）に対応する音量レベルを調節することができる。距離及び／又は位置が、アプリケーション・セッション中に変化するとき、本システムは、それに応じて、音量レベルを調節することができる。ユーザ・アバタ及び１つ又は複数の参加者アバタの相対的位置に基づいて音量レベルを調節することによって、ユーザは、仮想環境において１つ又は複数の参加者アバタをさらに速く、簡単に位置付けることができる。

いくつかの実施例において、アプリケーション・セッションに参加する各ユーザは、彼らのローカル・デバイスで異なる構成のアイコンを形成することができる。たとえば、第１のユーザは、第１のユーザのデバイスで第２のユーザのアイコンを第１のユーザのアイコンの非常に近くに移動することができ、その一方で、第２のユーザは、第２のユーザのデバイスで第１のユーザのアイコンを第２のユーザのアイコンから遠くに移動することができる。そのようなものとして、第２のユーザの音量レベルは、第１のユーザのデバイスで上げられることになり、そして、第１のユーザの音量レベルは、第２のユーザのデバイスで下げられることになる。いくつかの実施例において、各ユーザは、彼らのアイコンがその他のユーザのデバイスでどのように構成されるか（たとえば、離される又は近づけられる）に関するリアルタイムのフィードバックを提供され得る。たとえば、ユーザの音量レベルが下げられる（たとえば、閾値未満に）ように、そのアイコンが別のユーザのアイコンから離されたユーザは、他のユーザがそのユーザの言うことをもはや聞くことができないことをそのユーザに知らせるために、インジケータ－たとえば、そのユーザの言うことを聞くことができない又はおそらく聞くことができないユーザのリスト－を提供され得る。この情報は、彼らがアプリケーション・セッションにおいてどのように知覚されているか（たとえば、大きすぎる／小さすぎる声で話している又はクロストークに関与している）をユーザに通知するために有用になり得る。いくつかの実施例において、ユーザは、アプリケーション・セッションに参加するユーザにユーザ・アイコン移動／構成に関する情報を提供したいかどうかを選択する（たとえば、オプト・イン／アウト）ことができる。

いくつかの実施例において、たとえば、第１のユーザが、第２のユーザの音量レベルを閾値未満に下げ、第１のユーザが、第２のユーザの言うことをもう聞くことができない場合、第２のユーザは、いくつかのやり方で第１のユーザを再び引き入れることができ得る。たとえば、第２のユーザは、手を上げること、メッセージ、ポップアップ・インジケータ、及び／又は非言語通信の他の手段の形で、非言語フィードバックを第１のユーザに提供することができる。さらに、いくつかの実施例において、本システムは、いつユーザの名が話されるかを判定することができる自然言語プロセッサ（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｏｒ）を使用することができる。前述の実例に続いて、第２のユーザが第１のユーザの名を言ったと判定することに基づいて、本システムは、第１のユーザが、第２のユーザの言うことを聞くことができ、第２のユーザが第１のユーザを再び引き入れることを可能にすることができるように、第２のユーザの音量レベルを上げることができる。

さらなる実施例において、本システムは、通常のユーザ行動を判定するために、ローカルに又はリモート・サーバにおいて、１つ又は複数の機械学習モデル、１つ又は複数のディープ・ニューラル・ネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、及び／又は１つ又は複数の他のアルゴリズム・タイプによって処理されることになるアプリケーションの任意の数のアプリケーション・セッションからのデータを収集及び記録することができる。たとえば、減衰データ、ユーザのリスト、時刻、会議の議題、及び／又は他のコンテキスト・データは、所与のコンテキストの通常のユーザ行動予測を生成するために使用され得る。これらの予測は、ユーザのための自動化された減衰動作を実行するために使用され得る。たとえば、ユーザが、通常、毎週の予算会議中には穏やかな話し方のユーザに関連付けられたユーザ・アイコンを操作又は他の方法でユーザのアイコンに近づけるが、毎月の仮想サービス・タイム中には穏やかな話し方のユーザのアイコンを操作又は他の方法でユーザのアイコンから離す場合、本システムは、この行動を学習し、その後の予算会議及び仮想サービス・タイムにおいて穏やかな話し方のユーザのアイコンの場所を自動的に調節することができる。

図１を参照すると、図１は、本開示のいくつかの実施例による、例示的音声操作システム１００（或いは本明細書で「システム１００」と称される）である。本明細書に記載のこの及び他の配列は単に実例として説明されていることを理解されたい。他の配列及び要素（たとえば、機械、インターフェイス、機能、順番、機能のグループなど）が、示されているものに加えて又はその代わりに使用され得、いくつかの要素は、ともに省略され得る。さらに、本明細書に記載の要素の多数は、個別の若しくは分散された構成要素として又は他の構成要素と併せて、及び任意の適した組合せ及び場所で実装され得る機能エンティティである。エンティティによって実行されているものとして本明細書に記載された様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって、実施され得る。たとえば、様々な機能は、メモリに記憶されたプロセッサ実行命令によって実施され得る。いくつかの実施例において、システム１００は、図５の例示的コンテンツ・ストリーミング・システム５００、図６の例示的コンピューティング・デバイス６００、及び／又は図７の例示的データ・センタ７００のそれらと類似の構成要素、特徴、及び／又は機能性を含み得る。

音声操作システム１００は、特に、クライアント・デバイス１０２Ａ及び１０２Ｂ（本明細書で「クライアント・デバイス１０２」と総称される）とアプリケーション・サーバ１０４とを含み得る。クライアント・デバイス１０２Ａ及び１０２Ｂが、図１には示されているが、これは、限定を意図していない。任意の実例において、任意の数（たとえば、１つ又は複数）のクライアント・デバイス１０２が存在し得る。音声操作システム１００の構成要素は、ネットワーク１０６を介して通信し得る。ネットワークは、ワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）（たとえば、インターネット、公衆交換電話網（ＰＳＴＮ：ｐｕｂｌｉｃｓｗｉｔｃｈｅｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋ）など）、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）（たとえば、Ｗｉ－Ｆｉ、ＺｉｇＢｅｅ、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）、ブルートゥース（登録商標）・ロー・エネルギ（ＢＬＥ：Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬｏｗＥｎｅｒｇｙ）、イーサネット（登録商標）、ウルトラ・ワイドバンド（ＵＷＢ：Ｕｌｔｒａ－Ｗｉｄｅｂａｎｄ）など）、低電力ワイド・エリア・ネットワーク（ＬＰＷＡＮ：ｌｏｗ－ｐｏｗｅｒｗｉｄｅ－ａｒｅａｎｅｔｗｏｒｋ）（たとえば、ＬｏＲａＷＡＮ、Ｓｉｇｆｏｘなど）、全地球的航法衛星システム（ＧＮＳＳ：ｇｌｏｂａｌｎａｖｉｇａｔｉｏｎｓａｔｅｌｌｉｔｅｓｙｓｔｅｍ）ネットワーク（たとえば、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ））、及び／又は別のネットワーク・タイプを含み得る。任意の実例において、音声操作システム１００の構成要素のそれぞれは、ネットワーク１０６のうちの１つ又は複数を介して他の構成要素のうちの１つ又は複数と通信し得る。

クライアント・デバイス１０２は、スマートフォン、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、ウェアラブル・デバイス、ゲーム機、仮想／拡張／複合現実システム（たとえば、ヘッドセット、コンピュータ、ゲーム機、リモート、コントローラ、及び／又は他の構成要素）、ストリーミング・デバイス（たとえば、ＮＶＩＤＩＡＳＨＩＥＬＤ）、インテリジェント・パーソナル・アシスタントを含み得るスマート・ホーム・デバイス、ビデオ会議若しくは他のアプリケーション・タイプ（たとえば、ゲーム・プレイ、ビデオ・チャット、カスタマ・サービス・チャットなど）をサポートする能力を有する別のタイプのデバイス、及び／又はその組合せを含み得る。

クライアント・デバイス１０２Ａ／１０２Ｂは、クライアント・アプリケーション１０８Ａ／１０８Ｂ、ディスプレイ１１０Ａ／１１０Ｂ、通信インターフェイス１１２Ａ／１１２Ｂ、入力デバイス１１４Ａ／１１４Ｂ、及び／又はローカル・ストレージ１１６Ａ／１１６Ｂを含み得る。クライアント・デバイス１０２のほんの少数の構成要素及び／又は特徴だけが、図１には示されているが、これは限定を意図していない。たとえば、クライアント・デバイス１０２は、付加的又は代替構成要素、たとえば、図６及び／又は７に関して後述されるもの、を含み得る。

クライアント・アプリケーション１０８Ａ及び１０８Ｂ（本明細書で「クライアント・アプリケーション１０８」と総称される）は、モバイル・アプリケーション、コンピュータ・アプリケーション、コンソール・アプリケーション、及び／又は別のタイプのアプリケーションを含み得る。クライアント・アプリケーション１０８は、プロセッサによって実行されるとき、限定なしに、１つ又は複数の入力デバイス１１４へのユーザ入力を表す入力データを受信する、入力データをアプリケーション・サーバ１０４に送信する、メモリ又はローカル・ストレージ１１６からアプリケーション・データを取得する、アプリケーション・サーバ１０４から通信インターフェイス１１２を使用してアプリケーション・データを受信する、及びディスプレイ１１０でアプリケーションを表示させることをプロセッサに行わせる、命令を含み得る。たとえば、クライアント・アプリケーション１０８は、クライアント・デバイス１０２のクライアント・アプリケーションに関連付けられたビデオ会議セッションのストリーミングを可能にするためのファシリテータとして動作し得る。クライアント・アプリケーション１０８はまた、プロセッサによって実行されるとき、プロセッサにアプリケーション・サーバ１０４へデータを送信させる及びアプリケーション・サーバ１０４からデータを受信させる、命令を含み得る。たとえば、クライアント・アプリケーション１０８Ａは、クライアント・アプリケーション１０８Ａで実行されたアイコン操作に関するリアルタイムのフィードバックをアプリケーション・サーバ１０４に送信し、クライアント・アプリケーション１０８Ｂで実行されたアイコン操作に関するリアルタイムのフィードバックをアプリケーション・サーバ１０４から受信することができる。他の実例において、クライアント・アプリケーション１０８Ａは、任意の数のアプリケーション・セッションからアプリケーション・サーバ１０４にセッション・データ（たとえば、減衰データ、ユーザのリスト、時刻、会議の議題、及び／又は他のコンテキスト・データ）を送信することができる。そのような実例において、ホスト・アプリケーション１１８は、所与のコンテキストの通常ユーザ行動予測を生成することができる（たとえば、機械学習モデル、ディープ・ニューラル・ネットワーク（ＤＮＮ）、又は別のアルゴリズム・タイプによって）。

ディスプレイ１１０Ａ及び１１０Ｂ（本明細書で「ディスプレイ１１０」と総称される）は、アプリケーションを表示する能力を有する任意のタイプのディスプレイ（たとえば、発光ダイオード・ディスプレイ（ＬＥＤ：ｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅｄｉｐｌａｙ）、有機ＬＥＤディスプレイ（ＯＬＥＤ：ｏｒｇａｎｉｃＬＥＤｄｉｓｐｌａｙ）、液晶ディスプレイ（ＬＣＤ：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、アクティブ・マトリックスＯＬＥＤディスプレイ（ＡＭＯＬＥＤ：ａｃｔｉｖｅｍａｔｒｉｘＯＬＥＤｄｉｓｐｌａｙ）、量子ドットディスプレイ（ＱＤＤ：ｑｕａｎｔｕｍｄｏｔｄｉｓｐｌａｙ）、プラズマ・ディスプレイ、ＬＥＤ／ＬＣＤディスプレイ、及び／又は別のタイプのディスプレイ）を含み得る。いくつかの実例において、ディスプレイ１１０は、複数のディスプレイ（たとえば、コンピュータのデュアル・モニタ・ディスプレイ）を含み得る。いくつかの実例において、ディスプレイは、タッチスクリーン・ディスプレイ、たとえば、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータなどのタッチスクリーン、であり、そこで、タッチスクリーンは、クライアント・デバイス１０２の入力デバイス１１４のうちの少なくとも１つである。

入力デバイス１１４Ａ及び１１４Ｂ（本明細書で「入力デバイス１１４」と総称される）は、アプリケーションにユーザ入力を提供する能力を有する任意のタイプのデバイスを含み得る。入力デバイスは、キーボード、マウス、マイクロフォン、タッチスクリーン・ディスプレイ、コントローラ、リモート、ヘッドセット（たとえば、仮想／拡張／複合現実ヘッドセットのセンサ）、及び／又は他のタイプの入力デバイスを含み得る。

通信インターフェイス１１２Ａ、１１２Ｂ、１１２Ｃ（本明細書で「通信インターフェイス１１２」と総称される）は、１つ又は複数のネットワーク、たとえば、ネットワーク１０６、を横断して通信するための１つ又は複数の構成要素及び特徴を含み得る。通信インターフェイス１１２は、本明細書に記載の、任意の数のネットワーク１０６を介して通信するように構成され得る。たとえば、図１の音声操作システム１００において通信するために、クライアント・デバイス１０２は、アプリケーション・サーバ１０４と及び／又は他のクライアント・デバイス１０２と通信するために、ルータを介してイーサネット（登録商標）又はＷｉ－Ｆｉ接続を使用してインターネットにアクセスすることができる。

ローカル・ストレージ１１６Ａ及び１１６Ｂ（本明細書で「ローカル・ストレージ１１６」と総称される）は、様々なコンピュータ可読媒体のいずれかを含み得る。コンピュータ可読媒体は、クライアント・デバイス１０２によってアクセスすることができる任意の利用可能な媒体でもよい。コンピュータ可読媒体は、揮発性媒体及び不揮発性媒体の両方、並びに取り外し可能な媒体及び取り外し不可能な媒体を含み得る。実例として、そして限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。ローカル・ストレージ１１６は、付加的又は代替構成要素、たとえば、図６のメモリ６０４に関して記載されるもの、を含み得る。本開示のいくつかの実施例によれば、クライアント・アプリケーション１０８の部分は、ローカル・ストレージ１１６に記憶され得る。いくつかの実施例において、アプリケーション・セッション・データ－たとえば、減衰データ、ユーザのリスト、時刻、会議の議題、及び／又は他のコンテキスト・データ－は、ローカル・ストレージ１１６に記憶され得る。

アプリケーション・サーバ１０４は、ホスト・アプリケーション１１８及び通信インターフェイス１１２Ｃを含み得る。ホスト・アプリケーション１１８は、クライアント・アプリケーション１０８に対応し得る。しかしながら、クライアント・デバイス１０２でローカルに音声操作動作を実行する（たとえば、リモート参加者に対応する音声データの音量出力を修正する）のではなくて、ホスト・アプリケーション１１８は、アプリケーション・サーバ１０４で本明細書に記載の音声操作動作を実行し、修正された音声データをクライアント・デバイス１０２に通信することができる。上述したように、通信インターフェイス１１２Ｃは、１つ又は複数のネットワークを横断して通信するための１つ又は複数の構成要素及び特徴を含み得る。アプリケーション・サーバ１０４のほんの少数の構成要素及び／又は特徴だけが、図１には示されているが、これは限定を意図していない。たとえば、アプリケーション・サーバ１０４は、付加的又は代替構成要素、たとえば、図５の例示的コンテンツ・ストリーミング・システム５００、図６の例示的コンピューティング・デバイス６００、及び／又は図７の例示的データ・センタ７００に関して後述されるもの、を含み得る。

動作中、クライアント・デバイス１０２が、クライアント・アプリケーション１０８を介してビデオ会議セッションの一部としてビデオ会議アプリケーションのインスタンスを開始するとき、クライアント・デバイス１０２は、ビデオ会議アプリケーションのインスタンスに参加する各ユーザに対応するアイコンを表示するグラフィックＵＩをそれぞれ提供され得る。アイコンは、サムネイル、タイル、ビデオ・フィード（たとえば、特定のユーザのカメラからキャプチャされたものなどの、ライブ・ビデオを有するウインドウ）、静止画像写真、仮想背景、アバタ、グラフィック画像、又は他の表現を含み得るが、これらに限定されない。最初に、音量レベルは、ユーザについて設定され得る－たとえば、クライアント・アプリケーション１０８によって設定された、又は学習された音量レベル若しくは特定のユーザに対応するユーザ設定された音量レベルに基づく、デフォルト・レベル。たとえば、クライアント・デバイス１０２Ａは、ローカル・ユーザによって操作され得、複数のクライアント・デバイス１０２Ｂは、複数のリモート・ユーザによってそれぞれ操作され得る。そのような実例において、ユーザが会話をするとき、ローカル・ユーザは、その他のリモート・ユーザと比較して特定のリモート・ユーザ又は参加者が非常に大声で話していることを見つけ得る。クライアント・デバイス１０２Ａは、次いで、その特定のリモート・ユーザに対応するアイコン選択並びに入力デバイス１１４Ａを介するその特定のリモート・ユーザに対応するアイコンの操作を、ローカル・ユーザから、受信し得る。たとえば、ローカル・ユーザは、ＵＩにおいて視覚的に（たとえば、グラフィックで）提示されるものとしてのローカル・ユーザのアイコンから特定のリモート・ユーザ・アイコンをさらに遠くに移動するように操作し、又は他の方法で移動させることができる。ＵＩに視覚的に提示されるものとしてのローカル・ユーザのアイコンから特定のリモート・ユーザのアイコンがさらに遠くに移動されることに基づいて、クライアント・アプリケーション１０８Ａは、特定のリモート・ユーザに関連付けられたクライアント・デバイス１０２Ｂから受信された少なくとも１サブセットの音声データを識別し、少なくともそのサブセットの音声データの音量出力をクライアント・デバイス１０２Ａによって減らすことができる。

一実例として、図２Ａ～２Ｃを参照すると、図２Ａ～２Ｃは、本開示の少なくともいくつかの実施例の実装において使用するのに適した、ユーザ・アイコンを操作するための例示的ＵＩを示す。図２Ａは、アプリケーションＵＩ２００Ａ、プレゼンテーション２０２、ユーザ・アイコン２０４、並びに参加者アイコン２０６、２０８、２１０、及び２１２を含む。動作中、ユーザ・アイコン２０４に関連付けられたユーザ及び参加者アイコン２０６、２０８、２１０、及び２１２のそれぞれに関連付けられたユーザは、アプリケーション・セッションに参加し得る。アプリケーションＵＩ２００Ａは、ユーザ・アイコン２０４に関連付けられたローカル・ユーザの視点からのアプリケーションのインスタンス－たとえば、オンライン・ビデオ会議、ゲーム・ストリーミング・サービス、ビデオ・ストリーミング・サービスなど－に対応し得る。最初に、ユーザ・アイコン２０４に関連付けられたユーザは、参加者アイコン２０６、２０８、２１０、及び２１２のそれぞれに関連付けられたそれぞれのユーザの音量レベルを設定することができる。加えて又は別法として、デフォルト・レベルは、アプリケーションによるアプリケーション・セッションについて又は特定の参加者に対応する学習された音量レベルに基づいて設定され得る。

いくつかの実施例において、参加者アイコン２０６、２０８、２１０、及び２１２の出力音声レベルは、ユーザ・アイコン２０４と参加者アイコン２０６、２０８、２１０、及び２１２との間の距離に反比例し得る。たとえば、図２Ｂを見ると、ユーザが会話をするとき、ユーザ・アイコン２０４に関連付けられたユーザは、参加者アイコン２０６、２０８、２１０、及び／又は２１２に関連付けられた１人又は複数のユーザがその他のユーザと比べて非常に大声で／静かに話していることを見つけ得る。アプリケーション・セッションに参加しているユーザの言うことをより快適に聞く及び理解するために、ユーザ・アイコン２０４に関連付けられたユーザは、次いで、参加者アイコン２０８を選択し、参加者アイコン２０８をユーザ・アイコン２０４の近くに移動することができ、それによって、参加者アイコン２０８に関連付けられたユーザの出力音量を上げることができる。同様に、ユーザ・アイコン２０４に関連付けられたユーザは、参加者アイコン２１２を選択し、参加者アイコン２１２をユーザ・アイコン２０４から離すことができ、それによって、参加者アイコン２１２に関連付けられたユーザの出力音量を下げることができる。しかしながら、音量又は他の音声設定の変更は、実施例及び／又は特定のユーザの設定に応じて、近くに移動することで音量を下げることができ、その一方で、さらに遠くに移動することで音量を上げることができるような、異なる関係を有し得る。

いくつかの実施例において、参加者アイコン２０６、２０８、２１０、及び２１２の出力音声レベルは、参加者アイコン２０６、２０８、２１０、及び２１２のサイズに直接関連し得る。たとえば、図２Ｃを見ると、ユーザが会話をするとき、ユーザ・アイコン２０４に関連付けられたユーザは、参加者アイコン２０６、２０８、２１０、及び／又は２１２に関連付けられた１人又は複数のユーザがその他のユーザと比べて非常に大声で／静かに話していることを見つけ得る。ユーザ・アイコン２０４に関連付けられたユーザは、次いで、参加者アイコン２０６を選択し、「ピンチ・トゥ・ズーム」イン・ジェスチャ２１２Ａ（たとえば、２本の指を使用してアイコン２０６を選択すること及びそれらの指を外側へ広げること）を使用して、参加者アイコン２０６を拡大する（又は拡大を引き起こす）ことができ、それによって、参加者アイコン２０６のサイズ並びに参加者アイコン２０６に関連付けられたユーザの出力音量を大きくすることができる。同様に、ユーザ・アイコン２０４に関連付けられたユーザは、参加者アイコン２１０を選択し、「ピンチ・トゥ・ズーム」アウト・ジェスチャ２１２Ｂ（たとえば、２本の指を使用してアイコン２１０を選択すること及びそれらの指を互いに向けて閉じること）を使用して参加者アイコン２１０を縮小する（又はその縮小を引き起こす）ことができ、それによって、参加者アイコン２１０のサイズ並びに参加者アイコン２１０に関連付けられたユーザの出力音量を小さくすることができる。いくつかの実施例において、出力音量は、参加者アイコン２０６、２０８、２１０、及び２１２のサイズをデフォルト・サイズ（たとえば、アプリケーション・セッションの開始時の初期サイズ）と比較することによって、判定され得る。他の実施例において、出力音量は、参加者アイコン２０６、２０８、２１０、及び／又は２１２のそれぞれのサイズをその他の参加者アイコン２０６、２０８、２１０、及び／又は２１２のそれぞれと比較することによって、判定され得る。たとえば、最大である、参加者アイコン２０６は、１００％の出力音量を有し得、そして、参加者アイコン２０６のサイズのおおよそ２５％である、参加者アイコン２０８及び２１２は、２５％の出力音量を有し得る。しかしながら、参加者アイコン２０６のサイズが、参加者アイコン２０８及び２１２のサイズと一致するように小さくされた場合、参加者アイコン２０６、２０８、及び２１２のそれぞれは、今度は、アプリケーションＵＩ２００Ｃにおける最大の参加者アイコンになるので、参加者アイコン２０６、２０８、及び２１２のそれぞれが、１００％の出力音量を有し得る。

図３を参照すると、図３は、本開示のいくつかの実施例の実装に使用するのに適した、ユーザ・アイコンを操作するための例示的ＵＩを示す。図３は、アプリケーションＵＩ３００、ユーザ・アイコン３０４、並びに参加者アイコン３０６、３０８、３１０、３１２及び３１４を含む。動作中、最初に、参加者アイコン３０６、３０８、３１０、３１２及び３１４のそれぞれは、ユーザ・アイコン３０４の周りに等間隔で配置され得る。たとえば、参加者アイコン３０６、３０８、３１０、３１２及び３１４のそれぞれは、半径方向距離線３０２Ａ、３０２Ｂ、３０２Ｃ、３０２Ｄ、及び３０２Ｅのうちの１つに配置され得る。ユーザが会話をするとき、ユーザ・アイコン３０４に関連付けられたユーザは、参加者アイコン３０６、３０８、３１０、３１２及び３１４に関連付けられた１人又は複数のユーザがその他のユーザと比べて非常に大声で／静かに話していることを見つけ得る。そのようなものとして、ユーザ・アイコン３０４に関連付けられたユーザは、次いで、参加者アイコン３０６、３０８、３１０、３１２及び３１４のうちの１つ又は複数を選択し、１つ又は複数の参加者アイコンをユーザ・アイコン３０４からより遠くに又はより近くに移動することができる。半径方向距離線３０２Ａ、３０２Ｂ、３０２Ｃ、３０２Ｄ、及び３０２Ｅは、音量出力レベルに対応し得、音量出力レベルは、アプリケーションＵＩ３００の中心にあるユーザ・アイコン３０４までの距離に反比例する。たとえば、ユーザ・アイコン３０４に最も近い参加者アイコンである、参加者アイコン３０６は、参加者アイコン３０８、３１０、３１２及び３１４と比べて最も高い音量出力に関連付けられ得る。以下のように、参加者アイコン３１４は、参加者アイコン３０６、３０８、３１０、及び３１２と比べて最も低い音量出力に関連付けられ得る。図３は、半径方向距離線３０２Ａ、３０２Ｂ、３０２Ｃ、３０２Ｄ、及び３０２Ｅを示しているが、これは、例示を目的としたものであり、限定を意図していない。ユーザ・アイコン３０４と参加者アイコン３０６、３０８、３１０、３１２及び３１４のそれぞれとの間の距離は、任意の数の半径方向距離線を使用して及び／又は距離を直接測定することによって、測定され得る。さらに、アプリケーションＵＩ３００の実施例は、２次元に限定されず、３次元（３Ｄ）で実装することができ、ユーザ・アイコン３０４に関連付けられたユーザがユーザ・アイコン３０４に対して３Ｄにおいて参加者アイコン３０６、３０８、３１０、３１２、及び３１４を球状に配置することを可能にする。

ここで図４を参照すると、本明細書に記載の方法４００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行することができる計算プロセスを含む。たとえば、様々な機能は、メモリに記憶されたプロセッサ実行命令によって実施され得る。方法４００はまた、コンピュータ記憶媒体に記憶されたコンピュータ使用可能命令として実施され得る。方法４００は、いくつか例を挙げると、スタンドアロン・アプリケーション、サービス若しくはホスト型サービス（スタンドアロンの若しくは別のホスト型サービスと組み合わせた）、又は別の製品へのプラグインによって提供され得る。加えて、方法４００は、例として、図１のシステムに関して説明される。しかしながら、この方法は、本明細書に記載のものを含むがこれらに限定されない、任意の１つのシステム、又は任意の組合せのシステムによって、加えて又は別法として、実行され得る。

図４は、本開示のいくつかの実施例の実装に使用するのに適した、アイコンへの操作に基づいて音声設定を更新するための方法４００を示す流れ図である。方法４００は、ブロックＢ４０２において、ユーザのクライアント・デバイスでアプリケーションのインスタンスを開始することを含む。たとえば、ユーザは、アイコンを選択してアプリケーションを開くこと、リンクを選択してアプリケーション・セッションに参加すること、ウェブ・ページを訪ねること、及び／又はアプリケーションのインスタンスを開始する他の手段によって、ユーザのデバイスでアプリケーションのインスタンスを開始することができる。

方法４００は、ブロックＢ４０４において、ユーザに対応するユーザ・アイコン及びアプリケーションのアプリケーション・セッションの１人又は複数の参加者に対応する１つ又は複数の参加者アイコンの、アプリケーションのインスタンスのユーザ・インターフェイス内での、表示を引き起こすことを含む。たとえば、ローカル・ユーザが、ビデオ会議アプリケーションのインスタンスを開始するとき、そのユーザは、そのユーザに対応するアイコン並びにビデオ会議アプリケーションのインスタンスの参加者に対応するいくつかの他のアイコンを表示するユーザ・インターフェイス（ＵＩ）を提供され得る。

方法４００は、ブロックＢ４０６において、１つ又は複数の参加者アイコンのうちの参加者アイコンを操作する１つ又は複数の入力を表す入力データを受信することを含む。たとえば、ローカル・ユーザは、特定の参加者に対応するアイコンを選択し、そのアイコンをユーザ・インターフェイス内でローカル・ユーザのアイコンから遠くへ移動する（又はその移動を引き起こす）ことができる。

方法４００は、ブロックＢ４０８において、参加者アイコンに関連付けられた参加者に対応する更新された音声設定を、１つ又は複数の入力に応答して、決定することを含む。たとえば、リモート・ユーザのアイコンをローカル・ユーザのアイコンから離すこと（又はその移動を引き起こすこと）に基づいて、本システムは、リモート・ユーザのアイコンのための更新された音量レベルを決定する（たとえば、音量を下げる）ことができる。

方法４００は、ブロックＢ４１０において、参加者に対応するアプリケーション・セッションから音声データの少なくとも一部分を識別する。たとえば、リモート・ユーザのアイコンをローカル・ユーザのアイコンから離すことに基づいて、本システムは、リモート・ユーザに対応する１サブセットの音声データを識別することができる（たとえば、音声データのストリーム内から）。

方法４００は、ブロックＢ４１２において、更新された音声設定を音声データの少なくとも一部に適用することを含む。たとえば、リモート・ユーザに対応する１サブセットの音声データを識別することに基づいて、本システムは、リモート・ユーザの音声データの出力音量を上げる／下げることができる。

例示的コンテンツ・ストリーミング・システム
ここで図５を参照すると、図５は、本開示のいくつかの実施例による、コンテンツ・ストリーミング・システム５００の例示的システム図である。図５は、アプリケーション・サーバ５０２（図６の例示的コンピューティング・デバイス６００に類似の構成要素、特徴、及び／又は機能性を含み得る）、クライアント・デバイス５０４（図６の例示的コンピューティング・デバイス６００に類似の構成要素、特徴、及び／又は機能性を含み得る）、及びネットワーク５０６（本明細書に記載のネットワークに類似し得る）を含む。本開示のいくつかの実施例において、システム５００が、実装され得る。アプリケーション・セッションは、ゲーム・ストリーミング・アプリケーション（たとえば、ＮＶＩＤＩＡＧｅＦＯＲＣＥＮＯＷ）、リモート・デスクトップ・アプリケーション、シミュレーション・アプリケーション（たとえば、自律又は半自律車両シミュレーション）、コンピュータ支援設計（ＣＡＤ：ｃｏｍｐｕｔｅｒａｉｄｅｄｄｅｓｉｇｎ）アプリケーション、仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）及び／又は拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）ストリーミング・アプリケーション、深層学習アプリケーション、及び／又は他のアプリケーション・タイプに対応し得る。

システム５００において、アプリケーション・セッションについて、クライアント・デバイス５０４は、単に、入力デバイスへの入力に応答して入力データを受信し、入力データをアプリケーション・サーバ５０２に送信し、エンコードされたディスプレイ・データをアプリケーション・サーバ５０２から受信し、ディスプレイ・データをディスプレイ５２４に表示することができる。そのようなものとして、よりコンピュータ負荷の重い計算及び処理は、アプリケーション・サーバ５０２にオフロードされる（たとえば、アプリケーション・セッションのグラフィック出力のレンダリング－特に光線又はパス・トレース－は、ゲーム・サーバ５０２のＧＰＵによって実行される）。言い換えれば、アプリケーション・セッションは、アプリケーション・サーバ５０２からクライアント・デバイス５０４にストリーミングされ、それによって、グラフィックス処理及びレンダリングのためのクライアント・デバイス５０４の要件を減らす。

たとえば、アプリケーション・セッションのインスタンス化に関して、クライアント・デバイス５０４は、ディスプレイ・データをアプリケーション・サーバ５０２から受信することに基づいてディスプレイ５２４にアプリケーション・セッションのフレームを表示し得る。クライアント・デバイス５０４は、入力デバイスのうちの１つへの入力を受信し、応答して入力データを生成することができる。クライアント・デバイス５０４は、通信インターフェイス５２０を介して及びネットワーク５０６（たとえば、インターネット）を介してアプリケーション・サーバ５０２に入力データを送信することができ、アプリケーション・サーバ５０２は、通信インターフェイス５１８を介して入力データを受信することができる。ＣＰＵは、入力データを受信し、入力データを処理し、アプリケーション・セッションのレンダリングをＧＰＵに生成させるデータをＧＰＵへ送信することができる。たとえば、入力データは、ゲーム・アプリケーションのゲーム・セッションにおけるユーザのキャラクタの移動、武器を発砲すること、リローディング、ボールをパスすること、車両を回転させることなどを表し得る。レンダリング構成要素５１２は、アプリケーション・セッション（たとえば、入力データの結果を表す）をレンダリングすることができ、レンダリング・キャプチャ構成要素５１４は、アプリケーション・セッションのレンダリングをディスプレイ・データとして（たとえば、アプリケーション・セッションのレンダリングされたフレームをキャプチャする画像データとして）キャプチャすることができる。アプリケーション・セッションのレンダリングは、アプリケーション・サーバ５０２の１つ又は複数の並列処理装置－たとえば、１つ又は複数の専用ハードウェア・アクセラレータ又は処理コアの使用をさらに用いて光線又はパス・トレース技法を実行し得る、ＧＰＵ－を使用して計算される、光線又はパス・トレース照明及び／又は陰効果を含み得る。いくつかの実施例において、１つ又は複数の仮想機械（ＶＭ：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）－たとえば、１つ又は複数の仮想構成要素、たとえば、ｖＧＰＵ、ｖＣＰＵなど、を含む－は、アプリケーション・セッションをサポートするために、アプリケーション・サーバ５０２によって使用され得る。エンコーダ５１６は、次いで、ディスプレイ・データをエンコードして、エンコードされたディスプレイ・データを生成することができ、エンコードされたディスプレイ・データは、通信インターフェイス５１８を介してネットワーク５０６を介してクライアント・デバイス５０４に送信され得る。クライアント・デバイス５０４は、エンコードされたディスプレイ・データを通信インターフェイス５２０を介して受信することができ、デコーダ５２２は、エンコードされたディスプレイ・データを復号してディスプレイ・データを生成することができる。クライアント・デバイス５０４は、次いで、ディスプレイ５２４を介してディスプレイ・データを表示することができる。

例示的コンピューティング・デバイス
図６は、本開示のいくつかの実施例の実装において使用するのに適した例示的コンピューティング・デバイス６００のブロック図である。コンピューティング・デバイス６００は、以下のデバイスを直接に又は間接に結合する相互接続システム６０２を含み得る：メモリ６０４、１つ又は複数の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）６０６、１つ又は複数のグラフィックス・プロセッシング・ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）６０８、通信インターフェイス６１０、入力／出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｐｕｔ）ポート６１２、入力／出力構成要素６１４、電力供給装置６１６、１つ又は複数のプレゼンテーション構成要素６１８（たとえば、ディスプレイ）、及び１つ又は複数の論理ユニット６２０。少なくとも１つの実施例において、コンピューティング・デバイス６００は、１つ又は複数の仮想機械（ＶＭ）を含み得る、及び／又は、その構成要素のいずれかは、仮想構成要素（たとえば、仮想ハードウェア構成要素）を含み得る。非限定的実例として、ＧＰＵ６０８のうちの１つ又は複数は、１つ又は複数のｖＧＰＵを含み得、ＣＰＵ６０６のうちの１つ又は複数は、１つ又は複数のｖＣＰＵを含み得、及び／又は論理ユニット６２０のうちの１つ又は複数は、１つ又は複数の仮想論理ユニットを含み得る。そのようなものとして、コンピューティング・デバイス６００は、個別の構成要素（たとえば、コンピューティング・デバイス６００専用の完全なＧＰＵ）、仮想構成要素（たとえば、コンピューティング・デバイス６００専用のＧＰＵの一部分）、又はその組合せを含み得る。

図６の様々なブロックは、線を有する相互接続システム６０２を介して接続されるものとして示されているが、これは限定を意図しておらず、単に明確にすることを目的としている。たとえば、いくつかの実施例において、プレゼンテーション構成要素６１８、たとえば、ディスプレイ・デバイス、は、Ｉ／Ｏ構成要素６１４と考えられ得る（たとえば、ディスプレイがタッチスクリーンである場合）。別の実例として、ＣＰＵ６０６及び／又はＧＰＵ６０８は、メモリを含み得る（たとえば、メモリ６０４は、ＧＰＵ６０８、ＣＰＵ６０６、及び／又は他の構成要素のメモリに加えた記憶デバイスを表し得る）。言い換えれば、図６のコンピューティング・デバイスは、単に、例示である。「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「モバイル・デバイス」、「ハンドヘルド・デバイス」、「ゲーム機」、「電子制御ユニット（ＥＣＵ）」、「仮想現実システム」、及び／又は他のデバイス又はシステムタイプのようなカテゴリは、すべて、図６のコンピューティング・デバイスの範囲内にあることが企図されているので、区別されない。

相互接続システム６０２は、１つ又は複数のリンク又はバス、たとえば、アドレス・バス、データ・バス、制御バス、又はその組合せ、を表し得る。相互接続システム６０２は、１つ又は複数のバス又はリンク・タイプ、たとえば、業界標準アーキテクチャ（ＩＳＡ：ｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ｅｘｔｅｎｄｅｄｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ｖｉｄｅｏｅｌｅｃｔｒｏｎｉｃｓｓｔａｎｄａｒｄｓａｓｓｏｃｉａｔｉｏｎ）バス、周辺構成要素相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）バス、周辺構成要素相互接続エクスプレス（ＰＣＩｅ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）バス、及び／又は別のタイプのバス若しくはリンク、を含み得る。いくつかの実施例において、構成要素間の直接接続が存在する。一実例として、ＣＰＵ６０６は、メモリ６０４に直接接続され得る。さらに、ＣＰＵ６０６は、ＧＰＵ６０８に直接接続され得る。構成要素間に直接、又は２地点間接続があるとき、相互接続システム６０２は、接続を実施するためのＰＣＩｅリンクを含み得る。これらの実例において、ＰＣＩバスは、コンピューティング・デバイス６００に含まれる必要はない。

メモリ６０４は、様々なコンピュータ可読媒体のいずれかを含み得る。コンピュータ可読媒体は、コンピューティング・デバイス６００によってアクセスされ得る任意の利用可能な媒体でもよい。コンピュータ可読媒体は、揮発性媒体及び不揮発性媒体の両方、並びに取り外し可能な媒体及び取り外し不可能な媒体を含み得る。実例として、そして限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。

コンピュータ記憶媒体は、情報、たとえば、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプ、を記憶するための任意の方法又は技術において実装される揮発性媒体及び不揮発性媒体の両方及び／又は取り外し可能な媒体及び取り外し不可能な媒体を含み得る。たとえば、メモリ６０４は、コンピュータ可読命令（たとえば、プログラム及び／又はプログラム要素、たとえば、オペレーティング・システム、を表すを記憶し得る。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ又は他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）又は他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶デバイス、或いは、所望の情報を記憶するために使用され得る及びコンピューティング・デバイス６００によってアクセスされ得る任意の他の媒体を含み得るが、これらに限定されない。本明細書では、コンピュータ記憶媒体は、信号それ自体を含まない。

コンピュータ記憶媒体は、変調されたデータ信号、たとえば、搬送波又は他のトランスポート機構、においてコンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプを実施し得、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号において情報をエンコードするための方式などで設定又は変更されたそれの特徴のうちの１つ又は複数を有する信号を指し得る。実例として、及び限定ではなく、コンピュータ記憶媒体は、有線媒体、たとえば、有線ネットワーク又は直接有線接続、とワイヤレス媒体、たとえば、音響、ＲＦ、赤外線及び他のワイヤレス媒体、とを含み得る。前述のうちのいずれかの組合せもまた、コンピュータ可読媒体の範囲に含まれるべきである。

ＣＰＵ６０６は、コンピューティング・デバイス６００の１つ又は複数の構成要素を制御して本明細書に記載の方法及び／又はプロセスのうちの１つ又は複数を実行するためのコンピュータ可読命令のうちの少なくともいくつかを実行するように構成され得る。ＣＰＵ６０６は、多数のソフトウェア・スレッドを同時に処理する能力を有する１つ又は複数のコア（たとえば、１、２、４、８、２８、７２など）をそれぞれ含み得る。ＣＰＵ６０６は、任意のタイプのプロセッサを含み得、実装されるコンピューティング・デバイス６００のタイプ（たとえば、モバイル・デバイスのためのより少数のコアを有するプロセッサ及びサーバのためのより多数のコアを有するプロセッサ）に応じて、異なるタイプのプロセッサを含み得る。たとえば、コンピューティング・デバイス６００のタイプに応じて、プロセッサは、縮小命令セット・コンピューティング（ＲＩＳＣ：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されるアドバンストＲＩＳＣ機械（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅ）プロセッサ又は複合命令セット・コンピュータ（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されるｘ８６プロセッサでもよい。コンピューティング・デバイス６００は、１つ又は複数のマイクロプロセッサ又は補足のコプロセッサ、たとえば、数値演算コプロセッサ、に加えて、１つ又は複数のＣＰＵ６０６を含み得る。

ＣＰＵ６０６に加えて、又はその代わりに、ＧＰＵ６０８は、コンピューティング・デバイス６００の１つ又は複数の構成要素を制御して本明細書に記載の方法及び／又はプロセスのうちの１つ又は複数を実行するためのコンピュータ可読命令のうちの少なくともいくつかを実行するように構成され得る。ＧＰＵ６０８のうちの１つ又は複数は、統合型ＧＰＵでもよく（たとえば、ＣＰＵ６０６のうちの１つ又は複数を有する、及び／或いは、ＧＰＵ６０８のうちの１つ又は複数は、個別のＧＰＵでもよい。実施例において、ＧＰＵ６０８のうちの１つ又は複数は、ＣＰＵ６０６のうちの１つ又は複数のＣＰＵのコプロセッサでもよい。ＧＰＵ６０８は、グラフィックス（たとえば、３Ｄグラフィックス）をレンダリングする又は汎用計算を実行するために、コンピューティング・デバイス６００によって使用され得る。たとえば、ＧＰＵ６０８は、ＧＰＵでの汎用計算（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）のために使用され得る。ＧＰＵ６０８は、数百又は数千のソフトウェア・スレッドを同時に処理する能力を有する数百又は数千のコアを含み得る。ＧＰＵ６０８は、レンダリング・コマンド（たとえば、ホスト・インターフェイスを介して受信されるＣＰＵ６０６からのレンダリング・コマンド）に応答して出力画像の画素データを生成し得る。ＧＰＵ６０８は、画素データ又は任意の他の適したデータ、たとえば、ＧＰＧＰＵデータ、を記憶するためのグラフィックス・メモリ、たとえば、ディスプレイ・メモリ、を含み得る。ディスプレイ・メモリは、メモリ６０４の一部として含まれ得る。ＧＰＵ６０８は、並行して（たとえば、リンクを介して）動作する２つ以上のＧＰＵを含み得る。リンクは、ＧＰＵを直接接続する（たとえば、ＮＶＬＩＮＫを使用して）ことができる、又はスイッチを介して（たとえば、ＮＶＳｗｉｔｃｈを使用して）ＧＰＵを接続することができる。ともに結合されるとき、各ＧＰＵ６０８は、出力の異なる部分の又は異なる出力の画素データ又はＧＰＧＰＵデータ（たとえば、第１の画像の第１のＧＰＵ及び第２の画像の第２のＧＰＵ）を生成することができる。各ＧＰＵは、それ自体のメモリを含むことができる、又は他のＧＰＵとメモリを共用することができる。

ＣＰＵ６０６及び／又はＧＰＵ６０８に加えて又はその代わりに、論理ユニット６２０は、コンピューティング・デバイス６００の１つ又は複数の構成要素を制御して本明細書に記載の方法及び／又はプロセスのうちの１つ又は複数を実行するためのコンピュータ可読命令のうちの少なくともいくつかを実行するように構成され得る。実施例において、ＣＰＵ６０６、ＧＰＵ６０８、及び／又は論理ユニット６２０は、方法、プロセス及び／又はそれの部分の任意の組合せを別個に又はともに実行することができる。論理ユニット６２０のうちの１つ又は複数は、ＣＰＵ６０６及び／又はＧＰＵ６０８のうちの１つ又は複数の部分でもよい及び／又はそれに統合することができ、及び／又は、論理ユニット６２０のうちの１つ又は複数は、個別の構成要素でもよい又は他の方法でＣＰＵ６０６及び／又はＧＰＵ６０８の外部でもよい。実施例において、論理ユニット６２０のうちの１つ又は複数は、ＣＰＵ６０６のうちの１つ又は複数及び／又はＧＰＵ６０８のうちの１つ又は複数のコプロセッサでもよい。

論理ユニット６２０の実例は、１つ又は複数の処理コア及び／又はその構成要素、たとえば、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル・プロセッシング・ユニット（ＴＰＵ：ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、画素ビジュアル・コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、ビジョン・プロセッシング・ユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス・プロセッシング・クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、テクスチャ・プロセッシング・クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・マルチプロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、木の走査ユニット（ＴＴＵ：ＴｒｅｅＴｒａｖｅｒｓａｌＵｎｉｔ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒ）、深層学習アクセラレータ（ＤＬＡ：ＤｅｅｐＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｏｒ）、演算論理ユニット（ＡＬＵ：Ａｒｉｔｈｍｅｔｉｃ－ＬｏｇｉｃＵｎｉｔ）、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、浮動小数点ユニット（ＦＰＵ：ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ）、入力／出力（Ｉ／Ｏ）要素、周辺構成要素相互接続（ＰＣＩ）又は周辺構成要素相互接続エクスプレス（ＰＣＩｅ）要素、及び／又は同類のものを含む。

通信インターフェイス６１０は、有線及び／又はワイヤレス通信を含む、電子通信ネットワークを介してコンピューティング・デバイス６００が他のコンピューティング・デバイスと通信することを可能にする１つ又は複数の受信器、送信器、及び／又は送受信器を含み得る。通信インターフェイス６１０は、いくつかの異なるネットワーク、たとえば、ワイヤレス・ネットワーク（たとえば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）、ブルートゥース（登録商標）ＬＥ、ＺｉｇＢｅｅ（登録商標）など）、有線ネットワーク（たとえば、イーサネット（登録商標）又はＩｎｆｉｎｉＢａｎｄを介して通信する）、低電力ワイド・エリア・ネットワーク（たとえば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）、及び／又はインターネット、のいずれかを介する通信を可能にするための構成要素及び機能性を含み得る。

Ｉ／Ｏポート６１２は、それらのうちのいくつかはコンピューティング・デバイス６００に組み込む（たとえば、統合する）ことができる、Ｉ／Ｏ構成要素６１４、プレゼンテーション構成要素６１８、及び／又は他の構成要素を含む他のデバイスに、コンピューティング・デバイス６００が論理的に結合されることを可能にし得る。例示的Ｉ／Ｏ構成要素６１４は、マイクロフォン、マウス、キーボード、ジョイスティック、ゲーム・パッド、ゲーム・コントローラ、サテライト・ディッシュ、スキャナ、プリンタ、ワイヤレス・デバイスなどを含む。Ｉ／Ｏ構成要素６１４は、ユーザによって生成されるエア・ジェスチャ、音声、又は他の生理的入力を処理するナチュラル・ユーザ・インターフェイス（ＮＵＩ：ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃ）を提供し得る。いくつかの事例において、入力は、さらに処理するために適切なネットワーク要素に送信され得る。ＮＵＩは、音声認識、スタイラス認識、顔認識、生体認識、画面上の及び画面付近両方でのジェスチャの認識、エア・ジェスチャ、頭部及び視標追跡、及びコンピューティング・デバイス６００のディスプレイに関連するタッチ認識（さらに詳しく後述するような）の任意の組合せを実装し得る。コンピューティング・デバイス６００は、ジェスチャ検出及び認識のための深度カメラ、たとえば、ステレオ・カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチスクリーン技術、及びこれらの組合せを含み得る。加えて、コンピューティング・デバイス６００は、動きの検出を可能にする加速度計又はジャイロスコープ（たとえば、慣性測定ユニット（ＩＭＵ：ｉｎｅｒｔｉａｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）の一部としての）を含み得る。いくつかの実例において、加速度計又はジャイロスコープの出力は、没入型拡張現実又は仮想現実をレンダリングするためにコンピューティング・デバイス６００によって使用され得る。

電力供給装置６１６は、ハードワイヤード電力供給装置、バッテリ電力供給装置、又はその組合せを含み得る。電力供給装置６１６は、コンピューティング・デバイス６００の構成要素が動作することを可能にするために、コンピューティング・デバイス６００に電力を提供することができる。

プレゼンテーション構成要素６１８は、ディスプレイ（たとえば、モニタ、タッチスクリーン、テレビジョン画面、ヘッドアップディスプレイ（ＨＵＤ：ｈｅａｄｓ－ｕｐ－ｄｉｓｐｌａｙ）、他のディスプレイ・タイプ、又はその組合せ）、スピーカ、及び／又は他のプレゼンテーション構成要素を含み得る。プレゼンテーション構成要素６１８は、他の構成要素（たとえば、ＧＰＵ６０８、ＣＰＵ６０６など）からデータを受信し、データを出力する（たとえば、画像、ビデオ、サウンドなどとして）ことができる。

例示的データ・センタ
図７は、本開示の少なくとも１つの実施例において使用され得る例示的データ・センタ７００を示す。データ・センタ７００は、データ・センタ・インフラストラクチャ層７１０、フレームワーク層７２０、ソフトウェア層７３０、及び／又はアプリケーション層７４０を含み得る。

図７に示すように、データ・センタ・インフラストラクチャ層７１０は、資源オーケストレータ７１２、グループ化された計算資源７１４、及びノード計算資源（「ノードＣ．Ｒ．」）７１６（１）～７１６（Ｎ）を含むことができ、そこで、「Ｎ」は、任意の完全な、正の整数を表す。少なくとも１つの実施例において、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）は、任意の数の中央処理装置（ＣＰＵ）又は他のプロセッサ（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、グラフィックス・プロセッサ又はグラフィックス・プロセッシング・ユニット（ＧＰＵ）などを含む）、メモリ・デバイス（たとえば、ダイナミック・リードオンリ・メモリ）、記憶デバイス（たとえば、ソリッド・ステート又はディスク・ドライブ）、ネットワーク入力／出力（ＮＷＩ／Ｏ：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（ＶＭ）、電力モジュール、及び／又は冷却モジュールなどを含み得るが、これらに限定されない。いくつかの実施例において、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうちの１つ又は複数のノードＣ．Ｒ．は、前述の計算資源のうちの１つ又は複数を有するサーバに対応し得る。加えて、いくつかの実施例において、ノードＣ．Ｒ．７１６（１）～７１６１（Ｎ）は、１つ又は複数の仮想構成要素、たとえば、ｖＧＰＵ、ｖＣＰＵ、及び／又は同類のもの、を含み得る、及び／又は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうちの１つ又は複数は、仮想機械（ＶＭ）に対応し得る。

少なくとも１つの実施例において、グループ化された計算資源７１４は、１つ又は複数のラック（図示せず）に格納された別個のグループのノードＣ．Ｒ．７１６、或いは様々な地理的場所にあるデータ・センタに格納された多数のラック（やはり図示せず）を含み得る。グループ化された計算資源７１４内のノードＣ．Ｒ．７１６の別個のグループは、１つ又は複数のワークロードをサポートするために構成され得る又は割り当てられ得るグループ化された計算、ネットワーク、メモリ又はストレージ資源を含み得る。少なくとも１つの実施例において、ＣＰＵ、ＧＰＵ、及び／又は他のプロセッサを含むいくつかのノードＣ．Ｒ．７１６は、１つ又は複数のワークロードをサポートするための計算資源を提供するために、１つ又は複数のラック内にグループ化され得る。１つ又は複数のラックはまた、任意の数の電力モジュール、冷却モジュール、及び／又はネットワーク・スイッチを、任意の組合せで、含み得る。

資源オーケストレータ７２２は、１つ又は複数のノードＣ．Ｒ．７１６（１）～７１６（Ｎ）及び／又はグループ化された計算資源７１４を構成又は他の方法で制御することができる。少なくとも１つの実施例において、資源オーケストレータ７２２は、データ・センタ７００のためのソフトウェア設計インフラストラクチャ（ＳＤＩ：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含み得る。資源オーケストレータ７２２は、ハードウェア、ソフトウェア、又はその何らかの組合せを含み得る。

少なくとも１つの実施例において、図７に示すように、フレームワーク層７２０は、ジョブ・スケジューラ７３２、構成マネージャ７３４、資源マネージャ７３６、及び／又は分散型ファイル・システム７３８を含み得る。フレームワーク層７２０は、ソフトウェア層７３０のソフトウェア７３２及び／又はアプリケーション層７４０の１つ若しくは複数のアプリケーション７４２をサポートするために、フレームワークを含み得る。ソフトウェア７３２又はアプリケーション７４２は、ウェブベースのサービス・ソフトウェア又はアプリケーション、たとえば、アマゾン・ウェブ・サービス、グーグル・クラウド及びＭｉｃｒｏｓｏｆｔＡｚｕｒｅによって提供されるもの、をそれぞれ含み得る。フレームワーク層７２０は、大規模データ処理（たとえば、「ビッグ・データ」）のための分散型ファイル・システム７３８を使用し得るＡｐａｃｈｅＳｐａｒｋ（商標）（以下「Ｓｐａｒｋ」）などのフリー及びオープン・ソース・ソフトウェア・ウェブ・アプリケーション・フレームワークのタイプでもよいが、これに限定されない。少なくとも１つの実施例において、ジョブ・スケジューラ７３２は、データ・センタ７００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含み得る。構成マネージャ７３４は、異なる層、たとえば、ソフトウェア層７３０と、大規模データ処理をサポートするためのＳｐａｒｋ及び分散型ファイル・システム７３８を含むフレームワーク層７２０、を構成する能力を有し得る。資源マネージャ７３６は、分散型ファイル・システム７３８及びジョブ・スケジューラ７３２のサポートのためにマップされた又は割り当てられたクラスタ化された又はグループ化された計算資源を管理する能力を有し得る。少なくとも１つの実施例において、クラスタ化された又はグループ化された計算資源は、データ・センタ・インフラストラクチャ層７１０にグループ化された計算資源７１４を含み得る。資源マネージャ１０３６は、資源オーケストレータ７１２と調整してこれらのマップされた又は割り当てられた計算資源を管理することができる。

少なくとも１つの実施例において、ソフトウェア層７３０に含まれるソフトウェア７３２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）の少なくとも部分、グループ化された計算資源７１４、及び／又はフレームワーク層７２０の分散型ファイル・システム７３８によって使用されるソフトウェアを含み得る。１つ又は複数のタイプのソフトウェアは、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアを含み得るが、これらに限定されない。

少なくとも１つの実施例において、アプリケーション層７４０に含まれるアプリケーション７４２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）の少なくとも部分、グループ化された計算資源７１４、及び／又はフレームワーク層７２０の分散型ファイル・システム７３８によって使用される１つ又は複数のタイプのアプリケーションを含み得る。１つ又は複数のタイプのアプリケーションは、任意の数のゲノミクス・アプリケーション、認知計算、並びに、トレーニング若しくは推論ソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）、及び／又は１つ又は複数の実施例と併せて使用される他の機械学習アプリケーションを含む、機械学習アプリケーションを含み得るが、これらに限定されない。

少なくとも１つの実施例において、構成マネージャ７３４、資源マネージャ７３６、及び資源オーケストレータ７１２のうちのいずれかは、任意の技術的に可能な方式で取得される任意の量及びタイプのデータに基づいて任意の数及びタイプの自己書換え型アクションを実装することができる。自己書換え型アクションは、よくない可能性のある構成決定を行うこと及びデータ・センタの十分に活用されていない及び／又は実行の不十分な部分をおそらく回避することからデータ・センタ７００のデータ・センタ・オペレータを解放し得る。

データ・センタ７００は、１つ又は複数の機械学習モデルをトレーニングする或いは本明細書に記載の１つ又は複数の実施例による１つ又は複数の機械学習モデルを使用して情報を予測する又は推論するために、ツール、サービス、ソフトウェア或いは他の資源を含み得る。たとえば、機械学習モデルは、データ・センタ７００に関して前述されたソフトウェア及び／又は計算資源を使用するニューラル・ネットワーク・アーキテクチャによる重量パラメータの計算によって、トレーニングされ得る。少なくとも１つの実施例において、１つ又は複数のニューラル・ネットワークに対応するトレーニングされた又は配備された機械学習モデルは、たとえば、本明細書に記載のものに限定されない、１つ又は複数のトレーニング技法を介して計算された重量パラメータを使用することによって、データ・センタ７００に関して前述された資源を使用する情報の推論又は予測のために使用され得る。

少なくとも１つの実施例において、データ・センタ７００は、前述の資源を使用するトレーニング及び／又は推論の実行のために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、及び／又は他のハードウェア（若しくはそれに対応する仮想計算資源）を使用することができる。さらに、前述の１つ又は複数のソフトウェア及び／又はハードウェア資源は、情報の推論をユーザがトレーニング又は実行することを可能にするためのサービス、たとえば、画像認識、音声認識、又は他の人工知能サービス、として構成され得る。

例示的ネットワーク環境
本開示の実施例の実装において使用するのに適したネットワーク環境は、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク接続型ストレージ（ＮＡＳ：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ）、他のバックエンド・デバイス、及び／又は他のデバイス・タイプを含み得る。クライアント・デバイス、サーバ、及び／又は他のデバイス・タイプ（たとえば、各デバイス）は、図６のコンピューティング・デバイス６００の１つ又は複数のインスタンスで実装され得る－たとえば、各デバイスは、コンピューティング・デバイス６００の類似の構成要素、特徴、及び／又は機能性を含み得る。加えて、バックエンド・デバイス（たとえば、サーバ、ＮＡＳなど）が、実装される場合、バックエンド・デバイスは、データ・センタ７００の一部として含まれ得、その実例は、図７に関して本明細書でさらに詳述される。

ネットワーク環境の構成要素は、有線、ワイヤレス、又はその両方でもよい、ネットワークを介して互いに通信し得る。ネットワークは、複数のネットワーク、又はネットワークのネットワークを含み得る。実例として、ネットワークは、１つ又は複数のワイド・エリア・ネットワーク（ＷＡＮ）、１つ又は複数のローカル・エリア・ネットワーク（ＬＡＮ）、１つ又は複数のパブリック・ネットワーク、たとえば、インターネット及び／又は公衆交換電話網（ＰＳＴＮ）、及び／又は１つ又は複数のプライベート・ネットワークを含み得る。ネットワークが、ワイヤレス電気通信ネットワークを含む場合、構成要素、たとえば、基地局、通信塔、又はアクセス・ポイントなどさえも（他の構成要素と同様に）、ワイヤレス接続を提供し得る。

互換性のあるネットワーク環境は、１つ又は複数のピア・ツー・ピア・ネットワーク環境－サーバがネットワーク環境に含まれないことがある場合－と、１つ又は複数のクライアント・サーバ・ネットワーク環境－１つ又は複数のサーバがネットワーク環境に含まれ得る場合－とを含み得る。ピア・ツー・ピア・ネットワーク環境では、サーバに関して本明細書に記載した機能性は、任意の数のクライアント・デバイスに実装され得る。

少なくとも１つの実施例において、ネットワーク環境は、１つ又は複数のクラウドベースのネットワーク環境、分散された計算環境、その組合せなどを含み得る。クラウドベースのネットワーク環境は、フレームワーク層、ジョブ・スケジューラ、資源マネージャ、並びに、１つ又は複数のコア・ネットワーク・サーバ及び／又はエッジ・サーバを含み得る、サーバのうちの１つ又は複数に実装された分散型ファイル・システムを含み得る。フレームワーク層は、ソフトウェア層のソフトウェア及び／又はアプリケーション層の１つ又は複数のアプリケーションをサポートするために、フレームワークを含み得る。ソフトウェア又はアプリケーションは、それぞれ、ウェブベースのサービス・ソフトウェア又はアプリケーションを含み得る。実施例において、クライアント・デバイスのうちの１つ又は複数は、ウェブベースのサービス・ソフトウェア又はアプリケーションを使用し得る（たとえば、１つ又は複数のアプリケーション・プログラミング・インターフェイス（ＡＰＩ：ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）を介してサービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）。フレームワーク層は、たとえば大規模データ処理（たとえば、「ビッグ・データ」）のための分散型ファイル・システムを使用し得る、フリー及びオープン・ソース・ソフトウェア・ウェブ・アプリケーション・フレームワークのタイプでもよいが、これに限定されない。

クラウドベースのネットワーク環境は、本明細書に記載の計算及び／又はデータ・ストレージ機能（又は１つ若しくは複数のその部分）の任意の組合せを実施するクラウド計算及び／又はクラウド・ストレージを提供し得る。これらの様々な機能のいずれも、セントラル又はコア・サーバ（たとえば、州、領域、国、世界に分散され得る１つ又は複数のデータ・センタなどの）から複数の場所に分散され得る。ユーザ（たとえば、クライアント・デバイス）への接続が、エッジ・サーバに比較的近い場合、コア・サーバは、機能性の少なくとも一部分をエッジ・サーバに任じ得る。クラウドベースのネットワーク環境は、プライベート（たとえば、単一の組織に限定される）でもよく、パブリック（たとえば、多数の組織に利用可能）、及び／又はその組合せ（たとえば、ハイブリッド・クラウド環境）でもよい。

クライアント・デバイスは、図６に関して本明細書に記載の例示的コンピューティング・デバイス６００の構成要素、特徴、及び機能性のうちの少なくともいくつかを含み得る。実例として、及び限定ではなく、クライアント・デバイスは、パーソナル・コンピュータ（ＰＣ）、ラップトップ・コンピュータ、モバイル・デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、ウェアラブル・コンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＭＰ３プレーヤ、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ）又はデバイス、ビデオプレーヤ、ビデオカメラ、監視デバイス又はシステム、車両、船、飛行船、仮想機械、ドローン、ロボット、ハンドヘルド通信デバイス、病院デバイス、ゲーミング・デバイス又はシステム、娯楽システム、車両コンピュータ・システム、組み込み型システム・コントローラ、リモート制御、器具、民生用電子デバイス、ワークステーション、エッジ・デバイス、これらの描写されたデバイスの任意の組合せ、或いは任意の他の適切なデバイスとして実施され得る。

本開示は、コンピュータ又は他の機械、たとえば、パーソナル・データ・アシスタント又は他のハンドヘルド・デバイス、によって実行されている、プログラム・モジュールなどのコンピュータ実行可能命令を含む、コンピュータ・コード又は機械使用可能命令との一般的関連において説明され得る。一般に、ルーティン、プログラム、オブジェクト、構成要素、データ構造などを含む、プログラム・モジュールは、特定のタスクを実行する又は特定の抽象データ・タイプを実装するコードを指す。本開示は、ハンドヘルド・デバイス、民生用電子機器、汎用コンピュータ、より専門的コンピューティング・デバイスなどを含む、様々なシステム構成において実施され得る。本開示はまた、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される、分散型計算環境において実施され得る。

本明細書では、２つ以上の要素に関する「及び／又は」の記述は、１つのみの要素、又は要素の組合せを意味すると解釈されるべきである。たとえば、「要素Ａ、要素Ｂ、及び／又は要素Ｃ」は、要素Ａのみ、要素Ｂのみ、要素Ｃのみ、要素Ａ及び要素Ｂ、要素Ａ及び要素Ｃ、要素Ｂ及び要素Ｃ、或いは要素Ａ、Ｂ、及びＣを含み得る。加えて、「要素Ａ又は要素Ｂのうちの少なくとも１つ」は、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、或いは要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つを含み得る。さらに、「要素Ａ及び要素Ｂのうちの少なくとも１つ」は、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、或いは要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つを含み得る。

本開示の主題は、法的要件を満たすために、本明細書に記載の特異性を有して説明されている。しかしながら、その説明自体は、本開示の範囲を限定することを意図していない。そうではなくて、本発明者により、他の現在又は未来の技術と併せて、本文書に記載されているものと類似の異なるステップ又はステップの組合せを含むために、本請求の主題は他のやり方でも実施され得ることが企図されている。さらに、「ステップ」及び／又は「ブロック」という用語が、用いられる方法の異なる要素を含意するために、本明細書で使用され得るが、それらの用語は、個々のステップの順番が明示的に記載されていない限り及びそのように記載されているときを除いて、本明細書に記載の様々なステップの間の任意の特定の順番を暗示するものとして解釈されるべきではない。

Claims

ユーザのクライアント・デバイスを使用して実行されるアプリケーションのインスタンスのユーザ・インターフェイス内で、前記ユーザの表現及び前記アプリケーションのアプリケーション・セッションの１人又は複数の参加者に対応する１つ又は複数の参加者表現を表示させることと、
前記１つ又は複数の参加者表現のうちの少なくとも１つの参加者表現の操作に対応する１つ又は複数の入力を表す入力データを受信することと、
前記１つ又は複数の入力に応答して、前記少なくとも１つの参加者表現に関連付けられた少なくとも１人の参加者に対応する更新された音声設定を決定することと、
前記少なくとも１人の参加者に対応する前記アプリケーション・セッションから音声データの少なくとも一部分を識別することと、
前記更新された音声設定を前記音声データの少なくとも前記部分に適用することと
を含む、方法。
前記少なくとも１つの参加者表現の操作に対応する前記１つ又は複数の入力が、前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現の位置に対して前記少なくとも１つの参加者表現を再配置することに対応する、請求項１に記載の方法。
前記更新された音声設定が、前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現の位置に関して前記少なくとも１つの参加者表現が再配置されるときに、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項２に記載の方法。
前記音量レベルを調節することが、
前記少なくとも１つの参加者表現が、前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現の位置のより近くに再配置されるときに、前記音量レベルを上げること、又は
前記少なくとも１つの参加者表現が、前記ユーザ・インターフェイス内の前記ユーザ表現の位置からさらに遠くに再配置されるときに、前記音量レベルを下げること
のうちの少なくとも１つを含む、請求項３に記載の方法。
前記少なくとも１つの参加者表現の操作に対応する前記１つ又は複数の入力が、前記少なくとも１つの参加者表現のサイズを調節することに対応する、請求項１に記載の方法。
前記更新された音声設定が、前記ユーザ・インターフェイスを使用して表されるように前記少なくとも１つの参加者表現のサイズが調節されるときに、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項５に記載の方法。
音量レベルを前記調節することが、
前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現のサイズに対して前記少なくとも１つの参加者アイコンの前記サイズが大きくされるときに、前記音量レベルを上げること、又は、
前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現のサイズに対して前記少なくとも１つの参加者アイコンの前記サイズが小さくされるときに、前記音量レベルを下げること
のうちの少なくとも１つを含む、請求項６に記載の方法。
前記アプリケーションが、会議アプリケーション、ゲーム・ストリーミング・アプリケーション、コンテンツ・ストリーミング・アプリケーション、又は電話サービス・アプリケーションのうちの少なくとも１つに対応する、請求項１に記載の方法。
前記少なくとも１人の参加者が前記ユーザに関与しているという指示を表すデータを受信することと、
前記少なくとも１人の参加者が前記ユーザに関与していることに少なくとも部分的に基づいて、新しく更新された音声設定に前記更新された音声設定を調節することと
をさらに含む、請求項１に記載の方法。
前記ユーザの前記表現に関する場所或いは前記１つ又は複数の参加者表現のうちの少なくとも１つの参加者表現の前記ユーザ・インターフェイス内のサイズのうちの少なくとも１つが、１つ又は複数の過去のアプリケーション・セッションから前記１つ又は複数の参加者アイコン表現への過去の操作に少なくとも部分的に基づいて、初期化される、請求項１に記載の方法。
前記アプリケーション・セッション内の前記ユーザに対応する表現を操作する前記参加者のうちの少なくとも１人を表すデータを受信することと、
前記ユーザに対応する前記表現を前記操作することの指示の、前記ユーザ・インターフェイス内での、表示を引き起こすことと
をさらに含む、請求項１に記載の方法。
ユーザに対応するユーザの表現及びアプリケーション・セッションの１人又は複数の参加者に対応する１つ又は複数の参加者表現の、アプリケーションのユーザ・インターフェイス内での、表示を引き起こすこと、
前記ユーザ・インターフェイスへの１つ又は複数の入力であり、前記１つ又は複数の参加者表現のうちの少なくとも１つの参加者表現の操作に対応する前記１つ又は複数の入力を表す入力データを受信すること、
前記１つ又は複数の入力に応答して、前記少なくとも１つの参加者表現に関連付けられた少なくとも１人の参加者に対応する受信された音声データの少なくとも一部分に関連付けられた音量レベルを調節することに少なくとも部分的に基づいて、更新された音声データを生成すること、及び、
前記更新された音声データの出力を引き起こすこと
を行うための１つ又は複数の回路
を備える、プロセッサ。
前記１つ又は複数の入力が、前記ユーザ・インターフェイスを使用して表されるような前記ユーザの前記表現に関して前記少なくとも１つの参加者表現を再配置することに対応する、請求項１２に記載のプロセッサ。
音量レベルを前記調節することが、前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザ表現の位置に関して前記少なくとも１つの参加者表現が再配置されるときに、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項１３に記載のプロセッサ。
前記音量レベルを調節することが、
前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザの前記表現のさらに近くに前記参加者表現が再配置されるときに、前記音量レベルを上げること、又は
前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザの前記表現からさらに遠くに前記参加者表現が再配置されるときに、前記音量レベルを上げること
のうちの少なくとも１つを含む、請求項１４に記載のプロセッサ。
前記１つ又は複数の入力が、前記ユーザ・インターフェイスを使用して表されるものとしての前記少なくとも１つの参加者表現のサイズを調節することに対応する、請求項１２に記載のプロセッサ。
音量レベルを前記調節することが、前記ユーザ・インターフェイスを使用して表されるように前記少なくとも１つの参加者表現のサイズが調節されるときに、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項１６に記載のプロセッサ。
音量レベルを前記調節することが、
前記参加者表現のサイズが、前記ユーザ・インターフェイスを使用して表されるように大きくされるときに、前記音量レベルを上げること、又は、
前記参加者表現のサイズが、前記ユーザ・インターフェイスを使用して表されるように小さくされるときに、前記音量レベルを下げること
のうちの少なくとも１つを含む、請求項１７に記載のプロセッサ。
深層学習動作を実行するためのシステム、
エッジ・デバイスを使用して実装されたシステム、
１つ又は複数の仮想機械（ＶＭ）を組み込むシステム、
少なくとも部分的にデータ・センタにおいて実装されたシステム、或いは、
少なくとも部分的にクラウド計算資源を使用して実装されたシステム
のうちの少なくとも１つに含まれる、請求項１２に記載のプロセッサ。
システムであって、
１つ又は複数のプロセッシング・ユニットと、
命令を記憶するための１つ又は複数のメモリ・ユニットであって、前記命令は、前記１つ又は複数のプロセッシング・ユニットによって実行されるとき、
ユーザのクライアント・デバイスでアプリケーションのインスタンスを開始すること、
前記アプリケーションのアプリケーション・セッションの１人又は複数の参加者に対応する前記ユーザに対応する前記ユーザの表現及び１つ又は複数の参加者表現の、前記アプリケーションの前記インスタンスのユーザ・インターフェイス内での、表示を引き起こすこと、
前記１つ又は複数の参加者表現のうちの少なくとも１つの参加者表現を操作する１つ又は複数の入力を表す入力データを受信すること、
前記少なくとも１つの参加者表現に関連付けられた少なくとも１人の参加者に対応する更新された音声設定を、前記１つ又は複数の入力に応答して、決定すること、
前記参加者に対応する前記アプリケーション・セッションからの音声データの少なくとも一部分を識別すること、及び、
前記更新された音声設定を前記音声データの少なくとも前記部分に適用すること
を含む動作を、前記１つ又は複数のプロセッシング・ユニットに実行させる、１つ又は複数のメモリ・ユニットと
を備える、システム。
前記少なくとも１つの参加者表現を操作する前記１つ又は複数の入力が、前記ユーザ・インターフェイスを使用して表されるものとしての前記ユーザの前記表現に関して前記少なくとも１つの参加者表現を再配置することに対応する、請求項２０に記載のシステム。
前記更新された音声設定が、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項２１に記載のシステム。
前記前記少なくとも１人の参加者に対応する音量レベルを前記調節することが、
前記少なくとも１つの参加者表現が、前記ユーザ・インターフェイス内の前記ユーザの前記表現のより近くに再配置されるときに、前記音量レベルを上げること、又は
前記少なくとも１つの参加者表現が、前記ユーザ・インターフェイス内の前記ユーザの前記表現からさらに遠くに再配置されるときに、前記音量レベルを下げること
のうちの少なくとも１つを含む、請求項２２に記載のシステム。
前記少なくとも１つの参加者表現を操作する前記１つ又は複数の入力が、前記少なくとも１つの参加者表現のサイズを調節することに対応する、請求項２０に記載のシステム。
前記更新された音声設定が、前記少なくとも１人の参加者に対応する音量レベルを調節することを含む、請求項２４に記載のシステム。
音量レベルを前記調節することが、
前記少なくとも１つの参加者表現が前記ユーザ・インターフェイス内でサイズを大きくされるときに、前記音量レベルを上げること、又は
前記少なくとも１つの参加者表現が前記ユーザ・インターフェイス内でサイズを小さくされるときに、前記音量レベルを下げること
のうちの少なくとも１つを含む、請求項２５に記載のシステム。
深層学習動作を実行するためのシステム、
エッジ・デバイスを使用して実装されたシステム、
１つ又は複数の仮想機械（ＶＭ）を組み込むシステム、
少なくとも部分的にデータ・センタにおいて実装されたシステム、或いは、
少なくとも部分的にクラウド計算資源を使用して実装されたシステム
のうちの少なくとも１つに含まれる、請求項２０に記載のシステム。