JP2022546081A

JP2022546081A - パーソナルデバイスによって支援されるｔｖストリーミング及びレンダリングコンテンツの中心窩最適化

Info

Publication number: JP2022546081A
Application number: JP2022513488A
Authority: JP
Inventors: アール．スタフォード、ジェフリー; 裕横川
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-08-29
Filing date: 2020-08-26
Publication date: 2022-11-02
Anticipated expiration: 2040-08-26
Also published as: WO2021041538A2; EP4022381A2; US20210064904A1; CN114556188A; WO2021041538A3; EP4022381A4; US11106929B2; JP7339435B2

Abstract

【課題】携帯電話等のモバイルデバイス（２１０）が、ＴＶ等のディスプレイデバイス（１２）上のカメラによって提供されるよりも近い範囲で、視標追跡のために近くのユーザを画像化し（４０６）、ディスプレイ上に提示されているビデオをストリーミングするサーバ（５２）に視標追跡データを送信する（４１２）のに使用される。【解決手段】視標追跡データがサーバによって使用されて（５０２）、ビデオ内の関心領域（ＲＯＩ）が特定される。このＲＯＩは、ユーザが見ている画像内のＲＯＩの品質を維持しながらもビデオゲーム画像の効率的な圧縮を促進するために、ＲＯＩ外の領域よりも高度に圧縮される（５０４）。【選択図】図１

Description

本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。

本明細書で認められるように、コンピュータゲーム等のコンピュータシミュレーションをストリーミングするためのサービスには、ユーザのインターネットサービスプロバイダ（ＩＳＰ）、及びＷｉ－Ｆｉ（登録商標）等のローカルネットワークによって通常課せられる厳しい帯域幅制限内で、リモートサーバからホームコンソールデバイスに発信されるビデオゲームからの高解像度画像（１０８０ｐ、４ｋ、８Ｋ等）を圧縮、転送、及び復元することが要求されている。高解像度ビデオでも帯域幅要件を削減するために新しいビデオ圧縮コーデックが開発されているが、その効率には限界がある。

現在のところ、上記のコンピュータ関連の技術的問題に対する適切な解決策はない。

本明細書で理解されるように、ユーザがＴＶでストリーミングゲームをプレイするときにどこを見ているかを正確に知ることは、関心領域（ＲＯＩ）内に基づいた圧縮を比較的低圧縮にする（または非圧縮にする）よう調節するとともに、ＲＯＩ外の領域の圧縮を比較的高圧縮にし、したがって画像を高度に圧縮してそのデータサイズを減らすよう調節することにより、ビデオ圧縮コーデックの効率向上に役立つことになる。これを実現するには、ユーザの注視を追跡することが必要である。しかし、本明細書でやはり理解されるように、ＴＶ搭載のカメラシステム、またはＴＶの近くにあるカメラシステムは、ユーザから遠すぎて、ユーザの注視を正確に追跡することはできない。さらに、ＴＶからユーザまでの距離には大きなばらつきがあり、そのため、そのような距離からの注視追跡はより困難になる。

以下の解決策は、ＴＶ等のディスプレイでストリーミングゲームまたは他のビデオコンテンツを再生するユーザにとってのこのような問題に対処するものである。

そのために、システムは、ＴＶディスプレイ等であるがこれに限定されない少なくとも１つのディスプレイと、第１のカメラ及び第２のカメラを備え、ディスプレイとディスプレイを閲覧するユーザとの間に配置可能な少なくとも１つのデバイスと、圧縮されたビデオを送信してディスプレイに提示するように構成された少なくとも１つのサーバとを含む。このデバイスは、第１のカメラを使用して、ＴＶディスプレイの画像を含む第１の画像を生成するために実行可能な命令でプログラムされている。この命令はさらに、第２のカメラを使用して、ユーザの画像を含む第２の画像を生成するために実行可能である。サーバ及び／またはデバイスは、カメラからの画像を使用してＴＶディスプレイでのユーザの注視点（ＰＯＧ）を特定することと、少なくとも部分的にＰＯＧに基づいて、ビデオの関心領域（ＲＯＩ）を特定することと、のために実行可能な命令でプログラムされている。サーバは、ＲＯＩがＲＯＩ外のビデオのエリアよりも高い解像度及び／または高い品質でディスプレイに表示されるように、ビデオを圧縮し、ビデオを送信してＴＶディスプレイに提示する命令でプログラムされている。

実施例では、デバイスは、モバイル通信デバイス、またはタブレットコンピュータ、またはビデオゲームコントローラ、または通常の処方眼鏡を含む。

必要に応じて、サーバは、ビデオの「Ｎ」フレームにおいて、ＰＯＧを使用して特定されたＲＯＩを少なくとも部分的に使用して、それぞれの投機的ＲＯＩを特定することであって、「Ｎ」がゼロより大きい整数である、特定することと、少なくとも部分的にそれぞれの投機的ＲＯＩに基づいてビデオの「Ｎ」フレームを圧縮することと、を行う命令でプログラムされてもよい。

別の態様では、システムは、１つのプロセッサと、一時的な信号ではなく、デバイス上の第１のカメラを使用してユーザを画像化するためにプロセッサによって実行可能な命令を含む、少なくとも１つのコンピュータメモリとを含む。このデバイスは、ＴＶディスプレイ等であるがこれに限定されないディスプレイ上にはない。命令は、デバイス上の第２のカメラを使用してＴＶディスプレイを画像化することと、少なくとも部分的に画像に基づいて、ＴＶディスプレイ上の注視点（ＰＯＧ）を決定することとのために実行可能である。命令はまた、ＰＯＧを少なくとも１つのリモートサーバに送信して、サーバが、少なくとも１つのビデオフレームのＰＯＧに関連する関心領域（ＲＯＩ）を使用するのを促進することのために実行可能である。ビデオフレームはまた、ＲＯＩ外の少なくとも１つのエリアを含み、サーバが第１の圧縮を使用してＲＯＩを圧縮し、第２の圧縮を使用してＲＯＩ外のエリアを圧縮できるようにする。

特定のゲーム画面のどこにＰＯＧが存在したかについての履歴アカウントをデータベースに保存することができる。データベース内の情報を機械学習アルゴリズムに入力して、予測されるＲＯＩとの相関関係を学習させることができる。

別の態様では、方法は、モバイルデバイスを使用して、ＴＶディスプレイ等であるがこれに限定されないディスプレイを閲覧するユーザの画像を生成することを含む。本方法はまた、モバイルデバイスを使用して、ディスプレイの画像を生成することと、画像を使用して、ユーザが見ているＴＶディスプレイ上の位置を特定することと、を含む。本方法は、ワイドエリアネットワークを介して、少なくとも１つのサーバに、位置を送信することを含む。

本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。

本原理と一致するシステム例のブロック図である。本原理と一致するシステム例を示す概略図である。本原理と一致する全体的なロジックの例のフローチャートである。本原理と一致するモバイルデバイスロジックの例のフローチャートである。本原理と一致するサーバロジックの例のフローチャートである。本原理と一致する代替のコントローラベースのシステムの概略図である。本原理と一致する代替の眼鏡ベースのシステムの概略図である。本原理を示す概略図である。さらなる原理を示すロジックの例のフローチャートである。代替の単一カメラの実施形態の概略図である。

本開示は、一般に、家電（ＣＥ）デバイスを含み得るコンピュータネットワークの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを備え得る。クライアントコンポーネントは、ポータブルＴＶ（例えば、スマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び後述される追加例を含む他のモバイルデバイスを含む、１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、またはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標）ＣｏｍｐｕｔｅｒもしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境は、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作られたブラウザ、または後述されるインターネットサーバによってホストされたウェブサイトにアクセスすることができる他のブラウザプログラム等、１つ以上の閲覧プログラムを実行するために用いられ得る。

サーバ及び／またはゲートウェイは、インターネット等のネットワークを介してデータの受信及び送信を行うようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲームコンソール、パーソナルコンピュータ等によってインスタンス化され得る。

クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的のために及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。

本明細書で使用するとき、命令は、システム内の情報を処理するためのコンピュータ実施ステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。

プロセッサは、アドレス線、データ線、及び制御線等の各種の線、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、従来の任意の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。

本明細書でフローチャート及びユーザインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定されたロジックは、他のソフトウェアモジュールに再分配すること、及び／または単一のモジュールにまとめて集約すること、及び／または共有可能ライブラリで利用できるようにすることが可能である。フローチャート形式を用いることができるが、ソフトウェアは状態機械ステートマシンまたは他の論理的方法として実装される場合があることを理解されたい。

本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明されている。

さらに、上記言及されたものについて、以下で説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは本明細書で説明される機能を実行するよう設計された特定用途向け集積回路（ＡＳＩＣ）、離散ゲートもしくはトランジスタロジック、離散ハードウェアコンポーネント、またはそれらのいずれかの組み合わせ等の他のプログラマブルロジックデバイスにより実装または実行されてもよい。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装されてもよい。

以下に記載されている機能及び方法は、ソフトウェアで実装される場合、限定されるものではないが、Ｃ＃またはＣ＋＋等の適切な言語で記述することができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）またはデジタル多用途ディスク（ＤＶＤ）等の他の光ディスクストレージ、磁気ディスクストレージまたはリムーバブルサムドライブ等を含む他の磁気記憶デバイス等のコンピュータ可読記憶媒体に格納し、またはそのコンピュータ可読記憶媒体を介して伝送することができる。接続によりコンピュータ可読媒体が確立され得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線（ＤＳＬ）、及びツイストペアワイヤを含む有線ケーブルを含み得る。

ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明され及び／または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。

「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａを単独で、Ｂを単独で、Ｃを単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、及び／またはＡ、Ｂ、及びＣを一緒に有するシステム等を含む。

ここで具体的に図１を参照すると、例示的なシステム１０が示されており、このシステムは、本原理による、上で述べられかつ以下に詳述される、例示的なデバイスの１つ以上を含むことができる。本明細書の全ての図で説明されるコンピュータ化されたデバイスは、図１の様々なデバイスについて規定されたコンポーネントの一部または全てを含むことができることに留意されたい。

システム１０に含まれる例示的なデバイスのうちの第１のデバイスは、例示的な主ディスプレイデバイスとして構成された家電（ＣＥ）デバイスであり、図示の実施形態では、ＴＶチューナ（等価的には、ＴＶを制御するセットトップボックス）を備えたインターネット対応ＴＶ等のこれに限定されないオーディオビデオディスプレイデバイス（ＡＶＤＤ）１２である。ＡＶＤＤ１２は、Ａｎｄｒｏｉｄ（登録商標）ベースのシステムであってもよい。あるいは、ＡＶＤＤ１２はまた、コンピュータ制御型インターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型インターネット対応のインプラント可能なデバイス等であってよい。いずれにしても、ＡＶＤＤ１２及び／または本明細書に記載された他のコンピュータは、本原理を実施する（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ように構成されることを理解されたい。

したがって、このような原理を実施するために、ＡＶＤＤ１２は、図１に示すコンポーネントの一部または全てによって確立され得る。例えば、ＡＶＤＤ１２は、高解像度フラットスクリーンまたは「４Ｋ」以上の超高解像度フラットスクリーンによって実装してもよく、ユーザ入力信号をディスプレイ上のタッチを介して受け取るためのタッチ対応であってもよいしそうでなくてもよい、１つ以上のディスプレイ１４を含むことが可能である。ＡＶＤＤ１２はまた、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６と、例えば、可聴コマンドをＡＶＤＤ１２に入力して、ＡＶＤＤ１２を制御するための、例えば、オーディオ受信機／マイクロフォン等の少なくとも１つの追加の入力デバイス１８とを備え得る。例示のＡＶＤＤ１２は、１つ以上のプロセッサ２４の制御下で、インターネット、ＷＡＮ、ＬＡＮ、ＰＡＮ等の少なくとも１つのネットワーク２２を介して通信するための１つ以上のネットワークインタフェース２０をさらに含み得る。したがって、インタフェース２０は、限定ではないが、Ｗｉ－Ｆｉ送受信機であり得、Ｗｉ－Ｆｉ送受信機は、限定するものではないが、メッシュネットワーク送受信機等の無線コンピュータネットワークインタフェースの実施例である。インタフェース２０は、限定ではないが、ブルートゥース（登録商標）送受信機、Ｚｉｇｂｅｅ（登録商標）送受信機、ＩｒＤＡ送受信機、無線ＵＳＢ送受信機、有線ＵＳＢ、有線ＬＡＮ、ＰｏｗｅｒｌｉｎｅまたはＭｏＣＡであり得る。プロセッサ２４は、例えば、ディスプレイ１４を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明されるＡＶＤＤ１２の他の要素を含む、本原理を実施するようにＡＶＤＤ１２を制御することが理解されよう。さらに、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ送受信機等の他の適切なインタフェースであってよいことに留意されたい。

上記のものに加えて、ＡＶＤＤ１２はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続する高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通してＡＶＤＤ１２からユーザにオーディオを提供するためにＡＶＤＤ１２にヘッドフォンを接続するヘッドフォンポート等の１つまたは複数の入力ポート２６を備えてよい。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルまたは衛星ソース２６ａに有線でまたは無線で接続されてよい。従って、ソース２６ａは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース２６ａは、ゲームコンソールまたはディスクプレイヤであり得る。

ＡＶＤＤ１２は、ディスクベースまたはソリッドステート記憶装置等の１つ以上のコンピュータメモリ２８であって、一時的信号でなく、場合により、スタンドアロンデバイスとしてＡＶＤＤのシャーシに具現化され、またはＡＶＤＤのシャーシの内部もしくは外部のいずれかでＡＶプログラムを再生するためのパーソナルビデオレコーディングデバイス（ＰＶＲ）もしくはビデオディスクプレイヤとして具現化され、またはリムーバブルメモリ媒体として具現化されるコンピュータメモリ２８をさらに含んでもよい。また、いくつかの実施形態では、ＡＶＤＤ１２は、限定されるものではないが、例えば、少なくとも１つの衛星または携帯電話塔から地理的位置情報を受信し、その情報をプロセッサ２４に提供するように構成され、及び／またはＡＶＤＤ１２がプロセッサ２４と併せて配置される高度を判定するように構成される携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置または場所の受信機を含み得る。しかしながら、携帯電話受信機、ＧＰＳ受信機、及び／または高度計以外の別の好適な位置受信機を本原理に従って使用して、例えば、ＡＶＤＤ１２の位置を例えば３つの次元全てにおいて決定できることを理解されたい。

ＡＶＤＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤＤ１２は、例えば、熱探知カメラ、ウェブカメラ等のデジタルカメラ、及び／またはＡＶＤＤ１２に組み込まれ、本原理に従って写真／画像及び／またはビデオを収集するようプロセッサ２４によって制御可能なカメラであってもよい１つ以上のカメラ３２を含み得る。ＡＶＤＤ１２にはまた、ブルートゥース及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用した他のデバイスとの通信のためのブルートゥース送受信機３４及び他のＮＦＣ素子３６が含まれ得る。例示のＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であってもよい。

さらにまた、ＡＶＤＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３８（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、リモートコントロールからのＩＲコマンドを受信するための赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ）等）を含み得る。ＡＶＤＤ１２は、プロセッサ２４への入力をもたらすＯＴＡ（無線経由）ＴＶ放送を受信するための無線経由ＴＶ放送ポート４０を含み得る。前述に加えて、ＡＶＤＤ１２はまた、赤外線データ協会（ＩＲＤＡ）デバイス等の赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２を含み得ることに留意されたい。ＡＶＤＤ１２に給電するためのバッテリ（図示せず）が備えられてよい。

依然としてさらに、いくつかの実施形態では、ＡＶＤＤ１２は、グラフィックスプロセシングユニット（ＧＰＵ）４４及び／またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）４６を含み得る。ＧＰＵ及び／またはＦＰＧＡは、例えば、本原理に従って、ニューラルネットワークを訓練し、ニューラルネットワークの演算（例えば、推論）を実行する等の人工知能処理のために、ＡＶＤＤ１２によって利用されてもよい。しかしながら、プロセッサ２４が中央処理装置（ＣＰＵ）であり得る等の場合には、プロセッサ２４を人工知能処理に使用できることにも留意されたい。

さらに図１を参照すると、システム１０は、ＡＶＤＤ１２に加えて、ＡＶＤＤ１２について示したコンポーネントの一部または全部を含むことができる１つ以上の他のコンピュータデバイスタイプを含んでもよい。一実施例では、第１のデバイス４８及び第２のデバイス５０を示しており、これらはＡＶＤＤ１２のコンポーネントの一部または全部と同様のコンポーネントを含むことができる。図示したものより少ないデバイスまたは多いデバイスを使用してもよい。第１のデバイス４８は、例えば、ユーザを画像化できる携帯電話、ユーザを画像化できる眼鏡等を含む、後述するデバイスのいずれかを実装してもよい。第２のデバイス５０は、例えば、コンピュータシミュレーション用のコントローラまたはコンソールを含む、後述するデバイスのいずれかを実装してもよく、その例には、コンピュータゲーム用のコントローラ及びコンソールが含まれる。

システム１０はまた、１つ以上のサーバ５２を含み得る。サーバ５２は、少なくとも１つのサーバプロセッサ５４と、ディスクベースまたはソリッドステート記憶装置等の少なくとも１つのコンピュータメモリ５６と、サーバプロセッサ５４の制御下で、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバ、コントローラ、及びクライアントデバイス間の通信を促進し得る少なくとも１つのネットワークインタフェース５８とを含み得る。ネットワークインタフェース５８は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ（登録商標）送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。

したがって、いくつかの実施形態では、サーバ５２は、インターネットサーバであってもよく、システム１０のデバイスが、例示的な実施形態においてサーバ５２を介して「クラウド」環境にアクセスできるような「クラウド」機能を含み、この「クラウド」機能を実行することができる。あるいは、サーバ５２は、図１に示す他のデバイスと同じ部屋かまたはその近くにあるゲームコンソールまたは他のコンピュータによって実装されてもよい。

以下に説明するデバイスは、上記の要素の一部または全てを組み込むことができる。

本明細書で説明される方法は、プロセッサ、適切に構成される特定用途向け集積回路（ＡＳＩＣ）もしくはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）モジュール、または当業者によって認識されるであろうようないずれかの他の便利な様式によって実行されるソフトウェア命令として実施され得る。使用される場合、ソフトウェア命令は、ＣＤＲＯＭまたはフラッシュドライブ等の非一時的デバイスにおいて具体化され得る。あるいはソフトウェアコード命令は、無線信号もしくは光信号等の一時的な配置において、またはインターネット上でのダウンロードによって、代替的に具体化することができる。

図２は、ユーザ２００がＴＶ等のディスプレイ２０４を閲覧するシステムを示す。より具体的には、ユーザ２００は、表示領域全体に焦点を合わせることができず、本明細書で関心領域（ＲＯＩ）と呼ばれる、その表示領域の一部２０３に焦点を合わせるものとする。

ユーザ２００は、ディスプレイ２０４上に提示されているビデオゲーム等のコンピュータシミュレーションを制御するために、ビデオゲームコントローラの例であるコンピュータシミュレーションコントローラ２０２を使用することができる。「ビデオゲームコントローラ」及び「ビデオゲーム」という用語の使用は、例示のためにすぎず、一般性の喪失を意味するものではないことを理解されたい。ビデオゲームは、ディスプレイ２０４によって直接、またはビデオゲームコンソール２０８を介してのいずれかによって、インターネット等のワイドエリアネットワークを通じてリモートサーバ２０６から受信され得る。本原理は、ビデオゲームに加えて、またはビデオゲームの代わりに、サーバから受信されたビデオにも適用される。開示目的のために、ビデオゲームが例として用いられることにする。

携帯電話またはタブレットコンピュータ等のモバイルデバイス２１０は、少なくとも１つ、図示のように好ましくは前面カメラ及び背面カメラ２１２、２１４を含む。モバイルデバイス２１０は、前面カメラ２１２がディスプレイ２０４に向いてその画像を取得し、背面カメラがユーザ２００に向いて視標追跡のためにユーザの眼を画像化するように向けられ得る。典型的には、モバイルデバイス２１０は、位置受信機２１６をも含む。モバイルデバイス２１０は、じきに開示されることになる目的のために、サーバ２０６と通信することができる。モバイルデバイス２１０、サーバ２０６、ディスプレイ２０４、コンソール２０８、及びコントローラ２０２は、必要に応じて、図１に示した様々なデバイスの電子的コンポーネントの一部または全てを含むことができることに留意されたい。

次に図３を参照すると、サーバ２０６内のプロセッサと協働するモバイルデバイス２１０内のプロセッサ等の１つ以上のプロセッサによって実行され得る全体ロジックが示されている。ブロック３００で開始すると、ユーザの眼の画像が、視標追跡情報として、モバイルデバイス２１０の背面カメラ２１４から受信される。ブロック３０２に移行して、視標追跡情報に基づいてＲＯＩ２０３の位置が決定される。この位置がサーバ２０６に提供され、サーバ２０６は、ブロック３０４において、ＲＯＩの外側に提示されることになるビデオ領域を、ＲＯＩの内側に提示されることになるビデオ領域よりも高度に圧縮する。言い換えれば、ＲＯＩ内のビデオの解像度及び／または画質は、ＲＯＩ外のビデオの解像度及び／または画質よりも高い。異なって圧縮されたビデオは、ブロック３０６で、デコード（ＲＯＩの復元とＲＯＩ外のビデオエリアの復元とを含む）とディスプレイ２０４上への提示とのために送信される。

このようにして、モバイルデバイス２１０の顔及び注視の追跡機能を用いることにより、モバイルデバイス２１０で動作するアプリケーションは、ディスプレイ２０４からよりも近い距離でユーザの注視を追跡し、その視標追跡データをサーバ２０６に送信することができる。視標追跡データは、ディスプレイ２０４上へのユーザの注視を予測するためにサーバによって使用され、その結果、サーバによって実行されるビデオ圧縮コーデックのためにＲＯＩの位置を特定し、それによってビデオゲーム画像をより効率的に圧縮して、ユーザが見ている画像２０３の品質を維持することが可能になる。

ユーザのモバイルデバイス２１０は、ユーザ２００のごく近傍に、例えば、コーヒーテーブルまたは他の近傍の表面に配置することができ、ディスプレイ２０４よりもかなり近くにある。

上記で示唆したように、モバイルデバイス２１０は、前面カメラ２１２を使用してディスプレイ２０４を画像化することもできる。ディスプレイ２０４の画像を使用すると、モバイルデバイス２１０は、モバイルデバイス２１０に対するディスプレイ２０４の位置及び向きを（コンピュータビジョン技法によって）特定することができる。さらなる説明を提供する図４のブロック４００で示されるように、この動作は、モバイルデバイス上の実行可能なアプリケーションの起動中に実行されてもよく、モバイルデバイス内の１つ以上の運動センサが、モバイルデバイスが移動したことを示すときに、所望により繰り返されてもよい。

ブロック４０２に移行して、モバイルデバイス２１０は、ディスプレイ２０４を画像化する。ブロック４０４に進んで、機械視覚アルゴリズムによって採用される画像認識技法を、ディスプレイ２０４の画像に基づいて使用するとともに、位置受信機２１６に基づいてモバイルデバイス２１０の位置を知り、モバイルデバイス２１０内の１つ以上の運動／配向センサ（図１に示す適切なセンサのいずれか等）に基づいてモバイルデバイスの向きを知ることにより、モバイルデバイス２１０に対するディスプレイ２０４の位置が決定される。

ブロック４０６に進んで、モバイルデバイス２１０は、カメラ２１４を用いユーザ２００を画像化して、そのカメラ画像データ（赤－緑－青データ及び／または深度データを含み得る）を用いユーザの顔の位置及び向き（ＰｎＯ）を本質的に画像化する。また、ユーザ２００の画像を用いて、ユーザの眼の位置が決定される。

ブロック４０８に移行して、ブロック４０６からの眼の画像を用いて、顔に対するユーザの注視の視線（ＬＯＳ）が決定される。ブロック４１０は、ブロック４０４で決定されたディスプレイの位置にＬＯＳが投影されて、ユーザ２００が見ているディスプレイ２０４上の注視点（ＰＯＧ）が決定されることを示す。ユーザの眼の注視方向は、ディスプレイに対する過去のＰｎＯを用いて、ディスプレイ２０４の表面に対する三角法で測定することができる。このことから、ディスプレイのフレーム内でユーザの注視点（ＰＯＧ）を決定することができる。ＰＯＧはブロック４１２でサーバ２０６に送信され、サーバ２０６はそのＰＯＧを所与の大きさのＲＯＩの中心として使用することができる。例えば、解像度が１９２０×１０８０（フルＨＤ）の５０インチＴＶから約１．９３メートル離れた最適な視距離に座り、典型的な５度の高視力中心窩を有するユーザは、ＴＶ上の領域に直径約１６８ｍｍの大きさのＲＯＩを投影することになる。これは、フルＨＤ画像全体の約４％の関心領域に相当する。一部の領域で圧縮レベルを遷移させることを可能にするので、画像の８０％超を高度に圧縮して帯域幅を大幅に節約できる。

図４は単一のユーザについて説明しているが、図４の原理を複数のユーザに拡張して、各ユーザがディスプレイの異なる領域に独自のＲＯＩを有するようにしてもよい。

図５は、サーバ２０６のロジックの例を示す。ブロック５００で開始すると、図４で決定されたディスプレイ２０４上のユーザのＰＯＧがモバイルデバイス２１０から受信される。ブロック５０２に移行して、ＰＯＧを使用してビデオのＲＯＩが決定される。一例では、ＰＯＧをＲＯＩの中心であると仮定してもよく、ＰＯＧを中心とするＮ×Ｍピクセルの大きさのグループ（または所望により一定の半径を有する円形領域）等の所定の領域を、ブロック５０４で圧縮すべきビデオのＲＯＩであると決定して、Ｎ×Ｍピクセルの外側のビデオ領域に達成される異なった圧縮よりも高い解像度及び／または画質を達成してもよい。したがって、ＲＯＩ内のビデオ領域が、ＲＯＩ外のビデオ領域が表示されるよりも高い解像度及び／または画質でディスプレイ２０４に提示されるように、ブロック５０６でビデオがディスプレイ２０４に送信される。ＲＯＩがビデオフレーム全体よりも小さいことは容易に理解されよう。

本原理によると、図２のシステムには考慮すべき待ち時間が存在することが理解される。例えば、この待ち時間には、モバイルデバイス２１０での追跡処理、モバイルデバイス２１０からサーバ２０６へのＰＯＧデータの通信、サーバ２０６によるビデオゲーム画像の処理及びエンコード、サーバ２０６から家庭内のシステム２０８を経由するディスプレイ２０４への圧縮されたビデオゲーム画像の通信、及び家庭内のシステム２０８による圧縮されたビデオゲーム画像のデコードが含まれる。

この点を考慮に入れて、図５のブロック５０８で示されるように、サーバ２０６及び／またはモバイルデバイス２１０及び／またはコンソール２０８は、現在及び以前の眼のＰＯＧに基づいて、「Ｎ」個の将来の注視点（及びしたがって「Ｎ」個の将来のＲＯＩ（「Ｎ」はゼロより大きい整数である））を予測する。この処理がサーバ２０６及び／またはコンソール２０８によって実行されるとき、視標追跡データがモバイルデバイス２１０からサーバ２０６及び／またはコンソール２０８に追加的に送信される。ブロック５１０で、現在のフレームに続く次の「Ｎ」個のビデオのフレームが、ブロック５０８からの予測に対応する「Ｎ」個のＲＯＩの位置を使用して投機的に圧縮され得る。

予測ＰＯＧは、表示されている現在のアプリケーション画面から生成され得る。アプリケーション画面の画像と観測されたＰＯＧとの履歴データセットが蓄積されてもよい。現在のディスプレイ画面からのＰＯＧは、機械学習を用いて予測することができる。その機械学習の例としてはディープニューラルネットワークがある。

さらに、画像をより良い品質に動的にアップサンプリングすることが可能な機械学習されたフィルタを通して画像を処理することにより、デコーダの結果画像を改善することができる。このような適応フィルタは、アプリケーション画面及びデコード結果の履歴データセットを作成し、畳み込みディープニューラルネットワークを訓練して画像を回復させることにより作成することができる。

上記の解決策を用いることで、ユーザの自宅のインターネット帯域幅とストリーミングゲームを表示するディスプレイへの注視方向とによりよく適応する、改善されたゲームストリーミングサービスが提供される。

図６は、下記の例外を除いて、構成及び動作が図２に示したシステムと実質的に同一であるシステムを示す。モバイルデバイス上のカメラを使用してユーザ２００及びディスプレイ２０４を画像化する代わりに、ビデオゲームコントローラ６０４上のカメラ６００、６０２が使用されて、コントローラ６０４に対するディスプレイ２０４及びユーザ２００の顔／眼の位置及び向きが追跡される。この実施形態では、カメラ６００、６０２の１つは、ユーザに向かって上向きに角度が付けられてもよく、ユーザは、コンソール２０８によって提供されるディスプレイ２０４に示される指示を介して、指定された様式または向きにコントローラを保持するよう促される。

図７は、下記の例外を除いて、構成及び動作が図２に示したシステムと実質的に同一である、さらに別の実施形態を示す。モバイルデバイス上のカメラを使用してユーザ２００及びディスプレイ２０４を画像化する代わりに、眼鏡７０４上のカメラ７００、７０２が使用されて、眼鏡７０４に対するディスプレイ２０４及びユーザ２００の顔／眼の位置及び向きが追跡される。

ビデオ画像をストリーミングする代わりに、コンソール２０８上で実行されるネイティブコンテンツは、中心窩適応レンダリングを組み込むことができる。このような実施形態では、ユーザの注視点（ＰＯＧ）が本明細書に記載されるように決定され、その後ＰＯＧが、ＰＯＧの外側のコンテンツ領域を特定するために使用される。これらの領域のコンテンツについては、レンダリング解像度及び／またはレンダリング品質、及び／またはコンテンツの他の態様が変更されて、コンソール２０８でのレンダリングコストが低減される。

次に図８を参照すると、携帯電話の実施形態の詳細がさらに示されている。大画面８ＫＴＶディスプレイ等であるがこれらに限定されないディスプレイ８００は、ビデオゲームコンソール８０２からのビデオまたは画像等であるがこれらに限定されない画像情報を受信する。ビデオゲームコンソール８０２は、無線式ビデオゲームコントローラ８０４から制御情報を受信し得る。携帯電話８０６は、ディスプレイ８００上のＲＯＩ８１０を画像化する第１のカメラ８０８と、ユーザの眼８１４を画像化する第２のカメラ８１２とを含み得る。

電話機８０６上の上記のアプリケーションは、ユーザがディスプレイ上の画像を最高解像度または最高品質で再生したいかどうかに関してユーザに促すことができ、そのように再生したいのであれば、特定の向きに電話機を傾けるよう、例えば、カメラ８０８をディスプレイ８００に直接向けるよう、ユーザに促すことができる。図８の８１６に示すように、携帯電話８０６のディスプレイ８１８は、ユーザが可能な限り最良の顔画像を提示するために電話機を動かすときに、顔のシルエットまたは直接平面図等のユーザの顔の画像を提示することができる。図８の８２０に示すように、アプリケーションは、電話ディスプレイ８１８上に、電話機が適切に向けられ、カメラ８１２がユーザの眼８１４を画像化していることを示す表示（「ＯＫ」及び／またはチェックマーク等）を提示することができる。同じプロトコルを使用して、ディスプレイ８００を画像化する反対側のカメラ８０８が必ず適切に向けられるようにすることができる。

図６に関連して上記に述べたコントローラの実施形態では、ディスプレイ８００は、適切な画像化のために、正しいコントローラの位置決めに関するフィードバックを提供することができることに留意されたい。あるいは、コントローラはスピーカを含み、それが「コントローラを低くしてください」または「あなたが見えません」等の音響式のフィードバックを提供して、ユーザにコントローラの向きを変えるよう促してもよい。あるいは、コントローラは、図８に示す確認ビューを提示する画面を含むことができる。

コンソール８０２は、電話機８０６と無線で通信してもよい。通信は、ローカルエリアネットワークを介して、またはＷｉＦｉ（登録商標）もしくはその他の適切なプロトコルを介して行うことができる。使用例には、非常に大きく、ユーザから比較的離れているディスプレイ８００、またはユーザに比較的近いビデオディスプレイを実装するモバイルタブレットコンピュータもしくはラップトップコンピュータが含まれる。

いくつかの実施形態では、カメラ８０８からの画像を用いて画面領域を識別する電話機８０６上でアプリケーションが実行されるのを促進するために、領域位置情報を示すバーコードまたはクイックレスポンス（ＱＲ）コード（登録商標）等の可視マーカが、ディスプレイ８００上の画像に挿入され得る。あるいは、図９に示すように、ブロック９００で電話機がディスプレイ８００を画像化し、ブロック９０２でコンソール８０２が、ディスプレイに送信されている画像を同様に電話機８０６にも送信することができる。電話機は、ブロック９０４で、ブロック９００及び９０２からの２つの画像を比較して、それらが有利に一致するかどうかを判定し、電話機が正しい向きであることを示すことができる。

本原理によると、トラフィックの高いネットワークで映画またはゲームをストリーミングする状況では、ユーザの画像が劣化する可能性があることが理解される。したがって、カメラがユーザの顔を認識できない場合、またはデータをシステムに十分な速度で取り込むことができない場合、システムは、提示された画像を従来の低解像度または低画質の画像に戻してもよい。代替または追加として、フレームレートを低下させてもよく、しかし解像度及びまたは画質は維持され、その後、視標追跡が回復したら、本明細書に記載の選択的圧縮技法を実施して、フレームレート、及び／または知覚される解像度、及び／または画質を増大させてもよい。

図１０は、携帯電話１００２上または他のデバイス上の単一の、好ましくは高解像度の、広角カメラ１０００のみを有する実施形態において、この単一のカメラがディスプレイ１００４に向けられ得、凸面鏡等のミラー１００６が、ユーザ１００８の前に配置されて、広角カメラ１０００がミラー１００６からの反射にもよってユーザを画像化するための視界を提示し得ることを示す。本実施形態では、モバイルデバイス１００２のディスプレイ１００４に対するＰｎＯは、前に述べた方法によって決定されるが、モバイルデバイス１００２に対するユーザ１００８の顔／眼のＰｎＯは、ミラー１００６に反射したユーザ１００８の顔／眼のおおよその大きさ及び向きの測定値によって決定されてもよいことを理解されたい。したがって、モバイルデバイス１００２に取り付けられたカメラ１０００からの画像を、コンピュータビジョン技法を介して処理するのに使用される処理ロジックは、ユーザ１００８の顔／眼が鏡映されていることを想定し、それに応じてコンピュータビジョン処理を調節することになる。

いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことが理解されよう。

Claims

少なくとも１つのディスプレイと、
第１のカメラ及び第２のカメラを含み、前記ディスプレイと前記ディスプレイを閲覧するユーザとの間に配置可能な少なくとも１つのデバイスと、
前記ディスプレイに提示するために圧縮ビデオを送信するように構成された少なくとも１つのサーバと、を備え、
前記デバイスが、
前記第１のカメラを使用して、第１の画像を生成することであって、前記第１の画像が前記ディスプレイの画像を含む、前記第１の画像を生成することと、
前記第２のカメラを使用して、第２の画像を生成することであって、前記第２の画像が前記ユーザの画像を含む、前記第２の画像を生成することと、のために実行可能な命令でプログラムされており、
前記サーバ及び／または前記デバイスが、
前記第１のカメラ及び前記第２のカメラからの前記画像に少なくとも部分的に基づいて、前記ディスプレイでの前記ユーザの注視点（ＰＯＧ）を特定することと、
少なくとも部分的に前記ＰＯＧに基づいて、前記ビデオの関心領域（ＲＯＩ）を特定することと、のために実行可能な命令でプログラムされており、
前記サーバが、
前記ビデオを圧縮し、前記ビデオを送信して前記ディスプレイに提示することであって、前記圧縮が、前記ＲＯＩが前記ＲＯＩ外の前記ビデオのエリアよりも高い解像度及び／または画質で前記ディスプレイに提示されるような圧縮である、前記提示することのために実行可能な命令でプログラムされている、
システム。
前記デバイスは、モバイル通信デバイスを含む、請求項１に記載のシステム。
前記デバイスは、タブレットコンピュータを含む、請求項１に記載のシステム。
前記デバイスは、コンピュータシミュレーションコントローラを含む、請求項１に記載のシステム。
前記デバイスは、眼鏡を含む、請求項１に記載のシステム。
前記サーバは、
前記ＲＯＩ内のビデオのフレームを、前記ＲＯＩ外の前記ビデオのフレームのエリアより高度に圧縮しない命令でプログラムされている、請求項１に記載のシステム。
前記サーバは、
ビデオの「Ｎ」フレームにおいて、前記ＰＯＧを使用して特定された前記ＲＯＩを少なくとも部分的に使用して、それぞれの投機的ＲＯＩを特定することであって、「Ｎ」がゼロより大きい整数である、前記特定することと、
少なくとも部分的に前記それぞれの投機的ＲＯＩに基づいて前記ビデオの「Ｎ」フレームを圧縮することと、を行う命令でプログラムされている、請求項１に記載のシステム。
少なくとも１つのプロセッサと、
少なくとも１つのコンピュータメモリであって、前記少なくとも１つのコンピュータメモリは、一時的信号ではなく、
デバイス上の第１のカメラを使用してユーザを画像化することであって、前記デバイスはディスプレイ上にない、前記ユーザを画像化することと、
前記デバイス上の第２のカメラを使用して前記ディスプレイを画像化することと、
少なくとも部分的に前記画像に基づいて、前記ディスプレイ上の注視点（ＰＯＧ）を決定することと、
前記ＰＯＧを少なくとも１つのリモートサーバに送信して、前記サーバが、少なくとも１つのビデオフレームの前記ＰＯＧに関連する関心領域（ＲＯＩ）を使用するのを促進することであって、前記少なくとも１つのビデオフレームがまた、前記ＲＯＩ外の少なくとも１つのエリアを含み、前記サーバが第１の圧縮を使用して前記ＲＯＩを圧縮し、第２の圧縮を使用して前記ＲＯＩ外の前記エリアを圧縮できるようにする、前記促進することと、を行うために、前記少なくとも１つのプロセッサによって実行可能な命令を含む、前記少なくとも１つのコンピュータメモリと、
を備える、システム。
前記デバイスは、モバイル通信デバイスを含む、請求項８に記載のシステム。
前記デバイスは、タブレットコンピュータを含む、請求項８に記載のシステム。
前記デバイスは、コンピュータシミュレーションコントローラを含む、請求項８に記載のシステム。
前記デバイスは、眼鏡を含む、請求項８に記載のシステム。
前記サーバを備えており、前記サーバは、
前記第１の圧縮を使用して前記ＲＯＩを圧縮し、前記第２の圧縮を使用して前記ＲＯＩ外の前記エリアを圧縮する命令でプログラムされている、請求項８に記載のシステム。
前記サーバは、
ビデオの「Ｎ」フレームにおいて、前記ＰＯＧを使用して特定された前記ＲＯＩを少なくとも部分的に使用して、それぞれの投機的ＲＯＩを特定することであって、「Ｎ」がゼロより大きい整数である、前記特定することと、
少なくとも部分的に前記それぞれの投機的ＲＯＩに基づいて前記ビデオの「Ｎ」フレームを圧縮することと、を行う命令でプログラムされている、請求項１３に記載のシステム。
モバイルデバイスを使用して、ディスプレイを閲覧するユーザの画像を生成することと、
前記モバイルデバイスを使用して、前記ディスプレイの画像を生成することと、
前記画像を使用して、前記ユーザが見ている前記ディスプレイ上の位置を特定することと、
ネットワークを介して、少なくとも１つのサーバまたは少なくとも１つのコンピュータシミュレーションコンソールに、前記位置を送信することと、
を含む、方法。
前記サーバまたは前記コンソールは、
ビデオを圧縮し、前記ビデオを送信して前記ディスプレイに提示することであって、前記圧縮は、前記ユーザが見ている前記ディスプレイ上の前記位置に提示されることになるビデオが、前記ユーザが見ている前記ディスプレイ上の前記位置の外側のビデオよりも高い解像度及び／または画質で前記ディスプレイ上に提示されるような圧縮である、前記提示すること、を行う命令でプログラムされている、請求項１５に記載の方法。
前記モバイルデバイスは、モバイル通信デバイスを含む、請求項１５に記載の方法。
前記モバイルデバイスは、タブレットコンピュータを含む、請求項１５に記載の方法。
前記モバイルデバイスは、ビデオゲームコントローラを含む、請求項１５に記載の方法。
前記サーバまたは前記コンソールは、
ビデオの「Ｎ」フレームにおいて、前記ユーザが見ている前記ディスプレイ上の前記位置を少なくとも部分的に使用して、それぞれの投機的関心領域（ＲＯＩ）を特定することであって、「Ｎ」がゼロより大きい整数である、前記特定することと、
少なくとも部分的に前記それぞれの投機的ＲＯＩに基づいて前記ビデオの「Ｎ」フレームを圧縮することと、を行う命令でプログラムされている、請求項１５に記載の方法。
前記コンピュータシミュレーションコンソールは、
前記ディスプレイに対する注視点を決定することと、
前記ＰＯＧを使用して、前記ＰＯＧ外の前記提示されるビデオ画像のレンダリング解像度／レンダリング品質を低減させることと、を行う命令でプログラムされている、請求項１５に記載の方法。