JP6884856B2

JP6884856B2 - コンテンツに基づいた映像データのストリーム分割

Info

Publication number: JP6884856B2
Application number: JP2019516408A
Authority: JP
Inventors: アトルール，チェイタニア; ナイナン，アジト
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2016-09-26
Filing date: 2017-09-18
Publication date: 2021-06-09
Anticipated expiration: 2037-09-18
Also published as: US20210314670A1; US20220210512A1; KR20190038664A; EP3516882B1; WO2018057472A1; US11303966B2; CN109792562B; CN113301439B; CN109792562A; KR102218519B1; EP3793205A1; EP3793205B1; CN113301439A; JP2019534614A; US11653065B2; EP3516882A1

Description

技術
本発明は、画像の符号化および描画全般に関し、特に、コンテンツに基づいた映像データのストリーム分割に関する。

発明の背景
ニアアイディスプレイなどによる仮想現実用途において、人間の視覚が、あらゆる可能な鑑賞角度において常にピクセル化効果（pixilation effects）を知覚することを妨げるような空間解像度で画像を鑑賞する際にシームレスな体験を得るためには、望まれる映像データの量は、４Ｋ解像度の１８ビュー分（ｅｉｇｈｔｅｅｎ４Ｋｒｅｓｏｌｕｔｉｏｎｖｉｅｗｓ）と同等であり得る。望まれる映像データとしてこの量は膨大であり、映像データを圧縮および展開するのに必要な帯域幅の量および計算能力を考慮すると、現在のネットワークインフラストラクチャにおけるニアアイディスプレイなどの広範なディスプレイデバイスによってサポートされるには現在のところ実用的ではない。

いくつかの技術は、球を１つの角錐の有する多数の「角錐面」に分割することによってこの問題に対処している。角錐底面は、視野（ＦＯＶ）のすぐ周囲を覆い、高解像度の画像を担う。他の底面でない角錐面は、低解像度の画像を担う。しかし、これらの技術では、高解像度の画像を見る際に、ユーザーがＦＯＶを底面でない角錐面に変更するたびに顕著な遅れ（例えば１２〜１５ミリ秒より長いなど）を被る。さらに、角錐は面積／体積に基づいて分割されるため、ユーザーのＦＯＶは２つの角錐面と交差し、ＦＯＶの一部は低解像度のままで残り得る。

本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、１以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。

添付図面の各図において、本発明を限定する事なく例示する。同様の部材には同様の参照符号を付している。

図１は、ビデオ画像の一例を示す。図２Ａは、ユーザーに鑑賞されているビデオ画像（単数または複数）の、領域断面の例を示す。図２Ｂは、ユーザーに鑑賞されているビデオ画像（単数または複数）の、領域断面の例を示す。図２Ｃは、ユーザーに鑑賞されているビデオ画像（単数または複数）の、領域断面の例を示す。図２Ｄは、ビューポートの一例を示す。図２Ｅは、シーンの一例を示す。図３Ａは、ビデオストリーミングサーバーおよびクライアントの例を示す。図３Ｂは、ビデオストリーミングサーバーおよびクライアントの例を示す。図３Ｃは、ビデオストリーミングサーバーおよびクライアントの例を示す。図４Ａは、プロセスフローの例を示す。図４Ｂは、プロセスフローの例を示す。図５は、本明細書に記載のコンピュータまたは計算装置が実装され得る、ハードウェアプラットフォームの一例を示す。

実施形態例の説明
コンテンツに基づいた映像データのストリーム分割に関連する実施形態例を、本明細書に記載する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。

本明細書において、以下の概略にしたがって実施形態例を記載する：
１．一般的概要
２．ビデオ画像
３．領域断面および関心のシーン
４．ビデオ画像からのシーン検出
５．シーン、領域断面、およびビデオサブストリームの例
６．ビデオストリーミングサーバーおよびクライアントの例
７．プロセスフローの例
８．実装メカニズム−ハードウェア概要
９．均等物、拡張物、代替物、その他

１．一般的概要
本概要は、本発明の一実施形態例が有するいくつかの側面につき、基本的説明を提示する。本概要は、実施形態例が有する諸側面についての広範かつ網羅的な要約ではない、ということに留意すべきである。さらに留意すべきは、本概要は、実施形態例が有する任意の特に重要な側面や要素を示すものとして理解されるようには意図されておらず、また、その特定の実施形態例のあるいは広く本発明の何らの範囲を、規程するものとして理解されるようにも意図されていない。本概要は、単に、実施形態例に関するいくつかの概念を凝縮された簡素な形式で提示するものであって、以下に続く、諸実施形態例についてのより詳細な説明に対する単なる概念的な前置きとして理解されるべきである。別個の実施形態を本明細書において述べているが、本明細書に述べた実施形態の任意の組み合わせおよび／または部分的な実施形態は、組み合わせられてさらなる実施形態を形成し得ることに留意されたい。

本明細書に記載の手法は、ビデオストリーミングサーバー（単数または複数）とビデオストリーミングクライアント（単数または複数）との間の映像データのストリーミングのための帯域幅使用を最小にするために用いられ得る。ビデオコンテンツの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、オーディオビジュアルプログラム、映画、映像プログラム、ＴＶ放送、コンピュータゲーム、拡張現実（ＡＲ）コンテンツ、仮想現実（ＶＲ）コンテンツなどである。ビデオストリーミングクライアントの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、ディスプレイデバイス、ニアアイディスプレイを有する計算装置、ヘッドマウントディスプレイ（ＨＭＤ）、モバイルデバイス、ウェアラブルディスプレイデバイス、テレビなどのディスプレイを備えたセットトップボックス、映像モニタ、その他である。

本明細書において、「ビデオストリーミングサーバー」とは、ビデオコンテンツの少なくとも一部分（例えばユーザーのＦＯＶあるいはビューポートなどに対応する）を１つ以上のディスプレイ上に描画するために、１つ以上のビデオストリーミングクライアントに対してビデオコンテンツを用意しストリーミングする、１つ以上のデバイスを指し得る。ビデオコンテンツが描画されるディスプレイは、１つ以上のビデオストリーミングクライアントの一部であってもよく、あるいは１つ以上のビデオストリーミングクライアントとともに動作していてもよい。

ビデオストリーミングサーバーの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、ビデオストリーミングクライアント（単数または複数）に対しリモートに位置するクラウドベースのビデオストリーミングサーバー、ローカルの有線または無線ネットワークを介してビデオストリーミングクライアント（単数または複数）に接続されたローカルのビデオストリーミングサーバー、ＶＲデバイス、ＡＲデバイス、デジタルメディアデバイス、デジタルメディアレシーバー、セットトップボックス、ゲーム機（例えばＸｂｏｘ）、汎用パーソナルコンピュータ、タブレット、ＡｐｐｌｅＴＶやＲｏｋｕｂｏｘなどの専用デジタルメディアレシーバー、その他である。

本明細書に記載の手法において、以下のうち１つ以上に基づいて、１つ以上のビデオ画像の全エリアを、複数の領域断面（multiple regional cross sections）に分割し得る。すなわち、ユーザーのビューポート、ユーザーの中心視野、高関心のシーン、低関心のシーンなどである。領域断面群のそれぞれは、ビデオ画像の全エリアの適切な部分集合のみを表していてもよい。例えば、１８０度×１００度のビューまで、２４０度×９０度のビューまで（人間の視覚の視野に相当）、などである。ただし、全ての可能な領域断面の組み合わせによって、ビデオ画像の全エリアをカバーし得る。

ビデオストリーミングサーバーは、極端に大きな帯域幅割り当て（例えば１８個の４Ｋビデオストリームに相当など）を用いて、固定の高時空間解像度にある全空間面積にわたってビデオ画像を符号化および送信するのではなく、異なる時空間解像度にある複数のビデオサブストリーム中の、ビデオ画像群の複数の領域断面における各画像部分を、下流側の受信側デバイスに送信することができる。本明細書において、時空間解像度は、空間解像度のみ（高空間周波数コンテンツを含むがこれに限られない）、時間解像度のみ（画像リフレッシュレートを含むがこれに限られない）、または空間解像度および時間解像度の組み合わせを言う。したがって、本明細書に記載の手法を用いて、ビデオストリーミングサーバーとビデオストリーミングクライアント（例えばストリーミングされた映像データを消費および／または再生するクライアントデバイスなど）との間でストリーミングされる映像データの量を、減らすまたは最小化することができ、これにより、映像データをストリームするために相対的に大きな帯域幅割り当てを用いる必要性を減らしまたは最小化し、かつ、広範なビデオストリーミング用途を広範な下流側のデバイスに対し効率的にサポートし得る。

同時に、本明細書に記載の手法は、下流側の受信側デバイスのユーザーが、自由にユーザーの鑑賞角度、またはビデオ画像に対する視野を変更することを可能にするために用いられ得る。全てではないとしても大抵の動作状況において、ユーザーには、本明細書に記載する手法を用いない他のいくつかのアプローチにおいて見受けられる視覚的アーチファクトや心理的不快感などが比較的少ない、シームレスな鑑賞体験を得られるような、高解像度ビデオコンテンツが提示され得る。他のアプローチにおいて見受けられる視覚的アーチファクトや心理的不快感などとしては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、人間の視覚によって知覚される高解像度イメージに遷移する際の長い遅れ、人間の視覚の中心視覚領域内で感知され得る低解像度イメージ、ユーザーの自然な視覚関連の直感とユーザーに対し実際に描画されたビデオコンテンツとの間の不一致、鑑賞者が鑑賞角度を動かす際のイメージにおける視覚的明瞭性の急激な低下、低解像度から高解像度への知覚され得るような遅い遷移、鑑賞者が鑑賞角度を動かす際における、以前にははっきりしていなかった画像細部についてファジーな画像を表示してしまうことなどである。

本明細書に記載の実施形態例は、映像データのストリーミングに関連する。１つ以上のビデオ画像の画像内容に基づいて、１つ以上のビデオ画像における複数のシーンを識別する。１つ以上のビデオ画像の、複数の領域断面を、１つ以上のビデオ画像における複数のシーンに基づいて決定する。複数の領域断面内の、１つ以上のビデオ画像の複数の画像部分を、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームに符号化する。この２つ以上のビデオサブストリームを含む総合ビデオストリームを、ストリーミングクライアントデバイスに送信する。

本明細書に記載の実施形態例は、ストリーミングされた映像データを鑑賞者に提示することに関する。２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームを含む総合ビデオストリームが、ストリーミングサーバーから受け取られる。この２つ以上のビデオサブストリームを、１つ以上のビデオ画像の１つ以上の画像部分に復号化する。この１つ以上の画像部分は、複数の領域断面のうち１つ以上の領域断面中にある。複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定される。複数のシーンは、１つ以上のビデオ画像の画像内容に基づいて検出される。上記１つ以上のビデオ画像の上記１つ以上の画像部分に基づき、ビデオコンテンツを生成する。ビデオコンテンツは、ディスプレイにおいて描画される。

いくつかの実施形態例において、本明細書に記載の機構は、以下を含むがこれに限定されないメディア処理システムの一部を形成する。すなわち、クラウドベースのサーバー、モバイルデバイス、仮想現実システム、拡張現実システム、ヘッドアップディスプレイデバイス、ヘルメットマウンテッドディスプレイデバイス、ＣＡＶＥタイプシステムまたは壁サイズのディスプレイ、テレビゲーム装置、ディスプレイデバイス、メディアプレイヤー、メディアサーバー、メディア制作システム、カメラシステム、ホーム用システム、通信デバイス、映像処理システム、ビデオコーデックシステム、スタジオシステム、ストリーミングサーバー、クラウドベースのコンテンツサービスシステム、ハンドヘルドデバイス、ゲーム機器、テレビ、シネマディスプレイ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、携帯無線電話、電子ブックリーダー、ＰＯＳ端末（ｐｏｉｎｔｏｆｓａｌｅｔｅｒｍｉｎａｌ）、デスクトップコンピュータ、コンピュータワークステーション、コンピュータサーバー、コンピュータキオスク、または様々な他の種類の端末およびメディア処理ユニットである。

本明細書中に記載の好ましい実施形態ならびに一般的な原則や特徴に対する様々な変更は、当該分野の当業者にとっては容易に明らかであろう。よって、本開示は提示された実施形態に限定されるように意図されているのではなく、本明細書中に記載の原則および特徴に合致する最も広い範囲を与えられるべきである。

２．ビデオ画像
いくつかの実施形態において、本明細書に記載のビデオ画像は、１つ以上の空間環境において用いられる１つ以上のカメラシステムによって撮像され得る。空間環境の例としては、これらのみに限定されないが、物理的空間環境、シミュレーションされた空間環境、映画スタジオ、屋外シーン、屋内シーン、トンネル、通り、乗り物、船、飛行機、大気圏外空間などがある。カメラシステムの例としては、これらのみに限定されないが、ライトフィールドカメラ、重複するおよび／または重複しない視野を有する複数のカメラ、デジタルカメラ、アナログカメラ、ウェブカメラなどがある。

本明細書の記載におけるビデオ画像は、様々な空間形状（例えば矩形画像、球形画像など）の１画像中に分布する画素値として、記録されまたはまとめられ（ａｓｓｓｅｍｂｌｅ）得る。空間形状の例としては、必ずしもこれらのみに限定されないが、以下の任意のものを含む。すなわち、矩形、球形、パノラマ形状、規則的形状、不規則的形状、平面形状、曲面形状などである。

図１は、ビデオ画像１００の一例を示す。いくつかの実施形態において、領域画像（１００）は、（例えば高解像度などの）ビデオ画像のシーケンス中の、個別の１つの高解像度領域画像を表し得る。ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、ディスプレイ用途などのうちの１つ以上をサポートするに際して、ビデオストリーミングサーバーは、受け取ったビデオ画像のシーケンスを入力として受け取り、これを、（下流側の）ビデオストリーミングクライアントにストリーミングするためのビデオコンテンツを用意するために用いるように、構成され得る。

本明細書に記載のビデオ画像は、ワールド座標系、カメラシステムに対して静的な座標系、空間環境に対して固定的な座標系などの、広範な座標系のうち任意のもので表され得る。ビデオ画像（１００）中の空間的位置は、絶対位置（例えばワールド座標系で表されるなど）または相対位置（例えばカメラシステムに対して静的な相対座標系で表される）などのいずれであってもよい。

いくつかの実施形態において、ビデオ画像（１００）中の１つの空間的位置（例えば１画素など）は、１組の特定の（ｘ，ｙ）座標値を用いて表され得る。

３．領域断面および関心のシーン
本明細書において、ビデオ画像（１００）中の１つの領域断面（regional cross section）とは、空間面積部分または空間体積部分を指し、ビデオ画像（１００）中の、空間的位置（例えば連続する（ｃｏｎｔｉｇｕｏｕｓ）、またはばらばら（ｄｉｓｊｏｉｎｔ）、など）の集合によって形成され得る。ビデオ画像（１００）中のある特定の領域断面は、以下のうち１つ以上によって表され得る。すなわち、ビデオ画像（１００）上の、面積部分、空間形状、空間領域などである。

本明細書の記載において、シーンとは、そのビデオ画像（単数または複数）の全エリア中の特定の１つの領域断面を占有する、ビデオ画像（単数または複数）の特定の１つの画像部分を指し得る。ビデオ画像（単数または複数）は、そのビデオ画像（単数または複数）の全エリア中における異なる映像断面を占有する、複数のシーンを含み得る。各シーンは、そのシーン中のビデオ画像（単数または複数）の特定の画像部分について決定される特定のユーザー関心レベルに基づき、高関心のシーン（例えば１１０−２など）、低関心のシーン（例えば１１０−１、１１０−３など）などに分類され得る。

いくつかの実施形態において、ビデオ画像（１００）中において表される全空間面積（または体積）から分割された、ビデオ画像（１００）の全ての領域断面（例えば１０２−１、１０２−２、１０２−３など）は、１つ以上の領域断面タイプに基づいて分類される。ビデオ画像（１００）中の領域断面群中における画像部分は、領域断面タイプに依存する異なる時空間解像度にある、複数のビデオサブストリームに符号化され得る。例えば、領域断面がユーザーの（または鑑賞者の）ビューポート内にあること、ユーザーの（または鑑賞者の）中心視野内にあること、ユーザーの（または鑑賞者の）ビューポートまたは中心視野の外側の高関心のシーン内にあることなどを示す、特定の領域断面タイプの領域断面の画像部分は、相対的に高い時空間解像度で符号化され得る。領域断面がユーザーの（または鑑賞者の）ビューポート内、ユーザーの（または鑑賞者の）中心視野内、ユーザーの（または鑑賞者の）ビューポートまたは中心視野の外側の高関心のシーン内などに無いことを示す特定の領域断面タイプの画像部分は、相対的に低い時空間解像度で符号化され得る。

例示目的として限定はしないが、領域画像（１００）の領域断面群（例えば１０２−１、１０２−２、１０２−３など）は、ユーザーの（通知された（ｓｉｇｎａｌｅｄ））ビューポート（例えば図２Ａの１０８−１、１０８−２など）を少なくともカバーする、ビデオ画像（１００）の第１の領域断面（単数または複数）（例えば１０２−１など）を含む。

ユーザーのビューポートは、ディスプレイ上において与えられたユーザーの視野を指し得、ここを通してユーザーがビデオ画像（１００）のある画像部分を視る。実行時におけるユーザーのビューポートは、顔面追跡装置および／または眼球追跡装置によって追跡され得る。顔面／眼球追跡装置（単数または複数）は、ビデオ画像（１００）の画像部分が描画されるディスプレイを用いて、リアルタイムに動作し得る。ユーザーが鑑賞角度および／または鑑賞距離を時々変えるたびに、顔面／眼球追跡装置（単数または複数）が、ビデオ画像のシーケンスが表現されている座標系における鑑賞角度および／または鑑賞距離を追跡および算出し、ビューポートの時間的シーケンス（または視野の時間的シーケンス）を生成し、ビューポートの時間的シーケンス中の各ビューポート（例えば図２Ａの１０８−１、１０８−２など）を、本明細書に記載するビデオストリーミングサーバーに通知する。ビデオストリーミングサーバーが受け取る、これら各通知されたユーザーのビューポートは、時刻値または時刻値に対応するビューポートインデックス値によってインデックス付けされ得る。時刻値は、本明細書に記載のビデオストリーミングサーバーによって、ビデオ画像のシーケンス中のある特定のビデオ画像に対応付けまたは相関付けされ得る。

ユーザーのビューポート（例えば図２Ａの１０８−１、１０８−２など）をカバーする第１の領域断面（単数または複数）（例えば１０２−１など）は、領域断面の分類のために用意された領域断面タイプのなかで、ビューポートタイプとして分類される。

いくつかの実施形態において、第１の領域断面（単数または複数）（例えば１０２−１など）はさらに、ユーザーの中心視野をカバーする１つ以上の第１の領域断面と、ユーザーの中心視野をカバーしない１つ以上の他の第１の領域断面とに分割される。１つ以上の第１の領域断面は、追加的、選択的、または代替的に、領域断面の分類のために用意された領域断面タイプのなかで、中心視野タイプとして分類され得る。１つ以上の他の第１の領域断面は、追加的、選択的、または代替的に、領域断面の分類のために用意された領域断面タイプのなかで、非中心視野タイプとして分類され得る。

ユーザーのビューポート内の領域断面群に加えて、ビデオ画像（１００）の領域断面（例えば１０２−１、１０２−２、１０２−３など）はまた、ユーザーのビューポート（例えば図２Ａの１０８−１、１０８−２など）をカバーしない、ビデオ画像（１００）の第２の領域断面（単数または複数）（例えば１０２−２、１０２−３など）を含んでいてもよい。第２の領域断面（例えば１０２−２、１０２−３など）は、領域断面の分類のために用意された領域断面タイプのなかで、非ビューポートタイプとして分類され得る。

一実施形態例において、様々なユーザー関心レベルにある１つ以上のシーンに対応させるか、これらの存在を示すように、領域断面タイプを用いてもよい。１つの領域断面（例えば１０２−２など）が、高関心のシーン（例えば１１０−２など）に対応させられるか、またはその領域断面が少なくとも部分的にこれと重なることを示し得る。また別の領域断面（例えば１０２−３など）が、低関心のシーン（例えば１１０−３など）に対応させられるか、その領域断面がこれによって完全に占有されていることを示し得る。

いくつかの実施形態において、ビデオ画像（単数または複数）（例えば１００など）中の領域断面（例えば１０２−１、１０２−２、１０２−３など）の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像（単数または複数）の実際の画像内容を考慮せずに事前に静的に固定されたものではなく、むしろ、ユーザーのビューポート、ユーザーの中心視野、ビデオ画像中において検出されたシーン（単数または複数）、シーンを構成する画像細部の形状、サイズ、アスペクト比、空間的位置など、またはその他に基づいて決定または算出される（例えば実際の画像内容の前処理を介して、実行時において、動的になど）。

例えば、ビデオ画像（１００）中の第１の領域断面（単数または複数）（例えば１０２−１など）は、ユーザーのビューポート（例えば１０８−１など）、ユーザーの中心視野、ユーザーのビューポート（例えば１０８−１など）または中心視野と重なる高関心のシーンなどに基づいて、生成または識別され得る。ビデオ画像（１００）中の第１の領域断面（単数または複数）（例えば１０２−１など）の形状、サイズ、アスペクト比、空間的位置などは、ユーザーのビューポート（例えば１０８−１など）、ユーザーの中心視野、ユーザーのビューポート（例えば１０８−１など）または中心視野と重なる高関心のシーンなどの形状、サイズ、アスペクト比、空間的位置などに基づいて、決定または選択され得る（例えば実際の画像内容の前処理を介して、実行時において、動的になど）。

ただし、第１の領域断面（単数または複数）（例えば１０２−１など）の形状、サイズ、アスペクト比、空間的位置などは、ユーザーのビューポート（例えば１０８−１など）、ユーザーの中心視野、ユーザーのビューポート（例えば１０８−１など）または中心視野と重なる高関心のシーン（例えば１１０−１など）などの、形状、サイズ、アスペクト比、空間的位置などに対して、同一あるいは正確に同じ線引きをされている必要はないことに留意されたい。

いくつかの実施形態において、もしユーザーのビューポートが、１つの完全な高関心のシーンを空間的に含むまたはカバーすることが決定されたならば、第１の領域断面（単数または複数）（例えば１０２−１など）は、ビューポート（例えば１０８−１など）の空間形状に近似しこれを包含する空間形状の領域断面からなるように、生成または識別され得る。ただし、もし高関心のシーンがユーザーの完全なビューポートを空間的に含むまたはカバーすると決定されたならば、第１の領域断面（単数または複数）（例えば１０２−１など）は、高関心のシーンに近似しこれを包含する空間形状からなるように、生成または識別され得る。さらに、もし高関心のシーンが、ユーザーの完全なビューポートに対し部分的、つまり完全にではなく空間的に重なることが決定されたならば、第１の領域断面（単数または複数）（例えば１０２−１など）は、高関心のシーンとユーザーの完全なビューポートとの（空間的）和（ｕｎｉｏｎ）に近似しこれを包含する空間形状の領域断面からなるように、生成または識別され得る。

ビデオ画像（１００）の第１の領域断面（単数または複数）の一部または全部などの、ユーザーのビューポートまたはユーザーの中心視野内の画像部分は、高時空間解像度にある単一のビデオサブストリームに符号化されて、下流側の受信側デバイスに提供され得る。この結果、ユーザーが高関心のシーン内で鑑賞角度を動かしたとしても、第１の領域断面（単数または複数）（例えば１０２−１など）内の画像部分（単数または複数）を有するように符号化されたこの単一のビデオサブストリームで十分に、高関心のシーンのシームレスな鑑賞体験を得ることができる。

いくつかの実施形態において、第２の領域断面（例えば１０２−２、１０２−３など）は、ビデオ画像（１００）におけるユーザーのビューポート内に無いシーン（例えば１１０−２、１１０−３など）に基づいて生成または識別され得る。ビデオ画像（１００）中の第２の領域断面（例えば１０２−２、１０２−３など）の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像（１００）におけるユーザーのビューポート内に無いシーン（例えば１１０−２、１１０−３など）の形状、サイズ、アスペクト比、空間的位置などに基づいて、決定または選択され得る（例えば実際の画像内容の前処理を介して、実行時において、動的になど）。

ただし、第２の領域断面（例えば１０２−２、１０２−３など）の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像（１００）におけるユーザーのビューポート内に無いシーン（例えば１１０−２、１１０−３など）の、形状、サイズ、アスペクト比、空間的位置などに対して、同一あるいは正確に同じ線引きをされている必要はないことに留意されたい。

４．ビデオ画像からのシーン検出
高関心のシーン（例えば１１０−２など）、低関心のシーン（例えば１１０−２、１１０−３など）などの様々なユーザー関心レベルにある、ビデオ画像（１００）中のシーンは、ビデオ画像（単数または複数）内の領域断面の画像部分の符号化よりも前および／またはその最中において、ビデオ画像（単数または複数）（例えば１００など）について決定され得る。

いくつかの実施形態において、ビデオ画像（単数または複数）（例えば１００など）中の様々なユーザー関心レベルのシーンは、ディレクター、カラーリスト、映像技師、コンテンツ制作アーティストなどの映像プロフェッショナルからのユーザー入力に少なくとも部分的に基づいて、生成または識別され得る。映像プロフェッショナルは、ビデオ画像（単数または複数）中のシーンを識別または認識し、それらシーンを高関心のシーン（例えば１１０−２など）、低関心のシーン（例えば１１０−１、１１０−３など）などに分類し得る。例えば、映像プロフェッショナルは、ビデオ画像（単数または複数）（例えば１００など）に示される特定の人物にフォーカスする高関心のシーン（例えば１１０−２など）を指定する、ユーザー入力を提供してもよい。映像プロフェッショナルはまた、ビデオ画像（単数または複数）（例えば１００など）に示されるステージやフットボールなどの特定の物体にフォーカスする高関心のシーン（例えば１１０−２など）を指定する、ユーザー入力を提供してもよい。映像プロフェッショナルは、ビデオ画像（単数または複数）（例えば１００など）をプレビューしながら、またはコンサート、ゲーム、スピーチなどから生中継で生成されるビデオ画像（単数または複数）（例えば１００など）をモニターしながら、ユーザー入力を提供してもよい。

いくつかの実施形態において、ビデオ画像（単数または複数）（例えば１００など）中の様々なユーザー関心レベルのシーンは、ビデオ画像（単数または複数）（例えば１００など）の画像コンテンツ解析に少なくとも部分的に基づいて、生成または識別され得る。いくつかの実施形態において、エクイレクタングラー画像表現の３６０度×１８０度の角度にわたって分布するビデオ画像（例えば１００など）の全エリアの一部または全部を解析、評価などすることにより、ビデオ画像（１００）における高関心のシーン（例えば１１０−２など）、低関心のシーン（例えば１１０−１、１１０−３など）などを決定または識別してもよい。本明細書に記載の画像コンテンツ解析は、以下のうち１つ以上を用いて行い得る。すなわち、解析ルール、画像解析ツール、ハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの１つ以上のコンピュータビジョン技術のうち任意の組み合わせである。

例えば、ビデオ画像（単数または複数）（例えば１００など）における視認対象物体、視認対象要素など（例えばイベントにおけるステージ、フットボールゲームにおけるフットボール、映画における主人公、顕著な視認特徴など）は、解析ルール、画像解析ツール、そしてハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの１つ以上のコンピュータビジョン技術のうち任意の組み合わせ、のうち１つ以上に基づき、様々なユーザー関心レベルを有するとして識別または認識および評価され得る。追加的、選択的、または代替的に、ビデオ画像（単数または複数）（例えば１００など）における視認対象物体、視認対象要素などは、同じ画像中に存在する他の視認対象物体、視認対象要素などに基づいて意味論的に見出されることができる。例えば、同じ画像中にフットボールを見出した後に、プレイヤー達を意味論的に見出すことができる。

ビデオ画像（単数または複数）（例えば１００など）において決定される視認対象物体、視認対象要素などを用いて、ビデオ画像（単数または複数）（例えば１００など）中のシーンを生成または識別し得る。イベントのビデオ画像におけるステージ、フットボールゲームのビデオ画像におけるフットボールなどを含むシーンを、最も高いユーザー関心レベルを有するとして評価し、したがって高関心のシーン（例えば１１０−２など）であると決定してもよい。ステージやフットボールを含まないシーンは、相対的に低いユーザー関心レベルを有するとして評価し、したがって低関心のシーン（例えば１１０−１、１１０−３など）であると決定してもよい。

いくつかの実施形態において、ビデオ画像（単数または複数）（例えば１００など）中の様々なユーザー関心レベルのシーンは、あるユーザー母集団のユーザー群が１つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに少なくとも部分的に基づいて、生成または識別されてもよい。例えば、入力ビデオ画像のどの特定の鑑賞角度、面積部分などが、それぞれ極端に高いユーザー関心レベル、やや高いユーザー関心レベル、低いユーザー関心レベル、極端に低いユーザー関心レベルなどであるかを示すユーザー鑑賞行動データに基づいて、ヒートマップを作成してもよい。このヒートマップを用いて、ビデオ画像（単数または複数）中のシーンを識別または決定し、それらシーンの各ユーザー関心レベルを評価または決定し得る。

いくつかの実施形態において、ヒートマップは、ユーザーフィードバックループに基づいて（例えば動的に、ある時点までなど）更新され得る。最初は、いずれの様々なユーザー関心レベルのシーンもヒートマップに基づいて決定されない。こうして、ヒートマップの最初のバージョンに基づいて、ストリーミングされた映像データを介してビデオ画像（単数または複数）を鑑賞しているユーザーは、例えば、様々なユーザー関心レベルのシーンを識別するためのみにヒートマップが用いられるような動作状況において、視覚的アーチファクト、心理的不快感などに晒され得る。ユーザー鑑賞行動データは、あるユーザー母集団のユーザー群がビデオ画像（単数または複数）を鑑賞している間に、ユーザーのデバイスによって集められ得る。追加的、選択的、または代替的に、集められたユーザー鑑賞行動データを解析するために、機械学習を実装してもよい。ユーザー鑑賞行動データは、ビデオ画像（単数または複数）の異なる面積部分に関しての、ユーザーの鑑賞角度の空間分布（または統計分布）、ある所与の鑑賞角度におけるユーザーの鑑賞時間長などを提供し得る。ユーザーの鑑賞角度の空間分布、ある所与の鑑賞角度におけるユーザーの鑑賞時間長などを用いて、ビデオ画像（単数または複数）中の様々な関心レベルのシーンを識別し得る。より多くのユーザー鑑賞行動データが集められてヒートマップに導入されるにしたがって、様々な関心レベルのシーンが比較的正確に検出され得る。

いくつかの実施形態において、ビデオ画像（１００）における、様々なユーザー関心レベルのシーン、様々なユーザー関心レベルのシーンから生成された領域断面、シーンおよび／または領域断面に関連する幾何学情報などの、一部または全部を指定（例えば座標、位置、境界についてなど）する映像メタデータを、ビデオ画像（１００）とともに、さらなる処理のために下流側のモジュールまたはデバイス（例えばビデオストリーミングサーバーまたはその中のモジュールなど）に提供してもよい。いくつかの実施形態において、映像メタデータは、新たなユーザー入力、新たなユーザー鑑賞データ、新たな画像コンテンツ解析の繰り返しなどのうち１つ以上とともに、時々、連続的に、周期的に、プログラム的に、または手動入力なしになどで更新され得る。

５．シーン、領域断面、およびビデオサブストリームの例
図２Ａは、ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置２０２にいるユーザーに鑑賞されているビデオ画像（単数または複数）の領域断面の例を示す。論理的に表現された空間的位置（２０２）にいるユーザーは、ビデオ画像（単数または複数）によって形成される球体（または球）中に論理的に存在しているものと見なし得る。ユーザーの論理的に表現された空間的位置（２０２）は、これのみに限定されないが、球体の中央位置にあってもよい。ある所与の時刻において、ユーザーは、例えば、ＨＭＤ、モバイルデバイス、ディスプレイデバイスなど（ビデオストリーミングクライアントの一部であるか、これと協働して動作している）により提供されるビューポート１０８−２を介して、ビデオ画像（単数または複数）中の各ビデオ画像の画像部分を鑑賞し得る。

ビデオストリーミングサーバーは、ユーザー入力、画像コンテンツ解析、ユーザーフィードバックループ、機械学習などの任意の組み合わせを介して、ビデオ画像（単数または複数）が第１の高関心のシーン（１１０−４）、第２の高関心のシーン（１１０−５）、第１の低関心のシーン（１１０−６）、および第２の低関心のシーン（１１０−７）を含んでいることを決定し得る。いくつかの実施形態において、ビデオ画像（単数または複数）から検出される全てのシーン（例えば１１０−４、１１０−５、１１０−６、１１０−７など）は、ビデオ画像（単数または複数）の画像表現（例えば矩形の画像フレーム、３Ｄ空間中の球体または球など）中の全エリアをカバーする。領域断面１０２−４、１０２−５、１０２−６および１０２−７は、ビデオ画像（単数または複数）から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像（単数または複数）から生成または識別され得る。いくつかの実施形態において、図２Ａに示すように、ビデオ画像（単数または複数）から生成または識別された（例えば一対一など）領域断面１０２−４、１０２−５、１０２−６および１０２−７のそれぞれは、ビデオ画像（単数または複数）から検出されたシーン群（例えば１１０−４、１１０−５、１１０−６、１１０−７など）のうち各シーンに対応する。

いくつかの実施形態において、第１の高関心のシーン（１１０−４）は、ユーザーのビューポート（１０８−２）よりも小さなサイズを有し、ビューポート（１０８−２）によって完全に包含されていてもよい。いくつかの実施形態において、第２の高関心のシーン（１１０−５）は、ユーザーのビューポート（１０８−２）よりも大きなサイズを有しており、ユーザーのビューポート（１０８−２）が、第２の関心のシーン（１１０−５）に向けた鑑賞角度にシフトしたとしても、ビューポート（１０８−２）によって完全に包含されていなくてもよい。

ユーザー追跡データ（例えば図３Ａ、図３Ｂまたは図３Ｃなどの双方向データフロー３１４を介してビデオストリーミングクライアントから受け取られた）に基づき、ビデオ画像（単数または複数）に関しての経時的なユーザーの視野（例えば図１の１０８−２、１０８−１など）の鑑賞角度、サイズ、アスペクト比などが、ビデオストリーミングサーバーによって受け取られるか、決定されるか、さもなくば算出される。

いくつかの実施形態において、ユーザーのビューポート（１０８−２）内の第１の高関心のシーン（１１０−４）に対応する領域断面（１０２−４）内の（に対する）画像部分は、第１の時空間解像度にある第１のビデオサブストリームとして符号化されてもよい。第１の時空間解像度とは例えば、ビデオコンテンツをユーザーに対して描画するに際してビデオストリーミングサーバーからビデオストリーミングクライアントへの総合ビデオストリームにおける全ビデオサブストリーム中で最高の時空間解像度などである。

いくつかの実施形態において、ユーザーのビューポート（１０８−２）内に無い第２の高関心のシーン（１１０−５）に対応する領域断面（１０２−５）内の（に対する）画像部分は、第２の時空間解像度にある第２のビデオサブストリームとして符号化されてもよい。第２の時空間解像度は、相対的に低い時空間解像度（例えば１／４、１／２など）から、最も高い時空間解像度までの範囲であり得る。追加的、選択的、または代替的に、第１のビデオサブストリームに対して行われたものと比較して、さらなる圧縮、比較的積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第２のビデオサブストリームを、例えば、第２のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。

ビデオ画像（単数または複数）中のこれらの高関心のシーン（１１０−４および１１０−５）のそれぞれが単一のストリームとして符号化されるにしたがって、ユーザーが高関心のシーン内でビューポートを動かすとき、ユーザーのビューポートまたはユーザーの中心視野に対する、追加的な高解像度周辺映像データがビデオストリーミングサーバーからビデオストリーミングクライアントへ既に連続的に送信されていることにより、低解像度から高解像度への解像度の急な減少（または不連続性）および遅い遷移によって引き起こされ得る視覚的アーチファクト、心理的不快感などを防止する。

いくつかの実施形態において、第１および第２の低関心のシーン（１１０−６および１１０−７）に対応する領域断面（１０２−６および１０２−７）内の（に対する）画像部分は、第３の時空間解像度にある第３のビデオサブストリームとして符号化されてもよい。第３の時空間解像度は、第２の時空間解像度より低くてもよい。いくつかの実施形態において、Ｉ−フレームなどのアンカーフレームのみを、第１および第２のビデオサブストリームよりも低い画像リフレッシュレートで、第３のビデオサブストリーム中において送る。Ｂ−フレーム、Ｐ−フレームなどの他の非アンカーフレームは、第３のビデオサブストリームを含む総合ビデオストリーム中において送られることがなくてもよい。ユーザーのビューポートが第１および第２の低関心のシーン（１１０−６および１１０−７）へと動くとき、アンカーフレーム（例えばＩ−フレームなど）および非アンカーフレーム（例えばＢ−フレーム、Ｐ−フレームなど）の両方が、第３のビデオサブストリーム中においてビデオストリーミングクライアントに送られてもよく、この第３のビデオサブストリームは、ユーザーのビューポートが第１および第２の低関心のシーン（１１０−６および１１０−７）から離れているときよりも、より高いビットレートに調整されていてもよい。同じグループオブピクチャ（ＧＯＰ）内の、最後のアンカーフレームよりも後の失われたフレームについては、Ｉ−フレームを繰り返す、ビューポート変更を次のＧＯＰまで遅らせるなどのエラー隠し操作を行ってもよい。

追加的、選択的、または代替的に、第１および第２のビデオサブストリームに対して行われたものと比較して、よりさらなる圧縮、より積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第３のビデオサブストリームを、例えば、第３のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。

図２Ｂは、ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置（２０２）にいるユーザーによって鑑賞されている、ビデオ画像（単数または複数）の領域断面の追加的な例を示している。

領域断面１０２−４、１０２−７、１０２−８、１０２−９、１０２−１０および１０２−１１は、ビデオ画像（単数または複数）から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像（単数または複数）から生成または識別され得る。いくつかの実施形態において、図２Ｂに示すように、ビデオ画像（単数または複数）から生成または識別された（例えば一対一など）領域断面１０２−４、１０２−５および１０２−６のそれぞれは、ビデオ画像（単数または複数）から検出されたシーン（例えば１１０−４、１１０−５、１１０−６、１１０−７など）のうちのシーンと必ずしも一対一の対応を有さない。

例えば、図２Ａと比較して、図２Ｂにおいては、第１の低関心のシーン（１１０−６）は、ビューポート（１０８−２）内の第１のシーン部分と、ビューポート（１０８−２）外の第２のシーン部分とを含んでいる。いくつかの実施形態において、第１の低関心のシーン（１１０−６）を用いて、一方がビューポート（１０８−２）と重なり他方がビューポート（１０８−２）と重ならないような、２つの領域断面１０２−８および１０２−９を作成してもよい。これらの領域断面（１０２−８および１０２−９）は、第１の低関心のシーン（１１０−６）中の第１および第２のシーン部分と空間的に同一の広がりを持っていても持っていなくてもよい。

同様に、図２Ａと比較して、図２Ｂにおいては、第２の低関心のシーン（１１０−７）は、ビューポート（１０８−２）内の第３のシーン部分と、ビューポート（１０８−２）外の第４のシーン部分とを含んでいる。いくつかの実施形態において、第２の低関心のシーン（１１０−７）を用いて、一方がビューポート（１０８−２）と重なり他方がビューポート（１０８−２）と重ならないような、２つの領域断面１０２−１０および１０２−１１を作成してもよい。これらの領域断面（１０２−１０および１０２−１１）は、第２の低関心のシーン（１１０−７）中の第３および第４のシーン部分と空間的に同一の広がりを持っていても持っていなくてもよい。

いくつかの実施形態において、ユーザーのビューポート（１０８−２）内の第１の高関心のシーン（１１０−４）に対応する領域断面（１０２−４）内の（に対する）画像部分は、図２Ａと同様に、第１の時空間解像度にある第１のビデオサブストリームとして符号化され得る。

いくつかの実施形態において、ユーザーのビューポート（１０８−２）内に無い第２の高関心のシーン（１１０−５）に対応する領域断面（１０２−５）内の（に対する）画像部分は、図２Ａと同様に、第２の時空間解像度にある第２のビデオサブストリームとして符号化され得る。

いくつかの実施形態において、第１および第２の低関心のシーン（１１０−６および１１０−７）のビューポート内のシーン部分に対応する領域断面（１０２−９および１０２−１０）内の（に対する）画像部分は、第４の時空間解像度にある第４のビデオサブストリームとして符号化され得る。第４の時空間解像度は、第２の時空間解像度より低くてもよい。いくつかの実施形態において、Ｉ−フレームのみを、第１および第２のビデオサブストリームよりも低い画像リフレッシュレートで、第４のビデオサブストリーム中において送る。追加的、選択的、または代替的に、第１および第２のビデオサブストリームに対して行われたものと比較して、よりさらなる圧縮、より積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第４のビデオサブストリームを、例えば、第４のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。

いくつかの実施形態において、第１および第２の低関心のシーン（１１０−６および１１０−７）のビューポート外のシーン部分に対応する領域断面（１０２−８および１０２−１１）内の（に対する）画像部分は、第５の時空間解像度にある第５のビデオサブストリームとして符号化され得る。第５の時空間解像度は、第４の時空間解像度より低くてもよい。いくつかの実施形態において、Ｉ−フレームのみを、第１、第２および第４のビデオサブストリームよりも低い画像リフレッシュレートで、第４のビデオサブストリーム中において送る。追加的、選択的、または代替的に、第１、第２および第４のビデオサブストリームに対して行われたものと比較して、最も強い圧縮、最も積極的な圧縮、閾値より下で最大のエラーを伴う予測などを行うことにより、第５のビデオサブストリームを、例えば、第５のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。

図２Ｃは、ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置（２０２）にいるユーザーによって鑑賞されている、ビデオ画像（単数または複数）の領域断面のさらなる例を示している。

領域断面１０２−５、１０２−６、１０２−７、１０２−１２および１０２−１３は、ビデオ画像（単数または複数）から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像（単数または複数）から生成または識別され得る。いくつかの実施形態において、図２Ｂに示すように、ビデオ画像（単数または複数）から生成または識別された（例えば一対一など）領域断面１０２−４、１０２−５および１０２−６のそれぞれは、ビデオ画像（単数または複数）から検出されたシーン（例えば１１０−４、１１０−５、１１０−６、１１０−７など）のうちシーンと必ずしも一対一の対応を有さない。

例えば、図２Ａと比較して、図２Ｃにおいては、第１の高関心のシーン（１１０−４）は、ビューポート（１０８−２）内のユーザーの中心視野（不図示）内の第１のシーン部分と、ビューポート（１０８−２）内のユーザーの中心視野外の第２のシーン部分とを含んでいる。いくつかの実施形態において、第１の高関心のシーン（１１０−４）を用いて、一方がビューポート（１０８−２）内のユーザーの中心視野に重なり他方がビューポート（１０８−２）内のユーザーの中心視野と重ならないような、２つの領域断面１０２−１２および１０２−１３を作成してもよい。領域断面（１０２−１２）は、ビューポート（１０８−２）内のユーザーの中心視野と空間的に同一の広がりを持っていても持っていなくてもよい。

いくつかの実施形態において、ユーザーのビューポート（１０８−２）内のユーザーの中心視野外の第１の高関心のシーン（１１０−４）に対応する領域断面（１０２−１３）内の（に対する）画像部分は、図２Ａと同様に、第１の時空間解像度にある第１のビデオサブストリームとして符号化され得る。

いくつかの実施形態において、第１および第２の低関心のシーン（１１０−６および１１０−７）に対応する領域断面（１０２−６および１０２−７）内の（に対する）画像部分は、図２Ａと同様に、第３の時空間解像度にある第３のビデオサブストリームとして符号化され得る。

いくつかの実施形態において、ビューポート（１０８−２）内のユーザーの中心視野を包含する領域断面（１０２−１２）内の（に対する）画像部分は、第６の時空間解像度にある第６のビデオサブストリームとして符号化され得る。第６の時空間解像度は、第１の時空間解像度より高くてもよい。いくつかの実施形態において、第６のビデオサブストリーム中の映像フレームは、第１のビデオサブストリームよりも速い画像リフレッシュレート（例えば毎秒１２０フレーム以上、毎秒６０フレーム以上など）で送られる。追加的、選択的、または代替的に、第１のビデオサブストリームに対して行われたものと比較して、少ないまたはゼロの圧縮、より積極的でない圧縮、比較的エラーの小さな予測などを行うことにより、第６のビデオサブストリームを、例えば、他のビデオサブストリームについて生成されたものと比較して最も高品質なイメージを生成するように圧縮してもよい。

いくつかの実施形態において、ユーザーのビューポートが、識別された高関心のシーンが存在していない球画像（単数または複数）の静的な部分にあるとき、単一のビデオサブストリームは、ビューポートのサイズ以上である１つの領域断面から作成されてもよい。この領域断面の画像部分は、単一のビデオサブストリーム中において送信される。

いくつかの実施形態において、ビューポートのサイズ未満である領域断面を作成してもよい。これは、ビューポートまたはシーン中の画像部分のほとんどが静的であるような動作状況において、有用であり得る。変化が起こっていないか変化が少ない静的な画像部分を符号化することは、効率的ではないかもしれない。本明細書に記載の手法において、ビューポートまたはシーンよりも小さい動的な画像部分に対して、１つの領域断面を指定し得る。この領域断面の動的な画像部分は、相対的に高い時空間解像度（例えば相対的に高い空間解像度、相対的に高い時間解像度、相対的に高いリフレッシュレートである、相対的に高い空間周波数のコンテンツを含む、など）にあるビデオサブストリームに、符号化され得る。追加的、選択的、または代替的に、ビデオサブストリームに存在しない画像内容のほとんどは、ビデオバッファからリフレッシュされるか、あるいは別のビデオサブストリームとして時折送られてもよい。

図２Ｄは、ビデオ画像（単数または複数）のある画像部分に対する、ビューポートの例（例えば１０８−２）（例えば図２Ａ〜図２Ｃなどの論理的な空間的位置（２０２）にあるユーザーの視野であってもよい）を示す。図示するように、ビューポート（１０８−２）は高関心のシーン（例えば１１０−４など）を完全に包含していてもよい。ビューポート（１０８−２）は、高関心のシーン（１１０−４）外である１つ以上の低関心のシーンと重なっていてもよい。いくつかの実施形態において、ビューポート（１０８−２）内の高関心のシーン（１１０−４）中の画像部分は、相対的に高い時空間解像度を有するビデオサブストリームに符号化され、一方、ビューポート（１０８−２）と重なる低関心のシーン中の画像部分は、相対的に低い時空間解像度を有する１つ以上のビデオサブストリームに符号化され得る。限定的でない一実施形態例において、ビューポート（１０８−２）と重なる低関心のシーン中の画像部分は、ステージ上の演者の観客を捉えた動的な部分と、変化が遅いか存在しないバックグラウンド情景を捉えた静的な部分とを含み得る。いくつかの実施形態において、ビューポート（１０８−２）と重なる（あるいは重なっていなくてさえよい）低関心のシーン中の動的な部分および静的な部分は、異なる時空間解像度を有する別々のビデオサブストリームに符号化されてもよい。例えば、動的な部分の画像部分の符号化のためにより高い方の異なる（ｄｉｆｆｅｒｅｎｔｉａｌ）時空間解像度を割り当て、静的な部分の画像部分を符号化するためにより低い異なる（ｄｉｆｆｅｒｅｎｔｉａｌ）時空間解像度を割り当ててもよい。追加的、選択的、または代替的に、動的な部分の画像部分を符号化するためにより高いリフレッシュレートを割り当て、静的な部分の画像部分を符号化するためにより低いリフレッシュレートを割り当ててもよい。

図２Ｅは、ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、ユーザーによってビューポート（例えば図１の１０８−１、図２Ａ〜図２Ｄの１０２−２など）内において鑑賞されている、ビデオ画像（単数または複数）中のシーンの例１１０−８を示す。

シーン（１１０−８）は、ユーザーの中心視野を包含するシーン部分２０４と、ユーザーの中心視野と重ならない残りのシーン部分２０６とを含み得る。いくつかの実施形態において、シーン全体（１１０−８）が、異なる時空間解像度にある複数のビデオサブストリームに符号化される画像部分を有する、２つ以上の領域断面中に含まれていてもよい。例えば、シーン部分（２０４）（ちょうどユーザーの中心視野だけであってもよい）が高時空間解像度にあるビデオサブストリームに符号化される画像部分を有するある領域断面に含まれ、一方、シーン部分（２０６）（ユーザーの中心視野外である）が、より低い時空間解像度にある異なるビデオサブストリームに符号化される画像部分を有する別の異なる領域断面に含まれていてもよい。

いくつかの実施形態において、シーン全体（１１０−８）が、同じ時空間解像度にあるビデオサブストリームに符号化される画像部分を有する、１つの領域断面に含まれていてもよい。

追加的、選択的、または代替的に、（例えば低強度など）可変空間解像度を有するブラーフィルタを、シーン全体（１１０−８）の画像部分に適用することにより、シーン全体（１１０−８）の画像部分のうちユーザーの中心視野外に位置する部分から、高空間周波数コンテンツを激減させてもよい。ブラーフィルタは、ユーザーの中心視野を包含するシーン部分（２０４）中において、ゼロまたは少ないぼかしを与えてもよい。ブラーフィルタは、シーン部分（２０６）においてより強いぼかしを与えてもよい。例えば、シーン部分（２０６）中のある所与の空間的位置にあるシーン部分（２０６）におけるぼかしの強度は、空間的位置とユーザーの中心視野の中心との空間的距離に少なくとも部分的に基づいてもよい。

ブラーフィルタリングをシーン（１１０−８）に適用する結果、ユーザーの中心視野内における視覚的明瞭性を維持または確保しながら、ビデオサブストリーム（単数または複数）において伝送すべき映像データの量を大きく減少させ得る。

６．ビデオストリーミングサーバーおよびクライアントの例
図３Ａは、画像処理装置３０２およびマルチ解像度画像生成器３１２などを含む一例としてのビデオストリーミングサーバー３００を示す。いくつかの実施形態において、画像処理装置（３０２）は、画像受信器３０６、領域断面分類器３０８、データリポジトリ３１０などを備える。ビデオストリーミングサーバー（３００）のコンポーネントの一部または全部は、１つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。

いくつかの実施形態において、画像受信器（３０６）は、ＶＲ用途、ＡＲ用途、リモートプレゼンス用途、またはディスプレイ用途などに関連してクラウドベースの画像ソース、カメラシステムなどの画像ソースから入力画像ストリーム３０４を受け取り、入力画像ストリーム（３０４）を１つ以上の入力ビデオ画像（例えば入力ビデオ画像のシーケンスなど）に復号化し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

いくつかの実施形態において、領域断面分類器（３０８）は、入力ビデオ画像中の（例えば全部、実質的に全部、キャプションのテキストボックスを除き全部などの）領域断面を異なるタイプに分類するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。入力ビデオ画像の、異なるタイプの領域断面への分類は、これらのみに限定されないが、画像ベース、グループオブピクチャ（ＧＯＰ）ベース、シーンベース、複数シーンベースなどであり得る。

いくつかの実施形態において、異なるタイプの領域断面は、入力画像ストリーム（３０４）とともに受け取られここから復号化された、画像メタデータ中の映像メタデータに基づいて分類されてもよい。

追加的、選択的、または代替的に、いくつかの実施形態において、異なるタイプの領域断面は、領域断面分類器（３０８）によって生成された映像メタデータに基づいて分類されてもよい。

映像メタデータに基づき、領域断面分類器（３０８）は、入力画像ストリーム（３０４）中の１つ、一部または全部の領域断面が、どの特定のタイプ（単数または複数）に分類されるかを決定し得る。

いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー（３００）によって、および／または上流側のシステムによってディレクター、カラーリスト、映像技師などの映像プロフェッショナルからのユーザー入力を用いて、生成される。いくつかの実施形態において、上流側のシステムは、入力画像ストリーム（３０４）を（例えば均一な）高空間解像度で生成し、かつ／または１つ以上の高帯域幅のネットワーク接続を介して入力画像ストリーム（３０４）をビデオストリーミングサーバー（３００）に供給する、上流側のビデオストリーミングサーバーであってもよい。

いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー（３００）および／または上流側のシステムによって、入力画像ストリーム（３０４）に画像コンテンツ解析を行うことによって生成され得る。そのような画像コンテンツ解析は、以下のうち１つ以上を用いて行い得る。すなわち、解析ルール、画像解析ツール、ハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの１つ以上のコンピュータビジョン技術のうち任意の組み合わせである。

いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー（３００）および／または上流側のシステムによって、あるユーザー母集団のユーザー群が１つ以上のビデオ画像を鑑賞している間にユーザーフィードバックループで集められたユーザー鑑賞行動データに基づいて生成され得る。機械学習は、ユーザーフィードバックループで集められたユーザー鑑賞行動データの解析において適用され得る。例えば、入力ビデオ画像のどの特定の鑑賞角度、領域断面などが、それぞれ極端に高いユーザー関心レベル、やや高いユーザー関心レベル、低いユーザー関心レベル、極端に低いユーザー関心レベルなどであるかを示すユーザー鑑賞行動データに基づいて、ヒートマップを生成し得る。ヒートマップは、映像メタデータに含まれるか、または映像メタデータを生成するために用いられ得る。追加的、選択的、または代替的に、いくつかの実施形態において、何らかの映像プログラム上で実行された、ユーザー入力、画像コンテンツ解析、ユーザーフィードバックループ、機械学習などの任意の組み合わせから得られた、ヒートマップなどの情報を、他の映像プログラムに対して先を見越して適用し得る。

いくつかの実施形態において、データリポジトリ（３１０）は、入力ビデオ画像、映像メタデータなどの画像メタデータの一部または全部について、記憶、更新、検索、削除などの動作をサポートするように構成された、１つ以上のデータベース、１つ以上のデータ記憶ユニット・モジュール・デバイスなどを表す。

いくつかの実施形態において、マルチ解像度画像生成器（３０８）は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを、双方向データフロー３１４を介して受け取り；異なる空間解像度および／または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを生成し；総合ビデオストリームをビデオストリーミングクライアント、ディスプレイデバイス、記憶装置などに、双方向データフロー３１４を介して直接または中間デバイスなどを介し間接的に）提供または送信するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

追加的、選択的、または代替的に、画像回転決定、画像位置合わせ解析、シーンカット検出、座標系間の変換、時間減衰（temporal dampening）、ディスプレイマネジメント、コンテンツマッピング、カラーマッピング、視野管理などの画像処理演算の一部または全部は、ビデオストリーミングサーバー（３００）によって実行されてもよい。

ビデオストリーミングサーバー（３００）は、リアルタイム視覚用途、準リアルタイム視覚用途、非リアルタイム視覚用途、仮想現実、拡張現実、ヘルメットマウンテッドディスプレイ用途、ヘッズアップディスプレイ用途、ゲーム、２Ｄディスプレイ用途、３Ｄディスプレイ用途、マルチビューディスプレイ用途などをサポートするために用いられ得る。例えば、ビデオ画像、画像メタデータ、ビューポートパラメータ（例えばビューポート中心座標、アスペクト比など）、ビューポート毎画像メタデータ、ビューポート画像データなどの一部または全部は、リアルタイム、準リアルタイムなどでビデオストリーミングサーバー（３００）によって生成またはアクセスされる。

図３Ｂは、マルチ解像度画像受信器３１６、ディスプレイマネージャ３１８、画像ディスプレイ３２０などを備えた、一例としての画像描画システム３２４−１を示す。画像描画システム（３２４−１）のコンポーネントの一部または全部は、１つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。

いくつかの実施形態において、マルチ解像度画像受信器（３１６）は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを、双方向データフロー３１４を介して送り、異なる空間解像度および／または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを受け取り、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

ユーザーは、実行時において、ユーザーのビューポートを異なる視野に動かし得る。画像描画システム（３２４−１）は、ユーザーのディスプレイに描画されるビデオコンテンツを生成するように構成される。いくつかの実施形態において、受け取られたビデオストリーム中の１つ以上のビデオサブストリームからの映像データを、綴じ合わせまたは合成することにより、統一化されたイメージを形成してもよい。非ブロック化操作、輪郭除去操作、ぼかし操作などを、ユーザーのディスプレイ上に描画するビデオコンテンツを合成することの一部として行ってもよい。

いくつかの実施形態において、ディスプレイマネージャ（３１８）は、画像ディスプレイ（３２０）上に描画されるビデオコンテンツに対し、画像描画システム（３２４−１）が受け取った総合ビデオストリーム中のビデオサブストリームからビデオコンテンツが復号化および合成されるようなディスプレイマネジメント操作を行い、ディスプレイマネジメントされたビデオコンテンツを描画のために画像ディスプレイ（３２０）に出力し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

追加的、選択的、または代替的に、顔検出、頭部追跡、動き検出、位置検出、回転決定、座標系間の変換、時間変化する画像パラメータの時間減衰、その他の任意の画像パラメータの時間的操作、ディスプレイマネジメント、コンテンツマッピング、トーンマッピング、カラーマッピング、視野管理、予測、マウス、トラックボール、キーボード、フットトラッカー、実際の身体モーションなどを介したナビゲーションなどの画像描画演算の一部または全部が、画像描画システム（３２４−１）によって実行されてもよい。

画像描画システム（３２４−１）は、リアルタイム視覚用途、準リアルタイム視覚用途、非リアルタイム視覚用途、仮想現実、拡張現実、ヘルメットマウンテッドディスプレイ用途、ヘッズアップディスプレイ用途、ゲーム、２Ｄディスプレイ用途、３Ｄディスプレイ用途、マルチビューディスプレイ用途などをサポートするために用いられ得る。例えば、ビデオ画像、画像メタデータ、ビューポートパラメータ（例えばビューポート中心座標、アスペクト比など）、ビューポート毎画像メタデータ、ビューポート画像データなどの一部または全部は、リアルタイム、準リアルタイムなどで画像描画システム（３２４−１）によって生成またはアクセスされる。

本明細書に記載の手法は、広範なシステムアーキテクチャによって実装され得る。本明細書に記載の画像処理演算の一部または全部は、以下のうち１つ以上によって実装され得る。すなわち、クラウドベースのビデオストリーミングサーバー、ビデオストリーミングクライアントに付随して配置されるかこれに内包されるビデオストリーミングサーバー、画像描画システム、ディスプレイデバイスなどである。視覚用途のタイプ、帯域幅・ビットレート割り当て、受信側デバイスの演算能力、リソース、負荷など、ならびにビデオストリーミングサーバーおよび／またはコンピュータネットワークなどの演算能力、リソース、負荷などの１つ以上のファクターに基づき、ある画像処理演算らはビデオストリーミングサーバーによって行われ、別のある画像処理演算らはビデオストリーミングクライアント、画像描画システム、ディスプレイデバイスなどによって行われ得る。

図３Ｃは、マルチ解像度画像生成器（例えば３１２など）がエッジビデオストリーミングサーバー３２４−２中に設けられた構成例を示す。いくつかの実施形態において、図３Ｃの画像処理装置３０２はクラウドベースであってもよい。いくつかの実施形態において、画像処理装置（３０２）は、エッジビデオストリーミングサーバー（３２４−２）などのエッジデバイスとは別の、コアネットワーク中に位置していてもよい。図３Ａにおけるように、画像処理装置（３０２）は、画像受信器３０６、領域断面分類器３０８、データリポジトリ３１０などを有し得る。画像処理装置（３０２）は、相対的に高いビットレートにわたってエッジビデオストリーミングサーバー（３２４−２）と通信する、上流側のビデオストリーミングサーバーを表し得る。画像処理装置（３０２）および／またはエッジビデオストリーミングサーバー（３２４−２）のコンポーネントの一部または全部は、１つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。

いくつかの実施形態において、画像処理装置（３０２）は、ビデオ画像および映像メタデータを、データフロー３２２として下流側のデバイスに（そのうち１つはエッジビデオストリーミングサーバー（３２４−２）であり得る）出力するように構成される。

いくつかの実施形態において、エッジビデオストリーミングサーバー（３２４−２）、またはその中のマルチ解像度画像生成器（３１２）は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを決定し、異なる空間解像度および／または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを生成し、総合ビデオストリームをビデオストリーミングクライアント、ディスプレイデバイス、記憶装置などに、双方向データフロー３１４を介して直接または中間デバイスなどを介し間接的に）提供または送信するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

いくつかの実施形態において、画像描画装置（例えば３２４−１）またはその中のディスプレイマネージャ（例えば図３Ｂの３１８）は、画像ディスプレイ（３２０）上に描画されるビデオコンテンツに対し、画像描画システム（３２４−１）が受け取った総合ビデオストリーム中のビデオサブストリームからビデオコンテンツが復号化および合成されるようなディスプレイマネジメント操作を行い、ディスプレイマネジメントされたビデオコンテンツを描画のために画像ディスプレイ（３２０）に出力し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。

ユーザーは、実行時において、ユーザーのビューポートを異なる視野に動かし得る。画像描画システム（３２４−２）は、ユーザーのディスプレイに描画されるビデオコンテンツを生成するように構成される。いくつかの実施形態において、受け取られたビデオストリーム中の１つ以上のビデオサブストリームからの映像データを、綴じ合わせまたは合成することにより、統一化されたイメージを形成してもよい。非ブロック化操作、輪郭除去操作、ぼかし操作などを、ユーザーのディスプレイ上に描画するビデオコンテンツを合成することの一部として行ってもよい。

７．プロセスフローの例
図４Ａは、本発明の一実施形態例によるプロセスフロー例を示す。いくつかの実施形態例において、１つ以上の計算装置またはコンポーネントによりこのプロセスフローを実行し得る。ブロック４０２において、画像処理装置（例えば図３Ａ〜図３Ｃのビデオストリーミングサーバーまたはビデオストリーミングクライアントなど）が、１つ以上のビデオ画像の画像内容に基づき、前記１つ以上のビデオ画像中の複数のシーンを識別する。

ブロック４０４において、画像処理装置は、前記１つ以上のビデオ画像中の前記複数のシーンに基づき、前記１つ以上のビデオ画像における複数の領域断面を決定する。

ブロック４０６において、前記画像処理装置は、前記複数の領域断面中にある前記１つ以上のビデオ画像の複数の画像部分を、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームに符号化する。

ブロック４０８において、前記画像処理装置は、ストリーミングクライアントデバイスに、前記２つ以上のビデオサブストリームを含む総合ビデオストリームを送信する。

一実施形態において、前記複数の領域断面は、鑑賞者のビューポート内にある第１の領域断面を含み、前記複数の領域断面は、鑑賞者のビューポート内に無い第２の領域断面を含む。

一実施形態において、前記第１の領域断面は、前記複数のシーンにおいて高関心のシーンを有していず、前記第２の領域断面は、前記複数のシーンのうち少なくとも１つの高関心のシーンと重なり、前記第１の領域断面の画像データは第２の領域断面の画像データが符号化される第２の時空間解像度よりもスローな第１の時空間解像度で符号化される。

一実施形態において、前記複数の領域断面のうちいかなる２つの領域断面も、互いに重ならない。

一実施形態において、前記複数の領域断面のうち少なくとも２つの領域断面が、互いに重なる。

一実施形態において、前記複数の領域断面のうち少なくとも２つの領域断面は、異なる空間形状、異なるサイズ、異なるアスペクト比などのうち１つ以上を有する。

一実施形態において、前記複数の領域断面のうち少なくとも１つの領域断面は、前記１つ以上のビデオ画像とともに受け取られた画像メタデータに部分的に基づいて識別される。

一実施形態において、前記複数の領域断面のうち少なくとも１つの領域断面は、前記１つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される。

一実施形態において、前記複数の領域断面のうち少なくとも１つの領域断面は、あるユーザー母集団のユーザー群が前記１つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに部分的に基づいて識別される。

一実施形態において、前記画像処理装置はさらに、鑑賞者の中心視野を包含するシーンの画像データに対しブラーフィルタを適用するように構成されている。

一実施形態において、前記複数のシーンは、鑑賞者のビューポートに包含される高関心のシーンを含んでいる。

一実施形態において、鑑賞者のビューポートは、前記１つ以上のビデオ画像から検出された複数のシーンのうち高関心のシーンを含んでいない。

一実施形態において、前記２つ以上のビデオサブストリームのうち少なくとも１つのビデオサブストリームは、アンカーフレームのみを含んでいる。

一実施形態において、前記２つ以上のビデオサブストリームのうち少なくとも１つのビデオサブストリームは、アンカーフレームおよび非アンカーフレームの両方を含んでいる。

一実施形態において、前記画像処理装置はさらに、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち１つ以上を識別する映像メタデータを生成することと、前記２つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、などを行うように構成されている。

図４Ｂは、本発明の一実施形態例によるプロセスフロー例を示す。いくつかの実施形態例において、１つ以上の計算装置またはコンポーネントによりこのプロセスフローを実行し得る。ブロック４５２において、画像処理装置（例えば図３Ａ〜図３Ｃのビデオストリーミングクライアントなど）は、ストリーミングサーバーから、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームを含む総合ビデオストリームを受け取る。

ブロック４５４において、前記画像処理装置は、前記２つ以上のビデオサブストリームを、１つ以上のビデオ画像の１つ以上の画像部分に復号化する。前記１つ以上の画像部分は、複数の領域断面のうち１つ以上の領域断面中にある。前記複数の領域断面複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定される。前記複数のシーンは、前記１つ以上のビデオ画像の画像内容に基づいて検出される。

ブロック４５６において、前記画像処理装置は、前記１つ以上のビデオ画像の１つ以上の画像部分に基づき、ビデオコンテンツを生成する。

ブロック４５８において、前記画像処理装置は、前記ビデオコンテンツをディスプレイに描画させる。

一実施形態において、前記画像処理装置はさらに、ビューポート情報を前記ストリーミングサーバーに送るように構成される。前記ビューポート情報は、前記１つ以上のビデオ画像に関して鑑賞者のビューポートを導出するために用いられる。

一実施形態において、前記ビューポート情報はさらに、前記１つ以上のビデオ画像に関して前記鑑賞者の中心視野を導出するために用いられる。

一実施形態において、前記画像処理装置はさらに、映像メタデータを前記総合ビデオストリームから復号化するように構成される。前記映像メタデータは、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち１つ以上を識別する。

一実施形態において、前記画像処理装置はさらに、前記ディスプレイに描画される前記ビデオコンテンツを生成することの一部として、非ブロック化操作、輪郭除去操作、ぼかし操作などのうち１つ以上を適用するように構成されている。

一実施形態において、前記画像処理装置はさらに、鑑賞者のビューポートの変化を検出することと、前記鑑賞者のビューポートの変化に応答して、前記総合ビデオストリーム中の前記２つ以上のビデオサブストリームのうち少なくとも１つにおいて既に送信された周辺映像データに基づき、新たなビデオコンテンツを生成することと、を行うように構成されている。

様々な実施形態例において、装置、システム、装置、または１つ以上の他の計算装置が、記載した前述の方法のうちいずれかまたはその一部を実行する。一実施形態において、非一時的なコンピュータ読み取り可能な記憶媒体がソフトウェア命令を格納しており、これらが１つ以上のプロセッサにより実行されたとき、本明細書に記載の方法を実行させる。

別個の実施形態を本明細書において述べているが、本明細書に述べた実施形態の任意の組み合わせおよび／または部分的な実施形態は、組み合わせられてさらなる実施形態を形成し得ることに留意されたい。

８．実装メカニズム−ハードウェア概要
一実施形態によれば、本明細書に説明されている技術は、１つ以上の専用の計算装置により実施される。専用の計算装置は、技術を実行するようハードワイヤードで接続され得るか、または、技術を実行するよう持続的にプログラムされた１つ以上の特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）のようなデジタル電子デバイスを含み得るか、または、ファームウェア、メモリ、その他の格納装置、または何らかの組み合わせにおけるプログラム指令に従って技術を実行するようプログラムされた、１つ以上の汎用のハードウェアプロセッサを含み得る。そのような専用の計算装置はまた、カスタムハードワイヤード論理、ＡＳＩＣ，またはＦＰＧＡとカスタムプログラミングとを組み合わせることにより、技術を達成し得る。専用の計算装置は、デスクトップコンピュータシステム、ポータブルコンピュータシステム、携帯用のデバイス、ネットワーキングデバイス、またはハードワイヤードおよび／またはプログラム論理を組み込むことにより技術を実施する、任意の他のデバイスであり得る。

例えば、図５は、発明の実施形態例が実施され得るコンピュータシステム５００を例示するブロック図である。コンピュータシステム５００は、情報通信のためのバス５０２または他の通信機構と、情報処理のためにバス５０２と結合されたハードウェアプロセッサ５０４とを含む。ハードウェアプロセッサ５０４は、例えば、汎用のマイクロプロセッサであり得る。

コンピュータシステム５００はまた、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶装置のようなメインメモリ５０６を含み、メインメモリ５０６は、バス５０２と結合されることにより、情報およびプロセッサ５０４により実行される指令を格納する。メインメモリ５０６はまた、プロセッサ５０４で実行される指令の実行中に、一時変数または他の中間情報を格納するのに用いられ得る。そのような指令は、プロセッサ５０４にアクセスできる非一時的な記憶媒体に格納される時、コンピュータシステム５００を、指令において指定された動作を実行するカスタマイズされた専用マシーンにする。

コンピュータシステム５００は、プロセッサ５０４に対する静的な情報および指令を格納するようにバス５０２と結合された、読み出し専用メモリ（ＲＯＭ）５０８または他の静的記憶装置をさらに含む。

磁気ディスクまたは光学ディスク、ソリッドステートＲＡＭのような記憶装置５１０が提供され、情報および指令を格納するようにバス５０２に結合される。

コンピュータシステム５００は、バス５０２を経由して液晶ディスプレイのようなディスプレイ５１２と結合されることにより、情報をコンピュータユーザーに表示する。英数字および他のキーを含む入力装置５１４は、バス５０２と結合されることにより、情報およびコマンド選択をプロセッサ５０４に伝達する。別のタイプのユーザー入力装置は、マウス、トラックボールまたはカーソル方向キーのようなカーソルコントロール５１６であり、方向情報およびコマンド選択をプロセッサ５０４に伝達し、ディスプレイ５１２上のカーソルの動きを制御する。この入力装置は、典型的には、２つの軸、第１の軸（例えば、ｘ）および第２の軸（例えば、ｙ）において、２つの自由度を有することにより、装置は平面内の場所を特定できる。

コンピュータ５００は、デバイス固有の配線論理（hard-wired logic）、１つ以上のＡＳＩＣＳまたはＦＰＧＡ、ファームウェアおよび／またはプログラム論理（これらはコンピュータシステムと結合してコンピュータシステム５００を専用のマシーンにするか、または専用のマシーンになるようプログラムする）を用いて本明細書に説明されている技術を実施し得る。一実施形態によれば、本明細書の技術は、メインメモリ５０６に含まれる１つ以上の指令の１つ以上のシーケンスを実行するプロセッサ５０４に応答して、コンピュータシステム５００により実行される。そのような指令は、記憶装置５１０のような別の記憶媒体から、メインメモリ５０６へ読み込まれ得る。メインメモリ５０６に含まれる指令シーケンスの実行により、プロセッサ５０４は、本明細書に説明されているプロセス工程を実行する。別の実施形態では、ハードワイヤード回路は、ソフトウェア指令の代わりに、またはソフトウェア指令と組み合わせて、用いられ得る。

本明細書に用いられる用語「記憶媒体」は、マシーンを特定の形態で動作させるデータおよび／または指令を格納する、任意の非一時的な媒体をいう。そのような記憶媒体は、不揮発性媒体および／または揮発性媒体を含み得る。不揮発性媒体は、例えば、記憶装置５１０のような光学または磁気ディスクを含む。揮発性媒体は、メインメモリ５０６のような動的メモリを含む。記憶媒体の一般的な形態は、例えば、フロッピーディスク、プレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープまたは任意の他の磁気データ記憶媒体、ＣＤ−ＲＯＭ、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理的な媒体、ＲＡＭ、ＰＲＯＭ，およびＥＰＲＯＭ，ＦＬＡＳＨ−ＥＰＲＯＭ、ＮＶＲＡＭ、任意の他のメモリチップまたはカートリッジを含む。

記憶媒体は、伝達媒体とは別個のものであるが、伝達媒体と併せて用いられ得る。伝達媒体は、記憶媒体間の情報転送に関与する。例えば、伝達媒体は、バス５０２を含むワイヤを含む、同軸ケーブル、銅線、光ファイバを含む。伝達媒体はまた、ラジオ波または赤外データ通信時において生成されるような、音波または光波の形態を取り得る。

１つ以上の指令の１つ以上のシーケンスを実行のためにプロセッサ５０４へ転送する際において、様々な形態の媒体が関与し得る。例えば、指令は、最初、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上に担持され得る。リモートコンピュータは、指令を自身の動的メモリに読み込み、モデムを用いて指令を電話線に送り得る。コンピュータシステム５００に固有のモデムは、電話線上においてデータを受け取り、赤外線送信機を用いることにより、データを赤外線信号に変換し得る。赤外線検知器は、赤外線信号で送られたデータを受け取り得、そして適切な回路がデータをバス５０２上に配置し得る。バス５０２は、データをメインメモリ５０６に送り、プロセッサ５０４はメインメモリ５０６から指令を取り出し実行する。メインメモリ５０６により受け取られた指令は、オプションとして、プロセッサ５０４により実行される前または後において、記憶装置５１０上に格納され得る。

コンピュータシステム５００はまた、バス５０２と結合された通信インターフェース５１８を含む。通信インターフェース５１８は、ローカルネットワーク５２２と接続されたネットワークリンク５２０との、双方向のデータ通信結合を提供する。例えば、通信インターフェース５１８は、サービス総合デジタル網（ＩＳＤＮ）カード、ケーブルモデム、衛星モデムまたはモデムであり、対応するタイプの電話線にデータ通信接続を提供し得る。別の例として、通信インターフェース５１８は、ローカルエリアネットワーク（ＬＡＮ）カードであり、適合性のあるＬＡＮへのデータ通信接続を提供する。無線リンクも実施され得る。任意のそのような実施において、通信インターフェース５１８は、様々なタイプの情報を表すデジタルデータストリームを送る、電気的、電磁気的または光学的な信号を送受信する。

ネットワークリンク５２０は、典型的には、データ通信を１つ以上のネットワークを介して他のデータ装置に提供する。例えば、ネットワークリンク５２０は、ローカルネットワーク５２２を介して、ホストコンピュータ５２４への接続、または、インターネットサービスプロバイダ（ＩＳＰ）５２６によって動作されるデータ装置への接続を提供する。そして、ＩＳＰ５２６は、現在一般に「インターネット」５２８と呼ばれている全世界的なパケットデータ通信ネットワークを介して、データ通信サービスを提供する。ローカルネットワーク５２２およびインターネット５２８の両方とも、デジタルデータストリームを搬送する、電気的、電磁気的、または光学的な信号を用いる。様々なネットワークを介した信号、および、ネットワークリンク５２０上および通信インターフェース５１８を介した信号は、コンピュータシステム５００とデジタルデータをやり取りするものであり、伝達媒体の形態例である。

コンピュータシステム５００は、ネットワーク、ネットワークリンク５２０および通信インターフェース５１８を介して、メッセージを送り、プログラムコードを含むデータを受け取り得る。インターネットを例に挙げると、サーバー５３０は、インターネット５２８、ＩＳＰ５２６、ローカルネットワーク５２２および通信インターフェース５１８を介して、アプリケーションプログラムのために要求されるコードを伝達し得る。

受け取られたコードは、受信されてそのままプロセッサ５０４により実行されてもよく、且つ／または、後で実行するために記憶装置５１０または他の不揮発性記憶装置に保存されてもよい。

９．均等物、拡張物、代替物、その他
この明細書中において、態様毎に異なり得る多数の詳細事項に言及しながら本発明の実施形態を説明した。従って、本発明が何たるか、また、本出願人が本発明であると意図するものを示す唯一且つ排他的な指標は、本願が特許になった際の請求の範囲（今後出されるあらゆる訂正を含む、特許となった特定請求項）である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項において明示されていない限定事項、要素、性質、特徴、利点または属性は、その請求項の範囲をいかなる意味においても限定すべきではない。従って、本明細書および図面は、限定的ではなく、例示的であるとみなされるものである。

本発明の様々な局面を、以下の列挙実施形態例（ｅｎｕｍｅｒａｔｅｄｅｘａｍｐｌｅｅｍｂｏｄｉｍｅｎｔｓ）（ＥＥＥ）から理解することができる。
ＥＥＥ１．１つ以上のビデオ画像の画像内容に基づき、前記１つ以上のビデオ画像中の複数のシーンを識別することと、
前記１つ以上のビデオ画像中の前記複数のシーンに基づき、前記１つ以上のビデオ画像における複数の領域断面を決定することと、
前記複数の領域断面中にある前記１つ以上のビデオ画像の複数の画像部分を、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームに符号化することと、
ストリーミングクライアントデバイスに、前記２つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
を包含する映像データをストリーミングする方法であって、
１つ以上の計算装置によって行われる、方法。
ＥＥＥ２．前記複数の領域断面は、鑑賞者のビューポート内にある第１の領域断面を含み、前記複数の領域断面は、鑑賞者のビューポート内に無い第２の領域断面を含む、ＥＥＥ１に記載の方法。
ＥＥＥ３．前記第１の領域断面は、前記複数のシーンにおいて高関心のシーンを有していず、前記第２の領域断面は、前記複数のシーンのうち少なくとも１つの高関心のシーンと重なり、前記第１の領域断面の画像データは、第２の領域断面の画像データが符号化される第２の時空間解像度よりもスローな第１の時空間解像度で符号化される、ＥＥＥ２に記載の方法。
ＥＥＥ４．前記複数の領域断面のうちいかなる２つの領域断面も、互いに重ならない、ＥＥＥ１に記載の方法。
ＥＥＥ５．前記複数の領域断面のうち少なくとも２つの領域断面が、互いに重なる、ＥＥＥ１に記載の方法。
ＥＥＥ６．前記複数の領域断面のうち少なくとも２つの領域断面は、異なる空間形状、異なるサイズ、または異なるアスペクト比のうち１つ以上を有する、ＥＥＥ１に記載の方法。
ＥＥＥ７．前記複数の領域断面のうち少なくとも１つの領域断面は、前記１つ以上のビデオ画像とともに受け取られた画像メタデータに部分的に基づいて識別される、ＥＥＥ１に記載の方法。
ＥＥＥ８．前記複数の領域断面のうち少なくとも１つの領域断面は、前記１つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される、ＥＥＥ１に記載の方法。
ＥＥＥ９．前記複数の領域断面のうち少なくとも１つの領域断面は、あるユーザー母集団のユーザー群が前記１つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに部分的に基づいて識別される、ＥＥＥ１に記載の方法。
ＥＥＥ１０．鑑賞者の中心視野を包含するシーンの画像データに対しブラーフィルタを適用することをさらに包含する、ＥＥＥ１に記載の方法。
ＥＥＥ１１．前記複数のシーンは、鑑賞者のビューポートに包含される高関心のシーンを含んでいる、ＥＥＥ１に記載の方法。
ＥＥＥ１２．鑑賞者のビューポートは、前記１つ以上のビデオ画像から検出された複数のシーンのうち高関心のシーンを含んでいない、ＥＥＥ１に記載の方法。
ＥＥＥ１３．前記２つ以上のビデオサブストリームのうち少なくとも１つのビデオサブストリームは、アンカーフレームのみを含んでいる、ＥＥＥ１に記載の方法。
ＥＥＥ１４．前記２つ以上のビデオサブストリームのうち少なくとも１つのビデオサブストリームは、アンカーフレームおよび非アンカーフレームの両方を含んでいる、ＥＥＥ１に記載の方法。
ＥＥＥ１５．前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち１つ以上を識別する映像メタデータを生成することと、
前記２つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、
をさらに包含する、ＥＥＥ１に記載の方法。
ＥＥＥ１６．映像データを鑑賞者に提示する方法であって、
ストリーミングサーバーから、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームを含む総合ビデオストリームを受け取ることと、
前記２つ以上のビデオサブストリームを１つ以上のビデオ画像の１つ以上の画像部分に復号化することであって、前記１つ以上の画像部分は、複数の領域断面のうち１つ以上の領域断面中にあり、前記複数の領域断面複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定され、前記複数のシーンは、前記１つ以上のビデオ画像の画像内容に基づいて検出され、
前記１つ以上のビデオ画像の前記１つ以上の画像部分に基づき、ビデオコンテンツを生成することと、
前記ビデオコンテンツをディスプレイに描画させることと、を包含し、
１つ以上の計算装置によって行われる、方法。
ＥＥＥ１７．ビューポート情報を前記ストリーミングサーバーに送ることをさらに包含し、前記ビューポート情報は、前記１つ以上のビデオ画像に関して鑑賞者のビューポートを導出するために用いられる、ＥＥＥ１６に記載の方法。
ＥＥＥ１８．前記ビューポート情報はさらに、前記１つ以上のビデオ画像に関して前記鑑賞者の中心視野を導出するために用いられる、ＥＥＥ１７に記載の方法。
ＥＥＥ１９．映像メタデータを前記総合ビデオストリームから復号化することをさらに包含し、前記映像メタデータは、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち１つ以上を識別する、ＥＥＥ１６に記載の方法。
ＥＥＥ２０．前記ディスプレイに描画される前記ビデオコンテンツを生成することの一部として、非ブロック化操作、輪郭除去操作、またはぼかし操作のうち１つ以上を適用することをさらに包含する、ＥＥＥ１６に記載の方法。
ＥＥＥ２１．鑑賞者のビューポートの変化を検出することと、
前記鑑賞者のビューポートの変化に応答して、前記総合ビデオストリーム中の前記２つ以上のビデオサブストリームのうち少なくとも１つにおいて既に送信された周辺映像データに基づき、新たなビデオコンテンツを生成することと、
をさらに包含する、ＥＥＥ１６に記載の方法。
ＥＥＥ２２．ＥＥＥ１〜２１のいずれかに記載の方法を行う、装置。
ＥＥＥ２３．ＥＥＥ１〜２１のいずれかに記載の方法を行う、システム。
ＥＥＥ２４．１つ以上のプロセッサにより実行されたとき、ＥＥＥ１〜２１のうちいずれかに記載の方法を実行させるソフトウェア命令を格納した、非一時的なコンピュータ読み取り可能な記憶媒体。
ＥＥＥ２５．１つ以上のプロセッサと、１つ以上のプロセッサにより実行されたとき、ＥＥＥ１〜２１のうちいずれかに記載の方法を実行させる、１組の命令を格納した１つ以上の記憶媒体とを備えた、計算装置。

Claims

１つ以上のビデオ画像の画像内容に基づき、前記１つ以上のビデオ画像中の複数のシーンを識別することであって、前記複数のシーンは、映像メタデータによって識別される少なくとも１つの高関心のシーンおよび少なくとも１つの低関心のシーンを含み、前記少なくとも１つの高関心のシーンは、前記１つ以上のビデオ画像の鑑賞者の母集団から集められた鑑賞行動データに基づいて生成される、前記映像メタデータに関連するヒートマップによって決定され、
前記１つ以上のビデオ画像の鑑賞者のビューポートを追跡することと、
前記１つ以上のビデオ画像中の前記複数のシーンに基づき、かつ前記鑑賞者のビューポートに基づき、前記１つ以上のビデオ画像における複数の領域断面を決定することであって、前記複数の領域断面は、前記鑑賞者のビューポート内の高関心のシーンに対応する第１の領域断面と、前記鑑賞者のビューポート外の高関心のシーンに対応する第２の領域断面と、前記鑑賞者のビューポート外の低関心のシーンに対応する第３の領域断面とを含み、
可変空間解像度を有するブラーフィルタを鑑賞者の中心視野を包含するシーンの画像データに対し適用することであって、前記鑑賞者の中心視野を包含するシーン部分にはゼロまたは少ないぼかしを与え、前記鑑賞者の中心視野外のシーン部分にはより強いぼかしを与え、前記ぼかしの強度は、ある空間的位置と鑑賞者の中心視野の中心との空間的距離に少なくとも部分的に基づいており、
前記複数の領域断面中にある前記１つ以上のビデオ画像の複数の画像部分を、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームに符号化することであって、前記２つ以上のビデオサブストリームは、前記第１の領域断面に対し第１の時空間解像度を有する第１のビデオサブストリームと、前記第２の領域断面に対し第２の時空間解像度を有する第２のビデオサブストリームと、前記第３の領域断面に対し第３の時空間解像度を有する第３のビデオサブストリームとを含み、前記第３の時空間解像度は前記第２の時空間解像度より低く、前記第２の時空間解像度は前記第１の時空間解像度より低く、
ストリーミングクライアントデバイスに、前記２つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
を包含する映像データをストリーミングする方法であって、
１つ以上の計算装置によって行われる、方法。
１つ以上のビデオ画像の画像内容に基づき、前記１つ以上のビデオ画像中の複数のシーンを識別することであって、前記複数のシーンは、少なくとも１つの高関心のシーンおよび少なくとも１つの低関心のシーンを含み、前記少なくとも１つの高関心のシーンは、ディレクター、カラーリスト、映像技師、または、コンテンツ制作アーティストからのユーザー入力によって決定され、
前記１つ以上のビデオ画像の鑑賞者のビューポートを追跡することと、
前記１つ以上のビデオ画像中の前記複数のシーンに基づき、かつ前記鑑賞者のビューポートに基づき、前記１つ以上のビデオ画像における複数の領域断面を決定することであって、前記複数の領域断面は、前記鑑賞者のビューポート内の高関心のシーンに対応する第１の領域断面と、前記鑑賞者のビューポート外の高関心のシーンに対応する第２の領域断面と、前記鑑賞者のビューポート外の低関心のシーンに対応する第３の領域断面とを含み、
可変空間解像度を有するブラーフィルタを鑑賞者の中心視野を包含するシーンの画像データに対し適用することであって、前記鑑賞者の中心視野を包含するシーン部分にはゼロまたは少ないぼかしを与え、前記鑑賞者の中心視野外のシーン部分にはより強いぼかしを与え、前記ぼかしの強度は、ある空間的位置と鑑賞者の中心視野の中心との空間的距離に少なくとも部分的に基づいており、
前記複数の領域断面中にある前記１つ以上のビデオ画像の複数の画像部分を、２つ以上の異なる時空間解像度にある２つ以上のビデオサブストリームに符号化することであって、前記２つ以上のビデオサブストリームは、前記第１の領域断面に対し第１の時空間解像度を有する第１のビデオサブストリームと、前記第２の領域断面に対し第２の時空間解像度を有する第２のビデオサブストリームと、前記第３の領域断面に対し第３の時空間解像度を有する第３のビデオサブストリームとを含み、前記第３の時空間解像度は前記第２の時空間解像度より低く、前記第２の時空間解像度は前記第１の時空間解像度より低く、
ストリーミングクライアントデバイスに、前記２つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
を包含する映像データをストリーミングする方法であって、
１つ以上の計算装置によって行われる、方法。
前記複数の領域断面は、鑑賞者の中心視野内にある高関心のシーンに対応する第４の領域断面を含み、前記２つ以上のビデオサブストリームは、前記第４の領域断面に対し第４の時空間解像度を有する第４のビデオサブストリームを含み、前記第４の時空間解像度は前記第１の時空間解像度より高い、請求項１または２に記載の方法。
前記複数の領域断面のうち少なくとも１つの領域断面は、前記１つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される、請求項１から３のいずれかに記載の方法。
前記複数の領域断面のうち少なくとも２つの領域断面は、異なる空間形状、異なるサイズ、または異なるアスペクト比のうち１つ以上を有する、請求項１から４のいずれかに記載の方法。
前記２つ以上のビデオサブストリームのうち少なくとも１つのビデオサブストリームは、アンカーフレームのみを含んでいる、請求項１から５のいずれかに記載の方法。
前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち１つ以上を識別する前記映像メタデータを生成することと、
前記２つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、
をさらに包含する、請求項１に記載の方法。
前記第３のビデオサブストリームは非アンカーフレームを含まない、請求項１から７のいずれかに記載の方法。
機械学習を適用して前記鑑賞行動データを解析することをさらに包含し、
前記ヒートマップは、解析した前記鑑賞行動データに基づいて生成される、請求項１に記載の方法。
請求項１から９のいずれかに記載の方法を行う、装置。
請求項１から９のいずれかに記載の方法を行う、システム。
１つ以上のプロセッサにより実行されたとき、請求項１から９のうちいずれかに記載の方法を実行させるソフトウェア命令を含むコンピュータプログラム。
１つ以上のプロセッサと、１つ以上のプロセッサにより実行されたとき、請求項１から９のうちいずれかに記載の方法を実行させる、１組の命令を格納した１つ以上の記憶媒体とを備えた、計算装置。