JP6884856B2 - コンテンツに基づいた映像データのストリーム分割 - Google Patents

コンテンツに基づいた映像データのストリーム分割 Download PDF

Info

Publication number
JP6884856B2
JP6884856B2 JP2019516408A JP2019516408A JP6884856B2 JP 6884856 B2 JP6884856 B2 JP 6884856B2 JP 2019516408 A JP2019516408 A JP 2019516408A JP 2019516408 A JP2019516408 A JP 2019516408A JP 6884856 B2 JP6884856 B2 JP 6884856B2
Authority
JP
Japan
Prior art keywords
video
image
scene
region cross
viewport
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019516408A
Other languages
English (en)
Other versions
JP2019534614A (ja
Inventor
アトルール,チェイタニア
ナイナン,アジト
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2019534614A publication Critical patent/JP2019534614A/ja
Application granted granted Critical
Publication of JP6884856B2 publication Critical patent/JP6884856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Description

技術
本発明は、画像の符号化および描画全般に関し、特に、コンテンツに基づいた映像データのストリーム分割に関する。
発明の背景
ニアアイディスプレイなどによる仮想現実用途において、人間の視覚が、あらゆる可能な鑑賞角度において常にピクセル化効果(pixilation effects)を知覚することを妨げるような空間解像度で画像を鑑賞する際にシームレスな体験を得るためには、望まれる映像データの量は、4K解像度の18ビュー分(eighteen 4K resolution views)と同等であり得る。望まれる映像データとしてこの量は膨大であり、映像データを圧縮および展開するのに必要な帯域幅の量および計算能力を考慮すると、現在のネットワークインフラストラクチャにおけるニアアイディスプレイなどの広範なディスプレイデバイスによってサポートされるには現在のところ実用的ではない。
いくつかの技術は、球を1つの角錐の有する多数の「角錐面」に分割することによってこの問題に対処している。角錐底面は、視野(FOV)のすぐ周囲を覆い、高解像度の画像を担う。他の底面でない角錐面は、低解像度の画像を担う。しかし、これらの技術では、高解像度の画像を見る際に、ユーザーがFOVを底面でない角錐面に変更するたびに顕著な遅れ(例えば12〜15ミリ秒より長いなど)を被る。さらに、角錐は面積/体積に基づいて分割されるため、ユーザーのFOVは2つの角錐面と交差し、FOVの一部は低解像度のままで残り得る。
本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、別途示唆のない限り、1以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。
添付図面の各図において、本発明を限定する事なく例示する。同様の部材には同様の参照符号を付している。
図1は、ビデオ画像の一例を示す。 図2Aは、ユーザーに鑑賞されているビデオ画像(単数または複数)の、領域断面の例を示す。 図2Bは、ユーザーに鑑賞されているビデオ画像(単数または複数)の、領域断面の例を示す。 図2Cは、ユーザーに鑑賞されているビデオ画像(単数または複数)の、領域断面の例を示す。 図2Dは、ビューポートの一例を示す。 図2Eは、シーンの一例を示す。 図3Aは、ビデオストリーミングサーバーおよびクライアントの例を示す。 図3Bは、ビデオストリーミングサーバーおよびクライアントの例を示す。 図3Cは、ビデオストリーミングサーバーおよびクライアントの例を示す。 図4Aは、プロセスフローの例を示す。 図4Bは、プロセスフローの例を示す。 図5は、本明細書に記載のコンピュータまたは計算装置が実装され得る、ハードウェアプラットフォームの一例を示す。
実施形態例の説明
コンテンツに基づいた映像データのストリーム分割に関連する実施形態例を、本明細書に記載する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。
本明細書において、以下の概略にしたがって実施形態例を記載する:
1.一般的概要
2.ビデオ画像
3.領域断面および関心のシーン
4.ビデオ画像からのシーン検出
5.シーン、領域断面、およびビデオサブストリームの例
6.ビデオストリーミングサーバーおよびクライアントの例
7.プロセスフローの例
8.実装メカニズム−ハードウェア概要
9.均等物、拡張物、代替物、その他
1.一般的概要
本概要は、本発明の一実施形態例が有するいくつかの側面につき、基本的説明を提示する。本概要は、実施形態例が有する諸側面についての広範かつ網羅的な要約ではない、ということに留意すべきである。さらに留意すべきは、本概要は、実施形態例が有する任意の特に重要な側面や要素を示すものとして理解されるようには意図されておらず、また、その特定の実施形態例のあるいは広く本発明の何らの範囲を、規程するものとして理解されるようにも意図されていない。本概要は、単に、実施形態例に関するいくつかの概念を凝縮された簡素な形式で提示するものであって、以下に続く、諸実施形態例についてのより詳細な説明に対する単なる概念的な前置きとして理解されるべきである。別個の実施形態を本明細書において述べているが、本明細書に述べた実施形態の任意の組み合わせおよび/または部分的な実施形態は、組み合わせられてさらなる実施形態を形成し得ることに留意されたい。
本明細書に記載の手法は、ビデオストリーミングサーバー(単数または複数)とビデオストリーミングクライアント(単数または複数)との間の映像データのストリーミングのための帯域幅使用を最小にするために用いられ得る。ビデオコンテンツの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、オーディオビジュアルプログラム、映画、映像プログラム、TV放送、コンピュータゲーム、拡張現実(AR)コンテンツ、仮想現実(VR)コンテンツなどである。ビデオストリーミングクライアントの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、ディスプレイデバイス、ニアアイディスプレイを有する計算装置、ヘッドマウントディスプレイ(HMD)、モバイルデバイス、ウェアラブルディスプレイデバイス、テレビなどのディスプレイを備えたセットトップボックス、映像モニタ、その他である。
本明細書において、「ビデオストリーミングサーバー」とは、ビデオコンテンツの少なくとも一部分(例えばユーザーのFOVあるいはビューポートなどに対応する)を1つ以上のディスプレイ上に描画するために、1つ以上のビデオストリーミングクライアントに対してビデオコンテンツを用意しストリーミングする、1つ以上のデバイスを指し得る。ビデオコンテンツが描画されるディスプレイは、1つ以上のビデオストリーミングクライアントの一部であってもよく、あるいは1つ以上のビデオストリーミングクライアントとともに動作していてもよい。
ビデオストリーミングサーバーの例としては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、ビデオストリーミングクライアント(単数または複数)に対しリモートに位置するクラウドベースのビデオストリーミングサーバー、ローカルの有線または無線ネットワークを介してビデオストリーミングクライアント(単数または複数)に接続されたローカルのビデオストリーミングサーバー、VRデバイス、ARデバイス、デジタルメディアデバイス、デジタルメディアレシーバー、セットトップボックス、ゲーム機(例えばXbox)、汎用パーソナルコンピュータ、タブレット、Apple TVやRoku boxなどの専用デジタルメディアレシーバー、その他である。
本明細書に記載の手法において、以下のうち1つ以上に基づいて、1つ以上のビデオ画像の全エリアを、複数の領域断面(multiple regional cross sections)に分割し得る。すなわち、ユーザーのビューポート、ユーザーの中心視野、高関心のシーン、低関心のシーンなどである。領域断面群のそれぞれは、ビデオ画像の全エリアの適切な部分集合のみを表していてもよい。例えば、180度×100度のビューまで、240度×90度のビューまで(人間の視覚の視野に相当)、などである。ただし、全ての可能な領域断面の組み合わせによって、ビデオ画像の全エリアをカバーし得る。
ビデオストリーミングサーバーは、極端に大きな帯域幅割り当て(例えば18個の4Kビデオストリームに相当など)を用いて、固定の高時空間解像度にある全空間面積にわたってビデオ画像を符号化および送信するのではなく、異なる時空間解像度にある複数のビデオサブストリーム中の、ビデオ画像群の複数の領域断面における各画像部分を、下流側の受信側デバイスに送信することができる。本明細書において、時空間解像度は、空間解像度のみ(高空間周波数コンテンツを含むがこれに限られない)、時間解像度のみ(画像リフレッシュレートを含むがこれに限られない)、または空間解像度および時間解像度の組み合わせを言う。したがって、本明細書に記載の手法を用いて、ビデオストリーミングサーバーとビデオストリーミングクライアント(例えばストリーミングされた映像データを消費および/または再生するクライアントデバイスなど)との間でストリーミングされる映像データの量を、減らすまたは最小化することができ、これにより、映像データをストリームするために相対的に大きな帯域幅割り当てを用いる必要性を減らしまたは最小化し、かつ、広範なビデオストリーミング用途を広範な下流側のデバイスに対し効率的にサポートし得る。
同時に、本明細書に記載の手法は、下流側の受信側デバイスのユーザーが、自由にユーザーの鑑賞角度、またはビデオ画像に対する視野を変更することを可能にするために用いられ得る。全てではないとしても大抵の動作状況において、ユーザーには、本明細書に記載する手法を用いない他のいくつかのアプローチにおいて見受けられる視覚的アーチファクトや心理的不快感などが比較的少ない、シームレスな鑑賞体験を得られるような、高解像度ビデオコンテンツが提示され得る。他のアプローチにおいて見受けられる視覚的アーチファクトや心理的不快感などとしては、必ずしもこれらに限定されないが、以下の任意のものを含む。すなわち、人間の視覚によって知覚される高解像度イメージに遷移する際の長い遅れ、人間の視覚の中心視覚領域内で感知され得る低解像度イメージ、ユーザーの自然な視覚関連の直感とユーザーに対し実際に描画されたビデオコンテンツとの間の不一致、鑑賞者が鑑賞角度を動かす際のイメージにおける視覚的明瞭性の急激な低下、低解像度から高解像度への知覚され得るような遅い遷移、鑑賞者が鑑賞角度を動かす際における、以前にははっきりしていなかった画像細部についてファジーな画像を表示してしまうことなどである。
本明細書に記載の実施形態例は、映像データのストリーミングに関連する。1つ以上のビデオ画像の画像内容に基づいて、1つ以上のビデオ画像における複数のシーンを識別する。1つ以上のビデオ画像の、複数の領域断面を、1つ以上のビデオ画像における複数のシーンに基づいて決定する。複数の領域断面内の、1つ以上のビデオ画像の複数の画像部分を、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームに符号化する。この2つ以上のビデオサブストリームを含む総合ビデオストリームを、ストリーミングクライアントデバイスに送信する。
本明細書に記載の実施形態例は、ストリーミングされた映像データを鑑賞者に提示することに関する。2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームを含む総合ビデオストリームが、ストリーミングサーバーから受け取られる。この2つ以上のビデオサブストリームを、1つ以上のビデオ画像の1つ以上の画像部分に復号化する。この1つ以上の画像部分は、複数の領域断面のうち1つ以上の領域断面中にある。複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定される。複数のシーンは、1つ以上のビデオ画像の画像内容に基づいて検出される。上記1つ以上のビデオ画像の上記1つ以上の画像部分に基づき、ビデオコンテンツを生成する。ビデオコンテンツは、ディスプレイにおいて描画される。
いくつかの実施形態例において、本明細書に記載の機構は、以下を含むがこれに限定されないメディア処理システムの一部を形成する。すなわち、クラウドベースのサーバー、モバイルデバイス、仮想現実システム、拡張現実システム、ヘッドアップディスプレイデバイス、ヘルメットマウンテッドディスプレイデバイス、CAVEタイプシステムまたは壁サイズのディスプレイ、テレビゲーム装置、ディスプレイデバイス、メディアプレイヤー、メディアサーバー、メディア制作システム、カメラシステム、ホーム用システム、通信デバイス、映像処理システム、ビデオコーデックシステム、スタジオシステム、ストリーミングサーバー、クラウドベースのコンテンツサービスシステム、ハンドヘルドデバイス、ゲーム機器、テレビ、シネマディスプレイ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、携帯無線電話、電子ブックリーダー、POS端末(point of sale terminal)、デスクトップコンピュータ、コンピュータワークステーション、コンピュータサーバー、コンピュータキオスク、または様々な他の種類の端末およびメディア処理ユニットである。
本明細書中に記載の好ましい実施形態ならびに一般的な原則や特徴に対する様々な変更は、当該分野の当業者にとっては容易に明らかであろう。よって、本開示は提示された実施形態に限定されるように意図されているのではなく、本明細書中に記載の原則および特徴に合致する最も広い範囲を与えられるべきである。
2.ビデオ画像
いくつかの実施形態において、本明細書に記載のビデオ画像は、1つ以上の空間環境において用いられる1つ以上のカメラシステムによって撮像され得る。空間環境の例としては、これらのみに限定されないが、物理的空間環境、シミュレーションされた空間環境、映画スタジオ、屋外シーン、屋内シーン、トンネル、通り、乗り物、船、飛行機、大気圏外空間などがある。カメラシステムの例としては、これらのみに限定されないが、ライトフィールドカメラ、重複するおよび/または重複しない視野を有する複数のカメラ、デジタルカメラ、アナログカメラ、ウェブカメラなどがある。
本明細書の記載におけるビデオ画像は、様々な空間形状(例えば矩形画像、球形画像など)の1画像中に分布する画素値として、記録されまたはまとめられ(asssemble)得る。空間形状の例としては、必ずしもこれらのみに限定されないが、以下の任意のものを含む。すなわち、矩形、球形、パノラマ形状、規則的形状、不規則的形状、平面形状、曲面形状などである。
図1は、ビデオ画像100の一例を示す。いくつかの実施形態において、領域画像(100)は、(例えば高解像度などの)ビデオ画像のシーケンス中の、個別の1つの高解像度領域画像を表し得る。VR用途、AR用途、リモートプレゼンス用途、ディスプレイ用途などのうちの1つ以上をサポートするに際して、ビデオストリーミングサーバーは、受け取ったビデオ画像のシーケンスを入力として受け取り、これを、(下流側の)ビデオストリーミングクライアントにストリーミングするためのビデオコンテンツを用意するために用いるように、構成され得る。
本明細書に記載のビデオ画像は、ワールド座標系、カメラシステムに対して静的な座標系、空間環境に対して固定的な座標系などの、広範な座標系のうち任意のもので表され得る。ビデオ画像(100)中の空間的位置は、絶対位置(例えばワールド座標系で表されるなど)または相対位置(例えばカメラシステムに対して静的な相対座標系で表される)などのいずれであってもよい。
いくつかの実施形態において、ビデオ画像(100)中の1つの空間的位置(例えば1画素など)は、1組の特定の(x,y)座標値を用いて表され得る。
3.領域断面および関心のシーン
本明細書において、ビデオ画像(100)中の1つの領域断面(regional cross section)とは、空間面積部分または空間体積部分を指し、ビデオ画像(100)中の、空間的位置(例えば連続する(contiguous)、またはばらばら(disjoint)、など)の集合によって形成され得る。ビデオ画像(100)中のある特定の領域断面は、以下のうち1つ以上によって表され得る。すなわち、ビデオ画像(100)上の、面積部分、空間形状、空間領域などである。
本明細書の記載において、シーンとは、そのビデオ画像(単数または複数)の全エリア中の特定の1つの領域断面を占有する、ビデオ画像(単数または複数)の特定の1つの画像部分を指し得る。ビデオ画像(単数または複数)は、そのビデオ画像(単数または複数)の全エリア中における異なる映像断面を占有する、複数のシーンを含み得る。各シーンは、そのシーン中のビデオ画像(単数または複数)の特定の画像部分について決定される特定のユーザー関心レベルに基づき、高関心のシーン(例えば110−2など)、低関心のシーン(例えば110−1、110−3など)などに分類され得る。
いくつかの実施形態において、ビデオ画像(100)中において表される全空間面積(または体積)から分割された、ビデオ画像(100)の全ての領域断面(例えば102−1、102−2、102−3など)は、1つ以上の領域断面タイプに基づいて分類される。ビデオ画像(100)中の領域断面群中における画像部分は、領域断面タイプに依存する異なる時空間解像度にある、複数のビデオサブストリームに符号化され得る。例えば、領域断面がユーザーの(または鑑賞者の)ビューポート内にあること、ユーザーの(または鑑賞者の)中心視野内にあること、ユーザーの(または鑑賞者の)ビューポートまたは中心視野の外側の高関心のシーン内にあることなどを示す、特定の領域断面タイプの領域断面の画像部分は、相対的に高い時空間解像度で符号化され得る。領域断面がユーザーの(または鑑賞者の)ビューポート内、ユーザーの(または鑑賞者の)中心視野内、ユーザーの(または鑑賞者の)ビューポートまたは中心視野の外側の高関心のシーン内などに無いことを示す特定の領域断面タイプの画像部分は、相対的に低い時空間解像度で符号化され得る。
例示目的として限定はしないが、領域画像(100)の領域断面群(例えば102−1、102−2、102−3など)は、ユーザーの(通知された(signaled))ビューポート(例えば図2Aの108−1、108−2など)を少なくともカバーする、ビデオ画像(100)の第1の領域断面(単数または複数)(例えば102−1など)を含む。
ユーザーのビューポートは、ディスプレイ上において与えられたユーザーの視野を指し得、ここを通してユーザーがビデオ画像(100)のある画像部分を視る。実行時におけるユーザーのビューポートは、顔面追跡装置および/または眼球追跡装置によって追跡され得る。顔面/眼球追跡装置(単数または複数)は、ビデオ画像(100)の画像部分が描画されるディスプレイを用いて、リアルタイムに動作し得る。ユーザーが鑑賞角度および/または鑑賞距離を時々変えるたびに、顔面/眼球追跡装置(単数または複数)が、ビデオ画像のシーケンスが表現されている座標系における鑑賞角度および/または鑑賞距離を追跡および算出し、ビューポートの時間的シーケンス(または視野の時間的シーケンス)を生成し、ビューポートの時間的シーケンス中の各ビューポート(例えば図2Aの108−1、108−2など)を、本明細書に記載するビデオストリーミングサーバーに通知する。ビデオストリーミングサーバーが受け取る、これら各通知されたユーザーのビューポートは、時刻値または時刻値に対応するビューポートインデックス値によってインデックス付けされ得る。時刻値は、本明細書に記載のビデオストリーミングサーバーによって、ビデオ画像のシーケンス中のある特定のビデオ画像に対応付けまたは相関付けされ得る。
ユーザーのビューポート(例えば図2Aの108−1、108−2など)をカバーする第1の領域断面(単数または複数)(例えば102−1など)は、領域断面の分類のために用意された領域断面タイプのなかで、ビューポートタイプとして分類される。
いくつかの実施形態において、第1の領域断面(単数または複数)(例えば102−1など)はさらに、ユーザーの中心視野をカバーする1つ以上の第1の領域断面と、ユーザーの中心視野をカバーしない1つ以上の他の第1の領域断面とに分割される。1つ以上の第1の領域断面は、追加的、選択的、または代替的に、領域断面の分類のために用意された領域断面タイプのなかで、中心視野タイプとして分類され得る。1つ以上の他の第1の領域断面は、追加的、選択的、または代替的に、領域断面の分類のために用意された領域断面タイプのなかで、非中心視野タイプとして分類され得る。
ユーザーのビューポート内の領域断面群に加えて、ビデオ画像(100)の領域断面(例えば102−1、102−2、102−3など)はまた、ユーザーのビューポート(例えば図2Aの108−1、108−2など)をカバーしない、ビデオ画像(100)の第2の領域断面(単数または複数)(例えば102−2、102−3など)を含んでいてもよい。第2の領域断面(例えば102−2、102−3など)は、領域断面の分類のために用意された領域断面タイプのなかで、非ビューポートタイプとして分類され得る。
一実施形態例において、様々なユーザー関心レベルにある1つ以上のシーンに対応させるか、これらの存在を示すように、領域断面タイプを用いてもよい。1つの領域断面(例えば102−2など)が、高関心のシーン(例えば110−2など)に対応させられるか、またはその領域断面が少なくとも部分的にこれと重なることを示し得る。また別の領域断面(例えば102−3など)が、低関心のシーン(例えば110−3など)に対応させられるか、その領域断面がこれによって完全に占有されていることを示し得る。
いくつかの実施形態において、ビデオ画像(単数または複数)(例えば100など)中の領域断面(例えば102−1、102−2、102−3など)の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像(単数または複数)の実際の画像内容を考慮せずに事前に静的に固定されたものではなく、むしろ、ユーザーのビューポート、ユーザーの中心視野、ビデオ画像中において検出されたシーン(単数または複数)、シーンを構成する画像細部の形状、サイズ、アスペクト比、空間的位置など、またはその他に基づいて決定または算出される(例えば実際の画像内容の前処理を介して、実行時において、動的になど)。
例えば、ビデオ画像(100)中の第1の領域断面(単数または複数)(例えば102−1など)は、ユーザーのビューポート(例えば108−1など)、ユーザーの中心視野、ユーザーのビューポート(例えば108−1など)または中心視野と重なる高関心のシーンなどに基づいて、生成または識別され得る。ビデオ画像(100)中の第1の領域断面(単数または複数)(例えば102−1など)の形状、サイズ、アスペクト比、空間的位置などは、ユーザーのビューポート(例えば108−1など)、ユーザーの中心視野、ユーザーのビューポート(例えば108−1など)または中心視野と重なる高関心のシーンなどの形状、サイズ、アスペクト比、空間的位置などに基づいて、決定または選択され得る(例えば実際の画像内容の前処理を介して、実行時において、動的になど)。
ただし、第1の領域断面(単数または複数)(例えば102−1など)の形状、サイズ、アスペクト比、空間的位置などは、ユーザーのビューポート(例えば108−1など)、ユーザーの中心視野、ユーザーのビューポート(例えば108−1など)または中心視野と重なる高関心のシーン(例えば110−1など)などの、形状、サイズ、アスペクト比、空間的位置などに対して、同一あるいは正確に同じ線引きをされている必要はないことに留意されたい。
いくつかの実施形態において、もしユーザーのビューポートが、1つの完全な高関心のシーンを空間的に含むまたはカバーすることが決定されたならば、第1の領域断面(単数または複数)(例えば102−1など)は、ビューポート(例えば108−1など)の空間形状に近似しこれを包含する空間形状の領域断面からなるように、生成または識別され得る。ただし、もし高関心のシーンがユーザーの完全なビューポートを空間的に含むまたはカバーすると決定されたならば、第1の領域断面(単数または複数)(例えば102−1など)は、高関心のシーンに近似しこれを包含する空間形状からなるように、生成または識別され得る。さらに、もし高関心のシーンが、ユーザーの完全なビューポートに対し部分的、つまり完全にではなく空間的に重なることが決定されたならば、第1の領域断面(単数または複数)(例えば102−1など)は、高関心のシーンとユーザーの完全なビューポートとの(空間的)和(union)に近似しこれを包含する空間形状の領域断面からなるように、生成または識別され得る。
ビデオ画像(100)の第1の領域断面(単数または複数)の一部または全部などの、ユーザーのビューポートまたはユーザーの中心視野内の画像部分は、高時空間解像度にある単一のビデオサブストリームに符号化されて、下流側の受信側デバイスに提供され得る。この結果、ユーザーが高関心のシーン内で鑑賞角度を動かしたとしても、第1の領域断面(単数または複数)(例えば102−1など)内の画像部分(単数または複数)を有するように符号化されたこの単一のビデオサブストリームで十分に、高関心のシーンのシームレスな鑑賞体験を得ることができる。
いくつかの実施形態において、第2の領域断面(例えば102−2、102−3など)は、ビデオ画像(100)におけるユーザーのビューポート内に無いシーン(例えば110−2、110−3など)に基づいて生成または識別され得る。ビデオ画像(100)中の第2の領域断面(例えば102−2、102−3など)の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像(100)におけるユーザーのビューポート内に無いシーン(例えば110−2、110−3など)の形状、サイズ、アスペクト比、空間的位置などに基づいて、決定または選択され得る(例えば実際の画像内容の前処理を介して、実行時において、動的になど)。
ただし、第2の領域断面(例えば102−2、102−3など)の形状、サイズ、アスペクト比、空間的位置などは、ビデオ画像(100)におけるユーザーのビューポート内に無いシーン(例えば110−2、110−3など)の、形状、サイズ、アスペクト比、空間的位置などに対して、同一あるいは正確に同じ線引きをされている必要はないことに留意されたい。
4.ビデオ画像からのシーン検出
高関心のシーン(例えば110−2など)、低関心のシーン(例えば110−2、110−3など)などの様々なユーザー関心レベルにある、ビデオ画像(100)中のシーンは、ビデオ画像(単数または複数)内の領域断面の画像部分の符号化よりも前および/またはその最中において、ビデオ画像(単数または複数)(例えば100など)について決定され得る。
いくつかの実施形態において、ビデオ画像(単数または複数)(例えば100など)中の様々なユーザー関心レベルのシーンは、ディレクター、カラーリスト、映像技師、コンテンツ制作アーティストなどの映像プロフェッショナルからのユーザー入力に少なくとも部分的に基づいて、生成または識別され得る。映像プロフェッショナルは、ビデオ画像(単数または複数)中のシーンを識別または認識し、それらシーンを高関心のシーン(例えば110−2など)、低関心のシーン(例えば110−1、110−3など)などに分類し得る。例えば、映像プロフェッショナルは、ビデオ画像(単数または複数)(例えば100など)に示される特定の人物にフォーカスする高関心のシーン(例えば110−2など)を指定する、ユーザー入力を提供してもよい。映像プロフェッショナルはまた、ビデオ画像(単数または複数)(例えば100など)に示されるステージやフットボールなどの特定の物体にフォーカスする高関心のシーン(例えば110−2など)を指定する、ユーザー入力を提供してもよい。映像プロフェッショナルは、ビデオ画像(単数または複数)(例えば100など)をプレビューしながら、またはコンサート、ゲーム、スピーチなどから生中継で生成されるビデオ画像(単数または複数)(例えば100など)をモニターしながら、ユーザー入力を提供してもよい。
いくつかの実施形態において、ビデオ画像(単数または複数)(例えば100など)中の様々なユーザー関心レベルのシーンは、ビデオ画像(単数または複数)(例えば100など)の画像コンテンツ解析に少なくとも部分的に基づいて、生成または識別され得る。いくつかの実施形態において、エクイレクタングラー画像表現の360度×180度の角度にわたって分布するビデオ画像(例えば100など)の全エリアの一部または全部を解析、評価などすることにより、ビデオ画像(100)における高関心のシーン(例えば110−2など)、低関心のシーン(例えば110−1、110−3など)などを決定または識別してもよい。本明細書に記載の画像コンテンツ解析は、以下のうち1つ以上を用いて行い得る。すなわち、解析ルール、画像解析ツール、ハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの1つ以上のコンピュータビジョン技術のうち任意の組み合わせである。
例えば、ビデオ画像(単数または複数)(例えば100など)における視認対象物体、視認対象要素など(例えばイベントにおけるステージ、フットボールゲームにおけるフットボール、映画における主人公、顕著な視認特徴など)は、解析ルール、画像解析ツール、そしてハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの1つ以上のコンピュータビジョン技術のうち任意の組み合わせ、のうち1つ以上に基づき、様々なユーザー関心レベルを有するとして識別または認識および評価され得る。追加的、選択的、または代替的に、ビデオ画像(単数または複数)(例えば100など)における視認対象物体、視認対象要素などは、同じ画像中に存在する他の視認対象物体、視認対象要素などに基づいて意味論的に見出されることができる。例えば、同じ画像中にフットボールを見出した後に、プレイヤー達を意味論的に見出すことができる。
ビデオ画像(単数または複数)(例えば100など)において決定される視認対象物体、視認対象要素などを用いて、ビデオ画像(単数または複数)(例えば100など)中のシーンを生成または識別し得る。イベントのビデオ画像におけるステージ、フットボールゲームのビデオ画像におけるフットボールなどを含むシーンを、最も高いユーザー関心レベルを有するとして評価し、したがって高関心のシーン(例えば110−2など)であると決定してもよい。ステージやフットボールを含まないシーンは、相対的に低いユーザー関心レベルを有するとして評価し、したがって低関心のシーン(例えば110−1、110−3など)であると決定してもよい。
いくつかの実施形態において、ビデオ画像(単数または複数)(例えば100など)中の様々なユーザー関心レベルのシーンは、あるユーザー母集団のユーザー群が1つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに少なくとも部分的に基づいて、生成または識別されてもよい。例えば、入力ビデオ画像のどの特定の鑑賞角度、面積部分などが、それぞれ極端に高いユーザー関心レベル、やや高いユーザー関心レベル、低いユーザー関心レベル、極端に低いユーザー関心レベルなどであるかを示すユーザー鑑賞行動データに基づいて、ヒートマップを作成してもよい。このヒートマップを用いて、ビデオ画像(単数または複数)中のシーンを識別または決定し、それらシーンの各ユーザー関心レベルを評価または決定し得る。
いくつかの実施形態において、ヒートマップは、ユーザーフィードバックループに基づいて(例えば動的に、ある時点までなど)更新され得る。最初は、いずれの様々なユーザー関心レベルのシーンもヒートマップに基づいて決定されない。こうして、ヒートマップの最初のバージョンに基づいて、ストリーミングされた映像データを介してビデオ画像(単数または複数)を鑑賞しているユーザーは、例えば、様々なユーザー関心レベルのシーンを識別するためのみにヒートマップが用いられるような動作状況において、視覚的アーチファクト、心理的不快感などに晒され得る。ユーザー鑑賞行動データは、あるユーザー母集団のユーザー群がビデオ画像(単数または複数)を鑑賞している間に、ユーザーのデバイスによって集められ得る。追加的、選択的、または代替的に、集められたユーザー鑑賞行動データを解析するために、機械学習を実装してもよい。ユーザー鑑賞行動データは、ビデオ画像(単数または複数)の異なる面積部分に関しての、ユーザーの鑑賞角度の空間分布(または統計分布)、ある所与の鑑賞角度におけるユーザーの鑑賞時間長などを提供し得る。ユーザーの鑑賞角度の空間分布、ある所与の鑑賞角度におけるユーザーの鑑賞時間長などを用いて、ビデオ画像(単数または複数)中の様々な関心レベルのシーンを識別し得る。より多くのユーザー鑑賞行動データが集められてヒートマップに導入されるにしたがって、様々な関心レベルのシーンが比較的正確に検出され得る。
いくつかの実施形態において、ビデオ画像(100)における、様々なユーザー関心レベルのシーン、様々なユーザー関心レベルのシーンから生成された領域断面、シーンおよび/または領域断面に関連する幾何学情報などの、一部または全部を指定(例えば座標、位置、境界についてなど)する映像メタデータを、ビデオ画像(100)とともに、さらなる処理のために下流側のモジュールまたはデバイス(例えばビデオストリーミングサーバーまたはその中のモジュールなど)に提供してもよい。いくつかの実施形態において、映像メタデータは、新たなユーザー入力、新たなユーザー鑑賞データ、新たな画像コンテンツ解析の繰り返しなどのうち1つ以上とともに、時々、連続的に、周期的に、プログラム的に、または手動入力なしになどで更新され得る。
5.シーン、領域断面、およびビデオサブストリームの例
図2Aは、VR用途、AR用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置202にいるユーザーに鑑賞されているビデオ画像(単数または複数)の領域断面の例を示す。論理的に表現された空間的位置(202)にいるユーザーは、ビデオ画像(単数または複数)によって形成される球体(または球)中に論理的に存在しているものと見なし得る。ユーザーの論理的に表現された空間的位置(202)は、これのみに限定されないが、球体の中央位置にあってもよい。ある所与の時刻において、ユーザーは、例えば、HMD、モバイルデバイス、ディスプレイデバイスなど(ビデオストリーミングクライアントの一部であるか、これと協働して動作している)により提供されるビューポート108−2を介して、ビデオ画像(単数または複数)中の各ビデオ画像の画像部分を鑑賞し得る。
ビデオストリーミングサーバーは、ユーザー入力、画像コンテンツ解析、ユーザーフィードバックループ、機械学習などの任意の組み合わせを介して、ビデオ画像(単数または複数)が第1の高関心のシーン(110−4)、第2の高関心のシーン(110−5)、第1の低関心のシーン(110−6)、および第2の低関心のシーン(110−7)を含んでいることを決定し得る。いくつかの実施形態において、ビデオ画像(単数または複数)から検出される全てのシーン(例えば110−4、110−5、110−6、110−7など)は、ビデオ画像(単数または複数)の画像表現(例えば矩形の画像フレーム、3D空間中の球体または球など)中の全エリアをカバーする。領域断面102−4、102−5、102−6および102−7は、ビデオ画像(単数または複数)から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像(単数または複数)から生成または識別され得る。いくつかの実施形態において、図2Aに示すように、ビデオ画像(単数または複数)から生成または識別された(例えば一対一など)領域断面102−4、102−5、102−6および102−7のそれぞれは、ビデオ画像(単数または複数)から検出されたシーン群(例えば110−4、110−5、110−6、110−7など)のうち各シーンに対応する。
いくつかの実施形態において、第1の高関心のシーン(110−4)は、ユーザーのビューポート(108−2)よりも小さなサイズを有し、ビューポート(108−2)によって完全に包含されていてもよい。いくつかの実施形態において、第2の高関心のシーン(110−5)は、ユーザーのビューポート(108−2)よりも大きなサイズを有しており、ユーザーのビューポート(108−2)が、第2の関心のシーン(110−5)に向けた鑑賞角度にシフトしたとしても、ビューポート(108−2)によって完全に包含されていなくてもよい。
ユーザー追跡データ(例えば図3A、図3Bまたは図3Cなどの双方向データフロー314を介してビデオストリーミングクライアントから受け取られた)に基づき、ビデオ画像(単数または複数)に関しての経時的なユーザーの視野(例えば図1の108−2、108−1など)の鑑賞角度、サイズ、アスペクト比などが、ビデオストリーミングサーバーによって受け取られるか、決定されるか、さもなくば算出される。
いくつかの実施形態において、ユーザーのビューポート(108−2)内の第1の高関心のシーン(110−4)に対応する領域断面(102−4)内の(に対する)画像部分は、第1の時空間解像度にある第1のビデオサブストリームとして符号化されてもよい。第1の時空間解像度とは例えば、ビデオコンテンツをユーザーに対して描画するに際してビデオストリーミングサーバーからビデオストリーミングクライアントへの総合ビデオストリームにおける全ビデオサブストリーム中で最高の時空間解像度などである。
いくつかの実施形態において、ユーザーのビューポート(108−2)内に無い第2の高関心のシーン(110−5)に対応する領域断面(102−5)内の(に対する)画像部分は、第2の時空間解像度にある第2のビデオサブストリームとして符号化されてもよい。第2の時空間解像度は、相対的に低い時空間解像度(例えば1/4、1/2など)から、最も高い時空間解像度までの範囲であり得る。追加的、選択的、または代替的に、第1のビデオサブストリームに対して行われたものと比較して、さらなる圧縮、比較的積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第2のビデオサブストリームを、例えば、第2のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。
ビデオ画像(単数または複数)中のこれらの高関心のシーン(110−4および110−5)のそれぞれが単一のストリームとして符号化されるにしたがって、ユーザーが高関心のシーン内でビューポートを動かすとき、ユーザーのビューポートまたはユーザーの中心視野に対する、追加的な高解像度周辺映像データがビデオストリーミングサーバーからビデオストリーミングクライアントへ既に連続的に送信されていることにより、低解像度から高解像度への解像度の急な減少(または不連続性)および遅い遷移によって引き起こされ得る視覚的アーチファクト、心理的不快感などを防止する。
いくつかの実施形態において、第1および第2の低関心のシーン(110−6および110−7)に対応する領域断面(102−6および102−7)内の(に対する)画像部分は、第3の時空間解像度にある第3のビデオサブストリームとして符号化されてもよい。第3の時空間解像度は、第2の時空間解像度より低くてもよい。いくつかの実施形態において、I−フレームなどのアンカーフレームのみを、第1および第2のビデオサブストリームよりも低い画像リフレッシュレートで、第3のビデオサブストリーム中において送る。B−フレーム、P−フレームなどの他の非アンカーフレームは、第3のビデオサブストリームを含む総合ビデオストリーム中において送られることがなくてもよい。ユーザーのビューポートが第1および第2の低関心のシーン(110−6および110−7)へと動くとき、アンカーフレーム(例えばI−フレームなど)および非アンカーフレーム(例えばB−フレーム、P−フレームなど)の両方が、第3のビデオサブストリーム中においてビデオストリーミングクライアントに送られてもよく、この第3のビデオサブストリームは、ユーザーのビューポートが第1および第2の低関心のシーン(110−6および110−7)から離れているときよりも、より高いビットレートに調整されていてもよい。同じグループオブピクチャ(GOP)内の、最後のアンカーフレームよりも後の失われたフレームについては、I−フレームを繰り返す、ビューポート変更を次のGOPまで遅らせるなどのエラー隠し操作を行ってもよい。
追加的、選択的、または代替的に、第1および第2のビデオサブストリームに対して行われたものと比較して、よりさらなる圧縮、より積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第3のビデオサブストリームを、例えば、第3のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。
図2Bは、VR用途、AR用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置(202)にいるユーザーによって鑑賞されている、ビデオ画像(単数または複数)の領域断面の追加的な例を示している。
領域断面102−4、102−7、102−8、102−9、102−10および102−11は、ビデオ画像(単数または複数)から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像(単数または複数)から生成または識別され得る。いくつかの実施形態において、図2Bに示すように、ビデオ画像(単数または複数)から生成または識別された(例えば一対一など)領域断面102−4、102−5および102−6のそれぞれは、ビデオ画像(単数または複数)から検出されたシーン(例えば110−4、110−5、110−6、110−7など)のうちのシーンと必ずしも一対一の対応を有さない。
例えば、図2Aと比較して、図2Bにおいては、第1の低関心のシーン(110−6)は、ビューポート(108−2)内の第1のシーン部分と、ビューポート(108−2)外の第2のシーン部分とを含んでいる。いくつかの実施形態において、第1の低関心のシーン(110−6)を用いて、一方がビューポート(108−2)と重なり他方がビューポート(108−2)と重ならないような、2つの領域断面102−8および102−9を作成してもよい。これらの領域断面(102−8および102−9)は、第1の低関心のシーン(110−6)中の第1および第2のシーン部分と空間的に同一の広がりを持っていても持っていなくてもよい。
同様に、図2Aと比較して、図2Bにおいては、第2の低関心のシーン(110−7)は、ビューポート(108−2)内の第3のシーン部分と、ビューポート(108−2)外の第4のシーン部分とを含んでいる。いくつかの実施形態において、第2の低関心のシーン(110−7)を用いて、一方がビューポート(108−2)と重なり他方がビューポート(108−2)と重ならないような、2つの領域断面102−10および102−11を作成してもよい。これらの領域断面(102−10および102−11)は、第2の低関心のシーン(110−7)中の第3および第4のシーン部分と空間的に同一の広がりを持っていても持っていなくてもよい。
いくつかの実施形態において、ユーザーのビューポート(108−2)内の第1の高関心のシーン(110−4)に対応する領域断面(102−4)内の(に対する)画像部分は、図2Aと同様に、第1の時空間解像度にある第1のビデオサブストリームとして符号化され得る。
いくつかの実施形態において、ユーザーのビューポート(108−2)内に無い第2の高関心のシーン(110−5)に対応する領域断面(102−5)内の(に対する)画像部分は、図2Aと同様に、第2の時空間解像度にある第2のビデオサブストリームとして符号化され得る。
いくつかの実施形態において、第1および第2の低関心のシーン(110−6および110−7)のビューポート内のシーン部分に対応する領域断面(102−9および102−10)内の(に対する)画像部分は、第4の時空間解像度にある第4のビデオサブストリームとして符号化され得る。第4の時空間解像度は、第2の時空間解像度より低くてもよい。いくつかの実施形態において、I−フレームのみを、第1および第2のビデオサブストリームよりも低い画像リフレッシュレートで、第4のビデオサブストリーム中において送る。追加的、選択的、または代替的に、第1および第2のビデオサブストリームに対して行われたものと比較して、よりさらなる圧縮、より積極的な圧縮、比較的エラーの大きな予測などを行うことにより、第4のビデオサブストリームを、例えば、第4のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。
いくつかの実施形態において、第1および第2の低関心のシーン(110−6および110−7)のビューポート外のシーン部分に対応する領域断面(102−8および102−11)内の(に対する)画像部分は、第5の時空間解像度にある第5のビデオサブストリームとして符号化され得る。第5の時空間解像度は、第4の時空間解像度より低くてもよい。いくつかの実施形態において、I−フレームのみを、第1、第2および第4のビデオサブストリームよりも低い画像リフレッシュレートで、第4のビデオサブストリーム中において送る。追加的、選択的、または代替的に、第1、第2および第4のビデオサブストリームに対して行われたものと比較して、最も強い圧縮、最も積極的な圧縮、閾値より下で最大のエラーを伴う予測などを行うことにより、第5のビデオサブストリームを、例えば、第5のビデオサブストリームに与えられたビットレート割り当てと適合するように圧縮してもよい。
図2Cは、VR用途、AR用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、論理的に表現された空間的位置(202)にいるユーザーによって鑑賞されている、ビデオ画像(単数または複数)の領域断面のさらなる例を示している。
領域断面102−5、102−6、102−7、102−12および102−13は、ビデオ画像(単数または複数)から検出されたシーンに少なくとも部分的に基づいて、ビデオ画像(単数または複数)から生成または識別され得る。いくつかの実施形態において、図2Bに示すように、ビデオ画像(単数または複数)から生成または識別された(例えば一対一など)領域断面102−4、102−5および102−6のそれぞれは、ビデオ画像(単数または複数)から検出されたシーン(例えば110−4、110−5、110−6、110−7など)のうちシーンと必ずしも一対一の対応を有さない。
例えば、図2Aと比較して、図2Cにおいては、第1の高関心のシーン(110−4)は、ビューポート(108−2)内のユーザーの中心視野(不図示)内の第1のシーン部分と、ビューポート(108−2)内のユーザーの中心視野外の第2のシーン部分とを含んでいる。いくつかの実施形態において、第1の高関心のシーン(110−4)を用いて、一方がビューポート(108−2)内のユーザーの中心視野に重なり他方がビューポート(108−2)内のユーザーの中心視野と重ならないような、2つの領域断面102−12および102−13を作成してもよい。領域断面(102−12)は、ビューポート(108−2)内のユーザーの中心視野と空間的に同一の広がりを持っていても持っていなくてもよい。
いくつかの実施形態において、ユーザーのビューポート(108−2)内のユーザーの中心視野外の第1の高関心のシーン(110−4)に対応する領域断面(102−13)内の(に対する)画像部分は、図2Aと同様に、第1の時空間解像度にある第1のビデオサブストリームとして符号化され得る。
いくつかの実施形態において、ユーザーのビューポート(108−2)内に無い第2の高関心のシーン(110−5)に対応する領域断面(102−5)内の(に対する)画像部分は、図2Aと同様に、第2の時空間解像度にある第2のビデオサブストリームとして符号化され得る。
いくつかの実施形態において、第1および第2の低関心のシーン(110−6および110−7)に対応する領域断面(102−6および102−7)内の(に対する)画像部分は、図2Aと同様に、第3の時空間解像度にある第3のビデオサブストリームとして符号化され得る。
いくつかの実施形態において、ビューポート(108−2)内のユーザーの中心視野を包含する領域断面(102−12)内の(に対する)画像部分は、第6の時空間解像度にある第6のビデオサブストリームとして符号化され得る。第6の時空間解像度は、第1の時空間解像度より高くてもよい。いくつかの実施形態において、第6のビデオサブストリーム中の映像フレームは、第1のビデオサブストリームよりも速い画像リフレッシュレート(例えば毎秒120フレーム以上、毎秒60フレーム以上など)で送られる。追加的、選択的、または代替的に、第1のビデオサブストリームに対して行われたものと比較して、少ないまたはゼロの圧縮、より積極的でない圧縮、比較的エラーの小さな予測などを行うことにより、第6のビデオサブストリームを、例えば、他のビデオサブストリームについて生成されたものと比較して最も高品質なイメージを生成するように圧縮してもよい。
いくつかの実施形態において、ユーザーのビューポートが、識別された高関心のシーンが存在していない球画像(単数または複数)の静的な部分にあるとき、単一のビデオサブストリームは、ビューポートのサイズ以上である1つの領域断面から作成されてもよい。この領域断面の画像部分は、単一のビデオサブストリーム中において送信される。
いくつかの実施形態において、ビューポートのサイズ未満である領域断面を作成してもよい。これは、ビューポートまたはシーン中の画像部分のほとんどが静的であるような動作状況において、有用であり得る。変化が起こっていないか変化が少ない静的な画像部分を符号化することは、効率的ではないかもしれない。本明細書に記載の手法において、ビューポートまたはシーンよりも小さい動的な画像部分に対して、1つの領域断面を指定し得る。この領域断面の動的な画像部分は、相対的に高い時空間解像度(例えば相対的に高い空間解像度、相対的に高い時間解像度、相対的に高いリフレッシュレートである、相対的に高い空間周波数のコンテンツを含む、など)にあるビデオサブストリームに、符号化され得る。追加的、選択的、または代替的に、ビデオサブストリームに存在しない画像内容のほとんどは、ビデオバッファからリフレッシュされるか、あるいは別のビデオサブストリームとして時折送られてもよい。
図2Dは、ビデオ画像(単数または複数)のある画像部分に対する、ビューポートの例(例えば108−2)(例えば図2A〜図2Cなどの論理的な空間的位置(202)にあるユーザーの視野であってもよい)を示す。図示するように、ビューポート(108−2)は高関心のシーン(例えば110−4など)を完全に包含していてもよい。ビューポート(108−2)は、高関心のシーン(110−4)外である1つ以上の低関心のシーンと重なっていてもよい。いくつかの実施形態において、ビューポート(108−2)内の高関心のシーン(110−4)中の画像部分は、相対的に高い時空間解像度を有するビデオサブストリームに符号化され、一方、ビューポート(108−2)と重なる低関心のシーン中の画像部分は、相対的に低い時空間解像度を有する1つ以上のビデオサブストリームに符号化され得る。限定的でない一実施形態例において、ビューポート(108−2)と重なる低関心のシーン中の画像部分は、ステージ上の演者の観客を捉えた動的な部分と、変化が遅いか存在しないバックグラウンド情景を捉えた静的な部分とを含み得る。いくつかの実施形態において、ビューポート(108−2)と重なる(あるいは重なっていなくてさえよい)低関心のシーン中の動的な部分および静的な部分は、異なる時空間解像度を有する別々のビデオサブストリームに符号化されてもよい。例えば、動的な部分の画像部分の符号化のためにより高い方の異なる(differential)時空間解像度を割り当て、静的な部分の画像部分を符号化するためにより低い異なる(differential)時空間解像度を割り当ててもよい。追加的、選択的、または代替的に、動的な部分の画像部分を符号化するためにより高いリフレッシュレートを割り当て、静的な部分の画像部分を符号化するためにより低いリフレッシュレートを割り当ててもよい。
図2Eは、VR用途、AR用途、リモートプレゼンス用途、ディスプレイ用途などの映像関連用途において、ユーザーによってビューポート(例えば図1の108−1、図2A〜図2Dの102−2など)内において鑑賞されている、ビデオ画像(単数または複数)中のシーンの例110−8を示す。
シーン(110−8)は、ユーザーの中心視野を包含するシーン部分204と、ユーザーの中心視野と重ならない残りのシーン部分206とを含み得る。いくつかの実施形態において、シーン全体(110−8)が、異なる時空間解像度にある複数のビデオサブストリームに符号化される画像部分を有する、2つ以上の領域断面中に含まれていてもよい。例えば、シーン部分(204)(ちょうどユーザーの中心視野だけであってもよい)が高時空間解像度にあるビデオサブストリームに符号化される画像部分を有するある領域断面に含まれ、一方、シーン部分(206)(ユーザーの中心視野外である)が、より低い時空間解像度にある異なるビデオサブストリームに符号化される画像部分を有する別の異なる領域断面に含まれていてもよい。
いくつかの実施形態において、シーン全体(110−8)が、同じ時空間解像度にあるビデオサブストリームに符号化される画像部分を有する、1つの領域断面に含まれていてもよい。
追加的、選択的、または代替的に、(例えば低強度など)可変空間解像度を有するブラーフィルタを、シーン全体(110−8)の画像部分に適用することにより、シーン全体(110−8)の画像部分のうちユーザーの中心視野外に位置する部分から、高空間周波数コンテンツを激減させてもよい。ブラーフィルタは、ユーザーの中心視野を包含するシーン部分(204)中において、ゼロまたは少ないぼかしを与えてもよい。ブラーフィルタは、シーン部分(206)においてより強いぼかしを与えてもよい。例えば、シーン部分(206)中のある所与の空間的位置にあるシーン部分(206)におけるぼかしの強度は、空間的位置とユーザーの中心視野の中心との空間的距離に少なくとも部分的に基づいてもよい。
ブラーフィルタリングをシーン(110−8)に適用する結果、ユーザーの中心視野内における視覚的明瞭性を維持または確保しながら、ビデオサブストリーム(単数または複数)において伝送すべき映像データの量を大きく減少させ得る。
6.ビデオストリーミングサーバーおよびクライアントの例
図3Aは、画像処理装置302およびマルチ解像度画像生成器312などを含む一例としてのビデオストリーミングサーバー300を示す。いくつかの実施形態において、画像処理装置(302)は、画像受信器306、領域断面分類器308、データリポジトリ310などを備える。ビデオストリーミングサーバー(300)のコンポーネントの一部または全部は、1つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。
いくつかの実施形態において、画像受信器(306)は、VR用途、AR用途、リモートプレゼンス用途、またはディスプレイ用途などに関連してクラウドベースの画像ソース、カメラシステムなどの画像ソースから入力画像ストリーム304を受け取り、入力画像ストリーム(304)を1つ以上の入力ビデオ画像(例えば入力ビデオ画像のシーケンスなど)に復号化し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
いくつかの実施形態において、領域断面分類器(308)は、入力ビデオ画像中の(例えば全部、実質的に全部、キャプションのテキストボックスを除き全部などの)領域断面を異なるタイプに分類するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。入力ビデオ画像の、異なるタイプの領域断面への分類は、これらのみに限定されないが、画像ベース、グループオブピクチャ(GOP)ベース、シーンベース、複数シーンベースなどであり得る。
いくつかの実施形態において、異なるタイプの領域断面は、入力画像ストリーム(304)とともに受け取られここから復号化された、画像メタデータ中の映像メタデータに基づいて分類されてもよい。
追加的、選択的、または代替的に、いくつかの実施形態において、異なるタイプの領域断面は、領域断面分類器(308)によって生成された映像メタデータに基づいて分類されてもよい。
映像メタデータに基づき、領域断面分類器(308)は、入力画像ストリーム(304)中の1つ、一部または全部の領域断面が、どの特定のタイプ(単数または複数)に分類されるかを決定し得る。
いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー(300)によって、および/または上流側のシステムによってディレクター、カラーリスト、映像技師などの映像プロフェッショナルからのユーザー入力を用いて、生成される。いくつかの実施形態において、上流側のシステムは、入力画像ストリーム(304)を(例えば均一な)高空間解像度で生成し、かつ/または1つ以上の高帯域幅のネットワーク接続を介して入力画像ストリーム(304)をビデオストリーミングサーバー(300)に供給する、上流側のビデオストリーミングサーバーであってもよい。
いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー(300)および/または上流側のシステムによって、入力画像ストリーム(304)に画像コンテンツ解析を行うことによって生成され得る。そのような画像コンテンツ解析は、以下のうち1つ以上を用いて行い得る。すなわち、解析ルール、画像解析ツール、ハールフィルタ、ウェーブレット分解、フーリエ空間ベースの空間解像度追跡などの1つ以上のコンピュータビジョン技術のうち任意の組み合わせである。
いくつかの実施形態において、本明細書に記載の映像メタデータは、ビデオストリーミングサーバー(300)および/または上流側のシステムによって、あるユーザー母集団のユーザー群が1つ以上のビデオ画像を鑑賞している間にユーザーフィードバックループで集められたユーザー鑑賞行動データに基づいて生成され得る。機械学習は、ユーザーフィードバックループで集められたユーザー鑑賞行動データの解析において適用され得る。例えば、入力ビデオ画像のどの特定の鑑賞角度、領域断面などが、それぞれ極端に高いユーザー関心レベル、やや高いユーザー関心レベル、低いユーザー関心レベル、極端に低いユーザー関心レベルなどであるかを示すユーザー鑑賞行動データに基づいて、ヒートマップを生成し得る。ヒートマップは、映像メタデータに含まれるか、または映像メタデータを生成するために用いられ得る。追加的、選択的、または代替的に、いくつかの実施形態において、何らかの映像プログラム上で実行された、ユーザー入力、画像コンテンツ解析、ユーザーフィードバックループ、機械学習などの任意の組み合わせから得られた、ヒートマップなどの情報を、他の映像プログラムに対して先を見越して適用し得る。
いくつかの実施形態において、データリポジトリ(310)は、入力ビデオ画像、映像メタデータなどの画像メタデータの一部または全部について、記憶、更新、検索、削除などの動作をサポートするように構成された、1つ以上のデータベース、1つ以上のデータ記憶ユニット・モジュール・デバイスなどを表す。
いくつかの実施形態において、マルチ解像度画像生成器(308)は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを、双方向データフロー314を介して受け取り;異なる空間解像度および/または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを生成し;総合ビデオストリームをビデオストリーミングクライアント、ディスプレイデバイス、記憶装置などに、双方向データフロー314を介して直接または中間デバイスなどを介し間接的に)提供または送信するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
追加的、選択的、または代替的に、画像回転決定、画像位置合わせ解析、シーンカット検出、座標系間の変換、時間減衰(temporal dampening)、ディスプレイマネジメント、コンテンツマッピング、カラーマッピング、視野管理などの画像処理演算の一部または全部は、ビデオストリーミングサーバー(300)によって実行されてもよい。
ビデオストリーミングサーバー(300)は、リアルタイム視覚用途、準リアルタイム視覚用途、非リアルタイム視覚用途、仮想現実、拡張現実、ヘルメットマウンテッドディスプレイ用途、ヘッズアップディスプレイ用途、ゲーム、2Dディスプレイ用途、3Dディスプレイ用途、マルチビューディスプレイ用途などをサポートするために用いられ得る。例えば、ビデオ画像、画像メタデータ、ビューポートパラメータ(例えばビューポート中心座標、アスペクト比など)、ビューポート毎画像メタデータ、ビューポート画像データなどの一部または全部は、リアルタイム、準リアルタイムなどでビデオストリーミングサーバー(300)によって生成またはアクセスされる。
図3Bは、マルチ解像度画像受信器316、ディスプレイマネージャ318、画像ディスプレイ320などを備えた、一例としての画像描画システム324−1を示す。画像描画システム(324−1)のコンポーネントの一部または全部は、1つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。
いくつかの実施形態において、マルチ解像度画像受信器(316)は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを、双方向データフロー314を介して送り、異なる空間解像度および/または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを受け取り、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
ユーザーは、実行時において、ユーザーのビューポートを異なる視野に動かし得る。画像描画システム(324−1)は、ユーザーのディスプレイに描画されるビデオコンテンツを生成するように構成される。いくつかの実施形態において、受け取られたビデオストリーム中の1つ以上のビデオサブストリームからの映像データを、綴じ合わせまたは合成することにより、統一化されたイメージを形成してもよい。非ブロック化操作、輪郭除去操作、ぼかし操作などを、ユーザーのディスプレイ上に描画するビデオコンテンツを合成することの一部として行ってもよい。
いくつかの実施形態において、ディスプレイマネージャ(318)は、画像ディスプレイ(320)上に描画されるビデオコンテンツに対し、画像描画システム(324−1)が受け取った総合ビデオストリーム中のビデオサブストリームからビデオコンテンツが復号化および合成されるようなディスプレイマネジメント操作を行い、ディスプレイマネジメントされたビデオコンテンツを描画のために画像ディスプレイ(320)に出力し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
追加的、選択的、または代替的に、顔検出、頭部追跡、動き検出、位置検出、回転決定、座標系間の変換、時間変化する画像パラメータの時間減衰、その他の任意の画像パラメータの時間的操作、ディスプレイマネジメント、コンテンツマッピング、トーンマッピング、カラーマッピング、視野管理、予測、マウス、トラックボール、キーボード、フットトラッカー、実際の身体モーションなどを介したナビゲーションなどの画像描画演算の一部または全部が、画像描画システム(324−1)によって実行されてもよい。
画像描画システム(324−1)は、リアルタイム視覚用途、準リアルタイム視覚用途、非リアルタイム視覚用途、仮想現実、拡張現実、ヘルメットマウンテッドディスプレイ用途、ヘッズアップディスプレイ用途、ゲーム、2Dディスプレイ用途、3Dディスプレイ用途、マルチビューディスプレイ用途などをサポートするために用いられ得る。例えば、ビデオ画像、画像メタデータ、ビューポートパラメータ(例えばビューポート中心座標、アスペクト比など)、ビューポート毎画像メタデータ、ビューポート画像データなどの一部または全部は、リアルタイム、準リアルタイムなどで画像描画システム(324−1)によって生成またはアクセスされる。
本明細書に記載の手法は、広範なシステムアーキテクチャによって実装され得る。本明細書に記載の画像処理演算の一部または全部は、以下のうち1つ以上によって実装され得る。すなわち、クラウドベースのビデオストリーミングサーバー、ビデオストリーミングクライアントに付随して配置されるかこれに内包されるビデオストリーミングサーバー、画像描画システム、ディスプレイデバイスなどである。視覚用途のタイプ、帯域幅・ビットレート割り当て、受信側デバイスの演算能力、リソース、負荷など、ならびにビデオストリーミングサーバーおよび/またはコンピュータネットワークなどの演算能力、リソース、負荷などの1つ以上のファクターに基づき、ある画像処理演算らはビデオストリーミングサーバーによって行われ、別のある画像処理演算らはビデオストリーミングクライアント、画像描画システム、ディスプレイデバイスなどによって行われ得る。
図3Cは、マルチ解像度画像生成器(例えば312など)がエッジビデオストリーミングサーバー324−2中に設けられた構成例を示す。いくつかの実施形態において、図3Cの画像処理装置302はクラウドベースであってもよい。いくつかの実施形態において、画像処理装置(302)は、エッジビデオストリーミングサーバー(324−2)などのエッジデバイスとは別の、コアネットワーク中に位置していてもよい。図3Aにおけるように、画像処理装置(302)は、画像受信器306、領域断面分類器308、データリポジトリ310などを有し得る。画像処理装置(302)は、相対的に高いビットレートにわたってエッジビデオストリーミングサーバー(324−2)と通信する、上流側のビデオストリーミングサーバーを表し得る。画像処理装置(302)および/またはエッジビデオストリーミングサーバー(324−2)のコンポーネントの一部または全部は、1つ以上のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどとして実装し得る。
いくつかの実施形態において、画像処理装置(302)は、ビデオ画像および映像メタデータを、データフロー322として下流側のデバイスに(そのうち1つはエッジビデオストリーミングサーバー(324−2)であり得る)出力するように構成される。
いくつかの実施形態において、エッジビデオストリーミングサーバー(324−2)、またはその中のマルチ解像度画像生成器(312)は、ビデオコンテンツがユーザーの視野入力ビデオ画像において描画される空間座標系に関しての経時的なユーザーの視野の鑑賞角度、サイズ、アスペクト比などを決定し、異なる空間解像度および/または異なるフレームレートで符号化された異なるタイプの領域断面について異なるビデオサブストリームを含んだ総合ビデオストリームを生成し、総合ビデオストリームをビデオストリーミングクライアント、ディスプレイデバイス、記憶装置などに、双方向データフロー314を介して直接または中間デバイスなどを介し間接的に)提供または送信するように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
いくつかの実施形態において、画像描画装置(例えば324−1)またはその中のディスプレイマネージャ(例えば図3Bの318)は、画像ディスプレイ(320)上に描画されるビデオコンテンツに対し、画像描画システム(324−1)が受け取った総合ビデオストリーム中のビデオサブストリームからビデオコンテンツが復号化および合成されるようなディスプレイマネジメント操作を行い、ディスプレイマネジメントされたビデオコンテンツを描画のために画像ディスプレイ(320)に出力し、またその他を行うように構成された、ソフトウェア、ハードウェア、ソフトウェアおよびハードウェアの組み合わせなどを備える。
ユーザーは、実行時において、ユーザーのビューポートを異なる視野に動かし得る。画像描画システム(324−2)は、ユーザーのディスプレイに描画されるビデオコンテンツを生成するように構成される。いくつかの実施形態において、受け取られたビデオストリーム中の1つ以上のビデオサブストリームからの映像データを、綴じ合わせまたは合成することにより、統一化されたイメージを形成してもよい。非ブロック化操作、輪郭除去操作、ぼかし操作などを、ユーザーのディスプレイ上に描画するビデオコンテンツを合成することの一部として行ってもよい。
7.プロセスフローの例
図4Aは、本発明の一実施形態例によるプロセスフロー例を示す。いくつかの実施形態例において、1つ以上の計算装置またはコンポーネントによりこのプロセスフローを実行し得る。ブロック402において、画像処理装置(例えば図3A〜図3Cのビデオストリーミングサーバーまたはビデオストリーミングクライアントなど)が、1つ以上のビデオ画像の画像内容に基づき、前記1つ以上のビデオ画像中の複数のシーンを識別する。
ブロック404において、画像処理装置は、前記1つ以上のビデオ画像中の前記複数のシーンに基づき、前記1つ以上のビデオ画像における複数の領域断面を決定する。
ブロック406において、前記画像処理装置は、前記複数の領域断面中にある前記1つ以上のビデオ画像の複数の画像部分を、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームに符号化する。
ブロック408において、前記画像処理装置は、ストリーミングクライアントデバイスに、前記2つ以上のビデオサブストリームを含む総合ビデオストリームを送信する。
一実施形態において、前記複数の領域断面は、鑑賞者のビューポート内にある第1の領域断面を含み、前記複数の領域断面は、鑑賞者のビューポート内に無い第2の領域断面を含む。
一実施形態において、前記第1の領域断面は、前記複数のシーンにおいて高関心のシーンを有していず、前記第2の領域断面は、前記複数のシーンのうち少なくとも1つの高関心のシーンと重なり、前記第1の領域断面の画像データは第2の領域断面の画像データが符号化される第2の時空間解像度よりもスローな第1の時空間解像度で符号化される。
一実施形態において、前記複数の領域断面のうちいかなる2つの領域断面も、互いに重ならない。
一実施形態において、前記複数の領域断面のうち少なくとも2つの領域断面が、互いに重なる。
一実施形態において、前記複数の領域断面のうち少なくとも2つの領域断面は、異なる空間形状、異なるサイズ、異なるアスペクト比などのうち1つ以上を有する。
一実施形態において、前記複数の領域断面のうち少なくとも1つの領域断面は、前記1つ以上のビデオ画像とともに受け取られた画像メタデータに部分的に基づいて識別される。
一実施形態において、前記複数の領域断面のうち少なくとも1つの領域断面は、前記1つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される。
一実施形態において、前記複数の領域断面のうち少なくとも1つの領域断面は、あるユーザー母集団のユーザー群が前記1つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに部分的に基づいて識別される。
一実施形態において、前記画像処理装置はさらに、鑑賞者の中心視野を包含するシーンの画像データに対しブラーフィルタを適用するように構成されている。
一実施形態において、前記複数のシーンは、鑑賞者のビューポートに包含される高関心のシーンを含んでいる。
一実施形態において、鑑賞者のビューポートは、前記1つ以上のビデオ画像から検出された複数のシーンのうち高関心のシーンを含んでいない。
一実施形態において、前記2つ以上のビデオサブストリームのうち少なくとも1つのビデオサブストリームは、アンカーフレームのみを含んでいる。
一実施形態において、前記2つ以上のビデオサブストリームのうち少なくとも1つのビデオサブストリームは、アンカーフレームおよび非アンカーフレームの両方を含んでいる。
一実施形態において、前記画像処理装置はさらに、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち1つ以上を識別する映像メタデータを生成することと、前記2つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、などを行うように構成されている。
図4Bは、本発明の一実施形態例によるプロセスフロー例を示す。いくつかの実施形態例において、1つ以上の計算装置またはコンポーネントによりこのプロセスフローを実行し得る。ブロック452において、画像処理装置(例えば図3A〜図3Cのビデオストリーミングクライアントなど)は、ストリーミングサーバーから、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームを含む総合ビデオストリームを受け取る。
ブロック454において、前記画像処理装置は、前記2つ以上のビデオサブストリームを、1つ以上のビデオ画像の1つ以上の画像部分に復号化する。前記1つ以上の画像部分は、複数の領域断面のうち1つ以上の領域断面中にある。前記複数の領域断面複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定される。前記複数のシーンは、前記1つ以上のビデオ画像の画像内容に基づいて検出される。
ブロック456において、前記画像処理装置は、前記1つ以上のビデオ画像の1つ以上の画像部分に基づき、ビデオコンテンツを生成する。
ブロック458において、前記画像処理装置は、前記ビデオコンテンツをディスプレイに描画させる。
一実施形態において、前記画像処理装置はさらに、ビューポート情報を前記ストリーミングサーバーに送るように構成される。前記ビューポート情報は、前記1つ以上のビデオ画像に関して鑑賞者のビューポートを導出するために用いられる。
一実施形態において、前記ビューポート情報はさらに、前記1つ以上のビデオ画像に関して前記鑑賞者の中心視野を導出するために用いられる。
一実施形態において、前記画像処理装置はさらに、映像メタデータを前記総合ビデオストリームから復号化するように構成される。前記映像メタデータは、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち1つ以上を識別する。
一実施形態において、前記画像処理装置はさらに、前記ディスプレイに描画される前記ビデオコンテンツを生成することの一部として、非ブロック化操作、輪郭除去操作、ぼかし操作などのうち1つ以上を適用するように構成されている。
一実施形態において、前記画像処理装置はさらに、鑑賞者のビューポートの変化を検出することと、前記鑑賞者のビューポートの変化に応答して、前記総合ビデオストリーム中の前記2つ以上のビデオサブストリームのうち少なくとも1つにおいて既に送信された周辺映像データに基づき、新たなビデオコンテンツを生成することと、を行うように構成されている。
様々な実施形態例において、装置、システム、装置、または1つ以上の他の計算装置が、記載した前述の方法のうちいずれかまたはその一部を実行する。一実施形態において、非一時的なコンピュータ読み取り可能な記憶媒体がソフトウェア命令を格納しており、これらが1つ以上のプロセッサにより実行されたとき、本明細書に記載の方法を実行させる。
別個の実施形態を本明細書において述べているが、本明細書に述べた実施形態の任意の組み合わせおよび/または部分的な実施形態は、組み合わせられてさらなる実施形態を形成し得ることに留意されたい。
8.実装メカニズム−ハードウェア概要
一実施形態によれば、本明細書に説明されている技術は、1つ以上の専用の計算装置により実施される。専用の計算装置は、技術を実行するようハードワイヤードで接続され得るか、または、技術を実行するよう持続的にプログラムされた1つ以上の特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)のようなデジタル電子デバイスを含み得るか、または、ファームウェア、メモリ、その他の格納装置、または何らかの組み合わせにおけるプログラム指令に従って技術を実行するようプログラムされた、1つ以上の汎用のハードウェアプロセッサを含み得る。そのような専用の計算装置はまた、カスタムハードワイヤード論理、ASIC,またはFPGAとカスタムプログラミングとを組み合わせることにより、技術を達成し得る。専用の計算装置は、デスクトップコンピュータシステム、ポータブルコンピュータシステム、携帯用のデバイス、ネットワーキングデバイス、またはハードワイヤードおよび/またはプログラム論理を組み込むことにより技術を実施する、任意の他のデバイスであり得る。
例えば、図5は、発明の実施形態例が実施され得るコンピュータシステム500を例示するブロック図である。コンピュータシステム500は、情報通信のためのバス502または他の通信機構と、情報処理のためにバス502と結合されたハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は、例えば、汎用のマイクロプロセッサであり得る。
コンピュータシステム500はまた、ランダムアクセスメモリ(RAM)または他の動的記憶装置のようなメインメモリ506を含み、メインメモリ506は、バス502と結合されることにより、情報およびプロセッサ504により実行される指令を格納する。メインメモリ506はまた、プロセッサ504で実行される指令の実行中に、一時変数または他の中間情報を格納するのに用いられ得る。そのような指令は、プロセッサ504にアクセスできる非一時的な記憶媒体に格納される時、コンピュータシステム500を、指令において指定された動作を実行するカスタマイズされた専用マシーンにする。
コンピュータシステム500は、プロセッサ504に対する静的な情報および指令を格納するようにバス502と結合された、読み出し専用メモリ(ROM)508または他の静的記憶装置をさらに含む。
磁気ディスクまたは光学ディスク、ソリッドステートRAMのような記憶装置510が提供され、情報および指令を格納するようにバス502に結合される。
コンピュータシステム500は、バス502を経由して液晶ディスプレイのようなディスプレイ512と結合されることにより、情報をコンピュータユーザーに表示する。英数字および他のキーを含む入力装置514は、バス502と結合されることにより、情報およびコマンド選択をプロセッサ504に伝達する。別のタイプのユーザー入力装置は、マウス、トラックボールまたはカーソル方向キーのようなカーソルコントロール516であり、方向情報およびコマンド選択をプロセッサ504に伝達し、ディスプレイ512上のカーソルの動きを制御する。この入力装置は、典型的には、2つの軸、第1の軸(例えば、x)および第2の軸(例えば、y)において、2つの自由度を有することにより、装置は平面内の場所を特定できる。
コンピュータ500は、デバイス固有の配線論理(hard-wired logic)、1つ以上のASICSまたはFPGA、ファームウェアおよび/またはプログラム論理(これらはコンピュータシステムと結合してコンピュータシステム500を専用のマシーンにするか、または専用のマシーンになるようプログラムする)を用いて本明細書に説明されている技術を実施し得る。一実施形態によれば、本明細書の技術は、メインメモリ506に含まれる1つ以上の指令の1つ以上のシーケンスを実行するプロセッサ504に応答して、コンピュータシステム500により実行される。そのような指令は、記憶装置510のような別の記憶媒体から、メインメモリ506へ読み込まれ得る。メインメモリ506に含まれる指令シーケンスの実行により、プロセッサ504は、本明細書に説明されているプロセス工程を実行する。別の実施形態では、ハードワイヤード回路は、ソフトウェア指令の代わりに、またはソフトウェア指令と組み合わせて、用いられ得る。
本明細書に用いられる用語「記憶媒体」は、マシーンを特定の形態で動作させるデータおよび/または指令を格納する、任意の非一時的な媒体をいう。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含み得る。不揮発性媒体は、例えば、記憶装置510のような光学または磁気ディスクを含む。揮発性媒体は、メインメモリ506のような動的メモリを含む。記憶媒体の一般的な形態は、例えば、フロッピーディスク、プレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープまたは任意の他の磁気データ記憶媒体、CD−ROM、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理的な媒体、RAM、PROM,およびEPROM,FLASH−EPROM、NVRAM、任意の他のメモリチップまたはカートリッジを含む。
記憶媒体は、伝達媒体とは別個のものであるが、伝達媒体と併せて用いられ得る。伝達媒体は、記憶媒体間の情報転送に関与する。例えば、伝達媒体は、バス502を含むワイヤを含む、同軸ケーブル、銅線、光ファイバを含む。伝達媒体はまた、ラジオ波または赤外データ通信時において生成されるような、音波または光波の形態を取り得る。
1つ以上の指令の1つ以上のシーケンスを実行のためにプロセッサ504へ転送する際において、様々な形態の媒体が関与し得る。例えば、指令は、最初、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上に担持され得る。リモートコンピュータは、指令を自身の動的メモリに読み込み、モデムを用いて指令を電話線に送り得る。コンピュータシステム500に固有のモデムは、電話線上においてデータを受け取り、赤外線送信機を用いることにより、データを赤外線信号に変換し得る。赤外線検知器は、赤外線信号で送られたデータを受け取り得、そして適切な回路がデータをバス502上に配置し得る。バス502は、データをメインメモリ506に送り、プロセッサ504はメインメモリ506から指令を取り出し実行する。メインメモリ506により受け取られた指令は、オプションとして、プロセッサ504により実行される前または後において、記憶装置510上に格納され得る。
コンピュータシステム500はまた、バス502と結合された通信インターフェース518を含む。通信インターフェース518は、ローカルネットワーク522と接続されたネットワークリンク520との、双方向のデータ通信結合を提供する。例えば、通信インターフェース518は、サービス総合デジタル網(ISDN)カード、ケーブルモデム、衛星モデムまたはモデムであり、対応するタイプの電話線にデータ通信接続を提供し得る。別の例として、通信インターフェース518は、ローカルエリアネットワーク(LAN)カードであり、適合性のあるLANへのデータ通信接続を提供する。無線リンクも実施され得る。任意のそのような実施において、通信インターフェース518は、様々なタイプの情報を表すデジタルデータストリームを送る、電気的、電磁気的または光学的な信号を送受信する。
ネットワークリンク520は、典型的には、データ通信を1つ以上のネットワークを介して他のデータ装置に提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を介して、ホストコンピュータ524への接続、または、インターネットサービスプロバイダ(ISP)526によって動作されるデータ装置への接続を提供する。そして、ISP526は、現在一般に「インターネット」528と呼ばれている全世界的なパケットデータ通信ネットワークを介して、データ通信サービスを提供する。ローカルネットワーク522およびインターネット528の両方とも、デジタルデータストリームを搬送する、電気的、電磁気的、または光学的な信号を用いる。様々なネットワークを介した信号、および、ネットワークリンク520上および通信インターフェース518を介した信号は、コンピュータシステム500とデジタルデータをやり取りするものであり、伝達媒体の形態例である。
コンピュータシステム500は、ネットワーク、ネットワークリンク520および通信インターフェース518を介して、メッセージを送り、プログラムコードを含むデータを受け取り得る。インターネットを例に挙げると、サーバー530は、インターネット528、ISP526、ローカルネットワーク522および通信インターフェース518を介して、アプリケーションプログラムのために要求されるコードを伝達し得る。
受け取られたコードは、受信されてそのままプロセッサ504により実行されてもよく、且つ/または、後で実行するために記憶装置510または他の不揮発性記憶装置に保存されてもよい。
9.均等物、拡張物、代替物、その他
この明細書中において、態様毎に異なり得る多数の詳細事項に言及しながら本発明の実施形態を説明した。従って、本発明が何たるか、また、本出願人が本発明であると意図するものを示す唯一且つ排他的な指標は、本願が特許になった際の請求の範囲(今後出されるあらゆる訂正を含む、特許となった特定請求項)である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項において明示されていない限定事項、要素、性質、特徴、利点または属性は、その請求項の範囲をいかなる意味においても限定すべきではない。従って、本明細書および図面は、限定的ではなく、例示的であるとみなされるものである。
本発明の様々な局面を、以下の列挙実施形態例(enumerated example embodiments)(EEE)から理解することができる。
EEE1.1つ以上のビデオ画像の画像内容に基づき、前記1つ以上のビデオ画像中の複数のシーンを識別することと、
前記1つ以上のビデオ画像中の前記複数のシーンに基づき、前記1つ以上のビデオ画像における複数の領域断面を決定することと、
前記複数の領域断面中にある前記1つ以上のビデオ画像の複数の画像部分を、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームに符号化することと、
ストリーミングクライアントデバイスに、前記2つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
を包含する映像データをストリーミングする方法であって、
1つ以上の計算装置によって行われる、方法。
EEE2.前記複数の領域断面は、鑑賞者のビューポート内にある第1の領域断面を含み、前記複数の領域断面は、鑑賞者のビューポート内に無い第2の領域断面を含む、EEE1に記載の方法。
EEE3.前記第1の領域断面は、前記複数のシーンにおいて高関心のシーンを有していず、前記第2の領域断面は、前記複数のシーンのうち少なくとも1つの高関心のシーンと重なり、前記第1の領域断面の画像データは、第2の領域断面の画像データが符号化される第2の時空間解像度よりもスローな第1の時空間解像度で符号化される、EEE2に記載の方法。
EEE4.前記複数の領域断面のうちいかなる2つの領域断面も、互いに重ならない、EEE1に記載の方法。
EEE5.前記複数の領域断面のうち少なくとも2つの領域断面が、互いに重なる、EEE1に記載の方法。
EEE6.前記複数の領域断面のうち少なくとも2つの領域断面は、異なる空間形状、異なるサイズ、または異なるアスペクト比のうち1つ以上を有する、EEE1に記載の方法。
EEE7.前記複数の領域断面のうち少なくとも1つの領域断面は、前記1つ以上のビデオ画像とともに受け取られた画像メタデータに部分的に基づいて識別される、EEE1に記載の方法。
EEE8.前記複数の領域断面のうち少なくとも1つの領域断面は、前記1つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される、EEE1に記載の方法。
EEE9.前記複数の領域断面のうち少なくとも1つの領域断面は、あるユーザー母集団のユーザー群が前記1つ以上のビデオ画像を鑑賞している間に集められたユーザー鑑賞行動データに部分的に基づいて識別される、EEE1に記載の方法。
EEE10.鑑賞者の中心視野を包含するシーンの画像データに対しブラーフィルタを適用することをさらに包含する、EEE1に記載の方法。
EEE11.前記複数のシーンは、鑑賞者のビューポートに包含される高関心のシーンを含んでいる、EEE1に記載の方法。
EEE12.鑑賞者のビューポートは、前記1つ以上のビデオ画像から検出された複数のシーンのうち高関心のシーンを含んでいない、EEE1に記載の方法。
EEE13.前記2つ以上のビデオサブストリームのうち少なくとも1つのビデオサブストリームは、アンカーフレームのみを含んでいる、EEE1に記載の方法。
EEE14.前記2つ以上のビデオサブストリームのうち少なくとも1つのビデオサブストリームは、アンカーフレームおよび非アンカーフレームの両方を含んでいる、EEE1に記載の方法。
EEE15.前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち1つ以上を識別する映像メタデータを生成することと、
前記2つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、
をさらに包含する、EEE1に記載の方法。
EEE16.映像データを鑑賞者に提示する方法であって、
ストリーミングサーバーから、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームを含む総合ビデオストリームを受け取ることと、
前記2つ以上のビデオサブストリームを1つ以上のビデオ画像の1つ以上の画像部分に復号化することであって、前記1つ以上の画像部分は、複数の領域断面のうち1つ以上の領域断面中にあり、前記複数の領域断面複数の領域断面は、複数のシーンに少なくとも部分的に基づいて決定され、前記複数のシーンは、前記1つ以上のビデオ画像の画像内容に基づいて検出され、
前記1つ以上のビデオ画像の前記1つ以上の画像部分に基づき、ビデオコンテンツを生成することと、
前記ビデオコンテンツをディスプレイに描画させることと、を包含し、
1つ以上の計算装置によって行われる、方法。
EEE17.ビューポート情報を前記ストリーミングサーバーに送ることをさらに包含し、前記ビューポート情報は、前記1つ以上のビデオ画像に関して鑑賞者のビューポートを導出するために用いられる、EEE16に記載の方法。
EEE18.前記ビューポート情報はさらに、前記1つ以上のビデオ画像に関して前記鑑賞者の中心視野を導出するために用いられる、EEE17に記載の方法。
EEE19.映像メタデータを前記総合ビデオストリームから復号化することをさらに包含し、前記映像メタデータは、前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち1つ以上を識別する、EEE16に記載の方法。
EEE20.前記ディスプレイに描画される前記ビデオコンテンツを生成することの一部として、非ブロック化操作、輪郭除去操作、またはぼかし操作のうち1つ以上を適用することをさらに包含する、EEE16に記載の方法。
EEE21.鑑賞者のビューポートの変化を検出することと、
前記鑑賞者のビューポートの変化に応答して、前記総合ビデオストリーム中の前記2つ以上のビデオサブストリームのうち少なくとも1つにおいて既に送信された周辺映像データに基づき、新たなビデオコンテンツを生成することと、
をさらに包含する、EEE16に記載の方法。
EEE22.EEE1〜21のいずれかに記載の方法を行う、装置。
EEE23.EEE1〜21のいずれかに記載の方法を行う、システム。
EEE24.1つ以上のプロセッサにより実行されたとき、EEE1〜21のうちいずれかに記載の方法を実行させるソフトウェア命令を格納した、非一時的なコンピュータ読み取り可能な記憶媒体。
EEE25.1つ以上のプロセッサと、1つ以上のプロセッサにより実行されたとき、EEE1〜21のうちいずれかに記載の方法を実行させる、1組の命令を格納した1つ以上の記憶媒体とを備えた、計算装置。

Claims (13)

  1. 1つ以上のビデオ画像の画像内容に基づき、前記1つ以上のビデオ画像中の複数のシーンを識別することであって、前記複数のシーンは、映像メタデータによって識別される少なくとも1つの高関心のシーンおよび少なくとも1つの低関心のシーンを含み、前記少なくとも1つの高関心のシーンは、前記1つ以上のビデオ画像の鑑賞者の母集団から集められた鑑賞行動データに基づいて生成される、前記映像メタデータに関連するヒートマップによって決定され、
    前記1つ以上のビデオ画像の賞者のビューポートを追跡することと、
    前記1つ以上のビデオ画像中の前記複数のシーンに基づき、かつ前記鑑賞者のビューポートに基づき、前記1つ以上のビデオ画像における複数の領域断面を決定することであって、前記複数の領域断面は、前記鑑賞者のビューポート内の高関心のシーンに対応する第1の領域断面と、前記鑑賞者のビューポート外の高関心のシーンに対応する第2の領域断面と、前記鑑賞者のビューポート外の低関心のシーンに対応する第3の領域断面とを含み、
    可変空間解像度を有するブラーフィルタを鑑賞者の中心視野を包含するシーンの画像データに対し適用することであって、前記鑑賞者の中心視野を包含するシーン部分にはゼロまたは少ないぼかしを与え、前記鑑賞者の中心視野外のシーン部分にはより強いぼかしを与え、前記ぼかしの強度は、ある空間的位置と鑑賞者の中心視野の中心との空間的距離に少なくとも部分的に基づいており、
    前記複数の領域断面中にある前記1つ以上のビデオ画像の複数の画像部分を、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームに符号化することであって、前記2つ以上のビデオサブストリームは、前記第1の領域断面に対し第1の時空間解像度を有する第1のビデオサブストリームと、前記第2の領域断面に対し第2の時空間解像度を有する第2のビデオサブストリームと、前記第3の領域断面に対し第3の時空間解像度を有する第3のビデオサブストリームとを含み、前記第3の時空間解像度は前記第2の時空間解像度より低く、前記第2の時空間解像度は前記第1の時空間解像度より低く、
    ストリーミングクライアントデバイスに、前記2つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
    を包含する映像データをストリーミングする方法であって、
    1つ以上の計算装置によって行われる、方法。
  2. 1つ以上のビデオ画像の画像内容に基づき、前記1つ以上のビデオ画像中の複数のシーンを識別することであって、前記複数のシーンは、少なくとも1つの高関心のシーンおよび少なくとも1つの低関心のシーンを含み、前記少なくとも1つの高関心のシーンは、ディレクター、カラーリスト、映像技師、または、コンテンツ制作アーティストからのユーザー入力によって決定され、
    前記1つ以上のビデオ画像の鑑賞者のビューポートを追跡することと、
    前記1つ以上のビデオ画像中の前記複数のシーンに基づき、かつ前記鑑賞者のビューポートに基づき、前記1つ以上のビデオ画像における複数の領域断面を決定することであって、前記複数の領域断面は、前記鑑賞者のビューポート内の高関心のシーンに対応する第1の領域断面と、前記鑑賞者のビューポート外の高関心のシーンに対応する第2の領域断面と、前記鑑賞者のビューポート外の低関心のシーンに対応する第3の領域断面とを含み、
    可変空間解像度を有するブラーフィルタを鑑賞者の中心視野を包含するシーンの画像データに対し適用することであって、前記鑑賞者の中心視野を包含するシーン部分にはゼロまたは少ないぼかしを与え、前記鑑賞者の中心視野外のシーン部分にはより強いぼかしを与え、前記ぼかしの強度は、ある空間的位置と鑑賞者の中心視野の中心との空間的距離に少なくとも部分的に基づいており、
    前記複数の領域断面中にある前記1つ以上のビデオ画像の複数の画像部分を、2つ以上の異なる時空間解像度にある2つ以上のビデオサブストリームに符号化することであって、前記2つ以上のビデオサブストリームは、前記第1の領域断面に対し第1の時空間解像度を有する第1のビデオサブストリームと、前記第2の領域断面に対し第2の時空間解像度を有する第2のビデオサブストリームと、前記第3の領域断面に対し第3の時空間解像度を有する第3のビデオサブストリームとを含み、前記第3の時空間解像度は前記第2の時空間解像度より低く、前記第2の時空間解像度は前記第1の時空間解像度より低く、
    ストリーミングクライアントデバイスに、前記2つ以上のビデオサブストリームを含む総合ビデオストリームを送信することと、
    を包含する映像データをストリーミングする方法であって、
    1つ以上の計算装置によって行われる、方法。
  3. 前記複数の領域断面は、鑑賞者の中心視野内にある高関心のシーンに対応する第4の領域断面を含み、前記2つ以上のビデオサブストリームは、前記第4の領域断面に対し第4の時空間解像度を有する第4のビデオサブストリームを含み、前記第4の時空間解像度は前記第1の時空間解像度より高い、請求項1または2に記載の方法。
  4. 前記複数の領域断面のうち少なくとも1つの領域断面は、前記1つ以上のビデオ画像に対し画像コンテンツ解析を行うことに部分的に基づいて識別される、請求項1から3のいずれかに記載の方法。
  5. 前記複数の領域断面のうち少なくとも2つの領域断面は、異なる空間形状、異なるサイズ、または異なるアスペクト比のうち1つ以上を有する、請求項1から4のいずれかに記載の方法。
  6. 前記2つ以上のビデオサブストリームのうち少なくとも1つのビデオサブストリームは、アンカーフレームのみを含んでいる、請求項1から5のいずれかに記載の方法。
  7. 前記複数のシーン中のシーン群または前記複数の領域断面中の領域断面群のうち1つ以上を識別する前記映像メタデータを生成することと、
    前記2つ以上のビデオサブストリームを含む前記総合ビデオストリーム中の前記映像メタデータを、前記ストリーミングクライアントデバイスに送信することと、
    をさらに包含する、請求項1に記載の方法。
  8. 前記第3のビデオサブストリームは非アンカーフレームを含まない、請求項1から7のいずれかに記載の方法。
  9. 機械学習を適用して前記鑑賞行動データを解析することをさらに包含し、
    前記ヒートマップは、解析した前記鑑賞行動データに基づいて生成される、請求項1に記載の方法。
  10. 請求項1から9のいずれかに記載の方法を行う、装置。
  11. 請求項1から9のいずれかに記載の方法を行う、システム。
  12. 1つ以上のプロセッサにより実行されたとき、請求項1から9のうちいずれかに記載の方法を実行させるソフトウェア命令を含むコンピュータプログラム。
  13. 1つ以上のプロセッサと、1つ以上のプロセッサにより実行されたとき、請求項1から9のうちいずれかに記載の方法を実行させる、1組の命令を格納した1つ以上の記憶媒体とを備えた、計算装置。
JP2019516408A 2016-09-26 2017-09-18 コンテンツに基づいた映像データのストリーム分割 Active JP6884856B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662399574P 2016-09-26 2016-09-26
US62/399,574 2016-09-26
EP16190623 2016-09-26
EP16190623.5 2016-09-26
PCT/US2017/052110 WO2018057472A1 (en) 2016-09-26 2017-09-18 Content based stream splitting of video data

Publications (2)

Publication Number Publication Date
JP2019534614A JP2019534614A (ja) 2019-11-28
JP6884856B2 true JP6884856B2 (ja) 2021-06-09

Family

ID=59914544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019516408A Active JP6884856B2 (ja) 2016-09-26 2017-09-18 コンテンツに基づいた映像データのストリーム分割

Country Status (6)

Country Link
US (2) US11303966B2 (ja)
EP (2) EP3516882B1 (ja)
JP (1) JP6884856B2 (ja)
KR (1) KR102218519B1 (ja)
CN (2) CN109792562B (ja)
WO (1) WO2018057472A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10779014B2 (en) 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
KR102154323B1 (ko) * 2019-01-11 2020-09-09 한국항공대학교산학협력단 360도 비디오 시퀀스를 이용한 서브 비디오 시퀀스 생성 장치 및 방법
US10554940B1 (en) 2019-03-29 2020-02-04 Razmik Ghazaryan Method and apparatus for a variable-resolution screen
US10466489B1 (en) 2019-03-29 2019-11-05 Razmik Ghazaryan Methods and apparatus for a variable-resolution screen
US11284053B2 (en) 2019-03-29 2022-03-22 Razmik Ghazaryan Head-mounted display and projection screen
US11307655B2 (en) 2019-09-19 2022-04-19 Ati Technologies Ulc Multi-stream foveal display transport
CN110519607B (zh) 2019-09-27 2022-05-20 腾讯科技(深圳)有限公司 视频解码方法及装置,视频编码方法及装置
US20220368946A1 (en) * 2019-11-07 2022-11-17 Intel Corporation Heterogeneous real-time streaming and decoding of ultra-high resolution video content
CN111127478B (zh) * 2019-12-13 2023-09-05 上海众源网络有限公司 一种视图块分割方法及装置
CN111614975B (zh) * 2020-05-08 2022-07-12 深圳拙河科技有限公司 一种亿级像素视频播放方法、装置、介质及设备
US11276206B2 (en) * 2020-06-25 2022-03-15 Facebook Technologies, Llc Augmented reality effect resource sharing
EP4189968A1 (en) * 2020-08-03 2023-06-07 Dolby Laboratories Licensing Corporation Dual stream dynamic gop access based on viewport change
US20220044132A1 (en) * 2020-08-07 2022-02-10 International Business Machines Corporation Displaying contextual information of media
US11800184B2 (en) * 2021-01-06 2023-10-24 Tencent America LLC Method and apparatus for media scene description
US11936975B2 (en) * 2021-05-12 2024-03-19 Nio Technology (Anhui) Co., Ltd. Combined computer vision and human vision camera system
CN113810755B (zh) * 2021-09-15 2023-09-05 北京百度网讯科技有限公司 全景视频预览的方法、装置、电子设备及存储介质
CN116761019A (zh) * 2023-08-24 2023-09-15 瀚博半导体(上海)有限公司 视频处理方法、系统、计算机设备及计算机可读存储介质
CN118283241B (zh) * 2024-06-03 2024-08-13 中宜墨彩(成都)文化创意发展集团有限公司 一种沉浸式vr视频系统及数据处理方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5703604A (en) 1995-05-22 1997-12-30 Dodeca Llc Immersive dodecaherdral video viewing system
WO2001095513A1 (en) 2000-06-09 2001-12-13 Imove Inc. Streaming panoramic video
EP1359722A1 (en) 2002-03-27 2003-11-05 BRITISH TELECOMMUNICATIONS public limited company Data streaming system and method
CN1860791A (zh) * 2003-09-29 2006-11-08 皇家飞利浦电子股份有限公司 结合高级数据分割和精确粒度可分级以用于有效时空信噪比的可分级视频编码和流式传输的系统和方法
JP4305752B2 (ja) * 2003-10-24 2009-07-29 ソニー株式会社 映像配信システム、映像配信装置、映像配信方法及び映像配信プログラム
US20050094732A1 (en) * 2003-10-30 2005-05-05 Debargha Mukherjee Data communications methods, compressed media data decoding methods, compressed media data decoders, articles of manufacture, and data communications systems
US8848053B2 (en) 2006-03-28 2014-09-30 Objectvideo, Inc. Automatic extraction of secondary video streams
US8446509B2 (en) * 2006-08-09 2013-05-21 Tenebraex Corporation Methods of creating a virtual window
CN101115200B (zh) * 2007-04-20 2010-05-19 西安交通大学 一种有效的运动矢量可伸缩编码方法
JP4895042B2 (ja) 2007-07-20 2012-03-14 富士フイルム株式会社 画像圧縮装置、画像圧縮方法、及びプログラム
CA2714362A1 (en) 2008-01-29 2009-08-06 Enforcement Video, Llc Omnidirectional camera for use in police car event recording
JP5109697B2 (ja) * 2008-02-07 2012-12-26 ソニー株式会社 画像送信装置、画像受信装置、画像送受信システム、画像送信プログラムおよび画像受信プログラム
US20100050221A1 (en) 2008-06-20 2010-02-25 Mccutchen David J Image Delivery System with Image Quality Varying with Frame Rate
US8264524B1 (en) 2008-09-17 2012-09-11 Grandeye Limited System for streaming multiple regions deriving from a wide-angle camera
WO2010057170A1 (en) 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
US8633984B2 (en) 2008-12-18 2014-01-21 Honeywell International, Inc. Process of sequentially dubbing a camera for investigation and review
US20110067072A1 (en) * 2009-09-14 2011-03-17 Shyam Parekh Method and apparatus for performing MPEG video streaming over bandwidth constrained networks
KR20110105710A (ko) * 2010-03-19 2011-09-27 삼성전자주식회사 복수의 챕터를 포함하는 콘텐트를 적응적으로 스트리밍하는 방법 및 장치
US9690099B2 (en) * 2010-12-17 2017-06-27 Microsoft Technology Licensing, Llc Optimized focal area for augmented reality displays
ES2675802T3 (es) 2011-02-18 2018-07-12 Alcatel Lucent Procedimiento y aparato para transmitir y recibir un flujo de video panorámico
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US8789095B2 (en) * 2012-05-15 2014-07-22 At&T Intellectual Property I, Lp Apparatus and method for providing media content
JP6106967B2 (ja) * 2012-06-04 2017-04-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び画像表示装置
US9996150B2 (en) * 2012-12-19 2018-06-12 Qualcomm Incorporated Enabling augmented reality using eye gaze tracking
US20140199050A1 (en) 2013-01-17 2014-07-17 Spherical, Inc. Systems and methods for compiling and storing video with static panoramic background
GB2509953B (en) * 2013-01-18 2015-05-20 Canon Kk Method of displaying a region of interest in a video stream
US10438633B2 (en) 2013-05-26 2019-10-08 Pixellot Ltd. Method and system for low cost television production
US10721530B2 (en) 2013-07-29 2020-07-21 Koninklijke Kpn N.V. Providing tile video streams to a client
EP2874396A1 (en) 2013-11-15 2015-05-20 Everseen Ltd. Method and system for securing a stream of data
JP6178705B2 (ja) * 2013-11-15 2017-08-09 日本電信電話株式会社 映像配信システム、映像配信装置及び映像配信プログラム
US20150271571A1 (en) * 2014-03-18 2015-09-24 Vixs Systems, Inc. Audio/video system with interest-based recommendations and methods for use therewith
US20150373341A1 (en) 2014-06-23 2015-12-24 Cisco Technology, Inc. Techniques for Interactive Region-Based Scalability
WO2015197815A1 (en) 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream
JP2016019248A (ja) * 2014-07-10 2016-02-01 キヤノン株式会社 動画表示制御装置、動画表示制御方法及びプログラム
US10204658B2 (en) 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
US10750153B2 (en) 2014-09-22 2020-08-18 Samsung Electronics Company, Ltd. Camera system for three-dimensional video
GB2536025B (en) * 2015-03-05 2021-03-03 Nokia Technologies Oy Video streaming method

Also Published As

Publication number Publication date
US20210314670A1 (en) 2021-10-07
US20220210512A1 (en) 2022-06-30
KR20190038664A (ko) 2019-04-08
EP3516882B1 (en) 2020-10-28
WO2018057472A1 (en) 2018-03-29
US11303966B2 (en) 2022-04-12
CN109792562B (zh) 2021-04-13
CN113301439B (zh) 2023-06-30
CN109792562A (zh) 2019-05-21
KR102218519B1 (ko) 2021-02-22
EP3793205A1 (en) 2021-03-17
EP3793205B1 (en) 2023-09-13
CN113301439A (zh) 2021-08-24
JP2019534614A (ja) 2019-11-28
US11653065B2 (en) 2023-05-16
EP3516882A1 (en) 2019-07-31

Similar Documents

Publication Publication Date Title
JP6884856B2 (ja) コンテンツに基づいた映像データのストリーム分割
US12015787B2 (en) Predicting and verifying regions of interest selections
Fan et al. A survey on 360 video streaming: Acquisition, transmission, and display
Chiariotti A survey on 360-degree video: Coding, quality of experience and streaming
US10440407B2 (en) Adaptive control for immersive experience delivery
EP3466091B1 (en) Method, device, and computer program for improving streaming of virtual reality media content
WO2019202207A1 (en) Processing video patches for three-dimensional content
US11748870B2 (en) Video quality measurement for virtual cameras in volumetric immersive media
US11941748B2 (en) Lightweight view dependent rendering system for mobile devices
US20130321586A1 (en) Cloud based free viewpoint video streaming
US20190335166A1 (en) Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
US11120615B2 (en) Dynamic rendering of low frequency objects in a virtual reality system
JP7447266B2 (ja) ボリュメトリック画像データに関するビューの符号化及び復号
Rossi et al. Streaming and user behavior in omnidirectional videos
JP2016012920A (ja) 超高解像度ビデオコンテンツ内をナビゲートするための方法、システムおよび関連する選択デバイス
Alain et al. Introduction to immersive video technologies
Huang et al. Low-Complexity 3D-Vision Conferencing System based on Accelerated RIFE Model
CN106406508A (zh) 一种信息处理方法及中继设备
Wang Low-Latency Adaptive Media Streaming: From 2D to 6-DoF
Niamut et al. Advanced visual rendering, gesture-based interaction and distributed delivery for immersive and interactive media services

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20190524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200622

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210413

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210512

R150 Certificate of patent or registration of utility model

Ref document number: 6884856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250