JP7252238B2 - 画像データビットストリームを生成するための装置及び方法 - Google Patents

画像データビットストリームを生成するための装置及び方法 Download PDF

Info

Publication number
JP7252238B2
JP7252238B2 JP2020537173A JP2020537173A JP7252238B2 JP 7252238 B2 JP7252238 B2 JP 7252238B2 JP 2020537173 A JP2020537173 A JP 2020537173A JP 2020537173 A JP2020537173 A JP 2020537173A JP 7252238 B2 JP7252238 B2 JP 7252238B2
Authority
JP
Japan
Prior art keywords
image
portions
image portions
predictability
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537173A
Other languages
English (en)
Other versions
JP2021510251A (ja
Inventor
バート クルーン
クリスティアーン ヴァレカンプ
パトリック ルク エルス バンドワール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2021510251A publication Critical patent/JP2021510251A/ja
Application granted granted Critical
Publication of JP7252238B2 publication Critical patent/JP7252238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、画像データビットストリームを生成することに関し、詳細には、限定はしないが、シーンの適応3次元表現を与える画像データビットストリームを生成することに関する。
画像及びビデオアプリケーションの多様性及び範囲は、ビデオを利用し、消費する新しいサービス及びやり方が継続的に開発され、導入されることで、近年、大幅に増加している。
例えば、ますます普及しているあるサービスは、観察者が、レンダリングのパラメータを変更するためにシステムと能動的に及び動的に対話することが可能であるようなやり方での画像シーケンスの提供である。多くのアプリケーションにおける極めて魅力的な特徴は、例えば観察者が提示されているシーン中で移動し、「見回す」ことを可能にすることなど、観察者の効果的な観察位置及び観察方向(観察姿勢)を変更する能力である。
そのような特徴は、詳細には、仮想現実エクスペリエンスがユーザに与えられることを可能にすることができる。これは、ユーザが、仮想環境中を(比較的)自由に動き回り、ユーザの位置と、ユーザが見ている場所とを動的に変更することを可能にする。一般に、そのような仮想現実アプリケーションはシーンの3次元モデルに基づき、モデルは、特定の要求されたビューを与えるために動的に評価される。この手法は、ファーストパーソンシューターのゲームカテゴリーなどにおける、例えば、コンピュータ及びコンソールのためのゲームアプリケーションからよく知られている。
また、特に仮想現実アプリケーションの場合、提示されている画像は3次元画像であることが望ましい。実際、観察者の没入を最適化するために、ユーザが、提示されたシーンを3次元シーンとして経験することが、一般に好ましい。実際、仮想現実エクスペリエンスは、好ましくは、ユーザが、仮想世界に対してユーザ自身の位置、カメラ視点、及び時間的瞬間を選択することを可能にするべきである。
シーンの、特に3次元の表現に基づく様々なサービスをサポートすることにおける主要な問題点は、大量のデータが必要とされることである。これにより、大きいストレージリソースの必要など、高いリソース要件が生じる。しかしながら、多くのシナリオでは、最も大きい制約は、ストレージ又は処理要件ではなく、通信要件である。シーンを表すデータが(内部であるか外部であるかにかかわらず)帯域幅制限された通信チャネル上で通信されなければならないことが必要とされる場合、通信される必要があるデータの量を低減することを試みることが、大いに望ましい。
例えば、多くのシナリオでは、及び多くのアプリケーションの場合、例えば仮想現実アプリケーションを実行するリモートクライアントが、帯域幅制限されたリンク上で必要とされるシーンデータを与える中央サービスに結合される、クライアントサーバ手法が使用される。しかしながら、マルチビュー表現は、一般に、高いビットレートに関連付けられる(深度情報がない場合でさえ高いビットレートが必要とされ、実際、これは、より多くのビューが必要とされるにつれて、この場合、しばしばさらに高くなる)。例えば、運動の自由を伴う仮想現実再生は、観測者が3D空間中を移動している速度でのシーンの異なるビューを必要とする。そのような通信チャネル上で十分なデータを与えることの課題は、実際には、対処することが極めて困難である。
帯域幅制限された通信チャネル上での3Dジオメトリ及びテクスチャ情報の効率的なストリーミングのための、及び特に、インターネットなどのネットワークとともに使用するためのいくつかのフォーマットが提案されている。例えば、MPEG全方向性メディアフォーマット(OMAF)規格は、動的適応ストリーミングオーバーHTTP(MPEG DASH)を利用する360ビデオ(3自由度(DoF))のタイルストリーミング(tiled streaming)を含む。OMAFの将来のバージョンは、制限された運動視差(motion parallax)(3DoF+)をサポートすることが予想される。
上述のように、実際には、深度コーディングに関するマルチビューにおける最も緊急の問題は、しばしば、ストレージ要件ではなく、むしろ送信帯域幅及びレイテンシである。滑らかなエクスペリエンスを有するために、画像は、ヘッドセットに適時に到着するべきである。しかしながら、開発されたフォーマット及び符号化はデータレートを低減しようとするが、それは、依然として、一般に、クライアント側において達成され得る品質及びユーザエクスペリエンスに対する主な制限である。
したがって、画像データビットストリームを生成し、使用するための改善された手法が有利である。特に、改善された動作、容易にされた動作、シーンの改善された表現、増加されたフレキシビリティ、容易にされた実施、低減されたデータボリューム、低減されたデータストレージ、配信、及び/又は処理リソース要件、改善された適応性、並びに/或いは、改善された性能を可能にする手法が有利である。
したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの1つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。
本発明の一態様によれば、画像データビットストリームを生成するための装置であって、本装置は、異なるビュー姿勢からのシーンを表す、画像部分のセットと、関連する深度データとを記憶するためのストアと、シーンのビュー姿勢についての画像部分のセットの画像部分についての予測可能性測度を生成するための予測可能性プロセッサであって、第1のビュー姿勢についての第1の画像部分についての予測可能性測度が、画像部分のセットの第1の画像部分を含まない画像部分の第1のサブセットからの、第1のビュー姿勢のビューポートについての画像の少なくとも一部の予測についての予測品質の推定値を示す、予測可能性プロセッサと、予測可能性測度に応答して画像部分のセットの画像部分の第2のサブセットを選択するためのセレクタと、画像部分の第1のサブセットからの画像データ及び深度データを備える画像ビットストリームを生成するためのビットストリーム生成器とを備える、装置が提供される。
本発明は、例えば仮想現実アプリケーションのためのシーンの適応3次元表現を与えるなど、シーンの表現を与えるビットストリームの改善された生成を与える。本手法は、多くのシナリオにおいて、複雑度の低減を与える。それは、多くのシナリオにおいて、ビットストリームについての大幅に低減されたデータレート、及び/又は改善された品質を与える。改善された品質/データレートトレードオフが、多くのシナリオにおいて達成され得る。
画像部分及びビュー姿勢についての予測可能性測度は、予測可能性測度が決定される画像部分を使用して予測が中で実行される、そのビュー姿勢についてのシーンの画像についての画像部分の予測の品質を示す。
画像部分についての関連する深度データは、画像部分についての視点から画像部分中の物体までの距離を示す深度データである。
本発明の更なる特徴によれば、予測可能性プロセッサは、第1の画像部分の予測の予測品質を示すものとして、第1の画像部分についての予測可能性測度を生成するように構成される。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。それは、シーンの特定の特性及び/又はビットストリームの使用量に対する、ビットストリームの改善された適応を与える。
第1の画像部分についての予測可能性測度は、画像部分の記憶されたセットの1つ又は複数の他の画像部分からの第1の画像部分の予測の品質を示す。
本発明の更なる特徴によれば、画像部分の第1のサブセットは、ビットストリーム中に含まれる画像部分のみを含む。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与え、詳細には、ビットストリームの受信側が十分な品質のビュー画像を合成するために追加のデータが必要とされる限り画像部分が与えられる手法を可能にする。
本発明の更なる特徴によれば、セレクタは、ターゲットビュー姿勢についての画像部分のセットについての可視性測度(visibility measure)に応答して、画像部分の第2のサブセットを選択するようにさらに構成される。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。それは、シーンの特定の特性及び/又はビットストリームの使用量に対する、ビットストリーム生成の改善された適応を与える。
本発明の更なる特徴によれば、画像部分は、事前符号化された画像部分である。
これは、特に効率的な手法を与え、ビットストリームを生成するための本装置の計算要件を大幅に低減する。例えば、画像部分は1回符号化され、記憶された符号化された画像部分は、次いで、ビットストリームがその後生成されるたびに再使用される。
本装置は、ストアから符号化された画像部分を取り出し、画像部分の画像符号化又はトランスコーディングなしにビットストリーム中にそれを含めるように構成される。
本発明の更なる特徴によれば、画像部分のセットは、異なるビュー姿勢についてのシーンの多面体投影の面を備える。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。それは、多くの他の画像処理アルゴリズムとの適合性をさらに可能にする。
本発明の更なる特徴によれば、画像部分は、画像の所定の区分に対応する。
これは、多くの実施形態において改善された性能を与え、多くの実施形態において、ビットストリームに基づくビュー合成のために特に有用な、データのより効率的な選択を与える。
本発明の更なる特徴によれば、本装置は、画像のピクセル値及び画像についての深度値のうちの少なくとも1つに基づく画像の区分に応答して、画像部分のセットの少なくともいくつかの画像部分を生成するためのパーティショナをさらに備える。
これは、多くのシナリオ及び実施形態において、特に効率的で低複雑度の動作を与える。それは、多くの他の画像処理アルゴリズムとの適合性をさらに可能にする。
本発明の更なる特徴によれば、画像部分のセットの少なくともいくつかの画像部分は、シーンのメッシュ及びテクスチャ表現からのテクスチャ部分を含むテクスチャアトラス(texture atlas)画像の画像部分である。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。それは、多くの他の画像処理アルゴリズムとの適合性をさらに可能にする。
本発明の更なる特徴によれば、セレクタは、リモートソースから受信されたターゲットビュー姿勢に応答して、画像部分の第2のサブセットについての画像部分を選択するように構成される。
これは、多くの実施形態において特に魅力的な動作を与え、例えば、本装置が、例えば仮想観察者がシーン中を移動する仮想現実アプリケーションに最も本質的な情報を与えるビットストリームを動的に生成するシステムを可能にする。
本発明の更なる特徴によれば、セレクタは、複数の隣接画像部分が、領域の内部部分についての第1のしきい値を下回る予測品質測度と、領域の境界部分についての第2のしきい値を上回る予測品質測度とを有する領域を形成するという決定に応答して、複数の隣接画像部分を選択するように構成される。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。
本発明の更なる特徴によれば、少なくともいくつかの画像部分は重複している。
これは、多くのシナリオ及び実施形態において、特に効率的で高性能な動作を与える。
本発明の更なる特徴によれば、予測可能性プロセッサは、第1の画像部分についての関連する深度データに応答して、第1の画像部分についての予測可能性測度を生成するように構成される。
これは、多くの実施形態において特に有利な予測可能性測度を与え、例えば、極めて正確で効率的な適応を依然として可能にする低複雑度実装形態を可能にする。
本発明の一態様によれば、画像データビットストリームを生成する方法であって、本方法は、異なるビュー姿勢からのシーンを表す、画像部分のセットと、関連する深度データとを記憶するステップと、シーンのビュー姿勢についての画像部分のセットの画像部分についての予測可能性測度を生成するステップであって、第1のビュー姿勢についての第1の画像部分についての予測可能性測度が、画像部分のセットの第1の画像部分を含まない画像部分の第1のサブセットからの、第1のビュー姿勢のビューポートについての画像の少なくとも一部の予測についての予測品質の推定値を示す、生成するステップと、予測可能性測度に応答して画像部分のセットの画像部分の第2のサブセットを選択するステップと、画像部分の第1のサブセットからの画像データ及び深度データを備える画像ビットストリームを生成するステップとを有する、方法が提供される。
本発明のこれら及び他の態様、特徴及び利点は、以下で説明される(1つ又は複数の)実施形態から明らかになり、それらに関して解明されるであろう。
本発明の実施形態が、図面を参照しながら単に例として説明される。
本発明のいくつかの実施形態による、画像処理システムの要素の一例を示す図である。 本発明のいくつかの実施形態による、ビットストリーム生成装置の一例を示す図である。 シーン及び関連する予測品質特性の一例を示す図である。 本発明のいくつかの実施形態による、ビットストリームについてのアンカー画像部分の選択の一例を示す図である。 シーンの画像のタイルの一例を示す図である。 本発明のいくつかの実施形態による、ビットストリームについてのアンカー画像部分の選択の一例を示す図である。 シーンのビューの一例を示す図である。 本発明のいくつかの実施形態による、ビットストリームについてのアンカー画像部分の選択の一例を示す図である。
以下の説明は、仮想現実アプリケーションのための画像データストリームの生成に適用可能な本発明の実施形態に焦点を当てる。ただし、本発明は、本実施形態に限定されず、例えば多くの異なる画像処理及びレンダリングアプリケーションにおいて適用されることが理解されよう。
図1は、発明概念の実施形態の例及び変形態を具現するシステムの一例を示す。
本例では、画像レンダリング装置101の形態のクライアントが、異なる視点からのシーンを表す画像を生成するように構成され、すなわち、シーンの異なるビュー姿勢のための異なるビューポートに対応する画像が生成される。画像レンダリング装置101は、画像部分並びに関連する深度を備える画像データビットストリームを受信し、それにより、シーンの部分的な3次元画像表現を与えるように構成される。それは、次いで、受信されたデータに基づいて、所与のビューポート及び姿勢に対応する適切な画像を生成する。本例では、画像データビットストリームは、リモートサーバとして動作するビットストリーム生成装置103から受信される。ビットストリーム生成装置103は、例えばインターネットであるネットワーク105を介して画像データビットストリームを与えるように構成される。特定の例では、リモートサーバ103は、例えば3次元環境中での仮想ユーザの移動に対応するビューを生成するために、画像レンダリング装置101に3次元環境を表す3次元画像データを与える仮想現実サーバである。
当分野では、配置又は姿勢という用語は、位置及び/又は方向/向きのための共通用語として使用され、例えば物体、カメラ、又はビューの位置及び方向/向きの組合せが、実際、一般に、姿勢又は配置と呼ばれる。したがって、配置又は姿勢指示は、6つの値/成分/自由度を備え、各値/成分が、一般に、対応する物体の位置/ロケーション又は向き/方向の個々の特性を表す。もちろん、多くの状況では、例えば、1つ又は複数の成分が固定であるか又は無関係であると見なされる場合、配置又は姿勢は、より少数の成分によって考慮されるか、又は表される(例えば、すべての物体が同じ高さにあり、水平の向きを有すると見なされる場合、4つの成分が物体の姿勢の完全な表現を与える)。以下では、姿勢という用語は、(最大可能自由度に対応する)1~6の値によって表される位置及び/又は向きを指すために使用される。説明は、姿勢が最大自由度、すなわち、位置及び向きの各々の3自由度を有し、合計6自由度(6DoF)を有する実施形態及び例に焦点を当てる。したがって、姿勢は、6自由度を表す6つの値のセット又はベクトルによって表され、したがって、姿勢ベクトルは、3次元位置及び/又は3次元方向指示を与える。ただし、他の実施形態では、姿勢がより少数の値によって表されることが理解されよう。
多くのアプリケーションでは、サーバに存在するシーンの3次元画像表現は、例えば深度検知カメラを使用した現実世界のシーン又は環境のキャプチャから生成される。これは、視覚特性が3次元情報とともにキャプチャされることを可能にする。シーンを十分にキャプチャするために、異なるビュー姿勢に対応する、しばしば極めて多数のキャプチャの使用が採用される。いくつかのアプリケーションでは、異なるビュー姿勢からのシーン全体の正確で詳細な表現を与えるために、(関連する深度情報をもつ)数百個、さらには数千個の画像が使用される。
シーンの仮想データ表現は、有利なユーザエクスペリエンスを与える際の重要な要因である。シーンを表すデータが、視覚特性並びに空間特性の両方の正確な表現を与えることが必要とされる。同時に、シーンを表すために必要とされるデータの量を低減することは、多くのアプリケーションにおいて、達成され得る品質についての制限要因である傾向があるので、これは重要である。
特に、画像レンダリング装置101が、例えば当業者に知られるように視点シフトを実行することによって、所望のビュー姿勢に対応する好適な画像をローカルに生成することを可能にするために、十分な情報が画像レンダリング装置101に与えられることが必要とされる。しかしながら、同時に、送信されるデータの量が低く保たれ、そのレイテンシが低レベルに保たれることが必要とされる。多くのシナリオでは、制限された通信帯域幅は、高品質及び低レイテンシをもつ高品質ユーザエクスペリエンスを与えようとする際の限定要因である。
さらに、深度検知カメラのキャプチャから環境/シーンのデータ表現への変換は、しばしば極めて困難であり、エラー又はアーチファクトをもたらす。例えば、いくつかのアプリケーションでは、キャプチャされたデータは、現実世界のシーンの3次元モデルを展開するために使用される。次いで、3次元仮想現実エクスペリエンスを与えられているユーザについてのビュー画像が、特定の視点からモデルを評価することによって生成される。他のアプリケーションでは、特定のビューポート又は視点についての画像は、例えば、最も近いキャプチャされた画像のうちの1つ又は複数を選択し、所望の視点に対応するように視点シフトを実行することによって、又は、いくつかの場合にはキャプチャされた画像を直接使用することによって、キャプチャされた画像及び深度情報から直接生成される。
この場合は、シーンは、深度データとともに画像のセットによって画像領域中で表される。多くの実施形態では、画像は、所与のビュー姿勢についての所与の視点のビューを反映する視覚情報を与え、深度データは、画像中のピクセル又は物体の深度を表す。詳細には、各画像は、シーンについての所与のビュー姿勢についての所与のキャプチャに対応し、深度データは、当業者に知られるように、付随する深度マップである。いくつかの実施形態では、画像は、例えばテクスチャアトラス画像又はテクスチャマップであり、深度データは、後でより詳細に説明されるように、シーンのメッシュ及びテクスチャ表現を与えるメッシュである。
ビットストリーム生成装置103は、したがって、ビュー姿勢のセットからのシーンを表す画像及び関連する深度データを備え、詳細には、画像及び深度データは、キャプチャされたデータである。ビットストリーム生成装置103は、したがって、ビュー姿勢の個別セットについての深度を伴う画像のセットによる3Dシーンの表現を記憶する。そのような画像が利用可能であるビュー姿勢はアンカービュー姿勢とも呼ばれ、画像はアンカービュー画像と呼ばれる。
画像は、さらに、画像部分に分割され、一般に、ビットストリーム生成装置103は、アンカー姿勢についてのアンカー画像部分の大きいセットを備える。いくつかの実施形態では、画像部分は、アンカー画像を(アクティブに)セグメント化又は分割することによって生成される。他の実施形態では、画像部分は、例えば、所与のアンカー姿勢のために利用可能なすべてのデータを備え、すなわち、画像部分は、所与のアンカーについての画像全体である。
ビットストリーム生成装置103は、したがって、画像部分のセット及び関連する深度マップによるシーンの(潜在的に部分的であるがしばしば実質的に完全な)3次元画像表現を備える。
各光強度/テクスチャ画像部分について、ビットストリーム生成装置103は、光強度/テクスチャ画像部分のピクセルについての深度情報を与える関連する深度マップを記憶する。深度マップは、一般に、深度値の位置に対応する観察方向における所与のビュー位置から物体までの距離を示す深度値を備える。深度値は、例えば、視点から物体までの増加する距離についての増加する値を有するか、又は、視点から物体までの増加する距離についての減少する値を有する。深度値は、多くの実施形態では、視差値として与えられる。
深度情報と画像(テクスチャ)情報の両方の提供は、画像レンダリング装置101による処理の改善を可能にする追加情報を与える。特に、それは、アンカービュー姿勢以外の他のビュー姿勢についてのビュー画像の生成を可能にするか、容易にするか、又は改善する。
そのような処理を容易にするために、ビュー姿勢間の距離ができるだけ小さいことが望まれる。詳細には、アンカー姿勢間の間隔が大きいと、可視のデオクルージョン(de-occlusion)エリアが生じ、中間ビューの合成のための極めて正確な深度マップ又はメッシュモデルが必要とされる。レンダリングユニットは複数のアンカーを組み合わせることによってデオクルージョンエリアを埋めることができるが、これは、送信、復号及びレンダリングのためにより多くのリソースを必要とし、品質を低減する傾向がある。
しかしながら、アンカー間の間隔が小さいとビットレートの増加につながり、ビットレートは、一般に、自由移動を可能にする仮想現実アプリケーションなどのアプリケーションでは特に高い。この理由は、(通常のビデオとは対照的に)深度をもつライトフィールドが3つの空間次元の関数として変動することである。これは、データの高い次元数により、(残差でない)固定要素のコーディングコストが高いことを意味する。
図1のシステムでは、画像部分及び関連する深度データが予測可能性測度に応じて適応的に選択され、ビットストリーム中に含まれる、改善された手法が与えられる。
図2は、ビットストリーム生成装置103のいくつかの要素の例を示す。
本例では、ビットストリーム生成装置103は、画像部分のセット及び関連する深度データを記憶するストア201を備える。
ビットストリーム生成装置103は、画像のセットの画像部分についての予測可能性測度を生成するように構成された予測可能性プロセッサ203をさらに備える。予測可能性測度は、シーンのビュー姿勢について生成される。所与の画像部分及びビュー姿勢についての予測可能性は、予測可能性測度が生成される画像部分を含まない画像部分のサブセットに基づいて、所与のビュー姿勢のためのビューポートに対応する画像(の全部又は一部)の予測の品質を示すために生成される。
したがって、予測可能性測度は、所与のビュー姿勢及び所与の画像部分について生成され、それは、そのビュー姿勢のビューポートについての画像部分が、予測可能性測度が生成される画像部分を除いて、セットの画像部分からどのくらい良く予測され得るかを反映する。
例えば、予測可能性測度は、クライアントからの現在のターゲットビュー姿勢に対応するビュー姿勢についての所与の画像部分について生成される。この予測可能性測度は、したがって、ビュー姿勢についての画像が、所与の画像部分が使用されない場合にどのくらい良く予測され得るかを示す。
別の例として、予測可能性測度は、所与の画像部分のビュー姿勢についてのその画像部分について生成される。この予測可能性測度は、詳細にはそのような場合、所与の画像部分自体が、記憶された画像部分のセットの他の画像部分からどのくらい良く予測され得るかを示す。
多くの実施形態では、予測可能性測度は、複数の、又は場合によってはすべての記憶された画像部分について生成され、及び/或いは、複数の予測可能性測度が、(異なるビュー姿勢に対応する)各画像部分について生成される。いくつかの実施形態では、すべての予測可能性測度は、1回、及び潜在的に特定のアプリケーションを開始するより前に生成される。いくつかの実施形態では、予測可能性測度は、それらが必要とされる限り、動的に生成される。
予測可能性プロセッサ203は、予測可能性測度に応答して画像部分のセットの画像部分のサブセットを選択するように構成されたセレクタ205に結合される。例えば、セレクタ203は、予測可能性測度が高い画像部分ではなく、予測可能性測度が低いいくつかの画像部分を選択する。
セレクタ205は、画像部分のサブセットからの画像データ及び深度データを備えるように画像ビットストリームを生成するように構成されたビットストリーム生成器207に結合される。しかしながら、所与の画像部分が、サブセット中に含まれるように選択されない(ただし、そこから除外されるように選択される)場合、その画像部分はビットストリーム中に含まれない。
予測可能性測度が生成される画像部分のサブセットは、異なる実施形態において異なる。例えば、それは、多くの実施形態では、ビットストリーム中にすでに含まれている画像部分から選択される画像部分(のみ)を含み、したがって、所与の姿勢及び画像部分についての予測可能性測度は、クライアントにすでに与えられている画像部分に基づいて、その姿勢についての画像の予測可能性を反映する。
他の実施形態では、サブセットは、例えば、固定要件に従って決定される。例えば、所与の画像部分の姿勢についてのその画像部分についての予測可能性測度を決定するために使用されるサブセットは、最も近いN個の画像部分として選択される。
また、異なる実施形態では、画像部分のサブセットを生成するための異なる手法が使用されることが理解されよう。例えば、いくつかの実施形態では、動的で連続的な手法が使用される。例えば、動作中に、クライアントからターゲットビュー姿勢指示が受信される。ビットストリーム生成装置103は、次いで、続いて、姿勢の近傍にある各画像部分について(例えばN個の最も近い画像部分について)、その姿勢についての予測可能性測度を生成し、予測は、画像レンダリング装置101にすでに送信されている画像部分のみに基づく。セレクタ205は、次いで、最も低い予測可能性測度を有する画像部分を選択し、これを、ビットストリーム中に含まれる(又は含まれている)画像部分のサブセット中に含める。それは、さらに、予測可能性測度が所与のターゲット姿勢について十分に高い予測品質を示すかどうかを決定する。予測可能性測度が所与のターゲット姿勢について十分に高い予測品質を示さない場合、プロセスは繰り返されてもよいが、このときはちょうど含まれた画像部分が、予測のために使用されるベース画像部分のサブセット中にも含まれる。したがって、ビットストリーム生成装置103は、所望のターゲットビューポートが十分に高い品質を伴って予測され得るまで、近くの画像部分を反復的に追加する。
いくつかの実施形態では、各画像部分は、必ずしも個々に考慮されるとは限らない。例えば、いくつかの実施形態では、(例えば、後でより詳細に説明されるように、ビュー内の物体の数など、シーンのコンテンツ/特性を考慮することに基づいて)複数の姿勢及び画像部分によってカバーされたシーンの一部について共通予測可能性測度が生成される。
同様に、選択は、必ずしも、所与の画像部分についての予測可能性測度のみを考慮することに基づくとは限らない。例えば、いくつかの実施形態では、選択される画像部分についての姿勢の空間密度は、(一般に、いくつかの画像部分に共通の)近傍予測可能性測度に依存する。一例として、(例えば、シーンの複雑度が低いという考慮事項により)予測可能性測度が高いと見なされる領域では、画像部分は、3番目ごとのアンカービュー位置について含まれる。対照的に、(例えば、シーンの複雑度が高いという考慮事項により)予測可能性測度が低いと見なされる場合、すべてのアンカービュー位置についての画像部分が、ビットストリーム中に含まれるように選択される。
本手法は、全体的データレートは低減されるが、依然として、画像レンダリング装置101が、所与のビュー姿勢について及び必要とされる品質レベルにおいて、必要とされるビューを生成することを可能にする、ビットストリームの適応され、改善された生成を与える。本手法は、送信されるデータにおける冗長を低減し、それにより、品質対ビットレート比を改善する(図1)。
例えば、図3の例は、異なる品質の3つの例示的なシーンと、シーンをキャプチャするアンカー画像の数の関数としての潜在的ビュー合成品質を示す関連する曲線とを示す。
単純なシーン301は、角度及び位置にわたってほとんど変動しない外観を有する。それは、例えば、マットペイントされた表面を含んでおり、オクルージョンをほとんど有しない。この単純なシーンの多くの異なるビューを生成するために、ほんのわずかのアンカー画像部分/画像のみが、画像レンダリング装置101によって必要とされる。対照的に、複雑なシーン303は、角度及び位置によってかなり変動する外観を有する。それは、例えば、鏡面及び金属要素、又は花の鉢など、自己オクルージョンをもつ物体を含む。そのような複雑なシーンをキャプチャするために、多くのアンカー画像部分/画像が必要とされ、対応して、異なるビューを生成するために、多数のアンカー画像部分が画像レンダリング装置101によって必要とされる。一般的なシーン305は、単純な部分と複雑な部分との組合せであり、複雑なシーンのために必要とされる十分な数のアンカーを伴ってそのようなシーンをキャプチャすることにより、かなりの冗長が生じる。ビットストリーム中に含めるための、利用可能なアンカー画像部分のサブセットを適応的に選択する説明される手法は、ビットストリーム中に含まれるデータの冗長を大幅に低減し、それにより、最終品質における相応の損失なしに、ビットレートを大幅に低下させる。多くの実施形態では、本手法は、アンカー画像を部分にスプリットし、予測可能性に基づいて、どの画像及び画像部分を送信すべきかを決定することによって、冗長を低下させる。
図4は、遠い背景401と前景物体403とをもつシーンの一例を示す。深度をもつ画像が、ビュー姿勢405の範囲からキャプチャされると、異なるビュー姿勢についてのアンカー画像/画像部分のセットが生じる。本例では、アンカー全体がスキップされる選択的送信ストラテジーが採用される。アンカー画像はすべて、離れた距離にある背景401を画像化するが、アレイの中心にあるアンカー画像は、それらの視野内の近い距離にある物体403をも含む。これは、一般に、中心画像が、エッジのほうにある画像よりも大幅に変動することにつながる(不規則なすぐ近くの物体の画像は、小さい視点変化について、背景の画像よりも大幅に変化する)。したがって、近傍アンカー画像から中心アンカー画像を予測することは、近傍アンカー画像からエッジアンカー画像を予測することよりも大幅に困難であり、したがって、中心画像についての予測可能性測度は、エッジ画像についての予測可能性測度よりも大幅に低い。したがって、エッジ画像についての比率よりも大きい(関連する深度マップをもつ)中心画像の比率がビットストリーム中に含まれる(ビットストリーム中に含まれる画像は、図4では、対応する姿勢指示が塗りつぶされることによって示されている)。したがって、セレクタ205は、この例では、アンカー画像についての(及びアンカー画像のビュー姿勢についての)予測可能性測度に応答して空間サンプリングレートを変動させることによって、ビットストリーム中に含めるべきアンカー画像を選択するように構成される。
図5は、仮想現実再生のために画像レンダリング装置101において正距円筒画像が生成されるアプリケーションの一例を示す。ビットストリーム生成装置103は、正距円筒画像を生成するために使用される画像部分を与え、詳細には、画像部分は画像のタイルに対応する。画像ベースレンダリングのために使用される深度マップも各タイルに関連する。観察者が位置及び向きを変更する間に、タイルは、サーバ/ビットストリーム生成装置103から画像レンダリング装置101における観察者アプリケーションにストリーミングされる。サーバからの必要とされるアンカー更新の空間周波数が、タイル/観察方向ごとに変動する。これは図6に示されており、図6は、アンカー姿勢/位置の水平グリッドを示す。本例では、与えられるアンカー画像の空間密度は、正距円筒画像の異なるタイルについて、そのタイルについての予測可能性測度の変動に応じて変動する。
例えば、図7に示されているように、現在の仮想ユーザビュー姿勢について、正距円筒画像/ビューポートの3つの(隣接する)タイルT、T、Tは、わずかに異なる(隣接する)観察角度間隔に対応する。これらのビュー間隔/タイルのうちの2つ、すなわち、T、Tは、すぐ近くの不規則な物体を含むが、第3のタイルTはそれを含まない。したがって、ビットストリーム生成装置103は、タイルT、T、Tに対応する画像部分についての予測可能性測度を生成し、最初の2つのタイルT、Tについて、最後のタイルTよりも低い予測可能性測度を決定する。したがって、それは、続いて、最初の2つのタイルT、Tについて、第3のタイルTよりも高い空間サンプリング密度が必要とされると決定する。したがって、最初の2つのタイルT、Tに対応する画像部分については、すべての画像部分が含まれる(図6aに対応する)が、第3のタイルTについては、(2つの方向における)3番目ごとのアンカー画像部分のみが含まれる(図6bに対応する)。
いくつかの実施形態では、ビットストリーム中にどのアンカー画像を含めるべきかの決定は、適用中に動的に決定される。他の実施形態では、最初の静的決定は、例えばシーン、アンカー画像、及び/又は記憶された画像部分の分析に基づいて実行される。
いくつかのそのような実施形態では、サーバ/ビットストリーム生成装置103からどのアンカーを取り出すべきか、及びクライアント/画像レンダリング装置101においてどのアンカーを予測すべきかに関する情報が、最初に(アプリケーションの開始時に)、例えばどの画像部分が画像レンダリング装置101にとって利用可能にされる(又はされ得る)かを示すビューマップの形態で、クライアント側に通信される。
前の例によって示されるように、異なる画像部分及び姿勢についての予測可能性測度を決定するために、異なる手法及びアルゴリズムが使用される。
予測可能性測度は、予測可能性測度が生成されるアンカー画像を含まないアンカー画像のサブセットに基づいて、所与のビュー姿勢についての深度画像ベースレンダリング(ビュー合成)を使用して、新たに合成される画像の、達成され得る品質を示す。
予測可能性測度は、合成された画像の品質を反映するか又はそれに影響を及ぼす特徴又は特性を考慮することによって、直接又は間接的に決定される。
より直接的な予測可能性測度が決定されるいくつかの実施形態では、これは、例えば、ビットストリーム生成装置103がアンカー画像部分のビュー合成を実行することと、実際の記憶された画像部分を、合成されたバージョンと比較することとを伴う。差が小さい場合、予測可能性測度は高いと見なされる。より詳細には、予測可能性測度は、(一般に6DoF空間中で)1つ又は複数の近くの画像部分から予測されるとき、画像部分の測定された平均2乗誤差、PSNR、VQM、MS-SSIM又は別のメトリックに関して、ビュー合成品質として決定される。一般に、この予測は、画像部分及び深度マップ(又はテクスチャ及びメッシュ)のシミュレートされたレンダリングを使用して行われる。
他の実施形態では、予測可能性測度は、シーンの特性の考慮事項に応答して生成される。詳細には、多くの実施形態では、予測可能性測度は、シーンの複雑度の指示に応答して生成される。詳細には、予測可能性測度は、画像部分についての深度データに基づいて生成される。例えば、比較的近い1つ又は複数の物体が存在することを深度データが示す場合、画像部分が、他の(一般にすぐ近くの)ビュー姿勢についての他のアンカー画像部分から予測することが困難である物体を含むと仮定され得る。
特定の例として、画像部分についての予測可能性測度は、画像部分において生じる最小深度(カメラ/視点から物体までの距離)に応答して生成される。画像部分中のすべての物体がカメラから遠く離れている場合、観測者の小さい(6DoF)運動により、画像部分内の相対テクスチャは変化しない。その運動により、画像部分全体の近似アフィン変換が生じる。例えば、画像部分は、全体として回転するか、シフトするか、又はスケーリングする。この変換は、一般に、クライアントにおいて、深度をもつ近くの画像から極めて良く予測可能である。そのような予測は、一般に、ビュー合成が十分であり、実際、残差信号を送ることが必要とされないような、高い品質を有する。
予測可能性測度は、しばしば、深度データ、画像データ、又は深度データと画像データの両方に基づいて決定される。例えば、例えば比較的頻繁で比較的急な段階的変化をもつ画像部分についてのシーン/深度データの大きい深度変動があることを深度データが示す場合、これを、シーン/現在ビューが複雑で予測することがより困難であることの指示であると見なす。同様に、画像が、画像セグメントがセグメント間の著しい急激な変化をもつまったく異なる視覚特性を有することに関して大きい変動を有する場合、これは、シーンの高い複雑度の指示と見なされ、したがって、予測が困難であることを示す。対照的に、深度及び/又は視覚変動が低い場合、シーンは比較的低い複雑度を有すると見なされ、予測可能性測度は、より正確な予測された画像を生成することが可能である可能性があるので、増加される。
本手法は、例えば、比較的多数の小さい物体をもつシーンでは、ほとんど又は全く物体をもたないシーンよりも多数のキャプチャされた姿勢が一般に必要とされ、したがって、予測がより困難であることを反映する。
いくつかの実施形態では、予測可能性プロセッサ203は、詳細には、深度データの深度変動に応答して予測可能性測度を決定するように構成される。
異なる深度における比較的多数の異なる物体の存在に対応するいくつかの深度遷移が存在すること(又は存在しないこと)を反映しようとする深度変動推定値が生成される。これは、例えば、深度マップ中の深度遷移に基づいてセグメントを識別し、次いで、そのようなセグメントがいくつ見つけられるかを決定することによって達成される。好適な深度変動測度を決定するために多くの他の手法が使用されることが理解されよう。
いくつかの実施形態では、予測可能性プロセッサ203は、画像部分についての深度データによって示された、物体までの距離に応答して、予測可能性測度を決定するように構成される。詳細には、予測可能性測度は、物体までの距離が増加すると、増加される。
これは、物体がカメラから比較的遠いとき、これは、一般に、異なる側面の可視性の改善を与え、ビュー姿勢を変更するときにあまり変化を生じないので、シーンがあまり複雑でないと見なされることを反映する。それはまた、シーンの他の部分の物体によるオクルージョンをあまり生じない傾向がある。したがって、予測は、一般に、より正確になる。
同様に、シーンは、物体が比較的カメラに近いとき、それが、物体の変動を正確に反映するためにより詳細なキャプチャを必要とし、さらに、物体が一般にシーンのより大きい部分を遮る(occlude)ことになり、それにより、デオクルージョンを可能にするために追加のアンカー姿勢を必要とするので、より複雑であると見なされる。これにより、予測がより困難で、不正確になる。
いくつかの実施形態では、セレクタ205は、ターゲットビュー姿勢についての画像部分についての可視性測度に応答して、ビットストリーム中に含めるべき画像部分をさらに選択するように構成される。ターゲットビュー姿勢は、詳細には、画像レンダリング装置101によって画像が合成されるべきであるビュー姿勢に対応し、後で説明されるように、画像レンダリング装置101から動的に与えられる。
可視性測度は、画像部分がターゲットビュー姿勢について可視であるかどうか、詳細には、画像部分がターゲットビュー姿勢のための好適なビューポート内にあるかどうかを示す。詳細には、画像部分についての可視性測度は、画像部分がターゲットビュー姿勢のためのビューポートにどのくらい近いかを示す。画像部分がビューポートに十分に近いか、又はビューポート内にある(及び、例えば、予測可能性測度が十分に低い)場合、画像部分はビットストリーム中に含まれる。画像部分がビューポートからあまりに遠い場合、画像部分は含まれない。
これは、多くのシナリオにおいて性能の改善を与える。例えば、クライアントが、コンテンツよりも大幅に小さいビューポートを有することは、極めて一般的である。例えば、ヘッドセットは100度の視野を有するにすぎないが、コンテンツは360度である。
ターゲットビュー姿勢のビューポートは、一般に、ビューポートを表すために画像が必要とされることが予想されるビューポートである。特定の例として、セレクタ205は、そのような将来のビューポートについて以下のルールを考慮する。
・ ほぼ確実に将来のビューポートの外部にある部分は、送信される必要がない。
・ 将来のビューポートの内部にある可能性が低く、他の部分がクライアントにおいて利用可能となる部分は、送信される必要がない。
・ 可視であるが、クライアントにおいて利用可能となる別の部分から予測可能である部分は、送信される必要がない。
・ 確実に将来のビューポートの外部にない画像中の予測することが困難なピクセルの場合、1つのアンカーからの少なくとも1つの部分が選択されるべきである。
異なる実施形態では、所与の姿勢/画像部分組合せについての予測可能性測度の決定の基礎を形成する画像部分の予測サブセットを選択するために、異なる手法が使用される。多くの実施形態では、予測サブセットは、単に、場合によっては所定の数の、所与の姿勢に最も近いアンカー画像又は画像部分として選択されるが、これは、これらが、一般に、予測のための最良の候補であるからである。他の実施形態では、より複雑でリソースを必要とする手法が使用される。例えば、アンカー画像部分の異なる可能なセットを考慮して予測が実行され、最良の予測が選択され、アンカー画像部分の対応するセットが使用される。
多くの実施形態では、アンカー画像部分の予測サブセットは、ビットストリーム中に備えられた画像部分のみを含むように制限される。一般に、考慮される画像部分は、ビットストリーム中に前に含まれていた画像部分であるが、いくつかの実施形態では、予測サブセットは、まだ送られていないが、ビットストリーム中に含めるために選択されている(又は、予測のためのベース画像として好適であることにより、現在の画像部分とともに選択される)画像部分をも含む。
そのような手法により、画像レンダリング装置101が、画像レンダリング装置101にとってすでに利用可能である画像部分のみに基づいて十分な品質の画像をローカルに生成することが可能でないとき、及びそのときのみ、新しい画像部分が画像レンダリング装置101に本質的に与えられる、極めて効率的なビットストリーム生成が生じる。詳細には、そのような実施形態では、予測可能性測度は、クライアント/画像レンダリング装置101にすでに存在するアンカー画像部分のみに基づいて所与の姿勢についての画像を合成するときに達成され得る品質を示す。
多くの実施形態では、画像レンダリング装置101は、ビットストリームを生成し、画像レンダリング装置101からビットストリーム生成装置103によって受信されたターゲットビュー姿勢に応答して画像部分を選択するように構成される。詳細には、仮想ユーザが仮想環境中で動き回るとき、画像レンダリング装置101は、ターゲットビュー姿勢として現在のビュー姿勢の指示を連続的に送信する(又は、例えば、ラグを低減するためにターゲットビュー姿勢を予測する)。
ビットストリーム生成装置103は、画像レンダリング装置101からターゲットビュー姿勢を受信し、続いて、ターゲットビュー姿勢に基づいて、画像レンダリング装置101にストリーミングされるビットストリーム中に含めるべき好適な画像部分を選択する。詳細には、ビットストリーム生成装置103は、ターゲットビュー姿勢についての予測可能性測度を決定し、この予測可能性測度は、画像レンダリング装置101にすでに送信されており、したがって、画像レンダリング装置101においてビュー/画像合成のためにすでに利用可能である、画像部分に基づいて、ターゲットビュー姿勢に対応するビューポートについての画像がどのくらい良く生成され得るかを示す。
予測品質が十分に高いことを予測可能性測度が示す場合、さらなる画像部分は、(例えば、画像レンダリング装置101に送信されるべき画像部分のバッファが十分に空でない限り)現在のターゲットビュー姿勢のためのビットストリームに追加されない。しかしながら、予測品質が十分に高くないことを予測可能性測度が示す場合、1つ又は複数の画像部分がビットストリームに追加される。いくつかの実施形態では、所定の選択が使用され、例えば、(1つ又は複数の)最も近い画像部分が追加される(したがって、予測可能性測度が、この(これらの)(1つ又は複数の)画像部分について生成されると見なされる)。本手法は、次いで、現在の反復のための予測セット中に、前の反復において選択された(1つ又は複数の)画像部分を含めながら、潜在的に反復される。他の実施形態では、ビットストリーム生成装置103は、異なる画像部分を含めることに基づいて予測可能性測度を生成し、次いで、最も高い予測可能性測度を生じる(1つ又は複数の)画像部分を選択する。
異なる実施形態では画像部分が異なるものであることが理解されよう。例えば、いくつかの実施形態では、各画像部分は、(潜在的に完全な半球状の画像全体を含む)キャプチャされた画像全体である。
多くの実施形態では、画像部分は、詳細には、(例えば水平方向と垂直方向の両方における)例えば10°~45°の範囲内のものなど、比較的低い観察角度間隔に対応する画像セグメントなど、部分ビューである。例えば、所与のビュー姿勢のための矩形ビューポートに対応する矩形画像が、ビットストリーム中に含めるための個々に選択され得る複数の画像部分(例えば図5の例におけるタイル)に分割される。
いくつかの実施形態では、画像部分は、画像の所定の区分に対応する。例えば、図5の例の場合のように、矩形画像が所定の複数の正方形タイルに分割され、各正方形が、個々に選択可能な画像部分に対応する。特定の例として、各画像部分は、例えば16×16ピクセルマクロブロックなど、符号化ブロック画像である。
そのような手法は、低複雑度実装形態を可能にし、それは、しかしながら、依然として優れた性能を与える。
いくつかの実施形態では、画像部分(又は少なくともいくつかの画像部分)は、例えば立方体マップ中の正方形又は20面体中の三角形など、異なるビュー姿勢についてのシーンの多面体投影の面である。
詳細には、所与の視点について、半球状のビューは、半球状の幾何学的構成を一緒に形成する対応する平面多角形のセットに分割される。これは、多くの実施形態において、ビュー合成動作を容易にし、さらに、受信されている新しい画像部分を、前に受信又は予測された画像部分と統合することを容易にする。正距円筒投影と比較して、及び平坦な面を有する多面体投影により、少数の三角形が、投影に関連する形状を正確に表すことができるので、標準GPU上で画像をレンダリングすることは、より安価である。(20面体の投影のような)十分な数の面をもつ多面体投影の場合、平均投影ひずみは正距円筒投影の場合よりも小さい。さらに、それらの面は、画像の自然な区分を与える。
いくつかの実施形態では、ビットストリーム生成装置103は、アンカー画像を区分することによって少なくともいくつかの画像部分を生成するように構成されたパーティショナ209を備える。いくつかの実施形態では、この区分はあらかじめ決定され、例えば、パーティショナ209は、規則的な(regular)タイリングを使用して画像を区分する。
しかしながら、多くの実施形態では、より自由に整形されたパーティション又はセグメントが生成され、特に、画像部分の生成は、画像及び/又は深度マップの特性に依存するセグメンテーションによるものである。これは、例えば、特定の物体が、異なる画像部分、別の個々の画像部分による背景などによって表されることを可能にする。
実際、画像が背景及び数個の前景物体からなることは、しばしば起こる。前景物体は一般に背景物体よりも予測可能でないので、前景物体と背景の縁とが画像部分内に含まれていることが有利である。より一般的には、選択のための良好な画像部分は、低い内部予測可能性と、その部分のエッジの近くの高い予測可能性とを有する。
したがって、画像を好適な画像部分にセグメント化することによって、特に効率的な動作が達成され得る。
本発明を損なうことなしに、画像セグメンテーションのための任意の好適な手法が使用されることが理解されよう。例えば、セグメントは、一貫した色及び/又は強度を有するように、又は、面など、認識された物体画像に対応するように生成されるか、或いは、例えば、セグメントは、同様の深度値などを有するエリアに対応するように生成される。多数のセグメンテーションアルゴリズム及び基準が当業者に知られることが理解されよう。
多くの実施形態では、セレクタ205は、複数の隣接画像部分が、領域の内部部分についての第1のしきい値を下回る予測品質測度と、領域の境界部分についての第2のしきい値を上回る予測品質測度とを有する領域を形成するという決定に応答して、複数の隣接画像部分を選択するように構成される(ここで、第1のしきい値は、多くの実施形態では、第2のしきい値よりも低い)。
多くのそのような手法では、画像部分のエッジに関する低い予測可能性を有することにより、そのエッジが所望のビューポート内にあるとき、隣接する画像部分も選択されることになる。これは、低いエッジ予測可能性をもつ画像部分を使用してレンダリングされている部分のエッジ上のレンダリングアーチファクトを回避するか、又は緩和する。このようにして、画像部分がリンクして、低い内部予測可能性を有するが高い外部(エッジ)予測可能性を有するグループを形成する。
そのような手法は、画像部分に各タイルが対応する球体のタイル画像を示す図8の例によって示される。低予測可能ピクセルを通るエッジを共有するタイルがリンクされる。低予測可能領域を通るエッジを共有するどの2つの部分も、画像部分のすべてが送信されるか又はいずれも送信されないような、リンクされた選択基準を有する。
いくつかの実施形態では、ビットストリーム生成装置103は、詳細には、画像部分をリンクすべきか否かを決定するとき、エッジにおける予測可能性を考慮する。しかしながら、他の実施形態では、選択は、画像部分全体についての予測可能性測度を考慮することのみに基づく。例えば、所与の画像部分についての予測可能性測度が所与のしきい値を下回る(予測することが困難であることを意味する)場合、すべての隣接する画像部分も含まれる。この手法が反復されることにより、画像部分は、これらが高い予測可能性測度を有するまで、含まれる。これにより、元の画像部分のグループ化による、低い内部予測可能及び高いエッジ予測可能性をもつより大きい画像部分が効果的に生成される。
いくつかの実施形態では、少なくともいくつかの画像部分は重複している。
多くの実施形態では、2つの隣接する画像部分が両方とも重複する境界領域についての画像データを含むような、重複する画像部分を可能にすることが有益である。これは、ビットストリーム生成装置103に対するストレージ需要の増加を生じ、ビットストリームのデータレートを増加させる。しかしながら、多くの実施形態では、それは、(例えば、コーディングブロックが画像部分間の境界と整合しない場合)コーディング効率の改善を可能にする。さらに、重複する領域は、新しい画像部分と、例えば画像レンダリング装置101において予測されるか又は前に生成された他の画像部分との混合をかなり容易にする。
前の説明は、標準画像及び深度マップを使用する表現に焦点を当てたが、他の実施形態では他の手法が使用されることが理解されよう。
例えば、画像は、シーンのメッシュ及びテクスチャ表現からのテクスチャ部分を含むテクスチャアトラス画像を備える。そのような表現の一例は、例えば、A.Colletら、High-quality streamable free-viewpoint video、ACM Transactions on Graphics(TOG)、ACM SIGGRAPH 2015の議事録、第34巻4号、2015年8月において見られる。
そのような例では、アンカー画像は、アンカー位置(領域)からの観察に最も好適であるテクスチャアトラスに対応する。(独立)メッシュと組み合わせられたテクスチャアトラスが、物体又はシーンの幾何学的モデルを形成する。この場合、画像部分は、例えば、シーン中の1つの表面に対応するようなアトラスにおける1つのテクスチャである。
特定の例として、シーンは、低い予測可能性をもついくつかの物体、例えば、金属照明器具などの鏡面物体、又は花の鉢など、自己オクルージョンをもつ物体を含んでいる。ビットストリーム生成装置103は、アンカー画像部分を異なるレベルに分割する。レベル0のアンカー画像部分は、背景を含むシーン中のすべての物体を含んでおり、したがって、少なくとも1つのレベル0のアンカー(幾何学モデル)がストリーミングされる。観察者が空間を通ってナビゲートするとき、レベル0のアンカー選択は変化する。
さらに、いくつかの物体の外観の角度依存性を考慮に入れるために、より高いレベルのアンカーが部分的なシーンモデルを含んでいる。たとえそうでも、そのようなアンカーの一部のみが、観察者位置に基づいてストリーミングされる。この決定は、レベル1+のアンカーにおける部分の予測可能性に基づく。
いくつかの実施形態では、画像部分(又はそれらのうちの少なくともいくつか)は、事前符号化される。したがって、画像部分は、画像部分がトランスコーディング又は(再)符号化の必要なしにビットストリーム中に直接含まれ得るフォーマットで、符号化及び記憶される。むしろ、ビットストリーム中に含まれるべきである画像部分は、単に、ストア201から取り出され、符号化演算なしでビットストリームに追加される。これは、ビットストリーム生成装置103における複雑度及びリソース要件を極めて大幅に低減し、極めて効率的な動作を与える。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、随意に実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。
本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。
さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、例えば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び/又は有利でないことを暗示するものではない。また、請求項の1つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、単数形や、「第1の」、「第2の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims (14)

  1. 画像データビットストリームを生成するための装置であって、前記装置は、
    異なるビュー姿勢からのシーンを表す、画像部分のセットと、関連する深度データとを記憶するためのストアと、
    前記シーンのビュー姿勢についての前記画像部分のセットの画像部分についての予測可能性測度を生成するための予測可能性プロセッサであって、第1のビュー姿勢についての第1の画像部分についての予測可能性測度が、前記画像部分のセットの前記第1の画像部分を含まない画像部分の第1のサブセットからの、前記第1のビュー姿勢のビューポートについての画像の少なくとも一部の予測についての予測品質の推定値を示す、予測可能性プロセッサと、
    前記予測可能性測度に応答して前記画像部分のセットの画像部分の第2のサブセットを選択するためのセレクタと、
    前記画像部分の前記第のサブセットからの画像データ及び深度データを備える画像ビットストリームを生成するためのビットストリーム生成器と
    を備え
    前記セレクタは、複数の隣接画像部分が、領域の内部部分について第1のしきい値を下回る予測品質測度を有し、前記領域の境界部分について第2のしきい値を上回る予測品質測度を有する当該領域を形成するという決定に応答して、前記複数の隣接画像部分を選択する、装置。
  2. 前記予測可能性プロセッサは、前記第1の画像部分の予測の予測品質を示すものとして、前記第1の画像部分についての予測可能性測度を生成する、請求項1に記載の装置。
  3. 前記画像部分の前記第1のサブセットは、前記画像データビットストリーム中にすでに含まれる画像部分のみを含む、請求項1又は2に記載の装置。
  4. 前記セレクタは、ターゲットビュー姿勢についての前記画像部分のセットについての可視性測度に応答して、前記画像部分の前記第2のサブセットを選択し、画像部分についての前記可視性測度は、前記画像部分が前記ターゲットビュー姿勢のためのビューポートにどのくらい近いかを示す、請求項1から3の何れか一項に記載の装置。
  5. 前記ストアに記憶された前記画像部分のセットのうちの少なくともいくつかは、事前符号化された画像部分である、請求項1から4の何れか一項に記載の装置。
  6. 前記画像部分のセットは、前記異なるビュー姿勢についての前記シーンの多面体投影の面を備える、請求項1から5の何れか一項に記載の装置。
  7. 前記画像部分は、画像の所定の区分に対応する、請求項1から6の何れか一項に記載の装置。
  8. 画像のピクセル値及び前記画像についての深度値のうちの少なくとも1つに基づく前記画像の区分に応答して、前記画像部分のセットの少なくともいくつかの画像部分を生成するためのパーティショナをさらに備える、請求項1から7の何れか一項に記載の装置。
  9. 前記画像部分のセットの少なくともいくつかの画像部分は、前記シーンのメッシュ及びテクスチャ表現からのテクスチャ部分を含むテクスチャアトラス画像の画像部分である、請求項1から8の何れか一項に記載の装置。
  10. 前記セレクタは、リモートソースから受信されたターゲットビュー姿勢に応答して、前記画像部分の前記第2のサブセットについての画像部分を選択する、請求項1から9の何れか一項に記載の装置。
  11. 少なくともいくつかの画像部分が重複している、請求項1から10の何れか一項に記載の装置。
  12. 前記予測可能性プロセッサは、前記第1の画像部分についての関連する深度データに応答して、前記第1の画像部分についての前記予測可能性測度を生成する、請求項1から11の何れか一項に記載の装置。
  13. 画像データビットストリームを生成する方法であって、前記方法は、
    異なるビュー姿勢からのシーンを表す、画像部分のセットと、関連する深度データとを記憶するステップと、
    前記シーンのビュー姿勢についての画像部分のセットの画像部分についての予測可能性測度を生成するステップであって、第1のビュー姿勢についての第1の画像部分についての予測可能性測度が、前記画像部分のセットの前記第1の画像部分を含まない画像部分の第1のサブセットからの、前記第1のビュー姿勢のビューポートについての画像の少なくとも一部の予測についての予測品質の推定値を示す、生成するステップと、
    前記予測可能性測度に応答して前記画像部分のセットの画像部分の第2のサブセットを選択するステップと、
    前記画像部分の前記第のサブセットからの画像データ及び深度データを備える画像ビットストリームを生成するステップと
    を有し、
    前記選択するステップは、複数の隣接画像部分が、領域の内部部分について第1のしきい値を下回る予測品質測度を有し、前記領域の境界部分について第2のしきい値を上回る予測品質測度を有する当該領域を形成するという決定に応答して、前記複数の隣接画像部分を選択するステップを含む、方法。
  14. コンピュータ上で実行されるとき請求項13に記載の方法の全てのステップを実施するためのコンピュータプログラムコードを有する、コンピュータプログラム。
JP2020537173A 2018-01-05 2019-01-04 画像データビットストリームを生成するための装置及び方法 Active JP7252238B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18150423.4A EP3509308A1 (en) 2018-01-05 2018-01-05 Apparatus and method for generating an image data bitstream
EP18150423.4 2018-01-05
PCT/EP2019/050183 WO2019134979A1 (en) 2018-01-05 2019-01-04 Apparatus and method for generating an image data bitstream

Publications (2)

Publication Number Publication Date
JP2021510251A JP2021510251A (ja) 2021-04-15
JP7252238B2 true JP7252238B2 (ja) 2023-04-04

Family

ID=60957127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537173A Active JP7252238B2 (ja) 2018-01-05 2019-01-04 画像データビットストリームを生成するための装置及び方法

Country Status (8)

Country Link
US (1) US11122295B2 (ja)
EP (2) EP3509308A1 (ja)
JP (1) JP7252238B2 (ja)
KR (1) KR102587230B1 (ja)
CN (1) CN111602403B (ja)
BR (1) BR112020013511A2 (ja)
TW (1) TWI787429B (ja)
WO (1) WO2019134979A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3419286A1 (en) * 2017-06-23 2018-12-26 Koninklijke Philips N.V. Processing of 3d image information based on texture maps and meshes
EP3629585A1 (en) 2018-09-25 2020-04-01 Koninklijke Philips N.V. Image synthesis
CN118573920A (zh) * 2019-01-24 2024-08-30 交互数字Vc控股公司 用于自适应空间内容流传输的方法和装置
EP3703013A1 (en) * 2019-03-01 2020-09-02 Koninklijke Philips N.V. Apparatus and method of generating an image signal
EP3703378A1 (en) * 2019-03-01 2020-09-02 Koninklijke Philips N.V. Apparatus and method of generating an image signal
EP3792877A1 (en) * 2019-09-12 2021-03-17 Koninklijke Philips N.V. Apparatus and method for evaluating a quality of image capture of a scene
US11526964B2 (en) * 2020-06-10 2022-12-13 Intel Corporation Deep learning based selection of samples for adaptive supersampling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015056712A1 (ja) 2013-10-17 2015-04-23 日本電信電話株式会社 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
JP2015515820A (ja) 2012-04-05 2015-05-28 コーニンクレッカ フィリップス エヌ ヴェ 奥行きヘルパデータ
JP2016510562A (ja) 2013-02-06 2016-04-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 中間ビュー画像を生成するためのシステム
JP2016513384A (ja) 2013-02-06 2016-05-12 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 中間ビュー画像を生成するためのシステム
WO2016208102A1 (ja) 2015-06-25 2016-12-29 パナソニックIpマネジメント株式会社 映像同期装置及び映像同期方法
JP2017518663A (ja) 2014-04-07 2017-07-06 ノキア テクノロジーズ オサケユイチア 立体ビューイング

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9648346B2 (en) 2009-06-25 2017-05-09 Microsoft Technology Licensing, Llc Multi-view video compression and streaming based on viewpoints of remote viewer
KR20120137205A (ko) * 2011-06-10 2012-12-20 삼성전자주식회사 영상 처리를 위한 방법 및 장치
US9521418B2 (en) * 2011-07-22 2016-12-13 Qualcomm Incorporated Slice header three-dimensional video extension for slice header prediction
KR101859774B1 (ko) * 2011-12-27 2018-05-18 한국전자통신연구원 디지털 홀로그래픽 콘텐츠 제작 시스템
EP2852932A1 (en) * 2012-05-22 2015-04-01 Telefónica, S.A. A method and a system for generating a realistic 3d reconstruction model for an object or being
US9479779B2 (en) 2012-10-01 2016-10-25 Qualcomm Incorporated Sub-bitstream extraction for multiview, three-dimensional (3D) and scalable media bitstreams
KR101763083B1 (ko) * 2013-07-16 2017-07-28 미디어텍 싱가폴 피티이. 엘티디. 3차원 비디오 코딩에서 진보된 시간적 잔차 예측을 위한 방법 및 장치
KR102021857B1 (ko) * 2013-07-23 2019-09-17 엘지전자 주식회사 이동 단말기 및 그의 파노라마 촬영방법
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
EP3054668B1 (en) * 2015-02-03 2017-11-01 Axis AB Method and device for processing a video stream
US10432988B2 (en) * 2016-04-15 2019-10-01 Ati Technologies Ulc Low latency wireless virtual reality systems and methods
EP3513562A1 (en) * 2016-09-14 2019-07-24 Koninklijke KPN N.V. Streaming virtual reality video
EP3535644B1 (en) * 2016-11-04 2023-02-22 Koninklijke KPN N.V. Streaming virtual reality video
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
EP3419286A1 (en) 2017-06-23 2018-12-26 Koninklijke Philips N.V. Processing of 3d image information based on texture maps and meshes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015515820A (ja) 2012-04-05 2015-05-28 コーニンクレッカ フィリップス エヌ ヴェ 奥行きヘルパデータ
JP2016510562A (ja) 2013-02-06 2016-04-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 中間ビュー画像を生成するためのシステム
JP2016513384A (ja) 2013-02-06 2016-05-12 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 中間ビュー画像を生成するためのシステム
WO2015056712A1 (ja) 2013-10-17 2015-04-23 日本電信電話株式会社 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
JP2017518663A (ja) 2014-04-07 2017-07-06 ノキア テクノロジーズ オサケユイチア 立体ビューイング
WO2016208102A1 (ja) 2015-06-25 2016-12-29 パナソニックIpマネジメント株式会社 映像同期装置及び映像同期方法

Also Published As

Publication number Publication date
CN111602403A (zh) 2020-08-28
JP2021510251A (ja) 2021-04-15
KR102587230B1 (ko) 2023-10-11
EP3735776B1 (en) 2021-06-23
EP3735776A1 (en) 2020-11-11
RU2020125985A (ru) 2022-02-07
WO2019134979A1 (en) 2019-07-11
TW201939959A (zh) 2019-10-01
US20200413097A1 (en) 2020-12-31
KR20200102507A (ko) 2020-08-31
TWI787429B (zh) 2022-12-21
BR112020013511A2 (pt) 2020-12-01
US11122295B2 (en) 2021-09-14
RU2020125985A3 (ja) 2022-03-23
CN111602403B (zh) 2022-08-16
EP3509308A1 (en) 2019-07-10

Similar Documents

Publication Publication Date Title
JP7252238B2 (ja) 画像データビットストリームを生成するための装置及び方法
US10460509B2 (en) Parameterizing 3D scenes for volumetric viewing
CN110999285B (zh) 基于纹理图与网格的3d图像信息的处理
TWI848978B (zh) 影像合成
JP2010045776A (ja) 映像レンダリングの方法およびシステム、そのためのコンピュータプログラム製品
JP7191079B2 (ja) シーンのタイル化3次元画像表現を生成する装置及び方法
JP7527351B2 (ja) シーンの画像キャプチャの品質を評価するための装置及び方法
JP2023139163A (ja) ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート
RU2760228C2 (ru) Формирование изображений по видео
RU2778456C2 (ru) Устройство и способ формирования двоичного потока данных изображения
JP7471314B2 (ja) 画像信号を生成する装置及び方法
US20220167013A1 (en) Apparatus and method of generating an image signal
EP4254958A1 (en) Compression of depth maps
RU2817803C2 (ru) Сигнал изображения, представляющий сцену
EP4386678A1 (en) Novel view generation using point clouds

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230323

R150 Certificate of patent or registration of utility model

Ref document number: 7252238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150