JP7471314B2 - 画像信号を生成する装置及び方法 - Google Patents

画像信号を生成する装置及び方法 Download PDF

Info

Publication number
JP7471314B2
JP7471314B2 JP2021551759A JP2021551759A JP7471314B2 JP 7471314 B2 JP7471314 B2 JP 7471314B2 JP 2021551759 A JP2021551759 A JP 2021551759A JP 2021551759 A JP2021551759 A JP 2021551759A JP 7471314 B2 JP7471314 B2 JP 7471314B2
Authority
JP
Japan
Prior art keywords
image
node
segment
segments
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021551759A
Other languages
English (en)
Other versions
JPWO2020178212A5 (ja
JP2022522364A (ja
Inventor
バート クルーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022522364A publication Critical patent/JP2022522364A/ja
Publication of JPWO2020178212A5 publication Critical patent/JPWO2020178212A5/ja
Application granted granted Critical
Publication of JP7471314B2 publication Critical patent/JP7471314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/005Tree description, e.g. octree, quadtree
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/08Bandwidth reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Generation (AREA)

Description

本発明は、画像信号を生成する装置及び方法に関し、特に、ただしこれに限らないが、同じシーンのための複数の画像を含む画像信号の生成及び/又は処理に関する。
画像及び映像アプリケーションの種類と範囲は近年著しく増加しており、それと共に新しいサービス及び映像を利用及び消費する方式が継続的に開発・導入されている。
例えば、人気が増々高まりつつあるサービスの1つは、視聴者が能動的且つ動的にシステムと対話してレンダリングのパラメータを変更することができるような形で画像シーケンスを提供するものである。多くのアプリケーションにおける非常に魅力的な機能の一つは、視聴者の有効な視聴位置及び視聴方向を変更して、例えば視聴者が提示されるシーンの中を移動して「見て回る」ことのできる能力である。
そのような機能は、特に仮想現実体験がユーザに提供されることを可能にすることができる。それにより、ユーザは、例えば仮想環境内を例えば(比較的)自由に動き回り、自分の位置及びどこを見ているかを動的に変更することができる。通例、そのような仮想現実アプリケーションは、シーンの3次元モデルに基づいており、このモデルが動的に評価されて特定の要求されるビューを提供する。この手法は、例えばコンピュータ及びコンソール向けの1人称射撃ゲームのカテゴリなどのゲームアプリケーションからよく知られている。
また、特に仮想現実アプリケーションには、提示される画像が3次元画像であることも望ましい。実際、視聴者の没入感を最適化するために、通例は、ユーザが提示されたシーンを3次元のシーンとして体験することが好まれる。実際、仮想現実体験は、好ましくは、ユーザが自分自身の位置、カメラ視点、及び仮想世界に対する時間の瞬間を選択できるようにすべきである。
多くの仮想現実アプリケーションは、例えばゲームアプリケーションの場合、予め決められたシーンのモデルの存在に、通例は仮想世界の人工モデルに基づくという点で本質的に制限がある。
しかし、ユーザに現実世界のキャプチャを体験させる仮想現実体験を提供できることが望ましい。そのようなアプリケーションには、例えば、ユーザが、現実世界シーンの表現の中で位置及びビュー方向を自由に変更できるアプリケーションが含まれる。しかし、そのような自由度に対応するための要件は、多くの状況において、特に現実世界シーンも動的に変化するシーン、具体的にはリアルタイムのシーンである場合には満たすことが難しい。例えば、例えばスポーツイベントの生のリアルタイムのブロードキャストに対応するシーンのビュー方向をユーザが自由に動かし、変更できるようにするのに十分なデータを提供することは、通例、現実的でも実現可能でもない。そのため、ユーザが動き及び/又はビュー方向に制約された自由度を有するアプリケーション及び体験が関心を集めるようになっている。例えば、スポーツイベントがブロードキャストされ、そこではユーザが頭部を180°の範囲内で自由に動かすことができるが、比較的小さい量しか頭部を動かすことができない。そのような制限された動きは、提供される必要のあるデータの要件を大幅に軽減し得る。
一つのシーンの異なる視点に対応する画像をローカルにレンダリングすることを許容する大半のアプリケーションにとって重大な問題は、そのようなシーンをどのように表現するか、特に、現実世界の、そして多くの場合リアルタイムのシーンのビュー画像をローカルで生成するのに十分なデータがエンドユーザデバイスに提供されるように、どのようにして現実世界のシーンを表すデータを効率的に生成、配布、及び処理するかという問題である。現実世界のシーンのモデルを生成することは、通例、実現可能でも実際的でもなく、特に、当該サービスがリアルタイムイベントなどの動的に変化するシーンをサポートしている場合はそうでない。
多くのシステムでは、シーンは、カメラなどの適切なキャプチャ装置によってキャプチャされた画像によって表される。例えば、カメラは、列などの所与の構成に配置され、各カメラが所与のキャプチャ姿勢からシーンをキャプチャする。異なる位置からの画像群が、シーンの異なる部分からなる表現を提供する。例えば、ある背景オブジェクトが、一部のキャプチャ位置からは前景オブジェクトによって隠されるが、他のキャプチャ位置からは隠されないことがあり、よって、その背景オブジェクトに関する情報は、一部のキャプチャ画像には存在するが、他の画像には存在しないことがある。
多くの実際のシステムでは、キャプチャされた画像は、関連付けられた奥行きマップでピクセルごとに提供されるz値又はずれ値などの奥行き情報によって補完される。そのような画像+奥行きの表現は3D画像と考えることができる。ある範囲の視点について提供される画像+奥行き情報を使用することには、多くの用途があり、多くのシーンに対して、ビュー画像のローカルな生成を可能にするシーンの有利な表現を提供する。画像+奥行き情報はレンダリングデバイスに送信されてよく、レンダリングデバイスは、ユーザの現在のビュー位置及びビュー方向のためのビュー画像を動的に生成する。
しかし、異なるキャプチャ位置からの複数の画像からなるシーンの画像表現は、多くの実施形態において望ましい性能及び動作をもたらす一方で、画像表現をレンダリングデバイスに通信するために高いデータレートを必要とする傾向もある。実際、キャプチャされたすべてのビュー画像を直接配布することは、ピクセルレート、よってデータレートが過度に高くなるため、多くの場合実現可能でない。また、すべての画像を直接送信することは、多量の冗長なデータを送信することを含むため、無駄も多い。例えば、前景オブジェクトの正面は複数のキャプチャ位置から見ることができ、よって、そのオブジェクトについての視覚情報は、送信されるキャプチャ画像の複数に含まれることになる。
しかし、必要とされるデータレートをいかに低減させるかという問題は、対処することが難しい複雑な問題である。いくらかの冗長なデータを特定し、除外してから、その冗長なデータを含まない画像信号を生成することが提案されている。しかし、これはデータレートを低減し得る一方、画像品質、データレート、複雑性、リソース要件等ができる限り最適化されるように、これをどのように具体的に実現するかは難しい課題である。
実際、冗長な可能性のあるデータ/情報を通信する際にしばしば遭遇する問題は、冗長性を低減するためにどのようにデータを選択又は低減するかということだけでなく、特に、どの送信データが関連し、どの送信データがそうでないかをいかにして示すかということである。例えば、少なくとも部分的に冗長なデータを含むいくつかの画像に関する画像データを送信する場合は、どのデータを通信するか、及びそれをいかにして効率的に通信するかを決定することが困難であるだけでなく、どのデータが有効である/該当する/関連し、どのデータがそうでないかを効率的に示すことも困難である。例えば、部分画像の場合、どの部分が有効な画像データを含み、どの部分が含まないかを示すことが課題となる。
したがって、改良された手法があれば有利である。特に、改良された動作、増大された柔軟性、改良された仮想現実体験、低減されたデータレート、増大された効率性、容易にされた配布、低減された複雑性、容易にされた実施、向上した画像品質、並びに/又は改良された性能及び/若しくは動作を可能にする、異なるビューからの画像によってシーンを表す画像信号を生成及び/又は処理するための手法があれば有利である。
したがって、本発明は、上述した不都合点の1つ又は複数を単独で又は任意の組み合わせで、好ましくは軽減、緩和、又は解消しようとするものである。
本発明の一態様によれば、画像信号を生成する装置が提供され、装置は、異なるサイズのセグメントのセットに分割された第1の画像を提供する画像ソース(407)であって、第1の画像は、セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、セグメントのサブセットの1つのセグメンントの画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、画像ソースと、第1の画像の画像データの内容を示すメタデータを生成するメタデータ生成器(409)と、第1の画像の画像データとメタデータとを含む画像信号を生成する画像信号生成器とを備え、メタデータは、ツリーデータ構造であって、各ノードが、第1の画像の1つのセグメンントに紐付けられ、各ノードが、枝ノード又は葉ノードであり、枝ノードは、当該親ノードを少なくとも1つの子ノードに紐付けている親ノードであり、親ノードの各子ノードは、親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、葉ノードは、子ノードを持たず、セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、ツリーデータ構造に従って構造化され、メタデータは、各ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す。
本発明は、シーンの改良された表現を提供する。多くの実施形態では、より効率的なシーンの表現が提供されることが可能であり、所与の品質が低減されたデータレートで実現できるようになる。
この手法は、多くの実施形態において、異なるビュー位置/姿勢に対するビュー画像の柔軟で、効率的で、高性能のローカル生成に適したシーンの表現を伴う、改良された画像信号を提供する。多くの実施形態では、改良された知覚画像品質及び/又は低減されたデータレートを可能にする。
この手法は、多くの実施形態及びシナリオにおいて、画像信号の特に効率的な及び/又は低複雑性の生成を可能にする。
画像は、具体的には関連付けられた奥行き画像/マップを有する2D画像又はテクスチャマップなどの、奥行き情報を含む3D画像であってよい。予測品質に応じて候補画像のセットから選択画像のセットを選択することは、候補画像のセットのうち最も低い予測品質尺度を有する画像を、選択画像のセットに含めるために選択することを含んでよい。
セグメントのセットは、異なるビューソース画像についての画像データを含むセグメントを含む。セグメントのセットは、第1のビューソース画像からの画像データを含む少なくとも1つのセグメントと、ビューソース画像のセットのうち第2の(異なる)ビューソース画像からの画像データを含む少なくとも1つのセグメントとを含む。
第1の画像の画像データは、ツリーデータ構造に従って構造化される。
セグメントのセットは、ビューソース画像の部分画像のセグメントであってよい。部分画像は、対応するビューソース画像のピクセル値のサブセットのみを含んでよい。
多くの実施形態では、画像信号は、セグメントのサブセットのうち少なくとも1つのセグメントについて、ビューソース画像起源の指示を含む。ビューソース画像起源の指示は、ビューソース画像のセットのうち、当該少なくとも1つのセグメントの画像データがそこから来たビューソース画像を示すか、及び/又はビューソース画像のセットのうちの一ビューソース画像内での当該少なくとも1つのセグメントの画像データの位置を示す。
本発明の任意選択の特徴によれば、メタデータは、使用される葉ノードに紐付けられたセグメントの画像データに対して、複数のビューソース画像のうちのビューソース画像の指示をさらに含む。
これにより、元のビューソース画像又はそれらの部分的表現の生成を容易にする効率的な画像信号を提供する。
本発明の任意選択の特徴によれば、メタデータは、使用される葉ノードに紐付けられた第1のセグメントの第1の画像内での位置と、ビューソース画像の対応するセグメントのビューソース画像内での位置との間の位置の差の指示をさらに含む。
これにより、異なるビューソース画像を第1の画像に効率的に組み合わせることができるようになり、一方で、元のビューソース画像、又はその部分画像が画像信号から再作成されることを可能にする。指示は、具体的には、第1の画像内での位置からビューソース画像内での位置への、セグメントの並進又は移動の指示であってよい。
本発明の任意選択の特徴によれば、画像信号は、メタデータの少なくとも一部を、少なくともデータツリー構造の複数のノードについてノードデータブロックの順序付けされたシーケンスを含むデータストリームとして含み、各ノードデータブロックは、当該ノードの性質のセットを示すデータを含み、性質のセットは、ノードが枝ノードであるか又は葉ノードであるかの指示を含む。
これは、多くの実施形態で、メタデータ及び画像データの特に効率的で有利な通信を提供する。順序付けられたシーケンスは、実施形態によっては、予め決められ、画像信号の受信器に知られていてよい。
本発明の任意選択の特徴によれば、順序付けされたシーケンスは、複数のセグメント性質の指示を含み、各セグメント性質の指示は、後続のノードデータブロックに適用可能な少なくとも1つのセグメント性質の性質を示す。
これは、メタデータの非常に効率的な符号化を提供する。性質は、性質について異なる値を指示するセグメント性質の指示が受け取られるまで、後続のノードデータブロックに適用可能である。セグメント性質の指示は、ノードデータブロックの一部であっても、又は例えばノードデータブロック間に別個のデータとして含まれてもよい。性質は、セグメント性質の指示がその中で受け取られるノードデータブロックにも適用可能である。
いくつかの実施形態では、セグメント性質の指示は、後続のノードデータブロックについての、ビューソース画像の指示及びビューソース画像位置の指示の少なくとも一方を示す。
本発明の任意選択の特徴によれば、画像データは、順序付けされたシーケンスの指示を含む。
これは、多くの実施形態で有利な動作及び/又は性能を提供する。
本発明の任意選択の特徴によれば、枝ノードのセグメントに対する下位分割は、許容可能な下位分割のセットの1つから選択され、メタデータは、許容可能な下位分割のセットのうち枝ノードに対して使用された下位分割を示す枝ノードのデータを含む。
これは特に効率的な画像信号を提供する。いくつかの実施形態では、許容可能な下位分割のセットは予め決められてよい。
本発明の任意選択の特徴によれば、メタデータは、許容可能な下位分割のセットの指示を含む。
これは、効率的な通信及び効率的なセグメント化が使用されることを可能にする。特に、セグメント化の柔軟な適合を可能にする。
本発明の任意選択の特徴によれば、ビューソース画像のセットは、それぞれ異なる視点からのシーンを表す複数のビューソース画像を含む。
本発明の任意選択の特徴によれば、データツリー構造の根ノードは、第1の画像全体に対応するセグメントに紐付けられている。
本発明の任意選択の特徴によれば、メタデータは、最も小さいセグメントサイズの指示を含み、セグメントのセットのセグメントは、最も小さいセグメントサイズの倍数であるサイズを有する。
これは、ツリーデータ構造によって表現するのに適した有利なセグメント化を提供する。
セグメントの外形は、最も小さいセグメントサイズを有するセグメントを使用するタイリングによって作成することができる外形であってよい。よって、すべてのセグメントが、可能な最も小さいセグメントに対応するサイズを有するセグメントに分割可能となる。
本発明の任意選択の特徴によれば、装置は、ビューソース画像のセットのビューソース画像のうち少なくとも一部の各々に対してセグメント化された部分画像を生成するセグメンタ(401)であって、複数のセグメントを含むビューソース画像に対するセグメント化された部分画像は、所定の外形のセットから選択された外形を有し、セグメントは、少なくとも一部のピクセルがビューソース画像からの画像データを含む使用セグメントと、ビューソース画像からの画像データを含むピクセルがない不使用セグメントとに分割される、セグメンタ(401)と、少なくとも一部のビューソース画像からの使用セグメントを第1の画像に含め、且つ少なくとも一部のビューソース画像からの不使用セグメントを含めないことによって、異なるサイズのセグメントのセットのうち少なくとも一部のセグメントを生成することにより、第1の画像を生成するコンバイナ(403)とをさらに備える。
本発明の任意選択の特徴によれば、セグメンタ(401)は、第1のビューソース画像に対する第1のセグメント化された部分画像を、第1のビューソース画像のピクセルを、ピクセルデータが画像データに含められる第1のピクセルのセットと、ピクセルデータが画像データに含められない第2のピクセルのセットとに分割すること、及び、第1のビューソース画像を、所定の外形のセットから選択された外形を有するセグメントにタイリングすることであって、タイリングは、所定の外形を第2のピクセルのセットに属するピクセルの領域にフィッティングすることによって不使用セグメントが生成されるようにする、タイリングすることにより生成するように構成される。
本発明の別の態様によれば、画像信号を処理する装置が提供され、装置は、画像信号を受け取る受信器(303)と、画像信号から合成ビュー画像をレンダリングするレンダラとを備え、画像信号は、異なるサイズのセグメントのセットに分割された第1の画像の画像データであって、第1の画像は、セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、セグメントのサブセットの1つのセグメンントの画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、画像データと、第1の画像の画像データを示すメタデータとを備え、メタデータは、各ノードが、第1の画像の1つのセグメンントに紐付けられ、各ノードが、枝ノード又は葉ノードであり、枝ノードは、当該親ノードを少なくとも1つの子ノードに紐付けている親ノードであり、親ノードの各子ノードは、親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、葉ノードは、子ノードを持たず、セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、ツリーデータ構造に従って構造化され、メタデータは、ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す。
いくつかの実施形態では、レンダラは、メタデータに応じて第1の画像からビューソース画像のセットについての画像データを抽出し、ビューソース画像のセットについての抽出された画像データに応じて、合成ビュー画像をレンダリングするように構成される。
いくつかの実施形態では、装置は、メタデータに基づいて画像データのセグメントによって部分画像の領域を埋めることにより、ビューソース画像のセットのうち第1のビューソース画像に対して部分画像を生成するビューソース生成器を備える。レンダラは、部分画像から合成ビュー画像をレンダリングする。
本発明の別の態様によれば、画像信号を生成する方法が提供され、方法は、異なるサイズのセグメントのセットに分割された第1の画像を提供するステップであって、第1の画像は、セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、セグメントのサブセットの1つのセグメンントの画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、ステップと、第1の画像の画像データの内容を示すメタデータを生成するステップと、第1の画像の画像データとメタデータとを含む画像信号を生成するステップとを有し、メタデータは、ツリーデータ構造であって、各ノードが、第1の画像の1つのセグメンントに紐付けられ、各ノードが、枝ノード又は葉ノードであり、枝ノードは、当該親ノードを少なくとも1つの子ノードに紐付けている親ノードであり、親ノードの各子ノードは、親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、葉ノードは、子ノードを持たず、セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、ツリーデータ構造に従って構造化され、メタデータは、各ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す。
本発明の別の態様によれば、画像信号を処理する方法が提供され、方法は、画像信号を受け取るステップと、画像信号から合成ビュー画像をレンダリングするステップとを有し、画像信号は、異なるサイズのセグメントのセットに分割された第1の画像の画像データであって、第1の画像は、セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、セグメントのサブセットの1つのセグメンントの画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、画像データと、第1の画像の画像データを示すメタデータと、を備え、メタデータは、ツリーデータ構造であって、各ノードが、第1の画像の1つのセグメンントに紐付けられ、各ノードが、枝ノード又は葉ノードであり、枝ノードは、当該親ノードを少なくとも1つの子ノードに紐付けている親ノードであり、親ノードの各子ノードは、親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、葉ノードは、子ノードを持たず、セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、ツリーデータ構造に従って構造化され、メタデータは、ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す。
本発明のこれら及び他の態様、特徴及び利点は、以下に説明される実施形態の参照から明らかになり、またそれから解説される。
本発明の実施形態について、図面を参照しながら例としてのみ説明する。
仮想現実体験を提供するための構成の例を示す図である。 本発明のいくつかの実施形態による画像信号送信器の要素の例を示す図である。 本発明のいくつかの実施形態による画像信号受信器の要素の例を示す図である。 本発明のいくつかの実施形態による画像信号送信器のための画像生成器の要素の例を示す図である。 本発明のいくつかの実施形態による組み合わせ部分画像の例を示す図である。 本発明のいくつかの実施形態による拡大された組み合わせ部分画像の例を示す図である。 本発明のいくつかの実施形態によるツリーデータ構造の例を示す図である。 本発明のいくつかの実施形態によるセグメントの下位分割の例を示す図である。
ユーザが仮想世界の中を動き回ることができる仮想体験は、人気が高まりつつあり、そのような需要を満たすサービスが開発されている。しかし、効率的な仮想現実サービスの提供は、特に、体験が完全に仮想的に生成された人工世界ではなく現実世界環境のキャプチャに基づく場合には非常に難しい。
多くの仮想現実アプリケーションでは、シーン内での仮想視聴者の姿勢を反映する視聴者の姿勢入力が判定される。仮想現実装置/システム/アプリケーションは、次いで、その視聴者姿勢に対応する視聴者に対するシーンのビュー及びビューポートに対応する1つ又は複数の画像を生成する。
通例、仮想現実アプリケーションは、左目と右目それぞれのための別個のビュー画像の形態で3次元の出力を生成する。それらが次いで、典型的にはVRヘッドセットの個々の左目及び右目ディスプレイなどの適切な手段によってユーザに提示される。他の実施形態では、画像は、例えばオートステレオスコピック・ディスプレイ上で提示され(その場合は視聴者姿勢に対して多数のビュー画像が生成され得る)、又は実際、一部の実施形態では、1つのみの2次元画像が生成されることもある(例えば従来の2次元ディスプレイを使用して)。
視聴者姿勢入力は、異なるアプリケーションでは異なる方式で判定される。多くの実施形態では、ユーザの身体の動きが直接追跡される。例えば、ユーザエリアを監視するカメラが、ユーザの頭部(又はさらには目)を検出し、追跡する。多くの実施形態では、ユーザは、外部及び/又は内部の手段によって追跡可能なVRヘッドセットを着用する。例えば、ヘッドセットは加速度計及びジャイロスコープを備えて、ヘッドセット、したがって頭部の動き及び回転についての情報を提供する。一部の例では、VRヘッドセットは、信号を送信するか、又は外部センサがVRヘッドセットの動きを判定することを可能にする(例えば視覚的な)識別子を備える。
一部のシステムでは、視聴者姿勢は、手動の手段によって、例えばユーザがジョイスティック又は同様の手動入力装置を手動で制御することによって、提供される。例えば、ユーザが、一方の手で第1のアナログジョイスティックを制御し、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想視聴者が見ている方向を手動で制御することにより、シーン内で仮想視聴者を手動で動き回らせる。
一部のアプリケーションでは、手動の手法と自動化された手法の組み合わせを使用して、入力視聴者姿勢を生成する。例えば、ヘッドセットが頭部の向きを追跡し、ユーザがジョイスティックを使用することによりシーン内での視聴者の動き/位置が制御される。
画像の生成は、仮想世界/環境/シーンの適切な表現に基づく。一部のアプリケーションでは、シーンのための完全な3次元モデルが提供され、そのモデルを評価することによって特定の視聴者姿勢からのシーンのビューを決定することができる。他のシステムでは、シーンは、異なるキャプチャ姿勢からキャプチャされたビューに対応する画像データによって表され、具体的には、関連付けられた奥行きを有する複数のソース画像によって表され、各画像は異なる視点からのシーンを表す。そのような手法では、キャプチャ姿勢以外の姿勢についてのビュー画像は、3次元画像処理によって、具体的にはビューシフトアルゴリズムを使用するなどして、生成される。離散的な視点/位置/姿勢について記憶されたビューデータによってシーンが記述/参照されるシステムでは、それらは、アンカー視点/位置/姿勢とも呼ばれる。通例、現実世界環境が、異なる点/位置/姿勢から画像をキャプチャすることによってキャプチャされている場合、それらのキャプチャ点/位置/姿勢は、アンカー点/位置/姿勢でもある。
そのため、典型的なVRアプリケーションは、(少なくとも)現在の視聴者姿勢に対するシーンのビューポートに対応する画像を提供し、画像は、視聴者姿勢の変化を反映するように動的に更新され、画像は、仮想のシーン/環境/世界を表す画像データに基づいて生成される。
当分野では、配置及び姿勢という用語は、位置及び/又は方向/向きを表す共通の用語として使用される。例えばオブジェクト、カメラ、頭部、又はビューの位置及び方向/向きの組み合わせが、姿勢又は配置と呼ばれる。よって、配置又は姿勢の指示は、6つの値/成分/自由度を備え、各値/成分は、通例、対応するオブジェクトの位置/場所又は向き/方向の個々の性質を記述する。無論、多くの状況では、例えば1つ又は複数の成分が固定されている、又は関連しないと考えられる場合、配置又は姿勢は、より少ない成分で考慮又は表現される(例えば、すべてのオブジェクトが同じ高さにあり、ある水平方向の向きを有すると考えられる場合は、4つの成分でオブジェクトの姿勢の完全な表現を提供することができる)。以下では、姿勢という用語は、1~6個(最大の可能な自由度に対応する)の値で表され得る位置及び/又は向きを指すために使用される。
多くのVRアプリケーションは、最大の自由度を有する姿勢に基づいており、すなわち位置及び向きの各々に3自由度があり、その結果、合計で6自由度となる。よって、姿勢は、6自由度を表す6個の値のセット又はベクトルによって表され、よって、姿勢ベクトルは、3次元の位置及び/又は3次元の方向の指示を提供することができる。しかし、他の実施形態では、姿勢はそれよりも少ない値で表され得ることが認識されよう。
姿勢は、向き及び位置の少なくとも一方であってよい。姿勢値は、向きの値及び位置の値の少なくとも一方を示してよい。
最大の自由度を視聴者に提供することに基づくシステム又はエンティティは、通例、6自由度(6DoF)を有すると称される。多くのシステム及びエンティティは、向き又は位置のみを提供し、それらは通例、3自由度(3DoF)を有するとして知られる。
一部のシステムでは、VRアプリケーションは、例えばスタンドアロンデバイスによって視聴者にローカルに提供され、デバイスが、リモートデバイス/サーバから(ローカル視聴者の特定の視聴者姿勢とは無関係な)シーンデータを受け取り、次いでローカル視聴者の特定の現在のビューについてのビュー画像をローカルに生成する。よって、多くのアプリケーション、特にブロードキャストサービスでは、ソースが、視聴者姿勢とは無関係のシーンの画像(映像を含む)表現の形態でシーンデータを送信する。例えば、複数のキャプチャされたビュー画像及び関連付けられた奥行きマップを備える画像表現が受け取られる。そして、個々のクライアントが、現在の視聴者姿勢に対応するビュー画像をローカルで合成する。
特に関心を集めている特定のアプリケーションは、限られた量の動きがサポートされて、実質的に静止している視聴者がごく小さな頭部の動き及び頭部の回転を行うことに対応する小さな動き及び回転に追従するように、提示されるビューが更新されるものである。例えば、座っている視聴者が、頭部を回し、わずかに動かすと、提示されたビュー/画像がそれらの姿勢変化に追従するように適合される。そのような手法は、没入感の高い、例えば映像体験を提供する。例えば、スポーツイベントを見ている視聴者が、アリーナ内の特定の場所にいるように感じ得る。
そのような限られた自由度のアプリケーションは、改良された体験を提供するという利点を有し、同時に、多くの異なる位置からのシーンの正確な表現を必要とせず、それによりキャプチャ要件を大幅に低減する。同様に、レンダラに提供される必要のあるデータの量を大幅に減らすことができる。実際、多くのシナリオでは、単一の視点に対応する画像及び通例は奥行きデータだけが提供されればよく、ローカルのレンダラが、それから所望のビューを生成することができる。頭部の回転をサポートするために、視点からのビューのうち大きいエリアが提供されたデータによって表され、好ましくは、視点を中心とするビュー球体の表面全体が、提供された画像及び奥行きデータによってカバーされることが通例望まれる。
この手法は、特に、例えばブロードキャスト又はクライアント・サーバアプリケーションなど、データが、帯域に制限がある通信チャネルを通じてソースから行先まで通信される必要のあるアプリケーションに非常に適する。
図1は、VRシステムのそのような例を示し、ここではリモートのVRクライアントデバイス101が、例えばインターネットなどのネットワーク105を介して、VRサーバ103とつながっている。サーバ103は、可能性としては多数あるクライアントデバイス101を同時にサポートするように構成される。
VRサーバ103は、例えば、複数の視点についての画像データ及び奥行きを送信し、そしてクライアントデバイスが、この情報を処理して、現在の姿勢に対応するビュー画像をローカルに合成するように構成されることにより、ブロードキャスト体験をサポートする。
効率的な配布を提供するために、所与の画像品質に対してデータレートができる限り低く保たれることが望ましく、よって、具体的には生成される冗長なデータの量を減らそうとすることを含む。
図2は、異なるビュー姿勢(アンカー姿勢)からのシーンの複数の画像の表現を含む画像信号を生成する装置の例を示す。装置は、画像信号送信器200とも呼ばれる。画像信号送信器200は、例えば、図1のVRサーバ103に備えられる。
図3は、シーンの複数の画像からなる表現を含む、受信した画像信号に基づいてビュー画像をレンダリングする装置の例を示す。装置は、具体的には、図2の装置によって生成されたデータ信号を受け取り、続いて特定のビュー姿勢に対する画像をレンダリングするためにそれを処理する。図3の装置は、画像信号受信器300とも呼ばれる。画像信号送信器300は、例えば、図1のクライアントデバイス101に備えられる。
画像信号送信器200は、シーンの複数のソース画像を受信するように構成された画像ソース受信器201を備える。ソース画像は、異なるビュー姿勢からのシーンのビューを表す。例えば、ソース画像は、等距離のキャプチャ姿勢の列からの画像を含む。
多くの実施形態では、ソース画像は、関連付けられた奥行き情報を有する2D画像からなる3D画像である。2D画像は、具体的には、対応するキャプチャ姿勢からのシーンのビューポートについてのビュー画像であり、2D画像は、当該2D画像のピクセル各々の奥行き値を備える奥行き画像又はマップを伴う。2D画像は、テクスチャマップであってよい。
奥行き値は、例えば、例えばz座標によって示される、ずれ値又は距離値である。いくつかの実施形態では、ソース画像は、関連付けられた3Dメッシュを伴うテクスチャマップの形態の3D画像である。いくつかの実施形態では、そのようなテクスチャマップ及びメッシュ表現は、画像信号送信器200によってさらに処理される前に、画像ソース受信器によって画像に奥行きを加えた表現に変換される。
画像ソース受信器201は、そのため、異なる姿勢からのシーンを特徴付け且つ表す複数のソース画像を受信する。そのようなソース画像のセットは、当業者に知られているように、ビューシフトなどのアルゴリズムを使用して他の姿勢のビュー画像が生成されることを可能にする。そのため、画像信号送信器200は、ソース画像についての画像データを含む画像信号を生成して、このデータをローカルのレンダリングのためにリモートのデバイスに送信するように構成される。しかし、すべてのソース画像をそのまま送信することは、実現不可能なほど高いデータレートを必要とし、多量の冗長な情報を含むことになる。
画像信号送信器200は、冗長な情報が除去された部分画像を生成することによりデータレートを低減するように構成される。部分画像は、その後組み合わせられ、符号化されて、画像信号を生成する。
画像ソース受信器201は、ピクセル選択器203に結合されており、ピクセル選択器203は、ソース画像から画像のセットを生成するように構成され、画像のセットのうち少なくとも1つは部分画像である。ピクセル選択器203は、画像信号に含めるソース画像中のピクセルのサブセットを選択することによってソース画像の1つ、又は通例は大半(さらにはすべて)の部分的バージョンを生成することにより、部分画像のセットを生成する。部分画像を、プルーニングされた(pruned)画像とも呼び、部分画像を生成するための画像のピクセルのサブセットの選択を、画像をプルーニングするとも呼ぶ。
よって、ピクセル選択器203の出力は、ソース画像に対応するプルーニングされた画像又は部分画像のセットになるが、それら画像の1つ又は通例は大半が、対応するソース画像の部分的バージョンである。ピクセル選択器203は、生成される部分画像のセットの全体的な冗長性が低減される、又は好ましくは最小化されるように、部分画像に含めるこのピクセルのサブセットを選択しようとする。生成された部分画像は、プルーニングされていない1つ又は複数の元のソース画像を含んでもよい。
ピクセル選択器203は、部分画像のセットが供給される画像生成器205に結合されている。画像生成器205は、部分画像を組み合わせて組み合わせ画像にするように構成され、各画像は、部分画像の1つ又は複数を表す。具体的には、組み合わせ画像は、部分画像のうちの複数に由来するピクセルを含む。例えば、ある部分画像からのピクセルが、別の部分画像の不使用エリアに挿入される。画像生成器205は、部分画像を、より密にパックされた組み合わせ画像にパックするものとみなすことができる。
画像生成器205は、より少ない数の、しかしより疎でない画像を生成する。組み合わせ画像のセットは、符号化器207に供給され、符号化器207は続いて画像の符号化を行う。画像生成器205が送信すべき画像の数を減らしているため、通例は、より効率的な符号化が実現される。さらに、組み合わせ画像への部分画像のパックは、通例、その結果生じる画像が符号化に非常に適するものになるように行われる。
この手法の特有の利点は、従来の画像及び映像符号化手法が符号化器207によって行われるのを許容するように、部分画像によるシーンの表現が実現されることである。例えば、多くの実施形態では、Video Exploration Team(JVET)によって開発されたH.265としても知られるHigh Efficiency Video Coding(HEVC)及びMPEG-H Part 2、又はVersatile Video Coding(VVC)などの符号化形式が使用される。
図2の画像信号送信器200は、そのため、ある範囲のビュー姿勢からのシーンを表す効率的な画像信号を生成するための効率的な手法を提供する。
画像信号は、復号器301を備える画像信号受信器300に送信され、復号器301は、画像信号を受信してそれを復号することにより、符号化器207に供給された組み合わせ画像のセットを生成するように構成される。よって、復号器301は、例えばHEVC又はVVC復号を行うことなどにより、符号化器207によって使用された規格に従って復号を行うように構成されてよい。
画像信号送信器200及び画像信号受信器300は、画像信号を符号化、変調、送信、受信等するための機能を含む、画像信号を通信するために必要とされる機能をさらに備えることが認識されよう。そのような機能は、個々の実施形態の選好及び要件に応じて決まり、またそのような技術は当業者に知られており、したがって明瞭性と簡潔のために本明細書においてはこれ以上論じられないことが認識されよう。
復号器301は、画像取得器303に結合されており、画像取得器303は、受信した組み合わせ画像から部分画像を取得するように構成される。画像取得器303は、そのため、組み合わせ画像のピクセルを分割して個々の部分画像にするために画像生成器205の逆の機能を行う。よって、組み合わせ画像は、通例、複数の異なる視点又は姿勢に対応するピクセルを含むのに対し、部分画像は、1つのみのソース画像に由来する、よって1つのみのビュー姿勢に対応するピクセルを各画像が含むように生成される。
多くの実施形態では、画像信号は、1つ又は複数の完全なソース画像も含み、そのため、画像取得器303の出力は、ソース画像に対応する、よってある範囲のビュー姿勢からのシーンを表す画像のセットを提供し、それら画像の1つ又は複数は部分画像のみである。しかし、所与の部分画像から欠落している部分は、通例、画像取得器303からの出力画像のセットのうち他の画像から入手可能な冗長な情報に対応する。
画像は第1のレンダラ305に供給され、第1のレンダラ305は、受け取った部分画像(及び存在する場合にはフル画像)のセットに基づいて新しいビュー画像を生成するように構成される。これらの画像は、元のソース画像に対応する。所与の視聴者姿勢に対応するビュー画像をレンダリングするために任意の適切なアルゴリズムが使用されてよいことが認識されよう。例えば、第1のレンダラ305は、まず、受け取ったフルソース画像に基づいてビュー画像を生成するように構成される。この結果、通例は、変更された視点に起因するオクルージョンから生じた複数の穴が生じる。そのような穴は、次いで、部分画像からのデータを使用して埋められる。当業者は、他の視点からの画像に基づいて特定の目的向けのビューを合成するための多くの種々のアルゴリズム及び手法を知っており、また第1のレンダラ305によって任意の適切なアルゴリズムが実施されてよいことが認識されよう。
いくつかの実施形態では、画像信号受信器300は第2のレンダラ307を含み、第2のレンダラ307は、受け取った組み合わせ画像から直接ビュー画像を合成するように構成される。多くの実施形態では、画像信号受信器300は、第1のレンダラ305及び画像取得器303、又は第2のレンダラ307、のいずれかを備える。第2のレンダラ307は、所与の視聴者姿勢に対するビュー画像をレンダリングするために任意の適切な手法を使用してよいことが認識されよう。
第1及び第2のレンダラは、同じ合成方法及びパラメータを使用してよく、これは、予測の価値を増大させることから有利である。
部分画像を生成するために任意の適切な手法又は方法が使用されてよいことが認識されよう。例えば、いくつかの実施形態では、ピクセル選択器203は、反復のたびに新しい入力画像を選択し、次いでそれに対して、部分画像のセットに追加される部分画像を生成することにより、部分画像のセットを反復的に生成する。画像は、各反復において、例えばランダムに、又はキャプチャ姿勢の中心位置からの距離の順に選択される。ピクセル選択器203は、次いで、以前に選択された部分画像から選択画像を予測することを試みる。
含まれる画像のセットのうち第1の含まれる画像からの候補画像のセットのうち第1の候補画像に対する予測画像は、当該第1の含まれる画像からビュー合成によって生成された第1の候補画像のビュー姿勢に対応する画像である。第1の含まれる画像及び第1の候補画像はそれぞれ異なるビュー姿勢に対するソース画像に対応するため、ビュー合成は、ビュー姿勢シフト、及び通例はビュー位置シフトを含む。ビュー合成は、ビューシフト画像合成であってよい。よって、第1の含まれる画像からの第1の候補画像の予測画像は、その候補画像のビュー姿勢からのビューポートを、第1の含まれる画像からどれほどよく予測/推定できるかを反映した画像になり得る。
第2の画像からの第1の画像の予測は、具体的には、第2の画像(及びそのビュー姿勢)に基づく、第1の画像のビュー姿勢での画像のビュー合成である。よって、第2の画像から第1の画像を予測する予測動作は、第2の画像に関連付けられたビュー姿勢から、第1の画像のビュー姿勢への、第2の画像のビュー姿勢のシフトである。
異なる実施形態ではビュー合成及び予測のために異なる方法及びアルゴリズムが使用され得ることが認識されよう。多くの実施形態では、合成画像が生成されるべき合成ビュー姿勢と、異なるビュー姿勢に各々が関連付けられた複数の入力画像とを入力とするビュー合成/予測アルゴリズムが使用される。ビュー合成アルゴリズムは、次いで、通例はテクスチャマップ及び奥行きの両方を含む入力画像に基づいて、このビュー姿勢のための合成画像を生成する。
いくつかのそのようなアルゴリズムが知られており、本発明から逸脱することなく任意の適切なアルゴリズムが使用され得る。そのような手法の一例として、はじめに中間合成/予測画像が入力画像ごとに生成される。これは、例えば、はじめに画像の奥行きマップに基づいて入力画像のメッシュを生成することによって実現される。メッシュは次いで、幾何学的計算に基づいて、入力画像のビュー姿勢から合成ビュー姿勢へと歪められる/シフトされる。次いで、それにより得られたメッシュの頂点が、中間合成/予測画像に投影され、テクスチャマップがその画像の上に重ねられる。そのような処理は、例えば標準的なグラフィックパイプラインから知られる頂点処理及びフラグメントシェーダを使用して実施される。
このようにして、合成ビュー姿勢についての中間合成/予測画像(以後は単に中間予測画像)が、入力画像各々に生成される。
中間予測画像は次いで、例えば重み付き組み合わせ/加算又は選択組み合わせにより、互いと組み合わせられる。例えば、いくつかの実施形態では、合成ビュー姿勢の合成/予測画像の各ピクセルは、最も前にある中間予測画像からのピクセルを選択することによって生成されるか、又は、ピクセルは、すべての中間予測画像の対応するピクセル値の重み付き加算によって生成され、その場合、所与の中間予測画像の重みは、そのピクセルに判定される奥行きに依存する。組み合わせ動作は、ブレンド動作としても知られる。
ピクセル選択器203は、よって、先行する反復で選択された部分画像に基づいて所与の反復における選択画像の予測を生成する。それは、予測画像を選択画像と比較し、例えば、予測画像及び選択画像内の互いに対応するピクセルの差分尺度が閾値を上回るかどうかを判定することにより、十分に正確に予測されない各ピクセルを特定する。そして、部分画像はそれらのピクセルのみを含むように生成され、よって、部分画像は、以前に選択された部分画像によって十分に正確に予測できるピクセルは含まない。部分画像は、次いで、部分画像のセットに追加され、ピクセル選択器205は次の反復に進み、そこで新しい画像が選択される。
いくつかの実施形態では、画像は、以前に選択された部分画像からの予測が最も正確でない画像として選択される。
多くの実施形態では、よって、ピクセル選択器203は、ビューソース画像の各々について画像信号にピクセル値データ/画像データを含めるべきピクセルのセットと、画像信号にピクセル値データ/画像データを含めるべきでないピクセルのセットとを示す部分画像を生成する。所与のソース画像に対する部分画像は、第1のセットに属するピクセルのピクセル値を含め、且つ後者のセットに属するピクセルのピクセル値を含まず、例えば代わりに所定の一定のピクセル値(例えばゼロ)を含むことにより、単純にそれら2つのサブセットを示す。多くの実施形態では、ピクセルは、他の視点についてのビューの予測を向上させる各自の能力の査定に基づいて部分画像に含められるか又は含められず、任意の適切な手法が使用されてよく、そのような部分画像を効率的にパックして通信するために記載される手法は、部分画像を生成するためのどの特定の手法にも依存しないことが認識されよう。また、ピクセル値の参照は、所与の一つのピクセルに対して複数の値の参照を含むことが認識されよう。例えば、ピクセル値は、異なる色チャネル、透明度、及び/又は奥行きの値などの、複数の値を備えるベクトルであってよい。
図4は、画像生成器205のいくつかの要素の例を示す。画像生成器205は、部分画像を供給され、続いてそれらを組み合わせて、より少ない組み合わせ画像にする。組み合わせは、画像のセグメント化と、セグメント化された部分画像を組み合わせて1つ又は複数のセグメント化された組み合わせ画像にすることとに基づく。セグメント化及び組み合わせは、異なるサイズ及び外形のセグメントを使用する階層的なセグメント化及び組み合わせに基づき、より大きいセグメントがより小さいセグメントに下位分割される。部分画像のセグメント化及び組み合わせは、そのため階層的であり、組み合わせ画像の内容を記述するツリーデータ構造の形態のメタデータが生成される。
画像生成器205はセグメンタ401を備え、セグメンタ401は、ピクセル選択器203から部分画像を受け取る。セグメンタ401は、部分画像の各々に対して、よって元のビューソース画像の各々に対して、セグメント化された部分画像を生成するように構成される。セグメンタ401は、具体的には、部分画像を、所定の外形のセットから選択された外形を有するセグメントに分割してよい。
よって、セグメント外形のセットが選択され、部分画像のセグメント化は、セグメントの外形がそれらの1つから選択されなければならないという制約に基づく。セグメントの外形は、セグメントのサイズ及び形状に対応する。例えば、セグメントは矩形に制約され、外形は、例えばピクセル単位で測定される幅及び高さ(垂直方向及び水平方向のセグメント寸法)によって定められる。
セグメント外形同士は、より小さいセグメントがより大きいセグメントの下位分割となるように、階層的に関係付けられてよい。例えば、セグメント外形のセットは、最も大きいサイズを有する1つ又は複数のセグメントを含む。例えば、最も大きいセグメント外形は、所与のピクセル寸法を有する矩形のセグメントである。最も大きいセグメント外形は、具体的には画像全体と等しくてよい。
次いで、例えば、そのセグメントを水平方向の分割によって2つの半セグメントに分割するなどの所与の下位分割を使用して、次のレベルのセグメント外形が、最も大きい外形の下位分割として選択される。いくつかの実施形態では、複数の下位分割が使用されてよく、例えば、セグメントを垂直方向の分割によって2つの半セグメントに分割して、別の外形のセットが生成されてよい。次のレベルのセグメント外形は、同じ(又は異なる)下位分割を使用することによって生成され、以後同様に続く。よって、可能なセグメント外形のセットは、異なるサイズ及び可能性としては異なる形状の外形を含む。
セグメンタ401は続いて、部分画像を、所定の/可能な外形のセットから選択された外形をもつセグメントに分割する。セグメントは、一部のセグメントは画像データを提供するピクセル(並びに可能性としては画像データを提供しないピクセル)を含み、一部のセグメントは画像データを提供しないピクセルのみを含むように生成される。よって、画像データを全く含まない画像セグメントと、画像データを含む画像セグメントとが生成される。画像データを含まない画像セグメント(不使用セグメント)は次いで破棄されるのに対し、画像データを含む画像セグメント(使用セグメント)は、組み合わせ画像の1つに含められる。
よって、セグメンタは、所定の外形を第2のピクセルのセットに属するピクセルの領域にフィッティングすることによって、部分画像を使用セグメントと不使用セグメントとに分割することにより、部分画像をタイリングする。例えば、セグメンタ401は、画像全体に対応するセグメントから開始する。次いで、そのセグメントを4つの下位セグメントに分割する。その下位セグメントの各々に対して、セグメンタ401は、そのセグメントが使用ピクセル(部分画像が画像データを含むピクセル)を含むかどうかを判定する。含まない場合、そのセグメントはそれ以上処理されず、不使用セグメントとして指定される。しかし、使用ピクセルを含む場合は、セグメントを下位分割する処理が繰り返される。この処理は、使用ピクセルを含むセグメントが、セグメントに許容される最小サイズに達するまで繰り返されてよい。これで、画像は、不使用ピクセルの領域に収まる所与のセグメント形状に対する最も大きいサイズを有する不使用セグメント、通例は不使用ピクセルを含む多数の最小サイズのセグメントに分割される。セグメンタ401は続いて、例えば、より大きいセグメントのすべての下位分割が使用ピクセルを含む場合は、反復的に、より小さいセグメントを組み合わせてより大きいセグメントにすることにより、使用ピクセルを有する最小サイズのセグメントを組み合わせて、より大きいセグメントにする。これによってより大きい使用セグメントを作成し、よって、この処理の結果、使用セグメントのセットと不使用セグメントのセットとが生じる。
いくつかの実施形態では、所与のセグメントの複数の下位分割が可能であり、セグメンタ401は、所与の基準を用いてそれらの中から選択することができ、例えば、異なるセグメントにおいて使用ピクセルの密度に最も大きい差を生じさせる、すなわち最も大きい不均衡を生じさせる、下位分割を選択する。
階層的にセグメント化された部分画像を生成するための多くの他の手法又はアルゴリズムが使用されてよいことが認識されよう。
セグメンタ401は、続いて、すべてのビューソース画像に対してセグメント化された部分画像を生成し、それらのセグメント化された部分画像は、次いで、1つ又は複数の組み合わせ部分画像を生成するように構成されたコンバイナ403に供給される。以下の説明は単一の組み合わせ部分画像の生成に着目するが、多くの実施形態では複数の部分画像が生成され得ることが認識されよう。
コンバイナ403は、具体的には、複数の部分画像に対して生成された使用セグメントを、単一の組み合わせ画像に含める。例えば、いくつかの実施形態では、コンバイナ403は、1つのセグメント化された部分画像、例えば、使用セグメントが最も大きい面積をカバーするセグメント化された部分画像を、初期の組み合わせ部分画像として選択することによって開始する。コンバイナ403は次いで、第2のセグメント化された部分画像を選択し、続いて、組み合わせ部分画像の不使用セグメントを、第2のセグメント化された部分画像の使用セグメントで埋める。例えば、コンバイナ403は、第2のセグメント化された部分画像内で各使用セグメントを順次選択し、それらの各々に対して、同じ外形をもつ組み合わせ部分画像内の不使用セグメントを特定する。第2のセグメント化された部分画像の使用セグメントは、次いで、組み合わせ部分画像内の不使用セグメントに移動され(例えばピクセル値をコピーすることにより)、その後、使用セグメントとして指定される。コンバイナ403は続いて、第3のセグメント化された部分画像を選択し、続いて、その使用セグメントを、組み合わせ部分画像の不使用セグメントに含める。この手法は、すべてのセグメント化された部分画像が処理されるまで、又は、組み合わせ部分画像内で適切な不使用セグメントが入手できなくなるまで、セグメント化された部分画像に繰り返され、後者の場合は、新しい組み合わせ部分画像が開始される。
多くの実施形態では、例えばよりよいフィットを提供するようにセグメント化を組み合わせる又は分割することを含む、セグメント化された部分画像のセグメントの組み合わせのより良好な最適化を提供することを求める、より複雑なアルゴリズムが使用され得ることが認識されよう。
組み合わせ部分画像は、そのため、複数の部分画像からの使用セグメントを含む。セグメントの一部は、組み合わせ部分画像の中で、セグメント化された部分画像内でと同じ位置に配置されるのに対し、他のセグメントは、組み合わせ部分画像の不使用セグメントに収まるように移動されている場合がある。
そのため、コンバイナ403は、使用セグメントごとに、そのセグメントの起源又はソースを示す起源又はソースデータを記憶する。具体的には、起源データは、当該セグメントがそこから選択されたセグメント化部分画像、並びに、通例は、組み合わせ部分画像内でのセグメントの位置とセグメント化された部分画像内での位置との間の差を反映するデータを示す。
コンバイナ403は、よって、異なるサイズのセグメントへとセグメント化された組み合わせ部分画像を生成し、セグメントは、異なるセグメント化部分画像からのピクセル値を含んでいる。図5は、組み合わせ部分画像の例を示し、図6は、図5の組み合わせ部分画像の一部分のクローズアップを示す。
組み合わせ部分画像の生成に使用され得るアルゴリズムの具体例は、以下である。
1.最も大きいノードサイズを、せいぜい最も小さいフレームの幅又は高さである、2の最も大きい累乗に設定する(1080pであれば1024)。
2.2の累乗、例えば(8,8)、(16,8)、(8,16)、(16,16)、(32,8)等を使用して、例えばブロックを水平方向又は垂直方向に半分のところで分けるなど、同じ下位分割を異なるスケールで用いて、最も小さいノードサイズから最も大きいノードサイズまでのスケール不変のノードタイプのセットを生成する。
3.すべてのソースビュー及びパックされたビューのフレームサイズを列挙する。
4.フレームサイズが大きくなる順に:
a.矩形枠の第1のリストを維持し、フレーム全体についての枠を挿入する。
b.空の状態で開始する、枠の第2のリストを維持する。
c.第1のリストが空になるまで反復的に、
i.リストから矩形を取り出し、
ii.その矩形に収まる最も大きいノードタイプを見つけ、
iii.矩形をタイリングし、第2のリストに枠を追加し、
iv.残っているピクセルがあれば、それを矩形に分割し、第1のリストに追加する。
d.第2のリストの枠に従って、単一の下位分割を含むフレームサイズに対するノードタイプを作成する。
生成された組み合わせ部分画像は、組み合わせ部分画像が供給される画像信号生成器405に供給される。よって、セグメンタ401及びコンバイナ403は、1つ又は複数の組み合わせ部分画像を提供する画像ソース407を形成し、組み合わせ部分画像の各々は異なるサイズのセグメントに分割されており、一部のセグメントは使用され、ビューソース画像からの画像データを含み、他のセグメントは使用されず、ビューソース画像からの画像データを含まない。
画像信号生成器405は、組み合わせ部分画像を含む画像信号を生成するように構成され、具体的には符号化器207を備える/符号化器207に対応してよい。
しかし、画像データに加えて、画像生成器205はメタデータ生成器409をさらに備え、メタデータ生成器409は、画像信号生成器405に供給されて同じく画像信号に含められるメタデータを生成するように構成される。
メタデータは、組み合わせ部分画像の画像データ内容を示すために生成され、具体的には、組み合わせ部分画像のセグメント化、並びに組み合わせ部分画像内の個々のセグメントとセグメント化された部分画像内のセグメントとの間の関係を示す。
画像データ及びメタデータは、組み合わせ部分画像のセグメント化を反映するツリーデータ構造に従って構造化される。ツリーデータ構造の例が図7に示される。メタデータは具体的にはツリーデータ構造を備え、そこでは各ノードが組み合わせ部分画像の1つのセグメンントに紐付けられている。所与のセグメントに紐付けられたセグメントは、定義された使用セグメント若しくは不使用セグメントの1つであるか、又は複数のそれらの組み合わせであるかのいずれかであり、すなわち、ノードは、画像内に形成された使用若しくは不使用の組み合わせ部分画像のものに等しい、又は複数の隣接するセグメントの組み合わせられた外形及び位置に等しい外形及び位置を有する組み合わせ部分画像内のセグメントに紐付けられる。各ノードは、コンバイナ403によって生成されて組み合わせ部分画像に含められたセグメントのセットのうちの、1つのセグメンント又は連続した複数のセグメントの組み合わせに対応する領域に紐付けられるという意味で、セグメントに紐付けられる。
ツリーデータ構造のノードは、枝ノードか葉ノードのいずれかである。
枝ノードは、1つの、通例は2つ以上の子ノードを有する親ノードである。枝ノードの各子ノードは、当該枝ノードのセグメントの下位分割に従った、枝ノードのセグメントの下位セグメントを表す。
よって、例えば、枝ノードは、組み合わせ部分画像内の所与の場所にある、例えば100×200ピクセルのセグメントに紐付けられる。枝ノードは、一つのセグメントを4つの等しいセグメントに分割する下位分割に紐付けられてよく、よって、セグメントは、サイズ25×50ピクセルの4つの隅のセグメントに下位分割される。それらセグメントの各々に対して、ツリーデータ構造は、枝ノードの子ノードを一つずつ含む。
よって、枝ノードは、より小さいセグメントへのセグメントの分割を表す。
葉ノードは子ノードを持たず、よって、さらに下位分割されることのない組み合わせ部分画像のセグメントに対応する。葉ノードは、そのため、コンバイナ403によって生成された使用セグメント及び不使用セグメントに対応する。
例えば、上記の例で、4つの25×50ピクセルのセグメントが使用セグメント又は不使用セグメントとしてコンバイナ403によって生成された場合、それらはさらに下位分割されることはなく、よって子ノードを持たない。
しかし、例えば、25×50ピクセルのセグメントの1つが、例えば1つの使用セグメント及び1つの不使用セグメントをカバーしている場合、このセグメントに対応するノードは、葉ノードとなる代わりに、2つの子を持つ枝ノードになり、子の1つは使用セグメントの葉ノードに対応し、1つは不使用セグメントの葉ノードに対応する。
枝ノードは、組み合わせ部分画像内でさらに下位分割され、且つ1つの使用セグメント又は不使用セグメントに直接は一致しないセグメントに対応するのに対し、葉ノードは、下位分割されず、使用セグメント又は不使用セグメントのいずれかに直接紐付けられる。
よって、葉ノードは、第1の画像が画像データを含まないセグメントに紐付けられた、すなわち不使用セグメントに紐付けられた、不使用の葉ノードであるか、又は、第1の画像が画像データを含むセグメントに紐付けられた、すなわち、組み合わせ部分画像の使用セグメントに紐付けられた、使用される葉ノードであるかのいずれかである。
ツリーデータ構造は、そのため、組み合わせ部分画像及びそのセグメント化に直接一致する構造及び構成を有する。ツリーデータ構造は、組み合わせ部分画像内の生成された各使用セグメント及び不使用セグメントに対して葉ノードを含む。ツリーデータ構造は、いくつかの枝ノードをさらに含み、それらは、セグメント化、具体的には、異なる部分画像からのセグメントを組み合わせ部分画像の中に共に効率的にパックするために行われたセグメントの下位分割を定義する。
メタデータ生成器409は、ツリーデータ構造を記述するメタデータを生成し、具体的には、各ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示すメタデータを生成する。メタデータは、画像信号生成器405に供給され、画像信号に含められる。
多くの実施形態では、ツリーデータ構造の根ノードは、組み合わせ部分画像全体に対応するセグメントに紐付けられてよい。これにより、1つのツリーデータ構造が画像全体の情報を提供する、効率的な手法が得られる。よって、多くの実施形態では、組み合わせ部分画像ごとに1つのツリーデータ構造が提供される。
ツリーデータ構造は、組み合わせ部分画像のセグメント化と、使用セグメント又は不使用セグメントとしてのセグメントの割り当てとを記述する。さらに、多くの実施形態では、ツリーデータ構造は、セグメントについての追加的な情報を含む。具体的には、各葉ノードについてのメタデータは、対応するセグメントについての1つ又は複数の性質を示すデータを含む。
異なる実施形態では異なるデータが含まれ得ることが認識されよう。例えば、使用セグメントについて、セグメント内の使用ピクセルであるピクセルの比率、すなわち、それが疎にパックされたセグメントであるか、それとも密にパックされたセグメントであるかについての指示が提供されてよい。
しかし、大半の実施形態では、メタデータは、少なくとも一部の使用される葉ノードについて、その葉ノードに紐付けられた使用セグメントの起源であるビューソース画像及び部分画像の指示を含む。多くの実施形態では、メタデータは、組み合わせ部分画像内でのセグメントの位置と、元のビューソース画像/部分画像内での位置との間の位置の差(例えば回転/向きを含む)の指示も含む。例えば、使用セグメントについて並進情報が含まれてよい。この手法は、このようにして、組み合わせ部分画像の内容、及びそれをどのようにアンパックしたら元の部分画像を得ることができるかについての非常に効率的な伝達を提供する。
いくつかの実施形態では、使用セグメント/葉ノードの一部について、明示的な起源データが含められる。例えば、明示的な起源データが存在しないことは、組み合わせ部分画像及び同じ位置にあるセグメントについて、基本部分画像のデフォルトの起源を示す。より高度な例として、複数の予測が生成され、メタデータは、起源データか、又はそれら予測のうち1つの選択のどちらかを含む。
実際、向上した柔軟性及び適合性を提供するために、通例は少なくとも1つのセグメントについて少なくとも何らかの起源データをメタデータ/画像信号に含めることが好ましいのに対し、他の実施形態では、画像信号及びメタデータが起源データを全く含まないことが可能である。
いくつかの実施形態では、起源データは、例えば、例えば他の手段を通じて、画像信号とは別に提供される。通例、例えば映像フレームの場合、画像のセグメント化は個々の画像フレームの内容の変化よりもはるかに遅く、複数のフレームにわたって、可能性としては非常に多数のフレームにわたって、同じ画像セグメント化が使用され得る。そのような例では、映像フレームを含む画像信号は高速の通信チャネルを通じて通信されるのに対し、起源データは全く別の信号で提供され、異なる通信チャネルを通じて通信される。
いくつかの実施形態では、画像信号送信器が、一切の起源/ソース指示データを送信しないことが可能である。例えば、位置又は位置の差データは、通例、セグメントが部分画像から組み合わせ画像に移動される実施形態にのみ該当する。いくつかの実施形態では、部分画像からの組み合わせ画像の生成は、セグメントが移動されず、よって位置起源情報が必要とされないか又は該当しないように行われる。そのような手法は、結果として組み合わせ画像へのセグメントのパックの効率が下がるが、結果として複雑性が低減され、処理が容易化されるため、用途によっては有利であり得る。それは例えば、最も関連性の高いシーン情報が、異なる部分画像の、異なる且つ特定の部分に存在する傾向がある用途に適する。
また、いくつかの実施形態では、ソース/起源画像の指示は、ビューソース画像のすべてに必要とされるのではなく、又は実際、実施形態によっては、ビューソース画像のいずれにも必要とされないこともある。例えば、ビューソース画像内でのセグメントの位置又は起源と、組み合わせ画像内でのセグメントの位置又は順序との間の所定の関係が適用され、この関係が、画像信号又はメタデータが関係を記述する必要なしに、画像信号送信器及び画像信号受信器の両方によって個々に且つ別個に適用されてよい。一部のそのような事例では、起源データは全く通信される必要がない。
具体例として、組み合わせ画像の固定された領域が、部分画像の各々に割り当てられ、例えば、組み合わせ画像の50%に対応する領域が第1の画像に割り当てられ、組み合わせ画像の25%に対応する領域が第2の画像に割り当てられ、組み合わせ画像の15%に対応する領域が第3の画像に割り当てられ、組み合わせ画像の10%に対応する領域が第4の領域に割り当てられる。ピクセル選択/セグメント生成は、選択されるピクセル/生成されるセグメントの数が、その画像に割り当てられた組み合わせ画像の比率を適切なマージンだけ下回らなければならないという要件を条件としてよい(不完全なパックを許容するため)。そして、組み合わせ画像へのセグメントのパックは、その部分画像のセグメントに割り当てられた領域へのセグメントの割り当てを条件とする。組み合わせ画像のパックの全体的表現は、説明されたように階層的な表現であってよく、セグメント位置に関する既知の制約のために、さらなる画像起源データは必要とされない。
いくつかの実施形態では、要件、制約、及び手法の様々な組み合わせが利用され得る。例えば、より柔軟なパックを許容して、より多くのパック制約を課すことを許容するために、組み合わせ画像が部分画像よりも大きくてもよい(例えば、パックは、セグメントの位置が維持され、各部分画像/ソース画像が、その画像に割り当てられた特定の領域に制約されるように行われる)。
いくつかの実施形態では、特別の既知の又は仮定された画像特性を使用して、ソース画像内でのセグメントの位置又は順番と、組み合わせ画像内でのセグメントの順序又は位置との間の適切な所定の関係を決定することもできる。例えば、シーンが、所与の送信の間にわたって静止していると考えられるシーンであり、変化が主としてシーンの1つの領域(例えば劇場内の舞台)で発生する場合、異なるビューソース画像内のこの領域に対応する特定のエリアが特定され、それらを使用して、画像信号送信器と画像信号受信器との両方で知られることができる所定の関係を決定する。例えば、異なる部分画像内で特定された領域が、所定の/既知の関係で、組み合わせ画像内の異なる領域に割り当てられる。
よって、大半の実施形態では、組み合わせ画像のセグメントの1つ又は複数について(具体的には、使用される葉ノードによって表される少なくとも1つのセグメントについて)、ビュー画像ソース及び/又はビュー画像ソース内での位置を示す起源データを含めることが好ましい。この手法は、多くの実施形態でより柔軟且つ効率的な手法を可能にする。しかし、これは有利であることが多いが、決してすべての実施形態で必要、不可欠、又は要求される訳ではない。
いくつかの実施形態では、セグメントの可能な下位分割が1つだけ可能であり得る。例えば、矩形セグメントの下位分割は、常に、垂直方向及び水平方向の中心線に沿って分割することによって生成される4つの下位セグメントへの分割である。そのような場合、メタデータは、所与の枝ノードに対して使用された下位分割についての追加的情報を含まない。
しかし、多くの実施形態では、部分画像のセグメント化は、異なる下位分割が使用されることを許容し、具体的には、下位分割は、許容される下位分割のセットから選択される。そのような場合、メタデータは、枝ノードの1つ又は複数について、子ノードのセグメントを生成するために枝ノードのセグメントに適用された下位分割の指示を含む。
具体的には、セグメント化は、例えば、垂直方向の中心分割による2つの半セグメントへの分割、水平方向の中心分割による2つの半セグメントへの分割、垂直方向及び水平方向の中心分割による4つの4分の1セグメントへの分割などの、許容可能な下位分割のセットから選択された下位分割に基づく。そして、所与の枝ノードについてのメタデータは、許容可能な下位分割のセットのうちどの下位分割がその枝ノードのセグメントに使用されたかを示すデータを含む。
より複雑な下位分割が使用されてよく、下位分割は、異なる形状及び外形を有し得るセグメントの性質に依存することが認識されよう。例えば、図8に示されるように、(40,40)ピクセルのセグメント/ノードを、2つの(40,20)のセグメント/ノード、又は2つの(10,40)のセグメント/ノード及び1つの(20,40)のセグメント/ノードに分けることが可能であり得る。40×40のセグメント/ノードは、そのため、2種類の下位分割を有する。40×20のセグメント/ノードは、例えば2つの20×20のセグメント/ノードへの下位分割などの、1つのみの下位分割を有する。よって、許容可能な下位分割のセットは、特定のセグメント、具体的には外形(サイズ及び/又は形状)にも依存する。
ここで説明される例では、システムは、最も小さいノードサイズ/セグメントまで再帰的に下位分割されることが可能なセグメントを使用する。よって、この例では、セグメントはすべて、最も小さいサイズのセグメントの組み合わせとして生成されることが可能な外形を有し得る。具体的には、どの所与のセグメントも、最小サイズのセグメントによってタイリングされることが可能である。それらセグメントは、最小サイズの1つの(又は可能性としては複数の)セグメントに対応する基本の構築ブロックを組み合わせることによって生成されると考えることができる。そのような手法は、以下を含むいくつかの利点を有し得る。
・映像符号化器(HEVCコーディングブロックツリーなど)とのブロック位置合わせを向上させる。
・セグメント化がより少ないデータで表されることが可能であるため、必要とされるメタデータの量を減らす。
多くの実施形態では、メタデータ生成器409は、構成情報を生成するように構成されてもよく、構成情報は、組み合わせ部分画像をアンパックする際に使用するために画像信号受信器300に送信されてよい。
具体的には、多くの実施形態において、画像信号送信器200は、セグメント化に関する制約パラメータと、組み合わせ部分画像についてのツリーデータ構造とを生成する。多くの実施形態では、メタデータは、すべての他のセグメントの基礎をなす最も小さいセグメントの指示を含むように生成される。
別の例として、多くの実施形態では、メタデータは、ノード/セグメントに対してどの下位分割が可能であるかの指示を含むように生成される。例えば、分割されるセグメントについての外形データ(例えば形状など)と、その特定の下位分割に対して形成されることになる下位セグメントについての外形データとを提供することにより、許容可能な下位分割の1つ又は複数のセットが定義される。各下位分割には識別子が割り当てられ、その後、枝ノードに対するその特定の下位分割を示す際にはこの識別子が使用される。
画像信号のデータを生成するときのメタデータの表現、符号化、及び構造化は、任意の適切な手法及びアルゴリズムを使用して実現される。
多くの実施形態では、ツリーデータ構造を記述するメタデータは、有利には、ツリーデータ構造のノードの一部、通例はすべてについてのノードデータブロックの順序付けられたシーケンスを伴うデータストリームとして生成される。例えば、ツリーデータ構造のツリーを構文解析する順序が予め決められ、ノードデータブロックがその順序で順次提供される。
各ノードデータブロックは、そのノードに関連するデータを含む。例えば、枝ノードについてのノードデータブロックは、適用される下位分割を示す。葉ノードについてのノードデータブロックは、それが使用される葉ノードであるか不使用の葉ノードであるかを示し、使用される葉ノードについてのノードデータブロックはさらに、起源である部分画像/ビューソース画像の番号、及び起源である部分画像内でのセグメントの位置の指示を提供するなどにより、そのセグメントの起源を示す(例えばデフォルトの画像/位置でない場合)。
例えば、データストリームは、画像全体に対応する根ノードのノードデータブロックで開始する。これは下位分割を示し、よって子ノードの数を示し得る。根ノードデータブロックの後には、1番目の子ノードのノードデータブロックが続く。それが枝ノードである場合、ノードデータブロックは下位分割を示す。次いで、次のノードデータブロックは、このノードの1番目の子ノードに対応する。遭遇する最初の葉ノードに対してノードデータブロックが含まれるまで、これが継続する。順序は次いで、最初の葉ノードの親ノードに対する次の子ノード等に進む。よって、この例では、ノードデータブロックは、ツリーの構文解析が実質的に垂直方向に行われる順序で配置され、水平方向のシフトは、1つの垂直方向の経路が完了したときにのみ発生する。他の実施形態では、順序付けは、水平方向の構文解析に着目してよい。例えば、所与の階層レベルにあるすべてのノードに対してノードデータブロックが提供され、その後に次の階層レベルにあるすべてのノードデータブロックが続く等である。
いくつかの実施形態では、メタデータ生成器409は、例えば初期の構成データの一部として、メタデータにノードデータブロックのシーケンスの順序の指示をさらに含めるように構成される。これにより、柔軟で適応性のある手法が可能になり、例えば、画像信号送信器200が、ツリーデータ構造の特定の特性に応じて、順序を適合できるようになる。
ノードデータブロックの構造化シーケンスを使用する場合、画像信号受信器300は、いくつかの実施形態において、ノードデータブロック間にセグメント性質の指示を挿入する、又はそれをノードデータブロックに含めるように構成される。そのようなセグメント性質の指示は、例えば新しいセグメント性質の指示が受け取られるまで、後に続くノードデータブロックのノードのセグメントに関連する性質の指示を提供する。よって、各ノードデータブロック内に特定の性質を定義するのではなく、交替/更新の指示が受け取られるまで適用可能な共通の指示が含められる。セグメント性質の指示は、ノードデータブロック内で提供されてよく、すなわち、ノードデータブロック内のデータ値が、当該ノードデータブロックの前又は後に適用されるべきセグメント性質の指示とみなされてよい(すなわち、現在のノードデータブロックのノードに適用されるか、又は後に続くノードのみに適用される)。
所与のセグメント性質の指示は、よって、後続のノードデータブロック(並びに現在のノードデータブロック)に適用可能となり、通例は、別のセグメント性質の指示が受け取られるまで適用可能である。
セグメント性質の指示は、具体的には、後続のノードデータブロックについてのビューソース画像の指示、及び/又はビューソース画像の位置の指示を示す。例えば、後に続くノードデータブロックが例えば部分画像番号3に属し、例えば所与の数の水平方向及び垂直方向ピクセルからなる並進ベクトルだけオフセットされるセグメントに関係することを示す、セグメント性質の指示が含められる。
そのような手法は、非常に効率的なデータ表現を提供する。
よって、いくつかの実施形態では、記載されるシステムは、ブロックツリー構造を使用して部分ビューをパックする。この手法は、並列処理に非常に適し得る。それはまた、メタデータの効率的な表現を可能にし、例えばHEVCなどの後に行われるブロックに基づく画像符号化に適したブロックを提供する。
ツリーデータ構造を符号化するための具体的な手法は以下である。
1.以下を定義するセグメント性質の指示を符号化することによって初期化する:ビュー番号=0、並進=(0,0)
2.ノードごとに:使用される葉/不使用の葉/枝(3値又は2ビット)を符号化する
a.使用される葉の場合:
i.ビュー番号が変化したか?を符号化する(1ビット)
ii.並進が変化したか?を符号化する(1ビット)
iii.ビュー番号が変化した場合:ビュー番号を符号化する(uint8又はuint16)
iv.並進が変化した場合:並進を符号化する(int16ペア)
b.枝の場合:
i.下位分割を符号化する
並進(x,y)は、最も小さいノード幅及び高さで割ることができる。
各ノードデータブロックは、4ビットコードとして表すことが可能なノードコードを含んでよい。
enum NodeCode{
bits =4,
leaf =0b1100,
view_bit =0b0001,
translation_bit=0b0010,
muted =leaf-1,
max_subdiv =muted
};
この結果、以下のノードコードが得られる。
Figure 0007471314000001
メタデータの符号化は、具体的には、Context-adaptive Binary Arithmetic Coding(CABAC)コーディングなどの算術コーディングである。
この手法は、任意の適切な画像符号化器、又は画像が映像シーケンスのフレームに対応する例では映像符号化器と共に使用されてよいとが認識されよう。
しかし、有利な性能は、セグメント及びノードを映像コーデックのコーディングブロックツリーと位置合わせすることによって実現される。この(マルチレベルの)ブロック位置合わせは、テクスチャ及び奥行きのビットレートを低減し得る。また、メタデータのビットレートは、コーディングブロックツリーの構造からノード下位分割及び/又は起源データの予測を導出することによって低減されてもよい(クライアントデバイスがこの情報にアクセスできる状況において)。
画像信号受信器300は、そのため、セグメント化及びセグメント化された組み合わせ部分画像がどのように元の部分画像から生成されるかを定義するツリーデータ構造と共に、セグメント化された組み合わせ部分画像を含む画像信号を受信する。次いで、画像取得器303が、メタデータに基づいて、受信したセグメント化された組み合わせ部分画像から関連するセグメントを抽出し、部分画像内で指示されるようにそれらを配置することにより、元の部分画像を再生成する。画像取得器303は、そのため、続いて元の部分画像をレンダリングのために第1のレンダラ305に提供する。
よって、画像取得器303は、ツリーデータ構造を適切な順序で横断し、各復号されたブロック/セグメントを指示される部分画像にコピーする。各セグメントのサイズ及び位置は、ツリーデータ構造から分かり、部分画像内での位置は、並進/位置のメタデータによって分かる。
他の実施形態では、例えば第2のレンダラ307が、ツリーデータ構造を直接構文解析し、各使用される葉ノード/使用セグメントを組み合わせ部分画像から直接レンダリングし、最初に部分ビューを生成することはしない。これはしばしばメモリ効率がより高い。
よって、画像信号受信器300は、メタデータに応じて、ビューソース画像のセットについての画像データを抽出するように構成される。ビューソース画像の各々はシーンの所与の視点に対応し、よって、抽出された画像データは視点と関連付けられている。よって、レンダラは、メタデータに基づいて異なる視点についての画像データを抽出することができる。異なる視点についての画像データは、例えば、階層的ツリー構造を考慮することにより、上記のようにして抽出される。
ビューソース画像のセットに対して抽出された画像データは、よって、部分画像であり、元の部分画像に対応し得る。いくつかの実施形態では、部分画像は、完全に再作成される。他の実施形態では、特定の必要とされる、又は所望される画像データのみが抽出される。
第1又は第2のレンダラ305、307は、次いで、異なる視点についての抽出された画像データに基づいて、所与の視点に対する画像を合成する。他の視点からの画像データに基づいて所与の視点に対応する画像を合成するための多くのアルゴリズムが知られており、任意の適切なアルゴリズムが使用されてよいことが認識されよう。例えば、先に述べたように、画像は、1つの(例えばマスター)ビューソース画像に基づいて合成され、他のビューソース画像からの画像データを使用して、生成された画像中のオクルージョンの穴を埋めることができる。
上記の説明は、分かりやすいように、種々の機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明したことが認識されよう。しかし、本発明から逸脱することなく、機能回路、ユニット、又はプロセッサ間の機能の任意の適切な分散が使用されてよいことが明らかであろう。例えば、別々のプロセッサ又はコントローラによって行われるものと説明された機能が同じプロセッサ又はコントローラによって行われてよい。したがって、特定の機能ユニット又は回路への言及は、厳格な論理的又は物理的構造又は編成を示すものではなく、記載される機能を提供するための適切な手段の言及としてのみ見られるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせを含む任意の適切な形態で実施され得る。本発明は、任意で、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実施されてもよい。本発明の実施形態の要素及び構成要素は、物理的、機能的、及び論理的に、任意の適切な方式で実施されてよい。実際、機能は、単一のユニット、複数のユニット、又は他の機能ユニットの一部として実施されてよい。そのため、本発明は、単一のユニットで実施されても、又は異なるユニット、回路、及びプロセッサ間に物理的及び機能的に分散されてもよい。
本発明は、いくつかの実施形態との関連で説明したが、本明細書に述べられる特定の形態に限定されることは意図されない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。また、特徴は特定の実施形態との関係で説明されるように見えるかもしれないが、当業者であれば、記載される実施形態の様々な特徴は本発明に従って組み合わせられてよいことを認識しよう。特許請求の範囲において、用語「~を備える/含む」は、他の要素又はステップの存在を排除しない。
さらに、個々に列記されるが、複数の手段、要素、回路、又は方法のステップが、例えば単一の回路、ユニット、又はプロセッサによって実施されてよい。また、個々の特徴が異なる請求項に含まれることがあるが、それらは場合によっては有利に組み合わせられ、異なる請求項に含まれることは、特徴の組み合わせが実現可能でない、及び/又は有利でないことを示唆するものではない。また、1つのカテゴリの請求項に特徴が含まれることは、そのカテゴリへの限定を示唆するのではなく、その特徴が他の請求項カテゴリにも適宜等しく適用可能であることを意味する。さらに、請求項における特徴の順序は、それら特徴が働かせられなければならない特定の順序を示唆するものではなく、特に、方法クレームにおける個々のステップの順序はそれらステップがその順序で行われなければならないことを示唆するものではない。むしろ、ステップは、任意の適切な順序で行われてよい。また、単数形の言及は複数を排除しない。よって、「一つの」、「第1の」、「第2の」等の言及は複数を排除しない。請求項における参照符号は、単に明瞭にするための例として提供され、いかなる形でも特許請求の範囲を制限するものとは解釈すべきでない。

Claims (17)

  1. 画像信号を生成する装置であって、前記装置が、
    異なるサイズのセグメントのセットに分割された第1の画像を提供する画像ソースであって、前記第1の画像は、前記セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、前記セグメントのサブセットの1つのセグメントの前記画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメントからの画像データである、画像ソースと、
    前記第1の画像の前記画像データの内容を示すメタデータを生成するメタデータ生成器と、
    前記第1の画像の前記画像データ及び前記メタデータを含む画像信号を生成する画像信号生成器とを備え、
    前記メタデータは、
    各ノードが、前記第1の画像の一つのセグメントに紐付けられ、
    各ノードが、枝ノード又は葉ノードであり、
    枝ノードが、親ノードを少なくとも1つの子ノードに紐付けている当該親ノードであり、前記親ノードの各子ノードが、前記親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、
    葉ノードが、子ノードを持たず、前記セグメントのセットの1つのセグメンントに紐付けられ、葉ノードが、前記第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は前記第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、
    ツリーデータ構造に従って構造化され、
    前記メタデータは、各ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す、
    装置。
  2. 前記メタデータが、使用される葉ノードに紐付けられた少なくともいくつかのセグメントの前記画像データに対して、複数の前記ビューソース画像のうちの1つのビューソース画像の指示をさらに含む、請求項1に記載の装置。
  3. 前記メタデータが、使用される葉ノードに紐付けられた第1のセグメントの前記第1の画像内での位置と、前記ビューソース画像の対応するセグメントの前記ビューソース画像内での位置との間の位置の差の指示をさらに含む、請求項1に記載の装置。
  4. 前記画像信号が、前記メタデータの少なくとも一部を、少なくとも前記ツリーデータ構造の複数のノードについてノードデータブロックの順序付けされたシーケンスを含むデータストリームとして含み、各ノードデータブロックは当該ノードの性質のセットを示すデータを含み、前記性質のセットは、前記ノードが枝ノードであるか又は葉ノードであるかの指示を含む、請求項1から3のいずれか一項に記載の装置。
  5. 前記順序付けされたシーケンスは、複数のセグメント性質の指示を含み、各セグメント性質の指示は、後続のノードデータブロックに適用可能な少なくとも1つのセグメント性質の性質を示す、請求項4に記載の装置。
  6. 前記画像データが、前記順序付けされたシーケンスの指示を含む、請求項4又は5に記載の装置。
  7. 前記枝ノードのセグメントに対する下位分割が、許容可能な下位分割のセットの1つから選択され、前記メタデータが、前記許容可能な下位分割のセットのうち枝ノードに対して使用された下位分割を示す前記枝ノードのデータを含む、請求項1から6のいずれか一項に記載の装置。
  8. 前記メタデータが、前記許容可能な下位分割のセットの指示を含む、請求項7に記載の装置。
  9. 前記ビューソース画像のセットが、それぞれ異なる視点からの前記シーンを表す複数のビューソース画像を含む、請求項1から8のいずれか一項に記載の装置。
  10. 前記ツリーデータ構造の根ノードが、前記第1の画像全体に対応するセグメントに紐付けられている、請求項1から9のいずれか一項に記載の装置。
  11. 前記メタデータが、最も小さいセグメントサイズの指示を含み、前記セグメントのセットのセグメントは、前記最も小さいセグメントサイズの倍数であるサイズを有する、請求項1から10のいずれか一項に記載の装置。
  12. 前記ビューソース画像のセットのビューソース画像のうち少なくとも一部の各々に対してセグメント化された部分画像を生成するセグメンタであって、複数のセグメントを含むビューソース画像に対する前記セグメント化された部分画像は、所定の外形のセットから選択された外形を有し、前記セグメントは、少なくとも一部のピクセルが前記ビューソース画像からの画像データを含む使用セグメントと、前記ビューソース画像からの画像データを含むピクセルがない不使用セグメントとに分割される、セグメンタと、
    前記少なくとも一部のビューソース画像からの使用セグメントを前記第1の画像に含め、且つ前記少なくとも一部のビューソース画像からの不使用セグメントを含めないことによって、異なるサイズの前記セグメントのセットのうち少なくとも一部のセグメントを生成することにより、前記第1の画像を生成するコンバイナと、
    をさらに備える、請求項1から11のいずれか一項に記載の装置。
  13. 前記セグメンタが、第1のビューソース画像に対する第1のセグメント化された部分画像を、
    前記第1のビューソース画像のピクセルを、ピクセルデータが前記画像データに含められる第1のピクセルのセットと、ピクセルデータが前記画像データに含められない第2のピクセルのセットとに分割すること、及び
    前記第1のビューソース画像を、前記所定の外形のセットから選択された外形を有するセグメントにタイリングすることであって、前記タイリングは、前記所定の外形を前記第2のピクセルのセットに属するピクセルの領域にフィッティングすることによって不使用セグメントが生成されるようにする、タイリングすること、
    により生成する、請求項12に記載の装置。
  14. 画像信号を処理する装置であって、前記装置が、
    画像信号を受け取る受信器と、前記画像信号から合成ビュー画像をレンダリングするレンダラとを備え、
    前記画像信号が、
    異なるサイズのセグメントのセットに分割された第1の画像の画像データであって、前記第1の画像は、前記セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、前記セグメントのサブセットの1つのセグメンントの前記画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、画像データと、
    前記第1の画像の前記画像データを示すメタデータとを備え、
    前記メタデータは、
    各ノードが、前記第1の画像の1つのセグメンントに紐付けられ、
    各ノードが、枝ノード又は葉ノードであり、
    枝ノードは、親ノードを少なくとも1つの子ノードに紐付けている当該親ノードであり、前記親ノードの各子ノードは、前記親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、
    葉ノードは、子ノードを持たず、前記セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、前記第1の画像が画像データを含まないセグメントに紐付けられた未使用の葉ノードであるか、又は前記第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、
    ツリーデータ構造に従って構造化され、
    前記メタデータは、ノードが、枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す、装置。
  15. 画像信号を生成する方法であって、前記方法が、
    異なるサイズのセグメントのセットに分割された第1の画像を提供するステップであって、前記第1の画像は、前記セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、前記セグメントのサブセットの1つのセグメンントの前記画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、ステップと、
    前記第1の画像の前記画像データの内容を示すメタデータを生成するステップと、
    前記第1の画像の前記画像データと前記メタデータとを含む画像信号を生成するステップとを有し、
    前記メタデータは、
    各ノードが、前記第1の画像の1つのセグメンントに紐付けられ、
    各ノードが、枝ノード又は葉ノードであり、
    枝ノードは、親ノードを少なくとも1つの子ノードに紐付けている当該親ノードであり、前記親ノードの各子ノードは、前記親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、
    葉ノードは、子ノードを持たず、前記セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、前記第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は前記第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、
    ツリーデータ構造に従って構造化され、
    前記メタデータは、各ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す、方法。
  16. 画像信号を処理する方法であって、前記方法が、
    画像信号を受け取るステップと、
    前記画像信号から合成ビュー画像をレンダリングするステップとを有し、
    前記画像信号が、
    異なるサイズのセグメントのセットに分割された第1の画像の画像データであって、前記第1の画像は、前記セグメントのセットのうちセグメントのサブセットにのみ画像データを含み、前記セグメントのサブセットの1つのセグメンントの前記画像データは、ある視点からのシーンを表すビューソース画像のセットのうちのビューソース画像の1つのセグメンントからの画像データである、画像データと、
    前記第1の画像の前記画像データを示すメタデータとを備え、
    前記メタデータは、
    各ノードが、前記第1の画像の1つのセグメンントに紐付けられ、
    各ノードが、枝ノード又は葉ノードであり、
    枝ノードは、親ノードを少なくとも1つの子ノードに紐付けている当該親ノードであり、前記親ノードの各子ノードは、前記親ノードのセグメントの下位分割によって生成された下位セグメントに紐付けられており、
    葉ノードは、子ノードを持たず、前記セグメントのセットの1つのセグメンントに紐付けられ、葉ノードは、前記第1の画像が画像データを含まないセグメントに紐付けられた不使用の葉ノードであるか、又は前記第1の画像が画像データを含むセグメントに紐付けられた使用される葉ノードであるかのいずれかである、
    ツリーデータ構造に従って構造化され、
    前記メタデータは、ノードが枝ノードであるか、使用される葉ノードであるか、又は不使用の葉ノードであるかを示す、方法。
  17. プログラムがコンピュータ上で実行されたときに請求項15又は16に記載の方法のすべてのステップを行うコンピュータプログラムコード手段を備えた、コンピュータプログラム。
JP2021551759A 2019-03-01 2020-02-29 画像信号を生成する装置及び方法 Active JP7471314B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19160411.5 2019-03-01
EP19160411.5A EP3703013A1 (en) 2019-03-01 2019-03-01 Apparatus and method of generating an image signal
PCT/EP2020/055377 WO2020178212A1 (en) 2019-03-01 2020-02-29 Apparatus and method of generating an image signal

Publications (3)

Publication Number Publication Date
JP2022522364A JP2022522364A (ja) 2022-04-18
JPWO2020178212A5 JPWO2020178212A5 (ja) 2023-03-07
JP7471314B2 true JP7471314B2 (ja) 2024-04-19

Family

ID=65717721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021551759A Active JP7471314B2 (ja) 2019-03-01 2020-02-29 画像信号を生成する装置及び方法

Country Status (8)

Country Link
US (1) US11823323B2 (ja)
EP (2) EP3703013A1 (ja)
JP (1) JP7471314B2 (ja)
KR (1) KR20210135538A (ja)
CN (1) CN113767423A (ja)
BR (1) BR112021017400A2 (ja)
CA (1) CA3131726A1 (ja)
WO (1) WO2020178212A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230082984A1 (en) * 2021-09-16 2023-03-16 Apple Inc. Canopy coverage determination for improved wireless connectivity

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015536112A (ja) 2012-10-04 2015-12-17 インテル・コーポレーション 3dビデオコーディングのための予測パラメータ継承

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8976168B2 (en) * 2011-11-02 2015-03-10 Microsoft Technology Licensing, Llc Mesh generation from depth images
KR102659114B1 (ko) * 2015-09-23 2024-04-23 코닌클리케 필립스 엔.브이. 삼차원 이미지에 대한 삼각형 메시의 생성
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream
WO2020071703A1 (ko) * 2018-10-01 2020-04-09 엘지전자 주식회사 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및/또는 포인트 클라우드 데이터 수신 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015536112A (ja) 2012-10-04 2015-12-17 インテル・コーポレーション 3dビデオコーディングのための予測パラメータ継承

Also Published As

Publication number Publication date
US20220165020A1 (en) 2022-05-26
KR20210135538A (ko) 2021-11-15
CN113767423A (zh) 2021-12-07
BR112021017400A2 (pt) 2021-11-16
WO2020178212A1 (en) 2020-09-10
EP3931802A1 (en) 2022-01-05
EP3703013A1 (en) 2020-09-02
CA3131726A1 (en) 2020-09-10
US11823323B2 (en) 2023-11-21
JP2022522364A (ja) 2022-04-18

Similar Documents

Publication Publication Date Title
EP3751857A1 (en) A method, an apparatus and a computer program product for volumetric video encoding and decoding
EP2150065B1 (en) Method and system for video rendering, computer program product therefor
Smolic et al. Interactive 3-D video representation and coding technologies
CN113170213B (zh) 图像合成
KR102587230B1 (ko) 이미지 데이터 비트스트림을 생성하기 위한 장치 및 방법
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
JP7471314B2 (ja) 画像信号を生成する装置及び方法
WO2019138163A1 (en) A method and technical equipment for encoding and decoding volumetric video
JP7326457B2 (ja) 画像信号を生成する装置および方法
JP7462668B2 (ja) シーンを表す画像信号
RU2817803C2 (ru) Сигнал изображения, представляющий сцену
RU2778456C2 (ru) Устройство и способ формирования двоичного потока данных изображения
EP4254958A1 (en) Compression of depth maps
JP2022517499A (ja) 画像特性画素構造の生成および処理
Sohn et al. 3-D video processing for 3-D TV

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150