JP7326457B2 - 画像信号を生成する装置および方法 - Google Patents

画像信号を生成する装置および方法 Download PDF

Info

Publication number
JP7326457B2
JP7326457B2 JP2021547206A JP2021547206A JP7326457B2 JP 7326457 B2 JP7326457 B2 JP 7326457B2 JP 2021547206 A JP2021547206 A JP 2021547206A JP 2021547206 A JP2021547206 A JP 2021547206A JP 7326457 B2 JP7326457 B2 JP 7326457B2
Authority
JP
Japan
Prior art keywords
image
images
candidate
pixels
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021547206A
Other languages
English (en)
Other versions
JP2022521701A (ja
Inventor
バート クルーン
ヘースト バルトロメウス ウィルヘルムス ダミアヌス ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022521701A publication Critical patent/JP2022521701A/ja
Application granted granted Critical
Publication of JP7326457B2 publication Critical patent/JP7326457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、画像信号を生成するための装置および方法に関し、特に、排他的ではないが、同じシーンに対して複数の画像を含む画像信号の生成および/または処理に関する。
近年、画像およびビデオアプリケーションの多様性および範囲が大幅に増加しており、ビデオを利用し消費する新しいサービスおよび方法が、継続的に開発され、導入されている。
例えば、人気が高まっている1つのサービスは、観察者が能動的にシステムと対話してレンダリングのパラメータを変更できるような方法で画像シーケンスを提供することである。多くのアプリケーションにおいて非常に魅力的な特徴は、例えば、観察者が、提示されているシーン内で動き回って「見回る」ことを可能にするなど、観察者の有効な視聴位置および視聴方向を変更する能力である。
そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは、例えば、(比較的)自由に仮想環境内で動き回ることができ、自分の位置および自分が見ている場所を動的に変更することができる。典型的にはこのような仮想現実アプリケーションがシーンの3次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは例えば、コンピュータ及びコンソール用の一人称シューティングゲームのカテゴリにおけるようなゲームアプリケーションから周知である。
また、特に仮想現実アプリケーションでは、提示される画像が三次元画像であることが望ましい。実際、観察者の没入感を最適化するために、ユーザは、典型的には提示されたシーンを三次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間の瞬間を選択することを可能にするはずである。
多数の仮想現実アプリケーションは、シーンの所定のモデルの存在に基づいており、典型的には、例えばゲームアプリケーションのような仮想世界の人工モデルに基づいているという点で、本質的に制限されている。
しかしながら、ユーザが現実世界のキャプチャを体験することを可能にする仮想現実体験を提供することができることが望ましい。このようなアプリケーションは、例えば、ユーザが現実世界のシーンの表現において位置及び視線方向を自由に変更することを可能にするアプリケーションを含む。しかしながら、このような自由をサポートするための要件は、特に現実世界のシーンが動的に変化するシーン、特にリアルタイムのシーンでもあるような多くの状況において、満たすことが困難である。例えば、ユーザが例えばスポーツイベントのライブのリアルタイム放送に対応するシーンについて自由に移動し、視線方向を変更することを可能にするのに十分なデータを提供することは、典型的には実用的ではなく、実現可能ではない。したがって、ユーザの移動および/または視線方向の自由が制限されたアプリケーションおよび体験は、ますます関心を集めている。例えば、ユーザが自分の頭部を180°の範囲内で自由に回転させることができるが、比較的少量だけ自分の頭部を動かすだけであるスポーツイベントが放送されることができる。そのような制限された移動は、提供される必要があるデータに対する要件を大幅に低減することができる。
MAUGEY THOMAS et al., "Reference View Selection in DI BR-Based Multiview Coding", IEEE TRANSACTIONS ON IMAGE PROCESSING, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 25, no. 4, 1 April 2016 (2016-04-01), pages 1808-1819, XP011602607は、マルチビューコーディングシステムにおける基準ビューの最適な選択のためのアルゴリズムを公開する。それは、拡張現実、3Dシーンにおけるインタラクティブナビゲーション、マルチビュービデオ、その他の新しいマルチメディアアプリケーションが、画像の多数のセットを必要とし、従来のビデオサービスと比較して、より大きなデータ量と増加したリソースを必要とすることを述べた。マルチビュー・システムにおける画像の数の著しい増加は、リソースが制約された環境において高品質の経験を提供するためのデータ表現及びデータ伝送における新しい困難な問題につながる。データのサイズを縮小するために、最近、異なるマルチビュービデオ圧縮戦略が提案されている。それらのほとんどは、データセットに高い相関があるときに他の画像を推定するために使用される基準ビューまたはキービューの概念を使用する。ビュー間の類似性を測定するメトリックに基づいて、ビュー再構成の歪みと符号化レートコストの両方が最小化されるように、基準ビューの位置決めのための最適化が実行される。
シーンの異なる視点のための画像のローカルレンダリングを可能にするほとんどのアプリケーションにとって重要な問題は、そのようなシーンをどのように表現するか、特に、エンドユーザ装置が実世界のビュー画像、および多くの場合にはリアルタイムシーンをローカルで生成するために十分なデータが提供されるように、現実世界シーンを表すデータをどのように効果的に生成、配信および処理するかである。現実世界のシーンのモデルを生成することは、通常、実現可能または実用的ではなく、特にサービスがリアルタイムイベントなどの動的に変化するシーンをサポートしているときには、実現可能または実用的でない。
多くのシステムでは、シーンがカメラなどの適切なキャプチャ装置によってキャプチャされた画像によって表すことができる。例えば、カメラは、各カメラが所与のキャプチャポーズからシーンをキャプチャする状態で、列をなして所与の構成で配置されてもよい。それぞれの位置からの画像がシーンの異なる部分の表現を提供し得る。例えば、背景オブジェクトはあるキャプチャ位置からは前景オブジェクトによって遮蔽されるが、他のキャプチャ位置からは遮蔽されてされない場合があり、したがって、背景オブジェクトに関連する情報は、或るキャプチャ画像内に存在するが、他のキャプチャ画像内には存在しないことがある。
多くの実用的なシステムでは、キャプチャされた画像は、関連付けられた奥行きマップ内の各ピクセルに対して提供されるz値または視差値などの奥行き情報によって補足され得る。このような画像+奥行き表現は、3D画像と考えることができる。さまざまな視点に対して提供される画像+奥行き情報を使用することは、多くのアプリケーションを有することができ、多くのシーンに対して、ビュー画像のローカルでの生成を可能にするシーンの有利な表現を提供する。画像+奥行き情報は、ユーザの現在のビュー位置および視線方向のためのビュー画像を動的に生成することができるレンダリング装置に送信されることができる。
しかしながら、異なるキャプチャ位置からの複数の画像を含むシーンの画像表現は、多くの実施形態において望ましい性能及び動作を提供することができるが、レンダリング装置への画像表現の通信のために高いデータレートを必要とする傾向もある。実際、ピクセルレート、したがってデータレートが高すぎるため、すべてのキャプチャされたビュー画像を直接配信することは、しばしば実行不可能である。また、全ての画像を直接送信することは、大量の冗長データを送信することを伴うため、無駄である。例えば、前景オブジェクトの前面は、複数のキャプチャ位置から見ることができ、したがって、オブジェクトの視覚情報は、送信される複数のキャプチャ画像に含まれることになる。
しかしながら、要求されるデータレートをどのように低減するかという問題は、対処するのが困難な複雑な問題である。いくつかの冗長データを識別し、省略し、この冗長データなしに画像信号を生成することが提案されている。しかしながら、これはデータレートを低減するかもしれないが、画像品質、データレート、複雑さ、リソース要件等が可能な限り最適化されるようにこれを具体的にどのように達成するかは、困難な課題である。
したがって、改善されたアプローチが有利であろう。特に、改善された操作、増大された柔軟性、改善された仮想現実体験、減少されたデータレート、増大された効率、容易にされた配信、減少された複雑さ、容易にされた実施、増大された画質、及び/又は改良された性能及び/又は操作を可能にする、異なる視野からの画像によってシーンを表す画像信号を生成及び/又は処理するためのアプローチは有利であろう。
したがって、本発明は、好ましくは上記の欠点の1つ以上を単独でまたは任意の組み合わせで軽減、低減または排除しようとするものである。
本発明の第1の態様によれば、画像信号を生成する方法が提供され、当該方法は、シーンの複数の画像を有する候補画像セットを受信するステップであって、前記候補画像セットのうちの少なくとも幾つかの画像は、前記シーンの異なるビューポーズのための画像である、ステップと、前記候補画像セットから少なくとも1つの画像を選択し、前記少なくとも1つの画像を含むように含有画像セットを初期化するステップと 、以下のステップ、すなわち、前記含有画像セットの画像から、前記候補画像セットの画像に対する予測画像を生成するステップ、前記候補画像セットの各画像についての予測品質尺度を決定するステップであって、前記候補画像セットの第1画像についての前記予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、前記予測品質尺度に応じて、前記候補画像セットから選択画像セットを選択するステップ、前記選択画像セットの各画像について、当該画像のピクセルについてのピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ、前記選択画像セットに対応する部分画像セットを生成するステップであって、前記選択画像セットの所与の画像に対する部分画像は、当該所与の画像に対するピクセルの前記サブセットのピクセルのみを有する、ステップ、前記部分画像セットを前記含有画像セットに含めるステップ、および前記選択画像セットを前記候補画像セットから削除するステップ、を反復して実行するステップと、前記含有画像セットに含まれる画像の画像データを有する画像信号を生成するステップと、を有する。
本発明は、シーンの改善された表現を提供することができる。多くの実施形態では、シーンのより効率的な表現を提供することができ、例えば、低減されたデータレートによって所与の品質を達成することができる。
このアプローチは、多くの実施形態において、異なるビュー位置/ポーズに対するビュー画像の柔軟で効率的かつ高性能なローカルでの生成に適したシーンの表現を備えた改良された画像信号を提供することができる。多くの実施形態では、それは改善された知覚される画像品質および/または低減されたデータレートを可能にし得る。
このアプローチは、多くの実施形態及びシナリオにおいて、画像信号の特に効率的な及び/又は複雑性の低い生成を可能にし得る。
画像は、特に、関連する奥行き画像/マップを伴う2D画像またはテクスチャマップなどの、奥行き情報を含む3D画像であってもよい。予測品質に応じて候補画像セットから選択画像セットを選択することは、選択画像セットに含まれるべき画像として、候補画像セットのうち、最低の予測品質尺度を有する画像を選択することを含むことができる。
本発明の任意選択の特徴によれば、前記第1画像についての予測品質を決定することは、前記第1画像および前記第1予測画像の対応するピクセルについてのピクセル値が類似性基準を満たす第1画像の複数のピクセルを決定すること、前記複数のピクセルの特性に応じて前記第1画像についての前記予測品質を決定することを含む。
これは、多くの実施形態において、特に有利なアプローチを提供することができる。
本発明の任意選択の特徴によれば、前記特性はピクセルの数であり、前記予測品質は、前記複数のピクセルに含まれるピクセルの数の単調増加関数である。
本発明の任意選択の特徴によれば、ピクセルのサブセットを決定することは、画像についての複数のピクセルに含まれない第1画像のピクセルから、第1画像についてのピクセルのサブセットを決定することを含む。
本発明の任意選択の特徴によれば、選択画像セットのうちの第1選択画像のピクセルのサブセットを決定するステップは、 前記選択画像セットを除く候補画像セットのうち少なくとも1つの候補画像について、前記少なくとも1つの候補画像のピクセルについて、前記少なくとも1つの候補画像のピクセルと、前記含有画像セットのみに基づくピクセルの予測に対する前記含有画像セットと前記第1選択画像に基づくピクセルの予測のための予測ピクセルとの間の差における変化を示す誤差変化を決定するステップと、前記第1選択画像の誤差変化画像を生成するステップであって、前記誤差変化画像は、前記少なくとも1つの候補画像のビューポーズから前記第1選択画像のビューポーズへのビューポーズシフトにより前記少なくとも1つの候補画像の誤差変化から決定されたピクセル値を有する、ステップと、前記誤差変化画像に応じてピクセルのサブセットを選択するステップと、を有する。
これは、多くの実施形態において特に有利なアプローチを提供することができる。それは、特に、或るピクセルの含有が他の画像の予測をどの程度良好に改善し得るかに基づいて部分的画像のためのピクセルを選択するための効率的なアプローチを提供し得る。
誤差変化画像に応じてピクセルのサブセットを選択することは、例えば、誤差変化値が閾値を超える改善を示すピクセルを選択することによるものであってもよい。
本発明の任意選択の特徴によれば、第1選択画像に対するピクセルのサブセットを決定することは、候補画像セットの複数の候補画像に対する誤差変化を決定すること、および、第1選択画像の同じピクセルに対する異なる候補画像から決定された誤差変化値を結合することによって誤差変化画像を生成することを含む。
これは、特定のピクセルを含めることによって複数の候補画像の予測がどのように改善され得るかを効率的に考慮することによって、改善された性能を提供し得る。
本発明の任意選択の特徴によれば、前記候補画像セットに対する予測画像を生成するステップは、前記候補画像セットの第1候補画像に対して、前記含有画像セットの各画像に対して前記第1候補画像の中間予測画像を提供するステップと、前記中間予測画像を組み合わせて前記第1予測画像を生成するステップと、を含む。
これは、多くの実施形態において、より効率的な予測動作を可能にすることができる。
本発明の任意選択の特徴によれば、前記反復して実行する反復は、中間予測画像を保存するステップであって、中間予測画像を提供することが、前の反復において中間予測画像が生成されて保存された含有画像セットの画像について保存されている中間予測画像を読み出すことを含む、ステップと、前の反復において中間予測画像が保存されていない基準画像セットの任意の画像について中間予測画像を予測するステップとをさらに含む。
これは、多くの実施形態において高度に効率的な動作を提供することができる。このアプローチは、漸進的な予測を可能にし、それによって、必要な予測演算の量を大幅に減少させることができる。
本発明の任意選択の特徴によれば、組み合わせは重み付けされた組み合わせであり、ピクセルに対する重みはピクセルの奥行きに依存する。
本発明の任意選択の特徴によれば、最低予測品質が閾値を超えると、反復が停止される。
他の実施形態では、反復は、例えば、候補画像セットが空であるときに停止されてもよい。
本発明の任意選択の特徴によれば、選択画像のサブセットは、少なくとも1回の反復において複数の選択画像を含む。
本発明の任意選択の特徴によれば、画像はビデオシーケンスのフレームであり、当該方法は、複数のフレームについての含有画像セットの構成を使用することを含む。
これは、多くの実施形態において改善された時間一貫性を提供することができる。
本発明の任意選択の特徴によれば、本方法は、ピクセルのサブセットに対応するマスクを生成するステップと、マスクへの空間フィルタの適用に応じてピクセルのサブセットを修正するステップとをさらに含む。
本発明の別の側面によれば、画像信号を生成する装置が提供され、当該装置は、シーンの複数の画像を含む候補画像セットを受信する受信器であって、前記候補画像セットのうちの少なくとも幾つかの画像は前記シーンの異なるビューポーズのための画像である、受信器と、前記候補画像セットの中から少なくとも1つの画像を選択し、前記少なくとも1つの画像を含むように含有画像セットを初期化する基準選択器と、以下のステップ、すなわち、前記含有画像セットの画像から、前記候補画像セットの画像に対する予測画像を生成するステップ、前記候補画像セットの各画像についての予測品質尺度を決定するステップであって、前記候補画像セットの第1画像についての前記予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、前記予測品質尺度に応じて、前記候補画像セットから選択画像セットを選択するステップ、前記選択画像セットの各画像について、当該画像のピクセルについてのピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ、前記選択画像セットに対応する部分画像セットを生成するステップであって、前記選択画像セットの所与の画像に対する部分画像は、当該所与の画像に対するピクセルの前記サブセットのピクセルのみを有する、ステップ、前記部分画像セットを前記含有画像セットに含めるステップ、および前記選択画像セットを前記候補画像セットから削除するステップ、を反復して実行する反復器と、前記含有画像セットに含まれる画像の画像データを有する画像信号を生成する出力回路と、を有する。
本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。
本発明の実施形態は単なる例として、図面を参照して説明される。
仮想現実体験を提供するための構成の例を示す図。 本発明のいくつかの実施形態による画像信号送信器の要素の一例を示す図。 本発明のいくつかの実施形態による画像信号受信器の要素の一例を示す図。 本発明のある実施形態による画像信号送信器用の反復器の要素の一例を示す図。 本発明のある実施形態による画像信号用の画像データを生成する方法の一例を示す図。
ユーザが仮想世界で動き回ることを可能にする仮想体験はますます人気が高まっており、そのような要求を満たすためにサービスが開発されている。しかしながら、効率的な仮想現実サービスの提供は、特に、体験が完全に仮想的に生成された人工世界ではなく、現実世界環境のキャプチャに基づくものである場合には、非常に困難である。
多くの仮想現実アプリケーションでは、観察者ポーズ入力がシーン内のバーチャル観察者のポーズを反映して決定される。次に、仮想現実装置/システム/アプリケーションは、観察者ポーズに対応する観察者のために、シーンのビューとビューポートに対応する1つ以上の画像を生成する。
典型的には、仮想現実アプリケーションは、左目及び右目のための別々のビュー画像の形で三次元出力を生成する。次いで、これらは、典型的にはVRヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、画像が例えば、自動立体ディスプレイ上で提示されてもよく(この場合、より多数のビュー画像が観察者ポーズのために生成されてもよい)、または実際に、いくつかの実施形態では、単一の2次元画像のみが生成されてもよい(例えば、従来の2次元ディスプレイを使用して)。
観察者ポーズ入力は、異なるアプリケーションで異なる方法で決定される場合がある。多くの実施形態では、ユーザの物理的な動きを直接追跡することができる。例えば、ユーザエリアを測量するカメラがユーザの頭部(または目)を検出し、追跡することができる。多くの実施形態では、ユーザは、外部および/または内部手段によって追跡することができるVRヘッドセットを装着することができる。例えば、ヘッドセットは、ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備えることができる。いくつかの例では、VRヘッドセットは、信号を送信することができ、または外部センサがVRヘッドセットの動きを決定することを可能にする(例えば視覚的な)識別子を備えることができる。
いくつかのシステムでは、観察者ポーズは、マニュアルの手段によって、例えば、ユーザがジョイスティックまたは同様のマニュアル入力を手動で制御することによって、提供されてもよい。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することによってシーン内で仮想観察者を手動で動かし、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想観察者が見ている方向を手動で制御することができる。
いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力される観察者ポーズを生成することができる。例えば、ヘッドセットが頭部の向きを追跡することができ、シーン内の観察者の動き/位置は、ジョイスティックを使用してユーザによって制御されることができる。
画像の生成は、仮想世界/環境/シーンの適切な表現に基づく。いくつかのアプリケーションでは、シーンについて完全な三次元モデルを提供することができ、特定の観察者ポーズからのシーンのビューを、このモデルを評価することによって決定することができる。他のシステムでは、シーンは、異なるキャプチャポーズからキャプチャされたビューに対応する画像データによって表すことができ、具体的には、関連付けられた奥行きを有する複数のソース画像によって表すことができ、各画像は異なる視点からのシーンを表す。そのようなアプローチでは、キャプチャポーズ以外の他のポーズのためのビュー画像は、特にビューシフトアルゴリズムを使用するなど、三次元画像処理によって生成され得る。シーンが別個のビューポイント/位置/ポーズについて格納されたビューデータによって記述/参照されるシステムでは、これらはアンカービューポイント/位置/ポーズとも呼ばれ得る。典型的には、異なるポイント/位置/ポーズから画像をキャプチャすることによって実世界環境がキャプチャされた場合、これらのキャプチャポイント/位置/ポーズはアンカーポイント/位置/ポーズでもある。
典型的なVRアプリケーションは、それに応じて、観察者ポーズの変化を反映するように動的に更新される画像、および、仮想シーン/環境/世界を表現するデータに基づいて生成される画像と共に、現在の観察者ポーズのためのビューポートに対応する画像を(少なくとも)提供する。
この分野では、配置およびポーズという用語は、位置および/または方向/向きに関する一般的な用語として使用される。例えばオブジェクト、カメラ、頭部またはビューの位置および方向/向きの組み合わせを、ポーズまたは配置と呼ぶ場合がある。したがって、配置またはポーズ表示は、通常、対応するオブジェクトの位置/場所または方向/向きの個々の特性を記述する各値/成分を有する6つの値/成分/自由度を含み得る。もちろん、多くの状況において、例えば、1つ以上の成分が固定または無関係であると考えられる場合(例えば、全てのオブジェクトが同じ高さにあり、水平方向を有すると考えられる場合、4つの成分がオブジェクトのポーズの完全な表現を提供することができる)、配置またはポーズはより少ない成分で考慮または表現されてもよい。以下では、ポーズという用語は、1乃至6つの値(可能な最大自由度に対応する)によって表すことができる位置および/または向きを指すために使用される。
多くのVRアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの3つの自由度を有するポーズに基づいており、その結果、合計6つの自由度が得られる。したがって、ポーズは6つの自由度を表す6つの値のセットまたはベクトルによって表すことができ、したがって、ポーズベクトルは、三次元位置および/または三次元方向表示を与えることができる。しかしながら、他の実施形態では、ポーズがより少ない値によって表されてもよいことが理解されるのであろう。
ポーズは、方位および位置のうちの少なくとも1つとすることができる。ポーズ値は、方位値および位置値のうちの少なくとも1つを示すことができる。
観察者に最大自由度を提供することに基づくシステムまたはエンティティは、通常、6自由度(6DoF)を有すると呼ばれる。多くのシステムおよびエンティティは、方向または位置のみを提供し、これらは、典型的には3自由度(3DoF)を有するものとして知られている。
システムによっては、VRアプリケーションは、例えば、遠隔装置/サーバから(ローカルの観察者の特定の観察者ポーズとは無関係な)シーンデータを受信し、次いでローカルの観察者の特定の現在のビューのためのビュー画像をローカルで生成するスタンドアロン装置によって、ローカルで観察者に提供されてもよい。したがって、多くのアプリケーションにおいて、特に放送サービスの場合、ソースは、観察者ポーズに依存しないシーンの(ビデオを含む)画像表現の形でシーンデータを送信してもよい。例えば、複数のキャプチャされたビュー画像及び関連する奥行きマップを含む画像表現が受信されることができる。次に、個々のクライアントは、現在の観察者ポーズに対応するビュー画像をローカルで合成することができる。
特に興味を引いている特定のアプリケーションは、限定された量の動きがサポートされ、頭部の小さな動きおよび回転のみを行う実質的に静的な観察者に対応する小さな動きおよび回転に追従するように提示されるビューが更新される場合である。例えば、座っている観察者は頭を回し、それをわずかに動かすことができ、提示されたビュー/画像は、これらのポーズ変化に追従するように適合される。そのようなアプローチは、非常に没入型の、例えばビデオ体験を提供することができる。たとえば、スポーツイベントを見ている観察者は、自分がアリーナの特定のスポットにいると感じることができる。
このような制限された自由度のアプリケーションは、多くの異なる位置からのシーンの正確な表現を必要とせずに、改善された経験を提供し、それによってキャプチャ要件を大幅に低減するという利点を有する。同様に、レンダラに提供される必要があるデータの量を大幅に低減することができる。実際、多くのシナリオでは、単一の視点のための画像及び典型的には奥行きデータのみが、これから所望のビューを生成することができるローカルレンダラに提供される必要がある。頭部の回転をサポートするために、視点からのビューの広い領域が提供されたデータによって表され、好ましくは、視点を中心とするビュー球の表面全体が提供された画像および奥行きデータによってカバーされることが、典型的には望ましい。
このアプローチは例えば、ブロードキャストまたはクライアント・サーバ・アプリケーションのような、データが、帯域制限された通信チャネルを介してソースから宛先へ通信される必要があるアプリケーションに特に適している。
図1は、遠隔VRクライアント装置101が例えばインターネットのようなネットワーク105を介してVRサーバ103と連携するVRシステムのこのような例を示す。サーバ103は、潜在的に多数のクライアント装置101を同時にサポートするように構成されてもよい。
VRサーバ103は、例えば、複数の視点のための画像データと奥行きを送信し、クライアント装置がこの情報を処理して現在のポーズに対応するビュー画像をローイカルで合成するように構成されることによって、放送体験をサポートすることができる。
効率的な配信を提供するために、データレートは所与の画質に対して可能な限り低く保たれることが望ましく、したがって、特に、生成される冗長データの量を低減しようとすることを含むことができる。
図2は、異なるビューポーズ(アンカーポーズ)からのシーンの複数の画像の表現を含む画像信号を生成するための装置の一例を示す。この装置は、画像信号送信機200とも呼ばれる。画像信号送信機200は、例えば、図1のVRサーバ103に含まれてもよい。
図3は、シーンの複数の画像の表現を含む受信画像信号に基づいてビュー画像をレンダリングするための装置の一例を示す。この装置は、具体的には、図2の装置によって生成されたデータ信号を受信し、特定のビューポーズのための画像をレンダリングするために、これの処理に進むことができる。図3の装置は、画像信号受信器300とも呼ばれる。画像信号受信器300は、例えば、図1のクライアント装置101に含まれることができる。
画像信号送信機200は、シーンの複数のソース画像を受信するように構成された画像ソース受信器201を備える。ソース画像は、異なるキャプチャポーズからのシーンのビューを表すことができる。例えば、ソース画像は、等距離のキャプチャポーズの列からの画像を含むことができる。
多くの実施形態では、ソース画像は、関連する奥行き情報を有する2D画像を含む3D画像であってもよい。2D画像は、具体的には、対応するキャプチャポーズからのシーンのビューポートのためのビュー画像であってもよく、2D画像は、2D画像のピクセルのそれぞれについての奥行き値を含む奥行き画像またはマップを伴ってもよい。2D画像は、テクスチャマップであってもよい。
奥行き値は、例えば、z座標によって示される視差値または距離値であってもよい。いくつかの実施形態では、ソース画像は、関連する3Dメッシュを有するテクスチャマップの形の3D画像であってもよい。実施形態では、そのようなテクスチャマップ及びメッシュ表現は、画像信号送信機200による更なる処理の前に、画像ソース受信器によって画像+奥行き表現に変換されることができる。
したがって、画像ソース受信器201は、異なるポーズからのシーンを特徴付けて表現する複数のソース画像を受信する。そのようなソース画像のセットは、当業者に知られているように、ビューシフトのようなアルゴリズムを使用して、他のポーズのためにビュー画像が生成されることを可能にする。したがって、画像信号送信機200は、ソース画像の画像データを含む画像信号を生成し、このデータをローカルでのレンダリングのためにリモート装置に送信するように構成される。しかしながら、全てのソース画像を直接送信することは、実現不可能なほど高いデータレートを必要とし、大量の冗長情報を含むことになる。
画像信号送信器200は、冗長情報が除去された部分画像を生成することによって、データレートを低減するように構成される。続いて、部分画像を組み合わせて符号化し、画像信号を生成する。
画像ソース受信器201は、ソース画像から画像のセットを生成するように構成されたピクセル選択器203に結合され、ここで、当該画像のセットのうちの少なくとも1つが部分画像である。ピクセル選択器203は、画像信号に含めるべきソース画像内のピクセルのサブセットを選択することによって、ソース画像のうちの1つまたは一般的にはほとんど(またはさらにはすべて)の部分バージョンを生成することによって、部分画像のセットを生成することができる。部分画像はプルーニングされた画像とも呼ばれ、画像の部分画像を生成するための画像のピクセルのサブセットの選択は、画像のプルーニングと呼ばれる。
したがって、ピクセル選択器203の出力は、ソース画像に対応するプルーニングされた画像または部分画像のセットであってもよいが、画像のうちの1つまたは典型的には大部分は、対応するソース画像の部分バージョンである。ピクセル選択器203は、生成された部分画像のセットの全体的な冗長性が減少されるか又は好ましくは最小化されるように、部分画像に含めるためのピクセルのこのサブセットを選択しようとする。生成された部分画像は、プルーニングされていない1つまたは複数の元のソース画像を含むこともできる。
ピクセル選択器203は、部分画像のセットを供給される画像生成器205に結合される。画像生成器205は、部分画像を合成画像へと結合するように構成され、各画像は部分画像のうちの1つまたは複数を表すことができる。具体的には、合成画像は、複数の部分画像から生じるピクセルを含み得る。例えば、ある部分画像からのピクセルが、別の部分画像の未使用領域に挿入されてもよい。画像生成器205は、部分画像を、より密にパッキングされた合成画像にパッキングするものとして見なされることができる。
画像発生器205は、より少ないが、あまりまばらではない画像を生成する。合成画像のセットは、画像の符号化を実行することに進むエンコーダ207に供給される。画像生成器205が送信する画像の数を減らしているので、より効率的な符号化が典型的に達成される。さらに、合成画像への部分画像のパッキングは、典型的には、結果として得られる画像が符号化に非常に適しているように実行されることができる。
このアプローチの特別な利点は、従来の画像およびビデオ符号化アプローチがエンコーダ207によって実行されることを可能にする態様で、部分画像によるシーンの表現が達成されることである。例えば、多くの実施形態では、H.265およびMPEGーH Part2としても知られている高効率ビデオ符号化(HEVC)、またはJVET(Joint Video Exploration Team)によって開発されたVVC(Versatile Video Coding)などの符号化フォーマットを使用することができる。
従って、図2の画像信号送信機200は、さまざまなビューポーズからシーンを表す効率的な画像信号を生成するための効率的なアプローチを提供することができる。
画像信号は、画像信号を受信しこれをデコードしてエンコーダ207に供給された合成画像セットを生成するように構成されたデコーダ301を有する画像信号受信器300に送信される。したがって、デコーダ301は、例えば、HEVCまたはVVC復号を実行することなどによって、エンコーダ207によって使用された規格に従って復号を実行するように構成され得る。
当然のことながら、画像信号送信機200及び画像信号受信器300は、画像信号を符号化、変調、送信、受信等するための機能を含む、画像信号を通信するために必要な機能を更に備える。そのような機能は、個々の実施形態の選好および要件に依存し、そのような技術は当業者に知られており、したがって、明確さおよび簡潔さのために、本明細書ではさらに論じられないことが理解されよう。
デコーダ301は、受信された合成画像から部分画像を取り出すように構成された画像検索器303に結合される。それに応じて、画像検索器303は、合成画像のピクセルを個々の部分画像に分割するために、画像生成器205の逆の機能を実行することができる。したがって、合成画像は、典型的には、複数の異なる視点またはポーズに対応するピクセルを含むのに対し、部分画像は、各画像が1つのソース画像のみから生じ、したがって、1つのビューポーズのみに対応するピクセルを含むように生成される。
多くの実施形態では、画像信号は、1つまたは複数の完全なソース画像も含み、したがって、画像検索器303の出力は、ソース画像に対応する、したがってさまざまなビューポーズからのシーンを表す画像のセットを提供し、画像の1つまたは複数は部分画像のみである。しかしながら、所与の部分画像からの欠落部分は、典型的には、画像検索器303からの画像の出力セットの他の画像から利用可能な冗長情報に対応する。
画像は第1レンダラ305に供給され、このレンダラは受信された部分画像のセット(および任意の全体画像)に基づいて、新しいビュー画像を生成するように構成される。これらの画像は、元のソース画像に対応する。所与の観察者ポーズに対応するビュー画像をレンダリングするための任意の適切なアルゴリズムが使用され得ることが理解されるのであろう。例えば、第1レンダラ305は、受信された完全なソース画像に基づいてビュー画像を最初に生成するように構成されてもよい。これは、典型的には、変化した視点に起因する遮蔽の結果としての複数の穴をもたらす場合がある。次いで、このような穴は、部分画像からのデータを使用して埋められることができる。当業者は、他の視点からの画像に基づいて特定の目的のためにビューを合成するための多くの異なるアルゴリズムおよびアプローチを知っており、任意の適切なアルゴリズムが第1レンダラ305によって実施されることが理解されるであろう。
いくつかの実施形態では、画像信号受信器300は、受信された合成画像からビュー画像を直接合成するように構成された第2レンダラ307を含むことができる。多くの実施形態では、画像信号受信器300は、第1レンダラ305および画像検索器303、または第2レンダラ307のいずれかを備える。第2レンダラ307は、所与の観察者ポーズのためのビュー画像をレンダリングするための任意の適切なアプローチを使用することができることが理解されよう。
第1および第2レンダラは、同じ合成方法およびパラメータを使用することができ、これは、予測の値を増加させることができるので有利であり得る。
図2および図3のアプローチのような部分画像に基づくアプローチの特に重要な問題は、部分画像がどのように生成され、どのピクセルを部分画像に含めるかを選択する方法である。図4は、多くの実施形態およびシナリオにおいて、ソース画像のそっとから部分画像のセットの特に有利で効率的な生成を提供し得る、ピクセル選択器203の考え得る実施例の要素の例を示す。図5は、図4のピクセル選択器203の動作に特に重点を置いた、画像信号送信器200の動作方法の一例を示す。しかし、図4及び図5のアプローチは、図2及び図3の画像信号送信機200及び画像信号受信器300以外の他の実施形態にも適用可能であることが理解されよう。
ピクセル選択器203のアプローチは、具体的には、入力ソース画像の反復処理に基づいている。まだ処理されていない(そして全てのソース画像を含む初期化された)画像を含む候補画像のセットが生成される。次に、プロセスは、候補画像のうちの1つまたは複数を選択し、プルーニングされた後に、それらを含有画像セットに追加するように反復的に進行する。したがって、反復的に候補画像が選択され、プルーニングされ、次いで二次識別器に移動される。このアプローチは、ローカルでビュー画像を生成する際の使用のためのシーンのより正確で完全な表現を提供することができるプルーニングされたまたは部分的な画像の選択されたセットを提供するために、画像をどのようにプルーニングするか、特にそれを実行する順序を選択する効率的な態様を提供する。
前述のように、画像ソース受信器201は、シーンの複数の画像を含む画像のセットを受信し、これらのうちの少なくともいくつか、典型的にはすべてがシーンの異なるビューポーズ用である画像は、具体的には、2D画像/テクスチャマップ及び関連する奥行きマップを含む3D画像であってもよい。
ピクセル選択器203は、画像ソース受信器201からソース画像のセットを受信するステップ501を実行する入力受信器401を有する。したがって、入力受信器401は、典型的には、さまざまなビューポーズに対するテクスチャマップおよび奥行きマップであるソース画像のセットを受信する。入力受信器401は、候補画像セットを開始する(このセットは、簡潔にするために、単に候補セットとも呼ばれる)。
入力受信器401は基準選択器403に結合され、基準選択器403は、1つまたは複数の候補画像を選択し、それ(それら)を含有画像セットに含めることによって、含有画像セットが初期化されるステップ503を実行する。含有画像セットは、画像信号送信機200によって生成される画像信号に画像データが含まれる候補画像の画像(典型的には部分画像)を含む。含有画像セットは、典型的には1つの候補画像を含まれる画像として選択することによって、ステップ503で初期化される。
選択された画像は、典型的には、完全な画像として含まれ、従って、選択された画像の全てのピクセルが含まれる。選択された画像は、通常、他の含まれる画像(これらは、通常、部分画像である)よりも多くのシーンの情報を提供することができ、リモートレンダラによる画像合成のための初期基準画像であると見なされることができ、さらに、他の含有画像の選択のための、および対応する候補画像のどのピクセルを部分画像のために選択すべきかを決定するための基準であると見なされることができる。
異なるアプローチおよび基準を使用して、含有画像セットのための初期基準画像を選択することができることが理解されるであろう。いくつかの実施形態では、基準選択器403は、最も中心の画像に対応する候補画像を単に選択することができる。他の実施形態では、基準画像は、関連付けられた奥行きマップの分析に基づいて選択されてもよい。例えば、できるだけ多くの背景を含む画像を選択するために、所与の閾値を超える奥行きを有するピクセルが最も多い候補画像を選択することができる。
いくつかの実施形態では、基準画像は、例えば、それぞれの候補画像のビューポートのビューポート類似性に基づくことができる。例えば、ビューポート類似性は、1つのビュー(すなわち、1つのソース画像/キャプチャポーズ)から1セットのピクセルをサンプリングし、それらを別のビューに投影し、次いでこの合成画像と原画像との間の類似性を決定することによって、計算されることができる。メトリックは、反対方向にプロセスを繰り返すことによって対称にすることができる。
類似性尺度の一例として、合成されたピクセル値と元のピクセル値との間の差を決定することができ、これを画像/ビューポートにわたって平均化することができる。別の例として、誤差が所与の閾値を下回るピクセルの数をカウントし、そのようなピクセルの数を類似性尺度として使用することができる。
所与の候補画像についての処理は他のすべての候補画像について実行されてもよく、類似性尺度は候補画像についての1つの単一の類似性尺度に組み合わされてもよい。この処理は、候補画像のすべて(またはいくつか)についてさらに繰り返されてもよく、最終的に、候補画像は、全体的に最も高い類似性尺度を有するものとして選択されてもよい。
したがって、基準画像は、他の候補画像の最良の平均予測/ビュー合成を可能にする画像として選択されてもよい。
選択器403は、候補画像の部分バージョンを含むように含有画像セットを反復的に拡張するように構成される反復器405に結合される。各反復において、候補画像のサブセット、典型的には1つが、含有画像セットに含めるために選択される。各々の選択された候補画像について、部分画像が生成され、含有画像セットに追加され、選択された候補画像は候補画像セットから除去される。
いくつかの実施形態では、反復器405は、すべての候補画像が選択されるまで、プロセスの反復を継続する。他の実施形態では、反復プロセスは、潜在的に、全ての候補画像が選択される前に停止してもよい。
反復プロセスは、候補画像が選択される順序を、画像の特性に応じて変化させることができる。部分画像は以前に選択された画像(及び含有画像セットに既に含まれる部分画像)に依存するので、異なる順序は異なる部分画像をもたらすことができる。反復プロセスは、データレートを低減させる可能性がある部分画像が生成される結果となり、特に、エンコーダ207による効率的な画像符号化に適している可能性がある順序で、候補画像を選択しようとする。多くの実施形態では、反復プロセスは、部分画像内に含まれるピクセルの数を減らそうとすることができる。
反復はステップ505で開始し、反復器405は、含有画像セットの画像から候補画像セットの画像のための予測画像を生成する。含有画像セットからの第1含有画像からの候補画像セットのうちの第1候補画像のための予測画像は、第1含有画像からのビュー合成によって生成される第1候補画像のビューポーズのための画像であってもよい。第1含有画像および第1候補画像は異なるビューポーズに対するソース画像に対応するので、ビュー合成はビューポーズシフト、典型的にはビュー位置シフトを含む。ビュー合成は、ビューシフト画像合成であってもよい。したがって、第1含有画像からの第1候補画像の予測画像は、候補画像のビューポーズからのビューポートが第1含有画像からどの程度良好に予測/推定され得るかを反映する画像であり得る。
第2画像からの第1画像の予測は、具体的には、第2画像(およびこれのビューポーズ)に基づく第1画像のビューポーズでの画像のビュー合成であってもよい。したがって、第2画像から第1画像を予測するための予測動作は、これに関連付けられたビューポーズから第1画像のビューポーズへの第2画像のビューポーズシフトであってもよい。
ビュー合成および予測のための異なる方法およびアルゴリズムが、異なる実施形態において使用され得ることが理解されるであろう。多くの実施形態では、入力として、合成画像が生成されるべき合成ビューポーズと、それぞれが異なるビューポーズに関連付けられる複数の入力画像とを取得するビュー合成/予測アルゴリズムを使用することができる。ビュー合成アルゴリズムは、次いで、典型的にはテクスチャマップ及び奥行きの両方を含むことができる入力画像に基づいて、このビューポーズのための合成画像を生成することができる。
多数のこのようなアルゴリズムが知られており、本発明から逸脱することなく、任意の適切なアルゴリズムを使用することができる。そのようなアプローチの例として、中間合成/予測画像が最初に各入力画像に対して生成されてもよい。これは、例えば、画像の奥行きマップに基づいて入力画像のためのメッシュを最初に生成することによって、達成されることができる。次に、メッシュは、幾何学的計算に基づいて、入力画像のビューポーズから合成ビューポーズにワープ/シフトされることができる。次に、結果として得られるメッシュの頂点を中間合成/予測画像上に投影することができ、テクスチャマップをこの画像にオーバーレイすることができる。このようなプロセスは、例えば、標準的なグラフィックパイプラインから知られている頂点処理およびフラグメントシェーダを使用して実施することができる。
このようにして、入力画像毎に、合成ビューポーズのための中間合成/予測画像(以下、単に中間予測画像という)を生成することができる。
次いで、中間予測画像は、例えば、重み付けされた組み合わせ/合計によって、または選択的な組み合わせによって、一緒に組み合わされることができる。例えば、いくつかの実施態様において、合成ビューポーズに対する合成/予測画像の各ピクセルは、最も前方にある中間予測画像からピクセルを選択することによって生成されてもよく、または所与の中間予測画像に対する重みがそのピクセルについて決定された奥行きに依存する、全ての中間予測画像に対する対応するピクセル値の重み付け合計によって、ピクセルが生成されてもよい。この組み合わせ演算は、混合演算としても知られている。
ステップ505において、反復器405は、それに応じて、含有画像セット内の画像に基づいて、すなわち、すでに含まれている画像の各々について、第1候補画像についての予測画像を生成することに進むことができる。したがって、予測は(典型的には最初の反復とは別として)いくつかの画像が部分画像である複数の画像に基づくことができる。
ビュー合成器は、例えば、これを第1候補画像のビューポーズにビューシフトすることによって、各含有画像について中間画像を生成することに進むことができる。そして、これらの中間予測画像を混合することにより、第1候補画像の予測画像を生成することができる。いくつかの画像はピクセルのサブセットのみについての画像データを含む部分画像であるので、少なくともいくつかのピクセルについての混合/組み合わせは、中間予測画像のサブセットからのピクセルのみを含む(すなわち、中間予測画像は部分画像でもある)。
したがって、第1候補画像について、第1予測画像は、含有画像に基づいて、すなわち、含有画像セットに既に含まれる画像に基づいて、生成される。したがって、この予測画像は、画像信号の一部として既に選択されている画像データから第1候補画像をどの程度良好に予測することができるかを反映することができる。
このプロセスは全ての候補画像について繰り返されることができ、したがって、各候補画像について予測画像が生成されることができ、ステップ505は、すでに選択された含有画像に基づいて、各候補画像について予測画像を生成する。
次に、反復器405は、ステップ507に進み、候補画像の各々について予測品質が決定され、ここで、所与の候補画像についての予測品質尺度は、候補画像と候補画像についての予測画像との間の差を示す尺度である。
従って、予測品質尺度は、その値が増加すると(既に)含まれる画像のセットからの候補画像の予測の品質が改善されたことを示すことができる尺度である。予測品質尺度は、予測画像と候補画像とを直接比較することによって決定されてもよい。例えば、予測品質尺度は、候補画像と予測画像との対応する(同じ位置の)ピクセル値の間の平均のまたは累積の誤差として決定されてもよい。別の例として、予測品質は、候補画像と予測画像のピクセル値間の差が閾値を超えるピクセルの数として決定されてもよい。他の実施形態では、他の予測品質尺度が使用されてもよいことが理解されるのであろう。
従って、ステップ507の終了時に、含有画像セットの画像からの候補画像の予測品質を反映する予測品質尺度が、候補画像ごとに決定される。
ステップ507の後にステップ509が続き、ここで、反復器405は、予測品質に応じて、候補画像セットから1セットの選択画像を選択する。反復器405は、特に、最低の予測品質尺度を有する候補画像として所定数の候補画像を選択することができ、すなわち、既に含まれている画像によって最も不十分に予測されている所定数の候補画像が選択される。
次いで、反復器405は、候補画像セットから移動される、選択された画像に対するプルーニングされた画像または部分画像を決定することに進む。多くの実施形態では、各反復において単一の候補画像のみが選択され、明確かつ簡潔にするために、以下の説明はこのアプローチに焦点を当てるが、選択される単一の候補画像への言及は、選択される複数の画像を含むサブセットに拡張されることが理解されるであろう。
ステップ509の後、選択された画像に対応する部分画像を反復器405が生成するステップ511が続き、ここで、部分画像は選択された画像のピクセルのサブセットのみを含む。
具体的には、反復器405は、選択された候補画像のピクセルのサブセットを選択することに進むことができる。異なるアプローチおよびアルゴリズムを使用して、サブセット内にどのピクセルを含めるか、および、どのピクセルを除外すべきかを選択してもよいことが理解されよう。ピクセルのサブセットは、ピクセル予測品質に応じて選択され、具体的には、各ピクセルについてのピクセル予測品質の尺度または指標が決定され得る。ピクセル予測品質尺度は、典型的には他の含まれる画像から、どれだけ良くピクセルが予測され得るかを示すことができ、および/または、他の画像の予測の改善が、ピクセルをサブセットに含めることによって達成され得るかを示すことができる。反復器405は、ピクセル予測品質尺度が基準を満たすか否かに基づいて、サブセットに含まれるピクセルまたはサブセットから除外されるピクセルを選択することができる。
多くの実施形態では、ピクセルの選択は、予測画像と選択画像とのピクセル値間の差に基づいてもよい。例えば、予測値と候補画像における実際の値との間の差が閾値を超える場合にはサブセットにピクセルを含めることができ、超えない場合にはピクセルを含めないことができる。
以下でさらに説明するように、いくつかの実施形態では、部分画像にピクセルを含めることによって他の画像の予測をどのように改善することができるかを評価することを含む、はるかに複雑なアプローチを使用することができる。
いくつかの実施形態では、予測画像の中の第1のピクセルに対する予測値と候補画像の中のピクセルの値との間の差の尺度が閾値を超えるという決定に応じて、候補画像の第1のピクセルがサブセットに対して選択されてもよい。
いくつかの実施形態では、予測にピクセルを含めることによって他の候補画像の(1つまたは複数の)ピクセルの予測の改善を示す予測改善尺度が、各ピクセルについて決定され得る。次いで、予測改善尺度に応じて、例えば、予測改善尺度が閾値を上回るピクセルを選択することによって、サブセットが選択されることができる。
したがって、ピクセルのサブセットのみの画像データを含む部分画像が候補画像のために生成される。部分画像は、候補画像内のピクセルの相補的なサブセットを破棄することによって生成されてもよい。ピクセルを破棄することは、部分画像にピクセル値の情報を含まないこと、そして、例えば、対応するピクセル値を固定値(例えば、ゼロ)または候補画像の中のピクセル値から独立した値に設定することによることができる。ピクセルを廃棄するアプローチは、画像生成器205によって生成される合成画像内にそれらを含めないことである。部分画像の生成は、特に、候補画像に重ね合わせることができるプルーニングマスクの生成に対応すると考えられ得、部分画像は、マスクによってマスクされないピクセルのみを含む。
ステップ511の後にステップ513が続き、部分画像(または複数の候補画像が選択された場合には複数の部分画像)が含有画像セットに追加される。ステップ513の後にステップ515が続き、選択された画像が候補画像セットから除去される。
したがって、反復は、特に、部分画像を生成するためにプルーニングされた後に含有画像セットに移動される1つまたは複数の画像を見つけるために、含有画像セットを評価することができる。
ステップ515の後にステップ517が続き、ここで、さらなる反復を実行すべきかどうかが評価される。実行すべき場合、プロセスはステップ505に戻り、新しい反復を開始する。実行すべきでない場合、ステップ517の後にステップ519が続き、そこで、含有画像セットを有するように画像信号が画像生成器205およびエンコーダ207によって生成される。
前述のように、いくつかの実施形態では、候補画像セットが空になるまで、すなわち、すべての候補画像が選択されるまで、反復が実行されることができる。
他の実施形態では、このアプローチは、全ての残りの候補画像の予測誤差が所与の閾値を下回るまで進行することができる。この場合、すべてのビューを十分に正確に予測することができ、さらなる画像データは必要ないと考えることができる。そのような実施形態では、予測品質尺度が決定されるステップ505の後に、更なる反復を実行するか否かの決定が行われてもよい。反復は、特に、最低予測品質尺度が所与の閾値を上回る場合に停止されてもよい。
候補画像および部分画像に含まれるピクセルのサブセットの選択は、他の、具体的にはすでに含まれている画像との関係を考慮することによって、および選択の予測影響の考慮に応じて、実行される。
このアプローチは、符号化および伝送に非常に適した包含画像セットをもたらす傾向があることが見出されている。このアプローチは、所与の所望の画像品質のためのデータレートを大幅に低減することが見出されている。同時に、反復アプローチは、低い計算要件で、特に効率的で低複雑性の実装を可能にする。
いくつかの実施形態では、ステップ507における予測品質尺度の決定は、予測誤差が所与の閾値を下回るピクセルの数を選択してカウントすることによって行われることができる。
具体的には、反復器405は、第1候補画像および当該候補画像に対する予測画像の対応するピクセルに対するピクセル値が類似性基準を満たす、第1候補画像の複数のピクセルを決定してもよい。このようにして、十分によく予測されるピクセルが決定され得、第1候補画像に対する予測品質尺度は、複数のピクセルの特性に応じて、例えば、当該複数のピクセル中のピクセルの数の単調増加関数として、決定され得る。したがって、予測品質尺度は、十分によく予測されたピクセルの数が増加すると増加し得る。
したがって、このアプローチは、類似性基準を満たすピクセルのサブセットを選択することに基づく。いくつかの実施形態では、ステップ513で決定されるピクセルのサブセットは、ステップ507で決定されるサブセットに基づいて決定されてもよい。
具体的には、部分画像に含まれるピクセルのサブセットは、類似性要件を満たす複数のピクセルに含まれない候補画像のピクセルから生成され得る。したがって、候補画像を選択するために使用される予測品質尺度を決定するために、およびこの画像のサブセット/プルーンマスクを生成するために、同じ考察、基準およびアプローチを使用することができる。これは、多くの実施の形態において同じ演算が両方の目的のために使用されるので、複雑さおよび計算資源の使用を低減することができるだけでなく、多くの実施形態において、選択の結果として画像信号に含まれる画像データの量に選択が直接関係するので、改善された選択を提供することもできる。
例えば、画像信号送信器200は、候補画像の各々についてプルーンマスクを生成するように進み、それによって候補画像を、類似性基準が満たされているピクセルの第1のサブセットと、類似性基準が満たされていない第2のサブセットとに分割することができる。第1のサブセット内のピクセルの数が決定され、予測品質尺度として使用され得る。具体的には、候補画像は、第1のサブセット内の最低ピクセル数および第2のサブセット内の最高ピクセル数に対応する、最低予測品質尺度を有する。次に、第2のサブセットのピクセルのみを含み、第1のサブセットのピクセルを、例えばそのピクセル値を固定値(例えば、0)に設定することにより廃棄することによって、部分画像が生成される。
いくつかの実施形態では、画像信号送信器200は、ステップ511において、個々のピクセルを含むことから生じるのであろう残りの候補画像に対する予測の改良/誤差の変化(すなわち、予測されたピクセル値と正しい値との間の誤差の変化)を考慮することによって、部分画像のためのピクセルを選択してもよい。具体的には、画像信号送信器200は、選択された画像内の所与の第1ピクセルについて、予測処理に第1ピクセルを含めることによって、他の候補画像のピクセルについての予測品質改善を決定してもよい。そして、この予測品質改善が閾値を上回る場合、第1ピクセルは生成される部分画像に含まれる。
予測品質改善は、具体的には以下の処理によって決定されることができる。
含有画像セットおよび選択された画像から、残りの各候補画像について第1の予測が生成され、すなわち、ステップ509で選択された画像をさらに考慮することによって、候補画像について予測が生成される。したがって、ステップ505の予測とは対照的に、ステップ513は、ステップ509で選択された画像にも基づく、各候補画像についての新しい予測を生成する。例えば、第1の残りの候補画像については、反復器405は、前の反復からの含有画像セット内のすべての画像と、この反復から選択された画像とに基づいて、予測画像を生成する。
この第1の残りの候補画像のピクセルについて、反復器405は次に、含有画像セットのみに基づいて決定された予測値に対する、ピクセルの値と、含有画像セットおよび選択された画像に基づいて決定された予測値との間の差の変化を示す誤差変化を決定することに進む。
従って、第1の残りの候補画像の各ピクセルについて、選択された画像を含む予測について第1の予測誤差を決定することができ、選択された画像を含まない予測、すなわちステップ505で以前に行われた予測に対応する予測について、第2の予測誤差を決定することができる。これらの間の差は、選択された画像を予測に含めることによって達成される予測改善を反映している。Yuv色表現の場合、(選択された画像を含めることによる)誤差変化は、例えば、各ピクセルについて、以下のように決定されてもよい:

i. SquaredErrorcond =(Yref - Ycond)2 +(Uref - Ucond)2 +(Vref - Vcond)2
ii. ΔSqError = SquaredErrorbefore - SquaredErrorafter
ここで、インデックスcondは予測画像を指し、インデックスrefは元の候補画像を指し、インデックスbeforeおよびインデックスafterはそれぞれ、選択画像を考慮しない予測および予測画像を考慮した予測の予測誤差を指す。
従って、誤差変化は、第1の残りの候補画像の各ピクセルについて決定される。これは、第1の残りの候補画像のビューポーズから選択された画像のビューポーズにビューシフトされる、候補誤差変化画像を形成することができる。その結果、選択された誤差変化画像は、第1の残りの候補画像のビューポーズから選択された画像のビューポーズへのビューポーズシフトによって決定され、ピクセル値は、第1の残りの候補画像の予測に選択された画像のそのピクセルを含めることによって予測された候補画像に生じる予測誤差の変化を反映する。従って、選択された画像の部分画像に個々のピクセルを含めることによる、その第1の残りの候補画像の予測に対する利益の直接的な尺度が決定される。
従って、反復器405は、誤差が所与の閾値よりも大きく低減されることを誤差変化画像が示す全てのピクセルを選択するように進むことができる。
しかしながら、多くの実施形態では、部分画像のためのピクセルの選択は、単に1つの残りの候補画像を考慮することに基づいているだけでなく、これらの複数、典型的には全てを考慮することに基づいている。多くの実施形態では、選択された画像のビューポーズにシフトされた誤差変化画像は、残りの候補画像の全てについて生成されてもよい。
いくつかの実施形態では、これらは、例えば、生成された誤差変化画像のいずれかが、所与の閾値を超える改善が達成され得ることを示す場合、部分画像にピクセルを含めることによって、別々に考慮されてもよい。しかしながら、多くの実施形態では、選択された画像の同じピクセルについて異なる候補画像について決定された誤差変化値を組み合わせることによって、組み合わされた誤差変化画像を生成することができる。単純な例として、異なる候補画像の誤差変化値は、選択された画像のビューポーズにシフトされた後に、単に加算されるか、または平均化されてもよい。次に、反復器405は、組み合わされた誤差変化値が部分画像内の所与の閾値を超える誤差減少を示す、選択された画像のピクセルを選択するように進むことができ、すなわち、残りの候補画像に最大の全体的な予測改善を提供するピクセルが選択される。
多くの実施形態では、組み合わされた誤差変化画像は、選択された画像自体に対して生成された誤差変化画像を含むことができる。実際、この段階では、選択された画像は予測されるだけであり(完全には含まれていない)、したがって、選択された画像は、合成誤差変化画像において計算するときに有利に含めることもでき、それによって、選択された画像自体に対して達成される予測改善を示す。例えば、ピクセルは選択された画像自体には必要であるが、残りの候補画像のいずれにも必要ではないため、部分画像に含まれることがある。
前述のように、(特にステップ505で)実行される予測/ビュー合成は、多くの実施形態では、含有画像セット内の画像の各々のための第1候補画像について個々の中間予測画像を生成することによって実行されてもよく、すなわち、各候補画像および含まれる画像のペアについて1つの中間画像が生成されてもよい。そして、これらの中間予測画像は、第1候補画像のための単一の予測画像に結合/混合される。
多くの実施形態では、これらの動作のすべてを実行するように構成され、単に、入力として、含有画像セット(および関連するビューポーズ)と、合成/予測画像が生成されるビューポーズとを提供されることができる合成器を使用することができる。これは、これらの入力から、所与の候補画像に対する合成/予測画像を生成することができる。合成器は、中間結果または演算へのアクセスを許可しないソフトウェアサブルーチン、関数、またはオブジェクトなどの統合された関数およびアルゴリズムとして実装されてもよい。したがって、中間画像の生成および混合は、他の関数、プロセス、または演算にアクセスできない場合がある。したがって、そのような合成器を使用する実施形態では、例えばステップ505における予測は、各反復において、全ての含まれる画像を使用して全ての候補画像について完全な合成が実行されることを必要とし得る。
しかし、いくつかの実施形態では、中間予測画像および混合へのアクセスを可能にする合成器を使用することができる。これは、例えば、合成関数が図5の方法を実施する目的のために特別に開発された場合である。
そのような実施形態では、反復器405は、1回の反復で生成される中間画像をさらに格納し、後続の反復において格納された中間画像を取り出すように構成されてもよい。
したがって、そのような実施形態では、中間予測画像は、1つのそのような画像が利用可能である場合、前の反復で生成され格納されたものを取り出すことによって混合のために提供され、そのような画像が前の反復から格納されていない場合にのみビューシフトすることによって新しい中間予測画像を生成することができる。したがって、中間予測画像が以前に生成されている場合にはこれが再使用され、その候補画像および含まれる画像のペアに対して新しいビューシフト動作は必要とされない。
図5の方法では、各反復で徐々に成長/拡大される1組の含まれる画像に基づいて、候補画像について新しい画像が予測される。したがって、各反復において、所与の残りの候補画像に対する新しい予測の生成は、前の反復と同じ含まれる画像に、前の反復によって含まれた任意の画像を加えたものに基づいて実行される。したがって、前の反復で選択された画像を除くすべての画像について、中間予測画像がすでに生成され、格納されている。したがって、新しい中間予測画像は、前の反復に含まれていた画像についてのみ生成され、多くの実施形態では、残りの候補画像ごとに1つの新しい中間予測画像のみが生成される必要がある(例えば、古い中間予測画像もはや必要ではないので、古い中間予測画像を置き換える)。
したがって、この方法は、漸進的な予測アプローチに非常に適しており、したがって、必要な処理を非常に大幅に低減した非常に効率的な実装を提供するために使用することができる。
中間予測画像のピクセルを混合するための異なるアプローチが異なる実施形態において使用されてもよく、特に、異なる関数およびパラメータが、重みを生成するために使用されてもよいことが理解されるだろう。
多くの実施形態では、混合は、所与のピクセルに対する重みがピクセルに関連する奥行きに依存する重み付けされた組み合わせであってもよい。例えば、混合は、所与のピクセル位置についての中間予測画像内の全てのピクセルに対する奥行きが比較され、最も前方の奥行き値を有する中間予測画像のピクセルが選択される選択混合であってもよい。多くの実施形態では、重みに基づく異なるピクセルのより緩やかな重み付けを使用することができる。例えば、奥行きと重みとの間の指数関係がしばしば使用され得る。
他の実施形態では、代替的にまたは追加的に、他のパラメータを考慮することができる。例えば、ビューシフトを実行するために必要なストレッチング(基礎となる基本要素の幾何学的歪み)の量を考慮することができ、必要な基本要素のストレッチングおよび幾何学的歪みが大きいほど、重みを低減することができる。
多くの実施形態では、各反復において含有画像セットに含めるために単一の画像のみが選択される。しかし、いくつかの実施形態では、選択された画像のサブセットは、有利には、各反復において複数の画像を含むことができ、したがって、複数の画像は、各反復において含有画像セットに移動されることができる。
これは、いくつかのシナリオでは、データレートをわずかに増加させる可能性があるが、いくつかの実施形態では、計算要件を、具体的には方法全体が実行されるのに必要な予測の数を、大幅に減少させることができる。これは、特に、例えば、中間予測画像または混合演算へのアクセスがないために、漸進的な予測を使用することができない実施形態において、計算資源使用を大幅に低減することができる。
多くの実施形態において、部分画像のためのピクセルの選択は、例えば、ピクセル予測特性に基づいて決定される初期サブセットのいくつかの処理を含み得る。このような処理は、具体的には、ピクセルの空間的な特性または関係を考慮に入れることができる。
具体的な例として、反復器405は、ピクセルのサブセットに対応するマスクを生成することができ、例えば、各値について、これが部分画像に含まれるべきか否かを示す2値画像を生成することができる。別の例として、ピクセル予測品質値を反映する画像が生成されてもよい(例えば、組み合わせ誤差変化画像)。このような画像は、部分画像にその値を含める可能性または利益を反映するようなソフトマスクであってもよく、従って、閾値と共に、部分画像に含まれるピクセルを表す。
元々生成されているマスクを直接使用するのではなく、反復器405は、最初にマスクを処理するように構成されてもよい。具体的には、空間フィルタ、典型的には空間ローパスフィルタをマスクに適用することができる。したがって、マスクにおける変化は、部分画像のために選択されたピクセルのサブセットの修正をもたらすことができる。
このようなフィルタリングは、部分画像における非常に薄い構造を回避するために非常に有用であり得る。適用される空間フィルタの例として、小さなカーネルを持つボックスブラーがある。
いくつかの実施形態では、処理される画像は、ビデオシーケンスのフレームであってもよい。この場合、1フレームに対して決定された含有画像セットの順序が複数のフレームに適用されてもよい。例えば、イントラ符号化されたフレームについて、記載されたアプローチは、含有画像のシーケンシャルなセットを生成するために使用されてもよい。次いで、画像の同じ配置/順序/シーケンスが、次のイントラ符号化フレームまで、すべてのインター符号化フレームに対して使用されてもよい。したがって、いくつかの実施形態では、この方法がイントラフレームについてのみ実行されてもよく、この動作で決定された配置はすべての後続のイントラフレームについて再使用されてもよい。
プルーニングマスクは、例えば、より低いフレームレートでプルーニングマスクを生成することによって、または低い画像動きの兆候がある場合にプルーニングマスクを再使用することによって、いくつかのフレームに対して再使用されてもよい。あるいは、ぷるーにぐマスクは、イントラ符号化フレームについて決定された構成を使用して、すべてのインター符号化フレームについて生成されてもよい。
シーン変更時に構成を更新することが特に好ましい場合もあるが、そのようなイベントは、通常、余分なイントラフレームを引き起こし、新たな構成が決定される原因となるだろう。
そのようなアプローチは、フレームにわたる改善された一貫性を提供することができる。全体的なデータレートまたは画質劣化は、本方法が各フレームに適用された場合よりもわずかに高くなり得るが、典型的には、これは、時間的な変動は視聴者に非常に見える傾向があるため、より一貫した視覚的結果を達成するための望ましいトレードオフである。
明確にするための上記の説明は、異なる機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニットまたはプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的構造または編成を示すのではなく、説明された機能を提供するための適切な手段への言及としてのみ見なされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の要素およびコンポーネントは、任意の適切な方法で物理的、機能的および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路およびプロセッサの間で物理的および機能的に分散されてもよい。
本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、或る特徴が特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する(comprising)」という用語は、他の要素又はステップの存在を排除するものではない。
さらに、個別に列挙されているが、複数の手段、素子、回路または方法ステップが、例えば単一の回路、ユニットまたはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれている場合があるが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではない及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリにも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、当該特徴が動作しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、当該ステップがこの順序で実行されなければならないことを意味するものではない。むしろ、ステップは任意の適切な順序で実行されることができる。さらに、単数への言及は複数を除外しない。従って、「a」、「an」、「第1」、「第2」等への言及は複数を排除するものではない。請求項中の参照符号は、単に明確な例として提供されているにすぎず、請求項の範囲を何らかの態様で限定するものと解釈してはならない。
本発明は、一般に、画像信号を生成する方法として要約することができ、当該方法は:
シーンの複数の画像を含む候補画像セットを受信するステップ(501)であって、前記候補画像セットの少なくともいくつかの画像は、前記シーンの異なるビューポーズのためのものである、ステップと、
候補画像セットの少なくとも1つの画像を選択し、当該少なくとも1つの画像を含むように含有画像セットを初期化するステップ(503)と、
以下のステップ、すなわち、
含有画像セットの画像から候補画像セットの画像のための予測画像を生成するステップ(505)、
前記候補画像セットの各画像に対する予測品質尺度を決定するステップ(507)であって、前記候補画像セットの第1画像に対する予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、
予測品質に応じて候補画像セットから選択画像セットを選択するステップ(509)、
前記選択画像セットの各画像について、当該画像のピクセルに対するピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ(511)、
選択画像セットに対応する部分画像セットを生成するステップ(513)であって、選択画像セットの所与の画像に対する部分画像は、当該所与の画像のピクセルのサブセットのピクセルのみを有する、ステップ、
部分画像セットを含有画像セットに含めるステップ(515)、および
候補画像セットから選択画像セットを除去するステップ(515)、
を反復して実行するステップと、
含有画像セットの画像の画像データを含む画像信号を生成するステップ(519)と、を有する。
この方法は、請求項2~13のようにさらに定義することができる。
本発明は、一般に、コンピュータ上で実行されるときに画像信号を生成する上記に列挙された要約された方法のいずれかのすべてのステップを前記コンピュータに実行させるように適合されたコンピュータプログラムとしてさらに要約することができる。
本発明は、一般に、画像信号を生成するための装置としてさらに要約することができ、当該装置は:
シーンの複数の画像を含む候補画像セットを受信するための受信器(401)であって、前記候補画像セットの少なくともいくつかの画像は、前記シーンの異なるビューポーズのためのものである、受信器と、
候補画像セットの少なくとも1つの画像を選択し、当該少なくとも1つの画像を含むように含有画像セットを初期化する基準選択器(403)と、
以下のステップ、すなわち、
含有画像セットの画像から候補画像セットの画像のための予測画像を生成するステップ(505)、
前記候補画像セットの各画像に対する予測品質尺度を決定するステップ(507)であって、前記候補画像セットの第1画像に対する予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、
予測品質に応じて候補画像セットから選択画像セットを選択するステップ(509)、
前記選択画像セットの各画像について、当該画像のピクセルに対するピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ(511)、
選択画像セットに対応する部分画像セットを生成するステップ(513)であって、選択画像セットの所与の画像に対する部分画像は、当該所与の画像のピクセルのサブセットのピクセルのみを有する、ステップ、
部分画像セットを含有画像セットに含めるステップ(515)、および
候補画像セットから選択画像セットを除去するステップ(515)、
を反復して実行するための反復器(405)と、
前記含有画像セットの画像の画像データを有する画像信号を生成する(519)ための出力回路(205、207)と、を有する。
本発明は、請求項1~15に定義されるように具体的に要約することができる。

Claims (15)

  1. 画像信号を生成する方法であって、
    シーンの複数の画像を含む候補画像セットを受信するステップであって、前記候補画像セットの少なくともいくつかの画像は、前記シーンの異なるビューポーズのためのものである、ステップと、
    前記候補画像セットの少なくとも1つの画像を選択し、当該少なくとも1つの画像を含むように含有画像セットを初期化するステップと、
    以下のステップ、すなわち、
    前記含有画像セットの画像から前記候補画像セットの画像のための予測画像を生成するステップ、
    前記候補画像セットの各画像に対する予測品質尺度を決定するステップであって、前記候補画像セットの第1画像に対する前記予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、
    前記予測品質尺度に応じて前記候補画像セットから選択画像セットを選択するステップであって、選択される画像は、前記選択画像セットに既に含まれる画像に関して最低の予測品質尺度を持つ、ステップ、
    前記選択画像セットの各画像について、当該画像のピクセルに対するピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ、
    選択画像セットに対応する部分画像セットを生成するステップであって、前記選択画像セットの所与の画像に対する部分画像は、当該所与の画像のピクセルの前記サブセットのピクセルのみを有する、ステップ、
    前記部分画像セットを前記含有画像セットに含めるステップ、および
    前記候補画像セットから前記選択画像セットを除去するステップ、
    を反復して実行するステップと、
    前記含有画像セットの画像の画像データを有する画像信号を生成するステップと、を有する方法。
  2. 前記第1画像に対する前記予測品質尺度を決定する前記ステップが、
    前記第1画像と前記第1予測画像との対応するピクセルのピクセル値が類似性基準を満たす前記第1画像の複数のピクセルを決定し、
    当該複数のピクセルの特性に応じて前記第1画像に対する前記予測品質尺度を決定する、請求項1に記載の方法。
  3. 前記特性がピクセルの数であり、前記予測品質尺度が、前記複数のピクセルに含まれるピクセルの数の単調増加関数である、請求項2に記載の方法。
  4. ピクセルのサブセットを決定する前記ステップが、前記画像の前記複数のピクセルに含まれない前記第1画像のピクセルからの前記第1画像のためのピクセルのサブセットを決定する、請求項3に記載の方法。
  5. 前記選択画像セットの第1選択画像について、ピクセルのサブセットを決定する前記ステップが、
    前記選択画像セットを除く前記候補画像セットの少なくとも1つの候補画像について、
    前記少なくとも1つの候補画像のピクセルについて、前記含有画像セットのみに基づくピクセルの予測に対する、前記含有画像セットおよび第1選択画像に基づく当該ピクセルの予測の予測ピクセルと前記少なくとも1つの候補画像のピクセルとの間の差における変化を示す誤差変化を決定し、
    前記第1選択画像に対する誤差変化画像を生成し、前記誤差変化画像は前記少なくとも1つの候補画像のビューポーズから前記第1選択画像のビューポーズへのビューポーズシフトによる前記少なくとも1つの候補画像の誤差変化から決定されるピクセル値を有し、
    前記誤差変化画像に応じてピクセルの前記サブセットを選択する、
    請求項1から請求項4のいずれか一項に記載の方法。
  6. 前記第1選択画像のピクセルの前記サブセットの決定が、前記候補画像セットの複数の候補画像の誤差変化を決定し、前記第1選択画像の同じピクセルに対する異なる候補画像から決定される誤差変化値を組み合わせることにより前記誤差変化画像を決定する、請求項5に記載の方法。
  7. 前記候補画像セットのための予測画像を生成するステップが、前記候補画像セットの第1候補画像に対して、
    前記含有画像セットの各々の画像のための前記第1候補画像の中間予測画像を提供し、
    前記中間予測画像の組み合わせにより前記第1予測画像を生成する、
    請求項1から請求項6のいずれか一項に記載の方法。
  8. 前記反復して実行するステップがさらに中間予測画像を格納するステップを有し、
    中間予測画像の提供が、前回の反復において中間予測画像が生成され格納された前記含有画像セットの画像のための、格納された中間予測画像を読み出し、前回の反復において中間予測画像が格納されなかった基準画像セットのいずれかの画像のための中間予測画像を予測する、
    請求項7に記載の方法。
  9. 前記組み合わせが重み付け組み合わせであり、或るピクセルに対する重みが、当該ピクセルの奥行きに依存する、請求項7または請求項8に記載の方法。
  10. 前記反復が、最小の予測品質が閾値を超えた場合に停止される、請求項1から請求項9のいずれか一項に記載の方法。
  11. 選択画像の前記サブセットが、少なくとも1回の反復において複数の選択画像を含む、請求項1から請求項10のいずれか一項に記載の方法。
  12. 前記画像がビデオシーケンスのフレームであり、前記方法が、複数のフレームに対する前記含有画像セットの構成を使用する、請求項1から請求項11のいずれか一項に記載の方法。
  13. ピクセルの前記サブセットに対応するマスクを生成するステップと、
    前記マスクへの空間フィルタの適用に応じてピクセルのサブセットを修正するステップと、
    をさらに有する、請求項1から請求項12のいずれか一項に記載の方法。
  14. 画像信号を生成する装置であって、
    シーンの複数の画像を含む候補画像セットを受信する受信器であって、前記候補画像セットの少なくともいくつかの画像は、前記シーンの異なるビューポーズのためのものである、受信器と、
    前記候補画像セットの少なくとも1つの画像を選択し、当該少なくとも1つの画像を含むように含有画像セットを初期化する基準選択器と、
    以下のステップ、すなわち、
    前記含有画像セットの画像から前記候補画像セットの画像のための予測画像を生成するステップ、
    前記候補画像セットの各画像に対する予測品質尺度を決定するステップであって、前記候補画像セットの第1画像に対する前記予測品質尺度は、前記第1画像と、前記第1画像に対する第1予測画像との間の差を示す、ステップ、
    前記予測品質尺度に応じて前記候補画像セットから選択画像セットを選択するステップであって、選択される画像は、前記選択画像セットに既に含まれる画像に関して最低の予測品質尺度を持つ、ステップ、
    前記選択画像セットの各画像について、当該画像のピクセルに対するピクセル予測品質に応じて、ピクセルのサブセットを決定するステップ、
    選択画像セットに対応する部分画像セットを生成するステップであって、前記選択画像セットの所与の画像に対する部分画像は、当該所与の画像のピクセルの前記サブセットのピクセルのみを有する、ステップ、
    前記部分画像セットを前記含有画像セットに含めるステップ、および
    前記候補画像セットから前記選択画像セットを除去するステップ、
    を反復して実行する反復器と、
    前記含有画像セットの画像の画像データを有する画像信号を生成する出力回路と、を有する装置
  15. コンピュータにより実行され、当該コンピュータに請求項1から請求項13のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
JP2021547206A 2019-03-01 2020-02-12 画像信号を生成する装置および方法 Active JP7326457B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19160414.9 2019-03-01
EP19160414.9A EP3703378A1 (en) 2019-03-01 2019-03-01 Apparatus and method of generating an image signal
PCT/EP2020/053509 WO2020177990A1 (en) 2019-03-01 2020-02-12 Apparatus and method of generating an image signal

Publications (2)

Publication Number Publication Date
JP2022521701A JP2022521701A (ja) 2022-04-12
JP7326457B2 true JP7326457B2 (ja) 2023-08-15

Family

ID=65686712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021547206A Active JP7326457B2 (ja) 2019-03-01 2020-02-12 画像信号を生成する装置および方法

Country Status (10)

Country Link
US (1) US11856223B2 (ja)
EP (2) EP3703378A1 (ja)
JP (1) JP7326457B2 (ja)
KR (1) KR20210132712A (ja)
CN (1) CN113519165A (ja)
BR (1) BR112021016995A2 (ja)
ES (1) ES2928951T3 (ja)
PL (1) PL3932081T3 (ja)
TW (1) TW202042539A (ja)
WO (1) WO2020177990A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938602B (zh) * 2021-09-08 2022-08-02 荣耀终端有限公司 图像处理方法、电子设备、芯片及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014082540A (ja) 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造
WO2014168082A1 (ja) 2013-04-11 2014-10-16 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP2015525997A (ja) 2012-07-02 2015-09-07 聯發科技股▲ふん▼有限公司Mediatek Inc. 3dビデオ符号化におけるビュー間候補導出の方法と装置
JP2016529785A (ja) 2013-07-19 2016-09-23 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 深度ベース・ブロック・パーティショニングを使用して、テクスチャブロックを符号化および復号するための方法ならびに装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4703350A (en) * 1985-06-03 1987-10-27 Picturetel Corporation Method and apparatus for efficiently communicating image sequences
US6807231B1 (en) * 1997-09-12 2004-10-19 8×8, Inc. Multi-hypothesis motion-compensated video image predictor
US20130222377A1 (en) * 2010-11-04 2013-08-29 Koninklijke Philips Electronics N.V. Generation of depth indication maps
KR20170018838A (ko) * 2014-06-16 2017-02-20 퀄컴 인코포레이티드 3d―hevc 에서의 간략화된 병합 후보의 시프팅 및 병합 리스트 유도
WO2018058090A1 (en) * 2016-09-26 2018-03-29 University Of Florida Research Foundation Incorporated Method for no-reference image quality assessment
EP3441788A1 (en) * 2017-08-08 2019-02-13 Koninklijke Philips N.V. Apparatus and method for generating a representation of a scene
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015525997A (ja) 2012-07-02 2015-09-07 聯發科技股▲ふん▼有限公司Mediatek Inc. 3dビデオ符号化におけるビュー間候補導出の方法と装置
JP2014082540A (ja) 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造
WO2014168082A1 (ja) 2013-04-11 2014-10-16 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP2016529785A (ja) 2013-07-19 2016-09-23 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 深度ベース・ブロック・パーティショニングを使用して、テクスチャブロックを符号化および復号するための方法ならびに装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Thomas Maugey et al.,Reference View Selection in DIBR-Based Multiview Coding [online],IEEE TRANSACTIONS ON IMAGE PROCESSING, DOI: 10.1109/TIP.2016.2530303,VOL. 25, NO. 4,2016年02月15日,第1808頁-第1819頁,インターネット <URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7407409>

Also Published As

Publication number Publication date
BR112021016995A2 (pt) 2021-11-30
KR20210132712A (ko) 2021-11-04
US11856223B2 (en) 2023-12-26
TW202042539A (zh) 2020-11-16
CN113519165A (zh) 2021-10-19
EP3703378A1 (en) 2020-09-02
US20220167013A1 (en) 2022-05-26
EP3932081B1 (en) 2022-08-31
PL3932081T3 (pl) 2023-01-16
ES2928951T3 (es) 2022-11-23
JP2022521701A (ja) 2022-04-12
EP3932081A1 (en) 2022-01-05
WO2020177990A1 (en) 2020-09-10

Similar Documents

Publication Publication Date Title
CN110999285B (zh) 基于纹理图与网格的3d图像信息的处理
KR102641527B1 (ko) 이미지 합성
JP2010045776A (ja) 映像レンダリングの方法およびシステム、そのためのコンピュータプログラム製品
CN111602403B (zh) 用于生成图像数据比特流的装置和方法
JP7480163B2 (ja) 画像の奥行きマップの処理
US11582384B2 (en) Methods and apparatus for encoding, communicating and/or using images
JP7326457B2 (ja) 画像信号を生成する装置および方法
CN114897681A (zh) 基于实时虚拟视角插值的多用户自由视角视频方法及系统
RU2817803C2 (ru) Сигнал изображения, представляющий сцену
JP7493496B2 (ja) 画像合成
JP7471314B2 (ja) 画像信号を生成する装置及び方法
JP2022525526A (ja) シーンを表す画像信号

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230802

R150 Certificate of patent or registration of utility model

Ref document number: 7326457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150