JP7320146B2 - ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート - Google Patents

ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート Download PDF

Info

Publication number
JP7320146B2
JP7320146B2 JP2022577293A JP2022577293A JP7320146B2 JP 7320146 B2 JP7320146 B2 JP 7320146B2 JP 2022577293 A JP2022577293 A JP 2022577293A JP 2022577293 A JP2022577293 A JP 2022577293A JP 7320146 B2 JP7320146 B2 JP 7320146B2
Authority
JP
Japan
Prior art keywords
image
disocclusion
atlas
fragments
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022577293A
Other languages
English (en)
Other versions
JP2023529748A (ja
Inventor
ジョン ワード,グレゴリー
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023529748A publication Critical patent/JP2023529748A/ja
Priority to JP2023119205A priority Critical patent/JP2023139163A/ja
Application granted granted Critical
Publication of JP7320146B2 publication Critical patent/JP7320146B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/388Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Description

[関連出願の相互参照]
本出願は、いずれも2020年6月16日に出願された米国仮出願第63/039,595号および欧州特許出願第20180179.2号の優先権を主張し、これらの各々は、その全体が参照により組み込まれる。
[技術分野]
本発明は、一般に、画像コーディングおよびレンダリングに関し、詳細には、マルチビュービデオ動作をサポートするためにディスオクルージョンアトラス(disocclusion atlas)を使用することに関する。
ビュー合成は、3次元(3D)TV、360度ビデオ、ボリュメトリックビデオ、仮想現実(VR)、拡張現実(AR)などのアプリケーションにおいて使用される。仮想ビューは、関連する深度情報を用いて既存のビューから合成される。既存のビューは、描写された3Dワールドにワープまたはマッピングされ、次いで、ターゲットビュー位置に逆投影され得る。
結果として、既存のビューにおいて前景オブジェクトによってオクルード(occlude)される背景領域は、ターゲットビュー位置からターゲットビューでは(既存のビューからの利用可能な画像データなしに)ディスオクルード(disocclude)され得、それによって、ターゲットビューにおいてギャップまたは穴が生じる。加えて、深度画像(複数可)における不連続性もまた、合成ビューにおいてギャップまたは穴を生じさせ得る。ビデオ信号に符号化または送信されるべきビューの総数が、実際のビデオディスプレイアプリケーションにおいて低減または最小化されるにつれて、低減または最小化された数のビューから生成される合成ビュー内の穴の領域は、比較的大きくなり、増加するので、容易に知覚可能な視覚的アーティファクトが発生する。
このセクションで説明される手法は、追求され得る手法であるが、必ずしも以前に考案または追求された手法であるとは限らない。したがって、別段の指示がない限り、このセクションで説明されるいずれの手法も、単にこのセクションに含まれるという理由で従来技術とみなされると仮定されるべきではない。同様に、1つまたは複数の手法に関して特定された問題は、別段の指示がない限り、このセクションに基づいて任意の従来技術において認識されていると仮定されるべきではない。
本発明は、添付の図面の図において、限定としてではなく、例として示され、同様の参照番号は同様の要素を指す。
例示的なボリュメトリックビデオストリーミングを示す図である。 例示的なボリュメトリックビデオストリーミングを示す図である。 例示的なテクスチャおよび深度画像を示す。 例示的なテクスチャおよび深度画像を示す。 基準ビュー(reference view)ではオクルードされ、隣接するビューでは少なくとも部分的にディスオクルードされるようになる空間領域(spatial region)を識別するための例示的な画像マスクを示す。 例示的なディスオクルージョンアトラスを示す。 連続するディスオクルージョンアトラスの例示的なシーケンスを示す。 共通のグループレベルのレイアウトマスク(layout mask)を用いて生成された連続するディスオクルージョンアトラスの例示的なグループを示す。 例示的なプロセスフローを示す。 例示的なプロセスフローを示す。 例示的なプロセスフローを示す。 本明細書で説明されるコンピュータまたはコンピューティングデバイスが実装され得る例示的なハードウェアプラットフォームを示す。
マルチビュービデオ動作をサポートするためにディスオクルージョンアトラスを使用することに関する例示的な実施形態が本明細書で説明される。以下の説明では、説明の目的で、本発明の完全な理解を与えるために多数の具体的な詳細が記載される。しかしながら、本発明がこれらの具体的な詳細なしに実施され得ることは明らかであろう。他の事例では、本発明を不必要に隠蔽する、不明瞭にする、または難解にすることを回避するために、周知の構造およびデバイスは網羅的に詳細には説明されない。
例示的な実施形態は、以下の概要にしたがって本明細書で説明される:
1.概要
2.ボリュメトリックビデオ
3.例示的なビデオストリーミングサーバおよびクライアント
4.ディスオクルージョンデータ内の画像フラグメント
5.ディスオクルージョンデータのための画像マスク
6.ディスオクルージョンアトラスの生成
7.時間的に安定したグループレベルのレイアウトマスク
8.例示的なプロセスフロー
9.実装機構-ハードウェアの概要
10.同等物、拡張物、代替物、およびその他
1.概要
この概要は、本発明の例示的な実施形態のいくつかの態様の基本的な説明を提示する。この概要は、例示的な実施形態の態様の広範なまたは網羅的な要約ではないことに留意されたい。さらに、この概要は、例示的な実施形態の特に重要な態様または要素を識別するものとして理解されることも、特に例示的な実施形態の範囲または概して本発明を定めるものとして理解されることも意図されていないことに留意されたい。この概要は、例示的な実施形態に関連するいくつかの概念を簡略化された形式で提示しているにすぎず、以下に続く例示的な実施形態のより詳細な説明への単なる概念的な前置きとして理解されるべきである。本明細書では別個の実施形態について述べるが、本明細書で述べる実施形態および/または部分的な実施形態の任意の組合せを組み合わせて、さらなる実施形態が形成され得ることに留意されたい。
ボリュメトリックビデオを送信するための一般的な手法は、広視野(多くの場合360度)のキャプチャまたはレンダリングされた画像に、有限セットのビュー位置(「記録されたビュー(recorded view)」、「基準ビュー(reference view)」、または「表現ビュー(represented view)」とも呼ばれる)からの深度を付加すること(accompany)ことである。各ピクセルにおける深度値により、これらのピクセルは、典型的には、記録されたビュー位置(または基準ビュー)の間にある推定ビューに再投影(およびzバッファリング)されることができる。記録されたビュー位置における記録された画像から合成された変形画像(warped image)などの単一の再投影されたビュー画像は、記録された画像で表される元の視点からは見えないディスオクルードされた領域に対応する穴およびギャップを有することになる。より多くの周囲のソースの視点またはより多くの記録されたビュー位置を追加することによって、再投影されたビュー画像内に残る穴は少なくなり得るが、大量の冗長データ(例えば、追加された複数の記録されたビューの各々内で可視のピクセルなど)を犠牲にすることになる。
比較として、本明細書で説明される技法は、アトラス表現で比較的少量のディスオクルージョンデータ(disocclusion data)を送信するために使用され得る。ディスオクルージョンデータは、単一の(最も近い)基準ビュー位置からは見えないフラグメントについてのテクスチャおよび深度情報のみを含み、それにより、追加の記録されたビューにおける冗長性を回避し、ビデオストリーミングおよび復号の際のデータ量を大幅に低減する。これらの技法を使用して、(例えば、矩形、正方形などの)結合画像(combined image)内に画像フラグメント(image fragment)をレイアウトすることで、結合画像内にできるだけ空きスペースを残さないようにすることができる。
さらに、異なる連続するアトラスレイアウトにおけるフレーム間の時間的変動から生じるビデオ圧縮効率の問題が、本明細書で説明される技法によって効果的に対処され、動き予測(例えば、インター予測など)が向上し得る。例えば、アトラス「Iフレーム」(動き予測なしで符号化または復号することができるフレーム)間の連続するディスオクルージョンアトラスのレイアウトを時間的に安定させて、比較的高い効率の圧縮率を達成することができる。
いくつかの動作シナリオでは、マルチビュービデオの1つまたは複数の表現ビューに対応する(またはそれからの画像データを含む)1つまたは複数のビデオストリームは、1つまたは複数の表現ビューについてのディスオクルージョンデータと一緒にまたは別個に受信者ビデオデコーダに送信され得る。ディスオクルージョンデータは、ビデオストリーム内の表現ビューにおいて隠されているかまたはオクルードされる可能性のある画像詳細のためのテクスチャおよび/または深度画像データを含む。ディスオクルージョンデータによって描写されるオクルードされた画像詳細の一部は、ビデオストリーム内の表現ビューのうちの1つまたは複数に隣接するビューア(viewer)の現在のビュー(「仮想ビュー」または「ターゲットビュー」とも呼ばれる)では可視になり得る。
上述したように、ディスオクルージョンデータは、ディスオクルージョンアトラスにパッケージ化または符号化することができる。ディスオクルージョンアトラスは、1つまたは複数の深度における可視の画像詳細および他の深度におけるオクルードされた画像詳細などのマルチ深度情報(場合によっては複数の表現ビューについての)を、表現ビューのビデオストリームを含むボリュメトリックビデオ信号(volumetric video signal)に符号化することをサポートするために、ビデオエンコーダによって使用され得る。ディスオクルージョンアトラスは、表現ビューのうちの1つまたは複数に隣接するビューアの現在のビューに固有の画像詳細などのビュー依存効果をレンダリングするために、ビデオ信号の受信者ビデオデコーダによって使用され得る。
ボリュメトリックビデオ信号は、受信者ビデオデコーダが、ビデオストリーム内の表現ビューの画像データを使用してビューアの現在のビューに固有の画像をレンダリングするのを支援するために、画像メタデータの一部としてディスオクルージョンアトラスを含むことができる。ビデオストリームおよび画像メタデータは、限定はしないが、MPEG(Moving Picture Experts Group)ビデオ標準、H.264/AVC(H.264/Advanced Video Coding)、HEVC(High-Efficiency Video Coding)、MPEG-I、ドルビーのViXファイルフォーマットなどを含むが、それに限定されない、ビデオコーディング標準またはプロプライエタリ規格に基づくコーディングシンタックスで符号化され得る。追加的に、オプションで、または代替的に、ディスオクルージョンアトラスは、表現ビューの画像データを含むビデオストリームに付随するサブストリームに符号化され、サブストリームから復号され得る。
受信者ビデオデコーダは、ボリュメトリックビデオ信号によって搬送される画像メタデータ(またはサブストリーム)内のディスオクルージョンアトラスにパックされたディスオクルージョンデータと、ボリュメトリックビデオ信号に符号化されたビデオストリーム内の表現ビューの画像データとを復号することができる。ディスオクルージョンデータおよび画像データは、表現ビューのうちの1つまたは複数に隣接するビューアの現在のビューの画像を生成または構築する際に穴またはギャップを充填するためにビデオデコーダによって使用され得る。ビューアの現在のビューは、ビデオストリーム内のいずれの表現ビューとも一致しないことがあり、ビューアの現在のビュー(またはビュー位置)の画像は、画像ワーピング動作を通して、表現ビューの受信された画像から取得され得る。例示的な画像ワーピングおよび/または合成動作は、2017年6月12日に出願された米国仮特許出願第62/518,187号に記載されており、その内容全体は、本明細書に完全に記載されているかのように、参照によって本明細書に組み込まれる。
変形画像内の穴またはギャップを充填するために、例えば、効率的なルックアップ動作またはインデックスによる探索動作により、ディスオクルージョンアトラス内のディスオクルージョンデータの一部または全部にアクセスして取り出し、表現ビューではオクルードされているが、ビューアの現在のビューではディスオクルードされている画像詳細を提供し得る。結果として、ビューアは、ボリュメトリックビデオ信号のビデオストリームに符号化された表現ビューの画像では提供されないビュー固有の画像詳細を、ビューアの現在のビューにしたがって、見ることができる。
本明細書で説明される例示的な実施形態は、ボリュメトリックビデオのストリーミングに関する。1つまたは複数の基準ビューからの視覚シーンを描写する1つまたは複数の基準画像(reference image)ではオクルードされ、1つまたは複数の基準ビューに隣接する非基準ビューでは少なくとも部分的にディスオクルードされる画像フラグメントが、サイズでソートされる。画像フラグメントは、画像フラグメント内の任意の他の画像フラグメント以上のサイズである第1の画像フラグメントを含む。画像フラグメントを記憶するために使用されるディスオクルージョンアトラスのためのレイアウトマスクが生成される。レイアウトマスクは、第1の画像フラグメントに対して特にサイズ決定にされた第1の最良適合ノード(best fit node)を含む四分木でカバーされる。ソートされた画像フラグメントは、レイアウトマスク内で識別された最良適合ノードに降順で記憶される。ソートされた画像フラグメント内の各画像フラグメントは、最良適合ノード内のそれぞれの最良適合ノードに記憶される。最良適合ノードは、レイアウトマスクをカバーする四分木内の少なくとも1つのノードを反復的に分割することによって取得される少なくとも1つの最良適合ノードを含む。1つまたは複数の基準画像で符号化されたボリュメトリックビデオ信号が生成される。ボリュメトリックビデオ信号は、ディスオクルージョンアトラス内の画像フラグメントを用いてさらに符号化される。1つまたは複数の基準画像は、画像ディスプレイ上にレンダリングするための非表現ビューにおける表示画像を合成するためにボリュメトリックビデオ信号の受信者デバイスによって使用される。ディスオクルージョンアトラス内の画像フラグメントは、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するために受信者デバイスによって使用される。
本明細書で説明される例示的な実施形態は、ボリュメトリックビデオのレンダリングに関する。ボリュメトリックビデオ信号から1つまたは複数の基準画像が復号される。ボリュメトリックビデオ信号から、ディスオクルージョンアトラス内の画像フラグメントが復号される。1つまたは複数の基準画像に基づいて、非表現ビューにおける表示画像が合成される。ディスオクルージョンアトラス内の画像フラグメントを使用して、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填する。表示画像は、画像ディスプレイ上にレンダリングされる。
いくつかの例示的な実施形態では、本明細書で説明される機構は、クラウドベースのサーバ、モバイルデバイス、仮想現実システム、拡張現実システム、ヘッドアップディスプレイデバイス、ヘルメットマウントディスプレイデバイス、CAVEタイプシステム、ウォールサイズディスプレイ、ビデオゲームデバイス、ディスプレイデバイス、メディアプレーヤ、メディアサーバ、メディア生成システム、カメラシステム、家庭用システム、通信デバイス、ビデオ処理システム、ビデオコーデックシステム、スタジオシステム、ストリーミングサーバ、クラウドベースのコンテンツサービスシステム、ハンドヘルドデバイス、ゲーム機、テレビ、シネマディスプレイ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、セルラー無線電話、電子書籍リーダ、POS(point of sale)端末、デスクトップコンピュータ、コンピュータワークステーション、コンピュータサーバ、コンピュータキオスク、または様々な他の種類の端末およびメディア処理ユニットのうちのいずれかを含むが、それに限定されないメディア処理システムの一部を形成する。
本明細書に記載された好ましい実施形態ならびに一般的な原理および特徴に対する様々な修正は、当業者には容易に明らかになるであろう。したがって、本開示は、示される実施形態に限定されることを意図するものではなく、本明細書で説明される原理および特徴と一致する最も広い範囲を与えられるべきである。
2.ボリュメトリックビデオ
本明細書で説明される技法は、最大で6自由度すべてのビューアの身体または頭部の動きに対応したビューアに対する完全な視差をもつビュー固有のビデオを提供するために使用され得る。本明細書で使用する場合、「ビュー固有の」ビデオ(画像)という用語は、ビューアの位置および/または向きに少なくとも部分的に基づいて(またはその決定に応答して)生成および/またはレンダリングされる、位置固有および/または向き固有のビデオ(画像)を意味し得る。
これを達成するために、空間内の異なる点のセットまたはサブセット(ビューアが自由に動くことができるビューボリューム(viewing volume)にわたる異なる位置および/または異なる向きのセットまたはサブセットに対応する)におけるビデオは、ビューアにレンダリングされるビュー固有の画像を生成するために、使用され得る。空間内のこれらの異なる点におけるビデオは、テクスチャビデオおよび深度ビデオを含み、ボリュメトリックビデオの基準ビュー(または基準視点)を形成し得る。
ビューアの所与の位置および/または向きについてのビューアの現在のビューなどの仮想ビュー(これは、これらの基準ビューのどれとも一致しないことがある)は、画像ベースのレンダリング技法を使用して、ボリュメトリックビデオで表されるこれらの基準ビューから合成され得る。
本明細書で使用される場合、テクスチャビデオは、複数の時点にわたるテクスチャ画像のシーケンスを指し、RGBピクセル値、YCbCrピクセル値、ルーマおよび/またはクロマピクセル値などの個々の色または輝度情報でそれぞれ指定されたピクセルの空間分布を含む。テクスチャビデオに対応する深度ビデオは、複数の時点にわたる深度画像のシーケンスを指し、z軸値、深度値、空間視差値、視差情報などの対応するテクスチャ画像の対応するピクセルの空間深度情報でそれぞれ指定されたピクセルの空間分布を含む。
ボリュメトリックビデオ内の1つまたは複数のビデオストリームで表される1つまたは複数の基準ビューに対するディスオクルージョンデータを含むディスオクルージョンアトラスは、ビュー依存効果のためのマルチ深度情報を符号化することをサポートするために使用され得る。例えば、ハイライトスペックルなどの画像詳細は、すべてではないがいくつかのビューに現れ得、可視であるとき、異なるビュー(例えば、異なる基準ビュー、異なる時点におけるビューアの現在のビューなどの異なる仮想ビューなど)において異なって現れる。基準ビューにおいて隠されているかまたはオクルードされるビュー依存画像詳細のマルチ深度情報は、ディスオクルージョンデータに含まれ、画像メタデータの一部として受信者ビデオデコーダに配信され、それにより、ビューアの位置または向きの検出された変化に応答してビュー依存画像詳細(または効果)をビューアに正しくレンダリングまたは提示することができる。
追加的に、オプションで、または代替的に、画像メタデータは、本明細書で説明されるディスオクルージョンアトラス内のフラグメント、部分、パッチなどの記述を含み得る。画像メタデータは、ボリュメトリックビデオの一部として上流デバイスから受信者デバイスに配信され、受信者デバイスがビデオストリームおよびディスオクルージョンアトラスから復号された画像データをレンダリングするのを助けるために使用され得る。
3.例示的なビデオストリーミングサーバおよびクライアント
図1Aは、マルチビューストリーム受信機132、視点プロセッサ134、ストリームコンポーザ136などを備えるビデオストリーミングサーバ100などの例示的な上流デバイスを示す。ビデオストリーミングサーバ(100)の構成要素の一部または全部は、1つまたは複数のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどで実装され得る。
マルチビューストリーム受信機(132)は、外部ビデオソースから直接または間接的に複数の基準ビューの基準テクスチャおよび/または深度ビデオ(106)を受信するように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。
視点プロセッサ(134)は、リアルタイムまたは準リアルタイムでビューアによって動作されるビデオクライアントデバイスからビューアの視点データを受信し、AR、VRまたはボリュメトリックビデオアプリケーションの時間間隔/持続時間にわたって複数の時点についてビューアの位置または向きを確立/決定するように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。ビデオアプリケーションでは、基準テクスチャおよび/または深度ビデオ(106)から導出された表示画像は、ビデオクライアントデバイスなどと連動して動作する画像ディスプレイで提供されるように、ビューアのビューポート内の複数の時点でレンダリングされるべきである。ビューアのビューポートは、画像ディスプレイ上のウィンドウまたは可視領域のサイズを指す。
ストリームコンポーザ(136)は、受信者デバイスなどから入力の一部として受信されたビューアの位置または向きを示す視点データ114に少なくとも部分的に基づいて、基準テクスチャおよび/または深度ビデオ(106)から、(例えば、リアルタイムなどの)ボリュメトリックビデオ信号112(1つまたは複数の基準ビューと、表現ビューに隣接するビューのディスオクルージョンアトラスを含むディスオクルージョンアトラスとを表す1つまたは複数のビデオストリームを含むが、それに限定されない)を生成するように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。
ビデオストリーミングサーバ(100)は、ARアプリケーション、VRアプリケーション、360度ビデオアプリケーション、ボリュメトリックビデオアプリケーション、リアルタイムビデオアプリケーション、準リアルタイムビデオアプリケーション、非リアルタイム全方向ビデオアプリケーション、自動車エンターテインメント、ヘルメットマウントディスプレイアプリケーション、ヘッドアップディスプレイアプリケーション、ゲーム、2Dディスプレイアプリケーション、3Dディスプレイアプリケーション、マルチビューディスプレイアプリケーションなどをサポートするために使用され得る。
図1Bは、リアルタイムストリーム受信機142、視点トラッカ144、ボリュメトリックビデオレンダラ146、画像ディスプレイ148などを備えるビデオクライアントデバイス150などの例示的な受信者デバイスを示す。ビデオクライアントデバイス(150)の構成要素の一部または全部は、1つまたは複数のデバイス、モジュール、ユニットなどによって、ソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどで実装され得る。
視点トラッカ(144)は、1つまたは複数のビューア位置/向きトラッキングセンサ(例えば、動きセンサ、位置センサ、アイトラッカなど)とともに動作して、ビューアに関連するリアルタイムまたは準リアルタイムの視点データ114を収集し、視点データ(114)または視点データから決定されたビューアの位置/向きをビデオストリーミングサーバ(100)に送信することなどを行うように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。視点データ(114)は、比較的細かい時間スケール(例えば、ミリ秒毎、5ミリ秒毎など)でサンプリングまたは測定され得る。視点データは、所与の時間分解能(例えば、ミリ秒毎、5ミリ秒毎など)でビューアの位置また向きを確立/決定するために使用されることができる。
リアルタイムストリーム受信機(142)は、(例えば、リアルタイムなどの)ボリュメトリックビデオ信号(112)を受信し、復号するように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。
ボリュメトリックビデオレンダラ(146)は、ボリュメトリックビデオ(112)から復号された画像データに対して画像ワーピング、画像ワーピング、ブレンディング(例えば、複数のカメラソースからの複数の変形画像のブレンディングなど)、画像合成、穴埋めなどを実行して、ビューアの予測または測定された位置または向きに対応するビュー固有の画像を生成し、レンダリングのためにビュー固有の画像を画像ディスプレイ(148)に出力することなどを行うように構成されたソフトウェア、ハードウェア、ソフトウェアとハードウェアの組合せなどを含む。
本明細書で使用される場合、本明細書で説明されるビデオストリーム内のビデオコンテンツは、視聴覚プログラム、映画、ビデオプログラム、TV放送、コンピュータゲーム、拡張現実(AR)コンテンツ、仮想現実(VR)コンテンツ、自動車エンターテインメントコンテンツなどのいずれかを含み得るが、必ずしもそれらに限定されない。例示的なビデオデコーダは、ディスプレイデバイス、ニアアイディスプレイを有するコンピューティングデバイス、頭部装着型ディスプレイ(HMD)、モバイルデバイス、ウェアラブルディスプレイデバイス、テレビなどのディスプレイを有するセットトップボックス、ビデオモニタなどのうちのいずれかを含み得るが、必ずしもそれらに限定されない。
本明細書で使用される場合、「ビデオストリーミングサーバ(video streaming server)」は、ビデオコンテンツの少なくとも一部分を1つまたは複数のディスプレイ上にレンダリングするために、ビデオコンテンツを準備し、ビデオデコーダなどの1つまたは複数のビデオストリーミングクライアントにストリーミングする1つまたは複数の上流デバイスを指し得る。ビデオコンテンツがレンダリングされるディスプレイは、1つまたは複数のビデオストリーミングクライアントの一部であってもよいし、1つまたは複数のビデオストリーミングクライアントと連動して動作していてもよい。
例示的なビデオストリーミングサーバは、ビデオストリーミングクライアント(複数可)から遠隔に位置するクラウドベースのビデオストリーミングサーバ、ローカルのワイヤードまたはワイヤレスネットワーク上でビデオストリーミングクライアント(複数可)に接続されたローカルビデオストリーミングサーバ、VRデバイス、ARデバイス、自動車エンターテインメントデバイス、デジタルメディアデバイス、デジタルメディア受信機、セットトップボックス、ゲーム機(例えば、Xbox)、汎用パーソナルコンピュータ、タブレット、Apple TVまたはRokuボックスなどの専用デジタルメディア受信機などのうちのいずれかを含み得るが、必ずしもそれらに限定されない。
4.ディスオクルージョンデータ内の画像フラグメント
ディスオクルージョンアトラス内のディスオクルージョンデータは、ボリュメトリックビデオ信号内の表現(基準)ビューにおいてオクルードされる画像フラグメントを含み得る。本明細書で説明される画像フラグメントは、ピクセルごとの画像テクスチャ情報(例えば、色、輝度/クロミナンス値、RGB値、YCbCr値など)とピクセルごとの深度情報とを有するピクセルの連続した非凸(またはオクルードされた)領域を指す。ディスオクルージョンアトラス内の画像フラグメントに対して指定されたピクセルごとの画像テクスチャおよび深度情報は、ボリュメトリックビデオ信号の表現ビューでは、隠されているかまたはオクルードされる画像特徴/オブジェクト/構造を視覚的に描写し得るが、表現ビューに隣接するビューでは、少なくとも部分的にディスオクルードされるようになるかまたは見えるようになり得る。
画像テクスチャおよび深度情報が欠けている穴を含んでいない所与の基準ビューについて、深度画像ベースレンダリング(DIBR:depth image based rendering)と、基準ビューに利用可能な画像テクスチャ/深度情報とを使用して、表現ビューの周りの隣接するビューについての合成画像(synthesized image)が生成され得る。合成画像は、基準ビューに利用可能な画像テクスチャ/深度情報から画像テクスチャ情報および深度情報を取得することができない穴を有し得る。合成画像を用いて、画像マスクを生成して、隣接するビューについての合成画像内の穴を識別することができる。
いくつかの動作シナリオでは、画像マスクは、隣接するピクセル間の深度の比較的滑らかな遷移を有する所与の基準ビュー内の他の画像領域から、隣接するピクセル間の深度の大きいギャップを含む所与の基準ビュー内の画像領域(またはエリア)を識別することによって、所与の基準ビューについて少なくとも部分的に生成され得る。
画像マスクにおいて識別された穴(またはピクセルの非凸領域)内の画像フラグメントについての画像テクスチャ情報および深度情報は、空間的に異なる基準ビューから、または時間的に異なる基準ビューから取得され得る。例えば、所与の基準ビューと同じ時点のものであるが、所与の基準ビューとは空間的に異なる空間的に異なる基準ビューは、隣接するビューにおける合成画像内の穴についての画像テクスチャおよび深度情報を含んでおり、提供し得る。所与の基準ビューを含むこれらの空間的に異なる基準ビューは、同じ時点についてのマルチビュー画像を集合的に形成し得る。
追加的に、オプションで、または代替的に、所与の基準ビューのものとは異なる時点についてのものである時間的に異なる基準ビューは、隣接するビューにおける合成画像内の穴についての画像テクスチャおよび深度情報を含んでおり、提供し得る。所与の基準ビューを含むこれらの時間的に異なる基準ビューは、同じ視覚シーン、同じピクチャグループ(GOP)などに属し得る。
追加的に、オプションで、または代替的に、人工知能(AI)または機械学習(ML)は、画像をトレーニングすることによってトレーニングされ、次いで、隣接するビューにおける合成画像内の穴についての画像テクスチャおよび深度情報の一部または全部を生成または予測するために適用され得る。
所与の時点についてのディスオクルージョンアトラスに含まれる画像フラグメントは、異なる基準ビューについての画像フラグメントの異なるサブセットに区分され得る。異なるサブセット内の画像フラグメントの各サブセットは、異なる基準ビューのそれぞれの基準ビュー内の(オクルードされた)画像フラグメントを含み得る。
本明細書で説明されるディスオクルージョンアトラス技法は、これらの画像フラグメントを、最小総面積(minimal total area)をカバーし、かつ、オーバーラップするフラグメントを有しない結合画像(または「アトラス」)へと、(例えば、適応的に、最適に、など)パックするために使用され得る。ディスオクルージョンアトラスを表す結合画像内の各フラグメントは、ディスオクルージョンアトラスに含まれる他のフラグメントによってオーバーラップされることなく専用の領域(またはエリア)を有する。
ボリュメトリックビデオ信号は、連続するマルチビュー画像のシーケンスから生成され得る。連続するマルチビュー画像のシーケンスは、連続する時点のシーケンスを形成する複数の時点についての複数のマルチビュー画像を含む。複数のマルチビュー画像内の各マルチビュー画像は、複数の時点内のそれぞれの時点についての複数の基準ビューに対する複数の単一ビュー画像を含む。
連続するディスオクルージョンアトラスのシーケンスは、連続する時点のシーケンスに対して生成され得る。連続するディスオクルージョンアトラスのシーケンスは、連続する時点のシーケンス内の複数の時点についての複数のディスオクルージョンアトラスを含む。複数のディスオクルージョンアトラス内の各ディスオクルージョンアトラスは、複数の時点内のそれぞれの時点についてボリュメトリックビデオ信号で表される、複数の基準ビュー内の1つまたは複数の基準ビューに対する画像フラグメントの1つまたは複数のサブセットを含む画像フラグメントを含む。
連続する時点のシーケンスによってカバーされる時間間隔(例えば、30分、1時間以上など)内の部分間隔(例えば、1秒の数分の1、1秒以上など)について、ボリュメトリックビデオ信号は、この信号で表される1つまたは複数の基準ビューに対するピクチャグループ(GOP)の1つまたは複数のサブシーケンスで符号化され得る。GOPの1つまたは複数のサブシーケンス内のGOPの各サブシーケンスは、ボリュメトリックビデオ信号で表される1つまたは複数の基準ビュー内のそれぞれの基準ビューについてのテクスチャ画像のサブシーケンスおよび深度画像のサブシーケンスを含む。
GOPの各サブシーケンスは、1つまたは複数のGOPを含む。各GOPは、Iフレームによって区切られるか、または開始Iフレームで始まり、次の開始Iフレームの直前のフレームで終わる。いくつかの実施形態では、開始Iフレームおよび次の開始Iフレームは、それらの間に他のIフレームがない2つの最も近いIフレームであってもよい。いくつかの実施形態では、開始Iフレームおよび次の開始Iフレームは、近くのIフレームであり得るが、必ずしも2つの最も近いIフレームであるとは限らない。GOP内のIフレームは、他のフレームからの画像データに依存することなく復号され得るが、GOP内のBフレームまたはPフレームなどの非Iフレームは、GOP内の他のフレームから少なくとも部分的に予測され得る。GOP内のIフレーム(複数可)および/または非Iフレーム(複数可)は、時間的に安定したまたは時間的に類似したソース/入力画像から生成され得る。これらの時間的に安定したソース/入力画像は、GOP内のIフレーム(複数可)および/または非Iフレーム(複数可)を生成する際に、比較的効率的なインター予測またはイントラ予測、およびデータ圧縮または符号化を容易にすることができる。
連続する時点のシーケンスによってカバーされる間隔内の同じ部分間隔について、ボリュメトリックビデオ信号は、信号で表される1つまたは複数の基準ビューに対するディスオクルージョンアトラスのグループの1つまたは複数のサブシーケンスで符号化され得る。ディスオクルージョンアトラスのグループの1つまたは複数のサブシーケンス内のディスオクルージョンアトラスのグループの各サブシーケンスは、ボリュメトリックビデオ信号で表される1つまたは複数の基準ビュー内のそれぞれの基準ビューに隣接するビュー内の穴についてのテクスチャ画像のサブシーケンスおよび深度画像のサブシーケンスを含む。
ディスオクルージョンアトラスのグループの各サブシーケンスは、ディスオクルージョンアトラスの1つまたは複数のグループを含む。ディスオクルージョンアトラスの各グループは、アトラスIフレームによって区切られるか、または開始アトラスIフレームで始まり、次の開始アトラスIフレームの直前のアトラスフレームで終わる。いくつかの実施形態では、開始アトラスIフレームおよび次の開始アトラスIフレームは、それらの間に他のアトラスIフレームがない2つの最も近いアトラスIフレームであってもよい。いくつかの実施形態では、開始アトラスIフレームおよび次の開始アトラスIフレームは、近くのアトラスIフレームであってもよいが、必ずしも2つの最も近いアトラスIフレームである必要はない。ディスオクルージョンアトラスのグループ内のアトラスIフレームは、他のアトラスフレームからのディスオクルージョンデータに依存することなく復号され得るが、ディスオクルージョンアトラスのグループ内のアトラスBフレームまたはアトラスPフレームなどのアトラス非Iフレームは、ディスオクルージョンアトラスのグループ内の他のアトラスフレームから少なくとも部分的に予測され得る。ディスオクルージョンアトラスのグループ内のアトラスIフレーム(複数可)および/またはアトラス非Iフレーム(複数可)は、時間的に安定したまたは時間的に類似したディスオクルージョンアトラスから生成され得る。これらの時間的に安定したディスオクルージョンアトラスは、ディスオクルージョンアトラスのグループ内のアトラスIフレーム(複数可)および/またはアトラス非Iフレーム(複数可)を生成する際に、比較的効率的なインター予測またはイントラ予測、およびデータ圧縮または符号化を容易にすることができる。
5.ディスオクルージョンデータのための画像マスク
図2Aは、基準ビューにおける例示的なテクスチャ画像(例えば、360度の「ベースボールカバー」ビューなど)を示す。テクスチャ画像は、画像フレーム内のピクセルのアレイについて、色、輝度/クロミナンス値、RGB値、YCbCr値などのテクスチャ情報を含む。テクスチャ画像は、連続する時点のシーケンスによってカバーされる時間間隔内の時点に対応し得るか、またはそれによってインデックス付けされ得、例えば、ビデオストリーム内のピクチャまたは画像のテクスチャ画像グループ(GOP)内のテクスチャ画像Iフレームまたはテクスチャ画像非Iフレームとして、基準ビューのためのビデオストリームに符号化され得る。
図2Bは、図2Aのテクスチャ画像と同じ基準ビューにおける例示的な深度画像(例えば、360度の「ベースボールカバー」ビューなど)を示す。図2Bの深度画像は、図2Aのテクスチャ画像内のピクセルのアレイ内のいくつかまたはすべてのピクセルについて、深度値、z値、空間的視差値、視差値などの深度情報を含む。深度画像は、連続する時点のシーケンスによってカバーされる時間間隔内の同じ時点に対応し得るか、またはそれによってインデックス付けされ得、例えば、ビデオストリーム内のピクチャまたは画像の深度画像グループ(GOP)内の深度画像Iフレームまたは深度画像非Iフレームとして、基準ビューのためのビデオストリームに符号化され得る。
図2Cは、ビットのアレイを有するビットマスクであり得る例示的な画像マスクを示す。画像マスク内のビットのアレイ中のインジケータまたはビット(例えば、1-1など)は、図2Aのテクスチャ画像および/または図2Bの深度画像で表されるピクセルのアレイ内のそれぞれのピクセルに対応し得る。画像マスク内の各インジケータまたはビットは、ディスオクルードされたピクセルテクスチャ値(例えば、色、輝度/クロミナンス値、RGB値、YCbCr値など)および/またはディスオクルードされたピクセル深度値(例えば、深度値、z値、空間視差値、視差値など)などのディスオクルージョンデータ部分が、画像ワーピングおよび穴埋め動作において図2Aのテクスチャ画像および/または図2Bの深度画像とともに使用されるべきディスオクルージョンアトラスにおいて提供されるどうかを示すかまたは指定し得る。
例示的な穴埋め動作は、Wenhui Jiaらによる、2019年4月1日に出願された「HOLE FILLING FOR DEPTH IMAGE BASED RENDERING」と題する米国仮特許出願第62/811,956号に記載されており、その全体の内容は、本明細書に完全に記載されているかのように参照により本明細書に組み込まれる。
画像ワーピングおよび穴埋め動作は、基準ビューに隣接するビューであり得る、ビューアの現在のビューのための合成画像を生成するために使用され得る。ディスオクルージョンアトラスにおいて提供されるディスオクルードされたピクセルテクスチャ値および/またはディスオクルードされたピクセル深度値は、図2Aのテクスチャ画像および/または図2Bの深度画像ではオクルードされるが、基準ビューに隣接するビューでは部分的に見えるようになり得る画像詳細を描写する。ディスオクルージョンアトラスは、連続する時点のシーケンスによってカバーされる時間間隔内の同じ時点に対応し得るか、またはそれによってインデックス付けされ得、例えば、ビデオストリームまたは別個の付随のビデオストリーム内のディスオクルージョンアトラスのグループ内のアトラスIフレームまたはアトラス非Iフレームとして、基準ビューのためのビデオストリームまたは別個の付随のビデオストリームに符号化され得る。
図2Cに示されるような画像マスクは、マスクが、基準ビューに隣接する1つまたは複数の隣接するビューから見えないテクスチャ画像および/または深度画像の部分をカバーするので、図2Aの対応するテクスチャ画像または図2Bの対応する深度画像とアラインするようには見えない。画像マスクを用いて生成されたディスオクルージョンアトラスの目的は、ビューアの現在のビューなどの合成ビュー内の穴を充填するためにテクスチャおよび深度画像データを提供することであり、穴は、合成ビュー(または選択された「基準」ビュー)の再投影におけるディスオクルージョンに起因して生じる。様々な動作シナリオでは、ディスオクルージョンアトラス内のテクスチャおよび深度データは、合成ビュー内の穴よりも多いまたは少ない、または同じ空間領域をカバーし得る。
いくつかの動作シナリオでは、ディスオクルージョンアトラスによってカバーされる空間領域は安全マージンを含み得、それにより、ディスオクルージョンアトラスは、ディスオクルージョンアトラス内のディスオクルードされたテクスチャおよび深度データが基準ビューに隣接するビュー内の穴を完全に充填するために利用可能であることを保証することができる。
いくつかの動作シナリオでは、ディスオクルージョンによってカバーされる空間領域は安全マージンを含まなくてもよく、その結果、ディスオクルージョンアトラスは、ディスオクルージョンアトラス内のディスオクルードされたテクスチャおよび深度データが基準ビューに隣接するビュー内の穴を完全に充填するために利用可能であることを保証しない可能性がある。これらの動作シナリオでは、受信者ビデオデコーダは、穴埋めアルゴリズムを適用して、ビデオストリームで表される基準ビューに隣接または近接する合成ビュー内の穴の一部についてのテクスチャおよび深度情報の少なくとも一部を生成し得る。
追加的に、オプションで、または代替的に、ディスオクルージョンアトラスにおいてカバーされるマスクされた空間領域は、基準ビューにおいて描写される視覚シーンから顕著な視覚オブジェクトを選択するために使用され得る。例えば、ディスオクルージョンアトラスは、顕著な視覚オブジェクトから離れた空間領域をカバーするためのテクスチャまたは深度情報を受信者ビデオデコーダに搬送または提供しないことがある。ディスオクルージョンアトラスが受信者ビデオデコーダテクスチャまたは深度情報を搬送または提供する空間領域は、空間領域が顕著な視覚オブジェクトを含むことを受信者ビデオデコーダに示し得る。
6.ディスオクルージョンアトラスの生成
図3Aは、1つまたは複数の基準ビューについてのオクルードされた領域を表す画像フラグメントを含むか、またはそれとともにパッケージ化された例示的な(出力)ディスオクルージョンアトラスを示す。画像メタデータは、ディスオクルージョンアトラス内のこれらの画像フラグメントがそれぞれどの基準ビューに対応するかを示すために生成され得る。
例として、ボリュメトリックビデオ信号は、マルチビュー画像のシーケンスから生成される。マルチビュー画像のシーケンス内の各マルチビュー画像は、N個の基準ビューについてのN個の単一ビュー(入力/ソース)テクスチャ画像の集合と、連続する時点のシーケンス内のある時点についてのN個の基準ビューについてのN個の単一ビュー(入力/ソース)深度画像の集合とを含み得る。
ビューパラメータが受信され、画像(ピクセル)座標(例えば、ピクセル位置、ピクセルの行および列など)および深度をワールド(3D)座標系などの座標系にマッピングする単射関数を指定または定義するために使用され得る。ビューパラメータは、隣接するビュー内の画像を合成し、基準ビューではオクルードされ得るが隣接するビューでは少なくとも部分的にディスオクルードされるようになり得る穴または領域を識別し、基準ビューの一部または全部について基準ビューごとにこれらの穴または領域についてのディスオクルージョンテクスチャデータおよびディスオクルージョン深度データを決定、推定、または予測するために使用され得る。
基準ビューおよび所与の時点についての単一ビューテクスチャ画像および単一ビュー深度画像ごとに、ビットマスクなどの画像マスクが基準ビューについて生成され得、図3Aに示されるように、所与の時点についてのディスオクルージョンアトラスにおいてディスオクルージョンテクスチャおよび深度データが提供されるべき空間領域を識別する。
図3Bは、受信されたまたは入力のマルチビュービデオ内のマルチビュー画像のシーケンスについて作成され得る連続するディスオクルージョンアトラスの例示的なシーケンスを示す。ディスオクルージョンアトラスのシーケンスは、ディスオクルージョンアトラスのグループに符号化され得る。ディスオクルージョンアトラスのそのような各グループは、時間的に安定したディスオクルージョンアトラスを含み、比較的効率的にビデオストリームに符号化され得る。
図4Aは、時間間隔をカバーするマルチビュー画像のシーケンス内のマルチビュー画像について、図3Aに示されるようなディスオクルージョンアトラスを生成するための例示的な処理フローを示す。いくつかの例示的な実施形態では、1つまたは複数のコンピューティングデバイスまたは構成要素がこのプロセスフローを実行し得る。
マルチビュー画像は、時間間隔内の時点に対応するか、または時間間隔内の時点にインデックス付けされ、N個の基準ビューに対するN個の(ソース/入力)単一ビューテクスチャ画像と、N個の基準ビューに対するN個の(ソース/入力)単一ビュー深度画像とを含む。N個の単一ビューテクスチャ画像内の各単一ビューテクスチャ画像は、N個の単一ビュー深度画像内のそれぞれの単一ビュー深度画像に対応する。
ブロック402において、本明細書で説明されるシステム(例えば、図1Aの100など)は、N個の基準ビューに隣接するビュー内の合成/変形画像内に存在し得る空間領域または穴についての画像フラグメントを記憶する(例えば、コピー、スタンプ、配置などを行う)ためにディスオクルージョンアトラスが使用される前に、ディスオクルージョンアトラスに対して初期化動作を実行する。
ブロック402の初期化動作は、以下を含み得る:(a)N個の基準ビューに隣接するビューで、合成/変形画像においてテクスチャまたは深度データが欠けている可能性のあるN個の基準ビュー内の空間領域または穴を識別するN個の画像マスクを受信またはロードすること;(b)N個の画像マスクにおいて識別された画像フラグメントのためのテクスチャおよび深度情報を受信またはロードすること;(c)サイズによって画像フラグメントをソートして画像フラグメントのリストにすること;など。
ここで、「サイズ」は、画像フラグメントの空間寸法を測定するためのメトリックを指す。画像フラグメントの空間寸法を測定するために様々なメトリックが使用され得る。例えば、画像フラグメントを完全に囲む最小の矩形が決定され得る。水平サイズ(「xsize」と表される)、垂直サイズ(「ysize」と表される)、水平サイズと垂直サイズとの組合せなどが、画像フラグメントのサイズを測定するためのメトリック(複数可)として個々にまたは集合的に使用され得る。
いくつかの動作シナリオでは、画像フラグメントのサイズは、64*max(xsize,ysize)+min(xsize,ysize)として計算され得、ここで、xsizeおよびysizeの各々は、ピクセルの単位で、または2×2ピクセルブロックの2ピクセル、4×4ピクセルブロックの4ピクセルなど、特定のサイズのピクセルブロックの水平または垂直寸法(これは2の非負の整数乗であり得る)の単位で表され得る。
N個のロードされた画像マスク内の各画像マスクは、N個の基準ビュー内のそれぞれの基準ビューに対応する。画像マスクは、基準ビューではオクルードされるが、基準ビューに隣接するビューでは少なくとも部分的に見えるようになる画像フラグメントのための画像マスク部分を含む。画像マスクの画像マスク部分内の各画像マスク部分は、画像マスクが対応する基準ビューではオクルードされるが、基準ビューに隣接するビューでは少なくとも部分的に見えるようになる画像フラグメント内のそれぞれの画像フラグメントを空間的に画定または定義する。画像マスクで表される各ピクセルについて、ピクセルが画像フラグメントのうちの1つに属する場合、ビットインジケータは真または1に設定され、ピクセルが画像フラグメントのいずれにも属さない場合、偽または0に設定される。
いくつかの動作シナリオでは、ディスオクルージョンアトラスは、マルチビュー画像の(例えば、すべてなどの)画像フラグメントの空間配置を示し、ディスオクルージョンアトラスにおいてディスオクルージョンデータが記憶または維持される画像フラグメントを識別または追跡するために使用されるレイアウトマスクを含む。レイアウトマスクは、矩形形状などの空間形状内に配置されたピクセルのアレイを含み得る。ディスオクルージョンアトラスのレイアウトマスクにおいて空間的に画定または定義された画像フラグメントは、互いに排他的であり、レイアウトマスクにおいて(例えば、完全には、など)互いにオーバーラップしない。
ブロック402の初期化動作はさらに以下を含み得る:(d)単一の四分木ルートノードを作成すること。このルートノードは、最大の画像フラグメントのサイズをちょうどカバーする最良のサイズに初期化される。四分木は、対応するレイアウトマスクを可能な限り小さく保つために、必要に応じて各次元において2倍ずつ漸増的に成長させられる;(e)画像フラグメント(例えば、画像フラグメントの画像マスク部分など)を、ディスオクルージョンアトラスのレイアウトマスクにおける、第1のノードのための指定された領域にスタンプすることによって、最大の画像フラグメントを四分木の第1のノードにリンクすること;その他。四分木の第1のノードは、ここでは、レイアウトマスク全体を表すルートノードの下の第1のレベルの四分木ノードの中の第1の四分木ノードを指す。ここで、「スタンプ」とは、画像フラグメントまたはその画像マスク部分をディスオクルージョンアトラスのレイアウトマスクにコピー、転写、または嵌め込むことを指す。ここで、「四分木」とは、各内部ノードが4つの子四分木ノードを有するツリーデータ構造を指す。
四分木は、最初、同じサイズの長方形など、同じサイズの空間形状の4つのノードを含む。本明細書で説明される四分木のノードの空間形状は、2の非負の整数乗であるピクセルのカウントを有する特別な次元を有し得る。
ディスオクルージョンアトラスのレイアウトマスクに最大の画像フラグメントをスタンプするのに続いて、最大の画像フラグメントが(サイズでソートされた)画像フラグメントのリストから除去され、最初の四分木ノードの後の次の四分木ノードが現在の四分木ノードとして設定される。現在の四分木ノードは、画像フラグメントをホストするために次に使用されるべき空の四分木ノードまたは候補四分木ノード(画像フラグメントまたはそれぞれの画像マスク部分によってまだポピュレートされていない)を表す。
ブロック404において、システムは、サイズでソートされた画像フラグメントのリストが、ディスオクルージョンアトラスのレイアウトマスクにスタンプまたは空間的に配置される必要が依然としてある任意の画像フラグメントを含むかどうかを決定する。いくつかの実施形態では、最小フラグメントサイズしきい値を下回る任意の画像フラグメントは、リストから除去されてもよいし、リスト内で無視されてもよい。例示的な最小フラグメントサイズしきい値は、水平寸法および垂直寸法の一方または両方に4ピクセル、水平寸法および垂直寸法の一方または両方に6ピクセルなどのうちの1つであり得る。
(サイズでソートされた)画像フラグメントのリストが、ディスオクルージョンアトラスのレイアウトマスクにスタンプまたは空間的に配置される必要が依然としてある画像フラグメント(複数可)を含まないと決定したことに応答して、処理フローは終了する。
そうでなければ、(サイズでソートされた)画像フラグメントのリストが、ディスオクルージョンアトラスのレイアウトマスクにスタンプまたは空間的に配置される必要が依然としてある画像フラグメント(複数可)を含むと決定したことに応答して、システムは、(サイズでソートされた)画像フラグメントのリストから、次に大きい画像フラグメントを現在の画像フラグメントとして選択する。
ブロック406において、システムは、四分木内の現在の四分木ノードが、現在の画像フラグメント、または現在の画像フラグメントのための対応する画像マスク部分をホストするのに十分に大きいかどうかを決定する。
四分木内の現在の四分木ノードが、現在の画像フラグメントをホストするのに十分に大きくないと決定したことに応答して、処理フローはブロック410に進む。
そうでなければ、四分木内の現在の四分木ノードが現在の画像フラグメントをホストするのに十分に大きいと決定したことに応答して、処理フローはブロック408に進む。
ブロック408において、システムは、現在の四分木ノードが現在の画像フラグメントのための「最良」適合四分木ノードであるかどうかを決定する。「最良」適合四分木ノードは、画像フラグメントまたはその画像マスク部分をホストするのにちょうど十分な大きさである四分木ノードを指す。言い換えると、最良「適合」四分木ノードは、ディスオクルージョンアトラスのレイアウトマスク内の画像フラグメントを完全に囲むか、またはホストするための最小サイズの四分木ノードを表す。
現在の四分木ノードが現在の画像フラグメントのための「最良」適合四分木ノードではないと決定したことに応答して、システムは、「最良」適合四分木ノードが見つかるまで、現在の四分木ノードを(例えば、繰り返し、反復的に、再帰的に、などで)細分する。「最良」適合四分木ノードは、現在の四分木ノードになるように設定される。
現在の四分木ノードが現在の画像フラグメントのための「最良」適合四分木ノードであると決定されると、システムは、「最良」適合四分木ノードにおいて現在の画像フラグメントをスタンプまたは空間的に画定する。
ディスオクルージョンアトラスまたは現在の四分木ノードのレイアウトマスクに現在の画像フラグメントをスタンプするのに続いて、現在の画像フラグメントが(サイズでソートされた)画像フラグメントのリストから除去され、(除去された)現在の四分木ノードの後の次の四分木ノードが、(新しいまたは現在の(present))現在の四分木ノードとして設定される。
ブロック410において、システムは、ディスオクルージョンアトラスのレイアウトマスク全体を表すルートノードの下のどこかに、現在の画像フラグメントをホストするために利用可能な空の四分木ノードまたは候補四分木ノードがあるかどうかを決定する。ある場合、現在の画像フラグメントをホストするために、空の四分木ノードまたは候補四分木ノードが(例えば、2つ以上のノードが使用される場合は集合的に、など)使用される。その後、プロセスフローはブロック404に進む。したがって、現在の画像フラグメントが現在の四分木ノードの下の任意の既存の(子)四分木ノードに(その全体が)適合しない場合、レイアウトマスク内の任意の場所にフラグメントを適合させる試みを行うことができる。多くの動作シナリオでは、四分木(複数可)は、アトラス構築をより高速にするように設計された加速データ構造にすぎないことに留意されたい。本明細書で説明される四分木は、レイアウト(またはレイアウトマスク)が決定されると、保存または必要とされない可能性がある。さらに、任意の画像フラグメントが配置され得る場所に対して、本明細書で説明される四分木によって課される(例えば、絶対的な、固有の、などの)制限は存在しない。画像フラグメントは、複数の四分木ノードに重複することができ、いくつかの動作シナリオではオーバーラップすることが多い。したがって、「最良適合」方法(例えば、現在の画像フラグメントなどのフラグメントのための単一の最良適合ノードを見つけるためなどの)が失敗した場合、レイアウトマスク全体にわたって、より網羅的な(および高価な)探索を実行して、手近のフラグメントに適合させることができる。成功すると、このように配置されたフラグメントがオーバーラップするすべての四分木ノードが「占有」としてマークされ、処理が継続する。失敗すると、処理フローはブロック412に進み、四分木を成長させる。図4Aに示されるような全体的なアルゴリズムが依然として効率的かつ効果的である理由は、多くの動作シナリオにおける大抵の場合、最良適合四分木探索が成功するからである。現在の画像フラグメントのための最良適合ノードが見つからない場合にのみ、より高価なまたは網羅的なフォールバック探索を行うか、または呼び出して、現在の画像フラグメントをホストするためにオーバーラップする可能性のある四分木ノードを見つける。これは、ディスオクルージョンアトラスのレイアウトマスク全体におけるすべての空の四分木ノードまたは候補四分木ノード(任意の画像フラグメントによってまだ占有されていない)まで(例えば、探索ループなどで)探索することを伴い得る。
レイアウトマスク内に残っている空の四分木ノードまたは候補四分木ノードのいずれも、現在の画像フラグメントをホストするのに十分な大きさではないと決定したことに応答して、処理フローはブロック412に進む。
そうでなければ、レイアウトマスク内の空の四分木ノードまたは候補四分木ノードが現在の画像フラグメントをホストするのに十分に大きいと決定したことに応答して、空の四分木ノードまたは候補四分木ノードが(新しい)現在の四分木ノードとして設定され、処理フローはブロック408に進む。
ブロック412において、システムは、ディスオクルージョンアトラスまたはディスオクルージョンアトラスのレイアウトマスクのサイズを、水平寸法および垂直寸法のそれぞれで2倍(2x)に拡張または増加させる。この拡張の前の既存の四分木(または古い四分木)は、第1の四分木ノード(例えば、新たに拡張された四分木の左上象限など)にリンクまたは配置され得る。第2の四分木ノード(例えば、新たに拡張された四分木の右上象限など)は、(新たな)現在の四分木ノードになるように設定される。処理フローはブロック408に進む。
画像フラグメントに属するものとしてディスオクルージョンアトラスのレイアウトマスクにおいて識別された各ピクセルのテクスチャ値および深度値は、ディスオクルージョンアトラスのレイアウトマスクとともにディスオクルージョンアトラスの一部として記憶、キャッシュ、またはバッファされ得る。
7.時間的に安定したグループレベルのレイアウトマスク
ビデオシーケンス内の連続するディスオクルージョンアトラスを安定化させるために、複数の連続する時点についての連続するディスオクルージョンアトラスのグループ(これは、ビデオシーケンス内のテクスチャ画像GOP、深度画像GOPなどに対応し得る)内のディスオクルージョンアトラスのレイアウトマスクは、連続するディスオクルージョンアトラスのグループのためのグループレベルのレイアウトマスクを形成するために、「or」演算によって分離的に結合され得る。
レイアウトマスク内の各レイアウトマスクは、等しいサイズであり得、レイアウトマスク内の任意のピクセルが、それぞれのディスオクルージョンアトラスにおいてホストされる画像フラグメントに属するかどうかを示すために、それぞれのインジケータまたはビットを用いて同じピクセルアレイを圧縮する。
グループレベルのレイアウトマスクは、連続するディスオクルージョンアトラスのグループのための(個々の)レイアウトマスクと同じサイズであってもよく、(個々の)レイアウトマスクの場合と同じピクセルのアレイを含む。和集合演算または分離的な「OR」演算を通してグループレベルのレイアウトマスクを生成するために、特定のピクセルロケーションまたはインデックスにおけるピクセルのためのインジケータまたはビットは、連続するディスオクルージョンアトラスのグループのための(個々の)レイアウトマスク内の同じ特定のピクセルロケーションまたはインデックスにおける対応するピクセルのためのインジケータまたはビットのいずれかが真または1である場合、真または1に設定され得る。
グループレベルのレイアウトマスクまたはそのインスタンスは、連続するディスオクルージョンアトラスのグループにおいてカバーされる複数の連続する時点のそれぞれの時点についてのディスオクルージョンアトラスで表されるべき画像フラグメントをホストまたはレイアウトするために、連続するディスオクルージョンアトラスのグループ内の各ディスオクルージョンアトラスに対して繰り返し使用され得る。ある時点についてのディスオクルージョンテクスチャおよび深度情報を有さないピクセルは、その時点(またはタイムスタンプ)についてのグループレベルのレイアウトマスクの対応するインスタンスにおいて除外され得る(例えば、未定義、非占有など)。図3Cは、本明細書で説明される共通のグループレベルのレイアウトマスクを用いて生成された連続するディスオクルージョンアトラスの例示的なグループを示す。
いくつかの動作シナリオでは、同じグループレベルのレイアウトマスクの複数のインスタンスを使用して、別個のディスオクルージョンアトラスが生成され得る。連続するディスオクルージョンアトラスのグループ内の最初のディスオクルージョンアトラスを、組み合わされたグループレベルのレイアウトマスクの最初のインスタンスとともに使用して、開始アトラスIフレームが生成され得、その後に、連続するディスオクルージョンアトラスのグループ内の他のディスオクルージョンアトラスから生成された他のアトラスフレームが続く。開始アトラスIフレームおよび他のアトラスフレームは、開始アトラスIフレームと、グループの終了前の次の開始アトラスIフレームとによって区切られた連続するアトラスフレームのグループを形成し得る。時間的に安定しているグループレベルのレイアウトマスクを使用して、データ類似性を見つけるためにインター予測および/またはイントラ予測を適用するなど、データ圧縮動作を容易にし、受信者ビデオデコーダに送信されるべき連続するディスオクルージョンアトラスのグループ内の全体的なデータを低減することができる。いくつかの実装例では、(Iフレーム)時間間隔にわたってレイアウトマスク(またはビットマスク)の結合(union)を使用することで、ビデオ圧縮を2倍以上改善することができる。
いくつかの動作シナリオでは、連続するディスオクルージョンアトラスのための個々のレイアウトマスクの各々において識別されたすべてのピクセルのためのテクスチャおよび深度データは、連続するディスオクルージョンアトラスのための組み合わされたグループレベルのレイアウトマスクを生成することなく、含まれるかまたは送信され得る。互いに時間的および空間的に異なる個々のレイアウトマスクを使用するデータ圧縮動作は、本明細書で説明されるグループレベルのレイアウトマスクを使用したデータ圧縮動作ほどデータ量を低減する際に効率的でないことがある。
いくつかの動作シナリオでは、ディスオクルージョンアトラスのレイアウトマスク上に画像フラグメントをレイアウトするために、これらの画像フラグメントは、最初に回転されることなく、空の四分木ノードまたは候補四分木ノードなどの利用可能な空間領域に適合され得る。いくつかの動作シナリオでは、パッキング効率性を高めるために、画像フラグメントは、最初に回転させられてから、「最良」適合四分木ノードに配置されてもよい。その結果、回転前には画像フラグメントをホストすることができなかった可能性がある四分木ノードが、回転後には画像フラグメントをホストすることができるようになり得る。
マルチビュー画像またはその中の任意の単一ビュー画像は360度画像であり得る。360度画像の画像データ(ディスオクルージョンデータを含む)は、矩形フレーム(例えば、「ベースボールカバー」ビューなど)などの画像フレームで表され得る。図2Aおよび図2Bに示されるように、そのような画像は、例えば「野球のカバー」ビューにおいて、矩形の画像フレームへと組み合わされる複数の画像セグメントを含む。しかしながら、複数の画像セグメントは、異なるビューの形状、例えば正方形のビューの形状に組み合わされてもよい。
本明細書で説明されるディスオクルージョンアトラスは、画像フラグメントが、画像セグメントの境界に接するテクスチャおよび深度情報を含むことを示すために、レイアウトマスク内にマスクストライピングを含むか、または示し得る。マスクストライピングをレイアウトマスク内に配置する理由は、アトラスホストされた画像フラグメントが、1つまたは複数の継ぎ目で接合された複数の画像セグメントを含み得る360度画像における継ぎ目に対応するC(または0次)不連続部(discontinuity)を横切る場合を回避するためである。例えば、360度画像のベースボールカバー表現では、中央に1つの長い水平継ぎ目があり、そこでは、継ぎ目の異なる側の隣接ピクセルは、視覚シーンの(例えば、実際の)ビューの隣接部分に対応しない。マスクストライピングは、画像フラグメントがこの境界を横切らないことを保証するために、この継ぎ目に沿って入力マスク内の線をゼロ化することにより、ディスオクルージョンアトラス(複数可)において実装され得る。したがって、マスクストライピングを有する画像フラグメントは、画像フラグメントと同じ線の側の穴またはギャップを充填するために適用されるように制約され、正しく解釈され得る。
8.例示的なプロセスフロー
図4Bは、本発明の例示的な実施形態による例示的なプロセスフローを示す。いくつかの例示的な実施形態では、1つまたは複数のコンピューティングデバイスまたは構成要素が、このプロセスフローを実行し得る。ブロック422において、上流デバイスは、1つまたは複数の基準ビューからの視覚シーンを描写する1つまたは複数の基準画像ではオクルードされ、1つまたは複数の基準ビューに隣接する非基準ビューでは少なくとも部分的にディスオクルードされるようになる画像フラグメントをサイズでソートする。画像フラグメントは、画像フラグメント内の任意の他の画像フラグメント以上のサイズである第1の画像フラグメントを含む。
ブロック424において、上流デバイスは、画像フラグメントを記憶するために使用されるディスオクルージョンアトラスのためのレイアウトマスクを生成する。レイアウトマスクは、第1の画像フラグメントに対して特にサイズ決定された第1の最良適合ノードを含む四分木でカバーされる。第1の適合ノードは、第1の画像セグメントを(例えば、完全に)カバーするようにサイズ決定される。
ブロック426において、上流デバイスは、レイアウトマスク内で識別された最良適合ノードにソートされた画像フラグメントを降順で記憶する。ソートされた画像フラグメント内の各画像フラグメントは、最良適合ノード内のそれぞれの最良適合ノードに記憶される。最良適合ノードは、レイアウトマスクをカバーする四分木内の少なくとも1つのノードを反復的に分割することによって取得される少なくとも1つの最良適合ノードを含む。最良適合ノードの各々は、それぞれの画像フラグメントの各々を完全にカバーするための最小サイズの四分木ノードとして識別され得る。
ブロック428において、上流デバイスは、1つまたは複数の基準画像で符号化されたボリュメトリックビデオ信号を生成する。ボリュメトリックビデオ信号は、ディスオクルージョンアトラス内の画像フラグメントを用いてさらに符号化される。1つまたは複数の基準画像は、画像ディスプレイ上にレンダリングするための非表現ビューにおける表示画像を合成するためにボリュメトリックビデオ信号の受信者デバイスによって使用される。ディスオクルージョンアトラス内の画像フラグメントは、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するために受信者デバイスによって使用される。
一実施形態では、1つまたは複数の基準画像の各々は、360度画像、180度画像、ビューポート画像、規則的な空間形状画像フレーム内の画像、または不規則な空間形状画像フレーム内の画像のうちの1つを表す。
一実施形態では、画像フラグメントの各々は、1つまたは複数の基準ビューにおいてオクルードされた連続するピクセルによって形成される空間領域について、テクスチャ画像値および深度画像値を含む。
一実施形態では、1つまたは複数の顕著性ビデオストリームのセットは、第1の顕著性ランクが割り当てられた第1の顕著性ビデオストリームと、第1の顕著性ランクよりも低い第2の顕著性ランクが割り当てられた第2の顕著性ビデオストリームとを含み、第2のビデオストリームは、利用可能なデータレートが低減されたと決定したことに応答して、後の時間にビデオストリーミングクライアントに送信されるべき1つまたは複数の顕著性ビデオストリームのセットから除去される。
一実施形態では、1つまたは複数の基準画像は、複数の連続する時点についての複数の連続するマルチビュー画像を含むマルチビュー画像グループ内のマルチビュー画像に含まれ、ディスオクルージョンアトラスは、複数の連続する時点についての複数のディスオクルージョンアトラスを含むディスオクルージョンアトラスグループに含まれる。
一実施形態では、レイアウトマスクは、複数のディスオクルージョンアトラスのために生成された複数の個別のレイアウトマスクに含まれ、グループレベルのレイアウトマスクは、和集合演算により複数の個別のレイアウトマスクから生成され、ボリュメトリックビデオ信号に符号化されたディスオクルージョンアトラスは、グループレベルのレイアウトマスクで表される。
一実施形態では、ディスオクルージョンアトラスグループは、アトラスフレームのグループとしてボリュメトリックビデオ信号に符号化され、アトラスフレームのグループは、アトラスIフレームから開始し、異なるアトラスIフレームの前に終了する。
一実施形態では、ディスオクルージョンアトラスは、マスクストライピングを含み、マスクストライピングは、ディスオクルージョンアトラスに記憶された画像フラグメントが画像セグメントの1つまたは複数の境界で接していることを示す。
一実施形態では、レイアウトマスクは、拡張前のサイズのレイアウトマスク内に最良適合ノードが見つからないと決定したことに応答して拡張される。
一実施形態では、画像フラグメントについての空間領域は、ビットマスクで識別され、画像フラグメントは、画像フラグメントについての空間領域のサイズを使用してソートされる。
一実施形態では、ディスオクルージョンアトラスに記憶された画像フラグメントは、視覚シーンから識別される1つまたは複数の顕著性領域に位置する。顕著性領域は、視覚シーンのより興味深いまたはより重要な部分または関心領域であり得る。
図4Cは、本発明の例示的な実施形態による例示的なプロセスフローを示す。いくつかの例示的な実施形態では、1つまたは複数のコンピューティングデバイスまたは構成要素が、このプロセスフローを実行し得る。
ブロック460において、下流デコーダ(例えば、受信者デバイスまたはデコーダ)が、ボリュメトリックビデオ信号を受信する。ボリュメトリックビデオ信号は、例えば図4Bを参照して上述した実施形態のいずれかで符号化/生成され得る。ボリュメトリックビデオ信号は、1つまたは複数の基準画像およびディスオクルージョンアトラス内の画像フラグメントで符号化される。ディスオクルージョンアトラスは、画像フラグメントを記憶するために使用される。1つまたは複数の基準ビューからの視覚シーンを描写する1つまたは複数の基準画像ではオクルードされ、1つまたは複数の基準ビューに隣接する非基準ビューでは少なくとも部分的にディスオクルードされるようになる画像フラグメントは、図4Bを参照して説明されたように、サイズでソートされる(ブロック422)。
ブロック462において、下流デバイスは、ボリュメトリックビデオ信号から、1つまたは複数の基準画像を復号する。
ブロック464において、下流デバイスは、ボリュメトリックビデオ信号から、ディスオクルージョンアトラス内の画像フラグメントを復号する。
ブロック466において、下流デバイスは、1つまたは複数の基準画像に基づいて、非表現ビューにおける表示画像を合成する。
ブロック468において、下流デバイスは、ディスオクルージョンアトラス内の画像フラグメントを使用して、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填する。
ブロック470において、上流デバイスは、画像ディスプレイ上に表示画像をレンダリングする。
一実施形態では、画像フラグメントの各々は、1つまたは複数の基準ビューにおいてオクルードされた連続するピクセルによって形成される空間領域について、テクスチャ画像値および深度画像値を含む。
一実施形態では、ブロック466において、表示画像を合成することは、1つまたは複数の基準ビューに利用可能なテクスチャ画像値および深度画像値を使用することを含む。
一実施形態では、合成された表示画像内のディスオクルードされた空間領域は、1つまたは複数の基準ビューに利用可能なテクスチャ画像値および深度画像値が、1つまたは複数の基準ビューに隣接する非基準ビューについて取得可能でないと決定することによって識別される。
一実施形態では、ディスオクルージョンアトラスに記憶された画像フラグメントは、視覚シーンから識別される1つまたは複数の顕著性領域に位置し、ディスオクルージョンアトラスは、合成された表示画像において1つまたは複数の顕著性領域が識別されるように、1つまたは複数の顕著性領域から離れた空間領域をカバーするためのテクスチャ画像値または深度画像値を含まない。
一実施形態では、ボリュメトリックビデオ信号は、単射関数を指定する画像メタデータを含み、単射関数は、画像フラグメント内の各ピクセルを、画像フレーム内のピクセルのピクセルロケーションから、視覚シーンが表される3次元座標系内の対応するロケーションにマッピングする。
様々な例示的な実施形態では、装置、システム、装置、または1つもしくは複数の他のコンピューティングデバイスが、説明された前述の方法のいずれかまたは一部を実行する。一実施形態では、非一時的コンピュータ可読記憶媒体は、1つまたは複数のプロセッサによって実行されると、本明細書で説明される方法を実行させる、ソフトウェア命令を記憶する。
別個の実施形態が本明細書で述べられているが、本明細書で述べられている実施形態および/または部分的な実施形態の任意の組合せが、さらなる実施形態を形成するために組み合わされ得ることに留意されたい。
9.実装機構-ハードウェアの概要
一実施形態によれば、本明細書で説明される技法は、1つまたは複数の専用コンピューティングデバイスによって実装される。専用コンピューティングデバイスは、本技法を実行するためにハードワイヤードされ得るか、または本技法を実行するように永続的にプログラムされる1つもしくは複数の特定用途向け集積回路(ASIC)もしくはフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子デバイスを含み得るか、またはファームウェア、メモリ、他の記憶装置、もしくは組合せにおけるプログラム命令にしたがって本技法を実行するようにプログラムされた1つもしくは複数の汎用ハードウェアプロセッサを含み得る。そのような専用コンピューティングデバイスはまた、本技法を達成するために、カスタムハードワイヤードロジック、ASIC、またはFPGAをカスタムプログラミングと組み合わせ得る。専用コンピューティングデバイスは、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワーキングデバイス、または本技法を実装するためにハードワイヤードおよび/またはプログラムロジックを組み込む任意の他のデバイスであり得る。
例えば、図5は、本発明の例示的な実施形態が実装され得るコンピュータシステム500を示すブロック図である。コンピュータシステム500は、情報を通信するためのバス502または他の通信機構と、情報を処理するために、バス502に結合されたハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は、例えば、汎用マイクロプロセッサであり得る。
コンピュータシステム500はまた、情報およびプロセッサ504によって実行されるべき命令を記憶するためにバス502に結合された、ランダムアクセスメモリ(RAM)または他の動的記憶デバイスなどのメインメモリ506を含む。メインメモリ506はまた、プロセッサ504によって実行されるべき命令の実行中、テンポラリ変数または他の中間情報を記憶するために使用され得る。そのような命令は、プロセッサ504にアクセス可能な非一時的記憶媒体に記憶されると、コンピュータシステム500を、命令で指定された動作を実行するようにカスタマイズされた専用マシンにする。
コンピュータシステム500は、プロセッサ504のための静的情報および命令を記憶するために、バス502に結合された読取り専用メモリ(ROM)508または他の静的記憶デバイスをさらに含む。
磁気ディスクまたは光ディスク、ソリッドステートRAMなどの記憶デバイス510が提供され、情報および命令を記憶するためにバス502に結合される。
コンピュータシステム500は、情報をコンピュータユーザに表示するために、バス502を介して、液晶ディスプレイなどのディスプレイ512に結合され得る。英数字および他のキーを含む入力デバイス514は、情報およびコマンド選択をプロセッサ504に通信するためにバス502に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ504に通信し、ディスプレイ512上でのカーソル移動を制御するためのマウス、トラックボール、またはカーソル方向キーなどのカーソル制御516である。この入力デバイスは、典型的には、第1の軸(例えば、x)および第2の軸(例えば、y)という2つの軸において2つの自由度を有し、これにより、デバイスが平面内の位置を指定することができる。
コンピュータシステム500は、カスタマイズされたハードワイヤードロジック、1つもしくは複数のASICまたはFPGA、ファームウェア、および/またはコンピュータシステムと組み合わせてコンピュータシステム500を専用マシンにするかまたは専用マシンになるようにプログラムするプログラムロジックを使用して、本明細書で説明される技法を実装し得る。一実施形態によれば、本明細書の技法は、プロセッサ504がメインメモリ506に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行することに応答して、コンピュータシステム500によって実行される。そのような命令は、記憶デバイス510などの別の記憶媒体からメインメモリ506に読み込まれ得る。メインメモリ506に含まれる命令のシーケンスの実行は、プロセッサ504に、本明細書で説明されるプロセスステップを実行させる。代替の実施形態では、ハードワイヤード回路が、ソフトウェア命令の代わりに、またはそれと組み合わせて使用されてもよい。
本明細書で使用される場合、「記憶媒体(storage media)」という用語は、機械を特定の方式で動作させるデータおよび/または命令を記憶する任意の非一時的媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含み得る。不揮発性媒体は、例えば、記憶デバイス510のような光ディスクまたは磁気ディスクを含む。揮発性媒体は、メインメモリ506などの動的メモリを含む。記憶媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テ-プもしくは任意の他の磁気データ記憶媒体、CD-ROM、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理媒体、RAM、PROM、およびEPROM、FLASH(登録商標)-EPROM、NVRAM、任意の他のメモリチップまたはカートリッジを含む。
記憶媒体は、伝送媒体とは別個であるが、伝送媒体とともに使用され得る。伝送媒体は、記憶媒体間の情報の転送に関与する。例えば、伝送媒体は、バス502を構成するワイヤを含む、同軸ケーブル、銅線、および光ファイバを含む。伝送媒体はまた、電波および赤外線データ通信中に生成されるものなどの音波または光波の形態をとることもできる。
様々な形態の媒体が、実行のためにプロセッサ504に1つまたは複数の命令の1つまたは複数のシーケンスを搬送することに関与し得る。例えば、命令は、最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送され得る。リモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話回線上で命令を送信することができる。コンピュータシステム500にローカルなモデムは、電話回線上でデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。赤外線検出器は、赤外線信号で搬送されるデータを受信することができ、適切な回路が、データをバス502上に配置することができる。バス502はデータをメインメモリ506に搬送し、プロセッサ504は、そこから命令を取り出して実行する。メインメモリ506によって受信された命令は、プロセッサ504による実行の前または後のいずれかに記憶デバイス510に記憶され得る。
コンピュータシステム500はまた、バス502に結合された通信インターフェース518を含む。通信インターフェース518は、ローカルネットワーク522に接続されたネットワークリンク520への双方向データ通信結合を提供する。例えば、通信インターフェース518は、統合サービスデジタル網(ISDN)カード、ケーブルモデム、衛星モデム、または対応するタイプの電話回線へのデータ通信接続を提供するモデムであり得る。別の例として、通信インターフェース518は、互換性のあるローカルエリアネットワーク(LAN)へのデータ通信接続を提供するLANカードであってもよい。ワイヤレスリンクを実装することもできる。任意のそのような実装形態では、通信インターフェース518は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、または光信号を送受信する。
ネットワークリンク520は、典型的には、1つまたは複数のネットワークを通して他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を通して、ホストコンピュータ524へのまたはインターネットサービスプロバイダ(ISP)526によって動作されるデータ機器への接続を提供し得る。次に、ISP526は、現在一般に「インターネット」528と呼ばれる世界規模のパケットデータ通信ネットワークを通してデータ通信サービスを提供する。ローカルネットワーク522およびインターネット528は両方とも、デジタルデータストリームを搬送する電気信号、電磁信号、または光信号を使用する。コンピュータシステム500との間でデジタルデータを搬送する、様々なネットワークを通る信号、およびネットワークリンク520上にあり通信インターフェース518を通る信号は、伝送媒体の例示的な形態である。
コンピュータシステム500は、ネットワーク(複数可)、ネットワークリンク520、および通信インターフェース518を通して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ530は、インターネット528、ISP526、ローカルネットワーク522、および通信インターフェース518を通して、アプリケーションプログラムのための要求されたコードを送信することができる。
受信されたコードは、それが受信されるとプロセッサ504によって実行され、および/または後の実行のために記憶デバイス510または他の不揮発性記憶装置に記憶され得る。
10.同等物、拡張物、代替物、およびその他
前述の明細書では、本発明の例示的な実施形態が、実装形態ごとに異なり得る多数の具体的な詳細を参照して説明されてきた。したがって、何か本発明であり、および本出願人によって本発明であると意図されているかの唯一かつ排他的なインジケータは、本出願から発行される請求項のセットであり、任意のその後の補正を含め、当該請求項が発行される特定の形態である。このような請求項に含まれる用語について本明細書に明示的に記載される任意の定義は、請求項で使用されるかかる用語の意味に適用されるものとする。したがって、請求項に明示的に記載されていない限定、要素、特性、特徴、利点または属性は、当該請求項の範囲を決して限定すべきではない。したがって、本明細書および図面は、限定的な意味ではなく例示的な意味で考慮されるべきである。
いくつかの実施形態の態様は、以下の列挙された例示的な実施形態(EEE)を含む。
EEE1.方法であって、
1つまたは複数の基準ビューからの視覚シーンを描写する1つまたは複数の基準画像ではオクルードされ、1つまたは複数の基準ビューに隣接する非基準ビューでは少なくとも部分的にディスオクルードされるようになる画像フラグメントをサイズでソートするステップであって、画像フラグメントは、画像フラグメント内の任意の他の画像フラグメント以上のサイズである第1の画像フラグメントを含む、ステップと、
画像フラグメントを記憶するために使用されるディスオクルージョンアトラスのためのレイアウトマスクを生成するステップであって、レイアウトマスクは、第1の画像フラグメントをカバーするように特にサイズ決定された第1の最良適合ノードを含む四分木でカバーされ、ディスオクルージョンアトラスは、複数のオーバーラップしていない画像フラグメントを含む最小総面積の結合画像である、ステップと、
レイアウトマスク内で識別された最良適合ノードにソートされた画像フラグメントを降順で記憶するステップであって、ソートされた画像フラグメント内の各画像フラグメントは、最良適合ノード内のそれぞれの最良適合ノードに記憶され、最良適合ノードは、レイアウトマスクをカバーする四分木内の少なくとも1つのノードを反復的に分割することによって取得される少なくとも1つの最良適合ノードを含む、ステップと、
1つまたは複数の基準画像で符号化されたボリュメトリックビデオ信号を生成するステップであって、ボリュメトリックビデオ信号は、ディスオクルージョンアトラス内の画像フラグメントを用いてさらに符号化され、1つまたは複数の基準画像は、画像ディスプレイ上にレンダリングするための非表現ビューにおける表示画像を合成するためにボリュメトリックビデオ信号の受信者デバイスによって使用され、ディスオクルージョンアトラス内の画像フラグメントは、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するために受信者デバイスによって使用される、ステップと
を含む方法。
EEE2.1つまたは複数の基準画像の各々は、360度画像、180度画像、ビューポート画像、規則的な空間形状画像フレーム内の画像、または不規則な空間形状画像フレーム内の画像のうちの1つを表す、EEE1に記載の方法。
EEE3.画像フラグメントの各々は、1つまたは複数の基準ビューにおいてオクルードされた連続するピクセルによって形成される空間領域について、テクスチャ画像値および深度画像値を含む、EEE1またはEEE2に記載の方法。
EEE4.1つまたは複数の基準画像は、複数の連続する時点についての複数の連続するマルチビュー画像を含むマルチビュー画像グループ内のマルチビュー画像に含まれ、ディスオクルージョンアトラスは、複数の連続する時点についての複数のディスオクルージョンアトラスを含むディスオクルージョンアトラスグループに含まれる、EEE1から3のいずれかに記載の方法。
EEE5.レイアウトマスクは、複数のディスオクルージョンアトラスのために生成された複数の個別のレイアウトマスクに含まれ、グループレベルのレイアウトマスクは、和集合演算により複数の個別のレイアウトマスクから生成され、ボリュメトリックビデオ信号に符号化されたディスオクルージョンアトラスは、グループレベルのレイアウトマスクで表される、EEE4に記載の方法。
EEE6.ディスオクルージョンアトラスグループは、アトラスフレームのグループとしてボリュメトリックビデオ信号に符号化され、アトラスフレームのグループは、アトラスIフレームから開始し、異なるアトラスIフレームの前に終了する、EEE4またはEEE5に記載の方法。
EEE7.ディスオクルージョンアトラスは、マスクストライピングを含み、マスクストライピングは、ディスオクルージョンアトラスに記憶された画像フラグメントが画像セグメントの1つまたは複数の境界で接していることを示す、EEE1から6のいずれかに記載の方法。
EEE8.レイアウトマスクは、拡張前のサイズのレイアウトマスク内に最良適合ノードが見つからないと決定したことに応答して拡張される、EEE1から7のいずれかに記載の方法。
EEE9.画像フラグメントについての空間領域は、ビットマスクで識別され、画像フラグメントは、画像フラグメントについての空間領域のサイズを使用してソートされる、EEE1から8のいずれかに記載の方法。
EEE10.ディスオクルージョンアトラスに記憶された画像フラグメントは、視覚シーンから識別される1つまたは複数の顕著性領域に位置する、EEE1から9のいずれかに記載の方法。
EEE11.1つまたは複数の顕著性ビデオストリームは、第1の顕著性ランクが割り当てられた第1の顕著性ビデオストリームと、第1の顕著性ランクよりも低い第2の顕著性ランクが割り当てられた第2の顕著性ビデオストリームとを含む、EEE10に記載の方法。
EEE12.方法であって、
ボリュメトリックビデオ信号から、1つまたは複数の基準画像を復号するステップと、
ボリュメトリックビデオ信号から、ディスオクルージョンアトラス内の画像フラグメントを復号するステップと、
1つまたは複数の基準画像から、非表現ビューにおける表示画像を合成するステップと、
ディスオクルージョンアトラス内の画像フラグメントを使用して、表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するステップと、
画像ディスプレイ上に表示画像をレンダリングするステップと
を含む方法。
EEE13.ボリュメトリックビデオ信号は、単射関数を指定する画像メタデータを含み、単射関数は、画像フラグメント内の各ピクセルを、画像フレーム内のピクセルのピクセルロケーションから、視覚シーンが表される3次元座標系内の対応するロケーションにマッピングする、EEE1から12のいずれかに記載の方法。
EEE14.ソフトウェア命令を記憶する非一時的コンピュータ可読記憶媒体であって、ソフトウェア命令は、1つまたは複数のプロセッサによって実行されると、EEE1から13のいずれかに記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
EEE15.1つまたは複数のプロセッサと、命令のセットを記憶する1つまたは複数の記憶媒体とを備えるコンピューティングデバイスであって、命令は、1つまたは複数のプロセッサによって実行されると、EEE1から13のいずれかに記載の方法を実行させる、コンピューティングデバイス。

Claims (18)

  1. 方法であって、
    1つまたは複数の基準ビューからの視覚シーンを描写する1つまたは複数の基準画像ではオクルードされ、前記1つまたは複数の基準ビューに隣接する非基準ビューでは少なくとも部分的にディスオクルードされるようになる画像フラグメントをサイズでソートするステップであって、前記画像フラグメントは、前記画像フラグメント内の任意の他の画像フラグメント以上のサイズである第1の画像フラグメントを含む、ステップと、
    前記画像フラグメントを記憶するために使用されるディスオクルージョンアトラスのためのレイアウトマスクを生成するステップであって、前記レイアウトマスクは、前記第1の画像フラグメントをカバーするようにサイズ決定された第1の最良適合ノードを含む四分木でカバーされ、前記ディスオクルージョンアトラスは、複数のオーバーラップしていない画像フラグメントを含む最小総面積の結合画像である、ステップと、
    前記レイアウトマスク内で識別された最良適合ノードに前記ソートされた画像フラグメントを降順で記憶するステップであって、前記最良適合ノードの各々は、それぞれの前記画像フラグメントの各々を完全にカバーするための最小サイズの四分木ノードとして識別され、前記ソートされた画像フラグメント内の各画像フラグメントは、それぞれの前記最良適合ノードに記憶され、前記最良適合ノードは、前記レイアウトマスクをカバーする前記四分木内の少なくとも1つのノードを反復的に分割することによって取得される少なくとも1つの最良適合ノードを含む、ステップと、
    前記1つまたは複数の基準画像で符号化されたボリュメトリックビデオ信号を生成するステップであって、前記ボリュメトリックビデオ信号は、前記ディスオクルージョンアトラス内の前記画像フラグメントを用いてさらに符号化され、前記1つまたは複数の基準画像は、画像ディスプレイ上にレンダリングするための非表現ビューにおける表示画像を合成するために前記ボリュメトリックビデオ信号の受信者デバイスによって使用され、前記ディスオクルージョンアトラス内の前記画像フラグメントは、前記表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するために前記受信者デバイスによって使用される、ステップと
    を含む方法。
  2. 前記1つまたは複数の基準画像の各々は、360度画像、180度画像、ビューポート画像、規則的な空間形状画像フレーム内の画像、または不規則な空間形状画像フレーム内の画像のうちの1つを表す、請求項1に記載の方法。
  3. 前記画像フラグメントの各々は、前記1つまたは複数の基準ビューにおいてオクルードされた連続するピクセルによって形成される空間領域について、テクスチャ画像値および深度画像値を含む、請求項1または2に記載の方法。
  4. 前記1つまたは複数の基準画像は、複数の連続する時点についての複数の連続するマルチビュー画像を含むマルチビュー画像グループ内のマルチビュー画像に含まれ、前記ディスオクルージョンアトラスは、前記複数の連続する時点についての複数のディスオクルージョンアトラスを含むディスオクルージョンアトラスグループに含まれる、請求項1から3のいずれか一項に記載の方法。
  5. 前記レイアウトマスクは、前記複数のディスオクルージョンアトラスのために生成された複数の個別のレイアウトマスクに含まれ、グループレベルのレイアウトマスクは、和集合演算により前記複数の個別のレイアウトマスクから生成され、前記ボリュメトリックビデオ信号に符号化された前記ディスオクルージョンアトラスは、前記グループレベルのレイアウトマスクで表される、請求項4に記載の方法。
  6. 前記ディスオクルージョンアトラスグループは、アトラスフレームのグループとして前記ボリュメトリックビデオ信号に符号化され、前記アトラスフレームのグループは、アトラスIフレームから開始し、異なるアトラスIフレームの前に終了する、請求項4または5に記載の方法。
  7. 前記ディスオクルージョンアトラスは、マスクストライピングを含み、前記マスクストライピングは、前記ディスオクルージョンアトラスに記憶された画像フラグメントが画像セグメントの1つまたは複数の境界で接していることを示す、請求項1から6のいずれか一項に記載の方法。
  8. 前記レイアウトマスクは、拡張前のサイズの前記レイアウトマスク内に最良適合ノードが見つからないと決定したことに応答して拡張される、請求項1から7のいずれか一項に記載の方法。
  9. 前記画像フラグメントについての空間領域は、ビットマスクで識別され、前記画像フラグメントは、前記画像フラグメントについての前記空間領域のサイズを使用してソートされる、請求項1から8のいずれか一項に記載の方法。
  10. 前記ディスオクルージョンアトラスに記憶された前記画像フラグメントは、前記視覚シーンから識別される1つまたは複数の顕著性領域に位置する、請求項1から9のいずれか一項に記載の方法。
  11. 方法であって、
    請求項1から10のいずれか一項に記載の方法にしたがって、1つまたは複数の基準画像およびディスオクルージョンアトラス内の画像フラグメントで符号化されたボリュメトリックビデオ信号を受信するステップと、
    前記ボリュメトリックビデオ信号から、前記1つまたは複数の基準画像を復号するステップと、
    前記ボリュメトリックビデオ信号から、前記ディスオクルージョンアトラス内の前記画像フラグメントを復号するステップと、
    前記1つまたは複数の基準画像から、非表現ビューにおける表示画像を合成するステップと、
    前記ディスオクルージョンアトラス内の前記画像フラグメントを使用して、前記表示画像におけるディスオクルードされた空間領域内のディスオクルードされた画像データを充填するステップと、
    画像ディスプレイ上に前記表示画像をレンダリングするステップと
    を含む方法。
  12. 前記画像フラグメントの各々は、前記1つまたは複数の基準ビューにおいてオクルードされた連続するピクセルによって形成される空間領域について、テクスチャ画像値および深度画像値を含む、請求項11に記載の方法。
  13. 前記表示画像を合成することは、前記1つまたは複数の基準ビューに利用可能なテクスチャ画像値および深度画像値を使用することを含む、請求項11または12に記載の方法。
  14. 前記合成された表示画像内の前記ディスオクルードされた空間領域は、前記1つまたは複数の基準ビューに利用可能な前記テクスチャ画像値および前記深度画像値が、前記1つまたは複数の基準ビューに隣接する前記非基準ビューについて取得可能でないと決定することによって識別される、請求項13に記載の方法。
  15. 前記ディスオクルージョンアトラスに記憶された前記画像フラグメントは、前記視覚シーンから識別される1つまたは複数の顕著性領域に位置し、前記ディスオクルージョンアトラスは、前記合成された表示画像において1つまたは複数の顕著性領域が識別されるように、前記1つまたは複数の顕著性領域から離れた空間領域をカバーするためのテクスチャ画像値または深度画像値を含まない、請求項12または13に記載の方法。
  16. 前記ボリュメトリックビデオ信号は、単射関数を指定する画像メタデータを含み、前記単射関数は、前記画像フラグメント内の各ピクセルを、画像フレーム内の前記ピクセルのピクセルロケーションから、前記視覚シーンが表される3次元座標系内の対応するロケーションにマッピングする、請求項1から15のいずれか一項に記載の方法。
  17. ソフトウェア命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記ソフトウェア命令は、1つまたは複数のプロセッサによって実行されると、請求項1から16のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
  18. 1つまたは複数のプロセッサと、命令のセットを記憶する1つまたは複数の記憶媒体とを備えるコンピューティングデバイスであって、命令は、1つまたは複数のプロセッサによって実行されると、請求項1から16のいずれか一項に記載の方法を実行させる、コンピューティングデバイス。

JP2022577293A 2020-06-16 2021-06-16 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート Active JP7320146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023119205A JP2023139163A (ja) 2020-06-16 2023-07-21 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063039595P 2020-06-16 2020-06-16
US63/039,595 2020-06-16
EP20180179 2020-06-16
EP20180179.2 2020-06-16
PCT/US2021/037527 WO2021257639A1 (en) 2020-06-16 2021-06-16 Supporting multi-view video operations with disocclusion atlas

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023119205A Division JP2023139163A (ja) 2020-06-16 2023-07-21 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート

Publications (2)

Publication Number Publication Date
JP2023529748A JP2023529748A (ja) 2023-07-11
JP7320146B2 true JP7320146B2 (ja) 2023-08-02

Family

ID=76731135

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022577293A Active JP7320146B2 (ja) 2020-06-16 2021-06-16 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート
JP2023119205A Pending JP2023139163A (ja) 2020-06-16 2023-07-21 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023119205A Pending JP2023139163A (ja) 2020-06-16 2023-07-21 ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート

Country Status (6)

Country Link
US (1) US20230224447A1 (ja)
EP (1) EP4162690A1 (ja)
JP (2) JP7320146B2 (ja)
KR (1) KR102597471B1 (ja)
CN (1) CN115769582A (ja)
WO (1) WO2021257639A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2584546B (en) * 2020-04-06 2021-09-01 Novasight Ltd Method and device for treating vision impairment
WO2023129214A1 (en) * 2022-01-01 2023-07-06 Leia Inc. Methods and system of multiview video rendering, preparing a multiview cache, and real-time multiview video conversion
CN114449345B (zh) * 2022-02-08 2023-06-23 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001255A1 (en) 2007-06-26 2008-12-31 Koninklijke Philips Electronics N.V. Method and system for encoding a 3d video signal, enclosed 3d video signal, method and system for decoder for a 3d video signal
US20100215251A1 (en) 2007-10-11 2010-08-26 Koninklijke Philips Electronics N.V. Method and device for processing a depth-map
WO2013168091A1 (en) 2012-05-08 2013-11-14 Sisvel Technology S.R.L. Method for generating and reconstructing a three-dimensional video stream, based on the use of the occlusion map, and corresponding generating and reconstructing device
WO2017080420A1 (en) 2015-11-09 2017-05-18 Versitech Limited Auxiliary data for artifacts –aware view synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001255A1 (en) 2007-06-26 2008-12-31 Koninklijke Philips Electronics N.V. Method and system for encoding a 3d video signal, enclosed 3d video signal, method and system for decoder for a 3d video signal
US20100215251A1 (en) 2007-10-11 2010-08-26 Koninklijke Philips Electronics N.V. Method and device for processing a depth-map
WO2013168091A1 (en) 2012-05-08 2013-11-14 Sisvel Technology S.R.L. Method for generating and reconstructing a three-dimensional video stream, based on the use of the occlusion map, and corresponding generating and reconstructing device
WO2017080420A1 (en) 2015-11-09 2017-05-18 Versitech Limited Auxiliary data for artifacts –aware view synthesis

Also Published As

Publication number Publication date
US20230224447A1 (en) 2023-07-13
JP2023529748A (ja) 2023-07-11
KR20230016705A (ko) 2023-02-02
CN115769582A (zh) 2023-03-07
KR102597471B1 (ko) 2023-11-03
WO2021257639A1 (en) 2021-12-23
EP4162690A1 (en) 2023-04-12
JP2023139163A (ja) 2023-10-03

Similar Documents

Publication Publication Date Title
US11653065B2 (en) Content based stream splitting of video data
JP6410918B2 (ja) パノラマ映像コンテンツの再生に使用するシステム及び方法
JP7320146B2 (ja) ディスオクルージョンアトラスを用いたマルチビュービデオ動作のサポート
KR102258448B1 (ko) 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치
US11528538B2 (en) Streaming volumetric and non-volumetric video
JP7378465B2 (ja) ビデオストリームを生成及びレンダリングするための装置及び方法
WO2022022501A1 (zh) 视频处理方法、装置、电子设备及存储介质
WO2019229293A1 (en) An apparatus, a method and a computer program for volumetric video
US20230215129A1 (en) Representing volumetric video in saliency video streams
CN116325769A (zh) 从多个视点流式传输场景的全景视频
CN111726598B (zh) 图像处理方法和装置
CN112738009B (zh) 数据同步方法、设备、同步系统、介质和服务器
KR20200143287A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20220054283A (ko) 3d 장면을 송신 및 렌더링하기 위한 방법들, 패치들을 생성하기 위한 방법, 및 대응하는 디바이스들 및 컴퓨터 프로그램들
Gudumasu et al. Adaptive Volumetric Video Streaming Platform
TWI817273B (zh) 即時多視像視訊轉換方法和系統
KR102658474B1 (ko) 가상 시점 합성을 위한 영상 부호화/복호화 방법 및 장치
WO2022141636A1 (en) Methods and systems for processing video streams with layer information
JP2023535994A (ja) ビューポート変化に基づくデュアルストリーム動的gopアクセス
CN113767423A (zh) 生成图像信号的装置和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221215

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230721

R150 Certificate of patent or registration of utility model

Ref document number: 7320146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150