JP2004005373A - 深さイメージに基づく3次元物体を表現するためのノード構造 - Google Patents
深さイメージに基づく3次元物体を表現するためのノード構造 Download PDFInfo
- Publication number
- JP2004005373A JP2004005373A JP2002344742A JP2002344742A JP2004005373A JP 2004005373 A JP2004005373 A JP 2004005373A JP 2002344742 A JP2002344742 A JP 2002344742A JP 2002344742 A JP2002344742 A JP 2002344742A JP 2004005373 A JP2004005373 A JP 2004005373A
- Authority
- JP
- Japan
- Prior art keywords
- image
- depth
- field
- node
- hue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/40—Tree coding, e.g. quadtree, octree
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/005—Tree description, e.g. octree, quadtree
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
Abstract
【解決手段】一群の深さイメージに基づく表現(DepthImage−BasedRepresentation:DIBR)は深さイメージ(DepthImage)フォーマット、オクツリーイメージ(OctreeImage)フォーマット、及びポイントテクスチャー(PointTexture)フォーマットを有して従来の多角形3次元表現の代案として採択される。深さイメージは、客体を自体の参照イメージの集合と対応する深さマップにより表現する。オクツリーイメージは、同じデータを簡潔な参照イメージの集合とボクセルイメージに相応するインデックスのツリーである階層的オクツリー構造のボクセルモデルとに変換する。ポイントテクスチャーは、3次元客体を規則的な2次元格子上に投影することによって3次元色相点の集合で表現する。深さイメージ及びオクツリーイメージはアニメーションバージョンを有し、この時、参照イメージは動映像に取り替えられる。
【選択図】 図26
Description
【発明の属する技術分野】
本発明は深さイメージに基づく3次元物体を表現するためのノード構造に係り、より詳細には、深さ情報を有するイメージにより客体を表現するためのノード構造に関する。
【0002】
【従来の技術】
実際のイメージのような現実的なグラフィック画面を生成することは、3次元(3−Dimensional:3D)グラフィックの研究者達にとって、研究開始当初からの究極目標である。
【0003】
従って、伝統的なレンダリング技術分野において、多角形モデル(ポリゴンモデル:Polygonalmodel)を利用する研究が種々行われた結果、非常に現実的な3D環境を提供するのに十分な程度にモデリング技術及びレンダリング技術が開発されてきた。
【0004】
しかしながら、複雑なモデルを生成するための過程は専門家の多くの努力と時間を必要とする。また、現実的で複雑な環境は莫大な量の情報を必要とし、貯蔵及び伝送において低効率を招く。
【0005】
現在、コンピュータグラフィックにおいて3D客体表現の主要な方法は、多角形モデルを使用する方法である。
任意の形状は、色多角形の集合、すなわち、三角形の集合により概略的に表現できる。
ソフトウェアアルゴリズムの飛躍的な進歩及びグラフィックハードウェアの発展により、複雑な客体及び場面をリアルタイムでかなり現実的な静止及び動映像多角形モデルに視覚化できる。
【0006】
しかし、他の方法による3D表現の研究が、ここ数年来活発に行われてきた。
これは、レンダリングの複雑さの問題や、写真のように現実的な場面を生成する場合に品質が落ちるという問題だけではなく、現実の客体をポリゴンモデルで表現しづらいという問題に起因するものである。
【0007】
厳しい条件の場合は、莫大な量の多角形が必要となるからである。例えば、人体の詳細なモデルの場合、数百万個の三角形を必要とし、これらを扱うことは容易ではない。
たとえ、3次元レーザースキャナーのように3次元測定技術分野での最近の進歩の結果、許容可能なエラーを有する稠密なデータを得る事はできるが、全体客体に対して連続的に完壁な多角形モデルを得ることは依然としてコストが多くかかって非常にむずかしい。
一方、写真のような現実的な品質を得るための多角形レンダリングアルゴリズムは、演算が複雑となるのでリアルタイムレンダリングが不可能である。
【0008】
【発明が解決しようとする課題】
本発明が解決しようとする技術的課題は、MPEG−4動映像フレームワーク拡張(MPEG−4AnimationFrameworkeXtension:AFX)に採用されてきたDIBR(depthimage−basedrepresentations)と呼ばれる、一群のコンピュータグラフィックとアニメーションのための3次元表現のための深さイメージに基づくノード構造を提供することにある。
【0009】
【課題を解決するための手段】
前記技術的課題を達成するための、本発明による深さイメージに基づくノード構造の一例は、それぞれのピクセルに対する色相を含む色相イメージが記録されるテクスチャーフィールドと、前記それぞれのピクセルに対する深さ値が記録される深さフィールドとを含む。
【0010】
本発明による深さイメージに基づくノード構造の他の例は、イメージ平面の大きさ情報が記録される大きさフィールドと、前記イメージ平面を形成するそれぞれのピクセルに対する深さ値の解像度情報が記録される解像度フィールドと、前記それぞれのピクセルに対する複数の深さ情報が記録される深さフィールドと、前記それぞれのピクセルに対する色相情報が記録される色相フィールドとを含む。
【0011】
本発明による深さイメージに基づくノード構造のまた他の例は、イメージ平面を眺める視点が記録される視点フィールドと、前記視点から前記イメージ平面までの視野領域が記録される視野フィールドと、前記視点から前記イメージ平面までの投影方法が記録される投影方法フィールドと、前記視点から可視領域の近い境界平面までの距離及び前記視点から遠い境界平面までの距離が記録される距離フィールドと、色相イメージが記録されるテクスチャーフィールドとを含む。
【0012】
本発明による深さイメージに基づくノード構造のさらに他の例は、客体を含む閉じられたキューブの側面に接することができるオクツリーリーフの最大値が記録される解像度フィールドと、前記オクツリーの内部ノードの構造が記録されるオクツリーフィールドと、前記内部ノードに対応する参照イメージのインデックスが記録されるインデックスフィールドと、前記参照イメージが記録されるイメージフィールドとを含む。
【0013】
本発明によれば、イメージ基盤モデルに対するレンダリング時間が多角形の場合のように形態的な複雑性に比例せず、一般的に参照及び出力イメージに存在するピクセルの数に比例する。さらに、イメージ基盤表現が現実世界の客体と場面に適用されれば数百万個の多角形を使用せずに低コストで自然的な場面の写真のような現実的なレンダリングが可能になる。
【0014】
【発明の実施の形態】
本出願は米国商標特許庁に仮出願された4件の出願を基礎出願として優先権を主張して出願される。以下、本出願の優先権主張の基礎になった4件の仮出願書に記載された発明を記述する。
【0015】
I.ISO/IECJTC1/SC29WG11動映像及び音響のコーディング
[1.序論]
以下、イメージに基づくレンダリング(AFXA8.3)についての主要な実験結果を説明する。
この実験は、深さ情報を有するテクスチャーを利用したイメージに基づくレンダリング技術に関するものである。また、10月に開催されたAFXadhocグループ会議期間中の57次MPEG会議以後に行われた実験結果に基づいてノード定義に加えられたいくつかの変更を提示するものである。
【0016】
[2.実験結果]
<2.1.テストモデル>
●静止客体に対して
■シンプルテクスチャーを有する深さイメージノード
◆犬
◆チラノサウルスレックス(約20個のカメラを使用した深さイメージ)
◆テラスク(モンスター)(約20個のカメラを使用した深さイメージ)
◆膽星台(約20個のカメラを使用した深さイメージ)
◆椰子(約20個のカメラを使用した深さイメージ)
■階層テクスチャーを有する深さイメージノード
◆天使
■ポイントテクスチャーを有する深さイメージノード
◆天使
■オクツリーイメージノード
◆生物
●動的客体に対して
■シンプルテクスチャーを有する深さイメージノード
◆竜
◆背景での竜
■階層テクスチャーを有する深さイメージノード
◆提供されない
■オクツリーイメージノード
◆ロボット
◆背景での竜
●今後より多くのデータ(スキャニングまたはモデリングされた)が提供されるであろう。
【0017】
<2.2.テスト結果>
●シドニーで提案されたあらゆるノードはblaxxuncontact4.3参照ソフトウェアに統合されている。しかし、まだcvsサーバーにソースが更新されていない。
●イメージに基づくレンダリング(ImageBasedRendering:IBR)に対する動的フォーマットは、それぞれの動映像ファイルから同じキーフレームに存在するイメージが同時に与えられるように、複数の動映像ファイルの間に同調される必要がある。
【0018】
しかし、現在の参照ソフトウェアは、MPEGシステムではできるだけこのような同調能力を支援しない。
従って、現在動的フォーマットは、あらゆる動的データが既にファイルに存在すると仮定することによって表面化される。暫定的にAVIフォーマットの動映像ファイルがそれぞれの動的テクスチャーに使われる。
【0019】
●階層文脈に対するいくつかの実験を実行した後、階層テクスチャーノードは効率的でないことが明らかになった。このようなノードは階層深さイメージに対して提案された。しかし、それを支援できるポイントテクスチャーノードがまた存在する。従って、ノード定義で階層テクスチャーノードを削除することを提案する。
●図1は現在参照ソフトウェアに統合されたIBRの例である。
【0020】
[3.IBRノード定義に対するアップデート]
IBR提案に対するシドニー会議の結論は、イメージ及びカメラ情報を含むIBRストリームを有さねばならず、IBRノードはそれへのリンク(url)を有すればよいということである。
しかし、Rennesで開催されたadhogグループ会議でのIBRに対する議論結果は、IBRノードとストリームのいずれもがイメージ及びカメラ情報を有さねばならないということである。
従って、IBRノードに対するノード定義は次のようにアップデートされる。
なお、IBRストリームの必要性はurlフィールドを説明する章で説明される。
【0021】
デコーダ(ビットストリーム)−ノード定義
【0022】
深さイメージノード(DepthImagenode)は一つのIBRテクスチャーを定義する。複数の深さイメージノードが互いに関連する場合、これらは一つのグループで処理されるので同じ変換ノードの下に位置せねばならない。
【0023】
diTextureフィールドは、深さを有するテクスチャーを特定する。このテクスチャーは、深さイメージノードに定義される領域にマッピングされる
それは、多様な形態の深さイメージテクスチャー(シンプルテクスチャーまたはポイントテクスチャー)の一つである。
【0024】
位置(position)及び方向(orientation)フィールドは、ローカル座標系におけるIBRテクスチャーの視点の相対的位置を特定する。
方向は基本方向に対する相対的回転を特定する一方、位置は座標系の原点(0,0,0)に相対的である。
基本位置及び方向で、観察者は右側には+X軸と垂直に+Y軸とを有する原点に向かって−Z軸を見下ろしながらZ軸上に位置する。しかし、変換階層は視点の最終位置及び方向に影響を与える。
【0025】
fieldOfViewフィールドは、位置及び方向フィールドにより定義されたカメラ視点からの視角を特定する。最初の値は水平角を意味し、第二の値は垂直角を意味する。基本値は45ラジアンである。
しかし、直交(orhogonal)フィールドが真(TRUE)と設定されればfieldOfViewフィールドは隣接平面(nearPlane)と遠接平面(farPlane)との幅と高さを意味する。
【0026】
隣接平面(nearPlane)と遠接平面(farPlane)フィールドは、視点から可視領域の隣接平面及び遠接平面までの距離を特定する。テクスチャー及び深さデータは、隣接平面、遠接平面そしてfieldOfViewにより囲まれた領域を示す。深さデータは隣接平面から遠接平面までの距離で正規化される。
【0027】
直交フィールドは、IBRテクスチャーの視覚形態を特定する。真と設定されている場合にIBRテクスチャーは直交視点に基づく。そうでない場合にIBRテクスチャーは遠近視点に基づく。
【0028】
depthImageUrlフィールドは付加的に次の内容を含みうる深さイメージストリームの住所を特定する。
●位置(position)
●方向(orientation)
●fieldOfView
●近接平面(nearPlane)
●遠接平面(farPlane)
●直交(orthogonal)
●diTexture(シンプルテクスチャーまたはポイントテクスチャー)
●上位フィールドのフラグオン/オフに対する1バイトヘッダ
●
【0029】
シンプルテクスチャーノードは単層のIBRテクスチャーを定義する。
テクスチャー(texture)フィールドは、各ピクセルに対する色相を含む平面イメージを特定する。これは多様な形態のテクスチャーノード(イメージテクスチャー、動映像テクスチャーまたはピクセルテクスチャー)のうち一つである。
深さフィールドは、テクスチャーフィールドの各画素の「深さ」を定義する。深度マップの大きさはテクスチャーフィールド画像若しくは映像のサイズと同じである。これは、多様な形態のテクスチャーノード(イメージテクスチャー、動映像テクスチャーまたはピクセルテクスチャー)のうち一つである。
深さノードがNULLである場合若しくは深さフィールドが特定されていない場合、テクスチャーフィールドのアルファチャンネルは深さマップとして利用される。
【0030】
【0031】
ポイントテクスチャー(PointTexture)ノードは複層のIBR点を特定する。
【0032】
幅(width)及び高さ(height)フィールドはテクスチャーの幅及び高さを特定する。
【0033】
深さ(depth)フィールドは横断順に投影された面で各点に対する複数の深さを特定して(正規化された座標上で)、左側下段のコーナーにある点から出発して右側に横断しながら上側にある線に移動する前に水平線で終了する。それぞれの点に対して、深さ(ピクセル)番号が先に貯蔵され、深さ番号値は次に貯蔵される。
【0034】
色相(color)フィールドは現在のピクセルの色相を定義する。順序は、それぞれの点に対する深さ(ピクセル)番号が含まれていないことを除いては、深さフィールドと同一である。
【0035】
【0036】
オクツリーイメージ(octreeimage)ノードは、オクツリー構造及びこれらの投影されたテクスチャーを定義する。全体オクツリーの閉じられたキューブの大きさは1×1×1であり、オクツリーキューブの中心はローカル座標系の原点である(0,0,0)である。
【0037】
オクツリー解像度(octreeresolution)フィールドは、閉じられたキューブの側面にかかったオクツリーリーフの最大数を特定する。オクツリーレベルは次の式を使用してオクツリー解像度から決定される。
【0038】
【数1】
【0039】
オクツリーフィールドは、オクツリー内部ノードの集合を特定する。それぞれの内部ノードはバイトにより表現される。
このようなバイトのi番目ビットの「1」は、内部ノードのi番目の子に対して子ノードが存在することを意味する。
一方、「0」は子ノードが存在しないことを意味する。
オクツリー内部ノードの順序は、オクツリーの幅優先横断順序にならねばならない。内部ノードの8個の子の順序が図2に示されている。
【0040】
オクツリーイメージ(octreeimages)フィールドは、diTextureフィールドに対してシンプルテクスチャーを有する深さイメージノードの集合を特定する。しかし、深さイメージに対する隣接平面、遠接平面フィールド及びシンプルテクスチャーで深さフィールドは使われない。
【0041】
octreeUrlフィールドは次のような内容を有するオクツリーイメージストリームの住所を特定する。
●フラグに対するヘッダ
●オクツリー解像度
●オクツリー
●オクツリーイメージ(複数の深さイメージノード)
■隣接平面は使われない
■遠接平面は使われない
■diTecture→深さを有していないシンプルテクスチャー
【0042】
II.ISO/IECJTC1/SC29WG11動映像及び音響のコーディング
【0043】
[1.序論]
以下、IBR(AFXA8.3)に対する主要な実験結果を説明する。
この実験は、深さ情報を有するテクスチャーを利用したIBR技術に関するものである。また、10月に開催されたAFXadhocグループ会議期間中の57次MPEG会議及び議論以後の実験に基づいてノード定義に加えられたいくつかの変更が提示するものである。
【0044】
[2.octreeUrlに対するストリーミングフォーマット]
<2.1.ストリームフォーマット>
オクツリーイメージノードは、オクツリーイメージストリームの住所を特定するoctreeUrlフィールドを含む。このストリームは付加的に次のような内容を含むことができる。
●フラグに対するヘッダ
●オクツリー解像度
●オクツリー
●オクツリーイメージ(複数の深さイメージノード)
■隣接平面は使われない
■遠接平面は使われない
■diTexture→深さを持っていないシンプルテクスチャー
【0045】
オクツリーフィールドはオクツリー内部ノード集合を特定する。それぞれの内部ノードはバイトにより表現される。このようなバイトのi番目ビットの「1」は、内部ノードのi番目の子に対して子ノードが存在することを意味する。
一方、「0」は、子ノードが存在しないことを意味する。オクツリー内部ノードの順序はオクツリーの幅優先横断順序にならねばならない。内部ノードの8つの子の順序が図2に示されている。
【0046】
オクツリーイメージノードのオクツリーフィールドは簡単なフォーマットである。しかし、このフィールドは、効率的なストリーミングのために、さらに圧縮しても良い。
【0047】
次に、オクツリーイメージノードのオクツリーフィールドに対する圧縮方案を記述する。
【0048】
<2.2.オクツリーフィールドに対する圧縮方案>
DIBRのオクツリー表現において、データは形態成分を表現するオクツリーフィールドで構成される。
オクツリーは閉じられたキューブ内に存在する点の集合であり、客体表面を完全に表現する。
圧縮された表現から形態の同一でない再生はかなり目立つアーチファクトを生じる。従って、形態は情報の損失なしに圧縮されねばならない。
【0049】
<2.2.1.オクツリー圧縮>
深さ優先横断オクツリー形態で表現されるオクツリーフィールドの圧縮のために、部分マッチングによる予測(PredictionbyPartialMatching:PPM)接近の一部概念を利用した無損失圧縮方法を開発した。
【0050】
この方法における主要な思想は、“文脈”と呼ばれるいくつかの以前シンボルによる次のシンボルの“予測”(すなわち、確率推定)である。
それぞれの文脈に対して、文脈に存在する各シンボルの推定発生確率を示す確率テーブルが存在する。
この確率テーブルは、領域コーダと呼ばれる算術コーダと一緒に使用される。
【0051】
この方法の主要な特性は、以下の2点である。
1.子ノードに対する文脈として親ノードを使用する。
2.文脈の数を減らすために‘直交不変’推定を使用する。
【0052】
第2の思想は‘親−子’ノードの対に対する‘遷移確率’は直交変換(回転及び対称)の下で通常的に不変という観察に基づくものである。
【0053】
このような仮定は添付1に記述されている。
このような仮定により、極端に多くの確率テーブルを必要とせずに、複雑な文脈が使用可能となる。
順に、これによりデータサイズ及び速度面でかなり良好な結果を得られる。多くの文脈を使用するほど推定された確率がより明確になり、従って、コードがより簡潔になる。
【0054】
コーディングは、文脈モデルによる確率テーブルの生成及び更新過程である。
提案された方法で、文脈はオクツリー構造の親−子階層においてモデリングされる。
まず、内部下位分割した後に、下位キューブの発生を表すビットを有するバイトノードと、シンボルを定義する。
従って、オクツリーでそれぞれのノードはシンボルになることができ、それらの数値は0〜255になる。確率テーブル(ProbabilisticTable:PT)は256個の整数値を含む。
全体変数の和により割られたi番目変数値(0≦i≦255)は、i番目シンボル発生頻度(確率推定)と同一である。
確率文脈テーブル(ProbabilisticContextTable:PCT)はPTの集合である。シンボルの確率はPTの一つから決定される。特定のPTの数は文脈に依存する。PCTの例が表1に示されている。
下記表1は、PCTの成分を示す表である。
【0055】
【表1】
【0056】
コーダは次のように動作する。コーダはまず0−文脈モデルを使用する(すなわち、総てのシンボルに対して一つのPTを使用し、均一分布から始まって、新しくコーディングされたシンボルの次にPTを更新する)。
【0057】
ツリーは深さ優先順序で横断される。十分な資料が収集されれば(実験的に発見値は512個のコーディングされたシンボルである)、コーダは1−文脈モデルに転換する。1−文脈モデルは次のように特定された27個の文脈を有する。
【0058】
対称及び座標軸に対して90゜回転(添付2参照)を含む32個の固定された直交変換集合を想定すれば、
これらの下位キューブに対する積層パターンによってシンボルを分類できる。
われらの方法によれば、ここではグループと呼ばれる次のような特性を有する27個のシンボル集合が存在する。2個のシンボルは同じグループに属すればこのような固定された変換のうち一つにより連結される。
【0059】
バイト表記において、グループは27個の数字の集合(添付2参照)により表現される。
確率テーブルPTは、(256個のテーブルが存在する場合は)親ノード自体には依存しない。むしろ親ノードが属するグループ(図2で親シンボルと命名された)に依存すると考える。(従って、27個のテーブル)。
転換時、総ての文脈に対する確率テーブルPTは、0−文脈PTのコピー対して設定される。そして、27個の確率テーブルPTはコーディングの際に更新される。
【0060】
2048個(さらに他の発見値)のシンボルが1−文脈モデルにコーディングされた後、文脈として対(親シンボル、ノードシンボル)を使用する2−文脈モデルに転換する。
ノードシンボルは、単純に親ノードにおける現在ノードの位置である。従って、2−文脈モデルに対して27×8個の文脈が存在する。
このようなモデルへの転換時、それぞれの文脈に対して得られた確率テーブルPTは、このような文脈の各ノード‘内部に存在する’に対して使われ、この時点から独立的に更新される。
【0061】
技術的により詳細に説明すれば、1−文脈及び2−文脈モデルに対するエンコーディングは以下のようにして進行する。
現在シンボルの文脈(すなわち、親ノード)に対して、これらのグループが決定される。このグループの決定はテーブル検索により実施される(形態分析はプログラム開発段階で実施される)。
【0062】
そして、属するグループの成分の中の(全部任意に選択された)成分について、文脈を‘標準’にする直行変換を行う。
同様の変換が、シンボル自体にも適用される(このような演算もテーブル検索として実施され、あらゆる可能な結合に対するあらゆる計算はもちろん事前に実施される)。
事実上、この計算は、シンボルの文脈を含むグループについての確率テーブルPTに存在する現在のシンボルの正確な位置の計算である。
そして、対応する確率が領域コーダに入力される。
【0063】
すなわち、親シンボルとサブノードポジションとが与えられると、グループIDと、PCTにおける確率テーブルPTの位置を識別する文脈ID(ContextID)が決定される。
確率テーブルPTにおける確率分布そして文脈IDは、領域コーダに入力される。
エンコーディング後、PCTは次のエンコーディングでの使用のために更新される。
領域コーダはビットの代りにバイトに再正規化する算術コーディングの変形であり、従って、算術符号法より0.01%低い圧縮率を有すると共に、2倍も速く動作することに注目せねばならない。
【0064】
デコーディング手順は本質的にエンコーディング手順の逆である。これは文脈決定、確率更新等において正確に同じ方法を使用するので、説明する必要がない完全に標準的な手順である。
【0065】
<2.3.テスト結果>
図3は、静止及び動的モデルに対する本接近法の比較のためのテーブルである(横軸は圧縮率を表示する)。オクツリー圧縮率は元来オクツリーの大きさと比較して約1.5〜2倍で変わり、一般的な目的の無損失圧縮性能(RARプログラムのようなLempel−Ziv基盤)が約30%良好である。
【0066】
[3.depthImageUrlに対するストリーミングフォーマット]
<3.1.ストリームフォーマット>
深さイメージノードは、深さイメージストリームのアドレスを特定するdepthImageUrlフィールドを含む。このストリームは、次のような内容を付加的に含むことができる。
【0067】
●下のフィールドのオン/オフフラグのための1バイトヘッダ
●位置(position)
●方向(orientation)
●fieldOfView
●隣接平面(nearPlane)
●遠接平面(farPlane)
●直交(orthogonal)
●diTexture(シンプルテクスチャーまたはポイントテクスチャー)
【0068】
深さイメージノードのdiTextureに使われるポイントテクスチャーノードの定義は次の通りである。
【0069】
ポイントテクスチャー(PointTexture)ノードはIBR点に対する複数の層を定義する。
幅(width)と高さ(height)フィールドとはテクスチャーの幅と高さとを特定する。
深さ(depth)フィールドは、
左側下部コーナーに存在する点から出発して、上位線に移動する前に右側に横断して水平線で終了する横断
投影面の各点(正規化された座標)の複数の深さを特定する。
【0070】
それぞれの点に対して、深さ(ピクセル)の番号がまず貯蔵され、深さ値の番号が次に貯蔵される。
色相(color)フィールドは現在のピクセルの色相を特定する。
順序はそれぞれの点に対して深さ(ピクセル)の番号が含まれないということを除いては深さフィールドと同一である。
【0071】
ポイントテクスチャーに対する深さ及び色相フィールドは処理されていないフォーマットであり、このようなフィールドの大きさはかなり大きいはずである。従って、このようなフィールドは効率的なストリーミングのために圧縮される必要がある。次の章は、ポイントテクスチャーノードのフィールドに対する圧縮方案を記述する。
【0072】
<3.2.ポイントテクスチャーに対する圧縮方案>
<3.2.1.深さフィールドの圧縮>
ポイントテクスチャーノードの深さフィールドは、単純に‘区分された閉じられたキューブ’に存在する点の集合である。底面を投影面と仮定する。
モデルに対してm×n×1大きさの格子が与えられ、点がこの格子のセル(オクツリーの場合にこれらをボクセルと称する)の中心に位置する場合、占有されたボクセルは「1」に、空いているボクセルは「0」と想定できる。
【0073】
それにより、ビット(m×n×1ビット)の結果集合は、バイトストリームで構成される。これは深さが8である層と投影面(深さの大きさが8の倍数ではない場合に、必要ならば0である最後のバイト層を保護しながら)における一般的な順序(“列方向”)により深さ(投影面に垂直の)方向に存在するボクセルを横断することによって達成される。
【0074】
従って、点の集合を8ビットグレースケールイメージの積層(多様な16ビットイメージ)として考えられる。ボクセルとビットに対応する図が図4(a)に示されている。
【0075】
例えば、図4(b)で黒色四角形は客体上の点に対応する。水平面は投影面である。
高さが16である‘スライス’を仮定し、列をバイトとする。すなわち、図面で表示された点の上に存在する列は、値「18」と「1」を有する2バイトスタック(または16−bitunsignedinteger274)を表す。
もし、このような方式で得られたバイトの集合に最適のPPM基盤圧縮方法を適用すれば良好な結果を得られる。しかし、単純な1−文脈方法をここに直接適用すれば(もちろん直交不変または階層的な文脈はここに使用できない)、これは多少低級な圧縮を招く。
【0076】
下記表2は、LDI形態表現の他の形態−BVOC、最適PPM圧縮手段により圧縮された上のバイトアレイ、及び現在使われた圧縮手段により圧縮された同じアレイに対して要求される体積テーブルである(単位:Kbytes)。
【0077】
【表2】
【0078】
<3.2.2.色相フィールド圧縮>
ポイントテクスチャーノードの色相フィールドは、客体の点に起因した色相の集合である。
オクツリーの場合とは異なり、色相フィールドは深さフィールドと一対一対応関係にある。
概念は、色相データを公知の損失技術の一つにより圧縮されうる一つのイメージで表現することである。このようなイメージで最も重要なのは、オクツリーまたは深さイメージの場合における参照イメージよりはるかに小さいということであり、これはこのような接近法の実質的な動機である。イメージは多様な自然的な順序で深さ点をスキャニングして得られる。
【0079】
まず、LDI(ポイントテクスチャー)に対するオリジナルの貯蔵フォーマットにより記録されたスキャニング順序−形態の‘深さ優先’スキャニング−を考慮する。
多重ピクセルが、単純なピクセルと同じく自然的な順序で投影面にわたってスキャニングされ、同じ多重ピクセル内部の点が深さ方向にスキャニングされる。
このようなスキャニング順序は色相の1Dアレイ(1次nonzero多重ピクセル、2次nonzero多重ピクセル)を生成する。
【0080】
深さが把握されてからすぐ点の色相は連続的にこのようなアレイから再生成されうる。
イメージ圧縮方法を適用できるようにするために、このような長いストリングを2Dアレイに一対一マッピングせねばならない。これは多様な方法により実施できる。
【0081】
色相ストリングが8×8ブロックで配列される時、下のテストで使われた接近法はいわゆる“ブロック単位スキャン”である。結果イメージは図5に示されている。
【0082】
このようなイメージの圧縮は標準JPEGを含む色々な方法により実施される。少なくともこのような形態の色相スキャンに対して[5]に記述されたテクスチャー圧縮方法を使用する時、もっと良好な結果が得られることが立証された。
【0083】
このような方法はそれぞれの8×8ブロックに対する適応ローカルパレタイジングに基づく。ここには、8倍圧縮及び12倍圧縮(ピクセル当り24ビットである‘raw’true−colorBMPフォーマットと比較した場合)の2つのモードがある。
このような形態のイメージでこのような方法の成功はそのパレット特性から正確に説明されうる。パレット特性により前面と背面とから点を混合することによって発生する地域的な色相変化を明確に考慮できる(これは“天使”の場合とはかなり異なりうる)。最適スキャンに対する調査の目的はこのような変化をできるだけ最大限度に減らすことである。
【0084】
<3.3.テスト結果>
オリジナルのフォーマット及び圧縮されたフォーマットにおけるモデル例が添付3に図示されている。
他のモデル(イナゴ)は非常に良好な一方、一部のモデル(すなわち、天使)の品質は圧縮後に依然として満足するほどではない。しかし、このような問題は適切なスキャニングで解決できると考えられる。
【0085】
はなはだしくは12倍圧縮モードが利用されることもあるので、全体的な圧縮はかなり増加する。最後に、無損失圧縮は形態圧縮で最適PPM基盤結果に接近するために改善できる。
ここに圧縮率に対するテーブルを提示する。
【0086】
【表3】
【0087】
<4.結論>
本文書には深さイメージに基づく表現に対する主要な実験結果(AFXA8.3)が記述されている。DIBRストリームが紹介されたが、DIBRストリームはDIBRノードのurlフィールドを通じて連結される。このようなストリームはそれぞれのアイテムを選択的なものにするためのフラグと共にDIBRノードに存在するあらゆるアイテムで構成される。また、オクツリー及びポイントテクスチャーデータの圧縮が検討された。
【0088】
≪添付1≫
<BVO圧縮アルゴリズムにおいて文脈直交不変の形態的意味>
直交不変の概念の例が図6に図示されている。垂直軸を中心に時計回り方向に90°回転すると仮定する。ノードとそれの以前親ノードに対する任意の積層パターンと回転後のノードを仮定する。それにより、2つの相異なるパターンが同じパターンとして取扱われうる。
【0089】
≪添付2≫
<グループと変換>
1.32個の固定された直交変換
各変換は5ビットワードにより特定される。ビット組合わせは、以下のような基本変換で構成される(すなわち、k番目ビットが1であれば対応する変換が実施される)。
●1番目ビット−x及びy軸を交換
●2番目ビット−y及びz軸を交換
●3番目ビット−y−z平面に対称
●4番目ビット−x−z平面に対称
●5番目ビット−x−y平面に対称
【0090】
<2.27グループ>
それぞれのグループに対してここにグループの順序とそれの要素のnonzeroビット数を提示する。これらはボクセル設定時にNumberOfGroup、QuantityOfGroup、及びNumberOfFillBitsに記録される。
【0091】
【表4】
【0092】
<3.シンボル及び変換>
それぞれのシンボルsに対してグループgが属するインデックスとそれをグループの‘標準’要素として取扱う変換tの値とを提示する。
シンボルの2進番号は次のようにボクセル2進座標にマッピングされる。番号のi番目ビットは2進座標x=i、y=i(1≪1)、そしてz=i(1≪2)を有する。
【0093】
【表5】
【0094】
≪添付3≫
<ポイントテクスチャー圧縮画面出力>
最適PPM基盤方法に対する形態圧縮図面が図7〜図9に示されている。
【0095】
III.深さ映像基盤表現に対する主要な実験結果
【0096】
[1.序論]
以下、深さ映像基盤表現(DepthImage−BasedRepresentation:DIBR)(AFXA8.3)に対する主要な実験結果を説明する。
この実験は、深さ情報を有するテクスチャーを利用した深さ基盤イメージ表現ノードに関するものである。
ノードはパッタヤ(Pattaya)で開催された会議で受容され、委員会草案に対する提案に含まれている。しかし、オクツリーノードと深さイメージノードとを通したこのような情報のストリーミングは依然として進行中にある。ストリーミングフォーマットは、オクツリーイメージノードに対するオクツリーフィールド及びポイントテクスチャーノードに対する深さ/色相フィールドの圧縮を含む。
【0097】
[2.DIBRフォーマット圧縮]
ここでリンクを持っていないオクツリーデータ構造の効率的な新しい無損失圧縮技術を開示する。これにより既に簡潔な表現の体積を実験により約1.5〜2倍減らすことができる。また、エントロピーコーディングと特化されたブロック基盤テクスチャー圧縮方法とを結合した中間ボクセル表現を使用するいくつかのポイントテクスチャーフォーマットに対する無損失及び損失圧縮技術を提案する。
【0098】
<2.1.オクツリーイメージ圧縮>
オクツリーイメージでオクツリーイメージフィールドとオクツリーフィールドとは個別的に圧縮される。
開示された方法は、オクツリーイメージに対しては一定程度の可視的に収容される歪曲が許容される一方で、オクツリーフィールドは損失なしに圧縮されねばならないという概念に基づいて開発された。
オクツリーイメージフィールドは、MPEG−4イメージ圧縮手段(静的モデルに対する)または動映像圧縮道具(動的モデルに対する)により圧縮される。
【0099】
<2.1.1.オクツリーフィールド圧縮>
オクツリー圧縮は、非常に簡略でリンクを持っていない2進ツリー表現の圧縮を扱っているため、オクツリーイメージ圧縮の最も重要な部分である。
しかし、実験で後述される方法は、このような構造の体積を大体元来の半分に縮めた。動的なオクツリーイメージバージョンで、オクツリーフィールドはそれぞれの3Dフレームに対して個別的に圧縮される。
【0100】
<2.1.1.1.文脈モデル>
圧縮はデータの形態的特性を明確に使用する多様な適応算術符号法(arithmeticcoding)(‘領域エンコーダ’で実行される[3][4])により実施される。
オクツリーはバイトストリームである。それぞれのバイトはツリーのノード(すなわち、サブキューブ)を示し、バイトのビットは内部的な分割後のサブキューブの占有を示す。ビットパターンはノードの積層パターンと呼ばれる。提案された圧縮アルゴリズムは次のような方式でバイトを一つずつ処理する。
【0101】
●現在バイトに対する文脈決定
●このような文脈で現在バイトの発生‘確率’(正規化された頻度)を文脈に対応する‘確率テーブル’(PT)から検索
●領域エンコーダに確率値提供
●現在文脈で現在バイト発生の頻度に1を足して現在PT更新(必要時、作業実行後に再正規化、下の詳細な説明を参照)
【0102】
従って、コーディングは文脈モデルによるPTの生成及び更新過程である。文脈基盤適応算術コーディング技術で(‘部分マッチングによる予測’のように)、シンボル文脈は一般的にいくつかの前置シンボル列である。しかし、われらの場合、オクツリー構造及びデータの形態的特性を活用することによって圧縮効率が増進される。開示された接近法はオクツリー圧縮の問題において明確に新しい2つのアイディアに基づく。
【0103】
A.現在ノードに対して、文脈はそれの親ノードまたは{親ノード、親ノードに位置した現在ノード}で構成された対のうち一つであり、
【0104】
B.特定の親ノードにおいて特定の形態的位置で与えられたノード発生‘確率’は任意の直交(回転または対称のような)変換集合に対して不変であると仮定する。
x−z平面上で−90゜回転する変換Rに対する仮定‘B’は図6に示されている。‘B’の裏面に存在する基本的な概念は、特定な形態の親ノードにおいて特定な形態の子ノードの発生確率は単にこれらの相対的な位置に依存するということである。このような仮定はPTの分析による実験で立証された。これにより、過度に多くのPTを保有せずに複雑な文脈を使用できる。順に、これによりデータサイズ及び速度面でかなり良好な結果を得られる。複雑な文脈を使用するほど推定された確率がより明確になり、従ってコードがより簡潔になることに注目せねばならない。
【0105】
これから変換集合を紹介する。確率分布は不変であると仮定する。われらの状況に適用するために、このような変換は閉じられたキューブを維持しなければならない。ユークリッド空間での直交変換の集合Gを考慮する。直交変換は、3個の基本変換(生成子)m1、m2、及びm3の任意の番号及び順序上のあらゆる成分により得られる。
【0106】
【数2】
【0107】
ここで、m1及びm2は各々x=y及びy=z平面への投影であり、m3はx=0平面への投影である。投影により生成されたグループ理論の典型的な結果のうち一つはGが48個の個別的な直交変換を含み、ある意味ではキューブを自体的に取る直交変換の最大グループである(いわゆる、coxetergroup)。例えば、図6に示された回転子Rは生成子を通じて次のように表現される。
【0108】
【数3】
【0109】
ここで、‘・’との行列乗算である。
【0110】
オクツリーノードに適用されたGからの変換は、相異なる下位キューブの積層パターンを有するノードを算出する。これによりノードの下位キューブの積層パターンによってノードを分類できる。グループ理論言語を使用する時、Gはオクツリーノードのあらゆる積層パターンに対する集合として作用すると言及する。計算によれば、22個の個別的なクラス(またグループ理論でオービットと称される)が存在する。そして、定義によりGからの変換により連結されるならば、二つのノードが同じクラスに属する。一つのクラスで要素番号は1から24まで多様であり、常に48の除数である。
【0111】
仮定‘B’の実質的な重要性は、PTが親ノードその自体に従属的でなく、単に親ノードが属するクラスに従属的であるということである。親基盤文脈に対して256個のテーブルがありえるが、前者の場合に親−子位置基盤文脈に対して付加的な256×8=2048個のテーブルが必要である一方、後者の場合に親−クラス基盤文脈に対して22個のテーブルと22×8176個のテーブルとが必要であるということに注目せねばならない。従って、相対的に少数のPTを有して同等に複雑な文脈を使用することが可能である。作成されたPTは下記表6に記載された形態をとることができる。
【0112】
【表6】
【0113】
<2.1.1.2.エンコーディング手順>
PTに対する統計をより正確にするために、エンコーディング手順の3つの過程で相異なる方式が収集される。
【0114】
●‘0−文脈モデル’とされている最初の段階で文脈を全く使用せず、均一な分布から出発して256個のエントリを保有した一つのPTを維持する。
●最初の512個のノード(実験的に発見された番号)がエンコーディングされてすぐ、親ノードを文脈として使用する‘1−文脈モデル’に転換する。転換時、0−文脈PTはあらゆる22個の文脈に対するPTに複写される。
●次の2048個のノード(他の発見値)がエンコーディングされた後、‘2−文脈モデル’に転換する。この瞬間に親パターンの1−文脈PTは同じ親パターンでそれぞれの位置に対するPTに複写される。
【0115】
このようなアルゴリズムの核心は、現在バイトに該当文脈及び確率を決定することである。これは次のように実施される。それぞれのクラスで‘標準要素’と呼ばれる一つの要素を固定する。可能な256個のノードが属するクラス及びこのような特定ノードをそれのクラスの標準要素として取扱うGから事前に計算された変換を示すマップテーブル(ClassMapTable:CMT)を貯蔵する。従って、現在ノードNの確率を決定するために次のような段階を実行する。
【0116】
●現在ノードの親Pを検索する。
●Pが属するCMTからクラスを導出し、Pを該当クラスの標準ノードとして取扱う変換Tを導出する。クラス番号はcという。
●PにTを適用し、現在ノードNがマッピングされている標準ノードで子の位置pを検索する。
●NにTを適用すれば、新しく得られた積層パターンTNはクラスcの標準ノードで位置pに存在する。
●クラス位置組合わせ(c,p)に対応するPTのエントリTNから必要な確率を導出する。
【0117】
1−文脈モデルに対して、前述した段階は明らかな方式で変更される。あらゆる変換は事前に計算されてルックアップテーブルで実施されることはいうまでもない。
ノードNのデコーディング過程でその親Pは既にデコーディングされているので、変換Tは公知のものであることに注目せねばならない。デコーディング過程であらゆる段階は対応するエンコーディング段階と完全に類似している。
最後に、確率更新手順を略述する。Pを任意の文脈に対する確率テーブルという。このような文脈でノードNの発生確率に対応するPのエントリをP(N)と命名する。われらの作業において、P(N)は整数であり、それぞれのNの発生後にP(N)は次のように更新される。
P(N)=P(N)P+A
【0118】
ここで、Aは相異なる文脈モデルに対して1から4まで典型的に変わる整数増分パラメータである。S(P)をPのあらゆるエントリの和とすれば、計算コーダ(ここでは領域コーダ)に印加されるNの確率がP(N)/S(P)として計算される。S(P)が臨界値216に到達すれば、まもなくあらゆるエントリが再正規化される。Pでゼロ値が発生しないようにするために他のエントリは2で割る一方、1に該当するエントリは変わらずに残っている。
【0119】
<2.2.ポイントテクスチャー圧縮>
ポイントテクスチャーノードは圧縮される二つのフィールド、すなわち、深さフィールドと色相フィールドとを含む。ポイントテクスチャーデータ圧縮の主な難点は次のような要件に起因する。
【0120】
●このような形式の形態表現において歪曲はかなり目立つので、形態は損失なしに圧縮されねばならない。
●色相情報はいかなる自然的な2D構造を持っていないため、イメージ圧縮技術を即刻適用できない。
【0121】
本章でポイントテクスチャーモデル圧縮に対する3つの方法を提案する。
●標準ノード表現に対する無損失圧縮
●低解像度ノード表現に対する無損失圧縮
●低解像度ノード表現に対する無損失形態圧縮及び損失色相圧縮
【0122】
このような方法は客体技術の忠実度に対する3つのレベルに対応する。第1の方法は、深さ情報を元来の32ビット正確度まで貯蔵せねばならないということを想定する。しかし、実質的に深さ情報はたびたび品質の損傷なしにはるかに少ないビット数により量子化できる。
【0123】
特に、ポイントテクスチャーモデルが多角形モデルから変換される時、量子化解像度は望ましい出力スクリーンの解像度だけでなく元来モデルが有している視覚的な精密さの実際サイズによって選択される。この場合、8〜11ビットで要件が満たされ、深さ値は初期にこのような低解像度フォーマットに貯蔵される。
【0124】
第2の方法は、このような‘低解像度’表現に対する無損失圧縮を扱う。ここで、核心的なのは、相対的に少ないビット数(標準32ビットと比較して)でもモデルの中間ボクセル表現ができ、このような中間ボクセル表現は情報に対する実質的な損失なしに深さフィールドを圧縮できるようにするということである。2つの場合において、色相情報は色相データが補助的な2Dイメージで配列された後、損失なしに圧縮されてPNGフォーマットに貯蔵される。
【0125】
最後に、第3の方法は、形態の無損失圧縮と色相データの損失圧縮とを結合することによってより高い圧縮が可能にする。後者は[6]に開示された特化されたブロック基盤テクスチャー圧縮技術により実施される。このような方法が次の下位3章で詳細に開始される。
【0126】
<2.2.1.標準ノード表現に対する無損失ポイントテクスチャー圧縮>
これは次のように動作する簡単な無損失コーディング方法である。
●深さフィールドは、オクツリーフィールド圧縮で使われたものと類似した適応領域コーダにより圧縮される。このフォーマットに対して、PTがそれぞれの1−シンボル文脈に対して維持され、文脈は単純に以前バイトであるバージョンを使用する。従って、256PTが使われる。深さフィールドはバイトストリームと見なされ、形態構造は明白に使われない。
●色相フィールドは平面実色相イメージに変換された後、圧縮される。ポイントテクスチャーモデルで点の色相は、まず臨時的な1Dアレイに深さフィールドでの深さ値のように同じ順序で記録される。モデルで全体点の個数をLとすれば、l・l≧Lが最も小さな整数になるlを計算し、辺が1である四角形イメージでこのようなlong‘ストリング’色相値を包む(必要時、検定ピクセルによりさらに包む)。次に、このようなイメージはMPEG−4無損失イメージ圧縮道具により圧縮される。本接近でPortableNetworkGraphics(PNG)フォーマットが使われる。‘天使’モデルからこのような方式により得られたイメージが図10(a)に図示されている。
【0127】
<2.2.2.低解像度ノード表現に対する無損失ポイントテクスチャー圧縮>
多くの場合に深さ情報に対する16−ビット解像度はかなり良好である。実際に、深さにおいて解像度はモデルが可視化されるスクリーンの解像度に対応されねばならない。相異なる点においてモデル深さの小さな変化がピクセルのサイズよりはるかに小さなスクリーン面での変位を導出する場合に、深さにおいてより低い解像度を使用することが当然であり、モデルはたびたび深さ値が8〜11ビットのフォーマットで表現される。そのようなモデルは大体適当な空間格子上で深さと色相値とを分離させることによって他のフォーマット、すなわち、多角形モデルから得られる。
【0128】
そのような減少された解像度表現はそれ自体が32ビットの深さを有する標準モデルの圧縮形式と見なされうる。しかし、そのようなモデルに対する中間ボクセル空間を使用するより簡単な表現が存在する。実際に、モデルの点は,区別段階により決定された空間を有する均一な空間格子のノードに属するものと見なされうる。このような観察結果を利用してより低い解像度ポイントテクスチャーの深さと色相フィールドとは次のように圧縮される。
【0129】
●以前の方法でのように、色相フィールドは無損失イメージ圧縮技術により圧縮される。
●深さフィールドはまずボクセル表現に変換され、次に以前下位章で記述された多様な領域コーダにより圧縮される。
【0130】
中間ボクセルモデルは次のように生成される。モデルの深さ解像度sによってwidth×height×2sの大きさを有する分離されたボクセル空間を想定する(幅と高さパラメータはポイントテクスチャー定義に説明されている)。本提案で、全体として可能な巨大なボクセル空間を扱う必要がなく、‘薄い’断面だけ扱えばよい。投影面で行−列は(r、c)と称し、深さ座標はdという。‘スライス’{c=定数}(すなわち、垂直面によるモデルの断面)をボクセル表現に変換する。スライスを投影面に平行した‘列’に沿ってスキャニングして、(r,c)に投影された深さ値dを有するモデルの点が存在すればボクセル(r,c,d)を‘ブラック’と設定する。このような過程が図4に図示されている。
【0131】
スライスは生成されてからすぐ1−文脈領域コーダにより圧縮され、次のスライスに対する圧縮が始まる。このような方式で非常に大きいアレイを扱うことを避けうる。PTは、それぞれの新しいスライスに対して初期化されない。広い領域のモデルに対してボクセルの小さな部分だけが黒色であり、これにより多少高い圧縮率が得られる。圧縮の解除は記述された過程を逆にすることにより実施される。
【0132】
このような方法及びオクツリー表現による圧縮の比較が3章に示されている。しかし、規則的でないイメージは歪曲なしに大きく圧縮されないため、全体的なモデルの圧縮率は色相フィールドにより決定される。次の下位章で無損失形態圧縮技術と損失色相圧縮技術との結合について考慮する。
【0133】
<2.2.3.低解像度ポイントテクスチャー表現に対する無損失形態圧縮及び損失色相圧縮>
以前の方法のように、この方法は深さフィールドをボクセル表現に変換した後、適応1−文脈領域コーダにより圧縮する。色相フィールドはまた2Dイメージでマッピングされる。しかし、3D空間にある近い点を2Dイメージ平面にある隣接した点にマッピングするためにマッピングを構成しようとする。その後、特化されたテクスチャー圧縮方法(適応ブロックパーティション(AdaptiveBlockPartition:ABP))が結果イメージに適用される。該当アルゴリズムの主な段階は次の通りである。
【0134】
1.ポイントテクスチャーモデルの4個の連続的な‘垂直平面’の‘スライス’をボクセル表現に変換する。
2.得られたwidth×4×2sボクセルアレイを次によりスキャンする。
【0135】
●投影面に平行した‘列’に沿って4×4×4ボクセル下位キューブの垂直‘平面’を投影面に最も近い列から列順に横断する(すなわち、通常的な2Dアレイ横断順序)。
【0136】
●オクツリーイメージノード下位キューブ横断で使われたものと類似した順序でそれぞれの4×4×4内部のボクセルを横断する。
3.このような横断順序で互いに出合うモデルの点の色相を補助1Dアレイに記録する。
4.得られた色相アレイを2Dイメージに再配列する。
5.連関性のある64個の色相サンプルが8−by−8ピクセルブロックに列方向に配列され、次いで次の64個のサンプルが隣接した8−by−8ピクセルアレイに配列される。
6.得られたイメージをABP技術により圧縮する。
【0137】
このような3Dアレイスキャニング及びその結果の2Dイメージへのマッピング方法は次を考慮して選択される。4×4×4下位キューブ及び8×8イメージブロックは同数のサンプルを含んでいることに注目せねばならない。
【0138】
いくつかの連続的にスキャニングされた下位キューブが8×8ブロックを満たすのに十分な色相サンプルを含めば、このようなブロックがある程度均一化されて圧縮解除後の歪曲は3Dモデル上でほとんど認識できないほどである可能性が高い。ABPアルゴリズムはローカルパレッティング[29]のアシストで互いに独立的に8×8ブロックを圧縮する。テストで、最終的な3DモデルでABP圧縮により導入された歪曲はJPEGより非常に小さい。このようなアルゴリズムを選ぶまた他の理由は、圧縮解除速度が非常に速いということである(元来計画されたことに比べて)。圧縮率は8と12の二つの値を有することができる。ポイントテクスチャー圧縮アルゴリズムで圧縮率は8に固定される。
【0139】
しかし、このアルゴリズムはあらゆる場合に適用できるのではない。たとえ色相フィールド(図10(b))からこの方式により得られたイメージは‘自然的な’スキャニング順序に対するものよりもっと均一であっても、時に2D8×8ブロックは3D空間で距離に対応する色相サンプルを含む。この場合、損失ABP方法はモデルの距離部分を形成する色相を混合でき、これは圧縮解除後に地域的な、しかし認識可能な歪曲を招来する。
【0140】
しかし、多くのモデルに対してこのアルゴリズムは良好に機能する。図11に良好でない場合(‘天使’モデル)と良好な場合(‘モルトン256’モデル)とを図示した。二つの場合においてモデル体積の減少は約7倍である。
【0141】
<3.テスト結果>
この章では、2つの相異なるフォーマット−オクツリーイメージ及びポイントテクスチャー−を有する‘天使’と‘モルトン256’の2つのモデルを比較した結果を示す。それぞれのモデルに対する参照イメージの寸法は256×256ピクセルである。
<3.1.ポイントテクスチャー圧縮>
テーブル3ないしテーブル5に相異な圧縮方法の結果が与えられている。この実験に対するモデルは8ビットの深さフィールドを有するモデルから得られた。深さ値は32ビットの深さ値でのビット分布をより均一化して‘真の’32ビット値にある程度近づくように221+1の量子化段階を使用して(1,230)領域にかけて拡張された。
【0142】
この方法から高い圧縮率が期待されない。体積減少は典型的な実色相イメージの無損失圧縮については同じ順序である。データの形態特性はこの方法により捉えられないので、圧縮された深さ及び色相フィールドは比較する程の大きさである。
【0143】
なお、‘真の’深さ解像度をとる時にいかほど多くの同じモデルが損失なしに圧縮されうるかを説明する。以前の場合とは異なり、深さフィールドは約5〜6倍損失なしに圧縮される。これは形態データ冗長をはるかに多く言及させる中間ボクセル表現に起因する。実際に、ボクセルの小さな部分だけ黒色である。しかし、圧縮されていないモデルのサイズは32ビットの場合より小さいため、色相フィールド圧縮率は全体圧縮率を決定するが、これは32ビットの場合よりはるかに小さい(出力ファイルも同じく小さいが)。従って、少なくとも深さフィールドだけ良好に圧縮できるものが望ましい。
【0144】
第3のモデルはこのためにABPと呼ばれる損失圧縮技術を使用する。この方法はもっと高い圧縮を与える。しかし、あらゆる損失圧縮技術のように、このモデルは一定の場合に望ましくないアーチファクトを招来する。このような場合が発生する客体の例は‘天使’モデルである。
モデルの点をスキャニングする過程で空間的に距離がある点は同じ2Dイメージブロックに引き込まれる。このようなモデルの離れている点で色相は大きい差がありうる。
【0145】
一方、再構成された色相が自体の3D位置に再入力された後、標準JPEGにより発生した歪曲は絶対的に受容されないために、地域的なパレタイジングによりぼう大なほとんどのブロックを正確に圧縮できる。しかし、同じ方法により圧縮された‘モルトン256’モデルの可視品質はかなり良好であり、これは実験での大部分のモデルに該当する。
【0146】
テーブル3.32ビット深さフィールドに対する無損失ポイントテクスチャー圧縮(バイト)。
【0147】
【表7】
【0148】
テーブル4.低解像度ノード表現に対する無損失ポイントテクスチャー圧縮(バイト)
【0149】
【表8】
【0150】
テーブル5.低解像度ポイントテクスチャーに対する無損失形態及び損失色相圧縮(バイト)
【0151】
【表9】
【0152】
<3.2.オクツリーイメージ圧縮>
テーブル6は、2つのテストモデルに対する圧縮及び圧縮されていないオクツリー成分の大きさを示す。このようなフィールドの減少は約1.6〜1.9倍であることが分かる。
しかし、はなはだしくは8ビットの深さフィールドを有している圧縮されていないポイントテクスチャーモデルと比較してもオクツリーイメージははるかに簡単である。
【0153】
テーブル7には圧縮率が7.2と11.2と示されている。これは、オクツリーイメージへの変換なしに圧縮されうるポイントテクスチャー(各々6.7と6.8倍)より高い。しかし、既述したようにオクツリーイメージは不完全な色相情報を含むことができ、’天使’モデルの場合がこれに該当する。このような場合に、3D色相補間が使われる。
【0154】
整理すれば、上に提示された実験は改善された圧縮道具の効率を立証すると結論づけられる。与えられたモデルに対する最適の道具選択は、モデルの形態的複雑性、色相分布特性、要求されるレンダリング速度及び他の要因に依存する。
【0155】
テーブル6.オクツリーイメージモデルとこれらの成分に対する4.1.2.節に開示された方法によって与えられた圧縮率(Kbytesで四捨五入したファイルサイズ)
【0156】
【表10】
【0157】
テーブル7.同じモデルに対する圧縮されていないポイントテクスチャー(8ビットの深さフィールド)と圧縮されたオクツリーイメージ表現(Kbytesで四捨五入したファイルサイズ)
【0158】
【表11】
【0159】
5.ISO/IEC14496−1/PDAM4の研究に対する意見
次の改正案をISO/IEC14496−1/PDAM4(N4627)の研究に提出した後、改正されたISO/IEC14496−1/PDAM4の研究がISO/IEC14496−1/PDAM4に結合されねばならない。
【0160】
<6.5.3.1.1節 技術>
問題:直交の基本値は最も一般的に使われる値でなければならない。
解決:直交フィールドの基本値を次のように“FALSE”から“TRUE”に取り替える。
提案された改正案:
【0161】
<6.5.3.1.1節 技術>
問題:DIBRストリーミングはAFXに対して均一なストリーミング方法で実施されねばならない。
解決:DepthImageUrlフィールドを深さイメージノードから除去する。
提案された改正案:
【0162】
<6.5.3.1.2節 社説>
問題:‘正規化された(normalized)’という用語は現在文脈で深さフィールドに適用されるものとして、誤りである。
解決:第5段落で、‘正規化された’を‘スケールされた’に変更する。
提案された改正案:
nearPlaneとfarPlaneフィールドは視点から可視領域の隣接平面及び遠接平明までの距離を特定する。テクスチャー及び深さデータは隣接平面、遠接平面そしてfieldOfViewにより囲まれた領域を示す。深さデータは隣接平面から遠接平面までの距離にスケールされる。
【0163】
<6.5.3.1.2節 技術>
問題:DIBRストリーミングはAFXに対して均一なストリーミング方法で実施される。
解決:depthImageUrlフィールドに対する説明を削除する(第7段落及びそれ以下)
【0164】
<6.5.3.2.2節 社説>
問題:深さフィールドの意味が不完全に特定された。
解決:3番目段落の長さフィールド定義を次のように変更する。
提案された改正案:
深さフィールドはテクスチャーフィールドにあるそれぞれのピクセルに対する深さを特定する。深さマップのサイズはイメージまたはテクスチャーフィールドの動映像と同じサイズでなければならない。
【0165】
深さフィールドは多様な形態のテクスチャーノード(イメージテクスチャー、動映像テクスチャーまたはピクセルテクスチャー)のうち一つであり、ここで、グレースケールイメージを表現するノードだけ許容される。深さフィールドが特定されていなければ、テクスチャーフィールドにあるアルファチャンネルが深さマップとして使われる。深さマップが深さフィールドまたはアルファチャンネルを通じて特定されていなければ、結果は規定されない。
【0166】
深さフィールドによりモデルの3D点で視点を通過して隣接平面及び遠接平面に平行した平面までの実際的な距離を計算できる。
【0167】
【数4】
【0168】
ここで、dは深さ値であり、dmaxは許容可能な深さ値の最大値である。モデルの点に対してd>0であると仮定する。ここで、遠接平面に対応するdは1であり、隣接平面に対応するdはdmaxである。
【0169】
dが点と平面との距離であるため、この公式は遠近及び直交ケース両方に対して有効である。dmaxはそれぞれのピクセルに対して使われるビットにより表現されうる最も大きいd値である。
(1)深さは深さフィールドを通じて特定され、深さ値dはグレースケールと同一である。
(2)深さがテクスチャーフィールドを通じて定義されたイメージでのアルファチャンネルを通じて特定されれば、深さ値dはアルファチャンネル値と同一である。
【0170】
深さ値はまたモデルに属する点を表すために使われる。dが0でない点だけがモデルに属する。
動的深さイメージに基づくモデルに対して、diTextureとしてシンプルテクスチャーを有する深さイメージだけ使われる。
【0171】
シンプルテクスチャーの各々は次の方法のうち一つでアニメ化されうる。
(1)深さフィールドは上の条件を満足する静止イメージであり、テクスチャーフィールドは任意の動映像テクスチャーである。
(2)深さフィールドは深さフィールドで上の条件を満足する任意の動映像テクスチャーであり、テクスチャーフィールドは静止イメージである。
(3)深さ及びテクスチャーは動映像テクスチャーであり、深さフィールドは上の条件を満足する。
(4)深さフィールドは使われず、深さ情報はテクスチャーフィールドをアニメ化する動映像テクスチャーのアルファチャンネルから導出される。
【0172】
<6.5.3.3.2節 社説>
問題:深さフィールドの意味が不完全に特定された。
解決:深さフィールド定義(第3段落)を提案された改正案に取り替える。
提案された改正案:
深さ値の形態的意味及びシンプルテクスチャーに対して採択されたそれらの解釈におけるあらゆる約束はここに同じく適用する。
深さフィールドは投影面に存在するそれぞれの点に対する複数の深さを特定し、横断順序において遠接平面(上を参照)と見なされ、左側下段コーナーにある点から出発して右側に横断しながら上側にある線に移動する前に水平線で終了する。それぞれの点に対して、深さ(ピクセル)番号が先に貯蔵され、深さ番号値は次に貯蔵される。
【0173】
<6.5.3.4.1節H.1 技術>
問題:オクツリーフィールドに対して使われたフィールドタイプであるSFストリングは矛盾する値を導出することがある。
解決:オクツリーフィールドに対するフィールドタイプをNFInt32に変更する。
提案された改正案:
6.5.3.4.1節で、
H.1節で、オクツリーに対するテーブルのオクツリー列を次のように変更する。
【0174】
【表12】
【0175】
<6.5.3.4.1節 技術>
問題:DIBRストリーミングはAFXに対する均一なストリーミング方法により実施されねばならない。
解決:オクツリーイメージノードからoctreeUrlフィールドを削除する。
提案された改正案:
【0176】
<6.5.3.4.2節 社説>
問題:オクツリー解像度(octreeresolution)フィールド定義(第2段落)は誤解を招く。
解決:‘許容される(allowed)’という単語を追加して説明を改正する。
提案された改正案:
オクツリー解像度フィールドは閉じられたキューブの側面に沿う最大に許容されるオクツリーリーフの数を特定する。オクツリーレベルは次の式を使用してオクツリー解像度から決定できる。
【0177】
【数5】
【0178】
<6.5.3.4.2節 技術>
問題:DIBRストリーミングはAFXに対して均一なストリーミング方法により実施されねばならない。
解決:octreeUrlフィールドの説明(第5段落とそれ以下)を削除する。
提案された改正案:
【0179】
<6.5.3.4.2節 社説>
問題:オクツリーイメージの動映像化が不完全に記述された。
解決:6.5.3.4.2節の末尾にオクツリーイメージ動映像化を記述する段落を追加する。
提案された修正案:
オクツリーイメージの動映像化は、単に深さフィールドの代わりにオクツリーフィールドを使用することにのみ差があるだけで、上に記述された深さイメージに基づく動映像に対する最初の3つの方法と同じ接近法により実施さうる。
< H.1節 技術 >
問題:ポイントテクスチャーノードにおいて深さデータの領域が将来の応用に対しては小さすぎる。多くのグラフィック道具は自体のz−バッファに対して24ビットまたは36ビットの深さを許容する。しかし、ポイントテクスチャーにおいて深さフィールドは16ビットである[0,65535]の領域を有する。
解決:H.1節で、ポイントテクスチャーに対するテーブルの深さ列の領域を次のように変更する。
【0180】
【表13】
【0181】
IV.ISO/IECJTC1/SC29/WG11 動映像及び音響のコーディング
【0182】
[1.序論]
本文書で深さ映像基盤表現(DepthImage−BasedRepresentation:DIBR)(AFXA8.3)においてオクツリーイメージ(OctreeImage)の改善が記述される。オクツリーイメージノードはPattayaで開催された会議で受容され、委員会草案に対する提案に含まれている。しかし、客体形状の閉鎖によっていくつかの特別な場合にはレンダリング品質が満足するほどではないと観察された。本文書には、ストリーミングのためのオクツリーイメージノードの圧縮方法だけでなく、オクツリーイメージノードの改善されたバージョン−構造化された2進体積オクツリー(TexturedBinaryVolumetricOctree:TBVO)−が開示される。
【0183】
[2.構造化された2進体積オクツリー(TBVO)]
<2.1.TBVO概観>
TBVOの目標は、2進体積オクツリー(BinaryVolumeticOctree:BVO)の改善として速い視覚化が可能なより柔軟な表現/圧縮フォーマットを考案することである。これは、BVOに基づいていくつかの付加的な情報を貯蔵することによって達成される。BVOに基づいた表現はオクツリー構造及び参照イメージ集合で構成される。一方、TBVOに基づいた表現はBVOオクツリー構造及び参照イメージ集合、そしてカメラインデックスで構成される。
【0184】
BVO視覚化の主な問題はレンダリング時にそれぞれのボクセルに対応するカメラインデックスを決定せねばならないということである。このために、カメラへの投影を考慮する必要があるだけでなく、逆光を採択する過程を考慮する必要がある。最小限ボクセルが見られる所からカメラの存在を決定せねばならない。
結果的に、特定のカメラに投影されるあらゆるボクセルを探さねばならない。しかし、ブルートフォース接近法を使用するならばこのような過程は非常に遅い。われらは客体形状の大部分に対して速くて正確にこれを実行するアルゴリズムを開発した。しかし、いかなるカメラによっても見られないボクセルについては依然としていくつかの問題点が存在する。
【0185】
それぞれのボクセルに系統的な色相を貯蔵することが可能な解決法になりうる。しかし、この場合、圧縮する色相情報においていくつかの問題点がある。すなわち、ボクセル色相をイメージフォーマットとして分類してそれを圧縮すれば、隣接するボクセルの色相相関関係が破壊されて圧縮率が満足するほどではない。
【0186】
TBVOで、このような問題はあらゆるボクセルに対してカメラ(イメージ)インデックスを貯蔵することによって解決される。カメラインデックスは一般的に大きいボクセルグループに対して同一であり、これにより付加的な情報の経済的な貯蔵のためのオクツリー構造の使用が可能である。このようなモデルに対する実験で平均的に単に15%の体積増加が観察されたことに注目する必要がある。モデリングは多少複雑であるが、より柔軟な方式の任意の形状を有する客体を表現できる。
【0187】
BVOに比べてTBVOの長所はレンダリングがより単純でもっと速いということであり、実質的に客体形状に加わる制限がないということである。
【0188】
<2.2.TBVOの例>
本節で、TBVO表現の有効性及び核心的な要素を示す典型的な例を示す。図12(a)に“天使”に対するBVOモデルが図示されている。
【0189】
通常的な6要素構造のBVOを利用すれば、胴体と翼の一部がいかなるカメラによっても観察されず、これにより描写されたイメージは多くの可視的な‘クラック’を有する。同じモデルのTBVO表現で全部8個のカメラが使われる(箱の6面に各々にあるカメラと2個の付加的なカメラ)。
【0190】
図13(a)にはカメラインデックスのイメージが図示されている。他の色相は他のカメラインデックスを意味する。付加的なカメラはキューブの内部に位置し、前面と背面を垂直に注視する。付加的なカメラのイメージ面が図13(b)及び図13(c)に図示されている。結果的に、図12(b)に示すように、モデルに対する連続的できれいなレンダリング結果を得るようになる。
【0191】
<2.3.圧縮されていないTBVOストリーム描写>
255個のカメラで十分であり、インデックスのために1バイトまで割り当てることを提案する。TBVOストリームはシンボルストリームである。あらゆるTBVOシンボルはBVOシンボルまたは構造化されたシンボルである。構造化されたシンボルはカメラインデックスを意味し、カメラインデックスは特定の番号または“未定の”コードになりうる。以下、“未定の”コードは“?”と表示する。
【0192】
TBVOストリームは幅優先順序で横断する。われらがBVOを有していてあらゆるリーフボクセルがカメラ番号を有している場合にTBVOストリームの記述方法について説明する。これはモデリング段階で実施されねばならない。TBVOストリームはリーフノードを含んでいるあらゆるBVOノード(BVOシンボルを有していない)を幅優先順序で横断する。次の擬似コードはストリームを完壁に記述する。
【0193】
以上の過程によれば、図14(a)に示されたTBVOツリーに対するシンボルストリームが図14(b)に示されたように得られる。しかし、実質的なストリームにおいて3つの値(2個のカメラと定義されていないコード)だけ表現する必要があるので、それぞれの構造化されたシンボルはただ2ビットだけ必要である。
【0194】
<2.4.TBVO圧縮>
オクツリーイメージノードでオクツリーイメージとオクツリーフィールドとは個別的に圧縮される。開示された方法は、オクツリーイメージに対しては一定程度の可視的に受け入れられる歪曲が許容されるのに対し、オクツリーフィールドは損失なしに圧縮されねばならないという概念に基づいて開発された。
【0195】
<2.4.1.オクツリーイメージフィールド圧縮>
オクツリーイメージフィールドはMPEG−4で許容されるMPEG−4イメージ圧縮(静的モデルに対する)手段または映像圧縮道具(動的モデルに対する)により圧縮される。われらの接近で、われらはオクツリーイメージに対してJPEGフォーマットを使用した(それぞれの構造を維持させながら3D視覚化に必要な点だけJPEGイメージの’少量化’と命名した一定の前処理を実行した後;すなわち、3Dレンダリング段階で使われない与えられた構造の一部は所望する分だけ概略的に圧縮されうる)。
【0196】
<2.4.2.オクツリーフィールド圧縮>
オクツリー圧縮は、既に非常に簡略でリンクのない2進ツリー表現の圧縮を取扱っているゆえに、オクツリーイメージ圧縮の最も重要な部分である。しかし、実験で後述される方法はこのような構造の体積を元の約半分に減少させた。動的のオクツリーイメージバージョンで、オクツリーフィールドはそれぞれの3Dフレームに対して個別的に圧縮される。
【0197】
<2.4.2.1.文脈モデル>
圧縮はデータの形態的特性を明確に使用する多様な適応算術コーディング(‘領域エンコーダ’で実行される)により実施される。オクツリーはバイトストリームである。それぞれのバイトはツリーのノード(すなわち、下位キューブ)を示し、バイトのビットは内部的な分割後の下位キューブの占有を示す。ビットパターンはノードの積層パターンと呼ばれる。開示された圧縮アルゴリズムは次のような方式でバイトを一つずつ処理する。
【0198】
●現在バイトに対する文脈決定
●このような文脈で現在バイトの発生‘確率’(正規化された頻度)を文脈に対応する‘確率テーブル’(PT)から検索
●領域エンコーダで確率値提供
●現在文脈で現在バイト発生の頻度に1を足して現在PT更新(必要時、作業隨行後に再正規化、下の詳細な説明を参照)
【0199】
従って、コーディングは文脈モデルによるPTの生成及び更新過程である。文脈に基づく適応算術コーディング技術で(‘部分マッチングによる予測’のように)、シンボル文脈は一般的にいくつかの前置シンボル列である。しかし、私たちの場合、オクツリー構造及びデータの形態的特性を活用することによって圧縮効率を高める。開示された接近法はオクツリー圧縮の問題において明確に新しい2つのアイディアに基づく。
【0200】
A.現在ノードに対し、文脈はそれの親ノードまたは{親ノード、親ノードに位置した現在ノード}で構成された対のうち一つであり、
B.特定の親ノードにおいて特定の形態的位置で与えられたノード発生‘確率’は任意の直交(回転または対称のような)変換集合に対して不変であると仮定する。
【0201】
x−z平面上で−90゜回転する変換Rに対する仮定‘B’は図5に示されている。‘B’の裏面に存在する基本的な概念は、特定な形態の親ノードにおいて特定な形態の子ノードの発生確率は単にこれらの相対的な位置に依存するということである。このような仮定はPTの分析による実験で立証された。
【0202】
これにより、過度に多くのPTを保有せずに複雑な文脈を使用できる。順に、これによりデータサイズ及び速度面でかなり良好な結果を得られる。複雑な文脈を使用するほど推定された確率がより明確になり、従ってコードがより簡潔になることに注目せねばならない。
【0203】
さて、変換集合を紹介する。確率分布は不変であると仮定する。われらの状況に適用するために、このような変換は閉じられたキューブを維持しなければならない。ユークリッド空間での直交変換の集合Gを考慮する。直交変換は、3個の基本変換(生成子)m1、m2、及びm3の任意の番号及び順序上のあらゆる成分により得られる。
【0204】
【数6】
【0205】
ここで、m1及びm2は各々x=y及びy=z平面への投影であり、m3はx=0平面への投影である。投影により生成されたグループ理論の典型的な結果のうち一つはGが48個の個別的な直交変換を含み、ある意味ではキューブを自体的に取る直交変換の最大グループである(いわゆる、coxetergroup[27])。例えば、図6に示された回転子Rは生成子を通じて次のように表現される。
【0206】
【数7】
【0207】
ここで、‘・’との行列乗算である。
オクツリーノードに適用されたGからの変換は、相異なる下位キューブの積層パターンを有するノードを算出する。これによりノードの下位キューブの積層パターンによってノードを分類できる。グループ理論言語を使用する時[5]、Gはオクツリーノードのあらゆる積層パターンに対する集合として作用すると言及する。計算によれば、22個の個別的なクラス(また、グループ理論でオービットと称される)が存在する。
【0208】
そして、定義によりGからの変換により連結されるならば、二つのノードが同じクラスに属する。一つのクラスで要素番号は1から24まで多様であり、常に48の除数である。
仮定‘B’の実質的な重要性は、PTが親ノードそれ自体に従属的でなく、単に親ノードが属するクラスに従属的であるということである。親基盤文脈に対して256個のテーブルがありえるが、前者の場合に親−子位置基盤文脈に対して付加的な256×8=2048個のテーブルが必要である一方、後者の場合に親−クラス基盤文脈に対して22個のテーブルと22×8176個のテーブルとが必要であるということに注目せねばならない。従って、相対的に少数のPTを有して同等に複雑な文脈を使用することが可能である。作成されたPTはテーブルIに記載された形態をとることができる。
【0209】
【表14】
【0210】
<2.4.2.2.エンコーディング手順>
PTに対する統計をより正確にするために、エンコーディング手順の3つの過程で相異なる方式が収集される。
●‘0−文脈モデル’とされる最初の段階で文脈を全く使用せず、均一な分布から出発して256個のエントリを保有した一つのPTを維持する。
●最初の512個のノード(実験的に発見された番号)がエンコーディングされてすぐ、親ノードを文脈として使用する‘1−文脈モデル’に転換する。転換時、0−文脈PTはあらゆる22個の文脈に対するPTに複写される。
●次の2048個のノード(他の発見値)がエンコーディングされた後、‘2−文脈モデル’に転換する。この瞬間に親パターンの1−文脈PTは同じ親パターンでそれぞれの位置に対するPTに複写される。
【0211】
このようなアルゴリズムの核心は、現在バイトに該当文脈及び確率を決定することである。これは次のように実施される。それぞれのクラスで‘標準要素’と呼ばれる一つの要素を固定する。可能な256個のノードが属するクラス及びこのような特定ノードをそれのクラスの標準要素として取扱うGから事前に計算された変換を示すマップテーブル(ClassMapTable:CMT)を貯蔵する。従って、現在ノードNの確率を決定するために次のような段階を実行する。
【0212】
●現在ノードの親Pを検索する。
●Pが属するCMTからクラスを導出し、Pを該当クラスの標準ノードとして取扱う変換Tを導出する。クラス番号はcという。
●PにTを適用し、現在ノードNがマッピングされている標準ノードで子の位置pを検索する。
●NにTを適用すれば、新しく得られた積層パターンTNはクラスcの標準ノードで位置pに存在する。
●クラス位置組合わせ(c,p)に対応するPTのエントリTNから必要な確率を導出する。
【0213】
1−文脈モデルに対して、前述した段階は明らかな方式で変更される。あらゆる変換は事前に計算されてルックアップテーブルで実施されることはいうまでもない。
ノードNのデコーディング過程でその親Pは既にデコーディングされているので、変換Tは公知のものであることに注目せねばならない。デコーディング過程であらゆる段階は対応するエンコーディング段階と完全に類似している。
最後に、確率更新手順を略述する。Pを任意の文脈に対する確率テーブルという。このような文脈でノードNの発生確率に対応するPのエントリをP(N)と命名する。われらの作業において、P(N)は整数であり、それぞれのNの発生後にP(N)は次のように更新される。
【0214】
【数8】
【0215】
ここで、Aは相異なる文脈モデルに対して1から4まで典型的に変わる整数増分パラメータである。S(P)をPのあらゆるエントリの和とすれば、計算コーダ(ここでは領域コーダ)に印加されるNの確率がP(N)/S(P)として計算される。S(P)が臨界値216に到達すれば、まもなくあらゆるエントリが再正規化される。Pでゼロ値が発生しないようにするために他のエントリは2で割る一方、1に該当するエントリは変わらずに残っている。
【0216】
<2.4.2.3.‘カメラノード’のエンコーディング>
それぞれのボクセルに対する構造(カメラ)番号を決定するシンボルストリームは自体に固有なPTを使用して圧縮される。先に使用した用語上ではそれは単一文脈を保有する。PTエントリはオクツリーノードに対するエントリより大きい増加分を有して更新される。残りはノードシンボルコーディングと差がない。
【0217】
<2.5.TBVO圧縮及びレンダリングの結果>
TBVO圧縮の結果が図15、17ないし19に示されている。圧縮されたサイズは圧縮されたBVOと比較される。3番目の列で括弧内の数字は圧縮された形態的な体積である。一方、最初の数字はTBVO基盤の圧縮モデル(すなわち、構造が考慮された)の総体積である。可視的な歪曲の大きさ面で、LDI→(T)BVO→LDI変換後に色相差を測定するためにPSNRが計算された。圧縮されたモデルのサイズは、あらゆる構造(最小化されたJPEGで貯蔵された、2.4.1.参照)のサイズさと圧縮された形態サイズとの和である。TBVOの場合に圧縮された形態はカメラ情報も含む。TBVOのPSNRはBVOと比較する時にかなり改善される。
【0218】
TBVOはBVOより速いレンダリングを得る。“天使”モデルにおいて、BVOのフレームレートは7.5fpsである一方、TBVO−12のフレームレートは10.8fpsである。“モルトン”モデルにおいて、BVOのフレームレートは2.1fps(セレロン(登録商標)850MHz)である一方、TBVO−12のフレームレートは3.0fpsである。他の一方、レンダリングは動的なTBVOでもっと速く実施されることが観察された。“ドラゴン”モデルにおいて、BVOのフレームレートは29fps(ペンティアムIV(登録商標)で1.8GHz)である一方、TBVO−12のフレームレートは73fpsである。
【0219】
TBVOフォーマットは相当な柔軟性を提供する。例えば、図15には12個のカメラを使用する2つの方式(TBVO−12及びTBVO−(6+6))が図示されている。TBVO−12は6個のBVOカメラ(キューブ面)とキューブの中心で面と平行するように撮影した6個のイメージを使用する。(6+6)テクスチャーは6個のBVOカメラを使用し、それから、これらカメラにより眺望可能なすべてのボクセルと、同じ6個のカメラにより眺望可能な“写真”部分を除去する(‘peel’)。このようなイメージの例が図16に図示されている。
【0220】
BVOとTBVO−6天使モデル間の質(本質的及びPSNR値)において大きな差を注目せねばならない。たとえ同じカメラ位置が使われたとしても、TBVOはいなかるカメラからも観察されないボクセルを含むあらゆるボクセルにカメラ番号を割り当てることができる。
これら番号は元の色相と最も一致するように選択される(すなわち、直接的な可視性とは関係なくそれぞれの地点に対してあらゆる‘カメラ’イメージで最上の色相一致が選択される。天使の場合、これは優れた結果を与える)。
【0221】
また、6個と12個のカメラを使用した場合間の非常に適切な‘形態’(すなわちBVO+カメラ)体積差に注目せねばならない。実際に、付加的なカメラは通常的に少ない領域を担当するので、これらの識別はまれであり、これらの構造は貧弱である(そしてよく圧縮される)。これら全ては‘天使’だけでなく下のあらゆるモデルにも適用される。
【0222】
<2.6.ノード定義>
【0223】
オクツリーイメージ(OctreeImage)ノードは対応するカメラインデックスアレイ及びオクツリーイメージ集合が存在するオクツリー構造のTBVO構造を定義する。
オクツリーイメージ(Octreeimages)フィールドはdiTextureフィールドに対してシンプルテクスチャー(SimpleTexture)を有する深さイメージ(DepthImage)ノード集合を特定する。これらシンプルテクスチャー(SimpleTexture)ノードで深さフィールドは使われない。
【0224】
直交(orthographic)フィールドは深さイメージ(DepthImage)ノードに対して真(TRUE)でなければならない。シンプルテクスチャー(SimpleTexture)各々に対してテクスチャーフィールドは客体または位置及び方向に対応する深さイメージ(DepthImage)フィールドで特定の直交カメラにより得られるような客体視点(例えば、カメラ面による客体の断面)の部分の色相情報を貯蔵する。
【0225】
それぞれのカメラに対応する客体の部分はモデル生成段階で割当てられる。位置(position)、方向(orientation)、及びテクスチャー(texture)値を利用した客体分割は、カメラの数(または、同一に含まれるオクツリーイメージの数字)を減らすと同時に、任意の選択された位置で暫定的に捕捉可能なあらゆる客体部分を含むために実施される。方向(orientation)フィールドは、カメラの視覚ベクターは単に一つの0でない成分(すなわち、閉じられたキューブ面のうち一つに垂直の成分)を有し、シンプルテクスチャー(SimpleTexture)イメージの側面は閉じられたキューブの対応する面と平行するという条件を満足せねばならない。
【0226】
オクツリー(octree)フィールドは客体形態を完全に記述する。形態は与えられた客体を構成するボクセル集合で表現される。オクツリーはツリー型のデータ構造であり、該当データ構造でそれぞれのノードはバイトにより表現される。このようなバイトのi番目ビットの1は内部ノードのi番目の子に対して子ノードが存在するということを意味する。一方、0は子ノードが存在しないことを意味する。オクツリー内部ノードの順序はオクツリーの幅優先横断順序でなければならない。内部ノードの8個の子順序が図4(b)に図示されている。全体オクツリーの閉じられたキューブのサイズは1×1×1であり、オクツリーキューブの中心は特定の座標系の原点(0,0,0)である。
【0227】
カメラID(cameraID)フィールドはボクセルに割当てられたカメラインデックスのアレイを含む。レンダリング段階でオクツリーリーフに起因した色相は、特定のインデックスを有するオクツリーイメージの一つにリーフを垂直に投影することによって決定される。インデックスはオクツリー方式で貯蔵される。
【0228】
もし、特定のカメラが特定のノードに含まれたあらゆるリーフに対して使われるならば、カメラインデックスを含むノードはストリームに入力される。そうでない場合、固定された’追加的な下位分割’コードを含むノードが入力されるが、これはカメラインデックスが現在ノード(同じ反復的な形態で)の子下位ノードに対して個別的に特定されることを意味する。もし、カメラID(cameraID)が空いているならばBVOの場合と同じくカメラインデックスはレンダリング段階が進む間に決定される。
【0229】
オクツリー解像度(octreeresolution)フィールドは、閉じられたキューブの側面に沿う最大の許容可能なオクツリーリーフの数を特定する。オクツリーのレベルは次の式を利用してオクツリー解像度から決定される。
【0230】
<2.7.ビットストリーム定義>
<2.7.1.オクツリー圧縮>
<2.7.1.1.概観>
【0231】
深さ基盤イメージ表現においてオクツリーイメージノードはオクツリー構造及びそれの投影されたテクスチャーを定義する。オクツリーイメージアレイに貯蔵されているそれぞれのテクスチャーはシンプルテクスチャーを有する深さイメージノードを通じて定義される。オクツリーイメージノードの他のフィールドはオクツリー圧縮により圧縮されることができる。
【0232】
<2.7.1.2.オクツリー>
<2.7.1.2.1.文法>
【0233】
<2.7.1.2.2.意味>
オクツリーの圧縮されたストリームはoctree_frame_start_codeの次に来るオクツリーヘッダ及び一つ以上のオクツリーフレームを含む。octree_frame_start_codeの値は常に0x000001C8である。この値はストリームのルック−アヘッドパーシングにより検出される。
【0234】
<2.7.1.3.オクツリーヘッダ>
<2.7.1.3.1.文法>
【0235】
<2.7.1.3.2.意味>
このようなクラスはオクツリー圧縮に対してヘッダ情報を読み出す。
octreeResolutionBitsにより長さが表現されるoctreeResolutionはオクツリーイメージノードのオクツリー解像度フィールドの値を含む。
【0236】
numOfTexturesはtextureNumBitsの長さであり、オクツリーイメージノードで使われるテクスチャー(またはカメラ)の番号を記述する。この値はオクツリーの各ノードに対するカメラIDの演算コーディングに使われる。textureNumBitsの値が0ならば、構造シンボルはルートノードのcurTexureを255と設定することによりコーディングされない。
【0237】
<2.7.1.4.オクツリーフレーム>
<2.7.1.4.文法>
【0238】
<2.7.1.4.2.意味>
このクラスは幅優先横断順序で一つのオクツリーフレームを読み出す。レベル0の最初のノードから出発して現在レベルのあらゆるノードを読み出した後、次のレベルのノード数はそれぞれのノードシンボルであらゆる1をカウントすることによって把握される。次のレベルで、ノードの数(nNodesInCurLevel)はストリームから読み出される。
【0239】
それぞれのノードをデコーディングする時、2.7.1.6節に開示されたように適切なcontextICが付与される。
もし、現在ノード(curTexture)に対するテクスチャー(またはカメラ)IDが親ノードにより定義されていないならば、テクスチャーIDもtextureContextIDにより定義されているテクスチャーIDに対する文脈を使用してストリームから読み出す。もし、0でない値が得られれば(textureIDが定義されていれば)、この値はまたつながるレベルであらゆる子ノードに適用される。あらゆるノードをデコーディングした後、textureIDは依然として相変らずtextureID値が割当てられていないオクツリーのリーフノードに割当てられる。
【0240】
<2.7.1.5.適応算術デコーディング>
この章ではcontextIDによってC++型の文法表現を使用してオクツリー圧縮に使われた適応算術コーダを記述する。aa_decode()はcumul_freq[]関数である。PCTは2.7.1.6節に記述されたようなPCTのアレイである。
【0241】
<2.7.1.6.デコーディング手順>
デコーディング手順の全体的な構造は2.7.1.5節に開示されている(また前述したエンコーディング手順を参考)。これは算術的にエンコーディングされた(圧縮された)TBVOモデルを構成するビットストリームからTBVOノードを獲得する方法を示す。
【0242】
デコーディング手順の各段階で、文脈番号(すなわち、使用する確率インデックス)及びPT自体を更新せねばならない。あらゆるPTの集合(整数アレイ)を確率モデル(Probabilisticmodel)と称する。i番目PTのj番目成分(成分の和で割られた)はi番目文脈でj番目シンボルの発生確率を推定する。
【0243】
PTの更新手順は次の通りである。まず、PTはあらゆるエントリが1になるように初期化される。シンボルをデコーディングする前に文脈番号(ContextID)が選択されねばならない。ContextIDは下の2.7.1.6.1.節及び2.7.1.6.2節で指摘されたように以前にデコーディングされたデータから決定される。ContextIDが得られれば2進算術デコーダを使用してシンボルをデコーディングする。次に、デコーディングされたシンボル周波数に適応段階を付加してPTを更新する。全体(積算された)テーブル成分の和が積算臨界値より大きくなれば正規化が実施される(2.7.1.5.1.参照)。
【0244】
<2.7.1.6.1.テクスチャーシンボルの文脈モデリング>
テクスチャーシンボルは一つの文脈だけでモデリングされる。これは単に一つのPTが使われることを意味する。このテーブルのサイズはnumOfTexturesの数に一つを加えたものと同じである。先ず、このテーブルは全部1に初期化される。許容可能なエントリ値の最大値は256と設定される。適応段階は32と設定される。このようなパラメータ値の組合わせによりテクスチャー番号をかなり可変的なストリームに適用することができる。
【0245】
<2.7.1.6.2.ノードシンボルの文脈モデリング>
256個の相異なるノードシンボルが存在し、それぞれのシンボルは2×2×22進ボクセルアレイを表現する。対応するシンボルを互いに変換させる3D直交変換がこのようなアレイに適用される。
座標軸に対して90*n゜(n=0,1,2,3)だけ回転及び対称させる48個の固定された直交変換集合を想定すれば、このような行列は次のように数字順に与えられる。
【0246】
同じクラスに属すればこのような変換により2個のシンボルが連結されるようにクラスと呼ばれる22個のシンボル集合が存在する。コーディング方法は次のようなPCTを生成する。シンボルのContextIDは親が属するクラスの番号または組合わせられた番号(親クラス、親ノードで現在ノード位置)と同一である。これにより意味のある統計値を得るのに必要な時間を縮めながら文脈の数をかなり減少させることができる。
【0247】
それぞれのクラスに対して、一つの基本シンボルが決定され(テーブル9参照)、それぞれのシンボルに対してクラスの基本シンボルとして取扱う直交変換が事前に計算される(実際にエンコーディング/デコーディング手順でルックアップテーブルが使われる)。シンボルに対してContextIDが決定された後、任意のシンボルに、そのシンボルの親を基本成分として取扱うようにする逆変換(すなわち、逆行列)が適用される。テーブル10にはそれぞれのシンボルに対する文脈と対応される直接変換が与えられている。
【0248】
【表15】
【0249】
テーブル9.それぞれのクラスに対する基本シンボルの例
【0250】
文脈モデルは既にデコーディングされたシンボル等の番号Nに依存する。
N<512に対して単に一つの文脈だけ存在する。PTは全部1に初期化される。PTでシンボルの数は256である。適応段階では2である。最大蓄積頻度は8192である。
【0251】
512≦N<2560(=2048+512)に対して1−文脈(文脈番号が一つのパラメータという意味でクラスの番号)モデルが使われる。このモデルは22個のPCTを使用する。ContextIDはデコーディングされたノードの親が属するクラスの番号である。親が子より先にデコーディングされるため、この番号はいつもルックアップテーブル(テーブル10参照)から決定できる。22個のPCT各々は以前段階から得られたPCTにより初期化される。各PTでシンボルの数は256である。適応段階では3である。最大蓄積周波数はまた8192である。シンボルはデコーディングされた後、上で定義された直交逆変換を利用して変換される。直交変換番号は、現在ノードシンボルの親と同じノードシンボルIDを有するテーブル10でさがすことができる。
【0252】
2560個のシンボルがデコーディングされれば、デコーダは2−文脈(次に説明されたように文脈番号が二つのパラメータで構成されるという意味で)に転換する。このモデルは176個(=22*8、すなわち、8個の位置による22個のクラス)のPCTを使用する。ここでContextIDは親クラス及び親ノードでの現在ノードの位置に依存する。このモデルに対する初期PTはそれの文脈にのみ依存する。あらゆる8位置PCTは以前段階で与えられたクラスに対して得られたPCTのクローンである。それぞれのPTでシンボルの数は256である。適応段階では4である。最大蓄積頻度はまた8192である。
【0253】
シンボルはデコーディングされた後、以前モデルのように直交逆変換(テーブル10に与えられた一つ)を利用して変換される。
それぞれのクラスに対する基本成分の形態はテーブル10を使用して容易に得ることができる。基本成分は正確に変換IDが0(番号0は同じ変換に割当てられる)に対するシンボルである。
テーブル10.ノードシンボル、シンボルのクラス番号及びシンボルをこのようなクラスの固定された基本成分とする直交変換に対する結合ルックアップテーブル
【0254】
【表16】
【表17】
【表18】
【0255】
以下、本発明による深さイメージに基づく3次元客体表現装置及び方法で使われるMPEG−4ノード規定及びオクツリーイメージフォーマットの圧縮方法についてより詳細に説明する。
【0256】
本発明は、大部分イメージと深さマップに基づいた効果的で、かつ効率的な表現を提供し、前述した利点を全的に利用する一群のデータ構造−深さイメージに基づく表現(DIBR)−を開示する。また、主要なDIBRフォーマット−シンプルテクスチャー、ポイントテクスチャー、及びオクツリーイメージ−を簡略に説明する。
【0257】
図20は色相イメージと深さマップの一例を示した図面であり、図21は階層的な深さイメージ(Layereddepthimage:LDI)の一例を示した図面((a)客体の投影、(b)階層的なピクセル))である。
シンプルテクスチャーはイメージ、対応する深さマップ、そしてカメラ説明(カメラの位置、方向及び形態、直交または遠近)で構成されたデータ構造である。一つのシンプルテクスチャーの表現容量はビルディングの正面のような客体に制限される。深さマップを有する正面イメージにより実質的な角度領域で正面視点を再構成できる。
【0258】
しかし、参照イメージがビルディング面の潜在的にみえることができるあらゆる部分を含む場合に、適切な位置に配置されたカメラにより生成されたシンプルテクスチャーの集合で全体ビルディングを表現できる。もちろん、これは木、人体、自動車にも適用される。さらに、シンプルテクスチャーの集合は3D動映像データを取扱うためのかなり自然な手段を提供する。この場合、参照イメージは参照ビデオストリームと共に再配置される。それぞれの3Dフレームに対する深さマップはこのようなビデオストリームのアルファチャンネル値によるか、分離されたグレースケールビデオストリームにより表現される。このような形態の表現で、イメージは損失圧縮フォーマットのように、たとえばJPEGに貯蔵されうる。これは色相情報の量を大きく減少させ、特に動映像の場合にそうである。しかし、形態情報(深さマップ)は損失なしに圧縮されねばならず、これは貯蔵容量の全体的な減少に影響を及ぼす。
【0259】
複雑な形態の客体の場合、時には当然な数の参照イメージで可視的な面全体を覆うことが容易ではない。その場合に望ましい表現はポイントテクスチャーである。このフォーマットも参照イメージ及び深さマップを保有するが、この場合、二つには多重値が付与される。カメラにより提供されたそれぞれの視線(直交または遠近)、あらゆる線の交差点に対して色相及び距離が客体と共に貯蔵される。交差点の数は線ごとに異なる。いくつかのポイントテクスチャーよりなる集合は複雑な客体の場合にも非常に詳細な表現を提供する。しかし、このフォーマットはシンプルテクスチャーの2D規則性の大部分に欠けていて自然なイメージ基盤圧縮形態を有することができない。同じ理由で、このフォーマットは単に静止客体に対して使われる。
【0260】
オクツリーイメージフォーマットは、‘大部分の2次元’シンプルテクスチャーと‘大部分の3次元’ポイントテクスチャーとの中間位置を占有する。オクツリーイメージは色相成分はイメージの集合で表現される一方、客体の形態をオクツリー構造の体積表現(閉じられたキューブの一般的な2進分割の階層的に構成されたボクセルに貯蔵する。
【0261】
このフォーマットはまた、それぞれのリーフボクセルに対して色相を含む参照イメージのインデックスを貯蔵する付加的なオクツリー形態のデータ構造を含む。オクツリーイメージのレンダリング段階で、リーフボクセルの色相はそれを対応する参照イメージに垂直に投影することによって決定される。オクツリーイメージの形態部分に対して効率的な圧縮方法が開発された。多様な適応文脈に基づく算術コーディングが存在する。
【0262】
ここで、文脈はデータの形態的特性を明確に利用して構成される。損失圧縮参照イメージと共に圧縮を利用することによってオクツリーイメージは空間的に非常に効率的な表現になる。シンプルテクスチャーのようにオクツリーイメージは参照イメージの代りに参照ビデオストリームを有し、二つの付加的な形態を表現するオクツリーに対するストリーム及びそれぞれの3Dフレームに対応するイメージ当たりボクセルを有するアニメーションバージョンを有する。
【0263】
DIBR群の新しいバージョンのMPEG−4標準のために開発されてきたし、MPEG−4AFXに含まれるように採択された。AFXは総合的なMPEG−4環境のためのより向上した特徴を提供し、関連のあるアニメーションコンテンツに対して再使用可能な構造(現存のMPEG−4構造を利用できる)を算出する共用できる道具の集合を含む。それぞれのAFXツールはBIFS(BinaryFormatforScenes)ノード、総合的なストリーム、及び音響−映像ストリームとの互換性を示す。
【0264】
AFXの現バージョンは提案するDIBRだけでなく動映像に対する高級レベル描写(すなわち、動映像に基づいた骨格と皮膚)、向上したレンダリング(すなわち、手順的なテクスチャーマッピング、光フィールドマッピング)、簡略な表現(すなわち、NURBS曲面、ソリッド表現、下位分割曲面)、低伝送率アニメーション(すなわち、キーフレームアニメーション圧縮)等で構成される。
【0265】
DIBRフォーマットは、ユーザーに特定の作業に最も適した柔軟な道具を提供して、以前に提案された他のアイディアの長所と結合するように考案された。例えば、非動映像シンプルテクスチャー及びポイントテクスチャーは知られたフォーマットの特別な場合である一方、オクツリーイメージは全く新しい表現である。しかし、MPEG−4状況で、3つの基本DIBRフォーマットはいずれもビルディングブロックと見なされることができ、MPEG−4構造によりこれらを結合することは、本文献で提案されたイメージ基盤表現の多くを包括するだけでなく新しいフォーマットを構成するにあたって相当な潜在力を付与する。
【0266】
以下、深さイメージに基づく表現を説明する。
前述された概念及び発明者が開発したいくつかを考慮して次のMPEG−4AFXに使用するためのシンプルテクスチャー、ポイントテクスチャー、そしてオクツリーイメージのようなイメージ基盤フォーマットの集合を提案した。シンプルテクスチャー及びオクツリーイメージはアニメーションバージョンを有する。
【0267】
シンプルテクスチャーは深さイメージと結合された一つのイメージである。シンプルテクスチャーは緩和テクスチャーに相応する一方、ポイントテクスチャーはLDIに相応する。
【0268】
ブロック構成時、シンプルテクスチャー及びポイントテクスチャーに基づいてMPEG−4構造を使用する多様な表現を生成できる。公式的な規定は後述し、ここでは結果を形態的に記述する。
深さイメージ構造は結合されるボックス、空間上の位置及びいくつかの他の情報と共にシンプルテクスチャーまたはポイントテクスチャーを規定する。深さイメージ集合は変換ノードと呼ばれる一つの構造の下に統合され、これにより多様な有用な表現を生成できる。これらのうち二つが最も広く使われ、これらは特定のMPEG−4名称を有してはいないが、実務上これらをボックステクスチャー(BoxTexture:BT)及び一般化されたボックステクスチャー(GeneralizedBoxTexture:GBT)と称する。
【0269】
BTは客体または場面の結合キューブに対応する6個のシンプルテクスチャーの集合である一方、GBTは共に両立する3D表現を提供する任意個数のシンプルテクスチャーの集合である。BTの例が図22に図示されている。図22には、参照イメージ、深さマップ、そして結果的な3D客体が図示されている。BTは増加するワーピングアルゴリズムにより描写されることができるが、GBTにも適用可能な他の方法を使用する。GBT表現の例は図23に図示されている。図23で複雑な客体である椰子を表現するために21個のシンプルテクスチャーが使われる。
【0270】
例えば、統合メカニズムにより同じ客体または同じ客体の一部を表現するために他のカメラを有するいくつかのLDIを使用できることに注目せねばならない。従って、イメージ基盤客体と同じデータ構造、LDIツリーセル、サーフェル基盤ツリー構造は、いずれも場面の構造にシンプルテクスチャーとポイントテクスチャーの位置及び解像度を適用するにおいてはるかに強い柔軟性を提供するこのようなフォーマットの特別な場合である。
【0271】
次に構造化された2進体積オクツリー(TexturedBinaryVolumetricOctree:TBVO)について説明する。
より柔軟な表現及び速いレンダリングを有する多重解像度形態及びテクスチャーを利用するためにTBVOに基づいたオクツリーイメージ表現が開発された。TBVOの目標は2進体積オクツリー(BinaryVolumeticOctree:BVO)の改善として速い視覚化が可能なより柔軟な表現/圧縮フォーマットを考案することである。TBVOは形態を表現するBVO、参照イメージ集合、及びオクツリーノードに対応するイメージインデックスなどの3つの主な成分で構成される。
【0272】
BVO形式の形態情報は、通常的なオクツリー方式で大きなセルに結合された規則的に離れている2進(占有または非占有)ボクセルの集合である。このような表現は、深さを有するピクセル各々が3次元空間で固有な点を規定するので、深さイメージデータから’点雲’形式の媒介子を通じて容易に得られることができる。点雲のBVOへの変換は図24に図示されている。
【0273】
類似の過程により多角形モデルをBVOに変換できる。BVOのテクスチャー情報は参照イメージから得られる。参照イメージは与えられたカメラ位置と方向とでのボクセルのテクスチャーである。従って、BVO自体は参照イメージと共にモデル表現を提供する。しかし、それぞれのBVOリーフに対する参照イメージインデックスを貯蔵する付加的な構造は、より速い視覚化及び良好な品質を可能にしたことが明らかになった。
【0274】
BVO視覚化の主要な問題は、レンダリング中にそれぞれのボクセルの対応するカメラインデックスを決定せねばならないということである。このために少なくともボクセルが見えるカメラの存在を決定しなければならない。もし、単純計算方法を使用すればこのような手順は非常に遅い。このような問題の上に、いかなるカメラによっても見えないボクセルに対しては依然としていくつかの難しさが存在し、これは描写されたイメージに望ましくない雑音をもたらす。
【0275】
それぞれのボクセルに対して明確な色相を貯蔵することが可能な解決策になりうる。しかし、この場合、色相情報を圧縮するにおいていくつかの問題点がある。すなわち、ボクセル色相をイメージフォーマットでグループ化し、それを圧縮すれば隣接するボクセルの色相関連性が破壊されて圧縮率が満足できなくなる。
【0276】
TBVOでこのような問題は、あらゆるボクセルに対するイメージインデックスを貯蔵することによって解決される。インデックスは大体大きいボクセルグループに対して同一であり、これにより付加的な情報の経済的な貯蔵のためのオクツリー構造を使用できる。モデルに対する実験で、BVOと参照イメージだけを使用する表現に比べて平均的にただ15%の体積が増加することと観察された。このようなモデリングはややより複雑であるが、より柔軟な方法で任意の形態の客体を表現できる。
【0277】
スプラットのサイズはボクセルのサイズから容易に算出されるので、TBVOはスプラットを持ってレンダリングするための非常に便利な表現である。ボクセル色相は参照イメージとボクセルのイメージインデックスを使用して容易に決定される。
【0278】
次に、TBVOのストリーミングについて説明する。
255個のカメラで十分であると仮定し、インデックスに対して1バイトまで割り当てる。TBVOストリームはシンボルストリームである。あらゆるTBVOシンボルはBVOシンボルまたはテクスチャーシンボルである。テクスチャーシンボルはカメラインデックスを称し、カメラインデックスは“規定されていない”特定の番号またはコードである。
【0279】
以下、“規定されていない”コードを‘?’とする。TBVOストリームは幅優先順序で横断する。BVOを有しており、あらゆるリーフボクセルがイメージインデックスである場合にTBVOストリームの記述方法について説明する。これはモデリング段階で実施されねばならない。TBVOストリームはリーフノードを含んでいるあらゆるBVOノード(BVOシンボルを有していない)を幅優先順序で横断する。図25にはストリームを完壁に記述する擬似コードが図示されている。
【0280】
TBVOビットストリームの技術に対する例が図14に図示されている。図14(a)に示されたTBVOツリーに対するシンボルストリームは手順によって図14(c)に示されたように得られる。この例で、テクスチャーシンボルはバイトで表現される。しかし、実際的なストリームでは3個の値(2個のカメラと規定されていないコード)だけ表現すればよいので、それぞれのテクスチャーシンボルは単に3ビットだけ必要である。
【0281】
次に、DIBRアニメーションについて説明する。
アニメーションバージョンはDIBRフォーマットの二つ−シンプルテクスチャーとオクツリーイメージだけを含む深さイメージ−に対して規定される。データサイズは3Dアニメーションにおいて重要な問題のうち一つである。ビデオストリームは自然と動映像バージョンに結合されうるので実質的なデータ減少を提供するこのような特定のフォーマットを選択する。
【0282】
深さイメージに対して、アニメーションは参照イメージをMPEG−4動映像テクスチャーに取り替えることによって実施される。高品質損失映像圧縮は算出される3D客体の外形に深刻に影響を及ぼさない。深さマップを参照映像ストリームのアルファチャンネルに無損失モードに近く貯蔵されうる。レンダリング段階であらゆる参照イメージのようにフレームが受信されて圧縮が解除された後に3Dフレームが描写される。
【0283】
オクツリーイメージのアニメーションは似ている。参照イメージはMPEG−4動映像テクスチャーにより代替されて新しいオクツリーストリームが現れる。
【0284】
次に、MPEG−4ノードを定義する。
DIBRフォーマットはMPEG−4AFXノード定義に詳細に記述されている。深さイメージは、シンプルテクスチャー(SimpleTexture)またはポイントテクスチャー(PointTexture)に対する円錐視点パラメータを決定するフィールドを含む。オクツリーイメージノードは形態と参照イメージフォーマットの集合が規定されたTBVO形態で客体を表現する。場面に独立的な情報はDIBRデータ構造の特別なフィールドに貯蔵され、これによりDIBR客体の相互作用を場面の残りの部分で補正できる。DIBRノードの定義は図26に図示されている。
【0285】
図27は、深さイメージの空間的な配置を示した図面である。図9に各フィールドの意味が記載されている。深さイメージノードは一つのDIBR客体を規定する。複数の深さイメージノードが互いに関連されている時、これらはグループで処理され、従って同じ変換ノードの下に位置せねばならない。diTextureフィールドは深さを有するテクスチャー(シンプルテクスチャーまたはポイントテクスチャー)を特定し、これは深さイメージノードに規定された領域にマッピングされる。
【0286】
オクツリーイメージノードはオクツリー構造及びそれの投影されたテクスチャーを定義する。オクツリー解像度フィールドは閉じられたキューブの側面に沿うオクツリーリーフの最大個数を特定する。オクツリーフィールドはオクツリー内部ノードの集合を定義する。それぞれの内部ノードはバイトで表現される。このようなバイトのi番目ビットの1は内部ノードのi番目の子に対して子ノードが存在するということを意味する。
【0287】
一方、0は子ノードが存在しないことを意味する。オクツリー内部ノードの順序はオクツリーの幅優先横断順序でなければならない。内部ノードの8個の子順序が図14(b)に図示されている。ボクセルイメージインデックスフィールドはボクセルに割当てられたイメージインデックスの配列を含む。レンダリング段階で、オクツリーリーフに起因した色相はリーフを特定のインデックスを有するイメージに垂直に投影することによって決定される。インデックスはオクツリーと同じ形式で貯蔵される。
【0288】
もし、特定のイメージが特定のボクセルに含まれたあらゆるリーフに対して使われるならば、イメージのインデックスはストリームに入力される。そうでない場合に固定された’追加的な下位分割’コードが入力され、これはイメージインデックスが現在ボクセルの子各々に対して個別的に規定されることを意味する(同一に反復される形態に)。もし、ボクセルイメージインデックスが空いているならばイメージインデックスはレンダリング段階で決定される。イメージフィールドは、diTextureフィールドに対して単純テクスチャーを有する深さイメージノードの集合を特定する。しかし、深さイメージノードの隣接平面(nearPlane)と遠接平面(farPlane)フィールド、そして単純テクスチャーノードでの深さフィールドは使われない。
【0289】
DIBRフォーマットに対するレンダリング方法はAFX標準の一部ではないが、DIBR客体レンダリングの簡略性、速度及び品質を得るために使われる概念は説明する必要がある。本レンダリング方法は‘レンダリング原形’として使われる小さくて扁平な色相パッチのスプラットに基づく。下に略述された2つの接近法は深さイメージとオクツリーイメージとの2つの相異なる表現に適用される。レンダリング速度を向上させるためのスプラッティングのためにOpenGL関数が採用される。それにも拘わらず、ソフトウェアレンダリングも可能であり、これにより深さイメージまたはオクツリーイメージの単純な構造を利用して計算を最適化できる。
【0290】
深さイメージ客体をレンダリングするために使用する方法は極めて簡単である。しかし、それはOpenGL関数に依存してハードウェア加速器によりもっと速く動作することを言及する必要がある。この方法で、深さを有するあらゆるピクセルはレンダリングされる単純テクスチャー及び点テクスチャーから3D点に変換され、その後、このような点で小さなポリゴン(スプラット)の位置を決定してOpenGLのレンダリング関数を適用する。単純テクスチャーの場合に対するこのような過程の擬似コードが図28に図示されている。点テクスチャーの場合は正確に同じ過程で扱われる。
【0291】
スプラットのサイズは点と観察者との間の距離に適するように採択されねばならない。次のような簡単な方法が使われた。まず、与えられた3D客体の閉じられたキューブを経た均一格子に細分する。スプラットのサイズは格子各々のセルに対して計算され、この値はセル内の点に対して使われる。計算は次のように実施される。
−OpenGLによりセルをスクリーンにマッピングする。
−投影の最も大きい対角線の長さLを計算する(ピクセル単位)。
−D(スプラット径)をC・L/Nと算定する。
ここで、Nはセル面当り点個数の平均であり、Cは約1.3の発見定数である。
【0292】
このような方法はより正確な半径計算、より複雑なスプラット、アンチエーリアシングなどにより明確に改善される。しかし、このような簡単な方法も良好な見解品質を提供する。
同じ方法がオクツリーイメージのレンダリングに適用される。ここでより粗いレベルの一つでオクツリーノードがスプラットサイズの前述した計算で使われる。しかし、オクツリーイメージに対して色相情報はボクセル集合に先にマッピングされねばならない。それぞれのボクセルは対応する参照イメージインデックスを有しているので、これは非常に容易に実施される。参照イメージでピクセル位置もオクツリーストリームのパーシング過程中に把握される。オクツリーイメージボクセルの色相が決定されてすぐスプラットサイズが算定され、OpenGLに基づいたレンダリングが前述したように使われる。
【0293】
DIBRフォーマットがいくつかの3Dモデルに対して実施されてテストされた。モデルのうち一つ(“膽星台”)は実際に物理的な客体をスキャニングして得られ(Cyberware社のカラー3Dスキャナーが使われた)、ほかのものは3DS−MAXデモパッケージから変換された。テストはOpenGL加速器を装着した1.8GHzインテルペンティアムIV(登録商標)上で実施された。
多角形からDIBRフォーマットに変換する方法は以後に記述し、その後、モデリング、表現、そして相異なるDIBRフォーマットの圧縮結果を記述する。大部分のデータは深さイメージ及びオクツリーイメージに関するものである。このようなフォーマットは動映像バージョンを有して効果的に圧縮されることができる。提示されるモデルはいずれも直交カメラで構成された。これは直交カメラは一般的に‘小さな’客体を表現するのに適切な方法であるからである。距離がある環境の経済的なDIBR表現のために遠近カメラが大部分使われる。
【0294】
DIBRモデル生成は、十分な数のシンプルテクスチャーを得ることから始まる。現実世界の客体に対してこのようなデータがデジタルカメラとスキャニング装置から得られる一方、多角形客体に対してシンプルテクスチャーが計算される。次の段階は使用しようとするDIBRフォーマットに依存する。
深さイメージは簡単に得られたシンプルテクスチャーの集合である。たとえ深さマップを圧縮された形式で貯蔵できたとしても、形態において小さな歪曲がたびたびかなり目立つので無損失圧縮だけ許容される。
【0295】
参照イメージは損失圧縮形式で貯蔵できるが、この場合に前処理が必要である。JPEG損失圧縮のような公知の方法を使用することは一般的に収容できるが、特に、背景色相が‘客体’に散る地点である、客体と参照イメージの背景との境界による境界面の雑音は生成された3次元客体画面でより目立つようになる。このような問題の解決方案は、ブロックの平均色相と強度の急速な減衰を利用して境界ブロックでイメージを背景に拡張した後、JPEG圧縮を適用することである。このような効果は、背景ピクセルはレンダリングに使われないため、歪曲を歪曲が影響を及ぼさない背景に‘スキージング’することと似ている。損失圧縮された参照イメージの内部境界もやはり雑音をもたらすが、これは一般的にあまり目につかない。
【0296】
オクツリーイメージモデルを生成するために中間点基盤表現(PointBasedRepresentation:PBR)を使用する。PBRを構成する点の集合は、参照イメージに存在するピクセルに対応する深さマップに規定された距離により遷移することによって得られた色相を有する点の集合である。元のシンプルテクスチャーは結果的なPBRが十分に正確な客体表面に対する推定を提供するように構成される。
【0297】
その後、PBRは図24に示したようなオクツリーイメージに変換され、このようなフォーマットにより賦課された制限を満足する新しい完全な参照イメージ集合を生成するために使われる。同時に、オクツリーボクセルに対する参照イメージインデックスを示す付加的なデータ構造ボクセルイメージインデックスが生成される。この時、参照イメージは損失フォーマットで貯蔵されねばならず、これらはまず以前下位章で説明したように前処理される。さらに、TBVO構造は明白にボクセルイメージインデックスの体積をよりもっと縮めるので、重畳されるピクセルは捨てられ、これはボクセルイメージインデックスの体積をさらに縮める。元の参照イメージとJPEGフォーマットで処理された参照イメージの例が図29に図示されている。
【0298】
オクツリーイメージに対する損失圧縮による品質低下は無視できるほどである。しかし、時に深さイメージ客体に対しては依然として目につく。
ポイントテクスチャーモデルは、前述したように参照平面への客体投影を利用して構成される。もし、これにより十分なサンプルが生成されていなければ(これは投影ベクターにほとんど垂直の表面部分に対する場合でありうる)、付加的なシンプルテクスチャーがより多くのサンプルを提供するために構成される。得られた点の集合はその後にポイントテクスチャー構造で再構成される。
【0299】
レンダリング速度に関するデータを提示する。“椰子512”の深さイメージのレンダリング速度は約2fps(framepersecond)である(21個の単純テクスチャーであることに注目)。大きさが512である参照イメージを有してテストされた他の静的モデルは5〜6fpsでレンダリングされる。レンダリング速度は場面の複雑度に従属的ではなく参照イメージの数と解像度とに大部分従属的であることに注目せねばならない。これは多角形表現に対する重要な長所であり、特に動映像の場合にもっとそうである。動映像オクツリーイメージの“ドラゴン512”は秒当たり24フレームで視覚化される。
【0300】
“天使256”の深さイメージモデルが図22に図示されている。図30〜図34は、いくつかの他のDIBRと多角形モデルを示す。図30は“モルトン”モデルの多角形及び深さイメージの外観を比較した図面である。深さイメージモデルはJPEGフォーマットの参照イメージを使用し、レンダリングは前述された最も簡単なスプラッティングにより実施されるが、イメージ品質はかなり良好である。
【0301】
図31は、スキャニングされた“膽星台”モデルの2つの異なるバージョンを比較した図面である。モデルの上段部分にある黒い点は入力データの雑音に起因する。図32は、21個のシンプルテクスチャーよりなるより複雑な“椰子”モデルを示す。たとえ単純化されたスプラッティングを実行したとしても、その結果、一般的にリーフが3DS−MAXの元のイメージより広くなり、また良好な品質を示す。
【0302】
最後に、図33は、“ドラゴン512”オクツリーイメージアニメーションから3Dフレームを示す。図34は、ポイントテクスチャーフォーマットが優秀な品質のモデルを提供できることを示す。
本発明による深さイメージに基づくノードは、シンプルテクスチャーノード、ポイントテクスチャーノード、深さイメージノード、及びオクツリーイメージノードを含む。深さイメージノードは深さ情報と色相イメージとより構成される。色相イメージはシンプルテクスチャーノード及びポイントテクスチャーノードのうち選択される。
【0303】
客体を6個の観察視点(正面、後面、平面、背面、左面、及び右面)から注視する時、客体は6対のシンプルテクスチャーノードにより表現できる。シンプルテクスチャーノードの構造は図26に図示されている。
図26を参照すれば、シンプルテクスチャーノードはそれぞれのピクセルに対する色相を含む色相イメージが記録されるテクスチャーフィールド及びそれぞれのピクセルに対する深さ値が記録される深さフィールドで構成される。シンプルテクスチャーノードは断層のイメージ基盤表現(ImageBasedRepresentation:IBR)テクスチャーを定義する。ここで、テクスチャーは色相を有する平面イメージを意味する。
【0304】
テクスチャーフィールドには、イメージを構成するそれぞれのピクセルの色相を含む平面イメージが記録される。深さフィールドにはイメージを構成するそれぞれのピクセルに対する深さ値が記録される。深さフィールドに記録されている深さ値の集合はテクスチャーフィールドに記録されている平面イメージに対応する深さイメージを形成する。ここで深さイメージは深さ値によってグレースケールで表現された平面イメージである。動映像客体を生成するビデオフォーマットの場合に深さ情報及び色相情報は複数のイメージフレーム列である。
【0305】
テクスチャーフィールドに記録されている平面イメージ(すなわち、色相を有するイメージ)と深さフィールドに記録されている平面イメージ(すなわち、グレースケールで表現されたイメージ)とはシンプルテクスチャーノードを構成する。図1には、正面視点に対するシンプルテクスチャーノードにより表現された“モルトン”客体が図示されている。結論的に、客体は6個の視点に対して生成されたイメージ対である6個のシンプルテクスチャーノードにより表現される。図22には、6個のシンプルテクスチャーノードにより表現された“天使”客体が図示されている。
【0306】
一方、色相イメージがポイントテクスチャーノードで構成される。図21には客体を参照平面(この場合、客体から一定距離離れて客体の後面と面する平面)に投影することによって生成されるポイントテクスチャーが図示されている。
【0307】
ポイントテクスチャーノードの構造は図26に図示されている。
図26を参照すれば、ポイントテクスチャーノードは大きさフィールド、解像度フィールド、深さフィールド、及び色相フィールドで構成される。大きさフィールドにはイメージ平面の大きさ情報が記録される。大きさフィールドはイメージ平面の幅と高さとが記録される幅フィールド及び高さフィールドで構成される。イメージ平面の大きさは参照平面に投影された客体全体を含む大きさで設定される。
【0308】
解像度フィールドには客体の深さに対する解像度情報が記録される。例えば、解像度フィールドに8が記録されている場合に客体の深さは参照平面との距離を基準に256段階で表現される。
【0309】
深さフィールドにはイメージ平面を形成するそれぞれのピクセルに対する複数の深さ情報が記録される。深さ情報は、イメージ平面に投射されたピクセルの数とそれぞれのピクセルの深さ値とが順次に記録された行列である。色相フィールドにはイメージ平面に投射されたそれぞれのピクセルに対する色相情報が記録される。色相情報は、イメージ平面に投射されたピクセル各々に対する深さ値に対応する色相値が順次に記録された行列である。
深さイメージノードを構成する視点情報は視点フィールド、視野フィールド、投影方法フィールド、及び距離フィールドを含む。
【0310】
視点フィールドにはイメージ平面を眺める視点が記録される。視点フィールドは視点の位置と方向が記録される位置フィールドと方向フィールドとを有する。位置フィールドに記録される位置は、イメージ平面が存在する座標系の原点に対する相対的な位置である。また、方向フィールドに記録される方向は所定の基準方向に対する相対的な回転量である。
【0311】
視野フィールドには視点からイメージ平面までの視野領域が記録される。投影方法フィールドには視点からイメージ平面までの投影方法が記録される。本発明で投影方法は、視野領域が幅と高さで表示される直交投影方法と、視野領域が水平角と垂直角とで表示される遠近投影方法とのうち選択される。直交投影方法が選択された場合に(すなわち、投影方法フィールドがTRUEと設定された場合)視野領域の幅と長さは各々イメージ平面の幅と高さであり、遠近投影方法が選択された場合に視野領域の幅と高さは各々視点からイメージ平面に至る視線により形成される水平角と垂直角とである。
【0312】
距離フィールドには、視点から近い境界平面までの距離と、視点から遠い境界平面までの距離とが記録される。距離フィールドは、視点から隣接平面までの距離が記録されるフィールド(nearPlane)と遠接平面までの距離が記録されるフィールド(farPlane)とで構成される。距離フィールドにより深さ情報の領域が規定される。
【0313】
図35(a)及び図35(b)には、各々シンプルテクスチャーノード及びポイントテクスチャーノードを有する深さイメージノードにより客体を表現する時、各ノードの対応関係が図示されている。
【0314】
図35(a)を参照すれば、客体は6個の視点に対応する深さイメージノードの組合わせにより表現される。それぞれの深さイメージノードは視点情報とシンプルテクスチャーノードとで構成される。シンプルテクスチャーノードは色相イメージと深さイメージとの対で構成される。
【0315】
図35(b)を参照すれば、客体は一つの深さイメージノードにより表現される。深さイメージノードの構成は前述した通りである。ポイントテクスチャーノードは、客体が投射された平面に関する情報が記録される平面情報、イメージ平面に投射された客体の各点の深さ情報及び色相情報で構成される。
【0316】
オクツリーイメージノードは、客体全体を含むボクセルを構成する内部ノード等の構造及び参照イメージにより客体を表現する。オクツリーイメージノードの構成が図26に図示されている。
【0317】
図26を参照すれば、オクツリーイメージノードはオクツリー解像度フィールド、オクツリーフィールド、インデックスフィールド、及びイメージフィールドで構成される。
【0318】
オクツリー解像度フィールドには客体全体を含む閉じられたキューブの側面に接することができるオクツリーリーフの最大値が記録される。オクツリーフィールドにはオクツリーの内部ノードの構造が記録される。内部ノードは客体全体を含む閉じられたキューブを分割した下位キューブに対するノードである。閉じられたキューブは8個の下位キューブに分割され、それぞれの下位キューブは既設定されている大きさになるまで反復的に8個の下位キューブに再分割される。
【0319】
3回の分割がなされた場合に第2分割された下位キューブに対するノードを現在ノードとすれば、第1分割された下位キューブに対するノード及び第3分割された下位キューブに対するノードは各々現在ノードに対して親ノード及び子ノードと称する。8個の分割された下位キューブの順序は幅優先順位により順位番号が付与される。図14には、下位キューブに対する順位番号付与方式が図示されている。内部ノード各々はバイトで表現され、内部ノードに属する子ノードに対する下位子ノードの存在如何はバイトを構成するビット列に記録されるノード情報により表現される。
【0320】
インデックスフィールドには内部ノード各々に対応する参照イメージのインデックスが記録される。イメージフィールドにはインデックスフィールドに記録されたインデックスに該当する参照イメージが記録される。参照イメージは深さイメージノードであり、深さイメージノードの構造は前述した通りである。
【0321】
図36には、オクツリーイメージノードにより客体を表現する時、該当オクツリーイメージノードの構成が図示されている。
図36を参照すれば、オクツリーイメージノードはビットラッパー(Bitwrapper)によりカプセル化されている。それぞれのビットラッパーは一つのオクツリーイメージノードを含んでいる。シンプルテクスチャーノードで客体を表現する場合にオクツリーイメージノードは6個の深さイメージノードを有しており、それぞれの深さイメージノードにはシンプルテクスチャーノードが含まれている。これと異なり、ポイントテクスチャーノードで客体を表現する場合にはオクツリーイメージノードは1個の深さイメージノードを有する。
【0322】
本発明はまたコンピュータで読み出すことができる記録媒体にコンピュータが読み出すことができるコードとして具現することが可能である。コンピュータが読み出すことができる記録媒体はコンピュータシステムによって読み出されるデータが貯蔵されるあらゆる記録装置を含む。コンピュータが読み出すことができる記録媒体の例にはROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ貯蔵装置などがあり、またキャリヤウェーブ(例えばインターネットを通した伝送)の形態で具現されるものも含む。また、コンピュータが読み出すことができる記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて分散方式でコンピュータが読み出すことができるコードが貯蔵されて実行される。
【0323】
【発明の効果】
本発明によれば、このようなイメージ基盤表現は、色相3D客体の完全な情報を2次元イメージの集合−イメージ処理及び圧縮などの公知の方法に直ちに適用できる単純で規則的な構造−でエンコーディングするため、アルゴリズムが簡単で多くの部分でハードウェアにより支援されうる。その上に、イメージ基盤モデルに対するレンダリング時間は、ポリゴンの場合のように形態的な複雑性に比例せずに一般的に参照及び出力イメージに存在するピクセルの数に比例する。さらに、イメージ基盤表現が現実世界の客体と場面とに適用されれば数百万個の多角形及び高コストを使用せずに自然的な場面の写真のような現実的なレンダリングが可能になる。
以上、本発明の望ましい実施例について図示して説明したが、本発明は前述した特定の望ましい実施例に限定されず、特許請求の範囲で請求する本発明の要旨を外れずに当業者であれば多様な変形実施が可能であることはもちろん、そのような変更は特許請求の範囲に記載された範囲内にある。
【図面の簡単な説明】
【図1】現在の参照ソフトウェアに統合されたIBRの例を示した図面である。
【図2】オクツリーの構造及び子の順序を示した図面である。
【図3】オクツリー圧縮率を示したグラフである。
【図4】LDIの投影を示した図面であり、(a)暗いセル(ボクセル)は1に対応し、白いセルは0に対応すし、(b)(x、depth)平面での2D切片である。
【図5】色相データの再配列後の“天使”モデルの色相成分を示した図面である。
【図6】ノード発生確率の直交不変を示した図面であり、(a)元来現在及び親ノードであり、(b)現在及び親ノード(y軸を中心に90゜回転)である。
【図7】‘天使’、‘イナゴ’及び‘モルトン’における最適PPM基盤方法に対する形態圧縮を示した図面である。
【図8】‘天使’、‘イナゴ’及び‘モルトン’における最適PPM基盤方法に対する形態圧縮を示した図面である。
【図9】‘天使’、‘イナゴ’及び‘モルトン’における最適PPM基盤方法に対する形態圧縮を示した図面である。
【図10】‘天使’ポイントテクスチャーモデルの色相フィールドを2Dイメージに再配列する2つの方式を示した図面である。
【図11】無損失形態圧縮及び損失色相圧縮の例を示した図面であり、(a)は元来の‘天使’モデル、(b)は圧縮された‘天使’モデル、(c)は元来の‘モルトン256’モデル、(d)圧縮された‘モルトン256’モデルである。
【図12】‘天使’モデルのBVOモデルとTBVOモデルとを示した図面である。
【図13】TBVOでの付加カメラにより撮影された付加イメージを示した図面であり、(a)はカメラインデックスイメージ、(b)は最初の付加イメージ、(c)は2番目の付加イメージである。
【図14】TBVOストリームを記述する一例を示した図面((a)TBVOツリー構造、(b)BVOノードとカメラインデックスでのオクツリー横断順序、(c)結果的なTBVOストリーム)である。
【図15】‘天使’、‘モルトン’、‘椰子512’及び‘ロボット512’モデルの圧縮結果を示した図面である。
【図16】除去された天使及びモルトンモデルのイメージを示した図面である。
【図17】‘天使’、‘モルトン’、‘椰子512’及び‘ロボット512’モデルの圧縮結果を示した図面である。
【図18】
【図19】‘天使’、‘モルトン’、‘椰子512’及び‘ロボット512’モデルの圧縮結果を示した図面である。
【図20】色相イメージと深さマップの一例を示した図面である。
【図21】階層的な深さイメージの一例を示した図面((a)客体の投影、(b)階層的なピクセル)である。
【図22】中心に見られるモデルを描写するために使われる6個のシンプルテクスチャー(色相イメージと深さマップの対)よりなるBTの一例を示した図面である。
【図23】GBTの一例を示した図面((a)‘椰子’モデルに対するカメラの位置、(b)同じモデルに対する参照イメージ平面)である。
【図24】2Dで描写されたオクツリー表現の一例を示した図面((a)‘点雲’、(b)対応する中間マップ)である。
【図25】TBVOビットストリームを記述するための擬似コードである。
【図26】DIBRノードの定義を示す図面である。
【図27】深さイメージに対する視覚体積モデルを示した図面((a)遠近視点、(b)直交視点)である。
【図28】シンプルテクスチャーのOpenGLに基づくレンダリングの擬似コードである。
【図29】シンプルテクスチャーで参照イメージの圧縮の一例を示した図面((a)元来の参照イメージ、(b)JPEGフォーマットで修正された参照イメージ)である。
【図30】相異なるフォーマットの“モルトン”モデルのレンダリング結果の一例を示した図面((a)元来の多角形フォーマット、(b)深さイメージフォーマット、(c)オクツリーイメージフォーマット)である。
【図31】レンダリングの一例を示した図面((a)深さイメージフォーマットでスキャニングされた“膽星台”モデル、(b)オクツリーイメージフォーマットでスキャニングされた同じモデル)である。
【図32】“椰子”モデルのレンダリングの一例を示した図面((a)元来の多角形フォーマット、(b)深さイメージフォーマットの同じモデル)である。
【図33】オクツリーイメージの“ドラゴン512”アニメーションからのフレームを示すレンダリングの一例を示した図面である。
【図34】ポイントテクスチャーフォーマットの“天使412”モデルのレンダリングの一例を示した図面である。
【図35】(a)(b)は、各々シンプルテクスチャーノード及びポイントテクスチャーノードを有する深さイメージノードにより客体を表現する時の各ノードの対応関係を示した図面である。
【図36】オクツリーイメージノードにより客体を表現する時の該当オクツリーイメージノードの構成を示した図面である。
Claims (19)
- それぞれのピクセルに対する色相を含む色相イメージが記録されるテクスチャーフィールドと、
前記それぞれのピクセルに対する深さ値が記録される深さフィールドとを含むことを特徴とする深さイメージに基づく3次元客体を表現するためのノード構造。 - 動映像客体を生成するビデオフォーマットの場合に前記深さ情報及び前記色相情報は複数のイメージフレーム列であることを特徴とする請求項1に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- イメージ平面の大きさ情報が記録される大きさフィールドと、
前記イメージ平面を形成するそれぞれのピクセルに対する深さ値の解像度情報が記録される解像度フィールドと、
前記それぞれのピクセルに対する複数の深さ情報が記録される深さフィールドと、
前記それぞれのピクセルに対する色相情報が記録される色相フィールドとを含むことを特徴とする深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記深さ情報は、前記イメージ平面に投射された前記ピクセルの数及びそれぞれのピクセルの深さ値が順次に記録された行列であり、
前記色相情報は、前記投射されたピクセルそれぞれに対する前記深さ値に対応する色相値が順次に記録された行列であることを特徴とする請求項3に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - イメージ平面を眺める視点が記録される視点フィールドと、
前記視点から前記イメージ平面までの視野領域が記録される視野フィールドと、
前記視点から前記イメージ平面までの投影方法が記録される投影方法フィールドと、
前記視点から可視領域の近い境界平面までの距離及び前記視点から遠い境界平面までの距離が記録される距離フィールドと、
色相イメージが記録されるテクスチャーフィールドとを含むことを特徴とする深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記視点フィールドは、
前記視点の位置が記録される位置フィールドと、
前記視点の方向が記録される方向フィールドとを含み、
前記位置は前記イメージ平面が存在する座標系の原点に対する相対的な位置であり、前記方向は所定の基準方向に対する相対的な回転量であることを特徴とする請求項5に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記投影方法は、前記視野領域が幅と高さとで表示される直交投影方法及び前記視野領域が水平角と垂直角とで表示される遠近投影方法を含むことを特徴とする請求項5に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記直交投影方法が選択された場合に前記視野領域の幅と高さとは各々前記イメージ平面の幅と高さであり、
前記遠近投影方法が選択された場合に、前記視野領域の幅と高さとは各々前記視点から前記イメージ平面に至る視線により形成される水平角及び垂直角であることを特徴とする請求項7に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 動映像客体を生成するビデオフォーマットの場合に、前記深さ情報及び前記色相情報は複数のイメージフレーム列であることを特徴とする請求項5に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記色相イメージは、それぞれのピクセルに対する色相を含む平面イメージ及び前記それぞれのピクセルに対する深さ値で構成されるシンプルテクスチャーであることを特徴とする請求項5に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記色相イメージは、前記色相イメージの大きさ情報、前記色相イメージに対する深さ解像度情報、前記色相イメージを形成するそれぞれのピクセルに対する複数の深さ情報、及び前記それぞれのピクセルに対する色相情報で構成されるポイントテクスチャーであることを特徴とする請求項5に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記深さ情報は、前記イメージ平面に投射された前記ピクセルの数及びそれぞれのピクセルの深さ値が順次に記録された行列であり、
前記色相情報は、前記投射されたピクセルそれぞれに対する前記深さ値に対応する色相値が順次に記録された行列であることを特徴とする請求項11に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 客体を含む閉じられたキューブの側面に接することができるオクツリーリーフの最大値が記録される解像度フィールドと、
前記オクツリーの内部ノードの構造が記録されるオクツリーフィールドと、
前記内部ノードに対応する参照イメージのインデックスが記録されるインデックスフィールドと、
前記参照イメージが記録されるイメージフィールドとを含むことを特徴とする深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記内部ノードそれぞれはバイトで表現され、前記内部ノードに属する子ノードに対する下位子ノードの存在如何は前記バイトを構成するビット列に記録されるノード情報により表現されることを特徴とする請求項13に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記参照イメージは、視点情報及び前記視点情報に対応する色相イメージで構成される深さイメージノードであることを特徴とする請求項13に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
- 前記視点情報は、
イメージ平面を眺める視点が記録される視点フィールドと、
前記視点から前記イメージ平面までの視野領域が記録される視野フィールドと、
前記視点から前記イメージ平面までの投影方法が記録される投影方法フィールドとを含むことを特徴とする請求項15に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記視点フィールドは、
前記視点の位置が記録される位置フィールドと、
前記視点の方向が記録される方向フィールドとを含み、
前記位置は、前記イメージ平面が存在する座標系の原点に対する相対的な位置であり、前記方向は、所定の基準方向に対する相対的な回転量であることを特徴とする請求項16に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記投影方法は前記視野領域が幅と高さとで表示される直交投影方法であり、
前記視野領域の幅と高さとは各々前記イメージ平面の幅と高さであることを特徴とする請求項16に記載の深さイメージに基づく3次元客体を表現するためのノード構造。 - 前記色相イメージは、それぞれのピクセルに対する色相を含む平面イメージ及び前記それぞれのピクセルに対する深さ値で構成されるシンプルテクスチャーであることを特徴とする請求項15に記載の深さイメージに基づく3次元客体を表現するためのノード構造。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US33316701P | 2001-11-27 | 2001-11-27 | |
US36254502P | 2002-03-08 | 2002-03-08 | |
US37656302P | 2002-05-01 | 2002-05-01 | |
US39530402P | 2002-07-12 | 2002-07-12 | |
KR10-2002-0067971A KR100450823B1 (ko) | 2001-11-27 | 2002-11-04 | 깊이 이미지 기반 3차원 물체의 표현을 위한 노드 구조 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006203922A Division JP4832975B2 (ja) | 2001-11-27 | 2006-07-26 | 深さイメージに基づく3次元客体を表現するためのノード構造を記憶させた、コンピュータで読み出し可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004005373A true JP2004005373A (ja) | 2004-01-08 |
Family
ID=27532387
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002344742A Pending JP2004005373A (ja) | 2001-11-27 | 2002-11-27 | 深さイメージに基づく3次元物体を表現するためのノード構造 |
JP2006203922A Expired - Fee Related JP4832975B2 (ja) | 2001-11-27 | 2006-07-26 | 深さイメージに基づく3次元客体を表現するためのノード構造を記憶させた、コンピュータで読み出し可能な記録媒体 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006203922A Expired - Fee Related JP4832975B2 (ja) | 2001-11-27 | 2006-07-26 | 深さイメージに基づく3次元客体を表現するためのノード構造を記憶させた、コンピュータで読み出し可能な記録媒体 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1321893B1 (ja) |
JP (2) | JP2004005373A (ja) |
CN (1) | CN1218282C (ja) |
CA (1) | CA2413058C (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005235210A (ja) * | 2004-02-17 | 2005-09-02 | Samsung Electronics Co Ltd | 3次元体積データの符号化/復号化方法及び装置 |
JP2005259139A (ja) * | 2004-03-08 | 2005-09-22 | Samsung Electronics Co Ltd | 適応的2n進ツリーの生成方法、ならびにそれを利用して3次元体積データを符号化/復号化する方法および装置 |
JP2006172479A (ja) * | 2004-12-16 | 2006-06-29 | Samsung Electronics Co Ltd | 3次元映像の階層的構造に基づいた適応的レンダリング装置、セルデータ生成装置、セルデータ生成方法、レンダリング方法、及び、それらの方法を行うためのコンピュータプログラムを保存するコンピュータで読み取り可能な記録媒体 |
JP2008309671A (ja) * | 2007-06-15 | 2008-12-25 | Ihi Corp | 物体認識方法および装置 |
JPWO2007069724A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 三次元形状データの位置合わせ方法と装置 |
JPWO2007069721A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 三次元形状データの記憶・表示方法と装置および三次元形状の計測方法と装置 |
JPWO2007069726A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 自己位置同定方法と装置および三次元形状の計測方法と装置 |
US7925103B2 (en) | 2004-03-08 | 2011-04-12 | Samsung Electronics Co., Ltd. | Adaptive 2n-ary tree generating method, and method and apparatus for encoding and decoding 3D volume data using it |
US9641822B2 (en) | 2008-02-25 | 2017-05-02 | Samsung Electronics Co., Ltd. | Method and apparatus for processing three-dimensional (3D) images |
KR101862677B1 (ko) * | 2018-03-06 | 2018-05-31 | (주)휴톰 | 3차원 탄성 모델 렌더링 방법, 장치 및 프로그램 |
WO2019132167A1 (ko) * | 2017-12-28 | 2019-07-04 | (주)휴톰 | 3차원 탄성 모델 렌더링 방법, 장치 및 프로그램 |
US11575936B2 (en) | 2018-04-10 | 2023-02-07 | Panasonic Intellectual Property Corporation Of America | Three-dimensional data encoding method, three-dimensional data decoding method, three-dimensional data encoding device, and three-dimensional data decoding device |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100434545B1 (ko) | 2002-03-15 | 2004-06-05 | 삼성전자주식회사 | 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치 |
KR100707206B1 (ko) * | 2005-04-11 | 2007-04-13 | 삼성전자주식회사 | 3차원 객체의 깊이영상 기반 표현 방법 및 이를 이용한모델링 및 렌더링 방법 및 장치 |
WO2006109980A1 (en) * | 2005-04-11 | 2006-10-19 | Samsung Electronics Co., Ltd. | Depth image-based representation method for 3d object, modeling method and apparatus, and rendering method and apparatus using the same |
US9070178B2 (en) | 2006-08-11 | 2015-06-30 | Siemens Product Lifecycle Management Software Inc. | Method and system for organizing topology elements for better compression |
WO2008022056A2 (en) * | 2006-08-11 | 2008-02-21 | Siemens Product Lifecycle Management Software Inc. | Method and system for organizing topology elements for better compression |
JP2011029998A (ja) * | 2009-07-27 | 2011-02-10 | Sony Corp | 画像記録装置、画像記録方法、及びプログラム |
US8564534B2 (en) | 2009-10-07 | 2013-10-22 | Microsoft Corporation | Human tracking system |
US8963829B2 (en) | 2009-10-07 | 2015-02-24 | Microsoft Corporation | Methods and systems for determining and tracking extremities of a target |
US7961910B2 (en) | 2009-10-07 | 2011-06-14 | Microsoft Corporation | Systems and methods for tracking a model |
CN102469248B (zh) * | 2010-11-12 | 2016-03-02 | 华晶科技股份有限公司 | 影像拍摄装置及其影像合成方法 |
CN102542601A (zh) * | 2010-12-10 | 2012-07-04 | 三星电子株式会社 | 一种用于3d对象建模的设备和方法 |
US11496760B2 (en) | 2011-07-22 | 2022-11-08 | Qualcomm Incorporated | Slice header prediction for depth maps in three-dimensional video codecs |
US9521418B2 (en) | 2011-07-22 | 2016-12-13 | Qualcomm Incorporated | Slice header three-dimensional video extension for slice header prediction |
US9288505B2 (en) | 2011-08-11 | 2016-03-15 | Qualcomm Incorporated | Three-dimensional video with asymmetric spatial resolution |
US9485503B2 (en) | 2011-11-18 | 2016-11-01 | Qualcomm Incorporated | Inside view motion prediction among texture and depth view components |
CA2909006C (en) | 2013-04-08 | 2022-07-26 | Thomson Licensing | Method for encoding and method for decoding a look-up table and corresponding devices |
CN105205839B (zh) * | 2015-09-06 | 2018-03-30 | 哈尔滨工业大学 | 一种基于色彩退化的有限调色板生成方法 |
GB2558314B (en) | 2017-01-02 | 2020-07-29 | Canon Kk | Improved attribute mapping to encode and decode 3D models |
EP3429207A1 (en) * | 2017-07-13 | 2019-01-16 | Thomson Licensing | A method and apparatus for encoding/decoding a colored point cloud representing the geometry and colors of a 3d object |
SG10201706752XA (en) * | 2017-08-17 | 2019-03-28 | Iko Pte Ltd | Systems and methods for analyzing cutaneous conditions |
CN109559343B (zh) * | 2017-09-27 | 2021-04-30 | 北京京东尚科信息技术有限公司 | 用于容器的图像处理方法和装置 |
US10089796B1 (en) * | 2017-11-01 | 2018-10-02 | Google Llc | High quality layered depth image texture rasterization |
CN111566703B (zh) | 2018-01-17 | 2023-10-20 | 索尼公司 | 图像处理装置和方法 |
CN112041889A (zh) | 2018-02-08 | 2020-12-04 | 松下电器(美国)知识产权公司 | 三维数据编码方法、三维数据解码方法、三维数据编码装置、以及三维数据解码装置 |
EP3554082A1 (en) | 2018-04-11 | 2019-10-16 | InterDigital VC Holdings, Inc. | A method and device for coding the geometry of a point cloud |
CN108986205B (zh) * | 2018-06-08 | 2023-05-26 | 广州虎牙信息科技有限公司 | 一种绘制体素模型的方法、装置、设备和存储介质 |
CN111610751B (zh) * | 2020-05-21 | 2023-07-28 | 天津工业大学 | 过点集nurbs插值曲线的插值误差多次细分迭代计算方法 |
CN113342999B (zh) * | 2021-05-07 | 2022-08-05 | 上海大学 | 一种基于多层跳序树结构的变分辨率点云简化方法 |
US20230186500A1 (en) * | 2021-12-10 | 2023-06-15 | Varjo Technologies Oy | Image-based environment reconstruction |
CN117341206B (zh) * | 2023-10-08 | 2024-03-29 | 南京林业大学 | 一种基于八叉树的支撑结构生成方法 |
-
2002
- 2002-11-27 CA CA2413058A patent/CA2413058C/en not_active Expired - Fee Related
- 2002-11-27 EP EP02258158A patent/EP1321893B1/en not_active Expired - Fee Related
- 2002-11-27 CN CN 02159594 patent/CN1218282C/zh not_active Expired - Fee Related
- 2002-11-27 JP JP2002344742A patent/JP2004005373A/ja active Pending
-
2006
- 2006-07-26 JP JP2006203922A patent/JP4832975B2/ja not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8558834B2 (en) | 2004-02-17 | 2013-10-15 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and decoding 3D data using adaptive octrees |
JP2005235210A (ja) * | 2004-02-17 | 2005-09-02 | Samsung Electronics Co Ltd | 3次元体積データの符号化/復号化方法及び装置 |
US7925103B2 (en) | 2004-03-08 | 2011-04-12 | Samsung Electronics Co., Ltd. | Adaptive 2n-ary tree generating method, and method and apparatus for encoding and decoding 3D volume data using it |
JP2005259139A (ja) * | 2004-03-08 | 2005-09-22 | Samsung Electronics Co Ltd | 適応的2n進ツリーの生成方法、ならびにそれを利用して3次元体積データを符号化/復号化する方法および装置 |
US8027545B2 (en) | 2004-03-08 | 2011-09-27 | Samsung Electronics Co., Ltd. | Adaptive 2N-ARY tree generating method, and method and apparatus for encoding and decoding 3D volume data using it |
JP2006172479A (ja) * | 2004-12-16 | 2006-06-29 | Samsung Electronics Co Ltd | 3次元映像の階層的構造に基づいた適応的レンダリング装置、セルデータ生成装置、セルデータ生成方法、レンダリング方法、及び、それらの方法を行うためのコンピュータプログラムを保存するコンピュータで読み取り可能な記録媒体 |
JPWO2007069724A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 三次元形状データの位置合わせ方法と装置 |
JP4650751B2 (ja) * | 2005-12-16 | 2011-03-16 | 株式会社Ihi | 三次元形状データの位置合わせ方法と装置 |
JP4650752B2 (ja) * | 2005-12-16 | 2011-03-16 | 株式会社Ihi | 自己位置同定方法と装置および三次元形状の計測方法と装置 |
JP4650750B2 (ja) * | 2005-12-16 | 2011-03-16 | 株式会社Ihi | 三次元形状データの記憶・表示方法と装置および三次元形状の計測方法と装置 |
JPWO2007069726A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 自己位置同定方法と装置および三次元形状の計測方法と装置 |
JPWO2007069721A1 (ja) * | 2005-12-16 | 2009-05-28 | 株式会社Ihi | 三次元形状データの記憶・表示方法と装置および三次元形状の計測方法と装置 |
JP2008309671A (ja) * | 2007-06-15 | 2008-12-25 | Ihi Corp | 物体認識方法および装置 |
US9641822B2 (en) | 2008-02-25 | 2017-05-02 | Samsung Electronics Co., Ltd. | Method and apparatus for processing three-dimensional (3D) images |
WO2019132167A1 (ko) * | 2017-12-28 | 2019-07-04 | (주)휴톰 | 3차원 탄성 모델 렌더링 방법, 장치 및 프로그램 |
KR101862677B1 (ko) * | 2018-03-06 | 2018-05-31 | (주)휴톰 | 3차원 탄성 모델 렌더링 방법, 장치 및 프로그램 |
US11575936B2 (en) | 2018-04-10 | 2023-02-07 | Panasonic Intellectual Property Corporation Of America | Three-dimensional data encoding method, three-dimensional data decoding method, three-dimensional data encoding device, and three-dimensional data decoding device |
US11936910B2 (en) | 2018-04-10 | 2024-03-19 | Panasonic Intellectual Property Corporation Of America | Three-dimensional data encoding method, three-dimensional data decoding method, three-dimensional data encoding device, and three-dimensional data decoding device |
Also Published As
Publication number | Publication date |
---|---|
EP1321893A3 (en) | 2005-01-05 |
CA2413058A1 (en) | 2003-05-27 |
JP2006286024A (ja) | 2006-10-19 |
EP1321893B1 (en) | 2011-11-09 |
EP1321893A2 (en) | 2003-06-25 |
CN1430183A (zh) | 2003-07-16 |
CN1218282C (zh) | 2005-09-07 |
CA2413058C (en) | 2012-01-17 |
JP4832975B2 (ja) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4832975B2 (ja) | 深さイメージに基づく3次元客体を表現するためのノード構造を記憶させた、コンピュータで読み出し可能な記録媒体 | |
KR100450823B1 (ko) | 깊이 이미지 기반 3차원 물체의 표현을 위한 노드 구조 | |
JP3957620B2 (ja) | 深さイメージ基盤3次元客体を表現するための装置及び方法 | |
RU2237283C2 (ru) | Устройство и способ представления трехмерного объекта на основе изображений с глубиной | |
RU2237284C2 (ru) | Способ генерирования структуры узлов, предназначенных для представления трехмерных объектов с использованием изображений с глубиной | |
KR100519780B1 (ko) | 3차원 체적 데이터 부호화/복호화 방법 및 장치 | |
EP1431919B1 (en) | Method and apparatus for encoding and decoding three-dimensional object data by using octrees | |
KR100513732B1 (ko) | 3차원 객체 데이터 부호화 및 복호화 방법 및 장치 | |
Xu et al. | Introduction to point cloud compression | |
Levkovich-Maslyuk et al. | Depth image-based representation and compression for static and animated 3-D objects | |
CA2514655C (en) | Apparatus and method for depth image-based representation of 3-dimensional object | |
WO2023144445A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding | |
CA2517842A1 (en) | Node structure for representing 3-dimensional objects using depth image | |
WO2023001623A1 (en) | V3c patch connectivity signaling for mesh compression | |
WO2024012765A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding | |
Bayakovski et al. | Depth Image-based Representations and Compression for Static and Animated 3D Objects | |
CN117896536A (zh) | 点云解码、编码方法、介质、电子设备及产品 | |
CH et al. | 7_, Decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060726 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061101 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070417 |