JP4258879B2 - Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method - Google Patents
Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method Download PDFInfo
- Publication number
- JP4258879B2 JP4258879B2 JP05977099A JP5977099A JP4258879B2 JP 4258879 B2 JP4258879 B2 JP 4258879B2 JP 05977099 A JP05977099 A JP 05977099A JP 5977099 A JP5977099 A JP 5977099A JP 4258879 B2 JP4258879 B2 JP 4258879B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- reference image
- omnidirectional
- macroblock
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、3次元環境システムを実現することを目的とした画像符号化方法とその装置、画像復号化方法とその装置、コンピュータに画像符号化方法および画像復号化方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
コンピュータグラフィックス(Computer Graphics,CG)とは、「コンピュータによりデータを処理し、生成された画像」または、「コンピュータによりデータを処理し、画像を生成する技術」という意味で用いられる。
【0003】
広く解釈すれば、コンピュータで図形を描くアルゴリズムを開発することも、コンピュータを利用して図形を描くこともCGに含まれる。
【0004】
CGが表現可能な対象は、人間が見ることができる物体、場所や背景のみならず、実際に見ることができないものを表現することも可能である。
【0005】
そのため、CGは仮想現実感(Virtual Reality, VR)や人工現実感(Artificial Reality,AR)と呼ばれる技術に用いられ、重要な基礎となっている。これらの技術では、コンピュータ内に構築された世界をCGによって可視化し、あたかもその世界にいるかのような感覚を起こす。より現実味のある緻密な画像生成が必要である。
【0006】
現在そのCGの多くは、ポリゴンベースドレンダリング(Polygon−Based Rendering,PBR)という手法によって生成されている。光学的計算を行うレンダリング(Rendering)行程は、実環境のような複雑なシーンである場合は計算コストが大きくなる。そのために、計算機の能力が飛躍的に発展した現在でも、実時間でシーンの変更が必要な場合には幾何計算専用のプロセッサが必要になることがある。
【0007】
一方、撮影・蓄積された実写画像を基に画像を生成するイメージベースドレンダリング(Image−Based Rendering, IBR)と呼ばれる手法が提案されている。
【0008】
蓄積画像数が莫大になるために大きな記憶領域を必要とする欠点があるが、実写画像を用いることにより写実的な再生画像を得ることができる。
【0009】
しかし、撮影した画像しか再生できないために、架空の環境は表現することができない。IBRは実写画像を用いるために写実性に優れている。さらに、蓄積画像を出力するために計算コストは極めて小さく、人工現実感のように写実的な画像が求められ、かつ視点の変更とともに実時間でシーンの変更が求められるような応用には、後者のIBRが適している。
【0010】
本発明はIBRを用いた3次元環境再現システムに関する。
【0011】
IBRを用いた3次元環境再現システムを図1に示す。
【0012】
図1では全方位画像(パノラマ画像)を撮影できるロボットを自走させ、多地点で撮像することにより、任意位置の任意視点の見え方を再現する。IBRの課題は、蓄積すべき情報量が多い点である。
【0013】
これについては特開平10−271511号公報記載の画像符号化装置と画像復号化装置がある。
【0014】
これを符号化に関する従来例(従来例1)とする。従来例1では、図2に示すように物体周囲をカメラが移動し可能な限り多くの位置から物体を撮像し、異なる視点画像間の相関を利用して高能率符号化を行う。
【0015】
この高能率符号化には、動き補償離散コサイン変換(Motion−Compensated Discrete Cosine Transformation)符号化方式(MC−DCT符号化と以後略す)が多視点間の予測符号化に拡張されて用いられている。
【0016】
MC−DCT符号化方式はITU−T(国際電気通信連合 電気通信標準化部門)で国際標準化されたH.261規格やH.263規格やMPEG規格に採用された共通動画圧縮技術として良く知られている。
【0017】
ここでMPEG(Moving Picture Experts Group)とは、世界標準化機構(International Organization for Standardization, ISO)の音声・動画符号化の標準化を進めてきた作業グループ(ISO/IEC JTC1/SC29/WG11)を指すが、同時にこのグループが定めたデータ圧縮の国際規格をも意味する。
【0018】
MC−DCT符号化方式では画像を16×16画素からなるマクロブロックと呼ばれるブロックに分割し、連続する画像(フレーム)間でマクロブロックの差分が最小となる移動量(動きベクトル)を計算し、その差分を離散コサイン変換(DCT)符号化を行う。フレーム間差分最小となるよう動きベクトルを求め冗長性を除いた差分画像を得る作業は動き補償と呼ばれる。DCTは動き補償された画像(差分画像)に残る空間的冗長性を除くために用いられる。なお、最初のフレームは、他のフレームとの差分符号化が行えないため、DCTのみを用いて符号化される。これをIピクチャとよぶ。MC−DCT符号化される一般フレームをPピクチャとよぶ。従来例1はこの構造を多視点画像間に拡張したものである。
【0019】
3次元環境再現システムでは自走ロボットを所定の位置を走査するよう制御する。
【0020】
この制御は角度センサーの情報から移動距離、回転を得て行われるが、角度センサーの精度不足や車輪のスリップが避けられず、正しく所定の位置を走行する保証はない。そのために得られた画像から実際に走行した視点位置を補正する必要がある。
【0021】
画像中の特徴点から、カメラの動きを推定する手法として6特徴点照合による推定方法がある。例えば、文献Juyang Weng, Narendra Ahuja, and Thomas S.Huang:“Optimal motion and structure estimation”, IEEE Trans, Pattern Analysis and Machine Intelligence,15(9),pp864−884(1993)に記載されている。
【0022】
これを撮像装置の校正に関する従来例(従来例2)とする。この概念を図3に示す。画像中で
【0023】
【数1】
【0024】
が未知数であるとする。
【0025】
ここで、d0からd5まではカメラから物体(この場合、筐体の頂点)までの距離、Tx、Ty、Tzはカメラと物体間の相対的並進成分、ωx、ωy、ωzは回転成分である。基準位置で観測された6特徴点の座標を数2として定める。
【0026】
【数2】
【0027】
3次元空間中の特徴点の位置が(数1)と(数2)を既知とすると、任意の視点位置の特徴点投影座標が(数3)として計算できる。
【0028】
【数3】
【0029】
(数3)が実際には(数4)として観測されたとする。
【0030】
【数4】
【0031】
(数3)と(数4)は量子化誤差やレンズ系の収差のため、必ずしも一致しない。
【0032】
(数3)と(数4)のずれを2乗誤差として(数5)に表現し、これを最小化する枠組みで物体−カメラ間の動きΨを決定する。
【0033】
【数5】
【0034】
この最小化は、(数3)の関数fが非線形関数であることから、反復による最小化手法が使われる。(数6)は非線形最小2乗化の手法として広く用いられているLevenberg−Marquart法による最小化ステップを表している。
【0035】
【数6】
【0036】
Hは近似ヘッセ行列で、Iは単位行列∇eは勾配tは反復数である。λは非負の制御変数で、λが大きな時、最急降下法(収束は遅いが安定)に、λが小さな時、ニュートン法(不安定だが収束は速い)に近づく。
【0037】
Levenberg−Marquart法では、λを制御することにより最急降下法とニュートン法の長所が生かせる。なお、Levenberg−Marquart法では、近似ヘッセ行列を以下のように計算する。
【0038】
【数7】
【0039】
【数8】
【0040】
数8は、数5が2次形式をとっていることから、可能になった近似である。
【0041】
反復が安定収束であるためには、数6において、勾配∇eに係る逆行列は正定
値(positive−definite)である必要がある。
【0042】
一般にヘッセ行列は正定値である保証はないが、数7が数8の近似により実対称行列となることから、この場合正定置であることが保証されている。以上2視点間の6特徴点照合により、カメラの並進・回転が求まる。ただし、並進については絶対値ではなく、特徴点までの距離も含めて比として得られる。
【0043】
なお、6特徴点の照合が必要な理由は、以下のように説明できる。特徴点一つの観測につき水平・垂直の座標が得られることから2つの方程式が立つ。
【0044】
カメラの動きパラメータ(未知パラメータ)は6個である。特徴点照合が1つにつき、基準座標における特徴点までの距離が1個未知パラメータとして増える。特徴点照合が6のとき、方程式数が未知パラメータ12と等しくなり、数5の最小化として画像から動きパラメータが求まる。
【0045】
【発明が解決しようとする課題】
従来例1は、図2に示したように内向き多視点画像の符号化を行っており、図1に示すようなIBRを用いた3次元環境再現システム符号化には、改善の余地がある。異なる視点画像間の相関を用いた上で、符号化対象は全方位画像であることの性質を利用した符号化が必要である。また、3次元環境再現システムを実現するためには、符号化した全方位画像の復号化が必要である。
【0046】
本発明は、かかる点に鑑み、全方位画像多視点符号化に適した符号化方法とその装置、全方位画像多視点複合化に適した復号化方法とその装置、およびコンピュータに全方位画 像多視点符号化に適した符号化方法および全方位画像多視点複合化に適した復号化方法を実現させるプログラムを記録した記録媒体を提供することを目的とする。
【0047】
【課題を解決するための手段】
この課題を解決するために、第1の発明は、全方位画像を予測符号化する方法であって、フレーム内符号化を行う参照画像符号化ステップと、符号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測ステップと、予測ステップにより生成された予測全方位画像と入力全方位画像との差分を符号化する残差符号化ステップを有することを特徴とする画像符号化方法である。
【0048】
第2の発明は、全方位画像を予測復号化する方法であって、フレーム内復号化を行う参照画像復号化ステップと、復号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測ステップと、予測ステップにより生成された予測全方位画像と入力全方位画像との差分を復号化する残差復号化ステップを有することを特徴とする画像復号化方法である。
【0049】
【発明の実施の形態】
(実施例1)
実施例1を図4、図5、図6、図7、図8を用いて説明する。図1に示した撮像系は、床面上を格子状にくまなく移動するように移動する。図4は、床面を上から俯瞰した、撮影点を表しており、円は全方位画像を表している。
【0050】
全方位画像の中で、網かけされた円はテンプレート符号化画像であり、そうでない画像はテンプレート符号化画像を参照して予測符号化されるテンプレート予測符号化画像である。全方位画像は円筒状にシームレスな画像であるが、これを矩形に展開し、MPEG1とほぼ同じイントラフレーム符号化により符号化される(MC−DCT符号化方式のIピクチャに相当)。
【0051】
MPEG1と異なるのは画像サイズで横3520×縦576画素であることである。
【0052】
この処理ステップを図5に示す。従来の技術で説明したように、通常のMC−DCT符号化方式と同じように画像を16×16画素からなるマクロブロックと呼ばれるブロックに分割し、それをさらに分割した8×8画素単位で2次元DCTを行う。
【0053】
これを量子化し、主観画質を落とさない範囲で情報を落とす(情報の欠落は量子化誤差に相当する)。量子化データは可変長符号化されてハフマン符号として出力される。
【0054】
テンプレート予測符号化画像の符号化ステップを図6に示す。
【0055】
視点位置の近いテンプレートを一度復号して参照画像とする。
【0056】
この復号済みテンプレートとの間で当該画像のマクロブロックの差分が最小となる移動量(動きベクトル)を計算し、その差分を離散コサイン変換(DCT)符号化を行う。
【0057】
この処理を図7に示す。量子化以降はテンプレート符号化と同じステップをとる。上記動き補償で、従来のMC−DCT方式の動き補償と異なるのは、図8に示すように領域外参照となる動きベクトルを認めることである。
【0058】
全方位画像はシームレスな円筒画像と考えることができるから、右方(左方)への突出分を画像左端(右端)からみたオフセットとして予測画像生成を行う。
【0059】
この“シームレス(継ぎ目なし)”動き補償に対応して、動きベクトル予測も“シームレス”に行う。
【0060】
以上特許請求の範囲の請求項1に該当する実施例1を説明した。
(実施例2)
次に実施例1で生成された符号データを復号する実施例2を示す。
【0061】
図9は図5の逆過程であり、テンプレート符号化画像を再構成する。
【0062】
横3520×縦576画素が扱えるMPEG1のイントラ復号化ステップを実行する。
【0063】
図10は、図6の逆過程であり、テンプレート予測画像を再構成する。
【0064】
再生しようとする視点位置がテンプレート符号化画像であれば、図9の処理ステップにしたがって復号化する。テンプレート予測符号化画像であれば、参照している近傍のテンプレート符号化画像を一度復号した後(あるいは、一度復号した画像は、消去せずに蓄積しておくとすると、メモリから読み出して)、図10の処理ステップに従って復号化する。さらに再構成された画像から図11に示すように任意視線方向を切り取れば、3次元環境再現が行える。
【0065】
このように、膨大なデータ量となる全方位画像を異なる視点間の相関を利用した上で、全方位画像の特徴に注目して“シームレス”動き補償することにより、少ない符号量で符号化することができる。
(参考例1、2)
参考例1、2は3次元環境再現システムにおける観測系の動き推定方法に関するものである。
【0066】
はじめに、参考例1、2の課題を示す。従来技術に示した従来例2は6特徴点照合により、カメラの並進・回転が求まる。図1のように一般に床面上を移動する撮像系では、自由度が水平移動に拘束され、また回転についても鉛直線を軸に1自由度の回転である。
【0067】
したがって、2自由度の並進運動と1自由度の回転運動合計3自由度のパラメータ推定では、3特徴点照合により、カメラ移動パラメータが画像より推定できる。しかし、カメラ移動に際して、特徴点座標の垂直方向成分が変化しないことが多い。したがって、2自由度の並進運動と1自由度の回転運動合計3自由度のパラメータ推定では、3特徴点照合により、カメラ移動パラメータが画像より推定できる。しかし、カメラ移動に際して、特徴点座標の垂直方向成分が変化しないことが多い。
【0068】
言い換えれば、画面上、垂直方向の特徴点座標の僅かな観測誤差が、カメラの運動パラメータを大きく左右する。
【0069】
参考例1、2では、かかる点に鑑み、床面上を移動する観測系の動きパラメータを安定して推定する方法と装置を提供する実施例を示す。
(参考例1)
参考例1に示す発明は、走行する観測系の水平移動、回転角度を推定する方法であって、基準位置における観測系周囲に存在するN個所(N≧6)の方向角を観測するステップ1と、上記N個所について異なる位置1で再度方向角を観測するステップ2と、上記N個所についてさらに異なる位置2で再度方向角を観測するステップ3と、以上の3Nの方向 角を用いて、基準位置に対する位置1および位置2とその位置における鉛直線周りの観測系の回転を求めるステップからなることを特徴とする観測系動き推定方法である。
【0070】
観測系動き推定方法を図12、図13、図14を用いて説明する。参考の実施例では床面上を移動する撮像系の動きパラメータを安定して推定する方法を示す。
【0071】
はじめに動きパラメータの推定原理を説明する。図12に示すように、カメラが自走することにより、異なる観測位置で、見え方の異なる画像が撮像される。ここで求めたいのは、カメラの並行移動成分(床面上の2自由度)と鉛直方向周りの回転成分(1自由度)の計3自由度のパラメータである。
【0072】
床面上の移動に対して、最も見え方変化の大きな特徴は、情景中の垂直エッジである(原理的には、垂直エッジだけではなく、特徴点を含む。後述の方向角に変換できる特徴であれば良い)。
【0073】
本実施例では水平方向の見え方の変化だけを頼りにカメラの動きパラメータを推定する。図13は、撮像装置の位置を真上から俯瞰した図であるが、このように3視点位置でAの位置を基準とし、新たに位置Bおよび位置Cで同じ垂直エッ
ジを観測するとする。
【0074】
各位置における十字は、撮像装置中心で定まる局座標である。
【0075】
基準位置Aにおいて定めた座標系に対して、Bに移動した際のカメラ動きパラ
メータは(TxB、TyB、ωB)、Cに移動した際のカメラ動きパラメータは(TxC、TyC、ωC)とする。
【0076】
未知数は6である。これを求めるために、各位置における垂直エッジの方位角を求める。観測1つに付き数9が1つ成り立つ。
【0077】
数9においてpは位置の識別子でこの場合[B、C]のいずれかである。iは垂直エッジの識別子であり、0≦i<N、N≧6であることは後述する。
【0078】
【数9】
【0079】
数9は垂直エッジiの基準座標Aからみた距離diAと位置pまでのカメラ動きパラメータが分かれば視点Aにおける方位角が計算できることを意味する拘束式である。
【0080】
さて、ここで2つの視点(例えば、基準点Aと移動点B)で、垂直エッジを照合して基準座標から移動点Bまでのカメラ動きパラメータを求めようとすると、観測1つにつき拘束式が増えるが、新たに未知パラメータdiAが増える。
【0081】
そこで、観測位置を3点(この場合に相当し、基準点Aと移動点BとC)とすると、観測1に対して拘束式が2つ得られ、6特徴の観測で12の拘束式、12の未知パラメータとなり、未知パラメータが定まる。
【0082】
より一般的には6特徴以上の観測であれば、未知パラメータは全て求まる。
【0083】
数9を書き換えて数10とする。
【0084】
【数10】
【0085】
ただし、
【0086】
【数11】
【0087】
【数12】
【0088】
【数13】
【0089】
である。
【0090】
ここで求めるべきパラメータを数14とする。
【0091】
【数14】
【0092】
これまでの関係式から、Ψが求まれば視点位置A、B、C間のカメラ移動が分かることになる。
【0093】
基準位置Aにおける観測角を数15とすると、Ψと数15から、視点位置Bに
おける観測角と視点位置Cにおける観測角が数16として導かれる。
【0094】
【数15】
【0095】
【数16】
【0096】
以上は、移動パラメータと視点位置から計算された値であるが、実際に観測された角度を数17であるとする。
【0097】
【数17】
【0098】
ただし、
【0099】
【数18】
【0100】
【数19】
【0101】
である。
【0102】
ここで、Ψと数15から得られる数16を以後の微分処理を容易にするため(数10参照)、数20に表現を書き換える。数20は明示しないまでもΨと基準点Aにおける観測角(数15)の関数である。
【0103】
【数20】
【0104】
以上に対応して、観測位置B、Cにおける観測角の表現を数17から数21に表現を変える。
【0105】
【数21】
【0106】
そして、計算により予測されるB地点、C地点の観測角と実測との2乗誤差を数22で表す。
【0107】
【数22】
【0108】
数22を最小化するΨとしてパラメータが求まる。これは、従来技術で示したLevenberg−Marquart法の枠組みで数23の反復として求めることができる。
【0109】
【数23】
【0110】
数23中、Hは近似ヘッセ行列(数7、数8と同形)で、Iは単位行列∇eは勾配である。
【0111】
ヘッセ行列と勾配を求める微分処理は数14の未知パラメータについて行われる。
【0112】
以上の処理ステップをまとめると、図14となる。これを参考例1とする。
(参考例2)
参考例2の発明は、走行する観測系の水平移動、回転角度を推定する装置であって、観測系周囲に存在するN個所(N≧6)の方向角を観測する手段と、上記手段を異なる観測位置(基準位置、位置1、位置2)について3回動作させた結果を保持するメモリと、記憶された3観測位置における3Nの方向角を用いて、基準位置に対する位置1および位置2とその位置における鉛直線周りの観測系の回転を求める手段からなることを特徴とする観測系動き推定装置である。
【0113】
観測系動き推定装置の参考例2について、図15を用いて説明する。図15はブロック図であり、101は全方位画像から垂直エッジを抽出する特徴抽出部、102は垂直エッジの対応関係を求める特徴追跡部、103はエッジから図13に示す観測角に変換する6方向抽出部、104〜105は基準点A、移動点B、Cの角度を記憶するメモリ、107は以上の観測から数23に示した反復演算を行い、数14のパラメータを求めるカメラ動き計算部である。
【0114】
この装置によれば、自走しながら3地点で画像上に現れる6本の線分の見える方位角を記憶することにより、その線分(例えば、テーブルや本棚の稜線)までの距離と移動成分の比、および鉛直線周りの回転角を計算することができる。実際に観測した例を図16、図17に示す。
【0115】
未知パラメータのうち、距離に関する成分(言い換えれば回転以外の成分)は全て比として求まる。
【0116】
この例では、移動カメラの車輪から得られた距離から数14のTxBの絶対値を定め、比例演算で絶対距離を求めている。
【0117】
なお、本参考例では、全方位画像に写る垂直線分を特徴として用いたが、原理的には、図13に示すように3次元中の物体の存在(エッジや角など)を観測位置からの水平面上の方位角に置き換えることができれば、数14のパラメータを求めることができる。
【0118】
したがって、撮像対象が全方位画像である必要はなく、また用いる画像特徴も線分に限定する必要はない。
【0119】
例えば、通常のカメラを用いてその投影面上でレンズ中心に平行な線を仮定し、その線上の特徴移動を追跡することによりカメラ動きパラメータを推定することができる。
【0120】
さらに、観測手段は画像である必要も無い。方位角の観測であるからレーザー光の照射によってもこの方法および装置は適用できる。
【0121】
最後に6線分を観測したが、7以上の線分を観測しても、増える未知パラメータ(線分までの距離)の数よりも拘束式が増えるため、数20の最小化により求めることができる。
【0122】
なお、本発明をソフトウエアプログラムによって実現し、そのプラグラムをメモリ上に記憶することにより、実行することができる。その場合、そのプログラムをCD−ROM等の記録媒体を用いて、あるいはインターネット等の通信回線を用いてプログラムを配信して、本発明を実行することも可能である。
【0123】
【発明の効果】
以上のように本発明(請求項1)に係る画像符号化方法によれば、図1に例示される全方位画像を予測符号化する際、右端と左端が連結した動き補償を行うことにより、MPEG1などの通常の予測符号化を用いた方法よりも高能率に符号化することができる。
【0124】
また本発明(請求項2)に係る画像復号化方法によれば、図1に例示される全方位画像を予測符号化したデータを複号化する際、右端と左端が連結した動き補償を行うことにより、MPEG1などの通常の予測復号化を用いた方法よりも高能率に復号化することができる。
【図面の簡単な説明】
【図1】 3次元環境再現システム概念図
【図2】 多視点画像符号化の従来例を示す図
【図3】 画像上の6特徴点照合によるカメラ動きパラメータ推定図
【図4】 テンプレート符号化画像とテンプレート予測符号化画像の配置説明図
【図5】 テンプレート符号化処理手順を示す図
【図6】 テンプレート予測符号化処理手順を示す図
【図7】 全方位画像の動き補償概念図
【図8】 全方位画像の境界外動き補償の概念図
【図9】 テンプレート復号化処理手順を示す図
【図10】 テンプレート予測復号化処理手順を示す図
【図11】 全方位画像と任意方向画像の関係説明図
【図12】 6垂直線による自走ロボット位置推定概念図
【図13】 方向角と自走ロボットの座標系説明図
【図14】 観測系動き推定方法の一実施例処理手順を示す図
【図15】 観測系動き推定装置の一実施例ブロック図
【図16】 観測系動き推定装置の一実施例による処理結果例1を示す図
【図17】 観測系動き推定装置の一実施例による処理結果例2を示す図
【符号の説明】
101 特徴抽出部
102 特徴追跡部
103 6方向抽出部
104 角度メモリ1
105 角度メモリ2
106 角度メモリ3
107 カメラ動き計算部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image encoding method and apparatus for realizing a three-dimensional environment system, an image decoding method and apparatus thereof, and a program for causing a computer to realize the image encoding method and image decoding method. The present invention relates to a recorded computer-readable recording medium.
[0002]
[Prior art]
Computer graphics (CG) is used to mean “an image generated by processing data by a computer” or “a technique for generating data by processing data by a computer”.
[0003]
In broad terms, CG includes developing algorithms for drawing graphics on a computer and drawing graphics using a computer.
[0004]
Objects that can be represented by CG can represent not only objects, places and backgrounds that humans can see, but also objects that cannot be actually seen.
[0005]
Therefore, CG is a virtual reality (VR) or an artificial reality (Artificial). It is used in a technology called Reality, AR) and is an important basis. With these technologies, the world built in the computer is visualized by CG, and it feels as if it is in that world. There is a need for more realistic and precise image generation.
[0006]
Currently, many of the CGs are based on polygon-based rendering (Polygon-Based Rendering, PBR). The rendering process for performing optical calculation increases the calculation cost in the case of a complex scene such as a real environment. For this reason, even when the capabilities of computers have dramatically improved, a processor dedicated to geometric calculation may be required when scene changes are required in real time.
[0007]
On the other hand, a method called image-based rendering (IBR) has been proposed in which an image is generated based on a photographed / accumulated actual image.
[0008]
Although there is a drawback that a large storage area is required because the number of stored images becomes enormous, a realistic reproduction image can be obtained by using a real image.
[0009]
However, since only captured images can be reproduced, a fictitious environment cannot be expressed. IBR is excellent in realism because it uses a real image. Furthermore, the calculation cost for outputting the stored image is extremely low. For applications where realistic images such as artificial reality are required, and scene changes are required in real time as the viewpoint changes, the latter is required. IBR is suitable.
[0010]
The present invention relates to a three-dimensional environment reproduction system using IBR.
[0011]
A three-dimensional environment reproduction system using IBR is shown in FIG.
[0012]
In FIG. 1, a robot capable of capturing an omnidirectional image (panoramic image) is self-propelled and captured at multiple points to reproduce the appearance of an arbitrary viewpoint at an arbitrary position. The problem of IBR is that there is a large amount of information to be accumulated.
[0013]
Regarding this, there is an image encoding device and an image decoding device described in Japanese Patent Laid-Open No. 10-271511.
[0014]
This is a conventional example (conventional example 1) related to encoding. In Conventional Example 1, as shown in FIG. 2, the camera moves around the object, picks up an object from as many positions as possible, and performs high-efficiency encoding using correlation between different viewpoint images.
[0015]
In this high-efficiency coding, a motion-compensated discrete cosine transformation (MC-DCT coding) is used as an extension to multi-view predictive coding. .
[0016]
The MC-DCT encoding method is H.264 standardized by ITU-T (International Telecommunication Union Telecommunication Standardization Sector). H.261 standard and H.264 standard. It is well known as a common moving image compression technique adopted in the H.263 standard and the MPEG standard.
[0017]
Here, MPEG (Moving Picture Experts Group) refers to a working group (ISO / IEC JTC1 / SC29 / WG11) that has been promoting the standardization of audio / video coding of the International Organization for Standardization (ISO). At the same time, it means the international standard for data compression established by this group.
[0018]
In the MC-DCT encoding method, an image is divided into blocks called macroblocks composed of 16 × 16 pixels, and a movement amount (motion vector) that minimizes the macroblock difference between consecutive images (frames) is calculated. The difference is subjected to discrete cosine transform (DCT) encoding. The operation of obtaining a motion image by obtaining a motion vector so as to minimize the interframe difference and obtaining a difference image without redundancy is called motion compensation. The DCT is used to remove spatial redundancy remaining in the motion compensated image (difference image). Note that since the first frame cannot be differentially encoded with other frames, it is encoded using only DCT. This is called an I picture. A general frame that is MC-DCT encoded is called a P picture. Conventional Example 1 is an extension of this structure between multi-viewpoint images.
[0019]
In the three-dimensional environment reproduction system, the self-propelled robot is controlled to scan a predetermined position.
[0020]
This control is performed by obtaining the moving distance and rotation from the information of the angle sensor, but insufficient accuracy of the angle sensor and slipping of the wheel are unavoidable, and there is no guarantee that the vehicle travels correctly at a predetermined position. Therefore, it is necessary to correct the viewpoint position actually traveled from the obtained image.
[0021]
As a technique for estimating camera motion from feature points in an image, there is an estimation method based on six feature point matching. For example, the documents Juyang Weng, Narendra Ahuja, and Thomas S. Huang: “Optimal motion and structure estimation”, IEEE Trans, Pattern Analysis and Machine Intelligence, 15 (9), pp 864-884 (1993).
[0022]
This is a conventional example (conventional example 2) relating to the calibration of the imaging apparatus. This concept is illustrated in FIG. In the image [0023]
[Expression 1]
[0024]
Is an unknown.
[0025]
Here, d0 to d5 are distances from the camera to the object (in this case, the apex of the housing), Tx, Ty, and Tz are relative translation components between the camera and the object, and ωx, ωy, and ωz are rotation components. . The coordinates of the six feature points observed at the reference position are defined as
[0026]
[Expression 2]
[0027]
Assuming that (Equation 1) and (Equation 2) are known as the positions of the feature points in the three-dimensional space, the feature point projection coordinates at an arbitrary viewpoint position can be calculated as (Equation 3).
[0028]
[Equation 3]
[0029]
Assume that (Equation 3) is actually observed as (Equation 4).
[0030]
[Expression 4]
[0031]
(Equation 3) and (Equation 4) do not necessarily match due to quantization errors and lens system aberrations.
[0032]
The difference between (Equation 3) and (Equation 4) is expressed as (Equation 5) as a square error, and the motion ψ between the object and the camera is determined in a framework that minimizes this.
[0033]
[Equation 5]
[0034]
For this minimization, since the function f in (Equation 3) is a non-linear function, an iterative minimization method is used. (Equation 6) represents a minimization step by the Levenberg-Marquart method widely used as a nonlinear least square method.
[0035]
[Formula 6]
[0036]
H is an approximate Hessian matrix, I is a unit matrix ∇e, and the gradient t is the number of iterations. λ is a non-negative control variable. When λ is large, it approaches the steepest descent method (convergence is slow but stable), and when λ is small, it approaches the Newton method (unstable but fast convergence).
[0037]
In the Levenberg-Marquart method, the advantages of the steepest descent method and the Newton method can be utilized by controlling λ. In the Levenberg-Marquart method, an approximate Hessian matrix is calculated as follows.
[0038]
[Expression 7]
[0039]
[Equation 8]
[0040]
[0041]
In order for the iteration to be stable convergence, in Equation 6, the inverse matrix related to the gradient ∇e needs to be a positive-definite value.
[0042]
In general, the Hessian matrix is not guaranteed to be a positive definite value, but since Equation 7 becomes a real symmetric matrix by approximation of
[0043]
The reason why the six feature points need to be collated can be explained as follows. Since horizontal and vertical coordinates can be obtained for each observation of a feature point, two equations are established.
[0044]
There are six camera motion parameters (unknown parameters). For each feature point collation, the distance to the feature point in the reference coordinates is increased by one unknown parameter. When the feature point matching is 6, the number of equations is equal to the unknown parameter 12, and the motion parameter is obtained from the image as the minimization of
[0045]
[Problems to be solved by the invention]
Conventional Example 1 encodes an inward multi-viewpoint image as shown in FIG. 2, and there is room for improvement in 3D environment reproduction system encoding using IBR as shown in FIG. . It is necessary to use the correlation between different viewpoint images and perform encoding using the property that the encoding target is an omnidirectional image. In order to realize a three-dimensional environment reproduction system, it is necessary to decode the encoded omnidirectional image.
[0046]
In view of the above problems, the encoding how suitable omnidirectional image multi-view coding and apparatus, decoding method suitable for omnidirectional image multiview complexed with the device, and the omnidirectional image to the computer It is an object of the present invention to provide a recording medium on which a program for realizing an encoding method suitable for image multi-viewpoint encoding and a decoding method suitable for omnidirectional image multi-viewpoint decoding is recorded .
[0047]
[Means for Solving the Problems]
In order to solve this problem, a first invention is a method for predictively encoding an omnidirectional image, and includes a reference image encoding step for performing intraframe encoding, and a similar all-encompassing from an encoded reference image. When predicting a azimuth image, assuming that the end of the reference image is continuous with the other end, a prediction step that generates a seamless omnidirectional image seamlessly, and a prediction omnidirectional image generated by the prediction step and input An image encoding method comprising a residual encoding step for encoding a difference from an omnidirectional image.
[0048]
A second invention is a method for predictive decoding of an omnidirectional image, a reference image decoding step for performing intraframe decoding, and a reference when predicting a similar omnidirectional image from a decoded reference image Assuming that the edge of the image is continuous with the other edge, the prediction step for seamlessly generating a predicted omnidirectional image, and the difference between the predicted omnidirectional image generated by the prediction step and the input omnidirectional image is decoded. It is an image decoding method characterized by having a residual decoding step.
[0049]
DETAILED DESCRIPTION OF THE INVENTION
Example 1
Example 1 will be described with reference to FIGS. 4, 5, 6, 7, and 8. The imaging system shown in FIG. 1 moves so as to move all over the floor surface in a grid pattern. FIG. 4 represents a shooting point when the floor surface is viewed from above, and a circle represents an omnidirectional image.
[0050]
Among the omnidirectional images, the shaded circle is a template encoded image, and the other images are template predictive encoded images that are predictively encoded with reference to the template encoded image. An omnidirectional image is a seamless image in a cylindrical shape, but is expanded into a rectangle and encoded by intra-frame encoding that is substantially the same as MPEG1 (corresponding to an I picture of the MC-DCT encoding method).
[0051]
The difference from MPEG1 is that the image size is 3520 × 5576 pixels.
[0052]
This processing step is shown in FIG. As described in the prior art, the image is divided into blocks called macroblocks each consisting of 16 × 16 pixels in the same manner as in the normal MC-DCT encoding method, and is further divided into 2 × 8 × 8 pixel units. Perform dimensional DCT.
[0053]
This is quantized, and information is dropped within a range that does not degrade subjective image quality (missing information corresponds to quantization error). The quantized data is variable-length encoded and output as a Huffman code.
[0054]
The encoding step of the template predictive encoded image is shown in FIG.
[0055]
A template close to the viewpoint position is once decoded as a reference image.
[0056]
A movement amount (motion vector) that minimizes the difference between the macroblocks of the image is calculated from the decoded template, and the difference is subjected to discrete cosine transform (DCT) encoding.
[0057]
This process is shown in FIG. After quantization, the same steps as template encoding are taken. The motion compensation is different from the motion compensation of the conventional MC-DCT method in that a motion vector serving as an out-of-region reference is recognized as shown in FIG.
[0058]
Since an omnidirectional image can be considered as a seamless cylindrical image, a predicted image is generated with an amount of protrusion to the right (left) as an offset viewed from the left end (right end) of the image.
[0059]
Corresponding to this “seamless (seamless)” motion compensation, motion vector prediction is also performed “seamlessly”.
[0060]
Described actual Example 1 that falls under
(Example 2)
It shows the actual施例2 you decodes the encoded data generated by the real Example 1 in the following.
[0061]
FIG. 9 is the reverse process of FIG. 5 and reconstructs the template encoded image.
[0062]
An MPEG1 intra decoding step capable of handling horizontal 3520 × vertical 576 pixels is executed.
[0063]
FIG. 10 is the reverse process of FIG. 6 and reconstructs a template prediction image.
[0064]
If the viewpoint position to be reproduced is a template encoded image, decoding is performed according to the processing steps of FIG. If it is a template predictive encoded image, after decoding a template encoded image in the vicinity of the reference once (or if the decoded image is stored without being erased, it is read from the memory), Decoding is performed according to the processing steps of FIG. Further, if the arbitrary line-of-sight direction is cut out from the reconstructed image as shown in FIG. 11, three-dimensional environment reproduction can be performed.
[0065]
In this way, an omnidirectional image with an enormous amount of data is encoded with a small amount of code by using the correlation between different viewpoints and paying attention to the features of the omnidirectional image and performing “seamless” motion compensation. be able to.
(Reference Examples 1 and 2)
Reference examples 1 and 2 relate to a motion estimation method for an observation system in a three-dimensional environment reproduction system.
[0066]
First, problems of Reference Examples 1 and 2 are shown. In the second conventional example shown in the prior art, the translation / rotation of the camera is obtained by the six feature point matching. In an imaging system that generally moves on the floor as shown in FIG. 1, the degree of freedom is constrained by horizontal movement, and the rotation is also one degree of freedom about the vertical line.
[0067]
Therefore, in the parameter estimation of a total of 3 degrees of freedom with a translational motion of 2 degrees of freedom and a rotational motion of 1 degree of freedom, the camera movement parameter can be estimated from the image by collating 3 feature points. However, the vertical component of the feature point coordinates often does not change during camera movement. Therefore, in the parameter estimation of a total of 3 degrees of freedom with a translational motion of 2 degrees of freedom and a rotational motion of 1 degree of freedom, the camera movement parameter can be estimated from the image by collating 3 feature points. However, the vertical component of the feature point coordinates often does not change during camera movement.
[0068]
In other words, a slight observation error of the feature point coordinates in the vertical direction on the screen greatly affects the motion parameters of the camera.
[0069]
In reference examples 1 and 2, in view of such points, examples are provided that provide a method and apparatus for stably estimating the motion parameters of an observation system moving on the floor surface.
(Reference Example 1)
The invention shown in Reference Example 1 is a method for estimating the horizontal movement and rotation angle of a traveling observation system, and observes N direction angles (N ≧ 6) existing around the observation system at a reference position.
[0070]
The observation system motion estimation method will be described with reference to FIG. 12, FIG. 13, and FIG. The reference embodiment shows a method for stably estimating the motion parameters of the imaging system moving on the floor surface.
[0071]
First, the principle of motion parameter estimation will be described. As shown in FIG. 12, when the camera is self-propelled, images with different appearances are taken at different observation positions. What we want to find here is a parameter with a total of three degrees of freedom: a parallel movement component of the camera (two degrees of freedom on the floor) and a rotational component around the vertical direction (one degree of freedom).
[0072]
The feature with the greatest change in appearance with respect to movement on the floor is the vertical edge in the scene (in principle, it includes not only the vertical edge but also the feature point. Features that can be converted into the direction angle described later. If it is good).
[0073]
In this embodiment, the camera motion parameter is estimated based on only the change in the horizontal appearance. FIG. 13 is an overhead view of the position of the imaging apparatus, and it is assumed that the same vertical edge is newly observed at positions B and C with reference to the position A at the three viewpoint positions.
[0074]
The cross at each position is a local coordinate determined at the center of the imaging apparatus.
[0075]
With respect to the coordinate system defined at the reference position A, the camera motion parameters when moving to B are (Tx B , Ty B , ω B ), and the camera motion parameters when moving to C are (Tx C , Ty C , ω C ).
[0076]
The unknown is 6. In order to obtain this, the azimuth angle of the vertical edge at each position is obtained. One number 9 holds for each observation.
[0077]
In Equation 9, p is a position identifier, and in this case, any of [B, C]. i is a vertical edge identifier, and 0 ≦ i <N and N ≧ 6 will be described later.
[0078]
[Equation 9]
[0079]
Formula 9 is a constraint equation that means that the azimuth angle at the viewpoint A can be calculated if the camera motion parameters from the reference coordinate A of the vertical edge i to the distance di A and the position p are known.
[0080]
Now, if the camera motion parameters from the reference coordinates to the moving point B are obtained by collating the vertical edges at two viewpoints (for example, the reference point A and the moving point B), the constraint equation is obtained for each observation. increase, but new unknown parameters di a increases.
[0081]
Therefore, if the observation position is 3 points (corresponding to this case, the reference point A and the moving points B and C), two constraint equations are obtained for the
[0082]
More generally, all unknown parameters can be obtained if the observation has 6 or more features.
[0083]
Equation 9 is rewritten into Equation 10.
[0084]
[Expression 10]
[0085]
However,
[0086]
[Expression 11]
[0087]
[Expression 12]
[0088]
[Formula 13]
[0089]
It is.
[0090]
Here, the parameter to be obtained is represented by Equation 14.
[0091]
[Expression 14]
[0092]
From the relational expressions so far, if Ψ is obtained, the camera movement between the viewpoint positions A, B, and C can be known.
[0093]
Assuming that the observation angle at the reference position A is Expression 15, the observation angle at the viewpoint position B and the observation angle at the viewpoint position C are derived from Expression Ψ and Expression 15 as Expression 16.
[0094]
[Expression 15]
[0095]
[Expression 16]
[0096]
The above is a value calculated from the movement parameter and the viewpoint position, but the actually observed angle is assumed to be Equation 17.
[0097]
[Expression 17]
[0098]
However,
[0099]
[Formula 18]
[0100]
[Equation 19]
[0101]
It is.
[0102]
Here, Expression 16 is rewritten into Expression 20 in order to facilitate subsequent differentiation processing (see Expression 10) from Expression 16 obtained from Ψ and Expression 15. Equation 20 is a function of ψ and the observation angle (Equation 15) at the reference point A, unless otherwise specified.
[0103]
[Expression 20]
[0104]
Corresponding to the above, the expression of the observation angle at the observation positions B and C is changed from Expression 17 to Expression 21.
[0105]
[Expression 21]
[0106]
Then, the square error between the observation angle at the points B and C predicted by calculation and the actual measurement is expressed by Equation 22.
[0107]
[Expression 22]
[0108]
A parameter is obtained as Ψ that minimizes Equation 22. This can be obtained as an iteration of Equation 23 in the framework of the Levenberg-Marquart method shown in the prior art.
[0109]
[Expression 23]
[0110]
In Equation 23, H is an approximate Hessian matrix (the same form as Equations 7 and 8), and I is a unit matrix ∇e is a gradient.
[0111]
Differentiation processing for obtaining the Hessian matrix and the gradient is performed on the unknown parameter of Equation 14.
[0112]
The above processing steps are summarized as shown in FIG. This is referred to as Reference Example 1 .
(Reference Example 2)
The invention of Reference Example 2 is an apparatus for estimating the horizontal movement and rotation angle of a traveling observation system, comprising means for observing N direction angles (N ≧ 6) existing around the observation system, and the above means. Using a memory that holds the result of operating three times for different observation positions (reference position,
[0113]
Reference Example 2 of the observation system motion estimation device will be described with reference to FIG. FIG. 15 is a block diagram, 101 is a feature extraction unit that extracts vertical edges from an omnidirectional image, 102 is a feature tracking unit that obtains vertical edge correspondences, and 103 is an edge-to-observation angle shown in FIG. Direction extracting unit, 104 to 105 are memories for storing the angles of the reference point A and the moving points B and C, and 107 is a camera motion calculating unit that performs the iterative calculation shown in Equation 23 from the above observations and obtains the parameter of Equation 14 It is.
[0114]
According to this apparatus, by storing the azimuth angles of the six line segments that appear on the image at three points while self-propelled, the distance to the line segment (for example, the ridge line of the table or the bookshelf) and the moving component are stored. And the rotation angle around the vertical line can be calculated. Examples actually observed are shown in FIGS.
[0115]
Among the unknown parameters, all components related to distance (in other words, components other than rotation) are obtained as ratios.
[0116]
In this example, we determine the absolute value of the number 14 of Tx B from the distance obtained from the wheel of the mobile cameras, the absolute distance proportional calculation.
[0117]
In this reference example, a vertical line segment that appears in an omnidirectional image is used as a feature. However, in principle, the presence of an object (such as an edge or a corner) in a three-dimensional object is detected from the observation position as shown in FIG. If the azimuth angle on the horizontal plane can be replaced, the parameter of Equation 14 can be obtained.
[0118]
Therefore, the imaging target need not be an omnidirectional image, and the image feature to be used need not be limited to a line segment.
[0119]
For example, a camera motion parameter can be estimated by assuming a line parallel to the center of the lens on the projection plane using an ordinary camera and tracking feature movement on the line.
[0120]
Furthermore, the observation means need not be an image. Since this is an azimuth angle observation, this method and apparatus can be applied by laser light irradiation.
[0121]
Lastly, 6 line segments were observed, but even if 7 or more line segments were observed, the number of constraints increased from the number of unknown parameters (distance to the line segment) that increased. it can.
[0122]
It should be noted that the present invention can be executed by realizing the present invention by a software program and storing the program in a memory. In that case, it is also possible to execute the present invention by distributing the program using a recording medium such as a CD-ROM or using a communication line such as the Internet.
[0123]
【The invention's effect】
As described above, according to the image coding method according to the present invention (Claim 1), when predictive coding the omnidirectional image exemplified in FIG. 1, by performing motion compensation in which the right end and the left end are connected, Encoding can be performed more efficiently than a method using normal predictive encoding such as MPEG1.
[0124]
Further, according to the image decoding method according to the present invention (claim 2), when the data obtained by predictively encoding the omnidirectional image illustrated in FIG. 1 is decoded, motion compensation in which the right end and the left end are connected is performed. Thus, decoding can be performed more efficiently than a method using normal predictive decoding such as MPEG1.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram of a three-dimensional environment reproduction system. FIG. 2 is a diagram showing a conventional example of multi-view image coding. FIG. 3 is a camera motion parameter estimation diagram by collating six feature points on an image. FIG. 5 is a diagram showing a template encoding process procedure. FIG. 6 is a diagram showing a template predictive encoding process procedure. FIG. 7 is a conceptual diagram of motion compensation for an omnidirectional image. 8] Conceptual diagram of out-of-boundary motion compensation for omnidirectional images. [Fig. 9] Diagram showing template decoding processing procedure. [Fig. 10] Diagram showing template predictive decoding processing procedure. [Fig. FIG. 12 is a conceptual diagram of self-running robot position estimation using 6 vertical lines. FIG. 13 is an explanatory diagram of a direction angle and a coordinate system of the self-running robot. FIG. [ 15 is a block diagram of an example of an observation system motion estimation device. FIG. 16 is a diagram illustrating a processing result example 1 according to an example of an observation system motion estimation device. FIG. 17 is a processing result of an example of an observation system motion estimation device. Diagram showing Example 2 [Explanation of symbols]
DESCRIPTION OF
105
106
107 Camera motion calculator
Claims (6)
フレーム内符号化を行う参照画像符号化ステップと、
符号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測ステップと、
予測ステップにより生成された予測全方位画像と入力全方位画像との差分を符号化する残差符号化ステップと、を有し、
前記予測ステップでは、前記参照画像の端から一部が外れるマクロブロックにおいて、前記参照画像内のマクロブロック部分である第1部分と、
前記参照画像の端から外れるマクロブロック部分である第 2 部分が示す情報内容を有し、前記参照画像の他方の端の近傍で存在していると予測できるマクロブロック部分である第3部分と、
を用いて動き補償を行う、画像符号化方法。A method for predictively encoding an omnidirectional image,
A reference image encoding step for performing intraframe encoding;
When predicting a similar omnidirectional image from an encoded reference image, assuming that the end of the reference image is continuous with the other end, a prediction step for seamlessly generating a predicted omnidirectional image;
Have a, a residual encoding step of encoding a difference between the predicted omnidirectional image generated with the input omnidirectional image by the prediction step,
In the prediction step, in a macroblock partially removed from an end of the reference image, a first portion that is a macroblock portion in the reference image;
A third part that is a macroblock part that has the information content indicated by the second part that is a macroblock part that deviates from the end of the reference image and can be predicted to exist near the other end of the reference image;
An image encoding method for performing motion compensation using
フレーム内復号化を行う参照画像復号化ステップと、
復号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測ステップと、
予測ステップにより生成された予測全方位画像と入力全方位画像との差分を復号化する残差復号化ステップと、を有し、
前記予測ステップでは、前記参照画像の端から一部が外れるマクロブロックにおいて、前記参照画像内のマクロブロック部分である第1部分と、
前記参照画像の端から外れるマクロブロック部分である第 2 部分が示す情報内容を有し、前記参照画像の他方の端の近傍で存在していると予測できるマクロブロック部分である第3部分と、
を用いて動き補償を行う、
画像復号化方法。A method for predictive decoding of omnidirectional images,
A reference image decoding step for performing intra-frame decoding;
When predicting a similar omnidirectional image from a decoded reference image, assuming that the end of the reference image is continuous with the other end, a prediction step for generating a predicted omnidirectional image seamlessly;
Have a, a residual decoding step for decoding the difference between the predicted omnidirectional image generated with the input omnidirectional image by the prediction step,
In the prediction step, in a macroblock partially removed from an end of the reference image, a first portion that is a macroblock portion in the reference image;
A third part that is a macroblock part that has the information content indicated by the second part that is a macroblock part that deviates from the end of the reference image and can be predicted to exist near the other end of the reference image;
Motion compensation using
Image decoding method.
フレーム内符号化を行う参照画像符号化手段と、
符号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測手段と、
予測手段により生成された予測全方位画像と入力全方位画像との差分を符号化する残差符号化手段と、を有し、
前記予測手段では、前記参照画像の端から一部が外れるマクロブロックにおいて、前記参照画像内のマクロブロック部分である第1部分と、
前記参照画像の端から外れるマクロブロック部分である第 2 部分が示す情報内容を有し、前記参照画像の他方の端の近傍で存在していると予測できるマクロブロック部分である第3部分と、
を用いて動き補償を行う、画像符号化装置。An apparatus for predictively encoding an omnidirectional image,
Reference image encoding means for performing intraframe encoding;
When predicting a similar omnidirectional image from an encoded reference image, assuming that the end of the reference image is continuous with the other end, a prediction means for generating a predicted omnidirectional image seamlessly;
Have a, and residual encoding means for encoding the difference between the predicted omnidirectional image generated with the input omnidirectional image by the prediction means,
In the prediction means, in a macroblock partly removed from an end of the reference image, a first portion that is a macroblock portion in the reference image;
A third part that is a macroblock part that has the information content indicated by the second part that is a macroblock part that deviates from the end of the reference image and can be predicted to exist near the other end of the reference image;
An image encoding apparatus that performs motion compensation using a video.
フレーム内復号化を行う参照画像復号化手段と、
復号化された参照画像から類似の全方位画像を予測する際、参照画像の端が他方の端に連続していることを仮定し、継ぎ目なく予測全方位画像を生成する予測手段と、
予測手段により生成された予測全方位画像と入力全方位画像との差分を復号化する残差復号化手段と、を有し、
前記予測手段では、前記参照画像の端から一部が外れるマクロブロックにおいて、前記参照画像内のマクロブロック部分である第1部分と、
前記参照画像の端から外れるマクロブロック部分である第 2 部分が示す情報内容を有し、前記参照画像の他方の端の近傍で存在していると予測できるマクロブロック部分である第3部分と、
を用いて動き補償を行う、画像復号化装置。An apparatus for predictive decoding of omnidirectional images,
Reference image decoding means for performing intra-frame decoding;
When predicting a similar omnidirectional image from a decoded reference image, assuming that the end of the reference image is continuous with the other end, a prediction means for generating a predicted omnidirectional image seamlessly;
Have a, a residual decoding means for decoding the difference between the predicted omnidirectional image generated with the input omnidirectional image by the prediction means,
In the prediction means, in a macroblock partly removed from an end of the reference image, a first portion that is a macroblock portion in the reference image;
A third part that is a macroblock part that has the information content indicated by the second part that is a macroblock part that deviates from the end of the reference image and can be predicted to exist near the other end of the reference image;
An image decoding apparatus for performing motion compensation using
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05977099A JP4258879B2 (en) | 1999-03-08 | 1999-03-08 | Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05977099A JP4258879B2 (en) | 1999-03-08 | 1999-03-08 | Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006030813A Division JP4277859B2 (en) | 2006-02-08 | 2006-02-08 | Observation system motion estimation method and apparatus, and computer-readable recording medium storing a program for causing computer to realize observation system motion estimation method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000261808A JP2000261808A (en) | 2000-09-22 |
JP2000261808A5 JP2000261808A5 (en) | 2006-03-23 |
JP4258879B2 true JP4258879B2 (en) | 2009-04-30 |
Family
ID=13122866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05977099A Expired - Fee Related JP4258879B2 (en) | 1999-03-08 | 1999-03-08 | Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4258879B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051072A1 (en) * | 2015-09-23 | 2017-03-30 | Nokia Technologies Oy | A method, an apparatus and a computer program product for coding a 360-degree panoramic video |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100688383B1 (en) * | 2004-08-13 | 2007-03-02 | 경희대학교 산학협력단 | Motion estimation and compensation for panorama image |
KR100677142B1 (en) * | 2004-08-13 | 2007-02-02 | 경희대학교 산학협력단 | Motion estimation and compensation for panorama image |
EP1779672A4 (en) * | 2004-08-13 | 2010-10-27 | Ind Academic Coop | Method and device for motion estimation and compensation for panorama image |
US7623682B2 (en) * | 2004-08-13 | 2009-11-24 | Samsung Electronics Co., Ltd. | Method and device for motion estimation and compensation for panorama image |
EP2604036B1 (en) | 2010-08-11 | 2018-03-07 | GE Video Compression, LLC | Multi-view signal codec |
-
1999
- 1999-03-08 JP JP05977099A patent/JP4258879B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051072A1 (en) * | 2015-09-23 | 2017-03-30 | Nokia Technologies Oy | A method, an apparatus and a computer program product for coding a 360-degree panoramic video |
CN108293136A (en) * | 2015-09-23 | 2018-07-17 | 诺基亚技术有限公司 | Method, apparatus and computer program product for encoding 360 degree of panoramic videos |
JP2018534827A (en) * | 2015-09-23 | 2018-11-22 | ノキア テクノロジーズ オーユー | 360-degree panoramic video encoding method, encoding apparatus, and computer program |
CN108293136B (en) * | 2015-09-23 | 2022-12-30 | 诺基亚技术有限公司 | Method, apparatus and computer-readable storage medium for encoding 360-degree panoramic video |
Also Published As
Publication number | Publication date |
---|---|
JP2000261808A (en) | 2000-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230328385A1 (en) | Image data encoding/decoding method and apparatus | |
CN108012155B (en) | Video coding method and video decoding method of pre-spliced image and related devices | |
US8351685B2 (en) | Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same | |
US7623682B2 (en) | Method and device for motion estimation and compensation for panorama image | |
US20210021868A1 (en) | Method and apparatus of encoding/decoding image data based on tree structure-based block division | |
JP2006081161A (en) | System and method for off-line multi-view video compression | |
JP4838275B2 (en) | Distance information encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium | |
CN112970256A (en) | Video coding based on globally motion compensated motion vectors | |
EP2061005A2 (en) | Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same | |
JP5219199B2 (en) | Multi-view image encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium | |
JP3823767B2 (en) | Moving image foreground / background region separation method, and moving image encoding method using conditional pixel interpolation using the method | |
CN112997499B (en) | Encoding/decoding method and encoding/decoding apparatus for providing video data bit stream | |
JP4258879B2 (en) | Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method | |
WO2015056712A1 (en) | Moving image encoding method, moving image decoding method, moving image encoding device, moving image decoding device, moving image encoding program, and moving image decoding program | |
JP2000261808A5 (en) | ||
JP4964827B2 (en) | Multi-view distance information encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium | |
JP5024962B2 (en) | Multi-view distance information encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium | |
JP2000285260A (en) | Encoding method for multi-view point picture and generation method for arbitrary-view point picture | |
JP2018207356A (en) | Image compression program, image compression device, and image compression method | |
CN111630862B (en) | Method and apparatus for encoding and decoding a multi-view video sequence representing omni-directional video | |
RU2776664C2 (en) | Methods and devices for encoding and decoding of multi-view video sequence of omnidirectional video | |
JP5531282B2 (en) | Multi-view image encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium | |
JPH1118091A (en) | Coding/decoding device for multi-viewpoint image and its coding/decoding method | |
García et al. | Estimation of non-planar rotation for video coding applications | |
Garcia et al. | An efficient and direct nonplanar rotation estimation algorithm for video applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060208 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |