JP2005004487A - Apparatus and method for processing surround image photographed on capture path - Google Patents

Apparatus and method for processing surround image photographed on capture path Download PDF

Info

Publication number
JP2005004487A
JP2005004487A JP2003167396A JP2003167396A JP2005004487A JP 2005004487 A JP2005004487 A JP 2005004487A JP 2003167396 A JP2003167396 A JP 2003167396A JP 2003167396 A JP2003167396 A JP 2003167396A JP 2005004487 A JP2005004487 A JP 2005004487A
Authority
JP
Japan
Prior art keywords
image
omnidirectional
image processing
processing apparatus
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003167396A
Other languages
Japanese (ja)
Inventor
Frank Nielsen
フランク ニールセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003167396A priority Critical patent/JP2005004487A/en
Publication of JP2005004487A publication Critical patent/JP2005004487A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)
  • Studio Devices (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an apparatus and method capable of processing full view image data and effective sampling of surround image data that is obtained through the processing of the full view image data. <P>SOLUTION: An image processing apparatus includes a position detection unit for detecting a position at which the full view image data are captured, a spatial factor detection unit for calculating a spatial factor corresponding to the position detected, the spatial factor being related to a geometric structure of surround environment, of which the full view image is captured from the detected position; and a filter unit for causing reduction in processed image data, that is to be outputted from the image processing apparatus, according to the spatial factor calculated. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明はサラウンド画像を処理する装置及び方法に係り、より具体的には、パスに沿って移動する全方位マルチヘッドカメラで撮影された注釈付ビデオ(annotated video)を撮像、空間フィルタ処理及びビューイングするための装置及び方法に関する。
【0002】
【従来の技術】
コンピュータグラフィックにおける迫真性の追求は果てしのない目標である。オブジェクト空間レンダリング・アルゴリズムが“現実世界”感覚には欠けるが驚くほど鮮明な画像を提供する一方、他方では逆レンダリング手段を使った画像ソースのモデリング及び解析による画像ベースレンダリング(Image−Based Rendering:IBR)が進み、拡張性や相互作用性には欠けるものの、画像空間において衆目を引き付けるような三次元環境を提供している。
【0003】
S. E. Chenによる写真品質の背景描写の紹介(“Quicktime VR ‐ An Image−Based Approach to Virtual Environment Navigation” ACM SIGGRAPH, pp.29−38, 1995)、光線空間(M. Levoy, P. Hanrahan, “Light field rendering”, ACM SIGGRAPH, pp. 31−42, 1996; S. J. Gortler, R. Grzeszczuk, R. Szeliski, M. F. Cohen, “The lumigraph”, ACM SIGGRAPH, pp. 43−54, 1996)、圧縮された光線空間平面(W. C. Chen, J. Y. Bouguet, M. H. Chu, R. Grzeszczuk, “Light Field Mapping: Efficient Representation and Hardware Rendering of Surface Light Fields”, ACM Transactions on Graphics. 21(3), pp. 447−456, 2002)、及び、静的環境における写真品質の仮想通り抜け(D. G. Aliaga, T. Funkhouser, D. Yanovsky, I. Carlbom, “Sea Of Images”, IEEE Visualization, pp. 331−338, 2002)により、IBRは一般的になっている。未だその揺籃期にはあるものの、多くの場合そのアルゴリズムは、最初パノラマフレームの位置参照(geo−reference)を行い、続いて特徴一致処理(feature matching)に基づきソース画像を歪ませて組み合わせ、新しい視点を合成するように進む。
【0004】
本出願と同一出願人により出願された日本特許公開2003−141562号公報には、三次元座標にマッピングされた円筒あるいは球状全方位画像の圧縮、蓄積及び再生に適用できる画像処理装置及び方法が開示されている。
【0005】
【発明が解決しようとする課題】
仮想通り抜け(Virtual Walkthrough)システムの用途によっては、仮想サラウンド環境(Virtual surround environment)をレンダリングするために、ビルのような屋内環境の全領域を撮影することが必要になる。例えば、ビルの屋内環境を撮像するために全方位ビデオカメラを使用した場合、全方位ビデオカメラが毎秒60フレームを撮影し、ビル内を移動するのに60分かかるとすれば、画像フレームの総枚数は216000枚に達する。
【0006】
また、撮像されたサラウンド画像の中には、その他のものに比べてあまり新しい情報をもたらさないものが存在する。例えば、壁で囲まれた廊下の途中を移動している場合、そのサラウンド環境には視認可能な大きな変化はあまり存在しない。このような場所での仮想通り抜けシステムの廊下のレンダリングには、廊下の回り角あるいは部屋の入口等、より多くの環境変化が見られるビルのその他の場所と比べて、より少ない全方位画像データが必要とされる。
【0007】
本発明は上記状況を考慮して構想されたものである。全方位画像データを処理でき、かつ、全方位画像データを処理して得られるサラウンド画像のデータサイズを効率的に削減できる装置及び方法を提供することが望ましい。
【0008】
さらに、全方位画像データをサンプリング/フィルタ処理することができる、あるいは、アプリケーションで使用されるサラウンド画像データを適切に圧縮することができる装置及び方法を提供することが望ましい。
【0009】
【課題を解決するための手段】
本発明の一実施形態によれば、全方位画像データ処理用の画像処理装置が提供される。本画像処理装置は、全方位画像が撮像された位置を検出する位置検出部と;サラウンド環境の幾何学的構成に関するものであり、それについて該検出位置から全方位画像が撮像される、該検出された位置に対応する空間係数を算出する空間係数検出部と;該算出された空間係数に基づき本画像処理装置から出力されるべき処理済み画像データの縮減を行わせるフィルタ部とを備える。
【0010】
空間係数は、全方位画像が撮像されるパスの曲線長(curve length)であっても良く、あるいは該パス内で算出された複数のビジビリティ・エンベロープ(visibility envelopes)又はセル(cells)に基づき決定されてもよい。あるいは、空間係数が、上記パス内で算出されるビジビリティ多面体の集合(a set of polyhedra)に対応するサラウンド画像のテクスチャのパラメータ表現(parameterization)に応じて決定されてもよい。
【0011】
フィルタ部は、空間係数に応じて、全方位画像のサンプリングレートの決定あるいは全方位画像の選択をしてもよい。あるいは、フィルタ部が、空間係数に応じて、処理済み画像データを圧縮してもよい。
【0012】
さらに、上記画像処理装置における処理では、処理済画像に重ね合わせるイベント・トリガー領域の追加を含んでいてもよい。イベント・トリガー領域は、全方位画像データの処理により得られたサラウンド画像の予め定めた位置に配置され、該領域がユーザ操作により選択されると予め定めたイベントがトリガーされるよう構成される。さらに本処理では、全方位画像データの処理により得られたサラウンド画像上への、動画テクスチャ及び/又は三次元オブジェクトのマッピングが含まれていてもよい。
【0013】
上記画像処理装置には全方位画像撮像部が設けられていても良い。
【0014】
本発明の他の実施形態によれば、全方位画像データ処理用の画像処理方法あるいはコンピュータプログラムが提供される。本画像処理法あるいはコンピュータプログラムは、全方位画像が撮像された位置を検出し;サラウンド環境の幾何学的構成に関連し、それについて該検出された位置から全方位画像が撮像される、該検出した位置に対応する空間係数を算出し;該算出した空間係数に基づき当該画像処理装置から出力されるべき処理済み画像データの縮減を行わせるステップを含む。
【0015】
【発明の実施の形態】
本発明の一実施形態による装置を図面を参照して説明する。
【0016】
図1は全方位カメラ(全方向カメラ)10の一例を示す。全方位カメラ10は12個の五角形面からなる略正十二面体形状のフレームと、異なる面上に別々に積載された11個のカメラとを含む。各カメラはサラウンド場面内での対応領域を撮影し、サラウンド画像の一部としてデータ出力する。これらの画像部分を張り合わせることにより、全天球型の全方位画像が得られる。
【0017】
図2は全方位カメラ10と全方位画像処理装置100とを含むシステムの模式図を示す。図2に示すように、全方位カメラ10は、複数のカメラ11に加えて、複数のVTR12とマイク13とを備え、複数のビデオストリームと音声信号を記録する。記録されたビデオストリームは切換器14によりビデオキャプチャーされ、コンピュータデータ(例えば、ビットマップファイル)として画像処理装置100へ出力される。画像処理装置100は、次の画像処理のための撮像画像の準備、画像貼り付け、処理済み画像の蓄積等の画像処理を行う。
【0018】
さらに本発明において上記装置100は、撮像した画像の重要度に応じて、撮像した画像のフィルタ処理又は処理済み画像の圧縮を行う。本実施形態においては、上記重要度は全方位カメラ10のパスに沿って算出された空間係数により測られる。本実施形態によるフィルタ処理/圧縮方法の詳細は後述する。
【0019】
画像処理装置100は図3に示す構成を備えるコンピュータシステムにより実現できる。本装置100は、CPU101と、メモリ102と、表示コントローラ103と、入力装置インタフェース104と、ネットワークインタフェース105と、外部装置インタフェース107と、バス108と、ビデオキャプチャカード109と、表示装置111と、キーボード112と、マウス113と、ハードデスク駆動装置114と、メデアドライブ115とを含む。
【0020】
画像処理装置100は、画像処理用の多様なアプリケーションのダウンロードや、ビデオキャプチャカード109を介して受信する代わりに全方位画像をダウンロードしたり、あるいは処理済み画像データをネットワーク上で配信するために、ネットワークインタフェース105を介してLANあるいはインターネット120に接続されていても良い。
【0021】
上記CPU101はビデオキャプチャカード109を介して全方位カメラ10から出力された複数画像の貼り付けや、空間係数に従っての画像フィルタ処理/圧縮等、多様なアプリケーションを実行する。
【0022】
図4は、複数の撮像された画像を処理してサラウンド画像を算出する操作モード中のCPU101の機能模式図の一例を示す。本操作モードにおいて、複数の撮像された画像データからなる全方位画像データが全方位カメラ10からサラウンド画像計算部401へ提供される。
【0023】
サラウンド画像計算部401は全方位画像データからパノラマ画像あるいはサラウンド画像を計算し出力する。コンピュータグラフィック(CG)スクリプトを使用する場合には、この部401は該CGスクリプトから直接サラウンド画像を算出する。
【0024】
位置検出部402はカメラ10の位置決めのため、パノラマ画像を使ってエゴモーション・リカバリ(egomotion recovery)を行う。エゴモーション・リカバリ処理は、一定高さのカメラを使用することでかなり簡略化できる。エゴモーション・リカバリの詳細説明は後述する。
【0025】
カメラ10の位置は空間係数検出部403へ出力される。空間係数検出部403は位置検出部402により検出された位置における空間係数を検出する。本発明においては、空間係数はパノラマ画像が撮影されたサラウンド環境の重要性(有意性)レベルを計測するために導入された。空間係数は、例えば、(a)曲線長さ単位、(b)ビジビリティ・セル、(c)ビジビリティ・エンベロープ、あるいは(d)テクスチャのパラメータ表現、に基づき算出される。ビジビリティ・セルあるいはエンベロープを使う場合、パスの全ての位置に対する容積及び面積属性が算出される。エンベロープの組合せ変更はビジビリティ図(visibility graph)(図8を参照)により定義される臨界的なビジビリティ・ベントの箇所だけで発生する。ビジビリティ・セル及びエンベロープの詳細説明は本明細書の後半部分で行う。
【0026】
フィルタ処理部404は、空間係数検出部403において算出された空間係数に基づき、サラウンド画像のフィルタ処理を行う。例えば、最初にサラウンド画像を多めにサンプリングして、次にフィルタ処理部404で削減させてもよい。あるいは、フィルタ処理の代わりに、全方位カメラ10から提供される全方位画像データのサンプリングするタイミングを空間係数に基づき制御するようにしてもよい。更には、各全方位画像を空間係数に応じて重み付けし、該重み付けに応じて他の画像と一緒に圧縮するようにしてもよい。
【0027】
次に、本発明の他の実施形態による方法を説明する。本方法は、パスに沿って移動する全方位マルチヘッドカメラで撮影した注釈付きビデオを撮像、空間的にフィルタ処理し、ビューイングするステップを含んでいる。
【0028】
以下の章節において、全方位カメラの軌道パス算出用に設計されたエゴモーション・リカバリ・アルゴリズム、及び幾何学的ビジビリティ・ベントに基づくプレノプティックパス(plenoptic path)の効率的サンプリングについて詳細に説明する。適切なサンプリングによりパノラマ画像をフィルタし圧縮することが可能になり、冗長が避けられ、画像データベース内のメモリ領域の節約が可能になる。また、屋内撮影により得られた、あるいは、コンピュータグラフィックにより完全にレンダリングされたプレノプティックパスの幾つかのアプリケーション及び結果を説明する。
【0029】
1.プレノプティック関数及びパス
プレノプティックの概念(M. Levoy, P. Hanrahan. “Light field rendering”, ACM SIGGRAPH, pp. 31−42, 1996; S. J. Gortler, R. Grzeszczuk, R. Szeliski, M. F. Cohen, “The Lumigraph”, ACM SIGGRAPH, pp. 43−54, 1996)は、任意の時間t、任意の方向(θ,φ)及び任意の波長λのスペクトル応答において、三次元空間Eでの各デカルト座標点(X,Y,Z)と関連する7次関数L(・)=L(X,Y,Z,θ,φ,t,λ)を把握できれば、三次元の幾何学的モデリングをバイパスすることが可能となり、プレノプティック関数L(・)から直接“レンダリング”することによりインタラクテイブな通り抜け(walkthrough)を提供することができる、という観察に基づいている。
【0030】
実用上は、時間を凍結し(即ち、静的環境を考える)、一つの波長(一つのカラーチャンネル、例えば赤色)を選択し、レイ・サンプリング(X,Y,Z,θ,φ)をカメラパスに限定することで、この関数の高次元性を緩和する、即ち一次元プレノプティックパスP={P=(x,y,z)}に限定することができる。
【0031】
パス沿いに全方位カメラを移動させることで、強制的にPのサンプリングが実施でき、これによってPを点pの集合P={Pi=1,,pとして離散化する。L|P(・)の3次元不連続サンプリングから、逆レンダリング問題(例えば、マクロ/メソ(Macro/Meso)幾何及びテクスチャ属性、照明条件等の解明)を考慮するか、あるいは、視野合成(view synthesis)のための関数の外挿処理を進めるかの何れかが可能になる。大量のサンプリング撮影は時間がかかり面倒であるため、全方位カメラを備えるパノラマヘッドを移動させる動力ロボットを使ってこの仕事をさせてもよい。このようなシステムの事例は次の文献に提示されている(D. G. Aliaga, T. Funkhouser, D. Yanovsky, I. Carlbom, “Sea Of Images”, IEEE Visualization, pp. 331−338, 2002; D. G. Aliaga, D. Yanovsky, T. Funkhouser, I. Carlbom, “Interactive Image−Based rendering Using Feature Globalization”, ACM Symp. On 3D Graphics, 2003)。
【0032】
2.プレノプティックパスの捕捉
2.1 マルチヘッドカメラ
全方位カメラとして、図1に示すようなマルチヘッドカメラが全天球ビデオ撮影のために使用できる。パノラマヘッドは、略同一の光学的中心点(即ち、節点(nodal point))を共有する10個のCCD NTSCブロックカメラからなり、互いに重なり合う視野の全方位画(4πステラジアン角度)を毎秒60枚のインターレースフレームで撮影する。
【0033】
本実施形態では全方位カメラが使用されているが、必ずしも4πステラジアン角を網羅する完全な全方位カメラを備える必要はない。最終的なアプリケーション次第では、本発明で使用されるカメラあるいは画像データがカバーする角度範囲は4πステラジアン角以下であってもよい。
【0034】
カメラ及び記録システムを運搬車に搭載し、バッテリーで駆動することで、自由にサラウンド環境を撮影してもよい。その運搬車にはモータと駆動機構を備えるか、あるいは、人間の手で押してもよい。サラウンド環境マップの縫い合わせ、ビューイング及び符号化のアルゴリズムはF.Nielsenによる次の文献に詳細に記載されている(“High Resolution Full Spherical Videos”, IEEE Intl. Conf. on Information Technology; Coding and Computing, pp. 260−267, 2002)。p∝10000のオーダの高解像度パノラマフレームI、i∈{1,・・・,p}が記録される。例えば、2048×1024画像寸法を正矩形(equirectangular)パノラマとして使用してもよい。図5(a)及び図5(b)は、マルチヘッドカメラで撮影した全方位画像データから生成した正六面体サラウンド環境マップと正矩形サラウンド環境マップとの例を示す。
【0035】
2.2 コンピュータグラフィックス
また、レイ・トレーシングあるいはラジオシティソフトを使って全方位画像及びプレノプティックパスを算出してもよい。例えば、そのソースコードが開示されており、かなりなCGスクリプトも入手可能であるため、POV−Ray(商標)を使ってサラウンド画像を算出してもよい。即ち、CG画像の各画素(x、y)に対しその対応する角座標(θ、ψ)をマッピングする全単射写像関数(bijective function)を定義して、我々の画像フォーマットを出力するためにファイル“render. Cpp”の工程“create_ray”を変更する。図18に示すサラウンド画像の例は、サイトInternet Ray Tracing Competition(IRTC)から入手したCGスクリプトから算出された。
【0036】
コンピュータグラフィックス産業界で使用されているAlias Wavefront Maya(商標)あるいはDiscreet 3DMAX(商標)のような従来のツールも、それらのレンダリング装置あるいはAPIを使って、サラウンド画像を出力するのに使用できる。
【0037】
CG画像は完全な仮想サラウンドカメラ(即ち、装置間の物理的干渉がなく、実際のカメラ装置も必要としない)と正確な像(一定の照明で、視差がなく、ノイズも無く、振動等もない)を生成するという特徴があり、CG画像を使っての作業は相互性能評価(ベンチマーク)等には有用である。
【0038】
3.エゴモーション・リカバリ(egomotion recovery)
本実施形態によるカメラの外的(extrinsic)位置を再捕捉(recovery)するためのアルゴリズムを説明する。パノラマ画像には内的(instrinsic)パラメータが無いため、結局我々は、空間的にインデックス付けされたパノラマ画像のユークリッドパス(倍率係数まで定義される)を得ることになる。
【0039】
屋外環境のような大規模パノラマパスのビデオに、概略的な注釈を加えるのには、GPSシステムを使用してもよい。但し、一般的なGPSシステムはあまりにも粗い位置しか与えられないので視野合成には使用できない(M.Hirose, “Space Recording Using Augmented Virtuality Technology”, Intl. Mixed Reality Symp., pp105−110, 2001; D. Kimber, J. Foote, S. Lertsithichai, “FlyAbout; Spatially Indexed Panoramic Video”, ACM Multimedia 2001, pp. 339−341, 2001)。視覚効果を生むために仮想及び現実のカメラパスを一致させなければならない、移動一致を必要とする産業界(matchmoving industry)において、ビジョン・アルゴリズムが有用であるのが最近証明された。
【0040】
特徴トラッキングに基づき、全方位画像の位置タグ(x、y、θ)、i∈{1,・・・,p}が算出される。以下に、全方位カメラが固定高さの面の上を移動するように限定された場合の簡易かつ高速なグローバルエゴモーションアルゴリズムについて説明する。本エゴモーションアルゴリズムによれば、パス上での位置がサラウンド画像に登録される。
【0041】
本アルゴリズムは次のステップを含む。
・概略回転シーケンスθの算出(画素をベースとした方法)、
・概略並行移動シーケンス(x、y)の算出(特徴をベースとした方法)、
・初期推定値に基づく密度の高い広域最適化を実施することによる(x、y、θ)の微調整(全てのパラメータを同時に適切に考慮した特徴をベースとした方法:相対パス)、
・2又はそれ以上のランドマークを用いてのパスの固定化(絶対パス)。
【0042】
我々はトラッキングするランドマークを指示する必要も無く、パスを事前に初期設定する必要も無いため、捕捉システムが柔軟で、拡張可能に、かつ、使用し易くなる。
【0043】
3.1 粗方位測定
絶対方位はパノラマ画像の“北”を指す。簡単ではあるが、本アルゴリズムは特徴マッチングを行わなくとも十分に機能する。例えば、複数の画像が寸法w×hの正矩形フォーマット(緯度−経度とも呼ばれる)の場合、各パノラマフレームIに対して、各カラム画素は平均化されて対応する一次元のリング画像Rとなる。
【0044】
次に、リング画像R、Ri+1は連続的に登録されて方位シフト(結果的にはサブ画素の精度で(B.D.Lucas, T. Kanade, “An iterative Image Registration Technique with and Application to Stereo Vision,” 7th Intl Joint Conference on Artificial Intelligence (IJCAI), pp.676−679, 1981))を得る。リング画像内の画素単位が2π/ωラジアンのシフトに対応。画素に対応した垂直方向に内在する角度長に従って画素の重み付けを行うことにより、限定された緯度範囲内でのカラムの平均が可能となる。
【0045】
3.2 粗並行移動
一旦、画像の略方位が決定されると、シーケンス(x、y)が決定される。モーションアルゴリズムでの殆どの構成と同様に、ユークリッド3次元点集合が再構成される。先ず、一次元並行移動がまとめて以下のように算出される。最初、方位があまり大きく変わらないところでは、(調整されたしきい値を用いて)そのパスがセグメント(連続画像シーケンス)に区分される。セグメント長λが未だ算出されていない場合にはポリラインが定義される。算出アルゴリズムの詳細は図8を参照して後述する。
【0046】
まとまった長さk+1の両端の画像I及びId+kについて、I、…、Id+k(図6を参照)で共通に追跡される特徴から並行移動パラメータλが標準数値解析法を用いて算出される。極からデカルトへの変換を行うことにより(θ、λ)からシーケンス(x、y)が求められる。図6(a)−6(c)はプレノプティックパスシーケンスから追跡された、画像中にマーキングされた特徴の例を示す。
【0047】
3.3 パラメータ微調整
シーケンス(x、y、θ)は次の文献に記載された方法と同様な方法で回転及び並行移動を適切に相関付けることにより数値的に改善される(C.J.Taylor, “VideoPlus; A Method for Capturing the Structure and Appearance of Immersive Environments”, IEEE Trans. on Visualization and Computer Graphics, Vol. 8(2), pp. 171−182, 2002; M. Antone, S. Teller, “Scalable Extrinsic Calibration of Omni−Directional Image Networks”, Intl. Journal of Computer Vision, Vol. 49(2/3), pp. 143−174, 2002)。ビジビリティ合成アプリケーションにおいて重要ではあるが、ここではパスに沿って発生する組合せイベント(combinatorial event)の概略分析が行われており、この最終ステップはフィルタ処理プロセスを大きく改善するものではない。
【0048】
3.4 絶対位置決定
ユーザが設定する2つ以上のランドマークを使って(例えば、基準フロア地図を使って)、フロア地図、概略再構成等により提供された利用可能な幾何学的情報の大きさ及び原点に一致するよう、回転及び並行移動パラメータを用いてパスが固定される。
【0049】
本発明においては、エゴモーション・リカバリは上記の方法に限定されるものではなく、その方法が全てのサラウンド画像の基準角(例えば北極)及び(x、y)位置を定義できるものであれば、物理的装置、視点追跡装置、基準線(fiducial)、距離計等を用いたその他の方法を用いてもよい。注意すべきは、このステップはコンピュータグラフィックススクリプトには不要である点である。なぜならば各CGサラウンド画像は予め定めた位置ごとに算出されるからである。
【0050】
4. プレノプティックパスの空間フィルタ処理
一旦、プレノプティックパスが求められると、“冗長”画像(新たな情報をそれ程もたらさない画像)やあまり重要でない画像を取り除けるように、該プレノプティックパスは適切にサンプリング/注釈付けが行われる。そのサンプリングはプレノプティックパス等のプログレッシブ・コーデングにも有用である。
【0051】
プレノプティック関数のサンプリングはChai等によって研究された(J.−X.Chai, H.−Y.Shum, X.T. “Plenoptic sampling”,ACM SIGGRAPH, pp.307−318,2000)。Chai等は光照射野レンダリング用の最小サンプリングレート決定のためにスペクトル解析を用いてL(・)のサンプリング法を研究した。一方、本発明はプレノプティック関数の部分集合であり、かつ幾何学的分割が行われた、プレノプティックパスに対して特に適合させたものである。
【0052】
サラウンド画像の数を削減する一つの方法は、曲線長に比例して、パスPに沿って視点Pを選択/配分することである(パス長のパラメータ表現)。この方法は幾何学的情報が利用できない場合には効率的である。lがパスの長さPを示すものとすると、lはサラウンド画像の相対並行移動パラメータから、Σ{(txi+1−tx+(tyi+1−ty1/2を持つとして、定義される。
【0053】
幾何学的情報が利用できない場合には、lに従ってサンプリングすることが好ましい。例えば、記録されたn個のサラウンド画像の中からm個の部分集合画像を選択する必要がある場合、パスPはm個の等しい長さの間隔に分割されて、各間隔内において一つのサラウンド画像が選択される。そうすることにより、捕捉中に発生した非均一的な人為的影響に対する補正が可能になる。例えば、全方位カメラの運搬車の速度を増せば粗いデータが得られ、他方、速度を落とせばサンプリングレートが増加する。
【0054】
サラウンド画像の数を削減するもう一つの方法はビジビリティセル(visibility cell)を用いることである。以下、Pに沿って発生する組合せイベントの幾何学解析手法を紹介する。
【0055】
Fが“自由”空間を表す、すなわち、その空間が場面S={S,..., S}のn個のオブジェクトの何れによっても遮られていないものとする。F=E\∪ i=1(Eはユークリッド3次元空間)。ν⊆Fを“視認可能な”空間、即ちユーザが相互作用を行いながら移動できる自由空間の一部とする。位置P∈νが与えられると、ε(P)はPを囲む下限エンベロープを示すものとする(幾何学用語に関しては、J.D.Boissonnat, M. Yvinec著 “Algorithmic geometry”, Cambridge University Press, 1998を参照)。即ち、ε(P)は、ある与えられた(θ、φ)角座標に対し、位置Pから方向(θ、φ)に発する光線が最初にヒットするオブジェクトSまでの距離、そのオブジェクトが存在する場合、その距離を求める動径関数r(θ、φ)として定義される。なお、ε(・)は必ずしも連続である必要はない。
【0056】
図7はエンベロープε(O)の例を示すもので、Oは中心を示している。太い実線700は場面(scenes)を記述するポリラインである。点線星型形状の多角形は中心Oから生ずるエンベロープε(O)である。プレノプティックパス内の位置の移動に伴ってエンベロープε(・)は変化する。例えば図9(a)及び9(b)はエンベロープε(・)の変化を示す。図の陰影部分はビル900内のプレノプティックパスの異なる位置でのエンベロープε(・)を示す。
【0057】
Pを僅かに移動させると、ビジビリティ・イベント(閉鎖(occlusion)/非閉鎖(disocclusion))で定義された臨界的な組合せイベントに到達するまで、エンベロープε(P)はなめらかに変化する。A(S)をビジビリティ・セル要素へのνの分割であるとする。図8はビジビリティ図とそのセル分解を示す模式図である。図中、数字800はビジビリティ・セルの一つを示す。
【0058】
SがEの三角形n個からなるとすると、A(S)はO(n)の複雑さを持つ。しかし、直線で切断された2次元セルに限定すると、その複雑さはO(n)まで下がり、御しやすくなる。ゾーン理論(Zone theorem)(J.D.Boisssonnat, M. Yvinec,
“Algorithmic geometry”, Cambridge University Press, 1998)によれば,直線でカットされた全てのエンベロープの組合せのサイズはO(n)になる。
【0059】
ここでビジビリティ・セルが最小の“幅”を持つように制限されると、その複雑さは線形、すなわち、上記パス長に比例することに注目すべきである。屋内撮影に対して、ビルのフロア地図はしばしば図面交換フォーマット(DXFフォーマット)で利用であり、図8に示すようなビジビリティ図が算出できるようになる。ここで、小さいnに対しては、素二次方程式アルゴリズム(naive quadratic algorithm)を適用してポリラインに対する制限を算出できることに注目すべきである。体積v、長さlでそれと交差するプレノプティックパス長を持つ、あるビジビリティ・セルに対しては、このセル内のパスは比率l/vに従ってサンプリングしてもよい。
【0060】
更に、ビジビリティ情報が大きく変わる部分では(即ち、一つの大きなビジビリティセルから他のセルに移動する場合)、サンプリングレートを局所的に増やすことで、移行がよりスムースになるようにしてもよい。(例えば、ある壁面が現在の視点の接線となるような場合、カメラが少しでも並行移動すると、その壁面の一方があきらかになるため、我々はより多くのサンプルを必要とする。)
このようにして画像データベースは、その意味合い(semantics)を維持したまま、一桁あるいは二桁のオーダーで削減できる。
【0061】
極めて大きなnの、非自明(non−trivial)なビジビリティ図を持つ複雑なCGスクリプトに対してもやはり、現状のビジビリティセル容積vが以下のように概略推定される。
【0062】
各画素の色及び深さ情報di,jが格納されている、RGBZ環境画像の各画素ei,j、は対応する立体角ai,jを張る。その立体角は全単位球を小区分するから、それらの区分は単純加算されてv=(1/4π)Σi,ji,ji,jを得る。
【0063】
容積が大きく変化する場合、これは視点が一つのビジビリティ・セルから他のビジビリティ・セルへの移動を意味するが、ある与えられたプレノプティックパスに沿って最初の組合せイベントが検索され、サンプリングされる(即ちPをレンダリングする)。CGスクリプトに対するサンプリングは、次の最善の視点がそのプレノプティックパスPに沿って逐次付加的に決定されるため、オンラインで行っても良い。
【0064】
ビジビリティ・セルを用いた上記のアルゴリズムは、例えば、図10に示すステップにより実現される。この例示ステップにおいては、最初、プレノプティックパス上で全方位画像Iが撮影される(ステップ1001)。次に、ステップ1002において、例えば前述したエゴモーション・リカバリ手法を用いて、プレノプティックパスの位置が決定される。ステップ1003において、プレノプティックパスに沿ったビジビリティ・セルが算出される。ステップ1004において、対応するビジビリティ・セルに画像が割り当てられる。最後に、v及びlに応じて画像が選択される。ここで、vはビジビリティ・セルの容積であり、lはビジビリティ・セルと交差するプレノプティックパスの長さである。その設定において、画像の重要度はその場面で起こる組合せ変化に応じて設定される。
【0065】
もう一つの可能性は、取得された画像の位置(tx、ty)で全てのエンベロープの体積を算出して、そのエンベロープの体積あるいはエンベロープの導関数に応じて画像を選択あるいは重み付けすることである。エンベロープ体積がより大きくなれば、より多くのサンプルあるいはより良い品質の画像を得ることが望ましく、一方エンベロープ体積がより少なくなれば、より少ない画像あるいは画像当たりの品質をより下げることが好ましい。更に、連続及び組合せサンプリング手法の組み合わせを組み合わせてもよい。
【0066】
オブジェクト集合のビジビリティ図を算出する簡単で効率的な方法は、最初プリミテイブ(線分、弧等)をカラー画像にラスタリングすることである。ここで各プリミテイブは異なるカラー番号を持つ(図11のステップ1101)。次に、(背景カラーとして検出された)オブジェクトの描かれていない箇所の、画像の各画素位置(px、py)に対して、図12に示すような離散的エンベロープが算出される(ステップ1102)。各エンベロープはオブジェクト・シーケンスによって注釈付けされる。そのシーケンスは循環数列なので逓増順に分類される。2つのビジビリティ・セルの境界上ではエンベロープが異なる注釈を持つことが分かる。従って、その算出は注釈(線毎に)走査線内で行われる。連続する注釈間の注釈が異なる度に、ビジビリティ図と対応するカラーの画素が書き込まれる(ステップ1103)。一旦、個別のビジビリティ図が算出されると、個別の面積あるいは体積がそれぞれのセルに対して算出できる(ステップ1104)。
【0067】
ビジビリティ・セルの体積vを算出して比率l/vに比例したサンプリングを行う代わりに、ビジビリティ・セルの面積aを算出してI/aに比例してプレノプティックパスをサンプリングしてもよい。
【0068】
更に、ビジビリティ多面体に対するテクスチャのパラメータ表現を、サラウンド画像のフィルタ処理/選択の制御に用いてもよい。テクスチャのパラメータ表現は次のように行われる。ある与えられたビジビリティ多面体及び精度δに対し、そのビジビリティ多面体に該当する全ての画像がマッピングされる。各ビジビリティ多面体はトポロジーの種数(genus)が0であり、それに対するテクスチャにおいて概略δの精度のパラメータ表現が存在する。そのビジビリティ多面体に該当するサラウンド画像各々について、そのサラウンド画像がそのテクスチャのパラメータ表現へ逆マッピングされる。最後に、全ての逆マッピングを平均化する。
【0069】
テクスチャのパラメータ表現の利用は、粗い三次元再構成でも十分な品質が提供できる(廊下のような)プレノプティックパス領域において役立つ。
【0070】
あるいは、パノラマ画像の数を削減する代わりに、各画像iに対し、曲線長さあるいはエンベロープ体積/面積に応じた重み付け要素wを割り当て、次に全ての画像をそれらwに応じて非可逆的に圧縮してもよい。
【0071】
5.アプリケーション及び結果
捕捉/合成したシーケンスに関する実験結果が図13に示されている。図13はプレノプティックパス1300と、幾つかの主要フレーム1302と、その対応位置1301とを示す。
【0072】
実施にあたっては、Windows(商標)/Intel(商標)の一般PC上でOpenGL(商標)を使用するC++で行った。図14に示すようなビューイング/地図ウインドウでマウスを使ったり、あるいは、ジャイロを備えたヘッドマウンティング表示装置(HMD)を使って、ユーザは相互作用を行いながら、60fpsのリフレッシュレートにて、プレノプティックパス上を移動できる。
【0073】
例えば、図14に示すように、ビューイング/地図ウインドウ1400はビューイング・ウインドウ1401と、地図ウインドウ1402と、ナビゲーション・ウインドウ1403とを備えてもよい。ビューイング・ウインドウ1401は現在の視点位置と角度に対する画像を表示する。地図ウインドウ1402はフロア地図上に重ね合わせたプレノプティックパス及び現在位置を表示する。ナビゲーション・ウインドウ1403は現在位置でのサラウンド画像とパノラマ画像に重畳された擬似フレーム1405とを表示して、ビューイング・ウインドウ1401の対応領域を示す。HMDを使用する場合、そのHMDの傾きを利用して、視点を前進させるか後退させるかを示してもよい。
【0074】
ムービーテクスチャ(ホモグラフィを使って補正し重畳されたもの)あるいはイベントに応じてトリガーされた画像ベース操作のようなマルチメデア・アドオンを用いることにより、仮想通り抜け経験をより豊かなものにできる。例えば、エレベータのボタンを押すことでエレベータのドアを開閉する等も選択できる。
【0075】
そのようなマルチメデア・アドオンの例が図15(a)〜15(b)に示されている。図15(a)では、あるサラウンド画像のトリガーされた領域がポリゴン区域1501(ここでは四角形)により設定される。ポリゴン区域1501はサラウンド画像からホモグラフィを使って合成された仮想ピンホール視野のトリガー領域を示す。対応するトリガー区域同士が交差すると(即ち、図15(b)に示すように、区域1501と区域1511が交差すると)、予め定めたイベントが発生する。これらのイベントは音楽の演奏でも、3次元オブジェクトの描画等であってもよい。
【0076】
図16はサラウンド画像の集合に対し区域1501をどのように定義するかを説明するフローチャートである。最初、ユーザが最初のサラウンド画像内に4つの点を初期設定する(ステップ1601)。次いでその4点がサラウンド画像シーケンスに沿ってトラッキングされる(ステップ1602)。最終的に、そのトラッキングは、それぞれの画像で得られる4角形を一緒に登録することにより、よりしっかりと行われる(ステップ1603)。このステップによりジッタ効果が避けられる。最後にそれらの四角形座標と対応するサラウンド画像の数がXMLファイルフォーマットで保存される(ステップ1604)。
【0077】
このようなマルチメデア・アドオンのもう一つの例が図17に示されている。プレノプティックパス上に視点p及び位置qに3次元オブジェクト1702が与えられると、次の合成ステップが行われる。
【0078】
・視点pから見える範囲のオブジェクト1702の部分を算出する。このステップは大雑把な再構成、フロア地図等から得られた概略的なビジビリティ情報に基づいて行われる。Iをそのオブジェクト画像とする。Iは、そのオブジェクトの部分が描画されているI内の箇所を特定し、そのオブジェクトを背景から分離するための、アルファチャンネル(マスク画像)を備える。
【0079】
・視点位置pに関するサラウンド画像からの仮想カメラ視野を生成する(例えば、仮想ピンホールカメラ視野)。Iをその画像とする。
【0080】
・最初Iを描画し、次にアルファチャネルを用いてIを描画する。そうすることにより、例えば窓ガラスの描画などの透明効果を得ることも可能になる。
【0081】
ここで述べられた技法は多くのオブジェクトに拡張できる。例えば、この技法を用いて廊下内に入り込む数体のロボット(CG画像による)を追加することも可能である。
【0082】
上記の技法は、サラウンド画像をトラッキングしてその上にホモグラフィーにより他の画像をマッピングする機能とは異なるものである。ここでは、重畳されるCGオブジェクトは3次元である。
【0083】
本発明の実施形態を用いて説明したように、空間係数に基づきサンプリングが制御されるプレノプティックパスの捕捉あるいは合成のフレームワーク。本発明においては、ユーザがそれらプレノプティックパスに沿って相互作用しながら通り抜けできるように、画像ベースによるレンダリング・ブラウザーが導入される。上述された実施形態は大部分が仮想通り抜けシステムに関するものであるが、本発明はそれ以外の如何なるアプリケーション、例えばゲームやテレプレゼンス(telepresence)のようなアプリケーションにも適用可能である。
【0084】
【発明の効果】
本発明によれば、全方位画像データを処理でき、かつその全方位画像データの処理により得られたサラウンド画像のデータサイズを効果的に削減できる装置及び方法が提供される。
【0085】
さらに、本発明によれば、全方位画像データのサンプリング/フィルタ処理が可能な、あるいはアプリケーションで使用されるサラウンド画像データの圧縮が可能な装置及び方法が提供される。
【図面の簡単な説明】
【図1】全方位カメラの例を示す概観図である。
【図2】全方位画像処理システムを示すブロック図である。
【図3】本発明による全方位処理装置の構成を示すブロック図である。
【図4】図3の全方位処理装置における本発明の一実施形態による機能ブロックを示す模式機能図である。
【図5】図5(a):立方体環境マップ画像の一例を示す図である。
図5(b):正矩形環境マップ画像の一例を示す図である。
【図6】図6(a):画像内にマーキングされ、プレノプティックパス・シーケンスからトラッキングされた特徴例を示す図である。
図6(b):画像内にマーキングされ、プレノプティックパス・シーケンスからトラッキングされた特徴例を示す図である。
図6(c):画像内にマーキングされ、プレノプティックパス・シーケンスからトラッキングされた特徴例を示す図である。
【図7】パス内のある位置で算出されたエンベロープの一例を示す模式図である。
【図8】パスに沿って算出されたビジビリティ図の一例を示す模式図である。
【図9】図9(a):パス内のある位置で算出された図7のエンベロープを示す模式図である。
図9(b):図9(a)の同じパス内の別の位置で算出された図7のエンベロープを示す模式図である。
【図10】パスに沿って算出されたビジビリティ・セル毎の画像フィルタ処理のステップ例を示すフローチャートである。
【図11】オブジェクト集合のビジビリティ図を算出するためのステップ例を示すフローチャートである。
【図12】個別エンベロープ内にどのように注釈付けがなされるかの一例を示す模式図である。
【図13】プレノプティックパス例及び対応する位置における幾つかの主要なフレーム画像例を示す模式図である。
【図14】本発明の実施形態によるビューイング/マッピング・ウインドウの一例を示す概要図である。
【図15】図15(a):本発明の実施形態によるイベント・トリガーされる領域の一例を示す模式図である。
図15(b):あるイベントがトリガーされるときの、図15(a)のイベント・トリガーされる領域を示す模式図である。
【図16】図15(a)のイベントトリガーされる領域の設定ステップの一例を示すフローチャートである。
【図17】本発明の実施形態による3次元オブジェクト画像をどのようにサラウンド画像内に合成するかに関する一例を示す模式図である。
【図18】CGスクリプトから算出されたサラウンド画像の一例を示す模式図である。
【記号の説明】
401:サラウンド画像合成装置、402:位置検出部、403:空間係数検出部、404:フィルタ部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an apparatus and method for processing a surround image, and more specifically, annotated video captured with an omnidirectional multi-head camera moving along a path, spatial filtering and view. The present invention relates to an apparatus and a method for inning.
[0002]
[Prior art]
The pursuit of authenticity in computer graphics is an endless goal. Image-based rendering (IBR), where object space rendering algorithms provide a surprisingly sharp image that lacks a “real world” feel, while on the other hand, modeling and analysis of image sources using inverse rendering means ), And provides a three-dimensional environment that attracts public attention in image space, although it lacks extensibility and interactivity.
[0003]
S. E. Chen's introduction to photo quality background depiction (“Quicktime VR-An Image-Based Approach to Virtual Environment Navigation” ACM SIGGRAPH, pp. 29-38, 1995), Light Space (M. Le f. Rendering ”, ACM SIGGRAPH, pp. 31-42, 1996; , Compressed ray space plane (W. C. Chen, J. Y. Bougue t, M. H. Chu, R. Grzezzczuk, “Light Field Mapping: Efficient Representation and Hardware Rendering of Surface Lights. 200 p.”, ACM Tras. Virtual passage of photographic quality in a dynamic environment (D.G. Aliaga, T. Funkhauser, D. Yanovsky, I. Carlbom, “Sea Of Images”, IEEE Visualization, pp. 331-338, Id. It has become. Although still in its infancy, in many cases the algorithm first performs a geo-reference of the panoramic frame, then distorts and combines the source images based on feature matching, and a new Proceed to synthesize the viewpoint.
[0004]
Japanese Patent Publication No. 2003-141562, filed by the same applicant as the present application, discloses an image processing apparatus and method applicable to compression, accumulation and reproduction of cylindrical or spherical omnidirectional images mapped to three-dimensional coordinates. Has been.
[0005]
[Problems to be solved by the invention]
Depending on the use of a virtual walkthrough system, it may be necessary to capture the entire area of an indoor environment, such as a building, in order to render a virtual surround environment. For example, if an omnidirectional video camera is used to image the indoor environment of a building, if the omnidirectional video camera captures 60 frames per second and it takes 60 minutes to move within the building, the total number of image frames The number of sheets reaches 216,000.
[0006]
Some captured surround images do not bring much new information as compared to others. For example, when moving in the middle of a corridor surrounded by walls, there is not much visible change in the surround environment. Rendering the hallway of a virtual walk-through system in such a place requires less omnidirectional image data than other places in a building where more environmental changes are seen, such as the corners of a hallway or the entrance of a room. Needed.
[0007]
The present invention has been conceived in view of the above situation. It is desirable to provide an apparatus and method that can process omnidirectional image data and that can efficiently reduce the data size of a surround image obtained by processing omnidirectional image data.
[0008]
Furthermore, it would be desirable to provide an apparatus and method that can sample / filter omnidirectional image data, or that can properly compress surround image data used in an application.
[0009]
[Means for Solving the Problems]
According to one embodiment of the present invention, an image processing apparatus for omnidirectional image data processing is provided. The image processing apparatus relates to a position detection unit that detects a position where an omnidirectional image is captured; and a geometric configuration of a surround environment, and the omnidirectional image is captured from the detection position with respect to the position detection unit. A spatial coefficient detector that calculates a spatial coefficient corresponding to the position, and a filter that reduces the processed image data to be output from the image processing apparatus based on the calculated spatial coefficient.
[0010]
The spatial coefficient may be a curve length of a path in which an omnidirectional image is captured, or is determined based on a plurality of visibility envelopes or cells calculated in the path. May be. Alternatively, the spatial coefficient may be determined according to a parameter expression of the texture of the surround image corresponding to a set of visibility polyhedrons calculated in the path (a set of polyhedra).
[0011]
The filter unit may determine the sampling rate of the omnidirectional image or select the omnidirectional image according to the spatial coefficient. Alternatively, the filter unit may compress the processed image data according to the spatial coefficient.
[0012]
Further, the processing in the image processing apparatus may include addition of an event / trigger area to be superimposed on the processed image. The event trigger area is arranged at a predetermined position of the surround image obtained by processing the omnidirectional image data, and is configured to trigger a predetermined event when the area is selected by a user operation. Further, this processing may include mapping of a moving image texture and / or a three-dimensional object onto a surround image obtained by processing omnidirectional image data.
[0013]
The image processing apparatus may be provided with an omnidirectional image capturing unit.
[0014]
According to another embodiment of the present invention, an image processing method or computer program for omnidirectional image data processing is provided. The image processing method or the computer program detects the position at which the omnidirectional image is captured; the detection is related to the geometric configuration of the surround environment, and the omnidirectional image is captured from the detected position with respect thereto. Calculating a spatial coefficient corresponding to the calculated position; and reducing the processed image data to be output from the image processing apparatus based on the calculated spatial coefficient.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
An apparatus according to an embodiment of the present invention will be described with reference to the drawings.
[0016]
FIG. 1 shows an example of an omnidirectional camera (omnidirectional camera) 10. The omnidirectional camera 10 includes a substantially regular dodecahedron-shaped frame composed of 12 pentagonal surfaces and 11 cameras mounted separately on different surfaces. Each camera captures a corresponding area in the surround scene and outputs data as part of the surround image. An omnidirectional image of an omnidirectional type is obtained by pasting these image portions.
[0017]
FIG. 2 is a schematic diagram of a system including the omnidirectional camera 10 and the omnidirectional image processing apparatus 100. As shown in FIG. 2, the omnidirectional camera 10 includes a plurality of VTRs 12 and microphones 13 in addition to the plurality of cameras 11, and records a plurality of video streams and audio signals. The recorded video stream is video-captured by the switcher 14 and output to the image processing apparatus 100 as computer data (for example, a bitmap file). The image processing apparatus 100 performs image processing such as preparation of a captured image for next image processing, image pasting, and accumulation of processed images.
[0018]
Further, in the present invention, the device 100 performs filtering of the captured image or compression of the processed image according to the importance of the captured image. In the present embodiment, the degree of importance is measured by a spatial coefficient calculated along the path of the omnidirectional camera 10. Details of the filtering / compression method according to this embodiment will be described later.
[0019]
The image processing apparatus 100 can be realized by a computer system having the configuration shown in FIG. The apparatus 100 includes a CPU 101, a memory 102, a display controller 103, an input device interface 104, a network interface 105, an external device interface 107, a bus 108, a video capture card 109, a display device 111, and a keyboard. 112, a mouse 113, a hard disk drive 114, and a media drive 115.
[0020]
The image processing apparatus 100 downloads various applications for image processing, downloads omnidirectional images instead of receiving them via the video capture card 109, or distributes processed image data over a network. It may be connected to the LAN or the Internet 120 via the network interface 105.
[0021]
The CPU 101 executes various applications such as pasting of a plurality of images output from the omnidirectional camera 10 via the video capture card 109 and image filtering / compression according to a spatial coefficient.
[0022]
FIG. 4 shows an example of a functional schematic diagram of the CPU 101 in an operation mode in which a plurality of captured images are processed to calculate a surround image. In this operation mode, omnidirectional image data including a plurality of captured image data is provided from the omnidirectional camera 10 to the surround image calculation unit 401.
[0023]
The surround image calculation unit 401 calculates and outputs a panoramic image or a surround image from the omnidirectional image data. When a computer graphic (CG) script is used, the unit 401 directly calculates a surround image from the CG script.
[0024]
The position detection unit 402 performs egogo recovery using the panoramic image for positioning the camera 10. The egomotion recovery process can be considerably simplified by using a fixed-height camera. Detailed description of egomotion recovery will be described later.
[0025]
The position of the camera 10 is output to the spatial coefficient detection unit 403. The spatial coefficient detection unit 403 detects a spatial coefficient at the position detected by the position detection unit 402. In the present invention, the spatial coefficient is introduced to measure the level of importance (significance) of the surround environment where the panoramic image is taken. The spatial coefficient is calculated based on, for example, (a) curve length unit, (b) visibility cell, (c) visibility envelope, or (d) texture parameter expression. When using a visibility cell or envelope, the volume and area attributes for all positions in the path are calculated. Envelope combination changes occur only at the critical visibility vents defined by the visibility graph (see FIG. 8). A detailed description of the visibility cell and envelope will be given later in this specification.
[0026]
The filter processing unit 404 performs surround image filter processing based on the spatial coefficient calculated by the spatial coefficient detection unit 403. For example, a large number of surround images may be sampled first, and then reduced by the filter processing unit 404. Or you may make it control the timing which samples the omnidirectional image data provided from the omnidirectional camera 10 based on a space coefficient instead of a filter process. Furthermore, each omnidirectional image may be weighted according to a spatial coefficient and compressed together with other images according to the weighting.
[0027]
Next, a method according to another embodiment of the present invention will be described. The method includes the steps of imaging, spatially filtering and viewing an annotated video taken with an omnidirectional multihead camera moving along a path.
[0028]
The following sections describe in detail the egomotion recovery algorithm designed for calculating the path of an omnidirectional camera and the efficient sampling of the plenoptic path based on geometric visibility vents. To do. With proper sampling, panoramic images can be filtered and compressed, redundancy is avoided, and memory space in the image database can be saved. Also described are some applications and results of plenoptic paths obtained by indoor shooting or fully rendered by computer graphics.
[0029]
1. Plenoptic functions and paths
The concept of plenoptics (M. Levoy, P. Hanrahan. “Light field rendering”, ACM SIGGRAPH, pp. 31-42, 1996; S. J. Gartler, R. Grzezczuk, R. Gzezzczk. Cohen, “The Lumigraph”, ACM SIGGRAPH, pp. 43-54, 1996) is a three-dimensional space E in the spectral response at any time t, in any direction (θ, φ) and at any wavelength λ.3If the seventh-order function L (•) = L (X, Y, Z, θ, φ, t, λ) associated with each Cartesian coordinate point (X, Y, Z) in FIG. It is based on the observation that modeling can be bypassed and interactive rendering can be provided by “rendering” directly from the plenoptic function L (•).
[0030]
In practice, freeze the time (ie, consider a static environment), select one wavelength (one color channel, eg red), and camera the ray sampling (X, Y, Z, θ, φ) By limiting to the path, the high dimensionality of this function is relaxed, that is, the one-dimensional plenoptic path P = {Pi= (X, y, z)i}.
[0031]
By moving the omnidirectional camera along the path, the sampling of P can be forcibly performed, so that P is a set of points p P = {Pi}i = 1, pAs a discretization. L| PFrom (3) three-dimensional discontinuous sampling, consider inverse rendering problems (eg, elucidation of macro / meso geometry and texture attributes, lighting conditions, etc.), or view synthesis It is possible to either proceed with extrapolation of the function for Since a large amount of sampling photography is time-consuming and cumbersome, this work may be performed using a power robot that moves a panoramic head equipped with an omnidirectional camera. Examples of such systems are presented in the following literature (DG Aliaga, T. Funkhauser, D. Yanovsky, I. Carlbom, “Sea Of Images”, IEEE Visualization, pp. 331-338. D. G. Aliaga, D. Yanovsky, T. Funkhauser, I. Carlbom, “Interactive Image-Based Rendering Using Feature Globalization”, ACM Symp. 3 ACM Symp.
[0032]
2. Capture plenoptic path
2.1 Multi-head camera
As an omnidirectional camera, a multi-head camera as shown in FIG. 1 can be used for omnidirectional video photography. The panoramic head consists of 10 CCD NTSC block cameras that share approximately the same optical center point (ie, nodal point), and displays 60 omnidirectional images (4π steradian angle) per second that overlap each other. Shoot with interlaced frames.
[0033]
Although an omnidirectional camera is used in this embodiment, it is not always necessary to provide a complete omnidirectional camera that covers 4π steradian angles. Depending on the final application, the angle range covered by the camera or image data used in the present invention may be 4π steradian angle or less.
[0034]
A surround environment may be freely photographed by mounting a camera and a recording system on a transport vehicle and driving the battery with a battery. The transport vehicle may be provided with a motor and a drive mechanism, or may be pushed by a human hand. The algorithm for stitching, viewing and coding the surround environment map is It is described in detail in the following article by Nielsen ("High Resolution Full Spheroidal Videos", IEEE Intl. Conf. On Information Technology; Coding and Computing, pp. 260-267). High resolution panoramic frame I on the order of p∝10000i, I∈ {1,..., P}. For example, a 2048 × 1024 image size may be used as an equirectangular panorama. FIGS. 5A and 5B show examples of a regular hexahedral surround environment map and a regular rectangular surround environment map generated from omnidirectional image data captured by a multi-head camera.
[0035]
2.2 Computer graphics
Alternatively, omnidirectional images and plenoptic paths may be calculated using ray tracing or radiosity software. For example, since the source code is disclosed and considerable CG scripts are available, the surround image may be calculated using POV-Ray (trademark). That is, to define a bijective function that maps the corresponding angular coordinates (θ, ψ) to each pixel (x, y) of the CG image and output our image format The process “create_ray” of the file “render. Cpp” is changed. The example of the surround image shown in FIG. 18 was calculated from a CG script obtained from the site Internet Ray Tracing Competition (IRTC).
[0036]
Conventional tools such as the Alias Wavefront Maya ™ or Discreet 3DMAX ™ used in the computer graphics industry can also be used to output surround images using their rendering device or API.
[0037]
A CG image is a complete virtual surround camera (ie, there is no physical interference between devices and no actual camera device is required) and an accurate image (with constant illumination, no parallax, no noise, no vibrations, etc.) The operation using the CG image is useful for the mutual performance evaluation (benchmark) or the like.
[0038]
3. Egomotion recovery
An algorithm for recovering the extrinsic position of the camera according to the present embodiment will be described. Since panoramic images have no intrinsic parameters, we end up with a spatially indexed Euclidean path (defined up to a magnification factor) of the panoramic image.
[0039]
A GPS system may be used to add general annotations to videos of large panoramic paths such as outdoor environments. However, since a general GPS system is given only a rough position, it cannot be used for visual field synthesis (M. Hirose, “Space Recording Usage Augmented Technology”, Int. Mixed Reality Symp., Pp105-110; D. Kimber, J. Foote, S. Lertisichai, “FlyAbout; Spatially Indexed Panoramic Video”, ACM Multimedia 2001, pp. 339-341). The vision algorithm has recently proved useful in an industry that requires moving matching where the virtual and real camera paths must be matched to produce a visual effect.
[0040]
Based on feature tracking, omnidirectional image position tags (x, y, θ)i, Iε {1,..., P}. Hereinafter, a simple and high-speed global egomotion algorithm when the omnidirectional camera is limited to move on a fixed height surface will be described. According to the egomotion algorithm, the position on the path is registered in the surround image.
[0041]
The algorithm includes the following steps.
・ Rough rotation sequence θi(Pixel based method),
-Outline parallel movement sequence (x, y)i(Feature based method),
-By performing high density global optimization based on initial estimates (x, y, θ)iFine-tuning (a feature-based method that takes all parameters into account at the same time: relative path),
• Path fixation (absolute path) using two or more landmarks.
[0042]
We do not need to indicate the landmark to be tracked, nor do we need to pre-initialize the path, which makes the acquisition system flexible, scalable and easy to use.
[0043]
3.1 Coarse orientation measurement
Absolute orientation refers to “north” of the panoramic image. Although simple, the algorithm works well without feature matching. For example, when a plurality of images are in a regular rectangular format (also called latitude-longitude) with dimensions w × h, each panorama frame IiIn contrast, each column pixel is averaged to correspond to the corresponding one-dimensional ring image R.iIt becomes.
[0044]
Next, ring image Ri, Ri + 1Is continuously registered and the azimuth shift (resulting in sub-pixel accuracy (BD Lucas, T. Kanade, “An iterative Image Registration Technology and Application to Stereo Vision,” 7th Int. Intelligence (IJCAI), pp. 676-679, 1981)). The pixel unit in the ring image corresponds to a shift of 2π / ω radians. By weighting the pixels according to the angle length inherent in the vertical direction corresponding to the pixels, the column can be averaged within a limited latitude range.
[0045]
3.2 Coarse parallel movement
Once the approximate orientation of the image is determined, the sequence (x, y)iIs determined. Similar to most configurations in motion algorithms, the Euclidean 3D point set is reconstructed. First, the one-dimensional parallel movement is calculated as follows. Initially, where the orientation does not change much, the path is divided into segments (continuous image sequences) (using an adjusted threshold). Segment length λiIf is not yet calculated, a polyline is defined. Details of the calculation algorithm will be described later with reference to FIG.
[0046]
Image I at both ends of unity length k + 1dAnd Id + kAbout Id... Id + kFrom the features tracked in common (see FIG. 6), the translation parameter λdIs calculated using standard numerical analysis methods. By converting from pole to Cartesian (θ, λ)iTo sequence (x, y)iIs required. 6 (a) -6 (c) show examples of features marked in an image tracked from a plenoptic path sequence.
[0047]
3.3 Fine parameter adjustment
Sequence (x, y, θ)iIs numerically improved by appropriately correlating rotation and translation in a manner similar to that described in the following document (CJ Taylor, “VideoPlus; A Method for Capturing the Structure of Appealance of Immrive Environments ", IEEE Trans. On Visualization and Computer Graphics, Vol. 8 (2), pp. 171-182, 2002; Journal of omputer Vision, Vol. 49 (2/3), pp. 143-174, 2002). Although important in visibility synthesis applications, here a rough analysis of combinatorial events occurring along the path is performed, and this final step does not greatly improve the filtering process.
[0048]
3.4 Absolute position determination
Use two or more landmarks set by the user (eg, using a reference floor map) to match the size and origin of the available geometric information provided by the floor map, rough reconstruction, etc. Thus, the path is fixed using the rotation and parallel movement parameters.
[0049]
In the present invention, egomotion recovery is not limited to the above method. If the method can define the reference angles (for example, the north pole) and (x, y) positions of all surround images, Other methods using physical devices, viewpoint tracking devices, fiducials, distance meters, and the like may be used. Note that this step is not necessary for computer graphics scripts. This is because each CG surround image is calculated for each predetermined position.
[0050]
4). Spatial filtering of plenoptic paths
Once a plenoptic path is sought, the plenoptic path can be properly sampled / annotated so that “redundant” images (images that do not bring much new information) or less important images can be removed. Done. The sampling is also useful for progressive coding such as plenoptic paths.
[0051]
Sampling of plenoptic functions was studied by Chai et al. (J.-X.Chai, H.-Y.Shum, XT “Plenoptic sampling”, ACM SIGGRAPH, pp. 307-318, 2000). Chai et al. Studied the sampling method of L (•) using spectral analysis to determine the minimum sampling rate for light field rendering. The present invention, on the other hand, is a subset of the plenoptic function and is particularly adapted for plenoptic paths that have been geometrically partitioned.
[0052]
One way to reduce the number of surround images is to view the viewpoint P along the path P in proportion to the curve length.iIs selected / distributed (parameter expression of path length). This method is efficient when geometric information is not available. If l indicates the path length P, l is calculated from the relative translation parameter of the surround image by Σi{(Txi + 1-Txi)2+ (Tyi + 1-Tyi)2}1/2Is defined as having
[0053]
If geometric information is not available, it is preferable to sample according to l. For example, if m subset images need to be selected from n recorded surround images, the path P is divided into m equal length intervals, one surround within each interval. An image is selected. By doing so, it is possible to compensate for non-uniform artifacts that occur during acquisition. For example, increasing the speed of the omnidirectional camera transporter can provide coarse data, while decreasing the speed increases the sampling rate.
[0054]
Another way to reduce the number of surround images is to use a visibility cell. In the following, a geometric analysis method for combination events occurring along P will be introduced.
[0055]
F represents a “free” space, ie the space is a scene S = {S1,. . . , Sn} Is not obstructed by any of the n objects. F = E3\ ∪n i = 1Si(E3Is Euclidean three-dimensional space). Let ν⊆F be a “visible” space, ie a part of the free space where the user can move while interacting. Given a position Pεν, ε (P) shall denote the lower envelope surrounding P (for geometric terms, see JD Boissonnat, M. Yvinec, “Algorithmic geometry Press”, Cambridge University Press, 1998). That is, ε (P) is the distance from the position P to the object S first hit by a ray emitted in the direction (θ, φ) with respect to a given (θ, φ) angular coordinate, and that object exists. In this case, it is defined as a radial function r (θ, φ) for obtaining the distance. Note that ε (·) is not necessarily continuous.
[0056]
FIG. 7 shows an example of the envelope ε (O), where O indicates the center. A thick solid line 700 is a polyline describing a scene. The dotted star-shaped polygon is an envelope ε (O) originating from the center O. The envelope ε (·) changes as the position in the plenoptic path moves. For example, FIGS. 9A and 9B show changes in the envelope ε (·). The shaded portion of the figure shows the envelope ε (•) at different positions of the plenoptic path in the building 900.
[0057]
If P is moved slightly, the envelope ε (P) changes smoothly until a critical combination event defined by a visibility event (occlusion / disocclusion) is reached. Let A (S) be the division of ν into visibility cell elements. FIG. 8 is a schematic diagram showing the visibility diagram and its cell decomposition. In the figure, numeral 800 indicates one of the visibility cells.
[0058]
S is E3A (S) is O (n9) With complexity. However, when limited to two-dimensional cells cut by a straight line, the complexity is O (n3) And become easy to treat. Zone theory (JD Boisssonnat, M. Yvinec,
According to “Algorithmic geometry”, Cambridge University Press, 1998), the size of all envelope combinations cut in a straight line is O (n3)become.
[0059]
It should be noted that when the visibility cell is constrained to have a minimum “width”, its complexity is linear, ie proportional to the path length. For indoor photography, a floor map of a building is often used in a drawing exchange format (DXF format), and a visibility diagram as shown in FIG. 8 can be calculated. Here, it should be noted that for a small n, it is possible to calculate a restriction on a polyline by applying a prime quadratic algorithm. For a visibility cell with volume v, length l and a plenoptic path length intersecting it, the path in this cell is the ratio l3Sampling may be performed according to / v.
[0060]
Further, in a portion where the visibility information changes greatly (that is, when moving from one large visibility cell to another), the transition may be made smoother by locally increasing the sampling rate. (For example, if a wall is tangent to the current viewpoint, we need more samples because one side of the wall becomes clear when the camera moves in parallel, even a little.)
In this way, the image database can be reduced on the order of one or two digits while maintaining its semantics.
[0061]
Even for a very large n complex CG script having a non-trivial visibility diagram, the current visibility cell volume v is roughly estimated as follows.
[0062]
Color and depth information d for each pixeli, jEach pixel e of the RGBZ environment imagei, j, Is the corresponding solid angle ai, jHang. Since the solid angle subdivides all unit spheres, these divisions are simply added and v = (1 / 4π) Σi, jai, jdi, jGet.
[0063]
If the volume changes greatly, this means that the viewpoint is moving from one visibility cell to another, but the first combination event is searched along a given plenoptic path, Sampled (ie, renders P). Sampling for the CG script may be performed online because the next best viewpoint is additionally determined sequentially along its plenoptic path P.
[0064]
The above algorithm using the visibility cell is realized by the steps shown in FIG. 10, for example. In this example step, first, an omnidirectional image I is taken on the plenoptic path (step 1001). Next, in step 1002, the position of the plenoptic path is determined using, for example, the above-described egomotion recovery technique. In step 1003, a visibility cell along the plenoptic path is calculated. In step 1004, an image is assigned to the corresponding visibility cell. Finally, an image is selected according to v and l. Where v is the volume of the visibility cell and l is the length of the plenoptic path that intersects the visibility cell. In the setting, the importance of the image is set according to the combination change occurring in the scene.
[0065]
Another possibility is to calculate the volume of all envelopes at the acquired image position (tx, ty) and select or weight the image according to the volume of the envelope or the derivative of the envelope. . It is desirable to obtain more samples or better quality images with a larger envelope volume, while it is preferred to reduce fewer images or per image quality with a smaller envelope volume. Furthermore, combinations of continuous and combinatorial sampling techniques may be combined.
[0066]
A simple and efficient way to calculate the visibility diagram of an object set is to first rasterize primitives (lines, arcs, etc.) into a color image. Here, each primitive has a different color number (step 1101 in FIG. 11). Next, a discrete envelope as shown in FIG. 12 is calculated for each pixel position (px, py) of the image at a location where the object (detected as the background color) is not drawn (step 1102). ). Each envelope is annotated with an object sequence. Since the sequence is a cyclic sequence, it is classified in increasing order. It can be seen that the envelope has a different annotation on the boundary of the two visibility cells. Therefore, the calculation is performed within the annotation line (line by line). Each time an annotation between successive annotations is different, a color pixel corresponding to the visibility diagram is written (step 1103). Once individual visibility diagrams are calculated, individual areas or volumes can be calculated for each cell (step 1104).
[0067]
Calculate the volume v of the visibility cell and calculate the ratio l3Instead of sampling in proportion to / v, the area a of the visibility cell is calculated and I2The plenoptic path may be sampled in proportion to / a.
[0068]
Furthermore, the texture parameter representation for the visibility polyhedron may be used to control the filtering / selection of the surround image. The parameter expression of the texture is performed as follows. For a given visibility polyhedron and accuracy δ, all images corresponding to that visibility polyhedron are mapped. Each visibility polyhedron has a topology genus of 0, and there is a parameter representation with an accuracy of approximately δ in the texture for it. For each surround image corresponding to the visibility polyhedron, the surround image is inverse-mapped to a parameter representation of the texture. Finally, all the reverse mappings are averaged.
[0069]
The use of a texture parametric representation is useful in plenoptic path regions (such as corridors) where a rough three-dimensional reconstruction can provide sufficient quality.
[0070]
Alternatively, instead of reducing the number of panoramic images, for each image i, a weighting factor w according to the curve length or envelope volume / areaiAssign all images theniDepending on, compression may be performed irreversibly.
[0071]
5. Application and results
The experimental results for the captured / synthesized sequence are shown in FIG. FIG. 13 shows a plenoptic path 1300, several main frames 1302, and their corresponding positions 1301.
[0072]
The implementation was performed in C ++ using OpenGL ™ on a general PC of Windows ™ / Intel ™. Using a mouse in a viewing / map window as shown in FIG. 14 or using a head mounting display (HMD) equipped with a gyro, the user interacts with the player at a refresh rate of 60 fps. You can move on the noptic path.
[0073]
For example, as shown in FIG. 14, the viewing / map window 1400 may include a viewing window 1401, a map window 1402, and a navigation window 1403. A viewing window 1401 displays an image for the current viewpoint position and angle. A map window 1402 displays the plenoptic path and the current position superimposed on the floor map. The navigation window 1403 displays a surround image at the current position and a pseudo frame 1405 superimposed on the panorama image to indicate a corresponding area of the viewing window 1401. When using the HMD, the inclination of the HMD may be used to indicate whether to move the viewpoint forward or backward.
[0074]
By using multimedia add-ons such as movie textures (corrected and superimposed using homography) or image-based operations triggered in response to events, the virtual walk-through experience can be enriched. For example, it is possible to select to open and close the elevator door by pressing an elevator button.
[0075]
Examples of such multimedia add-ons are shown in FIGS. 15 (a) -15 (b). In FIG. 15A, a triggered region of a certain surround image is set by a polygon area 1501 (here, a rectangle). A polygon area 1501 indicates a trigger area of a virtual pinhole field of view synthesized from a surround image using homography. When the corresponding trigger areas intersect (that is, when the area 1501 and the area 1511 intersect as shown in FIG. 15B), a predetermined event occurs. These events may be performance of music or drawing of a three-dimensional object.
[0076]
FIG. 16 is a flowchart for explaining how an area 1501 is defined for a set of surround images. Initially, the user initially sets four points in the first surround image (step 1601). The four points are then tracked along the surround image sequence (step 1602). Finally, the tracking is performed more firmly by registering together the quadrilaterals obtained in each image (step 1603). This step avoids jitter effects. Finally, the number of surround images corresponding to the rectangular coordinates is stored in the XML file format (step 1604).
[0077]
Another example of such a multimedia add-on is shown in FIG. When the three-dimensional object 1702 is given to the viewpoint p and the position q on the plenoptic path, the following synthesis step is performed.
[0078]
Calculate the portion of the object 1702 that is visible from the viewpoint p. This step is performed on the basis of rough visibility information obtained from rough reconstruction, a floor map, or the like. IOIs the object image. IOIs the part of the object being drawnOAn alpha channel (mask image) is provided for identifying the location within and separating the object from the background.
[0079]
Generate a virtual camera field of view from the surround image for viewpoint position p (eg, virtual pinhole camera field of view). ICIs the image.
[0080]
・ First ICAnd then using the alpha channel IODraw. By doing so, it becomes possible to obtain transparency effects, such as drawing of a window glass, for example.
[0081]
The technique described here can be extended to many objects. For example, it is possible to add several robots (according to CG images) that enter the hallway using this technique.
[0082]
The above technique is different from the function of tracking a surround image and mapping another image on it by homography. Here, the superimposed CG object is three-dimensional.
[0083]
A framework for capturing or synthesizing a plenoptic path in which sampling is controlled based on spatial coefficients, as described using the embodiments of the present invention. In the present invention, an image-based rendering browser is introduced so that the user can interact through these plenoptic paths. Although the above-described embodiments are mostly related to virtual walk-through systems, the present invention is applicable to any other application, such as games or telepresence.
[0084]
【The invention's effect】
According to the present invention, there is provided an apparatus and method capable of processing omnidirectional image data and effectively reducing the data size of a surround image obtained by processing the omnidirectional image data.
[0085]
Furthermore, according to the present invention, there is provided an apparatus and method capable of sampling / filtering omnidirectional image data or compressing surround image data used in an application.
[Brief description of the drawings]
FIG. 1 is an overview diagram showing an example of an omnidirectional camera.
FIG. 2 is a block diagram showing an omnidirectional image processing system.
FIG. 3 is a block diagram showing a configuration of an omnidirectional processing apparatus according to the present invention.
4 is a schematic functional diagram showing functional blocks according to an embodiment of the present invention in the omnidirectional processing apparatus of FIG. 3. FIG.
FIG. 5A is a diagram illustrating an example of a cube environment map image.
FIG. 5B is a diagram showing an example of a regular rectangular environment map image.
FIG. 6A is a diagram showing an example of features marked in an image and tracked from a plenoptic path sequence.
FIG. 6B is a diagram showing an example of the feature marked in the image and tracked from the plenoptic path sequence.
FIG. 6C is a diagram showing an example of the feature marked in the image and tracked from the plenoptic path sequence.
FIG. 7 is a schematic diagram illustrating an example of an envelope calculated at a certain position in a path.
FIG. 8 is a schematic diagram showing an example of a visibility diagram calculated along a path.
9A is a schematic diagram showing the envelope of FIG. 7 calculated at a certain position in the path.
FIG. 9B is a schematic diagram showing the envelope of FIG. 7 calculated at another position in the same path of FIG. 9A.
FIG. 10 is a flowchart showing an example of image filtering processing for each visibility cell calculated along a path.
FIG. 11 is a flowchart showing an example of steps for calculating a visibility diagram of an object set.
FIG. 12 is a schematic diagram showing an example of how annotation is made within an individual envelope.
FIG. 13 is a schematic diagram showing an example of a plenoptic path and some examples of main frame images at corresponding positions.
FIG. 14 is a schematic diagram illustrating an example of a viewing / mapping window according to an embodiment of the present invention.
FIG. 15A is a schematic diagram showing an example of an event-triggered area according to the embodiment of the present invention.
FIG. 15B is a schematic diagram showing the event-triggered region in FIG. 15A when a certain event is triggered.
FIG. 16 is a flowchart showing an example of an event triggered region setting step of FIG.
FIG. 17 is a schematic diagram illustrating an example of how to synthesize a three-dimensional object image in a surround image according to an embodiment of the present invention.
FIG. 18 is a schematic diagram illustrating an example of a surround image calculated from a CG script.
[Explanation of symbols]
401: Surround image synthesizing device, 402: Position detection unit, 403: Spatial coefficient detection unit, 404: Filter unit.

Claims (13)

全方位画像データを処理する画像処理装置において、
前記全方位画像が撮像された位置を検出する位置検出部と、
サラウンド環境の幾何学的構成に関し、それについて前記検出位置から全方位画像が撮像される、該検出された位置に対応する空間係数を算出する空間係数検出部と、
前記算出された空間係数に基づき、当該画像処理装置から出力されるべき処理済み画像データの縮減を行わせるフィルタ部とを備える
ことを特徴とする画像処理装置。
In an image processing apparatus that processes omnidirectional image data,
A position detection unit that detects a position where the omnidirectional image is captured;
A spatial coefficient detector for calculating a spatial coefficient corresponding to the detected position, in which an omnidirectional image is captured from the detected position with respect to the geometric configuration of the surround environment;
An image processing apparatus comprising: a filter unit configured to reduce processed image data to be output from the image processing apparatus based on the calculated spatial coefficient.
前記空間係数が、全方位画像が撮像されるパスの曲線長であることを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the spatial coefficient is a curve length of a path where an omnidirectional image is captured. 前記空間係数が、全方位画像が撮像されるパス内で算出された複数のビジビリティ・エンベロープに従って決定されることを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the spatial coefficient is determined according to a plurality of visibility envelopes calculated in a path where an omnidirectional image is captured. 前記空間係数が、全方位画像が撮像されるパス内で算出された複数のビジビリティ・セルに従って決定されることを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the spatial coefficient is determined according to a plurality of visibility cells calculated in a path where an omnidirectional image is captured. 前記空間係数が、全方位画像が撮像されるパス内で算出された多面体の集合に対応するサラウンド画像のテクスチャのパラメータ表現に従って決定されることを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the spatial coefficient is determined according to a texture parameter expression of a surround image corresponding to a set of polyhedrons calculated in a path where an omnidirectional image is captured. 前記フィルタ部が、前記空間係数に応じて、前記全方位画像のサンプリングレートを決定することを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the filter unit determines a sampling rate of the omnidirectional image according to the spatial coefficient. 前記フィルタ部が、前記空間係数に応じて、前記全方位画像を選択することを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the filter unit selects the omnidirectional image according to the spatial coefficient. 前記フィルタ部が、前記空間係数に応じて、処理済み画像データを圧縮することを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein the filter unit compresses the processed image data according to the spatial coefficient. 前記全方位画像データの処理には、処理済み画像に重ね合わせるイベント・トリガー領域の追加が含まれるものであり、
前記イベント・トリガー領域は、前記全方位画像データの処理により得られたサラウンド画像の予め定めたの位置に配置され、該領域がユーザ操作により選択されると予め定めたイベントがトリガーされるよう構成されることを特徴とする請求項1に記載の画像処理装置。
The processing of the omnidirectional image data includes the addition of an event trigger region to be superimposed on the processed image,
The event trigger area is arranged at a predetermined position of the surround image obtained by processing the omnidirectional image data, and a predetermined event is triggered when the area is selected by a user operation. The image processing apparatus according to claim 1, wherein:
前記全方位画像データの処理には、前記全方位画像データの処理により得られたサラウンド画像上への、動画テクスチャ及び/又は三次元オブジェクトのマッピングが含まれることを特徴とする請求項1に記載の画像処理装置。The processing of the omnidirectional image data includes mapping of a moving image texture and / or a three-dimensional object on a surround image obtained by the processing of the omnidirectional image data. Image processing apparatus. 全方位画像撮像部と画像処理部とを備える装置において、
前記画像処理部は請求項1に記載の画像処理装置を備えていることを特徴とする請求項1に記載の画像処理装置。
In an apparatus including an omnidirectional image capturing unit and an image processing unit,
The image processing apparatus according to claim 1, wherein the image processing unit includes the image processing apparatus according to claim 1.
全方位画像データを処理するための画像処理方法において、
前記全方位画像が撮像された位置を検出し、
サラウンド環境の幾何学的構成に関連し、それについて前記検出された位置から全方位画像が撮像される、該検出した位置に対応する空間係数を算出し、
前記算出した空間係数に基づき当該画像処理装置から出力されるべき処理済み画像データの縮減を行わせるステップを備える
ことを特徴とする画像処理方法。
In an image processing method for processing omnidirectional image data,
Detecting the position where the omnidirectional image is taken,
Calculating a spatial coefficient corresponding to the detected position, for which an omnidirectional image is taken from the detected position with respect to the geometric configuration of the surround environment;
An image processing method comprising a step of reducing processed image data to be output from the image processing apparatus based on the calculated spatial coefficient.
コンピュータにおいて全方位画像データを処理するための画像処理方法を実行させるためのコンピュータプログラムにおいて、前記画像処理方法が
前記全方位画像が撮像された位置を検出し、
サラウンド環境の幾何学的構成に関連し、それについて前記検出された位置から全方位画像が撮像される、該検出した位置に対応する空間係数を算出し、
前記算出した空間係数に基づき当該画像処理装置から出力されるべき処理済み画像データの縮減を行わせることを備える
ことを特徴とするコンピュータ・プログラム。
In a computer program for executing an image processing method for processing omnidirectional image data in a computer, the image processing method detects a position where the omnidirectional image is captured,
Calculating a spatial coefficient corresponding to the detected position, for which an omnidirectional image is taken from the detected position with respect to the geometric configuration of the surround environment;
A computer program comprising causing reduction of processed image data to be output from the image processing device based on the calculated spatial coefficient.
JP2003167396A 2003-06-12 2003-06-12 Apparatus and method for processing surround image photographed on capture path Pending JP2005004487A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003167396A JP2005004487A (en) 2003-06-12 2003-06-12 Apparatus and method for processing surround image photographed on capture path

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003167396A JP2005004487A (en) 2003-06-12 2003-06-12 Apparatus and method for processing surround image photographed on capture path

Publications (1)

Publication Number Publication Date
JP2005004487A true JP2005004487A (en) 2005-01-06

Family

ID=34093215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003167396A Pending JP2005004487A (en) 2003-06-12 2003-06-12 Apparatus and method for processing surround image photographed on capture path

Country Status (1)

Country Link
JP (1) JP2005004487A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007110675A (en) * 2005-09-14 2007-04-26 Sony Corp Image processing apparatus, image display apparatus, image processing method, program and recording medium
KR100844640B1 (en) 2006-12-12 2008-07-07 현대자동차주식회사 Method for object recognizing and distance measuring
JP2016511980A (en) * 2013-02-13 2016-04-21 ウニベージティート デス ザ−ルランデスUniversitaet Des Saarlandes Plenoptic imaging device
JP2018064234A (en) * 2016-10-14 2018-04-19 株式会社コロプラ Display control method and program for making computer execute display control method
JP2018067964A (en) * 2014-05-15 2018-04-26 株式会社リコー File
WO2018092384A1 (en) 2016-11-21 2018-05-24 ソニー株式会社 Information processing device, information processing method, and program
DE112017005879T5 (en) 2016-11-21 2019-08-01 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US11212515B2 (en) 2016-11-21 2021-12-28 Sony Corporation Information processing device and information processing method
CN115984488A (en) * 2023-03-16 2023-04-18 深圳市完美显示科技有限公司 AI image intelligent modeling system based on 5G network
CN117953175A (en) * 2024-03-26 2024-04-30 湖南速子文化科技有限公司 Method, system, equipment and medium for constructing virtual world data model

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007110675A (en) * 2005-09-14 2007-04-26 Sony Corp Image processing apparatus, image display apparatus, image processing method, program and recording medium
KR100844640B1 (en) 2006-12-12 2008-07-07 현대자동차주식회사 Method for object recognizing and distance measuring
JP2016511980A (en) * 2013-02-13 2016-04-21 ウニベージティート デス ザ−ルランデスUniversitaet Des Saarlandes Plenoptic imaging device
JP2018067964A (en) * 2014-05-15 2018-04-26 株式会社リコー File
JP2018064234A (en) * 2016-10-14 2018-04-19 株式会社コロプラ Display control method and program for making computer execute display control method
KR20190088466A (en) 2016-11-21 2019-07-26 소니 주식회사 Information processing apparatus, information processing method, and program
WO2018092384A1 (en) 2016-11-21 2018-05-24 ソニー株式会社 Information processing device, information processing method, and program
DE112017005879T5 (en) 2016-11-21 2019-08-01 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US11023599B2 (en) 2016-11-21 2021-06-01 Sony Corporation Information processing device, information processing method, and program
US11212515B2 (en) 2016-11-21 2021-12-28 Sony Corporation Information processing device and information processing method
CN115984488A (en) * 2023-03-16 2023-04-18 深圳市完美显示科技有限公司 AI image intelligent modeling system based on 5G network
CN115984488B (en) * 2023-03-16 2023-10-27 深圳市完美显示科技有限公司 AI image intelligent modeling system based on 5G network
CN117953175A (en) * 2024-03-26 2024-04-30 湖南速子文化科技有限公司 Method, system, equipment and medium for constructing virtual world data model
CN117953175B (en) * 2024-03-26 2024-06-11 湖南速子文化科技有限公司 Method, system, equipment and medium for constructing virtual world data model

Similar Documents

Publication Publication Date Title
US10388025B2 (en) Interactive image based 3D panogragh
Uyttendaele et al. Image-based interactive exploration of real-world environments
Aliaga et al. Plenoptic stitching: a scalable method for reconstructing 3d interactive walk throughs
Szeliski et al. Direct methods for visual scene reconstruction
EP2412161B1 (en) Combining views of a plurality of cameras for a video conferencing endpoint with a display wall
Boult et al. Omni-directional visual surveillance
WO2004042662A1 (en) Augmented virtual environments
JP2005056295A (en) 360-degree image conversion processing apparatus
Aliaga et al. Sea of images
Bradley et al. Image-based navigation in real environments using panoramas
Bartoli et al. Motion panoramas
JP2005004487A (en) Apparatus and method for processing surround image photographed on capture path
Zhu et al. Fast generation of dynamic and multi-resolution 360/spl deg/panorama from video sequences
Nyland et al. The impact of dense range data on computer graphics
Mulligan et al. Stereo-based environment scanning for immersive telepresence
CN113132708B (en) Method and apparatus for acquiring three-dimensional scene image using fisheye camera, device and medium
Cui et al. Fusing surveillance videos and three‐dimensional scene: A mixed reality system
Zhu et al. Fast construction of dynamic and multi-resolution 360 panoramas from video sequences
Kim et al. 3-d virtual studio for natural inter-“acting”
JP4710081B2 (en) Image creating system and image creating method
Kim et al. An immersive free-viewpoint video system using multiple outer/inner cameras
Wang et al. Space-time light field rendering
Zabulis et al. A platform for monitoring aspects of human presence in real-time
Wang et al. Towards space: time light field rendering
Pollok et al. Computer vision meets visual analytics: Enabling 4D crime scene investigation from image and video data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060607

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091110