JP7322235B2 - Image processing device, image processing method, and program - Google Patents
Image processing device, image processing method, and program Download PDFInfo
- Publication number
- JP7322235B2 JP7322235B2 JP2022069954A JP2022069954A JP7322235B2 JP 7322235 B2 JP7322235 B2 JP 7322235B2 JP 2022069954 A JP2022069954 A JP 2022069954A JP 2022069954 A JP2022069954 A JP 2022069954A JP 7322235 B2 JP7322235 B2 JP 7322235B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- virtual viewpoint
- captured
- subject
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、画像処理装置、画像処理方法、及びプログラムに関し、特に、仮想視点画像を生成するために用いて好適なものである。 The present invention relates to an image processing apparatus, image processing method, and program, and is particularly suitable for use in generating a virtual viewpoint image.
被写体(例えば人物等のオブジェクト)を複数の撮像装置で撮像して得られた画像に基づいて、仮想視点(実際には撮像装置が存在しない視点を含む任意の視点)から被写体を観察した際に得られる画像(仮想視点画像)を再構成(生成)する技術が知られている。特許文献1には、以下の方法が開示されている。まず、複数のカメラにより撮像された被写体の撮像画像と、カメラの位置情報とを用いて、被写体の三次元モデルを生成する。次に、三次元モデル上の各位置のテクスチャ画像(ブレンドテクスチャ画像)を、複数の撮像画像に写っているテクスチャ画像をブレンドすることにより生成する。最後に、ブレンドテクスチャ画像を三次元モデルにテクスチャマッピングすることにより、仮想視点からの画像を再構成する。 When observing a subject (for example, an object such as a person) from a virtual viewpoint (an arbitrary viewpoint including a viewpoint at which no imaging device actually exists) based on images obtained by imaging the subject (for example, an object such as a person) with a plurality of imaging devices. Techniques for reconstructing (generating) obtained images (virtual viewpoint images) are known. Patent Document 1 discloses the following method. First, a three-dimensional model of the subject is generated using captured images of the subject captured by a plurality of cameras and position information of the cameras. Next, a texture image (blended texture image) at each position on the three-dimensional model is generated by blending texture images appearing in a plurality of captured images. Finally, the image from the virtual viewpoint is reconstructed by texture mapping the blended texture image onto the 3D model.
しかしながら、特許文献1に記載の技術では、撮像画像において適切に被写体を抽出ができなかった場合、実際とは異なる大きな形状としてレンダリングされる虞がある。即ち、特許文献1に記載の技術では、撮像画像において仮想視点画像を適切に生成することが容易ではないという課題がある。
本発明は、このような課題に鑑みてなされたものであり、撮像画像において仮想視点画像を適切に生成することができるようにすることを目的とする。
However, with the technique described in Patent Document 1, if the subject cannot be appropriately extracted from the captured image , there is a risk that the subject will be rendered as a large shape that is different from the actual shape . That is, the technique described in Patent Document 1 has a problem that it is not easy to appropriately generate a virtual viewpoint image in a captured image.
SUMMARY OF THE INVENTION The present invention has been made in view of such problems, and an object of the present invention is to appropriately generate a virtual viewpoint image in a captured image.
本発明の画像処理装置は、複数の方向から撮像領域の撮像を行う複数の撮像装置のうちのいずれかの撮像装置で撮像された撮像画像から第1の抽出方法により抽出された被写体の領域と、前記撮像装置で撮像された前記撮像画像から前記第1の抽出方法とは異なる第2の抽出方法により抽出された被写体の領域と、に基づいて、前記撮像領域内に位置する被写体の三次元形状を特定するための情報である形状情報を取得する第1の取得手段と、仮想視点を特定するための情報である視点情報を取得する第2の取得手段と、前記形状情報と、前記視点情報と、に基づいて、仮想視点画像を生成する生成手段と、を有し、前記第1の抽出方法は、前記撮像画像と、前記撮像画像に対応する背景画像と、に基づいて、前記被写体を抽出する方法を含み、前記第2の抽出方法は、前記撮像画像と、前記撮像装置で当該撮像画像が撮像されたタイミングと異なるタイミングで撮像された別の撮像画像と、に基づいて、前記被写体を抽出する方法を含むことを特徴とする。 The image processing apparatus of the present invention extracts a region of a subject by a first extraction method from a captured image captured by any one of a plurality of imaging devices that capture images of an imaging region from a plurality of directions . and a region of the subject extracted from the captured image captured by the imaging device by a second extraction method different from the first extraction method, a three-dimensional image of the subject located within the imaging region . A first acquisition means for acquiring shape information that is information for specifying a shape, a second acquisition means for acquiring viewpoint information that is information for specifying a virtual viewpoint, the shape information, and the viewpoint and generating means for generating a virtual viewpoint image based on information, wherein the first extraction method includes, based on the captured image and a background image corresponding to the captured image, a method of extracting the subject, wherein the second extraction method is based on the captured image and another captured image captured at a timing different from the timing at which the captured image was captured by the imaging device; , and a method for extracting the subject .
本発明によれば、撮像画像において仮想視点画像を適切に生成することができる。 According to the present invention, it is possible to appropriately generate a virtual viewpoint image in a captured image.
以下、本発明の実施形態について、添付の図面を参照して詳細に説明する。
<第1の実施形態>
本実施形態では、被写体(例えば人物などのオブジェクト)の動き情報を撮像画像から取得し、その速さと撮像条件とに基づいて、撮像画像において被写体の動きによってブレが起こっている領域とブレが起こっていない領域とを特定する。そして、ブレが生じている領域が半透明になるように、仮想視点から被写体を観察した場合の画像を、複数の撮像画像を用いて生成(再構成)する。本実施形態の画像処理システムは、同一の被写体を異なる視点から撮像することにより得られる複数の画像データに対して適用することができる。以下の説明では、仮想視点から被写体を観察した場合の画像を必要に応じて仮想視点画像と称する。また、被写体の動きによって撮像画像において被写体の少なくとも一部の領域に生じるブレを必要に応じて動きブレと称する。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
<First Embodiment>
In the present embodiment, motion information of a subject (for example, an object such as a person) is acquired from a captured image, and based on the speed and imaging conditions, an area in which blurring occurs due to the movement of the subject in the captured image and a blurred area are detected. Identify areas that are not Then, an image when the subject is observed from the virtual viewpoint is generated (reconfigured) using a plurality of captured images so that the blurring area becomes translucent. The image processing system of this embodiment can be applied to a plurality of image data obtained by imaging the same subject from different viewpoints. In the following description, an image obtained by observing an object from a virtual viewpoint will be referred to as a virtual viewpoint image as necessary. In addition, blurring that occurs in at least a partial area of the subject in the captured image due to the movement of the subject is referred to as motion blurring as necessary.
図1は、画像処理システムの構成の一例を示す模式図である。画像処理システムは、複数のカメラ101と、画像処理装置102と、表示装置103と、入力装置104とを有する。カメラ101は、概略平面上の領域に配置された被写体105を囲むような複数の視点から、被写体105を撮像する。画像処理装置102には、表示装置103及び入力装置104が接続されている。利用者は、表示装置103と入力装置104とを用いて画像処理装置102に対する入力操作を行う。利用者は、この入力操作によって、撮像条件の設定や、カメラ101による撮像により取得した画像データを処理した結果の確認等を行う。
FIG. 1 is a schematic diagram showing an example of the configuration of an image processing system. The image processing system has
図2は、画像処理装置102のハードウェアの構成の一例を示すブロック図である。画像処理装置102は、CPU201と、RAM202と、ROM203と、記憶部204と、入力インターフェース205と、出力インターフェース206と、システムバス207とを含んで構成される。入力インターフェース205には、外部メモリ208が接続されている。出力インターフェース206には表示装置103が接続されている。
CPU201は、画像処理装置102の各構成要素を統括的に制御するプロセッサーである。RAM202は、CPU201の主メモリおよびワークエリアとして機能するメモリである。ROM203は、画像処理装置102内の処理に用いられるプログラム等を格納するメモリである。CPU201は、RAM202をワークエリアとして使用し、ROM203に格納されたプログラムを実行することで、後述する様々な処理を実行する。
FIG. 2 is a block diagram showing an example of the hardware configuration of the
A
記憶部204は、画像処理装置102での処理に用いる画像データや、当該処理のためのパラメータ(即ち、設定値)等を記憶する記憶デバイスである。記憶部204としては、HDD、光ディスクドライブ、フラッシュメモリ等を用いることができる。
入力インターフェース205は、例えば、USBやIEEE1394等のシリアルバスインターフェースである。画像処理装置102は、入力インターフェース205を介して、外部メモリ208(例えば、ハードディスク、メモリカード、CFカード、SDカード、USBメモリ)から処理対象の画像データ等を取得することができる。出力インターフェース206は、例えばDVIやHDMI(登録商標)等の映像出力端子である。画像処理装置102は、出力インターフェース206を介して、表示装置103(液晶ディスプレイ等の画像表示デバイス)に、画像処理装置102で処理した画像データを出力することができる。尚、画像処理装置102は、構成要素として前記以外のものも含み得るが、本発明の主眼ではないため、その詳細な説明を省略する。
A
The
以下、図3、図4、および図5を参照して、本実施形態の画像処理装置102における画像処理の一例を説明する。図3は、本実施形態の画像処理装置102の機能的な構成の一例を示すブロック図である。図4は、本実施形態の画像処理方法の一例を説明するフローチャートである。図5は、本実施形態の画像処理の内容の一例を説明する模式図である。
本実施形態では、CPU201が、ROM203に格納されたプログラムを実行することにより、図3に記載の各ブロックとして機能し、図4のフローチャートによる処理を実行する。尚、CPU201が必ずしも画像処理装置102の全ての機能を実行しなくてもよく、画像処理装置102内に各機能に対応する処理回路を設け、当該処理回路が当該機能を実行してもよい。
An example of image processing in the
In this embodiment, the
図5では、左手を素早く動かしている被写体を撮像した場合を例に挙げて画像処理の内容を示す。被写体の実際の動きを表す画像は、画像501A、画像501B、画像501Cの順で得られる。しかしながら、カメラ101の露光時間(Tv)が長いと、画像502のように左手部が動きブレしている画像がカメラ101により撮像される。
S401において、動画像データ取得部301は、入力インターフェース205を介して外部メモリ208から複数の動画像データを取得してRAM202に格納する。複数の動画像データはそれぞれ、同一の被写体を互いに異なる視点から各カメラ101により撮像することにより得られる画像データ、即ち、同一の被写体を異なる視点から表す動画像データである。図5では、画像502が動画像データの例を表す。
FIG. 5 shows the details of the image processing, taking as an example a case where an image of a subject whose left hand is moving quickly is captured. Images representing the actual movement of the subject are obtained in the order of image 501A, image 501B, and image 501C. However, when the exposure time (Tv) of the
In S<b>401 , the moving image
次に、S402において、背景画像取得部302は、入力インターフェース205を介して外部メモリ208から、S401で取得された動画像データに対応する複数の背景画像データを取得してRAM202に格納する。図5では、画像503が(或る1つのカメラ101で撮像された)背景画像データの例を表す。尚、背景画像は、被写体105が存在しない状態で、各カメラ101により撮像された画像であり、予め外部メモリ208に格納されているものとする。背景画像を撮像する際の各カメラ101の位置および姿勢は、被写体105が存在するときと同じであるのが好ましい。
Next, in S<b>402 , the background
次に、S403において、第1前景背景分離部303は、RAM202に格納された動画像データと背景画像データとの差分に基づいて、動画像データを前景画像と背景画像に分離しそれぞれRAM202に保存する。第1前景背景分離部303は、例えば、動画像データおよび背景画像データと同じサイズの画像データであって、各画素の値が2値の画像データを前景背景画像データとして生成する。そして、第1前景背景分離部303は、動画像データと背景画像データとの互いに対応する画素の画素値の差の絶対値が閾値を上回る場合、当該画素に白(1)を割り当て、そうでない場合に当該画素に黒(0)を割り当てることを各画素について行う。この場合、白(1)が割り当てられた領域が前景領域であり、黒(0)が割り当てられた領域が背景領域になる。第1前景背景分離部303は、このような前景背景画像データを、動画像データおよび背景画像データと共にRAM202に保存する。図5では、画像504が、前景背景画像データの例を表す。
Next, in S<b>403 , the first foreground/
次に、S404において、動体マップ算出部304は、RAM202に格納された動画像データから動画像の動体マップを算出し、算出した動体マップをRAM202に保存する。動体マップとは、各フレームの画像中の被写体の、前または後のフレームの画像に対するx,y座標のそれぞれの移動量を、1画素ごとにマップ状に保存したものである。動体マップ算出部304は、計算量の削減のため、RAM202に格納された前記前景領域の部分のみの動きを算出することによって、前記前景領域のみの動体マップを算出してもよい。
Next, in S<b>404 , the moving object
次に、S405において、動きブレ量算出部305は、動体マップと、露光時間(Tv)[sec]と、周波数[fps(frame/sec)]とに基づいて、動きブレ量を算出してRAM202に保存する。尚、周波数は、フレームレートであり、撮像周期に対応する周波数である。本実施形態では、動きブレ量を、画像における被写体のブレの大きさを画素数で表す。動きブレ量の算出方法は、例えば、動体マップの各画素における移動量を(x,y)[pixel/frame]とすると、動きブレ量算出部305は、動きブレ量[pixel]を、以下の式(1)により算出すればよい。
Next, in S405, the motion blur
また、動きブレ量算出部305は、例えば、カメラ101ごとに、画像の各画素に、動きブレ量(数値)がマップ形式で割り当てられたものをRAM202に保存すればよい。以降、このマップ形式で保存される動きブレ量を、必要に応じて動きブレ量マップと称する。図5では、動きブレ量マップ505において、速く動いている左手部分に対応する値が大きな動きブレ量であることを示す。
In addition, the motion blur
次に、S406において、第2前景背景分離部306は、前記前景背景画像データから、非動きブレ前景領域を抽出し、RAM202に保存する。具体的には、例えば、第2前景背景分離部306は、前記前景背景画像データ(画像504)のうち、前景領域(白の領域)であり、且つ、対応する動きブレ量マップ505の値が一定の閾値以下になる領域(黒の領域)を非動きブレ前景領域とすればよい。図5では、画像506が非動きブレ前景領域の例を表す。このように非動きブレ前景領域は、前景領域のうち、動きブレが起こっていない領域である。前景領域のうち、非動きブレ前景領域以外の領域は、動きブレが起こっている領域であり、前景と背景とが混ざっていてこれらを区別できない領域(動きブレ領域)である。
Next, in S<b>406 , the second foreground/
次に、S407において、第1形状推定部307は、前景領域の形状を推定する。また、第2形状推定部308は、非動きブレ前景領域の形状を推定する。形状の推定には、例えば、カメラ101の位置および姿勢を示す情報を含むカメラ位置姿勢パラメータが用いられる。形状の推定の方法としては、例えば、非特許文献1に記載のVisual Hull法を用いる方法が挙げられる。例えば、第1形状推定部307は、Visual Hull法を用いて、前景領域のシルエットを実空間上に投影し、そのシルエットが重複する部分を、前景の形状として推定する。第1形状推定部307、第2形状推定部308は、例えば、カメラ101ごとに、画像の各画素に、(形状を表す情報としての)距離がマップ形式で割り当てられたものをRAM202に保存すればよい。ここで、距離とは、出力視点から着目画素に写る被写体までの距離を指す。以下の説明では、このマップ形式で保存されている距離を、必要に応じて距離マップと称する。出力視点は、仮想視点のことを指す。
Next, in S407, the first
複数のカメラ101により得られた被写体の撮像画像に基づいて距離マップを生成する方法は公知であり、任意の方法を採用することができる。例えば、特許文献1に記載されている視体積公差法またはステレオマッチング法を用いて、被写体の三次元モデルを生成することができる。そして、仮想視点と被写体の三次元モデルとの関係に基づいて、仮想視点画像の各画素について、仮想視点から対応する被写体までの距離を各画素について導出して距離マップに格納する。距離マップの生成方法は被写体の撮像画像に基づく方法に限られず、何らかのトラッカー等を用いて被写体の三次元モデルを生成し、この三次元モデルに基づいて距離マップを生成してもよい。また、事前にレンジセンサなどで仮想視点から対応する被写体までの距離を計測し、距離マップを取得してもよい。
A method of generating a distance map based on images of a subject obtained by a plurality of
次に、S408において、第1レンダリング部309は、前景領域の形状をレンダリングして前景仮想視点画像を生成する。また、第2レンダリング部310は、非動きブレ前景領域の形状をレンダリングして非動きブレ仮想視点画像を生成する。レンダリングに際しては、例えば、仮想視点の位置および視線の方向を含む仮想視点パラメータが用いられる。
以下、第1レンダリング部309と第2レンダリング部310の処理の概略の一例について説明する。
第1レンダリング部309と第2レンダリング部310が行う処理は、着目方向に存在する被写体の位置を距離マップに基づいて特定し、この被写体の色情報を撮像画像から抽出する処理に相当する。言い換えれば、第1レンダリング部309と第2レンダリング部310は、仮想視点画像中の着目画素について、着目画素に写る被写体の位置を距離マップに基づいて特定し、着目画素に写る被写体の色情報を撮像画像から抽出する。具体的に第1レンダリング部309と第2レンダリング部310は、仮想視点から着目方向に存在する被写体までの距離と、仮想視点とカメラ101との位置および姿勢の関係とに基づいて、着目方向に存在する被写体に対応する撮像画像上の画素を特定する。そして、第1レンダリング部309と第2レンダリング部310は、特定した画素の色情報を、仮想視点から着目方向に存在する被写体の色情報として取得する。
Next, in S408, the
An example of the outline of the processing of the
The processing performed by the
この処理は、例えば以下のように行うことができる。以下の説明では、仮想視点画像中の着目画素の座標を(u0,v0)とする。着目画素に写る被写体の位置は、以下の式(2)に従って、出力視点におけるカメラ座標系の座標で表すことができる。 This processing can be performed, for example, as follows. In the following description, the coordinates of the pixel of interest in the virtual viewpoint image are assumed to be (u 0 , v 0 ). The position of the subject captured in the pixel of interest can be represented by the coordinates of the camera coordinate system at the output viewpoint according to the following equation (2).
式(2)において、(x0,y0,z0)は被写体のカメラ座標系の座標を表す。d0(u0,v0)は、距離マップに示される、出力視点から着目画素に写る被写体までの距離を表す。f0は出力視点の焦点距離を表し、cx0およびcy0は、出力視点の主点位置を表す。
次に、着目画素に写る被写体について、出力視点におけるカメラ座標系の座標は、以下の式(3)に従って世界座標系の座標に変換することができる。
In Equation (2), (x 0 , y 0 , z 0 ) represent the coordinates of the subject in the camera coordinate system. d 0 (u 0 , v 0 ) represents the distance from the output viewpoint to the subject in the pixel of interest shown in the distance map. f 0 represents the focal length of the output viewpoint, and c x0 and c y0 represent the principal point positions of the output viewpoint.
Next, the coordinates of the camera coordinate system at the output viewpoint for the subject captured in the pixel of interest can be converted into the coordinates of the world coordinate system according to the following equation (3).
式(3)において、(X0,Y0,Z0)は被写体の世界座標系の座標を表す。R0は、出力視点の光軸方向を表す。(Xoutput,Youtput,Zoutput)は、出力視点の世界座標系の座標を表す。
次に、被写体の世界座標系の座標(X0,Y0,Z0)に存在する被写体が写っている、入力視点からの撮像画像上の座標は、以下の式(5)に従って算出することができる。入力視点とは、カメラ101の視点のことを指す。
In Equation (3), (X 0 , Y 0 , Z 0 ) represent the coordinates of the subject in the world coordinate system. R 0 represents the optical axis direction of the output viewpoint. (X output , Y output , Z output ) represent the coordinates of the output viewpoint in the world coordinate system.
Next, the coordinates of the captured image from the input viewpoint, in which the subject exists at the coordinates (X 0 , Y 0 , Z 0 ) of the subject's world coordinate system, are calculated according to the following equation (5). can be done. An input viewpoint refers to the viewpoint of the
式(4)において、Riは入力視点iの光軸方向を表す(入力視点iは、複数の入力視点のうちi番目の入力視点である)。(Xcam,i,Ycam,i,Zcam,i)は、入力視点iのカメラ101の世界座標系の座標を表す。fiは、入力視点iの焦点距離を表し、cxi及びcyiは入力視点iの主点位置を表す。また、tは定数を表す。式(4)を(ui,vi)について解くことにより、式(5)が得られる。
In Equation (4), R i represents the optical axis direction of input viewpoint i (input viewpoint i is the i-th input viewpoint among a plurality of input viewpoints). (X cam,i , Y cam,i , Z cam,i ) represent the coordinates of the world coordinate system of the
式(5)に従うと、まず定数tを算出することができ、更に得られた定数tを用いて(ui,vi)を算出することができる。このように、仮想視点画像中の着目画素の座標(u0,v0)は、撮像画像中の画素の座標(ui,vi)に変換することができる。仮想視点画像中の着目画素の座標(u0,v0)と撮像画像中の画素の座標(ui,vi)とは、同じ被写体に対応する可能性が高い。したがって、撮像画像中の画素の座標(ui,vi)の画素値(色情報)を、仮想視点画像中の着目画素の座標(u0,v0)の画素値(色情報)として用いることができる。 According to equation (5), the constant t can be calculated first, and (u i , v i ) can be calculated using the obtained constant t. In this way, the coordinates (u 0 , v 0 ) of the pixel of interest in the virtual viewpoint image can be converted to the coordinates (u i , v i ) of the pixel in the captured image. It is highly likely that the coordinates (u 0 , v 0 ) of the pixel of interest in the virtual viewpoint image and the coordinates (u i , v i ) of the pixel in the captured image correspond to the same object. Therefore, the pixel value (color information) at the coordinates (u i , v i ) of the pixel in the captured image is used as the pixel value (color information) at the coordinates (u 0 , v 0 ) of the pixel of interest in the virtual viewpoint image. be able to.
しかしながら、視線方向の違いのために、仮想視点画像中の着目画素の座標(u0,v0)と撮像画像中の画素の座標(ui,vi)とが同じ被写体に対応するとは限らない。また、光源の方向等の影響により、これらが同じ被写体に対応したとしても、撮像画像間で色が異なっている可能性もある。このため、本実施形態では、第1レンダリング部309と第2レンダリング部310は、複数の撮像画像から、仮想視点画像中の着目画素の座標(u0,v0)に対応する撮像画像中の画素の座標(ui,vi)(i=1~N:Nはカメラ101の数)を特定する。そして、第1レンダリング部309と第2レンダリング部310は、特定した画素の画素値を重み付け合成する。ここで、被写体が撮像範囲外にある等の理由で、着目画素に対応する被写体が写っていない撮像画像については、合成の対象から外すことができる。このような重み付け合成により得られた画素値が、仮想視点画像中の着目画素の座標(u0,v0)の画素値として用いられる。
However, due to the difference in line-of-sight direction, the coordinates (u 0 , v 0 ) of the pixel of interest in the virtual viewpoint image and the coordinates (u i , v i ) of the pixel in the captured image do not necessarily correspond to the same subject. do not have. In addition, even if these images correspond to the same object, there is a possibility that the captured images have different colors due to the influence of the direction of the light source and the like. For this reason, in the present embodiment, the
このとき、同時に、動きブレ量マップの、仮想視点画像中の着目画素の座標(u0,v0)における値も、画素値と同様に、実視点での動きブレ量マップの重み付け合成によって生成することができる。
図5において、画像507は、第1レンダリング部309によるレンダリングの結果(前景仮想視点画像)の例を表し、画像508は、第2レンダリング部310のレンダリングの結果(非動きブレ仮想視点画像)の例を表す。画像507では、速く動く左手部分が不透明な大きな固まりとしてレンダリングされる。画像508では、速く動く左手部分が消えた画像がレンダリングされる。ここで、本来、仮想視点から見えるべき絵は、左手の部分が動きブレして半透明に透けて見える絵である。このように、画像507(前景仮想視点画像)の方が、画像508(非動きブレ仮想視点画像)よりも、被写体の動きによって画像上の前記被写体の少なくとも一部の領域に生じるブレが大きい。
At this time, at the same time, the value of the motion blur amount map at the coordinates (u 0 , v 0 ) of the pixel of interest in the virtual viewpoint image is also generated by weighted synthesis of the motion blur amount map at the real viewpoint in the same way as the pixel value. can do.
In FIG. 5, an image 507 represents an example of the result of rendering by the first rendering unit 309 (foreground virtual viewpoint image), and an image 508 represents an example of the result of rendering by the second rendering unit 310 (non-motion-blurred virtual viewpoint image). represents an example. In image 507, the fast moving left hand portion is rendered as a large opaque blob. In image 508, the image is rendered with the fast moving left hand portion removed. Here, the picture that should be seen from the virtual viewpoint is a picture that can be seen semi-transparently because the left hand part moves and blurs. As described above, the image 507 (foreground virtual viewpoint image) is more blurred in at least a partial area of the subject on the image due to the motion of the subject than the image 508 (non-motion-blurred virtual viewpoint image).
図4の説明に戻り、S409において、αブレンド部311は、前景仮想視点画像と非動きブレ仮想視点画像とを動きブレ量に従ってαブレンドし、動きブレ混合仮想視点画像を生成する。図5では、画像509が、動きブレ混合仮想視点画像の例を表す。動きブレ量マップ505に従って、画像507(前景仮想視点画像)、508(非動きブレ仮想視点画像)をαブレンドする。このようにすることで、速く動く左手部分が半透明に透けた画像509を生成することができる。
Returning to the description of FIG. 4, in S409, the α-blending
αは、前景仮想視点画像と非動きブレ仮想視点画像との、相互に対応する画素における当該画素の値の合成比率を決定するためのパラメータの一例である。例えば、動きブレ量マップ505の値をx[pixel]とすると、αは、以下の式(6)のように表される。そして、第1レンダリング部309によるレンダリングの結果(前景仮想視点画像)として得られるRGB値を[R1,G1,B1]とする。また、第2レンダリング部310のレンダリングの結果(非動きブレ仮想視点画像)として得られるRGB値を[R2,G2,B2]とする。そうすると、これらのRGB値[R1,G1,B1]、[R2,G2,B2]を、αを用いて以下の式(7)のように合成することにより、出力画像のRGB値を決めればよい。
α is an example of a parameter for determining the synthesis ratio of the pixel values of mutually corresponding pixels in the foreground virtual viewpoint image and the non-motion-blurred virtual viewpoint image. For example, if the value of the motion blurring amount map 505 is x [pixel], α is represented by the following equation (6). Let [R1, G1, B1] be the RGB values obtained as a result of rendering (foreground virtual viewpoint image) by the
以上のように本実施形態では、画像処理装置102は、被写体の動き情報を撮像画像から取得し、撮像画像の被写体の領域を動きブレ領域と非動きブレ前景領域とに分けてレンダリングしてαブレンドする。したがって、動きブレが起こっている前景領域が自然な半透明になるような仮想視点画像を生成することができる。よって、撮像画像において動きブレが起こった場合でも仮想視点画像を適切に生成することができる。
As described above, in the present embodiment, the
本実施形態では、動きブレ領域と非動きブレ前景領域の2つに分けてレンダリングする例を示した。しかしながら、動きブレの大きさによって3つ以上の領域に分けて形状の推定とレンダリングとを行ってもよい。
また、計算リソースの削減のために、第2形状推定部308と第2レンダリング部310において、前景の形状の推定とレンダリングとを実行せずに、背景の形状のみをレンダリングしてもよい。この場合、式(7)の[R2,G2,B2]を背景画像のレンダリングの結果として、前景領域([R1,G1,B2])のブレ量(動きブレ量マップ505の値)に応じて透明度だけ変えるようにすることができる。
In this embodiment, an example has been shown in which rendering is divided into two areas, the motion blurred area and the non-motion blurred foreground area. However, shape estimation and rendering may be performed by dividing into three or more regions depending on the magnitude of motion blur.
Also, in order to reduce computational resources, the second shape estimation unit 308 and the
<第2の実施形態>
次に、第2の実施形態を説明する。本実施形態では、短秒露光をするカメラと長秒露光をするカメラとを混合して画像を作る例について示す。ここで、短秒露光と長秒露光とは相対的に露光時間が長い動画像と短い動画像のことを示す。例えば、60[fps]の動画像において、長秒が1/100[sec]の露光時間とし、短秒が1/1000[sec]の露光時間とするような撮り方をしているものとする。これらのカメラの周波数[fps]は同じであり、撮影タイミングは同期しているものとする。また、短秒露光を行うカメラ101と長秒露光を行うカメラ101として、それぞれ複数のカメラ101が予め設定されているものとする。後述するように、短秒露光を行うカメラ101による撮像画像に基づいて仮想視点画像を生成すると共に、長秒露光を行うカメラ101による撮像画像に基づいて仮想視点画像を生成する。それぞれの仮想視点画像が適切に生成されるように、短秒露光を行うカメラ101と長秒露光を行うカメラ101とを分散して配置するのが好ましい。例えば、図1において、短秒露光を行うカメラ101と長秒露光を行うカメラ101とを1台おきに交互に配置することができる。尚、短秒露光を行うカメラ101と長秒露光を行うカメラ101の数は、同じであっても異なっていてもよい。
<Second embodiment>
Next, a second embodiment will be described. In this embodiment, an example of creating an image by combining a short-second exposure camera and a long-second exposure camera will be described. Here, short-second exposure and long-second exposure refer to moving images with relatively long and short exposure times. For example, in a moving image of 60 [fps], it is assumed that the exposure time is 1/100 [sec] for long seconds and 1/1000 [sec] for short seconds. . It is assumed that these cameras have the same frequency [fps] and their shooting timings are synchronized. It is also assumed that a plurality of
前述した第1の実施形態では、1つのカメラの画像の時系列での動体マップを推定して動きブレが起こっている領域を判断する。このようにすると、動体マップの算出に比較的時間がかかる。そこで、本実施形態では、動体マップの算出を行わずに、短秒露光で相対的に動きブレの少ない画像群と、長秒露光で相対的に動きブレの大きい画像群との両方を使うことで動きブレのある場面の仮想視点画像を生成する。このように本実施形態と第1の実施形態とでは、動きブレが起こっている領域の判定のための処理が主として異なる。したがって、本実施形態の説明において、第1の実施形態と同一の部分については、図1~図5に付した符号と同一の符号を付す等して詳細な説明を省略する。 In the first embodiment described above, a motion blurring region is determined by estimating a time-series moving body map of images from one camera. In this way, it takes a relatively long time to calculate the moving body map. Therefore, in the present embodiment, both a group of images with relatively little motion blur with short-second exposure and a group of images with relatively large motion blur with long-second exposure are used without calculating a moving body map. generates a virtual viewpoint image of a scene with motion blur. As described above, the main difference between the present embodiment and the first embodiment is the processing for determining an area in which motion blur occurs. Therefore, in the description of the present embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals as those in FIGS. 1 to 5, and detailed description thereof is omitted.
以下、図6、図7、および図8を参照して、本実施形態の画像処理装置102における画像処理の一例を説明する。図6は、本実施形態の画像処理装置102の機能的な構成の一例を示すブロック図である。図7は、本実施形態の画像処理方法の一例を説明するフローチャートである。図8は、本実施形態の画像処理の内容の一例を説明する模式図である。
本実施形態においても、CPU201が、ROM203に格納されたプログラムを実行することにより、図6に記載の各ブロックとして機能し、図7のフローチャートによる処理を実行する。また、CPU201が必ずしも画像処理装置102の全ての機能を実行しなくてもよく、画像処理装置102内に各機能に対応する処理回路を設け、当該処理回路が当該機能を実行してもよい。
An example of image processing in the
Also in this embodiment, the
図8では、左手を素早く動かしている被写体を撮像した場合を例に挙げて画像処理の内容を示す。被写体の実際の動きを表す画像は、画像801A、画像801B、画像801Cの順で得られる。しかしながら、カメラ101の露光時間(Tv)が長いと、画像802のように左手部が動きブレしている画像がカメラ101により撮像される。一方、カメラ101の露光時間(Tv)が短いと、画像803のように左手部が動きブレしていない画像がカメラ101により撮像される。
FIG. 8 shows the details of the image processing, taking as an example a case where an image of a subject whose left hand is moving quickly is captured. Images representing the actual movement of the subject are obtained in the order of image 801A, image 801B, and image 801C. However, when the exposure time (Tv) of the
以降、露光時間(Tv)が相対的に長いカメラ101により撮像された画像を、必要に応じて長Tv画像と称し、露光時間(Tv)が相対的に短いカメラ101により撮像された画像を、必要に応じて短Tv画像と称する。
S701において、長Tv画像取得部601は、長Tv画像データを取得する。短Tv画像取得部602は、短Tv画像データを取得する。例えば、画像801A→画像801B→画像801Cのように人が左手を素早く振った動作をした場合、長Tv画像は画像802のようになり、短Tv画像は画像803のようになる。
Hereinafter, an image captured by a
In S701, the long Tv
次に、S702において、長Tv背景画像取得部603は、長Tv背景画像データを取得する。短Tv背景画像取得部604は、短Tv背景画像データを取得する。長Tv背景画像は、被写体105が存在しない状態で、各カメラ101により相対的に長い露光時間(Tv)で撮像された画像であり、予め外部メモリ208に格納されているものとする。短Tv背景画像は、被写体105が存在しない状態で、各カメラ101により相対的に短い露光時間(Tv)で撮像された画像であり、予め外部メモリ208に格納されているものとする。長Tv画像を撮像する際の露光時間と長Tv背景画像を撮像する際の露光時間は同じであるのが好ましい。同様に、短Tv画像を撮像する際の露光時間と短Tv背景画像を撮像する際の露光時間は同じであるのが好ましい。また長Tv背景画像、短Tv背景画像を撮像する際の各カメラ101の位置および姿勢は、被写体105が存在するときと同じであるのが好ましい。図8では、例えば、画像804のような背景画像が取得される。
Next, in S702, the long-Tv background
次に、S703において、第1前景画像分離部605は、長Tv画像データを長Tv前景領域と長Tv背景領域とに分離する。例えば、第1前景画像分離部605は、画像(長Tv画像)802と画像(背景画像)804の互いに対応する画素において、色およびテクスチャの少なくとも何れか一方の差分の絶対値が閾値を上回るか否かを判定する。第1前景画像分離部605は、この絶対値が閾値を上回る領域を前景領域とし、当該領域の画素に白(1)を割り当て、そうでない領域を背景領域とし、当該領域の画素に黒(0)を割り当てることを各画素について行う。この場合、白(1)が割り当てられた領域が前景領域であり、黒(0)が割り当てられた領域が背景領域になる。このようにして前景領域とされたものが、長Tv前景領域であり、背景領域とされたものが、長Tv背景領域である。これにより、図8に示す画像805のような画像が得られる。
Next, in S703, the first foreground
次に、S704において、第2前景画像分離部606は、短Tv画像データを短Tv前景領域と短Tv背景領域とに分離する。例えば、第2前景画像分離部606は、画像(短Tv画像)803と画像(背景画像)804の互いに対応する画素において、色およびテクスチャの少なくとも何れか一方の差分の絶対値が閾値を上回るか否かを判定する。第2前景画像分離部606は、この絶対値が閾値を上回る領域を前景領域とし、当該領域の画素に白(1)を割り当て、そうでない領域を背景領域とし、当該領域の画素に黒(0)を割り当てることを各画素について行う。この場合、白(1)が割り当てられた領域が前景領域であり、黒(0)が割り当てられた領域が背景領域になる。このようにして前景領域とされたものが、短Tv前景領域であり、背景領域とされたものが、短Tv背景領域である。これにより、図8に示す画像806のような画像が得られる。
Next, in S704, the second foreground
次に、S705において、第1形状推定部607は、多視点の長Tv前景領域(各カメラ101で得られた長Tv前景領域)の重複領域から、相対的に長い露光時間で撮像した場合の前景領域の形状を推定する。以下の説明では、この形状を、必要に応じて長Tv形状と称する。
次に、S706において、第2形状推定部608は、多視点の短Tv前景領域(各カメラ101で同じタイミングで得られた短Tv前景領域)の重複領域から、相対的に短い露光時間で撮像した場合の前景領域の形状を推定する。以下の説明では、この形状を、必要に応じて短Tv形状と称する。
Next, in S705, the first
Next, in S706, the second
次に、S707において、第1レンダリング部609は、長Tv形状をレンダリングして、仮想視点から相対的に長い露光時間で撮像したと仮定した場合に得られる仮想視点画像を生成する。以下の説明では、この仮想視点画像を必要に応じて、長Tv仮想視点画像と称する。また、第2レンダリング部610は、短Tv形状をレンダリングして、仮想視点から相対的に短い露光時間で撮像したと仮定した場合に得られる仮想視点画像を生成する。以下の説明では、この仮想視点画像を必要に応じて、短Tv仮想視点画像と称する。
Next, in S707, the
ここで、仮想視点画像(長Tv仮想視点画像、短Tv仮想視点画像)を生成するときに使うテクスチャに、必ずしも、それぞれの前景領域の画像を作るときに使った入力画像(長Tv画像、短Tv画像)を使わなくてもよい。例えば、露光時間(Tv)が異なると色味も変わってしまう場合がある。このため、仮想視点画像(長Tv仮想視点画像、短Tv仮想視点画像)を生成するときに使うテクスチャには、長Tv画像のみを使うようにしてもよい。図8では、例えば、画像807が長Tv仮想視点画像であり、長Tv仮想視点画像には、画像807のように、動いている部分が大きな不透明な固まりとなって表れる。また、画像808が短Tv仮想視点画像であり、短Tv仮想視点画像には、画像808のように、或る止まった瞬間の手の形が表れる。このように、画像807(長Tv仮想視点画像)の方が、画像808(短Tv仮想視点画像)よりも、被写体の動きによって画像上の前記被写体の少なくとも一部の領域に生じるブレが大きい。 Here, the input images (long Tv image, short Tv image) used to generate the respective foreground region images are not necessarily included in the textures used to generate the virtual viewpoint images (long Tv virtual viewpoint image, short Tv virtual viewpoint image). Tv image) may not be used. For example, if the exposure time (Tv) is different, the color tone may also change. Therefore, only the long Tv image may be used as the texture used when generating the virtual viewpoint images (the long Tv virtual viewpoint image and the short Tv virtual viewpoint image). In FIG. 8, for example, the image 807 is the long-Tv virtual viewpoint image, and in the long-Tv virtual viewpoint image, moving parts appear as large opaque masses like the image 807 . Also, an image 808 is a short Tv virtual viewpoint image, and in the short Tv virtual viewpoint image, like the image 808, the shape of a hand at a certain moment appears. As described above, the image 807 (long Tv virtual viewpoint image) is more blurred than the image 808 (short Tv virtual viewpoint image) in at least a partial area of the subject on the image due to the movement of the subject.
次に、S708において、動きブレ量算出部611は、長Tv仮想視点画像と短Tv仮想視点画像の相互に対応する画素の画素値の差分の絶対値の大きさから動きブレ量を算出する。このとき、長Tv仮想視点画像と短Tv仮想視点画像に代えて、長Tv形状と短Tv形状を用いてもよい。
次に、S709において、αブレンド部612は、動きブレ量に従って、長Tv仮想視点画像と短Tv仮想視点画像とをαブレンドして、動きブレ混合仮想視点画像を生成する。例えば、αブレンド部612は、式(7)において、長Tv仮想視点画像のRGB値を[R1,G1,B1]とし、短Tv仮想視点画像のRGB値を[R2,G2,B2]として、長Tv仮想視点画像と短Tv仮想視点画像とを式(7)に従って合成できる。このとき、αブレンド部612は、例えば、動きブレ量が大きいほど、長Tv仮想視点画像のαブレンドの値(=α)が小さくなるようにする(即ち、長Tv仮想視点画像のブレンド率を低くする)。図8では、例えば、αブレンドした結果は、画像809のように手が動いているためにブレている部分は半透明になるような画像となり、実際に仮想視点において、長い露光時間(Tv)で撮ったような画像となる。
Next, in S708, the motion blur
Next, in S709, the α-blending
以上のように本実施形態では、画像処理装置102は、短秒露光で動きブレの小さい画像群と、長秒露光で動きブレの大きい画像群との両方を使ってそれぞれレンダリングしたものをαブレンドする。したがって、動きマップを算出しなくても動きブレのある場面の仮想視点画像を生成することができる。よって、第1の実施形態で説明した効果に加えて、処理時間を削減することができるという効果が得られる。
As described above, in the present embodiment, the
<第3の実施形態>
次に、第3の実施形態を説明する。本実施形態では、仮想視点とカメラの実視点(実際の視点)との違いによってαブレンドの比率を切り替えたり、処理を簡略化したりする例について示す。第1の実施形態と第2の実施形態において、動きブレで半透明になる部分の仮想視点画像を生成した場合に問題となるのは、仮想視点とカメラの実視点とが遠い場合である。仮想視点とカメラの実視点とが十分に近い場合は、カメラの映像が仮想視点で見た場合と近いため、動きブレしている部分の形状にカメラの実映像をテクスチャとして貼っても自然な絵となる。そこで、本実施形態では、仮想視点とカメラの実視点との近さに応じて、αブレンドを行うか否かの切り替えと、αブレンドを行う際のαブレンドの値(=α)の制御とを行う例を示す。このように本実施形態と第1、第2の実施形態とは、αブレンドに係る処理が主として異なる。したがって、本実施形態の説明において、第1、第2の実施形態と同一の部分については、図1~図8に付した符号と同一の符号を付す等して詳細な説明を省略する。
<Third Embodiment>
Next, a third embodiment will be described. In this embodiment, an example of switching the α-blending ratio or simplifying the processing depending on the difference between the virtual viewpoint and the real viewpoint of the camera (actual viewpoint) will be described. In the first and second embodiments, a problem arises when the virtual viewpoint image of the portion that becomes translucent due to motion blur is generated when the virtual viewpoint is far from the real viewpoint of the camera. If the virtual viewpoint and the camera's real viewpoint are sufficiently close, the camera's image is close to what it looks like from the virtual viewpoint. becomes a picture. Therefore, in the present embodiment, switching between whether or not to perform α blending, and control of the α blending value (=α) when performing α blending, according to the closeness between the virtual viewpoint and the real viewpoint of the camera. Here is an example of doing As described above, the main difference between the present embodiment and the first and second embodiments is the processing related to α-blending. Therefore, in the description of this embodiment, the same parts as those in the first and second embodiments are denoted by the same reference numerals as those in FIGS. 1 to 8, and detailed description thereof is omitted.
以下、図9と図10を参照して、本実施形態の画像処理装置102における画像処理の一例を説明する。図9は、本実施形態の画像処理装置102の機能的な構成の一例を示すブロック図である。図10は、本実施形態の画像処理方法の一例を説明するフローチャートである。
図9に示す画像処理装置102は、図3に示す画像処理装置102に対して、視点依存処理設定部912を更に備える。図9の901~911は、それぞれ、図3のブロック301~311と同じである。ただし、本実施形態における動体マップ算出部904と第1前景背景分離部903は、視点依存処理設定部912の結果として出力される処理切り替え設定によって処理を変える。また、仮想視点とカメラ101の実視点とが十分に近い場合、動画像データ取得部901は、動体マップ算出部904に動画像データを送らない。この場合、画像処理装置102は、動体マップ算出部904以降の処理ブロックによる処理を実行しない。また同様に、第1前景背景分離部903は、前景画像データを第2前景背景分離部906に送らない。この場合、画像処理装置102は、第2前景背景分離部906以降の処理ブロックによる処理を実行しない。
An example of image processing in the
The
また、本実施形態においても、CPU201が、ROM203に格納されたプログラムを実行することにより、図9に記載の各ブロックとして機能し、図10のフローチャートによる処理を実行する。また、CPU201が必ずしも画像処理装置102の全ての機能を実行しなくてもよく、画像処理装置102内に各機能に対応する処理回路を設け、当該処理回路が当該機能を実行してもよい。
図10のS1001~S1003は、図4のS401~S403と同じであるため、その詳細な説明を省略する。
Also in this embodiment, the
Since S1001 to S1003 in FIG. 10 are the same as S401 to S403 in FIG. 4, detailed description thereof will be omitted.
S1004において、視点依存処理設定部912は、仮想視点とカメラ101の実視点とが十分に近いかどうかを判定する。この判定に用いるカメラ101の実視点として、仮想視点画像の生成に際し、複数のカメラ101の代表となるカメラ101の実視点を採用する。例えば、仮想視点画像を生成する際にテクスチャとなる画像を撮像するカメラ101の実視点を採用することができる。また、仮想視点に最も近いカメラ101の実視点を採用してもよい。この判定の結果、仮想視点とカメラ101の実視点とが十分に近い場合、処理はS1011に進み、そうでない場合、処理はS1005に進む。視点の近さを評価する指標には、例えば、各視点の位置と、各視点の姿勢(視点と被写体とを結ぶ仮想線と基準線(例えば水平面)との角度)とのうち、少なくとも何れか1つが含まれる。ここで、例えば、入力視点から被写体への方向が、出力視点から被写体への方向により近いほど、撮像画像に写る被写体像は仮想視点からの被写体像により近いと考えられる。従って、入力視点から被写体への方向を示す方向ベクトルの方向と、出力視点から被写体への方向を示す方向ベクトルの方向との近さで視点の近さを評価することができる。具体的には、仮想視点から被写体への方向を示す方向ベクトル(大きさは任意)と、出力視点から被写体への方向を示す方向ベクトル(大きさは任意)とのがなす角度が閾値より小さいかどうかで視点の近さを評価すればよい。
In S1004, the viewpoint-dependent
このような方向に加えて、カメラ101の視野内における、着目方向に位置する被写体の位置を更に考慮して視点の近さを評価してもよい。例えば、被写体の位置がカメラ101の視野外に近ければ視点差が大きくなるよう視点の近さを評価すればよい。この場合、例えば、入力視点(カメラ101の実視点)から被写体への方向が出力視点(仮想視点)から被写体への方向と近くても、被写体が当該カメラ101の視野に含まれない場合、仮想視点と当該カメラ101の実視点の近さが近くないと評価できる。このように、視点の近さを評価する指標には、例えば、各視点の視野が含まれる。以下の説明では、仮想視点とカメラ101の実視点の近さを、必要に応じて仮想視点差と称する。
前述したようにS1004において、仮想視点差が大きいと判定された場合、処理は、S1005に進む。S1005~S1009の処理は、図4のS404~S408の処理と同様であるため、これらの処理の詳細な説明を省略する。
In addition to such a direction, the position of the subject positioned in the direction of interest within the field of view of the
As described above, if it is determined in S1004 that the virtual viewpoint difference is large, the process proceeds to S1005. Since the processing of S1005 to S1009 is the same as the processing of S404 to S408 in FIG. 4, detailed description of these processing will be omitted.
そして、処理は、S1010に進む。S1010において、αブレンド部911は、前景仮想視点画像と非動きブレ仮想視点画像を、動きブレ量と、仮想視点差とに従ってαブレンドして、動きブレ混合仮想視点画像を生成する。このとき、動きブレ量が大きいほど、前景仮想視点画像のブレンド率(αブレンドを行う際のαブレンドの値(=α))を小さくする。また、仮想視点差が小さいほど、前景仮想視点画像のブレンド率(αブレンドを行う際のαブレンドの値(=α))を大きくする。仮想視点差が大きい場合の処理はこれで終了する。
Then, the process proceeds to S1010. In S1010, the α-blending
一方、S1004で仮想視点差が小さいと判断された場合、処理は、S1011に進む。S1011において、第1形状推定部907は、前景領域の形状を推定する。この処理の内容はS407と同じであるため、その詳細な説明を省略する。
次に、S1012において、第1レンダリング部909は、前景領域の形状をレンダリングして仮想視点画像を生成する。この処理の内容はS408と同じであるため、その詳細な説明を省略する。ここでは、出力される仮想視点画像は、αブレンドしたものでなく、動きブレを含んだ形状をレンダリングしたもののみから作られた画像である。αブレンドしなくても、仮想視点とカメラ101の実視点とが十分に近い場合には自然な動きブレの画像がレンダリングすることができる。
On the other hand, if it is determined in S1004 that the virtual viewpoint difference is small, the process proceeds to S1011. In S1011, the first
Next, in S1012, the
以上のように本実施形態では、画像処理装置102は、仮想視点とカメラ101の実視点とが十分に近いかどうかで、動きブレ量マップおよび非動きブレ仮想視点画像の生成の有無を切り替る。また、画像処理装置102は、仮想視点とカメラ101の実視点との近さに応じて、非動きブレ仮想視点画像を生成する場合のαブレンドにおけるブレンド比率を制御する。従って、自然な動きブレの画像をレンダリングすると共に処理時間を削減することができる。
本実施形態の手法は、第2の実施形態に対しても適用することができる。このようにする場合、例えば、仮想視点とカメラ101の実視点とが十分に近い場合には、短Tv仮想視点画像の生成のための処理を省略する。
As described above, in the present embodiment, the
The technique of this embodiment can also be applied to the second embodiment. In this case, for example, when the virtual viewpoint and the real viewpoint of the
尚、前述した実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 It should be noted that the above-described embodiments merely show specific examples for carrying out the present invention, and the technical scope of the present invention should not be construed to be limited by these. That is, the present invention can be embodied in various forms without departing from its technical concept or main features.
<その他の実施例>
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other Examples>
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
101:カメラ、102:画像処理装置、103:表示装置、104:入力装置、105:被写体 101: camera, 102: image processing device, 103: display device, 104: input device, 105: subject
Claims (13)
仮想視点を特定するための情報である視点情報を取得する第2の取得手段と、
前記形状情報と、前記視点情報と、に基づいて、仮想視点画像を生成する生成手段と、を有し、
前記第1の抽出方法は、前記撮像画像と、前記撮像画像に対応する背景画像と、に基づいて、前記被写体を抽出する方法を含み、
前記第2の抽出方法は、前記撮像画像と、前記撮像装置で当該撮像画像が撮像されたタイミングと異なるタイミングで撮像された別の撮像画像と、に基づいて、前記被写体を抽出する方法を含む
ことを特徴とする画像処理装置。 A region of a subject extracted by a first extraction method from an image captured by any one of a plurality of imaging devices that capture images of an imaging region from a plurality of directions, and an image captured by the imaging device information for specifying the three-dimensional shape of a subject located within the imaging area based on the area of the subject extracted from the captured image by a second extraction method different from the first extraction method; a first acquisition means for acquiring certain shape information;
a second acquisition means for acquiring viewpoint information, which is information for specifying a virtual viewpoint;
generating means for generating a virtual viewpoint image based on the shape information and the viewpoint information ;
The first extraction method includes a method of extracting the subject based on the captured image and a background image corresponding to the captured image,
The second extraction method includes a method of extracting the subject based on the captured image and another captured image captured at a timing different from the timing at which the captured image was captured by the imaging device.
An image processing apparatus characterized by:
前記撮像画像と、当該撮像画像が撮像されたタイミングと異なるタイミングで撮像された別の撮像画像は、1フレームとして前記動画像に含まれることを特徴とする請求項1に記載の画像処理装置。 The imaging device captures a moving image including a plurality of frames,
2. The image processing apparatus according to claim 1 , wherein the captured image and another captured image captured at a timing different from the timing at which the captured image was captured are included in the moving image as one frame. .
前記判定手段により、前記第2の仮想視点画像を生成しないと判定された場合には、前記第1の仮想視点画像を出力し、前記判定手段により、前記第2の仮想視点画像を生成すると判定された場合には、前記生成手段により前記第1の仮想視点画像と前記第2の仮想視点画像を合成することにより生成された仮想視点画像を出力する出力手段と、を有することを特徴とする請求項4~7のいずれか1項に記載の画像処理装置。 whether to generate the second virtual viewpoint image based on the position of one of the plurality of imaging devices and the position of the virtual viewpoint specified based on the viewpoint information; a determination means for determining
When the determination means determines not to generate the second virtual viewpoint image, the first virtual viewpoint image is output , and the determination means outputs the second virtual viewpoint image. output means for outputting a virtual viewpoint image generated by synthesizing the first virtual viewpoint image and the second virtual viewpoint image by the generating means when it is determined to generate a virtual viewpoint image; 8. The image processing apparatus according to any one of claims 4 to 7, comprising :
仮想視点を特定するための情報である視点情報を取得する第2の取得工程と、a second acquisition step of acquiring viewpoint information, which is information for specifying a virtual viewpoint;
前記形状情報と、前記視点情報と、に基づいて、仮想視点画像を生成する生成工程と、を有し、a generating step of generating a virtual viewpoint image based on the shape information and the viewpoint information;
前記第1の抽出方法は、前記撮像画像と、前記撮像画像に対応する背景画像と、に基づいて、前記被写体を抽出する方法を含み、The first extraction method includes a method of extracting the subject based on the captured image and a background image corresponding to the captured image,
前記第2の抽出方法は、前記撮像画像と、前記撮像装置で当該撮像画像が撮像されたタイミングと異なるタイミングで撮像された別の撮像画像と、に基づいて、前記被写体を抽出する方法を含むThe second extraction method includes a method of extracting the subject based on the captured image and another captured image captured at a timing different from the timing at which the captured image was captured by the imaging device.
ことを特徴とする画像処理方法。An image processing method characterized by:
前記撮像画像と、当該撮像画像が撮像されたタイミングと異なるタイミングで撮像された別の撮像画像は、1フレームとして前記動画像に含まれることを特徴とする請求項11に記載の画像処理方法。12. The image processing method according to claim 11, wherein the captured image and another captured image captured at a timing different from the timing at which the captured image was captured are included in the moving image as one frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022069954A JP7322235B2 (en) | 2018-05-02 | 2022-04-21 | Image processing device, image processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018088654A JP7062506B2 (en) | 2018-05-02 | 2018-05-02 | Image processing equipment, image processing methods, and programs |
JP2022069954A JP7322235B2 (en) | 2018-05-02 | 2022-04-21 | Image processing device, image processing method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018088654A Division JP7062506B2 (en) | 2018-05-02 | 2018-05-02 | Image processing equipment, image processing methods, and programs |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022097541A JP2022097541A (en) | 2022-06-30 |
JP2022097541A5 JP2022097541A5 (en) | 2022-10-19 |
JP7322235B2 true JP7322235B2 (en) | 2023-08-07 |
Family
ID=87519622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022069954A Active JP7322235B2 (en) | 2018-05-02 | 2022-04-21 | Image processing device, image processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7322235B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146810A (en) | 2004-11-24 | 2006-06-08 | Advanced Telecommunication Research Institute International | System and method for generating image |
JP2017211827A (en) | 2016-05-25 | 2017-11-30 | キヤノン株式会社 | Information processing unit, control method and program |
JP2018036955A (en) | 2016-09-01 | 2018-03-08 | キヤノン株式会社 | Image processor, image processing method, and program |
-
2022
- 2022-04-21 JP JP2022069954A patent/JP7322235B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146810A (en) | 2004-11-24 | 2006-06-08 | Advanced Telecommunication Research Institute International | System and method for generating image |
JP2017211827A (en) | 2016-05-25 | 2017-11-30 | キヤノン株式会社 | Information processing unit, control method and program |
JP2018036955A (en) | 2016-09-01 | 2018-03-08 | キヤノン株式会社 | Image processor, image processing method, and program |
Non-Patent Citations (1)
Title |
---|
橋本 昂宗,多視点カメラ撮影による野球のシースルー映像生成,映像情報メディア学会誌,第65巻 第4号,日本,(社)映像情報メディア学会,2011年04月01日,505~513 |
Also Published As
Publication number | Publication date |
---|---|
JP2022097541A (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7062506B2 (en) | Image processing equipment, image processing methods, and programs | |
JP6425780B1 (en) | Image processing system, image processing apparatus, image processing method and program | |
US10540773B2 (en) | System and method for infinite smoothing of image sequences | |
US11100664B2 (en) | Depth-aware photo editing | |
CN109615703B (en) | Augmented reality image display method, device and equipment | |
KR101669820B1 (en) | Apparatus and method for bidirectional inpainting in occlusion based on volume prediction | |
WO2016155377A1 (en) | Picture display method and device | |
KR20170008638A (en) | Three dimensional content producing apparatus and three dimensional content producing method thereof | |
KR20080069601A (en) | Stereo video for gaming | |
JP2017204673A (en) | Image processing system, image processing method and program | |
US20230024396A1 (en) | A method for capturing and displaying a video stream | |
KR102131923B1 (en) | Method and system for real-time generation of 3D avatar for virtual fitting | |
JP7322235B2 (en) | Image processing device, image processing method, and program | |
CN115082537A (en) | Monocular self-monitoring underwater image depth estimation method and device and storage medium | |
Kitanovski et al. | Augmented reality mirror for virtual facial alterations | |
CN104463958A (en) | Three-dimensional super-resolution method based on disparity map fusing | |
JP6896811B2 (en) | Image processing equipment, image processing methods, and programs | |
Cho et al. | Depth image processing technique for representing human actors in 3DTV using single depth camera | |
KR100879802B1 (en) | Method and apparatus of generating three dimensional scene in virtual view point | |
WO2020118565A1 (en) | Keyframe selection for texture mapping wien generating 3d model | |
JP2020035218A (en) | Image processing device, method, and program | |
KR20060021566A (en) | Reconstruction 3d scene of virtual viewpoint using foreground projection-image and virtual-shap | |
JP3992607B2 (en) | Distance image generating apparatus and method, program therefor, and recording medium | |
JP2019061684A (en) | Information processing equipment, information processing system, information processing method and program | |
CN114419279A (en) | Three-dimensional object generation method and device, storage medium and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230726 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7322235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |