JP2023026244A - Image generation apparatus, image generation method, and program - Google Patents
Image generation apparatus, image generation method, and program Download PDFInfo
- Publication number
- JP2023026244A JP2023026244A JP2021132065A JP2021132065A JP2023026244A JP 2023026244 A JP2023026244 A JP 2023026244A JP 2021132065 A JP2021132065 A JP 2021132065A JP 2021132065 A JP2021132065 A JP 2021132065A JP 2023026244 A JP2023026244 A JP 2023026244A
- Authority
- JP
- Japan
- Prior art keywords
- dimensional shape
- image
- subject
- shape information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本開示は、画像生成装置および画像生成方法、プログラムに関する。 The present disclosure relates to an image generation device, an image generation method, and a program.
異なる位置に配置された複数の撮像装置により得られた複数の画像(複数視点画像)を用いて、ユーザにより指定された仮想視点からの仮想視点画像を生成する技術が注目されている。複数視点画像から仮想視点コンテンツを生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることが出来る。 A technique for generating virtual viewpoint images from virtual viewpoints designated by a user using a plurality of images (multi-viewpoint images) obtained by a plurality of imaging devices arranged at different positions has attracted attention. According to technology that generates virtual viewpoint content from multiple viewpoint images, for example, highlight scenes of soccer or basketball can be viewed from various angles, giving the user a high sense of realism compared to normal images. can do
特許文献1には、仮想視点画像を生成する方法として、モデルを形成する3次元空間を点やボクセル空間として捉え、被写体の3次元形状の取得と色付けを複数視点画像から得られた被写体のシルエット情報に基づいて行う方法が記載されている。また、特許文献2には、仮想視点画像を生成する方法として、3次元オブジェクトテンプレートモデルを複数視点画像から得られた被写体の姿勢情報に基づいて調整することで3次元形状の取得と色付けを行う方法が記載されている。
シルエット情報に基づいて3次元形状を取得する方法と、姿勢情報に基づいて3次元形状を取得する方法とでは、撮像領域や被写体の状態が3次元形状の推定の精度に及ぼす影響は異なる。シルエット情報に基づく方法では、被写体のシルエットに即した形状を生成できるが、例えばその被写体を撮像できるカメラの数が少ない場合や、その被写体の付近に被写体が密集している場合、3次元形状を正しく推定できなくなる可能性が高い。そのため、これらの状況下では、3次元形状の推定の精度が落ちてしまう。一方、姿勢情報に基づく方法では、上述した状況においても比較的高精度に3次元形状を推定できるが、被写体の形状が3次元オブジェクトテンプレートモデルと乖離していた場合には3次元形状を正しく推定できなくなる可能性が高い。3次元形状の推定の精度を維持することは仮想視点画像の画質を維持するうえで重要である。 The method of obtaining a three-dimensional shape based on silhouette information and the method of obtaining a three-dimensional shape based on posture information have different effects on the accuracy of three-dimensional shape estimation due to the imaging region and the state of the subject. A method based on silhouette information can generate a shape that conforms to the silhouette of a subject. There is a high possibility that it will not be possible to estimate correctly. Therefore, under these circumstances, the accuracy of 3D shape estimation is reduced. On the other hand, the method based on posture information can estimate the 3D shape with relatively high accuracy even in the above situation, but if the shape of the subject deviates from the 3D object template model, the 3D shape can be estimated correctly. It is highly likely that you won't be able to. Maintaining the accuracy of 3D shape estimation is important for maintaining the image quality of virtual viewpoint images.
本開示における一つの態様によれば、仮想視点画像の画質の低下を抑制する技術が提供される。 According to one aspect of the present disclosure, there is provided a technique for suppressing deterioration in image quality of virtual viewpoint images.
本発明の一態様による画像生成装置は以下の構成を備える。すなわち、
複数の撮像装置により被写体を撮像した複数の撮像画像から得られる被写体のシルエット情報に基づいて、前記被写体の3次元形状情報を生成する第1の生成手段と、
前記複数の撮像画像から推定された前記被写体の姿勢に基づいて前記被写体の3次元形状情報を生成する第2の生成手段と、
前記複数の撮像画像に含まれる各被写体について、前記第1の生成手段により生成された3次元形状情報と前記第2の生成手段により生成された3次元形状情報のうちの一方を、仮想視点画像の生成に用いる3次元形状情報として選択する選択手段と、
前記選択手段により選択された種類の3次元形状情報を用いて、仮想視点画像を生成する生成手段と、を有する。
An image generation device according to one aspect of the present invention has the following configuration. i.e.
a first generation means for generating three-dimensional shape information of a subject based on silhouette information of the subject obtained from a plurality of captured images of the subject captured by a plurality of imaging devices;
a second generation means for generating three-dimensional shape information of the subject based on the posture of the subject estimated from the plurality of captured images;
one of the three-dimensional shape information generated by the first generation means and the three-dimensional shape information generated by the second generation means for each subject included in the plurality of captured images, and displaying one of the three-dimensional shape information generated by the second generation means as a virtual viewpoint image; a selection means for selecting as three-dimensional shape information used to generate the
and generating means for generating a virtual viewpoint image using the type of three-dimensional shape information selected by the selecting means.
本開示によれば、仮想視点画像の画質の低下を抑制することができる。 According to the present disclosure, it is possible to suppress deterioration in image quality of a virtual viewpoint image.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In addition, the following embodiments do not limit the invention according to the scope of claims. Although multiple features are described in the embodiments, not all of these multiple features are essential to the invention, and multiple features may be combined arbitrarily. Furthermore, in the accompanying drawings, the same or similar configurations are denoted by the same reference numerals, and redundant description is omitted.
<第1実施形態>
第1実施形態では、仮想視点画像を生成する際、撮像領域中の各領域を撮像することが可能な撮像装置の数に応じて、使用する形状推定の方法を切り替えながら仮想視点画像を生成する実施形態について述べる。本実施形態の画像処理システムは、複数の撮像装置により異なる方向から撮像した複数の撮像画像(複数視点画像)、各撮像装置の状態(位置、姿勢)、指定された仮想視点(仮想視点情報)基づいて、仮想視点からの見えを表す仮想視点画像を生成する。
<First embodiment>
In the first embodiment, when generating a virtual viewpoint image, the virtual viewpoint image is generated while switching the shape estimation method to be used according to the number of imaging devices capable of imaging each region in the imaging region. An embodiment will be described. The image processing system of this embodiment includes a plurality of captured images (multi-viewpoint images) captured from different directions by a plurality of imaging devices, the state (position, orientation) of each imaging device, a specified virtual viewpoint (virtual viewpoint information), and the like. Based on this, a virtual viewpoint image representing the view from the virtual viewpoint is generated.
複数の撮像装置は、複数の方向から撮像領域を撮像する。撮像領域は、例えば、ラグビーやサッカーが行われる競技場の平面と任意の高さで囲まれた領域である。複数の撮像装置は、このような撮像領域を取り囲むようにして、それぞれ異なる位置と方向に設置され、同期して撮像を行う。なお、撮像装置は撮像領域の全周にわたって設置されなくてもよい。例えば、設置場所の制限等によって、撮像領域の一部の方向にのみ複数の撮像装置が設置されていてもよい。また、配置される撮像装置の数に制限はない。例えば、撮像領域をラグビーの競技場とする場合、競技場の周囲に数十~数百台程度の撮像装置が設置されてもよい。また、望遠カメラと広角カメラなど画角が異なる撮像装置が設置されていてもよい。例えば、望遠カメラを用いれば、高解像度に被写体を撮像できるので、生成される仮想視点画像の解像度も向上する。また、例えば、広角カメラを用いれば、一台のカメラで撮像できる範囲が広いので、カメラ台数を減らすことができる。撮像装置は現実世界の一つの時刻情報で同期され、撮像した動画には毎フレームの画像に撮像時刻情報が付与される。 A plurality of imaging devices capture images of the imaging region from a plurality of directions. The imaging area is, for example, an area surrounded by a plane of a stadium where rugby or soccer is played and an arbitrary height. A plurality of imaging devices are installed in different positions and directions so as to surround such an imaging region, and perform imaging in synchronism. Note that the imaging devices do not have to be installed over the entire circumference of the imaging area. For example, a plurality of imaging devices may be installed only in a part of the imaging area due to restrictions on installation locations. In addition, there is no limit to the number of arranged imaging devices. For example, if the imaging area is a rugby stadium, several tens to hundreds of imaging devices may be installed around the stadium. Imaging devices with different angles of view, such as a telephoto camera and a wide-angle camera, may also be installed. For example, if a telephoto camera is used, the subject can be imaged with high resolution, so the resolution of the generated virtual viewpoint image is also improved. Also, for example, if a wide-angle camera is used, the range that can be captured by one camera is wide, so the number of cameras can be reduced. The imaging device is synchronized with one piece of time information in the real world, and imaging time information is added to each frame image of the captured moving image.
撮像装置の状態とは、撮像装置の位置、姿勢(向き、撮像方向)、焦点距離、光学中心、歪みなどの状態のことをいう。撮像装置の位置、姿勢(向き、撮像方向)は、撮像装置そのもので制御されてもよいし、撮像装置が搭載される雲台により制御されてもよい。以下では、撮像装置の状態を撮像装置のパラメータ(以下、カメラパラメータ)として説明を行う。カメラパラメータには、雲台等の別の装置を制御するためのパラメータが含まれていてもよい。また、撮像装置の位置、姿勢(向き、撮像方向)に関するカメラパラメータは、いわゆる外部パラメータであり、撮像装置の焦点距離、画像中心、歪みに関するカメラパラメータは、いわゆる内部パラメータである。撮像装置の位置や姿勢は一つの原点と直交する3軸を持つ座標系で表現される(以下、世界座標系と呼ぶ)。 The state of the imaging device refers to the state of the imaging device, such as the position, orientation (orientation, imaging direction), focal length, optical center, distortion, and the like. The position and orientation (orientation, imaging direction) of the imaging device may be controlled by the imaging device itself, or may be controlled by a camera platform on which the imaging device is mounted. In the following description, the state of the imaging device will be described as a parameter of the imaging device (hereinafter referred to as a camera parameter). Camera parameters may include parameters for controlling another device such as a camera platform. Camera parameters relating to the position and orientation (orientation, imaging direction) of the imaging device are so-called external parameters, and camera parameters relating to the focal length, image center, and distortion of the imaging device are so-called internal parameters. The position and orientation of the imaging device are represented by a coordinate system having three axes orthogonal to one origin (hereinafter referred to as a world coordinate system).
仮想視点画像は、自由視点画像、任意視点画像とも呼ばれる。但し、仮想視点画像は、ユーザが自由に(任意に)指定した視点に対応する画像に限定されない。例えば、複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、仮想視点の指定は、ユーザ操作により行われてもよいし、画像解析の結果等に基づいて自動で行われてもよい。また、以下の実施形態では仮想視点画像が静止画である場合を中心に説明するが、仮想視点画像は動画であってもよい。 A virtual viewpoint image is also called a free viewpoint image or an arbitrary viewpoint image. However, the virtual viewpoint image is not limited to the image corresponding to the viewpoint freely (arbitrarily) specified by the user. For example, the virtual viewpoint image includes an image corresponding to a viewpoint selected by the user from a plurality of candidates. Also, the designation of the virtual viewpoint may be performed by a user operation, or may be automatically performed based on the result of image analysis or the like. Also, in the following embodiments, the case where the virtual viewpoint image is a still image will be mainly described, but the virtual viewpoint image may be a moving image.
仮想視点画像の生成に用いられる仮想視点情報は、仮想視点の位置及び向きを示す。具体的には、仮想視点情報は、仮想視点の3次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む。なお、仮想視点情報の内容は上記に限定されない。例えば、仮想視点情報のパラメータには、仮想視点の視野の大きさ(画角)を表すパラメータが含まれてもよい。また、仮想視点情報は複数フレームに関連したパラメータを有していてもよい。つまり、仮想視点情報は、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応するパラメータを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す情報であってもよい。 The virtual viewpoint information used to generate the virtual viewpoint image indicates the position and orientation of the virtual viewpoint. Specifically, the virtual viewpoint information includes parameters representing the three-dimensional position of the virtual viewpoint and parameters representing the orientation of the virtual viewpoint in the pan, tilt, and roll directions. Note that the content of the virtual viewpoint information is not limited to the above. For example, the parameters of the virtual viewpoint information may include parameters representing the size of the field of view (angle of view) of the virtual viewpoint. Also, the virtual viewpoint information may have parameters associated with multiple frames. In other words, the virtual viewpoint information may be information that has parameters corresponding to a plurality of frames that form a moving image of a virtual viewpoint image, and that indicates the position and orientation of the virtual viewpoint at each of a plurality of successive time points.
仮想視点画像は、例えば、以下のような方法で生成される。まず、複数の撮像装置により異なる方向から撮像することで複数の撮像画像(複数視点画像)が取得される。次に、複数視点画像から、人物やボールなどの被写体に対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像が取得される。前景画像、背景画像は、テクスチャ情報(色情報など)を有している。前景画像に基づいて、被写体の3次元形状を表す前景モデルと前景モデルに色付けするためのテクスチャ情報とが生成される。また、背景画像に基づいて、競技場などの背景の3次元形状を表す背景モデルに色づけするためのテクスチャ情報が生成される。そして、前景モデルと背景モデルに対してテクスチャ情報をマッピングし、仮想視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。ただし、仮想視点画像の生成方法はこれに限定されず、前景モデルや背景モデルを用いずに撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。 A virtual viewpoint image is generated, for example, by the following method. First, a plurality of captured images (multi-viewpoint images) are obtained by capturing images from different directions using a plurality of imaging devices. Next, a foreground image obtained by extracting a foreground area corresponding to a subject such as a person or a ball, and a background image obtained by extracting a background area other than the foreground area are obtained from the multi-viewpoint image. A foreground image and a background image have texture information (such as color information). A foreground model representing the three-dimensional shape of the subject and texture information for coloring the foreground model are generated based on the foreground image. Also, based on the background image, texture information for coloring the background model representing the three-dimensional shape of the background such as the stadium is generated. A virtual viewpoint image is generated by mapping texture information on the foreground model and the background model and performing rendering according to the virtual viewpoint indicated by the virtual viewpoint information. However, the method of generating a virtual viewpoint image is not limited to this, and various methods such as a method of generating a virtual viewpoint image by projective transformation of a captured image without using a foreground model or a background model can be used.
前景画像は、撮像装置により撮像されて取得された撮像画像から、被写体の領域(前景領域)を抽出した画像である。前景領域として抽出される被写体(前景被写体ともいう)とは、一般に、時系列で同じ方向から撮像を行った場合において動きのある(その位置や形が変化し得る)動的被写体(動体)を指す。例えば、競技において、それが行われるフィールド内にいる選手や審判などの人物が被写体となる。また、球技であれば、人物に加えてボールなども被写体となる。コンサートやエンタテイメントにおいては、歌手、演奏者、パフォーマー、司会者などが被写体となる。なお、前景領域は前景被写体のシルエット情報と解釈でき、以降、本実施形態では、前景画像を前景シルエット情報と呼ぶ。 A foreground image is an image obtained by extracting a subject area (foreground area) from a captured image captured by an imaging device. A subject extracted as a foreground area (also called a foreground subject) generally refers to a dynamic subject (moving object) that moves (its position and shape can change) when images are captured from the same direction in time series. Point. For example, in a game, the subject is a person such as a player or a referee in the field where the game is played. Also, in the case of a ball game, in addition to a person, a ball or the like becomes a subject. In concerts and entertainment, singers, musicians, performers, moderators, and the like are subjects. Note that the foreground area can be interpreted as silhouette information of the foreground subject, and the foreground image is hereinafter referred to as foreground silhouette information in this embodiment.
背景画像とは、少なくとも前景となる被写体とは異なる領域(背景領域)の画像である。具体的には、背景画像は、撮像画像から前景となる被写体を取り除いた状態の画像である。また、背景は、時系列で同じ方向から撮像を行った場合において静止している、又は静止に近い状態が継続している撮像対象物を指す。このような撮像対象物は、例えば、コンサート等のステージ、競技などのイベントを行うスタジアム、球技で使用するゴールなどの構造物、フィールド、などである。ただし、背景は少なくとも前景となる被写体とは異なる領域であり、撮像対象には、被写体と背景の他に、別の物体等が含まれていてもよい。 A background image is an image of an area (background area) different from at least the foreground subject. Specifically, the background image is an image obtained by removing the foreground subject from the captured image. In addition, the background refers to an object to be imaged that is stationary or continues to be nearly stationary when imaged from the same direction in time series. Such imaging targets are, for example, stages of concerts and the like, stadiums where events such as competitions are held, structures such as goals used in ball games, fields, and the like. However, the background is at least a region different from the foreground subject, and the imaging target may include other objects in addition to the subject and background.
[画像処理システムの構成]
第1実施形態の画像処理システムの構成について図面を参照しながら説明する。図1は、第1実施形態による画像処理システムの装置構成の例、および、画像生成装置1の機能構成の例を示すブロック図である。画像処理システムは、画像生成装置1、撮像システム2、操作装置3、表示装置4を備える。画像生成装置1は、撮像システム2、操作装置3、表示装置4に接続される。画像生成装置1は、撮像システム2から撮像画像又は前景シルエット情報、カメラパラメータを取得し、操作装置3から仮想視点情報を取得する。画像生成装置1は、撮像システム2と操作装置3から得られた情報に基づいて、仮想視点画像を生成する。生成した仮想視点画像は、表示装置4へ出力される。撮像システム2は複数の撮像装置を備える。以下、撮像システム2が備える撮像装置をカメラと称する。撮像システム2の各カメラは、カメラを識別するための識別番号を持つ。撮像システム2は、カメラが撮像した画像から前景シルエット情報を抽出する機能など、撮像以外の機能やその機能を実現するためのハードウェア(回路や装置など)を含んでもよい。操作装置3は、仮想視点画像を生成するための仮想視点情報を指定する。仮想視点情報は、例えば、ジョイスティック、ジョグダイヤル、タッチパネル、キーボード、及びマウスなどにより、ユーザ(操作者)から指定される。なお、仮想視点情報の指定はユーザ指定に限定されない。例えば、被写体を認識するなどして、自動的に仮想視点情報が指定されても構わない。表示装置4は、画像生成装置1から仮想視点画像を取得し、それらをディスプレイなどの表示デバイスを用いて出力する。
[Configuration of image processing system]
The configuration of the image processing system of the first embodiment will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the device configuration of an image processing system and an example of the functional configuration of an
次に、画像生成装置1の機能構成について説明する。画像生成装置1は、情報取得部101、第1形状推定部102、姿勢推定部103、第2形状推定部104、選択部105、画像生成部106を有する。
Next, the functional configuration of the
情報取得部101は、撮像システム2の複数のカメラが撮像した複数の撮像画像を取得する。情報取得部101は、撮像システム2から取得した撮像画像から前景被写体のシルエット情報(前景シルエット情報)を生成する。なお、撮像システム2が前景シルエット情報を生成してもよい。その場合、情報取得部101は、撮像システム2から前景シルエット情報を取得する。さらに、情報取得部101は、撮像システム2のカメラパラメータを取得する。なお、情報取得部101が、撮像システム2のカメラパラメータを算出するようにしてもよい。例えば、情報取得部101は、複数のカメラの撮像画像から対応点を算出し、対応点を各カメラに投影した時の誤差が最小になるように最適化し、各カメラを校正することでカメラパラメータを算出する。カメラの校正には既存のいかなる方法が用いられてもよい。カメラパラメータは、撮像画像に同期して取得されてもよいし、事前準備の段階で取得されてもよいし、必要に応じて撮像画像に非同期で取得されてもよい。さらに、情報取得部101は、撮像領域中の各部分領域について、部分領域を撮像可能なカメラ(以下、有効カメラともいう)の数の情報を取得する。例えば、各カメラの位置、姿勢、画角の情報に基づいて、撮像領域を分割する複数の部分領域の各々について、当該部分領域を撮影することが可能なカメラの数を判定する。なお、部分領域ごとの有効カメラの数は選択部105に提供される。
The
第1形状推定部102は、情報取得部101が取得した前景被写体の前景シルエット情報とカメラパラメータに基づいて3次元形状情報を推定する。前景シルエット情報に基づく3次元形状の推定には、例えば、Visual hull法やPhoto hull法などの既知の方法が用いられ得る。以下、第1形状推定部102により推定される3次元形状情報を、シルエットベースの3次元形状情報と称する。
The first
姿勢推定部103は、情報取得部101で取得した撮像画像(あるいは前景シルエット情報)とカメラパラメータを用いて、前景被写体の姿勢を推定し、姿勢情報を生成する。姿勢情報は、例えば、対象の被写体の骨格を表現するボーンモデルである。姿勢推定には、例えば、深層学習を利用した姿勢推定方法など、既知の方法が用いられ得る。また、姿勢推定部103は、姿勢情報から被写体のトラッキング情報を取得する。姿勢情報に基づく被写体のトラッキングは、例えば、ある被写体のボーンモデルの各節点と、1フレーム前の全ての被写体に対応するボーンモデルにおける各節点との、差分が最小となる被写体を探索することで行われる。
A
ここで、本実施形態による姿勢情報を、図2を用いて説明する。図2は、ある被写体を表現する3次元形状の一例と姿勢情報を示す模式図である。なお、3次元形状及び姿勢情報は、3次元空間上の情報であるが、説明のために図2では2次元の画像に簡略化して示す。被写体201は、3次元形状202(3次元モデル)及び姿勢情報203の元となる被写体である。3次元形状202は、点の集合である点群で表現されている。点群は、3次元空間上の点の位置情報(x,y,z)と、点の大きさを示す情報の集合であり、一つの点は例えば一辺の長さがkである立方体204で表現される。姿勢情報203は、被写体の構造の主要な節点と、節点間を接続する線より結線されるボーンモデルとして表される。
Here, posture information according to this embodiment will be described with reference to FIG. FIG. 2 is a schematic diagram showing an example of a three-dimensional shape representing a subject and posture information. Although the three-dimensional shape and orientation information is information on a three-dimensional space, it is shown in a simplified two-dimensional image in FIG. 2 for explanation. A subject 201 is a subject on which a three-dimensional shape 202 (three-dimensional model) and
図1に戻り、第2形状推定部104は、姿勢推定部103で取得した前景被写体の姿勢情報に基づいて、前景被写体の3次元形状を取得する。なお、姿勢情報に基づく3次元を推定する方法には、例えば、人体の標準テンプレートモデルあるいは事前に3次元スキャンした人体モデルを用意しておき、そのモデルを姿勢情報にフィッティングする方法などが用いられ得る。以下、第2形状推定部104により推定される3次元形状情報を、姿勢ベースの3次元形状情報と称する。
Returning to FIG. 1 , second
ここで、シルエットベースの3次元形状推定と姿勢ベースの3次元形状推定の精度が、被写体に対する有効カメラの数に関してどう変化するかについて、図3を用いて説明する。図3は、ある撮像領域上に存在する被写体を複数のカメラで撮像する様子を表す模式図である。3次元形状の推定対象となる撮像領域301を撮像するように複数のカメラ302(カメラ302a~302f)が配置されている。複数のカメラ302は、撮像領域301の中心を向いている。複数のカメラ302による複数の撮像画像からは、複数の前景シルエット情報303a~303fが得られる。また、図3において、被写体304は撮像領域301の中心に存在し、被写体305は撮像領域301の端に存在している。シルエットベースの3次元形状の推定では、3次元空間上の点を各カメラへ投影し、その点が前景であるかどうかを判定することで3次元形状を得ている。そのため、シルエットベースの3次元形状の推定は、被写体を撮像できるカメラの数が多いほど精度が向上する。図3においてシルエットベースの3次元形状推定を行うと、被写体304は精度良く3次元形状を得られる可能性が高い一方で、被写体305の3次元形状精度は低くなる可能性が高い。一方、姿勢ベースの3次元形状推定は、姿勢情報、つまり対象の骨格を表現するボーンモデルを基に、事前に用意したモデルを変形させることで3次元形状を得る。姿勢情報は比較的少数の視点で得られることが知られており、姿勢情報に基づく3次元形状推定の精度は、被写体を撮像できるカメラの数に依らず、ほぼ一定となる。したがって、図3において姿勢情報に基づく3次元形状推定を行うと、被写体304と被写体305の3次元形状の精度に大きな差は生じない可能性が高い。
Here, how the accuracies of silhouette-based 3D shape estimation and attitude-based 3D shape estimation change with respect to the number of effective cameras for the subject will be described with reference to FIG. FIG. 3 is a schematic diagram showing how a plurality of cameras capture images of a subject existing in a certain imaging area. A plurality of cameras 302 (
次に、シルエットベースの3次元形状推定の精度と姿勢ベースの3次元形状推定の精度が、被写体の状態に応じてどう変化するかを説明する。シルエットベースの3次元形状は、被写体を各カメラで観測したシルエットのままになるように推定されるため、被写体の実際の形状に即した3次元形状を推定できる。一方で、姿勢ベースの3次元形状は、基本となる3次元形状をボーンモデルにフィッティングすることにより推定される。そのため、被写体形状の変化への柔軟な対応が困難であり、例えば、被写体がバットやボールなどを持ったときや帽子の着用などで外観が変化すると、推定精度が低下してしまう可能性がある。 Next, how the accuracy of silhouette-based 3D shape estimation and the accuracy of attitude-based 3D shape estimation change according to the state of the subject will be described. Since the silhouette-based three-dimensional shape is estimated so that the silhouette of the subject observed by each camera remains unchanged, the three-dimensional shape can be estimated in line with the actual shape of the subject. On the other hand, pose-based 3D shape is estimated by fitting the underlying 3D shape to a bone model. For this reason, it is difficult to flexibly respond to changes in the shape of the subject. For example, if the appearance changes when the subject is holding a bat or ball, or wearing a hat, the estimation accuracy may decrease. .
図1に戻り、選択部105は、第1形状推定部102で生成されたシルエットベースの3次元形状情報と、第2形状推定部104で生成された姿勢ベースの3次元形状情報のうちの一方を、仮想視点画像の生成に用いる3次元形状情報として選択する。選択された3次元形状情報は画像生成部106へ出力される。第1実施形態の選択部105は、各被写体が存在する部分領域を撮影可能なカメラ(有効カメラ)の数が一定以上あるかどうかに基づいて、被写体ごとに、シルエットベースと姿勢ベースの2種類の3次元形状のうちのどちらかを選択する。画像生成部106は、情報取得部101で取得された撮像画像およびカメラパラメータと、選択部105で選択された3次元形状と、操作装置3からの仮想視点情報とに基づいて、仮想視点画像を生成する。
Returning to FIG. 1, the
図4は、画像生成装置1のハードウェア構成例を示すブロック図である。画像生成装置1は、CPU401、ROM402、RAM403、補助記憶装置404、表示部405、操作部406、通信I/F407、GPU408、及びバス409を有する。CPU401は、ROM402またはRAM403に格納されているコンピュータプログラムおよびデータを用いて画像生成装置1の全体を制御することで、図1に示す画像生成装置1の各機能を実現する。なお、画像生成装置1がCPU401とは異なる1又は複数の専用のハードウェアを有し、CPU401による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM402は、変更を必要としないプログラムなどを格納する。RAM403は、補助記憶装置404から供給されるプログラムおよびデータ、並びに、通信I/F407を介して外部から供給されるデータなどを一時記憶する。補助記憶装置404は、例えばハードディスクドライブ等で構成され、画像データまたは音声データなどの種々のデータを記憶する。
FIG. 4 is a block diagram showing a hardware configuration example of the
GPU408は、画像処理専用のプロセッサであり、画像データをより多く並列処理することで効率的な演算を行うことができる。このため、前景被写体の3次元形状の推定や、仮想視点画像の生成など、大規模データを処理する場合にはGPU408で処理を行うことが有効である。そこで本実施形態では、第1形状推定部102、第2形状推定部104、画像生成部106などによる処理には、CPU401に加えてGPU408が用いられ得る。但し、このような構成は必須ではなく、第1形状推定部102、第2形状推定部104、画像生成部106の処理がCPU401またはGPU408の一方のみにより実現されても良いことは明らかである。
The
表示部405は、例えば液晶ディスプレイまたはLED等で構成され、ユーザが画像生成装置1を操作するためのGUI(Graphical User Interface)などを表示する。操作部406は、例えばキーボード、マウス、ジョイスティック、またはタッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU401に入力する。CPU401は、表示部405を制御する表示制御部として、及び、操作部406を制御する操作制御部として動作する。
The
通信I/F407は、画像生成装置1の外部の装置との通信に用いられる。例えば、画像生成装置1が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F407に接続される。画像生成装置1が外部の装置と無線通信する機能を有する場合には、通信I/F407はアンテナを備える。バス409は、画像生成装置1の各部をつないで情報を伝達する。
A communication I/
本実施形態では表示部405と操作部406が画像生成装置1の内部に存在するものとするが、これに限定されるものではない。表示部405と操作部406との少なくとも一方が画像生成装置1の外部に別の装置として存在していてもよい。すなわち、図1に示される操作装置3および表示装置4は、画像生成装置1に組み込まれてもよいし、画像生成装置1の外部装置として存在してもよい。
In this embodiment, it is assumed that the
[仮想視点画像の生成処理]
図5に示すフローチャートを用いて、画像生成装置1が行う処理を説明する。
[Generation processing of virtual viewpoint image]
Processing performed by the
ステップS501において、情報取得部101は、撮像システム2から複数のカメラにより撮像された複数の撮像画像と、各カメラのカメラ情報を取得する。カメラ情報は、例えば、複数のカメラの各々のカメラパラメータ(位置、姿勢、画角など)を含む。
In step S<b>501 , the
また、情報取得部101は、撮像システム2から複数の撮像画像(複数視点画像)を取得し、前景シルエット情報を生成する。前景シルエット情報は、被写体を撮像した撮像画像から、試合開始前などに被写体が存在しない時に予め撮像した背景画像との差分を算出する背景差分法などの一般的な手法を用いて生成され得る。ただし、前景シルエット情報を生成する方法は、これに限定されない。例えば、人体を認識するなどの方法を用いて認識された被写体の領域を抽出することにより前景シルエット情報が生成されてもよい。なお、前景シルエット情報が撮像システム2により抽出され、抽出された前景シルエット情報を情報取得部101が取得するようにしてもよい。その場合は、情報取得部101において被写体の前景シルエット情報を生成する処理を省略することができる。また、情報取得部101がテクスチャ情報を含む前景画像を取得する場合は、テクスチャ情報を消すことで前景シルエット情報が生成され得る。この場合、例えば、前景シルエット情報を8ビットデータとして扱うのであれば、被写体が存在する領域の画素値を255、それ以外の領域の画素値を0にすればよい。取得された前景シルエット情報は、第1形状推定部102および姿勢推定部103に出力される。また、情報取得部101は、前景シルエット情報のテクスチャ情報を画像生成部106に出力する。
The
また、上述したように、情報取得部101が、カメラパラメータを算出するようにしてもよい。また、カメラパラメータは撮像画像を取得する度に取得/算出される必要はなく、形状推定する前に少なくとも1度取得/算出されればよい。取得されたカメラパラメータは、第1形状推定部102、姿勢推定部103、画像生成部106に出力される。さらに、情報取得部101は、撮像システム2から撮像領域中の部分領域に関して、部分領域を撮影可能なカメラ(有効カメラ)の数の情報を取得する。情報取得部101が、撮像システム2から取得されたカメラパラメータに基づいて、撮像領域中の各部分領域に関する有効カメラの数を算出するようにしてもよい。なお、撮像領域中の各部分領域に関する有効カメラの数の情報は、撮像画像を取得する度に算出される必要はなく、3次元形状の推定方法を選択する前に少なくとも1度算出されればよい。
Also, as described above, the
ステップS502において、第1形状推定部102は、ステップS501で取得された前景シルエット情報とカメラパラメータを基に、全ての前景被写体のシルエット形状を構成するボクセル集合(シルエットベースの3次元形状情報)を推定する。このようなボクセル集合の推定には、上述のとおり、Visual hull法、或いはPhoto hull法等の周知の方法が用いられ得る。ボクセルのサイズは、予めユーザがGUI(Graphical User Interface)を用いて設定されても良いし、テキストファイルなどを用いて設定されても良い。また、第1形状推定部102は、推定された各点が各カメラから可視であるか否かを表す可視情報を算出する。
In step S502, the first
ステップS503において、姿勢推定部103は、ステップS501で取得した撮像画像又は前景シルエット情報とカメラパラメータを基に、全ての前景被写体に関して姿勢を推定し姿勢情報を生成する。姿勢の推定には、例えば、一般的に普及している深層学習を利用した姿勢推定方法を用いることができる。
In step S503, the
ステップS504において、姿勢推定部103は、被写体のトラッキング情報を取得する。本実施形態では、被写体のトラッキング情報は、現在フレームの注目被写体の姿勢情報と1フレーム前の全ての被写体の姿勢情報との差分が最小となる被写体を探索することで得られる。ここで、姿勢情報とは、例えば、ボーンモデルの各節点の位置を示す情報であり、姿勢情報の差分は、各節点の位置の差の絶対値の総和である。なお、被写体のトラッキングは、前後フレームのボーンモデルの重心との差分により推定されてもよいし、深層学習などを利用した人物認識を利用することで行われてもよい。姿勢推定部103は、トラッキングしているそれぞれの前景被写体に識別情報(被写体ID)を付与し、前景被写体の位置を示す位置情報とともに第1形状推定部102と第2形状推定部104に供給する。第1形状推定部102は、前景被写体の位置情報を用いて、各被写体のシルエットベースの3次元形状情報と被写体IDを対応付ける。
In step S504, the
ステップS505において、第2形状推定部104は、ステップS503で生成された姿勢情報に基づいて、前景被写体の姿勢形状(姿勢ベースの3次元形状情報)を推定する。例えば、事前に被写体を3次元スキャンしてその3次元モデルとしてのボーンモデルを取得しておく。第2形状推定部104は、事前に取得したボーンモデルをステップS503にて推定した姿勢へフィッティングすることで、3次元形状を得る。なお、姿勢情報に基づく3次元形状の推定方法はこれに限られるものではない。例えば、人体の標準テンプレートモデルを、推定された姿勢に基づいて変形することで、3次元形状が推定されてもよい。第2形状推定部104は、姿勢推定部103から供給された前景被写体の位置情報を用いて、各被写体の姿勢ベースの3次元形状情報と被写体IDを対応付ける。
In step S505, the second
ステップS506において、選択部105は、全ての被写体の中から、注目する被写体(以下、注目被写体)を選択する。続くステップS507~S510において、選択部105は、シルエットベースの3次元形状情報と姿勢ベースの3次元形状情報の一方を、当該注目被写体の仮想視点画像の生成に用いられる3次元形状情報として選択する。ステップS507~S509では条件1~条件3の各条件が満たされているか否かが判定され、ステップS510ではそれらの判定結果に従って3次元形状が選択される。
In step S506, the
ステップS507において、選択部105は、注目被写体が存在する部分領域を撮像できるカメラ(有効カメラ)の数が閾値未満か否かを判定する(条件1)。選択部105は、まず、注目被写体の被写体IDにより特定される前景被写体の位置情報に基づいて注目被写体が存在する部分領域を特定する。そして、選択部105は、特定された部分領域に対する有効カメラの数を情報取得部101から取得し、閾値と比較する。なお、ここで用いられる閾値は、シルエット形状の精度をどの程度信頼するかを表す指標である。従って、シルエット形状の精度が何台のカメラから見えていれば十分であると考えるかに基づいて閾値が決定される。例えば、8台以上のカメラから見えている被写体のシルエット形状であれば精度的に十分だとするなら、閾値は8と定められる。
In step S507, the
ステップS508において、選択部105は、1フレーム前において、姿勢情報に基づく3次元形状が注目被写体に対して用いられたか否かを判定する(条件2)。ステップS509において、選択部105は、注目被写体が1フレーム前では仮想視点の画角外に存在していたか否かを判定する(条件3)。仮想視点の画角は、操作装置3から取得される仮想視点情報に基づいて特定され得る。ステップS510において、選択部105は、ステップS507からステップS509における条件1~条件3の判定結果に基づいて、現フレームの注目被写体について使用する3次元形状を選択する。
In step S508, the
ここで、条件1~条件3の判定結果の組み合わせに応じて選択される3次元形状情報の種類(シルエットベース、姿勢ベース)について、図6を用いて説明する。図6は、条件1、条件2、条件3のそれぞれを満たすか否かの判定結果の全ての組み合わせに対して、シルエットベースの3次元形状情報と姿勢ベースの3次元形状情報のいずれが選択されるかを表す。なお、図6において、Yは条件を満たしていることを表し、Nは条件を満たしていないことを表す。したがって、条件1においてYは、有効カメラの数が閾値未満であることを示し、Nはそれ以外であることを示す。条件2においてYは、1フレーム前の注目被写体について選択された3次元形状情報が姿勢ベースの3次元形状情報であったことを示し、Nはそれ以外であることを示す。条件3においてYは、1フレーム前の中億被写体が仮想視点画像の外(仮想視点の画角外)であったことを示し、Nはそれ以外であることを示す。基本的には条件1、つまり注目被写体が存在する領域を撮影する有効カメラの数が閾値未満であるかどうかで、どちらの3次元形状情報を選択するかが決定される。しかし、条件1のみで判断すると、不自然な仮想視点画像が生成される可能性がある。例えば、ある被写体を仮想視点画像で映し続けたとき、有効カメラの台数が閾値以上である領域から閾値未満である領域に注目被写体が移動すると、その瞬間に使用される3次元形状の種類が切り替わる。そのため、仮想視点画像において注目被写体の画像に不自然な変化が生じる。そこで、本実施形態では、このような不自然な変化の発生を防止するために、条件2と条件3を考慮している。
Here, the types of three-dimensional shape information (silhouette-based, posture-based) selected according to the combination of determination results of
仮に、注目被写体の存在する領域を撮像できる有効カメラの数が閾値未満であり、1フレーム前の注目被写体に対してシルエットベースの3次元形状であったとする。このとき、注目被写体に姿勢ベースの3次元形状情報が用いられると、3次元形状の種類の切り替わりが発生することになる。その結果、仮想視点画像において注目被写体の画像に不自然な不連続性が生じる。そこで、条件2により、1フレーム前と現在フレームとで注目被写体の3次元形状の種類が切り替わらないように3次元形状情報を選択することで、注目被写体の画像の連続性が保たれる。しかし、条件1と条件2で判断をすると、1フレーム目に使用した形状を常に用いるようになってしまう。そこで、条件3として、1フレーム前に注目被写体が仮想視点の画角内に存在していたかどうかの判断が用いられる。1フレーム前において注目被写体が仮想視点の画角外にいた場合、注目被写体は仮想視点画像には映っていない。そのため、現在フレームにおいて注目被写体が仮想視点の画角内に存在し、使用すべき3次元形状の種類が1フレーム前と現在フレームとで変わっていても、注目被写体の画像に不自然な不連続性は発生しない。結果、注目被写体の画像に影響を与えずに、姿勢ベースの3次元形状とシルエットベースの3次元形状との間の切り替えが行うことができる。
Suppose that the number of effective cameras capable of capturing an image of the area where the subject of interest exists is less than the threshold, and the subject of interest one frame before has a silhouette-based three-dimensional shape. At this time, if posture-based 3D shape information is used for the subject of interest, the type of 3D shape will be switched. As a result, an unnatural discontinuity occurs in the image of the subject of interest in the virtual viewpoint image. Therefore, the continuity of the image of the target subject is maintained by selecting the three-dimensional shape information so that the type of the three-dimensional shape of the target subject does not change between the previous frame and the current frame according to
したがって、図6のCase3において注目被写体に用いられる3次元形状は姿勢ベースの3次元形状となり、Case4において注目被写体に用いられる3次元形状はシルエットベースの3次元形状となる。図6における他のCaseの説明についても考え方は同じであるため、説明は省略する。
Therefore, the three-dimensional shape used for the subject of interest in
図5に戻り、ステップS511において、全ての被写体が処理されたかどうかを確認する。全ての被写体が処理されていなければ、ステップS506に戻り、次の被写体を注目被写体として仮想視点画像の生成に使用すべき3次元形状を選択する。全ての被写体が処理されたと判定された場合、各前景被写体の3次元形状情報を、画像生成部106に出力する。ステップS512において、画像生成部106は、情報取得部101からのカメラパラメータ、被写体のテクスチャ情報、選択部105からの3次元形状情報、操作装置3からの仮想視点情報に基づき、仮想視点画像を生成する。生成された仮想視点画像は、表示装置4に出力される。
Returning to FIG. 5, in step S511, it is checked whether all subjects have been processed. If all the objects have not been processed, the process returns to step S506 to select the three-dimensional shape to be used for generating the virtual viewpoint image with the next object as the object of interest. When it is determined that all subjects have been processed, the three-dimensional shape information of each foreground subject is output to the
仮想視点画像を生成する方法について説明する。画像生成部106は、前景仮想視点画像(被写体領域の仮想視点画像)を生成する処理と、背景仮想視点画像(被写体領域以外の仮想視点画像)を生成する処理を実行する。そして、生成した背景仮想視点画像に前景仮想視点画像を重ねることで仮想視点画像を生成する。生成した仮想視点画像は表示装置4に送信され、表示装置4に出力される。
A method of generating a virtual viewpoint image will be described. The
仮想視点画像の前景仮想視点画像を生成する方法について説明する。前景仮想視点画像は、ボクセルを座標が(Xw,Yw,Zw)である3次元点と仮定し、ボクセルの色を算出し、色が付いたボクセルを既存のCGレンダリング手法によりレンダリングすることで生成され得る。画像生成部106は、色を算出する前に、まず、撮像システム2のカメラから被写体の3次元形状の表面までの距離を画素値とする距離画像を生成する。次に、画像生成部106は、ボクセルに色を割り当てるために、3次元点(Xw,Yw,Zw)を画角内に含むカメラにおいて、その3次元点をカメラ座標系に一度変換する。カメラ座標系とは、カメラのレンズ中心を原点とし、レンズ平面(Xc、Yc)とレンズ光軸(Zc)から定義される3次元座標系である。そして、画像生成部106は、カメラ座標系に変換された3次元点をカメラ画像座標系に変換し、該ボクセルからカメラまでの距離dとカメラ画像上の座標(Xi,Yi)を算出する。なお、カメラ画像座標系とは、レンズ面から前方にある一定距離離れた平面上に定義され、カメラ座標系のXc軸とYc軸およびカメラ画像座標系のXi軸とYi軸とが、それぞれ平行であるような2次元座標系である。画像生成部106は、距離dと上記距離画像の座標(Xi,Yi)の画素値(=表面までの距離)との差を算出し、算出された差が予め設定した閾値以下であれば、該ボクセルは該カメラから可視であると判定する。可視と判定された場合、画像生成部106は、撮像システム2の撮像画像における座標(Xi,Yi)の画素値を該ボクセルの色とする。該ボクセルが複数のカメラにおいて可視と判定された場合、画像生成部106は、撮像システム2の各カメラからの撮像画像から得られた前景シルエット情報のテクスチャ情報から画素値を取得し、例えば、それらの平均値を該ボクセルの色とする。ただし、色を算出する方法はこれに限定されない。例えば、平均値ではなく、仮想視点から最も近い撮像システム2から取得された撮像画像の画素値を用いるなどの方法を用いても構わない。全ボクセルについて同じ処理を繰り返すことで3次元形状情報を構成する全ボクセルに色を割り当てることができる。ここで、形状を構成する各ボクセルについて、可視か否かの判定の対象となるカメラは撮像システム2を構成する全てのカメラでも良いが、これに限られるものではない。例えば、カメラ情報によりボクセルが可視であることが示されるカメラ、形状推定に用いられるカメラを対象としてもよい。このようにすることで、仮想視点画像を生成する処理時間を短縮できる。
A method of generating a foreground virtual viewpoint image of a virtual viewpoint image will be described. The foreground virtual viewpoint image is generated by assuming a voxel as a three-dimensional point with coordinates (Xw, Yw, Zw), calculating the color of the voxel, and rendering the colored voxel using an existing CG rendering method. can be Before calculating the color, the
次に、仮想視点画像の背景仮想視点画像を生成する方法について説明する。画像生成部106は、背景仮想視点画像を生成するために、競技場などの背景の3次元形状情報を取得する。背景の3次元形状情報は、予め作成され、システム内に保存された競技場や構造物のCGモデルが用いられる。画像生成部106は、CGモデルを構成する各面の法線ベクトルと撮像システム2を構成する各カメラの方向ベクトルを比較し、各面を画角内に収め、最も正対するカメラを抽出する。そして、画像生成部106は、抽出されたカメラによる撮像画像に各面の頂点座標を投影し、各面に貼るテクスチャ画像を生成し、既存のテクスチャマッピング手法でレンダリングすることで、背景仮想視点画像を生成する。このようにして得られた仮想視点画像の背景仮想視点画像上に前景仮想視点画像を重ねることで、仮想視点画像が生成される。
Next, a method for generating a background virtual viewpoint image of a virtual viewpoint image will be described. The
以上のように、第1実施形態によれば、被写体の3次元形状の推定精度の低下を抑制することができ、結果として、仮想視点画像の画質を向上することができる。 As described above, according to the first embodiment, it is possible to suppress deterioration in the accuracy of estimating the three-dimensional shape of the subject, and as a result, it is possible to improve the image quality of the virtual viewpoint image.
<第2実施形態>
第1実施形態では、撮像領域中の各領域に対する有効カメラの数に応じて形状推定の方法(3次元形状情報の種類)を切り替えて仮想視点画像を生成した。第2実施形態では、撮像領域中の各領域における被写体の密集の度合いに応じて形状推定の方法を切り替えながら仮想視点画像を生成する。なお、なお、第2実施形態における画像処理システムの装置構成、画像生成装置の機能構成、画像生成装置のハードウェア構成は、第1実施形態(図1、図4)と同様である。
<Second embodiment>
In the first embodiment, the virtual viewpoint image is generated by switching the shape estimation method (three-dimensional shape information type) according to the number of effective cameras for each region in the imaging region. In the second embodiment, a virtual viewpoint image is generated while switching the shape estimation method according to the degree of density of subjects in each region in the imaging region. Note that the device configuration of the image processing system, the functional configuration of the image generation device, and the hardware configuration of the image generation device in the second embodiment are the same as those in the first embodiment (FIGS. 1 and 4).
シルエットベースの3次元形状の精度と姿勢ベースの3次元形状の精度が、被写体の密集度合いに応じてどう変化するかについて、図8を用いて説明する。図8は、撮像領域中のある小領域において、被写体が複数人密接している様子を表す模式図である。カメラ802は、3次元形状の推定対象となる撮像領域801を撮像する。カメラ802の撮像画像から、前景シルエット情報803が生成される。図8では、撮像領域801のある小領域に複数人の被写体804が密集している様子が示されている。このとき、カメラ802からの撮像画像において被写体と被写体とが重なるため、前景シルエット情報803からは、各被写体のシルエットを正しく取得することができない。そのため、シルエットベースの3次元形状の精度は、被写体が密集するほど低下する。一方、深層学習を利用した姿勢推定方法では、有効カメラの数や被写体の密集度合いにかかわらず、撮像画像から比較的精度よく姿勢情報が得られることが知られている。そのため、被写体が密集していても姿勢ベースの3次元形状は一定の精度を保つことができる。したがって、被写体の密集度合いに応じて3次元形状の種類を選択することで、仮想視点画像の画質低下防止が期待できる。
How the precision of the three-dimensional shape based on the silhouette and the precision of the three-dimensional shape based on the posture change according to the density of subjects will be described with reference to FIG. FIG. 8 is a schematic diagram showing a state in which a plurality of subjects are in close proximity in a certain small area in the imaging area. A
[仮想視点画像の生成処理]
図7に示すフローチャートを用いて、第2実施形態の画像生成装置1が行う処理について説明する。なお、第1実施形態(図5)と同様の処理を行うステップについては、同一のステップ番号を付し、詳細な説明を省略する。第1実施形態とは、条件1として注目被写体が存在する領域における被写体の密集の度合いが用いられる点が異なる。
[Generation processing of virtual viewpoint image]
Processing performed by the
ステップS707において、選択部105は、条件1として、ステップS506において選択した注目被写体の存在する部分領域における被写体の密集度合いが所定の閾値を越える被写体密集領域であるかどうかを判定する。第2実施形態では、撮像領域をn分割した各部分領域について、閾値以上の数のボーンモデルが存在するかどうかで被写体密集領域かどうかが判断される。第1実施形態で説明したように、姿勢推定部103は、全ての前景被写体について、位置情報と被写体IDを付与している。従って、注目被写体が存在する部分領域は、例えば、注目被写体として選択されている前景被写体の位置情報に基づいて特定され得る。また、特定された部分領域に存在するボーンモデルの数は、例えば、全ての前景被写体の位置情報に基づいて、特定された部分領域に存在する前景被写体の数をカウントすることで得られる。なお、撮像領域の分割数は、撮像領域の大きさ(面積または体積)に応じて適切に設定されるべきである。例えば、分割した部分領域の面積が約1m2となるように撮像領域を分割する。また、例被写体密集領域であると判断するボーンモデルの数の閾値を、例えば3とする。なお、撮像領域をn分割した部分領域におけるボーンモデルの数の他に、注目被写体を中心とした所定距離の範囲内に存在するボーンモデルの数により、被写体の密集度合いが判断されてもよい。
In step S707, as
ステップS710において、選択部105は、ステップS707、S508、S509における条件1~3の判定結果に基づいて、注目被写体に対して使用する3次元形状の種類を決定する。なお、ステップS710における判断は、図6における条件1をステップS707の条件(「Y」は被写体密集領域であると判定された場合を示す)と差し替えたものとなる。
In step S710, the
以上のように、第2実施形態によれば、被写体が密集した領域に存在する各被写体に関して3次元形状の推定精度の低下を抑制することができる。その結果として、仮想視点画像の画質を向上できる。 As described above, according to the second embodiment, it is possible to suppress a decrease in accuracy in estimating the three-dimensional shape of each subject existing in an area where the subjects are concentrated. As a result, the image quality of the virtual viewpoint image can be improved.
なお、上記各実施形態では、条件1~条件3の判定結果に基づいて3次元形状情報を選択したが、これに限られるものではない。例えば、条件1のみを用いて3次元形状情報を選択するようにしてもよい。また、例えば、条件1~条件3に代えて、或いは、これらの条件に加えて、第2形状推定部104が推定した3次元形状と、第1形状推定部102が推定した3次元形状との差が大きい場合に、シルエットベースの3次元形状情報が選択されるようにしてもよい。上述したように、標準となるボーンモデルからの形状の乖離が大きい場合に姿勢ベースの3次元形状情報の推定精度が低下する。そこで、選択部105が、第1形状推定部102により推定された3次元形状と、第2形状推定部104により推定された3次元形状との差を定量化し、定量化された差が閾値を越える場合に、シルエットベースの3次元形状を選択する。これにより、注目被写体の形状の標準からの乖離による推定精度の低下を低減できる。なお、差の定量化は、例えば、2つの3次元形状の間のズレの大きさ(体積)を計算することでなされ得る。
In each of the embodiments described above, three-dimensional shape information is selected based on the determination results of
また、上記各実施形態では、直前のフレームの注目被写体が仮想視点の画角の外にある場合に、3次元形状の種類の変更が可能となる(直前のフレームの注目被写体が仮想視点の画角内にある場合は3次元形状情報の種類が維持される)が、これに限られない。例えば、直前のフレームの仮想視点画像において描画された被写体の画像の大きさが所定のサイズ未満である場合に、3次元形状の種類の変更が可能となってもよい。この場合、直前のフレームの仮想視点画像において描画された被写体の画像の大きさが所定のサイズ以上の間は3次元形状情報の種類が維持される。仮想視点画像に描画されている被写体が小さければ、3次元形状情報の種類が変わっても大きな違和感は生じない。或いは、直前のフレームの仮想視点画像に描画された注目被写体が当該注目被写体の全体の所定割合未満であった場合に、3次元形状情報の種類の変更が可能となってもよい。この場合、直前のフレームの仮想視点画像に当該注目被写体の全体の所定割合以上が描画される間は、3次元形状情報の種類が維持されることになる。 Further, in each of the above-described embodiments, when the subject of interest in the previous frame is outside the angle of view of the virtual viewpoint, it is possible to change the type of the three-dimensional shape (the subject of interest in the previous frame is the image of the virtual viewpoint). If it is within the corner, the type of 3D shape information is maintained), but it is not limited to this. For example, it may be possible to change the type of three-dimensional shape when the size of the subject image drawn in the virtual viewpoint image of the previous frame is smaller than a predetermined size. In this case, the type of 3D shape information is maintained as long as the size of the subject image drawn in the virtual viewpoint image of the previous frame is equal to or greater than a predetermined size. If the subject drawn in the virtual viewpoint image is small, a change in the type of three-dimensional shape information does not cause a great sense of discomfort. Alternatively, it may be possible to change the type of three-dimensional shape information when the subject of interest drawn in the virtual viewpoint image of the previous frame is less than a predetermined proportion of the entire subject of interest. In this case, the type of the three-dimensional shape information is maintained while a predetermined ratio or more of the subject of interest is drawn in the virtual viewpoint image of the immediately preceding frame.
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present disclosure provides a program that implements one or more functions of the above-described embodiments to a system or device via a network or storage medium, and one or more processors in a computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various modifications and variations are possible without departing from the spirit and scope of the invention. Accordingly, the claims are appended to make public the scope of the invention.
1:画像生成装置、2:撮像装置、3:操作装置、4:表示装置、101:カメラ情報取得部、102:第1形状推定部、103:姿勢推定部、104:第2形状推定部、105:選択部、106:画像生成部 1: image generation device, 2: imaging device, 3: operation device, 4: display device, 101: camera information acquisition unit, 102: first shape estimation unit, 103: attitude estimation unit, 104: second shape estimation unit, 105: selection unit, 106: image generation unit
Claims (14)
前記複数の撮像画像から推定された前記被写体の姿勢に基づいて前記被写体の3次元形状情報を生成する第2の生成手段と、
前記複数の撮像画像に含まれる各被写体について、前記第1の生成手段により生成された3次元形状情報と前記第2の生成手段により生成された3次元形状情報のうちの一方を、仮想視点画像の生成に用いる3次元形状情報として選択する選択手段と、
前記選択手段により選択された3次元形状情報を用いて、仮想視点画像を生成する画像生成手段と、を有することを特徴とする画像生成装置。 a first generation means for generating three-dimensional shape information of a subject based on silhouette information of the subject obtained from a plurality of captured images of the subject captured by a plurality of imaging devices;
a second generation means for generating three-dimensional shape information of the subject based on the posture of the subject estimated from the plurality of captured images;
one of the three-dimensional shape information generated by the first generation means and the three-dimensional shape information generated by the second generation means for each subject included in the plurality of captured images, and displaying one of the three-dimensional shape information generated by the second generation means as a virtual viewpoint image; a selection means for selecting as three-dimensional shape information used to generate the
and image generating means for generating a virtual viewpoint image using the three-dimensional shape information selected by the selecting means.
前記複数の撮像画像から推定された前記被写体の姿勢に基づいて前記被写体の3次元形状情報を生成する第2の生成工程と、
前記複数の撮像画像に含まれる各被写体について、前記第1の生成工程により生成された3次元形状情報と前記第2の生成工程により生成された3次元形状情報のうちの一方を、仮想視点画像の生成に用いる3次元形状情報として選択する選択工程と、
前記選択工程により選択された3次元形状情報を用いて、仮想視点画像を生成する生成工程と、を有することを特徴とする画像生成方法。 a first generation step of generating three-dimensional shape information of the subject based on silhouette information of the subject obtained from a plurality of captured images of the subject captured by a plurality of imaging devices;
a second generation step of generating three-dimensional shape information of the subject based on the posture of the subject estimated from the plurality of captured images;
one of the three-dimensional shape information generated in the first generating step and the three-dimensional shape information generated in the second generating step for each subject included in the plurality of captured images, and generating a virtual viewpoint image; A selection step of selecting as three-dimensional shape information used to generate the
and a generating step of generating a virtual viewpoint image using the three-dimensional shape information selected in the selecting step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021132065A JP2023026244A (en) | 2021-08-13 | 2021-08-13 | Image generation apparatus, image generation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021132065A JP2023026244A (en) | 2021-08-13 | 2021-08-13 | Image generation apparatus, image generation method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023026244A true JP2023026244A (en) | 2023-02-24 |
Family
ID=85252377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021132065A Pending JP2023026244A (en) | 2021-08-13 | 2021-08-13 | Image generation apparatus, image generation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023026244A (en) |
-
2021
- 2021-08-13 JP JP2021132065A patent/JP2023026244A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6425780B1 (en) | Image processing system, image processing apparatus, image processing method and program | |
JP4804256B2 (en) | Information processing method | |
JP6513169B1 (en) | System, method and program for generating virtual viewpoint image | |
WO2019111817A1 (en) | Generating device, generating method, and program | |
JP2019083402A (en) | Image processing apparatus, image processing system, image processing method, and program | |
US11798233B2 (en) | Generation device, generation method and storage medium for three-dimensional model that remove a portion of the three-dimensional model | |
JP2020052979A (en) | Information processing device and program | |
US11847735B2 (en) | Information processing apparatus, information processing method, and recording medium | |
JP2016071645A (en) | Object three-dimensional model restoration method, device, and program | |
JP7403967B2 (en) | Information processing device, video generation device, image processing system, control method and program thereof | |
JP6555755B2 (en) | Image processing apparatus, image processing method, and image processing program | |
WO2021161878A1 (en) | Image processing device, image processing method, method of generating learned model, and program | |
US11468258B2 (en) | Information processing apparatus, information processing method, and storage medium | |
JP6799468B2 (en) | Image processing equipment, image processing methods and computer programs | |
JP2019103126A (en) | Camera system, camera control device, camera control method, and program | |
JP2022016929A (en) | Information processing device, information processing method, and program | |
TW201928761A (en) | Apparatus and method of image capture | |
JP2023026244A (en) | Image generation apparatus, image generation method, and program | |
WO2018173205A1 (en) | Information processing system, method for controlling same, and program | |
JP7418107B2 (en) | Shape estimation device, shape estimation method and program | |
JP6759300B2 (en) | Information processing equipment, information processing methods and programs | |
WO2022091811A1 (en) | Image processing device, image processing method, and image processing system | |
JP2022094788A (en) | Generating device, generating method, and program | |
WO2024058062A1 (en) | Image generation device, image generation method, and program | |
US20230334767A1 (en) | Image processing apparatus, image processing method, and storage medium |