JP2022124941A - Three dimensional model generation device and method and program - Google Patents

Three dimensional model generation device and method and program Download PDF

Info

Publication number
JP2022124941A
JP2022124941A JP2021022869A JP2021022869A JP2022124941A JP 2022124941 A JP2022124941 A JP 2022124941A JP 2021022869 A JP2021022869 A JP 2021022869A JP 2021022869 A JP2021022869 A JP 2021022869A JP 2022124941 A JP2022124941 A JP 2022124941A
Authority
JP
Japan
Prior art keywords
model
resolution
generation
frame
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021022869A
Other languages
Japanese (ja)
Other versions
JP7465227B2 (en
Inventor
良亮 渡邊
Ryosuke Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2021022869A priority Critical patent/JP7465227B2/en
Publication of JP2022124941A publication Critical patent/JP2022124941A/en
Application granted granted Critical
Publication of JP7465227B2 publication Critical patent/JP7465227B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide a device, a method, and a program that create a 3D model of a subject from images of multiple cameras.SOLUTION: In a 3D model generation device 100, a silhouette image acquisition unit 10 acquires a silhouette image with a frame unit from a multi viewpoint video. A history DB 30 stores history information for model generation including a location where the 3D model is created in the past frame. An extension unit 41 of a computation area determination unit 40 determines a region obtained by extending a model generation region r in the past frame by a prescribed distance or the number of pixels therearound, to be a model computation region R in an input frame. A voxel computation unit 21 creates a 3D voxel model by the visual volume intersection method using the silhouette image that the silhouette image acquisition unit 10 has acquired, in a three dimensional model computation region. A history registration unit 50 registers a 3D model generation history for each frame as history information being referred to when determining the model computation region in the next and subsequent frames, into the history DB 30.SELECTED DRAWING: Figure 1

Description

本発明は、複数台のカメラの映像から被写体の3Dモデルを高速に生成する装置、方法及びプログラムに関する。 The present invention relates to an apparatus, method, and program for generating a 3D model of an object at high speed from images captured by multiple cameras.

複数のカメラ映像から被写体の3Dモデルを生成するアプローチとして、非特許文献1に開示される視体積交差法が広く知られている。視体積交差法は、図14に示すように、各カメラ映像から被写体の領域を抽出した2値のシルエット画像を3D空間に投影し、その積集合となる部分を残すことによって3Dモデルを生成する手法である。 As an approach for generating a 3D model of an object from multiple camera images, the visual volume intersection method disclosed in Non-Patent Document 1 is widely known. In the visual volume intersection method, as shown in Fig. 14, a 3D model is generated by projecting a binary silhouette image obtained by extracting the subject area from each camera image onto a 3D space and leaving the intersection of the images. method.

視体積交差法は、非特許文献2に示されるような自由視点映像技術の中で、3Dモデルの形状を復元する要素技術の一つとして利用されている。自由視点映像技術は複数台のカメラ映像から3D空間を再構成し、カメラがないアングルからでも映像視聴を可能とする技術である。 The visual volume intersection method is used as one of the elemental techniques for restoring the shape of a 3D model in free-viewpoint imaging techniques such as those disclosed in Non-Patent Document 2. Free-viewpoint video technology is a technology that reconstructs 3D space from images from multiple cameras and enables viewing of images from angles where there are no cameras.

視体積交差法で生成される3Dモデルを構成する最小単位はボクセルと呼ばれる。ボクセルは小さな体積の立方体であり、視体積交差法で3Dモデルを生成する際には、3Dモデル制作を行う3D領域全体を前記立方体で埋め尽くしたボクセルグリッドを定義し、ボクセルグリッドごとにモデルが生成されるか否かの判定を実施する。 The smallest unit that constitutes a 3D model generated by the visual volume intersection method is called a voxel. A voxel is a cube with a small volume, and when generating a 3D model by the visual volume intersection method, a voxel grid is defined by filling the entire 3D area where the 3D model is created with the aforementioned cubes, and a model is created for each voxel grid. A determination is made as to whether or not it is generated.

この立方体の一辺の長さ(単位ボクセルサイズ)をMとするとき、単位ボクセルサイズMを大きく設定するほど3D空間は離散的に扱われるため、視体積交差法の処理時間は短くなるが、モデルが離散化されるため形状の粗い3Dモデルが生成される。 Assuming that the length of one side of this cube (unit voxel size) is M, the larger the unit voxel size M is set, the more discrete the 3D space will be treated. is discretized, a rough 3D model is generated.

一方、単位ボクセルサイズMが小さくなるほど精細な形状を復元することが可能となるが、計算単位の増加により処理時間が爆発的に増加する。特に、自由視点映像への応用を考えた場合、スポーツのスタジアムなどの広い空間に対しボクセル生成を行うため、計算時間が増大しやすい傾向にある。 On the other hand, the smaller the unit voxel size M, the finer the shape can be restored, but the increase in the calculation unit increases the processing time explosively. In particular, when considering application to free-viewpoint video, calculation time tends to increase because voxels are generated in a wide space such as a sports stadium.

このような技術課題を解決するために、非特許文献3や特許文献1に視体積交差法の処理を高速化する技術が開示されている。非特許文献3では、視体積交差法で3Dボクセルモデルを生成する際に、初めに図15に示すように、粗い単位ボクセルサイズMbでモデルの生成を行い、ボクセルの連結領域を一つの被写体として3D空間内のバウンディングボックスを得る。 In order to solve such technical problems, Non-Patent Document 3 and Patent Document 1 disclose techniques for speeding up the processing of the visual volume intersection method. In Non-Patent Document 3, when generating a 3D voxel model by the visual volume intersection method, as shown in FIG. Get the bounding box in 3D space.

その後、各3Dバウンディングボックス内を、細かい単位ボクセルサイズMa(<Mb)で視体積交差法を用いてモデル化することで処理時間を大幅に削減することに成功している。 After that, we succeeded in greatly reducing the processing time by modeling the inside of each 3D bounding box using the visual volume intersection method with a small unit voxel size Ma (< Mb).

また、特許文献1にも類似の技術として、3Dモデル制作を行う3D空間に対して粗い3Dボクセルモデルを推定し、粗い3Dボクセルモデルの生成位置に、より細かいボクセルグリッドを配置し、このボクセルグリッドに対して再度視体積交差法を用いて3Dモデルを生成する過程を繰り返すことで、3Dモデル生成を高速化する技術が開示されている。 In addition, as a technique similar to Patent Document 1, a rough 3D voxel model is estimated for the 3D space in which the 3D model is created, a finer voxel grid is placed at the generation position of the rough 3D voxel model, and this voxel grid A technique for speeding up 3D model generation is disclosed by repeating the process of generating a 3D model again using the visual volume intersection method.

特許文献2では、視体積交差法における虚像物体の発生を防止するために、第1段階として視体積交差法で物体位置を推定し物体候補を取得した後に、第2段階として候補に対して被写体であるか虚像物体であるかを判定して虚像物体を削除することで、モデル品質を向上させる2段階に基づくモデル生成手法が開示されている。また、このときに過去フレームの被写体生成位置を参照し、当該参照位置に近い場合に虚像物体と判定されにくくする機構も開示されている。 In Patent Document 2, in order to prevent the generation of a virtual image object in the visual volume intersection method, after estimating the object position by the visual volume intersection method as the first step and acquiring the object candidate, as the second step, the object is estimated for the candidate A model generation method based on two steps is disclosed to improve the model quality by determining whether it is a virtual object or not, and deleting the virtual object. Also disclosed is a mechanism that refers to the object generation position of the past frame at this time, and makes it difficult to determine that the object is a virtual image when the object is close to the reference position.

非特許文献4には、3DモデルをPCクラスタで計算する際に、計算負荷を均衡化することで生成を高速化する発明が開示されている。 Non-Patent Document 4 discloses an invention for speeding up generation by balancing calculation loads when calculating a 3D model in a PC cluster.

特開2018-063635号公報JP 2018-063635 A 特許第5454573号公報Patent No. 5454573 特願2019-153696号Patent application No. 2019-153696

A. Laurentini, "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994).A. Laurentini, "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994). J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), pp. 177-184, (2007).J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), pp. 177-184, (2007). J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019).J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems ( IROS 2019), WeAT17.2, (2019). 岩下 友美, 倉爪 亮, 原 健二, 内田 誠一, 諸岡 健一, 長谷川 勉,"並列Fast Level Set Methodによる実物体の高速な3次元形状復元", ロボティクス・メカトロニクス講演会講演概要集, 2P1-C13, (2006).Tomomi Iwashita, Ryo Kurazume, Kenji Hara, Seiichi Uchida, Kenichi Morooka, Tsutomu Hasegawa, "High-speed reconstruction of 3D shape of real objects by parallel fast level set method", Proceedings of the 2016 Annual Conference on Robotics and Mechatronics, 2P1-C13, (2006). C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252, Vol. 2, (1999).C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252, Vol. 2, (1999). J. Ruttle, M. Manzke and R. Dahyot, "Estimating 3D Scene Flow from Multiple 2D Optical Flows," 2009 13th International Machine Vision and Image Processing Conference, Dublin, 2009, pp. 1-6, doi: 10.1109/IMVIP.2009.8.J. Ruttle, M. Manzke and R. Dahyot, "Estimating 3D Scene Flow from Multiple 2D Optical Flows," 2009 13th International Machine Vision and Image Processing Conference, Dublin, 2009, pp. 1-6, doi: 10.1109/IMVIP. 2009.8. Arun, Somani; Thomas S. Huang; Steven D. Blostein, "Least-square fitting of two 3-D point sets". IEEE Pattern Analysis and Machine Intelligence, (1987).Arun, Somani; Thomas S. Huang; Steven D. Blostein, "Least-square fitting of two 3-D point sets". IEEE Pattern Analysis and Machine Intelligence, (1987).

非特許文献3や特許文献1のような高速化手法は有効であるが、非特許文献3の中で示される実験においては、最大でもバレーボールのコートサイズでの3Dモデル生成のリアルタイム性しか示されておらず、例えばサッカーのスタジアムのような広域空間で品質を保ったままリアルタイム計算が可能かどうかについては検証されていない。 Although speed-up methods such as non-patent document 3 and patent document 1 are effective, the experiments shown in non-patent document 3 show only real-time 3D model generation with a volleyball court size at the maximum. For example, it has not been verified whether real-time calculation is possible while maintaining quality in a wide area such as a soccer stadium.

自由視点映像技術の用途を鑑みると、スポーツのスタジアムを自由視点化し、任意のカメラワークのリプレイ動画を生成し視聴することや、各ユーザの操作に応じてユーザが視聴したい視点からインタラクティブに自由視点映像の視聴を楽しむというユースケースが考えられる。すなわち、サッカーや野球のスタジアム全体のような広域空間における3Dモデルのリアルタイム生成が必須となる。 Considering the application of free-viewpoint video technology, it is possible to convert sports stadiums into free-viewpoints, generate and view replay videos of arbitrary camerawork, and interactively view free-viewpoints from the viewpoint that the user wants to view according to the operation of each user. A use case of enjoying watching video is conceivable. In other words, real-time generation of 3D models in wide-area spaces such as soccer and baseball stadiums is essential.

単位ボクセルサイズMaやMbの値を大きくすることによりリアルタイム性を担保できる可能性はあるが、MaやMbを大きくすることは品質の劣化を招いてしまう。 By increasing the unit voxel size Ma and Mb, there is a possibility that real-time performance can be ensured, but increasing Ma and Mb invites deterioration in quality.

また、計算処理能力の高いサーバを用いる場合、サーバのコスト(費用)が増大し、実用を目指す上での妨げとなる。また、スタジアム全体を3Dモデル化するようなユースケースにおいては、単位ボクセルサイズMaで生成する細かいボクセルの生成時間だけでなく、単位ボクセルサイズMbで生成される粗いボクセルの生成時間に関しても、領域が広いために増大する傾向にあった。 In addition, when a server with high computational processing ability is used, the cost (expense) of the server increases, which hinders practical use. In addition, in a use case such as 3D modeling of the entire stadium, the area is not only the generation time of fine voxels generated with the unit voxel size Ma, but also the generation time of coarse voxels generated with the unit voxel size Mb. It tended to increase due to its large size.

また、非特許文献4のようなPCクラスタを用いた高速化手法は高速化を行う上で有効ではあるが、多数のPCを用意する必要があることからコストが増大する課題があった。 In addition, although the speed-up method using a PC cluster as in Non-Patent Document 4 is effective in speeding up, there is a problem of increased cost due to the need to prepare a large number of PCs.

本発明の目的は、上記の技術課題を解決し、過去のフレームの3Dモデルの生成位置を基に、連続するフレーム間で対象物体の移動方向や移動量を推定して入力フレームでの3Dモデルの生成位置を決定し、3Dモデル計算を行うべき領域を絞り込むことで3Dモデル生成を高速化することにある。 The object of the present invention is to solve the above technical problems, and to estimate the movement direction and amount of movement of the target object between consecutive frames based on the generated positions of the 3D models of the past frames, and generate the 3D model in the input frame. 3D model generation is speeded up by determining the generation position and narrowing down the area where 3D model calculation should be performed.

上記の目的を達成するために、本発明は、視点の異なる複数のカメラで撮影した動画像からフレーム単位で抽出したシルエット画像に基づいて被写体の3Dモデルを生成する3Dモデル生成装置において、以下の構成を具備した点に特徴がある。 In order to achieve the above object, the present invention provides a 3D model generation device for generating a 3D model of a subject based on silhouette images extracted in units of frames from moving images captured by a plurality of cameras with different viewpoints, wherein: It is characterized by having a structure.

(1) 過去フレームにおける各3Dモデルの生成位置を含むモデル生成履歴を記憶する手段と、モデル生成履歴に基づいて入力フレームにおけるモデル計算領域を決定する手段と、モデル計算領域を対象に3Dモデル計算を行って3Dモデルを生成する手段とを具備した。 (1) Means for storing a model generation history including the generation position of each 3D model in the past frame, means for determining a model calculation area in an input frame based on the model generation history, and 3D model calculation for the model calculation area and generating a 3D model.

(2) 入力フレームをキーフレームまたは非キーフレームに分類する手段を具備し、前記3Dモデルを生成する手段が、相対的に高解像度の3Dモデルを生成する手段および低解像度の3Dモデルを生成する手段を具備し、キーフレームでは、シルエット画像に基づいて低解像度の3Dモデルを生成した領域に高解像度の3Dモデルを生成し、非キーフレームでは、モデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成するようにした。 (2) comprising means for classifying input frames into keyframes or non-keyframes, wherein said means for generating a 3D model comprises means for generating a relatively high resolution 3D model and generating a relatively low resolution 3D model; In the key frame, a high resolution 3D model is generated in the area where the low resolution 3D model was generated based on the silhouette image, and in the non-key frame, the 3D model calculation is performed for the model calculation area. Generates high resolution 3D models.

(3) 非キーフレームでは、モデル計算領域を対象に3Dモデル計算を行って生成した低解像度の3Dモデルの生成領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成するようにした。 (3) In non-keyframes, a high-resolution 3D model is generated by performing 3D model calculation on the generation area of the low-resolution 3D model generated by performing 3D model calculation on the model calculation area. .

(4) モデル計算領域を決定する手段は、過去フレームにおける3Dモデル生成位置を拡張した領域をモデル計算領域に決定するようにした。 (4) As for the means for determining the model calculation area, the area obtained by extending the 3D model generation position in the past frame is determined as the model calculation area.

(5) 各3Dモデルをクラスに分類する手段を具備し、モデル計算領域を決定する手段は、過去フレームにおける3Dモデル生成位置をクラスに応じた拡張量で拡張するようにした。 (5) A means for classifying each 3D model into classes is provided, and a means for determining the model calculation area expands the 3D model generation position in the past frame by an expansion amount corresponding to the class.

(6) 分類する手段は、各3Dモデルをその被写体に想定される移動速度に基づいて各クラスに分類し、モデル計算領域を決定する手段は、移動速度のより速い被写体のクラスほど拡張量をより大きくするようにした。 (6) The classification means classifies each 3D model into each class based on the moving speed assumed for the subject, and the means for determining the model calculation area is such that the faster the moving speed of the subject class, the larger the expansion amount. made it bigger.

(7) 複数の過去フレームにおける各3Dモデルの生成履歴に基づいて各3Dモデルの速度場を推定する手段を具備し、モデル計算領域を決定する手段は、3Dモデルごとにその速度場に基づいてモデル計算領域を決定するようにした。 (7) means for estimating the velocity field of each 3D model based on the generation history of each 3D model in a plurality of past frames; The model calculation area is determined.

(8) 前記非キーフレームにおいて低解像度の3Dモデルを生成する際に用いるシルエット画像数が前記キーフレームにおいて低解像度の3Dモデルを生成する際に用いるシルエット画像数よりも少なくした。 (8) The number of silhouette images used to generate the low-resolution 3D model in the non-keyframes is smaller than the number of silhouette images used to generate the low-resolution 3D model in the keyframes.

本発明によれば以下のような効果が達成される。 According to the present invention, the following effects are achieved.

(1) 過去フレームにおける各3Dモデルの生成位置に基づいて入力フレームにおけるモデル計算領域を決定し、当該モデル計算領域のみを対象に3Dモデル計算を行うので、3Dモデルを高速に生成できるようになる。 (1) The model calculation area in the input frame is determined based on the generation position of each 3D model in the past frame, and the 3D model calculation is performed only for that model calculation area, so the 3D model can be generated at high speed. .

(2) キーフレームでは、シルエット画像に基づいて低解像度の3Dモデルを生成した領域のみに高解像度の3Dモデルを生成する一方、非キーフレームでは、モデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成するので、特に非キーフレームにおける3Dモデル生成を、その品質を維持しながら高速化できるようになる。 (2) In keyframes, high-resolution 3D models are generated only in areas where low-resolution 3D models were generated based on silhouette images, while in non-keyframes, 3D model calculations are performed for model calculation areas. It produces high-resolution 3D models, which allows for faster 3D model generation, especially in non-keyframes, while maintaining quality.

(3) 非キーフレームでは、モデル計算領域を対象に3Dモデル計算を行って生成した低解像度3Dモデルの生成領域を対象に3Dモデル計算を行って高解像度3Dモデルを生成するので、非キーフレームにおけるモデル計算領域を更に正確に決定できる。 (3) In non-keyframes, a high-resolution 3D model is generated by performing 3D model calculation on the low-resolution 3D model generation area generated by performing 3D model calculation on the model calculation area. can more accurately determine the model computational domain in

(4) 過去フレームにおける3Dモデル生成位置を拡張してモデル計算領域に決定するので、処理負荷の軽い計算でモデル計算領域を決定できるようになり、3Dモデルを高速に生成できるようになる。 (4) Since the model calculation area is determined by extending the 3D model generation position in the past frame, the model calculation area can be determined by calculation with a light processing load, and the 3D model can be generated at high speed.

(5) 各3Dモデルをクラスに分類し、過去フレームにおける3Dモデル生成位置をクラスに応じた拡張量で拡張するので、3Dモデルごとにモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 (5) Each 3D model is classified into classes, and the 3D model generation position in the past frame is expanded by the expansion amount according to the class, so that the model calculation area can be determined in an appropriate range without excess or deficiency for each 3D model. become.

(6) 各3Dモデルをその被写体に想定される移動速度に基づいて各クラスに分類し、移動速度のより速い被写体のクラスほど拡張量をより大きくするので、3Dモデルの移動速度に差がある場合でもモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 (6) Each 3D model is classified into each class based on the moving speed assumed for the subject, and the class of the subject with faster moving speed has a larger expansion amount, so there is a difference in the moving speed of the 3D model. Even in such a case, the model calculation area can be determined in an appropriate range without excess or deficiency.

(7) 複数の過去フレームにおける各3Dモデルの生成履歴に基づいて各3Dモデルの速度場を推定し、3Dモデルごとにその速度場に基づいてモデル計算領域を決定するので、3Dモデルの移動速度や移動方向に差がある場合でもモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 (7) The velocity field of each 3D model is estimated based on the generation history of each 3D model in multiple past frames, and the model calculation area is determined based on the velocity field for each 3D model. Even if there is a difference in the movement direction, the model calculation area can be determined in an appropriate range without excess or deficiency.

(8) 非キーフレームにおいて低解像度の3Dモデルを生成する際に用いるシルエット画像数を、キーフレームにおいて低解像度の3Dモデルを生成する際に用いるシルエット画像数よりも少なくしたので、非キーフレームにおける処理負荷の増加を最小限に抑えながらモデル計算領域を更に正確に決定できるようになる。 (8) Since the number of silhouette images used to generate low-resolution 3D models in non-keyframes is less than the number of silhouette images used to generate low-resolution 3D models in keyframes, It becomes possible to more accurately determine the model calculation region while minimizing the increase in processing load.

本発明の第1実施形態に係る3Dモデル生成装置の構成を示した機能ブロック図である。1 is a functional block diagram showing the configuration of a 3D model generation device according to a first embodiment of the present invention; FIG. 過去フレームにおける3Dモデルの生成領域を拡張して3Dモデル計算領域を決定する例を示した図である。FIG. 10 is a diagram showing an example of determining a 3D model calculation area by expanding a 3D model generation area in a past frame; 本発明の第2実施形態に係る3Dモデル生成装置の構成を示した機能ブロック図である。FIG. 4 is a functional block diagram showing the configuration of a 3D model generation device according to a second embodiment of the present invention; 3Dモデルごとに3Dバウンディングボックスに分割する例を示した図である。FIG. 4 is a diagram showing an example of dividing each 3D model into 3D bounding boxes; 3Dモデルのクラスに応じて拡張量を変化させる例を示した図である。FIG. 10 is a diagram showing an example of changing the expansion amount according to the class of the 3D model; 本発明の第3実施形態に係る3Dモデル生成装置の構成を示した機能ブロック図である。FIG. 10 is a functional block diagram showing the configuration of a 3D model generation device according to a third embodiment of the present invention; 速度場に基づいてモデル計算領域を決定する例を示した図である。It is the figure which showed the example which determines a model calculation area|region based on a velocity field. 本発明の第4実施形態に係る3Dモデル生成装置の構成を示した機能ブロック図である。FIG. 10 is a functional block diagram showing the configuration of a 3D model generation device according to a fourth embodiment of the present invention; フレームに応じて3Dモデルの生成方法を異ならせる例を示した図(その1)である。FIG. 10 is a diagram (part 1) showing an example in which a 3D model generation method is varied according to frames; フレームに応じて3Dモデルの生成方法を異ならせる例を示した図(その2)である。FIG. 10 is a diagram (part 2) showing an example in which a 3D model generation method is varied according to frames; 非キーフレームにおける各3Dモデルのモデル計算領域をクラスに応じた拡張量に基づいて決定する例を示した図である。FIG. 10 is a diagram showing an example of determining the model calculation area of each 3D model in non-keyframes based on the expansion amount according to the class; 非キーフレームにおける各3Dモデルのモデル計算領域を速度場に基づいて決定する例を示した図である。FIG. 10 is a diagram showing an example of determining a model calculation region of each 3D model in non-keyframes based on a velocity field; 本発明の第5実施形態に係る3Dモデル生成装置の構成を示した機能ブロック図である。FIG. 10 is a functional block diagram showing the configuration of a 3D model generation device according to a fifth embodiment of the present invention; 視体積交差法による3Dモデルの生成方法を示した図である。FIG. 4 is a diagram showing a method of generating a 3D model by the visual volume intersection method; 3Dモデルを2段階で生成する例を示した図である。FIG. 4 is a diagram showing an example of generating a 3D model in two stages;

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る3Dモデル生成装置100の主要部の構成を示した機能ブロック図であり、シルエット画像取得部10、3Dモデル生成部20、履歴データベース (DB) 30、計算領域決定部40および履歴登録部50を主要な構成としている。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a functional block diagram showing the configuration of the main parts of a 3D model generation device 100 according to the first embodiment of the present invention. , a computational domain determination unit 40 and a history registration unit 50 are main components.

このような3Dモデル生成装置100は、汎用の少なくとも1台のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。本実施形態では、スポーツシーンをN台のカメラCam1~CamNで撮影し、被写体ごとに3Dモデルを生成する場合を例にして説明する。 Such a 3D model generation device 100 can be configured by installing an application (program) that implements each function in at least one general-purpose computer or server. Alternatively, a part of the application can be configured as a dedicated machine or a single-function machine that is made into hardware or software. In this embodiment, an example will be described in which a 3D model is generated for each subject by photographing a sports scene with N cameras Cam1 to CamN.

シルエット画像取得部10は、複数の被写体を異なる視点で撮影した複数のカメラ映像(多視点映像)から、視体積交差法に用いるシルエット画像をフレーム単位でそれぞれ取得する。視体積交差法で3Dモデルを形成するためには2台以上のカメラからシルエット画像を取得することが望ましい。シルエット画像は、3Dモデルを生成する被写体領域を白、それ以外の領域を黒で表した2値のマスク画像形式で取得される。このようなシルエット画像は、非特許文献5に開示される背景差分法等の従来技術を用いて計算できる。 The silhouette image acquisition unit 10 acquires silhouette images used for the visual volume intersection method in units of frames from a plurality of camera images (multi-viewpoint images) obtained by photographing a plurality of subjects from different viewpoints. It is desirable to acquire silhouette images from two or more cameras in order to form a 3D model by the visual volume intersection method. The silhouette image is acquired in the form of a binary mask image in which the subject area for which the 3D model is to be generated is represented in white, and the other areas are represented in black. Such a silhouette image can be calculated using a conventional technique such as the background subtraction method disclosed in Non-Patent Document 5.

履歴DB30は、今回の入力フレームよりも前の過去フレームにおいて3Dモデルが生成された位置の情報を含むモデル生成履歴を記憶する。計算領域決定部40は、過去フレームのモデル生成履歴に基づいて入力フレームにおけるモデル計算領域を決定する。 The history DB 30 stores a model generation history including information on positions at which 3D models were generated in past frames before the current input frame. The computational region determination unit 40 determines the model computational region in the input frame based on the model generation history of past frames.

本実施形態では計算領域決定部40が拡張部41を具備し、図2に一例を示したように、例えば一つ前の過去フレームにおけるモデル生成領域rを周囲に所定の距離またはボクセル数(以下、拡張量Pで総称する)だけ拡張した領域を入力フレームにおけるモデル計算領域Rに決定する。なお、図2は便宜的に2次元で記載されているが、実際は3次元空間において拡張量Pに基づく拡張が成される。 In this embodiment, the computational region determination unit 40 includes an expansion unit 41, and as shown in FIG. 2, for example, a predetermined distance or number of voxels (hereinafter referred to as , collectively referred to as an expansion amount P) is determined as the model calculation region R in the input frame. Although FIG. 2 is illustrated in two dimensions for the sake of convenience, expansion based on the expansion amount P is actually performed in a three-dimensional space.

3Dモデル生成部20において、ボクセルモデル計算部21は、前記計算領域決定部40が決定した3次元のモデル計算領域に、要求品質を満たす3Dモデル生成に好適な単位ボクセルサイズMaのボクセルグリッドを配置し、シルエット画像取得部10が取得したシルエット画像を用いた視体積交差法により高解像度の3Dボクセルモデルを生成する。 In the 3D model generation unit 20, the voxel model calculation unit 21 arranges a voxel grid with a unit voxel size Ma suitable for generating a 3D model that satisfies the required quality in the three-dimensional model calculation area determined by the calculation area determination unit 40. Then, a high-resolution 3D voxel model is generated by the visual volume intersection method using the silhouette image acquired by the silhouette image acquisition unit 10 .

なお、ボクセルモデルは多数のボクセルで形成されるボリュームデータであるが、一般的に3Dモデルデータはポリゴンモデルとして扱う方が都合の良いケースも多い。そこで、本実施形態では3Dモデル生成部20に3Dモデル出力部22を設け、マーチングキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換し、ポリゴンモデルとして3Dモデルを出力するようにしている。 Although a voxel model is volume data formed by a large number of voxels, it is generally more convenient to handle 3D model data as a polygon model in many cases. Therefore, in the present embodiment, a 3D model output unit 22 is provided in the 3D model generation unit 20, and a voxel model is converted into a polygon model using a technique for converting a voxel model into a polygon model, such as the marching cube method. I am trying to output the model.

履歴登録部50は、フレームごとに得られる3Dモデル生成履歴を、次フレーム以降でモデル計算領域を決定する際に参照する履歴情報として前記履歴DB50に登録する。 The history registration unit 50 registers the 3D model generation history obtained for each frame in the history DB 50 as history information to be referred to when determining the model calculation area in subsequent frames.

本実施形態によれば、過去フレームにおける各3Dモデルの生成位置に基づいて入力フレームにおけるモデル計算領域を決定し、当該モデル計算領域のみを対象に3Dモデル計算を行うので、3Dモデルを高速に生成できるようになる。 According to this embodiment, the model calculation area in the input frame is determined based on the generation position of each 3D model in the past frame, and the 3D model calculation is performed only for the model calculation area, so the 3D model is generated at high speed. become able to.

また、本実施形態によれば過去フレームにおける3Dモデル生成位置を拡張してモデル計算領域に決定するので、処理負荷の軽い計算でモデル計算領域を決定できるようになり、3Dモデルを更に高速に生成できるようになる。 In addition, according to this embodiment, the 3D model generation position in the past frame is expanded to determine the model calculation area, so the model calculation area can be determined by calculation with a light processing load, and the 3D model can be generated even faster. become able to.

図3は、本発明の第2実施形態の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。 FIG. 3 is a functional block diagram showing the configuration of the second embodiment of the present invention, and since the same reference numerals as above denote the same or equivalent parts, description thereof will be omitted.

本実施形態では前記履歴登録部50が、シルエット画像に基づいて生成した3Dモデルを、例えばその一般的な移動速度に基づいてクラス分けする分類部51を具備し、拡張部41が3Dモデルごとにそのクラス分類の結果に基づいて、モデル生成領域rを拡張してモデル計算領域Rを決定する際の拡張量Pを適応的に決定するようにした点に特徴がある。 In the present embodiment, the history registration unit 50 includes a classification unit 51 that classifies the 3D model generated based on the silhouette image into classes based on, for example, the general movement speed thereof, and the expansion unit 41 classifies the 3D model for each 3D model It is characterized in that the expansion amount P when determining the model calculation region R by expanding the model generation region r is adaptively determined based on the result of the class classification.

前記分類部51は、フレームごとに生成した各3Dモデルを「人物」や「ボール」などのクラスに分類し、その分類結果を各3Dモデルの生成位置と共にモデル生成履歴として履歴DB30に登録する。クラス分類の処理を行うためには3Dモデルが被写体ごとに区別されて入力されなければならないが、これは入力される3Dモデルが連結している場合に連結領域を一つの塊として得ることで行われる。あるいは図4に示すように、各3Dモデルを内包する3Dバウンディングボックスを根拠にクラス分類を行っても良い。 The classification unit 51 classifies each 3D model generated for each frame into classes such as “person” and “ball”, and registers the classification result together with the generation position of each 3D model in the history DB 30 as a model generation history. In order to perform class classification processing, 3D models must be input separately for each subject. will be Alternatively, as shown in FIG. 4, class classification may be performed based on the 3D bounding box that contains each 3D model.

クラス分類には、(1) 3Dモデルのサイズに基づくクラス分類、(2) 3Dモデルの位置に基づくクラス分類、(3) 深層学習等に基づくクラス分類などを適用できる。 For class classification, (1) class classification based on the size of the 3D model, (2) class classification based on the position of the 3D model, (3) class classification based on deep learning, etc. can be applied.

(1) 3Dモデルのサイズに基づくクラス分類
各被写体をその3Dボクセルモデルのサイズや形状(全体の大きさ、縦、横、高さ)に基づいて分類できる。例えば、被写体をスポーツシーンでよく見られる「人物」または「ボール」に区別する場合、ボクセルモデルが所定の閾値よりも大きければ「人物」、小さければ「ボール」に分類できる。あるいは3Dバウンディングボックスの形状が立方体であれば「ボール」、直方体であれば「人物」に分類することもできる。
(1) Classification based on 3D model size Each object can be classified based on the size and shape (overall size, length, width, height) of its 3D voxel model. For example, when classifying subjects into "person" and "ball", which are often seen in sports scenes, if the voxel model is larger than a predetermined threshold, it can be classified as "person", and if it is smaller, it can be classified as "ball". Alternatively, if the shape of the 3D bounding box is a cube, it can be classified as a "ball", and if it is a rectangular parallelepiped, it can be classified as a "person".

(2) 3Dモデルの位置に基づくクラス分類
例えば、高さが10mを超える位置に形成される3Dモデルはボールに分類し、人物や用具である確率を小さく見積もることができる。
(2) Classification based on the position of the 3D model For example, a 3D model formed at a position exceeding 10m in height can be classified as a ball, and the probability of being a person or equipment can be underestimated.

(3) 深層学習等に基づくクラス分類
3Dモデルの形状が被写体ごとに特徴的であることを利用して、予めモデル形状と被写体との関係を深層学習等により学習して予測モデルを構築し、各3Dモデルを予測モデルに適用することでクラス分類を行うことができる。
(3) Classification based on deep learning, etc.
Utilizing the fact that the shape of the 3D model is characteristic for each subject, the relationship between the model shape and the subject is learned in advance by deep learning, etc., and a prediction model is constructed, and each 3D model is applied to the prediction model. Classification can be performed with

なお、上記の各分類手法は単独で用いても良いし、複数の分類手法を適宜に組み合わせるようにしても良い。 Each of the above classification methods may be used alone, or a plurality of classification methods may be combined as appropriate.

図5は、3Dモデルのクラスに応じて前記拡張部41がモデル計算領域Rを決定する際に拡張量Pを適応的に決定する例を模式的に示した図である。本実施形態では3Dモデルが生成されることに、前記分類部51が各3Dモデルをそれぞれ「人物」または「ボール」に分類する。一般的に、「ボール」の移動速度は「人物」の移動速度よりも大きいので、拡張部41は、ボールのモデル計算領域を決定する際の拡張量を、人物のモデル計算領域を決定する際の拡張量よりも大きくしている。 FIG. 5 is a diagram schematically showing an example of adaptively determining the extension amount P when the extension unit 41 determines the model calculation region R according to the class of the 3D model. In this embodiment, when the 3D models are generated, the classification unit 51 classifies each 3D model into "person" or "ball". In general, the moving speed of the "ball" is higher than the moving speed of the "person". is larger than the expansion amount of .

本実施形態によれば、各3Dモデルをクラスに分類し、過去フレームにおける3Dモデル生成位置をクラスに応じた拡張量で拡張するので、3Dモデルごとにモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 According to this embodiment, each 3D model is classified into classes, and the 3D model generation position in the past frame is expanded by the expansion amount according to the class. to be determined.

また、本実施形態によれば、各3Dモデルをその被写体に想定される移動速度に基づいて各クラスに分類し、移動速度のより速い被写体のクラスほど拡張量をより大きくするので、3Dモデルの移動速度に差がある場合でもモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 Further, according to the present embodiment, each 3D model is classified into each class based on the moving speed assumed for the subject, and the class of the subject with faster moving speed has a larger amount of expansion, so that the 3D model Even if there is a difference in movement speed, the model calculation area can be determined in an appropriate range that is neither excessive nor deficient.

図6は、本発明の第3実施形態の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。 FIG. 6 is a functional block diagram showing the configuration of the third embodiment of the present invention, and since the same reference numerals as above denote the same or equivalent parts, description thereof will be omitted.

本実施形態では計算領域決定部40に速度場推定部42を設け、図7に示したように、過去フレーム間での3Dモデル生成位置の変化に基づいて3Dモデルごとに移動場を推定し、この推定結果に基づいて入力フレームにおけるモデル計算領域を決定するようにした点に特徴がある。 In this embodiment, a velocity field estimating unit 42 is provided in the computational region determining unit 40, and as shown in FIG. 7, the moving field is estimated for each 3D model based on the change in the 3D model generation position between past frames, It is characterized in that the model calculation region in the input frame is determined based on this estimation result.

速度場推定部42は、過去のフレーム間での各3Dモデルの生成位置の変化に基づいて自由視点制作対象となる3D空間中の各ボクセルグリッドの3D速度場(vx, vy, vz)を推定する。3D速度場の推定には、例えば非特許文献6に開示されるように、各カメラの2Dオプティカルフローから3Dのオプティカルフローを再構成する技術を用いることができる。 The velocity field estimation unit 42 calculates the 3D velocity field (v x , v y , v z ). For estimating the 3D velocity field, a technique for reconstructing a 3D optical flow from the 2D optical flow of each camera, as disclosed in Non-Patent Document 6, for example, can be used.

また、過去のフレーム間のボクセル形成位置を点と見立てた3D点群データを形成し、被写体の3Dモデルごとに、非特許文献7が開示するICP (Iterative Closest Point) 法に代表される点群の位置合わせ手法を用い、位置合わせがなされた位置へと移動するものとして、(移動後の位置)-(移動前の位置)で当該ボクセルの速度場を算出するようにしても良い。 In addition, 3D point cloud data is formed by assuming the voxel formation positions between the past frames as points, and point cloud data represented by the ICP (Iterative Closest Point) method disclosed in Non-Patent Document 7 is generated for each 3D model of the subject. Assuming that the voxel moves to the aligned position using the alignment method of (1), the velocity field of the voxel may be calculated by (position after movement) - (position before movement).

あるいは、前後するフレーム間で各3Dモデルの3Dバウンディングボックスを、例えば最も近い位置にある3Dバウンディングボックス同士を対応付けることで追跡し、前フレームの各3Dバウンディングボックスの重心位置から、後フレームの対応する各3Dバウンディングボックスの重心位置への移動ベクトルを、後フレームの3Dバウンディングボックス内の全てのボクセルの速度場と推定するようにしても良い。 Alternatively, the 3D bounding boxes of each 3D model are tracked between the frames before and after, for example, by associating the closest 3D bounding boxes, and from the center of gravity of each 3D bounding box in the previous frame, the corresponding The movement vector to the centroid position of each 3D bounding box may be estimated as the velocity field of all voxels within the 3D bounding box of the subsequent frame.

前記拡張部41は、速度場の大きい3Dモデルほど、そのモデル計算領域を決定する際の拡張量Pを大きくする。 The expansion unit 41 increases the expansion amount P when determining the model calculation area for a 3D model with a larger velocity field.

このとき、第2実施形態と同様に、履歴登録部50に分類部51を設けて各3Dモデルまたはその3Dバウンディングボックスを「人物」や「ボール」などにクラス分けし、前後するフレーム間で同一クラスかつ最も近い位置にある3Dモデルまたはその3Dバウンディングボックス同士を対応付けることで、クラスごとに異なる速度場を算出するようにしても良い。 At this time, as in the second embodiment, the history registration unit 50 is provided with the classification unit 51 to classify each 3D model or its 3D bounding box into classes such as "person" and "ball", and A different velocity field may be calculated for each class by associating the closest 3D model or its 3D bounding box in the class.

本実施形態によれば、複数の過去フレームにおける各3Dモデルの生成履歴に基づいて各3Dモデルの速度場を推定し、3Dモデルごとにその速度場に基づいてモデル計算領域を決定するので、3Dモデルの移動速度や移動方向に差がある場合でもモデル計算領域を過不足の無い適切な範囲に決定できるようになる。 According to this embodiment, the velocity field of each 3D model is estimated based on the generation history of each 3D model in a plurality of past frames, and the model calculation area is determined for each 3D model based on the velocity field. Even if there is a difference in the movement speed and movement direction of the model, the model calculation area can be determined in an appropriate range that is neither excessive nor deficient.

図8は、本発明の第4実施形態の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。 FIG. 8 is a functional block diagram showing the configuration of the fourth embodiment of the present invention, and since the same reference numerals as above denote the same or equivalent parts, description thereof will be omitted.

本実施形態では、3Dモデル生成部20が前記ボクセルモデル計算部21として、相対的に高解像度の3Dボクセルモデルを生成する高解像度モデル生成部21aおよび低解像度の3Dボクセルモデルを生成する低解像度モデル生成部21bを具備し、入力フレームの周期や種別に応じて各モデル生成部21a,21bを使い分けて、あるいは組み合わせて、3Dボクセルモデルを生成するようにした点に特徴がある。 In this embodiment, the 3D model generation unit 20 serves as the voxel model calculation unit 21, a high resolution model generation unit 21a that generates a relatively high resolution 3D voxel model, and a low resolution model that generates a low resolution 3D voxel model. It is characterized in that it is provided with a generation unit 21b, and the model generation units 21a and 21b are selectively used or combined according to the cycle and type of input frames to generate a 3D voxel model.

高解像度モデル生成部21aは、第1実施形態のボクセルモデル計算部21と同様に、単位ボクセルサイズがMaのボクセルグリッドを配置した3次元空間に、シルエット画像取得部10が取得したシルエット画像を用いた視体積交差法により高解像度の3Dボクセルモデルを生成する。 Similar to the voxel model calculation unit 21 of the first embodiment, the high-resolution model generation unit 21a uses the silhouette image acquired by the silhouette image acquisition unit 10 in a three-dimensional space in which voxel grids with a unit voxel size of Ma are arranged. A high-resolution 3D voxel model is generated by the visual volume intersection method.

低解像度モデル生成部21bは、単位ボクセルサイズがMb(>Ma)のボクセルグリッドを配置した3次元空間に、シルエット画像取得部10が取得したシルエット画像を用いた視体積交差法により低解像度の3Dボクセルモデルを生成する。 The low-resolution model generation unit 21b creates a low-resolution 3D image by the visual volume intersection method using the silhouette image acquired by the silhouette image acquisition unit 10 in a three-dimensional space in which voxel grids having a unit voxel size of Mb (>Ma) are arranged. Generate a voxel model.

入力フレーム識別部23は、今回の入力フレームがキーフレームおよび非キーフレームのいずれであるかを識別する。 The input frame identification unit 23 identifies whether the current input frame is a key frame or a non-key frame.

本実施形態では、図9に示すように、キーフレームでは低解像度モデル生成部21bが自由視点制作対象の3D空間に単位ボクセルサイズがMbのボクセルグリッドを配置し、シルエット画像を用いた視体積交差法により低解像度3Dボクセルモデルを生成する。 In this embodiment, as shown in FIG. 9, in the key frame, the low-resolution model generation unit 21b arranges a voxel grid with a unit voxel size of Mb in the 3D space for free-viewpoint production, and performs visual volume intersection using a silhouette image. A low-resolution 3D voxel model is generated by the method.

次いで、高解像度モデル生成部21aが前記低解像度3Dボクセルモデルの生成領域またはその3Dバウンディングボックス内のみに単位ボクセルサイズがMaのボクセルグリッドを配置し、改めてシルエット画像を用いた視体積交差法により高解像度3Dボクセルモデルを生成する。 Next, the high-resolution model generation unit 21a arranges a voxel grid with a unit voxel size Ma only in the generation region of the low-resolution 3D voxel model or its 3D bounding box. Generate resolution 3D voxel models.

これに対して、非キーフレームでは高解像度モデル生成部21aが、前記計算領域決定部40が過去フレームにおける3Dモデルの生成履歴に基づいて決定したモデル計算領域のみに単位ボクセルサイズがMaのボクセルグリッドを配置し、シルエット画像を用いた視体積交差法により高解像度3Dボクセルモデルを生成する。 On the other hand, in non-key frames, the high-resolution model generation unit 21a creates a voxel grid with a unit voxel size of Ma only in the model calculation region determined by the calculation region determination unit 40 based on the generation history of the 3D model in the past frame. and generate a high-resolution 3D voxel model by the visual volume intersection method using the silhouette image.

前記入力フレーム識別部23は、各フレーム画像を例えばその入力順に、複数フレームに1フレームの割合でキーフレームと定義し、それ以外を非キーフレームと定義する。そして、図10に示すようにキーフレームでは低解像度3Dボクセルモデルを生成したのち、当該モデルの生成領域のみを対象に高解像度でモデルを生成する一方、非キーフレームでは第1実施形態と同様に、モデル生成履歴に基づいて決定したモデル計算領域のみを対象に高解像度でモデルを生成する。 The input frame identification unit 23 defines each frame image, for example, in the input order, as a key frame at a rate of one frame in a plurality of frames, and defines the other frame images as non-key frames. Then, as shown in FIG. 10, after generating a low-resolution 3D voxel model for keyframes, a high-resolution model is generated only for the generation area of the model, while for non-keyframes, the same as in the first embodiment. , generate a high-resolution model only for the model calculation area determined based on the model generation history.

本実施形態によれば、キーフレームではシルエット画像に基づいて低解像度の3Dモデルを生成した領域のみに高解像度の3Dモデルを生成する一方、非キーフレームではモデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成するので、キーフレームにおける2段階での3Dモデル生成による高速化のみならず、非キーフレームにおける3Dモデル生成でも、その品質を維持しながら高速化を実現できるようになる。 According to this embodiment, in keyframes, high-resolution 3D models are generated only in areas where low-resolution 3D models have been generated based on silhouette images, while in non-keyframes, 3D model calculations are performed for model calculation areas. Since it generates a high-resolution 3D model, it is possible not only to speed up 3D model generation in two stages in keyframes, but also in 3D model generation in non-keyframes, while maintaining the quality. become.

なお、履歴登録部50が前記第2実施形態と同様に分類部51を重ねて具備する場合には、図11に示すように、高解像度モデル生成部21aは非キーフレームにおいて、クラス分類の結果に応じて適応的に拡張されたモデル計算領域に3Dモデルを生成する。 When the history registration unit 50 includes the classification unit 51 as in the second embodiment, as shown in FIG. 11, the high-resolution model generation unit 21a generates a Generate a 3D model in the model computational domain that is adaptively expanded according to the

また、計算領域決定部40が前記第3実施形態と同様に速度場推定部42を重ねて具備する場合には、図12に示すように、非キーフレームにおけるモデル計算領域予測に速度場の推定結果を利用しても良い。 In addition, when the computational region determining unit 40 includes the velocity field estimating unit 42 in the same manner as in the third embodiment, as shown in FIG. You can use the results.

さらに、図13に示した第5実施形態のように、非キーフレームにおいて前記計算領域決定部40が予測したモデル計算領域を対象に低解像度3Dモデル生成を実施し、低解像度3Dボクセルモデルまたはその3Dバウンディングボックスの生成領域のみを対象に前記高解像度モデル生成部21aが高解像度3Dモデル生成を実施するようにしても良い。 Furthermore, as in the fifth embodiment shown in FIG. 13, a low-resolution 3D model is generated for the model calculation region predicted by the calculation region determination unit 40 in non-key frames, and a low-resolution 3D voxel model or its The high-resolution model generation unit 21a may generate the high-resolution 3D model only for the generation area of the 3D bounding box.

このとき、低解像度モデル生成部21bがキーフレームにおける低解像度3Dモデル生成と同様に単位ボクセルサイズをMbとして低解像度3Dモデル生成を実施すると計算負荷が増えることがある。そこで、予測したモデル計算領域に単位ボクセルサイズがMc(>Mb)のボクセルグリッドを配置し、更に低解像度の3Dモデルを生成するようにしても良い。 At this time, if the low-resolution model generating unit 21b generates a low-resolution 3D model with the unit voxel size set to Mb in the same way as low-resolution 3D model generation in key frames, the calculation load may increase. Therefore, a voxel grid having a unit voxel size of Mc (>Mb) may be arranged in the predicted model calculation area, and a 3D model with a lower resolution may be generated.

あるいは単位ボクセルサイズはMbとしたまま、モデル生成に用いるシルエット画像数(カメラ数)を非キーフレームにおける低解像度3Dモデル生成時よりも少なくするようにしても良い。 Alternatively, the number of silhouette images (the number of cameras) used for model generation may be made smaller than that for low-resolution 3D model generation in non-key frames, while the unit voxel size remains Mb.

本実施形態によれば、非キーフレームにおいてはモデル計算領域を対象に3Dモデル計算を行って生成した低解像度3Dモデルの生成領域を対象に3Dモデル計算を行って高解像度3Dモデルを生成するので、非キーフレームにおけるモデル計算領域を更に正確に決定できる。 According to this embodiment, in the non-keyframes, the 3D model calculation is performed for the model calculation area, and the 3D model calculation is performed for the low-resolution 3D model generation area to generate the high-resolution 3D model. , the model computational region in non-keyframes can be more accurately determined.

なお、本実施形態では非キーフレームにおいてモデル計算領域に低解像度3Dモデルを生成する際にシルエット画像を用いたカメラのうち何台のカメラにおいて当該シルエット画像が前景であったかをボクセルごとに判断して、モデル生成尤度を算出することができる。例えば、全8台のカメラのうち7台のカメラのシルエット画像で前景となったボクセルについては、そのモデル生成尤度Lmodelを7/8(=0.875)として記録する。 In the present embodiment, it is determined for each voxel how many cameras out of the cameras that used the silhouette image when generating the low-resolution 3D model in the model calculation area in the non-key frame, the silhouette image was the foreground. , the model generation likelihood can be calculated. For example, for voxels that are the foreground in the silhouette images of 7 cameras out of 8 cameras, the model generation likelihood L model is recorded as 7/8 (=0.875).

さらに、非キーフレームにおいてモデル計算領域に生成した低解像度3Dモデルのボクセルごとに、過去フレーム(例えば、前フレーム)における3Dモデル生成領域との距離を、例えば当該3Dモデル生成領域の重心位置や最近傍ボクセルからの距離として計測し、当該距離の逆数に基づいて履歴ベース生成尤度Lhistoryを計算する。このとき、当該3Dモデル生成領域と重複するボクセルには最大尤度(=1)を与えることができる。 Furthermore, for each voxel of the low-resolution 3D model generated in the model calculation area in the non-keyframes, the distance from the 3D model generation area in the past frame (for example, the previous frame) is calculated, for example, the center of gravity of the 3D model generation area or the recent Measured as the distance from the neighboring voxels, the history-based generation likelihood L history is calculated based on the reciprocal of the distance. At this time, the maximum likelihood (=1) can be given to voxels that overlap with the 3D model generation area.

そして、低解像度3Dモデルのボクセルごとに、前記モデル生成尤度Lmodelおよび/または履歴ベース生成尤度Lhistoryが予め設定した閾値T1を上回るボクセルの領域のみ、あるいは次式(1)のようにモデル生成尤度Lmodelと履歴ベース生成尤度Lhistoryとを加算した尤度が予め設定した閾値T2を上回るボクセルの領域のみ、を高解像度モデル計算領域に決定しても良い。 Then, for each voxel of the low-resolution 3D model, only voxel regions where the model generation likelihood L model and/or the history-based generation likelihood L history exceed a preset threshold value T1, or as in the following equation (1) Only voxel regions in which the sum of the model generation likelihood L model and the history-based generation likelihood L history exceeds a preset threshold value T2 may be determined as the high-resolution model calculation region.

Lmodel + Lhistory>T2 (1) L model + L history >T2 (1)

そして、上記の各実施形態によれば高品質な被写体3Dモデルを通信インフラ経由でもリアルタイムで提供することが可能となるので、地理的あるいは経済的な格差を超えて多くの人々に多様なエンターテインメントを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。 Furthermore, according to each of the above embodiments, it is possible to provide high-quality 3D models of subjects in real time even via communication infrastructure, thereby providing diverse entertainment to many people beyond geographical or economic disparities. be able to provide. As a result, the UN-led Sustainable Development Goals (SDGs) include Goal 9 “Build resilient infrastructure and promote inclusive and sustainable industrialization” and Goal 11 “Make cities inclusive, safe and resilient.” and make it sustainable.

10…シルエット画像取得部,20…3Dモデル生成部,21…ボクセルモデル計算部,21a…高解像度モデル生成部,21b…低解像度モデル生成部,22…3Dモデル出力部,23…入力フレーム識別部,30…履歴データベース,40…計算領域決定部,41…拡張部,42…速度場推定部,50…履歴登録部,51…分類部,100…3Dモデル生成装置 10... Silhouette image acquisition unit, 20... 3D model generation unit, 21... Voxel model calculation unit, 21a... High resolution model generation unit, 21b... Low resolution model generation unit, 22... 3D model output unit, 23... Input frame identification unit , 30... History database, 40... Calculation region determination unit, 41... Extension unit, 42... Velocity field estimation unit, 50... History registration unit, 51... Classification unit, 100... 3D model generation device

Claims (14)

視点の異なる複数のカメラで撮影した動画像からフレーム単位で抽出したシルエット画像に基づいて被写体の3Dモデルを生成する3Dモデル生成装置において、
過去フレームにおける各3Dモデルの生成位置を含むモデル生成履歴を記憶する手段と、
前記モデル生成履歴に基づいて入力フレームにおけるモデル計算領域を決定する手段と、
前記モデル計算領域を対象に3Dモデル計算を行って3Dモデルを生成する手段とを具備したことを特徴とする3Dモデル生成装置。
A 3D model generation device that generates a 3D model of a subject based on silhouette images extracted frame by frame from moving images captured by multiple cameras with different viewpoints,
means for storing a model generation history including the generation position of each 3D model in past frames;
means for determining a model calculation region in an input frame based on the model generation history;
and means for generating a 3D model by performing 3D model calculation on the model calculation area.
入力フレームをキーフレームまたは非キーフレームに分類する手段を具備し、
前記3Dモデルを生成する手段が、
相対的に高解像度の3Dモデルを生成する手段および低解像度の3Dモデルを生成する手段を具備し、
キーフレームでは、シルエット画像に基づいて低解像度の3Dモデルを生成した領域に高解像度の3Dモデルを生成し、
非キーフレームでは、前記モデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成することを特徴とする請求項1に記載の3Dモデル生成装置。
comprising means for classifying input frames as keyframes or non-keyframes;
The means for generating the 3D model comprises:
comprising means for generating a relatively high resolution 3D model and means for generating a low resolution 3D model;
In the key frame, a high resolution 3D model is generated in the area where the low resolution 3D model was generated based on the silhouette image,
2. The 3D model generating apparatus according to claim 1, wherein, in non-key frames, 3D model calculation is performed on the model calculation area to generate a high-resolution 3D model.
前記非キーフレームでは、前記モデル計算領域を対象に3Dモデル計算を行って生成した低解像度の3Dモデルの生成領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成することを特徴とする請求項2に記載の3Dモデル生成装置。 In the non-keyframes, a high-resolution 3D model is generated by performing 3D model calculation on a low-resolution 3D model generation area generated by performing 3D model calculation on the model calculation area. 3. The 3D model generation device according to claim 2. 前記モデル計算領域を決定する手段は、過去フレームにおける3Dモデル生成位置を拡張した領域をモデル計算領域に決定することを特徴とする請求項1ないし3のいずれかに記載の3Dモデル生成装置。 4. The 3D model generating apparatus according to any one of claims 1 to 3, wherein the means for determining the model calculation area determines an area obtained by extending a 3D model generation position in a past frame as the model calculation area. 各3Dモデルをクラスに分類する手段を具備し、
前記モデル計算領域を決定する手段は、過去フレームにおける3Dモデル生成位置をクラスに応じた拡張量で拡張することを特徴とする請求項4に記載の3Dモデル生成装置。
comprising means for classifying each 3D model into classes;
5. The 3D model generation device according to claim 4, wherein the means for determining the model calculation area expands the 3D model generation position in the past frame by an expansion amount according to the class.
前記分類する手段は、各3Dモデルをその被写体に想定される移動速度に基づいて各クラスに分類し、
前記モデル計算領域を決定する手段は、移動速度のより速い被写体のクラスほど拡張量をより大きくすることを特徴とする請求項5に記載の3Dモデル生成装置。
The means for classifying classifies each 3D model into each class based on a moving speed assumed for the subject,
6. The 3D model generating apparatus according to claim 5, wherein the means for determining the model calculation area increases the expansion amount for a subject class with a faster moving speed.
複数の過去フレームにおける各3Dモデルの生成履歴に基づいて各3Dモデルの速度場を推定する手段を具備し、
前記モデル計算領域を決定する手段は、3Dモデルごとにその速度場に基づいてモデル計算領域を決定することを特徴とする請求項1ないし6のいずれかに記載の3Dモデル生成装置。
Equipped with means for estimating the velocity field of each 3D model based on the generation history of each 3D model in a plurality of past frames,
7. The 3D model generating apparatus according to any one of claims 1 to 6, wherein the means for determining the model calculation area determines the model calculation area for each 3D model based on its velocity field.
前記非キーフレームにおいて、前記モデル計算領域を対象に低解像度の3Dモデルを生成する際に用いるシルエット画像数が、前記キーフレームにおいて低解像度の3Dモデルを生成する際に用いるシルエット画像数よりも少ないことを特徴とする請求項3に記載の3Dモデル生成装置。 In the non-keyframes, the number of silhouette images used to generate a low-resolution 3D model for the model calculation area is smaller than the number of silhouette images used to generate a low-resolution 3D model in the keyframes. 4. The 3D model generation device according to claim 3, characterized by: 前記非キーフレームにおいて、前記モデル計算領域を対象に低解像度の3Dモデルを生成する際の単位ボクセルサイズが、前記キーフレームにおいて低解像度の3Dモデルを生成する際の単位ボクセルサイズよりも大きいことを特徴とする請求項3に記載の3Dモデル生成装置。 wherein, in the non-keyframes, a unit voxel size for generating a low-resolution 3D model targeting the model calculation area is larger than a unit voxel size for generating a low-resolution 3D model in the keyframes; 4. The 3D model generation device according to claim 3. 前記非キーフレームにおいて、
前記モデル計算領域を対象に生成した低解像度の3Dモデルのボクセルごとに、何台のカメラにおいて前景であったかに基づくモデル生成尤度の計算、および過去フレームにおけるモデル生成位置からの距離の逆数に基づく履歴ベース生成尤度の計算の少なくとも一方を実施し、前記モデル生成尤度および履歴ベース生成尤度の少なくとも一方に基づいて、高解像度の3Dモデルの計算領域を決定することを特徴とする請求項3に記載の3Dモデル生成装置。
In the non-keyframe,
For each voxel of the low-resolution 3D model generated for the model calculation area, calculation of model generation likelihood based on how many cameras it was in the foreground, and based on the reciprocal of the distance from the model generation position in the past frame Calculating at least one of a history-based generation likelihood, and determining a high-resolution 3D model calculation region based on at least one of the model generation likelihood and the history-based generation likelihood 3. The 3D model generation device according to 3.
コンピュータが、視点の異なる複数のカメラで撮影した動画像からフレーム単位で抽出したシルエット画像に基づいて被写体の3Dモデルを生成する3Dモデル生成方法において、
過去フレームにおける各3Dモデルの生成位置を含むモデル生成履歴を記憶し、
前記モデル生成履歴に基づいて入力フレームにおけるモデル計算領域を決定し、
前記モデル計算領域を対象に3Dモデル計算を行って3Dモデルを生成することを特徴とする3Dモデル生成方法。
In a 3D model generation method in which a computer generates a 3D model of a subject based on silhouette images extracted frame by frame from moving images shot by a plurality of cameras with different viewpoints,
Store the model generation history including the generation position of each 3D model in the past frame,
determining a model calculation region in an input frame based on the model generation history;
A 3D model generation method, wherein a 3D model is generated by performing 3D model calculation on the model calculation area.
入力フレームをキーフレームまたは非キーフレームに分類し、
キーフレームでは、シルエット画像に基づいて低解像度の3Dモデルを生成した領域に高解像度の3Dモデルを生成し、
非キーフレームでは、前記モデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成することを特徴とする請求項11に記載の3Dモデル生成方法。
classifies input frames as keyframes or non-keyframes,
In the key frame, a high resolution 3D model is generated in the area where the low resolution 3D model was generated based on the silhouette image,
12. The 3D model generation method according to claim 11, wherein, in non-key frames, 3D model calculation is performed on the model calculation area to generate a high-resolution 3D model.
視点の異なる複数のカメラで撮影した動画像からフレーム単位で抽出したシルエット画像に基づいて被写体の3Dモデルを生成する3Dモデル生成プログラムにおいて、
過去フレームにおける各3Dモデルの生成位置を含むモデル生成履歴を記憶する手順と、
前記モデル生成履歴に基づいて入力フレームにおけるモデル計算領域を決定する手順と、
前記モデル計算領域を対象に3Dモデル計算を行って3Dモデルを生成する手順と、をコンピュータに実行させる3Dモデル生成プログラム。
In a 3D model generation program that generates a 3D model of a subject based on silhouette images extracted frame by frame from videos taken with multiple cameras with different viewpoints,
a procedure for storing a model generation history including the generation position of each 3D model in past frames;
determining a model calculation region in an input frame based on the model generation history;
A 3D model generation program that causes a computer to execute a procedure for performing 3D model calculations on the model calculation area and generating a 3D model.
入力フレームをキーフレームまたは非キーフレームに分類する手順を含み、
前記3Dモデルを生成する手順が、
キーフレームでは、シルエット画像に基づいて低解像度の3Dモデルを生成した領域に高解像度の3Dモデルを生成し、
非キーフレームでは、前記モデル計算領域を対象に3Dモデル計算を行って高解像度の3Dモデルを生成することを特徴とする請求項13に記載の3Dモデル生成プログラム。
including a procedure for classifying input frames as keyframes or non-keyframes;
The procedure for generating the 3D model includes:
In the key frame, a high resolution 3D model is generated in the area where the low resolution 3D model was generated based on the silhouette image,
14. The 3D model generation program according to claim 13, wherein, in non-key frames, 3D model calculation is performed on the model calculation area to generate a high-resolution 3D model.
JP2021022869A 2021-02-16 2021-02-16 3D model generation device, method and program Active JP7465227B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021022869A JP7465227B2 (en) 2021-02-16 2021-02-16 3D model generation device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021022869A JP7465227B2 (en) 2021-02-16 2021-02-16 3D model generation device, method and program

Publications (2)

Publication Number Publication Date
JP2022124941A true JP2022124941A (en) 2022-08-26
JP7465227B2 JP7465227B2 (en) 2024-04-10

Family

ID=82941733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021022869A Active JP7465227B2 (en) 2021-02-16 2021-02-16 3D model generation device, method and program

Country Status (1)

Country Link
JP (1) JP7465227B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6948175B2 (en) 2017-07-06 2021-10-13 キヤノン株式会社 Image processing device and its control method
JP7045964B2 (en) 2018-08-30 2022-04-01 Kddi株式会社 Image processing equipment, methods and programs
JP7250493B2 (en) 2018-12-03 2023-04-03 キヤノン株式会社 Image processing device, method and program for generating three-dimensional shape data

Also Published As

Publication number Publication date
JP7465227B2 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
Gao et al. Dynamic view synthesis from dynamic monocular video
Li et al. Neural 3d video synthesis from multi-view video
US11095869B2 (en) System and method for generating combined embedded multi-view interactive digital media representations
Bansal et al. 4d visualization of dynamic events from unconstrained multi-view videos
US20200027263A1 (en) System and method for infinite synthetic image generation from multi-directional structured image array
Stier et al. Vortx: Volumetric 3d reconstruction with transformers for voxelwise view selection and fusion
US10789765B2 (en) Three-dimensional reconstruction method
CN108171761B (en) Point cloud intra-frame coding method and device based on Fourier image transformation
Li et al. Spatio-temporal Consistency and Hierarchical Matching for Multi-Target Multi-Camera Vehicle Tracking.
Yuan et al. Temporal upsampling of depth maps using a hybrid camera
Chan et al. An object-based approach to image/video-based synthesis and processing for 3-D and multiview televisions
Leroy et al. Grounding Image Matching in 3D with MASt3R
Yaguchi et al. Arbitrary viewpoint video synthesis from multiple uncalibrated cameras
JP7290546B2 (en) 3D model generation apparatus and method
Yin et al. Novel view synthesis for large-scale scene using adversarial loss
JP7465227B2 (en) 3D model generation device, method and program
Fulari A Survey on Motion Models Used for Object Detection in Videos
Rimboux et al. Smart IoT cameras for crowd analysis based on augmentation for automatic pedestrian detection, simulation and annotation
David et al. Scene flow estimation from sparse light fields using a local 4D affine model
Tsai et al. Video editing using motion inpainting
JP7456959B2 (en) 3D model generation device, method and program
Shere et al. 3D Multi Person Tracking With Dual 360° Cameras
Blache et al. Robust motion flow for mesh tracking of freely moving actors
Hu et al. Dense 3D model reconstruction for digital city using computationally efficient multi-view stereo networks
Wu Multi-view hockey tracking with trajectory smoothing and camera selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240329

R150 Certificate of patent or registration of utility model

Ref document number: 7465227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150