JP2021071749A - 3dモデル生成装置および方法 - Google Patents

3dモデル生成装置および方法 Download PDF

Info

Publication number
JP2021071749A
JP2021071749A JP2019195844A JP2019195844A JP2021071749A JP 2021071749 A JP2021071749 A JP 2021071749A JP 2019195844 A JP2019195844 A JP 2019195844A JP 2019195844 A JP2019195844 A JP 2019195844A JP 2021071749 A JP2021071749 A JP 2021071749A
Authority
JP
Japan
Prior art keywords
model
voxel
size
resolution
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019195844A
Other languages
English (en)
Other versions
JP7290546B2 (ja
Inventor
良亮 渡邊
Ryosuke Watanabe
良亮 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019195844A priority Critical patent/JP7290546B2/ja
Publication of JP2021071749A publication Critical patent/JP2021071749A/ja
Application granted granted Critical
Publication of JP7290546B2 publication Critical patent/JP7290546B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Generation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数台のカメラの映像から被写体の3Dモデルを高速かつ高品質に生成する装置及び方法を提供する。【解決手段】シルエット画像取得部101は、多視点映像から視点ごとにシルエット画像を取得する。低解像モデル生成部102は、複数のシルエット画像から視体積交差法によりボクセルサイズが第1サイズの低解像ボクセルモデルを生成する。単位ボクセルサイズ決定部104は、低解像ボクセルモデルをその特徴に基づいて分類する分類部104aを具備し、低解像ボクセルモデルごとに、その分類結果に基づいて第1サイズよりも小さい第2サイズを決定する。高解像モデル生成部105は、低解像ボクセルモデルの3Dバウンディングボックスごとにボクセルサイズが第2サイズの高解像ボクセルモデルを生成する。3Dモデル出力部106は、高解像ボクセルモデルに基づいて被写体の3DCGモデルを出力する。【選択図】図1

Description

本発明は、複数台のカメラの映像から被写体の3Dモデルを高速かつ高品質に生成する装置及び方法に関する。
複数のカメラ映像から被写体の3Dモデルを生成するアプローチとして、非特許文献1に開示された視体積交差法が広く知られている。視体積交差法は、各カメラ映像から被写体の部分だけを抽出した2値のシルエット画像を3D空間に投影し、その積集合となる部分のみを残すことによって3Dモデルを生成する手法である。
視体積交差法に基づいて生成される3Dモデルを構成する最小単位はボクセルと呼ばれる。ボクセルは、一定の値を持つ小さな体積の立方体であり、立体データを離散的に表現する際の正規格子単位である。以下の説明では、M×M×M(Mは定数)の大きさのボクセルを「単位ボクセルサイズがMのボクセル」と表現することとしている。
一般に、単位ボクセルを大きく設定するほど3D空間は離散的に扱われるため、視体積交差法の処理時間は短くなるが、モデルが離散化されるため実際の形状よりも粗い3Dモデルが生成される。一方、この単位ボクセルサイズが小さくなるほど実際の形状に近い形を復元することが可能となるが、計算単位の増加により処理時間が爆発的に増加する。
非特許文献2には、視体積交差法を自由視点映像技術等の中で用いる技術が開示されている。自由視点映像技術は複数台のカメラ映像から3D空間を再構成し、カメラがないアングルからでも視聴することを可能とする技術であるが、スポーツ映像などを対象とする場合にはリアルタイム性が重要である。しかしながら、スタジアムなどの広大な領域の中で、通常のボクセルベースの視体積交差法で3Dモデルの生成を行う場合には、計算時間が膨大となるという欠点があった。
このような技術課題を解決するために、非特許文献3には視体積交差法を高速化する技術が開示されている。非特許文献3では、視体積交差法で3Dボクセルモデルを生成する際に、初めに単位ボクセルサイズMaでモデルの生成を行い、ボクセルの塊を一つのオブジェクトとして3Dのバウンディングボックスを得る。その後、各3Dバウンディングボックス内を、細かい単位ボクセルサイズMb(<Ma)で視体積交差法を用いてモデル化することで処理時間を大幅に削減することに成功している。
非特許文献4には、コーンビームCTを用いた3次元再構成を目的に、対象を粗いボクセルと細かいボクセルとで表現することで、PWLSを用いた逐次近似法を用いて反復的に再構成の質を高めていく際の収束の速度を速める技術が開示されている。
非特許文献4では、粗いボクセルと細かいボクセルから得られるそれぞれのROI(Region of interest)の境界付近で、粗いボクセルからの補間結果を細かいボクセルに、細かいボクセルからの補間結果を粗いボクセルに反映させながら、細かいボクセルから得られるROI領域と、粗いグリッドから得られるROI領域のそれぞれのペナルティ強度を制御することで、効率的に誤差関数を収束させながら、対象の3次元再構成を行うことが可能であることが示されている。
非特許文献5には、3Dモデルをボクセルで表現する際に、3Dモデルの輪郭付近の部分などの判定が曖昧になる領域だけを八分木に沿って細かく分割することを繰り返すことで、Coarse-to-Fineにボクセルを分割していき、高精度かつ効率的にモデル形状を表現する技術が開示されている。
特許文献1には、CADのアセンブリモデルをボクセルに分割する際に、事前に記録されたアセンブリモデルの体積誤差を基にボクセルサイズを変更することで、ボクセルの分割数を動的に変更し、マシン資源消費量を節約する技術が開示されている。
特許第4597347号
Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162 (1994). J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), Montreal, QC, 2007, pp. 177-184. J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2. Cao Q, Zbijewski W, Sisniega A, Yorkston J, Siewerdsen JH, Stayman JW. "Multiresolution iterative reconstruction in high-resolution extremity cone-beam CT." Phys Med Biol. 2016; 61(20):7263‐7281. Richard Szeliski. "Rapid octree construction from image sequences." CVGIP: Image Underst. 58, 1, pp.23-32, 1993. C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999). Chen, J., Nonaka, K., Sankoh, H., Watanabe, R., Sabirin, H., & Naito, S. Efficient Parallel Connected Component Labeling with a Coarse-to-Fine Strategy. IEEE Access, 2008, 6, 55731-55740. Zhirong Wu et al., "3D ShapeNets: A deep representation for volumetric shapes," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 1912-1920. J. Redmon and A. Farhadi,"YOLO9000: Better, Faster, Stronger," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6517-6525 (2017). S. Gerke, K. Muller and R. Schafer, "Soccer Jersey Number Recognition Using Convolutional Neural Networks," 2015 IEEE International Conference on Computer Vision Workshop (ICCVW), Santiago, 2015, pp. 734-741.doi: 10.1109/ICCVW.2015.100
非特許文献3のように、ボクセルサイズMaの粗いボクセルを作った後に、限定された領域を細かいボクセルサイズMbでモデル化する方式は、非特許文献1の方式と比較して処理時間を大幅に減らすことができる。しかしながら、非特許文献1と同様に最終的な処理時間はボクセルサイズやボクセル数に依存して変化する。
一方、スポーツシーンで自由視点映像を制作する場合などに適用することを鑑みると、視聴者の注目が集まりやすい競技用のボールなどは正しくモデル生成されることが重要である。スポーツによってはボールが非常に小さいケースもあるが、このようなケースでも正しくモデル生成がされないと視聴時に違和感を生むことから、単位ボクセルサイズは1cmなどのかなり小さいサイズを設定せざるを得ないケースが多かった。
結果的に、非特許文献3の技術を利用しても、品質を保つためにはボクセルサイズを小さく設定せざるを得ず、広域空間を対象にした3Dモデル生成などではリアルタイム制作が達成できないケースが存在していた。
非特許文献4に示されるような反復的に再構築を行う手法は、CTのような高い精度が求められる場面では有効であるものの、依然として多くの生成時間を要求されるため、リアルタイム性の求められるアプリケーションに適用することは困難であった。
収束が早まったとされる非特許文献4の手法の中でも50回程度の繰り返しに基づく誤差関数の最適化が必要であり、1回の反復に2分程度の時間が掛かることが示されている。また、細かいボクセルのサイズを動的に変更するような機構は開示されておらず、一様なサイズでの生成が成される。
非特許文献5に示されるような八分木を用いる手法は、段階的な細分化を繰り返してボクセルを細かくしていくため、繰り返しの回数が多い場合には処理時間が増大する懸念がある。加えて、非特許文献5の中では、全ての3Dオブジェクトの表面部分が細分化され、細かい単位ボクセルサイズでの生成が成される。よって、大きいオブジェクトサイズを持つものに関しては表面部分も広くなるため、細かい単位ボクセルサイズで生成される箇所が多くなり、処理時間の増大に繋がるという懸念が存在していた。
特許文献1のように単位ボクセルサイズを動的に変更する機構は、事前に記録されるCADのアセンブリモデルとの体積誤差を基にボクセルサイズが決定されるため、自由視点映像制作のように、事前に誤差を比較するための正解3Dモデルを用意できないようなケースには適応できない。
本発明の目的は、上記の技術課題を解決し、被写体のボクセルモデルを初めに低解像で生成して被写体の位置を推定した後、被写体の推定位置のみを対象にボクセルモデルを高解像で生成して3Dモデル化する際に、3Dモデルを高速かつ高品質に生成できる装置及び方法を提供することにある。
上記の目的を達成するために、本発明は、多視点映像から被写体の3DCGモデルを生成する3Dモデル生成装置において、以下の構成を具備した点に特徴がある。
(1) 多視点映像から視点ごとにシルエット画像を取得する手段と、シルエット画像から視体積交差法によりボクセルサイズが第1サイズの低解像ボクセルモデルを被写体ごとに生成する低解像モデル生成手段と、低解像ボクセルモデルごとに、その特徴に基づいて第1サイズよりも小さい第2サイズを決定するボクセルサイズ決定手段と、低解像ボクセルモデルごとにボクセルサイズが第2サイズの高解像ボクセルモデルを生成する高解像モデル生成手段と、高解像ボクセルモデルに基づいて被写体の3DCGモデルを出力する手段とを具備した。
(2) ボクセルサイズ決定手段は、各低解像ボクセルモデルをその特徴に基づいて分類し、この分類の結果に基づいて第2セルサイズを決定するようにした。
(3) 各低解像ボクセルモデルがそのサイズおよび/または位置に基づいて分類されるようにした。
(4) 各低解像ボクセルモデルがその形状に基づいて分類されるようにした。
(5) 各低解像ボクセルモデルがその逆投影マスクと重なる2D画像上の領域に対する被写体の認識結果に基づいて分類されるようにした。
(6) 低解像ボクセルモデルごとにその逆投影マスクと重なる2D画像上の領域が人物領域であるか否を識別し、人物領域であると、その所定部位の画像特徴に基づいて各低解像ボクセルモデルが分類されるようにした。
(7) 低解像ボクセルモデルごとにその3Dバウンディングボックスを生成し、3Dバウンディングボックス内を第2サイズで視体積交差法によりモデル化することで高解像ボクセルモデルを生成するようにした。
(8) 低解像ボクセルモデルごとにその高解像ボクセルモデルのボクセル数を推定し、全高解像ボクセルモデルのボクセル総数および許容される処理時間に基づいて第2サイズが決定されるようにした。
(9) 各低解像ボクセルモデルの特徴に基づいて、その高解像ボクセルモデルを生成しない低解像ボクセルモデルを判別し、当該判別された低解像ボクセルモデルの高解像ボクセルモデルを生成しないようにした。
(10) 低解像ボクセルモデルごとに優先度を設定し、許容される処理時間に基づいて、優先度の高い順に第2サイズで高解像ボクセルモデルを生成するようにした。
(11) 3Dバウンディングボックス内で第2サイズを異ならせるようにした。
(1) ボクセルサイズが第1サイズの低解像ボクセルモデルを生成して被写体の位置を推定した後、ボクセルサイズが第1サイズよりも小さい第2サイズの高解像ボクセルモデルを生成して3DCGモデルを出力する際に、第2サイズを低解像ボクセルモデルの特徴に基づいて可変としたので、高解像処理の削減による処理時間の短縮によりリアルタイム性の要求に応えられるようになる。
(2) 各低解像ボクセルモデルをその特徴に基づいて分類し、この分類の結果に基づいて第2セルサイズを決定するので、低解像ボクセルモデルを一貫した指標で分類することができ、第2サイズを低解像ボクセルモデルごとに適正に決定できるようになる。
(3) 各低解像ボクセルモデルをそのサイズおよび/または位置に基づいて分類するので、低い処理負荷での分類が可能になる。
(4) 各低解像ボクセルモデルをその形状に基づいて分類するので、3DCGモデルに要求される解像度が被写体の形状に依存する場合には第2サイズを適正に決定できるようになる。
(5) 各低解像ボクセルモデルをその逆投影マスクと重なる2D画像上の領域に対する被写体の認識結果に基づいて分類するので、被写体の識別結果に基づいて第2サイズを決定できるようになる。
(6) 低解像ボクセルモデルごとにその逆投影マスクと重なる2D画像上の領域が人物領域であるか否を識別し、人物領域であると、その所定部位の画像特徴に基づいて各低解像ボクセルモデルを分類するので、高解像化範囲の更なる絞り込みが可能となり、高解像処理の削減による処理時間の短縮によりリアルタイム性の要求に応えられるようになる。
(7) 低解像ボクセルモデルごとにその3Dバウンディングボックスを生成し、3Dバウンディングボックス内のボクセル領域を対象に高解像ボクセルモデルを生成するので、高解像化する領域を限定することができ、高解像処理の削減による処理時間の短縮によりリアルタイム性の要求に応えられるようになる。
(8) 低解像ボクセルモデルごとに高解像化した際のボクセル数を推定し、全ての高解像ボクセルモデルのボクセル総数および許容される処理時間に基づいて第2サイズを決定するので、処理時間内でより多くの領域を高解像化できるようになる。
(9) 各低解像ボクセルモデルの特徴に基づいて、その高解像ボクセルモデルを生成しない低解像ボクセルモデルを判別し、当該判別された低解像ボクセルモデルの高解像ボクセルモデルは生成しないので、無駄な高解像化処理を削減できるようになる。
(10) 低解像ボクセルモデルごとに優先度を設定し、許容される処理時間に基づいて優先度の高い順に第2サイズで高解像ボクセルモデルを生成するので、処理時間内でより多くの領域を効率的に高解像化できるようになる。
(11) 3Dバウンディングボックス内で第2サイズを異ならせるようにしたので、高解像化範囲の更なる絞り込みが可能となり、高解像処理の削減による処理時間の短縮によりリアルタイム性の要求に応えられるようになる。
本発明の一実施形態に係る3Dモデル生成装置の機能ブロック図である。 シルエット画像の例を示した図である。 3Dバウンディングボックスの例を示した図である。 第4指標による分類方法を模式的に示した図である。 分類結果の一例を示した図である。
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係る3Dモデル生成装置1の主要部の構成を示したブロック図であり、ここでは、野球中継における被写体の3Dモデルの生成を例にして説明する。
このような3Dモデル生成装置1は、汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
シルエット画像取得部101は、複数の被写体を異なる視点で撮影した複数のカメラ映像(多視点映像)から、視体積交差法に用いるシルエット画像をフレーム単位で取得する。視体積交差法で3Dモデルを形成するためには、3台以上のカメラ2からシルエット画像を取得することが望ましい。
シルエット画像は、図2に一例を示すように、3Dモデルを生成する被写体を白、それ以外の部分を黒で表した2値のマスク画像形式で取得される。なお、このようなシルエット画像は、非特許文献6に開示された背景差分法を利用して取得できる。
低解像モデル生成部102は、多視点映像から取得したシルエット画像に基づいて、単位ボクセルサイズ(本実施形態では、単位ボクセルの一辺の長さ)が第1サイズM1の3次元空間内に視体積交差法を用いて視体積を形成する。低解像モデル生成部102は更に、この視体積に対して各ボクセルの隣接関係を基に連結成分を計算し、連結している領域を一つの各被写体のモデルとみなすことで、単位ボクセルサイズが第1サイズM1の粗い低解像ボクセルモデルMDLoを生成する。
本実施形態では、第1サイズM1が5cmに設定され、3Dモデル生成の対象範囲(本実施形態では、野球グランド全体)に単位ボクセルサイズが5cmのボクセルグリッドを配置し、ボクセルグリッドごとに3Dモデルを形成するか否かを視体積交差法に基づき判定する。視体積交差法は、N枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を視体積(Visual Hull)VH(I)として獲得するものであり、以下の式で示される。
Figure 2021071749
上式(1)において、集合Iはシルエット画像の集合であり、Viはi番目のカメラから得られるシルエット画像から計算される視錐体である。また、通常はN枚全てのシルエット画像の共通部分がモデル化されるが、N-1枚が共通する場合にモデル化するなど、モデル化に用いるシルエット画像の数は変更してもよい。なお、モデル化に用いるシルエット画像数を減じると、一部のシルエット画像で被写体が欠けた場合にも3Dモデルの復元が可能になる一方、ノイズが多くなるなどの副作用が現れる可能性がある。
3Dバウンディングボックス生成部103は、図3に示したように、各低解像ボクセルモデルMDLoに外接する3DバウンディングボックスBBをそれぞれ生成する。単位ボクセルサイズ決定部104はバウンディングボックス分類部104aを含む。バウンディングボックス分類部104aは、後に詳述するように、複数の分類指標を用いて各低解像ボクセルモデルMDLoを分類する。
前記単位ボクセルサイズ決定部104は、後段の高解像モデル生成部105が3DバウンディングボックスBBごとに高解像ボクセルモデルMDHiを生成する際の単位ボクセルの第2サイズM2を、各3DバウンディングボックスBBが収容する低解像ボクセルモデルMDLoの分類結果に基づいて決定する。
前記分類部104aは、各低解像ボクセルモデルMDLoを、その特徴に基づいて分類する。本実施形態では、分類指標として以下の5つの指標のいずれか、または複数を組み合わせて各低解像ボクセルモデルMDLoを分類する。
(1) 第1指標:低解像ボクセルモデルMDLoのサイズ
各低解像ボクセルモデルMDLoが、そのサイズ(全体の大きさ、、縦、横、高さ)に基づいて分類される。本実施形態では、低解像ボクセルモデルMDLoのサイズを、その3DバウンディングボックスBBのサイズで代表する場合を例にして説明する。
被写体としてボール、人物(選手または審判)およびボール以外の野球用具が想定される場合、ボールのサイズがボール以外のサイズと較べて十分に小さい。更に、ボールのサイズは厳密に規定されていることから、第1の指標により3DバウンディングボックスBBをボールとボール以外とに分類できる。
前記単位ボクセルサイズ決定部104は、ボールに分類された3DバウンディングボックスBBに適用する第2サイズM2を1cm、ボール以外に分類された3DバウンディングボックスBBに適用する第2サイズM2を2cmというように、分類結果に応じて第2サイズM2を設定する。なお、第2サイズM2は上記のような固定値に限定されず、3DバウンディングボックスBBのサイズ(例えば、体積)に応じて動的に設定しても良い。
(2) 第2指標:3Dバウンディングボックスの位置
各低解像ボクセルモデルMDLoが、その位置に基づいて分類される。本実施形態では、低解像ボクセルモデル MDLoの位置を、その3DバウンディングボックスBBの位置で代表する場合を例にして説明する。
被写体の位置は被写体毎に特徴的であり、野球競技であれば、例えば高さが10mの位置に形成される3DバウンディングボックスBBはボールである可能性が高く、人物や用具である可能性は限りなく低い。
そこで、このような先見情報を第2指標として被写体を分類し、高い位置の3DバウンディングボックスBBはボールとみなして第2サイズM2を1cmとし、それ以外はボール以外とみなして第2サイズM2を2cmとすることができる。
上記の第1および第2指標は、3DバウンディングボックスBBを推定できれば簡単に得られので、分類に要する処理時間が極小であり、リアルタイム性が強く求められるシステムに適している。
(3) 第3指標:低解像ボクセルモデルMDLoの形状
低解像ボクセルモデルMDLoが、その形状に基づいて分類される。低解像ボクセルモデルMDLoの形状は被写体ごとに特徴的であることを利用して、予め低解像ボクセルモデルMDLoの形状と被写体との関係を深層学習等により学習して予測モデルを構築し、各低解像ボクセルモデルMDLoを前記予測モデルに適用することで、各低解像ボクセルモデルMDLoがボール、人物または野球用具に分類される。
(4) 第4指標:低解像ボクセルモデルMDLoの2D画像
シルエット画像の基となるカメラ画像(2D画像)に対して、非特許文献9に開示されるような、画像中からの物体識別を行うアルゴリズムを適用し、その識別結果に基づいて各低解像ボクセルモデルMDLoが分類される。
図4は、2D画像に基づく分類方法を模式的に示した図であり、低解像ボクセルモデルMDLoを各カメラのスクリーン位置に逆投影し、このときに得られる逆投影マスクと各カメラの2D画像を対象とした画素単位の認識結果とを重ね合わせ、逆投影マスクと重なった2D画像領域の認識結果に基づいて当該低解像ボクセルモデルが識別される。
例えば、逆投影マスクと重なった2D画像領域の各画素に対する認識結果を参照し、「人物」と認識された画素の割合が十分に多ければ、当該低解像ボクセルモデルMDLoは「人物」に分類される。
なお、第4指標を採用した分類では、シルエット画像のみならず2Dの原画が必要となることから、前記シルエット画像取得部101は、シルエット画像に加えて各カメラの原画を取得する機能を有するものとする。
逆投影は全てのカメラに対して実施する必要はなく、処理時間の観点から一部のカメラのみに限定しても良い。また、2D画像上の同一の画素に2つの3Dバウンディングボックスが重複して現れる場合には、単位ボクセルサイズが小さい方の物体の結果が優先的に逆投影マスクに反映されるようにしてもよい。
上記第3または第4指標による分類では、事前に学習が必要になることに加え、処理時間が比較的大きくなりがちという欠点はある。しかしながら、事前に学習した情報に基づいてボール等のバウンディングボックスを分類するため、高精度の分類が可能である。
例えば、特定のシーンのリプレイ動画を自由視点映像に基づいて制作し、スタジアムの大型ビジョンで放映するような用途では、10秒のリプレイの制作に数十秒程度の制作時間が許されるケースもある。このように、リアルタイムまでは要求されないものの高速な制作が求められる場面にて高い品質を得るためには、上記第3または第4指標を採用した分類により、品質と制作速度のトレードオフに優れた制作が可能である。
(5) 第5指標:被写体に固有の情報
低解像ボクセルモデルMDLoを各カメラのスクリーン位置へ逆投影して得られる逆投影マスクと各カメラの2D画像との重なった2D画像領域に対する固有情報の認識結果を指標として各低解像ボクセルモデルが分類される。
例えば、低解像ボクセルモデルMDLoに対応する2D画像領域が人物に分類されると、更に顔認識や背番号認識を実行し、高解像対象として予め登録された選手であるか否かを判定する。登録された選手以外であれば、第2サイズM2として第1サイズM1より小さい第1の第2サイズM21を設定する一方、登録された選手であれば、更に小さい第2の第2サイズM22(<M21)を設定する。
前記第3指標や第4指標に基づく分類では、一般的に人物、ボール、バットなどには分類できても、人物の名前や背番号といった各被写体に固有の情報までは識別できない。一方、非特許文献10などでは選手の背番号に基づいて被写体をさらに細かく分類できる。第5指標により各3Dバウンディングボックスを分類すれば、注目選手やユーザのお気に入りの選手のみを高解像で表示させることが可能になる。
なお、複数の指標を組み合わせて分類するのであれば、各分類結果の論理和や論理積に基づいて最終的な分類結果を決定するようにしても良い。あるいは、第1または第2指標を採用してボールの3Dバウンディングボックスを分類したのち、残りの3Dバウンディングボックスのみを対象に認識ベースの第3ないし第5指標を採用するようにしても良い。
このようにすれば、分類に要する処理時間の長い認識ベースの第3ないし第5指標を採用する3Dバウンディングボックス数を減じることができるので処理時間を短縮できるようになる。
図5は、分類結果の一例を示した図であり、各3DバウンディングボックスBBにはIDが付され、3DバウンディングボックスBBごとに分類結果および第2サイズM2が登録されている。なお、非特許文献7には、効率的に各ボクセルの連結成分を計算してIDを付するラベリング手法が開示されている。
高解像ボクセル生成部105は、前記3Dバウンディングボックス生成部103が生成した3DバウンディングボックスBBの内部の狭い領域のみに対して、前記単位ボクセルサイズ決定部104が決定した第2サイズM2に基づいてボクセルグリッドを配置して視体積交差法を適用し、高解像ボクセルモデルMDHiを生成する。これにより、品質面と速度面のトレードオフに優れた3Dモデル生成を行うことができる。
3Dモデル出力部106は、高解像モデル生成部105で得られた3Dモデルを出力する機能を有する。高解像ボクセルモデルMDHiは多数のボクセルで形成されるボリュームデータであるが、一般的に3Dモデルデータはポリゴンモデルとして扱う方が都合の良いケースも多い。このとき、例えばマーチンキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換する機能を具備し、ポリゴンモデルとして3Dモデルを出力する機能を有していてもよい。
なお、上記の実施形態では3DバウンディングボックスBB(または低解像ボクセルモデルMDLo)の分類結果のみに基づいて、高解像ボクセルモデルMDHiを生成する際の単位ボクセルの第2サイズM2が決定されるものとして説明したが、本発明はこれのみに限定されるものではなく、リアルタイム性の観点から、高解像ボクセルモデルMDHiの生成に要する処理時間をも考慮して第2サイズM2が決定されるようにしても良い。
例えば、本実施形態では3DバウンディングボックスBBのサイズおよび個数が3Dバウンディングボックス生成部103にとって既知であり、そのボクセル領域の合計が計算範囲となる。一般的に、視体積交差法の処理時間はボクセル数に比例するところ、ボクセル領域内のボクセル数は単位ボクセルサイズに依存するので、単位ボクセルサイズ(第2サイズ)ごとに全体の処理時間を高い精度で見積もることができる。
したがって、ボールに適用する第2サイズM2は1cmに固定する一方、ボール以外に適用する第2サイズM2は、残りの処理時間を残りの総ボクセル数で除した値に基づいて動的に決定するようにしても良い。
あるいは、ボールに適用する第2サイズM2は1cmに固定する一方、ボール以外の分類結果には予め優先度を付しておき、優先度のより高い分類結果により小さな第2サイズM2が割り当てられるように、残りの処理時間および優先度に基づいて、ボール以外に適用する第2サイズM2を動的に決定するようにしても良い。
さらに、上記の実施形態では全ての3DバウンディングボックスBBがいずれかの被写体に分類されるものとして説明したが、本発明はこれのみに限定されるものではなく、例えば第1指標を採用する際に、サイズが所定の基準サイズよりも小さい3DバウンディングボックスBBはノイズとみなして排除しても良い。
また、第2指標を採用するのであれば、被写体が存在し得ない位置の3DバウンディングボックスBBはノイズとみなして排除しても良い。さらに、第3指標ないし第5指標のように認識ベースの指標を採用するのであれば、認識尤度が所定の閾値を下回る3DバウンディングボックスBBはノイズとみなして排除しても良い。
さらに、上記の実施形態では、3Dバウンディングボックス毎にその内側は同一の第2サイズM2が適用されるものとして説明したが、本発明はこれのみに限定されるものではなく、被写体の部位ごとに第2サイズM2を異ならせても良い。
例えば、前記第5指標を採用することで3Dバウンディングボックスが人物に分類されており、かつその顔領域や背番号領域を識別できていれば、当該顔領域や背番号領域の第2サイズM2aを他の領域の第2サイズM2bよりもさらに小さく(M2a<M2b)しても良い。
さらに、上記の実施形態では3Dバウンディングボックス内の全てのボクセル領域に視体積交差法を適用して単位ボクセルが第2サイズM2の高解像ボクセルモデルMDHiを生成するものとして説明したが、本発明はこれのみに限定されるものではなく、低解像ボクセルモデルMDLoのボクセル領域のみを対象にしても良い。
101...シルエット画像取得部,102...低解像モデル生成部,103...3Dバウンディングボックス生成部,104...単位ボクセルサイズ決定部,104a...分類部,105...高解像モデル生成部,106...3Dモデル出力部

Claims (14)

  1. 多視点映像から被写体の3DCGモデルを生成する3Dモデル生成装置において、
    多視点映像から視点ごとにシルエット画像を取得する手段と、
    シルエット画像から視体積交差法によりボクセルサイズが第1サイズの低解像ボクセルモデルを被写体ごとに生成する低解像モデル生成手段と、
    低解像ボクセルモデルごとに、その特徴に基づいて前記第1サイズよりも小さい第2サイズを決定するボクセルサイズ決定手段と、
    低解像ボクセルモデルごとにボクセルサイズが前記決定した第2サイズの高解像ボクセルモデルを生成する高解像モデル生成手段と、
    前記高解像ボクセルモデルに基づいて被写体の3DCGモデルを出力する手段とを具備したことを特徴とする3Dモデル生成装置。
  2. 前記ボクセルサイズ決定手段は、各低解像ボクセルモデルをその特徴に基づいて分類する手段を具備し、
    前記分類の結果に基づいて第2セルサイズを決定することを特徴とする請求項1に記載の3Dモデル生成装置。
  3. 前記分類する手段は、各低解像ボクセルモデルをそのサイズに基づいて分類することを特徴とする請求項2に記載の3Dモデル生成装置。
  4. 前記分類する手段は、各低解像ボクセルモデルをその位置に基づいて分類することを特徴とする請求項2または3に記載の3Dモデル生成装置。
  5. 前記分類する手段は、各低解像ボクセルモデルをその形状に基づいて分類することを特徴とする請求項2ないし4のいずれかに記載の3Dモデル生成装置。
  6. 前記分類する手段は、各低解像ボクセルモデルをその逆投影マスクが重なる2D画像上の領域に対する被写体の認識結果に基づいて分類することを特徴とする請求項2ないし5のいずれかに記載の3Dモデル生成装置。
  7. 前記分類する手段は、低解像ボクセルモデルごとにその逆投影マスクと重なる2D画像上の領域が人物領域であるか否を識別し、人物領域であると、その所定部位の画像特徴に基づいて各低解像ボクセルモデルを分類することを特徴とする請求項2ないし6のいずれかに記載の3Dモデル生成装置。
  8. 低解像ボクセルモデルごとにその3Dバウンディングボックスを生成する手段を更に具備し、
    前記高解像モデル生成手段は、3Dバウンディングボックス内を第2サイズで視体積交差法によりモデル化することで高解像ボクセルモデルを生成することを特徴とする請求項1ないし7のいずれかに記載の3Dモデル生成装置。
  9. 前記ボクセルサイズ決定手段は、低解像ボクセルモデルごとその高解像ボクセルモデルのボクセル数を推定し、全高解像ボクセルモデルのボクセル総数および許容される処理時間に基づいて第2サイズを決定することを特徴とする請求項1ないし7のいずれかに記載の3Dモデル生成装置。
  10. 前記ボクセルサイズ決定手段は、各低解像ボクセルモデルの特徴に基づいて、その高解像ボクセルモデルを生成しない低解像ボクセルモデルを判別し、当該判別された低解像ボクセルモデルの高解像ボクセルモデルを生成しないことを特徴とする請求項1ないし7のいずれかに記載の3Dモデル生成装置。
  11. 前記ボクセルサイズ決定手段は、低解像ボクセルモデルごとに優先度を設定し、許容される処理時間に基づいて、優先度の高い順に前記第2サイズで高解像ボクセルモデルを生成することを特徴とする請求項1ないし6のいずれかに記載の3Dモデル生成装置。
  12. 前記ボクセルサイズ決定手段は、3Dバウンディングボックス内で第2サイズを異ならせることを特徴とする請求項8に記載の3Dモデル生成装置。
  13. コンピュータが多視点映像から被写体の3DCGモデルを生成する3Dモデル生成方法において、
    多視点映像から視点ごとにシルエット画像を取得する手順と、
    シルエット画像から視体積交差法によりボクセルサイズが第1サイズの低解像ボクセルモデルを被写体ごとに生成する手順と、
    低解像ボクセルモデルごとに前記第1サイズよりも小さい第2サイズを決定する手順と、
    低解像ボクセルモデルの3Dバウンディングボックスごとにボクセルサイズが前記第2サイズの高解像ボクセルモデルを生成する手順と、
    前記高解像ボクセルモデルに基づいて被写体の3DCGモデルを出力する手順とを含むことを特徴とする3Dモデル生成方法。
  14. 各低解像ボクセルモデルをその特徴に基づいて分類する手順を含み、
    前記分類の結果に基づいて第2セルサイズを決定することを特徴とする請求項13に記載の3Dモデル生成方法。
JP2019195844A 2019-10-29 2019-10-29 3dモデル生成装置および方法 Active JP7290546B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019195844A JP7290546B2 (ja) 2019-10-29 2019-10-29 3dモデル生成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019195844A JP7290546B2 (ja) 2019-10-29 2019-10-29 3dモデル生成装置および方法

Publications (2)

Publication Number Publication Date
JP2021071749A true JP2021071749A (ja) 2021-05-06
JP7290546B2 JP7290546B2 (ja) 2023-06-13

Family

ID=75713133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019195844A Active JP7290546B2 (ja) 2019-10-29 2019-10-29 3dモデル生成装置および方法

Country Status (1)

Country Link
JP (1) JP7290546B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062760A1 (ja) 2021-10-13 2023-04-20 富士通株式会社 領域検出プログラム、装置、及び方法
JP7487266B2 (ja) 2022-08-15 2024-05-20 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018063635A (ja) * 2016-10-14 2018-04-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2018163467A (ja) * 2017-03-24 2018-10-18 Kddi株式会社 自由視点画像の生成表示方法、装置およびプログラム
JP2019036790A (ja) * 2017-08-10 2019-03-07 キヤノン株式会社 画像生成装置、画像生成方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018063635A (ja) * 2016-10-14 2018-04-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2018163467A (ja) * 2017-03-24 2018-10-18 Kddi株式会社 自由視点画像の生成表示方法、装置およびプログラム
JP2019036790A (ja) * 2017-08-10 2019-03-07 キヤノン株式会社 画像生成装置、画像生成方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062760A1 (ja) 2021-10-13 2023-04-20 富士通株式会社 領域検出プログラム、装置、及び方法
JP7487266B2 (ja) 2022-08-15 2024-05-20 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
JP7290546B2 (ja) 2023-06-13

Similar Documents

Publication Publication Date Title
Bozic et al. Transformerfusion: Monocular rgb scene reconstruction using transformers
Olszewski et al. Transformable bottleneck networks
CN113706714A (zh) 基于深度图像和神经辐射场的新视角合成方法
EP1093616B1 (en) Method and system for capturing and representing 3d geometry, color and shading of animated objects
US8824801B2 (en) Video processing
GB2418827A (en) Providing a volumetric representation of a three-dimensional object
Shimada et al. Ismo-gan: Adversarial learning for monocular non-rigid 3d reconstruction
US7209136B2 (en) Method and system for providing a volumetric representation of a three-dimensional object
Klenk et al. E-nerf: Neural radiance fields from a moving event camera
Alexiadis et al. Fast deformable model-based human performance capture and FVV using consumer-grade RGB-D sensors
JP7290546B2 (ja) 3dモデル生成装置および方法
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
Baudron et al. E3d: event-based 3d shape reconstruction
Menapace et al. Playable environments: Video manipulation in space and time
Igorevich Road images augmentation with synthetic traffic signs using neural networks
Rabby et al. Beyondpixels: A comprehensive review of the evolution of neural radiance fields
CN113065506B (zh) 一种人体姿态识别方法及系统
CN118076977A (zh) 使用分层神经表示的可编辑自由视点视频
US20240037829A1 (en) Computing images of controllable dynamic scenes
Roddick et al. On the road to large-scale 3d monocular scene reconstruction using deep implicit functions
Simoni et al. Future urban scenes generation through vehicles synthesis
Chen et al. Accurate human body reconstruction for volumetric video
Johnston et al. Single View 3D Point Cloud Reconstruction using Novel View Synthesis and Self-Supervised Depth Estimation
JP7465234B2 (ja) 3dモデル生成装置、方法及びプログラム
JP7245766B2 (ja) 3dモデル生成方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230426

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230601

R150 Certificate of patent or registration of utility model

Ref document number: 7290546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150