CN109690620B

CN109690620B - 三维模型生成装置以及三维模型生成方法

Info

Publication number: CN109690620B
Application number: CN201780055313.9A
Authority: CN
Inventors: 小山达也; 杉尾敏康; 松延徹; 吉川哲史; P·拉桑; C·王
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-09-12
Filing date: 2017-08-30
Publication date: 2023-05-30
Anticipated expiration: 2037-08-30
Also published as: WO2018047687A1; US20190208177A1; JP7002056B2; EP3511903A1; CN109690620A; EP3511903A4; JPWO2018047687A1; US10893251B2

Abstract

一种三维模型生成装置(200)，具有：转换图像生成部(202)，根据1个以上的影像数据(111)中包含的、视点相互不同的多个输入图像(211)的每一个，生成与该输入图像(211)相比像素数少的转换图像(212)；相机参数估计部(203)，检测多个转换图像(212)的特征点，基于多个转换图像(212)之间特征点类似的特征点对，估计分别拍摄多个输入图像(211)时的相机参数(213)；以及三维模型生成部(204)，使用多个输入图像(211)和相机参数(213)生成三维模型(214)。

Description

三维模型生成装置以及三维模型生成方法

技术领域

本发明涉及使用由1个以上的相机拍摄到的影像来生成三维模型的三维模型生成装置以及三维模型生成方法。

背景技术

近年来，正在研究使用通过从多视点拍摄人物或建筑物等被摄体而得到的多视点图像来测量被摄体的三维形状，并生成被摄体的三维模型的技术(例如，参照非专利文献1)。该技术在几何学地估计了构成多视点图像的各个图像被拍摄时的相机参数(相机的位置、朝向、像素单位的焦距、以及镜头畸变等)之后，使用估计出的相机参数将各图像上的各像素投影到三维空间上，由此生成被摄体的三维模型。通过生成被摄体的三维模型，能够实现由3D打印机进行的原型制作、地形或建筑物的构造识别、人物的行动识别以及能够以个人喜好的视点视听被摄体的自由视点影像的生成等服务。为了实现这些服务，高分辨率的三维模型是不可缺少的，因此需要具有4K或8K或其以上的高分辨率的图像。

但是，由于图像的分辨率越高，相机参数的估计所需的处理时间、以及存储容量以指数函数的方式增加，因此要求具有与高分辨率的三维模型生成相应的处理能力以及存储容量的计算机。

另外，提出了通过保存并利用对图像进行下采样而得到的低分辨率图像，以低存储容量测量某图像上的被摄体的距离信息的方法(例如，参照专利文献1)。

现有技术文献

专利文献

专利文献1：日本特开2015-056142号公报

非专利文献

非专利文献1：S.Agarwal，N.Snavely，I.Simon，S.M.Seitz and R.Szeliski，“Building Rome in a Day”，proc.International Conference on Computer Vision，2009，Kyoto，Japan.

发明内容

发明所要解决的课题

本发明的目的在于提供一种能够减少相机参数估计处理的处理量的三维模型生成装置或三维模型生成方法。

用于解决课题的手段

本发明的一个方式的三维模型生成装置具备：转换图像生成部，根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个，生成与该输入图像相比像素数少的转换图像；相机参数估计部，检测多个所述转换图像的特征点，基于在多个所述转换图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成部，使用所述多个输入图像和所述相机参数来生成三维模型。

本发明的一个方式的三维模型生成装置具备：滤波生成部，根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个，决定在检测特征点时搜索的像素；相机参数估计部，从所述搜索的像素中检测所述多个输入图像的特征点，基于在所述多个输入图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成部，使用所述多个输入图像和所述相机参数来生成三维模型。

发明的效果

本发明能够提供一种能够减少相机参数估计处理的处理量的三维模型生成装置或三维模型生成方法。

附图说明

图1是表示实施方式1的三维模型生成系统的结构的图。

图2A是表示实施方式1的二值图像的滤波例的图。

图2B是表示实施方式1的二值图像的滤波例的图。

图2C是表示实施方式1的二值图像的滤波例的图。

图2D是表示实施方式1的二值图像的滤波例的图。

图2E是表示实施方式1的二值图像的滤波例的图。

图2F是表示实施方式1的二值图像的滤波例的图。

图2G是表示实施方式1的二值图像的滤波例的图。

图2H是表示实施方式1的二值图像的滤波例的图。

图3A是表示实施方式1的灰度图像的滤波例的图。

图3B是表示实施方式1的灰度图像的滤波例的图。

图3C是表示实施方式1的灰度图像的滤波例的图。

图3D是表示实施方式1的灰度图像的滤波例的图。

图3E是表示实施方式1的灰度图像的滤波例的图。

图3F是表示实施方式1的灰度图像的滤波例的图。

图3G是表示实施方式1的灰度图像的滤波例的图。

图3H是表示实施方式1的灰度图像的滤波例的图。

图4是表示实施方式1的三维点组信息以及能够跳过处理的区域的图。

图5是表示实施方式1的三维模型生成系统的处理的流程图。

图6是用于说明决定基于实施方式1的拍摄时刻的多视点图像的一例的图。

图7是表示实施方式2的三维模型生成系统的结构的图。

图8是表示实施方式2的三维模型生成系统的处理的流程图。

图9是用于说明决定基于实施方式2的一定间隔的多视点图像的一例的图。

图10是表示实施方式3的三维模型生成系统的结构的图。

图11是表示实施方式3中的三维模型生成系统的处理的流程图。

图12是用于说明实施方式3中的三维模型生成处理的图。

图13是表示实施方式4的三维模型生成系统的结构的图。

图14是表示实施方式4中的三维模型生成系统的处理的流程图。

具体实施方式

(完成本发明的过程)

以往的方法是测量从某一视点拍摄到的一张图像上的被摄体的距离信息的方法。若得到上述距离信息，则能够生成从上述视点观察到的被摄体的局部的三维模型。例如，若得到从正面拍摄被摄体的图像上的被摄体的距离信息，则能够生成被摄体的正面部分的三维模型。但是，局部的三维模型在背景技术中叙述的服务的实现中难以利用。此外，在另一以往的方法中，由于将通过1个相机按时间序列拍摄的多个图像设为多视点图像，所以测量距离信息的被摄体限定为静止物体。

因此，在本发明中，提供能够以低处理以及低存储容量生成高分辨率的三维模型的装置。

另外，根据本发明的一个方式的三维模型生成装置，通过限定相机参数的估计所利用的像素并估计相机参数，能够以低处理以及低存储容量生成高分辨率的三维模型。另外，本发明的一个方式的三维模型生成装置也能够利用由多个相机拍摄到的多个影像并生成多视点图像，因此即使被摄体是静止物体、动态物体或者这两者，也能够生成被摄体的三维模型。

本发明的一个方式的三维模型生成装置具备：转换图像生成部，根据1个以上影像数据中包含的、视点相互不同的多个输入图像中的每一个，生成与该输入图像相比像素数少的转换图像；相机参数估计部，检测多个所述转换图像的特征点，基于在多个所述转换图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成部，使用所述多个输入图像和所述相机参数来生成三维模型。

由此，由于使用与输入图像相比像素数少的转换图像进行相机参数估计处理，所以能够减少相机参数估计处理的处理量。

例如，所述转换图像生成部也可以通过提取所述输入图像内的预先确定的多个像素位置的像素来生成所述转换图像。

例如，所述转换图像生成部还可以对所述多个像素位置的每一个设定优先级，所述相机参数估计部优先使用所述优先级高的像素位置的像素来估计所述相机参数。

由此，能够高效地进行相机参数估计处理。

例如，所述转换图像生成部也可以基于所述影像的内容或拍摄状况，提取不同的像素位置的像素。

由此，能够根据影像的内容或拍摄状况而使用适当的像素，因此能够高效地进行相机参数估计处理。

例如，所述多个像素位置也可以是所述输入图像的中央附近。

由此，能够使用畸变的影响少的区域，因此能够提高处理精度。

例如，所述多个像素位置也可以包含所述输入图像的四角的区域。

由此，能够使用畸变的影响大的区域，从图像提取该畸变。

例如，所述转换图像生成部也可以通过对所述输入图像进行下采样来生成所述转换图像。

由此，能够使用图像内的所有区域的信息来估计相机参数。

例如，所述相机参数估计部可以基于所述下采样中的缩小倍率来修正使用所述转换图像估计出的相机参数，所述三维模型生成部使用修正后的所述相机参数和所述多个输入图像来生成所述三维模型。

由此，在使用被下采样的转换图像的情况下，能够适当地估计原来的输入图像的相机参数。

另外，本发明的一个方式的三维模型生成方法包含：转换图像生成步骤，根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个，生成与该输入图像相比像素数少的转换图像；相机参数估计步骤，检测多个所述转换图像的特征点，基于在多个所述转换图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成步骤，使用所述多个输入图像和所述相机参数来生成三维模型。

另外，本发明的一个方式的三维模型生成装置具备：滤波生成部，根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个，决定在检测特征点时搜索的像素；相机参数估计部，从所述搜索的像素中检测所述多个输入图像的特征点，基于在所述多个输入图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成部，使用所述多个输入图像和所述相机参数来生成三维模型。

由此，由于使用输入图像的一部分像素来进行相机参数估计处理，因此能够减少相机参数估计处理的处理量。

例如，所述搜索的像素的总数可以比所述输入图像的像素数少。

例如，所述滤波生成部也可以将预先确定的多个像素位置的像素决定为所述搜索的像素。

例如，所述滤波生成部还可以对所述多个像素位置的每一个设定优先级，所述相机参数估计部优先使用所述优先级高的像素位置的像素来估计所述相机参数。

由此，高效地进行相机参数估计处理。

由此，能够使用畸变的影响大的区域，从图像中提取该畸变。

例如，所述滤波生成部可以基于所述影像的内容或拍摄状况来决定所述搜索的像素。

由此，能够根据影像的内容或拍摄状况而使用适当的像素，从而高效地进行相机参数估计处理。

另外，本发明的一个方式的三维模型生成方法包含：滤波生成步骤，根据1个以上影像数据中包含的、视点相互不同的多个输入图像中的每一个，生成在检测特征点时搜索的像素；相机参数估计步骤，从所述搜索的像素中检测所述多个输入图像的特征点，基于在所述多个输入图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；以及三维模型生成步骤，使用所述多个输入图像和所述相机参数来生成三维模型。

由此，由于使用输入图像的一部分像素来进行相机参数估计处理，所以能够减少相机参数估计处理的处理量。

另外，本发明的一个方式的程序是用于使计算机执行如下步骤的程序：转换图像生成步骤，根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个，生成与该输入图像相比像素数少的转换图像；相机参数估计步骤，检测多个所述转换图像的特征点，基于在多个所述转换图像之间所述特征点类似的特征点对，估计分别拍摄所述多个输入图像时的相机参数；三维模型生成步骤，使用所述多个输入图像和所述相机参数来生成三维模型。

以下，参照附图对实施方式进行具体说明。

另外，以下说明的实施方式均表示本发明的一个具体例。在以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置以及连接方式、步骤、步骤的顺序等是一例，并不意图限定本发明。另外，关于以下的实施方式中的构成要素中的、表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素进行说明。

(实施方式1)

首先，说明本实施方式1的三维模型生成系统的结构。图1是表示本实施方式的三维模型生成系统的结构的图。

本实施方式1的三维模型生成系统具备多个相机101和三维模型生成装置200，该多个相机101对被摄体100进行拍摄，该三维模型生成装置200被输入由多个相机101拍摄的多个影像即影像数据111。另外，在图1中还图示了由三维模型生成装置200提供三维模型的终端用户300。被摄体100包含静止的静止物体或者人物等的动态物体、或者这两者。作为包含静止物体和动态物体的被摄体的例子，有篮球等运动的比赛、或者人物或车存在的街道等。

各相机101拍摄被摄体100，将拍摄到的影像数据111输出到三维模型生成装置200。作为整体，2台以上的相机101拍摄被摄体100。即，2台以上的相机101从相互不同的视点拍摄同一场景(被摄体100)。各个相机101通过有线或无线与输入部201自身、或者通信设备或服务器等集线器(未图示)连接，使得由相机101拍摄到的影像数据111被输入到三维模型生成装置200的输入部201。另外，由相机101拍摄到的影像数据111可以实时地输出，也可以在影像数据111被暂时记录到存储器或云服务器等外部存储装置中后，从这些外部存储装置输出影像数据111。

另外，相机101可以分别是监视相机等固定相机，也可以是摄像机、智能手机或者可穿戴相机等便携相机，也可以是带拍摄功能的无人机等移动相机。

三维模型生成装置200具备输入部201、转换图像生成部202、相机参数估计部203、三维模型生成部204以及输出部205。三维模型生成装置200至少具备计算机系统，该计算机系统具有处理器或逻辑电路等处理电路和内部存储器或可访问的外部存储器等记录装置。三维模型生成装置200通过基于处理电路的硬件安装、或者通过基于处理电路执行保持在存储器或从外部服务器分发的软件程序、或者通过这些硬件安装和软件安装的组合来实现。

输入部201若接收到多个影像数据111，则对多个影像数据111进行预处理。预处理例如是亮度调整、影像尺寸调整、白平衡调整、噪声去除、或者用于使帧率一致的帧转换、或者它们的组合。输入部201将进行了预处理后的多个影像数据111分别分割为作为帧的输入图像211，提取在同时刻拍摄到的多个输入图像211，将所提取出的同时刻拍摄的多个输入图像211的组即多视点图像组输出到转换图像生成部202以及三维模型生成部204。在同时刻拍摄的多个输入图像211的提取中，利用图像信息、在各相机101的拍摄时与影像同时被记录的时间信息或声音信息、或者它们的组合。或者，也可以通过有线或无线方式连接多个相机101，在同时刻由多个相机101开始拍摄，由此提取在同时刻拍摄的多个帧。另外，输入部201从拍摄时刻早的多视点图像组依次输出。

转换图像生成部202根据1个以上的影像数据111中包含的、视点相互不同的多个输入图像211的每一个，生成比该输入图像211像素数少的转换图像212。具体而言，转换图像生成部202在检测构成多视点图像组的各输入图像211上的特征点时，按每个输入图像211决定限制搜索的区域的滤波器，使用所决定的滤波器根据输入图像211生成转换图像212，并将生成的转换图像212输出到相机参数估计部203。

滤波器例如是与各输入图像211横竖的尺寸相同、各像素的值为0(黑)或1(白)的二值图像、或者各像素的值为具有0(黑)～1(白)之间的值的灰度图像。另外，特征点表示图像中包含的物体的轮廓、物体或空间的角、或者物体彼此的交叉点那样的点、边缘或一定区域与其周围的亮度或色调的差别大的点、边或一定区域。

图2A～图2H是表示由转换图像生成部202决定的二值图像的滤波器例的图。在利用二值图像的滤波器时，提取位于与滤波器的像素值为1的像素相同的像素位置的输入图像211的像素，并生成转换图像212，即，转换图像生成部202通过提取输入图像211内的预先确定的多个像素位置的像素来生成转换图像212。

图3A～图3H是表示由转换图像生成部202决定的灰度图像的滤波器例的图。在利用灰度图像的滤波器时，提取位于与滤波器的像素值具有大于0的值的像素相同的像素位置的输入图像211的像素，并对提取出的像素赋予表示滤波器的像素值的信息，由此生成转换图像212。即，转换图像生成部202进一步对转换图像212的各个像素设定优先级，相机参数估计部203优先使用优先级高的像素，估计相机参数。

另外，通过利用图2A～图2H或者图3A～图3H所示的滤波器，能够得到与提取图像中的需要区域的操作(剪裁)同等的效果。

另外，所使用的滤波器可以事先由用户指定，也可以根据图像信息或拍摄状况而自动地决定。即，转换图像生成部202也可以基于影像的内容或拍摄状况，提取不同的像素位置的像素。

例如，在人物、文字或建筑物等的特征点容易检测的物体位于帧中央时，如图2A、图2B、图3A或图3B所示，选择搜索帧中央的像素的滤波器。另外，帧上的人物、文字或建筑物等物体的区域可以由检测器自动检测，也可以事先给出。例如，能够使用面部检测或像素的特征来检测帧上的人物、文字或建筑物等物体。

即，也可以使用图像信息，确定容易检测特征点的物体的位置，提取包含该物体的位置的像素位置的多个像素。例如，该像素位置是输入图像211的中央附近。另外，作为拍摄状况，例如也可以输入拍摄人物等的信息，并根据该拍摄状况来选择滤波器。

另外，在估计镜头畸变的情况下，如图2F、图2H、图3F或者图3H所示，转换图像生成部202选择搜索帧上的大范围的像素的滤波器。另外，在估计鱼眼镜头等的畸变的情况下，如图2F、图2G、图2H、图3F、图3G或图3H所示，转换图像生成部202也可以选择搜索包含帧的四角的区域的滤波器。即，可以提取包含输入图像211的四角的区域的像素位置的像素。在该情况下，作为拍摄状况，可以输入相机的信息(有无畸变)，也可以由用户输入表示有无畸变的信息。

另外，图2A～图2H以及图3A～图3H中记载的滤波器是一例，不限定于白区域以及黑区域的形状、面积比例、数量、位置关系等，所有对在检测特征点时搜索的帧区域进行限制的滤波器都能够被利用。对1个帧使用的滤波器为1种以上，也可以使用多个滤波器来限制搜索区域。

相机参数估计部203检测多个转换图像212的特征点，基于多个转换图像212间特征点类似的特征点对，估计分别拍摄多个输入图像211时的相机参数。具体而言，相机参数估计部203搜索与构成多视点图像组的全部输入图像211对应的转换图像212上的像素，检测特征点并存储表示检测出的特征点的特征点信息。特征点信息是用向量表现相对于以特征点为大致中心或包含特征点在内的确定的范围的像素的颜色或亮度梯度的分布的信息。

例如，在生成转换图像212时利用的滤波器是图2A～图2H所示的二值图像的情况下，相机参数估计部203对转换图像212上的全部像素进行特征点的搜索以及检测。另外，在生成转换图像212时利用的滤波器是图3A～图3H所示的灰度图像的情况下，对转换图像212上的全部像素进行特征点的搜索以及检测，在检测出的特征点的数量多于规定的数量时，删除赋予给像素的优先级低的像素位置的特征点，使特征点的数量为规定的数量以下。或者，从转换图像212上的像素的优先级高的像素位置优先地进行特征点的搜索以及检测，在检测出规定数量的特征点的时点或者像素值为0以外的像素全部已被搜索的时点结束搜索。

这样，通过利用使用滤波器生成的转换图像212来搜索特征点，能够限制搜索的像素，因此能够削减特征点的检测所需的处理量以及存储容量。另外，通过限制特征点的搜索区域，特征点的数量变少。由此，还能够削减特征点信息计算所需的处理量以及存储容量。相机参数估计部203在计算特征点信息时，可以利用以特征点为大致中心或包含特征点在内的确定的范围内的全部像素，也可以仅利用以特征点为大致中心或包含特征点在内的确定的范围内且转换图像212的优先级为一定值以上的像素。

相机参数估计部203在记录了构成多视点图像组的所有转换图像212的特征点信息之后，将2个转换图像212中分别包含的特征点中特征点信息类似的特征点作为特征点对导出。进而，相机参数估计部203计算特征点对的转换图像212上的各二维坐标，记录包含计算出的坐标在内的匹配信息。另外，将类似的特征点称为匹配点。关于特征点信息是否类似的判定，例如使用特征点信息的平方误差或绝对误差。

当得到匹配信息时，相机参数估计部203基于极线约束等的几何约束或光束平差法等的非线性最优化方法来估计构成多视点图像组的所有输入图像211被拍摄时的各相机101的相机参数213，并且将所估计的多个相机参数213输出到三维模型生成部204。在此，所谓相机参数213包含相机的三维空间中的中心坐标、朝向、像素单位的焦距、镜头畸变系数等。另外，相机参数估计部203可以估计相机的三维坐标、朝向、像素单位的焦距、镜头畸变系数等的全部参数，也可以利用事先校正后的一部分参数，仅估计剩余的参数。另外，相机参数估计部203也可以利用匹配信息和估计出的相机参数213，基于三角测量的原理计算各匹配点的三维空间中的坐标，将包含匹配信息和匹配点的三维坐标在内的信息即三维点组信息输出到三维模型生成部204。

三维模型生成部204使用由输入部201得到的多视点图像组(多个输入图像211)和由相机参数估计部203得到的相机参数213，生成被摄体100的三维模型214，并向输出部205输出三维模型214。在此，三维模型214是指：(1)由具有三维位置信息、颜色信息、以及梯度信息等的点构成的点云模型；(2)除了上述点云模型所具有的信息之外还具有点云内的各点之间的连接关系信息的网格模型；或者(3)以一定间隔分割三维空间，具有分割出的小空间(体素)内的颜色信息、梯度信息、有无点的信息等的体素模型等。

在三维模型生成中能够利用多重立体匹配法(Multi Stereo Matching)或视体积交叉法(Shape from Silhouettes)等一般的三维模型生成法。在使用多重立体匹配法的情况下，三维模型生成部204对各帧的各像素检测匹配点，在通过各匹配点与相机的中心坐标的直线交叉的点投影匹配点，由此生成被摄体的三维模型。另外，三维模型生成部204在检测匹配点时，也可以利用从相机参数估计部203得到的三维点组信息中的匹配信息，削减与匹配点的检测相关的处理量。

另外，三维模型生成部204也可以如图4所示，根据从相机参数估计部203得到的三维点组信息中的匹配点的三维坐标，检测以足够的密度计算出三维点的匹配点的密度高的区域和以足够的密度计算出三维点的匹配点的密度低的区域，如果是与匹配点的密度高的区域对应的像素则跳过匹配点的检测处理或匹配点的投影处理。由此，三维模型生成部204能够削减匹配点的检测处理或匹配点的投影处理所需的处理量。

在使用视体积交叉法的情况下，三维模型生成部204将各输入图像211内的被摄体的剪影向三维空间投影，将基于各投影的视体积的共同部分作为三维模型。或者，三维模型生成部204将三维空间的体素向各输入图像211反向投影，仅保留反向投影的点位于各输入图像211内的被摄体的剪影的内部的体素，作为三维模型。能够通过取得事先拍摄的背景图像与输入图像之间的差分来提取在视体积交叉法中所需的被摄体的剪影。另外，三维模型生成部204也可以利用在由转换图像生成部202选择了滤波器时利用的物体的区域信息或者从相机参数估计部203得到的三维点组信息或者物体识别信息，提取被摄体的剪影。

这样，三维模型生成部204通过利用由相机101拍摄的原始分辨率的输入图像211的全部像素来生成三维模型214，能够生成分辨率高的三维模型214。

输出部205在接收到三维模型214时，将三维模型214显示或存储于三维模型生成装置200所具备的显示器或存储介质、或者经由有线或无线而连接的显示器或存储介质，从而将三维模型214分发到终端用户300。此外，输出部205也可以经由网络将三维模型214分发到终端用户300的终端上的画面或存储介质。另外，在分发三维模型214时，输出部205也可以通过对三维模型214进行可逆或不可逆压缩来抑制传输容量以及存储容量。另外，在将三维模型214显示于显示器或者终端用户300的终端上的画面时，输出部205也可以渲染三维模型，将三维模型转换为从任意的视点观察到的二维图像，分发并显示该二维图像。另外，输出部205也可以将三维模型214显示于全息图或三维显示器等。另外，输出部205也可以根据三维模型214的点的密度信息等检测在三维模型214中分辨率不足的区域，将能够拍摄该区域的视点作为缺损视点向终端用户300提示。

终端用户300在确认在显示器或终端上的画面被渲染的二维图像时，能够通过鼠标操作或触摸操作进行图像的放大、缩小、或视点的方向转换等操作。由此，终端用户300能够从360度的所有视点确认三维模型214。终端用户300也可以通过由输出部205进行的缺损视点的提示或通过由目视确认三维模型，将来自不足的视点的影像输入到三维模型生成装置200，再次制作三维模型。

接着，使用图5说明本实施方式中的三维模型生成系统的处理流程的例子。以下，对将通过3个相机C1、C2、C3拍摄运动人物而得到的影像V1、V2、V3输入到输入部201的情况进行说明。

首先，输入部201对影像V1、V2、V3进行预处理，将影像V1、V2、V3分别分割为帧(输入图像211)(步骤S11)。在此，作为例子，影像V1、V2、V3分别被分割为5个帧V1_1～V1_5、V2_1～V2_5、V3_1～V3_5。

之后，如图6所示，输入部201从各个影像中提取在同时刻拍摄的帧，将在提取出的同时刻拍摄的多个帧决定为一个多视点图像组，将各个多视点图像组存储在缓冲器中(步骤S12)。在此，输入部201提取各帧被赋予的拍摄时间为同时刻的帧。例如，输入部201提取V1_1、V2_1作为多视点图像组。另外，在影像间没有同时刻的帧的情况下，输入部201也可以如图6的V1_1、V2_1和V3_2那样，将拍摄时刻最近的帧包含在多视点图像组中。

当一个以上多视点图像组被存储在缓冲器中时，转换图像生成部202从缓冲器中取出拍摄时刻最早的多视点图像组(步骤S13)。接着，转换图像生成部202对构成多视点图像组的各帧(V1_1、V2_1、V3_2)决定滤波器(步骤S14)。通过帧的图像信息、拍摄状况或者事先的用户指定来决定滤波器。例如，在帧V1_1中提取出很多特征点的人物在帧中央被检测到，且对帧V1_1赋予镜头畸变信息的情况下，转换图像生成部202选择在帧中央检测特征点的图2A所示的滤波器。另外，在帧V2_1中与帧V1_1同样地，人物在帧中央被检测到但未被赋予镜头畸变信息而需要估计的情况下，转换图像生成部202选择在大范围内检测特征点的图2F所示的滤波器等。由于镜头畸变的影响在帧的外侧的像素中较大，因此在镜头畸变的估计中能够检测帧外侧的特征点的滤波器是有效的。此外，帧V3_2是在整个帧中检测到人物，并且转换图像生成部202选择能够从帧上的大范围中检测特征点的图2H的滤波器。

接着，转换图像生成部202使用所决定的滤波器生成各帧的转换图像212(步骤S15)。

接着，相机参数估计部203对构成多视点图像组的各帧(V1_1、V2_1、V3_2)的转换图像212检测特征点，提取特征点信息(步骤S16)。

这样，各个帧中的特征点的搜索以及检测分别仅通过在步骤S14中决定的滤波器的白区域来实施。由此，能够以低处理以及低存储容量实施对相机参数有用的特征点的检测。

之后，相机参数估计部203通过比较2帧之间的特征点信息来检测匹配点，生成表示匹配点的匹配信息(步骤S17)。

当得到匹配信息时，相机参数估计部203基于极线约束等的几何约束或光束平差法等的非线性最优化方法来估计构成多视点图像组的各帧的相机参数213(步骤S18)。

最后，三维模型生成部204基于构成多视点图像组的各帧(输入图像211)和与各帧对应的相机参数213生成被摄体的三维模型214，将该三维模型214存储于存储介质或者显示于显示器(步骤S19)。

在对所有多视点图像组的处理未结束的情况下(在步骤S20中为“否”)，从缓冲器中取出下一个多视点图像组(步骤S13)，对该多视点图像组进行步骤S14以后的处理。另外，在对所有多视点图像组的处理已结束的情况下(在步骤S20中为“是”)，三维模型生成装置200结束处理。

另外，针对由如下相机101拍摄到的输入图像211，也可以省略步骤S14～S18的处理，该相机101是在第2轮以后判断为相机C1、C2、C3的相机参数未从上一次的值变化的相机。相机参数是否从上一次的值变化例如能够通过利用搭载于相机101的振动传感器、GPS传感器以及加速度传感器中的至少一个来检测相机101的运动来判断。或者，也可以通过利用图像信息检测相机101的运动或变焦的变化来判断相机参数的变化的有无。或者，在固定相机的情况下，也可以判断为相机参数不变化。由此，在相机101运动时或者焦距已变化时，估计并修改相机参数，从而能够高效地估计三维模型。

通过上述处理，生成每个拍摄时刻的三维模型214。通过将其按照时刻先后顺序显示于显示器，也能够将动态物体的三维模型显示为影像。另外，终端用户300确认在步骤S19或者步骤S20中为“是”之后显示的三维模型214，在由终端用户300判断为三维模型214的分辨率不足的情况下，三维模型生成装置200也可以取得来自不足的视点的影像数据111，再次制作三维模型214。

这样，根据本实施方式的三维模型生成系统，通过在各帧上的特征点的搜索、检测以及特征点信息的提取时利用滤波器，能够削减访问以及存储的像素数据，能够削减相机参数估计所需的处理量以及存储容量。另一方面，在生成三维模型时能够利用各帧的全部像素，因此能够生成高分辨率的三维模型。另外，由于将拍摄时刻相同的多个帧作为一个多视点图像组并生成三维模型，因此即使被摄体100是静止物体、动态物体或者这两者，都能够生成被摄体100的三维模型。在上述中，说明了将一定区间的影像数据111输入到三维模型生成装置200的例子，但也可以在每次从相机101拍摄1帧时输入影像数据111。

(实施方式2)

接着，说明实施方式2的三维模型生成系统的结构。图7是表示本实施方式的三维模型生成系统的结构的图。如图7所示，在本实施方式中，被摄体100A是静止物体。另外，被摄体100A由1台相机101拍摄。此外，相机101在改变位置(视点位置)的同时拍摄被摄体100A。此外，与实施方式1同样地，相机101也可以是多台。另外，三维模型生成装置200A的处理内容与实施方式1不同。另外，以下，主要说明与之前的实施方式的不同点，省略重复的说明。

相对于实施方式1的三维模型生成装置200，三维模型生成装置200A主要是输入部201的动作不同。具体而言，多视点图像组的提取方法不同。

输入部201若接收到1个以上的影像数据111，则对1个以上的影像数据111，与实施方式1同样地进行预处理。接着，输入部201在预处理后，将1个以上的影像数据111分别分割为作为帧的输入图像211，从其中提取一定数量的输入图像211，将提取出的多个输入图像211的组即多视点图像组输出到转换图像生成部202以及三维模型生成部204。

在此，输入部201在一定数量的输入图像211的提取中，利用图像信息提取来自不同视点的输入图像211，或者从各个影像以一定间隔提取输入图像211，或者利用内置在相机101中的GPS传感器、或者加速度传感器等而提取从离开一定距离以上的视点拍摄到的输入图像211。另外，输入部201可以提取所有输入图像211作为多视点图像组。

图8是表示本实施方式的三维模型生成系统的处理流程的图。以下，对通过1个相机C4从多视点拍摄作为静止物体的建筑物而得到的影像V4被输入到输入部201的情况进行说明。

首先，输入部201对影像V4进行预处理，将预处理后的影像V4分割为帧(输入图像211)(步骤S11)。在此，作为例子，影像V4被分割成10个帧V4_1～V4_10。之后，根据从如图9所示那样被分割的输入图像211，基于一定间隔的拍摄时刻，输入部201选择V4_1、V4_3、V4_5、V4_7以及V4_9，将所选择的多个输入图像211决定为多视点图像组(步骤S12A)。另外，输入部201也可以基于拍摄各输入图像211时的相机的位置或姿势，选择输入图像211。

另外，以后的步骤S14～S19与实施方式1相同。另外，与实施方式1同样地，终端用户300确认在步骤S19之后显示的三维模型214，在由终端用户300判断为三维模型214的分辨率不足的情况下，三维模型生成装置200A也可以取得来自不足的视点的影像数据111，再次制作三维模型214。

这样，根据本实施方式的三维模型生成系统，通过将被摄体100A限定为静止物体，不需要各相机101间的同步拍摄系统以及在同时刻拍摄的帧的提取处理等，因此能够以更少的处理量以及更便宜地生成高分辨率的三维模型。

(实施方式3)

在实施方式1中，叙述了使用滤波器生成转换图像212的例子。在本实施方式中，对通过下采样生成转换图像212B的情况进行说明。

首先，说明实施方式3的三维模型生成系统的结构。图10是表示本实施方式的三维模型生成系统的结构的图。图10所示的三维模型生成系统相对于实施方式1的三维模型生成系统，三维模型生成装置200B所具备的转换图像生成部202B以及相机参数估计部203B的功能不同。

当从输入部201接收到多视点图像组时，转换图像生成部202B以特定的缩小倍率对构成多视点图像组的各输入图像211进行下采样，从而生成转换图像212B。另外，转换图像生成部202B将所生成的转换图像212B和下采样所利用的缩小倍率输出到相机参数估计部203。这里，所谓下采样是生成分辨率比原来的输入图像211低的转换图像212B的处理，例如是使用对像素进行间隔剔除的处理、或者计算周边像素的平均值的滤波器等来减少像素数的处理等。

另外，进行下采样时的缩小倍率可以预先设定，也可以设定为转换图像212B成为事先设定的分辨率。或者，转换图像生成部202B也可以基于图像信息来设定缩小倍率。例如，由于针对大部分物体正在移动的输入图像211或具有高空间频率的输入图像211等可以提取大量的特征点，因此转换图像生成部202B可以对这样的输入图像211将缩小倍率设定得高。由此，通过对容易进行特征点的匹配的输入图像211提高缩小倍率，能够抑制相机参数估计的精度的降低，并且进一步减少处理量。另外，转换图像生成部202B可以按每个输入图像211设定缩小倍率，也可以对所有的输入图像211使用相同的缩小倍率。

当接收到多视点图像组的转换图像212B和缩小倍率时，相机参数估计部203B与实施方式1同样地从各转换图像212B提取特征点信息，基于各转换图像212B间的匹配信息，估计针对各转换图像212B的相机参数。另外，作为相机参数之一的像素单位的焦距根据图像的分辨率而变化，因此需要将利用转换图像212B而估计出的像素单位的焦距修正为相对于缩小前的输入图像211的像素单位的焦距。因此，相机参数估计部203B基于下采样中的缩小倍率来修正使用转换图像212B所估计的相机参数。具体而言，相机参数估计部203B通过下述的(式1)修正像素单位的焦距。

f’＝fk…(式1)

这里，f’是修正了的像素单位的焦距，f是利用转换图像212B所估计的像素单位的焦距，k是缩小倍率。相机参数估计部203B将修正了像素单位的焦距后的相机参数213B向三维模型生成部204输出。三维模型生成部204使用修正了的相机参数213B和多个输入图像211来生成三维模型214。

接着，使用图11说明本实施方式中的三维模型生成系统的处理流程的例子。另外，图11所示的处理相对于图5所示的处理的不同之处在于，步骤S14以及S15被置换为S15A这一点和追加了步骤S21这一点。另外，以后与实施方式1同样地，对将由3个相机C5、C6、C7拍摄运动人物而得到的影像V5、V6、V7输入到输入部201的情况进行说明。

步骤S11～S13与实施方式1相同，在步骤S13中取出包含从影像V5、V6、V7得到的帧V5_1、V6_1、V7_1的多视点图像组。转换图像生成部202B分别对构成多视点图像组的各帧(V5_1、V6_1、V7_1)设定各个缩小倍率k5、k6、k7，使用设定的缩小倍率对各帧进行下采样(步骤S15A)。将作为对各帧(V5_1、V6_1、V7_1)进行下采样而得到的帧的转换图像212B分别设为V5_1’、V6_1’、V7_1’。通过帧的图像信息、拍摄状况或者事先的用户指定来决定缩小倍率。在此，缩小倍率k5、k6、k7被设定为下采样后的分辨率在全部帧中相同。

接着，相机参数估计部203B对构成多视点图像组的各帧(V5_1’、V6_1’、V7_1’)检测特征点，提取特征点信息(步骤S16)。这样，在步骤S15A中对下采样的帧进行特征点的搜索以及检测，因此能够以低处理以及低存储容量实施对相机参数有用的特征点的检测。步骤S17、S18与实施方式1相同。

接着，在对估计出的各帧(V5_1’、V6_1’、V7_1’)的相机参数中包含像素单位的焦距的情况下，相机参数估计部203B利用上述(式1)修正像素单位的焦距(步骤S21)。步骤S19与实施方式1相同。

图12是示意性地表示上述处理的图。如图12所示，根据本实施方式中的三维模型生成系统，使用通过对输入图像211进行下采样而得到的转换图像212B来进行特征点的搜索、检测以及特征点信息的提取。由此，能够削减在这些处理中访问以及存储的像素数据，能够削减相机参数估计所需的处理量以及存储容量。

另一方面，由于使用下采样前的输入图像211进行三维模型的生成处理，因此能够生成高分辨率的三维模型。

(实施方式4)

在实施方式1中，叙述了使用滤波器生成转换图像212的例子。在本实施方式中，不生成使用了滤波器的转换图像212，在检测构成多视点图像组的各输入图像211上的特征点时使用滤波器来限制对输入图像211进行搜索的像素，本实施方式对该情况进行说明。

首先，说明实施方式4的三维模型生成系统的结构。图13是表示本实施方式的三维模型生成系统的结构的图。图13所示的三维模型生成系统相对于实施方式1的三维模型生成系统，代替转换图像生成部202而具备滤波器生成部202C，相机参数估计部203C的功能不同。

当从输入部201接收到多视点图像组时，滤波器生成部202C对每个输入图像211决定用于限制搜索的区域的滤波器。与实施方式1同样地，滤波器可以事先由用户指定，也可以根据图像信息或拍摄状况而自动地决定。滤波器生成部202C将输入图像211和对每个输入图像211决定的滤波器输出到相机参数估计部203C。即，滤波器生成部202C根据1个以上的影像数据中包含的、视点相互不同的多个输入图像211的每一个，决定在检测特征点时搜索的像素。此外，所决定的搜索的像素的总数比输入图像211的像素数少。

当接收到输入图像211和对每个输入图像211决定的滤波器时，相机参数估计部203C基于对应的滤波器从各输入图像211中提取特征点信息。具体而言，在所决定的滤波器是图2A～图2H所示的二值图像的情况下，相机参数估计部203C仅对位于与滤波器的像素值为1的像素相同的像素位置的输入图像211的像素进行特征点的搜索以及检测。另外，在滤波器是图3A～图3H所示的灰度图像的情况下，相机参数估计部203C仅对位于与滤波器的像素值具有大于0的值的像素相同的像素位置的输入图像211的像素进行特征点的搜索以及检测，在检测出的特征点的数量比规定的数量多时，删除位于滤波器的像素值小的像素位置的特征点，将特征点的数量设为规定的数量以下。或者，相机参数估计部203C从位于与滤波器的像素值大的像素相同的像素位置的输入图像211的像素优先地进行特征点的搜索以及检测，在检测到规定数量的特征点的时点、或所有与滤波器的像素值为0以外的像素位于相同的像素位置的输入图像211的像素都已被搜索的时点结束搜索。

在提取特征点信息之后，相机参数估计部203C基于各输入图像211间的匹配信息，估计对各输入图像211的相机参数213C。

像这样，相机参数估计部203C从由滤波器生成部202C决定的搜索的像素中检测多个输入图像211的特征点，并且基于多个输入图像211之间特征点相似的特征点对，估计在多个输入图像211中的每一个被拍摄时的相机参数213C。例如，滤波器生成部202C将预先确定的多个像素位置的像素决定为搜索的像素。例如，滤波器生成部202C还对多个像素位置的每一个设定优先级。相机参数估计部203C优先使用优先级高的像素位置的像素，估计相机参数213C。例如，上述预先确定的多个像素位置是输入图像211的中央附近。或者，上述预先确定的多个像素位置包含输入图像211的四角的区域。另外，滤波器生成部202C基于影像的内容或拍摄状况，决定搜索的像素。

接着，使用图14说明本实施方式中的三维模型生成系统的处理流程的例子。另外，相对于图5所示的处理，图14所示的处理在步骤S15被删除这一点和步骤S16置换为S16A这一点不同。另外，以下，与实施方式1同样地，对将由3个相机C8、C9、C10拍摄运动人物而得到的影像V8、V9、V10输入到输入部201的情况进行说明。

步骤S11～S14与实施方式1相同，取出包含从影像V8、V9、V10得到的帧V8_1、V9_1、V10_1的多视点图像组(步骤S13)，滤波器生成部202C对构成多视点图像组的各帧(V8_1、V9_1、V10_1)决定滤波器(步骤S14)。接着，相机参数估计部203C基于与构成多视点图像组的各帧(V8_1、V9_1、V10_1)对应的滤波器来检测特征点，提取特征点信息(步骤S16A)。这样，基于在步骤S14中决定的滤波器来限制进行特征点的搜索以及检测的像素，因此能够以低处理以及低存储容量实施对相机参数有用的特征点的检测。步骤S17～S20与实施方式1相同。

根据本实施方式中的三维模型生成系统，基于按每个输入图像211决定的滤波器来限定进行特征点的搜索以及检测的输入图像211上的像素。由此，能够削减在这些处理中访问及存储的特征点信息。其结果，能够削减相机参数估计所需的处理量和存储容量。

以上，对实施方式的三维模型生成系统进行了说明，但本发明并不限定于该实施方式。

另外，上述实施方式的三维模型生成装置所包含的各处理部典型地作为集成电路即LSI来实现。它们既可以个别地单芯片化，也可以以包含一部分或全部的方式单芯片化。

另外，集成电路化不限于LSI，也可以通过专用电路或通用处理器来实现。也可以利用能够在LSI制造后编程的FPGA(Field Programmable Gate Array：现场可编程门阵列)、或者可重构LSI内部的电路单元的连接或设定的可重构处理器。

即，在上述各实施方式中，各构成要素也可以通过由专用的硬件构成、或者执行适合于各构成要素的软件程序来实现。各构成要素也可以通过CPU或处理器等的程序执行部将记录在硬盘或半导体存储器等记录介质中的软件程序读出并执行来实现。

另外，框图中的功能块的分割是一例，也可以将多个功能块作为一个功能块来实现，或者将一个功能块分割为多个，或者将一部分功能移至其他功能块。另外，也可以由单一的硬件或软件并行或分时地处理具有类似功能的多个功能块的功能。

另外，执行流程图中的各步骤的顺序是为了具体说明本发明的例示，也可以是上述以外的顺序。另外，上述步骤的一部分也可以与其他步骤同时(并行)地执行。

以上，基于实施方式对一个或多个方式的三维模型生成装置进行了说明，但本发明并不限定于该实施方式。只要不脱离本发明的主旨，对本实施方式施加本领域技术人员想到的各种变形、组合不同实施方式中的构成要素而构筑的方式也可以包含在一个或多个方式的范围内。

产业上的可利用性

本发明能够应用于三维模型生成装置或三维模型生成系统，例如，能够应用于模型制作、地形或建筑物的构造识别、人物的行动识别、或者自由视点影像的生成等。

附图标记说明

100、100A 被摄体

101 相机

111 视频数据

200、200A、200B 三维模型生成装置

201 输入部

202、202B 转换图像生成部

202C 滤波器生成部

203、203B、203C 相机参数估计部

204 三维模型生成部

205 输出部

211 输入图像

212、212B 转换图像

213、213B、213C 相机参数

214 三维模型

300 终端用户

Claims

1.一种三维模型生成装置，具有：

存储器，存储程序；以及

处理器，执行所述程序并控制所述三维模型生成装置，使所述三维模型生成装置执行：

对于1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个输入图像，通过提取所述输入图像内的预先确定的多个像素位置的像素，生成从该输入图像转换后的转换图像，

检测多个所述转换图像的特征点，基于在两个所述转换图像之间的一对类似的特征点，对每个所述输入图像估计拍摄所述输入图像时的相机参数，

使用所述多个输入图像和多个所述相机参数来生成三维模型，

对所述预先确定的多个像素位置中的每一个进行优先排序，使得所述多个输入图像的每一个输入图像的四角的像素位置的优先级设置为比所述预先确定的多个像素位置的剩余像素位置的优先级高，与所述剩余像素位置相比，所述四角的所述像素位置受镜头畸变的影响更大，

所述相机参数优先使用所述四角的所述像素位置的像素来估计。

2.根据权利要求1所述的三维模型生成装置，所述处理器还执行所述程序并控制所述三维模型生成装置，使所述三维模型生成装置基于所述影像数据的内容或所述影像数据的拍摄细节，使用不同的优先级。

3.根据权利要求1所述的三维模型生成装置，

所述预先确定的多个像素位置的所述剩余像素位置包括所述输入图像的中心区域，使得将每个所述输入图像的中心区域的像素位置的优先级设置为比每个所述输入图像的四角的像素位置的优先级低。

4.一种三维模型生成方法，具有：

对所述预先确定的多个像素位置中的每一个像素位置进行优先排序，使得所述多个输入图像的每一个输入图像的四角的像素位置的优先级设置为比所述预先确定的多个像素位置的剩余像素位置的优先级高，与所述剩余像素位置相比，所述四角的所述像素位置受镜头畸变的影响更大，

5.一种三维模型生成装置，具有：

存储器，存储程序；以及

将预先确定的多个像素位置的像素决定为1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个输入图像中的在检测特征点时搜索的像素，

从所述搜索的像素中检测所述多个输入图像的特征点，并基于在两个所述输入图像之间的一对类似的特征点，对所述多个输入图像的每一个输入图像估计拍摄所述输入图像时的相机参数；以及

6.根据权利要求5所述的三维模型生成装置，所述处理器还执行所述程序并控制所述三维模型生成装置，使得对于所述多个输入图像的每一个输入图像，所述搜索的像素的总数比所述输入图像的像素的总数少。

7.根据权利要求6所述的三维模型生成装置，所述处理器还执行所述程序并控制所述三维模型生成装置，使所述三维模型生成装置基于所述影像数据的内容或所述影像数据的拍摄细节，决定所述优先级。

8.根据权利要求5所述的三维模型生成装置，

9.一种三维模型生成方法，具有：

将预先确定的多个像素位置的像素决定为根据1个以上的影像数据中包含的、视点相互不同的多个输入图像的每一个输入图像的在检测特征点时搜索的像素；

从所述搜索的像素中检测所述多个输入图像的特征点，基于在两个所述输入图像之间的一对类似的特征点，对每个所述输入图像估计拍摄所述输入图像时的相机参数；以及