CN110889426A

CN110889426A - 三维表达体生成系统

Info

Publication number: CN110889426A
Application number: CN201910833889.4A
Authority: CN
Inventors: 渡边正峰; 中村翼
Original assignee: Consciousness Machinery Co Ltd; University of Tokyo NUC
Current assignee: Consciousness Machinery Co Ltd; University of Tokyo NUC
Priority date: 2018-09-10
Filing date: 2019-09-05
Publication date: 2020-03-17
Also published as: EP3621041A1; JP2020042503A; ES2920598T3; EP3621041B1; US20200082641A1

Abstract

误差运算部(11)生成通过规定的多台摄像机(1L)、(1R)从被拍摄体中得到的实际拍摄图像和通过三维表达体虚拟观测部(14)得到的虚拟拍摄图像之间的误差图像；三维表达体校正量运算部(12)生成与该误差图像对应的三维表达体校正量；三维表达体运算部(13)按照该三维表达体校正量，对三维表达体进行校正；三维表达体虚拟观测部(14)通过对三维表达体进行渲染，生成利用与上述摄像机(1L)、(1R)对应的虚拟摄像机对三维表达体进行拍摄而得到的虚拟拍摄图像；三维表达体包含三维空间内排列的多个分割面，三维表达体的校正量包含该分割面的位置和方向的校正量。

Description

三维表达体生成系统

技术领域

本发明涉及三维表达体生成系统(three dimensional representationgenerating system)。

背景技术

在某一系统中，使用分类器，检测利用二维摄像机或者三维摄像机得到的图像内的对象，并将该对象进行分类(例如，请参照专利文献1)。

在该系统中，提出该分类器的学习方法。在该学习方法中，目标环境模型作为二维彩色图像和三维深度图像(距离图像)的集合，从目标环境中收集，对该目标环境模型和人类等的三维对象模型进行渲染，将作为渲染结果得到的图像用作训练数据(trainingdata)。

另外，在某一个三维建模装置中，从利用立体摄像机拍摄的多组拍摄图像分别生成多个三维模型，基于该多个三维模型生成精密度更高的三维模型(例如，请参照专利文献2)。

【现有技术文献】

【专利文献】

专利文献1：日本专利、特开2016-218999号公报

专利文献2：日本专利、特开2012-248221号公报

但是，当如上述的三维建模装置那样使用立体摄像机时，根据立体摄像机的视差得到距离信息，但是，一般而言，为了导出图像内的各像素的距离，需要在通过立体摄像机得到的拍摄图像的对之间确定相互对应的像素。而且，为了确定这样的相互对应的像素，需要大量的运算量。另外，对于拍摄图像的对中的像素值大致相同的区域，很难准确地确定这样的相互对应的像素。如此，在如上所述那样从通过立体摄像机得到的拍摄图像的对中导出各像素的距离信息时，发生如上所述的问题。

另外，在上述系统中，通过二维摄像机或者三维摄像机得到的图像直接输入分类器，因而无法明确地得到三维模型等的形状数据，并且，由于是以像素为单位进行分类，因此，为了进行准确地进行分类，需要生成庞大的学习数据来适当地学习分类器。

发明内容

本发明是鉴于上述问题而完成的，其目的在于得到一种如下的三维表达体生成系统，该三维表达体生成系统，能够以比较少的运算量，从拍摄图像生成表达拍摄图像的视场角内存在的三维对象的三维表达体。

本发明涉及的三维表达体生成系统，具备：误差运算部、三维表达体校正量运算部、生成与通过规定的多台摄像机从被拍摄体中得到的实际拍摄图像对应的三维表达体的三维表达体运算部、以及三维表达体虚拟观测部。误差运算部生成实际拍摄图像和通过三维表达体虚拟观测部得到的虚拟拍摄图像之间的误差图像，三维表达体校正量运算部生成与误差图像对应的三维表达体的校正量。三维表达体运算部按照由三维表达体校正量运算部生成的三维表达体的校正量，对三维表达体进行校正。三维表达体虚拟观测部具备渲染部，该渲染部通过对三维表达体进行渲染，生成利用与上述摄像机对应的虚拟摄像机对三维表达体进行拍摄而得到的虚拟拍摄图像。在此，三维表达体包含三维空间内排列的多个分割面，三维表达体的校正量包含该分割面的位置和方向的校正量。

本发明涉及的三维表达体生成方法，包括：生成从被拍摄体拍摄到的实际拍摄图像和通过三维表达体虚拟观测部得到的虚拟拍摄图像之间的误差图像的步骤；生成与该误差图像对应的三维表达体的校正量的步骤；按照所生成的三维表达体的校正量，对三维表达体进行校正的步骤；以及通过对三维表达体进行渲染，生成利用与上述摄像机对应的虚拟摄像机对三维表达体进行拍摄而得到的虚拟拍摄图像的步骤。在此，三维表达体包含三维空间内排列的多个分割面，三维表达体的校正量包含该分割面的位置和方向的校正量。

本发明涉及的三维表达体生成程序，使计算机作为上述误差运算部、上述三维表达体校正量运算部、上述三维表达体运算部以及上述三维表达体虚拟观测部发挥作用。

本发明涉及的学习方法，是生成与实际拍摄图像和虚拟拍摄图像之间的误差图像对应的三维表达体的校正量的深度神经网络的学习方法，该学习方法，包括：生成任意的多个基准三维表达体，并生成对基准三维表达体追加多个校正量后的多个样品三维表达体的步骤；通过对基准三维表达体进行渲染而生成基准拍摄图像的步骤；通过对样品三维表达体进行渲染而生成样品拍摄图像的步骤；生成基准拍摄图像和样品拍摄图像之间的误差图像的步骤；以及，将误差图像和上述校正量的对作为学习数据，使用该学习数据，进行深度神经网络的学习的步骤。

(发明效果)

根据本发明，能够得到一种如下的三维表达体生成系统，根据该三维表达体生成系统，能够以比较少的运算量，从拍摄图像生成表达拍摄图像的视场角内存在的三维对象的三维表达体。

本发明的上述或其他目的、特征以及优点，在附图的基础上结合以下详细说明将更加清楚。

附图说明

图1是表示本发明实施方式一涉及的三维表达体生成系统的构成的框图。

图2是对实施方式一的三维表达体中含有的多个分割面进行说明的图(1/2)。

图3是对实施方式一的三维表达体中含有的多个分割面进行说明的图(2/2)。

图4是对图2和图3中的分割面的渲染进行说明的图。

图5是对实施方式一涉及的三维表达体生成系统的动作进行说明的流程图。

图6是对实施方式一的三维表达体校正量运算部中的深度神经网络的学习进行说明的图。

图7是对实施方式二中的误差图像和分割面的分割进行说明的图。

图8是表示本发明实施方式四涉及的三维表达体生成系统的构成的框图。

具体实施方式

以下，根据附图对本发明的实施方式进行说明。

【实施方式一】

图1是表示本发明实施方式一涉及的三维表达体生成系统(three dimensionalrepresentation generating system)的构成的框图。图1中所示的三维表达体生成系统具备多台摄像机1L、1R、存储装置2以及运算处理装置10。多台摄像机1L、1R是拍摄共同的被拍摄体(场景(scene))的装置。存储装置2是存储数据、程序等的闪存器、硬盘等的非易失性存储装置。运算处理装置10具备包括CPU(Central Processing Unit )、ROM(Read OnlyMemory)、RAM(Random Access Memory)等的计算机，其通过从ROM或存储装置2等将程序下载至RAM中并由CPU执行该程序，从而作为各种处理部进行工作。

另外，在该实施方式中，摄像机1L、1R是立体摄像机，但是并没有特别限定，也可以为三个或三个以上的摄像机。另外，在该实施方式中，通过摄像机1L、1R得到的实际拍摄图像是在被拍摄后立即提供给运算处理装置10，但是，也可以构成为：将通过摄像机1L、1R得到的实际拍摄图像从记录介质或其他装置间接地提供给运算处理装置10。

在该实施方式中，存储装置2中存储有三维表达体生成程序(threedimensionalrepresentation generating program)2a。例如，该三维表达体生成程序2a记录在具有可移动性且计算机可读形式的记录介质中，并且，从该记录介质读取后安装于存储装置2中。另外，运算处理装置10通过读入三维表达体生成程序2a并运行该程序，从而作为误差运算部11、三维表达体校正量运算部12、三维表达体运算部13、三维表达体虚拟观测部14、分类器15、初始状态生成部16以及控制部17进行工作。

误差运算部11生成通过规定的多台摄像机1L、1R从被拍摄体中得到的实际拍摄图像和通过三维表达体虚拟观测部14得到的虚拟拍摄图像之间的误差图像。

在此，实际拍摄图像和虚拟拍摄图像是具有相同的分辨率和相同的尺寸且相同格式(format)(例如RGB)的图像，误差图像是针对每一个像素计算实际拍摄图像和虚拟拍摄图像之差而得到。

三维表达体校正量运算部12生成三维表达体R的校正量dR，该三维表达体R的校正量dR对应于某一组的实际拍摄图像(此处为摄像机1L的实际拍摄图像和摄像机1R的实际拍摄图像的对)相关的误差图像。

图2和图3是对实施方式一的三维表达体中含有的多个分割面进行说明的图。在此，三维表达体R表达实际拍摄图像内的对象(object)的三维形状，如图2中所示，三维表达体R包括三维空间内排列的多个分割面DS(i，j)(i＝1,…,Nx；j＝1,…,Ny)。在此，Nx是X方向(实际拍摄图像的主扫描方向，例如水平方向)上的分割面DS(i，j)的数(常数)，Ny是Y方向(实际拍摄图像的副扫描方向，例如垂直方向)上的分割面DS(i，j)的数(常数)。另外，分割面DS(i，j)的数，小于误差图像的像素数(即，实际拍摄图像的像素数)。

在此，分割面DS(i，j)是平面，其具有规定尺寸和规定形状(此处为矩形)。另外，也可以构成为：将分割面DS(i，j)作为三维曲面(例如球面)，且以能够校正的方式追加作为其属性的曲率。另外，多个分割面DS(1,1),…,DS(Nx，Ny)中的各分割面DS(i，j)的位置和影响该分割面DS(i，j)的校正的误差图像内的一部分区域的位置大致一致。

进而，在该实施方式中，也可以构成为：三维表达体R进一步含有一个或多个光源LS(i)(i＝1,…,NL)，三维表达体R的校正量dR包含该光源的发光特性的校正量。在此，NL是三维表达体R内的光源的上限数(常数)。

而且，三维表达体R，基于分割面DS(i，j)和光源LS(i)的属性值，以以下的算式表达。

R＝(S(1，1),…,S(Nx，Ny),L(1),…,(NL))

在此，S(i，j)是三维表达体R中含有的分割面DS(i，j)的属性值集合，其表示分割面DS(i，j)的几何信息(位置、方向等)和光学特性。L(i)是光源LS(i)的属性值集合，其表示光源LS(i)的几何信息(位置等)和光学特性。

例如，分割面DS(i，j)的属性值集合S(i，j)，以以下的算式表达。

S(i，j)＝(X,Y,Z,θ,φ,Ref(1),…,Ref(Nw),Tr(1),…,Tr(Nw))在此，(X，Y，Z)是分割面DS(i，j)的代表点(例如中心点)的XYZ坐标值，(θ，φ)是分割面DS(i，j)的代表点处的法线的方位角和仰角，且表示分割面DS(i，j)的方向。另外，Ref(1),…,Ref(Nw)是将特定波长区域(此处为可见波长区域)分割为Nw个波长区域时的各波长区域中的光的反射率。进而，Tr(1),…,Tr(Nw)是将特定波长区域(此处为可见波长区域)分割为Nw个波长区域时的各波长区域中的光的透射率。

通常，对象表面的反射率和透射率是根据入射光的波长而不同，因此，在此，将与分割可见波长区域后的多个波长范围的各个波长范围对应的反射率和透射率，设定为各分割面DS(i，j)的属性。

另外，也可以代替各波长区域的反射率Ref(i)而使用正反射率Ref_S(i)和漫反射率Ref_D(i)。另外，当作为被拍摄体的对象不穿透特定波长区域的全部波长时，也可以省略上述透射率Tr(1),…,Tr(Nw)。

另外，光源LS(i)的属性值集合L(i)，以以下算式表达。

L(i)＝(X,Y,Z,Em(1),…,Em(Nw),type,θ,φ)

在此，(X，Y，Z)是光源LS(i)的代表点(例如中心点)的XYZ坐标值，Em(1),…,Em(Nw)是将特定波长区域(此处为可见波长区域)分割为Nw个波长区域时的各波长区域中的发光光量。type是点光源、面光源、平行光源、环境光等的光源类型，(θ，φ)是表示来自面光源、平行光源等的特定类型的光源的光的方向的方位角和仰角。

另外，当光源LS(i)的数量小于上限数时，数据上，在不存在光源的属性值集合中，根据校正量，其发光光量大致接近零。另外，在此，在属性值集合L(i)中设置表示光源LS(i)的类型的属性type，但是，也可以构成为：针对每一类型设置独立的属性值集合，并使其包含于三维表达体R中。进而，关于光源类型type，也可以构成为：当摄像机1L、1R的拍摄环境中的光源类型固定时，三维表达体R的光源类型type也限定于其实际的类型。

另外，三维表达体R的校正量dR，包括：三维表达体R内的各属性值的校正量，例如，分割面DS(i，j)的位置和方向的校正量。在此，分割面DS(i，j)的位置和方向是上述的(X，Y，Z)和(θ，φ)。

在该实施方式中，分割面DS(i，j)的X方向和Y方向(此处为水平方向和垂直方向)的位置是固定的位置，Z方向(此处为深度方向)的位置和方向(θ，φ)可变，且能够利用上述校正量dR进行变更。

另外，天空等的无穷远点的对象的深度方向(Z方向)的位置，被校正为：成为数据表达上的上限值。

因此，例如，如图3中所示，各分割面DS(i，j)的位置和方向被校正，通过三维表达体R中的多个分割面DS(1，1),…,DS(Nx，Ny)表达三维曲面。

进而，在该实施方式中，如上所述，也可以构成为：分割面DS(i，j)，作为其属性，除了位置和方向之外，还含有光的反射率Ref(i)和透射率Tr(i)中的至少一者(此处为两者)，三维表达体R的校正量dR包含分割面DS(i，j)的反射率Ref(i)和透射率Tr(i)的校正量。

三维表达体校正量运算部12利用深度神经网络(deep neuralnetwork)(以下也称为DNN)，生成与误差图像对应的三维表达体R的校正量dR，该DNN为现有技术下的卷积神经网络(convolutional neuralnetwork)。该DNN的输入根据其需要被归一化(normalization)，当该DNN的输出在0至1的范围内被归一化时，其输出值，针对每一属性值，变换为从规定的下限值(负值)至规定的上限值(正值)范围的值。

对于三维表达体校正量运算部12的输入，除了误差图像之外，还可以含有校正前的三维表达体R。

返回图1中，三维表达体运算部13生成与上述实际拍摄图像对应的三维表达体R。在此，三维表达体运算部13按照由三维表达体校正量运算部12生成的三维表达体R的校正量dR，对三维表达体R进行校正。即，三维表达体运算部13是通过将某一组实际拍摄图像相关的三维表达体R的初始状态或者上一次校正后的三维表达体R仅变更校正量dR，由此生成与上述实际拍摄图像对应的三维表达体R。具体而言，各属性值仅增加或减少根据校正量dR指定的量。

三维表达体虚拟观测部14，是与利用实际的摄像机1L、1R等观测被拍摄体时同样地，利用虚拟的摄像机等观测三维表达体R，并生成虚拟拍摄图像等。

在该实施方式中，三维表达体虚拟观测部14具备渲染部21。该渲染部21，是通过利用已知的光线追迹法(ray tracing method)等对三维表达体R进行渲染(rendering)而生成如下的虚拟拍摄图像，即：利用与多台摄像机1L、1R对应的多台虚拟摄像机对三维表达体R进行拍摄而得到的虚拟拍摄图像。

图4是对图2和图3中的分割面的渲染进行说明的图。在此，虚拟摄像机是模拟了包括对应的摄像机1L、1R的拍摄元件、透镜结构等的光学系统的已知光学特性(拍摄元件的尺寸、像素数、透镜系统的焦点距离、视场角、亮度等)的摄像机，渲染部21对于虚拟摄像机的(虚拟的)拍摄元件的各像素位置，如图4中所示，考虑到光学特性采用光线追迹法等，确定从光源LS(i)发出且被分割面DS(i，j)反射的反射光、透射光等的入射光的入射光量，并且，根据拍摄元件的光电转换特性确定与入射光量对应的像素值，利用(虚拟的)拍摄元件中的所有像素的像素值生成虚拟拍摄图像。

返回图1中，分类器15根据对一组实际拍摄图像确定的三维表达体R中的上述多个分割面DS(1，1),…,DS(Nx，Ny)，对三维表达体R内的对象进行分类。例如，分类器15使用卷积神经网络等的DNN对对象进行分类。分类器15输出作为分类结果的分类数据。例如，分类数据是与各分割面DS(i，j)建立关联的分类码。另外，分类码例如是表示人、车、建筑物、道路、天空等的对象类型的数字数据，对于各个对象类型，分别预先分配固有的分类码的值。

初始状态生成部16从拍摄图像生成三维表达体R的初始状态(起始矢量)。例如，初始状态生成部16利用卷积神经网络等的DNN，从拍摄图像生成三维表达体的初始状态(起始矢量)。另外，当将规定的常数矢量作为三维表达体R的初始状态时，也可以省略初始状态生成部16。

控制部17进行进行如下控制，即：从摄像机1L、1R等取得实际拍摄图像(图像数据)、或者三维表达体的生成的开始、三维表达体的反复校正的结束判断等的运算处理装置10内的数据处理的控制。

另外，在该实施方式中，由一台运算处理装置10作为上述处理部11～17进行工作，但是，也可以构成为：可互相通信的多台运算处理装置，分散作为上述处理部11～17进行工作。另外，运算处理装置10并不限定于执行软件处理的计算机，也可以使用各种加速器(accelerator)等的专用硬件。

接下来，对实施方式一涉及的三维表达体生成系统的动作进行说明。图5是对实施方式一涉及的三维表达体生成系统的动作进行说明的流程图。

控制部17根据用户对连接在运算助理装置10且未图示的用户界面所进行的操作，开始进行工作，从摄像机1L、1R取得实际拍摄图像(步骤S1)，进行三维表达体R和虚拟拍摄图像的初始设定(步骤S2)。此时，可以将任意的三维表达体R作为三维表达体R的初始状态，也可以通过初始状态生成部16从实际拍摄图像生成三维表达体R的初始状态。然后，在决定三维表达体R的初始状态之后，通过利用渲染部21对该三维表达体R的初始状态进行渲染，从而得到虚拟拍摄图像的初始状态。

接着，误差运算部11生成各摄像机1i(i＝L，R)的实际拍摄图像和与此相对应的虚拟摄像机的虚拟拍摄图像之间的误差图像(步骤S3)。由此，生成多个误差图像。在此，误差图像是与实际拍摄图像和虚拟拍摄图像的格式(format)(颜色空间)相对应地，针对各坐标面生成。例如，当实际拍摄图像和虚拟拍摄图像的格式为RGB时，与摄像机1i和虚拟摄像机的各对相对应地生成R面的误差图像、G面的误差图像以及B面的误差图像。

然后，生成误差图像后，控制部17判断该误差图像是否满足规定的收敛条件(步骤S4)，当该误差图像满足规定的收敛条件时，结束三维表达体的反复的校正，而当该误差图像不满足规定的收敛条件时，如以下所示，进行三维表达体的校正。例如，收敛条件是所有误差图像的像素值的平方的总和或者平均小于规定阈值。即，当实际拍摄图像和虚拟拍摄图像足够相似时，结束三维表达体的反复校正。

当所生成的误差图像不满足上述收敛条件时，对三维表达体校正量运算部12输入所生成的多个误差图像，计算三维表达体R的校正量dR并将其输出(步骤S5)。此时，可以将三维表达体R(即，此次校正之前的三维表达体)一并输入三维表达体校正量运算部12。

当得到三维表达体R的校正量dR后，三维表达体运算部13将这些属性值仅变更以下的校正量，即：由该三维表达体R的校正量dR指定的各分割面DS(i，j)的属性值集合S(i，j)中的各属性值的校正量、以及各光源LS(i)的属性值集合L(i)中的各属性值的校正量，由此，对三维表达体R进行校正(步骤S6)。

然后，每次进行三维表达体R的校正时，三维表达体虚拟观测部14的渲染部21根据校正后的三维表达体R进行分割面DS(1，1),…,DS(Nx，Ny)的渲染，生成与多台摄像机1L、1R对应的多台虚拟摄像机的虚拟拍摄图像(步骤S7)。

然后，返回步骤S3中，误差运算部11生成从校正后的三维表达体R重新生成的虚拟拍摄图像和已取得实际拍摄图像之间的误差图像。然后，如上所述，反复进行三维表达体的校正，直至误差图像满足上述收敛条件为止(步骤S5～步骤S7)。

另一方面，当误差图像满足上述收敛条件时，控制部17将该时点上的三维表达体R确定为与所取得实际拍摄图像对应的三维表达体R，对分类器15输入所确定三维表达体中的分割面DS(1，1),…,DS(Nx，Ny)，对分割面DS(1，1),…,DS(Nx，Ny)内的对象进行分类(步骤S8)。此时，例如，分类器15使各分割面DS(i，j)和表示对象分类的分类数据建立关联，并且，例如向外部设备输出分类数据和分割面DS(i，j)。

然后，控制部17根据用户对未图示的用户界面所进行的操作，判断是否结束工作(步骤S9)，当判断为结束工作时，结束三维表达体R的生成，而当判断为不结束工作时，返回步骤S1中，取得下一个实际拍摄图像，对该实际拍摄图像进行步骤S2及之后的同样的处理，从而生成与该实际拍摄图像对应的三维表达体R。

如此，误差运算部11、三维表达体校正量运算部12、三维表达体运算部13以及三维表达体虚拟观测部14，对一组实际拍摄图像分别反复地进行误差图像的生成、三维表达体校正量dR的生成、三维表达体R的校正、以及从三维表达体R生成虚拟拍摄图像的处理，直至误差图像满足规定条件而进行收敛为止。

在此，对三维表达体校正量运算部12中的DNN的学习进行说明。图6是对实施方式一的三维表达体校正量运算部12中的DNN的学习进行说明的图。

三维表达体校正量运算部12中的DNN，生成与实际拍摄图像和虚拟拍摄图像之间的误差图像对应的三维表达体R的校正量dR。该DNN的学习，例如，按照以下方式进行。

首先，在三维表达体R的空间内分散生成任意的多个基准三维表达体Ri(i＝1,…,p)，并生成对基准三维表达体Ri追加多个校正量dRij后的多个样品三维表达体Rij。另外，在校正量dRij中，指定一个或多个(一部分或全部)属性值的校正量，剩余的属性值的校正量为零。

接着，对于各基准三维表达体Ri，通过将该基准三维表达体Ri进行渲染，生成基准拍摄图像，另外，通过将与该基准三维表达体Ri对应的样品三维表达体Rij(即，校正量为已知的校正后的三维表达体)进行渲染，生成样品拍摄图像。

然后，生成基准拍摄图像和样品拍摄图像之间的误差图像，将该误差图像和上述校正量dRij的对作为学习数据，生成多个学习数据。根据如此生成的学习数据，例如利用误差反向传播法(error back propagation)学习该DNN。

另外，关于该学习的处理，可以利用运算处理装置10进行，也可以利用其他装置进行，并将其学习结果适用于该DNN中。

另外，关于初始状态生成部16的深度神经网络，例如，也是将三维表达体(基准三维表达体Ri以及/或者样品三维表达体Rij)和虚拟拍摄图像的对作为学习数据进行学习。

在此，对分类器15的DNN的学习进行说明。

在分类器15的DNN的学习中，分割面DS(1，1),…,DS(Nx，Ny)和该分割面DS(1，1),…,DS(Nx，Ny)的分类数据(即，与各分割面建立关联的分类)的对，作为学习数据而被使用。因此，生成任意的分割面DS(1，1),…,DS(Nx，Ny)，例如通过手动输入等生成与所生成分割面DS(1，1),…,DS(Nx，Ny)对应的分类数据，生成上述学习数据，并利用该学习数据学习分类器15内的DNN。

如上所述，根据上述实施方式一，误差运算部11生成通过规定的多台摄像机1L、1R从被拍摄体中得到的实际拍摄图像和通过三维表达体虚拟观测部14得到的虚拟拍摄图像之间的误差图像。三维表达体校正量运算部12生成与该误差图像对应的三维表达体R的校正量dR。三维表达体运算部13按照由三维表达体校正量运算部12生成的三维表达体R的校正量dR，对三维表达体R进行校正。三维表达体虚拟观测部14具备渲染部21，该渲染部21通过对三维表达体R进行渲染，生成如下的虚拟拍摄图像，即：通过利用与上述摄像机1L、1R对应的虚拟摄像机对三维表达体R进行拍摄得到的虚拟拍摄图像。在此，三维表达体R包含三维空间内排列的多个分割面DS(1，1),…,DS(Nx，Ny)，三维表达体R的校正量dR，包含该分割面DS(1，1),…,DS(Nx，Ny)的位置和方向的校正量。

由此，能够以比较少的运算量，从拍摄图像生成表达拍摄图像的视场角内存在的三维对象的三维表达体。

另外，通过在三维表达体校正量运算部12中使用DNN，与通常的立体摄像机的距离计算相比，即使是大致相同的像素值的区域，也可以期待从周围推断并准确地确定其距离。进而，通过三维表达体虚拟观测部14从三维表达体R生成虚拟拍摄图像且反馈给误差图像，因此，与上述的三维建模装置(three dimensional modelling device)那样的前馈(feedforward)生成三维模型的情况相比，能够按照实际拍摄图像逼真地生成三维表达体R。

【实施方式二】

图7是对实施方式二中的误差图像和分割面的分割进行说明的图。在实施方式二涉及的三维表达体生成系统中，三维表达体校正量运算部12，是如图7中所示那样分割误差图像和分割面，从分割后的误差图像分别生成具有分割后的一部分的分割面DS(i，j)和光源LS(i)的局部三维表达体(三维表达体的一部分)的校正量dR。另外，分割面DS(i，j)是在XY平面中各分割为规定数量。

具体而言，在实施方式二中，三维表达体校正量运算部12将上述误差图像分割为多个分割图像，从该多个分割图像依次选择一个分割图像，生成与所选择分割图像对应的三维表达体R的一部分的校正量。然后，在实施方式二中，三维表达体运算部13按照与该多个分割图像的各个分割图像对应的局部三维表达体的校正量dR(此处为被分割的一部分的分割面和光源相关的校正量)，对三维表达体R进行校正。

另外，关于光源LS(i)，可以在各局部三维表达体的校正时，按照光源LS(i)的属性值集合L(i)的校正量，进行光源LS(i)的校正，也可以构成为：在所有的局部三维表达体R的校正(除了光源)完成之后，利用(a)所有的局部三维表达体的校正量中的光源LS(i)的属性值集合L(i)的校正量的平均值(即，校正量实质上为非零的平均值)、或者(b)所有的局部三维表达体的校正量中的绝对值最大的值，对光源LS(i)一次性地进行校正。

另外，关于实施方式二涉及的系统的其他结构和动作，与实施方式一相同，因而省略其说明。

如上所述，根据上述实施方式二，输入比实际拍摄图像和虚拟拍摄图像之间的误差图像小的分割图像，利用三维表达体校正量运算部12生成与该分割图像对应部分的分割面和光源的校正量，因此，三维表达体校正量运算部12中使用的深度神经网络的规模小。因此，三维表达体校正量运算部12中的运算量变少，并且，该深度神经网络的学习时的运算量也变少。

另外，在实施方式二中，关于三维表达体校正量运算部12中使用的深度神经网络的学习，作为实施方式二中的学习数据，从实施方式一中的学习数据(误差图像和校正量的对)中生成分割图像、和与该分割图像对应的分割面DS(i，j)及光源LS(i)相关的校正量dR的对，并利用该学习数据进行该DNN的学习即可。

【实施方式三】

在实施方式三涉及的三维表达体生成系统中，对于利用摄像机1L、1R按照时间序列拍摄的连续图像(动态图像)中的各帧(frame)的实际拍摄图像，如上所述那样生成三维表达体R。即，与连续的帧的实际拍摄图像相对应地，三维表达体R随时间发生变化。

具体而言，在实施方式三中，误差运算部11、三维表达体校正量运算部12、三维表达体运算部13以及三维表达体虚拟观测部14，对于动态图像中的一系列实际拍摄图像中的各帧的实际拍摄图像，分别进行误差图像的生成、三维表达体校正量dR的生成、三维表达体R的校正、以及从三维表达体R生成虚拟拍摄图像的处理。

因此，在实施方式三中，按照时间序列，使三维表达体随所拍摄的动态图像发生变化。另外，此时，也可以构成为：分类器15根据与各帧相关的分割面DS进行对象的分类。该情况下，在动态图像内出现或消失的对象的分类是跟着该动态图像进行。

然后，此时，第一帧的三维表达体R的初始状态是通过初始状态生成部16生成，之后各帧的三维表达体R的初始状态，设为(a)前一个帧中所确定的三维表达体R、或者、(b)从该帧的过去的多个帧(例如，最近的两个帧)的三维表达体R(各帧中所确定的三维表达体R)(例如线性)预测的三维表达体。

另外，关于实施方式三涉及的系统的其他结构和动作，与实施方式一或者实施方式二相同，因而省略其说明。

如上所述，根据上述实施方式三，能够与作为实际拍摄图像在动态图像内按照时间序列生成的多个实际拍摄图像相对应地，在帧间使三维表达体平滑地发生变化。

【实施方式四】

图8是表示本发明实施方式四涉及的三维表达体生成系统的构成的框图。在实施方式四涉及的三维表达体生成系统中，除了利用上述多台摄像机1L、1R之外，还计算出利用附加传感器51得到的实际传感器测量值和利用三维表达体虚拟观测部14中的虚拟传感器部61得到的虚拟传感器测量值之间的传感器误差数据，并且，考虑该传感器误差数据确定三维表达体的校正值。

具体而言，在实施方式四中，误差运算部11除了误差图像之外，还生成利用规定的附加传感器51得到的实际传感器测量值和利用三维表达体虚拟观测部14得到的虚拟传感器测量值之间的传感器误差数据，其中，规定的附加传感器51对包含被拍摄体的环境进行观测，在实施方式四中，三维表达体校正量运算部12生成与误差图像和传感器误差数据对应的三维表达体R的校正量dR。

然后，在实施方式四中，三维表达体虚拟观测部14具备虚拟传感器部61，该虚拟传感器部61生成通过利用虚拟附加传感器观测三维表达体而得到的虚拟传感器测量值，其中，该虚拟附加传感器模拟成：具有与附加传感器51相同的测量特性。

在该实施方式中，附加传感器51包括雷达(RADAR)传感器或者LiDAR(LightDetection and Ranging，激光雷达)传感器。该情况下，附加传感器51生成实际距离图像。该情况下，虚拟传感器部61以与该RADAR传感器或者LiDAR传感器的功能相同的功能虚拟地观测三维表达体R(分割面DS(1，1),…,DS(Nx，Ny))，并生成虚拟距离图像。然后，该情况下，传感器误差数据是实际距离图像和虚拟距离图像之间的误差图像。

另外，在实施方式四中，当三维表达体R的初始状态通过初始状态生成部16生成时，将实际传感器测量值和实际拍摄图像一同输入。另外，在实施方式四中，关于三维表达体校正量运算部12中使用的DNN的学习，在实施方式一的学习数据(误差图像和校正量的对)中的输入中，追加通过虚拟传感器部61生成的虚拟传感器测量值，并利用其学习数据进行该DNN的学习即可。

另外，关于实施方式四涉及的系统的其他结构和动作，与实施方式一～三中的任意一个实施方式相同，因而省略其说明。

如上所述，根据上述实施方式四，能够使可利用附加传感器51测量的事项包含在三维表达体中。另外，当作为附加传感器51追加RADAR传感器或者LiDAR传感器时，作为对三维表达体校正量运算部12的输入，使用基于多台摄像机1L、1R的视差信息和基于RADAR传感器或LiDAR传感器的距离图像，因此，能够更加准确地确定分割面DS(i，j)的深度方向(Z方向)的位置。

需要说明的是，关于上述实施方式，也可以在不脱离其主旨和范围且不减弱其所意图的优点的范围内进行各种变更和修改，由于这些变更和修改对于本领域技术人员而言是显而易见的，因此这些变更和修改，也应该包含在本申请权利要求的范围内。

例如，在上述各实施方式中，三维表达体R的分割面DS(1，1),…,DS(Nx，Ny)是以属性值集合S(1，1),…,S(Nx，Ny)来表达，但是，也可以采用其他的数据表达方式。例如，也可以构成为如下，即：将多个分割面以规定间隔固定地三维排列(即，将分割面的XYZ坐标值进行固定)，作为属性值追加分割面的ON/OFF(存在/不存在)，并以矫正量dR控制该属性值。

另外，在上述实施方式中的任意一个实施方式中，三维表达体R的分割面DS(i，j)的尺寸及形状，并没有特别限定于图示中的内容，也可以将尺寸及形状作为分割面DS(i，j)的属性值，并利用三维表达体R的校正量dR进行变更。

进而，在上述实施方式中的任意一个实施方式中，关于三维表达体R的分割面DS(i，j)，也可以使相互相邻的分割面DS(i，j)变形并使其变换为多边形(polygon)，以使相互相邻的多边形相连。

进而，在上述实施方式中的任意一个实施方式中，当实际拍摄图像的视场(视场角)内有可能含有光源时，可以将上述光源LS(i)配置于虚拟拍摄图像的视场(视场角)内，或者，也可以以三维表达体的分割面来表达光源。当以分割面表达光源时，分割面具有与光源相同的属性(特征数据)。

进而，在上述实施方式中的任意一个实施方式中，对于将特定波长区域分割后的各部分波长区域，设定反射率、透射率、发光光量等的属性，但是，也可以构成为如下，即：使分别以多个特定波长为中心的多个特定分布(例如高斯分布)重叠，由此来表达特定波长区域中的光学特性(反射率、透射率、发光光量等)。该情况下，在上述属性值集合中，例如，将各特定分布相关的特定波长中的强度和分散值等用作属性值。

进而，在上述实施方式四中，也可以构成为：作为附加传感器51设置微音器(microphone)等的声音传感器，在三维表达体中追加一个或多个声源SS(i)。该情况下，设置与声音传感器对应的虚拟传感器部61，作为虚拟传感器测量值观测虚拟音响信号。进而，该情况下，生成从声音传感器得到的规定时间的实际音响信号和规定时间的虚拟音响信号之间的误差数据，并将其用作对于三维表达体校正量运算部12的输入数据。

进而，在上述实施方式中的任意一个实施方式中，也可以使用通过分类器15得到的分类数据，限制分割面DS(i，j)的属性值。例如，根据分类数据，没有光透射性的对象的分割面DS(i，j)的透射率Tr(i)也可以不进行校正，而是固定为零。

进而，在上述实施方式中的任意一个实施方式中，也可以将光源LS(i)的尺寸以及/或者形状也追加到光源LS(i)的属性值集合L(i)中，并以校正量dR进行校正。

进而，在上述实施方式中的任意一个实施方式中，当在摄像机1L、1R中对实际拍摄图像实施规定的图像处理时，对虚拟拍摄图像也实施相同的图像处理。

进而，在上述实施方式中的任意一个实施方式中，当使用DNN时，根据需要，也可以对DNN的输入数据进行归一化等的预处理。

进而，在上述实施方式中的任意一个实施方式中，三维表达体R(尤其是分割面)还可以使用于分类器15的输入数据以外的用途，例如，可以利用分割面以三维方式显示实际拍摄图像内的对象。

进而，在上述实施方式中的任意一个实施方式中，也可以构成为：摄像机1L、1R为移动体(汽车、电车等)上设置的车载式摄像机，并且，将上述分类数据利用于该移动体的自动运行中。

(产业上的可利用性)

本发明例如可以适用于拍摄图像内的对象的识别中。

Claims

1.一种三维表达体生成系统，其特征在于，

具备：

误差运算部，

三维表达体校正量运算部，

三维表达体运算部，其生成与利用规定的多台摄像机从被拍摄体中得到的实际拍摄图像对应的三维表达体，

三维表达体虚拟观测部；

所述误差运算部生成所述实际拍摄图像和通过所述三维表达体虚拟观测部得到的虚拟拍摄图像之间的误差图像，

所述三维表达体校正量运算部生成与所述误差图像对应的所述三维表达体的校正量，

所述三维表达体运算部按照由所述三维表达体校正量运算部生成的所述三维表达体的校正量，对所述三维表达体进行校正，

所述三维表达体虚拟观测部具备渲染部，该渲染部通过对所述三维表达体进行渲染，生成利用与所述摄像机对应的虚拟摄像机对所述三维表达体进行拍摄而得到的所述虚拟拍摄图像，

所述三维表达体包含三维空间内排列的多个分割面，

所述三维表达体的校正量包含所述分割面的位置和方向的校正量。

2.如权利要求1所述的三维表达体生成系统，其特征在于，

所述三维表达体校正量运算部利用深度神经网络生成所述三维表达体的校正量，

所述深度神经网络包含卷积神经网络。

3.如权利要求1所述的三维表达体生成系统，其特征在于，

所述三维表达体进一步包含光源，

所述三维表达体的校正量包含所述光源的发光特性的校正量。

4.如权利要求1所述的三维表达体生成系统，其特征在于，

所述分割面作为属性具有光的反射率和透射率中的至少一者，

所述三维表达体的校正量包含所述分割面的反射率和透射率中的至少一者的校正量。

5.如权利要求1所述的三维表达体生成系统，其特征在于，

所述误差运算部、所述三维表达体校正量运算部、所述三维表达体运算部以及所述三维表达体虚拟观测部，对一组所述实际拍摄图像分别反复进行所述误差图像的生成、所述三维表达体校正量的生成、所述三维表达体的校正、以及从所述三维表达体生成所述虚拟拍摄图像的处理，直至所述误差图像满足规定条件而进行收敛为止。

6.如权利要求1所述的三维表达体生成系统，其特征在于，

所述三维表达体生成系统还具备分类器，该分类器根据多个所述分割面对所述三维表达体内的对象进行分类。

7.如权利要求1或2所述的三维表达体生成系统，其特征在于，

所述三维表达体校正量运算部将所述误差图像分割为多个分割图像，生成与所述分割图像对应的所述三维表达体的一部分的校正量，

所述三维表达体运算部按照多个所述分割图像的各个分割图像相关的所述三维表达体的一部分的校正量，对所述三维表达体进行校正。

8.如权利要求1或2所述的三维表达体生成系统，其特征在于，

所述误差运算部、所述三维表达体校正量运算部、所述三维表达体运算部以及所述三维表达体虚拟观测部，对于动态图像中的一系列实际拍摄图像中的各帧的实际拍摄图像，分别进行所述误差图像的生成、所述三维表达体校正量的生成、所述三维表达体的校正、以及从所述三维表达体生成所述虚拟拍摄图像的处理，

某一帧相关的所述三维表达体的初始状态，是从该帧之前的过去多个帧的所述三维表达体预测的三维表达体。

9.如权利要求1或2所述的三维表达体生成系统，其特征在于，

所述误差运算部生成通过规定的附加传感器得到的实际传感器测量值和通过所述三维表达体虚拟观测部得到的虚拟传感器测量值之间的传感器误差数据，其中，所述规定的附加传感器对包含所述被拍摄体的环境进行观测，

所述三维表达体校正量运算部生成与所述误差图像和所述传感器误差数据对应的所述三维表达体的校正量，

所述三维表达体虚拟观测部具备虚拟传感器部，该虚拟传感器部生成利用与所述附加传感器对应的虚拟附加传感器对所述三维表达体进行观测而得到的所述虚拟传感器测量值。

10.如权利要求9所述的三维表达体生成系统，其特征在于，

所述附加传感器包括雷达传感器或者激光雷达传感器。

11.一种三维表达体生成方法，其是生成与利用规定的多台摄像机从被拍摄体中得到的实际拍摄图像对应的三维表达体的方法，

所述三维表达体生成方法的特征在于，

包括：

生成所述实际拍摄图像和通过三维表达体虚拟观测部得到的虚拟拍摄图像之间的误差图像的步骤，

生成与所述误差图像对应的所述三维表达体的校正量的步骤，

按照所生成的所述三维表达体的校正量，对所述三维表达体进行校正的步骤，以及，

通过对所述三维表达体进行渲染，生成利用与所述摄像机对应的虚拟摄像机对所述三维表达体进行拍摄而得到的所述虚拟拍摄图像的步骤；

所述三维表达体包含三维空间内排列的多个分割面，

12.一种计算机可读形式的记录介质，其记录有三维表达体生成程序，

所述计算机可读形式的记录介质的特征在于，

通过运行所述三维表达体生成程序，使计算机作为误差运算部、三维表达体校正量运算部、三维表达体运算部以及三维表达体虚拟观测部发挥作用，其中，所述三维表达体运算部生成与通过规定的多台摄像机从被拍摄体中得到的实际拍摄图像对应的三维表达体；

所述三维表达体包含三维空间内排列的多个分割面，

13.一种学习方法，其是生成与实际拍摄图像和虚拟拍摄图像之间的误差图像对应的三维表达体的校正量的深度神经网络的学习方法，

所述学习方法的特征在于，

包括：

生成任意的多个基准三维表达体，并生成对所述基准三维表达体追加多个校正量后的多个样品三维表达体的步骤；

通过对所述基准三维表达体进行渲染而生成基准拍摄图像的步骤；

通过对所述样品三维表达体进行渲染而生成样品拍摄图像的步骤；

生成所述基准拍摄图像和所述样品拍摄图像之间的误差图像的步骤；以及

将所述误差图像和所述校正量的对作为学习数据，使用所述学习数据，进行所述深度神经网络的学习的步骤。