CN111340864B

CN111340864B - 基于单目估计的三维场景融合方法及装置

Info

Publication number: CN111340864B
Application number: CN202010121667.2A
Authority: CN
Inventors: 刘逸颖; 王晓鲁; 李乾坤; 卢维
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-12-12
Anticipated expiration: 2040-02-26
Also published as: CN111340864A

Abstract

本发明实施例提供了一种基于单目估计的三维场景融合方法及装置，所述方法包括：将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到；根据目标深度图与目标语义分割图，获取目标深度图中的目标对象的深度信息；根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，其中，静态三维场景的坐标系与目标对象所在的世界坐标系具有映射关系。解决了现有技术中由于目标深度估计方法的实施不理想导致监控对象与静态三维场景模型融合的方式不理想的问题。

Description

基于单目估计的三维场景融合方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种基于单目估计的三维场景融合方法及装置。

背景技术

假设已知一个由真实场景构建的静态三维场景模型，我们可以通过摄像头实时监控对应的真实场景中的活动目标，如人、汽车等，并将这些目标与静态三维场景模型进行融合，以提供一种更加直观和更具科技感的监控画面。这其中，目标的深度估计是关键性的问题，如果能有效的确定目标到相机的深度信息，就能确定目标在三维场景中的位置。常见的深度估计方法有：

1、双目测距，双目测距的方法需要根据双目相机的基线确定目标距离，其量程受限于基线距离，基线距离越大，测量范围越远，并且精度受到分辨率的限制。此外，双目相机的配置和标定较为复杂，同时计算视差涉及大量的特征匹配过程，因此非常消耗计算资源；

2、激光雷达测距，激光雷达通过记录发射信号并接收反射信号的时间间隔来推断距离，这种测距方式虽然速度快、精度高、测距范围远，但是它也存在很多问题：第一，激光雷达和相机之间需要进行额外的外参矫正，这将带来一定的误差；第二，激光雷达测量的结果要远远比相机拍摄的图像更稀疏，这就导致图像深度信息的不完整；第三，雷达设备价格昂贵，在产品化中不易推广；

3、Kinect，Kinect v1采用结构光编码方式，通过向场景表面投射具有一定结构的红外光，并通过结构的变形来获取深度信息；Kinect v2采用了TOF方式的深度传感器，通过从投射的红外线脉冲反射的时间来获得深度图，这两种方式的测距范围都很小，一般只适用于室内场景；

4、通过假设目标的底部与地面相接，通过已知的相机高度和相机与地面的夹角来计算相机与目标之间的距离。这种方式十分不可靠，当遇到陡坡时，会造成巨大的误差。

针对相关技术中，由于目标深度估计方法的实施不理想导致监控对象与静态三维场景模型融合的方式不理想的问题，目前尚未有有效的解决办法。

发明内容

本发明实施例提供了一种基于单目估计的三维场景融合方法及装置，以至少解决相关技术中由于目标深度估计方法的实施不理想导致监控对象与静态三维场景模型融合的方式不理想的问题。

根据本发明的一个实施例，提供了一种基于单目估计的三维场景融合方法，包括：将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，所述目标单目深度估计网络由初始单目深度估计网络经过训练后得到；根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息，其中，所述目标语义分割图由所述第一图像的语义分割图经过畸变矫正后获得；根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景的坐标系与所述目标对象所在的世界坐标系具有映射关系。

可选地，在将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图之前，所述方法还包括：对获取到的第一图像及所述第一图像的语义分割图进行畸变矫正；对经过畸变矫正的所述第一图像进行缩放和白化处理。

可选地，将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图包括：将获取到的第一图像输入目标单目深度估计网络中，得到所述第一图像的深度图；对所述第一图像的深度图进行缩放处理，得到与所述第一图像大小一致的目标深度图。

可选地，在将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图之前，所述方法还包括：获取训练样本，其中，所述训练样本包括：畸变矫正后的样本图像以及所述样本图像对应的深度图，所述样本图像为二维RGB图像；构建所述初始单目深度估计网络的三维结构；将所述训练样本输入所述初始单目深度估计网络，根据所述初始单目深度估计网络的损失函数对所述初始单目深度估计网络进行模型参数的训练，得到目标单目深度估计网络。

可选地，所述构建所述初始单目深度估计网络的三维结构包括：通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；通过升维模块在第三维度上对所述二维特征图进行重复堆叠，得到第一三维特征图/>其中，K表示离散深度值的个数；对所述三维特征图进行N层卷积处理，得到第二三维特征图/>其中，N为大于1的整数，第一层卷积层的输入为所述升维模块输出的特征图，第N层卷积层的输入为第N-1层卷积层的输出；通过双线性插值算法，将所述第二三维特征图转换为K×H×W的概率图，根据K维度上，概率最大值所在的索引i作为图像上对应(h,w)位置的深度值，得到大小为H*W的目标深度图。

可选地，所述根据所述初始单目深度估计网络的损失函数对所述初始单目深度估计网络进行模型参数的训练包括：通过以下公式优化所述目标单目深度估计网络的模型参数：

其中，

y_i表示z_i的软标签向量，W和H分别为图像的宽和高，p_i(w,h)为网络预测的像素点深度值为z_i的概率。

可选地，根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息包括：通过以下公式确定所述目标深度图中任一像素点的深度值：

其中，i表示像素点所属类别，z_i表示像素点i的深度值。

可选地，所述根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息包括:根据所述目标深度图获取所述目标对象对应像素点的深度值，将所述目标对象对应像素点的深度值的平均值确定为所述目标对象的目标深度；获取所述目标对象的直边外接矩形以及所述直边外接矩形左上角和右下角的像素点，记录所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标，并设定所述直边外接矩形内的像素点的深度值为所述目标深度；根据采集所述第一图像的设备的内参矩阵、外参矩阵、所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标、所述目标深度，通过以下公式获取所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标：

其中，(X_w,Y_w,Z_w)表示世界坐标系下的坐标，(u,v)表示像素点在所述第一图像中的坐标，M和P分别表示采集所述第一图像的设备的内参矩阵和外参矩阵，Z_c表示所述目标深度；根据所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标获取所述目标对象在预设的静态三维场景中的位置信息。

根据本发明的另一个实施例，还提供了一种基于单目估计的三维场景融合装置，包括：

输入模块，用于将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，所述目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

第一获取模块，用于根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息，其中，所述目标语义分割图由所述第一图像的语义分割图经过畸变矫正后获得；

第二获取模块，用于根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景的坐标系与所述目标对象所在的世界坐标系具有映射关系。

可选地，所述装置还包括：

矫正模块，用于对获取到的第一图像及所述第一图像的语义分割图进行畸变矫正；

处理模块，用于对经过畸变矫正的所述第一图像进行缩放和白化处理。

可选地，所述输入模块包括：

输入单元，用于将获取到的第一图像输入目标单目深度估计网络中，得到所述第一图像的深度图；

缩放单元，用于对所述第一图像的深度图进行缩放处理，得到与所述第一图像大小一致的目标深度图。

可选地，所述装置还包括：

第三获取模块，用于获取训练样本，其中，所述训练样本包括：畸变矫正后的样本图像以及所述样本图像对应的深度图，所述样本图像为二维RGB图像；

构建模块，用于构建所述初始单目深度估计网络的三维结构；

训练模块，用于将所述训练样本输入所述初始单目深度估计网络，根据所述初始单目深度估计网络的损失函数对所述初始单目深度估计网络进行模型参数的训练，得到目标单目深度估计网络。

可选地，所述构建模块包括：

提取单元，用于通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；

堆叠单元，用于通过升维模块在第三维度上对所述二维特征图进行重复堆叠，得到第一三维特征图/>其中，K表示离散深度值的个数；

卷积单元，用于对所述三维特征图进行N层卷积处理，得到第二三维特征图其中，N为大于1的整数，第一层卷积层的输入为所述升维模块输出的特征图，第N层卷积层的输入为第N-1层卷积层的输出；

转换单元，用于通过双线性插值算法，将所述第二三维特征图转换为K×H×W的概率图，根据K维度上，概率最大值所在的索引i作为图像上对应(h,w)位置的深度值，得到大小为H*W的目标深度图。

可选地，所述训练模块包括：

优化单元，用于通过以下公式优化所述目标单目深度估计网络的模型参数：

其中，

y_i表示z_i的软标签向量，W和H分别为图像的宽和高，p_i(w,h)为网络预测的该像素点深度值为z_i的概率。

可选地，第一获取模块包括：

第一确定单元，用于通过以下公式确定所述目标深度图中任一像素点的深度值：

其中，i表示像素点所属类别，z_i表示像素点i的深度值。

可选地，所述第二获取模块包括：

第二确定单元，用于根据所述目标深度图获取所述目标对象对应像素点的深度值，将所述目标对象对应像素点的深度值的平均值确定为所述目标对象的目标深度；

第一获取单元，用于获取所述目标对象的直边外接矩形以及所述直边外接矩形左上角和右下角的像素点，记录所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标，并设定所述直边外接矩形内的像素点的深度值为所述目标深度；

第二获取单元，用于根据采集所述第一图像的设备的内参矩阵、外参矩阵、所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标、所述目标深度，通过以下公式获取所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标：

其中，(X_w,Y_w,Z_w)表示世界坐标系下的坐标，(u,v)表示像素点在所述第一图像中的坐标，M和P分别表示采集所述第一图像的设备的内参矩阵和外参矩阵，Z_c表示所述目标深度；

第三获取单元，用于根据所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标获取所述目标对象在预设的静态三维场景中的位置信息。

根据本发明的另一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的另一个实施例，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明实施例，单目深度估计方法仅从一个相机所捕获的图像或图像序列来计算深度，它的硬件结构简单，成本更低，相比于双目、激光雷达，单目相机的标定更为简单，并且适用于更多的场景，因此采用单目估计的方式与静态三维场景模型进行融合，然后将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到，使得目标单目深度估计网络获取的目标深度图中像素的深度值更精确，然后根据目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息；根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，解决了现有技术中由于目标深度估计方法的实施不理想导致监控对象与静态三维场景模型融合的方式不理想的问题，使得监控对象与静态三维场景模型的融合更准确、适用性更广、成本更低。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种基于单目估计的三维场景融合方法的移动终端的硬件结构框图；

图2是本发明实施例中一种可选的基于单目估计的三维场景融合方法的流程图；

图3是根据本发明实施例的一种可选的三维场景融合方法的流程图；

图4是根据本发明实施例的一种可选的目标单目深度估计网络的训练方法流程图；

图5是根据本发明实施例的一种可选的目标单目深度估计网络结构图；

图6是根据本发明实施例的深度值取值范围示意图；

图7是根据本发明实施例的一种可选的目标深度图的计算方法示意图；

图8是根据本发明实施例的一种可选的静态三维场景融合结构示意图；

图9是根据本发明实施例的一种可选的静态三维场景融合方法流程图；

图10是根据本发明实施例的一种可选的基于单目估计的三维场景融合装置的结构框图；

图11是根据本发明实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明实施例提供了一种基于单目估计的三维场景融合方法。图1是根据本发明实施例一种可选的基于单目估计的三维场景融合方法的硬件环境示意图，如图1所示，该硬件环境可以包括但不限于图像采集设备102、服务器104、显示设备106，可选地，图像采集设备102、服务器104和显示设备中任意两者或三者可以集成在一个设备上，本发明实施例对此不做限定。图像采集设备102将获取的第一图像发送到服务器104中，服务器104经过内部处理，根据世界坐标系输出第一图像中目标对象的坐标位置，其中，服务器104中执行的操作主要包括以下步骤：

步骤S102，将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

步骤S104，根据目标深度图与目标语义分割图，获取目标深度图中的目标对象的深度信息，其中，目标语义分割图由第一图像的语义分割图经过畸变矫正后获得；

步骤S106，根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，其中，静态三维场景的坐标系与目标对象所在的世界坐标系具有映射关系。

本发明实施例提供了一种基于单目估计的三维场景融合方法。图2是本发明实施例中一种可选的基于单目估计的三维场景融合方法的流程图，如图2所示，该方法包括：

步骤S202，将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

步骤S204，根据目标深度图与目标语义分割图，获取目标深度图中的目标对象的深度信息，其中，目标语义分割图由第一图像的语义分割图经过畸变矫正后获得；

步骤S206，根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，其中，静态三维场景的坐标系与目标对象所在的世界坐标系具有映射关系。

通过上述方法，单目深度估计方法仅从一个相机所捕获的图像或图像序列来计算深度，它的硬件结构简单，成本更低，相比于双目、激光雷达，单目相机的标定更为简单，并且适用于更多的场景，因此采用单目估计的方式与静态三维场景模型进行融合，然后将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到，使得目标单目深度估计网络获取的目标深度图中像素的深度值更精确，然后根据目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息；根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，解决了现有技术中由于目标深度估计方法的实施不理想导致监控对象与静态三维场景模型融合的方式不理想的问题，使得监控对象与静态三维场景模型的融合更准确、适用性更广、成本更低。

图3是根据本发明实施例的一种可选的三维场景融合方法的流程图，如图3所示，该方法整体流程包括以下步骤：

步骤1：获取待处理图像及其语义分割图，对待处理图像和其语义分割图进行畸变矫正；

步骤2：对所述的矫正后的图像缩放到指定大小，白化处理后输入到经训练的单目深度估计网络中，得到深度图，并将深度图利用双线性插值缩放到和原始图像相同的大小；

步骤3：结合图像的语义分割图，获取兴趣目标物体的深度信息，根据已知的相机内外参数，将目标所在二维平面映射到预先构建的静态三维场景中。

可选地，所述构建所述初始单目深度估计网络的三维结构包括：通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；通过升维模块在第三维度上对所述二维特征图/>进行重复堆叠，得到第一三维特征图/>其中，K表示离散深度值的个数；对所述三维特征图进行N层卷积处理，得到第二三维特征图/>其中，N为大于1的整数，第一层卷积层的输入为所述升维模块输出的特征图，第N层卷积层的输入为第N-1层卷积层的输出；通过双线性插值算法，将所述第二三维特征图转换为K×H×W的概率图，根据K维度上，概率最大值所在的索引i作为图像上对应(h,w)位置的深度值，得到大小为H*W的目标深度图。

其中，

其中，i表示像素点所属类别，z_i表示像素点i的深度值。i表示设定的类别，例如设定1表示猫，2表示狗，3表示人。本发明实施例中1表示深度值为z1，2表示深度值为z2，3表示深度值为z3。这个公式是将深度值离散化为K个值。使训练的任务变成K分类问题，类别为z₀,z₁,...,z_K-1。

图4是根据本发明实施例的一种可选的目标单目深度估计网络的训练方法流程图，如图4所示，包括以下步骤：

S401：获取训练样本。样本由畸变矫正后的RGB图像和其对应的深度图构成。对RGB图像进行白化处理，对RGB图像、深度图进行缩放处理、随机翻转。其中，白化处理为了减少外界环境因素对图像造成的影响，如照明强度、物体反射等，从而获得一些稳定的信息。图像的随机翻转能够扩充原有的样本。

S402：构建单目深度估计网络。现有的很多基于深度学习的双目立体匹配方法在网络中都采用了三维卷积，并得到了很好的结果。相比于二维卷积，三维卷积具有更好的空间表达能力，因此，鉴于三维卷积在立体视觉领域所取得的优越成果，本发明的单目深度估计网络中也嵌入了三维卷积。在GC-Net、PSM-Net等双目立体匹配网络中，网络输出了一种大小为D×H×W三维的代价体结构，其中D表示了离散的视差值。而对于单目深度估计来说的问题在于，网络所输出的三维结构如何表达深度图。因此，本发明将深度值离散化为K个值，并将此任务作为一个K分类问题，通过计算原输入图像的点在每个离散化的深度值上的概率，来确定该点的深度值。

S403：训练网络，得到训练好的模型参数，并保存在存储介质当中。训练过程为：将经S401中预处理后的数据集输入到S402中构建的单目深度估计网络当中，并根据S202中的损失函数，采用Adam、梯度下降等优化方法进行模型参数训练。最后将训练好的模型参数保存到存储介质当中。

在该单目深度网络的使用阶段，首先对输入图像进行白化处理，经过网络输出大小为K×H×W的结果，通过Argmax，确定像素所属的类别i(i∈{0,1,...K-1})，由此得到该点的深度值z_i(z_i∈{z₀,z₁,...,z_K-1})。

图5是根据本发明实施例的一种可选的目标单目深度估计网络结构图，如图5所示，它包含了二维特征提取模块，其后对输出的特征如进行升维，并输入三维卷积特征提取模块。最终输出的结果为一个K×H×W的三维矩阵，其中W，H为输入图像的宽和高，K代表K个离散的深度值。目标单目深度估计网络包括以下模块：

二维卷积特征提取模块：

本发明实施例不对二维卷积提取模块的具体结构细节进行约束，它可以是现有的二维卷积的组合设计，但需要保证的是，该模块的输出特征的尺度缩小为原输入图像的1/4，这可以通过在网络中加入池化或步长大于1的卷积操作实现。

特征升维模块：

为了进行二维卷积到三维卷积的变换，需要对二维卷积特征提取模块输出进行升维，本发明采用了一种特征复用的策略。具体地，对于输入的大小为的特征图，在一个新的维度上，对该特征图进行重复堆叠，最终得到一个大小为/>特征图。这个操作赋予了特征图一个深度信息。

三维卷积特征提取模块：

三维卷积相比于二维卷积具有更好的空间表达能力。本发明的三维卷积特征提取模块采用了一种带跳跃连接的编码器-解码器的结构。网络结构参数如表1所示：

表1三维特征提取模块网络结构参数

表中，除第12层以外，每一层后接一个批归一化(Batch Normalization)操作，并以ReLU作为激活函数。

上采样

经过三维卷积特征提取模块，输出的大小为采用双线性插值得方式，将其大小变为K×H×W，随后通过一个Softmax激活函数，得到最终的网络输出结果。

深度值的离散化

如果将深度估计作为一个K分类的问题，需要将深度值进行离散化，使深度值对应到K个不同的类别。

图6是根据本发明实施例的深度值取值范围示意图，对深度值离散化的处理，如图6所示，[z_min,z_max]表示了深度值的取值范围，它们根据应用场景的不同，由人工设定。{z₀,z₁,...,z_K-1}表示了离散化的深度值。为了能够更多的关注较小距离的深度预测，需要较小深度值进行更细化的分类，采用了一种空间递增的离散化方法。简单来说，就是在[log(z_min),log(z_max)]的范围内进行平均离散化，即

对其进行变形可以得到：

这样深度估计问题就可以作为K分类问题处理。

损失函数

考虑到离散的深度值类别之间具有一种顺序关系，本发明实施例采用有序回归的方法来训练网络。对于一个样本标签z_GT，首先根据其值落入的区间确定其离散深度值z_t(z_t∈{z₀,z₁,...,z_K-1})，通过以下公式，计算z_t的软标签向量Y＝{y₀,y₁...y_K-1}：

这样一来，就将离散深度值之间的顺序关系自然的嵌入到标签当中。对于深度图的每个像素值都进行相同的操作，因此从一个深度图可以得到的软标签为K×H×W的三维结构。随后通过交叉熵来计算网络输出与该软标签之间的损失值，公式为：

其中，

其中W和H分别为图像的宽和高，p_i(w,h)为网络预测的该像素点为第i(i∈{0,1,...K-1})类(或者说深度值为z_i)的概率。

其中，(X_w,Y_w,Z_w)表示世界坐标系下的坐标，(u,v)表示像素点在所述第一图像中的坐标，M和P分别表示采集所述第一图像的设备的内参矩阵和外参矩阵，Z_c表示所述目标深度；根据所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景与所述世界坐标系具有映射关系。

图7是根据本发明实施例的一种可选的目标深度图的计算方法示意图，如图7所示，网络输出的结果可以看作是概率图。通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；通过升维模块在第三维度上对所述二维特征图/>进行重复堆叠，得到第一三维特征图/>其中，K表示离散深度值的个数；对所述三维特征图进行N层卷积处理，得到第二三维特征图/>其中，N为大于1的整数，第一层卷积层的输入为所述升维模块输出的特征图，第N层卷积层的输入为第N-1层卷积层的输出；通过双线性插值算法，将所述第二三维特征图/>转换为K×H×W的概率图，然后根据K维度上，概率最大值所在的索引i作为图像上对应(h,w)位置的深度值，得到大小为H*W的目标深度图。

图8是根据本发明实施例的一种可选的静态三维场景融合结构示意图，图9是根据本发明实施例的一种可选的静态三维场景融合方法流程图。如图9所示，该方法包括：

S801:利用图3步骤1中畸变矫正后的图像和其语义分割图分割出感兴趣目标，并根据图3步骤2得到的深度图，求取目标物体对应像素点深度值的平均值，作为目标的整体深度。

S802：求取目标的直边外接矩形，选取矩形框左上角和右下角的像素点，记录其在原输入图像中的坐标，并假定整个矩形框内像素的深度均为S801中所得到的深度值。

S803:利用已知的相机内外参、S802中的两个坐标点，和S801中得到的深度值，根据世界坐标系和相机坐标系的转换公式，求得两点在世界坐标系下的坐标。

坐标转换公式如下：

其中，(X_w,Y_w,Z_w)表示世界坐标系下的坐标，(u,v)表示像素在图像中的坐标，M和P分别表示相机内参矩阵和相机外参矩阵，Z_c为目标到相机的深度。

S804：根据S803中得到的两个点的世界坐标，将目标所在的二维平面映射到预先构建的静态三维场景模型中，如图8所示。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述基于单目估计的三维场景融合方法的基于单目估计的三维场景融合装置。图10是根据本发明实施例的一种可选的基于单目估计的三维场景融合装置的结构框图，如图10所示，该装置包括：

输入模块902，用于将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，所述目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

第一获取模块904，用于根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息，其中，所述目标语义分割图由所述第一图像的语义分割图经过畸变矫正后获得；

第二获取模块906，用于根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景的坐标系与所述目标对象所在的世界坐标系具有映射关系。

可选地，所述装置还包括：

可选地，所述输入模块包括：

可选地，所述装置还包括：

可选地，所述构建模块包括：

提取单元，用于通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；/>

可选地，所述训练模块包括：

其中，

可选地，第一获取模块包括：

其中，i表示像素点，i∈{0,1,...K-1}表示所述像素点i的所属类别，z_i表示像素点i的深度值。

可选地，所述第二获取模块包括：

/>

第三获取单元，用于根据所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景与所述世界坐标系具有映射关系。

根据本发明实施例的又一个方面，还提供了一种用于实施上述基于单目估计的三维场景融合方法的电子装置，上述电子装置可以但不限于应用于上述图1所示的服务器104中。如图11所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

步骤S2，根据目标深度图与目标语义分割图，获取目标深度图中的目标对象的深度信息，其中，目标语义分割图由第一图像的语义分割图经过畸变矫正后获得；

步骤S3，根据目标对象的深度信息与采集第一图像的设备的参数信息，获取目标对象在预设的静态三维场景中的位置信息，其中，静态三维场景的坐标系与目标对象所在的世界坐标系具有映射关系。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的基于单目估计的三维场景融合方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于单目估计的三维场景融合方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于储存基于单目估计的三维场景融合方法的程序步骤。作为一种示例，如图11所示，上述存储器1002中可以但不限于包括上述基于单目估计的三维场景融合装置中的输入模块902、第一获取模块904和第二获取模块906。此外，还可以包括但不限于上述基于单目估计的三维场景融合装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示可疑帐号的告警推送；和连接总线1010，用于连接上述电子装置中的各个模块部件。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于单目估计的三维场景融合方法，其特征在于，包括：

将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图，其中，所述目标单目深度估计网络由初始单目深度估计网络经过训练后得到；

根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息，其中，所述目标语义分割图由所述第一图像的语义分割图经过畸变矫正后获得；

根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景的坐标系与所述目标对象所在的世界坐标系具有映射关系，其中，将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图包括：

将获取到的第一图像输入目标单目深度估计网络中，得到所述第一图像的深度图；

对所述第一图像的深度图进行缩放处理，得到与所述第一图像大小一致的目标深度图。

2.根据权利要求1所述的方法，其特征在于，在将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图之前，所述方法还包括：

对获取到的第一图像及所述第一图像的语义分割图进行畸变矫正；

对经过畸变矫正的所述第一图像进行缩放和白化处理。

3.根据权利要求1所述的方法，其特征在于，在将获取到的第一图像输入目标单目深度估计网络中，得到目标深度图之前，所述方法还包括：

获取训练样本，其中，所述训练样本包括：畸变矫正后的样本图像以及所述样本图像对应的深度图，所述样本图像为二维RGB图像；

构建所述初始单目深度估计网络的三维结构；

将所述训练样本输入所述初始单目深度估计网络，根据所述初始单目深度估计网络的损失函数对所述初始单目深度估计网络进行模型参数的训练，得到目标单目深度估计网络。

4.根据权利要求3所述的方法，其特征在于，所述构建所述初始单目深度估计网络的三维结构包括：

通过二维卷积特征提取模块提取输入图像的二维特征图其中，H为所述输入图像的高度，W为所述输入图像的宽度，F表示卷积核的通道数；

通过升维模块在第三维度上对所述二维特征图进行重复堆叠，得到第一三维特征图/>其中，K表示离散深度值的个数；

对所述三维特征图进行N层卷积处理，得到第二三维特征图其中，N为大于1的整数，第一层卷积层的输入为所述升维模块输出的特征图，第N层卷积层的输入为第N-1层卷积层的输出；

通过双线性插值算法，将所述第二三维特征图转换为K×H×W的概率图；

根据K维度上，概率最大值所在的索引i作为图像上对应(h,w)位置的深度值，得到大小为H*W的目标深度图。

5.根据权利要求3所述的方法，其特征在于，所述根据所述初始单目深度估计网络的损失函数对所述初始单目深度估计网络进行模型参数的训练包括：

通过以下公式优化所述目标单目深度估计网络的模型参数：

其中，

6.根据权利要求1所述的方法，其特征在于，根据所述目标深度图与目标语义分割图，获取所述目标深度图中的目标对象的深度信息包括：

通过以下公式确定所述目标深度图中任一像素点的深度值：

其中，i表示像素点所属类别，z_i表示像素点i的深度值。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息包括:

根据所述目标深度图获取所述目标对象对应像素点的深度值，将所述目标对象对应像素点的深度值的平均值确定为所述目标对象的目标深度；

获取所述目标对象的直边外接矩形以及所述直边外接矩形左上角和右下角的像素点，记录所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标，并设定所述直边外接矩形内的像素点的深度值为所述目标深度；

根据采集所述第一图像的设备的内参矩阵、外参矩阵、所述直边外接矩形左上角和右下角的像素点在所述第一图像中的坐标、所述目标深度，通过以下公式获取所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标：

根据所述直边外接矩形左上角和右下角的像素点在世界坐标系下的坐标获取所述目标对象在预设的静态三维场景中的位置信息。

8.一种基于单目估计的三维场景融合装置，其特征在于，包括：

第二获取模块，用于根据所述目标对象的深度信息与采集所述第一图像的设备的参数信息，获取所述目标对象在预设的静态三维场景中的位置信息，其中，所述静态三维场景的坐标系与所述目标对象所在的世界坐标系具有映射关系，其中，输入模块包括：

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。