CN113034695B

CN113034695B - 一种基于Wasserstein距离的物体包络体多视图重建与优化方法

Info

Publication number: CN113034695B
Application number: CN202110413413.2A
Authority: CN
Inventors: 林旭滨; 何力; 杨益枘; 管贻生; 张宏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-11-22
Anticipated expiration: 2041-04-16
Also published as: CN113034695A

Abstract

本发明公开了一种基于Wasserstein距离的物体包络体多视图重建与优化方法，基于几何代价函数的定义上利用了2D矩形/椭圆与高斯分布的一一对应性质，对图像提取的2D矩形/椭圆特征和包络体在视图的投影轮廓分别进行参数提取，并构建与之对应的二维高斯分布，接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题，引入Wasserstein距离用以度量分布相似性，更近一步将Wasserstein度量转化为优化问题的代价函数，从而提升原优化问题的收敛性和精确性。另外，本发明提出的代价函数作为封闭几何轮廓相似性度量具有通用性，如在深度学习物体识别中预测框与数据集真实检测框的度量上亦适用。

Description

一种基于Wasserstein距离的物体包络体多视图重建与优化方法

技术领域

本发明涉及机器视觉的多视图几何三维重建的技术领域，尤其涉及到一种基于Wasserstein距离的物体包络体多视图重建与优化方法。

背景技术

基于多个视图中的检测出的几何图元(二维空间中的点、直线段、曲线等)，重构出与这些视图投影轮廓相对应的三维空间中的几何图元(三维空间中的点、线、平面、曲面等)是计算机视觉的一个重要研究领域和技术应用。

在计算机视觉的多视图几何理论体系中，多个视图中的投影轮廓及其三维空间中的几何本体在射影几何中有着严格的数学定义及约束，结合相机成像模型、对极几何约束，多视图三维重建问题在理论上存在着解析解/精确解。然而在实际应用中，由于相机模型的精度欠缺、传感器天然存在的噪声、图像处理不到位和2D图元提取精度不足等问题，使得建立的过约束方程无法得到精确解。而且，目前工业上的三维重建应用，无论涉及的是哪一类三维图元的重建，普遍都是通过多视图冗余数据建立过约束方程，通过优化的方式寻求一个多视图一致性最高的数值解，效率较为低下。

发明内容

本发明的目的在于克服现有技术的不足，提供一种重建效率高、精度高、通用性强的基于Wasserstein距离的物体包络体多视图重建与优化方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于Wasserstein距离的物体包络体多视图重建与优化方法，包括如下步骤：

S1、提取RGB图像流中矩形或椭圆特征；

S2、构造与步骤S1提取到的特征对应的二维高斯分布；

S3、初始化三维图形；

S4、进行多视图融合优化；

S5、输出优化构建结果。

进一步地，所述步骤S1采用基于深度神经网络的物体检测算法YOLO-v4进行物体特征的提取，算法的检测结果输出图像中物体检测框信息，包括物体语义标签，检测框位置的像素坐标和尺寸信息；

记一物体检测框左上角坐标为(x₁,y₁)，检测框右下角坐标为(x₂，y₂)，记检测框中心点坐标为(t_x，t_y)；由于物体检测框与像素坐标系对齐，易得该检测框的内切椭圆的参数为：长半轴

短板轴

中心点x坐标

中心点y坐标

则其内切椭圆的对偶二次型C^*表示为：

进一步地，所述步骤S2的具体过程如下：

对于高斯分布，其均值视为椭圆的中心，而协方差矩阵视为椭圆的姿态及半轴长，椭圆表达式与高斯分布一一对应，概率分布的相似性度量即为几何图形的相似性度量；

对于经过归一化的对偶形式的椭圆表达式：

其椭圆中心位置

令

有：

则可构建与该椭圆特征相对应的二维高斯分布，分布的均值向量μ₁和协方差矩阵∑₁分别为：

进一步地，所述步骤S3初始化三维图形的具体过程如下：

从多个视图中的椭圆特征构建对应的三维椭球，其中采用其中一个视图下的投影方程：

式(1)中，λ_i为标量，表明式(1)在相差一个尺度下具有等价性，而P_i＝K·[R_i t_i]表示在第i个视图下的相机投影矩阵，其中K是相机的内参矩阵，[R_i t_i]是第i个视图的相机位姿，即外参矩阵；式(1)表示三维空间中的椭球体的对偶形式Q^*与其视图投影的椭圆轮廓对偶形式

的几何关联，将式(1)表达成线性形式：

并联立n(n≥3)个视图构建线性方程组，对线性方程组用SVD分解，解析求出三维椭球体的初始值。

进一步地，所述步骤S4进行多视图融合优化包括如下步骤：

S4-1、提取三维物体重投影轮廓椭圆，以及构造对应的投影轮廓高斯分布；

S4-2、建立特征-轮廓的Wasserstein距离函数；

S4-3、优化求解，得到物体包络体的三维估计值。

进一步地，所述步骤S4-2的具体过程如下：

给定提取特征椭圆对应的高斯分布N(μ₁，∑₁)和重投影轮廓椭圆对应的高斯分布N(μ₂，∑₂)，两个轮廓的相似度即两个分布的相似度由Wasserstein距离定义：

d：＝W₂(N(μ₁，∑₁)；N(μ₂，∑₂))

则有：

其中Tr(·)表示矩阵的迹，根据迹的性质，公式转化为：

由于∑₁和∑₂均为对称矩阵，所以有

原等式化为：

其中

表示矩阵的F范数，可看到对于两个高斯分布而言，其Wasserstein距离可近似视为是均值的欧氏距离加上协方差矩阵的F范数之和。

进一步地，所述步骤S4-3的具体过程如下：

基于Wasserstein距离代价函数嵌入进三维重建中，有：

式(3)中，Π(·)函数表示将输入的矩形框或椭圆轮廓进行高斯分布提取，W₂(·)为整体的代价函数；

对式(3)利用非线性优化计算工具箱求解，即可优化得到物体包络体的三维估计值。

与现有技术相比，本方案原理及优点如下：

本方案基于几何代价函数的定义上利用了2D矩形/椭圆与高斯分布的一一对应性质，对图像提取的2D矩形/椭圆特征和包络体在视图的投影轮廓分别进行参数提取，并构建与之对应的二维高斯分布，接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题，引入Wasserstein距离用以度量分布相似性，更近一步将Wasserstein度量转化为优化问题的代价函数，从而提升原优化问题的收敛性和精确性。另外，本方案提出的代价函数作为封闭几何轮廓相似性度量具有通用性，如在深度学习物体识别中预测框与数据集真实检测框的度量上亦适用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于Wasserstein距离的物体包络体多视图重建与优化方法的原理流程图；

图2为三维物体投影轮廓与图像提取特征的示意图；

图3为分别对应三维物体投影轮廓与图像提取特征的二维高斯分布示意图；

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法，包括以下步骤：

S1、提取RGB图像流中矩形或椭圆特征；

采用基于深度神经网络的物体检测算法YOLO-v4进行物体特征的提取，算法的检测结果输出图像中物体检测框信息，包括物体语义标签，检测框位置的像素坐标和尺寸信息；

记一物体检测框左上角坐标为(x₁，y₁)，检测框右下角坐标为(x₂，y₂)，记检测框中心点坐标为(t_x，t_y)；由于物体检测框与像素坐标系对齐，易得该检测框的内切椭圆的参数为：长半轴

短板轴

中心点x坐标

中心点y坐标

则其内切椭圆的对偶二次型C^*表示为：

S2、构造与步骤S1提取到的特征对应的二维高斯分布；

对于高斯分布而言，其均值可以视为椭圆的中心，而协方差矩阵可以视为是椭圆的姿态及半轴长，因此反过来椭圆表达式也与一个高斯分布一一对应，所以概率分布的相似性度量即是几何图形的相似性度量，示意图如图3所示。

对于经过归一化的对偶形式的椭圆表达式：

其椭圆中心位置

令

有：

S3、初始化三维图形；

的几何关联，将式(1)表达成线性形式：

但是由于上述方程仅适用少数的视图，并且从数学上讲，方程的求解过程是一个线性最小二乘问题，所以本质上是一种代数代价函数最小化的解析求解，所以尽管能够具有解析表达式实现快速求解，但是通常解的精度不足，需要通过多视图融合优化，并最小化几何代价实现精度提升。为此，进入步骤S4。

S4、进行多视图融合优化；

本步骤包括如下三个子步骤：

三维椭球在视图的投影轮廓提取实际上是三维物体重构的逆过程，同样利用式(1)可以实现投影椭圆轮廓提取，但是式(1)中的已知量是相机投影矩阵P_i和椭球体Q^*，根据式(1)的正向求解可以很方便得到其在视图i中的投影投缘轮廓的对偶表达式

利用二步可以提取出其对应的高斯分布N(μ₂，∑₂)；

S4-2、建立特征-轮廓的Wasserstein距离函数；

Wasserstein距离定义了两个概率分布在测度空间的距离，即给了两个概率分布的相似性度量，它相比于其他概率分布度量方法如KL散度或JS散度，优势在于即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近，而JS散度在此情况下是常量，KL散度可能无意义。另一方面，对于两个分布都是高斯分布的情况下，Wasserstein距离的计算非常便捷。因此，本实施例建立特征-轮廓的Wasserstein距离函数：

d：＝W₂(N(μ₁，∑₁)；N(μ₂，∑₂))

则有：

其中Tr(·)表示矩阵的迹，根据迹的性质，公式转化为：

由于∑₁和∑₂均为对称矩阵，所以有

原等式化为：

其中

S4-3、优化求解，得到物体包络体的三维估计值。

优化问题是利用过约束的数据寻求整体最小代价值的解，即利用多个视图对三维椭球体的参数进行约束，寻求一个整体最小几何代价数值的三维椭球体参数。本实施例基于Wasserstein距离代价函数嵌入进三维重建中，有：

对式(3)利用非线性优化计算工具箱如Ceres,G2O即可求解，优化得到物体包络体的三维估计值。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于Wasserstein距离的物体包络体多视图重建与优化方法，其特征在于，基于几何代价函数的定义上利用2D矩形或椭圆与高斯分布的一一对应性质，对图像提取的2D矩形或椭圆特征和包络体在视图的投影轮廓分别进行参数提取，并构建与之对应的二维高斯分布；接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题，引入Wasserstein距离用以度量分布相似性，将Wasserstein度量转化为优化问题的代价函数，从而提升原优化问题的收敛性和精确性；具体过程如下：

S1、提取RGB图像流中矩形或椭圆特征；

S2、构造与步骤S1提取到的特征对应的二维高斯分布；

S3、初始化三维图形；

S4、进行多视图融合优化；

S5、输出优化构建结果；

所述步骤S4进行多视图融合优化包括如下步骤：

S4-2、建立特征—轮廓的Wasserstein距离函数；

S4-3、优化求解，得到物体包络体的三维估计值；

所述步骤S4-2的具体过程如下：

给定提取特征椭圆对应的高斯分布N(μ₁,∑₁)和重投影轮廓椭圆对应的高斯分布N(μ₂,∑₂)，两个轮廓的相似度即两个分布的相似度由Wasserstein距离定义：

d：＝W₂(N(μ₁，∑₁)；N(μ₂，∑₂))

则有：

其中Tr(·)表示矩阵的迹，根据迹的性质，公式转化为：

由于∑₁和∑₂均为对称矩阵，所以有

原等式化为：

其中

表示矩阵的F范数，可看到对于两个高斯分布而言，其Wasserstein距离可近似视为是均值的欧氏距离加上协方差矩阵的F范数之和；

所述步骤S4-3的具体过程如下：

基于Wasserstein距离代价函数嵌入进三维重建中，有：

2.根据权利要求1所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法，其特征在于，所述步骤S1采用基于深度神经网络的物体检测算法YOLO-v4进行物体特征的提取，算法的检测结果输出图像中物体检测框信息，包括物体语义标签，检测框位置的像素坐标和尺寸信息；

记一物体检测框左上角坐标为(x₁,y₁)，检测框右下角坐标为(x₂,y₂)，记检测框中心点坐标为(t_x,t_y)；由于物体检测框与像素坐标系对齐，易得该检测框的内切椭圆的参数为：长半轴

短半轴

中心点x坐标

中心点y坐标

则其内切椭圆的对偶二次型C^*表示为：

3.根据权利要求1所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法，其特征在于，所述步骤S2的具体过程如下：

对于经过归一化的对偶形式的椭圆表达式：

其椭圆中心位置

令

有：

4.根据权利要求1所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法，其特征在于，所述步骤S3初始化三维图形的具体过程如下：

式(1)中，λ_i为标量，表明式(1)在相差一个尺度下具有等价性，而P_i＝K·[R_i t_i]表示在第i个视图下的相机投影矩阵，其中K是相机的内参矩阵，[R_i t_i]是第i个视图的相机位姿，即外参矩阵；式(1)表示三维空间中的椭球体的对偶形式Q^*与其视图投影的椭圆轮廓对偶形式C_i ^*的几何关联，将式(1)表达成线性形式，记B_i为P_i的二次型表达：

并联立n个视图构建线性方程组，n≥3，对线性方程组用SVD分解，解析求出三维椭球体的初始值。