CN113034695B - 一种基于Wasserstein距离的物体包络体多视图重建与优化方法 - Google Patents
一种基于Wasserstein距离的物体包络体多视图重建与优化方法 Download PDFInfo
- Publication number
- CN113034695B CN113034695B CN202110413413.2A CN202110413413A CN113034695B CN 113034695 B CN113034695 B CN 113034695B CN 202110413413 A CN202110413413 A CN 202110413413A CN 113034695 B CN113034695 B CN 113034695B
- Authority
- CN
- China
- Prior art keywords
- ellipse
- dimensional
- gaussian distribution
- optimization
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于Wasserstein距离的物体包络体多视图重建与优化方法,基于几何代价函数的定义上利用了2D矩形/椭圆与高斯分布的一一对应性质,对图像提取的2D矩形/椭圆特征和包络体在视图的投影轮廓分别进行参数提取,并构建与之对应的二维高斯分布,接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题,引入Wasserstein距离用以度量分布相似性,更近一步将Wasserstein度量转化为优化问题的代价函数,从而提升原优化问题的收敛性和精确性。另外,本发明提出的代价函数作为封闭几何轮廓相似性度量具有通用性,如在深度学习物体识别中预测框与数据集真实检测框的度量上亦适用。
Description
技术领域
本发明涉及机器视觉的多视图几何三维重建的技术领域,尤其涉及到一种基于Wasserstein距离的物体包络体多视图重建与优化方法。
背景技术
基于多个视图中的检测出的几何图元(二维空间中的点、直线段、曲线等),重构出与这些视图投影轮廓相对应的三维空间中的几何图元(三维空间中的点、线、平面、曲面等)是计算机视觉的一个重要研究领域和技术应用。
在计算机视觉的多视图几何理论体系中,多个视图中的投影轮廓及其三维空间中的几何本体在射影几何中有着严格的数学定义及约束,结合相机成像模型、对极几何约束,多视图三维重建问题在理论上存在着解析解/精确解。然而在实际应用中,由于相机模型的精度欠缺、传感器天然存在的噪声、图像处理不到位和2D图元提取精度不足等问题,使得建立的过约束方程无法得到精确解。而且,目前工业上的三维重建应用,无论涉及的是哪一类三维图元的重建,普遍都是通过多视图冗余数据建立过约束方程,通过优化的方式寻求一个多视图一致性最高的数值解,效率较为低下。
发明内容
本发明的目的在于克服现有技术的不足,提供一种重建效率高、精度高、通用性强的基于Wasserstein距离的物体包络体多视图重建与优化方法。
为实现上述目的,本发明所提供的技术方案为:
一种基于Wasserstein距离的物体包络体多视图重建与优化方法,包括如下步骤:
S1、提取RGB图像流中矩形或椭圆特征;
S2、构造与步骤S1提取到的特征对应的二维高斯分布;
S3、初始化三维图形;
S4、进行多视图融合优化;
S5、输出优化构建结果。
进一步地,所述步骤S1采用基于深度神经网络的物体检测算法YOLO-v4进行物体特征的提取,算法的检测结果输出图像中物体检测框信息,包括物体语义标签,检测框位置的像素坐标和尺寸信息;
记一物体检测框左上角坐标为(x1,y1),检测框右下角坐标为(x2,y2),记检测框中心点坐标为(tx,ty);由于物体检测框与像素坐标系对齐,易得该检测框的内切椭圆的参数为:长半轴短板轴中心点x坐标中心点y坐标则其内切椭圆的对偶二次型C*表示为:
进一步地,所述步骤S2的具体过程如下:
对于高斯分布,其均值视为椭圆的中心,而协方差矩阵视为椭圆的姿态及半轴长,椭圆表达式与高斯分布一一对应,概率分布的相似性度量即为几何图形的相似性度量;
对于经过归一化的对偶形式的椭圆表达式:
有:
则可构建与该椭圆特征相对应的二维高斯分布,分布的均值向量μ1和协方差矩阵∑1分别为:
进一步地,所述步骤S3初始化三维图形的具体过程如下:
从多个视图中的椭圆特征构建对应的三维椭球,其中采用其中一个视图下的投影方程:
式(1)中,λi为标量,表明式(1)在相差一个尺度下具有等价性,而Pi=K·[Ri ti]表示在第i个视图下的相机投影矩阵,其中K是相机的内参矩阵,[Ri ti]是第i个视图的相机位姿,即外参矩阵;式(1)表示三维空间中的椭球体的对偶形式Q*与其视图投影的椭圆轮廓对偶形式的几何关联,将式(1)表达成线性形式:
并联立n(n≥3)个视图构建线性方程组,对线性方程组用SVD分解,解析求出三维椭球体的初始值。
进一步地,所述步骤S4进行多视图融合优化包括如下步骤:
S4-1、提取三维物体重投影轮廓椭圆,以及构造对应的投影轮廓高斯分布;
S4-2、建立特征-轮廓的Wasserstein距离函数;
S4-3、优化求解,得到物体包络体的三维估计值。
进一步地,所述步骤S4-2的具体过程如下:
给定提取特征椭圆对应的高斯分布N(μ1,∑1)和重投影轮廓椭圆对应的高斯分布N(μ2,∑2),两个轮廓的相似度即两个分布的相似度由Wasserstein距离定义:
d:=W2(N(μ1,∑1);N(μ2,∑2))
则有:
其中Tr(·)表示矩阵的迹,根据迹的性质,公式转化为:
进一步地,所述步骤S4-3的具体过程如下:
基于Wasserstein距离代价函数嵌入进三维重建中,有:
式(3)中,Π(·)函数表示将输入的矩形框或椭圆轮廓进行高斯分布提取,W2(·)为整体的代价函数;
对式(3)利用非线性优化计算工具箱求解,即可优化得到物体包络体的三维估计值。
与现有技术相比,本方案原理及优点如下:
本方案基于几何代价函数的定义上利用了2D矩形/椭圆与高斯分布的一一对应性质,对图像提取的2D矩形/椭圆特征和包络体在视图的投影轮廓分别进行参数提取,并构建与之对应的二维高斯分布,接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题,引入Wasserstein距离用以度量分布相似性,更近一步将Wasserstein度量转化为优化问题的代价函数,从而提升原优化问题的收敛性和精确性。另外,本方案提出的代价函数作为封闭几何轮廓相似性度量具有通用性,如在深度学习物体识别中预测框与数据集真实检测框的度量上亦适用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于Wasserstein距离的物体包络体多视图重建与优化方法的原理流程图;
图2为三维物体投影轮廓与图像提取特征的示意图;
图3为分别对应三维物体投影轮廓与图像提取特征的二维高斯分布示意图;
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法,包括以下步骤:
S1、提取RGB图像流中矩形或椭圆特征;
采用基于深度神经网络的物体检测算法YOLO-v4进行物体特征的提取,算法的检测结果输出图像中物体检测框信息,包括物体语义标签,检测框位置的像素坐标和尺寸信息;
记一物体检测框左上角坐标为(x1,y1),检测框右下角坐标为(x2,y2),记检测框中心点坐标为(tx,ty);由于物体检测框与像素坐标系对齐,易得该检测框的内切椭圆的参数为:长半轴短板轴中心点x坐标中心点y坐标则其内切椭圆的对偶二次型C*表示为:
S2、构造与步骤S1提取到的特征对应的二维高斯分布;
对于高斯分布而言,其均值可以视为椭圆的中心,而协方差矩阵可以视为是椭圆的姿态及半轴长,因此反过来椭圆表达式也与一个高斯分布一一对应,所以概率分布的相似性度量即是几何图形的相似性度量,示意图如图3所示。
对于经过归一化的对偶形式的椭圆表达式:
有:
则可构建与该椭圆特征相对应的二维高斯分布,分布的均值向量μ1和协方差矩阵∑1分别为:
S3、初始化三维图形;
从多个视图中的椭圆特征构建对应的三维椭球,其中采用其中一个视图下的投影方程:
式(1)中,λi为标量,表明式(1)在相差一个尺度下具有等价性,而Pi=K·[Ri ti]表示在第i个视图下的相机投影矩阵,其中K是相机的内参矩阵,[Ri ti]是第i个视图的相机位姿,即外参矩阵;式(1)表示三维空间中的椭球体的对偶形式Q*与其视图投影的椭圆轮廓对偶形式的几何关联,将式(1)表达成线性形式:
并联立n(n≥3)个视图构建线性方程组,对线性方程组用SVD分解,解析求出三维椭球体的初始值。
但是由于上述方程仅适用少数的视图,并且从数学上讲,方程的求解过程是一个线性最小二乘问题,所以本质上是一种代数代价函数最小化的解析求解,所以尽管能够具有解析表达式实现快速求解,但是通常解的精度不足,需要通过多视图融合优化,并最小化几何代价实现精度提升。为此,进入步骤S4。
S4、进行多视图融合优化;
本步骤包括如下三个子步骤:
S4-1、提取三维物体重投影轮廓椭圆,以及构造对应的投影轮廓高斯分布;
三维椭球在视图的投影轮廓提取实际上是三维物体重构的逆过程,同样利用式(1)可以实现投影椭圆轮廓提取,但是式(1)中的已知量是相机投影矩阵Pi和椭球体Q*,根据式(1)的正向求解可以很方便得到其在视图i中的投影投缘轮廓的对偶表达式利用二步可以提取出其对应的高斯分布N(μ2,∑2);
S4-2、建立特征-轮廓的Wasserstein距离函数;
Wasserstein距离定义了两个概率分布在测度空间的距离,即给了两个概率分布的相似性度量,它相比于其他概率分布度量方法如KL散度或JS散度,优势在于即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近,而JS散度在此情况下是常量,KL散度可能无意义。另一方面,对于两个分布都是高斯分布的情况下,Wasserstein距离的计算非常便捷。因此,本实施例建立特征-轮廓的Wasserstein距离函数:
给定提取特征椭圆对应的高斯分布N(μ1,∑1)和重投影轮廓椭圆对应的高斯分布N(μ2,∑2),两个轮廓的相似度即两个分布的相似度由Wasserstein距离定义:
d:=W2(N(μ1,∑1);N(μ2,∑2))
则有:
其中Tr(·)表示矩阵的迹,根据迹的性质,公式转化为:
S4-3、优化求解,得到物体包络体的三维估计值。
优化问题是利用过约束的数据寻求整体最小代价值的解,即利用多个视图对三维椭球体的参数进行约束,寻求一个整体最小几何代价数值的三维椭球体参数。本实施例基于Wasserstein距离代价函数嵌入进三维重建中,有:
式(3)中,Π(·)函数表示将输入的矩形框或椭圆轮廓进行高斯分布提取,W2(·)为整体的代价函数;
对式(3)利用非线性优化计算工具箱如Ceres,G2O即可求解,优化得到物体包络体的三维估计值。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (4)
1.一种基于Wasserstein距离的物体包络体多视图重建与优化方法,其特征在于,基于几何代价函数的定义上利用2D矩形或椭圆与高斯分布的一一对应性质,对图像提取的2D矩形或椭圆特征和包络体在视图的投影轮廓分别进行参数提取,并构建与之对应的二维高斯分布;接着将几何图像的相似性度量问题转化成概率分布函数的相似性度量问题,引入Wasserstein距离用以度量分布相似性,将Wasserstein度量转化为优化问题的代价函数,从而提升原优化问题的收敛性和精确性;具体过程如下:
S1、提取RGB图像流中矩形或椭圆特征;
S2、构造与步骤S1提取到的特征对应的二维高斯分布;
S3、初始化三维图形;
S4、进行多视图融合优化;
S5、输出优化构建结果;
所述步骤S4进行多视图融合优化包括如下步骤:
S4-1、提取三维物体重投影轮廓椭圆,以及构造对应的投影轮廓高斯分布;
S4-2、建立特征—轮廓的Wasserstein距离函数;
S4-3、优化求解,得到物体包络体的三维估计值;
所述步骤S4-2的具体过程如下:
给定提取特征椭圆对应的高斯分布N(μ1,∑1)和重投影轮廓椭圆对应的高斯分布N(μ2,∑2),两个轮廓的相似度即两个分布的相似度由Wasserstein距离定义:
d:=W2(N(μ1,∑1);N(μ2,∑2))
则有:
其中Tr(·)表示矩阵的迹,根据迹的性质,公式转化为:
所述步骤S4-3的具体过程如下:
基于Wasserstein距离代价函数嵌入进三维重建中,有:
式(3)中,Π(·)函数表示将输入的矩形框或椭圆轮廓进行高斯分布提取,W2(·)为整体的代价函数;
对式(3)利用非线性优化计算工具箱求解,即可优化得到物体包络体的三维估计值。
4.根据权利要求1所述的一种基于Wasserstein距离的物体包络体多视图重建与优化方法,其特征在于,所述步骤S3初始化三维图形的具体过程如下:
从多个视图中的椭圆特征构建对应的三维椭球,其中采用其中一个视图下的投影方程:
式(1)中,λi为标量,表明式(1)在相差一个尺度下具有等价性,而Pi=K·[Ri ti]表示在第i个视图下的相机投影矩阵,其中K是相机的内参矩阵,[Ri ti]是第i个视图的相机位姿,即外参矩阵;式(1)表示三维空间中的椭球体的对偶形式Q*与其视图投影的椭圆轮廓对偶形式Ci *的几何关联,将式(1)表达成线性形式,记Bi为Pi的二次型表达:
并联立n个视图构建线性方程组,n≥3,对线性方程组用SVD分解,解析求出三维椭球体的初始值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110413413.2A CN113034695B (zh) | 2021-04-16 | 2021-04-16 | 一种基于Wasserstein距离的物体包络体多视图重建与优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110413413.2A CN113034695B (zh) | 2021-04-16 | 2021-04-16 | 一种基于Wasserstein距离的物体包络体多视图重建与优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113034695A CN113034695A (zh) | 2021-06-25 |
CN113034695B true CN113034695B (zh) | 2022-11-22 |
Family
ID=76457831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110413413.2A Active CN113034695B (zh) | 2021-04-16 | 2021-04-16 | 一种基于Wasserstein距离的物体包络体多视图重建与优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113034695B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102567A (zh) * | 2018-10-11 | 2018-12-28 | 北京理工大学 | 一种基于重建误差最小化的位姿参数高精度求解方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101195942B1 (ko) * | 2006-03-20 | 2012-10-29 | 삼성전자주식회사 | 카메라 보정 방법 및 이를 이용한 3차원 물체 재구성 방법 |
US9734638B2 (en) * | 2013-02-11 | 2017-08-15 | Ramot At Tel-Aviv University Ltd. | Three-dimensional modeling from single photographs |
CN103914874B (zh) * | 2014-04-08 | 2017-02-01 | 中山大学 | 一种无特征提取的紧致sfm三维重建方法 |
JP2015203946A (ja) * | 2014-04-14 | 2015-11-16 | 国立大学法人京都大学 | ヒストグラムの重心を計算する方法 |
US10755428B2 (en) * | 2017-04-17 | 2020-08-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model |
EP3674983A1 (en) * | 2018-12-29 | 2020-07-01 | Dassault Systèmes | Machine-learning for 3d modeled object inference |
CN109993825B (zh) * | 2019-03-11 | 2023-06-20 | 北京工业大学 | 一种基于深度学习的三维重建方法 |
CN111340873B (zh) * | 2020-02-28 | 2023-05-23 | 广东工业大学 | 一种多视角图像的物体最小外包络尺寸测算方法 |
-
2021
- 2021-04-16 CN CN202110413413.2A patent/CN113034695B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102567A (zh) * | 2018-10-11 | 2018-12-28 | 北京理工大学 | 一种基于重建误差最小化的位姿参数高精度求解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113034695A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Hybridpose: 6d object pose estimation under hybrid representations | |
CN109544677B (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
Murthy et al. | Reconstructing vehicles from a single image: Shape priors for road scene understanding | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
CN111462120A (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
Bichsel | Automatic interpolation and recognition of face images by morphing | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
Wang et al. | Dynamic human body reconstruction and motion tracking with low-cost depth cameras | |
CN114005169B (zh) | 人脸关键点检测方法、装置、电子设备及存储介质 | |
Luo et al. | Exploring point-bev fusion for 3d point cloud object tracking with transformer | |
Zhou et al. | Unihead: unifying multi-perception for detection heads | |
CN113034584B (zh) | 一种基于物体语义路标的移动机器人视觉定位方法 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN113034695B (zh) | 一种基于Wasserstein距离的物体包络体多视图重建与优化方法 | |
CN113409242A (zh) | 一种轨交弓网点云智能监测方法 | |
Zhang et al. | Joint stacked hourglass network and salient region attention refinement for robust face alignment | |
CN106056599B (zh) | 一种基于物体深度数据的物体识别算法及装置 | |
Qian et al. | Context-aware transformer for 3d point cloud automatic annotation | |
CN112862395A (zh) | 基于区块链的物流供应链管理系统 | |
CN110781802A (zh) | 一种基于信息论流形的人脸图像识别方法 | |
Chang et al. | Feature patch illumination spaces and Karcher compression for face recognition via Grassmannians | |
CN116563171B (zh) | 一种面向建筑重复结构的点云增强方法及相关设备 | |
Shi et al. | Unsupervised Lightweight Face 3D Reconstruction From a Single Uncalibrated Image | |
Chen et al. | End-to-end multiview fusion for building mapping from aerial images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Lin Xubin Inventor after: He Li Inventor after: Yang Yinen Inventor after: Guan Yisheng Inventor after: Zhang Hong Inventor before: He Li Inventor before: Lin Xubin Inventor before: Yang Yinen Inventor before: Guan Yisheng Inventor before: Zhang Hong |
|
GR01 | Patent grant | ||
GR01 | Patent grant |