CN116958434A - 多视图三维重建方法、测量方法及系统 - Google Patents
多视图三维重建方法、测量方法及系统 Download PDFInfo
- Publication number
- CN116958434A CN116958434A CN202310915666.9A CN202310915666A CN116958434A CN 116958434 A CN116958434 A CN 116958434A CN 202310915666 A CN202310915666 A CN 202310915666A CN 116958434 A CN116958434 A CN 116958434A
- Authority
- CN
- China
- Prior art keywords
- depth
- feature
- image
- dimensional
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000691 measurement method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000004931 aggregating effect Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 31
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明属于三维测量技术领域,具体公开了一种多视图三维重建方法、测量方法及系统,多视图三维重建方法对图片预处理,获得参考图像和对应的源图像,并输入深度过参数化特征金字塔网络,提取二维多尺度特征,将源图像的二维多尺度特征变形到参考相机视锥体中,通过可微单应性构建源特征体;聚合源特征体并产生代价体,对代价体正则化,进行深度估计;正则化后的代价体经过深度图过滤和深度融合的后处理,获得三维重建模型。采用本技术方案,基于深度过参数化特征金字塔网络有效提高模型完整度性能,更好地还原场景信息。
Description
技术领域
本发明属于三维测量技术领域,涉及一种多视图三维重建方法、测量方法及系统。
背景技术
近年来,随着虚拟现实技术的飞速发展和“元宇宙”的崛起,三维测量技术发挥越来越重要的作用。三维测量技术是指通过对物体、场景或建筑进行三维扫描、拍摄等手段获取其深度数据信息,并利用三维重建算法将这些数据重建成为一个完整的三维模型。通过三维数据获取,实现了对现实世界的精确模拟和仿真,可以便捷地对大型工件、地形、物体等目标进行各种参数、结构、尺度等信息测量。三维测量技术在生活中有多种用途,例如:交通警察可以利用照片重建事故现场并获取更多线索和证据;建筑师可以用三维测量技术制作和优化建筑设计原型;历史遗迹可以用三维重建测量保存、维护和展示;虚拟现实测量可以模拟真实的测量过程,并提供视觉和动态感觉。
三维测量根据测量探头是否与测量物体表面接触主要分为接触式测量和非接触式测量。在非接触式三维测量方法,多视图重建法兼顾了灵活性和准确性,是一种新颖的三维测量方法。多视图重建法通过对同一个目标进行多次拍摄,从不同角度获取多幅图像,并通过图像匹配和三维重建算法生成三维模型。使用多视图重建法进行三维测量时,重建的完整度会影响测量的准确性,如果三维重建的完整度较低,则重建的三维模型可能会缺失一些重要的细节或区域,从而导致三维测量的误差或不确定性增加。传统的三维重建方法可能无法处理低纹理、镜面反射和反射区域等情况,从而导致不完整的重建,提高重建完整性是三维测量中亟待解决的问题。
当前大多数基于学习的多视图三维重建算法使用卷积神经网络提取特征,难以应对变形场景和噪声干扰,对信息处理存在局限性,导致三维重建不完全的问题以及三维测量任务对于模型高完整度的要求。对于多视图重建法进行三维测量中三维重建出来的三维模型,在没有外部尺寸参考的情况下,无法直接从模型中获取物体的真实尺寸。为了恢复尺度,可以使用外部传感器设备辅助测量,但是类似的结构光相机和深度相机等专业设备不适用于大众,没有普适性;基于标定物恢复尺度信息的方法需要人工对标定物的相对尺寸进行测量,不仅不便捷,而且容易出错。
发明内容
本发明的目的在于提供一种多视图三维重建方法、测量方法及系统,提高模型完整度性能。
为了达到上述目的,本发明的基础方案为:一种基于深度过参数化卷积特征金字塔的多视图三维重建方法,包括如下步骤:
对图片进行预处理,获得参考图像和对应的源图像;
将参考图像及其对应的源图像,输入深度过参数化特征金字塔网络,提取二维多尺度特征;
根据平面扫描算法和单应性变换,将源图像的二维多尺度特征变形到参考相机视锥体中,通过可微单应性构建源特征体;
聚合源特征体并产生代价体,对代价体正则化,进行深度估计;
正则化后的代价体经过深度图过滤和深度融合的后处理,获得三维重建模型。
本基础方案的工作原理和有益效果在于:本技术方案采用深度过参数化特征金字塔网络(DO-FPN),可以有效地提高模型完整度性能,有很好的泛化能力,能够很好地还原场景信息,满足三维测量任务对完整度的要求,可以高精度地测量场景中任意两点的距离。
进一步,深度过参数化特征金字塔网络包括四层卷积层,每个卷积层的卷积核的数量与图片的通道数相同,每个卷积核专门只对图片的一个通道进行卷积计算。
结构简单,利于使用。
进一步,提取二维多尺度特征的方法如下:
在输入图像中,每一组输入的图像分为一张参考图像和若干张源图像/>i=1为参考图像,i=2…N为若干张源图像,N为图像总数,H为图像的高度,W为图像的宽度,/>代表图像是属于高度为H、宽度为W的三通道的图像;
将参考图像和源图像送入深度过参数化特征金字塔网络的特征提取网络,在第四层网络中,将H×w×3的图片提取特征增加通道为base_channels,base_channels是一个预设的特征通道值;
在此后的每一层中,特征图的分辨率都降为上一层的一半,通道数为上一层的两倍,除第四层连续通过两个深度过参数化卷积外,其余层先通过一个深度过参数化卷积,再与上一层通过插值扩大两倍的特征图相加运算后,再通过深度过参数化卷积,得到四个不同尺度的特征图输出,即特征图F1、F2、F3、F4,通过特征提取网络,每一张输入图片都会获得四个不同尺度的特征图;
每一组输入的图像通过特征提取网络之后获得特征图其中k为特征金字塔的层数,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数。
提取二维多尺度特征,便于后续使用。
进一步,构建源特征体的方法如下:
沿着参考相机的主光轴从最小深度dmin,按照某一间距一直划分到最大深度dmax,得到一个基于参考相机主光轴处于不同深度间隔的相机锥形立体空间,利用插值方法使得锥形立体空间的每个深度的投影长宽相同;
对每一组输入的图像通过特征提取网络之后得到的特征图/>进行单应性变换,将N-1张源特征图变换到参考图像的锥形立体空间中的不同深度,单应性变换定义为:
其中,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数;psi,j是第i个源特征中对应的像素;R0,i和t0,i是参考相机的旋转矩阵和平移矩阵,dj表示参考特征pr的第j个假设深度,通过单应性投影变换,N-1张源特征图获得N-1个特征体D是假设深度的个数;C为图像的通道数量;Ki是第i张图像的拍摄相机的内参矩阵,/>是参考相机的内参矩阵的逆矩阵。
根据平面扫描算法和单应性变换,将源图像特征变形到参考相机视锥体中,通过可微单应性构建源特征体,操作简单。
进一步,聚合源特征体并产生代价体的方法如下:
根据变换定位公式,参考特征pr作为查询(Query)在假设的深度位置被投影到源图像的极线上得到源特征体将源特征体/>视为对极线转换器EpipolarTransformer的键(Key);
利用沿对极线的关键特征来构建参考特征pr的深度3D关联,通过交叉注意力实现:
其中,是源特征体/>通过沿深度维度D方向堆叠计算的,te是温度参数,D是假设深度的个数;C为图像的通道数量;wi是注意力权重;
注意力权重wi用于引导聚合值,对于对极线转换器Epipolar Transformer中的值(Value)设计,使用分组相关性,它以有效的方式衡量参考特征pr和特征体之间的视觉相似性:
其中,g=0,…,G-1,是vi的第g组特征,G是vi的特征分组数量,是为了进行平均化处理;/>是pr的第g组特征,<·,·>是内积;/>是沿着通道维度堆叠获得,因此,si就是对极线转换器EpipolarTransformer的值(Value);
通过Epipolar Transformer注意力得分wi汇总值(Value)以确定最终代价体C:
其中,N为图像的数量。
参考特征被用作查询(Query)沿着对极线去匹配源特征体(Key),从而增强相应的深度值。
进一步,获得三维重建模型的方法如下:
使用三维卷积3DCNNs对代价体进行正则化,生成用于深度推理的概率体P,改进对极线转换器Epipolar Transformer引导聚合的代价体C;
从概率体P中估计深度图D,沿深度方向计算期望值,即所有假设的概率加权和:
其中,P(d)是深度d处所有像素的概率估计,[dmin,dmax]为深度估计范围;
对概率体P沿深度维度计算每四个邻域的概率和,再沿深度维度取最大的概率和,获得最终的置信度图;
使用最优传输距离来测量预测分布和真实分布/>之间的距离dw(Pi,Pθ,i):
γ∈Π(Pi,Pθ,i)
其中,inf代表min函数,Π(Pi,Pθ,i)是边缘分布为Pi和Pθ,i的所有可能分布的集合,满足∑x y(x,y)=Pi(y)和∑y y(x,y)=Pθ,i(x);
损失函数为:衡量预测深度分布与地面真值之间距离的最优传输距离损失Loss:
其中,Pvalid是指有效地面真值像素的集合,计算M个阶段的总损失; 表示特征金字塔网络第k层的预测分布和真实分布;k是金字塔层数;
根据相机模型公式:
其中,其中fx=αf,fy=βf,α、β为缩放量;R,t为物体坐标转换为相机坐标时的外部参数;矩阵K为相机的内参矩阵;坐标系、图像坐标系和像素坐标系。世界坐标系是描述三维物体位置的坐标系,不会随着相机移动而改变,用(XW,YW,ZW)表示;相机坐标系是相对于世界坐标系的一个坐标系,相机坐标系原点位于相机位置,用(XC,YC,ZC)表示;图像坐标系是二维坐标系,用(x,y)表示;像素坐标系用于描述图像中的像素,用(u,v)表示;PW表示某点在世界坐标系下的位置,ZC表示某点在相机坐标系下的位置;
通过网络得到的置信度图来衡量深度估计的质量,将置信度低于0.5的像素视为异常值并过滤,通过深度d1将参考像素p1投影到另一个视图中的像素pi,pi深度估计di将pi重新投影回参考图像;
如果重投影坐标preproj和重投影深度dreproj满足|preproj-p1|<1和|dreproj-d1|<0.01,则p1的深度估计d1是二视图一致;
基于相机的内参矩阵K和外参矩阵[R|t],将深度图上的每个像素对应到世界坐标系中的一个三维点,获取深度图每个像素对应的三维坐标,并读取深度图每个像素对应的颜色信息,利用深度图融合算法,并将所有重新投影的深度dreproj的平均值作为像素的最终深度估计;
以深度估计为基础,第一阶段从图像中生成可能有噪声的重叠深度图,第二阶段融合重叠深度图然后直接重新投影到空间以生成三维点云。
重建效果好,利于使用。
本发明还提供一种用于本发明多视图三维重建方法的基于绝对尺度自恢复的三维测量方法,包括如下步骤:
获取场景多视图图像集;
通过相机标定获取相机内参,再通过运动恢复结构算法计算相机位姿;
将多视图图像集输入标定物实例分割网络,对多视图图像集中的每个视图分割出标定物,并进行标记获得边界框和掩码;
使用获得的标定物分割掩码在深度图中的相应位置进行标记,再通过获得的相机内外参数进行深度图融合,得到标定物点云;
使用平面拟合算法对标定物点云进行平面拟合,得到标定物在三维模型中的相对尺度;
标定物的实际长度为已知,结合相对尺度换算得到尺度因子,进行绝对尺度恢复。
本技术方案不借助外部传感器,可以无需人工干预恢复三维模型的绝对尺度,实现三维模型进行真实尺寸的测量。
本发明还提供一种多视图三维重建系统,包括处理器,所述处理器执行本发明所述多视图三维重建方法构建三维重建模型,或者执行本发明所述三维测量方法测量三维模型的绝对尺度。
利用该系统,实现多视图三维重建和决定尺度测量,利于使用。
附图说明
图1是本发明基于深度过参数化卷积特征金字塔的多视图三维重建方法的针孔相机模型示意图;
图2是本发明基于深度过参数化卷积特征金字塔的多视图三维重建方法的坐标转换关系示意图;
图3是本发明基于深度过参数化卷积特征金字塔的多视图三维重建方法的流程示意图;
图4是本发明基于深度过参数化卷积特征金字塔的多视图三维重建方法的深度过参数化特征金字塔网络的特征提取示意图;
图5是本发明基于绝对尺度自恢复的三维测量方法的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明公开了一种基于深度过参数化卷积特征金字塔的多视图三维重建方法,使用基于学习的多视图三维重建技术提高重建完整度和测量精确度,以满足不同场景对三维重建与测量需求。
如图3所示,多视图三维重建方法包括如下步骤:
对图片进行预处理,预处理的目的是为了获得相机位姿和图像匹配对(即参考图像和邻域图像的配对,一张参考图像对应若干张邻域图像,邻域图像下称源图像),即获得参考图像和对应的源图像;
将参考图像及其对应的源图像,输入深度过参数化特征金字塔网络征金字塔(DO-FPN),提取二维多尺度特征;借鉴和使用深度过度参数化卷积(DO-Conv)来增强特征提取能力,使用DO-Conv代替传统卷积能够加快收敛速度,在不增加网络推理计算量的前提下提高网络性能,提出深度过度参数化卷积特征金字塔(Depthwise Over-parameterizedfeature Pyramid Networks,简称DO-FPN)。深度过参数化特征金字塔网络包括四层卷积层,每个卷积层的卷积核的数量与图片的通道数相同,每个卷积核专门只对图片的一个通道进行卷积计算。
根据平面扫描算法和单应性变换,将源图像的二维多尺度特征变形到参考相机视锥体中,通过可微单应性构建源特征体;
聚合源特征体并产生代价体,对代价体正则化,进行深度估计;
正则化后的代价体经过深度图过滤和深度融合的后处理,获得三维重建模型。
本发明的一种优选方案中,提取二维多尺度特征的方法如下:
如图4所示,在输入图像中,每一组输入的图像分为一张参考图像 和若干张源图像/>i=1为参考图像,i=2…N为若干张源图像,N为图像总数,H为图像的高度,W为图像的宽度,/>代表图像是属于高度为H、宽度为W的三通道的图像;
将参考图像和源图像送入深度过参数化特征金字塔网络的特征提取网络,在第四层网络(是作为输入的第一层,但是该层为输出特征图F4)中,将H×w×3的图片提取特征增加通道为base_channels,base_channels是一个预设的特征通道值;
在此后的每一层中,特征图的分辨率都降为上一层的一半,通道数为上一层的两倍,除第四层连续通过两个深度过参数化卷积外,其余层先通过一个深度过参数化卷积,再与上一层通过插值扩大两倍的特征图相加运算后,再通过深度过参数化卷积,得到四个不同尺度的特征图输出,即特征图F1、F2、F3、F4,通过特征提取网络,每一张输入图片都会获得四个不同尺度的特征图;
每一组输入的图像通过特征提取网络之后获得特征图其中k为特征金字塔的层数,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数。
本发明的一种优选方案中,基于平面扫描立体匹配算法和单应性变换方法,构建源特征体的方法如下:
沿着参考相机的主光轴从最小深度dmin,按照某一间距一直划分到最大深度dmax,得到一个基于参考相机主光轴处于不同深度间隔的相机锥形立体空间,利用插值方法使得锥形立体空间的每个深度的投影长宽相同;
对每一组输入的图像通过特征提取网络之后得到的特征图/>进行单应性变换,将N-1张源特征图变换到参考图像的锥形立体空间中的不同深度,这个单应性变换定义为:
其中,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数;psi,j是第i个源特征中对应的像素;R0,i和t0,i是参考相机的旋转矩阵和平移矩阵,dj表示参考特征(这是图像进行数值化得到的特征,即图像某点像素的数字化特征)pr的第j个假设深度,通过单应性投影变换,N-1张源特征图获得N-1个特征体D是假设深度的个数;C为图像的通道数量;Ki是第i张图像的拍摄相机的内参矩阵,/>是参考相机的内参矩阵的逆矩阵。
本发明的一种优选方案中,基于Epipolar Transformer和注意力机制引导聚合代价体,聚合源特征体并产生代价体的方法如下:
使得2D检测器能够利用3D感知特征来改进2D姿态估计,直观来说就是:给定当前视图中的2D位置p,首先找到它在相邻视图中的对应点p′,然后将p处的特征与p′处的特征组合,从而获得p处的3D感知特征。受立体匹配的启发,对极线转换器EpipolarTransformer利用对极约束和特征匹配来近似p′处的特征。
使用对极线转换器Epipolar Transformer引导成本聚合的目的是构建参考特征pr(Query)的3D对应关系,根据公式来恢复2D查询特征图3D空间中的深度信息,公式如下:
根据变换定位公式,参考特征pr作为查询(Query)在假设的深度位置被投影到源图像的极线上得到源特征体将源特征体/>视为EpipolarTransformer的键(Key);
利用沿对极线的关键特征来构建参考特征pr的深度3D关联,通过交叉注意力实现:
其中,是源特征体/>通过沿深度维度D方向堆叠计算的,te是温度参数,D是假设深度的个数;C为图像的通道数量;wi是注意力权重(得分);计算出的注意力权重wi用于引导聚合值(Value);
对于Epipolar Transformer中的值(Value)设计,使用分组相关性,它以有效的方式衡量参考特征pr和特征体之间的视觉相似性:
其中,g=0,…,G-1,是vi的第g组特征,/>是pr的第g组特征,G是vi的特征分组数量,是为了进行平均化处理;M·,·>是内积;/>是沿着通道维度堆叠获得,因此,si就是EpipolarTransformer的值(Value);
通过Epipolar Transformer注意力得分wi汇总值(Value)以确定最终代价体C:
其中,N为图像的数量。
本发明的一种优选方案中,获得三维重建模型的方法如下:
三维卷积(3DCNNs)正则化是一种用于三维卷积神经网络的正则化技术。三维卷积正则化主要通过在训练过程中强制卷积核的权重具有一定的稀疏性来防止过拟合。
从图像特征计算的原始成本体积可能被噪声污染(例如,由于非朗伯表面或物体遮挡的存在)并且应该与平滑度约束相结合推断深度图。为了平滑最终的深度图,使用三维卷积3DCNNs对代价体进行正则化,生成用于深度推理的概率体P,改进EpipolarTransformer引导聚合的代价体C;
从概率体P中估计深度图D,沿深度方向计算期望值,即所有假设的概率加权和:
其中,P(d)是深度d处所有像素的概率估计,[dmin,dmax]为深度估计范围;
对概率体P沿深度维度计算每四个邻域的概率和,再沿深度维度取最大的概率和,获得最终的置信度图;
深度预测被表述为深度感知分类问题,它强调预测深度远离地面实况的惩罚。具体来说,使用现成的最优传输距离来测量预测分布和真实分布/>之间的距离dw(Pi,Pθ,i):
γ∈Π(Pi,Pθ,i)
其中,inf代表min函数,Π(Pi,Pθ,i)是边缘分布为Pi和Pθ,i的所有可能分布的集合,满足∑x y(x,y)=Pi(y)和∑y y(x,y)=Pθ,i(x);
损失函数为:衡量预测深度分布与地面真值之间距离的最优传输距离损失Loss:
其中,Pvalid是指有效地面真值像素的集合,计算M个阶段的总损失; 表示特征金字塔网络第k层的预测分布和真实分布;k是金字塔层数;
根据相机模型公式:
其中,其中fx=αf,fy=βf,α、β为缩放量;R,t为物体坐标转换为相机坐标时的外部参数;矩阵K为相机的内参矩阵;如图1所示,在针孔相机模型中,通常有四个坐标系:世界坐标系、相机坐标系、图像坐标系和像素坐标系。如图2所示,世界坐标系是描述三维物体位置的坐标系,不会随着相机移动而改变,用(XW,YW,ZW)表示;相机坐标系是相对于世界坐标系的一个坐标系,相机坐标系原点位于相机位置,用(XC,YC,ZC)表示;图像坐标系是二维坐标系,用(x,y)表示;像素坐标系用于描述图像中的像素,用(u,v)表示;PW表示某点在世界坐标系下的位置,ZC表示某点在相机坐标系下的位置;
通过网络得到的置信度图来衡量深度估计的质量,将置信度低于0.5的像素视为异常值并过滤,通过深度d1将参考像素p1投影到另一个视图中的像素pi,pi深度估计di将pi重新投影回参考图像;
如果重投影坐标preproj和重投影深度dreproj满足|preproj-p1|<1和|dreproj-d1|<0.01,则p1的深度估计d1是二视图一致;
基于相机的内参矩阵K和外参矩阵[R|t],将深度图上的每个像素对应到世界坐标系中的一个三维点,获取深度图每个像素对应的三维坐标,并读取深度图每个像素对应的颜色信息,利用深度图融合算法,并将所有重新投影的深度dreproj的平均值作为像素的最终深度估计;
以深度估计为基础,第一阶段从图像中生成可能有噪声的重叠深度图,第二阶段融合重叠深度图然后直接重新投影到空间以生成三维点云。点云(Point Cloud)是一种表示三维空间中物体形状的数据结构,它由许多离散的三维点组成,其中每个点包含一个三维坐标(X,Y,Z)和一个颜色(R,G,B)。
本技术方案从特征提取阶段入手,针对当前特征提取阶段传统卷积方法存在的局限性,引入深度过度参数化卷积,提出了基于深度过度参数化卷积特征金字塔来增强图像特征和处理信息,以进一步提高模型的完整度性能。在代价体构建步骤中,参考MVSTER使用Epipolar Transformer和注意力机制引导聚合代价体。
本发明还提供一种用于本发明多视图三维重建方法的基于绝对尺度自恢复的三维测量方法,基于标定物实例分割,在不借助传感器前提下,自动识别和测量场景中的标定物,并利用这些信息来恢复场景的绝对尺度,无需人工干预自动恢复绝对尺度,方便快捷地实现三维测量。如图5所示,三维测量方法包括如下步骤:
获取场景多视图图像集;为了提高物体检测和分割模型对标定物的识别效果,自制包含两部分图片的数据集。一部分图片是从网上下载的,来源于多个公开的图像数据库或者网络搜索引擎,覆盖了不同场景、角度和背景下的标定物。另一部分图片是在现实环境中拍摄的,选择了与目标应用场景相似或相关的地点,并且考虑了不同距离、角度和光照条件下对标定物进行拍摄。从网上下载的图片可以增加训练数据量,并有助于模型适应不同环境和光线条件。此外,这些图片还可以提高模型对不同类型图像的泛化能力。这些图片可以使模型学习到更多关于实例分割对象在现实环境中存在特征,如尺寸、颜色和光照等。
通过相机标定获取相机内参,再通过运动恢复结构算法(Structure fromMotion,简称SfM)计算相机位姿;
将多视图图像集输入标定物实例分割网络,对多视图图像集中的每个视图分割出标定物,并进行标记获得边界框和掩码;
使用获得的标定物分割掩码在深度图中的相应位置进行标记,再通过获得的相机内外参数进行深度图融合,得到标定物点云;
使用平面拟合算法对标定物点云进行平面拟合,得到标定物在三维模型中的相对尺度;
标定物的实际长度为已知,结合相对尺度换算得到尺度因子,进行绝对尺度恢复。
需要场景中有一个已知尺寸的物体,例如一个标准尺寸的卡尺或一个已知尺寸的靶板,并测量其实际尺寸。通过比较重建模型中标定物的相对尺寸和真实尺寸,可以计算重建模型的比例因子(即比例因子=真实尺寸/相对尺寸)。通过比例因子缩放重建模型,可以将重建模型缩放到其物理尺寸,实现三维测量。
在选择标定物时,需要考虑其可测量性、可见性、稳定性和可放置性等因素。常用的标定物包括标尺、棋盘格、规则形状以及其他特殊物体。其中,标尺是最常用的标定物之一,因为它可以被精确测量并且通常是稳定的。棋盘格是另一种常用的标定物,因为它可以在多次测量中使用并且可以被准确测量。规则形状(如正方形或圆形)也可以作为标定物使用,但需要注意准确测量尺寸。如果没有上述标定物可用,也可以使用其他特殊物体,只要它们可以被准确测量并且稳定即可。
本技术方案将实例分割技术和基于学习的多视图三维重建技术有机地结合起来,创新性地应用于三维测量中。不借助外部传感器,该算法在不借助其他传感器的前提下,通过对场景中的标定物进行分割并自动恢复绝对尺度,免去了手工测量标定物恢复绝对尺度的繁琐步骤,无需人工干预恢复三维模型的绝对尺度,实现三维模型进行真实尺寸的测量,使用更加方便快捷。
本发明还提供一种多视图三维重建系统,包括处理器,所述处理器执行本发明所述多视图三维重建方法构建三维重建模型,或者执行本发明所述三维测量方法测量三维模型的绝对尺度。
利用该系统,实现多视图三维重建和决定尺度测量,利于使用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,包括如下步骤:
对图片进行预处理,获得参考图像和对应的源图像;
将参考图像及其对应的源图像,输入深度过参数化特征金字塔网络,提取二维多尺度特征;
根据平面扫描算法和单应性变换,将源图像的二维多尺度特征变形到参考相机视锥体中,通过可微单应性构建源特征体;
聚合源特征体并产生代价体,对代价体正则化,进行深度估计;
正则化后的代价体经过深度图过滤和深度融合的后处理,获得三维重建模型。
2.如权利要求1所述的基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,深度过参数化特征金字塔网络包括四层卷积层,每个卷积层的卷积核的数量与图片的通道数相同,每个卷积核专门只对图片的一个通道进行卷积计算。
3.如权利要求2所述的基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,提取二维多尺度特征的方法如下:
在输入图像中,每一组输入的图像分为一张参考图像和若干张源图像/>i=1为参考图像,i=2,…,N为若干张源图像,N为图像总数,H为图像的高度,W为图像的宽度,/>代表图像是属于高度为H、宽度为W的三通道的图像;
将参考图像和源图像送入深度过参数化特征金字塔网络的特征提取网络,在第四层网络中,将H×w×3的图片提取特征增加通道为base_channels,base_channels是一个预设的特征通道值;
在此后的每一层中,特征图的分辨率都降为上一层的一半,通道数为上一层的两倍,除第四层连续通过两个深度过参数化卷积外,其余层先通过一个深度过参数化卷积,再与上一层通过插值扩大两倍的特征图相加运算后,再通过深度过参数化卷积,得到四个不同尺度的特征图输出,即特征图F1、F2、F3、F4,通过特征提取网络,每一张输入图片都会获得四个不同尺度的特征图;
每一组输入的图像通过特征提取网络之后获得特征图其中k为特征金字塔的层数,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数。
4.如权利要求1所述的基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,构建源特征体的方法如下:
沿着参考相机的主光轴从最小深度dmin,按照某一间距一直划分到最大深度dmax,得到一个基于参考相机主光轴处于不同深度间隔的相机锥形立体空间,利用插值方法使得锥形立体空间的每个深度的投影长宽相同;
对每一组输入的图像通过特征提取网络之后得到的特征图进行单应性变换,将N-1张源特征图变换到参考图像的锥形立体空间中的不同深度,单应性变换为:
其中,Hk为特征金字塔网络第k层的输出图像的高度,wk为特征金字塔网络第k层的输出图像的宽度,Ck为特征金字塔网络第k层的输出图像的通道数;psi,j是第i个源特征中对应的像素;R0,i和t0,i是参考相机的旋转矩阵和平移矩阵,dj表示参考特征pr的第j个假设深度,通过单应性投影变换,N-1张源特征图获得N-1个特征体D是假设深度的个数;C为图像的通道数量;Ki是第i张图像的拍摄相机的内参矩阵,/>是参考相机的内参矩阵的逆矩阵。
5.如权利要求4所述的基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,聚合源特征体并产生代价体的方法如下:
根据变换定位公式,参考特征pr作为查询在假设的深度位置被投影到源图像的极线上得到源特征体将源特征体/>视为对极线转换器的键;
利用沿对极线的关键特征来构建参考特征pr的深度3D关联,通过交叉注意力实现:
其中,是源特征体/>通过沿深度维度D方向堆叠计算,te是温度参数,D是假设深度的个数;C为图像的通道数量;wi是注意力权重;
注意力权重wi用于引导聚合值,对于对极线转换器中的值设计,使用分组相关性,以有效的方式衡量参考特征pr和特征体之间的视觉相似性:
其中,g=0,…,G-1,是vi的第g组特征,/>是pr的第g组特征,G是vi的特征分组数量,是为了进行平均化处理;<·,·>是内积;/>是/>沿着通道维度堆叠获得,si是对极线转换器的值;
通过Epipolar Transformer注意力得分wi汇总以确定最终代价体C:
其中,N为图像的数量。
6.如权利要求1所述的基于深度过参数化卷积特征金字塔的多视图三维重建方法,其特征在于,获得三维重建模型的方法如下:
使用三维卷积对代价体进行正则化,生成用于深度推理的概率体P,改进对极线转换器引导聚合的代价体C;
从概率体P中估计深度图D,沿深度方向计算期望值,即所有假设的概率加权和:
其中,P(d)是深度d处所有像素的概率估计,[dmin,dmax]为深度估计范围;
对概率体P沿深度维度计算每四个邻域的概率和,再沿深度维度取最大的概率和,获得最终的置信度图;
使用最优传输距离来测量预测分布和真实分布/>之间的距离dw(Pi,Pθ,i):
γ∈Π(Pi,Pθ,i)
其中,inf代表min函数,∏(Pi,Pθ,i)是边缘分布为Pi和Pθ,i的所有可能分布的集合,满足∑x y(x,y)=Pi(y)和∑y y(x,y)=Pθ,i(x);
损失函数为:衡量预测深度分布与地面真值之间距离的最优传输距离损失Loss:
其中,Pvalid是指有效地面真值像素的集合,计算M个阶段的总损失; 表示特征金字塔网络第k层的预测分布和真实分布;k是金字塔层数;
根据相机模型公式:
其中,其中fx=αf,fy=βf,α、β为缩放量;R,t为物体坐标转换为相机坐标时的外部参数;矩阵K为相机的内参矩阵;世界坐标系是描述三维物体位置的坐标系,不会随着相机移动而改变,用(XW,YW,ZW)表示;相机坐标系是相对于世界坐标系的一个坐标系,相机坐标系原点位于相机位置,用(XC,YC,ZC)表示;图像坐标系是二维坐标系,用(x,y)表示;像素坐标系用于描述图像中的像素,用(u,v)表示;PW表示某点在世界坐标系下的位置,ZC表示某点在相机坐标系下的位置;
通过网络得到的置信度图来衡量深度估计的质量,将置信度低于0.5的像素视为异常值并过滤,通过深度d1将参考像素p1投影到另一个视图中的像素pi,pi深度估计di将pi重新投影回参考图像;
如果重投影坐标preproj和重投影深度dreproj满足:|preproj-p1|<1和|dreproj-d1|<0.01,则p1的深度估计d1是二视图一致;
基于相机的内参矩阵K和外参矩阵[R|t],将深度图上的每个像素对应到世界坐标系中的一个三维点,获取深度图每个像素对应的三维坐标,并读取深度图每个像素对应的颜色信息,利用深度图融合算法,并将所有重新投影的深度dreproj的平均值作为像素的最终深度估计;
以深度估计为基础,第一阶段从图像中生成可能有噪声的重叠深度图,第二阶段融合重叠深度图然后直接重新投影到空间以生成三维点云。
7.一种用于权利要求1-6之一所述方法的基于绝对尺度自恢复的三维测量方法,其特征在于,包括如下步骤:
获取场景多视图图像集;
通过相机标定获取相机内参,再通过运动恢复结构算法计算相机位姿;
将多视图图像集输入标定物实例分割网络,对多视图图像集中的每个视图分割出标定物,并进行标记获得边界框和掩码;
使用获得的标定物分割掩码在深度图中的相应位置进行标记,再通过获得的相机内外参数进行深度图融合,得到标定物点云;
使用平面拟合算法对标定物点云进行平面拟合,得到标定物在三维模型中的相对尺度;
标定物的实际长度为已知,结合相对尺度换算得到尺度因子,进行绝对尺度恢复。
8.一种多视图三维重建系统,其特征在于,包括处理器,所述处理器执行权利要求1-6之一所述方法构建三维重建模型,或者执行权利要求7所述方法测量三维模型的绝对尺度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310915666.9A CN116958434A (zh) | 2023-07-25 | 2023-07-25 | 多视图三维重建方法、测量方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310915666.9A CN116958434A (zh) | 2023-07-25 | 2023-07-25 | 多视图三维重建方法、测量方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958434A true CN116958434A (zh) | 2023-10-27 |
Family
ID=88450804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310915666.9A Pending CN116958434A (zh) | 2023-07-25 | 2023-07-25 | 多视图三维重建方法、测量方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958434A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911631A (zh) * | 2024-03-19 | 2024-04-19 | 广东石油化工学院 | 一种基于异源图像匹配的三维重建方法 |
-
2023
- 2023-07-25 CN CN202310915666.9A patent/CN116958434A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911631A (zh) * | 2024-03-19 | 2024-04-19 | 广东石油化工学院 | 一种基于异源图像匹配的三维重建方法 |
CN117911631B (zh) * | 2024-03-19 | 2024-05-28 | 广东石油化工学院 | 一种基于异源图像匹配的三维重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106910242B (zh) | 基于深度相机进行室内完整场景三维重建的方法及系统 | |
CN107909640B (zh) | 基于深度学习的人脸重光照方法及装置 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN111899328B (zh) | 一种基于rgb数据与生成对抗网络的点云三维重建方法 | |
CN110728671B (zh) | 基于视觉的无纹理场景的稠密重建方法 | |
CN115345822A (zh) | 一种面向航空复杂零件的面结构光自动化三维检测方法 | |
CN111860651B (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
CN112946679B (zh) | 一种基于人工智能的无人机测绘果冻效应检测方法及系统 | |
CN113393577B (zh) | 一种倾斜摄影地形重建方法 | |
CN115032648A (zh) | 一种基于激光雷达密集点云的三维目标识别与定位方法 | |
CN116563493A (zh) | 基于三维重建的模型训练方法、三维重建方法及装置 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN116958434A (zh) | 多视图三维重建方法、测量方法及系统 | |
CN114372523A (zh) | 一种基于证据深度学习的双目匹配不确定性估计方法 | |
CN116958420A (zh) | 一种数字人教师三维人脸的高精度建模方法 | |
CN106709432B (zh) | 基于双目立体视觉的人头检测计数方法 | |
Sun et al. | A fast underwater calibration method based on vanishing point optimization of two orthogonal parallel lines | |
CN114639115A (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
Parmehr et al. | Automatic registration of optical imagery with 3d lidar data using local combined mutual information | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN113409242A (zh) | 一种轨交弓网点云智能监测方法 | |
CN109741389B (zh) | 一种基于区域基匹配的局部立体匹配方法 | |
CN115272450A (zh) | 一种基于全景分割的目标定位方法 | |
CN110135474A (zh) | 一种基于深度学习的倾斜航空影像匹配方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |