CN115147709A - 一种基于深度学习的水下目标三维重建方法 - Google Patents
一种基于深度学习的水下目标三维重建方法 Download PDFInfo
- Publication number
- CN115147709A CN115147709A CN202210799673.2A CN202210799673A CN115147709A CN 115147709 A CN115147709 A CN 115147709A CN 202210799673 A CN202210799673 A CN 202210799673A CN 115147709 A CN115147709 A CN 115147709A
- Authority
- CN
- China
- Prior art keywords
- depth
- picture
- feature
- value
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 11
- 230000003287 optical effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 6
- 101150064138 MAP1 gene Proteins 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/817—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level by voting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于深度学习的水下目标三维重建方法,采用注意力机制获得水下图片重点聚焦的特征,对图片进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,对代价体进行过滤,得到深度值概率体,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。本发明充分使用卷积神经网络的特征提取能力,进一步提升模型的表征能力,极大改善立体匹配效果,动态平衡各个通道的权重大小,能够精准的对特征的各个通道进行全局信息调整,有利于优化特征局部信息。
Description
技术领域
本发明涉及深度学习、数字图像处理以及计算机视觉的交叉领域,尤其是一种基于深度学习,通道注意力机制的多尺度特征提取方法,以及三维视觉的多视角立体匹配方法。
背景技术
尽管对于目标三维重建已经有了大量的研究,特别是在特征提取方面,手工提取的方法已经有了很大进展,但是手工特征获取的大多是底层简单的物理特征,特征表征能力较差,且对于水下场景的目标三维图像,其图像背景复杂纹理不够清晰,光线照明度不够,存在遮挡,所以需要考虑多重信息来准确辨别各类场景,更好的利用语义信息。基于水下场景光线弱、特征少的特点,传统方法无法对该场景很好的应用,此外,目前的神经网络结构模型繁多,针对不同的场景,每个神经网络结构模型的效果差异较大。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度学习的水下目标三维重建方法,引入通道注意力机制,采用多尺度特征的提取和融合,以提升模型的特征提取能力,完成更加精准特征提取。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1,采用注意力机制获得水下图片重点聚焦的特征;
步骤2,从步骤1获得的图片任意选出一张图片作为推理图片;引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体;
步骤3,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,利用U-Net网络,对匹配代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤,得到深度值概率体;
步骤4,将深度值概率体直接与预设的连续深度值(1、2、3…192)相乘再求和,得到一个初步的深度图;最大深度值设置为192,由推理图片生成另一张深度图,将两张深度图分别与真实的深度图进行比对,两部分损失之和作为损失值;
步骤5,通过调节步骤1和步骤3的深度卷积神经网络的超参数,所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数,超参数属于神经网络的通用参数,调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果;
步骤6,将待分类的水下图像数据经过步骤1至步骤4之后,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。
所述步骤1中,采用一个通道注意力模块加强特征的提取,输入的图片依次经过CNN、注意力机制及CNN得到特征提取,得到一个和水下图片大小一样但是特征更加明显的图片;
所述CNN包括一系列卷积、批归一化层和线性整流激活函数,即:Conv-BN-Relu,卷积核的尺寸为3×3,卷积核个数为128,经过两次卷积操作,匹配三个层次的特征尺寸,降维到统一到尺寸;
表1 CNN模型的网络各层特征信息
在水下图片特征提取各层次特征信息如表1所示。
所述步骤2中构建匹配代价体的步骤为:
通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,以主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处,得到一个处于不同深度间隔的相机锥体,利用插值的方法,使得每张投影的长宽一样;
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,代表推理图片法向量的转置,θ表示深度值,表示推理图片的外参旋转矩阵的转置,表示推理图片的内参矩阵的转置;
单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示;
采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
所述步骤3中,优化匹配代价体的步骤为:
采用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤;首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′。
所述步骤4中生成深度图的步骤为:
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程;
当已知概率体P时,直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
其中Loss代表模型的整体Loss值,Pvalid是指只包括GroundTruth图片中有效的像素点,θ(p)表示Ground Truth在点p位置的深度值,表示在多尺度模型得到的深度图在点p位置的深度值,表示reference分支得到的深度图在点p位置的深度值,λ表示一个常数超参数。
所述步骤5中,超参数包括学习率、批次大小、卷积核尺寸和激活函数,对于学习率,训练多个批次后查看损失值结果,选择最低损失值对应的学习率;对于批次大小,训练多个批次后查看损失值结果,选择最低损失值对应的批次大小;对于卷积核尺寸和激活函数的选取,训练完毕后在测试数据集上测试,卷积核尺寸采用3x3或5x5或7x7,激活函数采用sigmoid或relu或elu,选定参数训练好网络后,以测试集结果为标准,测试结果好对应的参数可以选为调节好的参数。
所述步骤6中,将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中,将深度图映射为三维点云图;
其中x,y,z是三维点云坐标系中的坐标,x',y'是图像的像素坐标,θ为得到的深度图中坐标x',y'上的深度值,fx代表图像在x方向单位长度的像素值,cx代表像素坐标系中与光心原点水平方向的偏移像素值,fy在代表图像在方向单位长度的像素值,cy代表像素坐标系中与光心原点垂直方向的偏移像素值;利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标,然后将推理图片原图的像素点按照坐标投射到三维空间中。
本发明的有益效果在于利用注意力机制关注重要特征,利用多尺度来进行特征融合;充分使用卷积神经网络的特征提取能力,进一步提升模型的表征能力,极大改善立体匹配效果。本发明提出的注意力机制能够有效的调整特征通道的权重,会动态平衡各个通道的权重大小,能够精准的对特征的各个通道进行全局信息调整。此外,本发明采用了多尺度信息完成对遮挡部分的处理,有利于优化特征局部信息。本发明提出的通道注意力和多尺度特征融合技术的网络模型专注于水下三维重建,对该场景取得了优秀的结果。本发明在AR娱乐、文物保护、地理空间物体检测、地貌测绘、植被测绘和环境监测等方面应用意义深远。
附图说明
图1是本发明水下目标三维重建整体过程示意图。
图2是本发明残差单元结构示意图。
图3是本发明通道注意力模块结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出一种端到端的多视角深度学习立体匹配网络用于重建深度图,是一个先生成粗糙深度图,再逐步优化深度图的过程。
本发明实施例提供一种基于注意力机制多尺度模型特征提取器,用于提高目标感知能力。
本发明实施例提供一种基于深度学习的立体匹配方法,首先构建匹配代价体,之后采用卷积网络3d UNet优化深度图,这是一个coarse to fine的过程。
本发明的主要步骤如下:
步骤1:注意力模块以及图像特征提取器
水下图片由于光线不足,要更好的利用语义信息,采用注意力机制获得重点聚焦的特征,能够更好的应用好特征信息。针对常规模型特征提取能力的不足,本发明提出结合通道注意力模块,获得更好的水下特征信息;
步骤2:构建匹配代价体
从将预处理的图片中选出一张图片作为reference图片。引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,需要计算这张图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体。
步骤3:优化匹配代价体
由于特征点可能错误提取,提取后的特征点也可能出现误匹配,为了消除这些错误,引入一个卷积网络3D-UNet来完成这部分工作。这个过程采用了多尺度的特征融合,以处理尺度不同的图片。优化后的结果为深度值概率体。
步骤4:生成深度图
将概率体直接与预设最大的深度值(深度学习中通常设置为192)相乘,得到一个初步的深度图。同时,可以由reference图片生成另一张精细的深度图,将这两张深度图与真实的深度图进行比对,两部分损失之和作为损失值。
步骤5:训练网络参数
通过调节深度卷积神经网络的超参数,以提高网络的学习性能和效果,超参数有学习率、批次大小、卷积核尺寸以及激活函数;
步骤6:实现水下深度图的生成以及点云的生成
将待分类的水下图像数据经过步骤1至步骤4之后,通过优化好的神经网络得出深度图,对深度值映射到三维空间,得到三维点云图。
本发明实施例的整体流程如图1所示,为了更好的处理水下图片光线不足、纹理不清晰的问题,本发明采用通道注意力模块,利用CNN进行提取特征。并采用单应变换将所有图片转换成推理图片的视角,之后计算匹配代价体。本发明采用特征金字塔来处理匹配代价体,一方面能够解决物体大小尺度问题,另一个方面可以很好的完成去除不正确的匹配对,使模型得到的结果更加的准确。本发明最后通过一个残差模块来对优化深度图的生成。
步骤1:注意力机制模块以及图像特征提取器
针对水下图片出现光线弱,纹理不清晰,采用一个通道注意力模块加强特征的提取。输入的图片依次经过CNN、注意力机制及CNN得到特征提取,得到一个和水下图片大小一样但是特征更加明显的图片,经过这个处理后,水下图片可以增加匹配点,加强模型的准确性。
如表1所示,CNN分支包括一系列卷积、批归一化层和线性整流激活函数,即:Conv-BN-Relu,卷积核的尺寸为3×3,卷积核个数为128,经过两次卷积操作,匹配三个层次的特征尺寸,降维到统一到尺寸。
在水下图片特征提取各层次特征信息如表1所示:
表1 CNN模型的网络各层特征信息
步骤2:构建匹配代价体;
利用平面扫描算法构造影像匹配代价,因为平面扫描算法适用于无纠正影像的匹配代价,且能达到实时视差图的效果。通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,对于参考影响,以其主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处。可以得到一个处于不同深度间隔的相机锥体,为了方便计算光学一致性,利用插值的方法,使得每张投影的长宽一样。
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,代表推理图片法向量的转置,θ表示深度值,表示推理图片的外参旋转矩阵的转置,表示推理图片的内参矩阵的转置;
考虑到对亚像素的深度估计,以保证深度图平滑,该单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示。
为了不失随机性,本发明采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
其中C代表三维代价体,N代表匹配代价数量,Vi代表第i个代价体,V代表匹配代价的平均值;
步骤3:优化匹配代价体
原始代价体往往是含有噪声污染的,因此,为防止噪声使得网络过度拟合,使用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤。为了能最大程度上利用图像的精细信息和粗略信息,并降低弱纹理区域的误匹配率,首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
本部分的输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′;
步骤4:生成深度图;
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程。
当已知概率体P时,最简单的方法可以直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
其中Loss代表模型的整体Loss值,Pvalid是指只包括GroundTruth图片中有效的像素点,θ(p)表示Ground Truth在点p位置的深度值,表示在多尺度模型得到的深度图在点p位置的深度值,表示reference分支得到的深度图在点p位置的深度值,λ表示一个常数超参数,可以人工进行设置大小;
步骤5:训练网络参数;
通过调节深度卷积神经网络的超参数,以提高网络的学习性能和效果。超参数有学习率、权重衰减系数、批次大小、卷积核尺寸以及激活函数,超参数以及取值如表3所示;达到最大训练次数,即可得到训练好的深度卷积神经网络;
表3卷积神经网络超参数设置
步骤6:实现水下深度图的生成以及点云的生成;
将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中,将深度图映射为三维点云图;
其中x,y,z是三维点云坐标系中的坐标,x',y'是图像的像素坐标,θ为得到的深度图中坐标x',y'上的深度值,fx代表图像在x方向单位长度(m)代表的像素值,cx代表像素坐标系中与光心原点水平方向的偏移像素值,fy在代表图像在方向单位长度(m)代表的像素值,cy代表像素坐标系中与光心原点垂直方向的偏移像素值;利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标,然后将推理图片原图的像素点按照坐标投射到三维空间中;
采用python中open3d工具库生成点云图,该工具库原理和上面映射规则一样,更方便生成标准的点云图文件,open3d库的输入为:深度图,上述参数,推理图片,输出为有颜色的三维点云图文件,可以进行可视化。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的水下目标三维重建方法,其特征在于包括下述步骤:
步骤1,采用注意力机制获得水下图片重点聚焦的特征;
步骤2,从步骤1获得的图片任意选出一张图片作为推理图片;引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体;
步骤3,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,利用U-Net网络,对匹配代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤,得到深度值概率体;
步骤4,将深度值概率体直接与预设的连续深度值相乘再求和,得到一个初步的深度图;最大深度值设置为192,由推理图片生成另一张深度图,将两张深度图分别与真实的深度图进行比对,两部分损失之和作为损失值;
步骤5,通过调节步骤1和步骤3的深度卷积神经网络的超参数,所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数,超参数属于神经网络的通用参数,调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果;
步骤6,将待分类的水下图像数据经过步骤1至步骤4之后,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。
3.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤2中构建匹配代价体的步骤为:
通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,以主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处,得到一个处于不同深度间隔的相机锥体,利用插值的方法,使得每张投影的长宽一样;
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,代表推理图片法向量的转置,θ表示深度值,表示推理图片的外参旋转矩阵的转置,表示推理图片的内参矩阵的转置;
单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示;
采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
4.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤3中,优化匹配代价体的步骤为:
采用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤;首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′。
5.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤4中生成深度图的步骤为:
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程;
当已知概率体P时,直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
6.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤5中,超参数包括学习率、批次大小、卷积核尺寸和激活函数,对于学习率,训练多个批次后查看损失值结果,选择最低损失值对应的学习率;对于批次大小,训练多个批次后查看损失值结果,选择最低损失值对应的批次大小;对于卷积核尺寸和激活函数的选取,训练完毕后在测试数据集上测试,卷积核尺寸采用3x3或5x5或7x7,激活函数采用sigmoid或relu或elu,选定参数训练好网络后,以测试集结果为标准,测试结果好对应的参数可以选为调节好的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799673.2A CN115147709B (zh) | 2022-07-06 | 2022-07-06 | 一种基于深度学习的水下目标三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799673.2A CN115147709B (zh) | 2022-07-06 | 2022-07-06 | 一种基于深度学习的水下目标三维重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115147709A true CN115147709A (zh) | 2022-10-04 |
CN115147709B CN115147709B (zh) | 2024-03-19 |
Family
ID=83412831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210799673.2A Active CN115147709B (zh) | 2022-07-06 | 2022-07-06 | 一种基于深度学习的水下目标三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147709B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011466A (zh) * | 2023-08-08 | 2023-11-07 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117671163A (zh) * | 2024-02-02 | 2024-03-08 | 苏州立创致恒电子科技有限公司 | 多视图三维重建方法及系统 |
CN118334255A (zh) * | 2024-06-14 | 2024-07-12 | 南京先维信息技术有限公司 | 基于深度学习的高分辨率图像三维重建方法、系统与介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN113962858A (zh) * | 2021-10-22 | 2022-01-21 | 沈阳工业大学 | 一种多视角深度获取方法 |
CN114463492A (zh) * | 2022-01-12 | 2022-05-10 | 青海师范大学 | 一种基于深度学习的自适应通道注意力三维重建方法 |
WO2022111352A1 (zh) * | 2020-11-30 | 2022-06-02 | 展讯通信(上海)有限公司 | 目标检测方法及装置、存储介质、终端 |
-
2022
- 2022-07-06 CN CN202210799673.2A patent/CN115147709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
WO2022111352A1 (zh) * | 2020-11-30 | 2022-06-02 | 展讯通信(上海)有限公司 | 目标检测方法及装置、存储介质、终端 |
CN113962858A (zh) * | 2021-10-22 | 2022-01-21 | 沈阳工业大学 | 一种多视角深度获取方法 |
CN114463492A (zh) * | 2022-01-12 | 2022-05-10 | 青海师范大学 | 一种基于深度学习的自适应通道注意力三维重建方法 |
Non-Patent Citations (2)
Title |
---|
段中兴;齐嘉麟;: "基于多尺度卷积神经网络的立体匹配算法研究", 计算机测量与控制, no. 09, 25 September 2020 (2020-09-25) * |
王东飞;: "基于通道注意力的卷积神经网络在图像超分辨率重建中的应用", 广播与电视技术, no. 06, 15 June 2018 (2018-06-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011466A (zh) * | 2023-08-08 | 2023-11-07 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117011466B (zh) * | 2023-08-08 | 2024-03-29 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117671163A (zh) * | 2024-02-02 | 2024-03-08 | 苏州立创致恒电子科技有限公司 | 多视图三维重建方法及系统 |
CN117671163B (zh) * | 2024-02-02 | 2024-04-26 | 苏州立创致恒电子科技有限公司 | 多视图三维重建方法及系统 |
CN118334255A (zh) * | 2024-06-14 | 2024-07-12 | 南京先维信息技术有限公司 | 基于深度学习的高分辨率图像三维重建方法、系统与介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115147709B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Uncertainty guided policy for active robotic 3d reconstruction using neural radiance fields | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN112634341B (zh) | 多视觉任务协同的深度估计模型的构建方法 | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN113963117B (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
CN114511778A (zh) | 图像处理方法及装置 | |
CN115393410A (zh) | 一种基于神经辐射场和语义分割的单目视图深度估计方法 | |
CN111899328A (zh) | 一种基于rgb数据与生成对抗网络的点云三维重建方法 | |
CN116740288B (zh) | 一种融合激光雷达、倾斜摄影的三维重建方法 | |
CN116402942A (zh) | 一种融合多尺度图像特征的大规模建筑物三维重建方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN117115359B (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN112561996A (zh) | 一种自主水下机器人回收对接中目标检测方法 | |
CN116468995A (zh) | 一种联合slic超像素和图注意力网络的声呐图像分类方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN117745932A (zh) | 一种基于深度融合约束的神经隐式曲面重建方法 | |
CN117456114A (zh) | 基于多视图的三维图像重建方法及系统 | |
CN115035193A (zh) | 一种基于双目视觉与图像分割技术的散装粮随机扦样方法 | |
Zhuang et al. | A dense stereo matching method based on optimized direction-information images for the real underwater measurement environment | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN116152442B (zh) | 一种三维点云模型生成方法及装置 | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |