CN115147709A - 一种基于深度学习的水下目标三维重建方法 - Google Patents

一种基于深度学习的水下目标三维重建方法 Download PDF

Info

Publication number
CN115147709A
CN115147709A CN202210799673.2A CN202210799673A CN115147709A CN 115147709 A CN115147709 A CN 115147709A CN 202210799673 A CN202210799673 A CN 202210799673A CN 115147709 A CN115147709 A CN 115147709A
Authority
CN
China
Prior art keywords
depth
picture
feature
value
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210799673.2A
Other languages
English (en)
Other versions
CN115147709B (zh
Inventor
沈钧戈
危欢
毛昭勇
孙健
王亦晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210799673.2A priority Critical patent/CN115147709B/zh
Publication of CN115147709A publication Critical patent/CN115147709A/zh
Application granted granted Critical
Publication of CN115147709B publication Critical patent/CN115147709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/817Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level by voting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于深度学习的水下目标三维重建方法,采用注意力机制获得水下图片重点聚焦的特征,对图片进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,对代价体进行过滤,得到深度值概率体,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。本发明充分使用卷积神经网络的特征提取能力,进一步提升模型的表征能力,极大改善立体匹配效果,动态平衡各个通道的权重大小,能够精准的对特征的各个通道进行全局信息调整,有利于优化特征局部信息。

Description

一种基于深度学习的水下目标三维重建方法
技术领域
本发明涉及深度学习、数字图像处理以及计算机视觉的交叉领域,尤其是一种基于深度学习,通道注意力机制的多尺度特征提取方法,以及三维视觉的多视角立体匹配方法。
背景技术
尽管对于目标三维重建已经有了大量的研究,特别是在特征提取方面,手工提取的方法已经有了很大进展,但是手工特征获取的大多是底层简单的物理特征,特征表征能力较差,且对于水下场景的目标三维图像,其图像背景复杂纹理不够清晰,光线照明度不够,存在遮挡,所以需要考虑多重信息来准确辨别各类场景,更好的利用语义信息。基于水下场景光线弱、特征少的特点,传统方法无法对该场景很好的应用,此外,目前的神经网络结构模型繁多,针对不同的场景,每个神经网络结构模型的效果差异较大。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度学习的水下目标三维重建方法,引入通道注意力机制,采用多尺度特征的提取和融合,以提升模型的特征提取能力,完成更加精准特征提取。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1,采用注意力机制获得水下图片重点聚焦的特征;
步骤2,从步骤1获得的图片任意选出一张图片作为推理图片;引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体;
步骤3,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,利用U-Net网络,对匹配代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤,得到深度值概率体;
步骤4,将深度值概率体直接与预设的连续深度值(1、2、3…192)相乘再求和,得到一个初步的深度图;最大深度值设置为192,由推理图片生成另一张深度图,将两张深度图分别与真实的深度图进行比对,两部分损失之和作为损失值;
步骤5,通过调节步骤1和步骤3的深度卷积神经网络的超参数,所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数,超参数属于神经网络的通用参数,调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果;
步骤6,将待分类的水下图像数据经过步骤1至步骤4之后,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。
所述步骤1中,采用一个通道注意力模块加强特征的提取,输入的图片依次经过CNN、注意力机制及CNN得到特征提取,得到一个和水下图片大小一样但是特征更加明显的图片;
所述CNN包括一系列卷积、批归一化层和线性整流激活函数,即:Conv-BN-Relu,卷积核的尺寸为3×3,卷积核个数为128,经过两次卷积操作,匹配三个层次的特征尺寸,降维到统一到尺寸;
表1 CNN模型的网络各层特征信息
Figure BDA0003733525040000021
在水下图片特征提取各层次特征信息如表1所示。
所述步骤2中构建匹配代价体的步骤为:
通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,以主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处,得到一个处于不同深度间隔的相机锥体,利用插值的方法,使得每张投影的长宽一样;
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
Figure BDA0003733525040000031
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,
Figure BDA0003733525040000032
代表推理图片法向量的转置,θ表示深度值,
Figure BDA0003733525040000033
表示推理图片的外参旋转矩阵的转置,
Figure BDA0003733525040000034
表示推理图片的内参矩阵的转置;
单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示;
采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
Figure BDA0003733525040000035
其中C代表三维代价体,N代表匹配代价数量,Vi代表第i个代价体,
Figure BDA0003733525040000036
代表匹配代价的平均值。
所述步骤3中,优化匹配代价体的步骤为:
采用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤;首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
Figure BDA0003733525040000041
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′。
所述步骤4中生成深度图的步骤为:
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程;
当已知概率体P时,直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
Figure BDA0003733525040000042
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
Figure BDA0003733525040000043
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
Figure BDA0003733525040000044
其中Loss代表模型的整体Loss值,Pvalid是指只包括GroundTruth图片中有效的像素点,θ(p)表示Ground Truth在点p位置的深度值,
Figure BDA0003733525040000045
表示在多尺度模型得到的深度图在点p位置的深度值,
Figure BDA0003733525040000051
表示reference分支得到的深度图在点p位置的深度值,λ表示一个常数超参数。
所述步骤5中,超参数包括学习率、批次大小、卷积核尺寸和激活函数,对于学习率,训练多个批次后查看损失值结果,选择最低损失值对应的学习率;对于批次大小,训练多个批次后查看损失值结果,选择最低损失值对应的批次大小;对于卷积核尺寸和激活函数的选取,训练完毕后在测试数据集上测试,卷积核尺寸采用3x3或5x5或7x7,激活函数采用sigmoid或relu或elu,选定参数训练好网络后,以测试集结果为标准,测试结果好对应的参数可以选为调节好的参数。
所述步骤6中,将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中,将深度图映射为三维点云图;
Figure BDA0003733525040000052
其中x,y,z是三维点云坐标系中的坐标,x',y'是图像的像素坐标,θ为得到的深度图中坐标x',y'上的深度值,fx代表图像在x方向单位长度的像素值,cx代表像素坐标系中与光心原点水平方向的偏移像素值,fy在代表图像在方向单位长度的像素值,cy代表像素坐标系中与光心原点垂直方向的偏移像素值;利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标,然后将推理图片原图的像素点按照坐标投射到三维空间中。
本发明的有益效果在于利用注意力机制关注重要特征,利用多尺度来进行特征融合;充分使用卷积神经网络的特征提取能力,进一步提升模型的表征能力,极大改善立体匹配效果。本发明提出的注意力机制能够有效的调整特征通道的权重,会动态平衡各个通道的权重大小,能够精准的对特征的各个通道进行全局信息调整。此外,本发明采用了多尺度信息完成对遮挡部分的处理,有利于优化特征局部信息。本发明提出的通道注意力和多尺度特征融合技术的网络模型专注于水下三维重建,对该场景取得了优秀的结果。本发明在AR娱乐、文物保护、地理空间物体检测、地貌测绘、植被测绘和环境监测等方面应用意义深远。
附图说明
图1是本发明水下目标三维重建整体过程示意图。
图2是本发明残差单元结构示意图。
图3是本发明通道注意力模块结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出一种端到端的多视角深度学习立体匹配网络用于重建深度图,是一个先生成粗糙深度图,再逐步优化深度图的过程。
本发明实施例提供一种基于注意力机制多尺度模型特征提取器,用于提高目标感知能力。
本发明实施例提供一种基于深度学习的立体匹配方法,首先构建匹配代价体,之后采用卷积网络3d UNet优化深度图,这是一个coarse to fine的过程。
本发明的主要步骤如下:
步骤1:注意力模块以及图像特征提取器
水下图片由于光线不足,要更好的利用语义信息,采用注意力机制获得重点聚焦的特征,能够更好的应用好特征信息。针对常规模型特征提取能力的不足,本发明提出结合通道注意力模块,获得更好的水下特征信息;
步骤2:构建匹配代价体
从将预处理的图片中选出一张图片作为reference图片。引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,需要计算这张图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体。
步骤3:优化匹配代价体
由于特征点可能错误提取,提取后的特征点也可能出现误匹配,为了消除这些错误,引入一个卷积网络3D-UNet来完成这部分工作。这个过程采用了多尺度的特征融合,以处理尺度不同的图片。优化后的结果为深度值概率体。
步骤4:生成深度图
将概率体直接与预设最大的深度值(深度学习中通常设置为192)相乘,得到一个初步的深度图。同时,可以由reference图片生成另一张精细的深度图,将这两张深度图与真实的深度图进行比对,两部分损失之和作为损失值。
步骤5:训练网络参数
通过调节深度卷积神经网络的超参数,以提高网络的学习性能和效果,超参数有学习率、批次大小、卷积核尺寸以及激活函数;
步骤6:实现水下深度图的生成以及点云的生成
将待分类的水下图像数据经过步骤1至步骤4之后,通过优化好的神经网络得出深度图,对深度值映射到三维空间,得到三维点云图。
本发明实施例的整体流程如图1所示,为了更好的处理水下图片光线不足、纹理不清晰的问题,本发明采用通道注意力模块,利用CNN进行提取特征。并采用单应变换将所有图片转换成推理图片的视角,之后计算匹配代价体。本发明采用特征金字塔来处理匹配代价体,一方面能够解决物体大小尺度问题,另一个方面可以很好的完成去除不正确的匹配对,使模型得到的结果更加的准确。本发明最后通过一个残差模块来对优化深度图的生成。
步骤1:注意力机制模块以及图像特征提取器
针对水下图片出现光线弱,纹理不清晰,采用一个通道注意力模块加强特征的提取。输入的图片依次经过CNN、注意力机制及CNN得到特征提取,得到一个和水下图片大小一样但是特征更加明显的图片,经过这个处理后,水下图片可以增加匹配点,加强模型的准确性。
如表1所示,CNN分支包括一系列卷积、批归一化层和线性整流激活函数,即:Conv-BN-Relu,卷积核的尺寸为3×3,卷积核个数为128,经过两次卷积操作,匹配三个层次的特征尺寸,降维到统一到尺寸。
在水下图片特征提取各层次特征信息如表1所示:
表1 CNN模型的网络各层特征信息
Figure BDA0003733525040000071
Figure BDA0003733525040000081
步骤2:构建匹配代价体;
利用平面扫描算法构造影像匹配代价,因为平面扫描算法适用于无纠正影像的匹配代价,且能达到实时视差图的效果。通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,对于参考影响,以其主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处。可以得到一个处于不同深度间隔的相机锥体,为了方便计算光学一致性,利用插值的方法,使得每张投影的长宽一样。
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
Figure BDA0003733525040000082
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,
Figure BDA0003733525040000083
代表推理图片法向量的转置,θ表示深度值,
Figure BDA0003733525040000084
表示推理图片的外参旋转矩阵的转置,
Figure BDA0003733525040000085
表示推理图片的内参矩阵的转置;
考虑到对亚像素的深度估计,以保证深度图平滑,该单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示。
为了不失随机性,本发明采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
Figure BDA0003733525040000091
其中C代表三维代价体,N代表匹配代价数量,Vi代表第i个代价体,V代表匹配代价的平均值;
步骤3:优化匹配代价体
原始代价体往往是含有噪声污染的,因此,为防止噪声使得网络过度拟合,使用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤。为了能最大程度上利用图像的精细信息和粗略信息,并降低弱纹理区域的误匹配率,首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
本部分的输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
Figure BDA0003733525040000092
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′;
步骤4:生成深度图;
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程。
当已知概率体P时,最简单的方法可以直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
Figure BDA0003733525040000101
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
Figure BDA0003733525040000102
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
Figure BDA0003733525040000103
其中Loss代表模型的整体Loss值,Pvalid是指只包括GroundTruth图片中有效的像素点,θ(p)表示Ground Truth在点p位置的深度值,
Figure BDA0003733525040000106
表示在多尺度模型得到的深度图在点p位置的深度值,
Figure BDA0003733525040000104
表示reference分支得到的深度图在点p位置的深度值,λ表示一个常数超参数,可以人工进行设置大小;
步骤5:训练网络参数;
通过调节深度卷积神经网络的超参数,以提高网络的学习性能和效果。超参数有学习率、权重衰减系数、批次大小、卷积核尺寸以及激活函数,超参数以及取值如表3所示;达到最大训练次数,即可得到训练好的深度卷积神经网络;
表3卷积神经网络超参数设置
Figure BDA0003733525040000105
步骤6:实现水下深度图的生成以及点云的生成;
将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中,将深度图映射为三维点云图;
Figure BDA0003733525040000111
其中x,y,z是三维点云坐标系中的坐标,x',y'是图像的像素坐标,θ为得到的深度图中坐标x',y'上的深度值,fx代表图像在x方向单位长度(m)代表的像素值,cx代表像素坐标系中与光心原点水平方向的偏移像素值,fy在代表图像在方向单位长度(m)代表的像素值,cy代表像素坐标系中与光心原点垂直方向的偏移像素值;利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标,然后将推理图片原图的像素点按照坐标投射到三维空间中;
采用python中open3d工具库生成点云图,该工具库原理和上面映射规则一样,更方便生成标准的点云图文件,open3d库的输入为:深度图,上述参数,推理图片,输出为有颜色的三维点云图文件,可以进行可视化。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的水下目标三维重建方法,其特征在于包括下述步骤:
步骤1,采用注意力机制获得水下图片重点聚焦的特征;
步骤2,从步骤1获得的图片任意选出一张图片作为推理图片;引入先验信息,包括相机内参以及每张图片对应的内参和外参,进行单应性变换,生成匹配特征体,计算该图片的特征体与其他图片特征体的匹配代价,得到一个四维的匹配代价体;
步骤3,使用基于多尺度的三维卷积神经网络进行匹配代价体正则化,利用U-Net网络,对匹配代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤,得到深度值概率体;
步骤4,将深度值概率体直接与预设的连续深度值相乘再求和,得到一个初步的深度图;最大深度值设置为192,由推理图片生成另一张深度图,将两张深度图分别与真实的深度图进行比对,两部分损失之和作为损失值;
步骤5,通过调节步骤1和步骤3的深度卷积神经网络的超参数,所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数,超参数属于神经网络的通用参数,调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果;
步骤6,将待分类的水下图像数据经过步骤1至步骤4之后,通过神经网络得出深度图,将深度值映射到三维空间,得到三维点云图。
2.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤1中,采用一个通道注意力模块加强特征的提取,输入的图片依次经过CNN、注意力机制及CNN得到特征提取,得到一个和水下图片大小一样但是特征更加明显的图片;
所述CNN包括一系列卷积、批归一化层和线性整流激活函数,即:Conv-BN-Relu,卷积核的尺寸为3×3,卷积核个数为128,经过两次卷积操作,匹配三个层次的特征尺寸,降维到统一到尺寸;
表1 CNN模型的网络各层特征信息
Figure FDA0003733525030000011
Figure FDA0003733525030000021
在水下图片特征提取各层次特征信息如表1所示。
3.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤2中构建匹配代价体的步骤为:
通过深度特征抽取后,每张图片得到一张对应的特征图,根据先验的深度范围信息,以主光轴为扫描方向,将参考影像按照某一深度间隔,从最小深度一直映射到最大深度处,得到一个处于不同深度间隔的相机锥体,利用插值的方法,使得每张投影的长宽一样;
已知推理水下图片Iref,候选集中影像的相机参数为:{Ki,Ri,ti},其中,Ki代表相机内参,Ri和ti代表外参中的旋转角和平移,对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中,定义投影变换为:Vi=Hj(θ)xj,θ表示深度值,xj为候选集中第j个图片经过结合注意力的CNN得到的特征,Vi表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果;Hj表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵,单应性矩阵的计算公式为:
Figure FDA0003733525030000022
其中,Kj代表第j个特征的内参,Rj表示第j个特征的外参旋转角,I代表图片,tref代表推理图片外参的平移矩阵,tj代表第j张图片外参的平移矩阵,
Figure FDA0003733525030000023
代表推理图片法向量的转置,θ表示深度值,
Figure FDA0003733525030000024
表示推理图片的外参旋转矩阵的转置,
Figure FDA0003733525030000025
表示推理图片的内参矩阵的转置;
单应性矩阵是完全可以微分的,通过投影变换,N张图片形成N个特征体Vi(i∈N),特征体Vi就是匹配代价体的表示;
采用一种基于方差的多视图一致性度量准则,保证每一个特征体Vi都加入方差计算中,表示一致性度量,利用下式构造三维代价体:
Figure FDA0003733525030000031
其中C代表三维代价体,N代表匹配代价数量,Vi代表第i个代价体,
Figure FDA0003733525030000032
代表匹配代价的平均值。
4.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤3中,优化匹配代价体的步骤为:
采用基于多尺度的三维卷积神经网络进行代价体正则化,利用U-Net网络,对代价体进行降采样,并提取不同尺度中的上下文信息和临近像素信息,对代价体进行过滤;首先进行下采样,构建输入图像的高斯金字塔,获得3个尺度的特征;然后,在进行特征融合用于联合精细信息和粗略信息;
输入为初始匹配代价体C,各层次特征信息如表2所示:
表2优化匹配代价体中CNN模型的网络各层特征信息
Figure FDA0003733525030000033
初始的匹配代价体为最大尺度x1,经过Layer1后获得中尺度特征x2,再经过layer2后获得低尺度特征x3,之后对多尺度特征进行融合,将x3经过layer3上采样的结果与x2相加,得到融合上采样后的x4,再将x4经过layer4上采样的结果与x1相加,得到多尺度融合的输出结果,即优化后的匹配代价C′。
5.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤4中生成深度图的步骤为:
深度值是通过神经网络直接学习的,网络训练方法是,输入匹配代价C′和其对应深度图真值,利用softmax给每一个像素在每一个深度处的概率,得到深度方向置信度概率体P,以此完成从代价到深度值的学习过程;
当已知概率体P时,直接获取推理图片的所有像素在不同深度的概率体,直接估计深度图,以深度图期望值作为该像素的深度估计值,使得整个深度图中的不同部分较为平滑,将概率体P代入如下公式,得到深度图1:
Figure FDA0003733525030000041
其中,P(θ)表示特征在每个深度θ时对应的概率值;
将推理图片和概率体P相加,经过CNN后,再与概率体P相加得到一个新特征P2,将P2代入下面公式,得到深度图2:
Figure FDA0003733525030000042
模型损失值为两部分损失值之和,即loss1和loss2之和,Loss1由深度图1和GroundTruth得到,loss2由深度图2和GroundTruth得到,Loss表达式如下所示:
Figure FDA0003733525030000043
其中Loss代表模型的整体Loss值,Pvalid是指只包括GroundTruth图片中有效的像素点,θ(p)表示Ground Truth在点p位置的深度值,
Figure FDA0003733525030000044
表示在多尺度模型得到的深度图在点p位置的深度值,
Figure FDA0003733525030000045
表示reference分支得到的深度图在点p位置的深度值,λ表示一个常数超参数。
6.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤5中,超参数包括学习率、批次大小、卷积核尺寸和激活函数,对于学习率,训练多个批次后查看损失值结果,选择最低损失值对应的学习率;对于批次大小,训练多个批次后查看损失值结果,选择最低损失值对应的批次大小;对于卷积核尺寸和激活函数的选取,训练完毕后在测试数据集上测试,卷积核尺寸采用3x3或5x5或7x7,激活函数采用sigmoid或relu或elu,选定参数训练好网络后,以测试集结果为标准,测试结果好对应的参数可以选为调节好的参数。
7.根据权利要求1所述的基于深度学习的水下目标三维重建方法,其特征在于:
所述步骤6中,将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中,将深度图映射为三维点云图;
Figure FDA0003733525030000051
其中x,y,z是三维点云坐标系中的坐标,x',y'是图像的像素坐标,θ为得到的深度图中坐标x',y'上的深度值,fx代表图像在x方向单位长度的像素值,cx代表像素坐标系中与光心原点水平方向的偏移像素值,fy在代表图像在方向单位长度的像素值,cy代表像素坐标系中与光心原点垂直方向的偏移像素值;利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标,然后将推理图片原图的像素点按照坐标投射到三维空间中。
CN202210799673.2A 2022-07-06 2022-07-06 一种基于深度学习的水下目标三维重建方法 Active CN115147709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210799673.2A CN115147709B (zh) 2022-07-06 2022-07-06 一种基于深度学习的水下目标三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210799673.2A CN115147709B (zh) 2022-07-06 2022-07-06 一种基于深度学习的水下目标三维重建方法

Publications (2)

Publication Number Publication Date
CN115147709A true CN115147709A (zh) 2022-10-04
CN115147709B CN115147709B (zh) 2024-03-19

Family

ID=83412831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210799673.2A Active CN115147709B (zh) 2022-07-06 2022-07-06 一种基于深度学习的水下目标三维重建方法

Country Status (1)

Country Link
CN (1) CN115147709B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011466A (zh) * 2023-08-08 2023-11-07 苏州三垣航天科技有限公司 一种基于分段平面算法的三维重建方法
CN117671163A (zh) * 2024-02-02 2024-03-08 苏州立创致恒电子科技有限公司 多视图三维重建方法及系统
CN118334255A (zh) * 2024-06-14 2024-07-12 南京先维信息技术有限公司 基于深度学习的高分辨率图像三维重建方法、系统与介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN114463492A (zh) * 2022-01-12 2022-05-10 青海师范大学 一种基于深度学习的自适应通道注意力三维重建方法
WO2022111352A1 (zh) * 2020-11-30 2022-06-02 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
WO2022111352A1 (zh) * 2020-11-30 2022-06-02 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN114463492A (zh) * 2022-01-12 2022-05-10 青海师范大学 一种基于深度学习的自适应通道注意力三维重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
段中兴;齐嘉麟;: "基于多尺度卷积神经网络的立体匹配算法研究", 计算机测量与控制, no. 09, 25 September 2020 (2020-09-25) *
王东飞;: "基于通道注意力的卷积神经网络在图像超分辨率重建中的应用", 广播与电视技术, no. 06, 15 June 2018 (2018-06-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011466A (zh) * 2023-08-08 2023-11-07 苏州三垣航天科技有限公司 一种基于分段平面算法的三维重建方法
CN117011466B (zh) * 2023-08-08 2024-03-29 苏州三垣航天科技有限公司 一种基于分段平面算法的三维重建方法
CN117671163A (zh) * 2024-02-02 2024-03-08 苏州立创致恒电子科技有限公司 多视图三维重建方法及系统
CN117671163B (zh) * 2024-02-02 2024-04-26 苏州立创致恒电子科技有限公司 多视图三维重建方法及系统
CN118334255A (zh) * 2024-06-14 2024-07-12 南京先维信息技术有限公司 基于深度学习的高分辨率图像三维重建方法、系统与介质

Also Published As

Publication number Publication date
CN115147709B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
Lee et al. Uncertainty guided policy for active robotic 3d reconstruction using neural radiance fields
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
CN112634341B (zh) 多视觉任务协同的深度估计模型的构建方法
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN110223370B (zh) 一种从单视点图片生成完整人体纹理贴图的方法
CN113963117B (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN114511778A (zh) 图像处理方法及装置
CN115393410A (zh) 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN111899328A (zh) 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN116740288B (zh) 一种融合激光雷达、倾斜摄影的三维重建方法
CN116402942A (zh) 一种融合多尺度图像特征的大规模建筑物三维重建方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN117115359B (zh) 一种基于深度图融合的多视图电网三维空间数据重建方法
CN112561996A (zh) 一种自主水下机器人回收对接中目标检测方法
CN116468995A (zh) 一种联合slic超像素和图注意力网络的声呐图像分类方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN117745932A (zh) 一种基于深度融合约束的神经隐式曲面重建方法
CN117456114A (zh) 基于多视图的三维图像重建方法及系统
CN115035193A (zh) 一种基于双目视觉与图像分割技术的散装粮随机扦样方法
Zhuang et al. A dense stereo matching method based on optimized direction-information images for the real underwater measurement environment
CN116681839B (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
CN118154770A (zh) 基于神经辐射场的单幅树木图像三维重建方法和装置
CN116152442B (zh) 一种三维点云模型生成方法及装置
CN117726747A (zh) 补全弱纹理场景的三维重建方法、装置、存储介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant