CN112950481B - 一种基于图像拼接网络的水花遮挡图像数据集采集方法 - Google Patents

一种基于图像拼接网络的水花遮挡图像数据集采集方法 Download PDF

Info

Publication number
CN112950481B
CN112950481B CN202110436571.XA CN202110436571A CN112950481B CN 112950481 B CN112950481 B CN 112950481B CN 202110436571 A CN202110436571 A CN 202110436571A CN 112950481 B CN112950481 B CN 112950481B
Authority
CN
China
Prior art keywords
image
view
network
visual angle
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110436571.XA
Other languages
English (en)
Other versions
CN112950481A (zh
Inventor
李恒宇
程立
刘靖逸
刘军
谢少荣
罗均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jining University
University of Shanghai for Science and Technology
Original Assignee
Jining University
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jining University, University of Shanghai for Science and Technology filed Critical Jining University
Priority to CN202110436571.XA priority Critical patent/CN112950481B/zh
Publication of CN112950481A publication Critical patent/CN112950481A/zh
Application granted granted Critical
Publication of CN112950481B publication Critical patent/CN112950481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明属于图像修复领域,涉及一种基于图像拼接网络的水花遮挡图像数据集采集方法,步骤为:S1:采集m个场景中每个场景的左视角图像、中间视角图像、右视角图像,得到了m组三视角图像,记为数据集Y;用于采集中间视角图像的相机镜头上分布有水滴,采集的中间视角图像为有水花遮挡图像;S2:将数据集Y中随机一组三视角图像的左视角图像和右视角图像输入训练好的图像拼接网络中进行预测,得到中间视角恢复图像;将中间视角恢复图像与对应的有水花遮挡的中间视角图像组合,形成一对水花遮挡图像数据;S3:按照步骤S2操作对数据集Y中剩下(m‑1)组图像处理,得到(m‑1)对水花遮挡图像数据;S4将步骤S2得到的一对水花遮挡图像数据与步骤S3得到的(m‑1)对水花遮挡图像数据进行合并,得到水花遮挡图像数据集。

Description

一种基于图像拼接网络的水花遮挡图像数据集采集方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于图像拼接网络的水花遮挡图像数据集采集方法。
背景技术
随着科技的进步,对海洋的勘探日益加深从而得知海洋资源丰富多样,然而海洋环境恶劣多变不易人工去勘探。因此,各国会利用无人艇作为勘探工具对海洋资源进行探索。近几年,计算机视觉逐渐被应用到海洋环境感知上。由于视觉相机具有许多相对其它感知系统的优良特性,如:廉价、能源消耗小、轻量化、能提供丰富的图像语义信息等。目前,大多数无人艇都利用基于相机系统的计算机视觉感知技术去完成海洋作业。然而,海洋环境复杂多变且无人艇相机镜头必须裸露在外才能获得视野,这就导致雨水很容易遮挡镜头,这种干扰不易消除,这对无人挺的视觉感知系统是一个难点。
目前关于相机镜头被遮挡问题的解决方案都是利用深度神经网络,利用它独特的拟合能力来对残缺、遮掩图像进行修复。神经网络能修复的前提是需要大量的不同场景下的类似残缺图像数据集进行训练。然而目前此种雨水遮挡镜头采集出来的图像数据集相当少,大多数都是通过PS人为添加虚假雨水来代替真实的雨水遮掩图像,这些图像数据集真实性较差。真实雨水会对场景环境光进行折射,而认为添加上去得到雨水并不能有此功能。因此,用这种人造数据集训练出来的深度神经网络并不能很好的应用在实际勘探上。
发明内容
本发明针对现有海面雨水图像数据集缺少、不真实问题,提出了一种基于图像拼接网络的水花遮挡图像数据集采集方法。
为达到上述目的,本发明采用如下技术方案:
一种基于图像拼接网络的水花遮挡图像数据集采集方法,包括以下步骤:
S1:采用相机设备采集m个场景中每个场景的左视角图像、中间视角图像、右视角图像,得到了m组三视角图像,记为图像数据集Y;其中,用于采集中间视角图像的相机镜头上分布有水滴,采集的中间视角图像为有水花遮挡的中间视角图像;m组三视角图像中每组三视角图像数据均包括左视角图像、中间视角图像和右视角图像;一组三视角图像对应一个场景,针对同一场景,左视角图像、中间视角图像和右视角图像的采集时间相同,且左视角图像、右视角图像均与中间视角图像有重合;
S2:将图像数据集Y中随机一组三视角图像的左视角图像和右视角图像输入训练好的图像拼接网络模型中进行处理,得到全景视角图像;利用特征匹配找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的中间视角恢复图像;将中间视角恢复图像与对应的图像数据集Y中的中间视角图像进行配对,形成一对水花遮挡图像数据;
S3:按照步骤S2的操作,对图像数据集Y中剩下的(m-1)组图像进行处理,得到(m-1)对水花遮挡图像数据;
S4:将步骤S2得到的一对水花遮挡图像数据与步骤S3得到的(m-1)对水花遮挡图像数据进行合并,得到m对水花遮挡图像数据,即得水花遮挡图像数据集。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,步骤S2中所述图像拼接网络模型的具体训练过程如下:
S201:采集n个场景中每个场景的左视角图像IA、中间视角图像IB、右视角图像IC,得到了n组三视角图像,记为图像数据集X;其中,n组三视角图像中每组三视角图像数据均包括左视角图像IA、中间视角图像IB、右视角图像IC,一组三视角图像对应一个场景;针对同一场景,左视角图像IA、中间视角图像IB、右视角图像IC的采集时间相同,且左视角图像IA、右视角图像IC均与中间视角图像IB有重合;
S202:从图像数据集X中随机抽取一组三视角图像,记作第一组三视角图像,将第一组三视角图像中的左视角图像IA和右视角图像IC挑出,组成一对样本(IA,IC),记作第一组样本,将第一组三视角图像中的中间视角图像IB挑出,作为第一组样本的真值IB;重复上述操作对图像数据集X中剩余的(n-1)组三视角图像进行处理,共得到n对样本(IA,IC)和n个真值IB;将n对样本(IA,IC)按比例随机划分为训练样本集、验证样本集和测试样本集;
S203:采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数,得到训练后图像拼接网络;
S204:利用验证集对所有训练后图像拼接网络进行验证,评估图像拼接网络的图像处理性能,挑选出最优图像拼接网络;
S205:采用测试样本集对步骤S204挑选出的最优图像拼接网络进行测试,评价最优图像拼接网络的图像处理性能。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,步骤S1和步骤S201中,左视角图像与中间视角图像的重合视角加上右视角图像与中间视角图像的重合视角能覆盖中间视角图像。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,所述图像拼接网络由单应性估计模块、结构拼接模块和内容修复模块组成。所述单应性模块的输入为左视角图像、右视角图像,输出为单应性矩阵H;所述结构拼接模块是用于将输入的左、右视角图像进行拼接得到粗略轮廓的全景视角图像。所述内容修复模块的输入为结构拼接模块输出的全景视角图像,该模块将输入的粗略轮廓的全景视图进行修正,主要是全景视图中间部分的重叠区域,以修正重叠区域会由于特征不匹配而导致单应性估计错误导致出现重影的伪像,最终输出完整的更接近与真实场景的全景视角图像。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,步骤S203中,采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数的具体操作为:
S203-1:将训练样本集中的样本图像(IA,IC)输入到图像拼接网络中,生成全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000031
S203-2:通过单应性估计模块计算从右视角图像IC向左视角图像IA投影后对应像素点间的实际偏移量f和预测偏移量
Figure GDA0003927852250000032
使实际偏移量f和预测偏移量
Figure GDA0003927852250000033
之间的L2距离最小化来估计得到单应性损失函数LH;计算Sham图像
Figure GDA0003927852250000034
与输入样本图像(IA、IC)对应的真值IB的L1距离损失,得到L1损失函数LS;将Sham图像
Figure GDA0003927852250000035
和输入样本图像(IA、IC)对应的真值IB输入到VGG-19网络中,通过VGG-19网络得到内容损失函数LC;单应性损失函数LH、L1损失函数LS、内容损失函数LC的计算公式分别如式I、II、III所示:
Figure GDA0003927852250000036
Figure GDA0003927852250000037
Figure GDA0003927852250000038
其中,单应性损失LH
Figure GDA0003927852250000039
为预测偏移量,f为实际偏移量,N为预测偏移量
Figure GDA00039278522500000310
的分量数;L1损失函数LS中W、H分别为Sham图像
Figure GDA00039278522500000311
的宽和高;内容损失函数LC中W、H分别为Sham图像
Figure GDA00039278522500000312
的宽和高,
Figure GDA00039278522500000313
分别为将图像
Figure GDA00039278522500000314
IB同时输入到VGG-19网络的卷积层中获得的特征图;其中,在该图像拼接网络的内容修复阶段的最后添加了VGG-19网络,添加该网络的作用是为了使Sham图像I^_B与真实图像I_B具有相似内容的表示,减少容易导致图像特征急剧变化的伪影和图像接缝不连续;
S203-3:根据构建的单应性损失函数LH、L1损失函数LS、内容损失函数LC,利用反向传播算法调节图像拼接网络的参数,使单应性损失函数LH、L1损失函数LS、内容损失函数LC的曲线均处于稳定且不再下降,完成对图像拼接网络的训练,得到训练后图像拼接网络。
根据上述基于图像拼接网络的水花遮挡图像数据集采集方法,步骤S203-3中,对于图像拼接网络的训练,采用初始学习率为2e-4、训练批次为200、学习率100个批次后按直线衰减方式进行训练,且网络参数的初始化方式为axvier。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,步骤S204的具体操作为:
S204-1:将验证样本集中的样本图像(IA、IC)依次输入到训练后图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000041
计算Sham图像
Figure GDA0003927852250000042
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure GDA0003927852250000043
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取验证样本集中所有样本图像的L1距离平均值和PSNR平均值,得到该图像拼接网络的L1距离和PSNR;
Figure GDA0003927852250000044
其中,n为8;
S204-2:按照步骤S204-1所述的操作计算所有训练后图像拼接网络的L1距离和PSNR,选取L1距离最小且PSNR最大的图像拼接网络作为最优图像拼接网络。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,步骤S205的具体操作为:
S205-1:将测试样本集中的样本图像(IA、IC)依次输入到最优图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000045
计算Sham图像
Figure GDA0003927852250000046
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure GDA0003927852250000047
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取测试样本集中所有样本图像的L1距离平均值和PSNR平均值,得到最优图像拼接网络的L1距离和PSNR;
S205-2:选取L1距离小于1%且PSNR大于30dB的最优图像拼接网络作为最终训练好的图像拼接网络。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,所述单应性估计模块由灰度转换器GL、灰度转化器GR、特征提取器FL、特征提取器FR、全局相关层、卷积层、全连接层和直接线性变换层组成。其中,灰度转换器GL是将输入的左视角图像IA转换为灰度图GA,灰度转化器GR是将输入的右视角图像IC转换为灰度图GC;特征提取器FL、特征提取器FR为两个共享权重的特征提取器,特征提取器FL用于对输入的灰度图GA进行特征提取,特征提取器FL的输出为与左视角图像IA相对应的左视角特征图
Figure GDA0003927852250000051
特征提取器FR用于对输入的灰度图GC进行特征提取,特征提取器FR的输出为与右视角图像IC对应的右视角特征图
Figure GDA0003927852250000052
全局相关层用于学习输入的两个特征图特征方面的全局相似性,全局相关层的输入为经过L2归一化处理后的左视角特征图
Figure GDA0003927852250000053
和右视角特征图
Figure GDA0003927852250000054
全局相关层的输出为左视角特征图
Figure GDA0003927852250000055
右视角特征图
Figure GDA0003927852250000056
的特征方面的全局相似度;所述卷积层用于对输入的全局相似度进行卷积处理,卷积层的输出为对全局相似度进行特征提取后的特征数据,所述特征数据为左视角图像IA、右视角图像IC内容相似部分的图像特征数据;所述全连接层用于将卷积层输出的特征数据进行特征匹配处理,将左视角图像IA、右视角图像IC内容相似部分的图像特征数据进行一一对应匹配,输出从IC向IA投影后对应像素点间的实际偏移量f;所述直接线性变换层用于将输入的偏移量f偏移到偏移量对应的单应性矩阵H中,计算出单应性矩阵H,直接线性变换层的输入是实际偏移量f,直接线性变换层的输出是单应性矩阵H。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,所述结构拼接模块由空间变换网络STN和Fusion网络组成。其中,空间变换网络STN的作用是提取输入的左视角图像IA和右视角图像IC相似部分的结构信息,为后续图像的拼接提供数据,空间变换网络STN的输入为左视角图像IA、右视角图像IC、单位矩阵E和单应性矩阵H,空间变换网络STN的输出为经投影变换得到的左视角变换特征图IAW、右视角变换特征图ICW。所述Fusion网络是将输入的左视角变换特征图IAW、右视角变换特征图ICW进行拼接融合,得到全景视角图像,并将全景视角图像输出。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,所述空间变换网络STN由定位模块、变换模块和空间注意力模块组成,所述定位模块用于计算左视角图像或右视角图像相对于中间视角图像的空间变换矩阵,定位模块的输入为左视角图像或右视角图像,定位模块的输出为计算出来的空间变换矩阵,其中,左视角图像相对于中间视角图像的空间变换矩阵的计算公式如式V所示,右视角图像相对于中间视角图像的空间变换矩阵的计算公式如式VI所示;所述变换模块用于利用定位模块计算出的空间变换矩阵对左视角图像或右视角图像进行空间变换,变换模块的输出为将左视角图像进行空间变换后的左视角变换特征图IAW或将右视角进行空间变换后的右视角变换特征图ICW;所述空间注意力模块用于提高STN网络的特征图中像素间语义信息的聚合能力,空间注意力模块的输入为定位模块每一层输出的特征图,空间注意力模块的输出为特征图像素间的权重图与特征图本身的乘积;
Figure GDA0003927852250000061
Figure GDA0003927852250000062
其中,(x,y,z)为左视角图像或右视角图像的齐次坐标、(u、v)为网格中每个代表的二维空间的位置。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,将左视角图像IA、单位矩阵E输入到空间变换网络STN中,得到左视角变换特征图IAW;将右视角图像IC和单应性矩阵H输入到空间变换网络STN中,得到右视角变换特征图ICW。更加优选地,在计算投影变换后的左视角变换特征图IAW、右视角变换特征图ICW前,首先要为每个输入的图像生成一个具有与缝合标签大小相同的网格,而网格中的每个元素都代表其二维空间位置(u,v)。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,Fusion网络由softmax层、bottleneck模块、两个卷积层、tanh层组成;其中,softmax层利用softmax函数将左视角变换图像IAW、右视角变换图像ICW进行融合;bottleneck模块由降采样层、上采样层和分支卷积层组成,其目的是增加网络对图像的理解能力,所述降采样层的降采样因子为2,上采样层的上采样因子为2;Fusion网络包含的最后两个卷积层用于保持特征图的尺度不变;所述tanh层用于将特征图的值映射到(-1,1)之间得到后续内容修复模块的输入。更加优选地,softmax层利用softmax函数将变换后的左视角图像IAW、右视角图像ICW进行融合的具体操作为:分别将变换后的左视角图像IAW、右视角图像ICW按照1:3进行切片,得到左权重图、左特征图、右权重图、右特征图,将左权重图和右权重图沿通道方向进行拼接然后输入到softmax函数中进行归一化计算,得到通道为2的权重图,再将该权重按照1:1切片得到新的左权重图、右权重图,最后将新的左权重图与左特征图相乘,加上新的右权重图与右特征图相乘的结果得到softmax层的输出结果,其通道数为3。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,采用Fusion网络将输入的左视角变换特征图IAW、右视角变换特征图ICW进行拼接融合时,将左视角变换特征图IAW与中间视角图像的重合区域记作第一重合区域,将右视角变换特征图ICW与中间视角图像的重合区域记作第二重合区域,针对第一重合区域与第二重合区域的重合区域,其像素值计算是将第一重合区域的像素值之和与第二重合区域的像素值之和进行加权,加权值为0.5。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,所述内容修复模块包括编码器、卷积层和解码器;编码器的作用是将拼接后得到的全景视角图像分解为多通道全景视图数据,编码器的输入是全景视角图像,编码器的输出是多通道全景视图数据;卷积层用于对编码器输出的多通道全景视图数据进行卷积处理,卷积层的输出为降维后的多通道全景视图数据;所述解码器用于将降维后的多通道全景视图数据转化为三通道RGB图像,解码器的输入为降维后的多通道全景视图数据,编码器的输出为RGB全景视角图像。更加优选地,所述卷积层之间设有跳过连接,其能防止梯度消失问题和每一层中的信息不平衡。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,对于步骤S1中,针对不同场景,采集中间视角图像的相机镜头被水滴覆盖的面积不同;每组三视角图像中左视角图像与中间视角图像的图像重合率大于等于50%,右视角图像与中间视角图像的图像重合率大于等于50%。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,对于步骤S1和步骤S201中,每组三视角图像中左、中、右视角图像应在同一水平面上。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,对于步骤S201中,每组三视角图像中左视角图像与中间视角图像的图像重合率大于等于50%,右视角图像与中间视角图像的图像重合率大于等于50%。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,对于步骤S1和步骤S203-1中,采用特征匹配方法找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,S1和步骤S201中采集的左视角图像、有视角图像和中间视角图像的大小应大于480×360;此外,步骤S2和步骤S203-1中,将左视角图像、右视角图像输入图像拼接网络模型中之前,先将左视角图像、右视角图像大小调整为128×128,标签设置大小为304×304,以覆盖任意视图中的所有的拼接结果。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,本发明中采集的左、中右视角图像均为彩色图像。
根据上述的基于图像拼接网络的水花遮挡图像数据集采集方法,优选地,本发明中用于采集图像的场景均为海面场景。
与现有技术相比,本发明取得的积极有益效果为:
(1)本发明提供的水花遮挡图像数据集采集方法是以采集时间同步且具有一定重合视场的三视角图像中的左、右视角图像作为图像拼接网络的输入,其能够充分利用不同视角信息,将左视角图像与右视角图像进行特征编码融合、解码处理,输出拼接的全景视角图像,全景视角图像经过特征匹配裁剪后与输入图像分布一致的中间视角恢复图像;然后将采集的有水花遮挡的中间视角图像和图像拼接网络拼接生成的无水化遮挡的中间视角恢复图像进行组合,得到水花遮挡图像-正常图像数据集。本发明制作的水花遮挡图像数据集真实度高,能够提供修复水花遮挡图像的先验知识,可用作后续利用神经网络进行水花遮挡图像修复的训练数据集。
(2)本发明在制作水花遮挡图像数据集时,通过采集时间相同且具有一定重合视场的三视角图像中的左视角图像、右视角图像作为先验信息来训练生成图像拼接网络,使该网络能够拼接额处理得到全景视角图像,引入了额外的损失函数进行有效约束,极大地提高了中间视角恢复图像的真实性,得到的中间视角恢复图像更加真实。
(3)本发明采用基于CNN的全局单应性图像拼接网络,即使对重合视角较小的左、右相机视角也有较强的中间视图恢复能力。在拼接阶段的网络结构中加入了共享权重的特征提取器,其能够高效准确的提取左、右视角图像的特征,并利用左、右视图间的投影变换并通过双线性插值将左、右视图的相重合的部分进行特征点匹配,能有效的解决左、右视角图像特征匹配有误差带来的重影伪像问题;而且,本发明还在内容修复模块的网络结构中加入卷积层中设有跳过连接,其能防止梯度消失问题和每一层中的信息不平衡。
(4)本发明图像拼接网络训练中,单应性损失函数LH用于约束单应性估计,约束单应性H的取值范围,为后续的图像拼接提供更为准确的数据以减少误差;L1损失函数LS和内容损失函数LH都用于约束图像拼接的结果,对图像拼接网络拼接处理图像进行指导,使其尽可能的接近真实图像。
(5)本发明结构拼接模块中设有空间注意力模块,空间注意力模块的设置能够有效捕捉到特征图像素间的空间上下文关系,以实现相似图像结构的聚合,能有效提升中间视角图像恢复的效果,使恢复出的中间视角图像的边缘信息得到保留。
(6)本发明采用真实的海面无人艇去采集图像数据集,采集来的数据集更加真实有效,能为后续神经网络的训练提供大量的数据集,为利用神经网络方法恢复残缺、遮挡图像提供准确的先验知识、为无人艇的自主环境感知与导航能带来切实有效的提升。
附图说明
图1为本发明提出的图像数据采集平台,cam0、cam1、cam2分别代表左、中、右相机;
图2为本发明采用图像拼接网络模型对左视角图像、右视角图像进行处理的流程示意图;
图3为本发明中单应性估计模块的网络架构示意图;
图4中为本发明中结构拼接模块和内容修复模块的网络架构示意图,其中,A为结构拼接模块的网络架构示意图,B为内容修复模块的网络架构示意图;
图5为本发明中空间变换网络STN的架构示意图;
图6为本发明中Fusion网络的架构示意图。
具体实施方式
下面结合具体附图,来对本发明的具体实施过程做详细清楚的说明,以表现出本发明方法的目的、技术方案和优点,但并不限制本发明的范围。
实施例1:
一种基于图像拼接网络的水花遮挡图像数据集采集方法,包括以下步骤:
S1:采用相机设备采集m个场景中每个场景的左视角图像、中间视角图像、右视角图像,得到了m组三视角图像,记为图像数据集Y;其中,用于采集中间视角图像的相机镜头上分布有水滴,采集的中间视角图像为有水花遮挡的中间视角图像;m组三视角图像中每组三视角图像数据均包括左视角图像、中间视角图像和右视角图像;一组三视角图像对应一个场景,针对同一场景,左视角图像、中间视角图像和右视角图像的采集时间相同,且左视角图像、右视角图像均与中间视角图像有重合,左视角图像与中间视角图像的重合视角加上右视角图像与中间视角图像的重合视角能覆盖中间视角图像。
其中,用于采集一组三视角图像的相机设备如图1所示,该相机采集设备由三台时间同步的相机组成,当接收到触发信号时,三台相机同时拍照;而且,三台相机的型号及使用的镜头均相同,且三台相机在水平方向上保持平行,视平面保持一致,用于捕捉左视角图像的左侧相机与中间相机之间的基线距离为8cm,中间相机与右侧相机之间的基线距离为8cm。所有采集的左视角图像、中间视角图像和右视角图像均为彩色图像;每组三视角图像中左视角图像、中间视角图像和右视角图像的视平面相同。
S2:将图像数据集Y中随机一组三视角图像的左视角图像和右视角图像输入训练好的图像拼接网络模型中进行处理,得到全景视角图像;利用特征匹配找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的中间视角恢复图像;将中间视角恢复图像与对应的图像数据集Y中的中间视角图像进行配对,形成一对水花遮挡图像数据。
S3:按照步骤S2的操作,对图像数据集Y中剩下的(m-1)组图像进行处理,得到(m-1)对水花遮挡图像数据。
S4:将步骤S2得到的一对水花遮挡图像数据与步骤S3得到的(m-1)对水花遮挡图像数据进行合并,得到m对水花遮挡图像数据,即得水花遮挡图像数据集。
其中,步骤S2中所述图像拼接网络模型的具体训练过程如下:
S201:采集n个场景中每个场景的左视角图像IA、中间视角图像IB、右视角图像IC,得到了n组三视角图像,记为图像数据集X;其中,n组三视角图像中每组三视角图像数据均包括左视角图像IA、中间视角图像IB、右视角图像IC,一组三视角图像对应一个场景;针对同一场景,左视角图像IA、中间视角图像IB、右视角图像IC的采集时间相同,且左视角图像IA、右视角图像IC均与中间视角图像IB有重合;左视角图像与中间视角图像的重合视角加上右视角图像与中间视角图像的重合视角能覆盖中间视角图像。
其中,用于采集一组三视角图像的相机设备如图1所示,该相机采集设备由三台时间同步的相机组成,当接收到触发信号时,三台相机同时拍照;而且,三台相机的型号及使用的镜头均相同,且三台相机在水平方向上保持平行,视平面保持一致,用于捕捉左视角图像的左侧相机与中间相机之间的基线距离为8cm,中间相机与右侧相机之间的基线距离为8cm。所有采集的左视角图像、中间视角图像和右视角图像均为彩色图像;每组三视角图像中左视角图像、中间视角图像和右视角图像的视平面相同。
S202:从图像数据集X中随机抽取一组三视角图像,记作第一组三视角图像,将第一组三视角图像中的左视角图像IA和右视角图像IC挑出,组成一对样本(IA,IC),记作第一组样本,将第一组三视角图像中的中间视角图像IB挑出,作为第一组样本的真值IB;重复上述操作对图像数据集X中剩余的(n-1)组三视角图像进行处理,共得到n对样本(IA,IC)和n个真值IB;将n对样本(IA,IC)按4:2:1的比例随机划分为训练样本集、验证样本集和测试样本集。
S203:采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数,得到训练后图像拼接网络。
S204:利用验证集对所有训练后图像拼接网络进行验证,评估图像拼接网络的图像处理性能,挑选出最优图像拼接网络。
S205:采用测试样本集对步骤S204挑选出的最优图像拼接网络进行测试,评价最优图像拼接网络的图像处理性能。
上述步骤S203中,采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数的具体操作为:
S203-1:将训练样本集中的样本图像(IA,IC)输入到图像拼接网络中,生成全景视角图像,利用特征匹配找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000111
S203-2:通过单应性估计模块计算从右视角图像IC向左视角图像IA投影后对应像素点间的实际偏移量f和预测偏移量
Figure GDA0003927852250000112
使实际偏移量f和预测偏移量
Figure GDA0003927852250000113
之间的L2距离最小化来估计得到单应性损失函数LH;计算Sham图像
Figure GDA0003927852250000114
与输入样本图像(IA、IC)对应的真值IB的L1距离损失,得到L1损失函数LS;将Sham图像
Figure GDA0003927852250000115
和输入样本图像(IA、IC)对应的真值IB输入到VGG-19网络中,通过VGG-19网络得到内容损失函数LC;单应性损失函数LH、L1损失函数LS、内容损失函数LC的计算公式分别如式I、II、III所示:
Figure GDA0003927852250000116
Figure GDA0003927852250000117
Figure GDA0003927852250000118
其中,单应性损失LH
Figure GDA0003927852250000119
为预测偏移量,f为实际偏移量,N为预测偏移量
Figure GDA00039278522500001110
的分量数;L1损失函数LS中W、H分别为Sham图像
Figure GDA00039278522500001111
的宽和高;内容损失函数LC中W、H分别为Sham图像
Figure GDA00039278522500001112
的宽和高,
Figure GDA00039278522500001113
分别为将图像
Figure GDA00039278522500001114
IB同时输入到VGG-19网络的卷积层中获得的特征图;其中,在该图像拼接网络的内容修复阶段的最后添加了VGG-19网络,添加该网络的作用是为了使Sham图像I^_B与真实图像I_B具有相似内容的表示,减少容易导致图像特征急剧变化的伪影和图像接缝不连续;
S203-3:根据构建的单应性损失函数LH、L1损失函数LS、内容损失函数LC,利用反向传播算法调节图像拼接网络的参数,使单应性损失函数LH、L1损失函数LS、内容损失函数LC的曲线均处于稳定且不再下降,完成对图像拼接网络的训练,得到训练后图像拼接网络。其中,对于图像拼接网络的训练,采用初始学习率为2e-4、训练批次为200、学习率100个批次后按直线衰减方式进行训练,且网络参数的初始化方式为axvier。
上述步骤S204的具体操作为:
S204-1:将验证样本集中的样本图像(IA、IC)依次输入到训练后图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000121
计算Sham图像
Figure GDA0003927852250000122
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure GDA0003927852250000123
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取验证样本集中所有样本图像的L1距离平均值和PSNR平均值,得到该图像拼接网络的L1距离和PSNR;
Figure GDA0003927852250000124
其中,n为8;
S204-2:按照步骤S204-1所述的操作计算所有训练后图像拼接网络的L1距离和PSNR,选取L1距离最小且PSNR最大的图像拼接网络作为最优图像拼接网络。
上述步骤S205的具体操作为:
S205-1:将测试样本集中的样本图像(IA、IC)依次输入到最优图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure GDA0003927852250000125
计算Sham图像
Figure GDA0003927852250000126
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure GDA0003927852250000127
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取测试样本集中所有样本图像的L1距离平均值和PSNR平均值,得到最优图像拼接网络的L1距离和PSNR;
S205-2:选取L1距离小于1%且PSNR大于30dB的最优图像拼接网络作为最终训练好的图像拼接网络。
上述步骤S2中,所述图像拼接网络由单应性估计模块、结构拼接模块和内容修复模块组成。所述单应性模块的输入为左视角图像、右视角图像,输出为单应性矩阵H。所述结构拼接模块是用于将输入的左、右视角图像进行拼接得到粗略轮廓的全景视角图像。所述内容修复模块的输入为结构拼接模块输出的全景视角图像,该模块将输入的粗略轮廓的全景视图进行修正,主要是全景视图中间部分的重叠区域,以修正重叠区域会由于特征不匹配而导致单应性估计错误导致出现重影的伪像,最终输出完整的更接近与真实场景的全景视角图像。采用图像拼接网络模型对左视角图像、右视角图像进行处理的流程示意图如图2所示。
其中,所述单应性估计模块(单应性估计模块的网络架构示意图如图3所示)由灰度转换器GL、灰度转化器GR、特征提取器FL、特征提取器FR、全局相关层、卷积层、全连接层和直接线性变换层组成。其中,灰度转换器GL是将输入的左视角图像IA转换为灰度图GA,灰度转化器GR是将输入的右视角图像IC转换为灰度图GC;特征提取器FL、特征提取器FR为两个共享权重的特征提取器,特征提取器FL用于对输入的灰度图GA进行特征提取,特征提取器FL的输出为与左视角图像IA相对应的左视角特征图
Figure GDA0003927852250000131
特征提取器FR用于对输入的灰度图GC进行特征提取,特征提取器FR的输出为与右视角图像IC对应的右视角特征图
Figure GDA0003927852250000132
全局相关层用于学习输入的两个特征图特征方面的全局相似性,全局相关层的输入为经过L2归一化处理后的左视角特征图
Figure GDA0003927852250000133
和右视角特征图
Figure GDA0003927852250000134
全局相关层的输出为左视角特征图
Figure GDA0003927852250000135
右视角特征图
Figure GDA0003927852250000136
的特征方面的全局相似度;所述卷积层用于对输入的全局相似度进行卷积处理,卷积层的输出为对全局相似度进行特征提取后的特征数据,所述特征数据为左视角图像IA、右视角图像IC内容相似部分的图像特征数据;所述全连接层用于将卷积层输出的特征数据进行特征匹配处理,将左视角图像IA、右视角图像IC内容相似部分的图像特征数据进行一一对应匹配,输出从IC向IA投影后对应像素点间的实际偏移量f;所述直接线性变换层用于将输入的偏移量f偏移到偏移量对应的单应性矩阵H中,计算出单应性矩阵H,直接线性变换层的输入是实际偏移量f,直接线性变换层的输出是单应性矩阵H。
所述结构拼接模块(结构拼接模块的网络架构示意图如图4所示)由空间变换网络STN和Fusion网络组成。其中,空间变换网络STN的作用是提取输入的左视角图像IA和右视角图像IC相似部分的结构信息,为后续图像的拼接提供数据,空间变换网络STN的输入为左视角图像IA、右视角图像IC、单位矩阵E和单应性矩阵H,空间变换网络STN的输出为经投影变换得到的左视角变换特征图IAW、右视角变换特征图ICW
空间变换网络STN(空间变换网络STN的网络架构示意图如图5所示)由定位模块、变换模块和空间注意力模块组成,所述定位模块用于计算左视角图像或右视角图像相对于中间视角图像的空间变换矩阵,定位模块的输入为左视角图像或右视角图像,定位模块的输出为计算出来的空间变换矩阵,其中,左视角图像相对于中间视角图像的空间变换矩阵的计算公式如式V所示,右视角图像相对于中间视角图像的空间变换矩阵的计算公式如式VI所示;所述变换模块用于利用定位模块计算出的空间变换矩阵对左视角图像或右视角图像进行空间变换,变换模块的输出为将左视角图像进行空间变换后的左视角变换特征图IAW或将右视角进行空间变换后的右视角变换特征图ICW;所述空间注意力模块用于提高STN网络的特征图中像素间语义信息的聚合能力,空间注意力模块的输入为定位模块每一层输出的特征图,空间注意力模块的输出为特征图像素间的权重图与特征图本身的乘积;
Figure GDA0003927852250000141
Figure GDA0003927852250000142
其中,(x,y,z)为左视角图像或右视角图像的齐次坐标、(u、v)为网格中每个代表的二维空间的位置。
在计算投影变换后的左视角变换特征图IAW、右视角变换特征图ICW前,首先要为每个输入的图像生成一个具有与缝合标签大小相同的网格,而网格中的每个元素都代表其二维空间位置(u,v)。
Fusion网络是将输入的左视角变换特征图IAW、右视角变换特征图ICW进行拼接融合,得到全景视角图像,并将全景视角图像输出。Fusion网络(Fusion网络的网络架构示意图如图6所示)由softmax层、bottleneck模块、两个卷积层、tanh层组成;其中,softmax层利用softmax函数将左视角变换图像IAW、右视角变换图像ICW进行融合;bottleneck模块由降采样层、上采样层和分支卷积层组成,其目的是增加网络对图像的理解能力,所述降采样层的降采样因子为2,上采样层的上采样因子为2;Fusion网络包含的最后两个卷积层用于保持特征图的尺度不变;所述tanh层用于将特征图的值映射到(-1,1)之间得到后续内容修复模块的输入。
其中,softmax层利用softmax函数将变换后的左视角图像IAW、右视角图像ICW进行融合的具体操作为:分别将变换后的左视角图像IAW、右视角图像ICW按照1:3进行切片,得到左权重图、左特征图、右权重图、右特征图,将左权重图和右权重图沿通道方向进行拼接然后输入到softmax函数中进行归一化计算,得到通道为2的权重图,再将该权重按照1:1切片得到新的左权重图、右权重图,最后将新的左权重图与左特征图相乘,加上新的右权重图与右特征图相乘的结果得到softmax层的输出结果,其通道数为3。优选地,采用Fusion网络将输入的左视角变换特征图IAW、右视角变换特征图ICW进行拼接融合时,将左视角变换特征图IAW与中间视角图像的重合区域记作第一重合区域,将右视角变换特征图ICW与中间视角图像的重合区域记作第二重合区域,针对第一重合区域与第二重合区域的重合区域,其像素值计算是将第一重合区域的像素值之和与第二重合区域的像素值之和进行加权,加权值为0.5。
所述内容修复模块(内容修复模块的网络架构示意图如图4所示)包括编码器、卷积层和解码器组成;编码器的作用是将拼接后得到的全景视角图像分解为多通道全景视图数据,编码器的输入是全景视角图像,编码器的输出是多通道全景视图数据。卷积层的层数为八层,每层滤镜的数量为64、64、128、128、256、256、512和512,卷积层用于对编码器输出的多通道全景视图数据进行卷积处理,把多通道全景视图数据降维成少量的数据参数以方便后续的处理且在降维的过程中保留数据的主要特征,卷积层的输出为降维后的多通道全景视图数据;为了减少计算量,在第2、第4和第6卷积层之后,采用2×2的最大池化层来减小特征图维数。所述解码器用于将降维后的多通道全景视图数据转化为三通道RGB图像,解码器的输入为降维后的多通道全景视图数据,解码器的输出为RGB全景视角图像。
实施例2:
实施例2的内容与实施例1基本相同,其不同之处在于:
步骤S1和步骤S201中:每组三视角图像中左视角图像与中间视角图像的重合率大于等于50%,右视角图像与中间视角图像的重合率大于等于50%;
步骤S2和步骤S203-1中,将左视角图像、右视角图像输入图像拼接网络模型中之前,先将左视角图像、右视角图像大小调整为128×128。
以上所述仅为本发明的较佳实施例而已,但不仅限于上述实例,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,包括如下步骤:
S1:采用相机设备采集m个场景中每个场景的左视角图像、中间视角图像、右视角图像,得到了m组三视角图像,记为图像数据集Y;其中,用于采集中间视角图像的相机镜头上分布有水滴,采集的中间视角图像为有水花遮挡的中间视角图像;m组三视角图像中每组三视角图像数据均包括左视角图像、中间视角图像和右视角图像;一组三视角图像对应一个场景,针对同一场景,左视角图像、中间视角图像和右视角图像的采集时间相同,且左视角图像、右视角图像均与中间视角图像有重合;
S2:将图像数据集Y中随机一组三视角图像的左视角图像和右视角图像输入训练好的图像拼接网络模型中进行处理,得到全景视角图像;找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的中间视角恢复图像;将中间视角恢复图像与对应的图像数据集Y中的中间视角图像进行配对,形成一对水花遮挡图像数据;
S3:按照步骤S2的操作,对图像数据集Y中剩下的(m-1)组图像进行处理,得到(m-1)对水花遮挡图像数据;
S4:将步骤S2得到的一对水花遮挡图像数据与步骤S3得到的(m-1)对水花遮挡图像数据进行合并,得到m对水花遮挡图像数据,即得水花遮挡图像数据集;
步骤S2中所述图像拼接网络模型的具体训练过程如下:
S201:采集n个场景中每个场景的左视角图像IA、中间视角图像IB、右视角图像IC,得到了n组三视角图像,记为图像数据集X;其中,n组三视角图像中每组三视角图像数据均包括左视角图像IA、中间视角图像IB、右视角图像IC,一组三视角图像对应一个场景;针对同一场景,左视角图像IA、中间视角图像IB、右视角图像IC的采集时间相同,且左视角图像IA、右视角图像IC均与中间视角图像IB有重合;
S202:从图像数据集X中随机抽取一组三视角图像,记作第一组三视角图像,将第一组三视角图像中的左视角图像IA和右视角图像IC挑出,组成一对样本(IA,IC),记作第一组样本,将第一组三视角图像中的中间视角图像IB挑出,作为第一组样本的真值IB;重复上述操作对图像数据集X中剩余的(n-1)组三视角图像进行处理,共得到n对样本(IA,IC)和n个真值IB;将n对样本(IA,IC)按比例随机划分为训练样本集、验证样本集和测试样本集;
S203:采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数,得到训练后图像拼接网络;
S204:利用验证样本集对所有训练后图像拼接网络进行验证,评估图像拼接网络的图像处理性能,挑选出最优图像拼接网络;
S205:采用测试样本集对步骤S204挑选出的最优图像拼接网络进行测试,评价最优图像拼接网络的图像处理性能;
步骤S203中,采用训练样本集对构建的图像拼接网络进行训练,优化图像拼接网络的参数的具体操作为:
S203-1:将训练样本集中的样本图像(IA,IC)输入到图像拼接网络中,生成全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure FDA0003927852240000021
S203-2:通过单应性估计模块计算从右视角图像IC向左视角图像IA投影后对应像素点间的实际偏移量f和预测偏移量
Figure FDA0003927852240000022
使实际偏移量f和预测偏移量
Figure FDA0003927852240000023
之间的L2距离最小化估计得到单应性损失函数LH;计算Sham图像
Figure FDA0003927852240000024
与输入样本图像(IA、IC)对应的真值IB的L1距离损失,得到L1损失函数LS;将Sham图像
Figure FDA0003927852240000025
和输入样本图像(IA、IC)对应的真值IB输入到VGG-19网络中,通过VGG-19网络得到内容损失函数LC;单应性损失函数LH、L1损失函数LS、内容损失函数LC的计算公式分别如式I、II、III所示:
Figure FDA0003927852240000026
Figure FDA0003927852240000027
Figure FDA0003927852240000028
其中,单应性损失LH
Figure FDA0003927852240000029
为预测偏移量,f为实际偏移量,N为预测偏移量
Figure FDA00039278522400000210
的分量数;L1损失函数LS中W、H分别为Sham图像
Figure FDA00039278522400000211
的宽和高;内容损失函数LC中W、H分别为Sham图像
Figure FDA00039278522400000212
的宽和高,
Figure FDA00039278522400000213
分别为将图像
Figure FDA00039278522400000214
IB同时输入到VGG-19网络的卷积层中获得的特征图;
S203-3:根据构建的单应性损失函数LH、L1损失函数LS、内容损失函数LC,利用反向传播算法调节图像拼接网络的参数,使单应性损失函数LH、L1损失函数LS、内容损失函数LC的曲线均处于稳定且不再下降,完成对图像拼接网络的训练,得到训练后图像拼接网络。
2.根据权利要求1所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,步骤S1和步骤S201中,左视角图像与中间视角图像的重合视角加上右视角图像与中间视角图像的重合视角能覆盖中间视角图像。
3.根据权利要求2所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,所述图像拼接网络由单应性估计模块、结构拼接模块和内容修复模块组成。
4.根据权利要求3所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,步骤S204的具体操作为:
S204-1:将验证样本集中的样本图像(IA、IC)依次输入到训练后图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure FDA0003927852240000031
计算Sham图像
Figure FDA0003927852240000032
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure FDA0003927852240000033
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取验证样本集中所有样本图像的L1距离平均值和PSNR平均值,得到该图像拼接网络的L1距离和PSNR;
Figure FDA0003927852240000034
其中,n为8;
S204-2:按照步骤S204-1所述的操作计算所有训练后图像拼接网络的L1距离和PSNR,选取L1距离最小且PSNR最大的图像拼接网络作为最优图像拼接网络。
5.根据权利要求4所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,步骤S205的具体操作为:
S205-1:将测试样本集中的样本图像(IA、IC)依次输入到最优图像拼接网络中,得到所有样本图像(IA、IC)的全景视角图像,找出全景视角图像与输入左视角图像同组的中间视角图像相匹配的边缘角点,根据边缘角点对全景视角图像进行裁切,得到尺寸比例与中间视角图像一致的Sham图像
Figure FDA0003927852240000035
计算Sham图像
Figure FDA0003927852240000036
与输入样本图像(IA、IC)对应的真值IB的L1距离,按照式IV计算Sham图像
Figure FDA0003927852240000037
与输入样本图像(IA、IC)对应的真值IB的PSNR,然后求取测试样本集中所有样本图像的L1距离平均值和PSNR平均值,得到最优图像拼接网络的L1距离和PSNR;
S205-2:选取L1距离小于1%且PSNR大于30dB的最优图像拼接网络作为最终训练好的图像拼接网络。
6.根据权利要求3-5任一所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,所述单应性估计模块由灰度转换器GL、灰度转化器GR、特征提取器FL、特征提取器FR、全局相关层、卷积层、全连接层和直接线性变换层组成;其中,灰度转换器GL是将输入的左视角图像IA转换为灰度图GA,灰度转化器GR是将输入的右视角图像IC转换为灰度图GC;特征提取器FL、特征提取器FR为两个共享权重的特征提取器,特征提取器FL用于对输入的灰度图GA进行特征提取,特征提取器FL的输出为与左视角图像IA相对应的左视角特征图
Figure FDA0003927852240000041
特征提取器FR用于对输入的灰度图GC进行特征提取,特征提取器FR的输出为与右视角图像IC对应的右视角特征图
Figure FDA0003927852240000042
全局相关层用于学习输入的两个特征图特征方面的全局相似性,全局相关层的输入为经过L2归一化处理后的左视角特征图
Figure FDA0003927852240000043
和右视角特征图
Figure FDA0003927852240000044
全局相关层的输出为左视角特征图
Figure FDA0003927852240000045
右视角特征图
Figure FDA0003927852240000046
的特征方面的全局相似度;所述卷积层用于对输入的全局相似度进行卷积处理,卷积层的输出为对全局相似度进行特征提取后的特征数据,所述特征数据为左视角图像IA、右视角图像IC内容相似部分的图像特征数据;所述全连接层用于将卷积层输出的特征数据进行特征匹配处理,将左视角图像IA、右视角图像IC内容相似部分的图像特征数据进行一一对应匹配,输出从IC向IA投影后对应像素点间的实际偏移量f;所述直接线性变换层用于将输入的偏移量f偏移到偏移量对应的单应性矩阵H中,计算出单应性矩阵H,直接线性变换层的输入是实际偏移量f,直接线性变换层的输出是单应性矩阵H。
7.根据权利要求6所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,所述结构拼接模块由空间变换网络STN和Fusion网络组成;其中,空间变换网络STN的作用是提取输入的左视角图像IA和右视角图像IC相似部分的结构信息,为后续图像的拼接提供数据,空间变换网络STN的输入为左视角图像IA、右视角图像IC、单位矩阵E和单应性矩阵H,空间变换网络STN的输出为经投影变换得到的左视角变换特征图IAW、右视角变换特征图ICW;所述Fusion网络是将输入的左视角变换特征图IAW、右视角变换特征图ICW进行拼接融合,得到全景视角图像,并将全景视角图像输出。
8.根据权利要求7所述的基于图像拼接网络的水花遮挡图像数据集采集方法,其特征在于,所述空间变换网络STN由定位模块、变换模块和空间注意力模块组成,所述定位模块用于计算左视角图像或右视角图像相对于中间视角图像的空间变换矩阵,定位模块的输入为左视角图像或右视角图像,定位模块的输出为计算出来的空间变换矩阵,其中,左视角图像相对于中间视角图像的空间变换矩阵的计算公式如式V所示,右视角图像相对于中间视角图像的空间变换矩阵的计算公式如式VI所示;所述变换模块用于利用定位模块计算出的空间变换矩阵对左视角图像或右视角图像进行空间变换,变换模块的输出为将左视角图像进行空间变换后的左视角变换特征图IAW或将右视角进行空间变换后的右视角变换特征图ICW;所述空间注意力模块用于提高STN网络的特征图中像素间语义信息的聚合能力,空间注意力模块的输入为定位模块每一层输出的特征图,空间注意力模块的输出为特征图像素间的权重图与特征图本身的乘积;
Figure FDA0003927852240000051
Figure FDA0003927852240000052
其中,(x,y,z)为左视角图像或右视角图像的齐次坐标、(u、v)为网格中每个代表的二维空间的位置。
CN202110436571.XA 2021-04-22 2021-04-22 一种基于图像拼接网络的水花遮挡图像数据集采集方法 Active CN112950481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436571.XA CN112950481B (zh) 2021-04-22 2021-04-22 一种基于图像拼接网络的水花遮挡图像数据集采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436571.XA CN112950481B (zh) 2021-04-22 2021-04-22 一种基于图像拼接网络的水花遮挡图像数据集采集方法

Publications (2)

Publication Number Publication Date
CN112950481A CN112950481A (zh) 2021-06-11
CN112950481B true CN112950481B (zh) 2022-12-06

Family

ID=76233251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436571.XA Active CN112950481B (zh) 2021-04-22 2021-04-22 一种基于图像拼接网络的水花遮挡图像数据集采集方法

Country Status (1)

Country Link
CN (1) CN112950481B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612168A (zh) * 2023-04-20 2023-08-18 北京百度网讯科技有限公司 图像处理方法、装置、电子设备、图像处理系统及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011259168A (ja) * 2010-06-08 2011-12-22 Fujifilm Corp 立体パノラマ画像撮影装置
CN104574339A (zh) * 2015-02-09 2015-04-29 上海安威士科技股份有限公司 一种用于视频监控的多尺度柱面投影全景图像生成方法
CN107610070A (zh) * 2017-09-29 2018-01-19 深圳市佳创视讯技术股份有限公司 基于三摄像采集的自由立体匹配方法
CN109840884A (zh) * 2017-11-29 2019-06-04 杭州海康威视数字技术股份有限公司 一种图像拼接方法、装置及电子设备
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111783671A (zh) * 2020-07-02 2020-10-16 郑州迈拓信息技术有限公司 基于人工智能和cim的智慧城市地面车位图像处理方法
CN112115879A (zh) * 2020-09-21 2020-12-22 中科人工智能创新技术研究院(青岛)有限公司 一种遮挡敏感的自监督行人重识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165016A1 (en) * 2015-04-14 2016-10-20 Magor Communications Corporation View synthesis-panorama
US10382680B2 (en) * 2016-10-31 2019-08-13 Verizon Patent And Licensing Inc. Methods and systems for generating stitched video content from multiple overlapping and concurrently-generated video instances
CN108805828B (zh) * 2018-05-22 2023-08-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111145112B (zh) * 2019-12-18 2023-05-12 华东师范大学 一种基于残差对抗细化网络的两阶段图像去雨方法及系统
CN111898668A (zh) * 2020-07-24 2020-11-06 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的小目标物体检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011259168A (ja) * 2010-06-08 2011-12-22 Fujifilm Corp 立体パノラマ画像撮影装置
CN104574339A (zh) * 2015-02-09 2015-04-29 上海安威士科技股份有限公司 一种用于视频监控的多尺度柱面投影全景图像生成方法
CN107610070A (zh) * 2017-09-29 2018-01-19 深圳市佳创视讯技术股份有限公司 基于三摄像采集的自由立体匹配方法
CN109840884A (zh) * 2017-11-29 2019-06-04 杭州海康威视数字技术股份有限公司 一种图像拼接方法、装置及电子设备
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111783671A (zh) * 2020-07-02 2020-10-16 郑州迈拓信息技术有限公司 基于人工智能和cim的智慧城市地面车位图像处理方法
CN112115879A (zh) * 2020-09-21 2020-12-22 中科人工智能创新技术研究院(青岛)有限公司 一种遮挡敏感的自监督行人重识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多尺度卷积神经网络模型的手势图像识别;袁荣尚等;《现代电子技术》;20191215(第24期);全文 *

Also Published As

Publication number Publication date
CN112950481A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Engin et al. Cycle-dehaze: Enhanced cyclegan for single image dehazing
Dong et al. RRSGAN: Reference-based super-resolution for remote sensing image
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN105100640B (zh) 一种局部配准并行视频拼接方法及系统
CN110889844B (zh) 一种基于深度聚类分析的珊瑚分布及健康状况评估方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN110689482A (zh) 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN112215074A (zh) 基于无人机视觉的实时目标识别与检测追踪系统及方法
CN114742719B (zh) 一种基于多特征融合的端到端图像去雾方法
CN111950477A (zh) 一种基于视频监督的单图像三维人脸重建方法
CN111768452A (zh) 一种基于深度学习的非接触式自动贴图方法
CN112102182A (zh) 一种基于深度学习的单图像去反射方法
US11948344B2 (en) Method, system, medium, equipment and terminal for inland vessel identification and depth estimation for smart maritime
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN112950475A (zh) 一种基于残差学习及空间变换网络的光场超分辨率重建方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN110889868B (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN112950481B (zh) 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN110147733B (zh) 一种跨域的大范围场景生成方法
CN113160085B (zh) 一种基于生成对抗网络的水花遮挡图像数据集采集方法
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及系统
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant