CN115439376B - 复眼相机多焦距图像融合模型、方法及装置 - Google Patents
复眼相机多焦距图像融合模型、方法及装置 Download PDFInfo
- Publication number
- CN115439376B CN115439376B CN202211367841.7A CN202211367841A CN115439376B CN 115439376 B CN115439376 B CN 115439376B CN 202211367841 A CN202211367841 A CN 202211367841A CN 115439376 B CN115439376 B CN 115439376B
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- multiplied
- matrix
- focal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 43
- 150000001875 compounds Chemical class 0.000 title claims description 19
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 10
- 230000008707 rearrangement Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 239000003638 chemical reducing agent Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 238000009792 diffusion process Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本文公开了一种复眼相机多焦距图像融合模型、方法及装置,以自参照感知模块SR作为模糊特征提取和特征恢复的基本单元,通过图像内的自参照实现全图特征比对。通过多层自参照提取离焦景深特征,结合自注意力与交叉注意力机制,在图像空间域上融合离焦特征,并在最后阶段采用多层自参照去模糊,从而有效的解决离焦扩散效应与离焦边界线不清晰的问题,并在一定程度上对近焦图像和远焦图像中依然模糊的区域做离焦去模糊,综合而言取得最佳融合效果。
Description
技术领域
本发明涉及人工智能和机器视觉领域,具体涉及一种复眼相机多焦距图像融合模型、方法及装置。
背景技术
复眼相机由多个图像采集单元组成,每个采集单元通常具有独立的相机和数字成像系统。目前,数字图像采集主要依据小孔成像原理,借助光感元件记录图像的成像。由于成像焦距的限制,整个相机系统无法获取全聚焦图像,由此造成在光感元件聚焦范围内的景物清晰,聚焦范围外的景物模糊的问题。当一台相机在拍摄时刻采用某一种焦距进行曝光,只能清晰呈现某一景深的物体,其他景深的物体将出现不同程度的离焦模糊。复眼相机具有多个相机,可以对每个相机设置不同的焦距,从而获得不同景深物体的清晰成像的若干图像。将不同焦点不同景深的多张图像在空间域或变换域上进行处理,得到全景深清晰图像,即在同一张图像上包含更丰富的信息,增强后续图像识别的效果。多焦距图像融合技术,在目标检测、目标分割、人脸识别等众多领域被广泛使用。
现有的多焦距图像融合技术大多针对两张不同景深的图像进行融合, 并且局限于有明显景深差异的两张图像之间的融合。然而,如图1所示,自然室外环境拍摄的图像中,往往存在以下特征:近景与远景的边界线难以清晰辨别;存在显著的离焦扩散效应;存在部分区域在近焦图像和远焦图像中依然模糊。现有的众多方法中,基于决策图的方法合成图像的像素内容“选取”于多焦距图像,对依然模糊的区域无法优化,并且决策图在聚焦与离焦边界上往往不准确;现有的端到端的方法,已有的有监督方法和基于图像生成的无监督方法,都无法有效处理近焦图像和远焦图像中依然模糊的问题。因而,提出一种能有效融合自然外景多焦距图像的算法具有重要意义。
发明内容
基于以上技术问题,本发明提出了一种端到端的基于多尺度参照感知融合的复眼相机多焦距图像融合模型、方法及装置。
本发明所设计的复眼相机多焦距图像融合网络模型,其特殊之处在于:该网络模型包括编码器、多尺度统计融合器、解码器和图像还原器;该网络模型采用N张不同焦距的图像作为输入,每张图像单独输入编码器,利用自注意力编码输出四个尺度的特征,其中图像编码器的权重共享;多尺度统计融合器对编码器输出的N张图像的四个尺度的特征分别进行特征融合,并经过特征最大、最小、均值的统计筛选获得精化的融合特征;多尺度统计融合器的输出依次通过解码器和还原器,对四个尺度上的融合特征进行解码并重构图像;
其中,所述多尺度统计融合器基于交叉参照感知融合模块RAF,具体为:输入两个
大小为H×W×C的高维特征X、Y,计算X对Y的参照特征过程,先将X经过双层3×3的查询卷积
并通过矩阵重排获得HW×C的Q矩阵Q X ,将Y经过双层3×3的映射卷积并通过矩阵重排获得C
×HW的K矩阵K Y ,同时Y经过双层3×3的特征卷积并矩阵重排获得HW×C的V矩阵V Y ;Q矩阵与K
矩阵的乘积作为注意力决策矩阵,其大小为C×C,将V矩阵与注意力决策矩阵的乘积再与输
入X相加,即获得X对Y的参照特征;同理,Y对X的参照特征计算过程与X对Y参照特征过程
同,得到Y对X的参照特征,将参照特征和同时计算通道层上的均值、最大、最小统
计特征,再将三种统计特征叠加并经过1×1的卷积,最终输出H×W×C的融合参照特征;计
算公式如下:
进一步地,所述编码器、解码器和图像还原器均基于自参照感知模块SR进行处理,
所述自参照感知模块SR包含多层,每一层经过一个注意力决策子模块A和一个自参照特征
生成子模块B,子模块A将输入为H×W×C的特征图X经过批归一化和一个输入通道为C输出
通道为3C的1×1卷积,得到三等分H×W×C,再分别经过双层3×3的卷积获得Q矩阵、K矩阵
和V矩阵,Q矩阵与K矩阵的乘积作为注意力决策矩阵,其大小为C×C,将V矩阵与注意力决策
矩阵的乘积再与输入X相加,即获得X的自参照特征,子模块B将子模块A获得的经过批
归一化和一个输入通道为C输出通道为γC的1×1卷积将特征扩充为H×W×γC,并将扩充
后的特征分别经过双层3×3的卷积获得两个输出,将其中一个输出经过激活函数后与另一
个输出进行矩阵点乘,将结果经过一个输入通道为γC输出通道为C的1×1卷积,并与最初
的输入相加,获得最终结果,维度为H×W×C。
进一步地,所述编码器设置有三层特征提取器,每一层采用像素重排进行降采样,将降采样后的特征经过自参照感知模块SR处理,输出四个尺度的高维特征。
进一步地,所述解码器对四层特征进行解码,每一层采用像素重排进行上采样,将输入的融合特征,经过每一层的自参照感知模块SR处理,输出为解码后的低维图像特征;
进一步地,所述还原器利用自参照感知模块SR,将最终的融合解码特征精细化,用于离焦去模糊的高清重建。解码特征经过6层自参照感知模块重构,输入到卷集核大小为3×3步长为1填充为1的卷积,还原图像为H×W×3的RGB数据。
基于同一发明构思,本方案还设计了一种利用所述复眼相机多焦距图像融合模型进行图像融合的方法,其特特殊之处在于,包括以下步骤:
构建仿真多焦距图像数据集,所述数据集中每一个样本包含一张具有景深差异特征的原始图像与K张不同离焦模糊的仿真图像;
利用所构建的数据集对所述复眼相机多焦距图像融合模型进行训练,以K张不同离焦模糊图作为模型输入,以原始图像作为真值,训练模型学习自动融合聚焦特征并还原清晰图像的能力;
利用训练好的复眼相机多焦距图像融合模型进行多焦距图像融合的测试。
进一步地,构建仿真多焦距图像数据集的具体过程如下:
S2-1,选取N张具有显著景深差异特征的图像作为原始图像,并对其进行深度估计和边缘提取;
S2-2,将深度数据和边缘数据量化为(x,y,depth,edge)的四维元组整列,按照聚簇数K的层次聚类算法,找到聚类中心作为K个多焦距图像的聚焦中心;
S2-3,根据聚焦中心的深度值与图像上任一像素点之间的深度差值,决定图像上该点的高斯模糊核半径,并对该点处进行高斯模糊,从而分别得到K张不同聚焦中心的多焦距图像。
进一步地,训练所述复眼相机多焦距图像融合模型过程中,一个训练样本中,从K张多焦距图像上随机选择N(N≤K)张作为网络的输入,这使得网络模型学习到融合多焦距图像的基本特性并具有离焦去模糊的特性。
基于同一发明构思,本发明还设计了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的复眼相机多焦距图像融合方法。
基于同一发明构思,本发明还设计了一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现所述复眼相机多焦距图像融合方法。
本发明首先构建一种端到端的多焦距图像融合模型,以自参照感知模块SR作为模糊特征提取和特征恢复的基本单元,通过图像内的自参照实现全图特征比对。通过多层自参照提取离焦景深特征,结合自注意力与交叉注意力机制,在图像空间域上融合离焦特征,并在最后阶段采用多层自参照去模糊,从而有效的解决离焦扩散效应与离焦边界线不清晰的问题,并在一定程度上对近焦图像和远焦图像中依然模糊的区域做离焦去模糊,综合而言取得最佳融合效果。
本发明的深度数据和边缘数据量化为(x,y,depth,edge)的四维元组整列,按照聚簇数K的层次聚类算法,找到聚类中心作为k个多焦距图像的聚焦中心。传统的深度估计未充分考虑物体边缘,容易造成边缘模糊,而本发明在不同离焦区域划分时,结合边缘信息进行处理,可以实现具有边缘敏感性的物体分割,可实现更准确的离焦区域划分。
本发明的优点:
首先,针对自然外景多焦距图像的特点,本发明创新性地结合多尺度交叉感知融合模块RAF,在离焦模糊度的鉴别上同时考量了同一图像空间域之间的对比特征和不同离焦图像之间的对比特征,从而更加有效提取离焦图像景深模糊特征并融合特征,对于边界模糊的多焦距图像能更好的融合。其次,图像中的离焦模糊和聚焦清晰,在信息熵上所表示的,是相对的信息量少熵值小与信息量大熵值高,因而在高维特征统计中,往往是统计量最值上涵盖了融合所需的信息。本发明创新性的构造了特征统计的最大、最小、均值融合模块,能从图像高维特征统计量上提取离焦对比度最值,从而保留融合所需的聚焦特征,使得最终融合图像具有最清晰效果。
最后,采用多尺度方式融合,是图像处理中常用到的方式,通过在特征表征过程中减小图像尺度并增加特征通道数,能够更深层次的提取高维度的离焦特征,使得离焦模糊的边界判断更准确。
对比而言,现有的大多数多焦距图像融合方法,大多基于卷积或者部分注意力机制的构思,缺少了图像之间与图像内部的完全的特征比对,从而在处理边界模糊、离焦扩散等现象中没有本方法效果好。
与现有技术相比,本方案离焦模糊的图像边界辨别清晰;公共的模糊区域上,本方法在一定程度上去模糊效果明显优于现有方法,综合视觉效果最佳。
附图说明
图1是多焦距图像融合网络模型总体结构。
图2是网络中采用的自参照感知模块SR内部结构。
图3是结合交叉感知融合的多尺度统计融合器内部结构。
具体实施方式
本发明提供的方法设计了一种新型的注意力机制的编解码架构的深度学习网络模型,其总体结构参见图1。一种利用复眼相机多焦距图像融合模型进行图像融合的方法,实施包含以下步骤:
步骤S1,构建如图1所示的网络模型,具体步骤如下:
步骤S1-1,构建基于自参照的多尺度编码器:设置三层特征提取器,每一层采用像
素重排PixelShuffle进行降采样,将降采样后的特征经过自参照感知模块SR处理,输出四
个尺度的高维特征。利用自参照的多尺度编码器对输入的RGB的3通道图像,首先采用卷集
核大小为3×3步长为1的卷积进行特征的高维表示,通道数扩充到C,此处C为32,并作为原
始尺度的特征输出;随后采用PixelShuffle进行降采样,使得特征尺度减半通道数翻倍,经
过一个自参照感知模块SR编码,并输出降尺度特征;此步骤重复两次,最终获得四个尺度的
编码。图2所示为本方案采用的自参照感知模块SR结构:模块SR内包含多层,每一层经过一
个注意力决策子模块A和一个自参照特征生成子模块B。子模块A将输入为H×W×C的特征图
X经过批归一化和一个输入通道为C输出通道为3C的1×1卷积,得到三等分H×W×C,再分别
经过双层3×3的卷积获得Q矩阵、K矩阵和V矩阵,Q矩阵与K矩阵的乘积作为注意力决策矩
阵,其大小为C×C,将V矩阵与注意力决策矩阵的乘积再与输入X相加,即获得X的自参照特
征。子模块B将子模块A获得的经过批归一化和一个输入通道为C输出通道为γC的1×1
卷积将特征扩充为H×W×γC,并将扩充后的特征分别经过双层3×3的卷积获得两个输出,
将其中一个输出经过激活函数后与另一个输出进行矩阵点乘,将结果经过一个输入通道为
γC输出通道为C的1×1卷积,并与最初的输入相加,获得最终结果,维度为H×W×C。
步骤S1-2,构建基于交叉感知的多尺度统计融合器,对四层特征进行融合,每一层采用交叉感知,再经过特征最大、最小、均值的综合统计,将输入的多个尺度高维特征融合为一个尺度融合特征。
图3所示为本方案中基于交叉感知融合模块RAF的统计融合器模型结构:输入两个
大小为H×W×C的高维特征X、Y,计算X对Y的参照特征过程,先将X经过双层3×3的查询卷积
并通过矩阵重排获得HW×C的Q矩阵Q X ,将Y经过双层3×3的映射卷积并通过矩阵重排获得C
×HW的K矩阵K Y ,同时Y经过双层3×3的特征卷积并通过矩阵重排获得HW×C的V矩阵V Y 。Q矩
阵与K矩阵的乘积作为注意力决策矩阵,其大小为C×C,将V矩阵与注意力决策矩阵的乘积
再与输入X相加,即获得X对Y的参照特征;同理,Y对X的参照特征计算过程与X对Y参照特
征过程同,得到Y对X的参照特征。特征最大、最小、均值的综合统计是将参照特征和
同时计算通道层上的均值、最大、最小统计特征,再将三种统计特征叠加并经过1×1的卷
积,最终输出H×W×C的融合参照特征。计算公式如下:
当待融合的特征为N个时,对N个高纬特征编号为N 1 、N 2 ...N n ,依次对N 1 和N 2 按照上述步骤融合,将其融合结果再与N 3 融合,以此类推,最终将融合结果与N n 融合,从而将N个高维特征融合为一个融合特征。
步骤S1-3,构建基于自参照感知的多尺度解码器,对四层特征进行解码,每一层采用像素重排进行上采样,将输入的融合特征,经过每一层的自参照感知模块SR处理,输出为解码后的低维图像特征。在1/8的尺度上,将输入的融合特征经过2层自参照模块,由PixelUnShuffle进行上采样,将数据尺度翻倍通道数减半,将结果与1/4的尺度上输入的融合特征在通道上合并得到8C通道,经过卷积核大小为1×1的卷积后,由8C通道合并到4C通道。在1/4的尺度上,将输入的融合特征经过2层自参照模块,由PixelUnShuffle进行上采样,将数据尺度翻倍通道数减半,将结果与1/2的尺度上输入的融合特征在通道上合并得到8C通道,经过卷积核大小为1×1的卷积后,由4C通道合并到2C通道。在1/2的尺度上,将输入的融合特征经过4层自参照模块,由PixelUnShuffle进行上采样,将数据尺度翻倍通道数减半,将结果与H×W×C尺度上输入的融合特征相加。
步骤S1-4,构建基于自参照感知的图像还原器,利用自参照感知模块SR,将最终的融合解码特征精细化,用于离焦去模糊的高清重建。解码特征经过6层自参照感知模块重构,输入到卷集核大小为3×3步长为1填充为1的卷积,还原图像为H×W×3的RGB数据。
步骤S2. 构建仿真多焦距图像数据集,数据集的构建如下:
步骤S2-1,选取N张具有显著景深差异特征的图像作为原始图像,并对其进行单图像深度估计,为了实现更准确的深度估计效果,分别对室外图像和室内图像采用对应的深度估计模型。N大于500。本方法实施过程采用Monocular Depth Prediction提供的算法进行深度估计。其中室内图像采用mono_640×192模型,室外图像采用stereo_1024×320模型;采用Sobel算子对图像进行边缘梯度提取,算子模板大小为3×3;
步骤S2-2,将深度数据和边缘数据量化为(x,y,depth,edge)的四维元组整列,其中x、y代表像素点的位置偏移,depth代表像素点的深度值,edge代表边缘梯度值,按照聚簇数K为3的weighted-kmeans聚类算法,找到聚类中心作为三个多焦距图像的聚焦中心。为同时考虑像素深度信息与像素位置上的关系,聚类维度划分为像素点深度值、像素点x偏移、像素点y偏移和边缘梯度并固定权重配比,在三个维度上的权重配比为7:1:1:1。最终的结果是将深度图在空间上分层,并将获得三个分类聚簇和三个聚类中心
步骤S2-3,根据聚焦中心的深度值与图像上任一像素点之间的深度差值,决定图像上该点的高斯模糊核,并对该点处进行高斯模糊,从而分别得到三张不同聚焦中心的多焦距图像。计算仿真高斯模糊核的过程,主要根据聚焦中心的深度与离焦区域的深度差决定。离焦扩散函数(PSF)由模拟深度估计确定,计算如下:
其中D i 、D j 获得分别表示两个深度聚类中心的深度值,x,y表示图像像素点坐标。由于采用步骤S2-1中的算法估计的深度,是以范围(0,1)浮点数表示,采用αβ作为适配参数,其中α取值5.5,β取值30。对清晰原图做三次高斯层次模糊,每次层次模糊采取分割区独立高斯核滤波的方式。整体算法流程如下:
其中F表示步骤S2-1中的清晰图像,M表示使用深度估计后聚类获得的掩膜图,N表示需要生成的多焦距图像数量,此处K设为3。M j 表示掩膜图上深度聚类第j类深度区域,F Mi 表示深度聚类第j类深度区域对应到原始图像上的区域,I Mj 表示图像I在深度聚类第j类深度区域对应的区域生成的离焦模糊图。当i=j时表示聚焦中心与当前深度一致,则图像显示为清晰,否则,I Mj 像素内容由原始图像根据离焦扩散Hij做高斯滤波,最终生成的图像I由各个深度聚类区域的离焦模糊图并联联合。其中Z表示均值为0方差为0.0001的随机高斯噪声,以便更真实的模拟拍摄模糊噪声。算法完成后,最终返回构建好的N张多焦距图像。
步骤S3,利用S2构建的数据集对步骤S1构建的网络模型进行训练。从K张多焦距图像中随机选取N张不同离焦模糊图作为模型输入,N<=K,模型的输出为预测的融合全聚焦图像,标签为给定的原始图像。定义模型的损失函数分为结构相似性损失SSIM Loss与均方误差损失MSE Loss。损失函数公式如下,其中α是平衡MSE损失与结构相似性损失的重要系数。
训练过程根据参考系数评估来调参。主要根据每一轮迭代训练后损失下降,并用这一轮训练的模型在步骤2构建的数据集上验证相关系数。主要参考系数包含两个指标:结构相似性系数SSIM和峰值信噪比PSNR。计算步骤如下公式:
其中MSE计算了生成融合图像与原始图像之间的像素均方误差,公式中i、j表示像素点的横纵坐标,m、n表示了图像宽度和高度像素值,I、K表示了原始图像与融合后的图像。PSNR在均方误差的基础上做了对数计算,值越大说明图像质量越好,通常接近40就基本与原图接近,公式中MAX I 表示像素颜色值的最大值。SSIM是结构相似性系数,评估了生成图像与原图像之间的内容相似度,数值范围在0~1,约接近1说明与原图约接近。其中参数
步骤S4,利用S3训练好的网络模型进行多焦距图像融合的测试:利用复眼相机采集K张不同焦距的图像,利用SIFT算法对采集图像进行配准,得到配准后的K张多焦距图像,将配准后的K张图像输入模型,输出为融合图像。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种复眼相机多焦距图像融合网络模型,其特征在于:该网络模型包括编码器、多尺度统计融合器、解码器和图像还原器;该网络模型采用N张不同焦距的图像作为输入,每张图像单独输入编码器,利用自注意力编码输出四个尺度的特征,其中图像编码器的权重共享;编码器输出到多尺度统计融合器实现特征融合,对四个尺度上的特征进行融合特征,并经过特征最大、最小、均值的统计筛选获得精化的融合特征;多尺度统计融合器的输出依次通过解码器和还原器,对四个尺度上的融合特征进行解码并重构图像;
其中,所述多尺度统计融合器基于交叉参照感知融合模块RAF,具体为:输入两个大小
为H×W×C的高维特征X、Y,计算X对Y的参照特征过程,先将X经过双层3×3的查询卷积并通
过矩阵重排获得HW×C的Q矩阵Q X ,将Y经过双层3×3的映射卷积并通过矩阵重排获得C×HW
的K矩阵K Y ,同时Y经过双层3×3的特征卷积并矩阵重排获得HW×C的V矩阵V Y ;Q矩阵与K矩阵
的乘积作为注意力决策矩阵,其大小为C×C,将V矩阵与注意力决策矩阵的乘积再与输入X
相加,即获得X对Y的参照特征;同理,Y对X的参照特征计算过程与X对Y参照特征过程同,
得到Y对X的参照特征,将参照特征和同时计算通道层上的均值、最大、最小统计特
征,再将三种统计特征叠加并经过1×1的卷积,最终输出H×W×C的融合参照特征;计算公
式如下:
2.根据权利要求1所述的复眼相机多焦距图像融合网络模型,其特征在于:
所述编码器、解码器和图像还原器均基于自参照感知模块SR进行处理,所述自参照感
知模块SR包含多层,每一层经过一个注意力决策子模块A和一个自参照特征生成子模块B,
子模块A将输入为H×W×C的特征图X经过批归一化和一个输入通道为C输出通道为3C的1×
1卷积,得到三等分H×W×C,再分别经过双层3×3的卷积获得Q矩阵、K矩阵和V矩阵,Q矩阵
与K矩阵的乘积作为注意力决策矩阵,其大小为C×C,将V矩阵与注意力决策矩阵的乘积再
与输入X相加,即获得X的自参照特征,子模块B将子模块A获得的经过批归一化和一个
输入通道为C输出通道为γC的1×1卷积将特征扩充为H×W×γC,并将扩充后的特征分别
经过双层3×3的卷积获得两个输出,将其中一个输出经过激活函数后与另一个输出进行矩
阵点乘,将结果经过一个输入通道为γC输出通道为C的1×1卷积,并与最初的输入相加,获
得最终结果,维度为H×W×C。
3.根据权利要求1所述的复眼相机多焦距图像融合网络模型,其特征在于:所述编码器设置有三层特征提取器,每一层采用像素重排进行降采样,将降采样后的特征经过自参照感知模块SR处理,输出四个尺度的高维特征。
4.根据权利要求1所述的复眼相机多焦距图像融合网络模型,其特征在于:所述解码器对四层特征进行解码,每一层采用像素重排进行上采样,将输入的融合特征,经过每一层的自参照感知模块SR处理,输出为解码后的低维图像特征。
5.根据权利要求1所述的复眼相机多焦距图像融合网络模型,其特征在于:所述还原器利用自参照感知模块SR,将最终的融合解码特征精细化,用于离焦去模糊的高清重建;解码特征经过6层自参照感知模块重构,输入到卷集核大小为3×3步长为1填充为1的卷积,还原图像为H×W×3的RGB数据。
6.一种利用权利要求1-5中任一所述复眼相机多焦距图像融合网络模型进行图像融合的方法,其特征在于,包括以下步骤:
构建仿真多焦距图像数据集,所述数据集中每一个样本包含一张具有景深差异特征的原始图像与K张不同离焦模糊的仿真图像;
利用所构建的数据集对所述复眼相机多焦距图像融合模型进行训练,从K张多焦距图像中随机选取N张不同离焦模糊图作为模型输入,以原始图像作为真值,训练模型学习自动融合聚焦特征并还原清晰图像的能力,N<=K;
利用训练好的复眼相机多焦距图像融合模型进行多焦距图像融合的测试。
7.根据权利要求6所述的利用复眼相机多焦距图像融合网络模型进行图像融合的方法,其特征在于:构建仿真多焦距图像数据集的具体过程如下:
S2-1,选取N张具有显著景深差异特征的图像作为原始图像,并对其进行深度估计和边缘提取;
S2-2,将深度数据和边缘数据量化为(x,y,depth,edge)的四维元组整列,按照聚簇数K的层次聚类算法,找到聚类中心作为K个多焦距图像的聚焦中心,其中x、y代表像素点的位置偏移,depth代表像素点的深度值,edge代表边缘梯度值;
S2-3,根据聚焦中心的深度值与图像上任一像素点之间的深度差值,决定图像上该点的高斯模糊核半径,并对该点处进行高斯模糊,从而分别得到K张不同聚焦中心的多焦距图像。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求6-7中任一所述的图像融合方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求6-7中任一所述的图像融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211367841.7A CN115439376B (zh) | 2022-11-03 | 2022-11-03 | 复眼相机多焦距图像融合模型、方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211367841.7A CN115439376B (zh) | 2022-11-03 | 2022-11-03 | 复眼相机多焦距图像融合模型、方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115439376A CN115439376A (zh) | 2022-12-06 |
CN115439376B true CN115439376B (zh) | 2023-02-03 |
Family
ID=84252952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211367841.7A Active CN115439376B (zh) | 2022-11-03 | 2022-11-03 | 复眼相机多焦距图像融合模型、方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439376B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645287B (zh) * | 2023-05-22 | 2024-03-29 | 北京科技大学 | 一种基于扩散模型的图像去模糊方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902601A (zh) * | 2019-02-14 | 2019-06-18 | 武汉大学 | 一种结合卷积网络和递归网络的视频目标检测方法 |
CN112560619A (zh) * | 2020-12-06 | 2021-03-26 | 国网江苏省电力有限公司常州供电分公司 | 一种基于多聚焦图像融合的多距离鸟类精准识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8824833B2 (en) * | 2008-02-01 | 2014-09-02 | Omnivision Technologies, Inc. | Image data fusion systems and methods |
-
2022
- 2022-11-03 CN CN202211367841.7A patent/CN115439376B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902601A (zh) * | 2019-02-14 | 2019-06-18 | 武汉大学 | 一种结合卷积网络和递归网络的视频目标检测方法 |
CN112560619A (zh) * | 2020-12-06 | 2021-03-26 | 国网江苏省电力有限公司常州供电分公司 | 一种基于多聚焦图像融合的多距离鸟类精准识别方法 |
Non-Patent Citations (3)
Title |
---|
Multi-focus image fusion based on fully convolutional networks;Rui GUO等;《Frontiers of Information Technology & Electronic Engineering》;20200703;正文第1019-1031页 * |
基于多尺度空洞卷积网络的多聚焦图像融合算法;尹海涛等;《激光与光电子学进展》;20220715;正文第1-15页 * |
无监督编解码模型的多聚焦图像融合算法;臧永盛;《计算机工程与设计》;20220816;正文第2275-2285页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115439376A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915531B (zh) | 一种多层次特征融合和注意力引导的神经网络图像去雾方法 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
Chakrabarti et al. | Depth and deblurring from a spectrally-varying depth-of-field | |
CN111275637A (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
Starovoytov et al. | Comparative analysis of the SSIM index and the pearson coefficient as a criterion for image similarity | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
Hua et al. | Holopix50k: A large-scale in-the-wild stereo image dataset | |
Cun et al. | Defocus blur detection via depth distillation | |
Ruan et al. | Aifnet: All-in-focus image restoration network using a light field-based dataset | |
CN110225260B (zh) | 一种基于生成对抗网络的立体高动态范围成像方法 | |
CN115439376B (zh) | 复眼相机多焦距图像融合模型、方法及装置 | |
CN112767466A (zh) | 一种基于多模态信息的光场深度估计方法 | |
Singh et al. | Weighted least squares based detail enhanced exposure fusion | |
Cheng et al. | Semantic single-image dehazing | |
CN116563693A (zh) | 基于轻量级注意力机制的水下图像色彩复原方法 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN115035010A (zh) | 一种由卷积网络引导模型映射的水下图像增强方法 | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
Saleem et al. | A non-reference evaluation of underwater image enhancement methods using a new underwater image dataset | |
Ito et al. | Compressive epsilon photography for post-capture control in digital imaging | |
Pei et al. | Focus measure for synthetic aperture imaging using a deep convolutional network | |
CN116542865A (zh) | 一种基于结构重参数化的多尺度实时去雾方法及装置 | |
CN114841887A (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
Sehli et al. | WeLDCFNet: Convolutional Neural Network based on Wedgelet Filters and Learnt Deep Correlation Features for depth maps features extraction | |
CN114119704A (zh) | 一种基于空间金字塔池化的光场图像深度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |