CN113705675A

CN113705675A - 一种基于多尺度特征交互网络的多聚焦图像融合方法

Info

Publication number: CN113705675A
Application number: CN202110997261.5A
Authority: CN
Inventors: 刘羽; 王磊; 成娟; 李畅; 宋仁成; 陈勋
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26
Anticipated expiration: 2041-08-27
Also published as: CN113705675B

Abstract

本发明公开了一种基于多尺度特征交互网络的多聚焦图像融合方法，其步骤包括：1，将一对彩色多聚焦源图像进行通道连接并输入到设计的多尺度特征交互网络(MSFIN)以生成表示像素聚焦属性的聚焦图；2，对聚焦图进行二值化(即高于阈值的像素值设为1，反之记为0)得到初始决策图，并采用全连接条件随机场(FC‑CRF)细化初始决策图，以去除一些误分类的小区域，得到最终决策图；3，基于细化后的最终决策图，采用像素加权平均策略获得融合图像。本发明能有效地融合具有不同聚焦区域的图像，为多聚焦图像的融合提高一种新的解决方案，使融合图像包含增强的空间信息，有助于信息传输和图像处理。

Description

一种基于多尺度特征交互网络的多聚焦图像融合方法

技术领域

本发明属于多聚焦图像融合的技术领域，具体涉及一种基于多尺度特征交互网络的多聚焦图像融合方法。

背景技术

随着传感器和计算机技术的快速发展，数字图像作为这些新型科技的产物，逐渐渗透到人们的生活之中，并且成为人类获取信息的主要来源之一。因此，丰富图像的信息量，提升图像的视觉效果，能为后续图像处理奠定良好基础。由于光学镜头的景深有限，使得相机难以在同一场景中清晰地捕捉到所有的物体。具体来说，在景深(DOF)范围内的物体被快速捕获，而其他物体在景深(DOF)之外被模糊。多聚焦图像融合技术能将同一场景不同焦距设置的多幅图像融合为全聚焦图像，融合后的图像能尽可能保留源图像中的内容和细节。目前，多聚焦图像融合算法主要分为三类：基于变换域的方法和基于空间域的方法。

基于变换域的方法通常是通过图像分解或表示方法将源图像从空间域变换到变换域，然后根据特定的融合策略对不同源图像的变换系数进行融合。最后对融合后的全聚焦图像进行逆变换重建。例如，近几十年来提出了许多基于多尺度分解(MSD)的方法，基于稀疏表示(SR)的方法，基于梯度域(GD)的方法等。该方法得到的融合图像更接近人类视觉系统，更自然的视觉效果。然而，在变换过程中容易引入像素强度误差，降低融合结果的清晰度。

基于空间域的方法通常是在空间域提取源图像的特征，直接测量源图像的活动水平。然后，根据计算得到的活动级测度，选择合适的融合规则生成聚焦图，确定每个像素点的聚焦属性(即聚焦或模糊)。基于决策图从源图像中选择相应的像素，最终得到融合图像。根据融合算法的基本处理单元，该方法又可分为基于块的方法、基于区域的方法、基于像素的方法。与前一类方法相比，此类方法可以最大限度地保留原始的焦点信息，获得清晰的融合图像。然而，对目标边界的不准确检测可能会在其周围引入不良伪影。

发明内容

本发明为克服上述现有技术所存在的不足，提出一种基于多尺度特征交互网络的多聚焦图像融合方法，以期对同一场景下不同聚焦设置所拍摄的多聚焦图像进行融合，使融合图像包含增强的空间信息，从而有助于后续的信息传输和图像处理。

本发明为解决技术问题，采用如下技术方案：

本发明一种基于多尺度特征交互网络的多聚焦图像融合方法的特点包括如下步骤：

步骤1、数据准备；

获取任意一对分辨率为H×W×3且聚焦区域为互补的多聚焦图像I_A和I_B；

获取与多聚焦图像I_A中聚焦区域对应的一幅分辨率为H×W的二值图G₁，并进行N-1次区域插值下采样，得到一组二值图像集记为{G₁,G₂,…,G_n,…,G_N}，并作为网络训练的参考图像，其中，G_n表示第n个尺度的参考图像，N表示尺度数；

步骤2、构建由主干网络、特征融合部分、上采样部分以及多层监督部分组成的多尺度特征交互网络模型，以预测多聚焦图像中各像素的聚焦属性，得到聚焦图；

步骤2.1、所述主干网络由N个尺度的卷积层级联而成，N个卷积层分别记为{Stage_n|n＝1,...N}；当n＝1时，第1级卷积层Stage₁由1个卷积核大小为p的二维卷积层Conv和k-1个基本残差块级联而成，当n＝2,...,N时，第n级卷积层Stage_n由k个基本残差块级联而成，n＝2,...,N；

将N×k-1个基本残差块分别记为BasicBlock₁,…,BasicBlock_m,…BasicBlock_Nk-1；其中BasicBlock_m表示第m个基本残差块，m＝1,2,...,Nk-1；第m个基本残差块BasicBlock_m包括：两个二维卷积层、两个ReLU激活函数层；

将一对多聚焦图像I_A和I_B的通道进行连接后，得到尺寸为H×W×6的源图像，并输入到所述主干网络中，并经过所述二维卷积层Conv，输出特征图F_conv；

当m＝1时，将所述特征图F_conv作为第m个基本残差块BasicBlock_m的输入特征并输入到所述第m个基本残差块BasicBlock_m中，经过两个二维卷积层和两个ReLU激活函数层后，获得第m个中间特征图F′_m，将第m个中间特征图F′_m与第m个基本残差块BasicBlock_m的输入特征相加，从而获得第m个输出特征图BasicBlockresult_m；

当m＝2,...,Nk-1时，以第m-1个输出特征图BasicBlockresult_m-1作为所述第m个基本残差块BasicBlock_m的输入特征；从而经过第m个基本残差块BasicBlock_m的两个二维卷积层和两个ReLU激活函数层后，获得第m个中间特征F′_m，并将所述第m个中间特征图F′_m与第m个基本残差块BasicBlock_m的输入特征相加后，得到第m个输出特征图BasicBlockresult_m，并作为第n个尺度的卷积层Stage_n输出的特征图Feature_n，m＝nk-1，n＝1,…,N；

步骤2.2、所述特征融合部分由N个多尺度特征融合模块组成，记为{MSFF_n|n＝1,…,N}，其中，N表示尺度数，MSFF_n表示第n个尺度的多尺度特征融合模块；

当n＝1时，所述第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n个上采样层UP_n和第n个跨通道的软注意力机制单元SABlock_n构成；

当n＝2,…N-1时，所述第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n个上采样层UP_n、第n-1个下采样层DOWN_n-1和第n个跨通道的软注意力机制单元SABlock_n构成；

当n＝N时，所述第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n-1个下采样层DOWN_n-1和第n个跨通道的软注意力机制单元SABlock_n构成；

其中，所述第n个特征提取层FE_n由1个步长为1、卷积核大小为1的二维卷积层和1个步长为1、卷积核大小为3的二维卷积层级联而成；

第n个上采样层UP_n由一个步长为1、卷积核大小为1的二维卷积层和双线性插值上采样层级联而成；

第n个下采样层DOWN_n由一个步长为1、卷积核大小为1的二维卷积层和一个步长为2、卷积核大小为3的二维卷积层级联而成；

所述第n个跨通道的软注意力机制单元SABlock_n包括：全局平均池化层，卷积核大小为1的二维卷积层，PReLU激活函数层，X个并行的卷积核大小为1的二维卷积以及softmax函数层；其中，X表示多尺度特征融合模块的支路数；

当n＝1时，将第n级尺度的特征图Feature_n和第n+1级尺度的特征图Feature_n+1共同作为所述第n级尺度的多尺度特征融合模块MSFF_n的输入特征，并经过所述第n个特征提取层FE_n后，得到特征图F_n；第n+1级尺度的特征图Feature_n+1经过第n个上采样层UP_n，得到上采样后的特征图F_n+1；将所述第n个特征提取层FE_n输出的特征图F_n和第n个上采样层UP_n输出的特征图F_n+1相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n中，得到所述特征图F_n的权重向量W_n和特征图F_n+1的权重向量W_n+1，再利用式(1)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n×F_n+W_n+1×F_n+1 (1)

当n＝2，…,N-1时，以第n-1级尺度的特征图Feature_n-1、第n级尺度的特征图Feature_n和第n+1级尺度的特征图Feature_n+1共同作为所述第n级尺度的多尺度特征融合模块MSFF_n的输入特征；所述第n-1级尺度的特征图Feature_n-1经过所述第n-1个下采样层DOWN_n-1，得到下采样后的特征图F_n-1；所述第n级尺度的特征图Feature_n经过所述第n个特征提取层FE_n，得到特征图F_n；所述第n+1级尺度的特征图Feature_n+1经过第n个上采样层UP_n，得到上采样后的特征图F_n+1；将所述第n-1个下采样层DOWN_n-1输出的特征图F_n-1、第n个特征提取层FE_n输出的特征图F_n和第n个上采样层UP_n输出的特征图F_n+1相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n中，得到所述特征图F_n-1的权重向量W_n-1、特征图F_n的权重向量W_n和特征图F_n+1的权重向量W_n+1，再利用式(2)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n-1×F_n-1+W_n×F_n+W_n+1×F_n+1 (2)

当n＝N时，以第n-1级尺度的特征图Feature_n-1和第n级尺度的特征图Feature_n共同作为所述第n级尺度的多尺度特征融合模块MSFF_n的输入特征；所述第n-1级尺度的特征图Feature_n-1经过所述第n-1个下采样层DOWN_n-1后，得到下采样后的特征图F_n-1；所述第n级尺度的特征图Feature_n经过所述第n个特征提取层FE_n后，得到特征图F_n；将所述第n-1个下采样层DOWN_n-1输出的特征图F_n-1和第n个特征提取层FE_n输出的特征图F_n相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n，得到所述特征图F_n-1的权重向量W_n-1和所述特征图F_n的权重向量W_n，再利用式(3)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n-1×F_n-1+W_n×F_n (3)

步骤2.3、所述上采样部分由N-1个坐标注意力上采样模块组成，记为{CAU_n|n＝1,…,N-1}，其中，N表示尺度数，CAU_n表示第n级尺度的坐标注意力上采样模块；第n级尺度的坐标注意力上采样模块CAU_n由第n个上采样层Upsample_n和第n个坐标注意力机制单元CABlock_n组成；

所述第n个上采样层Upsample_n由一个步长为1、卷积核大小为1的二维卷积层和双线性插值上采样层级联而成；

所述坐标注意力机制CABlock_i由水平方向和垂直方向的2个平均池化层、一个卷积核大小为1的二维卷积层、一个批归一化层、一个非线性激活函数、两个并行的步长为1、卷积核大小为1的二维卷积层以及两个并行的Sigmoid激活函数层构成；

当n＝N-1时，以第n+1级尺度的多尺度特征融合模块的输出特征图MSFFresult_n+1和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n共同作为所述第n级尺度的坐标注意力上采样模块CAU_n的输入特征；所述第n+1级尺度的多尺度特征融合模块的输出特征图MSFFresult_n+1经过所述第n个上采样层Upsample_n后，得到上采样的特征图UF_n；将所述上采样的特征图UF_n和所述第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n进行通道连接后，得到连接后的特征图Concat_n，并输入到所述第n个坐标注意力机制单元CABlock_n中，得到所述第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n在水平方向的权重图h_n和垂直方向的权重图w_n；再利用式(4)获得第n个坐标注意力机制单元CABlock_n的输出并作为第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n；

CAUresult_n＝UF_n+MSFFresult_n×h_n×w_n (4)

当n＝1,…,N-2时，以第n+1级尺度的坐标注意力上采样模块CAU_n+1的输出特征图CAUresult_n+1和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n共同作为所述第n级尺度的坐标注意力上采样模块CAU_n的输入特征，所述第n+1个尺度的坐标注意力上采样模块的输出特征图CAUresult_n+1经过所述第n个上采样层Upsample_n后，得到上采样的特征图UF_n；将所述上采样的特征图UF_n和所述第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n进行通道连接后，得到连接后的特征图Concat_n，并输入到所述第n个坐标注意力机制单元CABlock_n中，得到所述第n级尺度的多尺度特征融合模块的输出MSFFresult_n在水平方向的权重图h_n和垂直方向的权重图w_n；再利用式(4)获得第n个坐标注意力机制单元CABlock_n的输出并作为第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n；

步骤2.4、所述多层监督部分为N个并行的预测层，记为{Pre_n|n＝1,…,N}，其中，N表示尺度数，Pre_n表示第n级尺度的预测层；其中，所述第n级尺度的预测层Pre_n由一个步长为1,、卷积核大小为3的二维卷积层以及一个Sigmoid激活函数层构成；

当n＝1,…,N-1时，以第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n作为所述第n级尺度的预测层Pre_n的输入特征，并经过所述第n个预测层Pre_n后，得到预测的第n个尺度的聚焦图MLSresult_n；

当n＝N时，以第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n作为所述第n级尺度的预测层Pre_n的输入特征，并经过所述第n个预测层Pre_n后，得到预测的第n个尺度的聚焦图MLSresult_n；

将预测的N个尺度的聚焦图MLSresult₁,MLSresult₂,…,MLSresult_N作为所述多层监督部分的输出，并将第1个尺度的聚焦图MLSresult₁作为所述多尺度特征交互网络的输出；

步骤2.5、利用式(5)建立损失函数L并作为多尺度特征交互网络模型的优化目标：

式(5)中，

为第n个尺度的加权二值交叉熵损失，并由式(6)得到；

式(6)中，H×W为聚焦图的尺寸；γ是一个常数；

是第n个尺度下分配给像素(h,w)的权重，并由式(7)得到；BCE(·,·)是二值交叉熵函数；

是多层监督部分预测的聚焦图MLSresult_n在位置(h,w)的像素值；

是第n个尺度的参考图像G_n在位置(h,w)的像素值；

式(7)中，A_h,w为像素(h,w)周围的邻域；(m,n)为A_h,w中的像素；

步骤3、训练网络，得到预测表示像素聚焦属性的聚焦图的最优模型；

步骤3.1、按照步骤1的过程得到R对多聚焦图像及其对应的R组参考图像集；

步骤3.2、定义当前循环次数为t，并初始化t＝0；定义最大迭代次数为

E为预设的超分辨网络训练的最大轮数；Z为每次抽取的组数；

步骤3.3、网络训练；

从R对多聚焦图像中第t次随机抽取出X对多聚焦图像输入所述多尺度特征交互网络中进行训练，并获得第t次训练输出的聚焦图

表示第t次训练输出的第z组聚焦图中的第n个尺度的聚焦图，z＝1,2,…,Z；

从R对参考图像中第t次对应取出Z个图像，并进行缩放后得到N个尺度的参考图像

并作为优化目标来计算损失函数L，使得损失函数L在训练过程中逐渐下降，当t＞T时，训练停止，并得到最优模型；其中，

表示第t次取出的第x组聚焦图中的第n个尺度的参考图像；

步骤3.4、聚焦图后处理；

步骤3.4.1、利用式(8)将最优模型输出的聚焦图

进行二值化，得到二值化的初始决策图T；

式(8)中，(x,y)表示像素位置；θ表示所设定的阈值；

步骤3.4.2、采用全连接条件随机场算法对初始决策图T进行细化，得到最终决策图D；

步骤4、对最终决策图D取反，得到互补掩膜D′；从而利用式(9)将最终决策图D及其互补掩膜D′分别与多聚焦图像I_A和I_B进行像素加权求和，并得到融合图像I_F；

I_F(x,y)＝D(x,y)×I_A(x,y)+(D′(x,y))×I_B(x,y) (9)

式(9)中，I_F(x,y)表示融合图像I_F在(x,y)位置的像素值。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过卷积神经网络直接将源图像映射到聚焦图，规避了手动特征提取的过程，避免了因手动提取特征而造成的信息丢失。

2、本发明针对卷积神经网络提取特征的特点，对多个尺度的特征进行交互学习，为聚焦图的生成提供更丰富的信息，提升了聚焦区域检测的准确性。

3、本发明引入了加权的二值交叉熵损失函数和多层监督策略，优化网络参数，得到最佳的网络模型，使其对聚焦图中目标边界的检测更准确。

4、本发明对聚焦图二值化后，采用全连接条件随机场(FC-CRF)方法去除误分类的小区域。与常用的形态学滤波操作相比，FC-CRF能够防止正确分类的聚焦小区域被去除。

附图说明

图1为本发明方法流程图；

图2为本发明多尺度特征交互网络的整体框架图；

图3为本发明基本残差块结构图；

图4a为本发明中当n＝1时第n级尺度的多尺度特征融合模块结构图；

图4b为本发明中当n＝2,…N-1时第n级尺度的多尺度特征融合模块结构图；

图4c为本发明中当n＝N时第n级尺度的多尺度特征融合模块结构图；

图5a为本发明中当n＝N-1时第n级尺度的坐标注意力上采样模块结构图；

图5b为本发明中当n＝1,…,N-2时第n级尺度的坐标注意力上采样模块结构图。

具体实施方式

本实施例中，一种基于多尺度特征交互网络的多聚焦图像融合方法，具体流程如图1所示，包括以下步骤：

步骤1、数据准备；

在本实施例中，使用PASCAL VOC 2012数据集中带有分割标签的原始清晰图像合成多聚焦图像；将原始清晰图像的大小调整为240×240×3，其对应分割图的大小调整为240×240；通过将分割图的所有非零像素置1，得到二值化的参考图像G₁；然后对原始清晰图像连续地使用高斯滤波器生成5个模糊版本的模糊图像。对参考图像G₁取反得到其互补图像

最后将参考图像G₁及其互补图像

作为掩膜，合成出一对多聚焦图像I_A和I_B，每个原始清晰图像及其5个模糊版本的模糊图像可生成25对多聚焦图像；同时连续地对参考图像G₁进行3次区域插值下采样，得到{G₁,G₂,G₃,G₄}，其中各个尺度的参考图像的大小分别为240×240、240×240、120×120、60×60、30×30；共获得20000对多聚焦图像和对应的20000组参考图像；

步骤2、构建由主干网络、特征融合部分、上采样部分以及多层监督部分组成的多尺度特征交互网络模型，以预测多聚焦图像中各像素的聚焦属性，得到聚焦图；网络的整体结构如图2所示；

步骤2.1、主干网络由N个尺度的卷积层级联而成，N个卷积层分别记为{Stage_n|n＝1,…N}；当n＝1时，第1级卷积层Stage₁由1个卷积核大小为p的二维卷积层Conv和k-1个基本残差块级联而成，当n＝2,...,N时，第n级卷积层Stage_n由k个基本残差块级联而成，n＝2,...,N；本实施例中，N＝4，k＝2，p＝3；

将N×k-1个基本残差块分别记为BasicBlock₁,…,BasicBlock_m,…BasicBlock_Nk-1；其中BasicBlock_m表示第m个基本残差块，m＝1,2,...,Nk-1；第m个基本残差块BasicBlock_m包括：两个二维卷积层、两个ReLU激活函数层；本实施例中，第m个基本残差块BasicBlock_m结构如图3所示；

将一对多聚焦图像I_A和I_B的通道进行连接后，得到尺寸为H×W×6的源图像，并输入到主干网络中，并经过二维卷积层Conv，输出特征图F_conv；本实施例中，二维卷积层Conv的输入通道数为6，输出通道数为32；

当m＝1时，将特征图F_conv作为第m个基本残差块BasicBlock_m的输入特征并输入到第m个基本残差块BasicBlock_m中，经过两个二维卷积层和两个ReLU激活函数层后，获得第m个中间特征图F′_m，将第m个中间特征图F′_m与第m个基本残差块BasicBlock_m的输入特征相加，从而获得第m个输出特征图BasicBlockresult_m；

当m＝2,...,Nk-1时，以第m-1个输出特征图BasicBlockresult_m-1作为第m个基本残差块BasicBlock_m的输入特征；从而经过第m个基本残差块BasicBlock_m的两个二维卷积层和两个ReLU激活函数层后，获得第m个中间特征F′_m，并将第m个中间特征图F′_m与第m个基本残差块BasicBlock_m的输入特征相加后，得到第m个输出特征图BasicBlockresult_m，并作为第n个尺度的卷积层Stage_n输出的特征图Feature_n，m＝nk-1，n＝1,…,N；本实施例中，N＝4，k＝2；

当m＝2n-1时，第m个基本残差块BasicBlock_m的输入通道数和输出通道数为32×2^n-1，中间特征F′_m的通道数为32×2^n-1，其中，n＝1,…,4；当m＝2n-2时，第m个基本残差块BasicBlock_m的输入通道数为32×2^n-2，输出通道数为32×2^n-1，中间特征F′_m的通道数为32×2^n-1，其中，n＝2,3,4；

步骤2.2、特征融合部分由N个多尺度特征融合模块组成，记为{MSFF_n|n＝1,…,N}，其中，N表示尺度数，MSFF_n表示第n个尺度的多尺度特征融合模块；

当n＝1时，第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n个上采样层UP_n和第n个跨通道的软注意力机制单元SABlock_n构成；第n级尺度的多尺度特征融合模块的具体结构如图4a所示；

当n＝2,…N-1时，第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n个上采样层UP_n、第n-1个下采样层DOWN_n-1和第n个跨通道的软注意力机制单元SABlock_n构成；第n级尺度的多尺度特征融合模块的具体结构如图4b所示；

当n＝N时，第n级尺度的多尺度特征融合模块MSFF_n由第n个特征提取层FE_n、第n-1个下采样层DOWN_n-1和第n个跨通道的软注意力机制单元SABlock_n构成；第n级尺度的多尺度特征融合模块的具体结构如图4c所示；

其中，第n个特征提取层FE_n由1个步长为1、卷积核大小为1的二维卷积层和1个步长为1、卷积核大小为3的二维卷积层级联而成；

第n个跨通道的软注意力机制单元SABlock_n包括：全局平均池化层，卷积核大小为1的二维卷积层，PReLU激活函数层，X个并行的卷积核大小为1的二维卷积以及softmax函数层；其中，X表示多尺度特征融合模块的支路数；本实施例中，当n＝1,N时，X＝2；当n＝2，…,N-1时，X＝3；

当n＝1时，将第n级尺度的特征图Feature_n和第n+1级尺度的特征图Feature_n+1共同作为第n级尺度的多尺度特征融合模块MSFF_n的输入特征，并经过第n个特征提取层FE_n后，得到特征图F_n；第n+1级尺度的特征图Feature_n+1经过第n个上采样层UP_n，得到上采样后的特征图F_n+1；将第n个特征提取层FE_n输出的特征图F_n和第n个上采样层UP_n输出的特征图F_n+1相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n中，得到特征图F_n的权重向量W_n和特征图F_n+1的权重向量W_n+1，再利用式(1)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n×F_n+W_n+1×F_n+1 (1)

当n＝2，…,N-1时，以第n-1级尺度的特征图Feature_n-1、第n级尺度的特征图Feature_n和第n+1级尺度的特征图Feature_n+1共同作为第n级尺度的多尺度特征融合模块MSFF_n的输入特征；第n-1级尺度的特征图Feature_n-1经过第n-1个下采样层DOWN_n-1，得到下采样后的特征图F_n-1；第n级尺度的特征图Feature_n经过第n个特征提取层FE_n，得到特征图F_n；第n+1级尺度的特征图Feature_n+1经过第n个上采样层UP_n，得到上采样后的特征图F_n+1；将第n-1个下采样层DOWN_n-1输出的特征图F_n-1、第n个特征提取层FE_n输出的特征图F_n和第n个上采样层UP_n输出的特征图F_n+1相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n中，得到特征图F_n-1的权重向量W_n-1、特征图F_n的权重向量W_n和特征图F_n+1的权重向量W_n+1，再利用式(2)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n-1×F_n-1+W_n×F_n+W_n+1×F_n+1 (2)

当n＝N时，以第n-1级尺度的特征图Feature_n-1和第n级尺度的特征图Feature_n共同作为第n级尺度的多尺度特征融合模块MSFF_n的输入特征；第n-1级尺度的特征图Feature_n-1经过第n-1个下采样层DOWN_n-1后，得到下采样后的特征图F_n-1；第n级尺度的特征图Feature_n经过第n个特征提取层FE_n后，得到特征图F_n；将第n-1个下采样层DOWN_n-1输出的特征图F_n-1和第n个特征提取层FE_n输出的特征图F_n相加后，得到第n级尺度粗略融合的特征图RF_n，并输入到第n个尺度的跨通道的软注意力机制单元SABlock_n，得到特征图F_n-1的权重向量W_n-1和特征图F_n的权重向量W_n，再利用式(3)获得第n个尺度的跨通道的软注意力机制单元SABlock_n的输出并作为第n级尺度的多尺度特征融合模块MSFF_n的输出特征图MSFFresult_n；

MSFFresult_n＝W_n-1×F_n-1+W_n×F_n (3)

步骤2.3、上采样部分由N-1个坐标注意力上采样模块组成，记为{CAU_n|n＝1,…,N-1}，其中，N表示尺度数，CAU_n表示第n级尺度的坐标注意力上采样模块；第n级尺度的坐标注意力上采样模块CAU_n由第n个上采样层Upsample_n和第n个坐标注意力机制单元CABlock_n组成；第n级尺度的坐标注意力上采样模块CAU_n的输入通道数和输出通道数均为32×2^n-1；

第n个上采样层Upsample_n由一个步长为1、卷积核大小为1的二维卷积层和双线性插值上采样层级联而成；

坐标注意力机制CABlock_i由水平方向和垂直方向的2个平均池化层、一个卷积核大小为1的二维卷积层、一个批归一化层、一个非线性激活函数、两个并行的步长为1、卷积核大小为1的二维卷积层以及两个并行的Sigmoid激活函数层构成；本实施例中，非线性激活函数由ReLU6激活函数和Sigmoid激活函数组合而成；

本实施例中，当n＝N-1时，第n级尺度的坐标注意力上采样模块CAU_n的具体结构如图5a所示；当n＝1,…,N-2时，第n级尺度的坐标注意力上采样模块CAU_n的具体结构如图5b所示；

当n＝N-1时，以第n+1级尺度的多尺度特征融合模块的输出特征图MSFFresult_n+1和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n共同作为第n级尺度的坐标注意力上采样模块CAU_n的输入特征；第n+1级尺度的多尺度特征融合模块的输出特征图MSFFresult_n+1经过第n个上采样层Upsample_n后，得到上采样的特征图UF_n；将上采样的特征图UF_n和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n进行通道连接后，得到连接后的特征图Concat_n，并输入到第n个坐标注意力机制单元CABlock_n中，得到第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n在水平方向的权重图h_n和垂直方向的权重图w_n；再利用式(4)获得第n个坐标注意力机制单元CABlock_n的输出并作为第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n；

CAUresult_n＝UF_n+MSFFresult_n×h_n×w_n (4)

当n＝1,…,N-2时，以第n+1级尺度的坐标注意力上采样模块CAU_n+1的输出特征图CAUresult_n+1和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n共同作为第n级尺度的坐标注意力上采样模块CAU_n的输入特征，第n+1个尺度的坐标注意力上采样模块的输出特征图CAUresult_n+1经过第n个上采样层Upsample_n后，得到上采样的特征图UF_n；将上采样的特征图UF_n和第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n进行通道连接后，得到连接后的特征图Concat_n，并输入到第n个坐标注意力机制单元CABlock_n中，得到第n级尺度的多尺度特征融合模块的输出MSFFresult_n在水平方向的权重图h_n和垂直方向的权重图w_n；再利用式(4)获得第n个坐标注意力机制单元CABlock_n的输出并作为第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n；

步骤2.4、多层监督部分为N个并行的预测层，记为{Pre_n|n＝1,…,N}，其中，N表示尺度数，Pre_n表示第n级尺度的预测层；其中，第n级尺度的预测层Pre_n由一个步长为1,、卷积核大小为3的二维卷积层以及一个Sigmoid激活函数层构成；在本实施例中，第n级尺度的预测层Pre_n的输入通道数为32×2^n-1，输出通道数为1；

当n＝1,…,N-1时，以第n级尺度的坐标注意力上采样模块CAU_n的输出特征图CAUresult_n作为第n级尺度的预测层Pre_n的输入特征，并经过第n个预测层Pre_n后，得到预测的第n个尺度的聚焦图MLSresult_n；

当n＝N时，以第n级尺度的多尺度特征融合模块的输出特征图MSFFresult_n作为第n级尺度的预测层Pre_n的输入特征，并经过第n个预测层Pre_n后，得到预测的第n个尺度的聚焦图MLSresult_n；

将预测的N个尺度的聚焦图MLSresult₁,MLSresult₂,…,MLSresult_N作为多层监督部分的输出，并将第1个尺度的聚焦图MLSresult₁作为多尺度特征交互网络的输出；多层监督部分通过对多个尺度的聚焦图进行监督，增强了对网络的训练，提升了输出聚焦图的准确性；

式(5)中，

为第n个尺度的加权二值交叉熵损失，并由式(6)得到；相比于传统的二值交叉熵损失平等对待所有像素，

能给边界周围的像素更多的注意，以提高边界检测的准确性；本实施例中，采用Adam优化器对损失L进行优化求解；

式(6)中，H×W为聚焦图的尺寸；γ是一个常数；

是多层监督部分预测的聚焦图MLSresult_n在位置(h,w)的像素值；

是第n个尺度的参考图像G_n在位置(h,w)的像素值；在本实施例中，γ＝3；

式(7)中，A_h,w为像素(h,w)周围的邻域；(m,n)为A_h,w中的像素；本实施例中，A_h,w邻域大小设置为31×31；

E为预设的超分辨网络训练的最大轮数；Z为每次抽取的组数；本实例中，设置Z＝16，E＝100；

步骤3.3、网络训练；

从R对多聚焦图像中第t次随机抽取出X对多聚焦图像输入多尺度特征交互网络中进行训练，并获得第t次训练输出的聚焦图

表示第t次取出的第x组聚焦图中的第n个尺度的参考图像；使用最优模型进行测试时，只需要将一对彩色图像进行通道上的连接，得到6通道源图像作为最优模型的输入，即可获得对应的聚焦图；

步骤3.4、聚焦图后处理；

步骤3.4.1、利用式(8)将最优模型输出的聚焦图

进行二值化，得到二值化的初始决策图T；

式(8)中，(x,y)表示像素位置；θ表示所设定的阈值；本实施例中，θ＝0.5；

I_F(x,y)＝D(x,y)×I_A(x,y)+(D′(x,y))×I_B(x,y) (9)

式(9)中，I_F(x,y)表示融合图像I_F在(x,y)位置的像素值。

Claims

1.一种基于多尺度特征交互网络的多聚焦图像融合方法，其特征包括如下步骤：

步骤1、数据准备；

步骤2.1、所述主干网络由N个尺度的卷积层级联而成，N个卷积层分别记为{Stage_n|n＝1,…N}；当n＝1时，第1级卷积层Stage₁由1个卷积核大小为p的二维卷积层Conv和k-1个基本残差块级联而成，当n＝2,...,N时，第n级卷积层Stage_n由k个基本残差块级联而成，n＝2,...,N；