CN113762484A

CN113762484A - 深度蒸馏的多聚焦图像融合方法

Info

Publication number: CN113762484A
Application number: CN202111106048.7A
Authority: CN
Inventors: 赵凡; 赵文达; 吴雪
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-07
Anticipated expiration: 2041-09-22
Also published as: CN113762484B

Abstract

本发明提供了一种深度蒸馏的多聚焦图像融合方法，属于图像处理领域。本发明包括以下步骤：对源图像，采用现有深度估计模型以及多聚焦图像融合模型获得源图像对应深度图以及伪决策图；设计深度蒸馏多聚焦图像融合网络；以深度图以及伪决策图为真值，设计损失函数，监督网络模型训练，得到最终多聚焦图像融合结果。本发明利用深度图所提供的判别信息，提升对于均质区域的融合精度。

Description

深度蒸馏的多聚焦图像融合方法

技术领域

本发明属于图像处理领域，尤其涉及一种基于深度蒸馏的多聚焦图像融合方法。

背景技术

光学透镜具有有限的景深(DoF)。在成像过程中，位于DoF内的目标较为清晰，远离焦区域的目标图像会变得模糊。多聚焦图像融合(MFIF)目的是通过集成相机捕获的相同场景的多个源图像来生成全聚焦图像。多聚焦图像融合是图像融合任务的一部分，在计算机视觉中扮演着重要的角色，例如，目标识别和检测。

近年来，研究者们做出了巨大的努力来改进多聚焦图像融合精度。图像融合技术大致分为基于变换域方法，基于空间域方法，变换域-空域集成方法，深度学习方法。早期的多聚焦图像融合方法通常专注于测量活动水平和设计融合规则，因而导致对真实场景多样性的鲁棒性受到限制。近年来，依托深度学习强大的特征表征能力，卷积神经网络(CNN)已成为主流的图像融合技术。尽管深度卷积神经网络在多聚焦图像融合领域取得了巨大的进步，但是面对同质地区融合仍存在挑战。归因于，均匀区域是光滑，缺乏纹理信息，难以判断它们属于聚焦区域还是非聚焦区域，这给实现高精度多聚焦图像融合带来了很大的挑战。

鉴于聚焦和非聚焦区域的产生与目标位于相机的景深有关，即目标位于景深范围内则表征清晰，被称为聚焦区域；反之，目标超出景深范围表现为模糊，称为非聚焦区域。因此,深度信息是区分聚焦和非聚焦区域判别的重要提示。更重要的是，深度信息为同质性区域的区分提供了判别信息。

发明内容

本发明的目的是提出了一种深度蒸馏多聚焦图像融合网络，突破多聚焦图像融合中对同质区域判别及融合的技术瓶颈。

本发明的技术方案：

一种深度蒸馏的多聚焦图像融合方法，步骤如下：

步骤一：制作深度蒸馏的多聚焦图像融合数据集

(1)获取多聚焦图像数据集，包含前聚焦图像I₁以及后聚焦图像I₂；

(2)对步骤(1)中的多聚焦图像数据集生成其对应的深度图D以及伪决策图D'，其生成过程如下：将前聚焦图像I₁输入到深度估计网络中，输出其对应的深度图D；将前聚焦图像I₁和后聚焦图像I₂输入基于决策图预测的多聚焦图像融合模型中，生成其对应伪决策图D'；

(3)将图像对{I₁，I₂，D，D’}作为网络输入，其中深度图及伪决策图{D，D’}作为网络真值，获得网络训练所需样本集；

步骤二：设计深度蒸馏多聚焦图像融合网络模型，实现多聚焦图像融合

(1)设计源图像重构网络，包含两个结构相同的用于源图像特征提取的分支模型，每个分支模型基于VGG框架，由多个卷积层、激励层以及上下采样层组成；卷积层所提取的层级特征表示为F′_n、F″_n，n表示为第n层，范围为{1,2,...,6}；重构网络训练过程分为前向传播和反向传播过程，网络的前向传播过程：

a^(l+1)＝f(W^(l)a^(l)+b^(l)) (1)

其中，f(),W,b表示每个层的激活函数、权重和偏置矩阵参数；网络反向传播过程为最小化loss函数L_r的过程，其中L_r表示为：

其中，MSE表示均方误差，I_m为源图像I₁、I₂，

表示源图像I₁、I₂对应的重构结果

和

(2)设计深度蒸馏模块，该模块基于注意力机制，输入为源图像特征F_n，n＝{1,2,3}，其中F_n通过将源图像重构网络的层级特征F′_n、F″_nConcat后得到的：

F_n＝Cat(F′_n,F″_n) (3)

该模块输出为包含位置和决策图信息的特征

通过以下过程获得：

其中，

为包含位置和决策图信息的特征向量；

的获取是通过深度蒸馏得到，其过程如下：

对于输入特征F_n，采用卷积操作(Conv)获取两个支路输出d_n，m_n：

d_n＝Conv(Conv²(F_n)),m_n＝Conv(Conv²(F_n)) (5)

选取深度估计网络中R₁，基于决策图预测的多聚焦图像融合模型R₂，用于深度蒸馏；深度蒸馏通过最小化loss函数L_n：

L_n＝MSE(d_n,R₁(I₁))+MSE(m_n,R₂(I₁,I₂)) (6)

通过该蒸馏过程，d_n包含深度信息，m_n包含决策图信息；最终，

通过下述公式获得：

步骤三：网络训练，训练网络的损失函数由三部分组成：深度蒸馏损失，即L'；监督中间决策图的损失，即L”；以及监督最终决策图的损失，即L”'；网络训练为最小化loss函数L_final的过程，

L_final＝L'+L”+L”' (8)

具体地，L'等同于公式(5)中的L_n；L”以及L”'表达式为：

L”＝MSE(D_n,R₂(I₁,I₂))，L”'＝MSE(F_final,Max(I₁,I₂)) (9)

其中，D_n输出的中间决策图，F_final为最终融合结果，由下式得到：

F_final＝I₁*D_final+I₂*(1-D_final) (10)

其中，D_final为深度蒸馏多聚焦图像融合网络模型输出的最终决策图；

步骤四：测试阶段，输入两幅多聚焦图像I₁、I₂，输出其对应重构结果

以及最终融合结果F_final。

本发明的有益效果：均匀区域缺乏纹理信息，难以提供其属于聚焦区域还是非聚焦区域的关键线索，这给实现高精度多聚焦图像融合带来了很大的挑战。深度信息为同质性区域的区分提供了判别信息，是区分聚焦和非聚焦区域判别的重要提示。本发明中，我们探索使用深度信息所包含的位置信息帮助多聚焦图像融合任务，提出了一种深度蒸馏多聚焦图像融合网络，突破多聚焦图像融合中对同质区域判别及融合的技术瓶颈。

附图说明

图1为本发明方法的基本结构示意图。

图2为本实施例的深度蒸馏模块结构示意图。

图3为本实施例的决策图预测结果对比示意图。

图中：R₁:深度估计网络；R₂：多聚焦图像融合网络；DDM：深度蒸馏模块；

Element-wise相乘；

Concatenation操作；F_final：最终融合结果；

卷积块。

具体实施方式

本发明提出的深度蒸馏的多聚焦图像融合方法的具体实施详细说明如下：

步骤一：深度蒸馏的多聚焦图像融合数据集制作，具体包括：

1)MFI-WHU dataset为例，制作多聚焦图像数据集，所述数据集包含前聚焦图像I₁以及后聚焦图像I₂，共计120对；

2)对步骤1)中的多聚焦图像数据集生成其对应的深度图D以及伪决策图D'，其生成过程如下：将前聚焦图像I₁输入到现有深度估计网络中，输出其对应的深度图D；将前聚焦I₁和后聚焦图像I₂输入基于决策图预测的多聚焦图像融合模型中，生成其对应伪决策图D'；

3)将所述图像对{I₁，I₂，D，D’}作为网络输入，其中深度图及伪决策图{D，D’}作为网络真值，获得网络训练所需样本集，共计120对；

步骤二：如图1所示，在实施例1中，一种深度蒸馏多聚焦图像融合网络模型，包括：

1)源图像重构网络。该模块包含两个结构相同的分支用于源图像特征提取，每个分支模型基于VGG框架，由多个卷积层以组成，激励层以及上下采样层组成。卷积层所提取的层级特征表示为F′_n，F″_n(n表示为第n层，范围为{1,2,...,6})。该模块输入为源图像I₁、I₂，输出为重构结果

和

重构网络训练过程分为前向传播和反向传播过程，网络的前向传播过程：

a^(l+1)＝f(W^(l)a^(l)+b^(l)) (1)

其中f(),W,b表示每个层的激活函数、权重和偏置矩阵参数。网络反向传播过程为最小化loss函数L_r的过程，其中L_r表示为：

其中，MSE表示均方误差，I_m为源图像I₁、I₂，

表示源图像I₁、I₂对应的重构结果

和

2)深度蒸馏模块。如图2所示，在实施例2中，该模块基于注意力机制。该模块输入为源图像特征F_n，n＝{1,2,3}，其中F_n通过将源图像重构网络的层级特征F′_n，F″_n(n＝{1,2,3})Concat后得到的：

F_n＝Cat(F′_n,F″_n) (3)

深度蒸馏模块的输出为包含位置和决策图信息的特征

通过以下过程获得：

其中

为包含位置和决策图信息的特征向量。

的获取是通过深度蒸馏得到，其过程如下：

d_n＝Conv(Conv²(F_n)),m_n＝Conv(Conv²(F_n)) (5)

选取现有深度估计网络R₁(参见B.Ni,Y.Pei,P.Moulin,and S.Yan,“Multileveldepth and image fusion for human activity detection,”IEEE Transactions onCybernetics,vol.43,no.5,pp.1383–1394,2013.)，基于决策图预测的多聚焦图像融合模型R₂(参见Y.Liu,S.Liu,and Z.Wang,“A general framework for image fusion basedon multi-scale transform and sparse representation,”Information fusion,vol.24,pp.147–164,2015.)，用于深度蒸馏。深度蒸馏通过最小化loss函数L_n：

L_n＝MSE(d_n,R₁(I₁))+MSE(m_n,R₂(I₁,I₂)) (6)

通过该蒸馏过程，d_n包含深度信息(如图2中R₁(I₁)所示)，m_n包含决策图信息(如图2中R₂(I₂)所示)。最终，

通过下述公式获得：

步骤三：网络训练。训练网络的损失函数由三部分组成：深度蒸馏损失，即L'；监督中间决策图的损失，即L”；以及监督最终决策图的损失，即L”'。网络训练为最小化loss函数L_final的过程，

L_final＝L'+L”+L”' (8)

具体地，L'等同于公式(5)中的L_n。L”以及L”'表达式为:

L”＝MSE(D_n,R₂(I₁,I₂))，L”'＝MSE(F_final,Max(I₁,I₂)) (9)

其中，D_n输出的中间决策图。F_final为最终融合结果，由下式得到：

F_final＝I₁*D_final+I₂*(1-D_final) (10)

其中，D_final为深度蒸馏多聚焦图像融合网络模型输出的最终决策图。

网络训练过程中的各参数设置如下：

base_lr:1e-4/学习率

momentum:0.9/动量

weight_decay:5e-3/权重衰减

batch size:1/批大小

solver_mode:GPU/本例使用GPU训练

步骤四：测试阶段。本实施例以LytroDataset为测试数据集，验证方法的有效性。输入两幅多聚焦图像I₁、I₂，本发明模型输出其对应重构结果

决策图D_final，以及最终融合结果F_final。由图3所示，相对于其他方法，本发明方法获得的决策图可以较好的避免同质区域的干扰。

Claims

1.一种深度蒸馏的多聚焦图像融合方法，其特征在于，步骤如下：

步骤一：制作深度蒸馏的多聚焦图像融合数据集

(1)设计源图像重构网络，包含两个结构相同的用于源图像特征提取的分支模型，每个分支模型基于VGG框架，由多个卷积层、激励层以及上下采样层组成；卷积层所提取的层级特征表示为F'_n、F”_n，n表示为第n层，范围为{1,2,...,6}；重构网络训练过程分为前向传播和反向传播过程，网络的前向传播过程：

a^(l+1)＝f(W^(l)a^(l)+b^(l)) (1)

L_r＝MSE(I_m,I_rm) (2)

其中，MSE表示均方误差，I_m为源图像I₁、I₂，I_rm表示源图像I₁、I₂对应的重构结果I_r1和I_r2；

(2)设计深度蒸馏模块，该模块基于注意力机制，输入为源图像特征F_n，n＝{1,2,3}，其中F_n通过将源图像重构网络的层级特征F'_n、F”_nConcat后得到的：

F_n＝Cat(F'_n,F”_n) (3)

该模块输出为包含位置和决策图信息的特征