CN115457259A

CN115457259A - 一种基于多通道激活优化的图像快速显著性检测方法

Info

Publication number: CN115457259A
Application number: CN202211113259.8A
Authority: CN
Inventors: 顾军; 李升�; 程训龙; 王海君; 梁松
Original assignee: Huayang Communication Technology Co ltd
Current assignee: Huayang Communication Technology Co ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-09
Anticipated expiration: 2042-09-14
Also published as: CN115457259B

Abstract

本发明公开了一种基于多通道激活优化的图像快速显著性检测方法。该检测方法设计了基于孪生网络的编码‑解码结构。编码部分，使用EfficientNetV2‑M卷积神经网络对图像全局特征进行捕捉，并采用共享参数策略进一步降低模型参数量。同时，本方法设计了多通道低级特征激活优化策略，即集成24通道的颜色、亮度和对比度三种手工特征进行优化显著性局部细节表达，弥补了传统显著性检测方法中因过度依赖深度网络结构带来的不可解释性。解码部分，采用四个上采样卷积块和1×1卷积层进行特征尺寸恢复，得到原图大小的显著性图像。整体地，双支路孪生网络同时兼顾了图像的全局特征和局部特征，在准确性和推理速度之间取得良好的平衡效果，解决了当下主流方法为追求高性能而伴随的网络深度不断加深导致的模型尺寸较大的问题。

Description

一种基于多通道激活优化的图像快速显著性检测方法

技术领域

本发明涉及显著性检测技术领域，尤其涉及一种基于多通道激活优化的图像快速显著性检测方法。

背景技术

图像显著性检测是指通过智能算法模拟人眼的视觉聚焦特点，提取图像中的显著区域，即人类感兴趣的区域。目前，随着深度学习技术的发展，显著性预测效果得到了迅速的提高，但由于网络层数的不断增加，模型结构的越加复杂，高精度预测的同时也普遍伴随较慢推理速度的问题，在应用场景中大大受到限制。

以上可见，现有技术中的图像显著性检测方法因过度依赖神经网络，容易造成检测模型的可解释性差、规模较大、推理速度较慢和计算负荷较大的问题。

发明内容

针对以上问题，本发明提出一种基于多通道激活优化的图像快速显著性检测方法。

为实现本发明的目的，本发明提出一种基于多通道激活优化的图像快速显著性检测方法，

该方法基于预设的图像快速显著性检测模型实现图像快速显著性检测；

所述预设的图像快速显著性检测模型包括：多通道激活优化模块、局部特征提取模块、全局特征提取模块和上采样模块；

所述局部特征提取模块和全局特征提取模块为相同的主干网络，即孪生网络EfficientnetV2-M；

所述基于多通道激活优化的图像快速显著性检测方法包括如下步骤：

S1：所述多通道激活优化模块提取预先输入的目标图像的颜色、亮度和方向的多通道低级视觉特征，并生成多通道激活优化图；

S2：所述局部特征提取模块对所述多通道激活优化图进行局部特征的提取，并得到局部显著性特征图；

S3：所述全局特征提取模块对所述预先输入的目标图像进行全局特征的提取，并得到全局显著性特征图，接着所述孪生网络EfficientnetV2-M之间采用参数共享的方式互相学习所述局部显著性特征图和所述全局显著性特征图；

S4：基于上述步骤S3的学习结果将所述局部显著性特征图和全局显著性特征图进行拼接融合，得到拼接融合的特征图，最后所述上采样模块对所述拼接融合的特征图进行尺度恢复和加权操作，并生成最终的显著性图像；

进一步地，所述EfficientnetV2-M卷积神经网络包括：MBConv模块和Fused-MBConv模块；

所述MBConv模块包括：扩展卷积层Expansion Conv1×1、深度可分离卷积层Depthwise Conv3×3和SE模块；

所述Fused-MBConv模块包括：传统标准卷积层conv3×3和SE模块。

进一步地，所述SE模块用于衡量模型通道之间的相互依赖性，包含：压缩和激励两部分。

进一步地，所述步骤S1中，采用Markov链方法对局部特征图进行激活优化计算。

进一步地，所述步骤S4中，所述上采样模块采用四个上采样卷积块作为解码器架构；所述上采样模块中的所有卷积层都采用了ReLU非线性激活函数，并且最后一个卷积层为具有Sigmoid非线性激活函数的1×1卷积层。

跟现有技术相比，本发明具有以下有益的技术效果：

现存的显著性预测方法虽然预测精度较高，但具有普遍模型尺寸较大，推理速度较慢，计算量较大等问题，本方案弥补了现存显著性模型的这些不足。

现存的显著性预测方法高度依赖神经网络，而神经网络包含的大量非线性函数具有黑匣子般的不可解释性，本方案基于传统鲁棒的手工视觉特征设计了多通道激活优化模块，增强了模型的可解释性。

本方案设计的轻量级的双支路孪生网络，既兼顾了局部和全局视觉特征学习和表达，又在准确性和推理速度之间取得良好的平衡效果，且较小的模型尺寸使得本方案在应用场景中比现有技术具有更高的普适性。

附图说明

图1是一个实施例的基于多通道激活优化的图像快速显著性检测方法的流程示意图；

图2是一个实施例的基于多通道激活优化的图像快速显著性检测方法的结构示意图；

图3是一个实施例的EfficientNetV2-M卷积神经网络的结构示意图；

图4是一个实施例的SE模块的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于多通道激活优化的图像快速显著性检测方法的流程示意图，如图所示，本方案基于预设的图像快速显著性检测模型实现图像快速显著性检测；

在一个实施例中，所述EfficientnetV2-M卷积神经网络包括：MBConv模块和Fused-MBConv模块；

所述Fused-MBConv模块包括：传统标准卷积层conv3×3和SE模块。

在一个实施例中，所述SE模块用于衡量模型通道之间的相互依赖性，包含：压缩和激励两部分。

在一个实施例中，所述步骤S1中，采用Markov链方法对局部特征图进行激活优化计算。

在一个实施例中，所述步骤S5中，

所述上采样模块采用四个上采样卷积块作为解码器架构；所述上采样模块中的所有卷积层都采用了ReLU非线性激活函数，并且最后一个卷积层为具有Sigmoid非线性激活函数的1×1卷积层。

如图2所示，整个图像快速显著性检测模型包含编码和解码两部分，编码部分在结构上采用先分后合的双支路孪生网络，两支路分别对全局特征和局部特征进行学习，其中卷积神经网络为EfficientnetV2-M,采用参数共享的方式进行训练，全局显著性特征和局部显著性特征得以融合和优化。最后在编码部分，通过上采样模块进行特征尺度恢复，得到原图大小的显著性图像。

多通道激活优化模块：

在本实施例中，输入图像后，图像将图像快速显著性检测模型的两条支路同时处理，在其中一条支路中，首先会被多通道激活优化模块提取粗糙的视觉特征，并生成底层显著激活图。其中，采用Markov链方法对局部特征图进行激活优化计算。其基本步骤如下：

(1)提取多尺度多通道局部视觉特征

通过共包含多通道多尺度的颜色、亮度和方向三种低级视觉特征。具体地，包含在R，G，B三通道上的480×640和120×160两个尺度上的共6个通道的颜色特征、在480×640和120×160两个尺度的二通道的亮度特征和在八个方向上的480×640和120×160两个尺度的共计16个通道的方向特征,其中八个方向θ∈{0°，45°，90°，135°，180°，225°，270°，315°}，共计24通道特征图。

其中，RGB颜色空间中的红，绿，蓝三个颜色通道标识为r，g，b，本发明采用的颜色特征为宽频调谐特征，计算为：红R＝r-(g+b)/2，蓝B＝b-(r+g)/2和绿G＝g-(r+b)/2。

其中，在计算多尺度亮度特征中，融入了中心环绕理论(Center-surround)，其旨在计算不同尺度之间的特征差。中心(Center)尺度设定为c∈{2,3,4}，周围尺度设定为s＝c+σ，σ∈{3,4}。两幅相同特征不同尺度下的差运算设定为Θ，具体地，将大尺度的特征图插值到小尺度特征图，并扩展到小尺度特征图的分辨率，两幅图进行点对点相减即可得到当前特征在多尺度下的显著值。那么，不同尺度下亮度特征图的计算为：I(c,s)＝|I(c)ΘI(s)|。

其中，方向特征图为O(c,s,θ)，计算为：O(c,s,θ)＝|O(c,s)ΘO(s,θ)|，其中八个方向为：θ∈{0°，45°，90°，135°，180°，225°，270°，315°}。

(2)利用特征向量构建激活图

在一个实施例中，所述多通道激活优化图是指通过对上述24通道特征图分别进行显著性激活优化操作获得，具体地，对每个通道特征图采用基于图结构的Markov链计算而来，通过计算高斯距离和赋予权值突出相似并连通的显著区域，具体步骤为：

首先，对每张视觉特征图提取像素位置的特征向量，构建全连接有向图G_A，则节点p到节点q之间的有向边的权值表示为：

其中，

计算特征图M点p和q之间的相似性，

计算两点a和b之间的高斯距离，(p_x,p_y)和(q_x,q_y)分别表示节点p和q的位置坐标，σ为自由参数。

然后，在G_A上定义Markov链。首先把边的权值归一化到[0,1]，将节点表示为状态，边的权值表示为转换概率。假定G_A特征向量具有马尔科夫性，则在Markov链中，随机游走器进行随机游走，则链的等值分布表示为在每个状态所消耗的时间，即为当前节点的显著程度，即为当前特征向量的激活图。

其中，Markov链表示为：在时刻t的随机变量X_t满足条件概率:

P(X_t|X_t-1,X_t-2,…,X₀)＝P(X_t|X_t-1),t＝1,2,…

那么称此随机变量具有马尔科夫性，随机序列X＝{X₀,X₁,…X_t,…}为Markov链。

局部特征提取和优化模块：

局部特征提取和优化模块属于孪生网络的一支，职能是对步骤S1中生成的激活特征优化图进一步特征提取和优化，生成最佳的局部视觉特征，并通过参数共享的方式与孪生网络的另一条支路提取的全局特征进行融合学习，生成最佳的显著性特征。

如图3所示，在本实施例中，特征提取网络为EfficientNetV2-M，主要包含MBConv模块和Fused-MBConv模块。本方案图像快速显著性检测模型引入EfficientNetV2-M来加快训练速度以及减小模型参数数量。

如图3(a)所示，在本实施例中，宽和高分别为H和W的输入图像，首先在灰度域中经过标准卷积Conv3×3进行特征预处理，再经过如图所标示的一系列MBConv模块和Fused-MBConv模块进行特征学习和表征，最终得到尺度缩放到原图的1/32的高维显著性特征图。其中，Conv3×3表示3×3卷积+激活函数(SiLU)+BN，BN表示批归一化；MBConv和Fused-MBConv后的数字n∈{1,4,6}表示Expansion Ratio；SE表示采用SE模块，0.25表示se_ratio，指SE模块第一个全连接层的节点个数是输入MBConv的特征矩阵通道数的1/4。

如图3(a)和(b)所示，在本实施例中，EfficientNetV2-M主要采用了MBConv(n＝6)模块和Fused-MBConv(n＝4)。其中，MBConv(Mobile inverted Bottleneck Conv)作为注意力机制模块具有深度可分离卷积的倒残差的线性瓶颈层，主要是用来让网络对重要位置特征施加更多的关注，结构上主要包括：扩展卷积层Expansion Conv1×1(升维和降维作用)，深度可分离卷积层Depthwise Conv3×3和SE模块。虽然深度可分离结构相比普通卷积拥有更少的参数以及更小的计算量FLOPs，但通常无法充分利用现有的常见的加速器，Fused-MBConv将原来的MBConv结构主分支中的Expansion Conv1×1和Depthwise Conv3×3替换成一个普通的标准卷积Conv3×3，以更好地利用移动端或服务端的加速器。

如图4所示，在一个实施例中，SE(Squeeze-and-excitation)模块用于衡量模型通道之间的相互依赖性，主要包含压缩(Squeeze)和激励(Excitation)两部分。W和H分别表示特征图宽和高。C表示通道数，输入特征图的大小为W×H×C，具体步骤见图4。

全局特征提取模块：

全局特征提取模块，用于提取图像的全局特征。在输入图像后，在灰度域中对原图进行标准卷积Conv3×3进行数据预处理，特征通道缩放到24维，与下支路24维激活特征图相匹配。然后将此24维特征矩阵输入到孪生网络进行全局特征学习，在共享参数训练策略下，与步骤S2中生成的局部显著性特征图同步进行特征融合学习，得到更加完整的显著性地图。结构上，采用与步骤S2相同的网络EfficientNetV2-M，本实施例中，特征图的宽和高缩放为输入特征图的1/32，通道设定为224。

特征图以拼接方式融合后，输入到上采样模块进行解码。

上采样模块：

为了恢复原始图像的分辨率，对双支路孪生网络拼接融合的特征图进行一系列的卷积和上采样层处理。以往的显著性预测通常采用双线性插值的方法来恢复图像分辨率，但通常会引入伪影或棋盘效应。本方案采用四个上采样卷积块作为解码器架构。所有卷积层都使用了ReLU非线性激活函数，最后添加了一个具有Sigmoid非线性激活函数的1×1卷积层来生成显著性映射，此设计方案有效削弱了棋盘效应。

解码器的权值是随机初始化的。网络的最终输出是与输入图像相同大小的显著图。除了增加整个解码器中的视觉特征的分辨率外，每个卷积块中的通道数量也逐渐减少，最终得到24张特征图。最后的卷积层利用1×1卷积将特征映射变换为连续的注视点分布图，即为模型的预测结果。

在一个实施例中，模型训练阶段采用两个显著性检测评价指标的线性组合作为损失函数，定义为：

Loss(S,G)＝KL(S,G)–CC(S,G)

其中S和G分别为输入图像的显著性预测图和真值图。KL和CC分别是Kullback-Leibler Divergence(KLDiv)系数和Linear Correlation Coefficient(CC)系数，它们通常是被用来评价显著性预测模型的指标。在深度学习显著性模型中，采用反向传播学习显著性结构参数，把显著性模型的评价指标作为反向传播的目标函数可以有效提高模型的预测精度。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多通道激活优化的图像快速显著性检测方法，其特征在于，

基于预设的图像快速显著性检测模型实现图像快速显著性检测；

S4：基于上述步骤S3的学习结果将所述局部显著性特征图和全局显著性特征图进行拼接融合，得到拼接融合的特征图，最后所述上采样模块对所述拼接融合的特征图进行尺度恢复和加权操作，并生成最终的显著性图像。

2.根据权利要求1所述的基于多通道激活优化的图像快速显著性检测方法，其特征在于，

所述EfficientnetV2-M卷积神经网络包括：MBConv模块和Fused-MBConv模块；

所述MBConv模块包括：扩展卷积层Expansion Conv1×1、深度可分离卷积层DepthwiseConv3×3和SE模块；

所述Fused-MBConv模块包括：传统标准卷积层conv3×3和SE模块。

3.根据权利要求2所述的基于多通道激活优化的图像快速显著性检测方法，其特征在于，

所述SE模块用于衡量模型通道之间的相互依赖性，包含：压缩和激励两部分。

4.根据权利要求3所述的基于多通道的图像快速显著性检测模型的检测方法，其特征在于，所述步骤S1中，采用Markov链方法对局部特征图进行激活优化计算。

5.根据权利要求4所述的基于多通道的图像快速显著性检测模型的检测方法，其特征在于，所述步骤S4中，