CN111027634B

CN111027634B - 一种基于类激活映射图引导的正则化方法及系统

Info

Publication number: CN111027634B
Application number: CN201911294804.6A
Authority: CN
Inventors: 林倞; 王弘焌; 王广润; 李冠彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-04-18
Anticipated expiration: 2039-12-16
Also published as: CN111027634A

Abstract

本发明公开了一种基于类激活映射图引导的正则化方法及系统，该方法包括：S1，利用深度神经网络的全局池化层及全连接层参数产生基于标签类别的通道权重因子及类激活映射图；S2，将生成的通道权重因子及类激活映射图分别根据其对神经网络中各层特征图的所有通道及空间区域的贡献度排序；S3，根据步骤S2得到特征通道集以及特征点集，进而得到基于通道权重因子和类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾；S4，生成基于伯努利分布的随机种子二元图M⁽³⁾，与M⁽¹⁾和M⁽²⁾进行逻辑运算得到最终的二元掩模图M，并由此获得正则化掩模图M^l；S5，多次迭代式地进行S1‑S4的训练过程，完成正则化的优化过程。

Description

一种基于类激活映射图引导的正则化方法及系统

技术领域

本发明涉及基于深度学习的计算机视觉领域，特别是涉及一种基于类激活映射图引导的正则化方法及系统。

背景技术

近年来，随着海量数据和深度学习的日益发展，各种视觉识别任务均取得了长足的进步。然而，虽然深层神经网络带来了优越的性能，但由于缺乏可解释性，深层神经网络的预测结果常常难以让人信服，同时也留下了潜在的安全隐患。以自动驾驶为例，一个泛化能力差的自动驾驶系统，可能会引发重大交通安全事故并造成人身财产损失。所以，如何使得神经网络具有强大表征能力并建立一个更为鲁棒的系统变得至关重要。

正则化方法是深度学习领域为应对该现象最为常用的手段。早年的正则化方法基本都是非结构化的，这类方法一般通过在训练阶段随机将输入元素设置为零，同时使其在测试期间不起作用。该类正则化在神经网络中通常用于全连接层，大多数非结构化方法关注的是基于贝叶斯学习框架的变分解释优化[6，7，17，20，25]或从先验分布估计超参数。如Yarin Gal等人在2016年的研究工作“Dropout as a bayesian approximation:Representing model uncertainty in deep learning(ICLR)”。然而，该类方法没有考虑到图像的空间结构，所以难以推广到卷积层中使用。

而近年来，许多研究人员逐步关注图像本身的空间联系与特征，而由此开发的结构化正则化方法大大改善了神经网络的鲁棒性。如Golnaz等人于2018年的研究工作“DropBlock:A regularization method for convolutional networks.(NIPS)”以及Barret等人于同年发表的研究工作“Learning transferable architectures forscalable image recognition(CVPR)”

现有的大多数深度模型的成功源于它们正确利用了图片中区域之间特定的结构关系或是对像素点间的联系有效建模。然而，虽然这些方法确实从图像本身出发，考虑了图像本身带有的强烈实际含义，但这些方法并没有从真正意义上达到鲁棒性和可解释性。实际上，鲁棒性的基本含义是从神经网络中所提取的特征可以用以表征更合理的高层语义或详细的空间信息，而不仅仅是简单地识别最能区别这张图片与其他图片不同的某个部分信息。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于类激活映射图引导的正则化方法及系统，通过有效地将类激活映射图融合入正则化过程中，在迭代优化过程中可自适应地选择当前训练过程中需正则化的特征区域及通道，从而强制神经网络学习图片中更多的语义知识，最终的性能及效率超过了所有现有的正则化方法。

为达上述及其它目的，本发明提出一种基于类激活映射图引导的正则化方法，包括如下步骤：

步骤S1，利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′；

步骤S2，将步骤S1产生的基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′，通过生成的通道权重因子及类激活映射图分别对所述深度神经网络中各层不同分辨率的特征图的所有通道及空间区域的贡献度从大到小进行排序；

步骤S3，从所有通道中抽取前n个重要的特征通道，得到特征通道集

并对类激活映射图的所有空间区域也选定前n′个重要的特征点，得到特征点集

并根据上述集合分别得到两张基于通道权重因子和基于类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾；

步骤S4，根据预指定的保留率参数γ，生成基于伯努利分布的随机种子二元图M⁽³⁾，对其自身进行逻辑运算后，与步骤S3中生成的M⁽¹⁾和M⁽²⁾一同进行逻辑运算，得到最终的二元掩模图M，最后对二元掩模图M做归一化计算，得到当前迭代时刻及对应网络层l的正则化掩模图M^l；

步骤S5，多次迭代式地进行步骤S1-S4的训练过程，最终完成正则化的优化过程。

优选地，步骤S1进一步包括：

步骤S100，选择含有图像类别标注的数据集作为模型监督学习的训练数据；

步骤S101，利用所述深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′。

优选地，对于浅层网络，其类激活映射图J^k′的生成公式需引入一个对特征通道压缩分组的超参数，对其生成公式进行泛化。

优选地，于步骤S101中，根据该轮迭代神经网络的全局池化层将最顶层特征图的长宽进行压缩，得到通道权重因子α^k′，再将其与顶层特征图沿通道维度一一做乘法运算，得到类激活映射图J^k′。

优选地，于步骤S3中，置一存在于上述两个集合的所有点，同时置零不存在于上述两个集合的所有点，分别得到两张基于通道权重因子和基于类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾。

优选地，步骤S3进一步包括：

步骤S300，基于标签类别k′的通道权重因子向量α^k′，按贡献度从大到小进行排序，继而从所有通道中抽取前n个重要的特征通道，得到特征通道集

置一存在于上述集合的所有通道，同时置零不存在于上述集合的所有通道，并将其重塑为大小为W*H的二元掩模图M⁽¹⁾；

步骤S301，对类激活映射图的所有空间区域也选定前n′个重要的特征点，得到特征点集

置一存在于上述集合的所有点，同时置零不存在于上述集合的所有点，得到基于类激活映射图的二元掩模图M⁽²⁾。

优选地，以步骤S1产生的通道权重因子α^k′向量作为初始特征通道集

类激活映射图作为初始特征点集

通过迭代地方式从所有通道中抽取前n个重要的特征通道，得到特征通道集

同理，对类激活映射图的所有空间区域也选定前n′个重要的特征点，得到特征点集

优选地，步骤S4进一步包括：

步骤S400，根据预指定的保留率参数γ，生成基于伯努利分布的随机种子二元图ψ，并对其自身做逻辑非运算后得到二元掩模图M⁽³⁾；

步骤S401，将得到的二元掩模图M⁽³⁾与步骤S3中生成的二元掩模图M⁽¹⁾和M⁽²⁾一同做逻辑与运算，得到最终的掩模图M；

步骤S402，遍历整张二元掩模图M，将落在集合

中的所有点置零，其中u为M中所有值为1的点，r为用于控制正则化区域的超参数，m为所有存在于M中的点，||·||₁为街区距离；

步骤S403，对所述二元掩模图M做归一化计算，得到的即为当前迭代时刻及对应网络层l的正则化掩模图M^l。

优选地，于步骤S5中，根据每一轮经迭代训练后的参数，更新所述类激活映射图J^k′，将其作为下一轮正则化迭代的输入，多次迭代式地进行步骤S1-S4的训练过程。

为达到上述目的，本发明还提供一种基于类激活映射图引导的正则化系统，包括：

类激活映射图生成单元，用于利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′；

显著通道抽取单元，用于基于标签类别k′的通道权重因子向量α^k′，按贡献度从大到小进行排序，继而从所有通道中抽取前n个重要的特征通道，得到特征通道集

置一存在于上述集合的所有点，同时置零不存在于上述集合的所有点，重塑为大小为W*H的二元掩模图M⁽¹⁾；

空间感知定域单元，用于对类激活映射图的所有空间区域也选定前n′个重要的特征点，得到特征点集

置一存在于上述集合的所有点，同时置零不存在于上述集合的所有点，得到基于类激活映射图的二元掩模图M⁽²⁾；

随机种子生成单元，用于根据预指定的保留率参数γ，生成基于伯努利分布的随机种子二元图M⁽³⁾，对其自身做逻辑运算；

掩模整合单元，用于将所述随机种子生成单元生成的二元掩模图M⁽³⁾与所述显著通道抽取单元生成的二元掩模图M⁽¹⁾和所述空间感知定域单元M⁽²⁾生成的二元掩模图M⁽²⁾一同做逻辑运算，得到最终的掩模图M，并对M做归一化计算，得到当前迭代时刻及对应网络层l的正则化掩模图M^l；

迭代训练单元，用于多次迭代式地进行所述类激活映射图生成单元，显著通道抽取单元、空间感知定域单元、随机种子生成单元以及掩模整合单元，最终完成正则化的优化过程。

与现有技术相比，本发明一种基于类激活映射图引导的正则化方法及系统，通过利用深度神经网络的全局池化层及全连接层参数产生基于标签类别的通道权重因子及类激活映射图信息，利用生成的通道权重因子及类激活映射图分别对深度神经网络不同分辨率的特征图中所有通道及空间区域的贡献度进行排序后动态选择，然后从所有通道中抽取前若干个重要的特征通道下的类激活映射的空间区域后，置零所有次重要区域以生成基于类激活映射的掩模图，接着将其与基于预指定的保留率参数生成的随机种子二元图做逻辑与运算，得到的即为当前迭代时刻及对应网络层的正则化掩模图，通过反复训练迭代完成正则化的整个优化过程，本发明有效地将类激活映射图融合入正则化过程中，在迭代优化过程中可自适应地选择当前训练过程中需正则化的特征区域及通道，从而强制神经网络学习图片中更多的语义知识，最终的性能及效率超过了所有现有的正则化方法。

附图说明

图1为本发明一种基于类激活映射图引导的正则化方法的步骤流程图；

图2为本发明具体实施例中利用通道权重因子和类激活映射图引导特征区域及通道正则化的示意图；

图3为本发明一种基于类激活映射图引导的正则化系统的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于类激活映射图引导的正则化方法的步骤流程图。如图1所示，本发明一种基于类激活映射图引导的正则化方法，应用于各类图像分类与检测任务，以使得神经网络分类时能捕捉更多的语义信息，包括如下步骤：

步骤S1，利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′。

对于类激活映射图，参考Bolei Zhou等人的论文“Learning deep features fordiscriminative localization.”(In Proceedings of the IEEE conference oncomputer vision and pattern recognition.2921–2929,2016)。类激活映射图能够明确识别卷积神经网络在分类预测中的作用，将由深层模型学习的内部表示可视化，突出由神经网络检测到的可辨识区域。

在本发明具体实施例中，于步骤S1中，利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k及类激活映射图J^k′。具体地，步骤S1进一步包括如下步骤：

步骤S101，利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′(为从大小为C′×K的全连接层矩阵中抽取对应标签类别为k′的行向量)及类激活映射图J^k′，即，根据该轮迭代神经网络的全局池化层将最顶层特征图的长宽进行压缩，得到通道权重因子α^k′，再将其与顶层特征图沿通道维度一一做乘法运算，得到类激活映射图J^k′。具体地，J^k′由以下计算公式可得到:

其中，k′为标签所代表类别，Z为神经网络最顶层经全局池化层处理后的输出，C′为其总通道数。即

而对于浅层网络，其类激活映射图J^k′的生成公式需引入一个对特征通道压缩分组的超参数，对其生成公式进行泛化，该泛化形式的公式化表述如下：

其中，

为映射函数，C″为压缩分组的超参数，X^l为第l层的输入，y为真实标签，

为取定通道c，并沿特征图的h和w方向取遍该特征图。

步骤S2，将步骤S1产生的基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′，根据生成的通道权重因子及类激活映射图分别对神经网络中各层不同分辨率的特征图的所有通道及空间区域的贡献度从大到小进行排序。

也就是说，以步骤S1产生的基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′，分别对深度神经网络中各层不同分辨率的特征图的所有通道及空间区域的贡献度从大到小进行排序，迭代地选出前n个重要的特征通道及前n′个重要的特征点。

图2为本发明具体实施例中通道权重因子及类激活映射图引导正则化过程的示意图，每个单元代表由(c,h,w)索引的特征张量。橙色单元将在该轮训练中被正则化抑制，而黑色单元则不受影响。本发明之正则化方法以类激活映射图及其通道权重因子(粗体为贡献度较大的权重)为指导，有选择地抑制最重要前若干个通道中的若干显著区域。具体地，基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′，通过生成的通道权重因子及类激活映射图分别对神经网络中各层不同分辨率的特征图的所有通道及空间区域的贡献度从大到小进行排序。

置一存在于上述集合的所有点，同时置零不存在于上述两个集合的所有点，分别得到两张基于通道权重因子和基于类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾。在本发明具体实施例中，以步骤S1产生的通道权重因子α^k′向量作为初始特征通道集

类激活映射图作为初始特征点集

置零不存在于上述两个集合的所有点，置一存在于上述集合的所有点，分别得到两张基于通道权重因子和基于类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾。

具体地，步骤S3进一步包括：

置一存在于上述集合的所有通道，同时置零不存在于上述集合的所有通道，并将其重塑为大小为W*H的二元掩模图M⁽¹⁾，具体过程如以下公式所述：

其中，c为遍历所有特征通道中的任一维度，inf{·}为集合的最大下界。

置一存在于上述集合的所有点，同时置零不存在于上述集合的所有点，得到基于类激活映射图的二元掩模图M⁽²⁾，具体过程如以下公式所述：

其中，h,w为遍历类激活映射图空间区域中的任意一个点。

步骤S4，根据预指定的保留率参数γ，生成一张整体基于伯努利分布的随机种子二元图M⁽³⁾，对其自身做逻辑非运算后，与步骤S3中生成的M⁽¹⁾和M⁽²⁾一同做逻辑与运算，得到最终的掩模图M，最后对掩模图M做归一化计算，得到的即为当前迭代时刻及对应网络层l的正则化掩模图M^l。

具体地，步骤S4进一步包括：

步骤S400，根据预指定的保留率参数γ，生成一张整体基于伯努利分布的随机种子二元图ψ，并对其自身做逻辑非运算后得到二元掩模图M⁽³⁾，上述过程可简化表述为下式：

ψ～Bernoulli(γ)

其中，Bernoulli(·)为伯努利分布。

步骤S401，将得到的二元掩模图M⁽³⁾与步骤S3中生成的M⁽¹⁾和M⁽²⁾一同做逻辑与运算，得到最终的掩模图M。上述过程可简化为下式：

步骤S402，遍历整张二元掩模图M，将落在集合

中的所有点置零，其中u为M中所有值为1的点，r为用于控制正则化区域的超参数，m为所有存在于M中的点，||·||₁为街区距离。

步骤S403，对M做归一化计算，得到的即为当前迭代时刻及对应网络层l的正则化掩模图M^l，上述过程可简化为下式为：

其中，C,H,W分别为M的通道个数、长度以及宽度。

步骤S5，多次迭代式地进行步骤S1-S4的训练过程，最终完成正则化的优化过程。具体地，根据每一轮经迭代训练后的参数，更新类激活映射图J^k′，将作为下一轮正则化迭代的输入，多次迭代式地进行步骤S1-S4的训练过程，最终完成正则化的优化过程。

图3为本发明一种基于类激活映射图引导的正则化系统的系统架构图。如图3所示，本发明一种基于类激活映射图引导的正则化系统，其包括：

类激活映射图生成单元501，用于利用深度神经网络的全局池化层及全连接层参数产生基于标签类别k′的通道权重因子α^k′及类激活映射图J^k′；

显著通道抽取单元502，基于标签类别k′的通道权重因子向量α^k′，按贡献度从大到小进行排序，继而从所有通道中抽取前n个重要的特征通道，得到特征通道集

并置一存在于上述集合的所有点，同时置零不存在于上述集合的所有点，重塑为大小为W*H的二元掩模图M⁽¹⁾；

空间感知定域单元503，对类激活映射图的所有空间区域也选定前n′个重要的特征点，得到特征点集

随机种子生成单元504，根据预指定的保留率参数γ，生成一张整体基于伯努利分布的随机种子二元掩模图M⁽³⁾，并对其自身做逻辑非运算；

掩模整合单元505，用于将随机种子生成单元504生成的二元掩模图M⁽³⁾与所述显著通道抽取单元生成的二元掩模图M⁽¹⁾和所述空间感知定域单元M⁽²⁾生成的二元掩模图M⁽²⁾一同做逻辑与运算，得到最终的掩模图M，并对M做归一化计算，得到的即为当前迭代时刻及对应网络层l的正则化掩模图M^l；

迭代训练单元506，用于多次迭代式地进行类激活映射图生成单元501，显著通道抽取单元502、空间感知定域单元503、随机种子生成单元504以及掩模整合单元505的处理，最终完成正则化的优化过程。

较佳地，迭代训练单元506于每个训练样本迭代完成后，根据更新后的全连接层参数，重新生成通道权重因子及类激活映射图。

综上所述，本发明一种基于类激活映射图引导的正则化方法及系统，通过利用深度神经网络的全局池化层及全连接层参数产生基于标签类别的通道权重因子及类激活映射图信息，利用生成的通道权重因子及类激活映射图分别对深度神经网络不同分辨率的特征图中所有通道及空间区域的贡献度进行排序后动态选择，然后从所有通道中抽取前若干个重要的特征通道下的类激活映射的空间区域后，置零所有次重要区域以生成基于类激活映射的掩模图，接着将其与基于预指定的保留率参数生成的随机种子二元图做逻辑与运算，得到的即为当前迭代时刻及对应网络层的正则化掩模图，通过反复训练迭代完成正则化的整个优化过程，本发明有效地将类激活映射图融合入正则化过程中，在迭代优化过程中可自适应地选择当前训练过程中需正则化的特征区域及通道，从而强制神经网络学习图片中更多的语义知识，最终的性能及效率超过了所有现有的正则化方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于类激活映射图引导的正则化方法，包括如下步骤：

步骤S5，多次迭代式地进行步骤S1-S4的训练过程，最终完成正则化的优化过程；

于步骤S3中，置一存在于上述两个集合的所有点，同时置零不存在于上述两个集合的所有点，分别得到两张基于通道权重因子和基于类激活映射图的二元掩模图M⁽¹⁾和M⁽²⁾；

步骤S3进一步包括：

步骤S4进一步包括：

步骤S402，遍历整张二元掩模图M，将落在集合

步骤S403，对所述二元掩模图M做归一化计算，得到的即为当前迭代时刻及对应网络层l的正则化掩模图M^l；

于步骤S5中，根据每一轮经迭代训练后的参数，更新所述类激活映射图J^k′，将其作为下一轮正则化迭代的输入，多次迭代式地进行步骤S1-S4的训练过程。

2.如权利要求1所述的一种基于类激活映射图引导的正则化方法，其特征在于，步骤S1进一步包括：

3.如权利要求2所述的一种基于类激活映射图引导的正则化方法，其特征在于：对于浅层网络，其类激活映射图J^k′的生成公式需引入一个对特征通道压缩分组的超参数，对其生成公式进行泛化。

4.如权利要求3所述的一种基于类激活映射图引导的正则化方法，其特征在于：于步骤S101中，根据该轮迭代神经网络的全局池化层将最顶层特征图的长宽进行压缩，得到通道权重因子α^k′，再将其与顶层特征图沿通道维度一一做乘法运算，得到类激活映射图J^k′。

5.如权利要求1所述的一种基于类激活映射图引导的正则化方法，其特征在于：以步骤S1产生的通道权重因子α^k′向量作为初始特征通道集

类激活映射图作为初始特征点集