CN111723912A

CN111723912A - 一种神经网络解耦方法

Info

Publication number: CN111723912A
Application number: CN202010559024.6A
Authority: CN
Inventors: 王振宁; 许金泉; 王溢; 曾尔曼
Original assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Current assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-29

Abstract

本发明公开一种神经网络解耦方法，包括如下步骤：步骤1，对于神经网络的每个卷积层，根据该卷积层中各个滤波器的重要性选取参与计算的滤波器；步骤2，基于互信息损失函数、KL‑散度损失函数和稀疏损失函数对步骤1得到的神经网络进行训练。此种方法对神经网络的结构进行解耦，从而针对不同的输入可以生成不同的计算路径，然后进一步解释神经网络的工作原理，加速神经网络的推理，增强神经网络的鲁棒性。

Description

一种神经网络解耦方法

技术领域

本发明涉及一种可解释的神经网络解耦方法。

背景技术

近年来，随着硬件GPU快速发展及大数据时代的来临，深度学习得到了迅猛发展，已席卷人工智能各个领域，包括语音识别、图像识别、视频跟踪、自然语音处理等在内的图、文、视频领域。深度学习技术突破了传统技术方法，大大提高各领域的识别性能，特别是卷积神经网络(Convolutional Neural Networks,CNNs)强大的自我特征表示能力，使得它广泛应用于在图像识别[1-4]、目标检测[5-7]、图像检索[8]等领域。但由于卷积神经网络的模型高存储和难以解释的弊端，无法直接将模型嵌入到拥有有限存储空间的移动设备端，同时也无法应用在关键任务例如自动驾驶、机器人等上面。因此，理解神经网络，并将卷积神经网络强大的识别性能移植到移动嵌入式设备中(如：手机、机器人、无人机、智能识别眼镜等)，不管在军事方面的抢险救灾、敌情勘探，还是在民事方面的移动智能识别、便民出行等起到重大的促进作用，同时智能移动设备也有利于改善国防防御系统的安全性和威慑力，对现代军事对抗中以最小的代价取得胜利具有重要意义。

然而，神经网络拥有庞大的参数量以及复杂的计算过程，使得其运算原理难以被解释，同时限制了它们被应用在各种嵌入式设备当中。为了解决这类问题，之前的方法[9]通过将网络看成一个整体来解释其输入输出的对应联系，从而进一步解释神经网络。为了进一步解释神经网络内部属性，一些可视化方法[10,11]通过可视化网络内部特征图，基于像素级别的分析来解释神经网络的工作原理。除此之外，还有一部分可解释方法[12,13]基于滤波器级别的分析，通过探索滤波器在网络中扮演的角色，负责检测的区域来解释神经网络的原理。这些方法一般都是通过分析单个滤波器的作用来解释网络，然后后续的部分方法[14,15]发现多个滤波器的组合能够更好地表征语义特征，因此逐渐也有一些方法[16,17]通过多个不同层的滤波器组成的计算路径来解释神经网络的运行原理。

基于以上分析，本发明人针对神经网络可解释性差的缺点，考虑到神经网络本身的特性，提出一种可解释神经网络解耦方法，本案由此产生。

涉及的参考文献：

[1].A.Krizhevsky,I.Sutskever,G E.Hinton.Imagenet classification withdeep convolutional neural networks.Advances in neural information processingsystems.2012:1097-1105.

[2].K.Simonyan,A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556,2014.

[3].C.Szegedy,W.Liu,Y.Jia,et al.Going deeper withconvolutions.Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2015:1-9.

[4].K.He,X.Zhang,S.Ren,et al.Deep residual learning for imagerecognition.Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2016:770-778.

[5].R.Girshick,J.Donahue,T.Darrell,et al.Rich feature hierarchies foraccurate object detection and semantic segmentation.Proceedings of the IEEEconference on computer vision and pattern recognition.2014:580-587.

[6].R.Girshick.Fast r-cnn.Proceedings of the IEEE InternationalConference on Computer Vision.2015:1440-1448.

[7].R.Ren,K.He,R.Faster.Towards real-time object detection withregion proposal networks.Advances in neural information processingsystems.2015:91-99.

[8].Y.Gong,L.Wang,R.Guo,et al.Multi-scale orderless pooling of deepconvolutional activation features.European conference on computervision.2014:392-407.

[9].Aravindh Mahendran and Andrea Vedaldi.Understanding deep imagerepresentations by inverting them.IEEE Conference on Computer Vision andPattern Recognition,2015.

[10].Jason Yosinski,Jeff Clune,Anh Nguyen,Thomas Fuchs,and HodLipson.Understanding neural networks through deep visualization.InternationalConference on Machine Learning Workshop,2015.

[11].Matthew D Zeiler and Rob Fergus.Visualizing and understandingconvolutional networks.European Conference on Computer Vision,2014.

[12].David Bau,Bolei Zhou,Aditya Khosla,Aude Oliva,and AntonioTorralba.Network dissection:Quantifying interpretability of deep visualrepresentations.IEEE Conference on Computer Vision and Pattern Recognition,2017.

[13].Quanshi Zhang,Ying Nian Wu,and Song-Chun Zhu.Interpretableconvolutional neural networks.IEEE Conference on Computer Vision and PatternRecognition,2018.

[14].Pulkit Agrawal,Ross Girshick,and Jitendra Malik.Analyzing theperformance of multilayer neural networks for object recognition.EuropeanConference on Computer Vision,2014.

[15].Jianyu Wang,Zhishuai Zhang,Cihang Xie,Vittal Premachandran,andAlan Yuille.Unsupervised learning of object semantic parts from internalstates of cnns by population encoding.arXiv preprint arXiv:1511.06855,2015.

[16].Yulong Wang,Hang Su,Bo Zhang,and Xiaolin Hu.Interpret neuralnetworks by identifying critical data routing paths.IEEE Conference onComputer Vision and Pattern Recognition,2018.

[17].Sun Yiyou,Ravi Sathya N.,and Singh Vikas.Adaptive activationthresholding:Dynamic routing type behavior for interpretability inconvolutional neural networks.International Conference on Computer Vision,2019.

发明内容

本发明的目的，在于提供一种神经网络解耦方法，对神经网络的结构进行解耦，从而针对不同的输入可以生成不同的计算路径，然后进一步解释神经网络的工作原理，加速神经网络的推理，增强神经网络的鲁棒性。

为了达成上述目的，本发明的解决方案是：

一种神经网络解耦方法，包括如下步骤：

步骤1，对于神经网络的每个卷积层，根据该卷积层中各个滤波器的重要性选取参与计算的滤波器；

步骤2，基于互信息损失函数、KL-散度损失函数和稀疏损失函数对步骤1得到的神经网络进行训练。

上述步骤1中，选取某个卷积层中参与计算的滤波器的方法是，对该卷积层的输入X进行全局池化，得到其对应映射的一维特征s，然后利用两个全连接层计算输入通道之间的关联性，并进行二值化处理以表征各个滤波器的重要性。

上述步骤1中，利用两个全连接层计算输入通道之间的关联性，基于下式计算：

其中，l表示第l层卷积层，W₁、W₂表示两个全连接层之间的权重；(*)₊表示非线性变换层。

上述步骤1中，采用SemHash进行二值化处理，训练过程是：首先添加一个随机噪声α：

其中，α采用sigmoid函数；

计算如下向量：

其中，偏移sigmoid公式是：

σ'(x)＝max(0,min(1,1.2σ(x)-0.1))

在训练中，对一半的样本采用v₁，对另外一半的样本采用v₂，然后反向计算梯度时，均采用v₁的梯度来进行计算。

上述步骤1中，在测试时，使用sign来处理输入，得到二值数值：

上述步骤2中，训练过程中的总体损失函数如下：

其中，

表示神经网络本身的损失函数；

表示互信息损失函数，λ_m表示互信息损失函数的权重；

表示KL-散度损失函数，λ_k表示KL-散度损失函数的权重；

表示稀疏损失函数，λ_s表示稀疏损失函数的权重。

上述互信息损失函数的表达式如下：

其中，z^l表示结构编码，A_X表示图片X的属性，在分类网络中指图片的类别；L指神经网络总层数，

指将z^l转换为与类别数量相同维度的一层全连接层。

上述KL-散度损失函数的表达式如下：

其中，y^l表示经过全局池化的当前卷积层的输出，z^l表示结构编码，KL代表KL散度，L表示神经网络总层数。

上述稀疏损失函数的表达式如下：

其中，R表示压缩率，N^l表示当前卷积层的滤波器数量，z^l表示结构编码，L表示神经网络总层数。

现如今，有一大部分的深度模型不再在服务端进行运算，而转移到用户的移动端进行运算，从而减少服务端的计算负载。然而现有的智能手机，大多使用CPU进行深度学习模型的运算，而CPU相对于GPU而言，其计算效率较低，因此使得大量的深度学习模型无法迁移到移动端进行运算。该发明生成的网络模型，在CPU上能够在保持较高精度的情况下拥有较好的加速效果。因此，本发明可以将原本无法在手机端上进行运算的较大的深度网络进行加速，从而达到能够在移动端进行运算的效果。从而减少服务端的计算负载，同时最大化利用移动端的计算能力。

采用上述方案后，本发明具有以下突出优点：

(1)本发明提出了一个可以直接求导的轻量结构控制模块，可以用于决定每一层使用哪些滤波器进行计算，可以直接参与网络训练，只有非常少的计算量，不会过大增加原始网络的计算负担；

(2)本发明训练出来的解耦神经网络拥有与原始网络相近的精度，但是能够用来解释神经网络的工作原理，同时能够用于建立滤波器和语义特征之间的联系；

(3)本发明训练出来的解耦神经网络能够进一步用于加速网络的推理和增强网络的鲁棒性，同时本发明可以用于当前最流行的各类深度神经网络上。

附图说明

图1是本发明的框架图；

其中，semhash代表的是下文介绍的二值化处理算法；

图2是解释滤波器和语义特征之间关联的分析图，可以看出不同的语义特征实际上是和多个滤波器有关联的；

其中，Layer代表对应的卷积层，Filter代表对应的滤波器；每一行代表一种交通工具，分别是汽车，自行车，摩托车；

图3是基于解耦后的神经网络进行的分类树生成；

其中，Layer代表对应的卷积层；最后一列代表了八种不同类别的图片名称，分别是布鲁塞尔格林芬犬，斗牛獒，虎猫，长鼻猴，山羊，纸箱，钱包，消防车；其中，Layer代表对应的卷积层，Filter代表对应的滤波器；Activated代表的是激活的滤波器，Inactivated代表的是未被激活的滤波器；

图4是用于网络鲁棒性分析。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本发明提供一种神经网络解耦方法，包括如下步骤：

步骤1，在神经网络的每个卷积层均构建结构控制模块，从而选择参与计算的滤波器；

对于计算路径的建模，首先需要能够基于输入自动的选取需要参与计算的滤波器，因此核心问题是，需要构建一个结构控制模块G，其输入是该层的输入X，输出是需要选择哪些滤波器参与计算Z，亦可以称为结构编码。对于结构控制模块G，首先将输入X做全局池化，得到其对应映射的一维特征s，然后基于SE-Block的特点，设计了两层网络来计算输入通道之间的关联性，并输出对应滤波器的重要性。

所述结构编码模块的网络结构如下所示：

其中，l表示第l层卷积层，W₁、W₂表示两个全连接层之间的权重；(*)₊表示非线性变换层，如ReLu层。

得到对于当前输入，每个滤波器的重要性后，需要将其二值化以代表每个滤波器是否需要参与到计算当中。然而对于普通的二值处理方法sign来说，它无法进行求导，即无法进行反向传播。因此，这里选用了SemHash来进行二值化处理。

对于semHash来说，在训练的时候，首先在输入上添加一个随机噪声α：

其中，α采用sigmoid函数。

首先计算两个向量：

其中，偏移sigmoid公式是：

σ'(x)＝max(0,min(1,1.2σ(x)-0.1)) (4)

其中，向量v₁可以用来求梯度，但是它不是二值数值；向量v₂是二值数值，但是它无法求梯度。为了综合两者的特点，在训练中我们对一半的样本采用v₁，对另外一半的样本采用v₂，然后反向计算梯度时，均采用v₁的梯度来进行计算。

在测试的时候，就可以直接使用sign来处理输入，得到二值数值。

步骤2，基于以下三种损失函数对步骤1得到的神经网络进行训练，从而解耦神经网络，所述三种损失函数包括互信息损失函数、KL-散度损失函数和稀疏损失函数，下面分别介绍：

1)互信息损失函数

对于不同的输入，本发明期望网络能够生成不同的计算路径，从而基于这些路径对神经网络进行解释。因此采用了互信息来衡量这种关系，当输入和结构编码的互信息增大时，计算路径就会变得和输入相关，从而解耦神经网络的结构。因此，通过建模两者的互信息：

其中，z^l代表结构编码，a代表图片属性，H(*)代表输入变量的信息熵。下述公式中的参数含义均与公式(6)相同。

由于KL函数的特点：

可以得到如下互信息的下界：

因此，互信息损失函数的表达式如下：

2)KL-散度损失函数

在增大输入和结构编码的互信息的同时，为了能够解释神经网络各滤波器的作用，期望滤波器也能基于不同的输入有着不同的响应，最好是只对一类特定的图像有响应，因此本发明通过在训练过程中限制滤波器的输出，使得训练出来的滤波器只会对一类图像有响应。具体的损失函数表达式如下：

其中，y^l代表的是经过全局池化的当前卷积层的输出。

3)稀疏损失函数

为了能够让生成的计算路径比较“细”，即使用较少的滤波器，这样可以使得网络的可解释性更强，因此本发明使用了稀疏损失函数：

其中R代表的是压缩率，N^l代表的是当前卷积层的滤波器数量，两者相乘即代表希望有多少的滤波器不参与当前输入的计算中。

最后，训练过程中的总体损失函数如下：

其中，

代表的是网络本身的损失函数，在分类网络中，一般采用交叉熵损失函数，而在其他任务中则替换成该任务的损失函数，例如语义分割使用MSE损失函数。对于其他三个损失函数的权重值，对于不同网络通过调参可以选择最合适的权重值，参看如下表格：

表1损失函数权重设置示例

网络	λ<sub>m</sub>	λ<sub>k</sub>	λ<sub>s</sub>
				VGG-16	0.01	1	0.01
ResNet-18	0.005	1	0.01

具体实验结果如下：

本发明实验在VGG-16和ResNet-18上进行验证其压缩能力，采用了ImageNet数据集。

表2 VGG-16的压缩效果比较

表3 ResNet-18的压缩效果比较

其中，定义如下：

Top1-Acc定义为模型输出最大概率的类别为正确标签时，模型分类正确。

Top5-Acc定义为模型输出概率中排名前五所对应类别出现正确标签时，模型分类正确。

FLOPs Reduction定义为压缩模型与原始模型的每秒浮点运算次数比。

CPU Time Reduction定义为压缩模型与原始模型的CPU运算时间比。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种神经网络解耦方法，其特征在于包括如下步骤：

2.如权利要求1所述的一种神经网络解耦方法，其特征在于：所述步骤1中，选取某个卷积层中参与计算的滤波器的方法是，对该卷积层的输入X进行全局池化，得到其对应映射的一维特征s，然后利用两个全连接层计算输入通道之间的关联性，并进行二值化处理以表征各个滤波器的重要性。

3.如权利要求2所述的一种神经网络解耦方法，其特征在于：所述步骤1中，利用两个全连接层计算输入通道之间的关联性，基于下式计算：

4.如权利要求3所述的一种神经网络解耦方法，其特征在于：所述步骤1中，采用SemHash进行二值化处理，训练过程是：首先添加一个随机噪声α：

其中，α采用sigmoid函数；

计算如下向量：

其中，偏移sigmoid公式是：

σ'(x)＝max(0,min(1,1.2σ(x)-0.1))

5.如权利要求3所述的一种神经网络解耦方法，其特征在于：所述步骤1中，在测试时，使用sign来处理输入，得到二值数值：

6.如权利要求1所述的一种神经网络解耦方法，其特征在于：所述步骤2中，训练过程中的总体损失函数如下：

其中，

表示神经网络本身的损失函数；

表示互信息损失函数，λ_m表示互信息损失函数的权重；

表示KL-散度损失函数，λ_k表示KL-散度损失函数的权重；

表示稀疏损失函数，λ_s表示稀疏损失函数的权重。

7.如权利要求6所述的一种神经网络解耦方法，其特征在于：所述互信息损失函数的表达式如下：

其中，z^l表示结构编码，A_X表示图片X的属性，L指神经网络总层数，

指将z^l转换为与类别数量相同维度的一层全连接层。

8.如权利要求6所述的一种神经网络解耦方法，其特征在于：所述KL-散度损失函数的表达式如下：

9.如权利要求6所述的一种神经网络解耦方法，其特征在于：所述稀疏损失函数的表达式如下：