CN109858611B

CN109858611B - 基于通道注意力机制的神经网络压缩方法及相关设备

Info

Publication number: CN109858611B
Application number: CN201910026547.1A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2024-03-26
Anticipated expiration: 2039-01-11
Also published as: CN109858611A

Abstract

本申请涉及人工智能领域，本申请公开了一种基于通道注意力机制的神经网络压缩方法及相关设备，所述方法包括：构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道；对所述神经网络模型进行训练；在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。本申请通过在神经网络模型的全连接层前加入通道注意力层，并计算通道权重，将权重低的通道进行删减，实现对神经网络的压缩。

Description

基于通道注意力机制的神经网络压缩方法及相关设备

技术领域

本申请涉及人工智能领域，特别涉及一种基于通道注意力机制的神经网络压缩方法及相关设备。

背景技术

卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成，即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层)，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。全连接层(fullyconnectedlayers，FC)在整个卷积神经网络中起到“分类器”的作用，目前由于全连接层参数冗余(仅全连接层参数就可占整个网络参数80％左右)，运算时间耗时很久，且大量占用资源，效率低下。因此有必要对卷积神经网络进行压缩。

发明内容

本申请的目的在于针对现有技术的不足，提供一种基于通道注意力机制的神经网络压缩方法及相关设备，通过在神经网络模型的全连接层前加入通道注意力层，并计算通道权重，将权重低的通道进行删减，实现对神经网络的压缩。

为达到上述目的，本申请的技术方案提供一种基于通道注意力机制的神经网络压缩方法及相关设备。

本申请公开了一种基于通道注意力机制的神经网络压缩方法，包括以下步骤：

构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道；

对所述神经网络模型进行训练；

在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。

较佳地，所述构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道，包括：

构建神经网络模型，在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层，并在所述通道注意力层中设置softmax函数，所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应；

根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。

较佳地，所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重，包括：

获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量；

计算上一时刻的隐层输出向量与所述输入信息之间的相似度，将所述相似度输入所述softmax函数并进行归一化处理，获得所述通道注意力层中的每个通道的通道权重。

较佳地，所述对所述神经网络模型进行训练，包括：

对所述神经网络模型根据公式：

进行训练，获得所述神经网络模型的参数W_ij和θ，其中，Y_i表示神经元i的输出，函数f表示激活函数，W_ij表示神经元j到神经元i的连接权值，θ表示偏置，X_j表示神经元j的输入。

较佳地，所述对所述神经网络模型进行训练，包括：

当在对所述神经网络模型进行训练时，检测所述神经网络模型的交叉熵损失函数的收敛状态；

当检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时，启动对所述神经网络模型中的通道的删减。

较佳地，所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减，包括：

预设通道的通道权重阈值；

在对所述神经网络模型的训练过程中将所述每个通道的通道权重与所述通道权重阈值进行比较，并将低于所述通道权重阈值的通道进行删减。

较佳地，所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后，包括：

预设所述神经网络模型的最低通道数；

当对所述神经网络模型中的通道进行删减时，将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较，当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时，停止删减。

本申请还公开了一种基于通道注意力机制的神经网络压缩装置，所述装置包括：

模型构建模块：设置为构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道；

训练模块：设置为对所述神经网络模型进行训练；

通道删减模块：设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。

本申请还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述所述神经网络压缩方法的步骤。

本申请还公开了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述神经网络压缩方法的步骤。

本申请的有益效果是：本申请通过在神经网络模型的全连接层前加入通道注意力层，并计算通道权重，将权重低的通道进行删减，实现对神经网络的压缩。

附图说明

图1为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图2为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图3为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图4为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图5为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图6为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图；

图7为本申请实施例的一种基于通道注意力机制的神经网络压缩装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程如图1所示，本实施例包括以下步骤：

步骤s101，构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道；

具体的，所述神经网络模型可包含输入层、卷积层、激活函数、池化层和全连接层，即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层)，所述神经网络包含多个通道，所述通道与全连接层相连，所述的通道输出作为全连接层的输入。

具体的，所述通道注意力机制可通过建立通道注意力层实现，所述通道注意力层可建立在神经网络模型中的全连接层与卷积层之间，所述通道注意力层可包含多个通道，所述通道注意力层的每个通道可与所述神经网络中的每个通道一一对应，即通道注意力层的每个通道与经过卷积运算后的每个通道一一对应，并在通道注意力层中设置softmax函数，所述softmax函数与通道注意力层的每个通道相连，用于为通道注意力层的每个通道分配权重。所述经过softmax函数计算后的权重数值在0-1之间，且所有通道的权重之和为1，计算公式如下：

其中，i表示第i个通道，j表示通道总数，S_i为第i个通道的通道权重，V表示的是一个数组。

步骤s102，对所述神经网络模型进行训练；

具体的，当神经网络模型建立完毕后，可对所述神经网络模型中的参数进行训练，并观察所述神经网络模型的损失函数，以文本分类模型TextCNN为例，所述文本分类模型的损失函数为交叉熵，并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化。所述的训练可分为多轮进行，如第一轮是对100篇文本进行训练，第二轮是对150篇文本进行训练，第三轮是对120篇文本进行训练，每一轮的训练量尽量接近，不要相差过大，便于参数调整；在对第一轮的100篇文本进行训练时，可将这100篇文本分成10份，每份10篇文档，也可将这100篇文本分成20份，每份5篇文本，并分别对每一份文本输入神经网络模型进行训练，在对每一份文本进行训练时，都可对神经网络模型的参数进行调整，当对第一轮的100篇文本都输入神经网络模型训练过后，第一轮的训练就结束了，这时可以获取到调整的神经网络的参数及满意的损失函数输出。

步骤s103，在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。

具体的，当对神经网络模型进行训练过后，可以检测所述神经网络模型的状态，如检测所述神经网络模型的损失函数的状态，如果所述神经网络模型的交叉熵损失函数的收敛状态为收敛时，说明本轮的训练结果已经趋于稳定，这时可以启动对神经网络模型的通道的删减。

具体的，所述的删减可以通过对每个通道的通道权重的判断完成，由于权重较小的通道价值比较低，因此可对通道权重值垫底的几个通道进行删减，例如，当所述神经网络模型中的通道的通道权重小于预设的值时，可以对所述通道进行删减。

本实施例中，通过在神经网络模型的全连接层前加入通道注意力层，并计算通道权重，将权重低的通道进行删减，实现对神经网络的压缩。

图2为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图，如图所示，所述步骤s101，构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道，包括：

步骤s201，构建神经网络模型，在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层，并在所述通道注意力层中设置softmax函数，所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应；

具体的，所述通道注意力机制可在所述神经网络模型中通过建立通道注意力层实现，所述通道注意力层可建立在神经网络模型中的全连接层与卷积层之间，所述通道注意力层可包含多个通道，所述通道注意力层的每个通道可与所述神经网络中的每个通道一一对应，即通道注意力层的每个通道与经过卷积运算后的每个通道一一对应，并在通道注意力层中设置softmax函数，所述softmax函数与通道注意力层的每个通道相连，用于为通道注意力层的每个通道分配权重。

步骤s202，根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。

具体的，在经过神经网络模型中卷积层的卷积运算后的输出需经过softmax函数计算分配每条通道的权重，且在经过softmax函数之前还可学习各通道隐含特征及重要性和相关性。所述经过softmax函数计算后的通道权重数值在0-1之间，且所有通道的权重之和为1，计算公式如下：

本实施例中，通过在神经网络模型中建立注意力机制，可以对每个通道的重要程度进行识别，并进行相应的删减。

图3为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图，如图所示，所述步骤s202，根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重，包括：

步骤s301，获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量；

具体的，当在神经网络模型中获取到输入信息之后，如一段文字或者一副图像之后，在进入全连接层之前，需要经过其它层的处理，如经过卷积层的卷积运算、激活函数进行激活、池化层的池化操作以及通道注意力层的通道权重运算后将所述输入信息转换成当前时刻的隐层输出向量，所述的权重运算可以为加权求和。

步骤s302，计算上一时刻的隐层输出向量与所述输入信息之间的相似度，将所述相似度输入所述softmax函数并进行归一化处理，获得所述通道注意力层中的每个通道的通道权重。

具体的，对于当前时刻来说，上一时刻的隐层输出向量是已知的，当获得上一时刻的隐层输出向量后，可先计算上一时刻的隐层输出向量与所述输入信息之间的相似度即上一时刻的隐层输出向量与输入信息对应的每个通道之间的相似度，所述相似度的计算方法可通过余弦相似度或点积运算方法进行，当计算完上一时刻的隐层输出向量与所述输入信息对应的每个通道之间的相似度之后，再通过softmax函数对所述相似度结果进行归一化处理，就可获得每个通道的权重。

本实施例中，通过softmax函数为神经网络模型的每个通道分配通道权重，可以通过通道权重识别每个通道的重要程度，并进行相应的删减。

在一个实施例中，所述步骤s102，对所述神经网络模型进行训练，包括：

对所述神经网络模型根据公式：

具体的，神经网络中包含大量单元和连接，连接公式为：

其中，Y_i表示神经元i的输出，函数f表示激活函数，W_ij表示神经元j到神经元i的连接权值，θ表示偏置，X_j表示神经元j的输入；而参数W_ij和θ是需要训练获得的，以文本分类模型为例，所述文本分类模型的损失函数为交叉熵，通过adam算法可对所述文本分类模型进行训练优化，更新参数W_ij和θ，实现精度提升。

本实施例中，通过对神经网络模型的训练，获取适合模型的参数，为通道的删减做好预备工作，提高对通道删减的效率。

图4为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图，如图所示，所述步骤s102，对所述神经网络模型进行训练，包括：

步骤s401，当在对所述神经网络模型进行训练时，检测所述神经网络模型的交叉熵损失函数的收敛状态；

具体的，当神经网络模型建立完毕后，对所述神经网络模型中的参数进行训练，并观察所述神经网络模型的损失函数，以文本分类模型TextCNN为例，所述文本分类模型的损失函数为交叉熵，并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化，在对所述神经网络模型的训练过程中，每一次训练过后，观察所述神经网络模型的交叉熵收敛状态，如第一次的任务是训练100篇文本，可把这100篇文本分成10份，每份10篇文本，当完成这100篇文本的训练时，可观察交叉熵的收敛状态。

步骤s402，当检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时，启动对所述神经网络模型中的通道的删减。

具体的，当对所述神经网络模型进行训练后，如果检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时，这时可启动对所述神经网络模型中的通道的删减，所述神经网络模型的参数不再调整，只对所述神经网络模型中的通道进行删减，如果检测到所述神经网络模型的交叉熵损失函数的收敛状态不是收敛时，则继续对所述神经网络模型进行训练。

本实施例中，通过对所述神经网络模型的交叉熵损失函数进行检测，启动对所述神经网络模型的通道的删减，可以提高对通道删减的精确度，减少模型的损失。

图5为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图，如图所示，所述步骤s103，在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减，包括：

步骤s501，预设通道的通道权重阈值；

具体的，预先可对所述神经网络模型的通道设置通道权重阈值，通常在训练过程中只对权重排在末尾的几个通道进行删减，保证不给模型带来太大的损失，因此所述的权重阈值可以设置的较小。

步骤s502，在对所述神经网络模型的训练过程中将所述每个通道的通道权重与所述通道权重阈值进行比较，并将低于所述通道权重阈值的通道进行删减。

具体的，当通过softmax函数对所述神经网络模型的所有通道分配完通道权重以后，可以将所述神经网络模型中的每个通道的通道权重与所述预设的通道权重阈值进行比较，并将低于所述通道权重阈值的通道进行删减。

本实施例中，通过预设通道权重阈值对所述神经网络模型中的通道进行删减，可以有效压缩神经网络。

图6为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图，如图所示，所述步骤s103，在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后，包括：

步骤s601，预设所述神经网络模型的最低通道数；

具体的，可在神经网络模型构建的时候确定通道数，当所述神经网络模型的通道数确定以后，可预设最低通道数，如神经网络模型的总通道数为128，最低通道数可设为120。

步骤s602，当对所述神经网络模型中的通道进行删减时，将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较，当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时，停止删减。

具体的，当通过通道权重与通道权重阈值的比较后进行通道的删减时，检测所述神经网络模型中的当前总通道数，如果所述神经网络模型中的总通道数不大于预设的最低通道数，则不再进行通道的删减。

具体的，所述的删减可以从最小的通道开始，即在所述神经网络模型的当前通道中首先找出最小的通道权重对应的通道，如果所述最小的通道权重对应通道的通道权重小于预设的通道权重阈值时，那么继续判断当前的总通道数是否小于预设的最低通道数；如果不是，就进行通道的删减，接下来在剩下的通道中再查找最小的通道权重对应的通道，继续进行判断和删减；如果是，那么就停止对通道的删减，并不再进行通道权重与通道权重阈值的比较。

本实施例中，通过预设最低通道数，并在当前通道数达到最低通道数时不再删减，保证模型的损失不会过大。

本申请实施例的一种基于通道注意力机制的神经网络压缩装置结构如图7所示，包括：

模型构建模块701、训练模块702及通道删减模块703；其中，模型构建模块701与训练模块702相连，训练模块702及通道删减模块703相连；模型构建模块701设置为构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道；训练模块702设置为对所述神经网络模型进行训练；通道删减模块703设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。

本申请实施例还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述各实施例中所述神经网络压缩方法中的步骤。

本申请实施例还公开了一种存储介质，所述存储介质可被处理器读写，所述存储器存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中所述神经网络压缩方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等非易失性存储介质，或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于通道注意力机制的神经网络压缩方法，其特征在于，包括以下步骤：

对所述神经网络模型进行训练；

在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减；

所述对所述神经网络模型进行训练包括：当在对所述神经网络模型进行训练时，检测所述神经网络模型的交叉熵的收敛状态，并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化，当检测到所述神经网络模型的交叉熵的收敛状态为收敛时，启动对所述神经网络模型中的通道的删减；

所述对所述神经网络模型进行训练，还包括：对所述神经网络模型根据公式：进行训练，获得所述神经网络模型的参数W_ij和θ，其中，Y_i表示神经元i的输出，函数f表示激活函数，W_ij表示神经元j到神经元i的连接权值，θ表示偏置，X_j表示神经元j的输入。

2.如权利要求1所述的基于通道注意力机制的神经网络压缩方法，其特征在于，所述构建神经网络模型，并在所述神经网络模型中建立通道注意力机制，所述神经网络模型包含多个通道，包括：

3.如权利要求2所述的基于通道注意力机制的神经网络压缩方法，其特征在于，所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重，包括：

4.如权利要求1所述的基于通道注意力机制的神经网络压缩方法，其特征在于，所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减，包括：

预设通道的通道权重阈值；

在对所述神经网络模型的训练过程中将每个通道的通道权重与所述通道权重阈值进行比较，并将低于所述通道权重阈值的通道进行删减。

5.如权利要求1所述的基于通道注意力机制的神经网络压缩方法，其特征在于，所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后，包括：

预设所述神经网络模型的最低通道数；

6.一种基于通道注意力机制的神经网络压缩装置，其特征在于，所述装置包括：

训练模块：设置为对所述神经网络模型进行训练；

通道删减模块：设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减；

所述训练模块具体用于：所述对所述神经网络模型进行训练包括：当在对所述神经网络模型进行训练时，检测所述神经网络模型的交叉熵的收敛状态，并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化，当检测到所述神经网络模型的交叉熵的收敛状态为收敛时，启动对所述神经网络模型中的通道的删减；

所述训练模块还具体用于：对所述神经网络模型根据公式：进行训练，获得所述神经网络模型的参数W_ij和θ，其中，Y_i表示神经元i的输出，函数f表示激活函数，W_ij表示神经元j到神经元i的连接权值，θ表示偏置，X_j表示神经元j的输入。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至5中任一项所述神经网络压缩方法的步骤。

8.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述神经网络压缩方法的步骤。