CN109858611B - 基于通道注意力机制的神经网络压缩方法及相关设备 - Google Patents
基于通道注意力机制的神经网络压缩方法及相关设备 Download PDFInfo
- Publication number
- CN109858611B CN109858611B CN201910026547.1A CN201910026547A CN109858611B CN 109858611 B CN109858611 B CN 109858611B CN 201910026547 A CN201910026547 A CN 201910026547A CN 109858611 B CN109858611 B CN 109858611B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- channel
- training
- channel attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007246 mechanism Effects 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 44
- 230000006835 compression Effects 0.000 title claims abstract description 36
- 238000007906 compression Methods 0.000 title claims abstract description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 170
- 238000012549 training Methods 0.000 claims abstract description 60
- 108091006146 Channels Proteins 0.000 claims description 281
- 230000006870 function Effects 0.000 claims description 52
- 210000002569 neuron Anatomy 0.000 claims description 20
- 238000013138 pruning Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Feedback Control In General (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能领域,本申请公开了一种基于通道注意力机制的神经网络压缩方法及相关设备,所述方法包括:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。本申请通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种基于通道注意力机制的神经网络压缩方法及相关设备。
背景技术
卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层),全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。全连接层(fullyconnectedlayers,FC)在整个卷积神经网络中起到“分类器”的作用,目前由于全连接层参数冗余(仅全连接层参数就可占整个网络参数80%左右),运算时间耗时很久,且大量占用资源,效率低下。因此有必要对卷积神经网络进行压缩。
发明内容
本申请的目的在于针对现有技术的不足,提供一种基于通道注意力机制的神经网络压缩方法及相关设备,通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
为达到上述目的,本申请的技术方案提供一种基于通道注意力机制的神经网络压缩方法及相关设备。
本申请公开了一种基于通道注意力机制的神经网络压缩方法,包括以下步骤:
构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
对所述神经网络模型进行训练;
在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。
较佳地,所述构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:
构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;
根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。
较佳地,所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:
获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;
计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。
较佳地,所述对所述神经网络模型进行训练,包括:
对所述神经网络模型根据公式:
进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。
较佳地,所述对所述神经网络模型进行训练,包括:
当在对所述神经网络模型进行训练时,检测所述神经网络模型的交叉熵损失函数的收敛状态;
当检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时,启动对所述神经网络模型中的通道的删减。
较佳地,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减,包括:
预设通道的通道权重阈值;
在对所述神经网络模型的训练过程中将所述每个通道的通道权重与所述通道权重阈值进行比较,并将低于所述通道权重阈值的通道进行删减。
较佳地,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后,包括:
预设所述神经网络模型的最低通道数;
当对所述神经网络模型中的通道进行删减时,将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较,当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时,停止删减。
本申请还公开了一种基于通道注意力机制的神经网络压缩装置,所述装置包括:
模型构建模块:设置为构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
训练模块:设置为对所述神经网络模型进行训练;
通道删减模块:设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。
本申请还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述所述神经网络压缩方法的步骤。
本申请还公开了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述神经网络压缩方法的步骤。
本申请的有益效果是:本申请通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
附图说明
图1为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图2为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图3为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图4为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图5为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图6为本申请实施例的一种基于通道注意力机制的神经网络压缩方法的流程示意图;
图7为本申请实施例的一种基于通道注意力机制的神经网络压缩装置结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程如图1所示,本实施例包括以下步骤:
步骤s101,构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
具体的,所述神经网络模型可包含输入层、卷积层、激活函数、池化层和全连接层,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层),所述神经网络包含多个通道,所述通道与全连接层相连,所述的通道输出作为全连接层的输入。
具体的,所述通道注意力机制可通过建立通道注意力层实现,所述通道注意力层可建立在神经网络模型中的全连接层与卷积层之间,所述通道注意力层可包含多个通道,所述通道注意力层的每个通道可与所述神经网络中的每个通道一一对应,即通道注意力层的每个通道与经过卷积运算后的每个通道一一对应,并在通道注意力层中设置softmax函数,所述softmax函数与通道注意力层的每个通道相连,用于为通道注意力层的每个通道分配权重。所述经过softmax函数计算后的权重数值在0-1之间,且所有通道的权重之和为1,计算公式如下:
其中,i表示第i个通道,j表示通道总数,Si为第i个通道的通道权重,V表示的是一个数组。
步骤s102,对所述神经网络模型进行训练;
具体的,当神经网络模型建立完毕后,可对所述神经网络模型中的参数进行训练,并观察所述神经网络模型的损失函数,以文本分类模型TextCNN为例,所述文本分类模型的损失函数为交叉熵,并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化。所述的训练可分为多轮进行,如第一轮是对100篇文本进行训练,第二轮是对150篇文本进行训练,第三轮是对120篇文本进行训练,每一轮的训练量尽量接近,不要相差过大,便于参数调整;在对第一轮的100篇文本进行训练时,可将这100篇文本分成10份,每份10篇文档,也可将这100篇文本分成20份,每份5篇文本,并分别对每一份文本输入神经网络模型进行训练,在对每一份文本进行训练时,都可对神经网络模型的参数进行调整,当对第一轮的100篇文本都输入神经网络模型训练过后,第一轮的训练就结束了,这时可以获取到调整的神经网络的参数及满意的损失函数输出。
步骤s103,在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。
具体的,当对神经网络模型进行训练过后,可以检测所述神经网络模型的状态,如检测所述神经网络模型的损失函数的状态,如果所述神经网络模型的交叉熵损失函数的收敛状态为收敛时,说明本轮的训练结果已经趋于稳定,这时可以启动对神经网络模型的通道的删减。
具体的,所述的删减可以通过对每个通道的通道权重的判断完成,由于权重较小的通道价值比较低,因此可对通道权重值垫底的几个通道进行删减,例如,当所述神经网络模型中的通道的通道权重小于预设的值时,可以对所述通道进行删减。
本实施例中,通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
图2为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图,如图所示,所述步骤s101,构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:
步骤s201,构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;
具体的,所述通道注意力机制可在所述神经网络模型中通过建立通道注意力层实现,所述通道注意力层可建立在神经网络模型中的全连接层与卷积层之间,所述通道注意力层可包含多个通道,所述通道注意力层的每个通道可与所述神经网络中的每个通道一一对应,即通道注意力层的每个通道与经过卷积运算后的每个通道一一对应,并在通道注意力层中设置softmax函数,所述softmax函数与通道注意力层的每个通道相连,用于为通道注意力层的每个通道分配权重。
步骤s202,根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。
具体的,在经过神经网络模型中卷积层的卷积运算后的输出需经过softmax函数计算分配每条通道的权重,且在经过softmax函数之前还可学习各通道隐含特征及重要性和相关性。所述经过softmax函数计算后的通道权重数值在0-1之间,且所有通道的权重之和为1,计算公式如下:
其中,i表示第i个通道,j表示通道总数,Si为第i个通道的通道权重,V表示的是一个数组。
本实施例中,通过在神经网络模型中建立注意力机制,可以对每个通道的重要程度进行识别,并进行相应的删减。
图3为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图,如图所示,所述步骤s202,根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:
步骤s301,获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;
具体的,当在神经网络模型中获取到输入信息之后,如一段文字或者一副图像之后,在进入全连接层之前,需要经过其它层的处理,如经过卷积层的卷积运算、激活函数进行激活、池化层的池化操作以及通道注意力层的通道权重运算后将所述输入信息转换成当前时刻的隐层输出向量,所述的权重运算可以为加权求和。
步骤s302,计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。
具体的,对于当前时刻来说,上一时刻的隐层输出向量是已知的,当获得上一时刻的隐层输出向量后,可先计算上一时刻的隐层输出向量与所述输入信息之间的相似度即上一时刻的隐层输出向量与输入信息对应的每个通道之间的相似度,所述相似度的计算方法可通过余弦相似度或点积运算方法进行,当计算完上一时刻的隐层输出向量与所述输入信息对应的每个通道之间的相似度之后,再通过softmax函数对所述相似度结果进行归一化处理,就可获得每个通道的权重。
本实施例中,通过softmax函数为神经网络模型的每个通道分配通道权重,可以通过通道权重识别每个通道的重要程度,并进行相应的删减。
在一个实施例中,所述步骤s102,对所述神经网络模型进行训练,包括:
对所述神经网络模型根据公式:
进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。
具体的,神经网络中包含大量单元和连接,连接公式为:
其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入;而参数Wij和θ是需要训练获得的,以文本分类模型为例,所述文本分类模型的损失函数为交叉熵,通过adam算法可对所述文本分类模型进行训练优化,更新参数Wij和θ,实现精度提升。
本实施例中,通过对神经网络模型的训练,获取适合模型的参数,为通道的删减做好预备工作,提高对通道删减的效率。
图4为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图,如图所示,所述步骤s102,对所述神经网络模型进行训练,包括:
步骤s401,当在对所述神经网络模型进行训练时,检测所述神经网络模型的交叉熵损失函数的收敛状态;
具体的,当神经网络模型建立完毕后,对所述神经网络模型中的参数进行训练,并观察所述神经网络模型的损失函数,以文本分类模型TextCNN为例,所述文本分类模型的损失函数为交叉熵,并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化,在对所述神经网络模型的训练过程中,每一次训练过后,观察所述神经网络模型的交叉熵收敛状态,如第一次的任务是训练100篇文本,可把这100篇文本分成10份,每份10篇文本,当完成这100篇文本的训练时,可观察交叉熵的收敛状态。
步骤s402,当检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时,启动对所述神经网络模型中的通道的删减。
具体的,当对所述神经网络模型进行训练后,如果检测到所述神经网络模型的交叉熵损失函数的收敛状态为收敛时,这时可启动对所述神经网络模型中的通道的删减,所述神经网络模型的参数不再调整,只对所述神经网络模型中的通道进行删减,如果检测到所述神经网络模型的交叉熵损失函数的收敛状态不是收敛时,则继续对所述神经网络模型进行训练。
本实施例中,通过对所述神经网络模型的交叉熵损失函数进行检测,启动对所述神经网络模型的通道的删减,可以提高对通道删减的精确度,减少模型的损失。
图5为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图,如图所示,所述步骤s103,在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减,包括:
步骤s501,预设通道的通道权重阈值;
具体的,预先可对所述神经网络模型的通道设置通道权重阈值,通常在训练过程中只对权重排在末尾的几个通道进行删减,保证不给模型带来太大的损失,因此所述的权重阈值可以设置的较小。
步骤s502,在对所述神经网络模型的训练过程中将所述每个通道的通道权重与所述通道权重阈值进行比较,并将低于所述通道权重阈值的通道进行删减。
具体的,当通过softmax函数对所述神经网络模型的所有通道分配完通道权重以后,可以将所述神经网络模型中的每个通道的通道权重与所述预设的通道权重阈值进行比较,并将低于所述通道权重阈值的通道进行删减。
本实施例中,通过预设通道权重阈值对所述神经网络模型中的通道进行删减,可以有效压缩神经网络。
图6为本申请实施例的一种基于通道注意力机制的神经网络压缩方法流程示意图,如图所示,所述步骤s103,在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后,包括:
步骤s601,预设所述神经网络模型的最低通道数;
具体的,可在神经网络模型构建的时候确定通道数,当所述神经网络模型的通道数确定以后,可预设最低通道数,如神经网络模型的总通道数为128,最低通道数可设为120。
步骤s602,当对所述神经网络模型中的通道进行删减时,将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较,当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时,停止删减。
具体的,当通过通道权重与通道权重阈值的比较后进行通道的删减时,检测所述神经网络模型中的当前总通道数,如果所述神经网络模型中的总通道数不大于预设的最低通道数,则不再进行通道的删减。
具体的,所述的删减可以从最小的通道开始,即在所述神经网络模型的当前通道中首先找出最小的通道权重对应的通道,如果所述最小的通道权重对应通道的通道权重小于预设的通道权重阈值时,那么继续判断当前的总通道数是否小于预设的最低通道数;如果不是,就进行通道的删减,接下来在剩下的通道中再查找最小的通道权重对应的通道,继续进行判断和删减;如果是,那么就停止对通道的删减,并不再进行通道权重与通道权重阈值的比较。
本实施例中,通过预设最低通道数,并在当前通道数达到最低通道数时不再删减,保证模型的损失不会过大。
本申请实施例的一种基于通道注意力机制的神经网络压缩装置结构如图7所示,包括:
模型构建模块701、训练模块702及通道删减模块703;其中,模型构建模块701与训练模块702相连,训练模块702及通道删减模块703相连;模型构建模块701设置为构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;训练模块702设置为对所述神经网络模型进行训练;通道删减模块703设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。
本申请实施例还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述各实施例中所述神经网络压缩方法中的步骤。
本申请实施例还公开了一种存储介质,所述存储介质可被处理器读写,所述存储器存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中所述神经网络压缩方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于通道注意力机制的神经网络压缩方法,其特征在于,包括以下步骤:
构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
对所述神经网络模型进行训练;
在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减;
所述对所述神经网络模型进行训练包括:当在对所述神经网络模型进行训练时,检测所述神经网络模型的交叉熵的收敛状态,并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化,当检测到所述神经网络模型的交叉熵的收敛状态为收敛时,启动对所述神经网络模型中的通道的删减;
所述对所述神经网络模型进行训练,还包括:对所述神经网络模型根据公式:进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。
2.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:
构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;
根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。
3.如权利要求2所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:
获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;
计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。
4.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减,包括:
预设通道的通道权重阈值;
在对所述神经网络模型的训练过程中将每个通道的通道权重与所述通道权重阈值进行比较,并将低于所述通道权重阈值的通道进行删减。
5.如权利要求1所述的基于通道注意力机制的神经网络压缩方法,其特征在于,所述在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减之后,包括:
预设所述神经网络模型的最低通道数;
当对所述神经网络模型中的通道进行删减时,将所述神经网络模型中的当前通道数与所述预设的最低通道数进行比较,当所述神经网络模型中的当前通道数不大于所述预设的最低通道数时,停止删减。
6.一种基于通道注意力机制的神经网络压缩装置,其特征在于,所述装置包括:
模型构建模块:设置为构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
训练模块:设置为对所述神经网络模型进行训练;
通道删减模块:设置为在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减;
所述训练模块具体用于:所述对所述神经网络模型进行训练包括:当在对所述神经网络模型进行训练时,检测所述神经网络模型的交叉熵的收敛状态,并通过ADAM自适应矩估计的梯度优化算法对所述神经网络模型进行优化,当检测到所述神经网络模型的交叉熵的收敛状态为收敛时,启动对所述神经网络模型中的通道的删减;
所述训练模块还具体用于:对所述神经网络模型根据公式:进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至5中任一项所述神经网络压缩方法的步骤。
8.一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项所述神经网络压缩方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910026547.1A CN109858611B (zh) | 2019-01-11 | 2019-01-11 | 基于通道注意力机制的神经网络压缩方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910026547.1A CN109858611B (zh) | 2019-01-11 | 2019-01-11 | 基于通道注意力机制的神经网络压缩方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858611A CN109858611A (zh) | 2019-06-07 |
CN109858611B true CN109858611B (zh) | 2024-03-26 |
Family
ID=66894745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910026547.1A Active CN109858611B (zh) | 2019-01-11 | 2019-01-11 | 基于通道注意力机制的神经网络压缩方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858611B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200410336A1 (en) * | 2019-06-26 | 2020-12-31 | International Business Machines Corporation | Dataset Dependent Low Rank Decomposition Of Neural Networks |
CN110795993A (zh) * | 2019-09-12 | 2020-02-14 | 深圳云天励飞技术有限公司 | 一种构建模型的方法、装置、终端设备及介质 |
CN112232505A (zh) * | 2020-09-10 | 2021-01-15 | 北京迈格威科技有限公司 | 模型训练方法、处理方法、装置、电子设备及存储介质 |
CN112565378A (zh) * | 2020-11-30 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 云原生资源动态预测方法、装置、计算机设备及存储介质 |
CN113298083A (zh) * | 2021-02-25 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN114494472A (zh) * | 2021-11-24 | 2022-05-13 | 江苏龙源振华海洋工程有限公司 | 基于深度自注意力变换网络的图像压缩方法 |
CN114120245B (zh) * | 2021-12-15 | 2024-07-23 | 平安科技(深圳)有限公司 | 基于深度神经网络的人群图像分析方法、装置以及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
-
2019
- 2019-01-11 CN CN201910026547.1A patent/CN109858611B/zh active Active
Non-Patent Citations (1)
Title |
---|
深度神经网络压缩研究;韩云飞 等;《计算机应用研究》(第10期);第2895-2896页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109858611A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858611B (zh) | 基于通道注意力机制的神经网络压缩方法及相关设备 | |
CN109978142B (zh) | 神经网络模型的压缩方法和装置 | |
CN103853786B (zh) | 数据库参数的优化方法与系统 | |
JP7376731B2 (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
CN111079899A (zh) | 神经网络模型压缩方法、系统、设备及介质 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN110473592A (zh) | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 | |
CN113469426A (zh) | 基于改进bp神经网络的光伏输出功率预测方法及系统 | |
CN108446712B (zh) | Odn网智能规划方法、装置及系统 | |
CN115952832A (zh) | 自适应模型量化方法及装置、存储介质及电子装置 | |
CN118467992A (zh) | 一种基于元启发式算法优化的短期电力负荷预测方法、系统及存储介质 | |
CN107169594B (zh) | 一种车辆路径问题的优化方法及装置 | |
CN113239199B (zh) | 一种基于多方数据集的信用分类方法 | |
CN108470251B (zh) | 基于平均互信息的社区划分质量评价方法及系统 | |
CN113743591A (zh) | 一种自动化剪枝卷积神经网络的方法及其系统 | |
CN112200208B (zh) | 基于多维度特征融合的云工作流任务执行时间预测方法 | |
CN117114053A (zh) | 基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置 | |
CN112329923A (zh) | 一种模型压缩方法、装置、电子设备及可读存储介质 | |
CN117408736A (zh) | 基于改进的Stacking融合算法的企业资金需求挖掘方法和介质 | |
CN116010832A (zh) | 联邦聚类方法、装置、中心服务器、系统和电子设备 | |
CN110728217A (zh) | Sar图像识别方法、装置、设备和存储介质 | |
CN115457269A (zh) | 一种基于改进DenseNAS的语义分割方法 | |
CN114638342A (zh) | 基于深度无监督自动编码器的图异常检测方法 | |
CN110633801B (zh) | 一种深度学习模型的优化处理方法、装置和存储介质 | |
Du et al. | Evolutionary NAS in light of model stability for accurate continual learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |