CN109948783A

CN109948783A - 一种基于注意力机制的网络结构优化方法

Info

Publication number: CN109948783A
Application number: CN201910249247.XA
Authority: CN
Inventors: 张亚飞; 张卫山
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-06-28

Abstract

本发明提出了一种基于注意力机制的网络结构优化方法，通过对神经网络各模块进行合理的权重分配，强调或者弱化某些输入数据对于下一步处理的贡献并以可微分的方式进行设计，完成一个端对端的神经网络。具体的做法是我们使用一个多层神经网络来对权重分配函数进行学习。而学习方式有别于普通的神经网络训练方式，我们首先只是单纯训练一个目标网络训练完成后在网络中添加权重分配网络，进而固定目标网络的参数，针对权重分配网络进行训练，迭代训练目标网络和权重分配网络直至效果最优。

Description

一种基于注意力机制的网络结构优化方法

技术领域

本发明涉及互联网领域和深度学习领域，具体涉及到一种基于注意力机制的网络结构优化方法。

背景技术

基于注意力机制的网络结构优化方法，通过对神经网络各模块进行合理的权重分配，强调或者弱化某些输入数据对于下一步处理的贡献并以可微分的方式进行设计来对神经网络结构进行优化。最接近本发明的技术有：

(1)、基于L1范数的正则化方法：L1正则化是指权值向量w中各个元素的绝对值之和，通过在迭代优化过程中将L1正则化项纳入损失计算，可以使该正则化项所约束的矩阵参数变小，目的使产生一个稀疏权值矩阵，从而产生一个稀疏模型。

(2)、基于L2范数的正则化方法：L2正则化是指权值向量w ww中各个元素的平方和然后再求平方根，通过在反向传播中将L2范数纳入损失项，可以防止模型过拟合，从而进一步的，提升模型的泛化能力，在一定程度上也可以是模型稀疏化。

(3)、基于dropout的随机屏蔽神经元方法：可近似的看作神经元之间的稀疏约束，通过屏蔽部分神经元使其不工作来实现，但是其具有很大的随机性，无法获取到一个全局有效的信息来对神经元的激活性或者稀疏性进行约束，而稀疏性约束对于神经网络结构来说同样是重要的。

其中，。然而L1和L2范数仅仅是针对其所约束的权重矩阵的，然而针对更高一层级的同层之间的神经元，以及更大范围的神经层则没有相应的稀疏约束来实现网络结构的稀疏化，无法更好的对于各个神经元以及神经层之间进行稀疏约束。而dropout方法则基于随机性来对神经元进行屏蔽，只是单纯减少了过拟合的风险，但是并不能合理有效的降低神经元的数量从而达到网络的稀疏化。基于注意力机制的网络结构优化方法则建立重要特征，弱化低贡献度的。基于注意力机制，通过神经网络来自动化拟合权重分配函数。来分别对同层的神经元和不同的神经层之间进行权重分配。其最终目的为将具有并行关系的神经元或者神经层看作具有竞争注意力关系的目标，对其进行自适应权重分配。从而有效对于网络结构进行优化。

发明内容

为解决现有技术中的缺点和不足，本发明提出了基于注意力机制的网络结构优化方法，通过对神经网络各模块进行合理的权重分配，强调或者弱化某些输入数据对于下一步处理的贡献并以可微分的方式进行设计来对神经网络结构进行优化。

本发明的技术方案为：

一种基于注意力机制的网络结构优化方法，其特征在于，全连接模块、卷积模块、循环神经网络模块和特征级模块，包括以下步骤：

步骤(1)、在全连接模块，全连接层中前一层的每一个神经元对于下一层的每一个神经元所起的作用是不一样的，而在当前的处理中，它们是以一种均等的方式输入下一层，而在此我们要做的是基于注意力机制对其进行自学习形式的权重分配，通过外接神经网络的形式来进行权重分配函数的学习。

步骤(2)、在卷积模块，由于权重矩阵卷积出来的每个特征的权重不一样，我们将将针对卷积位置生成注意力矩阵，通过添加额外的一条共享注意力流来针对所有的卷积层进行权重分配操作。具体实现为网络各层共享同一个注意力权重，并针对卷积参数的设置针对注意力权重矩阵做出相应调整以拟合卷积层对于数据流的处理。

步骤(3)、在循环神经网络模块中，我们添加进入注意力机制后可以将输入信息进行对齐，将注意力分配到重点需要关注的输入信息上。同时考虑长距离的信息依赖。

步骤(4)、在特征级模块中，在这里一般是针对特征融所做的操作，当以全连接模块，卷积模块和循环模块中的作为基础模块，有两个以上作为下一步的输入来处理数据，那么针对于此，我们需要一个注意力模块来对这整个大的神经网络结构模块进行权重分配，以充分关注相应模块所提提取到的特征。

步骤(5)、在训练阶段，我们采用迭代训练的方法交替训练主神经网络和基于注意力机制的权重分配网络。

本发明的有益效果：

(1)通过采用注意力机制对其进行同层权重分配，通过强调或者弱化神经元学习到的特征的方式来提高神经网络的精度。

(2)通过针对不同的神经网络基本模块采用不同的注意力设计机制，针对全连接层设计全连接模块。针对并行处理单元同样施加注意力机制来搜索最优注意力分配模型。

(3)通过一种新的针对于注意力机制的训练方法，即循环迭代训练，首先训练常规神经网络关系层，然后训练注意力层，迭代循环，直至目标函数收敛来提升训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于注意力机制的网络结构优化方法的注意力机制图。

图2为基于注意力机制的网络结构优化方法的全连接模块优化图。

图3为基于注意力机制的网络结构优化方法的卷积模块注意力机制优化图。

图4为基于注意力机制的网络结构优化方法的整体结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图4所示，本发明的基于注意力机制的网络结构优化方法，其特征在于，全连接模块、卷积模块、循环神经网络模块和特征级模块。

下面结合图1、图2和图3，对基于注意力机制的网络结构优化方法的具体流程进行详细说明：

本发明的基于注意力机制的网络结构优化方法，通过采用注意力机制对其进行同层权重分配，通过强调或者弱化神经元学习到的特征的方式来提高神经网络的精度。通过针对不同的神经网络基本模块采用不同的注意力设计机制，针对全连接层设计全连接模块。针对并行处理单元同样施加注意力机制来搜索最优注意力分配模型。通过一种新的针对于注意力机制的训练方法，即循环迭代训练，首先训练常规神经网络关系层，然后训练注意力层，迭代循环，直至目标函数收敛来提升训练效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的网络结构优化方法，其特征在于，全连接模块、卷积模块、循环神经网络模块和特征级模块，包括以下步骤：