CN109948783A - 一种基于注意力机制的网络结构优化方法 - Google Patents
一种基于注意力机制的网络结构优化方法 Download PDFInfo
- Publication number
- CN109948783A CN109948783A CN201910249247.XA CN201910249247A CN109948783A CN 109948783 A CN109948783 A CN 109948783A CN 201910249247 A CN201910249247 A CN 201910249247A CN 109948783 A CN109948783 A CN 109948783A
- Authority
- CN
- China
- Prior art keywords
- module
- weight distribution
- attention
- neural network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明提出了一种基于注意力机制的网络结构优化方法,通过对神经网络各模块进行合理的权重分配,强调或者弱化某些输入数据对于下一步处理的贡献并以可微分的方式进行设计,完成一个端对端的神经网络。具体的做法是我们使用一个多层神经网络来对权重分配函数进行学习。而学习方式有别于普通的神经网络训练方式,我们首先只是单纯训练一个目标网络训练完成后在网络中添加权重分配网络,进而固定目标网络的参数,针对权重分配网络进行训练,迭代训练目标网络和权重分配网络直至效果最优。
Description
技术领域
本发明涉及互联网领域和深度学习领域,具体涉及到一种基于注意力机制的网络结构优化方法。
背景技术
基于注意力机制的网络结构优化方法,通过对神经网络各模块进行合理的权重分配,强调或者弱化某 些输入数据对于下一步处理的贡献并以可微分的方式进行设计来对神经网络结构进行优化。最接近本发明 的技术有:
(1)、基于L1范数的正则化方法:L1正则化是指权值向量w中各个元素的绝对值之和,通过在迭代 优化过程中将L1正则化项纳入损失计算,可以使该正则化项所约束的矩阵参数变小,目的使产生一个稀 疏权值矩阵,从而产生一个稀疏模型。
(2)、基于L2范数的正则化方法:L2正则化是指权值向量w ww中各个元素的平方和然后再求平方根, 通过在反向传播中将L2范数纳入损失项,可以防止模型过拟合,从而进一步的,提升模型的泛化能力, 在一定程度上也可以是模型稀疏化。
(3)、基于dropout的随机屏蔽神经元方法:可近似的看作神经元之间的稀疏约束,通过屏蔽部分神 经元使其不工作来实现,但是其具有很大的随机性,无法获取到一个全局有效的信息来对神经元的激活性 或者稀疏性进行约束,而稀疏性约束对于神经网络结构来说同样是重要的。
其中,。然而L1和L2范数仅仅是针对其所约束的权重矩阵的,然而针对更高一层级的同层之间的神 经元,以及更大范围的神经层则没有相应的稀疏约束来实现网络结构的稀疏化,无法更好的对于各个神经 元以及神经层之间进行稀疏约束。而dropout方法则基于随机性来对神经元进行屏蔽,只是单纯减少了过 拟合的风险,但是并不能合理有效的降低神经元的数量从而达到网络的稀疏化。基于注意力机制的网络结 构优化方法则建立重要特征,弱化低贡献度的。基于注意力机制,通过神经网络来自动化拟合权重分配函 数。来分别对同层的神经元和不同的神经层之间进行权重分配。其最终目的为将具有并行关系的神经元或 者神经层看作具有竞争注意力关系的目标,对其进行自适应权重分配。从而有效对于网络结构进行优化。
发明内容
为解决现有技术中的缺点和不足,本发明提出了基于注意力机制的网络结构优化方法,通过对神经网 络各模块进行合理的权重分配,强调或者弱化某些输入数据对于下一步处理的贡献并以可微分的方式进行 设计来对神经网络结构进行优化。
本发明的技术方案为:
一种基于注意力机制的网络结构优化方法,其特征在于,全连接模块、卷积模块、循环神经网络模块 和特征级模块,包括以下步骤:
步骤(1)、在全连接模块,全连接层中前一层的每一个神经元对于下一层的每一个神经元所起的作用 是不一样的,而在当前的处理中,它们是以一种均等的方式输入下一层,而在此我们要做的是基于注意力 机制对其进行自学习形式的权重分配,通过外接神经网络的形式来进行权重分配函数的学习。
步骤(2)、在卷积模块,由于权重矩阵卷积出来的每个特征的权重不一样,我们将将针对卷积位置生 成注意力矩阵,通过添加额外的一条共享注意力流来针对所有的卷积层进行权重分配操作。具体实现为网 络各层共享同一个注意力权重,并针对卷积参数的设置针对注意力权重矩阵做出相应调整以拟合卷积层对 于数据流的处理。
步骤(3)、在循环神经网络模块中,我们添加进入注意力机制后可以将输入信息进行对齐,将注意力 分配到重点需要关注的输入信息上。同时考虑长距离的信息依赖。
步骤(4)、在特征级模块中,在这里一般是针对特征融所做的操作,当以全连接模块,卷积模块和循 环模块中的作为基础模块,有两个以上作为下一步的输入来处理数据,那么针对于此,我们需要一个注意 力模块来对这整个大的神经网络结构模块进行权重分配,以充分关注相应模块所提提取到的特征。
步骤(5)、在训练阶段,我们采用迭代训练的方法交替训练主神经网络和基于注意力机制的权重分配 网络。
本发明的有益效果:
(1)通过采用注意力机制对其进行同层权重分配,通过强调或者弱化神经元学习到的特征的方式来 提高神经网络的精度。
(2)通过针对不同的神经网络基本模块采用不同的注意力设计机制,针对全连接层设计全连接模块。 针对并行处理单元同样施加注意力机制来搜索最优注意力分配模型。
(3)通过一种新的针对于注意力机制的训练方法,即循环迭代训练,首先训练常规神经网络关系层, 然后训练注意力层,迭代循环,直至目标函数收敛来提升训练效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通 技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于注意力机制的网络结构优化方法的注意力机制图。
图2为基于注意力机制的网络结构优化方法的全连接模块优化图。
图3为基于注意力机制的网络结构优化方法的卷积模块注意力机制优化图。
图4为基于注意力机制的网络结构优化方法的整体结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技 术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图4所示,本发明的基于注意力机制的网络结构优化方法,其特征在于,全连接模块、卷积模块、 循环神经网络模块和特征级模块。
下面结合图1、图2和图3,对基于注意力机制的网络结构优化方法的具体流程进行详细说明:
步骤(1)、在全连接模块,全连接层中前一层的每一个神经元对于下一层的每一个神经元所起的作用 是不一样的,而在当前的处理中,它们是以一种均等的方式输入下一层,而在此我们要做的是基于注意力 机制对其进行自学习形式的权重分配,通过外接神经网络的形式来进行权重分配函数的学习。
步骤(2)、在卷积模块,由于权重矩阵卷积出来的每个特征的权重不一样,我们将将针对卷积位置生 成注意力矩阵,通过添加额外的一条共享注意力流来针对所有的卷积层进行权重分配操作。具体实现为网 络各层共享同一个注意力权重,并针对卷积参数的设置针对注意力权重矩阵做出相应调整以拟合卷积层对 于数据流的处理。
步骤(3)、在循环神经网络模块中,我们添加进入注意力机制后可以将输入信息进行对齐,将注意力 分配到重点需要关注的输入信息上。同时考虑长距离的信息依赖。
步骤(4)、在特征级模块中,在这里一般是针对特征融所做的操作,当以全连接模块,卷积模块和循 环模块中的作为基础模块,有两个以上作为下一步的输入来处理数据,那么针对于此,我们需要一个注意 力模块来对这整个大的神经网络结构模块进行权重分配,以充分关注相应模块所提提取到的特征。
步骤(5)、在训练阶段,我们采用迭代训练的方法交替训练主神经网络和基于注意力机制的权重分配 网络。
本发明的基于注意力机制的网络结构优化方法,通过采用注意力机制对其进行同层权重分配,通过强 调或者弱化神经元学习到的特征的方式来提高神经网络的精度。通过针对不同的神经网络基本模块采用不 同的注意力设计机制,针对全连接层设计全连接模块。针对并行处理单元同样施加注意力机制来搜索最优 注意力分配模型。通过一种新的针对于注意力机制的训练方法,即循环迭代训练,首先训练常规神经网络 关系层,然后训练注意力层,迭代循环,直至目标函数收敛来提升训练效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作 的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于注意力机制的网络结构优化方法,其特征在于,全连接模块、卷积模块、循环神经网络模块和特征级模块,包括以下步骤:
步骤(1)、在全连接模块,全连接层中前一层的每一个神经元对于下一层的每一个神经元所起的作用是不一样的,而在当前的处理中,它们是以一种均等的方式输入下一层,而在此我们要做的是基于注意力机制对其进行自学习形式的权重分配,通过外接神经网络的形式来进行权重分配函数的学习。
步骤(2)、在卷积模块,由于权重矩阵卷积出来的每个特征的权重不一样,我们将将针对卷积位置生成注意力矩阵,通过添加额外的一条共享注意力流来针对所有的卷积层进行权重分配操作。具体实现为网络各层共享同一个注意力权重,并针对卷积参数的设置针对注意力权重矩阵做出相应调整以拟合卷积层对于数据流的处理。
步骤(3)、在循环神经网络模块中,我们添加进入注意力机制后可以将输入信息进行对齐,将注意力分配到重点需要关注的输入信息上。同时考虑长距离的信息依赖。
步骤(4)、在特征级模块中,在这里一般是针对特征融所做的操作,当以全连接模块,卷积模块和循环模块中的作为基础模块,有两个以上作为下一步的输入来处理数据,那么针对于此,我们需要一个注意力模块来对这整个大的神经网络结构模块进行权重分配,以充分关注相应模块所提提取到的特征。
步骤(5)、在训练阶段,我们采用迭代训练的方法交替训练主神经网络和基于注意力机制的权重分配网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910249247.XA CN109948783A (zh) | 2019-03-29 | 2019-03-29 | 一种基于注意力机制的网络结构优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910249247.XA CN109948783A (zh) | 2019-03-29 | 2019-03-29 | 一种基于注意力机制的网络结构优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109948783A true CN109948783A (zh) | 2019-06-28 |
Family
ID=67013178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910249247.XA Pending CN109948783A (zh) | 2019-03-29 | 2019-03-29 | 一种基于注意力机制的网络结构优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948783A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN110490323A (zh) * | 2019-08-20 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 网络模型压缩方法、装置、存储介质和计算机设备 |
CN110689043A (zh) * | 2019-08-22 | 2020-01-14 | 长沙千视通智能科技有限公司 | 一种基于多重注意力机制的车辆细粒度识别方法及装置 |
CN110705996A (zh) * | 2019-10-17 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 基于特征掩码的用户行为识别方法、系统、及装置 |
CN111191791A (zh) * | 2019-12-02 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 机器学习模型的应用方法、训练方法、装置、设备及介质 |
CN111191709A (zh) * | 2019-12-25 | 2020-05-22 | 清华大学 | 深度神经网络的持续学习框架及持续学习方法 |
CN113095156A (zh) * | 2021-03-23 | 2021-07-09 | 西安深信科创信息技术有限公司 | 一种基于逆灰度方式的双流网络签名鉴定方法及装置 |
CN113743363A (zh) * | 2021-09-17 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种基于无人机系统小样本的遮挡目标识别方法 |
CN117314763A (zh) * | 2023-08-17 | 2023-12-29 | 贵州医科大学附属口腔医院 | 一种基于机器学习的口腔卫生管理方法及系统 |
CN117725844A (zh) * | 2024-02-08 | 2024-03-19 | 厦门蝉羽网络科技有限公司 | 基于学习权重向量的大模型微调方法、装置、设备及介质 |
-
2019
- 2019-03-29 CN CN201910249247.XA patent/CN109948783A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262511B (zh) * | 2019-07-12 | 2022-08-09 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN110490323A (zh) * | 2019-08-20 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 网络模型压缩方法、装置、存储介质和计算机设备 |
CN110689043A (zh) * | 2019-08-22 | 2020-01-14 | 长沙千视通智能科技有限公司 | 一种基于多重注意力机制的车辆细粒度识别方法及装置 |
CN110705996B (zh) * | 2019-10-17 | 2022-10-11 | 支付宝(杭州)信息技术有限公司 | 基于特征掩码的用户行为识别方法、系统、及装置 |
CN110705996A (zh) * | 2019-10-17 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 基于特征掩码的用户行为识别方法、系统、及装置 |
CN111191791A (zh) * | 2019-12-02 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 机器学习模型的应用方法、训练方法、装置、设备及介质 |
CN111191791B (zh) * | 2019-12-02 | 2023-09-29 | 腾讯云计算(北京)有限责任公司 | 基于机器学习模型的图片分类方法、装置及设备 |
CN111191709A (zh) * | 2019-12-25 | 2020-05-22 | 清华大学 | 深度神经网络的持续学习框架及持续学习方法 |
CN111191709B (zh) * | 2019-12-25 | 2023-10-31 | 清华大学 | 深度神经网络的持续学习框架及持续学习方法 |
CN113095156A (zh) * | 2021-03-23 | 2021-07-09 | 西安深信科创信息技术有限公司 | 一种基于逆灰度方式的双流网络签名鉴定方法及装置 |
CN113743363A (zh) * | 2021-09-17 | 2021-12-03 | 中国人民解放军国防科技大学 | 一种基于无人机系统小样本的遮挡目标识别方法 |
CN117314763A (zh) * | 2023-08-17 | 2023-12-29 | 贵州医科大学附属口腔医院 | 一种基于机器学习的口腔卫生管理方法及系统 |
CN117725844A (zh) * | 2024-02-08 | 2024-03-19 | 厦门蝉羽网络科技有限公司 | 基于学习权重向量的大模型微调方法、装置、设备及介质 |
CN117725844B (zh) * | 2024-02-08 | 2024-04-16 | 厦门蝉羽网络科技有限公司 | 基于学习权重向量的大模型微调方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948783A (zh) | 一种基于注意力机制的网络结构优化方法 | |
US11126913B2 (en) | Methods and systems for implementing deep spiking neural networks | |
Hunsberger et al. | Spiking deep networks with LIF neurons | |
CN109543502A (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN109948029A (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN109491816A (zh) | 基于知识的故障诊断方法 | |
CN105427241B (zh) | 一种大视场显示设备的畸变校正方法 | |
CN110223785A (zh) | 一种基于深度学习的传染病传播网络重构方法 | |
CN112288080A (zh) | 面向脉冲神经网络的自适应模型转化方法及系统 | |
Shi et al. | A curiosity-based learning method for spiking neural networks | |
Wendelken et al. | Acquisition of concepts and causal rules in SHRUTI | |
CN115600669A (zh) | 基于局部分类器的高效深层脉冲神经网络学习方法 | |
CN108053423A (zh) | 一种多目标动物跟踪方法及装置 | |
CN107291882A (zh) | 一种数据自动统计分析方法 | |
CN109948797A (zh) | 一种基于l2范数的图神经网络中的邻接矩阵优化方法 | |
CA2898216C (en) | Methods and systems for implementing deep spiking neural networks | |
CN111582470B (zh) | 基于stdp的自适应非监督学习图像识别方法及系统 | |
Sagar et al. | Evolutionary algorithm for optimal connection weights in artificial neural networks | |
Lacko | From perceptrons to deep neural networks | |
CN114548239A (zh) | 一种基于类哺乳动物视网膜结构人工神经网络的图像识别与分类方法 | |
Gerlinghoff et al. | Desire backpropagation: A lightweight training algorithm for multi-layer spiking neural networks based on spike-timing-dependent plasticity | |
Gupta et al. | Implementing a foveal-pit inspired filter in a spiking convolutional neural network: a preliminary study | |
Wang et al. | Content System of Physical Fitness Training for Track and Field Athletes and Evaluation Criteria of Some Indicators Based on Artificial Neural Network | |
CN109558967A (zh) | 基于自我学习机制的油田开发方案优化方法 | |
CN117196083A (zh) | 基于复杂科学的元强化学习对股指已实现波动率的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190628 |