CN113255883B - 一种基于幂律分布的权重初始化方法 - Google Patents

一种基于幂律分布的权重初始化方法 Download PDF

Info

Publication number
CN113255883B
CN113255883B CN202110492649.XA CN202110492649A CN113255883B CN 113255883 B CN113255883 B CN 113255883B CN 202110492649 A CN202110492649 A CN 202110492649A CN 113255883 B CN113255883 B CN 113255883B
Authority
CN
China
Prior art keywords
distribution
initialization
weight
power law
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110492649.XA
Other languages
English (en)
Other versions
CN113255883A (zh
Inventor
孙仁诚
邢彤彤
隋毅
孙凤霄
尹来国
陈珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202110492649.XA priority Critical patent/CN113255883B/zh
Publication of CN113255883A publication Critical patent/CN113255883A/zh
Application granted granted Critical
Publication of CN113255883B publication Critical patent/CN113255883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明属于人工智能领域,涉及一种优化、提升网络训练过程的权重初始化方法,先建立cifar10数据集的AlexNet和ResNet32网络模型,并计算卷积层权重数量;再生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据;并在深度学习模型中应用本发明提出的初始化数据进行权重初始化,再将提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比,本发明与现有技术相比,在权重初始化领域,突破固有的随机分布、均匀分布以及正态分布的数学模型,引入使用幂律分布初始化的概念,并在实验中得到有效的验证。其总体构思巧妙,具有普适性和高效性。可以适用于各种不同的网络模型的结构,同时可以节省模型训练的时间,提升最终的识别精确度。

Description

一种基于幂律分布的权重初始化方法
技术领域:
本发明属于人工智能领域,更进一步涉及到的是该领域中的深度学习网络模型,具体是一种优化、提升网络训练过程的权重初始化方法,可应用于所有的网络模型,并且产生了有益效果。
背景技术:
现下,深度学习是最热的人工智能和机器学习的子领域之一。深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
随着深度学习的进一步发展,研究者们为了进一步提高网络模型的训练速度和模型精确度,尝试从多个角度提出改进方案,主要是:优化网络结构,迁移学习以及优秀的权重初始化方法。
深度学习的本质其实是训练、优化权重的值,使其达到一个最优解的状态。这其中,需要更新权重的层包括卷积层、BN层和FC层等。在寻找最优解的过程中,权重的初始化就是得到最优解的重要前提。如果权重初始化不合适,则可能会导致模型反向传播失效,陷入局部最优解,导致模型预测效果不理想,甚至使损失函数震荡,模型无法收敛。也就是说,使用不同的权重初始化方法,直接影响到了模型的训练速度和最终精确度。因此,一个优秀的权重初始化方法是深度神经网络领域成功的基石。
现阶段,搭建一个优秀的网络模型通常需要进行大量的实验,并且,非常重要的网络模型参数的设置也往往依赖研究者的经验,并没有很好的理论指导。一个优秀的权重初始化方法,应该具有普适性和高效性。不但可以适用于各种不同的网络模型的结构可以节省模型训练的时间,甚至是可以提升最终的识别精确度。在该领域中有很多权重初始化的方法,常见的随机初始化或固定值初始化。除此之外,还有高斯(正态)分布初始化,均匀分布初始化,截断高斯分布初始化以及主成分洗牌初始化等,该初始化方法与高斯分布初始化相似,但分布形式为截尾分布。目前较为成熟的权值初始化方法:Xavier初始化方法和He初始化方法。Xavier初始化为了增加网络各层之间信息传播的流畅性,遵循了(正向传播)各层激活值的方差和(反向传播)各层状态值的梯度的方差在传播中保持一致的原则,通过均匀分布来进行权重初始化调整。但是,Xavier初始化所使用的激活函数是线性的且激活值关于0对称,不适用于Sigmoid函数和ReLU函数。He初始化在Xavier初始化的基础之上,稍加改变,遵循(正向传播)各层状态值的方差和(反向传播)各层激活值的梯度的方差在传播中保持一致的原则,在与ReLU激活函数的共同作用下,可以达到非常好的收敛效果。然而使用这两种权重初始化方法,网络模型依然需要训练多次,耗时长,并且需要大量训练数据。
针对深度学习领域中关于权重初始化方法的现下情况,本发明拟设计提供一种基于幂律分布的权重初始化方法,本方法通过实验验证发现:本发明中的幂律分布的数据能够有效提高网络模型的收敛速度,节省训练时间,并且有助于提升网络模型的最终精确度。
发明内容:
本发明的目的主要是针对现有技术中的不足和缺陷,提出了一种基于幂律分布的权重初始化方法,该方法有助于提升网络模型训练过程的初始化权重,能够有效优化深度学习模型训练不收敛和训练时间长的问题。
为实现上述目的,本发明涉及的基于幂律分布的权重初始化方法通过如下设计方案实现:
本发明涉及的基于幂律分布的权重初始化方法的具体操作步骤如下:
S1、建立cifar10数据集的AlexNet和ResNet32(深度残差网络)网络模型,并计算卷积层权重数量:
卷积是一种有效提取图片特征的方法,一般用一个正方形卷积核,遍历图片上的每一个像素点,图片与卷积核重合区域内相对应的每一个像素值,乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得到输出图片中的一个像素值;图片分灰度图和彩色图,卷积核可以是单个也可以是多个,而卷积核中的各个参数就是卷积层的权重,卷积核参数个数就是卷积层的权重个数,依据卷积核的维度和个数,便可以计算出该卷积层所需权重的数量;
S2、生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据:
幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数的分布,以幂律函数为概率密度函数,根据卷积层中需要初始化的参数个数,依次生成每一层对应的基于幂律分布的初始化数据;
S3、在深度学习模型中应用本发明提出的初始化数据进行权重初始化:
在网络初始化时,使用步骤S1中制作的数据来初始化网络模型,按层初始化完成后,放入数据集进行训练,保存每一轮次在验证集中的正确率;
S4、将步骤S2中提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比:
将使用步骤S2中提出的基于幂律分布的权重初始化方法与He初始化方法的训练情况进行对比,对比每一轮次训练结束后的模型正确率,结果可显示,在第一轮次本发明发挥优势,正确率有显著的提升,并且最终的精确度也略高于He初始化方法精确度;
在AlexNet和ResNet32(深度残差网络)两个网络上的进行实验,通过对比本发明与He初始化方法的每一轮精确度,发现使用本发明进行权重初始化的网络模型取得以下成果:
1)本发明在AlexNet网络上比He初始化方法提升了5%的模型最终准确度;
2)本发明在ResNet32网络上比He初始化方法提升了60%的首轮次精确度,以及5%的最终精确度。
本发明与现有技术相比,取得的有益效果:在权重初始化领域,突破固有的随机分布、均匀分布以及正态分布的数学模型,引入使用幂律分布初始化的概念,并在实验中得到有效的验证。其总体构思巧妙,同时具有普适性和高效性。不但可以适用于各种不同的网络模型的结构,同时可以节省模型训练的时间,甚至是可以提升最终的识别精确度。且应用环境友好,市场前景广阔。
附图说明:
图1为本发明涉及的最初发现的规律示意图。
图2为本发明涉及的基于幂律分布的数据分布图。
图3为本发明涉及的数据幂律分布特性检验图1(幂律分布拟合)。
图4为本发明涉及的数据幂律分布特性检验图2(双对数检验)。
图5为本发明所提供的验证优化效果示意图1(AlexNet网络)。
图6为本发明所提供的验证优化效果示意图2(ResNet32网络)。
具体实施方式:
下面将结合本发明示例中的附图,对本发明示例中的技术方案进行清楚、完整地描述。当然,所描述的示例仅仅是本发明的一部分示例,而不是全部的情况展示。基于本发明中的示例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他示例,都属于本发明保护的范围。
实施例1:
本实施例的目的是提供一种高效并且稳定的权重初始化方法,更快速的训练好大型网络模型,使得网络训练的更迅速,节省大量训练时间。
图1为本实施例所提供的示例预训练网络模型的权重分布情况示意图,以AlexNet网络的五层卷积层权重分布图为示例,如图1所示,一个网络的卷积层权重参数的分布,其总体是一种以零为对称轴,呈现出了一种高峰、长尾的形态,相较于传统的高斯分布,单侧更符合幂律分布。
本实施例分析预训练网络模型的权重参数分布情况,提出了使用幂律分布进行网络模型权重初始化的办法,研究并制作了幂律分布数据,而且进行了AlexNet网络的示例验证:
1)计算好网络卷积层权重参数个数x;
2)使用本发明的思想生成x个幂律数据集合X;
3)将数据集合X应用到网络模型的卷积层中;
图2是使用本实施例针对示例网络模型制作的幂律数据的概率密度图,以AlexNet网络的五层卷积层为示例,从图中可清晰看到每一层幂律数据的分布状况,与图1相比,有着极其相似的高峰长尾现象,理论上可得到使用本发明制作的数据进行网络初始化,能够更快速的训练好网络模型;
为体现本实验的严谨,将本发明制作的幂律分布数据进行了检验分析,以AlexNet网络为示例;
图3为本实施例所提供示例的初始化权重数据的幂律拟合情况,对本实施例的初始化权重数据进行幂律拟合,每一层数据的拟合情况如图3所示,拟合程度较高;
图4为本实施例所提供的示例权重数据取双对数的拟合情况,所有的幂律分布均符合双对数坐标系里的直线性质,所以本实施例采用该方法来检验本发明制作的权重数据,最终结果如图4所示,本实施例数据符合幂律分布的直线性质;
图5为本实施例的AlexNet网络上的实验结果对比图,将网络训练的每一轮次的验证精确度进行比对,通过图5,可以清楚看出模型最终的精确度比He初始化方法有所提升;
图6为本实施例的ResNet32网络上的实验结果对比图,将网络训练的每一轮次的验证精确度进行比对,通过图6,可以清楚看出从开始轮次本实施例的精确度就优于He初始化方法,并且在整个训练过程中一直保持着优势。

Claims (2)

1.一种基于幂律分布的权重初始化方法,其特征在于具体操作步骤如下:
S1、建立cifar10数据集的AlexNet和深度残差网络模型,并计算卷积层权重数量:
卷积是一种有效提取图片特征的方法,用一个正方形卷积核,遍历图片上的每一个像素点,图片与卷积核重合区域内相对应的每一个像素值,乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得到输出图片中的一个像素值;图片分灰度图和彩色图,卷积核能够是单个也能够是多个,而卷积核中的各个参数就是卷积层的权重,卷积核参数个数就是卷积层的权重个数,依据卷积核的维度和个数,便能够计算出该卷积层所需权重的数量;
S2、生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据:
幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数的分布,以幂律函数为概率密度函数,根据卷积层中需要初始化的参数个数,依次生成每一层对应的基于幂律分布的初始化数据;
S3、在深度学习模型中应用步骤S2提出的初始化数据进行权重初始化:
在网络初始化时,使用步骤S1中制作的数据来初始化网络模型,按层初始化完成后,放入数据集进行训练,保存每一轮次在验证集中的正确率;
S4、将步骤S2中提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比:
将使用步骤S2中提出的基于幂律分布的权重初始化方法与He初始化方法的训练情况进行对比,对比每一轮次训练结束后的模型正确率,结果可显示,在第一轮次发挥优势,正确率有显著的提升,并且最终的精确度也高于He初始化方法精确度。
2.根据权利要求1所述的一种基于幂律分布的权重初始化方法,其特征在于在AlexNet和深度残差网络两个网络上的进行实验,通过对比根据权利要求1与He初始化方法的每一轮精确度,发现根据权利要求1进行权重初始化的网络模型取得以下成果:
1)在AlexNet网络上比He初始化方法提升了5%的模型最终准确度;
2)在ResNet32网络上比He初始化方法提升了60%的首轮次精确度,以及5%的最终精确度。
CN202110492649.XA 2021-05-07 2021-05-07 一种基于幂律分布的权重初始化方法 Active CN113255883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110492649.XA CN113255883B (zh) 2021-05-07 2021-05-07 一种基于幂律分布的权重初始化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110492649.XA CN113255883B (zh) 2021-05-07 2021-05-07 一种基于幂律分布的权重初始化方法

Publications (2)

Publication Number Publication Date
CN113255883A CN113255883A (zh) 2021-08-13
CN113255883B true CN113255883B (zh) 2023-07-25

Family

ID=77223854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110492649.XA Active CN113255883B (zh) 2021-05-07 2021-05-07 一种基于幂律分布的权重初始化方法

Country Status (1)

Country Link
CN (1) CN113255883B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634893A (zh) * 2024-01-24 2024-03-01 浙江浙商金控有限公司 风险评估模型训练方法、风险预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN109740734A (zh) * 2018-12-29 2019-05-10 北京工业大学 一种优化卷积神经网络中神经元空间排布的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10180416B2 (en) * 2015-06-04 2019-01-15 Corning Incorporated Methods of characterizing ion-exchanged chemically strengthened glasses containing lithium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN109740734A (zh) * 2018-12-29 2019-05-10 北京工业大学 一种优化卷积神经网络中神经元空间排布的方法

Also Published As

Publication number Publication date
CN113255883A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN108724182B (zh) 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
CN109783910B (zh) 一种利用生成对抗网络加速的结构优化设计方法
CN110427799B (zh) 基于生成对抗网络的人手深度图像数据增强方法
CN108416755A (zh) 一种基于深度学习的图像去噪方法及系统
CN109598342B (zh) 一种决策网络模型自博弈训练方法及系统
CN107342078A (zh) 对话策略优化的冷启动系统和方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN112541063A (zh) 一种基于自学习对话模型的人机对话方法及系统
CN113255883B (zh) 一种基于幂律分布的权重初始化方法
CN112215339B (zh) 基于生成对抗网络的医疗数据扩充方法
CN111753207A (zh) 一种基于评论的神经图协同过滤模型
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
CN111624522A (zh) 基于蚁群优化rbf神经网络控制变压器故障诊断方法
CN116205298A (zh) 一种基于深度强化学习的对手行为策略建模方法及系统
CN114676637A (zh) 一种基于条件生成对抗网络的光纤信道建模方法及系统
CN112487933B (zh) 一种基于自动化深度学习的雷达波形识别方法及系统
CN110047088B (zh) 一种基于改进教与学优化算法的ht-29图像分割方法
CN116188870A (zh) 一种基于脉冲卷积神经网络的钢材表面缺陷图像分类方法
CN112862173B (zh) 基于自组织深度置信回声状态网的湖库蓝藻水华预测方法
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN111245008B (zh) 一种风场协同控制方法及装置
CN113689001A (zh) 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置
CN116151385A (zh) 一种基于生成对抗网络的机器人自主学习方法
CN113781294A (zh) 一种改进的循环生成对抗网络实现皮影戏风格迁移的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant