CN114997390A - 基于gpu加速神经网络训练方法、装置及存储介质 - Google Patents

基于gpu加速神经网络训练方法、装置及存储介质 Download PDF

Info

Publication number
CN114997390A
CN114997390A CN202210896081.2A CN202210896081A CN114997390A CN 114997390 A CN114997390 A CN 114997390A CN 202210896081 A CN202210896081 A CN 202210896081A CN 114997390 A CN114997390 A CN 114997390A
Authority
CN
China
Prior art keywords
nth
data set
training
index parameter
prediction function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210896081.2A
Other languages
English (en)
Other versions
CN114997390B (zh
Inventor
陈彪
黄雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Original Assignee
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrun Fulian Digital Technology Co Ltd filed Critical Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority to CN202210896081.2A priority Critical patent/CN114997390B/zh
Publication of CN114997390A publication Critical patent/CN114997390A/zh
Application granted granted Critical
Publication of CN114997390B publication Critical patent/CN114997390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining

Abstract

本申请涉及一种基于GPU加速神经网络训练方法、装置及存储介质,其中,该方法包括:S1,从预设数据集中划分出第N子数据集;S2,基于第N子数据集对与GPU关联的初始神经网络进行训练,并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;S3,在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集;S4,将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1。

Description

基于GPU加速神经网络训练方法、装置及存储介质
技术领域
本申请涉及神经网络模型领域,尤其涉及一种基于GPU加速神经网络训练方法、装置及存储介质。
背景技术
目前神经网络使用的主流硬件是图形处理器(Graphics Processing Unit,GPU),其GPU的底层结构包括运算器(Arithmetic and Logic Unit,ALU)、控制单元(ControlUnit,CU)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据,其中,运算器是完成算数运算、逻辑运算以及暂存结果的基本单元,也是其核心单元。
目前网络剪枝、网络量化、低秩分解、知识蒸馏、紧致型网络的设计和神经框架搜索等从模型参数出发,本质是从网络的角度出发,减少参数进而减少算数运算、逻辑运算的量。具体地,现有技术中采用通过减少模型参数数量和降低运算复杂度,以保持最小的网络性能损失。但随着网络参数的降低以及网络层数的减少,模型的精度也会出现下降的情况。此外,通过减少模型参数数量和降低运算复杂度,以保持最小的网络性能损失,其运算量虽然会随之减少,但也容易造成部分的ALU没有得到充分的利用,导致GPU利用率较低,进而造成硬件资源浪费。
针对相关技术中的上述问题,目前尚未存在有效的解决方案。
发明内容
本申请提供了一种GPU加速神经网络训练方法、装置及存储介质,以解决现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练,导致模型精度下降且GPU利用率较低的问题。
第一方面,本申请提供了一种基于图形处理器GPU加速神经网络训练的方法,包括:S1,从预设数据集中划分出第N子数据集;S2,基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练,并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;S3,在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集;其中,所述非线性模型预测函数的输入为指标参数,输出为训练速度;S4,将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1,N为正整数。
第二方面,本申请提供了一种基于图形处理器GPU加速神经网络训练的装置,包括:划分模块,用于执行步骤S1:从预设数据集中划分出第N子数据集;第一处理模块,用于执行步骤S2:基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练,并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;第二处理模块,用于执行步骤S3:在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集;其中,所述非线性模型预测函数的输入为指标参数,输出为训练速度;第二处理模块,用于执行步骤S4:将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1,N为正整数。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的方法步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度,并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数,进而重新从预设数据集中划分出第N+1子数据集,重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成,由于预设精度阈值可以根据需求设置,发明人在实验阶段发现,如果训练精度为10内的前提下,训练速度相比传统训练方法提高80%;如果训练精度为5内的前提下,训练速度相比传统训练方法提高52%;如果训练精度为2内的前提下,训练速度相比传统训练方法提高45%,由此可见,通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度,从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练,导致模型精度下降且GPU利用率较低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种GPU加速神经网络训练的方法的流程示意图;
图2为本申请实施例提供的一种GPU加速神经网络训练的装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于GPU加速神经网络训练的方法的流程示意图,如图1所示,该方法的步骤包括:
S1,从预设数据集中划分出第N子数据集;
需要说明的是,本申请实施例中的预设数据集可以针对不同应用场景的训练过程,例如图像识别、人脸识别、数据筛选等训练过程。也即,该预设数据可以是图像识别训练过程中的各种不同的图像数据,也可以是人脸识别训练过程中各种不同的人脸图像数据等。
S2,基于第N子数据集对与GPU关联的初始神经网络进行训练,并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;
在本申请实施例的具体示例中,该指标参数可以是GPU中影响神经网络模型训练加速的映射设备,例如,核心频率H、显存容量D、显存带宽K、显存速度V。此外,训练速度是指在训练神经网络模型的时候,神经网络模型的训练速度,在神经网络模型训练的时候,可以实时监控。
S3,在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集;其中,所述非线性模型预测函数的输入为指标参数,输出为训练速度;
在本申请实施例的具体示例中,以核心频率H、显存容量D、显存带宽K、显存速度V为例,该非线性模型预测函数是指将H、D、K、V当作输入,训练速度当作输出得到的预测函数,进一步地,该非线性模型预测函数可以是Log-Sigmoid函数。
S4,将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1,N为正整数。
通过上述步骤S1至步骤S4可知,对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度,并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数,进而重新从预设数据集中划分出第N+1子数据集,重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成,由于预设精度阈值可以根据需求设置,发明人在实验阶段发现,如果训练精度为10内的前提下,训练速度相比传统训练方法提高80%;如果训练精度为5内的前提下,训练速度相比传统训练方法提高52%;如果训练精度为2内的前提下,训练速度相比传统训练方法提高45%,由此可见,通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度,从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练,导致模型精度下降且GPU利用率较低的问题。
在本申请实施例的可选实施方式中,对于上述步骤S3中涉及到的在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数的方式,进一步可以包括:
步骤11,基于第N指标参数计算与第N训练速度关联的S1形非线性模型预测函数;
其中对于该步骤11,在具体示例中,通过如下方式来实现:
步骤21,构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V;
需要说明的是,H为核心频率、D为显存容量、K为显存带宽、V为显存速度;a0,a1,a2,a3,a4为预设系数,该预设系数的取值可以根据实际需求进行相应的取值,在不同的应用场景中其取值可以是不同的。
步骤22,构建初始神经网络模型中神经元函数,其中,神经元函数为S形非线性模型预测函数S=1/(1+e^-y),-y为幂数;
步骤23,基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数:
Figure 440882DEST_PATH_IMAGE001
其中,第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V。
对于上述步骤23中的基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数,其具体过程可以先进行梯度下降,然后将核心频率H、显存容量D、显存带宽K、显存速度V作为S形非线性模型预测函数输入进行训练,从而可以得到对应的训练速度。
步骤12,基于第N指标参数计算与第N子数据集关联的S2形非线性模型预测函数;
其中,对于该步骤12在具体示例中可以通过以下公式计算第N指标参数与第N子数据集的S2形非线性模型预测函数:
Figure 639782DEST_PATH_IMAGE002
其中,ρ1为H与第N子数据集的皮尔逊相关系数,ρ2为D与第N子数据集的皮尔逊相关系数,ρ3为K与第N子数据集的皮尔逊相关系数,ρ4为V与第N子数据集的皮尔逊相关系数。
步骤13,在第N训练速度为最大值的情况下,基于S1形非线性模型预测函数得到第N指标参数的最大值;
步骤14,基于S2形非线性模型预测函数与最大值的第N指标参数最小几何距离下的第N+1指标参数。
其中,对于该步骤14在具体示例中可以是基于S2形非线性模型预测函数从预设数据集中确定与最大值的第N指标参数最小几何距离下的第N+1指标参数。
下面结合本申请实施例的具体实施方式对本申请进行举例说明;该具体实施方式提供了一种基于GPU核心指标的深度学习神经网络加速训练方法,该方法的步骤包括:
步骤201,对数据集A,进行初始分配,得到子数据集A1,设置精度阈值L;
步骤202,训练A1,并对A1下的H、D、K、V、Vmodelo、ACC1的数据进行采集;
步骤203,计算H、D、K、V关于Vmodelo的S1形非线性模型预测函数,通过皮尔逊相关系数计算关于H、D、K、V与A1的S2形非线性模型预测函数;
步骤204,计算S1形非线性模型预测函数的极大值Vmodelo下的Hmax、Dmax、Kmax、Vmax
步骤205,计算S2形非线性模型预测函数与Hmax、Dmax、Kmax、Vmax最小几何距离下的H、D、K、V,并求得A2;
步骤206,重复201至步骤205,得到数据集A3
步骤207,模型精度/ACC2-ACC1/<L阈值,如果满足条件更新下一个子数据集为A3,反之为A2,直到训练完成。
由于预设精度阈值可以根据需求设置,发明人在实验阶段发现,如果训练精度为10内的前提下,训练速度相比传统训练方法提高80%;如果训练精度为5内的前提下,训练速度相比传统训练方法提高52%;如果训练精度为2内的前提下,训练速度相比传统训练方法提高45%,由此可见,通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度,也就是说,通过上述步骤201至步骤207,可以在保障模型的精度前提下实现了硬件资源的合理分配,提高了GPU利用率。
对应于上述图1,本申请实施例还提供了一种基于图形处理器GPU加速神经网络训练的装置,如图2所示,该装置还包括:
划分模块22,用于执行步骤S1:从预设数据集中划分出第N子数据集;
第一处理模块24,用于执行步骤S2:基于第N子数据集对与GPU关联的初始神经网络进行训练,并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;
第二处理模块26,用于执行步骤S3:在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集;其中,非线性模型预测函数的输入为指标参数,输出为训练速度;
第二处理模块28,用于执行步骤S4:将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1,N为正整数。
通过上述装置,对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度,并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数,进而重新从预设数据集中划分出第N+1子数据集,重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成,由于预设精度阈值可以根据需求设置,发明人在实验阶段发现,如果训练精度为10内的前提下,训练速度相比传统训练方法提高80%;如果训练精度为5内的前提下,训练速度相比传统训练方法提高52%;如果训练精度为2内的前提下,训练速度相比传统训练方法提高45%,由此可见,通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度,从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练,导致模型精度下降且GPU利用率较低的问题。
可选地,本申请实施例中的第二处理模块28进一步可以包括:第一计算单元,用于基于第N指标参数计算与第N训练速度关联的S1形非线性模型预测函数;第二计算单元,用于基于第N指标参数计算与第N子数据集关联的S2形非线性模型预测函数;第三计算单元,用于在第N训练速度为最大值的情况下,基于S1形非线性模型预测函数得到第N指标参数的最大值;第四计算单元,用于基于S2形非线性模型预测函数与最大值的第N指标参数最小几何距离下的第N+1指标参数。
可选地,本申请实施例中的第一计算单元进一步可以包括:第一构建子单元,用于构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V;第二构建子单元,用于构建初始神经网络模型中神经元函数,其中,神经元函数为S形非线性模型预测函数S=1/(1+e^-y),-y为幂数;第一计算子单元,用于基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数:
Figure DEST_PATH_IMAGE003
;其中,第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V;a0,a1,a2,a3,a4为预设系数。
可选地,本申请实施例中的第二计算单元进一步可以包括:第二计算子单元,用于通过以下公式计算第N指标参数与第N子数据集的S2形非线性模型预测函数:
Figure 370978DEST_PATH_IMAGE004
;其中,ρ1为H与第N子数据集的皮尔逊相关系数,ρ2为D与第N子数据集的皮尔逊相关系数,ρ3为K与第N子数据集的皮尔逊相关系数,ρ4为V与第N子数据集的皮尔逊相关系数。
可选地,本申请实施例中的第四计算单元进一步可以包括:第三计算子单元,用于基于S2形非线性模型预测函数从预设数据集中确定与最大值的第N指标参数最小几何距离下的第N+1指标参数。
如图3所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的基于图形处理器GPU加速神经网络训练的方法,其技术效果也是一样的,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于图形处理器GPU加速神经网络训练方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于图形处理器GPU加速神经网络训练的方法,其特征在于,包括:
S1,从预设数据集中划分出第N子数据集;
S2,基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练,并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;
S3,在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集;其中,所述非线性模型预测函数的输入为指标参数,输出为训练速度;
S4,将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次步骤S2至步骤S3,N取值加1,N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数包括:
基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数;
基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数;
在所述第N训练速度为最大值的情况下,基于所述S1形非线性模型预测函数得到所述第N指标参数的最大值;
基于所述S2形非线性模型预测函数与最大值的所述第N指标参数最小几何距离下的所述第N+1指标参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数,包括:
构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V;
构建所述初始神经网络模型中神经元函数,其中,所述神经元函数为S形非线性模型预测函数S=1/(1+e^-y),-y为幂数;
基于所述线性函数和所述S形非线性模型预测函数得到所述S1形非线性模型预测函数:
Figure 833706DEST_PATH_IMAGE001
其中,所述第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V;a0,a1,a2,a3,a4为预设系数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数,包括:
通过以下公式计算第N指标参数与所述第N子数据集的所述S2形非线性模型预测函数:
Figure 648078DEST_PATH_IMAGE002
其中,ρ1为H与所述第N子数据集的皮尔逊相关系数,ρ2为D与所述第N子数据集的皮尔逊相关系数,ρ3为K与所述第N子数据集的皮尔逊相关系数,ρ4为V与所述第N子数据集的皮尔逊相关系数。
5.根据权利要求2或4所述的方法,其特征在于,基于所述S2形非线性模型预测函数与最大值的所述第N指标参数最小几何距离下的所述第N+1指标参数,包括:
基于所述S2形非线性模型预测函数从所述预设数据集中确定与最大值的所述第N指标参数最小几何距离下的所述第N+1指标参数。
6.一种基于图形处理器GPU加速神经网络训练的装置,其特征在于,包括:
划分模块,用于执行步骤S1:从预设数据集中划分出第N子数据集;
第一处理模块,用于执行步骤S2:基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练,并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度;
第二处理模块,用于执行步骤S3:在第N训练速度为最大值的情况下,基于非线性模型预测函数确定第N+1指标参数,并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集;其中,所述非线性模型预测函数的输入为指标参数,输出为训练速度;
第二处理模块,用于执行步骤S4:将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3,直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值,得到目标神经网络模型,其中,N的取值从1开始每重复执行一次上述步骤S2至步骤S3,N取值加1,N为正整数。
7.根据权利要求6所述的装置,其特征在于,所述第二处理模块包括:
第一计算单元,用于基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数;
第二计算单元,用于基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数;
第三计算单元,用于在所述第N训练速度为最大值的情况下,基于所述S1形非线性模型预测函数得到所述第N指标参数的最大值;
第四计算单元,用于基于所述S2形非线性模型预测函数与最大值的所述第N指标参数最小几何距离下的所述第N+1指标参数。
8.根据权利要求7所述的装置,其特征在于,所述第一计算单元包括:
第一构建子单元,用于构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V;
第二构建子单元,用于构建所述初始神经网络模型中神经元函数,其中,所述神经元函数为S形非线性模型预测函数S=1/(1+e^-y),-y为幂数;
第一计算子单元,用于基于所述线性函数和所述S形非线性模型预测函数得到所述S1形非线性模型预测函数:
Figure 470541DEST_PATH_IMAGE003
其中,所述第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V;a0,a1,a2,a3,a4为预设系数。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法步骤。
CN202210896081.2A 2022-07-28 2022-07-28 基于gpu加速神经网络训练方法、装置及存储介质 Active CN114997390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210896081.2A CN114997390B (zh) 2022-07-28 2022-07-28 基于gpu加速神经网络训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896081.2A CN114997390B (zh) 2022-07-28 2022-07-28 基于gpu加速神经网络训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114997390A true CN114997390A (zh) 2022-09-02
CN114997390B CN114997390B (zh) 2022-11-15

Family

ID=83022822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896081.2A Active CN114997390B (zh) 2022-07-28 2022-07-28 基于gpu加速神经网络训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114997390B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272118A (zh) * 2018-08-10 2019-01-25 北京达佳互联信息技术有限公司 数据训练方法、装置、设备及存储介质
CN112101545A (zh) * 2020-08-28 2020-12-18 北京百度网讯科技有限公司 蒸馏系统的训练方法、装置、设备及存储介质
US20210117776A1 (en) * 2019-10-22 2021-04-22 Baidu Usa Llc Method, electronic device and computer readable medium for information processing for accelerating neural network training
CN112784968A (zh) * 2021-01-29 2021-05-11 东南大学 一种加速分布式深度神经网络训练的混合流水线并行方法
US20210201433A1 (en) * 2019-12-27 2021-07-01 Qualcomm Incorporated Adaptive dispatch for acceleration of deep neural networks on graphic processing units
CN114692865A (zh) * 2020-12-31 2022-07-01 安徽寒武纪信息科技有限公司 一种神经网络量化训练方法、装置及相关产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272118A (zh) * 2018-08-10 2019-01-25 北京达佳互联信息技术有限公司 数据训练方法、装置、设备及存储介质
US20210117776A1 (en) * 2019-10-22 2021-04-22 Baidu Usa Llc Method, electronic device and computer readable medium for information processing for accelerating neural network training
US20210201433A1 (en) * 2019-12-27 2021-07-01 Qualcomm Incorporated Adaptive dispatch for acceleration of deep neural networks on graphic processing units
CN112101545A (zh) * 2020-08-28 2020-12-18 北京百度网讯科技有限公司 蒸馏系统的训练方法、装置、设备及存储介质
CN114692865A (zh) * 2020-12-31 2022-07-01 安徽寒武纪信息科技有限公司 一种神经网络量化训练方法、装置及相关产品
CN112784968A (zh) * 2021-01-29 2021-05-11 东南大学 一种加速分布式深度神经网络训练的混合流水线并行方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方程 等: "一种基于GPU的高性能稀疏卷积神经网络优化", 《计算机工程与科学》 *

Also Published As

Publication number Publication date
CN114997390B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Dong et al. Integrating experts' weights generated dynamically into the consensus reaching process and its applications in managing non-cooperative behaviors
CN109949255B (zh) 图像重建方法及设备
CN112668128A (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN111159425A (zh) 一种基于历史关系和双图卷积网络的时态知识图谱表示方法
WO2018099084A1 (zh) 一种神经网络模型训练方法、装置、芯片和系统
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
JP7287397B2 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
CN110138595A (zh) 动态加权网络的时间链路预测方法、装置、设备及介质
CN112436992B (zh) 基于图卷积网络的虚拟网络映射方法及装置
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN112529069A (zh) 一种半监督节点分类方法、系统、计算机设备和存储介质
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN113377990B (zh) 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN106021289A (zh) 基于节点用户的概率矩阵分解模型的构建方法
CN114997390B (zh) 基于gpu加速神经网络训练方法、装置及存储介质
CN116431816B (zh) 一种文献分类方法、装置、设备和计算机可读存储介质
CN115982480A (zh) 基于协同注意力网络和对比学习的序列推荐方法及系统
CN115761242A (zh) 一种基于卷积神经网络和模糊图像特征的去噪方法及终端机
CN114610922A (zh) 图像处理方法及装置、存储介质及电子设备
CN114707348A (zh) 偏最小二乘Kriging模型辅助的航空减速器高效全局优化方法
CN112561050B (zh) 一种神经网络模型训练方法及装置
CN112529637A (zh) 基于情景感知的服务需求动态预测方法及系统
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant