CN114997390B

CN114997390B - 基于gpu加速神经网络训练方法、装置及存储介质

Info

Publication number: CN114997390B
Application number: CN202210896081.2A
Authority: CN
Inventors: 陈彪; 黄雪峰
Original assignee: Shenzhen Xinrun Fulian Digital Technology Co Ltd
Current assignee: Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-15
Anticipated expiration: 2042-07-28
Also published as: CN114997390A

Abstract

本申请涉及一种基于GPU加速神经网络训练方法、装置及存储介质，其中，该方法包括：S1,从预设数据集中划分出第N子数据集；S2,基于第N子数据集对与GPU关联的初始神经网络进行训练，并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；S3,在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集；S4，将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1。

Description

基于GPU加速神经网络训练方法、装置及存储介质

技术领域

本申请涉及神经网络模型领域，尤其涉及一种基于GPU加速神经网络训练方法、装置及存储介质。

背景技术

目前神经网络使用的主流硬件是图形处理器（Graphics Processing Unit，GPU），其GPU的底层结构包括运算器（Arithmetic and Logic Unit，ALU）、控制单元（ControlUnit，CU）、寄存器（Register）、高速缓存器（Cache）和它们之间通讯的数据，其中，运算器是完成算数运算、逻辑运算以及暂存结果的基本单元，也是其核心单元。

目前网络剪枝、网络量化、低秩分解、知识蒸馏、紧致型网络的设计和神经框架搜索等从模型参数出发，本质是从网络的角度出发，减少参数进而减少算数运算、逻辑运算的量。具体地，现有技术中采用通过减少模型参数数量和降低运算复杂度，以保持最小的网络性能损失。但随着网络参数的降低以及网络层数的减少，模型的精度也会出现下降的情况。此外，通过减少模型参数数量和降低运算复杂度，以保持最小的网络性能损失，其运算量虽然会随之减少，但也容易造成部分的ALU没有得到充分的利用，导致GPU利用率较低，进而造成硬件资源浪费。

针对相关技术中的上述问题，目前尚未存在有效的解决方案。

发明内容

本申请提供了一种GPU加速神经网络训练方法、装置及存储介质，以解决现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练，导致模型精度下降且GPU利用率较低的问题。

第一方面，本申请提供了一种基于图形处理器GPU加速神经网络训练的方法，包括：S1,从预设数据集中划分出第N子数据集；S2,基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练，并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；S3,在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集；其中，所述非线性模型预测函数的输入为指标参数，输出为训练速度；S4，将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1，N为正整数。

第二方面，本申请提供了一种基于图形处理器GPU加速神经网络训练的装置，包括：划分模块，用于执行步骤S1：从预设数据集中划分出第N子数据集；第一处理模块，用于执行步骤S2：基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练，并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；第二处理模块，用于执行步骤S3：在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集；其中，所述非线性模型预测函数的输入为指标参数，输出为训练速度；第二处理模块，用于执行步骤S4：将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1，N为正整数。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度，并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数，进而重新从预设数据集中划分出第N+1子数据集，重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成，由于预设精度阈值可以根据需求设置，发明人在实验阶段发现，如果训练精度为10内的前提下，训练速度相比传统训练方法提高80%；如果训练精度为5内的前提下，训练速度相比传统训练方法提高52%；如果训练精度为2内的前提下，训练速度相比传统训练方法提高45%，由此可见，通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度，从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练，导致模型精度下降且GPU利用率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种GPU加速神经网络训练的方法的流程示意图；

图2为本申请实施例提供的一种GPU加速神经网络训练的装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种基于GPU加速神经网络训练的方法的流程示意图，如图1所示，该方法的步骤包括：

S1,从预设数据集中划分出第N子数据集；

需要说明的是，本申请实施例中的预设数据集可以针对不同应用场景的训练过程，例如图像识别、人脸识别、数据筛选等训练过程。也即，该预设数据可以是图像识别训练过程中的各种不同的图像数据，也可以是人脸识别训练过程中各种不同的人脸图像数据等。

S2,基于第N子数据集对与GPU关联的初始神经网络进行训练，并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；

在本申请实施例的具体示例中，该指标参数可以是GPU中影响神经网络模型训练加速的映射设备，例如，核心频率H、显存容量D、显存带宽K、显存速度V。此外，训练速度是指在训练神经网络模型的时候，神经网络模型的训练速度，在神经网络模型训练的时候，可以实时监控。

S3,在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集；其中，所述非线性模型预测函数的输入为指标参数，输出为训练速度；

在本申请实施例的具体示例中，以核心频率H、显存容量D、显存带宽K、显存速度V为例，该非线性模型预测函数是指将H、D、K、V当作输入，训练速度当作输出得到的预测函数，进一步地，该非线性模型预测函数可以是Log-Sigmoid函数。

S4，将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1，N为正整数。

通过上述步骤S1至步骤S4可知，对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度，并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数，进而重新从预设数据集中划分出第N+1子数据集，重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成，由于预设精度阈值可以根据需求设置，发明人在实验阶段发现，如果训练精度为10内的前提下，训练速度相比传统训练方法提高80%；如果训练精度为5内的前提下，训练速度相比传统训练方法提高52%；如果训练精度为2内的前提下，训练速度相比传统训练方法提高45%，由此可见，通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度，从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练，导致模型精度下降且GPU利用率较低的问题。

在本申请实施例的可选实施方式中，对于上述步骤S3中涉及到的在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数的方式，进一步可以包括：

步骤11，基于第N指标参数计算与第N训练速度关联的S1形非线性模型预测函数；

其中对于该步骤11，在具体示例中，通过如下方式来实现：

步骤21，构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V；

需要说明的是，H为核心频率、D为显存容量、K为显存带宽、V为显存速度；a0，a1，a2，a3，a4为预设系数，该预设系数的取值可以根据实际需求进行相应的取值，在不同的应用场景中其取值可以是不同的。

步骤22，构建初始神经网络模型中神经元函数，其中，神经元函数为S形非线性模型预测函数S=1/(1+e^-y)，-y为幂数；

步骤23，基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数：

；

其中，第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V。

对于上述步骤23中的基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数，其具体过程可以先进行梯度下降，然后将核心频率H、显存容量D、显存带宽K、显存速度V作为S形非线性模型预测函数输入进行训练，从而可以得到对应的训练速度。

步骤12，基于第N指标参数计算与第N子数据集关联的S2形非线性模型预测函数；

其中，对于该步骤12在具体示例中可以通过以下公式计算第N指标参数与第N子数据集的S2形非线性模型预测函数:

；

其中，ρ1为H与第N子数据集的皮尔逊相关系数，ρ2为D与第N子数据集的皮尔逊相关系数，ρ3为K与第N子数据集的皮尔逊相关系数，ρ4为V与第N子数据集的皮尔逊相关系数。

步骤13，在第N训练速度为最大值的情况下，基于S1形非线性模型预测函数得到第N指标参数的最大值；

步骤14，基于S2形非线性模型预测函数与最大值的第N指标参数最小几何距离下的第N+1指标参数。

其中，对于该步骤14在具体示例中可以是基于S2形非线性模型预测函数从预设数据集中确定与最大值的第N指标参数最小几何距离下的第N+1指标参数。

下面结合本申请实施例的具体实施方式对本申请进行举例说明；该具体实施方式提供了一种基于GPU核心指标的深度学习神经网络加速训练方法，该方法的步骤包括：

步骤201，对数据集A，进行初始分配，得到子数据集A₁，设置精度阈值L；

步骤202，训练A₁，并对A₁下的H、D、K、V、V_modelo、ACC1的数据进行采集；

步骤203，计算H、D、K、V关于V_modelo的S1形非线性模型预测函数，通过皮尔逊相关系数计算关于H、D、K、V与A1的S2形非线性模型预测函数；

步骤204，计算S1形非线性模型预测函数的极大值V_modelo下的H_max、D_max、K_max、V_max；

步骤205，计算S2形非线性模型预测函数与H_max、D_max、K_max、V_max最小几何距离下的H、D、K、V，并求得A2;

步骤206，重复201至步骤205，得到数据集A₃；

步骤207，模型精度/ACC2-ACC1/<L阈值，如果满足条件更新下一个子数据集为A₃，反之为A₂，直到训练完成。

由于预设精度阈值可以根据需求设置，发明人在实验阶段发现，如果训练精度为10内的前提下，训练速度相比传统训练方法提高80%；如果训练精度为5内的前提下，训练速度相比传统训练方法提高52%；如果训练精度为2内的前提下，训练速度相比传统训练方法提高45%，由此可见，通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度，也就是说，通过上述步骤201至步骤207，可以在保障模型的精度前提下实现了硬件资源的合理分配，提高了GPU利用率。

对应于上述图1，本申请实施例还提供了一种基于图形处理器GPU加速神经网络训练的装置，如图2所示，该装置还包括：

划分模块22，用于执行步骤S1：从预设数据集中划分出第N子数据集；

第一处理模块24，用于执行步骤S2：基于第N子数据集对与GPU关联的初始神经网络进行训练，并获取GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；

第二处理模块26，用于执行步骤S3：在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于第N+1指标参数重新从预设数据集中划分出第N+1子数据集；其中，非线性模型预测函数的输入为指标参数，输出为训练速度；

第二处理模块28，用于执行步骤S4：将第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1，N为正整数。

通过上述装置，对于初始神经网络模型的训练过程中实时获取各硬件设备的第N指标参数和第N训练速度，并在第N训练速度为最大值的情况下基于非线性模型预测函数得到对应的指标参数，进而重新从预设数据集中划分出第N+1子数据集，重复上述过程直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值表明训练完成，由于预设精度阈值可以根据需求设置，发明人在实验阶段发现，如果训练精度为10内的前提下，训练速度相比传统训练方法提高80%；如果训练精度为5内的前提下，训练速度相比传统训练方法提高52%；如果训练精度为2内的前提下，训练速度相比传统训练方法提高45%，由此可见，通过本申请实施例的方式在保证训练精度的前提下还能够明显提升神经网络模型的训练速度，从而解决了现有技术中通过减少模型参数数量和降低运算复杂度方式进行神经网络模型训练，导致模型精度下降且GPU利用率较低的问题。

可选地，本申请实施例中的第二处理模块28进一步可以包括：第一计算单元，用于基于第N指标参数计算与第N训练速度关联的S1形非线性模型预测函数；第二计算单元，用于基于第N指标参数计算与第N子数据集关联的S2形非线性模型预测函数；第三计算单元，用于在第N训练速度为最大值的情况下，基于S1形非线性模型预测函数得到第N指标参数的最大值；第四计算单元，用于基于S2形非线性模型预测函数与最大值的第N指标参数最小几何距离下的第N+1指标参数。

可选地，本申请实施例中的第一计算单元进一步可以包括：第一构建子单元，用于构建线性函数y=a0+a1*H+a2*D+a3*K+a4*V；第二构建子单元，用于构建初始神经网络模型中神经元函数，其中，神经元函数为S形非线性模型预测函数S=1/(1+e^-y)，-y为幂数；第一计算子单元，用于基于线性函数和S形非线性模型预测函数得到S1形非线性模型预测函数：

；其中，第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V；a0，a1，a2，a3，a4为预设系数。

可选地，本申请实施例中的第二计算单元进一步可以包括：第二计算子单元，用于通过以下公式计算第N指标参数与第N子数据集的S2形非线性模型预测函数:

；其中，ρ1为H与第N子数据集的皮尔逊相关系数，ρ2为D与第N子数据集的皮尔逊相关系数，ρ3为K与第N子数据集的皮尔逊相关系数，ρ4为V与第N子数据集的皮尔逊相关系数。

可选地，本申请实施例中的第四计算单元进一步可以包括：第三计算子单元，用于基于S2形非线性模型预测函数从预设数据集中确定与最大值的第N指标参数最小几何距离下的第N+1指标参数。

如图3所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的基于图形处理器GPU加速神经网络训练的方法，其技术效果也是一样的，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于图形处理器GPU加速神经网络训练方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图形处理器GPU加速神经网络训练的方法，其特征在于，包括：

S1,从预设数据集中划分出第N子数据集；

S2,基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练，并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；

S3,在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集；其中，所述非线性模型预测函数的输入为指标参数，输出为训练速度；

S4，将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次步骤S2至步骤S3，N取值加1，N为正整数；

其中，所述在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数包括：

基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数；

基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数；

在所述第N训练速度为最大值的情况下，基于所述S1形非线性模型预测函数得到所述第N指标参数的最大值；

基于所述S2形非线性模型预测函数从所述预设数据集中确定与最大值的所述第N指标参数最小几何距离下的所述第N+1指标参数。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数，包括：

构建线性函数y=a₀+a₁*H+a₂*D+a₃*K+a₄*V；

构建初始神经网络模型中神经元函数，其中，所述神经元函数为S形非线性模型预测函数S=1/(1+e^-y)，-y为幂数；

基于所述线性函数和所述S形非线性模型预测函数得到所述S1形非线性模型预测函数：

；

其中，所述第N指标参数包括核心频率H、显存容量D、显存带宽K、显存速度V；a₀，a₁，a₂，a₃，a₄为预设系数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数，包括：

通过以下公式计算第N指标参数与所述第N子数据集的所述S2形非线性模型预测函数:

；

其中，ρ1为H与所述第N子数据集的皮尔逊相关系数，ρ2为D与所述第N子数据集的皮尔逊相关系数，ρ3为K与所述第N子数据集的皮尔逊相关系数，ρ4为V与所述第N子数据集的皮尔逊相关系数。

4.一种基于图形处理器GPU加速神经网络训练的装置，其特征在于，包括：

划分模块，用于执行步骤S1：从预设数据集中划分出第N子数据集；

第一处理模块，用于执行步骤S2：基于所述第N子数据集对与所述GPU关联的初始神经网络进行训练，并获取所述GPU中各硬件设备的第N指标参数、第N训练速度和第N模型训练精度；

第二处理模块，用于执行步骤S3：在第N训练速度为最大值的情况下，基于非线性模型预测函数确定第N+1指标参数，并基于所述第N+1指标参数重新从所述预设数据集中划分出第N+1子数据集；其中，所述非线性模型预测函数的输入为指标参数，输出为训练速度；

第二处理模块，用于执行步骤S4：将所述第N+1子数据集替换为第N子数据集重复执行上述步骤S2至步骤S3，直到第N+1模型训练精度减去第N模型训练精度差值大于或等于预设精度阈值，得到目标神经网络模型，其中，N的取值从1开始每重复执行一次上述步骤S2至步骤S3，N取值加1，N为正整数；

其中，所述第二处理模块包括：

第一计算单元，用于基于所述第N指标参数计算与所述第N训练速度关联的S1形非线性模型预测函数；

第二计算单元，用于基于所述第N指标参数计算与所述第N子数据集关联的S2形非线性模型预测函数；

第三计算单元，用于在所述第N训练速度为最大值的情况下，基于所述S1形非线性模型预测函数得到所述第N指标参数的最大值；

第四计算单元，用于基于S2形非线性模型预测函数从预设数据集中确定与最大值的第N指标参数最小几何距离下的第N+1指标参数。

5.根据权利要求4所述的装置，其特征在于，所述第一计算单元包括：

第一构建子单元，用于构建线性函数y=a₀+a₁*H+a₂*D+a₃*K+a₄*V；

第二构建子单元，用于构建初始神经网络模型中神经元函数，其中，所述神经元函数为S形非线性模型预测函数S=1/(1+e^-y)，-y为幂数；

第一计算子单元，用于基于所述线性函数和所述S形非线性模型预测函数得到所述S1形非线性模型预测函数：

；

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-3中任一项所述的方法步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法步骤。