CN114462592A

CN114462592A - 模型训练方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114462592A
Application number: CN202111598070.8A
Authority: CN
Inventors: 吴建兵; 沈成; 赵斌; 白冰
Original assignee: Photon Arithmetic Beijing Technology Co ltd
Current assignee: Photon Arithmetic Beijing Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-10

Abstract

本申请提供一种模型训练方法、装置、电子设备及计算机可读存储介质，方法包括：获取对于原始模型在本轮训练中得到的模型参数；对模型参数进行量化，得到量化参数；将并行模型的模型参数更新为量化参数，并将原始模型在本轮训练中的输入数据，输入至并行模型中进行训练；其中，并行模型与原始模型的模型结构一致；根据原始模型在本轮训练中的损失值，和并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；在综合损失值不满足预设结束条件时，对原始模型的模型参数进行更新。该方案在训练过程中考虑了模型参数被量化后所产生的损失，使得最终训练得到的模型在被量化后，其损失也在可接受范围内，从而降低了模型量化后的精度损失。

Description

模型训练方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种模型训练方法、装置、电子设备及计算机可读存储介质。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的不断发展，深度神经网络也被不断应用于诸如人脸识别、智能导航、智能问诊、远程通信等等场景中。

为了满足各种AI应用场景对检测精度的要求，深度神经网络结构的宽度、层数、深度以及各类参数等数量急速上升，导致深度学习模型对于空间的需求变大，推理效率变低。同时商业对模型应用越来越倾向于从云端部署到边缘侧，受限于边缘侧设备的计算资源，需要考虑设备存储、内存、功耗及时延性等问题，特别是在移动终端和嵌入式设备等应用场景更加需要优化。

作为通用的深度学习优化的手段之一，模型量化将深度学习模型量化为更小的定点模型和更快的推理速度，其适用于绝大数模型和使用场景。

模型量化以损失推理精度为代价，将网络中连续取值或离散取值的浮点型参数(权重或张量)线性映射为定点近似的离散值，取代原有的float32格式数据，同时保持输入输出为浮点型，从而达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标。

但是，目前的量化方式是直接对训练得到的模型进行量化。通过将模型的模型参数从fp32进行同分布转换到fp16，或者通过预先准备的数据集，结合权重值分布将fp32的模型转换到int8，实现模型量化。但是，目前直接对训练得到的模型进行量化后，会存在一定程度上的精度损失。

发明内容

本申请实施例的目的在于提供一种模型训练方法、装置、电子设备及计算机可读存储介质，用以缓解现有方式得到的模型，在被量化后会出现一定程度上的精度损失的问题。

本申请实施例提供了一种模型训练方法，包括：获取对于原始模型在本轮训练中得到的模型参数；对所述模型参数进行量化，得到量化参数；将并行模型的模型参数更新为所述量化参数，并将所述原始模型在本轮训练中的输入数据，输入至所述并行模型中进行训练；其中，所述并行模型与所述原始模型的模型结构一致；根据所述原始模型在本轮训练中的损失值，和所述并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；在所述综合损失值不满足预设结束条件时，对所述原始模型的模型参数进行更新。

在上述实现过程中，通过在训练过程中采用一个与原始模型结构一致的并行模型来执行每次训练得到的量化参数，进而基于两个模型的损失值综合确定一个综合损失值，进而基于该综合损失值进行原始模型的模型参数的更新。这样，就使得训练过程中，得以考虑到模型参数被量化后所产生的损失，从而使得最终训练得到的模型，在模型参数被量化后，其损失也在可接受范围内，从而缓解现有方式得到的模型，在被量化后会出现一定程度上的精度损失的问题。

进一步地，所述方法还包括：在所述综合损失值满足预设结束条件时，输出模型参数为所述量化参数的原始模型，或输出所述并行模型。

在上述实现过程中，在综合损失值满足预设结束条件时，输出模型参数为量化参数的原始模型，或输出并行模型，这就可以直接得到训练好的模型参数量化后的量化模型，从而无需用户再基于训练好的原始模型进行后续量化处理，提高了量化效率。

进一步地，所述综合损失值为对所述原始模型在本轮训练中的损失值和所述并行模型在本轮训练中的损失值加权求和得到的值。

在上述实现过程中，通过对原始模型在本轮训练中的损失值和所述并行模型在本轮训练中的损失值加权求和得到综合损失值，从而可以有效实现对于两种损失值之间的综合。

进一步地，所述原始模型和所述并行模型所采用的损失函数相同。

在上述实现过程中，通过对原始模型和并行模型采用相同的损失函数，从而可以保证原始模型和并行模型的损失值具有相同的评价维度，从而使得两种损失值具有更高的可综合性。

进一步地，所述模型参数包括激活值和权重值；对所述模型参数进行量化，得到量化参数，包括：将所述激活值和权重值映射为目标类型的激活值和权重值，得到所述量化参数；其中，所述目标类型为预先设定的所述量化参数的数据类型。

在上述实现过程中，将激活值和权重值映射为目标类型的激活值和权重值，得到量化参数，可以保证模型参数的量化完整性。

进一步地，将所述激活值和权重值映射为目标类型的激活值和权重值，包括：按照预先设置的量化精度，将所述激活值和权重值映射为目标类型的激活值和权重值。

在上述实现过程中，通过按照预先设置的量化精度进行量化，而量化精度影响着量化模型的精度和所需的空间。通常，量化精度越高，则量化模型的精度越高，但量化模型所需的空间也会越大。相反，量化精度越低，则量化模型的精度越低，但量化模型所需的空间也会越小。从而可以通过设置量化精度，使得得到的量化模型在精度和占用空间上达到想要的平衡。

本申请实施例还提供了一种模型训练装置，包括：获取模块、量化模块、并行模型控制模块和模型更新模块；所述获取模块，用于获取对于原始模型在本轮训练中得到的模型参数；所述量化模块，用于对所述模型参数进行量化，得到量化参数；所述并行模型控制模块，用于将并行模型的模型参数更新为所述量化参数，并将所述原始模型在本轮训练中的输入数据，输入至所述并行模型中进行训练；其中，所述并行模型与所述原始模型的模型结构一致；所述模型更新模块，用于根据所述原始模型在本轮训练中的损失值，和所述并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；在所述综合损失值不满足预设结束条件时，对所述原始模型的模型参数进行更新。

进一步地，所述模型训练装置还包括：输出模块，用于在所述综合损失值满足预设结束条件时，输出模型参数为所述量化参数的原始模型，或输出所述并行模型。

本申请实施例还提供了一种电子设备，包括处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的一个或者多个程序，以实现上述任一种的模型训练方法。

本申请实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一种的模型训练方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种模型训练方法的流程示意图；

图2为本申请实施例提供的一种模型训练过程的整体架构示意图；

图3为本申请实施例提供的一种模型训练装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一：

为了降低模型量化后出现的精度损失，本申请实施例中提供了一种模型训练方法。可以参见图1所示，图1为本申请实施例中提供的模型训练方法的流程示意图，包括：

S101：获取对于原始模型在本轮训练中得到的模型参数。

应理解，在进行训练时，会构建训练样本集，并基于训练样本集中的训练样本对原始模型进行训练。模型的训练过程会存在很多轮，在本申请实施例中，会获取每一轮训练过程中原始模型得到的模型参数。

S102：对模型参数进行量化，得到量化参数。

在本申请实施例中，模型参数包括激活值和权重值。可以将激活值和权重值映射为目标类型的激活值和权重值，得到量化参数。

需要说明的是，本申请实施例中所述的目标类型是指，预先设定的量化参数的数据类型。示例性的，目标类型可以是fp16类型，可以是int8类型，可以是uint8类型等等，在本申请实施例中不做限制。

需要注意的是，在本申请实施例中，用户或工程师可以预先设定一个量化精度，从而按照该量化精度，将激活值和权重值映射为目标类型的激活值和权重值。

需要理解的是，在本申请实施例中，将激活值和权重值映射为目标类型的激活值和权重值，可以是通过将连续的小数离散为接近的整数的方式，实现将激活值和权重值映射为目标类型的激活值和权重值。

示例性的，假设一个激活值为0.125677、权重值为2.186511，量化精度为小数点后1位。那么，则可以将其量化为0.1和2.2，得到量化后的激活值和权重值。

需要说明的是，以上仅为本申请实施例所示例出的一种可选的模型将激活值和权重值映射为目标类型的激活值和权重值的方式，除此之外，本申请实施例也可采用其他各种量化方式来实现，在此不做限制。

S103：将并行模型的模型参数更新为量化参数，并将原始模型在本轮训练中的输入数据，输入至并行模型中进行训练。

需要注意的是，在本申请实施例中，并行模型应当与原始模型的模型结构一致，从而可以完整模拟出模型参数量化后的效果。

应理解，在本申请实施例中，原始模型与并行模型可以是任意已知的或未来可能出现的模型结构，比如可以是深度神经网络模型，在本申请中对此并无限制。

在本申请实施例中，在将并行模型的模型参数更新为量化参数后，会将本轮训练中原始模型的输入数据(即在本轮训练中输入至原始模型的训练样本)同样输入到并行模型中，从而使得并行模型可以模拟出量化后的执行效果。

S104：根据原始模型在本轮训练中的损失值，和并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值。

应理解，在进行模型训练时，针对模型每一轮的输出，都会通过一个损失函数计算本轮训练的损失值，从而基于损失值来确定训练效果。

在本申请实施例中，类似的，针对原始模型和并行模型而言，都会设置有一个对应的损失函数，从而根据原始模型和并行模型各自对应的损失函数，得到在本轮训练过程中，原始模型的损失值和并行模型的损失值。

需要理解的是，在本申请实施例的一种可选实施方式中，原始模型和并行模型各自对应的损失函数可以是相同的，从而可以保证原始模型和并行模型的损失值具有相同的评价维度，从而使得两种损失值具有更高的可综合性。

当然，原始模型和并行模型各自对应的损失函数也可以是不相同的，对此本申请实施例中不做限制。

在本申请实施例的一种可行实施方式中，可以对原始模型在本轮训练中的损失值和并行模型在本轮训练中的损失值加权求和得到本轮训练的综合损失值。

示例性的，可以按照公式L3＝αL1+(1-α)L2得到本轮训练的综合损失值。其中，L1为原始模型在本轮训练中损失值，L2为并行模型在本轮训练中损失值，L3为本轮训练的综合损失值，α为预设的大于0小于1的常数。

应理解，在上例中，α的值可以由工程师根据实际需要进行设置，例如可以设置为0.6。

还应理解，在本申请实施例中，除了可以通过对原始模型在本轮训练中的损失值和并行模型在本轮训练中的损失值加权求和来得到本轮训练中的综合损失值外，还可以通过其他方式得到本轮训练中的综合损失值，在本申请中不做限制。

S105：在综合损失值不满足预设结束条件时，对原始模型的模型参数进行更新。

需要理解的是，在本申请实施例中，预设结束条件可以是综合损失值收敛，或者综合损失值小于预设损失阈值等。

在本申请实施例中，在综合损失值不满足预设结束条件时，可以通过反向传播的方式，对原始模型的模型参数进行更新。

在对原始模型的模型参数进行更新之后，即进行下一轮的训练，训练过程中，重复上述图1所示的各步骤。

在本申请实施例中，在综合损失值满足预设结束条件时，即表明已经得到了符合预期的模型。此时，可以使用最后一轮训练中的量化参数替换原始模型中的模型参数，进而直接输出模型参数为量化参数的原始模型，得到用户所需的量化模型。

此外，由于并行模型的模型结构是与原始模型的模型结构一致的，因此也可以直接输出在综合损失值满足预设结束条件时的并行模型，此时由于并行模型中的模型参数就是最后一轮训练中的量化参数，因此此时的并行模型就是用户所需的量化模型，从而通过直接输出训练结束时的并行模型，就可以直接得到用户所需的量化模型。

此外，在本申请实施例中，在综合损失值满足预设结束条件时，也可以是输出的训练好的原始模型。从而后续用户或工程师可以根据实际需要，在需要量化模型时再对该原始模型进行量化，在不需要量化模型时则可以直接使用该未经量化的原始模型，从而可以具有更为灵活的使用效果。

需要理解的是，本申请实施例所提供的模型训练方法，可以由具有数据处理能力的电子设备(如电脑、服务器等)执行实现，也可以由具有数据处理能力的电子设备(如服务器集群等)执行实现，在此不做限制。

还需要理解的是，本申请实施例所提供的模型训练方法，可以应用于各种具有模型使用与训练需求的场景中，例如可以应用于人脸识别、瑕疵检测、智能驾驶、智能语音等各种AI场景中，为各种AI场景中的模型提供更高的量化模型精度。

本申请实施例所提供的模型训练方法，通过在训练过程中采用一个与原始模型结构一致的并行模型来执行每次训练得到的量化参数，进而基于两个模型的损失值综合确定一个综合损失值，进而基于该综合损失值进行原始模型的模型参数的更新。这样，就使得训练过程中，得以考虑到模型参数被量化后所产生的损失，从而使得最终训练得到的模型，在模型参数被量化后，其损失也在可接受范围内，从而缓解现有方式得到的模型，在被量化后会出现一定程度上的精度损失的问题。

实施例二：

本实施例在实施例一的基础上，以一种将数据类型为fp32的原始模型量化为数据类型为int8的量化模型的过程为例，为本申请做进一步示例说明。

参见图2所示，图2为本实施例方案的整体架构图。

在任一训练轮次中：

首先，将训练样本输入原始模型中，得到原始模型的浮点激活值、浮点权重值，并通过损失函数得到损失值L1。

然后，将浮点激活值和浮点权重值进行量化操作。以量化后的激活值和权重值，更新并行模型。

其中，并行模型的模型结构与原始模型的模型结构完全一致。

然后，把本轮次输入到原始模型的训练样本，同样输入到并行模型中，并通过损失函数得到损失值L2。

接着，对L1和L2进行加权计算，公式如下：

L3＝αL1+(1-α)L2。

其中，α为量化损失因子，表示量化操作对原模型损失函数影响的重要程度。

最后，根据损失值L3，确定损失值是否收敛。

若未收敛，则通过反向传播，优化原始模型的权重值，继续按照上述过程进行训练。

若收敛，则输出最后一轮训练过程中所得到的并行模型。

这样，既可以达到量化权重值的目的，也能保证精度损失维持在一定的数值。

实施例三：

基于同一发明构思，本申请实施例中还提供了一种模型训练装置300。请参阅图3所示，图3示出了采用图1所示的方法的模型训练装置。应理解，装置300具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置300包括至少一个能以软件或固件的形式存储于存储器中或固化在装置300的操作系统中的软件功能模块。具体地：

参见图3所示，装置300包括：获取模块301、量化模块302、并行模型控制模块303和模型更新模块304。其中：

所述获取模块301，用于获取对于原始模型在本轮训练中得到的模型参数；

所述量化模块302，用于对所述模型参数进行量化，得到量化参数；

所述并行模型控制模块303，用于将并行模型的模型参数更新为所述量化参数，并将所述原始模型在本轮训练中的输入数据，输入至所述并行模型中进行训练；其中，所述并行模型与所述原始模型的模型结构一致；

所述模型更新模块304，用于根据所述原始模型在本轮训练中的损失值，和所述并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；在所述综合损失值不满足预设结束条件时，对所述原始模型的模型参数进行更新。

在本申请实施例中，模型训练装置300还可以包括输出模块，用于在所述综合损失值满足预设结束条件时，输出模型参数为所述量化参数的原始模型，或输出所述并行模型。

在本申请实施例中，所述综合损失值为对所述原始模型在本轮训练中的损失值和所述并行模型在本轮训练中的损失值加权求和得到的值。

在本申请实施例中，所述原始模型和所述并行模型所采用的损失函数相同。

在本申请实施例的一种可行实施方式中，所述模型参数包括激活值和权重值；所述量化模块302具体用于，将所述激活值和权重值映射为目标类型的激活值和权重值，得到所述量化参数；其中，所述目标类型为预先设定的所述量化参数的数据类型。

在上述可行实施方式中，所述量化模块302具体用于，按照预先设置的量化精度，将所述激活值和权重值映射为目标类型的激活值和权重值。

需要理解的是，出于描述简洁的考量，部分实施例一中描述过的内容在本实施例中不再赘述。

实施例四：

本实施例提供了一种电子设备，参见图4所示，其包括处理器401、存储器402以及通信总线403。其中：

通信总线403用于实现处理器401和存储器402之间的连接通信。

处理器401用于执行存储器402中存储的一个或多个第一程序，以实现上述实施例一和/或实施例二中的模型训练方法。

可以理解，图4所示的结构仅为示意，电子设备还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

需要说明的是，本申请实施例中所述的电子设备可以是诸如电脑、服务器等具有数据处理能力的设备。

本实施例还提供了一种计算机可读存储介质，如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card，安全数码卡)卡、MMC(Multimedia Card，多媒体卡)卡等，在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序，这一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例一和/或实施例二中的模型训练方法。在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

在本文中，多个是指两个或两个以上。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取对于原始模型在本轮训练中得到的模型参数；

对所述模型参数进行量化，得到量化参数；

将并行模型的模型参数更新为所述量化参数，并将所述原始模型在本轮训练中的输入数据，输入至所述并行模型中进行训练；其中，所述并行模型与所述原始模型的模型结构一致；

根据所述原始模型在本轮训练中的损失值，和所述并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；

在所述综合损失值不满足预设结束条件时，对所述原始模型的模型参数进行更新。

2.如权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

在所述综合损失值满足预设结束条件时，输出模型参数为所述量化参数的原始模型，或输出所述并行模型。

3.如权利要求1所述的模型训练方法，其特征在于，所述综合损失值为对所述原始模型在本轮训练中的损失值和所述并行模型在本轮训练中的损失值加权求和得到的值。

4.如权利要求1-3任一项所述的模型训练方法，其特征在于，所述原始模型和所述并行模型所采用的损失函数相同。

5.如权利要求1-3任一项所述的模型训练方法，其特征在于，所述模型参数包括激活值和权重值；

对所述模型参数进行量化，得到量化参数，包括：

将所述激活值和权重值映射为目标类型的激活值和权重值，得到所述量化参数；其中，所述目标类型为预先设定的所述量化参数的数据类型。

6.如权利要求5所述的模型训练方法，其特征在于，将所述激活值和权重值映射为目标类型的激活值和权重值，包括：

按照预先设置的量化精度，将所述激活值和权重值映射为目标类型的激活值和权重值。

7.一种模型训练装置，其特征在于，包括：获取模块、量化模块、并行模型控制模块和模型更新模块；

所述获取模块，用于获取对于原始模型在本轮训练中得到的模型参数；

所述量化模块，用于对所述模型参数进行量化，得到量化参数；

所述并行模型控制模块，用于将并行模型的模型参数更新为所述量化参数，并将所述原始模型在本轮训练中的输入数据，输入至所述并行模型中进行训练；其中，所述并行模型与所述原始模型的模型结构一致；

所述模型更新模块，用于根据所述原始模型在本轮训练中的损失值，和所述并行模型在本轮训练中的损失值，确定出本轮训练的综合损失值；在所述综合损失值不满足预设结束条件时，对所述原始模型的模型参数进行更新。

8.如权利要求7所述的模型训练装置，其特征在于，所述模型训练装置还包括：

输出模块，用于在所述综合损失值满足预设结束条件时，输出模型参数为所述量化参数的原始模型，或输出所述并行模型。

9.一种电子设备，其特征在于，包括：处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的一个或者多个程序，以实现如权利要求1至6任一项所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至6任一项所述的模型训练方法。