CN114254726A

CN114254726A - 低比特神经网络模型的获取方法、装置、设备及介质

Info

Publication number: CN114254726A
Application number: CN202011008855.0A
Authority: CN
Inventors: 张东
Original assignee: Hefei Ingenic Technology Co ltd
Current assignee: Hefei Ingenic Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-03-29

Abstract

本发明公开了一种低比特神经网络模型的获取方法、装置、设备及介质，方法包括以下步骤：获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据目标位宽获取正则化参数；对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据正则化参数对初始神经网络模型进行权重正则化；对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。由此，能够加快低比特神经网络模型的收敛速度，提高低比特神经网络模型的训练速度。

Description

低比特神经网络模型的获取方法、装置、设备及介质

技术领域

本发明涉及神经网络量化技术领域，尤其涉及一种低比特神经网络模型的获取方法、装置、设备及介质。

背景技术

近年来，随着科技的飞速发展，大数据时代已经到来。深度学习以深度神经网络(Deep Neural Networks，DNN)作为模型，在许多人工智能的关键领域取得了十分显著的成果，如图像识别、增强学习、语义分析等。卷积神经网络(Convolutional Neural Networks，CNN)作为一种典型的DNN结构，能够有效提取出图像的隐层特征，并对图像进行准确分类，在近几年的图像识别和检测领域得到了广泛的应用。但是深度神经网络模型具有大量的参数，同时需要极大的计算开销，不利于模型向移动设备、嵌入式设备等进行部署，因此需要对深度神经网络模型进行量化(压缩)，并保证其性能无显著下降。

相关技术中，通过对深度神经网络模型进行训练得到全精度神经网络模型，然后基于该模型训练获得低比特神经网络模型。在训练全精度神经网络模型时，由于全精度数表示的实数范围很广，可以满足训练过程中需要的数值范围，但是在训练低比特神经网络模型时，由于位宽限制，其表示的范围是有限的，因此导致训练过程中模型收敛速度很慢，大大加长了训练时间。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种低比特神经网络模型的获取方法，能够有效加快低比特神经网络模型的收敛速度，大大降低模型训练时间。

本发明的第二个目的在于提出一种低比特神经网络模型的获取装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出一种低比特神经网络模型的获取方法，包括以下步骤：获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据目标位宽获取正则化参数；对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据正则化参数对初始神经网络模型进行权重正则化；对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。

根据本发明实施例的低比特神经网络模型的获取方法，先对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练的过程中，根据低比特神经网络模型的目标位宽对应的正则化参数对初始神经网络模型进行权重正则化，然后对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。由于全精度神经网络模型训练的过程中，就考虑到了低比特神经网络模型的位宽问题，并且针对不同的位宽给出相应的正则化参数，使得全精度神经网络模型的权重分布更适合后续量化，从而能够加快低比特神经网络模型的收敛速度，提高低比特神经网络模型的训练速度。

根据本发明的一个实施例，根据目标位宽获取正则化参数，包括：根据目标位宽从预设数据库中获取相应的正则化参数。

根据本发明的一个实施例，初始神经网络模型包括多个带有权重的隐藏层，根据正则化参数对初始神经网络模型进行权重正则化，包括：根据正则化参数和正则化项获得惩罚项；根据惩罚项和损失函数对至少部分隐藏层进行权重正则化。

根据本发明的一个实施例，正则化参数为L2正则化参数，正则化项为L2正则化项。

根据本发明的一个实施例，如果目标位宽为8比特，则L2正则化参数为0.00005；如果目标位宽为4比特，则L2正则化参数为0.0006。

根据本发明的一个实施例，在对全精度神经网络模型进行训练得到低比特神经网络模型的过程中，将正则化参数置为零。

根据本发明的一个实施例，对全精度神经网络模型进行训练得到低比特神经网络模型，包括：对全精度神经网络模型进行训练得到具有第一位宽的神经网络模型；对具有第一位宽的神经网络模型进行训练得到低比特神经网络模型，其中第一位宽大于低比特神经网络模型的目标位宽。

为达到上述目的，本发明第二方面实施例提出了一种低比特神经网络模型的获取装置，包括：获取模块，用于获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据目标位宽获取正则化参数；第一训练模块，用于对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据正则化参数对初始神经网络模型进行权重正则化；第二训练模块，用于对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。

根据本发明实施例的低比特神经网络模型的获取装置，先对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练的过程中，根据低比特神经网络模型的目标位宽对应的正则化参数对初始神经网络模型进行权重正则化，然后对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。由于全精度神经网络模型训练的过程中，就考虑到了低比特神经网络模型的位宽问题，并且针对不同的位宽给出相应的正则化参数，使得全精度神经网络模型的权重分布更适合后续量化，从而能够加快低比特神经网络模型的收敛速度，提高低比特神经网络模型的训练速度。

为达到上述目的，本发明第三方面实施例提出一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

根据本发明实施例的计算机设备，通过执行上述的低比特神经网络模型的获取方法，能够有效加快低比特神经网络模型的收敛速度，提高低比特神经网络模型的训练速度。

为达到上述目的，本发明第四方面实施例提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

根据本发明实施例的计算机可读存储介质，通过执行上述的低比特神经网络模型的获取方法，能够有效加快低比特神经网络模型的收敛速度，提高低比特神经网络模型的训练速度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为根据本发明一个实施例的低比特神经网络模型的获取方法的流程图；

图2为根据本发明一个实施例的初始神经网络模型的结构示意图；

图3为根据本发明一个实施例的低比特神经网络模型的获取装置的结构示意图；

图4为根据本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例提出的低比特神经网络模型的获取方法、装置、设备及介质。

图1为根据本发明一个实施例的低比特神经网络模型的获取方法的流程图，参考图1所示，该低比特神经网络模型的获取方法可包括以下步骤：

步骤S101，获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据目标位宽获取正则化参数。

初始神经网络模型为待训练的神经网络模型，可以是卷积神经网络模型、全连接前馈神经网络模型等深度神经网络模型。参考图2所示，初始神经网络模型可由输入层、多个隐藏层和输出层串联组成，其中输入层用于读取输入数据，例如图像数据等，并输出活性值；多个隐藏层中的第一个隐藏层读取输入层输出的活性值，并输出新的活性值，下一层隐藏层读取上一层隐藏层的活性值并输出新的活性值，依次传递下去，直至最后一个隐藏层将输出的活性值传递给输出层，由输出层输出相应的结果，例如图像对应的分类概率。

低比特是指将数据量化(压缩)为位宽为8比特、4比特或2比特的数据。低比特神经网络模型是指通过对初始神经网络模型进行量化获得的具有低比特位宽的神经网络模型，例如8比特位宽的神经网络模型、4比特位宽的神经网络模型等。量化是指将信号的连续取值或者大量可能的离散取值近似为有限多个或较少个的离散值的过程。低比特神经网络模型的目标位宽是指低比特神经网络模型对应的位宽，例如8比特位宽的神经网络模型的目标位宽为8比特，4比特位宽的神经网络模型的目标位宽为4比特。

当需要获得低比特神经网络模型时，可先选择初始神经网络模型，并确定对模型进行训练所需的数据集，例如以Imagenet图片分类数据作为数据集，以Resnet-50作为初始神经网络模型的网络结构等。然后，确定所要获得的低比特神经网络模型的目标位宽，例如8比特、4比特等，并根据目标位宽获取模型训练过程中所需的正则化参数，如L2正则化参数。

在一个实施例中，根据目标位宽获取正则化参数包括：根据目标位宽从预设数据库中获取相应的正则化参数。其中，预设数据库中存储有与目标位宽相对应的正则化参数，该正则化参数可以是通过大量实验测试获得，也可以是基于经验数据分析获得，例如当正则化参数为L2正则化参数时，如果目标位宽为8比特，则L2正则化参数可为0.00005；如果目标位宽为4比特，则L2正则化参数可为0.0006。通过设置合适的正则化参数，能够使得训练获得的模型的权重数据的分布对后续模型量化变得友好，从而提高后续模型量化速度。

步骤S102，对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据正则化参数对初始神经网络模型进行权重正则化。

全精度神经网络模型是指精度满足目标精度的神经网络模型，可通过对初始神经网络模型进行全精度训练获得，例如可以以Imagenet图片分类数据作为数据集，对以Resnet-50作为网络结构的初始神经网络模型训练获得。并且在训练的过程中，还根据正则化参数对初始神经网络模型进行权重正则化，正则化是一种回归的形式，用于将系数估计朝零的方向进行约束、调整或缩小。

在一个实施例中，根据正则化参数对初始神经网络模型进行权重正则化，包括：根据正则化参数和正则化项获得惩罚项；根据惩罚项和损失函数对至少部分隐藏层进行权重正则化。其中，正则化参数可为L2正则化参数，正则化项可为L2正则化项，即可以对权重进行L2正则化。

以对权重进行L2正则化为例。可先通过前述方式获得L2正则化参数，并基于下述公式(1)所示方式获得L2正则化项：

式中，|x||₂表示L2正则化项，x_i表示权重中第i个变量值。

然后，根据L2正则化参数和L2正则化项基于下述公式(2)所示方式获得惩罚项：

W_L2＝λ||x||₂ (2)

式中，W_L2为惩罚项，λ表示L2正则化参数，||x||₂表示L2正则化项。

然后，在模型训练过程中，将该惩罚项与模型的损失函数相加获得最终的损失函数，利用该损失函数求解反向梯度，从而实现对权重的L2正则化。

在对模型进行权重正则化时，可对模型的部分层进行权重正则化，例如对模型中带有权重的隐藏层中的部分层，如卷积层和全连接层进行权重正则化。

由于在训练获得全精度神经网络模型的过程中，就考虑到了对该全精度神经网络模型量化后所获得的模型的位宽的影响，通过针对不同的位宽选择合适的正则化参数，使得该全精度神经网络模型的权重分布更适合后续量化，从而有利于加快后续模型量化时的收敛速度，提高模型量化速度。

步骤S103，对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。

在获得全精度神经网络模型后，基于该全精度神经网络模型进行微调，以训练获得低比特神经网络模型。在一个实施例中，在对全精度神经网络模型进行训练得到低比特神经网络模型的过程中，将正则化参数置为零，这样可以有效提高模型的收敛速度，加快模型训练速度。

根据本发明的一个实施例，对全精度神经网络模型进行训练得到低比特神经网络模型，包括：对全精度神经网络模型进行训练得到具有第一位宽的神经网络模型；对具有第一位宽的神经网络模型进行训练得到低比特神经网络模型，其中第一位宽大于低比特神经网络模型的目标位宽。也就是说，可通过对全精度神经网络模型进行逐级调整，以获得低比特神经网络模型。例如，当需要训练获得4比特位宽的低比特神经网络模型，可先基于全精度神经网络模型训练获得一个8比特位宽的神经网络模型，之后再基于8比特位宽的神经网络模型训练获得4比特位宽的神经网络模型即获得所需的低比特神经网络模型，这样可以在保证稳定收敛的同时，获得较低位宽且较高精度的低比特神经网络模型。

根据本发明实施例的低比特神经网络模型的获取方法，在训练全精度神经网络模型的过程中，就考虑了量化后模型位宽的影响，并且针对不同的位宽提供不同的正则化参数，使得全精度神经网络模型的权重分布更适合量化，使其在微调低比特神经网络模型阶段，能够加快低比特神经网络模型的收敛速度，同时在训练低比特神经网络模型时，将正则化参数设为零，即不进行权重正则化，并基于全精度神经网络模型微调获得低比特神经网络模型，从而可提高低比特神经网络模型的训练速度。另外，采用逐级量化方式，以在保证稳定收敛的同时，获得较低位宽且较高精度的低比特神经网络模型。

图3为根据本发明一个实施例的低比特神经网络模型的获取装置的结构示意图，参考图3所示，该低比特神经网络模型的获取装置可包括：获取模块10、第一训练模块20和第二训练模块30。

其中，获取模块10用于获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据目标位宽获取正则化参数；第一训练模块20用于对初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据正则化参数对初始神经网络模型进行权重正则化；第二训练模块30用于对全精度神经网络模型进行训练得到低比特神经网络模型，并输出低比特神经网络模型。

根据本发明的一个实施例，获取模块10用于根据目标位宽从预设数据库中获取相应的正则化参数。

根据本发明的一个实施例，初始神经网络模型包括多个带有权重的隐藏层，第一训练模块20用于根据正则化参数和正则化项获得惩罚项，并根据惩罚项和损失函数对至少部分隐藏层进行权重正则化。

根据本发明的一个实施例，第二训练模块30用于在对全精度神经网络模型进行训练得到低比特神经网络模型的过程中，将正则化参数置为零。

根据本发明的一个实施例，第二训练模块30用于对全精度神经网络模型进行训练得到具有第一位宽的神经网络模型，并对具有第一位宽的神经网络模型进行训练得到低比特神经网络模型，其中第一位宽大于低比特神经网络模型的目标位宽。

需要说明的是，本申请中关于低比特神经网络模型的获取装置的描述，请参考本申请中关于低比特神经网络模型的获取方法的描述，这里不再赘述。

图4为根据本发明一个实施例的计算机设备的结构示意图，该计算机设备可以是终端，参考图4所示，该计算机设备可包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种低比特神经网络模型的获取方法，具体参考前述，这里不再赘述。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等如图。

本领域技术人员可以理解，图4所示结构仅是一种示例性说明，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述低比特神经网络模型的获取方法的步骤，具体参考前述这里不再赘述。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种低比特神经网络模型的获取方法，其特征在于，包括以下步骤：

获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据所述目标位宽获取正则化参数；

对所述初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据所述正则化参数对所述初始神经网络模型进行权重正则化；

对所述全精度神经网络模型进行训练得到所述低比特神经网络模型，并输出所述低比特神经网络模型。

2.根据权利要求1所述的低比特神经网络模型的获取方法，其特征在于，所述根据所述目标位宽获取正则化参数，包括：

根据所述目标位宽从预设数据库中获取相应的正则化参数。

3.根据权利要求1所述的低比特神经网络模型的获取方法，其特征在于，所述初始神经网络模型包括多个带有权重的隐藏层，所述根据所述正则化参数对所述初始神经网络模型进行权重正则化，包括：

根据所述正则化参数和正则化项获得惩罚项；

根据所述惩罚项和损失函数对至少部分所述隐藏层进行权重正则化。

4.根据权利要求3所述的低比特神经网络模型的获取方法，其特征在于，所述正则化参数为L2正则化参数，所述正则化项为L2正则化项。

5.根据权利要求4所述的低比特神经网络模型的获取方法，其特征在于，

如果所述目标位宽为8比特，则所述L2正则化参数为0.00005；

如果所述目标位宽为4比特，则所述L2正则化参数为0.0006。

6.根据权利要求1-5中任一项所述的低比特神经网络模型的获取方法，其特征在于，在对所述全精度神经网络模型进行训练得到所述低比特神经网络模型的过程中，将所述正则化参数置为零。

7.根据权利要求1所述的低比特神经网络模型的获取方法，所述对所述全精度神经网络模型进行训练得到所述低比特神经网络模型，包括：

对所述全精度神经网络模型进行训练得到具有第一位宽的神经网络模型；

对所述具有第一位宽的神经网络模型进行训练得到所述低比特神经网络模型，其中所述第一位宽大于所述低比特神经网络模型的目标位宽。

8.一种低比特神经网络模型的获取装置，其特征在于，包括：

获取模块，用于获取初始神经网络模型，并获取低比特神经网络模型的目标位宽，以及根据所述目标位宽获取正则化参数；

第一训练模块，用于对所述初始神经网络模型进行全精度训练得到全精度神经网络模型，并在训练过程中，根据所述正则化参数对所述初始神经网络模型进行权重正则化；

第二训练模块，用于对所述全精度神经网络模型进行训练得到所述低比特神经网络模型，并输出所述低比特神经网络模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法的步骤。