CN115249058A

CN115249058A - 神经网络模型的量化方法、装置、终端及存储介质

Info

Publication number: CN115249058A
Application number: CN202110462069.6A
Authority: CN
Inventors: 赵娟萍
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-10-28

Abstract

本申请实施例公开了一种神经网络模型的量化方法、装置、终端及存储介质，属于计算机技术领域。本申请实施例能够计算得到第一神经网络模型中的每一个算子各自的敏感度，并根据算子各自的敏感度确定每个算子的量化位宽，对于每个算子按照其自身的量化位宽进行量化，量化后的各个算子组合成为第二神经网络模型，由于敏感度指示算子对于第一神经网络模型的精度的影响程度，因此，本申请能够根据算子对于神经网络的精度的影响程度相应地调节各自量化后的位宽，从而实现在不增加量化后模型的数据量的前提下，尽可能提高量化后的模型的精度的效果，进而提高了使用第二神经网络模型进行推理得到的推理结果的精确度。

Description

神经网络模型的量化方法、装置、终端及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种神经网络模型的量化方法、装置、终端及存储介质。

背景技术

随着神经网络模型在移动终端中的广泛应用，神经网络模型的量化作为一种能够缩减神经网络模型的数据量的方法，能够令数据量较大的神经网络模型压缩为数据量较小的神经网络模型，然后顺利应用在移动终端中。

相关技术中，在量化神经网络模型的过程中，技术人员能够将量化前的神经网络模型中的浮点数参数，量化为定点数参数。其中，定点数的位宽是指定的位宽，通过量化处理后，神经网络模型的浮点数参数均被量化为指定位宽的定点数参数。

发明内容

本申请实施例提供了一种神经网络模型的量化方法、装置、终端及存储介质。所述技术方案如下：

根据本申请的一方面内容，提供了一种神经网络模型的量化方法，所述方法包括：

计算第一神经网络模型中的每一个算子的敏感度，所述敏感度用于指示所述算子对所述第一神经网络模型的精度的影响程度；

根据所述敏感度确定所述算子的量化位宽，所述量化位宽是所述算子中的神经网络参数量化为定点数后的位宽；

根据所述量化位宽对所述算子进行量化，得到第二神经网络模型，所述第二神经网络模型是所述第一神经网络模型量化后的模型，且所述第二神经网络模型用于基于语音和/或图像进行推理得到推理结果。

根据本申请的另一方面内容，提供了一种神经网络模型的量化装置，所述装置包括：

敏感度计算模块，用于计算第一神经网络模型中的每一个算子的敏感度，所述敏感度用于指示所述算子对所述第一神经网络模型的精度的影响程度；

位宽确定模块，用于根据所述敏感度确定所述算子的量化位宽，所述量化位宽是所述算子中的神经网络参数量化为定点数后的位宽；

算子量化模块，用于根据所述量化位宽对所述算子进行量化，得到第二神经网络模型，所述第二神经网络模型是所述第一神经网络模型量化后的模型，且所述第二神经网络模型用于基于语音和/或图像进行推理得到推理结果。

根据本申请的另一方面内容，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本申请各个方面提供的神经网络模型的量化方法。

根据本申请的另一方面内容，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如本申请各个方面提供的神经网络模型的量化方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述神经网络模型的量化方面或者神经网络模型的量化方面的各种可选实现方式中提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的神经网络模型的量化方法。

本申请实施例提供的技术方案带来的有益效果可以包括：

由于本申请实施例能够计算得到第一神经网络模型中的每一个算子各自的敏感度，并根据算子各自的敏感度确定每个算子的量化位宽，对于每个算子按照其自身的量化位宽进行量化，量化后的各个算子组合成为第二神经网络模型，由于敏感度指示算子对于第一神经网络模型的精度的影响程度，因此，本申请能够根据算子对于神经网络的精度的影响程度相应地调节各自量化后的位宽，从而实现在不增加量化后模型的数据量的前提下，尽可能提高量化后的模型的精度的效果，进而提高了使用第二神经网络模型进行推理得到的推理结果的精确度，实现了在不增加数据量的前提下，提高第二神经网络模型更优地处理语音和/或图像的能力。

附图说明

为了更清楚地介绍本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是一种神经网络线性量化技术的示意图；

图2是本申请一个示例性实施例提供的终端的结构框图；

图3是本申请一个示例性实施例提供的一种神经网络模型的量化方法的流程图；

图4是本申请另一个示例性实施例提供的一种神经网络模型的量化方法流程图；

图5是基于图4所示实施例提供的一种单算子量化操作的示意图；

图6是本申请实施例提供的一种神经网络模型的量化的流程图；

图7是本申请一个示例性实施例提供的神经网络模型的量化装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

如本文中所使用，根据上下文，术语“如果”任选地被解释为“当......时”、“在……时”、“响应于确定”或“响应于检测”。类似地，根据上下文，短语“如果确定……”或“如果检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

需要说明的是，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，个人可识别信息在管理和处理的过程中应当向用户明确说明授权使用的性质，以使无意或未经授权的访问或使用的风险最小化。

随着神经网络在电子设备中的广泛应用，其强大的推理能力能够在NPL(NaturalLanguage Processing，自然语言处理)和CV(Computer Vision，计算机视觉)两个主要的领域得到较好的效果。同时，由于移动设备的广泛应用，人们日常生活中较多的时间主要是使用移动设备处理各种信息。但是，神经网络自身的数据大小较大并且在推理时所需要的软件资源较多，造成神经网络难以在移动终端中使用。基于该情况，一种能够令神经网络顺利运行在移动终端中的技术应运而生，该技术是神经网络量化技术。

请参见图1，图1是一种神经网络线性量化技术的示意图。第一值域110用于指示神经网络量化之前的算子中的神经网络参数所在的值域。其中，第一值域110是浮点数所在的值域。第一浮点数111用于指示第一值域110中的最小值，第二浮点数112用于第一值域110中的最大值，第一零点113是第一值域110中的零点。

第二值域120用于指示神经网络量化之后的算子中的神经网络参数所在的值域。第二值域120是定点数所在的值域。神经网络中的算子中的神经网络参数经过线性量化之后，从第一值域110映射到第二值域120中。其中，第一浮点数111映射到第一定点数121，第二浮点数112映射到第二定点数122，第二零点123是第二值域120中的零点。

在线性量化的流程中，终端能够采用后量化的方式，将神经网络模型中的浮点模型参数从浮点空间线性量化到定点空间，从而实现神经网络模型的低比特量化。具体的实现步骤可以分为如下几个步骤。步骤一，算子标定(Calibration)：将训练好的神经网络模型(浮点模型)在全部训练数据集或者部分训练数据集中进行推理计算，并统计出浮点模型中的各个算子的输出的浮点数据范围。步骤二，计算输出层的量化参数。其中，计算公式是quant_data＝scale*float_data。在该公式中，quant_data是量化后的神经网络参数，float_data是量化前的神经网络参数，scale是量化参数。步骤三，通过与步骤二中相同的计算公式计算。

为了本申请实施例所示方案易于理解，下面对本申请实施例中出现的若干名词进行介绍。

敏感度：用于指示神经网络中的一个算子对于整个神经网络的精度的影响程度。一方面，当一个算子的敏感度越大时，算子中的神经网络参数的位宽变化将会对神经网络的精度参数较大影响。另一方面，当一个算子的敏感度越小时，算子中的神经网络参数的位宽变化将会对神经网络的精度参数较小影响。

例如，第一神经网络中存在两个算子，分别是算子A和算子B。当第一神经网络量化为第二神经网络时，算子A中的神经网络参数从原本的位宽32比特(bit)量化为量化位宽4比特，则第二神经网络通过指定测试数据集计算得到的精度，相比于第一神经网络通过指定数据集计算得到的精度下降了30％。同时，当第一神经网络量化为第二神经网络时，算子B中的神经网络参数从原本的位宽32比特(bit)量化为量化位宽4比特，则第二神经网络通过指定测试数据集计算得到的精度，相比于第一神经网络通过指定数据集计算得到的精度下降了3％。在此场景中，说明算子A的敏感度大于算子B的敏感度。

在一种可能的方式中，若定义敏感度的取值范围是[0，1]，其中，算子A的敏感度可以是0.9，算子B的敏感度可以是0.1。

量化位宽：量化位宽的概念用于指示一个神经网络中的算子的神经网络参数从浮点数量化为定点数时的定点数的位宽。例如，一个算子的神经网络参数在量化前的位宽是32比特，该算子的神经网络参数在量化为定点数时的位宽是4比特，则在该场景中的量化位宽是4比特。

第一神经网络模型：用于指示运行在服务器、PC(Personal Computer，个人电脑)和计算能力较强的终端中的神经网络模型。其中，第一神经网络模型的推理能力较强，但是第一神经网络模型由于自身的数据量较大和/或第一神经网络模型在推理时需要较多的软件处理资源，这些需求是移动终端难以满足的。因此，第一神经网络模型是适用于计算能力较强的终端中的神经网络模型，但不适用于计算能力有限的移动终端的神经网络模型。

第二神经网络模型：是第一神经网络模型量化后的神经网络模型。为了令移动终端同样具备使用第一神经网络模型进行推理的能力。设计人员可以对第一神经网络模型进行量化，量化后的神经网络模型的数据量将会下降。同时，量化后的神经网络模型在推理时所需的软件资源也将减少。因此，量化后的神经网络模型将能够在移动终端中运行。需要说明的是，量化后的神经网络模型由于其中的算子的神经网络参数从较大的位宽的浮点数量化为较小位宽的定点数，因此，量化后的神经网络模型的精度将比量化前的神经网络模型的精度低。

其中，第二神经网络模型可以基于语音/或图像进行推理得到推理结果。

在一种可能的实现方式中，第二神经网路模型装载到移动终端中，用于基于语音进行推理得到推理结果。在实际应用中，该第二神经网路模型可以用于进行语音识别，也即将语音识别为对应的文本信息；第二神经网路模型还可以用于进行智能问答，在接收到语音之后，经过内置的多个子系统的配合，最终输出用于回答的语音。

在又一种可能的实现方式中，第二神经网路模型用于基于图像进行推理得到推理结果。在实际应用中，该第二神经网路模型可以用于图像识别，对输入的图像进行识别，从而得到识别出的结果。例如，第二神经网络模型识别出图像中包括某一类别的物体；或者，第二神经网络模型识别出图像中的人物的年龄；或者，第二神经网络模型识别出图像中的人物的名称。

在又一种可能的实现方式中，第二神经网路模型中输入的是语音和图像。在该场景中，第二神经网络提供两个数据输入分支，分别用于接收语音和图像。当该第二神经网路模型处理数据之后，第二神经网路模型能够输出相应的推理结果。在一种实际的应用场景中，第二神经网路模型能够根据用户输入的语音和人物人像来判断用户的年龄。

由上述第二神经网路模型的应用场景可知，本申请提供的神经网络模型的量化方法，能够在根据算子对于神经网络的精度的影响程度相应地调节各自量化后的位宽，从而实现在不增加量化后模型的数据量的前提下，尽可能提高量化后的模型的精度的效果。从而在不增加第二神经网路模型的大小的情况下，使得根据第二神经网路模型得到的推理结果的准确性较高，提高了使用第二神经网络模型进行推理的效率。

示例性地，本申请实施例所示的神经网络模型的量化方法，可以应用在终端中，该终端具备显示屏且具备神经网络模型的量化功能。终端可以包括手机、平板电脑、膝上型电脑、台式电脑、电脑一体机、服务器、工作站、电视、机顶盒、智能眼镜、智能手表、数码相机、MP4播放终端、MP5播放终端、学习机、点读机、电纸书、电子词典、车载终端、虚拟现实(Virtual Reality，VR)播放终端或增强现实(Augmented Reality，AR)播放终端等。

请参考图2，图2是本申请一个示例性实施例提供的终端的结构框图，如图2所示，该终端包括处理器220和存储器240，所述存储器240中存储有至少一条指令，所述指令由所述处理器220加载并执行以实现如本申请各个方法实施例所述的神经网络模型的量化方法。

在本申请中，终端200是能够对神经网络进行量化的电子设备。终端200能够计算神经网络模型中的每一个算子的敏感度，其中，所述敏感度用于指示所述算子对所述第一神经网络模型的精度的影响程度；根据所述敏感度确定所述算子的量化位宽，所述量化位宽是所述算子中的神经网络参数量化为定点数后的位宽；根据所述量化位宽对所述算子进行量化，得到第二神经网络模型，所述第二神经网络模型是所述第一神经网络模型量化后的模型。

处理器220可以包括一个或者多个处理核心。处理器220利用各种接口和线路连接整个终端200内的各个部分，通过运行或执行存储在存储器240内的指令、程序、代码集或指令集，以及调用存储在存储器240内的数据，执行终端200的各种功能和处理数据。可选的，处理器220可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器220可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器220中，单独通过一块芯片进行实现。

存储器240可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器240包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器240可用于存储指令、程序、代码、代码集或指令集。存储器240可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储下面各个方法实施例中涉及到的数据等。

请参考图3，图3是本申请一个示例性实施例提供的一种神经网络模型的量化方法的流程图。该神经网络模型的量化方法可以应用在上述所示的终端中。

在图3中，神经网络模型的量化方法包括：

步骤310，计算第一神经网络模型中的每一个算子各自的敏感度，敏感度用于指示算子对第一神经网络模型的精度的影响程度。

在本申请实施例中，第一神经网络模型是没有进行量化的神经网络模型。其中，第一神经网络模型是运行在PC或服务器等处理能力较强的设备中的神经网络模型。当设备中存在该第一神经网络模型时，设备可以计算该第一经网络模型中每一个算子各自的敏感度。需要说明的是，若第一神经网络模型中具备n个算子，则本申请中存在n个敏感度，每一个算子都对应一个敏感度。

需要说明的是，本申请实施例提供的敏感度的概念，用于指示一个算子对第一神经网络模型的精度的影响程度。其中，当敏感度的数值越大，说明该算子对第一神经网络模型的精度的影响程度越大。

步骤320，根据敏感度，确定算子的量化位宽，量化位宽是所述算子中的神经网络参数量化为定点数后的位宽。

在本申请实施例中，能够根据不同算子的敏感度为其设计不同的量化位宽。一种可能的方式中，当一个算子的敏感度越高时，终端可以确定该一个算子的量化位宽越大，从而保证尽可能不改变算子的原本数值，从而降低对神经网络模型的精度的影响。反之，算子的量化位宽可以较小，在影响神经网络精度较小的场景下尽可能压缩算子的数据量。

步骤330，根据量化位宽对算子进行量化，得到第二神经网络模型，第二神经网络模型是第一神经网络模型量化后的模型，第二神经网络模型用于基于语音和/或图像进行推理得到推理结果。

在本申请实施例中，终端能够按照每一个算子各自的量化位宽，分别对每一个算子进行量化，量化后的各个算子组合成第二神经网络，第二神经网络也即是第一神经网络模型量化后的模型。第二神经网络能够在输入语音和/或图像后，进行推理得到推理结果，从而实现神经网络模型在数据量大小不变的情况下，有效果更优的推理结果。

综上所述，由于本申请实施例能够计算得到第一神经网络模型中的每一个算子各自的敏感度，并根据算子各自的敏感度确定每个算子的量化位宽，对于每个算子按照其自身的量化位宽进行量化，量化后的各个算子组合成为第二神经网络，由于敏感度指示算子对于第一神经网络模型的精度的影响程度，因此，本申请能够根据算子对于神经网络的精度的影响程度相应地调节各自量化后的位宽，从而实现在不增加量化后模型的数据量的前提下，尽可能提高量化后的模型的精度的效果。

基于上一个实施例所公开的方案，终端还能够通过针对不同的算子进行个性化量化，从而得到在量化神经网络模型的过程中实现尽可能提高量化后的神经网络模型的精度，详细方案请参考如下实施例。

请参见图4，图4是本申请另一个示例性实施例提供的一种神经网络模型的量化方法流程图。该神经网络模型的量化方法可以应用在上述所示的终端中。

在图4中，该神经网络模型的量化方法包括：

步骤401，获取第一精度，第一精度是第一神经网络模型通过测试数据集计算得到的精度。

在本申请中，终端中存储有第一神经网络。该第一神经网络既可以是终端自身训练到的神经网络模型，也可以是其它设备，例如服务器中训练得到的神经网络模型。终端通过有线网络或者无线网络获取到的神经网络模型。

一种可能的方式中，终端在获取第一神经网络之后，能够通过指定的测试数据集计算第一神经网络模型的精度。也即，终端能够获取第一神经网络模型在指定的测试数据集上的精度。

需要说明的是，测试数据集可以是行业内通用的数据集，也可以是针对量化过程专门设计的数据集。

在一种可能的第一精度的确定方式中，终端可以通过一次测试过程，将一次测试过程得到的精度确定为第一精度。

在另一种可能的第一精度的确定方式中，终端可以使用测试数据集对第一神经网络模型进行测试。例如，使用测试数据集对第一神经网络进行五次测试，得到5个精度，终端将会将5个精度的平均值确定为本申请中所示的第一精度。

步骤402，基于第一神经网络模型中的算子个数n，对第一神经网络模型执行n次单算子量化操作，得到n个对照神经网络模型。

其中，单算子量化操作是在第一神经网络模型中对一个算子进行量化且保持其余算子不变的操作，n次单算子量化操作中的任意两次操作中进行量化的算子不同。

可选地，在获取单算子量化操作的过程中，终端能够以第一神经网络模型为基础，在一次单算子量化过程中，仅量化一个算子。在该操作中，终端将对第一神经网络模型中的每一个算子均进行一次单算子量化操作。若第一神经网络中包括100个算子，则本申请中的单算子操作将执行100次。

表一

需要说明的是，针对第一神经网络模型执行的单算子量化操作的具体次数，取决于第一神经网络模型中的算子个数n。n的取值可以是8、16、32或64等较小的数值，也可以256、512或1024等较大的数值。

请参见图5，图5是基于图4所示实施例提供的一种单算子量化操作的示意图。图5所示的第一神经网络500中具备5个算子，分别是第一算子511、第二算子512、第三算子513、第四算子514和第五算子515。根据本申请提供的单算子量化操作，需要执行五次单算子量化。在五次单算子量化后，终端分别得到对应的对照神经网络模型，分别为第一对照神经网络模型521、第二对照神经网络模型522、第三对照神经网络模型523、第四对照神经网络模型524和第五对照神经网络模型525。

需要说明的是，图5中所示的5次单算子量化操作既可以是并行完成的，也可以是串行完成的。其中，终端将根据自身的硬件性能或者软件架构完成单算子量化操作。例如，终端可以通过串行的方式依次执行5次算子量化操作。终端也可以并行执行5次单算子量化操作。在一种可能的并行执行方式中，终端的并行执行度大于5，则终端能够同时执行5次单算子量化操作。在另一种可能的并行执行方式中，终端的并行执行度小于5，例如该并行执行度是3，则终端在第一次并行处理时，将并行进行3次单算子量化操作，终端在第二次并行处理时，并行进行另外2次单算子量化操作。

步骤403，分别计算n个对照神经网络模型的精度相较于第一精度的精度下降率。

在终端得到n个对照神经网络模型之后，终端能够对每一个神经网络模型的精度进行计算，得到每一个神经网络模型的精度相较于第一精度的精度下降率。

需要说明的是，精度下降率是用于确定最终目标算子的敏感度的中间参数。该精度下降率也用于指示目标算子本身对于原本的第一神经网络模型的精度的影响。相关的分析过程如下，若一个对照神经网络模型的精度下降率较大，说明该对照神经网络模型中进行了量化的算子对精度的影响较大，也即，在此场景中，能够确认出目标算子对于原本的第一神经网络模型的精度影响较大。

步骤404，根据目标算子的精度下降率确定目标算子的敏感度，目标算子是对照神经网络模型中待量化的算子。

在本申请中，终端能够根据计算得到的精度下降率确定目标算子的敏感度。本申请中的目标算子是对照神经网络模型中待量化的算子。举例而言，对于经历过单算子量化操作的对照神经网络模型A而言，若其中已被量化的待量化算子是算子a，则根据待量化算子a的精度下降率能够计算得到目标算子的敏感度。

举例而言，请参见表二。

表二

由表二所示数据可以知道，第一神经网络中包括5个算子。在第1对照神经网络模型中，第1算子量化为第1目标算子。第1目标算子和其余4个没有经过量化的算子组合为第1对照神经网络模型，该第1对照神经网络模型基于测试数据集得到的精度相对于第一精度的精度下降率是15％。

在第2对照神经网络模型中，第2算子量化为第2目标算子。第2目标算子和其余4个没有经过量化的算子组合为第2对照神经网络模型，该第2对照神经网络模型基于测试数据集得到的精度相对于第一精度的精度下降率是27％。

在第3对照神经网络模型中，第3算子量化为第3目标算子。第3目标算子和其余4个没有经过量化的算子组合为第3对照神经网络模型，该第3对照神经网络模型基于测试数据集得到的精度相对于第一精度的精度下降率是36％。

在第4对照神经网络模型中，第4算子量化为第4目标算子。第4目标算子和其余4个没有经过量化的算子组合为第4对照神经网络模型，该第4对照神经网络模型基于测试数据集得到的精度相对于第一精度的精度下降率是3％。

在第5对照神经网络模型中，第5算子量化为第5目标算子。第5目标算子和其余4个没有经过量化的算子组合为第5对照神经网络模型，该第5对照神经网络模型基于测试数据集得到的精度相对于第一精度的精度下降率是1％。

在本申请中，精度下降率的一种可能的数据格式可以是百分数的形式。在该数据格式中，精度下降率能够较为直观地展示目标算子使得第一神经网络模型的精度下降情况。示意性的，精度下降率也可以通过小数的数据格式来展示。

在通过终端获取各个目标算子的精度下降率之后，终端中可以预设有精度下降率与目标算子的敏感度之间的映射关系。终端根据该映射关系确定目标算子的敏感度。

在本申请中，映射关系可以包括区间映射关系、点对点映射关系和等级映射关系中的至少一种。分别介绍如下。

(1)区间映射关系，用于指示一个数值区间中的精度下降率将映射为一个敏感度。请参见表三，表三示出了一种区间映射关系的可能实现方式。

精度下降率	敏感度
		[0.25,1]	0.85
[0.13,0.25)	0.65
		[0.03,0.13)	0.25
(0,0.03)	0.1

表三

在表三所示的区间映射关系中，目标算子的敏感度都将被映射为4种固定数值的敏感度。

需要说明的是，区间映射关系可以通过执行步骤(a1)和步骤(a2)来实现。

步骤(a1)，获取目标算子的精度下降率在至少两个数值区间中所属的第一数值区间。

示意性的，终端能够先获取目标算子的精度下降率在至少两个数值区间中属于的第一数值区间。由于不同的数值区间对应有不同的敏感度，因此，数值区间的确定也是确定敏感度的前序步骤。

步骤(a2)，将第一数值区间对应的敏感度，确定为目标算子对应的敏感度。

在本申请中，不同的数值区间对应有不同的敏感度。终端在确定出精度下降率所在的数值区间后，能够按照预设的映射关系，再确定出精度下降率对应的敏感度，从而确定出目标算子对应的敏感度。

示意性的，对于区间映射关系而言，本申请不限制敏感度数值的个数，以及，不限制精度下降率的区间个数。

(2)点对点映射关系，用于指示不同的精度下降率对应不同的敏感度。在该对应关系中，可以采用单调函数作为映射关系。例如，以d表示精度下降率，以m表示敏感度，以k表示系数，并以b表示常数。一种可能的点对点映射关系可以通过下列算式表示。

m＝kd+b。

在该式中，敏感度与精度下降率成线性关系。系数k和常数b是预先设置好的数据，终端在获知精度下降率d之后的，即可通过给定的算式获得相应的敏感度m。

需要说明的是，点对点映射关系的映射关系可以通过多种形式来表示，上述算子仅为示意性表示，不对本申请实施例形成限定。

(3)等级映射关系，用于指示不同的精度下降率对应不同等级的敏感度。在该映射关系中，敏感度以不同的等级来表示，不再以具体的数值表示。

在等级映射关系中，终端中可以预先设置多个敏感度等级，精度下降率能够映射到相应的等级中。

步骤421，响应于敏感度大于第一阈值，确定算子的量化位宽为第一位宽。

示意性的，算子的敏感度可以与影响程度成正相关。

在本申请中，终端可以为敏感度预设一个阈值，该阈值是第一阈值。当算子的敏感度大于该第一阈值时，终端能够确定算子的量化位宽是第一位宽。需要说明的是，第一位宽是预先设定的一个常数。当算子的量化位宽被指定为第一位宽后，算子在量化后作为定点数的神经网络参数的位宽也随之确定。

在本申请中，终端能够根据敏感度确定算子的量化位宽。需要说明的是，终端中可以预先保存根据敏感度确定算子的量化位宽的方法。

可选的，量化位宽通过比特数来区分，比如，量化位宽可以是4比特、8比特或16比特等数值。需要说明的是，量化位宽还可以是其它数值的位宽，本申请实施例对此不作限定。

步骤422，响应于敏感度小于或等于第一阈值，确定算子的量化位宽为第二位宽，第二位宽小于第一位宽。

在本申请中，若终端确定出算子的敏感度小于或等于第一阈值时，将算子的量化位宽确定为第二位宽，第二位宽将小于第一位宽。由上述步骤可知，本申请提供一个敏感度阈值，当敏感度大于该阈值时，算子的量化位宽将被确定为较大的第一位宽。当敏感度小于或等于该阈值时，算子的量化位宽将被确定为数值较小的第二位宽。

步骤423，根据量化位宽对算子进行量化，得到第二神经网络模型。

在本申请中，步骤的执行过程和步骤230的执行过程相同，此处不再赘述。

步骤431，对第二神经网络模型进行训练。

在本申请中，终端能够再次对第二神经网络模型进行训练，训练的目的是进一步提高量化后的神经网络模型的精度。

需要说明的是，若终端还能够对第二神经网络模型进行训练，则终端在确定算子的量化位宽时，还能够同时考虑训练第二神经模型时的情况。示意性的，终端可以通过执行步骤(b1)和步骤(b2)来实现设置算子的敏感度的操作。

步骤(b1)，响应于敏感度小于或等于第一阈值，且敏感度大于第三阈值，确定算子的量化位宽为第二位宽且算子的学习率为第一学习率。

在本申请中，设置有小于第一阈值的第三阈值。其中，第三阈值用于区分在第二神经网络模型进行训练时的学习率。若算子的敏感度小于或等于第一阈值且大于第三阈值，终端能够确定算子的量化位宽是第二位宽且算子的学习率被设置为第一学习率。

步骤(b2)，响应于敏感度小于或等于第三阈值，确定算子的量化位宽为第二位宽且算子的学习率为第二学习率，第二学习率大于第一学习率。

在本申请中，终端响应于敏感度小于或等于第三阈值，确定算子的量化位宽是第二位宽且算子的学习率是第二学习率，其中第二学习率大于第一学习率。

在本申请中，算子的敏感度与算子的学习率成负相关。

可选地，在一种可能的方式中，本申请通过下列算式来计算算子的学习率。l_i＝l_r*(1-Sens_i)。

其中，l_i表示算子的学习率，l_r表示第二神经网络训练时整体的学习率，Sens_i表示算子的敏感度。需要说明的是，上述公式仅为本申请通过算子的敏感度计算学习率的一种可能的方式。在本公式的基础上进行变形得到的改良公式，同样能够得到算子的学习率，其获取算子的学习率的方式也在本申请所要求的保护范围内。

需要说明的是，上述公式可以通过在等式右侧加减常数项，或者多乘一个常数值，或者改变常数1的大小。类似的变形方式不胜枚举，此处不再一一列举，仅说明类似的能够获取算子的学习率的方式均在本申请所公开的实现方式中。

需要说明的是，在本申请中，第一学习率小于整体学习率，并且第二学习率小于或等于该整体学习率，整体学习率是第二神经网络模型进行训练时所使用的学习率。

步骤432，获取第二精度，第二精度是第二神经网络模型在测试数据集上的精度。

在本申请中，终端能够获取第二神经网络模型在测试数据集上的精度。需要说明的是，当第二神经网络完成训练后，终端能够测试自身在测试数据集上的精度。该测试数据集和用来测试第一神经网络模型的第一精度的数据集是相同的数据集。

步骤433，响应于第二精度大于或等于第二阈值，将第二神经网络模型更新为训练后的第二神经网络模型。

在本申请中，当第二精度大于或等于第二阈值时，证明第二神经网络模型已经被训练到终端希望达到的精度要求，此时，终端将第二神经网络更新为训练后的第二神经网络模型，以保证第一神经网络模型量化后的模型精度尽可能提高。

综上所述，本实施例通过计算量化前的第一神经网络中的每一个算子的敏感度，从算子的粒度获知对精度影响程度不同的算子，在此基础上，本申请将根据算子的敏感度确定算子的量化位宽，该量化位宽指示的是神经网络参数量化为定点数后的位宽，不同的位宽占用的数据量不同，在按照量化位宽对算子进行量化后，得到第二神经网络模型。由于第二神经网络模型是第一神经网络模型量化后的模型。因此，在本申请能够令神经网络的量化过程在精度和所占数据量之间均具有较好的效果。一方面，本申请能够在同等量化后的精度下保持占用较少的数据量。另一方面，本申请能够在同等量化后占用的数据量的前提下，保证量化后的神经网络模型具有较高的精度。

本实施例提供的神经网络模型的量化方法，还能够在神经网络完成量化之后，对量化后的神经网络模型进行训练，以进一步提高量化后的神经网络模型过的精度。

本实施例提供的神经网络模型的量化方法，还能够在量化后的神经网络模型进行训练时，以算子的粒度进行学习率的调控，当算子的敏感度越高时，该算子的学习率将越低。反之，当算子的敏感度较低时，该算子的学习率将较高，有助于在训练过程中对敏感度较大的算子造成较大的影响，从而避免影响到训练后的第二神经网络模型的精度，提高了量化后的模型的精度。

请参考图6，图6是本申请实施例提供的一种神经网络模型的量化的流程图。在该流程中，包括：

步骤610，计算第一神经网络模型中的每一个算子的敏感度。

步骤620，分别判断每一个算子的敏感度是否大于第一门限值(threshold 1)。

在本例中，当算子的敏感度大于第一门限值时，该算子的量化位宽将采用比默认位宽更宽的数值进行量化。终端执行步骤630。

在本例中，当算子的敏感度小于或等于第一门限值时，终端执行步骤640。

步骤630，采用默认位宽更宽的量化位宽量化该算子。

示意性的，若默认位宽是4比特，则该算子可以采用大于4比特的位宽进行量化。在量化理论中，算子可以采用5比特、6比特、7比特等等位宽进行量化。在实际应用中，考虑到硬件设备支持，该算子的量化位宽可以确定为8比特或者16比特等数值。

步骤640，判断算子的敏感度是否大于第二门限值(threshold 2)。

在本例中，当算子的敏感度不大于第一门限值，却大于第二门限值时，终端将执行步骤650。

在本例中，当算子的敏感度不大于第一门限值且不大于第二门限值时，终端将执行步骤660。

步骤650，算子采用默认位宽作为量化时的量化位宽，并根据算子的敏感度调节该算子的学习率。

步骤660，算子采用默认位宽作为量化时的量化位宽。

步骤670，对确定按照指定的量化位宽量化后得到的第二神经网络，重新进行训练。

综上所述，本申请提供的神经网络模型的量化过程，能够以量化前的神经网络中的各个算子的敏感度为基础，根据敏感度具体与门限值之间的大小关系，确定各个算子量化时所采用的量化位宽，以及，确定在第二神经网络进行训练时各个算子的学习率，从而在算子的粒度上对神经网络的量化过程实现了精度的提升，提高了神经网络量化过程的精度维持效果。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，图7是本申请一个示例性实施例提供的神经网络模型的量化装置的结构框图。该神经网络模型的量化装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

敏感度计算模块710，用于计算第一神经网络模型中的每一个算子的敏感度，所述敏感度用于指示所述算子对所述第一神经网络模型的精度的影响程度；

位宽确定模块720，用于根据所述敏感度确定所述算子的量化位宽，所述量化位宽是所述算子中的神经网络参数量化为定点数后的位宽；

算子量化模块730，用于根据所述量化位宽对所述算子进行量化，得到第二神经网络模型，所述第二神经网络模型是所述第一神经网络模型量化后的模型，且所述第二神经网络模型用于基于语音和/或图像进行推理得到推理结果。

在一个可选的实施例中，所述敏感度计算模块710，用于获取第一精度，所述第一精度是所述第一神经网络模型通过测试数据集计算得到的精度；基于所述第一神经网络模型中的算子个数n，对所述第一神经网络模型执行n次单算子量化操作，得到n个对照神经网络模型，所述单算子量化操作是在所述第一神经网络模型中对一个算子进行量化且保持其余算子不变的操作，所述n次单算子量化操作中的任意两次操作中进行量化的算子不同；分别计算n个所述对照神经网络模型的精度相较于所述第一精度的精度下降率；根据目标算子的精度下降率确定所述目标算子的敏感度，所述目标算子是所述对照神经网络模型中待量化的算子。

在一个可选的实施例中，所述敏感度计算模块710，用于获取所述目标算子的精度下降率在至少两个数值区间中所属的第一数值区间；将所述第一数值区间对应的所述敏感度，确定为所述目标算子对应的敏感度。

在一个可选的实施例中，所述位宽确定模块720，用于响应于所述敏感度大于第一阈值，确定所述算子的所述量化位宽为第一位宽；响应于所述敏感度小于或等于所述第一阈值，确定所述算子的所述量化位宽为第二位宽，所述第二位宽小于所述第一位宽，所述敏感度与所述影响程度成正相关。

在一个可选的实施例中，所述装置还包括训练模块、精度获取模块和更新模块。所述训练模块，用于对所述第二神经网络模型进行训练；所述精度获取模块，用于获取第二精度，所述第二精度是所述第二神经网络模型在所述测试数据集上的精度；所述更新模块，用于响应于所述第二精度大于或等于第二阈值，将所述第二神经网络模型更新为所述训练后的所述第二神经网络模型。

在一个可选的实施例中，所述位宽确定模块720，用于响应于所述敏感度小于或等于所述第一阈值，且所述敏感度大于第三阈值，确定所述算子的所述量化位宽为所述第二位宽且所述算子的学习率为第一学习率；响应于所述敏感度小于或等于所述第一阈值，且所述敏感度小于或等于所述第三阈值，确定所述算子的所述量化位宽为所述第二位宽且所述算子的学习率为第二学习率，所述第二学习率大于所述第一学习率。

在一个可选的实施例中，所述第一学习率小于整体学习率，所述第二学习率小于或等于所述整体学习率，所述整体学习率是所述第二神经网络模型进行训练时使用的学习率。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的神经网络模型的量化方法。

需要说明的是：上述实施例提供的神经网络模型的量化装置在执行神经网络模型的量化方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的神经网络模型的量化装置与神经网络模型的量化方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的能够实现的示例性的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种神经网络模型的量化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计算第一神经网络模型中的每一个算子的敏感度，包括：

获取第一精度，所述第一精度是所述第一神经网络模型通过测试数据集计算得到的精度；

基于所述第一神经网络模型中的算子个数n，对所述第一神经网络模型执行n次单算子量化操作，得到n个对照神经网络模型，所述单算子量化操作是在所述第一神经网络模型中对一个算子进行量化且保持其余算子不变的操作，所述n次单算子量化操作中的任意两次操作中进行量化的算子不同；

分别计算n个所述对照神经网络模型的精度相较于所述第一精度的精度下降率；

根据目标算子的精度下降率确定所述目标算子的敏感度，所述目标算子是所述对照神经网络模型中待量化的算子。

3.根据权利要求2所述的方法，其特征在于，所述根据目标算子的精度下降率确定所述目标算子的敏感度，包括：

获取所述目标算子的精度下降率在至少两个数值区间中所属的第一数值区间；

将所述第一数值区间对应的所述敏感度，确定为所述目标算子对应的敏感度。

4.根据权利要求3所述的方法，其特征在于，所述敏感度与所述影响程度成正相关，所述根据所述敏感度确定所述算子的量化位宽，包括：

响应于所述敏感度大于第一阈值，确定所述算子的所述量化位宽为第一位宽；

响应于所述敏感度小于或等于所述第一阈值，确定所述算子的所述量化位宽为第二位宽，所述第二位宽小于所述第一位宽。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述第二神经网络模型进行训练；

获取第二精度，所述第二精度是所述第二神经网络模型在所述测试数据集上的精度；

响应于所述第二精度大于或等于第二阈值，将所述第二神经网络模型更新为所述训练后的所述第二神经网络模型。

6.根据权利要求5所述的方法，其特征在于，n大于或等于2，响应于所述敏感度小于或等于所述第一阈值，确定所述算子的所述量化位宽为第二位宽，包括：

响应于所述敏感度小于或等于所述第一阈值，且所述敏感度大于第三阈值，确定所述算子的所述量化位宽为所述第二位宽且所述算子的学习率为第一学习率；

响应于所述敏感度小于或等于所述第一阈值，且所述敏感度小于或等于所述第三阈值，确定所述算子的所述量化位宽为所述第二位宽且所述算子的学习率为第二学习率，所述第二学习率大于所述第一学习率。

7.根据权利要求6所述的方法，其特征在于，所述第一学习率小于整体学习率，所述第二学习率小于或等于所述整体学习率，所述整体学习率是所述第二神经网络模型进行训练时使用的学习率。

8.一种神经网络模型的量化装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括处理器、和与所述处理器相连的存储器，以及存储在所述存储器上的程序指令，所述处理器执行所述程序指令时实现如权利要求1至7任一所述的神经网络模型的量化方法。

10.一种计算机可读存储介质，所述存储介质中存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至7任一所述的神经网络模型的量化方法。