CN116959489B

CN116959489B - 语音模型的量化方法、装置、服务器及存储介质

Info

Publication number: CN116959489B
Application number: CN202311206261.4A
Authority: CN
Inventors: 周伟; 赵楚涵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-22
Anticipated expiration: 2043-09-19
Also published as: CN116959489A

Abstract

本申请实施例公开了一种语音模型的量化方法、装置、服务器及存储介质，涉及人工智能领域。包括：获取原始语音模型，原始语音模型为训练完成的神经网络模型；基于第一量化策略和第二量化策略中的至少一种确定目标参数，第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数，第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数；对原始语音模型的目标参数进行量化，得到量化语音模型；在量化语音模型满足模型精度需求和压缩率需求的情况下，将量化语音模型确定为目标语音模型。采用本申请实施例的方法，可以对原始语音模型中影响程度较小的权重参数进行量化，从而兼顾模型的预测效果和模型的体积大小。

Description

语音模型的量化方法、装置、服务器及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种语音模型的量化方法、装置、服务器及存储介质。

背景技术

随着人工智能技术的发展，神经网络模型被广泛应用于各种领域。然而，这些模型通常需要大量的计算资源和存储空间，在移动设备和嵌入式系统等资源受限的设备上部署这些模型可能会面临性能瓶颈。

相关技术中，通常会采用模型量化的方式以减少神经网络模型的参数量和计算量。模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗等。模型量化包括量化感知训练（Quantization Aware Training）和训练后量化（Post-Training Quantization）等方式。

然而，量化后的模型可能具有较大的精度损失。

发明内容

本申请实施例提供了一种语音模型的量化方法、装置、服务器及存储介质。技术方案如下。

一方面，本申请实施例提供了一种语音模型的量化方法，方法包括：

获取原始语音模型，原始语音模型为训练完成的神经网络模型；

基于至少一种量化策略确定原始语音模型中待量化的目标参数；量化策略包括第一量化策略和第二量化策略中的至少一种，第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数，第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数；

对原始语音模型的目标参数进行量化，得到量化语音模型；

在量化语音模型满足模型精度需求，且量化语音模型满足压缩率需求的情况下，将量化语音模型确定为目标语音模型。

另一方面，本申请实施例提供了一种语音模型的量化装置，装置包括：

模型获取模块，用于获取原始语音模型，原始语音模型为训练完成的神经网络模型；

目标参数确定模块，用于基于至少一种量化策略确定原始语音模型中待量化的目标参数；量化策略包括第一量化策略和第二量化策略中的至少一种，第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数，第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数；

模型量化模块，用于对原始语音模型的目标参数进行量化，得到量化语音模型；

模型验证模块，用于在量化语音模型满足模型精度需求，且量化语音模型满足压缩率需求的情况下，将量化语音模型确定为目标语音模型。

另一方面，本申请实施例提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条程序代码，至少一条程序代码由处理器加载并执行，以实现上述任一方面所述的语音模型的量化方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令，指令由处理器加载并执行以实现如上述任一方面所述的语音模型的量化方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述任一方面所述的语音模型的量化方法。

本申请实施例中，基于原始语音模型中权重参数的数值分布情况确定目标参数，以及基于原始语音模型中神经元输出的激活结果确定目标参数中的至少一种方式，可以对原始语音模型中影响程度较小的权重参数进行量化；在量化语音模型满足模型精度需求和压缩率需求的情况下，将量化语音模型确定为目标语音模型，可以兼顾模型的预测效果和模型的体积大小，在保证语音模型效率的同时，尽可能地减少语音模型的内存和计算复杂度，减少语音模型对游戏渲染流畅性的影响。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的语音模型的量化方法的流程图；

图2是相关技术中通过32 bits表示二进制数的示意图；

图3是本申请一个示例性实施例提供的线性量化的示意图；

图4是本申请一个示例性实施例提供的线性量化前32 bits浮点数与线性量化后8bits定点数之间的映射关系的示意图；

图5是本申请一个示例性实施例提供的将乘积运算的运算结果存储为32 bits浮点数后再量化为8 bits定点数的示意图；

图6是本申请一个示例性实施例提供的将原始语音模型中小于第一系数阈值的权重参数确定为目标参数的示意图；

图7是本申请一个示例性实施例提供的基于第一系数阈值进行阈值下调的流程图；

图8是本申请一个示例性实施例提供的将原始语音模型中小于第i系数阈值，且位于原始语音模型中最后N层网络层的权重参数确定为目标参数的示意图；

图9是本申请一个示例性实施例提供的基于原始语音模型中神经元输出的激活结果确定目标参数的示意图；

图10是本申请一个示例性实施例提供的将平均激活结果小于第一激活门限的神经元确定为目标神经元的示意图；

图11是本申请一个示例性实施例提供的将第一目标神经元和第二目标神经元确定为目标神经元的示意图；

图12是本申请一个示例性实施例提供的基于第一激活门限进行门限下调的流程图；

图13是本申请一个示例性实施例提供的将第一目标神经元和第三目标神经元确定为目标神经元的示意图；

图14是本申请一个示例性实施例提供的语音模型的量化装置的结构框图；

图15是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

首先，对本申请实施例中涉及的名词进行介绍。

模型量化：将浮点存储（或浮点运算）转换为定点存储（或定点运算）的一种模型压缩技术。由于参数量巨大的神经网络模型不适合直接部署在嵌入式设备中，因此模型量化应运而生，模型量化可以实现对模型体积的压缩，使得复杂的模型能够被应用到手机、机器人等嵌入式设备中。模型量化的方式包括多种，如线性量化、非线性量化、对称量化、非对称量化、饱和量化、非饱和量化等多种方式。根据是否需要对训练完成的模型进行额外训练，还可以将模型量化分为量化感知训练和训练后量化等方式。模型量化能够实现减小模型体积、降低运算的复杂度和加快模型推理速度等功能。

浮点数（floating-point number）：一种数值表示方法，其在计算机中的表达形式允许小数点位置“浮动”，能以有效位数和指数的形式实现较大范围的数值表示。浮点数通常由符号位、指数位和尾数位三部分组成，如按照电气与电子工程师协会二进制浮点数算术标准（Institute of Electrical and Electronics Engineers 754，IEEE 754）定义的单精度（32 bits）和双精度（64 bits）浮点数。浮点数在科学计算和高精度计算中广泛应用。

定点数（fixed-point number）：一种数值表示方法，其在计算机中的表达形式具有固定数量小数位数的数值。可以将定点数表示为整数与缩放因子（scaling factor）的乘积。定点数通常用于需要精确打点的计算中，且硬件不支持浮点数或要求低功耗计算的场合，例如8 bits定点数。8 bits定点数的表示范围为 -128 到 127（有符号整数）或 0 到255（无符号整数）之间。8 bits定点数在计算机领域具有广泛应用，如颜色深度、音频采样和数据压缩等。

随着深度学习技术的普及，神经网络模型在各种应用场景中取得了显著的成功。然而，这些模型通常需要大量的计算资源和存储空间。在移动设备和嵌入式系统等资源受限的设备上部署这些模型可能会面临性能瓶颈。

模型量化是减小神经网络模型大小和计算复杂度的有效方法，但现有的量化方法通常需要对模型进行额外训练，导致训练开销增加。

采用训练后量化的方法可以无需原始的训练过程就能将预训练的32比特位的浮点网络直接转换为低比特位（如8比特）的定点网络。训练后量化的方法通常不需要数据（Data-Free）或者只需要很少的校准数据集。

然而，量化后的模型可能发生较大的精度损失，因此，在量化过程中存在模型精度与模型体积之间如何平衡和兼顾的问题。

以游戏场景中的语音模型为例，模型精度和模型体积不平衡会造成很多影响。例如，在语音模型为语音黑词识别模型的情况下，模型精度如果不满足模型精度需求，可能无法准确地识别出黑词；模型体积如果不满足压缩率需求，模型所需要的内存和计算复杂度将会很大，从而带来影响游戏渲染的流畅性等不利影响。

图1是本申请一个示例性实施例提供的语音模型的量化方法的流程图。该方法包括以下步骤。

步骤101，获取原始语音模型，原始语音模型为训练完成的神经网络模型。

原始语音模型可以是输入为语音数据的多种功能的神经网络模型。在一些实施例中，原始语音模型可以是用于从输入的语音中识别出黑词的语音黑词识别模型；在一些实施例中，原始语音模型可以是用于将输入的语音转换成对应的文本的语音转文本模型；在另一些实施例中，原始语音模型还可以为实现其他语音任务的神经网络模型，本申请实施例中对此不作限制。

神经网络模型（Neural Network，NN）一般也称为人工神经网络（ArtificialNeural Network，ANN）。神经网络可分类为不同的类型，例如感知机（Perceptron）、前馈神经网络（或称多层感知机，Multilayer Perceptron，MLP）、卷积神经网络（ConvolutionalNeural Networks，CNN）和循环神经网络（Recurrent Neural Network，RNN）等。

神经网络的参数包括权重参数、偏置项参数以及激活函数等。其中，权重参数表示神经元之间的连接强度，权重越大，表明神经元之间的连接强度越强。偏置项参数为了正确分类样本而设置，相当于对神经元的计算结果加上一个常数。激活函数的作用是起非线性映射的作用，将神经元输出的激活结果限制在一定的范围内，一般限制在（-1~1）或（0~1）之间。示例性的，常用的激活函数包括Sigmoid函数，其可将（-∞，+∞）的数映射到（0~1）的范围内。

神经网络通常由输入层、一个或多个隐藏层以及输出层组成。其中每层中可以包括一个或多个神经元。

其中，输出层中的神经元不包括权重参数和激活函数。

在一些神经网络中，不同层之间是全连接的，例如前馈神经网络中，前一层的任何一个神经元与后一层的所有神经元之间均存在连接。在另一些神经网络中，不同层之间可以是非全连接的，例如，神经元仅与其前层中的部分神经元之间存在连接。

在一些实施例中，原始语音模型中的参数为较高比特位数的浮点数，例如，原始语音模型中的权重参数和偏置项参数为32位浮点数（float 32）。

参见图2，图2是相关技术中通过32 bits表示二进制数的示意图。

以十进制数0.15625为例，其对应的二进制数为0.00101，标准科学技术法表示为。

按照电气与电子工程师协会二进制浮点数算术标准（Institute of Electricaland Electronics Engineers 754，IEEE 754），二进制浮点数可以通过符号（sign）、指数（exponent）和尾数（fraction）三部分组成。其中，符号所占的比特位数为1 bit（第31位），指数所占的比特位数为8 bits（第23位至第30位），尾数所占的比特位数为23 bits（第0位至第22位）。

在IEEE 754标准中对应的符号为0，指数为01111100，尾数为01000000000000000000000，因此，十进制数0.15625对应的32位比特数表示方式如图2所示。

由图2可知，在原始语音模型中的参数为32位浮点数的情况下，原始语音模型需要大量的存储空间和计算资源，因此，需要对原始语音模型进行量化，将原始语音模型中的参数转换为较低比特位数的定点数，例如8 bits的定点数，从而减小模型的体积和计算复杂度。

步骤102，基于至少一种量化策略确定原始语音模型中待量化的目标参数；量化策略包括第一量化策略和第二量化策略中的至少一种，第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数，第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数。

在一些实施例中，可以仅通过第一量化策略或仅通过第二量化策略确定原始语音模型中待量化的目标参数；在另一些实施例中，还可以同时基于第一量化策略和第二量化策略确定原始语音模型中待量化的目标参数。

其中，第一量化策略通过原始语音模型中权重参数的数值分布情况确定目标参数。

可选的，权重参数的数值分布情况包括但不限于原始语音模型中全部或部分权重参数的数值分布区间、分布概率、分位数、平均数等数值分布信息。

第二量化策略通过原始语音模型中神经元输出的激活结果确定目标参数。

可选的，神经元输出的激活结果包括但不限于原始语音模型中全部或部分神经元输出的激活结果的数值分布区间、分布概率、分位数、平均数等信息。

目标参数是原始语音模型中待量化的参数，且目标参数为原始语音模型中的部分参数。

示例性的，目标参数可以是原始语音模型中的部分权重参数或部分偏置项参数等参数。

基于第一量化策略确定目标参数的更多内容参见图6、图7和图8及其相关描述，基于第二量化策略确定目标参数的更多内容参见图9、图10、图11、图12和图13及其相关描述，在此均不再赘述。

步骤103，对原始语音模型的目标参数进行量化，得到量化语音模型。

在一些实施例中，可以通过各种量化方式对目标参数进行量化，例如线性量化、非线性量化，或对称量化、非对称量化等。本申请实施例对量化方式不作任何限制。

参见图3，图3是本申请一个示例性实施例提供的线性量化的示意图。

如图3所示，以将32 bits浮点数（float 32）量化为8 bits定点数（int 8）为例，以fmin表征32 bits浮点数中的最小值，以fmax表征32 bits浮点数中的最大值，以qmin表征8bits定点数中的最小值，以qmax表征8 bits定点数中的最大值，则为确定将32 bits浮点数映射为8 bits定点数，首先计算量化比例因子scale。

scale=（fmax-fmin）/（qmax-qmin）。

接着计算零点zero point。其中，零点是指32 bits浮点数中数字0.0在8 bits定点数中对应的映射结果，round是四舍五入的取整函数。

zero point=qmin-round（fmin/scale）。

则将32 bits浮点数fvalue映射到8 bits定点数qvalue表示为如下公式。

qvalue=round（（fvalue/scale）+ zero point）。

在需要准确的32 bits浮点数，而不能被8 bits定点数代替的情况下，可以将8bits定点数反映射回32 bits浮点数，表示为如下公式。

fvalue=（qvalue- zero point）×scale。

参见图4，图4是本申请一个示例性实施例提供的线性量化前32 bits浮点数与线性量化后8 bits定点数之间的映射关系的示意图。

图4中轴1为量化前32 bits浮点数对应的数轴，轴2为量化后8 bits定点数对应的数轴。其中，32 bits浮点数401为浮点数中的最小值，量化后被映射为8 bits定点数中的最小值0，32 bits浮点数404为浮点数中的最大值，量化后被映射为8 bits定点数中的最大值255。在量化前超出32 bits浮点数范围内的数将会被截断，如浮点数405超出32 bits浮点数中的最大值，则量化后也被映射到8 bits定点数中的最大值255。

在一些实施例中，量化前32 bits浮点数可以被精确表示为对应的8 bits定点数。例如0.0f形式的32 bits浮点数402，其数值与量化后的8 bits定点数相等。在另一些实施例中，量化前32 bits浮点数将会被四舍五入至最接近的8 bits定点数。例如浮点数403量化后被四舍五入至最接近的定点数253，对其反量化后的结果也为最接近的定点数253。

在模型的运行过程中，涉及到存储乘积运算和加法运算的结果，为了避免8 bits定点数进行乘积运算和加法运算时的运算结果溢出，在一些实施例中，可以将运算结果用32 bits浮点数存储，再量化为8 bits定点数。

参见图5，图5是本申请一个示例性实施例提供的将乘积运算的运算结果存储为32bits浮点数后再量化为8 bits定点数的示意图。

如图5所示，神经元的输入参数包括上一次神经元的权重参数W和上一层神经元的输出结果X，其中，W和X均为以8 bits定点数的形式存储的数据。在进行乘积运算W×X时，由于W×X的运算结果溢出8 bits定点数的表示范围，因此，为避免溢出情况的发生，可以将W×X的运算结果首先以32 bits浮点数的形式存储，再采用线性量化的方式或其他量化的方式将32 bits浮点数映射为8 bits定点数。

步骤104，在量化语音模型满足模型精度需求，且量化语音模型满足压缩率需求的情况下，将量化语音模型确定为目标语音模型。

可选的，模型精度需求包括但不限于对量化语音模型的准确率（Accuracy），精确率（Precision），召回率（Recall）等性能的要求。

示例性的，模型精度需求可以为量化语音模型在测试集上预测的准确率达到90%。

可选的，压缩率需求包括但不限于对量化语音模型的内存占用、参数体积、访存量等性能的要求。

示例性的，压缩率需求可以为量化语音模型的内存占用减少50%。

综上所述，基于原始语音模型中权重参数的数值分布情况确定目标参数，以及基于原始语音模型中神经元输出的激活结果确定目标参数中的至少一种方式，可以对原始语音模型中影响程度较小的权重参数进行量化；在量化语音模型满足模型精度需求和压缩率需求的情况下，将量化语音模型确定为目标语音模型，可以兼顾模型的预测效果和模型的体积大小，在保证语音模型效率的同时，尽可能地减少语音模型的内存和计算复杂度，减少语音模型对游戏渲染流畅性的影响。

关于基于第一量化策略确定目标参数的方法，在一种可能的实现方式中，服务器可以基于原始语音模型中权重参数的数值分布情况，以及压缩率需求，确定第一系数阈值。

其中，基于第一系数阈值对原始语音模型进行量化后得到的量化语音模型的压缩率大于或等于压缩率需求指示的目标压缩率。

在一些实施例中，可以基于原始语音模型中参数的浮点比特位数，量化语音模型中参数的定点比特位数和压缩率需求，确定达到目标压缩率所需要对权重参数进行量化的最小量化比例，再基于该最小量化比例以及原始语音模型中权重参数的数值分布情况，确定第一系数阈值。

示例性的，压缩率需求指示的目标压缩率为将参数体积压缩为原来的50%，原始语音模型的参数为32 位浮点数，量化语音模型的参数为8 位定点数。则可以首先确定达到目标压缩率所需要对权重参数进行量化的最小量化比例，假设对原始语音模型中占比为a的权重参数进行量化，则量化语音模型与原始语音模型的体积比为（32-32a+8a）/32，该数值应当小于或等于目标压缩率50%，因此a应当大于或等于2/3，即至少需要对原始语音模型中2/3的权重参数进行量化，才能达到50%的目标压缩率。

接着，可以基于最小量化比例和原始语音模型中权重参数的数值分布情况，确定第一系数阈值。

示例性，可以将权重参数的数值分布中，大于2/3分位数对应的权重参数、且小于最大权重参数的数值，确定为第一系数阈值。

在一些实施例中，第一系数阈值还可以通过其他方式进行确定，例如，可以基于压缩率需求和原始语音模型中权重参数的数值分布情况，通过拟合函数确定，本申请实施例对确定第一系数阈值的方式不作限制。

在一些实施例中，服务器将原始语音模型中小于第一系数阈值的权重参数确定为目标参数。

示例性的，第一系数阈值为0.45621，则将原始语音模型中小于0.45621的权重参数均确定为目标参数。

参见图6，图6是本申请一个示例性实施例提供的将原始语音模型中小于第一系数阈值的权重参数确定为目标参数的示意图。

如图6所示，x1、x2、x3和x4为原始语音模型的输入，y1和y2为原始语音模型的输出，图中神经元之间的连线代表权重参数。

以神经网络中神经元A、B、C和D的权重参数为例，对将原始语音模型中小于第一系数阈值的权重参数确定为目标参数进行说明。

如图6所示，在对原始语音模型进行量化之前，神经元A的权重参数包括权重参数和/>，其中，/>代表神经元A和神经元E之间的连接强度、/>代表神经元A和神经元F之间的连接强度。同理，神经元B、C和D的权重参数还包括权重参数/>、、/>和/>。在量化前上述权重参数均为32 bits的浮点数。

服务器在基于原始语音模型中权重参数的数值分布情况，以及压缩率需求，确定第一系数阈值之后，将原始语音模型中小于第一系数阈值的权重参数确定为目标参数。

由于权重参数代表神经元与前层神经元之间的连接强度，因此，在权重参数较大时，表征连接强度较强，权重参数对神经网络的预测结果贡献较大；在权重参数较小时，表征连接强度较弱，权重参数对神经网络的预测结果贡献较小。

在、/>、/>和/>小于第一系数阈值的情况下，将/>、/>、和/>确定为目标参数。在服务器对目标参数进行量化之后，/>、/>、/>和被量化为/>、/>、/>和/>，其中，/>、/>、/>和/>为8 bits的定点数。

需要说明的是，图6仅以神经网络中的神经元A、B、C和D的权重参数为例进行说明，对于其他层神经元的权重参数（例如神经元A前层的神经元的权重参数），同样可以将小于第一系数阈值的权重参数确定为目标参数。

需要说明的是，图6仅以神经网络为全连接的4层神经网络为例进行说明，但并不对神经网络的具体结构进行任何限定，例如，神经网络的层数可以更多或更少、各层中神经元的个数可以更多或更少、神经元之间的连接关系可以改变，诸如此类的变形均在本申请的保护范围之内。

本实施例中，将小于第一系数阈值的权重参数确定为目标参数，并对目标参数进行量化，可以量化对神经网络的预测结果贡献程度较小的权重参数，而对神经网络的预测结果贡献程度较大的权重参数得以保留，因此，一方面可以实现对模型体积的压缩，另一方面也可以尽可能地保证模型的精度。

基于第一系数阈值对原始语音模型进行量化后，得到的量化语音模型的压缩率大于或等于压缩率需求指示的目标压缩率，即量化语音模型满足压缩率需求。

在一些实施例中，基于第一系数阈值对原始语音模型进行量化后得到的量化语音模型可能满足模型精度需求，也可能不满足模型精度需求。

对原始语音模型的目标参数进行量化，得到量化语音模型之后，服务器还可以在测试集上对量化语音模型进行评估，以确定量化语音模型的模型精度。

原始语音模型可能包括不同类型的语音模型，以实现不同功能的语音预测任务。

在一些实施例中，在原始语音模型为语音黑词识别模型的情况下，服务器可以基于量化语音黑词识别模型的黑词识别结果与黑词标签的差异，确定量化语音黑词识别模型的模型精度。

其中，语音黑词识别模型用于从输入的语音中识别出黑词（如黑产违禁词等）。

在一种可能的实现方式中，黑词标签是由人工标注的对应的语音样本中实际存在的黑词；在另一种可能的实现方式中，黑词标签是将语音样本输入到语音黑词识别模型后得到的输出结果，采用该种方式可以通过模型精度刻画出量化前的语音黑词识别模型与量化语音黑词识别模型之间的差异。

在一些实施例中，在原始语音模型为语音转文本模型的情况下，服务器可以基于量化语音转文本模型的文本转换结果与文本标签的匹配度，确定量化语音转文本模型的模型精度。

其中，语音转文本模型用于将输入的语音转换成对应的文本。

在一种可能的实现方式中，文本标签是由人工标注的语音样本对应的实际文本；在另一种可能的实现方式中，文本标签是将语音样本输入到语音转文本模型后得到的输出结果，采用该种方式可以通过模型精度刻画出量化前的语音转文本模型与量化语音转文本模型之间的差异。

原始语音模型还可能为实现其他功能的任何语音模型，本申请实施例对原始语音模型的具体功能不作任何限制。

示例性的，原始语音模型还可以为敏感词语音识别模型，用于对游戏过程中输入的语音中包含的敏感词进行识别。在识别出敏感词后，终端可以根据相关法律法规对输入的语音进行掩码处理，或对相关用户进行提醒、警示或封禁等处理。

示例性的，原始语音模型还可以为未成年人语音识别模型，用于确定输入语音的用户是否为未成年用户。在识别出输入语音的用户为未成年用户后，终端可以根据相关法律法规对未成年用户进行游戏时长限制。

在量化语音模型满足模型精度需求和压缩率需求的情况下，服务器将量化语音模型确定为目标语音模型，从而兼顾了模型精度与模型体积。

在量化语音模型不满足模型精度需求的情况下，服务器可以对第一系数阈值进行阈值下调，从而对相对更少的权重参数进行量化，以提升模型精度。

参见图7，图7是本申请一个示例性实施例提供的基于第一系数阈值进行阈值下调的流程图。该流程图包括以下步骤。

步骤710，基于原始语音模型中权重参数的数值分布情况以及压缩率需求，确定第一系数阈值。

步骤720，基于第一系数阈值对原始语音模型进行量化，得到第一量化语音模型。

步骤731，在第i量化语音模型不满足模型精度需求的情况下，在第i系数阈值的基础上进行阈值下调，得到第i+1系数阈值。

其中，第i量化语音模型基于第i系数阈值对原始语音模型进行量化得到，i为正整数。

在一些实施例中，服务器可以基于下调步长，对第i系数阈值进行阈值下调，得到第i+1系数阈值。

在一些实施例中，下调步长可以为固定值（例如0.001）；在另一些实施例中，下调步长还可以由服务器基于第i量化语音模型的模型精度与模型精度需求之间的差异确定，且差异越大，下调步长越大。

以i=1为例，在第一量化语音模型不满足模型精度需求的情况下，在第一系数阈值的基础上进行阈值下调，得到第二系数阈值。

以i=2为例，在第二量化模型不满足模型精度需求的情况下，在第二系数阈值的基础上进行阈值下调，得到第三系数阈值。

步骤732，将原始语音模型中小于第i+1系数阈值的权重参数确定为目标参数。

步骤733，对原始语音模型的目标参数进行量化，得到第i+1量化语音模型。

以i=2为例，将原始语音模型中小于第三系数阈值的权重参数确定为目标参数，并对目标参数进行量化后，得到第三量化语音模型。

步骤733执行完之后，将i更新为i+1，在第i+1量化语音模型不满足模型精度需求的情况下，循环执行步骤731、步骤732和步骤733，在第i+1量化语音模型满足模型精度需求的情况下，执行步骤740。

步骤740，在第i量化语音模型满足压缩率需求和模型精度需求的情况下，将第i量化语音模型确定为目标语音模型。

本实施例中，由于量化语音模型能够满足压缩率需求，因此，在量化语音模型不满足模型精度需求时，基于第一系数阈值进行一轮或多轮阈值下调，以一定的压缩率让步换取量化语音模型更高的模型精度，从而兼顾了压缩率需求和模型精度需求。

在基于第一系数阈值进行一轮或多轮阈值下调的过程中，每一次下调后都需要在测试集上对重新量化后的语音模型进行评估，以重新判断模型精度是否满足模型精度需求，在这种情况下，量化的效率较低。

为提升量化效率，在阈值下调的次数达到次数阈值的情况下，服务器可以基于之前下调过程中的数据预测系数阈值。

其中，次数阈值可以为服务器设置的固定值。

在阈值下调的次数达到次数阈值的情况下，在一些实施例中，可以通过拟合函数，基于第一系数阈值至第j系数阈值、第一轮精度评估结果至第j轮精度评估结果，以及原始语音模型中权重参数的数值分布情况，拟合出系数阈值。

在阈值下调的次数达到次数阈值的情况下，在另一些实施例中，还可以基于第一系数阈值至第j系数阈值、第一轮精度评估结果至第j轮精度评估结果，以及原始语音模型中权重参数的数值分布情况，训练阈值预测模型。

其中，j为正整数。可选的，j等于次数阈值。

其中，阈值预测模型用于基于权重参数的数值分布情况以及模型精度进行系数阈值预测。

阈值预测模型可以从之前多次阈值下调过程中，结合权重参数的数值分布情况，学习出系数阈值的下调对模型精度的影响情况。

在一些实施例中，可以将模型精度需求和权重参数的数值分布情况输入阈值预测模型，得到阈值预测模型输出的系数阈值预测结果，并将原始语音模型中小于系数阈值预测结果的权重参数确定为目标参数。

本实施例中，通过阈值预测模型，可以学习出阈值下调得到的系数阈值与模型精度之间的数据内在关联，基于模型精度需求和权重参数的数值分布情况预测得到较为准确的系数阈值，无需进行更多轮次的阈值下调，从而提升了量化的效率。

在基于第一系数阈值进行一轮或多轮阈值下调的过程中，在第i量化语音模型的模型精度与模型精度需求的差异较小时，可以不进行下一轮阈值下调，而是在本轮阈值下调的基础上，仅对神经网络中的部分网络层的权重参数进行量化，以提升模型量化的效率。

在一些实施例中，在第i量化语音模型不满足模型精度需求，且第i量化语音模型的模型精度与模型精度需求的差值小于精度阈值的情况下，将原始语音模型中小于第i系数阈值，且位于原始语音模型中最后N层网络层的权重参数确定为目标参数，其中，N为神经网络中小于网络层总数的正整数。

可选的，精度阈值为服务器设置的固定值（如0.5%）。

在一些实施例中，N的取值可以基于第i量化语音模型的模型精度与模型精度需求的差值确定，且差值越小，N的取值越大。

参见图8，图8是本申请一个示例性实施例提供的将原始语音模型中小于第i系数阈值，且位于原始语音模型中最后N层网络层的权重参数确定为目标参数的示意图。

示例性的，在第i量化语音模型的模型精度与模型精度需求的差值为0.2%，小于精度阈值0.5%的情况下，服务器可以将原始语音模型中最后5层网络层801中小于第i系数阈值的权重参数确定为目标参数。在第i量化语音模型的模型精度与模型精度需求的差值为0.4%，小于精度阈值0.5%的情况下，服务器可以将原始语音模型中最后4层网络层802中小于第i系数阈值的权重参数确定为目标参数。

关于基于第二量化策略确定目标参数的方法，服务器可以基于原始语音模型中神经元输出的激活结果确定目标参数。

在原始语音模型中神经元输出的激活结果较小的情况下，表征该神经元对原始语音模型的预测结果的贡献程度较小，因此，可以对该神经元或与该神经元处于同一神经元通路中的前层神经元的权重参数进行量化，以在减少模型体积的同时，尽可能地保留其他对模型的预测结果贡献程度较大的权重参数。

参见图9，图9是本申请一个示例性实施例提供的基于原始语音模型中神经元输出的激活结果确定目标参数的示意图。

在一些实施例中，对于原始语音模型中的神经元，服务器可以基于神经元在不同样本下输出的激活结果，确定神经元的平均激活结果。

如图9中，服务器将多个语音样本910输入至原始语音模型920中，得到每个神经元对应的多个激活结果930。

其中，激活结果930是输入语音样本910后，神经元的激活函数输出的结果，且针对单个神经元来说，每个语音样本与激活结果之间一一对应。

由于激活函数只用于连接相邻的两层神经网络，最后一层的神经元不包括激活函数，因此，上述单个神经元是指位于神经网络中最后一层以外的其他网络层中的单个神经元。

针对单个神经元，可以将多个激活结果930的平均值作为平均激活结果940。

在一些实施例中，可以基于不同神经元的平均激活结果，以及压缩率需求，确定第一激活门限。

其中，基于第一激活门限对原始语音模型进行量化后得到的量化语音模型的压缩率大于或等于压缩率需求指示的目标压缩率。

在一些实施例中，第一激活门限的确定方式与目标参数的确定方式相关。

在一种可能的场景中，平均激活结果低于第一激活门限的全部神经元的全部权重参数都将被确定为目标参数，此时可以基于原始语音模型中参数的浮点比特位数，量化语音模型中参数的定点比特位数和压缩率需求，确定达到目标压缩率所需要对权重参数进行量化的最小量化比例；再基于该最小量化比例、神经网络中最后一层以外的其他网络层中的神经元数量，以及不同神经元的平均激活结果，确定第一激活门限。

示例性的，压缩率需求指示的目标压缩率为将参数体积压缩为原来的60%，原始语音模型的参数为32 位浮点数，量化语音模型的参数为8 位定点数。则可以首先确定达到目标压缩率所需要对权重参数进行量化的最小量化比例，假设对原始语音模型中占比为a神经元的全部权重参数进行量化，则量化语音模型与原始语音模型的体积比为（32-32a+8a）/32，该数值应当小于或等于目标压缩率60%，因此a应当大于或等于8/15，在神经网络中最后一层以外的其他网络层中神经元数量为150个情况下，至少需要对其中平均激活结果最低的80个神经元的全部权重参数进行量化，才能达到60%的目标压缩率。

在另一种可能的场景中，平均激活结果低于第一激活门限的全部神经元，与同一神经元通路中的前层神经元的权重参数将被确定为目标参数，在一种可能的实现方式中，可以基于神经网络中网络层的层数、神经元之间的连接关系、原始语音模型中参数的浮点比特位数、量化语音模型中参数的定点比特位数和压缩率需求，确定第一激活门限。

本领域技术人员可以理解，第一激活门限的确定方法还包括其他各种可能的方式，例如还可以基于全部神经元的平均激活结果的数值分布情况和目标压缩率确定等，本申请实施例对第一激活门限的具体确定方式不做任何限制。

在确定第一激活门限后950，服务器基于第一激活门限950，从原始语音模型的神经元中确定目标神经元960。

基于第一激活门限，从原始语音模型的神经元中确定目标神经元的方法，可以包括以下方式中的至少一种。

（1）将平均激活结果小于第一激活门限的神经元，确定为目标神经元。

示例性的，第一激活门限为0.6800，则将原始语音模型中所有平均激活结果小于0.6800的神经元确定为目标神经元。

参见图10，图10是本申请一个示例性实施例提供的将平均激活结果小于第一激活门限的神经元确定为目标神经元的示意图。

图10的神经网络中，神经网络中最后一层以外的其他网络层中，神经元具有平均激活结果，以神经元下方的小数示出。

在第一激活门限为0.6800的情况下，将平均激活结果小于0.6800的神经元确定为目标神经元，则目标神经元为神经元A、B、C、D和E。

（2）将平均激活结果小于第一激活门限的神经元，确定为第一目标神经元；基于原始语音模型中神经元之间的连接关系，确定第一目标神经元对应的第二目标神经元；将第一目标神经元和第二目标神经元确定为目标神经元。

其中，第二目标神经元位于第一目标神经元之前的网络层，且第二目标神经元与第一目标神经元处于同一神经元通路中。

在一些实施例中，原始语音模型是非全连接的神经网络，不同神经元与其前层的神经元之间具有不同的连接关系。

参见图11，图11是本申请一个示例性实施例提供的将第一目标神经元和第二目标神经元确定为目标神经元的示意图。

如图11所示，将平均激活结果小于第一激活门限（0.6800）的神经元，确定为第一目标神经元，则第一目标神经元包括神经元A、B、C、D和E。

接着，基于原始语音模型中神经元之间的连接关系，分别确定每个第一目标神经元对应的第二目标神经元。

其中，当两个不同层级的神经元之间存在连接的权重参数或神经元，使得该两个神经元直接或间接连接的情况下，该两个神经元处于同一神经元通路中。

示例性的，以神经元A为例，神经元C、F和E均位于其前一层的网络层，且均与神经元A处于同一神经元通路中；神经元G、H、I和J均位于其前两层的网络层，且均与神经元A处于同一神经元通路中；因此，神经元A对应的第二目标神经元包括神经元C、F、E、G、H、I和J。

同理，神经元B对应的第二目标神经元包括神经元G和J、神经元C对应的第二目标神经元包括神经元G和H、神经元D对应的第二目标神经元包括神经元H和J、神经元E对应的第二目标神经元为神经元J。

将第一目标神经元和第二目标神经元确定为目标神经元，因此，目标神经元为神经元A~J。

本领域技术人员可以理解，在一些实施例中，还可以基于第一激活门限，通过其他方式从原始语音模型的神经元中确定目标神经元。例如，可以基于第一激活门限确定第一目标神经元，并将与第一目标神经元处于同一神经元通路中、且位于第一目标神经元前一层的神经元确定为第三目标神经元，将第一目标神经元和第三目标神经元确定为目标神经元。本申请实施例对基于第一激活门限确定目标神经元的具体方式不作限制。

在一些实施例中，在确定目标神经元960之后，可以将目标神经元960的权重参数确定为目标参数970，并对目标参数970进行量化，以得到量化语音模型。

本实施例中，基于第一激活门限确定目标神经元，将目标神经元的权重参数确定为目标参数，并对目标参数进行量化，可以量化对神经网络的预测结果贡献程度较小的权重参数，而对神经网络的预测结果贡献程度较大的权重参数得以保留，因此，一方面可以实现对模型体积的压缩，另一方面也可以尽可能地保证模型的精度。

基于第一激活门限对原始语音模型进行量化后，得到的量化语音模型的压缩率大于或等于压缩率需求指示的目标压缩率，即量化语音模型满足压缩率需求。

在一些实施例中，基于第一激活门限对原始语音模型进行量化后得到的量化语音模型可能满足模型精度需求，也可能不满足模型精度需求。

在量化语音模型不满足模型精度需求的情况下，服务器可以对第一激活门限进行门限下调，从而对更少的目标神经元的权重参数进行量化，以提升模型精度。

参见图12，图12是本申请一个示例性实施例提供的基于第一激活门限进行门限下调的流程图。该流程图包括以下步骤。

步骤1210，基于不同神经元的平均激活结果，以及压缩率需求，确定第一激活门限。

步骤1220，基于第一激活门限，从原始语音模型的神经元中确定目标神经元，并对目标神经元的权重参数进行量化，得到第一量化语音模型。

步骤1231，在第k量化语音模型不满足模型精度需求的情况下，在第k激活门限的基础上进行门限下调，得到第k+1激活门限。

其中，第k量化语音模型基于第k激活门限对原始语音模型进行量化得到，k为正整数。

在一些实施例中，服务器可以基于门限下调步长，对第k激活门限进行门限下调，得到第k+1激活门限。

在一些实施例中，门限下调步长可以为固定值（例如0.01）；在另一些实施例中，门限下调步长还可以由服务器基于第k量化语音模型的模型精度与模型精度需求之间的差异确定，且差异越大，门限下调步长越大。

以k=2为例，在第二量化模型不满足模型精度需求的情况下，在第二激活门限的基础上进行门限下调，得到第三激活门限。

步骤1232，基于第k+1激活门限，从原始语音模型的神经元中确定目标神经元。

步骤1233，对目标神经元的权重参数进行量化，得到第k+1量化语音模型。

步骤1233执行完之后，将k更新为k+1，在第k+1量化语音模型不满足模型精度需求的情况下，循环执行步骤1231、步骤1232和步骤1233，在第k+1量化语音模型满足模型精度需求的情况下，执行步骤1240。

步骤1240，在第k量化语音模型满足压缩率需求和模型精度需求的情况下，将第k量化语音模型确定为目标语音模型。

本实施例中，由于量化语音模型能够满足压缩率需求，因此，在量化语音模型不满足模型精度需求时，基于第一激活门限进行多轮门限下调，以一定的压缩率让步换取量化语音模型更高的模型精度，从而兼顾了压缩率需求和模型精度需求。

在基于第一激活门限进行多轮门限下调的过程中，在第k量化语音模型的模型精度与模型精度需求的差异较小时，可以不进行下一轮门限下调，而是在本轮门限下调的基础上，仅对神经网络中的部分目标神经元的权重参数进行量化，以提升模型量化的效率。

在一些实施例中，在第k量化语音模型不满足模型精度需求，且第k量化语音模型的模型精度与模型精度需求的差值小于精度阈值的情况下，基于第k激活门限以及层数阈值，从原始语音模型的神经元中确定第三目标神经元，并将第一目标神经元和第三目标神经元确定为目标神经元。

其中，第三目标神经元位于第一目标神经元之前的网络层，第三目标神经元与第一目标神经元处于同一神经元通路中，且第一目标神经元与第三目标神经元之间的网络层的层数小于层数阈值。

可选的，精度阈值为服务器设置的固定值（如0.5%）。

在一些实施例中，层数阈值的取值可以基于第k量化语音模型的模型精度与模型精度需求的差值确定，且差值越小，层数阈值的取值越大。

参见图13，图13是本申请一个示例性实施例提供的将第一目标神经元和第三目标神经元确定为目标神经元的示意图。

示例性的，在第k量化语音模型的模型精度与模型精度需求的差值小于精度阈值的情况下，服务器可以将原始语音模型中与第一目标神经元处于同一神经元通路中、位于第一目标神经元之前的网络层、且与第一目标神经元之间的网络层的层数小于层数阈值（如1）的神经元确定为第三目标神经元。

图13中小于第k激活门限（0.5690）的第一目标神经元为神经元A、B、C和D。

其中，位于神经元A之前的网络层、且与神经元A之间的网络层的层数小于层数阈值1，表明第三目标神经元位于网络层1301中。网络层1301与神经元A处于同一神经元通路中的为神经元C、F和E，因此第三目标神经元为神经元C、F和E。

服务器可以将原始语音模型中第一目标神经元和第三目标神经元确定为目标神经元，即，目标神经元为神经元A、C、F和E。

本实施例中，第k量化语音模型的模型精度与模型精度需求的差值小于精度阈值的情况下，通过将第三目标神经元和第一目标神经元作为目标神经元，可以在一定程度上减少目标神经元的数量，以一定的压缩率让步换取量化语音模型更高的模型精度，从而兼顾了压缩率需求和模型精度需求。

关于基于第一量化策略和第二量化策略确定目标参数的方法，服务器可以基于先采用第一量化策略，对原始语音模型中小于第一系数阈值的权重参数进行量化，得到第一量化语音模型。在第一量化语音模型不满足模型精度需求的情况下，基于第一系数阈值进行一轮或多轮阈值下调。

在阈值下调过程中，随着系数阈值越来越低，待量化的目标参数的数量将越来越少，模型精度随之提升的同时，压缩率也随之升高，使得模型体积变大。

在一种可能的场景中，第i量化语音模型不满足模型精度需求且满足压缩率需求、第i+1量化语音模型满足模型精度需求且不满足压缩率需求。

因此，在该种情况下，仅通过第一量化策略，无法实现对系数阈值下调至一个合适的值，使得量化后的模型同时满足模型精度需求和压缩率需求。

此时可以结合第一量化策略和第二量化策略确定目标参数，以实现模型精度需求和压缩率需求的平衡。

在一些实施例中，在第i量化语音模型不满足模型精度需求且满足压缩率需求，第i+1量化语音模型满足模型精度需求且不满足压缩率需求的情况下，服务器可以对于第i量化语音模型中的神经元，基于神经元在不同样本下输出的激活结果，确定补充激活门限。

其中，补充激活门限用于在第一量化策略的基础上，通过第二量化策略，从原始语音模型的神经元中确定量化补充神经元。

在一些实施例中，可以对于第i量化语音模型中的神经元，基于神经元在不同样本下输出的激活结果，以及第i量化语音模型的模型精度与模型精度需求的差值，确定补充激活门限。其中，补充激活门限正相关于第i量化语音模型的模型精度与模型精度需求的差值。

在另一些实施例中，补充激活门限还可以通过原始语音模型中参数的浮点比特位数、量化语音模型中参数的定点比特位数、原始语音模型中权重参数的数值分布情况和第i系数阈值等因素进行预测得到。本申请实施例对补充激活门限的具体确定方式不作任何限制。

量化补充神经元是在第一量化策略的基础上，为对原始语音模型进行补充量化所确定的神经元。

在一些实施例中，服务器将原始语音模型中小于第i系数阈值的权重参数，以及量化补充神经元的权重参数，确定为目标参数。

其中，基于第i系数阈值和补充激活门限对原始语音模型进行量化后得到的量化语音模型满足模型精度需求和压缩率需求。

本实施例中，通过结合第一量化策略和第二量化策略，可以在通过第一量化策略进行多轮阈值下调的过程中，在第i量化语音模型不满足模型精度需求且满足压缩率需求，第i+1量化语音模型满足模型精度需求且不满足压缩率需求的情况下，通过对量化补充神经元的权重参数进行补充量化，从而实现了模型精度需求和压缩率需求的兼顾，克服了仅通过第一量化策略无法实现二者兼顾的缺点。

本领域技术人员可以理解的，在另一些实施例中，还可以首先通过第二量化策略，对第一激活门限进行多轮门限下调，并在第i量化语音模型不满足模型精度需求且满足压缩率需求，第i+1量化语音模型满足模型精度需求且不满足压缩率需求的情况下，结合第一量化策略，对模型进行补充量化；或是同时使用第一量化策略和第二量化策略对对原始语音模型进行量化。诸如此类的结合第一量化策略和第二量化策略对原始语音模型进行量化的方案，均在本申请保护范围之内。

参见图14，图14是本申请一个示例性实施例提供的语音模型的量化装置的结构框图。该装置包括：

模型获取模块1401，用于获取原始语音模型，所述原始语音模型为训练完成的神经网络模型；

目标参数确定模块1402，用于基于至少一种量化策略确定所述原始语音模型中待量化的目标参数；所述量化策略包括第一量化策略和第二量化策略中的至少一种，所述第一量化策略指示基于所述原始语音模型中权重参数的数值分布情况确定所述目标参数，所述第二量化策略指示基于所述原始语音模型中神经元输出的激活结果确定所述目标参数；

模型量化模块1403，用于对所述原始语音模型的所述目标参数进行量化，得到量化语音模型；

模型验证模块1404，用于在所述量化语音模型满足模型精度需求，且所述量化语音模型满足压缩率需求的情况下，将所述量化语音模型确定为目标语音模型。

可选的，目标参数确定模块1402，用于：

基于所述原始语音模型中权重参数的数值分布情况，以及所述压缩率需求，确定第一系数阈值；

将所述原始语音模型中小于所述第一系数阈值的权重参数确定为所述目标参数，其中，基于所述第一系数阈值对所述原始语音模型进行量化后得到的量化语音模型的压缩率大于或等于所述压缩率需求指示的目标压缩率。

可选的，目标参数确定模块1402，用于：

在第i量化语音模型不满足所述模型精度需求的情况下，在第i系数阈值的基础上进行阈值下调，得到第i+1系数阈值，其中，所述第i量化语音模型基于所述第i系数阈值对所述原始语音模型进行量化得到，i为正整数；

将所述原始语音模型中小于所述第i+1系数阈值的权重参数确定为所述目标参数。

可选的，目标参数确定模块1402，用于：

基于下调步长，对所述第i系数阈值进行阈值下调，得到所述第i+1系数阈值。

可选的，目标参数确定模块1402，用于：

在所述阈值下调的次数达到次数阈值的情况下，基于所述第一系数阈值至第j系数阈值、第一轮精度评估结果至第j轮精度评估结果，以及所述原始语音模型中权重参数的数值分布情况，训练阈值预测模型，所述阈值预测模型用于基于权重参数的数值分布情况以及模型精度进行系数阈值预测，j为正整数；

将所述模型精度需求和所述权重参数的数值分布情况输入所述阈值预测模型，得到所述阈值预测模型输出的系数阈值预测结果；

将所述原始语音模型中小于所述系数阈值预测结果的权重参数确定为所述目标参数。

可选的，目标参数确定模块1402，用于：

在所述第i量化语音模型不满足所述模型精度需求，且所述第i量化语音模型的模型精度与所述模型精度需求的差值小于精度阈值的情况下，将所述原始语音模型中小于所述第i系数阈值，且位于所述原始语音模型中最后N层网络层的权重参数确定为所述目标参数。

可选的，目标参数确定模块1402，用于：

在所述第i量化语音模型不满足所述模型精度需求且满足所述压缩率需求，所述第i+1量化语音模型满足所述模型精度需求且不满足所述压缩率需求的情况下，对于所述第i量化语音模型中的神经元，基于所述神经元在不同样本下输出的激活结果，确定补充激活门限；

基于所述补充激活门限，从所述原始语音模型的神经元中确定量化补充神经元；

将所述原始语音模型中小于所述第i系数阈值的权重参数，以及所述量化补充神经元的权重参数，确定为所述目标参数，其中，基于所述第i系数阈值和所述第二激活门限对所述原始语音模型进行量化后得到的量化语音模型满足所述模型精度需求和所述压缩率需求。

可选的，目标参数确定模块1402，用于：

对于所述第i量化语音模型中的神经元，基于所述神经元在不同样本下输出的激活结果，以及所述第i量化语音模型的模型精度与所述模型精度需求的差值，确定所述补充激活门限，其中，所述补充激活门限正相关于所述差值。

可选的，目标参数确定模块1402，用于：

对于所述原始语音模型中的神经元，基于所述神经元在不同样本下输出的激活结果，确定所述神经元的平均激活结果；

基于不同神经元的所述平均激活结果，以及所述压缩率需求，确定第一激活门限；

基于所述第一激活门限，从所述原始语音模型的神经元中确定目标神经元；

将所述目标神经元的权重参数确定为所述目标参数，其中，基于所述第一激活门限对所述原始语音模型进行量化后得到的量化语音模型的压缩率大于或等于所述压缩率需求指示的目标压缩率。

可选的，目标参数确定模块1402，用于如下至少一种方式。

将所述平均激活结果小于所述第一激活门限的神经元，确定为所述目标神经元；

将所述平均激活结果小于所述第一激活门限的神经元，确定为第一目标神经元；基于所述原始语音模型中神经元之间的连接关系，确定所述第一目标神经元对应的第二目标神经元，所述第二目标神经元位于所述第一目标神经元之前的网络层，且所述第二目标神经元与所述第一目标神经元处于同一神经元通路中；将所述第一目标神经元和所述第二目标神经元确定为所述目标神经元。

可选的，目标参数确定模块1402，用于：

在第k量化语音模型不满足所述模型精度需求的情况下，在第k激活门限的基础上进行门限下调，得到第k+1激活门限，其中，所述第k量化语音模型基于所述第k激活门限对所述原始语音模型进行量化得到，k为正整数；

基于所述第k+1激活门限，从所述原始语音模型的神经元中确定所述目标神经元。

可选的，目标参数确定模块1402，用于：

在所述第k量化语音模型不满足所述模型精度需求，且所述第k量化语音模型的模型精度与所述模型精度需求的差值小于精度阈值的情况下，基于所述第k激活门限以及层数阈值，从所述原始语音模型的神经元中确定第三目标神经元，所述第三目标神经元位于所述第一目标神经元之前的网络层，所述第三目标神经元与所述第一目标神经元处于同一神经元通路中，且所述第一目标神经元与所述第三目标神经元之间的网络层的层数小于所述层数阈值；

将所述第一目标神经元和所述第三目标神经元确定为所述目标神经元。

可选的，该装置还包括模型精度确定模块，对所述原始语音模型的所述目标参数进行量化，得到量化语音模型之后，模型精度确定模块用于：

在所述原始语音模型为语音黑词识别模型的情况下，基于量化语音黑词识别模型的黑词识别结果与黑词标签的差异，确定所述量化语音黑词识别模型的模型精度，所述语音黑词识别模型用于从输入的语音中识别出黑词；或，

在所述原始语音模型为语音转文本模型的情况下，基于量化语音转文本模型的文本转换结果与文本标签的匹配度，确定所述量化语音转文本模型的模型精度，所述语音转文本模型用于将输入的语音转换成对应的文本。

参见图15，图15是本申请一个示例性实施例提供的计算机设备的结构示意图。计算机设备1500可以实现成为上述实施例中的服务器。

具体来讲：所述计算机设备1500包括中央处理单元（Central Processing Unit，CPU）1501、包括随机存取存储器1502和只读存储器1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。所述计算机设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（Input/Output，I/O系统）1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

所述基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中所述显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1507通过连接到系统总线1505的大容量存储控制器（未示出）连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，所述大容量存储设备1507可以包括诸如硬盘或者驱动器之类的计算机可读介质（未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体（RAM，Random Access Memory）、只读存储器（ROM，Read Only Memory）、闪存或其他固态存储其技术，只读光盘（Compact Disc Read-Only Memory，CD-ROM）、数字通用光盘（Digital Versatile Disc，DVD）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1501执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在所述系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统（未示出）。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述任一实施例所述的方法。

可选的，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘（SSD，Solid StateDrives）或光盘等。其中，RAM可以包括电阻式随机存取记忆体（ReRAM，Resistance RandomAccess Memory）和动态随机存取存储器（DRAM，Dynamic Random Access Memory）。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

需要进行说明的是，本申请在收集用户的相关数据（如语音数据）的过程中，可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则（即未获取到用户对该提示界面或者弹窗发出的确认操作时），结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息、用户的语音信息）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的用户的语音数据等都是在充分授权的情况下获取的。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音模型的量化方法，其特征在于，所述方法包括：

获取原始语音模型，所述原始语音模型为训练完成的神经网络模型；

基于至少一种量化策略确定所述原始语音模型中待量化的目标参数；所述量化策略包括第一量化策略和第二量化策略中的至少一种，所述第一量化策略指示基于所述原始语音模型中权重参数的数值分布情况确定所述目标参数，所述第二量化策略指示基于所述原始语音模型中神经元输出的激活结果确定所述目标参数；

对所述原始语音模型的所述目标参数进行量化，得到量化语音模型；

在所述量化语音模型满足模型精度需求，且所述量化语音模型满足压缩率需求的情况下，将所述量化语音模型确定为目标语音模型；

其中，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，包括：

基于所述原始语音模型中权重参数的数值分布情况，以及压缩率需求，确定第一系数阈值；将所述原始语音模型中小于所述第一系数阈值的权重参数确定为目标参数；

在第i量化语音模型不满足模型精度需求的情况下，在第i系数阈值的基础上进行阈值下调，得到第i+1系数阈值，其中，所述第i量化语音模型基于所述第i系数阈值对所述原始语音模型进行量化得到，i为正整数；将所述原始语音模型中小于所述第i+1系数阈值的权重参数确定为所述目标参数；

在所述第i量化语音模型不满足所述模型精度需求且满足所述压缩率需求，第i+1量化语音模型满足所述模型精度需求且不满足所述压缩率需求的情况下，对于所述第i量化语音模型中的神经元，基于所述神经元在不同样本下输出的激活结果，确定补充激活门限；基于所述补充激活门限，从所述原始语音模型的神经元中确定量化补充神经元；将所述原始语音模型中小于所述第i系数阈值的权重参数，以及所述量化补充神经元的权重参数，确定为所述目标参数。

2.根据权利要求1所述的方法，其特征在于，所述在第i系数阈值的基础上进行阈值下调，得到第i+1系数阈值，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，还包括：

5.根据权利要求1所述的方法，其特征在于，所述对于所述第i量化语音模型中的神经元，基于所述神经元在不同样本下输出的激活结果，确定补充激活门限，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一激活门限，从所述原始语音模型的神经元中确定目标神经元，包括如下至少一种方式：

8.根据权利要求7所述的方法，其特征在于，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，还包括：

9.根据权利要求8所述的方法，其特征在于，所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数，还包括：

10.根据权利要求1至9任一所述的方法，其特征在于，所述对所述原始语音模型的所述目标参数进行量化，得到量化语音模型之后，所述方法还包括：

11.一种语音模型的量化装置，其特征在于，所述装置包括：

模型获取模块，用于获取原始语音模型，所述原始语音模型为训练完成的神经网络模型；

目标参数确定模块，用于基于至少一种量化策略确定所述原始语音模型中待量化的目标参数；所述量化策略包括第一量化策略和第二量化策略中的至少一种，所述第一量化策略指示基于所述原始语音模型中权重参数的数值分布情况确定所述目标参数，所述第二量化策略指示基于所述原始语音模型中神经元输出的激活结果确定所述目标参数；

模型量化模块，用于对所述原始语音模型的所述目标参数进行量化，得到量化语音模型；

模型验证模块，用于在所述量化语音模型满足模型精度需求，且所述量化语音模型满足压缩率需求的情况下，将所述量化语音模型确定为目标语音模型；

其中，所述目标参数确定模块，用于基于所述原始语音模型中权重参数的数值分布情况，以及压缩率需求，确定第一系数阈值；将所述原始语音模型中小于所述第一系数阈值的权重参数确定为目标参数；

12.一种服务器，其特征在于，所述服务器包括：处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现权利要求1至10任一项所述的语音模型的量化方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至10任一项所述的语音模型的量化方法。