CN116524941A - 语音模型的自适应量化压缩方法、系统和电子设备 - Google Patents
语音模型的自适应量化压缩方法、系统和电子设备 Download PDFInfo
- Publication number
- CN116524941A CN116524941A CN202310572514.3A CN202310572514A CN116524941A CN 116524941 A CN116524941 A CN 116524941A CN 202310572514 A CN202310572514 A CN 202310572514A CN 116524941 A CN116524941 A CN 116524941A
- Authority
- CN
- China
- Prior art keywords
- quantization
- model
- voice model
- compression
- precision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000006835 compression Effects 0.000 title claims abstract description 77
- 238000007906 compression Methods 0.000 title claims abstract description 72
- 238000009826 distribution Methods 0.000 claims abstract description 32
- 238000000926 separation method Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 23
- 230000035945 sensitivity Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 10
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例提供一种语音模型的自适应量化压缩方法、系统和电子设备。该方法包括:对语音模型进行基于矩阵的敏感度分析,基于分析出的语音模型内神经网络不同层级对量化的敏感度差异,对语音模型进行混合精度量化压缩搜索,确定语音模型在设定压缩比下的参数权重分布;基于参数权重分布对语音模型的参数进行分隔处理,得到多个分隔区间,对分隔区间进行聚类,得到各分隔区间的量化目标值;利用各分隔区间的量化目标值对语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。本发明实施例,在模型性能没有明显下降的基础上,减小了模型的大小,使其可以应用于存储空间受限的轻量型的设备中。
Description
技术领域
本发明涉及智能语音领域,尤其涉及一种语音模型的自适应量化压缩方法、系统和电子设备。
背景技术
随着深度神经网络模型的发展,深度神经网络模型在语音识别、说话人验证等领域已经取得了优异的性能。在深度神经网络模型的架构中,ResNet和ECAPA-TDNN(Emphasized Channel Attention,Propagation and Aggregation Time-Delay NeuralNetwork,强化注意力、传播和聚合时间的时延神经网络)是最流行、最有效的说话人嵌入提取器。虽然这些模型会带来更优异的性能,但它们会占用大量的内存,这就限制了它们在移动设备等轻量级设备中的应用。
为了解决上述问题,通常会对模型进行压缩,减小模型的大小,使其能够应用于轻量级的设备中,例如,使用二值量化方法,通过在网络训练中使用二值近似来将网络的大部分参数转换成离散的两个值。使用指数量化用以2为底的指数函数值量化网络参数。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
二值量化过于追求模型的极致压缩,从而忽略了模型的准确度。指数量化的量化值间距固定,不能拟合模型的真实参数分布。这也就使得上述基于量化压缩语音模型的系统性能较差(例如,压缩后说话人确认系统不能准确的进行识别),难以满足使用需要。
发明内容
为了至少解决现有技术中量化压缩后语音模型系统性能较差,难以满足使用需要的问题。
第一方面,本发明实施例提供一种语音模型的自适应量化压缩方法,包括:
对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
第二方面,本发明实施例提供一种语音模型的自适应量化压缩系统,包括:
参数权重分布确定程序模块,用于对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
量化目标值确定程序模块,用于基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
压缩程序模块,用于利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音模型的自适应量化压缩方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语音模型的自适应量化压缩方法的步骤。
本发明实施例的有益效果在于:利用本方法的自适应量化压缩,可以有效地减小语音模型的大小,进一步地可以应用于说话人确认系统的模型压缩策略,在模型性能没有明显下降的基础上,减小了模型的大小,使其可以应用于在存储空间受限的轻量型的设备中。进一步实现了说话人确认系统的更广泛的应用。同时,利用本方法也可以使同样内存的终端设备上部署比以前更加精细复杂的系统。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种语音模型的自适应量化压缩方法的流程图;
图2是本发明一实施例提供的一种语音模型的自适应量化压缩方法的混合精度量化结构示意图;
图3是本发明一实施例提供的一种语音模型的自适应量化压缩方法的消融研究示意图;
图4是本发明一实施例提供的一种语音模型的自适应量化压缩方法的在测试集上全精度和量化ResNet34的性能示意图;
图5是本发明一实施例提供的一种语音模型的自适应量化压缩方法的压缩/量化ResNet34和其他全精度架构的实验结果示意图;
图6是本发明一实施例提供的一种语音模型的自适应量化压缩方法的具有相同参数分布的不同量化方法的示意图;
图7是本发明一实施例提供的一种语音模型的自适应量化压缩方法的混合精度量化中ResNet34的每一层的量化精度示意图;
图8是本发明一实施例提供的一种语音模型的自适应量化压缩系统的结构示意图;
图9为本发明一实施例提供的一种语音模型的自适应量化压缩的电子设备的实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种语音模型的自适应量化压缩方法的流程图,包括如下步骤:
S11:对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
S12:基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
S13:利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
在本实施方式中,考虑到现有技术中,为了将神经网络模型应用于各种小型设备,通常会采用各种方法来减小语音模型的大小。例如,基于通过对说话人嵌入提取器进行二进制量化的知识提取,使提取后训练的小模型可以获得与原始模型相当的性能。然而,本方法发现在现有技术中,通常将二进制量化应用于说话人嵌入提取器。使模型被压缩多次,所有参数被量化为两个值,且对所有参数应用相同的位宽量化,忽略了不同层对量化的敏感性差异,这样就会使模型性能急剧下降。本方法利用混合精度量化来解决上述问题,混合精度量化可以根据每一层对量化的敏感性来分配参数的精度,以提高模型性能。
对于步骤S11,混合精度量化允许在一个被量化处理的模型中具有不同的位宽,它通过跨层重新分配量化精度来提高模型性能。如图2所示,整体结构为通过混合精度搜索将量化精度分布到语音模型的ResNet层,然后以不同的精度对层进行量化。最后对混合精度量化模型进行了微调。为了进行混合精度量化压缩搜索,需要先对语音模型进行基于矩阵的敏感度分析,具体的,本方法针对语音模型内每一层对量化的敏感性采用不同的精度。通过Hessian矩阵来估计层的灵敏度。总灵敏度定义为:
其中,ΩHes表示模型的总灵敏度,H(i)表示第i层的Hessian矩阵,L是层数,通过上述公式可以确定出每一层的敏感度,并确定出各层敏感度之间的差异。确定出各层敏感度之间差异之后,搜索算法遵循三个原则:首先,对量化敏感度高的层应该比敏感度低的层具有更高的精度。其次,模型的总尺寸是有限的。第三,选择具有最低ΩHes的组合进行混合精度量化。
关于混合精度量化搜索,混合精度量化是旨在保持模型性能的基础上,同时压缩参数的位宽。语音模型大小通过减少参数级内存占用而减小。与传统神经网络不同,量化模型中的每个可学习参数都以较低的比特精度(3或4比特,对于二进制量化甚至是1比特)存储,而不是32比特。所有参数都近似为几个固定值。
为每一层存储全精度量化的量化目标中心点(centroids,也可以称为质心),为了减少参数的内存使用,将原始参数转换为整数。整数集N定义如下:
N∈{0,1,2,...,2n-1}
其中n表示以比特为单位的量化精度。本方法建立了一个从N到量化目标中心点集合C的双射:
其中C(l)表示在第l层中设置的量化值,Ψ是指线性的双射。通过这种方式,可学习参数可以存储在较少的比特中,并在推理阶段转换为全精度值。
然后量化运算f(·)和最终量化参数Q定义如下:
Q(l)=α(l)C(l)
其中,α表示可学习的比例因子,W(l)是第l层中的权重。通过在最接近的量化值中近似原始权重来实现模型中参数的量化f。通过上述方式确定出语音模型在设定压缩比下的参数权重分布。
对于步骤S12,通过步骤S11确定出模型各层的参数权重分布不同,为了缓解量化目标中心点和参数分布之间的这种不匹配,本方法对所述分隔区间内的参数按照预设数量的中心点进行K-Means聚类,得到各分隔区间的量化目标值。具体的,本方法提出了基于K-Means(K均值聚类算法)进行量化感知训练,得到KMQAT(K-Means based QuantizationAware Training,基于K-Means的量化感知训练)。
首先,KMQAT将每一层的权重划分为n个区间,这确保了参数分布的每一部分都会被分配一个相应的量化目标中心点;其次,KMQAT在每个区间进行K-Means聚类,以确保该区间的量化损失最小。对于每一层,参数根据其值划分为n个宽度相同的间隔:
其中n是当前层的比特精度,表示第l层的裁切权重,/>是权重的第i个区间。
对于步骤S13,在训练的每个区间中,本方法将重点放在分布峰值附近的90%的参数上,以避免异常值的负面影响。对该百分比进行的消融研究的结果如图3所示。然后本方法实现了每个权重分区中只有一个中心的K-Means聚类算法。第l层的量化目标中心点集由下式给出:
其中Φ表示集群操作。本方法已经通过使量化目标中心点适应权重分布来实现自适应量化。
上述的步骤可以实现均匀量化,然而,由于深度神经网络的特性,不同层次对量化的敏感性不同,而均匀量化忽略了这种敏感性差异。因此,本方法进一步对混合精度量进行了改进,来克服这个问题。
本方法通过MSFT(multi-stage fine-tuning,多阶段微调),以进一步提高混合精度量化的性能。由于模型中的权重精度不同,如果在训练过程中一起训练不同层的参数,可能会陷入次优解。MSFT根据层的位宽逐渐量化层,而不是完全量化整个模型。在本方法中,量化从较低精度的层开始。
作为一种实施方式,所述利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩包括:
基于所述量化目标值对所述语音模型内神经网络的不同层级按照低量化精度至高量化精度的顺序进行多阶段微调自适应量化压缩。
在本实施方式中,MFST从最低量化精度的网络组成部分多阶段微调开始进行模型的量化,其余高量化精度的部分保持全精度不变,训练至收敛;之后在量化完成最低精度的基础上,再量化高一个精度的部分,其余高量化精度的部分保持全精度不变,训练至收敛。以此类推,直至所有参数被量化,模型训练至收敛,得到多阶段微调自适应量化压缩后的轻量化语音模型。
对应的多阶段微调代码如下:
Input:f:quantization operation;W:pretrained full-precision weights;P:bit precision of each layer;Q:target bit precision set//f:量化运算;W:预训练的全精度砝码;P:每一层的比特精度;Q:目标位精度集
Output:Mixed-precision quantized model//输出:混合精度量化模型
until The model is fully quantized//直到模型被完全量化
作为一种实施方式,本方法所述语音模型包括说话人确认模型。由于说话人验证模型的用途,对模型性能要求较高,在量化压缩时既要保证性能不损失的基础上尽可能的大幅度压缩。本方法通过量化值拟合模型分布的方法,在压缩比将近八倍的情况下实现了无损压缩。
通过该实施方式可以看出,利用本方法的自适应量化压缩,可以有效地减小语音模型的大小,进一步地可以应用于说话人确认系统的模型压缩策略,在模型性能没有明显下降的基础上,减小了模型的大小,使其可以应用于在存储空间受限的轻量型的设备中。进一步实现了说话人确认系统的更广泛的应用。同时,利用本方法也可以使同样内存的终端设备上部署比以前更加精细复杂的系统。
对本方法进行实验说明,本方法的实验是在VoxCeleb1和Voxceleb2数据集中进行的。使用Voxceleb2的开发集对预训练模型和量化的模型(也就是语音模型)进行训练。测试集是Voxceleb1-O、Voxceleb1-E和Voxcelea1-H。为了获得系统的鲁棒性,在实验中应用了数据增强和速度波动(speed perturbation)。RIRs和MUSAN(噪声数据)被添加到训练数据中。速度波动将训练对话的原始速度更改为0.9和1.1倍,从而增加了两倍的说话人。
关于实验细节,作为一种主流的嵌入提取器,预训练的ResNet34在实验中被量化。在训练过程中,话语长度设置为200帧。进行80维Fbank输入特征。采用AAM(AdditiveAngular Margin,附加角裕度)计算损失。角裕度m设置为0.2。将初始学习率设置为0.0001,有3个预热时间周期,最终学习率为0.00001。EER(equal error rate,相等错误率)被认为是性能参考指标。均匀量化模型针对40个时期进行训练,并且针对混合精度量化模型总共训练60个时间周期。
对原始ResNet34采用1、2、3和4比特精度的均匀量化。本方法量化了卷积层和线性层中的所有权重,它们代表了模型中99.42%的参数。实验结果如图4所示。在4比特精度均匀量化下,Voxceleb1-O的性能相对下降了7.7%,Voxcelleb1-E和Voxceleb1-H的性能的相对下降分别仅为1.6%和2.6%。KMQAT以7.72x的压缩比实现了对Vox1-E和Vox1-H的无损量化。
本方法提出了混合精度量化,以在层之间重新分配量化精度,从而提高性能。从混合精度搜索的结果来看,较浅的卷积层对量化更敏感,最后的卷积层和完全连接层的灵敏度较低。如图4中的实验结果表明,通过混合精度实现的性能改进是有限的。由于模型中位宽的多样性,同时量化所有参数阻碍了缩放因子的正常优化。因此,本方法设计了多阶段微调来促进混合精度量化训练。(图4中“MP”表示混合精度量化,MSFT对应于多阶段微调策略。“{2,3,4}”是指具有2、3和4比特量化层的组合的混合精度量化模型。)
在实验中,带有MSFT的混合精度量化模型在同等大小的均匀量化下进一步提高了性能。2.57MB混合精度模型比均匀模型占用的内存更少,在Vox1-O、Vox1-E和Vox1-H上分别实现了5.8%、2.6%和3.2%的相对改进。通过实验,本方法证明了混合精度量化和MSFT是提高量化模型性能的有效方法。
将本方法的KMQAT与其他现有压缩模型的比较,结果如图5所示。在实验中,量化的ResNet34在EER方面超过了其他量化模型和具有类似架构的压缩全精度模型。
实验表明,在1、2和3比特精度下,KMQAT比其他模型压缩和量化方法具有明显的优势。在极限量化域中,本方法比现有的二进制和三进制量化方法具有更好的结果。此外,KMQAT在相当的规模上超过了一些轻量级全精度网络。
通过量化值密度和权重分布之间的不平衡降低了模型的准确性。如图6所示,线性量化为0附近存在大多数参数的区域分配很少的量化目标中心点。KMQAT考虑了分布中所有位置的参数。KMQAT量化目标中心点的分布与预训练模型的参数分布相对接近,从而带来更好的性能。如图7所示,较浅的卷积层需要更高的精度,而较深的层对量化操作不太敏感。前几个卷积层在数据处理中至关重要,初始层的精度较低可能会导致不可逆的性能下降。通过合理分配权重精度和适当的训练配方,本方法的混合精度量化模型得到了额外的改进。
总的来说,本方法说明了用于语音模型(例如,说话人验证系统)的新型量化方法KMQAT和混合精度量化。实现了ResNet34的无损4位量化。本方法在模型大小和精度方面优于以前的模型压缩和模型量化方法。在Voxceleb上的实验证明,多阶段微调的混合精度量化进一步提高了量化模型的性能。
如图8所示为本发明一实施例提供的一种语音模型的自适应量化压缩系统的结构示意图,该系统可执行上述任意实施例所述的语音模型的自适应量化压缩方法,并配置在终端中。
本实施例提供的一种语音模型的自适应量化压缩系统10包括:参数权重分布确定程序模块11,量化目标值确定程序模块12和压缩程序模块13。
其中,参数权重分布确定程序模块11用于对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;量化目标值确定程序模块12用于基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;压缩程序模块13用于利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音模型的自适应量化压缩方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音模型的自适应量化压缩方法。
图9是本申请另一实施例提供的语音模型的自适应量化压缩方法的电子设备的硬件结构示意图,如图9所示,该设备包括:
一个或多个处理器910以及存储器920,图9中以一个处理器910为例。语音模型的自适应量化压缩方法的设备还可以包括:输入装置930和输出装置940。
处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器920作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音模型的自适应量化压缩方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音模型的自适应量化压缩方法。
存储器920可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器920可选包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置930可接收输入的数字或字符信息。输出装置940可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器920中,当被所述一个或者多个处理器910执行时,执行上述任意方法实施例中的语音模型的自适应量化压缩方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音模型的自适应量化压缩方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音模型的自适应量化压缩方法,包括:
对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
2.根据权利要求1所述的方法,其中,所述利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩包括:
基于所述量化目标值对所述语音模型内神经网络的不同层级按照低量化精度至高量化精度的顺序进行多阶段微调自适应量化压缩。
3.根据权利要求1所述的方法,其中,在所述对语音模型进行基于矩阵的敏感度分析之前,所述方法还包括:
对所述语音模型进行量化压缩的参数扩充。
4.根据权利要求1所述的方法,其中,对所述分隔区间进行聚类包括:
对所述分隔区间内的参数按照预设数量的中心点进行K-Means聚类,得到各分隔区间的量化目标值。
5.根据权利要求1所述的方法,其中,所述语音模型包括说话人确认模型。
6.一种语音模型的自适应量化压缩系统,包括:
参数权重分布确定程序模块,用于对语音模型进行基于矩阵的敏感度分析,基于分析出的所述语音模型内神经网络不同层级对量化的敏感度差异,对所述语音模型进行混合精度量化压缩搜索,确定所述语音模型在设定压缩比下的参数权重分布;
量化目标值确定程序模块,用于基于所述参数权重分布对所述语音模型的参数进行分隔处理,得到多个分隔区间,对所述分隔区间进行聚类,得到各分隔区间的量化目标值;
压缩程序模块,用于利用所述各分隔区间的量化目标值对所述语音模型进行多阶段微调自适应量化压缩,得到轻量化语音模型。
7.根据权利要求6所述的系统,其中,所述压缩程序模块用于:
基于所述量化目标值对所述语音模型内神经网络的不同层级按照低量化精度至高量化精度的顺序进行多阶段微调自适应量化压缩。
8.根据权利要求6所述的系统,其中,所述系统还包括参数扩充程序模块,用于:
对所述语音模型进行量化压缩的参数扩充。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572514.3A CN116524941A (zh) | 2023-05-19 | 2023-05-19 | 语音模型的自适应量化压缩方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572514.3A CN116524941A (zh) | 2023-05-19 | 2023-05-19 | 语音模型的自适应量化压缩方法、系统和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524941A true CN116524941A (zh) | 2023-08-01 |
Family
ID=87399393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310572514.3A Pending CN116524941A (zh) | 2023-05-19 | 2023-05-19 | 语音模型的自适应量化压缩方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524941A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959489A (zh) * | 2023-09-19 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音模型的量化方法、装置、服务器及存储介质 |
-
2023
- 2023-05-19 CN CN202310572514.3A patent/CN116524941A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959489A (zh) * | 2023-09-19 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音模型的量化方法、装置、服务器及存储介质 |
CN116959489B (zh) * | 2023-09-19 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 语音模型的量化方法、装置、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002889B (zh) | 自适应迭代式卷积神经网络模型压缩方法 | |
CN110929865B (zh) | 网络量化方法、业务处理方法及相关产品 | |
US20220329807A1 (en) | Image compression method and apparatus thereof | |
CN111489364B (zh) | 基于轻量级全卷积神经网络的医学图像分割方法 | |
CN109960650B (zh) | 基于大数据的应用程序评估方法、装置、介质及电子设备 | |
CN111179971A (zh) | 无损音频检测方法、装置、电子设备及存储介质 | |
CN107395211B (zh) | 一种基于卷积神经网络模型的数据处理方法及装置 | |
CN116524941A (zh) | 语音模型的自适应量化压缩方法、系统和电子设备 | |
CN109978144B (zh) | 一种模型压缩方法和系统 | |
CN111199740B (zh) | 一种基于边缘计算加速自动语音识别任务的卸载方法 | |
CN109766476B (zh) | 视频内容情感分析方法、装置、计算机设备及存储介质 | |
CN109583586B (zh) | 一种语音识别或图像识别中的卷积核处理方法及装置 | |
CN109102468B (zh) | 图像增强方法、装置、终端设备及存储介质 | |
CN112399247A (zh) | 一种音频处理方法、音频处理设备及可读存储介质 | |
CN110705708A (zh) | 卷积神经网络模型的压缩方法、装置及计算机存储介质 | |
CN110837890A (zh) | 一种面向轻量级卷积神经网络的权值数值定点量化方法 | |
WO2023273776A1 (zh) | 语音数据的处理方法及装置、存储介质、电子装置 | |
CN111814448A (zh) | 预训练语言模型量化方法和装置 | |
CN112101515A (zh) | 深度学习模型的加速方法及装置 | |
CN112613604A (zh) | 神经网络的量化方法及装置 | |
CN116644797A (zh) | 神经网络模型量化压缩方法、电子设备和存储介质 | |
CN113128664A (zh) | 神经网络压缩方法、装置、电子设备及存储介质 | |
CN110659732B (zh) | 一种智能调节神经网络模型的方法 | |
CN115983349A (zh) | 卷积神经网络的量化方法及装置、电子设备和存储介质 | |
CN113033653B (zh) | 一种边-云协同的深度神经网络模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |