CN116453508A

CN116453508A - 语音模型处理方法、装置及计算机设备

Info

Publication number: CN116453508A
Application number: CN202310201108.6A
Authority: CN
Inventors: 马煜坤; 阮成孝; 倪瑾杰; 王雯; 陈谦; 张冲; 马斌
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-07-18

Abstract

本发明公开了一种语音模型处理方法、装置及计算机设备。其中，该方法包括：获取预训练语言模型，初始语音模型以及训练集数据；在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。本发明解决了相关技术中训练得到的语音模型的准确度低的技术问题。

Description

语音模型处理方法、装置及计算机设备

技术领域

本发明涉及机器智能技术领域，具体而言，涉及一种语音模型处理方法、装置及计算机设备。

背景技术

在相关技术中，越来越多的场景需要对语音进行语义理解，因此，要求基于机器学习的语音模型(或称语音理解模型)可以对语音特征中的语义信息进行充分编码与推理。为得到准确的语音模型，在进行机器训练时，需要大量的语音、文本和语义标签的三元组标注数据，而标注过程具有分歧多、耗时长和费用高等复杂特点，导致只能基于少量复杂的标注数据进行语音训练，导致训练得到的语音模型的准确度较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音模型处理方法、装置及计算机设备，以至少解决相关技术中训练得到的语音模型的准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种语音模型处理方法，包括：获取预训练语言模型，初始语音模型以及训练集数据；在所述初始语音模型上构建辅助池化模块，得到过程语音模型，其中，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

可选地，所述在所述初始语音模型上构建辅助池化模块，包括：在所述初始语音模型上增加全局聚合块和所述局部池化块，其中，所述全局聚合块用于对输入至所述初始语音模型中的语音帧在全局语音帧序列范围内的全局语音特征；构建用于对所述全局聚合块和所述局部池化块进行融合的池化融合块，其中，所述辅助池化模块包括：所述全局聚合块，所述局部池化块和所述池化融合块。

可选地，所述方法还包括：通过以下方式，构建所述局部池化块：获取所述语音帧在全局语音帧序列中的权重，以及用于表示所述池化范围的窗口大小；基于所述权重和所述窗口大小，构建所述局部池化块。

可选地，所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练,得到训练后的过程语音模型；从所述训练后的过程语音模型中提取与所述初始语音模型对应的部分，得到所述目标语音模型。

可选地，所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：构造采用所述预训练语言模型对所述过程语音模型进行蒸馏训练的比对损失函数；基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

可选地，所述基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于所述训练集数据，确定采用所述预训练语言模型对所述过程语音模型进行蒸馏训练得到的所述比对损失函数对应的损失值；基于所述损失值对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型。

可选地，所述基于所述损失值对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型，包括：确定从所述辅助池化模块的输出到所述初始语音模型的输入的反向传播对应的反向传播算法；基于所述损失值以及所述反向传播算法，对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型。

可选地，所述基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：从所述训练集数据中划分出部分训练集数据；对所述过程语音模型中所述初始语音模型的模型参数进行冻结，得到半冻结的过程语音模型；基于所述部分训练集数据，采用所述预训练语言模型对所述半冻结的过程语音模型进行蒸馏训练，得到优化后的过程语音模型，其中，所述优化后的过程语音模型中所述辅助池化模块的模块参数得到初步优化；基于所述训练集数据中划分后剩余的训练集数据，采用所述预训练语言模型对所述优化后的过程语音模型蒸馏训练，得到所述目标语音模型。

可选地，在所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型之后，还包括：接收目标语音；将所述目标语音输入所述目标语音模型，得到所述目标语音对应的语义编码结果。

根据本发明的另一方面，提供了一种语音模型处理方法，包括：接收目标语音；将所述目标语音输入目标语音模型，得到所述目标语音对应的语义编码结果，其中，所述目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧。

根据本发明的还一方面，提供了一种语音模型处理方法，包括：接收客服语音，其中，所述客服语音中携带有向客服请求咨询的问题；将所述客服语音输入目标语音模型，得到所述客服语音对应的语义编码结果，其中，所述目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；基于所述语义编码结果，确定所述问题以及所述问题对应的答案；反馈包括所述答案的智能语音。

根据本发明的还一方面，提供了一种语音模型处理装置，包括：获取模块，用于获取预训练语言模型，初始语音模型以及训练集数据；构建模块，用于在所述初始语音模型上构建辅助池化模块，得到过程语音模型，其中，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；训练模块，用于基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

根据本发明的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语音模型处理方法。

根据本发明的再一方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行上述任意一项所述的语音模型处理方法。

在本发明实施例中，采用预训练语言模型对包括初始语音模型的过程语音模型进行蒸馏训练的方式，实现提升语音模型训练效率的目的，以及在初始语音模型上构建能够对应调整语音帧的池化范围的辅助池化模块，使得输入语音模型的语音帧能够准确地对齐文本，即实现语音特征与文本特征之间的对齐，从而实现了在保证语音模型训练效率的基础上达到保证训练得到的语音模型的准确度的技术效果，进而解决了相关技术中训练得到的语音模型的准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现语音模型处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例1的语音模型处理方法一的流程图；

图3是根据本发明实施例1的语音模型处理方法二的流程图；

图4是根据本发明实施例1的语音模型处理方法三的流程图；

图5是根据本发明可选实施方式提供的文本-语音师生学习系统的示意图；

图6是根据本发明实施例提供的语音模块处理装置一的结构框图；

图7是根据本发明实施例提供的语音模块处理装置二的结构框图；

图8是根据本发明实施例提供的语音模块处理装置三的结构框图；

图9是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

知识蒸馏，一般是先训练一个性能较好的教师模型(大模型)，然后使用这个大模型的输出作为软标签，用数据的真实标签作为硬标签，两者联合起来去训练学生模型(小模型)。通过这种方法，可以把模型压缩到一个非常小的规模，而训练得到的小模型能够具有与复杂模型近似的性能效果，但是复杂度和计算量却要小很多。

转写本(transcripts)：转写的原本含义是将一个拼音文字系统的字符按照一个字符对照表，忠实地对号入座地转换成另一个拼音文字系统的字符的过程(包括基础字符的附加符号和用双字符表示的单音素)。转写实际是一种内容的一种表现形式变换成另一种表现形式，在应用于语音领域时，转写本即是将语音转换成文字后得到的文本，其中，语音可以是实时语音，也可以是录制语音。

语音识别(Automatic Speech recognition,简称为ASR)，通俗的来讲，就是将语音信号转化成文字文本，并加以输出(显示在屏幕上面)。这个过程，机器并不知道语音的具体意思是什么，可以说就是单单的实现了两种信号的转化。而且依据ASR的概念可知，信号的初始状态是语音信号，所以ASR又可以理解为，让机器听见。

核函数，统计学术语，支持向量机通过某非线性变换将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数，它恰好等于在高维空间中这个内积。那么支持向量机就不用计算复杂的非线性变换，而由这个函数直接得到非线性变换的内积，使大大简化了计算。这样的函数称为核函数。

语音帧，在大多数情况下，语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的，这个短时间例如一般可以取10-30ms。因此，在短时帧上进行傅里叶变换，通过连接相邻帧来获得信号频率轮廓的良好近似。进行语音信号处理时，为减少语音信号整体的非稳态、时变的影响，从而对语音信号进行分段处理，其中每一段称为一帧，即语音帧，帧长一般取25ms。另外，为了使帧与帧之间平滑过渡，保持其连续性，分帧一般采用交叠分段的方法，保证相邻两帧相互重叠一部分，末尾不足部分用零填充。相邻两帧的起始位置的时间差称为帧移，一般在使用中帧移取值为10ms。

加窗(Window)，将语音信号分割成语音帧后，可以再对每个帧乘以一个窗函数，如Hamming(汉明)窗口,以增加帧左端和右端的连续性，抵消傅里叶变换假设(数据是无限的)，并减少频谱泄漏。

对比损失(Contrastive Loss)，通常用于孪生神经网络(siamese network)的模型训练中，用于有效的处理孪生神经网络中的数据对的关系。对比损失函数主要是用在降维中，即本来相似的样本，在经过降维(特征提取)后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。在本申请实施例中，关注的是关于语音帧与文本的对齐关系，因此，在模型训练的过程中，采用令牌实例对比损失(Token-Instance Contrastive Loss，简称为TICL)来表征，即基于词-帧关系和词句关系的对齐参数，用于文本和语音模型之间进行知识转系。

预训练(Pre-training)，简单来说，即是使用尽可能多的训练数据，从中提取出尽可能多的共性特征，从而让模型对特定任务的学习负担变轻。采用预训练的方式进行模型训练有两个特点：1.模型参数不再是随机初始化，而是通过一些任务进行预训练。2.将训练任务拆解成共性学习和特性学习两个步骤。因此，预训练方式进行模型训练可以看作是学习任务的分解，即“预训练”的做法一般是将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性，然后将其中的共性“移植”到特定任务的模型中，再使用相关特定领域的少量标注数据进行“微调”，这样的话，模型只需要从“共性”出发，去“学习”该特定任务的“特殊”部分即可。

自注意模块，即实现自注意力机制的模块，注意力(Attention)机制，其思想就是将有限的注意力集中到重点信息上。在Transformer(转换器模型)中，自注意力模块的输入和输出都是一个向量序列，每个向量都表示一个项，将输入序列对自身进行注意力操作，根据完整的输入序列来聚合全局信息以更新序列的每一个项，可以从全局范围对各项之间的相关性进行建模，例如，在自然语言处理中可以评估哪几个词更可能组成一个句子。

池化函数，一般用于构成卷积神经网络中的池化层，池化层的输入一般来源于上一个卷积层，常用的池化函数有最大池化,平均池化,其前向计算十分简单,最大池化就是求最大值,平均池化就是求平均值。池化函数的主要作用是提供了很强的鲁棒性(例如,最大池化(max-pooling)是取一小块区域中的最大值，此时若此区域中的其他值略有变化，或者图像稍有平移，池化后的结果仍不变)，并且减少了参数的数量，防止过拟合现象的发生,同时参数的减少对于计算而言也有一定的帮助。而又因为池化层一般没有参数，所以反向传播的时候，只需对输入参数求导，不需要进行权值更新。

感受野(Receptive Field)，在卷积神经网络(Convolutional Neural Networks，简称为CNN)结构中，全连接层(FC层)每个输出节点的值都依赖FC层所有输入，而卷积层(CONV层)每个输出节点的值仅依赖CONV层输入的一个区域，这个区域之外的其他输入值都不会影响输出值，该区域就是感受野。例如，在从图像中识别目标的卷积神经网络中，每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域。

反向传播算法(Backpropagation algorithm，简称为BP)算法，适合于多层神经元网络的一种学习算法，建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

连接时差分类(Connectionist temporal classification，简称为CTC)，是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题。在模型训练的过程中，可以作为一种损失函数来计算损失值。

实施例1

根据本发明实施例，还提供了一种语音模型处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音模型处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音模型处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，针对本申请所提及的上述问题，本申请提供了如图2所示的语音模型处理方法。图2是根据本发明实施例1的语音模型处理方法一的流程图，如图2所示，该流程包括如下步骤：

S202，获取预训练语言模型，初始语音模型以及训练集数据；

作为一种可选的实施例，本实施例方法的执行主体可以是用于对语音模型处理的终端或者服务器。比如，在应用于用来执行语音模型处理的终端上时，应用于终端上时，能够轻便地实现简单语音场景下的模型；又比如，在应用于服务器上时，可以调用服务器丰富的计算资源，或者相对更为庞大也更为准确的预训练语言模型，进而可以更为准确地训练出目标语音模型。

需要说明的是，上述终端的类型可以是多种的，例如，可以是具备一定计算能力移动终端，也可以是具有模型训练能力的固定计算机设备，等。上述服务器的类型也可以是多种，例如，可以是本地服务器，也可以虚拟云服务器。服务器的按照计算能力可以是单个的计算机设备，也可以是多个计算机设备集成在一起的计算机集群。

作为一种可选的实施例，上述预训练语言模型可以是基于大量文本训练得到的语言模型，该语言模型用于对文本进行语义编码。由于文本的训练相对于语音而言，更容易获得丰富的用于训练的语料，因此，基于文本能够训练得到准确的语言模型，得到满足要求的预训练语言模型。

作为一种可选的实施例，上述初始语音模型也可以是基于一定的语音语料训练得到的语音模型，即使得初始语音模型并非完全是一种默认初始化的语音模型，因此，也能够在一定程度上提升语音训练的效率。

作为一种可选的实施例，上述训练集数据可以是语音与文本对齐的平行训练语料，这些平行训练语料可以是提前标注过的。需要说明的是，这里说明的标注过是指针对句子而言的，即在一句话中，每个词或者字针对语音中的哪些语音帧。另外，训练集数据中的数据可以是中文，也可以非中文。相对而言，本申请提出的方法能够训练语音模型自适应地将文本与语音帧对齐，因此，更适应一些语音与文本对齐性不太好的非中文应用场景。

S204，在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；

作为一种可选的实施例，上述局部池化块针对输入初始语音模型中的语音帧自适应地调整与其上下有关联的语音帧的范围，实现语音帧在自身上下的语义影响。举例而言，由于语音与文本的差异(例如，语音中发音音节的长短不一，使得文本中的一个词可能需要对应多个语音帧，或者是一个音节对应于多个语音帧，又或者发音音素可能对应于多个语音帧)，并非是语音帧与文本一对一的关系，或者是固定的多对一的关系，即并非一个语音帧对应一个文本中的词或字，也并非固定的多个语音帧对应一个文本中的词，字，音节，或者音素，需要针对文本特征与语音特征之间的对齐关系，自适应地调整对齐关系。或者说上述自适应调整是对应于具体的发音特点进行对齐的。

作为一种可选的实施例，构建上述局部池化块的方式可以有多种，例如，可以通过以下方式，构建局部池化块：获取语音帧在全局语音帧序列中的权重，以及用于表示池化范围的窗口大小；基于权重和窗口大小，构建局部池化块。其中，语音帧在全局语音帧序列中的权重表示该语音帧对全句语义在影响，窗口大小表示对该语音帧有影响的相邻语音帧，因此，基于语音帧自己的影响，以及上下文对自己的影响，可以准确地表征语音帧自身所表征的语音特征。通过上述方式，采用语音帧与语音帧间局部的相互影响，能够较全面，准确地得到语音帧在自身局部所表征的语音特征。

作为一种可选的实施例，在初始语音模型上构建辅助池化模块时，为使得辅助池化模块表述的信息更全，使得辅助池化模块能够适应各种语音识别任务的需要，该辅助池化模块中除包括上述局部池化块外，还可以包括全局聚合块。例如，初始语音模型上构建辅助池化模块可以包括：在初始语音模型上增加全局聚合块和局部池化块，其中，全局聚合块用于对输入至初始语音模型中的语音帧在全局语音帧序列范围内的全局语音特征；构建用于对全局聚合块和局部池化块进行融合的池化融合块，其中，辅助池化模块包括：全局聚合块，局部池化块和池化融合块。因此，通过在该辅助池化模块中构建全局聚合块和局部池化块，由于考虑了全局特征也考虑了局部特征，因此，该语音帧的特征能够表现得更为全面。由于识别的语音对象一般情况下为句子，因此，以句子为例，上述全局语音帧序列即指该句语音所包括的语音帧序列，上述局部池化块对应调整的输入至初始语音模型中的语音帧的池化范围时，其中涉及的语音帧可以是该语音帧序列中的任意一帧。因此，针对一句语音而言，全局聚合块的全局语音特征代表着句子级别的信息，局部池化块的局部语音特征代表着上下文相关的帧级别信息，之后通过池化融合块对上述全局聚合块对应的全局语音特征和局部池化块对应的局部语音特征进行融合，能够得到语音帧对整个句子语义的影响，以及其它相邻语音帧对该语音帧的语义的影响，从而使得从该辅助池化模块中输出的语音特征(向量)能够全面地表征输入的语音的语义。

S206，基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

作为一种可选实施例，在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型时，由于训练的目标对象是初始语音模型，辅助池化模块是用于辅助初始语音模型的训练的，因此，在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练,得到训练后的过程语音模型之后，可以从训练后的过程语音模型中提取与初始语音模型对应的部分，得到目标语音模型。后续可以直接基于得到的目标语音模型进行测试，或者应用。需要说明的是，在对得到的目标语音模型进行测试或者使用该目标语音模型时，丢弃上述辅助池化模块并不是必须的，即在测试或者使用目标语音模型时，可以是上述训练后的过程语音模型。当然，因为相对而言，较为关注的还是初始语音模型这部分，因此，在训练完后，即在得到满足要求的与初始语音模型对应的部分时，即可以直接依据该部分进行测试，应用。采用直接测试，应用时，在准确度满足的前提下，由于模型组件少，也更简单，轻便，高效。

作为一种可选实施例，在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型时，可以基于构造的不同的损失函数来进行模型训练。本实施例采用的是基于师生模型的蒸馏训练，因此，可以采用表征简单，清楚的比对损失函数来作为损失函数进行训练。因此，基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，可以包括以下处理：构造采用预训练语言模型对过程语音模型进行蒸馏训练的比对损失函数；基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。采用比对损失函数比较的是作为教师模型的预训练语言模型的输出与作为学生模型的语音模型的输出之间的差别，通过直观的比较，对作为学生模型的语音模型的参数进行调整，能够提高模型的训练效率。

作为一种可选实施例，基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于训练集数据，确定采用预训练语言模型对过程语音模型进行蒸馏训练得到的比对损失函数对应的损失值；基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。基于比对损失函数对应的损失值，可以直接地关注到预训练语言模型的编码向量与语音模型的编码向量之间的差别，即体现从预训练语言模型识别出的语义与从语音模型中识别出的语义之间的差别，依据上述差别，对应高效调整辅助池化模块的模块参数和该初始语音模型的模型参数，得到目标语音模型。需要说明的是，在对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整时，可能是迭代多次完成的。

作为一种可选实施例，基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型，包括：确定从辅助池化模块的输出到初始语音模型的输入的反向传播对应的反向传播算法；基于损失值以及反向传播算法，对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。

反向传播算法是一种多层神经元网络的一种学习算法，主要由两个环节(激励传播、权重更新)反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。反向传播算法的学习过程包括正向传播过程和反向传播过程。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。在本申请实施例中，正向传播即是从将训练集数据中的数据输入到语音模型，从语音模型输出，将语音模型的输出输入到辅助池化模块，最后经辅助池化模块输出，得到整个过程语音模型的输出。反向传播即是上述正向传播的相反过程，即从整个过程语音模型的输出逐层反向确定模型中的参数，即从修改辅助池化模块的参数，之后再反向修改初始语音模型的参数。在依据训练集数据经过多次正反向传播的训练过程后，直到基于预语言训练模型输出的语音编码向量与语音模型输出的语音编码向量之间的损失值满足预定的损失范围，即达到预期的训练目标，训练结束。

作为一种可选实施例，在基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型时，为使得训练得到目标语音模型的效率更高，可以对整个训练过程分阶段，例如，针对辅助池化模块由于是一个全新的模块，为避免在训练初期对已经有一定语音识别能力的初始语音模型造成过大干扰，即避免对语音模块的模型参数调整过大，可以采用部分训练的方式。例如，可以采用先对初始语音模型的模型参数进行冻结，在对辅助池化模块训练达到一定程度时，完全放开对初始语音模型的冻结，实现对整个过程语音模型的参数的整体调整，从而达到训练目标。

基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，可以采用以下处理方式：从训练集数据中划分出部分训练集数据；对过程语音模型中初始语音模型的模型参数进行冻结，得到半冻结的过程语音模型；基于部分训练集数据，采用预训练语言模型对半冻结的过程语音模型进行蒸馏训练，得到优化后的过程语音模型，其中，优化后的过程语音模型中辅助池化模块的模块参数得到初步优化；基于训练集数据中划分后剩余的训练集数据，采用预训练语言模型对优化后的过程语音模型蒸馏训练，得到目标语音模型。采用上述分阶段训练的方式，能够有针对性地完成对整个过程语音模型中各个部分的训练，避免对其它部分的干扰，当各个部分都达到一定的程度时，再基于整个进行相应调整，有效地实现了在保证模型训练准确度的前提下，提高整个模型的训练效率。

作为一种可选实施例，在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型之后，还包括：接收目标语音；将目标语音输入目标语音模型，得到目标语音对应的语义编码结果。在得到目标语音模型之后，可以基于得到的目标语音模型进行各种语义场景的识别，得到对应的语义编码结果，之后基于得到的语义编码结果完成各种场景任务。例如，可以基于得到的语义编码结果进行线下答疑，线上实时咨询等。

在本发明实施例中，采用预训练语言模型对包括初始语音模型的过程语音模型进行蒸馏训练的方式，实现提升语音模型训练效率的目的，以及在初始语音模型上构建能够对应调整语音帧的池化范围的辅助池化模块，使得输入语音模型的语音帧能够准确地对齐文本，即实现语音特征与文本特征之间的对齐，从而实现了在保证语音模型训练效率的基础上通达保证使得训练得到的语音模型的准确度的技术效果，进而解决了相关技术中训练得到的语音模型的准确度低的技术问题。

图3是根据本发明实施例1的语音模型处理方法二的流程图，如图3所示，该流程包括如下步骤：

S302，接收目标语音；

S304，将目标语音输入目标语音模型，得到目标语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧。

通过上述步骤，采用上述语音模型处理方法一中得到的目标语音模型来对目标语音进行语义识别，得到对应的语义编码结果，由于目标语音模型在文本特征与语音特征之间的自适应对齐性，能够使得得到的语义编码结果更为准确。

图4是根据本发明实施例1的语音模型处理方法三的流程图，如图4所示，该流程包括如下步骤：

S402，接收客服语音，其中，客服语音中携带有向客服请求咨询的问题；

S404，将客服语音输入目标语音模型，得到客服语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；

S406，基于语义编码结果，确定问题以及问题对应的答案；

S408，反馈包括答案的智能语音。

通过上述步骤，采用上述语音模型处理方法一中得到的目标语音模型来对携带有向客服请求咨询的问题的客服语音进行语义识别，得到对应的语义编码结果，并基于得到的语义编码结果反馈问题所对应的答案，由于目标语音模型在文本特征与语音特征之间的自适应对齐性，使得得到的语义编码更为准确，因而基于问题反馈的答案也能够更为准确。

如上，针对众多的智能语音场景，例如，音视频会议、智能电话客服质检预外呼等，需要对语音识别的结果进行智能解析和整理。要求语音模型可以对语音特征中的语义信息进行充分编码与推理。然而，语音模型的训练需要大量的语音、文本和语义标签的三元组标注数据，而标注过程中存在分歧多、耗时长和费用高的问题。同时，语音理解模型中的语音编码器往往关注局部特征，而无法对多细粒度信息进行编码，从而无法有效推导出高层次和更加关注全局信息的语义内容。

为解决上述问题，一种可选的解决方案是，通过引入一个基于文本的预训练语言模型作为老师模型，利用知识蒸馏等技术将文本模型中的知识转移到语音模型中来。但在这个过程中，因为语音和文本两个模态的天然差异(例如，语音序列往往较文本要长；语音特征往往更关注局部，而文本特征则更加全局等)，知识转移的效果往往不理想。

针对上述问题，一种可选的解决方案是，采用固定核大小(fixed kernel size)的卷积网络来对语音特征进行进一步的降采样来减少语音特征的长度，从而降低与文本特征在细粒度上的差异。但是因为语音的帧级别特征(frame-level feature)与文本的词/字的对应关系可能是可变的(variable)，这种固定长度的核函数并不能充分捕捉到语音到文本的对齐关系。

鉴于此，在本可选实施方式中，提出了一种多粒度池化模块,来提升语音模型在语音理解类任务上的表现。在该可选实施方式中，通过一个新的池化模块(对应上述局部池化块)，可以针对基于文本的预训练语言模型的特征自适应的对语音中的多细粒度信息进行提取，然后对齐，从而更有效地完成知识的转移。通过该文本到语音的知识转移架构，有效地解决文本知识对齐到语音时存在的细粒度之间的差异的问题。

在本可选实施方式中，以预训练语言模型作为老师模型，利用知识蒸馏技术将文本模型(即预训练语言模型)中的知识转移到语音模型中，并且在作为学生模型的该语音模型中添加一个新的池化模块，使得语音中的语音帧能够自适应地对齐文本信息。基于该技术方案，基于师生模型的训练方式，能够有效提升训练效率，基于新增的池化模块，能够保证训练的准确度，文本与语音之间对齐的精确度，因此，最终能够高效地训练得到准确的语音模型。

图5是根据本发明可选实施方式提供的文本-语音师生学习系统的示意图，如图5所示，该文本-语音师生学习系统作为一种跨模态知识蒸馏系统，预训练语言模型作为教师模型，语音模型作为学生模型。这两个模型分别用大量文本和语音数据进行预训练得到。之后利用对比学习的方法，利用部分语音-文本平行数据进行知识蒸馏训练，例如，在语音模型中输入语音，在预训练语言模型中输入转文本(Transcripts)。目的是将预训练语言模型中的知识转移到语音模型中。为了达到这个目的，在训练过程中，在语音模型的基础上增加一层辅助池化网络(对应上述辅助池化模块)，用于更好的与预训练语言模型进行对齐。

上述辅助池化网络(Auxiliary Pooling Layer，简称为APLY)，是一种基于自适应池化技术的多细粒度池化网络。下面结合上述文本-语音师生学习系统的附图，对APLY在师生学习系统中的运作进行说明。基础学生模型是预先训练的语音编码器(例如Wav2Vec2)。在训练过程中，采用令牌-实例对比损失(Token-Instance Contrastive Loss，简称为TICL)函数结合CTC损失函数作为训练的损失函数，目的是将知识从作为教师模型的预训练语言模型(例如BERT)转移到学生模型。为了更好地表示语音的序列信息，需要对语音特征同时进行局部信息(local pooling window)和全局信息(global aggregation)的建模。其中,局部信息主要指当前帧前后的一定数量的相邻帧，全局信息则是指当前句所包含的信息。为了这个目的，所提出的APLY可以包括两个组件：1)实现为自注意模块的全局聚合块(Global Aggregation)，其中，查询向量是整个序列的平均池化向量；2)围绕每个帧的上下文池化的自适应池化块(Adaptive pooling)(即上述所指的局部池化块)以编码局部信息。它的特点是主要使用池化函数作为向语音编码器传递反馈的代理。具体而言，使用自适应上下文池块来自适应地解析语音编码器的感受野，从而减少两种模态之间的差异。然后，执行池化融合，这是一个类似于门控的融合模块(对应于上述的池化融合块(PoolingFusion))，以融合全局和局部编码器的输出。

(1)提出利用一个辅助池化网络来承接从文本转移到语音特征的知识，即完成文本到语音的知识蒸馏，从而提升语音特征对语义信息的编码能力；该辅助池化网络可以针对目标任务，自动的学习局部特征的细粒度，同时又可以融合全局信息，加强特征的多细粒度编码能力。该辅助池化网络可以在跨膜态(文本-语音)知识蒸馏框架中起到更好对齐特征的作用。

(2)提出利用自适应上下文池化模块来作为语音特征对文本知识的接受器，根据语音特征与文本特征的对齐关系，自适应地改变池化的范围。因此，通过该适应上下文池化模块，可适应的局部池化来编码局部信息，即可以更好地编码多粒度语音信息，让语音模型本身能够从训练数据中自己学习使用什么样的粒度编码局部信息，进而可以更好的与文本知识对齐。因此，可以用于更好地承接从预训练语言模型中转移过来的语义知识，从而减少对于标注数据的依赖。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述语音模型处理方法一的装置，图6是根据本发明实施例提供的语音模块处理装置一的结构框图，如图6所示，该装置包括：获取模块60，构建模块62和训练模块64，正面对该装置进行说明。

获取模块60，用于获取预训练语言模型，初始语音模型以及训练集数据；构建模块62，连接至上述获取模块60，用于在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；训练模块64，连接至上述构建模块62，用于基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

此处需要说明的是，上述获取模块60，构建模块62和训练模块64对应于实施例1中的步骤S202至步骤S206，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本发明实施例，还提供了一种用于实施上述语音模型处理方法二的装置，图7是根据本发明实施例提供的语音模块处理装置二的结构框图，如图7所示，该装置包括：第一接收模块70和第一处理模块72，下面对该装置进行说明。

第一接收模块70，用于接收目标语音；第一处理模块72，连接至上述第一接收模块70，将目标语音输入目标语音模型，得到目标语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧。

此处需要说明的是，上述第一接收模块70和第一处理模块72对应于实施例1中的步骤S302至步骤S304，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本发明实施例，还提供了一种用于实施上述语音模型处理方法三的装置，图8是根据本发明实施例提供的语音模块处理装置三的结构框图，如图8所示，该装置包括：第二接收模块80，第二处理模块82，确定模块84和反馈模块86，下面对该装置进行说明。

第二接收模块80，用于接收客服语音，其中，客服语音中携带有向客服请求咨询的问题；第二处理模块82，连接至上述第二接收模块80，用于将客服语音输入目标语音模型，得到客服语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；确定模块84，连接至上述第二处理模块82，基于语义编码结果，确定问题以及问题对应的答案；反馈模块86，连接至上述确定模块84，用于反馈包括答案的智能语音。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的语音模型处理方法中以下步骤的程序代码：获取预训练语言模型，初始语音模型以及训练集数据；在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

可选地，图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器92、存储器94等。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的语音模型处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音模型处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取预训练语言模型，初始语音模型以及训练集数据；在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：在初始语音模型上构建辅助池化模块，包括：在初始语音模型上增加全局聚合块和局部池化块，其中，全局聚合块用于对输入至初始语音模型中的语音帧在全局语音帧序列范围内的全局语音特征；构建用于对全局聚合块和局部池化块进行融合的池化融合块，其中，辅助池化模块包括：全局聚合块，局部池化块和池化融合块。

可选的，上述处理器还可以执行如下步骤的程序代码：通过以下方式，构建局部池化块：获取语音帧在全局语音帧序列中的权重，以及用于表示池化范围的窗口大小；基于权重和窗口大小，构建局部池化块。

可选的，上述处理器还可以执行如下步骤的程序代码：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练,得到训练后的过程语音模型；从训练后的过程语音模型中提取与初始语音模型对应的部分，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：构造采用预训练语言模型对过程语音模型进行蒸馏训练的比对损失函数；基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于训练集数据，确定采用预训练语言模型对过程语音模型进行蒸馏训练得到的比对损失函数对应的损失值；基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型，包括：确定从辅助池化模块的输出到初始语音模型的输入的反向传播对应的反向传播算法；基于损失值以及反向传播算法，对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：从训练集数据中划分出部分训练集数据；对过程语音模型中初始语音模型的模型参数进行冻结，得到半冻结的过程语音模型；基于部分训练集数据，采用预训练语言模型对半冻结的过程语音模型进行蒸馏训练，得到优化后的过程语音模型，其中，优化后的过程语音模型中辅助池化模块的模块参数得到初步优化；基于训练集数据中划分后剩余的训练集数据，采用预训练语言模型对优化后的过程语音模型蒸馏训练，得到目标语音模型。

可选的，上述处理器还可以执行如下步骤的程序代码：在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型之后，还包括：接收目标语音；将目标语音输入目标语音模型，得到目标语音对应的语义编码结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收目标语音；将目标语音输入目标语音模型，得到目标语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收客服语音，其中，客服语音中携带有向客服请求咨询的问题；将客服语音输入目标语音模型，得到客服语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于语义编码结果，确定问题以及问题对应的答案；反馈包括答案的智能语音。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端9还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，计算机可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的语音模型处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取预训练语言模型，初始语音模型以及训练集数据；在初始语音模型上构建辅助池化模块，得到过程语音模型，其中，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在初始语音模型上构建辅助池化模块，包括：在初始语音模型上增加全局聚合块和局部池化块，其中，全局聚合块用于对输入至初始语音模型中的语音帧在全局语音帧序列范围内的全局语音特征；构建用于对全局聚合块和局部池化块进行融合的池化融合块，其中，辅助池化模块包括：全局聚合块，局部池化块和池化融合块。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：通过以下方式，构建局部池化块：获取语音帧在全局语音帧序列中的权重，以及用于表示池化范围的窗口大小；基于权重和窗口大小，构建局部池化块。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练,得到训练后的过程语音模型；从训练后的过程语音模型中提取与初始语音模型对应的部分，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：构造采用预训练语言模型对过程语音模型进行蒸馏训练的比对损失函数；基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：基于训练集数据，确定采用预训练语言模型对过程语音模型进行蒸馏训练得到的比对损失函数对应的损失值；基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：基于损失值对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型，包括：确定从辅助池化模块的输出到初始语音模型的输入的反向传播对应的反向传播算法；基于损失值以及反向传播算法，对辅助池化模块的模块参数进行调整，以及对初始语音模型的模型参数进行调整，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：基于训练集数据以及比对损失函数，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型，包括：从训练集数据中划分出部分训练集数据；对过程语音模型中初始语音模型的模型参数进行冻结，得到半冻结的过程语音模型；基于部分训练集数据，采用预训练语言模型对半冻结的过程语音模型进行蒸馏训练，得到优化后的过程语音模型，其中，优化后的过程语音模型中辅助池化模块的模块参数得到初步优化；基于训练集数据中划分后剩余的训练集数据，采用预训练语言模型对优化后的过程语音模型蒸馏训练，得到目标语音模型。

可选地，在本实施例中，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：在基于训练集数据，采用预训练语言模型对过程语音模型进行蒸馏训练，得到目标语音模型之后，还包括：接收目标语音；将目标语音输入目标语音模型，得到目标语音对应的语义编码结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收目标语音；将目标语音输入目标语音模型，得到目标语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收客服语音，其中，客服语音中携带有向客服请求咨询的问题；将客服语音输入目标语音模型，得到客服语音对应的语义编码结果，其中，目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，辅助池化模块包括局部池化块，局部池化块用于对应调整输入至初始语音模型中的语音帧的池化范围，并在池化范围内得到语音帧对应的局部语音特征，池化范围包括语音帧和语音帧的多个相邻帧；基于语义编码结果，确定问题以及问题对应的答案；反馈包括答案的智能语音。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音模型处理方法，其特征在于，包括：

获取预训练语言模型，初始语音模型以及训练集数据；

在所述初始语音模型上构建辅助池化模块，得到过程语音模型，其中，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；

基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

2.根据权利要求1所述的方法，其特征在于，所述在所述初始语音模型上构建辅助池化模块，包括：

在所述初始语音模型上增加全局聚合块和所述局部池化块，其中，所述全局聚合块用于对输入至所述初始语音模型中的语音帧在全局语音帧序列范围内的全局语音特征；

构建用于对所述全局聚合块和所述局部池化块进行融合的池化融合块，其中，所述辅助池化模块包括：所述全局聚合块，所述局部池化块和所述池化融合块。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：通过以下方式，构建所述局部池化块：

获取所述语音帧在全局语音帧序列中的权重，以及用于表示所述池化范围的窗口大小；

基于所述权重和所述窗口大小，构建所述局部池化块。

4.根据权利要求1所述的方法，其特征在于，所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：

基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练,得到训练后的过程语音模型；

从所述训练后的过程语音模型中提取与所述初始语音模型对应的部分，得到所述目标语音模型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：

构造采用所述预训练语言模型对所述过程语音模型进行蒸馏训练的比对损失函数；

基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：

基于所述训练集数据，确定采用所述预训练语言模型对所述过程语音模型进行蒸馏训练得到的所述比对损失函数对应的损失值；

基于所述损失值对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述损失值对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型，包括：

确定从所述辅助池化模块的输出到所述初始语音模型的输入的反向传播对应的反向传播算法；

基于所述损失值以及所述反向传播算法，对所述辅助池化模块的模块参数进行调整，以及对所述初始语音模型的模型参数进行调整，得到所述目标语音模型。

8.根据权利要求5所述的方法，其特征在于，所述基于所述训练集数据以及所述比对损失函数，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型，包括：

从所述训练集数据中划分出部分训练集数据；

对所述过程语音模型中所述初始语音模型的模型参数进行冻结，得到半冻结的过程语音模型；

基于所述部分训练集数据，采用所述预训练语言模型对所述半冻结的过程语音模型进行蒸馏训练，得到优化后的过程语音模型，其中，所述优化后的过程语音模型中所述辅助池化模块的模块参数得到初步优化；

基于所述训练集数据中划分后剩余的训练集数据，采用所述预训练语言模型对所述优化后的过程语音模型蒸馏训练，得到所述目标语音模型。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在所述基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型之后，还包括：

接收目标语音；

将所述目标语音输入所述目标语音模型，得到所述目标语音对应的语义编码结果。

10.一种语音模型处理方法，其特征在于，包括：

接收目标语音；

将所述目标语音输入目标语音模型，得到所述目标语音对应的语义编码结果，其中，所述目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧。

11.一种语音模型处理方法，其特征在于，包括：

接收客服语音，其中，所述客服语音中携带有向客服请求咨询的问题；

将所述客服语音输入目标语音模型，得到所述客服语音对应的语义编码结果，其中，所述目标语音模型基于训练集数据，采用预训练语言模型对构建有辅助池化模块的初始语音模型进行蒸馏训练得到，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；

基于所述语义编码结果，确定所述问题以及所述问题对应的答案；

反馈包括所述答案的智能语音。

12.一种语音模型处理装置，其特征在于，包括：

获取模块，用于获取预训练语言模型，初始语音模型以及训练集数据；

构建模块，用于在所述初始语音模型上构建辅助池化模块，得到过程语音模型，其中，所述辅助池化模块包括局部池化块，所述局部池化块用于对应调整输入至所述初始语音模型中的语音帧的池化范围，并在所述池化范围内得到所述语音帧对应的局部语音特征，所述池化范围包括所述语音帧和所述语音帧的多个相邻帧；

训练模块，用于基于所述训练集数据，采用所述预训练语言模型对所述过程语音模型进行蒸馏训练，得到目标语音模型。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的语音模型处理方法。

14.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至11中任意一项所述的语音模型处理方法。