CN117409808A

CN117409808A - 语音数据处理和语音识别的方法、服务器及存储介质

Info

Publication number: CN117409808A
Application number: CN202311437643.8A
Authority: CN
Inventors: 陈谦; 王雯; 张庆林; 郑斯奇; 张仕良; 邓憧; 马煜坤; 于海; 刘嘉庆; 张冲
Original assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-16

Abstract

本申请提供一种语音数据处理和语音识别的方法、服务器及存储介质。本申请的方法，在语音处理模型的微调训练过程中，通过获取用于训练的语音样本及语音样本的目标语音标记，将语音样本输入语音处理模型进行目标标记的预测，得到目标标记的预测结果，并根据目标标记生成语音处理结果，目标标记至少包括目标语音标记；对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布；根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，可以有效地建模语音标记，使得语音处理模型能够更好地学习到语音标记之间的关联性，从而提高语音处理性能。

Description

语音数据处理和语音识别的方法、服务器及存储介质

技术领域

本申请涉及计算机技术，尤其涉及一种语音数据处理和语音识别的方法、服务器及存储介质。

背景技术

随着人工智能技术的发展，现有的针对语音和文本的多模态预训练模型在语音处理任务中有着不错的表现。例如，SpeechGPT、VioLA和AudioPaLM等模型在语音处理任务表现出较好的性能，具体可以应用于自动语音识别(Automatic Speech Recognition，简称ASR)任务、语音到文本的翻译任务、语音到语音翻译任务、语音合成任务等语音处理任务。

目前使用传统的基于标注文本的交叉熵损失训练这些模型，对输入语音采用了损失屏蔽技术，没有明确地对语音标记之间的依赖关系建模，导致了训练数据的浪费，影响了语音处理的性能。

发明内容

本申请提供一种语音数据处理和语音识别的方法、服务器及存储介质，用以提升语音处理模型进行语音处理的性能。

第一方面，本申请提供一种语音数据处理方法，包括：

获取用于训练的语音样本及所述语音样本的目标语音标记；

将所述语音样本输入语音处理模型进行目标标记的预测，得到所述目标标记的预测结果，所述目标标记用于生成语音处理结果，所述目标标记至少包括目标语音标记；

对所述语音样本的目标语音标记的原始分布进行平滑处理，得到各所述目标语音标记的平滑分布；

根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练所述语音处理模型的参数，获得训练完成的语音处理模型。

第二方面，本申请提供一种语音数据处理方法，包括：

接收端侧设备发送的语音处理请求，所述语音处理请求包含待处理的语音数据；

将所述语音数据输入语音处理模型进行目标标记预测，得到所述语音数据的目标标记，所述目标标记包括目标语音标记，其中所述语音处理模型通过第一方面所述的方法获得；

根据所述语音数据的目标标记生成语音处理结果，向所述端侧设备返回所述语音处理结果。

第三方面，本申请提供一种语音数据处理方法，包括：

获取用于训练的语音样本及所述语音样本的目标文本标记；

将语音样本输入语音处理模型，通过语音处理模型将所述语音样本转换为多个离散的输入语音标记，并根据输入语音标记进行目标标记的预测，得到所述目标标记的预测结果，所述目标标记包括目标文本标记和目标语音标记；

将所述语音样本的多个输入语音标记作为所述语音样本的多个目标语音标记，对所述语音样本的目标语音标记的原始分布进行平滑处理，得到各所述目标语音标记的平滑分布；

根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以及所述目标文本标记的预测结果，训练所述语音处理模型的参数，获得训练完成的语音处理模型。

第四方面，本申请提供一种语音识别方法，包括：

接收端侧设备发送的语音识别请求，所述语音识别请求包含待处理的语音数据；

将所述语音数据输入语音处理模型进行目标标记预测，得到目标文本标记，并根据所述目标文本标记生成语音识别结果，其中所述语音处理模型通过如第三方面所述的方法获得；

向所述端侧设备返回所述语音识别结果。

第五方面，本申请提供一种服务器，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述服务器执行前述任一方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现前述任一方面所述的方法。

本申请提供的语音数据处理和语音识别的方法、服务器及存储介质，在语音处理模型的微调训练过程中，通过获取用于训练的语音样本及语音样本的目标语音标记，将语音样本输入语音处理模型进行目标标记的预测，得到目标标记的预测结果，并根据目标标记生成语音处理结果，目标标记至少包括目标语音标记；对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布；根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，可以有效地建模语音标记，使得语音处理模型能够更好地学习到语音标记之间的关联性，从而提高语音处理性能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一示例系统架构的示意图；

图2为本申请一示例性实施例提供的语音数据处理方法的流程图；

图3为本申请一示例性实施例提供的语音处理模型的构建方法流程图；

图4为本申请另一示例性实施例提供的语音数据处理方法的流程图；

图5为本申请另一示例性实施例提供的语音数据处理方法流程图；

图6为本申请一示例性实施例提供的解码目标标记过程的示例图；

图7为本申请一示例性实施例提供的自动语音识别(ASR)方法的流程图；

图8为本申请实施例提供的一种服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先对本申请所涉及的名词进行解释：

标记(token)：也称为离散标记、或离散token，是指语音或文本的离散表征。为了区分文本和语音的离散表征，将语音的离散表征称为语音标记，将文本的离散表征称为文本标记。模型使用的词表中包含预测结果中可能出现的语音标记和文本标记，其中语音标记的种类数量用T_s表示，文本标记的种类数量用T_t表示。词表中每一语音标记对应一个语音单元，如音素、音节、语音片段等。词表中每一文本标记对应一个文本单元，如字、词等。

目标语音标记：是指模型预测结果中预期(即正确)的语音标记。

视觉问答任务：根据输入的图像和问题，从输入图像的视觉信息中确定问题的答案。

图像描述任务：生成输入图像的描述文本。

视觉蕴涵任务：预测输入图像和文本在语义上的相关性，即蕴涵、中性或矛盾。

指代表达与理解任务：根据输入文本定位输入图像中与输入文本对应的图像区域。

图像生成任务：基于输入的描述文本生成图像。

基于文本的情感分类任务：预测输入文本的情感分类信息。

文本摘要任务：生成输入文本的摘要信息。

多模态任务：是指输入输出数据涉及图像和文本等多种模态数据的下游任务，例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。

多模态预训练模型：是指输入输出数据涉及语音和文本等多种模态数据的预训练模型，经过微调训练后可以应用于多模态任务处理。

预训练语言模型：对大规模语言模型(Large Language Model，简称LLM)进行预训练后得到的预训练模型。

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model，简称FM)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large LanguageModel，简称LLM)、多模态预训练模型(Multi-modal Pre-training Model)等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

针对语音和文本的多模态预训练模型在语音处理任务中有着不错的表现。例如，SpeechGPT、AudioPaLM等，在语音处理任务表现出较好的性能，具体可以应用于自动语音识别(Automatic Speech Recognition，简称ASR)任务、语音到文本的翻译任务、语音到语音翻译任务、语音合成任务等语音处理任务。

这些模型基于编码器将连续的语音信号转换为离散的标记(即语音离散化)，并将所有的文本和语音标记合并到一个共享词汇表中，使用仅包含解码器的Transformer模型在语音任务的混合数据上进行微调训练。具体而言，这些模型使用传统的基于标注文本的交叉熵损失训练模型，对输入语音采用了损失屏蔽技术，没有明确地对语音标记之间的依赖关系建模，导致了训练数据的浪费，影响了语音处理任务的性能。

本实施例提供一种语音数据处理方法，用于对以语音和文本的多模态预训练模型作为基座模型，通过在基座模型上增加解码器构建的语音处理模型进行微调训练，获得训练完成的语音处理模型，以提升语音处理的性能。该语音处理模型可以应用于自动语音识别(ASR)、语音到文本的翻译、语音到语音翻译、语音合成等各类语音处理任务。在语音处理模型的微调训练过程中，固定基座模型的参数，训练解码器的参数。

其中，基座模型是将输入语音转换为多个离散的语音标记的预训练模型。例如，基座模型可以使用带有K均值聚类算法(K-means clustering algorithm，简称K-means算法)的HuBERT(Hidden-unit BERT，隐层单元的双向编码表示)模型、带有k-means算法的WavLM模型、或者文本增强的语音预训练模型(Speech Language Model，简称speech LM)等，本实施例此处不做具体限定。其中，WavLM模型是在HuBERT模型基础上改进而来的预训练声学模型，通过引入降噪遮罩语音建模提升模型的鲁棒性，并在Transformer中使用门控相对位置编码实现更好的局部信息建模。

增加的解码器可以是仅包含解码器部分的Transformer模型，也即Transformer模型中的解码器。当然，增加的解码器可以基于对Transformer模型变形而来，例如通过增加或较少Transformer模型的解码器的层数得到。

具体地，本实施例的方法，通过获取用于训练的语音样本及语音样本的目标语音标记，将语音样本输入语音处理模型进行目标标记的预测，得到目标标记的预测结果，并根据目标标记生成语音处理结果，目标标记至少包括目标语音标记；对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布；根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，获得训练完成的语音处理模型。

其中，语音样本的目标语音标记是指通过语音处理模型的预期预测结果。在有标注语音的任务场景中，语音样本的目标语音标记可以是将语音样本的标注语音转换成的多个离散的语音标记，这些离散的语音标记按照在语音样本中出现的顺序依次排列构成语音标记序列。在训练过程中，语音处理模型通过基座模型将输入的语音样本转换为多个离散的语音标记，作为解码器的输入语音标记x′。对于语音样本的第t个位置输出的目标语音标记x_t，语音处理模型通过解码器基于该语音样本的输入语音标记x′、给定的起始语音标记x₀和前t-1个目标语音标记x₁,…,x_t-1，预测第t个位置的目标语音标记x_t，得到第t个位置的目标语音标记x_t的预测结果。同理，可得到各个目标语音标记的预测结果。

在没有标注语音的任务场景中，语音样本的目标语音标记可以是将语音样本转换成的离散的语音标记。这种情况下，将语音样本的输入语音标记x′作为目标语音标记x。在训练过程中，语音处理模型通过基座模型将输入的语音样本转换为多个离散的语音标记，作为解码器的输入语音标记x′，同时作为目标语音标记x。对于语音样本的第t个位置上的目标语音标记x_t，语音处理模型通过解码器基于该语音样本的给定的起始语音标记x₀和前t-1个目标语音标记x₁,…,x_t-1，预测第t个位置的目标语音标记x_t，得到第t个位置的目标语音标记x_t的预测结果。同理，可得到各个目标语音标记的预测结果。

本实施例的方法，在语音处理模型的微调训练过程中，通过对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布，根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，可以有效地建模语音标记，使得语音处理模型能够更好地学习到语音标记之间的关联性，从而提高语音处理性能。

图1为本申请所适用的一示例系统架构的示意图。如图1所示，该系统架构包括服务器和端侧设备。其中，服务器与端侧设备之间具有可通信的通信链路，能够实现服务器与端侧设备间的通信连接。

其中，服务器是部署在云端或本地的具有计算能力的设备，例如云集群等。服务器负责获取训练集，训练集包含用于训练的语音样本及语音样本的标注信息。服务器基于训练集中的语音样本的标注信息，可以确定语音样本的目标标记，目标标记用于生成语音处理结果，本方案中目标标记至少包括目标语音标记。服务器还用于获取待微调的语音处理模型，基于训练集对语音处理模型进行微调训练，获得训练完成的语音处理模型。

端侧设备可以是运行下游应用的电子设备，具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、本地服务器、云端服务器等。端侧设备运行下游应用时需要使用语音处理模型执行语音处理任务，获得语音处理结果。端侧设备执行的语音处理任务可以是自动语音识别、语音到文本的翻译、语音到语音的翻译、语音合成等。

基于图1所示的系统架构，端侧设备向服务器发送用户输入的语音数据。服务器接收用户输入的语音数据，将语音数据输入语音处理模型，通过语音处理模型将语音数据转换为离散的输入语音标记，基于输入语音标记预测目标标记，并根据目标标记生成语音处理结果。服务器向端侧设备返回语音处理结果。端侧设备接收服务器返回的语音处理结果，基于语音处理结果继续执行后续的处理逻辑，实现下游应用的语音处理任务。

另外，服务器还可以将训练完成的语音处理模型(或训练完成的语音处理模型的参数)提供给端侧设备，端侧设备可以在本地使用训练完成的语音处理模型，基于语音处理模型实现具体下游应用的语音处理任务，如自动语音识别、语音到文本的翻译、语音到语音的翻译、语音合成等。当然，训练完成的语音处理模型还可以应用于其他如人工智能领域的任务，此处不做具体限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的语音数据处理方法的流程图。本实施例的执行主体为前述系统架构中的服务器。如图2所示，该方法具体步骤如下：

步骤S201、获取用于训练的语音样本及语音样本的目标语音标记。

本实施例中，训练集中包含语音样本及语音样本的标注信息。对于某些语音到文本的语音处理任务，例如自动语音识别任务、语音到文本的翻译任务等，语音处理结果中仅包含文本，不包含语音，因此，训练数据中通常包含语音样本及语音样本的标注文本，例如，例如语音识别结果中语音样本的内容文本，语音到文本的翻译任务中第一语言的语音样本的第二语言的翻译文本，但不包含标注语音。对于这些任务的训练数据，通过将语音样本转换为离散的语音标记，并增加预设结束符(作为最后一个语音标记)，得到目标语音标记。

在一些可选实施例中，服务器可以使用现有的文本转语音的方法将标注文本转换成标注语音，或者获取人工录入阅读标注文本的语音数据，作为标注语音，再将标注语音转换为离散的语音标记，并增加预设结束符(作为最后一个语音标记)，得到目标语音标记。

对于某些语音(或语音+文本)到语音的语音处理任务，例如语音到语音的翻译任务、语音合成任务等，语音处理结果中包含语音，因此，训练数据中包含语音样本及语音样本的标注语音，例如，例如语音到语音的翻译任务中第一语言的语音样本的第二语言的翻译语音，语音合成任务中给定文本和给定语音合成的第二语音。对于这些任务的训练数据，通过将语音样本的标注语音转换为离散的语音标记，并增加预设结束符(作为最后一个语音标记)，作为得到语音标记。

步骤S202、将语音样本输入语音处理模型进行目标标记的预测，得到目标标记的预测结果，目标标记用于生成语音处理结果，目标标记至少包括目标语音标记。

本实施例中，语音处理模型包括预训练的基座模型和解码模块。该步骤中，将语音样本输入语音处理模型的基座模型，通过基座将语音样本转换成多个离散的输入语音标记，并将多个离散的输入语音标记输入解码模块。通过解码模块基于语音样本的输入语音标记进行解码，得到目标标记的预测结果，进一步地解码模块根据目标标记的预测结果生成语音处理结果。

其中，基座模型是将输入语音转换为多个离散的语音标记的预训练模型。例如，基座模型可以使用带有k-means算法的HuBERT模型、带有k-means算法的WavLM模型、或者speech LM等，也可以使用其他具有将输入语音转换为多个离散标记的预训练模型实现，本实施例此处不做具体限定。

以基座模型为带有k-means算法的HuBERT模型为例，先通过HuBERT模型提取语音样本的多帧语音特征，然后使用k-means算法计算各语音特征与各语音标记对应的聚类中心间的相似程度，并基于相似程度确定各语音特征对应的语音标记，从而将语音样本的多个语音特征转换为离散的语音标记，将这些离散的语音标记作为输入语音标记。

在一些可选实施例中，在将语音样本的多个语音特征转换为离散的语音标记之后，还可以使用各类子词模型(Subword-model)对得到的多个离散的语音标记进行子词建模，以进一步压缩离散的语音标记的数量，得到压缩后的多个离散的语音标记，作为语音样本的多个离散的输入语音标记。其中，子词模型可以是字节对编码(Byte Pair Encoding，简称BPE)、一元语言模型(Unigram Language Model，简称ULM，也称为Unigram语言模型)等，本实施例此处不做具体限定。

本实施例中，目标标记的预测结果用于生成语音处理结果。目标标记至少包括目标语音标记，在有些语音处理任务中目标标记还包括目标文本标记。

对于某些语音到文本的语音处理任务，例如自动语音识别任务、语音到文本的翻译任务等，语音处理结果中仅包含文本。本实施例中，基于语音处理模型预测的目标标记包含目标文本标记和目标语音标记。进一步地，基于目标文本标记和词表中的文本单元，可以确定各目标文本标记对应的文本单元，按照顺序组合各目标文本标记对应的文本单元，即可得到语音处理结果。

对于某些语音(或语音+文本)到语音的语音处理任务，例如语音到语音的翻译任务、语音合成任务等，语音处理结果中包含语音。本实施例中基于语音处理模型预测的目标标记包含目标语音标记。进一步地，基于目标语音标记和词表中的语音单元，可以确定各目标语音标记对应的语音单元，按照顺序组合各目标语音标记对应的语音单元，即可得到语音处理结果。另外，通过声码器(vocoder)基于目标语音标记和词表中的语音单元生成对应的语音，得到语音处理结果。

需要说明的是，对于语音+文本到语音的语音处理任务，如语音合成任务，输入数据中不仅包含语音还包含文本，训练数据中样本为语音样本和文本样本的组合，以及样本对应的标注语音。在训练过程中，将文本样本和语音样本一起输入语音处理模型中，语音处理模型将语音样本转换为多个离散的输入语音标记，将文本样本转换为多个离散的输入文本标记，根据输入语音标记和输入文本标记来预测目标标记，并进一步根据目标标记生成语音处理结果。

步骤S203、对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布。

本实施例中，对于语音样本的任一t位置的目标语音标记x_t。目标语音标记x_t的原始分布是包含T_s个数值的分布，该分布的T_s个离散数值与词表中的语音标记一一对应，词表中该目标语音标记x_t对应的数值为1，其他语音标记对应的数值为0。目标语音标记x_t对应的原始分布表示为q(x_t|x_<t)。

可选地，服务器可以采用标签平滑归一化(Label Smoothing Regularization，简称LSR))方法，对该目标语音标记x_t的原始分布q(x_t|x_<t)进行标签平滑归一化，得到该目标语音标记x_t对应的平滑分布，该平滑分布表示为q(x_t|x_<t)。具体地，可以采用如下公式(1)，对目标语音标记x_t的原始分布进行标签平滑归一化：

q′(x_t|x_<t)＝(1-∈)q(x_t|x_<t)+∈u(x_t) (1)

其中，∈为一个较小的超参数，取值范围为(0,1)，例如∈可取值为0.1。u(x_t)为该目标语音标记x_t的均匀分布，可以表示为u(x_t)＝1/(T_s-1)，T_s表示词表中语音单元的种类数量。

可选地，服务器可以采用如下公式(2)，对目标语音标记x_t的原始分布进行标签平滑归一化：

q(x_t|x_<t)＝softmax((1-∈)q(x_t|x_<t)+∈u(x_t),T) (2)

其中，∈和u(x_t)的含义与公式(1)中相同，softmax()表示归一化方法，T为softmax()中的温度参数，用于控制归一化的平滑程度，可以根据实际应用场景和经验进行设置，例如T可以取值为1，此处不做具体限定。通过公式(2)对目标语音标记x_t的原始分布进行平滑处理，可以控制目标语音标记x_t对应的平滑分布的平滑程度。

步骤S204、根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，获得训练完成的语音处理模型。

其中，语音样本的任一位置t上的目标语音标记x_t的预测结果是一个概率分布，包含输出语音标记中位置t上出现词表中各个语音标记的概率。

该步骤中，根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以最大化语音样本的各个目标语音标记的平滑分布和预测结果间的相似度为训练目标，训练语音处理模型的参数，获得训练完成的语音处理模型。

具体地，服务器计算各目标语音标记的平滑分布与预测结果间的相似度信息，根据各目标语音标记的平滑分布与预测结果间的相似度信息，计算第一损失，并根据第一损失训练语音处理模型的参数。通过最小化第一损失，来达到最大化各目标语音标记的平滑分布与预测结果间的相似度的训练目标。

示例性地，服务器可以采用如下公式(3)来计算第一损失：

其中，L_{SIM_speech}表示第一损失。q′(x_t|x_<t)表示位置t上的目标语音标记x_t的平滑分布。p(x_t|x_<t；θ)表示通过具有模型参数θ的语音处理模型输出的目标语音标记x_t的预测结果(概率分布)，θ表示当前语音处理模型的参数。Sim(,)表示目标语音标记x_t的平滑分布与预测结果(概率分布)间的相似度信息。T_s表示词表中语音标记的种类数量。

可选地，语音样本的各个目标语音标记的平滑分布与预测结果间的相似度信息，可以是各目标语音标记的平滑分布与预测结果间的KL散度。平滑分布与预测结果间KL散度越高，说明平滑分布与预测结果间的相似度越低，平滑分布与预测结果间的KL散度越低，说明平滑分布与预测结果间的相似度越高，通过减少平滑分布与预测结果间的KL散度，来增大平滑分布与预测结果间的相似度。

示例性地，目标语音标记x_t的平滑分布与预测结果间的KL散度可以表示为D_KL(q′(x_t|x_<t)||p(x_t|x_<t；θ))，服务器通过如下公式(4)计算第一损失：

基于公式(4)确定的第一损失，通过最小化第一损失，来最小化多个目标语音标记的平滑分布与预测结果间的KL散度，从而最大化多个目标语音标记的平滑分布与预测结果间的相似度。

可选地，语音样本的各个目标语音标记的平滑分布与预测结果间的相似度信息，还可以是语音样本的各个目标语音标记的平滑分布与预测结果间的欧几里得距离、曼哈顿距离、马氏距离、JS散度(Jensen-Shannon divergence)等指标，这些指标与KL散度类似，指标值越高则说明相似度越低，指标值越低则说明相似度越高，通过减少平滑分布与预测结果间的这些指标值，来达到增大平滑分布与预测结果间的相似度的效果。

本实施例中，基于语音样本的各个目标语音标记的平滑分布和预测结果间的相似度信息，以最大化语音样本的各个目标语音标记的平滑分布和预测结果间的相似度为训练目标，训练语音处理模型的参数，可以有效地建模语音标记，使得语音处理模型能够更好地学习到语音标记之间的关联性，从而提高语音处理性能。

在一可选实施例中，在对语音处理模型的训练过程中，还可以根据语音样本的各目标语音标记的预测结果，计算自回归交叉熵损失，作为第二损失；根据第二损失，训练语音处理模型的参数，可以提升语音处理模型的性能。

前面实施例中已经提到过，模型输出的语音标记中任一位置t上的目标语音标记x_t的预测结果是一个概率分布，包含输出的语音标记中位置t上出现词表中各个语音标记的概率。本实施例中，基于语音样本输出的语音标记中位置t上出现目标语音标记x_t的概率，计算自回归交叉熵损失，作为第二损失。

具体地，服务器可以通过如下公式(5)计算第二损失：

其中，L_{CE_speech}表示第二损失。p′(x_t|x_<t；θ)表示通过参数为θ的语音处理模型输出的语音标记中第t个位置上为目标语音标记x_t的概率，θ表示当前语音处理模型的参数。T_s表示词表中语音标记的种类数量。

在训练过程中，通过最小化第二损失，可以最大化语音处理模型预测结果中位置t上出现正确的目标语音标记x_t的概率，从而可以提升语音处理模型的准确性。

在一些实施例中，通过结合前述基于第一损失和第二损失的训练，根据第一损失和第二损失计算第一综合损失，根据第一综合损失更新语音处理模型的参数，可以进一步提升语音处理模型的性能。可选地，可以将第一损失和第二损失之和作为第一综合损失；或者，根据第一损失和第二损失的预设权重系数加权求和，得到第一综合损失。其中，第一损失和第二损失的预设权重系数，可以根据实际应用场景和经验值进行配置和调整，此处不做具体限定。

在一些可选实施例中，训练集还包括语音样本的标注文本，目标标记还包括目标文本标记。

在实际应用中，对于某些语音到文本的语音处理任务，例如自动语音识别任务、语音到文本的翻译任务等，语音处理结果中包含文本。这些任务的训练数据中包含语音样本及语音样本的标注文本。例如，自动语音识别任务是将输入语音转换为内容文本；语音到文本的翻译任务是将输入的第一语言的语音转换成第二语言的翻译文本。

服务器还可以基于这些任务的训练数据中的标注文本，通过将语音样本的标注文本离散化为多个离散的文本标记，并增加文本标记的预设结束符(作为最后一个文本标记)，得到语音样本的多个离散的目标文本标记。

本实施例中，语音样本的目标标记包括目标语音标记和目标文本标记。将语音样本输入语音处理模型进行目标标记预测，可得到目标语音标记的预测结果和目标文本标记的预测结果。服务器可以根据语音样本的多个目标文本标记的预测结果，计算自回归交叉熵损失，作为第三损失；根据第三损失，训练语音处理模型的参数。

其中，对于模型输出的语音样本的任一位置i上的目标文本标记y_i的预测结果是一个概率分布，包含输出的文本标记中第i个位置上出现词表中各个文本标记的概率。本实施例中，基于语音样本的输出结果中第i个位置上的文本标记为目标文本标记y_i的概率，计算自回归交叉熵损失，作为第三损失。

具体地，服务器可以通过如下公式(6)计算第三损失：

其中，L_{CE_text}表示第三损失。y_<i包括给定起始文本标记y₀和前(i-1)个目标文本标记，p′(y_i|x′,y_<i；θ)表示通过参数为θ的语音处理模型，基于输入语音标记x′和给定起始文本标记y₀及前(i-1)个目标文本标记，预测得到的第i个位置上的文本标记为目标文本标记y_i的概率，θ表示当前语音处理模型的参数。T_t表示词表中文本标记的种类数量。

在训练过程中，通过最小化第三损失，可以最大化语音处理模型预测结果中位置i上出现正确的目标文本标记y_i的概率，从而可以提升语音处理模型的准确性。

在一些实施例中，通过结合前述基于第一损失、第二损失和第三损失的训练过程，根据第一损失和第三损失计算第一综合损失，根据第一综合损失更新语音处理模型的参数，来进一步提升语音处理模型的性能。可选地，可以将第一损失和第三损失之和，作为第二综合损失；或者，根据第一损失和第三损失的预设权重系数加权求和，得到第二综合损失。其中，第一损失和第三损失的预设权重系数，可以根据实际应用场景和经验值进行配置和调整，此处不做具体限定。

在一些实施例中，通过结合前述基于第一损失、第二损失和第三损失的训练过程，根据第一损失、第二损失和第三损失计算第三综合损失，根据第三综合损失更新语音处理模型的参数，来进一步提升语音处理模型的性能。

可选地，可以将第一损失、第二损失和第三损失之和，作为第三综合损失。

可选地，可以根据第一损失、第二损失和第三损失的预设权重系数加权求和，得到第三综合损失。其中，第一损失、第二损失和第三损失的预设权重系数，可以根据实际应用场景和经验值进行配置和调整，此处不做具体限定。

示例性地，可以通过如下公式(7)来计算第三综合损失：

L_SLD＝L_{CE_text}+L_{CE_speech}+αL_{SIM_speech} (7)

其中，L_SLD表示第三综合损失，L_{SIM_speech}表示第一损失，L_{CE_speech}表示第二损失，L_{CE_text}表示第三损失，α表示第一损失的权重系数，α为正数，可以根据实际应用场景和经验值进行设置，例如α可以取值为0.008。第二损失和第三损失的权重系数为1。

在前述任一实施例基础上，语音处理模型包括预训练的基座模型和解码模块，在一些可选实施例中，在语音处理模型的微调训练过程中，可以固定基座模型的预训练参数，仅训练解码模块的参数，以提升微调训练的效率。

图3为本申请一示例性实施例提供的语音处理模型的构建方法流程图。如图3所示，构建待训练的语音处理模型的具体步骤如下：

步骤S301、获取预训练的基座模型，预训练的基座模型用于将输入语音转换成多个离散的语音标记。

其中，预训练的基座模型是将输入语音转换为多个离散的语音标记的预训练模型。例如，基座模型可以使用带有k-means算法的HuBERT模型、带有k-means算法的WavLM模型、或者speech LM等，也可以使用其他具有将输入语音转换为多个离散标记的预训练模型实现，本实施例此处不做具体限定。

在一些可选实施例中，在将语音样本的多个语音特征转换为离散的语音标记之后，还可以使用各类子词模型对得到的多个离散的语音标记进行子词建模，以进一步压缩离散的语音标记的数量，得到压缩后的多个离散的语音标记，作为语音样本的多个离散的输入语音标记。

步骤S302、在预训练的基座模型上增加解码模块，构建语音处理模型。

本实施例构建的语音处理模型包括基座模型和解码模块，基座模型的输出作为解码模块的输入。在训练过程中，可以固定基座模型的预训练参数，仅训练解码模块的参数。

具体地，将语音样本输入基座模型，通过基座模型将语音样本转换为多个离散的输入语音标记，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标标记(至少包括目标语音标记)，并根据目标标记生成语音处理结果。

示例性地，对于自动语音识别任务，将语音输入基座模型，通过基座模型将语音转换为多个离散的输入语音标记，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标语音标记和目标文本标记，其中目标语音标记仅用于训练过程，目标文本标记既用于训练过程，也用于生成语音识别结果。进一步地，根据目标文本标记和词表中各文本标记对应的文本单元(如字、词等)生成文本内容，得到语音识别结果。

示例性地，对于第一语言的语音到第二语言的文本的翻译任务，将第一语言的语音输入基座模型，通过基座模型将第一语言的语音转换为多个离散的输入语音标记(对应的语音单元使用第一语言)，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标语音标记(对应的语音单元使用第一语言)和目标文本标记(对应的文本单元使用第二语言)，其中目标语音标记仅用于训练过程，目标文本标记既用于训练过程，也用于生成语音翻译结果。进一步地，根据目标文本标记和词表中各文本标记对应的文本单元(如字、词等)生成第二语言的文本内容，得到翻译结果。

示例性地，对于第一语言的语音到第二语言的语音的翻译任务，将第一语言的语音输入基座模型，通过基座模型将第一语言的语音转换为多个离散的输入语音标记(对应的语音单元使用第一语言)，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标语音标记(对应的语音单元使用第二语言)，目标语音标记既用于训练过程，也用于生成语音翻译结果。进一步地，根据目标语音标记和词表中各语音标记对应的语音单元(如音素、音节、语音片段等)生成第二语言的语音，得到翻译结果。

示例性地，对于给定文本和默认语音合成为目标语音的语音合成任务，将默认语音输入基座模型，通过基座模型将默认语音转换为多个离散的输入语音标记，并将多个输入语音标记输入解码模块；并且，将给定文本离散化成多个离散的目标文本标记，并增加目标文本标记的预设结束符(作为最后一个目标文本标记)，将目标文本标记输入解码模块；通过解码模块根据目标文本标记和输入语音标记解码得到目标语音标记，目标语音标记既用于训练过程，也用于生成语音翻译结果。进一步地，根据目标语音标记和词表中各语音标记对应的语音单元(如音素、音节、语音片段等)生成目标语音，得到语音合成结果。

本实施例中，解码模块可以使用Transformer解码器，也即仅包含解码器的Transformer模型(Decoder-Only Transformer)。通过更改Transformer解码器中的标记嵌入矩阵，可以修改纯文本Transformer解码器以同时建模文本和语音。Transformer解码器中原始的嵌入矩阵E具有T_t个文本标记和嵌入维度d，是T_t×d的矩阵，将离散的标记映射到维度为d的稠密嵌入(embedding)。通过扩展词表包含T_t个文本标记和T_s个语音标记，将嵌入矩阵扩展为(T_t+T_s)×d的矩阵，并将最后一个归一化(softmax)层中的另一个嵌入矩阵E’也进行相应地扩展，使得更改后的Transformer解码器可以同时建模文本和语音。

本实施例的执行主体可以是前述负载训练语音处理模型的服务器，由该服务器构建语音处理模型。其他实施例中，也可以是由其他设备(如端侧设备)构建好语音处理模型，将构建好的语音处理模型提供给服务器。服务器进行语音处理模型的微调训练，并将训练完成的语音处理模型(或模型参数)返回给端侧设备。

在一可选实施例中，在得到训练完成的语音处理模型之后，服务器可以向端侧设备提供训练完成的语音处理模型。

示例性地，在端侧设备存储有语音处理模型的结构的情况下，服务器可以向端侧设备发送语音处理模型训练后的参数。端侧设备根据语音处理模型训练后的参数，初始化本地存储的语音处理模型的参数，得到训练完成的语音处理模型。

示例性地，服务器还可以向端侧设备发送语音处理模型的下载信息。端侧设备根据接收到的语音处理模型的下载信息，将训练完成的语音处理模型下载到本地。

本实施例中，服务器将微调训练完成后的语音处理模型提供给端侧设备，使得端侧设备可以将训练完成的语音处理模型存储到本地，端侧设备可以在本地使用训练完成的语音处理模型实现语音处理的功能，可以提升语音处理的质量和性能。

在一可选实施例中，在得到训练完成的语音处理模型之后，服务器可以基于训练完成的语音处理模型向端侧设备提供语音处理服务。

图4为本实施例提供的语音数据处理方法的流程图，如图4所示，基于训练完成的语音处理模型实现语音数据处理的交互流程如下：

步骤S401、端侧设备向服务器发送语音处理请求，语音处理请求包含待处理的语音数据。

端侧设备在需要进行语音处理时，向服务器发送语音处理请求，该语音处理请求包含待处理的语音数据。

步骤S402、服务器接收端侧设备发送的语音处理请求。

服务器接收端侧设备发送的语音处理请求，并从语音处理请求中获取待处理的语音数据。

步骤S403、服务器将语音数据输入语音处理模型进行目标标记预测，得到语音数据的目标标记，并根据语音数据的目标标记生成语音处理结果，目标标记包括目标语音标记。

服务器将待处理的语音数据输入语音处理模型，通过语音处理模型将语音数据转换为多个离散的输入语音标记，根据输入语音标记解码得到目标标记，并根据目标标记生成语音处理结果。

本实施例中使用的语音处理模型，是基于前述任一实施例的方法训练得到的。具体地，获取用于训练的语音样本及语音样本的目标语音标记；将语音样本输入语音处理模型进行目标标记的预测，得到目标标记的预测结果，目标标记至少包括目标语音标记；对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布；根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练语音处理模型的参数，获得训练完成的语音处理模型。语音处理模型的具体训练过程参见前述实施例的相关内容，本实施例此处不再赘述。

需要说明的是，语音处理模型在应用于不同的语音处理任务时，可以根据具体语音处理任务中生成语音处理结果所需的目标标记，来控制语音处理模型的解码模块仅预测输出用于生成语音处理结果的目标标记，并根据目标标记生成语音处理结果。语音处理模型中的基座模型在训练和训练完成后的应用过程中的处理过程一致。

示例性地，对于自动语音识别任务，将语音输入基座模型，通过基座模型将语音转换为多个离散的输入语音标记，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标文本标记(模型训练过程中，解码得到目标语音标记和目标文本标记，目标语音标记仅用于训练过程)。进一步地，根据目标文本标记和词表中各文本标记对应的文本单元(如字、词等)生成文本内容，得到语音识别结果。

示例性地，对于第一语言的语音到第二语言的文本的翻译任务，将第一语言的语音输入基座模型，通过基座模型将第一语言的语音转换为多个离散的输入语音标记(对应的语音单元使用第一语言)，并将多个输入语音标记输入解码模块，通过解码模块解码得到目标文本标记(对应的文本单元使用第二语言)。进一步地，根据目标文本标记和词表中各文本标记对应的文本单元(如字、词等)生成第二语言的文本内容，得到翻译结果。而在模型训练过程中解码器解码得到目标语音标记(对应的语音单元使用第一语言)和目标文本标记(对应的文本单元使用第二语言)，其中目标语音标记仅用于训练过程，目标文本标记既用于训练过程，也用于生成语音翻译结果。

步骤S404、服务器向端侧设备返回语音处理结果。

步骤S405、端侧设备接收服务器返回的语音处理结果。

端侧设备接收服务器返回的语音处理结果，并基于语音处理结果执行后续的处理逻辑。

在一可选实施例中，服务器还可以向端侧设备提供训练完成的语音处理模型的API。端侧设备在需要进行语音处理时，向服务器发送API调用请求，该API调用请求包含待处理的语音数据。当服务器响应于API调用请求，获取待处理的语音数据，将语音数据输入语音处理模型进行处理得到目标标记，并根据目标标记生成语音处理结果。服务器向端侧设备返回语音处理结果。端侧设备接收服务器返回的语音处理结果，并基于语音处理结果执行后续的处理逻辑。

本实施例中，服务器可以基于通过训练完成的语音处理模型，对外向端侧设备提供语音处理能力，可以提升语音处理的质量和性能。

下面以针对自动语音识别(ASR)任务对语音处理模型的微调训练过程中的语音数据处理方法为例，对语音处理模型的微调训练过程进行示例性地说明。

图5为本申请一示例性实施例提供的语音数据处理方法流程图，如图5所示，针对自动语音识别(ASR)任务实现语音处理模型的微调训练的语音数据处理方法的具体步骤如下：

步骤S501、获取用于训练的语音样本及语音样本的目标文本标记。

本实施例中，服务器获取包含语音样本及语音样本的标注文本的训练集，将语音样本的标注文本转换为离散的标记，并增加文本标记的预设结束符(作为最后一个文本标记)，得到语音样本的多个目标文本标记。

示例性地，将语音样本的标注文本转换为离散的标记时，可以使用字节对编码(BPE)或其他子词模型、或分词模型实现，本实施例此处不做具体限定。

步骤S502、将语音样本输入语音识别模型进行目标标记的预测，得到目标标记的预测结果。

本实施例中，语音处理模型包括预训练的基座模型和解码模块。该步骤中，将语音样本输入语音处理模型的基座模型，通过基座将语音样本转换成多个离散的输入语音标记，并将多个离散的输入语音标记输入解码模块。通过解码模块基于语音样本的输入语音标记进行解码，得到目标语音标记和目标文本标记的预测结果。进一步地解码模块根据目标文本标记的预测结果生成文本，得到语音识别结果。

其中，目标标记包括目标语音标记和目标文本标记，目标文本标记用于生成语音识别结果，目标语音标记仅用于训练过程。

可选地，目标语音标记可以通过如下方式获得：将语音样本转换为离散的输入语音标记，作为目标语音标记。在训练过程中，解码器基于给定起始语音标记x₀预测第一个目标语音标记x₁(即第一个输入语音标记x′₁)；基于给定起始语音标记和第一个目标语音标记x₁预测第二个目标语音标记x₂，再基于给定起始语音标记和前两个目标语音标记x₁和x₂预测第三个目标语音标记x₃，……，基于给定起始语音标记和前t-1个目标语音标记预测第t个位置的目标语音标记x_t，以此类推，直至预测得到目标语音标记的结束符，可以得到各个目标语音标记的预测结果。

可选地，若训练集包含语音样本的标注语音，例如，标注文本转换成的标注语音，或者获取人工录入阅读标注文本的语音，作为标注语音，这种情况下，可以将标注语音转换为离散的语音标记，得到目标语音标记。在训练过程中，解码器基于给定起始语音标记和输入语音标记，预测第一个目标语音标记；再基于起始语音标记、输入语音标记和第一个目标语音标记，预测第二个目标语音标记……；基于起始语音标记、输入语音标记和前t-1个目标语音标记，预测第t个位置的目标语音标记；以此类推，直至预测得到目标语音标记的结束符，可以得到各个目标语音标记的预测结果。

进一步地，以目标语音标记的结束符作为起始文本标记y₀，基于给定起始语音标记x₀、目标语音标记x和起始文本标记y₀，预测第一个目标文本标记y₁；基于起始语音标记x₀、目标语音标记x、起始文本标记y₀和第一个目标文本标记y₁，预测第二个目标语音标记y₂……；基于起始语音标记x₀、目标语音标记x、起始文本标记y₀和前i-1个目标文本标记，预测第i个位置的目标文本标记y_i；以此类推，直至预测得到目标文本标记的结束符，可以得到各个目标文本标记的预测结果。

示例性地，如图6所示，图6中以给定起始语音标记为x₀，目标语音标记包括x₁，x₂，x₃，x₄(语音标记的结束符)，语音标记的结束符(x₄)同时作为给定的起始文本标记y₀，目标文本标记包括y₁，y₂，y₃为例，其中x₄为目标语音标记的结束符，可以是<speech_end>，或者可以使用其他特殊符号充当此结束符。y₃为目标文本标记的结束符，可以是<text_end>，或者可以使用其他特殊符号充当此结束符。在以语音样本的输入语音标记作为目标语音标记的情况下，解码器的解码流程如下：解码器基于给定起始语音标记为x₀预测第一个目标语音标记x₁；基于x₀和x₁预测第二个目标语音标记x₂；基于x₀、x₁和x₂预测第三个目标语音标记x₃；基于x₀、x₁、x₂和x₃预测第四个目标语音标记x₄；x₄为语音标记结束符，作为起始文本标记y₀，基于x₀、x₁、x₂、x₃和y₀(即x₄)预测第一个目标文本标记y₁；基于x₀、x₁、x₂、x₃，y₀和y₁预测第二个目标文本标记y₂；基于x₀、x₁、x₂、x₃，y₀，y₁和y₂预测第三个目标文本标记y₃，y₃为目标文本标记的结束符，由此可以得到所有目标语音标记和目标文本标记的预测结果。

其中，语音样本的任一位置t上的目标语音标记x_t的预测结果是一个概率分布，包含输出结果中位置t上出现词表中各个语音标记的概率。语音样本的任一位置i上的目标文本标记y_i的预测结果也是一个概率分布，包含输出结果中位置i上出现词表中各个语音标记的概率。

本实施例中，基座模型是将输入语音转换为多个离散的语音标记的预训练模型。例如，基座模型可以使用带有k-means算法的HuBERT模型、带有k-means算法的WavLM模型、或者speech LM等，也可以使用其他具有将输入语音转换为多个离散标记的预训练模型实现，本实施例此处不做具体限定。

步骤S503、对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布。

该步骤与前述步骤S203的实现方式一致，具体参见前述实施例的相关内容，此处不再赘述。

步骤S504、根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以及目标文本标记的预测结果，训练语音识别模型的参数，获得训练完成的语音识别模型。

该步骤中，根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以及目标文本标记的预测结果，以最大化语音样本的各个目标语音标记的平滑分布和预测结果间的相似度，并最大化各个位置上出现正确的目标文本标记的概率，作为训练目标，训练语音处理模型的参数，获得训练完成的语音处理模型。

具体地，服务器根据各目标语音标记的平滑分布与预测结果间的相似度信息，计算第一损失；根据语音样本的多个目标文本标记的预测结果，计算第三损失；根据第一损失和第三损失，训练语音处理模型的参数。

本市实施例中，第一损失的计算方法与前述步骤S204中第一损失的计算方法一致，具体参见前述实施例的相关内容，此处不再赘述。第三损失的计算方法参见前述实施例中服务器根据语音样本的多个目标文本标记的预测结果，计算自回归交叉熵损失，作为第三损失的实现过程，此处不再赘述。

进一步地，根据第一损失和第三损失，训练语音处理模型的参数时，服务器可以根据第一损失和第三损失计算第四综合损失，根据第四综合损失更新语音处理模型的参数，可以进一步提升语音处理模型的性能。可选地，可以将第一损失和第三损失之和作为第四综合损失；或者，根据第一损失和第三损失的预设权重系数加权求和，得到第四综合损失。其中，第一损失和第三损失的预设权重系数，可以根据实际应用场景和经验值进行配置和调整，此处不做具体限定。

本实施例中，基于语音样本的各个目标语音标记的平滑分布和预测结果间的相似度信息，以最大化语音样本的各个目标语音标记的平滑分布和预测结果间的相似度，并最大化各个位置上出现正确的目标文本标记的概率，作为训练目标，训练语音处理模型的参数，可以有效地建模语音标记，使得语音处理模型能够更好地学习到语音标记之间的关联性，从而提高语音处理性能。

在一可选实施例中，服务器还可以根据语音样本的各目标语音标记的预测结果，计算第二损失，根据第二损失训练语音处理模型的参数。

第二损失的计算方法参见前述实施例中服务器根据语音样本的各目标语音标记的预测结果，计算自回归交叉熵损失，作为第二损失的实现过程，此处不再赘述。

在一些实施例中，通过结合前述第一损失、第二损失和第三损失，来更新语音处理模型的参数，可进一步提升语音处理模型的性能。可选地，根据第一损失、第二损失和第三损失计算第五综合损失，根据第五综合损失更新语音处理模型的参数，来进一步提升语音处理模型的性能。

可选地，可以将第一损失、第二损失和第三损失之和，作为第五综合损失。

可选地，可以根据第一损失、第二损失和第三损失的预设权重系数加权求和，得到第五综合损失。其中，第一损失、第二损失和第三损失的预设权重系数，可以根据实际应用场景和经验值进行配置和调整，此处不做具体限定。

在前述任一实施例基础上，语音处理模型包括预训练的基座模型和解码模块，在一些可选实施例中，针对自动语音识别任务对语音处理模型的微调训练过程中，可以固定基座模型的预训练参数，仅训练解码模块的参数，以提升微调训练的效率。

在一可选实施例中，在针对自动语音识别(ASR)任务微调训练完成得到语音处理模型之后，服务器可以向端侧设备提供训练完成的语音处理模型，以使端侧设备基于语音处理模型实现自动语音识别(ASR)。

示例性地，在端侧设备存储有语音处理模型的结构的情况下，服务器可以向端侧设备发送语音处理模型训练后的参数。端侧设备根据语音处理模型训练后的参数，初始化本地存储的语音处理模型的参数，得到训练完成的语音处理模型，可基于语音处理模型实现自动语音识别(ASR)。

本实施例中，服务器将微调训练完成后的语音处理模型提供给端侧设备，使得端侧设备可以将训练完成的语音处理模型存储到本地，端侧设备可以在本地使用训练完成的语音处理模型实现自动语音识别(ASR)的功能，可以提升自动语音识别(ASR)的质量和性能。

在一可选实施例中，在针对自动语音识别(ASR)任务微调训练完成得到语音处理模型之后，服务器可以基于训练完成的语音处理模型向端侧设备提供自动语音识别(ASR)服务。

图7为本实施例提供的自动语音识别(ASR)方法的流程图，如图7所示，基于训练完成的语音处理模型实现自动语音识别(ASR)的交互流程如下：

步骤S701、端侧设备向服务器发送自动语音识别请求，自动语音识别请求包含待处理的语音数据。

端侧设备在需要进行自动语音识别(ASR)时，向服务器发送自动语音识别请求，该自动语音识别请求包含待处理的语音数据。

步骤S702、服务器接收端侧设备发送的自动语音识别请求。

服务器接收端侧设备发送的自动语音识别请求，并从自动语音识别请求中获取待处理的语音数据。

步骤S703、服务器将语音数据输入语音处理模型进行目标标记预测，得到目标文本标记，并根据目标文本标记生成语音识别结果。

服务器将待处理的语音数据输入语音处理模型，通过语音处理模型将语音数据转换为多个离散的输入语音标记，根据输入语音标记解码得到目标文本标记，并根据目标文本标记生成文本，得到自动语音识别(ASR)结果。

本实施例中使用的语音处理模型，是基于前述图5相关实施例训练得到的。具体地，获取用于训练的语音样本及语音样本的目标文本标记；将语音样本输入语音处理模型，通过语音处理模型将语音样本转换为多个离散的输入语音标记，并根据输入语音标记进行目标标记的预测，得到目标标记的预测结果，目标标记包括目标文本标记和目标语音标记；将语音样本的多个输入语音标记作为语音样本的多个目标语音标记，对语音样本的目标语音标记的原始分布进行平滑处理，得到各目标语音标记的平滑分布；根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以及目标文本标记的预测结果，训练语音处理模型的参数，获得训练完成的语音处理模型。语音处理模型的具体训练过程参见前述实施例的相关内容，本实施例此处不再赘述。

需要说明的是，语音处理模型在应用于不同的自动语音识别(ASR)任务时，解码器解码得到生成语音识别结果所需的目标文本标记，并根据目标标记生成语音处理结果。解码器可以解码目标语音标记，但在生成语音处理结果时无需使用目标语音标记。语音处理模型中的基座模型在训练和训练完成后的自动语音识别(ASR)过程中的处理过程一致。

本实施例中，语音处理模型通过基座模型将输入的语音数据转换为多个离散的输入语音标记，这一过程与前述实施例中的实现方式一致，具体参见前述实施例中的相关内容，此处不再赘述。

进一步地，解码器基于输入语音标记和给定的起始文本标记y₀，预测第一个目标文本标记y₁；基于输入语音标记、起始文本标记y₀和第一个目标文本标记y₁，预测第二个目标语音标记y₂……；基于目标语音标记、起始文本标记y₀和前i-1个目标文本标记，预测第i个位置的目标文本标记y_i；以此类推，直至预测得到目标文本标记的结束符，可以得到各个目标文本标记的预测结果。进一步地，对于任一位置i上的目标文本标记y_i的预测结果，根据词表中各个文本标记出现在该位置的概率，选择较大概率出现在该位置的文本标记作为目标文本标记y_i，即可得到各个目标文本标记。

进一步地，根据各个目标文本标记，以及各个目标文本标记对应的文本单元，将各个目标文本标记对应的文本单元按顺序组合，生成文本信息，得到语音识别结果。

步骤S704、服务器向端侧设备返回语音识别结果。

步骤S705、端侧设备接收服务器返回的语音识别结果。

端侧设备接收服务器返回的语音识别结果，并基于语音识别结果执行后续的处理逻辑。

在一可选实施例中，服务器还可以向端侧设备提供训练完成的语音处理模型的API。端侧设备在需要进行自动语音识别(ASR)时，向服务器发送API调用请求，该API调用请求包含待处理的语音数据。当服务器响应于API调用请求，获取待处理的语音数据，将语音数据输入语音处理模型进行处理得到目标标记，并根据目标标记生成语音处理结果。服务器向端侧设备返回语音识别结果。端侧设备接收服务器返回的语音识别结果，并基于语音识别结果执行后续的处理逻辑。

本实施例中，服务器可以基于针对自动语音识别(ASR)任务微调训练完成得到语音处理模型，对外向端侧设备提供自动语音识别(ASR)能力，可以提升自动语音识别(ASR)的质量和性能。

图8为本申请实施例提供的一种服务器的结构示意图。如图8所示，该服务器包括：存储器801和处理器802。存储器801，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在服务器上的操作。处理器802，与存储器801通信连接，用于执行存储器801存储的计算机执行指令，以实现上述任一方法实施例所提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

可选的，如图8所示，该服务器还包括：防火墙803、负载均衡器804、通信组件805、电源组件806等其它组件。图8中仅示意性给出部分组件，并不意味着服务器只包括图8所示组件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现前述任一实施例的方法，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例的方法。计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中服务器的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储器可以是对象存储(Object Storage Service，简称OSS)。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Read Only Memory，简称PROM)，只读存储器(Read Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点(WiFi)，第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LongTerm Evolution，简称LTE)、第五代移动通信系统(5G)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(Near FieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wide Band，简称UWB)技术，蓝牙技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例的顺序仅仅为了描述，不代表实施例的优劣。另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取用于训练的语音样本及所述语音样本的目标语音标记；

2.根据权利要求1所述的方法，其特征在于，所述获取用于训练的语音样本及所述语音样本的目标语音标记，包括：

获取包含语音样本的训练集；

若所述训练集包含所述语音样本的标注语音，则将所述语音样本的标注语音转换成多个离散的语音标记，得到所述语音样本的目标语音标记；

若所述训练集不包含所述语音样本的标注语音，则将所述语音样本转换成多个离散的语音标记，得到所述语音样本的目标语音标记。

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，训练所述语音处理模型的参数，包括：

计算各所述目标语音标记的平滑分布与预测结果间的相似度信息；

根据各所述目标语音标记的平滑分布与预测结果间的相似度信息，计算第一损失；

根据所述第一损失，训练所述语音处理模型的参数。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据所述语音样本的各所述目标语音标记的预测结果，计算第二损失；

根据所述第二损失，训练所述语音处理模型的参数。

5.根据权利要求1所述的方法，其特征在于，还包括：

获取所述语音样本的标注文本，所述目标标记还包括目标文本标记；

将所述语音样本的标注文本离散化，得到所述语音样本的多个离散的目标文本标记；

根据所述语音样本的多个目标文本标记的预测结果，计算第三损失；

根据所述第三损失，训练所述语音处理模型的参数。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述语音处理模型包括预训练的基座模型和解码模块，训练过程中固定所述基座模型的参数，训练所述解码模块的参数，

所述将所述语音样本输入语音处理模型进行目标标记的预测，得到所述目标标记的预测结果，包括：

将所述语音样本输入所述语音处理模型的基座模型，通过所述基座将所述语音样本转换成多个离散的输入语音标记，通过所述解码模块基于所述语音样本的输入语音标记进行解码，得到目标标记的预测结果，所述目标标记至少包括所述目标语音标记。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取预训练的基座模型，所述预训练的基座模型用于将输入语音转换成多个离散的语音标记；

在所述预训练的基座模型上增加解码模块，构建语音处理模型。

8.根据权利要求1-5中任一项所述的方法，其特征在于，所述获得训练完成的语音处理模型之后，还包括：

向端侧设备发送所述语音处理模型训练后的参数；

或者，

向端侧设备发送所述语音处理模型的下载信息；

或者，

向端侧设备提供所述语音处理模型的调用接口。

9.一种语音数据处理方法，其特征在于，包括：

将所述语音数据输入语音处理模型进行目标标记预测，得到所述语音数据的目标标记，所述目标标记包括目标语音标记，其中所述语音处理模型通过如权利要求1-8中任一项所述的方法获得；

10.一种语音数据处理方法，其特征在于，包括：

获取用于训练的语音样本及所述语音样本的目标文本标记；

11.根据权利要求10所述的方法，其特征在于，所述获取用于训练的语音样本及所述语音样本的目标标记，包括：

获取包含所述语音样本及所述语音样本的标注文本的训练集；

将所述语音样本的标注文本转换为离散的标记，得到所述语音样本的多个目标文本标记；

将所述语音样本转换成的多个输入语音标记，作为所述语音样本的目标语音标记。

12.根据权利要求10所述的方法，其特征在于，所述根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息，以及所述目标文本标记的预测结果，训练所述语音处理模型的参数，包括：

根据所述第一损失和第三损失，训练所述语音处理模型的参数。

13.一种语音识别方法，其特征在于，包括：

将所述语音数据输入语音处理模型进行目标标记预测，得到目标文本标记，并根据所述目标文本标记生成语音识别结果，其中所述语音处理模型通过如权利要求10-12中任一项所述的方法获得；

向所述端侧设备返回所述语音识别结果。

14.一种服务器，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述服务器执行权利要求1-13任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-13任一项所述的方法。