CN117476023A

CN117476023A - 语音处理方法、装置及终端设备

Info

Publication number: CN117476023A
Application number: CN202311538729.XA
Authority: CN
Inventors: 肖晓; 彭心怡
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-30

Abstract

本申请实施例提供一种语音处理方法、装置及终端设备。该方法包括：对待处理的初始语音进行去噪处理，得到目标语音；通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。提高了语音处理的效果。

Description

语音处理方法、装置及终端设备

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音处理方法、装置及终端设备。

背景技术

终端设备可以通过声码器，对输入的语音进行编码处理，得到音频数据。同时可以通过声码器，对接收到的音频数据进行解码处理，并播放音频数据对应的语音。

在相关技术中，可以通过如下方式对进行语音处理：发送端获取待处理的语音，并对语音进行预处理，得到初始音频数据。发送端通过声码器的编码器对初始音频数据进行编码处理，得到目标音频数据。并向接收端发送目标音频数据，接收端的声码器将接收到的比特流形式的目标音频数据中解析出语音特征参数，合成语音信号。在上述过程中，由于声码器使用固定的参数和模型结构，声码器提取语音信号的特征参量。若语音包含复杂的语音情感、语气变化和上下文信息时，声码器解码合成的语音听起来不够清晰、自然，且可能存在明显的机械感。导致语音处理的效果较差。

发明内容

本申请实施例提供一种语音处理方法、装置及终端设备，用以解决语音处理的效果较差的问题。

第一方面，本申请实施例提供一种语音处理方法，包括：

对待处理的初始语音进行去噪处理，得到目标语音；

通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；

通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。

在一种可能的实施方式中，所述编码块中各模块的排列顺序为：所述至少一个第一卷积块与所述至少一个第一残差单元交错排列，所述语义理解模块、所述第二卷积块；通过编码块对所述目标语音进行编码处理，得到中间音频数据，包括：

通过所述至少一个第一卷积块和所述至少一个第一残差单元对所述目标语音进行处理，得到所述目标语音对应的至少一个初始语义特征；

通过所述语义理解模块对所述至少一个初始语义特征进行上下文理解处理，得到所述至少一个初始语义特征对应的至少一个加强语义特征；

通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据。

在一种可能的实施方式中，通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据，包括：

获取所述目标语义特征的目标数量；

根据所述目标数量，通过所述第二卷积块对所述至少一个加强语义特征进行数量提取处理，得到所述中间音频数据，所述中间音频数据包括的目标语义特征的数量为所述目标数量。

在一种可能的实施方式中，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

获取编码索引表，所述编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值；

根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据。

在一种可能的实施方式中，根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

针对任意一个目标语义特征，确定所述目标语义特征与编码索引表的每个标准语义特征之间的第一相似度，得到多个第一相似度；

将所述第一相似度最大的标准语义特征确定为待选语义特征；

将所述待选语义特征对应的编码索引值确定为所述目标语义特征对应的编码索引值；

通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据。

在一种可能的实施方式中，通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据之后，还包括：

对所述目标音频数据进行熵编码处理，得到所述目标音频数据对应的目标压缩文件；

向预设设备发送所述目标压缩文件，或者存储所述目标压缩文件。

在一种可能的实施方式中，对待处理的初始语音进行去噪处理，得到目标语音，包括：

对所述初始语音进行预处理，得到中间语音，所述预处理至少包括降噪处理、预加重处理、帧化处理；

对所述中间语音进行划分处理，得到背景音、噪音以及第一语音，所述第一语音为所述中间语音中，除所述背景音和所述噪音之外的语音；

在所述中间语音中，对所述噪音进行去除处理、对所述背景音进行音量减少处理、以及对所述第一语音进行音量增强处理，得到所述目标语音。

在一种可能的实施方式中，所述方法还包括：

通过所述量化模型对所述目标音频数据进行反量化处理，得到所述中间音频数据；

通过所述解码块对所述中间音频数据进行解码处理，得到所述目标语音，并播放所述目标语音，所述解码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块，所述解码块中各模块的排列顺序为：所述第二卷积块、所述语义理解模块、所述至少一个第一卷积块与所述至少一个第一残差单元交错排列。

第二方面，本申请实施例提供一种语音处理装置，所述装置包括：

第一处理模块，用于对待处理的初始语音进行去噪处理，得到目标语音；

第二处理模块，用于通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；

第三处理模块，用于通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。

在一种可能的实施方式中，所述第二处理模块具体用于：

获取所述目标语义特征的目标数量；

在一种可能的实施方式中，所述第三处理模块具体用于：

在一种可能的实施方式中，所述第一处理模块具体用于：

在一种可能的实施方式中，所述装置还包括第四处理模块以及第五处理模块。

其中，所述第四处理模块用于：

所述第五处理模块用于：

第三方面，本申请提供一种芯片，所述芯片上存储有计算机程序，所述计算机程序被所述芯片执行时，实现如第一方面任一项所述的方法。

第四方面，本申请提供一种芯片模组，所述芯片模组上存储有计算机程序，所述计算机程序被所述芯片模组执行时，实现如第一方面任一项所述的方法。

第五方面，本申请实施例提供一种终端设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面任一项所述的方法。

第六方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。

第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法。

本申请实施例提供的语音处理方法、装置及终端设备，对初始语音进行去噪处理，得到目标语音。通过编码块对目标语音进行编码处理，得到中间音频数据，中间音频数据包括至少一个目标语义特征。编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。通过量化模型对中间音频数据进行量化处理，得到目标音频数据，目标音频数据包括每个目标语义特征对应的编码索引值。在上述过程中，由于在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。

附图说明

图1为本申请实施例提供的应用场景的示意图；

图2为本申请实施例提供的一种语音处理方法的流程示意图；

图3为本申请实施例提供的获取初始语音的过程示意图；

图4为本申请实施例提供的编码块的结构示意图；

图5为本申请实施例提供的另一种语音处理方法的流程示意图；

图6为本申请实施例提供的得到目标语音的过程示意图；

图7为本申请实施例提供的语音处理的过程示意图；

图8为本申请实施例提供的一种语音处理装置的结构示意图；

图9为本申请实施例提供的另一种语音处理装置的结构示意图；

图10为本申请实施例提供的终端设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

为了便于理解，下面，结合图1，对本申请实施例所适用的应用场景进行说明。

图1为本申请实施例提供的应用场景的示意图。请参见图1，包括终端设备101和终端设备102。终端设备101和终端设备102可以为手机、平板电脑、电脑等。用户通过终端设备101的应用程序录制初始语音之后，终端设备101可以对初始语音进行处理，生成初始语音对应的目标音频数据。并向终端设备102发送目标音频数据。终端设备102可以对目标音频数据进行处理，得到初始语音并播放初始语音。

本申请实施例中，终端设备在获取到初始语音之后，对初始语音进行去噪处理，得到目标语音。通过编码块对目标语音进行编码处理，得到中间音频数据，中间音频数据包括至少一个目标语义特征。编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。通过量化模型对中间音频数据进行量化处理，得到目标音频数据，目标音频数据包括每个目标语义特征对应的编码索引值。在上述过程中，由于在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。

下面，通过具体实施例对本申请所示的方法进行说明。需要说明的是，下面几个实施例可以单独存在，也可以互相结合，对于相同或相似的内容，在不同的实施例中不再重复说明。

图2为本申请实施例提供的一种语音处理方法的流程示意图。请参见图2，该方法可以包括：

S201、对待处理的初始语音进行去噪处理，得到目标语音。

本申请实施例的执行主体可以为终端设备，也可以为设置在终端设备中的芯片、芯片模组或语音处理装置等。语音处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。终端设备可以为手机、平板电脑、电脑等。

需要说明的是，本申请提供的语音处理方法尤其适用于低码率或者极低码率下的语音处理过程。例如，低码率可以为小于等于1.2kbps对应的码率范围。

在对待处理的初始语音进行去噪处理之前，终端设备需要获取待处理的语音。用户在通过终端设备输入语音之后，终端设备响应于用户的输入点击操作，获取初始语音。

下面，结合图3，对获取初始语音的过程进行说明。图3为本申请实施例提供的获取初始语音的过程示意图。请参见图3，包括界面301～界面302。界面301～界面302为终端设备提供的页面。请参见界面301，用户在终端设备中打开通信的应用程序。终端设备响应于用户的点击操作，显示应用程序的通信页面。通信页面包括输入语音对应的图标“按住说话”。用户在点击“按住说话”之后输入语音，终端设备同时对用户输入的语音进行录音。请参见界面302，用户在输入语音完成之后，松开输入语音对应的图标“按住说话”。终端设备响应于用户的输入点击操作，获取用户输入的语音1。并将语音1确定为初始语音。

可以通过如下方式对待处理的初始语音进行去噪处理，得到目标语音：对初始语音进行预处理，得到中间语音，预处理至少包括降噪处理、预加重处理、帧化处理；对中间语音进行划分处理，得到背景音、噪音以及第一语音，第一语音为中间语音中，除背景音和噪音之外的语音；在中间语音中，对噪音进行去除处理、对背景音进行音量减少处理、以及对第一语音进行音量增强处理，得到目标语音。

可以通过语音源分离模型对中间语音进行划分处理，得到背景音、噪音以及第一语音。语音源分离模型为预先训练好的深度学习模型。例如，语音源分离模型可以为卷积神经网络模型。

在对中间语音进行处理之后，可以使得噪音去除，背景音减少，第一语音增强。第一语音为用户输入语音的主要内容，对第一语音进行增强可以使得后续解码处理后，还原的初始语音更加清晰。

例如，根据图3所示，终端设备获取到的初始语音为语音1。终端设备对语音1进行降噪处理、预加重处理以及帧化处理，得到中间语音为语音2。终端设备通过语音源分离模型对中间语音进行划分处理，得到背景音为语音21、噪音为语音22、第一语音为语音23。在语音2中，对语音21进行音量减少处理、对语音22进行去除处理、以及对语音23进行音量增强处理，得到目标语音为语音3。

S202、通过编码块对目标语音进行编码处理，得到中间音频数据。

中间音频数据包括至少一个目标语义特征，编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。

可以通过如下方式通过编码块对目标语音进行编码处理，得到中间音频数据：通过至少一个第一卷积块和至少一个第一残差单元对目标语音进行处理，得到目标语音对应的至少一个初始语义特征；通过语义理解模块对至少一个初始语义特征进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征；通过第二卷积块对至少一个加强语义特征进行处理，得到中间音频数据。

其中，语义特征可以通过向量表示。

语义理解模块可以为预先训练好的人工智能模型，或者人工智能模型中的部分网络结构。人工模型可以为卷积神经网络(Convolutional Neural Network，CNN)模型、循环神经网络(Recurrent Neural Network，RNN)模型、长短期记忆网络(Long Short-TermMemory，LSTM)模型、跳跃式长短期记忆网络(Skip Long Short-Term Memory，Skip LSTM)模型、双向长短期记忆网络(Bidirectional Long Short-Term Memory，Bi LSTM)模型等。语义理解模块用于加强对初始语义特征上下文的语义理解，进一步提取语音特征信息，从而解决模型在超低码率下编解码后恢复语音的可懂性和流畅度。

例如，语义理解模块可以为长短期记忆网络模型中的LSTM块，可以采用Skip LSTM结构，采用多个单向或双向LSTM算子。

下面，结合图4，对编码块的结构进行说明。图4为本申请实施例提供的编码块的结构示意图。请参见图4，包括编码块401。编码块401包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。编码块401中各模块的排列顺序为：至少一个第一卷积块与至少一个第一残差单元交错排列，语义理解模块、第二卷积块。根据上述举例所示，确定目标语音为语音3。通过编码块401的至少一个第一卷积块和至少一个第一残差单元对语音3进行处理，得到语音3对应的至少一个初始语义特征为初始语义特征1～初始语义特征10。通过编码块401的语义理解模块对初始语义特征1～初始语义特征10进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征为加强语义特征1～加强语义特征10。通过编码块401的第二卷积块对加强语义特征1～加强语义特征10进行处理，得到中间音频数据。中间音频数据包括目标语义特征1～目标语义特征5。

S203、通过量化模型对中间音频数据进行量化处理，得到目标音频数据。

目标音频数据包括每个目标语义特征对应的编码索引值。

量化模型可以为向量量化(Vector Quantization，VQ)模型、残差向量量化(Residual Vector Quantization，RVQ)模型、分组残差矢量量化(Generalized ResidualVector Quantization，GRVQ)模型。

可以通过量化模型对中间音频数据进行压缩处理，使得得到的音频数据占用内存减少。

例如，根据上述举例所示，确定目标语义特征1～目标语义特征5。通过量化模型对每个目标语义特征进行量化处理，得到每个目标语义特征对应的编码索引值具体可以如表1所示：

表1

目标语义特征	编码索引值
		目标语义特征1	0
目标语义特征2	2
		目标语义特征3	3
目标语义特征4	1
		目标语义特征5	9

根据表1所示的多个编码索引值，生成目标音频数据。

本申请提供的语音处理方法，对初始语音进行去噪处理，得到目标语音。通过编码块对目标语音进行编码处理，得到中间音频数据。通过量化模型对中间音频数据进行量化处理，得到目标音频数据。在上述过程中，由于在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。

在上述任意一个实施例基础上，下面，结合图5，对语音处理的详细过程进行说明。

图5为本申请实施例提供的另一种语音处理方法的流程示意图。请参见图5，该方法包括：

S501、对待处理的初始语音进行去噪处理，得到目标语音。

需要说明的是，S501的执行过程可以参见S201，此处不再赘述。

S502、通过至少一个第一卷积块和至少一个第一残差单元对目标语音进行处理，得到目标语音对应的至少一个初始语义特征。

例如，假设目标语音为语音4。终端设备通过编码块的至少一个第一卷积块和至少一个第一残差单元对语音4进行处理，得到语音4对应的至少一个初始语义特征为初始语义特征1～初始语义特征50。

S503、通过语义理解模块对至少一个初始语义特征进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征。

例如，根据上述举例所示，确定至少一个初始语义特征为初始语义特征1～初始语义特征50。通过编码块的语义理解模块对初始语义特征1～初始语义特征50进行上下文理解处理，得到初始语义特征1～初始语义特征50特征对应的至少一个加强语义特征为加强语义特征1～加强语义特征30。

S504、通过第二卷积块对至少一个加强语义特征进行处理，得到中间音频数据。

可以通过如下方式通过第二卷积块对至少一个加强语义特征进行处理，得到中间音频数据：获取目标语义特征的目标数量；根据目标数量，通过第二卷积块对至少一个加强语义特征进行数量提取处理，得到中间音频数据，中间音频数据包括的目标语义特征的数量为目标数量。

第二卷积块用于调整提取的语义特征的数量。

可以根据终端设备中存储的训练好的编码块、解码块以及量化模型中，确定目标数量。

例如，假设目标数量为10。根据上述举例所示，确定至少一个加强语义特征为加强语义特征1～加强语义特征30。根据目标数量10，通过编码块的第二卷积块对至少一个加强语义特征进行数量提取处理，得到中间音频数据。中间音频数据包括目标语义特征1～目标语义特征10。

S505、获取编码索引表。

编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值。

可以在终端设备中存储的训练好的量化模型中，获取目标数量。

S506、根据编码索引表，通过量化模型对中间音频数据进行量化处理，得到目标音频数据。

可以通过如下方式根据编码索引表，通过量化模型对中间音频数据进行量化处理，得到目标音频数据：针对任意一个目标语义特征，确定目标语义特征与编码索引表的每个标准语义特征之间的第一相似度，得到多个第一相似度；将第一相似度最大的标准语义特征确定为待选语义特征；将待选语义特征对应的编码索引值确定为目标语义特征对应的编码索引值；通过量化模型对至少一个目标语义特征对应的编码索引值进行压缩处理，得到目标音频数据。

可以通过预设算法，确定目标语义特征与编码索引表的每个标准语义特征之间的第一相似度，得到多个第一相似度。

例如，假设量化模型为VQ量化模型，编码索引表的大小N为1024，编码块的下采样倍数为320。则采样率为16KHz的1秒音频编码压缩后可存储为50*log₂ 1024＝500bit的文件。

例如，根据上述举例所示，确定中间音频数据包括目标语义特征1～目标语义特征10。终端设备在预设存储空间中获取编码索引表。针对目标语义特征1，通过预设算法，确定目标语义特征与编码索引表的每个标准语义特征之间的第一相似度具体可以如表2所示：

表2

标准语义特征	第一相似度
		标准语义特征1	0.4
标准语义特征2	0.32
		标准语义特征3	0.75
标准语义特征4	0.9
		标准语义特征5	0.84

根据表2所示的多个第一相似度，确定第一相似度最大的标准语义特征为标准语义特征4。因此，终端设备将标准语义特征4确定为待选语义特征。终端设备在编码索引表中，确定待选语义特征对应的编码索引值为3。并将待选语义特征对应的编码索引值确定为目标语义特征1对应的编码索引值。根据此方法，确定目标语义特征1～目标语义特征10对应的编码索引值具体可以如表3所示：

表3

目标语义特征	目标语义特征1	目标语义特征2	目标语义特征3
				编码索引值	3	0	9
目标语义特征	目标语义特征4	目标语义特征5	目标语义特征6
				编码索引值	8	5	1
目标语义特征	目标语义特征7	目标语义特征8	目标语义特征9
				编码索引值	2	7	4
目标语义特征	目标语义特征10
				编码索引值	6

终端设备通过量化模型获得表3所示的多个编码索引值来表示目标语义特征，得到目标音频数据1。目标音频数据1包括表3所示的多个编码索引值。

在通过量化模型对中间音频数据进行量化处理之后，若想要进一步减少编码处理后所占用的内存。还可以对目标音频数据进行熵编码处理，以减少目标音频数据所占用的内存。

可以通过如下方式，对目标音频数据进行熵编码处理：对目标音频数据进行熵编码处理，得到目标音频数据对应的目标压缩文件；向预设设备发送目标压缩文件，或者存储目标压缩文件。

目标音频数据和目标压缩文件可以通过比特流的形式进行传输，以使接收到的终端设备进行解码处理。

量化模型量化处理后得到的多个编码索引值，取值范围为0到N-1。N为编码索引表的大小。N越小存储需要的比特位越少。获取实际应用场景的测试集，确定各个索引值出现的频率，从而得到各个码字索引概率。在量化模型处理后，可根据获取的码字索引，查找索引概率表进行熵编码，来进一步进行压缩，从而获得更低的码率。例如，熵编码可以为哈夫曼编码、算术编码等无损压缩编码算法。

S507、通过量化模型对目标音频数据进行反量化处理，得到中间音频数据。

在对目标语音进行编码之后，可以对终端设备接收到的，或者存储的目标音频数据进行解码处理，还原目标音频数据对应的目标语音。

可选的，若对目标压缩文件进行处理，需要对目标文件进行熵解码处理，以得到目标音频数据。

例如，根据上述举例所示，确定目标音频数据为目标音频数据1。终端设备通过量化模型对目标音频数据1进行反量化处理，得到中间音频数据。中间音频数据包括目标语义特征1～目标语义特征10。

S508、通过解码块对中间音频数据进行解码处理，得到目标语音，并播放目标语音。

解码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块，解码块中各模块的排列顺序为第二卷积块、语义理解模块、至少一个第一卷积块与至少一个第一残差单元交错排列。

下面，结合图6，对得到目标语音的过程进行说明。图6为本申请实施例提供的得到目标语音的过程示意图。请参见图6，包括解码块601。解码块601包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。解码块601中各模块的排列顺序为：第二卷积块、语义理解模块、至少一个第一卷积块与至少一个第一残差单元交错排列。根据上述举例所示，确定中间音频数据包括目标语义特征1～目标语义特征10。通过解码块601的第二卷积块对中间音频数据进行转置卷积处理，得到至少一个加强语义特征包括加强语义特征1～加强语义特征30。通过解码块601的语义理解模块对加强语义特征1～加强语义特征30进行上下文理解解析处理，得到至少一个初始语义特征包括初始语义特征1～初始语义特征30。通过解码块601的至少一个第一卷积块和至少一个第一残差单元对初始语义特征1～初始语义特征30进行转置卷积处理，得到目标语音。

在通过编码块和解码块进行语音处理之前，需要对编码块、量化模型和解码块进行训练，以使编码块和解码块能准确还原语音。可以通过如下方式，对编码块、量化模型和解码块进行训练：获取多个语音，多个语音可以为不同语种、语速和场景下的携带噪音的语音，或者干净语音。在对多个语音进行预处理后，通过语音源分离模型对多个进行去噪处理，得到目标语音。通过编码块和量化模型对目标语音进行处理，得到目标音频数据。通过解码块和量化模型对目标音频数据进行解码处理，得到预测目标语音。根据目标语音和预测目标语音，确定损失函数。根据损失函数更新编码块、解码块以及量化模型中的模型权重，直至损失函数小于等于预设阈值，且损失函数在预设次数内不再发生变化。此时，将编码块、解码块以及量化模型中的模型权重确定为目标模型权重。将目标模型权重对应的编码块、解码块以及量化模型确定为训练好的编码块、解码块以及量化模型。并将训练好的编码块、解码块以及量化模型存储至终端设备。

实际应用中，语音处理需要在保持可懂度和音质、降低数码率、降低编码过程的计算量这三方面进行折中。针对不同的应用场景，码率、应用设备的内存和算力，可以通过如下方式，对语音处理模型进行调整：通过调整采样倍率及码本大小来定制码率；选择不同的VQ系列量化器来定制码率更换语义理解模块的构成，例如，调整RNN、门控循环单元(GatedRecurrent Unit，GRU)、LTSM、Transformer算子种类及个数来平衡模型参数、计算量、计算速度及恢复音质；选择特定数据集来针对性训练模型，使得声码器在特定领域或场景中表现出更好的性能；在应用阶段，可以选择是否使用熵编码进一步压缩编码，从而降低码率。

本申请提供的语音处理方法，对初始语音进行去噪处理，得到目标语音。通过至少一个第一卷积块和至少一个第一残差单元对目标语音进行处理，得到目标语音对应的至少一个初始语义特征。通过语义理解模块对至少一个初始语义特征进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征。通过第二卷积块对至少一个加强语义特征进行处理，得到中间音频数据。获取编码索引表。根据编码索引表，通过量化模型对中间音频数据进行量化处理，得到目标音频数据。通过量化模型对目标音频数据进行反量化处理，得到中间音频数据。通过解码块对中间音频数据进行解码处理，得到目标语音，并播放目标语音。在上述过程中，由于在对语音编码之前，可以对语音进行去噪处理，以使解码还原后的语音更加清晰。在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。

在上述任意一个实施例基础上，下面，结合图7，对语音处理的过程进行举例说明。

图7为本申请实施例提供的语音处理的过程示意图。请参见图7，包括终端设备701。终端设备701可以为手机、平板电脑、电脑等。终端设备701中包括语音源分离模型、编码块、量化模型、熵编码模块、熵解码模块以及解码块。用户在通过终端设备701输入语音之后，终端设备701响应于用户的输入点击操作，获取初始语音为语音A。终端设备701对语音A进行降噪处理、预加重处理以及帧化处理，得到中间语音为语音A1。终端设备701通过语音源分离模型对语音A1进行划分处理，得到背景音为语音A11、噪音为语音A12、第一语音为语音A13。在语音A1中，对语音A11进行音量减少处理、对语音A12进行去除处理、以及对语音A13进行音量增强处理，得到目标语音为语音B。

终端设备701通过编码块401的至少一个第一卷积块和至少一个第一残差单元对语音B进行处理，得到语音B对应的至少一个初始语义特征为初始语义特征1～初始语义特征20。终端设备701通过编码块401的语义理解模块对初始语义特征1～初始语义特征20进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征为加强语义特征1～加强语义特征20。终端设备701在预设存储空间中获取目标语义特征的目标数量为10。并通过编码块401的第二卷积块对加强语义特征1～加强语义特征20进行处理，得到中间音频数据。中间音频数据包括目标语义特征1～目标语义特征10。

终端设备701在量化模型中获取编码索引表。编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值。终端设备701根据编码索引表，确定每个目标语义特征对应的编码索引值。并根据编码索引表，通过量化模型对中间音频数据进行量化处理，得到目标音频数据。目标音频数据包括目标语义特征1～目标语义特征10对应的编码索引值。终端设备701通过熵编码模块对目标音频数据进行熵编码处理，得到目标音频数据对应的目标压缩文件。

终端设备701通过熵解码模块对目标压缩文件进行熵解码处理，得到目标音频数据。目标音频数据包括目标语义特征1～目标语义特征10对应的编码索引值。终端设备701通过量化模型对目标音频数据进行反量化处理，得到中间音频数据。中间音频数据包括目标语义特征1～目标语义特征10。终端设备701通过解码块对中间音频数据进行解码处理，得到目标语音为语音B，并播放语音B。其中，解码块的解码过程为编码块编码过程的反过程，此处不再赘述。

本申请提供的语音处理过程，对初始语音进行去噪处理，得到目标语音。通过至少一个第一卷积块和至少一个第一残差单元对目标语音进行处理，得到目标语音对应的至少一个初始语义特征。通过语义理解模块对至少一个初始语义特征进行上下文理解处理，得到至少一个初始语义特征对应的至少一个加强语义特征。通过第二卷积块对至少一个加强语义特征进行处理，得到中间音频数据。获取编码索引表。根据编码索引表，通过量化模型对中间音频数据进行量化处理，得到目标音频数据。通过量化模型对目标音频数据进行反量化处理，得到中间音频数据。通过解码块对中间音频数据进行解码处理，得到目标语音，并播放目标语音。在上述过程中，由于在对语音编码之前，可以对语音进行去噪处理，以使解码还原后的语音更加清晰。在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。

图8为本申请实施例提供的一种语音处理装置的结构示意图。语音处理装置可以为芯片或芯片模组。请参见图8，该语音处理装置10可以包括：

第一处理模块11，用于对待处理的初始语音进行去噪处理，得到目标语音；

第二处理模块12，用于通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；

第三处理模块13，用于通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。

在一种可能的实施方式中，所述第二处理模块12具体用于：

获取所述目标语义特征的目标数量；

在一种可能的实施方式中，所述第三处理模块13具体用于：

在一种可能的实施方式中，所述第一处理模块11具体用于：

本申请实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图9为本申请实施例提供的另一种语音处理装置的结构示意图。在图8所示实施例的基础上，请参见图9，语音处理装置10还包括第四处理模块14以及第五处理模块15。

其中，所述第四处理模块14用于：

所述第五处理模块15用于：

图10为本申请实施例提供的终端设备的结构示意图。请参见图10，该终端设备20可以包括：存储器21、处理器22。示例性地，存储器21、处理器22，各部分之间通过总线23相互连接。

存储器21用于存储程序指令；

处理器22用于执行该存储器所存储的程序指令，用以使得终端设备20执行上述方法实施例所示的方法。

本申请实施例提供的终端设备可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现上述方法。

本申请实施例还可提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，可实现上述方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(read-only memory，ROM)、随机存取存储器(Random Access Memory，RAM)、快闪存储器、硬盘、固态硬盘、磁带(magnetictape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

Claims

1.一种语音处理方法，其特征在于，包括：

对待处理的初始语音进行去噪处理，得到目标语音；

2.根据权利要求1所述的方法，其特征在于，所述编码块中各模块的排列顺序为：所述至少一个第一卷积块与所述至少一个第一残差单元交错排列，所述语义理解模块、所述第二卷积块；通过编码块对所述目标语音进行编码处理，得到中间音频数据，包括：

3.根据权利要求2所述的方法，其特征在于，通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据，包括：

获取所述目标语义特征的目标数量；

4.根据权利要求1-3任一项所述的方法，其特征在于，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

6.根据权利要求5所述的方法，其特征在于，通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据之后，还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，对待处理的初始语音进行去噪处理，得到目标语音，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

9.一种语音处理装置，其特征在于，所述装置包括：

10.一种终端设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使计算机执行根据权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。