CN117219049A

CN117219049A - 语音数据处理方法、装置、设备及存储介质

Info

Publication number: CN117219049A
Application number: CN202211528721.0A
Authority: CN
Inventors: 吴志勇; 孟一; 李廷天; 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen International Graduate School of Tsinghua University
Current assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen International Graduate School of Tsinghua University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-12-12

Abstract

本申请关于一种语音数据处理方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；基于所述音素编码向量和目标用户的语音风格向量，获取所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；基于所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音；基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音。本方案提高了定制化语音合成场景下的语音合成的准确性。

Description

语音数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种语音数据处理方法、装置、设备及存储介质。

背景技术

定制化语音合成(Text-to-speech，TTS)是一种基于文本自动合成具有特定用户的说话风格的语音的技术。

在相关技术中，定制化语音合成方法通常会利用少量样本对预训练的语音合成模型进行微调。具体的，首先通过通用的语音数据集训练出一个初始的语音合成模型，然后，通过某一特定用户的少量的语音数据集对该初始的语音合成模型进行再训练，得到能够合成具有该特定用户的说话风格的语音合成模型。

然而，上述相关技术中，定制化语音合成的方案面向普通用户时，由于普通用户录入的语音数据普遍具有口语化较强的问题，导致微调后的语音合成模型的准确性较差。

发明内容

本申请实施例提供了一种语音数据处理方法、装置、设备及存储介质，可以在提高定制化语音合成场景下的语音合成的准确性，该技术方案如下：

一方面，提供了一种语音数据处理方法，所述方法包括：

获取音素序列文本；

对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

基于所述音素编码向量和目标用户的语音风格向量，获取所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；所述语音风格向量用于表征所述目标用户的语音风格；

基于所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音；

基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音。

另一方面，提供了一种语音数据处理装置，所述装置包括：

获取模块，用于获取音素序列文本；

文本编码模块，用于对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

特征及帧长获取模块，用于基于所述音素编码向量和目标用户的语音风格向量，获取所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；所述语音风格向量用于表征所述目标用户的语音风格；

解码模块，用于基于所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音；

调整模块，用于基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音。

在一种可能的实现方式中，所述调整模块，用于，

基于所述各个音素中的静音音素的语音帧长，确定所述初始合成语音中的目标语音片段；所述目标语音片段是所述初始合成语音中，对应所述静音音素的语音片段；

将所述初始合成语音中的所述目标语音片段替换为静音片段，获得所述合成语音。

在一种可能的实现方式中，所述调整模块，用于，

响应于所述目标语音片段的指定属性大于属性阈值，将所述初始合成语音中的所述目标语音片段替换为静音片段，获得所述合成语音；

所述指定属性包括音高和响度中的至少一项。

在一种可能的实现方式中，所述调整模块，用于，

响应于所述目标语音片段中的非静音片段的帧长满足替换条件，将所述初始合成语音中的所述目标语音片段替换为静音片段，获得所述合成语音。

在一种可能的实现方式中，所述替换条件包括以下条件中的至少一种：

所述非静音片段的帧长大于帧长阈值；

以及，所述非静音片段的帧长与所述目标语音片段的帧长的比值大于比例阈值。

在一种可能的实现方式中，所述装置还包括：

第一去噪模块，用于在所述调整模块基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音之后，对所述合成语音进行去噪处理，以去除所述合成语音中的非人声噪音。

在一种可能的实现方式中，所述文本编码模块，用于通过语音合成模型中的音素编码器对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

所述特征及帧长获取模块，用于通过所述语音合成模型中的方差适配器网络对所述音素编码向量和所述语音风格向量进行处理，获得所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；

所述解码模块，用于，

通过所述语音合成模型中的解码器对所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音的语谱图；

基于所述语谱图生成所述初始合成语音；

其中，所述语音合成模型是基于所述目标用户的样本语音、所述样本语音对应的语音文本、以及所述目标用户的至少一个模板语音样本训练获得的。

在一种可能的实现方式中，所述装置还包括：

风格提取模块，用于通过所述语音合成模型中的风格建模分支对所述目标用户的至少一个模板语音进行风格特征提取，获得所述语音风格向量。

在一种可能的实现方式中，所述装置还包括：

第二去噪模块，用于在所述风格提取模块对至少一个所述模板语音进行风格特征提取，获得所述目标用户的语音风格向量之前，对至少一个所述模板语音进行去噪处理，以去除至少一个所述模板语音中的非人声噪音。

在一种可能的实现方式中，所述获取模块，还用于基于所述语音文本生成音素序列文本样本；

文本编码模块，还用于通过所述音素编码器对所述因素序列文本样本进行编码，获得所述因素序列文本样本的音素编码向量样本；

所述风格提取模块，还用于通过所述风格建模分支对至少一个所述模板语音样本进行风格特征提取，获得所述目标用户的语音风格向量样本；

特征及帧长获取模块，还用于通过所述方差适配器网络对所述音素编码向量样本和所述语音风格向量样本进行处理，获得所述因素序列文本样本对应的各个音素样本的声学特征，以及所述各个音素样本的语音帧长；

解码模块，还用于通过所述解码器对所述各个音素样本的声学特征，以及所述各个音素样本的语音帧长进行解码，获得语谱图样本；

所述装置还包括：

更新模块，用于基于所述语谱图样本，以及所述样本语音的语谱图之间的差异，对所述语音合成模型进行参数更新。

在一种可能的实现方式中，所述装置还包括：

第三去噪模块，用于对所述样本语音以及至少一个所述模板语音样本进行去噪处理，以去除所述样本语音以及至少一个所述模板语音样本中的非人声噪音。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现上述语音数据处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现上述语音数据处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的语音数据处理方法。

本申请提供的技术方案可以包括以下有益效果：

基于对因素序列文本进行编码获得的音素编码向量，以及目标用户的语音风格向量，获取因素序列文本对应的各个音素的声学特征以及各个音素的语音帧长，在基于各个音素的声学特征以及各个音素的语音帧长进行解码获得目标用户的初始合成语音后，基于各个音素的语音帧长对初始合成语音进行调整，获得目标用户的合成语音；上述方案中，在语音合成过程中生成的各个音素的语音帧长除了用于合成语音之外，还用来对合成的语音进行调整，可以有效的解决语音合成过程中，因为口语化等问题导致的解码前确定的各个音素的语音帧长与解码生成的语音中的各个音素的帧长不一致的情况，从而提高定制化语音合成场景下的语音合成的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一示例性实施例涉及的系统的示意图；

图2是本申请一示例性实施例示出的语音数据处理方法的流程图；

图3是本申请一示例性实施例示出的语音数据处理方法的流程图；

图4是本申请一示例性实施例示出的语音数据处理方法的流程图；

图5是本申请一示例性实施例示出的语音数据处理方法的流程图；

图6是本申请一示例性实施例示出的语音数据处理方法的流程图；

图7是本申请实施例涉及的定制化语音合成系统应用场景；

图8是本申请实施例涉及的定制化语音合成系统流程图；

图9是本申请实施例涉及的一种模型结构图；

图10是本申请实施例涉及的语音合成的流程图；

图11是本申请实施例涉及的后处理模块的处理流程图；

图12是本申请一个实施例提供的语音数据处理装置的方框图；

图13示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种用于语音合成的语音数据处理方法。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。

2)语音技术(Speech Technology)

语音技术的关键技术有自动语音识别技术和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

图1示出了本申请一示例性实施例提供的语音数据处理方法所使用的系统的示意图，如图1所示，该系统包括：服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端120可以是具有网络连接功能以及数据处理功能的终端设备，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、膝上型便携计算机和台式计算机等等。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

近年来，语音合成(Text-to-speech，TTS)系统得到了极大的发展。现有的基于神经网络的语音合成方法在自然度上超过了传统的拼接式语音合成方法。在此之上，小样本(Few shot)定制化语音(Custom Voice)合成方法通常会利用少量样本对预训练(Pretrained)的语音合成模型进行微调(Fine tune)。这些方法通常使用质量较高的数据(专业的声优在录音棚内录制完成)进行预训练，如果在微调阶段使用质量较低的数据(收音设备底噪大、环境噪声大、配音人员发音不清晰、口语化较强导致无法准确标注)时通常无法获得令人满意的合成效果，会出现音色不准、文字外的合成声音、噪声严重等问题。

在一些小样本语音合成方案中，通常使用预训练-微调的范式。先使用大量高质量的数据训练出一个通用的预训练模型，接下来在目标小样本数据集上对模型的全部或者部分参数进行微调。上述方案可以分为三个阶段：

1)模型预训练阶段；

2)小样本微调阶段；

3)合成阶段。

在预训练阶段中，使用大规模的多说话人数据集预训练语音合成模型，确保语音合成模型可以覆盖不同的音素和音色范围，为接下来在目标数据集上进行微调做准备。在微调阶段中，使用目标说话人的小样本数据对预训练好的模型参数进行微调，直到新的模型参数收敛。在合成阶段中，使用微调后的语音合成模型合成输入文本的语音。

上述方案忽略了预训练数据集与目标数据集之间的差异。用于预训练语音合成模型的数据通常为专业声优在录音棚内录制完成，具有发音标准、标注准确、收音设备底噪低、采样率高等特点，质量较高。但用于微调的数据集由于录音成本和标注人力成本限制，通常无法使用专业设备采集声音，因此会有底噪较大、口语化较强导致无法标注十分准确等特点。

图2示出了本申请一示例性实施例示出的语音数据处理方法的流程图，该方法由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或者服务器可以是图1所示的终端或服务器，如图2所示，该语音数据处理方法包括以下步骤：

步骤210：获取音素序列文本。

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。

其中，上述音素序列文本，是需要合成的语音中的人声发音的音素，通常来说，音素序列文本可以通过要合成的语音文字进行转化获得。

步骤220：对因素序列文本进行编码，获得因素序列文本的音素编码向量。

在一些实施例中，计算机设备可以通过语音合成模型中的音素编码器对因素序列文本进行编码，获得因素序列文本的音素编码向量。

步骤230：基于音素编码向量和目标用户的语音风格向量，获取因素序列文本对应的各个音素的声学特征，以及各个音素的语音帧长；语音风格向量用于表征目标用户的语音风格。

在一些实施例中，计算机设备可以通过语音合成模型中的方差适配器网络对音素编码向量和语音风格向量进行处理，获得因素序列文本对应的各个音素的声学特征，以及各个音素的语音帧长。

步骤240：基于各个音素的声学特征，以及各个音素的语音帧长进行解码，获得目标用户的初始合成语音。

其中，上述声学特征可以包括各个音素的音高(pitch)、能量(energy)等等。

在一些实施例中，计算机设备可以通过语音合成模型中的解码器对各个音素的声学特征，以及各个音素的语音帧长进行解码，获得目标用户的初始合成语音的语谱图；基于语谱图生成初始合成语音。

其中，语音合成模型可以是基于目标用户的样本语音、样本语音对应的语音文本、以及目标用户的至少一个模板语音样本训练获得的。

在一些实施例中，在执行上述步骤之前，计算机设备还可以对目标用户的至少一个模板语音进行风格特征提取，获得语音风格向量。比如，计算机设备可以通过语音合成模型中的风格建模分支对目标用户的至少一个模板语音进行风格特征提取，获得语音风格向量。

步骤250：基于各个音素的语音帧长对初始合成语音进行调整，获得目标用户的合成语音。

综上所述，本申请实施例所示的方案，基于对因素序列文本进行编码获得的音素编码向量，以及目标用户的语音风格向量，获取因素序列文本对应的各个音素的声学特征以及各个音素的语音帧长，在基于各个音素的声学特征以及各个音素的语音帧长进行解码获得目标用户的初始合成语音后，基于各个音素的语音帧长对初始合成语音进行调整，获得目标用户的合成语音；上述方案中，在语音合成过程中生成的各个音素的语音帧长除了用于合成语音之外，还用来对合成的语音进行调整，可以有效的解决语音合成过程中，因为口语化等问题导致的解码前确定的各个音素的语音帧长与解码生成的语音中的各个音素的帧长不一致的情况，从而提高定制化语音合成场景下的语音合成的准确性。

图3示出了本申请一个示例性实施例提供的语音数据处理方法的流程图。该方法可以由计算机设备执行。即在图2示出的实施例中，步骤250可以实现为步骤250a和步骤250b：

步骤250a：基于各个音素中的静音音素的语音帧长，确定初始合成语音中的目标语音片段；目标语音片段是初始合成语音中，对应静音音素的语音片段。

在本申请实施例中，计算机设备可以根据各个音素的语音帧长，确定初始合成语音中，与静音音素对应的目标语音片段的起始位置，并根据静音音素的语音帧长，确定目标语音片段的结束位置，从而确定初始合成语音中的目标语音片段。

上述静音音素也称为sil音素，是一种非语言直接相关的伪音素，在语音合成中，表示在对应的位置不存在语言相关的声音。

其中，上述静音音素通常位于语音的开头、结尾、标点两侧等位置。

步骤250b：将初始合成语音中的目标语音片段替换为静音片段，获得合成语音。

在本申请实施例中，由于口语化等原因，会导致在语音合成解码前确定的静音音素对应在合成的初始合成语音中的目标语音片段错误(出现非静音帧)的问题，对此，本申请实施例所示的方案，在获得初始合成语音之后，可以直接对初始合成语音中，对应静音音素的目标语音片段进行替换，以替换为静音片段，从而消除目标语音片段错误的问题。

在一些实施例中，将初始合成语音中的目标语音片段替换为静音片段，获得合成语音，包括：

响应于目标语音片段的指定属性大于属性阈值，将初始合成语音中的目标语音片段替换为静音片段，获得合成语音；

指定属性包括音高和响度中的至少一项。

同样是由于口语化等原因，可能导致静音音素对应的语音片段之前或之后的非静音音素的发音会少量占用静音音素对应的语音片段的情况，这种情况可能有助于更好的体现用户的语音风格，并且，这种情况下，占用静音音素对应的语音片段的语音帧通常音高和/或响度较低，因此，这种情况可以不认为是合成错误。对此，在本申请实施例中，计算机设备在将将初始合成语音中的目标语音片段替换为静音片段之前，可以先检测目标语音片段的音高和/或响度(比如平均音高和/或响度，或者，最大音高和/或响度)是否大于音高阈值和/或响度阈值，若是，则确认在目标语音片段中存在语音合成错误，此时可以将初始合成语音中的目标语音片段替换为静音片段，获得合成语音；若目标语音片段的音高和/或响度不大于音高阈值和/或响度阈值，则可以认为目标语音片段中不存在语音合成错误，保持目标语音片段不变。

响应于目标语音片段中的非静音片段的帧长满足替换条件，将初始合成语音中的目标语音片段替换为静音片段，获得合成语音。

在一些实施例中，替换条件包括以下条件中的至少一种：

非静音片段的帧长大于帧长阈值；

以及，非静音片段的帧长与目标语音片段的帧长的比值大于比例阈值。

类似的，由于口语化等原因，可能导致静音音素对应的语音片段之前或之后的非静音音素的发音会少量占用静音音素对应的语音片段的情况，这种情况下，目标语音片段中的非静音帧通常包含较少的非静音片段(比如时长较短或者占用目标语音片段的比例较小)，因此，这种情况也可以不认为是合成错误。

对此，在本申请实施例中，计算机设备在将将初始合成语音中的目标语音片段替换为静音片段之前，可以先检测目标语音片段的中的非静音片段的帧长/帧长比例是否大于帧长阈值/比例阈值，若是，则确认在目标语音片段中存在语音合成错误，此时可以将初始合成语音中的目标语音片段替换为静音片段，获得合成语音；若目标语音片段的中的非静音片段的帧长/帧长比例不大于帧长阈值/比例阈值，则可以认为目标语音片段中不存在语音合成错误，保持目标语音片段不变。

上述图3所示的方案仅以基于各个音素中的静音音素的语音帧长，对初始合成语音中对应的静音音素的目标语音片段进行替换为例进行说明。可选的，通过各个音素的语音帧长，计算机设备还可以对初始合成语音中，静音音素之外的其它音素对应的语音片段进行调整，比如，对于相邻两个或者两个以上的非静音音素，该两个或者两个以上的非静音音素对应在初始合成语音中的语音帧长与解码前确定的语音帧长存在区别，而这种区别并不容易被感知，此时，计算机设备可以对上述相邻两个或者两个以上的非静音音素对应在初始合成语音中的语音片段的内容进行调整。

例如，假设相邻两个非静音音素为音素1和音素2，其中音素1和音素2在解码前确定的语音帧长分别为10帧和15帧，在解码过程中，由于口语化以及模型精度等问题，可能出现实际的音素1的语音帧长为12帧，而音素2在解码前确定的语音帧长为13帧的问题，对此，计算机设备可以对初始合成语音中，对应上述音素1和音素2的25帧语音片段进行处理，比如，对其中的前10帧和后15帧分别进行平滑处理，以降低相邻音素的语音帧长错误带来的影响。

图4示出了本申请一个示例性实施例提供的语音数据处理方法的流程图。该方法可以由计算机设备执行。即在图2示出的实施例中，基于各个音素的语音帧长对初始合成语音进行调整，获得目标用户的合成语音之后，还可以包括步骤260：

步骤260：对合成语音进行去噪处理，以去除合成语音中的非人声噪音。

由于在定制化语音合成场景下，通常有用于对预训练的语音合成模型进行微调的特定用户的语音数据可能存在口语化、语音质量低、模型精度不足等问题，可能导致合成语音中存在非人声的噪声的情况。对此，为了进一步提高合成语音的效果，在本申请实施例中，在通过语音帧长进行调整后，计算机设备还可以对合成语音进行去噪处理，以去除非人声的噪声。

在一些实施例中，计算机设备对至少一个模板语音进行风格特征提取，获得目标用户的语音风格向量之前，还可以对至少一个模板语音进行去噪处理，以去除至少一个模板语音中的非人声噪音。

其中，上述模板语音可以是目标用户发出的语音，其作为目标用户的合成语音的语音风格的模板，用于提取该目标用户的语音风格向量。

本申请实施例中，上述对至少一个模板语音中的非人声噪声进行去噪的过程可以通过预先训练好的深度学习模型(比如语音增强模型)对模板语音进行处理，得到去噪后的模板语音。

其中，该语音增强模型可以通过语音增强样本进行训练得到，示例性的，该语音增强样本可以包括若干个语音样本对，每个语音样本对中包含第一语音样本以及第二语音样本，其中，第一语音样本可以是不包含非人声噪声的语音，第二语音样本可以是对第一语音样本叠加了非人声噪声的语音，在训练过程中，第二语音样本作为输入数据，输入语音增强模型进行处理，得到去噪结果，然后基于去噪结果和第一语音样本之间的差异进行模型参数的更新。

与上述步骤260类似的，对于定制化语音合成场景下，用于对预训练的语音合成模型进行微调的特定用户的语音数据语音质量低的问题，计算机设备在对至少一个模板语音进行风格特征提取之前，可以对上述至少一个模板语音进行去噪处理，从而提高语音风格向量提取的准确性，进而提高后续语音合成的准确性。

图5示出了本申请一个示例性实施例提供的语音数据处理方法的流程图。该方法可以由计算机设备执行。基于图2示出的实施例，在进行语音合成之前，还可以进行模型训练，模型训练的过程可以包括步骤510至步骤560。

步骤510：基于语音文本生成音素序列文本样本。

其中，该语音文本是目标用户发出的样本语音的语音文本。

上述语音文本可以对样本语音进行语音识别确定，也可以由目标用户在上传样本语音时手动输入/设置。

步骤520：通过语音合成模型中的音素编码器对因素序列文本样本进行编码，获得因素序列文本样本的音素编码向量样本。

步骤530：通过语音合成模型中的风格建模分支对至少一个模板语音样本进行风格特征提取，获得目标用户的语音风格向量样本。

其中，上述模板语音样本可以是目标用户发出的语音。上述模板语音样本与上述实施例中涉及的模板语音可以是相同的语音，也可以是不同的语音，或者是部分相同的语音。

步骤540：通过语音合成模型中的方差适配器网络对音素编码向量样本和语音风格向量样本进行处理，获得因素序列文本样本对应的各个音素样本的声学特征，以及各个音素样本的语音帧长。

其中，上述方差适配器网络是一种以音素编码向量和语音风格向量的拼接向量为输入，以各个音素的声学表征，以及，各个音素在待合成的语音中的帧长为输出的神经网络。

步骤550：通过语音合成模型中的解码器对各个音素样本的声学特征，以及各个音素样本的语音帧长进行解码，获得语谱图样本。

步骤560：基于语谱图样本，以及目标用户的样本语音的语谱图之间的差异，对语音合成模型进行参数更新。

通过在本申请实施例所示的模型训练方案，在模型训练过程中引入语音风格向量的提取过程，并在语音合成过程中引入该语音风格向量，在参数更新过程中，根据预测结果同时对语音风格提取和语音合成两个分支进行训练，从而通过端到端的方式训练得到能够合成具有目标用户的语音风格的语音的语音合成模型，通过引入额外的语音风格向量来影响合成语音的语音风格，能够通过较少的语音模板实现准确性的语音风格表征，能够提高定制化的语音合成模型的合成效果。

图6示出了本申请一个示例性实施例提供的语音数据处理方法的流程图。该方法可以由计算机设备执行。基于图5示出的实施例，在进行模型训练之前，还可以执行步骤501。

步骤501：对样本语音以及至少一个模板语音样本进行去噪处理，以去除样本语音以及至少一个模板语音样本中的非人声噪音。

上述样本语音和模板语音样本都是目标用户发出的，用于训练语音合成模型的语音。其中，样本语音还对应有语音文本。

比如，用户可以预先根据系统提示，输入若干个语音，计算机设备获取到用户输入的若干个语音后，从中划分出样本语音和模板语音。可选的，样本语音和模板语音可以是相同的语音，也可以是不同的语音，或者，样本语音和模板语音可以部分相同。

上述非人声噪声是指人发出的声音之外的噪声，比如风噪、杂音、机械噪声、电流噪声等等。

在一些实施例中，上述样本语音以及至少一个模板语音样本中的至少一项属于至少一个模板语音。

与上述步骤260类似的，对于定制化语音合成场景下，用于对预训练的语音合成模型进行微调的特定用户的语音数据语音质量低的问题，计算机设备在模型训练之前，可以对样本语音以及至少一个模板语音样本中的至少一项进行去噪处理，从而提高模型训练的准确性，进而提高后续语音合成的准确性。

本申请实施例涉及的针对低质量小样本数据的定制化语音合成系统应用场景如图7所示。用户需要提供希望定制的语音数据集、对应的标注信息，使用这些数据可以得到目标语音合成模型。接下来用户可以提供待合成的文本字符序列作为输入，系统自动返回合成的语音。例如用户希望游戏中的某个人物发出自己的声音，此时，该用户可以录制相应的语音数据集，通过用户自己的语音数据集以及语音合成模型，生成具有该用户的语音风格的声音，以增加乐趣。

本申请所提出的针对低质量小样本数据的定制化语音合成方法主要由4部分组成：预处理模块、语音风格提取模块、风格可控的语音合成模块、后处理模块。其中，预处理模块用于对目标数据集进行降噪，增强人声部分；语音风格提取模块用于提取目标说话人与文本信息无关的语音风格表征；风格可控的语音合成模块利用输入文本和从目标说话人语音中提取出的风格表征合成语音；后处理模块对合成语音结果中的静音段进行处理并进行降噪。

针对低质量小样本数据的定制化语音合成系统流程图如图8所示，相对于普通的小样本语音合成系统，在训练阶段，需要将训练数据先经过预处理模块，语音风格提取模块作为语音合成模型的一部分与语音合成模型共同训练。在推理阶段，利用语音风格提取模块从目标说话人数据集中提取出目标说话风格向量(即上述语音风格向量)，目标说话风格向量与待合成文本(即上述音素序列文本对应的语音文本)一起送入定制语音合成模型得到合成的语音，最后经过后处理模块作为最终合成结果。预处理模块的主要目的是为了降低训练数据中的噪声，使合成结果更加清晰、音色相似度更高；语音风格提取模块的目的是建模说话风格，使合成语音的说话风格与目标说话人更加相似；后处理模块的主要目的是为了消除语音合成系统从训练数据中学到的错误的静音段中出现人声的现象，以及进一步降低合成结果中的噪声。

下面对上述各个模块进行介绍：

1)预处理模块

预处理模块目的是对用于对目标数据集进行语音增强处理，降低语音信号中的非人声部分和增强人声部分。本申请实施例中，可以利用全频带语音增强模型FullSubNet作为预处理模块。FullSubNet为一个全频带的语音增强模型，结合了全频带的语音增强和子频带语音增强模型的优势，将带噪频谱特征作为输入，预测经过增强的全频带和子频带音频。FullSubNet模型在预先设置的数据集中训练后作为预处理模块，可以将带噪目标数据集中的语音作为输入，输出保留人声去除噪声的语音成为预处理后的数据集训练语音合成模型。

2)语音风格提取模块

语音风格提取模块以一句话的音频信息作为输入，输出一个句子级别的语音风格表征。如图9所示，其示出了本申请实施例涉及的一种模型结构图，其中的右下角为语音风格提取模块，其中包含引用编码器(Reference encoder)和风格注意力层(GSTattention)。引用编码器由一组卷积神经网络(Convolutional Neural Networks，CNN)和门控循环单元(Gate Recurrent Unit，GRU)组成，输入的音频经过CNN模块提取频谱中在时域和频域中的局部特征，再通过GRU后取最后一个隐藏层(Last hidden step)的输出作为句子级别的风格嵌入表征；风格注意力层利用计算出的风格嵌入与一组可学习的全局风格标签(Global style token)的相似度作为权重，对全局风格标签做加权和得到最终的风格向量表征。

在训练过程中，目标语音(即上述模板语音/模板语音样本)经过风格提取模块提取到的风格表征被拼接到语音合成模块中的文本表征上，然后一起送入解码器获得合成结果。通过这个过程，语音风格提取模块可以从语音中提取出对应的说话风格向量。本申请实施例可以将目标数据集中的全部音频送入风格提取模块，提取到目标说话人(即目标用户)的说话风格，用于作为文本之外的额外输入送入语音合成模型，使合成结果的说话风格更加符合目标说话人的表达方式。

比如，图9中左侧为TTS部分，输入为音素序列(input text)，文本编码器为Fastspeech2 encoder，负责将文本信息编码；方差适配器(Variance adaptor)负责预测相关声学表征和音素持续的语音帧长，并将音素上采样到预测的帧长；解码器为Fastspeech2decoder，负责解码得到语谱图(Reconstructed speech)，即训练中重建出的语谱图，用于计算loss和反向传播计算梯度训练整个模型。右侧部分为风格建模部分，输入信息为输入音频(Input speech)，对应上述模板语音/模板语音样本，参考编码器(Referenceencoder)，负责从输入音频中提取风格嵌入；风格注意力层(GST attention)采用全局风格标签注意力机制，负责将风格嵌入向量表示为全局风格标签的加权和的形式。

3)风格可控的语音合成模块

风格可控的语音合成模块以待合成句子的文本序列作为第一输入，待合成句子的风格向量作为第二输入，输出具有目标说话人音色、风格与目标说话人相近的合成语音。

在本申请实施例中，使用Fastspeech 2作为语音合成的基本框架，Fastspeech2是一个非自回归的语音合成模型，从输入音素序列预测语谱图，主要由3部分构成，分别为Fastspeech encoder(Fastspeech编码器)，Variance adaptor(方差适配器)，Fastsppechdecoder(Fastspeech解码器)。编码器的功能是将输入的音素序列(Phoneme sequence)进行编码得到音素表征，方差适配器按照这些表征来预测出每个音素的音高(pitch)、能量(energy)、持续时间帧长度(duration)信息。将音高、能量的信息与对应音素表征通过向量加法融合，然后根据预测出的帧长信息，将每个音素上采样到音素持续帧长的长度，即整个音素序列上采样到对应的音频帧长度。最后将上采样后的帧级别表征经过Fastspeech解码器解码得到梅尔谱。

本申请实施例涉及的语音合成的流程图如图10所示，输入的待合成文本序列首先通过字转拼音规则转换为拼音，再将拼音通过发音规则转化为因素序列。其中字转拼音的规则可以视为一个任意汉字到拼音的映射，给定的汉字作为关键字，查找到对应的值作为转化成的拼音结果。拼音转成因素序列是将每一个拼音通过固定的发音规则拆成23个声母和24个韵母的组合。

得到音素序列后，经过Fastspeech 2的编码器(Fastspeech encoder)的编码得到音素表征。将目标说话人的全部音频送入语音风格提取模块中，然后取平均得到待合成句子的风格向量。将该风格向量与音素表征拼接得到的结果送入方差适配器中(Varianceadaptor)，再经过语音合成解码器得到最终的合成结果。并且取出方差适配器中预测到的音素持续帧长(Predicted phoneme duration)，用于后处理模块。

如图10所示，右侧输入(Target dataset)为目标说话人数据集的全部音频，方差适配器可以输出预测到的音素持续帧长(predicted phoneme duration)；左侧解码器输出合成语音(syntehsized speech)。

4)后处理模块

后处理模块以风格可控的语音合成模块中的合成音频作为第一输入，来自方差适配器中预测出的音素及对应语谱图帧长作为第二输入，修改后的合成结果作为输出。后处理模块的处理流程图如图11所示。

在图11中，输入音频(input wave)为初始合成语音，音素及持续帧长(phonemeand duration)为上述方差适配器预测出的音素持续帧长，替换后的语音(modified wave)为经过第一次修改后得到的音频，输出语音(output wave)为修改后的音频经过降噪得到的最终输出音频。

后处理模块总共分为2部分：第一部分将风格可控的语音合成模块合成的结果以及预测到的音素持续帧长作为输入，以合成音频静音音素修改为静音段的结果作为输出。具体做法为找到预测的音素及持续帧长中静音音素(sil)对应的音频帧，并替换为静音，时长和位置与原来的音频相同。第二部分为降噪模块，结构与预处理模块相同，将第一部分输出的结果进行降噪得到最终的输出。

经过这些步骤，最终将会得到一个声音清晰、符合目标说话人音色、风格自然的合成结果。

本申请主要对小样本语音合成中面临的目标数据集与预训练数据集不匹配得问题做出改进，加入了预处理和后处理模块，因此语音合成模型部分可以进行替换。

1)对于预处理和后处理模块中的语音增强(降噪)部分，其关键在于：a)输入一条语音；b)输入增强后的语音。

2)对于后处理模块，其关键在于将空白字符或标点处的错误发音替换成静音段，并且不改变预测的静音段时长。

3)对于语音信息提取模块，其关键在于：a)输入一句话的语音；b)输出句子级别的语音信息表征。

4)对于模型中的所有模块，其网络结构具体实现不限于本申请上述实施例中提到的方式，例如可以基于卷积神经网络或者使用注意力机制等方法进行替代。

本申请涉及的方案带来的有益效果可以包括：由于考虑到了预训练数据集与目标数据集之间的差异，通过预处理部分降低目标数据集的非人声部分和增强人声部分，使得合成结果得音色与目标说话人更加相似。并且通过确定性方法修改合成结果中由于口语化导致的静音段不稳定的错误发音并进一步降噪，使得合成结果更加自然和清晰。

本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

上述用户的相关数据包括信息(包括但不限于用户终端的信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号等数据。例如，本申请中涉及到的目标用户的样本语音、模板语音、模板语音样本等数据是在充分授权的情况下获取的。

图12示出了本申请一示例性实施例示出的语音数据处理装置的方框图，该装置可以用于执行如图2至图6所示方法中的全部或部分步骤；如图12所示，该装置包括：

获取模块1201，用于获取音素序列文本；

文本编码模块1202，用于对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

特征及帧长获取模块1203，用于基于所述音素编码向量和目标用户的语音风格向量，获取所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；所述语音风格向量用于表征所述目标用户的语音风格；

解码模块1204，用于基于所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音；

调整模块1205，用于基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音。

在一种可能的实现方式中，所述调整模块，用于，

所述指定属性包括音高和响度中的至少一项。

在一种可能的实现方式中，所述调整模块，用于，

所述非静音片段的帧长大于帧长阈值；

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述文本编码模块1202，用于通过语音合成模型中的音素编码器对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

所述特征及帧长获取模块1203，用于通过所述语音合成模型中的方差适配器网络对所述音素编码向量和所述语音风格向量进行处理，获得所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；

所述解码模块1204，用于，

基于所述语谱图生成所述初始合成语音；

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述获取模块1201，还用于基于所述语音文本生成音素序列文本样本；

文本编码模块1202，还用于通过所述音素编码器对所述因素序列文本样本进行编码，获得所述因素序列文本样本的音素编码向量样本；

特征及帧长获取模块1203，还用于通过所述方差适配器网络对所述音素编码向量样本和所述语音风格向量样本进行处理，获得所述因素序列文本样本对应的各个音素样本的声学特征，以及所述各个音素样本的语音帧长；

解码模块1204，还用于通过所述解码器对所述各个音素样本的声学特征，以及所述各个音素样本的语音帧长进行解码，获得语谱图样本；

所述装置还包括：

在一种可能的实现方式中，所述装置还包括：

图13示出了本申请一示例性实施例示出的计算机设备1300的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。该计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器(Random Access Memory，RAM)1302和只读存储器(Read-Only Memory，ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。该计算机设备1300还包括用于存储操作系统1309、应用程序1310和其他程序模块1311的大容量存储设备1306。

该大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。该大容量存储设备1306及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，该大容量存储设备1306可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。

根据本公开的各种实施例，该计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在该系统总线1305上的网络接口单元1307连接到网络1308，或者说，也可以使用网络接口单元1307来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括至少一条计算机指令，该至少一条计算机指令存储于存储器中，中央处理器1301通过执行该至少一条计算机指令来实现上述各个实施例所示的方法中的全部或者部分步骤。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行以实现上述语音数据处理方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音数据处理方法中的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

获取音素序列文本；

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述初始合成语音中的所述目标语音片段替换为静音片段，获得所述合成语音，包括：

所述指定属性包括音高和响度中的至少一项。

4.根据权利要求2所述的方法，其特征在于，所述将所述初始合成语音中的所述目标语音片段替换为静音片段，获得所述合成语音，包括：

5.根据权利要求4所述的方法，其特征在于，所述替换条件包括以下条件中的至少一种：

所述非静音片段的帧长大于帧长阈值；

6.根据权利要求1所述的方法，其特征在于，所述基于所述各个音素的语音帧长对所述初始合成语音进行调整，获得所述目标用户的合成语音之后，还包括：

对所述合成语音进行去噪处理，以去除所述合成语音中的非人声噪音。

7.根据权利要求1所述的方法，其特征在于，所述对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量，包括：

通过语音合成模型中的音素编码器对所述因素序列文本进行编码，获得所述因素序列文本的音素编码向量；

所述基于所述音素编码向量和目标用户的语音风格向量，获取所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长，包括：

通过所述语音合成模型中的方差适配器网络对所述音素编码向量和所述语音风格向量进行处理，获得所述因素序列文本对应的各个音素的声学特征，以及所述各个音素的语音帧长；

所述基于所述各个音素的声学特征，以及所述各个音素的语音帧长进行解码，获得所述目标用户的初始合成语音，包括：

基于所述语谱图生成所述初始合成语音；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

通过所述语音合成模型中的风格建模分支对所述目标用户的至少一个模板语音进行风格特征提取，获得所述语音风格向量。

9.根据权利要求8所述的方法，其特征在于，所述对至少一个所述模板语音进行风格特征提取，获得所述目标用户的语音风格向量之前，还包括：

对至少一个所述模板语音进行去噪处理，以去除至少一个所述模板语音中的非人声噪音。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于所述语音文本生成音素序列文本样本；

通过所述音素编码器对所述因素序列文本样本进行编码，获得所述因素序列文本样本的音素编码向量样本；

通过所述风格建模分支对至少一个所述模板语音样本进行风格特征提取，获得所述目标用户的语音风格向量样本；

通过所述方差适配器网络对所述音素编码向量样本和所述语音风格向量样本进行处理，获得所述因素序列文本样本对应的各个音素样本的声学特征，以及所述各个音素样本的语音帧长；

通过所述解码器对所述各个音素样本的声学特征，以及所述各个音素样本的语音帧长进行解码，获得语谱图样本；

基于所述语谱图样本，以及所述样本语音的语谱图之间的差异，对所述语音合成模型进行参数更新。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

对所述样本语音以及至少一个所述模板语音样本进行去噪处理，以去除所述样本语音以及至少一个所述模板语音样本中的非人声噪音。

12.一种语音数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取音素序列文本；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至11任一所述的语音数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如权利要求1至11任一所述的语音数据处理方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；所述计算机指令由计算机设备的处理器读取并执行，以实现如权利要求1至11任一所述的语音数据处理方法。