CN115620701A

CN115620701A - 语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN115620701A
Application number: CN202211228674.8A
Authority: CN
Inventors: 杨喜鹏; 高文玉; 陈云琳; 叶顺平
Original assignee: Mobvoi Innovation Technology Co Ltd
Current assignee: Mobvoi Innovation Technology Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-17

Abstract

本发明实施例公开了一种语音合成方法、装置、电子设备和存储介质，通过在模型训练阶段将由神经网络声码器获得的声学特征向量中的基频特征值替换为经基频提取工具获得并经过处理的基频值，再使用替换后的声学特征向量训练神经网络声码器，并在推理阶段将目标文本对应的目标文本标签信息经声学模型获取到的声学特征中的基频值通过预设的基频控制向量进行相乘运算后并用运算结果替换原基频值，之后将替换后的声学特征向量输入至预先经本发明所提供的基频可控训练方法训练得到的神经网络声码器，从而生成目标文本对应的语音。由此，本发明技术方案有效解决了传统语音合成中音调无法灵活精确地进行显式控制的问题。

Description

语音合成方法、装置、电子设备和存储介质

技术领域

本发明涉及语音合成和机器学习技术领域，尤指一种语音合成方法、装置、电子设备和存储介质。

背景技术

随着移动设备的普及，使用语音的人机交互场景变得越来越常见，语音合成(Text-To-Speech，简称TTS)，正是随着人们对人机交互提出要求而发展起来的一种语音信号处理技术，它又被称为文语转换技术，是将计算机自己产生的或人为输入的一些非语音信息如文字、数字等信息转变为可以听得懂的、流利的人类语音输出的一种技术，被广泛地应用在不同的人机交互场景中，例如：智能客服、智能家居中的语音助手、可以服务听障人士的无障碍播报，甚至新闻播报和有声朗读等。

近年来，TTS技术的发展受益于机器学习的发展，尤其神经网络声码器的提出，使得TTS的合成质量提升了不止一个档次，其合成的音频已经几乎可以骗过人类。虽然如此，但在多样性的语音合成以及更加可控的语音合成等方面仍然有很广泛的研究空间，在一些应用场景下，例如：定制个性化的语音助手或进行人物配音时，往往需要将文本通过不同音调的语音进行输出，以实现不同人物的个性需要，这就需要在进行语音合成时对所合成的语音进行音调控制。

目前语音合成中音调可控的方案，大部分针对时长可控，没有针对音调的显式可控，而针对音调可控的方案，大部分是通过单独的参考编码器神经网络来实现的，该方案具有如下两方面的局限性：

一方面，该方案需要在模型训练阶段引入非常复杂的模型结构，在没有说话人自适应的情况下不能推广到看不见的说话人。

另一方面，由于该方案需要从参考音频中通过学习来获取韵律特征，而不是进行显式控制，所以对音调的控制不直接不灵活也不精确。也就是说，如果需要生成N种不同语调的语音，那么就需要训练N种对应于每种语调的语音合成模型，这需要花费非常大的工作量。

由此可知，现有技术中端到端的算法都只能从参考数据中学习或得到语音的音调，并不能对音调进行人为显式的控制，更不能精确地控制每一段每一句甚至每个文字的音调。

基于如上问题，目前亟待提出一种语音合成中可以简单、灵活、方便、精确地对语音的音调进行显式控制的方法，可以不需要参考额外音频的节奏特征，也不需要训练复杂的模型即可实现语音合成时音调的改变，进而降低实现时的复杂性，提高音调控制的精确性，解决传统语音合成中音调无法灵活精确地进行显式控制的问题。

发明内容

有鉴于此，本发明实施例提供一种语音合成方法、装置、电子设备和存储介质，通过在模型训练阶段将由神经网络声码器获得的声学特征向量中的基频特征值替换为经基频提取工具获得并经过处理的基频值，再使用替换后的声学特征向量训练神经网络声码器，并在推理阶段将目标文本对应的目标文本标签信息经声学模型获取到的声学特征中的基频值通过预设的基频控制向量进行相乘运算后并用运算结果替换原基频值，之后将替换后的声学特征向量输入至预先经本发明所提供的基频可控训练方法训练得到的神经网络声码器，从而生成目标文本对应的语音。由此，本发明技术方案不需要参考额外音频的节奏特征，也不需要训练复杂的模型即可简单方便地实现了显式控制语音合成时音调的改变，降低了实现时的复杂性，并且在推理阶段支持全局或细粒度的音调控制，这也使得音调控制与模型训练脱钩，进而提高了音调控制的精确性，有效解决了传统语音合成中音调无法灵活精确地进行显式控制的问题。

第一方面，本发明实施例提供了一种语音合成方法，所述方法包括：

获取与目标文本对应的目标文本标签信息，将所述目标文本标签信息输入至预选的声学模型以获得第一状态声学特征向量；

将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，以得到目标基频值；将所述第一状态声学特征向量中的基频值替换为所述目标基频值，以得到第二状态声学特征向量；

将所述第二状态声学特征向量输入至预先根据基频可控训练方法得到的神经网络声码器，生成所述目标文本对应的语音；

其中，所述基频可控训练方法为：

获取经预处理得到的训练音频数据；

将所述训练音频数据输入至预选的神经网络声码器以获得第三状态声学特征向量，其中，所述第三状态声学特征向量的基频值与音调不呈线性关系；

使用基频提取工具从所述训练音频数据中提取基频值，其中，所提取的基频值与音调呈线性关系；

对所述所提取的基频值进行处理以得到处理后的基频值，将所述第三状态声学特征向量中的基频值替换为处理后的基频值，以得到第四状态声学特征向量；

基于所述第四状态声学特征向量对所述神经网络声码器进行训练。

优选地，对所述训练音频数据的预处理，具体包括：

通过SoundTouch工具对参考音频或部分或全部已知音频进行频谱压缩或拉伸处理，将处理后的音频与所述已知音频进行混合得到混合音频数据；

通过基频提取工具从所述混合音频数据中提取满足下列公式中rate小于最大预设阈值的音频作为所述训练音频数据，

其中，n为基频序列长度，cur为当前语音帧的基频值，pre为上一语音帧的基频值，T为语音帧间基频相关性的最大阈值。

优选地，所述对所述所提取的基频值进行处理以得到处理后的基频值，具体包括：

当所述基频值为通过一个基频提取工具提取的基频值时，通过极小化极大Minimax算法对所提取的基频值进行处理以得到所述处理后的基频值；

当所述基频值为分别通过多个基频提取工具提取的基频值时，根据预设的评选规则从所述多个基频提取工具提取的基频值中确定出最终的基频值，再通过极小化极大Minimax算法对所述最终的基频值进行处理以得到所述处理后的基频值。

优选地，其中，所述声学模型为预先根据如下方式训练得到的声学模型：

获取所述训练音频数据对应的文本数据的文本标签信息，将所述文本标签信息输入至声学模型以获得第五状态声学特征向量；根据所述第四状态声学特征向量和所述第五状态声学特征向量确定两者之间的结构相似性指数SSIM loss；使用所述结构相似性指数SSIM loss训练所述声学模型。

优选地，所述将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，具体包括：

对所述第一状态声学特征向量中的基频值进行清浊音判断，当所述第一状态声学特征向量中的基频值为浊音时，使用预设的基频控制向量对所述第一状态声学特征向量中的基频值进行相乘运算，当所述第一状态声学特征向量中的基频值为清音时，不进行相乘运算。

优选地，其中，使用如下公式对所述第一状态声学特征向量中的基频值进行清浊音判断，如果C大于等于T判定为浊音，否则为清音，

C＝max(1，1.5g_p-0.5)

其中，g_p为所述第一状态声学特征向量中的基频互相关系数，C为公式计算结果，T为判定清浊音的预设阈值。

优选地，其中，

所述声学模型包括：Tacotron2，FastSpeech，FastSpeech2，所述神经网络声码器包括：LPCNet，所述基频提取工具包括：WORLD，REAPER、STARIGHT以及CREPE。

第二方面，本发明实施例提供了一种语音合成装置，包括：

第一状态声学特征向量获取模块，设置为获取与目标文本对应的目标文本标签信息，将所述目标文本标签信息输入至预选的声学模型以获得第一状态声学特征向量；

第二状态声学特征向量获取模块，设置为将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，以得到目标基频值；将所述第一状态声学特征向量中的基频值替换为所述目标基频值，以得到第二状态声学特征向量；

目标语音合成模块，设置为将所述第二状态声学特征向量输入至预先根据基频可控训练方法得到的神经网络声码器，生成所述目标文本对应的语音；

其中，所述基频可控训练方法为：

获取经预处理得到的训练音频数据；

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述处理器执行所述存储器中的程序指令，用于实现第一方面所述的方法。

第四方面，本发明实施例提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于实现第一方面所述的方法。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的语音合成方法流程图；

图2是本发明实施例的基频可控训练方法流程图；

图3是本发明实施例的语音合成装置结构示意图；

图4是本发明实施例的电子设备的硬件结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

同时，应当理解，在以下的描述中，“电路”是指由至少一个元件或子电路通过电气连接或电磁连接构成的导电回路。当称元件或电路“连接到”另一元件或称元件/电路“连接在”两个节点之间时，它可以是直接耦接或连接到另一元件或者可以存在中间元件，元件之间的连接可以是物理上的、逻辑上的、或者其结合。相反，当称元件“直接耦接到”或“直接连接到”另一元件时，意味着两者不存在中间元件。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明采用端到端神经网络系统框架，所涉及到的语音合成模型，包括前端和后端两个模块，前端模块负责对文本数据进行分析，提取后端模块所需要的文本标签信息，后端模块包括声学模型和神经网络声码器，声学模型用于对输入的文本标签信息进行处理，以获得文本对应的声学特征，声学特征可以为梅尔频谱；神经网络声码器用于对输入的声学特征进行处理，以获得所述文本对应的音频。

本发明中所涉及到的训练阶段是使用训练数据对声学模型和神经网络声码器进行训练的过程，推理阶段是将目标文本依次经过前端模块、声学模型和神经网络声码器得到与目标文本对应的语音的过程。

本发明的技术方案通过基频控制向量，使用线性插值法实现调节每一个字语音或者段落语音的音调功能。语音的基频，也称音高或F0，在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。基频同时也是控制语音音调韵律的最重要的一部分，因此，控制语音的基频即可达到控制语音音调韵律的效果。

图1是本发明实施例的语音合成方法流程图，具体如图1所示，该语音合成方法包括以下步骤：

步骤S110：获取与目标文本对应的目标文本标签信息，将所述目标文本标签信息输入至预选的声学模型以获得第一状态声学特征向量。

可选地，在具体的应用场景中，本步骤中的“目标文本”可以是用户自行输入或在预存的文本中挑选的文本数据，还可以是语音合成系统根据默认设置、数据处理所得结果等所确定的内容。

本步骤中“获取与目标文本对应的目标文本标签信息”的具体实现可以将目标文本经由TTS前端来获取与目标文本对应的目标文本标签信息，其中，目标文本标签信息包含音素和停顿信息。

接下来，将该目标文本标签信息经过预选的声学模型，基于该声学模型内部的实现机制，推理出目标文本标签信息对应的声学特征向量，将其定义为第一状态声学特征向量。

其中，该声学模型包括但不限于：Tacotron2，FastSpeech，FastSpeech2，Tacotron2为Tacotron的改良版，Tacotron是端到端TTS深度神经网络模型；FastSpeech是基于自我注意机制卷积的端到端TTS深度学习模型，FastSpeech2是FastSpeech的改进版。在一具体示例中，该声学模型选用Tacotron2。

步骤S120：将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，以得到目标基频值；将所述第一状态声学特征向量中的基频值替换为所述目标基频值，以得到第二状态声学特征向量。

具体地，在将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，以得到目标基频值时，具体包括：

首先对第一状态声学特征向量中的基频值进行清浊音判断，然后根据判断结果决定对当前基频值是否进行相乘运算，具体地，当该第一状态声学特征向量中的基频值为浊音时，将预设的基频控制向量与该第一状态声学特征向量中的基频值进行相乘运算，当该第一状态声学特征向量中的基频值为清音时，则不进行相乘运算。

具体地，使用如下公式(1)对该第一状态声学特征向量中的基频值进行清浊音判断，如果C大于等于T判定为浊音，否则为清音。

C＝max(1，1.5g_p-0.5) (1)

其中，g_p为该第一状态声学特征向量中的基频互相关系数，C为公式计算结果，T为判定清浊音的预设阈值。在本发明中，根据项目需求和反复实验结果，将T设置为0.002。

本步骤中的“预设的基频控制向量”可以根据具体项目需求和条件进行设置。在确定基频控制点后，可以通过输入基频控制曲线，实现对基频的控制，也可以也采用输入固定点数方案，对固定的几个点进行线性插值，具体可通过如下几种输入方式进行：第一种是时间均匀插值，等比例进行线性插值，例如：该情况下基频控制向量可为：0.7-0.9-1.1-1.3-1.4；第二种是时间均匀插值，例如：该情况下基频控制向量可为：0.7-x-x-0.9-x-1.1-x-1.3-x-x-x-x-x-1.4，其中x为占位符；第三种是时间非均匀插值，按照相对时间百分比进行基频控制，例如：该情况下基频控制向量可为：1.4:0-1.3:0.1-1.1:0.3-0.9:0.4-0.8:0.5-0.7:1，其中，冒号前面的数值为基频控制值，冒号后面的为控制当前音频的相对位置；第四种是时间非均匀插值，按照绝对时间值，例如：该情况下基频控制向量可为：1.4:0-1.3:100-1.1:200-0.9:300-0.8:400-0.7:500，其中，冒号前的数值为基频控制值，冒号后面的数为绝对时间点(单位：毫秒)。

其中，前三种方式的应用场景是未知音频时长的时候，根据比例进行线性插值；第四种方式的应用场景是已知音频时长的时候。

在将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算进而得到目标基频值后，将该第一状态声学特征向量中的基频值替换为该目标基频值，从而得到第二状态声学特征向量，该第二状态声学特征向量中的基频值则为控制后的基频值。

步骤S130：将所述第二状态声学特征向量输入至预先根据基频可控训练方法得到的神经网络声码器，生成所述目标文本对应的语音。

本步骤将第二状态声学特征向量输入至预先根据基频可控训练方法得到的神经网络声码器，通过预先根据基频可控训练方法得到的神经网络声码器对其进行转换处理后，形成可以通过扬声器等音频输出设备进行输出播放的目标音频信息。

其中，该基频可控训练方法可通过如下步骤进行：

步骤S210：获取经预处理得到的训练音频数据。

本步骤所述的“已知音频”可以是10-20小时单一说话人的音频，为了提高训练音频数据的质量，可以通过脚本筛选或者人工通过听选择出语音音量一致性高、语音速率相对平稳的音频作为训练数据所用。

本步骤所述的“预处理”具体包括如下两方面的内容：

1、通过SoundTouch工具对参考音频或部分或全部所述已知音频进行频谱压缩或拉伸处理，将处理后的音频与所述已知音频进行混合得到混合音频数据。为了让模型学习到更加丰富的特征，见到更加丰富的基频变化，在训练阶段，可以混入一批具有更低和更高基频的音频，这批额外加入的音频可以是其他说话人的音频，也可以是与已知音频说话人相同说话人的部分句子，通过使用开源SoundTouch工具实现对频谱的拉伸或者压缩，其中，拉伸可以实现将基频变大，压缩可以将基频变小。

2、通过基频提取工具从所述混合音频数据中提取满足下列公式(2)中rate小于最大预设阈值的音频作为所述训练音频数据，

第二方面的处理是为了筛选出音调较为平稳的，单句中基频没有非常高的起伏的音频。上述公式(2)可以是对于每一句音频数据的判断，此时n则为该句音频数据的基频序列长度，如果该句音频数据不满足公式(2)中rate小于最大预设阈值的条件，则抛弃该句音频数据。其中，可以根据项目需求，将公式(2)中rate的最大预设阈值设置为0.01，T设置为0.2。

除了上述两方面的内容，本步骤所述的“预处理”还可以包括在已知音频或经过上述两方面的任一方面的处理后的音频数据的预设位置设置预定义的沉默时间，例如：将音频的第一段和最后一段沉默时间设置为100ms，句子之间的沉默时间设置为小于100ms。

另外，第二方面的处理中的基频提取工具可以为目前存在的可获取音频中基频特征的基频提取工具或者声码器，如：WORLD、REAPER、CREPE或STRAIGHT，也可以是随着技术发展而出现的其他基频提取工具。在一具体示例中，第二方面的处理中的基频提取工具选用REAPER，使用REAPER提取的基频与语调基本吻合，可以达到控制的效果，同时REAPER提取的基频更加稳定，能够有助于训练模型。

步骤S220：将所述训练音频数据输入至神经网络声码器以获得第三状态声学特征向量，其中，所述第三状态声学特征向量的基频值与音调不呈线性关系。

目前，声码器大致可以分为基于相位重构的声码器和基于神经网络的声码器。本步骤所述的“神经网络声码器”为基于神经网络的声码器，常用的神经网络声码器有WaveNet、Parallel WaveNet、WaveRNN、LPCNet、WaveGlow和Multiband WaveRNN等。

本发明中的第三状态声学特征向量为通过神经网络声码器从音频中提取的声学特征向量，包括基频特征。以LPCNet为例，在将训练音频数据输入至神经网络声码器后，所获得的“第三状态声学特征向量”为BFCC(Bark-Frequency Cepstral Coefficients)特征和基频特征，其中，基频特征是基于YIN方案提取的二维特征，其中一维为基频值pitch，另一维为基频互相关系数correlation，但是通过LPCNet中的YIN方案提取的基频值，一方面并不精确，另一方面该基频值与音调并不是线性关系，并且不同于常规的F0那样通过线性变化得到，因此，不适合在推理阶段通过线性曲线去控制，因此在如下步骤S230中，需要通过其他基频提取工具(需选用所提取的基频值与音调呈线性关系的基频提取工具)重新对于训练音频数据的基频进行提取后使用。

步骤S230：使用基频提取工具从所述训练音频数据中提取基频值，其中，所提取的基频值与音调呈线性关系。

本步骤所述的“基频提取工具”需选用所提取的基频值与音调呈线性关系的基频提取工具，例如：WORLD，REAPER、STRAIGHT以及CREPE。可以使用一个基频提取工具对训练音频数据进行基频提取，也可以选用多个基频提取工具对训练音频数据进行基频提取。在一具体示例中，基频提取工具选用WORLD、REAPER和CREPE三种，使用这三种提取出来的基频值与音调基本呈线性关系，可以达到进行线性控制的效果，同时，这三种基频提取工具提取的基频更加稳定，能够有助于训练模型。

步骤S240：对所述所提取的基频值进行处理以得到处理后的基频值，将所述第三状态声学特征向量中的基频值替换为处理后的基频值，以得到第四状态声学特征向量。

本步骤中的“对所述所提取的基频值进行处理以得到处理后的基频值”，具体包括如下两种情景：

第一种情景：当该基频值为通过一个基频提取工具提取的基频值时，通过极小化极大Minimax算法对该基频值进行处理以得到处理后的基频值。

第二种情景：当该基频值为分别通过多个基频提取工具提取的基频值时，根据预设的评选规则从多个基频提取工具提取的多个基频值中确定出最终的基频值，再通过极小化极大Minimax算法对最终的基频值进行处理以得到处理后的基频值。

举例来讲：假设第一种情景中所使用的基频提取工具为REAPER，以语音帧为单位对训练音频数据进行提取基频操作，假设一句训练音频有N个语音帧，则可以提取出N个基频值；假设第二种情景中所使用的多种基频提取工具分别为WORLD，REAPER和CREPE三种，以语音帧为单位对训练音频数据进行提取基频操作，如果一句训练音频有N个语音帧，那么每一种基频提取工具可以提取出N个基频值，则WORLD，REAPER和CREPE三种基频提取工具一共可以提取出3N个基频值。由于有些神经网络声码器(如：LPCNet)的F0值范围在0-255之间，而所提取出的基频值可能不在这个范围内，所以需要通过极小化极大Minimax算法对所提取的基频值进行处理，使其规范在这个区间内。

针对第一种情景，由于基频值是由一种基频提取工具提取的，所以只需要对所提取的基频值直接进行极小化极大Minimax算法即可，具体可以通过如下公式(3)进行：

其中，F0_x为基频提取工具提取的基频值，F0xmin代表预设的基频下限值，F0xmax代表预设的基频上限值，F0min代表预设的处理后的基频下限值，F0max代表预设的处理后的基频上限值，F0为处理后的基频值。

针对第二种情景，由于基频值是由多种基频提取工具提取的，那么对于同一语音帧，一共提取出多种基频值，那么首先需要通过预设的评选规则从多个基频值中确定出最终的基频值，然后再通过极小化极大Minimax算法对最终的基频值进行处理。

在确定最终的基频值时，本发明中采用投票评选方案，具体如下：

基于如上假设，对于N个语音帧，WORLD，REAPER和CREPE三种基频提取工具一共提取出3N个基频值，那么对于每个语音帧，有3个基频值，首先对提取的这3个基频值进行清浊音打分，如果有2个浊音1个清音，则最终的基频值为2个浊音的均值；如果有3个浊音，则最终的基频值为3个浊音的均值；如果有2或3个清音，则最终的基频值为0。这样，每个语音帧的基频值均通过该方法进行评选，最终会投票评选出N个最终的基频值。

接下来，通过如下公式(4)对于投票评选出来的最终基频值进行极小化极大Minimax算法处理：

其中，F0_cout为经投票评选出来的最终的基频值，F0xmin代表预设的基频下限值，F0xmax代表预设的基频上限值，F0min代表预设的处理后的基频下限值，F0max代表预设的处理后的基频上限值，F0为处理后的基频值。

在本发明中，根据项目需要和反复实验，分别将F0xmin设置为63，将F0xmax设置为468，将F0min设置为0，将F0max设置为256。

在确定出处理后的基频值后，将经神经网络声码器获得的第三状态声学特征向量中的基频值替换为处理后的基频值，从而得到第四状态声学特征向量，第四状态声学特征向量与第三状态声学特征向量的区别仅在于基频值的不同。

步骤S250：基于所述第四状态声学特征向量对所述神经网络声码器进行训练。

本步骤中的神经网络声码器会学习语音波形点与第四状态声学特征向量之间的关系，从而达到训练的目的。

除了对于神经网络声码器进行训练，也可对本发明所涉及的“声学模型”进行训练，即：本发明所涉及的“声学模型”可以是经现有方法训练过的，也可以是经过本发明实施例的训练方法训练得到的声学模型，当为后者时，相比经现有方法训练过的声学模型，所推理出的声学特征更接近于真实音频的声学特征。

具体地，对于本发明所涉及的“声学模型”进行训练时可通过如下方式：

首先获取上述训练音频数据对应的文本数据的文本标签信息，然后通过声学模型获取该文本标签信息的预测到的声学特征向量，将该预测到的声学特征向量定义为第五状态声学特征向量，然后再计算第四状态声学特征向量与第五状态声学特征向量之间的结构相似性指数SSIM loss，即：计算第四状态声学特征向量与第五状态声学特征向量之间的距离值；然后再使用该距离值(即：结构相似性指数SSIM loss)训练声学模型，即：在声学模型原有的loss(即：损失值)基础上增加了一个SSIM loss，并在具体应用中使用该值进行校正，用于获取更好的文本-声学特征之间的映射关系，并辅助声学模型更好地收敛。

由上述步骤可知，本发明实施例在训练阶段，通过优化训练阶段的训练特征，具体用与音调呈线性关系的基频替代通过神经网络声码器获取到的声学特征中与音调不呈线性关系的基频，并使用替代后的声学特征对神经网络声码器进行训练，从而使训练后的神经网络声码器可以在推理阶段基于控制后的基频合成新的音频，进而达到对语音的音调进行显式控制的目的。另外，通过使用多个基频提取工具提取基频并对所提取的基频进行投票评选的方式确定最终基频，可以使调整后的最终基频对于浊音部分的表现更加准确，从而可以合成更自然、更健壮的声音；在推理阶段，不需要参考额外音频的节奏特征，也不需要训练复杂的模型即可简单方便地实现了显式控制语音合成时音调的改变，降低了实现时的复杂性，并且在推理阶段支持全局或细粒度的音调控制，这也使得音调控制与模型训练脱钩，进而提高了音调控制的精确性，有效解决了传统语音合成中音调无法灵活精确地进行显式控制的问题，并且在音调可控的基础上，音质没有下降，依旧逼近真人。

图3是本发明实施例的语音合成装置结构示意图，该语音合成装置包括：第四状态声学特征向量获取模块310，设置为获取与目标文本对应的目标文本标签信息，将所述目标文本标签信息输入至预选的声学模型以获得第四状态声学特征向量；第五状态声学特征向量获取模块320，设置为将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，以得到目标基频值；将所述第四状态声学特征向量中的基频值替换为所述目标基频值，以得到第五状态声学特征向量；目标语音合成模块330，设置为将所述第五状态声学特征向量输入至预先根据本发明实施例所述的训练方法训练得到的神经网络声码器，生成所述目标文本数据对应的语音。

图4为本发明实施例的电子设备的硬件结构示意图。如图4所示，该电子设备包括：存储器410和处理器420，其中，存储器410和处理器420通信；示例性的，存储器410和处理器420通过通信总线430通信，所述存储器410用于存储计算机程序，所述处理器420执行所述计算机程序实现上述实施例所示的语音合成方法。

可选地，电子设备还可以包括发送器和/或接收器。

可选地，上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、PLC(Programmable Logic Controller，可编程逻辑控制器)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、DSP(Digital SignalProcessor，数字信号处理器)或ASIC(Application Specific Integrated Circuit，专用集成电路)来实现。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本发明实施例提供一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于实现上述实施例所述的语音合成方法。

本发明实施例提供一种芯片，该芯片用于支持接收设备(例如终端设备、网络设备等)实现本发明实施例所示的功能，该芯片具体用于芯片系统，该芯片系统可以由芯片构成，也可以包括芯片和其他分立器件。当实现上述方法的为接收设备内的芯片时，芯片包括处理单元，进一步的，芯片还可以包括通信单元，所述处理单元例如可以是处理器，当芯片包括通信单元时，所述通信单元例如可以是输入/输出接口、管脚或电路等。处理单元执行本发明实施例中各个处理模块所执行的全部或部分动作，通信单元可执行相应的接收或发送动作。在另一个具体的实施例中，本发明实施例中的接收设备的处理模块可以是芯片的处理单元，控制设备的接收模块或发送模块是芯片的通信单元。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

其中，所述基频可控训练方法为：

获取经预处理得到的训练音频数据；

2.根据权利要求1所述的方法，其特征在于，对所述训练音频数据的预处理，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述所提取的基频值进行处理以得到处理后的基频值，具体包括：

4.根据权利要求1所述的方法，其特征在于，其中，所述声学模型为预先根据如下方式训练得到的声学模型：

获取所述训练音频数据对应的文本数据的文本标签信息，将所述文本标签信息输入至声学模型以获得第五状态声学特征向量；根据所述第四状态声学特征向量和所述第五状态声学特征向量确定两者之间的结构相似性指数SSIMloss；使用所述结构相似性指数SSIMloss训练所述声学模型。

5.根据权利要求1所述的方法，其特征在于，所述将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，具体包括：

对所述第一状态声学特征向量中的基频值进行清浊音判断，当所述第一状态声学特征向量中的基频值为浊音时，将预设的基频控制向量与所述第一状态声学特征向量中的基频值进行相乘运算，当所述第一状态声学特征向量中的基频值为清音时，不进行相乘运算。

6.根据权利要求5所述的方法，其特征在于，其中，使用如下公式对所述第一状态声学特征向量中的基频值进行清浊音判断，如果C大于等于T判定为浊音，否则为清音，

C＝max(1，1.5g_p-0.5)

7.根据权利要求1所述的方法，其特征在于，其中，

8.一种语音合成装置，其特征在于，包括：

其中，所述基频可控训练方法为：

获取经预处理得到的训练音频数据；

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器执行所述存储器中的程序指令，用于实现权利要求1～7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序用于实现权利要求1～7中任一项所述的方法。