CN116884385A

CN116884385A - 语音合成方法、装置及计算机可读存储介质

Info

Publication number: CN116884385A
Application number: CN202310998035.8A
Authority: CN
Inventors: 王金超
Original assignee: Wuhu Yuncong Technology Co ltd
Current assignee: Wuhu Yuncong Technology Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-10-13

Abstract

本发明涉及语音识别技术领域，具体提供一种语音合成方法、装置及计算机可读存储介质，旨在解决现有的语音合成模型在生成语音识别特征时无法并行运算，合成速度较慢，以及无法控制改变生成音频的倍速和音调高低等问题。为此目的，本发明的语音合成方法包括：将获取的待合成文本作为输入，经过预设声学模型得到语音识别特征；所述预设声学模型采用基于生成对抗网络的第一鉴别器训练得到；将所述语音识别特征作为输入，经过预设声码器模型得到所述待合成文本对应的音频；所述预设声码器模型采用基于生成对抗网络的第二鉴别器训练得到。本发明通过设置第一鉴别器使用对抗训练生成语音识别特征，可以有效提升模型的合成效率。

Description

语音合成方法、装置及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音合成方法、装置及计算机可读存储介质。

背景技术

目前主流的语音合成模型(TTS)大多是基于声学模型和声码器两个阶段，在第一阶段中声学模型负责将输入文本转为常用的MFCC语音特征，在第二阶段中则由声码器将语音特征转为用户可听的音频。输入文本通常是拼音的形式，3秒输出音频大约只对应10个拼音符号，而3秒音频对应的音频特征是每一帧80维、共计大约250帧的MFCC特征。要从10个输入符号特征准确预测80×250维的高维音频特征是一个非常困难的技术问题。而声码器的合成结果高度依赖于声学模型的预测特征，声学模型作为整个TTS链路的第一环，极大程度上决定了声码器的合成效果上限，如果声学模型可以完美预测出MFCC特征，那么声码器就可以达到它效果的上限，TTS模型的总体效果也可以得到保障。

目前常用的声学模型部分采用以Tacotron2为代表的自回归模型，这类自回归模型需要利用上一帧模型输出来生成当前MFCC帧，无法并行运算，因此存在合成速度较慢的问题；另外一般业内模型的声学模型只采用绝对值损失来拟合MFCC特征，不会采用鉴别器，其次自回归模型在生成音频时无法控制改变生成音频的倍速和音调高低，只能通过后期信号处理的方法进行修正，相比直接通过TTS得到的音频，后期信号处理方法得到的音频会存在发音不自然和失真等问题。

因此，本领域需要提出一种新的不仅可以保证模型语音合成速度，而且可以实现对模型输出的合成音频的倍速、音调进行可调节的语音合成模型，以此来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决语音合成速度的技术问题的语音合成方法。

在第一方面，本发明提供一种语音合成方法，包括：

将获取的待合成文本作为输入，经过预设声学模型得到语音识别特征；所述预设声学模型采用基于生成对抗网络的第一鉴别器训练得到；

将所述语音识别特征作为输入，经过预设声码器模型得到所述待合成文本对应的音频；所述预设声码器模型采用基于生成对抗网络的第二鉴别器训练得到。

上述将获取的待合成文本作为输入，经过预设声学模型得到语音识别特征具体包括：

根据所述待合成文本获得音标序列和说话人表征特征；

基于所述音标序列和说话人表征特征提取音标浅层特征，以及基于所述音标浅层特征提取音标深层特征；

将所述音标深层特征作为预设声学模型输出的所述语音识别特征。

上述根据所述待合成文本获得音标序列和说话人表征特征具体包括：

对所述待合成文本进行规整处理，根据国际音标发音字典将规整处理后的待合成文本转换为对应的国际音标序列；

根据国际音标序列对应的音频提取声学特征、基频特征，基于通用的说话人识别模型提取说话人表征特征。

进一步地，所述方法还包括：使用通用的音素识别模型对提取的所述声学特征进行强制对齐；和/或对提取的所述说话人表征特征进行降维。

上述基于所述音标序列和说话人表征特征提取音标浅层特征，以及基于所述音标浅层特征提取音标深层特征具体为，根据输入的音标序列和说话人表征特征获得基频大小、音标浅层特征、音标持续时间，根据音标持续时间对音标浅层特征进行时域扩展；基于基频大小和扩展后的音标浅层特征获得音标深层特征。

上述方法还包括，通过修改所述音标持续时间调整合成的音频的倍速，和/或通过调整所述基频大小调整合成的音频的音调。

优选地，上述预设声学模型的训练过程包括：设置第一鉴别器，使其具有区分声学模型合成的语音识别特征与真实标签语音识别特征的能力，训练预设声学模型，使所述预设声学模型作为生成器和所述第一鉴别器构成生成对抗网络，通过对抗训练不断优化所述预设声学模型的参数，以完成所述预设声学模型的训练。

上述预设声码器模型的训练过程包括：设置第二鉴别器，使其具有区分声码器模型合成的时域音频与真实标签时域音频的能力，训练预设声码器模型，使所述预设声码器模型作为生成器和所述第二鉴别器构成生成对抗网络，通过对抗训练不断优化所述预设声码器模型的参数，以完成所述预设声码器模型的训练。

在第二方面，本发明提供一种语音合成装置，该装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述语音合成方法的技术方案中任一项技术方案所述的语音合成方法。

在第三方面，本发明提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述语音合成方法的技术方案中任一项技术方案所述的语音合成方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，对预设声学模型的训练，通过设置第一鉴别器使用对抗训练生成语音识别特征即本发明中所指的MFCC特征，可以达到进一步提升模型的MFCC特征的合成效果的目的；通过使用国际音标对待合成文本进行音标转换，可以更好的学习掌握音素发音之间的发音关系进而生成更精细的音频发音；在预设声学模型的处理中采用分阶段处理，先推测每个音标的音标浅层特征、音标持续时间和基频大小，通过时域拓展浅层特征，再通过浅层特征预测更高维的深层特征，利用这种循序渐进的合成方式，一方面可以避免特征之间维度差异过大导致学习能力下降，可以实现支持并行运算，另一方面还可以通过调整音标持续时间来实现输出音频的倍速调整，也可以通过调整基频大小实现输出音频的音调调整。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的语音合成方法的主要步骤流程示意图；

图2是根据本发明的又一个实施例的语音合成方法的主要步骤流程示意图；

图3是图2所示方法中一个步骤的具体细化的流程示意图；

图4是根据本发明的一个实施例的语音合成系统的主要结构框图示意图；

图5是根据本发明的又一个实施例的语音合成系统的主要结构框图示意图；

图6是图5所示系统中数据处理模块和声学模型浅层表征模块的具体实现流程示意图；

图7是图5所示系统的工作方法流程图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里先解释本发明涉及到的一些术语。

TTS：文本转语音(Text to Speech)，根据一段输入的文本生成其对应发音的音频；

MFCC特征：梅尔频率倒谱系数，是一种基于人耳对频率的听觉感知来进行建模的语音识别常用特征；

PCA：主成分分析法，用于将多指标转换到少指标的一种降维算法。

基频：说话人音频的最低震荡频率。

强制对齐：在已知音频帧序列和它对应的音素序列的情况下，可以通过音素识别模型和对齐的单调性来实现音频帧的标签对齐。

生成对抗网络(GAN)：GAN的全称是Generative Adversarial Networks，是一种深度学习中常用的生成模型，由一个鉴别器和一个生成器构成。鉴别器目的是区分模型生成结果和真实标签结果，生成器目的是生成可以混淆鉴别器的结果，两者相互对抗产生更好的生成内容；

声学模型：TTS第一阶段，主要目的是将低维的音标输入转为高维的MFCC特征；

声码器：TTS第二阶段，主要目的是将高维的MFCC特征还原到时域音频波形。

目前主流的TTS模型大多是基于声学模型和声码器两个阶段，在第一阶段中声学模型负责将输入文本转为常用的MFCC特征，在第二阶段中则由声码器将MFCC特征转为用户可听的音频。在声学模型部分常用的是以Tacotron2(Tacotron 2是一种自然语音合成模型，由Google Brain团队开发，它使用神经网络将文本转换为语音，Tacotron 2使用的是端到端的生成模型)为代表的自回归模型，这类自回归模型需要利用上一帧模型输出来生成当前MFCC帧，无法并行运算，因此合成速度较慢存在一定时延，无法应用于人机交互这种整体链路较长的任务中。一般业内声学模型只采用绝对值损失来拟合MFCC特征，不会采用鉴别器。其次自回归模型在生成音频时无法控制改变生成音频的倍速和音调高低，只能通过后期信号处理的方法进行修正，相比直接通过TTS得到的音频，后期信号处理方法得到的音频会存在发音不自然和失真等问题。

本发明实施例提出的一种语音合成模型，包括预设声学模型和预设声码器模型，且预设声学模型和预设声码器模型均通过基于生成对抗网络的鉴别器训练得到。本发明的语音合成模型将获取的待合成文本作为输入，经过预设声学模型得到语音识别特征；将所述语音识别特征作为输入，经过预设声码器模型得到所述待合成文本对应的音频；通过预设声学模型可以完美预测出MFCC特征，从而预设声码器模型达到它效果的上限，进而实现TTS模型的总体识别效果的提升。

参阅附图1，图1是根据本发明的一个实施例的语音合成方法的主要步骤流程示意图。

如图1所示，本发明实施例中的语音合成方法主要包括下列步骤S11-步骤S13。

步骤S11：基于待合成文本得到音标序列和说话人表征特征，基于生成对抗网络的第一鉴别器训练预设声学模型；

在本实施例中，所述待合成文本可以为一种语言的单词、短句、长句、文章等。基于待合成文本得到音标序列和说话人表征包括：首先对输入的待合成文本进行规整处理，例如符号清除、缩写转换、分词处理，根据国际音标发音字典将规整处理后的待合成文本转换为对应的国际音标序列；其次从国际音标序列对应的音频中提取声学特征、基频特征，以及基于通用的说话人识别模型提取说话人表征，例如可以是利用声纹识别模型提取说话人表征，声纹识别模型的数据是一段只包含一个说话人的音频，音频通常没有噪音且说话人声音清晰，模型的输出是一个512维说话人表征特征向量。可以通过计算两个特征向量之间的欧氏距离来判断这两段特征向量是否出自同一个说话人。如果出自同一个说话人，那么这两段特征的欧式距离通常及小，如果欧氏距离较大，那么说明两段音频来自不同说话人。

业内的TTS算法通常采用中文音标建模的方法，这种建模方式比较简单易用，但是无法捕捉中文复合韵母中的发音关联。在本实施例中，使用国际音标代替中文音标作为建模单位，国际音标可以将部分中文音标与英文音标对应统一，使模型具备中英文混合发音的能力。此外，中文音标对声母和韵母分别进行建模，例如汉字“光”的建模为声母“g”和韵母“uang1”。而韵母“uang1”实际上是由韵母“u”和韵母“ang1”组合而成，中文音标建模无法捕捉“uang1”、“u”、“ang1”之间的关联，简单将这三种韵母作为三种类别，而国际音标建模则以更细的音节为单位建模，可以更进一步捕捉音节之间的关联。使用国际音标这种更小的建模粒度代替一般的音标建模，可以更好的学习掌握音素发音之间的关联，还可以让模型具备中英文发音的能力。

在本实施例中，基于生成对抗网络的第一鉴别器训练预设声学模型具体包括：利用训练样本提取的MFCC特征预先训练和设置一定迭代次数的第一鉴别器，使其具有区分声学模型合成MFCC特征与真实标签MFCC特征的能力，再训练一定迭代次数的声学模型，使其在正确拟合MFCC特征的同时具有混淆鉴别器的能力。声学模型作为生成器与第一鉴别器构成生成对抗网络，基于生成对抗网络的架构思想，通过对抗训练不断优化声学模型参数，以完成所述预设声学模型的训练。例如，初始情况下，声学模型的生成器无法生成与真实标签MFCC特征接近的特征，鉴别器也不具备鉴别能力，因此在训练前期可以迭代较少次数，先训练迭代次数为2的鉴别器和迭代次数为5的生成器，在鉴别器计算的损失度不满足预设条件时，一直进行迭代训练不断优化参数，直至计算的损失度满足预设条件时停止迭代训练。比如每10次迭代交替训练，直至训练集损失函数不再下降，验证集损失函数开始上升时停止训练。

在具体实现中，在所述预设声学模型与第一鉴别器构成生成对抗网络的情况下，固定第一鉴别器的参数，第一鉴别器可以评估模型合成的声学特征以及目标声学特征之间的相似度，并基于相似度对预设声学模型中的模型参数进行梯度更新，提高声学模型生成语音识别特征的准确度。

步骤S12：将所述音标序列和所述说话人表征特征作为输入，经过预设声学模型得到语音识别特征，基于生成对抗网络的第二鉴别器训练预设声码器模型；

在本实施例中，所述说话人表征特征仅作为合成辅助项，维度过高会在一定程度上影响合成实时率，因此优选经过降维处理后的说话人表征特征，例如对使用声纹识别模型提取的说话人表征特征使用PCA进行降维。

本步骤中预设声学模型基于输入提取并输出语音识别特征包括经过第一卷积网络提取音频浅层特征和通过第二卷积网络提取音标深层特征两个阶段，通过分阶段处理将输入的音标序列和降维后的说话人表征首先转为音标浅层特征，再通过音标持续时间进行时域扩展，在特征学习中遵循循序渐进的过程，可以避免特征之间维度差异过大导致的学习能力下降。

在本实施例中，基于生成对抗网络的第二鉴别器训练预设声码器模型具体包括：基于声学模型的输出，将声学模型输出的特征转为时域音频，预先训练和设置一定迭代次数的第二鉴别器，使其具有区分声码器合成时域音频与真实标签时域音频的能力，再训练一定迭代次数的声码器模型，使其在正确拟合时域音频的同时具有混淆鉴别器的能力，声码器模型作为生成器与第二鉴别器构成生成对抗网络，基于生成对抗网络的架构通过对抗训练不断优化声码器模型参数，以完成所述预设声码器模型的训练。

声码器模型相比声学模型其训练过程较为简单，因为声学模型需要仅仅通过音素序列，例如从“n i3 h ao4”这4个音素序列生成几十帧甚至上百帧的MFCC特征，对模型的要求很高，而声码器是将接收的MFCC特征恢复到音频波形，其任务更简单，因此训练过程中初始情况下可以是一步训练得到生成器，再一步训练得到鉴别器即可，在鉴别器计算的损失度不满足预设条件时，一直进行迭代训练不断优化声码器参数，直至计算的损失度满足预设条件时停止迭代训练。

步骤S13：将所述语音识别特征作为输入，经过预设声码器模型得到所述待合成文本对应的音频。

在本实施例中，预设声码器模型采用反卷积网络层对语音识别特征(即MFCC特征)上采样到时域信号，为了捕捉更多MFCC特征在时间上的关联，将每一层反卷积网络的输出相加得到最终的输出。

参阅附图2，图2是根据本发明的一个实施例的语音合成方法的具体实现步骤流程示意图。如图2所示，本发明实施例中的语音合成方法的具体实现步骤如下：

步骤101：对待合成文本进行规整处理，根据国际音标发音字典将规整处理后的待合成文本转换为对应的国际音标序列；

步骤102：根据国际音标序列对应的音频提取声学特征、基频特征，基于通用的说话人识别模型提取说话人表征特征；

例如，提取声学特征可以采用MFCC(Mel Frequency Cepstrum Coefficient，梅尔导谱系数算法)、FBank(Filter Banks，滤波器组算法)、LogFBank(Log Filter Banks，对数滤波器组算法)等，本发明对此不做限制。本实施例中所提及的通用的说话人识别模型具体可以是现有技术中用于提取说话人表征特征的任一种模型，例如常用的声纹识别模型，在此不做具体限定。

步骤103：使用通用的音素识别模型对提取的所述声学特征进行强制对齐处理，以及对提取的所述说话人表征特征进行降维处理；

本实施例中所提及的通用的音素识别模型具体可以是现有技术中用于强制对齐处理的任一种音素识别模型，在此不做具体限定。

步骤104：将所述国际音标序列和所述降维后的说话人表征特征输入到预设声学模型，先提取音标浅层特征，再基于所述音标浅层特征提取深层特征，将提取的深层特征作为语音识别特征输出；

步骤105：将声学模型输出的语音识别特征作为输入，经过预设声码器模型，输出得到待合成文本对应的音频。

进一步地，上述步骤104的具体实现方式如图3所示，可以具体描述为如下步骤：

步骤104-1：根据国际音标序列和降维后的说话人表征特征获得基频大小、音标浅层特征、音标持续时间；

步骤104-2：根据音标持续时间对音标浅层特征进行时域扩展；

步骤104-3：基于基频大小和扩展后的音标浅层特征获得深层特征。

进一步，本发明还提供了一种语音合成系统。

参阅附图4，图4是根据本发明的一个实施例的语音合成系统的主要结构框图。如图4所示，本发明实施例中的语音合成系统200，用于将待合成文本100经处理转换为待合成文本对应的音频300，该系统主要包括文本处理模块201、特征提取模块202和音频合成模块203。在一些实施例中，文本处理模块201、特征提取模块202和音频合成模块203中的一个或多个可以合并在一起成为一个模块。

文本处理模块201，用于基于待合成文本得到音频序列和说话人表征特征；一个实施方式中，具体实现功能的描述可以参见步骤S11所述。

特征提取模块202，用于将所述文本处理模块201得到的音标序列和说话人表征特征作为输入，经预设声学模型输出得到语音识别特征；一个实施方式中，具体实现功能的描述可以参见步骤S12所述。

音频合成模块203，用于将所述特征提取模块202输出的所述语音识别特征作为输入，经预设声码器模型输出得到所述待合成文本对应的音频。一个实施方式中，具体实现功能的描述可以参见步骤S13所述。

上述语音合成系统以用于执行图1或图2所示的语音合成方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，语音合成系统的具体工作过程及有关说明，可以参考语音合成方法的实施例所描述的内容，此处不再赘述。

参阅附图5，图5是根据本发明的一个实施例的语音合成系统的结构框图示意图，如图所示该系统主要包括数据处理模块、声学模型浅层表征模块、声学模型深层表征模块、声学模型鉴别器模块、声码器模块、声码器鉴别器模块，针对输入文本，首先经由数据处理模块，再依次经由声学模型浅层表征模块和声学模型深层表征模块进行特征提取，基于声学模型深层表征模块提取的特征和声学模型鉴别器模块进行声学模型对抗训练，基于声学模型的输出结果经由声码器模块和声码器鉴别器模块进行声码器对抗训练并输出音频。

一个实施方式中，上述数据处理模块和声学模型浅层表征模块的具体实现如图6所示；

其中数据处理模块的工作流程包括：将输入文本经文本规整和国际音标转换可以换得到国际音标序列；根据国际音标序列可以得到对应的音频标签；进一步地，将输入音频标签经基频特征和MFCC特征提取、说话人表征特征提取和强制对齐、说话人表征特征进行PCA降维得到降维后的说话人表征特征。

其中声学模型浅层表征模块的工作流程包括：根据输入音标序列和说话人表征特征预测基频大小、音标持续时间、音标浅层特征，根据基频大小进行音调高低调整；根据音标持续时间和音标浅层特征表征进行音标特征时域扩展。

参阅附图7，图7是根据本发明的一个实施例的语音合成方法的具体流程示意图，如图所示，该方法的实现包括以下步骤：

步骤S101：数据处理、提取和关键信息准备；

具体地，首先对输入文本进行正则与规整得到音标序列，其次对音标序列对应的音频提取MFCC特征、基频特征，并通过说话人识别模型提取说话人特征表征再对其使用PCA进行降维，通过音素识别模型提取强制对齐信息。

步骤S102：声学模型浅层表征模块处理；

根据输入的音标序列和降维后的说话人特征表征，推测音频的基频大小、各个音标的浅层特征和各个音标的持续时间。根据合成需求对基频大小进行调整，从而实现系统对合成音频音调高低的控制。根据音标持续时间对音标浅层特征表征进行时域扩展，在扩展时可以通过控制扩展大小实现系统对音频倍速的控制，并将扩展后的特征作为模块的最终输出。

步骤S103：声学模型深层表征模块处理；

根据调整后的基频和扩展后的音标特征，基于声学模型的深度神经网络的拟合逼近得到MFCC特征。

步骤S104：声学模型鉴别器模块与声学模型对抗训练；

预先训练一定迭代次数的声学模型鉴别器，使其具有区分声学模型合成MFCC特征与真实标签MFCC特征的能力，再训练一定迭代次数的声学模型参数，使其在正确拟合MFCC特征的同时具有混淆鉴别器的能力。在训练过程中如此重复交替以上步骤，需要注意的是交替训练过程中迭代次数过小会导致模型无法收敛。

步骤S105：声码器模块处理；

声码器采用反卷积网络层对MFCC特征上采样到时域信号，将每一层反卷积网络的输出相加得到最终的输出。

步骤S106：声码器鉴别器模块与声码器对抗训练；

预先训练一定迭代次数的声码器鉴别器，使其具有区分声码器合成时域音频与真实标签时域音频的能力，再训练一定迭代次数的声码器参数，使其在正确拟合时域音频的同时具有混淆鉴别器的能力。在训练过程中如此重复交替以上步骤。

步骤S107：得到最终时域音频。

系统经过对抗训练以后，声学模型和声码器都已经具备了生成可以混淆鉴别器的MFCC特征和时域音频特征的能力，因此在推理过程中，系统不再需要鉴别器，而是只使用声学模型和声码器就可以将输入的音标序列转换为最终的时域音频。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种语音合成装置。在根据本发明的一个装置实施例中，该装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的语音合成方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的语音合成方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该语音合成装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的语音合成方法的程序，该程序可以由处理器加载并运行以实现上述语音合成方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述将获取的待合成文本作为输入，经过预设声学模型得到语音识别特征具体包括：

根据所述待合成文本获得音标序列和说话人表征特征；

3.根据权利要求2所述的语音合成方法，其特征在于，所述根据所述待合成文本获得音标序列和说话人表征特征具体包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：使用通用的音素识别模型对提取的所述声学特征进行强制对齐；和/或对提取的所述说话人表征特征进行降维。

5.根据权利要求2所述的方法，其特征在于，所述基于所述音标序列和说话人表征特征提取音标浅层特征，以及基于所述音标浅层特征提取音标深层特征具体为，根据输入的音标序列和说话人表征特征获得基频大小、音标浅层特征、音标持续时间，根据音标持续时间对音标浅层特征进行时域扩展；基于基频大小和扩展后的音标浅层特征获得音标深层特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括，通过修改所述音标持续时间调整合成的音频的倍速，和/或通过调整所述基频大小调整合成的音频的音调。

7.根据权利要求1所述的方法，其特征在于，所述预设声学模型的训练过程包括：设置第一鉴别器，使其具有区分声学模型合成的语音识别特征与真实标签语音识别特征的能力，训练预设声学模型，使所述预设声学模型作为生成器和所述第一鉴别器构成生成对抗网络，通过对抗训练不断优化所述预设声学模型的参数，以完成所述预设声学模型的训练。

8.根据权利要求1所述的方法，其特征在于，所述预设声码器模型的训练过程包括：设置第二鉴别器，使其具有区分声码器模型合成的时域音频与真实标签时域音频的能力，训练预设声码器模型，使所述预设声码器模型作为生成器和所述第二鉴别器构成生成对抗网络，通过对抗训练不断优化所述预设声码器模型的参数，以完成所述预设声码器模型的训练。

9.一种语音合成装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的语音合成方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的语音合成方法。