CN114842826A

CN114842826A - 语音合成模型的训练方法、语音合成方法及相关设备

Info

Publication number: CN114842826A
Application number: CN202210438654.7A
Authority: CN
Inventors: 刘鹏飞; 王洪斌; 刘敏
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-02

Abstract

本申请实施例公开了一种语音合成模型的训练及其语音合成方法、装置及电子设备，该方法包括：获取训练样本数据对以及语音合成模型，所述语音合成模型包括音素处理模块和文本处理模块；通过所述音素处理模块中的音素特征提取模块对所述音素数据进行特征提取得到音素特征，以及通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征；通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述语音合成模块基于融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音；基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练。

Description

语音合成模型的训练方法、语音合成方法及相关设备

技术领域

本申请涉及深度学习技术领域，尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

背景技术

随着人工智能技术的快速发展，端到端从文本到语音(Text To Speech，TTS)的技术也越来越流行。目前TTS模型通常是提取音素数据中的音素特征，再基于该音素特征来进行语音合成，而且训练TTS模型通常需要大量的标注数据，以达到合成语音流畅、清晰的效果。由于音素特征有限，容易导致基于音素特征得到的合成语音准确性较低。因此，如何得到高准确率的语音合成模型以提高语音合成的质量，仍然需要提供进一步的解决方案。

发明内容

本申请实施例的目的是提供一种语音合成模型的训练方法、语音合成方法、及相关设备，以提高语音合成模型的准确率。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种语音合成模型的训练方法，包括：

获取训练样本数据对以及语音合成模型，所述语音合成模型包括音素处理模块和文本处理模块，所述音素处理模块包括音素特征提取模块和语音合成模块，所述训练样本数据对包括训练文本、所述训练文本对应的音素数据，以及所述训练文本对应的合成语音标签；

通过所述音素处理模块中的音素特征提取模块对所述音素数据进行特征提取得到音素特征，以及通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征；

通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述语音合成模块基于融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音；

基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练。

第二方面，提出了一种语音合成方法，包括：

获取待合成文本以及所述待合成文本对应的音素数据；

将所述音素数据输入至语音合成模型中的素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述待合成文本输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于第一方面所述的语音合成模型的训练方法训练得到的；

通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述音素处理模块包括的语音合成模块基于融合得到的特征进行语音合成处理，得到所述待合成文本对应的合成语音。

第三方面，提出了一种语音合成模型的训练装置，包括：

获取单元，用于获取训练样本数据对以及语音合成模型，所述语音合成模型包括音素处理模块和文本处理模块，所述音素处理模块包括音素特征提取模块和语音合成模块，所述训练样本数据对包括训练文本、所述训练文本对应的音素数据，以及所述训练文本对应的合成语音标签；

第一提取单元，用于通过所述音素处理模块中的音素特征提取模块对所述音素数据进行特征提取得到音素特征，以及通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征；

第二提取单元，用于通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述语音合成模块基于所述融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音；

模型训练单元，用于训练基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练。

第四方面，提出了一种语音合成装置，包括：

获取单元，用于获取待合成文本以及所述待合成文本对应的音素数据；

提取单元，用于将所述音素数据输入至语音合成模型中音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述待合成文本输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于第一方面所述的语音合成模型的训练方法训练得到的；

合成单元，通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述音素处理模块包括的语音合成模块基于融合得到的特征进行语音合成处理，得到所述待合成文本对应的合成语音。

第五方面，提出了一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤；或者所述计算机程序被所述处理器执行时实现如第二方面所述的方法的步骤。

第六方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤；或者，所述计算机程序被处理器执行时实现如第二方面所述的方法的步骤。

由以上本申请实施例提供的技术方案可见，本申请实施例方案至少具备如下一种技术效果：

本申请提供的一种或多个实施例，语音合成模型包括音素处理模块和文本处理模块，不仅可以利用语音合成模型中的音素处理模块对训练文本对应的音素数据进行处理得到音素特征，还能利用语音合成模型中文本处理模块对训练文本进行处理得到文本特征，由于文本特征里也包含了韵律特征，再通过文本处理模块对音素特征和文本特征进行融合，便可得到更丰富的韵律特征，最后通过语音合成模块基于融合得到的更丰富的特征进行语音合成处理。由于训练的语音合成模型不仅仅基于音素特征，还能够基于文本数据中的韵律特征进行语音合成，因此，采用该语音合成模型训练方法训练得到的语音合成模型的语音合成准确率更高，而且能够合成音质更好的语音。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例提供的一种语音合成模型的训练方法的实施流程示意图。

图2是根据本申请的一个实施例提供的语音合成模型的训练方法的训练样本对中的合成语音标签的示意图。

图3是根据本申请的一个实施例提供的语音合成模型的网络架构示意图。

图4是根据本申请的一个实施例提供的FastSpeech2模型中的编码器Encoder的网络架构示意图。

图5是根据本申请的一个实施例提供的多头注意力机制Multi-headattention注意力机制的网络结构示意图。

图6是根据本申请的一个实施例提供的一种语音合成方法的实施流程示意图。

图7是根据本申请的一个实施例提供的语音合成方法应用于一种实际场景中的示意图。

图8是根据本申请的一个实施例提供的一种语音合成模型的训练装置的结构示意图。

图9是根据本申请的一个实施例提供的一种语音合成装置的结构示意图。

图10是根据本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本申请使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本申请在对语音合成技术进行研究时发现，语音合成技术包括自回归模型和非自回归模型，自回归模型一般使用attention技术来学习音素与语音帧之间的对齐，比如tacotron2。而非回归模型常用的包括基于教师学生Teacher-Student知识蒸馏技术构造的FastSpeech1，以及FastSpeech2模型。其中，FastSpeech2模型是微软亚洲研究院、浙江大学联合提出的TTS模型。在FastSpeech1基础上，抛弃了Teacher-Student知识蒸馏框架降低训练复杂度，直接用真实的语音数据作为训练目标避免信息损失，同时引入了更精确的时长信息和语音中其他可变信息，比如音高pitch、音量energy等来提高合成的语音质量。

FastSpeech2模型中编码网络Encoder和解码网络Decoder结构中均包含了多头multi-head注意力机制。虽然FastSpeech2模型在语音合成方面有较好的表现，但是训练FastSpeech2模型通常基于训练文本对应的音素特征进行训练的，这样的训练方法可能需要更多标注的数据才能讲模型训练收敛，并且由于训练时使用的特征比较单一，可能导致收敛后的模型在语音合成效果上可能会存在准确度不高的缺点。

在此基础上，本申请提出了一种改进的语音合成模型以及语音合成模型的训练方案，概括来讲，改进的语音合成模型包括了音素处理模块和文本处理模块。在对语音合成模型进行训练时，首先获取训练样本数据对，训练样本数据对中包括训练文本、训练文本对应的音素数据以及训练文本对应的合成语音标签；进一步的，通过语音合成模型中音素处理模块对音素数据进行特征提取处理得到音素特征，以及通过语音合成模型中的文本处理模块对训练文本进行特征提取，得到文本特征；最后将音素特征和文本特征融合后输入到文本合成模块进行语音合成处理，基于语音合成处理得到的训练语音和训练文本对应的合成语音标签对语音合成模型进行训练。

训练完成后的语音合成模型可以适用于任何将文本合成语音的应用场景中，比如智能语音导航应用场景可基于导航文本和指定人物的音素数据合成导航语音、智能视频解说应用场景可基于视频的字幕内容或者视频内容的简介以及指定人物的音素数据合成视频内容解说、智能文字阅读助手应用场景可基于书籍文本内容或者聊天文本内容和指定人物的音素数据合成语音，其中，指定人物可以是机器人，也可以是知名公众人物，还可以是聊天列表中的指定好友。

应理解，本申请实施例提供的语音合成模型的训练方案可由电子设备执行，具体可由电子设备的处理器执行。电子设备可以是终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等；或者，电子设备还可以是服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

基于上述的语音合成模型的训练方案，本申请实施例提供了一种语音合成模型的训练方法。参见图1，是本申请的一个实施例提供的一种语音合成模型的训练方法的流程示意图。图1所述的训练方法可包括如下步骤：

S110，获取训练样本数据对以及语音合成模型，语音合成模型包括音素处理模块和文本处理模块，音素处理模块包括音素特征提取模块和语音合成模块，训练样本数据对包括训练文本、训练文本对应的音素数据，以及训练文本对应的合成语音标签。

应理解，每个训练样本数据对中的训练文本对应的合成语音标签应与训练文本、及训练文本对应的音素数据相对应，即该合成语音标签对应的文本应与训练文本一致，该合成语音标签对应的音素应与训练文本对应的音素数据一致。训练文本对应的音素数据包括拼音、音调和韵律(也即停顿时间)，其中音调包括一声、二声、三声和四声，一声可以表示为1，二声可以表示为2，三声可以表示为3，四声可以表示为4，轻音5，变音6，韵律可以用7、8、9来表示，7表示停顿时间较短，9表示停顿时间较长，8表示停顿时间居中。

可选地，训练样本数据对中相互对应的合成语音标签和训练文本可以是通过如下方式中任意一种确定的：给定一段训练文本，通过人工将该训练文本转换为语音，转换得到的语音即为该训练文本对应的合成语音标签；给定一段语音，通过人工或者人工智能技术将语音转换为文字，转换得到的文本就是训练文本，给定的语音就是训练文本对应的合成语音标签。需要说明的，本申请实施例只是列举了确定相互对应的训练文本和合成语音标签的两种可行方式，在实际应用中，可以根据实际情况获取相互对应的训练文本和语音合成标签。比如通常已经训练完成的语音合成模型对一段训练文本进行语音合成，得到该训练文本对应的合成语音标签；或者，从一段配有音频和字幕的视频中，剪辑相互对应的字幕和音频作为相互对应的训练文本和合成语音标签。

作为一种示例，一个训练样本数据对可表示为<phonemes,text，auido>，其中phonemes为训练文本对应的音素数据、text为训练文本、auido为训练文本text对应的合成语音标签。比如，一个训练样本数据对中训练文本可以表示为：“韩国最大的岛屿济州岛”，训练文本对应的音素数据phonemes表示为：“han2 guo2 7zui4 da4 de5 7dao6 yu6 7ji3zhou1 dao3”，其中，han2中2表示音调为二声，guo2 7中2表示guo这个拼音的音调为二声，7表示guo这个拼音后有一个较短的停顿时间。该训练样本对中的合成语音标签可以表示为图2所示，图2示出的是一段语音，该语音的播放结果是：韩国最大的岛屿济州岛。

在一个实施例中，语音合成模型是用于进行语音合成的，参见图3，为本申请实施例提供的一种语音合成模型的结构示意图。图3所示的语音合成模型中301表示音素处理模块，302表示文本处理模块。顾名思义，音素处理模块301主要用于对音素数据进行处理，文本处理模块302主要用于对文本进行处理。音素处理模块301可以是FastSpeech2模型，音素处理模块301还可以包括音素特征提取模块3011和语音合成模块3012，其中，音素特征提取模块可以是指FastSpeech2模型中的音素向量化层Phoneme Embedding如图3中的30111所示和编码层Encoder如图3中30112所示，语音合成模块3012可以包括FastSpeech2模型中的可变信息适配器如图中30121、梅尔频谱解码器模块如图3中30122和声码器如图3中30123。文本处理模块302可以是Bert模型，文本处理模块302还可以包括文本向量提取模块3021和特征融合模块3022。其中，文本向量提取模块3021可以是Bert模型中的文本向量化层LMEmbeddings层，特征融合模块3022可以是Bert模型中的自注意力机制网络SelfAttention。

其中，Bert的全称是Bidirectional Encoder Representation fromTransformers，即双向Transformer的解码器Encoder，因为解码器Encoder是不能获要预测的信息的。Bert模型的主要创新点都在pre-train方法上，即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的描述representation。其中的Transformer是一种基于自注意力机制的时序模型，在编码器部分可以有效对时序信息进行编码，对时序信息的处理能力通常远远好于LSTM，且速度快。Transformer广泛应用于自然语言处理，计算机视觉，机器翻译，语音识别等领域中。

S120，通过音素处理模块中的音素特征提取模块对音素数据进行特征提取得到音素特征，以及通过文本处理模块对训练文本进行特征提取，得到文本特征。

具体地，通过音素处理模块中的音素特征提取模块对音素数据进行特征提取得到音素特征，可通过图3所示的FastSpeech2模型中的音素特征提取模块3011，即音素向量化层Phoneme Embedding如图3中的30111所示和编码层Encoder如图3中30112所示对音素数据进行特征提取，以得到音素特征。

图4为FastSpeech2模型中的编码器Encoder的网络架构示意图，也即图3所示的Encoder 30112的网络架构示意图。其中，FastSpeech2模型的网络结构中的Encoder使用了transformer网络结构，transformer的核心是多头(Multi-head)注意力机制。在图4中，音素数据作为输入数据(input)输入至输入向量化层input Embedding，再经过位置编码Positional Encoding输入至多头注意力机制网络Multi-head Attention中，以及通过向量加&层标准化Add&Norm层对多头注意力机制网络Multi-head Attention的各层网络的输入结果和输出结果相加并进行层归一化处理，最后通过前向传播Feed Forward和向量加&层标准化Add&Norm层处理得到Encoder的输出结果。

图5为多头注意力机制Multi-headattention注意力机制的网络结构示意图，其中，左图为右图缩放点积注意力机制Scaled Dot-Product Attention的网络结构示意图。具体地，多头注意力机制网络Multi-head Attention的输入为Q、K和V，Q和K可通过矩阵相乘得到一个attention矩阵，即依次经过图5左图中向量机MatMul、缩放Scale、掩码Mask、激活函数SoftMax，便可得到一个attention矩阵，而attention矩阵再通过向量机MatMul与V再进行矩阵相乘便可得到一个加了attention信息的特征。该特征再通过图5右图中的拼接融合Concat层进行拼接融合、以及线性映射。

本申请实施例可在保留原有的FastSpeech2模型的网络结构不变的情况下，在FastSpeech2模型的网络结构的基础上融合Bert模型的文本向量提取模块(LMEmbeddings)和特征融合模块即Bert模型中的Self Attention。利用Bert模型是由大量的文本数据参与训练得到的，使得在较少标注的样本数据的情况下，仍然可以学习到训练文本中丰富的韵律学特征，从而提高原生FastSpeech2模型合成的语音的质量。

以训练文本“韩国最大的岛屿济州岛”为例，训练文本中的韵律比如“韩国”是一个词组，“最大的”为另外一个词组，那么在阅读时，“韩国”与“最大的”之间通常会有停顿，为了提高合成语音的音质，使得合成的语音能够更接近真实的人发出的语音，本申请实施例在基于音素特征的基础上，还考虑训练文本对应的文本特征，该文本特征也包含有韵律特征。

可选地，为了实现各训练样本数据对中的音素特征和文本特征的深度融合，本申请实施例可利用Bert模型的自注意力机制网络将各训练样本数据对的第一文本特征K和第二文本特征V以及其音素特征进行融合，其中K＝V，基于此，可先通过文本向量提取模块对训练文本进行特征提取。具体地，所述文本处理模块包括文本向量提取模块和特征融合模块，通过文本处理模块对训练文本进行特征提取，得到文本特征，包括：

通过文本处理模块中的文本向量提取模块对训练文本进行特征提取，得到第一文本特征；

基于第一文本特征确定第二文本特征。

其中，第一文本特征和第二文本特征相同。

其中，通过文本处理模块中的文本向量提取模块对训练文本进行特征提取，具体可由Bert模型中的文本向量提取模块(LM Embeddings)来提取各训练样本数据对中的训练文本的第一文本特征，再基于第一文本特征确定第二文本特征。其中，第一文本特征和第二文本特征可为LM Embedding向量。

作为一种示例，通过文本处理模块中的文本向量提取模块对训练文本“今天天气不错”进行特征提取，可得到特定维度的句子向量，即第一文本向量和第二文本向量，如下：

[[1.21984698e-01 7.84057677e-02-1.06496774e-01-3.25891018e-014.94978607e-01-4.69692767e-01 2.54333645e-01-8.82656407e-03...]]

由于语音合成模型中的文本处理模块中的文本向量提取模块，采用了Bert模型中的文本向量提取模块(LM Embeddings)使用了Transformer模型中的Encoder，该Encoder中含有自注意力机制，因此本申请实施例采用的文本向量提取模块能够学习到训练文本中特定词前后的韵律信息，即得到训练文本中更深层次的语义特征。这就使得采用本申请实施例提供的语音合成模型合成的语音的音质效果更好。

S130，通过文本处理模块将音素特征和文本特征进行融合，并通过语音合成模块基于融合得到的特征进行语音合成处理，得到训练文本对应的训练语音。

可选地，文本处理模块还包括特征融合模块；通过文本处理模块将音素特征和文本特征进行融合，包括：利用特征融合模块基于注意力机制将音素特征、第一文本特征和第二文本特征进行融合。

在图3中，为了融合编码器Encoder的输出结果Q和文本向量提取模块的输出结果K和V，本申请实施例中的语音合成模型的架构融合了Bert模型的自注意力机制网络结构，其中K＝V，都为文本向量提取模块的输出结果，即第一文本特征和第二文本特征，Q为原生FastSpeech2中的编码器Encoder的输出结果，即音素特征。在保留文本向量长度的情况下，可以深度融合FastSpeech2中的编码器Encoder的输出结果音素特征Q和文本向量提取模块提取得到的第一文本特征和第二文本特征K和V。

可选地，语音合成模块还包括可变信息适配器、梅尔频谱解码器模块和声码器，通过所述语音合成模块基于融合得到的特征进行语音合成处理，得到训练文本对应的训练语音，包括：

将融合得到的特征和音素特征进行相加运算，并将相加运算结果输入至可变信息适配器中进行处理，得到可变信息序列；

通过梅尔频谱解码器模块对可变信息序列进行处理，得到训练文本对应的训练语音的梅尔频谱特征；

通过声码器对训练文本对应的训练语音的梅尔频谱特征进行语音合成处理，得到训练文本对应的训练语音。

其中，梅尔频谱特征的英文全称为Mel-Frequency CepstralCoefficients，英文缩写为MFCC。梅尔频谱特征是一种在说话人分割，声纹识别，语音识别，语音合成中广泛使用的特征。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频谱特征则是利用它们之间的这种关系，计算得到的Hz频谱特征。梅尔频谱特征主要用于语音数据特征提取。

图3所示的语音合成模型的网络架构中在编码器Encoder和梅尔频谱解码器中加入了一个可变信息适配器(英文名称为Variance Adaptor)，以支持在训练得到的语音合成模型中引入更多语音中变化的信息，例如时长、音高、音量(频谱能量)等，来解决语音合成中的一对多映射问题，该一对多映射具体为文本到语音合成中，一条文本可以对应到多条可变的语音，这些可变信息包括语音时长、音高、音量等。

具体地，各训练样本数据对中的训练文本可由文本向量提取模块提取得到该文本的句子向量，训练文本对应的音素数据由语音合成模型的音素特征提取模块提取得到音素数据的特征向量。然后经位置编码可得到每个音素数据中各音素所处位置的上下文信息，再经编码器可以学习到更深层次的音素特征Q。再将文本向量提取模块的输出第一文本特征和第二文本特征K、V和编码器的输出的更深层次的音素特征Q进行融合。具体可利用语音合成模型的自注意力机制网络，两者融合得到的特征信息output再与编码器的输出结果Q相加，得到的结果再输入到语音合成模型的梅尔频谱解码器中参与训练，得到语音合成模型。在此训练过程中，既能保留各训练样本数据中的音素的原始信息，又能融合训练文本的特征信息。

可选地，语音合成模型中的文本处理模块中的文本向量提取模块除了基于Bert模型得到，也可基于其他预训练模型得到，比如AlBert模型、Bart模型等模型。

S140，基于训练文本对应的训练语音和训练文本对应的合成语音标签，对语音合成模型进行训练。

可选地，为了使得训练得到的语音合成模型能够合成逼近真实语音的语音，本申请实施例可以各训练样本数据对中的合成语音标签的梅尔频谱特征作为目标，不断地减小训练语音的梅尔频谱特征和目标频谱特征之间差异，即调整语音合成模型的模型参数，以使得语音合成模型合成的训练语音的梅尔频谱特征不断地逼近目标频谱特征。具体地，基于训练文本对应的训练语音和训练文本对应的合成语音标签，对语音合成模型进行训练，包括：获取训练文本对应的合成语音标签的目标频谱特征；按照减小训练语音的梅尔频谱特征和目标频谱特征之间差异的方向，调整语音合成模型的模型参数。其中，获取训练文本对应的合成语音标签的目标频谱特征可通过傅里叶变换等方法来获取。

本申请提供的一种或多个实施例，语音合成模型包括音素处理模块和文本处理模块，不仅可以利用语音合成模型中的音素处理模块对训练文本对应的音素数据进行处理得到音素特征，还能利用语音合成模型中文本处理模块对训练文本进行处理得到文本特征，再通过文本处理模块对音素特征和文本特征进行融合，以便得到更丰富的韵律特征，最后通过语音合成模块基于融合得到的更丰富的特征进行语音合成处理，由于基于该语音合成模型合成的语音不仅仅基于音素特征，还能够基于文本特征，因此，采用该语音合成模型训练方法训练得到的语音合成模型能够合成音质更好的语音。

基于上述的语音合成模型的训练方法实施例，本申请实施例提供了一种语音合成方法，参见图6，是本申请的一个实施例提供的一种语音合成方法的实施流程示意图。图6所示的语音合成方法可由电子设备执行，具体可由电子设备的处理器执行，该电子设备可以是终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等；或者，该电子设备还可以是服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；或者，该语音合成方法还可由能够实现该语音合成方法的客户端来执行，比如聊天应用的客户端、导航应用的客户端、阅读应用的客户端等。具体地，图6的方法可包括如下步骤：

S610，获取待合成文本以及待合成文本对应的音素数据。

其中，待合成文本可以是任意一段需要合成语音的文本，在不同应用场景中，待合成文本不同。举例来说，在智能文字阅读助手场景中，待合成文本可以是聊天应用页面中的文字聊天信息也可以是阅读应用页面中的书籍文本，在智能视频解说场景中，待合成文本是指视频内容的简介或者视频中的字幕内容。

以智能文字阅读助手场景为例，当待合成文本为聊天应用页面中的文字聊天信息时，待合成文本对应的音素数据可以是聊天应用中配置的机器人的音素数据，也可以是聊天应用中文字聊天信息对应的联系人的音素数据。当待合成文本对应的音素数据是聊天应用中配置的机器人的音素数据时，该音素数据可根据机器人的语音特征来获取，当待合成文本对应的音素数据是聊天应用中文字聊天信息对应的联系人的音素数据时，该音素数据可基于该联系人在历史聊天记录中的语音信息(该语音信息来自该联系人，即该语音信息由该联系人录制并发送)来获取。

S620，将音素数据输入至语音合成模型中的音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将待合成文本输入至语音合成模块中的文本处理模块进行特征提取得到文本特征。

其中，语音合成模型是基于图1所述的语音合成模型的训练方法训练得到的。具体训练可参见图1实施例中相关步骤，以及步骤S602的具体实现方式与图1实施例中步骤S120的实施方式相同，在此不再赘述。

S630，通过文本处理模块将音素特征和文本特征进行融合，并通过音素处理模块包括的语音合成模块基于融合得到的特征进行语音合成处理，得到待合成文本对应的合成语音。

应当理解的，步骤S630包括的实施方式与图1实施例中步骤S130中的实施方式相同，具体可参见前述，在此不再赘述。

在一个实施例中，得到待合成文本对应的合成语音之后，电子设备可以输出待合成文本对应的合成语音。

作为一种可行的实施方式，输出待合成文本对应的合成语音，可以包括：输出待合成文本对应的合成语音对应的标识信息；当标识信息被触发时，播放待合成文本对应的合成语音。

作为另一种可行的实施方式，输出待合成文本对应的合成语音，还可以包括：直接播放待合成文本对应的合成语音。

应当理解的，在不同应用场景下，以及同一个应用场景下，输出待合成文本对应的合成语音的方式均可能不同。例如，在智能语音导航应用场景中，可以直接输出；在智能文字助手阅读应用场景中，可以先输出标识信息，检测到标识信息被触发时，播放待合成文本对应的合成语音。

再如，在智能文字助手阅读应用场景中的聊天应用场景中，用户可能不是随时都方便收听语音，所以在得到待合成文本对应的合成语音时，可以检测下当前时间，如果当前时间是工作时间，则不会直接播放合成语音，而是先输出合成语音对应的标识信息；当标识信息被触发时，再播放合成语音；反之，如果当前时间不是工作时间，则可以直接播放合成语音。

图7为本申请实施例提供的语音合成方法应用于一种实际场景中的示意图。在图7中，用户可在群聊1的聊天页面中点击一条来自用户A的文字聊天信息，以触发对该文字聊天信息的语音合成操作。在用户点击该文字聊天信息后，可响应于该点击操作，可基于该文字聊天信息获取聊天应用中配置的机器人的音素数据，所获取的音素数据与该文字聊天信息相对应；或者，还可获取群聊1中用户A历史发过的语音，以及基于该文字聊天信息和用户A历史发过的语音，获取用户A的音素数据，该音素数据与该文字聊天信息相对应。

在获取该文字聊天信息对应的音素数据之后，可基于该文字聊天信息和对应的音素数据进行语音合成操作，得到该文字聊天信息对应的合成语音。在得到该文字聊天信息对应的合成语音之后，可直接播放该合成语音，也可检测下当前时间，如果当前时间是工作时间，则不会直接播放合成语音，而是先输出合成语音对应的标识信息，比如弹出提示框“是否播放该合成语音？”；当标识信息被触发，比如用户点击“是”按钮时，再播放合成语音。

本申请提供的一种或多个实施例，在对待合成文本以及待合成文本对应的音素数据进行语音合成操作时，不仅可以利用语音合成模型中的音素处理模块包括的音素特征提取模块，对待合成文本对应的音素数据进行处理得到音素特征，还能利用音素处理模块包括的语音合成模型中文本处理模块对待合成文本进行处理得到文本特征，再通过文本处理模块对音素特征和文本特征进行融合，以便得到更丰富的韵律特征，最后通过语音合成模块基于融合得到的更丰富的特征进行语音合成处理，由于合成的语音不仅仅基于音素特征，还能够基于文本特征中的韵律信息，因此，合成的语音更准确，其音质也更好。

基于上述的语音合成模型的训练方法实施例，本申请实施例提供了一种语音合成模型的训练装置。参见图8是本申请的一个实施例提供的一种语音合成模型的训练装置800的结构示意图。请参考图8，在一种软件实施方式中，语音合成模型的训练装置800可包括：

获取单元801，用于获取训练样本数据对以及语音合成模型，所述语音合成模型包括音素处理模块和文本处理模块，所述音素处理模块包括音素特征提取模块和语音合成模块，所述训练样本数据对包括训练文本、所述训练文本对应的音素数据，以及所述训练文本对应的合成语音标签；

第一提取单元802，用于通过所述音素处理模块中的音素特征提取模块对所述音素数据进行特征提取得到音素特征，以及通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征；

第二提取单元803，用于通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述语音合成模块基于所述融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音；

模型训练单元804，用于基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练。

可选地，所述文本处理模块包括文本向量提取模块和特征融合模块，所述第一提取单元802在通过所述音素处理模块中的音素特征提取模块对所述音素数据进行特征提取得到音素特征时，具体执行：

利用所述文本处理模块中的文本向量提取模块对所述训练文本进行特征提取，得到第一文本特征；

基于所述第一文本特征确定第二文本特征。

可选地，所述文本处理模块还包括特征融合模块；所述第二提取单元803在通过所述文本处理模块将所述音素特征和所述文本特征进行融合时，具体执行：

利用所述特征融合模块基于注意力机制将所述音素特征、所述第一文本特征和所述第二文本特征进行融合。

可选地，在一种实施方式中，所述语音合成模块包括可变信息适配器、梅尔频谱解码器模块和声码器，所述第二提取单元803在通过所述语音合成模块基于所述融合得到的特征进行语音合成处理，具体执行：

将融合得到的特征和所述音素特征进行相加运算，并将相加运算结果输入至所述可变信息适配器中进行处理，得到可变信息序列；

通过所述梅尔频谱解码器模块对所述可变信息序列进行处理，得到所述训练文本对应的训练语音的梅尔频谱特征；

通过所述声码器对所述训练文本对应的训练语音的梅尔频谱特征进行语音合成处理，得到所述训练文本对应的训练语音。

可选地，在一种实施方式中，所述模型训练单元804在基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练时，具体执行：

获取所述训练文本对应的合成语音标签的目标频谱特征；

按照减小所述训练语音的梅尔频谱特征和所述目标频谱特征之间差异的方向，调整所述语音合成模型的模型参数。

本申请实施例提供的语音合成模型的训练装置中的上述各个单元可以实现上述图1所示的语音合成模型的训练方法实施例提供的方法步骤。例如，步骤S110可由图8所示的训练装置中的获取单元801来执行，步骤S120可由图8所示的训练装置中的第一提取单元802来执行，步骤S130可由图8所示的训练装置中的第二提取单元803来执行，步骤S140可由图8所示的训练装置中的模型训练单元804来执行。

根据本申请的另一个实施例，图8所示的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的训练装置，以及来实现本申请实施例训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中并在其中运行。

采用本申请实施例中的语音合成模型的训练装置训练的语音合成模型包括音素处理模块和文本处理模块，不仅可以利用语音合成模型中的音素处理模块对训练文本对应的音素数据进行处理得到音素特征，还能利用语音合成模型中文本处理模块对训练文本进行处理得到文本特征，由于文本特征里也包含了韵律特征，再通过文本处理模块对音素特征和文本特征进行融合，便可得到更丰富的韵律特征，最后通过语音合成模块基于融合得到的更丰富的特征进行语音合成处理。由于训练的语音合成模型不仅仅基于音素特征，还能够基于文本数据中的韵律特征进行语音合成，因此，采用该语音合成模型训练方法训练得到的语音合成模型的语音合成准确率更高，而且能够合成音质更好的语音。

基于上述语音合成方法的实施例，本申请提出了一种语音合成装置。参见图9，是本申请的一个实施例提供的一种语音合成装置900的结构示意图。请参考图9，在一种软件实施方式中，语音合成装置900可包括：

获取单元901，获取待合成文本对应的音素数据和文本数据；

提取单元902，将所述音素数据输入至语音合成模型中音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述文本数据输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于图1所示的语音合成模型的训练方法训练得到的；

合成单元903，用于通过所述文本处理模块将所述音素特征和所述文本特征进行融合，并通过所述音素处理模块包括的语音合成模块基于融合得到的特征进行语音合成处理，得到所述待合成文本对应的合成语音。

本申请实施例提供的语音合成装置中的上述各个单元可以实现上述图6所示的语音合成方法实施例提供的方法步骤。例如，步骤S610可由图9所示的语音合成装置中的获取单元901来执行，步骤S620可由图9所示的语音合成装置中的提取单元902来执行，步骤S630可由图9所示的语音合成装置中的提取单元903来执行。

根据本申请的另一个实施例，图9所示的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的语音合成装置，以及来实现本申请实施例训练方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中并在其中运行。

基于上述的语音合成模型的训练方法实施例，本申请还提供了一种电子设备，参见图10，为本申请实施例提供的一种电子设备的结构示意图。图10所示的电子设备可包括处理器1001，计算机存储介质1004，处理器1001和计算机存储介质1004可通过总线或其他方式连接。

计算机存储介质1004可以存储在电子设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述处理器1001用于执行所述计算机存储介质1004存储的计算机程序。处理器1001(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行：

在一个实施例中，所述文本处理模块包括文本向量提取模块和特征融合模块，所述处理器1001在通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征时，执行如下步骤：

利用所述文本处理模块中的文本向量提取模块对所述训练文本进行特征提取，得到第一文本特征；基于所述第一文本特征确定第二文本特征。

在一个实施例中，所述文本处理模块还包括特征融合模块；所述处理器1001在通过所述文本处理模块将所述音素特征和所述文本特征进行融合时，执行如下步骤：

通过所述特征融合模块基于注意力机制将所述音素特征、所述第一文本特征和所述第二文本特征进行融合。

在一个实施例中，所述语音合成模块包括可变信息适配器、梅尔频谱解码器模块和声码器，所述处理器1001在通过所述语音合成模块基于融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音时，执行如下步骤：

在一个实施例中，所述处理器1001在基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练时，执行如下步骤：

获取所述训练文本对应的合成语音标签的目标频谱特征；

本申请提供的一种或多个实施例，语音合成模型包括音素处理模块和文本处理模块，不仅可以利用语音合成模型中的音素处理模块对训练文本对应的音素数据进行处理得到音素特征，还能利用语音合成模型中文本处理模块对训练文本进行处理得到文本特征，由于文本特征里也包含了韵律特征，再通过文本处理模块对音素特征和文本特征进行融合，便可得到更丰富的韵律特征，最后利用语音合成模块基于融合得到的更丰富的特征进行语音合成处理。由于训练的语音合成模型不仅仅基于音素特征，还能够基于文本数据中的韵律特征进行语音合成，因此，采用该语音合成模型训练方法训练得到的语音合成模型的语音合成准确率更高，而且能够合成音质更好的语音。

或者，所述处理器1001还适于实现一条或多条计算机程序，具体适于加载并执行：

获取待合成文本以及所述待合成文本对应的音素数据；

将所述音素数据输入至语音合成模型中音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述待合成文本输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于图1所述的语音合成模型的训练方法训练得到的；

本申请提供的一种或多个实施例，在对待合成文本以及待合成文本对应的音素数据进行语音合成操作时，不仅可以利用语音合成模型中的音素处理模块对待合成文本对应的音素数据进行处理得到音素特征，还能利用语音合成模型中文本处理模块对待合成文本进行处理得到文本特征，再通过文本处理模块对音素特征和文本特征进行融合，以便得到更丰富的韵律特征，最后通过语音合成模块基于融合得到的更丰富的特征进行语音合成处理，由于合成的语音不仅仅基于音素特征，还能够基于文本特征中的韵律信息，因此，合成的语音更准确，其音质也更好。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述一种语音合成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述文本处理模块包括文本向量提取模块，所述通过所述文本处理模块对所述训练文本进行特征提取，得到文本特征，包括：

基于所述第一文本特征确定第二文本特征。

3.如权利要求2所述的方法，其特征在于，所述文本处理模块还包括特征融合模块；所述通过所述文本处理模块将所述音素特征和所述文本特征进行融合，包括：

4.如权利要求1所述的方法，其特征在于，所述语音合成模块包括可变信息适配器、梅尔频谱解码器模块和声码器，所述通过所述语音合成模块基于融合得到的特征进行语音合成处理，得到所述训练文本对应的训练语音，包括：

5.如权利要求4所述的方法，其特征在于，所述基于所述训练文本对应的训练语音和所述训练文本对应的合成语音标签，对所述语音合成模型进行训练，包括：

获取所述训练文本对应的合成语音标签的目标频谱特征；

6.一种语音合成方法，其特征在于，包括：

获取待合成文本以及所述待合成文本对应的音素数据；

将所述音素数据输入至语音合成模型中音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述待合成文本输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于权利要求1～5中任一项所述的语音合成模型的训练方法训练得到的；

7.一种语音合成模型的训练装置，其特征在于，包括：

8.一种语音合成装置，其特征在于，包括：

提取单元，用于将所述音素数据输入至语音合成模型中音素处理模块包括的音素特征提取模块中，进行特征处理得到音素特征，以及将所述待合成文本输入至所述语音合成模块中的文本处理模块进行特征提取得到文本特征；其中，所述语音合成模型是基于权利要求1～5中任一项所述的语音合成模型的训练方法训练得到的；

9.一种电子设备，其特征在于，包括：计算机存储介质、处理器及存储在所述计算机存储介质上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的方法的步骤；或者，所述计算机程序被所述处理器执行时实现如权利要求6所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法的步骤；或者，所述计算机程序被处理器执行时实现如权利要求6所述的方法的步骤。