CN115620699A

CN115620699A - 语音合成方法、语音合成系统、语音合成设备及存储介质

Info

Publication number: CN115620699A
Application number: CN202211629324.2A
Authority: CN
Inventors: 康世胤; 吴志勇; 雷舜; 周逸轩; 陈礼扬
Original assignee: Shenzhen Yuanxiang Information Technology Co ltd; Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen Yuanxiang Information Technology Co ltd; Shenzhen International Graduate School of Tsinghua University
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-01-17
Anticipated expiration: 2042-12-19
Also published as: CN115620699B

Abstract

本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、语音合成系统、语音合成设备及存储介质。该方法包括：从当前语句的文本信息中获取声学特征序列；对当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；获取历史语句的历史风格信息；将历史风格信息、上下文语义信息融合，得到期望风格信息；将期望风格信息与声学特征序列融合，以生成当前文本的语音信息。本申请的语音合成方法，不仅考虑了上下文文本信息对说话风格的影响，还通过引入历史语句的历史风格信息，更好地预测当前语句的风格信息，使合成的语音具有不错的表现力。

Description

语音合成方法、语音合成系统、语音合成设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其涉及一种语音合成方法、语音合成系统、语音合成设备及存储介质。

背景技术

语音合成技术已经被广泛地应用到了有声小说、新闻、智能导航、语音助手等多个场景中，因为与人工录音相比，其效率高、成本低。语音合成的目标是合成类似人类的语音，其中的一个重点就是表现力。

传统的语音合成方法主要是拼接式语音合成方法和基于统计参数的语音合成方法。前者需要收集大量的语料数据，后者合成语音的音质和自然度都达不到要求。随着深度学习的发展，基于神经网络的端到端语音合成方法成为了主流方法，但合成语音的说话风格单一，语气平淡，缺乏表现力等原因导致模型的效果仍然有所欠缺，这也是合成语音和真实语音的主要差距所在。

发明内容

为了解决或者部分解决上述问题，本申请提供了一种语音合成方法、语音合成系统、语音合成设备及存储介质，可以针对长篇文章合成更具有表现力的语音。

第一方面，本申请的实施例提供了一种语音合成方法，所述方法包括：

从当前语句的文本信息中获取声学特征序列；

根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；所述历史语句为当前语句之前且已语音合成的语句文本，所述未来语句为当前语句之后且未语音合成的语句文本；

获取历史语句的历史风格信息，将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息；

将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息。

第二方面，本申请还提供了一种语音合成设备，所述语音合成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的语音合成方法的步骤。

第三方面，本申请还提供了一种语音合成系统，包括文本获取设备，从所述文本获取设备处接收文本信息的语音合成设备，其中，所述语音合成设备用于执行用于执行上述的语音合成方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述语音合成方法的步骤。

相比于现有技术，本申请实施例提供的语音合成方法中，包括：从当前语句的文本信息中获取声学特征序列；获取历史语句的历史风格信息，根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；所述历史语句为当前语句之前且已语音合成的语句文本，所述未来语句为当前语句之后且未语音合成的语句文本；将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息；将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息；不仅考虑了上下文文本信息对说话风格的影响，还通过引入历史语句的历史风格信息，更好地预测当前语句的风格信息，使合成的语音具有不错的表现力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音合成模型的第一结构示意图。

图2为本申请实施例提供的第一种语音合成方法的流程意图。

图3为本申请实施例提供的第二种语音合成方法的流程意图。

图4为本申请实施例提供的第三种语音合成方法的流程意图。

图5为本申请实施例提供的第四种语音合成方法的流程意图。

图6为本申请实施例提供的语音合成模型的第二结构示意图。

图7为本申请实施例提供的一种语音合成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

应当理解，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一凹槽和第二凹槽仅仅是为了区分不同的凹槽，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请发明人发现，目前语音合成比较明显的缺陷是缺乏表现力。缺乏表现力的合成语音往往会使用户感到疲劳，严重影响到用户的使用体验。尤其是在合成语音比较长的场景中，比如有声小说、新闻和语音助手，像目前在一些软件随处可见一口气看完某作品系列，很多音频时长达到了十几乃至几十个小时，这种音频很容易让人听着听着就感觉到疲倦或者疲累，无法吸引并留住客户继续倾听。因此如何提高语音合成系统输出语音在表达效果上的丰富性，使得合成的语音更自然、更具有表现力，是实现更像人类的语音合成系统的关键，也是一大挑战。

为了对真实语音中丰富而复杂的风格变化进行建模，一些现有的网络模型，例如TP-GST模型，便引入了从输入文本预测全局风格嵌入的思想，从而使得生成的语音在音高和能量上有更大的变化。考虑到语音的风格和句子的语义密切相关，有研究者试图引入预训练的语言模型BERT来获得待合成文本的语义信息，并基于BERT提取的语义信息更好的预测语音的风格表征。

其中，本申请实施例不对TP-GST模型进行过多说明，可以参见如下文章介绍：

[1] RJonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, NavdeepJaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerrv-Ryan,et al., “Natural tts synthesis by conditioning wavenet on mel spectrogrampredictions,” in 2018 IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). IEEE, 2018, pp. 4779–4783.

[2] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O Arik, AjayKannan, Sharan Narang, Jonathan Raiman, and John Miller, “Deep voice 3:Scaling text-to-speech with convolutional sequence learning,” inInternational Conference on Learning Representations, 2018.

[3] Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, andTie-Yan Liu, “Fastspeech 2: Fast and high-quality end-toend text to speech,”arXiv preprint arXiv:2006.04558, 2020。

而对于有声小说这类具有长文本（即包含了多句语句）的语音转换任务来说，每个语句的语义以及说话风格将不仅仅受到当前句子文本的影响，还会包括上下文、说话人意图在内的更多因素的影响。在这方面，一些方法通过将上下文与当前句一起输入BERT，从而提取考虑了上下文信息的文本语义，以改善每句话的韵律生成。

进一步的，还有一些方法设计了一个层级上下文编码器，从固定数量的相邻句子中收集上下文信息，并在考虑上下文的层级结构的情况下预测句子的说话风格，这有效的提升了合成语音的表现力。通过这些方法，有声小说等长文本输入，可以首先被切分成句子，然后一个句子接一个句子依次被合成，并且每一句话都具有不错的表现力。

但目前以上基于语句的有声小说合成方案主要存在以下的问题：

（1）由于目前的方法都是在独立地预测每个语句对应的说话风格，而忽略了说话风格之间的韵律连贯性。这导致虽然每句语音都具有较为丰富的表现力，但将每句语音拼接成长篇语音时，语句之间出现了一定程度的不自然。比如说，从一个语句到下一个语句之间存在过大的风格变化，导致在感知上过度不流畅。

（2）这些方法只考虑了上下文语义对风格的影响，然而一些对韵律的研究，可以发现只考虑了上下文语义对风格的影响，可能会出现一些超过语句层面的韵律模式。比如，音高和能量在段落的各个语句中呈现的下降趋势，在新的段落开始时的韵律重置现象，以及段落内语句间和不同段落语句间风格变化的不同等等。

（3）现有的一些语音合成的网络模型，只利用到了文本侧的固定数量的上下文信息，对于语音侧的上下文信息并没有考虑，而实际上语音侧的信息包括用户对历史文本更广范围的理解、历史的说话风格等。而如果模型利用这些信息，可以更好的预测当前语句风格。

对于一些长篇文章，例如有声小说，用户往往会希望能够合成既具有表现力又具有连贯性的长篇语音，但以上这些问题使得长篇文章合成语音变得复杂，且更具有挑战性。

值得一提的是，针对长篇文章合成具有连贯性的语音还有另一种方法，就是直接将段落级别，甚至文档级别的文本直接作为输入，合成其对应的长篇语音。但由于其在训练和使用的过程中，要一段段的输入来合成语音，因此需要消耗大量的计算资源和时间，同时在合成训练语料库中没出现的超长文本时仍然会出现缺乏表现力，因此一般不被工业界所使用。

有鉴于此，本申请提供了一种语音合成方法，所述方法包括：从当前语句的文本信息中获取声学特征序列；根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；所述历史语句为当前语句之前且已语音合成的语句文本，所述未来语句为当前语句之后且未语音合成的语句文本；获取历史语句的历史风格信息，将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息；将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息。本申请适用于对长文本进行语音合成，可以适用于有声小说、新闻、演讲等场景。对于用户提供的包括多句的长文本，可以将每个句子进行依次合成，最后将每个句子合成的音频合并在一起就可以获得对应长文本输入的长篇语音。同时，为了保证合成的语音每句话的表现力以及整体的连贯性，本申请实施例可以融合文本侧的上下文信息和语音侧关于音频的历史风格信息，基于两个不同模态（即上下文信息和历史风格信息）的信息对当前句子的说话风格进行预测，再将预测的期望风格信息、当前文本的声学特征序列融合，以生成当前语句的语音。在上下文信息和历史风格信息的约束下，合成语音的说话风格会更加接近真实的语音，也就是符合上下文语义并且在整体上体现出连贯性的语音。在长文本场景下，模型运行的示意图如图1所示。

可以参见图1所示，图1为本申请实施例提供的语音合成模型的结构示意图。首先对网络模型进行训练，得到语音合成模型。图1中，训练得到的语音合成模型中可以包括编码器、风格预测器、语音变化调节器、解码器、声码器；其中，编码器获取当前文本的声学特征序列，风格预测器用于获取文本侧的上下文信息和语音侧的历史风格信息，风格提取器用于从每个句子的梅尔谱中提取说话风格嵌入，以明确地指导风格预测器的训练；通过语音变化调节器可以将上下文信息、历史风格信息、声学特征序列融合，获取融合声学特征序列；通过解码器对帧级别的声学特征序列进行处理，得到预测的梅尔谱序列，及通过声码器将所述梅尔谱序列转变成合成语音信号。

下面参见图2所示，图2为本申请实施例提供的第一种语音合成方法的流程意图。该语音合成方法可以包括步骤S100-S400。

步骤S100、从当前语句的文本信息中获取声学特征序列。

具体的，可以通过编码器，获取文本信息的声学特征序列。

在本申请实施例中，编码器模块可以用于从输入的当前语句文本信息中获得音素级的声学特征序列，声学特征序列可以用来表示每一个音素对应的声学特征。

为了方便理解编码器工作原理，下面对编码器进行详细说明。

在本申请实施例中，编码器模块可以包括文本转音素模块、音素嵌入模块和音素编码器。

其中，文本转音素模块用于根据语言学知识设计的转换逻辑，将输入的当前语句的文本信息转换成更能体现其发音特点的音素序列。

音素嵌入模块可以是事先通过训练得到，音素嵌入模块可以获得的每个音素对应的256维特征表示。音素嵌入模块可以将单个音素序列映射成一个256维的浮点型向量表征上，若当前语句的数量为N，N为正整数，则整个音素序列通过音素嵌入模块可以转换成一个大小为N*256的音素特征序列。

音素编码器可以由若干个变换器模块堆叠而成的，在本申请实施例中可以为四个。首先可以在音素特征序列加上事先设计好的位置编码信息，然后将添加了位置编码信息的音素特征序列，依次经过四个连续的变换器模块，以提取出音素级的声学特征序列。

此外，每个变换器模块可以由一个带有残差连接、层归一化的多头自注意力机制，以及一个带有残差连接、层归一化的一维卷积层组成。变换器模块作用是根据音素之间的关系以及融合上下文的音素信息，提取出音素级声学特征序列，为了保证输出的音素级的声学特征序列大小和原始序列（即从音素编码器处接收的音素特征序列）保持一致，声学特征序列大小可以为N*256。

步骤S200、根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息；所述历史语句为当前语句之前且已语音合成的语句文本，所述未来语句为当前语句之后且未语音合成的语句文本。

具体的，可以通过风格预测器来预测对语句的语音表达风格进行预测。风格预测器能够根据文本侧的上下文信息和语音侧的历史风格信息，对当前语句的语音表达风格进行预测，以合成同时具有表现力和风格连贯性的语音。

本申请实施例中，参见图3所示、图6所示，图3为本申请实施例提供的第二种语音合成方法的流程意图。图6为本申请实施例提供的语音合成模型的第二结构示意图。风格预测器包括了预测模型、与预测模型相连的文本编码器、融合编码器。

根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息，可以包括：步骤S201-步骤S203。

步骤S201、获取当前语句前的第一数量范围内的历史语句、当前语句后的第二数量范围内未来语句，并与所述当前语句组成文本序列。

当前语句、当前语句之前的第一数量范围内的历史语句、当前语句之后的第二数量范围内的未来语句可以共同组成文本侧的上下文信息。

其中，第一数量、第二数量可以根据实际情况进行调整，第一数量、第二数量也可以相等。

步骤S202、通过预训练的预测模型对所述文本序列进行预测，得到词级语义表征序列。

其中，文本序列一共包括了：第一数量+第二数量+1个句子。为了方便理解，假设第一数量、第二数量均为N，N为正整数，N可以事先设定，则此时文本序列一共包括了2N+1个语句，2N+1个语句连接起来，形成一个长文本序列。

为了能够精准预测，本申请实施例的预测模型，可以为XLNet模型；当然，并不限定于XLNet模型。XLNet模型是一个在字数多达数十亿的文本数据上提前训练好的语言模型，来自大量的文本的知识使得模型可以更好的理解提取出文本的语义信息。

在本申请实施例中，使用XLNet模型可以直接处理较长的文本，甚至是可以处理没有长度限制的段落，而且XLNet模型在提取文本的语音信息时，还可以考虑文本上下文的语音信息。

为了得到词级语义表征序列，可以将整个长文本序列都输入XLNet模型，这样还可以初步的考虑上下文的语义信息。XLNet模型会对长文本序列中的每一个词输出一个表示其语义的768维的文本表征，因此获得了维度为768维的词级语义表征序列。

步骤S203、通过文本编码器对所述词级语义表征序列添加标记，并确定文本序列的语义表征，得到上下文语义信息。

在本申请实施例中，为了捕捉在句子之间固有的结构信息，风格预测器引入一个层次框架，该层次框架由一个文本编码器和一个融合编码器组成。文本编码器、融合编码器可以都是由多层变换器构成，在本申请实施例中，文本编码器、融合编码器可以由三层变换器构成的，从而形成了一个层级变换器结构。

其中，文本编码器主要考虑同一个语句内各个词之间的关系，而融合编码器主要考虑的是不同句子之间的关系。

首先，每个语句的词级语义表征序列被传递给文本编码器后，通过文本编码器在词级语义表征序列前面添加一个特殊的[CLS]标记。文本编码器通过探索词级语义表征序列中低级别的词义，将词级语义表征序列转化为隐藏状态序列。与[CLS]标记相对应的第一个隐藏状态被认为是该句话的整体语义表征，也就是句子级别的上下文语义信息。

在本申请实施例中，由于在连续语音合成的过程中，未来语句的语音还没有合成，只有已合成语音可以被模型使用；所以本申请实施例中，只考虑从固定数量的历史语句中提取的历史风格信息。

步骤S300、获取历史语句的历史风格信息，将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息。

进一步的，将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息，包括：

通过融合编码器，将句级别的上下文语义信息和来自语音侧的历史风格信息拼接，得到期望风格信息。

为了提高风格的一致性，更好的学习不同语句风格之间、风格和文本之间的关系，融合编码器可以从过去的N个句子的语音中依次提取的历史风格信息序列也传递给融合编码器。在融合编码器中，来自文本侧的句级别语音表征序列（即文本序列的语义表征）和来自语音侧的历史风格信息（由风格提取器提供）将被拼接在一起，形成一个混合了两种模态信息的新的特征序列。同时向新的特征序列末尾加入了一个特殊的标记[UNK]，来标记要预测的当前句子的风格。为了更好的学习超过句子层面的韵律变化，可以添加一些额外的信息标记到输入的语义表征序列中。对输入的语义表征序列的每个特征，加上了多种（本申请实施例可以为三种）额外的可学习的嵌入向量，分别为类别嵌入、位置嵌入和段落位置嵌入。

其中，类别嵌入式用于区分特征是来自文本侧还是语音侧，位置嵌入是为了表示特征对应的句子在所有输入句子中的次序，段落位置嵌入是为了表示特征对应的句子在其所属自然段中的次序。通过将这些信息加入特征序列中，可以为特征序列提供额外的对齐关系与位置信息。

此外，由于上述方案是一个不同模态之间信息交互的任务，为了更好的利用上下文语义信息和历史风格信息，融合编码器还可以包括一个混合注意力掩码。

具体来说，通过混合注意力掩码使得在变换器的自注意力模块中，上下文特征只关注来自两个模态的其他上下文特征，而风格特征可以包括其自身在内的历史风格特征，以及所有的上下文风格特征。

值得一提的是，上述方案的逻辑与人类的感知过程是一致的。一般情况下，当用户在说话时，在文本侧只会关注其他文本上的信息，在语音侧会关注到全部的文本信息和已经说出来的话。在融合编码器对这两类信息进行编码后，输出是考虑了上下文的隐藏向量序列，其中最后一个特征（即与特殊[UNK]标记对应的特征）被用作当前句子预测的风格特征，即可得到期望风格信息。

此外，所述获取历史语句的历史风格信息包括：通过预训练的风格提取器，从所述历史合成语音中提取历史风格信息。

在使用语音合成模型的阶段，风格提取器的目的是从历史语句的已合成语音中提取出历史语音的历史风格信息。风格提取器可以由参考编码器和风格标记层组成。具体来说，参考编码器由可以二维卷积神经网络、GRU网络和全连接网络组成，参考编码器可以从输入的80维梅尔谱序列中提取出一个256维的表征。

其中，二维卷积神经网络可以为6层二维卷积神经网络。

此外，风格标记层可以通过注意力机制计算语音表征和若干个（例如，可以为十个）可学习的全局风格嵌入之间的相关性，并以此加权得到语音的全局风格表征。

在使用阶段时，如图2所示，风格提取器将被用作从历史已合成的音频中提取历史风格信息，发送至融合模块处，由融合模块将句级别的上下文语义信息和来自语音侧的历史风格信息拼接，以实现当前句子的语音合成。

值得注意的是，在训练阶段时，如图6所示，可以通过为风格提取器提供当前要合成语句的真实音频，使得风格提取器可以以无监督学习的方式从音频中提取说话风格，以使说话风格嵌入。基于该风格提取器，可以提取真实音频中每一句话所对应的说话风格，并以此作为风格预测器训练的目标。通过这种知识蒸馏的方式，风格预测器可以显示的对说话风格特征进行学习，从而减少了语音合成模型训练的压力，并大大增强了在数据量不足的情况下，语音合成模型对于说话风格特征的建模效果。

在训练阶段，历史语音风格由风格提取器从历史语音中获取，并发送至融合编码器处。

步骤S400、将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息。

通过将用户需要的期望风格信息、当前语句文本信息的声学特征序列融合，以获取当前语句的合成语音。

其中，参见图4所示，图4为本申请实施例提供的第三种语音合成方法的流程意图。

所述将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息，包括：

步骤S401、获取所述期望风格信息的特征向量。

步骤S402、复制所述特征向量，使复制后的所述特征向量长度与所述声学特征序列的长度相同，并添加至所述声学特征序列上，得到融合声学特征序列。

上述方案中，可以通过语音变化调节器来实现。语音变化调节器的输入是前面提取的音素级声学特征序列和说话风格特征，256维的说话风格特征向量被复制成音素级声学特征序列的长度，并添加到音素级声学特征序列上，得到融合声学特征序列。

步骤S403、将所述融合声学特征序列调节为高纬度特征，以生成当前文本的语音信息。

进一步的，本申请实施例中，参见图5所示，图5为本申请实施例提供的第四种语音合成方法的流程意图。所述将所述融合声学特征序列调节为高纬度特征，以生成当前文本的语音信息，包括步骤S4031-步骤S4034。

步骤S4031、通过语音变化调节器，预测所述融合声学特征序列在音素上的时长预测结果、音高预测结果和音强预测结果。

其中，语音变化调节器可以由多个语音变化预测器构成。每个融合声学特征序列将被同时送入多个语音变化预测器中，从而分别预测合成语音在该音素上的时长、音高和音强。

在本申请实施例中，语音变化预测器的数量可以为三个。

三个语音变化预测器的结构是相同的，语音变化预测器可以由带有层归一化的一维卷积层和全连接层组成，每个预测器对每个音素声学特征会预测出一个浮点数作为结果。然后音高和音强的结果会通过1个全连接层重新转换成256维的高维表征并添加到音素级声学特征序列中。而时长的预测结果将通过四舍五入变成整数，我们按照每个音素对应的时长对音素的声学特征进行复制，并把复制后的序列重新拼接在一起作为帧级别的声学特征序列，假设一共有n帧语音，那么序列的大小为n*256。

其中，带有层归一化的一维卷积层的数量可以为两个，全连接层的数量可以为1个。

步骤S4032、将所述音高预测结果、所述音强预测结果分别转换成高纬度特征，并添加至所述声学特征序列，得到重组的声学特征序列。

每个预测器对每个音素声学特征会预测出一个浮点数作为结果。然后音高和音强的结果会通过1个全连接层重新转换成256维的高维表征并添加到音素级的声学特征序列中。

步骤S4033、按照每个音素对应的时长预测结果，复制重组的声学特征序列，并把复制后的声学特征序列重新拼接在一起作为帧级别的声学特征序列。

而时长的预测结果将通过四舍五入变成整数，按照每个音素对应的时长对音素的声学特征进行复制，并把复制后的序列重新拼接在一起作为帧级别的声学特征序列，假设一共有n帧语音，那么序列的大小为n*256。

步骤S4034、通过解码器对帧级别的声学特征序列进行处理，得到预测的梅尔谱序列，及通过声码器将所述梅尔谱序列转变成合成语音信号。

其中，解码器是和音素编码器一样的结构，用于将256维帧级声学特征序列转换成256维帧级隐藏状态序列，然后再通过一个全连接层将维度变成80维，从而获得预测的梅尔谱序列。

通过预训练的声码器将梅尔谱序列转变成合成语音信号。在获得梅尔谱序列之后，可以采用了一个预训练好的神经网络声码器HIFI-GAN，将梅尔谱序列转变成采样率为24k Hz的合成语音信号，从而获得了合成语音。

综上，本申请至少包括了以下好处：

1）本申请不仅考虑了上下文文本信息对说话风格的影响，还通过引入历史合成语音的信息，使模型能够学习到超过句子层面的韵律变化，和语音侧上下文中包含的更广泛的知识。

2）为了更好的分析上下文中的多句文本，本申请提供了一个上下文感知的风格预测器，在词级别（即通过预测模型对文本序列进行预测得到的词级语义表征序列）和句子级别（即句子级别的语义表征序列）两个层级考虑文本之间的关系，使得模型能够考虑到文本中的结构信息。

3）为了更好的融合文本侧和语音侧两个不同模态的信息，本申请在融合编码器中引入了混合注意力掩码，使得模型能够更加合理的考虑这两类信息之间的相互影响。

4）本方法采用知识蒸馏的策略，以无监督学习的方式从文本对应的真实音频中提取出说话风格，以此帮助风格的提取和风格预测器更好的训练。

考虑到对小说、演讲等长篇内容进行语音合成时，需要从客观、主观（人的感知）两个角度进行测评，从而更好的反应语音合成的好坏。基于上述内容，本申请人将上述方法运用在有声小说数据语音合成上，得到的主观评测和客观评测，分别如下：

从客观评测的角度：本申请可以更精确的预测句子的说话风格，同时使得合成句子的音高、音素时长以及得到的梅尔谱都与真实的人工录音更接近。

从主观评测的角度（人的感知）：对于合成的每句话，本申请合成的语音更加自然，具有更丰富的表现力。而对于合成的多句子长篇语音，我们模型合成的语音在具有丰富表现力的同时，不同句之间风格更加连贯，在整体感知上更加和谐、自然。

客观测评、主观测评两个方面，都说明了本申请所提出的方法无论是在单句音频测试还是多句音频测试中，其合成语音的表现力和连贯性都超过了其他的语音合成方法。

一方面，本申请实施方式还提供了一种语音合成系统，包括文本获取设备，从所述文本获取设备处接收文本信息的语音合成设备，其中，所述语音合成设备用于执行上述任一项语音合成方法的步骤。

另一方面，本申请还提供了一种语音合成设备，参见图6所示，图6为本申请实施例提供的一种语音合成设备的结构示意图。语音合成设备50可以包括处理器（CPU、GPU、FPGA等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储部分508加载到随机访问存储器（RAM）503中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM503中，还存储有系统操作所需的各种程序和数据。处理器501、ROM502以及RAM503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请的实施方式，上文参考附图描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，程序被一个或者一个以上的处理器用来执行描述于本申请的语音合成方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

从当前语句的文本信息中获取声学特征序列；

2.根据权利要求1所述的语音合成方法，其特征在于，所述从当前语句的文本信息中获取声学特征序列，包括：

获取当前语句的文本信息，将所述文本信息转换为音素序列；

将所述音素序列与预设的位置编码信息拼接，并从拼接后的音素序列中提取出声学特征序列。

3.根据权利要求1所述的语音合成方法，其特征在于，所述根据当前语句、历史语句、未来语句的文本信息，获取上下文语义信息，包括：

获取当前语句前的第一数量范围内的历史语句、当前语句后的第二数量范围内未来语句，并与所述当前语句组成文本序列；

通过预训练的预测模型对所述文本序列进行预测，得到词级语义表征序列；

通过文本编码器对所述词级语义表征序列添加标记，并确定文本序列的语义表征，得到上下文语义信息。

4.根据权利要求1所述的语音合成方法，其特征在于，将所述历史风格信息、所述上下文语义信息融合，得到期望风格信息，包括：

5.根据权利要求1所述的语音合成方法，其特征在于，所述将所述期望风格信息与所述声学特征序列融合，以生成当前文本的语音信息，包括：

获取所述期望风格信息的特征向量；

复制所述特征向量，使复制后的所述特征向量长度与所述声学特征序列的长度相同，并添加至所述声学特征序列上，得到融合声学特征序列；

将所述融合声学特征序列调节为高纬度特征，以生成当前文本的语音信息。

6.根据权利要求5项所述的语音合成方法，其特征在于，所述将所述融合声学特征序列调节为高纬度特征，以生成当前文本的语音信息，包括：

通过语音变化调节器，预测所述融合声学特征序列在音素上的时长预测结果、音高预测结果和音强预测结果；

将所述音高预测结果、所述音强预测结果分别转换成高纬度特征，并添加至所述声学特征序列，得到重组的声学特征序列；

按照每个音素对应的时长预测结果，复制重组的声学特征序列，并把复制后的声学特征序列重新拼接在一起作为帧级别的声学特征序列；

通过解码器对所述帧级别的声学特征序列进行处理，得到预测的梅尔谱序列，及通过声码器将所述梅尔谱序列转变成合成语音信号。

7.根据权利要求1所述的语音合成方法，其特征在于，所述获取历史语句的历史风格信息，包括：

通过预训练的风格提取器，从所述历史合成语音中提取历史风格信息。

8.一种语音合成设备，其特征在于，所述语音合成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的语音合成方法的步骤。

9.一种语音合成系统，其特征在于，包括文本获取设备，从所述文本获取设备处接收文本信息的语音合成设备，其中，所述语音合成设备用于执行所述权利要求1至7中任一项所述的语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的语音合成方法的步骤。