CN115171647A

CN115171647A - 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质

Info

Publication number: CN115171647A
Application number: CN202210792457.5A
Authority: CN
Inventors: 高英; 蒋成龙; 甄泓忠; 吴永贤; 钟竞辉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-11

Abstract

本发明公开了一种具有自然停顿处理的语音合成方法，包括如下步骤：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；根据所述输入信息提取第一隐层特征变量；根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；根据所述第二隐层特征变量进行解码得到梅尔频谱变量；根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。

Description

一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质

技术领域

本发明属于语音合成技术领域，具体涉及一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质。

背景技术

随着深度学习的发展，基于神经网络的语音合成(TTS)系统已经取得了突破性进展和应用，其广泛应用于虚拟助手、智能阅读、智能导航等领域。普通话作为中国的官方语言，具有重要的研究和应用价值。但由于中文语句结构的复杂和多样性，普通话的语音合成在自然度和表现力上仍然不够理想，尤其是话语中的停顿处理是影响语音自然度和语义理解的关键之一。

语句的停顿可分为两种方式，一种是语句与语句之间的停顿，现代汉语中主要采用显式的不同标点符号进行语句之间的划分，不同的标点符号表示的停顿时间长短不一致，例如，顿号、逗号、句号表示的停顿时间依次变长，短句间停顿间隔的长短可以体现语句的节奏，对语音自然度有重要影响；另一种是语句内部短语之间的停顿，由于短语之间没有显式的符号标记，因此需要通过一些自然语言处理相关技术标记特征，使TTS模型能够学习到停顿位置与时长。

现有技术中，对于语句与语句之间的标点符号，或者语句内的标点符号，现有的语音合成模型中，对标点符号的处理方式通常采用全局相同的单一标签对标点符号进行标记，然后与数据输入TTS模型进行训练，以实现合成语音在标点符号处的停顿。然而这样无法体现在自然语言中不同标点符号停顿时长不同的特点，合成的普通话语音节奏单调生硬。

发明内容

针对现有技术中所存在的不足，本发明提供了一种能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题的具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质。

第一方面，一种具有自然停顿处理的语音合成方法，包括如下步骤：

从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；

根据所述输入信息提取第一隐层特征变量；

根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；

根据所述第二隐层特征变量进行解码得到梅尔频谱变量；

根据所述梅尔频谱变量合成与所述原始文本对应的语音。

作为优选方案，所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息，包括如下步骤：

对所述原始文本提取标点符号标记并转换为嵌入向量；

对所述原始文本提取词性标记并转换为嵌入向量；

对所述原始文本提取字标记并转换为嵌入向量；

将所述原始文本中的汉字和数字转换为音素并编码为文本序列；

将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合，得到所述输入信息。

作为优选方案，所述字标记，是由所述原始文本中每个字按音素拆分并依顺序标记形成。

作为优选方案，所述根据所述输入信息提取第一隐层特征变量，包括如下步骤：

根据多头注意力机制对所述输入信息的上下文信息进行编码，并进行残差连接及正则化处理；

通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到所述第一隐层特征变量。

作为优选方案，所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量，包括如下步骤：

根据所述第一隐层特征变量进行音素时长预测，获得每个音素的时长信息并通过长度调节器进行残差融合；

进行能量预测，获得每个音素的音量信息并进行残差融合；

进行音高预测，获得每个音素的音高信息并进行残差融合。

作为优选方案，在所述根据所述输入信息提取第一隐层特征变量之后，还包括如下步骤：

根据所述第一隐层特征变量进行短语时长预测，获得每个短语的时长信息；

根据所述音素时长预测模块预测的短语内各音素时长之和与所述短语时长预测模块预测的短语时长计算损失。

作为优选方案，所述根据所述第二隐层特征变量进行解码得到梅尔频谱变量，包括如下步骤：

根据多头注意力机制对所述第二隐层特征变量进行编码，并进行残差连接及正则化处理；

通过多个不同尺寸的卷积核对不同长度的声学特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到对应的梅尔频谱变量。

第二方面，一种具有自然停顿处理的语音合成装置，包括：

前端处理模块，用于从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；

编码器模块，用于根据所述输入信息提取第一隐层特征变量；

变量预测模块，用于根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；

解码器模块，用于根据所述第二隐层特征变量进行解码得到梅尔频谱变量；

声码器模块，用于根据所述梅尔频谱变量合成与所述原始文本对应的语音。

第三方面，一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述任意一种具有自然停顿处理的语音合成方法。

第四方面，一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如第一方面所述任意一种具有自然停顿处理的语音合成方法。

相比于现有技术，本发明具有如下有益效果：

1、通过对标点符号中不同点号和标号分别标记为不同的标签，并结合隐式的词性标记、字标记，在融合后提取隐层特征，再融合音素时长、能量和音高等信息，建立了一个具有自然停顿处理的普通话TTS系统，本实施例可有效解决普通话合成语音中停顿位置不明显、全局停顿时长单一的问题；

2、通过在编码和解码过程中采用多头注意力机制结合多尺度卷积的方式，可更有效地利用文字的局部特征，实现文本中从字到词、短语、句子和段落层级特征提取，有效提高短语间的自然停顿效果；

3、通过在变量预测中音素时长预测结合能量预测及音高预测，可进一步提高语音的合成效果；

4、通过在变量预测中加入短语时长预测以与音素时长预测建立误差矫正机制，可以有效提升模型对短语预测时长的准确性，提高了模型预测整体的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种具有自然停顿处理的语音合成方法的流程示意图；

图2为本发明一种具有自然停顿处理的语音合成方法步骤S1的流程示意图；

图3为本发明一种具有自然停顿处理的语音合成方法步骤S2的流程示意图；

图4为本发明一种具有自然停顿处理的语音合成方法步骤S2中多尺度卷积的方法示意图；

图5为本发明一种具有自然停顿处理的语音合成方法步骤S3的流程示意图；

图6为本发明一种具有自然停顿处理的语音合成方法中关于短语时长预测的误差矫正的流程示意图；

图7为本发明一种具有自然停顿处理的语音合成方法步骤S4的流程示意图；

图8为实施例1中现有技术生成的音频效果示意图；

图9为实施例1中本发明生成的音频效果示意图；

图10为实施例2中现有技术生成的音频效果示意图；

图11为实施例2中本发明生成的音频效果示意图；

图12为本发明一种具有自然停顿处理的语音合成装置的结构示意图；

图13为本发明一种具有自然停顿处理的语音合成装置的前端处理模块结构示意图；

图14为本发明一种具有自然停顿处理的语音合成装置的编码器模块结构示意图；

图15为本发明一种具有自然停顿处理的语音合成装置的变量预测模块结构示意图；

图16为本发明一种具有自然停顿处理的语音合成装置的端到端声学模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

第一方面，一种具有自然停顿处理的语音合成方法，如图1所示，包括如下步骤：

S1：前端处理：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；

S2：编码：根据所述输入信息提取第一隐层特征变量；

S3：变量预测：根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；

S4：解码：根据所述第二隐层特征变量进行解码得到梅尔频谱变量；

S5：合成：根据所述梅尔频谱变量合成与所述原始文本对应的语音。

本实施例中采用端到端的声学模型，其主干结构来源于FastSpeech2结构，它是一种非自回归的语音合成网络，具有并行运算和处理长距离依赖的优势，主要包括编码器、变量预测器、解码器三个部分，分别对应所述步骤S2～S4。所述步骤S5中的合成采用声码器，属于现有技术，在此不再赘述。

所述标点符号标记，可以是通过设计的<“标点符号”：“标签”>字典对文本语句中的标点符号进行标记。在中文语句中，常用的标点符号共有16种，可以分为点号和标号两种类型。点号有逗号、顿号、分号、冒号、句号、问号、叹号7种，表示各种不同性质的停顿。标号有9种，包括引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号和专名号。发明人考虑到目前的普通话语音合成系统，对于语句与语句之间的标点符号，或者语句内的标点符号，在现有的语音合成模型中，对标点符号的处理方式均是采用全局相同的单一标签进行标记，然后与数据输入TTS模型进行训练，以实现合成语音在标点符号处的停顿；发明人发现，这类方案存在着局限性：由于对标点符号采用全局统一的标签标记，没有考虑到不同标点符号对于停顿时长的影响，导致TTS模型预测的所有语句之间的停顿时长基本不变，无法体现不同标点符号停顿时长不同的特点，使合成的普通话语音节奏单调生硬。又考虑到虽然标号主要标明语句的性质和作用，但人们在读中文语句时，遇到标号也会有一定程度的停顿；而且现有的语音合成模型中也未发现有对标号进行标记以实现停顿的。因此，本实施例中选择将以上列举的中文标点符号引起的语音停顿按照标点符号种类的不同标记成不同的标签。具体标点符号字典可以如下表1所示(着重号一般标注在文字正下方，此处不予考虑)。

表1标点符号字典

所述词性标记，在自然语言处理领域已获得广泛应用，在本发明中的前端处理中，可利用算法对文本进行分词进而标注词性。

所述字标记，可在对文本分词后，分别对每个词组进行字标记处理。一般来说，可定义一个标签集合{S,B,M,E}，S表示单字为词，B表示词的首字，M表示词的中间字，E表示词的结尾字。举例来说，“充满希望的二零二二年”可标记为：[BE BE S BMMME]。

所述标点符号标记为显式标签特征，所述词性标记和字标记为隐式标签特征。

本实施例基于中文语言的特点，通过设计显式、隐式的标签特征并结合特征融合、提取的机制，从而建立了一个具有自然停顿处理的普通话TTS系统，本实施例可有效解决普通话合成语音中停顿位置不明显、全局停顿时长单一的问题。

一种优选实施例，所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息，如图2所示，包括如下步骤：

S101：对所述原始文本提取标点符号标记并转化为嵌入向量；

S102：对所述原始文本提取词性标记并转化为嵌入向量；

S103：对所述原始文本提取字标记并转化为嵌入向量；

S104：将所述原始文本中的汉字和数字转换为音素并编码为文本序列；

S105：将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合，得到所述输入信息。

本实施例中，如图所示，将原始文本信息分别输入不同模块以分别提取标点符号标记、词性标记、字标记及音素序列。如上述表1所示，如果仅采用上述数字对符号编码，不仅难以进行高效的矩阵计算，而且单一的标签无法表示各个标点符号之间的关系，因此需要对标点符号进行符号嵌入(symbol Embedding)操作，以将其转化为嵌入向量。此处也需要对词性标记和字标记进行符号嵌入(symbol Embedding)操作，以将其转化为嵌入向量。

作为进一步优化的实施例，所述对所述原始文本提取字标记，可以是对所述原始文本中每个字按音素拆分并依顺序进行标记。

考虑到TTS模型的输入为音素序列，音素序列长度大于字标记序列，如果仅用字标记序列作为特征则还需要按音素长度扩展。所述字标记可采用细粒度字标记，即对每一个字按音素排列顺序进行标记。上述例子“充满希望的二零二二年”中的音素为：“ch ong1 man3 x i1 w uang4 d e5 er4 l ing2 er4 er4 n ian2”，那么其细粒度字标记则可表示为：[B1B2E1E2 B1B2E1E2 S1S2 B1M1M2M3M4E1E2]。所述细粒度字标记长度与音素长度一致，且包含了边界及顺序信息。

一种优选实施例，所述根据所述输入信息提取第一隐层特征变量，如图3所示，包括如下步骤：

S201：多头注意力机制：根据多头注意力机制对所述输入信息的上下文信息进行编码，并进行残差连接及正则化处理；

S202：多尺度卷积：通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到所述第一隐层特征变量。

本实施例中，所述多头注意力机制属于现有技术，在此不予赘述。在所述多头注意力机制之后，我们提出一个多尺度的滤波器(filter)结构，该滤波器包含多个不同大小的一维卷积通道，不同尺寸的卷积核可覆盖不同范围的特征。根据中文语句的特点，中文短语一般包含1～4个字，一个字的前后几个字必然和这个字本身相关，因此需要充分考虑局部特征提取。如图4所示，以所述滤波器包含3个一维卷积通道的情况为例，采用的滤波器大小分别为n1、n2、n3(n1、n2、n3分别为不同尺寸的卷积核)，可实现对不同长度的短语特征进行提取，最后将3个特征进行融合。如图4所示，当多层卷积层堆叠，通过表达式(m+2p-h)/s+1，其中m为输入序列长度，p为填充大小，h为滤波器大小，s为步长。通过调整各个参数值可保证输入编码长度D1和输出编码长度维度不变。

在通过多头注意力机制或多尺度卷积处理后，通过建立所述残差连接可缓解训练过程中梯度消失的问题，通过所述正则化处理可缓解过拟合的问题。

通过在编码和解码过程中采用多头注意力机制结合多尺度卷积的方式，可更有效地利用文字的局部特征，实现文本中从字到词、短语、句子和段落层级特征提取，有效提高短语间的自然停顿效果。

一种优选实施例，所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量，如图5所示，包括如下步骤：

S301：根据所述第一隐层特征变量进行音素时长预测，获得每个音素的时长信息并通过长度调节器进行残差融合；

S302：进行能量预测，获得每个音素的音量信息并进行残差融合；

S303：进行音高预测，获得每个音素的音高信息并进行残差融合。

本实施例中，以隐层特征为输入预测出音素的音高、能量及时长三个变量，然后将三个变量与隐层特征融合作为新的隐层特征，即所述第二隐层特征变量。所述音素时长预测，可根据音素真实发音时长为标签，训练一个音素时长预测器，以预测每一个音素的时长。

所述残差融合是指将预测前后的隐层特征通过残差连接进行融合。特别地，所述音素时长预测通过长度调节器实现音素时长与梅尔频谱的对齐。

由于语音合成是one-to-many映射关系(即多个频谱对应同一音素)，因此需要音素时长预测进行音素与梅尔频谱的对齐。从编码器获得的语言学特征经过一个音素时长预测，可获得每一个音素的持续时间。如图16所示，可通过长度调节器(LR，Length Regular)将语言学特征按音素持续时间扩展(即长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔频谱的长度)，从而实现语言学特征与梅尔频谱的对齐。

一种优选实施例，在所述根据所述输入信息提取第一隐层特征变量之后，如图6所示，还包括如下步骤：

S311：根据所述第一隐层特征变量进行短语时长预测，获得每个短语的时长信息；

S312：根据所述音素时长预测模块预测的短语内各音素时长之和与所述短语时长预测模块预测的短语时长计算损失。

本实施例中，所述短语时长预测，可根据短语真实发音时长为标签，训练一个短语时长预测器，以预测每一个短语时长。

本实施例可采用均方误差(MSE)作为损失函数，用于本实施例中的端到端声学模型的训练。所述短语时长预测与音素时长预测共同建立了关于短语时长的误差矫正机制。在训练过程中，所述短语时长预测将短语真实持续时间作为目标值，其预测的短语时长与音素预测的音素时长(指对短语内各个音素时长求和)进行差值计算(MSELoss)，这样可以有效提升模型对短语预测时长的准确性，提高了模型预测整体的鲁棒性。

一种优选实施例，所述根据所述第二隐层特征变量进行解码得到梅尔频谱变量，如图7所示，包括如下步骤：

S401：多头注意力机制：根据多头注意力机制对所述第二隐层特征变量进行编码，并进行残差连接及正则化处理；

S402：多尺度卷积：通过多个不同尺寸的卷积核对不同长度的声学特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到对应的梅尔频谱变量。

本实施例中，解码器结构与编码器结构完全一致，不同的是，两者各参数独立，多尺度卷积filter大小受到LR的控制，即根据音素展开的长度设置filter值。

为了能更好地说明本发明的技术效果，现将现有技术中的方案与本发明的方案进行对比，具体列举实施例如下：

实施例1：

采用的原始文本为：华南理工大学地处广州，是直属教育部的全国重点大学，校园分为五山校区、大学城校区和广州国际校区，是首届“全国文明校园”获得单位。

现有技术中生成的音频效果如图8所示；本发明生成的音频效果如图9所示。

从以上两图的对比中可以发现，在标点符号处停顿时长发生了明显变化，停顿更加合理。

实施例2：

采用的原始文本为：大家好我是来自华南理工大学计算机学院的一名研究生。

现有技术中生成的音频效果如图10所示；本发明生成的音频效果如图11所示。

从以上两图的对比中可以发现，在短语间，如“…华南理工大学//计算机学院…”处停顿时长发生明显变化，停顿更加合理。

第二方面，一种具有自然停顿处理的语音合成装置，如图12所示，包括：

前端处理模块，用于从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；

一种优选实施例，所述前端处理模块，如图13所示，包括：

标点符号标记嵌入模块，用于对所述原始文本进行标点符号标记并转化为嵌入向量；

词性标记嵌入模块，用于对所述原始文本进行词性标记并转化为嵌入向量；

字标记嵌入模块，用于对所述原始文本进行字标记并转化为嵌入向量；

音素编码模块，用于将所述原始文本中的汉字和数字转换为音素并编码为文本序列；

融合模块，用于将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合，得到用于所述编码器模块的输入信息。

特别地，所述对所述原始文本提取字标记，可以是对所述原始文本中每个字按音素拆分并依顺序进行标记。

一种优选实施例，所述编码器模块，如图14所示，包括：

多头注意力机制模块，用于根据多头注意力机制对所述输入信息的上下文信息进行编码，并进行残差连接及正则化处理；

多尺度卷积模块，用于通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到所述第一隐层特征变量。

本实施例中，所述多头注意力机制属于现有技术，在此不予赘述。对于所述编码器模块，在所述多头注意力机制之后，我们提出一个多尺度的滤波器(filter)结构，该滤波器包含多个不同大小的一维卷积通道，不同尺寸的卷积核可覆盖不同范围的特征。根据中文语句的特点，中文短语一般包含1～4个字，一个字的前后几个字必然和这个字本身相关，因此需要充分考虑局部特征提取。如图4所示，以所述滤波器包含3个一维卷积通道的情况为例，采用的滤波器大小分别为n1、n2、n3(n1、n2、n3分别为不同尺寸的卷积核)，可实现对不同长度的短语特征进行提取，最后将3个特征进行融合。如图4所示，当多层卷积层堆叠，通过表达式(m+2p-h)/s+1，其中m为输入序列长度，p为填充大小，h为滤波器大小，s为步长。通过调整各个参数值可保证输入编码长度D1和输出编码长度维度不变。

如图16所示，在通过多头注意力机制或多尺度卷积处理后，通过建立所述残差连接可缓解训练过程中梯度消失的问题，通过所述正则化处理可缓解过拟合的问题。

一种优选实施例，所述变量预测模块，如图15所示，包括：

音素时长预测模块，用于根据所述第一隐层特征变量进行音素时长预测，获得每个音素的时长信息并通过长度调节器进行残差融合；

能量预测模块，用于进行能量预测，获得每个音素的音量信息并进行残差融合；

音高预测模块，用于进行音高预测，获得每个音素的音高信息并进行残差融合。

本实施例中，所述变量预测器模块主要以隐层特征为输入预测出音素的音高、能量及时长三个变量，然后将三个变量与隐层特征融合作为新的隐层特征，即所述第二隐层特征变量。

所述残差融合是指将预测前后的隐层特征通过残差连接进行融合。特别地，所述音素时长预测模块通过长度调节器实现音素时长与梅尔频谱的对齐。

在变量预测器中，由于语音合成是one-to-many映射关系(即多个频谱对应同一音素)，因此需要音素时长预测进行音素与梅尔频谱的对齐。从编码器获得的语言学特征经过一个音素时长预测，可获得每一个音素的持续时间。如图16所示，可通过长度调节器(LR，Length Regular)将语言学特征按音素持续时间扩展(即长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔频谱的长度)，从而实现语言学特征与梅尔频谱的对齐。

作为进一步优选，所述变量预测模块，如图15所示，还包括：

短语时长预测模块，用于进行短语时长预测，获得每个短语的时长信息；

损失模块，用于根据所述音素时长预测模块预测的短语内各音素时长之和与所述短语时长预测模块预测的短语时长计算损失。

本实施例中，所述损失模块，可采用均方误差(MSE)作为损失函数，用于本实施例中的端到端声学模型的训练。所述短语时长预测模块与音素时长预测模块共同建立了关于短语时长的误差矫正机制。在训练过程中，所述短语时长预测将短语真实持续时间作为目标值，预测的短语时长与音素预测的音素时长(指对短语内各个音素时长求和)进行差值计算(MSE Loss)，这样可以有效提升模型对短语预测时长的准确性，提高了模型预测整体的鲁棒性。

一种优选实施例，所述解码器模块，如图16所示，其结构与所述编码器模块相同，包括多头注意力机制模块及多尺度卷积模块，其中所述多头注意力机制模块在多头注意力机制后进行残差连接及正则化处理，所述多尺度卷积模块在提取特征后进行残差连接及正则化处理。所述解码器模块与所述编码器模块的区别主要在于，两者的输入输出不同，两者的参数独立(即参数不同享)。

第三方面，一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任意一种具有自然停顿处理的语音合成方法。

第四方面，一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如第一方面中任意一种具有自然停顿处理的语音合成方法。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种具有自然停顿处理的语音合成方法，其特征在于，包括如下步骤：

根据所述输入信息提取第一隐层特征变量；

根据所述第二隐层特征变量进行解码得到梅尔频谱变量；

根据所述梅尔频谱变量合成与所述原始文本对应的语音。

2.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息，包括如下步骤：

对所述原始文本提取标点符号标记并转换为嵌入向量；

对所述原始文本提取词性标记并转换为嵌入向量；

对所述原始文本提取字标记并转换为嵌入向量；

3.根据权利要求1或2所述的一种具有自然停顿处理的语音合成方法，其特征在于：

所述字标记，是由所述原始文本中每个字按音素拆分并依顺序标记形成。

4.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述根据所述输入信息提取第一隐层特征变量，包括如下步骤：

5.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量，包括如下步骤：

进行能量预测，获得每个音素的音量信息并进行残差融合；

进行音高预测，获得每个音素的音高信息并进行残差融合。

6.根据权利要求5所述的一种具有自然停顿处理的语音合成方法，其特征在于，在所述根据所述输入信息提取第一隐层特征变量之后，还包括如下步骤：

7.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述根据所述第二隐层特征变量进行解码得到梅尔频谱变量，包括如下步骤：

8.一种具有自然停顿处理的语音合成装置，其特征在于，包括：

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任意所述的一种具有自然停顿处理的语音合成方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任意所述的一种具有自然停顿处理的语音合成方法。