CN109523989B

CN109523989B - 语音合成方法、语音合成装置、存储介质及电子设备

Info

Publication number: CN109523989B
Application number: CN201910088011.2A
Authority: CN
Inventors: 王春峰; 林辉; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2022-01-11
Anticipated expiration: 2039-01-29
Also published as: CN109523989A

Abstract

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及一种语音合成方法、语音合成装置、存储介质及电子设备。该方法包括：获取待处理文本；利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征；利用第二模型处理所述中间特征，得到所述待处理文本的时长特征；基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征；根据所述声学特征，合成所述待处理文本的语音。本发明可以基于对文本的中间特征提取，得到较为充分的时长特征与声学特征，实现更加自然的语音合成，同时简化语音合成模型，提高效率。

Description

语音合成方法、语音合成装置、存储介质及电子设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及一种语音合成方法、语音合成装置、存储介质及电子设备。

背景技术

本部分旨在为权利要求中陈述的本发明的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。

语音合成是将文本转为输出语音的技术，在诸如翻译机、有声阅读、同声传译等场景下都有较重要的应用，是现代人工智能技术中非常重要的一环，属于自然语言处理领域和智能语音领域的交叉应用学科。

随着深度学习技术的发展，基于神经网络的语音合成模型已成为现有技术中广泛使用的方案，通常利用神经网络构建语音合成的时长模型与声学模型，时长模型与声学模型采用串联的形式，例如图1示出了一种典型的时长模型与声学模型结构，在图1中，将文本输入特征输入到左侧由双向长短时记忆单元构成的时长模型，通过时长模型的处理得到时长特征，再以文本输入特征与时长特征作为声学输入特征，通过右侧由双向长短时记忆单元构成的声学模型的处理得到声学特征，从而合成语音。

发明内容

然而，现有技术中，由于语言本身的稀疏性以及人工提取的特征对于文本语言信息表示的不充分性等原因，导致得到的时长特征与声学特征不完全，使得最终合成语音的自然程度较低，并且时长模型与声学模型的设计复杂度较高、参数较多，增加了模型训练的难度，降低了语音合成的效率。

为此，非常需要一种改进的语音合成方法，可以在简化语音合成模型的同时，提高模型对于语言特征表示的充分性，得到自然程度较高的语音，实现高效的语音合成处理。

在本上下文中，本发明的实施方式期望提供一种语音合成方法、语音合成装置、存储介质及电子设备。

根据本发明实施方式的第一方面，提供一种语音合成方法，所述方法包括：获取待处理文本；利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征；利用第二模型处理所述中间特征，得到所述待处理文本的时长特征；基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征；根据所述声学特征，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述方法还包括：获取样本数据；获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；以所述样本数据作为所述第一神经网络模型的输入，以所述第一神经网络模型的输出作为所述第二神经网络模型的输入，以所述样本数据的样本时长信息作为第二神经网络模型的输出，以所述第一神经网络模型的输出与所述样本时长信息作为所述第三神经网络模型的输入，以所述样本数据的样本声学特征作为第三神经网络模型的输出，对所述第一、第二和第三神经网络模型进行训练；将训练后的所述第一神经网络模型确定为所述第一模型，训练后的所述第二神经网络模型确定为所述第二模型，训练后的所述第三神经网络模型确定为所述第三模型。

在本发明的一种实施方式中，所述第一神经网络模型为包含残差连接的卷积网络模型。

在本发明的一种实施方式中，所述第三模型包括第一分支模型与第二分支模型；所述基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征，包括：利用所述第一分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第一类声学特征；利用所述第二分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第二类声学特征；所述根据所述声学特征，合成所述待处理文本的语音，包括：根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述第一类声学特征包括以下任意一种或多种：梅尔频率倒谱系数、广义梅尔倒谱系数、谱包络与能量特征；所述第二类声学特征包括以下任意一种或多种：基频、浊音/轻音分类特征与频带非周期分量。

在本发明的一种实施方式中，所述第一类声学特征包括广义梅尔倒谱系数，所述第二类声学特征包括基频、浊音/轻音分类特征与频带非周期分量；所述根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音，包括：利用第四模型处理所述待处理文本的广义梅尔倒谱系数，得到所述待处理文本的频谱特征；根据所述待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述第四模型为卷积网络模型。

在本发明的一种实施方式中，所述获取待处理文本之后，所述方法还包括：提取所述待处理文本的语言学特征；所述利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征，包括：利用所述第一模型处理所述语言学特征，得到所述待处理文本的中间特征。

根据本发明实施方式的第二方面，提供一种语音合成装置，所述装置包括：文本获取模块，用于获取待处理文本；第一处理模块，用于利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征；第二处理模块，用于利用第二模型处理所述中间特征，得到所述待处理文本的时长特征；第三处理模块，用于基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征；语音合成模块，用于根据所述声学特征，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述装置还包括模型管理模块；所述模型管理模块包括以下单元：样本数据获取单元，用于获取样本数据，所述样本数据包括样本文本以及所述样本文本对应的样本时长信息与样本声学特征；初始模型获取单元，用于获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；模型训练单元，用于以所述样本数据作为所述第一神经网络模型的输入，以所述第一神经网络模型的输出作为所述第二神经网络模型的输入，以所述样本数据的样本时长信息作为第二神经网络模型的输出，以所述第一神经网络模型的输出与所述样本时长信息作为所述第三神经网络模型的输入，以所述样本数据的样本声学特征作为第三神经网络模型的输出，对所述第一、第二和第三神经网络模型进行训练；模型确定单元，用于将训练后的所述第一神经网络模型确定为所述第一模型，训练后的所述第二神经网络模型确定为所述第二模型，训练后的所述第三神经网络模型确定为所述第三模型。

在本发明的一种实施方式中，所述第三模型包括第一分支模型与第二分支模型；所述第三处理模块包括以下单元：第一分支处理单元，用于利用所述第一分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第一类声学特征；第二分支处理单元，用于利用所述第二分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第二类声学特征；所述语音合成模块用于根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述第一类声学特征包括广义梅尔倒谱系数，所述第二类声学特征包括基频、浊音/轻音分类特征与频带非周期分量；所述语音合成模块包括以下单元：频谱特征确定单元，用于利用第四模型处理所述待处理文本的广义梅尔倒谱系数，得到所述待处理文本的频谱特征；语音合成单元，用于根据所述待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成所述待处理文本的语音。

在本发明的一种实施方式中，所述装置还包括：特征提取模块，用于提取所述待处理文本的语言学特征；所述第一处理模块用于利用所述第一模型处理所述语言学特征，得到所述待处理文本的中间特征。

根据本发明实施方式的第三方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

根据本发明实施方式的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本发明实施方式的语音合成方法、语音合成装置、存储介质及电子设备，基于预先训练的第一模型、第二模型与第三模型，采用串联与并联结合的方式对待处理文本进行处理，得到其声学特征，再根据声学特征合成语音。一方面，利用第一模型的处理过程，将时长处理与声学处理中相同的特征表示为中间特征，从而简化了现有技术在两部分模型中分别提取特征的方式，降低了模型的复杂度，减少了模型参数，有利于实现模型的训练，提高语音合成的效率。另一方面，中间特征为第一模型对待处理文本进行特征提取以及提纯学习后得到的进一步特征，是从机器层面上对待处理文本进行深度挖掘后的抽象表示，且中间特征通常具有较高的维度，相比于现有技术通过文本输入特征对文本进行表面化的表示，中间特征包含了更全面的文本信息与语言信息，因此有利于得到更加充分的时长特征与声学特征，实现更加自然的语音合成。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了相关技术中语音合成模型的结构图；

图2示意性地示出了根据本发明实施方式的语音合成方法的流程步骤图；

图3示意性地示出了根据本发明实施方式的语音合成方法的流程示意图；

图4示意性地示出了根据本发明实施方式的语音合成方法的子流程步骤图；

图5示意性地示出了根据本发明实施方式的语音合成方法的子流程示意图；

图6示意性地示出了根据本发明实施方式的语音合成装置的结构方框图；

图7示意性地示出了根据本发明实施方式的存储介质的示意图；以及

图8示意性地示出了根据本发明实施方式的电子设备的结构方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提供一种语音合成方法、语音合成装置、存储介质及电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐述本发明的原理和精神。

发明概述

本发明人发现，在现有的语音合成方法中，由于语言本身的稀疏性以及人工提取的特征对于文本语言信息表示的不充分性等原因，导致得到的时长特征与声学特征不完全，使得最终合成语音的自然程度较低，并且时长模型与声学模型的设计复杂度较高、参数较多，增加了模型训练的难度，降低了语音合成的效率。

鉴于上述内容，本发明的基本思想在于：基于预先训练的第一模型、第二模型与第三模型，采用串联与并联结合的方式对待处理文本进行处理，得到其声学特征，再根据声学特征合成语音。一方面，利用第一模型的处理过程，将时长处理与声学处理中相同的特征表示为中间特征，从而简化了现有技术在两部分模型中分别提取特征的方式，降低了模型的复杂度，减少了模型参数，有利于实现模型的训练，提高语音合成的效率。另一方面，中间特征为第一模型对待处理文本进行特征提取以及提纯学习后得到的进一步特征，是从机器层面上对待处理文本进行深度挖掘后的抽象表示，且中间特征通常具有较高的维度，相比于现有技术通过文本输入特征对文本进行表面化的表示，中间特征包含了更全面的文本信息与语言信息，因此有利于得到更加充分的时长特征与声学特征，实现更加自然的语音合成。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明的实施方式可以具体应用于语音合成技术所适用的所有场景，例如：在同声传译中，将原始语音转换为文本，对文本进行翻译，基于翻译后的文本，合成目标语言的语音；在有声阅读中，将电子书内容的文本合成为模拟真人朗读的语音。

示例性方法

本发明示例实施方式首先提出了一种语音合成方法，该方法可以由具备运算处理功能的电子设备执行，包括但不限于下述设备中的至少一种：用户设备或网络设备；用户设备可以是计算机、智能手机、平板电脑或掌上电脑等，网络设备可以是服务器、多个服务器组成的集群或基于云计算的虚拟计算机等。图2示出了该方法的流程步骤，可以包括步骤S210～S250：

步骤S210中，获取待处理文本。

本示例实施方式中，待处理文本即需要进行语音合成的文本，可以是同声传译中翻译后的文本或有声阅读中电子书内容的文本等。

在本发明的一些实施方式中，可以对待处理文本进行一定的预处理，举例而言，可以进行分句处理，以每一句文本作为一个待处理文本，执行本示例实施方式的语音合成；或者对待处理文本中的空格、括号、引号等符号进行转换，表示为统一的分隔符或其他字符；或者检测待处理文本中是否包含无法识别的字符，并进行相应处理，如拼写错误的词自动更正为最接近的正确词、不支持的语种词可以先行翻译(一般情况下语音合成方法支持中文与英文，对于其他语种的词，可以先通过翻译工具翻译为中文或英文)等等，本示例实施方式对此不做特别限定。

步骤S220中，利用第一模型处理待处理文本，得到待处理文本的中间特征。

其中，第一模型可以是基于深度学习的神经网络模型，为预先训练过的模型，用于对待处理文本进行特征提取，得到中间特征，中间特征是模型对待处理文本所包含信息的抽象表示，例如可以是对待处理文本进行局部处理所得到的局部特征，也可以是对待处理文本进行正则化表示所得到的正则化特征，还可以是不具有具体含义的特征等等。语音合成的核心在于从待处理文本中提取时长特征与声学特征，而时长特征与声学特征又是基于待处理文本，进行多个层级的信息学习与特征提取后得到的，从神经网络模型的本质原理上来看，中间处理过程都是从机器的角度对待处理文本进行表示，因此在提取时长特征与提取声学特征两个部分中，存在相同的表示过程，该过程即本示例实施方式中步骤S220的处理过程。

在本发明的一些实施方式中，如图3所示的语音合成方法的流程示意，在步骤S210后，还可以包括步骤S215：提取待处理文本的语言学特征。相应的，在步骤S220中，可以利用第一模型处理待处理文本的语言学特征，得到待处理文本的中间特征。其中，语言学特征可以是从语言的角度对待处理文本进行解析所获得的特征，例如音素特征(将文本转换为一个个发音单元，如拼音、音标等)、语句结构特征(语句长度、语句成分)、间隔特征(语句的停顿、停顿时长)、情感特征(感叹句或陈述句等情感分类、上下文的情感特征、重音特征)等。可以通过自然语言处理工具提取待处理文本的语言学特征，并按照预设的特征属性转换为特征向量，以输入到第一模型中，有利于第一模型的处理。需要补充的是，对于特定语料中的语音合成，可以根据语料的特点提取语言学特征，例如预先建立语料词库，根据语料词库对待处理文本进行词性解析、语句结构解析等，以获得语境针对性更强的语言学特征。

步骤S230中，利用第二模型处理中间特征，得到待处理文本的时长特征。

其中，第二模型也可以是预先训练过的神经网络模型，用于基于中间特征，从时长的角度对待处理文本做进一步的特征提取与处理，得到其时长特征，时长特征用于从语音的角度表示待处理文本的时长分布信息，例如待处理文本所对应的语音总时长、各音素的时长、各音素之间的间隔时长等。第二模型与第一模型为串联连接的结构，即第一模型的输出为第二模型的输入，因此步骤S230与S220可以视为串行处理的过程，将待处理文本输入到第一模型中，并依次通过第一模型与第二模型的处理，可以依次得到中间特征与时长特征。

步骤S240中，基于中间特征与时长特征，利用第三模型确定待处理文本的声学特征。

其中，第三模型也可以是预先训练过的神经网络模型，用于基于中间特征与时长特征，从声学的角度对待处理文本做进一步的特征提取与处理，得到其声学特征。参考上述图3所示，第三模型的输入为两部分：第一模型输出的中间特征，与第二模型输出的时长特征；两部分特征可以通过拼接的形式形成第三模型的输入，例如中间特征与时长特征的维度拼接，生成维度更高的输入向量，可见，三个模型之间为串联与并联结合的结构。

本示例实施方式中，中间特征、时长特征、声学特征是在不同阶段、从不同方面对待处理文本的信息进行表示的特征，其中中间特征通常学习程度较低、特征覆盖的范围更大、特征的含义更抽象(一般并无具体的含义)，时长特征与声学特征的学习程度较高、特征的针对性更强、含义更具体。

步骤S250中，根据声学特征，合成待处理文本的语音。

本示例实施方式中的声学特征可以是利用声码器合成语音所需要的特征，也可以是利用其它方法合成语音所需要的特征，例如声学特征可以是语音的梅尔频率倒谱系数、谱包络、能量特征、基频、浊音/轻音分类特征与频带非周期分量等。基于声学特征可以合成目标语音，目标语音即待处理文本的语音。例如可以将声学特征输入到声码器中，声码器可以合成音频信号，再经过一定的去噪处理，得到目标语音。本示例实施方式对于合成方法不做特别限定。

在本发明的一些实施方式中，如图4所示，语音合成方法还可以包括第一模型、第二模型与第三模型的训练过程，具体为步骤S410～S440：

步骤S410中，获取样本数据；

步骤S420中，获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；

步骤S430中，以样本数据作为第一神经网络模型的输入，以第一神经网络模型的输出作为第二神经网络模型的输入，以样本数据的样本时长信息作为第二神经网络模型的输出，以第一神经网络模型的输出与样本时长信息作为第三神经网络模型的输入，以样本数据的样本声学特征作为第三神经网络模型的输出，对第一、第二和第三神经网络模型进行训练；

步骤S440中，将训练后的第一神经网络模型确定为第一模型，训练后的第二神经网络模型确定为第二模型，训练后的第三神经网络模型确定为第三模型。

其中，样本数据可以是样本文本和其语言学特征，可以作为训练中所使用的输入数据；基于样本文本，通过真人朗读等方式获取样本文本所对应的真实语音，从真实语音中解析出时长信息与声学特征，即上述样本时长信息与样本声学特征，可以作为训练中所使用的标注数据。

初始的第一、第二与第三神经网络模型应当满足图3中第一、第二与第三模型的结构，即第一神经网络模型的输出为第二神经网络模型的输入，第一神经网络模型的输出与第二神经网络模型的输出共同形成第三神经网络模型的输入。

在获取样本数据与初始模型后，可以执行步骤S430的训练过程。步骤S430可以通过合并训练的方式执行：将样本数据输入第一神经网络模型的输入层，样本时长信息为第二神经网络模型的标注数据，同时将第一神经网络模型的输出与样本时长信息(代替第二神经网络模型的输出)共同输入第三神经网络模型，样本声学特征为第三神经网络模型的标注数据。参考图3所示的模型结构，第二与第三神经网络模型可以分别输出样本数据对应的结果，通过调整第一、第二与第三神经网络模型中的参数，使得第二与第三神经网络模型的输出结果分别与其标注数据相同(或误差小于预定值)，以实现对第一、第二与第三神经网络模型的合并训练。

步骤S430也可以通过分别训练的方式执行：将样本数据输入第一神经网络模型的输入层，样本时长信息为第二神经网络模型的标注数据，首先利用第一与第二神经网络模型的串联结构对样本数据进行串行处理，在第二神经网络模型的输出层输出结果，通过调整第一与第二神经网络模型中的参数，使得第二神经网络模型的输出结果与其标注数据相同，从而首先实现对第一与第二神经网络模型的训练；然后将样本数据输入第一神经网络模型的输入层，样本声学特征为第三神经网络模型的标注数据，利用第一、第二与第三神经网络模型的整体结构对样本数据进行处理，在第三神经网络模型的输出层输出结果，通过调整第三神经网络模型中的参数(在此过程中可以锁定第一与第二神经网络模型的参数)，使得第三神经网络模型的输出结果与其标注数据相同，从而实现对第三神经网络模型的训练。

当然，在上述训练过程中，可以对大量的样本数据划分训练集与验证集，通过训练集迭代调整模型参数，通过验证集验证模型的准确率，当准确率达到预定的标准时，完成训练。本示例实施方式对于训练的具体过程不做特别限定。

完成三个神经网络模型的训练后，第一神经网络模型即为步骤S220中的第一模型，第二神经网络模型即为步骤S230中的第二模型，第三神经网络模型即为步骤S240中的第三模型。

在本发明的一些实施方式中，第一神经网络模型可以是包含残差连接的卷积网络模型。卷积网络模型包括一个或多个卷积层，用于对待处理文本进行卷积处理，卷积的优势在于能够提取局部特征信息，有利于在后续处理中进一步提取精细度较高的特征，以得到准确度更高的时长特征与声学特征。例如在第一神经网络模型中构建包含15个单元(音素或音节)的卷积核，15个单元可以覆盖一般性语句的上下文信息，相当于从待处理文本中提取具有完整语义的分句，后续再从每个分句中提取特征；当然，根据实际需求，可以任意调整卷积核的尺寸与卷积的步长。此外，在卷积网络模型中加入残差连接有利于进行特征信息的非线性变换处理，例如在模型的输入层与中间层之间建立残差连接，可以避免卷积过程中丢失一部分待处理文本的原始信息，从而进一步提高时长特征与声学特征的质量。

在本发明的一些实施方式中，第三模型可以包括第一分支模型与第二分支模型；相应的，步骤S240可以包括步骤S510～S520：

步骤S510中，利用第一分支模型处理中间特征与时长特征，得到待处理文本的第一类声学特征；

步骤S520中，利用第二分支模型处理中间特征与时长特征，得到待处理文本的第二类声学特征；

步骤S250可以包括步骤S530：

步骤S530中，根据第一类声学特征与第二类声学特征，合成待处理文本的语音。

本示例实施方式中，根据声学特征的特点可以对其进行分类，例如与语音内容相关的特征为第一类声学特征，可以包括梅尔频率倒谱系数、广义梅尔倒谱系数、谱包络与能量特征中的任意一种或多种，与基础发音信息相关的特征为第二类声学特征，可以包括基频、浊音/轻音分类特征与频带非周期分量中的任意一种或多种。当然，根据其他的分类标准，例如按照特征维度的数量等进行分类，也可以获得其他分类结果，本示例实施方式对此不做限定。分类的目的在于，根据不同类声学特征的特点，通过不同的分支模型进行处理，可以有不同的侧重点，例如本实施例中，基于待处理文本的中间特征与时长特征，第一分支模型与第二分支模型可以分别侧重于不同方面的特征提取与处理，每个方面的特征数量与维度都可以大大减少，从而实际上简化了第三模型，且第一分支模型与第二分支模型可以针对各自的侧重点，实现更加精细的特征提取与处理，进一步提高声学特征的质量。

对于图5中的第一分支模型与第二分支模型，在训练时，可以通过第一与第二类声学特征的分类标准对样本数据的样本声学特征进行分类，获得作为标注数据的第一类样本声学特征与第二类样本声学特征，分别用于第一分支模型与第二分支模型的训练，从而获得两分支模型。

在本发明的一些实施方式中，第一类声学特征包括广义梅尔倒谱系数，第二类声学特征包括基频、浊音/轻音分类特征与频带非周期分量；相应的，参考图5中虚线所示的步骤流程，步骤S530可以进一步通过步骤S531～S532实现：

步骤S531中，利用第四模型处理待处理文本的广义梅尔倒谱系数，得到待处理文本的频谱特征；

步骤S532中，根据待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成待处理文本的语音。

其中，第四模型可以是神经网络模型，以广义梅尔倒谱系数为输入，以频谱特征为输出，频谱特征可以是线性频谱特征，也可以是非线性频谱特征。本示例实施方式中，通过第一、第二与第三模型对样本数据进行处理，可以得到包含广义梅尔倒谱系数的声学特征，将其中的广义梅尔倒谱系数分离出来，作为训练第四模型的输入数据，从样本文本的真实语音中提取频谱特征，作为训练第四模型的标注数据，从而可以实现第四模型的训练。

由于广义梅尔倒谱系数通常具有较高的维度(例如具有180个维度)，现有技术中将其转换为频谱特征的经验算法涉及庞大的运算量，通常效率较低，且准确率无法保证。神经网络模型在处理高维度特征方面具有优势，通过神经网络模型进行广义梅尔倒谱系数与频谱特征的转换，可以达到较高的准确度以及较快的速率。

后续基于待处理文本的频谱特征、基频、浊音/轻音分类特征与频带非周期分量，可以通过声码器快速合成目标语音。

进一步的，在本发明的一些实施方式中，第四模型可以是卷积网络模型，例如第四模型可以包含4个卷积层，当然本示例实施方式不限定于此，通过卷积处理，对待处理文本的广义梅尔倒谱系数进行局部特征的提取，实现较为精细的频谱转换，进一步提高语音合成的质量。

示例性装置

在介绍了本发明示例性实施方式的语音合成方法之后，接下来，参考图6对本发明示例性实施方式的语音合成装置进行说明。

如图6所示，该语音合成装置600可以包括：文本获取模块610，用于获取待处理文本；第一处理模块630，用于利用第一模型处理待处理文本，得到待处理文本的中间特征；第二处理模块640，用于利用第二模型处理中间特征，得到待处理文本的时长特征；第三处理模块650，用于基于中间特征与时长特征，利用第三模型确定待处理文本的声学特征；语音合成模块660，用于根据声学特征，合成待处理文本的语音。

在本发明的一些实施方式中，语音合成装置600还可以包括模型管理模块670；模型管理模块670又可以包括以下单元：样本数据获取单元671，用于获取样本数据，样本数据包括样本文本以及样本文本对应的样本时长信息与样本声学特征；初始模型获取单元672，用于获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；模型训练单元673，用于以样本数据作为第一神经网络模型的输入，以第一神经网络模型的输出作为第二神经网络模型的输入，以样本数据的样本时长信息作为第二神经网络模型的输出，以第一神经网络模型的输出与样本时长信息作为第三神经网络模型的输入，以样本数据的样本声学特征作为第三神经网络模型的输出，对第一、第二和第三神经网络模型进行训练；模型确定单元674，用于将训练后的第一神经网络模型确定为第一模型，训练后的第二神经网络模型确定为第二模型，训练后的第三神经网络模型确定为第三模型。

在本发明的一些实施方式中，第一神经网络模型可以是包含残差连接的卷积网络模型。

在本发明的一些实施方式中，第三模型可以包括第一分支模型与第二分支模型；第三处理模块650可以包括以下单元：第一分支处理单元651，用于利用第一分支模型处理中间特征与时长特征，得到待处理文本的第一类声学特征；第二分支处理单元652，用于利用第二分支模型处理中间特征与时长特征，得到待处理文本的第二类声学特征；相应的，语音合成模块660可以用于根据第一类声学特征与第二类声学特征，合成待处理文本的语音。

在本发明的一些实施方式中，第一类声学特征可以包括以下任意一种或多种：梅尔频率倒谱系数、广义梅尔倒谱系数、谱包络与能量特征；第二类声学特征可以包括以下任意一种或多种：基频、浊音/轻音分类特征与频带非周期分量。

在本发明的一些实施方式中，第一类声学特征为广义梅尔倒谱系数，第二类声学特征为基频、浊音/轻音分类特征与频带非周期分量；语音合成模块660可以包括以下单元：频谱特征确定单元661，用于利用第四模型处理待处理文本的广义梅尔倒谱系数，得到待处理文本的频谱特征；语音合成单元662，用于根据待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成待处理文本的语音。

在本发明的一些实施方式中，第四模型为卷积网络模型。

在本发明的一些实施方式中，语音合成装置600还可以包括：特征提取模块620，用于提取待处理文本的语言学特征；相应的，第一处理模块630可以用于利用第一模型处理语言学特征，得到待处理文本的中间特征。

此外，本发明实施方式的其他具体细节在上述语音合成方法的发明实施方式中已经详细说明，在此不再赘述。

示例性存储介质

在介绍了本发明示例性实施方式的语音合成方法和装置之后，接下来，参考图7对本发明示例性实施方式的存储介质进行说明。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

在介绍了本发明示例性实施方式的存储介质之后，接下来，参考图8对本发明示例性实施方式的电子设备进行说明。

图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。

其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元810可以执行如图2至图5中任意一种方法的步骤。

存储单元820可以包括易失性存储单元，例如随机存取存储单元(RAM)821和/或高速缓存存储单元822，还可以进一步包括只读存储单元(ROM)823。

存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824，这样的程序模块825包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以包括数据总线、地址总线和控制总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840，其连接到输入/输出(I/O)接口850，用于进行显示。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了语音合成装置的若干模块或单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块/单元的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取待处理文本；

利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征；

利用第二模型处理所述中间特征，得到所述待处理文本的时长特征；

基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征；

根据所述声学特征，合成所述待处理文本的语音；

所述方法还包括：

获取样本数据；

获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；

以所述样本数据作为所述第一神经网络模型的输入，以所述第一神经网络模型的输出作为所述第二神经网络模型的输入，以所述样本数据的样本时长信息作为第二神经网络模型的输出，以所述第一神经网络模型的输出与所述样本时长信息作为所述第三神经网络模型的输入，以所述样本数据的样本声学特征作为第三神经网络模型的输出，对所述第一、第二和第三神经网络模型进行训练；

将训练后的所述第一神经网络模型确定为所述第一模型，训练后的所述第二神经网络模型确定为所述第二模型，训练后的所述第三神经网络模型确定为所述第三模型；

所述第一神经网络模型为包含残差连接的卷积网络模型。

2.根据权利要求1所述的方法，其特征在于，所述第三模型包括第一分支模型与第二分支模型；

所述基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征，包括：

利用所述第一分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第一类声学特征；

利用所述第二分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第二类声学特征；

所述根据所述声学特征，合成所述待处理文本的语音，包括：

根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音。

3.根据权利要求2所述的方法，其特征在于，所述第一类声学特征包括以下任意一种或多种：梅尔频率倒谱系数、广义梅尔倒谱系数、谱包络与能量特征；所述第二类声学特征包括以下任意一种或多种：基频、浊音/轻音分类特征与频带非周期分量。

4.根据权利要求3所述的方法，其特征在于，所述第一类声学特征包括广义梅尔倒谱系数，所述第二类声学特征包括基频、浊音/轻音分类特征与频带非周期分量；

所述根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音，包括：

利用第四模型处理所述待处理文本的广义梅尔倒谱系数，得到所述待处理文本的频谱特征；

根据所述待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成所述待处理文本的语音。

5.根据权利要求4所述的方法，其特征在于，所述第四模型为卷积网络模型。

6.根据权利要求1所述的方法，其特征在于，所述获取待处理文本之后，所述方法还包括：

提取所述待处理文本的语言学特征；

所述利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征，包括：

利用所述第一模型处理所述语言学特征，得到所述待处理文本的中间特征。

7.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于获取待处理文本；

第一处理模块，用于利用第一模型处理所述待处理文本，得到所述待处理文本的中间特征；

第二处理模块，用于利用第二模型处理所述中间特征，得到所述待处理文本的时长特征；

第三处理模块，用于基于所述中间特征与所述时长特征，利用第三模型确定所述待处理文本的声学特征；

语音合成模块，用于根据所述声学特征，合成所述待处理文本的语音；

所述装置还包括模型管理模块；所述模型管理模块包括以下单元：

样本数据获取单元，用于获取样本数据，所述样本数据包括样本文本以及所述样本文本对应的样本时长信息与样本声学特征；

初始模型获取单元，用于获取初始的第一神经网络模型、第二神经网络模型与第三神经网络模型；

模型训练单元，用于以所述样本数据作为所述第一神经网络模型的输入，以所述第一神经网络模型的输出作为所述第二神经网络模型的输入，以所述样本数据的样本时长信息作为第二神经网络模型的输出，以所述第一神经网络模型的输出与所述样本时长信息作为所述第三神经网络模型的输入，以所述样本数据的样本声学特征作为第三神经网络模型的输出，对所述第一、第二和第三神经网络模型进行训练；

模型确定单元，用于将训练后的所述第一神经网络模型确定为所述第一模型，训练后的所述第二神经网络模型确定为所述第二模型，训练后的所述第三神经网络模型确定为所述第三模型；

所述第一神经网络模型为包含残差连接的卷积网络模型。

8.根据权利要求7所述的装置，其特征在于，所述第三模型包括第一分支模型与第二分支模型；

所述第三处理模块包括以下单元：

第一分支处理单元，用于利用所述第一分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第一类声学特征；

第二分支处理单元，用于利用所述第二分支模型处理所述中间特征与所述时长特征，得到所述待处理文本的第二类声学特征；

所述语音合成模块用于根据所述第一类声学特征与所述第二类声学特征，合成所述待处理文本的语音。

9.根据权利要求8所述的装置，其特征在于，所述第一类声学特征包括以下任意一种或多种：梅尔频率倒谱系数、广义梅尔倒谱系数、谱包络与能量特征；所述第二类声学特征包括以下任意一种或多种：基频、浊音/轻音分类特征与频带非周期分量。

10.根据权利要求9所述的装置，其特征在于，所述第一类声学特征包括广义梅尔倒谱系数，所述第二类声学特征包括基频、浊音/轻音分类特征与频带非周期分量；

所述语音合成模块包括以下单元：

频谱特征确定单元，用于利用第四模型处理所述待处理文本的广义梅尔倒谱系数，得到所述待处理文本的频谱特征；

语音合成单元，用于根据所述待处理文本的频谱特征与基频、浊音/轻音分类特征、频带非周期分量，合成所述待处理文本的语音。

11.根据权利要求10所述的装置，其特征在于，所述第四模型为卷积网络模型。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

特征提取模块，用于提取所述待处理文本的语言学特征；

所述第一处理模块用于利用所述第一模型处理所述语言学特征，得到所述待处理文本的中间特征。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任一项所述的方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6中任一项所述的方法。