CN114005428A

CN114005428A - 语音合成方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN114005428A
Application number: CN202111652808.4A
Authority: CN
Inventors: 胡亚军; 江源
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-02-01

Abstract

本发明提供一种语音合成方法、装置、电子设备、存储介质和程序产品，所述语音合成方法包括：对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。本发明的语音合成方法，在实际使用过程中，无需进行训练且预测结果的准确度高，合成速率快且合成效果好，有助于提高用户的使用体验。

Description

语音合成方法、装置、电子设备、存储介质和程序产品

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、电子设备、存储介质和程序产品。

背景技术

语音合成被广泛应用于智能助手、音箱、车载以及小说阅读等场景。相关技术中，一般需要对用户的语音信息进行筛选和预处理得到训练数据，并基于训练数据在多人语音合成系统上进行反复训练及调试，最终生成该用户对应的合成语音。该方法操作复杂，预测结果准确度较低，且对获取的用户的语音信息的质量具有较高的要求。

发明内容

本发明提供一种语音合成方法、装置、电子设备、存储介质和程序产品，用以解决现有技术中语音合成操作复杂且预测结果准确度低的缺陷，实现快速且高质量的语音合成。

本发明提供一种语音合成方法，包括：

对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；

对目标语音信息进行风格特征提取，生成目标风格特征；

对目标文本信息进行文本特征提取，生成目标文本编码；

基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；

基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；

基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。

根据本发明提供的一种语音合成方法，所述基于所述目标风格特征和所述目标文本编码，生成目标韵律特征，包括：

通过自回归约束，基于上一时刻对应的目标韵律特征以及当前时刻对应的目标文本编码和所述目标风格特征，生成所述当前时刻对应的目标韵律特征。

根据本发明提供的一种语音合成方法，所述目标语音信息包括所述第一用户的语音信息或第二用户的语音信息。

根据本发明提供的一种语音合成方法，所述对所述目标语音信息进行风格特征提取，生成目标风格特征；对所述目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成所述目标韵律特征，包括：

将所述目标语音信息输入至声学模型的韵律预测网络的风格提取层，获取所述风格提取层输出的所述目标风格特征；

将所述目标文本信息输入至所述韵律预测网络的第一文本编码层，获取所述第一文本编码层输出的所述目标文本编码；

将所述目标风格特征和所述目标文本编码输入至所述韵律预测网络的韵律预测层，获取所述韵律预测层输出的所述目标韵律特征；

其中，所述韵律预测网络为以样本语音信息和样本文本信息为样本，以与所述样本语音信息对应的样本韵律特征为样本标签，训练得到。

根据本发明提供的一种语音合成方法，所述对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；基于所述第一音色特征和目标韵律特征，生成所述第一语音信息对应的第一频谱特征，包括：

将所述第一语音信息输入至声学模型的声学预测网络的音色提取层，获取所述音色提取层输出的所述第一音色特征；

将所述第一音色特征和所述目标韵律特征输入至所述声学预测网络的声学预测层，获取所述声学预测层输出的所述第一频谱特征；

其中，所述声学预测网络为以样本语音信息和样本韵律特征为样本，以与所述样本语音信息对应的样本频谱特征为样本标签，训练得到。

根据本发明提供的一种语音合成方法，所述声学预测网络为以样本语音信息和样本韵律特征为样本，以与所述样本语音信息对应的样本频谱特征为样本标签，训练得到，包括：

将所述样本韵律特征和所述样本语音信息输入至所述声学预测网络，获取所述声学预测网络输出的预测频谱特征；

基于所述预测频谱特征和所述样本频谱特征，对所述声学预测网络进行训练。

本发明还提供一种语音合成装置，包括：

第一生成模块，用于对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；

第二生成模块，用于对目标语音信息进行风格特征提取，生成目标风格特征；

第三生成模块，用于对目标文本信息进行文本特征提取，生成目标文本编码；

第四生成模块，用于基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；

第五生成模块，用于基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；

第六生成模块，用于基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音合成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本发明提供的语音合成方法、装置、电子设备、存储介质和程序产品，基于第一语音信息生成第一音色特征，基于第一音色特征和目标韵律特征生成第一频谱特征，基于第一频谱特征和目标文本信息生成目标合成语音，在实际使用过程中，无需进行训练且预测结果的准确度高，合成速率快且合成效果好，有助于提高用户的使用体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图之一；

图2是本发明提供的语音合成方法的流程示意图之二；

图3是本发明提供的语音合成方法的流程示意图之三；

图4是本发明提供的语音合成方法的流程示意图之四；

图5是本发明提供的语音合成方法的流程示意图之五；

图6是本发明提供的语音合成方法的流程示意图之六；

图7是本发明提供的语音合成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图；

图9是本发明提供的语音合成方法的流程示意图之七。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图6以及图9描述本发明的语音合成方法。

该语音合成方法的执行主体可以为语音合成装置，或者可以为服务器，或者可以为用户的终端，如用户的手机、电脑、手表、车载终端、小说阅读器或学习机等。

如图1所示，该语音合成方法包括：步骤110、步骤120、步骤130、步骤140、步骤150、和步骤160。

步骤110、对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；

在该步骤中，第一用户为需要进行语音合成的用户。

第一语音信息为第一用户的声音信息。

第一语音信息可以为较短的一句话，例如为第一用户的一句话录音；或者也可以为较长的一段音频文件，本发明不做限定。

其中，第一语音信息可以为任意一句话，不局限于待合成语音信息的文本所对应的语音信息，例如可以为第一用户的一句问候语。

该第一语音信息可以通过拾音器等装置采集获取，或者也可以通过从视频或音频文件中截取获得，或者还可以通过从数据库中调取，或者可以从网络上下载得到，本发明不对第一语音信息的获取方式进行限定。

需要说明的是，第一语音信息可以为高质量语音信息，例如为在录音室等安静环境中采集的低噪数据；或者也可以为低质量语音信息，例如为在嘈杂的路口或其他环境下采集的高噪数据。

第一音色特征为预测得到的第一用户的音色特征。

其中，音色特征包括声纹信息，声纹信息为携带言语信息的声波频谱，用于表征用户声音的波长、频率、强度以及节奏等。

可以理解的是，不同用户的声纹信息不同，且同一用户的声纹信息具有特定性和稳定性。

在实际执行过程中，通过提取第一语音信息中的声纹特征，即可生成第一音色特征。

步骤120、对目标语音信息进行风格特征提取，生成目标风格特征；

在该步骤中，目标语音信息为用于生成目标韵律特征的语音信息。

目标语音信息为目标用户的语音信息，其中，目标用户可以为第一用户，或者也可以为第二用户，且第一用户和第二用户为不同的用户。

目标用户可以基于第一语音信息的质量来确定。

在一些实施例中，目标语音信息可以包括第一用户的语音信息或第二用户的语音信息。

需要说明的是，在目标语音信息为第一用户的语音信息的情况下，第一用户的语音信息可以为第一语音信息。

在目标语音信息为第二用户的语音信息的情况下，第二用户的语音信息的质量可以高于第一用户的第一语音信息的质量。

第二用户的语音信息的获取方式可以与第一语音信息的获取方式相同，在此不做赘述。

目标风格特征为目标语音信息的发音风格，包括对每个字/词的轻读、弱读、重读、拖长以及强调等特征。

步骤130、对目标文本信息进行文本特征提取，生成目标文本编码；

在该步骤中，目标文本信息为待合成语音信息的文本。例如在合成导航语音的情景下，目标文本即为导航信息文本。

目标文本信息可以为提前预存的文本信息。

目标文本编码可以包括文本内容本身的编码和文本开头与结尾的特殊标识符。

步骤140、基于目标风格特征和目标文本编码，生成目标韵律特征。

在该步骤中，韵律特征用于表征目标文本中的每个字/词的发音风格，包括：轻读、弱读、重读、拖长以及强调等信息。

目标韵律特征为用于与第一音色特征共同作用，生成第一频谱特征的标准韵律特征。

需要说明的是，目标韵律特征可以为基于第一用户的语音信息生成的，第一用户自身的韵律特征；或者也可以为基于其他用户的语音信息生成的，其他用户的韵律特征。在后续实施例中，将对目标韵律特征的生成方式进行详细说明，在此先不做赘述。

在生成目标风格特征和目标文本编码后，基于目标风格特征和目标文本编码即可生成该目标文本信息所对应的目标韵律特征。

发明人在研发过程中发现，相关技术中，存在通过提取第一用户的音色特征和第二用户的韵律特征以合成语音信息的技术，但该技术中，主要是通过提取第二用户语音的时长特征、能量特征以及基频特征等特征来生提取韵律特征，通过该方法所提取的信息量少，对语音合成韵律迁移的效果提升有限。

除此之外，通过该方法所提取的韵律特征仅与第二用户的音频相关，没有和第一用户解耦，在进行语音合成时，可能存在第一用户风格和第二用户韵律不匹配，导致合成语音韵律不稳定的情况。

而在本申请中，目标韵律特征使用音素级或帧级表征，包含更丰富的韵律信息，通过对目标文本特征和目标风格特征进行解耦，然后基于目标文本特征和目标风格特征来预测第一用户的目标韵律特征，使得目标韵律特征和第一用户风格匹配，进而合成得到的语音更自然。

步骤150、基于第一音色特征和目标韵律特征，生成第一语音信息对应的第一频谱特征；

其中，目标文本为待合成语音信息的文本。例如在合成导航语音的情景下，目标文本即为导航信息文本。

第一频谱特征即预测得到的第一用户的声音的频率谱密度特征，第一频谱特征能够详细地表征第一用户的声音特色和风格等。

步骤160、基于第一频谱特征和目标文本信息，生成第一用户对应的目标合成语音。

目标文本信息可以为提前预存的文本信息。

目标合成语音为具有第一用户的声音特色的文本播放音频信息。例如在合成导航语音的情景下，目标合成语音即为具有第一用户的声音特色的导航播报语音。

在获取第一用户的第一频谱特征后，将第一频谱特征和目标文本信息进行合成，即可生成目标合成语音。

在实际执行过程中，可以采用声码器执行该步骤。

例如，采用声码器对经步骤150生成的第一频谱特征进行转换，恢复为语音波形，并将该语音波形与目标文本进行合成，即可生成目标合成语音。

发明人在研发过程中发现，相关技术中，一般通过对用户的语音信息进行筛选和预处理得到训练数据，并基于训练数据在多人语音合成系统上进行反复训练及调试，最终生成该用户对应的合成语音。

该方法在实际执行过程中，要求用户录制2~10分钟的数据，不仅数据量需求较大，影响后续训练过程中的计算速率；而且在后续训练过程中，由于该方法存在大模型自适应训练过程，需要一定时间才能构建个性化合成系统，因此需耗费较长的训练时长，从而耗费用户较多的时间，影响用户的使用体验。

除此之外，该方法还存在音色覆盖度较低等问题，从而导致预测效果差且音色恢复相似度低。

在本发明中，在实际执行过程中，通过对第一用户的第一语音信息进行音色特征提取，生成第一音色特征，基于第一音色特征和目标韵律特征生成第一频谱特征，无需进行训练，且预测结果的准确度高；

然后基于第一频谱特征和目标文本信息生成目标合成语音，合成速率快且合成效果好；

除此之外，无需海量数据即可生成目标合成语音，从而实现一句话生成目标合成语音。

根据本发明实施例提供的语音合成方法，基于第一语音信息生成第一音色特征，基于第一音色特征和目标韵律特征生成第一频谱特征，基于第一频谱特征和目标文本信息生成目标合成语音，在实际使用过程中，无需进行训练且预测结果的准确度高，合成速率快且合成效果好，有助于提高用户的使用体验。

根据本发明的一些实施例，步骤140还可以包括：

通过自回归约束，基于上一时刻对应的目标韵律特征以及当前时刻对应的目标文本编码和目标风格特征，生成当前时刻对应的目标韵律特征。

在该实施例中，目标文本编码为多个连续时刻对应的目标文本编码，每个目标文本编码均对应一个时刻，目标韵律特征为多个连续时刻对应的目标韵律特征，每个目标韵律特征均对应一个时刻。

如图9所示，在实际执行过程中，可以基于第一时刻对应的目标文本编码和目标风格特征，对第二时刻对应的目标韵律特征进行预测。

其中，第一时刻为第二时刻之前的时刻。

例如，输入第一个字的文本编码和目标风格特征，对第一个字可能的韵律表征分布进行预测，得到多个备选韵律表征，其中多个备选韵律表征互不相同；

然后输入第二个字的文本编码和目标风格特征，以及多个备选韵律表征，预测第二个字的韵律分布，并记录到第二个字的最佳韵律路径；

如此反复，直到最后一个字，记录整句的最佳韵律路径，得到最优的韵律表征预测结果。

在该实施例中，通过自回归约束，基于上一时刻的目标韵律特征来预测下一时刻的目标韵律特征，可以更好地表达目标韵律特征在时间上的相关性，以提升目标韵律特征预测的时序相关性。

在韵律表征预测过程中，使用多分布建模，例如常见的混合高斯模型（GMM）、混合密度网络（MDN）等，可以有效确保韵律的多样性。

除此之外，在多分布概率预测结果中，利用前后向算法选择最优概率路径，可以保证韵律预测的时序合理性。

需要说明的是，在目标语音信息为第一用户的语音信息的情况下，目标韵律特征为基于第一用户的语音信息实时生成的数据。

在实际执行过程中，首先获取第一用户的第一语音信息，然后对第一语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；最后基于目标风格特征和目标文本编码，生成目标韵律特征。在生成目标韵律特征后，执行步骤150。

在该实施例中，在第一语音信息的质量高的情况下，基于第一语音信息生成目标韵律特征，该目标韵律特征与第一用户的关联性较高，从而有助于提高后续预测结果的准确性，使得最终生成的目标合成语音更贴合第一用户的实际风格。

在目标语音信息为第二用户的语音信息的情况下，目标韵律特征可以为提前生成好的数据，在需要时直接调取即可；或者目标韵律特征也可以为基于第二用户的语音信息实时生成的数据。

可以理解的是，在实际执行过程中，可以预先获取低噪的第二用户的语音信息，并基于上述步骤生成第二用户对应的目标韵律特征。

在获取第一用户的第一语音信息后，判断第一语音信息的质量，在第一语音信息的质量较差的情况下，如在第一语音信息包含较多的噪声信号的情况下，则不基于第一语音信息生成目标韵律特征，而是将预先生成的第二用户对应的目标韵律特征作为第一用户对应的目标韵律特征，然后执行步骤150。

在该实施例中，在第一语音信息的质量较低的情况下，则选用由基于高质量的第二用户的语音信息所生成的目标韵律特征，该目标韵律特征的稳定性和精确度较高，有助于提高后续合成的目标合成语音的稳定性和自然性。

通过获取的第一语音信息的质量来确定最终所采用的目标韵律特征，有助于提高后续合成的目标合成语音的稳定性、自然性和准确性，从而提高合成效果。

根据本发明实施例提供的语音合成方法，利用语音解耦声学模型，将语音合成过程分解为韵律预测和声学预测两个阶段，通过选择自然度较好的目标语音信息以生成目标韵律信息，再基于目标韵律特征，结合第一用户的音色特征生成目标频谱特征，能够有效降低音色恢复的难度，提升预测所得的音色的相似度，从而提升目标合成语音的自然度。

需要说明的是，在实际执行过程中，可以采用声学模型以实现上述步骤。下面结合图2和图3和图6对该实现方式进行具体说明。

需要说明的是，声学模型包括韵律预测网络和声学预测网络。

其中，韵律预测网络用于生成目标韵律特征，声学预测网络用于生成第一频谱特征，并基于第一频谱特征合成目标合成语音。

其中，声学预测网络包括音色提取层和声学预测层，音色提取层的输出与声学预测层的输入连接；

韵律预测网络包括风格提取层、第一文本编码层和韵律预测层，风格提取层的输出和第一文本编码层的输出分别与韵律预测层的输入连接。

如图6所示，在构建过程中，可以采集高质量的样本语音数据，构建基于语音解耦的声学模型。

其中，高质量的样本语音数据可以为在录音棚或者安静的房间采集的低噪声数据，用集合G表示。

在基于集合G构建生成声学模型后，还可以进一步采集公开数据，增加音色评估模块联合训练声学模型。

其中，公开数据为低质量的数据，可以为从网络或其他来源获取的公开的语音数据，例如开源数据集、公开的广播电视节目或有声小说等，通常含有一定的背景噪声，用集合D表示。

通过集合D对声学模型进行覆盖，并增加音色评估模块以对声学模型进行调整，可以有效提升音色覆盖度。

在构建完成声学模型后，将第一用户的第一语音信息输入至该声学模型，即可进行音色特征和韵律特征的提取，或者进行韵律迁移，从而构建得到一句话免训练个性化合成系统。

该声学模型的训练过程将在后续实施例中进行详细说明，在此先不做赘述。

在一些实施例中，对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于目标风格特征和目标文本编码，生成目标韵律特征，可以包括：

将目标语音信息输入至声学模型的韵律预测网络的风格提取层，获取风格提取层输出的目标风格特征；

将目标文本信息输入至韵律预测网络的第一文本编码层，获取第一文本编码层输出的目标文本编码；

将目标风格特征和目标文本编码输入至韵律预测网络的韵律预测层，获取韵律预测层输出的目标韵律特征；

其中，韵律预测网络为以样本语音信息和样本文本信息为样本，以与样本语音信息对应的样本韵律特征为样本标签，训练得到。

在该实施例中，声学模型包括韵律预测网络和声学预测网络；

如图2所示，韵律预测网络可以包括第一文本编码层、风格提取层和韵律预测层。

其中，第一文本编码层用于对目标文本信息c进行编码，以生成目标文本编码。

在实际执行过程中，第一文本编码层可以为神经网络模型，例如CNN、RNN、Transformer或BERT等。

第一文本编码层可以为提前训练好的文本编码模型等。

风格提取层用于对目标语音信息x进行风格特征提取，从目标语音信息x中提取句子级风格信息，以生成目标风格特征，也即目标用户的说话风格表征spc。

在实际执行过程中，风格提取层可以为神经网络模型。

风格提取层可以为预训练好的风格特征提取模型，或者是和韵律预测层联合训练的模型等，本发明不做限定。

在生成目标文本编码和目标风格特征spc后，将二者输入至韵律预测层，对韵律表征进行预测，即可预测得到目标用户对于该目标文本信息的目标韵律特征z。

其中，目标韵律特征的表征尺度可以定义在文本对齐的字、词上，或者是固定时间间隔。

在实际执行过程中，韵律预测层可以为神经网络模型，例如CNN、RNN、Transformer、自回归模型或序列到序列模型等。

韵律预测层可以为预训练好的韵律预测模型，或者也可以为和风格提取层联合训练的模型等，本发明不做限定。

可以理解的是，在实际使用过程中，需提前对韵律预测网络进行训练，将在后续实施例中对该训练过程进行说明，在此先不做赘述。

在一些实施例中，对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；基于第一音色特征和目标韵律特征，生成第一语音信息对应的第一频谱特征，包括：

将第一语音信息输入至声学模型的声学预测网络的音色提取层，获取音色提取层输出的第一音色特征；

将第一音色特征和目标韵律特征输入至声学预测网络的声学预测层，获取声学预测层输出的第一频谱特征；

其中，声学预测网络为以样本语音信息和样本韵律特征为样本，以与样本语音信息对应的样本频谱特征为样本标签，训练得到。

在该实施例中，声学预测网络用于生成第一频谱特征，并基于第一频谱特征合成目标合成语音。

继续参考图2，声学预测网络可以包括音色提取层、第二文本编码层和声学预测层。

其中，第二文本编码层用于对目标文本信息c进行编码，以生成目标文本编码。

在实际执行过程中，第二文本编码层可以为神经网络模型，例如CNN、RNN、Transformer或BERT等。

第二文本编码层可以为提前训练好的文本编码模型。

音色提取层用于对第一语音信息x进行音色特征提取，以从第一语音信息x中提取发音人的音色信息，生成第一音色特征sc。

在实际执行过程中，音色提取层可以为神经网络模型。

音色提取层可以为预训练好的声纹提取模块、无监督训练的声纹提取模块、或者是和声学预测层联合训练的音色提取模型等，本发明不做限定。

在生成第一音色特征sc和目标文本编码后，将第一音色特征sc、目标文本编码以及通过韵律预测网络生成的目标韵律特征z输入至声学预测层，对频谱表征进行预测，即可预测得到第一用户对于该目标文本信息的第一频谱特征。

在实际执行过程中，声学预测层可以为神经网络模型，包括但不限于RNN、Tacotron以及Transformer等。

声学预测层可以为预训练好的模型，或者也可以为和音色提取层联合训练的模型，本发明不做限定。

在生成第一频谱特征后，通过声码器对第一频谱特征和目标文本编码进行合成，即可生成目标合成语音x’。

根据本发明实施例提供的语音合成方法，通过构建训练好的韵律预测网络和声学预测网络，可以快速构建一句话免训练个性化合成系统，也即如上所述的声学模型。在实际使用过程中，无需获取待合成语音的用户的海量录音数据，只需获取一句话，即可基于该声学模型生成目标合成语音，无需训练，合成速率快，且目标合成语音的效果好。

下面分别从目标韵律特征的两种确定角度，对本发明的实施例进行具体说明。

一、目标韵律特征为基于第一用户的语音生成的

在该情况下，首先获取第一用户的一句话录音，并将该一句话录音确定为第一语音信息。

如图2所示，将第一语音信息和目标文本信息输入至韵律预测网络，以得到第一用户对应的第一韵律特征，并将该第一韵律特征确定为目标韵律特征。

然后将第一用户的第一语音信息和第一用户对应的第一韵律特征输入至声学预测网络，得到第一用户对应的第一频谱特征。

二、目标韵律特征为基于第二用户的语音生成的

在该情况下，目标韵律特征可以为实时生成的，例如一句话韵律迁移；或者也可以为预先生成的，例如基于韵律模型预训练的韵律迁移。通过采用由非第一用户的语音信息生成的韵律特征作为目标韵律特征，以进行第一频谱预测，可以避免因第一用户在录音过程中的不可控性导致的预测的韵律不稳定。

其一、一句话韵律迁移

在一些实施例中，在步骤110之前，首先获取第二用户的第二语音信息，该第二语音信息可以为一句自然流利的语音。

继续参考图2，然后将第二语音信息输入至韵律预测网络，生成第二用户对应的第二韵律特征，并将该第二韵律特征确定为目标韵律特征。

然后将第一用户的第一语音信息和第二用户对应的第二韵律特征输入至声学预测网络，得到第一用户对应的第一频谱特征。

其二、基于韵律模型预训练的韵律迁移

在一些实施例中，在韵律特征模块训练过程中，从训练样本中选择一位自然流畅的发音人作为第二用户，利用该第二用户对应的样本语音数据和样本韵律特征重新训练韵律预测网络。

如图3所示，目标文本信息经第一文本编码层编码后，输入至韵律预测层以输出目标韵律特征z。

然后对第一用户的第一语音信息进行音色特征提取，生成第一音色特征，并将第一音色和目标韵律特征z输入至声学预测层，以预测生成第一频谱特征，然后将第一频谱特征和经编码后的目标文本编码进行合成，以生成最终的目标合成语音x’。

在一句话免训练个性化合成系统构建阶段，第一用户的第一语音信息仅用在声学预测阶段进行音色提取，韵律预测阶段完全使用预训练好的模型，从而实现保留第一用户的音色，同时合成语音韵律稳定自然。

下面对韵律预测网络和声学预测网络的训练方式进行说明。

一、韵律预测网络的训练步骤

在一些实施例中，该方法还可以包括：

获取样本语音信息和与样本语音信息对应的样本韵律特征；

基于样本语音信息生成样本文本信息；

以样本语音信息和样本文本信息为样本，以与样本语音信息对应的样本韵律特征为样本标签，对韵律预测网络进行训练。

在该实施例中，样本语音信息可以为多个用户的语音信息，样本文本信息与样本语音信息对应。

样本韵律特征为样本语音信息实际的韵律特征，而非由韵律预测网络预测生成的预测韵律特征。

需要说明的是，样本语音信息包括高质量语音信息的集合G和低质量语音信息的集合D。

其中，高质量语音信息的集合G可以为在录音室或较为安静的房间中录制的语音信息；低质量语音信息的集合D可以为从网络或其他来源获取的公开的语音数据（例如开源数据集、公开的广播电视节目以及有声小说等），通常含有一定的背景噪声。

本发明对样本语音信息的采集方式不做限定。

在获取样本语音数据后，首先对获取到的样本语音数据进行预处理。包括对样本语音数据进行切句、筛选、滤除空白以及截幅等至少一项处理。

然后根据信噪比等指标，滤除噪声过大的语音，进行降噪处理。

接着经过ASR（Automatic Speech Recognition，自动语音识别）模块得到经预处理后的样本语音信息对应的文本，以及语音和文本的对齐边界，生成样本文本信息。

然后以样本语音信息和样本文本信息为样本，以与样本语音信息对应的样本韵律特征为样本标签，对韵律预测网络进行训练。

例如，可以分别对样本文本信息和样本语音信息进行基于时间序列的编码，基于第一时刻对应的样本文本编码和第一时刻对应的样本语音信息预测第二时刻对应的预测韵律特征。

其中，第一时刻为第二时刻之前的时刻。

在实际执行过程中，可以基于样本韵律特征和由韵律预测网络生成的预测韵律特征，对韵律预测网络进行调整。

二、声学预测网络的训练步骤

在一些实施例中，声学预测网络为以样本语音信息和样本韵律特征为样本，以与样本语音信息对应的样本频谱特征为样本标签，训练得到，包括：

将样本韵律特征和样本语音信息输入至声学预测网络，获取声学预测网络输出的预测频谱特征；

基于预测频谱特征和样本频谱特征，对声学预测网络进行训练。

在该实施例中，样本频谱特征为样本语音信息的真实频谱特征。

样本韵律特征为基于韵律预测网络生成的预测韵律特征以及该样本语音信息对应的实际韵律特征。

样本语音信息的获取方式和预处理方式与上述实施例相同，样本文本信息的生成方式也与上述实施例相同，在此不做赘述。

下面结合图4-图5，以低质量语音信息的集合D为训练样本，对声学预测网络的训练步骤进行说明。

如图4所示，首先对低质量语音信息的集合D进行如上所述的预处理和降噪等处理，并基于处理后的数据生成样本文本信息，然后基于处理后的样本语音信息和样本文本信息，对韵律特征预测模块进行训练，以生成预测韵律表征，并将该预测韵律表征以及实际韵律表征作为下一步声学预测层训练的样本韵律特征。

在对声学预测网络进行训练的过程中，可以利用音色评估模块计算预测合成语音和真实语音在音色上的差异，以最小化音色差异为目标训练声学预测网络，其中，音色评估模块形式不限，可以是预训练好的或者是和声学预测网络联合训练的音色提取模型。

例如，如图5所述，可以集合D训练的模型参数初始化整个声学预测网络；

然后将样本文本信息进行编码，生成样本文本编码，同时从样本语音信息中提取对应的样本韵律表征z和样本声纹表征sc，结合这三者输入到声学预测网络中进行频谱预测，以获取声学预测网络输出的预测频谱特征。

然后将预测频谱特征和样本频谱特征送入音色评估模块中计算音色差异，以最小化预测频谱特征和样本频谱特征的音色差异为目标优化声学预测网络。

最后，再基于高质量语音信息的集合G对声学预测网络进行微调。

可以理解的是，在经过集合D训练后的声学预测网络，音色覆盖度会提升，但预测频谱的质量可能会受到集合D的噪声影响，则可以重新使用集合G对声学预测网络进行微调训练，训练过程与上述实施例相同，在此不做赘述。

在本实施例中，通过先采用低质量语音信息的结合D对声学预测网络进行覆盖以及训练，可以有效提升音色覆盖度；然后再使用高质量语音信息的结合G对声学预测网络进行微调，在提升音色覆盖度的基础上，还可以进一步提升最终预测生成的预测频谱特征的精度和准确度，从而提高预测结果的质量，有助于提高后续语音合成的稳定性和自然性。

下面对本发明提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

如图7所示，该语音合成装置包括：第一生成模块710、第二生成模块720、第三生成模块730、第四生成模块740、第五生成模块750和第六生成模块760。

第一生成模块710，用于对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；

第二生成模块720，用于对目标语音信息进行风格特征提取，生成目标风格特征；

第三生成模块730，用于对目标文本信息进行文本特征提取，生成目标文本编码；

第四生成模块740，用于基于目标风格特征和目标文本编码，生成目标韵律特征；

第五生成模块750，用于基于第一音色特征和目标韵律特征，生成第一语音信息对应的第一频谱特征；

第六生成模块760，用于基于第一频谱特征和目标文本信息，生成第一用户对应的目标合成语音。

根据本发明实施例提供的语音合成装置，基于第一语音信息生成第一音色特征，基于第一音色特征和目标韵律特征生成第一频谱特征，基于第一频谱特征和目标文本信息生成目标合成语音，在实际使用过程中，无需进行训练且预测结果的准确度高，合成速率快且合成效果好，有助于提高用户的使用体验。

在一些实施例中，第四生成模块740，还用于：

在一些实施例中，目标语音信息包括第一用户的语音信息或第二用户的语音信息。

在一些实施例中，该装置还可以包括第一处理模块，用于：

将目标语音信息输入至声学模型的风格提取层，获取风格提取层输出的目标风格特征；

将目标文本信息输入至声学模型的第一文本编码层，获取第一文本编码层输出的目标文本编码；

将目标风格特征和目标文本编码输入至声学模型的韵律预测层，获取韵律预测层输出的目标韵律特征；

其中，声学模型包括韵律预测网络，韵律预测网络包括风格提取层、第一文本编码层和韵律预测层，风格提取层的输出和第一文本编码层的输出分别与韵律预测层的输入连接；

韵律预测网络为以样本语音信息和样本文本信息为样本，以与样本语音信息对应的样本韵律特征为样本标签，训练得到。

在一些实施例中，该装置还可以包括第二处理模块，用于：

将第一语音信息输入至声学模型的音色提取层，获取音色提取层输出的第一音色特征；

将第一音色特征和目标韵律特征输入至声学模型的声学预测层，获取声学预测层输出的第一频谱特征；

其中，声学模型包括声学预测网络，声学预测网络包括音色提取层和声学预测层，音色提取层的输出与声学预测层的输入连接；

声学预测网络为以样本语音信息和样本韵律特征为样本，以与样本语音信息对应的样本频谱特征为样本标签，训练得到。

在一些实施例中，该装置还可以包括第三处理模块，用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音合成方法，该方法包括：对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法，该方法包括：对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成目标韵律特征；基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征；基于所述第一频谱特征和所述目标文本信息，生成所述第一用户对应的目标合成语音。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

对目标语音信息进行风格特征提取，生成目标风格特征；

对目标文本信息进行文本特征提取，生成目标文本编码；

2.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述目标风格特征和所述目标文本编码，生成目标韵律特征，包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述目标语音信息包括所述第一用户的语音信息或第二用户的语音信息。

4.根据权利要求1所述的语音合成方法，其特征在于，所述对目标语音信息进行风格特征提取，生成目标风格特征；对目标文本信息进行文本特征提取，生成目标文本编码；基于所述目标风格特征和所述目标文本编码，生成目标韵律特征，包括：

将所述目标语音信息输入至声学模型的风格提取层，获取所述风格提取层输出的所述目标风格特征；

将所述目标文本信息输入至所述声学模型的第一文本编码层，获取所述第一文本编码层输出的所述目标文本编码；

将所述目标风格特征和所述目标文本编码输入至所述声学模型的韵律预测层，获取所述韵律预测层输出的所述目标韵律特征；

其中，所述声学模型包括韵律预测网络，所述韵律预测网络包括所述风格提取层、所述第一文本编码层和所述韵律预测层，所述风格提取层的输出和所述第一文本编码层的输出分别与所述韵律预测层的输入连接；

所述韵律预测网络为以样本语音信息和样本文本信息为样本，以与所述样本语音信息对应的样本韵律特征为样本标签，训练得到。

5.根据权利要求1-4任一项所述的语音合成方法，其特征在于，所述对第一用户的第一语音信息进行音色特征提取，生成第一音色特征；基于所述第一音色特征和所述目标韵律特征，生成所述第一语音信息对应的第一频谱特征，包括：

将所述第一语音信息输入至声学模型的音色提取层，获取所述音色提取层输出的所述第一音色特征；

将所述第一音色特征和所述目标韵律特征输入至所述声学模型的声学预测层，获取所述声学预测层输出的所述第一频谱特征；

其中，所述声学模型包括声学预测网络，所述声学预测网络包括所述音色提取层和所述声学预测层，所述音色提取层的输出与所述声学预测层的输入连接；

所述声学预测网络为以样本语音信息和样本韵律特征为样本，以与所述样本语音信息对应的样本频谱特征为样本标签，训练得到。

6.根据权利要求5所述的语音合成方法，其特征在于，所述声学预测网络为以样本语音信息和样本韵律特征为样本，以与所述样本语音信息对应的样本频谱特征为样本标签，训练得到，包括：

7.一种语音合成装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音合成方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音合成方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音合成方法的步骤。