CN114242032A

CN114242032A - 语音合成方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114242032A
Application number: CN202111601414.6A
Authority: CN
Inventors: 黄杰雄; 轩晓光; 关迪聆; 陈传艺; 高阳升
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-03-25

Abstract

本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：响应于文本输入操作，获取输入文本；响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。本申请实施例提供的方法，可使合成语音具有用户指定的情感特性与音色特性，丰富语音效果，有助于提高合成语音的真实性与自然性。

Description

语音合成方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种语音合成方法、装置、设备、存储介质及程序产品。

背景技术

语音合成是指将文本转化为音频的过程。目前，用户对语音合成的需求逐渐增加，比如，用户在阅读文章过程中，可能需将文章中文本转为语音播放，实现听觉上的文章阅读。

相关技术中，语音合成过程中，仅利于文本的内容特征实现语音合成，即仅将文本转化为单一类型的语音。利用该种方式得到的语音，其对文本的表达方式为统一风格，合成语音较为生硬，语音合成的真实性较差。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备、存储介质及程序产品。所述技术方案如下：

一方面，本申请实施例提供了一种语音合成方法，所述方法包括：

响应于文本输入操作，获取输入文本；

响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；

响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。

另一方面，本申请实施例提供了一种语音合成装置，所述装置包括：

文本获取模块，用于响应于文本输入操作，获取输入文本；

类型确定模块，用于响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；

语音合成模块，用于响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的语音合成方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的语音合成方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的语音合成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，在语音合成过程中，用户可选择指定的情感类型与指定的音色类型，从而使计算机设备在语音合成过程中，基于指定的目标情感类型与指定的目标音色类型对输入文本进行语音合成，使合成语音具有用户指定的情感特性与音色特性，丰富语音效果，有助于提高合成语音的真实性与自然性；且用户仅需通过输入文本，并通过语音类型选择操作选择所需的目标情感类型以及目标音色类型，即可合成具有特定情感与特定音色的语音，可提高合成语音的便捷性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的语音合成方法的流程图；

图2示出了本申请一个示例性实施例提供的语音合成界面的界面示意图；

图3示出了本申请另一个示例性实施例提供的语音合成方法的流程图；

图4示出了本申请一个示例性实施例提供的语音合成系统的结构示意图；

图5示出了本申请另一个示例性实施例提供的语音合成方法的流程图；

图6示出了本申请另一个示例性实施例提供的语音合成界面的界面示意图；

图7示出了本申请另一个示例性实施例提供的语音合成界面的界面示意图；

图8示出了本申请另一个示例性实施例提供的语音合成界面的界面示意图；

图9是本申请一个示例性实施例提供的语音合成装置的结构框图；

图10示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤101，响应于文本输入操作，获取输入文本。

在一种可能的实施方式中，计算机设备中提供有语音合成界面。在语音合成界面中包含文本输入区域，用户可在文本输入区域中输入需合成语音的文本，计算机设备即可根据用户输入文本合成文本对应的语音。

可选的，文本输入操作可为对文本输入区域的编辑操作，比如，当接收到对文本输入区域的点击操作、长按操作或滑动操作时，即可确定接收到文本输入操作。其中，文本输入操作可为对文本输入区域的触摸操作，或，通过外接设备对文本输入区域的触发操作，比如，通过鼠标或键盘等对文本输入区域的触发操作。

其中，文本输入方式可为在文本输入区域进行文本编辑的方式，比如，用户通过输入法进行文字输入；或者，文字输入方式可为文本粘贴方式，比如，当接收到对文本输入区域的指定操作，比如，长按操作时，显示粘贴选项，用户可通过对粘贴选项的触发操作将已复制文本粘贴至文本输入区域。

当接收到文本输入操作后，可在文本输入区域中提取输入文本。在一种可能的实施方式中，当检测到文本输入操作结束时，可在文本输入区域中提取输入文本，或检测到对语音合成界面中除文本输入区域之外区域的触发操作时，可在文本输入区域中提取输入文本。

示意性的，如图2所示，计算机设备中显示有语音合成界面201，在语音合成界面201中包含文本输入区域202，当接收到对文本输入区域202的编辑操作时，确定接收到文本输入操作，且可在文本输入区域中提取输入文本。

步骤102，响应于语音类型选择操作，确定目标语音类型，目标语音类型包括目标情感类型与目标音色类型。

在一种可能的实施方式中，语音合成界面中显示有语音类型选择区域。在语音类型选择区域中，用户可选择合成语音的情感类型与音色类型，从而计算机设备可根据用户选择的目标情感类型与目标音色类型，生成具有目标情感与目标音色的语音。

语音类型选择操作即为对语音类型选择区域的设置操作。其中，语音类型选择区域中包括情感类型选择区域以及音色类型选择区域。当接收到对情感类型选择区域的情感选择操作时，即基于情感选择操作对应的情感类型确定目标情感类型。相应的，当接收到对音色类型选择区域的音色选择操作时，可基于音色选择操作对应的音色类型确定目标音色类型。

示意性的，如图2所示，语音合成界面201中包含语音类型选择区域，在语音类型选择区域中包括情感类型选择区域203以及音色类型选择区域204。

步骤103，响应于语音合成操作，按照目标语音类型对输入文本进行语音合成，得到目标语音，目标语音是具有目标情感类型对应情感与目标音色类型对应音色的音频。

其中，语音合成界面中显示有语音合成控件，语音合成控件用于触发语音合成。可选的，语音合成控件可以文字、图形、动画的形式显示在语音合成界面中。本实施例对语音合成控件的显示方式不做限定。

示意性的，如图2所示，语音合成界面201中显示有语音合成控件205，当接收到对语音合成控件205的触发操作时，确定接收到语音合成操作。

当计算机设备接收到对语音合成控件的触发操作时，可确定接收到语音合成操作，此时，可按照目标情感类型以及目标音色类型对输入文本进行语音合成，从而得到具有指定情感以及指定音色的音频。

在一种可能的实施方式中，当计算机设备合成目标语音后，可直接对目标语音进行实时音频播放。或者，在另一种可能的实施方式中，当计算机设备合成目标语音后，可对目标语音进行存储，后续进行播放。

在按照目标语音类型对输入文本进行语音合成的过程中，首先将输入文本转化为音素，后续基于音素、情感以及音色合成得到目标语音。下面将以示例性实施例进行说明。

请参考图3，其示出了本申请一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，响应于文本输入操作，获取输入文本。

步骤302，响应于语音类型选择操作，确定目标语音类型。

其中，步骤301与步骤302的实施方式可参考上述步骤101与步骤102中实施方式，本实施例不再赘述。

步骤303，响应于语音合成操作，对输入文本进行音素转化，得到输入文本的文本音素。

当接收到语音合成操作时，计算机设备首先对输入文本进行音素转化，得到输入文本的文本音素。其中，音素是根据语音的自然属性划分出最小语音单位，以中文普通话为例，音素可包括声韵母、声调等。

在一种可能的实施方式中，对输入文本进行音素转化，得到文本音素可包括如下步骤：

步骤303a，对输入文本进行文本正则处理，得到正则化文本，正则化文本用于表示输入文本的发音方式。

首先，对输入文本进行文本正则处理。其中，文本正则处理用于将输入文本中非规范文本转化为规范文本。当输入文本中包含非规范文本，在不同情况下，相同的非规范文本对应有不同的发音方式。比如，当输入文本中包含2021年时，“2021”对应的发音方式为“二零二一”，而当输入文本中包含“2021千克”时，“2021”对应的发音方式为“两千零二十一”。因此，首先需对输入文本进行正则化处理，确定非规范文本对应的规范文本。

可选的，对输入文本进行文本正则处理可包括如下步骤：

步骤一、确定输入文本中非规范文本对应的规则类型，其中，非规范文本包括输入文本中的数字或符号中的至少一种，不同规则类型对应不同发音方式。

不同非规范文本对应不同的规则类型，比如，当非规范文本为数字时，数字可为日期类型、电话号码类型或普通数字类型。而不同规则类型对应不同的发音方式。比如，当数字作为日期类型与作为电话号码类型时，相同数字对应的发音方式不同。

当获取输入文本后，首先检测输入文本中的非规范文本，从而根据非规范文本确定对应的规则类型，后续即可基于规则类型确定对应的发音方式，从而进行文本正则处理。

在一种可能的实施方式中，可将输入文本输入非规范文本分类模型，得到非规范文本对应的规则类型。其中，非规范文本分类模型可基于预训练的BERT模型为基础，增加全连接层实现，比如，对于非规范文本预先设定16个规则类型，则可将BERT模型对接16个神经元的全连接层，构成非规范文本分类模型，从而将非规范文本输入非规范文本分类模型后，得到非规范文本的规则类型。

步骤二、基于规则类型对非规范文本进行文本正则处理，得到正则化文本。

当确定非规范文本的规则类型后，即可得到非规范文本的发音方式，从而根据发音方式将非规范文本转化为具有相同含义的规范文本。当将非规范文本转化为规范文本后，与输入文本中原规范文本结合即可得到输入文本的正则化文本。

比如，对于输入文本“2021年”中“2021”的发音方式为“二零二一”，即可将“2021”转化为规范文本“二零二一”，从而确定输入文本“2021年”的正则化文本为“二零二一年”。

步骤303b，对正则化文本进行韵律分析，得到正则化文本的韵律特征。

本实施例中，韵律特征是语言停顿特征。在将输入文本转化为语音后，输入文本中不同词组之间的停顿方式不同，在一种可能的实施方式中，通过对正则化文本进行韵律分析，得到正则化文本的韵律特征。该方式可包括如下步骤：

步骤一、对正则化文本进行分词处理，得到正则化文本中的各个词组。

进行韵律分析的过程中，首先需对正则化文本进行分词处理。其中，分词处理是用于将正则化文本划分为不同词组。在一种可能的实施方式中，对于正则化文本中字与字的间隙进行分类，从而完成分词处理。比如，对于字与字的间隙做3种类型的分类，分别为句尾(E)、词组间隙(I)、非词组间隙(N)。当文本为“今天是晴天，适宜出游”时，分词结果可为“今(N)天(I)是(I)晴(N)天(I)适(N)宜(I)出(N)游(E)”。

在一种可能的实施方式中，在进行分词处理时，可将正则化文本输入分词模型，其中，分词模型同样基于以BERT模型为基础构成，当包括3种分类时，可将BERT模型对接3个神经元的全连接层，构成分词模型。将正则化文本输入分词模型后，即可得到正则化文本中各个词组。

步骤二、对各个词组间韵律进行韵律强度分类，得到正则化文本的韵律特征，韵律特征用于表征各个词组间的停顿方式，不同韵律强度对应不同停顿方式。

在得到正则化文本中的各个词组后，可对各个词组间韵律进行韵律强度分类，其中，不同韵律强度对应不同停顿方式，不同停顿方式对应的停顿时长不同。

可选的，韵律强度类型可包括“无停顿、无明显停顿、短停顿、长停顿”四种类型。在一种可能的实施方式中，对各个词组间韵律强度进行分类，确定各个词组间的停顿时长，即得到正则化文本的韵律特征。

步骤303c，对正则化文本进行多音字分析，得到正则化文本中目标多音字的发音类别。

步骤一、将正则化文本输入多音字分类模型进行发音预测，得到目标多音字的预测发音类别。

由于正则化文本中可能包含多音字，而多音字具有多个发音，因此，需进行多音字分析，从而确定正则化文本中目标多音字的发音类别。在一种可能的实施方式中，将正则化文本输入多音字分类模型，进行多音字分析，得到目标多音字的预测发音类型。其中，多音字分类模型以BERT模型为基础，增加全连接层构成。可选的，可确定常用多音字的各个发音，从而基于常用多音字的各个发音构建全连接层。比如，常用多音字包含440个，而对应发音包含692个，因此，可将BERT模型对接692个神经元的全连接层，实现多音字分类。即仅通过单一模型实现不同多音字的分类，而无需对不同多音字构建不同的分类模型，降低模型复杂度，从而降低计算量。

在一种可能的实施方式中，计算机设备预先存储有多音字，当得到正则化文本后，可确定正则化文本中的多音字，从而将正则化文本中的目标多音字输入多音字分类模型，得到预测发音类别。比如，对于“中文”中的“中”为多音字，对应发音包括“zhōng”以及“zhòng”，可将“中”输入多音字分类模型中，与692个发音进行匹配，将概率最高的发音确定为“中”的预测发音类别。

步骤二、将预测发音类别与目标多音字的候选发音类别进行匹配，得到目标多音字的目标发音类别，候选发音类别包括目标多音字的各种发音类别。

为使多音字分析结果更加准确，本实施例中，得到预测发音类别后，进行后处理，即将预测发音类别与目标多音字对应的候选发音类别进行匹配，确保预测发音类型属于该目标多音字的发音。比如，对于“中”得到的预测发音类别为“zhōng”，与候选发音类别“zhōng”以及“zhòng”进行匹配。

在一种可能的实施方式中，根据匹配结果确定目标多音字的目标发音类别。

可选的，在预测发音类别属于候选发音类别的情况下，将预测发音类别确定为目标发音类别。

当预测发音类别属于候选发音类别的情况下，确定预测发音类别属于目标多音字的发音，因此，可将预测发音类别确定为目标发音类别。

可选的，在预测发音类别不属于候选发音类别的情况下，基于候选发音类别确定目标发音类别，目标发音类别是候选发音类别中其中一种。

当预测发音类别不属于候选发音类别时，表明多音字分类模型预测的目标多音字的发音出现误差，此时，则可在目标多音字的候选发音类别中随机选取一个发音作为目标发音类别。

示意性的，当“中”预测得到的预测发音类别为“zhì”时，其与候选发音类别“zhōng”以及“zhòng”均不匹配，此时，则在“zhōng”以及“zhòng”之间选择一个发音作为“中”的目标发音类别，提高多音字发音预测的准确性。

步骤303d，基于正则化文本、韵律特征以及多音字的发音类别进行字音转换，得到文本音素。

在一种可能的实施方式中，得到输入文本对应的正则化文本，韵律特征以及其中多音字的发音类别后，可进行字音转换，得到文本音素。

可选的，文本音素中除包含正则化文本中文本对应拼音之外，还包括文本中词组与词组之间的韵律特征。其中，正则化文本中多音字对应的拼音可基于多音字分类模型得到，而非多音字可根据预先存储的不同汉字对应拼音确定得到。

步骤304，将文本音素以及目标语音类型输入声学模型，得到目标声学特征，声学模型用于基于音素、情感以及音色合成声学特征。

在一种可能的实施方式中，得到文本音素后，可将文本音素以及目标语音类型输入声学模型中，得到目标声学特征。其中，声学特征是指语音的频谱特征。

可选的，声学模型为预先基于样本音素、样本情感、样本音色以及样本语音训练得到的模型。当输入文本音素、目标情感类型以及目标音色类型到声学模型中时，即可利用声学模型得到目标声学特征。

步骤305，利用声码器对目标声学特征进行语音合成，得到目标语音。

在得到目标声学特征后，可利用声码器对目标声学特征进行语音合成。其中，声码器用于将目标声学特征还原为可播放的语音波形，即得到目标语音。

在一种可能的实施方式中，利用高质量且高效的Hifigan作为声码器模型，将目标声学特征还原，确保语音合成质量以及合成效率。

在一种可能的实施方式中，将输入文本转化为目标语音可如图4所示：

首先获取输入文本后，将输入文本输入至前端多任务BERT模型401中进行音素转化得到文本音素，并将文本音素、目标情感类型以及目标音色类型输入声学模型402中，得到目标声学特征，并将目标声学特征输入声码器403中进行语音合成，得到最终的目标语音。

其中，前端多任务BERT模型中即包含文本正则过程中非规范文本分类模型、分词模型以及多音字分类模型，从而对输入文本进行文本正则处理、分词处理、韵律分析以及多音字分析，得到文本的文本音素。

本实施例中，通过对输入文本进行文本正则处理、分词、韵律分析以及多音字分析，得到输入文本的文本音素，确保文本音素的准确性。且在该过程中，通过多任务BERT模型实现各个处理过程，有助于提高音素转化效率。

请参考图5，其示出了本申请一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤501，响应于文本输入操作，获取输入文本。

本步骤实施方式可参考上述步骤101，本实施例不再赘述。

步骤502，响应于对情感类型选择控件的触发操作，显示情感选择界面，情感选择界面中包含至少一种情感类型对应的情感控件。

可选的，目标语音类型包括目标情感类型。在情感类型选择区域中包含情感类型选择控件，当接收到对情感类型选择控件的触发操作时，显示情感选择界面。其中，触发操作可为点击操作、长按操作或滑动操作等，本实施例对此不做限定。

可选的，情感选择界面中显示有不同情感类型对应的情感控件，其中，所包含的情感类型可为计算机设备预先存储的不同情感类型。用户可通过对情感选择界面中情感控件的触发操作，选择目标情感类型。

示意性的，如图6所示，语音合成界面中包含情感类型选择控件601，当接收到对情感类型选择控件601的触发操作时，将显示情感选择界面602，其中，包括中性、高兴、生气、伤心、恐惧、厌恶和惊奇等7种情感类型对应的情感控件。

步骤503，响应于对目标情感控件的触发操作，将目标情感控件对应的情感类型确定为目标情感类型。

在一种可能的实施方式中，当接收到对目标情感控件的触发操作时，可在情感类型选择区域中显示目标情感控件对应的目标情感类型，并在后续进行语音合成的过程中，基于目标情感类型进行语音合成。

而在该过程中，当选择目标情感类型后，用户还可通过对情感选择界面中其他情感控件的触发操作，更新目标情感类型。当接收到对其他情感控件的触发操作时，可将目标情感类型更新为其他情感控件对应的情感类型。

示意性的，如图6所示，当接收到对情感选择界面602中“中性”对应情感控件603的触发操作时，可将“中性”确定为目标情感类型，并在情感类型选择区域显示“中性”，而若后续接收到对“高兴”对应情感控件的触发操作时，可将目标情感类型更新为“高兴”，并将情感类型选择区域中显示的“中性”替换为“高兴”。

步骤504，响应于对音色总类选择控件的触发操作，显示音色总类选择界面，音色总类选择界面中包含至少一种音色总类型对应的总类型控件。

在一种可能的实施方式中，提供有多种不同音色类型，为便于对多种不同音色类型的区分，使用户可快速选择所需的音色类型，可预先对不同音色类型进行划分，得到音色总类型。其中，不同音色总类型对应不同的音色分类型。

示意性的，对于不同音色类型可划分为“通用音色、儿童音色、老年音色、成年音色、特殊音色等不同音色总类型。

在音色类型选择区域中显示有音色总类选择控件，当接收到对音色总类选择控件的触发操作时，将显示音色总类选择界面，其中，音色总类选择界面中显示有预先划分的各个音色总类型对应的总类型控件。

示意性的，如图7所示，当接收到对音色总类选择控件701的触发操作时，将显示音色总类选择界面702，其中，包含不同音色总类型对应的总类型控件。

步骤505，响应于对目标总类型控件的触发操作，显示目标总类型控件对应的目标音色总类型。

当接收到对音色总类选择界面中目标总类型控件的触发操作时，将在音色类型选择区域显示用户选定的目标音色总类型。相应的，还可继续通过对音色总类选择界面中其他总类型控件的触发操作，更新显示的目标音色总类型。

示意性的，如图7所示，当接收到对音色总类选择界面702中“儿童音色”对应总类型控件的触发操作时，可在音色类型选择区域显示“儿童音色”。

步骤506，响应于对音色分类选择控件的触发操作，显示音色分类选择界面，音色分类选择界面中包含至少一个音色类型对应的音色控件，至少一个音色类型属于目标音色总类型。

其中，相同音色总类型可能对应多个不同音色分类。在音色类型选择区域显示有音色分类选择控件。当接收到对音色分类选择控件的触发操作时，计算机设备将显示音色分类选择界面，音色分类选择界面中显示的音色类型属于已选择的目标音色总类型。

在一种可能的实施方式中，计算机设备可确定属于目标音色总类型的各个音色类型，从而在音色分类选择界面中显示各个音色类型对应的音色控件。

示意性的，如图7所示，当目标音色总类型为“儿童音色”时，属于“儿童音色”的音色类型包括“小语(女)、小森(男)、小慧(女)、小木(男)”；因此，当接收到对音色分类选择控件703的触发操作时，将显示音色分类选择界面704，其中，音色分类选择界面704中包含“小语(女)、小森(男)、小慧(女)、小木(男)”对应的音色控件。

步骤507，响应于对目标音色控件的触发操作，将目标音色控件对应的音色类型确定为目标音色类型。

当接收到对目标音色控件的触发操作时，可在音色类型选择区域中显示目标音色控件对应的目标音色类型，并在后续进行语音合成的过程中，基于目标音色类型进行语音合成。

示意性的，如图7所示，当接收到对音色分类选择界面704中“小语(女)”对应音色控件705的触发操作时，可将“小语(女)”确定为目标音色类型，并在音色类型选择区域显示“小语(女)”。

同样的，用户还可通过对音色分类选择界面中其他音色控件的触发操作，更新目标音色类型。

步骤508，响应于背景音选择操作，确定目标语音对应的背景音乐。

本实施例中，还可为合成语音增加背景音乐。在一种可能的实施方式中，语音合成界面中显示有背景音类型选择控件，当接收到对背景音类型选择控件的触发操作时，可显示背景音选择界面，在背景音选择界面中可显示有不同背景音对应的选择控件，当接收到对背景音选择界面中选择控件的触发操作时，确定接收到背景音选择操作，此时，可将被触发的选择控件对应的背景音确定为目标语音的背景音乐。

示意性的，如图8所示，语音合成界面中显示有背景音类型选择控件801，用户可通过对背景音类型选择控件801的触发操作，为目标语音选择背景音乐。

步骤509，响应于语音合成操作，确定输入文本中各个文本分段对应的分段语音类型，分段语音类型属于目标语音类型。

在一种可能的实施方式中，用户可能输入多段文本，且在此过程中，用户可为不同文本分段选择不同的情感类型或不同音色类型。而不同文本分段可能对应不同的情感类型或音色类型，此时，需基于不同文本分段对应的情感类型与音色类型进行语音合成。

当用户输入分段文本，并对分段文本设定不同的情感类型或音色类型时，即可基于分段文本与情感、音色的对应关系生成文本标签，不同分段文本对应不同文本标签，后续可基于文本标签对分段文本进行语音合成。

示意性的，输入文本中包含文本分段一、文本分段二以及文本分段三，则对应标签可为<文本分段一、中性、小语(女)>、<文本分段二、高兴、小语(女)>、<文本分段三、高兴、小森(男)>。

步骤510，按照分段语音类型对各个文本分段进行语音合成，得到各个文本分段对应的分段语音。

当确定不同分段对应的情感类型与音色类型后，根据不同分段对应的情感类型以及音色类型进行语音合成，得到不同分段对应的分段语音，分段语音组成目标语音。

步骤511，将目标语音与背景音乐进行混音处理，得到混合音频。

当得到目标语音后，可将背景音乐与目标语音进行混音处理，得到混合音频，可对混合音频进行播放或存储。

当合成目标语音或混合音频并对目标语音或混合音频进行播放的过程中，用户还可对播放音调、速度以及音量等进行调整，实现音频不同形式的播放。

示意性的，如图8所示，语音合成界面中分别显示有音调调整控件802、音速调整控件803以及音量调整控件804，用户可通过对不同控件的触发操作响应调整语音的播放方式。

本实施例中，用户可实时通过对音色类型对应选择控件以及情感类型对应选择控件的触发操作，实时合成具有特定情感以及特定音色的语音，可提高合成特定语音的效率。

且本实施例中，在语音合成过程中，还可选择背景音乐，为目标语音添加所需背景音，丰富合成音频的表现效果。

图9是本申请一个示例性实施例提供的语音合成装置的结构框图，如图9所示，该装置包括：

文本获取模块901，用于响应于文本输入操作，获取输入文本；

类型确定模块902，用于响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；

语音合成模块903，用于响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。

可选的，所述语音合成模块903，包括：

音素转化单元，用于对所述输入文本进行音素转化，得到所述输入文本的文本音素；

特征合成单元，用于将所述文本音素以及所述目标语音类型输入声学模型，得到目标声学特征，所述声学模型用于基于音素、情感以及音色合成声学特征；

第一合成单元，用于利用声码器对所述目标声学特征进行语音合成，得到所述目标语音。

可选的，所述音素转化单元，还用于：

对所述输入文本进行文本正则处理，得到正则化文本，所述正则化文本用于表示所述输入文本的发音方式；

对所述正则化文本进行韵律分析，得到所述正则化文本的韵律特征；

对所述正则化文本进行多音字分析，得到所述正则化文本中目标多音字的发音类别；

基于所述正则化文本、韵律特征以及所述多音字的发音类别进行字音转换，得到所述文本音素。

可选的，所述音素转化单元，还用于：

确定所述输入文本中非规范文本对应的规则类型，其中，所述非规范文本包括所述输入文本中的数字或符号中的至少一种，不同规则类型对应不同发音方式；

基于所述规则类型对所述非规范文本进行文本正则处理，得到所述正则化文本。

可选的，所述音素转化单元，还用于：

对所述正则化文本进行分词处理，得到所述正则化文本中的各个词组；

对所述各个词组间韵律进行韵律强度分类，得到所述正则化文本的韵律特征，所述韵律特征用于表征所述各个词组间的停顿方式，不同韵律强度对应不同停顿方式。

可选的，所述音素转化单元，还用于：

将所述正则化文本输入多音字分类模型进行发音预测，得到所述目标多音字的预测发音类别；

将所述预测发音类别与所述目标多音字的候选发音类别进行匹配，得到所述目标多音字的目标发音类别，所述候选发音类别包括所述目标多音字的各种发音类别。

可选的，所述音素转化单元，还用于：

在所述预测发音类别属于所述候选发音类别的情况下，将所述预测发音类别确定为所述目标发音类别；

在所述预测发音类别不属于所述候选发音类别的情况下，基于所述候选发音类别确定所述目标发音类别，所述目标发音类别是所述候选发音类别中其中一种。

可选的，所述目标语音类型包括所述目标情感类型；

所述类型确定模块902，包括：

第一显示单元，用于响应于对情感类型选择控件的触发操作，显示情感选择界面，所述情感选择界面中包含至少一种情感类型对应的情感控件；

第一确定单元，用于响应于对目标情感控件的触发操作，将所述目标情感控件对应的情感类型确定为所述目标情感类型。

可选的，所述目标语音类型包括所述目标音色类型；

所述类型确定模块902，包括：

第二显示单元，用于响应于对音色总类选择控件的触发操作，显示音色总类选择界面，所述音色总类选择界面中包含至少一种音色总类型对应的总类型控件；

第三显示单元，用于响应于对目标总类型控件的触发操作，显示所述目标总类型控件对应的目标音色总类型；

第四显示单元，用于响应于对音色分类选择控件的触发操作，显示音色分类选择界面，所述音色分类选择界面中包含至少一个音色类型对应的音色控件，所述至少一个音色类型属于所述目标音色总类型；

第二确定单元，用于响应于对目标音色控件的触发操作，将所述目标音色控件对应的音色类型确定为所述目标音色类型。

可选的，所述目标语音类型包含至少两种目标情感类型或至少两种目标音色类型；

所述语音合成模块903，包括：

第三确定单元，用于确定所述输入文本中各个文本分段对应的分段语音类型，所述分段语音类型属于所述目标语音类型；

第二合成单元，用于按照所述分段语音类型对所述各个文本分段进行语音合成，得到所述各个文本分段对应的分段语音。

可选的，所述装置还包括：

背景音确定模块，用于响应于背景音选择操作，确定所述目标语音对应的背景音乐；

所述装置还包括：

混音模块，用于将所述目标语音与所述背景音乐进行混音处理，得到混合音频。

请参考图10，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器1002和只读存储器1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储等技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1001执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的语音合成方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的语音合成方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的语音合成方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

响应于文本输入操作，获取输入文本；

2.根据权利要求1所述的方法，其特征在于，所述按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，包括：

对所述输入文本进行音素转化，得到所述输入文本的文本音素；

将所述文本音素以及所述目标语音类型输入声学模型，得到目标声学特征，所述声学模型用于基于音素、情感以及音色合成声学特征；

利用声码器对所述目标声学特征进行语音合成，得到所述目标语音。

3.根据权利要求2所述的方法，其特征在于，所述对所述输入文本进行音素转化，得到所述输入文本的文本音素，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述输入文本进行文本正则处理，得到正则化文本，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述正则化文本进行韵律分析，得到所述正则化文本的韵律特征，包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述正则化文本进行多音字分析，得到所述正则化文本中目标多音字的发音类别，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述预测发音类别与所述目标多音字的候选发音类别进行匹配，得到所述目标多音字的目标发音类别，包括：

8.根据权利要求1至7任一所述的方法，其特征在于，所述目标语音类型包括所述目标情感类型，所述响应于语音类型选择操作，确定目标语音类型，包括：

响应于对情感类型选择控件的触发操作，显示情感选择界面，所述情感选择界面中包含至少一种情感类型对应的情感控件；

响应于对目标情感控件的触发操作，将所述目标情感控件对应的情感类型确定为所述目标情感类型。

9.根据权利要求1至7任一所述的方法，其特征在于，所述目标语音类型包括所述目标音色类型，所述响应于语音类型选择操作，确定目标语音类型，包括：

响应于对音色总类选择控件的触发操作，显示音色总类选择界面，所述音色总类选择界面中包含至少一种音色总类型对应的总类型控件；

响应于对目标总类型控件的触发操作，显示所述目标总类型控件对应的目标音色总类型；

响应于对音色分类选择控件的触发操作，显示音色分类选择界面，所述音色分类选择界面中包含至少一个音色类型对应的音色控件，所述至少一个音色类型属于所述目标音色总类型；

响应于对目标音色控件的触发操作，将所述目标音色控件对应的音色类型确定为所述目标音色类型。

10.根据权利要求1至7任一所述的方法，其特征在于，所述目标语音类型包含至少两种目标情感类型或至少两种目标音色类型；

所述按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，包括：

确定所述输入文本中各个文本分段对应的分段语音类型，所述分段语音类型属于所述目标语音类型；

按照所述分段语音类型对所述各个文本分段进行语音合成，得到所述各个文本分段对应的分段语音。

11.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

响应于背景音选择操作，确定所述目标语音对应的背景音乐；

所述响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音之后，所述方法包括：

将所述目标语音与所述背景音乐进行混音处理，得到混合音频。

12.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于响应于文本输入操作，获取输入文本；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。

14.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令以实现如权利要求1至11任一所述的语音合成方法。