CN111986647A

CN111986647A - 一种语音合成方法及装置

Info

Publication number: CN111986647A
Application number: CN202010872280.0A
Authority: CN
Inventors: 洪林; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-24

Abstract

本发明提供一种语音合成方法及装置，该方法包括：获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；对所述待处理文本进行拆分，得到至少两段文本；通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。本发明实施例通过获取待处理文本和目标语音合成参数，并对待处理文本进行拆分，以及通过与目标语音合成参数对应的语音合成模型，对拆分的多段文本进行语音合成，从而不仅能够合成具备目标语音合成参数的合成语音，还能保证语音合成的实效性。

Description

一种语音合成方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成方法及装置。

背景技术

现有语音合成技术，如从文本到语音(Txt to Speech，简称TTS)，是指将储存于电脑中的文本文件，如帮助文件或者网页，转换成自然语音输出。

目前，语音合成的基本流程是获取用户输入的待处理文本，将待处理文本输入语音合成模型，通过该语音合成模型对所述待处理文本进行语音合成，进而输出得到对应的合成语音。当待处理文本较大，如文本内容较多时，往往需要耗费更多的时间来合成，这导致语音合成的实时性较差，且通常合成的是音色、音调比较单一的机器语音。

可见，现有语音合成方式的语音合成效果较差。

发明内容

本发明实施例提供一种语音合成方法及装置，以解决有语音合成方式的语音合成效果的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音合成方法，包括：

获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；

对所述待处理文本进行拆分，得到至少两段文本；

通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

可选的，所述获取目标语音合成参数，包括：

获取从至少两个语音合成参数中选择的目标语音合成参数。

可选的，所述对所述待处理文本进行拆分，得到至少两段文本之后，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成之前，所述方法还包括：

判断所述至少两段文本是否符合语音合成标记语言(Speech Synthesis MarkupLanguage，简称SSML)规范；

在所述至少两段文本符合SSML规范的情况下，按照所述目标语音合成参数对应的SSML文本格式，对所述至少两段文本的SSML文本格式进行比对或调整；

所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，包括如下至少一项：

在所述至少两段文本符合SSML规范的情况下，通过与所述目标语音合成参数对应的语音合成模型，对比对或调整后的所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；

在所述至少两段文本不符合SSML规范的情况下，通过所述语音合成模型对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

可选的，所述对所述待处理文本进行拆分，得到至少两段文本，包括：

依据所述待处理文本中标记的断句标点、语音合成参数，和/或所述待处理文本的语句长度，对所述待处理文本进行分段处理，得到至少两段文本。

可选的，所述目标语音合成参数还包括音频格式参数，所述音频格式参数用于指示合成目标音频格式的语音；

所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音之后，所述方法还包括：

在所述至少两段文本中每段文本对应的合成语音的音频格式与所述目标音频格式不一致的情况下，分别对所述至少两段文本中每段文本对应的合成语音进行音频格式转换，得到音频格式为所述目标音频格式的合成语音。

可选的，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音，包括：

将所述至少两段文本和所述目标语音合成参数发送至用于提供语音合成服务的服务端，以使所述服务端调用与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；

接收所述服务端返回的所述至少两段文本中每段文本对应的合成语音。

第二方面，本发明实施例提供一种语音合成装置，包括：

获取模块，用于获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；

第一文本处理模块，用于对所述待处理文本进行拆分，得到至少两段文本；

语音合成模块，用于通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

可选的，所述获取模块用于获取从至少两个语音合成参数中选择的目标语音合成参数。

可选的，所述语音合成装置还包括：

判断模块，用于判断所述至少两段文本是否符合语音合成标记语言SSML规范；

第二文本处理模块，用于在所述至少两段文本符合SSML规范的情况下，按照所述目标语音合成参数对应的SSML文本格式，对所述至少两段文本的SSML文本格式进行比对或调整；

所述语音合成模块包括如下至少一项：

第一语音合成单元，用于在所述至少两段文本符合SSML规范的情况下，通过与所述目标语音合成参数对应的语音合成模型，对比对调整后的所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；

第二语音合成单元，用于在所述至少两段文本不符合SSML规范的情况下，通过所述语音合成模型对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

可选的，所述第一文本处理模块用于依据所述待处理文本中标记的断句标点、语音合成参数，和/或所述待处理文本的语句长度，对所述待处理文本进行分段处理，得到至少两段文本。

所述语音合成装置还包括：

转换模块，用于在所述至少两段文本中每段文本对应的合成语音的音频格式与所述目标音频格式不一致的情况下，分别对所述至少两段文本中每段文本对应的合成语音进行音频格式转换，得到音频格式为所述目标音频格式的合成语音。

可选的，所述语音合成模块包括：

发送单元，用于将所述至少两段文本和所述目标语音合成参数发送至用于提供语音合成服务的服务端，以使所述服务端调用与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；

接收单元，用于接收所述服务端返回的所述至少两段文本中每段文本对应的合成语音。

第三方面，本发明实施例提供一种语音合成装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音合成方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法中的步骤。

本发明实施例中，通过获取待处理文本和目标语音合成参数，并对待处理文本进行拆分，以及通过与目标语音合成参数对应的语音合成模型，对拆分的多段文本进行语音合成，从而不仅能够合成具备目标语音合成参数的合成语音，还能保证语音合成的实效性。相比现有技术中，直接对整段待处理文本进行语音合成的方式，该种方式可边分段边合成，从而能够较为实时地合成各段文本对应的语音，且由于可基于获取的目标语音合成参数，通过对应的语音合成模型来合成对应音色、音调的合成语音，进而相比现有语音合成方案更为灵活，可获得较好的语音合成效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音合成方法的流程图；

图2是本发明实施例提供的一种语音合成方法的流程框架示意图；

图3是本发明实施例提供的一种语音合成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音合成方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项。

上述待处理文本可以是任意需要合成对应语音的文本，例如，可以获取用户输入的期望转换成对应语音的文本，且本发明实施例中，所述待处理文本的文本长度可不受限制。

上述获取目标语音合成参数可以是获取系统默认设定的或由用户设定的语音合成参数，如发音对象、发音参数等，所述目标语音合成参数可用于指示按照所述目标语音合成参数对所述待处理文本进行语音合成，即合成后的与所述待处理文本对应的语音的音色、音调等发音参数与所述目标语音合成参数一致。例如，用户在输入所述待处理文本时，可以相应设定发音对象和/或发音参数，以指示系统合成所指定的发音对象和/或发音参数的合成语音。

其中，所述发音对象可以是指具备特定发音参数的发音人标识，例如，对于不同音色、音调的发音参数，可以分别设定不同的发音人标识，不同的发音标识表示不同的发音对象，例如，对于不同发音音色、音调的发音对象，可以分别设定其发音人标识为：机器人、软萌小可爱、活力正太等，也即对不同发音对象分别进行命名，用户可从中选择任一发音对象作为目标发音对象。

可选的，所述获取目标语音合成参数，包括：

获取从至少两个语音合成参数中选择的目标语音合成参数。

即该实施方式中，可以提供多种语音合成参数供用户选择，用户可根据自身需求从中选择期望的目标语音合成参数。

步骤102、对所述待处理文本进行拆分，得到至少两段文本。

上述对所述待处理文本进行拆分，可以是按一定规则将所述待处理文本拆分成至少两段文本，以便后续可分别对拆分后的每段文本进行语音合成，例如，可以通过对所述待处理文本进行断句来将所述待处理文本拆分成若干段文本。

即在对所述待处理文本进行拆分时，可以依据所述待处理文本中的断句标点，如逗号、句号、问号、感叹号等，将所述待处理文本拆分成多段文本；也可以依据所述待处理文本的语句长度，对所述待处理文本进行截断拆分，以保证拆分后的每段文本的长度不超过预设阈值；还可以依据所述待处理文本中标记的语音合成参数，如标记的发音对象或发音参数，对所述待处理文本进行拆分，即对于所述待处理文本，用户可以对不同的文本段落标记不同的语音合成参数，从而在对所述待处理文本进行拆分时，可以按各段落分别标记的不同语音合成参数，来将其拆分成多段文本，拆分后的每段文本分别对应不同的语音合成参数，这种方式尤其适用于分角色合成语音的场景，例如，所述待处理文本可以是包括不同角色的对话文本，如剧本台词，并对不同角色的文本台词分别标记不同的发音对象，以使系统合成由不同发音对象发出的对话语音。

当然，上述三种不同的文本分段方式可以结合使用，也可以只使用其中一种，具体可根据用户需求进行相应设定。

这样，通过使用上述方式对所述待处理文本进行合理分段，即有利于后续按段进行语音合成，又可保证合成的分段语音符合用户的语言表达逻辑或者可满足用户的不同语音合成需求。

步骤103、通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

在本发明实施例中，为保证合成与所获取的目标语音合成参数一致的合成语音，可通过调用与所述目标语音合成参数对应的语音合成模型，来对拆分后的至少两段文本进行语音合成，进而得到所述至少两段文本中每段文本对应的合成语音。也就是说，对于不同的语音合成参数，可以预先建立有不同的语音合成模型，在获得目标语音合成参数后，便可调用与所述目标语音合成参对应的语音合成模型来进行语音合成。

具体地，在对所述至少两段文本进行语音合成时，可以按对应的文本顺序，依次对每段文本进行合成，并可在每合成完一段文本对应的语音后，便进行输出，从而可保证语音合成过程的实效性，无需等待所有文本合成完毕后才输出。

可选的，所述步骤103包括：

该实施方式中，可以通过服务调用来完成对所述至少两段文本的语音合成，例如，可以调用语音合成服务来进行语音合成，所述语音合成服务可以是一种用于提供语音合成功能的云服务，例如，可以是用于提供语音合成服务的语音供应商。

具体地，可以将所述至少两段文本和所述目标语音合成参数发送至用于提供语音合成服务的服务端，以使所述服务端基于所述目标语音合成参数，调用对应的语音合成模型，对所述至少两段文本进行语音合成，从而得到所述至少两段文本中每段文本对应的合成语音，也就是说，所述服务端中可以预先存储有对应不同语音合成参数的多个语音合成模型，在需要提供语音合成服务时，可以调用出相应的语音合成模型，来完成相应的语音合成功能。所述服务端在合成所述至少两段文本中每段文本对应的合成语音后，可以返回所完成的合成语音。

这样，通过服务调用来完成对所述至少两段文本的语音合成服务，可达到节省系统资源和提高语音合成效率的目的。

可选的，所述步骤102之后，所述步骤103之前，所述方法还包括：

所述步骤103，包括如下至少一项：

该实施方式中，在对所述待处理文本进行拆分后，可以先判断拆分后的至少两段文本是否SSML规范，其中，SSML规范是关于语音应用和在万维网上构建语音应用的一套规范，其可用于提供文本标准化，即可支持用户在文本中对期望合成的语音的各方面参数进行相应语言标记，例如，可以使用SSML标记语言在待处理文本中标记发音对象、格式、断句等等。所述判断拆分后的至少两段文本是否SSML规范，也即是对所述至少两段文本按SSML规范进行语法检查，判断所述至少两段文本中是否存在按SSML规范标记有这些参数。

在检查确定所述至少两段文本符合SSML规范的情况下，可进一步按照所述目标语音合成参数对应的SSML文本格式，对所述至少两段文本的SSML文本格式进行比对或调整，即可以按照用户指定的发音对象、发音参数等对应的语音合成服务供应商的SSML文本格式，对所述至少两段文本中标记的SSML文本格式进行比对；在两者相一致的情况下，可不对所述至少两段文本的SSML文本格式进行调整，而在两者不一致的情况下，可对所述至少两段文本的SSML文本格式进行调整，以将所述至少两段文本的SSML文本格式调整成与所述语音合成服务供应商的SSML文本格式一致；然后可通过与所述目标语音合成参数对应的语音合成模型，并按照所述至少两段文本中标记的SSML参数，对比对或调整后的所述至少两段文本进行语音合成，得到符合相应SSML语法的合成语音；

而在检查确定所述至少两段文本不符合SSML规范的情况下，可按照普通的语音合成方式，通过所述语音合成模型直接对所述至少两段文本进行常规语音合成，得到所述至少两段文本中每段文本对应的合成语音，即所合成的语音为普通的合成语音。

这样，该实施方式可使所述语音合成方法支持SSML文本格式的语音合成服务，进而可为用户提供更为灵活和语音质量更佳的语音合成服务。

一种实施方式中，所述目标语音合成参数还可包括音频格式参数，即用户可预先设置期望合成的语音的音频格式。

具体地，在合成所述至少两段文本中每段文本对应的合成语音之后，还可检验所述合成语音的音频格式是否与所述音频格式参数所指示的目标音频格式一致，在不一致的情况下，可对所述合成语音进行音频格式转换处理，以将所述合成语音的音频格式转换为用户期望的目标音频格式。

这样，通过上述方式，可对所述待处理文本按照用户指定需求合成目标音频格式的合成语音，使得本发明实施例所提供的文本语音合成服务更为灵活。

本实施例中，需说明的是，上述获取待处理文本、文本拆分、SSML规范检查、SSML文本格式转换和音频格式转换等步骤均可以由语音合成代理服务完成，上述调用语音合成模型和合成所述至少两段文本对应的语音的步骤则可以由语音合成服务完成。其中，所述语音合成代理服务可以是语音合成代理服务器提供的一种代理服务，所述语音合成服务可以是语音合成服务器提供的一种语音合成服务，如语音供应商服务器。下面结合图2，对本发明实施例的一种具体实施方式进行举例说明：

首先，语音合成代理服务可获取用户输入的文本及相关语音合成参数，如发音对象、音频格式等参数，再对获取的文本进行拆分，将其拆分成有序的多段文本；

然后，可判断拆分后的多段文本是否符合SSML规范；

在符合SSML规范的情况下，可以进一步按照用户设定的发音对象对应的语音供应商的SSML文本格式，对拆分后的多段文本进行SSML文本格式比对或转换，再将比对或转换后的多段文本发送至语音合成服务，并且还会将发音对象等参数发送至语音合成服务；

在符合SSML规范的情况下，可直接将拆分后的多段文本和发音对象等参数发送至语音合成服务；

接着，语音合成服务可基于接收的发音对象等参数，调用对应的语音合成模型，并通过该语音合成模型对接收的多段文本按序进行语音合成，得到对应的多段合成音频；

最后，语音合成代理服务可按照用户开始输入的音频格式参数，对合成后的对应多段合成音频进行音频格式转换处理，得到符合用户期望的目标音频格式的多段合成音频，并可输出相应的音频流至用户。

本实施例中的语音合成方法，通过获取待处理文本和目标语音合成参数，并对待处理文本进行拆分，以及通过与目标语音合成参数对应的语音合成模型，对拆分的多段文本进行语音合成，从而不仅能够合成具备目标语音合成参数的合成语音，还能保证语音合成的实效性。相比现有技术中，直接对整段待处理文本进行语音合成的方式，该种方式可边分段边合成，从而能够较为实时地合成各段文本对应的语音，且由于可基于获取的目标语音合成参数，通过对应的语音合成模型来合成对应音色、音调的合成语音，进而相比现有语音合成方案更为灵活，可获得较好的语音合成效果。

参见图3，图3是本发明实施例提供的一种语音合成装置的结构示意图，如图3所示，语音合成装置300包括：

获取模块301，用于获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；

第一文本处理模块302，用于对所述待处理文本进行拆分，得到至少两段文本；

语音合成模块303，用于通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。

可选的，获取模块301用于获取从至少两个语音合成参数中选择的目标语音合成参数。

可选的，语音合成装置300还包括：

语音合成模块303包括如下至少一项：

可选的，所述第一文本处理模块302用于依据所述待处理文本中标记的断句标点、语音合成参数，和/或所述待处理文本的语句长度，对所述待处理文本进行分段处理，得到至少两段文本。

语音合成装置300还包括：

可选的，语音合成模块303包括：

语音合成装置300能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。本发明实施例的语音合成装置300可通过获取待处理文本和目标语音合成参数，并对待处理文本进行拆分，以及通过与目标语音合成参数对应的语音合成模型，对拆分的多段文本进行语音合成，从而不仅能够合成具备目标语音合成参数的合成语音，还能保证语音合成的实效性。相比现有技术中，直接对整段待处理文本进行语音合成的方式，该种方式可边分段边合成，从而能够较为实时地合成各段文本对应的语音，且由于可基于获取的目标语音合成参数，通过对应的语音合成模型来合成对应音色、音调的合成语音，进而相比现有语音合成方案更为灵活，可获得较好的语音合成效果。

本发明实施例还提供一种语音合成装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音合成方法，其特征在于，包括：

对所述待处理文本进行拆分，得到至少两段文本；

2.根据权利要求1所述的方法，其特征在于，所述获取目标语音合成参数，包括：

获取从至少两个语音合成参数中选择的目标语音合成参数。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行拆分，得到至少两段文本之后，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成之前，所述方法还包括：

判断所述至少两段文本是否符合语音合成标记语言SSML规范；

4.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行拆分，得到至少两段文本，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标语音合成参数还包括音频格式参数，所述音频格式参数用于指示合成目标音频格式的语音；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音，包括：

7.一种语音合成装置，其特征在于，包括：

8.根据权利要求7所述的语音合成装置，其特征在于，所述语音合成装置还包括：

所述语音合成模块包括如下至少一项：

9.一种语音合成装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。