CN111128120A

CN111128120A - 文本转语音方法和装置

Info

Publication number: CN111128120A
Application number: CN201911404301.XA
Authority: CN
Inventors: 周扬; 张辉
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-08
Anticipated expiration: 2039-12-31
Also published as: CN111128120B

Abstract

本发明公开文本转语音方法和装置，其中，一种文本转语音方法，包括：响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；以及基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。本申请实施例的方案通过在输出高自然度的合成语音的同时，输出准确的语音与文本的对应关系，从而帮助虚拟形象建模渲染时保持口型与声音高度一致，提升了用户体验。

Description

文本转语音方法和装置

技术领域

本发明属于智能对话技术领域，尤其涉及文本转语音方法和装置。

背景技术

现有技术中，虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用，并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。

语音合成的目的是对给定文本生成自然的语音波形。近年来，越来越多的研究者们逐渐在语音合成领域采用深度神经网络技术来帮助提高合成效果。

当虚拟人物使用的语音是由语音合成系统生成时，语音合成系统应当给出和语音同步的声韵母时长序列(声韵母可以直接映射成口型，多个声韵母可能映射成同一个口型。不直接给口型的原因是目前学术界、工业界对于普通话存在多种声韵母到口型的映射方案，输出无损的原始信息——声韵母时长序列方便合作方使用自定义的映射方案)。

相关技术中，存在基于隐马尔可夫模型的参数式语音合成技术，进一步的，还存在基于神经网络的参数式语音合成技术，也就是使用神经网络模型逐步取代基于隐马尔可夫模型的参数式语音合成中的统计模型，但是整体架构不变(例如仍旧包含了时长模型、声学模型等分开的模块)，其中的子模块——时长模型可以输出与合成语音同步的声韵母时长序列。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：基于隐马尔可夫模型的参数式语音合成技术的缺点是合成的声音带有机械音、音质差；虽然，基于神经网络的参数式语音合成减轻了上述问题，但合成的语音还是不够自然。

发明内容

本发明实施例提供一种文本转语音方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种文本转语音方法，包括：响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；以及基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

第二方面，本发明实施例提供一种文本转语音装置，包括：特征提取，配置为响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；处理模块，配置为对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；对应关系确定模块，配置为基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；以及合成输出模块，配置为基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的文本转语音方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的文本转语音方法的步骤。

本申请的方法和装置提供的方案通过在输出高自然度的合成语音的同时，输出准确的语音与文本的对应关系，从而帮助虚拟形象建模渲染时保持口型与声音高度一致，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种文本转语音方法的流程图；

图2为本发明一实施例提供的一种端端到端神经网络语音合成的声韵母序列获得方法的流程图；

图3为本发明一实施例提供的声学特征序列和文本特征序列的对齐图示例；

图4为本发明一实施例提供的一种文本转语音装置的框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的文本转语音方法一实施例的流程图，本实施例的文本转语音方法可以适用于公众账号的智能对话机器人，例如各种社交软件中的公众账号，本申请在此没有限制。

如图1所示，在步骤101中，响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；

在步骤102中，对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；

在步骤103中，基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；

在步骤104中，基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

在本实施例中，对于步骤101，文本转语音装置响应于接收到的文本序列，然后对所述文本序列进行诸如分词、多音字分析、词性分析等进行特征提取得到文本特征序列，例如把“您好”一词中会把“好”这一字进行多音字分析，最终结合“您好”两个字的关联关系得到三声的“好”，而不是“叶公好龙”中四声的“好”，又例如，对“欢迎来到长安城”这句话进行“欢迎”、“来到”、“长安城”这样的分词处理等，本申请在此没有限制。

然后，对于步骤102，文本转语音装置对所述文本特征序列进行处理得到声学特征序列，例如，对上述实施例中的“欢迎、来到、长安城”进行处理得到至少包含“huan yinglai dao chang an cheng”的声学特征序列以及所述声学特征序列和所述文本特征序列之间的对齐信息，例如，“huan”对应“欢”等，本申请在此不再赘述。

对于步骤103，文本转语音装置基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系，例如，基于上述实施例中“欢迎来到长安城”这一文本的声学特征序列和文本特征序列之间的对齐信息，然后把它们之间的对应关系精确到每一时刻中，从而从软边界的映射关系达到硬边界的映射关系，其中，软边界是自由边界，某一声学特征以一定概率对应某一文本特征(该声学特征对应该文本特征序列的概率之和为1)；硬边界是刚性边界，某一声学特征确定性地对应某一文本特征。

最后，对于步骤104，文本转语音装置基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系，例如，游戏中的虚拟形象建模渲染时基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系时将保持口型与声音高度一致。

本申请实施例提供的方案通过在输出高自然度的合成语音的同时，输出准确的语音与文本的对应关系，从而帮助虚拟形象建模渲染时保持口型与声音高度一致，提升了用户体验。

在一些可选的实施例中，所述文本特征序列包括声韵母序列，所述方法还包括：基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。从而最终输出每一时刻声学特征与声韵母序列中的每一声韵母的对应关系，精确到每一声韵母的时间，从而后续再进行口型匹配时，可以很好地保证口型与语音一致，更好地模拟真人说话，用户体验更好。

在进一步可选的实施例中，所述输出所述音频序列和所述对应关系包括：输出所述音频序列和与所述音频序列对应的声韵母序列。本实施例的方案通过将声韵母序列与音频序列对准，从而可以使得后续加入的口型可以按照声韵母序列进行精确对准，从而保证口型与音频一致。

进一步可选的，所述特征提取包括分词、多音字分析和词性分析。通过对文本序列进行上述处理，可以很好地提取出文本序列中的文本特征序列。

进一步可选的，所述对所述文本特征序列进行处理包括采用端到端神经网络对所述文本特征序列进行处理。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，相关技术中存在的以上缺陷主要是由于以下内容导致的：在语音合成的过程中，后端预测(也就是文本特征到声学特征的预测过程)是分成时长模型、声学模型等小模块独立工作的，声学模型依赖于时长模型，由于模型的预测始终存在误差，而级联的模型会逐步放大误差，导致最终合成的语音不够自然。

请参考图2，其示出了本申请实施例所采用的技术方案的流程图。

如图所示，前端转换——对文本提取特征(诸如分词，多音字分析，词性分析等)，最终得到文本特征序列(声韵母序列以及一些其他信息)

后端预测——通过端到端神经网络对上面得到的文本特征序列进行处理，得到声学特征序列(从音频中提取的某些特征，通过特定算法可以将之恢复成音频)以及对齐信息(声学特征序列与文本特征序列之间的对齐关系矩阵)，图3是比较好的对齐图举例，声学特征序列(decoder steps)与文本特征序列(encoder steps)的对齐矩阵呈现明显的对角线(颜色越亮表示该点概率值越大，如图3所示，只有对角线处的概率值比较大，其他处的概率值比较小)。

处理声学特征——提取声学特征的逆过程，将声学特征还原成音频

处理对齐信息——原始的对齐关系是软边界的，例如合成文本为“您好”时，某一时刻的声学特征X与各个声韵母对齐关系如下表：

sil	n	in2	h	ao3	sil
						0.000	0.010	0.080	0.010	0.000	0.000

我们需要将这样的“软边界”转换成“硬边界”，也就是明确每一时刻声学特征属于哪一个文本特征，具体处理过程较为复杂，首先认为某一帧(帧为单位，比如声学特征序列长度为L，我们可以说声学特征有L帧)声学特征对应声韵母概率分布中概率最大的那一个声韵母(以上表为例，可以认为该声学特征X对应声韵母为in2)，这样得到初步结果，然后扫描一遍对应关系，查找不符合预期的地方(比如某个声母没有任何一帧声学特征与之对应，这是因为实际应用中，为了提高性能，往往一次解码预测多帧，这些打包输出的帧只能得到一个概率分布，这常导致发音时间短的声母容易被“淹没”)，对不符合预期的地方通过算法修正(例如将缺失声母的时长按照统计规律设置为某个值，并且将该声母后面的韵母时长减去该值以保持整体时长不变)，并且由于概率分布存在一定误差，这也需要后续算法矫正。最终得到声学特征与文本特征的“硬边界”映射关系，再转换得到声韵母时长序列。举例：

sil	n	in2	h	ao3	sil
						300ms	10ms	200ms	5ms	245ms	300ms

本申请实施例提供的方案能在输出高自然度的合成语音的同时，输出准确的语音与文本的对齐信息，从而帮助虚拟形象建模渲染时保持口型与声音高度一致，提升了用户体验。

请参考图4，其示出了本发明一实施例提供的一种文本转语音装置的框图。

如图4所示，文本转语音装置400，包括特征提取模块410、处理模块420、对应关系确定模块430和合成输出模块440。

其中，特征提取模块410，配置为响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；处理模块420，配置为对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；对应关系确定模块430，配置为基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；以及合成输出模块440，配置为基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

在一些可选的实施例中，所述文本特征序列包括声韵母序列，所述装置还包括：声韵母时长序列确定模块，配置为基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。

在进一步可选的实施例中，所述输出所述音频序列和所述对应关系包括：输出所述音频序列和与所述音频序列对应的声韵母序列。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如特征提取模块可以描述为响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本转语音方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；

对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；

基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；

基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据文本转语音装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至文本转语音装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项文本转语音方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。文本转语音方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例文本转语音方法。输入装置530可接收输入的数字或字符信息，以及产生与文本转语音装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于文本转语音装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本转语音方法，包括：

2.根据权利要求1所述的方法，其中，所述文本特征序列包括声韵母序列，所述方法还包括：

基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。

3.根据权利要求2所述的方法，其中，所述输出所述音频序列和所述对应关系包括：

输出所述音频序列和与所述音频序列对应的声韵母序列。

4.根据权利要求1-3中任一项所述的方法，其中，所述特征提取包括分词、多音字分析和词性分析。

5.根据权利要求4所述的方法，其中，所述对所述文本特征序列进行处理包括采用端到端神经网络对所述文本特征序列进行处理。

6.一种文本转语音装置，包括：

特征提取，配置为响应于接收到的文本序列，对所述文本序列进行特征提取得到文本特征序列；

处理模块，配置为对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息；

对应关系确定模块，配置为基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系；

合成输出模块，配置为基于所述声学特征序列合成音频序列，输出所述音频序列和所述对应关系。

7.根据权利要求6所述的装置，其中，所述文本特征序列包括声韵母序列，所述装置还包括：

声韵母时长序列确定模块，配置为基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。

8.根据权利要求7所述的装置，其中，所述输出所述音频序列和所述对应关系包括：输出所述音频序列和与所述音频序列对应的声韵母序列。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。