CN111710326B

CN111710326B - 英文语音的合成方法及系统、电子设备及存储介质

Info

Publication number: CN111710326B
Application number: CN202010534462.7A
Authority: CN
Inventors: 周明康; 罗超; 吉聪睿; 李巍; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-01-23
Anticipated expiration: 2040-06-12
Also published as: CN111710326A

Abstract

本发明公开了一种英文语音的合成方法及系统、电子设备及存储介质。其中，英文语音的合成方法包括：将目标英文文本转换为对应的文本向量；提取与目标句式对应的模板音频的参数，并将所述参数转换为对应的参数向量；其中，所述参数用于表征所述模板音频的语调特征；将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征；将所述声学特征转换为可播放的音频。本发明利用英文文本与模板音频的参数合成对应的音频，使得机器能够带有语调播放相应句式的英文，并且能够保证语音合成的质量以及实时性。

Description

英文语音的合成方法及系统、电子设备及存储介质

技术领域

本发明涉及语音合成技术领域，特别涉及一种英文语音的合成方法及系统、电子设备及存储介质。

背景技术

现有的语音合成技术主要分为拼接法和参数法。其中，拼接合成方法是预先录制好大量的语音，然后根据需要合成的文本选择所需的基本单位的语音进行拼接，合成语音。拼接合成方法虽然合成的语音质量较高，但是需要录制的音频数据量巨大，成本很高。而参数合成方法是根据统计模型来产生每时每刻的语音参数，例如基频、共振峰频率等，然后通过声码器将这些参数转化为声音。但是参数合成方法的信息丢失大，合成的声音不够清晰、自然。

发明内容

本发明要解决的技术问题是为了克服现有技术中的上述缺陷，提供一种低成本且语音合成质量较高的英文语音的合成方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明的第一方面提供一种英文语音的合成方法，包括：

将目标英文文本转换为对应的文本向量；

提取与目标句式对应的模板音频的参数，并将所述参数转换为对应的参数向量；其中，所述参数用于表征所述模板音频的语调特征；

将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征；

将所述声学特征转换为可播放的音频。

较佳地，在将目标英文文本转换为对应的文本向量的步骤之前，还包括：

对目标英文文本进行正则化处理；和/或，

将目标英文文本中的中文符号替换为对应的英文符号；和/或，

将目标英文文本中的数字转换为对应场景下的英文单词。

较佳地，利用如下方法训练所述声学模型：

将英文文本转换为对应的文本向量；

提取针对所述英文文本录制的音频的参数，并将所述参数转换为对应的参数向量；

根据所述文本向量与所述声学特征的对齐效果调整所述声学模型的参数，直至所述文本向量与所述声学特征完全对齐。

较佳地，所述声学模型为自回归网络，其中，在训练声学模型阶段，利用之前帧的真实声学特征预测当前帧的声学特征。

较佳地，所述目标句式为陈述句、祈使句、疑问句或感叹句；和/或，

所述参数包括基频的均值、方差、最大值、最小值，以及能量的均值、方差和最大值；和/或，

所述声学模型包括编码单元和解码单元，所述编码单元包括2层CNN(Convolutional Neural Networks，卷积神经网络)模型和2层双向LSTM(Long Short-TermMemory，长短期记忆网络)模型，所述解码单元包括1层CNN模型和3层双向LSTM模型；和/或，

所述声学特征为梅尔谱特征。

本发明的第二方面提供一种英文语音的合成系统，包括：

文本处理模块，用于将目标英文文本转换为对应的文本向量；

特征提取模块，用于提取与目标句式对应的模板音频的参数，并将所述参数转换为对应的参数向量；其中，所述参数用于表征所述模板音频的语调特征；

预测模块，用于将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征；

声码器，用于将所述声学特征转换为可播放的音频。

较佳地，所述文本处理模块还用于对目标英文文本进行正则化处理；和/或，将目标英文文本中的中文符号替换为对应的英文符号；和/或，将目标英文文本中的数字转换为对应场景下的英文单词。

所述声学模型包括编码单元和解码单元，所述编码单元包括2层CNN模型和2层双向LSTM模型，所述解码单元包括1层CNN模型和3层双向LSTM模型；和/或，

所述声学特征为梅尔谱特征。

本发明的第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的英文语音的合成方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的英文语音的合成方法。

本发明的积极进步效果在于：本发明利用英文文本与模板音频的参数合成对应的音频，使得机器能够带有语调播放相应句式的英文，并且能够保证语音合成的质量以及实时性。

附图说明

图1为本发明实施例1提供的一种英文语音的合成方法的流程图。

图2为本发明实施例1提供的一种英文语音的合成方法的框架图。

图3为本发明实施例1提供的声学模型的结构示意图。

图4为本发明实施例2提供的一种英文语音的合成系统的结构框图。

图5为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

通常，OTA网站每天需要外呼大量的电话给国外的客户，结合ASR(语音识别)、DM(对话管理)、NLU(自然语言理解)、NLG(自然语言生成)等技术，实现机器人智能外呼系统，节省人力成本，并且机器不会受到不耐烦等情绪的影响，符合以客户为中心的服务场景。本发明实施例提供的英文语音的合成方法及系统，利用英文文本与模板音频的参数合成对应的音频，使得机器能够带有语调播放相应句式的英文，并且能够保证语音合成的质量以及实时性。

实施例1

本实施例提供一种英文语音的合成方法，如图1所示，包括以下步骤：

步骤S101、将目标英文文本转换为对应的文本向量。

在可选的一种实施方式中，在步骤S101之前还包括对目标英文文本进行预处理。在一个例子中，对目标英文文本进行正则化处理，例如去除目标英文文本中的乱码或非标准符号等。在另一个例子中，将目标英文文本中的中文符号替换为对应的英文符号。在另一个例子中，将目标英文文本中的数字转换为对应场景下的英文单词。例如对于同样的数字“205”来说，如果对应场景为房间号，则对应的英文单词为“two、zero、five”；如果对应场景为金钱，则对应的英文单词则为“two hundred and five”。

在步骤S101的具体实施中，如图2所示，首先根据自定义字典将目标英文文本中的每个字符转换为对应的字典索引，例如将字符“A”转换为“00001”，将字符“B”转换为“00010”。然后经过一个embedding层，将目标英文文本转换为声学模型能够处理的文本向量。

步骤S102、提取与目标句式对应的模板音频的参数，并将所述参数转换为对应的参数向量。其中，所述参数用于表征所述模板音频的语调特征；

需要说明的是，模板音频与句式一一对应，即不同的句式对应不同的模板音频。在可选的一些实施方式中，上述目标句式为陈述句、祈使句、疑问句或感叹句。

在步骤S102可选的一种实施方式中，提取模板音频的基频参数和能量参数，具体包括基频的均值、方差、最大值、最小值，以及能量的均值、方差和最大值。在一个例子中，如图2所示，将上述7个参数输入至一个2层的线性层网络，得到和上述embedding一样特征维度的参数向量。

步骤S103、将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征。

在可选的一种实施方式中，声学模型采用encoder-decoder的结构，主要使用CNN、双向LSTM以及线性层进行搭建。具体包括编码单元和解码单元，如图3所示，所述编码单元包括2层CNN模型和2层双向LSTM模型，并加入了local attention的机制，用于学习单词之间的间隔，以更好地学习文本和声学特征的对齐关系。另外，每两层网络之间使用ReLU(Rectified Linear Unit，线性整流函数)激活函数进行非线性激活。所述解码单元包括1层CNN模型和3层双向LSTM模型，在最后一层的双向LSTM后连接了全连接层，用于生成指定维度的声学特征。在一个具体的例子中，生成160维的声学特征。本实施方式中的声学模型中去除了传统的残差连接结构，在一个具体的例子，卷积层CNN使用256维，LSTM隐状态使用128维。

在可选的一种实施方式中，所述声学特征为梅尔谱特征。

步骤S104、将所述声学特征转换为可播放的音频。其中，可播放的音频中具有模板音频的语调特征，即以与模板音频相同的句式播放合成的音频。举个例子，如果模板音频的句式为疑问句，最后则以疑问句的语调播放步骤S104中的音频；如果模板音频的句式为陈述句，最后则以陈述句的语调播放步骤S104中的音频。

在步骤S104的具体实施中，使用Griffin-Lim声码器将声学模型预测得到的声学特征转换为可播放的音频。具体通过迭代生成相位谱，并用已知的幅度谱和计算得出的相位谱，重建合成的语音波形。

在具体实施中，利用如下方法训练上述声学模型：

步骤S201、将英文文本转换为对应的文本向量。

步骤S202、提取针对所述英文文本录制的音频的参数，并将所述参数转换为对应的参数向量。

在可选的一种实施方式中，步骤S201中的英文文本取自酒店客服与酒店商家的通话记录，步骤S202中由专门的人工客服去录音棚针对上述英文文本进行录制。

步骤S203、将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征。

步骤S204、根据所述文本向量与所述声学特征的对齐效果调整所述声学模型的参数，直至所述文本向量与所述声学特征完全对齐。

在具体实施中，声学模型迭代训练十万次后，开始在验证集上进行测试，每迭代一万次进行测试一次，观察loss的下降趋势，并且查看文本向量与声学特征的对齐效果。在一个具体的例子中，总共训练了40万次，loss基本不再下降，文本向量与声学特征完全对齐，声学模型收敛。

在可选的一种实施方式中，上述声学模型为自回归网络，当前的预测结果会依赖于之前的预测结果。在训练声学模型阶段，声学模型未收敛，预测结果比较差，因此对后续的预测结果产生了很大的影响，导致声学模型比较难训练。因此，本实施方式中采用teacher forcing的训练测量，即在训练过程中，利用之前帧的真实声学特征预测当前帧的声学特征，这样可以加速声学模型收敛的速度。

实施例2

本实施例提供一种英文语音的合成系统40，如图4所示，包括文本处理模块41、特征提取模块42、预测模块43以及声码器44。

文本处理模块41用于将目标英文文本转换为对应的文本向量。

在可选的一种实施方式中，文本处理模块41还用于对目标英文文本进行预处理。在一个例子中，对目标英文文本进行正则化处理。在另一个例子中，将目标英文文本中的中文符号替换为对应的英文符号。在另一个例子中，将目标英文文本中的数字转换为对应场景下的英文单词。

特征提取模块42用于提取与目标句式对应的模板音频的参数，并将所述参数转换为对应的参数向量；其中，所述参数用于表征所述模板音频的语调特征。

在可选的一些实施方式中，所述目标句式为陈述句、祈使句、疑问句或感叹句。

在可选的一种实施方式中，所述参数包括基频的均值、方差、最大值、最小值，以及能量的均值、方差和最大值。

预测模块43用于将所述文本向量与所述参数向量拼接后输入声学模型，预测得到对应的声学特征。

在可选的一种实施方式中，所述声学模型包括编码单元和解码单元，所述编码单元包括2层CNN模型和2层双向LSTM模型，所述解码单元包括1层CNN模型和3层双向LSTM模型。

在可选的一种实施方式中，所述声学特征为梅尔谱特征。

声码器44用于将所述声学特征转换为可播放的音频。

实施例3

图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的英文语音的合成方法。图5显示的电子设备3仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备3可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备3的组件可以包括但不限于：上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。

总线6包括数据总线、地址总线和控制总线。

存储器5可以包括易失性存储器，例如随机存取存储器(RAM)51和/或高速缓存存储器52，还可以进一步包括只读存储器(ROM)53。

存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55，这样的程序模块54包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器4通过运行存储在存储器5中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的英文语音的合成方法。

电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且，模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的英文语音的合成方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的英文语音的合成方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种英文语音的合成方法，其特征在于，包括：

将目标英文文本转换为对应的文本向量；

将所述声学特征转换为可播放的音频；

利用如下方法训练所述声学模型：

将英文文本转换为对应的文本向量；

根据所述文本向量与所述声学特征的对齐效果调整所述声学模型的参数，直至所述文本向量与所述声学特征完全对齐；

所述目标句式为陈述句、祈使句、疑问句或感叹句。

2.如权利要求1所述的合成方法，其特征在于，在将目标英文文本转换为对应的文本向量的步骤之前，还包括：

对目标英文文本进行正则化处理；和/或，

将目标英文文本中的数字转换为对应场景下的英文单词。

3.如权利要求1所述的合成方法，其特征在于，所述声学模型为自回归网络，其中，在训练声学模型阶段，利用之前帧的真实声学特征预测当前帧的声学特征。

4.如权利要求1-3中任一项所述的合成方法，其特征在于，

所述声学特征为梅尔谱特征。

5.一种英文语音的合成系统，其特征在于，包括：

声码器，用于将所述声学特征转换为可播放的音频；

利用如下方法训练所述声学模型：

将英文文本转换为对应的文本向量；

所述目标句式为陈述句、祈使句、疑问句或感叹句。

6.如权利要求5所述的合成系统，其特征在于，所述文本处理模块还用于对目标英文文本进行正则化处理；和/或，将目标英文文本中的中文符号替换为对应的英文符号；和/或，将目标英文文本中的数字转换为对应场景下的英文单词。

7.如权利要求5或6所述的合成系统，其特征在于，

所述声学特征为梅尔谱特征。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的英文语音的合成方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的英文语音的合成方法。