CN111583902A

CN111583902A - 语音合成系统、方法、电子设备及介质

Info

Publication number: CN111583902A
Application number: CN202010405986.6A
Authority: CN
Inventors: 周明康; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-08-25
Anticipated expiration: 2040-05-14
Also published as: CN111583902B

Abstract

本发明公开了一种语音合成系统、方法、电子设备及介质，其中语音合成系统包括预处理模块、声学模型模块和声码器模块；声学模型模块包括编码器单元和解码器单元；编码器单元包括第一卷积层和第一LSTM层，解码器单元包括第二卷积层、第二LSTM层和全连接层，第一卷积层、第一LSTM层、第二卷积层和第二LSTM层的层数均小于6层；本发明大大减小了声学模型模块的占用空间，提高声学模型模块的数据处理速度及转换效率，从而解决了现有技术中语音合成系统中的声学模型的数据处理速度较慢，影响语音合成的转换效率的缺陷。

Description

语音合成系统、方法、电子设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种语音合成系统、方法、电子设备及介质。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。

现有的语音合成技术主要分为拼接法和参数法。其中参数法是根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等)，然后把这些参数转化为波形。语音合成系统主要分为3个模块：前端处理模块、声学模型模块和声码器模块。其中声学模型模块中的声学模型的数据处理速度较慢，影响语音合成的转换效率。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音合成系统中的声学模型的数据处理速度较慢，影响语音合成的转换效率的缺陷，提供一种语音合成系统、方法、电子设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

一种语音合成系统，所述语音合成系统包括预处理模块、声学模型模块和声码器模块；所述声学模型模块包括编码器单元和解码器单元；所述编码器单元包括第一卷积层和第一LSTM层，所述解码器单元包括第二卷积层、第二LSTM层和全连接层，所述第一卷积层、所述第一LSTM层、所述第二卷积层和所述第二LSTM层的层数均小于6层；

所述预处理模块用于将预测文本信息转换为预测向量；

所述声学模型模块用于将所述预测向量转换为预测语音特征；

所述声码器模块用于转换所述预测语音特征至合成的语音；

其中，所述声学模型模块还用于利用所述编码器单元将所述预测向量依次通过所述第一卷积层和所述第一LSTM层进行编码得到编码结果；

所述声学模型模块还用于利用所述解码器单元将所述编码结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到预设维度的所述预测语音特征。

优选地，所述语音合成系统还包括训练模块，所述训练模块用于利用所述编码器单元将样本向量依次通过所述第一卷积层和所述第一LSTM层进行编码得到样本编码结果，其中所述预处理模块将样本文本转换为所述样本向量；

所述训练模块还用于利用所述解码器单元将所述样本编码结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到样本语音特征；

所述训练模块还用于根据所述样本语音特征与对比语音特征之间的交叉熵，迭代训练所述编码器单元和所述解码器单元，直至所述交叉熵至预设阈值，其中所述对比语音特征为所述样本文本对应的语音特征；

和/或，

所述声码器模块还用于利用Griffin-Lim声码器转换所述预测语音特征至所述合成的语音；

和/或，

所述编码器单元和所述解码器单元之间设置有Attention层，所述Attention层用于接收所述编码结果，并将输入结果输入至解码器单元得到预设维度的语音特征；

和/或，

所述编码器单元包括2层第一卷积层和1层第一LSTM层；

和/或；

所述解码器单元包括3层第二卷积层和2层第二LSTM层。

优选地，所述语音特征为梅尔谱特征，所述预设维度的数值为80*n，其中n为大于1的整数。

优选地，所述预设维度的数值为160。

一种语音合成方法，所述语音合成方法利用声学模型模块实现，所述声学模型模块包括编码器单元和解码器单元；所述编码器单元包括第一卷积层和第一LSTM层，所述解码器单元包括第二卷积层、第二LSTM层和全连接层，所述第一卷积层、所述第一LSTM层、所述第二卷积层和所述第二LSTM层的层数均小于6层；所述语音合成方法包括：

将预测文本信息转换为预测向量；

利用所述声学模型模块将所述预测向量转换为预测语音特征；

转换所述预测语音特征至合成的语音；

其中，所述利用所述声学模型模块将所述预测向量转换为预测语音特征的步骤包括：

利用所述编码器单元将所述预测向量依次通过所述第一卷积层和所述第一LSTM层进行编码得到编码结果；

利用所述解码器单元将所述编码结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到预设维度的所述语音特征。

优选地，所述转换所述预测语音特征至语音的步骤包括：利用Griffin-Lim声码器转换所述语音特征至所述语音；

和/或，

所述语音合成方法还包括对所述编码器单元和所述解码器单元的训练步骤；所述训练步骤包括：

将样本文本转换为样本向量；

利用所述编码器单元将所述样本向量依次通过所述第一卷积层和所述第一LSTM层进行编码得到样本编码结果；

利用所述解码器单元将所述样本编码结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到样本语音特征；

根据所述样本语音特征与对比语音特征之间的交叉熵，迭代训练所述编码器单元和所述解码器单元，直至所述交叉熵至预设阈值，其中所述对比语音特征为所述样本文本对应的语音特征；

和/或，

在所述编码器单元和所述解码器单元之间设置有Attention层；所述语音合成方法还包括：

在利用所述解码器单元将所述编码结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到预设维度的所述语音特征步骤之前，

将所述编码结果输入至所述Attention层，所述Attention层输出处理结果，将所述处理结果依次通过所述第二LSTM层、所述第二卷积层和所述全连接层得到预设维度的所述语音特征。

优选地，所述预设维度的数值为160。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的语音合成方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音合成方法的步骤。

本发明的积极进步效果在于：

本发明中的声学模型模块中的编码器单元包括第一卷积层和第一LSTM层，解码器单元包括第二卷积层、第二LSTM层和全连接层，第一卷积层、第一LSTM层、第二卷积层和第二LSTM层的层数均小于6层，利用编码器单元将预测向量依次通过第一卷积层和第一LSTM层进行编码得到编码结果，并利用解码器单元将编码结果依次通过第二LSTM层、第二卷积层和全连接层得到预设维度的预测语音特征，可大大减小声学模型模块的占用空间，提高声学模型模块的数据处理速度及转换效率，从而解决了现有技术中语音合成系统中的声学模型的数据处理速度较慢，影响语音合成的转换效率的缺陷。

附图说明

图1为本发明的实施例1的语音合成系统的模块示意图。

图2为本发明的实施例2的语音合成方法的流程图。

图3为本发明的实施例2的语音合成方法的训练步骤01’的流程图。

图4为本发明的实施例4提供的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种语音合成系统，如图1所示，语音合成系统包括预处理模块1、声学模型模块2、声码器模块3和训练模块4；声学模型模块2包括编码器单元21和解码器单元22；编码器单元21包括第一卷积层211和第一LSTM层212，解码器单元22包括第二卷积层221、第二LSTM层222和全连接层223，第一卷积层211、第一LSTM层212、第二卷积层221和第二LSTM层222的层数均小于6层。

本实施例中的编码器单元包括2层第一卷积层和1层第一LSTM层；解码器单元包括3层第二卷积层和2层第二LSTM层。可大大减小声学模型模块的占用空间，提高声学模型模块的数据处理速度及转换效率。

预处理模块1用于将预测文本信息转换为预测向量。

预处理模块1可对输入的预测文本信息进行前端处理，处理的步骤主要包括：首先将预测文本信息中的乱码、非标准符号等去除，将预测文本信息中的数字转为大写汉字，不同场景的数字转换规则不一致，例如：“房价为318元”应转为“房价为三百一十八元”，“房间号318”应转为“房间号三一八”。将预测文本信息中的中文汉字转为音素，例如：“你好”转为“ni3 hao3”。将转换的音素转为预测向量。本实施例中采取将音素转换为对应的字典的索引值的预测向量的方式。

声学模型模块2用于将预测向量转换为预测语音特征。

声学模型模块2还用于利用编码器单元21将预测向量依次通过第一卷积层211和第一LSTM层212进行编码得到编码结果。

声学模型模块2还用于利用解码器单元22将编码结果依次通过第二LSTM层221、第二卷积层222和全连接层223得到预设维度的预测语音特征。

声码器模块3用于转换预测语音特征至合成的语音；

训练模块4还用于利用编码器单元21将样本向量依次通过第一卷积层和第一LSTM层进行编码得到样本编码结果，其中样本向量由所述预处理模块1将样本文本转换而成。

训练模块4还用于利用解码器单元22将样本编码结果依次通过第二LSTM层、第二卷积层和全连接层得到样本语音特征。

训练模块还用于根据样本语音特征与对比语音特征之间的交叉熵，迭代训练编码器单元和解码器单元，直至交叉熵至预设阈值，其中对比语音特征为样本文本对应的语音特征；

声码器模块还用于利用Griffin-Lim声码器转换预测语音特征至合成的语音。

声码器模块采用传统的Griffin-Lim声码器，速度快，效果满足要求。

编码器单元和解码器单元之间设置有Attention层(模仿人类注意力而提出的一种解决问题的办法)。编码结果输入至Attention层，经过Attention层的加权求和，将加权求和后的结果输入至解码器单元得到预设维度的语音特征。

语音特征为梅尔谱特征，预设维度的数值为80*n，其中n为大于1的整数。本实施例中预设维度的数值设置为160。

在全连接层，设置预测语音特征的预设维度的数值为160。

使用cnn(卷积神经网络)和lstm(长短期记忆网络)搭建编码器和解码器，并同时加入attention机制，使模型更好的学习文本中关键词之间的联系。

因为编码器单元包括2层第一卷积层和1层第一LSTM层；解码器单元包括3层第二卷积层和2层第二LSTM层，可大大减小声学模型模块的占用空间，同时，为更丰富语音特征，将预设维度的数值加大，通常用的维度普遍在40，本实施例中设置为160。通过编码器单元中的第一卷积层和第一LSTM层的层数和解码器单元的第二卷积层和第二LSTM层的层数的压缩，结合梅尔谱特征，预设维度的数值的加大设置，可在大大减小声学模型模块的占用空间，提高声学模型模块的数据处理速度及转换效率的同时，提高语音特征的丰富度，进而提高语音合成的准确性。

实施例2

本实施例提供一种语音合成方法，语音合成方法利用声学模型模块实现，声学模型模块包括编码器单元和解码器单元；编码器单元包括第一卷积层和第一LSTM层，解码器单元包括第二卷积层、第二LSTM层和全连接层，第一卷积层、第一LSTM层、第二卷积层和第二LSTM层的层数均小于6层；如图2所示，语音合成方法包括：

步骤01、将预测文本信息转换为预测向量；

首先将预测文本信息中的乱码、非标准符号等去除，将预测文本信息中的数字转为大写汉字，不同场景的数字转换规则不一致，例如：“房价为318元”应转为“房价为三百一十八元”，“房间号318”应转为“房间号三一八”。将预测文本信息中的中文汉字转为音素，例如：“你好”转为“ni3 hao3”。将转换的音素转为预测向量。本实施例中采取将音素转换为对应的字典的索引值的预测向量的方式。

步骤02、利用训练后声学模型模块将预测向量转换为预测语音特征；

步骤03、转换预测语音特征至合成的语音；

步骤03包括：

利用Griffin-Lim声码器转换语音特征至语音。

其中，步骤02包括：

步骤021、利用编码器单元将预测向量依次通过第一卷积层和第一LSTM层进行编码得到编码结果；

步骤022、利用解码器单元将编码结果依次通过第二LSTM层、第二卷积层和全连接层得到预设维度的语音特征。

在编码器单元和解码器单元之间设置Attention层。

步骤021的编码结果经过加权求和后，输入至解码器单元022得到预设维度的语音特征。

语音合成方法还包括对编码器单元和解码器单元的训练步骤01’，步骤01’设置于步骤01后；

如图3所示，训练步骤01’包括：

步骤011’、将样本文本转换为样本向量；

步骤012’、利用编码器单元将样本向量依次通过第一卷积层和第一LSTM层进行编码得到样本编码结果；

步骤013’、利用解码器单元将样本编码结果依次通过第二LSTM层、第二卷积层和全连接层得到样本语音特征。

步骤014’、根据样本语音特征与对比语音特征之间的交叉熵，迭代训练编码器单元和解码器单元，直至交叉熵至预设阈值，其中对比语音特征为样本文本对应的语音特征。

语音特征为梅尔谱特征，预设维度的数值为80*n，其中n为大于1的整数。所述预设维度的数值为160。

在全连接层，设置预测语音特征的预设维度的数值为160。

实施例3

图4为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例2的电话语音识别方法。图4显示的电子设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例2所提供的语音合成方法。

电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例2所提供的语音合成方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例2的语音合成方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种语音合成系统，其特征在于，所述语音合成系统包括预处理模块、声学模型模块和声码器模块；所述声学模型模块包括编码器单元和解码器单元；所述编码器单元包括第一卷积层和第一LSTM层，所述解码器单元包括第二卷积层、第二LSTM层和全连接层，所述第一卷积层、所述第一LSTM层、所述第二卷积层和所述第二LSTM层的层数均小于6层；

所述预处理模块用于将预测文本信息转换为预测向量；

所述声码器模块用于转换所述预测语音特征至合成的语音；

2.如权利要求1所述的语音合成系统，其特征在于，所述语音合成系统还包括训练模块，所述训练模块用于利用所述编码器单元将样本向量依次通过所述第一卷积层和所述第一LSTM层进行编码得到样本编码结果，其中所述预处理模块将样本文本转换为所述样本向量；

和/或，

所述编码器单元包括2层第一卷积层和1层第一LSTM层；

和/或；

所述解码器单元包括3层第二卷积层和2层第二LSTM层。

3.如权利要求1所述的语音合成系统，其特征在于，所述语音特征为梅尔谱特征，所述预设维度的数值为80*n，其中n为大于1的整数。

4.如权利要求3所述的语音合成系统，其特征在于，所述预设维度的数值为160。

5.一种语音合成方法，其特征在于，所述语音合成方法利用声学模型模块实现，所述声学模型模块包括编码器单元和解码器单元；所述编码器单元包括第一卷积层和第一LSTM层，所述解码器单元包括第二卷积层、第二LSTM层和全连接层，所述第一卷积层、所述第一LSTM层、所述第二卷积层和所述第二LSTM层的层数均小于6层；所述语音合成方法包括：

将预测文本信息转换为预测向量；

转换所述预测语音特征至合成的语音；

6.如权利要求5所述的语音合成方法，其特征在于，所述转换所述预测语音特征至语音的步骤包括：利用Griffin-Lim声码器转换所述语音特征至所述语音；

和/或，

将样本文本转换为样本向量；

和/或，

7.如权利要求5所述的语音合成方法，其特征在于，所述语音特征为梅尔谱特征，所述预设维度的数值为80*n，其中n为大于1的整数。

8.如权利要求7所述的语音合成方法，其特征在于，所述预设维度的数值为160。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求5-8中任一项所述的语音合成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求5-8中任一项所述的语音合成方法的步骤。