CN109785823A

CN109785823A - 语音合成方法及系统

Info

Publication number: CN109785823A
Application number: CN201910057450.7A
Authority: CN
Inventors: 曹骥
Original assignee: China Finance Yihe Science And Technology Development (beijing) Co Ltd
Current assignee: China Finance Yihe Science And Technology Development (beijing) Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-05-21
Anticipated expiration: 2039-01-22
Also published as: CN109785823B

Abstract

本发明提供了一种语音合成方法及系统，涉及语音合成的技术领域，包括获取目标合成文本；从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数；将目标发音人对应的发音人特性参数以及目标合成文本输入到预先构建的语音合成网络中，得到目标发音人的合成语音。本发明实施例提供的语音合成方法及系统采取端到端一体化的结构，对少量目标发音人数据提取并固化发音人特性参数，通过调用发音人特性参数，无需长时间等待即可实现在线个性化语音合成的功能，减少录制目标发音人音库的时长、降低语音合成模型的成本，以及采取端到端的结构合成语音，而不是传统的合成器方式合成语音，达到高效、自然合成语音的目的。

Description

语音合成方法及系统

技术领域

本发明涉及语音合成技术领域，尤其是涉及一种语音合成方法及系统。

背景技术

随着语音合成技术在越来越多的场景中应用，基于个性化的语音合成需求也随之增长，目前实现个性化语音合成的方式主要为以下三种：一是通过录制指定发音人的音库，单独制作指定发音人语音合成所需模型；二是通过录制指定发音人的音库，并基于已有发音人的音库，将数据混合或者做增量训练，制作发音人语音合成所需模型；三是通过录制指定发音人的音库，并基于已有发音人的音库，采取单独提取、单独使用发音人特性参数的方式，制作指定发音人语音合成所需模型。

发明内容

有鉴于此，本发明的目的在于提供一种语音合成方法及系统，以减少录制音库的时间、降低模型制作的成本以及采用端到端一体化的结构实现语音合成。

第一方面，本发明实施例提供了一种语音合成方法，包括：

获取目标合成文本；

从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数；

将所述目标发音人对应的发音人特性参数以及所述目标合成文本输入到预先构建的语音合成网络中，得到所述目标发音人的合成语音。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数，包括：

将所述目标发音人对应的发音人ID输入所述发音人特性网络，得到所述发音人ID对应的发音人特性参数。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，构建所述发音人特性网络包括：

从音库中获取包含语音原始波形以及与所述语音原始波形对应的发音人ID、文本信息的语音数据；

将所述语音数据输入到特性网络中，构建基于所述发音人ID与发音人特性参数的发音人特性网络。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述特性网络包括第一全连接网络和全卷积网络，所述将所述语音数据输入到特性网络中，构建基于所述发音人ID与发音人特性参数的发音人特性网络，包括：：

将所述文本信息输入到所述第一全连接网络中，得到所述文本信息的第一字向量；

将所述语音原始波形输入到第一全卷积网络中，得到所述语音原始波形的第一语音特征；

将所述第一字向量和所述第一语音特征输入到第二全卷积网络中，得到所述发音人特性参数；

构建所述发音人ID与所述发音人特性参数的映射关系，基于各发音人ID与对应发音人特性参数的映射关系，构建发音人特性网络。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述将所述文本信息输入到所述第一全连接网络中，得到所述文本信息的第一字向量包括：

将所述文本信息转换为二进制矩阵；

将所述二进制矩阵与权重矩阵，计算得到第一字向量。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述将所述语音原始波形输入到第一全卷积网络中，得到所述语音原始波形的第一语音特征包括：

将所述语音原始波形输入到所述第一全卷积网络的第一卷积层中，对所述语音原始波形进行第一编码和第一特征提取，得到第一语音编码波形；

将所述第一语音编码波形输入到第二卷积层中进行第二编码和第二特征提取，得到第二语音编码波形；

将所述第二语音编码波形进行二进制编码，得到所述第二语音编码波形的所述第一语音特征。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，构建所述语音合成网络，包括：

将所述发音人特性参数、所述文本信息和所述语音原始波形输入到语音合成训练网络中，得到所述发音人特性参数对应的合成语音；

基于各发音人特性参数与对应的合成语音的映射关系，构建所述语音合成网络。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述将所述发音人特性参数、所述文本信息和所述语音原始波形输入到语音合成训练网络中，得到所述发音人特性参数对应的合成语音，包括：

将所述文本信息通过第二全连接网络，得到所述文本信息的第二字向量；

将所述语音原始波形通过第三全卷积网络，得到所述语音原始波形的第二语音特征；

将所述第二字向量和所述第二语音特征输入到第四全卷积网络，得到合成后的所述发音人ID对应的实际语音；

将所述发音人特性参数输入到所述第四全卷积网络中，得到合成后的训练语音；

计算所述实际语音与所述训练语音间的误差，通过反传迭代训练，直至所述训练语音与所述实际语音间的误差小于预先设置的误差阈值，将误差小于所述误差阈值对应的所述合成后的训练语音作为所述发音人特性参数对应的合成语音。

第二方面，本发明实施例还提供一种语音合成系统，包括：

获取模块，用于获取目标合成文本；

提取模块，用于从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数；

合成模块，用于将所述目标发音人对应的发音人特性参数以及所述目标合成文本输入到预先构建的语音合成网络中，得到所述目标发音人的合成语音。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述提取模块具体用于：

本发明实施例带来了以下有益效果：

采取端到端一体化的结构，对少量的目标发音人数据提取并固化发音人特性参数，通过调用发音人特性参数，无需长时间等待即可实现在线个性化语音合成的功能，相对于现有技术中的语音合成方式，可减少录制目标发音人音库的时长、降低语音合成模型的成本，以及采取端到端的结构合成语音，而不是传统的合成器方式合成语音，达到高效、自然合成语音的目的。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音合成方法的流程图；

图2为本发明实施例提供的提取发音人特性参数的流程图；

图3为本发明实施例提供的构建发音人特性网络的流程图；

图4为本发明实施例提供的另一种构建发音人特性网络的流程图；

图5为本发明实施例提供的生成字向量的流程图；

图6为本发明实施例提供的提取语音特征的流程图

图7为本发明实施例提供的构建语音合成网络的流程图；

图8为本发明实施例提供的训练合成语音的流程图；

图9为本发明实施例提供的语音合成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前语音合成由于录制音库时长长，造成语音合成模型的成本高昂，以及采用传统的合成器方式合成的语音效果并不理想，基于此，本发明实施例提供的一种语音合成方法及系统，可以减少录制音库的时长、降低语音合成模型的成本，以及采取端到端的结构合成语音，而不是传统的合成器方式合成语音，达到高效、自然合成语音的目的。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种语音合成方法进行详细介绍。

本发明实施例提供了一种语音合成方法，如图1所示，具体包括以下步骤S101～S103：

S101，获取目标合成文本。

S102，从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数。

可选地，如图2所示，步骤S102中具体包括以下S201：

S201，将目标发音人对应的发音人ID输入发音人特性网络，得到发音人ID对应的发音人特性参数。

可选地，如图3所示，步骤S102中的构建发音人特性网络具体包括以下步骤S301～S302：

S301，从音库中获取包含语音原始波形以及与语音原始波形对应的发音人ID、文本信息的语音数据。

在实施步骤S301前，需要录制一个包含多个发音人的音库。具体地，音库中包含语音原始波形，以及与语音原始波形对应的文本信息和发音人信息，其中，发音人信息可采用发音人ID进行标注。

S302，将语音数据输入到特性网络中，构建基于发音人ID与发音人特性参数的发音人特性网络。

发音人特性网络包括第一全连接网络和全卷积网络，可选地，如图4所示，步骤S302中具体包括以下步骤S401～S404：

S401，将文本信息输入到第一全连接网络中，得到文本信息的第一字向量。

可选地，如图5所示，步骤S401中具体包括以下步骤S501～S502：

S501，将文本信息转换为二进制矩阵。

将内容为n个字的文本信息转换为n×n的二进制矩阵，每个字所在的位置标为1，其他位置标为0。举一具体实施例，一文本信息为“英语作业是什么”，可转换为7×7的二进制矩阵，具体如下：

1000000

0100000

0010000

0001000

0000100

0000010

0000001

在文本信息较短时转换为二进制矩阵的方式进行存储很方便快捷，可一旦输入的文本信息较长，转换后的矩阵过大，再采用这种方式进行存储就会呈现指数增长的趋势，出现指数爆炸的可能。因此，需要采用步骤S502对转换后的二进制矩阵进行降维处理。

S502，计算二进制矩阵与权重矩阵，得到第一字向量。

第一全连接网络包括输入层、输出层和隐藏层，其中隐藏层采用n×m的权重矩阵，通过与1×n的二进制矩阵计算可得到1×m的二维向量，该二维向量为文本信息的字向量，文本信息中的多个字向量可构成一个新的n×m二进制矩阵，用于存储字向量。

S402，将语音原始波形输入到第一全卷积网络中，得到语音原始波形的第一语音特征。

波形编码是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本分层量化，并用代码表示，波形编码具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求不太严格的通信中得到应用。

其中，第一全卷积网络由3层1维卷积构成，每层有256个卷积核，每个卷积核的大小为3×3。1维卷积操作是基于卷积核矩阵与输入数据进行互相关操作进行的，例如，输入是一个C_in*L的矩阵，其中C_in是输入的通道，L是输入的长度，则输出某一个通道为其中C_out是输出的一个通道，bias是偏置，weight是卷积核参数。通过1维卷积，可以得到卷积核滤波后的结果，通过多次叠加卷积操作可以得到被输入对象的从低维到高维的有效特征。

可选地，如图6所示，步骤S402中具体包括以下步骤S601～S603：

S601，将语音原始波形输入到第一全卷积网络的第一卷积层中，对语音原始波形进行第一编码和第一特征提取，得到第一语音编码波形。

S602，将第一语音编码波形输入到第二卷积层中进行第二编码和第二特征提取，得到第二语音编码波形。

S603，将第二语音编码波形进行二进制编码，得到第二语音编码波形的第一语音特征。

S403，将第一字向量和第一语音特征输入到第二全卷积网络中，得到发音人特性参数。

其中，第二全卷积网络也由3层1维卷积构成，每层有256个卷积核，每个卷积核的大小为3×3。将文本信息的字向量和语音信息的特征输入到第二全卷积网络中，得到发音人特性参数。

S404，构建发音人ID与发音人特性参数的映射关系，基于各发音人ID与对应发音人特性参数的映射关系，构建发音人特性网络。

S103，将目标发音人对应的发音人特性参数以及目标合成文本输入到预先构建的语音合成网络中，得到目标发音人的合成语音。

可选地，如图7所示，步骤S103中的构建语音合成网络具体包括以下步骤S701～S702：

S701，将发音人特性参数、文本信息和语音原始波形输入到语音合成训练网络中，得到发音人特性参数对应的合成语音。

S702，基于各发音人特性参数与对应的合成语音的映射关系，构建语音合成网络。

可选地，如图8所示，步骤S701中具体包括以下步骤S801～S805：

S801，将文本信息通过第二全连接网络，得到与文本信息的第二字向量。

其中，第二全连接网络也包括输入层、输出层和隐藏层，隐藏层采用n×m的权重矩阵，通过与1×n的二进制矩阵计算可得到1×m的二维向量，该二维向量为文本信息的字向量，文本信息中的多个字向量可构成一个新的n×m二进制矩阵，用于存储字向量。

S802，将语音原始波形通过第三全卷积网络，得到与语音原始波形对应的第二语音特征。

其中，第三全卷积网络采用3层1维卷积构成，每层有256个卷积核，每个卷积核的大小为3×3。通过将语音数据输入到第二全卷积网络中，输出得到语音数据对应的语音特征。

S803，将第二字向量和第二语音特征输入到第四全卷积网络，得到合成后的发音人ID对应的实际语音。

S804，将发音人特性参数输入到第四全卷积网络中，得到合成后的训练语音。

其中，第四全卷积网络由5层1维卷积，每层包括512个卷积核，每个卷积核的大小为3×3。将发音人特性参数输入到第四全卷积网络中，输出合成后的训练语音；将字向量、语音特征输入到第四全卷积网络中，输出合成后的用户语音，作为训练语音的对照。

S805，计算实际语音与训练语音间的误差，通过反传迭代训练，直至训练语音与实际语音间的误差小于预先设置的误差阈值，将误差小于误差阈值对应的合成后的训练语音作为发音人特性参数对应的合成语音。

在训练过程中，训练语音和实际语音之间存在误差，通过反传迭代训练调整网络参数，直至整个网络模型的收敛，使得训练语音不断逼近正确的用户语音。

本发明实施例提供了一种语音合成系统，如图9所示，该系统包括：获取模块901，用于获取目标合成文本；提取模块902，用于从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数；合成模块903，用于将所述目标发音人对应的发音人特性参数以及所述目标合成文本输入到预先构建的语音合成网络中，得到所述目标发音人的合成语音。

可选地，提取模块902具体用于：将目标发音人对应的发音人ID输入发音人特性网络，得到发音人ID对应的发音人特性参数。

其中，提取模块902中提到的预先构建的发音人特性网络，具体包括：获取语音数据模块，用于从音库中获取包含语音原始波形以及与语音原始波形对应的发音人ID、文本信息的语音数据；构建发音人特性网络模块，用于将语音数据输入到特性网络中，构建基于发音人ID与发音人特性参数的发音人特性网络。

具体地，特性网络包括第一全连接网络和全卷积网络，构建发音人特性网络模块具体包括：

提取字向量单元，用于将文本信息输入到第一全连接网络中，得到文本信息的第一字向量；提取语音特征单元，用于将语音原始波形输入到第一全卷积网络中，得到语音原始波形的第一语音特征；提取发音人特性单元，用于将第一字向量和第一语音特征输入到第二全卷积网络中，得到发音人特性参数；构建发音人特性网络单元，用于构建发音人ID与发音人特性参数的映射关系，基于各发音人ID与对应发音人特性参数的映射关系，构建发音人特性网络。

其中，提取字向量单元具体用于：将文本信息转换为二进制矩阵；计算二进制矩阵与权重矩阵，得到第一字向量。

提取语音特征单元具体用于：将语音原始波形输入到第一全卷积网络的第一卷积层中，对语音原始波形进行第一编码和第一特征提取，得到第一语音编码波形；将第一语音编码波形输入到第二卷积层中进行第二编码和第二特征提取，得到第二语音编码波形；将第二语音编码波形进行二进制编码，得到第二语音编码波形的第一语音特征。

其中，合成模块903中提到的预先构建的语音合成网络，具体包括：

训练合成语音模块，用于将发音人特性参数、所述文本信息和所述语音原始波形输入到语音合成训练网络中，得到所述发音人特性参数对应的合成语音；

构建语音合成模块，用于基于各发音人特性参数与对应的合成语音的映射关系，构建所述语音合成网络。

训练合成语音模块具体用于：将文本信息通过第二全连接网络，得到文本信息的第二字向量；将语音原始波形通过第三全卷积网络，得到语音原始波形的第二语音特征；将第二字向量和第二语音特征输入到第四全卷积网络，得到合成后的发音人ID对应的实际语音；将发音人特性参数输入到第四全卷积网络中，得到合成后的训练语音；计算实际语音与训练语音间的误差，通过反传迭代训练，直至训练语音与实际用户语音间的误差小于预先设置的误差阈值，将误差小于误差阈值对应的合成后的训练语音作为发音人特性参数对应的合成语音。

基于上述分析可知，本发明实施例提供的语音合成方法及系统采取端到端一体化的结构，以少量的目标数据提取并固化发音人特性参数，通过调用发音人特性参数，无需长时间等待即可实现在线语音合成的功能，相对于现有技术中的语音合成方式，减少录制音库的时长、降低语音合成模型的成本，以及采取端到端的结构合成语音，而不是传统的合成器方式合成语音，达到高效、自然合成语音的目的。

本发明实施例所提供的语音合成方法及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，包括：

获取目标合成文本；

2.根据权利要求1所述的方法，其特征在于，所述从预先构建的发音人特性网络中，提取目标发音人对应的发音人特性参数，包括：

3.根据权利要求1所述的方法，其特征在于，构建所述发音人特性网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述特性网络包括第一全连接网络和全卷积网络，所述将所述语音数据输入到特性网络中，构建基于所述发音人ID与发音人特性参数的发音人特性网络，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述文本信息输入到所述第一全连接网络中，得到所述文本信息的第一字向量包括：

将所述文本信息转换为二进制矩阵；

计算所述二进制矩阵与权重矩阵，得到第一字向量。

6.根据权利要求4所述的方法，其特征在于，所述将所述语音原始波形输入到第一全卷积网络中，得到所述语音原始波形的第一语音特征包括：

7.根据权利要求1所述的方法，其特征在于，构建所述语音合成网络，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述发音人特性参数、所述文本信息和所述语音原始波形输入到语音合成训练网络中，得到所述发音人特性参数对应的合成语音，包括：

将所述文本信息输入第二全连接网络，得到所述文本信息的第二字向量；

将所述语音原始波形输入第三全卷积网络，得到所述语音原始波形的第二语音特征；

9.一种语音合成系统，其特征在于，包括：

获取模块，用于获取目标合成文本；

10.根据权利要求9所述的系统，其特征在于，所述提取模块具体用于：