CN105654939B

CN105654939B - 一种基于音向量文本特征的语音合成方法

Info

Publication number: CN105654939B
Application number: CN201610000677.4A
Authority: CN
Inventors: 徐明星; 车浩
Original assignee: Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2019-09-13
Anticipated expiration: 2036-01-04
Also published as: CN105654939A

Abstract

本发明公开了一种基于音向量文本特征的语音合成方法，文本分析模块接收输入文本，对文本特征进行规则化处理，将得到的文本数据输送至文本参数化模块，采用一位热码编码方法得到参数化的文本；音向量训练模块接收参数化的文本，训练基于音向量的语言模型，然后输送至语音参数训练模块训练从文本到语音参数的映射模型；音向量生成模块通过接收文本参数化模块和音向量训练模块的输出文本，生成文本数据的音向量；文本数据的音向量和文本到语音参数的映射模型输送至语音参数预测模块，得到音向量所对应的语音参数；最终由语音合成器模块合成语音。本发明提高了语音合成系统建模的准确性；大大降低了系统实现的复杂度和人工参与程度。

Description

一种基于音向量文本特征的语音合成方法

技术领域

本发明涉及一种语音合成方法，尤其涉及一种基于音向量文本特征的语音合成方法。

背景技术

语音合成技术能让计算机产生高清晰度、高自然度的连续语音，使人机交流更加和谐自然。在语音合成技术的发展过程中，早期的研究主要是采用基于单元波形拼接的语音合成方法，但该方法在拼接点处会出现语音失真和突变。近年来，基于统计参数的语音合成方法因为合成系统构建较快，语料库尺寸需求小，合成语音平滑流畅而得到了快速的发展，但该方法仍存在以下两点不足之处：

1、文本特征的描述不够精确，需要很大的人力物力去标注文本，而且标注结果很大一部分依赖于标注人员的经验和背景知识，需要专业人员去完成，很大程序上影响了系统的构建速度；

2、合成语音的音质跟真人还有很大的差距，特别是采用语音的参数化描述和统计建模的语音分析合成模型不够理想，对语音的建模不够精确；另外，采用统计参数建模，生成的谱参数轨迹和基频轨迹都过于平滑，合成语音在听感上显得过于平淡。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于音向量文本特征的语音合成方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于音向量文本特征的语音合成方法，包括以下步骤：

步骤一：通过文本分析模块接收待分析的输入文本，对文本特征进行规则化处理，去掉文本中多余的符号，标注出每个音节的声韵母和声调，纠正多音字发音错误，得到输入文本对应的发音单元序列；

步骤二：通过文本参数化模块接收上述输入文本对应的发音单元序列，采用一位热码编码表示方法得到每个音节的参数化表示的向量；

公式Ⅰ为一位热码编码表示方法；其中，S为音节的参数化向量，C_v为一个描述声韵母音向量的共享矩阵，维数为V×N，v为声韵母的个数，N为声韵母音向量的维数，V_i为声母音向量，V_f为韵母音向量；

步骤三：通过音向量训练模块接收上述参数化表示的向量，训练基于音向量的语言模型，得到文本的音向量表示；

步骤四：通过语音参数训练模块接收上述文本的音向量表示，训练从文本到语音参数的映射模型，建立音向量与语音参数、音向量与韵律特征参数的映射关系；

步骤五：通过音向量生成模块接收上述文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量，生成分析完成的文本数据的音向量；

步骤六：通过语音参数预测模块接收上述分析完成的文本数据的音向量以及语音参数训练模块得到的映射模型，通过建立音向量与语音参数之间的映射关系，得到音向量所对应的语音参数；

步骤七：通过语音合成器模块接收上述音向量所对应的语音参数最终合成语音。

步骤三中的音向量训练模块包括语言模型训练模块和音向量提取模块；文本参数化模块输出的参数化表示的向量首先由语言模型训练模块接收，采用基于递归神经网络的统计参数语言模型，训练基于音节的语言模型得到每个音节的音向量；再由音向量提取模块根据上述训练得到的每个音节的音向量，从中分离出声韵母的音向量；

P(s₁，s₂，...，s_K)＝P(s₁)×P(s₂|s₁)×P(s₃|s₁，s₂)×...P(s_K|s₁，s₂，...，s_K-1) Ⅱ

公式Ⅱ为基于递归神经网络的统计参数语言模型；其中，P(s₁，s₂，...，s_K)为生成s₁，s₂，...，s_K这些音节的概率，s_K为第K个音节，K为音节个数，P(s₁)为生成音节s₁的概率，P(s₂|s₁)为在存在音节s₁条件下生成音节s₂的概率，P(s₃|s₁，s₂)为在存在音节s₁，s₂条件下生成音节s₃的概率，P(s_K|s₁，s₂，...，s_K-1)为在存在音节s₁，s₂，...，s_K-1条件下生成音节s_K的概率。

步骤五中的音向量生成模块包括矩阵运算模块和音向量生成提取模块；文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量首先由矩阵运算模块接收，然后按照公式Ⅰ进行矩阵运算，得到任意输入文本的音向量表示；音向量生成提取模块接收上述任意输入文本的音向量表示，从中分离出声韵母的音向量，生成分析完成的文本数据的音向量。

步骤七中的语音合成器模块包括语音参数生成模块、语音参数合成器模块和语音单元挑选模块；语音参数预测模块得到的音向量所对应的语音参数首先由语音参数生成模块接收，在语音参数生成模块中调用语音参数生成算法，生成可以合成的语音参数；语音参数合成器模块和语音单元挑选模块分别接收上述生成的可以合成的语音参数，语音参数合成器模块通过调用声码器来合成语音，语音单元挑选模块采用单元挑选的方法来合成语音，最后输出语音。

本发明跟现有语音合成技术相比，具有以下优势：

(1)对文本特征进行参数化建模，使文本特征参数到语音参数的映射模型具有较高的准确性，从而提高了语音合成系统建模的准确性；

(2)音向量训练模块中采用统计参数语言模型的训练方法来训练音向量，最大程度上保留了发音单元的连贯特性，不需要任何手工标注信息，从而大大降低了系统实现的复杂度和人工参与程度；

(3)音向量生成模块采用构建的音向量来描述发音单元，使发音单元的描述更加简单直接，同时也更加准确；

(4)语音参数预测模块采用统计模型生成的音向量来预测语音声学参数和韵律特征参数，更加符合语音声学参数和韵律特征参数的统计特性。

附图说明

图1为本发明的整体步骤流程图。

图2为音向量训练模块的结构流程图。

图3为音向量生成模块的结构流程图。

图4为语音合成器模块的结构流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，语音合成方法包括以下模块：

文本分析模块1、文本参数化模块2、音向量训练模块3、语音参数训练模块4、音向量生成模块5、语音参数预测模块6、语音合成器模块7；

语音合成方法，包括以下步骤：

步骤一：通过文本分析模块1接收待分析的输入文本，对文本特征进行规则化处理，去掉文本中多余的符号，标注出每个音节的声韵母和声调，纠正多音字发音错误，得到输入文本对应的发音单元序列；

步骤二：通过文本参数化模块2接收上述输入文本对应的发音单元序列，采用一位热码编码表示方法(One-hot representation)得到每个音节的参数化表示的向量，如公式Ⅰ所示；

其中，S为音节的参数化向量，C_v为一个描述声韵母音向量的共享矩阵，维数为V×N，v为声韵母的个数，N为声韵母音向量的维数，V_i为声母音向量，V_f为韵母音向量；

步骤三：通过音向量训练模块3接收上述参数化表示的向量，训练基于音向量的语言模型，得到文本的音向量表示。如图2所示，音向量训练模块3包括语言模型训练模块8和音向量提取模块9。文本参数化模块2输出的参数化表示的向量首先由语言模型训练模块8接收，采用基于递归神经网络的统计参数语言模型，如公式Ⅱ

所示，训练基于音节的语言模型得到每个音节的音向量；再由音向量提取模块9根据上述训练得到的每个音节的音向量，从中分离出声韵母的音向量；

P(s₁，s₂，...，s_K)＝P(s₁)×P(s₂|s₁)×P(s₃|s₁，s₂)×...×P(s_K|s₁，s₂，...，s_K-1) Ⅱ

其中，P(s₁，s₂，...，s_K)为生成s₁，s₂，...，s_K这些音节的概率，s_K为第K个音节，K为音节个数，P(s₁)为生成音节s₁的概率，P(s₂|s₁)为在存在音节s₁条件下生成音节s₂的概率，P(s₃|s₂，s₂)为在存在音节s₁，s₂条件下生成音节s₃的概率，P(s_K|s₁，s₂，...，s_K-1)为在存在音节s₁，s₂，...，s_K-1条件下生成音节s_K的概率；

步骤四：通过语音参数训练模块4接收上述文本的音向量表示，训练从文本到语音参数的映射模型，建立音向量与语音参数、音向量与韵律特征参数的映射关系；

步骤五：通过音向量生成模块5接收上述文本参数化模块2得到的参数化的文本特征以及音向量训练模块3得到的文本的音向量，生成分析完成的文本数据的音向量。如图3所示，音向量生成模块5包括矩阵运算模块10和音向量生成提取模块11。上述参数化的文本特征以及文本的音向量首先由矩阵运算模块10接收，然后按照公式Ⅰ进行矩阵运算，得到任意输入文本的音向量表示；音向量生成提取模块11接收上述任意输入文本的音向量表示，从中分离出声韵母的音向量，生成分析完成的文本数据的音向量；

步骤六：通过语音参数预测模块6接收上述分析完成的文本数据的音向量以及语音参数训练模块4得到的映射模型，通过建立音向量与语音参数之间的映射关系，得到音向量所对应的语音参数；

步骤七：通过语音合成器模块7接收上述音向量所对应的语音参数最终合成语音。如图4所示，语音合成器模块7包括语音参数生成模块12、语音参数合成器模块13和语音单元挑选模块14。上述语音参数首先由语音参数生成模块12接收，在语音参数生成模块12中调用语音参数生成算法，生成可以合成的语音参数；语音参数合成器模块13和语音单元挑选模块14分别接收上述生成的可以合成的语音参数，语音参数合成器模块13通过调用声码器来合成语音，语音单元挑选模块14采用单元挑选的方法来合成语音，最后输出语音。

本发明跟现有语音合成技术相比，具有以下优势：

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于音向量文本特征的语音合成方法，其特征在于：所述语音合成方法包括以下步骤：

步骤一：通过文本分析模块(1)接收待分析的输入文本，对文本特征进行规则化处理，去掉文本中多余的符号，标注出每个音节的声韵母和声调，纠正多音字发音错误，得到输入文本对应的发音单元序列；

步骤二：通过文本参数化模块(2)接收上述输入文本对应的发音单元序列，采用一位热码编码表示方法得到每个音节的参数化表示的向量；

公式I为一位热码编码表示方法；其中，S为音节的参数化向量，C_v为一个描述声韵母音向量的共享矩阵，维数为v×N，v为声韵母的个数，N为声韵母音向量的维数，V_i为声母音向量，V_f为韵母音向量；

步骤三：通过音向量训练模块(3)接收上述参数化表示的向量，训练基于音向量的语言模型，得到文本的音向量表示；

步骤四：通过语音参数训练模块(4)接收上述文本的音向量表示，训练从文本到语音参数的映射模型，建立音向量与语音参数、音向量与韵律特征参数的映射关系；

步骤五：通过音向量生成模块(5)接收上述文本参数化模块(2)得到的参数化的文本特征以及音向量训练模块(3)得到的文本的音向量，生成分析完成的文本数据的音向量；

步骤六：通过语音参数预测模块(6)接收上述分析完成的文本数据的音向量以及语音参数训练模块(4)得到的映射模型，通过建立音向量与语音参数之间的映射关系，得到音向量所对应的语音参数；

步骤七：通过语音合成器模块(7)接收上述音向量所对应的语音参数最终合成语音。

2.根据权利要求1所述的基于音向量文本特征的语音合成方法，其特征在于：所述步骤三中的音向量训练模块(3)包括语言模型训练模块(8)和音向量提取模块(9)；所述文本参数化模块(2)输出的参数化表示的向量首先由语言模型训练模块(8)接收，采用基于递归神经网络的统计参数语言模型，训练基于音节的语言模型得到每个音节的音向量；再由音向量提取模块(9)根据上述训练得到的每个音节的音向量，从中分离出声韵母的音向量；

P(s₁，s₂，...，s_K)＝P(s₁)×P(s₂|s₁)×P(s₃|s₁，s₂)×...×P(s_K|s₁，s₂，...，s_K-1) II

公式II为基于递归神经网络的统计参数语言模型；其中，P(s₁，s₂，...，s_K)为生成s₁，s₂，..，s_K这些音节的概率，s_K为第K个音节，K为音节个数，P(s₁)为生成音节s₁的概率，P(s₂|s₁)为在存在音节s₁条件下生成音节s₂的概率，P(s₃|s₁，s₂)为在存在音节s₁，s₂条件下生成音节s₃的概率，P(s_K|s₁，s₂，...，s_K-1)为在存在音节s₁，s₂，...，s_K-1条件下生成音节s_K的概率。

3.根据权利要求1所述的基于音向量文本特征的语音合成方法，其特征在于：所述步骤五中的音向量生成模块(5)包括矩阵运算模块(10)和音向量生成提取模块(11)；所述文本参数化模块(2)得到的参数化的文本特征以及音向量训练模块(3)得到的文本的音向量首先由矩阵运算模块(10)接收，然后按照公式I进行矩阵运算，得到任意输入文本的音向量表示；所述音向量生成提取模块(11)接收上述任意输入文本的音向量表示，从中分离出声韵母的音向量，生成分析完成的文本数据的音向量。

4.根据权利要求1所述的基于音向量文本特征的语音合成方法，其特征在于：所述步骤七中的语音合成器模块(7)包括语音参数生成模块(12)、语音参数合成器模块(13)和语音单元挑选模块(14)；所述语音参数预测模块(6)得到的音向量所对应的语音参数首先由语音参数生成模块(12)接收，在语音参数生成模块(12)中调用语音参数生成算法，生成可以合成的语音参数；所述语音参数合成器模块(13)和语音单元挑选模块(14)分别接收上述生成的可以合成的语音参数，语音参数合成器模块(13)通过调用声码器来合成语音，语音单元挑选模块(14)采用单元挑选的方法来合成语音，最后输出语音。