CN104112444A

CN104112444A - 一种基于文本信息的波形拼接语音合成方法

Info

Publication number: CN104112444A
Application number: CN201410362838.5A
Authority: CN
Inventors: 陶建华; 刘善峰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2014-10-22
Anticipated expiration: 2034-07-28
Also published as: CN104112444B

Abstract

本发明一种基于文本信息的波形拼接语音合成方法，该方法包括：步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。

Description

一种基于文本信息的波形拼接语音合成方法

技术领域

本发明属于智能信息处理领域，涉及一种基于文本信息的波形拼接系统。

背景技术

语音作为人机交互的主要手段之一，语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式，早期的研究主要是采用参数语音合成，最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现，对语音的声学参数进行隐马尔柯夫建模，并通过参数生成算法来重构声学参数轨迹，最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想，与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法，该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。

但该方法虽能合成出较为接近原始语音的波形，但受限于语料库大小的制约，合成语音的稳定性不够理想(音库过大，合成语音速度较慢，无法实时合成；音库过小，合成语音不稳定)，很大程度上影响的听感。并且现有的拼接合成系统，在计算代价时缺少考虑文本信息对基元的影响，合成出的语音在韵律表现上也不是很好。

发明内容

(一)要解决的技术问题

为解决上述的一个或多个问题，本发明的目的是提供一种基于文本信息的波形拼接语音合成方法。

(二)技术方案

为达成所述目的，本发明提供的一种基于文本信息的波形拼接语音合成方法实现的步骤包括：

步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；

步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；

步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。

(三)有益效果

从上述技术方案可以看出，本发明基于文本特征的波形拼接语音合成方法具有以下有益效果：

(1)该方法结合待合成语音与原始语音的文本特征，在基元预选时用分层预选方法，不仅能有效率的在保证候选基元接近目标基元的情况下，减少基元的个数，降低后期代价计算的时间开销，提高了合成语音的效率，增强拼接合成的实时性；并且加入的时长预测模型能保证选到的基元在时长上的连续性，提高了合成语音自然度；

(2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的代价，保证了代价最小的基元在韵律上与目标基元的一致性，拼接合成出高自然度，并提高了合成语音的韵律表现；

该方法包括：对原始切分过的大音库进行参数提取(包括声学参数与文本参数)。结合相应文本标注信息，对基元的时长信息进行建模，结合基元的上下文信息与基元所在词的词性等信息，生成分层预选模型对基元进行预选。这种预选方法不仅可以达到在大语料库的情况下缩短系统运行时间、增强系统合成语音的实时性和提高基元选取的准确率的目的，而且保证了候选基元在时长上的连续性。在计算目标代价时，在训练阶段，用决策树算法与线性回归算法结合文本特征与声学特征进行建模，预测出相关文本特征的权重信息。在拼接合成语音时，输入相应的候选基元与目标基元的文本信息距离，结合决策树与线性回归模型预测出的权重信息，就得到相对应候选基元的目标代价，再结合拼接代价的计算，最后就能拼接合成出语音，本发明合成出较高音质的语音。

附图说明

图1为根据本发明基于文本信息的波形拼接语音合成方法流程图；

图2为本发明中训练时长预测模型一实施例的流程图；

图3为本发明中训练权重预测模型一实施例的流程图；

图4为根据本发明一实施例的分层预选流程图；

图5为根据本发明一实施例的基于文本特征的目标代价的计算。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

本发明方法结合待合成语音与原始语音的文本特征，首先对音库中的基元进行分层预选，提高了合成语音的效率，增强了合成语音的实时性，然后结合基于文本信息预测出的权重信息，计算代价，挑选合适的基元，最后拼接合成出高自然度与高韵律表现的语音。

如图1示出本发明基于文本信息的的波形拼接语音合成方法流程图，该方法包括以下步骤：

步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；模型训练模块，根据训练文本与对应的音频提取基元的文本参数与声学参数进行模型训练，获取分层预选中的时长预测模型与目标代价计算时所需的权重预测模型；

如图2所示为本发明中训练时长预测模型一实施例的流程图；所述训练时长预测模型包括以下步骤：

步骤S11：对音库进行音段切分，切分为波形拼接所需的最小基本单元，以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数。

步骤S12：对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数一一对应；

步骤S13：根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型。

如图3所示为本发明中训练权重预测模型一实施例的流程图，所述训练权重预测模型的包括以下步骤：

步骤S1A：对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数。

步骤S1B：对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数一一对应；

步骤S1C：根据提取的所有基元的文本特征与声学特征，按基元进行分类；

步骤S1D：对于每一类基元，计算所有任意两个基元对应的文本特征参数与声学参数之间的距离，存储所有距离信息作为训练样本；

步骤S1F：采用决策树和线性回归算法(M5P)，进行权重预测模型的训练：文本的距离信息作为决策树的节点，在叶节点处与声学参数的距离作线性回归。即可得到文本信息对应的权重。

叶节点处的回归可以用以下公式表示：

w₀|x₀-x′₀|+w₁|x₁-x′₁|+…+w_n|x_n-x′_n|＝π₀|F0-F0′|+π₁|Dur-Dur′|+π₂|E-E′| (1)

其中x′_i和x_i为两基元对应的文本特征，F0和F0′为对应的基频信息，Dur和Dur′为对应的时长信息，E和E′为能量信息。本实例取[π₀，π₁，π₂]的值为[1，1，0.5]。经过叶节点处的回归运算，(w₀，w₁，...，w_n)即为预测得到的权重信息。

步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；基元预选模块，采用分层预选方法，对语料库中的基元进行初步预选，以减少后期代价计算的复杂度，提高合成效率。

如图4所示为根据本发明一实施例的分层预选流程图，所述分层预选包括以下步骤：

步骤S21：设置标识参数flag＝0，第一层预选采用基元上下文特征信息作为预选信息进行预选；

步骤S22：第二层预选是在第一层预选的基础上，采用文本特征信息、词性和重音信息作为预选信息进行基元预选，如果标识参数flag＝0，则执行步骤S23；如果标识参数flag＝1，则输出第二层候选基元；

步骤S23：第三层预选是在第二层预选的基础上，采用根据文本特征预测出来的时长信息作为预选信息进行预选，如果候选基元个数不为0，设置标识参数flag＝1，返回步骤S21；如果候选基元个数不为0，则输出第三层候选基元。

选音合成模块，包括目标代价与拼接代价的计算。利用代价和最小原则挑选得到最佳基元。

如图5所示为本发明的基于文本特征的目标代价的计算，获取所述目标代价包括以下步骤：

步骤S31：根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数，经过分层预选后的基元的文本参数作为候选基元的参数；

步骤S32：计算目标基元与候选基元文本特征之间的距离，结合预测出的权重信息，经过线性回归运算得到的结果即为目标代价；

在拼接代价计算中，计算相邻两个基元的相邻N帧(本实例中N＝3)的声学参数距离，作为拼接代价；

表格1为根据本发明一实施例的所需要的文本特征。

综上所述，本发明提出了一种基于文本信息的波形拼接语音合成的选音方法，其中包括基于文本信息分层预选与权重预测，该方法不仅可以合成出较高音质的语音，而且提高了系统的运行速度，增强了系统运行的实时性。

需要说明的是，上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式，本领域的普通技术人员可对其进行简单地熟知地替换，例如：

(1)训练中采用的谱参数是梅尔倒谱系数，可以用其它参数替代，如使用不同阶数的线谱对参数。

(2)对实验室中所采用的文本特征个数与类别，可根据自己的实际需要进行实际的增加或减少。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本信息的波形拼接语音合成方法，其特征在于，该方法包括：

步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练权重预测模型与时长预测模型；

2.根据权利要求1所述的方法，其特征在于，所述训练权重预测模型包括以下步骤：

步骤S11：对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；

步骤S12：对原始音频对应文本进行文本分析，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数一一对应；

3.根据权利要求1所述的方法，其特征在于，所述训练权重预测模型包括以下步骤：

步骤S1A：对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；

步骤S1B：对所述原始音频对应文本进行文本分析，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数一一对应；

步骤S1F：采用决策树和线性回归算法，训练权重预测模型。

4.根据权利要求2或3所述的方法，其特征在于，所述文本特征的距离信息作为决策树的节点，在叶节点处与声学参数的距离作线性回归，即可得到文本信息对应的权重。

5.根据权利要求1所述的方法，其特征在于，所述分层预选包括以下步骤：

步骤S21：设置标识参数flag＝0，第一层预选采用基元上下文特征信息进行预选；

步骤S22：第二层预选是在第一层预选的基础上，采用文本特征信、词性和重音信息作为预选信息进行基元预选，如果标识参数flag＝0，则执行步骤S23；如果标识参数flag＝1，则输出第二层候选基元；

6.根据权利要求1所述的方法，其特征在于，获取所述目标代价包括以下步骤：

步骤S31：根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数，将分层预选后的基元的文本参数作为候选基元的参数；

步骤S32：计算目标基元与候选基元文本特征间的距离，结合预测出的权重信息，经过线性回归运算得到的结果即为目标代价。