CN109686358A

CN109686358A - 高保真的智能客服语音合成方法

Info

Publication number: CN109686358A
Application number: CN201811584612.4A
Authority: CN
Inventors: 刘嗣平; 柯登峰; 陈孟达; 贾宇康
Original assignee: Guangzhou Jiushi Intelligent Technology Co Ltd
Current assignee: Guangzhou Jiushi Intelligent Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-26
Anticipated expiration: 2038-12-24
Also published as: CN109686358B

Abstract

本发明公开了一种高保真的智能客服语音合成方法，包括：进行语音的录制；建立初始语料库；对录制好的语音进行强制对齐；进行语音切割得到三音子模型；利用三音子模型形成目标语料库；对于切割好的三音子基元计算似然；建立三音子决策树；根据所需合成文本选择合适的三音子基元；对选择的三音子基元，针对原始语音波形做基音同步标注；对原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列；将短时信号序列与目标基音周期同步排列，重叠相加得到拼接合成的语音；将合成的语音插入到提前录制好的语音中。本发明不必让客服人员录制大量重复类似的含有变量的语音，能够降低语音录制成本，还能提升整个对话过程的流畅性与自然度。

Description

高保真的智能客服语音合成方法

技术领域

本发明涉及语音合成领域，特别涉及一种高保真的智能客服语音合成方法。

背景技术

目前的语音识别与语音合成技术发展迅速，但是相关语音合成技术合成后的语音的自然度不是很理想，在应用于客服语音中时，客户会明显听出是机器的声音，大部分的客服语音其实是可以预先录制好语音，但是对于金钱、时间等变量，无法大量录制，会耗费大量的财力，也不现实，并且会与提前录制好的语音之间产生明显的区别，整个对话过程会显得非常奇怪。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种不必让客服人员录制大量重复类似的含有变量的语音，能够降低语音录制成本，还能提升整个对话过程的流畅性与自然度的高保真的智能客服语音合成方法。

本发明解决其技术问题所采用的技术方案是：构造一种高保真的智能客服语音合成方法，包括如下步骤：

A)录音人员根据设置好的文本进行语音的录制；

B)建立初始语料库；所述初始语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句；

C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐；

D)对强制对齐后的语音进行切割，得到三音子模型；

E)利用所述三音子模型形成处理完好的目标语料库；

F)对于所述目标语料库中切割好的三音子基元计算似然；

G)建立三音子决策树；

H)根据所需合成文本，选择合适的三音子基元；

I)对选择好的三音子基元，针对原始语音波形做基音同步标注；

J)对所述原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列；

K)将所述短时信号序列与目标基音周期同步排列，重叠相加得到拼接合成的语音；

L)将所述合成的语音插入到提前录制好的语音中。

在本发明所述的高保真的智能客服语音合成方法中，所述设定算法为force-alignment算法。

在本发明所述的高保真的智能客服语音合成方法中，所述步骤F)进一步包括：

F1)对所述目标语料库中切割好的三音子基元，采用三音子的中间音素将所有的三音子进行划分；

F2)进行强制对齐之后，从左到右扫描所述三音子，得到对应的特征向量；

F3)利用所述三音子对应的所有的特征向量，根据其个数与平方和来计算似然，最终得到状态集的似然。

在本发明所述的高保真的智能客服语音合成方法中，所述步骤G)进一步包括：

G1)在建树的过程中，叶结点的形成过程是根据分裂之后，左右结点的似然度和与分裂前的似然度差值，作为似然度的变化量；

G2)从问题集中选择似然度变化最大的问题；

G3)当似然度变化量小于事先设定的阈值时或分裂后的似然度小于事先设定的阈值时，则停止分裂，认定其为叶子结点；

G4)完成所述目标语料库中所有的三音子基元的聚类，得到最终的三音子决策树。

在本发明所述的高保真的智能客服语音合成方法中，在所述步骤H)中，在向下寻找与目标三音子对应的叶子结点时，如果未找到与其对应的合适的叶子结点，则寻找到似然度提升最大的结点，将其作为同一类，得到与目标三音子最接近的三音子基元。

在本发明所述的高保真的智能客服语音合成方法中，所述步骤J)进一步包括：

J1)将原始语音信号与一系列基因同步的窗函数相乘，得到相互重叠的短时分析信号；

J2)根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求，建立合成语音波形与原始语音波形之间的基音周期的映射关系，得到合成所需的短时合成信号序列。

实施本发明的高保真的智能客服语音合成方法，具有以下有益效果：由于录音人员根据设置好的文本进行语音的录制；建立初始语料库；初始语料库为变量特征语料库，变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句；利用设定算法对初始语料库中录制好的语音进行强制对齐；对强制对齐后的语音进行切割，得到三音子模型；利用三音子模型形成处理完好的目标语料库；对于目标语料库中切割好的三音子基元计算似然；建立三音子决策树；根据所需合成文本，选择合适的三音子基元；对选择好的三音子基元，针对原始语音波形做基音同步标注；对原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列；将短时信号序列与目标基音周期同步排列，重叠相加得到拼接合成的语音；将合成的语音插入到提前录制好的语音中；在与客户进行电话交流的过程中，对对话过程中涉及的姓名、时间、金钱等变量进行语音合成，保证整个通话过程中交流的顺畅，因此本发明不必让客服人员录制大量重复类似的含有变量的语音，能够降低语音录制成本，还能提升整个对话过程的流畅性与自然度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明高保真的智能客服语音合成方法一个实施例中的流程图；

图2为所述实施例中对于目标语料库中切割好的三音子基元计算似然的具体流程图；

图3为所述实施例中建立三音子决策树的具体流程图；

图4为所述实施例中对原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列的具体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明高保真的智能客服语音合成方法实施例中，该高保真的智能客服语音合成方法的流程图如图1所示。图1中，该高保真的智能客服语音合成方法包括如下步骤：

步骤S01录音人员根据设置好的文本进行语音的录制：本步骤中，通过根据特定文本，获取发音人对应录制的录制语音，本发明限定在对于变量的语音合成，通过设置好的文本，录音人员进行语音的录制。

步骤S02建立初始语料库：本步骤中，根据特定准备的文本，通过录音人员进行录制的超过2000句语句，建立初始语料库。该初始语料库为变量特征语料库，对于提前录制好的大量变量特征语料库，该变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句，总计达到2000句，并要求在录制时语速平稳语气自然且尽量相同，控制字与字的间隔。

步骤S03利用设定算法对初始语料库中录制好的语音进行强制对齐：本步骤中，利用设定算法对初始语料库中录制好的语音进行强制对齐，提高语音切割的效果，该设定算法为force-alignment算法。

步骤S04对强制对齐后的语音进行切割，得到三音子模型：本步骤中，对强制对齐后的语音采用语音切割模型进行切割，得到三音子模型。也就是说，本步骤利用提前录制好的大量变量特征语料库，采取三音子语音拼接合成的方法，对录制好的语料库按照三音子的格式进行切割，具体而言，选取三音子的格式进行切割，使得合成语音更加平滑，使用较大的合成基元，使拼接点减少，避免在语音拼接的过程中出现许多不自然的声音，在切割时利用force-alignment算法进行强制对齐，按照三音子的格式对每个语句进行切割。

以金钱举例，在进行语音切割时，可保证在每个三音子中包含两个阿拉伯数字和一个量词或一个阿拉伯数字和两个量词，通过这样的切割能够保证在语音进行拼接时，让整个合成的语音更加流畅，在选择基元模型时能够提高选择的成功率和权重的学习时间。

步骤S05利用三音子模型形成处理完好的目标语料库：本步骤中，利用三音子模型形成处理完好的目标语料库。

步骤S06对于目标语料库中切割好的三音子基元计算似然：本步骤中，对于目标语料库中切割好的三音子基元计算似然。计算似然的具体过程后续会进行详细描述。

步骤S07建立三音子决策树：本步骤中，建立三音子决策树，其具体建立过程后续会进行详细描述。

步骤S08根据所需合成文本，选择合适的三音子基元：本步骤中，根据所需合成的文本要求，从切割好后的目标语料库中，提取三音子基元。具体而言，从切割好的目标语料库中选取与期望序列最匹配的三音子，包括：基于切割好的目标语料库中每个切割好的合成三音子样本建立一个决策树，根据提前设计好的问题集，利用似然度的方法以及决策树停止分裂规则进行建树，在合成阶段，根据待合成的三音子序列，找到在树中对应的结点，即选择出最佳的合成样本，也就是所选择的合适的三音子基元。

具体而言，采用语音基元选择模型在向下寻找与目标三音子对应的叶子结点时，如果未找到与其对应的合适的叶子结点，则寻找到似然度提升最大的结点，作为同一类，得到与目标三音子最接近的三音子基元。

步骤S09对选择好的三音子基元，针对原始语音波形做基音同步标注：本步骤中，对选择好的三音子基元，为防止基频的跳变，采用语音片段拼接模型针对原始语音波形做准确的基音同步标注。

步骤S10对原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列：本步骤中，对原始语音波形的基音曲线与目标基音曲线建立映射，得到短时合成信号序列。

步骤S11将短时信号序列与目标基音周期同步排列，重叠相加得到拼接合成的语音：本步骤中，将合成的短时信号序列与目标基音周期同步排列，重叠相加得到拼接合成的语音，即通过拼接的方式最终合成语音。

步骤S12将合成的语音插入到提前录制好的语音中：本步骤中，将拼接合成后的语音插入到整个录制语音中，实现高保真的智能客服语音合成。通过本发明的高保真的智能客服语音合成方法，能够避免录制人员录取大量无用的文本信息，这样能够节省人力和财力，能够提升整个客服系统的效率，实验显示，最终的生成结果插入到录音中与人工录制的大段语音中听起来没有较大差异，最终合成的自然度高，没有机器发声的感觉，听觉舒适度和可懂度相比机器合成音有明显的区别，经过PSEQ打分后，最终得分比机器合成音高出0.5-1.2分。

在与客户进行电话交流的过程中，对对话过程中涉及的姓名、时间、金钱等变量进行语音合成，可以保证整个通话过程中交流的顺畅，因此本发明不必让客服人员录制大量重复类似的含有变量的语音，能够降低语音录制成本，还能提升整个对话过程的流畅性与自然度。

对于本实施例而言，上述步骤S06还可进一步细化，其细化后的流程图如图2所示。图2中，该步骤S06进一步包括如下步骤：

步骤S61对目标语料库中切割好的三音子基元，采用三音子的中间音素将所有的三音子进行划分：本步骤中，根据目标语料库中切割好的三音子基元得到相关的统计量，具体是用三音子的中间音素将所有的三音子进行划分。

步骤S62进行强制对齐之后，从左到右扫描三音子，得到对应的特征向量：本步骤中，进行强制对齐之后，采用语音基元选择模型从左到右扫描三音子，得到对应的特征向量。

步骤S63利用三音子对应的所有的特征向量，根据其个数与平方和来计算似然，最终得到状态集的似然：本步骤中，利用三音子对应的所有的特征向量，根据其个数与平方和来计算似然，从而最终得到状态集的似然，得到建树中进行分裂的重要依据。通过上述步骤S61至步骤S63实现三音子基元的似然。

对于本实施例而言，上述步骤S07还可进一步细化，其细化后的流程图如图3所示。图3中，上述步骤S07进一步包括：

步骤S71在建树的过程中，叶结点的形成过程是根据分裂之后，左右结点的似然度和与分裂前的似然度差值，作为似然度的变化量：本步骤中，采用语音基元选择模型把音素聚类成一棵树，对树中的每个结点，把从该结点可以到达的所有叶子结点结合在一起构成一个问题，在整个建树的过程中最初只有一个根结点，之后对每个叶子结点有一个最优划分，左右结点的似然度和与分裂前的似然度差值，作为似然度的变化量。

步骤S72从问题集中选择似然度变化最大的问题：本步骤中，从问题集中选择似然度变化最大的问题。

步骤S73当似然度变化量小于事先设定的阈值时或分裂后的似然度小于事先设定的阈值时，则停止分裂，认定其为叶子结点：本步骤中，对每个结点问一些问题进行分类，直到最终类别为止，包括：在决策树的根结点包括所有的三音子元素，自上而下的每一个结点都为所有元素的子集，每一个结点都通过问题选择似然度变化最大的分裂方向，直到分裂成为叶结点。当似然度变化量小于提前设定的阈值时或分裂后的似然度小于提前设定的阈值时，则停止分裂，认定其为叶子结点。

步骤S74完成目标语料库中所有的三音子基元的聚类，得到最终的三音子决策树：本步骤中，完成了对目标语料库中所有的三音子基元的聚类，从而最终得到完整的三音子决策树。

对于本实施例而言，上述步骤S10还可进一步细化，其细化后的流程图如图4所示。图4中，上述步骤S10进一步包括如下步骤：

步骤S101将原始语音信号与一系列基因同步的窗函数相乘，得到相互重叠的短时分析信号：本步骤中，采用语音片段拼接模型将原始语音信号与一系列基因同步的窗函数相乘，得到一些列相互重叠的短时分析信号，也就是，针对原始波形信号进行基音标注，加窗之后得到有重叠的短时分析信号。

步骤S102根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求，建立合成语音波形与原始语音波形之间的基音周期的映射关系，得到合成所需的短时合成信号序列：本步骤中，根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求，建立合成语音波形与原始语音波形之间的基音周期的映射关系，采用语音片段拼接模型，根据原始语音波形的基音曲线与目标基音曲线建立基音周期间的映射关系，由此得到合成所需的短时合成信号序列，将合成的短时信号序列与目标基音周期同步排列，重叠相加得到最终的波形。

总之，本发明根据特定准备的文本，通过录音人员进行录制的超过2000句语句，建立初始语料库，利用force-alignment算法进行强制对齐，按照三音子的格式进行切割，得到处理好的目标语料库，根据提前准备的文本，采用机器学习的方式，从目标语料库中选取最接近的三因子，进行波形拼接，得到处理好的语音。由于所需合成的文本具有十分鲜明的特点，对语料库的广泛性要求不高，所以在自然度与准确度方面，采用三音子的方式，将更能够保持录音人员初始的语音特点，提高最终的通话质量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高保真的智能客服语音合成方法，其特征在于，包括如下步骤：

A)录音人员根据设置好的文本进行语音的录制；

B)建立初始语料库；所述初始语料库为变量特征语料库，所述变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句；

D)对强制对齐后的语音进行切割，得到三音子模型；

E)利用所述三音子模型形成处理完好的目标语料库；

F)对于所述目标语料库中切割好的三音子基元计算似然；

G)建立三音子决策树；

H)根据所需合成文本，选择合适的三音子基元；

L)将所述合成的语音插入到提前录制好的语音中。

2.根据权利要求1所述的高保真的智能客服语音合成方法，其特征在于，所述设定算法为force-alignment算法。

3.根据权利要求1或2所述的高保真的智能客服语音合成方法，其特征在于，所述步骤F)进一步包括：

4.根据权利要求1或2所述的高保真的智能客服语音合成方法，其特征在于，所述步骤G)进一步包括：

G2)从问题集中选择似然度变化最大的问题；

5.根据权利要求1或2所述的高保真的智能客服语音合成方法，其特征在于，在所述步骤H)中，在向下寻找与目标三音子对应的叶子结点时，如果未找到与其对应的合适的叶子结点，则寻找到似然度提升最大的结点，将其作为同一类，得到与目标三音子最接近的三音子基元。

6.根据权利要求1或2所述的高保真的智能客服语音合成方法，其特征在于，所述步骤J)进一步包括：