CN111599339B

CN111599339B - 具有高自然度的语音拼接合成方法、系统、设备及介质

Info

Publication number: CN111599339B
Application number: CN202010424022.6A
Authority: CN
Inventors: 王飞; 鄢戈; 唐浩元; 王欢良; 王佳珺
Original assignee: Suzhou Qdreamer Network Technology Co ltd
Current assignee: Suzhou Qdreamer Network Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2023-08-22
Anticipated expiration: 2040-05-19
Also published as: CN111599339A

Abstract

本发明提供了一种具有高自然度的语音拼接合成方法、系统、设备及介质，其在只有低计算资源设备的条件下，依然可以生成媲美真人发音的高自然度合成音。方法包括以下步骤：输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息；使用决策树根据文本的上下文信息搜索候选单元；建立语音数据库，提取声学参数并进行数据集标注，训练ContextEmbedding模型和混合密度网络模型；利用ContextEmbedding模型和混合密度网络模型计算代价，依据代价挑选出合适的候选单元形成最佳候选单元序列；通过动态规整，得到全局最优音素序列；进行平滑拼接得到合成语音，输出语音。

Description

具有高自然度的语音拼接合成方法、系统、设备及介质

技术领域

本发明涉及语音合成技术领域，具体涉及具有高自然度的语音拼接合成方法、系统、设备及介质。

背景技术

语音合成，也就是人类声音的人工产品，被广泛应用于从助手到游戏、娱乐等各种领域。最近，配合语音识别，语音合成已经成为语音助手不可或缺的一部分。

如今，业内主要使用两种语音合成技术：单元选择和参数合成。单元选择语音合成技术在拥有足够高质量录音时能够合成最高质量的语音，也因此成为商业产品中最常用的语音合成技术。另外，参数合成能够提供高度可理解的、流畅的语音，但整体质量略低。因此，在语料库较小、低占用的情况下，通常使用参数合成技术。现代的单元选择系统结合这两种技术的优势，因此被称为混合系统。混合单元选择方法类似于传统的单元选择技术，但其中使用了参数合成技术来预测选择的单元。

近期，深度学习对语音领域冲击巨大，极大的超越了传统的技术，例如隐马尔可夫模型。参数合成技术也从深度学习技术中有所收益。深度学习也使得一种全新的语音合成技术成为了可能，也就是直接音波建模技术(例如WaveNet)。该技术极有潜力，既能提供单元选择技术的高质量，又能提供参数选择技术的灵活性。然而，这种技术计算成本极高，对产品而言还不成熟。

发明内容

为解决参数合成音质差、深度学习计算开销大的问题，本发明提供一种具有高自然度的语音拼接合成方法、系统、设备及介质，其在只有低计算资源设备的条件下，依然可以做到媲美真人发音、神经网络计算开销较小。

其技术方案是这样的：一种具有高自然度的语音拼接合成方法，其特征在于，包括以下步骤：

步骤1：文本处理：输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息；

步骤2：候选单元预筛选：使用决策树根据文本的上下文信息搜索候选单元；

步骤3：模型训练：建立语音数据库，提取声学参数并进行数据集标注，根据提取的声学参数和标注信息，训练ContextEmbedding模型和混合密度网络模型；

步骤4：候选单元选择：利用ContextEmbedding模型和混合密度网络模型计算目标单元与候选单元之间的代价，依据代价挑选出合适的候选单元形成最佳候选单元序列；

步骤5：动态规整：将最佳候选单元序列通过动态规整，得到全局最优音素序列；

步骤6：波形拼接：对全局最优音素序列进行平滑拼接得到合成语音，输出语音。

具体的，步骤3具体包括以下步骤：

步骤301：根据上下文发音覆盖以及韵律边界覆盖规则设计文本语料并录制语音数据库；步骤302：提取的声学参数，提取的声学参数包括音频的基频、倒谱系数；

步骤303：进行数据集标注，包括对音频的音素边界以及文本的韵律边界、重读进行标注；步骤304：通过提取的声学参数以及标注信息训练声学参数的隐马尔可夫模型；

步骤305：通过隐马尔可夫模型对音频进行解码，获取音素边界以及对应的各个状态边界；步骤306：通过获得的状态边界训练音素时长的隐马尔可夫模型；

步骤307：利用机器学习方法，将步骤305获得的状态边界作为每一帧的位置信息，并结合决策树状态绑定问题集作为输入，将声学参数作为输出，训练得到ContextEmbedding模型；

步骤308：利用机器学习方法，将步骤305获得的状态边界作为每一帧的位置信息，并结合决策树状态绑定问题集作为输入，将声学特征的高斯分布作为输出，训练得到混合密度网络模型。

具体的，在步骤1中，对待合成文本进行文本处理时，基于Multitask的Bilstm-CRF的韵律预测工具获取韵律边界，通过Bilstm的多音字消歧工具获得准确的待合成文本的发音；通过文本规则处理日期时间、特殊字符。

具体的，在步骤2中，在决策树的训练过程中，采用共状态聚类的方案计算包含多状态音素的似然度、以最小描述长度准则对决策树各节点进行分裂。

具体的，在步骤3中，在训练ContextEmbedding模型时，以最小均方误差准则作为训练准则；在训练混合密度网络模型时，以声学参数在高斯分布上的最小似然度作为训练准则。

具体的，混合密度网络模型具体包括以下步骤：

步骤S21：使用音素时长的隐马尔可夫模型生成目标单元各个状态的时长，从而获得目标单元各个状态的位置信息；

步骤S22：利用决策树绑定问题集生成目标单元的上下文；

步骤S23：将步骤S21得到的位置信息和步骤S22得到的上下文作为混合密度网络模型的输入，生成各个状态的声学参数的分布。

具体的，其特征在于，ContextEmbedding模型采用三层单向LSTM模型，包括以下步骤：

步骤S31：使用音素时长的隐马尔可夫模型生成目标单元各个状态的时长，从而获得目标单元各个状态的位置信息；

步骤S32：利用决策树绑定问题集生成目标单元的上下文；

步骤S33：将步骤S31得到的状态位置信息和步骤S32得到的上下文作为ContextEmbedding模型的输入，模型的输出为目标单元的声学参数，采用LSTM模型的第二层的输出作为Embedding特征；

步骤S34：计算Embdedding特征之间的欧式距离度量候选单元与目标单元声学距离。

具体的，在步骤4中，候选单元的代价计算包括目标代价和连接代价的计算，

其中，目标代价为候选单元的声学参数分别在ContextEmbedding模型以及混合密度网络上的计算代价，其中候选单元在混合密度网络上的代价为：

其中，S为候选单元的声学参数，u、Σ分别为混合密度网声学特征的均值与方差，n表示候选单元的第n帧，k表示候选单元的第k个状态，f为第f类声学参数，

候选单元在ContexEmdedding模型上的代价为：

CEMB_n＝||UE_tar_n-UE_candi_n||₂

其中，UE_tar、UE_candi分别为目标单元以及候选单元的ContexEmbdeeing特征；

连接代价为：前后候选单元的最后一帧以及第一帧的声学参数，分别以在后、在前候选单元对应的混合密度网络的第一状态以及最后一状态上的似然度，作为连接代价，用于衡量前后两个候选单元在拼接上的听觉一致性，连接代价的计算为：

其中，SF为候选单元第一帧的声学参数，SL为最后一帧的声学参数，

候选单元的代价计算为：

其中，U为最佳候选单元序列，N为待合成音素序列测长度，K为各个音素对应混合密度网络的状态数量，F为声学特征的种类，W、WC分别目标代价以及连接代价中声学特征的权重。

具体的，在步骤5中，对于最佳候选单元序列的动态规整具体包括以下步骤：

利用混合密度网络获取候选单元各个状态的基频的分布，

获取存在基频的状态数，判断是否为浊音，是则对应生成连续浊音子序列，

获取候选单元序列中的连续浊音子序列并分别对其进行第一次动态规整解码，获取子路径；将原解码网络中连续浊音段的路径替换为子路径；

对替换后的解码网络进行第二次动态规整解码，得到全局最优音素序列。

具体的，在步骤6中，对于全局最优音素序列进行平滑拼接具体如下：

对全局最优音素序列中的音素片段的首尾N毫秒进行自相关计算，取自相关值最大的位置作为最佳的拼接点，其中，N大于最小基频的倒数。

一种具有高自然度的语音拼接合成系统，其特征在于，包括：

训练模块，用于建立语音数据库，提取声学参数并进行数据集标注，根据提取的声学参数和标注信息，训练ContextEmbedding模型和混合密度网络模型；

合成模块，用于输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息；使用决策树根据文本的上下文信息搜索候选单元；利用训练模块训练得到的ContextEmbedding模型和混合密度网络模型计算目标单元与候选单元之间的代价，依据代价挑选出合适的候选单元形成最佳候选单元序列；将最佳候选单元序列通过动态规整，得到全局最优音素序列；对全局最优音素序列进行平滑拼接得到合成语音，输出语音。

具体的，所述训练模块具体用于：

根据上下文发音覆盖以及韵律边界覆盖规则设计文本语料并录制语音数据库；提取的声学参数，提取的声学参数包括音频的基频、倒谱系数；进行数据集标注，包括对音频的音素边界以及文本的韵律边界、重读进行标注；通过提取的声学参数以及标注信息训练隐马尔可夫模型；通过隐马尔可夫模型对音频进行解码，获取音素边界以及对应的各个状态边界；通过获得的状态边界训练音素时长的隐马尔可夫模型；利用机器学习方法，将获得的状态边界作为每一帧的位置信息，并结合决策树状态绑定问题集作为输入，将声学参数作为输出，训练得到ContextEmbedding模型；利用机器学习方法，将获得的状态边界作为每一帧的位置信息，并结合决策树状态绑定问题集作为输入，将声学特征的高斯分布作为输出，训练得到混合密度网络模型。

一种电子设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上述的具有高自然度的语音拼接合成方法。

一种计算机可读存储介质，其上存储有程序，其特征在于：所述程序被处理器执行时实现如上述的具有高自然度的语音拼接合成方法。

与现有技术相比本发明具有以下有益效果：

相较于现有的语音拼接合成前端，本发明高精确度的前端建模能够获得待合成文本的高自然度的韵律以及准确的读音，前端主要功能是通过相对应的文本处理，将待合成文本解释成与声学参数相关的韵律边界等级、分词词性、重读、拼音等信息；

传统的语音拼接合成使用隐马尔可夫模型进行声学建模，其可靠性绝大程度上依赖于决策树问题集的设计且不能描述帧级别的声学特性，本发明采用混合密度网络描述目标单元声学参数的高斯分布，辅以ContextEmbedding模型约束候选单元短时特性，通过上述方式，可以在计算资源有限的前提下获得高自然度、媲美真人发音的合成音；

此外，本发明使用两级动态规整的方案，增强动态规整的局部解码效果，基于连续浊音匹配的二级动态规整搜索，第一级搜索保证单元序列的局部最优，第二级搜索保证候选单元序列的全局最优，最终获得高自然度的拼接合成音；

本发明的具有高自然度的语音拼接合成方法、系统、设备及介质可被广泛应用于手机助手、智能音箱、AI教育等领域。

附图说明

图1为本发明的一种具有高自然度的语音拼接合成方法的流程示意图；

图2为本发明的一种具有高自然度的语音拼接合成方法的流程框图；

图3为本发明的一种具有高自然度的语音拼接合成系统的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

见图1、2，本发明的一种具有高自然度的语音拼接合成方法，包括以下步骤：

步骤1：文本处理：输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息，具体的，对待合成文本进行文本处理时，基于Multitask的Bilstm-CRF的韵律预测工具获取精准可靠的韵律边界，通过Bilstm的多音字消歧工具获得准确的待合成文本的发音；通过文本规则处理日期时间、特殊字符。

步骤2：候选单元预筛选：使用决策树根据文本的上下文信息搜索候选单元，可以提高预筛选的效率，在决策树的训练过程中，采用共状态聚类的方案计算多状态音素的似然度、以最小描述长度准则对决策树各节点进行分裂。

步骤3：模型训练：建立语音数据库，提取声学参数并进行数据集标注，根据提取的声学参数和标注信息，训练ContextEmbedding模型和混合密度网络模型，采用混合密度网络对单元声学建模以描述不同上下文目标单元的声学特征分布，利用ContexEmbeddin模型描述目标单元帧级别的的流形特性；

步骤3具体包括以下步骤：

步骤301：根据上下文发音覆盖以及韵律边界覆盖规则设计文本语料并录制语音数据库；

步骤302：提取的声学参数，提取的声学参数包括音频的基频、倒谱系数；

步骤303：进行数据集标注，包括对音频的音素边界以及文本的韵律边界、重读进行标注；

步骤304：通过提取的声学参数以及标注信息训练隐马尔可夫模型；

步骤305：通过隐马尔可夫模型对音频进行解码，获取音素边界以及对应的各个状态边界，该模型能够根据待合成文本的上下文信息搜索对应HMM决策树的叶节点，利用最大似然参数生成算法能够获得文本对应目标候选单元各个状态的时长；

步骤306：通过获得的状态边界训练音素时长的隐马尔可夫模型；

其中，在训练ContextEmbedding模型时，以最小均方误差准则作为训练准则；在训练混合密度网络模型时，以声学参数在高斯分布上的最小似然度作为训练准则。

候选单元在ContexEmdedding模型上的代价为：

CEMB_n＝||UE_tar_n-UE_candi_n||₂

候选单元的代价计算为：

步骤5：动态规整：将最佳候选单元序列通过动态规整，得到全局最优音素序列，由于传统的动态规整算法仅能获得全局最优的候选单元序列，但局部最优在听觉感知中占有举足轻重的作用，在本实施例中，使用两级动态规整的方案，增强动态规整的局部解码效果，具体的，对于最佳候选单元序列的动态规整具体包括以下步骤：

利用混合密度网络获取候选单元各个状态的基频的分布，

获取候选单元序列中的连续浊音子序列并分别对其进行第一次动态规整解码，获取子路径；

将原解码网络中连续浊音段的路径替换为子路径；

步骤6：波形拼接：对全局最优音素序列进行平滑拼接得到合成语音，输出语音，对于全局最优音素序列进行平滑拼接具体如下：

在本实施例中，混合密度网络模型，混合密度网络是对音素各个状态进行建模的，具体包括以下步骤：

步骤S22：利用决策树绑定问题集生成目标单元的上下文；

由于混合密度网络的建模粒度为状态，无法在帧层面上约束候选单元的声学参数，为克服混合密度网络的缺陷，在本实施例中，采用ContextEmbedding模型对帧级别的声学参数建模，ContextEmbedding模型采用三层单向LSTM模型，包括以下步骤：

步骤S32：利用决策树绑定问题集生成目标单元的上下文；

在挑选候选单元时，使用第二层LSTM的输出作为Embedding特征，Embedding特征之间的欧式距离可以衡量各个候选单元之间的声学距离，为增加Embedding特征与候选单元声学距离之间的对应关系，在目标函数中增加等比映射的函数，即：每个Batch训练数据的Embedding之间的距离矩阵与声学距离矩阵商的二范数。

见图3，在本发明的实施例中，还提供了一种具有高自然度的语音拼接合成系统，包括：

训练模块1，用于建立语音数据库，提取声学参数并进行数据集标注，根据提取的声学参数和标注信息，训练ContextEmbedding模型和混合密度网络模型；

合成模块2，用于输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息；使用决策树根据文本的上下文信息搜索候选单元；利用训练模块训练得到的ContextEmbedding模型和混合密度网络模型计算目标单元与候选单元之间的代价，依据代价挑选出合适的候选单元形成最佳候选单元序列；将最佳候选单元序列通过动态规整，得到全局最优音素序列；对全局最优音素序列进行平滑拼接得到合成语音，输出语音。

具体的，训练模块具体用于：

在本发明的实施例中，还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上述的具有高自然度的语音拼接合成方法。

在上述的电子设备的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如上述的具有高自然度的语音拼接合成方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

以上对本发明所提供的具有高自然度的语音拼接合成方法、具有高自然度的语音拼接合成方法系统、电子设别和一种计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种具有高自然度的语音拼接合成方法，其特征在于，包括以下步骤：

步骤6：波形拼接：对全局最优音素序列进行平滑拼接得到合成语音，输出语音；

在步骤5中，对于最佳候选单元序列的动态规整具体包括以下步骤：

利用混合密度网络获取候选单元各个状态的基频的分布，

2.根据权利要求1所述的一种具有高自然度的语音拼接合成方法，其特征在于，步骤3具体包括以下步骤：

步骤301：根据上下文发音覆盖以及韵律边界覆盖规则设计文本语料并录制语音数据库；步骤302：提取声学参数，提取的声学参数包括音频的基频、倒谱系数；

3.根据权利要求1所述的一种具有高自然度的语音拼接合成方法，其特征在于：在步骤1中，对待合成文本进行文本处理时，基于Multitask的Bilstm-CRF的韵律预测工具获取韵律边界，通过Bilstm的多音字消歧工具获得准确的待合成文本的发音；通过文本规则处理日期时间、特殊字符。

4.根据权利要求1所述的一种具有高自然度的语音拼接合成方法，其特征在于：在步骤2中，在决策树的训练过程中，采用共状态聚类的方案计算包含多状态音素的似然度、以最小描述长度准则对决策树各节点进行分裂。

5.根据权利要求2所述的一种具有高自然度的语音拼接合成方法，其特征在于：在步骤3中，在训练ContextEmbedding模型时，以最小均方误差准则作为训练准则；在训练混合密度网络模型时，以声学参数在高斯分布上的最小似然度作为训练准则。

6.根据权利要求2所述的一种具有高自然度的语音拼接合成方法，其特征在于，混合密度网络模型具体包括以下步骤：

步骤S22：利用决策树绑定问题集生成目标单元的上下文；

7.根据权利要求2所述的一种具有高自然度的语音拼接合成方法，其特征在于，ContextEmbedding模型采用三层单向LSTM模型，包括以下步骤：

步骤S32：利用决策树绑定问题集生成目标单元的上下文；

8.根据权利要求2所述的一种具有高自然度的语音拼接合成方法，其特征在于：在步骤4中，候选单元的代价计算包括目标代价和连接代价的计算，

候选单元在ContexEmdedding模型上的代价为：

CEMB_n＝||UE_tar_n-UE_candi_n||₂

候选单元的代价计算为：

9.根据权利要求1所述的一种具有高自然度的语音拼接合成方法，其特征在于：在步骤6中，对于全局最优音素序列进行平滑拼接具体如下：

10.一种具有高自然度的语音拼接合成系统，其特征在于，包括：

合成模块，用于输入文本，对待合成文本进行文本处理，获取文本的发音、韵律、上下文信息；使用决策树根据文本的上下文信息搜索候选单元；利用训练模块训练得到的ContextEmbedding模型和混合密度网络模型计算目标单元与候选单元之间的代价，依据代价挑选出合适的候选单元形成最佳候选单元序列；将最佳候选单元序列通过动态规整，得到全局最优音素序列；对全局最优音素序列进行平滑拼接得到合成语音，输出语音；

对于最佳候选单元序列的动态规整具体包括：

利用混合密度网络获取候选单元各个状态的基频的分布，

11.根据权利要求10所述的一种具有高自然度的语音拼接合成系统，其特征在于，所述训练模块具体用于：

12.一种电子设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1所述的具有高自然度的语音拼接合成方法。

13.一种计算机可读存储介质，其上存储有程序，其特征在于：所述程序被处理器执行时实现如权利要求1所述的具有高自然度的语音拼接合成方法。