CN112151008A

CN112151008A - 一种语音合成方法、系统及计算机设备

Info

Publication number: CN112151008A
Application number: CN202011001647.8A
Authority: CN
Inventors: 钟生; 王鹏; 贾玮民
Original assignee: China Applied Technology Co Ltd
Current assignee: China Applied Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-29
Anticipated expiration: 2040-09-22
Also published as: CN112151008B

Abstract

本发明公开了一种语音合成方法，所述方法步骤如下：采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。

Description

一种语音合成方法、系统及计算机设备

技术领域

本发明涉及语音合成领域，具体涉及一种语音合成方法、系统及计算机设备。

背景技术

语音合成是通过机械或者电子的方法产生人造语音的技术。

文语转换技术隶属于语音合成的范畴，它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语进行输出。

现有的语音合成方法中，需要前期录制大量的音频，尽可能全的覆盖所有的音节音素，合成的声音机械感强、生硬，不够自然。

发明内容

为解决上述技术问题，本发明提供一种语音合成方法、系统及计算机设备。

为解决上述技术问题，本发明采用如下技术方案：

一种语音合成方法，所述方法步骤如下：

步骤一：采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；

步骤二：获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；

步骤三：使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；

步骤四：将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。

具体地，步骤二中，通过文本输入的方式获取文本，并在文本输入时检测文本的正确性。

具体地，步骤三中，对语音文件进行标注时，通过隐马尔可夫模型标注语音文件的声母、韵母和语调。

具体地，进行步骤三之前，先将拼音序列以TF-IDF方式进行编码，生成拼音序列向量，继而使拼音序列向量具有固定长度：拼音序列向量超过该固定长度的，对其进行截取并舍弃其末尾；拼音序列向量短于该固定长度的，在其末尾补零填充；将具有固定长度的拼音序列向量作为拼音序列的特征向量。

具体地，进行步骤三之前，提取语音文件的MFCC向量作为语音文件的特征向量。

具体地，步骤三中，使语音文件与拼音序列之间产生映射关联时，计算拼音序列的特征向量和语音文件的特征向量，计算上述两种特征向量之间的欧式距离，两种特征向量之间的欧式距离小于阈值时，使所述拼音序列和语音文件产生一一对应关系。

具体地，步骤三中，语音文件的物理参数包括语音持续时间和语音音高。

一种语音合成系统，包括：

语音采集模块，用于采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；

文本采集模块，用于获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；

模型生成模块，其使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；

语音合成模块，其将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的语音合成方法。

与现有技术相比，本发明的有益技术效果是：

本发明通过预先对文本分块，增强语义的完成度，避免输出声音的不自然，输出模型基于DCNN深度卷积神经网络，训练过程简单，花费时间少，训练速度快，卷积神经网络的算法模型泛化能力较强，对于各种场景采集的音频数据的拟合效果都很好，使本发明的技术方案拥有更广泛的应用范围。

附图说明

图1为本发明语音合成方法的流程示意图；

图2为本发明DCNN深度卷积网络模型结构图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，一种语音合成方法，所述方法步骤如下：

S1：采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合。

语音数据库是由语音文件组成的，同一汉字有不同的语调，将这些具有不同语调的语音文件与该汉字产生对应关系后进行存储；词组与语音文件的对应关系与上述原理相同。

S2：获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列。

步骤二中，通过文本输入的方式获取文本，并在文本输入时检测文本的正确性；例如在网页中进行文本输入，可以利用JavaScript技术对输入内容进行验证，避免输入内容不符合要求。

采用split函数对文本进行分割，得到文本块；split函数是编程语言中使用的一种函数名称，它返回一个下标从零开始的一维数组，split函数包含指定数目的子字符串；基于Python编程环境下使用，Python split()通过指定分隔符对字符串进行切片，如果参数num有指定值，则分隔num+1个子字符串。

split()方法语法如下：str.split(str＝″″，hum＝string.count(str))；其中str为分隔符，默认为所有的空字符，包括空格、换行(\n)、制表符(\t)等；num为分割次数，默认为1，即分隔所有；其返回值为分割后的字符串列表。

进行步骤三之前，先将拼音序列以TF-IDF方式进行编码，生成拼音序列向量，继而使拼音序列向量具有固定长度：拼音序列向量超过该固定长度的，对其进行截取并舍弃其末尾；拼音序列向量短于该固定长度的，在其末尾补零填充；将具有固定长度的拼音序列向量作为拼音序列的特征向量。

上述过程即为提取拼音序列的特征向量的过程，其中TF-IDF是信息检索中常用的一种文本表示方法，TF-IDF由两部分组成，即TF和IDF；IDF(x)＝logN/N(x)；N代表语料库中文本的总数，而N(x)代表语料库中包含词x的文本总数；TF-IDF(x)＝TF(x)*IDF(x)；其中TF(x)指词x在当前文本中的词频，TF-IDF向量计算方法：TF-IDF(q，d)＝sum{i＝1..k|TF(w[i]，d)*IDF(w[i])}；拼音序列向量长度不一，不利于后续计算，需要截取较长的拼音序列向量，保留其前部，需要在较短拼音序列向量的末尾补零，其目的在于使各拼音序列向量具有统一的长度，能够加快处理速度。

进行步骤三之前，提取语音文件的MFCC向量作为语音文件的特征向量。

声音是模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，因此，必须将声音波形转换为声学特征向量；目前有许多声音特征提取方法，如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等，其中MFCC是基于倒谱的，更符合人的听觉原理，因而是最普遍、最有效的声音特征提取算法，在提取MFCC前，需要对语音文件做预处理，包括预加重、加窗、分帧、快速傅里叶变换、Mel滤波器组处理、离散余弦变换进行倒谱处理、能量和差分处理，进而将提取出的MFCC向量作为语音文件的特征向量。

S3：使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练。

物理参数的确定过程如下。

将语音文件通过一个高通滤波器，H(Z)＝1-μz^-1，其中μ取0.97；再对音频文件进行分帧；对每一帧乘以汉明窗加窗，以增加帧左端和右端的连续性；汉明窗函数为：W(n，α)＝(1-α)-αcos(2*PI*n/(N-1))，0≤n≤N-1；再进行快速傅里叶变换，得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱；将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组，滤波器的个数和临界带的个数相近，采用的滤波器为三角滤波器，M通常取22-26，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

三角滤波器的频率响应定义为

式中，

计算每个滤波器组输出的对数能量为：

经离散余弦变换即得到MFCC系数：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数；L阶指MFCC系数阶数，通常取12-16，M是三角滤波器个数。

步骤三中，对语音文件进行标注时，通过隐马尔可夫模型标注语音文件的声母、韵母和语调。

隐马尔可夫模型λ＝(S，W，A，B，π)，S为句子中所有词汇语义的集合；W为所有词汇的集合，A是状态转移概率矩阵，B是观测概率矩阵，π为初始状态概率，具体规程如下：

定义一个用来建模的L声音类的集合。例如词组，定义声音类V＝{v₁，v₂，..，v₃}；

对于每一个类，积累一定量的已知的标记语音集合；

在训练集合的基础上，解决估计问题，为每个类V_i获取一个最好的模型λ_i；

在认识的过程中，对每个未知观察序列O估计Pr(O|λ_i)(i＝1，2，...，L))，并为每个类V_i确定产生O的语音，使其满足：Pr(O|λ_i)＝Pr(O|λ_i)。

步骤三中，使语音文件与拼音序列之间产生映射关联时，计算拼音序列的特征向量和语音文件的特征向量，计算上述两种特征向量之间的欧式距离，两种特征向量之间的欧式距离小于阈值时，使所述拼音序列和语音文件产生一一对应关系。

欧式距离是评价个体相似性或者类别相似性的指标，其用于衡量个体在空间上存在的距离，距离越小说明个体间差别越小；本实施例中通过计算两种特征向量之间的欧式距离，建立拼音序列和语音文件之间的关联关系。

步骤三中，语音文件的物理参数包括语音持续时间和语音音高；语音持续时间和语音音高可以从语音文件中直接获得。

S4：将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。

如图2所示，本实施例中，所述DCNN深度卷积网络模型采用三个卷积层、两个池化层和一个全连接层，并采用softmax激活函数和交叉熵函数作为损失函数对深度卷积模型进行调优。

一种语音合成系统，包括：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种语音合成方法，其特征在于：所述方法步骤如下：

2.根据权利要求1所述的语音合成方法，其特征在于：步骤二中，通过文本输入的方式获取文本，并在文本输入时检测文本的正确性。

3.根据权利要求1所述的语音合成方法，其特征在于：步骤三中，对语音文件进行标注时，通过隐马尔可夫模型标注语音文件的声母、韵母和语调。

4.根据权利要求1所述的语音合成方法，其特征在于，进行步骤三之前，先将拼音序列以TF-IDF方式进行编码，生成拼音序列向量，继而使拼音序列向量具有固定长度：拼音序列向量超过该固定长度的，对其进行截取并舍弃其末尾；拼音序列向量短于该固定长度的，在其末尾补零填充；将具有固定长度的拼音序列向量作为拼音序列的特征向量。

5.根据权利要求1所述的语音合成方法，其特征在于，进行步骤三之前，提取语音文件的MFCC向量作为语音文件的特征向量。

6.根据权利要求1所述的语音合成方法，其特征在于，步骤三中，使语音文件与拼音序列之间产生映射关联时，计算拼音序列的特征向量和语音文件的特征向量，计算上述两种特征向量之间的欧式距离，两种特征向量之间的欧式距离小于阈值时，使所述拼音序列和语音文件产生一一对应关系。

7.根据权利要求1所述的语音合成方法，其特征在于，步骤三中，语音文件的物理参数包括语音持续时间和语音音高。

8.一种语音合成系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的语音合成方法。