CN115862590A

CN115862590A - 一种基于特征金字塔的文本驱动语音合成方法

Info

Publication number: CN115862590A
Application number: CN202211291702.0A
Authority: CN
Inventors: 张磊; 董彪; 黄华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-03-28

Abstract

本发明涉及一种基于特征金字塔的文本驱动语音合成方法，属于语音信号处理和人工智能技术领域。本方法从音频频谱图中提取能量和音高的特征信息，分别以均方根能量和基音频率进行提取，对应于响度和音调的声音元素，作为底层特征。同时，从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息，分别以过零率与谱质心进行提取，作为高层特征。然后，将底层特征和高层特征以金字塔形式融合，得到说话人的综合语音表征。本方法能够有效提取能量与音高的有效值，使数据描述结果更加合理与稳定。在时频特征的计算中采用梅尔谱图，可以有效描述声音的音色。在特征的联合中采用金字塔的方式，可以对多层特征准确描述，能够准确反映说话人的语音特征。

Description

一种基于特征金字塔的文本驱动语音合成方法

技术领域

本发明涉及一种文本驱动语音合成的方法，特别涉及一种基于特征金字塔的文本驱动语音合成方法，属于语音信号处理和人工智能技术领域。

背景技术

语音合成，又称文语转换(Text To Speech，TTS)，是一种可以将任意输入文本转换成相应语音的技术。文本到语音(TTS)合成，是从文本生成合成语音的活跃研究领域，在语音助手、视频配音和数字人类许多应用中非常有用。由于TTS过程本质上是一种跨模态转换，因此，需要采用一种机制来保留合成语音中说话者的语音特征。否则，合成的语音可能会因中性风格而导致低质量的语音。

为了解决这个技术问题，国内外技术人员开展了大量研究，提出了许多用于文本到语音合成的方法。根据语音特征表示及其用途，现有的方法可大致分为三类：传统方法、基于深度学习的方法以及传统与深度学习相结合的方法。

传统方法求助于复杂的TTS模型，例如：使用波形拼接(J.Kala and J.Matouˇsek,“Very fast unit selection using viterbi search with zero-concatenation-costchains,”in 2014IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2014,pp.2569–2573.)和统计参数(N.Narendra and K.S.Rao,“Syllable specific unit selection cost functions for text-to-speechsynthesis,”ACM Transactions on Speech and Language Processing(TSLP),vol.9,no.3,pp.1–24,2012.)。基于大语料库的波形拼接可以更好地保留说话人的音色，而选择的单元可能是帧、音节或音素，导致合成效果不稳定。基于统计参数的方法比波形拼接更有效，但依赖于手工特征的准确性，这可能会限制合成复杂语音的音质。

基于深度学习的语音合成(Y.Qian,Y.Fan,W.Hu,and F.K.Soong,“On thetraining aspects of deep neural network(dnn)for parametric tts synthesis,”in2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,pp.3829–3833.)由于深度神经网络的显着特征表示和顺序数据处理而具有更好的合成效率和音质。然而，通过这些基于深度学习的方法获得的大多数特征通常统一地模拟持续时间和音高等语音特征，因此合成语音仍然倾向于中性，没有说话者的音色等其他特征。

根据声学中的响度、音调和音色等基本要素建立特征工程的方法(M.Fabiani andA.Friberg,“Influence of pitch,loudness,and timbre on the perception ofinstrument dynamics,”vol.130,no.4.Acoustical Society of America,2011,pp.EL193–EL199.)被证明是获得更精细语音表征的有前途的策略，根据这些丰富的声音元素，可以构建更全面和结构化的语音特征表示。此外，技术人员很容易从文本中建立这些声音元素和音素之间的相关性，因此TTS合成的语音具有所需的语音真实性和个性化。

尽管传统方法与基于深度学习的方法相结合具有更好的合成质量，但难以描述更全面的语音特征。因此，尚需要探索更精细的语音特征表示，以进一步提高合成语音的质量。

发明内容

本发明的目的是针对现在技术存在的缺陷和不足，为了解决合成的语音不能很好表达说话者语音特征的技术问题，创造性地提出一种基于特征金字塔的文本驱动语音合成方法。本方法在文本合成语音过程中根据声学中的响度、音调和音色等基本要素建立特征工程，将底层特征和高层特征以金字塔形式融合，得到说话人的综合语音表征，可以有效地合成更接近说话者语音特征的高质量语音，提高了有效性。

本发明的创新点在于：从音频频谱图中提取能量和音高的特征信息，分别以均方根能量和基音频率进行提取，对应于响度和音调的声音元素，作为底层特征。从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息，分别以过零率与谱质心进行提取，作为高层特征。然后，将底层特征和高层特征以金字塔形式融合，得到说话人的综合语音表征。

本发明的具体实现步骤如下：

一种基于特征金字塔的文本驱动语音合成方法，包括以下步骤：

步骤1：获取文本、音频相对应的多模态数据集。

步骤2：计算底层特征，包括能量和音高。

具体如下：

能量：对语音信号进行计算，得到能量谱图STFT：

其中，f(t)是语音信号，w(x)是窗函数，x表示窗函数长度，t表示语音信号长度，e^-iwt表示复变函数。

优选地，可以利用均方根能量进行提取，如下式：

其中，RMSE表示均方根能量，n表示样本总数，b_i和

表示振幅的实际值和均值，i表示当前帧。

音高：通过下式得到基音序列WT：

其中，f(t)表示语音信号；a表示尺度，控制小波函数的伸缩；τ表示平移量，控制小波函数的平移；Ψ表示小波变换；dt表示每帧信号。

优选地，可以利用基音序列中频率最低的基音频率进行提取。

步骤3：梅尔谱图转换。

将频谱图转化为梅尔谱图，频谱图和梅尔谱图对应关系如下式：

Mel(f)＝2595*lg(1+f/700)

其中，Mel表示梅尔频率，f表示频谱图频率，lg()表示三角函数。

步骤4：获取高层特征，包括时域和频域。

语音信号通过下式得到频谱图F(ω)：

其中，f(t)表示语音信号，e^-iωt表示复变函数，dt表示每帧信号。

时域：从频谱图F(ω)提取时域特征。

优选地，时域特征采用过零率计算，具体如下：

其中，Z_i表示每帧的过零率，sgn[v]表示符号函数，v表示速率，N表示频谱序列长度，i表示当前帧。

频域：从频谱图F(ω)提取频域特征。

优选地，频域特征采用谱质心计算，设第i帧的重心为C_i，具体如下：

其中，G(i)表示当前帧的频谱序列，i表示当前帧，N表示频谱序列长度。

步骤5：特征融合，将底层特征和高层特征的信息进行相加。

作为优选，采用下式计算：

其中，R_i表示总体特征信息，X_i表示频谱图中能量与音高的特征信息，Y_i表示梅尔谱图中的时域和频域特征信息，K_i表示维度，N表示频谱序列长度，i表示当前帧。

步骤6：通过损失函数对预测值与真实值拟合：

loss_total＝loss_low-level+loss_high-level

其中，loss_total表示整体损失值，loss_low-level表示底层特征，loss_high-level表示高层特征。

不断迭代，直至值稳定，得到网络权重。

优选地，损失函数采用平均绝对误差计算，如下式：

其中，MAE表示平均绝对误差，n表示样本总数，c_i和

表示损失函数的实际值与预测值，i表示当前帧。

步骤7：根据网络权重，输入文本，生成语音。

有益效果

本发明方法，对比现有技术，具有以下优点：

1.基于底层特征的能量特征和音高特征来自于频谱图，但由于频谱图中频率和振幅分布范围过大，导致提取到很多无效信息，可能会大大降低语音质量。

本发明有效克服了这一问题，能量特征的提取利用均方根能量计算，音高特征的提取利用频率最低的基音频率计算，能够有效提取能量与音高的有效值，使数据的描述结果更加合理与稳定。

2.基于高层特征的时频特征来自于梅尔谱图，时频特征可以表示信号的稳态性能，即对应声学中的音色特征，但是频谱图的频率范围不符合人耳范围，会导致合成语音无法体现说话人的真实特点。

本发明在时频特征的计算中，采用梅尔谱图，这是一种更符合人耳范围的频谱图，可以有效描述声音的音色。

3.对于底层特征和高层特征的联合，底层特征来自于频谱图，高层特征来自于梅尔谱图，这是两种不同尺度的频谱图，传统的线性相加的方式，会导致有效信息的缺失。

本发明在特征的联合中，采用金字塔的方式，可以对多层特征准确描述，能够准确反映说话人的语音特征。

附图说明

图1是本发明方法的结构流程图。

图2是底层特征与高层特征融合示意图。

图3是训练网络的结构示意图。

具体实施方式

下面结合附图和实施例对本发明方法做进一详细说明。

步骤1：数据集处理，获取文本、音频相对应的多模态数据集。

步骤2：计算底层特征：

能量:利用下式对语音信号进行计算，得到能量谱图STFT：

a.之后，利用均方根能量进行提取，如下式：

其中，RMSE表示均方根能量，n表示样本总数，b_i和

表示振幅的实际值和均值，i表示当前帧。

b.音高。通过下式得到基音序列：

/>

式中，RMSE表示均方根能量；f(t)表示语音信号；a表示尺度，控制小波函数的伸缩；τ表示平移量，控制小波函数的平移；Ψ表示小波变换；dt表示每帧信号。利用基音中频率最低的基音频率进行提取。

步骤3：梅尔谱图转换。

Mel(f)＝2595*lg(1+f/700)

步骤4：计算高层特征。

语音信号通过下式得到频谱图：

时域:从频谱图F(ω)提取时域特征，时域特征采用过零率计算，具体如下：

频域：从频谱图F(ω)提取频域特征，频域特征采用谱质心计算，设第i帧的重心为C_i，具体如下：

步骤5：特征融合，将两部分特征信息进行相加，采用下式计算：

其中，R_i表示总体特征信息，X_i表示频谱图中能量与音高的特征信息，Y_i表示梅尔谱图中的时域和频域特征信息，K_i表示维度，N表示频谱序列长度，i表示当前帧。具体如图2所示。

步骤6：通过损失函数对预测值与真实值拟合，定义如下式：

loss_total＝loss_low-level+loss_high-level

其中，loss_total表示整体损失值，loss_low-level表示底层特征，loss_high-level表示高层特征，迭代至值稳定，得到网络权重。具体如图3所示。

所述损失函数采用平均绝对误差计算，如下式：

其中，MAE表示平均绝对误差，n表示样本总数，c_i和

表示损失函数的实际值与预测值，i表示当前帧。

步骤7：根据网络权重，输入文本，生成语音。

方法整体结构流程图如图1所示。

本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种基于特征金字塔的文本驱动语音合成方法，其特征在于，包括以下步骤：

步骤1：获取文本、音频相对应的多模态数据集；

步骤2：计算底层特征，包括能量和音高；

能量：对语音信号进行计算，得到能量谱图STFT：

其中，f(t)是语音信号，w(x)是窗函数，x表示窗函数长度，t表示语音信号长度，e^-iwt表示复变函数；

音高：通过下式得到基音序列WT：

其中，f(t)表示语音信号；a表示尺度，控制小波函数的伸缩；τ表示平移量，控制小波函数的平移；Ψ表示小波变换；dt表示每帧信号；

步骤3：梅尔谱图转换；

Mel(f)＝2595*lg(1+f/700)

其中，Mel表示梅尔频率，f表示频谱图频率，lg()表示三角函数；

步骤4：获取高层特征，包括时域和频域；

语音信号通过下式得到频谱图F(ω)：

其中，f(t)表示语音信号，e^-iωt表示复变函数，dt表示每帧信号；

时域：从频谱图F(ω)提取时域特征；

频域：从频谱图F(ω)提取频域特征；

步骤5：特征融合，将底层特征和高层特征的信息进行相加；

步骤6：通过损失函数对预测值与真实值拟合：

loss_total＝loss_low-level+loss_high-level

其中，loss_total表示整体损失值，loss_low-level表示底层特征，loss_high-level表示高层特征；

不断迭代，直至值稳定，得到网络权重；

步骤7：根据网络权重，输入文本，生成语音。

2.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤2计算能量时，利用均方根能量进行提取，如下式：

其中，RMSE表示均方根能量，n表示样本总数，b_i和

表示振幅的实际值和均值，i表示当前帧。/>

3.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤2计算音高时，利用基音序列中频率最低的基音频率进行提取。

4.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤3中，时域特征采用过零率计算，具体如下：

5.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤3中，频域特征采用谱质心计算，设第i帧的重心为C_i，具体如下：

6.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤5中，采用下式计算：

7.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法，其特征在于，步骤6中，损失函数采用平均绝对误差计算，如下式：

其中，MAE表示平均绝对误差，n表示样本总数，c_i和

表示损失函数的实际值与预测值，i表示当前帧。/>