CN115862590A - 一种基于特征金字塔的文本驱动语音合成方法 - Google Patents

一种基于特征金字塔的文本驱动语音合成方法 Download PDF

Info

Publication number
CN115862590A
CN115862590A CN202211291702.0A CN202211291702A CN115862590A CN 115862590 A CN115862590 A CN 115862590A CN 202211291702 A CN202211291702 A CN 202211291702A CN 115862590 A CN115862590 A CN 115862590A
Authority
CN
China
Prior art keywords
spectrogram
frequency
features
pitch
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211291702.0A
Other languages
English (en)
Inventor
张磊
董彪
黄华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211291702.0A priority Critical patent/CN115862590A/zh
Publication of CN115862590A publication Critical patent/CN115862590A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于特征金字塔的文本驱动语音合成方法,属于语音信号处理和人工智能技术领域。本方法从音频频谱图中提取能量和音高的特征信息,分别以均方根能量和基音频率进行提取,对应于响度和音调的声音元素,作为底层特征。同时,从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息,分别以过零率与谱质心进行提取,作为高层特征。然后,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征。本方法能够有效提取能量与音高的有效值,使数据描述结果更加合理与稳定。在时频特征的计算中采用梅尔谱图,可以有效描述声音的音色。在特征的联合中采用金字塔的方式,可以对多层特征准确描述,能够准确反映说话人的语音特征。

Description

一种基于特征金字塔的文本驱动语音合成方法
技术领域
本发明涉及一种文本驱动语音合成的方法,特别涉及一种基于特征金字塔的文本驱动语音合成方法,属于语音信号处理和人工智能技术领域。
背景技术
语音合成,又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术。文本到语音(TTS)合成,是从文本生成合成语音的活跃研究领域,在语音助手、视频配音和数字人类许多应用中非常有用。由于TTS过程本质上是一种跨模态转换,因此,需要采用一种机制来保留合成语音中说话者的语音特征。否则,合成的语音可能会因中性风格而导致低质量的语音。
为了解决这个技术问题,国内外技术人员开展了大量研究,提出了许多用于文本到语音合成的方法。根据语音特征表示及其用途,现有的方法可大致分为三类:传统方法、基于深度学习的方法以及传统与深度学习相结合的方法。
传统方法求助于复杂的TTS模型,例如:使用波形拼接(J.Kala and J.Matouˇsek,“Very fast unit selection using viterbi search with zero-concatenation-costchains,”in 2014IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2014,pp.2569–2573.)和统计参数(N.Narendra and K.S.Rao,“Syllable specific unit selection cost functions for text-to-speechsynthesis,”ACM Transactions on Speech and Language Processing(TSLP),vol.9,no.3,pp.1–24,2012.)。基于大语料库的波形拼接可以更好地保留说话人的音色,而选择的单元可能是帧、音节或音素,导致合成效果不稳定。基于统计参数的方法比波形拼接更有效,但依赖于手工特征的准确性,这可能会限制合成复杂语音的音质。
基于深度学习的语音合成(Y.Qian,Y.Fan,W.Hu,and F.K.Soong,“On thetraining aspects of deep neural network(dnn)for parametric tts synthesis,”in2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,pp.3829–3833.)由于深度神经网络的显着特征表示和顺序数据处理而具有更好的合成效率和音质。然而,通过这些基于深度学习的方法获得的大多数特征通常统一地模拟持续时间和音高等语音特征,因此合成语音仍然倾向于中性,没有说话者的音色等其他特征。
根据声学中的响度、音调和音色等基本要素建立特征工程的方法(M.Fabiani andA.Friberg,“Influence of pitch,loudness,and timbre on the perception ofinstrument dynamics,”vol.130,no.4.Acoustical Society of America,2011,pp.EL193–EL199.)被证明是获得更精细语音表征的有前途的策略,根据这些丰富的声音元素,可以构建更全面和结构化的语音特征表示。此外,技术人员很容易从文本中建立这些声音元素和音素之间的相关性,因此TTS合成的语音具有所需的语音真实性和个性化。
尽管传统方法与基于深度学习的方法相结合具有更好的合成质量,但难以描述更全面的语音特征。因此,尚需要探索更精细的语音特征表示,以进一步提高合成语音的质量。
发明内容
本发明的目的是针对现在技术存在的缺陷和不足,为了解决合成的语音不能很好表达说话者语音特征的技术问题,创造性地提出一种基于特征金字塔的文本驱动语音合成方法。本方法在文本合成语音过程中根据声学中的响度、音调和音色等基本要素建立特征工程,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征,可以有效地合成更接近说话者语音特征的高质量语音,提高了有效性。
本发明的创新点在于:从音频频谱图中提取能量和音高的特征信息,分别以均方根能量和基音频率进行提取,对应于响度和音调的声音元素,作为底层特征。从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息,分别以过零率与谱质心进行提取,作为高层特征。然后,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征。
本发明的具体实现步骤如下:
一种基于特征金字塔的文本驱动语音合成方法,包括以下步骤:
步骤1:获取文本、音频相对应的多模态数据集。
步骤2:计算底层特征,包括能量和音高。
具体如下:
能量:对语音信号进行计算,得到能量谱图STFT:
Figure BDA0003898985650000031
其中,f(t)是语音信号,w(x)是窗函数,x表示窗函数长度,t表示语音信号长度,e-iwt表示复变函数。
优选地,可以利用均方根能量进行提取,如下式:
Figure BDA0003898985650000032
其中,RMSE表示均方根能量,n表示样本总数,bi
Figure BDA0003898985650000033
表示振幅的实际值和均值,i表示当前帧。
音高:通过下式得到基音序列WT:
Figure BDA0003898985650000034
其中,f(t)表示语音信号;a表示尺度,控制小波函数的伸缩;τ表示平移量,控制小波函数的平移;Ψ表示小波变换;dt表示每帧信号。
优选地,可以利用基音序列中频率最低的基音频率进行提取。
步骤3:梅尔谱图转换。
将频谱图转化为梅尔谱图,频谱图和梅尔谱图对应关系如下式:
Mel(f)=2595*lg(1+f/700)
其中,Mel表示梅尔频率,f表示频谱图频率,lg()表示三角函数。
步骤4:获取高层特征,包括时域和频域。
语音信号通过下式得到频谱图F(ω):
Figure BDA0003898985650000041
其中,f(t)表示语音信号,e-iωt表示复变函数,dt表示每帧信号。
时域:从频谱图F(ω)提取时域特征。
优选地,时域特征采用过零率计算,具体如下:
Figure BDA0003898985650000042
其中,Zi表示每帧的过零率,sgn[v]表示符号函数,v表示速率,N表示频谱序列长度,i表示当前帧。
频域:从频谱图F(ω)提取频域特征。
优选地,频域特征采用谱质心计算,设第i帧的重心为Ci,具体如下:
Figure BDA0003898985650000043
其中,G(i)表示当前帧的频谱序列,i表示当前帧,N表示频谱序列长度。
步骤5:特征融合,将底层特征和高层特征的信息进行相加。
作为优选,采用下式计算:
Figure BDA0003898985650000044
其中,Ri表示总体特征信息,Xi表示频谱图中能量与音高的特征信息,Yi表示梅尔谱图中的时域和频域特征信息,Ki表示维度,N表示频谱序列长度,i表示当前帧。
步骤6:通过损失函数对预测值与真实值拟合:
losstotal=losslow-level+losshigh-level
其中,losstotal表示整体损失值,losslow-level表示底层特征,losshigh-level表示高层特征。
不断迭代,直至值稳定,得到网络权重。
优选地,损失函数采用平均绝对误差计算,如下式:
Figure BDA0003898985650000045
其中,MAE表示平均绝对误差,n表示样本总数,ci
Figure BDA0003898985650000046
表示损失函数的实际值与预测值,i表示当前帧。
步骤7:根据网络权重,输入文本,生成语音。
有益效果
本发明方法,对比现有技术,具有以下优点:
1.基于底层特征的能量特征和音高特征来自于频谱图,但由于频谱图中频率和振幅分布范围过大,导致提取到很多无效信息,可能会大大降低语音质量。
本发明有效克服了这一问题,能量特征的提取利用均方根能量计算,音高特征的提取利用频率最低的基音频率计算,能够有效提取能量与音高的有效值,使数据的描述结果更加合理与稳定。
2.基于高层特征的时频特征来自于梅尔谱图,时频特征可以表示信号的稳态性能,即对应声学中的音色特征,但是频谱图的频率范围不符合人耳范围,会导致合成语音无法体现说话人的真实特点。
本发明在时频特征的计算中,采用梅尔谱图,这是一种更符合人耳范围的频谱图,可以有效描述声音的音色。
3.对于底层特征和高层特征的联合,底层特征来自于频谱图,高层特征来自于梅尔谱图,这是两种不同尺度的频谱图,传统的线性相加的方式,会导致有效信息的缺失。
本发明在特征的联合中,采用金字塔的方式,可以对多层特征准确描述,能够准确反映说话人的语音特征。
附图说明
图1是本发明方法的结构流程图。
图2是底层特征与高层特征融合示意图。
图3是训练网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明方法做进一详细说明。
一种基于特征金字塔的文本驱动语音合成方法,包括以下步骤:
步骤1:数据集处理,获取文本、音频相对应的多模态数据集。
步骤2:计算底层特征:
能量:利用下式对语音信号进行计算,得到能量谱图STFT:
Figure BDA0003898985650000061
其中,f(t)是语音信号,w(x)是窗函数,x表示窗函数长度,t表示语音信号长度,e-iwt表示复变函数。
a.之后,利用均方根能量进行提取,如下式:
Figure BDA0003898985650000062
其中,RMSE表示均方根能量,n表示样本总数,bi
Figure BDA0003898985650000063
表示振幅的实际值和均值,i表示当前帧。
b.音高。通过下式得到基音序列:
Figure BDA0003898985650000064
/>
式中,RMSE表示均方根能量;f(t)表示语音信号;a表示尺度,控制小波函数的伸缩;τ表示平移量,控制小波函数的平移;Ψ表示小波变换;dt表示每帧信号。利用基音中频率最低的基音频率进行提取。
步骤3:梅尔谱图转换。
将频谱图转化为梅尔谱图,频谱图和梅尔谱图对应关系如下式:
Mel(f)=2595*lg(1+f/700)
其中,Mel表示梅尔频率,f表示频谱图频率,lg()表示三角函数。
步骤4:计算高层特征。
语音信号通过下式得到频谱图:
Figure BDA0003898985650000065
其中,f(t)表示语音信号,e-iωt表示复变函数,dt表示每帧信号。
时域:从频谱图F(ω)提取时域特征,时域特征采用过零率计算,具体如下:
Figure BDA0003898985650000066
其中,Zi表示每帧的过零率,sgn[v]表示符号函数,v表示速率,N表示频谱序列长度,i表示当前帧。
频域:从频谱图F(ω)提取频域特征,频域特征采用谱质心计算,设第i帧的重心为Ci,具体如下:
Figure BDA0003898985650000071
其中,G(i)表示当前帧的频谱序列,i表示当前帧,N表示频谱序列长度。
步骤5:特征融合,将两部分特征信息进行相加,采用下式计算:
Figure BDA0003898985650000072
其中,Ri表示总体特征信息,Xi表示频谱图中能量与音高的特征信息,Yi表示梅尔谱图中的时域和频域特征信息,Ki表示维度,N表示频谱序列长度,i表示当前帧。具体如图2所示。
步骤6:通过损失函数对预测值与真实值拟合,定义如下式:
losstotal=losslow-level+losshigh-level
其中,losstotal表示整体损失值,losslow-level表示底层特征,losshigh-level表示高层特征,迭代至值稳定,得到网络权重。具体如图3所示。
所述损失函数采用平均绝对误差计算,如下式:
Figure BDA0003898985650000073
其中,MAE表示平均绝对误差,n表示样本总数,ci
Figure BDA0003898985650000074
表示损失函数的实际值与预测值,i表示当前帧。
步骤7:根据网络权重,输入文本,生成语音。
方法整体结构流程图如图1所示。
本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。

Claims (7)

1.一种基于特征金字塔的文本驱动语音合成方法,其特征在于,包括以下步骤:
步骤1:获取文本、音频相对应的多模态数据集;
步骤2:计算底层特征,包括能量和音高;
能量:对语音信号进行计算,得到能量谱图STFT:
Figure FDA0003898985640000011
其中,f(t)是语音信号,w(x)是窗函数,x表示窗函数长度,t表示语音信号长度,e-iwt表示复变函数;
音高:通过下式得到基音序列WT:
Figure FDA0003898985640000012
其中,f(t)表示语音信号;a表示尺度,控制小波函数的伸缩;τ表示平移量,控制小波函数的平移;Ψ表示小波变换;dt表示每帧信号;
步骤3:梅尔谱图转换;
将频谱图转化为梅尔谱图,频谱图和梅尔谱图对应关系如下式:
Mel(f)=2595*lg(1+f/700)
其中,Mel表示梅尔频率,f表示频谱图频率,lg()表示三角函数;
步骤4:获取高层特征,包括时域和频域;
语音信号通过下式得到频谱图F(ω):
Figure FDA0003898985640000013
其中,f(t)表示语音信号,e-iωt表示复变函数,dt表示每帧信号;
时域:从频谱图F(ω)提取时域特征;
频域:从频谱图F(ω)提取频域特征;
步骤5:特征融合,将底层特征和高层特征的信息进行相加;
步骤6:通过损失函数对预测值与真实值拟合:
losstotal=losslow-level+losshigh-level
其中,losstotal表示整体损失值,losslow-level表示底层特征,losshigh-level表示高层特征;
不断迭代,直至值稳定,得到网络权重;
步骤7:根据网络权重,输入文本,生成语音。
2.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤2计算能量时,利用均方根能量进行提取,如下式:
Figure FDA0003898985640000021
其中,RMSE表示均方根能量,n表示样本总数,bi
Figure FDA0003898985640000025
表示振幅的实际值和均值,i表示当前帧。/>
3.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤2计算音高时,利用基音序列中频率最低的基音频率进行提取。
4.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤3中,时域特征采用过零率计算,具体如下:
Figure FDA0003898985640000022
其中,Zi表示每帧的过零率,sgn[v]表示符号函数,v表示速率,N表示频谱序列长度,i表示当前帧。
5.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤3中,频域特征采用谱质心计算,设第i帧的重心为Ci,具体如下:
Figure FDA0003898985640000023
其中,G(i)表示当前帧的频谱序列,i表示当前帧,N表示频谱序列长度。
6.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤5中,采用下式计算:
Figure FDA0003898985640000024
其中,Ri表示总体特征信息,Xi表示频谱图中能量与音高的特征信息,Yi表示梅尔谱图中的时域和频域特征信息,Ki表示维度,N表示频谱序列长度,i表示当前帧。
7.如权利要求1所述的一种基于特征金字塔的文本驱动语音合成方法,其特征在于,步骤6中,损失函数采用平均绝对误差计算,如下式:
Figure FDA0003898985640000031
其中,MAE表示平均绝对误差,n表示样本总数,ci
Figure FDA0003898985640000032
表示损失函数的实际值与预测值,i表示当前帧。/>
CN202211291702.0A 2022-10-20 2022-10-20 一种基于特征金字塔的文本驱动语音合成方法 Pending CN115862590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211291702.0A CN115862590A (zh) 2022-10-20 2022-10-20 一种基于特征金字塔的文本驱动语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211291702.0A CN115862590A (zh) 2022-10-20 2022-10-20 一种基于特征金字塔的文本驱动语音合成方法

Publications (1)

Publication Number Publication Date
CN115862590A true CN115862590A (zh) 2023-03-28

Family

ID=85661651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211291702.0A Pending CN115862590A (zh) 2022-10-20 2022-10-20 一种基于特征金字塔的文本驱动语音合成方法

Country Status (1)

Country Link
CN (1) CN115862590A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825090A (zh) * 2023-08-30 2023-09-29 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825090A (zh) * 2023-08-30 2023-09-29 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置
CN116825090B (zh) * 2023-08-30 2023-12-05 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置

Similar Documents

Publication Publication Date Title
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
Erro et al. Voice conversion based on weighted frequency warping
Lee et al. MAP-based adaptation for speech conversion using adaptation data selection and non-parallel training.
WO2021225829A1 (en) Speech recognition using unspoken text and speech synthesis
JP2956548B2 (ja) 音声帯域拡大装置
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN101578659A (zh) 音质转换装置及音质转换方法
CN111210803B (zh) 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法
Ai et al. A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
Ai et al. SampleRNN-based neural vocoder for statistical parametric speech synthesis
CN113436606B (zh) 一种原声语音翻译方法
Bi et al. Application of speech conversion to alaryngeal speech enhancement
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN112102811A (zh) 一种合成语音的优化方法、装置及电子设备
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN116229932A (zh) 一种基于跨域一致性损失的语音克隆方法及系统
CN115862590A (zh) 一种基于特征金字塔的文本驱动语音合成方法
CN116364096B (zh) 一种基于生成对抗网络的脑电信号语音解码方法
JPH08248994A (ja) 声質変換音声合成装置
CN116913244A (zh) 一种语音合成方法、设备及介质
Prasad et al. Backend tools for speech synthesis in speech processing
Xie et al. Pitch transformation in neural network based voice conversion
Gonzales et al. Voice conversion of philippine spoken languages using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination