CN1815552B - 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 - Google Patents

基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 Download PDF

Info

Publication number
CN1815552B
CN1815552B CN200610038589A CN200610038589A CN1815552B CN 1815552 B CN1815552 B CN 1815552B CN 200610038589 A CN200610038589 A CN 200610038589A CN 200610038589 A CN200610038589 A CN 200610038589A CN 1815552 B CN1815552 B CN 1815552B
Authority
CN
China
Prior art keywords
rank
line spectral
parameter
spectral frequencies
differential parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200610038589A
Other languages
English (en)
Other versions
CN1815552A (zh
Inventor
凌震华
王玉平
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV filed Critical ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority to CN200610038589A priority Critical patent/CN1815552B/zh
Publication of CN1815552A publication Critical patent/CN1815552A/zh
Application granted granted Critical
Publication of CN1815552B publication Critical patent/CN1815552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,包括在频谱参数提取时将线谱频率阶间差分作为提取结果的一部分;在模型建模和训练时分别对线谱频率及其阶间差分参数进行独立建模和训练;在预测时分别预测线谱频率及其阶间差分参数,并利用阶间差分对线谱频率参数进行调整;最终利用调整后的线谱频率参数合成输出语音以达到通过增强和锐化合成语音的共振峰而提高合成语音音质的目的。

Description

基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
技术领域
本发明涉及语音合成方法,具体是在基于线谱频率的语音频谱参数化与建模过程中加入对其阶间差分参数的考虑,通过对线谱频率阶间差分参数的合理利用达到对合成语音共振峰的增强的目的,提高合成语音清晰度。
背景技术
现有的语音合成技术主要有基于波形拼接的语音合成方法和基于参数合成的语音合成方法两大类。前者通过利用包含自然声学样本的语音音库和在合成时进行单元选择的方法可以取得较高的合成语音的音质与自然度。但是由于语音音库的使用,往往在存储量上有比较大的消耗,难以实现在嵌入式平台等资源受限领域的使用。
另一种基于参数合成的语音合成方法首先需要对语音信号进行参数化分析,一般包括表征激励信息的基音频率参数和表征声道滤波器频谱特征的频谱参数,然后对分析得到的参数进行建模,在合成时利用模型进行相关声学参数的预测,最终通过参数合成器还原语音信号。这种方法同样能够取得较好的合成语音的流畅度和自然度,并且由于在合成阶段脱离的音库的限制,消耗存储资源很小。但是由于在对参数的建模过程中,往往会引入一定的平均化处理,这样使得模型预测输出的频谱参数对应的频谱包络过于平滑,共振峰被削弱,从而造成合成语音清晰度的下降。
发明内容
本发明的目的就是为了提供一种语音合成系统中基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,以达到提高合成语音效果的目的。
本发明的技术方案如下:
基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,其特征在于包括以下步骤:
(1)、对语音信号分帧求取线性预测系数;
(2)、线谱频率及其阶间差分参数的获得:将线性预测系数转换成对应阶数的线谱频率参数,同时,对相邻阶的线谱频率计算其差分参数;
(3)、对于各阶线谱频率及其阶间差分参数分别独立进行声学模型的训练,采用的模型为隐马尔可夫模型,在模型训练过程中,通过结合语音单元的上下文属性利用决策树对各参数对应的模型进行较为细致的分类,保证得到的声学模型均可以实现依据上下文属性输入的参数预测;
(4)、合成阶段的语音增强处理:
d、对用户输入的文本进行分析,利用分析得到的各语音单元对应的上下文属性输入训练得到的声学模型,预测合成时使用的各帧线谱频率及阶间差分参数,由于线谱频率和阶间差分参数是分别通过二个独立的声学模型预测的,所以预测得到的阶间差分参数与预测得到的线谱频率的实际阶间差分参数相比并不一致;
e、利用各帧预测得到的阶间差分参数依据下式对预测得到的线谱频率进行调整:
l i ′ = l i - 1 + c i - 1 + c i - 1 2 c i - 1 2 + c i 2 [ ( l i + 1 - l i - 1 ) - ( c i + c i - 1 ) ]
其中,li,i=1,2,...,N为预测得到的当前帧第i阶的线谱频率,N为线谱频率参数的阶数;ci,i=1,2,...,M为预测得到的当前帧第i+1阶和第i阶线谱频率之间的阶间差分参数,M为阶间差分参数的阶数,M<N;l′i,i=1,2,...,N为调整后当前帧的N阶线谱频率。对于各阶线谱频率,可以选择从低阶(第2阶)到高阶(第M阶)的调整顺序,也可以选择从高阶(第M阶)到低阶(第2阶)的调整顺序,同时可以通过调整遍数来控制这种频谱峰值增强作用的强弱;
f、将调整后的线谱频率转换为线性预测系数,同时结合韵律预测模块生成的基音频率参数,送入线性预测滤波器,合成语音并输出。
对语音信号分帧求取线性预测系数是:通过固定帧移加窗乘取的方法获得各帧语音的短时信号波形,然后求取该帧信号对应的各阶线性预测系数,求取方法为基于时域波形自相关系数的线性预测系数求取方法;或者自适应加权谱内插的方法,首先计算该帧语音对应的频谱包络,再利用全极点模型拟合求解线性预测系数。
线谱频率及其阶间差分参数的获得过程中,选择保留所有的阶间差分参数,或者为了降低参数维数选择仅保留较低阶的阶间差分参数。
所述加窗是指高斯窗,窗宽为基音周期长度的两倍,帧移5毫秒,
这里提出的在语音合成系统中基于线谱频率及其阶间差分参数的频谱建模与语音增强方法就是为了提高参数合成方法的语音清晰度,主要基于以下几点考虑:
(1)线谱频率参数相对于线性预测系数更加稳定,相对于倒谱系数更加能够反映与频谱峰值相关的一些频谱局部特征,相对于共振峰参数在求解上更加容易与鲁棒;
(2)线谱频率对于频谱局部特征的反映,主要是通过其相邻阶差分表现出来的,线谱频率具有0~π的顺序排列特征,当两个线谱频率比较接近,即阶间差分较小时,会在频谱包络对应频率处形成一个峰,差分越小,峰值越尖锐,反之,频谱越平坦。
通过观察合成语音的频谱可以发现,在使用基于线谱频率及其阶间差分参数的频谱建模与语音增强方法后,对比只使用线谱频率参数,频谱中的共振峰部分得到了有效的锐化和增强。
通过对合成语音的实际测听表明,使用该方法后,对比只使用线谱频率参数,合成语音的清晰度得到明显提高,更容易被使用者接受。
同时,对比其他的语音增强算法,由于该方法只是对各帧的频谱参数进行了调整,而没有引入后滤波等额外处理,所以对与整个合成系统不会增加运算量的消耗。
术语解释
语音合成(Text-To-Speech):又称为文语转化.它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术.语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息.近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音.
线性预测系数(Linear Prediction Coefficient):线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而当前时刻的信号可以用前若干时刻的信号的线性组合来估计,通过使实际语音的采样值和线性预测采样值之间达到均方差最小,即可得到线性预测系数。
线谱频率(Linear Spectral Frequency):线谱频率是一种和线性预测系数等价的声道模型描述参数,具有0~π的顺序分布特征,可以依据线性预测系数求解获得。
自适应加权谱内插(Speech Transformation and Representation usingAdaptive Interpolation of weiGHTed spectrum,STRAIGHT):一种针对语音信号的分析合成算法,它通过对语音短时谱进行时频域的自适应内插平滑来提取精确的谱包络。
隐马尔可夫模型(Hidden Markov Model):马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。用隐马尔可夫刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。
附图说明
图1:利用预测得到阶间差分参数对线谱频率调整后合成语音频谱的增强情况示例
图2:本发明模型训练阶段流程图。
图3:本发明合成阶段流程图。
具体实施方式
本发明具体的实现方式如下:
1.训练语音数据的频谱参数化分析
1)对语音信号分帧求取线性预测系数:通过固定帧移加窗乘取(高斯窗,窗宽为基音周期长度的两倍,帧移5毫秒)的方法获得各帧语音的短时信号波形,然后求取该帧信号对应的各阶线性预测系数。求取方法可以采用基于时域波形自相关系数的线性预测系数求取方法;也可以采用自适应加权谱内插的方法,首先计算该帧语音对应的频谱包络,再利用全极点模型拟合求解线性预测系数。计算时,可以根据语音信号采样率的不同而对参数阶数进行不同的设定;
2)线谱频率及其阶间差分参数的获得:将线性预测系数转换成对应阶数的线谱频率参数,同时,对相邻阶的线谱频率计算其差分值(差分参数),作为频谱参数提取结果的一部分,可以选择保留所有的阶间差分参数,也可以为了降低参数维数选择只保留较低阶的阶间差分参数,因为人耳对于语音低频区域更加敏感。本
2.对于各阶线谱频率及其阶间差分参数分别进行声学模型的训练,采用的模型为隐马尔可夫模型(Hidden Markov Model,HMM),在模型训练过程中,通过结合语音单元的上下文属性利用决策树对各参数对应的模型进行较为细致的分类,保证得到的声学模型可以实现依据上下文属性输入的参数预测;
3.合成阶段的语音增强处理
1)对用户输入的文本进行分析,利用分析得到的各语音单元对应的上下文属性输入训练得到的参数模型,预测合成时使用的各帧线谱频率及阶间差分参数,由于线谱频率和阶间差分参数是分别独立建模与预测的,所以预测得到的阶间差分参数与预测得到的线谱频率的实际阶间差分参数相比并不一致;
2)利用各帧预测得到的阶间差分参数依据下式对线谱频率进行调整:
l i ′ = l i - 1 + c i - 1 + c i - 1 2 c i - 1 2 + c i 2 [ ( l i + 1 - l i - 1 ) - ( c i + c i - 1 ) ]
其中,li,i=1,2,...,N为预测得到的当前帧第i阶的线谱频率,N为线谱频率参数的阶数;ci,i=1,2,...,M为预测得到的当前帧第i+1阶和第i阶线谱频率之间的阶间差分参数,M为阶间差分参数的阶数,M<N;l′i,i=1,2,...,N为调整后当前帧的N阶线谱频率。对于各阶线谱频率,可以选择从低阶(第2阶)到高阶(第M阶)的调整顺序,也可以选择从高阶(第M阶)到低阶(第2阶)的调整顺序,同时可以通过调整遍数来控制这种频谱峰值增强作用的强弱。
3)将调整后的线谱频率转换为线性预测系数,同时结合韵律预测模块生成的基音频率参数,送入线性预测滤波器,合成语音并输出。
图1:利用预测得到阶间差分对线谱频率调整后对应合成语音频谱的变化情况,以上为一帧合成语音/a/所对应的幅度谱,采样率为16kHz,线谱频率阶数为24,使用的阶间差分参数阶数为16,调整方法为由低阶向高阶调整一遍。

Claims (4)

1.基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,包括以下步骤:
(1)、对语音信号分帧求取线性预测系数;
(2)、线谱频率及其阶间差分参数的获得:将线性预测系数转换成对应阶数的线谱频率参数,同时,对相邻阶的线谱频率计算其差分参数;
(3)、对于各阶线谱频率及其阶间差分参数分别独立进行声学模型的训练,采用的模型为隐马尔可夫模型,在模型训练过程中,通过结合语音单元的上下文属性利用决策树对各参数对应的模型进行较为细致的分类,保证得到的声学模型均可以实现依据上下文属性输入的参数预测;
(4)、合成阶段的语音增强处理:
a、对用户输入的文本进行分析,利用分析得到的各语音单元对应的上下文属性输入训练得到的声学模型,预测合成时使用的各帧线谱频率及阶间差分参数,由于线谱频率和阶间差分参数是分别通过二个独立的声学模型预测的,所以预测得到的阶间差分参数与预测得到的线谱频率的实际阶间差分参数相比并不一致;
b、利用各帧预测得到的阶间差分参数依据下式对预测得到的线谱频率进行调整:
l i ′ = l i - 1 + c i - 1 + c i - 1 2 c i - 1 2 + c i 2 [ ( l i + 1 - l i - 1 ) - ( c i + c i - 1 ) ]
其中,li,i=1,2,...,N为预测得到的当前帧第i阶的线谱频率,N为线谱频率参数的阶数;ci,i=1,2,...,M为预测得到的当前帧第i+1阶和第i阶线谱频率之间的阶间差分参数,M为阶间差分参数的阶数,M<N;l′i,i=1,2,...,N为调整后当前帧的N阶线谱频率,对于各阶线谱频率,选择从低阶第2阶到高阶第M阶的调整顺序,或者选择从高阶第M阶到低阶第2阶的调整顺序,或者同时通过调整遍数来控制这种频谱峰值增强作用的强弱;
c、将调整后的线谱频率转换为线性预测系数,同时结合韵律预测模块生成的基音频率参数,送入线性预测滤波器,合成语音并输出。
2.根据权利要求1所述的方法,其特征在于对语音信号分帧求取线性预测系数是:通过固定帧移加窗乘取的方法获得各帧语音的短时信号波形,然后求取该帧信号对应的各阶线性预测系数,求取方法为基于时域波形自相关系数的线性预测系数求取方法;或者自适应加权谱内插的方法,首先计算该帧语音对应的频谱包络,再利用全极点模型拟合求解线性预测系数。
3.根据权利要求1所述的方法,其特征在于线谱频率及其阶间差分参数的获得过程中,选择保留所有的阶间差分参数,或者为了降低参数维数选择仅保留较低阶的阶间差分参数。
4.根据权利要求2所述的方法,其特征在于所述加窗是指高斯窗,窗宽为基音周期长度的两倍,帧移5毫秒。
CN200610038589A 2006-02-28 2006-02-28 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 Active CN1815552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610038589A CN1815552B (zh) 2006-02-28 2006-02-28 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610038589A CN1815552B (zh) 2006-02-28 2006-02-28 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法

Publications (2)

Publication Number Publication Date
CN1815552A CN1815552A (zh) 2006-08-09
CN1815552B true CN1815552B (zh) 2010-05-12

Family

ID=36907726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610038589A Active CN1815552B (zh) 2006-02-28 2006-02-28 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法

Country Status (1)

Country Link
CN (1) CN1815552B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887719A (zh) * 2010-06-30 2010-11-17 北京捷通华声语音技术有限公司 语音合成方法、系统及具有语音合成功能的移动终端设备
CN102214463A (zh) * 2011-06-01 2011-10-12 北京宇音天下科技有限公司 一种基于自适应加权谱内插系数的嵌入式语音合成方法
CN102231275B (zh) * 2011-06-01 2013-10-16 北京宇音天下科技有限公司 一种基于加权混合激励的嵌入式语音合成方法
EP3399522B1 (en) * 2013-07-18 2019-09-11 Nippon Telegraph and Telephone Corporation Linear prediction analysis device, method, program, and storage medium
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
CN106486129B (zh) 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
CN109308894A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于Bloomfield’s模型的语音建模方法
CN110559014B (zh) * 2019-08-28 2021-10-26 华南理工大学 基于探头补偿的分数阶傅里叶变换回波成像方法与系统
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN112562701B (zh) * 2020-11-16 2023-03-28 华南理工大学 心音信号双通道自适应降噪算法、装置、介质及设备
CN113053351B (zh) * 2021-03-14 2024-01-30 西北工业大学 一种基于听觉感知的飞机舱内噪声合成方法
CN113096636B (zh) * 2021-06-08 2022-02-11 北京世纪好未来教育科技有限公司 语音合成装置、方法、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0852376A2 (en) * 1997-01-02 1998-07-08 Texas Instruments Incorporated Improved multimodal code-excited linear prediction (CELP) coder and method
US6205423B1 (en) * 1998-01-13 2001-03-20 Conexant Systems, Inc. Method for coding speech containing noise-like speech periods and/or having background noise
CN1667703A (zh) * 2003-12-18 2005-09-14 诺基亚公司 编码域中的音频增强

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0852376A2 (en) * 1997-01-02 1998-07-08 Texas Instruments Incorporated Improved multimodal code-excited linear prediction (CELP) coder and method
US6205423B1 (en) * 1998-01-13 2001-03-20 Conexant Systems, Inc. Method for coding speech containing noise-like speech periods and/or having background noise
CN1667703A (zh) * 2003-12-18 2005-09-14 诺基亚公司 编码域中的音频增强

Also Published As

Publication number Publication date
CN1815552A (zh) 2006-08-09

Similar Documents

Publication Publication Date Title
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
Erro et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis
EP2881947B1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
CN103928023B (zh) 一种语音评分方法及系统
Yu et al. Continuous F0 modeling for HMM based statistical parametric speech synthesis
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
Gobl et al. 11 voice source variation and its communicative functions
Garner et al. A simple continuous pitch estimation algorithm
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
Suni et al. The GlottHMM speech synthesis entry for Blizzard Challenge 2010
CN102201234A (zh) 一种基于音调自动标注及预测的语音合成方法
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换系统
CN103915093A (zh) 一种实现语音歌唱化的方法和装置
Raitio et al. HMM-based Finnish text-to-speech system utilizing glottal inverse filtering.
Katsir et al. Speech bandwidth extension based on speech phonetic content and speaker vocal tract shape estimation
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
CN102231275B (zh) 一种基于加权混合激励的嵌入式语音合成方法
CN101441868B (zh) 基于特征转换规则的汉语耳语音向自然语音实时转换方法
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Shuang et al. A novel voice conversion system based on codebook mapping with phoneme-tied weighting
Jayasankar et al. Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis
Narendra et al. Parameterization of excitation signal for improving the quality of HMM-based speech synthesis system
Narendra et al. Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CI01 Correction of invention patent gazette

Correction item: Inventor second inventor

Correct: Wang Yuping

False: Wang Yuhua

Number: 32

Page: 448

Volume: 22

CI02 Correction of invention patent application

Correction item: Inventor second inventor

Correct: Wang Yuping

False: Wang Yuhua

Number: 32

Page: The title page

Volume: 22

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR ^ THE SECOND INVENTOR; FROM: ^ WANG YUHUA TO: ^ WANG YUPING

ERR Gazette correction

Free format text: CORRECT: INVENTOR ^ THE SECOND INVENTOR; FROM: ^ WANG YUHUA TO: ^ WANG YUPING

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ANHUI USTC IFLYTEK CO., LTD.

Free format text: FORMER NAME: ZHONGKEDA XUNFEI INFORMATION SCIENCE +. TECHNOLOGY CO., LTD., ANHUI PROV.

CP01 Change in the name or title of a patent holder

Address after: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee after: Anhui USTC iFLYTEK Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee before: Zhongkeda Xunfei Information Science &. Technology Co., Ltd., Anhui Prov.

C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee before: Anhui USTC iFLYTEK Co., Ltd.