CN102930863B - 一种基于简化自适应内插加权谱模型的语音转换及重构方法 - Google Patents
一种基于简化自适应内插加权谱模型的语音转换及重构方法 Download PDFInfo
- Publication number
- CN102930863B CN102930863B CN201210401029.1A CN201210401029A CN102930863B CN 102930863 B CN102930863 B CN 102930863B CN 201210401029 A CN201210401029 A CN 201210401029A CN 102930863 B CN102930863 B CN 102930863B
- Authority
- CN
- China
- Prior art keywords
- sigma
- periodic
- power spectrum
- parameter
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于简化自适应内插加权谱模型的语音转换及重构方法。在语音分析阶段省略了非周期成分的提取过程,从而简化并避免了非周期成分参数的输出。同时,在语音合成阶段又基于平滑功率谱参数建立高斯混合模型,对非周期成分参数进行估计和重构,从而满足原传统模型的输入参数要求。该简化模型与传统模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。此外,由于在分析阶段中省略了复杂的非周期成分提取过程,使得简化方法模型的计算量大为减小。
Description
技术领域
本发明属于语音信号处理技术领域,涉及一种语音转换和重构模型,特别涉及一种基于自适应内插加权谱的语音转换及重构(STRAIGHT)模型。
背景技术
语音参数化和重构是一个重要且具有一定挑战性的问题。其对应的语音分析-合成系统被广泛用于各种应用,如语音编码,转换等。在H.Kawahara,I.M.Katsuse,A.d.Cheveigne,“Restructuring speech representations using a pitchadaptive time-frequency smoothing and an instantaneous-frequency-based F0extraction:Possible role of a repetitive structure in sounds,”J.SpeechCommunication,vol.27,no.3-4,pp.187–207,April.1999发表的文献中表明,基于自适应内插加权谱的语音转换及重构(Speech Transformati on andRepresentation using Adaptive Interpolation of weiGHTed spectrum,STRAIGHT)模型,抛弃了传统语音模型中声门、声道的构造,直接提取语音的功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模型,广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源滤波器的思想来表征语音信号,把语音信号看作激励信号通过时变线性滤波器后输出的结果。在分析得到各帧的语音功率谱后,对该功率谱进行时频域上的平滑处理,同时在时间轴和频率轴上进行过采样,保证合成阶段对语音的高质量重构。
STRAIGHT模型本身也存在一些缺陷。STRAIGHT模型一开始是针对宽带语音合成提出的,其在多方面进行了较为精密的计算。如在非周期成分参数的提取过程中就包含相位弯曲映射,功率谱计算,功率谱上下边包络提取,上下边包络等价直角带宽(ERB)域计算,下边包络增强等一系列复杂的计算。因此,STRAIGHT模型的高计算量成为制约该模型进一步应用和发展的一个重要问题。
发明内容
本发明的目的是实现在保持合成语音质量基本不变的同时,使STRAIGHT模型输出参数种类个数的减少,减小STRAIGHT模型计算量,简化非周期成分参数的分析和输出。
本发明的技术方案从以下方面考虑:STRAIGHT模型是一种基于功率谱的语音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱,而非周期成分参数为对功率谱上下边包络处理后所提取的参数。从本质上说,两者都是原始功率谱的一种表现形式,存在一定相关性,因此可通过GMM模型构建两者的相关性,并最终达到从平滑功率谱参数中估计出非周期成分参数的目的。
本发明的主要技术内容如下:
一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于,在分析部分省略了原STRAIGHT模型中的非周期成分参数提取模块,在合成部分增加非周期成分参数重构过程。
所述的非周期成分参数重构过程,其包括美尔倒谱系数(MFCC)获取模块,高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块,非周期成分分类及其估计模块。
所述的非周期成分参数重构过程,包含以下步骤:
(1)、训练阶段:
(1a)、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集{Pi(w)},1≤i≤T,获得对应的美尔倒谱MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)},Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换,T为语音总帧数;
(1b)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录GMM中的各状态参数,备重构阶段使用;
对于高斯混合模型GMM,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概率分布p(x)为:
其中,Q,αq分别为高斯成分数量及对应权重系数,μq,∑q分别为第q个D维高斯正态分布N(x;μq;∑q)的均值和协方差矩阵,1≤q≤Q,正态分布N(x;μq;∑q)定义为:
对第i个输入参数xi,利用最大期望值EM算法的更新准则:
其中,βq(xi)为xi所属为第q类时的后验概率,αj,μj,∑j分别对应为第j个高斯成分的权重系数,第j个D维高斯正态分布N(x;μj;∑j)的均值和协方差矩阵;
(1c)、美尔倒谱系数分类模块中,对输入美尔倒谱系数MFCC集按高斯混合模型GMM中的最大后验概率准则进行分类;对输入参数xi=Mi,则将Mi分入第J类,准则为在所有的类中,1≤q≤Q,寻找后验概率最大的βq(xi),获取此时对应的q,并将q的数值赋给J,即
(1d)、平滑功率谱分类模块中,对与美尔倒谱系数MFCC相对应的各平滑功率谱参数进行分类,若美尔倒谱系数MFCC的Mi分入第J类,则对应的平滑功率谱参数Pi(w)也分入第J类;
(1e)、非周期成分分类及其估计模块中,对与平滑功率谱参数Pi(w)相对应的训练非周期成分参数api进行分类,计算各类的中心数值,并作为各类非周期成分参数的估计值,若平滑功率谱参数Pi(w)分入第J类,则对应的非周期成分参数api也分入第J类,其第J类的非周期成分的中心数值为
(2)、重构阶段:
(2a)、在美尔倒谱系数MFCC获取模块中输入所需重构的非周期成分参数对应的平滑功率谱参数Pi(w),获得对应的MFCC系数Mi;
(2b)、在高斯混合模型GMM模块中,对输入MFCC系数,xi=Mi,计算各高斯成分所对应的概率
(2d)、平滑功率谱分类模块中,对与MFCC系数Mi相对应的平滑功率谱参数Pi(w)确定其所属第J类;
本发明所达到的有益效果:
本发明将高斯混合模型(GMM)与简化的自适应内插加权谱的语音转换及重构(STRAIGHT)模型相结合,利用语音平滑功率谱和非周期成分的相关性,通过平滑功率谱对非周期成分进行估计和重构。该简化STRAIGHT模型与传统模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。此外,由于在分析阶段中省略了复杂的非周期成分提取过程,使得简化模型的计算量大为减小。
附图说明
图1是本发明的一种基于非周期成分参数简化的基于自适应内插加权谱的语音转换及重构模型的框架图,图(a)是分析部分,图(b)是合成部分;
图2是本发明的基于语音平滑功率谱的非周期成分估计框图;
图3是本发明中对男女声合成语音的语谱图;
图4是本发明中不同高斯成分数目时合成语音质量统计图。
具体实施方式
下面结合附图,对本发明的一种基于非周期成分参数简化的基于自适应内插加权谱的语音转换及重构(STRAIGHT)模型作进一步阐述。
如图1所示,一种基于非周期成分参数简化的自适应内插加权谱的语音转换及重构(STRAIGHT)模型。其在分析部分简化并省略了原STRAIGHT模型中的非周期成分参数提取模块,在合成部分增加非周期成分参数重构模块。
如图2所示,非周期成分参数重构模块,其包括美尔倒谱系数(MFCC)获取模块,高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块,非周期成分分类及其估计模块。
如图2所示,所述的非周期成分参数重构模块,包含以下步骤:
(1)、训练阶段(实线及虚线流程部分):
(1a)、在美尔倒谱系数(MFCC)获取模块中输入平滑功率谱参数的训练集{Pi(w)},1≤i≤T,获得对应的MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)},Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换,MFCC系数的个数取为20;
(1b)、在高斯混合模型(GMM)模块中对MFCC系数集采用进行最大期望值(EM)算法训练,更新GMM中各状态参数,直至参数稳定为止,并记录GMM中的各状态参数,备重构阶段使用;
对于GMM模型,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概率分布p(x)为:
其中,Q,αq分别为高斯成分数量及对应权重系数,Q=150,μq,∑q分别为第q个D维高斯正态分布N(x;μq;∑q)的均值和协方差矩阵,1≤q≤Q,正态分布N(x;μq;∑q)定义为:
其中,(.)T和(.)-1分
别代表矩阵转置和求逆。
则利用EM算法的更新准则:
其中,βq(xi)为xi所属为第q类时的后验概率,αj,μj,∑j分别对应为第j个高斯成分的权重系数,第j个D维高斯正态分布N(x;μj;∑j)的均值和协方差矩阵;
(1c)、美尔倒谱系数分类模块中,对输入MFCC系数集按GMM中的最大后验概率准则进行分类;对输入参数xi=Mi,则将其分入第J类,准则为
(1d)、平滑功率谱分类模块中,对与MFCC系数相对应的各平滑功率谱参数进行分类。若MFCC系数Mi分入第J类,则对应的平滑功率谱参数Pi(w)也分入第J类;
(1e)、非周期成分分类及其估计模块中,对与平滑功率谱参数相对应的训练非周期成分参数进行分类,计算各类的中心的数值,并作为各类非周期成分参数的估计值。若平滑功率谱参数Pi(w)分入第J类,则对应的非周期成分参数api也分入第J类。其第J类的非周期成分的中心为
(2)、重构阶段(实线流程部分):
(2a)、在美尔倒谱系数(MFCC)获取模块中输入所需重构的非周期成分参数对应的平滑功率谱参数Pi(w),获得对应的MFCC系数Mi;
(2b)、在高斯混合模型(GMM)模块中,对输入MFCC系数,xi=Mi,计算各高斯成分所对应的概率,
(2d)、平滑功率谱分类模块中,对与MFCC系数Mi相对应的平滑功率谱参数Pi(w)确定其所属第J类;
本发明的效果可以通过以下实验进一步说明:
1)实验条件
本实验采用TIMIT语音库中语音作为实验数据,语音采样速率为8kHz,语音帧长为30ms,帧移位1ms,频谱分析采用1024点的快速傅里叶变换。采用MatlabR2010a作为仿真工具,计算机配置为Intel酷睿i2410/2G。
2)实验内容
分别利用原STRAIGHT模型和本发明的简化的STRAIGHT模型,对男女声语音进行语音参数分解和基于该参数的语音合成。其中,原STRAIGHT模型分解出的语音参数为基音,平滑功率谱和非周期成分三参数,简化的STRAIGHT模型分解出的语音参数为基音和平滑功率谱两参数。
首先,对合成男女声语音进行语谱图比较,结果如图3所示,其中图3(a),(d)分别为原始男﹑女声语音,图3(b),(e)分别为原STRAIGHT模型的合成语音,图3(c),(f)分别为简化的STRAIGHT模型的合成语音,其中GMM中高斯成分数目设为150;
其次,对不同高斯成分数目时的男女声合成语音质量比较,结果如图4所示。
3)实验结果分析
从图3可以看出,本发明由于进行了非周期成分估计,使得语音的谐波性能增强,如图中画圈处指示。对于谐波性较强且规律的男声语音,本发明能增强其语音质量;对于谐波性变化较大的女声语音,谐波性能增强可能使得女生合成语音变得机械,因此本发明产生的女生语音质量可能略差与原STRAIGHT模型产生的女生语音;
从图4可以看出,在不同的高斯成分数目时,本发明的简化STRAIGHT模型合成语音质量的性能不同,对男女声的合成质量也有所差异。语音质量的评定采用语音感受质量评估(PESQ)为客观评价指标。图中可见,对于男声语音,采用150个高斯成分重构非周期成分参数时,其合成语音质量最佳,比原STRAIGHT模型高出约0.1左右。其后,因为GMM产生了过适应(over-fitting)问题,高斯成分数目的增加反而造成了语音质量的下降。对于女声语音,本发明的简化的模型合成语音质量略差于原STRAIGHT模型,但随着高斯成分的增加,其合成质量性能趋近于原STRAIGHT模型。这是由于女声语音的频谱动态变化范围较大,较少的高斯成分数目很难通过平滑功率谱对非周期成分进行准确分类,从而影响的合成语音质量。但总体说来,本发明的简化STRAIGHT模型与原传统模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (1)
1.一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于,包括非周期成分参数重构过程,所述的非周期成分参数重构过程,包含以下步骤:
(1)、训练阶段:
(1a)、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集{Pi(w)},1≤i≤T,获得对应的美尔倒谱MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)},Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换,T为语音总帧数;
(1b)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录高斯混合模型GMM中的各状态参数,备重构阶段使用;
对于高斯混合模型GMM,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概率分布p(x)为:
其中,Q,αq分别为高斯成分数量及对应权重系数,μq,Σq分别为第q个D维高斯正态分布N(x;μq;Σq)的均值和协方差矩阵,1≤q≤Q,正态分布N(x;μq;Σq)定义为:
其中,(.)T和(.)-1分别代表矩阵转置和求逆,
对第i个输入参数xi,利用最大期望值EM算法进行更新,更新准则:
其中,βq(xi)为xi所属为第q类时的后验概率,αj,μj,Σj分别对应为第j个高斯成分的权重系数,第j个D维高斯正态分布N(x;μj;Σj)的均值和协方差矩阵;
(1c)、美尔倒谱系数分类模块中,对输入美尔倒谱系数MFCC集按高斯混合模型GMM中的最大后验概率准则进行分类;对输入参数xi=Mi,则将Mi分入第J类,准则为在所有的类中,1≤q≤Q,寻找后验概率最大的βq(xi),获取此时对应的q,并将q的数值赋给J,即
(1d)、平滑功率谱分类模块中,对与美尔倒谱系数MFCC相对应的各平滑功率谱参数进行分类,若美尔倒谱系数MFCC的Mi分入第J类,则对应的平滑功率谱参数Pi(w)也分入第J类;
(1e)、非周期成分分类及其估计模块中,对与平滑功率谱参数Pi(w)相对应的训练非周期成分参数api进行分类,计算各类的中心数值,并作为各类非周期成分参数的估计值,若平滑功率谱参数Pi(w)分入第J类,则对应的非周期成分参数api也分入第J类,其第J类的非周期成分的中心数值为
(2)、重构阶段:
(2a)、在美尔倒谱系数MFCC获取模块中输入所需重构的非周期成分参数对应的平滑功率谱参数Pi(w),获得对应的MFCC系数Mi;
(2b)、在高斯混合模型GMM模块中,对输入MFCC系数,xi=Mi,计算各高斯成分所对应的概率
(2c)、美尔倒谱系数分类模块中,对输入MFCC系数Mi按GMM中的最大后验概率确定其所属第J类,
(2d)、平滑功率谱分类模块中,对与MFCC系数Mi相对应的平滑功率谱参数Pi(w)确定其所属第J类;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210401029.1A CN102930863B (zh) | 2012-10-19 | 2012-10-19 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210401029.1A CN102930863B (zh) | 2012-10-19 | 2012-10-19 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930863A CN102930863A (zh) | 2013-02-13 |
CN102930863B true CN102930863B (zh) | 2014-05-28 |
Family
ID=47645645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210401029.1A Expired - Fee Related CN102930863B (zh) | 2012-10-19 | 2012-10-19 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930863B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345920B (zh) * | 2013-05-29 | 2015-07-15 | 河海大学常州校区 | 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 |
CN103886859B (zh) * | 2014-02-14 | 2016-08-17 | 河海大学常州校区 | 基于一对多码书映射的语音转换方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN106782599A (zh) * | 2016-12-21 | 2017-05-31 | 河海大学常州校区 | 基于高斯过程输出后滤波的语音转换方法 |
CN107993672B (zh) * | 2017-12-12 | 2020-07-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 频带扩展方法及装置 |
CN109358317B (zh) * | 2018-09-30 | 2021-06-08 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1055193A (ja) * | 1996-08-13 | 1998-02-24 | Meidensha Corp | 音声分析方法 |
JP2000010595A (ja) * | 1998-06-17 | 2000-01-14 | Yamaha Corp | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
JP2000352991A (ja) * | 1999-06-14 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル補正機能つき音声合成器 |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN101751922B (zh) * | 2009-07-22 | 2011-12-07 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN102610236A (zh) * | 2012-02-29 | 2012-07-25 | 山东大学 | 一种改善喉振话筒语音音质的方法 |
-
2012
- 2012-10-19 CN CN201210401029.1A patent/CN102930863B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1055193A (ja) * | 1996-08-13 | 1998-02-24 | Meidensha Corp | 音声分析方法 |
JP2000010595A (ja) * | 1998-06-17 | 2000-01-14 | Yamaha Corp | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
JP2000352991A (ja) * | 1999-06-14 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル補正機能つき音声合成器 |
CN101751922B (zh) * | 2009-07-22 | 2011-12-07 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN102610236A (zh) * | 2012-02-29 | 2012-07-25 | 山东大学 | 一种改善喉振话筒语音音质的方法 |
Non-Patent Citations (2)
Title |
---|
徐宁等.高合成质量的语音转换系统.《应用科学学报》.2008,全文. |
高合成质量的语音转换系统;徐宁等;《应用科学学报》;20080430;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102930863A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102930863B (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN110060701A (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN103280224B (zh) | 基于自适应算法的非对称语料库条件下的语音转换方法 | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN110428849A (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN103531205A (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN105023580A (zh) | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 | |
CN103559888A (zh) | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 | |
CN102496363A (zh) | 一种用于汉语语音合成的音调修正方法 | |
CN107293306B (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN1186765C (zh) | 2.3kb/s谐波激励线性预测语音编码方法 | |
CN102945670A (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
CN103345920B (zh) | 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 | |
CN110648684A (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
Dua et al. | Discriminative training using heterogeneous feature vector for Hindi automatic speech recognition system | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140528 Termination date: 20161019 |
|
CF01 | Termination of patent right due to non-payment of annual fee |