CN110189765A - 基于频谱形状的语音特征估计方法 - Google Patents
基于频谱形状的语音特征估计方法 Download PDFInfo
- Publication number
- CN110189765A CN110189765A CN201910341806.XA CN201910341806A CN110189765A CN 110189765 A CN110189765 A CN 110189765A CN 201910341806 A CN201910341806 A CN 201910341806A CN 110189765 A CN110189765 A CN 110189765A
- Authority
- CN
- China
- Prior art keywords
- voice
- distance
- frame
- frequency
- phonetic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003595 spectral effect Effects 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000013519 translation Methods 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于频谱形状的语音特征估计方法,对获取的未过滤的语音信号,将时序上连续的N个采样点集合成一个帧,将每一帧乘以帧窗口,语音信号被分为以帧窗口为单位的语音段;每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和;利用每个语音段的短期幅度谱,计算语音距离;将滤波器组信道内的频率分量相关联的语音距离进行求和,并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权,得到滤波后的语音距离;将所有语音段滤波后的语音距离,作为语音特征的表达。利用本方法估计的浊音特征和对噪声的先验知识,可以获得更高的识别精度。
Description
技术领域
本发明属于语音辨识领域,具体涉及一种基于频谱形状的语音特征估计方法。
背景技术
语音编码技术在最近几年发展迅速,目前国际上许多研究机构正在集中研究语音编码算法和分析语音频谱特征。语音是通过声道滤波器传递源信号而产生的。在目前的语音转化为文本(ASR)系统中,只使用通过估计短期频域包络线得到的声道信息。短期谱也反映了源信号的信息:浊音具有谐波结构的特征,而清音具有随机频谱特征此,估计一个短期频谱区域是否具有谐波或随机特征,可以为开发更合适的语音模式处理技术提供信息。谐波/随机字符的频谱区域称为浊音/清音,它的估计称为语音字符(VC)估计。传统的VC是通过基频(F0)谐波的原始频谱与合成频谱的拟合程度来估计的,它们不考虑噪声对语音的破坏,这在噪声语音中很难准确估计。
发明内容
本发明要解决的技术问题是:提供一种基于频谱形状的语音特征估计方法,可以不需要基频,能够在噪声环境中获得更加准确的语音频谱特征值。
本发明为解决上述技术问题所采取的技术方案为:一种基于频谱形状的语音特征估计方法,其特征在于:它包括以下步骤:
S1、短期幅度谱计算:
对获取的未过滤的语音信号,将时序上连续的N个采样点集合成一个观测单位,称为帧,再将每一帧乘以帧窗口,语音信号被分为以帧窗口为单位的语音段;每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和;
S2、语音距离计算:
利用每个语音段的短期幅度谱,计算语音距离;给定频率指数附近的信号,短期幅度谱的形状与帧窗口的幅度谱形状之间的相似性,称为语音距离;
S3、滤波器组通道计算:
将滤波器组信道内的频率分量相关联的语音距离进行求和,并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权,得到滤波后的语音距离;
将所有语音段滤波后的语音距离,作为语音特征的表达。
按上述方法,所述的帧窗口W(ω)的形式如下:
式中a为预设值,不同的a值产生不同的帧窗口;N为每一帧的总采样点数;ω为帧的大小;
所述的短期幅度谱S(ω)公式为:
式中,ω0表示的是基频,最高振幅|Ah|表示对Ah进行求模运算,表示谐波分量的振幅,φh表示相位,h为谐波分量的次数;H为谐波分量的总次数。
按上述方法,所述的S2得到的语音距离vd(ki)具体为:
式中,M为用于比较的vd(ki)周围每边频谱的数量;m为帧的大小;ki为频率指标。
按上述方法,所述的ki通过以下方法得到:
检测|S(ki)|斜率由正到负的变化,计算语音距离的频率指标ki,使ki与谱峰对应。
按上述方法,所述的ki通过以下方法得到:ki与成倍数关系,的估计值为
其中Hk0是对应的谐波数,k0表示的是第k0次谐波数的频率指标,为频率指标,argmin f(x)函数表示的是函数f(x)取值最小值时的自变量取值,最小值是k0对应的最低和最高基频。
按上述方法,所述的S3得到滤波后的语音距离vdfb(b)公式为:
式中Gb(k)为滤波器组通道b的频率响应;kb和Kb分别为频率响应的最低频率分量和分量个数;即,整体滤波器组通道能量值;得到式(5)中每个频率分量的VD值即,滤波后的语音距离vdfb(b)。
按上述方法,所述的S2和/或S3中,采用二维的中值滤波器进行过滤,消除未发生区域的异常值。
本发明的有益效果为:在计算信号形状之间的短期距离的基础上,估语音特征的短期幅度频谱和帧窗口的频谱;本方法在噪声环境下具有更准确的语音特征估计值,利用该方法估计的浊音特征和对噪声的先验知识,可以获得更高的识别精度。
附图说明
图1为不同音谱数量M下快速傅里叶变换长度的语音分类误差图。
图2为矩形窗(Rect)、布莱克曼-哈里斯窗(BH)和汉明窗(Hamming)的误差图。
图3位VD滤波对语音检测误差的影响图。
图4为VD在所有谱峰(全谱)和估计谐波(虚线)处计算时,得到FB信道语音分类的误差(local SNRs表示噪声比)图。
图5为语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数,所有音谱的局部噪声比图。
图6为语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数,所有音谱的全局噪声比图。
图7为本发明一实施例的方法流程图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
本发明提供一种基于频谱形状的语音特征估计方法,如图7所示,包括以下步骤:
S1、短期幅度谱计算:
对获取的未过滤的语音信号,将时序上连续的N个采样点集合成一个观测单位,称为帧,再将每一帧乘以帧窗口,以增加帧左端和右端的连续性。语音信号被分为以帧窗口为单位的语音段。帧窗口W(ω)的形式如下:
式中a为预设值,不同的a值产生不同的帧窗口,一般情况下a取0.46;N为每一帧的总采样点数;ω为帧的大小;
基于产生浊音语音的源信号的准周期性,每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和,公式为:
式中,ω0表示的是基频,最高振幅|Ah|表示对Ah进行求模运算,表示谐波分量(即正弦波)的振幅,φh表示相位,h为谐波分量的次数;H为谐波分量的总次数
考虑到相邻谐波相对应的主瓣很好地分离(即,基频不是非常低),并且旁瓣的幅度远低于主瓣的幅度(即,旁瓣的影响可忽略不计)。每个谐波频率周围的浊音语音的幅度形状应大致与帧窗口W(ω)的幅度谱的形状相同。
S2、语音距离计算:
利用每个语音段的短期幅度谱,计算语音距离;给定频率指数附近的信号,短期幅度谱的形状与帧窗口的幅度谱形状之间的相似性,称为语音距离;具体地说,我们使用幅度谱之间的欧几里得距离,即,
式中,M为用于比较的vd(ki)周围每边频谱的数量;m为帧的大小;ki为频率指标。
所述的ki通过以下方法得到:检测|S(ki)|斜率由正到负的变化,计算语音距离的频率指标ki,使ki与谱峰对应。
所述的ki也可以通过以下方法得到:ki与成倍数关系,的估计值为
其中Hk0是对应的谐波数,k0为第k0次谐波数的频率指标,为频率指标,argmin f(x)函数表示的是函数f(x)取值最小值时的自变量取值,最小值是k0对应的最低和最高基频。
S3、滤波器组通道计算:
将滤波器组信道内的频率分量相关联的语音距离进行求和,并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权,得到滤波后的语音距离vdfb(b),公式为:
式中Gb(k)为滤波器组通道b的频率响应;kb和Kb分别为频率响应的最低频率分量和分量个数;即,整体滤波器组通道能量值;得到式(5)中每个频率分量的VD值即,滤波后的语音距离vdfb(b)。
将所有语音段滤波后的语音距离,作为语音特征的表达。
所述的S2和/或S3中,得到的语音距离,对于未发声区域可能会意外地变成一个低值,反之亦然,即导致局部异常值。这可以通过过滤的方式来解决。由于寻找最优滤波器并不是本发明的目标,因此采用了二维的中值滤波器来消除异常值,且简单有效。滤波器可以对vd(k)和vdfb(k)值进行滤波。中值滤波器的大小分别为5×9和3×3(第一个数字是帧)。
本发明是在计算信号形状之间的短期距离的基础上,估语音特征的短期幅度频谱和帧窗口的频谱。相较于传统的语音字符(VC)估计,本方法在噪声环境下具有更准确的语音特征估计值,利用该方法估计的浊音特征和对噪声的先验知识,可以获得更高的识别精度。
以某一语音特征估计为例,探讨语音距离VD与局部信噪比之间的关系。语音信号采样在8000Hz,信号被分成256个采样帧(重叠80个采样帧)。利用快速傅里叶变换(FFT)得到的短时幅度谱,应用于20通道的滤波器组FB分析。定义每个滤波器组FB通道的局部信噪比为log10(XS/XN),其中XS为洁净信号FB能量,XN为噪声FB能量。在模拟的浊音语音信号中加入白噪声,经过一个频率为F0倍数的正弦波和的信号经过一个与中性元音相对应的滤波器后合成。F0的值设置为90到300Hz。
首先对不同的快速傅里叶变换长度和频谱数量M进行试验,利用汉明框架窗口函数,计算每个谱峰处的语音距离VD,并对vd(ki)和vdfb(b)进行滤波。使用快速傅里叶变换长度分别为512、1024和2048点,音谱数量M对应于每个快速傅里叶变换长度大小的4、8和16。按照上述步骤,可以得到不同音谱数量M下快速傅里叶变换长度的语音分类误差如图1所示,从图1中可以看出运用该方法得到的语音特征在F0大于120hz时,M=3和4的错误率相似,而当F0较低时,M=4的错误率急剧增加;矩形窗(Rect)、布莱克曼-哈里斯窗(BH)和汉明窗(Hamming)的误差如图2所示,从图2可以看出,采用不同窗口对语音进行加窗处理并运用该方法得到的语音特征在较低F0,矩形窗(Rect)和布莱克曼-哈里斯窗(BH)误差较大,而对于较低的F0,汉明窗(Hamming)总体误差较小;VD滤波对语音检测误差的影响如图3所示,从图3可以看出,采用中值滤波的vd(ki)和vdfb(b)可以显著降低误差;VD在所有谱峰(全谱)和估计谐波(虚线)处计算时,得到FB信道语音分类的误差如图4所示,从图4可以看出,在局部信噪比较低的情况下,对估计谐波计算VD可以减小噪声条件下的误差;语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数,所有音谱的局部和全局噪声比,分别如图5和图6所示,从图5和6可以看出,本发明提出的语音特征估计方法在使用所有谱峰时得到的语音特征估计结果,用白噪声破坏语音的拒绝率和误识率误差表示为局部和全局信噪比的函数,且局部噪声比函数的误识率较低。以上实验充分验证了本发明提出的方法的有效性。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (7)
1.一种基于频谱形状的语音特征估计方法,其特征在于:它包括以下步骤:
S1、短期幅度谱计算:
对获取的未过滤的语音信号,将时序上连续的N个采样点集合成一个观测单位,称为帧,再将每一帧乘以帧窗口,语音信号被分为以帧窗口为单位的语音段;每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和;
S2、语音距离计算:
利用每个语音段的短期幅度谱,计算语音距离;给定频率指数附近的信号,短期幅度谱的形状与帧窗口的幅度谱形状之间的相似性,称为语音距离;
S3、滤波器组通道计算:
将滤波器组信道内的频率分量相关联的语音距离进行求和,并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权,得到滤波后的语音距离;
将所有语音段滤波后的语音距离,作为语音特征的表达。
2.根据权利要求1所述的基于频谱形状的语音特征估计方法,其特征在于:所述的帧窗口W(ω)的形式如下:
式中a为预设值,不同的a值产生不同的帧窗口;N为每一帧的总采样点数;ω为帧的大小;
所述的短期幅度谱S(ω)公式为:
式中,ω0表示的是基频,最高振幅|Ah|表示对Ah进行求模运算,表示谐波分量的振幅,φh表示相位,h为谐波分量的次数;H为谐波分量的总次数。
3.根据权利要求2所述的基于频谱形状的语音特征估计方法,其特征在于:所述的S2得到的语音距离vd(ki)具体为:
式中,M为用于比较的vd(ki)周围每边频谱的数量;m为帧的大小;ki为频率指标。
4.根据权利要求3所述的基于频谱形状的语音特征估计方法,其特征在于:所述的ki通过以下方法得到:
检测|S(ki)|斜率由正到负的变化,计算语音距离的频率指标ki,使ki与谱峰对应。
5.根据权利要求3所述的基于频谱形状的语音特征估计方法,其特征在于:所述的ki通过以下方法得到:ki与成倍数关系,的估计值为
其中Hk0是对应的谐波数,k0表示的是第k0次谐波数的频率指标,为频率指标,argminf(x)函数表示的是函数f(x)取值最小值时的自变量取值,最小值是k0对应的最低和最高基频。
6.根据权利要求4或5所述的基于频谱形状的语音特征估计方法,其特征在于:所述的S3得到滤波后的语音距离vdfb(b)公式为:
式中Gb(k)为滤波器组通道b的频率响应;kb和Kb分别为频率响应的最低频率分量和分量个数;即,整体滤波器组通道能量值;得到式(5)中每个频率分量的VD值,即,滤波后的语音距离vdfb(b)。
7.根据权利要求1至5中任意一项所述的基于频谱形状的语音特征估计方法,其特征在于:所述的S2和/或S3中,采用二维的中值滤波器进行过滤,消除未发生区域的异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910341806.XA CN110189765B (zh) | 2019-04-25 | 2019-04-25 | 基于频谱形状的语音特征估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910341806.XA CN110189765B (zh) | 2019-04-25 | 2019-04-25 | 基于频谱形状的语音特征估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110189765A true CN110189765A (zh) | 2019-08-30 |
CN110189765B CN110189765B (zh) | 2021-08-20 |
Family
ID=67715158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910341806.XA Active CN110189765B (zh) | 2019-04-25 | 2019-04-25 | 基于频谱形状的语音特征估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110189765B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003173195A (ja) * | 2001-09-28 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体 |
CN103310800A (zh) * | 2012-03-06 | 2013-09-18 | 中国科学院声学研究所 | 一种抗噪声干扰的浊语音检测方法及系统 |
CN103985390A (zh) * | 2014-05-20 | 2014-08-13 | 北京安慧音通科技有限责任公司 | 一种基于伽马通相关图语音特征参数提取方法 |
CN108520759A (zh) * | 2018-04-13 | 2018-09-11 | 吉林大学 | 用于帕金森病语音检测的时频特征图像提取方法 |
-
2019
- 2019-04-25 CN CN201910341806.XA patent/CN110189765B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003173195A (ja) * | 2001-09-28 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体 |
CN103310800A (zh) * | 2012-03-06 | 2013-09-18 | 中国科学院声学研究所 | 一种抗噪声干扰的浊语音检测方法及系统 |
CN103985390A (zh) * | 2014-05-20 | 2014-08-13 | 北京安慧音通科技有限责任公司 | 一种基于伽马通相关图语音特征参数提取方法 |
CN108520759A (zh) * | 2018-04-13 | 2018-09-11 | 吉林大学 | 用于帕金森病语音检测的时频特征图像提取方法 |
Non-Patent Citations (2)
Title |
---|
曾毓敏,吴振扬: "《基于浊音语音谐波谱子带加权重建的抗噪声说话人识别", 《东南大学学报》 * |
黄学东; 方棣棠; 胡起秀: "几种语音特征抽取方法和距离量度的实验研究", 《计算机应用与软件》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110189765B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Skowronski et al. | Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition | |
Yegnanarayana et al. | Processing of reverberant speech for time-delay estimation | |
CN106971740B (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN102054480B (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
Meyer et al. | Comparing different flavors of spectro-temporal features for ASR | |
CN103077728A (zh) | 一种病人虚弱语音端点检测方法 | |
CN107424625A (zh) | 一种基于向量机框架的多通道语音活动检测方法 | |
Hsu et al. | Voice activity detection based on frequency modulation of harmonics | |
Hung et al. | Robust speech recognition via enhancing the complex-valued acoustic spectrum in modulation domain | |
Nayak et al. | An investigation into instantaneous frequency estimation methods for improved speech recognition features | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
CN102737645A (zh) | 一种语音信号的基音周期估计算法 | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
Jamaludin et al. | An improved time domain pitch detection algorithm for pathological voice | |
Upadhya | Pitch detection in time and frequency domain | |
Ganapathy et al. | Robust spectro-temporal features based on autoregressive models of hilbert envelopes | |
CN110379438A (zh) | 一种语音信号基频检测与提取方法及系统 | |
CN110189765A (zh) | 基于频谱形状的语音特征估计方法 | |
Vydana et al. | Detection of fricatives using S-transform | |
Ardiana et al. | Gender Classification Based Speaker’s Voice using YIN Algorithm and MFCC | |
Suryawanshi et al. | Hardware implementation of speech recognition using mfcc and euclidean distance | |
Bőhm et al. | Automatic classification of regular vs. irregular phonation types | |
Xiao et al. | Inventory based speech enhancement for speaker dedicated speech communication systems | |
Ramesh et al. | Glottal opening instants detection using zero frequency resonator | |
Abhiram et al. | A fast algorithm for speech polarity detection using long-term linear prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |