CN110189765A

CN110189765A - 基于频谱形状的语音特征估计方法

Info

Publication number: CN110189765A
Application number: CN201910341806.XA
Authority: CN
Inventors: 邓小涛; 张华军; 王征华; 倪杰
Original assignee: Wuhan Dashengji Technology Co Ltd
Current assignee: Wuhan Dashengji Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-30
Anticipated expiration: 2039-04-25
Also published as: CN110189765B

Abstract

本发明提供一种基于频谱形状的语音特征估计方法，对获取的未过滤的语音信号，将时序上连续的N个采样点集合成一个帧，将每一帧乘以帧窗口，语音信号被分为以帧窗口为单位的语音段；每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和；利用每个语音段的短期幅度谱，计算语音距离；将滤波器组信道内的频率分量相关联的语音距离进行求和，并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权，得到滤波后的语音距离；将所有语音段滤波后的语音距离，作为语音特征的表达。利用本方法估计的浊音特征和对噪声的先验知识，可以获得更高的识别精度。

Description

基于频谱形状的语音特征估计方法

技术领域

本发明属于语音辨识领域，具体涉及一种基于频谱形状的语音特征估计方法。

背景技术

语音编码技术在最近几年发展迅速，目前国际上许多研究机构正在集中研究语音编码算法和分析语音频谱特征。语音是通过声道滤波器传递源信号而产生的。在目前的语音转化为文本(ASR)系统中，只使用通过估计短期频域包络线得到的声道信息。短期谱也反映了源信号的信息：浊音具有谐波结构的特征，而清音具有随机频谱特征此，估计一个短期频谱区域是否具有谐波或随机特征，可以为开发更合适的语音模式处理技术提供信息。谐波/随机字符的频谱区域称为浊音/清音，它的估计称为语音字符(VC)估计。传统的VC是通过基频(F0)谐波的原始频谱与合成频谱的拟合程度来估计的，它们不考虑噪声对语音的破坏，这在噪声语音中很难准确估计。

发明内容

本发明要解决的技术问题是：提供一种基于频谱形状的语音特征估计方法，可以不需要基频，能够在噪声环境中获得更加准确的语音频谱特征值。

本发明为解决上述技术问题所采取的技术方案为：一种基于频谱形状的语音特征估计方法，其特征在于：它包括以下步骤：

S1、短期幅度谱计算：

对获取的未过滤的语音信号，将时序上连续的N个采样点集合成一个观测单位，称为帧，再将每一帧乘以帧窗口，语音信号被分为以帧窗口为单位的语音段；每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和；

S2、语音距离计算：

利用每个语音段的短期幅度谱，计算语音距离；给定频率指数附近的信号，短期幅度谱的形状与帧窗口的幅度谱形状之间的相似性，称为语音距离；

S3、滤波器组通道计算：

将滤波器组信道内的频率分量相关联的语音距离进行求和，并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权，得到滤波后的语音距离；

将所有语音段滤波后的语音距离，作为语音特征的表达。

按上述方法，所述的帧窗口W(ω)的形式如下：

式中a为预设值，不同的a值产生不同的帧窗口；N为每一帧的总采样点数；ω为帧的大小；

所述的短期幅度谱S(ω)公式为：

式中，ω₀表示的是基频，最高振幅|A_h|表示对A_h进行求模运算，表示谐波分量的振幅，φ_h表示相位，h为谐波分量的次数；H为谐波分量的总次数。

按上述方法，所述的S2得到的语音距离vd(k_i)具体为：

式中，M为用于比较的vd(k_i)周围每边频谱的数量；m为帧的大小；k_i为频率指标。

按上述方法，所述的k_i通过以下方法得到：

检测|S(k_i)|斜率由正到负的变化，计算语音距离的频率指标k_i，使k_i与谱峰对应。

按上述方法，所述的k_i通过以下方法得到：k_i与成倍数关系，的估计值为

其中H_k0是对应的谐波数，k₀表示的是第k₀次谐波数的频率指标，为频率指标，argmin f(x)函数表示的是函数f(x)取值最小值时的自变量取值，最小值是k₀对应的最低和最高基频。

按上述方法，所述的S3得到滤波后的语音距离vd^fb(b)公式为：

式中G_b(k)为滤波器组通道b的频率响应；k_b和K_b分别为频率响应的最低频率分量和分量个数；即，整体滤波器组通道能量值；得到式(5)中每个频率分量的VD值即，滤波后的语音距离vd^fb(b)。

按上述方法，所述的S2和/或S3中，采用二维的中值滤波器进行过滤，消除未发生区域的异常值。

本发明的有益效果为：在计算信号形状之间的短期距离的基础上，估语音特征的短期幅度频谱和帧窗口的频谱；本方法在噪声环境下具有更准确的语音特征估计值，利用该方法估计的浊音特征和对噪声的先验知识，可以获得更高的识别精度。

附图说明

图1为不同音谱数量M下快速傅里叶变换长度的语音分类误差图。

图2为矩形窗(Rect)、布莱克曼-哈里斯窗(BH)和汉明窗(Hamming)的误差图。

图3位VD滤波对语音检测误差的影响图。

图4为VD在所有谱峰(全谱)和估计谐波(虚线)处计算时，得到FB信道语音分类的误差(local SNRs表示噪声比)图。

图5为语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数，所有音谱的局部噪声比图。

图6为语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数，所有音谱的全局噪声比图。

图7为本发明一实施例的方法流程图。

具体实施方式

下面结合具体实例和附图对本发明做进一步说明。

本发明提供一种基于频谱形状的语音特征估计方法，如图7所示，包括以下步骤：

S1、短期幅度谱计算：

对获取的未过滤的语音信号，将时序上连续的N个采样点集合成一个观测单位，称为帧，再将每一帧乘以帧窗口，以增加帧左端和右端的连续性。语音信号被分为以帧窗口为单位的语音段。帧窗口W(ω)的形式如下：

式中a为预设值，不同的a值产生不同的帧窗口，一般情况下a取0.46；N为每一帧的总采样点数；ω为帧的大小；

基于产生浊音语音的源信号的准周期性，每个语音段的短期幅度谱表示为帧窗口的傅里叶变换按比例变换和平移变换的总和，公式为：

式中，ω₀表示的是基频，最高振幅|A_h|表示对A_h进行求模运算，表示谐波分量(即正弦波)的振幅，φ_h表示相位，h为谐波分量的次数；H为谐波分量的总次数

考虑到相邻谐波相对应的主瓣很好地分离(即，基频不是非常低)，并且旁瓣的幅度远低于主瓣的幅度(即，旁瓣的影响可忽略不计)。每个谐波频率周围的浊音语音的幅度形状应大致与帧窗口W(ω)的幅度谱的形状相同。

S2、语音距离计算：

利用每个语音段的短期幅度谱，计算语音距离；给定频率指数附近的信号，短期幅度谱的形状与帧窗口的幅度谱形状之间的相似性，称为语音距离；具体地说，我们使用幅度谱之间的欧几里得距离，即，

所述的k_i通过以下方法得到：检测|S(k_i)|斜率由正到负的变化，计算语音距离的频率指标k_i，使k_i与谱峰对应。

所述的k_i也可以通过以下方法得到：k_i与成倍数关系，的估计值为

其中H_k0是对应的谐波数，k₀为第k₀次谐波数的频率指标，为频率指标，argmin f(x)函数表示的是函数f(x)取值最小值时的自变量取值，最小值是k₀对应的最低和最高基频。

S3、滤波器组通道计算：

将滤波器组信道内的频率分量相关联的语音距离进行求和，并把每个语音距离根据频率分量按照整个滤波器组能量的贡献来加权，得到滤波后的语音距离vd^fb(b)，公式为：

将所有语音段滤波后的语音距离，作为语音特征的表达。

所述的S2和/或S3中，得到的语音距离，对于未发声区域可能会意外地变成一个低值，反之亦然，即导致局部异常值。这可以通过过滤的方式来解决。由于寻找最优滤波器并不是本发明的目标，因此采用了二维的中值滤波器来消除异常值，且简单有效。滤波器可以对vd(k)和vd^fb(k)值进行滤波。中值滤波器的大小分别为5×9和3×3(第一个数字是帧)。

本发明是在计算信号形状之间的短期距离的基础上，估语音特征的短期幅度频谱和帧窗口的频谱。相较于传统的语音字符(VC)估计，本方法在噪声环境下具有更准确的语音特征估计值，利用该方法估计的浊音特征和对噪声的先验知识，可以获得更高的识别精度。

以某一语音特征估计为例，探讨语音距离VD与局部信噪比之间的关系。语音信号采样在8000Hz，信号被分成256个采样帧(重叠80个采样帧)。利用快速傅里叶变换(FFT)得到的短时幅度谱，应用于20通道的滤波器组FB分析。定义每个滤波器组FB通道的局部信噪比为log₁₀(X_S/X_N)，其中X_S为洁净信号FB能量，X_N为噪声FB能量。在模拟的浊音语音信号中加入白噪声，经过一个频率为F0倍数的正弦波和的信号经过一个与中性元音相对应的滤波器后合成。F0的值设置为90到300Hz。

首先对不同的快速傅里叶变换长度和频谱数量M进行试验，利用汉明框架窗口函数，计算每个谱峰处的语音距离VD，并对vd(k_i)和vd^fb(b)进行滤波。使用快速傅里叶变换长度分别为512、1024和2048点，音谱数量M对应于每个快速傅里叶变换长度大小的4、8和16。按照上述步骤，可以得到不同音谱数量M下快速傅里叶变换长度的语音分类误差如图1所示，从图1中可以看出运用该方法得到的语音特征在F0大于120hz时，M＝3和4的错误率相似，而当F0较低时，M＝4的错误率急剧增加；矩形窗(Rect)、布莱克曼-哈里斯窗(BH)和汉明窗(Hamming)的误差如图2所示，从图2可以看出，采用不同窗口对语音进行加窗处理并运用该方法得到的语音特征在较低F0,矩形窗(Rect)和布莱克曼-哈里斯窗(BH)误差较大，而对于较低的F0,汉明窗(Hamming)总体误差较小；VD滤波对语音检测误差的影响如图3所示，从图3可以看出，采用中值滤波的vd(k_i)和vd^fb(b)可以显著降低误差；VD在所有谱峰(全谱)和估计谐波(虚线)处计算时，得到FB信道语音分类的误差如图4所示，从图4可以看出，在局部信噪比较低的情况下，对估计谐波计算VD可以减小噪声条件下的误差；语音检测的误接受和误拒绝错误率是白噪声干扰语音阈值的函数，所有音谱的局部和全局噪声比，分别如图5和图6所示，从图5和6可以看出，本发明提出的语音特征估计方法在使用所有谱峰时得到的语音特征估计结果，用白噪声破坏语音的拒绝率和误识率误差表示为局部和全局信噪比的函数，且局部噪声比函数的误识率较低。以上实验充分验证了本发明提出的方法的有效性。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于频谱形状的语音特征估计方法，其特征在于：它包括以下步骤：

S1、短期幅度谱计算：

S2、语音距离计算：

S3、滤波器组通道计算：

将所有语音段滤波后的语音距离，作为语音特征的表达。

2.根据权利要求1所述的基于频谱形状的语音特征估计方法，其特征在于：所述的帧窗口W(ω)的形式如下：

所述的短期幅度谱S(ω)公式为：

3.根据权利要求2所述的基于频谱形状的语音特征估计方法，其特征在于：所述的S2得到的语音距离vd(k_i)具体为：

4.根据权利要求3所述的基于频谱形状的语音特征估计方法，其特征在于：所述的k_i通过以下方法得到：

5.根据权利要求3所述的基于频谱形状的语音特征估计方法，其特征在于：所述的k_i通过以下方法得到：k_i与成倍数关系，的估计值为

其中H_k0是对应的谐波数，k₀表示的是第k₀次谐波数的频率指标，为频率指标，argminf(x)函数表示的是函数f(x)取值最小值时的自变量取值，最小值是k₀对应的最低和最高基频。

6.根据权利要求4或5所述的基于频谱形状的语音特征估计方法，其特征在于：所述的S3得到滤波后的语音距离vd^fb(b)公式为：

式中G_b(k)为滤波器组通道b的频率响应；k_b和K_b分别为频率响应的最低频率分量和分量个数；即，整体滤波器组通道能量值；得到式(5)中每个频率分量的VD值，即，滤波后的语音距离vd^fb(b)。

7.根据权利要求1至5中任意一项所述的基于频谱形状的语音特征估计方法，其特征在于：所述的S2和/或S3中，采用二维的中值滤波器进行过滤，消除未发生区域的异常值。