CN103310800B

CN103310800B - 一种抗噪声干扰的浊语音检测方法及系统

Info

Publication number: CN103310800B
Application number: CN201210056627.XA
Authority: CN
Inventors: 国雁萌; 李凯; 姜开宇; 付强; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-03-06
Filing date: 2012-03-06
Publication date: 2015-10-07
Anticipated expiration: 2032-03-06
Also published as: CN103310800A

Abstract

本发明公开了一种抗噪声干扰的浊语音检测方法及系统，该方法基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带，所述方法包含：步骤101)针对人类语音的基音频率范围，建立若干基音频率按对数尺度变化的谐波模板；步骤102)基于上步骤的模板，每帧信号与模板的匹配过程均包括若干次能量范围选择，使某受到干扰的频率范围得到忽略；步骤103)利用多帧信号基音频率的连续性，进行浊语音存在性的最终判决。本发明针对人类语音的基音频率范围，利用了基音频率按对数尺度变化的谐波模板，能够只用较少的模板获得良好的匹配结果，从而保证了检测过程的快速准确。

Description

一种抗噪声干扰的浊语音检测方法及系统

技术领域

本发明涉及一种浊语音检测方法。更具体地说，本发明提出了一种抗噪声干扰的浊语音检测方法及系统。

背景技术

随着语音信号处理系统的应用日益广泛，背景噪声干扰问题变得越来越严重。对语音信号和背景噪声进行区别，并将噪声拒绝在语音信号处理系统之外，是减少背景噪声干扰的最直接和有效手段。由于语音信号是由清音和浊音共同组成的，其中浊音信号在时长和能量方面占据了绝对的优势，所以，一般可以通过检测浊音信号实现语音/噪声的初步判决。

浊音是由周期性的声门脉冲激励声道而产生的，其中声门脉冲的振动频率即基音频率。因此，浊音信号在基音频率和基音的整数倍频上都具有较高的能量，而在其它频率上的能量则明显较低。由于基音频率是连续缓变的，所以如果对浊音进行短时频谱分析，则相邻帧之间的基音频率和谐波频率都比较接近，并可连接为类似梳状的一系列连续谐波谱线，这就是浊音信号特有的谐波结构。

浊语音的检测方法主要包括基于基频周期性和基于谐波特性两类。其中，基于周期性的方法主要通过信号自相关判断信号是否具有周期性，基于谐波特性的方法则利用信号在频域上均匀分布的能量极值点作为检测依据，如谐波能量和、最小二乘周期估计(LSPE)等。但是，这些方法利用的是全频带或固定频带的信息，而实际噪声的频谱能量分布往往是时变的，所以这些方法不适合用于实际环境中的浊语音检测。

发明内容

本发明的目的在于，为克服现有浊语音的检测方法的诸多缺陷，提供一种抗噪声干扰的浊语音检测方法及系统。

为实现上述目的，本发明提供了一种抗噪声干扰的浊语音检测方法，该方法基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带，所述方法包含：

步骤101)针对人类语音的基音频率范围，建立若干基音频率按对数尺度变化的谐波模板；

步骤102)基于上步骤的模板，每帧信号与模板的匹配过程均包括若干次能量范围选择，使某受到干扰的频率范围得到忽略；

步骤103)利用多帧信号基音频率的连续性，进行浊语音存在性判决，从而最终确定一段信号中是否包含浊语音。

上述技术方案中，所述步骤101)进一步包含如下子步骤：

步骤201)对输入的单通道声音信号进行短时傅里叶变换，获得每帧信号在N个离散频率点上的对数能量，其中N是2的整数次幂；

步骤202)根据人类语音的基音频率范围，及输入信号的频率范围，计算M个谐波结构模板，用于对信号的能量谱进行比对；其中，每个谐波模板是一组频率值，代表了一个基频和其对应的一系列谐波和非谐波频率，通过把各频率值舍入到最近的离散频率点，每个模板都把N个离散频率点区分为谐波和非谐波两类，且M个模板的基频是以对数步长增长的，基频越低，相邻两个模板之间基频差距越小。

所述步骤102)对每一帧输入信号的离散频谱能量，用M个模板与之相比对，每一个模板的比对方法如下，以第j个模板进行说明，其中j＝1..M：

301)对第j个模板，其中包含A个谐波频率和B个非谐波频率，将该帧信号在各谐波频率上的各频点按能量从大到小排列，非谐波频率上的各频点也按照能量从大到小排列；

302)对第j个模板，设定一个比例因子α₁，根据所有谐波频点的能量大小，排除能量最高的[α₁A]个谐波频率点和能量最低的[α₁A]个谐波频率点，并计算其余谐波频率点上能量的平均值；按同样方法将所有非谐波频率上能量最高的[α₁B]和最低的[α₁B]部分去掉，并计算其余非谐波频率上能量的平均值，

其中，[]表示取整运算，将谐波平均能量和非谐波平均能量的比值记为R₁；0＜α₁＜0.3；

303)按照步骤302)的方法，以不同的比例α₂～α_k分别去掉部分能量最高和最低的谐波和非谐波频率，并计算谐波与非谐波的平均能量之比R₂～R_k，上述的k个参数α_i取值范围都在0到0.3之间，i＝1..k，且两两不相等；

304)选择R₁～R_k中的最大值作为该帧信号与第j个模板的匹配值Q_j；

305)对每一帧信号，都可利用步骤301)到步骤304)获得M个模板的匹配结果Q₁～Q_M，并将其保存作为检测谐波结构的依据。

所述步骤103)进一步包含如下步骤：

401)将总时间长度为80～150毫秒的连续L帧信号作为一个分析单元，计算它与M个模板的匹配结果，计算方法是：对第j个指定模板，其中j＝1..M，将每帧信号对应与该模板的匹配值Q_j相加，其总和即作为当前L帧信号与第j个模板的匹配结果W_j；

402)在当前L帧信号与M个模板匹配获得的M个结果W₁～W_M中，取最大值W_max，作为当前L帧信号的浊音存在性的估计值，并设定阈值λ，如果当前分析单元的浊音存在性估计值大于设定λ，则判断当前L帧信号中的每一帧都含有浊音；

403)将长度为L的分析窗向后移动1帧，采用上述步骤判断其是否包含浊语音。

所述步骤403)进一步包含：由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在浊音”的判断，则认为该帧信号存在浊语音。

基于上述方法，本发明还提供了一种抗噪声干扰的浊语音检测系统，该系统基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带，所述系统包含：

谐波模板生成模块，用于针对人类语音的基音频率范围，建立若干基音频率按对数尺度变化的谐波模板；

信号与谐波模板匹配模块，用于完成每帧信号与谐波模板的匹配过程，其中每次匹配过程均包括若干次能量范围选择；和

浊语音存在性判决模块，利用多帧信号基音频率的连续性，最终确定一段信号中是否包含浊语音。

上述技术方案中，所述谐波模板生成模块进一步包含如下子模块：

处理子模块，用于对输入的单通道声音信号进行短时傅里叶变换，获得每帧信号在N个离散频率点上的对数能量，其中N是2的整数次幂；

谐波模板生成子模块，用于根据人类语音的基音频率范围，及输入信号的频率范围，计算M个谐波结构模板，用于对信号的能量谱进行比对；其中，每个谐波模板是一组频率值，代表了一个基频和其对应的一系列谐波和非谐波频率，通过把各频率值舍入到最近的离散频率点，每个模板都把N个离散频率点区分为谐波和非谐波两类，且M个模板的基频是以对数步长增长的，基频越低，相邻两个模板之间基频差距越小。

上述技术方案中，所述信号与谐波模板匹配模块对每一帧输入信号的离散频谱能量，用M个模板与之相比对，每一个模板的比对方法如下，以第j个模板进行说明，其中j＝1..M：

上述技术方案中，所述浊语音存在性判决模块进一步包含如下子模块：

获取所有谐波模板的匹配结果的子模块，用于将总时间长度为80～150毫秒的连续L帧信号作为一个分析单元，计算它与M个模板的匹配结果，计算方法是：对第j个指定模板，其中j＝1..M，将每帧信号对应与该模板的匹配值Q_j相加，其总和即作为当前L帧信号与第j个模板的匹配结果W_j；和

判决子模块，用于依据获取所有谐波模板的匹配结果的子模块获得的M个结果W₁～W_M中，取最大值W_max，作为当前L帧信号的浊音存在性的估计值，并设定阈值λ，如果当前分析单元的浊音存在性估计值大于设定λ，则判断当前L帧信号中的每一帧都含有浊音。

上述技术方案中，所述系统还包含：移动及进一步抉择模块，用于将长度为L的分析窗向后移动1帧，由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在浊音”的判断，则认为该帧信号存在浊语音。

与现有技术相比，本发明的优点在于：

本发明的浊语音检测方法，针对人类语音的基音频率范围，利用了基音频率按对数尺度变化的谐波模板，能够只用较少的模板获得良好的匹配结果(步骤2)，从而保证了检测过程的快速准确。在此基础上，由于每帧信号与模板的匹配过程都包括几次能量范围选择，即使某些频率范围因受到信道影响或噪声干扰使得谐波结构不够清晰，这些受到干扰的频率范围也都会得到忽略，所以被干扰的浊语音信号也能被可靠的检测出来(步骤3)。最后，由于利用了多帧信号基音频率的连续性，浊语音的检测过程不易受到瞬态干扰的影响，不易把背景噪音误当作浊语音(步骤4-5)。

附图说明

图1是本发明实施例的一帧信号与谐波模板的匹配流程图；

图2是本发明提供的抗噪声干扰的浊语音检测方法的总流程图。

具体实施方式

下面结合具体实施例和附图对本发明进行详细描述。

本发明通过新的浊音检测方法，减小时变噪声对浊音检测的影响，提高检测的准确率。

为了达到上述目的，本发明提供了一种检测浊语音的方法，其框架是基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带。具体包括以下步骤：

1)对输入的单通道声音信号进行短时傅里叶变换，获得每帧信号在N个离散频率点上的对数能量，其中N是2的整数次幂；

2)根据人类语音的基音频率范围(60-450Hz)，以及输入信号的频率范围，计算M个谐波结构模板，用于对信号的能量谱进行比对。其中，每个谐波模板是一组频率值，代表了一个基频和其对应的一系列谐波和非谐波频率。通过把各频率值舍入到最近的离散频率点，每个模板都把N个离散频率点区分为谐波和非谐波两类。M个模板的基频是以对数步长增长的，基频越低，相邻两个模板之间基频差距越小；

3)对每一帧输入信号的离散频谱能量，用M个模板与之相比对。每一个模板的比对方法如步骤3-1至步骤3-4，以第j个模板为例进行说明，其中j＝1..M；

3-1)对第j个模板，其中包含A个谐波频率和B个非谐波频率，将该帧信号在各谐波频率上的各频点按能量从大到小排列，非谐波频率上的各频点也按照能量从大到小排列；

3-2)对第j个模板，设定一个比例因子α₁，其中0＜α₁＜0.3。根据所有谐波频点的能量大小，排除能量最高的[α₁A]个谐波频率点和能量最低的[α₁A]个谐波频率点，并计算其余谐波频率点上能量的平均值；按同样方法将所有非谐波频率上能量最高的[α₁B]和最低的[α₁B]部分去掉，并计算其余非谐波频率上能量的平均值。其中，[]表示取整运算。将谐波平均能量和非谐波平均能量的比值记为R₁；

3-3)按照步骤3-2的方法，以不同的比例α₂～α_k分别去掉部分能量最高和最低的谐波和非谐波频率，并计算谐波与非谐波的平均能量之比R₂～R_k。上述的k个参数α_i(i＝1..k)取值范围都在0到0.3之间，且两两不相等；

3-4)选择R₁～R_k中的最大值作为该帧信号与第j个模板的匹配值Q_j；

3-5)对每一帧信号，都可利用步骤3-1到步骤3-4获得M个模板的匹配结果Q₁～Q_M，并将其保存下来作为检测谐波结构的依据；

4)将总时间长度为80～150毫秒的连续L帧信号作为一个分析单元，计算它与M个模板的匹配结果，计算方法是：对第j个指定模板，其中j＝1..M，将每帧信号对应与该模板的匹配值Q_j相加，其总和即作为当前L帧信号与第j个模板的匹配结果W_j；

5)在当前L帧信号与M个模板匹配获得的M个结果W₁～W_M中，取最大值W_max，作为当前L帧信号的浊音存在性的度量。设定阈值λ，如果当前分析单元的浊音存在性估计值大于λ，则判断当前L帧信号中的每一帧都含有浊音；

6)将长度为L的分析窗向后移动1帧，并根据步骤1-5判断其是否包含浊语音。由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在浊音”的判断，则认为该帧信号存在浊语音。

实施例1

如图2所示，本发明提供的浊语音方法，包括以下步骤：

1)对输入的单通道声音信号分帧并加窗后，用2N点快速傅里叶变换(FFT)计算其短时谱，并获得每帧信号在N个离散频率点上的对数能量，其中N是2的整数次幂；

2)根据人类语音的基音频率范围(60-450Hz)，以及输入信号的频率范围，计算M个谐波结构模板，用于对信号的能量谱进行比对。其中，每个谐波模板是一组频率值，代表了一个基频和其对应的一系列谐波和非谐波频率，这些频率值都舍入到最近的离散频率点上。这样，每个模板都把N个离散频率点按谐波和非谐波进行了二元分类。M个模板的基频是以对数步长增长的，基频越低，相邻两个模板之间基频差距越小；

3)对每一帧输入信号的离散频谱能量，用M个模板与之相比对。每一个模板的比对方法如步骤3-1至步骤3-4，以第j个模板为例进行说明，其中j＝1..M；如图1所示：

3-5)对每一帧信号，利用步骤3-1)到步骤3-4)得到M个模板的匹配结果Q₁～Q_M，并将其保存下来作为检测谐波结构的依据；

4)将总时间长度为80～150毫秒的连续L帧信号作为一个分析单元，计算它与M个模板的匹配结果，计算方法是：对第j个指定模板，其中j＝1..M，将每帧信号对应与该模板的匹配值Q_j相加，其总和即作为当前分析单元与第j个模板的匹配结果W_j；

5)在当前分析单元与M个模板匹配获得的M个结果W₁～W_M中，取最大值W_max，作为当前L帧信号的浊音存在性的度量。设定阈值λ，如果当前分析单元的浊音存在性估计值大于λ，则判断当前分析单元中的每帧信号都含有浊音；

最后应说明，此处所描述的实例仅用于解释本发明，本发明并不限定具体业务类别、用户终端类别以及支付系统类别，对以上内容所做的变换也落在本发明的保护范围之内。

Claims

1.一种抗噪声干扰的浊语音检测方法，该方法基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带，所述方法包含：

步骤103)利用多帧信号基音频率的连续性，进行浊语音存在性判决，从而最终确定一段信号中是否包含浊语音；

其中，所述步骤101)进一步包含如下子步骤：

2.根据权利要求1所述的抗噪声干扰的浊语音检测方法，其特征在于，所述步骤102)对每一帧输入信号的离散频谱能量，用M个模板与之相比对，每一个模板的比对方法如下，以第j个模板进行说明，其中j＝1..M：

其中，[]表示取整运算，将谐波平均能量和非谐波平均能量的比值记为R₁；0<α₁<0.3；

3.根据权利要求2所述的抗噪声干扰的浊语音检测方法，其特征在于，所述步骤103)进一步包含如下步骤：

4.根据权利要求3所述的抗噪声干扰的浊语音检测方法，其特征在于，所述步骤403)进一步包含：由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在浊音”的判断，则认为该帧信号存在浊语音。

5.一种抗噪声干扰的浊语音检测系统，该系统基于谐波与背景的能量比确定是否存在浊音，并随着干扰噪声的不同，自动的找到频率范围中谐波结构最清晰的频带范围，而忽略受到噪声干扰的频带，所述系统包含：

浊语音存在性判决模块，利用多帧信号基音频率的连续性，最终确定一段信号中是否包含浊语音；

其中，所述谐波模板生成模块进一步包含如下子模块：

6.根据权利要求5所述的抗噪声干扰的浊语音检测系统，其特征在于，所述信号与谐波模板匹配模块对每一帧输入信号的离散频谱能量，用M个模板与之相比对，每一个模板的比对方法如下，以第j个模板进行说明，其中j＝1..M：

其中，[]表示取整运算，将谐波平均能量和非谐波平均能量的比值记为R_1；0<α₁<0.3；

7.根据权利要求6所述的抗噪声干扰的浊语音检测系统，其特征在于，所述浊语音存在性判决模块进一步包含如下子模块：

8.根据权利要求7所述的抗噪声干扰的浊语音检测系统，其特征在于，所述系统还包含：移动及进一步抉择模块，用于将长度为L的分析窗向后移动1帧，由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在浊音”的判断，则认为该帧信号存在浊语音。