CN110782910A

CN110782910A - 一种高检出率的啸叫音频检测系统

Info

Publication number: CN110782910A
Application number: CN201911077968.3A
Authority: CN
Inventors: 张芷毓; 林坤鹏; 陈喆; 殷福亮
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-11
Anticipated expiration: 2039-11-06
Also published as: CN110782910B

Abstract

本发明公开了一种高检出率的啸叫音频检测系统，包括：预处理模块，对输入信号进行分帧、缓存和加窗处理，再对加窗后的信号进行快速傅里叶变换和语音端点检测处理；特征参数提取模块，对预处理后的每帧音频信号进行特征参数提取和缓存；啸叫检测判决模块，根据获取的Pearson系数信息对音频信号进行啸叫检测，其过程为：如果当前帧信号的Pearson系数值ρ_max在检测阈值范围内，则进入短时啸叫判决过程，如果当前帧信号的Pearson系数值ρ_max大于检测阈值范围的最大值，则进入长时啸叫判决过程最后获取啸叫帧；啸叫抑制模块，对啸叫帧进行啸叫衰减和消除处理。

Description

一种高检出率的啸叫音频检测系统

技术领域

本发明涉及语音信号处理领域，尤其涉及一种高检出率的啸叫音频检测系统。

背景技术

随着互联网通信技术与经济条件的快速发展，会议电视系统凭借其自身的优势日益应用广泛，成为一种被大众认同接受的办公运作。然而，由于电视电话会议多工作在双工模式，易于系统中形成闭环回路，当此闭环回路满足啸叫发生的振幅和相位条件时，信号形成声学反馈(SF)，系统会处于自激振荡状态导致啸叫现象发生。啸叫会造成恶劣的现场通话环境，甚至毁坏系统中的扩声组件，所以在会议电视系统中需要做好啸叫检测及抑制工作才能保证通话音频质量。

在现有技术中关于基于神经网络的啸叫检测方法，具体步骤是：接受声音信号，将声音信号经过采样分帧后，缓存过去的9帧数据，进行特征提取，其中提取的特征包含：10帧数据的频域最大幅值，10帧数据频域最大幅值所对应的频点位置，还有9个当前帧与过去帧之间的频域相关性系数，一共是29维的特征向量。将提取的特征输入进神经网络对其进行训练，训练数据集中的啸叫音频是由从不同的位置，调节不同的音量录得的实际助听器音频，训练数据集中的正常语音采用纯净语音数据。在所述神经网络分类步骤中，为了进一步消除啸叫检测中误判所带来的语音损失，采用0.7作为输出层单元的分类阈值，也就是说，当神经网络的输出大于0.7时，才判断当前帧存在啸叫，否则判断为不存在啸叫。基于神经网络的检测方法虽然算法复杂度不高，但计算量较大，需要较多训练数据，训练过程会浪费大量时间。

发明内容

根据现有技术存在的问题，本发明公开了一种高检出率的啸叫音频检测系统，具体包括：

预处理模块，对输入信号进行分帧、缓存和加窗处理，再对加窗后的信号进行快速傅里叶变换和语音端点检测处理；

特征参数提取模块，对预处理后的每帧音频信号进行特征参数提取和缓存；其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比；

啸叫检测判决模块，根据获取的Pearson系数信息对音频信号进行啸叫检测，其过程为：如果当前帧信号的Pearson系数值ρ_max在检测阈值范围内，则进入短时啸叫判决过程，如果当前帧信号的Pearson系数值ρ_max大于检测阈值范围的最大值，则进入长时啸叫判决模过程最后获取啸叫帧；

啸叫抑制模块，对啸叫帧进行啸叫衰减和消除处理。

进一步的，采用Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比多特征融合的啸叫检测方法。

所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x₁，并计算当前帧信号与x₁之间的最大平均Pearson系数；

所述提取二阶Pearson系数时：在Pearson系数的基础上对每帧信号分别找到与其自身的x₁最相关的信号x₂，并计算帧信号x₁与帧信号x₂之间的Pearson系数。

进一步的，设第i帧为当前帧，则当前帧i和其前j帧的Pearson系数的表达方式为：

其中，G_amp(i,k)，G_amp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱；G_i，G_j分别为当前帧和其前j帧信号的总功率，k₁，k₂为频率索引，m为正整数，t为缓存时间索引。

进一步的，所述二阶Pearson系数采用如下方式获取：

其中，G_amp(x₁,k)，G_amp(x₁-j_max,k)分别为帧信号x₁和其前j_max帧信号在频点k的幅值；G_x1，G_x1-jmax分别为x₁和其前j_max帧信号的总功率，k₁，k₂为频率索引。

所述波谷占比采用如下方式获取：

通过在当前帧信号与x₁之间寻找能量低于当前帧信号能量阈值的语音帧，将其数目记作n_c，该段时间总帧数记为n_t，则当前帧信号的波谷占比R_a为

由于采用了上述技术方案，本发明提供的一种高检出率的啸叫音频检测系统，该系统通过计算音频信号的特征参数如Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比等参数信息，对啸叫进行判决，从而对音频信号进行啸叫衰减和消除处理，该系统利用Pearson系数在持续时间内寻找与当前帧信号最相近的一帧信号，并将二者在该段时间内的平均Pearson系数值作为阈值来进行啸叫判决，在此基础上，继续增加二阶Pearson系数从而缩小了检出范围，同时降低了对语音的误检率，同时该系统公开的波谷占比计算方式为具有周期性的短时啸叫的检测缩小了范围，降低了误检率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明系统的结构示意图；

图2为本发明中Pearson相关系数计算原理图；

图3为本发明中二阶Pearson系数计算过程示意图；

图4为本发明中啸叫检测判决模块工作过程的流程图；

图5(a)为本发明中啸叫方法总体抑制结果样例图；

图5(b)为本发明中啸叫方法总体抑制结果样例图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

啸叫检测(HD)是一个典型的二元信号检测问题，本发明采取的主要技术路线为在传统二元信号检测技术基础上研发新的检测、判决、识别的新方法，以期在性能上和资源消耗上能达到预期效果。本发明的一种高检出率的啸叫音频检测系统如图1所示，该系统首先对语音信号进行预处理，在此基础上再提取多个合适的特征参数，再根据不同的啸叫信号的时域与频域特性选择合适的特征参数进行联合条件判决，以达到识别啸叫与正常语音信号的目的，并对啸叫信号进行抑制。该系统具体包括预处理模块、特征参数提取模块、啸叫检测判决模块和啸叫抑制模块。

进一步的，预处理模块对输入信号进行分帧、缓存和加窗处理，再对加窗后的信号进行快速傅里叶变换和语音端点检测处理。

作为优选的方式，预处理模块在进行特征参数提取之前需要对输入信号进行必要的预处理，主要包括：(1)信号分帧与缓存供后续参数提取使用；(2)加窗截取数据做FFT并进行缓存；(3)语音端点检测处理。对麦克风拾取到的语音信号x(n)经过16kHz的采样以后，用一个定长的时间窗，以固定的帧移长度对原始信号进行分帧。为了减少频谱泄露和谱间干扰的影响，选择海明(Hamming)窗w(n)对信号x(n)进行加窗处理。经过分帧加窗之后的信号每帧的帧长为N，本专利N为256个点。分帧加窗之后的信号为

其中

n＝0,1,…,N-1

对分帧加窗后的信号

进行快速傅里叶变换(FFT)，得到第i帧信号的第k个频点的频谱为

的幅度谱为

X_R(i，k)为第i帧信号第k个频点的实部，X_I(i，k)为第i帧信号第k个频点的虚部。

的功率谱为

G(i，k)＝[X_R(i，k)²+X_I(i，k)²]，k＝0,1,…,N-1 (4)

的总功率为

对传进的每帧信号进行分帧加窗，计算幅度谱与功率谱并进行缓存。

在正常语音或啸叫信号中，谱峰频率一般在中高频率段。根据该特征，当发现某一低频频率(本专利为100～300HZ)的幅度谱大于该帧信号幅度峰值10％时，即低频谱峰存在时，不再进行啸叫检测。

特征参数提取模块的作用是对预处理后的每帧音频信号进行特征参数提取和缓存；其中音频信号的特征参数包括Pearson系数、二阶Pearson系数、低频带谱平坦度、全频带谱平坦度、自相关函数和波谷占比。

作为优选的方式：Pearson系数采用如下方式获取：Pearson系数作为特征主要意义在于音频信号在一段范围内(本系统中为0.32秒)存在与当前帧信号频谱最相关的一帧信号，记为x₁，一般来说，啸叫信号之间的相关性大于语音信号。因此本专利选择当前帧信号与x₁的平均Pearson系数作为阈值，对啸叫进行检测。具体计算步骤如下:

(i)首先计算当前帧与其前149帧信号的Pearson系数，共150个系数(包括当前帧与其自身的Pearson系数)，缓存时间为0.32秒(32帧)。设第i帧为当前帧，本专利中当前帧和其前j帧的Pearson相关系数的具体公式为

其中，G_amp(i,k)，G_amp(j,k)分别为当前帧和其前j帧信号在频点k的幅度谱；G_i，G_j分别为当前帧和其前j帧信号的总功率，k₁，k₂为频率索引(其中k₁＝1，k₂＝126)，m为正整数，t为缓存时间索引。

(ii)分别求出在0.32秒内当前帧与前j帧的Pearson系数的平均值，共125个平均值，选择平均值最大者所对应的j值作为与当前帧谱峰最相似的一帧信号，其中j＝24,25,…,149，相关计算公式为

ρ_max＝max{ρ_ave(j)}，j＝24,25,…,149 (9)

其中，ρ_total(j)为0.32秒(32帧)内当前帧与前j帧的总Pearson系数值，ρ_ave(j)为0.32秒内当前帧与前j帧的Pearson系数的平均值，ρ_max为ρ_ave(j)的最大值，该最大值所对应的j_max即为本专利所求的当前帧的最相近帧x₁，ρ_t(j)为在t时刻(0.32秒内)，当前帧分别与其前j帧的Pearson系数，且ρ_t(j)>0.1，n(j)为在32帧内ρ_t(j)>0.1的总帧数。

(iii)将(ii)中求得的ρ_max作为阈值门限，来判别当前帧是否为啸叫信号。计算原理图如图2所示。

其中，二阶Pearson系数具体采用如下方式获取：

由于在上述中已寻找到与当前帧谱峰最相近的一帧信号x₁，在此基础上继续寻找与x₁最相近的信号x₂，方法与(1)中所示相同。且x₂信号与x₁信号间隔的距离和x₁信号与当前帧信号间隔的距离大致相等。将x₁与x₂信号间的相关系数记为二阶Pearson系数，以此作为判别啸叫的阈值之一，示意图如图3所示，x₁与x₂的二阶Pearson系数用ρ⁽²⁾表示，公式为

其中，G_amp(x₁,k)，G_amp(x₁-j_max,k)分别为x₁和其前j_max帧信号在频点k的幅值；G_x1，G_x1-jmax分别为x₁和其前j_max帧信号的总功率，k₁，k₂为频率索引(其中k₁＝1，k₂＝126)。如图3所示。

低频带谱平坦度和全频带谱平坦度采用如下方式获取：由于啸叫产生时，谱平坦度较小。本系统分别提取了低频带(100～1khz)与全频带(100～7.9khz)的谱平坦度，分别用S_l、S_t表示。SFT具体计算公式为：

其中，k为频率索引，G_amp(i,k)为第i帧信号在频点k处的幅度。

自相关函数采用如下方式获取：自相关函数是描述随机信号在任意不同时刻的取值之间的相关程度，是对信号自身的互相关，表示同一序列不同时刻的相关程度。虽然在上文已经根据Pearson系数大致计算出与当前帧较为相关的一帧信号x₁的位置，但为了使定位更为精确，本专利在Pearson系数的基础上，继续计算当前帧信号与x₁和x₁前后各两帧信号的自相关函数r(k)，共5个系数，再取其最大者R，以此作为阈值来进行啸叫判决，因为啸叫信号的相关性往往大于语音信号，所以该特征能达到判决啸叫和语音的目的。该算法在Pearson系数的基础上会减少漏检与误捡，具体计算公式为

R＝max{r(k)}，k＝-2,-1,…,2 (13)

其中，x(n)为当前帧音频信号时域幅值，x_k(n)为x₁相邻(包括x₁在内)的5帧信号时域幅值，N＝256。

波谷占比采用如下方式获取：由于短促啸叫的发生在低频段和高频段较为常见，它会在当前帧信号与x₁之间的数帧信号中形成多个低能量的波谷，而这是语音信号不常见的现象。本专利的波谷占比通过以下步骤计算：通过在当前帧信号与x₁之间寻找能量低于当前帧信号能量阈值的语音帧，其中，能量阈值为当前帧信号能量的0.01倍，将其数目记作n_c，该段时间总帧数记为n_t，则当前帧信号的波谷占比R_a为

进一步的，啸叫检测判决模块的作用是根据获取的Pearson系数信息对音频信号进行啸叫检测，其过程为：如果当前帧信号的Pearson系数值ρ_max在检测阈值范围内，则进入短时啸叫判决过程，如果当前帧信号的Pearson系数值ρ_max大于检测阈值范围的最大值，则进入长时啸叫判决模过程最后获取啸叫帧。

作为优选的方式：根据提取到的特征参数设定好检测阈值范围，检测逻辑如下：首先判断ρ_max是否在检测阈值范围为0.55-0.78的范围内，如果满足条件则进入短时啸叫判决过程；否则如果ρ_max大于0.78进入长时啸叫判决过程。

在短时啸叫判决过程中：如果R_a超过60％且相关函数R大于0.6则进入啸叫频率判决过程。在啸叫频率判决过程中：如果当前帧信号峰值频率(设为f_m)大于800hz，则判定结果为啸叫；如果f_m小于800hz，则要满足二阶皮尔森系数ρ⁽²⁾大于0.55、全带谱平坦度S_t小于0.11、低频带谱平坦度S_l小于0.2才判其为啸叫。

在长时啸叫判决过程中：如果f_m大于800hz，则判其为啸叫；如果f_m小于800hz且S_l小于0.2则判决为啸叫。啸叫检测流程如图4所示。

啸叫抑制模块的作用是对啸叫帧进行啸叫衰减和消除处理。作为优选的方式：抑制步骤为：在刚被检出的起始啸叫帧内，对每一帧的幅度分别乘以一逐渐减小的动态衰减系数(本专利起始啸叫帧设为90帧以内，衰减系数每次减少0.01，最少衰减到0.1倍)，并将0.1作为啸叫稳定时的稳定衰减系数，使稳定后的啸叫衰减20db，具体公式为

y_i(n)＝x_i(n)×(1-0.01×i) (15)

y_i(n)＝x_i(n)×0.1 (16)

其中，x_i(n)为被连续检出的第i帧啸叫，y_i(n)为第i帧信号抑制之后的信号。当0<i<90时，选择公式(15)对啸叫进行抑制，否则选择公式(16)来抑制当前啸叫帧。

为了验证本系统的有效性，使用大量啸叫信号，并进行了若干测试，下面表1为啸叫总时长分别为5分钟、10分钟、15分钟、20分钟、25分钟、30分钟内各类啸叫的检出率。图5为实测的啸叫抑制结果，该图(a)部分图形为原始音频波形图，图(b)为抑制之后的音频波形。由检测结果可看出本专利可以实时追踪啸叫帧，啸叫的检出率与准确性也较高，误检率较低，能对啸叫进行一定抑制，对正常语音的损失不大。

表1不同时间内各类啸叫的检出率

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

参考文献(如专利/论文/标准)

[1]张涛,李康康,焦海泉.一种低虚警概率的啸叫检测方法[J].西安电子科技大学学报,2017,44(4):100-105.

[2]张禄等.一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质:中国,201910167801.X[P].2019.

[3]Khoubrouy S A,Panahi I.A method of howling detection in presenceof speech signal[J].Signal Processing,2016,119:153-161.

[4]Thomas D,Jayan A R.Automated suppression of howling noise usingsinusoidal model based analysis/synthesis[C]//2014IEEE International AdvanceComputing Conference(IACC).IEEE,2014:761-765.

Claims

1.一种高检出率的啸叫音频检测系统，其特征在于包括：

啸叫抑制模块，对啸叫帧进行啸叫衰减和消除处理。

2.根据权利要求1所述的系统，其特征还在于：所述提取Pearson系数时对每帧信号分别找到与当前帧信号频谱最相关的一帧信号x₁，并计算当前帧信号与x₁之间的最大平均Pearson系数；

3.根据权利要求2所述的系统，其特征还在于：设第i帧为当前帧，则当前帧i和其前j帧的Pearson系数的表达方式为：

4.根据权利要求3所述的系统，其特征还在于：所述二阶Pearson系数采用如下方式获取：

5.根据权利要求1所述的系统，其特征还在于：所述波谷占比采用如下方式获取：