CN102044241A

CN102044241A - 一种实现通信系统中背景噪声的跟踪的方法和装置

Info

Publication number: CN102044241A
Application number: CN2009102053002A
Authority: CN
Inventors: 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2011-05-04
Anticipated expiration: 2029-10-15
Also published as: US20120084085A1; EP2437256A4; EP2437256B1; CN102044241B; US8447601B2; US20110238418A1; EP2437256A1; US8095361B2; WO2011044853A1

Abstract

本发明公开了一种实现通信系统中背景噪声的跟踪的方法和装置，属于通信领域。所述方法包括：根据输入的音频信号，计算当前帧的信噪比；若当前帧的信噪比不大于门限1，则累加帧计数器，并计算当前帧的音调特征以及信号稳定性特征；当帧计数器累加至时间窗口长度时，则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值，判断出时间窗口中含有噪声区间的可能性大小，并进而提取时间窗口的噪声特征。通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

Description

一种实现通信系统中背景噪声的跟踪的方法和装置

技术领域

本发明涉及通信领域，特别涉及一种实现通信系统中背景噪声的跟踪的方法和装置。

背景技术

在语音通信系统中，通过VAD(Voice Activity Detection，语音激活检测)技术，可以获知语音何时是激活状态，从而可以实现只在激活状态传输信号，有效地节约带宽资源。另外，由于语音通信系统中，说话人输入给终端的语音信号中通常都夹带有背景噪声，通过NS(Noise Suppression，噪声抑制)技术，可以有效降低或者抑制语音中夹带的背景噪声，显著改善听者的主观感受。

在语音激活检测VAD中，区别当前信号是语音还是非语音，本质上是看当前信号的特征是更接近背景噪声的特征还是更接近语音的特征，更接近的一方则为当前信号的类别。在噪声抑制NS中，为了削弱背景噪声对语音的影响，也需要知道当前背景噪声的某些特征，这样才能把这些特征从语音信号中去除掉，从而达到抑制噪声的目的。于是无论是语音激活检测VAD还是噪声抑制NS，都要涉及到一个关键的技术，即背景噪声跟踪。

目前，广泛使用的背景噪声跟踪技术是AMR(Audio/Modem Riser，声音/调制解调器插卡)VAD2中所用的背景噪声跟踪技术。该技术首先计算当前帧的SNR(Signal to Noise Ratio，信噪比)，如果SNR较小，小于背景噪声门限，则当前帧就被确认为是背景噪声帧；否则检测当前帧的基音和音调(tone)特征，如果当前帧具有基音和音调的特征，则将滞后计数器加1，否则进一步计算当前帧与其之前相邻若干帧的谱波动大小，如果当前帧的谱波动较大，大于一个门限，则认为当前帧可能不是噪声帧且将滞后计数器加1，否则认为当前帧可能是噪声帧且将连续噪声帧计数器加1。如果连续噪声帧计数器达到了50帧，则可确认当前帧应为背景噪声帧。并且，在连续噪声帧计数器累加的过程中，允许个别不确信的帧出现(以滞后计数器来表示)。当连续噪声计数器达到50帧时，如果滞后计数器不大于6(即不确信的帧不大于6帧)时，则确认当前帧为噪声帧，即此时不影响对当前噪声帧的确认。如果在连续噪声计数器累加的过程中，滞后计数器超过6帧，则重置连续噪声帧计数器，当前信号不确认为背景噪声。

发明人在实现本发明的过程中，发现上述现有技术至少存在以下缺点和不足：

一方面，上述背景噪声跟踪技术在跟踪速度上存在缺陷，当背景噪声发生突变时(指向SNR增大的方向变化，比如噪声电平突然升高的情况)，依靠SNR和背景噪声门限的比较已无法识别出噪声信号，只能等待连续50个噪声帧出现，导致跟踪速度慢。如果说话人的频率较快，无法满足出现连续50个噪声帧的条件，AMR VAD2将无法跟踪上背景噪声。另一方面，上述背景噪声跟踪技术在跟踪的准确性上存在缺陷，由于很多音乐信号中没有明显的基音和音调特征，则如果依据连续噪声计数器大于等于50且滞后计数器不大于6的条件，会将某些音乐信号也错误的判断为是背景噪声。

发明内容

为了提高跟踪背景噪声的速度、提高跟踪背景噪声的准确性，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法和装置。所述技术方案如下：

一方面，提供了一种实现通信系统中背景噪声的跟踪的方法，所述方法包括：

根据输入的音频信号，计算当前帧的信噪比SNR；

若所述当前帧的信噪比SNR不大于门限1，则累加帧计数器cnt2，并计算所述当前帧的音调特征以及信号稳定性特征；

当所述帧计数器cnt2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小；

根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

再一方面，提供了一种实现通信系统中背景噪声的跟踪的装置，所述装置包括：

第一处理模块，用于根据输入的音频信号，计算当前帧的信噪比SNR；

第二处理模块，用于若所述当前帧的信噪比SNR不大于门限1，则累加帧计数器cnt2，并计算所述当前帧的音调特征以及信号稳定性特征；

第三处理模块，用于当所述帧计数器cnt2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小1；

第四处理模块，用于根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

本发明实施例提供的技术方案的有益效果是：

通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的实现通信系统中背景噪声的跟踪的方法的流程示意图；

图2是本发明实施例2提供的实现通信系统中背景噪声的跟踪的方法的流程示意图；

图3是本发明实施例3提供的实现通信系统中背景噪声的跟踪的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

本领域技术人员可以获知：背景噪声跟踪技术的性能可以用两个指标来衡量，即跟踪的速度和跟踪的准确性。其中，跟踪的速度指识别出某背景噪声信号的时间与该信号实际发生时间之间的距离，距离越短跟踪速度就越快。跟踪的准确性指能够正确识别出背景噪声信号和非背景噪声信号，进而只在背景噪声信号中提取特征参数。

如前所述，现有的噪声跟踪技术普遍在跟踪准确性和跟踪速度上都存在不足。跟踪速度的不足主要出现在有变化较剧烈的背景噪声存在时，现有噪声跟踪技术需要一段比较长的时间，只有在背景噪声变的平稳且持续一段较长的时间之后才能有效的跟踪上。跟踪准确性的不足主要出现在有音乐信号存在时，由于很多的音乐信号中没有明显的基音和音调特征，现有背景噪声跟踪技术会把此类音乐信号误当成噪声信号进行跟踪，需要特别注意的是，此处没有明显的基音和音调特征的音乐信号是一种泛指，传输的信号中除语音信号、背景噪声信号以外的任何信号，只要没有明显的基音和音调特征的都可称为音乐信号。

有鉴于此，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法，旨在改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下，跟踪速度较慢的问题，以及改善现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题，参见图1，该方法内容如下：

S1：根据输入的音频信号，计算当前帧的信噪比SNR；

S2：若当前帧的信噪比SNR不大于门限1，则累加帧计数器cnt2，并计算当前帧的音调特征以及信号稳定性特征；

其中，音调特征，包括但不限于提取——频谱的最大峰谷比，频谱的局部峰谷比的线性组合，频谱的局部峰值数量，部分频谱的局部峰值数量，频谱的最大峰均比，频谱的局部峰均比的线性组合等。其中，信号稳定性特征，包括但不限于提取——总能量波动，子带能量波动，频谱最大峰值位置波动，频谱最大峰谷比位置波动，多个频谱局部峰值位置波动等。

S3：当帧计数器cnt2累加至时间窗口长度时，则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值，判断出时间窗口中含有噪声区间的可能性大小；

时间窗中含有噪声区间的可能性大小指时间窗中是否含有噪声及含有噪声的位置。对于一个时间窗中的音频帧，可能存在下列噪声区间可能性：当前帧为噪声帧，存在噪声帧。

S4：根据判断出的时间窗口含有噪声区间的可能性大小，提取时间窗口中的噪声特征。

对于当前帧为噪声帧的情况，可以直接提起当前帧的噪声特性，对于存在噪声帧的情况又具体包括：全噪声区间、大部分为噪声区间而仅有少量非噪声区间。对不同的类型根据不同情况提取噪声特征。

本发明实施例提供的方法，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

为了对上述本发明实施例提供的方法进行详细说明，请参见如下实施例：

实施例2

为了改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下，跟踪速度较慢的问题，以及现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法，参见图2，该方法内容如下：

101：根据输入的音频信号，计算当前帧的信噪比SNR。

对于输入的音频信号，各音频信号以帧格式的形式进行传输，首先需要对于当前帧进行信噪比的计算，其中，计算方法如下：

101A：获取当前帧的频谱信息，将当前帧的频谱非均匀的划分为16个子带。

其中，本实施例以将当前帧的频谱非均匀的划分为16个子带为例进行说明，具体实现时，可以采用均匀的划分方式，本实施例对此不做限制。另外，具体实现时，对划分得到的子带数目不做限制，例如，当对于频域分辨率要求较高的情况，则子带数目可以适当增加，但同时计算的复杂度会增大。具体应用时，根据技术人员的实际需要进行选择，本实施例对此不做限制。

101B：根据得到的子带，计算每个子带的snr(i)。

其中，snr(i)＝Es(i)/En(i)；snr(i)表示当前帧第i个子带的SNR，Es(i)和En(i)分别表示当前帧和背景噪声估计中第i子带的能量。

101C：根据计算得到的每个子带的snr(i)，得到当前帧的SNR。

其中，当前帧的SNR表示为所有子带snr(i)的和，即SNR＝∑snr(i)。

102：判断当前帧的SNR是否小于门限1，如果是，执行步骤103；否则执行步骤104。

其中，该门限1可以称为噪声门限，且该门限1的取值为一较小的数值，通常SNR的数值单位为分贝DB，相应地，该门限1的数值单位也为DB，具体实现时，对门限的数值单位不做限制。

103：确认当前帧是噪声帧。

进一步地，为了防止将能量较低的语音末尾当做背景噪声，由于该语音末尾由于能量较低，所以其SNR会有可能小于上述门限1，相应地，在步骤103还包括：将连续噪声计数器cnt1加1，之后判断连续噪声计数器cnt1是否大于门限2，如果是，则将当前帧确认为噪声帧；否则，则当前帧是语音末尾，流程结束。

104：当前帧的SNR不小于门限1，将帧计数器cnt2加1。

105：在将帧计数器cnt2加1的同时，计算当前帧的音调特征值参数和信号稳定性参数；且对最小子带能量缓存进行更新。

其中，上述音调特征值参数包括但不限于：频谱的最大峰谷比，频谱的局部峰谷比的线性组合，频谱的局部峰值数量，部分频谱的局部峰值数量，频谱的最大峰均比，频谱的局部峰均比的线性组合等。优选地，本实施例是以频谱最大的3个归一化峰谷比的和来表示音调特征值。详见如下：

tonal＝PVR_max1+PVR_max2+PVR_max3

其中PVR_max1，2，3分别表示当前帧频谱中最大的3个归一化峰谷比，归一化峰谷比PVR表示为

PVR＝[(peak-val_l)+(peak-val_r)]/E_avg

其中peak表示FFT谱的某个局部峰值，val_l和val_r分别表示FFT谱峰值peak左右两侧各4个

频点范围内搜索得到的最小值，表示peak两侧距peak最近的局部谷值，

E_avg表示FFT频谱能量的均值。

其中，上述信号稳定性参数包括但不限于：总能量波动，子带能量波动，频谱最大峰值位置波动，频谱最大峰谷比位置波动，多个频谱局部峰值位置波动等。优选地，本实施例以谱波动值、当前帧的频谱峰值位置波动值、当前帧的频谱最大峰谷比位置的波动值为例进行说明。分别详见如下：

1、谱波动值(spdev)，计算方法如下：

spdev = \frac{1}{N} \underset{i}{Σ} {(E_{w} (i) - M)}^{2}

其中M为E_w(i)的均值，E_w(i)为第i子带经谱减后的能量，表示为

E_w(i)＝E_s(i)/E_avg(i)

其中E_s(i)表示当前帧第i子带的能量，E_avg(i)表示第i子带的能量滑动平均，表示为

E_avg(i)＝α·E_avg(i)+(1-α)·E_s(i)

其中α是遗忘系数

2、当前帧的频谱峰值位置波动值(pflux)，表示FFT(Fast Fourier Transform，傅立叶变换)谱最大峰值位置的前后变化大小，计算方法如下：

p_flux＝idx_p max(0)-idx_p max(-1)

其中idx_p max(0)和idx_p max(-1)分别表示当前和前一帧中频谱最大峰值的FFT频点索引。

3、频谱最大峰谷比位置波动值(Mpflux)，表示帧内具有最大峰谷比的FFT谱峰值位置的前后变化大小，其计算方法如下。

Mp_flux＝idx_pvr max(0)-idx_pvr max(-1)

其中idx_pvr max(0)和idx_pvr max(-1)分别表示当前帧和其前一帧具有最大峰谷比的FFT频点

索引，峰谷比pvr的计算方法为

pvr＝4·E_{idx_peak}-(E_{idx_peak-1}+E_{idx_peak-2}+E_{idx_peak+1}+E_{idx_peak+2})

其中E_{idx_peak}表示局部峰值peak的能量，E_{idx_peak-i}和E_{idx_peak+i}分别表示peak左侧第i个和右侧

第i个FFT频点的能量。

其中，该步骤105中所涉及的对最小子带能量缓存进行更新，其作用是存储当前时间窗口中各个子带的最小能量值。

106：根据步骤105得到的参数值，和各参数对应的门限进行比较后，针对各参数而言，对于满足各自的条件的参数对应的计数器加1。详见如下：

106A：判断步骤105得到的当前帧的谱波动值是否小于门限3，如果是，则将弱谱波动计数器cnt3加1；否则，保持弱谱波动计数器cnt3不变。

106B：判断步骤105得到的音调特征值是否小于门限4，如果是，则将弱音调计数器cnt4加1；否则，保持弱音调计数器cnt4不变。

106C：判断步骤105得到的频谱最大峰谷比位置波动值是否小于门限5，如果是，则将稳定最大峰谷比位置计数器cnt5加1；否则，保持稳定最大峰谷比位置计数器cnt5不变。

106D：判断步骤105得到的频谱峰值位置波动值是否大于门限6，如果是，则将频谱峰值位置波动计数器cnt6加1；否则，保持频谱峰值位置波动计数器cnt6不变。

优选地，上述门限3可以取值为12、门限4可以取值为15、门限5可以取值为1、门限6可以取值为0。本实施例对各门限具体取值大小和取值单位不做限制，根据实际应用进行设置。

107：判断帧计数器cnt2计数是否等于预设的时间窗口长度；如果是，则执行步骤108；否则，执行步骤114。

其中，帧计数器cnt2的目的是为了建立一个时间窗口，本实施例中将该时间窗口的长度预设为30，即该时间窗口由30帧帧长组成，相当于帧计数器cnt2计数达到30，本实施例中在每一个这样的时间窗口内都会对信号特征进行分析，从中提取出可能存在的背景噪声特征。

108：判断弱音调计数器cnt4是否大于门限7，如果是，则执行步骤109；否则，执行步骤112。

109：弱音调计数器cnt4大于门限7，则认为在过去的30帧中存在噪声帧，则判断是否同时满足如下条件：弱谱波动计数器cnt3＞门限8、稳定最大峰谷比位置计数器cnt5＜门限9、频谱峰值位置波动计数器cnt6＞门限10、当前帧的谱波动spdev＜门限11，如果是，则执行步骤113；否则，执行步骤110。

110：判断是否同时满足如下条件：稳定最大峰谷比位置计数器cnt5＜门限9、频谱峰值位置波动计数器cnt6＞门限10；如果是，则执行步骤111；否则，执行步骤112。

111：将最小子带能量缓存中存储的子带能量作为噪声子带能量的特征。

其中，若执行到步骤111，则表示过去的30帧中至少存在噪声帧，且将最小子带能量缓存中存储的子带能量作为噪声特征。

112：将各计数器cnt1-6重置为0，并将最小子带能量缓存清空。

其中，若执行到步骤112，则表示过去的30帧中不存在噪声帧。

113：确认当前帧为噪声帧。

其中，若执行到步骤113，则可确认当前帧为噪声帧。

114：判断帧计数器cnt2是否大于30，如果否，则执行步骤115；否则，执行步骤116。

115：继续读取当前帧的下一帧，返回执行步骤101。

116：判断谱波动是否小于门限11，如果是，则执行步骤113，即确认当前帧为噪声帧；否则，执行步骤112，即将各计数器cnt1-6重置为0，并将最小子带能量缓存清空。

其中，若当前帧为非噪声帧，则可以不用提取时间窗口的噪声特征；若当前帧为噪声帧，则可以直接提取该噪声帧的特征值；若判断出时间窗户存在噪声帧，则可以通过以下方式方法，提取到该时间窗口的噪声特征，详见如下：

进一步地，若判断结果为时间窗口存在噪声帧时，则根据上述音调特征统计值和信号稳定性统计值，可以判断得出该时间窗口中含有背景噪声区间的类型(即包括全噪声区间、大部分为噪声区间而仅有少量非噪声区间)，具体如下：

1、判断该时间窗口中含有背景噪声区间是否为全噪声区间；例如，根据弱谱波动计数器cnt3，判断该弱谱波动计数器cnt3是否等于时间窗口长度，如果是，则认为该时间窗口中含有背景噪声区间为全噪声区间；否则，则认为该时间窗口中含有背景噪声区间不为全噪声区间；

2、判断该时间窗口中含有背景噪声区间是否是大部分为噪声区间而仅有少量非噪声区间；例如，根据弱谱波动计数器cnt3，判断该弱谱波动计数器cnt3是否小于时间窗口长度且大于预设取值(该预设取值为本领域技术根据实际需要所设定的经验值)，如果是，则认为该时间窗口中是大部分为噪声区间而仅有少量非噪声区间；

3、判断该时间窗口中不存在噪声区间。即如前所述，若执行到步骤112，则表示过去的30帧中不存在噪声帧。

进一步地，若上述判断得出该时间窗口中含有背景噪声区间是大部分为噪声区间而仅有少量非噪声区间，则进一步包括：判断上述少量的非噪声区间在该时间窗口中出现的位置，例如，上述少量的非噪声区间是否位于该时间窗口的前端，或，上述少量的非噪声区间是否位于该时间窗口的末端，或，上述少量的非噪声区间是否位于该时间窗口的两端。方法如下：获取不满足令弱谱波动计数器cnt3+1的帧，对于获取的帧得到帧的位置信息，根据所得到的位置信息，可以得出帧所在时间窗口的位置。例如，对于输入的音频信号的每个帧，在进行处理时，都会在缓存中记录其相关的信息，例如，对于满足令弱谱波动计数器cnt3+1的帧，在缓存中将其标识记为“1”；对于满足令弱谱波动计数器cnt3+1的帧，在缓存中将其标识记为“0”；相应地，此时，可以根据缓存中记录的相关内容，可以获知不满足令弱谱波动计数器cnt3+1的帧的位置信息，并进而可以获知少量的非噪声区间在该时间窗口中出现的位置。

当需要提取背景噪声的特征时，本发明实施例提供的方法还包括：

1、当该时间窗口中含有背景噪声区间为全噪声区间时，根据实际需要进行背景噪声的特征的提取。例如：提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征；或，提取该时间窗口内所有噪声区间的特征均值作为该背景噪声在该时间窗口的特征；或，提取该时间窗口内部分或全部噪声区间的加权特征值作为该背景噪声在该时间窗口的特征，本发明实施例对提取的方式和方法不做限制。

2、当该时间窗口中含有背景噪声区间为大部分为噪声区间而仅有少量非噪声区间时，

1)若非噪声区间不在时间窗口的末端时，则提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征；或，提取时间窗口中靠近末端的部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征；

2)若非噪声区间在时间窗口的末端时，则提取时间窗口中的最小特征值作为该背景噪声在该时间窗口的特征；或，提取部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征。

综上所述，本发明实施例提供的方法，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

实施例3

与上述方法实施例相应地，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的装置，参见图3，该装置包括：

第一处理模块301，用于根据输入的音频信号，计算当前帧的信噪比SNR；

第二处理模块302，用于若当前帧的信噪比SNR不大于门限1，则累加帧计数器cnt2，并计算当前帧的音调特征以及信号稳定性特征；

第三处理模块303，用于当帧计数器cnt2累加至时间窗口长度时，则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值，判断出时间窗口中含有噪声区间的可能性大小；

第四处理模块304，用于根据判断出的时间窗口含有噪声区间的可能性大小，提取时间窗口中的噪声特征。

其中，第一处理模块301，包括：

划分单元，用于根据输入的音频信号，获取当前帧的频谱信息，将当前帧的频谱划分为多个子带；

子带计算单元，用于根据得到的各子带，计算每个子带的信噪比snr(i)；

获得单元，用于根据计算得到的每个子带的snr(i)，得到当前帧的SNR。

其中，第二处理模块302，包括：

门限判断单元，用于判断当前帧的信噪比SNR是否大于门限1；

帧计数器累加单元，用于若判断单元判断结果为否时，累加帧计数器cnt2；

计算单元，用于计算当前帧的谱波动值、当前帧的音调特征值、当前帧的频谱峰值位置波动值以及当前帧的频谱最大峰谷比位置波动值。

其中，第三处理模块303，还包括：

累加单元，用于若当前帧的谱波动值小于门限3，则累加弱谱波动计数器cnt3；若当前帧的音调特征值小于门限4，则累加弱音调计数器cnt4；若当前帧的频谱最大峰谷比位置波动值小于门限5，则累加稳定最大峰谷比位置计数器cnt5；若当前帧的频谱峰值位置波动值大于门限6，则累加频谱峰值位置波动计数器cnt6；

判断单元，用于根据当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断时间窗口中是否存在噪声帧。

其中，判断单元具体用于如果弱音调计数器cnt4大于门限7，则时间窗口中无噪声帧；如果弱音调计数器cnt4不大于门限7，则若弱谱波动计数器cnt3大于门限8、稳定最大峰谷比位置计数器cnt5小于门限9、频谱峰值位置波动计数器cnt6大于门限10，且当前帧的谱波动值小于门限11，则当前帧为噪声帧；否则，若稳定最大峰谷比位置计数器cnt5小于门限9，且频谱峰值位置波动计数器cnt6大于门限10，则时间窗口中存在噪声帧；否则，时间窗口中无噪声帧。

其中，第三处理模块303，具体用于若弱谱波动计数器cnt3等于时间窗口长度，则时间窗口为全噪声区间；若弱谱波动计数器cnt3小于时间窗口长度且大于预设长度，则时间窗口为大部分为噪声区间且存在少量的非噪声区间；若时间窗口中无噪声帧。

若时间窗口为大部分为噪声区间且存在少量的非噪声区间，第三处理模块303还包括：位置类型判断单元，用于判断少量的非噪声区间在时间窗口出现的位置类型，位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

其中，位置类型判断单元具体用于根据弱谱波动计数器cnt3，获取不满足令弱谱波动计数器cnt3累加的帧，根据获取的帧，得到帧的位置，根据位置获得少量的非噪声区间在时间窗口出现的位置类型。

第四处理模块304具体用于若时间窗口为全噪声区间时，则提取时间窗口最末端的噪声区间的特征值；或，提取时间窗口内所有噪声区间的特征均值；或，提取时间窗口内部分或全部噪声区间的加权特征值；若时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果非噪声区间不在时间窗口的末端，则提取时间窗口最末端的噪声区间的特征值；或，提取时间窗口中靠近末端的部分噪声区间的加权特征值；如果非噪声区间在时间窗口的末端时，则提取时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。

20、如权利要求13所述的装置，其特征在于，所述第三处理模块，还用于当所述帧计数器cnt2大于所述时间窗口长度时，若所述当前帧的谱波动值小于门限11，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。

综上所述，本发明实施例提供的装置，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

本发明实施例中的“接收”一词可以理解为主动从其他模块获取也可以是接收其他模块发送来的信息。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现通信系统中背景噪声的跟踪的方法，其特征在于，所述方法包括：

根据输入的音频信号，计算当前帧的信噪比SNR；

2.如权利要求1所述的方法，其特征在于，所述根据输入的音频信号，计算当前帧的信噪比SNR的步骤，包括：

根据输入的音频信号，获取当前帧的频谱信息，将当前帧的频谱划分为多个子带；

根据得到的各子带，计算每个子带的信噪比snr(i)；

根据计算得到的每个子带的snr(i)，得到当前帧的SNR。

3.如权利要求1所述的方法，其特征在于，所述计算所述当前帧的音调特征以及信号稳定性特征的步骤，包括：

计算所述当前帧的音调特征值、所述当前帧的谱波动值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。

4.如权利要求3所述的方法，其特征在于，所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤之前，所述方法还包括：

若所述当前帧的谱波动值小于门限3，则累加弱谱波动计数器cnt3；

若所述当前帧的音调特征值小于门限4，则累加弱音调计数器cnt4；

若所述当前帧的频谱最大峰谷比位置波动值小于门限5，则累加稳定最大峰谷比位置计数器cnt5；

若所述当前帧的频谱峰值位置波动值大于门限6，则累加频谱峰值位置波动计数器cnt6；

根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断所述时间窗口中是否存在噪声帧。

5.如权利要求4所述的方法，其特征在于，当所述帧计数器cnt2累加至时间窗口长度时，所述判断所述时间窗口中是否存在噪声帧的步骤，包括：

如果所述弱音调计数器cnt4不大于门限7，则所述时间窗口中无噪声帧；

如果所述弱音调计数器cnt4大于门限7，则若所述弱谱波动计数器cnt3大于门限8、所述稳定最大峰谷比位置计数器cnt5小于门限9、所述频谱峰值位置波动计数器cnt6大于门限10，且所述当前帧的谱波动值小于门限11，则所述当前帧为噪声帧；否则，若所述稳定最大峰谷比位置计数器cnt5小于门限9，且所述频谱峰值位置波动计数器cnt6大于门限10，则所述时间窗口中存在噪声帧；否则，所述时间窗口中无噪声帧。

6.如权利要求5所述的方法，其特征在于，若所述时间窗口中存在噪声帧，所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤，包括：

若所述弱谱波动计数器cnt3等于所述时间窗口长度，则所述时间窗口为全噪声区间；

若所述弱谱波动计数器cnt3小于所述时间窗口长度且大于预设长度，则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间。

7.如权利要求6所述的方法，其特征在于，若所述时间窗口包含的噪声区间的类型为大部分为噪声区间且存在少量的非噪声区间，则所述方法还包括：

判断所述少量的非噪声区间在所述时间窗口出现的位置类型，所述位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

8.如权利要求7所述的方法，其特征在于，所述判断所述少量的非噪声区间在所述时间窗口出现的位置类型的步骤，包括：

根据所述弱谱波动计数器cnt3，获取不满足令所述弱谱波动计数器cnt3累加的帧，根据所述获取的帧，得到所述帧的位置，根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。

9.如权利要求8所述的方法，其特征在于，所述根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口的噪声特征的步骤，包括：

若所述时间窗口为全噪声区间时，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口内所有噪声区间的特征均值；或，提取所述时间窗口内部分或全部噪声区间的加权特征值；

若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果所述非噪声区间不在所述时间窗口的末端，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口中靠近末端的部分噪声区间的加权特征值；如果所述非噪声区间在时间窗口的末端时，则提取所述时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。

10.如权利要求1所述的方法，其特征在于，当所述帧计数器cnt2大于所述时间窗口长度时，所述方法还包括：

获得当前帧的谱波动值，若所述当前帧的谱波动值小于门限11，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。

11.一种实现通信系统中背景噪声的跟踪的装置，其特征在于，所述装置包括：

第三处理模块，用于当所述帧计数器cnt2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小。

第四处理模块，用于根据判断出的所述时间窗口中含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

12.如权利要求11所述的装置，其特征在于，所述第一处理模块，包括：

13.如权利要求11所述的装置，其特征在于，所述第二处理模块，包括：

门限判断单元，用于判断所述当前帧的信噪比SNR是否大于门限1；

帧计数器累加单元，用于若所述判断单元判断结果为否时，累加帧计数器cnt2；

计算单元，用于计算所述当前帧的谱波动值、所述当前帧的音调特征值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。

14.如权利要求13所述的装置，其特征在于，所述第三处理模块，还包括：

累加单元，用于若所述当前帧的谱波动值小于门限3，则累加弱谱波动计数器cnt3；若所述当前帧的音调特征值小于门限4，则累加弱音调计数器cnt4；若所述当前帧的频谱最大峰谷比位置波动值小于门限5，则累加稳定最大峰谷比位置计数器cnt5；若所述当前帧的频谱峰值位置波动值大于门限6，则累加频谱峰值位置波动计数器cnt6；

判断单元，用于根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断所述时间窗口中是否存在噪声帧。

15.如权利要求14所述的装置，其特征在于，所述判断单元具体用于如果所述弱音调计数器cnt4大于门限7，则所述时间窗口中无噪声帧；如果所述弱音调计数器cnt4不大于门限7，则若所述弱谱波动计数器cnt3大于门限8、所述稳定最大峰谷比位置计数器cnt5小于门限9、所述频谱峰值位置波动计数器cnt6大于门限10，且所述当前帧的谱波动值小于门限11，则所述当前帧为噪声帧；否则，若所述稳定最大峰谷比位置计数器cnt5小于门限9，且所述频谱峰值位置波动计数器cnt6大于门限10，则所述时间窗口中存在噪声帧；否则，所述时间窗口中无噪声帧。

16.如权利要求15所述的装置，其特征在于，所述第三处理模块，具体用于若所述弱谱波动计数器cnt3等于所述时间窗口长度，则所述时间窗口为全噪声区间；若所述弱谱波动计数器cnt3小于所述时间窗口长度且大于预设长度，则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间；若所述时间窗口中无噪声帧。

17.如权利要求16所述的装置，其特征在于，若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间，所述第三处理模块还包括：位置类型判断单元，用于判断所述少量的非噪声区间在所述时间窗口出现的位置类型，所述位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

18.如权利要求17所述的装置，其特征在于，所述位置类型判断单元具体用于根据所述弱谱波动计数器cnt3，获取不满足令所述弱谱波动计数器cnt3累加的帧，根据所述获取的帧，得到所述帧的位置，根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。

19.如权利要求17所述的装置，所述第四处理模块具体用于若所述时间窗口为全噪声区间时，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口内所有噪声区间的特征均值；或，提取所述时间窗口内部分或全部噪声区间的加权特征值；若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果所述非噪声区间不在所述时间窗口的末端，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口中靠近末端的部分噪声区间的加权特征值；如果所述非噪声区间在时间窗口的末端时，则提取所述时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。

20.如权利要求13所述的装置，其特征在于，所述第三处理模块，还用于当所述帧计数器cnt2大于所述时间窗口长度时，若所述当前帧的谱波动值小于门限11，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。