CN102044246A

CN102044246A - 一种音频信号检测方法和装置

Info

Publication number: CN102044246A
Application number: CN200910110797.XA
Authority: CN
Inventors: 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2011-05-04
Anticipated expiration: 2029-10-15
Also published as: US20110194702A1; EP2407960A4; US20110091043A1; EP2407960B1; EP2407960A1; CN102044246B; US8050415B2; US8116463B2; WO2011044795A1

Abstract

本发明实施例公开了一种音频信号检测方法和装置，对输入的音频信号进行前景/背景检测，对检测到的背景信号帧进一步根据音乐特征值结合判定法则进行检测，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能。

Description

一种音频信号检测方法和装置

技术领域

本发明涉及音频领域的信号检测技术，尤其是一种音频信号检测方法和装置。

背景技术

在通信系统中，通常对输入的音频信号进行编码后传输到对端。在通信系统中，尤其是无线/移动通信系统中，信道带宽是一个比较稀缺的资源。在一个双向的通话中，某一方说话的时间大概只占总通话时间的一半左右，另一半都处在静音状态。在信道带宽比较紧张的情况下，如果通信系统只在人说话的时候传输信号，而在静音时停止信号的传输，将可以节省出大量的带宽分配给其它用户。为了达到这个目的，通信系统需要知道通话人何时开始说话，何时停止说话，即需要知道语音何时是激活的，这就需要语音激活检测(voice activity detection，VAD)。一般在语音激活时，语音编码器会采用较高的速率编码，而在无语音的背景信号阶段，编码器会采用较低的速率编码。通过语音激活检测技术，通信系统能够区分输入的音频信号是语音还是背景噪音，并采用不同的编码技术进行编码。

这种体制在通常的背景环境下都是可行的，但是当背景信号是音乐信号时，较低速率的编码会极大的影响听者的主观感受。因此一种新的需求被提出来，即VAD系统需要能够有效的识别出背景音乐的场景，并有针对性的提高背景音乐的编码质量。

在AMR VAD1中，有一种检测复杂信号的技术，一般来说，这里的复杂信号就是指音乐信号。在该VAD中，对每一帧信号，从AMR编码器中获得该帧的最大相关向量best_corr_hpm，并将其归一化在[0-1]的范围之内。对归一化后的最大相关向量best_corr_hpm求其长时的滑动平均相关向量corr_hp，计算方法为：

corr_hp＝α·corr_hp+(1-α)·best_corr_hp_m，

其中α为取值范围在[0.8，0.98]之间的遗忘系数

将每帧的corr_hp都与一高一低两个门限进行比较，如果出现连续8帧corr_hp都高于高门限的帧时，或者出现连续15帧corr_hp都高于低门限的帧时，则一个复杂信号标志complex_warning被设为1，表示复杂信号被检测到了。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺点：

上述技术虽然可以检测出音乐信号，但是并不能区分出是前景音乐还是背景音乐，因而不能根据带宽情况对背景音乐信号采用适合的编码技术。

发明内容

本发明的实施例提供一种音频信号检测方法和装置，能够从音频信号中检测出背景音乐。

根据本发明的一实施例，提供一种音频信号检测方法，包括：

将输入的音频信号分为多帧音频信号帧；

对每一帧音频信号帧进行背景检测；

当检测到背景信号帧时，将一个背景帧计数器加上一个步长值；获得所述背景信号帧的音乐特征值，将所述音乐特征值累加到一个背景音乐特征累加值；

当所述背景帧计数器达到一个预先设定的数量时，将所述背景音乐特征累加值与一个门限做比较，当背景音乐特征累加值符合门限判定法则时，则检测到背景音乐。

根据本发明的另一实施例，提供一种编码器，包括：

背景帧识别器，用于对输入的每一帧音频信号进行检测，输出背景信号帧或前景信号帧的检测结果；

背景音乐识别器，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测结果；其中，所述背景音乐识别器包括：

背景帧计数器，用于当检测到背景信号帧时，将步长值加到其值上；

音乐特征值获得单元，用于获得所述背景信号帧的音乐特征值；

音乐特征值累加器，用于累加所述音乐特征值；

判决器，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测结果。

本发明实施例，对于背景信号进一步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的音频信号检测方法的一个实施例的流程示意图；

图2为获得音频帧的音乐特征值的一个实施例的流程示意图；

图3为获得音频帧的音乐特征值的另一个实施例的流程示意图；

图4为获得音频帧的音乐特征值的另一个实施例的流程示意图；

图5为本发明提供的音频信号检测方法的另一个实施例的流程示意图；

图6为本发明提供的音频信号检测装置的一个实施例的结构示意图；

图7为本发明实施例提供的音乐特征值获得单元一个实施例的结构示意图；

图8为本发明实施例提供的音乐特征值获得单元另一个实施例的结构示意图；

图9为本发明提供的音频信号检测装置的另一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的一个实施例，一种音频信号检测方法，用于对音频信号进行检测以区分背景噪音和背景音乐，音频信号通常包含多个音频帧。该方法可以应用在编码器的前处理装置中。本发明实施例中提及的背景音乐指的是：信号类型为音乐并且为背景信号的音频信号。参考图1，该方法包括以下步骤：

S100：将输入的音频信号划分为多个音频信号帧；

S105：对输入的每一帧音频信号帧进行前景/背景检测，判定为前景信号或背景信号；

具体在判定音频信号帧为前景信号或背景信号时，可以采用多种实现方式。在一种实现方式中，可以由VAD对输入的音频信号帧进行判断，识别出前景信号帧或背景信号帧。VAD根据噪声信号的某些固有特征识别出背景噪声，并持续的跟踪，同时估计出背景噪声的某些特征参数，例如特征参数A，以An来表示背景噪声的该参数估计值。对输入的音频信号帧也提取其相应的特征参数A，以As表示输入信号的A参数值，计算该输入信号的特征参数值As到An的距离，当距离小于一个门限时，就认为As和An很近了，则认为输入信号也是背景噪声，否则就认为As和An距离较远，输入信号就是前景信号。上述的特征参数A可以是一个，也可以是几个，当特征参数为几个时计算参数距离时就要计算一个联合的距离。

S110：当检测到背景信号帧时，将一个背景帧计数器加上一个步长值；获得该音频帧的音乐特征值，将该音乐特征值累加入一个背景音乐特征累加值；

音乐特征值指表征该音频信号帧属于音乐信号的特征值。发明人发现：与背景噪音相比，背景音乐具有明显的峰值特征；背景音乐的最大峰值位置波动较不明显。在一个实施例中，采用音频信号帧频谱的局部峰值计算获得音乐特征值。在另一个实施例中，采用相邻音频帧的最大峰值位置波动获得音乐特征值。本领域技术人员可以理解的是，也可以根据其他特征值获得音乐特征值。步长值可以取1，或者取大于1的数。

S115：当背景帧计数器达到一个预先设定的数量时，将背景音乐特征累加值与一个门限做比较，当背景音乐特征累加值符合门限判定法则时，判定为检测到背景音乐，否则为背景噪音。

音乐特征值选不同的参数，门限判断法则也不同。在一种实施方式中，音乐特征值为归一化峰谷距离值时，判断法则为：当音乐特征值大于门限值，则判定为检测到背景音乐，否则为背景噪音。在另一种实施方式中，音乐特征值为最大峰值位置波动时，判断法则为：当音乐特征值小于门限值，则判定为检测到背景音乐，否则为背景噪音。

在完成本次音频信号检测后，将背景帧计数器和音乐特征累加值分别清零，进入下一次音频信号检测过程。进一步的，可以将检测帧之后的预定数量帧的背景信号帧标识为背景音乐，设置一个保护帧值(保护帧值即预定数量)，在后续音频信号检测过程中，每检测到一帧背景帧则将保护帧值减一。例如，当当前背景信号被判定为背景音乐时，设置背景音乐保护窗口b_mus_hangover＝1000，表示需要将其后的1000帧背景帧都保护为背景音乐帧。在后续的检测过程中，每检测出一个背景帧，b_mus_hangover减1，当b_mus_hangover小于0时，b_mus_hangover等于0。进一步的，上述检测过程中的门限可以根据保护窗口状态进行调整，当保护帧值大于0，则采用第一门限值，否则采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。检测到背景音乐后，当前帧之后的帧很可能也是背景音乐，通过门限值的调整，使检测到的音乐背景之后的音频帧更倾向于被判为背景音乐帧。例如，采用归一化峰谷距离值表征音乐特征值时，当背景音乐保护窗口b_mus_hangover大于0时，采用第一门限值mus_thr＝1300，否则采用第二门限值mus_thr＝1500。由于当当前帧为背景音乐时下一帧也为背景音乐的概率大于当前帧不是背景音乐时下一帧为背景音乐的概率，采用这种方法调整门限值，能够提高判断的准确度。

在检测到背景信号为背景音乐时，可以根据带宽情况灵活的调整背景音乐的编码方式，有针对性的提高背景音乐的编码质量。一般情况下，音频通信系统中背景音乐可以被当做是前景信号传输，采用较高的速率编码；在带宽紧张的情况下，可以把背景音乐做为背景来传输，采用较低的速率编码。此外，识别背景音乐还有助于提高语音/音乐分类器的分类性能，使其在有音乐背景的情况下能够调整分类判决方法，从而提高语音检测的准确率。

上述实施例中，对于背景信号进一步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；背景噪音误判率低，不会将背景噪音当做复杂信号而影响带宽；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。

参考图2，获得该音频帧的音乐特征值的一个实施例包括：

S200：对输入的背景信号帧进行FFT变换，获得FFT频谱；

S205：获得频谱上局部峰点的位置和能量大小；

搜索并记录频谱上局部峰点的位置和能量大小，局部峰点指频谱上能量大于前一个频点和后一个频点的频点，局部峰点的能量为局部峰值。对频谱上的第i个fft频点fft(i)，如果fft(i-1)＜fft(i)且fft(i+1)＜fft(i)，则第i个频点为局部峰点，i为局部峰点位置，fft(i)为局部峰值。记录频谱上所有局部峰点的位置和能量。

S210：根据位置和能量，分别计算所有局部峰点中每一个对应的归一化峰谷距离得到多个归一化峰谷距离值；

归一化峰谷距离有多种不同计算方式，在一种实施例中，采用如下方式计算归一化峰谷距离：对于每一个局部峰值peak(i)，搜索其左右各相邻若干个频点内的最小值，分别以vl(i)和vr(i)表示。计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值，获得归一化峰谷距离。在另一个实施例中所述两个差值之和也可以除以所述音频帧的部分频谱的能量均值，获得归一化峰谷距离。以64点的FFT频谱为例，计算该局部峰值peak(i)的归一化峰谷距离D_p2v(i)，

D_{p 2 v} (i) = \frac{2 \cdot peak (i) - vl (i) - vr (i)}{avg} - - - (1)

其中，peak(i)表示位置为i的局部峰点的能量，vl(i)和vr(i)分别表示位置为i的局部峰点的左侧最小值和右侧最小值，avg表示该帧频谱的能量均值。

avg = \frac{1}{61} Σ_{i = 2}^{63} fft (i) - - - (2)

其中，fft(i)表示位置为i的频点的能量。

左右相邻的频点数可以根据需要选择，例如，可以选择4个。计算每一个局部峰点对应的归一化峰谷距离，得到多个归一化峰谷距离值。

在另一种实施例中，采用如下方式计算归一化峰谷距离：对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。

例如，采用位置为i的局部峰值peak(i)左右侧相邻2个频点的距离和，计算该局部峰值peak(i)的归一化峰谷距离D_p2v(i)，

D_{p 2 v} (i) = \frac{4 \cdot peak (i) - fft (i - 1) - fft (i - 2) - fft (i + 1) - fft (i + 2)}{avg} - - - (3)

其中，fft(i-1)、fft(i-2)为局部峰值的左侧相邻频点的能量值，fft(i+1)、fft(i+3)为局部峰值的右侧相邻频点的能量值。avg为该音频帧的频谱能量均值：

S215：根据多个归一化峰谷距离值，获得音乐特征值。

选择归一化峰谷距离值的最大值作为音乐特征值；或计算归一化峰谷距离值中最大的至少两个值之和，得到音乐特征值。在一种实现方式中，计算峰谷距离值中最大的3个值之和，获得音乐特征值。当然，根据实际情况，可以选择其他数量的峰谷距离值，如计算最大的2个或4个峰谷距离值之和，获得音乐特征值。

积累每一帧背景帧的音乐特征值，背景帧计数器达到一个预先设定的数量时，将音乐特征累加值与一个门限比较，当大于该门限时判为检测到背景音乐，否则为背景噪声。

该实施例中，采用局部峰值对应的归一化峰谷距离计算音乐特征值，能较为准确的表征出背景帧的峰值特征，且算法复杂度低，易于实现。

参考图3，获得该音频帧的音乐特征值的另一个实施例包括：

S300：对输入的背景信号帧进行FFT变换，获得FFT频谱；

S305：选取部分频谱，获得选取的频谱上局部峰点位置和能量大小；

选取部分频谱，可以选取频谱上的至少一个局部区域。例如，可以选取位置大于10的频点作为选取范围，也可以在位置大于10的频点中进一步选择两个局部区域作为选取范围。搜索并记录选取的频谱上局部峰点的位置和能量，局部峰点指频谱上能量值大于前一个频点和后一个频点的频点，局部峰点的能量值为局部峰值。对频谱上的第i个fft频点fft(i)，如果fft(i-1)＜fft(i)且fft(i+1)＜fft(i)，则第i个频点为局部峰点，i为局部峰点位置，fft(i)为局部峰值。记录频谱上所有局部峰点的位置和能量。

S310：根据位置和能量，分别计算所有局部峰点中每一个对应的归一化峰谷距离得到多个归一化峰谷距离值；

归一化峰谷距离有多种不同计算方式，在一种实施例中，采用如下方式计算归一化峰谷距离：对于每一个局部峰值peak(i)，搜索其左右各相邻若干个频点内的最小值，分别以vl(i)和vr(i)表示。计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值，获得归一化峰谷距离，在另一个实施例中所述两个差值之和也可以除以所述音频帧的部分频谱的能量均值，获得归一化峰谷距离。以64点的FFT频谱为例，该局部峰值peak(i)的归一化峰谷距离D_p2v(i)，

D_{p 2 v} (i) = \frac{2 \cdot peak (i) - vl (i) - vr (i)}{avg} - - - (1)

avg = \frac{1}{62} Σ_{i = 2}^{63} fft (i) - - - (2)

其中，fft(i)表示位置为i的频点的能量。

D_{p 2 v} (i) = \frac{4 \cdot peak (i) - fft (i - 1) - fft (i - 2) - fft (i + 1) - fft (i + 2)}{avg} - - - (3)

S315：根据归一化峰谷距离值的最大值，获得音乐特征值。

采用这种方式，由于不用计算所有局部峰值的归一化峰谷距离，进一步降低算法复杂度。一般情况下，背景噪音的能量集中在低频部分，采用这种方式，也可以去除噪音的影响，提高判决的准确性。

参考图4，获得该音频帧的音乐特征值的另一个实施例包括：

S400：对输入的背景信号帧进行FFT变换，获得FFT频谱；

S405：获得频谱上局部峰点的位置和能量大小；

搜索并记录频谱上局部峰点及其位置，局部峰点指频谱上能量值大于前一个频点和后一个频点的频点，局部峰点的能量值为局部峰值。对频谱上的第i个fft频点fft(i)，如果fft(i-1)＜fft(i)且fft(i+1)＜fft(i)，则第i个频点为局部峰点，i为局部峰点位置，fft(i)为局部峰值。记录频谱上所有局部峰点的位置和能量。

S410：根据位置和能量，获得所有局部峰点中峰谷距离最大的频点的第一位置；

分别计算每一个局部峰点对应的峰谷距离值；获得峰谷距离值最大的峰点并记录其位置。

峰谷距离有多种不同计算方式，在一种实施例中，采用如下方式计算归一化峰谷距离：对于每一个局部峰值peak(i)，搜索其左右各相邻若干个频点内的最小值，分别以vl(i)和vr(i)表示。计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，两个差值之和即峰谷距离D。该局部峰值peak(i)的峰谷距离D：

D＝2·peak(i)-vl(i)-vr(i) (4)

其中，左右相邻的频点数可以根据需要选择，例如，可以选择4个。计算每一个局部峰点对应的峰谷距离，得到多个峰谷距离值，从中选择最大的峰谷距离并记录其位置。

在另一种实施例中，采用如下方式计算峰谷距离：对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；两个距离之和即峰谷距离。

例如，采用位置为i的局部峰值peak(i)左右侧相邻2个频点的距离和，计算该局部峰值peak(i)的峰谷距离D：

D＝4·peak(i)-fft(i-1)-fft(i-2)-fft(i+1)-fft(i+2) (5)

当然，在计算获得峰谷距离后，也可以根据公式2获得该音频帧的全部或部分频谱的能量均值，用峰谷距离除以能量均值对峰谷距离做归一化处理，具体可参见公式1和公式3。

S415：获得前一个音频帧所有局部峰点中归一化峰谷距离最大的频点的第二位置；

先搜索出局部峰值，按上一个步骤中的计算方法找出峰谷距离最大的那个峰值并记录下它的位置。

S420：计算第一位置和第二位置的差值，获得最大峰值位置波动作为音乐特征值。

例如最大峰值出现在当前音频帧FFT频谱上第i个频点，则计算最大峰值位置波动flux＝i-idx_old，其中idx_old是前一个音频帧的峰谷距离最大的局部峰值的位置。

积累每一帧背景帧的最大峰值位置波动，背景帧计数器达到一个预先设定的数量时，将累加后的最大峰值位置波动与一个门限比较，当小于该门限时判为检测到背景音乐，否则为背景噪声。

该实施例中，利用背景音乐的最大峰值位置波动与背景噪音项比较不明显的特性，采用最大峰值位置波动计算音乐特征值，能较为准确的表征出背景帧的峰值特征，且算法复杂度低，易于实现。

参考图5，下面以输入为8K采样的音频信号帧的具体判断的过程为例，描述音频信号检测方法的一个实施例。

输入为8K采样的音频信号帧，每帧长度为10ms，即每帧包含80个时域样点。在本发明的其它实施例中，输入信号也可以是其它采样率的信号。

将输入的音频信号划分为多个音频信号帧；对每一帧音频信号帧进行检测；当检测到背景信号时，一个背景帧计数器bcgd_cnt加1，同时该帧的音乐特征值tonality值被加入到一个背景音乐特征累加值bcgd_tonality中，表示如下：

当背景帧被检测到后，

bcgd_cnt＝bcgd_cnt+1

bcgd_tonality＝bcgd_tonality+tonality

其中tonlaity表示该背景帧的tonality值

对于一个背景音频帧，采用如下方式获得该帧的音乐特征值：

对输入的背景音频帧进行128点的FFT变换，得到FFT频谱。变换前的音频帧也可以是经过高通滤波和/或预加重处理后的时域信号。对得到的FFT频谱fft(i)，i＝0，1，2...63，首先搜索频谱上局部峰值的位置并记录：对第i个fft频点fft(i)，如果fft(i-1)＜fft(i)且fft(i+1)＜fft(i)，则将索引i保存在一个峰值存储peak_buf(k)中，peak_buf中的每一个元素即为一个频谱峰值的位置索引。

对peak_buf中位置索引大于10的每一个局部峰值peak(i)，搜索其左右各相邻5个fft频点内的最小值，分别以vl(i)和vr(i)表示。计算该局部峰值peak(i)的归一化峰谷距离D_p2v(i)，

D_{p 2 v} (i) = \frac{2 \cdot peak (i) - vl (i) - vr (i)}{avg} - - - (1)

avg = \frac{1}{62} Σ_{i = 2}^{63} fft (i) - - - (2)

其中，fft(i)表示位置为i的频点的能量。

在求得的上述位置索引大于10的所有局部峰值的归一化峰谷距离D_p2v(i)中搜索并保存最大的3个，计算这3个最大归一化峰谷距离之和以获得音乐特征值。

当背景帧计数器累加到100帧时，即当bcgd_cnt＝100时，将背景音乐特征累加值bcgd_tonality与一个音乐检测门限mus_thr做比较。如果bcgd_tonality＞mus_thr，则判定当前背景为音乐背景，否则为非音乐背景。此后，背景帧计数器bcgd_cnt和背景tonality累加值bcgd_tonality均清0。

在上述过程中，当当前背景被判定为音乐背景时，设置背景音乐保护窗口b_mus_hangover＝1000，表示需要将其后的1000帧背景帧都保护为背景音乐帧。每检测出一个背景帧，b_mus_hangover减1，当b_mus_hangover小于0时，b_mus_hangover等于0。上述过程中的音乐检测门限mus_thr是一个可变的门限，当背景音乐保护窗口b_mus_hangover大于0时，mus_thr＝1300，否则mus_thr＝1500。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

相应的，根据本发明的一个实施例，一种音频信号检测装置，用于对音频信号进行检测以区分背景噪音和背景音乐，音频信号包含多个音频帧，该检测装置属于编码器前处理装置。该音频信号检测装置能够执行前述方法实施例中的流程。参考图6，该音频信号检测装置包括：

背景帧识别器600，用于对输入的每一帧音频信号进行前景/背景检测，输出背景信号帧或前景信号帧的检测结果；

背景音乐识别器601，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测结果；其中，所述背景音乐识别器601包括：

背景帧计数器6011，用于当检测到背景信号帧时，将步长值加到其值上；

音乐特征值获得单元6012，用于获得所述背景信号帧的音乐特征值；

音乐特征值累加器6013，用于累加所述音乐特征值；

判决器6014，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测结果。

判决器6014，还用于确定背景特征累加值不符合门限判定法则，输出检测到非背景音乐的检测结果。

在完成本次音频信号检测后，将背景帧计数器和音乐特征累加值分别清零，进入下一次音频信号检测过程。

该编码器还包括：编码单元，用于根据带宽采用不同的编码速率对背景音乐进行编码。在检测到背景信号为背景音乐时，可以根据带宽情况灵活的调整背景音乐的编码方式，有针对性的提高背景音乐的编码质量。一般情况下，音频通信系统中背景音乐可以被当做是前景信号传输，采用较高的速率编码；在带宽紧张的情况下，可以把背景音乐做为背景来传输，采用较低的速率编码。

上述实施例中，对于背景信号进一步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。

参考图7，在一个实施例中，音乐特征值获得单元6012包括：

频谱获得单元701，用于获得所述背景信号帧的频谱；

峰点获得单元702，用于获得至少部分频谱上的局部峰点；

计算单元702，用于分别计算所有局部峰点中每一个对应的归一化峰谷距离，得到多个归一化峰谷距离值；并根据所述多个归一化峰谷距离值，获得音乐特征值。

峰点获得单元702可以获得频谱上的所有局部峰点，也可以获得部分频谱上的局部峰点。局部峰点指频谱上能量大于前一个频点和后一个频点的频点，局部峰点的能量为局部峰值。选取部分频谱，可以选取频谱上的至少一个局部区域。例如，可以选取位置大于10的频点作为选取范围，也可以在位置大于10的频点中进一步选择两个局部区域作为选取范围。

具体的，可以采用如下方式计算所述局部峰点的归一化峰谷距离：

对于每一个局部峰点，分别获得其左右各相邻4个频点内的最小值；

计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归一化峰谷距离。具体计算过程可以参照公式1和公式2的说明。

还采用如下方式计算该峰点的归一化峰谷距离：

对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；

用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。具体计算过程可以参照公式3的说明。

参考图8，在另一个实施例中，音乐特征值获得单元包括：

第一位置获得单元801，用于获得背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；

第二位置获得单元802，用于获得背景信号帧的前一帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；

计算单元803，用于计算第一位置和第二位置的差值，得到音乐特征值。

具体的，第一位置获得单元和第二位置获得单元，可以采用公式4或公式5获得一个音频帧的所有峰谷距离，选择峰谷距离最大值并记录其位置。

参考图9，进一步的，该音频信号检测装置还包括：

标识单元602，用于将当前音频帧之后的预定数量帧的背景信号帧标识为背景音乐。检测到背景音乐后，可以采用保护窗，把当前音频帧之后预定数量的背景帧标识为背景音乐。

进一步的，该音频信号检测装置还包括：

门限调整单元603，当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限取第一门限值，否则所述门限取第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。检测到背景音乐后，当前帧之后的帧很可能也是背景音乐，通过门限值的调整，使检测到的音乐背景之后的音频帧更倾向于被判为背景音乐帧。

上述实施例装置中的单元在物理上可以单独存在，两个或两个以上的单元在物理上可以集成成为一个模块。上述单元在物理上可以是芯片、集成电路等。

本发明实施例提供的方法及设备可使用在例如(但不限于)以下各种各样的电子装置中或与其相关联：移动电话，无线装置，个人数据助理(PDA)，手持式或便携式计算机，GPS接收机/导航器，照相机，MP3播放器，摄录机，游戏机，手表，计算器，电视监视器，平板显示器，计算机监视器，电子照片，电子布告板或招牌，投影仪，建筑结构及美学结构。也可将类似于本中请所述的装置配置为自身为非显示装置、但为单独的显示装置输出显示信号。

以上所述仅为本发明的几个实施例，本领域的技术人员依据申请文件公开的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。

Claims

1.一种音频信号检测方法，其特征在于，包括：

将输入的音频信号分为多帧音频信号帧；

对每一帧音频信号帧进行背景检测；

2.根据权利要求1所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括：

获得所述背景信号帧的频谱；

获得至少部分频谱上局部峰点的位置和能量；

根据位置和能量，分别计算所有局部峰点中每一个对应的归一化峰谷距离，得到多个归一化峰谷距离值；

根据所述多个归一化峰谷距离值，获得音乐特征值。

3.根据权利要求2所述的方法，其特征在于，采用如下方式计算所述局部峰点的归一化峰谷距离：

计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归一化峰谷距离。

4.根据权利要求2所述的方法，其特征在于，采用如下方式计算该峰点的归一化峰谷距离：

用两个距离之和除于所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。

5.根据权利要求2所述的方法，其特征在于，根据所述多个归一化峰谷距离值获得音乐特征值，包括：

选择归一化峰谷距离值的最大值作为音乐特征值；或

计算归一化峰谷距离值中最大的至少两个值之和，得到音乐特征值。

6.根据权利要求2所述的方法，其特征在于，所述门限判断法则为：所述音乐特征累加值大于门限。

7.根据权利要求1所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括：

根据背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；

根据背景信号帧的前一帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；

计算第一位置和第二位置的差值，得到音乐特征值。

8.根据权利要求7所述的方法，其特征在于，所述门限判断法则为：所述音乐特征累加值小于门限。

9.根据权利要求1所述的方法，其特征在于，检测到背景音乐后，还包括：

将当前音频帧之后的预定数量的音频帧标识为背景音乐。

10.根据权利要求9所述的方法，其特征在于，还包括：

当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限采用第一门限值，否则所述门限采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。

11.一种编码器，其特征在于，包括：

音乐特征值累加器，用于累加所述音乐特征值；

12.根据权利要求11所述的编码器，其特征在于，所述音乐特征值获得单元包括：

频谱获得单元，用于获得所述背景信号帧的频谱；

峰点获得单元，用于获得至少部分频谱上的局部峰点；

计算单元，用于分别计算所有局部峰点中每一个对应的归一化峰谷距离，得到多个归一化峰谷距离值；并根据所述多个归一化峰谷距离值，获得音乐特征值。

13.根据权利要求12所述的编码器，其特征在于，采用如下方式计算所述局部峰点的归一化峰谷距离：

14.根据权利要求12所述的编码器，其特征在于，采用如下方式计算该峰点的归一化峰谷距离：

用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。

15.根据权利要求11所述的编码器，其特征在于，所述音乐特征值获得单元包括：

第一位置获得单元，用于获得背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；

第二位置获得单元，用于获得背景信号帧的前一帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；

计算单元，用于计算第一位置和第二位置的差值，得到音乐特征值。

16.根据权利要求11所述的编码器，其特征在于，还包括：

标识单元，用于将当前音频帧之后的预定数量帧的音频帧标识为背景音乐。

17.根据权利要求16所述的编码器，其特征在于，还包括：

门限调整单元，当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限取第一门限值，否则所述门限取第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。

18.根据权利要求11所述的编码器，其特征在于，所述判决器，还用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值不符合门限判定法则，输出检测到非背景音乐的检测结果。