CN105338148B

CN105338148B - 一种根据频域能量对音频信号进行检测的方法和装置

Info

Publication number: CN105338148B
Application number: CN201410344826.XA
Authority: CN
Inventors: 许丽净
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2018-11-06
Anticipated expiration: 2034-07-18
Also published as: EP3136696B1; US20170076739A1; US10339956B2; EP3136696A1; EP3136696A4; WO2016008311A1; CN105338148A

Abstract

本发明实施例公开了一种根据频域能量对音频信号进行检测的方法和装置，该方法可包括：接收音频信号帧；获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性；根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征；将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧；根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。本发明实施例可以实现对音频信号的检测。

Description

一种根据频域能量对音频信号进行检测的方法和装置

技术领域

本发明涉及通信领域尤其涉及一种根据频域能量对音频信号进行检测的方法和装置。

背景技术

音频信号作为电子设备中十分常见的处理或者输出的信号。另外，随着电子技术的发展电子设备中处理或者输出的音频信号的种类也越来越多，例如：语音信号、彩铃、标准铃音、异常铃音、双音多频(dual-tone multifrequency，DTMF)信号和频移键控(Frequency-shift keying，FSK)信号等等。

由于电子设备中处理或者输出的音频信号的种类越来越多，那么势必需要对音频信号进行检测，得到音频信号的检测结果，例如：得到待检测的音频信号的分类或者特征等。但目前通信领域中却无法实现对音频信号的检测。

发明内容

本发明提供了一种根据频域能量对音频信号进行检测的方法和装置，可以实现对音频信号的检测。

第一方面，本发明提供一种根据频域能量对音频信号进行检测的方法，其特征在于，所述方法包括：

接收音频信号帧；

获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性；

根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征；

将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧；

根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

在第一方面的第一种可能的实现方式中，所述获取所述音频信号帧的频域能量分布，具体包括：

获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，具体包括：

对所述音频信号帧进行傅里叶变换得到频域信号；

根据得到所述频域能量分布比值；

其中，ratio_energy_k(f)表示频域能量分布比值，f表示谱线数，f∈[0,(F_lim-1)]，设FFT变换大小为F，F_lim≤F/2，Re_fft(i)表示FFT变换结果的实部，Im_fft(i)表示FFT变换结果的虚部，表示所述音频信号帧在f∈[0,(F_lim-1)]所对应频域范围内的能量总和，表示所述音频信号帧在0～f所对应频域范围内的总能量。

结合第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征，具体包括：

对所述频段能量分布比值进行求导，得到频段能量分布导数；

根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述对所述频段能量分布比值进行求导，得到频段能量分布导数，包括：

其中，N表示数值微分阶数；ratio_energy′_k(f)表示第k帧的频段能量分布导数；ratio_energy_k(n)表示第k帧的频段能量分布比值，

结合第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征，包括：

获取能量分布参数的导数值中的至少一个极大值；

根据每个所述极大值所处的谱线的位置得到所述音频信号帧的频域能量分布导数的极大值分布特征。

结合第一方面的上述任一实现方式，在第一方面的第六种可能的实现方式中，所述根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测，具体包括：

如果在所述帧集合的频域能量分布导数的极大值分布参数中，位于预设的第一区间的参数数量大于等于第一阈值，则确定待检测帧为标准的待检测信号；

如果待检测帧不是标准的待检测信号，但是在所述帧集合的频域能量分布导数的极大值分布参数中，位于预设的第二区间的参数数量大于等于第二阈值，则确定待检测帧为异常的待检测信号。

第二方面，本发明提供一种根据频域能量对音频信号进行检测的装置，包括：接收单元、获取单元、获得单元、集合单元和检测单元，其中：

所述接收单元，用于接收音频信号帧；

所述获取单元，用于获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性；

所述获得单元，用于根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征；

所述集合单元，用于将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧；

所述检测单元，用于根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

在第二方面的第一种可能的实现方式中，所述获取单元具体用于获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述获取单元具体用于对所述音频信号帧进行傅里叶变换得到频域信号；

以及根据得到所述频域能量分布比值；

结合第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述获得单元，包括：

求导单元，用于对所述频段能量分布比值进行求导，得到频段能量分布导数；

获得子单元，用于根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述求导单元执行的对所述频段能量分布比值进行求导，得到频段能量分布导数具体包括：

结合第二方面的第三种可能的实现方式或者第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述获得子单元具体用于获取能量分布参数的导数值中的至少一个极大值；以及根据每个所述极大值所处的谱线的位置得到所述音频信号帧的频域能量分布导数的极大值分布特征。

结合第二方面的上述任一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述检测单元具体用于：

上述技术方案中，接收音频信号帧后，获取所述音频信号帧的频域能量分布；再根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征；再将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧；这样就可以根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。从而本发明可以实现对音频信号进行检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种根据频域能量对音频信号进行检测的方法的流程示意图；

图2是本发明实施例提供的另一种根据频域能量对音频信号进行检测的方法的流程示意图；

图3是本发明实施例提供的另一种根据频域能量对音频信号进行检测的方法的流程示意图；

图4为标准铃音序列示意图；

图5为本实施例提供的频域能量分布曲线示意图；

图6为本实施例提供的频域能量分布曲线的导数示意图；

图7为本实施例提供的频域能量分布比值的导数极大值分布特征示意图；

图8为本实施例提供的标准铃音示意图；

图9为本实施例提供的标准单频铃音信号检测示意图；

图10为本实施例提供的标准双频铃音信号检测示意图；

图11为本实施例提供的异常铃音信号检测示意图；

图12是本发明实施例提供的一种根据频域能量对音频信号进行检测的装置的结构示意图；

图13是本发明实施例提供的另一种根据频域能量对音频信号进行检测的装置的结构示意图；

图14是本发明实施例提供的另一种根据频域能量对音频信号进行检测的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明实施例提供的一种根据频域能量对音频信号进行检测的方法的流程示意图，如图1所示，包括以下步骤：

101、接收音频信号帧。

步骤101可以是通过网络接收音频信号帧，或者通过录音装置接收音频信号帧。

可选的，上述音频信号帧可以是电子设备中可处理的任一音频信号中的音频信号帧，例如：语音信号、铃音信号、双音多频(dual-tone multifrequency，DTMF)信号和频移键控(Frequency-shift keying，FSK)信号等等。其中，上述铃音信号可以包括：彩铃、标准铃音和异常铃音。另外，上述音频信号帧可以是待检测的音频信号中任一位置的音频信号帧，例如：可以是待检测的音频信号的起始帧，或者可以是待检测的音频信号的中间部位的信号帧，或者可以是待检测的音频信号的结束帧。

102、获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性。

103、根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

104、将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧。

可选的，上述预设邻域范围可以是预先设置的帧数量范围，例如，上述音频信号帧预设邻域范围内的帧可以是指，与上述音频信号帧前后相邻的特定数量的音频信号帧，这样上述帧集合就包括上述音频信号帧以及与上述音频信号帧前后相邻的特定数量的音频信号帧。或者上述预设邻域范围可以是预先设置的时间范围，例如：上述音频信号帧预设邻域范围内的帧可以是指，与上述音频信号帧前后相信的特定时间接收到的音频信号帧，这样上述帧集合就包括上述音频信号帧以及与上述音频信号帧前后相信的特定时间接收到的音频信号帧。上述待检测帧可以是上述帧集合中包括的一个或者多个音频信号帧。

另外，可以通过步骤101、102和103得到上述帧集合包括的每个音频信号帧的频域能量分布比值的导数极大值分布特征，即步骤101、102和103可以执行多次。

105、根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

其中，上述帧集合的频域能量分布导数的极大值分布特征可以是指，上述帧集合中一个或者多个音频信号帧的频域能量分布导数的极大值分布特征，或者上述帧集合的频域能量分布导数的极大值分布特征可以是指，上述帧集合中各音频信号帧的频域能量分布导数的极大值分布特征。

可选的，步骤105可以是对上述待检测帧进行音频信号分类的检测，或者步骤105可以是对上述待检测帧进行音频信号特征的检测等等。

可选的，上述方法可以应用于任何具体计算和播放音频信号功能的电子设备，例如：平板电脑、手机、电子阅读器、遥控器、个人计算机(Personal Computer，PC)、笔记本电脑、车载设备、网络电视、可穿戴设备、网络设备、服务器、基站和通用媒体网关(UniversalMedia Gateway，UMG)等电子设备。

本实施例中，接收音频信号帧后，获取所述音频信号帧的频域能量分布；再根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征；再将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧；这样就可以根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。从而本发明可以实现对音频信号进行检测。

请参阅图2，图2是本发明实施例提供的另一种根据频域能量对音频信号进行检测的方法的流程示意图，如图2所示，包括以下步骤：

201、接收音频信号帧。

202、获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布。

其中，上述设定频域范围可以是预先设定，另外，可以是预先设定多个频域范围。

可选的，该实施方式中，上述获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，具体可以包括：

对所述音频信号帧进行傅里叶变换得到频域信号；

根据得到所述频域能量分布比值；

其中，f表示谱线数，f∈[0,(F_lim-1)]，设FFT变换大小为F，F_lim≤F/2，Re_fft(i)表示FFT变换结果的实部，Im_fft(i)表示FFT变换结果的虚部，表示所述音频信号帧在f∈[0,(F_lim-1)]所对应频域范围内的能量总和，表示所述音频信号帧在0～f所对应频域范围内的总能量。

203、根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

可选的，步骤203具体可以包括：

其中，步骤203可以是通过微分运算对所述频段能量分布比值进行求导，以得到频段能量分布导数。例如：步骤103可以通过拉格朗日(Lagrange)数值微分方法对所述频段能量分布比值进行求导。

可选的，上述对所述频段能量分布比值进行求导，得到频段能量分布导数的步骤，可以包括：

其中，N表示数值微分阶数；ratio_energy′_k(f)表示第k帧的能量分布比值的导数；ratio_energy_k(n)表示第k帧的能量分布比值，

通过上述公式就可以得到频段能量分布导数。

可选的，上述根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征的步骤，可以包括：

获取能量分布参数的导数值中的至少一个极大值；

其中，上述至少一个极大值可以是上述能量分布参数的至少一个导数值按照数值从高到低的顺序排序中排在前面的一个或者多个导数值，例如：上述至少一个极大值表示为一个极大值时，那么上述至少一个极大值可以是上述能量分布参数的导数值中的最大值；上述至少一个极大值表示为两个极大值时，那么上述至少一个极大值可以包括上述能量分布参数的导数值中上述能量分布参数的导数值中的最大值和第二大值。

由于上述得到了每个所述极大值所处的谱线的位置，那么就可以得到所述音频信号帧的频域能量分布导数的极大值分布特征。例如：上述音频信号帧的频域能量分布导数的极大值分布特征可以包括该音频信号帧能量分布参数的导数值中的至少一个极大值所处的谱线的位置。

204、将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧。

205、根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

可选的，步骤205可以是检测上述待检测帧是否为某一特定的待检测信号，例如：检测上述待检测帧是否为标准铃音，或者检测上述待检测帧是否为DTMF信号，或者检测上述待检测帧是否为FSK信号等。例如，步骤205可以包括：

可选的，所述帧集合的频域能量分布导数的极大值分布参数可以是指上述帧集合中各音频信号帧的频域能量分布导数的极大值分布参数，另外，频域能量分布导数的极大值分布参数可以是用于表示该频域能量分布导数的极大值分布特征的参数。另外，上述第一区间可以是预先设定与上述标准的待检测信号对应的参数区间，例如：预先设定与上述标准的待检测信号对应的谱线位置区间，且上述第一阈值也可以是预先设定与上述标准的待检测信号对应的阈值。上述第二区间可以是预先设定与上述异常的待检测信号对应的参数区间，例如：预先设定与上述异常的待检测信号对应的谱线位置区间，且上述第二阈值也可以是预先设定与上述异常的待检测信号对应的阈值。另外，上述第二区间的区间范围可以是大于或者小于第一区间的区间范围。

该实施方式中，可以实现先检测待检测帧是否为标准的待检测信号，若是，则确定检测待检测帧为标准的待检测信号，若否，则检测检测待检测帧是否为异常的待检测信号。从而可以实现检测出标准的待检测信号，以及检测出异常的待检测信号。

本实施例中，在第一个方法实施例的基础上增加了多种可选的实施方式，且都实现对音频信号的检测。

请参阅图3，图3是本发明实施例提供的另一种根据频域能量对音频信号进行检测的方法的流程示意图，本实施例中以检测铃音信号进行举例说明，具体以检测标准铃音和杂音进行详细说明。

其中，不同国家及地区的标准铃音规格是不同的，在很多场合以需要对音频信号进行检测，以检测音频信号是否为标准铃音或者异常铃音。其中，音频质量评估(VoiceQuality Monitor，VQM)模型的应用场合，该应用场合中待分析信号中可能会包括非语音信号，比如铃音信号等。这样在将待分析信号输入至VQM之前，应先对其进行信号分类。如果识别出该段序列为铃音信号等，则不送入VQM模块进行质量评估；否则，VQM会将其视为语音信号，给出错误的质量评估结果。针对该问题，本发明实施例提供的根据频域能量对音频信号进行检测的方法，可以通过对音频信号的频域能量变化进行分析，从而检测出铃音信号。

进一步地，还可以将本发明实施例提供的根据频域能量对音频信号进行检测的方法还可以应用于杂音检测。在某些应用场合，铃音与语音均会出现异常。举例说明，某通用媒体网关(Universal Media Gateway，UMG)的话音处理(Voice Processing Unit，VPU)单板上的某芯片出现问题，只要通过该芯片的呼叫必现异常，铃音及语音均严重变形，这样就会产生杂单，听不清楚。与异常语音相比，异常铃音更容易被检测出来。因此，可以通过检测异常铃音来检测出杂音。

如图3所述，上述方法可以包括以下步骤：

301，接收音频信号帧。

本实施例以检测铃音信号为例说明。但是本技术方案不限于检测铃音信号，也适用于其它多种信号，如DTMF信号、FSK信号等。

不同国家及地区的铃音具有不同的规格。在时域上，一个完整铃音信号可能包括一段周期信号，也可能包括两段周期信号；在频域上，周期信号段可能是单频信号或是双频信号的。

以图4所示的标准铃音序列为例说明，该序列由英国、美国、德国、日本、香港及法国铃音组合而成。其中，图4a为时域波形图，横轴为样本点，纵轴为归一化后的幅度。图4b为语谱图，横轴为帧数，在时域上与图4a的样本点是对应的；纵轴为频率。

由图4a可以看出，不同国家及地区的铃音在时域上的表现是不同的。其中，对于第一组英国铃音及第五组香港铃音，一个完整铃音信号包括两段周期信号；对于第二组美国铃音、第三组德国铃音、第四组日本铃音及第六组法国铃音，一个完整铃音信号包括一段周期信号。

由图4b可以看出，不同国家及地区的铃音在频域上的表现也是不同的。其中，第一组英国铃音、第二组美国铃音、第四组日本铃音及第五组香港铃音是双频序列，在语谱图上能够看到两处明显的“亮线”，也就是包括两个频率成份；第三组德国铃音及第六组法国铃音是单频序列，在语谱图上只能够看到一处明显的“亮线”，也就是只包含一个频率成份。不同国家及地区铃音的频率值是不同的。举例说明：双频序列中，英国铃音的频率值为400Hz及450Hz；单频序列中，德国铃音的频率值为425Hz。

302，获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性。

可选的，步骤402可以首先对音频信号进行快速傅里叶变换(Fast FourierTransformation,FFT)，得到音频信号的频域表示形式。然后获取音频信号帧的频域能量分布比值。音频信号帧的频域能量分布比值用于表征当前帧能量在频域上的分布特性。

设上述音频信号帧为某个音频信号的当前帧，该当前帧为第k帧，当前帧信号的频域能量分布比值的一般性公式为：

其中，f表示谱线数，f∈[0,F_lim-1]。设FFT的变换大小为F，F_lim≤F/2。Re_fft(i)表示第k帧的FFT变换结果的实部，Im_fft(i)表示第k帧的FFT变换结果的虚部。表示第k帧在i∈[0,(F_lim-1)]所对应的频域范围内的能量总和；表示第k帧在i∈[0,f]所对应的频率范围内的能量总和

F_lim的取值可以根据经验设定，例如可以设置为F_lim＝F/2，则公式(1)转换为公式(2)。

其中，表示第k帧的总能量；表示第k帧在i∈[0,f]所对应的频率范围内的能量总和。

图4b中的六条白色虚线所标示的第190帧、第1000帧、第1600帧、第1980帧、第2160帧及第3100帧分别处于六种不同的铃音序列中。针对图4所示的铃音序列，由上至下，图5的六个子图分别给出第190帧、第1000帧、第1600帧、第1980帧、第2160帧及第3100帧的频域能量分布曲线。其中，每个子图的横轴为谱线，取值范围为[1,(F/2-1)]。纵轴为百分比值，取值为0到100％。在本实施例中，设采样率为8kHz，FFT变换大小为1024，每根谱线所对应的频率分辨率为7.8125Hz。为了便于显示，横轴仅显示谱线取值为1到128之间的频域能量分布曲线。

由图5可见，如果铃音为单频信号，能量分布比值会在特定谱线附近从0％突变至100％。以第三个子图中的德国铃音为例，能量分布比值在谱线55处左右从0％突变至100％。已知德国铃音规定的频率值为425Hz，谱线55对应的频率值约为425.8Hz，位于425Hz的临近区域内。如果铃音为双频信号，能量分布比值会在第一个特定谱线附近从0％突变至50％左右，会在第二个特定谱线附近从50％左右突变至100％。以第一个子图中的英国铃音为例，能量分布比值在谱线52左右从0％突变至50％左右，在谱线58左右从50％左右突变至100％。已知英国铃音规定的频率值为400Hz及450Hz，谱线52及58对应的频率值约为402.3Hz及449.2Hz，位于400Hz及450Hz的临近区域内。

其中，谱线所对应的频率值之所以与规定的频率值之间存在一个较小的偏差，主要有两方面的原因。首先，铃音序列本身在特定频率分量处的分布具有一定的宽度；其次，受FFT变换精度所限。但是，谱线所对应的频率值一定会分布在该特定频率分量的邻近区域内，不会影响信号检测的效果。

303，根据所述音频信号帧的所述频域能量分布，得到所述音频帧信号的频域能量极大值分布特征。

步骤303为了进一步突出音频信号当前帧在频域上的分布特性，可以计算音频信号当前帧的频域能量分布比值的导数。计算频域能量分布比值的导数可以有很多方法，在此以拉格朗日(Lagrange)数值微分方法为例进行说明。

设上述音频信号为某一音频信号的当前帧，该当前帧为第k帧，利用Lagrange数值微分方法计算当前帧频域能量分布比值的导数的一般性公式为：

其中，N表示数值微分阶数；ratio_energy′_k(f)表示第k帧的频域能量分布比值的导数；ratio_energy_k(n)表示第k帧的能量分布比值，

N的取值可以根据经验设定，例如可以设置为N＝7，则公式(3)转换为下式。

其中，f∈[3,(F/2-4)]。当f∈[0,2]或f∈[(F/2-3),(F/2-1)]时，ratio_energy′_k(f)设置为0。

针对图5所示的第190帧、第1000帧、第1600帧、第1980帧、第2160帧及第3100帧频域能量分布曲线，由上至下，图6的六个子图分别给出频域能量分布曲线的导数。其中，横轴为谱线。为了便于显示，横轴仅显示谱线取值为45到70之间的频域能量分布曲线的导数。纵轴为导数值。

对照图5及图6可见，如果频域能量分布比值曲线在某一谱线处的能量分布比值显著增大，频域能量分布比值的导数一定会在该谱线处出现极大值。针对单频信号，以第三个子图中的德国铃音为例，频域能量分布比值在谱线55处左右从0％突变至100％；相对应地，频域能量分布比值的导数最大值出现在谱线55处。针对双频信号，以第一个子图中的英国铃音为例，能量分布比值在谱线52左右从0％突变至50％左右，在谱线58左右从50％左右突变至100％；相对应地，频域能量分布比值的导数最大值及第二大值也出现在谱线52及58处。

基于音频信号帧的频域能量分布比值的导数，进一步提取频域能量分布比值的导数极大值分布参数。频域能量分布比值的导数极大值分布参数用参数pos_max_L7_n表示，其中n表示频域能量分布比值的导数的第n大的值，pos_max_L7_n表示频域能量分布比值的导数的第n大的值所处的谱线位置。

在本实施例中，仅以提取音频信号当前帧的频域能量分布比值的导数最大值及第二大值的分布参数为例进行说明，即仅提取pos_max_L7_1及pos_max_L7_2。pos_max_L7_1及pos_max_L7_2

针对图4给出的标准铃音序列，图7给出pos_max_L7_1及pos_max_L7_2分布特征曲线。其中，实线表示pos_max_L7_1，虚线表示pos_max_L7_2；横轴为帧；纵轴为谱线位置，取值为[1,(F/2-1)]。为了便于显示，仅显示谱线取值为40到70之间的pos_max_L7_1及pos_max_L7_2分布特征曲线。

由图7可见，针对单频信号，以第三个铃音序列德国铃音为例，与规定的频率值425Hz相对应，pos_max_L7_1始终位于谱线55处，pos_max_L7_2位于相邻的谱线54处。针对双频信号，以第一个铃音序列英国铃音为例，与规定的频率值400Hz及450Hz相对应，pos_max_L7_1与pos_max_L7_2交替位于谱线52或是谱线58处。因此，通过步骤302及步骤303，将音频信号频域能量分布上的特征以频域能量分布比值的导数极大值分布特征体现出来。

304，将所述音频帧信号及所述音频帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧。

对音频信号进行检测时，虽然是对音频信号中的每一帧进行检测，但是需要使用每一帧及其相邻的若干帧的相关参数共同进行分析，才能够得到每一帧的检测结果。因此，需要通过步骤302及步骤303，得到帧集合中每一帧，包括待检测帧的频域能量分布比值的导数极大值分布特征。

305，根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

之所以能够将待检测音频信号与其它音频信号区分开来，是因为待检测音频信号在频域能量分布方面具有不同于其它音频信号的特征。进一步地，该特征也会体现在频域能量分布比值的导数极大值的分布特征上。因此，可以通过分析频域能量分布比值的导数极大值的分布特征来检测音频信号。

如果帧集合内的频域能量分布导数的极大值分布特征位于第一区间的帧的个数大于等于第一阈值，则待检测帧为标准的待检测信号；

如果待检测帧不满足上述条件，但是帧集合内的频域能量分布导数的极大值分布特征位于第二区间的帧的个数大于等于第二阈值，则待检测帧为异常的待检测信号。

本实施例以铃音检测为例说明。首先检测时域能量分布；在满足时域能量分布的基础上，进一步检测频域能量分布。

在时域上，一个完整铃音信号可能包括一段周期信号：即静音段+周期信号段1+静音段；也可能包括两段周期信号：即静音段+周期信号段1+静音段+周期信号段2+静音段。以图8所示的标准铃音为例，设一个完整铃音的时长为cycle-duration帧；周期信号段1的起止位置为第period1-on帧，结束位置为第period1-off帧；周期信号段2的起止位置为第period2-on帧，结束位置为第period2-off帧。针对不同国家及地区的铃音，cycle-duration、period1-on、period1-off以及可能的period2-on、period2-off的取值均是不同的。

设上述音频信号帧为某音频信号的当前帧，该当前帧为第k帧，检测时域能量分布是否满足如下要求：

检测可能的周期信号段1，即第k-cycle_duration+period1_on帧至第k-cycle_duration+period1_off帧是否具有较大能量；

如果待检测铃音存在第二个周期信号，检测可能的周期信号段2，即第k-cycle_duration+period2_on帧至第k-cycle_duration+period2_off帧是否具有较大能量；

检测其余帧是否处于静音段，即其余帧的能量是否足够小。

如果满足上述时域能量分布条件，说明第k-cycle_duration帧至第k帧信号可能为一个完整的铃音信号。再将其中的周期信号段作为帧集合，通过分析频域能量分布导数的极大值分布特征，确定该段信号是否为待检测的铃音信号。

需要说明的是，首先检测时域能量分布的目的在于：如果待检测信号的时域能量分布已经明显不符合特定类型标准铃音的要求，就可以判断该信号不是要识别的铃音信号，没有必要再进行频域能量分析，由此可以有效地降低算法复杂度。但是，检测时域能量分布只是一个初步检测步骤，进一步检测频域能量分布特性才是本方案的关键步骤。一方面，不同于铃音信号，许多待检测的信号在时域能量分布上没有固定规格，无法通过检测时域能量分布来进行初步检测；另一方面，即使是针对某种铃音信号，仅仅通过时域分析，也是不可能识别出正常信号及异常信号的。

频域能量分布可以分以下四种情况介绍：

标准单频铃音信号。

设符号&&表示关系“且”，符号||表示关系“或”。针对待检测帧对应的帧集合，检测步骤为：

依次检测pos_max_L7_1与pos_max_L7_2是否满足条件：

(pos_max_L7_1＝＝f)&&(pos_max_L7_2＝＝f-1)

统计满足条件a的帧的个数，记为num_pos；

检测num_pos是否满足条件num_pos≥N1。如果满足该条件，待检测帧为待识别的标准单频信号。

其中，f及f-1为针对标准单频信号的第一区间参数，N1为第一阈值。针对不同类型的单频铃音，f及N1的取值是不同的。N1的取值与不同类型的铃音规格有关；f的取值与不同类型的铃音规格、采样率及FFT变换大小有关。

针对标准单频铃音信号，图9给出周期信号段的pos_max_L7_1及pos_max_L7_2分布特征曲线。其中，实线表示pos_max_L7_1，虚线表示pos_max_L7_2；横轴为帧；纵轴为谱线位置。由图7可见，在周期信号段中，pos_max_L7_1始终分布在谱线f上，pos_max_L7_2始终分布在谱线f-1上。在本实施例中，设采样率为8kHz，FFT变换大小为1024。以德国铃音为例，设置f等于55。

标准双频铃音信号。

针对待检测帧对应的帧集合，检测步骤为：

依次检测pos_max_L7_1与pos_max_L7_2是否满足条件：

((pos_max_L7_1＝＝f_1)&&(pos_max_L7_2＝＝f_2))||

((pos_max_L7_1＝＝f_2)&&(pos_max_L7_2＝＝f_1))

统计满足条件a的帧的个数，记为num_pos；

其中，f_1及f_2为针对标准双频信号的第一区间参数，N1为第一阈值。针对不同类型的双频铃音，f_1、f_2及N1的取值是不同的。N1的取值与不同类型的铃音规格有关；f_1及f_2的取值与不同类型的铃音规格、采样率及FFT变换大小有关。

针对标准双频铃音信号，图9给出周期信号段的pos_max_L7_1及pos_max_L7_2分布特征曲线。其中，实线表示pos_max_L7_1，虚线表示pos_max_L7_2；横轴为帧；纵轴为谱线位置。由图7可见，在周期信号段中，除了起始位置及结束位置，pos_max_L7_1及pos_max_L7_2不是分布在谱线f_1上，就是分布在谱线f_2。并且，当pos_max_L7_1分布在谱线f_1上时，pos_max_L7_2就分布在谱线f_2上；当pos_max_L7_1分布在谱线f_2上时，pos_max_L7_2就分布在谱线f_1上。在本实施例中，设采样率为8kHz，FFT变换大小为1024。以英国铃音为例，设置f_1等于52，f_2等于58。

异常单频铃音信号。

针对待检测帧对应的帧集合，检测步骤为：

依次检测pos_max_L7_1与pos_max_L7_2是否不满足以下条件：

(pos_max_L7_1＝＝f)&&(pos_max_L7_2＝＝f-1)

依次检测pos_max_L7_1与pos_max_L7_2是否满足以下条件：

(pos_max_L7_1∈[f-df,f+df])&&(pos_max_L7_2∈[f-df,f+df])

统计同时满足条件a及b的帧的个数，记为num_pos；

检测num_pos是否满足条件num_pos≥N2。如果满足该条件，待检测帧为待识别的标准单频信号。

其中，f-df及f+df为针对异常单频信号的第二区间参数，N2为第二阈值。针对不同类型的单频铃音，f及N2的取值是不同的。N2的取值与不同类型的铃音规格有关；f的取值与不同类型的铃音规格、采样率及FFT变换大小有关。

异常双频铃音信号。

针对待检测帧对应的帧集合，检测步骤为：

依次检测pos_max_L7_1与pos_max_L7_2是否不满足以下条件：

(pos_max_L7_1＝＝f_1)&&(pos_max_L7_2＝＝f_2)或

(pos_max_L7_1＝＝f_2)&&(pos_max_L7_2＝＝f_1)

依次检测pos_max_L7_1与pos_max_L7_2是否满足以下条件：

(pos_max_L7_1∈[f_1-df,f_2+df])&&

(pos_max_L7_2∈[f_1-df,f_2+df])

统计满足条件a及b的帧的个数，记为num_pos；

其中，f_1-df及f_2+df为针对异常双频信号的第二区间参数，N2为第二阈值。针对不同类型的双频铃音，f_1、f_2及N2的取值是不同的。N2的取值与不同类型的铃音规格有关；f_1及f_2的取值与不同类型的铃音规格、采样率及FFT变换大小有关。

以异常双频信号为例，图11给出异常铃音检测示意图。其中，实线表示pos_max_L7_1，虚线表示pos_max_L7_2；横轴为帧；纵轴为谱线位置。前半部分给出标准信号的pos_max_L7_1及pos_max_L7_2，后半部分给出异常信号的pos_max_L7_1及pos_max_L7_2。由图11可见，前半部分标准信号的pos_max_L7_1及pos_max_L7_2的分布特征满足标准铃音的检测条件。后半部分异常信号的pos_max_L7_1及pos_max_L7_2的分布特征虽然已不满足标准铃音的检测条件，但是与其他信号相比，还是分布在一个限定范围内。

本实施例，具体以检测铃音信号进行举例说明，可以实现检测出标准铃音和杂音。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例一至三实现的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例一、实施例二和实施例三。

请参阅图12，图12是本发明实施例提供的一种根据频域能量对音频信号进行检测的装置的结构示意图，如图12所示，包括：接收单元121、获取单元122、获得单元123、集合单元124和检测单元125，其中：

接收单元121，用于接收音频信号帧。

接收单元121可以是通过网络接收音频信号帧，或者通过录音装置接收音频信号帧。

获取单元122，用于获取所述音频信号帧的频域能量分布，其中，所述频域能量分布表示所述音频信号帧在频域上的能量分布特性。

获得单元123，用于根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

集合单元124，用于将所述音频信号帧及所述音频信号帧预设邻域范围内的每一帧作为一个帧集合，该帧集合包括待检测帧。

检测单元125，用于根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测。

在另一个实施例中，检测单元125可以是对上述待检测帧进行音频信号分类的检测，或者检测单元125可以是对上述待检测帧进行音频信号特征的检测等等。

可选的，获取单元122具体可以用于获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布。

该实施方式中，获取单元122具体可以用于对所述音频信号帧进行傅里叶变换得到频域信号；

以及根据得到所述频域能量分布比值；

在另一个实施例中，如图13所示，获得单元123，可以包括：

求导单元1231，用于对所述频段能量分布比值进行求导，得到频段能量分布导数；

获得子单元1232，用于根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征。

其中，求导单元1231通过微分运算对所述频段能量分布比值进行求导，以得到频段能量分布导数。例如：求导单元1231可以通过拉格朗日(Lagrange)数值微分方法对所述频段能量分布比值进行求导。

可选的，求导单元1231执行对所述频段能量分布比值进行求导，得到频段能量分布导数具体包括：

通过上述公式就可以得到频段能量分布导数。

可选的，获得子单元1232具体可以用于获取能量分布参数的导数值中的至少一个极大值；以及根据每个所述极大值所处的谱线的位置得到所述音频信号帧的频域能量分布导数的极大值分布特征。

在另一个实施例中，检测单元125具体可以用于：

可选的，上述装置可以应用于任何具体计算和播放音频信号功能的电子设备，例如：平板电脑、手机、电子阅读器、遥控器、PC、笔记本电脑、车载设备、网络电视、可穿戴设备、网络设备、服务器、基站和UMG等电子设备。

请参阅图14，图14是本发明实施例提供的另一种根据频域能量对音频信号进行检测的装置的结构示意图，如图14所示，该装置包括：至少一个处理器141，例如CPU，至少一个网络接口142或者其他用户接口143，存储器145，至少一个通信总线142。通信总线142用于实现这些组件之间的连接通信。该计算节点140可选的包含用户接口143，包括显示器，键盘或者点击设备(例如，鼠标，轨迹球(trackball),触感板或者触感显示屏)。存储器145可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器145可选的可以包含至少一个位于远离前述处理器141的存储装置。

在一些实施方式中，存储器145存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统1451，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

应用程序模块1452，包含各种应用程序，用于实现各种应用业务。

在本发明实施例中，通过调用存储器145存储的程序或指令，处理器141用于：

接收音频信号帧；

另一个实施例中，处理器141执行的根据权利要求1所述的对音频信号进行检测的方法，其特征在于，所述获取所述音频信号帧的频域能量分布的操作，具体可以包括：

可选的，处理器141执行获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值的操作，具体可以包括：

对所述音频信号帧进行傅里叶变换得到频域信号；

根据得到所述频域能量分布比值；

另一个实施例中，处理器141执行的根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征的操作，具体可以包括：

可选的，处理器141执行的对所述频段能量分布比值进行求导，得到频段能量分布导数操作，可以包括：

可选的，处理器141执行的根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征的操作，可以包括：

获取能量分布参数的导数值中的至少一个极大值；

在另一个实施例中，处理器141执行的根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测的操作，具体可以包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种根据频域能量对音频信号进行检测的方法，其特征在于，所述方法包括：

接收音频信号帧；

根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测；

所述获取所述音频信号帧的频域能量分布，包括：

获取所述音频信号帧任一设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布；

所述获取所述音频信号帧任一所述设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，具体包括：

对所述音频信号帧进行傅里叶变换得到频域信号；

根据f∈[0,(F_lim-1)]得到所述频域能量分布比值；

2.根据权利要求1所述的对音频信号进行检测的方法，其特征在于，所述根据所述音频信号帧的所述频域能量分布，得到所述音频信号帧的频域能量分布导数的极大值分布特征，具体包括：

对频段能量分布比值进行求导，得到频段能量分布导数；

3.根据权利要求2所述的对音频信号进行检测的方法，其特征在于，所述对所述频段能量分布比值进行求导，得到频段能量分布导数，包括：

4.根据权利要求2或3所述的对音频信号进行检测的方法，其特征在于，所述根据所述频段能量分布导数，得到所述音频信号帧的频域能量分布导数的极大值分布特征，包括：

获取能量分布参数的导数值中的至少一个极大值；

5.根据权利要求1-3任意之一所述的对音频信号进行检测的方法，其特征在于，所述根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测，具体包括：

6.一种根据频域能量对音频信号进行检测的装置，其特征在于，包括：接收单元、获取单元、获得单元、集合单元和检测单元，其中：

所述接收单元，用于接收音频信号帧；

所述检测单元，用于根据所述帧集合的频域能量分布导数的极大值分布特征对所述待检测帧进行检测；

所述获取单元具体用于获取所述音频信号帧任一设定频域范围内的能量总和与所述音频信号帧在设定频域范围内的总能量的比值，所述比值表示所述音频信号帧的频域能量分布；

所述获取单元具体用于对所述音频信号帧进行傅里叶变换得到频域信号；

以及根据f∈[0,(F_lim-1)]得到所述频域能量分布比值；

7.根据权利要求6所述的对音频信号进行检测的装置，所述获得单元，包括：

求导单元，用于对频段能量分布比值进行求导，得到频段能量分布导数；

8.根据权利要求7所述的对音频信号进行检测的装置，其特征在于，所述求导单元执行对所述频段能量分布比值进行求导，得到频段能量分布导数具体包括：

9.根据权利要求7或8所述的对音频信号进行检测的装置，其特征在于，所述获得子单元具体用于获取能量分布参数的导数值中的至少一个极大值；以及根据每个所述极大值所处的谱线的位置得到所述音频信号帧的频域能量分布导数的极大值分布特征。

10.根据权利要求6-8任意之一所述的对音频信号进行检测的装置，所述检测单元具体用于：