CN103295583A

CN103295583A - 用于提取声音的子带能量特征的方法、设备以及监视系统

Info

Publication number: CN103295583A
Application number: CN2012100439058A
Authority: CN
Inventors: 穆向禹; 刘贺飞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2013-09-11
Anticipated expiration: 2032-02-24
Also published as: CN103295583B

Abstract

本发明涉及一种用于提取声音的子带能量特征的方法和设备。这种用于提取声音的子带能量特征的方法，包括以下步骤：针对作为目标声音事件的训练数据而输入的声音信号，分离出多个滤波组；对于分离出的所有滤波组中的每一个计算滤波组能量；计算所述滤波组能量的统计信息；通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及基于所述分组的结果，计算子带能量特征。

Description

用于提取声音的子带能量特征的方法、设备以及监视系统

技术领域

本发明涉及对声音识别系统的改进，更具体地说，涉及一种用于提取声音的子带能量特征的方法、设备以及监视系统。

背景技术

在监视系统中，除了需要例如通过摄像机监视被监视对象的图像之外，有时还需要检测一些异常声音事件，例如，玻璃破碎声音、枪击声等等。因为这些异常声音事件可能意味着发生了闯入或暴力事件等等。当检测到这些异常声音事件时，可以采取例如鸣响警报器或者报警等应对措施。

为了不依靠人而对这些异常声音事件进行自动检测，子带能量(sub-band energy，SBE)特征是非常有用的。提取子带能量特征的一个关键步骤是把滤波组(filter bank)分组到子带中。通常，采用基于与声音无关的先验知识把滤波组分组到子带中的方法。因此，不论对于何种异常声音，都将使用相同的分组结果进行异常声音的检测。这就存在声音检测正确率低的问题。

例如，在Andriy Temko的“Acoustic Event Detection andClassification”(博士论文，Department of Signal Theory andCommunications Universitat Politècnica de Catalunya，Barcelona，December 2007)中，公开了一种用于提取声音的子带能量特征的方法，在该方法中滤波组被连续且均匀地分组到子带中。在美国专利申请公开US006087960A以及中国专利公开CN101404160B中也采用了这种方法(在下文中，称为现有技术1)。

图3是示出了现有技术1中使用的用于提取声音的子带能量特征的方法的流程图。在图3中，依次执行以下处理以提取子带能量特征。首先，输入训练数据的声音信号。在步骤310中，分离出滤波组，即，把输入的声音信号划分成多个频率分量(即，滤波组)。在步骤320中，基于所分离出的滤波组，计算每个滤波组的滤波组能量(filter bankenergy，FBE)。在步骤330中，进行线性分组，即，按顺序连续地把滤波组分组到子带中。最后，在步骤340中，根据所述分组，计算每个子带的子带能量，从而得到子带能量特征，其中，该子带能量特征是由各个子带的子带能量组成的矢量。具体地，一个子带的子带能量例如等于分组到该子带中的所有滤波组的滤波组能量FBE之和。该关系可以通过下面的式(1)表示：

SBE (j) = Σ_{k = n * (j - 1) + 1}^{n * j} FBE (k),

j＝1，2，...，N (1)

其中，N表示子带的数目，并且n表示每个子带中的滤波组的数目。图3中的阴影部分(即，步骤330)示出了现有技术1中使用的分组方法，而这是本发明要进行改进的部分。

在本说明书中，为了便于说明，给出如下的例子，在该例子中假定：输入的声音信号被分离成32个分量，即，基于输入的声音信号得到了32个滤波组；并且最终要求得到4个子带。这意味着要把32个滤波组分组到4个子带中。

对于该说明性例子，采用上面描述的现有技术1中的分组方法，得到了例如在图4中示出的示例性分组结果。即，滤波组被平均地(每个子带中的滤波组的数目相同)且连续地(每个子带中的滤波组的索引连续)分组到子带中。根据式(1)以及该说明性例子，使用现有技术1中的方法，可以得到如下的子带能量特征：

V_{SBE} = {Σ_{i = 1}^{8} FBE (i), Σ_{i = 9}^{16} FBE (i), Σ_{i = 17}^{24} FBE (i), Σ_{i = 25}^{32} FBE (i)},

其中FBE(i)表示第i个滤波组的滤波组能量。在这个例子中，N＝4，并且n＝8。

另外，还存在另外一种滤波组的分组技术。例如，在国雁萌、潘接林、颜永红的“基于子带能量的自适应端点检测”(第七届全国人机语音通讯学术会议，2003年)中，公开了一种基于损失函数进行滤波组分组的技术(在下文中，称为现有技术2)。在现有技术2中，通过找到使定义的损失函数最小的分割点来把滤波组分组到子带中。图5是示出了现有技术2中使用的用于提取声音的子带能量特征的方法的流程图。在图5中，步骤510、步骤520和步骤580与图3中的步骤310、步骤320和步骤340完全相同，其不同点仅仅在于阴影部分所示的分组方法。具体地，在图5中如下进行分组。首先，在步骤530中，设置一个分割点k，通过该分割点将索引连续的滤波组分成两个集合(1～k)和(k+1～n)。在步骤540中，计算第一个滤波组集合(1～k)的滤波组能量的方差D_low以及第二个滤波组集合(k+1～n)的滤波组能量的方差D_high。在步骤550中，不断改变k以找出使损失函数D_low+D_high为最小的分割点k。在步骤560中，当判定当前的分割点的数目不等于预先设定的子带数-1时，进行下一个循环；否则，分组完成，从而处理进行到步骤580。当在步骤560中的判定结果为否时，进入下一循环，在步骤570中，改变集合的边界，把集合(1～k)和(k+1～n)作为完整集合，分别进一步进行分割。

同样以上面给出的32个滤波组的情况作为示例对现有技术2的分组方法进行说明。图6示出了使用现有技术2的方法进行分组时得到的一种可能的结果。假定在第一次循环中，k＝14被确定为使损失函数最小的分割点，从而32个滤波组被分成两个集合(1～14)和(15～32)。在第二次循环中，这两个集合被进一步分割；通过分割点k＝8，集合(1～14)被分割为(1～8)和(9～14)；通过分割点k＝24，集合(15～32)被分割为(15～24)和(25～32)。在第二次循环结束时，分割点的数目(k＝8，14，24)等于子带数-1(4-1)，从而分组结束，得到了如图6所示的分组结果，其中通过分组得到的每个集合被作为一个子带。然后，根据该说明性例子，使用现有技术2中的方法，可以得到如下的子带能量特征：

V_{SBE} = {Σ_{i = 1}^{8} FBE (i), Σ_{i = 9}^{14} FBE (i), Σ_{i = 15}^{24} FBE (i), Σ_{i = 25}^{32} FBE (i)},

其中FBE(i)表示第i个滤波组的滤波组能量。

发明内容

本发明的发明人发现，对于不同的声音事件(例如玻璃破碎声或脚步声)，滤波组能量的分布特点是不同的。但是在现有技术1中，对于不同的声音事件均选择相同的分组，这并不能反映出不同声音事件的特征。另外，在现有技术1中，每个子带中的滤波组的索引必须是连续的。

本发明的发明人还发现，现有技术2虽然针对不同的声音事件具有不同的分组，但是现有技术2无法较好地描述特殊的声音事件(例如枪击声和玻璃破碎声等等)。在现有技术2中，尽管每个子带中的滤波组的数目可以不同，但是每个子带中的滤波组的索引仍然需要是连续的。在这种约束之下，具有相似的能量分布的滤波组由于其索引不连续而无法被分组到同一个子带中。

基于本发明的发明人发现的以上技术问题，本发明提供了一种用于提取声音的子带能量特征的方法、设备以及监视系统。

根据本发明的一个方面，提供了一种用于提取声音的子带能量特征的方法，包括以下步骤：针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；对于分离出的所有滤波组中的每一个计算滤波组能量；计算所述滤波组能量的统计信息；通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及基于所述分组的结果，计算子带能量特征。

根据本发明的另一方面，提供了一种异常声音检测方法，包括以下步骤：针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；对于分离出的所有滤波组中的每一个计算滤波组能量；计算所述滤波组能量的统计信息；通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；基于所述分组的结果，计算子带能量特征；以及至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。

根据本发明的另一方面，提供了一种用于提取声音的子带能量特征的设备，包括：分离单元，被配置为针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；滤波组能量计算单元，被配置为对于分离出的所有滤波组中的每一个计算滤波组能量；统计信息计算单元，被配置为计算所述滤波组能量的统计信息；分组单元，被配置为通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及特征计算单元，被配置为基于所述分组的结果，计算子带能量特征。

根据本发明的另一方面，提供了一种监视系统，其包括如上所述的用于提取声音的子带能量特征的设备。

根据本发明的另一方面，提供了一种异常声音检测设备，包括：分离单元，被配置为针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；滤波组能量计算单元，被配置为对于分离出的所有滤波组中的每一个计算滤波组能量；统计信息计算单元，被配置为计算所述滤波组能量的统计信息；分组单元，被配置为通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；特征计算单元，被配置为基于所述分组的结果，计算子带能量特征；以及检测单元，被配置为至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。

根据本发明的方法被用于得到依赖于目标声音事件的滤波组的分组。首先，利用目标声音事件的训练数据计算滤波组能量的统计信息，然后，使用聚类方法基于计算出的滤波组能量的统计信息来对滤波组进行分组。在每个子带中，滤波组的索引不需要连续。

通过把使用根据本发明的方法和设备而提取的声音的子带能量特征应用于异常声音检测，对于一些特殊声音事件(例如枪击声和玻璃破碎声等等)，可以获得更高的声音检测正确率。在下文中，将结合实验数据对本发明的技术效果给予更详细的说明。

通过参照附图的以下说明，本发明的另外的特征和优点将变得显而易见。

附图说明

包含在说明书中并且构成说明书的一部分的附图例示了本发明的实施例，并且与说明一起用来解释本发明的原理。

图1是例示了根据本发明的用于提取声音的子带能量特征的计算装置的布置的框图。

图2是示出了根据本发明的一个实施例的用于提取声音的子带能量特征的设备的一般结构的功能框图。

图3是示出了现有技术1中使用的用于提取声音的子带能量特征的方法的流程图。

图4示出了采用现有技术1的方法得到的示例性分组结果。

图5是示出了现有技术2中使用的用于提取声音的子带能量特征的方法的流程图。

图6是示出了采用现有技术2的方法得到的示例性分组结果。

图7是示出了根据本发明的一个实施例的用于提取声音的子带能量特征的方法的流程图。

图8是示出了计算滤波组能量FBE的统计信息的一个实施例的示意图。

图9是示出了根据本发明的一个实施例的采用K-Means算法对滤波组能量的统计信息进行聚类的处理的流程图。

图10是示出了根据本发明的另一个实施例的采用二叉树分裂算法对滤波组能量的统计信息进行聚类的处理的流程图。

图11是仅仅通过使用均值作为统计信息进行聚类而得到的分组结果的例子。

图12是通过使用均值和方差两者作为统计信息进行聚类而得到的分组结果的例子。

图13A示出了在各种不同的背景噪声下对枪击声进行检测的实验结果。

图13B示出了在各种不同的背景噪声下对玻璃破碎声进行检测的实验结果。

具体实施方式

在下面将参照附图详细说明本发明的实施例。

在本说明书中，滤波组是指把输入信号应用于带通滤波器的阵列而得到的一组结果信号，该带通滤波器的阵列把输入信号分离成多个分量(即，滤波组)，每个分量带有原始输入信号的一个频率带。

在本说明书中，子带具有比滤波组更大的频率范围，一个子带可以包含多个滤波组。

图1是例示了根据本发明的用于提取声音的子带能量特征的计算装置的布置的框图。为了简明起见，该系统被示出为建立在单个计算装置中。然而，无论该系统是建立在单个计算装置中还是建立在作为网络系统的多个计算装置中，该系统都是有效的。

如图1中所示，计算装置100用于实现提取声音的子带能量特征的处理。计算装置100可以包含CPU 101、芯片组102、RAM 103、存储控制器104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以及显示器108。计算装置100还可以包括连接在CPU 101和芯片组102之间的信号线111、连接在芯片组102和RAM 103之间的信号线112、连接在芯片组102和各种外围装置之间的外围装置总线113、连接在存储控制器104和硬盘驱动器106之间的信号线114、连接在存储控制器104和CD-ROM驱动器107之间的信号线115、以及连接在显示控制器105和显示器108之间的信号线116。

客户端120可以直接或经由网络130连接到计算装置100。客户端120可以将子带能量特征提取任务发送给计算装置100，并且计算装置100可以将子带能量特征的提取结果返回给客户端120。

图2是示出了根据本发明的一个实施例的由各个模块单元构成的用于提取声音的子带能量特征的设备的一般结构的框图。

如图2中所示，该用于提取声音的子带能量特征的设备200可以包括：分离单元201，被配置为针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；滤波组能量计算单元203，被配置为对于分离出的所有滤波组中的每一个计算滤波组能量；统计信息计算单元205，被配置为计算所述滤波组能量的统计信息；分组单元207，被配置为通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及特征计算单元209，被配置为基于所述分组的结果，计算子带能量特征。

在下文中，参照附图具体地描述根据本发明的实施例的用于提取声音的子带能量特征的方法。图7是示出了根据本发明的一个实施例的用于提取声音的子带能量特征的方法的流程图。该方法包括以下步骤：针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组(步骤710)；对于分离出的所有滤波组中的每一个计算滤波组能量(步骤720)；计算所述滤波组能量的统计信息(步骤730)；通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中(步骤740)；以及基于所述分组的结果，计算子带能量特征(步骤750)。

图7中的步骤710、步骤720和步骤750可以分别与图3中的现有技术1的方法的步骤310、步骤320和步骤340以及图5中的现有技术2的方法的步骤510、步骤520和步骤580相同。本发明旨在改进现有技术1和2的方法中的把滤波组分组到子带中的步骤，即，图3和图5中的阴影部分。

在步骤710中，针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组。为了便于说明，仍然以背景技术中的例子来说明根据本发明的实施例的方法。也就是说，假定：输入的声音信号被分离成32个分量，即，基于输入的声音信号得到了32个滤波组；并且最终要求分组成4个子带(这意味着要把32个滤波组分组到4个子带中)。在这里需要说明的是，作为输入的声音信号的训练数据由多个帧组成。每个帧持续预定的时间，例如20ms或30ms等。在一个实施例中，通过把输入的一帧声音信号应用于带通滤波器的阵列而分离成多个滤波组，每个滤波组带有原始输入的声音信号的一个频率带，其中带通滤波器的阵列中的滤波器的数量等于分离出的滤波组的数量(在以上的例子中，带通滤波器的阵列中的滤波器的数量是32个)。

在步骤720中，对于分离出的所有滤波组中的每一个，计算滤波组能量FBE。也就是说，当输入的声音信号为m帧并且每个帧被分离成n个滤波组时，针对m×n个分离出的滤波组中的每一个，执行步骤720。对于分离出的所有滤波组中的每一个计算滤波组能量FBE包括：把与该滤波组对应的频域信号输入到一组滤波器中与该滤波组对应的一个滤波器以输出该滤波组的滤波组能量，其中，所述一组滤波器中滤波器的数目等于所述多个滤波组的数目并且滤波器与滤波组之间具有一一对应关系。具体地说，所述滤波器相当于一个函数，其输入是在步骤710中得到的一个滤波组的频域信号而输出是该滤波组的滤波组能量FBE。也就是说，对于输入的一帧声音信号，可以采用下式计算其每个滤波组的FBE：

FBE(i)＝f_i(x_i) (2)

其中，x_i为第i个滤波组的频域信号，f_i()为与第i个滤波器对应的函数。在这里，为了便于说明，把第i个滤波器的作用简单地等同于函数f_i()。但是，需要注意的是，在实际中，f_i()涉及更为复杂的计算。因为在包括现有技术1和2的文献中以及在其它现有技术中已经公开了计算滤波组的滤波组能量FBE的各种方法，在本说明书中不再对具体的FBE计算方法进行详细的说明。

在步骤730中，计算所述滤波组能量FBE的统计信息(SI)。在一个实施例中，计算所述滤波组能量的统计信息包括计算每个滤波组在构成输入的声音信号的所有帧上的滤波组能量的均值、方差以及标准差中的至少一个。

图8是示出了计算滤波组能量FBE的统计信息的一个实施例的示意图。在图8中，包括了n个行以及m个列的FBE的值FBE(i，j)，其中n是滤波组的数量，m是声音帧的数量，FBE(i，j)表示第j帧的第i滤波组的FBE值。图8中的最右侧的一列示出了每个滤波组在构成输入的声音信号的所有帧上的滤波组能量的均值。下面的公式(3)示出了这种关系。图8中最右侧的一列中的M(i)即为公式(3)中的Mean_FBE(i)的简写形式。也就是说，统计信息M(1)为所有声音帧的第一个滤波组(即，图8中的第一行)的FBE值的均值；统计信息M(2)为所有声音帧的第二个滤波组(即，图8中的第二行)的FBE值的均值；依此类推，并且统计信息M(n)为所有声音帧的第n个滤波组(即，图8中的最后一行)的FBE值的均值。

在另一个实施例中，所述统计信息可以为每个滤波组在构成输入的声音信号的所有帧上的滤波组能量的方差或者标准差。可以通过上述的式(4)计算所述方差，并且可以通过上述的式(5)计算所述标准差。除了可以单独地应用滤波组能量FBE的均值、方差和标准差作为本发明的统计信息外，还可以应用滤波组能量FBE的均值、方差和标准差中的任意两个或全部作为本发明的统计信息。例如，在一个实施例中，当同时使用滤波组能量FBE的均值和方差时，统计信息为一个二维数据{Mean_FBE(1)，Var_FBE(1)}，...，{Mean_FBE(n)，Var_FBE(n)}。在另一个实施例中，当同时使用滤波组能量FBE的均值、方差和标准差时，统计信息为一个三维数据{Mean_FBE(1)，Var_FBE(1)，Deviation_FBE(1)}，...，{Mean_FBE(n)，Var_FBE(n)，Deviation_FBE(n)}。

在步骤740中，通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中。可以通过采用划分聚类方法或层次聚类方法实现所述聚类。所述划分聚类方法例如包括K-Means算法、K-MEDOIDS算法、CLARANS算法等。

下面，以K-Means算法作为示例进行说明。图9是示出了根据本发明的一个实施例的采用K-Means算法对滤波组能量的统计信息进行聚类的处理的流程图。

在步骤911中，定义子带的数目并且利用所计算出的统计信息随机地初始化每个子带。采用上文中的说明性示例，例如可以定义子带的数目为4并且把滤波组能量的均值M(1)至M(32)(在32个滤波组的情况下)随机地分配到4个子带中。

在步骤912中，计算每个子带中的当前统计信息的均值，该均值就是该子带在此时的中心。

在步骤913中，计算每个统计信息(例如32个M(i))与每个子带(例如4个子带)的中心的距离。

在步骤914中，针对每个子带调整统计信息。具体地，例如，当一个统计信息与它当前所属于的子带的中心的距离大于该统计信息与其他子带的中心的距离时，将该统计信息从当前的子带移动到所述距离最小的子带中。

在步骤915中，判定是否满足停止规则。当满足了停止规则时，循环停止；否则，继续进行下一个循环的调整。所述停止规则例如可以包括：a)达到预定的循环次数；或者b)子带之间的统计信息移动的数目小于一个阈值(该阈值为一个正整数)。

在步骤916中，基于K-Means聚类的结果对滤波组进行分组。具体地说，在所述聚类结束(步骤915的判定为是)之后其统计信息属于同一类的滤波组被分组到同一子带中。

以上的K-Means算法仅仅是为了说明而列举的划分聚类方法中的一种，诸如K-MEDOIDS算法、CLARANS算法等等的其它划分聚类方法同样可以被用来对统计信息进行聚类。

所述层次聚类方法就是对给定数据对象的集合进行层次分解，根据分层分解采用的分解策略，层次聚类法又可以分为凝聚式(agglomerative)和分裂式(divisive)层次聚类方法。凝聚式层次聚类方法采用自底向上的策略，首先将每一个对象作为一个类，然后根据某种度量(如2个当前类中心点的距离)将这些类合并为较大的类，直到所有的对象都在一个类中，或者是满足某个终止条件时为止。分裂式层次聚类方法采用与凝聚式层次聚类方法相反的策略(即，自顶向下)，它首先将所有的对象置于一个类中，然后根据某种度量逐渐细分为较小的类，直到每一个对象自成一个类，或者达到某个终止条件(如达到希望的类个数，或者两个最近的类之间的距离超过了某个阈值)。

由于层次聚类方法包括很多种算法，诸如二叉树分裂算法、BIRCH算法、CURE算法、CHAMELEON算法等等，在下文中，仅以二叉树分裂算法(一种分裂式层次聚类方法)作为示例进行说明。图10是示出了根据本发明的另一个实施例的采用二叉树分裂算法对滤波组能量的统计信息进行聚类的处理的流程图。

在步骤921中，定义子带的数目。采用上文中的说明性示例，例如可以把子带的数目定义为4。

在步骤922中，设置并初始化根节点。具体地，把在步骤730中计算出的滤波组能量的统计信息全部初始化到根节点中。

在步骤923中，将当前根节点中的统计信息随机地划分成两个部分。即，将所有统计信息分裂到根节点的两个叶子节点中。此时，每个叶子节点相当于一个子带。

在步骤924中，计算每个子带中的当前统计信息的均值，该均值就是该子带在此时的中心。

在步骤925中，计算每个统计信息(例如32个M(i))与每个子带(例如此时为2个子带)的中心的距离。

在步骤926中，针对每个子带调整统计信息。具体地，例如，当一个统计信息与它当前所属于的子带(叶子节点)的中心的距离大于该统计信息与其他子带的中心的距离时，将该统计信息从当前的叶子节点移动到另一个叶子节点中。

在步骤927中，判定是否满足停止规则。当满足了停止规则时，循环停止；否则，继续进行下一个循环的调整。所述停止规则例如可以包括：a)达到预定的循环次数；或者b)子带(叶子节点)之间的统计信息移动的数目小于一个阈值(该阈值为一个正整数)。

在步骤928中，判定当前的叶子节点数是否达到在步骤921中定义的子带的数目。当未达到定义的子带的数目时，返回到步骤922中。在步骤922中，把叶子节点(此时为两个)分别设置为根节点，然后递归地执行步骤923到步骤928的处理。即，把两个根节点继续分裂成4个叶子节点。当在步骤928中判定达到在步骤921中定义的子带的数目(例如4个)时，分类结束，处理进行到步骤929。

在步骤929中，基于二叉树分裂聚类的结果对滤波组进行分组。具体地说，在所述聚类结束(步骤928的判定为是)之后其统计信息属于同一类(即，同一叶子节点)的滤波组被分组到同一子带中。

通过采用上述的聚类方法对滤波组进行分组，例如可以得到图11和图12所述的分组结果。图11是仅仅通过使用均值作为统计信息进行聚类而得到的分组结果的例子。图12是通过使用均值和方差两者作为统计信息进行聚类而得到的分组结果的例子。图11和图12中的分组结果仅仅是示例性的，而并不是要限制本发明。列举它们仅仅是为了说明根据本发明的分组结果的特点：同一子带中的滤波组的数目不同；同一子带中的滤波组的索引不连续；并且同一子带中的滤波组的属性(统计信息)相近。

现在返回参照图7，在步骤750中，基于所述分组的结果，计算子带能量特征。在一个实施例中，所述计算子带能量特征包括计算每个子带中的滤波组的滤波组能量之和；将所述和除以该子带中的滤波组的数目得到的值作为该子带的子带能量；以及把各子带的子带能量形成为一个矢量，作为所述子带能量特征。在另一个实施例中，所述计算子带能量特征包括计算每个子带中的滤波组的滤波组能量之和作为该子带的子带能量；以及把各子带的子带能量形成为一个矢量，作为所述子带能量特征。

根据本发明的用于提取声音的子带能量特征的方法的应用包括异常声音检测。子带能量特征是为了进行异常声音检测而需要提取的特征之一，这些特征还可以包括例如梅尔系数(Mel FrequencyCepstral Coefficient，MFCC)、过零率(Zero Crossing Ration，ZCR)、谱质心(Spectral Centroid，SC)等等。

根据本发明的一种应用，提出了一种异常声音检测设备，除了包括图2所示的分离单元201、滤波组能量计算单元203、统计信息计算单元205、分组单元207和特征计算单元209之外，本发明的异常声音检测设备还包括检测单元，该检测单元被配置为至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。

另外，根据本发明的一种应用，提出了一种异常声音检测方法，除了包括图7所示的步骤710至步骤750之外，本发明的异常声音检测方法还包括：至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。

另外，本发明显然可以应用于监视系统，该监视系统包括如图2所示的提取声音的子带能量特征的设备。

在下面，将用实验数据说明根据本发明的用于提取声音的子带能量特征的方法和设备的技术效果。图13A和图13B示出了对于枪击声和玻璃破碎声分别采用现有技术1和2以及本发明的方法进行检测的实验结果。图13A示出了在各种不同的背景噪声下对枪击声进行检测的实验结果。图13B示出了在各种不同的背景噪声下对玻璃破碎声进行检测的实验结果。图13A和图13B中的评价量度基于F-score(F分数)，该F分数利用下面的式(6)进行计算：

F - score = \frac{2 * Precision * Recall}{Precision + Recall} - - - (6)

其中，

从图13A中可以看到，对于枪击声检测，在不同的背景噪声下的平均性能可能从53％提高到58％，从而性能相对地提高了大约9％。从图13B中可以看到，对于玻璃破碎声检测，在不同的背景噪声下的平均性能可能从25.5％提高到27.5％，从而性能相对地提高了大约8％。

在本说明书中，所有阈值的值都仅仅是示例性而非限制性的。

可以通过许多方式来实施本发明的方法和系统。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和系统。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是示例性的而非限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种用于提取声音的子带能量特征的方法，包括以下步骤：

针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；

对于分离出的所有滤波组中的每一个计算滤波组能量；

计算所述滤波组能量的统计信息；

通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及

基于所述分组的结果，计算子带能量特征。

2.根据权利要求1所述的方法，其中，所述训练数据由多个帧组成，并且计算所述滤波组能量的统计信息包括计算每一个滤波组在所述多个帧上的滤波组能量的均值、方差以及标准差中的至少一个。

3.根据权利要求1或2所述的方法，其中，所述聚类是通过采用划分聚类方法或层次聚类方法实现的。

4.根据权利要求3所述的方法，其中，所述划分聚类方法至少包括K-Means算法。

5.根据权利要求3所述的方法，其中，所述层次聚类方法至少包括二叉树分裂算法。

6.根据权利要求1所述的方法，其中，所述计算子带能量特征包括：

计算每个子带中的滤波组的滤波组能量之和；

将所述和除以该子带中的滤波组的数目得到的值作为该子带的子带能量；以及

把各子带的子带能量形成为一个矢量，作为所述子带能量特征。

7.根据权利要求1所述的方法，其中，所述计算子带能量特征包括：

计算每个子带中的滤波组的滤波组能量之和作为该子带的子带能量；以及

8.根据权利要求1所述的方法，其中，对于分离出的所有滤波组中的每一个计算滤波组能量包括：

把与该滤波组对应的频域信号输入到一组滤波器中与该滤波组对应的一个滤波器以输出该滤波组的滤波组能量，

其中，所述一组滤波器中滤波器的数目等于所述多个滤波组的数目并且滤波器与滤波组之间具有一一对应关系。

9.一种异常声音检测方法，包括以下步骤：

对于分离出的所有滤波组中的每一个计算滤波组能量；

计算所述滤波组能量的统计信息；

通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；

基于所述分组的结果，计算子带能量特征；以及

至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。

10.一种用于提取声音的子带能量特征的设备，包括：

分离单元，被配置为针对作为目标声音事件的训练数据而输入的每一帧声音信号，分离出多个滤波组；

滤波组能量计算单元，被配置为对于分离出的所有滤波组中的每一个计算滤波组能量；

统计信息计算单元，被配置为计算所述滤波组能量的统计信息；

分组单元，被配置为通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；以及

特征计算单元，被配置为基于所述分组的结果，计算子带能量特征。

11.根据权利要求10所述的设备，其中，所述训练数据由多个帧组成，并且所述滤波组能量计算单元包括被配置为计算每一个滤波组在所述多个帧上的滤波组能量的均值、方差以及标准差中的至少一个的单元。

12.根据权利要求10或11所述的设备，其中，所述聚类是通过采用划分聚类方法或层次聚类方法实现的。

13.根据权利要求12所述的设备，其中，所述划分聚类方法至少包括K-Means算法。

14.根据权利要求12所述的设备，其中，所述层次聚类方法至少包括二叉树分裂算法。

15.根据权利要求10所述的设备，其中，所述特征计算单元包括：

配置为计算每个子带中的滤波组的滤波组能量之和的单元；

配置为将所述和除以该子带中的滤波组的数目得到的值作为该子带的子带能量的单元；以及

配置为把各子带的子带能量形成为一个矢量，作为所述子带能量特征的单元。

16.根据权利要求10所述的设备，其中，所述特征计算单元包括：

配置为计算每个子带中的滤波组的滤波组能量之和作为该子带的子带能量的单元；以及

17.根据权利要求10所述的设备，其中，所述滤波组能量计算单元包括：

配置为把与该滤波组对应的频域信号输入到一组滤波器中与该滤波组对应的一个滤波器以输出该滤波组的滤波组能量的单元，

18.一种监视系统，包括如权利要求10所述的用于提取声音的子带能量特征的设备。

19.一种异常声音检测设备，包括：

分组单元，被配置为通过对所述滤波组能量的统计信息进行聚类，把分离出的所有滤波组分组到子带中，其中在所述聚类结束后所述统计信息属于同一类的滤波组被分组到同一子带中；

特征计算单元，被配置为基于所述分组的结果，计算子带能量特征；以及

检测单元，被配置为至少利用计算出的子带能量特征，针对作为监视对象的声音信号，检测是否出现异常声音。