CN103295584A

CN103295584A - 音声数据检测装置、音声监控系统及其方法

Info

Publication number: CN103295584A
Application number: CN2012100452160A
Authority: CN
Inventors: 刘昆; 吴伟国
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2013-09-11
Anticipated expiration: 2032-02-24
Also published as: CN103295584B

Abstract

本发明公开音声数据检测装置、音声监控系统及其方法。该音声检测装置：音声数据接收部件，被配置为接收输入的音声数据流；音声数据处理部件，被配置为利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及声音检测部件，被配置为针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测。

Description

音声数据检测装置、音声监控系统及其方法

技术领域

本发明涉及用于音声数据处理的音声数据检测装置、音声监控系统及其方法。

背景技术

近年来，为了保障整个家居环境内的人身财产安全，将监控器用于监控家庭以及周围环境得到了飞速发展。

家庭监控系统不仅通过拍摄图像来监控环境，还可以采集环境音声数据，并通过检测这些声音的类型来确定居室中是否发生了异常情况。例如，需要监控家庭中的婴儿房的时候，检测到婴儿的啼哭声则可判断发生了异常情况并通知业主；而在安全监控的需求下，检测到玻璃破碎声，尖叫声，长时间狗叫声，物体跌落声等可以判断发生了异常并进行报警。因此，需要研究如何对采集到的音声数据进行检测，并准确从中分辨出异常声音。

此外，对于采集生态环境音频数据进行分析，以研究环境中的生物类型等其他应用领域，也需要能够对音声数据进行处理以准确分类的技术，因此该领域是业内科技人员关注的热点课题。

现有的声音识别/检测技术对采集到的声音信号整体进行快速傅里叶变换，获取到声音的频谱，在此基础上提取声音的频率随时间的变化率、频谱能量分布等声音信号的特征数据，进行检测识别。然而，有些声音事件的持续时间很短，比如狗叫声，如果按上述的现有技术将整个音频流直接放到检测系统中进行检测的话，会产生很多的漏检，而无法从中分辨出存在的特定声音。

发明内容

本发明是在考虑到上述问题的情况下做出的。本发明提供音声数据检测装置和音声监控系统，其在对输入的音声数据进行检测分析前，通过谱聚类方法对音声数据流进行分段处理，得到多个单一类型的音声数据段再进行检测，从而避免短时声音事件的漏检。

根据本发明的一个方面，提供一种音声数据检测装置，包括：音声数据接收部件，被配置为接收输入的音声数据流；音声数据处理部件，被配置为利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及声音检测部件，被配置为针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测。。

在根据本发明的音声数据检测装置中，所述音声数据处理部件包括分窗处理部件，被配置为对所述音声数据流进行分窗处理，以得到多窗音声数据，并将每一窗音声数据划分为多个样本以用于谱聚类，其中每一样本包含多帧数据。

在根据本发明的音声数据检测装置中，所述分窗处理部件被配置为根据不定长分析窗对所述音声数据流进行分窗处理，以保证每一窗音声数据内包含的声音事件的完整性。

在根据本发明的音声数据检测装置中，所述分窗处理部件被配置为以预定时长作为初始窗长，每次递增固定步长并以初始窗边界为中心滑动寻找能量包络的最小极值点作为最终窗边界，其中所述极值点不包括由于微小扰动产生的极值点。

在根据本发明的音声数据检测装置中，所述音声数据处理部件还包括：拉普拉斯矩阵构建部件，被配置为构建表示由所述分窗处理部件处理得到的窗音声数据的多个样本的拉普拉斯矩阵；以及聚类部件，被配置为对所述拉普拉斯矩阵的特征向量空间中的特征向量进行聚类处理并将聚类结果映射到所述多个样本上，以将该窗音声数据划分为一个或多个单一类型的所述音声数据段。

在根据本发明的音声数据检测装置中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前三大特征值的相对大小关系，确定聚类处理中涉及的聚类数目。

在根据本发明的音声数据检测装置中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前两大特征值的差值与第二大和第三大特征值的差值之比，来确定聚类数目。

在根据本发明的音声数据检测装置中，在构建拉普拉斯矩阵之前，所述拉普拉斯矩阵构建部件被配置为对所述多个样本的能量特征进行归一化处理，然后映射到指数空间以提高能量特征间的区分性，以用于构建拉普拉斯矩阵。

在根据本发明的音声数据检测装置中，所述能量特征为时域能量特征，以及采用以下映射函数将每一样本中的每帧的时域能量特征映射到所述指数空间，

E_new (i) = 1 - \exp (- \frac{E {(i)}^{2}}{σ})

其中E(i)表示样本中第i帧的时域能量，E_new(i)表示其指数映射后的值，σ为尺度参数。

根据本发明的另一方面，还提供一种音声监控系统，包括：监控数据采集装置，被配置为采集待监控环境中的音声数据流以进行监控；以及音声数据检测装置，包括：音声数据接收部件，被配置为接收待监控环境中的音声数据流；音声数据处理部件，被配置为利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及声音检测部件，被配置为针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测，以检出所述待监控环境中的异常声音。

根据本发明的音声监控系统还可以包括：信号传送装置，被配置为将所述声音检测部件的检测结果传送给用户；以及用户终端，被配置为接收并呈现通过所述信号传送装置发送的检测结果。

根据本发明的音声监控系统还可以包括监控器控制装置，被配置为根据所述声音检测部件的检测结果和相应的指令，控制所述监控数据采集装置中的摄像头以调整拍摄范围并记录异常事件的音声和图像。

在根据本发明的音声监控系统中，所述音声数据处理部件包括分窗处理部件，被配置为对所述音声数据流进行分窗处理，以得到多窗音声数据，并将每一窗音声数据划分为多个样本以用于谱聚类，其中每一样本包含多帧数据。

在根据本发明的音声监控系统中，所述音声数据处理部件还包括：拉普拉斯矩阵构建部件，被配置为构建表示由所述分窗处理部件处理得到的窗音声数据的多个样本的拉普拉斯矩阵；以及聚类部件，被配置为对所述拉普拉斯矩阵的特征向量空间中的特征向量进行聚类处理并将聚类结果映射到所述多个样本上，以将该窗音声数据划分为一个或多个单一类型的所述音声数据段。

在根据本发明的音声监控系统中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前三大特征值的相对大小关系，确定聚类处理中涉及的聚类数目。

在根据本发明的音声监控系统中，在构建拉普拉斯矩阵之前，所述拉普拉斯矩阵构建部件被配置为对所述多个样本的能量特征进行归一化处理，然后映射到指数空间以提高能量特征间的区分性，以用于构建拉普拉斯矩阵。

根据本发明的另一方面，还提供一种音声数据检测方法，包括：接收输入的音声数据流；利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测。

根据本发明的另一方面，还提供一种音声监控方法，包括：采集待监控环境中的音声数据流以进行监控；利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测，以检出所述待监控环境中的异常声音。通过上述方案，引入谱聚类方法使得音声数据流被划分为较短且类型单一的音声数据段进行检测，同时又不会因为划分过细而影响检测效率和分析效果。此外，数据分析窗的边界可以落在声音事件的两端以尽可能保证声音事件的完整性，并且即使在声音事件和背景音相对差距较小的情况下也可以较好地区分特征。

附图说明

图1是示出根据本发明的一个实施例的音声监控系统的框图；

图2是图解根据本发明的音声数据检测部分的示意性框图；

图3是图解根据本发明的音声数据处理部分的示意性框图；

图4是图示时域能量与映射后的能量之间的正比关系的曲线图；

图5是图示根据本发明的一个实施例的声音检测部件的详细配置的框图；以及

图6是图示根据本发明的实施方式的异常音声监控方法的流程图。

具体实施方式

现在将参照附图描述本发明的实施方式。然而，本发明可以以多种不同的形式实施并且不应当理解为仅限于所图解的实施方式。相反，这些实施方式作为教导实例而存在。

图1是示出根据本发明的一个实施例的音声监控系统的框图。在图1中，该监控系统包括监控数据采集部分110，音声数据检测部分120、监控器控制部分130、信号传送部分140和用户终端150。

监控数据采集部分110用于采集待监控环境中要进行分析的音声数据，包括异常的玻璃破裂、婴儿啼哭、狗叫声、尖叫声、物体跌落声，也包括正常情况下的各种声音。在本发明的一个示例中，监控数据采集部分110可包括能够采集声音的监控摄像头，在本发明的另一个示例中，监控数据采集部分110也可仅包括声音拾取器以采集监控环境中的音声数据。

音声数据检测部分120从监控数据采集部分110接收音声数据流，利用谱聚类方法对所述音声数据流进行分段处理，将所述音声数据流分割为多个单一类型的音声数据段，并提取每一所述音声数据段的检测特征，利用预先建立的检测模型对该音声数据段的类型进行检测，以检出所述待监控环境中的异常声音。由于在对音声进行检测之前引入谱聚类的方法对连续的音声数据流进行分段处理，将音声数据流合理的划分为多个音声数据段，每个音声数据段内包含的声音属于同一类型，借此，按照音声数据段为单位提取检测特征，能够大大减少短时声音事件的漏检率，同时保证声音检测处理的效率，以使得本发明的检测方法能够用于监控数据的在线处理中。

图2图解了根据本发明的音声数据检测部分120的示意性框图。在图2中，根据本发明的音声数据检测部分120包括音声数据接收部件210、音声数据处理部件220以及声音检测部件230。

其中，音声数据接收部件210自监控数据采集部分110接收待监控环境中的音声数据流，并传送至音声数据处理部分220进行谱聚类处理。

谱聚类算法的思想来源于谱图理论。它将聚类问题看成是一个无向图的多路划分问题。定义一个图划分判据，最优化这一判据，使得同类内的点具有较高的相似性，而不同类之间的点具有较低的相似性。而求图划分判据的最优解是一个NP(Non-deterministic Polynomial)难问题，即多项式复杂程度的非确定性问题。一个很好的求解方法是考虑问题的连续放松形式，这样就可将原问题转换成求解图的拉普拉斯(Laplacian)矩阵的谱分解问题，因此，将这类方法统称为谱聚类。可以认为谱方法是对图划分判据的逼近。

谱聚类也可以利用类似于PCA(principle component analysis)子空间方法中的嵌入思想来解释。该方法同时使用矩阵的多个向量，利用这些特征向量构造一个简化的数据空间，在这个空间中数据的分布更加明显。

最常使用的判据是规范割集判据，即normalized-cut，以下简称N-cut，它的计算式是：

Ncut = \frac{cut (A, B)}{assoc (A, V)} + \frac{cut (A, B)}{assoc (B, V)} - - - (1)

其中A、B代表两个相互独立的类别A∪B＝V，A∩B＝φ，而

cut (A, B) = \underset{u &Element; A, v &Element; B}{Σ} ω (u, v),

cut (A, V) = \underset{u &Element; A, t &Element; V}{Σ} ω (u, t)

u、v分别表示A类和B类中的样本点，ω是两个样本间的相似性。

最小化N-cut，不仅考虑了使类间样本间的相似程度(cut(A，B))最小，也考虑了类间样本间的相异程度最大。

一般的谱聚类方法根据公式(1)将信号分成两类。

这种谱聚类方法的优点是，通过特征分解，可以获得聚类判据在放松了的连续域中的全局最优解；

谱聚类算法是一种配对聚类方法，算法仅与数据点的数目有关，而与维数无关，因而可以避免由特征向量的过高维数所造成的奇异性问题；

谱聚类方法不仅思想简单、易于实现、不易陷入局部最优解，而且具有识别非凸分布的聚类能力。本发明创造性的将谱聚类方法引入到声音检测当中，充分利用谱聚类方法的优点以合理将音声数据流分段。

图3进一步图解了音声数据处理部分220的示意性框图。结合图2、图3一并来介绍音声数据检测部分120的工作过程。根据图3，音声数据处理部件220包括分窗处理部件310、拉普拉斯矩阵构建部件320以及聚类部件330。分窗处理部件310对输入的音声数流据进行分窗处理，将数据流划分为多窗音声数据，在将每一窗音声数据划分为数目固定的多个样本，其中每一样本包含有多帧的数据，设置分窗处理部件310的目的是便于后续对每一窗音声数据进行谱聚类处理。

根据本发明的一个实施例，可以获取一固定窗长的窗数据，并将输入数据划分成样本序列S＝{s₁，s₂，...，s_n}，其中s_i代表某一样本，每个样本包含若干帧，样本和样本之间没有重叠。

根据本发明的另一个可选实施方式，分窗处理部件310选择不定长的分析窗代替上述的固定分析窗，以便使窗边界尽量落在声音事件的两端，从而尽可能保证声音事件的完整性，以避免窗边界正好落在一个声音事件中间而将一个声音事件生硬的分成几部分的情况。在实现过程中，分窗处理部件310采用的方法是：设置一个A秒左右的固定窗长作为初始窗边界，并设置一个前后延拓范围(δ)，相当于一个滑动窗(A-δ，A+δ)，每次递增固定步长并在以初始窗边界为中心的滑动窗内寻找能量包络的最小极值点作为最终的窗结束边界，若该范围内没有极小值则继续向后延拓，直到找到最小极值点或达到窗长上限，若达到窗长上限(B+δ)仍没找到极值点，则以该上限作为最终窗结束边界。在背景音部分以及较长的声音事件上由于微小扰动也会产生很多极值点，剔除这些极值点作为窗边界的情况，可以使分割结果更加完整，尤其对静默或聒噪段，效果提升更加明显。因此，本发明还引入一个筛选条件剔除能量微小扰动找到的极值点。可以选择能量比例作为筛选条件，比如小于5％能量的认为是能量微小扰动，不作为能量极值点处理。

通过这样的分窗处理，除因为达到时长上限造成的硬性分割外，窗边界已基本能分布在声音事件的两端，一定程度上保证了较短声音事件的完整性。

接下来，针对每一窗音声数据，拉普拉斯矩阵构建部件320计算该窗音声数据中的样本之间的距离d(s_i，s_j)，用以产生表示样本的拉普拉斯矩阵L(也就是样本集矩阵)。

根据本发明的一个实施方式，第一样本与第二样本之间的距离是根据第一样本中包含的各帧数据与第二样本中包含的各帧数据之间的距离计算得到的。各帧间的距离可通过比较各帧的频谱能量、MFCC等特征参数计算得到。本发明根据实验研究发现采用时域能量特征参数来计算样本间各帧的距离，鉴别性更强，性能较佳，因此在本实施例中采用时域能量特征参数。

根据本发明的一个可选实施方式，拉普拉斯矩阵构建部件320对各样本的时域能量特征进行了归一化处理，然后将其映射到一个指数空间，以在计算样本间的距离前提高特征的区分性。这样可以避免在声音事件和背景音相对差距较小的情况下，特征的区分性不强，分段处理的效果不佳而导致最终检测不准确。根据本发明的实施方式，所采用的映射函数如下：

E_new (i) = 1 - \exp (- \frac{E {(i)}^{2}}{σ}) - - - (2)

其中E(i)表示样本中的第i帧能量，E_new(i)表示其指数映射后的值，σ为尺度参数。根据经验和实验观察，σ取0.25。从公式(2)可以看出，时域能量与映射后的能量之间成一种正比关系。

图4是图示时域能量与映射后的能量之间的正比关系的曲线图。如图4所示，该图的横轴代表归一化能量，纵轴代表映射后的能量，曲线表示指数映射关系，直线是y＝x(线性映射)。可以看出，该指数映射不但使能量大的值映射之后更大，小的映射之后更小。而且，一定程度上增加了不同音频特征间的区分性。实验证明加入归一化能量指数映射之后的分段效果较之前有明显提高。

之后，拉普拉斯矩阵构建部件320再根据样本之间的距离d(s_i，s_j)产生相似性矩阵A，其中

参数σ是经验值。通过实验验证得到的较好的参数，可以取为0.2或者0.3。然后由A计算拉普拉斯矩阵L＝D^-1/2AD^-1/2，其中D是一个仅是对角线上不为零的矩阵，对角线上的元素(i，i)等于相似性矩阵A的第i行元素的和。

接下来，聚类部件330利用k-means或其它经典聚类算法对拉普拉斯矩阵构建部件得到的矩阵L的特征向量空间中的特征向量进行聚类，并将聚类结果映射到样本序列上，从而将一窗音声数据划分为一个或多个单一类型的音声数据段。根据本发明的一个可选实施例，聚类部分4330可以通过特征值的分布情况自动确定聚类个数。具体的，本发明根据“On spectral clustering：Analysis and an algorithm，Ng A Y，Jordan M I，weiss Y.T.G.Dietterich，S Pecker，and Ghahramani，eds.Advances in Neural Information ProcessingSystems，Cam-bridge，MA，MIT Press，2002，14：849-856”中提出的理论作为出发点，通过创造性的构思来实现能够自动确定聚类个数的聚类。

根据该文献，对于存在k个理想的彼此分离的有限数据集，可以证明拉普拉斯矩阵L的前k个最大特征值大于1，第k+1个特征值则严格小于1，二者之间的差距取决于这k个数据集的分布情况，当数据集内部分布得越密，各数据集之间分布得越开时，第k+1个特征值就越小。

基于此，本申请提出，通过特征值的分布情况可以自动的确定聚类个数。在本发明的一个实施例中，在聚类最多只能分成两类的情况下，如果前两大特征值接近1，第三大特征值远小于1，则聚类个数k为2；如果仅第一大特征值接近1，从第二大特征值开始就远小于1，则聚类个数k为1。

因此，在聚类最多只能分成两类的情况下，只需观察前三大特征值的大小即可。经发明人观察发现：第一大特征值都接近于1，第三大特征值都远小于1，差别在于第二大特征值的大小。因此，根据本发明的实施方式，聚类部分450在聚类最多只能分成两类的情况下，可以根据前三大特征值的相对大小关系确定聚类数目。具体的，可以如下那样自动确定聚类数目：

引入两个差值，d1表示前两大特征值的差值，d2表示第二、第三大特征值的差值，用这两个差值的比值d2/d1描述这三个特征值的相对大小关系：比值越大，第二大特征值越接近于1，聚类个数越趋向于2；反之，第二大特征值越远小于1，聚类个数越趋向于1。对于这一比值大小的衡量，本发明经过试验研究，发现可选择介于1到2之间的任一数值作为阈值，大于该阈值则聚成两类，否则聚成一类。借此，既很好的改善了无声段的过度分割而造成的运算效率低，又避免了短时声音事件的漏分割而产生的漏检。

回来参考图2，根据本发明的一种实施方式，音声数据处理部件220的处理用于帮助其后的声音检测部件230容易地从监控器采集到的音声信号中，获得异常声音。

图5是图示根据本发明的一个实施例的声音检测部件230的详细配置的框图。参考图5，本发明的声音检测部件230包括异常声音定义部分510、音声数据特征提取部分520、检测模型建立部分530和异常声音输出部分540。

声音检测部件230在进行检测之前，通过其中的异常声音定义部分510根据实际监控需要定义不同的异常声音，以便通过检测这些异常声音来确定居室中发生了异常情况。例如，需要监控婴儿房的时候，婴儿的啼哭声被定义为异常声音；而安全监控的需求下，玻璃破碎声，尖叫声，长时间狗叫声，物体跌落声等被定义为异常声音。该监控系统通过用监控器采集到异常声音数据，来确定居室是否发生了异常情况。

音声数据特征提取部分520提取每一音声数据段的特征。这里，每一音声数据段的特征值可以选取为能够描述该事件的参数。例如，可以是MFCC、PLP、或者其他参数，也可以是频域能量分布特点。

当音声数据特征提取部分520提取的是用于训练的数据的特征时，检测模型建立部分530接收所提取的特征，并根据这样训练特征进行建模。建模的方法有很多，比如支持向量机分类器(Support Vector Machine，SVM(http://www.csie.ntu.edu.tw/～cjlin/libsvm/))，高斯混合模型(Gaussian MixtureModel，GMM(http://baike.baidu.com/view/598089.htm))，隐马尔科夫模型(Hidden Markov Model，HMM(http://en.wikipedia.org/wiki/Hidden_Markov_model))。

根据本发明的实施方式的建模方法使用HMM进行建模，但这仅仅是个示例，本领域技术人员也可以采用其他形式的方法。

当音声数据特征提取部分520提取的是实际要检测的数据的特征时，检测模型建立部分530不参与工作。而是由异常声音输出部540根据检测模型建立部分530建立的模型来判断输入数据是否为异常声音，并输出检测结果。

返回图1，根据异常声音输出部分540的输出结果，监控器控制部分130向各个监控器(摄像头或声音拾取器)发出转动命令，使其按要求定位到确定的声源位置，同时实现报警自动抓拍、自动录像/录音等功能。例如，可以录制从声音检测部件230检测到异常声音发生前t秒时刻到异常声音停止之后t秒时刻的音/视频，并且保存在适当的文件中。

监控器控制部分130也可以根据用户终端150的指令对监控器等进行操作。

信号传送部分140把声音检测部件230检测到异常声音的情况作为报警信息传递到和用户终端150。例如，信号传送部分140通过有线或无线的方式，将声音检测部件230检测到的异常情况，发送给小区保安，业主等的电话机、手机、电脑等。发送信息的方式可以是短信，email等等。

此外，信号传送部分140也可以根据用户要求(用户终端150的请求)或者自己主动利用网络等使用手机或者计算机(用户终端150)观看到当前场景或者录制的现场。

根据本发明的实施方式，声音检测部件230对于异常声音检测检测的结果可以分成两种类别：

a)异常声音类别检测结果：玻璃破裂、婴儿啼哭、狗叫声、尖叫声、物体跌落声；以及

b)事件推测结果：破窗非法闯入，婴儿无人看管(婴儿长时间啼哭)，打砸抢事件。

通过该异常声音监控系统，当检测到异常事件发生时，对于破窗非法闯入、打砸抢事件，可以及时打电话给小区保安，使其在第一时间到达现场。其他事件发生时，用户可以通过网络观看录制视频进行判断是否需要报警或者及时处理。

需要指出的是，本发明的音声数据检测部件不限于上述监控系统中，还可用于其他音频检测识别应用中，通过谱聚类方法对接收到的音声数据流进行分段处理再进行检测，从而提高检测的准确率。

图6是图示根据本发明的实施方式的异常音声监控方法的流程图。如图6所示，该异常音声监控方法在步骤S610中，通过如图3所示的监控数据采集部分110采集要监控的环境中音声数据以便进行监控。这里，监控数据采集部分110所采集的数据包括含有异常音声的数据，也包括不含异常音声的数据。

接下来，在步骤S620～S660中，通过如图3所示的音声数据检测部分120，利用谱聚类方法对监控数据采集部分110所采集到的音声数据进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段，以便后续处理提取输入的音声数据的特征。

具体来说，在步骤S620中，通过如图3所示的分窗处理部件310，以预定窗口长度将输入数据划分成样本序列S＝{s₁，s₂，...，s_n}。

此外，根据本发明的实施方式，分窗处理部件310也可以以预定A秒左右的固定窗长作为初始窗边界，并设置一个前后延拓范围δ，每次递增固定步长并在以初始窗边界为中心的滑动窗内寻找能量包络的最小极值点作为最终的窗结束边界，若该范围内没有极小值则继续向后延拓，直到找到最小极值点或达到窗长上限，若达到窗长上限(B+δ)仍没找到极值点，则以该上限作为最终窗结束边界，其中所述极值点不包括由于微小扰动产生的极值点。

通过这样的处理，分窗处理部件310将输入数据划分成样本序列S＝{s₁，s₂，...，s_n}，其中s_i代表某一样本，每个样本包含若干帧，样本和样本之间没有重叠。

接下来，在可选步骤S630中，在采用时域能量特征参数来计算样本距离的情况下，对时域能量特征进行了归一化处理，然后采用以下映射函数将其映射到一个指数空间

E_new (i) = 1 - \exp (- \frac{E {(i)}^{2}}{σ})

其中E(i)表示第i帧能量，E_new(i)表示其指数映射后的值，σ为尺度参数。

此外，在步骤S640中，通过如图3所示的拉普拉斯矩阵构建部件320，来计算样本序列S＝{s₁，s₂，...，s_n}中各样本之间的距离d(s_i，s_j)，构建相似性矩阵A，其中参数σ是经验值，取为0.2或者0.3。然后，由A计算拉普拉斯矩阵L＝D^-1/2AD^-1/2，其中D是一个仅是对角线上不为零的矩阵，对角线上的元素(i，i)等于相似性矩阵A的第i行元素的和。

接下来，在可选步骤S650中自动确定聚类数目。自动确定聚类数目的方法是引入两个差值d1和d2，其中d1表示前两大特征值的差值，d2表示第二第三大特征值的差值。用这两个差值的比值d2/d1描述这三个特征值的相对大小关系：比值越大，第二大特征值越接近于1，聚类个数越趋向于2；反之，第二大特征值越远小于1，聚类个数越趋向于1。对于这一比值大小的衡量，本发明经研究实验采用介于1到2之间的数值作为阈值，大于该阈值则聚成两类，否则聚成一类。

接下来，在步骤S660中，利用k-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类，并将聚类结果映射到样本序列上。

接下来，在步骤S670中，根据聚类结果提取每一音声数据段的特征，这些特征可以是MFCC、PLP、或者其他参数，也可以是频域能量分布特点。此外，还利用检测模型检测该音声数据的类型，以检出异常声音。

最后，在步骤S680中，将包含异常声音的检测结果传送并呈现给用户终端150，以便对于破窗非法闯入、打砸抢事件，可以及时打电话给小区保安，使其在第一时间到达现场。而在其他事件发生时，用户可以通过网络观看录制视频进行判断是否需要报警或者及时处理。

以上，已经参考具体示例详细讨论了本公开的实施方式。然而，不言而喻，在不脱离本公开的构思的情况下，本领域普通技术人员能够对这些示例做出修改和替代。即，已经以示例的形式公开了本公开的实施方式，而不是被解释为限制。为了评价本公开的构思，要参阅该专利的权利要求书的范围。

另外，能够用硬件和软件相组合的形式来执行本说明书所描述的处理序列。实现上述处理序列的软件部分能够被安装在包括在专门硬件中的计算机的存储器中并被执行，或者能够通过安装在能够执行各种过程的通用计算机中来执行。例如，该软件能够事先被记录在记录介质中。除了从记录介质安装到计算机中外，该程序能够经由诸如LAN(局域网)或因特网之内的网络接收并安装在诸如内置硬盘之类的记录介质上。

这里，可以根据需要或者执行处理的装置的处理能力，并行或单独执行在该说明书中描述的各种过程，而不用以根据该描述的时间顺序执行。而且，根据本说明书的系统是多个装置的逻辑组合配置，并且各个配置的装置不限于处在同一外壳之内。

本领域普通技术人员应该理解，视设计要求和其他因素，可以出现各种修改、组合、部分组合和变更，只要它们在附属权利要求书或其等效物的范围之内。

Claims

1.一种音声数据检测装置，包括：

音声数据接收部件，被配置为接收输入的音声数据流；

音声数据处理部件，被配置为利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及

声音检测部件，被配置为针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测。

2.根据权利要求1所述的音声数据检测装置，其中，所述音声数据处理部件包括分窗处理部件，被配置为对所述音声数据流进行分窗处理，以得到多窗音声数据，并将每一窗音声数据划分为多个样本以用于谱聚类，其中每一样本包含多帧数据。

3.根据权利要求2所述的音声数据检测装置，其中，所述分窗处理部件被配置为根据不定长分析窗对所述音声数据流进行分窗处理，以保证每一窗音声数据内包含的声音事件的完整性。

4.根据权利要求3所述的音声数据检测装置，其中，所述分窗处理部件被配置为以预定时长作为初始窗长，每次递增固定步长并以初始窗边界为中心滑动寻找能量包络的最小极值点作为最终窗边界，其中所述极值点不包括由于微小扰动产生的极值点。

5.根据权利要求2所述的音声数据检测装置，其中，所述音声数据处理部件还包括：

拉普拉斯矩阵构建部件，被配置为构建表示由所述分窗处理部件处理得到的窗音声数据的多个样本的拉普拉斯矩阵；以及

聚类部件，被配置为对所述拉普拉斯矩阵的特征向量空间中的特征向量进行聚类处理并将聚类结果映射到所述多个样本上，以将该窗音声数据划分为一个或多个单一类型的所述音声数据段。

6.根据权利要求5所述的音声数据检测装置，其中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前三大特征值的相对大小关系，确定聚类处理中涉及的聚类数目。

7.根据权利要求6所述的音声数据检测装置，其中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前两大特征值的差值与第二大和第三大特征值的差值之比，来确定聚类数目。

8.根据权利要求5所述的音声数据检测装置，其中，在构建拉普拉斯矩阵之前，所述拉普拉斯矩阵构建部件被配置为对所述多个样本的能量特征进行归一化处理，然后映射到指数空间以提高能量特征间的区分性，以用于构建拉普拉斯矩阵。

9.根据权利要求8所述的音声数据检测装置，其中，所述能量特征为时域能量特征，以及采用以下映射函数将每一样本中的每帧的时域能量特征映射到所述指数空间，

E_new (i) = 1 - \exp (- \frac{E {(i)}^{2}}{σ})

10.一种音声监控系统，包括：

监控数据采集装置，被配置为采集待监控环境中的音声数据流以进行监控；以及

音声数据检测装置，包括：

音声数据接收部件，被配置为接收待监控环境中的音声数据流；

声音检测部件，被配置为针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测，以检出所述待监控环境中的异常声音。

11.根据权利要求10所述的音声监控系统，还包括：

信号传送装置，被配置为将所述声音检测部件的检测结果传送给用户；以及

用户终端，被配置为接收并呈现通过所述信号传送装置发送的检测结果。

12.根据权利要求10或11所述的音声监控系统，还包括：

监控器控制装置，被配置为根据所述声音检测部件的检测结果和相应的指令，控制所述监控数据采集装置中的摄像头以调整拍摄范围并记录异常事件的音声和图像。

13.根据权利要求10所述的音声监控系统，其中，所述音声数据处理部件包括分窗处理部件，被配置为对所述音声数据流进行分窗处理，以得到多窗音声数据，并将每一窗音声数据划分为多个样本以用于谱聚类，其中每一样本包含多帧数据。

14.根据权利要求13所述的音声监控系统，其中，所述音声数据处理部件还包括：拉普拉斯矩阵构建部件，被配置为构建表示由所述分窗处理部件处理得到的窗音声数据的多个样本的拉普拉斯矩阵，以及

15.根据权利要求14所述的音声监控系统，其中，所述聚类部件被配置为根据所述拉普拉斯矩阵的前三大特征值的相对大小关系，确定聚类处理中涉及的聚类数目。

16.根据权利要求14所述的音声监控系统，其中，在构建拉普拉斯矩阵之前，所述拉普拉斯矩阵构建部件被配置为对所述多个样本的能量特征进行归一化处理，然后映射到指数空间以提高能量特征间的区分性，以用于构建拉普拉斯矩阵。

17.一种音声数据检测方法，包括：

接收输入的音声数据流；

利用谱聚类方法对所述音声数据流进行分段处理，以将所述音声数据流分割为多个单一类型的音声数据段；以及

针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测。

18.一种音声监控方法，包括：

采集待监控环境中的音声数据流以进行监控；

针对所述音声数据段提取检测特征，并利用预先建立的检测模型对该音声数据段的类型进行检测，以检出所述待监控环境中的异常声音。