CN106251860B

CN106251860B - 面向安防领域的无监督的新颖性音频事件检测方法及系统

Info

Publication number: CN106251860B
Application number: CN201610647449.6A
Authority: CN
Inventors: 张爱英; 倪崇嘉
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2020-02-11
Anticipated expiration: 2036-08-09
Also published as: CN106251860A

Abstract

本发明公开了面向安防领域的无监督的新颖性音频事件检测方法及系统；模型训练步骤：对实际监控场景下的音频进行训练，训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型；颖性音频事件检测步骤：对获取在实际监控场景下不同待测区域的音频，对音频进行特征提取后，将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中，进行新颖性音频事件发生与否的检测。本发明利用基于深度双向长短时记忆递归神经网络的降噪自动编码机编码实际场景中有用的信息。该信息能够使得系统有效的检测出实际场景下新颖性事件。

Description

面向安防领域的无监督的新颖性音频事件检测方法及系统

技术领域

本发明涉及一种面向安防领域的无监督的新颖性音频事件检测方法及系统。

背景技术

随着数字信号处理技术的飞速发展和互联网的迅速普及，数字音频处理技术的研究已进入一个快速发展的阶段，在音频信息检索、分类、内容理解等方面已经取得了长足的进步。近年来，随着视频监控的发展以及在应用中的不足，人们对音频监控也提出了较大的需求。主要表现在：(1)音频监控系统的实现虽然困难相当多，但人们对音影同步监控的需求也越来越强烈。仔细观察，不难发现，在公检法机构、机场、车站、银行等一些区域，越来越多的安防工程急需清晰、逼真的音影同步监控系统，音频监控已经成为安防行业的新亮点。(2)对于一些公共治安事件频发区域，如学校、歌厅、大型广场等，大部分都安装了视频监控设备，但很多地方声音监控还是空白。这些视频监控系统大都没有办法对正在发生的紧急事件进行实时报警，只能事后提供监控信息；而对这些地方进行音视频监控可以成为及时处理突发事件的最佳手段。

目前在发达国家的市场上也出现了一些利用声音检测技术进行分析和处理的事件报警装置。如一些家庭内部老人监护系统或者医院内的病人监护系统，这些系统可以通过监听老人的呻吟声和摔倒的声音来进行紧急情况报警；如一种用于婴儿看护的哭声检测系统，它可以通过检测到婴儿的哭声来提醒看护者对婴儿进行及时的照顾。这些系统目前都使用了特定声音检测技术，利用特定声音检测的准确性进行实时的提醒和报警。但是这些系统应用到公共领域的安防还存在这一定的难度，一个最主要的原因就是：安防装置所放置的公共区域背景环境十分复杂。在公共领域放置的安防装置周围有大量的非紧急事件的声音，这些声音会造成声音检测系统的频繁误报，而且更重要的是，我们不可能穷举在这些开放区域存在的所有可能的音频事件。因此，需要一种方法检测在这些公共区域发生的新颖性音频事件。所谓新颖性音频事件，就是指未知的或新颖的音频事件，这些事件在训练数据中没有出现或与训练数据中的音频有完全的不同。传统的新颖性事件检测方法大都是基于有监督的方法去训练模型，然后根据某种准则或度量检测新颖性事件。然而，在公共的开放区域，不可能事先知道哪些音频事件可能发生，更不可能采用有监督的机器学习的方法为这些音频事件建立模型。

发明内容

本发明的目的就是为了解决上述问题，提供一种面向安防领域的无监督的新颖性音频事件检测方法及系统，它具有利用无监督的方法，自动检测在公共安防区域发生的新颖性事件的优点。

为了实现上述目的，本发明采用如下技术方案：

面向安防领域的无监督的新颖性音频事件检测方法，包括如下步骤：

模型训练步骤：对实际监控场景下的音频进行训练，训练得到基于深度双向长短时记忆递归神经网络的降噪自动编码机模型；

新颖性音频事件检测步骤：对获取在实际监控场景下不同待测区域的音频，对音频进行特征提取后，将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中，进行新颖性音频事件发生与否的检测。

所述模型训练步骤包括如下步骤：

步骤(1-1)：获取在实际监控场景下不同区域的音频，并对获取到的音频提取听觉谱特征，然后转入步骤(1-2)进行训练；

步骤(1-2)：以步骤(1-1)提取的听觉谱特征作为训练的输出，以添加随机噪声的听觉谱特征作为训练的输入，以最小均方误差作为训练准则，采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型，并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。

所述新颖性音频事件检测步骤包括如下步骤：

步骤(2-1)：获取实际应用场景下音频，并对获得的音频提取听觉谱特征，然后转入步骤(2-2)；

步骤(2-2)：将步骤(2-1)提取的特征输入到模型训练步骤得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中，获得自动编码机模型的输出；然后转入步骤(2-3)；

步骤(2-3)：计算在步骤(2-2)中输入自动编码机模型的音频特征和步骤(2-2)中自动编码机模型输出之间误差；然后转入步骤(2-4)；

步骤(2-4)：在设定时间段内连续的音频上，积累步骤(2-3)获得的误差，并根据积累的误差数据，计算阈值；当误差大于阈值时，则认为新颖性音频事件发生；否则，认为新颖性音频事件不发生。

所述步骤(1-1)的不同区域包括广场、车展或商场等区域。

所述的步骤(1-2)中，在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时，设置深度双向长短时记忆递归神经网络为3个隐层，第一个隐层在每一个方向上含有156个长短时记忆细胞块，第二个隐层在每一个方向上含有256个长短时记忆细胞块，第三个隐层在每一个方向上含有156个长短时记忆细胞块，且每一个记忆细胞块只含有一个记忆细胞。

所述步骤(1-2)中，在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时，为了防止梯度爆炸，采用梯度剪裁的方法来剪裁梯度。训练时，梯度的阈值设置为10。

所述步骤(1-2)中，在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时，采用多个不同的流同时进行，以加快模型训练的速度。

面向安防领域的无监督的新颖性音频事件检测系统，包括：

训练单元，用于对实际监控场景下的音频进行训练，训练得到基于深度双向长短时记忆递归神经网络的自动编码机模型；

新颖性事件检测单元，用于对获取在实际监控场景下不同待测区域的音频，对音频进行特征提取后，将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中，进行新颖性音频事件发生与否的检测。

所述训练单元，包括：

第一音频获取模块，用于获取在实际监控场景下不同区域的音频，并将音频送入音频特征提取模块；

第一音频特征提取模块，对送入的音频进行特征提取，提取出听觉谱特征；将提取的听觉谱特征送入模型训练模块；

模型训练模块，以听觉谱特征作为训练的输出，以添加随机噪声的听觉谱特征作为训练的输入，以最小均方误差作为训练准则，采用通过时间反向传播算法(Backpropagation Through Time,BPTT)训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型，并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。

优选的，所述训练单元，还包括：

模型存储模块，用于存储模型训练模块训练完成的自动编码机模型。

所述的模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时，对梯度进行剪裁。同时，在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时，利用动量(momentum)方法更新模型。动量(momentum)系数设置为0.9。

新颖性事件检测单元，包括：

第二音频获取模块，用于获取在实际监控场景下不同待测区域的音频，并将音频送入第二音频特征提取模块；

第二音频特征提取模块，对送入的音频进行特征提取，提取出听觉谱特征；将提取的听觉谱特征送入新颖性事件检测模块；

新颖性事件检测模块，将第二音频特征提取模块提取的特征输入到模型训练模块得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中，获得自动编码机模型的输出；计算输入自动编码机模型的音频特征和自动编码机模型输出之间误差；

在设定时间段内连续的音频上，积累获得的误差，并根据积累的误差数据，计算阈值；当误差大于阈值时，则认为新颖性音频事件发生；否则，认为新颖性音频事件不发生。

优选的，所述新颖性事件检测单元，还包括：

模型装载模块，用于装载模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。

优选的，所述新颖性事件检测单元，还包括：

检测结果存储模块，用于存储新颖性事件检测模块的新颖性事件检测结果。

优选的，所述新颖性事件检测模块，利用第二音频特征提取模块提取的特征，应用模型装载模块加载的训练完成的自动编码机模型，进行新颖性音频事件检测，并将检测结果传送至检测结果存储模块进行存储。

本发明的有益效果：

基于深度双向长短时记忆递归神经网络的自动编码机通过引入长短时记忆细胞编码了序列中过去与未来两个方向信息，从这个意义上讲，它是一个动力系统，比只有类似静态输入输出变换的前馈式深度神经网络具有更好的泛化能力，可以更好地学习到更长时间的上下文信息和编码输入音频的信息。

基于深度双向长短时记忆递归神经网络的降噪自动编码机的新颖性事件检测，是一种无监督的数据驱动的方法。该方法可以通过数据自动编码输入音频的信息，通过测量当前的输入和降噪自动编码机的输出之间的距离，判断新颖性事件是否发生。该方法能够克服传统的利用有监督的机器学习方法进行新颖性事件检测方法的不足。

附图说明

图1为本发明的方法流程图；

图2为基于深度双向长短时记忆递归神经网络的自动编码机模型的训练单元；

图3为基于深度双向长短时记忆递归神经网络的自动编码机的新颖性事件检测单元。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，面向安防领域的无监督的新颖性音频事件检测方法，该方法包括如下两个部分：基于深度双向长短时记忆递归神经网络的自动编码机的模型训练步骤A和利用基于深度双向长短时记忆递归神经网络的自动编码机进行新颖性事件检测步骤B。

所述步骤A，包括如下步骤：

步骤A1：接收实际音频场景下的音频输入；

步骤A2：对步骤A1的音频提取听觉谱特征；

步骤A3：以提取的听觉谱特征作为模型训练的输出特征，以提取的听觉谱特征与随机产生均值为0、方差为0.01的噪声的加和作为模型训练的输入特征，以最小化均方误差为训练准则，采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型。在训练基于深度双向长短时记忆递归神经网络的自动编码机模型时，对梯度进行修剪。同时，为了增加训练速度，采用多个流的方式进行；

步骤A4：存储训练完成的自动编码机模型。

所述步骤B，包括如下步骤：

步骤B1：获取实际场景下音频；

步骤B2：对步骤B1获取的音频进行特征提取，提取听觉谱特征；

步骤B3：加载由模型训练模块训练完成的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型；

步骤B4：应用加载的降噪自动编码机模型和提取的听觉谱特征，检测输入的音频流中是否存在新颖性音频事件；

步骤B5：存储新颖性音频事件的检测结果。

基于深度双向长短时记忆递归神经网络的降噪自动编码机采用梯度剪裁的方法以增强模型训练的鲁棒性和有效性，避免训练时的梯度爆炸。同时，在训练时采用动量(momentum)方法更新训练参数，以增强模型训练的稳定性。为了加快模型的训练速度，采用多个不同的流同时进行。为了获得较好的检测效果，设置深度双向长短时记忆递归神经网络包含3个长短时记忆隐层。

所述提取听觉谱特征的步骤为：

对于输入的音频按照16000赫兹进行采样，按照16位比特进行量化，并采用窗长30毫秒，以及窗移是10毫秒的海明(Hamming)窗，以包含26个通道三角滤波器的滤波器组，计算Mel谱系数，获得26维特征。

为了匹配人类的响度感知，对这26维的Mel谱系数M₃₀(n,m)在对数域进行表示

并且帧的能量也作为一维特征，共27维特征用于表征音频。

最后，对这27维特征计算一阶差分

以获得54维听觉谱特征。

优选实施例，在利用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时，对梯度进行剪裁，设置梯度剪裁的阈值是10。

如图2所示，面向安防领域的无监督的新颖性音频事件检测系统，包括：

第一音频获取模块：输入采样率为16000赫兹，按16位比特编码的PCM格式的实际场景的音频。

第一音频特征提取模块：对第一输入模块输入的音频分别以30毫秒海明(Hamming)窗和10毫秒为窗移，以包含26通道个三角滤波器的滤波器组，提取54维听觉谱特征。

模型训练模块：用于训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。

训练时采用的学习速率是0.00001，动量(momentum)的值为0.9。设置双向长短时记忆递归神经网络有3个隐层。从第一个隐层到第三个隐层，在每一个方向上分别含有156,256和156个长短时记忆细胞块，且每一个长短时记忆细胞块只含有一个记忆细胞。同时，在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时，为了防止模型的过训练，梯度剪裁的方法用于剪枝梯度。训练时，梯度剪裁的阈值设置为10。

模型训练模块，以对输入的音频特征作为模型训练的目标，以输入音频特征和随机产生均值为0，方差为0.01的噪声的和为模型训练的输入，以最小化均方误差为训练的准则，采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机。在训练模型时，对梯度进行剪枝，设置梯度剪裁的阈值是10。并且在更新模型时，利用动量(momentum)方法更新模型，动量(momentum)系数设置为0.9。

对于递归神经网络，表述如下：设x_t是t时刻输入的K×1特征矢量，h_t是隐层单元的值，是N×1矢量，y_t是输出，是L×1矢量，则只有一个隐层的RNN表示为：

h_t＝f(W_xhx_t+W_hhh_t-1) (1)

y_t＝g(W_hyh_t) (2)

其中，W_hy是连接N个隐层单元到L个输出的L×N权值矩阵，W_xh是连接K个输入单元到N个隐层单元的N×K矩阵，W_hh是连接时刻t-1的N个隐层单元到时刻t的N个隐层单元权值矩阵。f(·)和g(·)分别是隐层的和输出层的激活函数。

通过时间反向传播(Back propagationThroughTime,BPTT)算法用于学习权值矩阵。RNN可以学习到长时依赖(Long-Term Dependent)，并且理论上讲，梯度下降法可用于训练RNN模型。但是，实际训练RNN时，存在着梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的问题。LSTM-RNN通过将长短时记忆细胞(Long Short-TermMemory Cell)引入到RNN中，可以在某种程度上避免梯度消失的问题。

LSTM-RNN记忆细胞集可以描述如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (3)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (4)

c_t＝f_t·c_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c) (5)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (6)

h_t＝o_t·tanh(c_t) (7)

其中i_t,f_t,c_t,o_t,h_t是维数相同的矢量，分别代表在时刻t时，输入门(InputGate)、遗忘门(Forget Gate)、细胞激活(Cell Activation)、输出门(Output Gate)和隐层激活五种不同的信息类型，“·”表示逐元素相乘，σ(·)表示logistic sigmoid函数，W是表示连接不同门的权值矩阵，b代表相应的偏置矢量。LSTM-RNN模型训练仍然采用BPTT算法。

假设x_t是输入音频特征，为了增加模型的泛化性，噪声n_t～N(0,0.01)与最初输入的音频特征x_t相加，获得特征x_t′～N(x_t,0.01)，并将特征x_t′作为基于双向长短时记忆递归神经网络的自动编码机模型的输入，最初输入的音频特征x_t作为基于双向长短时记忆递归神经网络的降噪自动编码机的输出。

为了简化表示，输入x_t′经过公式(3)至公式(7)变换之后的输出表示为F(x_t′)，则输出F(x_t′)又可以作为输入，利用双向长短时记忆递归神经网络对输入F(x_t′)进行重建，获得一个新的输出

从而计算出输出

与最初的音频输入x_t之间均方误差。以最小化二者之间的均方误差作为训练准则，采用通过时间反向传播算法训练降噪自动编码机。

类似的，通过叠加、逐层训练的方式构建基于深度双向长短时记忆递归神经网络的降噪自动编码机。模型存储模块：主要用于存储由模型训练模块训练获得的降噪自动编码机。

如图3所示，新颖性事件检测单元，包括：

第二音频获取模块：输入采样率为16000赫兹，按16位比特编码的PCM格式的实际场景下的音频。

第二音频特征提取模块：对第二输入模块输入的音频，提取54维听觉谱特征。

所述第二特征提取模块，设定30毫秒Hamming窗，10毫秒窗移，以26个三角滤波器的滤波器组，获得Mel谱系数M₃₀(n,m)。同时为了匹配人类的响度感知，对Mel谱系数M₃₀(n,m)在对数域进行表示

并且，帧的能量也作为一维特征。最后，对这27维特征计算一阶差分

以获得54维听觉谱特征。

模型装载模块：从模型存储模块装载由模型训练模块训练好的基于深度长短时记忆递归神经网络的降噪自动编码机模型。

新颖性事件检测模块：对第二特征提取模块提取的特征，利用模型装载模块装载的自动编码机模型，进行新颖性事件检测。

检测结果存储模块：对新颖性事件检测模块检测的结果进行保存。

本系统可以在计算机、服务器或者计算机网络中实现，其第一、第二音频获取模块可以使用麦克风等设备。

所述新颖性事件检测模块，首先，计算在输入特征和基于深度双向长短时记忆递归神经网络的自动编码机输出之间的误差e₀，然后在一段连续的音频片段积累误差，并用积累的误差自动更新阈值

θ‘＝β*median{e₀(1),e₀(2),…,e₀(N)}，

其中β的值是位于1.0和2.0之间的实数，median表示取中值。当积累的误差大于阈值θ‘时，则认为新颖性事件发生。否则，新颖性事件不发生。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向安防领域的无监督的新颖性音频事件检测方法，其特征是，包括如下步骤：

新颖性音频事件检测步骤：对获取在实际监控场景下不同待测区域的音频，对音频进行特征提取后，将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型中，进行新颖性音频事件发生与否的检测；

所述新颖性音频事件检测步骤包括如下步骤：

2.如权利要求1所述的面向安防领域的无监督的新颖性音频事件检测方法，其特征是，所述模型训练步骤包括如下步骤：

步骤(1-2)：以步骤(1-1)提取的听觉谱特征作为训练的输出，以添加随机噪声的听觉谱特征作为训练的输入，以最小均方误差作为训练准则，采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型，并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型进行存储。

3.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法，其特征是，所述的步骤(1-2)中，在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时，设置深度双向长短时记忆递归神经网络为3个隐层，第一个隐层在每一个方向上含有156个长短时记忆细胞块，第二个隐层在每一个方向上含有256个长短时记忆细胞块，第三个隐层在每一个方向上含有156个长短时记忆细胞块，且每一个记忆细胞块只含有一个记忆细胞。

4.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法，其特征是，

所述步骤(1-2)中，在训练基于深度双向长短时记忆递归网络的降噪自动编码机模型时，为了防止梯度爆炸，采用梯度剪裁的方法来剪裁梯度。

5.如权利要求2所述的面向安防领域的无监督的新颖性音频事件检测方法，其特征是，

6.面向安防领域的无监督的新颖性音频事件检测系统，其特征是，包括：

新颖性事件检测单元，用于对获取在实际监控场景下不同待测区域的音频，对音频进行特征提取后，将提取后的特征输入到已经训练得到的基于深度双向长短时记忆递归神经网络的自动编码机模型中，进行新颖性音频事件发生与否的检测；

所述新颖性事件检测单元，包括：

7.如权利要求6所述的面向安防领域的无监督的新颖性音频事件检测系统，其特征是，

所述训练单元，包括：

模型训练模块，以听觉谱特征作为训练的输出，以添加随机噪声的听觉谱特征作为训练的输入，以最小均方误差作为训练准则，采用通过时间反向传播算法训练基于深度双向长短时记忆递归神经网络的降噪自动编码机模型，并将训练好的基于深度双向长短时记忆递归神经网络的降噪自动编码机模型送入模型存储模块进行存储。

8.如权利要求7所述的面向安防领域的无监督的新颖性音频事件检测系统，其特征是，

所述模型训练模块在训练基于深度双向长短时记忆递归神经网络的降噪自动编码机时，对梯度进行剪裁；同时，在更新基于深度双向长短时记忆递归神经网络的降噪自动编码机时，利用动量方法更新模型。