CN109346103A

CN109346103A - 一种用于公路隧道交通事件的音频检测方法

Info

Publication number: CN109346103A
Application number: CN201811272485.4A
Authority: CN
Inventors: 张潇丹; 陈永胜; 黄程韦; 李欣
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-02-15
Anticipated expiration: 2038-10-30
Also published as: CN109346103B

Abstract

本发明公开了一种用于公路隧道交通事件的音频检测方法，将在公路隧道内采集到的音频数据进行分帧划分，并采用二级长短期记忆网络模型来提高识别率和鲁棒性，具体为1）采用第一长短期记忆网络模型A来优化提取的音频特征，并引入注意力机制提高特征的鲁棒性；2）采用第二长短期记忆网络模型B针对优化精简后的特征进行加权，进一步优化输出结果，从而公路隧道交通事件检测实时性强、准确率高，具有良好的应用前景。

Description

一种用于公路隧道交通事件的音频检测方法

技术领域

本发明涉及交通事件检测技术领域，具体涉及一种一种用于公路隧道交通事件的音频检测方法。

背景技术

公路隧道结构异于一般路面建筑，具有内部路基宽度相对狭窄、空间密闭性强、视野范围小、可见度低等一系列不良特点，导致行车环境较为复杂，由此引起的公路隧道呈现的交通事故形态，主要有追尾、翻车、撞壁、火灾及爆炸、货物抛洒等，其中，追尾事故为公路隧道交通事故的主要形态。

现有技术中通过技术侦测手段能够及时的发现公路隧道内的事故，如通过传统的视频监控技术，依靠人工查看视频画面，能够发现事故的地点和现场的状况。但是，采用视频监控手段会受到烟雾遮挡、照明设备故障等因素的严重影响，因此，通过音频监控的手段，可以从交通事故的声音中识别出事件类型，及时发出警报，相比其他侦测技术更加及时可靠。

目前，现有技术中，专利号CN201510324584公开了一种行车噪声环境下快速声学事件的检测方法，该方法采用常规的语音降噪和特征提取方法，并没有考虑到公路隧道噪声中的回响，也没有对特征进行优化等问题，不适用于公路隧道的交通事件检测；专利号CN201710069291公开了一种基于音频的交通事件检测装置及方法，但是该方法更多了关注了前端采集方法，即采用阵列采集音频数据，并进行波束形成降噪，但是对高速行驶的汽车进行快速定位和波束形成困难较大，尤其针对公路隧道交通事件检测的准确性不佳；专利号CN201410668501公开了一种行车噪声环境下的快速声学事件检测系统，该方法主要关注了风噪声的消除，具有一定的局限性，同样不适用于公路隧道的交通事件检测。

综上所述，上面介绍的三种专利都采用较传统声音降噪策略来提升前端语音采集质量，后端的识别算法也主要是支撑向量机和卷积神经网络，适用环境有限，其主要问题在于传统声音降噪策略不可训练且具有一定局限性，而传统的模式识别算法的识别能力随环境变化影响较大，鲁棒性较差；而且，上述三种方法也没有涉及任何优化特征的方法，以及如何通过特征加权方式来改善识别效率和鲁棒性的问题，以便提高根据音频进行交通事件检测的准确性，是当前急需解决的。

发明内容

本发明的目的是克服现有技术中交通事件音频检测，采用较传统声音降噪策略来提升前端语音采集质量，后端的识别算法也主要是支撑向量机和卷积神经网络所存在的问题。本发明的用于公路隧道交通事件的音频检测方法，将在公路隧道内采集到的音频数据进行分帧划分，并采用二级长短期记忆网络模型来提高识别率和鲁棒性，具体为1)采用第一长短期记忆网络模型A来优化提取的音频特征，并引入注意力机制提高特征的鲁棒性；2)采用第二长短期记忆网络模型B针对优化精简后的特征进行加权，进一步优化输出结果，从而公路隧道交通事件检测实时性强、准确率高，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种用于公路隧道交通事件的音频检测方法，包括以下步骤，

步骤(A)，将在公路隧道内采集到的音频数据进行分帧，划分为多组音频数据帧；

步骤(B)，对各组音频数据帧进行384维音频特征提取；

步骤(C)，将各组音频数据帧对应的384维音频特征，输入到第一长短期记忆网络模型A中，获得各组音频数据帧对应的64维音频特征；

步骤(D)，将各组音频数据帧对应的64维音频特征，输入到第二长短期记忆网络模型B中，获得该段音频数据对应的交通事件，交通事件的类别包括行驶、刹车和碰撞。

前述的用于公路隧道交通事件的音频检测方法，步骤(A)，将在公路隧道内采集到的音频数据进行分帧，划分为多组音频数据帧，是以48ms分一帧，帧间交叠50％的方式进行划分的。

前述的用于公路隧道交通事件的音频检测方法，步骤(B)，对各组音频数据帧进行384维音频特征提取，所述384维音频特征为384维opensmile特征，384维opensmile特征作为声事件识别特征，其中，基本声音特征及其一阶方差共32维、统计函数12种，具体包括如下，

音频特征编号1-24：过零率和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差；

音频特征编号25-48：RMS能量和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差；

音频特征编号49-72：基频F0和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差；

音频特征编号73-96：谐噪比HNR和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差；

音频特征编号97-384：12维MFCC系数和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差。

前述的用于公路隧道交通事件的音频检测方法，步骤(C)，将各组音频数据帧对应的384维音频特征，输入到第一长短期记忆网络模型A中，获得各组音频数据帧对应的64维音频特征，所述第一长短期记忆网络模型A是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，该第一长短期记忆网络模型A的解码层输出为N＝[n₁，n₂，…，n_t]^T，其中n_i为i时刻第一长短期记忆网络模型A的隐层输出，最后对应样本的输出O，如公式(1)所示，

其中，Q代表n_i对于第一长短期记忆网络模型A的编码层输出的对齐权重，s代表第s个时间步长、s′表示所有的时间步长、n_i为i时刻的隐层输出；对应的是编码器的输出的第s个时间步长的切片，并定义为W为体现对n_i作用的可训练的矩阵；

并将第一长短期记忆网络模型A最后对应样本的输出o融合最后一个隐层输出，得到第一长短期记忆网络模型A的输出o′，如公式(2)所示，

O′＝[O；n_i] (2)。

前述的用于公路隧道交通事件的音频检测方法，步骤(D)，将各组音频数据帧对应的64维音频特征，输入到第二长短期记忆网络模型B中，获得该段音频数据对应的交通事件，所述第二长短期记忆网络模型B是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，该第二长短期记忆网络模型B的输出M＝[m₁，m₂，…，m_t]^T进行按特征加权的，其中m_i为i时刻第二长短期记忆网络模型B的隐层输出，如公式(3)所示，

其中，o表示hardarm相乘，S代表m_i对于编码层输出的对齐权重，ma_i为每个输出的特征加权结果；对应的是编码器的输出的第s个时间步长的切片，s代表第s个时间步长、s′表示所有的时间步长，定义为S＝V tanh(W₁m_i)，V和W₁为对m_i计算自注意力对齐向量的参数共享的可训练的矩阵，

按特征加权后的第二长短期记忆网络模型B的输出O_L，如公式(4)所示，

本发明的有益效果是：本发明的用于公路隧道交通事件的音频检测方法，能够克服现有的基于视频的交通事件检测方法因隧道内部光线不足环境昏暗，过往车辆灯光干扰、空气漂浮粉尘过多等不良因素导致回传视画面模糊，容易造成误判和漏判、以及交通事件音频检测，采用较传统声音降噪策略来提升前端语音采集质量，后端的识别算法也主要是支撑向量机和卷积神经网络两种技术所存在的问题，将在公路隧道内采集到的音频数据进行分帧划分，并采用二级长短期记忆网络模型来提高识别率和鲁棒性，具体为1)采用第一长短期记忆网络模型A来优化提取的音频特征，并引入注意力机制提高特征的鲁棒性；2)采用第二长短期记忆网络模型B针对优化精简后的特征进行加权，进一步优化输出结果，从而公路隧道交通事件检测实时性强、准确率高，具有良好的应用前景。

附图说明

图1是本发明的用于公路隧道交通事件的音频检测方法的流程图；

图2是本发明的方法与KNN算法、SVM算法对比后的识别率的示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的用于公路隧道交通事件的音频检测方法，包括以下步骤，

步骤(A)，将在公路隧道内采集到的音频数据进行分帧，划分为多组音频数据帧，这里是以48ms分一帧，帧间交叠50％的方式进行划分的；

步骤(B)，对各组音频数据帧进行384维音频特征提取，所述384维音频特征为384维opensmile特征，384维opensmile特征作为声事件识别特征，其中，基本声音特征及其一阶方差共32维、统计函数12种，具体包括如下，

音频特征编号97-384：12维MFCC系数和其一阶方差及其均值，标准差，峰度，偏度、最大值、最小值、量程、最大相对位置、最小值相对位置、线性回归系数、均方误差，具体参数如表1所示，

表1 384维特征及其统计函数

步骤(C)，将各组音频数据帧对应的384维音频特征，输入到第一长短期记忆网络模型A中，获得各组音频数据帧对应的64维音频特征，所述第一长短期记忆网络模型A是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，该第一长短期记忆网络模型A的解码层输出为N＝[n₁，n₂，…，n_t]^T，其中n_i为i时刻第一长短期记忆网络模型A的隐层输出，最后对应样本的输出O，如公式(1)所示，

并将第一长短期记忆网络模型A最后对应样本的输出O融合最后一个隐层输出，这里能够降低由于关注了前t-1时刻的信息而降低了对t时刻的信息的关注的负面影响，能够得到第一长短期记忆网络模型A的输出O′，如公式(2)所示，

O′＝[O；n_i] (6)，

通过第一长短期记忆网络模型A能够将384维音频特征，优化且简化为64维音频特征，以便在进行第二长短期记忆网络模型B处理提高处理效率和效果，这里384维音频特征优化64维音频特征是采用第一长短期记忆网络模型A来优化提取的音频特征，并引入注意力机制提高特征的鲁棒性实现的，为长短期记忆网络(LSVM)自动识别优化出来，属于长短期记忆网络(LSVM)的基本特性；

步骤(D)，将各组音频数据帧对应的64维音频特征，输入到第二长短期记忆网络模型B中，获得该段音频数据对应的交通事件，交通事件的类别包括行驶、刹车和碰撞，所述第二长短期记忆网络模型B是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，为了突出特征对识别结果的影响，该第二长短期记忆网络模型B的输出M=[m₁，m₂，…，m_t]^T进行按特征加权的，其中m_i为i时刻第二长短期记忆网络模型B的隐层输出，如公式(3)所示，

根据本发明的用于公路隧道交通事件的音频检测方法，如图2所示，实验对比了3类算法：KNN算法、SVM算法和本发明提出的算法(PRO)，SVM算法采用RBF核函数。实验数据集共有829条，其中包括行驶442条、刹车176条和碰撞211条，其中600用来训练，229条用来识别。训练过程中，采用tanh作为激活函数，采用小批量梯度下降法，批量为64，对600个训练样本总共训练了1200个epochs。参数设置如表2所示。

表2网络A和网络B参数

基于本发明的用于公路隧道交通事件的音频检测方法的准确率可达到96.2％的总体。该方法提升最明显的是刹车声音，相比于SVM算法提升10.9％。其特点在于：1)二级结构提升了特征的鲁棒性；2)强调了模型结构的深度，并突出了特征注意学习的重要性。因此在实际应用中，能够有效地区分出正常通行的音频信号，这样也就能够在隧道内发生异常响声时，有效的侦测到。算法通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而分类或预测更加容易。特别是随着隧道内交通数据的不断积累，其性能可以得到进一步提升。

综上所述，本发明的用于公路隧道交通事件的音频检测方法，能够克服现有的基于视频的交通事件检测方法因隧道内部光线不足环境昏暗，过往车辆灯光干扰、空气漂浮粉尘过多等不良因素导致回传视画面模糊，容易造成误判和漏判、以及交通事件音频检测，采用较传统声音降噪策略来提升前端语音采集质量，后端的识别算法也主要是支撑向量机和卷积神经网络两种技术所存在的问题，将在公路隧道内采集到的音频数据进行分帧划分，并采用二级长短期记忆网络模型来提高识别率和鲁棒性，具体为1)采用第一长短期记忆网络模型A来优化提取的音频特征，并引入注意力机制提高特征的鲁棒性；2)采用第二长短期记忆网络模型B针对优化精简后的特征进行加权，进一步优化输出结果，从而公路隧道交通事件检测实时性强、准确率高，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于公路隧道交通事件的音频检测方法，其特征在于：包括以下步骤，

步骤(B)，对各组音频数据帧进行384维音频特征提取；

2.根据权利要求1所述的用于公路隧道交通事件的音频检测方法，其特征在于：步骤(A)，将在公路隧道内采集到的音频数据进行分帧，划分为多组音频数据帧，是以48ms分一帧，帧间交叠50％的方式进行划分的。

3.根据权利要求1所述的用于公路隧道交通事件的音频检测方法，其特征在于：步骤(B)，对各组音频数据帧进行384维音频特征提取，所述384维音频特征为384维opensmile特征，384维opensmile特征作为声事件识别特征，其中，基本声音特征及其一阶方差共32维、统计函数12种，具体包括如下，

4.根据权利要求1所述的用于公路隧道交通事件的音频检测方法，其特征在于：步骤(C)，将各组音频数据帧对应的384维音频特征，输入到第一长短期记忆网络模型A中，获得各组音频数据帧对应的64维音频特征，所述第一长短期记忆网络模型A是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，该第一长短期记忆网络模型A的解码层输出为N＝[n₁，n₂，…，n_t]^T，其中n_i为i时刻第一长短期记忆网络模型A的隐层输出，最后对应样本的输出O，如公式(1)所示，

O′＝[O；n_i] (2)。

5.根据权利要求1所述的用于公路隧道交通事件的音频检测方法，其特征在于：步骤(D)，将各组音频数据帧对应的64维音频特征，输入到第二长短期记忆网络模型B中，获得该段音频数据对应的交通事件，所述第二长短期记忆网络模型B是按照编码层、解码层和输出层结构构建的，其中，编码层包含两层卷积长短期记忆网络，解码层包含两层卷积长短期记忆网络，输出层为一层卷积长短期记忆网络，该第二长短期记忆网络模型B的输出M＝[m₁，m₂，…，m_t]^T进行按特征加权的，其中m_i为i时刻第二长短期记忆网络模型B的隐层输出，如公式(3)所示，

其中，o表示hardarm相乘，S代表m_i对于编码层输出的对齐权重，ma_i为每个输出的特征加权结果；对应的是编码器的输出的第s个时间步长的切片，s代表第s个时间步长、s′表示所有的时间步长，定义为S＝Vtanh(W₁m_i)，V和W₁为对m_i计算自注意力对齐向量的参数共享的可训练的矩阵，