CN107086036A

CN107086036A - 一种高速公路隧道安全监控方法

Info

Publication number: CN107086036A
Application number: CN201710256578.7A
Authority: CN
Inventors: 吴建锋; 秦会斌
Original assignee: HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-08-22

Abstract

本发明公开了一种高速公路隧道安全监控方法，包括以下步骤：步骤S1：采集隧道内的声音信号；步骤S2：对所采集的声音信号进行声音识别；步骤S3：根据声音识别结果得出所采集的声音信号中是否杂含碰撞声/人声并以此判断隧道内是否出现异常事件；步骤S4：设置在隧道进口上方的显示屏显示隧道监控信息。采用本发明的技术方案，通过将声音识别技术应用于隧道监控领域，并根据隧道场景的特殊应用要求采用深度神经网络实现隧道声音识别，从而进一步完善了隧道安全的全方位监控，并能及时预警隧道中的异常事件。

Description

一种高速公路隧道安全监控方法

技术领域

本发明涉及智能交通领域，尤其涉及一种能够快速检测重大交通事故的高速公路隧道安全监控方法。

背景技术

随着我国隧道工程技术的进步，目前高速公路隧道长度动辄数公里，甚至几十上百公里，正是这些隧道极大缩短了高速行程，拉近了人们的时空距离。然而，高速公路隧道也是交通流的重大瓶颈，也是交通事故频发之地。随着智能交通时代的来临，“智能隧道”已经兴起，一些新近建成的隧道设有隧道监控站，在隧道内埋设光纤，能直接接入智能交通系统；为了提高隧道交通的安全性，现有技术采用在隧道内安装集成化智能化监控系统，主要包括通风控制系统、照明控制系统、火灾报警系统、交通引导系统、广播系统和视频监控系统，这些系统在一定程度上保障了隧道交通的安全。但现有隧道监控系统依然存在以下缺陷：1、无法直接监控交通事故事件，现有技术中交通事故事件主要通过车流量、车流速度、车道占有率等参数间接判断，无法及时预警，影响事故救援；2、事故发生后，只能通过拨打报警电话求救，然而隧道内手机通讯信号时常不佳，无法及时求救；虽然在隧道内设有专线求救电话装置，但在实际事故现场，人们往往没有意识通过隧道内的电话装置进行求救，导致电话装置形同虚设，需要一种直接而自动的报警方式。

故，针对目前现有技术中存在的上述缺陷，实有必要进行研究，以提供一种方案，解决现有技术中存在的缺陷。

发明内容

有鉴于此，确有必要提供一种能够快速检测重大交通事故的高速公路隧道安全监控方法，从而能够及时预警、救援，避免造成后发事故。

为了克服现有技术的缺陷，本发明的技术方案如下：

一种高速公路隧道安全监控方法，包括以下步骤：

步骤S1：采集隧道内的声音信号；

步骤S2：对所采集的声音信号进行声音识别；

步骤S3：根据声音识别结果得出所采集的声音信号中是否杂含碰撞声/人声并以此判断隧道内是否出现异常事件；

步骤S4：设置在隧道进口上方的显示屏显示隧道监控信息；

所述步骤S2进一步包括以下步骤：

特征提取步骤，接收原始采集声音数据，并对原始采集声音数据进行特征提取；

归一化步骤，对特征提取后的数据进行高斯归一化处理，输出归一化数据；

神经网络分类步骤，接收归一化数据及预先训练好的深度神经网络，并通过深度神经网络对所述归一化数据进行分类识别获得分类结果信息，所述分类结果信息为原始采集声音数据是否杂含碰撞声/人声的概率值，当该概率值超过预先设定的阈值时，则判定隧道内出现异常事件；

神经网络训练步骤，接收训练数据并根据训练数据进行神经网络的训练，得到充分学习带噪样本和干净样本之间的非线性映射关系的深度神经网络；

所述神经网络训练步骤包括：

接收训练数据，并对训练数据进行特征提取；

对特征提取后的数据进行高斯归一化处理，输出归一化数据；

无监督学习预训练步骤，采用受限制玻尔兹曼机(RBM)模型进行预训练并通过无监督学习的方式逐层渐进学习神经网络参数；该步骤中，将归一化后的训练数据输入深度神经网络的输入层，训练第一个RBM1，得到第一个隐藏层及输入层到第1隐藏层L1的网络权重W1；把学习到的权重固定住，由RBM1隐层状态来训练下一个RBM2的输入数据，重复i次，逐层训练后续的RBM得到隐藏层L2～Li及网络权重矩阵W2～Wi；

监督学习优化的步骤，采用反向传播(back-propagation，BP)算法，利用标注数据对神经网络参数进行有监督的精细调整。

优选地，所述特征提取步骤包括：

分帧步骤，对输入数据进行分帧处理；

DFT变换步骤，对分帧处理后的数据进行离散傅里叶变换得到频域信息；

谱减滤波步骤，将所述频域信息在频谱上减去预先获得的稳态风机噪声频谱模板，输出滤波数据；

对数功率谱处理步骤，对所述滤波数据进行对数功率谱处理。

优选地，执行神经网络分类步骤之前，还包括：

平均能量检测步骤，计算当前帧对数功率谱的平均能量值；

帧能量比较步骤，计算相邻帧平均能量值的差值并判断该差值是否超出预设的阈值，如果超过则执行神经网络分类步骤。

优选地，所述平均能量检测步骤还包括：

接收当前车流量信息的步骤，并计算当前帧平均能量值是否超出预设的相应车流量信息所对应的能量值范围，如果超过则执行神经网络分类步骤。

优选地，步骤S1中采用由多个麦克风组成的麦克风阵列对隧道内的声音信号进行同步采集；并对每个麦克风采集的声音信号进行标识后再进行传输；

所述麦克风阵列中多个麦克风呈一定几何形状固定设置在隧道内且每个麦克风具有唯一标识ID。

优选地，还包括：

声音定位步骤，当所述神经网络分类步骤中判定隧道内出现异常事件时，获取该异常事件的时间信息并获取相应麦克风阵列在该时间信息内的音频信息，根据每个麦克风固定的位置关系以及每个麦克风在该时间信息中对应音频信息的参数信息确定声音所处的具体位置；

所述参数信息为每个麦克风在该时间信息中对应音频信息的峰值强度以及每个麦克风在峰值强度对应的时间差。

优选地，还包括采用可旋转摄像装置追踪声音所处的具体位置的步骤。

优选地，还包括：

实时声音处理步骤，当判定隧道内出现异常事件时，接收音频信息并进行实时处理从而能够实时获取隧道内的声音信号。

优选地，包括设置在隧道中的多个声音采集模块、与所述声音采集模块相连接的声音识别模块、设置在隧道进口上方的显示屏以及用于隧道监控信息处理与控制的隧道监控中心；

所述显示屏用于显示隧道监控信息；

所述声音采集模块用于连续采集隧道内的声音信号；

所述声音识别模块用于识别所采集的声音信号中是否杂含碰撞声/人声并以此判断隧道内是否出现异常事件；

如果判断为出现异常事件，所述隧道监控中心控制所述显示屏显示警报信息以提醒未驶入隧道车辆；

所述声音识别模块包括特征第一提取模块、第一归一化模块、神经网络分类模块和神经网络训练模块，其中，

所述第一特征提取模块用于接收原始采集声音数据，并对原始采集声音数据进行特征提取；

所述第一归一化模块用于对特征提取后的数据进行高斯归一化处理，输出归一化数据；

所述神经网络分类模块用于接收归一化数据及预先训练好的深度神经网络，并通过深度神经网络对所述归一化数据进行分类识别获得分类结果信息，所述分类结果信息为原始采集声音数据是否杂含碰撞声/人声的概率值，当该概率值超过预先设定的阈值时，则判定隧道内出现异常事件；

所述神经网络训练模块用于接收训练数据并根据训练数据进行神经网络的训练，得到充分学习带噪样本和干净样本之间的非线性映射关系的深度神经网络，并输出所述深度神经网络至所述神经网络分类模块；

所述神经网络训练模块包括第二特征提取模块、第二归一化模块、无监督学习预训练模块和监督学习优化模块，其中，所述无监督学习预训练模块用于发现输入数据中深层的抽象特征，采用受限制玻尔兹曼机(RBM)模型进行预训练并通过无监督学习的方式逐层渐进学习神经网络参数；所述监督学习优化模块采用反向传播(back-propagation，BP)算法，利用标注数据对神经网络参数进行有监督的精细调整。

优选地，所述第一特征提取模块/第二特征提取模块进一步包括分帧模块、DFT变换模块、谱减滤波模块和对数功率谱处理模块，其中，所述分帧模块用于对输入数据进行分帧处理；所述DFT变换模块用于对分帧处理后的数据进行离散傅里叶变换得到频域信息；所述谱减滤波模块用于将所述频域信息在频谱上减去预先获得的稳态风机噪声频谱模板，输出滤波数据；所述对数功率谱处理模块用于对所述滤波数据进行对数功率谱处理。

与现有技术相比较，本发明将声音识别技术应用于隧道监控领域，并根据隧道场景的特殊应用要求采用深度神经网络实现隧道声音识别，从而进一步完善了隧道安全的全方位监控，并能及时预警隧道中的异常事件。

附图说明

图1为本发明高速公路隧道安全监控方法的流程框图。

图2为步骤S2中声音识别的流程框图。

图3为神经网络训练步骤的流程框图。

图4为实现本发明高速公路隧道安全监控方法的系统的原理框图。

图5为本发明中声音识别模块的原理框图。

图6为受限制玻尔兹曼机(RBM)结构示意图。

图7为本发明中RBM的预训练示意图。

图8为训练得到的深度神经网络的结构框图。

图9为本发明中特征提取模块的原理框图。

图10为本发明中声音识别模块另一种实施方式的原理框图。

图11为本发明系统的另一种优选实施方式的原理框图。

图12为本发明中声音采集模块的原理框图。

图13为麦克风阵列排布的示意图。

图14为本发明系统的又一种优选实施方式的原理框图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的高速公路隧道安全监控方法作进一步说明。

近几年，随着云计算、大数据、人工智能、高性能计算硬件技术的成熟，尤其是机器学习领域深度学习(deep learning，DL)理论以及自动特征学习神经网络模型的成熟，深度神经网络在人工智能领域(智能图像和声音识别)已经广泛应用，比如谷歌推出AlphaGo战胜人类棋王而震惊世界，其本质其实是智能图形分析，通过机器学习的方式学习从一张棋谱图形到下一张棋谱图形变化的各种选择，利用计算机的超强计算能力从而作出距离目标的最优的选择；苹果公司应用于其iphone手机端的siri能够将自然随意对话下的大词汇量连续语音识别而且识别率也非常高。就交通监控系统而言，采用实时图像分析技术检测交通事件也已经有了广泛深入的研究，采用视频监控的方式也是最直接最有效的监控方式，然而，不幸的是，在隧道环境中，由于照明光线原因(自然光线不足、隧道照明光线和汽车车灯光线混杂多变)，图像分析准确率欠佳，同时动态图像分析需要大量的数据计算，无法满足实时分析的需求。

在重大交通事故发生时，车辆运行状态发送了相应的变化，尤其是高速碰撞的时候，伴有剧烈碰撞的声音，通过检测碰撞声就可以检测隧道中的交通事故。然而，高速公路隧道中背景噪声嘈杂，采用现有声音检测技术无法准确检测碰撞声。

申请人对隧道环境下的噪声进行深入研究，经研究发现，隧道噪声源主要由以下部分构成：隧道内通风机械运转产生的噪声，这是隧道内噪声的重要来源，但其是稳态的噪声源，由机械设备的固有属性决定，只要知道机械设备的运行状态，就可以准确确定该噪声源的模型；还有就是交通车流产生的噪声，该类噪声随车流量的增加而增加，主要包括车辆的发动机噪声和轮胎在路面行驶产生的噪声，发动机噪声是汽车的主要噪声源，车辆种类和车速对会影响，同样的行驶速度，大型车噪声最大，中型车次之，小型车最小；另外就是车辆行驶过程中随机的鸣笛声。因此，隧道中的背景噪声较为混杂，幸运的是，隧道背景噪声相对固定，其中，通风机械运转产生的噪声是稳态噪声，能够预先获取该噪声的频谱特征；而交通车流产生的噪声与车流量是呈比例关系的，同时，车辆瞬时碰撞声的强度是远超上述背景噪声的，其区分度是明显的，这为在隧道背景噪声下识别车辆碰撞声提供了客观基础。同时，如果有人出现在隧道内，这是非常危险的情况(比如，发生车辆碰撞等交通事故之后，通常会造成车道拥堵，甚至会有车主下车理论的情形出现，极易出现次生事故)。通常采用图像识别为主，人声检测为辅。因此，还有必要对人声进行监控，一旦检测到声音信号存在碰撞声/人声信息，则说明隧道内出现异常事件，须实时报警核实情况。

正如上文所介绍的，机器学习领域深度学习(deep learning，DL)理论以及自动特征学习神经网络模型的成熟，深度神经网络在人工智能领域(智能图像和声音识别)已经广泛应用，现有技术的语音识别技术能在复杂的背景环境噪声下识别人的语音，而且能较准确识别语义。在语音识别技术领域中，在复杂的背景环境噪声下识别是否存在语音(或者其他声音)并不存在技术难度，而真正的难度在于语义识别，把语音高正确率的转化成文字还不够，要听懂人类在说什么，要表达什么意图，这个才是皇冠上的宝石。这主要是因为语音的种类有近乎无数种，而且不同的人更是有不同的口音，同时语音所处的背景噪声环境更是多变，几乎每个语音场景都会有不同的背景噪声。因此，需要庞大的计算量才能完成实时语义分析，这对计算机计算性能要求是极高的。

相对于本申请的应用环境，虽然隧道背景噪声的分贝较高，但其噪声类型相对固定，碰撞声的类型也是相对固定，碰撞声识别的复杂度不及语音复杂度的万分之一，同时碰撞声瞬时强度极大，声音特征容易分区；对隧道内的人声监控，也只需要检测是否存在人声，而不需要语义识别。因此，针对上述应用需求，本申请通过架构DNN，在隧道背景噪声识别碰撞声/人声，进而以此为基础判断隧道内是否出现异常事件。采用DNN的智能声音识别相对于传统声音处理技术的优势在于，传统声音处理技术需要假设各种理想的状态，这些假设的理想性自然而然成为影响性能的重要因素，而DNN几乎不需要任何其他条件假设，可以通过不断学习不断逼近，从而达到精确识别的目的。即DNN通过多层以及成千上万个具有计算能力的神经元节点叠加成一个深度网络结构，然后对这个DNN进行训练，用大量干净样本和各种情形下的隧道噪声训练DNN，其目的是从已知的数据中学习到足够的知识，然后推广到未来新出现的数据，作出有效的决策。也即用DNN作为学习带噪样本和干净样本之间的非线性映射关系的回归模型，利用DNN的深度结构以及非线性模拟能力，可以充分学习带噪样本和干净样本之间的复杂的相互作用关系，神经网络的学习过程是一个无限逼近真实的过程，会根据输入的数据自动调节神经网络的参数和权重，其训练的数据越多，识别的结果越准确。DNN训练完成之后，实际检测时，将实际隧道中采集的隧道声信号输入DNN中，从而判断出该声音信号是否杂含碰撞声/人声。

参见图1，所示为本发明高速公路隧道安全监控方法的流程框图，包括以下步骤：

步骤S1：采集隧道内的声音信号；

步骤S2：对所采集的声音信号进行声音识别；

步骤S4：设置在隧道进口上方的显示屏显示隧道监控信息。

参见图2，所示为步骤S2中声音识别的流程框图，包括：

参见图3，所示为神经网络训练步骤的流程框图，包括：

接收训练数据，并对训练数据进行特征提取；

采用上述技术方案，通过深度神经网络实现隧道声音分类识别，从而能够全方位提升隧道的安全性能。

在一种优选实施方式中，特征提取步骤包括：

分帧步骤，对输入数据进行分帧处理；

其中，对数功率谱处理，相当于DFT变换后的各个系数取模的平方和取对数，取对数可以模拟人耳对声强的非线性感知特性，另外对数功率谱上信息比较完整，几乎没有丢失什么信息，有利于提高检测精度。

进一步的，本申请针对隧道声场的特殊性，直接通过谱减滤波将隧道场合中最大的噪声源风机噪声滤除，因为风机噪声属于稳态噪声，其频谱信息是确定的，在深度神经网络分类识别之前将稳态的风机噪声滤除，能够进一步提高了检测精度，同时也降低了神经网络的复杂度。

在一种优选实施方式中，执行神经网络分类步骤之前，还包括：

平均能量检测步骤，计算当前帧对数功率谱的平均能量值；

在正常情况下，隧道中声音信号是平稳的，其能量是相对平稳波动的，因此，可以预先测定实际声音信号的波动范围；而碰撞声是一个突发的强脉冲能量，其强度值远超正常波动范围。本申请通过对当前帧对数功率谱进行平均能量检测并进行相邻帧帧能量比较，判断相邻帧平均能量值的差值是否超出预设的波动范围，如果超过，则说明有强脉冲能量突增，执行神经网络分类步骤识别这段音频信号中强脉冲是不是碰撞声(主要区分鸣笛声)。因此，通过帧能量预判作为启动条件，从而深度神经网络无需实时计算，使能够通过人工智能芯片实现，本发明技术方案能在更多场合中得到应用。

在一种优选实施方式中，平均能量检测步骤还包括：

正如上述所分析的，交通车流产生的噪声与车流量是呈比例关系，虽然各种车型会有一定差异，基本上相对于特定的车流量存在对应声音信号的能量范围，能量范围是可以通过采集实际隧道场合中的声音数据分析来预先得到的。因此，通过判断当前帧能量值是否在对应车流量的能量范围之内作为深度神经网络的开启条件，在降低神经网络工作时长的同时能够进一步提高检测精度。

在一种优选实施方式中，步骤S1中采用由多个麦克风组成的麦克风阵列对隧道内的声音信号进行同步采集；并对每个麦克风采集的声音信号进行标识后再进行传输；其中，麦克风阵列中多个麦克风呈一定几何形状固定设置在隧道内且每个麦克风具有唯一标识ID。

在一种优选实施方式中，还包括：

声音定位步骤，当神经网络分类步骤中判定隧道内出现异常事件时，获取该异常事件的时间信息并获取相应麦克风阵列在该时间信息内的音频信息，根据每个麦克风固定的位置关系以及每个麦克风在该时间信息中对应音频信息的参数信息确定声音所处的具体位置；参数信息为每个麦克风在该时间信息中对应音频信息的峰值强度以及每个麦克风在峰值强度对应的时间差。

在一种优选实施方式中，还包括采用可旋转摄像装置追踪声音所处的具体位置的步骤。

采用上述技术方案，隧道内出现异常事件后，能够快速确定异常事件的位置，同时可旋转摄像装置能够更准确地采集现场视频，通过音视频结合，减少了监控的盲区，从而能够及时有效开展救援疏导工作。

在一种优选实施方式中，还包括：

采用上述技术方案，通过实时获取隧道内的声音信号，能够进一步获取现场信息，克服现有视频监控在隧道中音频质量差的技术缺陷，有助于有效开展救援工作；同时，从而当有人希望报警求救时，在隧道内大声呼叫就可以进行报警，监控中心就可以获取报警信息，从而无需通过专心呼叫报警电话。

参见图4，所示为实现本发明高速公路隧道安全监控方法的系统的原理框图，包括设置在隧道中的多个声音采集模块、与所述声音采集模块相连接的声音识别模块、设置在隧道进口上方的显示屏以及用于隧道监控信息处理与控制的隧道监控中心；隧道监控中心设置在离隧道不远的隧道工作站中，通常有专人执勤，及时安排救援排除隧道中出现的异常事件。显示屏用于显示隧道监控信息；声音采集模块用于连续采集隧道内的声音信号；声音识别模块用于识别所采集的声音信号中是否杂含碰撞声/人声并以此判断隧道内是否出现异常事件，并将相应信息发送给隧道监控中心；一旦判断为出现异常事件，隧道监控中心控制显示屏显示警报信息以提醒未驶入隧道车辆，从而能够及时预知隧道内的状况，避免发送后发事故。

参见图5，所示为本发明中声音识别模块的原理框图，包括特征第一提取模块、第一归一化模块、神经网络分类模块和神经网络训练模块，其中，第一特征提取模块用于接收原始采集声音数据，并对原始采集声音数据进行特征提取；第一归一化模块用于对特征提取后的数据进行高斯归一化处理，输出归一化数据；

神经网络分类模块用于接收归一化数据及预先训练好的深度神经网络，并通过深度神经网络对归一化数据进行分类识别获得分类结果信息，分类结果信息为原始采集声音数据是否杂含碰撞声/人声的概率值，当该概率值超过预先设定的阈值时，则判定隧道内出现异常事件；

神经网络训练模块用于接收训练数据并根据训练数据进行神经网络的训练，得到充分学习带噪样本和干净样本之间的非线性映射关系的深度神经网络，输出深度神经网络至神经网络分类模块；

神经网络训练模块包括第二特征提取模块、第二归一化模块、无监督学习预训练模块和监督学习优化模块，其中，第二特征提取模块与第一特征提取模块的功能结构完全相同，用于提取训练数据的特征；第二归一化模块与第一归一化模块的功能结构完全相同，对所提取的特征进行高斯归一化，即所有训练数据的均值归一化成0，方差规整为1。无监督学习预训练模块将预处理训练数据作为输入进行非监督学习初步训练，用于初始化生成深度神经网络的结构，通过无监督学习的方式逐层渐进学习神经网络参数，发现输入数据中深层的抽象特征。神经网络的每层采用受限制玻尔兹曼机(RBM)模型进行预训练，通过多个RBM叠加成一个深度网络结构。参见图6，所示为受限制玻尔兹曼机(RBM)结构示意图，RBM的对称连接只存在于显层节点和隐层节点之间，而在显层节点和隐层节点的内部没有任何形式的连接，可以认为层间是全连接，层内是无连接。RBM作为一种条件随机场，其每个神经元节点描述了一个随机变量的分布情况，通过各个神经元节点抓取输入向量中的高阶统计相关性来解释和发现训练输入向量中包含的潜在规律。

由于RBM显层和隐层内部都没有连接，可以很方便的得到数据和模型分布下的各状态的条件期望值。对于给定训练数量v，隐层节点的状态可以由以下公式(1)计算出：

P(h_i＝1|v)＝σ(b_j+∑v_iw_ij) (1)

然后使用对比散度算法(CD1算法，Contrastive Divergence,CD)来训练RBM，再使用梯度下降算法更新RBM参数：

上式(2)中，η为参数更新学习速率，i为迭代次数。通过调整RBM的模型参数，使得由RBM的指定的显层数据的能量减少，从而增大显层数据出现的概率，进而RBM学习到训练数据的真实分布P(v)。

在按照上述方法训练完成一个RBM以后，把学习到的权重固定住，由训练数据计算得到的RBM隐层状态可以用来作为训练另一个RBM的输入数据，也即使用训练数据训练第一个RBM得到一个隐藏层L1及其网络权重W1，再使用前一隐藏层的输出作为输入数据，逐层训练后续的RBM得到隐藏层L2～Li及网络权重矩阵W2～Wi。具体训练过程参见图7，所示为本发明中RBM的预训练示意图，以此逐层贪婪式地初始化所有的网络权重，从而进一步无监督的学习RBM隐层单元之间的依赖关系。在训练完所有的RBM后，把各个RBM叠加在一起，再最后一层叠加一个softmax层，从而构成一个自下向上的前馈的、深层的、区分性的用于分类的深层神经网络。由于采用RBM的堆积构成一个深度网络结构，以此作为深层神经网络在有监督训练时的初始化网路权重，可防止它陷入局部最优。

经过逐层的RBM生成性训练，我们可以在权重空间中找到一个更好的区域，从这个区域出发，可以使区分性的监督学习优化(精细调整)相对于从随机初始化开始进行监督学习优化(精细调整)取得更好的性能提升，也能显著减少过拟合的可能性。本发明中监督学习优化模块采用现有技术常用的反向传播(back-propagation，BP)算法，利用标注数据对神经网络参数进行有监督的精细调整。该算法中，通常分为两步：1)向前响应传播，即将输入通过各个隐层获得激励响应，而上一层的输出是下一层的输入，直到最后一层获得预测值；2)反向错误传播，根据向前响应传播到最后一层，可得到对信号的预测，这个预测值和参考信号的差异，就是需要反向传播的错误。有了反向传回的错误，就可以根据这个错误来调节神经网络的各个权重和偏置。准备好DNN的输入数据和输出数据之后，就可以开始更新网络的权重和偏置参数，即W和b，如下公式3所示：

这里λ代表学习速率，E表示一个用来优化的目标函数，可以采用最小均方误差准则；表示在层的有待学习的权重和偏置的参数。L表示真个隐层的数目，那么L+1就表示输出层。由上述公式可以看出，在模型参数的更新过程中，几乎没有任何假设被设定，因此，DNN可以很好地拟合带噪样本和干净样本之间的非线性关系。

实际神经网络训练中，训练数据是否完备是影响检测精度的关键因素。本发明中，构建“碰撞声训练数据集”、“隧道噪声训练数据集”以及“语音数据集”，其中，语音数据集采用标准TIMIT数据库获取干净音素集(人的语音最终都可以分解为各个音素，识别音素可以等价于人声检测，从而大大降低了复杂度)；隧道噪声训练数据集通过在实际隧道环境下采集各种情形的声音数据并根据车型和车流量对数据进行标注；碰撞声训练数据集收集各种车型碰撞试验的声音数据，并根据碰撞强度对数据进行标注；将干净音素集、干净碰撞声集分别和隧道噪声相加在一起，得到带噪样本。将以上训练数据样本输入神经网络模型训练网络的权重和偏置参数。参见图8，所示为训练得到的深度神经网络的结构框图，神经网络包括1个输入层，3个隐藏层L1～L3以及一个输出层。输入信号特征提取时，信号被采样到8KHz，相应的每个帧长被设定为256个样本点(32毫秒)，帧移是128个样本点，短时傅里叶分析被用来计算每个重叠帧的DFT系数，因此，输入层采用128个节点，对应输入数据的维度，输出层为三维数据输出，分别对应纯噪声、杂含碰撞声以及杂含人声。L1～L3中每层节点是2048个，其取决于训练数据的多少，2048个对应100万条训练数据。每个受限玻尔兹曼机的预训练的迭代次数是50次，预训练的学习速率是0.0005，前二十次的有监督的调优的学习速率是0.1，然后将学习速率每次递减百分之十，总的迭代次数是100次。

采用上述方式训练的深度神经网络，随着训练数据的增加，系统性能不断提高，在分类测试中，实际区分度达到80％，实际中可将预警的阈值设置为60％，能够作为隧道异常事件预警的有效评价指标。

参见图9，所示为本发明中特征提取模块的原理框图，第一特征提取模块/第二特征提取模块进一步包括分帧模块、DFT变换模块、谱减滤波模块和对数功率谱处理模块，其中，分帧模块用于对输入数据进行分帧处理，采用交叠分段，一般帧移占帧长的比重为0-50％；DFT变换模块用于对分帧处理后的数据进行离散傅里叶变换得到频域信息；谱减滤波模块用于将频域信息在频谱上减去预先获得的稳态风机噪声频谱模板，输出滤波数据，上述已介绍，在隧道场合中，最大的噪声源是用于隧道通风的风机噪声，由于风机噪声属于稳态噪声，因此其频谱信息是确定的，本发明采用在信号频谱上直接减去稳态风机噪声频谱的方式将风机噪声滤除，从而进一步提高了检测精度，同时降低了神经网络的复杂度；对数功率谱处理模块用于对滤波数据进行对数功率谱处理，相当于DFT变换后的各个系数取模的平方和取对数，取对数可以模拟人耳对声强的非线性感知特性，另外对数功率谱上信息比较完整，几乎没有丢失什么信息，有利于提高检测精度。

在一种优选实施方式中，碰撞声识别模块采用内置深度神经网络的人工智能芯片实现。虽然现有技术中已有很多功能强大内置深度神经网络的人工智能芯片，比如英伟达(NVIDIA)推出首款专门为深度学习从零开始设计的芯片Tesla P100，该芯片数据处理速度是其2014年推出GPU系列的12倍；谷歌为机器学习定制的芯片TPU将硬件性能提升至相当于按照摩尔定律发展7年后的水平；在人工智能领域，国内相关企业也不甘落后，比如成都启英泰伦科技推出一款智能语音芯片CI1006，是基于ASIC架构的人工智能语音识别芯片，包含了深度神经网络处理硬件单元，能够完美支持DNN运算架构，进行高性能的数据并行计算，可极大的提高人工智能深度学习语音技术对大量数据的处理效率。但芯片级的计算性能毕竟还不能和PC级的计算性能相媲美，通常无法满足实时性的要求。参见图10，所示为本发明中声音识别模块另一种实施方式的原理框图，声音识别模块还包括平均能量检测模块和帧能量比较模块,其中，平均能量检测模块用于计算当前帧对数功率谱的平均能量值并发送给帧能量比较模块；帧能量比较模块用于计算相邻帧平均能量值的差值并判断该差值是否超出预设的阈值，如果超过则开启神经网络分类模块。相对于位置固定的麦克风，其采集的声音信号能量分布与实际声场分布成一定比例关系。而在本申请的应用环境中，在正常情况下，声音信号的能量是相对平稳波动的，其波动范围可以通过实际测定预先得到；而碰撞声是一个突发的强脉冲能量，其强度值远超正常波动范围。因此通过前后帧能量比较可以判断是否出现脉冲，如果有强脉冲能量突增，再开启神经网络分类模块进行判断这段音频信号中强脉冲是不是碰撞声(主要区分鸣笛声)。采用上述技术方案，通过帧能量预判作为开启条件，从而神经网络分类模块无需实时计算，能够通过芯片级系统实现，使神经网络声音识别技术能在更多场合中得到应用。

在一种优选实施方式中，帧能量比较模块接收当前车流量信息，并计算当前帧平均能量值是否超出预设相应车流量信息所对应的能量值范围，如果超过则开启神经网络分类模块。正如上述所分析的，交通车流产生的噪声与车流量是呈比例关系，虽然各种车型会有一定差异，基本上相对于特定的车流量存在对应声音信号的能量范围(已经在频谱上滤除风机噪声)，我们可以通过采集实际隧道场合中的声音数据并对大量数据进行分析来预先获得这个能量范围。因此，通过判断当前帧能量值是否在对应车流量的能量范围之内作为神经网络分类模块的开启条件，在降低神经网络工作时长的同时能够进一步提高检测精度。

参见图11，所示为本发明系统的另一种优选实施方式的原理框图，声音识别模块设置在隧道监控中心中，声音采集模块与隧道监控中心采用光纤通讯。深度神经网络对计算硬件的性能要求极高，尤其是要求实时监测的应用场合。随着“智能隧道”的普及，每个隧道都设置有监控站，以及在隧道内铺设光纤。本发明中隧道监控中心通常设置在隧道附近的监控站内，在监控站内有完备的计算硬件，可以根据应用需求“无限”升级硬件设备，比如超大容量存储设备，多台计算机/服务器并行处理，每台计算机/服务器中设置多块CPU和GPU，因此，声音识别模块设置在隧道监控中心中，从而有足够的硬件条件能够保证深度神经网络的运行。声音采集模块与隧道监控中心采用光纤通讯，从而极大提高了数据传输的速度，提高了系统实时检测的性能。

参见图12，所示为本发明中声音采集模块的原理框图，声音采集模块进一步包括由多个麦克风组成的麦克风阵列、音频处理模块、控制模块和传输模块，其中，麦克风阵列中多个麦克风呈一定几何形状固定设置在隧道内且每个麦克风具有唯一标识ID；控制模块与音频处理模块和传输模块相连接，用于控制音频处理模块和传输模块的工作；音频处理模块用于同步获取并标识每个麦克风采集的声音信号并对声音信号进行处理后输出音频信息，发送给传输模块；传输模块用于将音频信息传输至隧道监控中心。采用上述技术方案，通过音频处理模块同步采集麦克风阵列的音频信号，任一个ID的麦克风都采集连续的音频信息，并通过传输模块传输并保存在隧道监控中心。由于设置多个麦克风，从而保证所采集音频信号的完整性，弥补了现有技术视频监控在隧道中应用时音频质量差的缺陷；同时，多个麦克风呈一定几何形状固定设置，参见图13，所示为麦克风阵列排布的示意图，多个唯一标识麦克风呈圆形设置且同步采样，理论上，当区域内有声源发出声音时，由于声源距离每个麦克风距离不一样，因此每个麦克风接收到信号的强度以及信号到达的时间会出现差异，因此，根据每个麦克风收到的差异性信号以及每个麦克风确定的相对位置信息，便能确定声源所处的位置。

为了及时确定碰撞声的具体位置，参见图14，所示为本发明系统的又一种优选实施方式的原理框图，隧道监控中心还设置有声音定位模块，当声音识别模块判定隧道内出现异常事件时，获取该异常事件的时间信息；声音定位模块接入数据库并获取相应麦克风阵列在该时间信息内的音频信息，并根据每个麦克风固定的位置关系以及每个麦克风在该时间信息中对应音频信息的参数信息确定声音所处的具体位置；其中，参数信息为每个麦克风在该时间信息中对应音频信息的峰值强度以及每个麦克风在峰值强度对应的时间差。也即当声音识别模块判定隧道内出现异常事件后，声音定位模块能够快速确定异常事件的位置，从而能够及时有效开展救援疏导工作。

在一种优选实施方式中，还包括可旋转摄像装置，可旋转摄像装置设置在隧道中并通过光纤与隧道监控中心相连接，当声音识别模块判定隧道内出现异常事件时，隧道监控中心控制可旋转摄像装置旋转镜头至声音定位模块所确定的具体位置。采用上述技术方案，可旋转摄像装置能够更准确地采集现场视频，从而通过音视频结合，减少了监控的盲区。

在一种优选实施方式中，隧道监控中心还设置有实时声音处理模块，当声音识别模块判定隧道内出现异常事件时，实时声音处理模块用于接收声音采集模块发送的音频信息并进行实时处理从而能够实时获取隧道内的声音信号。采用上述技术方案，从而能够克服现有视频监控在隧道中音频质量差的技术缺陷，通过实时获取隧道内的声音信号，有助于开展救援工作，同时，当有人希望报警求救时，在隧道内大声呼叫就可以进行报警，监控中心就可以获取报警信息，从而无需通过专心呼叫报警电话。

在一种优选实施方式中，声音采集模块与隧道照明系统一体设置。现有技术中，隧道照明系统用于对每个隧道灯进行智能控制，从而提供一个舒适的隧道照明环境。将声音采集模块与隧道照明系统一体设置可以减少系统布线的工程量。更优选地，声音采集模块可以集成在隧道灯中，麦克风阵列可以布置在隧道灯的灯具表面，从而现有隧道改造时，无需重新布线。

在一种优选实施方式中，还包括车流量检测装置，车流量检测装置用于采集车流量信息并发送给隧道监控中心。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种高速公路隧道安全监控方法，其特征在于，包括以下步骤：

步骤S1：采集隧道内的声音信号；

步骤S2：对所采集的声音信号进行声音识别；

步骤S4：设置在隧道进口上方的显示屏显示隧道监控信息；

所述步骤S2进一步包括以下步骤：

所述神经网络训练步骤包括：

接收训练数据，并对训练数据进行特征提取；

2.根据权利要求1所述的高速公路隧道安全监控方法，其特征在于，所述特征提取步骤包括：

分帧步骤，对输入数据进行分帧处理；

3.根据权利要求1或2所述的高速公路隧道安全监控方法，其特征在于，执行神经网络分类步骤之前，还包括：

平均能量检测步骤，计算当前帧对数功率谱的平均能量值；

4.根据权利要求3所述的高速公路隧道安全监控方法，其特征在于，所述平均能量检测步骤还包括：

5.根据权利要求1或2所述的高速公路隧道安全监控方法，其特征在于，步骤S1中采用由多个麦克风组成的麦克风阵列对隧道内的声音信号进行同步采集；并对每个麦克风采集的声音信号进行标识后再进行传输；

6.根据权利要求5所述的高速公路隧道安全监控方法，其特征在于，还包括：

7.根据权利要求6所述的高速公路隧道安全监控方法，其特征在于，还包括采用可旋转摄像装置追踪声音所处的具体位置的步骤。

8.根据权利要求7所述的高速公路隧道安全监控方法，其特征在于，还包括：

9.根据权利要求1所述的高速公路隧道安全监控方法，其特征在于，包括设置在隧道中的多个声音采集模块、与所述声音采集模块相连接的声音识别模块、设置在隧道进口上方的显示屏以及用于隧道监控信息处理与控制的隧道监控中心；

所述显示屏用于显示隧道监控信息；

所述声音采集模块用于连续采集隧道内的声音信号；

10.根据权利要求9所述的高速公路隧道安全监控方法，其特征在于，所述第一特征提取模块/第二特征提取模块进一步包括分帧模块、DFT变换模块、谱减滤波模块和对数功率谱处理模块，其中，所述分帧模块用于对输入数据进行分帧处理；所述DFT变换模块用于对分帧处理后的数据进行离散傅里叶变换得到频域信息；所述谱减滤波模块用于将所述频域信息在频谱上减去预先获得的稳态风机噪声频谱模板，输出滤波数据；所述对数功率谱处理模块用于对所述滤波数据进行对数功率谱处理。