CN109300471B

CN109300471B - 融合声音采集识别的场区智能视频监控方法、装置及系统

Info

Publication number: CN109300471B
Application number: CN201811235358.7A
Authority: CN
Inventors: 李伟娜; 康兴东; 吕涛; 滑常勇; 崔永新; 朱佳星; 朱文涛; 刘鸿慧; 张建强
Original assignee: Beris Engineering and Research Corp
Current assignee: Beris Engineering and Research Corp
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2021-09-14
Anticipated expiration: 2038-10-23
Also published as: CN109300471A

Abstract

本申请实施例公开了融合声音采集识别的场区智能视频监控方法、装置及系统，采集布设在场区不同位置的麦克风获取的声音数据；对声音数据进行预处理后进行存储；采集布设在场区不同位置的摄像头获取的视频数据，对视频数据进行存储；对振幅超过设定阈值的声音进行声源进行定位，对振幅超过设定阈值的声音进行特征提取，根据提取的特征对声音进行识别，判断是否是场区内的异常声音；如果是异常声音，则根据异常声音的声源位置对距离声源位置距离最近的摄像头的拍摄角度进行调整；获取调整角度后的摄像头拍摄的视频数据，将异常声音和异常声音对应的位置处的视频数据进行合并后，进行记录存储，同时发出报警信号。

Description

融合声音采集识别的场区智能视频监控方法、装置及系统

技术领域

本申请实施例涉及视频监控及视频监控系统采集端的自动控制领域，特别是涉及融合声音采集识别的场区智能视频监控方法、装置及系统。

背景技术

传统视频监控系统，通过整合分布设置的视频采集摄像头，通过网络传输到控制主机进行存储，通过人工进行控制、查看比对，反馈到摄像机的前端控制，或对控制主机中的存储文件进行调取删除回放等操作。

带有旋转云台的摄像头，目前某些摄像头可支持自动巡航、自动线扫、按照一定速度角度旋转，即按照视频监控系统预设定的规则进行自动旋转视频采集。

智能视频分析：当前智能视频监控系统的发展方向主要是使计算机能通过对图像处理和分析以理解视频中的内容，达到自动分析和抽取视频中关键信息的目的。采用计算机视觉和模式识别的算法，同用户先前配置的安全模型相比较，根据规则，向系统提出预警。总体是通过计算机分析视频图像源，从中识别并提取出关键信息，并提出报警或根据规则对视频采集设备发出动作指令。

传统视频监控存在的问题：由安保人员直接监控画面，效率低下，若长时间的注视监控，容易疲劳，注意力分散。无法满足持续监控的要求，不能及时分辨，容易产生大量无用视频信息，且有用信息的甄别变得困难。摄像头主要用于对所发生事件的实时机械记录、主要以震慑违法者或事后取证为主，不能进行实时干预，没有发挥监控的实时作用。传统的依靠人力的视频监控已经越来越难以满足当今社会及工业场区对实时监控和智能溯源的要求。

摄像头云台控制问题：当前摄像头云台控制按照预设定规则进行规律的旋转视频采集，容易使得重要的异常情景疏忽，且违法者可根据旋转带来的盲区进行有目的的犯罪。

当前智能视频监控系统的问题：目前智能视频监控的研究方向主要是基于后端对采集的视频图像算法处理进行扩展，即深化采集到的视频的智能分析技术，视频分析后再根据结果反馈人为调整摄像头。由于监控场景错综复杂，仅依靠智能视频监控系统对图像信息进行处理，有一定的局限性，单纯依靠视频图像单一信息作为分析源进行分析判别，可能出现信息盲区，导致自动侦测报警系统的漏报或虚报。

发明内容

为了解决现有技术的不足，本申请实施例提供了融合声音采集识别的场区智能视频监控方法、装置及系统，在场区多个重要区域布置麦克风采集声音进行人工智能声音识别与监控系统摄像头控制结合，增强摄像头对前端采集视频质量的能力，能实时的报警干预，并能自动控制，使视频监控系统能听会说。

第一方面，本申请实施例提供了融合声音采集识别的场区智能视频监控方法；

融合声音采集识别的场区智能视频监控方法，包括：

采集布设在场区不同位置的麦克风获取的声音数据；对声音数据进行预处理后进行存储；

采集布设在场区不同位置的摄像头获取的视频数据，对视频数据进行存储；

对振幅超过设定阈值的声音进行声源进行定位，对振幅超过设定阈值的声音进行特征提取，根据提取的特征对声音进行识别，判断是否是场区内的异常声音；

如果是异常声音，则根据异常声音的声源位置对距离声源位置距离最近的摄像头的拍摄角度进行调整；

获取调整角度后的摄像头拍摄的视频数据，将异常声音和异常声音对应的位置处的视频数据进行合并后，进行记录存储，同时发出报警信号。

因此，在申请实施例中，在场区多个重要区域布置麦克风采集声音进行人工智能声音识别与监控系统摄像头控制结合，增强摄像头对前端采集视频质量的能力，能实时的报警干预，并能自动控制，使视频监控系统能听会说。

可选的，在一些可能的实现方式中，对振幅超过设定阈值的声音进行声源进行定位，具体步骤为：通过不同麦克风检测到的振幅超过设定阈值声音的时间差，对声源位置进行确定，进而确定与声源位置相邻最近的两个麦克风。

可选的，在一些可能的实现方式中，对振幅超过设定阈值的声音进行特征提取，具体提取的特征包括：振幅、短时能量特征或MFCC(Mel频率倒谱系数，Mel-FrequencyCepstral Coefficients)特征等。

可选的，在一些可能的实现方式中，根据提取的特征对声音进行识别，判断是否是场区内的异常声音，具体步骤为：

预先构建神经网络，利用场区的预先采集的正、负训练样本进行训练，得到训练好的神经网络；将提取的特征输入到训练好的神经网络中，输出声音识别结果，即：正常声音或异常声音。该实施方式的优点是，可以有效避免误判。

正训练样本的获取步骤为：对场区内正常声音进行采集，对声音进行去噪和平滑预处理，然后进行特征提取，将提取的特征作为正训练样本；

负训练样本的获取步骤为：对场区内异常声音进行采集，对声音进行去噪和平滑预处理，然后进行特征提取，将提取的特征作为负训练样本；异常声音，包括场区越界、车辆冲撞、事故声、爆炸声、尖叫声、犯罪行为声音或玻璃破碎声。

可选的，在一些可能的实现方式中，如果是异常声音，则根据异常声音的声源位置对距离声源位置距离最近的摄像头的拍摄角度进行调整的具体步骤为：

假设异常声音声源位置与摄像头之间的连线和摄像头的当前摄像方向之间的夹角为第一夹角；则将摄像头的当前摄像方向朝声源位置方向移动第一夹角的角度，完成角度的调整；

如果当前摄像头达到极限角度，不能完成角度的调整，则选择距离声源位置第二近的摄像头进行角度调整。

除了对摄像头的拍摄角度进行调整，还允许对摄像头进行调焦或补光。

可选的，在一些可能的实现方式中，进行记录存储的具体步骤为：

将麦克风位置、摄像头位置、异常声音声源位置、关联摄像头当前拍摄方向、建议关联摄像头调整的方向及角度均设置在电子地图中，形成数字地图；随着摄像头拍摄方向的变化，数字地图中的内容进行实时更新。

可选的，在一些可能的实现方式中，关联摄像头的确定方式为：以声源为中心，距离声源最近的摄像头即为关联摄像头。

第二方面，本申请实施例还提供了融合声音采集识别的场区智能视频监控装置；

声音采集模块，用于采集布设在场区不同位置的麦克风获取的声音数据；

声音存储模块，用于对声音数据进行预处理后进行存储；

视频采集模块，用于采集布设在场区不同位置的摄像头获取的视频数据；

视频存储模块，用于对视频数据进行存储；

声音定位模块，用于对振幅超过设定阈值的声音进行声源进行定位；

声音特征提取模块，用于对振幅超过设定阈值的声音进行特征提取；

异常声音识别模块，用于根据提取的特征对声音进行识别，判断是否是场区内的异常声音；

控制模块，根据异常声音的声源位置对距离声源位置距离最近的摄像头的拍摄角度进行调整；

声音视频融合报警模块，获取调整角度后的摄像头拍摄的视频数据，将异常声音和异常声音对应的位置处的视频数据进行融合后，进行记录存储，同时发出报警信号。

显示模块，对麦克风位置、摄像头位置、异常声音声源位置、关联摄像头当前拍摄方向、建议关联摄像头调整的方向及角度均设置在电子地图中，对电子地图进行显示。

异常声音识别模型构建模块，用于预先构建神经网络，利用场区的预先采集的正、负训练样本进行训练，得到训练好的神经网络；将训练好的神经网络提供给异常声音识别模块进行异常声音的识别。

用户端，用于接收用户的输入指令，所述输入指令包括：手动调整摄像头的角度、手动控制麦克风的启动与关闭或查看显示模块的数据。

第三方面，本申请实施例还提供了融合声音采集识别的场区智能视频监控系统，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中的任一方法的步骤。

与现有技术相比，本申请实施例的有益效果是：

通过场区内多个区域布置的声音采集麦克风，进行区域内的声音监测，并实时通过对不同麦克风检测到的同一声音进行计算，对声源区域进行判定，确定相邻最近的两个麦克风。

同时，监测到的声音经特征提取和识别，若判定为异常声音，则将此异常的报警信号结合对应声音声源区域信息，向视频监控系统的操作人员发出报警提示，便于操作人员及时控制干预。

在这个过程中，声音与视频监控同时记录存储，便于后期查证。

另外，视频监控系统可根据上述声音报警信息和对应声源区域信息，进行摄像头的自动控制，包括摄像头旋转角度调整，以趋近于异常声音声源位置，可在人员不参与操作下，更精确的对异常声音声源位置进行针对性的视频拍摄。

实现了声音报警功能与视频监控的融合，使视频监控能听会说，使视频监控前端采集更智能、更有针对性，能事前干预。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例的视频监控系统处理流程、模块组成及功能步骤说明；

图2为本申请实施例的摄像头与麦克风典型布置图；

图3为本申请实施例的异常声音的区域检测与摄像头调整角度的算法。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

随着信息融合技术的成熟，多传感方式的融合监控必然成为将来智能监控发展方向，多传感方式信息融合能克服单一传感的片面性和局限性，通过多传感器间的信息补充和冗余验证，提高系统的准确率和系统鲁棒性。

随着声音识别技术的发展，声音识别技术增强了对声音的异常判断和追踪能力，适合于与视频监控进行配合。通过人工智能技术对异常声音识别，避免了以往仅通过声音强度阈值等范围判断的缺陷，更能深层次充分判别异常声音。

建筑体或工业场区的视频监控系统一般设置分布在各个区域的较多摄像头对多个重要位置进行实时监控。如果能依据各个区域的事态异常判断，及时的对摄像头进行干预或自动控制，将大大提高视频监控系统的智能化，更好的实时预防或干预异常状况，防止异常事件发生或及时处置，对场区安全有重要意义。

本申请实施例提出将分布多点布置的麦克风声音报警功能与视频监控系统融合自动控制视频监控报警系统。主要系统功能组成部分：

场区多点布置的麦克风采集装置，场区多点布置的群摄像头(与传统视频监控系统摄像头布置原则一致，典型布置方式见图2；

声音视频转换与传输网络；

视频监控装置，组成模块包括：声音采集模块、声音存储模块、特征提取模块、异常声音识别模块、声音视频融合报警模块、视频采集模块、视频存储模块，视频监控系统控制模块；

用户端(视频显示、声音收听、控制等，其中可选自动控制或手动控制)。

具体流程为：

本申请实施例提出通过对场区内多个重要监控位置点设置麦克风，此多点布置的麦克风对监控位置的区域内各点进行实时声音采集，传输到声音存储模块分别进行存储，特征提取模块对采集的声音进行实时特征提取，对提取的特征进行通过异常声音识别模块进行声音识别，根据声学特性、异常点统计特性和频谱特性等，判定是否为异常声音。

同时，同一个声音经过两个相邻麦克风的采集，存储的两段声音文件，视频监控系统经过模数转换，通过对同一个声音信号增强，计算时间差，计算此发声点相对于这两个麦克风的相对位置区域，形成声源位置相对两个麦克风中间区域的定位信息。

视频监控系统设置声音视频融合报警模块，通过实时收集声音识别模块发出是否为异常声音的信息，进行判定，若当前某麦克风或几个麦克风收集到异常声音，则将此信息推送至视频监控装置控制模块。同时，融合报警平台将此异常声音的声音区域定位信息也一起推送至控制模块。

对于多点布置的麦克风和摄像头，视频监控系统将其定位信息，摄像头的拍摄方向信息，各设置在地图中的位置，相对关系等数字化，形成数字地图，作为控制平台的组成部分，并且报警界面按平面简图的形式呈现出来，如图3所示。并且，随着摄像头拍摄方向实时变化，在数字化地图中随时进行信息更新。

如某处发出声音，如图2所示，通过对同一声音到达的判断，确定此发声点的相对区域位置信息，将异常的位置在数字化地图中标定出来。

若检定为异常声音，则控制模块在数字地图上，以此声源的区域位置信息为圆心，确定离此异常声音点最近的摄像头，作为关联摄像头。通过对当前摄像头拍摄方向A与异常点的连线方向B计算比较，确定摄像头可以从方向A调整为方向B的角度。

同时，视频监控装置控制模块将报警信息推送至报警界面，在报警界面中显示异常声音点，并提示相应需要调整摄像头，及可以调整的角度。

在这个过程中，声音与视频监控实时的对实际发生状况进行记录存储，便于后期回放查证。

操作人员按照此报警界面中的提示信息，可依照此信息作为参考，通过用户端的进行相应操作，操作信号反馈到控制模块，可对此关联摄像头进行控制，或者对提示的麦克风进行控制。可对此关联摄像头进行角度调整、调焦、补光等，捕捉更高质量的视频。同时操作人员在收到报警界面提示后，可通知安保人员进行实时干预，防止事态发展。

另外，操作人员可在用户端中选择自动反馈控制功能，若为自动反馈控制，视频监控装置控制模块，可根据数字化地图中异常声音发生未知、关联摄像头的需要调整的角度、摄像头极限角度的判断，反馈进行角度的调整，以更准确的对发生异常状况的位置区域进行实时拍摄。并且，自动反馈控制功能选择下，报警界面依然如上述报警情况一致。

图1-视频监控系统处理流程、模块组成及功能步骤说明

对图1流程中的某些步骤说明如下：

用户端：所述视频监控系统为包含多个摄像头的区域内视频监控的集成系统，其用户端包括对应所有摄像头的显示窗口的结合。与一般视频监控用户端的区别在于增加了一个单独的报警界面，此界面作为单独的显示屏显示。

声音处理：包括去噪和平滑处理等，避免对有用信号的屏蔽，利于特征提取。

用户端的控制：可包含对视频监控系统相应模块的控制，如存储平台的数据删减，识别模块的更新等；也包括通过控制平台对相关联的设备的控制，如摄像头的角度控制、麦克风的角度和音量的控制等。

另外，需要说明的标准库与判定规则模块的训练过程：

通过对麦克风探测范围内环境的声音进行采集，对采集后的声音进行必要的预处理，包括去噪和平滑处理，避免对有用信号的屏蔽，减少干扰。对处理后的声音数据进行特征提取形成样本集。样本集中的样本，若为发生异常状况，标定为异常样本；若为正常状态标定为正常样本，综合作为区域环境的声音样本进行导入形成训练样本。通过采集有关资料整理异常声音样本，如场区越界、车辆冲撞、事故声、爆炸声、尖叫声、犯罪行为声音、玻璃破碎声等声音样本，并标定为异常样本。将上述采集的样本也送入如上形成的训练样本，将训练样本送入人工智能学习算法进行训练，形成判定声音状态的标准库与判定规则，供正常使用时的声音识别对比原则。

本申请实施例还提供了融合声音采集识别的场区智能视频监控系统，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.融合声音采集识别的场区智能视频监控方法，其特征是，包括：

获取调整角度后的摄像头拍摄的视频数据，将异常声音和异常声音对应的位置处的视频数据进行合并后，进行记录存储，同时发出报警信号；

进行记录存储的具体步骤为：将麦克风位置、摄像头位置、异常声音声源位置、关联摄像头当前拍摄方向、建议关联摄像头调整的方向及角度均设置在电子地图中，形成数字地图；随着摄像头拍摄方向的变化，数字地图中的内容进行实时更新；

通过对同一声音到达的判断，确定此发声点的相对区域位置信息，将异常的位置在数字化地图中标定出来；

若检定为异常声音，则在数字地图上，以此声源的区域位置信息为圆心，确定离此异常声音点最近的摄像头，作为关联摄像头，通过对当前摄像头拍摄方向A与异常点的连线方向B计算比较，确定摄像头可以从方向A调整为方向B的角度。

2.如权利要求1所述的融合声音采集识别的场区智能视频监控方法，其特征是，

对振幅超过设定阈值的声音进行声源进行定位，具体步骤为：通过不同麦克风检测到的振幅超过设定阈值声音的时间差，对声源位置进行确定，进而确定与声源位置相邻最近的两个麦克风。

3.如权利要求1所述的融合声音采集识别的场区智能视频监控方法，其特征是，

对振幅超过设定阈值的声音进行特征提取，具体提取的特征包括：振幅、短时能量特征或MFCC特征。

4.如权利要求1所述的融合声音采集识别的场区智能视频监控方法，其特征是，

根据提取的特征对声音进行识别，判断是否是场区内的异常声音，具体步骤为：

预先构建神经网络，利用场区的预先采集的正、负训练样本进行训练，得到训练好的神经网络；将提取的特征输入到训练好的神经网络中，输出声音识别结果，即：正常声音或异常声音。

5.如权利要求4所述的融合声音采集识别的场区智能视频监控方法，其特征是，

6.如权利要求1所述的融合声音采集识别的场区智能视频监控方法，其特征是，

如果是异常声音，则根据异常声音的声源位置对距离声源位置距离最近的摄像头的拍摄角度进行调整的具体步骤为：

7.融合声音采集识别的场区智能视频监控装置，其特征是，包括：

声音存储模块，用于对声音数据进行预处理后进行存储；

视频存储模块，用于对视频数据进行存储；

声音视频融合报警模块，获取调整角度后的摄像头拍摄的视频数据，将异常声音和异常声音对应的位置处的视频数据进行融合后，进行记录存储，同时发出报警信号；

若检定为异常声音，则在数字地图上，以此声源的区域位置信息为圆心，确定离此异常声音点最近的摄像头，作为关联摄像头，通过对当前摄像头拍摄方向A与异常点的连线方向B计算比较，确定摄像头可以从方向A调整为方向B的角度；

显示模块，对麦克风位置、摄像头位置、异常声音声源位置、关联摄像头当前拍摄方向、建议关联摄像头调整的方向及角度均设置在电子地图中，对电子地图进行显示；

异常声音识别模型构建模块，用于预先构建神经网络，利用场区的预先采集的正、负训练样本进行训练，得到训练好的神经网络；将训练好的神经网络提供给异常声音识别模块进行异常声音的识别；

8.融合声音采集识别的场区智能视频监控系统，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项方法所述的步骤。