CN108062349B

CN108062349B - 基于视频结构化数据及深度学习的视频监控方法和系统

Info

Publication number: CN108062349B
Application number: CN201711055314.1A
Authority: CN
Inventors: 谢维信; 王鑫; 高志坚
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2022-03-08
Anticipated expiration: 2037-10-31
Also published as: CN108062349A

Abstract

本发明公开了一种基于视频结构化数据及深度学习的视频监控系统，包括：视频采集模块、前端智能分析模块、云端服务器以及监控平台；视频采集模块负责采集实时视频数据或已录制视频；智能分析模块对获取的视频数据进行结构化处理从而得到具有高度压缩性结构化信息；云端分析模块负责对结构化数据挖掘。实现方法包括：在前端导入针对实际监控数据集训练好的YOLOv2目标检测模型实现对指定的目标识别，并嵌入GPU模块对深度学习算法进行加速；利用结构化技术提取每一帧的结构化数据；将结构化数据传送到云端服务器利用机器学习算法挖掘更深层信息。本发明能够解决传统监控框架网络传输压力大、成本高以及后端处理耗时等问题，具有实际的应用价值。

Description

基于视频结构化数据及深度学习的视频监控方法和系统

技术领域

本发明涉及视频监控领域，特别是涉及一种基于视频结构化数据及深度学习的视频监控方法和系统。

背景技术

进入21世纪以来，应国防、城市安防发展的需要，公共场所的安全状态的精准监控愈发重要。因此，智能监控技术越来越受到研究人员以及各大安防厂商的关注。但是，在现有技术中，智能监控系统大多采用将全部视频数据传送到云端服务器，从而造成网络传输压力大、数据流量成本高、过度依赖网络及检测精度较差等问题。而另有少数的具有本地端处理的智能摄像头却因功能单一、智能化程度较低，误报率高及成本昂贵等问题，无法较好满足复杂场景的监控需求。

发明内容

本发明主要解决的技术问题是，提供一种基于视频结构化数据及深度学习的视频监控方法和系统，能够解决网络传输压力大、数据流量成本高的问题。

为解决上述技术问题，本发明采用的技术方案是提供一种基于视频结构化数据及深度学习的视频监控方法，包括以下步骤：

读取视频；

对所述视频进行结构化处理，得到结构化数据；

将所述结构化数据上传至云端服务器，并对所述结构化数据进行深入分析，以得到预设结果。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于视频结构化数据及深度学习的视频监控系统，包括相互电性连接的视频获取模块、智能分析模块、云端服务器以及监控平台；

所述视频获取模块采集实时视频或预先录制的视频；

智能分析模块对所述视频获取模块模块获取的视频进行结构化处理，以得到所述视频的结构化数据，并将所述结构化数据传输至所述云端服务器；

云端服务器对所述结构化数据进行深入分析，以得到预设区域目标的行为类型以及异常行为；

智能视频监控平台根据所述行为类型以及异常行为在电子地图上绘制出所述目标的轨迹，并对所述异常行为形成警报提示。

以上技术方案的有益效果是：区别于现有技术的情况，本发明通过读取视频，并对视频进行结构化处理得到结构化数据，并将得到的结构化数据上传至云端服务器进行深入分析。本方法通过将视频结构化处理得到对深入分析起到关键性的结构化数据，然后仅将结构化数据上传至云端，而不是将整个视频传输至云端，解决了网络传输压力大、数据流量成本高的问题。

附图说明

图1是本发明基于视频结构化数据及深度学习的视频监控方法的一实施方式的流程示意图；

图2是本发明基于视频结构化数据的分布式智能视频监控的方法的另一实施例的流程示意图；

图3是本发明基于视频结构化数据及深度学习的视频监控方法的又一实施例的流程示意图；

图4是本发明基于视频结构化数据的分布式智能视频监控的方法的又一实施例的流程示意图；

图5是本发明基于视频结构化数据及深度学习的视频监控方法的再一实施例的流程示意图；

图6是本发明基于视频结构化数据及深度学习的视频监控方法的又一实施例的流程示意图；

图7是本发明基于视频结构化数据及深度学习的视频监控方法的又一实施例的流程示意图；

图8是图7提供的实施例中步骤S243的一实施例的流程示意图；

图9是本发明基于视频结构化数据及深度学习的视频监控方法的一实施例中的运动时空容器的示意图；

图10是本发明基于视频结构化数据的分布式智能视频监控的系统的一实施例的示意图。

具体实施方式

在下文中，将参照附图来描述本申请的示例性实施例。为了清楚和简要的目的，不详细描述公知的功能和构造。考虑到本申请中的功能而限定的下面描述的术语可以根据用户和操作者的意图或实施而不同。因此，应该在整个说明书的公开的基础上来限定所述术语。

请参阅图1，为本发明基于视频结构化数据及深度学习的视频监控方法的方法的第一实施方式的流程示意图。该方法包括：

S10：读取视频。

可选地，读取视频包括读取摄像头采集的实时视频和/或预先录制保存的视频的数据。其中，采集实时视频的摄像头，可以是USB摄像头和基于rtsp协议流的网络摄像头其中的一种，或者其他种类的摄像头。

在一实施例，读取的视频是USB摄像头或者是基于rtsp协议流的网络摄像头实时拍摄采集的视频。

在另一实施例中，读取的视频是预先录制保存的视频，通过从本地存储器或者是如U盘、硬盘等外部存储设备输入读取的，也可以是从网络上调取的视频，在此不一一详述。

S20：对视频进行结构化处理，得到结构化数据。

可选地，对视频进行结构化处理，得到结构化数据具体是指，将步骤S10中读取的非结构化的视频数据转化成结构化的数据，具体的，结构化数据是指对于后续分析比较重要的数据。可选地，结构化数据包括目标的位置、目标类别、目标属性、目标运动状态、目标运动轨迹、目标驻留时间等最基本的信息中的至少一个信息，其中，可以理解的是，结构化数据也可以包括用户(使用本发明的中所述的方法或系统的人)需要的其他类别的信息，其他可以通过所获取的结构化数据等相关信息进行挖掘或计算得到的数据。结构化信息的具体包括哪些信息，根据不同需求而定。关于如何将结构化数据处理，以得到结构化数据，下文会做详细的阐述。

S30：将结构化数据上传至云端服务器，并对结构化数据进行深入分析，以得到预设结果。

可选地，在步骤S20将视频结构化处理之后，将所得到的结构化的数据上传至云端服务器，存储到云端服务器的存储区。

在一实施例中，将视频结构化处理的所得到的数据，直接保存到云端服务器的存储区，用以留存档案，也用作完善本系统的数据库。

可选地，在步骤S20将视频处理之后，将得到的结构化数据上传至云端服务器，云端服务器对这些结构化数据进行进一步的深入分析。

可选地，云端服务器对从各个监控节点上传的结构化的数据进行的进一步的深入分析，其中，深入分析包括目标轨迹分析和目标流量分析或其他所需的分析，目标包括人、车以及动物等其中的至少一种。

在一实施例中，云端服务器对对从各个监控节点上传的结构化的数据进行的进一步的深入分析是轨迹分析，根据上传的目标的轨迹的规律、在该场景驻留时间来进一步判定该目标是否可疑，该目标是否是长时间滞留在某一区域，是否发生区域入侵等异常行为。

在另一实施例中，云端服务器对对从各个监控节点上传的结构化的数据进行的进一步的深入分析是目标流量分析，根据各个监控点上传的结构化的数据，对出现在某一监控点的目标进行统计，并通过统计得到该监控节点各个时间段内目标的流量。其中的目标可以是行人和车辆，同时可以得到目标流量的高峰期或者是低峰时期。通过计算目标流量相关数据，用来合理的提示行人和司机的，避开交通高峰期，也可以为公共资源如照明提供参考依据。

本方法通过将视频结构化处理得到对深入分析起到关键性的结构化数据，然后仅将结构化数据上传至云端，而不是将整个视频传输至云端，解决了网络传输压力大、数据流量成本高的问题。

在一实施例中，根据预先的设定，当各个监控节点将经过视频处理系统处理所得结构化数据上传至云端服务器时，云端服务器在保存结构化数据之后，对结构化数据进行深入分析。

在另一实施例中，当各个监控节点将经过视频处理系统处理所得的结构化数据上传至云端服务器时，服务器在保存结构化数据之后需要用户选择是否进行深入分析。

在又一实施例中，当用户有需要时，可以将已经在最初上传的时候已经完成一次深入分析的结构化数据，再次重新进行设定的深入分析。

可选地，对各个监控节点上传的结构化数据进行的深入分析进一步包括：对结构化数据进行统计、分析以得到一个或多个目标的行为类型以及异常行为，并对异常行为进行报警等，或者其他用户需要的分析处理的内容。

关于如何将视频结构化数据处理，以得到结构化数据，以下详细阐述，即本申请还提供一种基于目标行为属性的视频结构化处理的方法。在一实施例中，视频结构化数据处理是利用嵌入了深度学习的目标检测识别算法、多目标跟踪算法、基于运动光流特征的异常行为识别等算法的智能分析模块，将步骤S10中读取的非结构化的视频数据转化成结构化的数据。

参见图2，为本申请提供的一种视频处理方法一实施例的流程示意图，该方法同时也是以上实施例的步骤S20包括步骤S22至步骤S23。

S22：对单帧图片进行目标检测识别。

可选地，步骤S22是对单帧图片中所有目标进行目标检测识别。其中，目标检测识别对象的包括行人检测识别、车辆检测识别和动物检测识别等。

可选地，步骤S22对单帧图片进行目标检测识别包括：提取单帧图片中目标的特征信息。提取单帧图片中所有目标的特征信息、目标的类别和目标的位置信息等，其中目标可以是行人、车辆和动物等。

在一实施例中，当单帧图片中只包含行人时，目标检测识别是对行人的检测识别，即提取图片中所有行人的特征信息。

在另一实施例中，当单帧图片中包含行人、车辆等多种类的目标时，目标检测识别是对行人、车辆等多种种类进行检测识别，即提取单帧图片中行人、车辆等的特征信息，可以理解的，所识别的目标种类可以由用户的特定指定。

可选地，步骤S22对单帧图片进行目标检测识别所采用的算法是优化后的基于深度学习的目标检测算法。具体的，可以采用YOLOV2深度学习目标检测框架进行目标检测识别，该算法的核心是利用整张图像作为作为网络输入，直接在输出层回归bounding box的位置和bounding box所属的类别。

可选地，目标检测的是由模型训练和模型测试两部分构成。

在一实施例中，在模型训练的方面，采用的取50％的来自VOC数据集和COCO数据集的行人图像或者车辆图像，剩下的50％的数据取自真实的街道、室内通道、广场等监控数据。可以理解的是，模型训练的中的所采用的公共数据集上(VOC数据集和COCO数据集)数据与真实的监控数据集中的数据的比例可以根据需要进行调整的，其中当公共数据集中的数据所取的比例越高，相对来说，所得数据模型在真是监控场景下的精度就会相对略差，反之，当真实的监控数据集中所取的比例越高，精度会相对来说有提高。

可选地，在一实施例中，当步骤S22在单帧图片中检测到目标后，将该行人目标放入到跟踪队列中(下文也称跟踪链)中，然后还会采用目标跟踪算法对目标进行预设的跟踪与分析。

可选地，上述提取单帧图片中目标的特征信息的步骤之前进一步包括：构建元数据结构。可选地，目标的特征信息是根据元数据结构进行提取，即根据元数据结构提取单帧图片中的目标的特征信息。

在一实施例中，元数据结构包括行人的基本属性单元，如：摄像头地址、目标进出摄像头的时间、目标在当前监控节点的轨迹信息、目标穿着的颜色或者目标的截图中的至少一种。例如，行人的元数据结构可以参见下表1所示，其中元数据结构还可以包括其他用户所需但下表中未包含的信息。

可选地，在一实施例中，为了节省网络传输的资源，元数据结构中只包含一些基本的属性信息，其他属性可以通过目标轨迹等相关信息进行挖掘计算即可得到。

表1行人的元数据结构

属性名称	类型	描述
			摄像头ID	short	摄像头节点编号
目标出现时间	long	目标进入监控节点时间
			目标离开时间	long	目标离开监控节点时间
目标运动轨迹	point	目标在当前节点运动轨迹
			目标ID	short	目标ID识别编号
目标上衣颜色	short	预先定义10种颜色
			目标裤子颜色	short	预先定义5中颜色
目标整体截图	image	记录目标整体截图
			目标头肩截图	image	记录目标头部截图

在另一实施例中，元数据结构还可以包括车辆的基本属性信息，如：摄像头地址、目标进出摄像头的时间、目标在当前监控节点的轨迹信息、目标的外观颜色、目标的车牌号或者是目标的截图中的至少一种。

可以理解的是，元数据结构具体包含的信息和元数据的数据类型的定义是根据需要进行初始设定，也可以是在初始设定之后根据用户的需要在已设定的众多信息中特别指定需要获取的特定属性信息。

在一实施例中，元数据的结构初始设定的是摄像头地址、目标进出摄像头的时间、目标在当前监控节点的轨迹信息、目标穿着的颜色或者目标的截图等类别，在进行目标识别时，用户可以根据自己的需要特别指定获取目标进出摄像头的时间。

在一实施例中，当单帧图片中的目标是行人时，根据预先设定的行人的元数据的结构进行提取行人的特征信息，即提取行人进出摄像头的时间、行人所处当前摄像头地址、行人进出摄像头的时间、行人在当前监控节点的轨迹信息、行人穿着的颜色或者行人当前的截图中的至少一种，也可以是根据用户的特别指定的其他的目标属性信息，如行人进出摄像头的时间和行人的穿着颜色等。

可选地，当从单帧图片中检测识别到目标，在获取目标的特征信息的同时，从原始的视频帧中截取出目标的图像，然后利用基于yolov2(yolov2是Joseph Redmon在2016年提出的一种基于深度学习的目标检测识别的方法)的框架进行模型训练。

在一实施例中，当对单帧图片进行目标检测时，所检测到的目标是行人，则从原始的视频帧中截取出检测的行人的图像，然后利用基于yolov2的框架训练好头肩、上半身、下半身检测模型将行人进行部位切分，判断其上下半身部位的衣着颜色信息，并且截取出行人的头肩图片。

在另一实施例中，当对单帧图片进行目标检测时检测到的目标是车辆，则从原始的视频帧中截取出检测的车辆的图像，然后利用基于yolov2的框架训练好车辆的检测模型对车辆进行检测识别，判断其车身外观颜色、识别车牌信息，并且截取出车辆的图片。可以理解的是，因为识别的目标种类可以由用户设定选择，所以对车辆的检测识别由管理者决定是否进行。

在又一实施例中，当对单帧图片进行目标检测时检测到的目标是动物，则从原始的视频帧中截取出检测的动物的图像，然后利用基于yolov2的框架训练好动物的检测模型对动物进行检测识别，判断其外观颜色、品种等信息，并且截取出动物的图片。可以理解的是，因为识别的目标种类可以由用户设定选择，所以对动物的检测识别由用户决定是否进行。

可选地，每次目标检测识别的单帧图片可以是一张，也可以是多张单帧图片同时进行。

在一实施例中，每次进行目标检测识别的单帧图片是一张，即每次只对一张单帧图片中的目标进行目标检测识别。

在另一实施例中，每次可以对多张图片进行目标检测识别，即每次同时对多张单帧图片中的目标进行目标检测识别。

可选地，对基于yolov2的框架所进行模型训练后对检测到的目标进行ID(IDentity)标号，以方便在后续跟踪时进行关联。其中，不同的目标的类别的ID号可以预先设定，且ID号的上限是由用户设定。

可选地，对检测识别到的目标自动进行ID标号，也可以是人为进行ID标号。

在一实施例中，对检测识别到的目标进行标号，其中，根据检测目标的类别的而定，标记的ID号会有差距，例如行人的ID号可以设定为：数字+数字，车辆：大写字母+数字，动物：小写的字母+数字，方便在后续跟踪时进行关联。其中的设定的规则可以根据用户的习惯和喜好设定，在此不一一赘述。

在另一实施例中，对检测识别到的目标进行标号，其中，根据检测到的目标的类别的而定，对目标所标记的ID号所属于的区间不同。例如，将所检测的行人目标的ID标号设定在区间1到1000000，将所检测到的车辆目标的ID标号设定在区间1000001到2000000。具体的，可以根据初始设定人员设定而定，也可以根据需要进行调整和改变的。

可选地，对检测的目标进行ID标号，可以是由预先设定由系统自动完成，也可以是由用户进行手动ID标号。

在一实施例中，当在单帧图片中检测识别到行人或者是车辆的目标时，系统会自动将所检测到的目标，根据检测的目标的类别，并接着之前已经标号的ID号自动进行ID标号。

在另一实施例中，用户手动对图片中的目标进行ID标号。可以是对没有经过系统自动ID标号的单帧图片目标进行ID标号，也可以是遗漏的目标或者是其他在预先设定的检测目标类别之外的目标，可以由用户自主进行ID标号。

可选地，在步骤S22对单帧图片进行目标检测识别之前还包括：

S21：将视频切分成单帧图片。

可选地，步骤S21将视频切分成单帧图片是将步骤S10中读取的视频切分成单帧图片，为步骤S22的目标检测识别做准备。

可选地，在一实施例中，将视频切分成单帧图片的步骤是将步骤S10中读取的视频等间距跳帧或不等间距跳帧的切分。

在一实施例中，将视频切分成单帧图片的步骤是将步骤S10中读取的视频等间距的跳帧的切分，所跳过的帧数是相同的，即等间距的跳过相同的帧数进行切分成单帧图片，其中所跳过的帧数是不包含重要信息的帧数，即可以忽略的帧数。例如，等间距的中间跳过1帧，进行视频切分，即取第t帧，第t+2帧，第t+4帧，所跳过的帧数是第t+1帧，第t+3帧，上述所跳过的帧数是经过判断不包含的重要信息的帧数，或者是上述所跳过的帧数的是与所取的帧数重合的帧数或者是重合度很高的帧数。

在另一实施例中，将视频切分成单帧图片的步骤是将步骤S10中读取的视频不等间距的跳帧的切分，即所跳过的帧数可以是不相同的，不等间距的跳过不同的帧数进行切分成单帧图片，其中所跳过的帧数是不包含重要信息的帧数，即是可以忽略的帧数，其中不包含重要信息的帧数是经过判定，且判定结果确实是不重要的帧数。例如，不等间距的跳帧切分，即取第t帧，然后跳过2帧取t+3帧，再跳过1帧取t+5帧，再跳过3帧取t+9帧，其中，所跳过的帧数分别有t+1帧、t+2帧、t+4帧、t+6帧、t+7帧、t+8帧等帧数，上述跳过的帧数是经过判断没有包含此次分析所需的信息的帧数。

在不同的实施例中，将视频切分成单帧图片的步骤可以是由系统自动将读取的视频切分成单帧图片，也可以是由用户选择是否将视频切分成单帧图片，还可以是用户手动输入已经预先完成切分的单帧图片。

可选地，在一实施例中，将视频切分成单帧图片的步骤完成后，即完成对读入的视频切分成单帧图片时，自动对切分得到的单帧图片执行步骤S22，即对切分所得单帧图片进行目标检测识别，也可以是由用户选择决定是否要将切分所得的单帧图片进行步骤S22所述的目标检测识别。

可选地，在对目标进行检测识别的过程中，会对各个目标的检测识别的值按照一定的规律进行的统计计算。

在一实施例中，在步骤S22后，对检测到某一目标在当前监控节点中合计帧数(共计出现的帧数)，其中检测值为A的帧数、检测值为B的帧数等等的统计(检测值可以有多种或一种，以检测结果为准)，并保存统计的结果，以备调用。

可选地，校正的方法主要分为轨迹校正和目标属性校正。

可选地，经过对目标检测得到各个目标的结构化数据后，对所得结构化数据进行校正。即是对结构化数据中的误检数据的进行校正，校正是按照权重比进行投票，最终多数的概率的数据值为准确值，少数结果的数据值为误检值。

在一实施例中，经统计计算后(调用上述统计结果)，发现步骤S22中检测识别到某一目标的在当前监控节点出现的帧数为200帧，其中有180帧检测出该目标的上衣颜色为红色，20帧中检测出该目标的上衣颜色为黑色，按照权重比进行投票，最终校正该目标的准确值上衣颜色为红色，并将结构化数据中对应的值修改为红色，最终完成校正。

可选地，轨迹校正具体如下：假设一个目标在某一监控场景下出现时长为T帧，故可得到其轨迹点集合为G＝{p1,p2,……,p_N}，计算轨迹点在X轴和Y轴的均值以及偏差，然后剔除异常以及噪声轨迹点，具体表达式为：

在一实施例中，轨迹校正中剔除偏差或者均值很小的轨迹点，减少噪声点干扰。

可选地，目标属性校正具体如下：目标属性校正是基于加权判定法校正同一个目标的属性值。假设某一个目标的上衣颜色标签为label＝{“红色”，“黑色”，“白色”，……}，即某一个属性值有T个分类。先将其转换为数字编码L＝[m₁,m₂,m₃,……,m_T]；然后求出频率最高的编码值x以及其频次F，最后直接输出目标的属性值Y(准确值)。具体表达式如下：

上式需要满足，

可选地，在一实施例中，本发明结合YOLO目标检测框架进行目标识别与定位，并使用GoogLeNet网络提取出每一个目标的特征向量，以便后续目标匹配。GoogLeNet是2014年Google公司提出的一个22层深的CNN神经网络，其广泛运用于图像分类、识别等领域。由于深层次深度学习网络提取的特征向量具有较好的鲁棒性、可区分性，所以上述步骤可以较好的提高后续对于目标的跟踪的准确性。

S23：对目标进行跟踪，以得到跟踪结果。

可选地，对检测到的目标进行跟踪，以得到跟踪结果的步骤中，所跟踪的目标是步骤S22检测到的目标或用户特别指定的其他目标，步骤S23进一步包括：对目标进行跟踪，记录目标进入或者离开该监控节点的时间，以及目标经过的各个位置，以得到目标的运动轨迹。具体如何对目标进行跟踪，以得到跟踪结果，本申请基于此提供了一种基于KCF与Kalman的改进型多目标跟踪方法，下文将做详细阐述。

另一实施例中，本申请提供的视频处理方法在以上实施例包括步骤S21、S22和S23的基础之上进一步包括步骤S24，或者该实施例仅包括步骤S21、S22和S24，参见图4和图5。步骤S24如下：

S24：对目标进行异常行为检测。

可选地，步骤S24是对上述步骤S21中检测识别出的目标进行异常行为检测的操作。

可选地，异常行为检测包括行人异常行为检测和车辆异常行为检测，其中行人的异常行为包括：奔跑、打架和骚乱，交通异常行为包括：撞击和超速等。

通过以上方法将视频处理，以得到重要数据，进而能够避免数据量过大，大大减轻网络传输的压力。

在一实施例中，当对步骤S21中检测到的行人目标进行异常行为检测时，判定一监控节点中大于等于预设数量的人发生奔跑时，可以判定发生人群骚乱。如：可以设定当步骤S24判定10人发生奔跑异常时，可以判定发生人群骚乱，其他实施例中，判定骚乱的人数阈值根据具体情况而定。

在另一实施例中，可以设定当步骤S24判定2辆车发生撞击异常时，可以以此判定发生交通事故，当步骤S24判定超过3辆车发生撞击异常行为时，可以判定发生重大车祸。可以理解的，判定的关于车的数量是可以的根据需要设定调整的。

在又一实施例中，当步骤S24中检测出车辆的速度超过预设的速度值时，既可以判定该车辆为超速车辆，即可将该车辆的对应的视频进行截图保存，识别的车辆的信息。其中车辆的信息包括车牌号。

可选地，一实施例中，当步骤S24检测出异常行为时，监控节点会进行声光报警处理。

在一实施例中，声光报警的内容包括播报语音提示内容：如“请大家不要拥挤，注意安全！”或其他预先设定的语音提示内容；声光报警的内容还包括：打开对应监控节点的警示灯，用以提醒过往人群和车辆，注意安全。

可选地，根据发生异常行为的人数的多少进行设定异常行为恶劣的等级，不同的恶劣等级对应不同的应急处理措施。异常行为的恶劣等级可以划分为黄色、橙色和红色。黄色等级的异常行为对应的应急措施是进行声光报警，橙色等级的异常行为对应的应急措施是进行声光报警的同时连线监控负责点的安保人员，红色预警的异常行为措施是进行声光报警、连线监控负责点的安保人员同时会及时线上报警。

在一实施例中，当发生异常行为的人数是3人或3人以下时，设定为黄色等级的人群异常行为；当发生异常行为的人数大于3人超过小于等于5人时橙色等级的人群异常行为；当发生异常行为的人数超过5人时设定为红色等级的人群异常行为。其中，具体的设定人数可以根据实际的需要进行调整，在此不一一赘述。

可选地，一实施例中，对目标进行异常行为检测的步骤之后还包括以下步骤：若检测出异常行为，则将当前视频帧图像截图保存并和所检测到发生异常行为的目标的特征信息打包发送至云端服务器。

可选地，对发生异常行为的目标的所对应的特征信息可以包括：摄像头ID，异常事件类型、异常行为发生事件、异常行为截图等等信息，也可以包括所需要的其他类型的信息。其中发送至云端服务器的异常行为的元数据结构所包含的信息包括下表2中的结构，也可以包括包括其他的类别的信息。

表2异常行为的元数据结构

属性名称	数据类型	描述
			摄像头ID	short	摄像头唯一ID标识
异常事件类型	short	预先定义两种异常行为
			异常发生时间	long	异常情况发生时间
异常情况截图	image	记录异常行为截图

在一实施例中，对目标进行异常行为检测时，检测出有行人发送打架的异常行为，则将对应的当前视频帧图像截图保存，并将截图及发生异常行为的目标所对应的结构化数据一起打包发送至云端服务器。在将所检测到的异常行为的截图发送至云端服务器的同时，这一监控节点进行声光报警处理，并根据异常行为的等级启动对应的应急措施。

在另一实施例中，在对目标进行异常行为检测时，检测出发生人群骚乱时，将当前视频帧图像截图保存并发送至云端服务器，以备云端服务器进行进一步的处理，同时监控节点进行声光报警，并根据异常行为的等级启动对应的应急措施。

具体的，在一实施例中，对目标进行异常行为检测的步骤包括：提取一个或多个目标的多个特征点的光流运动信息，并根据光流运动信息进行聚类以及异常行为检测。基于此，本申请还提供一种基于聚类光流特征的异常行为检测方法，下文将做详细阐述。

参见图6，为本申请还提供的一种基于KCF与Kalman的改进型多目标跟踪方法一实施例的流程示意图，该方法同时也是以上实施例中的步骤S23,具体包括步骤S231至步骤S234。具体包括以下步骤：

S231：结合跟踪链以及上一帧图片中第一多个目标对应的检测框预测第一多个目标中各个目标在当前帧的跟踪框。

可选地，跟踪链是根据对当前帧图片之前的所有从视频中切分所得的单帧图片或部分连续单帧图片中的多个目标跟踪计算所得的，汇集之前所有图片中的多个目标的轨迹信息和经验值。

在一实施例中，跟踪链是根据对当前帧图片之前的所有图片的目标跟踪计算所得，包含当前帧图片之前的所有帧图片中的所有目标的所有的信息。

在另一实施例中，跟踪链是根据对当前帧图片之前的部分连续的图片的目标跟踪计算所得。其中跟踪计算的连续的图片数越多，预算的准确率就越高。

可选地，结合跟踪链中的目标的特征信息，以及根据上一帧图片中第一多个目标对应的检测框，预测所跟踪的第一多个目标在当前帧图片中的跟踪框，例如预测第一多个目标在当前帧中可能出现的位置。

在一实施例中，上述步骤可以预测第一多个目标在当前帧中的跟踪框的位置，即得到第一多个目标的预测值。

在另一实施例中，上述步骤可以预测第一多个目标在当前帧的下一帧中的跟踪框的位置。其中，所预测的第一多个目标在当前帧的下一帧的跟踪框的位置相比于，所预测的第一多个目标在当前帧中的跟踪框的位置的误差要略大。

可选地，第一多个目标是指上一帧图片中的所有检测到的目标。

S232：获取上一帧图片中的第一多个目标在当前帧中对应的跟踪框，以及当前帧图片中第二多个目标的检测框。

具体的，第二多个目标是指当前帧图片中的所检测到的所有目标。

可选地，获取上一帧图片中的第一多个目标在当前帧中对应的跟踪框，以及当前帧图片中第二多个目标的检测框。其中跟踪框是在预测第一多个目标在当前帧中将会出现的位置时的矩形框，或者其他形状的框，框中包括一个或多个目标。

可选地，获取上一帧图片中的第一多个目标在当前帧中对应的跟踪框，以及当前帧图片中第二多个目标的检测框时，所获取的跟踪框和检测框包含跟踪框和检测框分别对应的目标的特征信息。例如目标的位置信息、颜色特征和纹理特征等。可选地，对应的特征信息可以由用户根据需要进行设定。

S233：建立第一多个目标在当前帧中的跟踪框和当前帧中第二多个目标的检测框的目标关联矩阵。

可选地，根据步骤S232中获取的上一帧图片中的第一多个目标在当前帧中的对应的跟踪框与当前帧图片中所检测到的第二多个目标对应的检测框，建立目标关联矩阵。

在一实施例中，例如上一帧图片中第一多个目标数量为N，当前帧检测到的目标数量为M，则建立一个大小M×N的目标关联矩阵W,其中：

A_ij(0<i≤M；0<j≤N)的值是由dist(i,j)、IOU(i,j)、m(i,j)决定，具体来说，可表示以下公式：

其中，I_W、I_h为图像帧的宽度和高度；dist(i，j)为上一帧中得到的跟踪链中第j个目标所预测的下一帧跟踪框与当前帧中检测识别得到的第i个目标的检测框的质心距离，d(i，j)为采用图像帧对角线1/2距离进行归一化后的质心距离，m(i,j)为两个目标特征向量的欧式距离，

为基于GoogLeNet网络所提取的特征向量，该特征向量采用CNN框架的模型进行特征提取相比传统的手工特征提取更加具有鲁棒性和可区分性。其中，归一化的目的主要是为了保证d(i，j)与IOU(i，j)对A(i，j)的影响是一致的。IOU(i，j)表示上一帧的跟踪链中第j个目标预测的在当前帧中跟踪框与当前帧中检测识别得到的第j个目标的检测框的重叠率，即上述跟踪框与检测框的交集比上其并集。IOU具体表达式为：

可选地，IOU(i，j)其取值范围为0≤IOU(i，j)≤1，该值越大，表明上述跟踪框与检测框重叠率越大。

在一实施例中，当目标静止的时候，同一目标在前后两帧所检测出的质心位置应该是在同一个点或者偏差很小，因此IOU的值应该近似为1，d(i，j)也应该趋于0，故A_ij的值较小，且当目标匹配时，m(i,j)的取值较小，因此在进行匹配的时候跟踪链中ID＝j的目标与检测链ID＝i的检测目标匹配成功的可能性就越大；若前后两帧同一个目标检测框的位置相差很远，没有重叠，则IOU应该为0，m(i,j)取值较大，故d(i，j)的值就越大，因此跟踪链中ID＝j的目标与检测链ID＝i的检测目标匹配成功的可能性就越小。

可选地，目标关联矩阵的建立参照质心距离、IOU、以及目标的特征向量欧式距离外，同时还可以参照目标的其他特征信息，如：颜色特征，纹理特征等。可以理解的是，当参照的指标越多时，那么准确率看就越高，但是实时性会相应的因计算量的增加而变略有下降。

可选地，在一实施例中，当需要保证较好的实时性时，多数情况下只参照所取的两帧图像中目标的位置信息建立目标关联矩阵。

在一实施例中，参照目标的位置信息和目标的穿着颜色(也可以是目标的外观颜色)建立第一多个目标对应的跟踪框和第二多个目标对应的当前帧的检测框的目标关联矩阵。

S234：利用目标匹配算法进行校正，以得到当前帧第一部分目标对应的实际位置。

可选地，利用目标匹配算法，根据实际检测到的目标的观测值和步骤S231中对目标检测框所对应的预测值，对目标值进行校正，以得到当前帧中第一多个目标的实际位置，也即是上一帧中的第一多个目标中同时出现在当前帧的第二多个目标的目标在当前帧中的实际位置。可以理解的，因当前帧中的第二多个目标的观测值会因为切分图片的清晰度等因素会有一定的误差，所以采用结合了跟踪链及上一帧中第一多个目标在上一帧图片中的检测框，所预测的第一多个目标在当前帧中的位置进行校正第二多个目标的实际位置。

可选地，目标匹配算法是匈牙利算法(Hungarian)，观测值是步骤S22中对目标检测识别时获得目标的特征信息，包括目标的类别和目标的位置信息等，目标的预测值是步骤S231中结合跟踪链及目标在上一帧中的位置所预测的目标在当前帧中的位置值及其他特征信息。其中，以目标的位置信息为主要判断依据，其他特征信息为次要判断依据。

可选地，一实施例中，将第二多个目标中的检测框，与第一多个目标在当前帧中的跟踪框匹配成功的目标定义为第一部分目标，同时第一多个目标中在当前帧的跟踪框与第二多个目标在当前帧的检测框匹配成功的也定义为第一部分目标，即匹配成功的每组跟踪框与检测框均来自同一个目标。其中，可以理解的是，第二多个目标中的检测框，与第一多个目标在当前帧中的跟踪框匹配成功是指：位置信息及其他的特征信息一一对应，或者对应的项数比较多，即对应的项数概率比较高即为匹配成功。

在另一实施例中，第一部分目标的数量小于第一多个目标，即为第一多个目标在当前帧中的跟踪框只有部分可以与第二多个目标的检测框匹配成功，还有一部分在当前帧中根据匹配依据的特征信息无法匹配成功。

可选地，不同的实施中，当前帧中的第二多个目标的检测框和上一帧中的第一多个目标在当前帧中的跟踪框匹配成功的步骤包括：根据当前帧中的第二多个目标的检测框和上一帧中的第一多个目标在当前帧中的跟踪框的质心距离和/或重叠率判断是否匹配成功。

在一实施例中，当前帧中的第二多个目标中的某一个或多个目标的检测框和上一帧中的第一多个目标中某一个或多个目标在当前帧中的跟踪框的质心距离很近时，且重叠率很高时则判断目标匹配成功。可以理解的相邻两帧图片的切分的时间相隔非常短，即目标在这个相隔的时间里移动的距离很微小，所以此时可以判定两帧图片中的目标匹配成功。

可选地，第二多个目标包括第一部分目标和第二部分目标，其中，由上可知，第一部分目标为：第二多个目标中的检测框与第一多个目标在当前帧中的跟踪框匹配成功的目标。第二部分目标为：第二多个目标中的检测框，与第一多个目标在当前帧中的跟踪框未匹配成功的目标，将第二部分目标中在跟踪链中没有记载的目标定义为新增目标。可以理解的，第二部分目标中，除了新增目标还可能存在另一类目标：在第一多个目标中没有匹配成功但是在跟踪链出现过的目标。

在一实施例中，第二部分目标的数量可以是0，即当前帧中的第二多个目标的检测框与第一多个目标在当前帧中的跟踪框均可以匹配成功，所以此时的第二部分目标的数量是0。

可选地，在利用目标匹配算法进行校正分析，以得到当前帧第一部分目标对应的实际位置的步骤之后包括：筛选出第二部分目标中的新增目标；将新增目标加入跟踪链。另一实施例中还包括：以新增目标的初始位置和/或特征信息初始化对应的滤波跟踪器。

一实施例中滤波跟踪器包括卡尔曼滤波器(kalman)、核化相关滤波器(kcf)和卡尔曼滤波器与核化相关滤波器相结合的滤波器。卡尔曼滤波器、核化相关滤波器和卡尔曼滤波器与核化相关滤波器相结合的滤波器均是基于编程实现的多目标跟踪算法。其中，卡尔曼滤波器与核化相关滤波器相结合的滤波器是指结合了卡尔曼滤波器和核化相关滤波器两者的结构的算法结构所实现的滤波器结构。其他实施例中，滤波跟踪器也可以为其他类型的滤波器，只要能够实现相同的功能即可。

可选地，跟踪链的数据由上一帧以及上一帧以前的所有帧的数据训练计算所得，跟踪链中的目标包括上述描述的第一部分目标以及第三部分目标。具体的，第一部分目标是指：第一多个目标中在当前帧中的跟踪框与第二多个目标中的检测框匹配成功的目标。第三部分目标是指：跟踪链中的目标与第二多个目标未匹配成功的目标。

可以理解的，第三部分目标实质上是跟踪链中除去与第二多个目标匹配成功的第一部分目标之外的所有目标。

可选地，在步骤S234利用目标匹配算法进行校正分析，以得到当前帧第一部分目标对应的实际位置的步骤之后包括：第三部分目标对应的目标丢失帧数计数值加1，并在目标丢失帧数计数值大于等于预设阈值时将对应目标从跟踪链移除。可以理解的，丢失帧数计数值的预设阈值是预先设定，且可以根据需要进行调整的。

在一实施例中，第三部分目标中某一目标对应的丢失帧数计数值大于等于预设阈值时，将这一目标从当前的跟踪链中移除。

可选地，当某一目标从当前的跟踪链中移除，将该目标所对应的结构化数据上传至云端服务器，云端服务器会对结合该目标的结构化数据或者数据库中的经验值，再次对该目标进行轨迹或异常行为的深入分析。

其中，可以理解的，当该被从跟踪链中移除的目标所对应的结构化数据发送至云端服务器时，执行该方法的系统可以选择信任，中断云端服务器对该目标的深入分析。

可选地，在步骤S234利用目标匹配算法进行校正分析，以得到当前帧第一部分目标对应的实际位置的步骤之后包括：第三部分目标对应的目标丢失帧数计数值加1，并在计数值小于预设阈值时，局部跟踪第三部分目标以得到当前跟踪值。

进一步，一实施例中根据第三部分目标的当前跟踪值和第三部分目标对应的预测值进行校正，以得到第三部分目标的实际位置。具体的，一实施例中，当前跟踪值是由核化相关滤波器和卡尔曼滤波器与核化相关滤波器相结合的滤波器对第三部分目标进行局部跟踪时获得，预测值是卡尔曼滤波器(kalman)预测第三部分目标的位置值。

可选地，对上述步骤S22中检测到的目标进行跟踪，是由卡尔曼滤波跟踪器(kalman)和核化相关滤波跟踪器(kcf)的滤波器相结合共同完成。

在一实施例中，当跟踪的目标均为可以匹配的目标时，即无疑似丢失目标时，只调用卡尔曼滤波跟踪器(kalman)既可以完成对目标的跟踪工作。

在另一实施例中，当跟踪的目标中有出现疑似丢失的目标时，调用尔曼滤波跟踪器(kalman)和核化相关滤波跟踪器(kcf)相结合的滤波器共同配合完成对目标的跟踪工作，也可以是由卡尔曼滤波跟踪器(kalman)和核化相关滤波跟踪器(kcf)先后配合完成。

可选地，一实施例中，步骤S234利用目标匹配算法进行校正，以得到当前帧第一部分目标对应的实际位置的步骤包括：对于第一部分目标中的各个目标，根据各个目标对应的当前帧跟踪框对应的预测值以及当前帧检测框对应的观测值进行校正，以得第一部分目标中各个目标的实际位置。

在一实施例中，对于第一部分目标中各个目标在当前帧中跟踪框对应的预测值可以理解为：结合跟踪链中的经验值以及上一帧中的位置信息，预测第一部分目标中各个目标的在当前帧中位置信息，然后结合观测所得的第一部分目标在当前帧中的实际位置(即观测值)，校正第一部分目标中各个目标的实际位置。这一操作用以减小因预测值或观测值的误差带来的测得各个目标实际值不准确的问题。

可选地，在一实施例中，上述基于基于KCF与Kalman的改进型多目标跟踪方法可以实现对多个目标进行跟踪分析，记录目标进入该监控节点的出入时间以及在该监控场景下的每一个运动位置，从而生成一条轨迹链，可以具体清楚的反应目标在当前监控节点的运动信息。

参见图7，为本申请还提供的一种基于聚类光流特征的异常行为检测方法一实施例的流程示意图，该方法同时也是以上实施例的步骤24，包括步骤S241至步骤S245。具体的步骤如下：

S241：对一个或多个目标的检测框所在区域进行光流检测。

可选地，在对目标进行异常行为检测之前，已经基于预设算法完成对目标的检测识别，并获取对单帧图片中的目标进行目标检测时各个目标对应的检测框以及检测框所在的位置，然后对一个或多个目标的检测框进行光流检测。其中，光流包含了目标的运动信息。可选地，预设算法可以是yolov2算法，也可以是其他具有类似功能的算法。

可理解的，所获取的单帧图片中各个目标对应的检测框以及检测框所在的区域，因检测框的中心会和目标的重心接近重合，所以即可以此得到每一帧图像中各个行人目标又或是其他类型目标的位置信息。

在一实施例中，对一个或多个目标的检测框进行光流检测的实质是获取目标所对应检测框中光流点的运动信息，包括光流点的运动的速度大小和运动方向。

可选地，光流检测是获取光流点的各个运动特征信息，是由LK(Lucas–Kanade)金字塔光流法或者其他具有相同或类似功能的流光法来完成。

可选地，可以每次对每帧图片中的一个目标的检测框进行光流检测，也可以同时对每帧图片中多个的目标的检测框进行光流检测，一般每次进行光流检测的目标数是依据系统初始设定而定。可以理解的是，这一设定可以根据需要进行调整设定，当需要快速的光流检测时，可以设定为同时对每帧图片中多个目标的检测框进行检测。当需要非常精细的光流检测时，可以调整设定为每次对每帧图片中的一个目标的检测框进行光流检测。

可选地，在一实施例中，每次对连续的多帧图片中的一个目标的检测框进行光流检测，也可以是对单帧图片中的一个目标的检测框进行检测。

可选的，在另一实施例中，每次对连续的多帧图片中的多个或全部目标的检测框进行光流检测，也可以是每次对单帧图片中的多个或全部目标的检测框进行光流检测。

可选地，在一实施例中，在对目标进行光流检测之前，在上述步骤中先检测出目标的大致位置区域，然后直接在连续的两帧图像中的有目标出现的区域(可以理解是目标检测区域)进行光流检测。其中，进行光流检测的连续的两帧图像是大小相同的图像。

可选地，在一实施例中，对目标的检测框所在区域进行光流检测可以是对一帧图片的中目标的检测框所在区域进行光流检测，然后将所得数据和信息保存在本地存储器中，再对下一帧或预设帧中的图片中的目标的检测框所在区域进行光流检测。

在一实施例中，每次对一个目标的检测框及检测框所在区域进行光流检测，并逐一对图片中的所有目标的检测框进行光流检测。

在另一实施例中，每次对一张图片中的多个目标同时进行光流检测，即可以理解每次对一张单帧图片中的所有目标或者是部分目标的检测框进行光流检测。

在又一实施例中，每次对多张单帧图片中的所有目标的检测框的进行光流检测。

在再一实施例中，每次对多张单帧图片中，特别指定的同一类别的目标检测框进行光流检测。

可选地，在步骤S241之后将所得光流信息加入到时空模型中，从而经过统计计算得到前后多帧图像的光流矢量信息。

S242：提取至少连续两帧图像中检测框对应的特征点的光流运动信息，计算检测框所在区域的信息熵。

可选地，步骤242提取至少连续两帧图像中检测框对应的特征点的光流运动信息，计算检测框所在区域的信息熵，，是对至少连续两帧图像中的检测框区域对应的特征点进行计算，其中光流运动信息是指光流点的运动方向和运动速度的大小，即提取光流点的运动方向和运动的距离，然后计算光流点的运动速度，特征点是可以代表物体特征信息的一个或多个像素点的集合。

可选地，在提取出连续两帧图像中检测框对应的特征点的光流运动信息后，并依据所提取的光流运动信息计算检测框所在区域的信息熵，可以理解的是，信息熵时基于目标检测区域内所有光流点的光流信息计算所得。

可选地，步骤242提取至少连续两帧图像中检测框对应的特征点的光流运动信息，计算检测框所在区域的信息熵，是LK(Lucas–Kanade)金字塔光流法(LK金字塔光流法在下文中简称LK光流法)提取相邻帧仅含有行人目标的矩形框区域内的像素光流特征信息

并且利用图形处理器(Graphics Processing Unit)对LK光流提取算法进行加速，从而实现实时在线提取像素的光流特征信息。其中，光流特征信息，是指光流矢量信息，可简称光流矢量。

可选地，由于光流算法提取的光流矢量

是由两个二维矩阵矢量

构成，即

其中，矩阵中各个点对应于图像中各个像素点位置；

代表相邻帧中同一个像素点在X轴移动的像素间隔，

代表相邻帧中同一个像素点在Y轴移动的像素间隔。

可选地，像素间隔是指特征点在相邻的两帧图像中移动的距离，可以由LK光流提取算法直接提取获得。

在一实施例中，步骤242是对已经完成目标检测的单帧图像，且已经获取到目标检测时的检测框的图像中，各个目标的检测框所对应的特征点的光流运动信息进行计算。其中特征点也可以解释为指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。这一操作可以减少计算量，提高计算效率。

可选地，步骤S242可以同时计算连续两帧图像中的所有检测框或部分检测框对应的特征点的光流信息，也可以同时计算超过两张的连续图像中所有的检测框对应的特征点的光流信息，每次计算的图像的数量的是由预先在系统的设定的，且可以根据需要设定。

在一实施例中，步骤S242同时计算连续两帧图像中的所有检测框对应的特征点的光流信息。

在另一实施例中，步骤S242同时计算超过两张的连续图像中所有的检测框对应的特征点的光流信息。

可选地，步骤S242可以同时计算至少连续两帧图像中的所有目标对应的检测框的光流信息，也可以是同时计算至少连续两帧图像中特别指定且相对应的目标的检测框的光流信息。

在一实施例中，步骤S242是同时计算连续至少两帧图像中的所有目标对应的检测框的光流信息，如：第t帧中和第t+1帧图像中所有目标所对应的检测框的光流信息。

在另一实施例中，步骤S242是同时计算至少连续两帧图像中的特别指定且相对应的目标的检测框，如：第t帧A类目标和第t+1帧图像A’类目标，ID标号为1到3的目标的所对应的检测框的光流信息，即同时提取并计算目标A₁、A₂、A₃和其对应的目标A₁’、A₂’、A₃’的检测框的光流信息。

S243：根据光流运动信息和信息熵建立聚类点。

可选地，根据步骤S242中提取的光流运动信息和计算所得的信息熵建立聚类点。其中光流运动信息是反应光流的运动特征的信息，包括运动的方向和运动的速度大小，也可以包括其他的相关运动特征信息，信息熵是依据光流运动信息通过计算所得。

在一实施例中，步骤S242中提取的光流运动信息包括运动的方向、运动的距离、运动的速度大小以及其他的相关运动特征信息中至少一种。

可选地，步骤S243根据光流运动信息和计算所得的信息熵建立聚类点之前，要先采用K-均值算法(k-mean)对光流进行聚类。其中，聚类点个数可以根据目标检测时的检测框个数确定，对光流进行聚类是依据：将运动方向和运动速度大小相同的光流点建立成聚类点。可选地，在一实施例中，K的取值范围为6～9，当然K值也可以是其他的值，在此不做赘述。

可选地，聚类点是运动方向和运动速度大小相同或近似相同的光流点的集合。

S244：计算聚类点的动能或目标检测框所在区域的动能。具体的，以步骤S243中所建立的聚类点为单位，计算步骤S245中所建立的聚类点的动能，或同时计算目标检测框所在区域的动能。

在一实施例中，计算步骤S243中所建立的聚类点的动能或目标所在区域的动能中至少一种。可以理解的是，不同的实施例中，根据具体需求可以配置其中一种需要的计算方式，也可以同时配置计算聚类点的动能或目标所在区域的动能两种计算方式，当只需要计算其中一种时，可以手动选择不计算另一种。

可选地，根据聚类点的位置利用其前后N帧的运动矢量建立一个运动时空容器，并计算出每一个聚类点所在检测区域的光流直方图(HOF)的信息熵以及聚类点集合的平均动能。

可选地，目标检测框所在区域的动能的公式如下：

可选地，i＝0,…，k-1表示单个目标检测框所在区域中光流的序号，k表示单个目标区域的聚类后光流总个数，此外，为了方便计算，令m＝1。可选地，在一实施例中，K的取值范围为6～9，当然K值也可以是其他的值，在此不做赘述。

S245：根据聚类点的动能和/或信息熵判断异常行为。

可选地，根据步骤S244中所计算的聚类点的动能或所述目标检测框所在区域的动能判断聚类点所对应的目标是否发生异常行为，其中当目标是行人时，异常行为包括，奔跑、打架和骚乱，当目标是车辆时，异常行为包括撞击和超速。

具体的，打架和奔跑两种异常行为都与目标检测框所在区域的信息熵与聚类点的动能有关。即异常行为是打架时，目标检测框所在区域的光流信息熵较大，目标所对应的聚类点的动能或目标所在区域的动能也较大。而异常行为是奔跑的时候，目标所对应的聚类点的动能或目标所在区域的动能较大，目标检测框所在区域的光流信息熵较小。当没有发生异常行为时，目标所对应检测框所在区域的光流信息熵较小，目标所对应的聚类点的动能或目标所在区域的动能也较小。

可选地，一实施例中，S245根据聚类点的动能和/或信息熵判断异常行为的步骤进一步包括：若目标所对应的检测框所在区域的光流信息熵大于等于第一阈值，且目标所对应的聚类点的动能或目标检测框所在区域的动能大于等于第二阈值，则判断异常行为是打架。

可选地，另一实施例中，根据聚类点的动能和/或信息熵判断异常行为的步骤进一步包括：若目标所对应的检测框所在区域的信息熵大于等于第三阈值且小于第一阈值，同时目标所对应的聚类点的动能或目标检测框所在区域的动能大于第二阈值。则判断异常行为是奔跑。

一实施例中，例如，信息熵用H表示，动能用E表示。

可选地，目标奔跑行为的判断公式如下：

在一实施例中，本发明训练得到奔跑行为的

取值范围为

λ₁取值为3000，其中

是用来表示目标检测框所在区域的光流信息熵H和目标检测框的所在区域的动能E的比值，λ₁是一个预设的动能值。

可选地，目标打架行为的判断公式：

在一实施例中，本发明训练得到打架行为的

取值范围为

λ₂取值为3.0，其中

是用来表示信息熵H和动能E的比值，λ₂是一个预设的信息熵值。

可选地，正常行为的判断公式：

在一实施例中，在本发明中，训练得到的正常行为λ₃取1500，λ₄取1.85，λ₃是一个预设的动能值，且小于λ₁，λ₄是一个预设的信息熵值，且小于λ₂。

在一实施例中，当某一行人目标在奔跑时，该行人目标所对应的聚类点的光流动能较大，光流信息熵较小。

可选地，当发生人群骚乱时，首先会在一张单帧图片中检测到多个行人目标，然后在对所检测的多个行人目标进行异常行为检测时，会发现多个目标的均发生了奔跑异常，此时可以判定发生人群骚乱。

在一实施例中，对一张单帧图片中所检测到的多个目标进行异常行为检测时，当有超过预设阈值数量的目标所对应的聚类点的运动动能较大，光流信息熵较小；此时可以判定可能发生了人群骚乱。

可选地，当目标是车辆时，异常行为的判定同样是基于对于目标所对应检测框中的多数光流方向和所检测的车辆之间的距离的大小(可以从位置信息计算得出)，判断是否发生撞击。可以理解的是，当两个车辆目标的检测框的多数光流方向相对，且两辆车的距离很近时，可以判断疑似发生撞击事件。

可选地，将步骤S245判断异常行为的结果保存，并发送至云端服务器。

上述步骤S241至步骤S245所述的方法可以有效的提高异常行为检测的效率和实时性。

可选地，一实施例中，步骤S242提取至少连续两帧图像中检测框对应的特征点的光流运动信息，计算检测框所在区域的信息熵的步骤之前还包括：提取至少连续两帧图像的特征点。

可选地，提取至少连续两帧图像的特征点，可以每次提取两帧连续的图像的中目标检测框的特征点，也可以是每次提取多帧(超过两帧)连续的图像中目标检测框的特征点，其中每次提取的图像的数量由初始化系统时设定，且可以根据需要进行调整。其中，特征点指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。

可选地，一实施例中，步骤S242提取至少连续两帧图像中检测框对应的特征点的光流运动信息，计算检测框所在区域的信息熵的步骤进一步包括：采用预设算法计算连续两帧图像中目标匹配的特征点，去除连续两帧图像中不匹配的特征点。

可选地，首先，调用图像处理函数(goodFeaturesToTrack())提取上一帧图像中已经检测到的目标区域中的特征点(也可称作Shi-Tomasi角点)，然后调用LK-pyramid光流提取算法中的函数calcOpticalFlowPyrLK()计算当前帧检测到的目标与上一帧匹配的特征点，去除前后两帧中未移动的特征点，从而得到像素点的光流运动信息。其中,本实施例中的特征点可以是Shi-Tomasi角点,又或是简称角点。

可选地，一实施例中，步骤S245根据光流运动信息建立聚类点的步骤之前还包括：在图像中画出特征点的光流运动方向。

在一实施例中，根据光流运动信息建立聚类点的步骤之前还包括，在每一帧图像中画出各个特征点的光流运动方向。。

可选的，参见图8，一实施例中，步骤S243根据光流运动信息建立聚类点的步骤之后还包括步骤S2431和步骤S2432：

S2431：基于目标检测区域的位置和运动矢量建立时空容器。

可选地，基于目标检测区域即目标检测框所在的位置信息和检测框中的聚类点在前后多帧的运动矢量关系建立时空容器。

可选地，图9是一实施例中的运动时空容器的示意图，其中AB是该时空容器的二维高度，BC是该时空容器的二维宽度，CE是该时空容器的深度。其中,时空容器的深度CE是视频帧数，ABCD代表时空容器的二维大小，二维大小代表目标检测时目标检测框的大小。可以理解的，时空容器的模型可以是其他的图形，当目标检测框的图形改变时，时空容器的模型会相应改变。

可选地，在一实施例中，当目标检测框的图形发生变化，则相对应的所建立的时空容器会依据目标检测框的图形变化发生变化。

S2432：计算各个聚类点所对应的检测框的光流直方图的平均信息熵与平均运动动能。

可选地，计算各个聚类点所对应的检测框的光流直方图的平均信息熵和平均动能。光流直方图HOF(Histogram of Oriented Optical Flow)来统计光流点在某一特定方向分布的概率的示意图。

可选地，HOF的基本思想是根据各个光流点的方向值将其投影到所对应的直方图bin中，并根据该光流的幅值进行加权，在本发明中，bin的取值大小为12，其中各个光流点的运动速度大小和方向的计算公式如下所示，T是指相邻的两帧图像间隔的时间。

其中，采用光流直方图，可以减少目标的尺寸、目标运动方向以及视频中的噪声等因素对目标像素的光流特征的影响。

可选地，不同的实施例中异常行为的种类包括打架奔跑、骚乱或者交通异常中的一种。

在一实施例中，当目标是行人时，异常行为包括：打架、奔跑和骚乱。

在另一实施例中，当目标是车辆时，异常行为为例如：撞击和超速。

可选地，在一实施例中，计算各个聚类点所对应的检测框的光流直方图的平均信息熵与平均动能，实质上是计算前后N帧图像中各个聚类中心的光流的平均信息熵和平均动能。

上述的异常行为检测的方法，可以有效的提高现在安防的智能化，同时还可以有效的减少在异常行为检测过程中的计算量，提高系统对目标进行异常行为检测的效率、实时性和准确率。

可选地，对目标进行跟踪，以得到跟踪结果的步骤之后进一步包括：将已离开当前监控节点的目标对象的结构化数据发送至云端服务器。

可选地，对目标进行跟踪时，当某一目标的特征信息尤其是位置信息在预设时间内没有进行更新，即可判定该目标已经离开当前的监控节点，将该目标的结构化数据发送至云端服务器。其中预设时间可以由用户设定，如设定5分钟或者是10分钟等，在此不一一赘述。

在一实施例中，在对目标进行跟踪时，当发现某行人的位置信息即坐标值在一定的预设时间内没有进行更新，即可以判定这个行人已经离开当前的监控节点，将该行人对应的结构化数据发送至云端服务器。

在另一实施例中，在对目标进行跟踪时，当发现某行人或某车辆的位置坐标一直停留在监控节点的视角边缘时，即可以判定该行人或者车辆已经离开当前的监控节点，将该行人或车辆的结构化数据发送至云端服务器。

可选地，将被判定离开当前监控节点的目标的预设特征信息(如目标属性值、运动轨迹、目标截图等及其他所需的信息)进行打包成预设的元数据结构，然后编码成预设格式发送至云端服务器，云端服务器对所接收到的打包数据进行解析，提取出目标的元数据并保存至数据库。

在一实施例中，将被判定离开当前节点的目标的预设特征信息打包成为预设的元数据结构，然后编码成JSON数据格式通过网络发送至云端服务器，云端服务器对接收到的JSON数据包进行解析，提取出元数据结构，然后保存至云端服务器的数据库。可以理解的，预设的特征信息可以根据需要进行调整设定，在此不做一一赘述。

可选地，步骤S23对目标进行跟踪，以得到跟踪结果和步骤S24对目标进行异常行为检测，均基于步骤S22对单帧图片进行目标检测识别的基础之上，才可以进行对目标的跟踪和对目标异常行为进行检测。

可选地，步骤S24对目标进行异常行为检测可以在步骤S22完成之后直接进行，也可以是和步骤S23同时进行，又或者是在步骤S23之后，并基于步骤S23跟踪的结果之上进行。

可选地，当步骤S24对目标进行异常行为检测基于步骤S23对目标进行跟踪，以得到跟踪结果，对目标的异常行为的检测会更加精确。

其中，步骤S21至步骤S24所述的一种基于目标行为属性的视频结构化处理的方法，可以有效的减小监控视频的网络传输的压力，有效地提高监控系统的实时性，大幅度削减数据流量费。

可选地，对所述单帧图片进行目标检测识别的步骤，进一步包括提取出单帧图片中的目标的特征信息。可以理解的是，将读取的视频切分成多张单帧图片后，要对切分之后的单帧图片进行目标检测识别。

可选地，对将视频切分所得到的单帧图片中的目标的特征信息进行提取，其中目标包括行人、车辆和动物，根据需要也可以提取建筑物或者道路桥梁的特征信息。

在一实施例中，当目标是行人时，提取的特征信息包括：行人的位置、行人衣着颜色、行人的性别、运动状态、运动轨迹、驻留时间等特征化信息以及其他可获取的信息。

在另一实施例中，当目标是车辆时，提取的特征信息包括：车辆的型号、车身的颜色、车辆的行驶速度以及车辆的车牌号等。

在又一实施例中，当目标是建筑物时，提取的特征信息包括：建筑物的基本信息：如建筑层高、建筑的高度、建筑的外观颜色等。

在再一实施例中，当目标是道路桥梁时，提取的特征信息包括：道路的宽度、道路的名称、道路的限速值等信息。

可选地，对目标进行异常行为检测的步骤包括：提取一个或多个目标的多像素点的运动矢量，并根据运动矢量之间的关系进行异常行为检测。

在一实施例中，具体细节参见，如上所述的一种异常行为检测的方法。

在一实施例中，初始设定在视频处理阶段获取的结构化数据包括目标的位置、目标类别、目标属性、目标运动状态、目标运动轨迹、目标驻留时间中至少一个信息。其中，可以根据用户需要调整，在视频处理阶段只获取目标的位置信息，或者是同时获得目标的位置和目标类别。可以理解的是，视频处理阶段获取信息，可以由用户来选择所需要在视频处理阶段获取的信息类别。

可选地，在对视频结构化处理结束之后，将所获得的结构化数据上传至云端服务器，云端服务器会保存各个监控节点所上传的结构化数据，并对各个监控节点所上传的结构化数据进行深入分析，以得到预设的结果。

可选地，云端服务器对各个监控节点所上传的结构化数据进行深入分析的步骤可以是设定由系统自动进行，也可以是由用户手动进行。

在一实施例中，预先设定云端服务器的深入分析所包括的基础分析内容，如统计行人的数量、目标轨迹分析、目标是否有异常行为发生、发生异常行为的目标的数量，同时深入分析还包括需要用户特别选择的其他内容，如目标的各个时段的比例、目标的速度等。

参见图10，图10是本发明一种基于视频结构化数据及深度学习的视频监控系统100(简称智能视频监控系统)的一实施例示意图，本实施例中，智能视频监控系统100包括：相互电性连接的视频获取模块102、智能分析模块104、云端服务器106和视频监控平台108。

可选地，视频获取模块102采集实时视频或输入预先录制的视频。

在一实施例中，视频获取模块102是可传输数据的摄像头、USB摄像头或者是基于rtsp协议流的网络摄像头中的一种，也可以是其他可以实现采集视频的终端设备，如手机或者是平板电脑，也可以是可以传输视频的终端设备。

可选地，智能分析模块104对视频获取模块102获取的视频进行结构化处理，以得到视频的结构化数据，并将结构化数据传输至云端服务器106。

在一实施例中，智能分析模块104为嵌入了基于深度学习的目标检测识别算法、多目标跟踪算法、基于光流运动特征的异常行为识别算法等相关算法的前端智能分析模块(NVIDIA Jetson TX1)。

在另一实施例中，智能分析模块104为嵌入了基于深度学习的目标检测识别算法、多目标跟踪算法、基于运动流光特征的异常行为识别算法等相关算法的其他智能开发主板。

可选地，智能分析模块104可以是一独立于视频获取模块的装置，也可以是嵌入视频获取模块104的一芯片。

在一实施例中，智能视频监控系统100的智能分析模块104嵌入在视频获取模块102中，实现与视频获取模块102一体化，即当视频获取模块102是一USB摄像头时，智能分析模块104是一芯片，可以实现嵌入到USB摄像头中。

在另一实施例中，智能视频监控系统100的智能分析模块104是一独立的装置，实现单独安装，与视频获取模块102以及云端服务器106电信号连接。

可选地，在一实施例中，一智能分析模块104可以是只与一个视频获取模块102实现电信号连接，也可以是与多个视频获取模块102实现电信号连接。

在另一实施例中，一智能分析模块104只与一个视频获取模块102实现电信号连接，用于处理分析一个视频获取模块102所获取的视频数据，并将处理分析的结果上传到云端服务器106。

在又一实施例中，一智能分析模块104可以实现与多个视频获取模块102电信号连接，同时处理分析该多个视频获取模块102所获取的视频，并将处理分析所得结果上传至云端服务器106。

可选地，当智能分析模块104与云端服务器106之间的无法实现网络连接，即网络中断时，智能分析模块104会自动将获得结构化数据、相关方法处理结果以及相关指令保存在智能分析模块的本地存储器中。

在一实施例中，当智能分析模块104与云端服务器106之间无法实现网络连接之后，再次连接上云端服务器106后，智能分析模块104会在网络恢复之后自动将结构化数据、相关方法处理结果以及相关指令再次上传至云端服务器106。

可选地，在网络中断时，智能分析模块104依然可以实现正常的工作，即可以实现对目标的检测识别、对目标的跟踪分析以及对目标异常行为的检测等上述方法，且可以实现在目标出现异常行为时，实现本地进行声光报警。

可选地，云端服务器106对结构化数据进行深入分析，以得到预设区域目标的行为类型以及异常行为。

在一实施例中，云端服务器106对各个监控节点上传的结构化数据进行深入分析，同时云端服务器106还用于存储数据，可以提供计算分析、存储和网络多种功能。

可选地，云端服务器106中存有城市中的典型的建筑、桥梁和道路的基本属性信息。

在一实施例中，云端服务器106中存有某一建筑物的结构图和布局图、某一桥梁的结构图以及道路的详细分布图等信息，以备发生紧急情况时，直接调用。

可选地，云端服务器106可以是按照预设的顺序对各个监控节点上传的结构化数据进行深入分析，也可以是对特别指定的某一监控节点的所上传的结构化数据进行深入分析，还可以是对某一节点中特定目标的所对应的结构化数据进行深入分析。

在一实施例中，云端服务器106可以实现从某些指定的监控节点筛选出某一个或多个指定的目标结构化信息，然后对这些结构化信息进行深入分析，最终整合分析对比。

可选地，视频监控平台108根据行为类型以及异常行为在电子地图上绘制出目标的轨迹，并对异常行为形成警报提示。

在一实施例中，视频监控平台108根据从云端服务器获取的目标的结构化数据以及目标的行为类型绘制出目标的轨迹，同时会在显示各个监控节点的监控数据的同时，会标记发生异常行为的目标，在智能分析模块104判定目标发生异常行为且将异常行为截图发送至云端服务器106时，视频监控平台108会形成警报提示。

在一实施例中，视频监控平台108根据用户的需要，可以显示切分后的单帧图像，以及标记了目标检测框上的特征点的运动方向图像。视频监控平台108可以清楚明了的显示图像中表示检测框特征点的运动方向的小箭头。

在另一实施例中，视频监控平台108可以显示切分之后的单帧图像，或是经过云端服务器106处理后的视频信息，同时可以显示完成目标检测识别的含有检测框以及ID标号，和部分目标属性信息的图像。

在又一实施例中，视频监控平台108可以显示标记了目标的属性信息图像或者是视频，如，一个行人目标的体温是正常的，则会对应该目标的检测框会显示所标记的信息：warming。

可选地，警报提示为预先设定的文字提示内容或者是语音提示内容，且警报的内容可以根据用户的需要进行设定和调整。

可选地，形成警报提示的同时，会提取出对应发生异常行为的属性信息：异常行为的类别、监控节点的编号和地址等，属性信息提取的种类可以由用户设定。

在一实施例中，警报的内容可以是：文字提醒：XX号的监控节点发生奔跑异常，请尽快处理！

在另一实施例中，警报的内容可以是：播放预设的语音信息：发生异常行为，请处理！

在又一实施例中，警报的内容是预设的文字提醒和预设的语音提醒。

可选地，视频监控平台108是建立在云端服务器106上，用户可以通过登录网址或者是网络账号直接进行访问。

可选地，视频监控平台108根据结构化数据更新智能分析模块104中的各个算法的模型，提高智能视频监控系统100的工作效率和准确率，进一步优化智能视频监控系统100的智能化程度。

在一实施例中，视频监控平台108根据上述的基于目标行为属性的视频结构化处理的方法、目标跟踪的方法、异常行为检测的方法，并结合视频处理方法中所获得的视频结构化数据，同步更新智能分析模块中104的各个算法的模型，其中算法的模型包括：基于目标行为属性的视频结构化处理的方法中目标检测识别中的所采用的比对数据集、异常行为检测的方法中的异常行为的检测的模型以及其他用到的模型或数据集。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于视频结构化数据及深度学习的视频监控方法：其特征在于，包括：

读取视频；

对所述视频进行结构化处理，得到结构化数据；其中，所述结构化数据包括目标的位置、类别、属性、运动状态、运动轨迹、驻留时间、摄像头ID和异常行为类型中的至少两个信息；

对所述结构化数据进行校正以得到目标结构化数据；

将所述目标结构化数据上传至云端服务器，并对所述目标结构化数据进行深入分析，以得到预设结果；

其中，所述对所述视频进行结构化处理，得到结构化数据，包括：将所述视频切分成单帧图片；对所述单帧图片进行目标检测识别；对所述目标进行跟踪，以得到跟踪结果；

其中，所述对所述目标进行跟踪，以得到跟踪结果包括：结合跟踪链以及上一帧图片中第一多个目标对应的检测框预测所述第一多个目标中各个目标在当前帧的跟踪框；获取上一帧图片中的第一多个目标在当前帧中对应的跟踪框，以及当前帧图片中第二多个目标的检测框；建立所述第一多个目标在当前帧中的跟踪框和当前帧中第二多个目标的检测框的目标关联矩阵；利用目标匹配算法进行校正，以得到当前帧第一部分目标对应的实际位置；

其中，在所述利用目标匹配算法进行校正，以得到当前帧第一部分目标对应的实际位置的步骤之后包括：

筛选出第二部分目标中的新增目标，将所述新增目标加入跟踪链，其中，所述第二部分目标为第一多个目标、第二多个目标中当前帧的检测框和上一帧的跟踪框未匹配成功的目标，所述新增目标为第二部分目标中在跟踪链中没有记载的目标；和/或，

将第三部分目标对应的目标丢失帧数计数值加1，并在目标丢失帧数计数值大于等于预设阈值时将对应目标从跟踪链移除，其中，所述第三部分目标为所述跟踪链中的目标与第二多个目标未匹配成功的目标；和/或，

将所述第三部分目标对应的目标丢失帧数计数值加1，并在计数值小于预设阈值时，局部跟踪所述第三部分目标以得到当前跟踪值，根据所述当前跟踪值和所述第三部分目标对应的预测值进行校正，以得到所述第三部分目标的实际位置。

2.根据权利要求1所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述视频为摄像头采集的实时视频和/或预先录制保存的视频。

3.根据权利要求1所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述对所述目标进行跟踪，以得到跟踪结果之后还包括：

对所述目标进行异常行为检测。

4.根据权利要求3所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述对所述目标进行异常行为检测的步骤具体包括：

提取一个或多个所述目标的多个特征点的光流运动信息，并根据所述光流运动信息进行聚类以及异常行为检测。

5.根据权利要求3所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述异常行为进一步包括：奔跑、打架、骚乱或者交通异常中的至少一种。

6.根据权利要求3所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述对所述目标进行异常行为检测的步骤之后还包括以下步骤：若检测出所述异常行为，则将当前视频帧图像截图保存并发送至云端服务器。

7.根据权利要求1所述的基于视频结构化数据及深度学习的视频监控方法，其特征在于，所述对所述结构化数据进行深入分析，以得到预设结果的步骤包括：

对所述结构化数据进行统计、分析以得到一个或多个目标的行为类型以及异常行为，并对异常行为进行报警。

8.一种基于视频结构化数据及深度学习的视频监控系统，其特征在于，包括：相互电性连接的视频获取模块、智能分析模块、云端服务器以及视频监控平台；

所述视频获取模块采集实时视频或预先录制的视频；

智能分析模块对所述视频获取模块获取的视频进行结构化处理，以得到所述视频的结构化数据，并将所述结构化数据传输至所述云端服务器；其中，所述结构化数据包括目标的位置、类别、属性、运动状态、运动轨迹、驻留时间、摄像头ID和异常行为类型中的至少两个信息；

所述智能分析模块对所述结构化数据进行校正以得到目标结构化数据；

云端服务器对所述目标结构化数据进行深入分析，以得到预设区域目标的行为类型以及异常行为；

视频监控平台根据所述行为类型以及异常行为在电子地图上绘制出所述目标的轨迹，并对所述异常行为形成警报提示；

其中，所述智能分析模块对所述视频获取模块获取的视频进行结构化处理，以得到所述视频的结构化数据，包括：将所述视频切分成单帧图片；对所述单帧图片进行目标检测识别；对所述目标进行跟踪，以得到跟踪结果；

其中，所述利用目标匹配算法进行校正，以得到当前帧第一部分目标对应的实际位置的步骤之后包括：

9.根据权利要求8所述的基于视频结构化数据及深度学习的视频监控系统，其特征在于，所述视频监控平台根据所述结构化数据更新智能分析模块，以进一步优化所述的基于视频结构化数据及深度学习的视频监控系统的智能化程度。