CN109543513A

CN109543513A - 智能监控实时处理的方法、装置、设备及存储介质

Info

Publication number: CN109543513A
Application number: CN201811184092.8A
Authority: CN
Inventors: 雷晨雨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-03-29

Abstract

本发明公开了一种智能监控实时处理的方法、装置、计算机设备及存储介质，所述方法包括：通过接收监控端发送的实时视频流，并从实时视频流中提取预设数量视频帧图像，作为采样数据，避免直接使用数据量大的实时视频流造成网络堵塞，提高了异常行为监控的稳定性和及时性，进而对采样数据进行预处理，并提取RGB特征、光流特征和人体姿态特征，再将这三种特征输入到卷积神经网络模型中进行识别，将识别结果与预设的异常行为类别进行对比，判断该视频采样数据中是否包含异常行为，使用这三种特征能够更准确的预测视频图像中行为人的动作，提高了异常行为预测的准确率，使用卷积神经网络模型自动识别采样数据中的异常行为，实现对异常行为进行实时监控。

Description

智能监控实时处理的方法、装置、设备及存储介质

技术领域

本发明涉及安全监控领域，尤其涉及一种智能监控实时处理的方法、装置、计算机设备及存储介质。

背景技术

随着社会经济的发展，的迅猛发展和人口的日益增长，越来越多的人会偏向公共场所活动，在一些大城市中的公共场合，人口密度非常之高，在人口密度过高时，难免会产生一些异常事件，特别是在繁华大街、大型商场、体育场和大型工厂等地段，异常事件还是时有发生，如果不能及时发现并处理，容易引起人员伤亡和财产损失。

为了监控这些异常事件，一般采取的措施之一是添加视频监控系统。目前，视频监控系统已经遍布各种公共场合，包括商场、大街、公园、广场等。

传统视频监控主要通过安排专人职守视频监控室来达到监测目的，但由于每个监控室监控场景众多，而值守工作人员的精力和积极性都是有限的，遗漏一些重要信息也是在所难免的，同时，一个值守工作人员需求同时监控多个视频画面，也容易因对异常行为判断失误导致的监控准确率低的问题。鉴于上述原因，大量的监控视频在实际应用中仅仅只起到“事后查询”的作用，没有起到对异常行为实时监控的作用。

发明内容

本发明实施例提供一种智能监控实时处理的方法、装置、计算机设备和存储介质，以解决当前人工监控的方式造成的视频中异常行为监控遗漏、监控不及时及时监控准确率不高的问题。

一种智能监控实时处理的方法，包括：

接收监控端发送的实时视频流；

按照预设的频率，从所述实时视频流中提取预设数量的视频帧图像，作为视频采样数据；

对所述视频采样数据进行预处理，得到包含所述预设数量的目标图像的目标图像集；

从所述目标图像集中对每个所述目标图像进行图像颜色特征提取，得到RGB特征；

使用TVL1光流算法从所述目标图像集中相邻的所述目标图像中提取光流特征；

采用姿态估计算法对所述目标图像集中的每个所述目标图像进行姿态分析，得到人体姿态特征；

将所述RGB特征、所述光流特征和所述人体姿态特征输入到所述训练好的卷积神经网络模型中进行识别，得到所述目标图像集对应的行为预测结果；

若所述行为预测结果为预设的异常行为类别中的一种类别，则判定所述视频采样数据中存在异常行为。

一种智能监控实时处理的装置，包括：

接收模块，用于接收监控端发送的实时视频流；

采样模块，用于按照预设的频率，从所述实时视频流中提取预设数量的视频帧图像，作为视频采样数据；

预处理模块，用于对所述视频采样数据进行预处理，得到包含所述预设数量的目标图像的目标图像集；

第一提取模块，用于从所述目标图像集中对每个所述目标图像进行图像颜色特征提取，得到RGB特征；

第二提取模块，用于使用TVL1光流算法从所述目标图像集中相邻的所述目标图像中提取光流特征；

第三提取模块，用于采用姿态估计算法对所述目标图像集中的每个所述目标图像进行姿态分析，得到人体姿态特征；

预测模块，用于将所述RGB特征、所述光流特征和所述人体姿态特征输入到所述训练好的卷积神经网络模型中进行识别，得到所述目标图像集对应的行为预测结果；

判定模块，用于若所述行为预测结果为预设的异常行为类别中的一种类别，则判定所述视频采样数据中存在异常行为。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述智能监控实时处理的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述智能监控实时处理的方法的步骤。

本发明实施例提供的智能监控实时处理的方法、装置、计算机设备及存储介质，一方面，接收监控端发送的实时视频流，并按照预设的频率，从该实时视频流中提取预设个数的视频帧图像，作为视频采样数据，避免直接使用数据量较大的实时视频流造成的网络堵塞和处理效率低下，提高了异常行为监控的稳定性和及时性，另一方面，对视频采样数据进行预处理，得到目标图像集，再从目标图像集中提取RGB特征、光流特征和人体姿态特征，并将这三种特征输入到训练好的卷积神经网络模型中进行识别，得到识别结果，进而将识别结果与预设的异常行为类别进行对比，得到对比结果，当对比结果为识别结果是预设的异常行为类别中的一种类别时，则判定该视频采样数据中包含异常行为，使用这三种特征能够更加全面的反应行为特征，能够更准确的预测视频图像中行为人的行为，提高了异常行为预测的准确率，同时，使用训练好的卷积神经网络模型，进行自动识别视频采样数据中的异常行为，实现对异常行为进行实时监控，提高异常行为监控的自动化水平和监控效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的智能监控实时处理的方法的应用环境示意图；

图2是本发明实施例提供的智能监控实时处理的方法的实现流程图；

图3是本发明实施例提供的智能监控实时处理的方法中步骤S70的实现流程图；

图4是本发明实施例提供的智能监控实时处理的方法中步骤S50的实现流程图；

图5是本发明实施例提供的智能监控实时处理的方法中步骤S60的实现流程图；

图6是本发明实施例提供的智能监控实时处理的方法中步骤S30的实现流程图；

图7是本发明实施例提供的智能监控实时处理的装置的示意图；

图8是本发明实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示出本发明实施例提供的智能监控实时处理的方法的应用环境。该智能监控实时处理的方法应用在公共安防领域的异常行为监控场景中。该监控场景包括服务端和监控端，其中，服务端和监控端之间通过网络进行连接，监控端向服务端提供监控摄像头拍摄的实时视频流，服务端通过对实时视频流进行采样，得到采样数据，并对采样数据进行数据分析，从而判断采样数据中是否包含异常行为，并在检测到异常行为时，向监控端发送相应异常行为预警。监控端具体可以但不限于是各种PC机、监控平台、云监控平台等可以进行获取和传输实时视频流的智能设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。

请参阅图2，图2示出本发明实施例提供的一种智能监控实时处理的方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S10：接收监控端发送的实时视频流。

具体地，监控端将获取到的实时视频流发送给服务端，服务端通过网络传输协议接收该实时视频流。

其中，监控端获取实时视频流具体可以是通过监控端外置的监控设备进行拍摄，也可以是接收公共安防摄像头拍摄的实时视频流，还可依实际情况进行确定，此处不作具体限制。

其中，网络传输协议包括但不限于：互联网控制报文协议(Internet ControlMessage Protocol，ICMP)、地址解析协议(ARP Address Resolution Protocol，ARP)、实时消息传输协议(Real Time Messaging Protocol，RTMP)和文件传输协议(File TransferProtocol，FTP)等。

优选地，本发明实施例采用实时消息传输协议从监控端获取实时视频流。

S20：按照预设的频率，从实时视频流中提取预设数量的视频帧图像，作为视频采样数据。

具体地，按照预设的频率，从实时视频流中提取预设数量的视频帧图像，作为视频采样数据，用以进行分析该实时视频流中是否存在异常行为。

其中，预设的频率可以是预设的时间频率，即多长时间间隔进行一次视频帧图像提取，比如，间隔0.1秒提取一个视频帧图像，也可以是预设的视频帧频率，即间隔多少个视频帧进行一次视频帧图像的提取，比如，每间隔3个视频帧图像，提取一个视频帧图像。

优选地，本发明实施例采用预设的视频帧频率来进行视频帧提取。

例如，在一具体实施方式中，获取到的连续视频流包括128个连续的视频帧图像，预设数量为8，预设的视频帧频率为8，即每间隔8个视频帧图像，进行一次视频帧图像提取，按照先后顺序，将出现次序分别为1、9、17、25、33、41、49、57、65、73、81、89、97、105、113、121的视频帧图像提取出来，共计得到16个视频帧图像，由于视频采样数据的视频帧图像预设数量为8，因而，将前8个视频帧图像作为一个视频采样数据，后8个视频帧图像作为一个视频帧图像。

值得说明的是，本发明实施例中的实时视频流是采用H.264编码格式的基本码流(Elementary Stream，ES)，服务端通过快速MPEG视频编码(Fast Forward Mpeg，FFMPEG)框架对实时视频流进行解码，得到YUV编码格式的YUV码流，再将YUV码流转换为RGB格式的RGB码流，即得到连续的实时视频帧。

应理解，本发明实施例中的异常行为的监控是针对行为人的异常行为识别的监控，因而，在得到视频采样数据后，需对视频采样数据进行行为人检测，若视频采样数据中不存在行为人，则确定该视频采样数据为无效采样数据，而无需对无效采样数据进行后续处理。

其中，行为人检测的方法包括但不限于：基于梯度方向直方图的行人检测算法(Histograms of Oriented Gradients for Human Detection)、基于小边特征的人体检测算法(Edgelet Feature Boosting for Human Detection)和基于轮廓线索的实时人体检测(Real-Time Human Detection Using Contour Cues)等。

S30：对视频采样数据进行预处理，得到包含预设数量的目标图像的目标图像集。

具体地，在得到视频采样数据后，需要对视频采样数据中的视频帧图像进行图像预处理，以便消除图像中无关的信息，增强有关信息的可检测性和最大限度地简化数据，使得预处理之后得到的目标图像集可以快速准确地进行特征提取。

其中，预处理包括但不限于：图像灰度化、图像二值化、图像归一化和倾斜校正等。

在本发明实施例中，图像预处理后得到的包含预设数量的目标图像的目标图像集，用于后续RGB特征、光流特征和人体姿态特征的提取，而这些特征的提取对图像的大小和参数范围有一定要求，因而，需要保证视频帧的图像大小的统一性和参数范围的合理性，作为一种优选方式，本发明实施例的预处理方式为：先对视频帧图像进行裁剪，确保大小一致，进而对裁剪后的图像进行归一化处理。

可以理解地，视频采样数据包括预设数量的视频帧图像，因而，目标图像集中也包括预设数量的目标图像。

S40：从目标图像集中对每个目标图像进行图像颜色特征提取，得到RGB特征。

具体地，针对目标图像集中对每个目标图像，通过预设的图像颜色特征提取方式，提取该目标图像中的RGB特征。

其中，RGB特征是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色，RGB即是代表红、绿、蓝三个通道的颜色，这个标准包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。

其中，预设的图像颜色特征提取方式包括但不限于：基于全局颜色特征提取与匹配的颜色直方图法、基于RGB-D数据的自适应局部时空特征提取方法和基于VGG模型的特征提取方法等。

S50：使用TVL1光流算法从目标图像集中相邻的目标图像中提取光流特征。

具体地，通过TVL1光流算法，从目标图像集中任意两个相邻的目标图像中，进行光流特征提取，得到多个光流特征，其中，得到的光流特征的数量为目标图像的个数减一。

其中，TVL1光流算法是一个基于总变分和L1正则项的光流估计算法，主要通过计算两幅的纹理结构变化来对图像中行为人进行跟踪，从而确定行为人的动作数据特征，即光流特征。

其中，光流特征是能体现视域内的物体运动轨迹的数据特征，视域是指图像中出现的场景的范围，即可见范围。

容易理解地，目标图像集中包含预设数量的目标图像，对任意两个连续的图像均进行光流特征提取，最终得到的光流特征数量为预设数量减一。

S60：采用姿态估计算法对目标图像集中的每个目标图像进行姿态分析，得到人体姿态特征。

具体地，针对目标图像集中的每个目标图像，通过姿态估计算法，对该目标图像进行姿态分析，得到人体姿态特征。

其中，人体姿态特征是指基于人体骨架拓扑结构描述的数据特征。

其中，姿态估计算法包括但不限于：基于方向余弦矩阵(Direction CosineMatrix，DCM)的姿态估计算法、球面径向容积卡尔曼(Spherucal-radial Cubature KalmanFiltering，SRC-KF)姿态确定算法和2D姿态估计算法等。

优选地，本实施例采用的姿态估计算法为2D姿态估计算法。

值得说明的是，步骤S40、步骤S50和步骤S60没有必然的先后执行顺序，其可以是并列执行的关系，此处不做限制。

S70：将RGB特征、光流特征和人体姿态特征输入到训练好的卷积神经网络模型中进行识别，得到目标图像集对应的行为预测结果。

具体地，将获取到的RGB特征、光流特征和人体姿态特征输入到训练好的卷积神经网络模型中，该训练好的卷积神经网络模型对这三种数据特征进行卷积处理，并使用全连接层对卷积后的结果进行识别，得到目标图像集对应的行为预测结果。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，可以快速高效进行图像处理。

S80：若行为预测结果为预设的异常行为类别中的一种类别，则判定视频采样数据中存在异常行为。

具体地，判断步骤S70中得到的预测结果是否属于预设的异常行为类别中的任意一种，若属于，则判定该采样数据中存在异常行为，若不属于，则判定该采样数据中的行为均为正常行为。

其中，预设的异常行为类别为预先设定好的异常行为的类别，例如：摔跤、打架和偷盗等。

在本实施例中，通过接收监控端发送的实时视频流，并按照预设的频率，从该实时视频流中提取预设个数的视频帧图像，作为视频采样数据，避免直接使用数据量较大的实时视频流造成的网络堵塞和处理效率低下，提高了异常行为监控的稳定性和及时性，进而对视频采样数据进行预处理，得到目标图像集，再从目标图像集中提取RGB特征、光流特征和人体姿态特征，并将这三种特征输入到训练好的卷积神经网络模型中进行识别，得到识别结果，并将识别结果与预设的异常行为类别进行对比，得到对比结果，当对比结果为识别结果是预设的异常行为类别中的一种类别时，则判定该视频采样数据中包含异常行为，使用这三种特征能够更加全面的反应行为特征，能够更准确的预测视频图像中行为人的行为，提高了异常行为预测的准确率，同时，使用训练好的卷积神经网络模型，进行自动识别视频采样数据中的异常行为，实现对异常行为进行实时监控，提高异常行为监控的自动化水平和监控效率。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S70中所提及的将RGB特征、光流特征和人体姿态特征输入到训练好的卷积神经网络模型中进行识别，得到目标图像集对应的行为预测结果的具体实现方法进行详细说明。

请参阅图3，图3示出了本发明实施例提供的步骤S70的具体实现流程，详述如下：

S71：使用卷积层分别对RGB特征、光流特征和人体姿态特征进行卷积处理，得到具有相同预设维度的RGB卷积特征、光流卷积特征和人体姿态卷积特征。

具体地，在卷积层分别对得到的RGB特征、光流特征和人体姿态特征进行卷积处理，得到对应的RGB卷积特征、光流卷积特征和人体姿态卷积特征，由于所使用的卷积层相同，得到的RGB卷积特征、光流卷积特征和人体姿态卷积特征具有相同的预设维度，该预设维度由卷积层的结构所确定，例如，本发明实施例的预设维度为1024。

其中，卷积层(Convolutional layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积处理的目的是得到表示不同特征的卷积数据，即方便后续提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，越深层级的网路能从低级特征中迭代提取更复杂的特征。

值得说明的是，在本发明实施例中，存在预设层数的卷积层，具体预设的数量可根据实际情况进行确定，作为一种优选方式，本发明实施例中卷积层预设层数为3层，即本发明实施例中的训练好的卷积神经网络模型包括3个卷积层。

S72：在融合层，采用平均融合算子对RGB卷积特征、光流卷积特征和人体姿态卷积特征进行特征融合，得到融合特征。

具体地，将步骤S71得到的RGB卷积特征、光流卷积特征和人体姿态卷积特征输入到融合层，通过融合层的平均融合算子对这三个特征进行特征融合，得到融合特征，使得多种数据特征融合为一个综合数据特征，方便后续输入到全连接层进行预测。

其中，本实施例采用的平均融合(Average Fusion)算子用于压缩数据和参数的量，其具体实现过程为对多个特征数据进行求取平均值，将平均值作为融合特征。

例如，在一具体实施方式中，将获取到的三个1024维的特征数据记为x1，x2，x3，通过Average Fusion进行平均值计算，即X＝(x1+x2+x3)/3，所得特征数据融合后的融合特征X。

S73：使用全连接层中的q个预设的分类器对融合特征进行相似度计算，得到融合特征属于该分类器对应的行为类别的概率，共得到q个概率。

具体地，训练好的卷积神经网络模型包括但不限于：卷积层、融合层和全连接层等，在全连接层有q个训练好的分类器，将每个分类器均与融合特征进行相似度计算，得到融合特征属于该分类器对应的行为类别的概率，共得到q个概率，这q个分类器中，q-1个分类器对应q-1种异常行为类型，1个分类器对应的行为类别为正常行为类别。

其中，分类器对应的行为类别可根据实际需要进行训练，分类器的数量q也可根据需要进行设置，此处不作具体限制，例如，q设置为14，即包括13种异常行为类型和1个正常行为类型。

其中，分类器实现方法包括但不限于：逻辑回归(Logistic Regression，LR)、支持向量机((Support Vector Machine，SVM)、交叉熵(Corss Entropy)和softmax回归等。

优选地，本发明实施例采用softmax回归来实现多个分类器的分类识别。

其中，异常行为类型包括但不限于：打架、摔跤、偷窃、赌博和抢劫等，具体可依据实现情况进行设置，此处不作限制。

S74：从q个概率中，选取概率最大的行为类别作为目标图像集对应的行为预测结果。

具体地，在步骤S73得到q个概率中，选取值最大的概率对应的行为类别作为目标数据对应的预测结果。

在本实施例中，使用卷积层分别对RGB特征、光流特征和人体姿态特征进行卷积处理，得到具有相同预设维度的RGB卷积特征、光流卷积特征和人体姿态卷积特征，进而在融合层，采用平均融合算子对RGB卷积特征、光流卷积特征和人体姿态卷积特征进行特征融合，得到融合特征，再使用全连接层中的q个预设的分类器对融合特征进行相似度计算，得到融合特征属于该分类器对应的行为类别的概率，共得到q个概率，并从q个概率中，选取概率最大的行为类别作为目标图像集对应的行为预测结果，这种通过使用这三种特征能反应行为特征，能够更准确的预测视频图像中行为人的行为，提高了异常行为预测的准确率，同时，使用训练好的卷积神经网络模型，进行自动识别视频采样数据中的异常行为，实现对异常行为进行实时监控，提高异常行为监控的自动化水平和监控效率。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S50中所提及的使用TVL1光流算法从目标图像集中相邻的目标图像中提取光流特征的具体实现方法进行详细说明。

请参阅图4，图4示出了本发明实施例提供的步骤S50的具体实现流程，详述如下：

S51：对目标图像集中的每个目标图像进行灰度化处理，得到包含灰化图像的灰度化的目标图像集。

具体地，针对目标图像集中的每个目标图像，对该目标图像进行灰度化处理，得到包含灰化图像的灰度化的目标图像集，灰度化处理后得到的灰化图像，在一定程度上使得目标图像中的不同特征之前区别更为明显。

常用的灰度化方法包括但不限于：分量法、最大值法、平均值法和加权平均法等。

优选地，本实施例采用的灰度化方法为平均值法，即针对任意一个像素点的像素值，对该像素值进行改变，使得该像素点的红、绿、蓝三个颜色变量相等，例如，一像素点的RGB值为(60，90，120)，进行灰度化之后，该灰度化后的像素点的RGB值为(90，90，90)。

S52：针对灰度化的目标图像集中的每个灰化图像，依次使用快速傅里叶变换、软阈值函数和特征缩减算子进行计算，得到每个灰化图像的图像修复特征。

具体地，获取灰度化的目标图像集中的第一个灰化图像，作为基本图像，并将灰度化的目标图像集中的每个灰化图像，作为修复图像，将基本图像作为投影区域，使用快速傅里叶变换、软阈值函数和特征缩减算子进行计算，得到修复图像在投影区域之外的图像信息，作为该修复图像的图像修复特征。

其中，快速傅里叶变换(Fast Fourier Fransform，FFT)，即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称，在本实施例中，是通过对图像信号的频谱分析以提高对目标的搜索和跟踪等。

其中，软阈值函数可以是Soft-Thresholding算子，在本实施例中使用Soft-Thresholding算子对图像像素值矩阵运算求解进行优化。

其中，特征缩减算子具体可以是Shrinkage算子，也可以根据实际需求进行设置，此处不作具体限制。

S53：获取灰度化的目标图像集中任意两个连续灰化图像的图像修复特征作为一个光流特征，得到n-1个光流特征。

具体地，针对目标图像集中任意两个连续灰化图像，将这两个连续灰化图像的图像修复特征作为一个光流特征，由于预设数量为n，即目标图像集中包含n个目标图像，最终生成了n个灰化图像，因而共得到n-1个光流特征。

在本实施例中，通过对目标图像集中的每个目标图像进行灰度化处理，得到包含灰化图像的灰度化的目标图像集，并针对灰度化的目标图像集中的每个灰化图像，依次使用快速傅里叶变换、软阈值函数和特征缩减算子进行计算，得到每个灰化图像的图像修复特征，进而获取灰度化的目标图像集中任意两个连续灰化图像的图像修复特征作为一个光流特征，得到n-1个光流特征，使得可以快速准确地得到相邻目标图像之间的光流特征，有利于后续使用光流特征进行异常行为识别。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S60中所提及的采用姿态估计算法对目标图像集中的每个目标图像进行姿态分析，得到人体姿态特征的具体实现方法进行详细说明。

请参阅图5，图5示出了本发明实施例提供的步骤S60的具体实现流程，详述如下：

S61：针对目标图像集中的每个目标图像，使用预设的特征提取模型预测图像中每个身体部位的部分置信图和部分亲和域。

具体地，针对目标图像集中的每个图像，使用预设的特征提取模型，提取该图像中每个身体部位的部分置信图和部分亲和域。

其中，置信图是指目标图像中每个像素的特征值向目标置信度的映射关系，可通过对比目标区域和背景区域中特征值的分布来确定该映射关系，本实施例中的部分置信图是指人体部位的置信图，也即标识人体关键点的数据特征，每个人体关键点对应一个部分置信图，其中，人体关键点具体可以是人体关节。

其中，部分亲和域是用于对具有关联性的部分置信图进行标识的数据特征，也即本实施例中用来进行行为人标识的数据特征。

例如，在一具体实施方式中，部分置信图z1、部分置信图z2、部分置信图z3均与部分亲和域Y1关联，部分置信图z4、部分置信图z5、部分置信图z6均与部分亲和域Y2关联。

其中，预设的特征提取模型可以是但不限于：AlexNet模型、VGG模型、GoogLeNet模型和ResNet模型等，优选地，本实施例采用VGG模型作为预设的特征提取模型，进行部分置信图和部分亲和域的提取。

S62：通过部分亲和域，确定属于同一行为人的部分置信图，并将属于同一行为人的部分置信图作为一组目标置信图。

具体地，将与同一个部分亲和域相关联的部分置信图，确定为同一行为人的部分置信图，并将同一行为人的部分置信图作为一组目标置信图。

继续以步骤S61中的示例为例，将与部分亲和域Y1关联的部分置信图z1、部分置信图z2、部分置信图z3作为一组目标置信图，将与另一个部分亲和域Y2关联的部分置信图z4、部分置信图z5、部分置信图z6作为另一组目标置信图。

S63：使用二分图匹配的方式，对目标置信图中的部分置信图进行连接，得到人体姿态特征。

具体地，使用二分图匹配的方式，对同一组目标置信图中的部分置信图进行两两连接，即将同一个行为人的人体关键点(关节)进行两两相连，得到该组目标置信图对应的人体姿态特征。

其中，二分图匹配(Bipartite Matching，BM)又被称为二部图匹配，给定一个二分图G，在G的一个子图G1中，如果G1的边集中的任意两条边都不依附于同一个顶点，则称G1的边集为G的一个匹配。

其中，二分图又称二部图，是图论中的一种特殊模型，二分图顶点集合可以划分成两个部分，如G＝G1+G2，G1中包含h个点，G2中包含j个点，G1中包含的任意一点，均不会G1包含的其余h-1个点相连，而只能与G2中的某些点连接，G2中的j个点也与G1中的点具有相同的特性。

在本实施例中，针对目标图像集中的每个图像，使用预设的特征提取模型预测图像中每个身体部位的部分置信图和部分亲和域，并通过部分亲和域，确定属于同一行为人的部分置信图，并将属于同一行为人的部分置信图作为一组目标置信图，使用二分图匹配的方式，对目标置信图中的部分置信图进行连接，得到人体姿态特征，使得快速准确地得到人体姿态特征，有利于后续使用人体姿态特征进行异常行为识别。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S30中所提及的对视频采样数据进行预处理，得到包含预设数量的目标图像的目标图像集的具体实现方法进行详细说明。

请参阅图6，图6示出了本发明实施例提供的步骤S30的具体实现流程，详述如下：

S31：针对每个视频帧图像，对该视频帧图像进行等比例缩放，得到图像尺寸为m*k像素的缩放图像，其中，m为预设的正整数，m小于等于k，m和k均为像素点的个数。

具体地，对于每个视频采样数据中的视频帧图像，均进行等比例缩放，即长和宽以相同的比例进行缩放，得到m*k像素的缩放图像，其中，m为预设的短边的边长。

容易理解地，每个视频帧图像均为矩形图像，通过等比例缩放，将视频帧图像的短边缩放到m个像素大小，使得与预设的规则一致，以便于后续快速准确地进行特征提取。

其中，m的大小也可根据实际需要进行设置，此处不作具体限制。

例如，在一具体实施方式中，获取到的每个视频帧图像大小为1280×720，单位为个像素点，即长边长度为1280个像素点，短边长度为720个像素点的矩形图像，预设的m为256个像素点，对该矩形图像经过等比缩放，得到大小为455×256，单位为个像素点的缩放图像。

S32：对缩放图像进行裁剪，获取缩放图像的中心区域m×m像素大小的图像，作为标准采样图像。

具体地，本发明实施例的步骤S30所提及的3D卷积神经网络模型中，其输入数据的规则为m×m像素大小的图像，因而，需要对得到的m*k像素的缩放图像进行裁剪，获取该缩放图像中心区域m×m像素大小的图像，作为标准采样图像。

继续以步骤S31中得到的大小为455×256像素，单位为个像素点的缩放图像为例进行说明，对像素点个数为455的长边进行裁剪，保留该长边第101个像素点到第356个像素点范围内的所有像素点，得到大小为256×256，单位为个像素点的标准采样图像。

S33：对标准采样图像进行去均值和归一化处理，得到包含预设数量的目标图像的目标图像集。

具体地，在提取特征之前，需要对标准采样图像进行数据预处理，在本发明实施例中，优选的数据预处理方法为先进行去均值处理，再进行归一化处理，归一化处理后加快了梯度下降求最优解的速度，即提升了处理的效率，同时，有利于提高识别精度。

其中，归一化处理包含但不限于：简单缩放；逐样本均值消减，也称为移除直流分量；特征标准化，使数据集合中的所有特征都具有零均值和单位方差等。

优选地，本发明实施例采用的归一化方法为通过特征标准化来进行归一化。

其中，去均值处理是指每一维度的数据减去自身均值，这样能使数据在每个维度上具有相似的宽度，可以起到一定的增大数据分布范围。

例如，在一具体实施方式中，获取到的标准采样数据包括两个维度的特征，分别为特征A和特征B，特征A的范围是8到1000，特征B的范围是23到10006，通过去均值和归一化处理后，将特征A和特征B的范围缩减为0到1。

在本实施例中，针对每个视频帧图像，对该视频帧图像进行等比例缩放，得到图像尺寸为m*k像素的缩放图像，并对缩放图像进行裁剪，获取缩放图像的中心区域m×m像素大小的图像，作为标准采样图像，进而对标准采样图像进行去均值和归一化处理，得到目标图像集，使得目标图像集中的目标图像具有统一的图像大小和合理的参数范围，有利于后续快速准确地进行特征提取。

在一实施例中，在步骤S80之后，该智能监控实时处理的方法还包括：

根据预测结果对应的异常行为类别的预设预警方式，向监控端发送相应的预警信息。

具体地，根据异常行为的严重程度，设置不同的预警方式。例如，若异常行为包括行为A、行为B和行为C，其中，行为A和行为B的严重程度为一级，行为C的严重程度为二级，并且一级低于二级，则可以设置一级对应的预警方式为“向监控端推送异常事件的消息并发送响铃警告”，同时设置二级对应的预警方式为“向监控端推送异常事件的消息并发送响铃警告，同时，驱动监控端通过网络向公安机关报警”。当检测的异常行为行为B时，执行一级预警方式，向监控端推送异常事件的消息并发送响铃警告。

在本实施例中，根据预测结果对应的异常行为类别的预设预警方式，向监控端发送相应的预警信息，使得异常行为被识别后，及时推送相应的预警信息到监控端，提高了异常行为预警的及时性，同时也有利于监控端人员及时对异常事件进行处理。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图7示出与上述实施例智能监控实时处理的方法一一对应的智能监控实时处理的装置的原理框图。如图7所示，该智能监控实时处理的装置包括数据接收模块10、采样模块20、预处理模块30、第一提取模块40、第二提取模块50、第三提取模块60、预测模块70和判断模块80。各功能模块详细说明如下：

接收模块10，用于接收监控端发送的实时视频流；

采样模块20，用于按照预设的频率，从实时视频流中提取预设数量的视频帧图像，作为视频采样数据；

预处理模块30，用于对视频采样数据进行预处理，得到包含预设数量的目标图像的目标图像集；

第一提取模块40，用于从目标图像集中对每个目标图像进行图像颜色特征提取，得到RGB特征；

第二提取模块50，用于使用TVL1光流算法从目标图像集中相邻的目标图像中提取光流特征；

第三提取模块60，用于采用姿态估计算法对目标图像集中的每个目标图像进行姿态分析，得到人体姿态特征；

预测模块70，用于将RGB特征、光流特征和人体姿态特征输入到训练好的卷积神经网络模型中进行识别，得到目标图像集对应的行为预测结果；

判定模块80，用于若行为预测结果为预设的异常行为类别中的一种类别，则判定视频采样数据中存在异常行为。

进一步地，预测模块70包括：

卷积单元，用于使用卷积层分别对RGB特征、光流特征和人体姿态特征进行卷积处理，得到具有相同预设维度的RGB卷积特征、光流卷积特征和人体姿态卷积特征；

融合单元，用于在融合层，采用平均融合算子对RGB卷积特征、光流卷积特征和人体姿态卷积特征进行特征融合，得到融合特征；

计算单元，用于使用全连接层中的q个预设的分类器对融合特征进行相似度计算，得到融合特征属于该分类器对应的行为类别的概率，共得到q个概率；

预测单元，用于从q个概率中，选取概率最大的行为类别作为目标图像集对应的行为预测结果。

进一步地，第二提取模块50包括：

灰度化处理单元，用于对目标图像集中的每个目标图像进行灰度化处理，得到包含灰化图像的灰度化的目标图像集；

图像修复特征获取单元，用于针对灰度化的目标图像集中的每个灰化图像，依次使用快速傅里叶变换、软阈值函数和特征缩减算子进行计算，得到每个灰化图像的图像修复特征；

光流特征提取单元，用于获取灰度化的目标图像集中任意两个连续灰化图像的图像修复特征作为一个光流特征，得到n-1个光流特征。

进一步地，第三提取模块60包括：

特征提取单元，用于针对目标图像集中的每个目标图像，使用预设的特征提取模型预测图像中每个身体部位的部分置信图和部分亲和域；

关联单元，用于通过部分亲和域，确定属于同一行为人的部分置信图，并将属于同一行为人的部分置信图作为一组目标置信图；

匹配单元，用于使用二分图匹配的方式，对目标置信图中的部分置信图进行连接，得到人体姿态特征。

进一步地，预处理模块30包括：

等比缩放单元，用于针对每个视频帧图像，对该视频帧图像进行等比例缩放，得到图像尺寸为m*k像素的缩放图像，其中，m为预设的正整数，m小于等于k，m和k均为像素点的个数；

裁剪单元，用于对缩放图像进行裁剪，获取缩放图像的中心区域m×m像素大小的图像，作为标准采样图像；

去均值和归一化处理单元，用于对标准采样图像进行去均值和归一化处理，得到包含预设数量的目标图像的目标图像集。

该智能监控实时处理的装置还包括：

预警模块，用于根据预测结果对应的异常行为类别的预设预警方式，向监控端发送相应的预警信息。

关于智能监控实时处理的装置的具体限定可以参见上文中对于智能监控实时处理的方法的限定，在此不再赘述。上述智能监控实时处理的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8是本发明一实施例提供的计算机设备的示意图，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练好的卷积神经网络模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能监控实时处理的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例智能监控实时处理的方法的步骤，例如图2所示的步骤S10至步骤80。或者，处理器执行计算机程序时实现上述实施例智能监控实时处理的装置的各模块/单元的功能，例如图7所示的模块10至模块80的功能。为避免重复，这里不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例智能监控实时处理的方法的步骤，或者，该计算机程序被处理器执行时实现上述实施例智能监控实时处理的装置中各模块/单元的功能。为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号和电信信号等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种智能监控实时处理的方法，其特征在于，所述智能监控实时处理的方法包括：

接收监控端发送的实时视频流；

将所述RGB特征、所述光流特征和所述人体姿态特征输入到训练好的卷积神经网络模型中进行识别，得到所述目标图像集对应的行为预测结果；

2.如权利要求1所述的智能监控实时处理的方法，其特征在于，所述训练好的卷积神经网络模型包括卷积层、融合层和全连接层，所述全连接层包括q个预设的分类器，其中，q为大于1的正整数，所述将所述RGB特征、所述光流特征和所述人体姿态特征输入到所述训练好的卷积神经网络模型中进行识别，得到所述目标图像集对应的行为预测结果包括：

使用所述卷积层分别对所述RGB特征、所述光流特征和所述人体姿态特征进行卷积处理，得到具有相同预设维度的RGB卷积特征、光流卷积特征和人体姿态卷积特征；

在所述融合层，采用平均融合算子对所述RGB卷积特征、所述光流卷积特征和所述人体姿态卷积特征进行特征融合，得到融合特征；

使用所述全连接层中的q个预设的分类器对所述融合特征进行相似度计算，得到所述融合特征属于该分类器对应的行为类别的概率，共得到q个所述概率；

从q个所述概率中，选取概率最大的行为类别作为所述目标图像集对应的行为预测结果。

3.如权利要求1所述的智能监控实时处理的方法，其特征在于，所述预设数量为n，其中，n为大于2的正整数，所述使用TVL1光流算法从所述目标图像集中相邻的所述目标图像中提取光流特征包括：

对所述目标图像集中的每个目标图像进行灰度化处理，得到包含灰化图像的灰度化的目标图像集；

针对所述灰度化的目标图像集中的每个所述灰化图像，依次使用快速傅里叶变换、软阈值函数和特征缩减算子进行计算，得到每个所述灰化图像的图像修复特征；

获取所述灰度化的目标图像集中任意两个连续灰化图像的所述图像修复特征作为一个光流特征，得到n-1个所述光流特征。

4.如权利要求1所述的智能监控实时处理的方法，其特征在于，所述采用姿态估计算法对所述目标图像集中的每个所述目标图像进行姿态分析，得到人体姿态特征包括：

针对所述目标图像集中的每个目标图像，使用预设的特征提取模型预测所述图像中每个身体部位的部分置信图和部分亲和域；

通过所述部分亲和域，确定属于同一行为人的部分置信图，并将所述属于同一行为人的部分置信图作为一组目标置信图；

使用二分图匹配的方式，对所述目标置信图中的部分置信图进行连接，得到所述人体姿态特征。

5.如权利要求1所述的智能监控实时处理的方法，其特征在于，对所述视频采样数据进行预处理，得到包含所述预设数量的目标图像的目标图像集包括：

针对每个所述视频帧图像，对该视频帧图像进行等比例缩放，得到图像尺寸为m*k像素的缩放图像，其中，m为预设的正整数，m小于等于k，m和k均为像素点的个数；

对所述缩放图像进行裁剪，获取所述缩放图像的中心区域m×m像素大小的图像，作为标准采样图像；

对所述标准采样图像进行去均值和归一化处理，得到包含所述预设数量的目标图像的所述目标图像集。

6.如权利要求1至5任一项所述的智能监控实时处理的方法，其特征在于，在所述若所述行为预测结果为预设的异常行为类别中的一种类别，则判定所述视频采样数据中存在异常行为之后，所述智能监控实时处理的方法还包括：

根据所述预测结果对应的异常行为类别的预设预警方式，向所述监控端发送相应的预警信息。

7.一种智能监控实时处理的装置，其特征在于，所述智能监控实时处理的装置包括：

接收模块，用于接收监控端发送的实时视频流；

8.如权利要求7所述的智能监控实时处理的装置，其特征在于，所述预测模块包括：

卷积单元，用于使用所述卷积层分别对所述RGB特征、所述光流特征和所述人体姿态特征进行卷积处理，得到具有相同预设维度的RGB卷积特征、光流卷积特征和人体姿态卷积特征；

融合单元，用于在所述融合层，采用平均融合算子对所述RGB卷积特征、所述光流卷积特征和所述人体姿态卷积特征进行特征融合，得到融合特征；

计算单元，用于使用所述全连接层中的q个预设的分类器对所述融合特征进行相似度计算，得到所述融合特征属于该分类器对应的行为类别的概率，共得到q个所述概率；

预测单元，用于从q个所述概率中，选取概率最大的行为类别作为所述目标图像集对应的行为预测结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的智能监控实时处理的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的智能监控实时处理的方法的步骤。