CN112991656B

CN112991656B - 基于姿态估计的全景监控下人体异常行为识别报警系统及方法

Info

Publication number: CN112991656B
Application number: CN202110156553.6A
Authority: CN
Inventors: 李建更; 谢海征; 王广生
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-08-16
Anticipated expiration: 2041-02-04
Also published as: CN112991656A

Abstract

本发明公开了一种基于姿态估计的全景监控下人体异常行为识别报警系统及方法，属于智能监控系统技术领域；利用全景摄像头实现360度视频的获取，基于深度学习的人体姿态估计算法提取人体的骨骼关键点坐标作为人体行为识别算法的特征输入；利用坐标组成包含空间信息和时间序列信息的时空图模型，对时空图进行多阶段的时空图卷积操作，提取高级特征，最后用SoftMax分类器进行行为分类，得到行为结果并判断是否为异常行为。本发明具有采集视野范围广、无盲区的特点，可实时处理全景监控系统下的人体异常行为检测，在异常行为刚刚发生时及时本地报警，且远程的管理者能够及时获得报警短信，同时可使用手机实时查看现场情况。

Description

基于姿态估计的全景监控下人体异常行为识别报警系统及方法

技术领域

本发明涉及一种基于姿态估计的全景监控下人体异常行为识别报警系统及方法，属于智能监控系统技术领域。

背景技术

近年来，公共场所发生的暴力事件让社会各界意识到了安防监控的必要性。进入21世纪以来，随着硬件技术以及机器视觉技术的发展，监控行业在我国如雨后春笋般快速崛起，如今，在众多的公共场所，例如火车站、商场、校园、银行等人口流动量大的地方，都安装了用于安防监控的摄像头。这样的措施，不仅有效的保障了人民的人身财产安全，同时，对于维护社会治安、打击违法犯罪，也作出了突出的贡献。

传统的监控系统大多是单目摄像头，主要功能是对监控区域内视频进行播放与存储，通过人为的观察实现视频中信息的采集与判断，往往会出现紧急事件发现处理不及时，导致事态严重的情况。与单目摄像头相比，全景摄像头具有视野范围广、无盲区的特点。

对行为识别的研究可追溯到1975年，Johansson在实验中发现，人体的运动可以通过主要关节点的移动来描述，提出12点人体模型，通过关键点的组合与追踪，实现通过人体关节点的运动来识别行为。针对简单行为识别方法的研究，Sukthanker等人提出了层级均值漂移算法，利用剪影的3D时空体与光流信息相结合，对人体动作进行建模。针对较为复杂行为的识别方法，Krizhevsky等人提出了马尔科夫网与一阶逻辑相结合的马尔科夫逻辑网络，利用马尔科夫逻辑网络对子行为之间的时空关系进行描述。在真实场景下的行为识别，存在遮挡、光照变化等问题，为了获得更具表达性、区分性和鲁棒性的行为识别，Laptev等人提出了基于局部兴趣点轨迹的行为识别方法，将时空兴趣点的局部特征检测法与KLT跟踪器结合，获取兴趣点的运动轨迹。Wang等人进一步提出了基于稠密轨迹的行为识别方法，在每帧中采样很多特征点，利用光流场对特征点进行跟踪，利用轨迹的表观信息和轨迹之间的时空信息对轨迹进行表达。

传统算法中表现较好的算法是IDT(Improve Dense Trajectory)，利用光流场对视频序列中每一帧的兴趣点进行跟踪，来获取视频序列中的轨迹，再根据轨迹计算特征，并对特征进行编码，训练支持向量机，实现人体行为识别。2014年，受卷积神经网络在图像分类领域取得成功的启发，研究者开始把卷积神经网络用于视频分类，卷积神经网络利用局部感受野、权值共享以及空间聚合来实现对视频序列的特征表达。2015年以来，陆续有研究者提出新型的算法，其中经典的包括Two-Stream、C3D(Convolution 3Dimension)、循环神经网络RNN等。

目前，基于深度学习的行为识别技术，从输入形式上可以分为：视频序列、深度图像序列和骨架序列信息。相比于视频序列，深度图像包含了深度几何结构的前景信息，在行为识别任务中可减少光照对识别的影响，但深度图像相较于彩色图片，包含较少的纹理信息和大量的噪声。随着硬件设备发的发展，高清设备得到广泛的应用，基于视频序列的研究更具有普适性，更容易得到推广。基于视频序列的行为识别任务中，通常将视频序列信息分为时域信息和空域信息，在行为表达过程中，时间的动态信息对行为表达具有重要作用。为获取动作的动态信息，研究者提出了对骨架序列进行分析，通过追踪骨架关节点的轨迹获取动作的轨迹曲线，人体的骨骼和关节轨迹对光照和场景变化具有较强的鲁棒性，易于获得。图卷积神经网络将图应用到基于骨架的动作识别任务中，通过利用图卷积的局域性和时间动力学来隐式地学习部位信息，模型容易设计，并且能够更好地学习动作表示。

目前，大部分的异常行为识别算法更偏重于算法的准确性，实时性较差，而一个实用的异常行为检测系统的作用是监控下一旦发生异常情况，能够及时检测识别该异常的类别并发出警报，确保突发事件的及时发现与处理。

因此，提供一种基于姿态估计的全景监控下人体异常行为识别报警系统及方法，具有采集视野范围广、无盲区的特点，可实时处理全景监控系统下的人体异常行为检测，在异常行为刚刚发生时及时本地报警，且远程的管理者能够及时获得报警短信，同时可使用手机实时查看现场情况，就成为该技术领域急需解决的技术难题。

发明内容

本发明的目的之一是提供一种基于姿态估计的全景监控下人体异常行为识别报警系统，具有采集视野范围广、无盲区的特点，可实时处理全景监控系统下的人体异常行为检测，在异常行为刚刚发生时及时本地报警，且远程的管理者能够及时获得报警短信，同时可使用手机实时查看现场情况。

本发明的上述目的是通过以下技术方案实现的：

一种基于姿态估计的全景监控下人体异常行为识别报警系统，包括视频监控装置、服务器、监控视频显示端和移动监控视频显示端(智能手机)；视频监控装置与服务器之间通过网线连接，服务器与监控视频显示端之间采用高清多媒体连接线(HDMI)连接，服务器还通过阿里云与移动监控视频显示端(智能手机)相连接；服务器包括VGG特征提取模块、姿态估计模块、行为识别模块、判别模块和预警模块，VGG特征提取模块与姿态估计模块相连接，姿态估计模块与行为识别模块相连接，行为识别模块与判别模块相连接，判别模块与预警模块相连接；视频监控装置与电脑连接，电脑设有OBS推流模块，在亚马逊(AWS)云端分别设有流媒体服务器(是在云端服务器搭建的SRS模块，该模块被称之为流媒体服务器)和视频分发模块，OBS推流模块与流媒体服务器相连接，流媒体服务器与视频分发模块相连接。

优选地，所述视频监控装置为insta360pro。

优选地，所述服务器的配置为Intel(R)Core(TM)i7-4770K CPU@3.5GHz，8G内存(RAM)，显卡型号为GeForce GTX 1080。

优选地，所述监控视频显示终端采用戴尔24英寸电脑显示器。

优选地，所述流媒体服务器是Amazon Web Services(AWS)的云端EC2服务，配置为2vCPU，内存(RAM)为4G。

优选地，所述视频分发模块使用的是Amazon Web Services(AWS)的云端EC2服务，配置为4vCPU，内存(RAM)为16G。

本发明的另一目的是提供一种基于姿态估计的全景监控下人体异常行为识别报警方法，具有采集视野范围广、无盲区的特点，可实时处理全景监控系统下的人体异常行为检测，在异常行为刚刚发生时及时本地报警，且远程的管理者能够及时获得报警短信，同时可使用手机实时查看现场情况。

本发明的上述目的是通过以下技术方案实现的：

一种基于姿态估计的全景监控下人体异常行为识别报警方法，包括如下步骤：

步骤1：获取全景监控视频，将视频以RTSP(Real Time Streaming Protocol)流的形式发送到服务器；

步骤2：使用VGG(Visual Geometry Group)网络提取视频中图像的特征；

步骤3：使用openpose算法对步骤2中的图像特征进行姿态估计，获取人体的身体加足部25个关键点坐标；

步骤4：选择步骤3中身体的18个关键点坐标构建时空图模型；

步骤5：对步骤4中构建的时空图模型进行时空图卷积操作，识别视频中每个人的行为；

步骤6：判断步骤5中识别出的行为中是否包含异常行为，若不包含异常行为则返回步骤2继续执行；若包含异常行为则继续执行下一步；

步骤7：本地主机通过声音报警，并通过阿里云的短信服务向不在现场的管理者发送报警短信进行提醒；

步骤8：本地监控者听到报警后可通过本地电脑显示器直接查看现场的情况，远程管理者接收到报警短信之后可通过手机APP或网页浏览器查看现场的情况；步骤1中，全景监控设备通过网线与本地服务器相连，以RTSP流的形式将视频实时发送到服务器；步骤2中，使用VGG-19网络的前10层获取图像的特征，作为姿态估计网络的输入；步骤3中，姿态估计是自底向上的算法，先检测出所有人的骨骼关键点，再将关键点进行连接形成图，最后通过图优化的方法剔除错误连接，实现多人姿态估计；步骤4中，选取步骤3中获取的身体部位的18个关键点坐标，根据人体的自然连接与时序关系构建时空图模型。时空图模型有两种类型的边，一种是空间边，建立在每一帧人体骨架的自然连接点上，另一种是时序边，将连续两帧中相同节点连接起来，将行为序列的时间信息和空间信息整合起来；步骤5中，对步骤4构建的时空图模型进行时空图卷积操作；在进行卷积操作之前，引入注意力机制；在大规模图中由于节点较多，复杂的背景噪声会对图卷积性能产生不良影响；注意力模型更巧妙地利用图节点之间的相互联系，区分联系的层级，能够增强任务中需要的有效信息；表现在数学上就是某些属性拥有更高的权重，是一种加权平均；图卷积的核心思想是利用边的信息对节点进行聚合，从而生成新的节点表示；空间卷积部分，类比于图像的卷积，通过自定义的卷积核设计策略，使得卷积核直接被应用在图节点和它的邻居节点上，从而限制每一个滤波器只应用到一个节点的一个邻域；根据自定义卷积策略，重新定义采样函数和权重函数；时间卷积部分，由于形状固定，可以使用传统的卷积层完成时间卷积操作；最后，使用SoftMax分类器得到对应的动作类别；步骤6中，对步骤5中识别的动作类别与规定的异常行为相匹配，若未出现正确匹配，则返回步骤2，判断下一时间序列是否有异常行为发生；若出现正确匹配，则继续向下执行；步骤7中，步骤6出现了正确匹配，即出现了异常行为；本地的主机开始播放报警语音，并通过网络向阿里云短信服务平台发送通知，其中，阿里云短信服务平台已经设置好了接收短信的人员以及短信内容，此种情况下，本地安保人员和远程的管理者都能及时的收到异常行为的预警信号；步骤8中，相关人员通过步骤7接收到了报警信息，本地的安保人员可以即刻通过查看对应位置的全景摄像机全面掌握现场的情况，进行相关的人员部署与事件处理；同时，远程的管理者在收到报警短信之后，可通过自己的手机APP或者网页浏览器查看现场情况，进行工作部署。

优选地，步骤8中，远程全景视频的传输流程为：监控视频通过RTSP流的形式发送到电脑端，电脑端通过使用OBS(Open Broadcaster Software)推流工具将视频流推送到已经在亚马逊(AWS)云上部署好的流媒体服务器，同时，在云端还部署了全景视频分发服务器；全景视频分发软件在收到流媒体服务器的视频流之后，通过视频分发功能发送给客户端相应视角的视频，客户端可通过滑动手机屏幕来转换观看视角，实时全面的扫描观看现场的全部视野范围；AWS云端全景视频分发服务器的功能为建立球模型，将流媒体服务器发送过来的视频流在球模型上进行投影，此种情况下将客户端虚拟到球模型的中心，类似于将客户虚拟到现场；客户端通过滑动改变视角，发送改变视角后的坐标到AWS云服务端，云服务端通过解析坐标在球模型上截取相应窗口大小的视频，编码压缩后发送给客户端，客户端通过解码后显示；视频分发软件的应用在一定程度上解决了全景视频实时播放由于传输数据量大造成的客户端播放卡顿、黑屏的问题；远程客户端包括手机APP和网页客户端，都能实时播放RTSP流；两种客户端分别满足不同客户的需求，手机APP适用于固定长期使用本系统的用户，即开即用；网页客户端适用于临时使用客户，不需要等待客户端软件的下载与安装，打开浏览器直接访问网址即可；视频分发技术中，客户端的请求可以多样化，不同的客户端的请求相互独立，互不影响；分发服务器能够不断响应客户端的请求，而且响应请求之后，还能保证客户端和服务器之间的信息交互不会被中断；客户端通过与服务器交互的方式，自由地选择自己想看的视角，如同在现场中环顾四周，如同身临其境一般，提高了客户端的视觉体验。

有益效果：

本发明的基于姿态估计的全景监控下人体异常行为识别报警系统，使用全景摄像头替代现有的单目摄像头或单目摄像头的简单组合，改善了传统监控系统中摄像机或多摄像机简单组合存在盲区的弊端，做到全面监控；利用openpose算法进行人体姿态估计，提取人体的骨骼关键点坐标作为人体行为识别算法的特征输入，减少了光照对行为识别效果的影响，提高了识别的准确性，同时减少了处理的数据量，能够满足实际应用场景中的实时性要求；行为识别算法中根据关键点信息构建时空图模型，使得信息在时间和空间域被整合起来，对时空图模型进行图卷积，充分利用了行为片段的空间和时间信息，提高了识别的准确率，提升了异常行为识别的效率，提高了安全系数；本地和远程报警功能的实现，改善了监控系统需要24小时执勤的情况，当发生异常情况时，能够及时报警通知安保人员，确保了事件处理的及时性，将事件可能造成的损失降到最低；远程客户端可实时观看现场的情况，为不在现场的相关负责人提供了及时准确的现场信息，替代了当前通过短信或者电话多重传达现场情况，很大程度上解决了误传或瞒报信息造成的决策不及时和错误决策问题；本发明对应的方法主要依托计算机进行实现，节约人力资本，合理化了劳动分工。

下面通过附图和具体实施方式对本发明做进一步说明，但并不意味着对本发明保护范围的限制。实施例中的实施条件和装置除非特别注明，均为本领域常规的实施条件和市场上可采购的常规的装置。

附图说明

图1是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统的结构流程示意图。

图2是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中VGG-19前10层网络结构。

图3是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中openpose网络结构。

图4是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中时空图模型。

图5是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中时空图卷积操作的流程图。

图6是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中服务器和客户端建立连接过程的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，但并不作为对本发明限制的依据。

实施例1

如图1所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统的结构流程示意图；本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统包括视频监控装置、服务器、监控视频显示端和移动监控视频显示端(智能手机)；视频监控装置与服务器之间通过网线连接，服务器与监控视频显示端之间采用高清多媒体连接线(HDMI)连接，服务器还通过阿里云与移动监控视频显示端(智能手机)相连接；服务器包括VGG特征提取模块、姿态估计模块、行为识别模块、判别模块和预警模块，VGG特征提取模块与姿态估计模块相连接，姿态估计模块与行为识别模块相连接，行为识别模块与判别模块相连接，判别模块与预警模块相连接；视频监控装置与电脑连接，电脑安装OBS推流模块，在亚马逊(AWS)云端分别部署流媒体服务器(在云端服务器搭建的SRS模块，该模块被称之为流媒体服务器)和视频分发模块，OBS推流模块与流媒体服务器相连接，流媒体服务器与视频分发模块相连接。视频监控装置采集视频之后，成为RTSP流，服务器中的VGG特征提取模块通过该RTSP流的URL地址获取该视频流并提取图像的特征，提取方法如图2所示；提取到的特征传输到姿态估计模块进行姿态估计，姿态估计的方法如图3所示；姿态估计模块的结果以JSON格式传递到行为识别模块进行构建时空图模型并进行时空图卷积操作，输出行为标签，时空图模型如图4所示，时空图卷积操作如图5所示；行为标签在判别模块中进行判断，若不是异常行为，则继续监测，若发现异常，则会进一步触发本地预警模块，发出警报，本地值守人员可以通过RTSP流的URL地址获取该视频流进行观看；同时会触发阿里云短信服务，平台会发送已经预先编辑好模板的短信给固定人员的手机，进行警报提醒；当远程的人收到短信之后，可以通过手机app或者网页客户端浏览现场情况；现场视频流的传输途径为OBS推流模块将视频流推送到流媒体服务器，同理，流媒体服务器将视频流推送到视频分发模块，手机就可以通过访问视频分发模块的URL地址获得视频，并可以通过滑动屏幕获得想要的视角的视频，服务器与客户端建立连接的过程如图6所示。

如图2所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中VGG-19前10层网络结构；服务器中的VGG特征提取模块通过该RTSP流的URL地址获取该视频流并提取图像的特征，提取方法如图2所示，视频帧通过VGG网络提取视频中图像的特征，分为5个卷积段：第一段、第二段包含两个卷积层和一个池化层，第三段包含四个卷积层和一个池化层，第四段包含两个卷积层，使用的都是3x3的卷积，池化为在2x2的像素窗口上进行最大池化，视频中的每一帧都会生成一组特征F；

如图3所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中openpose网络结构；姿态估计的方法如图3所示：自底向上的算法openpose对图像特征F进行卷积操作，使用一个6阶段的深度神经网络，前一个阶段的预测结果融合原有图像特征作为下一个阶段的输入，其中，前5个阶段对每个身体部位的连接进行一个可能性测量，保证它们属于同一个人，最终组装成若干个人的完整身体姿态；编码图像中肢体的位置和方向，使用部分亲和场将身体部位与图像中的个体相关联，最后一个阶段预测关键点的位置，由于部分亲和场方法的使用，足部关键点检测隐含地帮助网络更准确地预测一些身体关键点，尤其是腿上的关键点，在解决部分遮挡问题的同时提升了提取关键点的速度，最终提取身体加足部25个关键点；

如图4所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中时空图模型；选取身体部位的18个关键点坐标，根据人体的自然连接与时序关系，构建时空图模型，时空图模型有两种类型的边，一种是空间边，建立在每一帧人体骨架的自然连接点上，另一种是时序边，将连续两帧中相同节点连接起来，将行为序列的时间信息和空间信息整合起来；

如图5所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中时空图卷积操作的流程图；在进行卷积操作之前，先对坐标数据进行归一化，然后，对时空图模型进行时空图卷积操作：首先，引入注意力机制，区分在运动过程中，不同的躯干重要性，注意力机制巧妙地利用图节点之间的相互联系，区分联系的层级，能够增强任务中需要的有效信息，之后，交替使用图卷积与时间卷积，图卷积部分，类比图像卷积，通过自定义的卷积核设计策略，使得卷积核直接被应用在图节点和它的邻居节点上，从而限制每一个滤波器只应用到一个节点的一个邻域；时间卷积部分，由于形状固定，可以使用传统的卷积层完成时间卷积操作，然后，经过平均池化与全连接，最后，使用SoftMax分类器得到对应的动作类别，输出行为标签；

如图6所示，是本发明实施例1的基于姿态估计的全景监控下人体异常行为识别报警系统中服务器和客户端建立连接过程的流程图；当客户端向服务器(分发服务器)发送URL地址请求之后，分发服务器向客户端返回收到请求，建立连接，若未返回消息，连接失败，连接成功之后，服务器端会给每个客户端分配独一无二的session号，作为每个客户端的唯一标识，同时将这个session号写入视频帧中，进行编码发送到客户端，客户端解码之后进行显示，客户端填入session号，发送到服务器，服务器进行验证，验证失败，会提醒客户端重新输入，验证成功后，与客户端建立socket通讯，当不同的客户端需要查看不同的视角时，带有不同session号的坐标会发送到服务器，服务器则会裁剪不同视角坐标的视频发送给相应的客户端，实现多客户端通道的隔离；

视频监控装置使用的是insta360影石公司的产品insta360pro；服务器的配置为Intel(R)Core(TM)i7-4770K CPU@3.5GHz，8G内存(RAM)，显卡型号为GeForce GTX 1080；监控视频显示终端采用的是戴尔24英寸电脑显示器；流媒体服务器使用的是AWS的云端EC2服务，配置为2vCPU，内存(RAM)为4G；视频分发模块部署硬件设施使用的是AWS的云端EC2服务，配置为4vCPU，内存(RAM)为16G；智能手机使用目前市场使用量最大的安卓手机，例如华为畅享10s；

视频监控装置与服务器之间使用网线进行连接，服务器与监控视频显示终端采用高清多媒体连接线(HDMI)进行连接，视频监控装置中采集的视频通过使用网线与一台安装有视频推流软件OBS的普通台式机进行连接，通过将OBS的推流地址设置成流媒体服务器IP地址实现视频的传输；视频监控装置采集到视频之后，配合安装在普通台式机上的insta360pro视频采集模块获得监控视频RTSP流，服务器中的VGG特征提取模块和OBS推流模块均可以通过RTSP流的URL地址获取该视频流；特征提取模块获取该视频流之后使用VGG网络提取视频中图像的特征，获取到的特征以矩阵变量的形式传递到姿态估计模块，姿态估计模块的结果以JSON格式传递到行为识别模块进行构建时空图模型并进行时空图卷积操作，输出行为标签；行为标签在判别模块中与规定好的异常行为标签进行匹配，若匹配未成功，则继续监测，若匹配成功，则会进一步触发本地预警模块，出现警报声音，本地值守人员可以通过RTSP流的URL地址获取该视频流进行观看；同时会触发阿里云短信服务的本地客户端模块，本地客户端会通过http协议触发阿里云的阿里云短信服务平台，平台会发送已经预先编辑好模板的短信给固定的人员的手机，进行警报提醒；当远程的人收到短信之后，可以通过手机app或者网页客户端输入在带有AWS云端视频分发模块的IP地址的URL浏览现场情况；现场视频流的传输途径为OBS推流模块(此模块是位于普通台式机)将通过URL获得的视频流推送到设置好URL地址的流媒体服务器(此模块位于亚马逊云端)，同理，流媒体服务器将视频流推送到设置好URL地址的视频分发模块(此模块位于亚马逊云端)；手机就可以通过访问视频分发模块的URL地址获得视频，并可以通过滑动屏幕通过socket通信的形式将想要看的视角的坐标发送到视频分发模块(此模块位于亚马逊云端，就是视频分发模块)，视频分发模块会裁剪相应视角的视频发送到手机。

上述基于姿态估计的全景监控下人体异常行为识别报警的运行步骤如下：

步骤2：使用VGG网络提取视频中图像的特征；

步骤4：选择步骤3中身体的18个关键点坐标构建时空图模型；

步骤8：本地监控者听到报警后可通过本地电脑显示器直接查看现场的情况，远程管理者接收到报警短信之后可通过手机APP或网页浏览器查看现场的情况。

优选地，步骤1中，全景监控设备通过网线与本地服务器相连，以RTSP流的形式将视频实时发送到服务器。

优选地，步骤2中，使用VGG-19网络的前10层获取图像的特征，作为姿态估计网络的输入。

优选地，步骤3中，多人姿态估计是自底向上的算法，先检测出所有人的骨骼关键点，再将关键点进行连接形成图，最后通过图优化的方法剔除错误连接，实现多人姿态估计。自底向上算法的优点在于将运行时的复杂性与图像中的人数分离，更有利于实现实时多人姿态估计；使用自底向上的算法openpose对步骤2中的图像特征进行卷积操作，使用一个多阶段的深度神经网络，前一个阶段的预测结果融合原有图像特征作为下一个阶段的输入；骨骼关键点热力图来衡量关键点在图像某位置出现的置信度，置信度最高的位置为关键点最终位置；若图像中只有一个人，则特定关键点在热力图中只有一个峰值，对于多人情况，关键点存在多个峰值，使用高斯函数可以确定各个位置的置信度；得到一组检测到的身体部位，需要对每个身体部位的连接进行一个可能性测量，保证它们属于同一个人，最终组装成若干个人的完整身体姿态；编码图像中肢体的位置和方向，使用部分亲和场将身体部位与图像中的个体相关联；同时进行关键点检测与关联，以一小部分计算成本获得高质量的结果，降低了时间复杂度；在进行多人解析时，是一个K分图匹配问题，K分图的最优解析是熟知的np-hard问题，为解决此问题，根据人体的本身构造，加入两个贪婪的松弛算法，只考虑相邻关键点的连接，把人体用树状结构表示；不在全局上进行优化，只在每一种躯干类型上进行优化，分解为二分图匹配问题，有效逼近全局的最优解，同时大大降低算法的复杂程度，达到实时多人姿态估计的目的；由于部分亲和场方法的使用，足部关键点检测隐含地帮助网络更准确地预测一些身体关键点，尤其是腿上的关键点，在解决部分遮挡问题的同时提升了提取关键点的速度；提取身体加足部25个关键点的速度比只提取身体18个关键点提升了1倍，提升了实时处理视频的速度。

优选地，步骤4中，选取步骤3中获取的身体部位的18个关键点坐标，根据人体的自然连接与时序关系构建时空图模型。时空图模型有两种类型的边，一种是空间边，建立在每一帧人体骨架的自然连接点上，另一种是时序边，将连续两帧中相同节点连接起来，将行为序列的时间信息和空间信息整合起来。

优选地，步骤5中，对步骤4构建的时空图模型进行时空图卷积操作；在进行卷积操作之前，引入注意力机制；在运动过程中，不同的躯干重要性是不同的；例如腿的动作可能比脖子更重要，通过腿部的运动甚至可以判断出跑步、走路和跳跃，但是脖子的动作中可能并不包含多少有效信息；在大规模图中由于节点较多，复杂的背景噪声会对图卷积性能产生不良影响；注意力模型更巧妙地利用图节点之间的相互联系，区分联系的层级，能够增强任务中需要的有效信息；表现在数学上就是某些属性拥有更高的权重，是一种加权平均；图卷积的核心思想是利用边的信息对节点进行聚合，从而生成新的节点表示；空间卷积部分，类比于图像的卷积，通过自定义的卷积核设计策略，使得卷积核直接被应用在图节点和它的邻居节点上，从而限制每一个滤波器只应用到一个节点的一个邻域；根据自定义卷积策略，重新定义采样函数和权重函数；时间卷积部分，由于形状固定，可以使用传统的卷积层完成时间卷积操作；最后，使用SoftMax分类器得到对应的动作类别。

优选地，步骤6中，对步骤5中识别的动作类别与规定的异常行为相匹配，若未出现正确匹配，则返回步骤2，判断下一时间序列是否有异常行为发生；若出现正确匹配，则继续向下执行。

优选地，步骤7中，步骤6出现了正确匹配，即出现了异常行为；本地的主机开始播放报警语音，并通过网络向阿里云短信服务平台发送通知，其中，阿里云短信服务平台已经设置好了接收短信的人员以及短信内容，此种情况下，本地安保人员和远程的管理者都能及时的收到异常行为的预警信号。

优选地，步骤8中，相关人员通过步骤7接收到了报警信息，本地的安保人员可以即刻通过查看对应位置的全景摄像机全面掌握现场的情况，进行相关的人员部署与事件处理；同时，远程的管理者在收到报警短信之后，可通过自己的手机APP或者网页浏览器查看现场情况，进行工作部署；其中，远程全景视频的传输流程为：监控视频通过RTSP流的形式发送到电脑端，电脑端通过使用OBS(Open Broadcaster Software)推流工具将视频流推送到已经在亚马逊(AWS)云上部署好的流媒体服务器，同时，在云端还部署了全景视频分发服务器，服务器的功能与实现下面会介绍；全景视频分发软件在收到流媒体服务器的视频流之后，通过视频分发功能发送给客户端相应视角的视频，客户端可通过滑动手机屏幕来转换观看视角，实时全面的扫描观看现场的全部视野范围；AWS云端全景视频分发服务器的功能为建立球模型，将流媒体服务器发送过来的视频流在球模型上进行投影，此种情况下将客户端虚拟到球模型的中心，类似于将客户虚拟到现场；客户端通过滑动改变视角，发送改变视角后的坐标到AWS云服务端，云服务端通过解析坐标在球模型上截取相应窗口大小的视频，编码压缩后发送给客户端，客户端通过解码后显示；视频分发软件的应用在一定程度上解决了全景视频实时播放由于传输数据量大造成的客户端播放卡顿、黑屏的问题；远程客户端包括手机APP和网页客户端，都能实时播放RTSP流；两种客户端分别满足不同客户的需求，手机APP适用于固定长期使用本系统的用户，即开即用；网页客户端适用于临时使用客户，不需要等待客户端软件的下载与安装，打开浏览器直接访问网址即可；视频分发技术中，客户端的请求可以多样化，不同的客户端的请求相互独立，互不影响；分发服务器能够不断响应客户端的请求，而且响应请求之后，还能保证客户端和服务器之间的信息交互不会被中断；客户端通过与服务器交互的方式，自由地选择自己想看的视角，如同在现场中环顾四周，如同身临其境一般，提高了客户端的视觉体验。

应用实施例：对于某银行自助取款机位置发生抢劫他人财物事件，该交互行为包括两个人：

步骤1：在银行自助取款机大厅顶部中心位置已经安装好insta360影石公司的产品insta360pro作为全景监控视频采集装置，此款产品可获得整个大厅360°的视野画面，视频质量为4K，在银行自助取款机大厅营业过程中，监控视频以RTSP(Real Time StreamingProtocol)流的形式通过网线实时不间断发送到服务器，服务器的配置为Intel(R)Core(TM)i7-4770K CPU@3.5GHz，8G内存(RAM)，显卡型号为GeForce GTX 1080，为了服务器的稳定性，操作系统为Ubuntu 16.04LTS，服务器上已经配置好相关的深度学习环境，CUDA10.0，并已配置好异常行为识别相关的库以及程序，一直处于运行状态，配置的程序包括特征提取模块VGG网络，人体姿态估计模块openpose网络，行为识别模块时空图卷积网络，报警模块；此时，服务器就可以通过RTSP流的URL地址实时不间断的读取监控设备传输过来的视频；

步骤2：在特征提取模块VGG网络中设置RTSP流的URL地址，此时该模块实时不间断读入监控视频，此网络实时提取图像的特征，作为姿态估计模块网络的输入，该网络分为5个卷积段，第一段、第二段包含两个卷积层和一个池化层，第三段包含四个卷积层和一个池化层，第四段包含两个卷积层，使用的都是3x3的卷积，池化为在2x2的像素窗口上进行最大池化，视频中的每一帧都会生成一组特征矩阵F变量；

步骤3：使用人体姿态估计模块openpose网络对步骤2中的图像特征F进行卷积操作，获得以JSON格式存储的姿态估计结果，该模块为一个6阶段的深度神经网络，前一个阶段的预测结果融合原有图像特征F作为下一个阶段的输入，其中前5个阶段对每个身体部位的连接进行一个可能性测量，保证它们属于同一个人，原理为编码图像中肢体的位置和方向，使用部分亲和场将身体部位与图像中的个体相关联，在进行多人解析时，是一个K分图匹配问题，K分图的最优解析是熟知的np-hard问题，为解决此问题，根据人体的本身构造，加入两个贪婪的松弛算法，只考虑相邻关键点的连接，把人体用树状结构表示；不在全局上进行优化，只在每一种躯干类型上进行优化，分解为二分图匹配问题，有效逼近全局的最优解，同时大大降低算法的复杂程度，达到实时多人姿态估计目的，最后一个阶段预测关键点的位置，原理为骨骼关键点热力图来衡量关键点在图像某位置出现的置信度，置信度最高的位置为关键点最终位置，若图像中只有一个人，则特定关键点在热力图中只有一个峰值，对于多人情况，关键点存在多个峰值，使用高斯函数可以确定各个位置的置信度(本应用实施例是2个人，每个人存在25个峰值，两人共有50个高斯函数峰值)，由于部分亲和场方法的使用，足部关键点检测隐含地帮助网络更准确地预测一些身体关键点，尤其是腿上的关键点，在解决部分遮挡问题的同时提升了提取关键点的速度，最终提取身体加足部25个关键点，在步骤1所述服务器上，提取身体加足部25个关键点的速度为26帧/s，只提取身体18个关键点速度为14帧/s，提取速度提升了1倍，提升了实时处理视频的速度，其中身体18个关键点分别为鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右胯、右膝、右踝、左胯、左膝、左踝、右眼、左眼、右耳、左耳；25个关键点为在18个身体关键点上加上胯中心、左脚内、左脚外、左脚跟、右脚内、右脚外、右脚跟，此时已经获得了抢劫行为中发生交互的两个人的JSON格式的姿态估计数据，在该数据中已经获得人数信息和骨骼信息；

步骤4：在行为识别模块中，首先选取步骤3中获取的身体部位的18个关键点坐标，根据人体的自然连接与时序关系构建时空图模型，时空图模型有两种类型的边，一种是空间边，建立在每一帧人体骨架的自然连接点上，另一种是时序边，将连续两帧中相同节点连接起来，将行为序列的时间信息和空间信息整合起来，此时就可以展示出两个有交互行为的图模型人；

步骤5：对步骤4构建的时空图模型进行时空图卷积操作，分为三个阶段，引入注意力机制、空间图卷积操作、时间卷积操作；在进行卷积操作之前，对坐标数据进行归一化，归一化操作之后，首先引入注意力机制，原理为在运动过程中，不同的躯干重要性是不同的，例如抢劫发生，两个人冲突过程中胳膊的动作比腿部更重要，腿部的动作比脖子更重要，在大规模图中由于节点较多，复杂的背景噪声会对图卷积性能产生不良影响，注意力模型更巧妙地利用图节点之间的相互联系，区分联系的层级，能够增强任务中需要的有效信息，表现在数学上就是某些属性拥有更高的权重，是一种加权平均，图卷积的核心思想是利用边的信息对节点进行聚合，从而生成新的节点表示；空间图卷积部分，类比于图像的卷积，通过自定义的卷积核设计策略，使得卷积核直接被应用在图节点和它的邻居节点上，从而限制每一个滤波器只应用到一个节点的一个邻域，根据自定义卷积策略，重新定义采样函数和权重函数，时间卷积部分，由于形状固定，可以使用传统的卷积层完成时间卷积操作，最后，使用SoftMax分类器得到两人互相拳击、踢踹的行为结果；

步骤6：在报警模块中，已经规定好的异常行为包含劈砍、踢踹、暴跌、拳击、刺，将这些行为写到异常行为标签文件中，对步骤5中识别的动作类别与规定的异常行为进行匹配，假设未发生异常行为，则不会出现正确匹配，则返回步骤2，判断下一时间序列是否有异常行为发生，此时步骤5中出现拳击或者踢踹异常行为，发生正确匹配；

步骤7：步骤6出现了正确匹配，即出现了异常行为，会触发已经设置好的报警语音，同时会触发服务器上安装好的阿里云短信服务的本地客户端模块，本地客户端会通过http协议触发阿里云的阿里云短信服务平台，平台会发送已经预先编辑好模板(在视频服务器的监控中，自助取款大厅发生异常行为，请立即进行处理)的短信给已经绑定好的固定人员(安保队长、银行经理)的手机，进行报警提醒，此种情况下，本地安保人员通过警报声音获得发生情况的通知，远程的管理者通过短信通知获得预警信息；

步骤8：相关人员通过步骤7接收到了报警信息，本地的安保人员可以即刻通过查看自助取款大厅的全景摄像机监控画面全面掌握现场的情况，根据现场情况进行人员部署，在能确保群众安全的条件下解决此次抢劫事件；同时，远程的管理者在收到报警短信之后，可通过自己的手机APP全面了解现场情况，制定解决方案；当银行单方面无法解决此次事件时，就需要警方的介入，警方相关工作人员可以同样通过手机浏览器实时观看自助取款大厅内的情况，做到准确的了解实际情况，对于相关群众的解救工作有极大的帮助；

其中，本地安保人员了解现场情况所用设备为戴尔24英寸电脑显示器，此监控显示设备与服务器采用高清多媒体连接线(HDMI)进行连接；

其中，远程全景视频的传输流程为：步骤1采集的监控视频以RTSP流的形式通过网线发送到普通电脑端，电脑配置为Intel(R)Core(TM)i7-4770K CPU@3.5GHz，8G内存(RAM)，显卡型号为GeForce GTX 1080，操作系统为Windows 10；此电脑安装有OBS(OpenBroadcaster Software)推流工具，将推流工具的流来源设置成监控视频的RTSP流的URL地址进行拉流，推流地址设置成已经在亚马逊(AWS)云上部署好的流媒体服务器ip地址，这样OBS工具将视频流推送到AWS云上部署好的流媒体服务器SRS，流媒体服务器使用的是AWS的云端EC2服务，配置为2vCPU，内存(RAM)为4G，同时，在云端还部署了全景视频分发服务器，分发服务器使用的是AWS的云端EC2服务，配置为4vCPU，内存(RAM)为16G，分发服务器的功能与实现下面会介绍，分发服务器在收到流媒体服务器的视频流之后，通过视频分发功能发送给客户端相应视角的视频，该视角的视频为全景视频的六分之一，客户端可通过滑动手机屏幕来转换观看视角，实时全面的观看现场的全部视野范围，可以全面掌握自主取款大厅的情况，远程客户端包括手机APP和网页客户端，都能实时播放RTSP流，两种客户端分别满足不同的需求，手机APP适用于固定长期使用本系统的用户(银行工作人员)，即开即用；网页客户端适用于临时使用客户(警务人员)，不需要等待客户端软件的下载与安装，打开浏览器直接访问网址即可，为保证群众安全节约了时间。

全景视频分发服务器的实现为建立球模型，将流媒体服务器发送过来的视频流在球模型上进行投影，此种情况下将客户端虚拟到球模型的中心，类似于将客户端虚拟到现场；客户端通过滑动改变视角，发送改变视角后的坐标到AWS云服务端，云服务端通过解析坐标在球模型上截取相应窗口大小的视频，编码压缩后发送给客户端，客户端通过解码后显示，视频分发软件的应用在一定程度上解决了全景视频实时播放由于传输数据量大造成的客户端播放卡顿、黑屏的问题，视频分发技术中，客户端的请求可以多样化，不同的客户端的请求相互独立，互不影响，其原理如下：当客户端向分发服务器发送URL地址请求之后，分发服务器向客户端返回收到请求，建立连接，若未返回消息，连接失败；连接成功之后，服务器端会给每个客户端分配独一无二的session号，作为每个客户端的唯一标识，同时将这个session号写入视频帧中，进行编码发送到客户端，客户端解码之后进行显示，客户端填入session号发送到服务器，服务器进行验证，验证失败会提醒客户端重新输入，验证成功后会与客户端建立socket通讯；当不同的客户端需要查看不同的视角时，带有不同session号的坐标会发送到服务器，服务器则会裁剪不同视角坐标的视频发送给相应的客户端，实现了多客户端通道的隔离。

本发明的基于姿态估计的全景监控下人体异常行为识别报警系统，利用全景摄像头实现360度视频的获取，首先利用基于深度学习的人体姿态估计算法提取人体的骨骼关键点坐标作为人体行为识别算法的特征输入，减少了光照对行为识别效果的影响；之后利用坐标组成包含空间信息和时间序列信息的时空图模型，模型中每个节点对应于人体的一个关节，同时包含两种类型的边，一种是符合人体关节自然连通性的空间边，另一种是跨越连续时间的时序边，之后对时空图进行多阶段的时空图卷积操作，提取高级特征，最后用SoftMax分类器进行行为分类，得到行为结果并判断是否为异常行为。本发明具有采集视野范围广、无盲区的特点，可实时处理全景监控系统下的人体异常行为检测，在异常行为刚刚发生时及时本地报警，且远程的管理者能够及时获得报警短信，同时可使用手机实时查看现场情况。通过本地、远程客户端的双重预警以及对接收到的异常行为视频的人为再判断，使管理者能够及时发现处理异常行为。本发明对应的方法主要依托计算机进行实现，不但节约了人力成本，还提高了视频的利用效率。360度全方位视角为区域管理者提供了沉浸式的环境再现，实时全面的把握现场细节，为突发情况的决策与处理提供了虚拟现场条件，做到提前预警，将损失降到最低。

虽然本发明的保护主题用特定的结构特征和/或方法进行了限定，要理解的是，本发明的保护主题不限于权利要求所描述的具体特征或行为。相反，权利要求中描述的特定结构特征和方法仅是本发明的示例。

Claims

1.一种基于姿态估计的全景监控下人体异常行为识别报警方法，包括如下步骤：

步骤1：获取全景监控视频，将视频以RTSP流的形式发送到服务器；

步骤2：使用VGG网络提取视频中图像的特征；

步骤4：选择步骤3中身体的18个关键点坐标构建时空图模型；

步骤8：本地监控者听到报警后可通过本地电脑显示器直接查看现场的情况，远程管理者接收到报警短信之后可通过手机APP或网页浏览器查看现场的情况；

步骤1中，全景监控设备通过网线与本地服务器相连，以RTSP流的形式将视频实时发送到服务器；步骤2中，使用VGG-19网络的前10层获取图像的特征，作为姿态估计网络的输入；步骤3中，姿态估计是自底向上的算法，先检测出所有人的骨骼关键点，再将关键点进行连接形成图，最后通过图优化的方法剔除错误连接，实现多人姿态估计；步骤4中，选取步骤3中获取的身体部位的18个关键点坐标，根据人体的自然连接与时序关系构建时空图模型；时空图模型有两种类型的边，一种是空间边，建立在每一帧人体骨架的自然连接点上，另一种是时序边，将连续两帧中相同节点连接起来，将行为序列的时间信息和空间信息整合起来；步骤5中，对步骤4构建的时空图模型进行时空图卷积操作；在进行卷积操作之前，引入注意力机制；在大规模图中由于节点较多，复杂的背景噪声会对图卷积性能产生不良影响；注意力模型更巧妙地利用图节点之间的相互联系，区分联系的层级，能够增强任务中需要的有效信息；表现在数学上就是某些属性拥有更高的权重，是一种加权平均；图卷积的核心思想是利用边的信息对节点进行聚合，从而生成新的节点表示；空间卷积部分，类比于图像的卷积，通过自定义的卷积核设计策略，使得卷积核直接被应用在图节点和它的邻居节点上，从而限制每一个滤波器只应用到一个节点的一个邻域；根据自定义卷积策略，重新定义采样函数和权重函数；时间卷积部分，由于形状固定，可以使用传统的卷积层完成时间卷积操作；最后，使用SoftMax分类器得到对应的动作类别；步骤6中，对步骤5中识别的动作类别与规定的异常行为相匹配，若未出现正确匹配，则返回步骤2，判断下一时间序列是否有异常行为发生；若出现正确匹配，则继续向下执行；步骤7中，步骤6出现了正确匹配，即出现了异常行为；本地的主机开始播放报警语音，并通过网络向阿里云短信服务平台发送通知，其中，阿里云短信服务平台已经设置好了接收短信的人员以及短信内容，此种情况下，本地安保人员和远程的管理者都能及时的收到异常行为的预警信号；步骤8中，相关人员通过步骤7接收到了报警信息，本地的安保人员可以即刻通过查看对应位置的全景摄像机全面掌握现场的情况，进行相关的人员部署与事件处理；同时，远程的管理者在收到报警短信之后，通过自己的手机APP或者网页浏览器查看现场情况。

2.根据权利要求1所述的基于姿态估计的全景监控下人体异常行为识别报警方法，其特征在于：步骤8中，远程全景视频的传输流程为：监控视频通过RTSP流的形式发送到电脑端，电脑端通过使用OBS推流工具将视频流推送到已经在亚马逊云上部署好的流媒体服务器，同时，在云端还部署了全景视频分发服务器；全景视频分发软件在收到流媒体服务器的视频流之后，通过视频分发功能发送给客户端相应视角的视频，客户端可通过滑动手机屏幕来转换观看视角，实时全面的扫描观看现场的全部视野范围；亚马逊云端全景视频分发服务器的功能为建立球模型，将流媒体服务器发送过来的视频流在球模型上进行投影，此种情况下将客户端虚拟到球模型的中心，类似于将客户虚拟到现场；客户端通过滑动改变视角，发送改变视角后的坐标到亚马逊云服务端，云服务端通过解析坐标在球模型上截取相应窗口大小的视频，编码压缩后发送给客户端，客户端通过解码后显示；远程客户端包括手机APP和网页客户端，都能实时播放RTSP流。