CN110147743A

CN110147743A - 一种复杂场景下的实时在线行人分析与计数系统及方法

Info

Publication number: CN110147743A
Application number: CN201910381879.1A
Authority: CN
Inventors: 宫法明; 马玉辉; 唐昱润; 徐燕; 袁向兵; 李昕; 李传涛
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-08-20
Anticipated expiration: 2039-05-08
Also published as: CN110147743B

Abstract

本发明提供一种复杂场景下的实时在线行人分析与计数系统及方法，其中方法为以视频信息作为输入，通过数据预处理将视频数据转换为连续的RGB帧图像，利用原始的SSD网络进行人员目标检测；然后，将生成的多个建议框输入到两个并行的分支网络中用于人体关键点检测，一个为堆叠沙漏网络，用于位置修正和优化目标检测生成的建议框结果；另一个为姿态卷积机。本发明通过对特定的复杂场景进行分析并建立了一套完整的解决方案和框架，利用人体关键点这一高级特征将多个领域的算法进行有机的整合，能够解决实际工程场景下的人员的目标检测与跟踪、人体关键点分析、人体动作识别和计数分析等问题，具有广泛的应用场景。

Description

一种复杂场景下的实时在线行人分析与计数系统及方法

技术领域

本发明属于行人分析技术领域，尤其涉及一种复杂场景下的实时在线行人分析与计数系统及方法。

背景技术

随着科技的不断进步与发展，行人分析技术广泛应用于公共场所的信息统计和相关应急措施，如人流量控制、商场布局参考和公共安防等，该技术不仅在智能监控系统中具有广泛的应用前景和巨大潜力，在计算机视觉中也是一个具有吸引力及挑战性的问题。行人运动的视觉分析是一个新兴前沿的研究领域，涉及智能辅助驾驶，运动捕捉、智能监控、人体行为识别与分析以及环境控制和监测等多个领域，可广泛应用于银行、学校、道路交通、医院等多个大型公共场所，具有重要的实际应用和科研价值。

近年来，行人分析技术进入了一个快速的发展阶段，但是也存在很多问题亟待解决，主要是在性能和速度方面还不能达到一个平衡。基于视觉的行人分析与计数是指在人不参与干预或者极少参与干预的条件下，分析由固定摄像头拍摄的静态图像或者图像序列，进而对行人进行目标检测与识别、目标跟踪、人体姿态识别、行人计数分析、人体动作识别与分析等多个方面的分析。传统的方法大多利用OpenCV内置的检测方法，如利用Hog变换和Haar人形检测进行目标检测，利用Meanshift和Camshift两种算法进行目标跟踪等，从检测效果来看，由于只是简单采用颜色直方图的信息，如果应用场所的背景较为复杂，则很难判断出该行人是否走出视野，难以进行后续的多方面分析，所以误检率是比较高的。此外，Camshift算法只能实现单目标跟踪，这就意味着不适合多人跟踪检测的场景。

随着深度学习技术等一些列新的理论和工具的不断涌现，目标检测与跟踪、人体动作识别等领域有了一定的发展，包括基于自适应行人模型的行人检测与计数的方法、基于群组上下文的行人分析与计数方法和基于卷积神经网络的行人分析算法等多种方法。基于自适应行人模型的行人检测与计数的方法使用轮廓信息对完整的行人以及行人局部进行建模，使用栅格模板判断行人躯干可见性，以及建立分支结构的行人分类器。由于局部检测子的引入和行人模型的自适应性，该方法可以在一定程度上处理简单场景下的遮挡问题。基于群组上下文的行人计数方法，通过背景减除算法提取前景图像，建立相邻图像帧中群组的相关性矩阵，用以检测、跟踪群组并识别给定群的群组关系。使用群组及其相关群组的前景图像建立群组上下文，整合时间和空间信息作为计数参考，从而引入历史信息以及更多的空间关联。该方法可以在一定程度上处理行人间遮挡、图像深度影响以及行人姿态的变化，但是在人体遮挡严重、姿态多变以及干扰物存在较多的实际工程场景中，现有方法的检测结果仍有待提高。

目前，对于行人分析虽然在目标检测与跟踪、人体动作识别等单个领域内有所突破，但是缺乏一套完整的解决方案和框架能够解决复杂场景下的行人分析与计数问题，各个功能模块之间只是孤立存在而不能进行有机的整合，导致数据信息难以传递和交叉处理，数据利用率不高，检测与识别的效果在实际工程场景中难以提升。此外，由于摄像头的拍摄角度受限和运动目标被复杂背景所遮挡等因素，导致目标检测与跟踪存在较大的困难，且面向单个摄像头对单个监控区域进行行人分析，往往受到复杂背景、光照和干扰物等因素的较大影响，不能很好地解决人体非刚性形变以及行人自身遮挡问题对检测结果带来的干扰。最后，由于高清摄像头的出现，海量视频数据对计算机的硬件要求也比较高，现有方法在性能和速度方面还不能达到一个平衡。在处理高分辨率的视频帧图像时，大多数算法都是进行离线分析，检测速度有所下降，无法在复杂场景下实现在线实时的行人分析与计数。

综上所述，目前大多数行人分析技术的研究仍是以简单场景下的数据集进行算法测试，并且应用背景也较为单一，不能很好地解决特定实际工程场景中的问题，所提出的方法要么过于简单，要么运算速度跟不上，难以应用于实时系统，缺乏建立一套实时高效的解决方案和框架，在如海洋采油平台这种复杂环境下的行人分析与计数问题的检测效果亟待提高。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷，提供一种复杂场景下的实时在线行人分析与计数系统及方法。

本发明采用如下技术方案：

复杂场景下的实时在线行人分析与计数框架其实现过程可主要分为基于多阶段深度并行网络(Multi-stage deep parallel network，MDPN)的关键点检测与估计和基于关键点的人体动作识别与分析。

本发明以视频信息作为输入，在数据预处理阶段通过将视频数据转换为连续的RGB帧图像，将原始的SSD网络作为人员目标检测的探测器，用以生成并提取目标建议框；然后，将生成的多个建议框输入到两个并行的分支网络中，一个为堆叠沙漏网络(StackedHourglass Network，SHN)，用于从一个不准确的建议框中提取一个高质量的单人目标区域，进而修正和优化第一阶段目标检测的结果，确保通过身体部位定位能够提取出所有人体可见的关键点；另一个为姿态卷积机(Convolutional Pose Machines，CPM)，通过姿态距离估计的测度去比较姿态的相似性，建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计，两个分支结合后产生的关键点信息会存在冗余检测，经过姿态非最大抑制(Non-Maximum-Suppression，NMS)消除冗余，得到最终人体的所有关键点坐标，再次，通过DeepSort算法解决复杂场景下多人员目标和技术与跟踪问题，同样可以使用对称空间变换网络去修正人员目标的数量和位置信息；最后，将连续视频帧图像中的人体关键点序列作为输入，通过构造多级帧间时空图对人体动作进行理解描述与研判分析，输出目标正在发生动作类别，有效解决了复杂场景下行人动作识别与分析的问题。

其中，SSD网络是一个用于目标检测的深度学习网络，具有检测速度快、精度较高的优点，该网络将目标建议框的输出空间离散化为一组根据不同长宽比和每个特征图位置缩放的默认框，默认框是在某一特征层上对每一个特征点根据预设的比例系数来产生，一般一个特征点能够产生6个不同大小的默认框。在预测期间，网络会在每个默认框中对每个对象的类别置信度计算其IOU，根据IOU来划分正负样本，通过计算其loss对默认框进行微调以更好地匹配对象形状。此外，网络还结合了不同分辨率的多个特征图的预测，能够自然处理各种尺寸的目标对象。

进一步的，基于多阶段深度并行网络的人体关键点检测的方法包括：

首先将第一阶段目标检测得出的目标建议框在长宽方向上各自拓展延伸其1/5，以确保抓取整个完整地人体，分割得到多个单人目标，将其同时输入到两个并行的分支网络中；然后通过对称空间变换网络(Spatial transformation network，STN)将延伸过的图像进行仿射变换，可以生成一个比较精确的，适合作为SHN网络输入的特征数据，把该网络的输出送入与前边相反的空间变换网络，将生成的关键点坐标变换回原来的坐标系中，完成所有人体可见的关键点的识别过程；此外，在另一个分支网络中需要进行相同的操作，也需要经过对称空间变换网络进行特征处理，不同于第一个分支网络的是将SHN网络换成姿态卷积机，通过使用高维空间的向量来编码不同关键点之间的关系，利用人体各部位矢量之间的位移长度建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计；最后，通过NMS的消除准则消除冗余的关键点信息，最终得到位移的人体所有关键点的坐标。

其中，空间变换网络的目标是得到鲁棒性良好的模型，经过图像处理后具有空间不变性，当目标发生某种转化后，模型依然能给出同样的正确的结果。网络输入设为U，输出设置为V，通过本地化网络处理后输出一个变化参数θ，表示为θ＝{a,b,c,d,e,f}，变化参数可记为6个参数变量，用来映射输入数据和输出数据之间的坐标点的关系，且与图像的平移、旋转和缩放等操作有关，那么仿射变换的过程可表示为：

式(1)中，(x,y)为原坐标值，(x′,y′)为经过变换的坐标值，以输出V中的所有坐标点为自变量，以变化参数θ为参数，做一个矩阵运算来逆推该公式，得到输入U中的坐标点信息，矩阵运算可表示为：

式(2)中，(x_i,y_i)记为输出V中的第i个坐标点，(x′_i,y′_i)记为输入U中的坐标值，U和V的维度可以不相同，根据实际情况而设置，U中的i是从V中对应过来的，表示V中的第i个关键点的坐标映射到U中的坐标，i跟U没有直接关系。由此公式可以定义一个填函数V_t(x,y)，直接根据V的坐标点取得对应到U中坐标点的像素值，而不再经过复杂耗时的矩阵预算，V_t(x,y)表示为：

式(3)中，i,j会遍历输入U中的所有坐标点，U_ij是指输入U中某个点的像素值，两个φ为参数，k( )为取样核函数，可以使用不同的方法来进行填充，若使用双线性插值，则可以得到不同的填充函数，如下式所示：

式(4)中，(x′_t,y′_t)表示V中第i个坐标点要到U中找到的对应点的坐标，取样核函数为双线性插值时，通过计算最大值实现坐标的仿射变换。

其中，SHN网络由多个堆叠的沙漏模块组成，为了反复获取不同尺度下图像所包含的信息，该网络通过重复进行自下而上和自上而下的方式推断以估计人体的关键点。对于一些局部信息，包括脸部和手部信息，卷积层和最大池化层会将特征缩放到很小的分辨率，然后再采用最近邻上采样的方式将两个不同的特征集进行逐元素相加，在每一次上采样的过程中相应就会有一个对应的池化层，得到沙漏网络模块输出后，在采用两个连续的V卷积层进行处理，得到最终的网络输出。在最后人体关键点估计时需要对整个人体做一个理解，因此需要结合不同尺度下的信息，包括人体的姿态、肢体的方位以及相邻关键点的关系。

其中，卷积姿态机通过构建多个卷积网络来预测人体部位的响应图，采用顺序化的卷积架构来表达空间信息和纹理信息，每一个卷积网络就是一个预测器，这些预测器被训练用来在每个图像位置进行人体部位预测。网络分为多个阶段，每一个阶段都有监督训练的部分，每一阶段使用原始图像作为输入，经过卷积网络提取特征，得到一组特征图以提取部位的响应图和亲和区域。亲和区域是通过一个2D向量集合来描述，每一个2D向量集合都会编码一个人体部位的位置和方向，将位置和方向信息存储在向量中，每一个向量都会在关联的两个人体部位之间计算一个亲和区域，其中的每一个像素都有一个2D向量的描述方向。后续阶段使用之前阶段的特征图作为输入，主要是为了融合空间信息、纹理信息和中心约束。另外，对同一个卷积架构同时使用多个尺度处理输入的特征和响应，既能保证精度，又考虑了各部位之间的远近距离关系。

其中，NMS的消除准则在多人的关键点检测与定位的过程中是十分有必要的，尤其是在复杂的场景中会不可避免地产生冗余的关键点，同时也会产生冗余的关键点间的链接，姿态非最大抑制的目标就是要消除这些冗余信息。首先，置信度最大的关键点被当做参考，与其相近的关键点通过一系列消除准则进行冗余消除，授予的关键点重复以上这个过程，这道多余的关键点被淘汰，只有唯一的一套人体关键点被确定，完成消除过程。假设P为分支网络输出的关键点信息，P包含m个人体关键点信息，m个关键点表示如下：

式(5)中，表示为第j个关键点的位置，表示为第j个关键点的位置评分，设置m＝18，此外，需要定义人体关键点的相似度来消除那些离得较近且比较相似的关键点，通过使用一种关键点距离度量D(P_i,P_j|Ω)来衡量关键点之间的相似度，Ω表示函数D(·)的一个参数集合，则消除淘汰标准可以定义为如下形式：

f(P_i,P_j|Ω,λ)＝D(P_i,P_j|Ω,λ)≤λ (6)

式(6)中，设置λ作为消除标准的阈值，当D(·)小于设定的阈值λ时，那么f(·)的输出是1，判定P_i相对于P_j应该被删除，因为对于参照的P_j来说P_i是冗余的，这里的判定标准是通过计算空间举例而定义的，具体表示如下：

式(7)中，F(·)为软匹配函数，G(·)为空间举例函数，是一个权重参数，用来平衡这两个函数，Δ表示3个参数的集合，σ₁和σ₂是定义的两个参数，自定义初始值，在测试中随着迭代得到自适应值，设关键点P_i的区域框是B_i，则软匹配函数可以表示如下：

式(8)中，tanh(·)为双曲正切函数，只有一个参数，可以过滤低置信度的关键点，当两个关键点的置信度都比较高的时候，上述函数的输出近似等于1，这个距离表示了多个姿态之间不同部位的关键点匹配数量，表示以关键点i为中心的区域位置，在维度上大约是整体图像的1/10；当关键点j不在关键点i的区域位置内，匹配函数的输出等于0，表示两者不匹配，则空间举例函数可以表示如下：

式(9)中，G(P_i,P_j|σ₂)主要表示2个关键点之间的空间举例度量，若离得比较近则函数的输出就较小，更容易判定是否为同一个关键点。

进一步，DeepSort算法是在Sort目标跟踪算法的基础上改进得到，引入了在行人重识别数据集上离线训练的深度学习模型，在实时目标追踪过程中，通过提取目标的表观特征进行最近邻匹配，可以改善复杂场景下有遮挡情况的目标追踪效果。同时，在一定程度上也减少了目标ID跳变的问题。

进一步，多级帧间时空图构造的方法包括：

从输入的人体关键点序列中建立时空图，在每一帧内部，按照人体的自然骨架连接关系构造空间图，同时将相邻两帧的相同关键点连接构成时序边，所有输入帧中的关键点构成节点集V＝{v_ti|t＝1,2...T,i＝1,2...N}，包含关键点序列上的所有的关节点，其中，T表示视频帧数，N表示人体所有关键点的个数；所有的有向边构成边集E，边的集合E有两个子集组成，分别是每一视频帧帧内关节点的链接E_s＝{v_tiv_tj|(i,j)∈P}以及不同视频帧帧间的链接E_t＝{v_tiv_(t+1)i}，其中，P表示人体所有关键点的集合，i,j分别是关键点集合中的两个任意关节，充分利用了空间结构信息和时序结构信息。通过自然地保留骨架关键点的空间信息，使得关键点的运动轨迹以时空图G＝(V,E)的形式表现。

在时空图上使用多层图卷积操作以提取高层特征，并逐渐在图像上生成更高级的特征图，由此判断时空图节点的领域子集个数，并设计对应的空间划分规则及确定使用的规则，最后利用标准的Softmax分类其实现复杂场景下的人体动作识别，输出动作类别标签和相应的动作评分。

优选地，在判断时空图节点的邻域子集个数时，把中心像素相邻的像素集合，即领域集按照空间顺序划分为一系列集合O，每个集合正好包含图像一个像素，这些集合构成了邻域集的一个划分，若将节点的1领域划分为一个子集，标记为唯一划分；若将节点的1领域划分为三个子集，包括节点本身、空间位置上比本节点更靠近整个骨架重心的邻节点集合以及更远离重心的邻节点集合，根据运动分析对向心运动与离心运动进行定义，标记为空间构型划分。

本发明的有益效果：

(1)本发明通过对特定的复杂场景进行分析并建立了一套完整的解决方案和框架，利用人体关键点这一高级特征将多个领域的算法进行有机的整合，能够解决实际工程场景下的人员的目标检测与跟踪、人体关键点分析、人体动作识别和计数分析等问题，具有广泛的应用场景。

(2)本发明的方法能够应用于海洋平台这个复杂场景中，对同一工作人员目标在该区域内运动超过一定时间的事件进行徘徊检测，实现了精准的行人分析与计数，并在特定的实际应用场景中首次尝试将人体关键点信息与人员目标检测和跟踪等任务相结合，提高了单一网络的检测效果，降低了受复杂背景环境等噪声的影响。

(3)本发明的方法针对海上石油平台中采油设备密集，且工作人员在视频中多受密集管道所遮挡的问题，通过利用人体各部位矢量之间的位移长度建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计，适用于人体遮挡严重和干扰物较多的实际工程场景中。同时，由于对网络结构进行优化以及选用对存储的要求低的关键点信息作为主要特征，基于帧级的动作识别与分析可以直接从原始视频中训练与检测，且具有速度快、精度高的优点，能够实现复杂场景下的实时在线行人分析与计数系统。

附图说明

图1为本发明的实施例提供的复杂场景下的实时在线行人分析与计数方法的流程图；

图2为本发明实施例提供的基于多阶段深度并行网络的人体关键点检测的流程图；

图3为本发明实施例提供的复杂场景下的实时在线行人分析与计数系统的架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种复杂场景下的实时在线行人分析与计数系统，由交互层、功能模块层、服务层和数据访问层构成。

底层为数据访问层，安装在本地工控机上，完成对本地数据库表的封装操作，将识别出的动作类别、开始与结束时间等信息，形成识别记录并上传至数据库，同时将相应的视频保存到本地服务层，数据库表内包括视频信息数据、检测模型数据和识别信息数据，负责存储各层的数据，为功能服务提供数据支持。

数据访问层上层为服务层，安装在本地工控机上，对GPU的性能要求较高，用于处理主要的业务逻辑层，封装用户的业务逻辑服务，利用建立的深度学习框架处理视频信息数据，提供人体动作识别与分析的服务，为功能模块层的搭建提供算法支撑。

服务层上层是功能模块层，安装在本地工控机上，主要实现系统的功能模块，包括人员检测与跟踪、关键点分析、行人计数分析以及人体行为的识别与分析，将各大功能模块有机地结合在一起，为服务层算法的调用提供接口，便于人机交互层的数据显示。

最上层是人机交互层，部署在中心服务器上，用于完成系统界面的设计与显示数据的输入输出，负责界面的效果展示以及为用户提供对系统简单的交互操作，对于识别出的人员工作状态，系统会给出提示报警信息，值班人员通过对识别信息进行查看并处置，处置后的信息存储到数据库中。

如图1所示，本发明的复杂场景下的实时在线行人分析与计数方法，包括以下步骤：

通过对摄像头列表树中的摄像头进行数据获取，获取得到视频图像，以视频信息作为输入，通过数据预处理将视频数据转换为连续的RGB帧图像，利用原始的SSD网络进行人员目标检测；然后，将生成的多个建议框输入到两个并行的分支网络中用于人体关键点检测，一个为堆叠沙漏网络(Stacked Hourglass Network，SHN)，用于位置修正和优化目标检测生成的建议框结果；另一个为姿态卷积机(Convolutional Pose Machines,CPM)，通过建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计；经过姿态非最大抑制(Non-Maximum-Suppression，NMS)消除冗余关键点坐标，得到最终人体的所有关键点；再次，通过DeepSort算法解决复杂场景下多人员目标的跟踪与计数问题；最后，通过构造多级帧间时空图对人体动作进行分类与识别，输出目标的动作类别，开始与结束时间，形成识别记录并上传至数据库，同时将相应的视频保存到本地服务器。对于识别出的人员工作状态，系统会给出提示报警信息，值班人员通过对识别信息进行查看并处置，有效解决了复杂场景下行人动作识别与分析的问题。

如图2所示，为提供的基于多阶段深度并行网络的人体关键点检测的结构图，包括以下步骤：

将目标检测其得到的多个人员建议框作为网络输入，通过将原始图像拓展延伸以确保可以把整个人体完整框取出来，分割得到多个单人目标，将其送入多阶段深度并行网络；包括两个并行的分支网络；分支结构较为相似，第一个分支经过STN空间变换网络，生成一个比较精确的、适合作为SHN网络输入的特征数据，再进行一个与前边相反的STN变换，将坐标变换回原来的坐标系，即网络结构为STN+SHN+DSTN，第二个分支由一个STN网络、一个CPM网络和一个反向的STN网络组成，通过使用高维空间的向量来编码不同关键点之间的关系，利用人体各部位矢量之间的位移长度建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计，完成整个识别过程；最后，通过Pose NMS的消除冗余的关键点信息，得到唯一的一套特难题关键点的坐标。

如图3所示，为实施例提供的复杂场景下的实时在线行人分析与计数系统的架构图，包括以下步骤：

复杂场景下的实时在线行人分析与计数系统的架构主要可以分为四层，底层是数据访问层，封装对数据库表的操作，主要包括视频信息数据、检测模型数据和识别信息数据，上一层是服务层，助理主要的业务逻辑层，封装用户的业务逻辑服务，即提供人体动作动作识别与分析的服务；动能模块层主要实现系统的功能模块，包括各大功能模块有机的结合在一起；最上层是人机交互层，完成系统界面的设计与显示及数据的输入输出，负责界面的效果展示以及为用户提供对系统简单的交互操作。通过对系统框架进行分析与设计，为解决复杂场景下的行人分析与计数问题而建立了一套完整的解决方案和框架。

实施例

进一步地，根据本发明一实施例，本发明建立了一套符合油田特定场景的实时在线行人分析与计数模型，能够实现安全事件的主动发现，增强了对异常情况的快速反应能力。

针对海上石油平台这一特定场景，通过对摄像头列表树中的摄像头进行数据获取，获取得到视频图像。各个海洋平台上的监控设备保持固定不动，以海洋工作平台作为监控场景，并通过微波的方式将实时的监控视频传输并存储到流媒体服务器中。在原始视频库数据集上，使用关键帧图像提取法选取带有目标的图像数据集，即在1秒的间隔内将首帧、中间帧和尾帧视为关键帧图像，然后通过人工标注图像形成目标检测所使用的标签数据库。该数据库存储了目标的标签类型和位置信息，包含了4万张目标图像，由406路摄像头采集各个场景的图像组成，并将视频数据转换为连续的RGB帧图像，利用原始的SSD网络进行人员目标检测；利用搭建出深度学习框架运行并行的分支网络以获取人体关键点，分支网络由一系列预测器组成，分成多个阶段，每个阶段为人体每个部位重复生成置信图，每一张置信图包含某一种关键点，该置信图与原始图像特征同时用作下一阶段的输入，预测各部位的位置，进而确定人体各关键点的位置，人体关键点检测形成的点集数据存储了关键点序列，包括图像的名称、人体18个关键点以及关键点的坐标序列。并在此基础上进行模型构建，实现了人员目标检测与识别、目标跟踪、人体关键点分析、行人计数。

对于人体的动作进行分析时更多关注的是局部细节动作，但在视频监控中细节动作特征往往表现得并不明显。通过层次化处理人体关键点坐标得到粗分类动作，在此基础上完成动作识别任务，这种方式也具有较好的识别能力。首先，通过判断人体部位关键点位置变化的缓慢程度，将动作粗分类为头部动作、上肢动作、躯干动作和下肢动作。对于不同类别的动作，轨迹关注点亦不相同。对于上肢和下肢动作，主要关注手部和腿部的关键点轨迹变化，而对于躯干动作，往往关注身体中心的关键点轨迹变化。然后，通过卷积姿态机算法得到每组粗分类动作的关键点序列，完成人体动作的分类。

对于局部细节动作的识别，用粗分类动作的关键点序列表示动作轨迹，通过叠加多帧光流得到密集光流轨迹。本发明根据两个不同的识别流从空间和时间的角度通过连接各个局部动作片段的特征描述整个动作序列。空间流在单帧静态图像上将每个轨迹点映射到人体关键点上，时间流以密集光流的形式从运动中识别动作，利用动作轨迹和光流轨迹的叠加作为动作信息。前者考虑整个序列中初始帧中每个点的位移，而后者侧重于连续帧之间每个点的位移。最后，通过比较两轨迹间的相似性，完成动作分类和识别任务。

将识别出的动作类别、开始与结束时间等信息，形成识别记录并上传至数据库，同时将相应的视频保存到本地服务器。对于识别出的人员工作状态，系统会给出提示报警信息，值班人员通过对识别信息进行查看并处置。

通过系统测试，本发明建立的复杂场景下的实时在线行人分析与计数系统能够实现海上石油平台全天候的实时视频监控，以及异常行为的视频辅助分析和安全事件的预警报警，并取得了较好的实际效果，可以减少人工干预的时间，避免了因人身意外和违规操作生产而造成的经济损失，从而保障了工业的安全生产，节省了人力物力，提高了生产管理水平。

本发明该实施例中利用人体关键点坐标不受复杂背景环境等噪声影响的特点，为解决复杂场景下的行人分析与计数问题而建立了一套完整的解决方案和框架，该框架在人体关键点分析的基础上实现了人员的目标检测与跟踪、人体动作识别和计数分析等功能，利用关键点坐标信息将各大功能模块有机地结合在一起，通过提供了在一个动作中身体运动的高层次信息，基于人体关键点的动作识别在复杂的工程场景中取得了较好的识别效果。

(1)本发明利用人体关键点坐标作为辅助信息，将其与人员目标检测和跟踪任务相结合，利用深度学习技术可以通过训练得到关键点与人员目标之间的复杂映射关系，从而提取更为复杂的高阶特征代替传统的SIFT、HOG等人工特征。此外，结合图结构模型构建动态的骨架模态可以自然地表达时间序列下的人体关键点的位置，具有更强的鲁棒性和表达能力，因此，在复杂背景环境下相较于单一神经网络模型的方法，本发明的方法能够显著提高复杂场景下人员目标检测的效果，为下一阶段的人体动作识别提供了可靠的数据信息。

(2)对于目标被干扰物遮挡等问题，本发明通过使用高维空间的向量来编码不同关键点之间的关系，利用人体各部位矢量之间的位移长度建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计，最终得到人体所有关键点的详细信息。此外，由于目标检测存在一定的误差，则可以通过在不同尺寸的特征图上提取特征，然后将不同尺寸的特征图进行融合以提取到多尺度的特征，最终得到完整的人员目标，以便提取到人体的所有关键点的坐标，提高了人体动作识别的准确率。

(3)对于框架性能和检测速度的问题，由于关键点信息包含了人体姿态的全部信息，能够从坐标数据中解析出更多有使用价值的信息。此外，关键点信息由于对存储的要求低，则可以将其全部输入到神经网络，因此，基于帧级的动作识别与分析可以直接从原始视频中训练，且具有速度快、精度高的优点，能够实现复杂场景下的实时在线行人分析与计数系统，具有广泛的应用场景。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种复杂场景下的实时在线行人分析与计数系统，其特征在于，由交互层、功能模块层、服务层和数据访问层构成；

底层为数据访问层，安装在本地工控机上，完成对本地数据库表的封装操作，将识别出的动作类别、开始与结束时间等信息，形成识别记录并上传至数据库，同时将相应的视频保存到本地服务层，数据库表内包括视频信息数据、检测模型数据和识别信息数据，负责存储各层的数据，为功能模块层的服务提供数据支持；

数据访问层上层为服务层，安装在本地工控机上，用于处理主要的业务逻辑，封装用户的业务逻辑服务，利用建立的深度学习框架处理视频信息数据，提供人体动作识别与分析的服务，为功能模块层的搭建提供算法支撑；

服务层上层是功能模块层，安装在本地工控机上，主要实现系统的功能模块，包括人员检测与跟踪、关键点分析、行人计数分析以及人体行为的识别与分析，将各大功能模块有机地结合在一起，为服务层算法的调用提供接口，便于人机交互层的数据显示；

最上层是人机交互层，部署在中心服务器上，用于完成系统界面的设计与显示数据的输入输出，负责界面的效果展示以及为用户提供对系统简单的交互操作，对于功能模块层识别出的人员工作状态，系统会给出提示报警信息，值班人员通过对识别信息进行查看并处置，处置后的信息存储到数据访问层数据库中。

2.一种复杂场景下的实时在线行人分析与计数方法，其特征在于，包括步骤：

步骤1.通过对摄像头列表树中的摄像头进行数据获取，获取得到视频图像，以视频信息作为输入，通过数据预处理将视频数据转换为连续的RGB帧图像，利用原始的SSD网络进行人员目标检测；

步骤2.将生成的多个建议框输入到两个并行的分子网络中用于人体关键点检测，一个是堆叠沙漏网络，用于位置修正和优化目标检测生成的建议框结果，另一个为姿态卷积机，通过建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计；

步骤3.经过姿态非最大抑制消除冗余关键点坐标，得到最终人体的所有关键点；

步骤4.通过DeepSort算法解决复杂场景下多人员目标的跟踪与技术问题；

步骤5.通过构造多级帧间时空图对人体动作进行分类与识别，输出目标的动作类别，开始与结束时间，形成识别记录并上传至数据库，同时将相应的视频保存到本地服务器，对于识别出的人员工作状态，系统会给出提示报警信息，值班人员通过对识别信息进行查看并处置，有效解决了复杂场景下行人动作识别与分析的问题。

3.根据权利要求2所述的一种复杂场景下的实时在线行人分析与计数方法，其特征在于，所述步骤2中人体关键点检测包括：

将目标检测器得到的多个人员建议框作为网络输入，通过将原始图像拓展延伸以确保可以把整个人体完整地框取出来，分割得到多个单人目标，将其送入多阶段深度并行网络，包括两个并行的分支网络，分支结构较为相似，第一个分支经过STN空间变换网络，生成一个比较精确的、适合作为SHN网络输入的特征数据，再进行一个与前边相反的STN变换，将坐标变换回原来的坐标系，即网络结构为STN+SHN+DSTN；第二个分支由一个STN网络、一个CPM网络和一个反向的STN网络组成，通过使用高维空间的向量来编码不同关键点之间的关系，利用人体各部位矢量之间的位移长度建立关键点之间的相对位置关系，从而实现人体不可见关键点的预测与估计，完成整个的识别过程；最后，通过Pose NMS的消除冗余的关键点信息，得到唯一的一套人体关键点的坐标。

4.根据权利要求2所述的一种复杂场景下的实时在线行人分析与计数方法，其特征在于，所述步骤4中DeepSort算法是在Sort目标跟踪算法的基础上改进得到，引入了在行人重识别数据集上离线训练的深度学习模型，在实时目标追踪过程中，通过提取目标的表观特征进行最近邻匹配，可以改善复杂场景下有遮挡情况的目标追踪效果，同时，在一定程度上也减少了目标ID跳变的问题。

5.根据权利要求3所述的一种复杂场景下的实时在线行人分析与计数方法，其特征在于，步骤5中多级帧司空图构造的方法包括：从输入的人体关键点序列中建立时空图，在每一帧内部，按照人体的自然骨架连接关系构造空间图，同时将相邻两帧的相同关键点连接构成时序边，所有输入帧中的关键点构成节点集V＝{v_ti|t＝1,2...T,i＝1,2...N}，包含关键点序列上的所有的关节点，其中，T表示视频帧数，N表示人体所有关键点的个数，所有的有向边构成边集E，边的集合E有两个子集组成，分别是每一视频帧帧内关节点的链接E_s＝{v_tiv_tj|(i,j)∈P}以及不同视频帧帧间的链接E_t＝{v_tiv_(t+1)i}，其中，P表示人体所有关键点的集合，i,j分别是关键点集合中的两个任意关节，充分利用了空间结构信息和时序结构信息，通过自然地保留骨架关键点的空间信息，使得关键点的运动轨迹以时空图G＝(V,E)的形式表现；

在时空图上使用多层图卷积操作以提取高层特征，并逐渐在图像上生成更高级的特征图，由此判断时空图节点的领域子集个数，并设计对应的空间划分规则及确定使用的规则，最后利用标准的Softmax分类器实现复杂场景下的人体动作识别，输出动作类别标签和相应的动作评分。

6.根据权利要求4所述的一种复杂场景下的实时在线行人分析与计数系统及方法，其特征在于，在判断时空图节点的领域子集个数时，把中心像素相邻的像素集合，即领域集按照空间顺序划分为一系列集合O，每个集合正好包含图像一个像素，这些集合构成了领域集的一个划分，若将节点的1领域划分为一个子集，标记为唯一划分；若将节点1的领域分为两个子集，即节点本身的子集与邻节点子集，标记为基于距离的划分；若将节点的1领域划分为三个子集，包括节点本身、空间位置上比本节点更靠近整个骨架重心的邻节点集合以及更远离重心的邻节点集合，根据运动分析对向心运动与离心运动进行定义，标记为空间构型划分。