CN112487926A

CN112487926A - 一种基于时空图卷积网络的景区投喂行为识别方法

Info

Publication number: CN112487926A
Application number: CN202011344103.1A
Authority: CN
Inventors: 詹瑾瑜; 田磊; 江维; 范翥峰; 其他发明人请求不公开姓名
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-12

Abstract

本发明公开一种基于时空图卷积网络的景区投喂行为识别方法，应用于目标识别领域，针对现有技术在不文明投喂行为识别中存在的检测精度不高的问题；本发明采用时空图来表达人体骨骼，将人体关节点设置两类边，分别用来表达空间和时间特性，并对其进行卷积；最后采用分类网络得到识别结果，同时采用计数的方式来克服偶然误检的问题；本发明的方法能够有效识别不文明的投喂行为。

Description

一种基于时空图卷积网络的景区投喂行为识别方法

技术领域

本发明属于目标识别领域，特别涉及一种行为识别技术。

背景技术

随着人们生活水平的不断提高，出行旅游的人数也是在逐年增加。伴随而来的不文明行为问题激增，在这些不文明行为中投喂的问题解决方法更是成为大家的关注重点。在传统解决这方面的手段，通常是使用视频监控的方式，再通过安保人员识别出这些行为。虽然减少了巡逻比重，以及提高了一个人的效率。但是这种传统的视频监控方式仍然有很多不足之处。第一、即使一个人能同时看很多很多个监控场景，但是人的精力有限，并不能长时间的集中精力，因此出错的情况很多。第二、虽然不文明行为频繁发生，但是在整个工作时间内发生的时间不足3％，因此使用人力来进行识别容易让人疲倦以及产生侥幸心理。第三、虽然监控的出现已经提高了人员利用效率，但是当前的传统监控系统仍然需要投入大量的人力资源，并且效率依旧不高。

随着技术手段的高速发展，如何将深度学习应用到各类安全场景中也是很多人的工作重点。在提取视频中有用的信息的工作中，人体动作识别发挥着重要的作用。基于深度学习的视频中的动作识别任务中，由于视频中的目标在运动，因此如何处理由此产生的变化成为了工作的难点。同时视频中目标的动作存在时序关系，如何利用这一特征达到更好的效果也是关注的重点。人体动作识别有着外观、光流、深度和身体骨骼等多个模态，将这些模态相互利用从而达到更好的人体动作识别是当前目标。目前针对视频中人体行为识别主要有以下几个难点：1)由于现实中的人体动作是一个连续的过程，视频则是通过多张静态图片得到的，由于快门闭合速度的原因会出现人体的多个动作被合为一张图片的情况，产生了动作模糊，因此不容易进行分辨。2)由于对焦问题造成了对我们需要识别的目标产生了模糊，甚至使视频整体产生模糊，产生了虚焦问题。3)我们需要识别的目标运动到一些物体后方，产生了遮挡。4)由于我们摄像头位置通常是固定的，当人体从远处运动到近处会产生尺度变化。

在这种大背景下，使用深度学习的人体行为识别方法来与传统的视频监控系统结合的监控技术已经成为主流趋势。对于景区中出现的投喂行为，我们采用深度学习的方法来实现人体行为识别，并且采用多种网络结合的方法来达到更好的识别效果，其主要特点是能更好的利用视频中的空间和时间特性。

发明内容

为解决上述技术问题，本发明提出一种基于时空图卷积网络的景区投喂行为识别方法，采用深度学习方法，对实时监控视频中出现的投喂行为进行检测，当投喂行为发生时，发出预警，实现景区针对不文明行为的高效管理。

本发明采用的技术方案为：一种基于时空图卷积网络的景区投喂行为识别方法，包括：

S1、对监控视频进行预处理，具体的：将摄像头实时监控视频流截取为视频文件，并将视频文件按照每秒25帧截取为系列图片帧；

S2、通过卷积神经网络提取经步骤S1处理后的图片帧中的人体关节点数据；

S3、根据步骤S2的人体关节点数据得到人体关节坐标向量，将得到的人体关节坐标向量经过时空图卷积网络来提取到动作特征；

S4、通过分类网络和精调得到动作类别，若存在投喂动作则触发报警。

进一步地、所述步骤S1包括以下子步骤：

S11、将得到的实时监控摄像头得到的视频流用多个尺度进行分割，然后将各个尺度的视频段进行16帧随机采样；

S12、利用ffmpeg对步骤S11处理过的视频文件进行每秒25帧进行截取。

进一步地、所述步骤S2包括以下子步骤：

S21、将输入的图片帧经过卷积神经神经网络提取特征得到一组特征图，根据特征图得到一组关节点置信图(Part Confidence Maps)和关节点亲和场(Part AffinityFields)；

S22、基于关节点置信图和关节点亲和场，使用偶匹配(Bipartite Matching)连接同一个人的关节点，最终得到人体关节点数据。

进一步地、所述步骤S3包括以下子步骤：

S31、将人体关节点数据作为输入，构建人体骨骼时空图G＝(V,E)；

S32、将关节坐标向量输入时空卷积网络模型(ST-GCN)中，交替的使用图卷积网络(GCN)和时间卷积网络(TCN)来对时间和空间维度进行变换，最终得到特征向量；

S33、通过注意力模型(ATT)对不同躯干进行加权，进行图卷积，提取到动作特征。

进一步地、所述步骤S4包括以下子步骤：

S41、通过平均池化、全连接层来对动作特征进行分类，得到动作类别；

S42、当第一次识别出投喂动作开始计数，后续25帧计数达到某个阈值，阈值一般取10～20之间，若超过则判定为有投喂行为，触发报警。

还包括对分类进行优化，以此提高识别准确率，分类使用SoftMax分类器，对这个模型学习使用随机梯度下降法，学习率设置为0.1。

本发明的有益效果：本发明的人体行为识别技术克服了遍历规则的局限性，能够自动学习视频中的空间和时间特性，从而更好理解人体行为。采用时空图来表达人体骨骼，将人体关节点设置两类边，分别用来表达空间和时间特性，并对其进行卷积。最后采用分类网络得到识别结果，同时采用计数的方式来克服偶然误检的问题，达到更好的预警效果。

附图说明

图1为本发明的基于时空图卷机网络的景区投喂行为识别方法的流程图；

图2为本发明的基于时空图卷机网络的景区投喂行为识别系统框图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示，本发明的基于时空图卷积网络的景区投喂行为识别方法，包括以下步骤：

S1、对监控视频进行预处理，实现了视频获取与视频分割，将摄像头实时监控视频流截取为视频文件，并将视频文件按照每秒25帧截取为系列图片帧；

S11、将得到的实时监控摄像头得到的视频流用多个尺度进行分割，使我们得到的视频段尽量覆盖视频中所有的动作，同时还能解决视频中场景内容变化过快导致的误检和漏检，最后将各个尺度的视频段进行16帧随机采样得到的视频段为最终视频文件为后续工作使用。

在实际监控视频中，由于视频中的人会出现有快速运动造成运动模糊问题以及光线变化导致视频特征发生变化，从而导致误检、漏检。因此我们需要对监控视频流进行多个尺度进行分割。

主流的视频分割方法有基于直方图的方法和像素差异法。基于直方图的方法是通过将相邻帧的各点像素的灰度、亮度或颜色分为N个等级，将每个等级做成直方图来进行比较。像素差异法通过预先设定好的差异阈值与连续两帧图像的像素差异进行比较，大于阈值则视为特征发生变化。这两种方法在慢速运动有着比较好的表现，在监控摄像头中目标快速变化或者渐变可能会引起误检或漏检。

在本系统中，我们采用了多尺度生成视频段的方式，使得可以更全面的覆盖整个视频。首先，视频当中的每一帧都被重新设置大小到H×W，作为第一阶段的输入。对于没有处理过的视频序列X，本系统利用滑动窗口的方式从起始帧开始，分别采样16帧，32帧，64帧，128帧，512帧，在每个尺度的采样中覆盖率为75％，假设在16帧尺度下进行采样，那么第二次采样是从第5帧开始。最后，对于一个未处理过的视频序列X，通过多尺度采样的方法得到一系列的视频片段

s_h为第h个滑动窗口的视频，H为所有的视频帧片段的总数，s_t为视频片段的开始时间，s_e为视频片段的结束时间。在各个尺度的视频段生成以后，本系统对每一个尺度的视频序列段随机采样16帧视频段作为最终视频文件的输入。

S12、从生成的视频文件中，采用ffmpeg，对视频文件进行每秒25帧的截取，得到一系列连续图片帧，用做行为检测模型的输入。

S2、对视频预处理得到的图片经过经过卷积神经网络提取视频中的人体关节点数据

S21、将输入的视频图像帧经过卷积神经神经网络提取特征得到一组特征图，得到一组关节点置信图(Part Confidence Maps)和关节点亲和场(Part Affinity Fields)。

进行人体行为识别通常有五个状态：是否有人、人在哪、人是谁、人处于什么状态、人在做什么。进行人体行为识别常用的方法是一种自上而下的方法，即人物检测+姿态估计。这种方法的确点在于姿态估计完全依赖于人物检测的结果，同时运行开销与人数成正相关，在景区人数众多场景并不适用。因此在此部分我们采用一种自下而上的方法，即将识别出的人体关节连接成人的方式来提取人体关节点数据。自下而上的方法的鲁棒性更强，同时还能将运行开销与人数分离开来，但同时带来了无法利用全局的上下文信息，为了克服这个问题，我们将输入图像经过vgg19前十层进行特征提取，然后分为两个分支分别预测关节点置信度和亲和度向量。通过使用关节点亲和场L(Part Affinity Fields)来设置图像中四肢位置和方向的2D矢量，同时使用关节点置信图S(Part Confidence Maps)标记每个关键点的置信度来联合学习关键点位置和它们之间的联系。设输入图像尺寸为w*h，集合S＝(S1,S2,S3…,SJ)有J个置信图，每个关节一个置信图。集合L＝(L1,L2,L3…,LC)有C个向量场，每个肢体一个。

S22、利用上述信息使用偶匹配(Bipartite Matching)连接同一个人的关节点，最终得到人体关节点数据。

针对偶匹配，利用贪婪分析算法(Greed parsing Algorithm)来推断这些自下而上的检测和关联方式。首先由关节点置信图得到离散的候选部位：

其中

表示第j类身体部位的第m个关节点位置，N_j表示表示检测出j关节点(例如：左肩、右膝盖)的数量。我们匹配的目标是将候选部位和同一个人的其他候选目标进行连接，定义变量

表示部位

和

之间是否有连接，所有候选部位连接集合

N_j1、N_j2表示j1、j2类关节点的数量。单独考虑某一人体的所有对应的两个身体部位j1,j2，为了找到总亲和度最高的图匹配方式，定义总亲和度为：

其中，Ec表示第c个肢体匹配的总权重，C为肢体数。

其中，E_mn为d_j1和d_j2之间的亲和力。

其中，L_c为在图像中所有人的亲和场在关节亲和场的真值(groundtruth)，p(u)为d_j1和d_j2的插值，计算式为：

p(u)＝(1-u)d_j1+ud_j2

在p点处L_c,k(p)为：

v为肢体方向的单位向量：

x_j1,k和x_j2,k为第k个人的肢体c的j1，j2身体部位的真值(groundtruth)

从而在获得高质量的结果的同时消耗较小的计算成本，从而达到实时的功能。

S3、将得到的人体关节坐标向量经过时空图卷积网络来提取到动作特征；

S31、将人体关节点数据作为输入，构建人体骨骼时空图G＝(V,E)。

上一部分通过卷积神经网络将所有关节的坐标向量串联了起来，形成了每帧的特征向量，在此部分中，通过利用时空图来形成骨骼序列的层次表示。构件一个无向时空图G＝(V,E)，具有N个关节和T个框架的骨架序列，具有身体内部和框架之间的连接。结点集合V＝{N_ti|t＝1,2….,T,i＝1,…,N}，其中t表示帧数，i表示关节点编号。关节点上的第t帧、第i个关节点的特征向量F(v_ti)是由关节点的坐标和置信度构成。然后分别使用两步来构建骨骼序列的时空图。第一步，在同一帧下，按照人体的自然骨架连接关系构成空间图。第二步，在连续帧之间的相同关键点进行链接。因此，边的集合E由两个子集组成，第一个子集是每一帧帧内骨骼点链接E_s＝{v_tiv_tj|(i,j)∈H}，H表示某一人体关节点的集合。第二个子集表示不同帧之间的链接，E_T＝{v_tiv_(t+1)i}.其中每一条边表示一个特定的关节随时间移动的轨迹。

S32、将关节坐标向量输入时空卷积网络模型(ST-GCN)中，交替的使用图卷积网络(GCN)和时间卷积网络(TCN)来对时间和空间维度进行变换，最终得到特征向量。

在图像中传统卷积的方法，给定卷积核大小为K*K，通道数为C，输入图像特征f_in，单个通道在空间位置x处的输出可以表示为

在骨骼图中，没有类似图像一样的相邻像素位置关系，因此我们使用公式B(v_ti)＝{v_tj|d(v_tj,v_ti)≤D}，其中D＝1，为关节点1邻集,因此p(v_ti,v_tj)＝v_tj。w(v_ti,v_tj)＝w′(l_ti(v_tj)).其中

其中ri表示所有关节的平均坐标，即骨架重心。用此将邻居集划分为三个子集：根节点本身，比根节点更靠近骨架重心的相邻节点，比根节点更远离骨架重心的相邻节点。利用改进过的采样函数和权重函数可以得到空间图卷积函数为

图卷积(GCN)帮我们学习到了空间中相邻关节的局部特征,再考虑上时间因素，进行时间卷积(TCN)，同一个关节点的不同帧构成的集合为B(v_ti)＝{v_qj|d(v_tj,v_ti)≤k,

采样函数不变，权重函数改动l_ti(v_tj)为

卷积核大小为时间核*1，每次完成一个节点，时间核大小个关键帧的卷积，每次移动一帧，完成一个节点后进行下一个节点的卷积。将输入的数据归一化后经过9个ST-GCN单元，每一个ST-GCN采用Resnet结果，前三层的输出有64个通道，中间三层有128个通道，最后三层有256个通道。

S33、在图卷积之前，通过注意力模型(ATT)对不同躯干进行加权，以此更好的识别出投喂行为。

此为上一个步骤的补充，在进行图卷积之前，我们通过一个注意力模型，因为人的行为中，不同的身体躯干的重要性不同，因此对不同躯干进行加权，以此来更好的识别投喂行为。

S4、通过分类网络和精调得到动作类别并报警。

S41、对上一阶段得到的特征通过平均池化、全连接层来对特征进行分类，得到动作类别。

对时空卷积图进行平均池化的操作目的在于汇总关节点的特征来表示时空图的特征。由于均值的鲁棒性较好，这里我们选择了对节点求均值的操作。

S42、当第一次识别出投喂动作开始计数，后续25帧计数打到某个阈值，则判定为有投喂行为，进行报警。

为了避免一些难以预料的人为因素和环境因素造成的误检和漏检，在这里我们设置某一个阈值，在检测到投喂行为的那一帧开始后续25帧中若再次检测到该行为则加一，超过这个阈值则报警，从此来解决这个问题，而且25帧时间也极短，实际中对实时要求并没有太多影响。

S43、分类使用SoftMax分类器，对这个模型学习使用随机梯度下降法学习率设置为0.1。

目标函数如下：

z_i为第i个节点的输出值，C为输出节点个数。

如图2所示为本发明的景区投喂行为识别系统，包括视频预处理与基于时空卷积网络的行为检测模型实现两大部分，视频预处理部分具体包括：视频获取单元与视频分割单元，基于时空卷积网络的行为检测模型实现部分具体包括：人体关节点提取网络、动作特征提取网络以及动作分类和精调网络。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，所述步骤S1包括以下子步骤：

3.根据权利要求1所述的一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，所述步骤S2包括以下子步骤：

S21、将输入的图片帧经过卷积神经神经网络提取特征得到一组特征图，根据特征图得到一组关节点置信图和关节点亲和场；

S22、基于关节点置信图和关节点亲和场，使用偶匹配连接同一个人的关节点，最终得到人体关节点数据。

4.根据权利要求1所述的一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，所述步骤S3包括以下子步骤：

S32、将关节坐标向量输入时空卷积网络模型中，交替的使用图卷积网络和时间卷积网络来对时间和空间维度进行变换，最终得到特征向量；

S33、通过注意力模型对不同躯干进行加权，然后进行图卷积，从而提取到动作特征。

5.根据权利要求1所述的一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，所述步骤S4包括以下子步骤：

S42、当第一次识别出投喂动作开始计数，后续25帧计数达到某个阈值，则判定为有投喂行为，触发报警。

6.根据权利要求5所述的一种基于时空图卷积网络的景区投喂行为识别方法，其特征在于，还包括使用Softmax损失函数对分类进行优化。