CN113095196B

CN113095196B - 基于图结构姿态聚类的人体异常行为检测方法及系统

Info

Publication number: CN113095196B
Application number: CN202110365125.4A
Authority: CN
Inventors: 吕蕾; 庞辰; 韩润; 亓延鹏; 吕晨
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-09-30
Anticipated expiration: 2041-04-02
Also published as: CN113095196A

Abstract

本发明公开了基于图结构姿态聚类的人体异常行为检测方法及系统，获取待检测视频；对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；获取骨骼节点的时空关系示意图；对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；将最终学习向量，输入到训练后的编码器中，输出待分类的动作向量；将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；判断所述概率值是否超过设定阈值，如果超过设定阈值，则表示当前待检测视频存在人体异常行为；否则，表示不存在人体异常行为。能够针对不同的场景需求，有效的检测出异常行为。

Description

基于图结构姿态聚类的人体异常行为检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于图结构姿态聚类的人体异常行为检测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着高清视频监控的逐步推广和普及，监控视频数据也越来越多。在安防领域，尤其在公共场所，需要对人们的异常行为做出及时的处理。利用传统的人工方法检测人体异常行为不仅耗费大量的人力物力，而且会出现一些异常行为被漏检的情况。随着计算机视觉技术的快速发展，人们开始采用基于视频的异常行为检测。这类方法主要利用正异常行为特征表示之间的差异性来自动的检测及定位异常行为。当下，异常行为检测已经成为计算机视觉领域较为活跃的一个研究方向。

基于视频的异常行为检测方法可分为有监督、弱监督、无监督三类。无监督方法无需任何标签信息，基于“非正即异”思想，假设异常行为是罕见且无规律的。由于这种方法缺少人工标记，泛化能力极弱，如何增强无监督方法的泛化能力也是近几年学术研究的热点。弱监督方法通过学习大量的正例样本进的特征表示，将那些不符合正常特征分布的样本检测为异常，目前大多数弱监督方法都是采用基于重构判断的方法进行判定。但是由于神经网络强大的学习能力，异常行为也有可能被很好的重构，因此基于重构的方法容易造成异常的漏检。同时，新的正常行为也在不断地出现，新出现的正常行为容易被误检。有监督方法，将异常行为检测视为二分类或多分类问题，用详细标记的正异常行为样本训练神经网络，提取正异常之间更具区分性的特征。有监督方法的识别和定位精度普遍较高，在现实生活中被广泛使用。

在检测过程中的特征提取环节也存在大量的特征提取方法，其中基于人体骨骼信息的特征提取方法由于其具有较好的鲁棒性和适应性，目前得到了广泛的使用。相比于图像特征，骨骼特征更加紧凑，对人体的运动描述也更加的具体，且不易受光照和背景变化的影响。

在实现本公开的过程中，发明人发现现有技术存在以下问题：

(1)在不同的场景下，对异常行为的定义不同，哪些行为属于正常行为，哪些行为属于异常行为有一定的差别。利用现有的方法进行异常行为检测，很难实现方法的泛化。

(2)行为的发生都具有一定的时间信息，间隔的提取视频帧会损失时间信息，在一定程度上会影响最终检测的精确度。

发明内容

为了解决现有技术的不足，本发明提供了基于图结构姿态聚类的人体异常行为检测方法及系统；

第一方面，本发明提供了基于图结构姿态聚类的人体异常行为检测方法；

基于图结构姿态聚类的人体异常行为检测方法，包括：

获取待检测视频；

对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；其中，k为正整数；获取骨骼节点的时空关系示意图；

对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；

将最终学习向量，输入到训练后的编码器encoder中，输出待分类的动作向量；

将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；

判断所述概率值是否超过设定阈值，如果超过设定阈值，则表示当前待检测视频存在人体异常行为；否则，表示不存在人体异常行为。

第二方面，本发明提供了基于图结构姿态聚类的人体异常行为检测系统；

基于图结构姿态聚类的人体异常行为检测系统，包括：

获取模块，其被配置为：获取待检测视频；

骨骼跟踪模块，其被配置为：对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；其中，k为正整数；获取骨骼节点的时空关系示意图；

向量提取模块，其被配置为：对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；

编码模块，其被配置为：将最终学习向量，输入到训练后的编码器encoder中，输出待分类的动作向量；

聚类模块，其被配置为：将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；

异常行为检测模块，其被配置为：判断所述概率值是否超过设定阈值，如果超过设定阈值，则表示当前待检测视频存在人体异常行为；否则，表示不存在人体异常行为。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本公开为了解决上述问题，同时考虑到提取人体骨骼信息可以减少视点，背景的等不必要的因素带来的影响，而且有监督的方式能够将动作标签提供给网络，进而能够使网络更加方便的建立行为字典，最终使网络得到好的聚类效果。因此提供了一种有监督异常行为检测方法，该方法是基于图结构姿态聚类的人体异常行为检测方法，其能够针对不同的场景需求，有效的检测出异常行为，同时充分利用行为发生的时序关系，更加精确的对监控中拍摄到的行为进行识别。增强方法的泛化能力和精确度。

本公开提供的有监督的基于图结构姿态聚类的人体异常行为检测方法，针对视点，照明等不必要的参数，采用了从输入视频帧中提取人体姿势图的方法。同时由于不同的场景下对异常的定义不尽相同，我们的方法就考虑用有监督的方式对模型进行训练，然后利用软分配聚类的方式去对行为进行聚类和判别，通过对不同的场景设置不同的阈值，就可以实现在特定场景下的异常检测。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一建立的时空图示例；

图2为本发明实施例一的Transformer Encoder整体结构；

图3为本发明实施例一的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于图结构姿态聚类的人体异常行为检测方法；

如图3所示，基于图结构姿态聚类的人体异常行为检测方法，包括：

S101：获取待检测视频；

S102：对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；其中，k为正整数；获取骨骼节点的时空关系示意图；

S103：对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；

S104：将最终学习向量，输入到训练后的编码器encoder中，输出待分类的动作向量；

S105：将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；

S106：判断所述概率值是否超过设定阈值，如果超过设定阈值，则表示当前待检测视频存在人体异常行为；否则，表示不存在人体异常行为。

进一步地，所述S102：对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；其中，k为正整数；具体包括：

利用基于OpenPose的人体姿态检测算法，对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列。

进一步地，所述S102：获取骨骼节点的时空关系示意图；具体包括：

S1021：在每一帧图像内，按照人体骨架连接关系，将骨骼节点进行连线，得到骨骼节点的空间关系示意图；

S1022：对相邻帧的同一骨骼节点进行连线，得到骨骼节点的时间关系示意图；

S1023：综合空间关系示意图和时间关系示意图，得到骨骼节点的时空关系示意图。

应理解的，对视频进行姿态估计，并在骨骼序列上构建时空图。空间关系是在每一帧内部，按照人体的自然骨架连接关系构造空间图，时间关系就是通过在连续的帧与帧之间连接相同的骨骼关节点来构建。

应理解的，S1021中图的每个节点对应于一个身体关节点，并且每个边表示两个节点之间的某种关系。这样表示的好处是比较紧凑，在进行视频分析的时候非常重要。

应理解的，S1022在每一帧内部，按照人体的自然骨架连接关系构造空间图，展现空间关系。为了表示出视频中每一帧的时序关系，将视频序列中提取的姿势关键点表示为姿势图的时间序列。通过在连续帧中连接同一个关节来表示时序关系，这样就可以利用时间和空间信息。图1为时空图示例。

进一步地，所述S103：对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；具体包括：

S1031：获取每一帧中骨骼节点的二维位置坐标；将每个骨骼节点的二维坐标位置转换为二进制表示形式；

S1032：对每一帧图像中每个骨骼节点的二进制形式的坐标位置，进行三角函数位置编码，得到编码后的位置；

S1033：将二进制表示的位置与三角函数编码后的位置，进行对位相加，将对位相加后的结果每一行的末尾均与其下一行的行首相接，得到每一帧图像对应的一行向量；

S1034：将视频中所有帧所对应的向量进行并联拼接，得到m行向量；m表示视频中帧的总个数；

S1035：对m行向量的每一行向量，利用随机函数随机生成位置编码，得到每一行的学习向量；所以，m行向量就得到m个学习向量；对m个学习向量进行按行拼接，得到待检测视频的最终学习向量。

示例性的，所述S1031：获取在每一帧中的节点的二维位置坐标。一段视频中可能包含m帧，同样的将这m帧中的节点坐标都表示出来。若一个图中有k个节点，每个节点的二维位置坐标表示为(x,y),那么每一帧中的所有关节点就用一个k×2维的向量来表示，一个视频段中包含m帧，故每个视频段就对应着m×k×2维的向量来表示。

示例性的，S1031的embedding是指将每一个节点的位置坐标(,y)转变成八位的二进制数进行表示，在得到的m×k×2维的向量，经过二进制转化后就会的到一个m×k×8维的向量。

进一步地，所述S1032：对每一帧图像中每个骨骼节点的二进制形式的坐标位置，进行三角函数位置编码，得到编码后的位置；具体包括：

其中，pos是指一个图中某个节点的位置，假设一个图像中包含k个节点，pos的取值范围就是[0,k)，i是指向量的维度序号，i的取值范围是[0,embedding_dimension/2),d_model是指embedding_dimension的值。sin是正弦函数，cos是余弦函数，PE是positionembedding的缩写。

用sin和cos函数做处理，从而产生不同的周期性变化，而位置嵌入在embedding_dimension维度上随着维度序号增大，周期变化会越来越慢，产生一种包含位置信息的纹理，最终使模型学到位置之间的依赖关系。

示例性的，S1032的进行三角函数位置编码，在三角函数位置编码的过程中是针对视频中的每一帧，利用三角函数做处理来获取位置编码。用sin和cos函数做处理，从而产生不同的周期性变化，而位置嵌入在embedding_dimension维度上随着维度序号增大，周期变化会越来越慢，产生一种包含位置信息的纹理，最终使模型学到位置之间的依赖关系。

示例性的，S1033将此时得到的位置编码和先前的k×8维的向量进行对位相加，再将最终的结果每一行的末尾与下一行的行首相接，形成一个1×(k×8)的向量。

示例性的，S1034将每一帧所对应的拉长后的向量进行拼接，形成m×(k×8)的向量。

示例性的，S1035对每一个1×(k×8)维的向量进行位置编码，这里位置编码的方式与前面不同，进行随机初始化位置编码，是一个可学习的向量。这样就得到了encoder部分的输入。

进一步地，所述S104：如图2所示，将最终学习向量，输入到训练后的编码器encoder中，输出待分类的动作向量；具体包括：

将最终的学习向量输入到训练后的编码器encoder中：

先是经过注意力机制学习向量之间的联系，获得一个attention向量；

再将最终学习向量与attention向量进行残差连接；

最后，进行前向传播，得到待分类的动作向量。

进一步地，所述训练后的编码器encoder，其训练步骤包括：

构建训练集，所述训练集为已知分类标签的最终学习向量；

将训练集的已知分类标签的最终学习向量作为编码器encoder的输入值，对编码器encoder进行训练，训练次数达到设定次数后，停止训练，得到训练后的编码器encoder。

进一步地，所述已知分类标签的最终学习向量，获取步骤包括：对已知分类标签的视频进行骨骼跟踪，得到骨骼节点的时空关系示意图；对已知分类标签的时空关系示意图按照S1031～S1035的步骤进行坐标位置处理，已知分类标签的最终学习向量。

进一步地，在编码器encoder训练过程中，将训练集已知分类标签的最终学习向量作为编码器encoder的输入值，将编码器encoder输出得到的对应动作向量存入行为词典中，每一个动作向量均保存下来，就得到了对应的行为词典；行为词典是指存放分类标签和与其对应的动作向量的容器；行为词典，包括：所有分类标签以及与其对应的动作向量。

对于每一个输入样本i，用z_i表示encoder的编码结果，y_i表示使用聚类层计算出的软聚类分配，表示聚类层的参数。将第i个样本分配给第j个聚类的概率p_ij表示为：

θ_j表示第j个聚类层中所对应的参数；j′是为了区分当前类j和其他类，其含义与j的含义相同，j表示的某一个具体的类，j′就是表示第1，2,3……J类，J就是所有类的一个总称。Pr(y_i＝j|z_i,θ)表示的是在已知z_i和θ的条件下，该行为属于动作j的概率，是一个公式表示。

进一步地，所述S105：将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；具体包括：

利用自编码聚类算法Deep Embedded Clustering，将待分类的动作向量和行为词典中已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值。

进一步地，所述S106：判断所述概率值是否超过设定阈值，如果超过设定阈值，则表示当前待检测视频存在人体异常行为；否则，表示不存在人体异常行为；具体包括：

例如：在校园里奔跑，行走都属于正常行为，打架属于异常行为，设定奔跑、行走的阈值为1，设定打架的阈值为0.3，即当输入的动作属于打架的概率超过0.3，就将该行为判定为异常。

S103对带有位置坐标信息的人体骨骼图进行embedding操作；S104embedding操作结果作为transformer中encoder部分的输入，经过encoder得到每一种动作的向量表示；S105将encoder的输出作为Deep Embedded Clustering的输入，进行软分配，最后得到样本i属于聚类j的概率；S106根据不同的场景设置不同的阈值去判断异常行为。

在测试阶段，通过软分配聚类算法进行对输入动作进行聚类，得到样本i属于聚类j的概率。

根据不同场景对异常行为的定义不同，针对不同的场景设置不同的阈值，当超过某一阈值时就将其视为异常行为。不同的场景比如：校园、博物馆、养老院等生活中大多数场景。阈值设定：在校园里奔跑，行走都属于正常行为，打架属于异常行为，我们就可以设定奔跑、行走的阈值为1，设定打架的阈值为0.3即当我们输入的动作属于打架的概率超过0.3我们就将该行为判定为异常。

实施例二

本实施例提供了基于图结构姿态聚类的人体异常行为检测系统；

基于图结构姿态聚类的人体异常行为检测系统，包括：

获取模块，其被配置为：获取待检测视频；

此处需要说明的是，上述获取模块、骨骼跟踪模块、向量提取模块、编码模块、聚类模块和异常行为检测模块对应于实施例一中的步骤S101至步骤S106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图结构姿态聚类的人体异常行为检测方法，其特征是，包括：

获取待检测视频；

所述对时空关系示意图中的每一帧图像骨骼节点的坐标位置进行处理，得到待检测视频的最终学习向量；具体包括：

获取每一帧中骨骼节点的二维位置坐标；将每个骨骼节点的二维坐标位置转换为二进制表示形式；

对每一帧图像中每个骨骼节点的二进制形式的坐标位置，进行三角函数位置编码，得到编码后的位置；

将二进制表示的位置与三角函数编码后的位置，进行对位相加，将对位相加后的结果每一行的末尾均与其下一行的行首相接，得到每一帧图像对应的一行向量；

将视频中所有帧所对应的向量进行并联拼接，得到m行向量；m表示视频中帧的总个数；

对m行向量的每一行向量，利用随机函数随机生成位置编码，得到每一行的学习向量；所以，m行向量就得到m个学习向量；对m个学习向量进行按行拼接，得到待检测视频的最终学习向量；

所述训练后的编码器encoder，其训练步骤包括：

构建训练集，所述训练集为已知分类标签的最终学习向量；

将训练集已知分类标签的最终学习向量作为编码器encoder的输入值，对编码器encoder进行训练，训练次数达到设定次数后，停止训练，得到训练后的编码器encoder；

在编码器encoder训练过程中，将训练集已知分类标签的最终学习向量作为编码器encoder的输入值，将编码器encoder输出得到的对应动作向量存入行为词典中，每一个动作向量均保存下来，就得到了对应的行为词典；行为词典是指存放分类标签和与其对应的动作向量的容器；行为词典，包括：所有分类标签以及与其对应的动作向量；

2.如权利要求1所述的基于图结构姿态聚类的人体异常行为检测方法，其特征是，对待检测视频的每一帧图像进行骨骼跟踪，得到包含k个骨骼节点的骨骼序列；其中，k为正整数；具体包括：

3.如权利要求1所述的基于图结构姿态聚类的人体异常行为检测方法，其特征是，获取骨骼节点的时空关系示意图；具体包括：

在每一帧图像内，按照人体骨架连接关系，将骨骼节点进行连线，得到骨骼节点的空间关系示意图；

对相邻帧的同一骨骼节点进行连线，得到骨骼节点的时间关系示意图；

综合空间关系示意图和时间关系示意图，得到骨骼节点的时空关系示意图。

4.如权利要求1所述的基于图结构姿态聚类的人体异常行为检测方法，其特征是，将最终学习向量，输入到训练后的编码器encoder中，输出待分类的动作向量；具体包括：

将最终的学习向量输入到训练后的编码器encoder中：

再将最终学习向量与attention向量进行残差连接；

最后，进行前向传播，得到待分类的动作向量。

5.如权利要求1所述的基于图结构姿态聚类的人体异常行为检测方法，其特征是，将待分类的动作向量和已知分类标签的动作向量进行聚类，得到当前待分类动作向量属于每个已知分类标签的概率值；具体包括：

6.基于图结构姿态聚类的人体异常行为检测系统，其特征是，包括：

获取模块，其被配置为：获取待检测视频；

所述训练后的编码器encoder，其训练步骤包括：

构建训练集，所述训练集为已知分类标签的最终学习向量；

7.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。