CN116402811A

CN116402811A - 一种打架斗殴行为识别方法及电子设备

Info

Publication number: CN116402811A
Application number: CN202310661177.5A
Authority: CN
Inventors: 马晓龙; 贺婧怡; 闾凡兵; 吴婷
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-07
Anticipated expiration: 2043-06-05
Also published as: CN116402811B

Abstract

本发明公开了一种打架斗殴行为识别方法及电子设备，本发明将视频保存9帧，16帧，25帧三种时间块，且编码为短时动作序列，分别识别不同的短时动作，引入时间维度的多头自注意力机制，加强对重要短时动作的识别并结合多种短时动作的信息对打架斗殴进行识别。本发明无需提取出画面中人体的骨骼数据或者光流数据，就能实时检测打架斗殴行为，具有低延迟、识别速度快的特征，同时充分利用了不同的短时动作的信息，且对不同短时动作进行了有重点的融合，更为准确。

Description

一种打架斗殴行为识别方法及电子设备

技术领域

本发明涉及图像识别领域，特别是涉及一种打架斗殴行为识别方法及电子设备。

背景技术

本发明的技术背景：为了保障安全、维护秩序，很多公共场所都安装了摄像头来检测异常行为，其中打架斗殴是一种影响非常恶劣，且十分危险的异常行为。实时识别出打架斗殴事件，能够协助工作人员在第一时间赶到事发现场进行劝阻，防止事态进一步恶化。

因此为了快速识别出打架斗殴行为，发明专利申请CN2019107782869提供了一种打架斗殴行为的识别方法,包括以下步骤：步骤A：通过监控视频获取数据,使用隔帧法提取视频数据,通过模型识别出视频内的目标人物,以及目标人物的肢体骨骼数据；步骤B：判断检测的目标人物的数量；步骤C：计算当前帧数据的目标人物数据对于上一帧数据的每一个目标人物数据的交叠率；步骤D：计算出目标人物的运动速度；步骤E：对目标人物状态的判断,计算目标人物肢体摆动幅度；步骤F：根据步骤A、步骤B、步骤C、步骤D和步骤E的结果判断打架斗殴行为。

发明专利申请CN2019112440787公开了一种基于视频的打架斗殴检测方法,基于目标检测方法对视频中的人体目标进行有效检测,而后利用骨架提取算法提取人体骨架关键点信息,包括连续多帧的每个人体的骨架关键点2D坐标信息,构建成骨架序列,并在骨架序列上构建时空卷积图,同时将时空卷积图输入已训练好的多层时空卷积网络(st-gcn)进行动作识别；利用本方法可精准识别打架斗殴等动作行为,可广泛应用于车站、机场、超市、商业街区、运动场等重要公众场合,实现实时预警。

发明专利201710161500.7公开了一种基于视频分析的打架斗殴异常行为自动检测方法,在现有的光流方法计算结果的基础上,增加视角调整系数矩阵,经过改进后的光流矢量将更加准确的体现出具有纵向透视视角场景下目标的运动特征。

但是，上述方法实时识别打架斗殴行为还有诸多难点。首先，进行打架斗殴识别通常需要提取出画面中人体的骨骼数据或者光流数据，然后根据这些数据判断是否发生打架斗殴事件。但是人体关键点检测与光流数据计算耗时很长，难以实现实时识别。其次，人体关键点识别易受背景干扰，难以在与训练数据背景不同的环境下取得较好的效果，常常将类似人体的物品当作人类，为后续准确判断带来了极大困难。而且打架斗殴动作种类多、参与人数不一，易与跳舞、人群拥挤等事件混淆，仅仅根据单张图片或者一个短时动作无法准确分辨。

发明内容

为解决上述技术问题，本发明提出了一种打架斗殴行为识别方法及电子设备。本发明的目的通过以下技术方案实现：

一种打架斗殴行为识别方法，包括如下步骤：

S1、获得视频流数据中的图片帧序列，将某一图片帧对应的n个短时动作队列作为一组数据；所述短时动作队列包括当前图片帧及当前图片帧的前若干个图片帧；不同短时动作队列中的图片帧数量不同；将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号，每个短时动作队列形成m个时空动作队列并进行人工标注形成训练数据集，n≥2,m≥4；

S2、将数据集输入待训练的多头自注意力机制模型训练得到训练好的多头自注意力机制模型；所述待训练的多头自注意力机制模型将相邻的时空动作队列结合得到融合队列，然后提取融合队列的识别类别Xⁱ _cls；所述识别类别包括打架斗殴和没打架斗殴两个类别；然后将每组数据中的时空动作队列的识别类别Xⁱ _cls使用一个全局编码器编码为一组融合多帧信息的向量V，最后利用一个全连接层将全局编码器输出的向量映射到打架和没打架两个类别，输出打架斗殴的概率；

S3、读取视频流，获取当前图片帧i，将当前图片帧i对应的n个短时动作队列的时空动作队列输入训练好的识别模型输出打架斗殴的概率；

S4、将当前图片帧i对应的打架斗殴的概率P与预设阈值L进行比较，若P≥L则判断为发生了打架斗殴，进行报警。

进一步的改进，所述步骤S1中，n=3，m=9。

进一步的改进，所述步骤S1中短时动作队列l_i=l_i1,l_i2,l_i3 ；l_i1,l_i2,l_i3∈R^t×h×w×C分别表示9个图片帧，16个图片帧和25个图片帧的短时动作队列，其中，R表示实数集，t表示时间，h表示高，w表示宽，C表示通道数；各短时动作队列中的图片帧均按照九宫格形式均分成九份，得到对应的时空动作队列l_ij=l¹ _ij,...,l⁹ _ij；i=1,2,3。

进一步的改进，步骤S2中，先将短时动作队列l_i=l_i1,l_i2,l_i3均输入大小为t×h×w的三维卷积核进行三维卷积得到特征图z_i1,z_i2,z_i3 ；z_ij=z¹ _ij,...,z⁹ _ij，j=1,2,3；z⁹ _ij表示第i个图片帧对应的第j个短时动作队列中的第9个时空动作队列；对每个短时动作队列添加可学习的类别z^ij _cls和位置编码P_i，得到多头自注意力机制模型的输入序列：

z_ij=[z^ij _cls,z¹ _ij,...,z⁹ _ij]+P_i

z^ij _cls表示短时动作l_ij的类别。

进一步的改进，所述多头自注意力机制模型在训练时，为每组输入序列z_ij单独训练h组权重矩阵，每组权重矩阵均包括Query权重矩阵W^Q，Key权重矩阵W^k和Value权重矩阵W^V。

进一步的改进，所述步骤S3中，

将输入序列z_ij分别和h组训练过的权重矩阵W_a ^Q，W_a ^K和W_a ^V相乘，得到h组权重矩阵Q_a、K_a、V_a，a=1,2,...,h;然后根据h组权重矩阵得到h个自注意力矩阵，将h个自注意力矩阵拼接，把拼接后的矩阵和一个可学习的权重矩阵W₀相乘,得到最终的多头自注意力矩阵Z_ij=[Z^ij _cls,Z¹ _ij,...,Z⁹ _ij]，然后将将两个相邻的时空动作队列的键和值投射到相同的维度，再利用自注意力机制融合两个相邻的时空动作队列，得到融合队列X_i=[Xⁱ _cls,X_ia,X_ia+1]，从每个融合队列中提取识别类别Xⁱ _cls。具体步骤如下：

将输入序列z_ij分别和h组训练过的权重矩阵W_a ^Q，W_a ^K和W_a ^V相乘，得到h组Query矩阵Q_a，Key矩阵K_a，Value矩阵V_a矩阵，a=1,2,...,h;

Q_a=[Q₁₁,...,Q_h9]

K_a=[K₁₁,...,K_h9]

V_a=[V₁₁,...,V_h9]

计算h个自注意力矩阵：

其中，d_ij代表输入序列z_ij的长度；/>

表示短时动作队列l_ij经过多头自注意力机制后第h个头提取的自注意力矩阵；softmax（）表示归一化函数，C为分类的类别数，通过Softmax函数将多头自注意力机制模型的输出值转换为范围在[0, 1]的概率分布；/>

表示Query矩阵中第j列，k_hj表示Key矩阵中第j列，T表示矩阵转置；

将h个自注意力矩阵

拼接起来，把拼接后的矩阵和一个可学习的权重矩阵W₀相乘,得到最终的多头自注意力矩阵Z_ij=[Z^ij _cls,Z¹ _ij,...,Z⁹ _ij]；

两个相邻的时空动作队列进行结合：

将两个相邻的时空动作队列的键和值投射到相同的维度：

x _i1 =WZ _i1 、x _i2 =WZ _i2 ...x _i9 =WZ _i9

x _i1表示Z _i1降维后的矩阵，W表示可学习的降维矩阵，Z _i1表示第一个多头自注意力矩阵；

利用自注意力机制融合两个相邻的时空动作队列；

d_i代表Z_ij的长度；

表示Z _ia与Z _ia+1融合后的矩阵，/>

表示Z _ia+1与Z _ia+2融合后的矩阵，/>

表示第/>

_个多头自注意力矩阵，

得到融合队列X_i=[Xⁱ _cls,X_ia,X_ia+1]。

从每个融合队列中提取识别类别Xⁱ _cls。

进一步的改进，所述多头自注意力机制模型为transformer模型。

进一步的改进，L≥70%。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

本发明的有益效果在于：

本发明无需提取出画面中人体的骨骼数据或者光流数据，能实时检测打架斗殴行为，具有低延迟、高精度的性能。

本发明只需要一个模型就能实现打架斗殴行为识别，便于部署。

本发明识别打架斗殴行为时，充分利用了不同的短时动作的信息，且对不同短时动作进行了有重点的融合，判断更为准确。

附图说明

利用附图对本发明做进一步说明，但附图中的内容不构成对本发明的任何限制。

图1为本发明的流程示意图；

图2为本发明的数据流动示意图；

图3为短时动作队列示意图；

图4为多头自注意力机制流程图；

图5为短时动作出拳示意图a；

图6为短时动作出拳示意图b；

图7为短时动作出拳示意图c。

具体实施方式

为了使发明的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本发明进行进一步的详细说明。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其他实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其他实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

如图1所示的一种打架斗殴行为识别方法，包括如下步骤：

S1、获得视频流数据中的图片帧序列，将某一图片帧对应的至少n个短时动作队列作为一组数据；所述短时动作队列包括当前图片帧及当前图片帧的前若干帧；不同短时动作队列中的图片帧数量不同；将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号，每个短时动作队列形成m个时空动作队列并进行人工标注形成训练数据集，n≥2,m≥4；

其中多头自注意力机制模型选择transformer模型，transformer模型是一种常见的机器学习模型,其通过将数据输入多层的transformer网络中，通过自注意力基质来学习数据之间的关系，编码其上下文信息，初始是用在自然语言处理领域。其通过一个前馈网络经过非线性变化，输出综合了上下文特征的各个词的向量表示，每一层transformer网络主要由多头自注意力机制和前馈网络层两个子层构成。多头自注意力机制会并行的执行多个参数的自注意力，并将各个自注意力的结果拼接作为后续网络的而输入，伺候得到蕴含当前上下文信息的各个词的表示，然后网络会将其输入到前馈网络层以计算非线性层次的特征。而在每一层transformer网络中，会将残差连接吧自注意力机制前或前馈神经网络之前的箱梁引入进来，以增强自注意力机制或前馈网络的输出结果向量。并且还做一个归一化层，通过归一化把同层的各个节点的多维向量映射到一个区间里面，这样各层节点的箱梁在一个区间里面，这两个操作加入在每个子层后，可更加平滑的训练深层次网络。

transformer模型可用于编码，也可以用于解码，所谓解码就是根据一个数据的输入得到一个预想的结果。解码时，已经解码出来的此要做一个自注意力基质，之后和编码得到的隐状态的序列再做一个注意力机制，这样可以做N层，然后通过一个线性层映射到词表的代傲的一个向量，每个向量代表一个词表词的输出可能性，经过一个softmax层得到每个词的输出概率。

transformer模型在自然语言处理领域有不错的效果，但是其也可以用于计算机视觉领域，其经常与卷积网络结合使用，或替换卷积网络的某些组件，同时保持器整体结构。也有的会摆脱CNN的舒服，直接将图像分块形成图像块序列，然后输入transformer模型中执行图像分类任务。步骤通常是将一幅图像分割成为多个图像块，然后将这些图像块的线性嵌入序列作为transformer模型的输入，图像块与NLP中的token的处理方式相同，然后采用有加密度的方式对模型进行图像分类训练。

因此，在实际应用中,transformer模型可以用于数据预处理、特征提取、数据清洗等任务，也可以用于图像识别领域，如本发明所示即用于图像识别领域。

在进行数据训练和实时识别时，首先要读取实时视频流，获取图片帧，将图片帧进行缩放、归一化,得到大小为224x224的Img_i。由于仅仅根据一张图片难以判断是否发生打架斗殴行为，因为手部挥动时可能在打招呼，也可能在打架斗殴，因此需要结合历史信息，判断是否发生了斗殴。

由于打架斗殴时，做出不同的动作如快速抬手、快速挥手和快速出拳等短时动作时，需要动作时间不同，而且同一个动作不同的人的动作时间不同，因此若设置固定的时间间隔内的图片帧，即单一固定的图片帧数进行判断是否打架斗殴是，很容易出现判断错误。因此为了准确地提取时间特征，本发明设置了多个汉语不同连续图像帧数量的短时动作队列。

具体的，为了准确地提取时间特征，针对第i帧针对时间纬度构建短时动作队列l_i=l_i1,l_i2,l_i3∈R^t×h×w×C,其中l_i1,l_i2,l_i3分别表示前9个图像帧，前16个图像帧，前25个图像帧的短时动作队列，其中，R表示实数集，t表示时间，h表示高，w表示宽，C表示通道数的短时动作队列。

而为了准确地提取空间特征，本发明将每个图像帧分割成多个图像块，具体的在本实施例中为9个图像块，如图3所示，形成九宫格的方式，即在不同的短时动作队列又分别在图像纬度分为9段，得时空动作队列l_ij=l¹ _ij,...,l⁹ _ij，如图3所示。其中，一般摄像头的摄像速度为每秒25帧，而如快速抬手、快速挥手和快速出拳等短时动作所有人均能在1s内完成，因此在其中还设置前9帧，前16帧，分别用于识别不同时间段内的人的动作。

前9个图像帧，前16个图像帧，前25个图像帧的短时动作队列通过大小为t×h×w的三维卷积核进行三维卷积得到特征图z_i=z_i1,z_i2,z_i3,其中z_ij=z¹ _ij,...,z⁹ _ij.添加一个可学习的类别zⁱ _cls和位置编码P_i，得到输入序列

z_ij=[z^ij _cls,z¹ _ij,...,z⁹ _ij]+P_i

对输入序列引入多头自注意力机制，原理如图4所示，具体情况如下：

为每组输入序列z_ij单独训练h个不同的权重矩阵W_Q，W_k和W_V；W_Q为Query权重矩阵、W_k为Key权重矩阵，W_V为Value权重矩阵。

具体的对于当前的输入向量,我们称之为 query,它对应有 W_Q 这个权重矩阵,query 的值为权重矩阵乘以输入向量,也就是 qi=W _Q ·ai 。而query 外的其他的输入向量,则被被成为 key,其对应有 W_k 这个权重向量,key 的值为权重矩阵乘以这个其它输入向量,也就是 k_i=W_k·a_j(j可能等于i) 权重采用点积(Dot-product)的方式,比如说query1 和 key2 的关联度,就为二者的点积，点积结果越大两者的关系越密切；W_V矩阵即Value权重矩阵又称为价值矩阵。

Q_a=[Q₁₁,...,Q_h9]

K_a=[K₁₁,...,K_h9]

V_a=[V₁₁,...,V_h9]

计算h个自注意力矩阵：

，

其中，d_ij代表输入序列z_ij的长度；

将h个自注意力矩阵

两个相邻的时空动作队列进行结合：

将两个相邻的时空动作队列的键和值投射到相同的维度：

x _i1 =WZ _i1 、x _i2 =WZ _i2 ...x _i9 =WZ _i9

利用自注意力机制融合两个相邻的时空动作队列；

d_i代表Z_ij的长度；

表示Z _ia与Z _ia+1融合后的矩阵，/>

表示Z _ia+1与Z _ia+2融合后的矩阵，/>

表示第/>

_个多头自注意力矩阵，

得到融合队列X_i=[Xⁱ _cls,X_ia,X_ia+1]。

从每个融合队列中提取识别类别Xⁱ _cls。

然后根据从每个短时动作队列中提取类别Xⁱ _cls，并使用一个全局编码器进一步处理它们，最后利用一个全连接层映射到2个类别输出打架斗殴与非打架斗殴的概率。

本发明由于打架斗殴行为中，不同的动作或相同的动作花费时间不同，因此本发明将视频保存9帧，16帧，25帧三种时间块，且编码为短时动作序列，分别识别不同的短时动作。

打架斗殴行为中，挥手等动作比较重要，移动等动作相对而言不太具有区分度，因此本发明引入时间维度的多头自注意力机制，加强对重要短时动作的识别。

识别打架斗殴行为需要结合多种短时动作的信息，因此本发明引入了时空特征融合模块，将不同的短时动作进行结合，从而对打架斗殴的识别更加准确。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种打架斗殴行为识别方法，其特征在于：包括如下步骤：

S1、获得视频流数据中的图片帧序列，将某一图片帧对应的n个短时动作队列作为一组数据；不同短时动作队列中的图片帧数量不同；将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号，每个短时动作队列形成m个时空动作队列并进行人工标注形成数据集，n≥2,m≥4；

S2、将数据集输入待训练的多头自注意力机制模型训练得到训练好的多头自注意力机制模型；

2.如权利要求1所述的打架斗殴行为识别方法，其特征在于：所述步骤S1中，n=3，m=9。

3.如权利要求2所述的打架斗殴行为识别方法，其特征在于：所述步骤S1中短时动作队列l_i=l_i1,l_i2,l_i3 ；l_i1,l_i2,l_i3分别表示9个图片帧，16个图片帧和25个图片帧的短时动作队列。

4.如权利要求3所述的打架斗殴行为识别方法，其特征在于：步骤S2中，先将短时动作队列l_i=l_i1,l_i2,l_i3均输入大小为t×h×w的三维卷积核进行三维卷积得到特征图z_i1,z_i2,z_i3 ；z_ij=z¹ _ij,...,z⁹ _ij，j=1,2,3；z⁹ _ij表示第i个图片帧对应的第j个短时动作队列中的第9个时空动作队列；对每个短时动作队列添加可学习的类别z^ij _cls和位置编码P_i，得到多头自注意力机制模型的输入序列：

z_ij=[z^ij _cls,z¹ _ij,...,z⁹ _ij]+P_i

z^ij _cls表示短时动作l_ij的类别。

5.如权利要求4所述的打架斗殴行为识别方法，其特征在于：所述多头自注意力机制模型在训练时，为每组输入序列z_ij单独训练h组权重矩阵，每组权重矩阵均包括Query权重矩阵W^Q，Key权重矩阵W^k和Value权重矩阵W^V。

6.如权利要求5所述的打架斗殴行为识别方法，其特征在于：所述步骤S3中，

将输入序列z_ij分别和h组训练过的权重矩阵W_a ^Q，W_a ^K和W_a ^V相乘，得到h组权重矩阵Q_a、K_a、V_a，a=1,2,...,h;然后根据h组权重矩阵得到h个自注意力矩阵，将h个自注意力矩阵拼接，把拼接后的矩阵和一个可学习的权重矩阵W₀相乘,得到最终的多头自注意力矩阵Z_ij=[Z^ij _cls,Z¹ _ij,...,Z⁹ _ij]，然后将将两个相邻的时空动作队列的键和值投射到相同的维度，再利用自注意力机制融合两个相邻的时空动作队列，得到融合队列X_i=[Xⁱ _cls,X_ia,X_ia+1]，从每个融合队列中提取识别类别Xⁱ _cls。

7.如权利要求1所述的打架斗殴行为识别方法，其特征在于：所述多头自注意力机制模型为transformer模型。

8.如权利要求1所述的打架斗殴行为识别方法，其特征在于：L≥70%。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述方法的步骤。