CN113673489A

CN113673489A - 一种基于级联Transformer的视频群体行为识别方法

Info

Publication number: CN113673489A
Application number: CN202111225547.8A
Authority: CN
Inventors: 李玲; 徐晓刚; 王军; 祝敏航; 曹卫强; 朱亚光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2021-11-19
Anticipated expiration: 2041-10-21
Also published as: CN113673489B

Abstract

本发明涉及计算机视觉及深度学习领域，尤其涉及一种基于级联Transformer的视频群体行为识别方法，首先采集生成视频数据集，将视频数据集经过三维骨干网络提取三维时空特征，选取关键帧图像空间特征图；对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer，输出关键帧图像中的人体目标框；然后，映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图，结合关键帧图像周围帧特征图计算query/key/value，输入群体行为识别Transfomer，输出群体级别时空编码特征图；最后，经过多层感知机对群体行为进行分类。本发明具有有效提高群体行为识别准确率的效果。

Description

一种基于级联Transformer的视频群体行为识别方法

技术领域

本发明涉及计算机视觉及深度学习领域，尤其涉及一种基于级联Transformer的视频群体行为识别方法。

背景技术

现如今，监控视频已经广泛应用于社会公共场所，在维护社会公共安全上发挥着极为重要的作用。对监控视频中的异常行为和事件进行有效的识别，能更好的发挥监控视频的作用。群体行为是视频中最常出现的人类行为活动，群体行为识别通过自动识别视频中的群体行为，能有效预防危险事件的发生，有着广泛的应用价值。

在自然场景下，视频群体行为识别主要面临两个较大的挑战。一是场景较为复杂，主要表现为人体尺度变换较大，背景光照、群体之间相互遮挡等，导致个体行为特征的提取难度加大；二是个体与群体的层次关系较难建模，群体行为中某些个体对群体行为有着较大的影响，某些个体贡献相对较小，个体间差异增大了个体间上下文关系的复杂度，如何突出不同个体对于群体行为贡献的差异性，是群体行为得到有效识别的关键。

近期的群体行为识别方法大多基于深度学习实现，主要分为两类：一是采用单阶三维卷积神经网络模型提取时空特征，送入全连接层进行群体行为识别；二是采用两阶识别方法，第一阶段提取个体特征，个体特征提取多采用目标检测算法检测人体目标框，再利用三维卷积网络提取目标框个体时空特征，或采用基于骨骼的方法提取目标框个体骨架特征；第二阶段对个体和群体的层次关系进行建模，获取第一阶段所提取个体特征之间的联系，输出群体级别特征，送入全连接层进行群体行为识别，该阶段主要采用基于循环卷积网络、图网络或加权融合方法。

专利CN110991375A公开了构建目标损失函数，通过多通道编码器和解码器构建单阶目标深度神经网络进行群体行为识别，其缺点在于单阶网络模型无法同时较好的提取个体和群体特征，导致识别准确率较低。

专利CN111178323A公开了首先使用目标检测算法SSD提取视频每帧图像中人体框，使用open pose算法提取单个个体骨骼特征，再通过人工设计方法融合个体骨骼特征以提取群体表示特征。其缺点在于目标检测与骨骼提取算法无法实现端到端的训练，两个算法需要针对实际使用场景离线微调训练后再送入群体特征提取网络中，增加了算法实际应用的难度；群体特征提取依靠人工设计，无法有效自动提取群体级别时空特征，研究表明手工设计特征容易受到场景及光照影响，鲁棒性较差。

专利CN110796081A公开了首先使用目标检测网络检测人体目标，通过卷积网络提取单帧人体目标特征，再根据单个个体之间外貌和位置关系构建图模型，利用图卷积神经网络提取单帧群体行为表示特征，最后对多帧群体行为特征进行融合得到视频群体行为表征特征。其缺点在于图卷积网络提取单帧群体空间特征时，未对群体中具有判别性的个体特征进行突出，且在视频时间特征维度仅进行简单的加权融合，无法较好的提取视频时序特征。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于级联Transformer的视频群体行为识别方法，由两级Transformer网络实现，第一级人体目标检测Transformer检测人体目标框并提取群体中具有判别性的个体特征，第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征，有效融合个体行为特征提取群体级别特征，最后通过多层感知机输出群体行为类别，能实现端到端的训练，其具体技术方案如下：

一种基于级联Transformer的视频群体行为识别方法，包括以下步骤：

步骤一：利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据，即原始视频序列，共同构造数据集；

步骤二：输入从步骤一获得的原始视频序列到骨干网络，在骨干网络的卷积层Conv5层获取时间和空间特征图，选取视频关键帧图像特征图，并对关键帧图像特征图进行预处理；

步骤三：将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器，通过自注意力机制提取图像编码特征，将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器，输出目标查询向量，最后经过全连接层和多层感知机层构建分类头和回归头，分别预测输出目标类别置信度及目标框图像位置坐标；

步骤四：将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入，利用目标类别置信度筛选人体目标框，在该特征图上映射筛选人体目标框所对应的子特征图，并对该子特征图做预处理得到query，将关键帧周围的帧图像通过线性映射得到key和value；

步骤五：将query、key及value送入群体行为识别Transformer编码器模块，输出群体级别时空编码特征图，通过多层感知机层输出群体行为识别预测值及其置信度；

步骤六：构造损失函数并训练网络模型。

进一步的，所述步骤一具体为：利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据，将采集的视频按照30帧每秒的帧率，以5秒切割视频，删除含噪声和画面模糊的视频片段，标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别，并构建对应类别数据集，所述行为类别包括打架、聚集、奔跑三个类别。

进一步的，所述步骤二具体包括如下步骤：

（2.1）选择3D ResNet50深度残差网络为骨干网络， 3D Rensnet50的Conv2、 Conv3、Conv4及Conv5层在时间维度不进行下采样，仅在空间维度进行下采样，获取Conv5层特征图

，T表示T帧；

（2.2）选取时间序列中间帧图像为关键帧图像，获取关键帧图像特征图

，并使用11卷积降低特征图通道维度，新的特征图表示为

，引入位置编码矩阵

，位置编码采用二维正弦编码方式，得到新特征图矩阵为

。

进一步的，所述步骤三具体为：将步骤（2.2）输出特征图

宽高矩阵变化为一维向量，形成新的特征图输入到人体目标检测Transformer编码器，经过其6层编码器层后输出联系图像上下文的特征图

；然后设定一组固定的可学习嵌入目标查询向量，将其与特征图

输入到人体目标检测Transformer解码器，经过6层解码器层，人体目标检测 Transformer解码器根据图像特征的上下文推理对象之间的关系，并行输出个目标查询向量即目标预测输出数目，并送入分类头和目标框回归头，其中分类头由一层全连接层构成并输出人体和背景两个类别的置信度，目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信息。

进一步的，所述人体目标检测Transformer编码器和解码器均采用DEtectionTransformer即DETR中的编码器及解码器结构，编码器包含M个编码器层，每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成；解码器包含M个解码器层，每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。

进一步的，所述步骤四具体包括如下步骤：

（4.1）将步骤三输出的人体目标框按置信度降序排列，选取前k个人体目标框，通过RoiAlign算法映射该k个人体目标框在步骤（2.2）输出特征图

上所对应的子特征图；

（4.2）将子特征图宽高矩阵变为一维向量，形成新的特征图，并加入可学习的位置编码矩阵，经过层归一化后通过可学习投影矩阵做投影变换，得到query即

；

（4.3）将步骤（2.1）输出的Conv5层特征图

先通过1×1卷积降低通道维度，再将特征宽高矩阵变为一维向量，形成新的特征图，后续处理同query一致，得到key即K和value 即V。

进一步的，所述步骤五具体为：将

、K及V送入群体行为识别Transformer编码器模块，该编码器模块有3层，每层并排两个头，每个头为一个群体行为识别Transformer基础模块，将

、K及V送入第一层中的两个头，并行输出两个编码矩阵，对这两个输出编码矩阵进行连接操作，得到该层更新后的query，并作为下一层的输入，通过3层Transformer编码层后，输出群体级别时空编码特征图，最后将群体级别时空编码特征图送入多层感知机层，得到群体行为识别预测值及其置信度。

进一步的，所述步骤五包括以下步骤：

（5.1）利用步骤四输出的

、K，通过点积运算计算第

层第

个头自注意力权重矩阵

：

（5.2）通过步骤（5.1）得到的注意力权重矩阵和步骤四得到的value矩阵加权求和，求和结果经过dropout层后与原始

相加得到

，

经过层归一化后与经过两层前馈神经网络层和dropout层的矩阵进行残差连接，最后再经过一层归一化层得到更新后的

；

（5.3）连接步骤（5.2）输出的第层每个头输出

得到新的

，

作为

层输入，并按步骤（5.2）迭代计算query更新值，直至经过三层Transformer编码层后，得到最终群体级别时空编码特征图；

（5.4）将步骤（5.3）输出的编码特征图送入一层多层感知机层，得到群体行为识别预测值及其置信度。

进一步的，所述损失函数包括：二分类损失

、回归损失

和多分类损失

，对每个损失进行加权求和，并使用超参数α、β及γ调节各损失函数的权重得到总的损失

：

其中α、β及γ为权重，

是一个指示函数，当

时为1，反之为0；所述二分类损失

由分类头输出的预测值与匹配上的目标框真实值计算得到，所述回归损失

由回归头目标框位置预测值与匹配上的目标框真实值计算得到，所述多分类损失

由多层感知机层即多分类头的输出预测值与真实标签值计算得到。

进一步的，所述网络模型训练为初始化人体目标检测Transformer，所述人体目标检测Transformer采用DEtection Transformer即DETR， DETR中使用的是2D resnet50，通过在时间维度重复2D resnet50参数值T次，使得RGB图像

变为

进行初始化，基于损失函数对网络进行反向传播，并通过批量梯度下降法不断更新网络参数，在批量训练后模型达到收敛。

与现有技术相比，本发明的有益效果在于：

（1）设计了一种基于级联Transformer的视频群体行为识别模型，将人体目标检测Transformer和群体行为识别Transformer联合实现端到端的训练，避免手工特征提取和离线训练，减少算法的复杂度。

（2）改进的三维卷积神经网络有效提取时空特征图，结合第一级人体目标检测Transformer回归的高置信度人体目标框，在特征图上映射人体目标框子特征图，使第二级网络重点关注人体行为特征，避免背景噪声干扰，使得算法对复杂场景更具有鲁棒性。

（3）群体行为识别Transformer通过多层多头的自注意力机制，通过自注意力权重计算，区分群体中个体贡献程度，实现复杂个体间空间和时间上下文关系的特征融合，有效提高群体行为识别准确率。本发明方法在重新标注人体目标框后的RWF-2000打架验证数据集上达到92.3%的准确率，有效提升了准确率。

（4）本发明方法能有效识别视频中的群体行为，预防危险事件的发生，有着广泛的应用价值，适用于室内外复杂场景下的视频监控，特别适用于识别打架、奔跑、聚集群体行为。

附图说明

图1是本发明的数据集生成流程图；

图2是本发明的一种基于级联Transformer的视频群体行为识别方法流程图；

图3是本发明的人体目标检测Transformer网络架构图；

图4是本发明的群体行为识别Transformer网络架构图；

图5是本发明的群体行为识别Transformer编码器层基础模块示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图2所示，一种基于级联Transformer的视频群体行为识别方法，首先，采集生成视频数据集，将视频数据集经过三维骨干网络提取三维时空特征，选取关键帧图像空间特征图；对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer，输出关键帧图像中的人体目标框；然后，映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图，结合关键帧图像周围帧特征图计算query/key/value，输入群体行为识别Transfomer，输出群体级别时空编码特征图；最后，经过多层感知机对群体行为进行分类。具体包括以下步骤：

步骤一：采集生成视频数据集。利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集，并按照4:1分为训练集和测试集。具体的，如图1所示，首先网络搜集视频，在网站输入行为类别关键字并下载相关视频，为了数据的多样性，更换关键字语言类别重复搜索；其次筛选网络搜集及本地摄像头独立采集的视频，将重复和行为不相关的视频删除；将视频按照30帧每秒的帧率，以5秒切割视频，删除含噪声和画面模糊的视频片段；最后，标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别，并构建对应类别数据集，所述行为类别分为打架、聚集、奔跑三个类别。

步骤二和步骤三如图3所示，将原始视频序列经过三维卷积神经网络提取时间和空间特征图，选取关键帧图像的空间特征图并加上位置编码信息合成新的嵌入向量，嵌入向量经过尺度变换后输入人体目标检测Transformer编码器，通过自注意力机制提取图像编码特征，将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器，输出目标查询向量，最后经过全连接层和多层感知机层构建分类头和回归头，分别预测目标框类别置信度及目标框图像坐标。

所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构，包含M个编码器层，每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成；解码器包含M个解码器层，每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。本实施例中M=6。

其中，步骤二为：输入原始视频序列到骨干网络，在骨干网络的Conv5层获取时间和空间特征图，选取视频关键帧图像特征图，并对关键帧图像特征图进行预处理；具体的，包括以下步骤：

（2.1）骨干网络获取图像序列时间空间特征图。设输入原始视频序列

表示T帧高宽为H×W的RGB图像，选择3D ResNet50深度残差网络为骨干网络，为表征更细节的帧间运动信息，3D Rensnet50的Conv2、Conv3、Conv4及Conv5层在时间维度不进行下采样，仅在空间维度进行下采样，则可获取Conv5层特征图

，

，Conv5层特征图大小为

，其中C=2048表示通道维度。

（2.2）关键帧图像特征图及其预处理。选取时间序列中间帧图像为关键帧图像，获取关键帧图像特征图

，并使用1×1卷积降低特征图通道维度，以减少运算的复杂度，新的特征图表示为

，由于Transformer不能表征位置关系，引入位置编码矩阵

，位置编码采用二维正弦编码方式。设新特征图矩阵为

，

，其中d=256表示降维后的通道维数。

步骤三为：在编码阶段，将步骤（2.2）输出特征图宽高矩阵变化为一维向量，形成大小为

的特征图输入到DETR的编码器的第一层，经过6层编码器层后输出联系图像上下文的特征图

，其中N 表示图像中需要检测的人体目标物数量；在解码阶段，预设一组固定的可学习嵌入目标查询（object query）向量，及编码阶段输出特征图

输入到解码器的第一层，经过6层解码器层，Transformer解码器根据图像特征的上下文推理对象之间的关系，并行输出N个目标查询向量并送入分类头和目标框回归头，其中分类头由一层全连接层构成并输出人体和背景两个类别的置信度，目标框回归头由一层前馈神经网络构成并输出目标框在图像上的坐标信息

，其中

表示目标框中心点坐标，

表示目标框宽和高。

步骤四和步骤五如图4所示，将步骤（2.2）输出的关键帧图像特征图、步骤三输出的类别置信度及目标框在图像上的坐标作为输入，计算query、key及value并送入群体行为识别Transformer编码器模块，该编码器模块有3层，每层并排2个头，输出联系图像上下文的特征图，最后，该特征图通过多层感知机层输出群体行为类别及其置信度。

其中，步骤四为：将步骤（2.2）输出的关键帧特征图

、步骤三输出的目标类别置信度及目标框在图像上的坐标作为输入，利用目标类别置信度筛选人体目标框，在特征图

上映射筛选人体目标框所对应的子特征图，并对该子特征图做预处理得到query，将关键帧周围的帧图像通过线性映射得到key和value；具体的，包括以下步骤：

（4.1）人体目标特征图映射。

将步骤三输出的人体目标框按置信度降序排列，选取前k个人体目标框，通过 RoiAlign算法映射该k个人体目标框在步骤（2.2）输出特征图

上所对应的子特征图，子特征图

，其中

，表示特征图高宽，通道维数d=256，k=30。

（4.2）query、key、value计算。

将子特征图

宽高矩阵变为一维向量，形成大小为

的特征图，加入可学习的位置编码矩阵，经过层归一化后通过可学习投影矩阵做投影变换，得到query即Q；具体表达式如下：

其中LN()表示层归一化，

，A 表示自注意力头的个数，

,L表示组成Transformer编码器模块的个数，

表示可学习投影矩阵，

表示可学习编码矩阵；

（4.3）将步骤（2.1）输出的Conv5层特征图

先通过1×1卷积较低通道维度至256，再将特征宽高矩阵变为一维向量，形成大小为

的特征图

，后续处理同query一致，得到key即K和value即V；具体表达式如下：

其中

表示可学习投影矩阵，

表示可学习编码矩阵。

步骤五为：将

、K及V送入群体行为识别Transformer编码器模块，通过每层每个头计算更新后的query，每个头为一个Transformer基础模块，将

、K及V送入第一层中的两个头，并行输出两个编码矩阵，对这两个输出编码矩阵进行连接操作，得到该层更新后的 query，并作为下一层的输入，通过3层Transformer编码层后，输出群体级别时空编码特征图，最后将群体级别时空编码特征图送入多层感知机层，得到群体行为识别预测值及其置信度；具体的，包括以下步骤：

（5.1）自注意力计算。利用步骤四得到

、K，通过点积运算计算第

层第

个头自注意力权重矩阵

，具体表达式如下：

其中SM（）表示softmax激活函数，

表示每个注意力头的维度，D为key的维度。

（5.2）第

层第

个头编码特征图

计算。如图5所示，通过步骤（5.1）得到的注意力权重矩阵和步骤四得到的value矩阵加权求和，求和结果经过dropout层后与原始

相加得到

，

，可通过以下公式实现：

其中FFN（）表示前馈神经网络层。

（5.3）编码特征图计算。

由步骤（5.2）得到

后，连接该层每个头输出得到

，

作为

层输入，并按步骤（5.2）计算query更新值，直至经过3层Transformer编码层后，得到最终群体级别时空编码特征图

。

（5.4）群体行为类别及其置信度。

将步骤（5.3）输出的群体级别时空编码特征图送入多层感知机层，得到群体行为识别预测值及其置信度，表达式为

，其中y表示群体行为识别预测值。

步骤六：损失函数构造及模型训练。整个网络包含三个损失：二分类损失

、回归损失

和多分类损失

。

根据步骤三构建的分类头输出预测值与匹配上的目标真实值计算二分类损失

，设y表示目标真值集合，

表示目标预测值，其中N表示目标物预测输出数目，本实施例中取N=50，由于预测输出值大于图像中真值，将集合y用

补齐，

表示没有目标，使用匈牙利算法匹配预测值与真实值，再计算已匹配上的预测值与真实值之间的损失

。

其中

表示第i个目标真实标签值，

表示使用匈牙利算法匹配上第i个真值所对应的预测值的下标，

表示与第i个真值匹配上的预测值属于类别

的概率。

根据步骤三构建的回归头输出目标框位置预测值与匹配上的目标框真实值计算回归损失

：

其中

表示第i个目标真实回归框位置，

表示与第i个真值匹配上预测回归框位置值，Area()表示目标框面积，

和

是超参数，本实施例中

和

。

根据步骤（5.4）多分类头输出预测值与真实标签值计算多分类损失

：

其中K表示行为类别数，

表示行为类别真实标签，

表示预测值为

的概率。

对每个损失进行加权求和，并使用超参数α、β及γ调节各损失函数的权重得到总的损失

：

其中α、β及γ为权重，本实施例中α=1、β=1，γ=0.5。

是一个指示函数，当

时为1，反之为0。

使用DETR在COCO上的预训练模型初始化步骤三中的人体目标检测Transformer，使网络具备先验知识，避免训练初始阶段损失过大，模型难以收敛的情况。由于本实施例中骨干网络使用的是3D resnet50，DETR中使用的是2D resnet50，通过在时间维度重复2D resnet50参数值T次，使得

变为

进行初始化。基于损失函数对网络进行反向传播，并通过批量梯度下降法不断更新网络参数，在10万次批量训练后模型达到收敛。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于级联Transformer的视频群体行为识别方法，其特征在于，包括以下步骤：

步骤五：将query、key及value送入群体行为识别Transformer编码器模块，输出群体级别时空编码特征图，经多层感知机层输出群体行为识别预测值及其置信度；

步骤六：构造损失函数并训练网络模型。

2.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤一具体为：利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据，将采集的视频按照30帧每秒的帧率，以5秒切割视频，删除含噪声和画面模糊的视频片段，标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别，并构建对应类别数据集，所述行为类别包括打架、聚集、奔跑三个类别。

3.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤二具体包括如下步骤：

（2.1）选择3D ResNet50深度残差网络为骨干网络， 3D Rensnet50的Conv2、Conv3、 Conv4及Conv5层在时间维度不进行下采样，仅在空间维度进行下采样，获取Conv5层特征图

，T表示T帧；

，并使用1× 1卷积降低特征图通道维度，新的特征图表示为

，引入位置编码矩阵

，位置编码采用二维正弦编码方式，得到新特征图矩阵为

。

4.如权利要求3所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤三具体为：将步骤（2.2）输出特征图

输入到人体目标检测Transformer解码器，经过6层解码器层，人体目标检测Transformer解码器根据图像特征的上下文推理对象之间的关系，并行输出N个目标查询向量即目标预测输出数目，并送入分类头和目标框回归头，其中分类头由一层全连接层构成并输出人体和背景两个类别的置信度，目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信息。

5.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构，编码器包含M个编码器层，每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成；解码器包含M个解码器层，每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。

6.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤四具体包括如下步骤：

（4.1）将步骤三输出的人体目标框按置信度降序排列，选取前k个人体目标框，通过 RoiAlign算法映射该k个人体目标框在步骤（2.2）输出特征图

上所对应的子特征图；

；

（4.3）将步骤（2.1）输出的Conv5层特征图

先通过11卷积降低通道维度，再将特征宽高矩阵变为一维向量，形成新的特征图，后续处理同query一致，得到key即K和value即V。

7.如权利要求6所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤五具体为：将

、K及V 送入第一层中的两个头，并行输出两个编码矩阵，对这两个输出编码矩阵进行连接操作，得到该层更新后的query，并作为下一层的输入，通过3层Transformer编码层后，输出群体级别时空编码特征图，最后将群体级别时空编码特征图送入多层感知机层，得到群体行为识别预测值及其置信度。

8.如权利要求7所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述步骤五包括以下步骤：

（5.1）利用步骤四输出的

、K，通过点积运算计算第

层第

个头自注意力权重矩阵

：

相加得到

，

；

（5.3）连接步骤（5.2）输出的第层每个头输出

得到新的

，

作为

（5.4）将步骤（5.3）输出的群体级别时空编码特征图送入一层多层感知机层，得到群体行为识别预测值及其置信度。

9.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述损失函数包括：二分类损失

、回归损失

和多分类损失

：

其中α、β及γ为权重，

是一个指示函数，当

时为1，反之为0；所述二分类损失

10.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述网络模型训练为初始化人体目标检测Transformer，所述人体目标检测 Transformer采用DEtection Transformer即DETR， DETR中使用的是2D resnet50，通过在时间维度重复2D resnet50参数值T次，使得RGB图像

变为