CN117095460A

CN117095460A - 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统

Info

Publication number: CN117095460A
Application number: CN202311008758.5A
Authority: CN
Inventors: 吴钺; 周琬婷; 孔龙腾; 孙沐毅; 张曼
Original assignee: China Science Heilongjiang Digital Economy Research Institute Co ltd; Beijing University of Posts and Telecommunications
Current assignee: China Science Heilongjiang Digital Economy Research Institute Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-21

Abstract

本发明属于视频分析技术领域，具体涉及一种基于长短时关系预测编码的自监督群体行为识别方法及其识别系统。个体时空特征提取，将视频数据转化为个体级别的时空特征；自监督学习模型，构建由时空特征编码器和长短时关系预测解码器组成的自学习网络结构来描述群体活动的状态变化；自监督训练，对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；目标网络微调，利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。本发明对群体行为中复杂的动态模式进行建模，并逐步预测未来的群体关系特征与状态，实现监督受限条件下高效、精确的群体行为识别。

Description

基于长短时关系预测编码的自监督群体行为识别方法及其识别系统

技术领域

本发明属于视频分析技术领域，具体涉及一种基于长短时关系预测编码的自监督群体行为识别方法及其识别系统。

背景技术

群体行为识别是指给定一个包含多人场景的视频，识别出视频中多个个体共同完成的群体活动。这一任务在视频理解领域中占据重要地位，可应用于运动竞赛分析、监控视频理解、日常行为检测等实际场景。鉴于其巨大的科学研究与实际应用价值，研究人员在此任务上投入了大量精力。如今，随着深度学习的快速发展，传统算法已被基于深度神经网络的特征提取方法所取代。尽管现有基于深度学习的群体行为识别技术取得了显著进步，它们仍主要依赖监督学习或弱监督学习，需要大量有标签的数据集进行模型训练。然而，人工标注群体行为标签耗费大量的人力资源，成本高昂，在很大程度上限制了这些方法的应用。

为解决这一问题，当前研究趋向于使用自监督学习(Self-Supervised Learning,SSL)技术，使得深度模型的优化摆脱昂贵的标注信息。现有的SSL方法大部分为图像的自监督表征学习模型。其中，对比学习技术被证明是一种有效的自监督表征学习方法。近年来，随着对比学习的成功，许多方法将其应用于视频的自监督特征学习，受到越来越多的关注。一些方法，例如对比动作表征学习(CARL)和视频自监督协同训练对比学习(CoCLR)，已经接近全监督的视频表征方法。

然而，由于群体行为中复杂的上下文动态，现有的SSL方法在群体行为表征学习方面仍存在挑战。目前基于对比学习的视频SSL方法通常采用整体表征，例如，采用3D CNN提取的视频特征来构建表征对，但是这将由于模型交互的不足而导致性能受限。另外，群体中个体互动随时间变化很大，且持续时间更长。现有的视频SSL方法从相隔较大的时隙实现表征对的时空一致性只能捕获很少的共享信息，而预测编码方案通过将未来变化预测到一致空间来考虑时间演变，以最大化对比表征对之间的一致性，显示出了学习群体行为表征的能力。但这些方法在描述复杂关系转换方面仍然能力不足，将会大大影响对群体行为的理解。此外，由于群体行为中复杂的上下文动态关系，常用的基于循环神经网络(RNN)和长短期记忆网络(LSTM)的方法建模复杂个体关系转换的能力有限，大大影响群体关系预测的性能。因此，群体行为表征的自学习需要一种新颖的自监督方法。

发明内容

本发明提供一种基于长短时关系预测编码的自监督群体行为识别方法，对群体行为中复杂的动态模式进行建模，并逐步预测未来的群体关系特征与状态，实现监督受限条件下高效、精确的群体行为识别。

本发明提供一种基于长短时关系预测编码的自监督群体行为识别系统用于实现基于长短时关系预测编码的自监督群体行为识别方法。

本发明提供一种计算机可读存储介质，内存储有计算机程序，计算机程序被处理器执行时实现识别方法。

本发明通过以下技术方案实现：

一种基于长短时关系预测编码的自监督群体行为识别方法，包括，

个体时空特征提取模块，将视频数据转化为个体级别的时空特征；

自监督学习模型，构建由时空特征编码器和长短时关系预测解码器组成的自学习网络结构来描述群体活动的状态变化；所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息；所述长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态；

自监督训练，对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；

目标网络微调，利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。

进一步的，所述时空特征编码器建模不同粒度的状态信息包括短期的空间上下文的信息与长期的历史状态。

进一步的，所述长短时关系预测解码器具体用于挖掘群体中的短期的空间上下文的信息与长期的历史状态的关联信息，通过状态注意力模块得到群体行为高级语义，并通过层级多头自注意力来预测未来群体状态。

进一步的，通过状态注意力模块接收时空特征编码器的输出具体为，状态注意力模块有三组可学习的参数矩阵，分别是Q,K,V矩阵；将短期空间上下文信息经过Q矩阵映射得到的信息与长期历史状态信息经过K和V矩阵映射得到的信息相融合得到最终的输出；再通过状态更新单元将状态注意力模块的输出与上一个状态经过Q矩阵映射的输出相加作为其输入以生成短期上下文信息；最后通过时空特征编码器融合状态更新模块中的输出与上一帧解码器模块的输出信息来更新长期状态信息。

进一步的，对所述网络结构进行自监督训练包括：

在长短时关系预测的过程中，基于预测的及真实的短期空间上下文信息与长期的历史状态信息计算联合损失；

基于联合损失，通过梯度反向传播算法迭代调整所述网络结构的各项参数，直至训练收敛，并得到初始化的群体行为识别目标网络。

进一步的，所述联合损失包括：群体级别的对比损失和序列级别的对抗损失，

其中，群体级别的对比损失用于保证群体级别特征的保真性，提升个体以及群体行为特征的预测精度；

序列级别的对抗损失用于提高序列级别上预测内容的连贯性和相对于真实内容的一致性。

进一步的，所述使用少量样本对初始化的群体行为识别目标网络进行微调具体为，在特征自学习目标网络后中添加一个非线性激活层和一个分类层，特征自学习目标网络和线性分类层各项参数都在有标注的训练样本约束下进行微调。

一种基于长短时关系预测编码的自监督群体行为识别装置，包括：

自监督学习模型模块，构建由时空特征编码器和长短时关系预测解码器组成的自学习网络结构来描述群体活动的状态变化；所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息；所述长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态；

自监督训练模块，用于对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；

目标网络微调模块，用于利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。

一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：

本发明提供了一种基于长短时关系预测编码的自监督群体行为识别方法及其识别系统。个体时空特征提取模块，将视频数据转化为个体级别的时空特征；自监督学习模型，构建由时空特征编码器和长短时关系预测解码器组成的自学习网络结构来描述群体活动的状态变化；自监督训练，对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；目标网络微调，利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。此外，本申请提供的方法识别准确率均优于现有方法，具有有效性和泛化性，实现了有限监督下的高效精确群体行为识别。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

下面结合本申请实施例中的附图1，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

获得个体特征视频数据；即对个体特征提取，利用骨干网络将原始的群体行为视频数据转化为个体特征；

上述群体行为视频数据包括Volleyball,Collective Activity和VolleyTactic数据集这三个群体行为数据集中的数据；分别对上述群体行为视频数据进行预处理，将每一帧都被调整为720×1280的分辨率，并选择T＝20帧作为后续步骤中群体特征，其中30％的帧用于未来预测；用膨胀三维卷积模型提取每个人物在每帧中的1024维特征。使用Adam优化器,学习率为0.001,权重衰减为0.0001，对自监督模型的输入进行训练，以实现在多个视频数据集上对群体行为进行分析；

所述个体特征提取具体用于：将预训练的膨胀三维卷积网络作为骨干提取特征图对输入的视频片段进行特征提取；

根据特征提取的结果通过目标检测框对齐之后进行个体特征提取；

根据特征提取的结果分别建立外观特征分支和姿态特征分支；

通过全连接层连接所述外观特征分支和所述姿态特征分支，得到视频片段中每个个体的d维特征向量。

特征提取是一个预处理过程，将视频信息转换为个体信息。具体地，给定T帧的输入视频片段X_video，以预训练得到的膨胀三维卷积网络为骨干提取特征图对X_video进行特征提取；首先通过检测结果和特征对齐方法从特征图中提取每个人的d维特征向量，其次在个体的区域图上应用姿态估计网络提取姿态特征，同样是d维向量。二者通过容量为d的线性层融合，产生最终的个体表示。

将个体特征视频数据通过长短时关系进行预测，通过动态预测未来群体状态来挖掘获得群体活动有意义的时空特征；

基于群体活动有意义的时空特征，构建自学习模型的网络结构来描述群体活动的状态变化；所述网络结构由时空特征编码器和长短时关系预测解码器组成；其中，所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息；所述长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态；

对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；

利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。

通过动态预测未来群体状态来挖掘群体活动有意义的时空特征。构建自学习模型的网络结构来描述群体活动的状态变化，所述网络结构由时空特征编码器和长短时关系预测解码器组成。其中，所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息，长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态。

所述长短时关系预测编码具体用于：

汇总观察群体状态动态；

通过稀疏图变换器得到群体短期的空间状态特征；

其中N是个体数量,d为特征维度；

通过因果时间变换器(CTT)得到群体的长期历史特征；

T为帧数。

所述时空特征编码器目的为基于个体表示构建有向关系图,用节点表示个体，边表示个体的关系，此时两个个体之间建立边的条件是它们之间的距离小于一个阈值u。同时，采用图卷积神经网络(Graph Convolutional Network,GCN)对每个节点的特征向量pi进行更新和增强GCN更新后的节点特征向量包含节点自身信息和与其相关的个体交互信息，产生群体关系的高级语义信息。

所述长短时关系预测解码器具体用于：

根据所述膨胀三维卷积网络使用膨胀三维卷积网络从视频帧中提取人物检测框对应的d维特征；

通过长短时关系预测机制将所述短期的空间上下文的信息与长期的历史状态进行结合，通过卷积、归一化及池化操作，在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。

在一种实施方式中，长短时关系预测解码器根据时空特征编码器所提供的短期空间特征与长期历史特征，通过状态注意模块建模二者的关联关系。具体地，将短期空间特征抽象为查询矩阵Q∈R^N×d；长期历史特征抽象为键值矩阵，此过程表示为：K＝f_k(G_t),V＝f_v(G_t),K,V∈R^N×d，随后通过/>计算方法产生出注意力融合得分。此时，为了避免梯度消失问题，状态注意模块通过ReLU限制f_q,f_k,f_v的输出为非负，此时状态注意模块的输出可以被表示为/>而状态更新模块通过结合状态注意模块的查询结果和状态注意模块的键值的两个信号作为新的时间步的短期空间状态特征，并通过聚合更新后的个人状态以得到预测的群体状态g_t，再将g_t插入/>序列的尾部并移除序列头部的历史群体状态的操作生成新的长期历史状态。

进一步的，所述长短时关系预测解码器搞错过程具体为，通过状态注意力模块接收时空特征编码器的输出，状态注意力模块有三组可学习的参数矩阵，分别是Q,K,V矩阵；将短期空间上下文信息经过Q矩阵映射得到的信息与长期历史状态信息经过K和V矩阵映射得到的信息相融合得到最终的输出；再通过状态更新单元将状态注意力模块的输出与上一个状态经过Q矩阵映射的输出相加作为其输入以生成短期上下文信息；最后通过时空特征编码器融合状态更新模块中的输出与上一帧解码器模块的输出信息来更新长期状态信息。

进一步的，对所述网络结构进行自监督训练包括：

所述群体级别的对比损失函数为：

其中，i是预测中的时间节点，φ(·)是相似度函数，通过为群体级别的特征对分配最大值以完成优化。

进一步的，所述对抗损失用于提高预测的一致性。引入一个基于Transformer的一致性判别器D来检查预测状态和序列水平上的基础真实状态之间的一致性并输出输入序列符合标记结果的概率。将真实的序列级别的群体表征记为G_T作为真样本，将长短时关系预测解码器的预测结果记为作为假样本。预测状态由模型/>也就是时空特征解码器和长短时关系预测解码器生成，并通过模型/>的质量判断对虚假样本对鉴别器D的欺骗程度，并通过以下算式来解决最小优化问题：

其中，分布E(·)是针对数据的期望值。

进一步的，上述三部分损失的和即为联合损失，表示为：

其中，模型的目标是使目标最小化，而D的目标是使目标最大化。

进一步的，所述使用少量样本对初始化的群体行为识别目标网络进行微调具体为，由于无法直接评估群体特征自监督模型的表征学习能力，因此本发明实施例基于上述自监督训练获得的特征自学习目标网络，对下游识别任务进行基于监督学习的微调，并进行评估，所述基于少量样本对所述群体行为特征自学习目标网络进行微调包括：根据预设的群体行为识别任务，基于少量样本对所述群体行为特征自学习目标网络进行微调，产生最终的识别模型；所述群体行为识别任务为微调整个网络结构进行群体行为识别时；

该微调过程包括：在特征自学习目标网络后中添加一个非线性激活层和一个分类层，特征自学习目标网络和线性分类层各项参数都在有标注的训练样本约束下进行微调。

群体行为识别的监督学习中，输入的群体行为视频样本遵循与上述群体特征自监督模型相同的采样程序。此时，在训练阶段中，视频样本中全部帧可用于训练，无需考虑预测。且当群体行为识别以预设的群体行为识别任务进行评估时，可采用交叉熵损失训练分类器。具体的，在训练线性分类器进行群体行为识别中，训练集中的所有样本都输入网络以训练分类器；在微调整个网络结构进行群体行为识别中，随机选择30％带有标签的样本，以微调网络结构中的所有参数。在测试阶段遵循标准流程，从视频样本中获取与训练阶段相同的序列长度进行测试，进而实现在视频数据集上对群体行为进行分析。

由上可见，本发明实施例提供了一种群体特征自监督模型的构建方法，包括个体特征提取；基于长短时关系预测编码，构建群体特征自监督模型的网络结构，所述网络结构包括时空特征编码器和长短时关系预测解码器；对所述网络结构进行自监督训练，得到初始化的群体行为识别目标网络；基于少量监督学习对所述特征自学习目标网络进行微调，得到用于实现群体行为识别的目标网络。本发明实施例提供了一种新的端到端框架，称为基于长短时关系预测解码器的群体行为特征自学习模型，用于群体行为表征自学习。通过长短时关系预测解码器历史状态动态逐步预测未来的群体状态，保持短期空间状态上下文和长期历史状态演化的最新状态，从而得到更全面的自监督群体行为表征。

下面以一实验对本发明实施例一所提供的自监督群体行为识别方法的效果进行展示。

基于本发明实施例提出的自监督群体行为识别方法，在三个广泛使用的群体行为数据集(Volleyball、Collective Activity和VolleyTactic数据集)上进行了实验，并与所有数据集的最新方法进行了比较，实验结果表明，本发明实施例提出的自监督群体行为识别方法识别准确率均优于现有方法，证实了方法的有效性和泛化性。

实施例二

本发明实施例提供了一种基于长短时关系预测编码的自监督群体行为识别装置，所述识别装置包括个体特征提取模块、长短时关系预测模块、自学习网络模块、自监督训练模块和微调模块；

所述个体特征提取模块，用于获得个体特征视频数据；即对个体特征提取，利用骨干网络将原始的群体行为视频数据转化为个体特征；

所述自学习网络模块，用于基于群体活动有意义的时空特征，构建自学习模型的网络结构来描述群体活动的状态变化；所述网络结构由时空特征编码器和长短时关系预测解码器组成；其中，所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息；所述长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态；

所述自监督训练模块，用于对自学习模型的网络进行自监督训练，得到初始化的群体行为识别目标网络；

所述微调模块，用于利用少量样本对初始化的群体行为识别目标网络进行微调，得到目标网络，通过所述目标网络进行群体行为识别。

由上可见，本发明实施例基于长短时关系预测解码器的群体行为特征自学习模型，用于群体行为表征自学习。通过长短时关系预测解码器历史状态动态逐步预测未来的群体状态，保持短期空间状态上下文和长期历史状态演化的最新状态，从而得到更全面的自监督群体行为表征。

实施例三

本发明实施例提供了一种电子设备，该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，其中，存储器用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地，处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器、快闪存储器和随机存储器，并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。

由上可见，本发明实施例提供的电子设备，可通过运行计算机程序实现如自监督群体行为识别系统，一种新的端到端框架，称为基于长短时关系预测解码器的群体行为特征自学习模型，用于群体行为表征自学习。通过长短时关系预测解码器历史状态动态逐步预测未来的群体状态，保持短期空间状态上下文和长期历史状态演化的最新状态，从而得到更全面的自监督群体行为表征。

应当理解，上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于以计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中，相互参照，不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，包括，

个体时空特征提取，将视频数据转化为个体级别的时空特征；

自监督学习模型，构建由时空特征编码器和长短时关系预测解码器组成的自学习网络结构来描述群体活动的状态变化；其中，所述时空特征编码器通过利用自注意力机制建模不同粒度的状态信息；所述长短时关系预测解码器通过关注短期的空间状态信息和长期的历史状态信息演变来预测未来的群体状态；

2.根据权利要求1所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，所述时空特征编码器建模不同粒度的状态信息包括短期的空间上下文的信息与长期的历史状态，用于提取群体的时间与空间特征，通过构建群体的稀疏图并对长期演化状态建模。

3.根据权利要求1所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，所述长短时关系预测解码器具体用于挖掘群体中的短期的空间上下文的信息与长期的历史状态的关联信息，通过状态注意力模块得到群体行为高级语义，并通过层级多头自注意力来预测未来群体状态。

4.根据权利要求3所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，所述长短时关系预测解码器搞错过程具体为，通过状态注意力模块接收时空特征编码器的输出具体为，状态注意力模块有三组可学习的参数矩阵，分别是Q、K、V矩阵；将短期空间上下文信息经过Q矩阵映射得到的信息与长期历史状态信息经过K和V矩阵映射得到的信息相融合得到最终的输出；再通过状态更新单元将状态注意力模块的输出与上一个状态经过Q矩阵映射的输出相加作为其输入以生成短期上下文信息；最后通过时空特征编码器融合状态更新模块中的输出与上一帧解码器模块的输出信息来更新长期状态信息。

5.根据权利要求1所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，对所述网络结构进行自监督训练包括：

6.根据权利要求5所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，所述联合损失包括，群体级别的对比损失和序列级别的对抗损失，

7.根据权利要求5所述一种基于长短时关系预测编码的自监督群体行为识别方法，其特征在于，所述使用少量样本对初始化的群体行为识别目标网络进行微调具体为，在特征自学习目标网络后中添加一个非线性激活层和一个分类层，特征自学习目标网络和线性分类层各项参数都在有标注的训练样本约束下进行微调。

8.一种基于长短时关系预测编码的自监督群体行为识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。