CN116704433A - 基于上下文感知关系预测编码的自监督群体行为识别方法 - Google Patents
基于上下文感知关系预测编码的自监督群体行为识别方法 Download PDFInfo
- Publication number
- CN116704433A CN116704433A CN202310598477.3A CN202310598477A CN116704433A CN 116704433 A CN116704433 A CN 116704433A CN 202310598477 A CN202310598477 A CN 202310598477A CN 116704433 A CN116704433 A CN 116704433A
- Authority
- CN
- China
- Prior art keywords
- self
- group
- group behavior
- context
- target network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 136
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 17
- 239000003550 marker Substances 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 abstract description 16
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种基于上下文感知关系预测编码的自监督群体行为识别方法,属于视频分析技术领域,包括获取群体行为视频数据;基于上下文感知关系预测编码,构建群体行为特征自学习模型的网络结构,网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器;对网络结构进行自监督训练,得到群体行为特征自学习目标网络;基于少量样本对特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请通过上下文感知关系预测编码捕捉上下文关系,从而得到更全面准确的群体行为自学习表征。适用于缺乏标注的高效精确群体行为识别。
Description
技术领域
本申请涉及一种基于上下文感知关系预测编码的自监督群体行为识别方法,属于视频分析技术领域。
背景技术
群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在完成的群体活动。群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中。由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注。目前,随着深度学习的不断发展,基于深度神经网络的特征提取方法已取代了传统算法。然而,现有的基于深度学习算法的群体行为识别技术虽然取得了显著的进步,但大多基于监督学习或弱监督学习,需要利用大量有标签的数据集对模型进行训练,手动标注群体行为标签需要消耗大量的人力和资源,成本高昂。
针对上述问题,现阶段的一些研究关注于自监督学习(SSL),一般来说,现有的SSL方法通常为基于上下文的方法,也被称为图像的自监督表征学习。对比学习是一种自监督表征学习方法,近年来,随着对比学习的巨大成功,许多方法将其用于提取视频特征表示。此外,利用对比学习进行视频预测的编解码方案在视频理解中受到了越来越多的关注,例如对比动作表征学习(CARL)和视频自监督协同训练对比学习(CoCLR)。
然而,由于群体行为中复杂的上下文动态,上述SSL方法在群体行为表征学习方面仍然存在一些困难。当前基于对比学习的视频SSL方法通常采用整体表征,例如,用3D CNN提取的视频特征来构建表征对,这会由于模型交互的不足而导致性能受限。此外,群体中的个体互动随着时间的推移变化很大,且持续时间更长。现有的视频SSL方法从相隔较大的时隙实现表征对的时空一致性只能捕获很少的共享信息,而预测编码方案通过将未来变化预测到一致空间来考虑时间演变,以最大化对比表征对之间的一致性,显示出了学习群体行为表征的能力。但上述方法都受限于描述复杂关系转换的能力不足,会大大影响对群体行为的理解。此外,由于群体行为中复杂的上下文动态关系,常用的基于循环神经网络(RNN)和长短期记忆网络(LSTM)的方法建模复杂个体关系转换的能力有限,会大大影响性能。因此,本领域现有的视频自监督学习(SSL)方法的表征学习能力依然存在较大提升空间。
发明内容
本申请的目的在于提供一种基于上下文感知关系预测编码的自监督群体行为识别方法,基于上下文感知关系预测编码提出了新的端到端的群体特征自监督模型,可以捕捉上下文关系,进行群体行为表征自学习,实现有限标注条件下的高效精确群体行为识别。
为实现上述目的,本申请第一方面提供了一种基于上下文感知关系预测编码的自监督群体行为识别方法,包括:
获取群体行为视频数据;
基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
在一种实施方式中,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态线索分支;
通过全连接层连接所述外观特征分支和所述姿态线索分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
在一种实施方式中,所述注意力机制编码器具体用于:
挖掘群体间的空间和时间交互关系,通过多头注意力模块得到群体行为高级语义编码信息,作为所述高级语义。
在一种实施方式中,所述混合上下文Transformer解码器具体用于:
根据所述I3D网络的最后一个卷积层获取未来视频帧的场景上下文信息;
通过Transformer自注意力机制将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,通过卷积、归一化及池化操作,在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。
在一种实施方式中,所述对所述网络结构进行自监督训练包括:
在所述混合上下文Transformer解码器进行预测的过程中,基于所述群体行为高级语义编码信息、所述场景上下文信息以及所述群体行为特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
在一种实施方式中,所述联合损失包括:
个体间对比损失和对抗损失,其中,所述个体间对比损失用于进行细粒度预测,提升个体层面群体行为特征的预测精度;所述对抗损失用于提高预测的一致性。
在一种实施方式中,所述基于少量样本对所述群体行为特征自学习目标网络进行微调包括:
根据预设的群体行为识别任务,基于少量监督学习样本对所述群体行为特征自学习目标网络进行微调,实现对所述群体行为特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层各项参数都在有标注的训练样本约束下进行微调。
本申请第二方面提供了一种基于上下文感知关系预测编码的自监督群体行为识别装置,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
训练模块,用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
微调模块,用于基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
本申请第三方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
本申请第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
由上可见,本申请提供了一种基于上下文感知关系预测编码的自监督群体行为识别方法,包括获取群体行为视频数据;基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器;对所述网络结构进行自监督训练,得到特征自学习目标网络;基于少量样本对所述特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请提供了一种新的端到端框架,称为基于上下文感知关系预测编码的群体行为特征自学习模型,用于群体行为表征自学习。通过上下文感知关系预测编码捕捉上下文关系,可以将群体行为高级语义编码信息和所述场景上下文信息进行结合,从而得到更全面的自监督群体行为表征。此外,本申请提供的方法识别准确率均优于现有方法,具有有效性和泛化性,实现了有限监督下的高效精确群体行为识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种构建群体特征自监督模型的网络结构的流程示意图;
图2为本申请实施例提供的一种对所述特征自学习目标网络进行微调的流程示意图;
图3为本申请实施例提供的一种通过目标网络进行自监督群体行为识别的效果展示图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例一
本申请实施例提供了一种基于上下文感知关系预测编码的自监督群体行为识别方法,如图1和图2所示,该方法包括:
获取群体行为视频数据;
基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
在一种实施方式中,上述群体行为视频数据包括VolleyTactic Dataset和Choi’sNew Dataset两个群体行为数据集中的数据;分别对上述群体行为视频数据进行预处理,将所有视频帧都缩放到720×1280的分辨率,选择T=10帧作为后续步骤中群体特征自监督模型的输入进行训练,以实现在多个视频数据集上对群体行为进行分析。
可选的,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态线索分支;
通过全连接层连接所述外观特征分支和所述姿态线索分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
在一种实施方式中,群体标记生成器是一个预处理模块,包含来自视频的丰富个体信息,以实现初始化个体表示。具体的,给定T帧的输入视频片段Xvideo,由于身体关节的位置及其运动决定了个体的行动,因此首先以预训练得到的I3D网络为骨干提取特征图对Xvideo进行特征提取;群体标记生成器利用外观特征和姿态线索建立了两个分支,并通过全连接层被进一步连接为每个人的D维特征向量。最后,将这些单独的D维特征向量组合成最终的群体标记XG。
可选的,所述注意力机制编码器具体用于:
挖掘群体间的空间和时间交互关系,通过多头注意力模块得到群体行为高级语义编码信息,作为所述高级语义。
在一种实施方式中,所述注意力机制编码器的目的是总结观察Xvideo中的群体关系,充分挖掘群体间的交互关系。由于群体行为涉及复杂的个体间交互关系,因此所述注意力机制编码器通过多头注意力模块对所述群体标记中个体信息和个体间复杂交互信息进行特征提取,得到群体行为高级语义编码信息,作为所述高级语义。或者,在其他实施方式中,所述注意力机制编码器也可以采用其他方式得到所述高级语义,此处不做限定。
可选的,所述混合上下文Transformer解码器具体用于:
根据所述I3D网络的最后一个卷积层获取未来视频帧的场景上下文信息;
通过Transformer自注意力机制将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,通过卷积、归一化及池化操作,在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。
在一种实施方式中,混合上下文Transformer解码器根据注意力机制编码器的高级语义获取观察到的关系语义,并在未来视频帧的场景上下文信息的指导下逐步未来每一帧的空间和时间的群体行为特征。具体的,混合上下文Transformer解码器基于Transformer结构,其中关系语义和场景上下文信息与Transformer自注意力机制相结合。未来视频T’帧的场景提取自I3D模型的最后一个卷积层,可以表示为Xs,通过卷积、归一化及池化操作,生成最终场景上下文信息表示为XSence。从注意力机制编码器生成的第t帧的池化关系语义特征被视为查询Q,而场景上下文将XSence作为键值K,V。在每个预测步骤中,关系语义线索通过计算Q和K的相似性从K捕获未来的相关场景内容。注意力操作Con_Att产生V的加权和的输出,其中进一步添加Q以更新自注意力。第t+1帧的预测结果可以表示成作为混合上下文Transformer解码器的输出。混合上下文Transformer解码器还包含一个Add-Norm层和一个前馈网络层,群体特征自监督模型将前T帧的嵌入视为类似滑动窗口输入,预测结果将被用于下一步的编码和解码中,进行下一帧的预测。
可选的,所述对所述网络结构进行自监督训练包括:
在所述混合上下文Transformer解码器进行预测的过程中,基于所述群体行为高级语义编码信息、所述场景上下文信息以及所述群体行为特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
可选的,所述联合损失包括:
个体间对比损失和对抗损失,其中,所述个体间对比损失用于进行细粒度预测,提升个体层面群体行为特征的预测精度;所述对抗损失用于提高预测的一致性。
在一种实施方式中,由于群体行为在空间和时间转换中都涉及复杂的个体关系,因此关注了个体上下文信息,设计个体间对比损失用于细粒度预测。所述个体间对比损失函数为:
其中,i是个体索引,j表示其他索引,包括不同的空间索引或批索引。在该函数中,只有来自同一时刻的空间位置对齐的个体的预测表示和真实表示被视为正样本对,其他为负样本对。个体间对比损失可以确保所述群体特征自监督模型能够在局部帧级细粒度预测个体依赖关系。
进一步的,所述对抗损失用于提高预测的一致性。将混合上下文Transformer解码器中未来T’帧的预测群体特征视为假样本,从T帧视频中提取的特征描述子/>被视为真实样本。基于这些真/假样本对,生成器G和判别器D的进行对抗,使得该框架生成与真实样本难以区分的序列,以提高预测的一致性。可以描述如下:
其中,分布E(·)在训练序列上。判别器D是经典的Transformer结构后接池化和线性分类层,输出真实的概率。
进一步的,上述两部分损失的和即为联合损失,表示为:
可选的,由于无法直接评估群体特征自监督模型的表征学习能力,因此本申请实施例基于上述自监督训练获得的特征自学习目标网络,对下游识别任务进行基于监督学习的微调,并进行评估,如图2所示,所述基于少量样本对所述特征自学习目标网络进行微调包括:
根据预设的群体行为识别任务,基于少量监督学习样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层各项参数都在有标注的训练样本约束下进行微调。
在一种实施方式中,在群体行为识别的监督学习中,输入的群体行为视频样本遵循与上述群体特征自监督模型相同的采样程序。此时,在训练阶段中,视频样本中全部帧可用于训练,无需考虑预测。且当群体行为识别以预设的群体行为识别任务进行评估时,可采用交叉熵损失训练分类器。具体的,在训练线性分类器进行群体行为识别中,训练集中的所有样本都输入网络以训练分类器;在微调整个网络结构进行群体行为识别中,随机选择10%带有标签的样本,以微调网络结构中的所有参数。在测试阶段遵循标准流程,从视频样本中获取与训练阶段相同的序列长度进行测试,进而实现在视频数据集上对群体行为进行分析。
由上可见,本申请实施例提供了一种群体特征自监督模型的构建方法,包括获取群体行为视频数据;基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器;对所述网络结构进行自监督训练,得到特征自学习目标网络;基于少量监督学习对所述特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请实施例提供了一种新的端到端框架,称为基于上下文感知关系预测编码的群体行为特征自学习模型,用于群体行为表征自学习。通过上下文感知关系预测编码捕捉上下文关系,可以将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,从而得到更全面的自监督群体行为表征。
实施例二
下面以一实验对本申请实施例一所提供的自监督群体行为识别方法的效果进行展示。
基于本申请实施例提出的自监督群体行为识别方法,在两个广泛使用的群体行为数据集(VolleyTactic Dataset和Choi’s New Dataset)上进行了实验,并与所有数据集的最新方法进行了比较,实验结果表明,本申请实施例提出的自监督群体行为识别方法识别准确率均优于现有方法,证实了方法的有效性和泛化性。上述基于上下文感知关系预测编码的群体行为特征自学习模型的群体行为识别方法的效果展示图如图3所示,真实值为视频的群体行为标签,识别结果为基于所述群体行为识别方法识别得到的群体行为描述。从图中可以明显看出,本申请实施例提出的群体行为识别方法在自监督群体行为表示学习中具有优越性。
实施例三
本申请实施例提供了一种基于上下文感知关系预测编码的自监督群体行为识别装置,包括获取模块、构建模块、训练模块和微调模块。
其中,所述获取模块用于获取群体行为视频数据;
所述构建模块用于基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
所述训练模块用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
所述微调模块用于基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
由上可见,本申请实施例提供了一种基于上下文感知关系预测编码的自监督群体行为识别装置,通过上下文感知关系预测编码捕捉上下文关系,可以将群体行为高级语义编码信息和所述场景上下文信息进行结合,从而得到更全面的自监督群体行为表征。此外,本申请实施例提供的装置识别准确率均优于现有方法,具有有效性和泛化性,实现了有限监督下的高效精确群体行为识别。
实施例四
本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例提供的电子设备,可通过运行计算机程序实现如实施例一所述的自监督群体行为识别方法,得到一种新的端到端框架,称为群体特征自监督模型,用于群体行为表征学习。通过上下文感知关系预测编码捕捉上下文关系,不仅考虑了空间交互上下文关系,还考虑了整体场景时间变化上下文关系,从而得到更全面的群体行为特征表示。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于上下文感知关系预测编码的自监督群体行为识别方法,其特征在于,包括:
获取群体行为视频数据;
基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
2.如权利要求1所述的自监督群体行为识别方法,其特征在于,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态线索分支;
通过全连接层连接所述外观特征分支和所述姿态线索分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
3.如权利要求2所述的自监督群体行为识别方法,其特征在于,所述注意力机制编码器具体用于:
挖掘群体间的空间和时间交互关系,通过多头注意力模块得到群体行为高级语义编码信息,作为所述高级语义。
4.如权利要求3所述的自监督群体行为识别方法,其特征在于,所述混合上下文Transformer解码器具体用于:
根据所述I3D网络的最后一个卷积层获取未来视频帧的场景上下文信息;
通过Transformer自注意力机制将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,通过卷积、归一化及池化操作,在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。
5.如权利要求4所述的自监督群体行为识别方法,其特征在于,所述对所述网络结构进行自监督训练包括:
在所述混合上下文Transformer解码器进行预测的过程中,基于所述群体行为高级语义编码信息、所述场景上下文信息以及所述群体行为特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
6.如权利要求5所述的自监督群体行为识别方法,其特征在于,所述联合损失包括:
个体间对比损失和对抗损失,其中,所述个体间对比损失用于进行细粒度预测,提升个体层面群体行为特征的预测精度;所述对抗损失用于提高预测的一致性。
7.如权利要求3所述的自监督群体行为识别方法,其特征在于,所述基于少量样本对特征自学习目标网络进行微调包括:
根据预设的群体行为识别任务,基于少量监督学习样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后中添加一个线性分类层,所述特征自学习目标网络和所述线性分类层各项参数都在有标注的训练样本约束下进行微调。
8.一种基于上下文感知关系预测编码的自监督群体行为识别装置,其特征在于,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
训练模块,用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
微调模块,用于基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598477.3A CN116704433A (zh) | 2023-05-25 | 2023-05-25 | 基于上下文感知关系预测编码的自监督群体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598477.3A CN116704433A (zh) | 2023-05-25 | 2023-05-25 | 基于上下文感知关系预测编码的自监督群体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704433A true CN116704433A (zh) | 2023-09-05 |
Family
ID=87823089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310598477.3A Pending CN116704433A (zh) | 2023-05-25 | 2023-05-25 | 基于上下文感知关系预测编码的自监督群体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152692A (zh) * | 2023-10-30 | 2023-12-01 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
-
2023
- 2023-05-25 CN CN202310598477.3A patent/CN116704433A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152692A (zh) * | 2023-10-30 | 2023-12-01 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
CN117152692B (zh) * | 2023-10-30 | 2024-02-23 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Unsupervised learning of view-invariant action representations | |
Xu et al. | Deep learning for multiple object tracking: a survey | |
Koohzadi et al. | Survey on deep learning methods in human action recognition | |
Zhu et al. | Bidirectional multirate reconstruction for temporal modeling in videos | |
CN106960206B (zh) | 字符识别方法和字符识别系统 | |
Zhang et al. | A multistage refinement network for salient object detection | |
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
Zeng et al. | Combining background subtraction algorithms with convolutional neural network | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN112446342B (zh) | 关键帧识别模型训练方法、识别方法及装置 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
WO2020238353A1 (zh) | 数据处理方法和装置、存储介质及电子装置 | |
Qi et al. | STC-GAN: Spatio-temporally coupled generative adversarial networks for predictive scene parsing | |
CN111832440B (zh) | 人脸特征提取模型的构建方法、计算机存储介质及设备 | |
CN109977832B (zh) | 一种图像处理方法、装置及存储介质 | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
Yang et al. | An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G | |
Li et al. | Cross adversarial consistency self-prediction learning for unsupervised domain adaptation person re-identification | |
Elharrouss et al. | FSC-set: counting, localization of football supporters crowd in the stadiums | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN112804558A (zh) | 视频拆分方法、装置及设备 | |
Wei et al. | Sequence-to-segment networks for segment detection | |
Li et al. | Spatio-temporal deep residual network with hierarchical attentions for video event recognition | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |