CN116543351A - 一种基于时空串并联关系编码的自监督群体行为识别方法 - Google Patents
一种基于时空串并联关系编码的自监督群体行为识别方法 Download PDFInfo
- Publication number
- CN116543351A CN116543351A CN202310598295.6A CN202310598295A CN116543351A CN 116543351 A CN116543351 A CN 116543351A CN 202310598295 A CN202310598295 A CN 202310598295A CN 116543351 A CN116543351 A CN 116543351A
- Authority
- CN
- China
- Prior art keywords
- self
- group
- group behavior
- space
- target network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000010276 construction Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 122
- 230000002123 temporal effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000008859 change Effects 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000012512 characterization method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于时空串并联关系编码的自监督群体行为识别方法,属于视频分析技术领域,包括获取群体行为视频数据;基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,网络结构包括群体标记生成器、串行‑并行Transformer编码器和注意力机制解码器;对网络结构进行自监督训练,得到特征自学习目标网络;基于少量样本对特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请通过时空串并联注意力机制关系预测编码充分挖掘群体中的空间配合关系和时序动态变化,从而提高状态转化的构建能力,学习复杂群体特征的表达。适用于缺乏标注的高效精确群体行为识别。
Description
技术领域
本申请涉及一种基于时空串并联关系预测编码的自监督群体行为识别方法,属于视频分析技术领域。
背景技术
群体行为识别的主要目的是识别一群人在场景中执行的活动,其应用领域包括监控分析、体育视频理解和军事战略分析等。近年来,群体行为识别因其巨大的应用潜力和科学挑战而受到学术界和工业界的极大关注,到目前为止,基于深度学习模型的方法已经取代了传统的表征提取方法。然而,现有的基于深度学习算法的群体行为识别技术虽然取得了显著的进步,但大多基于监督学习或弱监督学习,需要利用大量有标签的数据集对模型进行训练,即依赖于手动标注的群体行为标签,成本高昂,需要消耗大量人力和资源。
针对上述问题,现阶段的一些研究关注于自监督学习(SSL),一般来说,现有的SSL方法通常为基于时间的方法,主要用于序列数据的表征学习,例如视频,这对群体行为分析具有指导意义。对比学习是一种自监督表征学习方法,近年来,随着对比学习的巨大成功,许多方法将其用于提取视频特征表示,此外,利用对比学习进行未来预测的预测编码方案在视频理解中受到了越来越多的关注,例如密集预测编码(DPC)和记忆增强密集预测编码(MemDPC)。
然而,上述SSL方法在群体行为表征学习方面仍然存在一些困难。当前基于对比学习的视频SSL方法通常采用整体表征,例如,用3D CNN提取的视频特征来构建表征对,这会由于模型交互的不足而导致性能受限。此外,群体活动中的个体互动随着时间的推移变化很大,且持续时间更长。现有的视频SSL方法从相隔较大的时隙实现表征对的时空一致性只能捕获很少的共享信息,而预测编码方案通过将未来变化预测到一致空间来考虑时间演变,以最大化对比表征对之间的一致性,显示出了学习群体行为表征的能力。但上述方法都受限于描述复杂关系转换的能力不足,会大大影响对群体行为的理解。因此,综合空间个体交互和时间变化对时空关系进行预测编码对群体行为识别的性能提升具有十分重要的意义。
发明内容
本申请的目的在于提供一种基于时空串并联关系编码的自监督群体行为识别方法,基于时空串并联注意力机制关系预测编码,结合空间交互和时间变化构建串行-并行Transformer编码器,进而得到一种新的端到端的群体特征自学习模型,实现缺乏标注条件下的高效精确群体行为识别。
为实现上述目的,本申请第一方面提供了一种基于时空串并联关系编码的自监督群体行为识别方法,包括:
获取群体行为视频数据;
基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记对空间信息和时间信息进行融合并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
在一种实施方式中,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态信息分支;
通过全连接层连接所述外观特征分支和所述姿态信息分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
在一种实施方式中,所述串行-并行Transformer编码器包括若干空间注意力块和时间注意力块,且各所述空间注意力块和各所述时间注意力块以扭曲融合的方式进行设计,其中,所述空间注意力块用于获取视频片段第t帧中的个体间依赖关系,所述时间注意力块用于获取视频片段帧序列中同一个体的动态信息:
所述串行-并行Transformer编码器具体用于:
通过并行方式运行所述空间注意力块和所述时间注意力块,以根据所述视频片段第t帧中的个体间依赖关系投影空间群体行为特征,并根据所述视频片段帧序列中同一个体的动态信息投影时间群体行为特征;
将嵌入的所述空间群体行为特征和所述时间群体行为特征转换为相同尺寸后相加,并以串行方式传递给其他空间注意力块和时间注意力块进行集成,得到空间高级语义编码信息和时间高级语义编码信息,作为所述高级语义。
在一种实施方式中,所述注意力机制解码器具体用于:
将所述空间高级语义编码信息和时间高级语义编码信息通过自注意力机制结合,再通过卷积、归一化及池化操作,由双向预测方案逐步预测未来每一帧的群体行为时空特征。
在一种实施方式中,所述对所述网络结构进行自监督训练包括:
在所述注意力机制解码器通过双向预测方案进行预测的过程中,基于预测的所述群体行为时空特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
在一种实施方式中,所述联合损失包括:
像素级重建损失、群体间对比损失和对抗损失,其中,所述像素级重建损失用于提升像素级别细粒度的预测精度;所述群体间对比损失用于提升粗粒度的群体级别预测的真实性和准确性;所述对抗损失用于提高预测序列的连贯性。
在一种实施方式中,所述基于少量样本对所述特征自学习目标网络进行微调包括:
根据预设的群体行为识别任务,基于少量监督学习样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层所有参数都在有标注的训练样本的约束下进行微调。
本申请第二方面提供了一种基于时空串并联关系编码的自监督群体行为识别装置,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记对空间信息和时间信息进行融合并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
训练模块,用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
微调模块,用于基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
本申请第三方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
本申请第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
由上可见,本申请提供了一种基于时空串并联关系预测编码的自监督群体行为识别方法,包括获取群体行为视频数据;基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器;对所述网络结构进行自监督训练,得到特征自学习目标网络;基于少量样本对所述特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请提供了一种新的端到端框架,称为基于时空串并联注意力机制关系预测编码的群体行为特征自学习模型,用于群体行为表征自学习。通过时空串并联注意力机制关系预测编码充分挖掘群体中的空间配合关系和时序动态变化,从而提高状态转化的构建能力,学习复杂群体特征的表达。适用于缺乏标注条件下的高效精确群体行为识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种构建群体特征自学习模型的网络结构的流程示意图;
图2为本申请实施例提供的一种对所述特征自学习目标网络进行微调的流程示意图;
图3为本申请实施例提供的一种通过目标网络进行自监督群体行为识别的效果展示图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例一
本申请实施例提供了一种自监督群体行为识别方法,如图1和图2所示,该方法包括:
获取群体行为视频数据;
基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记、对空间信息和时间信息进行提取并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
在一种实施方式中,上述群体行为视频数据包括Volleyball Dataset,Collective Activity Dataset两个数据集中的数据;分别对上述群体行为视频数据进行预处理,将所有视频帧都缩放到720×1280的分辨率,选择T=10帧作为后续步骤中群体特征自学习模型的输入进行训练,以实现在多个视频数据集上对群体行为进行分析。
可选的,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态信息分支;
通过全连接层连接所述外观特征分支和所述姿态信息分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
在一种实施方式中,群体标记生成器是一个预处理模块,包含来自视频的丰富个体信息,以实现初始化个体表示。具体的,给定T帧的输入视频片段Xvideo,由于身体关节的位置及其运动决定了个体的行动,因此首先以预训练得到的I3D网络为骨干提取特征图对Xvideo进行特征提取;群体标记生成器利用外观特征和姿态信息建立了两个分支,并通过全连接层被进一步连接为每个人的D维特征向量。最后,将这些单独的D维特征向量组合成最终的群体标记XG。
可选的,所述串行-并行Transformer编码器包括若干空间注意力块和时间注意力块,且各所述空间注意力块和各所述时间注意力块以扭曲融合的方式进行设计,其中,所述空间注意力块用于获取视频片段第t帧中的个体间依赖关系,所述时间注意力块用于获取视频片段帧序列中同一个体的动态信息:
所述串行-并行Transformer编码器具体用于:
通过并行方式运行所述空间注意力块和所述时间注意力块,以根据所述视频片段第t帧中的个体间依赖关系投影空间群体行为特征,并根据所述视频片段帧序列中同一个体的动态信息投影时间群体行为特征;
将嵌入的所述空间群体行为特征和所述时间群体行为特征转换为相同尺寸后相加,并以串行方式传递给其他空间注意力块和时间注意力块进行集成,得到空间高级语义编码信息和时间高级语义编码信息。
在一种实施方式中,串行-并行Transformer编码器的目的是构建观察Xvideo中的群体关系。为了强调多视角语义的提取和融合,串行-并行Transformer编码器中包含若干串行-并行的空间注意力块和时间注意力块,并以扭曲融合的方式进行设计。空间注意力块在输入的由群体标记生成器生成的群体标记XG上执行,以捕获t={1,2,···,T}帧中N个参与者的个体间依赖关系。串行-并行Transformer编码器基于Transformer结构,键K的索引值对应于每帧中的其他参与者。计算查询Q和对应键K的点积相似度作为表示对其他个体的关注程度的权重。然后,注意力操作生成值V的加权和,然后使用全连接层将第t帧的输入XG,t利用多头注意力投影到Q,K,V矩阵。多头注意力的输出之后是归一化层(Norm)和前馈网络(FFN),以生成第t帧中的特征(即空间群体行为特征)表示,表示成全部T帧的特征表示可以表示成/>这是空间注意力块的最终输出。空间注意力块关注每一帧中的个体相关性,而时间注意力块提取帧序列中同一个体的动态信息。对于每个个体n∈{1,2…,N},给定动作在历史记录中的嵌入,通过多头注意力产生序列相关性。将XG中的空间维度N视为批量大小,其中每个向量可以被看作个体的历史动态。在时间注意力块中,使用加法、归一化和基于全连接的前馈网络处理多头注意力的输出,得到最终的时间变化(即时间群体行为特征)表示,表示为/>空间注意力块和时间注意力块通过扭曲的方式进行融合,即在单个框架中对空间注意力和时间注意力进行分层交错,从而充分融合空间信息和时间信息。具体的,空间和时间注意块首先并行运行,以分别投影空间群体行为特征和时间群体行为特征。然后,将嵌入转换为相同尺寸后相加,并以串行方式传递给其他空间注意力块和时间注意力块,以进一步集成时间高级语义编码信息和空间高级语义编码信息。
可选的,所述注意力机制解码器具体用于:
将所述空间高级语义编码信息和时间高级语义编码信息通过自注意力机制结合,再通过卷积、归一化及池化操作,由双向预测方案逐步预测未来每一帧的群体行为时空特征。
在一种实施方式中,所述注意力机制解码器将所述空间和时间高级语义通过自注意力机制相结合,由双向预测方案逐步预测未来每一帧的群体行为时空特征。具体的,从串行-并行Transformer编码器中的串行空间编码器生成的高级空间语义特征被视为查询Q,而从串行时间解码器生成的高级时间语义特征作为键值K,V。在每个预测步骤中,关系语义信息通过计算Q和K的相似性从K捕获群体关系特征。注意力操作产生V的加权和的输出,其中进一步添加Q以更新自注意力。第t+1帧的预测结果可以表示成作为注意力机制解码器的输出。在群体行为中,由于时间是连续的,则前向的关系变化应该与后向预测的一致,因此在预测步骤中应用双向预测方案,将观测的视频帧和未来的视频帧分别作为输入进行双向时空特征预测,从而提高特征自学习的一致性。或者,在其他实施方式中,所述注意力机制解码器也可以采用其他方式对所述群体行为特征进行预测,此处不做限定。
可选的,所述对所述网络结构进行自监督训练包括:
在所述注意力机制解码器通过双向预测方案进行预测的过程中,基于预测的所述群体行为时空特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
可选的,所述联合损失包括:
像素级重建损失、群体间对比损失和对抗损失,其中,所述像素级重建损失用于提升像素级别细粒度的预测精度;所述群体间对比损失用于提升粗粒度的群体级别预测的真实性和准确性;所述对抗损失用于提高预测序列的连贯性。
在一种实施方式中,所述像素级重建损失促进了重建群体行为视频的细节准确性,即保证预测的每一帧的像素值与原始视频帧的像素值的一致性,确保了每帧视频的颜色、光照及整体对比度的准确性,从而提升像素级别细粒度的预测精度。可以描述如下:
其中,是真实的群体活动视频帧,/>是相应的预测重建视频帧。所述像素级重建损失为真实视频与预测重建视频各帧像素值的L1损失的和。
进一步的,对比学习是通过计算相似性来构建正负样本对,从而迫使正样本对的得分高于负样本对。因此,在所述群体间对比损失中,正样本对指的是预测和提取的群体特征(即群体行为时空特征)的相同位置,而负样本对来自不同的时间位置。最小化的目标函数为:
其中,i,j表示时间索引,φ(·)是计算两个向量之间相似性的点积。X′p是Xp池化得到的群体特征,是相应的提取特征。该群体优化可以提升粗粒度的群体级别预测的真实性和准确性。
进一步的,所述对抗损失用于提高预测序列的连贯性。将注意力机制解码器中未来T’帧的预测群体特征视为假样本,从T帧视频中提取的特征描述子/>被视为真实样本。基于这些真/假样本对,生成器G和判别器D的进行对抗,使得该框架生成与真实样本难以区分的序列,以提高预测序列的连贯性。可以描述如下:
其中,分布E(·)在训练序列上。判别器D是经典的Transformer结构后接池化和线性分类层,输出真实的概率。
进一步的,上述三部分损失的和即为联合损失,表示为:
可选的,由于无法直接评估群体特征自学习模型的表征学习能力,因此本申请实施例基于上述自监督训练获得的特征自学习目标网络,对下游任务进行基于监督学习的微调,并进行评估,如图2所示,所述基于少量样本对所述特征自学习目标网络进行微调包括:
根据预设的所述群体行为识别任务,基于少量监督学习样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层所有参数都在有标注的训练样本的约束下进行微调。
在一种实施方式中,在群体行为识别的监督学习中,输入的群体行为视频样本遵循与上述群体特征自学习模型相同的采样程序。此时,在训练阶段中,视频样本中全部帧可用于训练,无需考虑预测。且当群体行为识别以预设的群体行为识别任务进行评估时,可采用交叉熵损失训练分类器。具体的,在训练线性分类器进行群体行为识别中,训练集中的所有样本都输入网络以训练分类器;在微调整个网络结构进行群体行为识别中,随机选择10%带有标签的样本,以微调网络结构中的所有参数。在测试阶段遵循标准流程,从视频样本中获取与训练阶段相同的序列长度进行测试,进而实现在视频数据集上对群体行为进行分析。
由上可见,本申请实施例提供了一种基于时空串并联关系预测编码的自监督群体行为识别方法,包括获取群体行为视频数据;基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器;对所述网络结构进行自监督训练,得到特征自学习目标网络;基于少量样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估。本申请实施例提供了一种新的端到端框架,称为基于时空串并联注意力机制关系预测编码的群体行为特征自学习模型,用于群体行为表征学习。编码器基于Transformer结构,通过时空串并联注意力机制关系预测编码充分挖掘群体中的空间配合关系和时序动态变化,对空间信息和时间信息进行融合,从而提高状态转化的构建能力,生成用于构建复杂群体关系的高级语义,从而得到更全面的自监督群体行为表征。
实施例二
下面以一实验对本申请实施例一所提供的自监督群体行为识别方法的效果进行展示。
基于本申请实施例提出的自监督群体行为识别方法,在两个广泛使用的群体行为数据集(Volleyball Dataset,Collective Activity Dataset)上进行了实验,并与所有数据集的最新方法进行了比较,实验结果表明,本申请实施例提出的自监督群体行为识别方法识别准确率均优于现有方法,证实了方法的有效性和泛化性。上述基于时空串并联注意力机制关系预测编码的自监督群体行为识别方法的效果展示图如图3所示,真实值为视频的群体活动标签,识别结果为基于所述群体行为识别方法识别得到的群体活动描述。从图中可以明显看出,本申请实施例提出的群体行为识别方法在自监督群体行为表示学习中具有优越性。
实施例三
本申请实施例提供了一种基于时空串并联关系编码的自监督群体行为识别装置,包括获取模块、构建模块、训练模块和微调模块。
其中,所述获取模块用于获取群体行为视频数据;
所述构建模块用于基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记对空间信息和时间信息进行融合并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
所述训练模块用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
所述微调模块用于基于少量样本对所述特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
由上可见,本申请实施例提供了一种基于时空串并联关系预测编码的自监督群体行为识别装置,基于Transformer结构,通过时空串并联注意力机制关系预测编码充分挖掘群体中的空间配合关系和时序动态变化,对空间信息和时间信息进行融合,从而提高状态转化的构建能力,生成用于构建复杂群体关系的高级语义,从而得到更全面的自监督群体行为表征。
实施例四
本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例提供的电子设备,可通过运行计算机程序实现如实施例一所述的自监督群体行为识别方法,得到一种新的端到端框架,称为群体特征自学习模型,用于群体行为表征学习。时空串并联注意力机制关系预测编码充分挖掘群体中的空间配合关系和时序动态变化,从而提高状态转化的构建能力,学习复杂群体特征的表达,从而实现缺乏标注下的高精度群体行为识别。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,ROM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于时空串并联关系编码的自监督群体行为识别方法,其特征在于,包括:
获取群体行为视频数据;
基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记对空间信息和时间信息进行融合并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
对所述网络结构进行自监督训练,得到特征自学习目标网络;
基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
2.如权利要求1所述的自监督群体行为识别方法,其特征在于,所述群体标记生成器具体用于:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果分别建立外观特征分支和姿态信息分支;
通过全连接层连接所述外观特征分支和所述姿态信息分支,得到视频片段中每个个体的D维特征向量;
将各D维特征向量进行组合得到所述群体标记。
3.如权利要求2所述的自监督群体行为识别方法,其特征在于,所述串行-并行Transformer编码器包括若干空间注意力块和时间注意力块,且各所述空间注意力块和各所述时间注意力块以扭曲融合的方式进行设计,其中,所述空间注意力块用于获取视频片段第t帧中的个体间依赖关系,所述时间注意力块用于获取视频片段帧序列中同一个体的动态信息:
所述串行-并行Transformer编码器具体用于:
通过并行方式运行所述空间注意力块和所述时间注意力块,以根据所述视频片段第t帧中的个体间依赖关系投影空间群体行为特征,并根据所述视频片段帧序列中同一个体的动态信息投影时间群体行为特征;
将嵌入的所述空间群体行为特征和所述时间群体行为特征转换为相同尺寸后相加,并以串行方式传递给其他空间注意力块和时间注意力块进行集成,得到空间高级语义编码信息和时间高级语义编码信息,作为所述高级语义。
4.如权利要求3所述的自监督群体行为识别方法,其特征在于,所述注意力机制解码器具体用于:
将所述空间高级语义编码信息和时间高级语义编码信息通过自注意力机制结合,再通过卷积、归一化及池化操作,由双向预测方案逐步预测未来每一帧的群体行为时空特征。
5.如权利要求4所述的自监督群体行为识别方法,其特征在于,所述对所述网络结构进行自监督训练包括:
在所述注意力机制解码器通过双向预测方案进行预测的过程中,基于预测的所述群体行为时空特征计算联合损失;
基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
6.如权利要求5所述的自监督群体行为识别方法,其特征在于,所述联合损失包括:
像素级重建损失、群体间对比损失和对抗损失,其中,所述像素级重建损失用于提升像素级别细粒度的预测精度;所述群体间对比损失用于提升粗粒度的群体级别预测的真实性和准确性;所述对抗损失用于提高预测序列的连贯性。
7.如权利要求3所述的自监督群体行为识别方法,其特征在于,所述基于少量样本对所述特征自学习目标网络进行微调包括:
根据预设的群体行为识别任务,基于少量监督学习样本对所述特征自学习目标网络进行微调,实现对所述特征自学习目标网络的表征自学习能力的评估;
其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层所有参数都在有标注的训练样本的约束下进行微调。
8.一种基于时空串并联关系编码的自监督群体行为识别装置,其特征在于,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于时空串并联注意力机制关系预测编码,构建群体特征自学习模型的网络结构,所述网络结构包括群体标记生成器、串行-并行Transformer编码器和注意力机制解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述串行-并行Transformer编码器根据所述群体标记对空间信息和时间信息进行融合并生成用于构建群体关系的高级语义;所述注意力机制解码器根据所述高级语义预测未来帧的群体行为时空特征;
训练模块,用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
微调模块,用于基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598295.6A CN116543351A (zh) | 2023-05-25 | 2023-05-25 | 一种基于时空串并联关系编码的自监督群体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598295.6A CN116543351A (zh) | 2023-05-25 | 2023-05-25 | 一种基于时空串并联关系编码的自监督群体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543351A true CN116543351A (zh) | 2023-08-04 |
Family
ID=87452268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310598295.6A Pending CN116543351A (zh) | 2023-05-25 | 2023-05-25 | 一种基于时空串并联关系编码的自监督群体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543351A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797972A (zh) * | 2023-06-26 | 2023-09-22 | 中科(黑龙江)数字经济研究院有限公司 | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
CN117649630A (zh) * | 2024-01-29 | 2024-03-05 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
-
2023
- 2023-05-25 CN CN202310598295.6A patent/CN116543351A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797972A (zh) * | 2023-06-26 | 2023-09-22 | 中科(黑龙江)数字经济研究院有限公司 | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
CN117649630A (zh) * | 2024-01-29 | 2024-03-05 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
CN117649630B (zh) * | 2024-01-29 | 2024-04-26 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN113221641B (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
Zhang et al. | A multistage refinement network for salient object detection | |
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
Lei et al. | Ultralightweight spatial–spectral feature cooperation network for change detection in remote sensing images | |
CN113158815B (zh) | 一种无监督行人重识别方法、系统及计算机可读介质 | |
Passalis et al. | Efficient adaptive inference for deep convolutional neural networks using hierarchical early exits | |
Wang et al. | Semantic supplementary network with prior information for multi-label image classification | |
CN113435432B (zh) | 视频异常检测模型训练方法、视频异常检测方法和装置 | |
Zhang et al. | IL-GAN: Illumination-invariant representation learning for single sample face recognition | |
CN115688871A (zh) | 基于预训练增强的多元时间序列预测方法及系统 | |
CN111177460B (zh) | 提取关键帧的方法及装置 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
WO2022222854A1 (zh) | 一种数据处理方法及相关设备 | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
Zhang et al. | Embarrassingly simple binarization for deep single imagery super-resolution networks | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
Antil et al. | MF2ShrT: multimodal feature fusion using shared layered transformer for face anti-spoofing | |
Xie et al. | Robust facial expression recognition with transformer block enhancement module | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |