CN116797972A - 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 - Google Patents
基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 Download PDFInfo
- Publication number
- CN116797972A CN116797972A CN202310756691.7A CN202310756691A CN116797972A CN 116797972 A CN116797972 A CN 116797972A CN 202310756691 A CN202310756691 A CN 202310756691A CN 116797972 A CN116797972 A CN 116797972A
- Authority
- CN
- China
- Prior art keywords
- group
- self
- sparse graph
- group behavior
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000001364 causal effect Effects 0.000 title claims abstract description 58
- 230000006399 behavior Effects 0.000 claims abstract description 98
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 17
- 230000007774 longterm Effects 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000008846 dynamic interplay Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 125000004122 cyclic group Chemical group 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明为视频分析领域,公开了基于稀疏图因果时序编码的自监督群体行为识别方法及其识别装置。获得群体行为视频数据;基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,网络结构包括特征提取网络、编码器与解码器。特征提取网络,用于根据群体行为视频数据提取特征向量组;编码器,根据群体行为视频数据构建的场景中个体的稀疏图;解码器,利用注意力机制建模长期线索之间的依赖关系关注最相关的历史动态,以用于预测未来群组变化;对描述群体状态时空信息变化的网络结构构建损失函数,增强自监督学习的效果;利用优化后的网络结构实现自监督条件下的群体行为识别。本发明可针对具有复杂时序关系和空间位置关系的群体行为进行建模与识别,用以解决常用的基于循环神经网络等模型在表示行为动态特征方面能力不足、识别性能欠佳的问题。
Description
技术领域
本发明属于视频分析技术领域,具体涉及一种基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统。
背景技术
在计算机视觉和多媒体领域中,群体行为识别是一种高层级的运动策略感知任务,在智慧体育,智能军事等方面具有极大的应用价值。现有的基于深度学习算法的群体行为识别技术已经取得了显著的成果,但它们大多基于有监督的学习方法,需要大量人工标注的标签数据作为模型优化的基础。然而在实际科研和生产场景下,数据标注不仅需要消耗大量人力和时间,还面临标注数据质量差、质量参差不齐等困难,因而,有监督方法在实际应用中具有局限性。
为解决人工标注带来的成本问题,许多研究者使用自监督学习方法来消除对人工标注的标签数据的依赖。自监督学习方法尝试探索视频的内在结构,并设计了特定的代理任务,早期的自监督方法包括检测视频旋转、估计帧/剪辑顺序和识别视频播放速度。尽管这些方法已经取得了可观的成果,但它们的泛化能力有限。最近,随着对比学习在图像领域的巨大成功,研究者们尝试将这些成果扩展到视频领域。然而,这些自监督方法尚未充分利用视频内容的时间演变特性。为了缓解这个问题,基于对比学习的预测编码方案通过预测合理的未来变化来考虑时间演变特性。该方法试图预测正确的未来时间状态,其中预测的未来状态与相应的真实未来的相似度应当高于其他干扰物。然而传统的预测编码方案例如循环神经网络,长短期记忆网络在面对构建复杂的多人多时空关系时表现乏力。为解决此问题,本发明进一步提出基于稀疏图因果时序的预测编码方案。通过实验对比,该方法相较传统的视频自监督方法有非常优异的表现。
群体行为识别在兼具应用价值与发展潜力的同时颇具挑战性,因此,群体行为识别长期以来受到工业界和学术界的广泛关注。随着深度学习的迅猛发展,基于深度学习模型的方法已经取代了传统的表征提取方法。然而,现有方法大多依赖大量具有人工标注的数据集进行训练,成本较高。为解决这一问题,本发明提出基于对比学习的预测编码方案以实现自监督学习。然而,由于群体行为中复杂的时序关系和空间位置关系,常用的基于循环神经网络(RNN),如长短期记忆网络(LSTM),方法在预测未来视频方面表现欠佳。为解决这一问题,本发明提出了一种稀疏图时序因果的预测编码方案。它被设计为编码器-解码器架构,其中编码器构建观察到的视频帧中的群体状态信息,解码器用于预测未来的状态。
综上,本发明针对提到的技术问题提供了一种基于稀疏图因果时序预测编码的自监督群体行为识别方法,本发明通过稀疏图因果时序预测编码构建和预测群体行为的复杂空间关系和时间推演变化,进行群体行为表征自学习,以实现自监督的群体行为识别。
发明内容
本发明提供一种基于稀疏图因果时序编码的自监督群体行为识别方法,用以解决现有方法大多依赖大量具有人工标注的数据集进行训练,成本较高;且由于群体行为中复杂的时序关系和空间位置关系,常用的基于循环神经网络的方法在预测未来视频方面表现欠佳的问题。
本发明提供一种基于稀疏图因果时序编码的自监督群体行为识别系统,用以解决现有方法大多依赖大量具有人工标注的数据集进行训练,成本较高的问题。
本发明通过以下技术方案实现:
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述自监督群体行为识别方法包括,
获得群体行为视频数据;
基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,所述网络结构包括特征提取网络、编码器与解码器,所述特征提取网络,用于根据群体行为视频数据提取特征向量组;所述编码器,根据群体行为视频数据构建的场景中个体的稀疏图;所述解码器,利用注意力机制建模长期线索之间的依赖关系来关注最相关的历史动态,以用于预测未来群组变化;;
对所述描述群体状态时空信息变化的网络结构,构建损失函数,增强自监督学习的效果;
利用优化后的描述群体状态时空信息变化的网络结构实现自监督群体行为识别。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述特征提取网络具体为:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果经过RoiAlign得到D维的特征向量组。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述编码器具体为:
编码器的稀疏图SGTransformer用于空间状态建模,并构建场景中个体,且每一个个体都用一个高维向量进行特征表示;
在稀疏图SGTransformer中,每个节点都通过向其邻居节点传递消息来进行群组交互模式的更新;
将D维的特征向量组输入到编码器的稀疏图SGTransformer中进行空间状态信息建模。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,将建模后的空间状态信息输入到编码器的因果时序CTTransformer中输出提取一个视频片段的时空状态转换信息。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述解码器具体为:
所述解码器采用多头自注意力机制模型,
所述解码器接受来自编码器的因果时序CTTransformer的输出,解码器利用注意力机制建模长期线索之间的依赖关系以用于关注最相关的历史动态。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,编码器-解码器的处理流程具体为,
对于多个连贯的视频帧,依次经过特征提取后分别输入稀疏图子网络SGTransformer并得到第i个视频帧中的群组状态特征gi,将每个视频帧对应的特征gi输入到时序因果CTTransformer并最终输出群体状态时空信息变化特征 中包含多个视频帧的时序关系模式以及单帧视频中个体之间的空间位置关系模式,将/>输入到解码器中进行状态注意力计算和状态注意力更新,并预测未来的群组状态。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述损失函数包括重构损失函数和对比损失函数;
所述重构损失函数,用于单个个体级别的周期性动作状态,鼓励预测的个体动作状态特征接近真实的个体动作状态特征;
所述对比损失函数,用于在预测的多个视频帧层面上用鉴别器来检查预测行为变化状态和真实行为变化状态之间的一致性,以此为标准鼓励预测的状态特征尽可能与实际状态特征一致。
一种基于时空串并联关系编码的自监督群体行为识别系统,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,所述网络结构包括特征提取网络、编码器与解码器,所述特征提取网络,用于根据群体行为视频数据提取特征向量组;所述编码器,根据群体行为视频数据构建的场景中个体的稀疏图;所述解码器,利用注意力机制建模长期线索之间的依赖关系以用于关注最相关的历史动态;
训练模块,用于优化所述描述群体状态时空信息变化的网络结构,通过构建损失函数,增强自监督学习的效果;利用优化后的群体状态时空信息变化模型的网络结构实现自监督群体行为识别。
一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
本发明的有益效果是:
本发明提供一种新的端到端架构,称为稀疏图时序因果预测编码的自监督群体行为识别模型,用于群体行为表征自学习。
本发明基于预测编码,不仅考虑了空间位置交互关系,还考虑了整体场景的时间演化关系,从而得到更全面的群体行为特征表示。
本发明在排球数据集和日常群体行为数据集上与其他视频自监督方法以及有监督的群体行为识别方法进行了详细对比。其中,视频自监督方法主要使用了基于前置任务的方法,如播放速率识别方法,通过估计视频的帧率自动捕捉行为表征并识别。对于有监督的群体行为识别方法,我们对比了流行的基于Transformer的模型,这些模型被设计为使用完整的群体、个体行为标签进行模型优化。在测试阶段,对于所有的方法,我们仅使用10%的标注数据训练模型,并在相同的测试集上进行对比。实验均采用平均识别准确率作为对比标准。实验结果表明了本发明的自监督群体行为识别准确率均优于现有方法,证实了本发明的有效性和泛化性。
附图说明
图1是本发明提供的一种群体行为特征自学习的方法流程图。
图2是本发明提供的一种群体行为识别方法流程图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述自监督群体行为识别方法包括,
获得群体行为视频数据;
基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,所述网络结构包括特征提取网络、编码器与解码器,所述特征提取网络,用于根据群体行为视频数据提取特征向量组;所述编码器,根据群体行为视频数据构建的场景中个体的稀疏图;所述解码器,利用注意力机制建模长期线索之间的依赖关系关注最相关的历史动态,以用于预测未来群组变化;
对所述群体特征空间状态信息模型的网络结构,构建损失函数,增强自监督学习的效果;
利用优化后的描述群体状态时空信息变化的网络结构实现自监督条件下的群体行为识别。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述获得群体行为视频数据具体为,使用Volleyball数据集,该数据集由从55场排球比赛中收集的4830个片段组成,其中包括3493个训练片段和1337个测试片段;每个样本属于8个组行为标签中的一个,除了团体行为标签外,数据集还提供地面实况选手边界框及其动作;
所述行为标签包括右集合、右尖峰、右传球、右制胜点、左集合、左尖峰、左传球和左制胜点;
所述地面实况选手边界框及其动作包括等待、设置、挖掘、失败、扣球、拦网、跳跃、移动和站立。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述特征提取网络具体为:
将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
根据特征提取的结果经过RoiAlign得到D维的特征向量组。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述编码器具体为:所述编码器包括稀疏图SGTransformer与因果时序CTTransformer组成,
编码器的稀疏图SGTransformer用于空间状态建模,并构建场景中个体,且每一个个体都用一个高维向量进行特征表示;
在稀疏图SGTransformer中,每个节点都通过向其邻居节点传递消息来进行群组交互模式的更新;
将特征提取网络得到的D维的特征向量组输入到编码器的稀疏图SGTransformer中进行空间状态信息建模。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,将建模后的空间状态信息输入到编码器的因果时序CTTransformer中输出提取一个视频片段的时空状态转换信息。
所述稀疏图TransformerSGT包括构建稀疏图、更新节点及全局状态建模;
所述构建稀疏图具体为,在帧t处,本发明有一个个体的集合其中pi∈Rd,表示第i个个体的特征,N表示个体的数量;
所述更新节点具体为,对一个稀疏图上的结点,稀疏图Transformer通过向其邻居结点传递消息来更新每个节点;本质上,在这个过程中,邻居结点可以被认为是一个特定的序列,因此可以在其上应用注意力机制。在Transformer架构中,输入是长度为N的嵌入序列并且注意力机制可以被视为在无向全连通图上传递的消息;
对于嵌入表示hi,学习相应的查询、关键字和值向量,其中qi=fQ(hi)、ki=fK(hi)和vi=fV(hi),其中f表示完全连接层;本发明将全连通图中从节点pj传递到pi的消息定义为自注意操作可以写成:
其中,是hi的更新嵌入,dk是用于数值稳定性的缩放点积项,与全连通图不同,稀疏图非常关注局部范围关系;因此,在更新每个节点时,本发明只需要在其邻居结点中消息传递,而不需要在所有其他节点中进行该过程。
对于稀疏图G=(V,E),其中E={(i,j)|pi,pj连通},注意力操作可以写成:
其中,pi是节点i的更新嵌入,即新的个体特征。在SGT中,还存在额外的操作,包括层规范化、跳跃连接、多头级联等,这些操作在上式中被忽略;
所述全局状态建模具体为,在更新每个节点之后,SGT生成一个更新后的稀疏图,更新后的该稀疏图包含帧t中个体的各个状态;群体状态gt可以通过聚合稀疏图中的节点信息来得到;
具体形式如下式:
其中fo、Norm分别是全连接层、归一化层。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述给定稀疏图Transformer提取的空间状态特征,使用因果时序(CTTransformer),对时间状态演化进行建模;
因果时序Transformer中的转换可以写为
其中,是群体状态特征gt相对应的生成特征,该生成特征在考虑gt的同时还关注之前g1,…gt-1的所有特征。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,本发明在实现CTTransformer时采用掩码机制实现因果时序建模;
首先将时间位置编码添加到群体状态特征中,该编码在训练过程中是可学习的;
然后,嵌入后的特征通过多个CTTransformer层得以输出,其中每个CTTransformer层由具有掩码的多头注意力层、层归一化和多层感知器(MLP)组成;
与普通的Transformer不同,时间因果Transformer在多头注意力中利用了“因果”掩码,这确保了模型只关注输入的特定部分。当生成状态特征时,本发明将掩码设置为仅关注g1,…gt;
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述解码器具体为:
所述解码器采用多头自注意力机制模型,
所述解码器接受来自编码器的因果时序CTTransformer的输出,该输出提取了一个视频片段的时空状态转换信息,解码器利用注意力机制建模长期线索之间的依赖关系以用于关注最相关的历史动态。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,编码器-解码器的处理流程具体为,
对于多个连贯的视频帧,依次经过特征提取后分别输入到稀疏图Transformer并得到gi,将每个视频帧对应的gi输入到时序因果Transformer并最终输出中包含了多个视频帧的时序关系以及单帧视频中个体之间的空间位置关系,之后本发明将/>输入到解码器中进行状态注意力计算和状态注意力更新;
对于CTTransformer生成T帧的状态演化,可以表示为取最后一帧
对于解码器,有Wq,三类矩阵,使用Wq和/>矩阵分别与/>做矩阵乘法得到Q,Ki,并利用Q,Ki来计算注意力得分,然后将该得分与Vi做加权和,得到Q,Ki,Vi可以如下表示:
对于每一个Ki,计算注意力得分的方式如下:
为避免梯度消失问题,本发明通过注意力得分的总和而不是通过softmax函数来归一化注意力得分,为了使注意力得分的总和为1,本发明使用ReLU来进一步限制fq、的输出为非负,注意力模型的输出为/>该输出融合了相关的历史信息,这些信息被用于当前的预测。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述重构损失函数具体为,考虑到单个个体级别的状态通常是周期性的,可以鼓励预测的个体状态特征接近真实的个体状态特征,因此,本发明利用重构损失来减少相应个体特征对的欧几里得距离;
是真实值在t帧经过稀疏图Transformer的输出,作为一种参考标准,它使得第t帧处的预测特征/>与/>相似,如下所示:
其中N是人的数量,是编码器从同一时间帧t中提取的第j个个体的特征,并且/>是模型预测的特征。
一种基于稀疏图因果时序编码的自监督群体行为识别方法,所述对抗损失函数具体为,很难在较长的时间跨度下预测人类行为,而且由于误差积累,使得群体关系预测更加困难,受GAN中对抗性训练机制的启发,本发明引入了一致性鉴别器,并在预测的多个视频帧层面上用鉴别器来检查预测状态和真实状态之间的一致性,以此为标准鼓励预测的状态特征尽可能与实际状态特征一致。鉴别器D与时序因果Transformer共享相同的架构,并输出输入序列是真实的概率;本发明将表示为GT的基本真实状态动力学视为真实样本,将表示为的预测动态视为伪样本;
预测状态是从模型G生成的,即在编码器-解码器架构下生成的,而用作标签的状态信息是由编码器从相同时间位置的视频帧中提取的;然后,通过评估假样本愚弄鉴别器D的程度来判断生成器G的质量;形式上,本发明如下解决极小极大优化问题:
综上,总目标损失函数为上述两部分损失函数的和,表示为:
实施例二
本发明实施例提供了一种基于时空串并联关系编码的自监督群体行为识别系统,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于构建描述群体状态时空信息变化的网络结构,网络结构包括特征提取网络、编码器与解码器。特征提取网络,用于根据群体行为视频数据提取特征向量组;编码器,根据群体行为视频数据构建的场景中个体的稀疏图;解码器,利用注意力机制建模长期线索之间的依赖关系关注最相关的历史动态,以用于预测未来群组变化;
训练模块,用于对所述描述群体状态时空信息变化的网络结构,构建损失函数,增强自监督学习的效果;利用优化后的网络结构实现自监督群体行为识别。
由上可见,本发明实施例通过稀疏图因果时序预测编码构建和预测群体行为的复杂空间关系和时间推演变化,进行群体行为表征自学习,以实现自监督的群体行为识别。实验结果表明,本方法的自监督群体行为识别准确率均优于现有方法,证实了方法的有效性和泛化性。
实施例三
本发明实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本发明实施例提供的电子设备,可通过运行计算机程序实现如实施例一所述的自监督群体行为识别方法,得到一种新的端到端框架,称为群体特征自监督模型,用于群体行为表征学习。通过上下文感知关系预测编码捕捉上下文关系,不仅考虑了空间交互上下文关系,还考虑了整体场景时间变化上下文关系,从而得到更全面的群体行为特征表示。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,所述自监督群体行为识别方法包括,
获得群体行为视频数据;
基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,所述网络结构包括特征提取网络、编码器与解码器,所述特征提取网络,用于根据群体行为视频数据提取特征向量组;所述编码器,根据群体行为视频数据构建的场景中个体的稀疏图;所述解码器,利用注意力机制建模长期线索之间的依赖关系以用于关注最相关的历史动态;
对描述群体状态时空信息变化的网络结构,构建损失函数,增强自监督学习的效果;
利用优化后的描述群体状态时空信息变化的网络结构实现自监督群体行为识别。
2.根据权利要求1所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,所述特征提取网络具体为:
将预训练的膨胀三维卷积网络I3D作为骨干网络提取特征图,对输入的视频片段进行特征提取;
根据特征提取的特征图,利用区域对齐技术RoiAlign得到D维的个体特征向量组。
3.根据权利要求2所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,所述编码器具体为:
编码器的稀疏图子网络SGTransformer用于空间状态建模,并构建场景中个体与个体间的动态交互模式,其中每一个个体都用一个高维向量进行特征表示;
在稀疏图子网络SGTransformer中,每个节点都通过向其邻居节点传递消息来进行群组交互模式的更新;
将D维的特征向量组输入到编码器的稀疏图子网络SGTransformer中进行空间群组状态信息建模。
4.根据权利要求3所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,将建模后的空间群组状态信息输入到编码器的因果时序CTTransformer中,提取一个视频片段的时空状态转换信息。
5.根据权利要求3所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,所述解码器具体为:
所述解码器采用多头自注意力机制模型,
所述解码器接受来自编码器的因果时序CTTransformer的输出,解码器利用注意力机制建模长期线索之间的依赖关系关注最相关的历史动态。
6.根据权利要求3所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,编码器-解码器的处理流程具体为,
对于多个连贯的视频帧,依次经过特征提取后分别输入稀疏图子网络SGTransformer并得到第i个视频帧中的群组状态特征gi,将每个视频帧对应的特征gi输入到时序因果CTTransformer并最终输出群体状态时空信息变化特征将/>输入到解码器中进行状态注意力计算和状态注意力更新,并预测未来的群组状态。
7.根据权利要求4所述一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,所述损失函数包括重构损失函数和对比损失函数;
所述重构损失函数,用于单个个体级别的周期性动作状态,鼓励预测的个体动作状态特征接近真实的个体动作状态特征;
所述对比损失函数,用于在预测的多个视频帧层面上用鉴别器来检查预测行为变化状态和真实行为变化状态之间的一致性,以此为标准鼓励预测的状态特征尽可能与实际状态特征一致。
8.一种基于稀疏图因果时序编码的自监督群体行为识别方法,其特征在于,包括:
获取模块,用于获取群体行为视频数据;
构建模块,用于基于稀疏图因果时序预测编码,构建描述群体状态时空信息变化的网络结构,所述网络结构包括特征提取网络、编码器与解码器,所述特征提取网络,用于根据群体行为视频数据提取特征向量组;所述编码器,根据群体行为视频数据构建的场景中个体的稀疏图;所述解码器,利用注意力机制建模长期线索之间的依赖关系以用于关注最相关的历史动态;
训练模块,用于优化所述描述群体状态时空信息变化的网络结构,通过构建损失函数,增强自监督学习的效果;利用优化后的群体状态时空信息变化模型的网络结构实现自监督群体行为识别。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310756691.7A CN116797972A (zh) | 2023-06-26 | 2023-06-26 | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310756691.7A CN116797972A (zh) | 2023-06-26 | 2023-06-26 | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797972A true CN116797972A (zh) | 2023-09-22 |
Family
ID=88043493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310756691.7A Pending CN116797972A (zh) | 2023-06-26 | 2023-06-26 | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797972A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
CN115187898A (zh) * | 2022-07-01 | 2022-10-14 | 天津大学 | 一种面向大场景多对象的自监督群体检测方法及装置 |
WO2023035904A1 (zh) * | 2021-09-08 | 2023-03-16 | 港大科桥有限公司 | 视频时序动作提名生成方法及系统 |
CN116543351A (zh) * | 2023-05-25 | 2023-08-04 | 北京邮电大学 | 一种基于时空串并联关系编码的自监督群体行为识别方法 |
CN117095460A (zh) * | 2023-08-10 | 2023-11-21 | 中科(黑龙江)数字经济研究院有限公司 | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 |
-
2023
- 2023-06-26 CN CN202310756691.7A patent/CN116797972A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
WO2023035904A1 (zh) * | 2021-09-08 | 2023-03-16 | 港大科桥有限公司 | 视频时序动作提名生成方法及系统 |
CN115187898A (zh) * | 2022-07-01 | 2022-10-14 | 天津大学 | 一种面向大场景多对象的自监督群体检测方法及装置 |
CN116543351A (zh) * | 2023-05-25 | 2023-08-04 | 北京邮电大学 | 一种基于时空串并联关系编码的自监督群体行为识别方法 |
CN117095460A (zh) * | 2023-08-10 | 2023-11-21 | 中科(黑龙江)数字经济研究院有限公司 | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 |
Non-Patent Citations (1)
Title |
---|
NAGA VS RAVITEJA CHAPPA 等: "SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition", COMPUTER VISION AND PATTERN RECOGNITION, 6 March 2023 (2023-03-06), pages 1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kashyap et al. | Traffic flow prediction models–A review of deep learning techniques | |
Zhao et al. | Real-time and light-weighted unsupervised video object segmentation network | |
Asadi et al. | A convolution recurrent autoencoder for spatio-temporal missing data imputation | |
CN112446342B (zh) | 关键帧识别模型训练方法、识别方法及装置 | |
CN112069884B (zh) | 一种暴力视频分类方法、系统和存储介质 | |
Kamata et al. | Fully spiking variational autoencoder | |
Ashok Kumar et al. | Enhanced facial emotion recognition by optimal descriptor selection with neural network | |
CN112863180A (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
Zhang et al. | A gated dilated causal convolution based encoder-decoder for network traffic forecasting | |
Jie et al. | Anytime recognition with routing convolutional networks | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
Wang et al. | Reliable identification of redundant kernels for convolutional neural network compression | |
Wang et al. | Crowdmlp: Weakly-supervised crowd counting via multi-granularity mlp | |
Wang et al. | Multi-attention mutual information distributed framework for few-shot learning | |
Du et al. | Multi-feature based network for multivariate time series classification | |
Garau et al. | CapsulePose: A variational CapsNet for real-time end-to-end 3D human pose estimation | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
Yao et al. | Transfer learning with spatial–temporal graph convolutional network for traffic prediction | |
CN116090504A (zh) | 图神经网络模型训练方法及装置、分类方法、计算设备 | |
Bayoudh | A survey of multimodal hybrid deep learning for computer vision: Architectures, applications, trends, and challenges | |
Zhang et al. | Embarrassingly simple binarization for deep single imagery super-resolution networks | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN116311454A (zh) | 一种多线索关联学习的面部表情识别方法及系统 | |
CN116797972A (zh) | 基于稀疏图因果时序编码的自监督群体行为识别方法及其识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |