CN114842402A - 一种基于对抗学习的弱监督时序行为定位方法 - Google Patents

一种基于对抗学习的弱监督时序行为定位方法 Download PDF

Info

Publication number
CN114842402A
CN114842402A CN202210589976.1A CN202210589976A CN114842402A CN 114842402 A CN114842402 A CN 114842402A CN 202210589976 A CN202210589976 A CN 202210589976A CN 114842402 A CN114842402 A CN 114842402A
Authority
CN
China
Prior art keywords
score
class
time sequence
sequence
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210589976.1A
Other languages
English (en)
Other versions
CN114842402B (zh
Inventor
葛永新
李自强
徐玲
洪明坚
杨梦宁
黄晟
王洪星
张小洪
杨丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210589976.1A priority Critical patent/CN114842402B/zh
Priority claimed from CN202210589976.1A external-priority patent/CN114842402B/zh
Publication of CN114842402A publication Critical patent/CN114842402A/zh
Application granted granted Critical
Publication of CN114842402B publication Critical patent/CN114842402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:从公开数据集中选取未裁剪视频数据,将每个未剪切视频分解为不重复的帧片段,然后提取每个帧片段的原始特征;利用原始特征总数X计算时序连续性支流的输入特征数据Xt;计算基础支流的和时序连续性支流的类激活序列分数及类时序注意力分数;将整体模型的类时序注意力分数和类时序注意力分数进行一致性约束;计算TEN网络模型的总损失函数同时对TEN网络模型进行训练,然后得到训练好的TEN网络模型;将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到对待预测未剪切视频的行为定位。通过使用本方法可以对任意待预测视频中的时序行为进行精确定位。

Description

一种基于对抗学习的弱监督时序行为定位方法
技术领域
本发明涉及时序行为定位领域,特别涉及一种基于对抗学习的弱监督时序行为定位方法。
背景技术
现有时序行为定位的目的在于对未剪辑视频中的行为实例,进行定位和其所属类别识别。由于其可以广泛运用到视频摘要、安全监控、高亮检测等领域,因此引起了计算机视觉社区大量研究人员的极大兴趣。对此任务,在帧级别上使用开始和结束时间戳作为监督信息的全监督方法已取得显著的研究进展。然而,随着各种网站上视频数目的快速增长,对大量的未剪辑视频中的行为实例进行人工的精确时间标注十分耗时且成本较高,难以在实际中应用。因此,引入更简便的视频级类别标签作为监督信息,使用弱监督方法进行时序行为定位近期得到了广泛关注。此类方法在减少时间戳标注成本的同时,也取得了较好的定位和识别效果。
不同于全监督定位方法,现有大多数弱监督时序行为定位方法采用一种“通过分类进行定位”的范式,即在视频级分类标签的监督训练下,分类器预测出视频每帧的类别分数,然后对每一帧的类分数应用阈值划分以此实现对行为实例的定位。由于缺少帧级别的类别标签的训练引导,分类器就容易倾向于整个视频中存在判别性信息的帧,以此提高其对视频级行为分类的性能。因此,在弱监督时序定位方法中,未剪辑视频中含有类特有信息的背景帧不可避免地会被分类器误识别为前景帧(行为帧),从而影响对背景与行为帧的区分;同时,由于分类器对类特有的背景帧的偏好关注,也相应地降低了模型对行为的建模能力。
为缓解背景内容对模型分类的干扰,研究者们也提出了一些经典的方法。由于不同视频数据间存在明显差异,因此Lee等人认为背景帧是动态的、不一致的。为此,其通过选取最低分数的K个帧作为伪背景帧,并抑制伪背景帧的特征值来建模背景的不确定性,使模型忽略背景内容且关注前景行为信息。为进一步区分类特定背景(难背景)和行为,ACSNet引入了一个辅助类别来对类特定背景帧进行建模。此外,CoLA利用丰富的时间上下文关系对难背景和简单行为片段进行挖掘选择,并对两者的特征进行对比损失约束,以引导识别模型更好地进行行为建模。上述工作都是通过主动建模背景片段,来进一步提高模型对背景与行为实例间差异的识别,从而实现精确定位。然而,这些方法在很大程度上依赖于对类特有的背景(难背景)帧进行人工假设地伪注释,但通过先验方式进行帧的伪标签标注不可避免地会导致错误标注。
以往工作是通过在帧级别上进行伪标签标注而建模背景内容。然而,背景内容的表征是出现在整个未剪辑视频中的。因而未剪辑视频中的每个片段帧都存在被视为背景内容的倾向。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:目前面对未剪辑视频中的时序行为无法进行精确定位。
为解决上述技术问题,本发明采用如下技术方案:一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:
S100:从公开数据集中选取N个未裁剪视频数据
Figure BDA0003664719010000021
相对应的视频级类别标签为
Figure BDA0003664719010000022
C表示行为类别数量;
S200:将每个未剪切视频
Figure BDA0003664719010000023
分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征
Figure BDA0003664719010000024
和光流模态特征
Figure BDA0003664719010000025
其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S411:采用时序卷积层Φr对RGB模态特征Xr进行特征编码,得到新RGB特征编码
Figure BDA0003664719010000026
采用时序卷积层Φf对光流模态特征Xf进行特征编码,得到新光流特征编码
Figure BDA0003664719010000027
具体表达式如下:
Figure BDA0003664719010000028
其中,
Figure BDA0003664719010000029
Figure BDA00036647190100000210
分别表示RGB模态和光流模态两个模态下编码的新特征,
Figure BDA00036647190100000211
Figure BDA00036647190100000212
分别表示RGB模态和光流模态两个模态的可学习参数,E表示新编码特征的通道数;
S412:通过分类器方法计算基础支流的类激活序列分数,计算表达式如下:
Figure BDA0003664719010000031
其中,
Figure BDA0003664719010000032
Figure BDA0003664719010000033
分别表示RGB模态和光流模态下的类激活序列分数,
Figure BDA0003664719010000034
Figure BDA0003664719010000035
是全连接层的权重参数,
Figure BDA0003664719010000036
Figure BDA0003664719010000037
分别表示RGB模态和光流模态对应的偏置项;
S413:根据RGB模态和光流模态下的类激活序列分数,计算得到基础支流的类激活序列分数
Figure BDA0003664719010000038
S420:采用时序注意力机制计算基础支流的类时序注意力分数,具体表达式如下:
Figure BDA0003664719010000039
其中,
Figure BDA00036647190100000310
Figure BDA00036647190100000311
表示RGB模态和光流模态两个模态下对应的类时序注意力分数,σ(·)表示sigmoid激活函数,
Figure BDA00036647190100000312
Figure BDA00036647190100000313
表示全连接层权重参数,
Figure BDA00036647190100000314
Figure BDA00036647190100000315
分别表示RGB模态和光流模态对应的偏置项;
S421:根据RGB模态和光流模态下的类时序注意力分数,计算得到基础支流的类时序注意力分数
Figure BDA00036647190100000316
其中,i表示第i个帧片段特征;
S430:计算基础支流的交叉熵损失,该部分的交叉熵损失包括行为分数损失
Figure BDA00036647190100000317
和背景分数
Figure BDA00036647190100000318
具体步骤如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
Figure BDA00036647190100000319
其中,τ表示sof tmax激活函数,
Figure BDA00036647190100000320
Figure BDA00036647190100000321
均表示归一化因子,ai表示第i帧片段的行为分数,(1-ai)表示第i帧片段的背景分数;
S432:根据未剪切视频的行为分数Pfg和背景分数Pbg计算行为分数损失
Figure BDA00036647190100000322
和背景分数
Figure BDA00036647190100000323
表达式如下:
Figure BDA00036647190100000324
其中,C+1表示为背景类别标签,
Figure BDA00036647190100000325
表示给定的真实训练类别标签;
S440:采用时序卷积层和分类器方法计算得到时序连续性支流的类激活序列分数
Figure BDA00036647190100000326
采用时序注意力机制计算得到时序连续性支流的类时序注意力分数
Figure BDA00036647190100000327
S500:使用平均绝对值误差L1函数将基础支流的类时序注意力分数
Figure BDA00036647190100000328
和时序连续性支流的类时序注意力分数
Figure BDA00036647190100000329
进行一致性约束,计算表达式如下:
Figure BDA0003664719010000041
其中,G(·)表示时序维度上的高斯平滑滤波函数;
使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数
Figure BDA0003664719010000042
和时序连续性支流的类激活序列分数
Figure BDA0003664719010000043
进行一致性约束,计算表达式如下:
Figure BDA0003664719010000044
其中,τ(·)表示sigmoid激活函数,
Figure BDA0003664719010000045
表示c类别上的时序连续性支流的类激活序列分数;
S600:将
Figure BDA0003664719010000046
Figure BDA0003664719010000047
进行合并得到TEN网络模型的总损失函数Lall,表达式如下:
Figure BDA0003664719010000048
其中,λ和β表示控制各项损失权重平衡的超参数,
Figure BDA0003664719010000049
表示行为损失,
Figure BDA00036647190100000410
表示背景损失;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
S800:将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到待预测未剪切视频的类激活序列分数
Figure BDA00036647190100000411
和类时序注意力分数
Figure BDA00036647190100000412
S810:预设类激活序列分数阈值ρcls,利用sof tmax对yO进行归一化处理得到概率分数
Figure BDA00036647190100000422
Figure BDA00036647190100000414
时,则进行下一步;
S820:将
Figure BDA00036647190100000415
和aO进行融合得到最终用于定位的分数序列SL,此时SL即为对待预测未剪切视频的行为定位,表达式如下:
Figure BDA00036647190100000416
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
作为优选,所述S300中计算时序连续性支流的输入特征数据Xt的具体步骤如下:
S310:对于
Figure BDA00036647190100000417
所提取的原始特征
Figure BDA00036647190100000418
Figure BDA00036647190100000419
在时序维度上等时间间隔的划分为T/k个区域段,划分后的原始特征X表示如下:
Figure BDA00036647190100000420
其中,k表示等间隔采样区域的长度;
然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′,表达式如下:
Figure BDA00036647190100000421
S320:对新特征序列中所选取的每个特征进行重复填充,以使每个区域段的帧特征数目到达原始特征的长度,填充后的特征序列表达式如下:
Xt=[(Xk-1,...,Xk-1),...,(XT-k,...,XT-k)] (12)
其中,
Figure BDA0003664719010000051
通过构造不同数据输入,可形成相邻帧特征序列对;而后通过对模型得到的相邻帧序列对分数进行一致性约束,可增强模型相邻帧时序连续性建模能力的增强,提高模型行为定位的完整性。
作为优选,所述S412中的计算分类器的修改梯度的表达式如下:
Figure BDA0003664719010000052
Figure BDA0003664719010000053
其中,
Figure BDA0003664719010000054
Figure BDA0003664719010000055
分比表示第i帧段得到的注意力值。
梯度更新是深度学习方法优化模型的常用方法,因此通过对梯度的修改,可直接有效地改进模型的识别方式,更好实现模型对抗学习的过程。模型的权重就可以由梯度更新进行变换而学习到。
作为优选,所述S430中的计算时序注意力的修改梯度的表达式如下:
Figure BDA0003664719010000056
Figure BDA0003664719010000057
其中,
Figure BDA0003664719010000058
为视频级的背景分数,C+1表示背景类别。
通过修改原有背景分数归一化系数Nb为Nf,可简单且有效地实现背景梯度增强,即,使背景损失
Figure BDA0003664719010000059
在梯度方向过程中将每一帧的梯度更多朝向背景类别。这一方式使得行为分类损失
Figure BDA00036647190100000510
与背景损失
Figure BDA00036647190100000511
在梯度方向过程中构成对抗学习过程,驱使识别模型更好的区分背景帧与行为帧。
相对于现有技术,本发明至少具有如下优点:
1.本方法将对抗学习策略应用到弱监督时序行为定位中,且通过完成以下两方面来实现精确定位。一、将整个视频趋向背景;本方法提出了一种新颖的背景梯度增强策略,通过修改背景分类模式,在梯度反向过程中增加每帧趋向背景的梯度;通过此方式可以在训练过程中使整个视频会更偏向视为背景以提高分类难度,模型相应地需要自我提升能力对行为感知,而实现对抗性学习的过程。二、进一步提高模型行为建模的能力;本发明认为在基于对抗策略的训练过程中,主动增强行为时序关系会进一步促进模型对前景的识别定位能力,
2.在梯度反向过程中,通过修改背景分类损失,呈现了一种简单有效的背景梯度增强策略,以引导模型将整个视频视为背景。行为分类损失又驱使模型从视频中激活行为帧,因此背景分类损失与行为分类损失之间的竞争就构成了对抗学习过程。
3.提出了一种新颖的时序增强网络(TEN)以提高模型感知行为时序信息,其通过构造相邻帧序列对并进行序列对一致性约束,以增强模型行为定位的完整性。
4.在弱监督时序定位方法中,开创性地采用对抗学习范式对背景干扰问题进行解决。在将整个视频趋向于背景的条件下,推动模型聚焦于行为内容,而不误识别背景帧为行为。
附图说明
图1为时序增强网络图示。
图2为定位方法基础模型的前向过程与背景梯度增强的反向过程。
图3为时序行为定位图示。
图4为不同未剪辑视频的定位分数图示。
具体实施方式
下面对本发明作进一步详细说明。
本发明方法提出了一种基于对抗学习策略的弱监督行为定位方法,其宗旨在解决弱监督定位方法中的类特有背景干扰和定位完整性这两个问题。本方法利用对抗学习策略,采用一种从背景中寻找前景行为的模式,以提高识别模型对行为部分的关注而减轻背景对其的干扰;此外,为提高模型定位行为的完整性,该方法另外提出了一个时序增强网络,对视频相邻帧的一致性进行约束,以提高模型的时序连续性建模能力。
本发明所提出了一种新颖的时序增强网络(Temporal enhancement network,TEN),由原始基础分支(Base branch,BB)、和时序连续性分支(Temporal continuitybranch,TCB)组成,基础支流保持模型对原始视频数据的学习过程,而时序连续性分支则作为基础支流的辅助,用于提升模型的时序建模能力。简言之,分支TCB首先对输入序列局部时段随机采样并扩充,以使得分支BB和TCB的视频序列帧在对应时序位置上为相邻关系,然后本方法利用分支BB和TCB的预测结果来约束相邻帧间的一致性,以提升模型行为时序连续性建模的能力。
参见图1-图3,一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:
S100:从公开数据集中选取N个未裁剪视频数据
Figure BDA0003664719010000071
相对应的视频级类别标签为
Figure BDA0003664719010000072
C表示行为类别数量;
S200:将每个未剪切视频
Figure BDA0003664719010000073
分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征
Figure BDA0003664719010000074
和光流模态特征
Figure BDA0003664719010000075
其中,D表示所提取特征的通道数目,预训练I3D模型为现有技术;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
所述S300中计算时序连续性支流的输入特征数据Xt的具体步骤如下:
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt
S310:对于
Figure BDA0003664719010000076
所提取的原始特征
Figure BDA0003664719010000077
Figure BDA0003664719010000078
在时序维度上等时间间隔的划分为T/k个区域段,划分后的原始特征X表示如下:
Figure BDA0003664719010000079
其中,k表示等间隔采样区域的长度;
然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′,表达式如下:
Figure BDA00036647190100000710
S320:对新特征序列中所选取的每个特征进行重复填充,以使每个区域段的帧特征数目到达原始特征的长度,填充后的特征序列表达式如下:
Xt=[(Xk-1,…,Xk-1),…,(XT-k,…,XT-k)] (12)
其中,
Figure BDA00036647190100000711
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S411:采用时序卷积层Φr对RGB模态特征Xr进行特征编码,得到新RGB特征编码
Figure BDA00036647190100000712
采用时序卷积层Φf对光流模态特征Xf进行特征编码,得到新光流特征编码
Figure BDA00036647190100000713
具体表达式如下:
Figure BDA00036647190100000714
其中,
Figure BDA00036647190100000715
Figure BDA00036647190100000716
分别表示RGB模态和光流模态两个模态下编码的新特征,
Figure BDA00036647190100000717
Figure BDA00036647190100000718
分别表示RGB模态和光流模态两个模态的可学习参数,E表示新编码特征的通道数;卷积编码层Φr(·)和Φf(·)都由一个卷积核为3的1D卷积层和一个ReLU激活函数组成;由于本方法中的输入是从预训练I3D模型当中提取的特征,其已具有高层语义表征,因此使用单个卷积层足以完成编码过程;
S412:通过分类器方法计算基础支流的类激活序列分数,分类器方法为现有技术,计算表达式如下:
Figure BDA0003664719010000081
其中,
Figure BDA0003664719010000082
Figure BDA0003664719010000083
分别表示RGB模态和光流模态下的类激活序列分数,
Figure BDA0003664719010000084
Figure BDA0003664719010000085
是全连接层的权重参数,
Figure BDA0003664719010000086
Figure BDA0003664719010000087
分别表示RGB模态和光流模态对应的偏置项;
所述S412中的计算分类器的修改梯度的表达式如下:
Figure BDA0003664719010000088
Figure BDA0003664719010000089
其中,
Figure BDA00036647190100000810
Figure BDA00036647190100000811
分比表示第i帧段得到的注意力值。
S413:根据RGB模态和光流模态下的类激活序列分数,计算得到基础支流的类激活序列分数
Figure BDA00036647190100000812
由于弱监督时序行为定位方法采用的是‘通过分类器进行定位’的模式,因此未裁剪视频中的每一帧会被模型预测对出对应的类别分数,也视为类激活序列分数(CAS)。
S420:采用时序注意力机制计算基础支流的类时序注意力分数,时序注意力机制为现有技术,具体表达式如下:
Figure BDA00036647190100000813
其中,
Figure BDA00036647190100000814
Figure BDA00036647190100000815
表示RGB模态和光流模态两个模态下对应的类时序注意力分数,σ(·)表示sigmoid激活函数,
Figure BDA00036647190100000816
Figure BDA00036647190100000817
表示全连接层权重参数,
Figure BDA00036647190100000818
Figure BDA00036647190100000819
分别表示RGB模态和光流模态对应的偏置项;
S421:根据RGB模态和光流模态下的类时序注意力分数,计算得到基础支流的类时序注意力分数
Figure BDA00036647190100000820
其中,i表示第i个帧片段特征;
S430:计算基础支流的交叉熵损失,该部分的交叉熵损失包括行为分数损失
Figure BDA00036647190100000821
和背景分数
Figure BDA00036647190100000822
具体步骤如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
Figure BDA00036647190100000823
其中,τ表示sof tmax激活函数,
Figure BDA0003664719010000091
Figure BDA0003664719010000092
均表示归一化因子,ai表示第i帧片段的行为分数,(1-ai)表示第i帧片段的背景分数;弱监督时序行为定位方法可视为一个分类器,因而需要对其进行分类损失函数约束优化训练。在此,类激活序列分数y和类时序注意力分数a将进行聚合,以生成视频级的行为概率分数和背景概率分数;
S432:根据未剪切视频的行为分数Pfg和背景分数Pbg计算行为分数损失
Figure BDA0003664719010000093
和背景分数
Figure BDA0003664719010000094
表达式如下:
Figure BDA0003664719010000095
其中,C+1表示为背景类别标签,
Figure BDA0003664719010000096
表示给定的真实训练类别标签;
所述S430中的计算时序注意力的修改梯度的表达式如下:
Figure BDA0003664719010000097
Figure BDA0003664719010000098
其中,
Figure BDA0003664719010000099
为视频级的背景分数,C+1表示背景类别。
S440:采用时序卷积层和分类器方法计算得到时序连续性支流的类激活序列分数
Figure BDA00036647190100000910
采用时序注意力机制计算得到时序连续性支流的类时序注意力分数
Figure BDA00036647190100000911
S500:使用平均绝对值误差L1函数将基础支流的类时序注意力分数
Figure BDA00036647190100000912
和时序连续性支流的类时序注意力分数
Figure BDA00036647190100000913
进行一致性约束,计算表达式如下:
Figure BDA00036647190100000914
其中,G(·)表示时序维度上的高斯平滑滤波函数;
使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数
Figure BDA00036647190100000915
和时序连续性支流的类激活序列分数
Figure BDA00036647190100000916
进行一致性约束,计算表达式如下:
Figure BDA00036647190100000917
其中,τ(·)表示sigmoid激活函数,
Figure BDA00036647190100000918
表示c类别上的时序连续性支流的类激活序列分数;
S600:将
Figure BDA00036647190100000919
Figure BDA00036647190100000920
进行合并得到TEN网络模型的总损失函数Lall,表达式如下:
Figure BDA00036647190100000921
其中,λ和β表示控制各项损失权重平衡的超参数,
Figure BDA00036647190100000922
表示行为损失,
Figure BDA00036647190100000923
表示背景损失;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
S800:将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到待预测未剪切视频的类激活序列分数
Figure BDA0003664719010000101
和类时序注意力分数
Figure BDA0003664719010000102
S810:预设类激活序列分数阈值ρcls,利用sof tmax对yO进行归一化处理得到概率分数
Figure BDA0003664719010000103
根据
Figure BDA0003664719010000104
和aO即可得到未剪辑视频的预测类别c,当
Figure BDA0003664719010000105
时,则进行下一步;
S820:将
Figure BDA0003664719010000106
和aO进行融合得到最终用于定位的分数序列SL,此时SL即为对待预测未剪切视频的行为定位,表达式如下:
Figure BDA0003664719010000107
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
具体而言,通过行为实例的开始和截止时间可得该实例的持续长度li。而在li范围内部成为内区域,以此可得内部帧的平均分数
Figure BDA0003664719010000108
而外区域则是被定义为开始时间si前的0.25*li区域和截止时间ei后的0.25*li区域和截止时间,对应可得到外区域的帧平均分数
Figure BDA0003664719010000109
然后,行为实例的置信度分数qi可由计算为:
Figure BDA00036647190100001010
最终,每个行为实例的预测集合{ci,qi,si,ei},则就通过上述过程完成。
实验设计与结果分析
1.数据集介绍
本方法将在两个具有挑战的数据集上进行测试评估,即THUMOS’14和ActivityNet1.2数据集。此两数据集具有各自的特点,但其中的训练测试视频样本都是未剪辑的。同时,本方法只利用此两数据集提供的视频级类别标签,进行弱监督方式的模型训练。
1)THUMOS’14数据集
该数据集含有20个不同的行为类别,且含有200个视频作为验证集和213个视频作为测试集。与以往工作相同,在此验证集将用于本方法模型的训练,而测试集中的样本则用于方法的验证评估。在该数据集中,一个未剪辑视频往往包含多个行为实例且行为实例的持续实际长短不一,同时行为实例间的类别也存在不一致的情况,因此,该数据集是非常具有挑战的。
2)ActivityNet1.2数据集
在ActivityNet1.2数据集中含有4819个训练视频样本、2383个验证集样本和2480个测试集视频样本,且行为类别含有100个。亦与之前研究内容一致,本方法采用训练集视频样本对模型进行训练,而采用验证集数据对本发明方法进行测试评估。相比于THUMOS’14数据集,此数据集拥有较多的视频样本数和行为类别数,但该数据集的未剪辑视频样本中往往只含有一个行为视频,且类别单一。因此,在数据集的挑战上相对于THUMOS’14数据集更为容易。
2.实验的设置
1)数据预处理
为得到RGB模态数据的另外一种补充数据模态光流,TVL1算法被用于处理原始RGB模态未剪辑视频已得到该模态数据。在此,在Kinetics数据集上进行预训练后的I3D模型将作为特征提取器,以获得两个模态下的数据特征。其中,在RGB模态和光流模态的视频中,将选取未交并的16帧段作为I3D模型的输入,而后得到通道数为1024的特征向量。最后,此两种模态下的特征将作为本方法的输入数据。
2)实现细节
对于RGB和光流两种模态下的特征,本方法先使用两个参数不共享的1维时序卷积层进行编码。该编码卷积层的核大小为3,而输入的通道维度大小设置为512。同时,经过卷积层编码后,ReLU激活函数被用于对编码后的特征进行过滤。同样地,两种模态下的特征也拥有不同的分类器和时序注意力层,但其结构一致。对于分类器,本方法采用了输入通道数为512,而输出通道为数类别数目的线型层。而注意力机制采用一个输入通道数为512、输出通道数为1的线型层和一个sigmoid激活函数组成。而本方法模型是采用Pytorch框架实现,且使用Adam优化器在3090GPU服务器上训练。训练过程中的学习率初始化为1e-3,当训练论述到达一半后将降为1e-4。对于中的优化损失函数的参数权重,λ和β都被设置为0.1。在行为定位阶段,类别分数阈值ρcls设置为0.1,而非极大抑制方法的阈值设为0.5。
3)评估指标
本方法依照现有的标准评估协议,实验结果显示了在不同时间交并比(Intersection over Uniont,IoU)上的平均精度值。同时,本方法实验结果通过此两个数据集提供的评估代码计算而得。由于两者数据集挑战不同,遵循现有大多数工作的方式。本方法在THUMOS’14数据集上的实验结果,主要体现在IoU阈值为0.1、0.2、…、0.7上,而在ActivityNet1.2上,IoU阈值主要设置为0.5、0.75和0.95。
3.各种方法结果比较
表1在THUMOS’14数据集上与最先进方法的比较结果
Figure BDA0003664719010000121
表1显示了本发明方法在数据集THUMOS’14的测试集上的时序行为定位结果,并与其他的行为定位方法进行了比较。从该表可知,与其他弱监督方法相比,本发明方法在不同的时间交并比阈值上都取得了显著性的提升。与其他方法相比,AUMN通过主动对行为进行多阶段划分建模,提高了其在较短时序范围的IoU阈值段(0.1-0.5)上的定位结果,但在高时序范围IoU阈值段的定位结果则有所不足。此外,CoLA通过对难背景的挖掘后,利用对比损失提高了在高IoU阈值0.7上的定位结果。相比于这两个工作,本方法通过对抗学习策略增加了模型对行为部分的关注,同时设计了时序增强网络用于提高模型定位的完整性。通过这两部分的改进,该方法在短时序和长时序IoU阈值段上的定位结果都取得了提升。另外,本发明所提出的方法也优于一些全监督方法。与Chao等人所提出的方法相比,本章方法在IoU阈值段(01-0.5)的定位结果增加了4个百分点。而与全监督方法BSN相比,在IoU阈值段(0.3-0.7)上该方法的定位结果提升了1.1个百分点。总之,以上结果都表示了本方法的优越性。
表2在ActivityNet1.2数据集上与最先进方法的比较结果
Figure BDA0003664719010000122
Figure BDA0003664719010000131
表2展示了该方法在Activity1.2验证集上的行为定位结果。而在此数据集上,本方法与以往的弱监督定位方法进行了比较,结果也显示了该方法的有效性。相比于THUMOS’14数据集,Activity1.2中的行为实例比较单一且持续时间较长。因此,本方法所提出的时序增强网络对相邻帧间的时序连续性建模,在该数据上得到了较好的效果,提升了该方法的泛化性。
4.消融实验
与以往方法相似,本部分采用较有挑战性的THUMOS’14数据集进行相关的消融实验。本部分分析的主要内容有:各个子方法的作用、背景梯度增强策略方式、背景损失权重、等间隔采样和约束损失选择。
(1)子方法作用分析
本部分对子方法组合设计了三种方式:1)只加入背景梯度增强策略,2)只使用时序增强网络和3)两者都使用。表3显示了所提出组合方式得到的不同结果。
表3不同子方法组合方式的结果
Figure BDA0003664719010000132
其中基线为不添加本章所提出的任何方法的结果。BGE表示背景梯度增强策略,在基础模型上添加背景梯度增强是为实现对抗学习过程。可从表中得知,进行对抗学习过后,模型的定位结果在所有时序IoU阈值段上在都有所提升。这也验证了对抗学习过程减少了背景对模型的干扰,并且提升了模型行为关注的能力。另外,只使用时序增强网络(TEN)模型也提升了该方法在高时序IoU阈值段(0.4-0.7)上的性能效果,而该结果验证了TEN提高了模型时序连续性建模的能力。最后,本部分将BGE与TEN两部分结合,进一步提升了模型的行为定位效果。此结果展示了在对抗学习策略下更能促进模型对时序关系的学习。
(2)背景梯度增强策略方式分析
本章提及了三种背景梯度修改方式:1)分类器权重修改,2)时序注意力权重修改和3)梯度翻转层(GRL),其中时序注意力权重修改就是本章所采用的策略BGE。表4显示了对分类器权重修改策略的结果,其中BL为背景分类损失。从该表可知,使用分类器权重修改方式依然提升了该方法的性能,而该结果亦验证了对抗学习方式能够提升模型对行为更好的关注。而基于BL对分类器权重修改的方式下,引入TEN模型也能提升该方法的性能,但定位结果的提升并不显著,在时序IoU阈值段(0.1-0.5)上仅提高了0.9%,而在时序IoU阈值段(0.3-0.7)上提升了1.2%。相比于时序注意力权重的修改方式,此做法与TEN结合而提升的效果并不明显。另外,本部分将BGE、BL和TEN三部分组合,所得到的定位结果与BGE和TEN结合方法的效果相差不多但仍有下降。为此,本发明采用BGE与TEN的组合方法。
表4分类器权重修改下的方法组合结果
Figure BDA0003664719010000141
梯度反转层(GRL)通过对梯度进行修改以完成源域与目标域的混淆。为此,本部分亦对GRL在弱监督定位方法中的作用进行探讨。表5显示了加入GRL方法的定位结果。其中,在基础模型上加入GRL,行为定位效果有所提升。但相比于另外两种方式,其提升效果并不高。而在GRL方法的基础上,本部分加入时序增强网络TEN进行了实验验证。与只加入时序增强网络方法的结果相比,其只在时序IoU阈值段(0.1-0.3)上有微小提升,而在阈值段(0.4-0.7)上都有下降。通过该结果可知,GRL通过梯度修改过度地干扰了模型的学习过程,以使得模型难以较好的建模行为部分信息。这也验证了GRL与本章方提出的背景梯度增强策略的不同。
表5与梯度反转层(GRL)组合的方法结果
Figure BDA0003664719010000142
(3)背景损失权重分析
背景分类损失权重亦对背景梯度反向过程产生影响,为进一步验证本章的背景梯度增强策略的有效性,本部分在此探讨背景损失权重的增加是否可以实现对抗学习过程,以提高模型的定位精度。表6显示了不同背景分类损失权重λ下,基础模型的行为实例定位结果。当权重λ值为0时,基础模型不使用背景损失训练,即不对背景进行归类。与背景损失权重λ为0.1的结果相比,仅进行前景分类损失的方法的定位效果更差。这验证了背景分类损失的重要性,可更好地区分前背景。当背景损失权重λ值为0.1、0.2和0.3时,基础模型的定位结果相似且达到最好。而随着λ值的进一步增加,模型定位结果急剧下降。这些结果明确的展示了背景损失调控权重λ的更改并不能驱使模型进一步的学习行为知识。
表6背景分类损失不同权重值的结果
Figure BDA0003664719010000151
(4)等间隔采样分析
在时序增强网络中,时序连续性分支(TCB)在等间隔k的局部时序段中进行随机采样。而间隔值k调控着随机采样的时序范围,即相邻帧间的距离。表7显示了不同间隔k下,该方法的行为定位结果。
从上表可知,方法定位结果的值会随着采样间隔的变化而变化。当采样间隔值k=4时,方法定位结果最优。当采样间隔较小时,相邻帧间的时序范围较小,模型就学习到较短的时序连续性。而采样间隔过大时,帧间内容会出现不同,而在此情况下进行一致性约束反而会降低方法的定位结果。因此,在训练过程选择适合的采样间隔,将更有助于模型对视频时序关系的学习。
表7不同采样间隔距离下的结果
Figure BDA0003664719010000152
(5)约束损失选择
在时序增强网络中,基础分支与时序连续性分支都输出了时序注意力值和类激活分数序列(每帧类别分数),而本方法对这些预测结果进行了一致性约束。对于注意力值的约束,本部分分别使用平均绝对值误差(MAE)函数和平均平方误差(MSE)进行尝试。而对于类激活分数序列,本方法分别使用了MAE、MSE和KL散度函数进行约束。表8显示了该方法在使用背景梯度增强策略后,单独使用不同约束函数的定位结果。
表8使用不同约束损失下的结果
Figure BDA0003664719010000161
通过上述数据可知,选取平均绝对值误差函数MAE对时序注意力值约束,方法的效果是最好的。注意力值表示前景和背景的程度,其只含有一个数据维度且取值范围为0~1,而MAE可快速优化变量到目标值,所以较适合对注意力值的约束。从表8所显示的结果可知,对于类激活分数序列的约束,选取KL散度函数是最好的。其中,对于KL函数的选择与以往方法进行知识蒸馏的方式一致。为此,本对比则选择MAE函数对注意力值进行约束,并选择KL散度函数对输出的类别分数进行约束。
5.定性分析
本部分通过对方法的可视化定位结果进行定性分析,图4显示了‘足球点球’、‘举重’和‘悬崖跳水’三个行为的定位分数序列SL。其中,橙色曲线表示基准方法得到的结果,蓝色曲线则是本章方法的定位分数序列,而绿色柱状图表示行为实例发生的真实时间段。
如‘足球点球’未剪辑视频中的红色方框所示,基准方法的定位曲线起伏较大,相邻帧的定分数差异较大。而本章方法得到的分数序列就较为平滑,这表明时序增强网络提高了模型相邻帧间的时序连续性建模。另外,在‘举重’和‘悬崖跳水’两个实例的红色标记框中,基准方法都过多地激活一些背景帧,而本章方法则减少了非行为帧的误激活。这验证了本章所使用的对抗学习策略有效的减少了背景信息对模型前景识别的干扰。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于对抗学习的弱监督时序行为定位方法,其特征在于:包括如下步骤:
S100:从公开数据集中选取N个未裁剪视频数据
Figure FDA0003664719000000011
相对应的视频级类别标签为
Figure FDA0003664719000000012
C表示行为类别数量;
S200:将每个未剪切视频
Figure FDA0003664719000000013
分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征
Figure FDA0003664719000000014
和光流模态特征
Figure FDA0003664719000000015
其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S411:采用时序卷积层Φr对RGB模态特征Xr进行特征编码,得到新RGB特征编码
Figure FDA0003664719000000016
采用时序卷积层Φf对光流模态特征Xf进行特征编码,得到新光流特征编码
Figure FDA0003664719000000017
具体表达式如下:
Figure FDA0003664719000000018
其中,
Figure FDA0003664719000000019
Figure FDA00036647190000000110
分别表示RGB模态和光流模态两个模态下编码的新特征,
Figure FDA00036647190000000111
Figure FDA00036647190000000112
分别表示RGB模态和光流模态两个模态的可学习参数,E表示新编码特征的通道数;
S412:通过分类器方法计算基础支流的类激活序列分数,计算表达式如下:
Figure FDA00036647190000000113
其中,
Figure FDA00036647190000000114
Figure FDA00036647190000000115
分别表示RGB模态和光流模态下的类激活序列分数,
Figure FDA00036647190000000116
Figure FDA00036647190000000117
是全连接层的权重参数,
Figure FDA00036647190000000118
Figure FDA00036647190000000119
分别表示RGB模态和光流模态对应的偏置项;
S413:根据RGB模态和光流模态下的类激活序列分数,计算得到基础支流的类激活序列分数
Figure FDA00036647190000000120
S420:采用时序注意力机制计算基础支流的类时序注意力分数,具体表达式如下:
Figure FDA00036647190000000121
其中,
Figure FDA00036647190000000122
Figure FDA00036647190000000123
表示RGB模态和光流模态两个模态下对应的类时序注意力分数,σ(·)表示sigmoid激活函数,
Figure FDA0003664719000000021
Figure FDA0003664719000000022
表示全连接层权重参数,
Figure FDA0003664719000000023
Figure FDA0003664719000000024
分别表示RGB模态和光流模态对应的偏置项;
S421:根据RGB模态和光流模态下的类时序注意力分数,计算得到基础支流的类时序注意力分数
Figure FDA0003664719000000025
其中,i表示第i个帧片段特征;
S430:计算基础支流的交叉熵损失,该部分的交叉熵损失包括行为分数损失
Figure FDA0003664719000000026
和背景分数
Figure FDA0003664719000000027
具体步骤如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
Figure FDA0003664719000000028
其中,τ表示softmax激活函数,
Figure FDA0003664719000000029
Figure FDA00036647190000000210
均表示归一化因子,ai表示第i帧片段的行为分数,(1-ai)表示第i帧片段的背景分数;
S432:根据未剪切视频的行为分数Pfg和背景分数Pbg计算行为分数损失
Figure FDA00036647190000000211
和背景分数
Figure FDA00036647190000000212
表达式如下:
Figure FDA00036647190000000213
其中,C+1表示为背景类别标签,
Figure FDA00036647190000000214
表示给定的真实训练类别标签;
S440:采用时序卷积层和分类器方法计算得到时序连续性支流的类激活序列分数
Figure FDA00036647190000000215
采用时序注意力机制计算得到时序连续性支流的类时序注意力分数
Figure FDA00036647190000000216
S500:使用平均绝对值误差L1函数将基础支流的类时序注意力分数
Figure FDA00036647190000000217
和时序连续性支流的类时序注意力分数
Figure FDA00036647190000000218
进行一致性约束,计算表达式如下:
Figure FDA00036647190000000219
其中,G(·)表示时序维度上的高斯平滑滤波函数;
使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数
Figure FDA00036647190000000220
和时序连续性支流的类激活序列分数
Figure FDA00036647190000000221
进行一致性约束,计算表达式如下:
Figure FDA00036647190000000222
其中,τ(·)表示sigmoid激活函数,
Figure FDA00036647190000000223
表示c类别上的时序连续性支流的类激活序列分数;
S600:将
Figure FDA00036647190000000224
Figure FDA00036647190000000225
进行合并得到TEN网络模型的总损失函数Lall,表达式如下:
Figure FDA00036647190000000226
其中,λ和β表示控制各项损失权重平衡的超参数,
Figure FDA0003664719000000031
表示行为损失,
Figure FDA0003664719000000032
表示背景损失;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
S800:将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到待预测未剪切视频的类激活序列分数
Figure FDA0003664719000000033
和类时序注意力分数
Figure FDA0003664719000000034
S810:预设类激活序列分数阈值ρcls,利用softmax对yO进行归一化处理得到概率分数
Figure FDA0003664719000000035
Figure FDA0003664719000000036
时,则进行下一步;
S820:将
Figure FDA0003664719000000037
和aO进行融合得到最终用于定位的分数序列SL,此时SL即为对待预测未剪切视频的行为定位,表达式如下:
Figure FDA0003664719000000038
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
2.如权利要求1所述的一种基于对抗学习的弱监督时序行为定位方法,其特征在于:所述S300中计算时序连续性支流的输入特征数据Xt的具体步骤如下:
S310:对于
Figure FDA0003664719000000039
所提取的原始特征
Figure FDA00036647190000000310
Figure FDA00036647190000000311
在时序维度上等时间间隔的划分为T/k个区域段,划分后的原始特征X表示如下:
Figure FDA00036647190000000312
其中,k表示等间隔采样区域的长度;
然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′,表达式如下:
Figure FDA00036647190000000313
S320:对新特征序列中所选取的每个特征进行重复填充,以使每个区域段的帧特征数目到达原始特征的长度,填充后的特征序列表达式如下:
Xt=[(Xk-1,...,Xk-1),...,(XT-k,...,XT-k)] (12)
其中,
Figure FDA00036647190000000314
3.如权利要求2所述的一种基于对抗学习的弱监督时序行为定位方法,其特征在于:所述S412中的计算分类器的修改梯度的表达式如下:
Figure FDA00036647190000000315
Figure FDA00036647190000000316
其中,
Figure FDA00036647190000000317
Figure FDA00036647190000000318
分比表示第i帧段得到的注意力值。
4.如权利要求3所述的一种基于对抗学习的弱监督时序行为定位方法,其特征在于:所述S430中的计算时序注意力的修改梯度的表达式如下:
Figure FDA0003664719000000041
Figure FDA0003664719000000042
其中,
Figure FDA0003664719000000043
为视频级的背景分数,C+1表示背景类别。
CN202210589976.1A 2022-05-26 一种基于对抗学习的弱监督时序行为定位方法 Active CN114842402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210589976.1A CN114842402B (zh) 2022-05-26 一种基于对抗学习的弱监督时序行为定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210589976.1A CN114842402B (zh) 2022-05-26 一种基于对抗学习的弱监督时序行为定位方法

Publications (2)

Publication Number Publication Date
CN114842402A true CN114842402A (zh) 2022-08-02
CN114842402B CN114842402B (zh) 2024-05-31

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240120A (zh) * 2022-09-21 2022-10-25 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
US20210027066A1 (en) * 2019-07-24 2021-01-28 Honda Motor Co., Ltd. System and method for providing unsupervised domain adaptation for spatio-temporal action localization
CN113221633A (zh) * 2021-03-24 2021-08-06 西安电子科技大学 一种基于层次类别模型的弱监督时序行为定位方法
CN114049581A (zh) * 2021-09-27 2022-02-15 中国科学院信息工程研究所 一种基于动作片段排序的弱监督行为定位方法和装置
CN114359790A (zh) * 2021-12-15 2022-04-15 青岛科技大学 基于弱监督学习的视频时序行为检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210027066A1 (en) * 2019-07-24 2021-01-28 Honda Motor Co., Ltd. System and method for providing unsupervised domain adaptation for spatio-temporal action localization
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN113221633A (zh) * 2021-03-24 2021-08-06 西安电子科技大学 一种基于层次类别模型的弱监督时序行为定位方法
CN114049581A (zh) * 2021-09-27 2022-02-15 中国科学院信息工程研究所 一种基于动作片段排序的弱监督行为定位方法和装置
CN114359790A (zh) * 2021-12-15 2022-04-15 青岛科技大学 基于弱监督学习的视频时序行为检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUOQIANG GONG等: "Self-Supervised Video Action Localization with Adversarial Temporal Transforms.", 《CONTROL SYSTEMS ENGINEERING》, 1 August 2021 (2021-08-01) *
ZIQIANG LI等: "Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization", 《COMPUTER VISION AND PATTERN RECOGNITION》, 14 July 2022 (2022-07-14) *
李自强: "基于深度特征学习的视频行为识别与定位方法研究", 《万方数据》, 1 November 2023 (2023-11-01) *
赵朵朵;章坚武;郭春生;周迪;穆罕默德・阿卜杜・沙拉夫・哈基米;: "基于深度学习的视频行为识别方法综述", 电信科学, no. 12, 20 December 2019 (2019-12-20) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240120A (zh) * 2022-09-21 2022-10-25 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统
CN116503959B (zh) * 2023-06-30 2023-09-08 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Similar Documents

Publication Publication Date Title
Takahashi et al. Data augmentation using random image cropping and patching for deep CNNs
Li et al. Infogail: Interpretable imitation learning from visual demonstrations
Abu Farha et al. When will you do what?-anticipating temporal occurrences of activities
Shu et al. Cern: confidence-energy recurrent network for group activity recognition
Grubb et al. Speedboost: Anytime prediction with uniform near-optimality
Karayev et al. Anytime recognition of objects and scenes
US11640714B2 (en) Video panoptic segmentation
CN111274438B (zh) 一种语言描述引导的视频时序定位方法
Rosenbloom et al. Towards emotion in sigma: from appraisal to attention
Narr et al. Stream-based active learning for efficient and adaptive classification of 3d objects
CN111950393A (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN113888638A (zh) 一种基于注意力机制的图神经网络行人轨迹预测方法
CN114842402A (zh) 一种基于对抗学习的弱监督时序行为定位方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN114842402B (zh) 一种基于对抗学习的弱监督时序行为定位方法
Calem et al. Diverse probabilistic trajectory forecasting with admissibility constraints
CN113947692A (zh) 一种通过k-means聚类进行多任务增强的分类系统及方法
Nebot et al. Modeling wine preferences from physicochemical properties using fuzzy techniques
Mohan et al. Panoptic Out-of-Distribution Segmentation
US11961275B2 (en) Device and method for training a normalizing flow
US11948358B2 (en) Self-supervised hierarchical event representation learning
Khanal Class-Incremental Learning Using Enhanced Replay and Auxiliary Network
Thuremella et al. Prediction of Social Dynamic Agents and Long-Tailed Learning Challenges: A Survey
Wang et al. Pedestrian Trajectory Prediction Using Dynamics-based Deep Learning
Chio Machine Duping Pwning Deep Learning Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant