CN114842402A - 一种基于对抗学习的弱监督时序行为定位方法 - Google Patents
一种基于对抗学习的弱监督时序行为定位方法 Download PDFInfo
- Publication number
- CN114842402A CN114842402A CN202210589976.1A CN202210589976A CN114842402A CN 114842402 A CN114842402 A CN 114842402A CN 202210589976 A CN202210589976 A CN 202210589976A CN 114842402 A CN114842402 A CN 114842402A
- Authority
- CN
- China
- Prior art keywords
- score
- class
- time sequence
- sequence
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 142
- 230000006399 behavior Effects 0.000 claims abstract description 91
- 230000004913 activation Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 9
- 230000003287 optical effect Effects 0.000 claims description 39
- 239000000126 substance Substances 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 230000004807 localization Effects 0.000 claims description 15
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013140 knowledge distillation Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 21
- 230000000694 effects Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 210000003813 thumb Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000009189 diving Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:从公开数据集中选取未裁剪视频数据,将每个未剪切视频分解为不重复的帧片段,然后提取每个帧片段的原始特征;利用原始特征总数X计算时序连续性支流的输入特征数据Xt;计算基础支流的和时序连续性支流的类激活序列分数及类时序注意力分数;将整体模型的类时序注意力分数和类时序注意力分数进行一致性约束;计算TEN网络模型的总损失函数同时对TEN网络模型进行训练,然后得到训练好的TEN网络模型;将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到对待预测未剪切视频的行为定位。通过使用本方法可以对任意待预测视频中的时序行为进行精确定位。
Description
技术领域
本发明涉及时序行为定位领域,特别涉及一种基于对抗学习的弱监督时序行为定位方法。
背景技术
现有时序行为定位的目的在于对未剪辑视频中的行为实例,进行定位和其所属类别识别。由于其可以广泛运用到视频摘要、安全监控、高亮检测等领域,因此引起了计算机视觉社区大量研究人员的极大兴趣。对此任务,在帧级别上使用开始和结束时间戳作为监督信息的全监督方法已取得显著的研究进展。然而,随着各种网站上视频数目的快速增长,对大量的未剪辑视频中的行为实例进行人工的精确时间标注十分耗时且成本较高,难以在实际中应用。因此,引入更简便的视频级类别标签作为监督信息,使用弱监督方法进行时序行为定位近期得到了广泛关注。此类方法在减少时间戳标注成本的同时,也取得了较好的定位和识别效果。
不同于全监督定位方法,现有大多数弱监督时序行为定位方法采用一种“通过分类进行定位”的范式,即在视频级分类标签的监督训练下,分类器预测出视频每帧的类别分数,然后对每一帧的类分数应用阈值划分以此实现对行为实例的定位。由于缺少帧级别的类别标签的训练引导,分类器就容易倾向于整个视频中存在判别性信息的帧,以此提高其对视频级行为分类的性能。因此,在弱监督时序定位方法中,未剪辑视频中含有类特有信息的背景帧不可避免地会被分类器误识别为前景帧(行为帧),从而影响对背景与行为帧的区分;同时,由于分类器对类特有的背景帧的偏好关注,也相应地降低了模型对行为的建模能力。
为缓解背景内容对模型分类的干扰,研究者们也提出了一些经典的方法。由于不同视频数据间存在明显差异,因此Lee等人认为背景帧是动态的、不一致的。为此,其通过选取最低分数的K个帧作为伪背景帧,并抑制伪背景帧的特征值来建模背景的不确定性,使模型忽略背景内容且关注前景行为信息。为进一步区分类特定背景(难背景)和行为,ACSNet引入了一个辅助类别来对类特定背景帧进行建模。此外,CoLA利用丰富的时间上下文关系对难背景和简单行为片段进行挖掘选择,并对两者的特征进行对比损失约束,以引导识别模型更好地进行行为建模。上述工作都是通过主动建模背景片段,来进一步提高模型对背景与行为实例间差异的识别,从而实现精确定位。然而,这些方法在很大程度上依赖于对类特有的背景(难背景)帧进行人工假设地伪注释,但通过先验方式进行帧的伪标签标注不可避免地会导致错误标注。
以往工作是通过在帧级别上进行伪标签标注而建模背景内容。然而,背景内容的表征是出现在整个未剪辑视频中的。因而未剪辑视频中的每个片段帧都存在被视为背景内容的倾向。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:目前面对未剪辑视频中的时序行为无法进行精确定位。
为解决上述技术问题,本发明采用如下技术方案:一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:
S200:将每个未剪切视频分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征和光流模态特征其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt;
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S412:通过分类器方法计算基础支流的类激活序列分数,计算表达式如下:
S420:采用时序注意力机制计算基础支流的类时序注意力分数,具体表达式如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
其中,G(·)表示时序维度上的高斯平滑滤波函数;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
S810:预设类激活序列分数阈值ρcls,利用sof tmax对yO进行归一化处理得到概率分数
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
作为优选,所述S300中计算时序连续性支流的输入特征数据Xt的具体步骤如下:
其中,k表示等间隔采样区域的长度;
然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′,表达式如下:
S320:对新特征序列中所选取的每个特征进行重复填充,以使每个区域段的帧特征数目到达原始特征的长度,填充后的特征序列表达式如下:
Xt=[(Xk-1,...,Xk-1),...,(XT-k,...,XT-k)] (12)
通过构造不同数据输入,可形成相邻帧特征序列对;而后通过对模型得到的相邻帧序列对分数进行一致性约束,可增强模型相邻帧时序连续性建模能力的增强,提高模型行为定位的完整性。
作为优选,所述S412中的计算分类器的修改梯度的表达式如下:
梯度更新是深度学习方法优化模型的常用方法,因此通过对梯度的修改,可直接有效地改进模型的识别方式,更好实现模型对抗学习的过程。模型的权重就可以由梯度更新进行变换而学习到。
作为优选,所述S430中的计算时序注意力的修改梯度的表达式如下:
通过修改原有背景分数归一化系数Nb为Nf,可简单且有效地实现背景梯度增强,即,使背景损失在梯度方向过程中将每一帧的梯度更多朝向背景类别。这一方式使得行为分类损失与背景损失在梯度方向过程中构成对抗学习过程,驱使识别模型更好的区分背景帧与行为帧。
相对于现有技术,本发明至少具有如下优点:
1.本方法将对抗学习策略应用到弱监督时序行为定位中,且通过完成以下两方面来实现精确定位。一、将整个视频趋向背景;本方法提出了一种新颖的背景梯度增强策略,通过修改背景分类模式,在梯度反向过程中增加每帧趋向背景的梯度;通过此方式可以在训练过程中使整个视频会更偏向视为背景以提高分类难度,模型相应地需要自我提升能力对行为感知,而实现对抗性学习的过程。二、进一步提高模型行为建模的能力;本发明认为在基于对抗策略的训练过程中,主动增强行为时序关系会进一步促进模型对前景的识别定位能力,
2.在梯度反向过程中,通过修改背景分类损失,呈现了一种简单有效的背景梯度增强策略,以引导模型将整个视频视为背景。行为分类损失又驱使模型从视频中激活行为帧,因此背景分类损失与行为分类损失之间的竞争就构成了对抗学习过程。
3.提出了一种新颖的时序增强网络(TEN)以提高模型感知行为时序信息,其通过构造相邻帧序列对并进行序列对一致性约束,以增强模型行为定位的完整性。
4.在弱监督时序定位方法中,开创性地采用对抗学习范式对背景干扰问题进行解决。在将整个视频趋向于背景的条件下,推动模型聚焦于行为内容,而不误识别背景帧为行为。
附图说明
图1为时序增强网络图示。
图2为定位方法基础模型的前向过程与背景梯度增强的反向过程。
图3为时序行为定位图示。
图4为不同未剪辑视频的定位分数图示。
具体实施方式
下面对本发明作进一步详细说明。
本发明方法提出了一种基于对抗学习策略的弱监督行为定位方法,其宗旨在解决弱监督定位方法中的类特有背景干扰和定位完整性这两个问题。本方法利用对抗学习策略,采用一种从背景中寻找前景行为的模式,以提高识别模型对行为部分的关注而减轻背景对其的干扰;此外,为提高模型定位行为的完整性,该方法另外提出了一个时序增强网络,对视频相邻帧的一致性进行约束,以提高模型的时序连续性建模能力。
本发明所提出了一种新颖的时序增强网络(Temporal enhancement network,TEN),由原始基础分支(Base branch,BB)、和时序连续性分支(Temporal continuitybranch,TCB)组成,基础支流保持模型对原始视频数据的学习过程,而时序连续性分支则作为基础支流的辅助,用于提升模型的时序建模能力。简言之,分支TCB首先对输入序列局部时段随机采样并扩充,以使得分支BB和TCB的视频序列帧在对应时序位置上为相邻关系,然后本方法利用分支BB和TCB的预测结果来约束相邻帧间的一致性,以提升模型行为时序连续性建模的能力。
参见图1-图3,一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:
S200:将每个未剪切视频分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征和光流模态特征其中,D表示所提取特征的通道数目,预训练I3D模型为现有技术;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
所述S300中计算时序连续性支流的输入特征数据Xt的具体步骤如下:
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt;
其中,k表示等间隔采样区域的长度;
然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′,表达式如下:
S320:对新特征序列中所选取的每个特征进行重复填充,以使每个区域段的帧特征数目到达原始特征的长度,填充后的特征序列表达式如下:
Xt=[(Xk-1,…,Xk-1),…,(XT-k,…,XT-k)] (12)
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
其中,和分别表示RGB模态和光流模态两个模态下编码的新特征,和分别表示RGB模态和光流模态两个模态的可学习参数,E表示新编码特征的通道数;卷积编码层Φr(·)和Φf(·)都由一个卷积核为3的1D卷积层和一个ReLU激活函数组成;由于本方法中的输入是从预训练I3D模型当中提取的特征,其已具有高层语义表征,因此使用单个卷积层足以完成编码过程;
S412:通过分类器方法计算基础支流的类激活序列分数,分类器方法为现有技术,计算表达式如下:
所述S412中的计算分类器的修改梯度的表达式如下:
S413:根据RGB模态和光流模态下的类激活序列分数,计算得到基础支流的类激活序列分数由于弱监督时序行为定位方法采用的是‘通过分类器进行定位’的模式,因此未裁剪视频中的每一帧会被模型预测对出对应的类别分数,也视为类激活序列分数(CAS)。
S420:采用时序注意力机制计算基础支流的类时序注意力分数,时序注意力机制为现有技术,具体表达式如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
其中,τ表示sof tmax激活函数,和均表示归一化因子,ai表示第i帧片段的行为分数,(1-ai)表示第i帧片段的背景分数;弱监督时序行为定位方法可视为一个分类器,因而需要对其进行分类损失函数约束优化训练。在此,类激活序列分数y和类时序注意力分数a将进行聚合,以生成视频级的行为概率分数和背景概率分数;
所述S430中的计算时序注意力的修改梯度的表达式如下:
其中,G(·)表示时序维度上的高斯平滑滤波函数;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
具体而言,通过行为实例的开始和截止时间可得该实例的持续长度li。而在li范围内部成为内区域,以此可得内部帧的平均分数而外区域则是被定义为开始时间si前的0.25*li区域和截止时间ei后的0.25*li区域和截止时间,对应可得到外区域的帧平均分数然后,行为实例的置信度分数qi可由计算为:
最终,每个行为实例的预测集合{ci,qi,si,ei},则就通过上述过程完成。
实验设计与结果分析
1.数据集介绍
本方法将在两个具有挑战的数据集上进行测试评估,即THUMOS’14和ActivityNet1.2数据集。此两数据集具有各自的特点,但其中的训练测试视频样本都是未剪辑的。同时,本方法只利用此两数据集提供的视频级类别标签,进行弱监督方式的模型训练。
1)THUMOS’14数据集
该数据集含有20个不同的行为类别,且含有200个视频作为验证集和213个视频作为测试集。与以往工作相同,在此验证集将用于本方法模型的训练,而测试集中的样本则用于方法的验证评估。在该数据集中,一个未剪辑视频往往包含多个行为实例且行为实例的持续实际长短不一,同时行为实例间的类别也存在不一致的情况,因此,该数据集是非常具有挑战的。
2)ActivityNet1.2数据集
在ActivityNet1.2数据集中含有4819个训练视频样本、2383个验证集样本和2480个测试集视频样本,且行为类别含有100个。亦与之前研究内容一致,本方法采用训练集视频样本对模型进行训练,而采用验证集数据对本发明方法进行测试评估。相比于THUMOS’14数据集,此数据集拥有较多的视频样本数和行为类别数,但该数据集的未剪辑视频样本中往往只含有一个行为视频,且类别单一。因此,在数据集的挑战上相对于THUMOS’14数据集更为容易。
2.实验的设置
1)数据预处理
为得到RGB模态数据的另外一种补充数据模态光流,TVL1算法被用于处理原始RGB模态未剪辑视频已得到该模态数据。在此,在Kinetics数据集上进行预训练后的I3D模型将作为特征提取器,以获得两个模态下的数据特征。其中,在RGB模态和光流模态的视频中,将选取未交并的16帧段作为I3D模型的输入,而后得到通道数为1024的特征向量。最后,此两种模态下的特征将作为本方法的输入数据。
2)实现细节
对于RGB和光流两种模态下的特征,本方法先使用两个参数不共享的1维时序卷积层进行编码。该编码卷积层的核大小为3,而输入的通道维度大小设置为512。同时,经过卷积层编码后,ReLU激活函数被用于对编码后的特征进行过滤。同样地,两种模态下的特征也拥有不同的分类器和时序注意力层,但其结构一致。对于分类器,本方法采用了输入通道数为512,而输出通道为数类别数目的线型层。而注意力机制采用一个输入通道数为512、输出通道数为1的线型层和一个sigmoid激活函数组成。而本方法模型是采用Pytorch框架实现,且使用Adam优化器在3090GPU服务器上训练。训练过程中的学习率初始化为1e-3,当训练论述到达一半后将降为1e-4。对于中的优化损失函数的参数权重,λ和β都被设置为0.1。在行为定位阶段,类别分数阈值ρcls设置为0.1,而非极大抑制方法的阈值设为0.5。
3)评估指标
本方法依照现有的标准评估协议,实验结果显示了在不同时间交并比(Intersection over Uniont,IoU)上的平均精度值。同时,本方法实验结果通过此两个数据集提供的评估代码计算而得。由于两者数据集挑战不同,遵循现有大多数工作的方式。本方法在THUMOS’14数据集上的实验结果,主要体现在IoU阈值为0.1、0.2、…、0.7上,而在ActivityNet1.2上,IoU阈值主要设置为0.5、0.75和0.95。
3.各种方法结果比较
表1在THUMOS’14数据集上与最先进方法的比较结果
表1显示了本发明方法在数据集THUMOS’14的测试集上的时序行为定位结果,并与其他的行为定位方法进行了比较。从该表可知,与其他弱监督方法相比,本发明方法在不同的时间交并比阈值上都取得了显著性的提升。与其他方法相比,AUMN通过主动对行为进行多阶段划分建模,提高了其在较短时序范围的IoU阈值段(0.1-0.5)上的定位结果,但在高时序范围IoU阈值段的定位结果则有所不足。此外,CoLA通过对难背景的挖掘后,利用对比损失提高了在高IoU阈值0.7上的定位结果。相比于这两个工作,本方法通过对抗学习策略增加了模型对行为部分的关注,同时设计了时序增强网络用于提高模型定位的完整性。通过这两部分的改进,该方法在短时序和长时序IoU阈值段上的定位结果都取得了提升。另外,本发明所提出的方法也优于一些全监督方法。与Chao等人所提出的方法相比,本章方法在IoU阈值段(01-0.5)的定位结果增加了4个百分点。而与全监督方法BSN相比,在IoU阈值段(0.3-0.7)上该方法的定位结果提升了1.1个百分点。总之,以上结果都表示了本方法的优越性。
表2在ActivityNet1.2数据集上与最先进方法的比较结果
表2展示了该方法在Activity1.2验证集上的行为定位结果。而在此数据集上,本方法与以往的弱监督定位方法进行了比较,结果也显示了该方法的有效性。相比于THUMOS’14数据集,Activity1.2中的行为实例比较单一且持续时间较长。因此,本方法所提出的时序增强网络对相邻帧间的时序连续性建模,在该数据上得到了较好的效果,提升了该方法的泛化性。
4.消融实验
与以往方法相似,本部分采用较有挑战性的THUMOS’14数据集进行相关的消融实验。本部分分析的主要内容有:各个子方法的作用、背景梯度增强策略方式、背景损失权重、等间隔采样和约束损失选择。
(1)子方法作用分析
本部分对子方法组合设计了三种方式:1)只加入背景梯度增强策略,2)只使用时序增强网络和3)两者都使用。表3显示了所提出组合方式得到的不同结果。
表3不同子方法组合方式的结果
其中基线为不添加本章所提出的任何方法的结果。BGE表示背景梯度增强策略,在基础模型上添加背景梯度增强是为实现对抗学习过程。可从表中得知,进行对抗学习过后,模型的定位结果在所有时序IoU阈值段上在都有所提升。这也验证了对抗学习过程减少了背景对模型的干扰,并且提升了模型行为关注的能力。另外,只使用时序增强网络(TEN)模型也提升了该方法在高时序IoU阈值段(0.4-0.7)上的性能效果,而该结果验证了TEN提高了模型时序连续性建模的能力。最后,本部分将BGE与TEN两部分结合,进一步提升了模型的行为定位效果。此结果展示了在对抗学习策略下更能促进模型对时序关系的学习。
(2)背景梯度增强策略方式分析
本章提及了三种背景梯度修改方式:1)分类器权重修改,2)时序注意力权重修改和3)梯度翻转层(GRL),其中时序注意力权重修改就是本章所采用的策略BGE。表4显示了对分类器权重修改策略的结果,其中BL为背景分类损失。从该表可知,使用分类器权重修改方式依然提升了该方法的性能,而该结果亦验证了对抗学习方式能够提升模型对行为更好的关注。而基于BL对分类器权重修改的方式下,引入TEN模型也能提升该方法的性能,但定位结果的提升并不显著,在时序IoU阈值段(0.1-0.5)上仅提高了0.9%,而在时序IoU阈值段(0.3-0.7)上提升了1.2%。相比于时序注意力权重的修改方式,此做法与TEN结合而提升的效果并不明显。另外,本部分将BGE、BL和TEN三部分组合,所得到的定位结果与BGE和TEN结合方法的效果相差不多但仍有下降。为此,本发明采用BGE与TEN的组合方法。
表4分类器权重修改下的方法组合结果
梯度反转层(GRL)通过对梯度进行修改以完成源域与目标域的混淆。为此,本部分亦对GRL在弱监督定位方法中的作用进行探讨。表5显示了加入GRL方法的定位结果。其中,在基础模型上加入GRL,行为定位效果有所提升。但相比于另外两种方式,其提升效果并不高。而在GRL方法的基础上,本部分加入时序增强网络TEN进行了实验验证。与只加入时序增强网络方法的结果相比,其只在时序IoU阈值段(0.1-0.3)上有微小提升,而在阈值段(0.4-0.7)上都有下降。通过该结果可知,GRL通过梯度修改过度地干扰了模型的学习过程,以使得模型难以较好的建模行为部分信息。这也验证了GRL与本章方提出的背景梯度增强策略的不同。
表5与梯度反转层(GRL)组合的方法结果
(3)背景损失权重分析
背景分类损失权重亦对背景梯度反向过程产生影响,为进一步验证本章的背景梯度增强策略的有效性,本部分在此探讨背景损失权重的增加是否可以实现对抗学习过程,以提高模型的定位精度。表6显示了不同背景分类损失权重λ下,基础模型的行为实例定位结果。当权重λ值为0时,基础模型不使用背景损失训练,即不对背景进行归类。与背景损失权重λ为0.1的结果相比,仅进行前景分类损失的方法的定位效果更差。这验证了背景分类损失的重要性,可更好地区分前背景。当背景损失权重λ值为0.1、0.2和0.3时,基础模型的定位结果相似且达到最好。而随着λ值的进一步增加,模型定位结果急剧下降。这些结果明确的展示了背景损失调控权重λ的更改并不能驱使模型进一步的学习行为知识。
表6背景分类损失不同权重值的结果
(4)等间隔采样分析
在时序增强网络中,时序连续性分支(TCB)在等间隔k的局部时序段中进行随机采样。而间隔值k调控着随机采样的时序范围,即相邻帧间的距离。表7显示了不同间隔k下,该方法的行为定位结果。
从上表可知,方法定位结果的值会随着采样间隔的变化而变化。当采样间隔值k=4时,方法定位结果最优。当采样间隔较小时,相邻帧间的时序范围较小,模型就学习到较短的时序连续性。而采样间隔过大时,帧间内容会出现不同,而在此情况下进行一致性约束反而会降低方法的定位结果。因此,在训练过程选择适合的采样间隔,将更有助于模型对视频时序关系的学习。
表7不同采样间隔距离下的结果
(5)约束损失选择
在时序增强网络中,基础分支与时序连续性分支都输出了时序注意力值和类激活分数序列(每帧类别分数),而本方法对这些预测结果进行了一致性约束。对于注意力值的约束,本部分分别使用平均绝对值误差(MAE)函数和平均平方误差(MSE)进行尝试。而对于类激活分数序列,本方法分别使用了MAE、MSE和KL散度函数进行约束。表8显示了该方法在使用背景梯度增强策略后,单独使用不同约束函数的定位结果。
表8使用不同约束损失下的结果
通过上述数据可知,选取平均绝对值误差函数MAE对时序注意力值约束,方法的效果是最好的。注意力值表示前景和背景的程度,其只含有一个数据维度且取值范围为0~1,而MAE可快速优化变量到目标值,所以较适合对注意力值的约束。从表8所显示的结果可知,对于类激活分数序列的约束,选取KL散度函数是最好的。其中,对于KL函数的选择与以往方法进行知识蒸馏的方式一致。为此,本对比则选择MAE函数对注意力值进行约束,并选择KL散度函数对输出的类别分数进行约束。
5.定性分析
本部分通过对方法的可视化定位结果进行定性分析,图4显示了‘足球点球’、‘举重’和‘悬崖跳水’三个行为的定位分数序列SL。其中,橙色曲线表示基准方法得到的结果,蓝色曲线则是本章方法的定位分数序列,而绿色柱状图表示行为实例发生的真实时间段。
如‘足球点球’未剪辑视频中的红色方框所示,基准方法的定位曲线起伏较大,相邻帧的定分数差异较大。而本章方法得到的分数序列就较为平滑,这表明时序增强网络提高了模型相邻帧间的时序连续性建模。另外,在‘举重’和‘悬崖跳水’两个实例的红色标记框中,基准方法都过多地激活一些背景帧,而本章方法则减少了非行为帧的误激活。这验证了本章所使用的对抗学习策略有效的减少了背景信息对模型前景识别的干扰。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于对抗学习的弱监督时序行为定位方法,其特征在于:包括如下步骤:
S200:将每个未剪切视频分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征和光流模态特征其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt;
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S412:通过分类器方法计算基础支流的类激活序列分数,计算表达式如下:
S420:采用时序注意力机制计算基础支流的类时序注意力分数,具体表达式如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
其中,G(·)表示时序维度上的高斯平滑滤波函数;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589976.1A CN114842402B (zh) | 2022-05-26 | 一种基于对抗学习的弱监督时序行为定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589976.1A CN114842402B (zh) | 2022-05-26 | 一种基于对抗学习的弱监督时序行为定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114842402A true CN114842402A (zh) | 2022-08-02 |
CN114842402B CN114842402B (zh) | 2024-05-31 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240120A (zh) * | 2022-09-21 | 2022-10-25 | 中山大学深圳研究院 | 一种基于对抗网络的行为识别方法及电子设备 |
CN116030538A (zh) * | 2023-03-30 | 2023-04-28 | 中国科学技术大学 | 弱监督动作检测方法、系统、设备及存储介质 |
CN116503959A (zh) * | 2023-06-30 | 2023-07-28 | 山东省人工智能研究院 | 基于不确定性感知的弱监督时序动作定位方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259795A (zh) * | 2020-01-16 | 2020-06-09 | 河南职业技术学院 | 基于多流深度学习的人体行为识别方法 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
CN111914778A (zh) * | 2020-08-07 | 2020-11-10 | 重庆大学 | 一种基于弱监督学习的视频行为定位方法 |
US20210027066A1 (en) * | 2019-07-24 | 2021-01-28 | Honda Motor Co., Ltd. | System and method for providing unsupervised domain adaptation for spatio-temporal action localization |
CN113221633A (zh) * | 2021-03-24 | 2021-08-06 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN114049581A (zh) * | 2021-09-27 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于动作片段排序的弱监督行为定位方法和装置 |
CN114359790A (zh) * | 2021-12-15 | 2022-04-15 | 青岛科技大学 | 基于弱监督学习的视频时序行为检测方法 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210027066A1 (en) * | 2019-07-24 | 2021-01-28 | Honda Motor Co., Ltd. | System and method for providing unsupervised domain adaptation for spatio-temporal action localization |
CN111259795A (zh) * | 2020-01-16 | 2020-06-09 | 河南职业技术学院 | 基于多流深度学习的人体行为识别方法 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
CN111914778A (zh) * | 2020-08-07 | 2020-11-10 | 重庆大学 | 一种基于弱监督学习的视频行为定位方法 |
CN113221633A (zh) * | 2021-03-24 | 2021-08-06 | 西安电子科技大学 | 一种基于层次类别模型的弱监督时序行为定位方法 |
CN114049581A (zh) * | 2021-09-27 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于动作片段排序的弱监督行为定位方法和装置 |
CN114359790A (zh) * | 2021-12-15 | 2022-04-15 | 青岛科技大学 | 基于弱监督学习的视频时序行为检测方法 |
Non-Patent Citations (4)
Title |
---|
GUOQIANG GONG等: "Self-Supervised Video Action Localization with Adversarial Temporal Transforms.", 《CONTROL SYSTEMS ENGINEERING》, 1 August 2021 (2021-08-01) * |
ZIQIANG LI等: "Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization", 《COMPUTER VISION AND PATTERN RECOGNITION》, 14 July 2022 (2022-07-14) * |
李自强: "基于深度特征学习的视频行为识别与定位方法研究", 《万方数据》, 1 November 2023 (2023-11-01) * |
赵朵朵;章坚武;郭春生;周迪;穆罕默德・阿卜杜・沙拉夫・哈基米;: "基于深度学习的视频行为识别方法综述", 电信科学, no. 12, 20 December 2019 (2019-12-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240120A (zh) * | 2022-09-21 | 2022-10-25 | 中山大学深圳研究院 | 一种基于对抗网络的行为识别方法及电子设备 |
CN116030538A (zh) * | 2023-03-30 | 2023-04-28 | 中国科学技术大学 | 弱监督动作检测方法、系统、设备及存储介质 |
CN116503959A (zh) * | 2023-06-30 | 2023-07-28 | 山东省人工智能研究院 | 基于不确定性感知的弱监督时序动作定位方法及系统 |
CN116503959B (zh) * | 2023-06-30 | 2023-09-08 | 山东省人工智能研究院 | 基于不确定性感知的弱监督时序动作定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Takahashi et al. | Data augmentation using random image cropping and patching for deep CNNs | |
Li et al. | Infogail: Interpretable imitation learning from visual demonstrations | |
Abu Farha et al. | When will you do what?-anticipating temporal occurrences of activities | |
Shu et al. | Cern: confidence-energy recurrent network for group activity recognition | |
Grubb et al. | Speedboost: Anytime prediction with uniform near-optimality | |
Karayev et al. | Anytime recognition of objects and scenes | |
US11640714B2 (en) | Video panoptic segmentation | |
CN111274438B (zh) | 一种语言描述引导的视频时序定位方法 | |
Rosenbloom et al. | Towards emotion in sigma: from appraisal to attention | |
Narr et al. | Stream-based active learning for efficient and adaptive classification of 3d objects | |
CN111950393A (zh) | 一种基于边界搜索智能体的时序动作片段分割方法 | |
CN113888638A (zh) | 一种基于注意力机制的图神经网络行人轨迹预测方法 | |
CN114842402A (zh) | 一种基于对抗学习的弱监督时序行为定位方法 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN114842402B (zh) | 一种基于对抗学习的弱监督时序行为定位方法 | |
Calem et al. | Diverse probabilistic trajectory forecasting with admissibility constraints | |
CN113947692A (zh) | 一种通过k-means聚类进行多任务增强的分类系统及方法 | |
Nebot et al. | Modeling wine preferences from physicochemical properties using fuzzy techniques | |
Mohan et al. | Panoptic Out-of-Distribution Segmentation | |
US11961275B2 (en) | Device and method for training a normalizing flow | |
US11948358B2 (en) | Self-supervised hierarchical event representation learning | |
Khanal | Class-Incremental Learning Using Enhanced Replay and Auxiliary Network | |
Thuremella et al. | Prediction of Social Dynamic Agents and Long-Tailed Learning Challenges: A Survey | |
Wang et al. | Pedestrian Trajectory Prediction Using Dynamics-based Deep Learning | |
Chio | Machine Duping Pwning Deep Learning Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |