CN116503959A - 基于不确定性感知的弱监督时序动作定位方法及系统 - Google Patents

基于不确定性感知的弱监督时序动作定位方法及系统 Download PDF

Info

Publication number
CN116503959A
CN116503959A CN202310785880.7A CN202310785880A CN116503959A CN 116503959 A CN116503959 A CN 116503959A CN 202310785880 A CN202310785880 A CN 202310785880A CN 116503959 A CN116503959 A CN 116503959A
Authority
CN
China
Prior art keywords
video
features
class
action
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310785880.7A
Other languages
English (en)
Other versions
CN116503959B (zh
Inventor
高赞
王爱玲
赵一博
李志慧
李传森
刘冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Zhonglian Audio Visual Information Technology Co ltd
Original Assignee
Shandong Zhonglian Audio Visual Information Technology Co ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Zhonglian Audio Visual Information Technology Co ltd, Shandong Institute of Artificial Intelligence filed Critical Shandong Zhonglian Audio Visual Information Technology Co ltd
Priority to CN202310785880.7A priority Critical patent/CN116503959B/zh
Publication of CN116503959A publication Critical patent/CN116503959A/zh
Application granted granted Critical
Publication of CN116503959B publication Critical patent/CN116503959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供基于不确定性感知的弱监督时序动作定位方法及系统,属于计算机视觉技术领域,弱监督时序动作定位算法包括:将预训练I3D网络中提取的RGB特征和FLOW特征进行重新校准获得增强特征,将增强后的RGB特征和FLOW特征聚合为视频特征,利用视频特征进行动作分类和定位,引入基于信息熵的不确定性模块过滤掉难以识别的困难片段,从而提高分类定位的准确性。对两个常用的时间动作定位数据集THUMOS14和ActivityNet1.2进行了大量实验,体现了本发明所提供的基于困难片段过滤的弱监督时序动作定位方法及系统在时序动作定位方面的优越性。

Description

基于不确定性感知的弱监督时序动作定位方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于不确定性感知的弱监督时序动作定位方法及系统。
背景技术
时序动作定位是视频处理中一项极具挑战性的任务,其旨在时间轴上定位动作的开始和结束位置,同时还要预测动作的类别。与全监督时序动作检测不同,弱监督的时序动作定位只有视频级别的标签,因此节约了标注成本,受到研究者的广泛研究。
现有技术中,大多数现有的弱监督时序动作定位方法基于多实例学习(MIL)方式开发其框架。首先预测每个片段的分类概率,然后将它们聚合为视频级预测。最后,使用给定的视频级标签执行优化过程。动作提案是通过对片段级别的类别分数进行阈值处理来生成的。在这种方法中,背景帧被错误分类为动作类。因此,一些作品引入了一个注意力模块,通过抑制背景部分来提高识别前景的能力。Lee等人引入了背景辅助类,并提出了一种具有非对称训练策略的双分支权重共享架构。此外,基于MIL的方法只专注于优化视频中最具辨别力的片段。对于动作完整性建模,一些作品采用了互补学习方案,该方案删除了视频中最具辨别力的部分,专注于互补部分。
但是,现有的时序动作定位方法仍然存在以下弊端:
(1)多实例学习过程中,基于TopK算法的池化机制会导致一些无用的信息会被聚合,聚合到的片段中存在不能识别动作或背景的困难片段,影响定位和识别过程。
(2)原始特征是针对动作识别任务,用于动作检测会导致特征冗余,亟需探索以更有效的方式重新校准特征。
因此,亟需一种鲁棒的基于不确定性感知的弱监督时序动作定位方法。
发明内容
为了实现上述目的,本发明目的之一是提供基于不确定性感知的弱监督时序动作定位方法。
本发明解决技术问题的技术方案为:
基于不确定性感知的弱监督时序动作定位方法,包括如下步骤:
S110.采集待检测的动作视频;
S120.利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为增强的视频特征;将聚合视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
S130.将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;通过不确定性模块对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;通过不确定性模块得到的语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
S140.动作定位:在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征方法,具体过程如下:
利用全局上下文感知模块,将特征/>作为主模态,通过时间维度平均池操作/>压缩主模态的全局上下文信息;利用卷积层/>成模态特定的全局感知描述符/>;
其中,,
利用跨模态感知模块,将FLOW特征作为辅助模态,利用卷积层/>生成跨模态局部感知描述符/>;其中,
,
将全局感知描述符和跨模态局部感知描述符/>相乘,获得特征重新校准的通道描述符D;将通道描述符D和主模态RGB特征相乘,获得新校准的增强的RGB特征/>
其中,,/>是sigmoid操作,将FLOW特征/>作为主模态采用上述相同的流程,获得新校准的增强的FLOW特征/>;连接增强后的RGB特征和FLOW特征,获得增强后的视频特征,/>
其中,表示特征拼接,/>表示增强后的视频特征,/>是视频片段长度,/>是特征维数。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率,包括,
增强的特征通过由三个卷积层组成的分类器,生成给定视频的时间类激活分数T-CAS,其中/>是视频片段长度,/>是类别数量,第/>类是背景类。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;两个注意力权重相互学习;聚合两个模态的注意力权重获得最终的融合的注意力权重,其中,
将增强的和/>特征分别输入到由三个卷积层组成的注意力模块/>,以获得两个模态的注意力权重/>和/>,融合两个注意力权重得到A,其中,
其中,和/>表示由三个卷积层组成的注意力模块,/>,/>和/> 分别表示RGB流、FLOW流以及融合流的注意力权重,/>和/>分别表示增强的RGB特征和增强的FLOW特征。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过不确定性模块对预测的时间类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
信息熵计算类激活分数的不确定性H(t),通过对H(t)设置阈值,大于阈值的认为是不能判断是背景或动作的困难片段,对这些片段执行mask操作得到语义信息Inf(t);
所述信息熵计算不确定性通过以下公式实现:
其中,其中j=1,2,3,……,c+1,表示片段i属于类别j的概率;
所述语义信息Inf(t)通过以下公式实现:
即,在时间T维度,大于阈值的时间类激活分数S设为0,否则设为1,,/>
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率,其中,
将语义信息Inf(t)和时间类激活分数S相乘,获得过滤掉困难片段的时间类激活分数,/>;/>,通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数/>;通过沿类维度应用softmax操作得到视频级别的分类概率/>
所述top-k机制通过以下公式实现:
,/>
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
通过注意力权重和过滤掉困难片段后的时间类激活分数相乘,获得注意力加权的背景抑制和困难片段过滤的时间类激活分数;
其中,
通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数,通过沿类维度应用softmax操作得到视频级别的分类概率/>
所述top-k机制通过以下公式实现:
,/>
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
所述视频级分类过程利用top-k多实例学习损失函数进行约束训练;所述注意力权重相互学习过程利用相互学习损失进行约束训练;所述注意力权重的分布应该与中背景类的概率分布相反过程利用相对学习损失进行约束训练;所述两个注意力权重更加两级化过程利用归一化损失函数进行约束训练;
所述top-k多实例学习损失函数通过以下公式实现:
其中,其中是困难片段屏蔽视频级分数,/>是视频级地面真相,/>,/>是困难片段屏蔽和背景抑制视频级分数,/>是视频级地面真相,/>
所述相互学习损失函数通过以下公式实现:
其中,表示截断输入梯度的函数,/>表示相似性度量函数,/>,/>分别表示RGB流、FLOW流的注意力权重,/>是超参数,
所述相对学习损失函数通过以下公式实现:
其中,是绝对值函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,/>表示时间类激活分数/>中的最后一列,表示每个片段是背景的概率,
所述归一化损失函数通过以下公式实现:
其中,是/>范数函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,
总损失:
其中,是多实例学习损失,/>是协同活动相似度损失,/>是相互学习损失,是相对学习损失,/>是归一化损失,/>、/>是超参数。
另一方面,本发明提供了弱监督时序动作定位系统。
本发明解决技术问题的技术方案为:
基于不确定性感知的弱监督时序动作定位方法,包括:
采集模块,用于采集待检测的动作视频;
初始特征获取模块,用于利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;
分类模块,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
注意力模块,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;
不确定性模块,对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
重新校准模块,通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
定位模块,在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
1)通过注意力机制能够寻找到更重要的帧并赋予更高的权重来实现对背景信息的抑制。
2)通过不确定性模块,抑制了不能识别的动作或背景,过滤掉了困难片段,提高了模型的分类效果。
3)通过对RGB特征和FLOW特征进行建模,过滤掉冗余信息,获得了鲁棒的定位和分类特征。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的流程示意图;
图2为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的原理示意图;
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。
实施例1 具体的,作为示例,图1为本发实施例提供的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的流程示意图。参照图1所示,本发明提供一种基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法包括步骤S110~S140。
S110、采集待检测的动作视频;
S120、利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
S130、将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;通过不确定性模块对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
S140、动作定位:在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
图2为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的原理示意图;如图2所示,针对现有技术在时序动作定位场景中,存在的对动作和背景的模糊片段识别困难等问题。本发明的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法包括7个部分:特征提取网络的选择;特征的增强;类激活分数的生成;不确定性分数的生成;注意力权重的生成;基于不确定性和注意力权重的分类结果调整;动作定位结果。
下面具体说明各个步骤具体操作过程和原理。
步骤1、特征提取网络的选择:
利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的时间特征和空间特征;也就是说,利用Kinetics数据集获取预训练的I3D网络;然后利用I3D网络提取动作的时间特征和空间特征。视频帧的视频特征包括:RGB(RedGreenBlue,红绿蓝)特征和光流特征。双流特征是通过对RGB特征和光流特征进行融合后产生的。
需要说明的是,在时序动作定位任务中,需要首先选取优秀的特征提取器来获得鲁棒的特征。由于时序动作定位任务的特性,必须要选取能够提取时序信息的特征提取器,本发明采用了双流的I3D网络来进行特征的提取;其中,RGB流的输入为连续的视频帧,能够同时提取到时间和空间特征,对于Flow流,输入为连续的光流帧,能够进一步对时序信息进行提取和建模。
步骤2、特征的增强:
将提取到的RGB特征和FLOW特征送入特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征,具体来说,
利用全局上下文感知模块,将特征/>作为主模态,通过时间维度平均池操作/>压缩主模态的全局上下文信息;利用卷积层/>成模态特定的全局感知描述符/>;
其中,,
利用跨模态感知模块,将FLOW特征作为辅助模态,利用卷积层/>生成跨模态局部感知描述符/>;其中,
,
将全局感知描述符和跨模态局部感知描述符/>相乘,获得特征重新校准的通道描述符D;将通道描述符D和主模态RGB特征相乘,获得新校准的增强的RGB特征/>
其中,,/>是sigmoid操作,将FLOW特征/>作为主模态采用上述相同的流程,获得新校准的增强的FLOW特征/>;连接增强后的RGB特征和FLOW特征,获得增强后的视频特征。/>
其中,表示特征拼接,/>表示增强后的视频特征,/>是视频片段长度,/>是特征维数,
步骤3、类激活分数的生成:
增强的特征通过由三个卷积层组成的分类器,生成给定视频的时间类激活分数(T-CAS),其中/>是视频片段长度,/>是类别数量,第/>类是背景类。
步骤4、不确定分数的生成:
通过不确定性模块对预测的时间类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;
不确定性模块由信息熵函数组成,信息熵计算类激活分数的不确定性H(t),通过对H(t)设置阈值,本实施例中/>,大于阈值的认为是不能判断是背景或动作的困难片段,对这些片段执行mask操作得到语义信息/>
所述信息熵计算不确定性通过以下公式实现:
其中,其中j=1,2,3,……,c+1,表示片段i属于类别j的概率;
所述语义信息Inf(t)通过以下公式实现:
即,在时间T维度,大于阈值的时间类激活分数S设为0,否则设为1,,/>
步骤5、注意力权重的生成:
将增强的和/>特征分别输入到由三个卷积层组成的注意力模块/>,以获得两个模态的注意力权重/>和/>,融合两个注意力权重得到A,其中,
其中,和/>表示由三个卷积层组成的注意力模块,/>,/>和/> 分别表示RGB流、FLOW流以及融合流的注意力权重,/>和/>分别表示增强的RGB特征和增强的FLOW特征。
步骤6、基于不确定性和注意力权重的分类结果调整:
将语义信息Inf(t)和时间类激活分数S相乘,获得过滤掉困难片段的时间类激活分数,/>;/>,通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数/>;通过沿类维度应用softmax操作得到视频级别的分类概率/>
所述top-k机制通过以下公式实现:
,/>
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
所述视频级分类过程利用top-k多实例学习损失函数进行约束训练;所述注意力权重相互学习过程利用相互学习损失进行约束训练;所述注意力权重的分布应该与中背景类的概率分布相反过程利用相对学习损失进行约束训练;所述两个注意力权重更加两级化过程利用归一化损失函数进行约束训练; 所述学习更好的特征表示和时间类激活分数利用coactivity similarity loss函数进行约束训练;
所述top-k多实例学习损失函数通过以下公式实现:
其中,其中是困难片段屏蔽视频级分数,/>是视频级地面真相,/>,/>是困难片段屏蔽和背景抑制视频级分数,/>是视频级地面真相,/>
所述相互学习损失函数通过以下公式实现:
其中,表示截断输入梯度的函数,/>表示相似性度量函数,/>,/>分别表示RGB流、FLOW流的注意力权重,/>是超参数,
所述相对学习损失函数通过以下公式实现:
其中,是绝对值函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,/>表示时间类激活分数/>中的最后一列,表示每个片段是背景的概率,
所述归一化损失函数通过以下公式实现:
其中,是/>范数函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,
总损失:
其中,是多实例学习损失,/>是协同活动相似度损失,/>是相互学习损失,是相对学习损失,/>是归一化损失,/>、/>是超参数。
步骤7、动作定位结果:
在一个具体的实施例中,该发明中在PyTorch中实现,应用在Kinetics-400上预训练的I3D网络来提取每个视频的RGB和FLOW特征。从视频中采样连续不重叠的16帧作为片段,其中每个片段的每个模态的特征是1024维。在训练阶段,随机抽取了THUMOS14数据集的500个片段和ActivityNet1.2数据集的60个片段。注意模块由3个卷积层构成,其输出维度为512、512和1,内核大小为3、3和1。分类模块包含3个时间卷积层。在每个卷积层之间,使用概率为0.7的Dropout正则化。对于每个超参数,为最终目标函数中的最后两项正则化设置,并且/>以获得两个数据集的最佳性能。在训练过程中,批量采样10个视频,其中有3对视频,每对包含相同的分类标签,用于coactivity similarity loss。用Adam优化器进行优化,其中THUMOS14的学习率为5e-5,权重衰减率为0.001,而ActivityNet1.2数据集为3e-5和5e-4。所有实验都在单个NVIDIA GTX TITAN (Pascal) GPU 上运行。
本发明使用两个时序动作定位的公开数据集进行动作定位,对于THUMOS14数据集和ActivityNet1.3数据集,效果有稳定提升。
本实施例中PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序;Kinetics-400 是一个动作识别视频数据集, ActivityNet 是当前时序动作检测任务最大的数据集,也是最通用的数据集之一,ActivityNet 1.2是ActivityNet的V1.2版本,coactivity similarity loss是共同活动相似性损失,NVIDIA GTX TITAN(Pascal) GPU是英伟达(NVIDIA)的生产的显卡产品,它采用了Pascal架构,是一种基于16纳米工艺制造的GPU。
另外本发明文件提到的Top-K为常规的处理方法,不再赘述。
实施例2 弱监督时序动作定位系统,包括:
采集模块,用于采集待检测的动作视频;
初始特征获取模块,用于利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;
分类模块,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
注意力模块,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;
不确定性模块,对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
重新校准模块,通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
定位模块,在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
本发明中文件提到的I3D为交互式3D是指一种可以在本机或Web上实现实时人机互动的三维计算机图形及其技术。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于不确定性感知的弱监督时序动作定位方法,其特征是,包括如下步骤:
S110.采集待检测的动作视频;
S120.利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为增强的视频特征;将聚合视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
S130.将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;通过不确定性模块对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;根据不确定性模块得到的语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
S140.动作定位:在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
2.如权利要求1所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征方法,具体过程如下:
利用全局上下文感知模块,将特征/>作为主模态,通过时间维度平均池操作压缩主模态的全局上下文信息/>;利用卷积层/>成模态特定的全局感知描述符/>;
其中,,
利用跨模态感知模块,将FLOW特征作为辅助模态,利用卷积层/>生成跨模态局部感知描述符/>;其中,
,
将全局感知描述符和跨模态局部感知描述符/>相乘,获得特征重新校准的通道描述符D;将通道描述符D和主模态RGB特征相乘,获得新校准的增强的RGB特征/>
其中,,/>是sigmoid操作,/>表示逐元素相乘,将FLOW特征/>作为主模态采用与获得新校准的增强RGB特征相同的流程,获得新校准的增强的FLOW特征/>;连接增强后的RGB特征和FLOW特征,获得增强后的视频特征,
其中,表示特征拼接,/>表示增强后的视频特征,/>是视频片段长度,/>是特征维数。
3.如权利要求1所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率,包括,
增强的特征通过由三个卷积层组成的分类器,生成给定视频的时间类激活分数T-CAS,,其中/>是视频片段长度,/>是类别数量,第/>类是背景类。
4.如权利要求1所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;两个注意力权重相互学习;聚合两个模态的注意力权重获得最终的融合的注意力权重,其中,
将增强的和/>特征分别输入到由三个卷积层组成的注意力模块/>和/>,以获得两个模态的注意力权重/>和/>,融合两个注意力权重得到A,其中,
其中,是视频片段长度,/>和/>表示由三个卷积层组成的注意力模块,/>和/> 分别表示RGB流、FLOW流以及融合流的注意力权重,/>和/>分别表示增强的RGB特征和增强的FLOW特征。
5.如权利要求1所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,通过不确定性模块对预测的时间类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
采用信息熵计算类激活分数的不确定性H(t),通过对H(t)设置阈值,大于阈值的认为是不能判断是背景或动作的困难片段,对这些片段执行mask操作得到语义信息Inf(t);
所述信息熵计算不确定性通过以下公式实现:
其中,H(t)表示类激活分数的不确定性,表示片段i属于类别j的概率,j=1,2,3,……,c+1;
所述语义信息Inf(t)通过以下公式实现:
其中,表示过滤掉困难片段的语义信息,/>表示,在时间T维度,/>大于阈值/>的时间类激活分数S设为0,否则设为1,/>,/>,其中T是视频片段长度,C是类别数量,第(C+1)类是背景类。
6.如权利要求1所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,通过语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率,其中,
将语义信息Inf(t)和时间类激活分数S相乘,获得过滤掉困难片段的时间类激活分数,通过top-k机制聚合时间类激活分数/>,聚合每个类的时间维度的前k个值得到视频激活分数/>;通过沿类维度应用softmax操作得到困难片段过滤后的视频级别的分类概率/>
将注意力权重A和过滤掉困难片段后的时间类激活分数相乘,获得背景抑制后和困难片段过滤后的时间类激活分数/>
通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数/>,通过沿类维度应用softmax操作得到困难片段过滤后和背景抑制后的视频级别分类概率/>
视频级分类过程利用top-k多实例学习损失函数进行约束训练;注意力权重相互学习过程利用相互学习损失进行约束训练;注意力权重的分布应该与中背景类的概率分布相反过程利用相对学习损失进行约束训练。
7.如权利要求6所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,所述top-k机制聚合通过以下公式实现:
,/>
所述沿类维度应用softmax操作通过以下公式实现:
其中,表示通过沿类维度应用softmax操作得到视频级别的分类概率,/>表示聚合每个类的时间维度的前k个值得到视频激活分数,j=1,2,3,……,(c+1)/>代表第i个片段属于类别j的激活分数,l表示聚合到的视频片段,T表示视频片段总数,/>是预定义的参数,k表示聚合到的前k段视频片段。
8.如权利要求6所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,
所述top-k机制聚合通过以下公式实现:
,/>
其中,表示聚合每个类的时间维度的前k个值得到视频激活分数,j=1,2,3,……,(c+1),/>表示top-k机制聚合后的时间类激活分数,/>代表第i个片段属于类别j的激活分数,l表示聚合到的视频片段,T表示视频片段总数,/>是预定义的参数,k表示聚合到的前k段视频片段
所述沿类维度应用softmax操作通过以下公式实现:
其中,表示通过沿类维度应用softmax操作得到视频级别的分类概率/>表示聚合每个类的时间维度的前k个值得到视频激活分数,j=1,2,3,……,(c+1)。
9.如权利要求6所述的基于不确定性感知的弱监督时序动作定位方法,其特征是,
所述top-k多实例学习损失函数通过以下公式实现:
;其中/>是困难片段过滤后的视频级分数,/>是视频标签,其中第n+1维/>,/>是困难片段过滤和背景抑制后的视频级分数,/>视频标签,其中第n+1维/>,/>是多实例学习损失应用于过滤掉困难片段的时间类激活分数上,是多实例学习损失应用于过滤掉困难片段后的时间类激活分数/>上,/>是多实例学习损失应用于背景抑制后和困难片段过滤后的时间类激活分数/>上;
相互学习损失函数通过以下公式实现:;相对学习损失函数通过以下公式实现:;归一化损失函数通过以下公式实现:/>;总损失:;其中,/>表示截断输入梯度的函数,/>表示相似性度量函数,/>是超参数;/>是绝对值函数,/>表示时间类激活分数/>中的最后一列,表示每个片段是背景的概率;/>是/>范数函数;/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重;/>是多实例学习损失,/>是协同活动相似度损失,是相互学习损失,/>是相对学习损失,/>是归一化损失,/>、/>是超参数。
10.基于不确定性感知的弱监督时序动作定位系统,其特征是,包括:
采集模块,用于采集待检测的动作视频;
初始特征获取模块,用于利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
特征增强模块,获取增强后的RGB特征和FLOW特征,将增强后的RGB特征和FLOW特征聚合为视频特征;
分类模块,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数;
注意力模块,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;
不确定性模块,对预测的类激活分数生成不确定性得分,得到过滤掉难以预测动作或背景的困难片段的语义信息;
重新校准模块,语义信息和注意力权重依次重新加权的时间类激活分数,得到过滤掉困难片段和背景抑制的视频级别的分类概率;
定位模块,在测试阶段,计算视频级别的分类概率;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,丢弃背景片段,获得动作提案的起止时间和动作的置信度分数,得到动作提案。
CN202310785880.7A 2023-06-30 2023-06-30 基于不确定性感知的弱监督时序动作定位方法及系统 Active CN116503959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310785880.7A CN116503959B (zh) 2023-06-30 2023-06-30 基于不确定性感知的弱监督时序动作定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310785880.7A CN116503959B (zh) 2023-06-30 2023-06-30 基于不确定性感知的弱监督时序动作定位方法及系统

Publications (2)

Publication Number Publication Date
CN116503959A true CN116503959A (zh) 2023-07-28
CN116503959B CN116503959B (zh) 2023-09-08

Family

ID=87321752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310785880.7A Active CN116503959B (zh) 2023-06-30 2023-06-30 基于不确定性感知的弱监督时序动作定位方法及系统

Country Status (1)

Country Link
CN (1) CN116503959B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015523A (zh) * 2024-04-10 2024-05-10 齐鲁工业大学(山东省科学院) 基于多模态证据学习的弱监督时序动作定位方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
US20210357687A1 (en) * 2020-05-12 2021-11-18 Salesforce.Com, Inc. Systems and methods for partially supervised online action detection in untrimmed videos
KR20220040063A (ko) * 2020-09-23 2022-03-30 연세대학교 산학협력단 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법
CN114494941A (zh) * 2021-12-27 2022-05-13 天津大学 一种基于对比学习的弱监督时序动作定位方法
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
CN115641529A (zh) * 2022-09-30 2023-01-24 青岛科技大学 基于上下文建模与背景抑制的弱监督时序行为检测方法
CN115761904A (zh) * 2022-12-23 2023-03-07 复旦大学 基于多头跨模态注意力机制的弱监督视频时序动作定位方法
CN116310988A (zh) * 2023-03-22 2023-06-23 常州机电职业技术学院 一种基于级联注意力机制的弱监督时序动作检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200065A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
US20210357687A1 (en) * 2020-05-12 2021-11-18 Salesforce.Com, Inc. Systems and methods for partially supervised online action detection in untrimmed videos
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
KR20220040063A (ko) * 2020-09-23 2022-03-30 연세대학교 산학협력단 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN114494941A (zh) * 2021-12-27 2022-05-13 天津大学 一种基于对比学习的弱监督时序动作定位方法
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN115641529A (zh) * 2022-09-30 2023-01-24 青岛科技大学 基于上下文建模与背景抑制的弱监督时序行为检测方法
CN115761904A (zh) * 2022-12-23 2023-03-07 复旦大学 基于多头跨模态注意力机制的弱监督视频时序动作定位方法
CN116310988A (zh) * 2023-03-22 2023-06-23 常州机电职业技术学院 一种基于级联注意力机制的弱监督时序动作检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵朵朵;章坚武;郭春生;周迪;穆罕默德・阿卜杜・沙拉夫・哈基米;: "基于深度学习的视频行为识别方法综述", 电信科学, no. 12 *
马苗;王伯龙;吴琦;武杰;郭敏;: "视觉场景描述及其效果评价", 软件学报, no. 04 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015523A (zh) * 2024-04-10 2024-05-10 齐鲁工业大学(山东省科学院) 基于多模态证据学习的弱监督时序动作定位方法及系统

Also Published As

Publication number Publication date
CN116503959B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
Han et al. A survey on visual transformer
Kamal et al. Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint
Herzig et al. Spatio-temporal action graph networks
Panda et al. Contemplating visual emotions: Understanding and overcoming dataset bias
Lai et al. Understanding more about human and machine attention in deep neural networks
Ding et al. Violence detection in video by using 3D convolutional neural networks
Mishra et al. Real time human action recognition using triggered frame extraction and a typical CNN heuristic
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
Jiang et al. An efficient attention module for 3d convolutional neural networks in action recognition
CN116503959B (zh) 基于不确定性感知的弱监督时序动作定位方法及系统
Zhou et al. Sampling-attention deep learning network with transfer learning for large-scale urban point cloud semantic segmentation
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Zhang et al. Residual attentive feature learning network for salient object detection
Liao et al. Residual attention unit for action recognition
Zhu et al. Facial emotion recognition using a novel fusion of convolutional neural network and local binary pattern in crime investigation
Lee et al. Frame level emotion guided dynamic facial expression recognition with emotion grouping
Mohiuddin et al. A feature fusion based deep learning model for deepfake video detection
Aakur et al. Action localization through continual predictive learning
Wang et al. V-dixmatch: A semi-supervised learning method for human action recognition in night video sensing
Huang et al. Expression-targeted feature learning for effective facial expression recognition
CN116645694A (zh) 基于动态自进化信息抽取和对齐的文本-目标检索方法
Wang et al. Spatial-temporal graph-based AU relationship learning for facial action unit detection
Wang et al. RETRACTED ARTICLE: Human behaviour recognition and monitoring based on deep convolutional neural networks
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN113505729A (zh) 基于人体面部运动单元的面试作弊检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231225

Address after: Building A6-211, Hanyu Jingu, No. 7000 Jingshi Road, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250000

Patentee after: Shandong Zhonglian Audio-Visual Information Technology Co.,Ltd.

Address before: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee before: Shandong Institute of artificial intelligence

Patentee before: Shandong Zhonglian Audio-Visual Information Technology Co.,Ltd.