基于不确定性感知的弱监督时序动作定位方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于不确定性感知的弱监督时序动作定位方法及系统。
背景技术
时序动作定位是视频处理中一项极具挑战性的任务,其旨在时间轴上定位动作的开始和结束位置,同时还要预测动作的类别。与全监督时序动作检测不同,弱监督的时序动作定位只有视频级别的标签,因此节约了标注成本,受到研究者的广泛研究。
现有技术中,大多数现有的弱监督时序动作定位方法基于多实例学习(MIL)方式开发其框架。首先预测每个片段的分类概率,然后将它们聚合为视频级预测。最后,使用给定的视频级标签执行优化过程。动作提案是通过对片段级别的类别分数进行阈值处理来生成的。在这种方法中,背景帧被错误分类为动作类。因此,一些作品引入了一个注意力模块,通过抑制背景部分来提高识别前景的能力。Lee等人引入了背景辅助类,并提出了一种具有非对称训练策略的双分支权重共享架构。此外,基于MIL的方法只专注于优化视频中最具辨别力的片段。对于动作完整性建模,一些作品采用了互补学习方案,该方案删除了视频中最具辨别力的部分,专注于互补部分。
但是,现有的时序动作定位方法仍然存在以下弊端:
(1)多实例学习过程中,基于TopK算法的池化机制会导致一些无用的信息会被聚合,聚合到的片段中存在不能识别动作或背景的困难片段,影响定位和识别过程。
(2)原始特征是针对动作识别任务,用于动作检测会导致特征冗余,亟需探索以更有效的方式重新校准特征。
因此,亟需一种鲁棒的基于不确定性感知的弱监督时序动作定位方法。
发明内容
为了实现上述目的,本发明目的之一是提供基于不确定性感知的弱监督时序动作定位方法。
本发明解决技术问题的技术方案为:
基于不确定性感知的弱监督时序动作定位方法,包括如下步骤:
S110.采集待检测的动作视频;
S120.利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为增强的视频特征;将聚合视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
S130.将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;通过不确定性模块对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;通过不确定性模块得到的语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
S140.动作定位:在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征方法,具体过程如下:
利用全局上下文感知模块,将特征/>作为主模态,通过时间维度平均池操作/>压缩主模态的全局上下文信息;利用卷积层/>成模态特定的全局感知描述符/>;
其中,,
利用跨模态感知模块,将FLOW特征作为辅助模态,利用卷积层/>生成跨模态局部感知描述符/>;其中,
,
将全局感知描述符和跨模态局部感知描述符/>相乘,获得特征重新校准的通道描述符D;将通道描述符D和主模态RGB特征相乘,获得新校准的增强的RGB特征/>;
其中,,/>是sigmoid操作,将FLOW特征/>作为主模态采用上述相同的流程,获得新校准的增强的FLOW特征/>;连接增强后的RGB特征和FLOW特征,获得增强后的视频特征,/>,
其中,表示特征拼接,/>表示增强后的视频特征,/>是视频片段长度,/>是特征维数。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率,包括,
增强的特征通过由三个卷积层组成的分类器,生成给定视频的时间类激活分数T-CAS,其中/>是视频片段长度,/>是类别数量,第/>类是背景类。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;两个注意力权重相互学习;聚合两个模态的注意力权重获得最终的融合的注意力权重,其中,
将增强的和/>特征分别输入到由三个卷积层组成的注意力模块/>和,以获得两个模态的注意力权重/>和/>,融合两个注意力权重得到A,其中,
,
其中,和/>表示由三个卷积层组成的注意力模块,/>,/>和/> 分别表示RGB流、FLOW流以及融合流的注意力权重,/>和/>分别表示增强的RGB特征和增强的FLOW特征。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过不确定性模块对预测的时间类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
信息熵计算类激活分数的不确定性H(t),通过对H(t)设置阈值,大于阈值的认为是不能判断是背景或动作的困难片段,对这些片段执行mask操作得到语义信息Inf(t);
所述信息熵计算不确定性通过以下公式实现:
,
其中,其中j=1,2,3,……,c+1,表示片段i属于类别j的概率;
所述语义信息Inf(t)通过以下公式实现:,
即,在时间T维度,大于阈值的时间类激活分数S设为0,否则设为1,,/>。
上述的基于不确定性感知的弱监督时序动作定位方法基础上,通过语义信息和注意力权重重新加权时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率,其中,
将语义信息Inf(t)和时间类激活分数S相乘,获得过滤掉困难片段的时间类激活分数,/>;/>,通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数/>;通过沿类维度应用softmax操作得到视频级别的分类概率/>;
所述top-k机制通过以下公式实现:
,/>;
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
;
通过注意力权重和过滤掉困难片段后的时间类激活分数相乘,获得注意力加权的背景抑制和困难片段过滤的时间类激活分数;
;
其中,;
通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数,通过沿类维度应用softmax操作得到视频级别的分类概率/>;
所述top-k机制通过以下公式实现:
,/>;
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
;
所述视频级分类过程利用top-k多实例学习损失函数进行约束训练;所述注意力权重相互学习过程利用相互学习损失进行约束训练;所述注意力权重的分布应该与中背景类的概率分布相反过程利用相对学习损失进行约束训练;所述两个注意力权重更加两级化过程利用归一化损失函数进行约束训练;
所述top-k多实例学习损失函数通过以下公式实现:
;
其中,其中是困难片段屏蔽视频级分数,/>是视频级地面真相,/>,/>是困难片段屏蔽和背景抑制视频级分数,/>是视频级地面真相,/>;
所述相互学习损失函数通过以下公式实现:
;
其中,表示截断输入梯度的函数,/>表示相似性度量函数,/>,/>分别表示RGB流、FLOW流的注意力权重,/>是超参数,
所述相对学习损失函数通过以下公式实现:
;
其中,是绝对值函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,/>表示时间类激活分数/>中的最后一列,表示每个片段是背景的概率,
所述归一化损失函数通过以下公式实现:
;
其中,是/>范数函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,
总损失:;
其中,是多实例学习损失,/>是协同活动相似度损失,/>是相互学习损失,是相对学习损失,/>是归一化损失,/>、/>是超参数。
另一方面,本发明提供了弱监督时序动作定位系统。
本发明解决技术问题的技术方案为:
基于不确定性感知的弱监督时序动作定位方法,包括:
采集模块,用于采集待检测的动作视频;
初始特征获取模块,用于利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;
分类模块,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
注意力模块,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;
不确定性模块,对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
重新校准模块,通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
定位模块,在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
1)通过注意力机制能够寻找到更重要的帧并赋予更高的权重来实现对背景信息的抑制。
2)通过不确定性模块,抑制了不能识别的动作或背景,过滤掉了困难片段,提高了模型的分类效果。
3)通过对RGB特征和FLOW特征进行建模,过滤掉冗余信息,获得了鲁棒的定位和分类特征。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的流程示意图;
图2为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的原理示意图;
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。
实施例1 具体的,作为示例,图1为本发实施例提供的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的流程示意图。参照图1所示,本发明提供一种基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法包括步骤S110~S140。
S110、采集待检测的动作视频;
S120、利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;通过特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
S130、将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;通过不确定性模块对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
S140、动作定位:在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
图2为根据本发明实施例的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法的原理示意图;如图2所示,针对现有技术在时序动作定位场景中,存在的对动作和背景的模糊片段识别困难等问题。本发明的基于困难片段过滤的基于不确定性感知的弱监督时序动作定位方法包括7个部分:特征提取网络的选择;特征的增强;类激活分数的生成;不确定性分数的生成;注意力权重的生成;基于不确定性和注意力权重的分类结果调整;动作定位结果。
下面具体说明各个步骤具体操作过程和原理。
步骤1、特征提取网络的选择:
利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的时间特征和空间特征;也就是说,利用Kinetics数据集获取预训练的I3D网络;然后利用I3D网络提取动作的时间特征和空间特征。视频帧的视频特征包括:RGB(RedGreenBlue,红绿蓝)特征和光流特征。双流特征是通过对RGB特征和光流特征进行融合后产生的。
需要说明的是,在时序动作定位任务中,需要首先选取优秀的特征提取器来获得鲁棒的特征。由于时序动作定位任务的特性,必须要选取能够提取时序信息的特征提取器,本发明采用了双流的I3D网络来进行特征的提取;其中,RGB流的输入为连续的视频帧,能够同时提取到时间和空间特征,对于Flow流,输入为连续的光流帧,能够进一步对时序信息进行提取和建模。
步骤2、特征的增强:
将提取到的RGB特征和FLOW特征送入特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征,具体来说,
利用全局上下文感知模块,将特征/>作为主模态,通过时间维度平均池操作/>压缩主模态的全局上下文信息;利用卷积层/>成模态特定的全局感知描述符/>;
其中,,
利用跨模态感知模块,将FLOW特征作为辅助模态,利用卷积层/>生成跨模态局部感知描述符/>;其中,
,
将全局感知描述符和跨模态局部感知描述符/>相乘,获得特征重新校准的通道描述符D;将通道描述符D和主模态RGB特征相乘,获得新校准的增强的RGB特征/>;
其中,,/>是sigmoid操作,将FLOW特征/>作为主模态采用上述相同的流程,获得新校准的增强的FLOW特征/>;连接增强后的RGB特征和FLOW特征,获得增强后的视频特征。/>,
其中,表示特征拼接,/>表示增强后的视频特征,/>是视频片段长度,/>是特征维数,
步骤3、类激活分数的生成:
增强的特征通过由三个卷积层组成的分类器,生成给定视频的时间类激活分数(T-CAS),其中/>是视频片段长度,/>是类别数量,第/>类是背景类。
步骤4、不确定分数的生成:
通过不确定性模块对预测的时间类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息;
不确定性模块由信息熵函数组成,信息熵计算类激活分数的不确定性H(t),通过对H(t)设置阈值,本实施例中/>,大于阈值的认为是不能判断是背景或动作的困难片段,对这些片段执行mask操作得到语义信息/>;
所述信息熵计算不确定性通过以下公式实现:
,
其中,其中j=1,2,3,……,c+1,表示片段i属于类别j的概率;
所述语义信息Inf(t)通过以下公式实现:,
即,在时间T维度,大于阈值的时间类激活分数S设为0,否则设为1,,/>。
步骤5、注意力权重的生成:
将增强的和/>特征分别输入到由三个卷积层组成的注意力模块/>和,以获得两个模态的注意力权重/>和/>,融合两个注意力权重得到A,其中,
,
其中,和/>表示由三个卷积层组成的注意力模块,/>,/>和/> 分别表示RGB流、FLOW流以及融合流的注意力权重,/>和/>分别表示增强的RGB特征和增强的FLOW特征。
步骤6、基于不确定性和注意力权重的分类结果调整:
将语义信息Inf(t)和时间类激活分数S相乘,获得过滤掉困难片段的时间类激活分数,/>;/>,通过top-k机制聚合时间类激活分数,聚合每个类的时间维度的前k个值得到视频激活分数/>;通过沿类维度应用softmax操作得到视频级别的分类概率/>;
所述top-k机制通过以下公式实现:
,/>;
其中j=1,2,3,……,(c+1),代表第i个片段属于类别j的激活分数,/>是预定义的参数
所述沿类维度应用softmax操作通过以下公式实现:
;
所述视频级分类过程利用top-k多实例学习损失函数进行约束训练;所述注意力权重相互学习过程利用相互学习损失进行约束训练;所述注意力权重的分布应该与中背景类的概率分布相反过程利用相对学习损失进行约束训练;所述两个注意力权重更加两级化过程利用归一化损失函数进行约束训练; 所述学习更好的特征表示和时间类激活分数利用coactivity similarity loss函数进行约束训练;
所述top-k多实例学习损失函数通过以下公式实现:
;
其中,其中是困难片段屏蔽视频级分数,/>是视频级地面真相,/>,/>是困难片段屏蔽和背景抑制视频级分数,/>是视频级地面真相,/>;
所述相互学习损失函数通过以下公式实现:
;
其中,表示截断输入梯度的函数,/>表示相似性度量函数,/>,/>分别表示RGB流、FLOW流的注意力权重,/>是超参数,
所述相对学习损失函数通过以下公式实现:
;
其中,是绝对值函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,/>表示时间类激活分数/>中的最后一列,表示每个片段是背景的概率,
所述归一化损失函数通过以下公式实现:
;
其中,是/>范数函数,/>,/>,/>分别表示RGB流、FLOW流以及融合流的注意力权重,
总损失:;
其中,是多实例学习损失,/>是协同活动相似度损失,/>是相互学习损失,是相对学习损失,/>是归一化损失,/>、/>是超参数。
步骤7、动作定位结果:
在一个具体的实施例中,该发明中在PyTorch中实现,应用在Kinetics-400上预训练的I3D网络来提取每个视频的RGB和FLOW特征。从视频中采样连续不重叠的16帧作为片段,其中每个片段的每个模态的特征是1024维。在训练阶段,随机抽取了THUMOS14数据集的500个片段和ActivityNet1.2数据集的60个片段。注意模块由3个卷积层构成,其输出维度为512、512和1,内核大小为3、3和1。分类模块包含3个时间卷积层。在每个卷积层之间,使用概率为0.7的Dropout正则化。对于每个超参数,为最终目标函数中的最后两项正则化设置,并且/>以获得两个数据集的最佳性能。在训练过程中,批量采样10个视频,其中有3对视频,每对包含相同的分类标签,用于coactivity similarity loss。用Adam优化器进行优化,其中THUMOS14的学习率为5e-5,权重衰减率为0.001,而ActivityNet1.2数据集为3e-5和5e-4。所有实验都在单个NVIDIA GTX TITAN (Pascal) GPU 上运行。
本发明使用两个时序动作定位的公开数据集进行动作定位,对于THUMOS14数据集和ActivityNet1.3数据集,效果有稳定提升。
本实施例中PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序;Kinetics-400 是一个动作识别视频数据集, ActivityNet 是当前时序动作检测任务最大的数据集,也是最通用的数据集之一,ActivityNet 1.2是ActivityNet的V1.2版本,coactivity similarity loss是共同活动相似性损失,NVIDIA GTX TITAN(Pascal) GPU是英伟达(NVIDIA)的生产的显卡产品,它采用了Pascal架构,是一种基于16纳米工艺制造的GPU。
另外本发明文件提到的Top-K为常规的处理方法,不再赘述。
实施例2 弱监督时序动作定位系统,包括:
采集模块,用于采集待检测的动作视频;
初始特征获取模块,用于利用预训练的I3D网络对动作视频进行特征提取,获取待检测的动作的RGB特征和FLOW特征;
特征增强模块,根据待检测的动作的RGB特征和FLOW特征获取增强后的RGB特征和FLOW特征;将增强后的RGB特征和FLOW特征聚合为视频特征;
分类模块,将聚合的视频特征送入到分类器中,预测每个片段的时间类激活分数,即每个片段属于每个类的概率;
注意力模块,将增强后的RGB特征和FLOW特征送入到注意力模块,分别获得两个模态的注意力权重,表示片段是前景的概率;聚合两个模态的注意力权重获得最终的融合的注意力权重;
不确定性模块,对预测的类激活分数生成不确定性得分,进一步得到过滤掉难以预测动作或背景的困难片段的语义信息,
重新校准模块,通过不确定性模块得到的语义信息和注意力模块得到的注意力权重依次重新加权的时间类激活分数;进一步得到过滤掉困难片段和背景抑制的视频级别的分类概率;
定位模块,在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能性;设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,对注意力权重设置多个阈值以丢弃背景片段,获得动作提案的起止时间;获得动作的置信度分数,得到动作提案。
本发明中文件提到的I3D为交互式3D是指一种可以在本机或Web上实现实时人机互动的三维计算机图形及其技术。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。