CN111652083B - 一种基于自适应采样的弱监督时序动作检测方法及系统 - Google Patents

一种基于自适应采样的弱监督时序动作检测方法及系统 Download PDF

Info

Publication number
CN111652083B
CN111652083B CN202010403823.4A CN202010403823A CN111652083B CN 111652083 B CN111652083 B CN 111652083B CN 202010403823 A CN202010403823 A CN 202010403823A CN 111652083 B CN111652083 B CN 111652083B
Authority
CN
China
Prior art keywords
uniformly distributed
activation sequence
video
sequence
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010403823.4A
Other languages
English (en)
Other versions
CN111652083A (zh
Inventor
张娅
鞠陈
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010403823.4A priority Critical patent/CN111652083B/zh
Publication of CN111652083A publication Critical patent/CN111652083A/zh
Application granted granted Critical
Publication of CN111652083B publication Critical patent/CN111652083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自适应采样的弱监督时序动作检测方法及系统,包括:根据输入的视频提取视频特征图;将视频特征图映射成均匀分布类别激活序列;根据均匀分布类别激活序列产生伯努利数列作为自适应重采样位置索引;对视频特征图进行特征重采样;将视频重采样特征图映射成非均匀分布类别激活序列;对均匀和非均匀分布类别激活序列使用分类网络预测视频为各个类别的概率;对非均匀分布类别激活序列进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;选择对齐后的均匀或非均匀分布类别激活序列使用阈值法得到视频的检测结果。本发明对输入视频提取两种相互补充、互相监督的类别激活映射序列,实现更精确的弱监督的视频时序动作检测。

Description

一种基于自适应采样的弱监督时序动作检测方法及系统
技术领域
本发明涉及计算机视觉和图像处理领域,具体地,涉及一种基于自适应采样的弱监督时序动作检测方法及系统,更为具体地,涉及一种基于自适应采样策略的弱监督视频时序动作检测与类别预测的方法及系统。
背景技术
近年来,随着移动通信和短视频的快速发展,视频分析理解技术受到越来越多的关注。作为视频分析问题的核心,时间维度上的动作检测任务正在被广泛地研究。
全监督的时间动作检测,其设定是给定一系列原始长视频,每个视频都有视频中包含的动作类别以及帧级位置标注,要求模型检测出其中所有的动作类别以及动作发生的始末时间。尽管全监督的时间动作检测已经取得了优异的性能,但考虑到它需要精确的帧级动作位置标注,极为耗时耗力,因此并不能快速适用于实际生活。而弱监督的时间动作检测,仅仅需要给定视频中包含的动作类别,模型即可预测其中存在的动作类别以及动作发生的始末时间位置。也就是在没有精确的位置标注的情况下,也能检测视频中的动作实例的位置。
随着深度神经网络和多实例学习在弱监督领域逐渐发展,很多弱监督视频时序动作检测方法都开始通过视频分类网络生成类别激活映射序列,并将其作为位置线索,生成相应的检测结果。但是分类任务和检测任务在优化目标上存在固有矛盾,即分类任务仅关注少数的显著视频帧,而检测任务需要检测出所有包含动作的帧。所以单纯使用分类模型处理弱监督时序动作检测任务效果不够理想。
专利文献CN110516536A申请号(201910630472.8),公开了一种基于时序类别激活图互补的弱监督视频行为检测方法,其利用擦除法对视频分类网络产生的类别激活序列去除显著视频帧,然后将剩下的不显著视频帧再次输入分类网络得到新的互补类别激活序列,最后结合这两个类别激活序列得到更完整的位置信息。但上述专利未考虑特征分布受噪声影响产生的非均匀分布的情况,没有考虑引入位置伪标签指导模型同时完成分类和检测两个任务,并且无法端到端进行训练,会无法避免地引入错误的背景误激活,对弱监督视频时序动作检测的性能提升有限。
针对现有技术中的缺陷,本发明的目的是提供一种基于自适应采样策略的弱监督视频时序动作检测与类别预测的方法及系统,依据仅有动作类别标签的原始长视频,训练能够精确检测视频中动作实例的始末时间位置,并对检测出的动作进行准确分类的弱监督模型。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于自适应采样的弱监督时序动作检测方法及系统。
根据本发明提供的一种基于自适应采样的弱监督时序动作检测方法,包括:
视频特征图提取步骤:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;
均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列;
自适应采样步骤:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合步骤:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列;
类别预测步骤:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐步骤:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督步骤:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为弱监督时序动作检测提供显式的位置监督信息;
检测结果生成步骤:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
优选地,所述均匀分布类别激活序列步骤包括:
利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量。
优选地,所述自适应采样步骤包括:对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))  (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T  (2)
其中,T表示输入视频的时间长度,i表示时间维度的索引,wi表示自适应采样概率序列在i位置上的值,bi表示伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样。
优选地,所述重采样特征结合步骤包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi  (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量。
优选地,所述非均匀分布类别激活序列步骤包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示数据集中所有动作类别数量。
优选地,所述时间分布对齐步骤包括:
时间分布对齐步骤M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure BDA0002490508270000041
其中,ti表示第i个均匀分布的时间点,
Figure BDA00024905082700000411
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure BDA00024905082700000412
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure BDA0002490508270000042
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000043
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐步骤M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure BDA0002490508270000044
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000045
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000046
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure BDA0002490508270000047
Figure BDA0002490508270000048
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果。
优选地,所述类别激活序列相互监督步骤包括:
将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签,使用欧式距离构建位置损失函数,为弱监督时序动作检测模型提供显式的位置监督,公式如下:
Figure BDA0002490508270000049
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表输入视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐函数。
优选地,所述类别预测步骤包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数收敛;
所述损失函数,计算公式如下:
Figure BDA00024905082700000410
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表视频和标签的分布,xi代表视频实例,yi是视频类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
根据本发明提供的一种基于自适应采样的弱监督时序动作检测系统,包括:
视频特征图提取步骤:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;
均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列;
自适应采样步骤:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合步骤:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列;
类别预测步骤:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐步骤:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督步骤:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为弱监督时序动作检测模供显式的位置监督信息;
检测结果生成步骤:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
优选地,所述均匀分布类别激活序列步骤包括:
利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量;
所述自适应采样步骤包括:对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))  (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T(2)
其中,T表示输入视频的时间长度,i表示时间维度的索引,wi表示自适应采样概率序列在i位置上的值,bi表示伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样;
所述重采样特征结合步骤包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi  (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量;
所述非均匀分布类别激活序列步骤包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示数据集中所有动作类别数量;
所述时间分布对齐步骤包括:
时间分布对齐步骤M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure BDA0002490508270000061
其中,ti表示第i个均匀分布的时间点,
Figure BDA00024905082700000610
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure BDA0002490508270000062
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure BDA0002490508270000063
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000064
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐步骤M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure BDA0002490508270000065
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000066
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000067
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure BDA0002490508270000068
Figure BDA0002490508270000069
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果;
所述类别激活序列相互监督步骤包括:
将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签,使用欧式距离构建位置损失函数,为弱监督时序动作检测模型提供显式的位置监督,公式如下:
Figure BDA0002490508270000071
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表输入视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐函数;
所述类别预测步骤包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数收敛;
所述损失函数,计算公式如下:
Figure BDA0002490508270000072
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表视频和标签的分布,xi代表视频实例,yi是视频类别标签,E代表特征提取网络,C代表均匀分布或非均匀分布类别激活序列映射网络,D代表类别预测网络,H代表交叉熵函数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于原始视频的均匀分布类别激活序列,进行自适应采样,从而在时间维度上压缩或者拉伸原始视频特征,构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大,对原始视频特征中的显著信息进行压缩,从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作;
2、在类别激活映射序列相互监督中的位置损失函数的约束下,非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充,不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制,这两种激活序列相互辅助,相互约束,共同提升弱监督时序动作检测的性能;
3、除此之外,本发明考虑了弱监督任务中分类和检测的固有矛盾,通过在类别激活映射序列之间构建相互位置监督,使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签,从而为整个模型提供类别和位置两种监督信息,一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。
4、本发明将视频的自适应采样视为噪声,重采样的视频特征视为受噪声影响的输入特征。通过类别激活映射序列相互监督中的位置损失函数的约束,噪声的影响被去除,因此本发明还可有效增强模型系统对噪声的鲁棒性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例中方法流程图;
图2为本发明实施例中系统原理图;
图3为本发明实施例中自适应采样结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
如图1所示,为本发明一种基于自适应采样的弱监督时序动作检测方法实施例的流程图,本发明基于原始视频的均匀分布类别激活序列,进行自适应采样,从而在时间维度上压缩或者拉伸原始视频特征,构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大,对原始视频特征中的显著信息进行压缩,从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作;在类别激活映射序列相互监督中的位置损失函数的约束下,非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充,不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制,这两种激活序列相互辅助,相互约束,共同提升弱监督时序动作检测的性能;除此之外,本发明考虑了弱监督任务中分类和检测的固有矛盾,通过在类别激活映射序列之间构建相互位置监督,使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签,从而为整个模型提供类别和位置两种监督信息,一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。
根据本发明提供的一种基于自适应采样的弱监督时序动作检测方法,包括:
视频特征图提取步骤:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;所述输入视频仅有动作类别标签,没有精确的动作位置标注;
均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频特征图映射成为预设维度的均匀分布类别激活序列;
自适应采样步骤:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合步骤:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成为预设维度的非均匀分布类别激活序列;
类别预测步骤:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐步骤:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督步骤:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为模型提供显式的位置监督信息;
检测结果生成步骤:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
本发明所述的一种基于自适应采样的弱监督时序动作检测方法,是能够进行端到端训练的。
具体地,所述均匀分布类别激活序列步骤包括:利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示视频数据集中所有动作类别数量;
所述自适应采样步骤包括:对均匀分布类别激活序列每个点进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))  (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T  (2)
其中,T是输入视频的时间长度,i是时间维度的索引,wi是自适应采样概率序列在i位置上的值,bi是伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样。
具体地,所述重采样特征结合步骤包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi  (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量;通过这样的自适应采样策略,可以对原始视频特征在时间维度上进行压缩或者拉伸,构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大,对原始视频特征中的显著信息进行压缩,从而使得基于重采样视频特征产生的非均匀类别激活映射序列能够有效的对均匀分布类别激活序列所遗漏的动作进行补充和完善。
所述非均匀分布类别激活序列步骤包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量。
具体地,所述时间分布对齐步骤包括:通过将均匀分布的时间点映射到自适应采样步骤生成的非均匀时间分布中,找最近邻的上界和下界,继而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值,最终将非均匀分布的类别激活序列在时间维度均匀化,从而和均匀分布类别激活序列在时间分布上对齐。
时间分布对齐步骤M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure BDA0002490508270000111
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000112
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure BDA0002490508270000113
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure BDA0002490508270000114
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000115
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐步骤M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure BDA0002490508270000116
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000117
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000118
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure BDA0002490508270000119
Figure BDA00024905082700001110
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果。
具体地,所述类别激活序列相互监督步骤包括:
一方面考虑到弱监督时序动作检测中因为缺乏位置指引,造成分类和检测任务之间存在固有矛盾;另一方面,考虑到经过时间分布对齐步骤对齐后的非均匀分布的类别激活序列和均匀分布类别激活序列,两者之间的位置信息仍有较大差异。为了将这两种互补的位置信息结合,同时缓解分类任务和检测任务之间的固有矛盾,使用均匀分布类别激活序列和非均匀分布类别激活序列,充当相互的位置伪标签监督信息,并基于欧式距离设计损失函数,为弱监督时序动作检测提供显式的位置监督,让两种类别激活序列所包含的位置信息进行融合、互补、约束,共同提升时序动作位置检测精确,位置损失函数计算公式如下:
Figure BDA00024905082700001111
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐步骤的函数;
具体地,所述类别预测步骤包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数收敛;
所述损失函数,计算公式如下:
Figure BDA0002490508270000121
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表输入视频和标签的分布,xi代表视频实例,yi是输入视频类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
类别预测步骤的输出是预测视频为各个类别的概率,对应公式中的C(D(E(xi))),通过在预测的类别概率和视频类别标签之间计算损失函数,让预测模型根据损失函数进行参数更新,从而迫使预测的类别概率逐渐接近类别标签。
根据本发明提供的一种基于自适应采样的弱监督时序动作检测的系统,包括:
视频特征图提取模块:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;所述输入视频仅有动作类别标签,没有精确的动作位置标注;
均匀分布类别激活序列模块:使用卷积层和全连接层构成的神经网络将视频特征图映射成为预设维度的均匀分布类别激活序列;
自适应采样模块:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合模块:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列模块:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成为预设维度的非均匀分布类别激活序列;
类别预测模块:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐模块:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督模块:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为模型提供显式的位置监督信息;
检测结果生成模块:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
本发明所述的一种基于自适应采样的弱监督时序动作检测的系统,是能够进行端到端训练的。
具体地,所述均匀分布类别激活序列模块包括:利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示视频数据集中所有动作类别数量;
所述自适应采样模块包括:对均匀分布类别激活序列每个点进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))  (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T  (2)
其中,T是输入视频的时间长度,i是时间维度的索引,wi是自适应采样概率序列在i位置上的值,bi是伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样。
具体地,所述重采样特征结合模块包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi  (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量;通过这样的自适应采样策略,可以对原始视频特征在时间维度上进行压缩或者拉伸,构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大,对原始视频特征中的显著信息进行压缩,从而使得基于重采样视频特征产生的非均匀类别激活映射序列能够有效的对均匀分布类别激活序列所遗漏的动作进行补充和完善。
所述非均匀分布类别激活序列模块包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量。
具体地,所述时间分布对齐模块包括:通过将均匀时间分布的每个点映射到自适应采样模块生成的非均匀时间分布中,找最近邻的上界和下界,从而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值,最终将非均匀分布的类别激活序列在时间维度均匀化,从而和均匀分布类别激活序列在时间分布上对齐。
时间分布对齐模块M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure BDA0002490508270000141
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000142
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure BDA0002490508270000143
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure BDA0002490508270000144
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000145
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐模块M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure BDA0002490508270000146
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000147
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000148
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure BDA0002490508270000149
Figure BDA00024905082700001410
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果。
具体地,所述类别激活序列相互监督模块包括:
一方面考虑到弱监督时序动作检测中因为缺乏位置指引,造成分类和检测任务之间存在固有矛盾;另一方面,考虑到经过时间分布对齐步骤对齐后的非均匀分布的类别激活序列和均匀分布类别激活序列,两者之间的位置信息仍有较大差异。为了将这两种互补的位置信息结合,同时缓解分类任务和检测任务之间的固有矛盾,使用均匀分布类别激活序列和非均匀分布类别激活序列,充当相互的位置伪标签监督信息,并基于欧式距离设计损失函数,为弱监督时序动作检测模型提供显式的位置监督,让两种类别激活序列所包含的位置信息进行融合、互补、约束,共同提升时序动作位置检测精确,位置损失函数计算公式如下:
Figure BDA00024905082700001411
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐模块的函数;
具体地,所述类别预测模块包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数达到预设值;
所述损失函数,计算公式如下:
Figure BDA0002490508270000151
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表输入视频和标签的分布,xi代表视频实例,yi是输入视频类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
类别预测步骤的输出是预测视频为各个类别的概率,对应公式中的C(D(E(xi))),通过在预测的类别概率和视频类别标签之间计算损失函数,让预测模型根据损失函数进行参数更新,从而迫使预测的类别概率逐渐接近类别标签。
实施例2
实施例2是实施例1的变化例
视频特征图提取步骤,其中:利用3D深度卷积神经网络模型,对输入的待检测视频提取预设维度的视觉特征。所述待检测视频仅有动作类别标注,没有精确的动作位置标注。
均匀分布类别激活序列步骤,其中:利用卷积层和全连接层构成的神经网络,将视频特征图映射为通道维度等于类别数量的均匀分布类别激活序列。
自适应采样步骤,其中:将均匀分布类别激活序列中的每个点经过取反、权重调节操作后,视作特征图中对应区域的采样概率,利用该概率在特征图上产生伯努利数列,作为自适应重采样位置索引。
重采样特征结合步骤,其中:利用自适应重采样位置索引,对视频特征图中对应区域在时序维度上进行特征采样,生成重采样特征图。
非均匀分布类别激活序列步骤,其中:利用卷积层和全连接层构成的神经网络模型,将视频的重采样特征图映射为通道维度等于类别数量的非均匀分布类别激活序列。
类别预测步骤,其中:利用全连接层构成的分类网络,对待检测视频进行类别预测。
时间分布对齐步骤,其中:将均匀时间分布的每个点映射到自适应采样步骤生成的非均匀时间分布中,找最近邻的上界和下界,从而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值,最终将非均匀分布的类别激活序列在时间维度均匀化,从而和均匀分布类别激活序列在时间分布上对齐。
类别激活序列相互监督步骤,其中:利用欧式距离构建位置度量损失函数,将均匀分布类别激活序列和经过时间分布对齐后的非均匀分布类别激活序列,在时间维度上相互充当位置伪标签监督,以此为模型提供显式的位置指引,继而缓解弱监督时序动作检测中的分类和检测任务的矛盾,从而促使两种类别激活序列在位置信息上相互辅助、相互约束,共同提升时间位置检测精确度。
检测结果生成步骤,其中:整体模型训练完成后,选择均匀分布类别激活序列步骤得到的均匀分布类别激活序列或者非均匀分布类别激活序列步骤得到的非均匀分布类别激活序列,使用阈值法得到检测结果。
具体地,视频特征图提取模块、均匀分布类别激活序列模块、自适应采样模块、重采样特征结合模块、非均匀分布类别激活序列模块、类别预测模块、时间分布对齐模块、类别激活序列相互监督模块、检测结果生成模块组成的弱监督视频时序动作检测网络框架如图2所示,整个系统框架能够端到端的进行训练。
在如图2所示的实施例的系统框架中,待检测视频输入视频特征图提取模块,输出待检测视频的视觉特征,视频特征图提取模块是由一系列3D卷积层(+batchnorm层+relu层)组成的下采样模块构成的,可以使用现有的网络结构,例如two-stream I3D,TSN,C3D等。待检测视频的视觉特征会输入均匀分布类别激活序列模块,被映射成维度是T*V的均匀分布类别激活序列,其中T是输入视频的时间长度,V表示数据集中所有动作类别数量。均匀分布类别激活序列模块是卷积层和全连接层构成的神经网络模型。
为了进一步挖掘被均匀分布类别激活序列遗漏的动作以及不完整的琐碎动作片段,如图2所示,将均匀分布类别激活序列输入自适应采样模块输出重采样位置索引。如图3所示,对均匀分布类别激活序列每个时间点的值进行取反、权重调节等操作后,作为视频视觉特征对应区域的采样概率,利用该概率在特征图上产生伯努利数列,作为自适应重采样位置索引。具体的通过取反、权重调节操作获取自适应采样概率的过程,如下所示:
W=max(M)-M+η(max(M)-min(M))
其中,W是自适应采样概率序列,M是均匀分布的类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值。
具体的基于自适应采样概率产生伯努利数列的过程,如下所示:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T
其中,T是输入视频的时间长度,i是时间维度的索引,wi是自适应采样概率序列在i位置上的值,bi是伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样。
如图3所示,在获得伯努利数列作为自适应重采样位置索引后,输入重采样特征结合模块,利用位置索引在视频特征图中对应时间维度上进行特征采样,生成重采样特征图。具体结合方式如下:
fi=xi·bi
其中xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量。
接着将重采样视频特征图输入非均匀分布类别激活序列模块,非均匀分布类别激活序列模块是卷积层和全连接层构成的神经网络模型。输出维度是T*V的非均匀分布类别激活序列,其中T是输入视频的时间长度,V表示数据集中所有动作类别数量。
获得均匀分布类别激活序列和非均匀分布类别激活序列之后,将它们输入类别预测模块,预测视频中包含的动作类别,产生如下损失函数:
Figure BDA0002490508270000171
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表视频和标签的分布,xi代表视频实例,yi是其类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
为了在相同的时间分布下比较均匀分布类别激活序列和非均匀分布类别激活序列,如图2所示,将非均匀分布类别激活序列输入时间分布对齐模块。将均匀时间分布的每个点映射到非均匀时间分布中,找最近邻的上界和下界,并利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值,将非均匀时间分布的类别激活序列在时间维度上均匀化。具体计算过程如下:
首先获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure BDA0002490508270000172
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000173
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure BDA0002490508270000174
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure BDA0002490508270000175
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000176
是ti在非均匀分布类别激活序列中的最近邻上界位置。
然后依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure BDA0002490508270000181
其中,ti表示第i个均匀分布的时间点,
Figure BDA0002490508270000182
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure BDA0002490508270000183
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure BDA0002490508270000184
Figure BDA0002490508270000185
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果。
为了缓解弱监督时序动作检测中分类和检测的矛盾,同时将均匀分布类别激活序列和非均匀分布类别激活序列所包含的位置信息进行融合,充当互相的位置伪标签监督信息,从而共同提升时间位置检测精确度。如图2所示,将均匀分布的类别激活序列和经过对齐后的非均匀分布的类别激活序列输入类别激活序列相互监督模块,基于欧式距离设计位置上的相互监督损失函数,使得两个类别激活序列作为相互的位置伪标签,为模型提供显式的位置监督信息。具体目标函数如下:
Figure BDA0002490508270000186
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐操作/模块。
在整体模型训练完成后,选择均匀分布类别激活序列步骤得到的均匀分布类别激活序列或者非均匀分布类别激活序列步骤得到的非均匀分布类别激活序列,输入检测结果生成模块,该模块使用阈值法作用于类别激活序列上,高于该阈值的区域构成最终的检测结果。
综上,本发明基于原始视频的均匀分布类别激活序列,进行自适应采样,从而在时间维度上压缩或者拉伸原始视频特征,构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大,对原始视频特征中的显著信息进行压缩,从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作;在类别激活映射序列相互监督中的位置损失函数的约束下,非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充,不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制,这两种激活序列相互辅助,相互约束,共同提升弱监督时序动作检测的性能;除此之外,本发明考虑了弱监督任务中分类和检测的固有矛盾,通过构建类别激活映射序列相互监督,使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签,从而为整个模型提供类别和位置两种监督信息,一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。最后,本发明将视频的自适应采样视为噪声,重采样的视频特征视为受噪声影响的输入特征。通过类别激活映射序列相互监督中的位置损失函数的约束,噪声的影响被去除,因此本发明还可有效增强模型系统对噪声的鲁棒性。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于自适应采样的弱监督时序动作检测方法,其特征在于,包括:
视频特征图提取步骤:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;
均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列;
自适应采样步骤:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合步骤:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列步骤:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列;
类别预测步骤:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐步骤:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督步骤:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为弱监督时序动作检测提供显式的位置监督信息;
检测结果生成步骤:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
2.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述均匀分布类别激活序列步骤包括:
利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量。
3.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述自适应采样步骤包括:对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))   (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T    (2)
其中,T表示输入视频的时间长度,i表示时间维度的索引,wi表示自适应采样概率序列在i位置上的值,bi表示伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样。
4.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述重采样特征结合步骤包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi    (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量。
5.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述非均匀分布类别激活序列步骤包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示数据集中所有动作类别数量。
6.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述时间分布对齐步骤包括:
时间分布对齐步骤M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure FDA0002490508260000021
其中,ti表示第i个均匀分布的时间点,
Figure FDA0002490508260000022
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure FDA0002490508260000023
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure FDA0002490508260000024
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure FDA0002490508260000025
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐步骤M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure FDA0002490508260000031
其中,ti表示第i个均匀分布的时间点,
Figure FDA0002490508260000032
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure FDA0002490508260000033
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure FDA0002490508260000034
Figure FDA0002490508260000035
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果。
7.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述类别激活序列相互监督步骤包括:
将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签,使用欧式距离构建位置损失函数,为弱监督时序动作检测模型提供显式的位置监督,位置损失函数公式如下:
Figure FDA0002490508260000036
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表输入视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐函数。
8.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法,其特征在于,所述类别预测步骤包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数收敛;
所述损失函数,计算公式如下:
Figure FDA0002490508260000037
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表视频和标签的分布,xi代表视频实例,yi是视频类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
9.一种基于自适应采样的弱监督时序动作检测系统,其特征在于,包括:
视频特征图提取模块:对输入的视频,使用3D深度卷积神经网络提取预设维度的视频特征图;
均匀分布类别激活序列模块:使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列;
自适应采样模块:对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列,并基于采样概率序列在视频特征图上产生伯努利数列,伯努利数列作为自适应重采样位置索引;
重采样特征结合模块:使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样,得到视频重采样特征图;
非均匀分布类别激活序列模块:使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列;
类别预测模块:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率;
时间分布对齐模块:对非均匀分布类别激活序列在时间维度上进行分布均匀化,从而和均匀分布类别激活序列在时间分布上对齐;
类别激活序列相互监督模块:将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签,使用欧式距离作为损失函数为弱监督时序动作检测提供显式的位置监督信息;
检测结果生成模块:选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列,使用阈值法得到视频中包含的动作位置的检测结果。
10.根据权利要求9所述的基于自适应采样的弱监督时序动作检测系统,其特征在于,所述均匀分布类别激活序列模块包括:
利用卷积层和全连接层构成的神经网络模型,将视频特征图映射为维度是T*V的均匀分布类别激活序列,其中,T表示输入视频的时间长度,V表示视频数据集中所有动作类别数量;
所述自适应采样模块包括:对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列,公式如下:
W=max(M)-M+η(max(M)-min(M))    (1)
其中,W是自适应采样概率序列,M是均匀分布类别激活序列,η是权重调节因子,max(·)是时间维度上的最大值,min(·)是时间维度上的最小值;
基于自适应采样概率序列,产生一个伯努利数列bi作为自适应重采样位置索引:
P(bi=k)=wi k(1-wi)1-k,k=0 or 1,i=1,...,T(2)
其中,T表示输入视频的时间长度,i表示时间维度的索引,wi表示自适应采样概率序列在i位置上的值,bi表示伯努利数列在i位置上的采样,P(bi=k)表示随机事件bi=k发生的概率,二值k表示是否采样;
所述重采样特征结合模块包括:对自适应重采样位置索引和视频特征图进行点乘结合,得到视频重采样特征图;
对自适应重采样位置索引bi和对应位置的视频特征向量xi对应位置作乘法,得到的结果fi,公式如下:
fi=xi·bi    (3)
其中,xi为视频特征图在i时间位置上的向量,bi为i时间位置的自适应重采样位置索引,fi为重采样特征图在i位置上的向量;
所述非均匀分布类别激活序列模块包括:利用卷积层和全连接层构成的神经网络模型,将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列,其中,T是输入视频的时间长度,V表示数据集中所有动作类别数量;
所述时间分布对齐模块包括:
时间分布对齐模块M1:获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界:
Figure FDA0002490508260000051
其中,ti表示第i个均匀分布的时间点,
Figure FDA0002490508260000052
表示在非均匀分布类别激活序列中取最近邻下界操作,
Figure FDA0002490508260000053
表示在非均匀分布类别激活序列中取最近邻上界操作,
Figure FDA0002490508260000054
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure FDA0002490508260000055
是ti在非均匀分布类别激活序列中的最近邻上界位置;
时间分布对齐模块M2:依据最近邻上下界的值进行线性插值,从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列:
Figure FDA0002490508260000056
其中,ti表示第i个均匀分布的时间点,
Figure FDA0002490508260000057
是ti在非均匀分布类别激活序列中的最近邻下界位置,
Figure FDA0002490508260000058
是ti在非均匀分布类别激活序列中的最近邻上界位置,M表示非均匀分布的类别激活序列值,I表示以
Figure FDA0002490508260000059
Figure FDA00024905082600000510
为边界来获取ti处的值的线性插值函数,Ki表示非均匀类别激活序列经过均匀化变换后的结果;
所述类别激活序列相互监督模块包括:
将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签,使用欧式距离构建位置损失函数,为弱监督时序动作检测模型提供显式的位置监督,位置损失函数公式如下:
Figure FDA0002490508260000061
其中,θE是特征提取网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,Xs代表输入视频的分布,xi代表视频实例,fi代表重采样视频特征,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,A代表时间分布对齐函数;
所述类别预测模块包括:对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率,根据各个类别的概率与输入视频类别标签计算损失函数,训练分类网络,直至损失函数收敛;
所述损失函数,计算公式如下:
Figure FDA0002490508260000062
其中,θE是特征提取网络的参数,θC是类别预测网络的参数,θD是均匀分布或非均匀分布类别激活序列映射网络的参数,(Xs,Ys)代表视频和标签的分布,xi代表视频实例,yi是视频类别标签,E代表特征提取网络,D代表均匀分布或非均匀分布类别激活序列映射网络,C代表类别预测网络,H代表交叉熵函数。
CN202010403823.4A 2020-05-13 2020-05-13 一种基于自适应采样的弱监督时序动作检测方法及系统 Active CN111652083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010403823.4A CN111652083B (zh) 2020-05-13 2020-05-13 一种基于自适应采样的弱监督时序动作检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010403823.4A CN111652083B (zh) 2020-05-13 2020-05-13 一种基于自适应采样的弱监督时序动作检测方法及系统

Publications (2)

Publication Number Publication Date
CN111652083A CN111652083A (zh) 2020-09-11
CN111652083B true CN111652083B (zh) 2023-04-18

Family

ID=72346239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010403823.4A Active CN111652083B (zh) 2020-05-13 2020-05-13 一种基于自适应采样的弱监督时序动作检测方法及系统

Country Status (1)

Country Link
CN (1) CN111652083B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487027B (zh) * 2021-07-08 2023-09-22 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN111080678A (zh) * 2019-12-31 2020-04-28 重庆大学 一种基于深度学习的多时相sar图像变化检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042888A1 (en) * 2017-08-02 2019-02-07 Preferred Networks, Inc. Training method, training apparatus, region classifier, and non-transitory computer readable medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111080678A (zh) * 2019-12-31 2020-04-28 重庆大学 一种基于深度学习的多时相sar图像变化检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shiqi Peng等.Weakly supervised segmentation of vertebral bodies with iterative slice-propagation.Domain Adaptation and Representation Transfer and Medical Image Learning with Less Labels and Imperfect Data.2020,120-128. *
靳栀艳等.H.264 High Profile的帧内预测模式快速判决算法研究.电视技术.2012,第36卷(第21期),8-11. *

Also Published As

Publication number Publication date
CN111652083A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN112016547A (zh) 基于深度学习的图像文字识别方法、系统及介质
CN112989977B (zh) 一种基于跨模态注意力机制的视听事件定位方法及装置
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN112115879B (zh) 一种遮挡敏感的自监督行人重识别方法及系统
CN111368636A (zh) 目标分类方法、装置、计算机设备和存储介质
CN112884147B (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN112419268A (zh) 一种输电线路图像缺陷检测方法、装置、设备及介质
CN111652083B (zh) 一种基于自适应采样的弱监督时序动作检测方法及系统
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
KR20220064604A (ko) 기온예측시스템
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN112884866B (zh) 一种黑白视频的上色方法、装置、设备及存储介质
CN112016403B (zh) 一种视频异常事件检测方法
CN114418111A (zh) 标签预测模型训练及样本筛选方法、装置、存储介质
CN114973268A (zh) 文本识别方法、装置、存储介质及电子设备
CN114863249A (zh) 基于运动特征和外观特征的视频目标检测及域适应方法
CN110348509B (zh) 数据增广参数的调整方法、装置、设备及存储介质
CN113935466A (zh) 数据中心智能巡检机器人多任务学习方法
CN112948251A (zh) 软件自动测试方法及装置
CN111259775B (zh) 约束时域关系的视频动作定位方法和系统
CN117710755B (zh) 一种基于深度学习的车辆属性识别系统及方法
CN113283394B (zh) 一种融合上下文信息的行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant