CN113283282A - 一种基于时域语义特征的弱监督时序动作检测方法 - Google Patents

一种基于时域语义特征的弱监督时序动作检测方法 Download PDF

Info

Publication number
CN113283282A
CN113283282A CN202110262515.9A CN202110262515A CN113283282A CN 113283282 A CN113283282 A CN 113283282A CN 202110262515 A CN202110262515 A CN 202110262515A CN 113283282 A CN113283282 A CN 113283282A
Authority
CN
China
Prior art keywords
video
score
attention
segment
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110262515.9A
Other languages
English (en)
Other versions
CN113283282B (zh
Inventor
孔德慧
许梦文
王少帆
李敬华
王立春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110262515.9A priority Critical patent/CN113283282B/zh
Publication of CN113283282A publication Critical patent/CN113283282A/zh
Application granted granted Critical
Publication of CN113283282B publication Critical patent/CN113283282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于时域语义特征的弱监督时序动作检测方法属于计算机视觉视频领域,弱监督时序动作检测任务是在仅依靠视频级别标签的情况下,对未修剪的长视频中的每一段动作进行时序上的定位和分类。目前的方法还是将时序动作检测任务视为动作识别的变体任务,他们着重在模型的特征提取、提名生成、分类器训练等方面做研究,却忽视了该任务视频本身的时域语义特征。本发明首先归纳了长视频时域语义特征:动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等,并基于此设计一种新的网络模型来提升视频分类和时序定位的精度。本发明性能超过了目前的先进方法。

Description

一种基于时域语义特征的弱监督时序动作检测方法
技术领域
本发明属于计算机视觉视频理解技术领域,具体是弱监督时序动作检测 方法。
背景技术
视频理解是计算机视觉领域的一项十分重要的任务。近年来随着人工智 能领域的发展,涌现出众多视频理解的方法和技术,目前主流的视频理解任 务可以分为视频动作识别和视频时序动作检测两种。其中,动作识别是对预 先分割好的短视频进行行为分类,训练数据的视频只包含一个动作。然而现 实中的视频通常是未分割的长视频,而且包含多尺度、多类别动作片段和无 关背景片段,比如监控视频、比赛视频等。针对这种长视频进行分析和理解, 不仅需要对动作分类,还要对每一段动作进行时间维度上的定位。时序动作检测任务就是输入一段未分割的视频,输出该视频所包含的动作类别,并且 定位所包含动作的开始和结束时间。全监督时序动作检测需要视频中每一帧 的标注信息,需要大量的人力物力,而且标注的标准也会受到个人的主观影 响。所以目前大量研究均基于弱监督学习框架,即视频只含有动作类别的标 注,没有时间的标注信息。这将大大减小视频分析成本,提高视频分析的安 全性和可靠性,所以弱监督时序动作检测是一个研究热点。
对于一个给定的视频,希望预测一组动作实例{cj,sj,ej,qj},其中cj表示预 测的动作类,sj,ej表示实例的开始时间和结束时间,qj表示实例的置信度得分。 所以时序动作检测任务是包含动作分类和动作时序定位的综合任务,难度远 大于动作识别任务。主要原因是由于未分割长视频本身的复杂性。未分割的 长视频比如监控视频,整体时间跨度大,真实动作占有时间短,而且由于光 照原因,相同动作不同视频的纹理特征相差较大,动作片段与相邻的背景片 段很相似,难以精确定位动作时间。这些特点给时序动作检测增加了独有的 复杂性和难度。而弱监督时序动作检测相比于全监督时序动作检测缺少了动 作时间的标注信息,标签数据提供的信息太少,不能直接有效地训练网络模 型,这使得动作片段与相邻的背景片段更加难以区分。
弱监督时序动作检测通常依靠分类器来实现,一般可分为从局部到全局 和从全局到局部的计算过程。从局部到全局的方法最先发展,该方法将视频 分成小片段,先分类小片段的类别,再将小片段的类别分数融合为视频类别 分数,最后依据视频的类别回溯到片段分数进行定位操作。从全局到局部的 方法把整个视频的特征融合在一起,直接对视频分类,定位时再使用视频分 类器对片段特征分类,根据分类分数进行定位。最近基于注意力机制、背景 类建模的方法实现最新性能。这类方法在数据集标注信息不全的情况下也能够定位动作,但是由于该任务本身固有的特点,标签提供的信息太少,视频 动作片段与相邻的背景片段特征高度相似,单纯的注意力机制得到的结果无 法保证其准确性性,更难以做到精确时序定位。总的来讲,目前的方法还是 将时序动作检测任务视为动作识别的变体任务,他们着重在模型的特征提取、 提名生成、分类器训练等方面做研究,却忽视了该任务视频本身的时域语义 特征,比如长视频中动作的占有时间很少即动作片段在时序上具有稀疏性、 视频相邻帧之间在语义特征空间上具有很大的相关性等等。
发明内容
本发明针对弱监督学习框架下的少标签数据,如何进行表征学习,或者 如何从数据本身出发设计有效的辅助任务问题,归纳了基于长视频时域语义 特征:动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而 距离较远的片段间语义特征具有差异性等,并设计一种新的网络模型来提升 视频分类和时序定位的精度。
本发明提出一种基于时域语义特征的弱监督时序动作检测方法,对未分 割的长视频进行动作识别与定位相应动作的开始和结束时间。的网络结构如 图1所示,主要分为特征提取模块、基础分类网络、基于正则项约束的时序 注意力-滤波模块和基于时域语义特征构造的辅助任务模块分别对应图1中的 彩色阴影部分。首先,特征提取模块将输入视频分为多个不重合的片段,并 获取每个片段的RGB特征和光流特征。然后,将RGB特征和光流特征输入到 基础分类网络和时序注意力-滤波网络。在基础分类网络中,特征经过嵌入、分类得到片段级别的的类别分数,经过后处理得到视频级别的分数。在基于 时序注意力-滤波网络,特征经过注意力-滤波卷积网络得到每个片段的注意 力分数,并根据动作在时序上的稀疏性做正则项约束,再将片段的注意力分 数与基础分类模块中片段类别分数相乘得到新的片段类别分数,经过同样的 后处理过程得到视频级别的类别分数。其次,将片段级别的分类分数作为伪 标签,并依据相邻片段时域语义的相关性,以最大化类内片段特征的相似度 为辅助任务。在训练中,先对基础分类网络和基于时序特征的注意力-滤波网络进行训练,然后再加入辅助任务模块协同训练。在测试中,只采用基于时 序注意力-滤波分支的分数进行分类定位。
1.基础模型介绍
为了应对视频长度的较大变化,从每个视频划分好的片段序列中采样固 定数量的T段视频。接着对视频片段提取出RGB和光流特征,视频Vi(表示数 据集的第i个视频)采样后的片段序列集合可以表示为
Figure BDA0002969065820000031
其中,
Figure BDA0002969065820000032
表示视频Vi中第j个视频片段的特征,d是每段视频的特征维度。使用 I3D网络作为特征提取网络,它在Kinetics数据集上进行了预训练。
基础分类模块。使用卷积和残差网络构造特征嵌入模块。特征嵌入模块 的输入是I3D特征,视频Vi嵌入特征可以表示为
Figure BDA0002969065820000033
其 中fembed(.)是嵌入模块。接着,使用分类器对视频片段分类,得到每个片段 关于每个类别的置信分数,共有T*(C+1)个置信分数,视频Vi的片段类别分 数
Figure BDA0002969065820000034
其中fc(.)是分类函数,
Figure BDA0002969065820000035
表示第i个视频的 第j个片段关于每个类别的分数,T是采样后的视频片段数目,C+1是数据集 的类别数加上背景类的总数目。采用top_k的计算方法把片段级别的类别分数 融合为视频级别的分数。视频Vi包含动作类c的分数可以表示为公式(1):
Figure BDA0002969065820000036
Figure BDA0002969065820000041
其中,
Figure BDA0002969065820000042
是将视频片段关于类别C的置信分数取出,
Figure BDA0002969065820000043
找出最大的前k个置信分数,
Figure BDA0002969065820000044
对最大的前k个置信分 数求均值作为视频Vi包含动作类c的置信分数。k是一个根据视频长度设置的一 个超参数,
Figure BDA0002969065820000045
是一个标量表示视频i包含动作类别c的置信分数。在类别维度 应用softmax函数得到视频关于每个类别的softmax分数
Figure BDA0002969065820000046
注意力模块。虽然相邻的背景片段和动作片段的RGB特征很相似,但是 动作片段中有大幅度人体动作,所以两者的光流特征有一定的区别。本发明 使用时序注意力模块计算视频片段的重要性(即含动作的概率分数)。注意力 模块输入是I3D特征,输出每个视频片段是动作片段的概率分数:
Figure BDA0002969065820000047
其中,Xi是视频Vi的输入特征,fatt(.)是注意力函数,T是视频片段的数 目,
Figure BDA0002969065820000048
是视频Vi每个片段的注意力分数,是一个T维向量,
Figure BDA0002969065820000049
表示视频Vi第 t个视频片段是动作片段的分数。将注意力分数和基础网络的分数按片段维度 相乘,得到一种新的预测分数(背景类分数很低),
Figure BDA00029690658200000410
Figure BDA00029690658200000411
表示视频i第j个视频片段关于类别的分数,T是视频的采样后的片 段数,C+1是数据集的类别数加上背景类的总数目。如同基础分类模块计算 视频级别的类别分数一样,基于注意力的分类分数同样使用top_k的方法来获 得视频的类别分数。基于注意力方法计算的视频i包含动作类c的分数可以表示 为:
Figure BDA00029690658200000412
其中,在类别维度应用softmax函数得到视频关于每个类别的softmax 分数
Figure BDA00029690658200000413
有C+1个维度,表示视频i包含C+1个动作类别的概率分 数。
2.基于正则项约束的注意力滤波模块
通过观察可以发现长视频一般具有以下时域语义特征:(1)动作发生时 间在整个视频时间长度中占有率很低,即时序上的稀疏性;(2)基于视频的 连贯性,视频相邻帧之间的语义特征有很大的相关性。
考虑到以上视频时域语义特征,单纯的注意力网络并不会得到较好的提 升,所以做了以下改进。首先,利用相邻片段之间的语义特征的相关性,使 用滤波算法平滑公式(2)的注意力分数,具体操作如下,输入特征不变,对输 出的片段注意力分数添加滤波操作,视频Vi的注意力分数滤波后得到Ai
Figure BDA0002969065820000051
其中,Xi是视频的输入特征,fFilter°att(.)是时序注意力-滤波函数,T是 视频片段的数目,Ai,t表示视频Vi第t个视频片段是动作片段的分数。然后,基 于视频时序特征(动作片段的稀疏性)添加注意力分数的正则项约束。关于 正则项约束,采用L1正则化损失来约束注意力分数之和足够小以保证动作片 段的稀疏性,如公式(4)。
Figure BDA0002969065820000052
本发明采用基于视频时序特征的注意力-滤波模块,在视频时序序列上寻 找视频的关键片段,根据视频时序上动作占有时间短的特点使用正则化项约 束动作片段的稀疏性,根据视频时域语义特征的连贯性使用滤波操作保证相 邻片段分数的平滑性。更新后的注意力分数的后续计算与基础模型一样。
3.基于视频时域语义特征构造的辅助任务模块
视频本身的帧与帧之间是有连贯性的,也就是视频在时域上相邻帧之间 的语义特征有很大的相关性。利用数据本身的语义特征构造辅助任务,在其 他领域已有了很多做法。例如,在图像分类任务中有很多基于自身信息的方 法,以旋转、色彩、裁剪变换等扩充数据。同样的,对于视频数据也有着天 然的时序信息,视频在时域中相邻帧的语义特征具有相似性,相距较远的帧 之间的语义特征不相似,可以通过这种相似与不相似构造辅助任务,即最大 化距离近的视频片段对之间的特征相似度。
根据视频时域语义特征的相似性这个特点,以最大化相邻帧之间的嵌入 特征相似度作为辅助任务,来提高网络对更高级特征的挖掘。但是背景帧与 动作帧是紧密相邻的,而且它们之间的特征本身就很相似,如果只是约束相 邻帧之间特征相似度最大化会导致背景帧与动作帧难以区分开,会使得分类 分数在时间维度过于平滑。这么做只能提高分类性能,而降低动作定位的性 能。考虑到这个问题,将基于注意力部分预测出来的片段级类别分数gA作为 伪标签,同时考虑时域上距离近、伪标签类别相同的前提下,最大化视频片 段之间的嵌入特征相似度。
具体做法如图2,对于视频Vi来说,首先求出视频片段属于哪个动作类别 并以此作为伪标签,根据伪标签将视频片段的嵌入特征放到相应的集合Mi.c中, 其中集合
Figure BDA0002969065820000061
表示在视频i中伪标签是动作类别c的 片段嵌入特征集合,maxindex(.)求向量最大值对应的下标函数。图2对于一 个视频包含多段相同类别的片段也放入一个集合中,比如图2中的集合Mi.1。 接着将集合Mi,c内相邻片段组为相似对{<zj,zk>||j-k|=1,zk,zj∈Mi,c}。 图2中的箭头连接的是一个相似对,注意图中同属于Mi.1的A,B片段并不是相 似对,因为他们之间的间隔距离太大。最后,再求集合内相似对的相似度的 平均值:
Figure BDA0002969065820000062
其中,C为类别数目,similarity(.)相似度函数是对集合内的相似对求相 似度再平均的函数。
4.模型训练与测试
在训练过程中,只使用视频的类别标签,视频中可能不止一个动作类, 使用视频分类分数和示例的交叉熵即标准的多示例学习MIL损失。将基础网络 的分类计算的视频分数和基于注意力计算的视频分类分数分别与示例做交叉 熵损失:
Figure BDA0002969065820000071
Figure BDA0002969065820000072
LB是基础网络的视频分类分数和示例计算出的损失,LA是基于注意力计 算的的视频分类分数和示例计算出的损失。其中,N表示一批数据的总个数, C表示数据集的动作类别总数目。
Figure BDA0002969065820000073
表示视频n添加 背景类后的标签,每个视频都会包含背景类,所以令yi;(c+1)=1。
Figure BDA0002969065820000074
表示视 频i包含类别c的概率分数。不同的是,的注意力分数对于包含动作的片段可以 得到高分数,对于背景片段得到低分数。所以拿基于注意力的预测分数和不 包含背景类的标签作比较,
Figure BDA0002969065820000075
表示视频Vi添加背景 类后的标签。注意,由于注意力后的背景类分数很低甚至为0,所以令yi;(c+1)=0。
总体训练分为两部分,首先联合训练主干部分和基于时序注意力的部分, 需要优化的损失函数如下:
L1=LA1LB1Lnorm (8)
其中,β11是超参数。在训练一定次数后,加入辅助任务部分,需要优 化的损失函数如下:
L2=LA2LB2Lnorm+θLS (9)
在测试部分,使用基于时序注意力预测部分的分类分数。首先是分类, 根据已经获得的视频级别的分类分数
Figure BDA0002969065820000076
设定类别阈值μclass,只考虑大于类 别阈值的动作类别。再设定分段阈值μseg,来选择候选片段,将连续的候选片 段组成一个提名。这些阈值超参设置与大多数工作一致,最后使用最近工作, 使用内部和外部区域之间的对比来计算每个提名的置信度得分。
附图说明
图1主要网络结构
图2是本发明具体实施方式。
具体实施方式
本发明采用THUMOS14数据集和ActivityNet V1.2数据集进行实验。 THUMOS14数据集包含200个验证集视频(包含3007个行为片段)和213个测 试集视频(包含3358个行为片段),共20种类别。这些经过标注的未分割视 频可以被用于训练和测试时序行为检测模型。ActivityNet V1.2涵盖100个 动作类别,训练和验证集中分别有4819和2383个视频。分别使用训练集和 验证集进行训练和测试。因为是弱监督框架下的方法,只使用视频的视频级 标签进行训练。
评估指标。遵循时序动作定位的评估标准协议,在不同的交集-并集(IOU) 阈值下,用平均精度(MAP)对的方法进行了评估。使用ActivityNet提供的评 估代码进行实验。
实验设置。在的实验中,使用TVL1算法来生成片段光流,而且I3D特征 提取网络未进行微调以进行公平比较。
THUMOS14的实验设置。将视频输入片段数目T固定为750,即从每个视频 中采样T个片段。在训练中使用分段随机扰动采样,在测试过程中采用均匀采 样,与STPN相同。在第一次训练超参数设置如下:β1=1.0,γ1=5×10-5,k= 8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS) 的阈值设置为0.7以删除高度重叠的提案。第一次训练迭代40次,保留平均 精度(MAP)分数最好的的网络模型。接着在第一次的训练基础上,加入辅助任 务一起训练。第二次超参数设置如下:β2=2.0,γ2=5×10-5,θ=0.03,k= 8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS) 的阈值设置为0.7以删除高度重叠的提案。在训练过程中采用批量化训练,batchsize=16。
ActivityNet V1.2的实验设置。将视频输入片段数目T固定为50,即从 每个视频中采样T个片段。在训练中使用分段随机扰动采样,在测试过程中采 用均匀采样,与STPN相同。在第一次训练超参数设置如下:β1=5.0,γ1=8× 10-5,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025。非最大 抑制(NMS)的阈值设置为0.7以删除高度重叠的提案。第一次训练迭代50 次,保留平均精度(MAP)分数最好的的网络模型。接着在第一次的训练基础上, 加入辅助任务一起训练。第二次超参数设置如下:β2=5.0,γ2=8×10-5,θ=0.005,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025。非最 大抑制(NMS)的阈值设置为0.7以删除高度重叠的提案。在训练过程中采用 批量化训练,batchsize=128。
在测试部分,使用基于时序注意力预测部分的分类分数。首先是分类, 根据已经获得的视频级别的分类分数
Figure BDA0002969065820000091
设定类别阈值μclass,只考虑大于类 别阈值的动作类别。再设定分段阈值μseg,来选择候选片段,将连续的候选片 段组成一个动作提名。这些阈值超参设置与大多数工作一致,得到的每一个 动作提名可以表示为s(ts,te,c),其中,ts表示提名的开始时间,te表示提名的 结束时间,c表示提名的类别。通过Autoloc的方法可以计算提名的最终分数 s*(ts,te,c)。
Figure BDA0002969065820000092
其中τ是公式中的参数。
将模型的性能分数与最先进的弱监督方法进行了比较。表1和表2分别 表示在THUMOS’14和ActivityNet1.2数据集上的比较结果。其中的水平线 表示原论文未公布的结果。
消融实验。在THUMOS14数据集上做消融实验来测试网络不同组件的贡 献,如表3所示。使用基础模型作为baseline,改进添加正则项约束-滤波用 RF表示,辅助任务模块用P-C表示,结果表示的两个模块改进对时序动作检 测性能都有很大的增益。
表1 THUMOS14数据集上与最新的时序动作检测方法在不同的IoU上的比 较。
Figure BDA0002969065820000101
表2 ActivityNet v1.2验证集上与弱监督时序动作检测方法的比较,平 均值表示IoU阈值为0.5:0.05:0.95的平均mAP。
Figure BDA0002969065820000102
表3:测试各个模块对动作检测性能的影响,其中基础模型用Baseline 表示,改进添加的正则项和滤波用RF表示,基于伪标签上下文构造的辅助任务 模块用P-C表示。
Figure BDA0002969065820000111

Claims (3)

1.一种基于时域语义特征的弱监督时序动作检测方法,其特征在于:系统分为特征提取模块、基础分类网络、基于正则项约束的时序注意力-滤波模块和基于时域语义特征构造的辅助任务模块分别;首先,特征提取模块将输入视频分为多个不重合的片段,并获取每个片段的RGB特征和光流特征;然后,将RGB特征和光流特征输入到基础分类网络和时序注意力-滤波网络;在基础分类网络中,特征经过嵌入、分类得到片段级别的的类别分数,经过后处理得到视频级别的分数;在基于时序注意力-滤波网络,特征经过注意力-滤波卷积网络得到每个片段的注意力分数,并根据动作在时序上的稀疏性做正则项约束,再将片段的注意力分数与基础分类模块中片段类别分数相乘得到新的片段类别分数,经过同样的后处理过程得到视频级别的类别分数;其次,将片段级别的分类分数作为伪标签,并依据相邻片段时域语义的相关性,以最大化类内片段特征的相似度为辅助任务;在训练中,先对基础分类网络和基于时序特征的注意力-滤波网络进行训练,然后再加入辅助任务模块协同训练;在测试中,只采用基于时序注意力-滤波分支的分数进行分类定位。
2.根据权利要求1所述的一种基于时域语义特征的弱监督时序动作检测方法,其特征在于,具体为:
从每个视频划分好的片段序列中采样固定数量的T段视频;接着对视频片段提取出RGB和光流特征,视频Vi采样后的片段序列集合表示为
Figure FDA0002969065810000011
其中,
Figure FDA0002969065810000012
表示视频Vi中第j个视频片段的特征,d是每段视频的特征维度;使用I3D网络作为特征提取网络,进行了预训练;
基础分类模块;使用卷积和残差网络构造特征嵌入模块;特征嵌入模块的输入是I3D特征,视频Vi嵌入特征表示为
Figure FDA0002969065810000013
其中fembed(.)是嵌入模块;接着,使用分类器对视频片段分类,得到每个片段关于每个类别的置信分数,共有T*(C+1)个置信分数,视频Vi的片段类别分数
Figure FDA0002969065810000014
其中fc(.)是分类函数,
Figure FDA0002969065810000015
表示第i个视频的第j个片段关于每个类别的分数,T是采样后的视频片段数目,C+1是数据集的类别数加上背景类的总数目;采用top_k的计算方法把片段级别的类别分数融合为视频级别的分数;视频Vi包含动作类c的分数表示为公式(1):
Figure FDA0002969065810000021
其中,
Figure FDA0002969065810000022
是将视频片段关于类别C的置信分数取出,
Figure FDA0002969065810000023
找出最大的前k个置信分数,
Figure FDA0002969065810000024
对最大的前k个置信分数求均值作为视频Vi包含动作类c的置信分数;k是一个根据视频长度设置的一个超参数,
Figure FDA0002969065810000025
是一个标量表示视频i包含动作类别c的置信分数;在类别维度应用softmax函数得到视频关于每个类别的softmax分数
Figure FDA0002969065810000026
注意力模块;使用时序注意力模块计算视频片段的重要性即含动作的概率分数;注意力模块输入是I3D特征,输出每个视频片段是动作片段的概率分数:
Figure FDA0002969065810000027
其中,Xi是视频Vi的输入特征,fatt(.)是注意力函数,T是视频片段的数目,
Figure FDA0002969065810000028
是视频Vi每个片段的注意力分数,是一个T维向量,
Figure FDA0002969065810000029
表示视频Vi第t个视频片段是动作片段的分数;将注意力分数和基础网络的分数按片段维度相乘,得到一种新的预测分数,
Figure FDA00029690658100000210
Figure FDA00029690658100000211
表示视频i第j个视频片段关于类别的分数,T是视频的采样后的片段数,C+1是数据集的类别数加上背景类的总数目;如同基础分类模块计算视频级别的类别分数一样,基于注意力的分类分数同样使用top_k的方法来获得视频的类别分数;
基于注意力方法计算的视频i包含动作类c的分数表示为:
Figure FDA00029690658100000212
其中,在类别维度应用softmax函数得到视频关于每个类别的softmax分数
Figure FDA00029690658100000213
Figure FDA00029690658100000214
有C+1个维度,表示视频i包含C+1个动作类别的概率分数;
基于正则项约束的注意力滤波模块
首先,利用相邻片段之间的语义特征的相关性,使用滤波算法平滑公式(2)的注意力分数,具体操作如下,输入特征不变,对输出的片段注意力分数添加滤波操作,视频Vi的注意力分数滤波后得到Ai
Figure FDA0002969065810000031
其中,Xi是视频的输入特征,
Figure FDA0002969065810000032
是时序注意力-滤波函数,T是视频片段的数目,Ai,t表示视频Vi第t个视频片段是动作片段的分数;然后,基于视频时序特征即动作片段的稀疏性添加注意力分数的正则项约束;关于正则项约束,采用L1正则化损失来约束注意力分数之和足够小以保证动作片段的稀疏性,如公式(4);
Figure FDA0002969065810000033
基于视频时域语义特征构造的辅助任务模块
将基于注意力部分预测出来的片段级类别分数gA作为伪标签,同时考虑时域上距离近、伪标签类别相同的前提下,最大化视频片段之间的嵌入特征相似度;
对于视频Vi来说,首先求出视频片段属于哪个动作类别并以此作为伪标签,根据伪标签将视频片段的嵌入特征放到相应的集合Mi.c中,其中集合
Figure FDA0002969065810000034
Figure FDA0002969065810000035
表示在视频i中伪标签是动作类别c的片段嵌入特征集合,maxindex(.)求向量最大值对应的下标函数;对于一个视频包含多段相同类别的片段也放入一个集合中;接着将集合Mi,c内相邻片段组为相似对{<zj,zk>||j-k|=1,zk,zj∈Mi,c};;最后,再求集合内相似对的相似度的平均值:
Figure FDA0002969065810000036
其中,C为类别数目,similarity(.)相似度函数是对集合内的相似对求相似度再平均的函数;
模型训练与测试
在训练过程中,只使用视频的类别标签,视频中可能不止一个动作类,使用视频分类分数和示例的交叉熵即标准的多示例学习MIL损失;将基础网络的分类计算的视频分数和基于注意力计算的视频分类分数分别与示例做交叉熵损失:
Figure FDA0002969065810000041
Figure FDA0002969065810000042
LB是基础网络的视频分类分数和示例计算出的损失,LA是基于注意力计算的的视频分类分数和示例计算出的损失;其中,N表示一批数据的总个数,C表示数据集的动作类别总数目;
Figure FDA0002969065810000043
表示视频n添加背景类后的标签,每个视频都会包含背景类,所以令yi;(c+1)=1;
Figure FDA0002969065810000044
表示视频i包含类别c的概率分数;不同的是,的注意力分数对于包含动作的片段得到高分数,对于背景片段得到低分数;所以拿基于注意力的预测分数和不包含背景类的标签作比较,
Figure FDA0002969065810000045
表示视频Vi添加背景类后的标签;注意,由于注意力后的背景类分数很低甚至为0,所以令yi;(c+1)=0;
总体训练分为两部分,首先联合训练主干部分和基于时序注意力的部分,需要优化的损失函数如下:
L1=LA1LB1Lnorm (8)
其中,β1,γ1是超参数;,需要优化的损失函数如下:
L2=LA2LB2Lnorm+θLS (9)
在测试部分,使用基于时序注意力预测部分的分类分数;首先是分类,根据已经获得的视频级别的分类分数
Figure FDA0002969065810000051
设定类别阈值μclass,只考虑大于类别阈值的动作类别;再设定分段阈值μseg,来选择候选片段,将连续的候选片段组成一个提名;最后使用最近工作,使用内部和外部区域之间的对比来计算每个提名的置信度得分。
3.根据权利要求1所述的一种基于时域语义特征的弱监督时序动作检测方法,其特征在于,THUMOS14的实验设置:将视频输入片段数目T固定为750,即从每个视频中采样T个片段;在训练中使用分段随机扰动采样,在测试过程中采用均匀采样;在第一次训练超参数设置如下:β1=1.0,γ1=5×10-5,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025;非最大抑制的阈值设置为0.7以删除高度重叠的提案;第一次训练迭代40次,保留平均精度分数最好的的网络模型;接着在第一次的训练基础上,加入辅助任务一起训练;第二次超参数设置如下:β2=2.0,γ2=5×10-5,θ=0.03,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025;非最大抑制的阈值设置为0.7;在训练过程中采用批量化训练,batchsize=16;
ActivityNet V1.2的实验设置:将视频输入片段数目T固定为50,即从每个视频中采样T个片段;在训练中使用分段随机扰动采样,在测试过程中采用均匀采样,与STPN相同;在第一次训练超参数设置如下:β1=5.0,γ1=8×10-5,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025;非最大抑制的阈值设置为0.7以删除高度重叠的提案;第一次训练迭代50次,保留平均精度分数最好的的网络模型;接着在第一次的训练基础上,加入辅助任务一起训练;第二次超参数设置如下:β2=5.0,γ2=8×10-5,θ=0.005,k=8,μclass=0.25,μseg使用一组0到0.5的阈值步长为0.025;非最大抑制的阈值设置为0.7以删除高度重叠的提案;在训练过程中采用批量化训练,batchsize=128。
CN202110262515.9A 2021-03-10 2021-03-10 一种基于时域语义特征的弱监督时序动作检测方法 Active CN113283282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262515.9A CN113283282B (zh) 2021-03-10 2021-03-10 一种基于时域语义特征的弱监督时序动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262515.9A CN113283282B (zh) 2021-03-10 2021-03-10 一种基于时域语义特征的弱监督时序动作检测方法

Publications (2)

Publication Number Publication Date
CN113283282A true CN113283282A (zh) 2021-08-20
CN113283282B CN113283282B (zh) 2024-05-28

Family

ID=77275886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262515.9A Active CN113283282B (zh) 2021-03-10 2021-03-10 一种基于时域语义特征的弱监督时序动作检测方法

Country Status (1)

Country Link
CN (1) CN113283282B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359790A (zh) * 2021-12-15 2022-04-15 青岛科技大学 基于弱监督学习的视频时序行为检测方法
CN114494941A (zh) * 2021-12-27 2022-05-13 天津大学 一种基于对比学习的弱监督时序动作定位方法
CN114519837A (zh) * 2022-02-21 2022-05-20 首都体育学院 一种基于三维卷积时空特征聚类的弱监督时序动作定位方法
CN114666571A (zh) * 2022-03-07 2022-06-24 中国科学院自动化研究所 视频敏感内容检测方法及系统
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188654A (zh) * 2019-05-27 2019-08-30 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188654A (zh) * 2019-05-27 2019-08-30 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN112116593A (zh) * 2020-08-06 2020-12-22 北京工业大学 一种基于基尼指数的领域自适应语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑宝玉;王雨;吴锦雯;周全;: "基于深度卷积神经网络的弱监督图像语义分割", 南京邮电大学学报(自然科学版), no. 05, 13 November 2018 (2018-11-13) *
韩利丽;孟朝晖;: "基于深度学习的视频语义分割综述", 计算机系统应用, no. 12, 15 December 2019 (2019-12-15) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359790A (zh) * 2021-12-15 2022-04-15 青岛科技大学 基于弱监督学习的视频时序行为检测方法
CN114494941A (zh) * 2021-12-27 2022-05-13 天津大学 一种基于对比学习的弱监督时序动作定位方法
CN114519837A (zh) * 2022-02-21 2022-05-20 首都体育学院 一种基于三维卷积时空特征聚类的弱监督时序动作定位方法
CN114666571A (zh) * 2022-03-07 2022-06-24 中国科学院自动化研究所 视频敏感内容检测方法及系统
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115080750B (zh) * 2022-08-16 2022-11-08 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统
CN116503959B (zh) * 2023-06-30 2023-09-08 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Also Published As

Publication number Publication date
CN113283282B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN113283282A (zh) 一种基于时域语义特征的弱监督时序动作检测方法
Stahl et al. Divide and count: Generic object counting by image divisions
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN110210335B (zh) 一种行人重识别学习模型的训练方法、系统和装置
CN113111947B (zh) 图像处理方法、装置和计算机可读存储介质
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN112990282A (zh) 一种细粒度小样本图像的分类方法及装置
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
CN115641529A (zh) 基于上下文建模与背景抑制的弱监督时序行为检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115862055A (zh) 基于对比学习和对抗训练的行人重识别方法及装置
Li et al. Progressive attention-based feature recovery with scribble supervision for saliency detection in optical remote sensing image
CN117152504A (zh) 一种空间相关性引导的原型蒸馏小样本分类方法
Bi et al. CASA-Net: a context-aware correlation convolutional network for scale-adaptive crack detection
CN115965978A (zh) 文字识别模型的无监督训练方法及相关设备
CN114842251A (zh) 图像分类模型的训练及图像处理方法、装置和计算设备
Xu et al. Meta-transfer learning for person re-identification in aerial imagery
Chauhan et al. Feature Extraction from Image Sensing (Remote): Image Segmentation
CN114495282B (zh) 视频动作检测方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant