CN110516536A - 一种基于时序类别激活图互补的弱监督视频行为检测方法 - Google Patents

一种基于时序类别激活图互补的弱监督视频行为检测方法 Download PDF

Info

Publication number
CN110516536A
CN110516536A CN201910630472.8A CN201910630472A CN110516536A CN 110516536 A CN110516536 A CN 110516536A CN 201910630472 A CN201910630472 A CN 201910630472A CN 110516536 A CN110516536 A CN 110516536A
Authority
CN
China
Prior art keywords
video
classification
feature
timing
activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910630472.8A
Other languages
English (en)
Other versions
CN110516536B (zh
Inventor
俞俊
朱素果
方振影
曾焕滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910630472.8A priority Critical patent/CN110516536B/zh
Publication of CN110516536A publication Critical patent/CN110516536A/zh
Application granted granted Critical
Publication of CN110516536B publication Critical patent/CN110516536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于时序类别激活图互补的弱监督视频行为检测方法。本发明步骤如下:1、对视频数据和视频的类别标注进行预处理,2、特征嵌入模块,来学习嵌入后的特征,3、在线生成时序类别激活图,4、生成时序类别激活图的互补激活图,5、生成检测结果,6、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种弱监督时序行为检测领域中在线生成时序类别激活图并基于此生成互补激活图的方法,以及在弱监督时序行为检测中更加适用的特征嵌入结构,并且获得了目前在弱监督时序行为检测领域中的较好效果,相比于原始的时序类别激活图的方法性能有了很大提升。

Description

一种基于时序类别激活图互补的弱监督视频行为检测方法
技术领域
本发明涉及一种针对弱监督视频行为检测(Weakly Supervised TemporalAction Detection,WSTAD)的深度神经网络,尤其涉及一种在线生成时序类别激活图的方法以及对学习时序类别激活图的补充区域进行建模表达。
背景技术
视频分析是计算机视觉领域的一个重要领域,主要是对于已有视频进行分析得到需要的内容。视频分析包含了很多热门的研究方向,如视频行为分类(ActionRecognition),视频描述(Video Caption),视频行为检测(Temporal Action Detection),弱监督视频行为检测(Weakly Supervised Temporal Action Detection)等。视频行为检测的目标是给一段长视频模型来检测出视频中发生的一个或多个行为的类别以及每个行为对应的开始时间和结束时间,视频行为检测的模型训练时输入为一个视频和它对应的行为类别和每个类别的起止时间。弱监督视频行为检测的目标在于训练数据仅仅包含输入视频中发生行为的类别,而没有这些行为对应的开始时间和结束时间,但是在模型预测时需要输出预测视频中发生的行为的类别以及每个类别对应的起止时间。
随着近年来深度学习的迅速发展,使用深度神经网络,如深度卷积神经网络(Convolutional Neural Networks,CNN)和深度循环神经网络(Recurrent NeuralNetworks,RNN)进行特征提取、问题建模成为目前计算机视觉方向上的主流研究方向。在弱监督视频行为检测算法中,引入深度卷积神经网络进行视频的时空特征提取,同时对提取得到的特征设计适当的网络结构进行建模,直接输出视频中发生的动作类别以及进一步的得到每个类别对应的起止时间是一个值得深入探索的研究问题。
在实际应用方面,弱监督视频行为检测算法具有非常广泛的应用场景。例如在视频网站的大量视频中,自动生成体育运动(足球比赛,篮球比赛等)中的精彩片段,检测商场监控视频中的异常行为,同时还能够为视频描述等任务提供更有效的视频数据。
综上所述,基于弱监督视频行为检测算法是一个值得深入研究的方向,本课题拟从该任务中几个关键的难点问题切入,解决目前方法存在的问题,并最终形成一套完整的视频行为检测系统。
由于自然场景下的视频内容复杂,且视频分辨率有高有低;这使得弱监督视频行为检测算法面临巨大的挑战。具体而言,主要存在如下三方面的难点:
(1)大部分对于视频的特征提取都是使用3D卷积直接提取时空特征,或者使用TVL-1算法抽取出视频中的光流,使用光流提取视频的时序信息同时使用视频的图像帧提取视频的空间信息。但是这些方法使用的特征提取器一般是使用在视频识别数据集上预训练的深度卷积神经网络,对于弱监督行为检测任务来说,这种提取到的特征并不一定是最好的。所以如何得到更加适用于弱监督行为检测任务的视频特征是对弱监督视频行为检测算法性能影响的重要因素。
(2)如何在训练时直接生成针对视频的类别激活图:弱监督的视频行为检测由于训练数据中没有行为的开始时间和结束时间的标注,因此一般使用时序类别激活图,然后再激活图上使用阈值方法来得到行为片段,一般的方法是使用最后一个分类层的每一个类别对应的权重去乘以分类之前的特征,之后将对应相乘之后得到的结果相加得到针对该类别的时序类别激活图。这种方法存在的缺点是,必须先将模型训练好,然后使用分类层的权重来得到结果。那么,如果可以在训练的同时生成时序类别激活图,则可以针对生成的激活图进行进一步的优化,以得到更加精确的结果。
(3)由于时序类别激活图是在对于整个视频进行分类的过程中得到的,那么时序类别激活图可能只对要检测的整个行为片段中的一部分帧有高的响应值,如何使得另外一部分帧的响应值提高以使得弱监督视频行为检测的结果更加精确也是影响算法结果性能的至关重要的环节。
本发明提出了一种针对弱监督视频行为检测任务的深度神经网络架构,以解决如上三个难点问题。1.提出一种特征嵌入模块以使得使用视频分类模型提取的特征更加适用于弱监督视频行为检测任务;2.提出了一种可以在训练过程中直接生成时序类别激活图的方法;3.基于在训练过程中生成的时序类别激活图,提出了一个互补的深度卷积神经网络来学习实际行为片段中在时序类别激活图中响应较低的区域。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于时序类别激活图互补的弱监督视频行为检测方法。
本发明解决其技术问题所采用的技术方案如下:
首先给定视频数据v,视频中出现的行为类别a,构成二元组v,a作为训练集。具体实现步骤如下:
步骤(1)、数据预处理,对视频数据v使用现有的经典的抽取视频时空特征的网络结构提取时空特征;
视频数据v预处理:
首先抽取所有视频数据v对应的图像帧和光流;其次使用预训练的特征提取网络分别提取图像帧和光流所对应的特征。
行为类别a预处理:
每个视频可能包含多个类别,假设有n个类别,首先将视频中出现的行为类别转换成答案字典中的索引值,最后转换为一个n维编码的答案向量。
先将所有视频以25FPS抽取图像帧,同时使用TVL-1算法抽取视频的光流,对于抽取好的图像帧和光流,使用基于Kinetics数据集预训练的I3D模型,无重叠的每16帧抽取图像帧和光流对应的1024维度的特征。
步骤(2)、特征嵌入(Feature embedding)模块
本文在基于预训练模型的基础上,提出了一个特征嵌入模块,使得视频特征对于弱监督视频行为检测任务更加有效,并且基于神经网络实现该模块,其流程如图1所示。
步骤(3)、在线生成时序类别激活图模块
其流程如图2所示,首先将嵌入后得到的视频特征经过注意力网络,得到每个视频特征对应的全部类别的重要度(所述的重要度与类别无关,所以这里是对应得到全部类别的重要度,不区分特定类别)。将每个视频特征的重要度与嵌入后得到的视频特征对应相乘得到重要度特征I,然后根据重要度特征I及分类结果生成对应每一个分类类别的时序类别激活图I(所述的时序类别激活图是基于特定的类别而言,对于任意一个特定的分类结果,得到与其分类类别对应的激活图)。
步骤(4)、时序类别激活图互补网络
如图3所示,将时序类别激活图I中大于设定阈值的区域,在嵌入后得到的视频特征中做擦除操作,获得擦除后的视频特征;将擦除后的视频特征经过注意力网络,再次得到每个视频特征对应的全部类别的重要度。将每个视频特征的重要度与擦除后的视频特征对应相乘得到重要度特征II,然后根据重要度特征II及分类结果生成对应每一个分类类别的时序类别激活图II。
步骤(5)、生成检测结果
将得到的时序类激活图I和时序类激活图II合并,然后使用阈值法得到检测结果。
步骤(6)、模型训练
根据产生的分类预测值(注:这个分类预测值指的就是上面的步骤(3)和步骤(4)各自的分类器产生的分类结果,然后这两个分类器各自计算一个交叉熵损失,而网络的总分类损失是这两个交叉熵损失之和,然后网络利用这个总损失进行反向传播,使得这两个分类器的分类结果趋于相同,这样的话这两个分类器生成的时序类别激活图就都是对同一个分类类别而言,此时才能将这两个对应同一个类别的时序类别激活图进行合并,并产生最终的定位图)同该视频的实际动作标签的差异,并利用反向传播算法(Back-Propagation,BP)对上述定义的神经网络的模型参数进行训练,直至整个网络模型收敛。
步骤(1)数据预处理,对视频数据v提取时空特征:
1-1.对视频数据v以25FPS抽取图像帧,同时使用TVL-1算法抽取视频的光流。对于抽取好的图像帧和光流,使用基于Kinetics数据集预训练的I3D模型,无重叠的每16帧抽取图像帧和光流对应的1024维度的特征,最终得到视频特征vf,其中T是视频使用无重叠每16帧抽取特征得到的片段数,1024是每个片段得到的特征维度。
1-2.对于行为类别a,直接将类别替换成答案字典中的索引ai,然后将答案转化成一个n维且只在ai元素上值为1,其余元素全为0的答案向量ans,其中n是数据集中总的行为类别的个数。
步骤(2)所述的特征嵌入(Feature embedding)模块,具体如下:
由I3D网络提取的原始视频特征vf经过带有整形流线单元(ReLU)激活函数的通道数为512的1×1卷积之后,得到T×512维度的特征I;将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II;对特征II使用带有整形流线单元激活函数,通道数为1024的1×1卷积之后,得到一个新的T×1024维度的特征III,将此特征III与原始视频特征vf相加,得到嵌入后的特征υemb,此特征维度为T×1024,其中T为视频的片段数量。具体公式如下:
υemb=vf+ReLU(con,υ3(ReLU(conυ2(ReLU(conυ1(vf)))))) (1)
其中conυ1,conv2,conυ3分别是通道数为512、512、1024的1×1卷积。
步骤(3)所述的在线生成时序类别激活图模块,具体如下:
首先叙述原始的生成时序类别激活图(T-CAM)的方法,再叙述在线生成时序类别激活图的方法:
原始的时序类别激活图生成方法如下:
通过使用分类网络训练好之后(注:原始方法必须先训练好分类网络后才能生成对应分类类别的T-CAM,因为它使用的是分类层权重回乘的方法;相比之下我们的方法用1×1卷积代替了权重回乘的方法,可以在分类的同时生成对应分类类别的T-CAM),使用中间生成的注意力权重与特征图整合之前的特征图fzp相乘得到新的特征图fnp,之后拿出最后分类层的权重wfc其中c是特征图的个数且此处为1024,n是类别数。使用预测出来的类别与wfc中对应的向量相乘,然后将相乘后的特征图对应值相加得到对于当前类别的时序激活图。
在线生成时序类别激活图的方法如下:
3-1.在训练过程中将嵌入特征υemb和注意力权重aemb相乘得到注意力特征υatt
vatt=υemmb×aemb (2)
其中,由注意力网络得出,T为视频的片段个数。
3-2.使用1×1的卷积将原来的1024维特征转换成n维特征,此时该卷积层的与原始的生成方法的最后一层分类层的参数相同,如果二者执行相同的初始化方法,那么在网络收敛时他们的参数应该几乎相同。此时卷积之后的每个特征图对应了每个类别的时序激活图。因此,可以在线地在训练分类网络的过程中得到对应分类类别的时序类别激活图I。公式如下:
υact=conυact(vatt) (3)
其中,conυact是输出通道数为n的1×1卷积。
步骤(4)所述的时序类别激活图互补网络具体如下:
将时序类别激活图Ivact,经过sigmoid函数得到vsig
υsig=Sigmoid(υact) (4)
然后以阈值法得到第一个分支关注度比较高的片段,在υemb中将这些关注度vsig大于设定阈值的片段的特征置为0,获得擦除后的视频特征υera-emb。将视频特征υera-emb再次经过步骤3-1和3-2的操作,得到新的对应分类类别的时序类别激活图II。
步骤(5)所述的生成检测结果,具体如下:
根据得到的对应分类类别的时序类别激活图I和时序类别激活图II,取对应位置的最大值进行合并,得到最终的时序类别激活图。
对于步骤(3)中得到的分类结果,将分类得分大于0.1的所有类别视为该视频包含的行为类别,在这些行为类别的时序激活图上,将vsig的值大于0.5的片段作为检测结果。
步骤(6)所述的训练模型,具体如下:
将步骤(3)和步骤(4)两个分支的时序类别激活图各自对每个特征图求和,得到1×n的向量,经过sigmoid函数即可得到该分支的预测值,两个分支经过sigmoid函数之后分别记为:pred1,pred2;将pred1,pred2分别与步骤(1)中产生的答案向量ans输入到定义的损失函数BCELoss中,然后两者相加得到损失值loss,具体公式如下:
loss=BCELoss(pred1,ans)+BCELoss(pred2,ans) (5)
其中BCELoss公式如下:
BCELoss=ans·log(pred)+(1-ans)·log(1-pred) (6)
根据计算得到的损失值loss,利用反向传播算法(Back-Propagation,BP)调整网络中的参数。
本发明有益效果如下:
本发明提出了一种基于时序类别激活图互补的弱监督视频行为检测方法。尽管基于预训练好的网络提取视频特征可以得到不错的结果,但是这些网络通常是使用视频分类的数据集进行预训练,得到的特征并不完全适用于弱监督视频检测,因此本发明首先提出了一种特征嵌入模块,来得到更加适用于弱监督视频检测任务的特征表达。同时,传统的生成时序类别激活图的方法需要等训练结束后,提取最后分类层的权重来得到时序类别激活图,这样无法在训练过程中基于时序类别激活图来进行互补网络的训练,因此本发明提出了一种在线生成时序类别激活图的方法,可以在训练过程中生成时序类别激活图。最后,基于时序类别激活图的弱监督视频行为检测方法大多在分类过程中仅仅对于整个行为片段的一部分有比较高的响应,这会导致检测出来的结果并不准确。因此,本发明提出了一种互补的时序类别激活图的生成方法,通过消除掉原始时序类别激活图关注度比较高的区域,用互补的网络来学习其他区域的关注度,由此互补网络可以学习到除去时序类别激活图关注度高的区域的周围区域,使得周围区域也有较高的关注度。最后,合并两个网络的时序类别激活图,来得到更加准确的检测结果。本发明的方法相比于传统的基于时序类别激活图的方法得到了较大的性能提升。
附图说明
图1为特征嵌入模块流程图
图2为在线生成时序类别激活图模块流程图
图3为本发明完整流程图
具体实施方式
下面对本发明的详细参数做进一步具体说明
如图3所示,本发明提供一种针对弱监督时序行为检测的深度神经网络框架。
步骤(1)、数据预处理,对视频数据v提取时空特征
针对输入视频数据v,以25FPS抽取视频图像帧,即每秒视频抽取25张图像帧,同时使用OpenCV库中的TVL-1算法抽取视频的光流。抽取后的图像在保持纵横比的情况下将最小边缩放到256,中心剪切到224×224之后,每16帧输入到预训练的I3D网络中得到1024维的视频特征。
对于视频的类别标注a,将其映射到一个一维的答案向量ans,ans向量中对应的类别的下标处的值为1,其余为0。
步骤(2)、特征嵌入模块
如图1所示,由I3D网络提取的原始视频特征vf经过带有整形流线单元(ReLU)激活函数的通道数为512的1×1卷积之后,得到T×512维度的特征I;将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II;对特征II使用带有整形流线单元激活函数,通道数为1024的1×1卷积之后,得到一个新的T×1024维度的特征III,将此特征III与原始视频特征vf相加,得到嵌入后的特征υemb,此特征维度为T×1024其中T为视频的片段数量。具体公式如下:
υemb=υf+ReLU(conv3(ReLU(conv2(ReLU(conv1(vf)))))) (7)
其中conv1,conv2,conv3分别是通道数为512、512、1024的1×1卷积。
步骤(3)、在线生成时序类别激活图模块
使用嵌入后的特征υemb作为该模块的输入,首先使用两个全连接层得到每个视频片段的一个总体重要度,即注意力得分aemb
aemb=Sigmoid(fc2(ReLU(fc1emb)))) (8)
其中输出的特征维度分别为256、1。因此最后得到的且每个值介于0和1之间。
嵌入特征υemb和注意力权重aemb相乘得到注意力特征vatt
vatt=υemb×aemb (9)
其中,T为视频的片段数。
基于得到的注意力特征vatt,使用输出通道数为n的1×1卷积conυact,即可在线得到时序类别激活图:
υact=conυact(vatt) (10)
其中,T为视频的片段数,n为类别数。
步骤(4)、时序类别激活图互补网络
基于步骤(3)在线得到的时序类别激活图υact,得到视频的标签所对应的时序类别激活图I,然后使用Sigmoid函数将时序类别激活图I的值映射到0到1之间,将映射后的值大于0.53的片段作为步骤(3)中得到的高响应片段,同时,将嵌入特征υemb中这些高响应片段对应的特征值置为0,得到擦除后的新的嵌入特征υera-emb,使用该特征作为步骤(3)的输入可以得到新的时序类别激活图II,该时序类别激活图II可以补充步骤(3)中时序类别激活图I在真实类别片段中关注度小的部分,从而提升性能。
步骤(5)所述的生成检测结果,具体如下:
最终的检测结果由步骤(3)得到的时序类别激活图I和步骤(4)得到的时序类别激活图II合并得到。合并方法为:根据步骤(3)和步骤(4)分别得到的时序类别激活图I和II,取对应位置的最大值可以得到最终的时序类别激活图。对于步骤(3)中得到的分类结果,将分类得分大于0.1的所有类别视为该视频包含的行为类别,在这些行为类别的时序类别激活图上将值大于0.5的片段作为检测结果。
步骤(6)模型训练
对于步骤(3)和步骤(4)分别会得到对于输入视频的类别的预测,然后根据视频的真是类别,使用BCELoss可得到当前的损失,并利用反向传播算法(Back-Propagation,BP)对神经网络的参数进行训练,直至整个网络收敛。
表1是本文所述的方法在Thumos’14数据集中对于不同IoU下的mAP结果,以及平均的mAP。
0.1 0.2 0.3 0.4 0.5 AVG
原始的方法 52 44.7 35.5 25.8 16.9 35
我们的方法 57.9 50.8 41.4 30.1 20.6 40.1

Claims (7)

1.一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于:
首先给定视频数据v,视频数据v中出现的行为类别a,构成二元组v,a作为训练集,具体实现步骤如下:
步骤(1)、数据预处理:对视频数据v使用现有的经典的抽取视频时空特征的网络结构提取时空特征;
视频数据v预处理:
首先抽取所有视频数据v对应的图像帧和光流;其次使用预训练的特征提取网络分别提取图像帧和光流所对应的特征;
行为类别a预处理:
每个视频可能包含多个类别,假设有n个类别,首先将视频中出现的行为类别转换成答案字典中的索引值,最后转换为一个n维编码的答案向量;
步骤(2)、特征嵌入模块
基于预训练模型,增加特征嵌入模块,使得视频特征对于弱监督视频行为检测任务更加有效;
步骤(3)、在线生成时序类别激活图模块
首先将嵌入后得到的视频特征经过注意力网络,得到每个视频特征对应的全部类别的重要度;将每个视频特征的重要度与嵌入后得到的视频特征对应相乘得到重要度特征I,然后根据重要度特征I及分类结果生成对应每一个分类类别的时序类别激活图I;
步骤(4)、时序类别激活图互补网络
将时序类别激活图I中大于设定阈值的区域,在嵌入后得到的视频特征中做擦除操作,获得擦除后的视频特征;将擦除后的视频特征经过注意力网络,再次得到每个视频特征对应的全部类别的重要度;将每个视频特征的重要度与擦除后的视频特征对应相乘得到重要度特征II,然后根据重要度特征II及分类结果生成对应每一个分类类别的时序类别激活图II;
步骤(5)、生成检测结果
将得到的时序类激活图I和时序类激活图II合并,然后使用阈值法得到检测结果;
步骤(6)、模型训练
根据产生的分类预测值同该视频的实际动作标签的差异,并利用反向传播算法(Back-Propagation,BP)对上述定义的神经网络的模型参数进行训练,直至整个网络模型收敛;
所述的分类预测值指步骤(3)和步骤(4)各自的分类器产生的分类结果。
2.根据权利要求1所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于步骤(1)具体实现如下:
1-1.对视频数据v以25 FPS抽取图像帧,同时使用TVL-1算法抽取视频的光流;对于抽取好的图像帧和光流,使用基于Kinetics数据集预训练的I3D模型,无重叠的每16帧抽取图像帧和光流对应的1024维度的特征,最终得到视频特征vf,其中T是视频使用无重叠每16帧抽取特征得到的片段数,1024是每个片段得到的特征维度;
1-2.对于行为类别a,直接将类别替换成答案字典中的索引ai,然后将答案转化成一个n维且只在ai元素上值为1,其余元素全为0的答案向量ans,其中n是数据集中总的行为类别的个数。
3.根据权利要求2所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于步骤(2)具体如下:
由I3D网络提取的原始视频特征υf经过带有整形流线单元激活函数的通道数为512的1×1卷积之后,得到T×512维度的特征I;将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II;对特征II使用带有整形流线单元激活函数,通道数为1024的1×1卷积之后,得到一个新的T×1024维度的特征III,将此特征III与原始视频特征υf相加,得到嵌入后的特征υemb,此特征维度为T×1024,其中T为视频的片段数量;具体公式如下:
vemb=vf+ReLU(conv3(ReLU(conv2(ReLU(conv1(vf)))))) (1)
其中conv1,conv2,conv3分别是通道数为512、512、1024的1×1卷积。
4.根据权利要求3所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于步骤(3)所述的在线生成时序类别激活图模块,具体如下:
3-1.在训练过程中将嵌入特征υemb和注意力权重aemb相乘得到注意力特征vatt:
vatt=vemb×aemb (2)
其中,由注意力网络得出,T为视频的片段个数;
3-2.使用1×1的卷积将原来的1024维特征转换成n维特征,此时该卷积之后的每个特征图对应了每个类别的时序激活图;因此能够在线地在训练分类网络的过程中得到对应分类类别的时序类别激活图I;公式如下:
vact=convact(vatt) (3)
其中,convact是输出通道数为n的1×1卷积。
5.根据权利要求4所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于步骤(4)所述的时序类别激活图互补网络具体如下:
将时序类别激活图Ivact,经过sigmoid函数得到vsig
vsig=Sigmoid(vact) (4)
然后以阈值法得到第一个分支关注度比较高的片段,在vemb中将这些关注度υsig大于设定阈值的片段的特征置为0,获得擦除后的视频特征vera-emb;将视频特征vera-emb再次经过步骤3-1和3-2的操作,得到新的对应分类类别的时序类别激活图II。
6.根据权利要求5所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其其特征在于步骤(5)所述的生成检测结果,具体如下:
根据得到的对应分类类别的时序类别激活图I和时序类别激活图II,取对应位置的最大值进行合并,得到最终的时序类别激活图;
对于步骤(3)中得到的分类结果,将分类得分大于0.1的所有类别视为该视频包含的行为类别,在这些行为类别的时序激活图上,将υsig的值大于0.5的片段作为检测结果。
7.根据权利要求6所述的一种基于时序类别激活图互补的弱监督视频行为检测方法,其特征在于步骤(6)所述的训练模型,具体如下:
将步骤(3)和步骤(4)两个分支的时序类别激活图各自对每个特征图求和,得到1×n的向量,经过sigmoid函数即可得到该分支的预测值,两个分支经过sigmoid函数之后分别记为:pred1,pred2;将pred1,pred2分别与步骤(1)中产生的答案向量ans输入到定义的损失函数BCELoss中,然后两者相加得到损失值loss,具体公式如下:
loss=BCELoss(pred1,ans)+BCELoss(pred2,ans) (5)
其中BCELoss公式如下:
BCELoss=ans·log(pred)+(1-ans)·log(1-pred) (6)
根据计算得到的损失值loss,利用反向传播算法调整网络中的参数。
CN201910630472.8A 2019-07-12 2019-07-12 一种基于时序类别激活图互补的弱监督视频行为检测方法 Active CN110516536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630472.8A CN110516536B (zh) 2019-07-12 2019-07-12 一种基于时序类别激活图互补的弱监督视频行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630472.8A CN110516536B (zh) 2019-07-12 2019-07-12 一种基于时序类别激活图互补的弱监督视频行为检测方法

Publications (2)

Publication Number Publication Date
CN110516536A true CN110516536A (zh) 2019-11-29
CN110516536B CN110516536B (zh) 2022-03-18

Family

ID=68622677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630472.8A Active CN110516536B (zh) 2019-07-12 2019-07-12 一种基于时序类别激活图互补的弱监督视频行为检测方法

Country Status (1)

Country Link
CN (1) CN110516536B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111626273A (zh) * 2020-07-29 2020-09-04 成都睿沿科技有限公司 基于原子性动作时序特性的摔倒行为识别系统及方法
CN111652083A (zh) * 2020-05-13 2020-09-11 上海交通大学 一种基于自适应采样的弱监督时序动作检测方法及系统
CN111680643A (zh) * 2020-06-11 2020-09-18 河南职业技术学院 基于弱监督互补学习的人体行为检测方法
CN111709411A (zh) * 2020-08-20 2020-09-25 深兰人工智能芯片研究院(江苏)有限公司 基于半监督学习的视频异常检测方法和装置
CN111783713A (zh) * 2020-07-09 2020-10-16 中国科学院自动化研究所 基于关系原型网络的弱监督时序行为定位方法及装置
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN112560999A (zh) * 2021-02-18 2021-03-26 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN112818829A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112926492A (zh) * 2021-03-18 2021-06-08 南京理工大学 一种基于单帧监督的时序行为检测方法及系统
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113780557A (zh) * 2021-11-11 2021-12-10 中南大学 基于免疫理论的对抗图像攻击方法、装置、产品及介质
CN113902670A (zh) * 2021-08-31 2022-01-07 北京医准智能科技有限公司 一种基于弱监督学习的超声视频分割方法及装置
WO2022007193A1 (zh) * 2020-07-07 2022-01-13 南京理工大学 一种基于迭代学习的弱监督视频行为检测方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083037A1 (en) * 2000-08-18 2002-06-27 Network Appliance, Inc. Instant snapshot
US20060037990A1 (en) * 2002-05-03 2006-02-23 Geise Doran J System to navigate within images spatially referenced to a computed space
US20140358518A1 (en) * 2013-06-02 2014-12-04 Jianqing Wu Translation Protocol for Large Discovery Projects
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN108600701A (zh) * 2018-05-02 2018-09-28 广州飞宇智能科技有限公司 一种基于深度学习判断视频行为的监控系统和方法
US10108693B2 (en) * 2013-03-14 2018-10-23 Xdyne, Inc. System and method for interacting with virtual maps
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
US20190130224A1 (en) * 2017-10-27 2019-05-02 Facebook, Inc. Determination of Population Density Using Convoluted Neural Networks
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083037A1 (en) * 2000-08-18 2002-06-27 Network Appliance, Inc. Instant snapshot
US20060037990A1 (en) * 2002-05-03 2006-02-23 Geise Doran J System to navigate within images spatially referenced to a computed space
US10108693B2 (en) * 2013-03-14 2018-10-23 Xdyne, Inc. System and method for interacting with virtual maps
US20140358518A1 (en) * 2013-06-02 2014-12-04 Jianqing Wu Translation Protocol for Large Discovery Projects
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
US20190130224A1 (en) * 2017-10-27 2019-05-02 Facebook, Inc. Determination of Population Density Using Convoluted Neural Networks
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN108600701A (zh) * 2018-05-02 2018-09-28 广州飞宇智能科技有限公司 一种基于深度学习判断视频行为的监控系统和方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRIS LONG等: "Spatiotemporal wavelet analysis for functional MRI", 《NEUROIMAGE》 *
聂相琴: "基于三维卷积和Faster RCNN的视频动作检测技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111079646B (zh) * 2019-12-16 2023-06-06 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111652083B (zh) * 2020-05-13 2023-04-18 上海交通大学 一种基于自适应采样的弱监督时序动作检测方法及系统
CN111652083A (zh) * 2020-05-13 2020-09-11 上海交通大学 一种基于自适应采样的弱监督时序动作检测方法及系统
CN111680643A (zh) * 2020-06-11 2020-09-18 河南职业技术学院 基于弱监督互补学习的人体行为检测方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
WO2022007193A1 (zh) * 2020-07-07 2022-01-13 南京理工大学 一种基于迭代学习的弱监督视频行为检测方法及系统
CN111783713A (zh) * 2020-07-09 2020-10-16 中国科学院自动化研究所 基于关系原型网络的弱监督时序行为定位方法及装置
CN111783713B (zh) * 2020-07-09 2022-12-02 中国科学院自动化研究所 基于关系原型网络的弱监督时序行为定位方法及装置
CN111626273B (zh) * 2020-07-29 2020-12-22 成都睿沿科技有限公司 基于原子性动作时序特性的摔倒行为识别系统及方法
CN111626273A (zh) * 2020-07-29 2020-09-04 成都睿沿科技有限公司 基于原子性动作时序特性的摔倒行为识别系统及方法
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN111914778B (zh) * 2020-08-07 2023-12-26 重庆大学 一种基于弱监督学习的视频行为定位方法
CN111709411A (zh) * 2020-08-20 2020-09-25 深兰人工智能芯片研究院(江苏)有限公司 基于半监督学习的视频异常检测方法和装置
CN112818829A (zh) * 2021-01-27 2021-05-18 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112818829B (zh) * 2021-01-27 2022-09-09 中国科学技术大学 基于结构网络的弱监督时域动作定位方法及系统
CN112560999A (zh) * 2021-02-18 2021-03-26 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN112926492A (zh) * 2021-03-18 2021-06-08 南京理工大学 一种基于单帧监督的时序行为检测方法及系统
CN112926492B (zh) * 2021-03-18 2022-08-12 南京理工大学 一种基于单帧监督的时序行为检测方法及系统
CN113902670B (zh) * 2021-08-31 2022-07-29 北京医准智能科技有限公司 一种基于弱监督学习的超声视频分割方法及装置
CN113902670A (zh) * 2021-08-31 2022-01-07 北京医准智能科技有限公司 一种基于弱监督学习的超声视频分割方法及装置
CN113780557A (zh) * 2021-11-11 2021-12-10 中南大学 基于免疫理论的对抗图像攻击方法、装置、产品及介质

Also Published As

Publication number Publication date
CN110516536B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Lyu et al. Long-term multi-granularity deep framework for driver drowsiness detection
CN108846446A (zh) 基于多路径密集特征融合全卷积网络的目标检测方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
Tang et al. View-independent facial action unit detection
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
CN114360073A (zh) 一种图像识别方法及相关装置
Song et al. Dense face network: A dense face detector based on global context and visual attention mechanism
CN113657272A (zh) 一种基于缺失数据补全的微视频分类方法及系统
Sun et al. Weak supervised learning based abnormal behavior detection
Mi et al. Dual-branch network with a subtle motion detector for microaction recognition in videos
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
Sommer et al. Simultaneous and spatiotemporal detection of different levels of activity in multidimensional data
CN109409224A (zh) 一种自然场景火焰检测的方法
CN110427920B (zh) 一种面向监控环境的实时行人解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant