CN109977819B - 一种应用模板匹配方法的弱监督单个动作定位方法 - Google Patents

一种应用模板匹配方法的弱监督单个动作定位方法 Download PDF

Info

Publication number
CN109977819B
CN109977819B CN201910193601.1A CN201910193601A CN109977819B CN 109977819 B CN109977819 B CN 109977819B CN 201910193601 A CN201910193601 A CN 201910193601A CN 109977819 B CN109977819 B CN 109977819B
Authority
CN
China
Prior art keywords
action
video
candidate
training
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910193601.1A
Other languages
English (en)
Other versions
CN109977819A (zh
Inventor
陈沅涛
王进
陈曦
王志
丁林
段振春
刘燚
蔡周沁雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha duying Electronic Technology Co., Ltd
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN201910193601.1A priority Critical patent/CN109977819B/zh
Publication of CN109977819A publication Critical patent/CN109977819A/zh
Application granted granted Critical
Publication of CN109977819B publication Critical patent/CN109977819B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明公开了一种应用模板匹配方法的弱监督单个动作定位方法,包括:在视频每一帧中给出若干动作主体位置的候选框区域,按照时间顺序把这些候选框连接形成动作提名;利用训练集视频中部分视频帧求得动作模板,其中与动作模板匹配误差越小的动作提名越能接近动作实际位置;利用动作提名与动作模板训练动作定位模型完成动作定位操作。该方法是弱监督性质,训练时将动作真实位置看成是隐变量,利用动作模板在短时间内完成模型参数的学习,动作定位准确,受相机抖动影响较小,并且可以处理任意长度视频,方法应用范围广泛。

Description

一种应用模板匹配方法的弱监督单个动作定位方法
技术领域
本发明涉及运动视频的动作定位技术领域,具体涉及一种应用模板匹配方法的弱监督单个动作定位方法。
背景技术
计算机视觉中动作定位任务不仅需要在空间上和时序上完成定位动作操作,而且需要确定动作类别。即:不仅需要确定动作在视频每个视频帧上的具体实际位置,而且需要确定动作从什么时刻开始到什么时刻结束,以及视频中动作是什么类别动作。动作定位有着广泛实际应用前景,比如:警方需要确定犯罪分子逃跑路线或街头斗殴经过以及球迷希望集中观看足球场上精彩射门瞬间等具体应用环境。
近些年来,计算机视觉领域针对视频动作定位的研究工作已有部分研究成果,其中大部分只能达到在时序上对动作进行定位操作,无法在空间上对动作进行定位。现有的能够实现动作时空定位的方法大致可分为两类:一种是强监督方法;另一种是弱监督方法。强监督方法定位操作的主要缺点是必须需要针对数据集中视频每帧图像逐一完成标注操作,使得科研人员把大部分时间消耗在标注数据集这种简单重复工作中,牺牲真正研究算法的宝贵时间。弱监督方法通过利用从网络上下载图像来帮助定位人的实际动作,减小标注数据集所花费时间精力,但是获取合适的网络图像、处理网络图像同样存在难度。
发明内容
现有动作时空定位方法中,强监督方法数据集标注工作量大且容易标错,弱监督方法难以获取网络图像,为克服这一缺陷,本发明的目的是提出一种应用模板匹配方法的弱监督单个动作定位方法,本方法只需要针对视频做类别标注和极少的视频帧级别标注操作,能够大大减少处理数据集的宝贵时间,同时也不用借助上述网络图像搜集过程。
为实现上述目的,本发明采用以下技术方案:
一种应用模板匹配方法的弱监督单个动作定位方法,包括:
对数据集中训练集的每类视频均选取部分视频帧,每一帧均用标注框人工标注动作主体位置,提取标注框的VGG特征,形成每类动作的动作模板M,表示为:M=dim×n,式中dim为VGG特征的维度,n为标注框个数;
构建基于模板匹配的动作定位模型;
模型训练:对训练集中单个视频的每一帧给出动作主体的若干个候选框,然后按时间顺序连接候选框形成多个候选动作轨迹,得到该训练视频的动作提名,即为样本提名,提取该训练视频的C3D特征和对应的样本提名的C3D特征,将该训练视频的每个样本提名分别与动作模板相匹配,通过设置约束条件使动作定位模型对该训练视频进行正确的类别判定,并选择与动作实际位置最接近的样本提名作为该训练视频中动作主体的位置,输出对应的模型参数;
模型测试:对测试集中单个视频的每一帧给出动作主体的若干个候选框,然后按时间顺序连接候选框形成多个候选动作轨迹,得到该测试视频的动作提名,即为目标提名,提取该测试视频的C3D特征和对应的目标提名的C3D特征,代入训练好的动作定位模型,利用确定的模型参数确定动作类别和动作位置。
优选的,候选框的获取方法为YOLOv3、EdgeBoxes和Objectness方法,其中YOLOv3方法用于在每一帧上提取动作主体的候选框,EdgeBoxes和Objectness用于在每一帧上提取物体的候选框,连接候选框时优先连接YOLOv3候选框,在出现丢失检测帧时采用EdgeBoxes或Objectness候选框替代。
优选的,候选框连接时设定连接得分阈值,在连接得分小于该连接得分阈值时,结束相应动作提名的后续连接,其中,候选框之间的连接得分由式(1)至式(4)计算:
score=α1·IOU+α2·A+α3·S (1);
Figure GDA0002313574150000021
Figure GDA0002313574150000022
α123=1 (4);
式中,box1和box2代表待连接的两个候选框,IOU表示两个候选框的重叠度,A表示两个候选框的面积相似性,area1和area2分别是两个候选框的具体面积,S表示颜色直方图实际相似性。其中,参数α1、α2、α3分别优选为0.3、0.3、0.4,连接得分阈值优选为0.2。
优选的,模型训练的方法为:
设V={(xi,yi)i=1:N}表示训练集,其中xi表示第i个视频,N是训练集的视频数量,Y是动作类别集合,yi是视频xi的动作类别,yi∈Y;Hi表示从视频xi中提取的样本提名hi的集合,采用公式(5)-(6)所示的判别函数F(x,h)判别与视频动作实际位置最接近的样本提名:
Figure GDA0002313574150000031
Figure GDA0002313574150000032
式中,Φ(x,h)是由视频x的C3D特征和视频x中样本提名h的C3D特征组成的联合特征,wy表示与动作类别y相关的模型参数向量,wy∈w,w为模型参数;
采用隐变量支持向量机学习判别函数F(x,h)的参数,隐变量支持向量机参数优化问题定义如下:
Figure GDA0002313574150000033
s.t.
Figure GDA0002313574150000034
Figure GDA0002313574150000035
式中,c1、c2是惩罚系数,ξi
Figure GDA0002313574150000038
是松弛变量,y′从动作类别集合Y中取值,
Figure GDA0002313574150000037
表示与视频xi动作实际位置最接近的样本提名;对Δ(yi,y′),当yi≠y时,Δ=1,否则Δ=0;tj是动作类别yj的动作模板,
Figure GDA0002313574150000041
表示
Figure GDA0002313574150000042
与tj的匹配误差,
Figure GDA0002313574150000043
h′i∈Hi
本发明的有益效果:
本方法是弱监督性质,训练视频只需要进行动作类别标注和部分帧级别标注,训练时将动作真实位置看成是隐变量,利用动作模板在短时间内完成模型参数的学习,动作定位准确,受相机抖动影响较小,并且可以处理任意长度视频,方法应用范围广泛。通过在数据集UCF-Sports上的实际实验表明,与同属于弱监督性质的STAL方法相比,本方法对单个主要动作的实际视频定位效果更好。
附图说明
图1是本发明一种实施方式对UCF-Sports测试集中每类动作的识别率。
图2是本发明一种实施方式在UCF-Sports测试集中的定位效果图。
具体实施方式
下面通过附图及具体实施方式对本发明进行详细的说明。
为解决现有视频中普遍存在的动作定位不够准确现象问题,本实施例提出基于模板匹配方法的动作定位方法。该方法属于弱监督学习方法,在处理数据集时除开标注动作类别之外只需要在部分视频帧上完成人工标注即可。
该方法包括:构建基于模板匹配的动作定位模型,在对训练集中单个视频的每一帧中给出若干动作主体位置的候选框区域,按照时间顺序把这些候选框连接形成多个候选的动作轨迹,得到该训练视频的动作提名,即为样本提名,提取该训练视频的C3D特征和对应的样本提名的C3D特征;利用训练集视频中部分视频帧求得动作模板,其中与动作模板匹配误差越小的样本提名越能接近动作实际位置;利用该训练视频的C3D特征、对应的样本提名、该样本提名的C3D特征和动作模板训练动作定位模型完成动作定位操作。在模型训练过程中,真实动作位置未进行人工标注操作,而看成是模型隐变量,训练时从动作提名中取值,利用模板匹配方法促使动作定位模型从众多样本提名中选择最合适的样本提名作为动作实际位置。
测试阶段,同样在每个测试视频帧中给出动作主体的候选框,连接候选框形成动作提名,从测试视频中提取的动作提名称作目标提名,然后将该测试视频的C3D特征和对应的目标提名的C3D特征代入训练好的动作定位模型,确定动作类别和动作位置。该方法对包含单个主要动作的视频动作定位效果好,受到相机抖动影响较小,并且可处理任意长度视频数据,应用范围广泛。
由以上描述可知,模型训练和最后识别都需要获取动作提名,为此,需要在每个视频帧上获取候选框。现有的获得候选框的方法有YOLOv3、EdgeBoxes和Objectness。Objectness方法根据目标框之间的NG特征具有显著共性,以及目标框和背景框的NG特征明显不同,确定哪些候选框中是目标。虽然,这种方法运算速度快、召回率高,但是结果不够精确。EdgeBoxes利用边缘信息,确定框内轮廓数量和与框边缘重叠轮廓数量,然后确定候选框,这种方法的缺陷在于评分较高的框近似是整幅图像大小规模,虽然召回率高但是不够精确。YOLOv3相对于前两种方法,优点是给出候选框精确度高,同时可以判定类别,缺点却是召回率较低。
为克服上述三种方法的不足,本实施例采用YOLOv3方法在每一帧上提取动作主体(以人为例)的候选框,考虑到YOLOv3方法能够提取高质量的“人”候选框,但是由于人的姿态丰富多变,会出现在某些帧上丢失检测的情况,因此同时利用EdgeBoxes和Objectness继续在每一帧上提取物体候选框,最后每一个视频帧上得到候选框包括所有YOLOv3候选框,以及得分排名靠前的EdgeBoxes和Objectness候选框。由于EdgeBoxes和Objectness获得候选框比较丰富,召回率较高,但是大多数都不精确且不知道框内物体具体是什么,在候选框连接时优先连接YOLOv3候选框,在出现丢失检测帧时则采用EdgeBoxes或Objectness候选框替代。
当视频帧级别候选框获取之后,需要在帧与帧之间无间断连接候选框,所形成候选框序列即是动作提名。动作提名最大特性是平滑性与相似性,帧与帧之间连接需要平滑,前一个框与后一个框要具备很强相似性。
本实施例中,候选框连接时设定连接得分阈值,在连接得分小于该连接得分阈值时,结束相应动作提名的后续连接,其中,候选框之间的连接得分score由式(1)至式(4)计算:
score=α1·IOU+α2·A+α3·S (1);
Figure GDA0002313574150000051
Figure GDA0002313574150000061
α123=1 (4);
式中,box1和box2代表待连接的两个候选框,IOU表示两个候选框的重叠度,A表示两个候选框的面积相似性,area1和area2分别是两个候选框的具体面积,S表示颜色直方图实际相似性。IOU和A约束动作提名平滑性,S约束动作提名的候选框之间相似性。经过实验发现,候选框重叠度和候选框大小相似性两个因素对获得动作提名同等重要,候选框颜色直方图相似性要比其它两个因素影响更大,所以后续实验中候选框连接得分公式中的参数α1、α2、α3分别设为0.3、0.3、0.4。连接得分阈值设为0.2,在每个动作提名连接时,如果与下一帧上候选框连接得分score<0.2,则结束该提名的后续连接。
每类动作的动作模板是该类动作各种动作姿态的集合,如数据集中有c类动作,就会形成c种类型动作模板。由于训练视频中动作位置未被人工标注,动作模板的作用在于使模型训练时选择最合适的样本提名作为训练视频中动作的位置,并确定动作类型。
对数据集中训练集的每类视频均选取部分视频帧,每一帧均用标注框人工标注动作主体位置,提取标注框的VGG特征,形成每类动作的动作模板M,表示为:M=dim×n,式中dim为VGG特征的维度,n为标注框个数。
获得训练视频的样本提名和每类动作的动作模板后,下一步对动作定位模型进行训练,确定视频中动作的类别和时空位置。
设V={(xi,yi)i=1:N}表示训练集,其中xi表示第i个视频,N是训练集的视频数量,Y是动作类别集合,yi是视频xi的动作类别,yi∈Y。Hi表示从视频xi中提取的样本提名hi的集合,视频xi中动作的实际位置在训练之前未被人工标注,模型训练时选择一个最合适的样本提名
Figure GDA0002313574150000062
作为视频xi中动作的位置,
Figure GDA0002313574150000063
Figure GDA0002313574150000064
视作动作定位模型的隐变量。
定义判别函数F(x,h)如公式(5)-(6)所示:
Figure GDA0002313574150000071
Figure GDA0002313574150000072
式中,Φ(x,h)是由视频x的C3D特征和其样本提名h的C3D特征组成的联合特征,wy表示与动作类别y相关的模型参数向量,wy∈w,w为模型参数。
为学习判别函数F(x,h)的参数,引入隐变量支持向量机,与普通支持向量机相比,不同点在于模型训练时视频中动作的实际位置没有显示地告知,需要在参数学习过程中确定,将其看作隐变量。隐变量支持向量机参数优化问题定义如下:
Figure GDA0002313574150000073
s.t.
Figure GDA0002313574150000074
Figure GDA0002313574150000075
式中,c1、c2是惩罚系数,ξi
Figure GDA00023135741500000712
是松弛变量,y′从动作类别集合Y中取值,y′∈Y;对Δ(yi,y′),当yi≠y时,Δ=1,否则Δ=0;tj是动作类别yj的动作模板,
Figure GDA0002313574150000077
表示
Figure GDA0002313574150000078
与tj的匹配误差,用来评估样本提名与动作模板的相似性,误差值越小说明相似性越大。
Figure GDA0002313574150000079
h′i∈Hi
Figure GDA00023135741500000710
的值是确定的,用来归一化Θ(h′i,tj),使得
Figure GDA00023135741500000711
的值始终在[0,1]范围内。
约束条件(8)是含有隐变量的支持向量机中最大间隔约束,确保动作定位模型能够对视频进行正确的类别判定。由于视频中动作位置未被人工标注,在训练阶段未知,看作是隐变量,约束条件(9)利用动作模板促使动作定位模型倾向于选择与动作实际位置一致的样本提名,增强动作定位的准确性。求解优化问题(7),得到模型参数w。
利用参数w,将待测视频的C3D特征及其目标提名的C3D特征代入公式(7),可以知道待测视频的动作类别和动作位置。
为验证以上方法的定位效果,使用UCF-Sports数据集进行实验。UCF-Sports数据集中包含多个运动视频,总共10类动作合计150个视频。其中,跳水动作(DS)有14个视频,打高尔夫(GS)有18个视频,踢(K)有20个视频,举重(L)有6个视频,骑马(RH)有12个视频,跑步(RS)有13个视频,玩滑板(S)有12个视频,鞍马(SB)有20个视频,单杠(SS)有13个视频,走(WF)有22个视频。UCF-Sports数据集中视频的时间长度不一,视频帧分辨率不一,背景复杂,对于动作定位来说十分具有挑战性。
遵循UCF-Sports数据集官网对动作定位任务中数据集分类的建议,数据集中的103个视频作为训练数据,47个视频作为测试数据,训练集和测试集的比例大概是2:1。实验中用C3D网络提取4096维的视频特征和动作提名特征,动作提名中关键帧步长ρ是6,每个动作模板中包含20个人工标注的候选框。
表1直观展示了动作定位模型对UCF-Sports数据集上测试集视频的分类结果,以此计算动作定位模型对每类动作的识别准确率,如图1所示,折合总体的识别准确率为87.2%。
表1动作类别预测结果
Figure GDA0002313574150000081
现有的对动作类别识别效果较好的方法有:稀疏时间池化网络法(STPN)(CuiweiLiu,Xinxiao Wu,Yunde Jia.Weakly Supervised Action Recognition andLocalization Using Web Images.ACCV(5)2014:642-657.)、基于判别中心模型的行为定位和识别方法(DFCM)(Tian Lan,Yang Wang,Greg Mori.Discriminative figure-centricmodels for joint action localization and recognition.ICCV 2011:2003-2010.)和多目标判别的弱监督人体行为识别和定位方法(MDWSHA)(Ehsan Adeli-Mosabbeb,RicardoSilveira Cabral,Fernando De la Torre,Mahmood Fathy.Multi-label DiscriminativeWeakly-Supervised Human Activity Recognition and Localization.ACCV(5)2014:241-258.)。
将本实施例与上述三种方法的动作类别识别效果进行比较,结果如表2所示,可以看出本实施例的动作分类效果更佳。
表2动作类别识别效果对比
Figure GDA0002313574150000091
实验定位效果如图2所示,图中虚线框是测试集中人工标注的位置,实线框由本实施例方法定位产生,定位效果的衡量标准按照公式(10)计算:
Figure GDA0002313574150000092
式中τ是定位结果和动作真实位置之间的重叠度,表示定位的效果;n是动作持续的帧数,IOUi(b1,b2)是第i帧上定位框b1与实际框b2之间的交并比。取重叠度阈值为0.2,即定位结果如果与动作真实位置重叠度大于0.2认为定位结果正确。
现有的弱监督定位方法中,效果最好的是时空行为定位方法(STAL)(PhilippeWeinzaepfel,Zaid Harchaoui,Cordelia Schmid.Learning to track for spatio-temporal action localization.In:Proceedings of IEEE International Conferenceon Computer Vision,Santiago,Chile,2015.12.7-12.13:3164-3172.),该方法先给出动作提名,然后利用网络图像来对动作提名排序,选出得分最高的动作提名作为定位结果。
表3定位效果对比
Figure GDA0002313574150000093
Figure GDA0002313574150000101
本实施例与STAL的定位效果对比如表3所示,可以看出,本实施例的定位效果优于STAL方法。本实施例动作的定位和识别同时进行,两者之间相互促进,知道动作类别可以帮助定位,知道动作位置也可以帮助判定类别,提高了各自的精度。另外,本实施例利用视频帧帮助定位动作比STAL利用网络图像更加合适,因为视频帧中动作姿态来自一个完整连续的动作视频,比静止孤立的网络图像能够更好地表现动作的特点。
以上实施例是对本发明的解释,但是,本发明并不局限于上述实施方式中的具体细节,本领域的技术人员在本发明的技术构思范围内进行的多种等同替代或简单变型方式,均应属于本发明的保护范围。

Claims (6)

1.一种应用模板匹配方法的弱监督单个动作定位方法,其特征在于,包括:
对数据集中训练集的每类视频均选取部分视频帧,每一帧均用标注框人工标注动作主体位置,提取标注框的VGG特征,形成每类动作的动作模板M,表示为:M=dim×n,式中dim为VGG特征的维度,n为标注框个数;
构建基于模板匹配的动作定位模型;
模型训练:对训练集中单个视频的每一帧给出动作主体的若干个候选框,然后按时间顺序连接候选框形成多个候选动作轨迹,得到该训练视频的动作提名,即为样本提名,提取该训练视频的C3D特征和对应的样本提名的C3D特征,将该训练视频的每个样本提名分别与动作模板相匹配,通过设置约束条件使动作定位模型对该训练视频进行正确的类别判定,并选择与动作实际位置最接近的样本提名作为该训练视频中动作主体的位置,输出对应的模型参数;
模型测试:对测试集中单个视频的每一帧给出动作主体的若干个候选框,然后按时间顺序连接候选框形成多个候选动作轨迹,得到该测试视频的动作提名,即为目标提名,提取该测试视频的C3D特征和对应的目标提名的C3D特征,代入训练好的动作定位模型,利用确定的模型参数确定动作类别和动作位置。
2.根据权利要求1所述的应用模板匹配方法的弱监督单个动作定位方法,其特征在于,候选框的获取方法为YOLOv3、EdgeBoxes和Objectness方法,其中YOLOv3方法用于在每一帧上提取动作主体的候选框,EdgeBoxes和Objectness用于在每一帧上提取物体的候选框,连接候选框时优先连接YOLOv3候选框,在出现丢失检测帧时采用EdgeBoxes或Objectness候选框替代。
3.根据权利要求1所述的应用模板匹配方法的弱监督单个动作定位方法,其特征在于,候选框连接时设定连接得分阈值,在连接得分小于该连接得分阈值时,结束相应动作提名的后续连接,其中,候选框之间的连接得分由式(1)至式(4)计算:
score=α1·IOU+α2·A+α3·S (1);
Figure FDA0001995096550000011
Figure FDA0001995096550000021
α123=1 (4);
式中,box1和box2代表待连接的两个候选框,IOU表示两个候选框的重叠度,A表示两个候选框的面积相似性,area1和area2分别是两个候选框的具体面积,S表示颜色直方图实际相似性。
4.根据权利要求3所述的应用模板匹配方法的弱监督单个动作定位方法,其特征在于,α1、α2、α3分别设为0.3、0.3、0.4。
5.根据权利要求4所述的应用模板匹配方法的弱监督单个动作定位方法,其特征在于,连接得分阈值为0.2。
6.根据权利要求1所述的应用模板匹配方法的弱监督单个动作定位方法,其特征在于,模型训练的方法为:
设V={(xi,yi)i=1:N}表示训练集,其中xi表示第i个视频,N是训练集的视频数量,Y是动作类别集合,yi是视频xi的动作类别,yi∈Y;Hi表示从视频xi中提取的样本提名hi的集合,采用公式(5)-(6)所示的判别函数F(x,h)判别与视频动作实际位置最接近的样本提名:
Figure FDA0001995096550000022
Figure FDA0001995096550000023
式中,Φ(x,h)是由视频x的C3D特征和视频x中样本提名h的C3D特征组成的联合特征,wy表示与动作类别y相关的模型参数向量,wy∈w,w为模型参数;
采用隐变量支持向量机学习判别函数F(x,h)的参数,隐变量支持向量机参数优化问题定义如下:
Figure FDA0001995096550000024
s.t.
Figure FDA0001995096550000031
Figure FDA0001995096550000032
式中,c1、c2是惩罚系数,ξi
Figure FDA0001995096550000038
是松弛变量,y′从动作类别集合Y中取值,
Figure FDA0001995096550000034
表示与视频xi动作实际位置最接近的样本提名;对Δ(yi,y’),当yi≠y’时,Δ=1,否则Δ=0;tj是动作类别yj的动作模板,
Figure FDA0001995096550000035
表示
Figure FDA0001995096550000036
与tj的匹配误差,
Figure FDA0001995096550000037
h'i∈Hi
CN201910193601.1A 2019-03-14 2019-03-14 一种应用模板匹配方法的弱监督单个动作定位方法 Expired - Fee Related CN109977819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910193601.1A CN109977819B (zh) 2019-03-14 2019-03-14 一种应用模板匹配方法的弱监督单个动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910193601.1A CN109977819B (zh) 2019-03-14 2019-03-14 一种应用模板匹配方法的弱监督单个动作定位方法

Publications (2)

Publication Number Publication Date
CN109977819A CN109977819A (zh) 2019-07-05
CN109977819B true CN109977819B (zh) 2020-04-24

Family

ID=67078874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910193601.1A Expired - Fee Related CN109977819B (zh) 2019-03-14 2019-03-14 一种应用模板匹配方法的弱监督单个动作定位方法

Country Status (1)

Country Link
CN (1) CN109977819B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765921B (zh) * 2019-10-18 2022-04-19 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218601A (zh) * 2013-04-03 2013-07-24 华为技术有限公司 检测手势的方法及装置
CN106326938A (zh) * 2016-09-12 2017-01-11 西安电子科技大学 基于弱监督学习的sar图像目标鉴别方法
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN108769731A (zh) * 2018-05-25 2018-11-06 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109034062A (zh) * 2018-07-26 2018-12-18 南京邮电大学 一种基于时序一致性的弱监督异常行为检测方法
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160219297A1 (en) * 2015-01-23 2016-07-28 Samsung Electronics Co., Ltd. Method and system for block matching based motion estimation
US9621929B1 (en) * 2016-07-22 2017-04-11 Samuel Chenillo Method of video content selection and display
CN108848422B (zh) * 2018-04-19 2020-06-02 清华大学 一种基于目标检测的视频摘要生成方法
CN108614896A (zh) * 2018-05-10 2018-10-02 济南浪潮高新科技投资发展有限公司 基于深度学习的银行大厅客户动线轨迹刻画系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218601A (zh) * 2013-04-03 2013-07-24 华为技术有限公司 检测手势的方法及装置
CN106326938A (zh) * 2016-09-12 2017-01-11 西安电子科技大学 基于弱监督学习的sar图像目标鉴别方法
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN108769731A (zh) * 2018-05-25 2018-11-06 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109034062A (zh) * 2018-07-26 2018-12-18 南京邮电大学 一种基于时序一致性的弱监督异常行为检测方法
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法

Also Published As

Publication number Publication date
CN109977819A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN108764065B (zh) 一种行人重识别特征融合辅助学习的方法
CN106022220B (zh) 一种体育视频中对参赛运动员进行多人脸跟踪的方法
WO2018107760A1 (zh) 一种用于行人检测的协同式深度网络模型方法
CN106446015A (zh) 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN105117720B (zh) 基于时空模型的目标尺度自适应跟踪方法
CN110674785A (zh) 一种基于人体关键点跟踪的多人姿态分析方法
Huang et al. Development and validation of a deep learning algorithm for the recognition of plant disease
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
US20150347804A1 (en) Method and system for estimating fingerprint pose
Suzuki et al. Enhancement of gross-motor action recognition for children by CNN with OpenPose
WO2013075295A1 (zh) 低分辨率视频的服装识别方法及系统
CN112528939A (zh) 一种人脸图像的质量评价方法及装置
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
Hammam et al. Real-time multiple spatiotemporal action localization and prediction approach using deep learning
CN109977819B (zh) 一种应用模板匹配方法的弱监督单个动作定位方法
CN114299279A (zh) 基于脸部检测和识别的无标记群体恒河猴运动量估计方法
CN113140309A (zh) 中医面色诊断方法及装置
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
Liu et al. Research on action recognition of player in broadcast sports video
CN116229511A (zh) 基于金丝猴躯干特征提取的身份重识别方法
CN111539362A (zh) 一种无人机图像目标检测装置及方法
Freire-Obregón et al. Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance
CN107220597B (zh) 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法
CN106446837B (zh) 一种基于运动历史图像的挥手检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201207

Address after: Room 501-2, building C3, Golden Business Park, Wangcheng economic and Technological Development Zone, Changsha City, Hunan Province

Patentee after: Changsha duying Electronic Technology Co., Ltd

Address before: Wanjiali road 410114 in Hunan province Changsha Tianxin District No. 960 2

Patentee before: Changsha University of Science & Technology

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200424

Termination date: 20210314