CN112883817A - 动作定位方法、装置、电子设备和存储介质 - Google Patents
动作定位方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112883817A CN112883817A CN202110102542.XA CN202110102542A CN112883817A CN 112883817 A CN112883817 A CN 112883817A CN 202110102542 A CN202110102542 A CN 202110102542A CN 112883817 A CN112883817 A CN 112883817A
- Authority
- CN
- China
- Prior art keywords
- action
- video
- motion
- level
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 355
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000033001 locomotion Effects 0.000 claims description 163
- 230000004807 localization Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 abstract description 27
- 238000002372 labelling Methods 0.000 abstract description 13
- 230000002349 favourable effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种动作定位方法、装置、电子设备和存储介质,其中方法包括:确定待定位的视频;基于动作定位模型,从视频中选取各动作类型的相关帧并对视频中各图像帧进行动作分类,基于各动作类型的相关帧和各图像帧的动作分类结果,确定帧级动作定位结果;其中,动作定位模型是基于样本视频及其视频级动作标签训练得到的。本发明提供的方法、装置、电子设备和存储介质,应用视频级动作标签实现动作定位模型的弱监督训练,无需预先标注帧级别的动作标签,大大缩减了人工标注的工作量,降低了训练样本的获取难度,有助于提高动作定位的可用性。动作定位模型从两个帧级别方向分别进行分析预测,有助于进一步提高弱监督下的动作定位的可靠性和准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种动作定位方法、装置、电子设备和存储介质。
背景技术
针对视频的动作定位是视频理解的关键问题之一,在人机交互、人类动作理解等领域均有重要应用。
目前的动作定位多是基于深度学习模型实现的,而深度学习模型在训练过程中需要人工标注样本视频中各图像帧的动作标签,帧级别的标签标注需要消耗大量的人力和时间成本,获取难度巨大,且单帧图像所展现的动作往往并不清楚,导致标注所得的帧级别标签的准确性欠佳。
发明内容
本发明提供一种动作定位方法、装置、电子设备和存储介质,用以解决现有的动作定位方法在监督学习时需要大量帧级别标签,费时费力且可靠性差的问题。
本发明提供一种动作定位方法,包括:
确定待定位的视频;
基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;
其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
根据本发明提供的一种动作定位方法,所述基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果,包括:
基于所述动作定位模型的相关帧选取层,应用所述各图像帧的第一动作特征从所述视频中选取各动作类型的相关帧;
基于所述动作定位模型的动作分类层,对所述各图像帧的第二动作特征进行动作分类,得到所述各图像帧的动作分类结果;
基于所述动作定位模型的动作定位层,应用所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果。
根据本发明提供的一种动作定位方法,所述基于所述动作定位模型的相关帧选取层,应用所述各图像帧的第一动作特征从所述视频中选取各动作类型的相关帧,之前还包括:
基于所述动作定位模型的动作特征提取层,分别提取所述各图像帧的动作特征,将所述动作特征作为所述第一动作特征和所述第二动作特征。
根据本发明提供的一种动作定位方法,所述动作定位模型是基于如下步骤训练得到的:
基于待训练的初始模型,确定所述样本视频的帧级动作定位预测结果;
基于所述样本视频的帧级动作定位预测结果,确定所述样本视频的视频级预测动作类型;
基于所述视频级预测动作类型与所述视频级动作标签,调整所述初始模型的模型参数,得到所述动作定位模型。
根据本发明提供的一种动作定位方法,所述基于所述样本视频的帧级动作定位预测结果,确定所述样本视频的视频级预测动作类型,包括:
将所述样本视频的帧级动作定位预测结果的均值确定为所述视频级预测动作类型。
根据本发明提供的一种动作定位方法,所述基于所述视频级预测动作类型与所述视频级动作标签,调整所述初始模型的模型参数,得到所述动作定位模型,包括:
基于所述视频级预测动作类型与所述视频级动作标签,确定交叉熵损失函数的视频级损失值;
基于所述视频级损失值调整所述初始模型的模型参数,得到所述动作定位模型。
根据本发明提供的一种动作定位方法,所述视频级动作标签为单个动作类型,或者由多个连续动作构成的组合动作类型。
本发明提供一种动作定位装置,包括:
视频确定单元,用于确定待定位的视频;
动作定位单元,用于基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;
其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述动作定位方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述动作定位方法的步骤。
本发明提供的动作定位方法、装置、电子设备和存储介质,应用视频级动作标签实现动作定位模型的弱监督训练,无需预先标注帧级别的动作标签,大大缩减了人工标注的工作量,降低了训练样本的获取难度,有助于提高动作定位的可用性。在此基础上,动作定位模型内部通过选取各动作类型的相关帧和对各图像帧进行动作分类实现动作定位,从两个帧级别方向分别进行分析预测,有助于进一步提高弱监督下的动作定位的可靠性和准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的动作定位方法的流程示意图;
图2是本发明提供的动作定位方法中步骤120的实施方式的流程示意图;
图3是本发明提供的动作定位模型的训练方法的流程示意图;
图4是本发明提供的动作定位装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
视频中人类动作的时间范围检测是一个具有挑战性的计算机视觉问题,需要帧级别动作标签的监督,而复杂的标注过程限制了动作定位方法的应用和推广。虽然目前有技术人员采用电影脚本获取动作标签和未剪辑视频的近似时间边界进行监督,可以降低帧级别动作标签的获取难度,但是上述方式所得的帧级别动作标签的准确性和可靠性均无法保证。
针对这一问题,本发明实施例提供了一种弱监督的动作定位方法。图1是本发明提供的动作定位方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待定位的视频。
步骤120,基于动作定位模型,从视频中选取各动作类型的相关帧并对视频中各图像帧进行动作分类,基于各动作类型的相关帧和各图像帧的动作分类结果,确定视频的帧级动作定位结果;其中,动作定位模型是基于样本视频及其视频级动作标签训练得到的。
此处,待定位的视频即需要用于动作定位的视频,视频可以体现为包括多个图像帧的序列。动作定位模型用于对输入的视频中的每个图像帧进行动作定位,从而得到并输出帧级别的动作定位结果,即帧级动作定位结果。此处的帧级动作定位结果是相对于视频中的每一图像帧而言的,帧级动作定位结果不仅能够表征视频中包含的动作类型,还能够表征视频中具体哪几帧包含了该种动作类型,可选地,帧级动作定位结果还可以表征视频中各图像帧对应各种动作类型的概率或者得分等。
具体在步骤120的执行过程中,动作定位模型可以针对输入的待定位的视频进行各动作类型的相关帧选取,即针对各动作类型,分别从视频的各图像帧中,选取与对应动作类型相关联的图像帧作为对应动作类型的关联帧,此处体现的是从动作类型到图像帧的映射关系。此外,动作定位模型还对输入的视频中各图像帧进行动作分类,从而确定各图像帧所表征的动作类型,此处体现的是从图像帧到动作类型的映射关系。在此基础上,动作定位模型可以将这两个帧级别方向分析预测的结果相融合,从而得到并输出帧级别的动作定位结果,即帧级动作定位结果。
不同于目前强监督学习得到的动作定位模型,本发明实施例中的动作定位模型是弱监督学习得到的,即本发明实施例中的动作定位模型的训练过程中并不需要帧级别动作标签,仅应用视频级动作标签即可完成模型训练,视频级动作标签的应用,相对于帧级别动作标签,大大缩减了人工标注的工作量。
在步骤120执行之前,可以预先训练得到动作定位模型,动作定位模型的训练可以通过如下步骤实现:首先,收集大量样本视频,并通过人工标注或者视频动作分类等途径,获取样本视频的视频级动作标签。在此基础上,将样本视频输入至待训练的初始模型,由初始模型从样本视频中选取各动作类型的相关帧并对样本视频中各图像帧进行动作分类,得到初始模型预测出的样本视频的帧级动作定位结果,并由此确定视频级预测动作类型,基于视频级预测动作类型和预先标注的视频级动作标签的差异,调节初始模型的参数,直至初始模型训练完成,将训练完成的初始模型作为动作定位模型。
在动作定位模型的训练过程中,考虑到训练样本的标签是视频级别而非帧级别,在初始模型输出预测所得的帧级动作定位结果之后,需要将样本视频中各图像帧的帧级动作定位结果融合成视频级预测动作类型,具体的方式可以是求均值,也可以是取最大值,还可以是加权求和等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,应用视频级动作标签实现动作定位模型的弱监督训练,无需预先标注帧级别的动作标签,大大缩减了人工标注的工作量,降低了训练样本的获取难度,有助于提高动作定位的可用性。在此基础上,动作定位模型内部通过选取各动作类型的相关帧和对各图像帧进行动作分类实现动作定位,从两个帧级别方向分别进行分析预测,有助于进一步提高弱监督下的动作定位的可靠性和准确性。
在得到视频的动作定位结果,即确定视频中哪些图像帧中包含了特定的动作类型之后,即可以根据定位所得的图像帧执行用户指定的操作,例如对包含特定动作类型的图像帧进行解说、评论,或者对包含特定动作类型的图像帧进行抠图、场景分类、换脸等,以提高用户的视频体验。
基于上述实施例,图2是本发明提供的动作定位方法中步骤120的实施方式的流程示意图,如图2所示,步骤120包括:
步骤121,基于动作定位模型的相关帧选取层,应用各图像帧的第一动作特征从视频中选取各动作类型的相关帧;
步骤122,基于动作定位模型的动作分类层,对各图像帧的第二动作特征进行动作分类,得到各图像帧的动作分类结果。
具体地,动作定位模型中,相关帧选取和动作分类可以通过两个模块分别执行,对应于动作定位模型中的相关帧选取层和动作分类层。
此处,视频中各图像帧的第一动作特征和第二动作特征均用于表示对应图像帧中包含的与动作相关的特征,例如在球队比赛视频中,图像帧的动作特征可以表征运动员躯干的和脚的相对位置、角度,运动员离球的距离、方向和角度,球与球门的位置,球和球门之间的方向、角度等。第一动作特征和第二动作特征均为动作特征,“第一”和“第二”仅用于区分是应用在相关帧选取和动作分类中,同一图像帧的第一动作特征和第二动作特征可以是相同的,也可以是各有侧重的,本发明实施例对此不作具体限定。
其中,相关帧选取层可以从视频整体的角度出发,针对任一动作类型,从视频中选取与该动作类型相关的图像帧作为该动作类型的相关帧。相关帧的选取过程中,相关帧选取层不仅考虑独立视频中各图像帧的第一动作特征,还考虑了视频整体所展现的各图像帧中的第一动作特征在时序和空间上的相关性,依赖于图像帧之间的相关性来权衡视频中能够体现该动作类型的图像帧。此处各动作类型的相关帧可以体现为各图像帧与各个动作类型相关的概率,针对任一图像帧,其与各个动作类型相关的概率可以表示该图像帧从属于各个动作类型的概率。
动作分类层可以从视频中单个图像帧的角度出发,针对单个图像帧,基于该图像帧的第二动作特征,分析该图像帧可能表征的动作类型,从而输出该图像帧的动作分类结果。此处图像帧的动作分类结果可以是该图像帧针对各个动作类型的概率得分,表示各个动作类型在该图像帧中出现的概率。
需要说明的是,本发明实施例不对步骤121和步骤122的执行顺序作具体限定,步骤121可以在步骤122之前或者之后执行,也可以与步骤122同步执行。
步骤123,基于动作定位模型的动作定位层,应用各动作类型的相关帧和各图像帧的动作分类结果,确定视频的帧级动作定位结果。
具体地,动作定位层用于对各动作类型的相关帧和各图像帧的动作分类结果进行融合,使得最终得到的帧级动作定位结果既考虑了单个图像帧的动作特征也考虑了视频整体信息,从而保证动作定位的可靠性和准确性。
基于上述任一实施例,步骤121和步骤122之前还包括:
基于动作定位模型的动作特征提取层,分别提取各图像帧的动作特征,将动作特征作为第一动作特征和第二动作特征。
具体地,动作定位模型还包括动作特征提取层,且相关帧选取层和动作分类层共用一个动作特征提取层。此处,同一图像帧的第一动作特征和第二动作特征是相同的。对应在动作定位模型的训练过程中,动作特征提取层、相关帧选取层、动作分类层和动作定位层可以作为一个模型整体进行端到端的训练。通过共用动作特征提取层,可以实现相关帧选取和动作分类之间的信息共享,从而提高动作定位的准确性。
基于上述任一实施例,假设待定位的视频为V,视频V包含T个图像帧,即V=<I1,I2,…,It,…,IT>,其中It具体是视频V中的第t个图像帧,I为图像帧表示,具体为3×H×W的向量表示,其中3为图像帧的通道数,H和W分别为图像帧的高和宽。
动作分类层可以表示为σ(h(f(It,θ),θcls)),其中h表示动作分类函数,θcls为函数h学习所得的参数。h具体可以体现为h(·,θcls):Ω→Y的形式,即将动作特征f(It,θ)输入至函数h中,并返回一个C维的动作分类得分向量,此处的动作分类得分向量即C个动作类别分别在图像帧It中出现的概率。在得到动作分类得分向量后,还要通过函数σ对动作分类得分向量进行规范化,此处函数σ为softmax规范化函数。
相关帧选取层可以表示为g(It,V,θg),其中g表示相关帧选取函数,θg即函数g学习所得的参数。函数g由两部分组成,其中一部分负责从视频的帧序列中提取各图像帧的动作特征,这一部分也就是与动作分类层共用的动作特征提取层f,另一部分用于基于各图像帧的动作特征从视频整体的角度进行相关帧选取,这一部分可以通过一个专用的分类器进行表示,具体可以是h(·,θdet),也就是说这一部分在网络结构上与动作分类层中的分类网络h(·,θcls)是一致的,但是两者具体应用的参数是不同的,此处的θdet同样可以是函数g学习所得的。由此得到g(It,V,θg)=h(f(It,θ),θdet),最终得到的各动作类型的相关帧的得分向量可以表示为Xt,Xt中第q个动作类型的得分可以表示为
动作定位层可以表示为g(It,V,θg)⊙σ(h(f(It,θ),θcls)),其中⊙为元素内积,通过g(It,V,θg)⊙σ(h(f(It,θ),θcls))即可实现各动作类型的相关帧和所述各图像帧的动作分类结果的融合,从而得到各图像帧分别对应的帧级动作定位结果。
基于上述任一实施例,图3是本发明提供的动作定位模型的训练方法的流程示意图,如图3所示,训练方法包括:
步骤310,基于待训练的初始模型,确定样本视频的帧级动作定位预测结果。
具体地,在完成样本视频的收集及其视频级动作标签的标注之后,可以将样本视频输入到待训练的初始模型中,由初始模型基于样本视频预测动作定位结果,从而得到初始模型输出的样本视频的帧级动作定位预测结果,此处的帧级动作定位预测结果对应于样本视频中每一图像帧的动作定位预测结果。进一步地,初始模型在对样本视频进行动作定位时,可以从各动作类型的相关帧选取和样本视频中各图像帧的动作分类两个帧级别方向进行分析预测,进而将两个帧级别方向分析预测的结果融合成帧级动作定位预测结果。
步骤320,基于样本视频的帧级动作定位预测结果,确定样本视频的视频级预测动作类型。
步骤330,基于所视频级预测动作类型与视频级动作标签,调整初始模型的模型参数,得到动作定位模型。
具体地,考虑到训练样本的标签是视频级别而非帧级别,需要在得到初始模型输出的帧级别的动作定位结果进行融合,从而得到视频级别的预测结果,即视频级预测动作类型。随即,可以基于视频级预测动作类型和预先标注的视频级动作标签的差异,调节初始模型的参数,从而使得初始模型能够在视频级别上进行参数的更新迭代,将训练完成的初始模型作为动作定位模型。
本发明实施例提供的方法,从视频级别上实现了帧级别的动作定位模型的弱监督训练,大大缩减了人工标注的工作量,降低了训练样本的获取难度,有助于提高动作定位的可用性。
基于上述任一实施例,步骤320包括:
将样本视频的帧级动作定位预测结果的均值确定为视频级预测动作类型。
具体地,样本视频的帧级动作定位预测结果中包含了样本视频中每个图像帧的动作定位预测结果,对样本视频的帧级动作定位预测结果求均值是指将样本视频中每个图像帧的动作定位预测结果进行平均,可以表示为如下公式:
式中,g(It,V,θg)⊙σ(h(f(It,θ),θcls))即图像帧It的动作定位预测结果,为样本视频中所有图像帧的动作定位预测结果的总和,在此基础上乘以1/T即对样本视频的帧级动作定位预测结果求均值,得到的即视频级预测动作类型。
基于上述任一实施例,步骤330包括:
基于视频级预测动作类型与视频级动作标签,确定交叉熵损失函数的视频级损失值;基于视频级损失值调整初始模型的模型参数,得到动作定位模型。
具体地,动作定位模型训练的损失函数为交叉熵(Cross-Entropy,CE),具体可以表示为L(y,),其中L为交叉熵,y和分别为视频级动作标签和视频级预测动作类型。进一步地,考虑到视频级动作标签和视频级预测动作类型均用于反映样本视频所表征的动作类型,对于预先设置的多种候选的动作类型,视频级动作标签和视频级预测动作类型均可以表示为二进制向量的形式,针对每个动作类型,用1表示样本视频表征该种动作类型,用0表示样本视频不表征该种动作类型,例如y∈Y={0,1}C,C为候选的动作类型的数量。相应地,动作定位模型训练的损失函数具体可以是二进制交叉熵。
基于上述任一实施例,视频级动作标签为单个动作类型,或者由多个连续动作构成的组合动作类型。
例如在球队比赛视频中,可以将单个动作类型作为视频级动作标签,此处的单个动作类型可以是前进、后退、转身、跳起等,也可以将由多个连续动作构成的组合动作类型作为视频级动作标签,此处的组合动作类型可以是进球、罚球、三分、上篮等,其中组合动作类型进球可以进一步拆分为前进-跳起-投篮三个单个动作类型。在样本视频标注时具体采用何种类型的视频级动作标签,可视实际标注的样本视频而定。
针对于视频级动作标签为组合动作类型的情况,对应在动作定位模型的预测阶段,动作定位模型从视频中选取各动作类型的相关帧时,不仅从组合动作类型层面上进行选择,还可以进一步划分组合动作类型下的各个子动作类型的相关帧。
基于上述任一实施例,图4是本发明提供的动作定位装置的结构示意图,如图4所示,该装置包括:
视频确定单元410,用于确定待定位的视频;
动作定位单元420,用于基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;
其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
本发明实施例提供的装置,应用视频级动作标签实现动作定位模型的弱监督训练,无需预先标注帧级别的动作标签,大大缩减了人工标注的工作量,降低了训练样本的获取难度,有助于提高动作定位的可用性。在此基础上,动作定位模型内部通过选取各动作类型的相关帧和对各图像帧进行动作分类实现动作定位,从两个帧级别方向分别进行分析预测,有助于进一步提高弱监督下的动作定位的可靠性和准确性。
基于上述任一实施例,所述动作定位单元420包括:
相关帧选取子单元,用于基于所述动作定位模型的相关帧选取层,应用所述各图像帧的第一动作特征从所述视频中选取各动作类型的相关帧;
动作分类子单元,用于基于所述动作定位模型的动作分类层,对所述各图像帧的第二动作特征进行动作分类,得到所述各图像帧的动作分类结果;
动作定位子单元,用于基于所述动作定位模型的动作定位层,应用所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果。
基于上述任一实施例,所述动作定位单元420还包括:
动作特征提取子单元,用于基于所述动作定位模型的动作特征提取层,分别提取所述各图像帧的动作特征,将所述动作特征作为所述第一动作特征和所述第二动作特征。
基于上述任一实施例,该装置该包括:
训练预测单元,用于基于待训练的初始模型,确定所述样本视频的帧级动作定位预测结果;
预测整合单元,用于基于所述样本视频的帧级动作定位预测结果,确定所述样本视频的视频级预测动作类型;
参数更新单元,用于基于所述视频级预测动作类型与所述视频级动作标签,调整所述初始模型的模型参数,得到所述动作定位模型。
基于上述任一实施例,所述预测整合单元用于:
将所述样本视频的帧级动作定位预测结果的均值确定为所述视频级预测动作类型。
基于上述任一实施例,参数更新单元用于:
基于所述视频级预测动作类型与所述视频级动作标签,确定交叉熵损失函数的视频级损失值;
基于所述视频级损失值调整所述初始模型的模型参数,得到所述动作定位模型。
基于上述任一实施例,所述视频级动作标签为单个动作类型,或者由多个连续动作构成的组合动作类型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行动作定位方法,该方法包括:确定待定位的视频;基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的动作定位方法,该方法包括:确定待定位的视频;基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的动作定位方法,该方法包括:确定待定位的视频;基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选取其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种动作定位方法,其特征在于,包括:
确定待定位的视频;
基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;
其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
2.根据权利要求1所述的动作定位方法,其特征在于,所述基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果,包括:
基于所述动作定位模型的相关帧选取层,应用所述各图像帧的第一动作特征从所述视频中选取各动作类型的相关帧;
基于所述动作定位模型的动作分类层,对所述各图像帧的第二动作特征进行动作分类,得到所述各图像帧的动作分类结果;
基于所述动作定位模型的动作定位层,应用所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果。
3.根据权利要求2所述的动作定位方法,其特征在于,所述基于所述动作定位模型的相关帧选取层,应用所述各图像帧的第一动作特征从所述视频中选取各动作类型的相关帧,之前还包括:
基于所述动作定位模型的动作特征提取层,分别提取所述各图像帧的动作特征,将所述动作特征作为所述第一动作特征和所述第二动作特征。
4.根据权利要求1所述的动作定位方法,其特征在于,所述动作定位模型是基于如下步骤训练得到的:
基于待训练的初始模型,确定所述样本视频的帧级动作定位预测结果;
基于所述样本视频的帧级动作定位预测结果,确定所述样本视频的视频级预测动作类型;
基于所述视频级预测动作类型与所述视频级动作标签,调整所述初始模型的模型参数,得到所述动作定位模型。
5.根据权利要求4所述的动作定位方法,其特征在于,所述基于所述样本视频的帧级动作定位预测结果,确定所述样本视频的视频级预测动作类型,包括:
将所述样本视频的帧级动作定位预测结果的均值确定为所述视频级预测动作类型。
6.根据权利要求4所述的动作定位方法,其特征在于,所述基于所述视频级预测动作类型与所述视频级动作标签,调整所述初始模型的模型参数,得到所述动作定位模型,包括:
基于所述视频级预测动作类型与所述视频级动作标签,确定交叉熵损失函数的视频级损失值;
基于所述视频级损失值调整所述初始模型的模型参数,得到所述动作定位模型。
7.根据权利要求1至6中任一项所述的动作定位方法,其特征在于,所述视频级动作标签为单个动作类型,或者由多个连续动作构成的组合动作类型。
8.一种动作定位装置,其特征在于,包括:
视频确定单元,用于确定待定位的视频;
动作定位单元,用于基于动作定位模型,从所述视频中选取各动作类型的相关帧并对所述视频中各图像帧进行动作分类,基于所述各动作类型的相关帧和所述各图像帧的动作分类结果,确定所述视频的帧级动作定位结果;
其中,所述动作定位模型是基于样本视频及其视频级动作标签训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述动作定位方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述动作定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110102542.XA CN112883817A (zh) | 2021-01-26 | 2021-01-26 | 动作定位方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110102542.XA CN112883817A (zh) | 2021-01-26 | 2021-01-26 | 动作定位方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883817A true CN112883817A (zh) | 2021-06-01 |
Family
ID=76053159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110102542.XA Pending CN112883817A (zh) | 2021-01-26 | 2021-01-26 | 动作定位方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883817A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038272A (zh) * | 2021-04-27 | 2021-06-25 | 武汉星巡智能科技有限公司 | 婴儿视频自动剪辑的方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027377A (zh) * | 2019-10-30 | 2020-04-17 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
CN111353519A (zh) * | 2018-12-24 | 2020-06-30 | 北京三星通信技术研究有限公司 | 用户行为识别方法和系统、具有ar功能的设备及其控制方法 |
CN111539290A (zh) * | 2020-04-16 | 2020-08-14 | 咪咕文化科技有限公司 | 视频动作识别方法、装置、电子设备及存储介质 |
US20200272823A1 (en) * | 2017-11-14 | 2020-08-27 | Google Llc | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network |
CN111612093A (zh) * | 2020-05-29 | 2020-09-01 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置、电子设备及存储介质 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
-
2021
- 2021-01-26 CN CN202110102542.XA patent/CN112883817A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200272823A1 (en) * | 2017-11-14 | 2020-08-27 | Google Llc | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network |
CN111353519A (zh) * | 2018-12-24 | 2020-06-30 | 北京三星通信技术研究有限公司 | 用户行为识别方法和系统、具有ar功能的设备及其控制方法 |
CN111027377A (zh) * | 2019-10-30 | 2020-04-17 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
CN111539290A (zh) * | 2020-04-16 | 2020-08-14 | 咪咕文化科技有限公司 | 视频动作识别方法、装置、电子设备及存储介质 |
CN111612093A (zh) * | 2020-05-29 | 2020-09-01 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置、电子设备及存储介质 |
CN111914644A (zh) * | 2020-06-30 | 2020-11-10 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
Non-Patent Citations (1)
Title |
---|
YUANJUN XIONG等: "A Pursuit of Temporal Accuracy in General Activity Detection", pages 1 - 10, Retrieved from the Internet <URL:https://arxiv.org/abs/1703.02716> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038272A (zh) * | 2021-04-27 | 2021-06-25 | 武汉星巡智能科技有限公司 | 婴儿视频自动剪辑的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532996B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN111026914B (zh) | 视频摘要模型的训练方法、视频摘要生成方法及装置 | |
Zhou et al. | Cascaded interactional targeting network for egocentric video analysis | |
Lu et al. | Learning spatiotemporal attention for egocentric action recognition | |
CN110070029B (zh) | 一种步态识别方法及装置 | |
CN113536922A (zh) | 一种加权融合多种图像任务的视频行为识别方法 | |
CN109086873A (zh) | 递归神经网络的训练方法、识别方法、装置及处理设备 | |
CN112131978A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
Chen et al. | Video saliency prediction using enhanced spatiotemporal alignment network | |
Wang et al. | Rethinking the learning paradigm for dynamic facial expression recognition | |
CN113822254B (zh) | 一种模型训练方法及相关装置 | |
Hammam et al. | Real-time multiple spatiotemporal action localization and prediction approach using deep learning | |
Yoon et al. | A novel online action detection framework from untrimmed video streams | |
Chaudhary et al. | Pose guided dynamic image network for human action recognition in person centric videos | |
CN112883817A (zh) | 动作定位方法、装置、电子设备和存储介质 | |
Dasari et al. | I-VITAL: Information aided visual tracking with adversarial learning | |
CN113191183A (zh) | 人员重新识别中的无监督域纠正伪标签方法及装置 | |
CN110096989B (zh) | 图像处理方法和装置 | |
Li et al. | What and how well you exercised? An efficient analysis framework for fitness actions | |
CN111429414A (zh) | 基于人工智能的病灶影像样本确定方法和相关装置 | |
Li et al. | Online selection of the best k-feature subset for object tracking | |
CN111160170A (zh) | 一种自学习的人体行为识别与异常检测方法 | |
Du | The computer vision simulation of athlete’s wrong actions recognition model based on artificial intelligence | |
CN114627085A (zh) | 目标图像的识别方法和装置、存储介质及电子设备 | |
Hernández-Vela et al. | Human limb segmentation in depth maps based on spatio-temporal graph-cuts optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |