CN111259775B - 约束时域关系的视频动作定位方法和系统 - Google Patents

约束时域关系的视频动作定位方法和系统 Download PDF

Info

Publication number
CN111259775B
CN111259775B CN202010032794.5A CN202010032794A CN111259775B CN 111259775 B CN111259775 B CN 111259775B CN 202010032794 A CN202010032794 A CN 202010032794A CN 111259775 B CN111259775 B CN 111259775B
Authority
CN
China
Prior art keywords
action
probability
video
curve
curves
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010032794.5A
Other languages
English (en)
Other versions
CN111259775A (zh
Inventor
张娅
赵培森
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010032794.5A priority Critical patent/CN111259775B/zh
Publication of CN111259775A publication Critical patent/CN111259775A/zh
Application granted granted Critical
Publication of CN111259775B publication Critical patent/CN111259775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种约束时域关系的视频动作定位方法和系统,包括:视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序。本发明对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。

Description

约束时域关系的视频动作定位方法和系统
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法和系统,具体地,涉及一种约束时域关系的视频动作定位方法和系统。
背景技术
近些年来,每天都有海量的视频产生,数以亿计的视频面临着制作,储存,分发等处理压力。如何自动有效的定位视频中的关键信息就成为了关键。随着计算机计算能力的不断提升,深度学习在计算机视觉领域有着很好的表现,如图像的分类,物体的识别等等。在视频动作定位的任务中,深度学习的方法已经具有统治的地位,其主要分为两大类别:自顶向下的方法和自底向上的定位方法。
自顶向下的方法先对原始视频提取大量的候选动作区域,再用深度卷积神经网络提取的视频特征对这些候选动作区域进行分类,从而得到有效的动作提名。这样的方法需要产生大量无效的动作候选区域,增加了算法的计算复杂度。而且事先规定好的动作范围往往不够灵活较难得到精确的动作边界。为了解决这些问题,自底向上的定位方法,先对视频的每一个时刻都预测动作发生的概率,再通过预测的概率来得到动作的提名。这样先预测概率再来提候选动作的方法大大减少了无效的动作提名,从而减小了计算的复杂度,并且动作起止的选择也较为灵活。通过上述两种方法中的一种得到动作提名后,再训练一个动作的分类器便可得到最终的动作类别标签。
经检索,中国发明专利公开号为108875610A,公开了一种基于边界查找的用于视频中动作时间轴定位的方法。该方法采用时间轴边界似然的组件来改进动作的定位问题。该组件通过三个步骤来执行更精确的视频动作定位,给定一段动作提名,先扩大其左右边界,再预测单元时间范围内的边界概率,从而利用最大似然估计得到动作的时间边界。该方法在预测边界概率的时候没有考虑时刻和时刻之间的预测关系,而这种约束关系在预测边界概率的时候有着很大的帮助。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种约束时域关系的视频动作定位方法和系统,通过约束预测的动作概率曲线在时间上的关系,从而得到更加准确的动作概率曲线,完成视频中的动作定位。
根据本发明提供的一种约束时域关系的视频动作定位方法,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
优选地,所述视频特征提取步骤:
所述3D深度神经网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
优选地,所述动作曲线预测步骤:
利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线。
优选地,所述动作曲线约束步骤,其中:在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
优选地,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列
Figure BDA0002364939160000031
构建一个邻接矩阵A,其中,
Figure BDA0002364939160000032
为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率
Figure BDA0002364939160000033
之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
Figure BDA0002364939160000034
其中,
Figure BDA0002364939160000035
表示曲线内部约束在动作持续概率曲线中的损失函数;
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项
Figure BDA0002364939160000036
使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项
Figure BDA0002364939160000037
Figure BDA0002364939160000038
使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列
Figure BDA0002364939160000039
和动作结束概率序列
Figure BDA00023649391600000310
构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束
Figure BDA00023649391600000311
Figure BDA00023649391600000312
最终曲线内部约束的损失函数LIC可表示为:
Figure BDA00023649391600000313
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
Figure BDA0002364939160000041
其中,
Figure BDA0002364939160000042
表示持续概率曲线的一阶导数;
Figure BDA0002364939160000043
表示持续概率曲线在t+1时刻的值;
Figure BDA0002364939160000044
表示持续概率曲线在t时刻的值;
Figure BDA0002364939160000045
中正值部分表示为
Figure BDA0002364939160000046
负值部分表示为
Figure BDA0002364939160000047
则曲线之间的约束可以表示为:
Figure BDA0002364939160000048
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
Figure BDA0002364939160000049
表示t时刻的动作开始概率值;
Figure BDA00023649391600000410
表示t时刻的动作结束概率值;
优选地,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
优选地,所述动作提名步骤,具体如下:
根据预测的开始和结束动作概率曲线,筛选出可能是动作开始或者是结束的时刻点,以候选开始点为例,其应满足以下要求:
Figure BDA00023649391600000411
Figure BDA00023649391600000412
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。
优选地,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
优选地,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
根据本发明提供的一种约束时域关系的视频动作定位系统,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
与现有技术相比,本发明具有如下的有益效果:
本发明对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一实施例中方法流程示意图。
图2为本发明提供的一实施例中系统原理示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
根据本发明提供的一种约束时域关系的视频动作定位方法,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
具体地,所述视频特征提取步骤:
所述3D深度神经网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
具体地,所述动作曲线预测步骤:
利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线。
具体地,所述动作曲线约束步骤,其中:在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
具体地,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列
Figure BDA0002364939160000071
构建一个邻接矩阵A,其中,
Figure BDA0002364939160000072
为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率
Figure BDA0002364939160000073
之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
Figure BDA0002364939160000074
其中,
Figure BDA0002364939160000075
表示曲线内部约束在动作持续概率曲线中的损失函数;
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项
Figure BDA0002364939160000076
使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项
Figure BDA0002364939160000077
Figure BDA0002364939160000078
使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列
Figure BDA0002364939160000079
和动作结束概率序列
Figure BDA00023649391600000710
构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束
Figure BDA00023649391600000711
Figure BDA00023649391600000712
最终曲线内部约束的损失函数LIC可表示为:
Figure BDA00023649391600000713
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
Figure BDA00023649391600000714
其中,
Figure BDA0002364939160000081
表示持续概率曲线的一阶导数;
Figure BDA0002364939160000082
表示持续概率曲线在t+1时刻的值;
Figure BDA0002364939160000083
表示持续概率曲线在t时刻的值;
Figure BDA0002364939160000084
中正值部分表示为
Figure BDA0002364939160000085
负值部分表示为
Figure BDA0002364939160000086
则曲线之间的约束可以表示为:
Figure BDA0002364939160000087
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
Figure BDA0002364939160000088
表示t时刻的动作开始概率值;
Figure BDA0002364939160000089
表示t时刻的动作结束概率值;
具体地,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
具体地,所述动作提名步骤,具体如下:
根据预测的开始和结束动作概率曲线,筛选出可能是动作开始或者是结束的时刻点,以候选开始点为例,其应满足以下要求:
Figure BDA00023649391600000810
Figure BDA00023649391600000811
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。
具体地,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
具体地,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
根据本发明提供的一种约束时域关系的视频动作定位系统,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
下面通过优选例,对本发明进行更为具体地说明。
如图1所示,为本发明一种约束时域关系的视频动作定位方法实施例的流程图,该方法对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。
具体的,参照图1,所述方法包括如下步骤:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
对应于上述方法,本发明还提供一种约束时域关系的视频动作定位系统的实施例,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
上述一种约束时域关系的视频动作定位系统各个模块实现的技术特征可以与上述一种约束时域关系的视频动作定位方法中对应步骤实现的技术特征相同。
以下对各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。
在本发明部分实施例中,所述视频特征提取步骤,其中:视频特征的提取网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来。利用所述神经网络结构可以在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
在本发明部分实施例中,所述动作曲线预测步骤,其中:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线。
在本发明部分实施例中,所述动作曲线约束步骤,其中:在训练预测动作概率曲线模型的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
在本发明部分实施例中,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
在本发明部分实施例中,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
在本发明部分实施例中,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
具体地,视频特征提取模块、动作曲线预测模块、动作曲线约束模块、动作提名模块、动作边界修正模块和动作分类模块组成的一种约束时域关系的视频动作定位系统网络框架如图2所示,整个系统框架能够端到端地进行训练。
在如图2所示的实施例的系统框架中,将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE。相应的背景区域记为:VS,vC,和VE。在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,以动作持续曲线为例,利用预测的每一时刻的动作持续概率
Figure BDA0002364939160000111
构建一个邻接矩阵A,矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率
Figure BDA0002364939160000112
之间的差异。通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
Figure BDA0002364939160000113
其中MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合。NU,NV,NUV为所对应组合的数量。通过在动作持续曲线内部加入约束,式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景。同理可得动作开始曲线和动作结束曲线的曲线内部的约束。
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续曲线的一阶导数与开始和结束曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续曲线的一阶导数在离散的情况下可以由一阶差分来近似:
Figure BDA0002364939160000114
Figure BDA0002364939160000115
中正值部分表示为
Figure BDA0002364939160000116
负值部分表示为
Figure BDA0002364939160000117
则曲线之间的约束可以表示为:
Figure BDA0002364939160000118
利用加入上述约束训练的模型预测的开始和结束动作概率曲线,可以筛选出可能是动作开始或者是结束的时刻点,以候选开始点为例,其应满足以下要求:
Figure BDA0002364939160000121
Figure BDA0002364939160000122
Figure BDA0002364939160000123
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。最终对这些动作提名进行分类则可得到最终的定位结果。
综上,本发明通过深度神经网络提取视频的特征,并根据这种特征训练一个约束时域关系的视频动作定位网络。通过约束预测的动作概率曲线在时间上的关系,从而得到更加准确的动作概率曲线,完成视频中的动作定位。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种约束时域关系的视频动作定位方法,其特征在于,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用两支3D卷积神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差;
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
2.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述视频特征提取步骤:
所述两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用两支3D卷积神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
3.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:[S,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束;
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列
Figure FDA0004110529180000021
构建一个邻接矩阵A,其中,
Figure FDA0004110529180000022
为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率
Figure FDA0004110529180000023
之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
Figure FDA0004110529180000024
其中,
Figure FDA00041105291800000215
表示曲线内部约束在动作持续概率曲线中的损失函数;
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项
Figure FDA0004110529180000025
使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项
Figure FDA0004110529180000026
Figure FDA0004110529180000027
使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列
Figure FDA0004110529180000028
和动作结束概率序列
Figure FDA0004110529180000029
构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束
Figure FDA00041105291800000210
Figure FDA00041105291800000211
最终曲线内部约束的损失函数LIC可表示为:
Figure FDA00041105291800000212
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束,所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序,如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
Figure FDA00041105291800000213
其中,
Figure FDA00041105291800000214
表示持续概率曲线的一阶导数;
Figure FDA0004110529180000031
表示持续概率曲线在t+1时刻的值;
Figure FDA0004110529180000032
表示持续概率曲线在t时刻的值;
Figure FDA0004110529180000033
中正值部分表示为
Figure FDA0004110529180000034
负值部分表示为
Figure FDA0004110529180000035
则曲线之间的约束可以表示为:
Figure FDA0004110529180000036
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
Figure FDA0004110529180000037
表示t时刻的动作开始概率值;
Figure FDA0004110529180000038
表示t时刻的动作结束概率值。
4.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作提名步骤,具体如下:
根据预测的开始和结束动作概率曲线,筛选出可能是动作开始或者是结束的时刻点,以候选开始点为例,其应满足以下要求:
Figure FDA0004110529180000039
Figure FDA00041105291800000310
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名,用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。
5.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
6.一种约束时域关系的视频动作定位系统,其特征在于,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用两支3D卷积神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差;
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
CN202010032794.5A 2020-01-13 2020-01-13 约束时域关系的视频动作定位方法和系统 Active CN111259775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010032794.5A CN111259775B (zh) 2020-01-13 2020-01-13 约束时域关系的视频动作定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010032794.5A CN111259775B (zh) 2020-01-13 2020-01-13 约束时域关系的视频动作定位方法和系统

Publications (2)

Publication Number Publication Date
CN111259775A CN111259775A (zh) 2020-06-09
CN111259775B true CN111259775B (zh) 2023-04-28

Family

ID=70946896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010032794.5A Active CN111259775B (zh) 2020-01-13 2020-01-13 约束时域关系的视频动作定位方法和系统

Country Status (1)

Country Link
CN (1) CN111259775B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635616A (zh) * 2016-01-27 2016-06-01 中测新图(北京)遥感技术有限责任公司 一种视频数据和地理位置信息的融合方法和装置
CN110110648A (zh) * 2019-04-30 2019-08-09 北京航空航天大学 基于视觉感知与人工智能的动作提名方法
CN110188733A (zh) * 2019-06-10 2019-08-30 电子科技大学 基于3d区域卷积神经网络的时序行为检测方法及系统
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327469B (zh) * 2015-06-29 2019-06-18 北京航空航天大学 一种语义标签引导的视频对象分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635616A (zh) * 2016-01-27 2016-06-01 中测新图(北京)遥感技术有限责任公司 一种视频数据和地理位置信息的融合方法和装置
CN110110648A (zh) * 2019-04-30 2019-08-09 北京航空航天大学 基于视觉感知与人工智能的动作提名方法
CN110188733A (zh) * 2019-06-10 2019-08-30 电子科技大学 基于3d区域卷积神经网络的时序行为检测方法及系统
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法

Also Published As

Publication number Publication date
CN111259775A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
US10699170B2 (en) Apparatuses and methods for semantic image labeling
US10579876B2 (en) Methods and systems for social relation identification
WO2023040506A1 (zh) 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112819065A (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN111199238A (zh) 一种基于双流卷积神经网络的行为识别方法及设备
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
Isupova et al. Learning methods for dynamic topic modeling in automated behavior analysis
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN116311005A (zh) 一种用于运动图像处理装置、方法及存储介质
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN112949456B (zh) 视频特征提取模型训练、视频特征提取方法和装置
CN111259775B (zh) 约束时域关系的视频动作定位方法和系统
CN114091555A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN117274926A (zh) 交通信号设备的控制方法及系统
US20230401809A1 (en) Image data augmentation device and method
CN115809352A (zh) 局部监督长视频时序文本检索方法及系统
CN111652083B (zh) 一种基于自适应采样的弱监督时序动作检测方法及系统
CN111723872B (zh) 行人属性识别方法及装置、存储介质、电子装置
US20230260262A1 (en) Automated annotation of visual data through computer vision template matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant