CN111259775A - 约束时域关系的视频动作定位方法和系统 - Google Patents
约束时域关系的视频动作定位方法和系统 Download PDFInfo
- Publication number
- CN111259775A CN111259775A CN202010032794.5A CN202010032794A CN111259775A CN 111259775 A CN111259775 A CN 111259775A CN 202010032794 A CN202010032794 A CN 202010032794A CN 111259775 A CN111259775 A CN 111259775A
- Authority
- CN
- China
- Prior art keywords
- action
- probability
- video
- curve
- curves
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000009471 action Effects 0.000 claims abstract description 315
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000002688 persistence Effects 0.000 claims description 26
- 238000012937 correction Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种约束时域关系的视频动作定位方法和系统,包括:视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序。本发明对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。
Description
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法和系统,具体地,涉及一种约束时域关系的视频动作定位方法和系统。
背景技术
近些年来,每天都有海量的视频产生,数以亿计的视频面临着制作,储存,分发等处理压力。如何自动有效的定位视频中的关键信息就成为了关键。随着计算机计算能力的不断提升,深度学习在计算机视觉领域有着很好的表现,如图像的分类,物体的识别等等。在视频动作定位的任务中,深度学习的方法已经具有统治的地位,其主要分为两大类别:自顶向下的方法和自底向上的定位方法。
自顶向下的方法先对原始视频提取大量的候选动作区域,再用深度卷积神经网络提取的视频特征对这些候选动作区域进行分类,从而得到有效的动作提名。这样的方法需要产生大量无效的动作候选区域,增加了算法的计算复杂度。而且事先规定好的动作范围往往不够灵活较难得到精确的动作边界。为了解决这些问题,自底向上的定位方法,先对视频的每一个时刻都预测动作发生的概率,再通过预测的概率来得到动作的提名。这样先预测概率再来提候选动作的方法大大减少了无效的动作提名,从而减小了计算的复杂度,并且动作起止的选择也较为灵活。通过上述两种方法中的一种得到动作提名后,再训练一个动作的分类器便可得到最终的动作类别标签。
经检索,中国发明专利公开号为108875610A,公开了一种基于边界查找的用于视频中动作时间轴定位的方法。该方法采用时间轴边界似然的组件来改进动作的定位问题。该组件通过三个步骤来执行更精确的视频动作定位,给定一段动作提名,先扩大其左右边界,再预测单元时间范围内的边界概率,从而利用最大似然估计得到动作的时间边界。该方法在预测边界概率的时候没有考虑时刻和时刻之间的预测关系,而这种约束关系在预测边界概率的时候有着很大的帮助。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种约束时域关系的视频动作定位方法和系统,通过约束预测的动作概率曲线在时间上的关系,从而得到更加准确的动作概率曲线,完成视频中的动作定位。
根据本发明提供的一种约束时域关系的视频动作定位方法,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
优选地,所述视频特征提取步骤:
所述3D深度神经网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
优选地,所述动作曲线预测步骤:
利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线。
优选地,所述动作曲线约束步骤,其中:在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
优选地,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE;
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列构建一个邻接矩阵A,其中,为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
其中,
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项 使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列和动作结束概率序列构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束和最终曲线内部约束的损失函数LIC可表示为:
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
其中,
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
优选地,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
优选地,所述动作提名步骤,具体如下:
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。
优选地,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
优选地,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
根据本发明提供的一种约束时域关系的视频动作定位系统,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
与现有技术相比,本发明具有如下的有益效果:
本发明对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一实施例中方法流程示意图。
图2为本发明提供的一实施例中系统原理示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
根据本发明提供的一种约束时域关系的视频动作定位方法,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
具体地,所述视频特征提取步骤:
所述3D深度神经网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
具体地,所述动作曲线预测步骤:
利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线。
具体地,所述动作曲线约束步骤,其中:在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
具体地,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE;
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列构建一个邻接矩阵A,其中,为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
其中,
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项 使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列和动作结束概率序列构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束和最终曲线内部约束的损失函数LIC可表示为:
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
其中,
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
具体地,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
具体地,所述动作提名步骤,具体如下:
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。
具体地,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
具体地,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
根据本发明提供的一种约束时域关系的视频动作定位系统,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
下面通过优选例,对本发明进行更为具体地说明。
如图1所示,为本发明一种约束时域关系的视频动作定位方法实施例的流程图,该方法对输入的视频进行逐个时刻的动作概率预测,重点约束动作在时间维度上的关系,通过在模型的训练过程中加入约束,使得其能够准确地预测动作发生的概率,从而能够精确的定位视频中所发生的动作。
具体的,参照图1,所述方法包括如下步骤:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
对应于上述方法,本发明还提供一种约束时域关系的视频动作定位系统的实施例,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
上述一种约束时域关系的视频动作定位系统各个模块实现的技术特征可以与上述一种约束时域关系的视频动作定位方法中对应步骤实现的技术特征相同。
以下对各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。
在本发明部分实施例中,所述视频特征提取步骤,其中:视频特征的提取网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来。利用所述神经网络结构可以在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
在本发明部分实施例中,所述动作曲线预测步骤,其中:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线。
在本发明部分实施例中,所述动作曲线约束步骤,其中:在训练预测动作概率曲线模型的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
在本发明部分实施例中,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
在本发明部分实施例中,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
在本发明部分实施例中,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
具体地,视频特征提取模块、动作曲线预测模块、动作曲线约束模块、动作提名模块、动作边界修正模块和动作分类模块组成的一种约束时域关系的视频动作定位系统网络框架如图2所示,整个系统框架能够端到端地进行训练。
在如图2所示的实施例的系统框架中,将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE。相应的背景区域记为:VS,vC,和VE。在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,以动作持续曲线为例,利用预测的每一时刻的动作持续概率构建一个邻接矩阵A,矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率之间的差异。通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
其中MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合。NU,NV,NUV为所对应组合的数量。通过在动作持续曲线内部加入约束,式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景。同理可得动作开始曲线和动作结束曲线的曲线内部的约束。
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续曲线的一阶导数与开始和结束曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续曲线的一阶导数在离散的情况下可以由一阶差分来近似:
在限制动作长度内组合开始与结束的候选时刻点,得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。最终对这些动作提名进行分类则可得到最终的定位结果。
综上,本发明通过深度神经网络提取视频的特征,并根据这种特征训练一个约束时域关系的视频动作定位网络。通过约束预测的动作概率曲线在时间上的关系,从而得到更加准确的动作概率曲线,完成视频中的动作定位。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种约束时域关系的视频动作定位方法,其特征在于,包括:
视频特征提取步骤:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测步骤:利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线;
动作曲线约束步骤:在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线,使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名步骤:利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度;
动作边界修正步骤:训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类步骤:对候选的提名动作进行分类,给每一个动作提名打上标签。
2.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述视频特征提取步骤:
所述3D深度神经网络为两支3D卷积神经网络,分别用来提取视频片段的RGB和光流特征,再将提取的特征拼接起来;
利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征,从而得到视频的特征序列。
3.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作曲线预测步骤:
利用提取好的视频特征序列训练动作概率曲线模型,预测视频中动作的开始、持续、结束的概率曲线。
4.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作曲线约束步骤,其中:在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。
5.根据权利要求4所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作曲线约束步骤,具体如下:
将预测的三条动作曲线记为,开始:pS,持续:pC,结束:pE,并且根据视频动作的发生时刻标注,将训练视频的预测曲线划分为前景和背景区域,即包含动作开始,动作持续,动作结束的时间段为前景区域,分别记为:US,UC,和UE,相应的背景区域记为:VS,VC,和VE;
在动作曲线预测模型训练的过程中,加入两种约束:曲线内部的约束和曲线之间的约束。
对于曲线内部的约束,在动作持续概率曲线中利用预测的动作持续概率序列构建一个邻接矩阵A,其中,为动作持续概率在t时刻的值,T为视频的时间长度;矩阵A中的每一个元素ai,j描述了任意两个时刻动作持续概率之间的差异,下标i,j表示任意的两个时刻;通过约束A中的数值,从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出,并且使得概率曲线在前景和背景区域的输出有明显的差异,具体的约束如下所示:
其中,
MU,MV,MUV为二值的0,1矩阵,矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合,背景区域内部的组合,以及前景和背景区域之间的组合;
NU表示邻接矩阵A中前景区域内部的组合的数量;
NV表示邻接矩阵A中背景区域内部的组合的数量;
NUV表示邻接矩阵A中前景和背景区域之间的组合的数量;
通过在动作持续曲线内部加入约束,式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应,式中的第三项 使得动作持续概率在前景和背景的区域之间有着差异,从而能够区分动作的前景和背景,替换式中的邻接矩阵A分别为动作开始概率序列和动作结束概率序列构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束和最终曲线内部约束的损失函数LIC可表示为:
对于曲线之间的约束,一个动作的发生所遵循的时间顺序一定是开始、持续、结束,反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示,持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似:
其中,
其中,
LEC表示曲线之间约束的损失函数;
T表示视频的时间长度;
6.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作提名步骤,其中:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名,并根据三种动作概率曲线评价候选动作提名的置信度。
8.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作边界修正步骤:以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签,训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
9.根据权利要求1所述的一种约束时域关系的视频动作定位方法,其特征在于,所述动作分类步骤:训练一个动作分类的卷积神经网络对候选的提名动作进行分类,给每一个动作提名打上标签。
10.一种约束时域关系的视频动作定位系统,其特征在于,包括:
视频特征提取模块:对输入的未经裁剪的长视频,使用3D深度神经网络提取其特征,得到能够表达视频语义信息的特征序列;
动作曲线预测模块:利用提取好的视频特征序列训练模型,预测动作的开始、持续、结束的概率曲线;
动作曲线约束模块:在模型训练的过程中同时约束预测的三条曲线,使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序;
动作提名模块:利用得到的三种动作概率曲线,组合开始和结束峰值的时刻,得到候选的动作提名;
动作边界修正模块:训练模型使其能够预测动作提名边界和真实动作边界的差值,从而修正在时间上量化所带来的偏差。
动作分类模块:对候选的提名动作进行分类,给每一个动作提名打上标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010032794.5A CN111259775B (zh) | 2020-01-13 | 2020-01-13 | 约束时域关系的视频动作定位方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010032794.5A CN111259775B (zh) | 2020-01-13 | 2020-01-13 | 约束时域关系的视频动作定位方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259775A true CN111259775A (zh) | 2020-06-09 |
CN111259775B CN111259775B (zh) | 2023-04-28 |
Family
ID=70946896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010032794.5A Active CN111259775B (zh) | 2020-01-13 | 2020-01-13 | 约束时域关系的视频动作定位方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259775B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105635616A (zh) * | 2016-01-27 | 2016-06-01 | 中测新图(北京)遥感技术有限责任公司 | 一种视频数据和地理位置信息的融合方法和装置 |
US20160379371A1 (en) * | 2015-06-29 | 2016-12-29 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110188733A (zh) * | 2019-06-10 | 2019-08-30 | 电子科技大学 | 基于3d区域卷积神经网络的时序行为检测方法及系统 |
CN110427807A (zh) * | 2019-06-21 | 2019-11-08 | 诸暨思阔信息科技有限公司 | 一种时序事件动作检测方法 |
-
2020
- 2020-01-13 CN CN202010032794.5A patent/CN111259775B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379371A1 (en) * | 2015-06-29 | 2016-12-29 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN105635616A (zh) * | 2016-01-27 | 2016-06-01 | 中测新图(北京)遥感技术有限责任公司 | 一种视频数据和地理位置信息的融合方法和装置 |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110188733A (zh) * | 2019-06-10 | 2019-08-30 | 电子科技大学 | 基于3d区域卷积神经网络的时序行为检测方法及系统 |
CN110427807A (zh) * | 2019-06-21 | 2019-11-08 | 诸暨思阔信息科技有限公司 | 一种时序事件动作检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111259775B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175580B (zh) | 一种基于时序因果卷积网络的视频行为识别方法 | |
US10699170B2 (en) | Apparatuses and methods for semantic image labeling | |
US20190034737A1 (en) | Inter-trajectory anomaly detection using adaptive voting experts in a video surveillance system | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN112989977A (zh) | 一种基于跨模态注意力机制的视听事件定位方法及装置 | |
CN109033476B (zh) | 一种基于事件线索网络的智能时空数据事件分析方法 | |
CN113283282B (zh) | 一种基于时域语义特征的弱监督时序动作检测方法 | |
CN112819065A (zh) | 基于多重聚类信息的无监督行人难样本挖掘方法和系统 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN112966088B (zh) | 未知意图的识别方法、装置、设备及存储介质 | |
Pathak et al. | Anomaly localization in topic-based analysis of surveillance videos | |
CN111985333B (zh) | 一种基于图结构信息交互增强的行为检测方法及电子装置 | |
Du et al. | Real-time detection of vehicle and traffic light for intelligent and connected vehicles based on YOLOv3 network | |
Isupova et al. | Learning methods for dynamic topic modeling in automated behavior analysis | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN116311005A (zh) | 一种用于运动图像处理装置、方法及存储介质 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
Varnima et al. | Real-time Gender Identification from Face Images using you only look once (yolo) | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
Ramasso et al. | Belief Scheduler based on model failure detection in the TBM framework. Application to human activity recognition | |
CN114463552A (zh) | 迁移学习、行人重识别方法及相关设备 | |
CN113591758A (zh) | 一种人体行为识别模型训练方法、装置及计算机设备 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN112597871A (zh) | 基于二阶段聚类的无监督车辆重识别方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |