CN111259775A

CN111259775A - 约束时域关系的视频动作定位方法和系统

Info

Publication number: CN111259775A
Application number: CN202010032794.5A
Authority: CN
Inventors: 张娅; 赵培森; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-09
Anticipated expiration: 2040-01-13
Also published as: CN111259775B

Abstract

本发明提供一种约束时域关系的视频动作定位方法和系统，包括：视频特征提取步骤：对输入的未经裁剪的长视频，使用3D深度神经网络提取其特征，得到能够表达视频语义信息的特征序列；动作曲线预测步骤：利用提取好的视频特征序列训练动作概率曲线模型，预测视频中动作的开始、持续、结束的概率曲线；动作曲线约束步骤：在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线，使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序。本发明对输入的视频进行逐个时刻的动作概率预测，重点约束动作在时间维度上的关系，通过在模型的训练过程中加入约束，使得其能够准确地预测动作发生的概率，从而能够精确的定位视频中所发生的动作。

Description

约束时域关系的视频动作定位方法和系统

技术领域

本发明涉及一种计算机视觉和图像处理领域的方法和系统，具体地，涉及一种约束时域关系的视频动作定位方法和系统。

背景技术

近些年来，每天都有海量的视频产生，数以亿计的视频面临着制作，储存，分发等处理压力。如何自动有效的定位视频中的关键信息就成为了关键。随着计算机计算能力的不断提升，深度学习在计算机视觉领域有着很好的表现，如图像的分类，物体的识别等等。在视频动作定位的任务中，深度学习的方法已经具有统治的地位，其主要分为两大类别：自顶向下的方法和自底向上的定位方法。

自顶向下的方法先对原始视频提取大量的候选动作区域，再用深度卷积神经网络提取的视频特征对这些候选动作区域进行分类，从而得到有效的动作提名。这样的方法需要产生大量无效的动作候选区域，增加了算法的计算复杂度。而且事先规定好的动作范围往往不够灵活较难得到精确的动作边界。为了解决这些问题，自底向上的定位方法，先对视频的每一个时刻都预测动作发生的概率，再通过预测的概率来得到动作的提名。这样先预测概率再来提候选动作的方法大大减少了无效的动作提名，从而减小了计算的复杂度，并且动作起止的选择也较为灵活。通过上述两种方法中的一种得到动作提名后，再训练一个动作的分类器便可得到最终的动作类别标签。

经检索，中国发明专利公开号为108875610A，公开了一种基于边界查找的用于视频中动作时间轴定位的方法。该方法采用时间轴边界似然的组件来改进动作的定位问题。该组件通过三个步骤来执行更精确的视频动作定位，给定一段动作提名，先扩大其左右边界，再预测单元时间范围内的边界概率，从而利用最大似然估计得到动作的时间边界。该方法在预测边界概率的时候没有考虑时刻和时刻之间的预测关系，而这种约束关系在预测边界概率的时候有着很大的帮助。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种约束时域关系的视频动作定位方法和系统，通过约束预测的动作概率曲线在时间上的关系，从而得到更加准确的动作概率曲线，完成视频中的动作定位。

根据本发明提供的一种约束时域关系的视频动作定位方法，包括：

视频特征提取步骤：对输入的未经裁剪的长视频，使用3D深度神经网络提取其特征，得到能够表达视频语义信息的特征序列；

动作曲线预测步骤：利用提取好的视频特征序列训练动作概率曲线模型，预测视频中动作的开始、持续、结束的概率曲线；

动作曲线约束步骤：在训练动作概率曲线模型的过程中同时约束动作的开始、持续、结束的概率曲线，使其有平稳连续的输出并且使动作的开始、持续、结束的概率曲线峰值遵循合理的时间顺序；

动作提名步骤：利用动作概率曲线模型得到的动作的开始、持续、结束的概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度；

动作边界修正步骤：训练动作边界修正模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

动作分类步骤：对候选的提名动作进行分类，给每一个动作提名打上标签。

优选地，所述视频特征提取步骤：

所述3D深度神经网络为两支3D卷积神经网络，分别用来提取视频片段的RGB和光流特征，再将提取的特征拼接起来；

利用3D深度神经网络在视频时间方向上对每一个视频片段提取特征，从而得到视频的特征序列。

优选地，所述动作曲线预测步骤：

利用提取好的视频特征序列训练动作概率曲线模型，预测视频中动作的开始、持续、结束的概率曲线。

优选地，所述动作曲线约束步骤，其中：在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线，使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。

优选地，所述动作曲线约束步骤，具体如下：

将预测的三条动作曲线记为，开始：p^S，持续：p^C，结束：p^E，并且根据视频动作的发生时刻标注，将训练视频的预测曲线划分为前景和背景区域，即包含动作开始，动作持续，动作结束的时间段为前景区域，分别记为：U^S，U^C，和U^E，相应的背景区域记为：V^S，V^C，和V^E；

在动作曲线预测模型训练的过程中，加入两种约束：曲线内部的约束和曲线之间的约束。

对于曲线内部的约束，在动作持续概率曲线中利用预测的动作持续概率序列

构建一个邻接矩阵A，其中，

为动作持续概率在t时刻的值，T为视频的时间长度；矩阵A中的每一个元素a_i，j描述了任意两个时刻动作持续概率

之间的差异，下标i，j表示任意的两个时刻；通过约束A中的数值，从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出，并且使得概率曲线在前景和背景区域的输出有明显的差异，具体的约束如下所示：

其中，

表示曲线内部约束在动作持续概率曲线中的损失函数；

M_U，M_V，M_UV为二值的0，1矩阵，矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合，背景区域内部的组合，以及前景和背景区域之间的组合；

N_U表示邻接矩阵A中前景区域内部的组合的数量；

N_V表示邻接矩阵A中背景区域内部的组合的数量；

N_UV表示邻接矩阵A中前景和背景区域之间的组合的数量；

通过在动作持续曲线内部加入约束，式中的前两项

使得动作持续概率在前景和背景的区域各自有着一致的响应，式中的第三项

使得动作持续概率在前景和背景的区域之间有着差异，从而能够区分动作的前景和背景，替换式中的邻接矩阵A分别为动作开始概率序列

和动作结束概率序列

构建的邻接矩阵可得动作开始曲线和动作结束曲线的曲线内部的约束

和

最终曲线内部约束的损失函数L_IC可表示为：

对于曲线之间的约束，一个动作的发生所遵循的时间顺序一定是开始、持续、结束，反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续概率曲线的一阶导数与开始和结束概率曲线的关系可以使其遵循合理的时间顺序。如下式所示，持续概率曲线的一阶导数在离散的情况下可以由一阶差分来近似：

其中，

表示持续概率曲线的一阶导数；

表示持续概率曲线在t+1时刻的值；

表示持续概率曲线在t时刻的值；

将

中正值部分表示为

负值部分表示为

则曲线之间的约束可以表示为：

其中，

L_EC表示曲线之间约束的损失函数；

T表示视频的时间长度；

表示t时刻的动作开始概率值；

表示t时刻的动作结束概率值；

优选地，所述动作提名步骤，其中：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度。

优选地，所述动作提名步骤，具体如下：

根据预测的开始和结束动作概率曲线，筛选出可能是动作开始或者是结束的时刻点，以候选开始点为例，其应满足以下要求：

或

在限制动作长度内组合开始与结束的候选时刻点，得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。

优选地，所述动作边界修正步骤：以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签，训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

优选地，所述动作分类步骤：训练一个动作分类的卷积神经网络对候选的提名动作进行分类，给每一个动作提名打上标签。

根据本发明提供的一种约束时域关系的视频动作定位系统，包括：

视频特征提取模块：对输入的未经裁剪的长视频，使用3D深度神经网络提取其特征，得到能够表达视频语义信息的特征序列；

动作曲线预测模块：利用提取好的视频特征序列训练模型，预测动作的开始、持续、结束的概率曲线；

动作曲线约束模块：在模型训练的过程中同时约束预测的三条曲线，使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序；

动作提名模块：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名；

动作边界修正模块：训练模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

动作分类模块：对候选的提名动作进行分类，给每一个动作提名打上标签。

与现有技术相比，本发明具有如下的有益效果：

本发明对输入的视频进行逐个时刻的动作概率预测，重点约束动作在时间维度上的关系，通过在模型的训练过程中加入约束，使得其能够准确地预测动作发生的概率，从而能够精确的定位视频中所发生的动作。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的一实施例中方法流程示意图。

图2为本发明提供的一实施例中系统原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

具体地，所述视频特征提取步骤：

具体地，所述动作曲线预测步骤：

具体地，所述动作曲线约束步骤，其中：在训练动作概率曲线模型的过程中同时约束预测的动作开始、持续、结束的三条概率曲线，使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。

具体地，所述动作曲线约束步骤，具体如下：

构建一个邻接矩阵A，其中，

其中，

表示曲线内部约束在动作持续概率曲线中的损失函数；

N_U表示邻接矩阵A中前景区域内部的组合的数量；

N_V表示邻接矩阵A中背景区域内部的组合的数量；

N_UV表示邻接矩阵A中前景和背景区域之间的组合的数量；

通过在动作持续曲线内部加入约束，式中的前两项

和动作结束概率序列

和

最终曲线内部约束的损失函数L_IC可表示为：

其中，

表示持续概率曲线的一阶导数；

表示持续概率曲线在t+1时刻的值；

表示持续概率曲线在t时刻的值；

将

中正值部分表示为

负值部分表示为

则曲线之间的约束可以表示为：

其中，

L_EC表示曲线之间约束的损失函数；

T表示视频的时间长度；

表示t时刻的动作开始概率值；

表示t时刻的动作结束概率值；

具体地，所述动作提名步骤，其中：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度。

具体地，所述动作提名步骤，具体如下：

或

具体地，所述动作边界修正步骤：以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签，训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

具体地，所述动作分类步骤：训练一个动作分类的卷积神经网络对候选的提名动作进行分类，给每一个动作提名打上标签。

下面通过优选例，对本发明进行更为具体地说明。

如图1所示，为本发明一种约束时域关系的视频动作定位方法实施例的流程图，该方法对输入的视频进行逐个时刻的动作概率预测，重点约束动作在时间维度上的关系，通过在模型的训练过程中加入约束，使得其能够准确地预测动作发生的概率，从而能够精确的定位视频中所发生的动作。

具体的，参照图1，所述方法包括如下步骤：

动作曲线预测步骤：利用提取好的视频特征序列训练模型，预测动作的开始、持续、结束的概率曲线；

动作曲线约束步骤：在模型训练的过程中同时约束预测的三条曲线，使其有平稳连续的输出并且使开始、持续、结束的概率曲线峰值遵循合理的时间顺序；

动作提名步骤：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度；

动作边界修正步骤：训练模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

对应于上述方法，本发明还提供一种约束时域关系的视频动作定位系统的实施例，包括：

动作提名模块：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度；

上述一种约束时域关系的视频动作定位系统各个模块实现的技术特征可以与上述一种约束时域关系的视频动作定位方法中对应步骤实现的技术特征相同。

以下对各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。

在本发明部分实施例中，所述视频特征提取步骤，其中：视频特征的提取网络为两支3D卷积神经网络，分别用来提取视频片段的RGB和光流特征，再将提取的特征拼接起来。利用所述神经网络结构可以在视频时间方向上对每一个视频片段提取特征，从而得到视频的特征序列。

在本发明部分实施例中，所述动作曲线预测步骤，其中：利用提取好的视频特征序列训练模型，预测动作的开始、持续、结束的概率曲线。

在本发明部分实施例中，所述动作曲线约束步骤，其中：在训练预测动作概率曲线模型的过程中同时约束预测的三条曲线，使其有平稳连续的输出并且使开始、持续、结束的概率曲线的峰值遵循合理的时间顺序。

在本发明部分实施例中，所述动作提名步骤，其中：利用得到的三种动作概率曲线，组合开始和结束峰值的时刻，得到候选的动作提名，并根据三种动作概率曲线评价候选动作提名的置信度。

在本发明部分实施例中，所述动作边界修正步骤：以每一个预测的单位时刻和真实的动作边界时刻的差值作为训练标签，训练一个回归模型使其能够预测动作提名边界和真实动作边界的差值，从而修正在时间上量化所带来的偏差。

在本发明部分实施例中，所述动作分类步骤：训练一个动作分类的卷积神经网络对候选的提名动作进行分类，给每一个动作提名打上标签。

具体地，视频特征提取模块、动作曲线预测模块、动作曲线约束模块、动作提名模块、动作边界修正模块和动作分类模块组成的一种约束时域关系的视频动作定位系统网络框架如图2所示，整个系统框架能够端到端地进行训练。

在如图2所示的实施例的系统框架中，将预测的三条动作曲线记为，开始：p^S，持续：p^C，结束：p^E，并且根据视频动作的发生时刻标注，将训练视频的预测曲线划分为前景和背景区域，即包含动作开始，动作持续，动作结束的时间段为前景区域，分别记为：U^S，U^C，和U^E。相应的背景区域记为：V^S，v^C，和V^E。在动作曲线预测模型训练的过程中，加入两种约束：曲线内部的约束和曲线之间的约束。

对于曲线内部的约束，以动作持续曲线为例，利用预测的每一时刻的动作持续概率

构建一个邻接矩阵A，矩阵A中的每一个元素a_i，j描述了任意两个时刻动作持续概率

之间的差异。通过约束A中的数值，从而使得预测的动作持续概率曲线在前景和背景区域有平稳的输出，并且使得概率曲线在前景和背景区域的输出有明显的差异，具体的约束如下所示：

其中M_U，M_V，M_UV为二值的0，1矩阵，矩阵中的“1”分别表示邻接矩阵A中前景区域内部的组合，背景区域内部的组合，以及前景和背景区域之间的组合。N_U，N_V，N_UV为所对应组合的数量。通过在动作持续曲线内部加入约束，式中的前两项使得动作持续概率在前景和背景的区域各自有着一致的响应，式中的第三项使得动作持续概率在前景和背景的区域之间有着差异，从而能够区分动作的前景和背景。同理可得动作开始曲线和动作结束曲线的曲线内部的约束。

对于曲线之间的约束，一个动作的发生所遵循的时间顺序一定是开始、持续、结束，反应到预测的三条概率曲线上也应该遵循这种约束。所以通过约束持续曲线的一阶导数与开始和结束曲线的关系可以使其遵循合理的时间顺序。如下式所示，持续曲线的一阶导数在离散的情况下可以由一阶差分来近似：

将

中正值部分表示为

负值部分表示为

则曲线之间的约束可以表示为：

利用加入上述约束训练的模型预测的开始和结束动作概率曲线，可以筛选出可能是动作开始或者是结束的时刻点，以候选开始点为例，其应满足以下要求：

或

在限制动作长度内组合开始与结束的候选时刻点，得到候选动作提名。用训练集中的候选动作提名将其与真实动作标签的IoU作为监督信息训练一个卷积核为1D的神经网络来给候选动作提名进行置信度的评判。最终对这些动作提名进行分类则可得到最终的定位结果。

综上，本发明通过深度神经网络提取视频的特征，并根据这种特征训练一个约束时域关系的视频动作定位网络。通过约束预测的动作概率曲线在时间上的关系，从而得到更加准确的动作概率曲线，完成视频中的动作定位。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。