CN110197136B

CN110197136B - 一种基于动作边界概率的级联动作候选框生成方法与系统

Info

Publication number: CN110197136B
Application number: CN201910394488.3A
Authority: CN
Inventors: 冯镔; 徐亮; 王小康; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2021-01-12
Anticipated expiration: 2039-05-13
Also published as: CN110197136A

Abstract

本发明公开了一种基于动作边界概率的级联动作候选框生成方法，对待检测输入视频，使用特征提取网络得到特征，通过级联模型预测每个位置上属于动作边界点的概率。级联模型分为两级：第一级模型对输入特征进行粗糙的边界预测，分别预测每一个位置属于动作起点、终点和动作内部的概率；再将第一级模型的输出和原始特征串联起来当作新特征输入到第二级模型，让第二级模型再次预测每个位置上属于动作起点、终点和动作内部的概率；得到级联模型预测的概率后，将起点或终点概率大于设定的阈值的位置组合进而得到动作候选框。本方法简单易行，推广能力强，产生的候选框质量高，能有效克服视频背景杂乱和目标运动快慢变化范围大的不利因素的影响。

Description

一种基于动作边界概率的级联动作候选框生成方法与系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于动作边界概率的级联动作候选框生成方法与系统。

背景技术

人体动作检测在人们的日常生活有许多方面的应用，如智能安防、人机交互、体育运动分析、自动驾驶和智能家居等。人体动作检测研究的是如何从一整段视频中找出真正发生动作的时间段，而本文所述的动作候选框生成方法属于人体动作检测研究内容的一部分。

目前的动作候选框生成方法通常是首先在时序上进行稠密的滑窗，然后对每个滑窗进行上下文特征融合，最后再进行候选片段预测。这种方案对于局部特征变化较为敏感，但是对更长时间范围内的特征变化难以捕捉，容易在局部区域得到多个冗余的候选片段，同时漏掉一些时间跨度大的候选动作片段。

因此需要设计一种动作候选框生成方法，不仅能够充分捕捉时域上的上下文信息，更能够在更长的时域范围内记住动作的状态，以此来产生高质量的动作候选框。

发明内容

本发明的目的在于提供一种基于动作边界概率的级联动作候选框生成方法，该方法可以有效地捕捉动作在时域上的上下文信息并捕捉动作在时域上的关联性，得到高质量的动作候选框。

为实现上述目的，按照本发明的一个方面，提供了一种基于动作边界概率的级联动作候选框生成方法，包括下述步骤：

(1)视频的特征提取：

(1.1)对每个输入视频，都抽取为图像帧，然后以16为步长对图像帧进行采样，在每个采样的位置进行双流特征提取；

(1.2)对每个采样位置，提取图像流特征时，选取采样位置的1帧图片作为原始数据，提取光流特征时，选取采样位置前后5帧共10帧作为原始数据，然后将光流原始数据送入在BN-Inception网络中提取200维光流特征；将图像流原始数据送入200层的ResNet网络中提取200维图像特征；再将二者直接串联起来作为视频特征使用；

(2)训练级联模型的第一级模型：

(2.1)定义用于训练第一级模型的动作边界概率真实值：动作起点概率、动作终点概率和动作内部概率。对于一段起点为s，终点为e的动作a＝[s,e]，持续的时长d＝e-s，则其动作起点概率S^G在

处为1，其他位置为0；其动作终点概率E^G在

处为1，其他位置为0；其动作内部概率A^G在[s,e]处为1，其他位置为0；

(2.2)搭建基于时域卷积网络的第一级边界概率预测模型：一共包含三层卷积网络，前两层网络的都是：{1+3+5+max_3+dilated_conv}，其中的数字1、3、5分别表示一个大小为1、3、5的时域卷积核，max_3表示大小为3的时域最大值池化，dilated_conv表示空洞卷积模块，其中各个部分都使用ReLU函数作为激活函数，其函数定义式为

最后一层是一个大小为1，有三个独立滤波器的时域卷积层，其使用sigmoid函数作为激活函数，sigmoid函数定义式为

以便将输出结果映射为表示动作起点的概率S₁、表示动作终点的概率E₁和表示动作内部的概率A₁；

(2.3)对输入视频特征以100为窗长，步长也为100进行不重叠的滑窗采样，产生多个可以直接用于训练的特征；

(2.4)将从步骤(2.3)获取的特征送到第一级模型中预测动作起点概率S₁、动作终点概率E₁和动作内部概率A₁；

(2.5)从步骤(2.4)获取的三个预测概率分别与概率真实值之间计算损失函数，然后利用反向传播法进行模型训练。损失函数的计算公式为：

其中，

是一个预测序列，时序长度为m，p_i是每个位置上的预测值，大小是[0,1]。y是预测概率的真实值，由于是二分类，因此值域也是[0,1]；

(3)训练级联模型的第二级模型：

(3.1)从步骤(2.1)获取与第一级模型相同的训练目标；

(3.2)搭建基于长短期记忆网络的第二级边界概率微调模型：包含一个单层双向的GRU网络，网络的隐藏节点数目是256，每个时域位置的输出都是3维，同样经过sigmoid函数以后将输出映射为动作起点概率S₂、动作终点概率E₂和动作内部概率A₂；

(3.3)同时接收步骤(2.3)的特征和第一级模型在步骤(2.4)的输出作为输入，送到第二级模型中预测动作起点概率S₂、动作终点概率E₂和动作内部概率A₂；

(3.4)从步骤(3.3)获取的三个预测概率分别与概率真实值之间计算损失函数，然后利用反向传播法进行模型训练；

(4)利用上述训练好的级联模型对待检测测试视频进行预测，包括如下子步骤：

(4.1)对测试视频进行步骤(1)中的特征提取，得到视频多帧的特征向量；

(4.2)利用训练好的级联模型对视频进行边界概率预测，得到两级模型的输出S₁、E₁、A₁、S₂、E₂和A₂；

(5)根据边界概率生成动作候选框：

(5.1)对步骤(4.4)获取的边界概率S₂和E₂根据特定的规则生成动作候选框集合C₁，其规则为：首先根据边界概率S₂和E₂分别生成一些候选的动作起点和终点，当概率值满足以下两个条件中任意一个时记为候选位置：(1)概率值大于0.9，(2)当前位置概率大于其前后位置的概率，也就是一个概率尖峰；得到满足条件的起点候选位置和终点候选位置以后，对于每个起点位置，它与所有起点在其后面的终点位置两两组成一个候选片段，这样就生成了动作候选框集合C₁；

(5.2)对步骤(5.1)获取动作候选框集合C₁中的每个动作候选框都在均值概率S₂、E₂和A₂上进行采样，得到表示动作性的特征，然后基于这个特征训练一个用于评估动作性的二分类器，其中：(1)表示动作性的特征的具体组成是：对于一个长度为d＝t_e-t_s的候选框，t_s和t_e分别是候选框时域上开始和结束的位置，在A₂概率曲线[t_s,t_e]对应位置的上利用双线性插值方法采样出16个点，在S₂概率曲线[t_s-d/5,t_s+d/5]对应位置的上利用双线性插值方法采样出8个点，在E₂概率曲线[t_e-d/5,t_e+d/5]对应位置的上利用双线性插值方法采样出8个点。然后按照[S₂,A₂,E₂]的顺序将采样的点串联起来，作为表示动作性的特征。(2)使用一个全连接层作为用于评估动作性的二分类器；

(5.3)对步骤(5.1)获取动作候选框集合C₁中的每个动作候选框都使用步骤(5.2)中的二分类器进行打分预测，得到每个集合C₁中每个候选框的动作置信度分数p_conf；

(5.4)对步骤(5.1)获取动作候选框集合C₁和步骤(5.3)获取的每个候选框的置信度分数p_conf使用标准的非极大值抑制(Non-Maximum Suppression，NMS)方法进行后处理，滤除掉分数较低的重叠度较大的候选框，即滤除一些冗余的候选框，余下的动作候选框集合C₂就是作为输出的候选框结果。所述分数较低以及重叠度较大在实践中可能根据不同对象设定相应阈值。

按照本发明的另一方面，还提供了一种基于动作边界概率的级联动作候选框生成系统，所述系统包括特征提取模块、级联模型第一级模块、级联模型第二级模块和候选框生成模块，其中：

所述特征提取模块，用于对输入视频进行统一的特征编码，得到统一的特征表达，具体包括视频下采样子模块和深度神经网络特征计算子模块，其中：

所述视频下采样子模块，用于将视频分割为神经网络可以直接处理的图像；

所述深度神经网络特征计算子模块，用于获取图像中人体的特征向量。

所述级联模型第一级模块，用于根据输入的视频特征来预测在每个时域位置上属于动作开始、动作执行和动作结束的概率。

所述级联模型第二级模块，用于对级联模型第一级模块的预测结果进行微调，得到更加准确的动作边界的概率。

所述候选框生成模块，用于根据级联模型第二级模块输出的边界概率来生成候选的动作框，具体包括候选框产生子模块、候选框置信度评估子模块和候选框后处理子模块，其中：

所述候选框产生子模块，用于将动作边界的概率转换成可能是动作起点或者动作终点的候选集合，然后将他们组合起来得到动作候选框集合；

所述候选框置信度评估子模块，用于评估每个候选框内发生动作的置信度。

所述候选框后处理子模块，用于滤除一些置信度较低(一般可设定低于某一阈值)的候选框。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)结构简单有效：本发明方法与以往的设计多级滑窗的方法相比，通过设计级联的用于预测动作边界的网络来实现候选框生成，结构清晰且简单有效；

(2)准确度高：自然场景下的视频质量不一，而且会有很多干扰，如镜头模糊和光线变化等，本发明方法与以往大多数基于稠密滑窗法的候选框生成方法不同，通过去关注动作的开始位置和结束位置，而不必过多关注动作发生过程中的变化，减少了模型学习的代价，也更加符合人类寻找动作的过程，准确度更高；

(3)鲁棒性强：本发明的第一级网络关注的更多的是局部信息，第二级网络关注的更多的是长时全局信息，通过分别关注这两种信息，网络能够适应不同时长的视频，性能更加鲁棒。

附图说明

图1是本发明基于动作边界概率的级联动作候选框生成方法的流程图；

图2是本发明基于动作边界概率的级联模型实现框架示意图；

图3是本发明实施例中级联模型预测的边界概率示意图；

图4是本发明实施例中产生的动作候选框的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

THUMOS2014数据集：该数据库是由中佛罗里达大学牵头制作，包含了20类常见的运动类别，总共有200个用作验证集的未剪辑视频(包含3007个动作片段)和213个用作测试集的未剪辑视频(包含3358个动作片段)，其中单个视频的平均持续时长超过3分钟且平均每个视频包含的运动片段接近15个。

在不同最大候选片段数目下的平均召回率(Average Recall under AverageNumber of retrieved proposals，AR-AN)：其中的召回率指的是真实标注中的动作片段有多少被正确的检测出；平均召回率指的是在不同的最大时域重叠率θ的情况下得到的不同的召回率的平均值，这样能够更加客观的衡量检测结果的质量；而在不同最大候选片段数目下的平均召回率指的是通过控制检测结果的最大数目N，看不同数目下的平均召回率指标。

如图1所示，本发明基于动作边界概率的级联动作候选框生成方法包括以下步骤：

(1)视频的特征提取：

(2)训练级联模型的第一级模型：

处为1，其他位置为0；其动作终点概率E^G在

(2.2)搭建基于时域卷积网络的第一级边界概率预测模型：如图2中所示，第一级边界概率预测模型一共包含三层卷积网络，前两层网络的都是：{1+3+5+max_3+dilated_conv}，其中的数字1、3、5分别表示一个大小为1、3、5的时域卷积核，max_3表示大小为3的时域最大值池化，dilated_conv表示空洞卷积模块，其中各个部分都使用ReLU函数作为激活函数，其函数定义式为

其中，

(3)训练级联模型的第二级模型：

(3.1)从步骤(2.1)获取与第一级模型相同的训练目标；

(3.2)搭建基于长短期记忆网络的第二级边界概率微调模型：如图2中所示，第二级边界概率微调模型包含一个单层双向的GRU网络，网络的隐藏节点数目是256，每个时域位置的输出都是3维，同样经过sigmoid函数以后将输出映射为动作起点概率S₂、动作终点概率E₂和动作内部概率A₂；

(4.2)利用训练好的级联模型对视频进行边界概率预测，得到两级模型的输出S₁、E₁、A₁、S₂、E₂和A₂；如图3所示，为本发明实施例中一个级联模型预测的边界概率示意图；从图中可以看出，出现的几个细窄的峰值均对应真实的结束点。

(5)根据边界概率生成动作候选框：

(5.4)对步骤(5.1)获取动作候选框集合C₁和步骤(5.3)获取的每个候选框的置信度分数p_conf使用标准的非极大值抑制(Non-Maximum Suppression，NMS)方法进行后处理，滤除一些冗余的候选框，余下的动作候选框集合C₂就是作为输出的候选框结果。如图4所示，为本发明实施例中产生的一个动作候选框的示意图。从图中可以看出，本发明产生的分数最高的前两个动作候选框比BSN方法产生的候选框在起止位置和置信分数上都更加准确，更加接近真实值。

以下通过实验实例来证明本发明的有效性，实验结果证明本发明能够提高手势识别的识别准确率。

本发明在THUMOS2014数据集上，与4种已有的具有代表性的动作候选框生成方法进行了对比，表1是本发明方法和用于比较的4种对比方法在该数据集上的AR-AN指标的表现，结果的数值越大表示动作候选框质量越高，从表中可以看到，本发明方法(即表1中注明的Our Method)提升非常明显。

表1不同方法在THUMOS2014数据集上的AR-AN指标的表现

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动作边界概率的级联动作候选框生成方法，其特征在于，所述方法包括下述步骤：

(1)特征提取：

(1.2)对每个采样位置，提取图像流特征时，选取采样位置的1帧图片作为原始数据，提取光流特征时，选取采样位置前后5帧共10帧作为原始数据，然后将原始数据送到特征提取网络中进行特征提取；

(2)训练级联模型的第一级模型：

(2.1)定义用于训练第一级模型的动作边界概率真实值：动作起点概率、动作终点概率和动作内部概率；对于一段起点为s，终点为e的动作a＝[s,e]，持续的时长d＝e-s，则其动作起点概率S^G在

处为1，其他位置为0；其动作终点概率E^G在

(2.2)搭建基于时域卷积网络的第一级边界概率预测模型；

(2.5)从步骤(2.4)获取的三个预测概率分别与概率真实值之间计算损失函数，然后利用反向传播法进行模型训练；

(3)训练级联模型的第二级模型：

(3.1)从步骤(2.1)获取与第一级模型相同的训练目标；

(3.2)搭建基于长短期记忆网络的第二级边界概率微调模型；

(4)利用训练好的级联模型对待检测测试视频进行预测，包括如下子步骤：

(5)根据边界概率生成动作候选框：

(5.1)对步骤(4.2)获取的边界概率S₂和E₂根据特定的规则生成动作候选框集合C₁；

(5.2)对步骤(5.1)获取动作候选框集合C₁中的每个动作候选框都在均值概率S₂、E₂和A₂上进行采样，得到表示动作性的特征，然后基于这个特征训练一个用于评估动作性的二分类器；

(5.4)对步骤(5.1)获取动作候选框集合C₁和步骤(5.3)获取的每个候选框的置信度分数p_conf进行后处理，滤除一些冗余的候选框，剩下的动作候选框集合C₂就是生成的动作候选框。

2.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(1.2)具体为：对于光流原始数据：在BN-Inception网络中的global_pool层之后新增加一个全连接单元InnerProduct，输出的数目是200维，取InnerProduct层的输出作为光流特征；对于图像流原始数据：在200层的ResNet网络的最后一个全连接层Flatten_673之后也新增加一个和光流一样的全连接单元InnerProduct，输出的数目也是200维；两个流的网络都已经在ActivityNet-1.3数据库上进行预训练，得到图像流和光流图两个特征以后，再将其直接串联起来作为视频特征使用。

3.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(2.2)具体为：基于时域卷积网络的第一级边界概率预测模型由三层卷积网络组成，其中前两层网络都是：{1+3+5+max_3+dilated_conv}，其中的数字1、3、5分别表示一个大小为1、3、5的时域卷积核，max_3表示大小为3的时域最大值池化，dilated_conv表示空洞卷积模块，其中各个部分都使用ReLU函数作为激活函数，其函数定义式为

以便将输出结果映射为表示动作起点的概率S₁、表示动作终点的概率E₁和表示动作内部的概率A₁。

4.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(2.5)具体为：三个预测概率分别与概率真实值之间计算损失函数，对于每一个概率值和真实值之间的损失函数计算公式为：

其中，

是一个预测序列，时序长度为m，p_i是每个位置上的预测值，大小是[0,1]；y是预测概率的真实值，值域是[0,1]。

5.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(3.2)具体为：基于长短期记忆网络的第二级边界概率微调模型由单层双向的GRU网络组成的，网络的隐藏节点数目是256，每个时域位置的输出都是3维，同样经过sigmoid函数以后将输出映射为动作起点概率S₂、动作终点概率E₂和动作内部概率A₂。

6.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(5.1)具体为：首先根据边界概率S₂和E₂分别生成一些候选的动作起点和终点，当概率值满足以下两个条件中任意一个时记为候选位置：(1)概率值大于0.9，(2)当前位置概率大于其前后位置的概率，也就是一个概率尖峰；得到满足条件的起点候选位置和终点候选位置以后，对于每个起点位置，它与所有起点在其后面的终点位置两两组成一个候选片段，这样就生成了动作候选框集合C₁。

7.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(5.2)具体为：对于动作候选框集合C₁中的每个动作候选框都获取相同维度的表示动作性的特征，该特征的具体组成是对于一个长度为d＝t_e-t_s的候选框，t_s和t_e分别是候选框时域上开始和结束的位置，在A₂概率曲线[t_s,t_e]对应位置的上利用双线性插值方法采样出16个点，在S₂概率曲线[t_s-d/5,t_s+d/5]对应位置的上利用双线性插值方法采样出8个点，在E₂概率曲线[t_e-d/5,t_e+d/5]对应位置的上利用双线性插值方法采样出8个点；然后按照[S₂,A₂,E₂]的顺序将采样的点串联起来，得到表示动作性的特征；对于用于评估动作性的二分类器，使用一个全连接层来实现。

8.根据权利要求1所述的基于动作边界概率的级联动作候选框生成方法，其特征在于，所述步骤(5.4)具体为：根据动作候选框集合C₁和每个候选框的置信度分数p_conf使用标准的非极大值抑制(Non-Maximum Suppression，NMS)方法进行后处理，滤除掉分数较低的重叠度较大的候选框，余下的动作候选框集合C₂就是作为输出的候选框结果。

9.一种基于动作边界概率的级联动作候选框生成系统，其特征在于，所述系统包括特征提取模块、级联模型第一级模块、级联模型第二级模块和候选框生成模块，其中：

所述深度神经网络特征计算子模块，用于获取图像中人体的特征向量；

所述级联模型第一级模块，用于根据输入的视频特征来预测在每个时域位置上属于动作开始、动作执行和动作结束的概率；

所述级联模型第二级模块，用于对级联模型第一级模块的预测结果进行微调，得到更加准确的动作边界的概率；

所述候选框置信度评估子模块，用于评估每个候选框内发生动作的置信度；

所述候选框后处理子模块，用于滤除一些置信度较低的候选框。