CN108573246A

CN108573246A - 一种基于深度学习的时序动作识别方法

Info

Publication number: CN108573246A
Application number: CN201810431650.XA
Authority: CN
Inventors: 蔡轶珩; 孔欣然; 王雪艳; 李媛媛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-09-25
Anticipated expiration: 2038-05-08
Also published as: CN108573246B

Abstract

本发明公开一种基于深度学习的时序动作识别方法，包含视频特征提取和时间边界回归模型构建。针对边界检测过程中长动作特征表达有效性不够的问题，通过双流网络同时提取帧间信息和帧内信息，得到视频单元的特征序列，并提出结合上下文信息的多尺度短动作段截选方案，有效地提高后续回归准确率，利用特征序列训练时间边界模型，减小模型训练时间，提高计算效率。针对长动作边界回归不准确问题，本发明提出一种改进的时间边界回归模型，包含改进的多任务多层感知器和一种全新的针对长动作的拼接机制，在保证动作类别准确的基础上，有效地提高长动作时间边界回归的准确率，提高预测动作段与实际动作段的重叠度，实现时序动作识别率的提高。

Description

一种基于深度学习的时序动作识别方法

技术领域

本发明属于计算机视觉和模式识别领域，涉及一种基于深度学习的时序动作识别方法。

背景技术

伴随着智能手机及互联网的高速发展，视频类数据开始呈现井喷现象，所以计算机视觉领域研究也在视频数据方向逐步拓展延伸。而视频处理的基础就是动作识别，传统的动作识别虽然已经达到很高的识别率，由于其原数据必须为经过裁剪后的固定帧数短视频，要求包含单一动作标签，这样的裁剪要求过于苛刻，但实际应用中动作都是散乱随机出现在长视频中，所以传统动作识别算法无法满足实际应用场景。而时序动作检测就是针对此类未裁剪的原始长视频的具体研究，它是动作识别任务向现实的进一步拓展。

时序动作检测任务，是从未裁剪的长视频中准确分割出动作段和背景段，并进行动作类别确定的视频处理任务。鉴于长视频数据量过于庞大，需要将时序动作识别方法分两步进行，特征提取和模型构建。大致为选用动作检测中成熟的神经网络从长视频中提取特征向量，再通过多种策略组合构建不同长度的动作段(clip)，用于后续动作边界模型构建。这样先通过特征序列再进行模型构建可以避免训练时间呈指数型增长的问题，极大地降低计算量，更易于参数调整。但是不同的动作段长度构建法则和模型构建策略会极大地影响动作边界准确度，由于目前动作类别识别的准确率已经很高，故动作边界的确定对于提高最后检测准确度起到了至关重要的作用。

发明内容

本发明的目的在于通过精确动作时间边界，提高长视频中时序动作的识别率。在动作类别准确检测的基础上，针对边界检测过程中长动作特征表达有效性不够和长动作边界回归不准确问题，提出一种基于深度学习的时序动作识别方法，以有效提高预测动作段与实际动作段的重叠度。

本发明提供一种针对未裁剪视频的时序动作识别方案，主要包含两部分：视频特征提取和时间边界回归模型构建。

在特征提取部分，根据动作视频的特点，同时提取出帧间运动信息和帧内空间信息。首先，对原始视频序列进行预处理，获得视频的光流图，为提取帧间运动信息奠定基础，并将其与保留了帧内空间信息的原数据一同送入双流网络中；其次，将双流网络输出的特征序列通过结合上下文信息的多尺度截选方案构建动作段。该方案利用特征序列进行时间边界回归模型训练，以避免直接使用原始视频数据训练带来的计算量暴增的弊端，减小模型训练时间、提高计算效率、降低长视频动作检测的硬件成本，更重要的是，结合上下文信息的动作段训练模型可以有效地提高后续回归准确度。

在回归模型构建部分，本发明提供了一种改进的时间边界回归模型。该模型包含多任务多层感知器和一种全新的针对长动作的拼接机制。多任务多层感知器用以得到时间边界回归结果，长动作拼接机制作为后处理，进一步提高长动作的回归准确度。由于时序动作检测任务针对的是未裁剪的长动作视频，而在特征提取构建动作段时，受到长度局限影响，部分动作段无法包含完整的长动作，使得回归边界的准确度明显降低。面对此类动作不完整的回归结果，本发明有针对性地提出了一种拼接机制，可以通过多条件判断和短动作整合，实现时序动作识别率的有效提高。

全新拼接机制需要增加多种前期回归结果，用以进行拼接的条件判断，本发明提出包括重叠率，动作可能概率和边界偏移量，三种条件进行不完整段落判断。为得到上述多种判断数据，本发明在构建算法流程时组建改进的多任务回归模型，选用多层感知器，并构造多任务损失函数，提高边界回归性能。综上所述，本发明通过构建结合上下文信息的特征提取方案和基于改进版多层感知器的拼接机制回归模型，进一步明确动作时间边界，最终实现时序动作识别率的提高。

本发明的技术方案具体如下：

第一步：从原始的视频序列中提取光流图，将其中每16帧组构为一个基本视频单元，定义为unit，并以单元形式分别将原始序列和光流图送入C3D网络中(基于caffe平台，经ActivityNet数据集预训练的3DCNN网络框架)，提取C3D网络中的fc6层(全连接层)，得到每个unit的特征向量，最终从原始的未裁剪长视频中提取全部的unit特征序列。

第二步：将上述的unit特征向量序列，进行多尺度上下文组合，构建不同长度的短动作段特征序列。每一个短动作段定义为一个clip，设clip的长度为m。为了得到多尺度clip以包含多种动作长度，本发明将m分别设为2、4、8、16、32、64、128个unit长度，将第一步unit特征序列中的每一个unit，按照上述不同的m长度，重复拼接7次，再进行平均池化，得到多尺度的基础clip，以保证每个unit都包含在7种时间尺度的clip中。之后在每个基础clip左右分别拼接前文和后文段，长度都为最终实现连接上下文信息，提高预测准确度，得到最终的clip长度为覆盖多种动作长度。

第三步：将多尺度clip段全部送入多层感知器，得到动作时间边界偏移量(包括开始位置和结束位置两个偏移量)、动作概率(动作与背景的二分类)、与ground true(真实动作区间)的重叠度，三个回归结果。

多任务多层感知器设置：为实现多层感知器多任务回归结果，构造多任务损失函数，如下所示：

L＝L_cls+λL_reg+λL_overlap

多层感知器损失函数L包括三部分：分类损失函数L_cls选用标准的softmax函数，回归损失函数L_reg选用多任务标准均方误差损失函数，重叠度损失函数L_overlap选用标准均方差损失函数，λ为超参数，多层感知器的总损失函数为上述三个部分的和。

训练过程中，正样本选用与ground true重叠率大于50％的样本。负样本为重叠率小于50％的样本，选用adam optimizer(优化器)进行参数更新，adam optimizer是通过动量(参数的移动平均数)来改善传统梯度下降，促进超参数动态调整。多层感知器(可设1000个隐层单元)学习率设置为0.005，λ凭经验可取值为2。

第四步：

针对第三步部分不足以覆盖完整动作的clip，本发明提出拼接机制，细则如下：

首先，筛选出不完整动作段：根据第三步得到的回归预测结果依次进行判断；其次，根据判断结果逐步实现相邻动作段的拼接。定义当前段回归得到的动作起始/结束时间偏移量为t_s/t_e，其后一段的动作起始/结束时间偏移量为t_ls/t_le，并设定时间偏移量阈值t(由第二步clip段长度为t值可取0.1n-0.2n之间)。

拼接条件如下：

通过循环判断当前段与后一段是否拼接，实现全部不完整动作段的筛查。

1.若t_e＜t，则需要进一步判断后段，如下所示：

a.若t_ls＜t，则说明两段clip不完整且属于同一动作，将两段进行拼接相连，得到新的clip序列；

b.若t_ls＞t，则说明后段完整，不需要与当前段进行拼接。

2.若t_e≥t，则当前段不需要与后一段进行拼接处理。

依上述判断条件，逐段对回归结果进行未完整动作段判断，并进行拼接处理，得到时间动作边界。

第五步：

将经过拼接机制处理后得到的所有可能动作段，依据动作概率进行排序。选用非极大值抑制(soft Non-Maximum Suppression，soft-NMS)，将回归得到的动作边界段按得分排序，保留得分最高的动作段，其余部分则降低置信概率，具体的分数重置函数如下所示

定义M为当前得分动作段，b_i为待处理动作段，s_i为动作段得分，b_i和M的iou(重叠度)越大，b_i的得分s_i越低。N_t为iou阈值，可取0.1～0.8之间，减小误删除操作，确立最终的动作边界。

第六步：直接使用C3D网络作为分类器(经过ActivityNet数据集预训练)，将上步得到的动作段送入此动作分类器，得到最终动作类别。

有益效果：

本发明针对未裁剪长视频数据过大和长动作时间边界回归不准确问题，通过构建结合上下文信息的特征提取方案和基于改进版多层感知器的拼接机制回归模型，进一步明确动作时间边界，最终实现时序动作识别率的提高。

本发明选用了动作识别成熟的深度学习网络先提取特征向量，并未直接针对原始视频数据处理，这样的选择可以明显减小后续计算量，成倍降低训练时间。在构建基本短动作段时，本发明提出了连接上下文段的多尺度构建方案，使得回归结果预测时可以考虑上下文信息，对于动作边界更加敏感，提高预测准确率。

针对短动作段长度的局限性所带来的长动作时间边界回归不精准现象，本发明提出了基于改进多任务多层感知器的长动作拼接机制。若当前段构建的短动作段不足以覆盖完整动作，意味着其前文和后文中包含部分动作段，所以本发明通过逐段的回归结果不完整判断，将当前短动作内容段与后段进行选择性拼接，进一步精确长动作时间回归结果，有效提高算法长动作的识别率，达到提高长动作时间边界预测准确度的效果，实现明显提高动作边界的平均预测准确度。

附图说明

图1为本时序动作识别算法的整体框架：输入为16帧设为一个视频单元的RGB序列，输出为动作类别及动作时间坐标。

图2为光流提取后的图像数据效果图，(a)为x方向的光流图，(b)为y方向的光流图，(c)为RGB图像

图3为时序动作识别结果示意图，从视频数据中，定位动作时间边界，明确动作类别为跳远。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

为了提高视频的主观质量，本发明考虑多尺度构建时对长动作的长度限制，提出了全新的针对未完整的动作段的拼接机制，有效提高长动作边界的准确度，并通过考虑上下文信息，进一步精准识别动作段。本发明公开了一种基于深度学习的时序动作检测方法，流程如图1所示，

具体按照以下步骤进行：

本发明选用时序动作检测数据集THUMOS Challenge 2014作为实验数据库，其中包含20类动作的未分割视频中包含时序动作标签，本发明选用其中200个验证机视频(包含3007个行为片段)和213个测试视频(包含3358个行为片段)。分别用于训练和测试时序动作检测模型，使用统一分辨率320×180。

第一步：从原始的视频序列中提取光流图，将其中每16帧组构为一个基本视频单元，定义为unit，并以单元形式分别将原始序列和光流图送入C3D网络中(基于caffe平台，经ActivityNet数据集预训练的3DCNN网络框架)，提取C3D网络中fc6层(全连接层)得到每个unit的特征向量，最终从原始的未裁剪长视频中提取全部的unit特征序列，具体训练过程中，以重叠度为0.5，提取长度为16帧的C3D特征，每个unit得到一个4096维特征向量，这样从原始的长视频中提取unit特征序列。

第三步：将最终的clip段分别送入多层感知器，得到动作时间边界偏移量(包括开始位置和结束位置两个偏移量)、动作概率(动作与背景的二分类)、与ground true的重叠度，三个回归结果。

多任务多层感知器设置：其中多层感知器可设置1000个隐层单元，为实现多层感知器多任务回归结果，构造多任务损失函数，如下所示：

L＝L_cls+λL_reg+λL_overlap

包括三部分：分类损失函数L_cls选用标准的softmax函数，回归损失函数L_reg选用多任务均方误差损失函数，重叠度损失函数L_overlap选用均方差损失函数，λ为超参数，多层感知器的总损失函数为上述三个部分的和。

训练过程中，正样本选用与ground true重叠率大于50％的样本。负样本为重叠率小于50％的样本，选用adam optimizer进行参数更新，adam optimizer是通过动量(参数的移动平均数)来改善传统梯度下降，促进超参数动态调整。学习率设置为0.005，λ凭经验取值为2。

第四步，拼接机制，细则如下：

首先，筛选出不完整动作段：根据第三步得到的回归预测结果进行判断；其次，依据按顺序循环判断结果实现相邻动作段的拼接。定义当前段回归得到的动作起始/结束时间偏移量为t_s/t_e，其后一段的动作起始/结束时间偏移量为t_ls/t_le，并设定时间偏移量阈值t(由第二步clip段长度为t值可取0.1n-0.2n之间)。

拼接条件如下：

1.若t_e＜t，则需要进一步判断后段，如下所示：

b.若t_ls＞t，则说明后段完整，不需要与当前段进行拼接。

2.若t_e≥t，则当前段不需要与后一段进行拼接处理。

依上述判断条件，逐段对回归结果进行拼接判断处理。

第五步：将经过拼接机制处理后得到的所有可能动作段，依据动作概率进行排序。选用非极大值抑制(soft Non-Maximum Suppression，soft-NMS)，将回归得到的动作边界段按得分排序，保留得分最高的动作段，其余部分则降低置信概率，具体的分数重置函数如下所示

M为当前得分动作段，b_i为待处理动作段，s_i为动作段得分，b_i和M的iou越大，b_i的得分s_i越低，N_t为iou阈值，可取0.1～0.8之间，减小误删除操作，确立最终的动作边界。

避免了传统非极大值抑制(Non-Maximum Suppression，NMS)当目标动作出现在不同边界的重叠区域中，由于阈值直接全部删除，而导致的对目标动作检测失败，提高算法的平均检测率，所以本发明选用了soft-NMS来确立最终的动作边界。

第六步：直接使用C3D网络作为分类器(经过ActivityNet数据集预训练过)，将第五步得到的最终的动作段送入此20类动作分类器，得到最终动作类别，iou阈值为0.5时，准确率为24.6％。

Claims

1.一种基于深度学习的时序动作识别方法，包含两部分：视频特征提取和时间边界回归模型构建；

其特征在于：在特征提取部分，根据动作视频的特点，同时提取出帧间运动信息和帧内空间信息；首先，对原始视频序列进行预处理，获得视频的光流图，为提取帧间运动信息奠定基础，并将其与保留了帧内空间信息的原数据一同送入双流网络中；其次，将双流网络输出的特征序列通过结合上下文信息的多尺度截选方案构建动作段；

在回归模型构建部分，该模型包含多任务多层感知器和一种全新的针对长动作的拼接机制；多任务多层感知器用以得到时间边界回归结果，长动作拼接机制作为后处理，全新拼接机制需要增加多种前期回归结果，用以进行拼接的条件判断，包括重叠率，动作可能概率和边界偏移量，三种条件进行不完整段落判断；选用多层感知器，并构造多任务损失函数。

2.根据权利要求1所述的方法，其特征在于，具体步骤如下：

第一步：从原始的视频序列中提取光流图，将其中每16帧组构为一个基本视频单元，定义为unit，并以单元形式分别将原始序列和光流图送入C3D网络中，提取C3D网络中的fc6层，fc6层为全连接层，得到每个unit的特征向量，最终从原始的未裁剪长视频中提取全部的unit特征序列；

第二步：将上述的unit特征向量序列，进行多尺度上下文组合，构建不同长度的短动作段特征序列；每一个短动作段定义为一个clip，设clip的长度为m；为了得到多尺度clip以包含多种动作长度，将m分别设为2、4、8、16、32、64、128个unit长度，将第一步unit特征序列中的每一个unit，按照上述不同的m长度，重复拼接7次，再进行平均池化，得到多尺度的基础clip，以保证每个unit都包含在7种时间尺度的clip中；之后在每个基础clip左右分别拼接前文和后文段，长度都为最终实现连接上下文信息，提高预测准确度，得到最终的clip长度为覆盖多种动作长度；

第三步：将多尺度clip段全部送入多层感知器，得到动作时间边界偏移量包括开始位置和结束位置两个偏移量、动作概率即动作与背景的二分类、与ground true即真实动作区间的重叠度，三个回归结果；

L＝L_cls+λL_reg+λL_overlap

多层感知器损失函数L包括三部分：分类损失函数L_cls选用标准的softmax函数，回归损失函数L_reg选用多任务标准均方误差损失函数，重叠度损失函数L_overlap选用标准均方差损失函数，λ为超参数，多层感知器的总损失函数为上述三个部分的和；

训练过程中，正样本选用与ground true重叠率大于50％的样本；负样本为重叠率小于50％的样本，选用adam optimizer优化器进行参数更新，多层感知器学习率设置为0.005，λ取值为2；

第四步：

针对第三步部分不足以覆盖完整动作的clip，提出拼接机制，细则如下：

首先，筛选出不完整动作段：根据第三步得到的回归预测结果依次进行判断；其次，根据判断结果逐步实现相邻动作段的拼接；定义当前段回归得到的动作起始/结束时间偏移量为t_s/t_e，其后一段的动作起始/结束时间偏移量为t_ls/t_le，并设定时间偏移量阈值t；由第二步clip段长度为时间偏移量阈值t值取0.1n-0.2n之间；

拼接条件如下：

通过循环判断当前段与后一段是否拼接，实现全部不完整动作段的筛查；

1).若t_e＜t，则需要进一步判断后段，如下所示：

b.若t_ls＞t，则说明后段完整，不需要与当前段进行拼接；

2).若t_e≥t，则当前段不需要与后一段进行拼接处理；

依上述判断条件，逐段对回归结果进行未完整动作段判断，并进行拼接处理，得到时间动作边界；

第五步：

将经过拼接机制处理后得到的所有可能动作段，依据动作概率进行排序；选用非极大值抑制，将回归得到的动作边界段按得分排序，保留得分最高的动作段，其余部分则降低置信概率，具体的分数重置函数如下所示

定义M为当前得分动作段，b_i为待处理动作段，s_i为动作段得分，b_i和M的iou重叠度越大，b_i的得分s_i越低；N_t为iou阈值，取0.1～0.8之间；

第六步：直接使用C3D网络作为分类器，将上步得到的动作段送入此动作分类器，得到最终动作类别。