CN110659572A

CN110659572A - 基于双向特征金字塔的视频动作检测方法

Info

Publication number: CN110659572A
Application number: CN201910778111.8A
Authority: CN
Inventors: 宋砚; 唐金辉; 何江
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-01-07
Anticipated expiration: 2039-08-22
Also published as: CN110659572B

Abstract

本发明提供了一种基于双向特征金字塔的视频动作检测方法，包括以下步骤：步骤1，对数据集进行预处理，提取I3D特征；步骤2，制作训练样本；步骤3，搭建网络，并将步骤1得到的I3D特征输入到网络中进行训练；步骤4，将测试视频对应的I3D特征输入到网络中，得到动作检测结果，使用非极大值抑制算法去除冗余检测结果。

Description

基于双向特征金字塔的视频动作检测方法

技术领域

本发明涉及一种视频识别技术，特别是一种基于双向特征金字塔的视频动作检测方法。

背景技术

人体动作识别是计算机视觉领域中至关重要的一个方向，其目的是自动分析采集到的视频，对人体动作划分行为类型，以代替人眼完成人体动作的分析和判断。动作检测是由动作识别发展而来的。动作检测是在一段没有剪辑过的长视频中定位动作的开始和结束时间并识别出动作的类型。

近年来，大多数的动作检测方法还是两阶段的，首先使用滑动窗口或者其他的方法产生一些动作候选片段提议，然后再使用一个分类器对动作进行精确的定位并确定动作的类别。但是这些方法的检测精度还是不能令人满意。

发明内容

本发明的目的在于提供一种基于双向特征金字塔的视频动作检测方法。

实现本发明目的的技术方案为：一种基于双向特征金字塔的视频动作检测方法，包括以下步骤：

步骤1，对数据集进行预处理，提取I3D特征；

步骤2，制作训练样本；

步骤3，搭建网络，并将步骤1得到的I3D特征输入到网络中进行训练；

步骤4，将测试视频对应的I3D特征输入到网络中，得到动作检测结果，使用非极大值抑制算法去除冗余检测结果。

进一步地，所述步骤1具体包括：

步骤101，把未剪辑的长视频，包括训练集和测试集，以jpeg的图片格式，按照25FPS的帧率读出为RGB图片，并使用TVL1算法计算对应的光流；

步骤102，每次从步骤101得到的视频帧中取16帧，将该16帧的RGB图片和计算得到对应的光流输入到I3D网络中，分别提取I3D网络的Mixed_5c层的输出(2×7×7×1024)，接着使用一个卷积核为2×7×7的AveragePooling3d得到1024维的特征；将RGB和光流得到的1024维特征拼接为2048维。

进一步地，所述步骤2具体包括：

步骤201，统计步骤101得到的每个视频的RGB帧数，然后按照512帧划分视频段，在训练集中每个视频段之间的重叠率为75％，在测试集中每个视频段之间的重叠率为50％，并记录每个视频段在视频中的起始位置；

步骤202，读取训练集的标注文件，计算真实标注的动作区间和步骤201得到的视频段的重叠部分，然后根据重叠率来为视频段分配真实标注；

步骤203，根据特征层默认锚的大小以及对应的锚尺度计算特征层上的锚坐标；

步骤204，对步骤202得到的属于视频段的真实标注动作区间和步骤203得到的锚坐标计算交并比IoU，并根据IoU分数分配锚的标签，具体操作为：

步骤205，先将步骤204中的属于锚的真实标注动作区间转换成中心和宽度，然后再进行编码，编码过程的具体操作为：

其中，gt_c和gt_w分别为真实标注动作的中心和宽度，anchor_c和anchor_w分别为锚的中心和宽度，encode_c和encode_w分别表示编码后的动作中心和宽度。

进一步地，步骤202中根据重叠率来为视频段分配真实标注的具体过程为：

若真实标注的动作区间长度大于视频段的长度，且当重叠部分占视频段的75％，则该真实标注属于这个视频段；

若视频段的长度大于真实标注的动作区间长度，且当重叠部分占真实标注的动作区间的75％，则该真实标注属于这个视频段；

若一个视频段没有分配到任何的真实标注，则将其抛弃；

最后将属于视频段的真实标注的动作区间修改为重叠部分的起始和结束坐标。

进一步地，步骤203的具体过程为：

步骤2031，对于一特征层，其时间维度为t，即由t个区间，默认anchor的宽度为w，在每个区间上放置n个锚，使用的锚尺度为[s₁,s₂,...,s_n]；

步骤2032，计算该特征层上第i个区间的第j个锚的坐标为

其中，s_j为第j个锚的尺度，w*s_j为锚的宽度；

步骤2033，获取该特征层上所有锚的在特征层上中心坐标[0.5,1.5,...,t-0.5]，获取这些锚在视频段的中心坐标为[0.5m,1.5m,...,(t-0.5)m]，锚尺度为[0.5,0.75,1]，对应的锚宽度为[0.5w,0.75w,w]，那么在视频段上的锚的坐标为：

...

其中每一行代表一个特征图上的一个单元格上的不同尺度的锚的坐标，每一行中的每两个坐标分别是锚的起始和结束坐标。

进一步地，步骤204的具体过程为：

步骤203得到的锚有多个，计算每个锚和该视频段的所有真实标注动作区间的IoU：

如果最高的IoU分数大于0.5，则这个锚和对应的真实标注匹配，即这个锚的标签是这个真实标注动作区间和相应的动作类别，并将这个锚视为正例；

如果最高的IoU分数小于等于0.5，那么这个锚的标签就是背景类，并将这个锚视为负例。

进一步地，所述步骤3具体包括以下步骤：

步骤301，用1d时序卷积和反卷积搭建网络，具体操作如下：

使用1d时序卷积和反卷积搭建整个网络，网络的输入是步骤102得到的I3D特征，大小为32×2048，特征图C₁-C₅得到的方式如下：

其中，inputs表示网络输入，大小为32×2048，m1表示卷积核为1×1024且步幅为1的1d时序卷积，m3表示卷积核为3×1024且步幅为2的1d时序卷积；

得到C₁-C₅后使用横向连接和反卷积得到特征图P₁-P₅，得到的过程如下：

其中，k3表示卷积核为3×256且步幅为1的1d时序卷积，k1表示卷积核为1×256且步幅为1的1d时序卷积，de表示反卷积操作，将特征图的时间维度放大两倍。

得到P₁-P₅后，继续使用1d时序卷积得到特征图zhengliR₁-R₅，具体方法如下：

其中，k3表示卷积核为3×256且步幅为1的1d时序卷积；

得到R₁-R₅后，在R₁-R₅上进行检测，其中分类和位置预测是在两个分支上进行的；分类是使用一个卷积核为3×(Classes_num*anchor_num)，步幅为1的1d时序卷积得到的，其中Classes_num表示预测的类别个数，anchor_num表示该特征层上每个单元格上预测的锚个数；位置预测是通过一个卷积核为3×(2*anchor_num)，步幅为1的1d时序卷积得到的，其中2表示预测动作的中心和宽度；

步骤302，根据步骤202得到的训练集视频段，从步骤102得到的特征中读取对应的I3D特征输入步骤301搭建的网络中；

步骤303，根据步骤204得到的锚和真实标注之间的IoU，使用难分样本挖掘使得正负例之比为1:3，具体做法为：假设正例的个数为N个，将负例锚的预测结果进行排序，选择背景分数最低的3N个负例用于计算损失，其余的全部抛弃；

步骤304，使用Adam优化器训练网络，其中多任务损失如下：

其中，N表示正例的个数，L_cls是一个标准的多分类交叉熵损失，L_loc是编码后的位置偏移量的L1损失，计算过程如下所示：

其中，

表示第i个锚与第j个真实标注匹配关于类别c匹配，

表示第i个锚的第c个类别的分类分数；x_ij表示第i个锚和第j个真实标注是否匹配，匹配时为1，否则为0；

表示第i个锚的背景分类分数，

表示第i个锚预测的中心/宽度预测偏移量，是指第i个anchor的第c类分类分数，

表示第j个真实标注的中心/宽度Pos为正例，Neg为负例。

进一步地，所述步骤4具体包括以下步骤：

步骤401，根据步骤201得到的测试集视频段，从步骤102得到的特征中读取对应的I3D特征输入到网络中，得到初步预测结果；

步骤402，将步骤401得到的初步预测结果中的坐标偏移量进行解码，得到动作的中心和宽度，然后转换成动作的起始和结束坐标，解码操作过程如下：

decode_c＝pred_c*anchor_w+anchor_c (10)

decode_w＝exp(pred_w)+anchor_w (11)

其中，pred_c和pred_w分别为预测的动作中心和宽度偏移量，anchor_c和anchor_w分别为锚的中心和宽度，decode_c和decode_w分别是解码后的动作的中心和宽度。

步骤403，对步骤402得到的预测结果进行筛选，首先将预测分类分数小于0.1的以及背景分数抛弃掉，并将预测结果的起始结束坐标加上视频段在视频中的起始坐标，得到预测结果在视频中的位置；将属于同一个视频的所有预测结果放在一个集合中，然后对每个类别使用一次非极大值抑制算法，去除冗余得到最终的检测结果。

本发明与现有技术相比，涉及的方法属于一阶段的方法，能够直接检测动作，减少计算量，提升运算速度。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1为基于双向特征金字塔的视频动作检测方法示意图。

具体实施方式

结合图1，本发明提出一种基于双向特征金字塔的视频动作检测方法，包括特征提取、制作训练样本、在训练集上训练网络、对测试视频进行动作检测四个过程，对未剪辑的长视频进行一系列的计算，得到视频中人体动作发生的开始时间、结束时间以及动作的类别。

特征提取过程包括以下步骤：

步骤1：把未剪辑的长视频，包括训练集和测试集，以jpeg的图片格式，按照25FPS的帧率读出为RGB图片，并使用TVL1算法计算对应的光流；

步骤2：每次从步骤1得到的视频帧中取16帧，输入到I3D网络中，提取I3D网络的Mixed_5c层的输出(2×7×7×1024)，然后使用一个卷积核为2×7×7的AveragePooling3d得到1024维的特征。然后将这16帧图片对应的光流也输入到I3D网络中，进行同样的处理，也得到一个1024维的特征。将RGB和光流得到的1024维特征拼接为2048维。(2×7×7×1024)表示Mixed_5c层的输出是一个四维数组，其维度大小为2×7×7×1024，然后使用一个卷积核为2×7×7的AveragePooling3d层处理，得到的输出就是1024了(即只有一个维度了)，相当于输入16帧RGB图片最终得到一个1024维输出。同理，输入16帧光流也能得到一个1024维输出，然后两者拼接得到2048维。

制作训练样本包括以下步骤：

步骤3：统计步骤1得到的每个视频的帧数，然后按照512帧划分视频段，在训练集中每个视频段之间的重叠率为75％，在测试集中每个视频段之间的重叠率为50％，并记录每个视频段在视频中的起始位置；

步骤4：读取训练集的标注文件，计算真实标注的动作区间和步骤3得到的视频段的重叠部分，然后根据重叠率来为视频段分配真实标注，具体操作为：

若真实标注的动作区间长度大于视频段的长度，那么当重叠部分占视频段的75％，就认为该真实标注属于这个视频段；若视频段的长度大于真实标注的动作区间长度，那么当重叠部分占真实标注的动作区间的75％，就认为该真实标注属于这个视频段。如果一个视频段没有分配到任何的真实标注，那么就将其抛弃。最后将属于视频段的真实标注的动作区间修改为重叠部分的起始和结束坐标；

步骤5：图1的网络结构中的R₁-R₅层用于检测动作，其中R₁-R₄使用的锚尺度为[0.5,0.75,1,1.5,2]，R₅的锚尺度为[0.5,0.75,1]，R₁-R₅的默认的锚大小为[16,48,112,240,496]，根据默认锚的大小以及对应的锚尺度计算这些特征层上的锚坐标，具体操作为：

输入的视频段长度为512，假设R_i特征层的特征图大小为t×256，t为特征层的时间维度，特征图相对于视频段的时间维度缩小倍数为

默认锚的大小为w，使用的锚尺度为[0.5,0.75,1]，那么该特征层上的锚坐标计算方法为：

该特征层上所有锚的在特征层上中心坐标为[0.5,1.5,...,t-0.5]，这些锚在视频段的中心坐标为[0.5m,1.5m,...,(t-0.5)m]，锚尺度为[0.5,0.75,1]，对应的锚宽度为[0.5w,0.75w,w]，那么在视频段上的锚的坐标为：

...

例如R₅层的特征图为2×256，特征图相对于视频段缩小的倍数为

默认锚的大小为496，使用的锚尺度为[0.5,0.75,1]，那么R₅层上的所有锚坐标为：

[[[4,252],[-58,314],[-120,376]],

[[260,508],[198,570],[136,632]]

步骤6：对步骤4得到的属于视频段的真实标注动作区间和步骤5得到的锚坐标计算交并比(IoU)，并根据IoU分数分配锚的标签，具体操作为：

步骤B03得到的锚有多个，计算每个锚和该视频段的所有真实标注动作区间的IoU，如果最高的IoU分数大于0.5，那么就认为这个锚和对应的真实标注匹配，即这个锚的标签是这个真实标注动作区间和相应的动作类别，并将这个锚视为正例，如果最高的IoU分数小于等于0.5，那么这个锚的标签就是背景类，并将这个锚视为负例。

步骤7：先将步骤6中的属于锚的真实标注动作区间转换成中心和宽度，然后再进行编码，编码过程的具体操作为：

其中gt_c和gt_w分别为真实标注动作的中心和宽度，anchor_c和anchor_w分别为锚的中心和宽度，encode_c和encode_w分别表示编码后的动作中心和宽度。

在训练集上训练网络包括以下步骤：

步骤8：用1d时序卷积和反卷积搭建如图1所示的网络，具体操作如下：

使用1d时序卷积和反卷积搭建整个网络，网络的输入是步骤2得到的I3D特征，大小为32×2048，特征图C₁-C₅得到的方式如下：

其中inputs表示网络输入，大小为32×2048，m1表示卷积核为1×1024，步幅为1的1d时序卷积，m3表示卷积核为3×1024，步幅为2的1d时序卷积。具体来说，inputs经过一个1×1024，步幅为1的1d时序卷积得到C₁，C₁经过一个3×1024，步幅为2的1d时序卷积得到C₂，得到C₃-C₅的操作类似于C₂。C₁-C₅的特征图大小为：C₁为32×1024，C₂为16×1024，C₃为8×1024，C₄为4×1024，C₅为2×1024。

得到C₁-C₅后使用横向连接和反卷积得到P₁-P₅，得到的过程如下：

其中k3表示卷积核为3×256，步幅为1的1d时序卷积，k1表示卷积核为1×256，步幅为1的1d时序卷积，de表示反卷积操作，将特征图的时间维度放大两倍。具体来说，P₅是C₅经过一个卷积核为1×256，步幅为1的1d时序卷积和一个卷积核为3×256，步幅为1的1d时序卷积得到的；P₄是通过C₄和P₅得到的，首先将C₄经过一个卷积核为1×256，步幅为1的1d时序卷积，将P₅经过反卷积得到同样大小的特征图，然后将两者相加再使用一个卷积核为3×256，步幅为1的1d时序卷积得到P₄；P₁-P₃的获得方式类似于P₄。P₁-P₅的特征图大小为：P₁为32×256，P₂为16×256，P₃为8×256，P₄为4×256，P₅为2×256。

得到P₁-P₅后，继续使用1d时序卷积得到R₁-R₅，具体方法如下：

其中k3表示卷积核为3×256，步幅为1的1d时序卷积。具体的，R₁等于P₁，对于R₂-R₅，R₂是R₁使用一个卷积核为3×256，步幅为1的1d时序卷积再加上P₂得到的，R₃-R₅得到的方式和R₂一样。R₁-R₅的特征图大小为：R₁为32×256，R₂为16×256，R₃为8×256，R₄为4×256，R₅为2×256。

得到R₁-R₅后，在R₁-R₅上进行检测，其中分类和位置预测是在两个分支上进行的。分类是使用一个卷积核为3×(Classes_num*anchor_num)，步幅为1的1d时序卷积得到的，其中Classes_num表示预测的类别个数(包含背景类)，anchor_num表示该特征层上每个cell上预测的锚个数；位置预测是通过一个卷积核为3×(2*anchor_num)，步幅为1的1d时序卷积得到的，其中2表示预测动作的中心和宽度。

步骤9：根据步骤4得到的训练集视频段，从步骤2得到的特征中读取对应的I3D特征输入到图1的网络中；

步骤10：根据步骤6得到的锚和真实标注之间的IoU，如果IoU大于0.5，则认为该锚为正例，如果IoU小于0.5，则认为该锚为负例。由于大部分锚为负例，使用hardnegativemining使得正负例之比为1:3，具体做法为：

假设正例的个数为N个，将负例锚的预测结果进行排序，选择背景分数最低的3N个负例用于计算损失，其余的全部抛弃；

步骤11：网络的损失函数是一个多任务损失，网络的输出是所有锚的动作类别和动作位置的偏移量，使用Adam优化器训练网络。多任务损失如下：

其中N表示正例的个数，L_cls是一个标准的多分类交叉熵损失，L_loc是编码后的位置偏移量的L1损失，计算过程如下所示：

其中

表示第i个锚与第j个真实标注匹配关于类别c匹配，

表示第i个锚的第c个类别的分类分数，x_ij表示第i个锚和第j个真实标注是否匹配，匹配时为1，否则为0，

表示第i个锚的背景分类分数，

表示第i个锚预测的中心/宽度预测偏移量，

表示第j个真实标注的中心/宽度。对于正例锚，需要计算分类损失和位置偏移量损失，对于负例，只需计算分类损失。Pos为正例，这里是指对属于正例的anchor进行计算公式为

neg为负例，其计算公式为

是指第i个anchor的第c类分类分数(这里是指未经过处理前的分类分数)，在分类任务中通过使用一个softmax函数将各个类别的分类分数转为各个类别的概率。Softmax函数就是

这个公式，其中是指第i个anchor的第c类分类分数的指数，是指第i个anchor所有分类分数的指数之和。因此通过这个公式可以得到各个类别的概率。因此也可以当成第i个anchor是第c类的概率大小。

在测试视频进行检测包括以下步骤：

步骤12：根据步骤3得到的测试集视频段，从步骤2得到的特征中读取对应的I3D特征输入到网络中，得到初步预测结果；

步骤13：将步骤12得到的初步预测结果中的坐标偏移量进行解码，得到动作的中心和宽度，然后转换成动作的起始和结束坐标，解码操作过程如下：

decode_c＝pred_c*anchor_w+anchor_c (10)

decode_w＝exp(pred_w)+anchor_w (11)

其中pred_c和pred_w分别为预测的动作中心和宽度偏移量，anchor_c和anchor_w分别为锚的中心和宽度，decode_c和decode_w分别是解码后的动作的中心和宽度。

步骤14：对步骤13得到的预测结果进行筛选，首先将预测分类分数小于0.1以及背景分数抛弃掉，并将预测结果的起始结束坐标加上视频段在视频中的起始坐标，得到预测结果在视频中的位置。将属于同一个视频的所有预测结果放在一个集合中，然后对每个类别使用一次非极大值抑制算法(阈值为0.3)，去除冗余得到最终的检测结果。