CN108734095B

CN108734095B - 一种基于3d卷积神经网络的动作检测方法

Info

Publication number: CN108734095B
Application number: CN201810313649.7A
Authority: CN
Inventors: 宋佳蓉; 杨忠; 胡国雄; 韩家明; 张天翼; 朱家远
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2022-05-20
Anticipated expiration: 2038-04-10
Also published as: CN108734095A

Abstract

本发明提出了一种基于3D卷积神经网络的动作检测方法，属于计算机视觉识别技术领域。该方法包括如下步骤：首先，将视频分为多个有重叠的片段，采用训练好的3D卷积神经网络提取每个片段的高维时‑空特征，并采用多类softmax分类器对提取到的特征进行预测分类，再进一步对分类结果在时间维度上进行平滑滤波；其次，设定背景阈值，并将每个片段的背景得分与设定的阈值进行比较，得到属于动作片段的集合；最终，结合动作片段集合和帧率信息实现对动作在时间维度上的定位，从而得到视频对应的动作类别和该动作的起始时间片段集合。本发明实现端对端动作检测，提高检测结果的可靠性。

Description

一种基于3D卷积神经网络的动作检测方法

技术领域

本发明涉及一种基于3D卷积神经网络的动作检测方法，属于计算机视觉识别技术领域。

背景技术

近年来，视频处理技术得到了快速的发展。其中，针对视频的行为检测，由于其在安防等领域的广泛应用前景，也得到了大量研究者的关注。又随着深度学习的发展特别是卷积神经网络在计算机视觉中的大量应用并且在识别、检测等领域取得了令人惊喜的成果，基于卷积神经网络的视频行为检测得到了大量的研究。

申请号为CN201611168185.2的《一种基于卷积神经网络的动作检测模型》采用双路卷积神经网络分别提取RGB(红绿蓝三通道)图和光流图的特征，再通过SVM(支持向量机)分类器预测各个动作得分，最后对时间序列进行回归修正，最终得到动作类别和时间片段集合。

专利号为CN201710053337.2的《一种基于多区域双流卷积神经网络模型的动作检测方法》也采用双路卷积神经网络将RGB(红绿蓝三通道)图和光流图作为输入，通过计算所有动作链接分数并采用多时间尺度和步长的滑动窗口方法，达到分类和定位的目的。

以上两种方法都需要提前利用视频数据计算光流信息并将光流信息转化为图像数据，无法直接将原始视频数据送入网络直接进行分类和检测。

专利号为CN201710429060.9的《一种基于结构化分段网络的时间动作检测方法》采用时间金字塔结构，得到时间上不同尺度的特征表示，并用两个动作分类器和完整性评估分别判断视频对应的动作以及动作出现的时间片段。此方法需要训练两个分类器，相比于单个分类器损失函数较为复杂，训练难度较大。

综上所述，虽然国内外对基于卷积神经网络的动作检测有较多研究，但存在需要对视频数据提前处理或者网络结构复杂的问题。

发明内容

本发明提出了一种基于3D卷积神经网络的动作检测方法，采用对动作识别网络的预测结果进行后处理，然后利用后处理结果直接在时间维度上对动作进行定位，在确保网络检测准确率的同时，避免对视频数据的预处理，直接将原始视频数据作为输入，实现端对端检测。

本发明为解决其技术问题采用如下技术方案：

一种基于3D卷积神经网络的动作检测方法，包括如下步骤：

S1：将视频分为多个有重叠的视频片段，每个视频片段由连续L帧图片组成；

S2：利用训练好的3D卷积神经网络提取每个片段的高维时-空特征，并对提取到的特征进行预测分类；

S3：对S2中结果在时间维度上进行均值滤波，得到均值滤波处理后的各片段类别得分；

S4：对S3中所有片段类别得分进行统计，得到视频的动作类别；

S5：利用S3中的结果，对每个片段进行背景和动作二分类，得到属于动作的片段集合；

S6：对S5中集合元素进行合并；

S7：根据视频帧率和S6中动作片段集合，对动作在时间维度上进行定位，得到动作起始时间片段集合。

步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75％的N个视频片段，每个片段由连续L=16帧RGB图片组成，相邻片段之间重叠帧数为12帧。

步骤S2的具体过程如下：

迁移学习：利用训练好的C3D网络的卷积和池化层作为特征提取器，将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数，冻结卷积层学习率，即设卷积层学习率为0，并将全连接层的学习率设为为0.0001，利用自己的数据对网络进行训练，得到适合自己数据集的3D卷积神经网络模型；

按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络，利用多层3D卷积层提取每个片段的高维时空信息，即运动信息和空间信息，并用多类softmax分类器对该片段进行分类预测；针对每个视频片段，分类器每次输出class+1维向量，整个视频得到N个class+1维向量输出，用二维张量(N,class+1)表示，其中，class表示总的动作类别数，背景标签为0，每个片段输出包含背景得分，因此每个片段预测输出为class+1维向量。

步骤S3所述的均值滤波具体过程为：选取时间步长为10的均值滤波器，对S2中结果在时间维度上进行均值滤波，均值滤波操作的公式为:

i=1,2,…,N,j=0,1,…,class

其中，k=5，P_t ^j表示S2中第t个片段的第j类动作得分，

表示均值滤波后第i个片段的第j类动作得分，均值滤波处理后，视频对应的分类结果仍为(N,class+1)形式的二维张量。

S4的具体过程为：

计算除背景之外其余所有动作类别在整个视频上的得分，并在最终计算结果中选取得分最高的动作类别，记得分最高的动作类别为A，则动作A即为视频对应的动作类别，其中，均值计算公式和动作A选取公式分别为：

j=1,2,…,class

表示均值滤波后第i个片段的第j类动作得分，

表示该视频的第j类动作得分，j代表动作类别，A代表视频对应的动作。

S5所述的动作片段获取具体过程为：

设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较，若背景得分小于背景阈值T，则记录该片段的索引序号i，最终得到整个视频中代表动作的片段索引集合Action，

在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg，

其中，s_i＝16×(i-1)+1，e_i＝16×i。

S6所述的集合元素合并具体过程为：

设S5中集合Seg相邻元素为(s_j，e_j)，(s_j+1，e_j+1)，其中：以每16帧为基础，s_j为动作A第j次出现的开始帧数，s_j+1为动作A第j+1次出现的开始帧数，e_j为动作A第j次出现的结束帧数，e_j+1为动作A第j+1次出现的结束帧数，如果s_j+1-e_j＝1，则将元素(s_j，e_j)，(s_j+1，e_j+1)合并为(s_j，e_j+1)，并将合并后结果记为(S_j，E_j)，其中，S_j＝s_j，E_j＝e_j+1，j＝1，2，…，N-1，记合并后集合为SEG，按照S_j值由小到大排列，则SEG＝{(S₁，E₁)，(S₂，E₂)，…，(S_M，E_M)}，S₁为动作A第1次出现的开始帧数，S₂为动作A第2次出现的开始帧数，S_M为动作A第M次出现的开始帧数，E₁为动作A第1次出现的结束帧数，E₂为动作A第2次出现的结束帧数，E_M为动作A第M次出现的结束帧数，M表示集合SEG的元素个数。

S7所述的具体过程为：

计算视频帧率

其中，nframe表示视频的总帧数，duration表示视频总时长，单位为秒；将计算得到的视频帧率f与SEG中元素进行乘法运算，得到时间集Time＝{(T_S1，T_E1)，(T_S2，T_E2)，…，(T_SM，T_EM)}，Time即为对动作A在时间维度上的定位结果，T_S1为动作A第1次出现的开始时间，T_S2为动作A第2次出现的开始时间，T_SM为动作A第M次出现的开始时间，T_E1为动作A第1次出现的结束时间，T_E2为动作A第2次出现的结束时间，T_EM为动作A第M次出现的结束时间，T_Sj＝S_j×f，T_Ej＝E_j×f，j＝1，2，…，M，M表示集合SEG的元素个数，(S_j，E_j)∈SEG，T_Sj为动作A第j次出现的开始时间，T_Ej为动作A第j次出现的结束时间。

本发明的有益效果如下：

1)利用C3D网络直接提取视频的时空信息，不需要对视频数据提前进行运动信息提取，实现端对端动作检测。

2)对网络分类结果在时间维度上进行平滑滤波，提高了动作识别的准确性和鲁棒性，从而提高检测结果的可靠性。

3)采用重叠阈度为75％的片段划分，降低相邻片段跨度，提高了定位精度。

4)对动作识别网络的输出结果进行一系列后处理工作来完成检测工作，网络结构简单。

附图说明

图1是本发明流程图。

图2是本发明识别阶段的输入、输出示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

图1介绍了本发明流程，具体过程体现在如下步骤，

视频分段，将每个视频分为相邻片段间重叠阈度为75％的多个视频片段，每个片段由连续16帧RGB图片组成，相邻片段之间重叠的帧数为12帧，其中，若最后一片段不够16帧则舍弃。

视频分段结束后，一个视频可表示为5维张量，设一个视频被分为N个片段，则该视频可表示为5维张量(N，16，H，W，3)，其中，N表示视频被划分的片段数，16表示每个片段包括连续16帧图片，H，W分别代表图片的长宽尺寸，3表示图片的通道数，这里代表RGB图片。

将训练集视频按照上述原则划分并表示为5维张量形式，在整个训练集上，每个16帧片段用4维张量(16，H，W，3)表示。

将训练集每个片段缩放到16×128×171×3大小，16代表每个片段帧数，128、171、3分别代表每帧图片的长、宽以及通道数。

对训练集的所有16帧片段求均值，求得的均值用4维张量mean＝(16，128，171，3)表示。

将训练集中所有16帧片段减去mean＝(16，128，171，3)，使得训练集中每个像素值都分布在零附近，此步骤可消除噪音对分类的影响。

将减均值处理后的训练集16帧片段裁剪为16×112×112×3大小并批量送入C3D网络，利用迁移学习训练符合自己数据集的3D卷积神经网络。训练C3D网络时，用已有的C3D网络权重初始化C3D模型，将分类器输出改为自己数据集动作类别数，将卷积层学习率设为0、全连接层的学习率设为0.0001，利用随机梯度下降方法更新权重，得到符合自己数据集的C3D模型。

C3D网络结构包括多层3D卷积层、Relu激活函数、池化层、两个全连接层、dropout层以及多类softmax分类器，其中，每个3D卷积层由多个大小为3×3×3的3D卷积核组成。

将待检测视频分割为重叠阈度为75％的N个视频片段，每个片段由连续16帧RGB图片组成，将每个16帧片段缩放到16×128×171×3并减去均值mean＝(16，128，171，3)，然后在图片中心截取112×112大小，即将每个16帧片段裁剪为16×112×112×3大小。

将裁剪得到的4维张量(16，112，112，3)送入训练好的C3D网络，针对每个片段，C3D网络输出class+1维向量，其中，class表示总的动作类别数，背景标签为0，其余动作对应的标签依次为1、2、3…class，因此输出为class+1维向量。

如图2所示，将待检测视频的N个片段依次送入C3D网络，得到N个片段的预测输出，输出结果可用2维张量(N，class+1)表示。

为了进一步提高分类可靠性，如图2所示，在时间维度上对2维张量(N，class+1)进行均值滤波，降低分类误差，滤波器窗口步长选择为10，滤波操作公式为：

i＝1，2，…，N，j＝0，1，…，class (公式1)

其中，k＝5，P_t ^j表示12中第t个片段的第j类动作得分，

表示均值滤波后的第i个片段的第j类动作得分。

经过公式1计算得到滤波处理后的分类结果，分类结果仍为2维张量(N，class+1)。

利用滤波处理后的分类结果(N，class+1)在整个视频上计算除背景之外的每类动作得分，结果为class维向量，在整个视频上的每类动作得分计算公式为：

j＝1，2，…，class (公式2)

其中，

表示该视频的第j类动作得分。

将经过公式2计算得到的class维向量中得分最高的动作类别设定为该视频对应的动作类别，设得分最高的动作为A，A的判别公式为：

其中，j代表动作类别。

对待检测视频的每个片段进行动作和背景二分类，设定背景阈值T，将经过公式1滤波处理后的分类结果(N，class+1)中所有背景得分与阈值T依次进行比较，若背景得分小于T，则该片段代表动作，否则该片段代表背景，并记录属于动作片段的索引序号，得到代表动作片段的索引集合Action，

i表示片段索引序号。

根据Action集合得到记录动作A片段开始和结束帧数的元素集合Seg，

其中，s_i＝16×(i-1)+l，e_i＝16×i。

对Seg集合进行元素合并，设集合Seg相邻元素为(s_j，e_j)，(s_j+1，e_j+1)，如果s_j+1-e_j＝1，则将元素(s_j，e_j)，(s_j+1，e_j+1)合并为(s_j，e_j+1)，其中，S_j＝s_j，E_j＝e_j+1，j＝1，2，…，N-1，记合并后的集合为SEG，按照S_j值由小到大排列，SEG＝{(S₁，E₁)，(S₂，E₂)，…，(S_M，E_M)}，M表示SEG元素总个数。

计算视频帧率

nframe表示视频总帧数，duration表示视频总时长，单位为秒。

对动作A进行时间定位，利用SEG集合和视频帧率f计算动作A起始时间片段集合，定位结果用集合Time表示，Time＝{(T_S1，T_E1)，(T_S2，T_E2)，…，(T_SM，T_EM)}，其中，T_s代表开始时间，T_E代表结束时间，T_Sj＝S_j×f，T_Ej＝E_j×f，j＝1，2，…，M，(S_j，E_j)∈SEG。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于3D卷积神经网络的动作检测方法，其特征在于，包括如下步骤：

S6：对S5中集合元素进行合并；

2.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75％的N个视频片段，每个片段由连续L＝16帧RGB图片组成，相邻片段之间重叠帧数为12帧。

3.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，步骤S2的具体过程如下：

4.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，步骤S3所述的均值滤波具体过程为：选取时间步长为10的均值滤波器，对S2中结果在时间维度上进行均值滤波，均值滤波操作的公式为:

其中，k＝5，P_t ^j表示S2中第t个片段的第j类动作得分，

5.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，S4的具体过程为：

表示均值滤波后第i个片段的第j类动作得分，

6.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，S5所述的动作片段获取具体过程为：

其中，s_i＝16×(i-1)+1，e_i＝16×i。

7.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，S6所述的集合元素合并具体过程为：

设S5中集合Seg相邻元素为(s_j,e_j)，(s_j+1,e_j+1)，其中：以每16帧为基础，s_j为动作A第j次出现的开始帧数，s_j+1为动作A第j+1次出现的开始帧数，e_j为动作A第j次出现的结束帧数，e_j+1为动作A第j+1次出现的结束帧数，如果s_j+1-e_j＝1，则将元素(s_j,e_j)，(s_j+1,e_j+1)合并为(s_j,e_j+1)，并将合并后结果记为(S_j,E_j)，其中，S_j＝s_j，E_j＝e_j+1，j＝1,2,…,N-1，记合并后集合为SEG，按照S_j值由小到大排列，则SEG＝{(S₁,E₁),(S₂,E₂),…,(S_M,E_M)}，S₁为动作A第1次出现的开始帧数，S₂为动作A第2次出现的开始帧数，S_M为动作A第M次出现的开始帧数，E₁为动作A第1次出现的结束帧数，E₂为动作A第2次出现的结束帧数，E_M为动作A第M次出现的结束帧数，M表示集合SEG的元素个数。

8.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法，其特征在于，S7所述的具体过程为：

计算视频帧率

其中，nframe表示视频的总帧数，duration表示视频总时长，单位为秒；将计算得到的视频帧率f与SEG中元素进行乘法运算，得到时间集Time＝{(T_S1,T_E1),(T_S2,T_E2),…,(T_SM,T_EM)}，Time即为对动作A在时间维度上的定位结果，T_S1为动作A第1次出现的开始时间，T_S2为动作A第2次出现的开始时间，T_SM为动作A第M次出现的开始时间，T_E1为动作A第1次出现的结束时间，T_E2为动作A第2次出现的结束时间，T_EM为动作A第M次出现的结束时间，T_Sj＝S_j×f,T_Ej＝E_j×f,j＝1,2,…,M，M表示集合SEG的元素个数，(S_j,E_j)∈SEG,T_Sj为动作A第j次出现的开始时间，T_Ej为动作A第j次出现的结束时间。