CN110738129A

CN110738129A - 一种基于r-c3d网络的端到端视频时序行为检测方法

Info

Publication number: CN110738129A
Application number: CN201910892237.8A
Authority: CN
Inventors: 桑农; 张士伟; 马百腾; 高常鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-31
Anticipated expiration: 2039-09-20
Also published as: CN110738129B

Abstract

本发明公开了一种基于R‑C3D网络的端到端视频时序行为检测方法，属于计算机视觉领域，该方法包括：对输入视频进行帧率调整和帧提取，将提取到的帧进行归一化和数据增强后，作为训练集和测试集；构建时序行为检测模型；该时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；其中长时信息编码模块，对提取的特征图进行编码，得到包含长时间信息的特征；将训练集和测试集输入时序行为检测模型中进行训练；将待检测视频输入训练好的时序行为检测模型进行检测，得到视频中存在的行为类别和定位信息。本发明通过设计长时信息编码网络，对提取的特征进行编码，使得网络能够获得时序动作的全局时间信息，提高了动作定位和分类的准确度。

Description

一种基于R-C3D网络的端到端视频时序行为检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于R-C3D网络的端到端视频时序行为检测方法。

背景技术

随着视频，手机，网络的普及，越来越多的视频被产生。为了能够定向的搜索视频，以及从视频中找到特定的行为，比如偷盗，打架等危险行为，以便于保证财产和人身安全。长未修剪视频中的时间动作检测越来越受到关注。该任务的目的是暂时定位感兴趣的动作发生间隔，并在长的未修剪的视频中预测动作类别。由于行动的时间持续时间变化很大，从几秒钟到几秒钟之间的分数，以及目标行为在非相关活动的背景下，行动检测任务面临诸多挑战。

目前，大多数现有方法将时间动作检测分成多个阶段，即预先计算特征，生成提议，对提议进行分类以及排名。比如PSDF方法，该方法基于iDT特征对视频提取了一种分数分布金字塔，之后再利用LSTM网络对PSDF特征序列进行处理，并根据输出的帧级的行为类别置信度分数处理得到行为片段的预测，但是由于iDT特征的提取耗费大量的时间和资源，严重限制了网络的运行速度；BSN方法则是利用CNN网络对视频提取特征，一定程度上减少了特征提取的时间，但是该方法并不是端到端的，而是利用TEM定位动作的开始点和结束点然后生成动作的提议，随后对提议进行打分，由于不是端到端，使得该方法在应用上存在一定的限制。CTAP方法则是对视频中的每一帧进行分类，随后利用得分进行聚合，然后再利用滑窗的方法对聚合得到的提议进行调整，该方法也是多阶段的方法，导致在应用上存在问题。上述方法均采用局部特征进行行为检测，不能获取全局信息，因此检测精度较低。

总体而言，现有时序行为检测方法不能同时兼顾特征提取时间与实现端到端检测，也不能获取全局信息，因此存在检测准确度低、运行速度慢的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法，其目的在于解决现有时序行为检测方法存在检测准确度低、运行速度慢的技术问题。

为实现上述目的，本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法，包括：

(1)对输入视频进行帧率调整和帧提取，将提取到的帧进行归一化和数据增强后，作为训练集和测试集；

(2)构建时序行为检测模型；

所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；

所述特征提取模块，用于对输入图片进行提取特征，得到特征图；所述长时信息编码模块，用于对所述特征图进行编码，得到包含长时间信息的特征；所述行为识别模块，用于根据所述长时间信息的特征进行动作识别和定位；

(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练；

(4)将待检测视频输入训练好的时序行为检测模型进行检测，得到视频中存在的行为类别，以及与行为对应的起始位置和结束位置。

进一步地，经过所述长时信息编码模块编码的特征表示为：

其中，V_i代表编码的第i个特征，w_ij是可学习的权重，L_t是编码长度，f_i表示输入的第i个特征。

进一步地，所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。

进一步地，所述卷积层的卷积核大小为L_e×1×1；

其中，L_e＝2*L_f-1，L_f表示时序长度。

进一步地，经过所述长时信息编码模块编码的特征表示为：

V_ij＝w_ijCos(f_i,f_j)

其中，V_ij代表编码的第ij个特征，

进一步地，所述长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层；

所述第一特征变形层用于将经过卷积的三维特征变为一维特征；

所述相关性获取层用于获得一维特征之间的相关性；

所述第二特征变形层用于将具有相关性的特征变为二维特征。

进一步地，所述第一卷积层和第二卷积层卷积核大小均为L_e×1×1，其中L_e＝2*L_f-1；L_f表示时序长度。

进一步地，经过所述长时信息编码模块编码的特征表示为：

其中，V_ir代表编码的第ir个特征，r是降采样率，r_m是降采样率的最大值，w_j是可学习的参数。

进一步地，所述长时信息编码模块包括多个并列的空洞卷积单元，以及依次连接的卷积层、批正则化层和非线性激活层；其中，每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。

进一步地，所述特征提取模块为3D Resnet网络。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得以下有益效果：

(1)本发明通过设计长时信息编码网络，增加神经元感受野，对提取的特征进行编码，使得网络能够获得时序动作的全局时间信息，由于增加的计算量很少，因此，本发明能够在较快的运行速度下，实现动作定位和分类的准确检测。

(2)本发明采用RGB图片作为输入，可以节省大量的数据处理时间，并且是端到端的进行预测，进一步提高了网络的运行速度。

附图说明

图1是本发明实例提供的一种基于R-C3D网络的端到端视频时序行为检测方法的流程图；

图2(a)-图2(c)分别是本发明实例中长时信息编码模块三种不同的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参考图1，本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法，包括：

具体地，本发明实施例首先利用ffmpeg将视频的帧率变成25fps，但本发明不限于此，具体应用中帧率根据视频中持续时间最长的动作时间决定，目的是使最长的动作可以完整的输入网络中；随后将视频变成连续的图片，并且分辨率归一化到171x128，具体实施中也可选择其他尺寸；最后对归一化的图片进行随机翻转，以进行数据增强。

(2)构建时序行为检测模型；

具体地，本发明构建的时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块；特征提取模块，用于对输入图片进行提取特征，得到特征图；本发明采用3D Resnet网络进行特征提取；长时信息编码模块，用于对特征图进行编码，得到包含长时间信息的特征；行为识别模块，用于根据长时间信息的特征进行动作识别和定位；

本发明针对长时信息编码模块编码的特征，设计了三种时间编码函数：第一种，线性函数，即线性地对时间特征进行加权，经过长时信息编码模块编码的特征表示为：

对应该线性函数的长时信息编码模块结构如图2(a)所示，包括依次连接的卷积层、批正则化层和非线性激活层；其中，卷积层的卷积核大小为L_e×1×1用于接收长期时间信息；L_e＝2*L_f-1，L_f表示时序长度。本发明实施例为191×1×1。

第二种，相关函数，受各种应用中成对相关性的启发，本发明采用标准相关函数，即余弦相似性捕获每对特征之间的相似性，经过长时信息编码模块编码的特征表示为：

V_ij＝w_ijCos(f_i,f_j)

其中，V_ij代表编码的第ij个特征，

对应该相关函数的长时信息编码模块结构如图2(b)所示，包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层；其中，第一特征变形层用于将经过卷积的三维特征变为一维特征；相关性获取层用于获得一维特征之间的相关性；第二特征变形层用于将具有相关性的特征变为二维特征；第一卷积层和第二卷积层卷积核大小均为L_e×1×1，其中L_e＝2*L_f-1；L_f表示时序长度，本发明实施例为191×1×1。

第三种，多尺度时间聚合函数，考虑具有相同类别的动作实例通常具有不同的持续时间，我们还考虑以多尺度方式执行如下的长期时间聚合，此时经过所述长时信息编码模块编码的特征表示为：

对应该多尺度时间聚合函数的长时信息编码模块结构如图2(c)所示，包括多个并列的空洞卷积单元，以及依次连接的卷积层、批正则化层和非线性激活层；其中，每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。每个空洞卷积层的卷积核大小为L_e×1×1，本发明实施例为191×1×1。

(3)将训练集和测试集输入时序行为检测模型中进行训练；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，包括：

(2)构建时序行为检测模型；

2.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，经过所述长时信息编码模块编码的特征表示为：

3.根据权利要求2所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。

4.根据权利要求3所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述卷积层的卷积核大小为L_e×1×1；

其中，L_e＝2*L_f-1，L_f表示时序长度。

5.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，经过所述长时信息编码模块编码的特征表示为：

V_ij＝w_ijCos(f_i,f_j)

其中，V_ij代表编码的第ij个特征，

6.根据权利要求5所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层；

所述相关性获取层用于获得一维特征之间的相关性；

7.根据权利要求6所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述第一卷积层和第二卷积层卷积核大小均为L_e×1×1，其中L_e＝2*L_f-1；L_f表示时序长度。

8.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，经过所述长时信息编码模块编码的特征表示为：

9.根据权利要求8所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述长时信息编码模块包括多个并列的空洞卷积单元，以及依次连接的卷积层、批正则化层和非线性激活层；其中，每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。

10.根据权利要求1-9任一项所述的一种基于R-C3D网络的端到端视频时序行为检测方法，其特征在于，所述特征提取模块为3D Resnet网络。