CN110991219B

CN110991219B - 一种基于双路3d卷积网络的行为识别方法

Info

Publication number: CN110991219B
Application number: CN201910964765.XA
Authority: CN
Inventors: 路小波; 姜胜芹
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2024-02-06
Anticipated expiration: 2039-10-11
Also published as: CN110991219A

Abstract

本发明设计了一种基于双路3D卷积网络的行为识别方法，本发明主要由3D卷积和伪3D卷积堆叠而成，包括时空降采样模块、细分支、粗分支和侧边连接等四个模块。该网络通过一个共享的时空降采样模块，为两个分支提供低层的时空基元信息。细分支是由三个3D卷积块组成的，其中每个卷积块包含两个卷积层。粗分支是从所有的输入视频帧中学习时空特征。同时采用侧边连接以融合两个分支的特征。本发明参数少、准确率高、速度快，可用于手机、录像机、监控摄像头等设备所拍摄视频的分类，在家庭、公共场所等场景中有着重要的应用价值。

Description

一种基于双路3D卷积网络的行为识别方法

技术领域

本发明涉及一种基于双路3D卷积网络的行为识别方法，属于图像处理和模式识别技术领域。

背景技术

行为识别是一个非常实用的任务，在生产生活中均具有广泛的应用前景，如视频监控、人机交互和医疗监控等。随着图像技术的发展，对于动作识别技术的要求也越来越高。与此同时，随着移动技术和互联网技术的发展，视频的数量以爆炸性的速度在增长，例如，2017年2月，每分钟就有400小时的新视频上传到YouTube。另外，众多的住宅区和商场等场所拥有多路视频监控系统，从这些系统获取的视频常被用于安全、商业等分析。如果基于传统实时技术来完成这样的任务，就意味着需要更多的计算资源，远远不能满足实际需求，因此亟待开发一种推理速度快、计算资源消耗低的行为识别方法。

发明内容

为了解决上述问题，本发明设计了一种基于双路3D卷积网络的行为识别方法，该方法采用一种轻量化策略对3D网络进行设计，构建快速的行为识别方法。

为了达到上述目的，本发明提供如下技术方案：

一种基于双路3D卷积网络的行为识别方法，所述方法包括下列步骤：

步骤1：制作训练和测试数据集；搜集行为识别相关的数据库，将数据库中视频序列进行处理，用于模型的训练，其具体包括：

步骤101：若数据库没有包含训练集和测试集，将数据库中每个行为类别的视频序列按照4比1的比例，将数据库分为训练集和测试集。若训练集有k个样本，则记S_train＝{x₁,x₂,...,x_k}为训练集，对于第m个样本，x_m＝{V_m；l_m}，其中V_m表示视频序列，l_m表示该视频的标签。那么测试集有个样本，记S_test＝{x₁,x₂,...,x_h}为测试集。若数据库已包含训练集和测试集，转至步骤 102；

步骤102：将数据库中的每个视频序列解码成若干张图片，将图片的分辨率统一调整为256×310，按时间顺序依次编号，记为000001.jpg, 00002.jpg,…，同时保存到本地文件夹中。若该视频序列有r帧，那么对于第 m个样本，x_m＝{v₁,v₂,...,v_r；l_m}，其中v_i表示第i个图片；

步骤2：在训练过程中，对数据进行处理和扩增，其具体包括：

步骤201：从视频中随机抽取32个连续视频帧作为网络输入，如视频序列有n帧，但不足32帧，则将前32-n作为补足序列添加到第n帧之后。

步骤202：从五个图片的空间位置(即四个角和一个中心)随机剪切一个224×224×32网络输入的张量；

步骤3：建立深度网络模型，模型由4个模块组成，包括时空降采样模块、细分支、粗分支和侧边连接；由步骤202获得张量，输入到时空降采样模块，该模块获得的特征分别输入到细分支和粗分支，而后融合到一起经过 1×1×1的卷积之后，给出最终的分类结果；

步骤4：将数据送入网络，对网络的参数进行训练；

步骤5：对于步骤4中的模型进行测试，其具体包括：

步骤501：若测试的视频序列不足32帧，则将视频序列经过步骤201补足视频序列，而后输入到网络模型，输出的结果作为最终的输出。若大于等于32帧，跳转到步骤502；

步骤502：若视频序列大于等于32帧，则将视频按照每32帧一个视频片段，依次输入到网络中，将输出的结果求和，选择求和后输出概率最大的类别作为网络的最终结果输出。

作为本发明的一种改进，所述步骤3中深度网络模型结构如下：

卷积层1：用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入，再经过BN层和ReLU层，得到112×112×32×16的特征；

卷积层2：用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征，再经过BN层和ReLU层，得到112×112×32×16的特征；

卷积层3：用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征，再经过BN层和ReLU层，得到112×112×32×16的特征；

池化层1：将卷积层3输出的112×112×32×16的特征结果，经过2×2×2 的3D最大池化层后，得到56×56×32×8的特征；

卷积层4：用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征，再经过BN层和ReLU层，得到56×56×64×8的特征；

卷积层5：用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征，再经过BN层和ReLU层，得到56×56×64×8的特征；

池化层2：将卷积层5输出的56×56×64×8的特征结果，经过2×2×2的 3D最大池化层后，得到28×28×64×4的特征；

卷积层6：用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

卷积层7：用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

池化层3：将卷积层7输出的28×28×128×4的特征结果，经过2×2×2的 3D最大池化层后，得到14×14×128×2的特征；

卷积层8：用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征，再经过BN层和ReLU层，得到14×14×256×2的特征；

卷积层9：用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征，再经过BN层和ReLU层，得到14×14×256×2的特征；

池化层4：将卷积层9输出的14×14×256×2的特征结果，经过1×1×1的 3D自适应平均池化层后，得到1×1×256×1的特征；

卷积10：用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的 112×112×32×16特征，再经过BN层和ReLU层，得到112×112×32×4的特征。

池化层10_1:将卷积层10输出的112×112×32×4的特征结果，经过步长为1×2×2的1×2×2 3D最大池化层后，得到56×56×32×4的特征。

卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征，再经过BN层和ReLU层，得到56×56×64×4的特征。

卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的 56×56×3×2特征，再经过BN层和ReLU层，得到56×56×64×4的特征。

卷积层11：用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征，再经过BN层和ReLU层，得到56×56×64×4的特征。

聚集层1：将卷积10_3的输出和卷积层11的输出，沿着通道维级联，得到56×56×128×4的特征。

池化层12:将聚集层1输出的56×56×128×4的特征结果，经过步长为 1×2×2的1×2×2 3D最大池化层后，得到28×28×128×4的特征。

卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的 28×28×12×8特征，再经过BN层和ReLU层，得到28×28×128×4的特征。

卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的 28×28×128×特征，再经过BN层和ReLU层，得到28×28×128×4的特征。

卷积层13：用128个1×1×1的卷积核去卷积卷积层7输出的 28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征。

聚集层2：将卷积12_2的输出和卷积层13的输出，沿着通道维级联，得到28×28×256×4的特征。

池化层14:将聚集层2输出的28×28×256×4的特征结果，经过步长为 1×2×2的1×2×2 3D最大池化层后，得到14×14×256×4的特征。

卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×25×6特征，再经过BN层和ReLU层，得到14×14×256×4的特征。

卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的 14×14×256×特征，再经过BN层和ReLU层，得到14×14×256×4的特征。

池化层14_3：将卷积层14_2输出的14×14×256×4的特征结果，经过 1×1×1的3D自适应平均池化层后，得到1×1×256×1的特征。

聚集层3：将池化层4的输出和池化层14_3的输出，沿着通道维级联，得到1×1×512×1的特征。

卷积层15：用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征，得到1×1×512×1的特征。

变换层1：将卷积层15的输出1×1×512×1，转换为512维的特征向量作为网络的输出。

作为本发明的一种改进，所述步骤4中，将数据送入网络，对网络的参数进行训练，具体如下：

步骤401：将步骤202生成的数据，输入到步骤3所设计的网络模型中；

步骤402：学习网络的参数。记步骤3中深度网络模型的参数为θ_net，网络的输出为Pr_net。在给定的监督信号下，利用交叉熵损失函数对网络进行学习：

步骤403：通过随机梯度下降法(SGD)对网络进行训练。经过训练一定的次数之后，将模型的参数保存。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明中的网络设计了互补的两个分支，分别为粗分支和细分支，以帮助网络学习不同的时空信息，从而实现鲁棒的行为识别。

(2)本发明构建了一个轻量化的3D网络模型，用于快速行为识别。该网络在单个GTX 1080Ti上可对大小为112×112×3的图片，实现4559帧每秒的速度进行识别。

附图说明

图1是本发明中卷积网络模型框架图。

具体实施方式

下面结合具体实施例和说明附图对本发明作进一步说明，应当理解，此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：参见图1，一种基于双路3D卷积网络的行为识别方法，所述方法包括下列步骤：

步骤1：制作训练和测试数据集。搜集行为识别相关的数据库，将数据库中视频序列进行处理，用于模型的训练，其具体包括：

步骤101：若数据库没有包含训练集和测试集，将数据库中每个行为类别的视频序列按照4比1的比例，将数据库分为训练集和测试集。若训练集有k个样本，则记S_train＝{x₁,x₂,...,x_k}为训练集，对于第m个样本，x_m＝{V_m；l_m}，其中V_m表示视频序列，l_m表示该视频的标签。那么测试集有个样本，记S_test＝{x₁,x₂,...,x_h}为测试集。若数据库已包含训练集和测试集，转至步骤 102。

步骤3：建立深度网络模型，模型由4个模块组成，包括时空降采样模块、细分支、粗分支和侧边连接。由步骤202获得张量，输入到时空降采样模块，该模块获得的特征分别输入到细分支和粗分支，而后融合到一起经过 1×1×1的卷积之后，给出最终的分类结果，如图1所示。

步骤4：将数据送入网络，对网络的参数进行训练。

步骤5：对于步骤4中的模型进行测试，其具体包括：

步骤501：若测试的视频序列不足32帧，则将视频序列经过步骤201补足视频序列，而后输入到网络模型，输出的结果作为最终的输出。若大于等于32帧，跳转到步骤502。

其中，所述步骤3中深度网络模型结构如下：

卷积层1：用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入，再经过BN层和ReLU层，得到112×112×32×16的特征。

卷积层2：用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征，再经过BN层和ReLU层，得到112×112×32×16的特征。

卷积层3：用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征，再经过BN层和ReLU层，得到112×112×32×16的特征。

池化层1：将卷积层3输出的112×112×32×16的特征结果，经过2×2×2 的3D最大池化层后，得到56×56×32×8的特征。

卷积层4：用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征，再经过BN层和ReLU层，得到56×56×64×8的特征。

卷积层5：用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征，再经过BN层和ReLU层，得到56×56×64×8的特征。

池化层2：将卷积层5输出的56×56×64×8的特征结果，经过2×2×2的 3D最大池化层后，得到28×28×64×4的特征。

卷积层6：用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征，再经过BN层和ReLU层，得到28×28×128×4的特征。

卷积层7：用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征，再经过BN层和ReLU层，得到28×28×128×4的特征。

池化层3：将卷积层7输出的28×28×128×4的特征结果，经过2×2×2的 3D最大池化层后，得到14×14×128×2的特征。

卷积层8：用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征，再经过BN层和ReLU层，得到14×14×256×2的特征。

卷积层9：用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征，再经过BN层和ReLU层，得到14×14×256×2的特征。

池化层4：将卷积层9输出的14×14×256×2的特征结果，经过1×1×1的 3D自适应平均池化层后，得到1×1×256×1的特征。

卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的 56×56×3×2特征，再经过BN层和ReLU层，得到56×56×64×4的特征。

卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×256×4特征，再经过BN层和ReLU层，得到14×14×256×4的特征。

其中，所述步骤4中，将数据送入网络，对网络的参数进行训练。

步骤401：将步骤202生成的数据，输入到步骤3所设计的网络模型中。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于双路3D卷积网络的行为识别方法，其特征在于，所述方法包括下列步骤：

步骤1：制作训练和测试数据集；搜集行为识别相关的数据库，将数据库中视频序列进行处理，用于模型的训练，

步骤2：在训练过程中，对数据进行处理和扩增，

所述步骤2：在训练过程中，对数据进行处理和扩增，其具体包括：

步骤201：从视频中随机抽取32个连续视频帧作为网络输入，设视频序列有n帧，但不足32帧，则将前32-n作为补足序列添加到第n帧之后；

步骤202：从五个图片的空间位置即四个角和一个中心随机剪切一个224×224×32网络输入的张量；

步骤3：建立深度网络模型，模型由4个模块组成，包括时空降采样模块、细分支、粗分支和侧边连接；由步骤202获得张量，输入到时空降采样模块，该模块获得的特征分别输入到细分支和粗分支，而后融合到一起经过1×1×1的卷积之后，给出最终的分类结果；

所述步骤3中深度网络模型结构如下：

卷积层1：用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32的输入，再经过BN层和ReLU层，得到112×112×32×16的特征；

卷积层2：用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16特征，再经过BN层和ReLU层，得到112×112×32×16的特征；

卷积层3：用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16特征，再经过BN层和ReLU层，得到112×112×32×16的特征；

池化层1：将卷积层3输出的112×112×32×16的特征结果，经过2×2×2的3D最大池化层后，得到56×56×32×8的特征；

池化层2：将卷积层5输出的56×56×64×8的特征结果，经过2×2×2的3D最大池化层后，得到28×28×64×4的特征；

卷积层6：用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

卷积层7：用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

池化层3：将卷积层7输出的28×28×128×4的特征结果，经过2×2×2的3D最大池化层后，得到14×14×128×2的特征；

卷积层8：用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2特征，再经过BN层和ReLU层，得到14×14×256×2的特征；

卷积层9：用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2特征，再经过BN层和ReLU层，得到14×14×256×2的特征；

池化层4：将卷积层9输出的14×14×256×2的特征结果，经过1×1×1的3D自适应平均池化层后，得到1×1×256×1的特征；

卷积10：用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的112×112×32×16特征，再经过BN层和ReLU层，得到112×112×32×4的特征；

池化层10_1:将卷积层10输出的112×112×32×4的特征结果，经过步长为1×2×2的1×2×2 3D最大池化层后，得到56×56×32×4的特征；

卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征，再经过BN层和ReLU层，得到56×56×64×4的特征；

卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的56×56×32×4特征，再经过BN层和ReLU层，得到56×56×64×4的特征；

卷积层11：用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征，再经过BN层和ReLU层，得到56×56×64×4的特征；

聚集层1：将卷积10_3的输出和卷积层11的输出，沿着通道维级联，得到56×56×128×4的特征；

池化层12:将聚集层1输出的56×56×128×4的特征结果，经过步长为1×2×2的1×2×2 3D最大池化层后，得到28×28×128×4的特征；

卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

卷积层13：用128个1×1×1的卷积核去卷积卷积层7输出的28×28×128×4特征，再经过BN层和ReLU层，得到28×28×128×4的特征；

聚集层2：将卷积12_2的输出和卷积层13的输出，沿着通道维级联，得到28×28×256×4的特征；

池化层14:将聚集层2输出的28×28×256×4的特征结果，经过步长为1×2×2的1×2×2 3D最大池化层后，得到14×14×256×4的特征；

卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的14×14×256×4特征，再经过BN层和ReLU层，得到14×14×256×4的特征；

卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的14×14×256×4特征，再经过BN层和ReLU层，得到14×14×256×4的特征；

池化层14_3：将卷积层14_2输出的14×14×256×4的特征结果，经过1×1×1的3D自适应平均池化层后，得到1×1×256×1的特征；

聚集层3：将池化层4的输出和池化层14_3的输出，沿着通道维级联，得到1×1×512×1的特征；

卷积层15：用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征，得到1×1×512×1的特征；

变换层1：将卷积层15的输出1×1×512×1，转换为512维的特征向量作为网络的输出；

步骤4：将数据送入网络，对网络的参数进行训练；

步骤5：对于步骤4中的模型进行测试。

2.根据权利要求1所述的基于双路3D卷积网络的行为识别方法，其特征在于，

所述步骤1：制作训练和测试数据集；搜集行为识别相关的数据库，将数据库中视频序列进行处理，用于模型的训练，其具体包括：

步骤101：若数据库没有包含训练集和测试集，将数据库中每个行为类别的视频序列按照4比1的比例，将数据库分为训练集和测试集，若训练集有k个样本，则记S_train＝{x₁,x₂,...,x_k}为训练集，对于第m个样本，x_m＝{V_m；l_m}，其中V_m表示视频序列，l_m表示该视频的标签；那么测试集有个样本，记S_test＝{x₁,x₂,...,x_h}为测试集；若数据库已包含训练集和测试集，转至步骤102；

步骤102：将数据库中的每个视频序列解码成若干张图片，将图片的分辨率统一调整为256×310，按时间顺序依次编号，记为000001.jpg,00002.jpg,…，同时保存到本地文件夹中；若该视频序列有r帧，那么对于第m个样本，x_m＝{v₁,v₂,...,v_r；l_m}，其中v_i表示第i个图片。

3.根据权利要求1所述的基于双路3D卷积网络的行为识别方法，其特征在于，步骤4中，将数据送入网络，对网络的参数进行训练；具体如下：

步骤401：将步骤202生成的数据，输入到步骤3所设计的网络模型中，

步骤402：学习网络的参数，记步骤3中深度网络模型的参数为θ_net，网络的输出为Pr_net，在给定的监督信号下，利用交叉熵损失函数对网络进行学习：

步骤403：通过随机梯度下降法(SGD)对网络进行训练，经过训练一定的次数之后，将模型的参数保存。

4.根据权利要求1所述的基于双路3D卷积网络的行为识别方法，其特征在于，步骤5：对于步骤4中的模型进行测试，其具体包括：

步骤501：若测试的视频序列不足32帧，则将视频序列经过步骤201补足视频序列，而后输入到网络模型，输出的结果作为最终的输出，若大于等于32帧，跳转到步骤502；