CN110232361B

CN110232361B - 基于三维残差稠密网络的人体行为意图识别方法与系统

Info

Publication number: CN110232361B
Application number: CN201910525116.XA
Authority: CN
Inventors: 宋全军; 郭明祥; 徐湛楠; 曹平国; 马婷婷
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2021-04-02
Anticipated expiration: 2039-06-18
Also published as: CN110232361A

Abstract

本发明涉及一种基于三维残差稠密网络的人体行为意图识别方法，包括：根据机器人的安保任务需求，创建一个包含多类行为的真实场景人体行为数据集；根据真实场景的视频人体行为识别需求，构建三维残差稠密网络；训练时，将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练，最终得到视频人体行为识别模型；测试时，将测试集中的数据经过预处理后输入到三维残差稠密网络中，然后输出人体行为类型。本发明显著提升在KTH和UCF‑101等数据集上的识别精度，同时用于解决真实场景问题以及安保任务需求。

Description

基于三维残差稠密网络的人体行为意图识别方法与系统

技术领域

本发明涉及计算机视觉领、模式识别和智能机器人技术领域，尤其是一种基于三维残差稠密网络的人体行为意图识别方法与系统。

背景技术

视频中的人体行为识别是计算机视觉领域极具挑战性的一项任务，它作为视频理解的一个重要分支，人体行为识别的目标是让计算机能够正确的识别人体行为和动作，其在安防、智能视频监控、人机交互、虚拟现实等领域具有很强的理论意义和广阔的应用前景。早期传统算法多采用手工构造特征描述视频中的局部时空变化，它通常仿照人类视觉特点及其他先验知识来设计特征本身，它主要针对某一特定任务设计，往往无法适应所有场景，且计算复杂。深度学习作为目前行为识别研究的热点方法，它与传统手工提取特征的方式相比，它的优势在于省去了传统精心设计特征的冗长过程，让模型自主学习适用于当前任务的特征，还能够实现网络的端到端的训练，使得模型的计算更具效率。然而不同于二维的图像识别，由于视频中同时包含空间和时间的信息，模型就不仅需要考虑视频每帧的静态空间信息，还需要考虑帧与帧之间的时空动态信息，如何有效的提取视频序列的时空特征成为设计网络结构的核心工作。

三维卷积神经网络是目前视频中的行为识别的主流算法之一，它是由2D卷积神经网络进行了简单而有效的扩展得到，直接沿时间维度卷积，可用于学习动态连续的视频序列，深入学习时空特征。传统的三维卷积神经网络如C3D，Res3D，I3D已经在多种数据集上取得好的成绩，不过网络付出了高昂的计算代价。如何在网络的精度和运算速度上达到平衡，设计一个计算高效且高准确率的行为识别算法显得尤为重要。

发明内容

本发明的首要目的在于提供一种解决了传统的3D卷积神经网络算法缺乏对网络多层次时空特征的充分利用而导致识别率较低的问题，同时提高了模型的表达能力，还减少了模型参数量，加快了运算速度，在保证精度得到提升的同时提高计算效率的基于三维残差稠密网络的人体行为意图识别方法。

为实现上述目的，本发明采用了以下技术方案：一种基于三维残差稠密网络的人体行为意图识别方法，该方法包括下列顺序的步骤：

(1)根据机器人的安保任务需求，创建一个包含多类行为的真实场景人体行为数据集，包括训练集和测试集；

(2)根据真实场景的视频人体行为识别需求，构建三维残差稠密网络；

(3)训练时，将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练，最终得到视频人体行为识别模型；

(4)测试时，将测试集中的数据经过预处理后输入到训练好的视频人体行为识别模型中，然后输出人体行为类型。

所述步骤(1)具体是指：创建一个包含多类行为的真实场景人体行为数据集，其视频数据取材于楼宇门禁附近，由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作，视频拍摄角度固定，视频数据的光照条件包括白天和晚上灯照情况，每类行为分为训练集和测试集。

所述步骤(2)具体包括以下步骤：

(2a)结合残差连接和稠密连接的思想，提出改进的三维卷积神经网络，即三维残差稠密网络，并构造三维残差稠密块作为网络构建模块；其中三维残差稠密块由多层稠密连接的三维卷积层和一个残差连接组成，三维残差稠密网络由多个三维残差稠密块、三维卷积层、拼接层和三维池化层组成；

(2b)三维残差稠密块内每一个卷积层的特征直接传递到所有后续层，然后进行局部稠密特征聚合自适应的保留有益信息，接着对输入和输出特征聚合进行局部残差学习；

(2c)三维残差稠密块经过采样后的输出会直接访问到下一个三维残差稠密块内中的所有层，形成一个特征连续传递和复用的状态；同时每个三维残差稠密块通过卷积采样后的特征输出被拼接起来利用，以全局方式自适应地保留多种层级特征，完成全局特征聚合。

所述步骤(3)具体包括以下步骤：

(3a)所述三维残差稠密网络的输入为训练集生成的连续16帧视频序列，对输入的连续16帧视频序列的分辨率进行调整，并设置相应的采样率，采用相应的预处理和数据增强方法；

(3b)将连续16帧视频帧序列送入三维残差稠密网络进行训练，经过三维卷积，非线性单元、批量正则化以及三维池化操作层层堆叠，网络提取到高层语义特征，然后输出有效的特征向量；

(3c)三维残差稠密网络训练采用反向传播算法，根据三维残差稠密网络的输出值与真实值计算损失函数，完成输出值的正向传播，接着用链式法则计算三维残差稠密网络各层的误差梯度，用误差梯度矫正各层的参数，完成误差的反向传播；三维残差稠密网络通过不断的正向传播和反向传播，直到三维残差稠密网络收敛，最终得到视频人体行为识别模型。

在所述步骤(4)中，测试时，使用训练好的模型估计每个视频片段序列的行为类型，并与真实行为标签做比对得到识别准确率。

本发明的另一目的在于提供一种基于三维残差稠密网络的人体行为意图识别系统，包括：

数据采集模块，用于利用监控设备采集人体行为视频；

数据预处理模块，其与所述的数据采集模块通讯连接，用于对模型的输入进行预处理，其中包括对输入视频序列去均值化和归一化，以加快模型收敛速度，以及跳过偶数帧采样，以减少视频连续帧中包含的冗余信息与噪声；

人体行为特征提取模块，其与所述的数据预处理模块连接，用于提取能够描述连续视频帧中人体对象行为特性的特征值，其中提取特征的模型为三维残差稠密网络；

行为分类模块，与人体行为特征提取模块连接，用于对人体对象行为的特征信息进行处理并分类，得到连续视频帧对应的行为分类，其中分类模型采用的分类器为softmax多分类器；

结果输出模块，与行为分类模块连接，用于将行为分类模块得到的行为检测结果分发给其他程序或设备，或者报警系统根据检测结果对可疑人员发出警告提示。

由上述技术方案可知，本发明的有益效果为：本发明设计的网络在结构上增强了对网络多层次时空特征的提取，利用局部和全局特征聚合，降低了原有视频信息在网络训练过程中丢失的风险，增强了模型的表达能力，使得能够在各种数据集以及真实场景下取得好的效果；本发明设计的三维残差稠密网络当中的所有三维残差稠密块的稠密连接都采用bottleneck layer，其增加的1×1×1卷积操作，可以起到减少输入特征数量、降维减少计算量以及融合各个通道特征等优势；同时网络利用局部和全局特征聚合，也起到了降维减少计算量的作用；最终都导致参数量降低，模型运算速度加快；本发明设计的网络在结构上保留了传统三维卷积的优势，同时还引入了残差连接，促进信息和梯度的传递，增强了网络的泛化性能；与现有的技术相比，本发明所述的行为识别方法在自己创建的数据集以及UCF101和HMDB51等公开数据集上的实验结果对比，本发明提供的方法在识别准确度上有较大提升。

附图说明

图1为本发明中的三维残差稠密网络；

图2为本发明中的三维残差稠密块；

图3为KTH数据集的六类动作；

图4为UCF-101数据集中的4类行为示例；

图5为本发明创建的真实场景数据集的四类动作示例；

图6为本发明的方法流程示意图；

图7为本系统的结构示意图。

具体实施方式

如图6所示，一种基于三维残差稠密网络的人体行为意图识别方法，该方法包括下列顺序的步骤：

所述步骤(1)具体是指：创建一个包含多类行为的真实场景人体行为数据集，其视频数据取材于楼宇门禁附近，由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作，视频拍摄角度固定，视频数据的光照条件包括白天和晚上灯照情况，每类行为分为训练集和测试集，本发明采用2/3的行为数据作为训练集，剩下1/3的行为数据作为测试集。所述机器人指安防巡逻机器人，其工作内容是感知和察觉外部环境，除围绕固定区域巡逻的时间外，其大部分时间是在楼宇门口进行安保工作。根据安防巡逻机器人安保任务的需求，建立真实场景的数据集。视频数据取材于楼宇门禁附近，由进出门的流动人群完成的刷卡、徘徊、行走、站立等四类动作，数据集每一类动作都包括100个视频段，共计400个视频样。

所述步骤(2)具体包括以下步骤：

本发明提出的用于视频行为识别的三维残差稠密网络(3D-RDNet)，它借鉴ResNet的残差学习和DenseNet网络稠密连接模式，构建了三维残差稠密块，提取多层次时空特征，再进行特征聚合，将底层特征和高层语义特征相结合，提高模型的表达能力；

如图1所示，将三维残差稠密网络分为三个部分，分别是：浅层特征提取层，残差稠密层，全局特征聚合层。浅层特征提取层(Part A)包括图示的两层3D ConV；残差稠密层(Part B)包括Maxpool层，多个残差稠密块(3D RDB)以及用于卷积降采样的3D ConV1和3DConV2等；全局特征聚合层(Part C)包含对特征拼接的拼接层(concatenate)和特征聚合的卷积层。

定义三维残差稠密网络的输入和输出分别为P_clip和P_cls,网络的前两层卷积层用来提取浅层特征，具体地，从浅层提取到特征的过程可描述为：

P₀＝G_sh(P_clip)，

其中G_sh代表前两层卷积和下采样操作的复合函数，P₀为视频片段clip中提取到的特征图，它用于第一层残差稠密块的输入。这里设置了N个残差稠密块，第n个残差稠密块的输出为P_n,其计算过程为：

P_n＝G_3DRDB,n(G_3DRDB,n-1(...(G_3DRDB,1(P₀))...)),

这里的G_3DRDB,n代表第n个残差稠密块(3D RDB)及其下采样的计算操作，而当n＝N时，G_3DRDB,N只包含残差稠密块的计算操作。G_3DRDB,n是复合运算函数，包括了多层卷积和整流线性单位。由于P_n是由第n个残差稠密块内的多个卷积层运算产生的，我们可以将P_n视为局部稠密特征。

3D-RDNet通过多个3D-RDB提取到多层次局部稠密特征之后，我们进一步进行全局特征聚合(GFA，Global Feature Aggregation)，GFA充分利用了前面所有层的特征。具体地，我们将输入的不同层次的特征P_n都卷积采样为1×7×7特征图X_n，并进行l₂范数归一化，然后用拼接层(concatenate)对来自不同层次的局部稠密特征X_n进行拼接，再用1×1×1的卷积进行特征聚合和通道调整，得到全局特征聚合的特征图。其中对局部稠密特征拼接的过程可描述为：

P_GFA＝G_GFA([X₀,X₁,...,X_N]),

其中P_GFA是经过全局特征聚合输出的特征图，G_GFA是1×1×1卷积的复合函数，它用于自适应的融合来自不同层的特征,[X₀,X₁,...,X_N]是指N个经过三维残差稠密块和卷积采样后的特征图的拼接。

综合上述操作，网络从输入clip中提取到浅层特征，然后经过多个残差稠密块得到丰富的局部特征，再经过全局特征聚合得到全局特征,最后通过softmax分类器得到各个种类的分数,整个网络3D-RDNet计算过程可表示为：

P_cls＝G_RDNet(P_clip),

其中G_RDNet为3D-RDNet整个网络的运算操作，P_cls为网络的输出。

三维残差稠密网络有多个三维残差稠密块组成，图2为三维残余稠密块(3D-RDB)的网络结构图。3D-RDB主要包含稠密连接层、局部特征聚合(LFA)和局部残差学习(LRL)，这使得网络能够充分学习多层卷积特征。

所述三维残差稠密块的稠密连接模式描述如下：

3D-RDB模块由多个卷积层、整流线性单元和批规范化层组成的特征提取单元重复多次的串联形成，这有利用于训练更深的网络。前面3D-RDB学习到的特征直接传递给当前3D-RDB内的每一层，同时，模块内部每层之间都有直接的连接，这种稠密连接方式使得特征和梯度的传递更加有效，促进了特征复用，保留了前向传播的特性，还提取了局部稠密特征。这里定义P_n-1和P_n分别为第n和n+1个3D-RDB的输入，那么第n个3D-RDB的第a个Conv层的输出可以表示为：

P_n,a＝σ(W_n,a[P_n-1,P_n,1,...,P_n,a-1])，

其中σ表示内核为ReLU的激活函数。W_n,a中是第a个卷积层的权重，这里为简单起见省略了偏置项。我们假设P_n,a由G(也称为增长率)特征图组成。[P_n-1,P_n,1,...,P_n,a-1]是指由第(n-1)个3D-RDB，以及第n个3D-RDB内的卷积层1,…,(a-1)输出的特征图的串联。

所述三维残差稠密块模块的局部特征聚合(Local Feature Aggregation，LFA)描述如下：

3D-RDB通过稠密连接模式学习到多层次时空特征后，接下来对局部稠密特征进行融合，具体地，通过提取一系列来自先前3D-RDB和当前的3D-RDB中的卷积层特征，然后对其进行拼接，再引入了1×1×1卷积层用于自适应地融合具有不同层级的一系列特征，我们将此操作命名为局部特征聚合(LFA)。其计算过程可描述如下：

其中

表示第n个3D-RDB中1×1×1卷积层的复合运算，它可以减少特征图数量，减少计算量同时融合各个通道，随着稠密网络的增长率变大，LFA将有助于非常稠密的网络训练。

所述三维残差稠密块模块的局部残差学习(Local residual learning，LRL)描述如下：

在足够深的网络结构中，为了确保网络中各层级之间的最大信息流，3D-RDB中采用了残差网络的跳跃连接方式，它将具有相同特征映射大小的特征图连接起来，这样每一层的输出都直接连接到了后续层的输入，这种从前面层到后续层的跳跃连接缓解了网络梯度消失问题，增强了特征传播，促进了特征重用，保留了前向传播的特性。第n个3D-RDB的输出可表示为：

P_n＝P_n-1+P_n,LF

LRL的使用能提高网络的表达能力，网络效果更佳。由于稠密连接模式和局部残差学习，我们将此模块体系结构称为三维残差稠密块(3D-RDB)。

本发明将在多个数据集上进行验证，进行实验的网络结构设置如下：三维残差稠密块数量设置为3个，每个三维残差稠密块内部的稠密层数量设置为4个。

所述步骤(3)具体包括以下步骤：

(3b)将连续16帧视频帧序列送入三维残差稠密网络进行训练，经过三维卷积，非线性单元、批量正则化以及三维池化操作层层堆叠，三维残差稠密网络提取到高层语义特征，然后输出有效的特征向量；

训练集和测试集输入图像都采用相同的预处理方式，即对输入图片序列去均值归一化以加快模型收敛速度；

对训练集采用的数据扩充方式有以下三种：对图像进行一定角度的旋转；在一定范围内对图像进行水平偏移或竖直偏移；以50％的概率对图像进行随机水平翻转；

训练过程中，初始学习率为0.01，每隔4个周期学习率除以10,训练周期设置为16；使用随机梯度下降作为优化器学习网络参数，动量设置为0.9；批量大小设置为16；

三维残差稠密网络采用softmax损失函数，假设视频分类任务共有N个训练样本，针对网络最后分类层第i个样本的输入特征为χ_i，假设对应真实标记为y_i∈{1,2,...C},另h＝(h₁,h₂,...,h_C)^T为网络的最终输出，即样本i的预测结果，其中C为分类任务类别数，softmax具体形式如下：

测试时，使用训练好的模型估计每个视频片段序列的行为类型，并与真实行为标签做比对得到识别准确率。

本发明在自己创建一个的包含多类行为的真实场景数据集进行了实验，实验结果表明在真实场景数据集上3D-RDNet网络取得了94.66％的识别率，超越C3D网络5.18％，其中识别准确率是基于视频连续16帧片段计算的。

本发明还在公开数据集包括KTH和UCF-101进行了验证性实验，其中KTH和UCF-101是计算机视觉行为识别领域最常用的数据集。在KTH数据集有六类动作，实验采用16人的行为视频作为训练，剩下9人的行为视频作为测试。如图3为KTH数据集的六类动作。在KTH数据集上，三维残差稠密网络取得了93.53％的识别率，这比C3D网络高出了3.93％，其中识别准确率是基于整个视频计算的。

取UCF-101数据集上101类动作的每类行为类的地8-25组作为训练组，第1-7组作为测试组。如图4为UCF-101列举的4类的行为。三维残差稠密网络取得了57.35％的识别率，这比C3D网络高出了13.91％，其中识别准确率是基于视频连续16帧片段计算的。

本发明还在自己创建一个的包含多类行为的真实场景数据集进行了实验，如图5所示为本发明创建的真实场景数据集的四类动作示例。实验结果表明在真实场景数据集上3D-RDNet网络取得了94.66％的识别率，超越C3D网络5.18％，其中识别准确率是基于视频连续16帧片段计算的。

如图7所示，本系统包括：

数据采集模块，用于利用监控设备采集人体行为视频；

行为分类模块，与人体行为特征提取模块连接，用于对人体对象行为的特征信息进行处理并分类，得到连续视频帧对应的行为分类，其中分类模型采用的分类器为softmax多分类器；假设对应真实标记为y_i∈{1,2,...C},另h＝(h₁,h₂,...,h_C)^T为网络的最终输出，即样本i的预测结果，其中C为分类任务类别数。softmax函数的表达式为：

结果输出模块，与行为分类模块连接，用于将行为分类模块得到的行为检测结果分发给其他程序或设备，或者报警系统根据检测结果对可疑人员发出警告提示。图7中的视频源取材于各种公开的视频行为识别数据集以及本发明创建的实际场景人体行为数据集。

综上所述，本发明显著提升在KTH和UCF-101等数据集上的识别精度。同时用于解决真实场景问题以及安保任务需求。

Claims

1.一种基于三维残差稠密网络的人体行为意图识别方法，其特征在于：该方法包括下列顺序的步骤：

（1）根据机器人的安保任务需求，创建一个包含多类行为的真实场景人体行为数据集，包括训练集和测试集；

（2）根据真实场景的视频人体行为识别需求，构建三维残差稠密网络；

（3）训练时，将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练，最终得到视频人体行为识别模型；

（4）测试时，将测试集中的数据经过预处理后输入到训练好的视频人体行为识别模型中，然后输出人体行为类型；

所述步骤（1）具体是指：创建一个包含多类行为的真实场景人体行为数据集，其视频数据取材于楼宇门禁附近，由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作，视频拍摄角度固定，视频数据的光照条件包括白天和晚上灯照情况，每类行为分为训练集和测试集；

所述步骤（2）具体包括以下步骤：

（2a）结合残差连接和稠密连接的思想，提出改进的三维卷积神经网络，即三维残差稠密网络，并构造三维残差稠密块作为网络构建模块；其中三维残差稠密块由多层稠密连接的三维卷积层和一个残差连接组成，三维残差稠密网络由多个三维残差稠密块、三维卷积层、拼接层和三维池化层组成；

（2b）三维残差稠密块内每一个卷积层的特征直接传递到所有后续层，然后进行局部稠密特征聚合自适应的保留有益信息，接着对输入和输出特征聚合进行局部残差学习；

（2c）三维残差稠密块经过采样后的输出会直接访问到下一个三维残差稠密块内中的所有层，形成一个特征连续传递和复用的状态；同时每个三维残差稠密块通过卷积采样后的特征输出被拼接起来利用，以全局方式自适应地保留多种层级特征，完成全局特征聚合。

2.根据权利要求1所述的基于三维残差稠密网络的人体行为意图识别方法，其特征在于：所述步骤（3）具体包括以下步骤：

（3a）所述三维残差稠密网络的输入为训练集生成的连续16帧视频序列，对输入的连续16帧视频序列的分辨率进行调整，并设置相应的采样率，采用相应的预处理和数据增强方法；

（3b）将连续16帧视频帧序列送入三维残差稠密网络进行训练，经过三维卷积，非线性单元、批量正则化以及三维池化操作层层堆叠，网络提取到高层语义特征，然后输出有效的特征向量；

（3c）三维残差稠密网络训练采用反向传播算法，根据三维残差稠密网络的输出值与真实值计算损失函数，完成输出值的正向传播，接着用链式法则计算三维残差稠密网络各层的误差梯度，用误差梯度矫正各层的参数，完成误差的反向传播；三维残差稠密网络通过不断的正向传播和反向传播，直到三维残差稠密网络收敛，最终得到视频人体行为识别模型。

3.根据权利要求1所述的基于三维残差稠密网络的人体行为意图识别方法，其特征在于：在所述步骤（4）中，测试时，使用训练好的模型估计每个视频片段序列的行为类型，并与真实行为标签做比对得到识别准确率。

4.一种实施如权利要求1至3中任一项所述的基于三维残差稠密网络的人体行为意图识别方法的系统，其特征在于：包括：

数据采集模块，用于利用监控设备采集人体行为视频；