CN109919085B

CN109919085B - 基于轻量型卷积神经网络的人人交互行为识别方法

Info

Publication number: CN109919085B
Application number: CN201910166326.4A
Authority: CN
Inventors: 谢雪梅; 许讯; 陈建宇; 潘庆哲; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2020-11-03
Anticipated expiration: 2039-03-06
Also published as: CN109919085A

Abstract

本发明公开了一种基于轻量型卷积神经网络的人人交互行为识别方法，实现的步骤为：(1)输入待识别的人体骨架数据；(2)构建两人交互行为图像集；(3)搭建轻量型卷积神经网络；(4)训练轻量型卷积神经网络；(5)测试轻量型卷积神经网络。本发明构建了两人交互行为图像集，搭建了轻量型卷积神经网络，克服了现有技术的仅对单人行为进行识别且现有技术识别模型参数量大的问题，使得本发明能够以极少的参数量实现准确识别人人交互行为。

Description

基于轻量型卷积神经网络的人人交互行为识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中的一种基于轻量型卷积神经网络的人人交互行为识别方法。本发明可用于视频中的两个人之间发生交互的行为识别，例如监控镜头下的打斗行为。

背景技术

目前人体行为识别主要是从一段包含人类活动的视频或者序列中识别人体行为，这其中的重点在于精确地提取人体在时间和空间上的特征表达，即对人体行为进行建模。人体的行为按照与其发生关系的对象可以分为三种：单人行为、人与物交互行为以及人与人交互行为。人与人交互行为除了需要对单个人体的行为建模，还要对两者之间的关系进行建模，因此增加了行为识别的难度。

基于三维骨架序列的人体行为识别具有存储量少，对光照变化、背景变化等环境因素的干扰小的特点，并且骨架数据是对人体特征的高度抽象，因此骨架序列成为近年来研究行为识别的重点。三维骨架是通过深度传感器Kinect所获得的，描述了人的身体各部位的关节点的坐标位置，这些特征点能很好的表示一个人的各种身体姿态，因此可作为人体的抽象表示。再者，由于骨架信息仅是对人体的刻画，对环境因素的变化鲁棒性较强，可以很好适用于人体行为识别。

武汉工程大学在申请的专利文献“一种基于3D骨架的多视角室内人体行为识别方法”(专利申请号201510995238.7，公开号105631420A)中公开了一种人体骨架运动序列行为识别方法。该方法通过体感设备提取人体三维骨架数据作为训练特征，进行在线字典学习，然后用主成分分析方法进行降维形成特征集数据集。测试时，输入测试样本的特征集，通过线性支持向量机(LSVM)进行识别。该方法存在的不足之处是：首先，在线字典学习的是较为低级别的特征，而高层抽象特征很难通过字典学习的方式得到，因此其泛化性较差；其次，LSVM分类器的学习和特征提取是分开进行的，导致了特征学习没有任务导向性，识别结果不准。

Qiuhong Ke在其发表的论文“A New Representation of Skeleton Sequencesfor3D Action Recognition.”(IEEE Conference on Computer Vision and PatternRecognition，pp.4570–4579)中提出了用卷积神经网络对骨架序列建模从而进行行为识别的方法。该方法将三维骨架序列表示成一张“图像”，图像的每一行代表某一时刻的人体骨架坐标，每一列代表骨架上某个关节点在不同时刻的坐标，这样骨架序列的时间和空间信息被表示成一张图像，然后用卷积神经网络来提取特征并进行图像识别。该方法存在的不足是：第一，其基础网络使用ImageNet预训练的VGG19网络，模型大，参数量多，无法应用于如嵌入式芯片这样资源有限的硬件上；第二，模型仅针对单人特征提取，然后平均两个单人的行为识别结果，在处理人人交互的行为时无法提取两人之间的关系特征，因此在人人交互行为识别的准确率还有待提高。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于轻量型卷积神经网络的人人交互行为识别方法。本发明能在占用极少计算资源的情况下，更加精准地识别人人交互行为。

本发明的技术思路是，将每两个人的三维人体骨架数据经过处理后生成两人交互行为图像，搭建轻量型卷积神经网络，输入两人交互行为图像，训练轻量型卷积神经网络，使得用更少的参数量达到更高的识别准确率。

本发明的实现的具体步骤如下：

(1)输入待识别的人体骨架数据：

以人体骨架行为识别数据集中的每个待识别人作为一个样本，从人体骨架行为识别数据集中读取每个样本的关节点位置和行为类别标签；

(2)构建两人交互行为图像集：

(2a)从每个样本中任选一个关节点作为参考关节点，用其他关节点对应的坐标值分别减去参考关节点的坐标值，得到每个关节点与参考关节点的相对位置，将每个样本的所有关节点的相对位置组成一个位置样本；

(2b)将每个位置样本生成一个骨架图像，所有的骨架图像构成骨架图像集；

(2c)按照下式，对每个骨架图像中的每个像素值进行归一化处理：

其中，

表示第n个骨架图像中第i行第j列归一化后的像素值，

表示第n个骨架图像的第i行第j列的像素值，I_min和I_max分别表示图像集中所有骨架图像的最小像素值和最大像素值；

(2d)将每个归一化后的骨架图像的大小压缩到15×20像素，得到压缩后的图像集；

(2e)将压缩后的图像集中同一场景下每两个骨架图像组成一个两人交互行为图像，将所有两人交互行为图像组成两人交互行为图像集；

(3)搭建轻量型卷积神经网络：

(3a)搭建一个由并行的两个相同的子网络组成的特征提取模块，每个子网络由5个卷积层依次连接组成，各层参数设置如下：

将第一个和第二个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为16个，步长设置为1个像素；

将第三个和第四个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为32个，步长设置为1个像素；

将第五个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为64个，步长设置为1个像素；

(3b)搭建一个六层的交互特征学习模块，其结构依次为：concat层，卷积层，池化层，第一个全连接层，第二个全连接层，softmax激活层，各层参数设置如下：

将concat层的拼接维度设置为1维；

将卷积层的卷积核大小设置为1×1像素，卷积核数量设置为64个，步长设置为1像素；

将池化层的池化核大小设置为1×20像素，步长设置为1个像素；

将第一个全连接层的输出神经元个数设置为64个；

将第二个全连接层的输出神经元个数设置为8个；

(3c)将特征提取模块和交互特征学习模块组成轻量型卷积神经网络；

(4)训练轻量型卷积神经网络：

(4a)将两人交互行为图像集按照9：1的比例分为训练集和测试集；

(4b)将训练集输入到轻量型卷积神经网络中，用梯度下降法更新轻量型卷积神经网络的权值，将更新好的权值赋值到轻量型卷积神经网络中，得到训练好的轻量型卷积神经网络；

(5)测试轻量型卷积神经网络：

将测试集输入到训练好的轻量型卷积神经网络中进行测试，输出人人交互行为识别结果。

与现有技术相比，本发明具有以下优点：

第一，由于本发明构建两人交互行为图像集，对两人的交互行为进行识别，克服了现有技术中仅可对单人图像集进行识别，而无法对两人交互行为进行识别的问题，使得本发明实现了对人人交互行为进行识别。

第二，由于本发明搭建了由特征提取模块和交互特征学习模块组成的轻量型卷积神经网络，对人人交互行为进行识别，克服了现有技术中用深度卷积神经网络进行行为识别参数量大而导致计算机的存储资源和计算资源大的问题，使得本发明能在进行行为识别时节约大量的存储资源和计算资源。

附图说明

图1为本发明的流程图；

图2为本发明的人体骨架结构示意图。

具体实施方式

下面结合附图和实例对本发明进行详细说明。

参照图1，对本发明的实现步骤做进一步的描述。

步骤1，输入待识别的人体骨架数据。

以人体骨架行为识别数据集中的每个待识别人作为一个样本，从人体骨架行为识别数据集中读取每个样本的关节点位置和行为类别标签。

在本发明的实施例中，所选取的人体骨架行为识别数据集中的人体骨架结构如图2所示。图2中的黑色圆圈表示组成人体骨架的关节点，圆圈内的数字1至15分别表示关节点的编号，黑色直线表示两两关节点之间的连接线。

步骤2，构建两人交互行为图像集。

从每个样本中任选一个关节点作为参考关节点，用其他关节点对应的坐标值分别减去参考关节点的坐标值，得到每个关节点与参考关节点的相对位置，将每个样本的所有关节点的相对位置组成一个位置样本。

将每个位置样本生成一个骨架图像，所有的骨架图像构成骨架图像集。

按照下式，对每个骨架图像中的每个像素值进行归一化处理：

其中，

表示第n个骨架图像中第i行第j列归一化后的像素值，

表示第n个骨架图像的第i行第j列的像素值，I_min和I_max分别表示图像集中所有骨架图像的最小像素值和最大像素值。

将每个归一化后的骨架图像的大小压缩到15×20像素，得到压缩后的图像集。

步骤3，搭建轻量型卷积神经网络。

搭建一个由并行的两个相同的子网络组成的特征提取模块，每个子网络由5个卷积层依次连接组成，各层参数设置如下：

将第一个和第二个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为16个，步长设置为1个像素。

将第三个和第四个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为32个，步长设置为1个像素。

将第五个卷积层的卷积核大小设置为3×3像素，卷积核数量设置为64个，步长设置为1个像素。

搭建一个六层的交互特征学习模块，其结构依次为：concat层，卷积层，池化层，第一个全连接层，第二个全连接层，softmax激活层，各层参数设置如下：

将concat层的拼接维度设置为1维。

将卷积层的卷积核大小设置为1×1像素，卷积核数量设置为64个，步长设置为1像素。

将池化层的池化核大小设置为1×20像素，步长设置为1个像素。

将第一个全连接层的输出神经元个数设置为64个。

将第二个全连接层的输出神经元个数设置为8个。

将特征提取模块和交互特征学习模块组成轻量型卷积神经网络。

步骤4，训练轻量型卷积神经网络。

将两人交互行为图像集按照9：1的比例分为训练集和测试集。

将训练集输入到轻量型卷积神经网络中，用梯度下降法更新轻量型卷积神经网络的权值，将更新好的权值赋值到轻量型卷积神经网络中，得到训练好的轻量型卷积神经网络。

所述的梯度下降法的步骤如下：

第一步，将轻量型卷积神经网络的学习率设置为0.005。

第二步，将轻量型卷积神经网络的输出值与类别标签值的差值作为梯度值。

第三步，利用下式，更新轻量型卷积神经网络的权值。

其中，

表示更新后的轻量型卷积神经网络权值，←表示赋值操作，θ表示轻量型卷积神经网络自身的权值，▽J表示轻量型卷积神经网络的梯度值。

步骤5，测试轻量型卷积神经网络。

将测试集输入到训练好的轻量型卷积神经网络中进行测试，输出人人交互行为识别结果，识别准确率为91.47％，轻量型卷积神经网络的总参数量为0.4兆字节。

Claims

1.一种基于轻量型卷积神经网络的人人交互行为识别方法，其特征在于，构建两人交互行为图像集，搭建由特征提取模块和交互特征学习模块组成的轻量型卷积神经网络，对两人交互行为图像集中的人人交互行为进行识别，该方法的步骤包括如下：

(1)输入待识别的人体骨架数据：

(2)构建两人交互行为图像集：

其中，

表示第n个骨架图像中第i行第j列归一化后的像素值，

(2d)将每个归一化后的骨架图像的大小压缩到15×20个像素，得到压缩后的图像集；

(3)搭建轻量型卷积神经网络：

将concat层的拼接维度设置为1维；

将第一个全连接层的输出神经元个数设置为64个；

将第二个全连接层的输出神经元个数设置为8个；

(4)训练轻量型卷积神经网络：

(4b)将训练集输入轻量型卷积神经网络，用梯度下降法更新轻量型卷积神经网络的权值，将更新后的权值赋值给轻量型卷积神经网络，得到训练好的轻量型卷积神经网络；

(5)测试轻量型卷积神经网络：

2.根据权利要求1所述的基于轻量型卷积神经网络的人人交互行为识别方法，其特征在于，步骤(4b)中所述的梯度下降法的步骤如下：

第一步，将轻量型卷积神经网络的学习率设置为0.005；

第二步，将轻量型卷积神经网络的输出值与类别标签值的差值作为梯度值；

第三步，利用下式，更新轻量型卷积神经网络的权值：

其中，

表示更新后的轻量型卷积神经网络权值，←表示赋值操作，θ表示轻量型卷积神经网络自身的权值，

表示轻量型卷积神经网络的梯度值。