CN110532861B

CN110532861B - 基于骨架引导多模态融合神经网络的行为识别方法

Info

Publication number: CN110532861B
Application number: CN201910650238.1A
Authority: CN
Inventors: 谢雪梅; 曹玉晗; 潘庆哲; 李佳楠; 赵至夫; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-03-23
Anticipated expiration: 2039-07-18
Also published as: CN110532861A

Abstract

本发明公开了一种基于骨架引导多模态融合神经网络的行为识别方法。其步骤为：(1)构建RGB图像特征提取网络；(2)构建骨架特征提取网络；(3)构造特征引导模块；(4)构建融合模块；(5)搭建骨架引导多模态融合神经网络；(6)训练骨架引导多模态融合神经网络；(7)识别视频中的人体行为；本发明采用骨架引导多模态融合神经网络，用于识别相机拍摄到的视频中的人体行为，能够有效解决现有技术彻底分离了同一视频信号的不同特征进而不能准确的表示视频特征的问题，本发明具有能准确表示视频特征，对视频中人体行为识别精确的优点。

Description

基于骨架引导多模态融合神经网络的行为识别方法

技术领域

本发明属于视频处理技术领域，更进一步涉及模式识别技术领域中的一种基于骨架引导多模态融合神经网络的行为识别方法。本发明可用于对视频影像中的人体行为进行识别。

背景技术

多种模态融合的行为识别方法是将RGB图像、光流图像或骨架序列数据等不同模态融合起来的一种行为识别方法。目前多模态行为识别方法有两种实现方式：一种方法是分别提取不同模态数据特征,并使用后期融合方案来汇总两种模态的信息做最终分类预测；另一种方法是在输入层级对不同数据模态进行融合处理或相关性处理，再对处理后的数据进行特征提取和分类预测。其中RGB图像有着易获取，数据量大的特点。而骨架序列数据，具有存储量少，对环境因素的变化鲁棒性较强的特点，并且骨架数据是对人体特征的高度抽象，可以很好适用于人体行为识别。

西北大学在其申请的专利文献“一种基于多种信息流特征和异步融合的视频行为识别方法”(专利申请号CN201910043963，公开号CN109858407A)中公开了一种多模态融合的行为识别方法。该方法通过提取视频图像中的人体行为的外观流、动作流与关节点信息流三种不同的视频信息流，利用粗到细网络对三种信息流分别进行特征提取和特征细化，提取后的特征利用五单元LSTM进行异步融合，对融合后的特征进行分类。该方法存在的不足之处是：由于该方法利用粗到细网络对三种信息流分别进行特征提取和特征细化，这种分别进行的特征提取彻底分离了同一视频信号的不同特征，因此不能准确的表示视频特征，使得利用视频特征差别性对视频图像中的人体行为进行识别的准确性下降。

Jianfang Hu在其发表的论文“Deep bilinear learning for RGB-D actionrecognition.”(Proceedings of the European Conference on Compute Vision(ECCV),2018,pp.335–351.)中提出一种多模态的行为识别的方法。该方法基于视频图像中人体行为的三维骨架序列数据和RGB图像模态，利用深度神经网络实现行为识别。在输入深度神经网络之前利用骨架数据中人体关节点的位置信息对RGB图像进行区域选择，将所选区域图像作为真正的网络输入对其进行特征提取和识别。该方法存在的不足是：在输入深度神经网络之前利用骨架数据中人体关节点的位置信息对RGB图像进行区域选择，此时的RGB图像是低语义层级的而骨架序列是高语义层级的，因此在此处的交互是在不对等的语义层级下进行的，在输入数据时融合不对等的语义层级数据导致了输入信息混乱，无法实现对视频图像中人体行为的识别。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于骨架引导多模态融合神经网络的行为识别方法，解决现有方法中彻底分离了同一视频信号的不同特征，不能准确的表示视频特征的问题。

本发明的技术思路是，构建特征提取网络对不同视频信号分别进行特征提取得到同一视频信号的不同特征，构建特征引导模块整合同一视频信号的不同特征，作为最终准确的视频信号特征表示，对视频中的人体行为进行识别。

本发明的实现的具体步骤如下：

(1)构建RGB图像特征提取网络：

(1a)搭建一个7层的RGB图像特征提取网络，其结构依次为：输入卷积层，第一残差卷积层，第二残差卷积层，第三残差卷积层，第四残差卷积层，全局平均池化层，全连接层；

(1b)设置RGB图像特征提取网络各层参数如下：

将输入卷积层的空间卷积核大小设置为1×7×7，卷积步长[1,1]，时间卷积核大小设置为3×1×1，卷积步长为1，卷积核数量均设置为64；

将四个残差卷积层的空间卷积核大小均设置为1×3×3，卷积步长均设置为[1,1]，时间卷积核大小均设置为3×1×1，卷积步长均设置为1，卷积核数量依次设置为64，128，256，512；

将全连接层的输出神经元个数设置为60个；

(2)构建骨架特征提取网络：

(2a)搭建一个12层的骨架特征提取网络，其结构依次为：输入卷积层，第一卷积层，第二卷积层，第三卷积层，第四卷积层，第五卷积层，第六卷积层，第七卷积层，第八卷积层，第图卷积层，全局平均池化层，全连接层；

(2b)设置骨架特征提取网络各层参数如下：

将输入卷积层的空间卷积核大小设置为1×1，卷积步长1，时间卷积核大小设置为9×1，卷积步长为1，空间和时间卷积核数量相同，均设置为64；

将九个卷积层的空间卷积核大小均设置为1×1，卷积步长均为1，时间卷积核大小均设置为9×1，卷积步长依次设为1，1，1，2，1，1，2，1，1，每层的空间和时间卷积核数量保持一致，依次设置为64，64，64，128，128，128，256，256，256；

将全连接层的输出神经元个数设置为60个；

(3)构造特征引导模块：

搭建一个由紧凑双线性池化层和全连接层组成的特征引导模块，将紧凑双线性池化层的输出维度设置为1024，全连接层的输出神经元个数设置为512；

(4)构建融合模块：

搭建3层的融合模块，结构依次为：concat层，第一全连接层，第二全连接层；其中，concat层的拼接维度设置为512，第一全连接层的输出神经元个数设置为512，第二全连接层的输出神经元个数设置为60；

(5)搭建骨架引导多模态融合神经网络：

将RGB图像特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接，特征引导模块的全连接层与融合模块的concat层连接，骨架特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接，骨架特征提取网络的全连接层与特征融合模块的concat层连接后组成骨架引导多模态融合神经网络；

(6)训练骨架引导多模态融合神经网络：

(6a)在数据集中选择至少40000个视频样本组成训练集，所选的每个视频样本的数据包括视频的RGB图像数据，以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值；

(6b)将训练集的数据输入到骨架引导多模态融合神经网络中，用梯度下降法，更新骨架引导多模态融合神经网络的各层参数，将更新后的参数值赋值给骨架引导多模态融合神经网络的各层参数，得到训练好的骨架引导多模态融合神经网络；

(7)对视频中的人体行为进行识别：

(7a)使用相机采集至少16张RGB图像，每张图像均含有待识别的人体行为，并利用骨架姿态估计工具，提取每张RGB图像的人体骨架序列；

(7b)将每张RGB图像裁剪为112×112大小，按人体骨架序列中的15个人体关键点及每个人体关键点所处位置对应的3个坐标值，将每个一维长度为45的人体骨架序列扩维成3×15大小；

(7c)将16张RGB图像和每张RGB图像的人体骨架序列输入到训练好的骨架引导多模态融合神经网络，输出对这16张RGB图像组成的人体行为的识别结果。

与现有技术相比，本发明具有以下优点：

第一，本发明构建了特征引导模块，使用一个模态的视频特征引导另一个模态视频特征的学习，克服了现有技术中彻底分离了同一视频信号的不同特征进而不能准确的表示视频特征，导致利用视频特征差别性对视频图像中的人体行为进行识别的准确性下降的问题，使得本发明对视频中的人体行为实现更好的识别效果。

第二，本发明搭建骨架引导多模态融合神经网络，克服了在输入数据时融合不对等的语义层级数据导致了输入信息混乱，无法实现对视频图像中人体行为的识别问题，使得本发明能够对在骨架数据的引导下进行不同输入信息的融合，在融合的同时保证信号的清晰和有效的表达能力。

附图说明

图1为本发明的流程图；

图2为本发明的人体骨架结构示意图。

具体实施方式

下面结合附图对本发明进行详细说明。

参照图1，对本发明的实现步骤做进一步的描述。

步骤1，构建RGB图像特征提取网络。

搭建一个7层的RGB图像特征提取网络，其结构依次为：输入卷积层，第一残差卷积层，第二残差卷积层，第三残差卷积层，第四残差卷积层，全局平均池化层，全连接层。

设置RGB图像特征提取网络各层参数如下：

将输入卷积层的空间卷积核大小设置为1×7×7，卷积步长[1,1]，时间卷积核大小设置为3×1×1，卷积步长为1，卷积核数量均设置为64。

将四个残差卷积层的空间卷积核大小均设置为1×3×3，卷积步长均设置为[1,1]，时间卷积核大小均设置为3×1×1，卷积步长均设置为1，卷积核数量依次设置为64，128，256，512。

将全连接层的输出神经元个数设置为60个。

步骤2，构建骨架特征提取网络。

搭建一个12层的骨架特征提取网络，其结构依次为：输入卷积层，第一卷积层，第二卷积层，第三卷积层，第四卷积层，第五卷积层，第六卷积层，第七卷积层，第八卷积层，第九卷积层，全局平均池化层，全连接层。

设置骨架特征提取网络各层参数如下：

将输入卷积层的空间卷积核大小设置为1×1，卷积步长1，时间卷积核大小设置为9×1，卷积步长为1，空间和时间卷积核数量相同，均设置为64。

将九个卷积层的空间卷积核大小均设置为1×1，卷积步长均为1，时间卷积核大小均设置为9×1，卷积步长依次设为1，1，1，2，1，1，2，1，1，每层的空间和时间卷积核数量保持一致，依次设置为64，64，64，128，128，128，256，256，256。

将全连接层的输出神经元个数设置为60个。

步骤3，构造特征引导模块。

搭建一个由紧凑双线性池化层和全连接层组成的特征引导模块，将紧凑双线性池化层的输出维度设置为1024，全连接层的输出神经元个数设置为512。

步骤4，构建融合模块。

搭建3层的融合模块，结构依次为：concat层，第一全连接层，第二全连接层；其中，concat层的拼接维度设置为512，第一全连接层的输出神经元个数设置为512，第二全连接层的输出神经元个数设置为60。

步骤5，搭建骨架引导多模态融合神经网络。

将RGB图像特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接，特征引导模块的全连接层与融合模块的concat层连接，骨架特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接，骨架特征提取网络的全连接层与特征融合模块的concat层连接后组成骨架引导多模态融合神经网络。

步骤6，训练骨架引导多模态融合神经网络。

在数据集中选择至少40000个视频样本组成训练集，所选的每个视频样本的数据包括视频的RGB图像数据，以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值。

将训练集的数据输入到骨架引导多模态融合神经网络中，用梯度下降法更新骨架引导多模态融合神经网络的各层参数，将更新后的参数值赋值给骨架引导多模态融合神经网络的各层参数，得到训练好的骨架引导多模态融合神经网络。

所述的用梯度下降法更新骨架引导多模态融合神经网络的各层参数的步骤如下：

第1步，将骨架引导多模态融合神经网络的学习率设置为0.001。

第2步，将骨架引导多模态融合神经网络的输出值与视频样本中人体动作类别的标签值作为梯度值。

第3步，利用下式，更新骨架引导多模态融合神经网络的各层参数：

其中，

表示更新后的骨架引导多模态融合神经网络的参数值，←表示赋值操作，θ表示骨架引导多模态融合神经网络更新前的参数值，▽J表示骨架引导多模态融合神经网络的梯度值。

步骤7，对视频中的人体行为进行识别。

使用相机采集至少16张RGB图像，每张图像均含有待识别的人体行为，并利用骨架姿态估计工具，提取每张RGB图像的人体骨架序列。

所述人体骨架序列是指，将每张RGB图像中描述人体姿态的15个人体关键点所处位置对应的坐标值排成一列组成的人体骨架序列来表示人体骨架结构如图2所示。

图2中的黑色圆圈表示组成人体骨架的关键点，圆圈内的数字1至15分别表示关键点的编号，黑色直线表示两两关节点之间的连接线。具体的人体骨架序列的表示规则如下：

将15个人体关键点在图像中位置坐标按固定顺序排成一列，组成人体的骨架序列来抽象表示人体形态，其中15个人体关键点及其对应的固定排列序号为：1头，2脖子，3躯干，4左肩，5左胳膊肘，6左手，7右肩，8右胳膊肘，9右手，10左胯，11左膝，12左脚，13右胯，14右膝，15右脚。

基于上述表示规则，一个人的人体骨架序列为：

V＝[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,x6,y6,x7,y7,x8,y8,x9,y9,x10,y10,x11,y11,x12,y12,x13,y13,x14,y14,x15,y15],

其中x1，y1分别表示第一个人体关键点头在图像中的横纵坐标，x2～x15,y2～y15同理。

将每张RGB图像裁剪为112×112大小，按人体骨架序列中的15个人体关键点及每个人体关键点所处位置对应的3个坐标值，将每个一维长度为45的人体骨架序列扩维成3×15大小。

将RGB图像和人体骨架序列输入到训练好的骨架引导多模态融合神经网络，输出视频中的人体行为的识别结果。

Claims

1.一种基于骨架引导多模态融合神经网络的行为识别方法，其特征在于，构建特征引导模块，搭建基于骨架引导多模态融合神经网络，对视频图像中的人体行为进行识别，该方法的步骤包括如下：

(1)构建RGB图像特征提取网络：

(1b)设置RGB图像特征提取网络各层参数如下：

将全连接层的输出神经元个数设置为60个；

(2)构建骨架特征提取网络：

(2a)搭建一个12层的骨架特征提取网络，其结构依次为：输入卷积层，第一卷积层，第二卷积层，第三卷积层，第四卷积层，第五卷积层，第六卷积层，第七卷积层，第八卷积层，第九卷积层，全局平均池化层，全连接层；

(2b)设置骨架特征提取网络各层参数如下：

将全连接层的输出神经元个数设置为60个；

(3)构造特征引导模块：

(4)构建融合模块：

(5)搭建骨架引导多模态融合神经网络：

(6)训练骨架引导多模态融合神经网络：

(6a)在数据集中选择至少40000个视频样本组成训练集，每个视频样本的数据包括视频的RGB图像数据以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值；

(7)识别视频中的人体行为：

2.根据权利要求1所述的基于骨架引导多模态融合神经网络的行为识别方法，其特征在于，步骤(6b)中所述的用梯度下降法更新骨架引导多模态融合神经网络的各层参数的步骤如下：

第一步，将骨架引导多模态融合神经网络的学习率设置为0.001；

第二步，将骨架引导多模态融合神经网络的输出值与视频样本中人体动作类别的标签值作为梯度值；

第三步，利用下式，更新骨架引导多模态融合神经网络的各层参数：

其中，

表示更新后的骨架引导多模态融合神经网络的参数值，←表示赋值操作，θ表示骨架引导多模态融合神经网络更新前的参数值，

表示骨架引导多模态融合神经网络的梯度值。

3.根据权利要求1所述的基于骨架引导多模态融合神经网络的行为识别方法，其特征在于，步骤(7a)中所述人体骨架序列是指，将每张RGB图像中描述人体姿态的15个人体关键点所处位置对应的坐标值排成一列组成的人体骨架序列。