CN112906604A

CN112906604A - 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统

Info

Publication number: CN112906604A
Application number: CN202110242365.5A
Authority: CN
Inventors: 黄炜; 颜天信
Original assignee: Anhui Key Information Technology Co ltd
Current assignee: Anhui Key Information Technology Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-04
Anticipated expiration: 2041-03-03
Also published as: CN112906604B

Abstract

本发明公开了一种基于骨骼和RGB帧融合的行为识别方法、装置及系统，该方法包括利用RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据，建立行为识别数据集；将行为识别数据集进行预处理；利用时空图卷积神经网络ST‑GCN提取骨骼数据特征，利用轻量级GhostNet提取RGB帧数据特征；搭建骨骼和RGB帧在特征层面交互的网络；用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络；将所要识别的人体动作信息输入到行为识别网络进行预测，输出对应的动作类别。本发明提供了一种基于骨骼和RGB帧融合的行为识别方法，能够充分挖掘骨骼和RGB帧的互补信息，以一种轻量化的方式进一步提高了动作识别的准确率。

Description

一种基于骨骼和RGB帧融合的行为识别方法、装置及系统

技术领域

本发明涉及计算机视觉领域，尤其涉及是一种基于骨骼和RGB帧融合的行为识别方法、装置及系统。

背景技术

除了语音之外，人们很多时候是通过动作来传递信息的，比如交警使用手势指挥交通，人们使用特定的动作传递情感(挥手表达再见，摇头表示反对，比心表达爱意等)。因此，人体的动作对于理解人类的活动有着重要的作用。人体动作识别在计算机视觉领域一直是一个热门且具有挑战性的研究方向，它指的是输入一段分割好的视频，最后输出这段视频对应的动作类别，即是一个视频分类的任务。它有很多实际的应用，比如在智能安防领域，识别出打架斗殴行为然后报警，识别出有人在公共场所抽烟然后做出报警等。在老年健康呵护领域，识别出老人摔倒然后做出报警等。在人机交互领域，可以用手势隔空操纵电子产品等。因此，在计算机视觉领域，快速有效准确的识别人体动作显得尤为重要。

目前记录人体动作的常用传感器有RGB相机、深度相机和惯性传感器(比如加速度计和陀螺仪)等。从RGB相机我们能获取RGB视频；从深度相机我们能获取深度和骨架视频；从惯性传感器我们能获取加速度和角速度曲线。RGB、深度和骨架可以归为视觉数据。加速度和角速度可以归为非视觉数据。根据输入模态的种类人体动作识别方法可以分为基于单模态的方法和基于多模态的方法。

然而，基于RGB的人体动作识别在背景复杂和光照变化剧烈的条件下表现得很差。基于深度的人体动作识别比较容易受视角的影响。基于骨架的人体动作识别容易混淆运动模式相似的动作。基于惯性数据的人体动作识别往往要求人们佩戴可穿戴设备，另外它也不能很好区分运动模式相似的行为。由于每种模态都有各自的局限性，所以基于单模态的方法在复杂的实际场景中往往是受限的。

发明内容

针对现有的人体动作识别存在的技术问题，本发明提出的一种基于骨骼和RGB帧融合的行为识别方法、装置及系统具有较好的鲁棒性，能够降低延时同时具有更好的识别性能，并且具有能够进一步提高动作识别的准确率的优点。

第一方面，本发明保护一种基于骨骼和RGB帧融合的行为识别方法，该方法包括：

利用RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据，建立行为识别数据集；

将行为识别数据集进行预处理；

利用时空图卷积神经网络(ST-GCN)提取骨骼数据特征，利用轻量级GhostNet提取RGB帧数据特征；

搭建骨骼和RGB帧在特征层面交互的网络；

用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络；其中，训练集为事先采集用于训练的样本集合，主要用来训练神经网络中的参数；

将所要识别的人体动作信息输入到行为识别网络进行预测，输出对应的动作类别。

进一步地，所述预处理方法可以是：对于输入的骨骼数据，把每个关节点与中心点的坐标相减，用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐，把脊柱与Z轴对齐，把肩膀和X轴对齐；对输入的RGB视频，以第一帧作为参考帧，然后通过计算所有帧与参考帧的帧坐标差，挑出其中差值最大的那帧作为代表该视频的RGB帧，然后利用深度相机提供的在图像上的人体坐标，把人体从RGB帧上裁剪出来。

进一步地，上述交互网路具体搭建过程包括：

ST-GCN提取的骨骼特征记为x_skeleton，尺寸为(N，C，T，V)；GhostNet提取的RGB帧的特征记为x_rgb，尺寸为(N，C，H，W)，其中N代表一个批量的大小，C代表特征通道的数目，T代表时间帧的数目，V代表骨骼关节点的数目，H代表图像的高度，W代表图像的宽度。首先，x_skeleton经过一个全局平均池化层把T和V这两个维度进行压缩，它的大小变为(N，C，1，1)；然后为了实现通道之间的交互，经过一个1*1的卷积层尺寸仍为(N，C，1，1)；接下来，用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att，并通过复制，得到它的尺寸为(N，C，H，W)；接着把x_skeleton_att和x_rgb进行哈达玛积运算，实现对RGB帧特征的校正，被校正后的x_rgb记为x_rgb_new；x_rgb_new再经过一个全局平均池化层，得到它的尺寸为(N，C)；最后通过全连接层，对RGB帧输出为(N，C1)。

同步的，通过维度置换，把x_rgb_new的维度变换为(N，H*W，C，1)；然后，经过一个1*1的卷积层，维度变为(N，V，C，1)；之后再进行一次维度置换，得到的交换维度的顺序为(N，C，1，V)，用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att，并通过复制，它的尺寸为(N，C，T，V)；接下来把x_skeleton和x_rgb_att进行哈达玛积运算，得到被校正后的骨骼特征，被校正后的x_skeleton记为x_skeleton_new，它的尺寸为(N，C，T，V)；接着，x_skeleton_new经过一个全局平均池化层把T和V这两个维度进行压缩，它的大小变为(N，C)；最后通过全连接层，对骨骼输出为(N，C1)。

将上述校正后的RBG帧特征(N，C)和骨骼特征(N，C)进行拼接，拼接后的尺寸为(N，2C)；再经过一个1*1的卷积层，得到融合输出为(N，C1)。

进一步地，用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络，包括：

选择交叉熵为损失函数，以top1、top5衡量准确率，并选择附加动量的随机梯度下降为优化函数；

对权重初始化，加载数据、模型、优化器，进行端到端的训练。

第二方面，本发明保护一种基于骨骼和RGB帧融合的行为识别装置，该装置包括如下模块：

数据预处理模块，用于对输入的待识别的行为动作的骨骼和视频信息进行预处理，用于对输入的骨骼数据集和RGB帧数据进行数据增强；

特征提取模块，用于对上述的骨骼数据集和RGB帧数据进行特征提取；

特征处理模块，用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理，所述预先训练好的行为识别网络是利用训练集进行训练的；

结果判定模块，用于获取所述行为识别网络的输出结果，根据所述输出结果判定所述待识别行为的动作类别。

第三方面，本发明还保护一种基于骨骼和RGB帧融合的行为识别系统，包括RGB相机和深度相机和第二方面所述的骨骼和RGB帧融合的行为识别装置。

本发明的有益效果：比起RGB和骨骼分支都采用视频的建模形式，我们的方法可以以轻量化的方式充分挖掘骨骼和RGB信息之间的互补信息，在保证实时性的同时有效提升了行为识别方法的鲁棒性；能够进一步提高动作识别的准确率。

附图说明

图1为基于骨骼和RGB帧融合的行为识别方法的流程图；

图2为基于骨骼和RGB帧融合的行为识别方法中交互网络的流程图；

图3为人体骨骼关节点标号图；

图4为基于骨骼和RGB帧融合的行为识别装置图；

图5为基于骨骼和RGB帧融合的行为识别系统图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种基于骨骼和RGB帧融合的行为识别方法，如图1所示，该方法包括如下步骤S1至S6：

S1，利用RGB相机获取人体动作的RGB视频，利用深度相机获取深度图像和3D骨骼数据，建立行为识别数据集，该数据集包含了3D骨骼坐标和RGB视频两种模态；

S2，将行为识别数据集进行预处理；

S3，通过神经网络提取行为识别数据集的特征；

S4，搭建骨骼和RGB帧在特征层面交互的网络；

S5，用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络；

其中，训练集为事先采集用于训练的样本集合，主要用来训练神经网络中的参数。

S6，把需要识别的行为动作输入到行为识别网络进行预测，输出对应的动作类别。

上述S2步骤中，具体预处理方法可以是：对于输入的骨骼数据，把每个关节点与中心点的坐标相减，用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐，把脊柱与Z轴对齐，把肩膀和X轴对齐；对输入的RGB视频，以第一帧作为参考帧，然后通过计算所有帧与参考帧的帧坐标差，挑出其中差值最大的那帧作为代表该视频的RGB帧，然后利用深度相机提供的在图像上的人体坐标，把人体从RGB帧上裁剪出来。完成对输入的骨骼数据集和RGB帧进行数据增强。

上述S3步骤中，特征提取具体为：利用时空图卷积神经网络ST-GCN提取3D骨骼数据特征x_skeleton，尺寸为(N，C，T，V)，其中N代表一个批量的大小，C代表特征通道的数目，T代表时间帧的数目，V代表骨骼关节点的数目；利用轻量级GhostNet提取RGB帧数据特征x_rgb，尺寸为(N，C，H，W)，其中N代表一个批量的大小，C代表特征通道的数目，H代表图像的高度，W代表图像的宽度。时空图卷积神经网络相比较一般卷积神经网络具有更好的表达能力、模型泛化能力，容错能力也大大增加；轻量级GhostNet能够提升计算速度、降低延时同时具有更好的识别性能。

具体来说，如图2所示，上述S4步骤中交互网路具体搭建过程包括：

S41，将x_skeleton的尺寸转换为与x_rgb一致的尺寸，得到尺寸(N，C，H，W)的3D骨骼数据特征x_skeleton_att；

S42，对x_skeleton_att和x_rgb进行哈达玛积运算，实现RGB帧数据特征的校正，得到校正后的RGB帧数据特征x_rgb_new，x_rgb_new经过全局平均池化层，得到尺寸(N，C)的RGB帧数据特征，再经过全连接层，得到尺寸(N，C1)的RGB帧输出；

S43，将x_rgb的尺寸转换为与x_skeleton一致的尺寸，得到尺寸(N，C，T，V)的RGB帧数据特征x_rgb_att；

S44，对x_skeleton和x_rgb_att进行哈达玛积运算，实现3D骨骼数据特征的校正，得到校正后的3D骨骼数据特征x_skeleton_new；x_skeleton_new经过全局平均池化层，得到尺寸(N，C)的3D骨骼数据特征，再经过全连接层，得到尺寸(N，C1)的骨骼输出；

S45，将尺寸同为(N，C)的RBG帧数据特征和3D骨骼数据特征(N，C)拼接，再经过1*1的卷积层，得到尺寸(N，C1)的融合输出。

其中，上述步骤S41的具体转换过程为：x_skeleton首先经过一个全局平均池化层把T和V这两个维度进行压缩，大小变为(N，C，1，1)；然后经过一个1*1的卷积层尺寸仍为(N，C，1，1)；接下来，用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att，并通过复制，得到尺寸为(N，C，H，W)。

其中，上述步骤S41的具体转换过程为：首先，通过维度置换将x_rgb_new的维度变换为(N，H*W，C，1)；然后，经过一个1*1的卷积层，维度变为(N，V，C，1)；之后再进行一次维度置换，得到的交换维度的顺序为(N，C，1，V)，用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att，并通过复制，得到的尺寸为(N，C，T，V)。

具体来说，上述S5步骤中，用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络，包括如下步骤S51至S52：

S51，选择交叉熵为损失函数，以top1、top5衡量准确率，并选择附加动量的随机梯度下降为优化函数；

S52，对权重初始化，加载数据、模型、优化器，进行端到端的训练，得到行为识别网络。

优选地，以NTU-RGB+D 120数据集作为行为识别数据集为例，说明基于骨骼和RGB帧融合的行为识别方法的具体过程。具体步骤为：

步骤1，RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据，建立NTU-RGB+D 120数据集，即行为识别数据集，该数据集包含了3D骨骼坐标和RGB视频两种模态；

步骤2，将骨骼和RGB视频行为识别数据集进行预处理。如图3所示，预处理的评价基准包括交叉设置和交叉主体。首先对于输入的骨骼数据，用1-25对骨骼的关节点进行标号，指定骨骼图的脊柱点(标号为2)作为中心点，把每个关节点与中心点的坐标相减；用前面的帧填补使得所有样本的帧数达到300帧；把标号1和2之间的边与Z轴对齐；把标号为5和9之间的边和X轴对齐。

其次，对输入的RGB视频，以第一帧作为参考帧，然后通过计算所有帧与参考帧的帧坐标差，挑出其中差值最大的那帧作为代表该视频的RGB帧，再利用深度相机提供的RGB图像上的人体坐标(x_left,y_left,x_right,y_right)，把人体从RGB帧上按照坐标(x_left-50,y_left-50,x_right+50,y_right+50)裁剪出来。其中(x_left,y_left)为人体左上角的坐标，(x_right,y_right)为人体右下角的坐标。

步骤3，利用时空图卷积神经网络(ST-GCN)提取骨骼数据特征；提取的特征尺寸为(64，256，75，25)，其中64为批量的大小，256为特征通道的数目，75为时间帧的长度，25为关节点的数目。利用轻量级GhostNet提取RGB帧数据特征；提取的特征尺寸为(64，256，7，7)，其中64为批量的大小，256为特征通道的数目，第一个7为图像的高度，第二个7为图像的宽度。

步骤4，搭建骨骼和RGB帧在特征层面交互的网络。时空图卷积网络提取的骨骼特征记为x_skeleton，它的尺寸为(64，256，75，25)。轻量级GhostNet提取的RGB帧的特征记为x_rgb，它的尺寸为(64，256，7，7)。具体步骤为：

步骤4.1，首先，x_skeleton经过一个全局平均池化层把T和V这两个维度进行压缩，它的大小变为(64，256，1，1)；然后为了实现通道之间的交互，经过一个1*1的卷积层尺寸仍为(64，256，1，1)；接下来，用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att，并进行复制；接着把x_skeleton_att和x_rgb进行哈达玛积运算，实现对RGB帧特征的校正，被校正后的x_rgb记为x_rgb_new；x_rgb_new再经过一个全局平均池化层；最后通过全连接层，对RGB帧输出。

步骤4.2，首先，通过维度置换，把x_rgb_new的维度变换为(64，49，256，1)；然后，经过一个1*1的卷积层，维度变为(64，25，256，1)；之后再进行一次维度置换，得到的交换维度的顺序为(64，256，1，25)，用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att，并进行复制；接下来把x_skeleton和x_rgb_att进行哈达玛积运算，得到被校正后的骨骼特征，被校正后的x_skeleton记为x_skeleton_new；接着，x_skeleton_new经过一个全局平均池化层把T和V这两个维度进行压缩；最后通过全连接层，对骨骼输出。

步骤4.3，将上述校正后的RBG帧特征和骨骼特征进行拼接；再经过一个1*1的卷积层，进行融合输出。

步骤5，用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络。首先选择交叉熵为损失函数，以top1(预测结果中概率最大的那个分类正确，则预测正确，否则预测错误)、top5(预测结果中概率向量最大的前五名中，只要出现了正确的类别即为预测正确，否则预测错误)衡量准确率，附加动量的随机梯度下降为优化函数，具体设计为起始的学习率为0.1，动量设置为0.9，总共55个周期(epoch)，至第40个周期学习率降为0.01，至第50个epoch学习率降为0.001，训练的样本批量大小为64。再对权重初始化，加载数据、模型、优化器，进行端到端的训练。其中，参数初始化时选择均值为0、方差为0.02的随机初始化。

步骤6，把需要识别的行为动作输入到行为识别网络进行预测，给出对应的动作类别。其中，测试的批量大小为64。

实施例2

与上述基于骨骼和RGB帧融合的行为识别方法相对应，本发明实施例还提供了一种基于骨骼和RGB帧融合的行为识别装置。如图4所示，该装置包括如下模块：

数据预处理模块401，用于对输入的待识别的行为动作的骨骼和视频信息进行预处理，用于对输入的骨骼数据集和RGB帧数据进行数据增强；

特征提取模块402，用于对上述的骨骼数据集和RGB帧数据进行特征提取；

特征处理模块403，用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理，所述预先训练好的行为识别网络是利用训练集进行训练的；

结果判定模块404，用于获取所述行为识别网络的输出结果，根据所述输出结果判定所述待识别行为的动作类别。

实施例3

一种基于骨骼和RGB帧融合的行为识别系统，参见图5所示，包括RGB相机和深度相机501和实施例2中所述的基于骨骼和RGB帧融合的行为识别装置4。

为描述的方便和简洁，所属领域的技术人员可以清楚地了解到，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种基于骨骼和RGB帧融合的行为识别方法、装置及系统，可以以轻量化的方式充分挖掘了骨骼和RGB帧的互补信息，有效提升了行为识别方法的鲁棒性；能够进一步提高动作识别的准确率。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。

Claims

1.一种基于骨骼和RGB帧融合的行为识别方法，其特征在于，构建基于骨骼和RGB帧融合的行为识别网络，通过该行为识别网络进行行为识别，行为识别网络构建，包括如下步骤：

S1，利用RGB相机获取行为动作的RGB数据，利用深度相机获取3D骨骼数据，构建行为识别数据集；

S2，对行为识别数据集进行预处理；

S3，通过神经网络分别提取RGB数据和3D骨骼数据的数据特征；

S4，搭建骨骼和RGB帧在特征层面交互的神经网络；

S5，利用训练集训练该神经网络实现优化参数，得到基于骨骼和RGB帧融合的行为识别网络。

2.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，所述步骤S3中，利用时空图卷积神经网络ST-GCN提取3D骨骼数据特征x_skeleton，尺寸为(N，C，T，V)，其中N代表一个批量的大小，C代表特征通道的数目，T代表时间帧的数目，V代表骨骼关节点的数目；利用轻量级GhostNet提取RGB帧数据特征x_rgb，尺寸为(N，C，H，W)，其中N代表一个批量的大小，C代表特征通道的数目，H代表图像的高度，W代表图像的宽度。

3.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，所述步骤S4中的骨骼和RGB帧在特征层面交互的神经网络的搭建包括如下步骤：

4.根据权利要求3所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，所述步骤S41中，将x_skeleton的尺寸转换为与x_rgb一致的尺寸，得到尺寸(N，C，H，W)的3D骨骼数据特征x_skeleton_att，具体转换为：x_skeleton首先经过一个全局平均池化层把T和V这两个维度进行压缩，大小变为(N，C，1，1)；然后经过一个1*1的卷积层尺寸仍为(N，C，1，1)；接下来，用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att，并通过复制，得到尺寸为(N，C，H，W)。

5.根据权利要求3所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，所述步骤S43中，将x_rgb的尺寸转换为与x_skeleton一致的尺寸，得到尺寸(N，C，T，V)的RGB帧数据特征x_rgb_att，具体转换为：首先，通过维度置换将x_rgb_new的维度变换为(N，H*W，C，1)；然后，经过一个1*1的卷积层，维度变为(N，V，C，1)；之后再进行一次维度置换，得到的交换维度的顺序为(N，C，1，V)，用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att，并通过复制，得到的尺寸为(N，C，T，V)。

6.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，步骤S5中，所述用训练集训练网络，优化参数，得到基于骨骼和RGB帧融合的行为识别网络，包括如下步骤：

7.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，步骤S2中，所述输入的骨骼数据预处理方法具体为：把每个关节点与中心点的坐标相减，用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐，把脊柱与Z轴对齐，把肩膀和X轴对齐。

8.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法，其特征在于，步骤S2中，所述输入的RGB视频数据预处理方法具体为：以第一帧作为参考帧，然后通过计算所有帧与参考帧的帧坐标差，挑出其中差值最大的那帧作为代表该视频的RGB帧，再利用深度相机提供的在图像上的人体坐标，把人体从RGB帧上裁剪出来。

9.一种基于骨骼和RGB帧融合的行为识别装置，其特征在于，所述装置包括：

数据预处理模块(401)，用于对输入的待识别的行为动作的骨骼和视频信息进行预处理，用于对输入的骨骼数据集和RGB帧数据进行数据增强；

特征提取模块(402)，用于对上述的骨骼数据集和RGB帧数据进行特征提取；

特征处理模块(403)，用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理，所述预先训练好的行为识别网络是利用训练集进行训练的；

结果判定模块(404)，用于获取所述行为识别网络的输出结果，根据所述输出结果判定所述待识别行为的动作类别。

10.一种基于骨骼和RGB帧融合的行为识别系统，其特征在于，包括RGB相机和深度相机(501)和权利要求9所述的基于骨骼和RGB帧融合的行为识别装置。