CN112668550B

CN112668550B - 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法

Info

Publication number: CN112668550B
Application number: CN202110060032.0A
Authority: CN
Inventors: 姬晓飞; 田晓欧; 李俊鹏; 琚兆杰; 张可心
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2023-12-19
Anticipated expiration: 2041-01-18
Also published as: CN112668550A

Abstract

本发明公开了一种基于关节点‑深度联合关注RGB模态数据的双人交互行为识别方法，包括如下步骤：步骤S1:构建关节点‑深度联合RGB关注特征图；步骤S2:采用卷积神经网络对关节点‑深度联合RGB关注特征图进行深层特征提取，并结合长短期记忆网络进行时序建模，得到最终识别结果。本发明提出了一种基于关节点‑深度联合关注RGB模态数据的双人交互行为识别方法，该方法中构建了一种新的多模态数据深度学习的融合框架，利用深度信息关节点信息对RGB数据模态进行关注，充分考虑双人交互运动中的交互关系，并结合CNN和LSTM进行时序建模，加强视频动作的时间依赖关系。

Description

基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法

技术领域

本发明公开涉及计算机视觉技术领域，尤其涉及基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法。

背景技术

近年来，随着Kinect传感器迅速发展，深度数据和关节点数据的获取已经不成难题，国内外研究者对于不同数据源的双人交互行为识别研究也取得了初步进展。目前根据数据源的不同，双人交互行为识别方法可分为：基于关节点数据的双人交互行为识别，基于RGB视频的双人交互行为识别和基于多源信息融合的双人交互行为识别。

基于关节点数据的双人交互行为识别方法：现有技术文献Yun K,Honorio J,Chattopadhyay D,et al.Two-person interaction detection using body-posefeatures and multiple instance learning[C]//Computer Vision&PatternRecognition Workshops.IEEE,2012，引入人体姿态特征，分别对关节特征、平面特征和速度特征进行测量估计，其中关节特征包括关节距离和关节运动，记录了双人交互过程中关节运动的特性；平面特征包括平面与法平面，捕捉了平面与关节之间的几何关系；速度特征包含速度与法向速度，计算了短帧内关节运动的速度，最后结合SVM分类器对其进行分类学习。该方法较好的利用了关节的距离特征，但是没有将时间特征完整的考虑进去。现有技术文献Tu J,Liu M,Liu H.Skeleton-Based Human Action Recognition Using SpatialTemporal 3D Convolutional Neural Networks[C]//2018IEEE InternationalConference on Multimedia and Expo(ICME).IEEE Computer Society,2018，运用三层LSTM网络对关节点的几何特征进行时序建模。第一个LSTM层以几何特征作为输入，第二层继承第一层的输出，第三层继承第二层的输出，最后通过Softmax层进行分类识别。该方法结合LSTM网络，对长序列的动作进行了较好的建模，但是关节点数据缺少对外观的表达，对识别结果造成影响。

基于RGB视频的双人交互行为识别方法：现有技术文献Yu T H,Kim T K,CipollaR.Real-time Action Recognition by Spatiotemporal Semantic and StructuralForests[C]//British Machine Vision Conference.2010，使用V-FAST检测器对人体行为的时空兴趣点进行检测定位，然后利用语义基元森林(STFs)将兴趣点附近的patch转化为视觉码本，再采用分层的语义基元森林表示时空体的外观和结构信息，最后使用金字塔匹配核的K均值算法对交互动作识别分类。该方法引入时空兴趣点，将时间信息与空间信息同时考虑在内，但是短帧视频的发生顺序对识别结果也有较大的影响。现有技术文献Ke Q,Bennamoun M,An S,et al.Human Interaction Prediction Using Deep TemporalFeatures[C]//European Conference on Computer Vision.Springer InternationalPublishing,2016，提出利用光流编码图像表示视频中的底层运动信息，深度卷积神经网络提取深层时间特征。该方法较好的利用了视频帧的深度时间特征，但并未合理运用空间信息。以上两种方法都利用光流特征，虽能表达人体的运动信息，但是计算量偏大，很难实现实时处理。

基于多源信息融合的双人交互行为识别方法：现有技术文献Meng L,Qing L,YangP,et al.Activity recognition based on semantic spatial relation[C]//PatternRecognition(ICPR),2012 21st International Conference on.IEEE,2013，根据关节的位置提取人体内部和行动者之间的语义空间信息，并利用方向梯度直方图(Histogram ofOriented Gradient，HOG)提取外观特征作为补充，最后将二者融合，使用SVM分类器进行分类识别。该方法不仅很好的利用了双人交互运动的三维位置信息，而且在细节上利用外观特征进行补充。但是对于异构特征未能进行合理的融合，导致特征损失，对识别率造成一定影响。

综上，为了解决单个信息表达不完整或缺少对主要信息的关注问题是人们需要解决的关键。

发明内容

鉴于此，本发明公开提供了基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，以解决单个信息表达不完整或缺少对主要信息的关注问题。

本发明提供的技术方案，具体为，

基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，包括如下步骤：

步骤S1:构建关节点-深度联合RGB关注特征图；

步骤S2:采用卷积神经网络对关节点-深度联合RGB关注特征图进行深层特征提取，并结合长短期记忆网络进行时序建模，得到最终识别结果。

进一步地，所述步骤S1构建关节点-深度联合RGB关注特征图，包括：

S11:获取人体运动信息，其中人体运动信息包括深度数据、RGB视频数据和关节点数据；

S12:对深度数据进行边缘检测、膨胀、填充操作，得到深度关注矩阵；所述深度关注矩阵是首先检测深度图像的人体运动边缘，然后进行膨胀和填充得到人体与场景分割的二值矩阵；

S13：根据深度数据和RGB视频数据的对齐关系，采用深度关注矩阵对RGB图像进行剪切，保留RGB图像的ROI运动区域，即得到深度关注的RGB特征图，所述ROI运动区域为双人运动最大区域的保留，以去除冗余干扰部分；

S14：将关节点数据进行归一化处理，并计算双人交互的主动方和被动方、主要交互部位和次要交互部位、关键交互帧和非关键交互帧关系；

S15：对所述主动方和被动方、主要交互部位和次要交互部位以及关键交互帧和非关键交互帧关系进行不同程度的加权，并映射到RGB颜色空间中，形成关节点关注矩阵；

S16：将深度关注矩阵和关节点关注矩阵加权到RGB图像的ROI运动区域中，得到关节点-深度联合RGB关注特征图。

进一步地，所述步骤S11中使用深度相机Kinect v2提取人体中的深度数据、RGB视频数据和关节点数据。

进一步地，所述步骤S14中，所述双人交互的主动方和被动方是计算单人整体的运动幅度；主要交互部位和次要交互部位是计算双人各个肢体的运动幅度；关键交互帧与非关键交互帧是计算每帧中双人整体的运动幅度。

进一步地，所述步骤S15中加权映射关系为：主动方和被动方映射到RGB颜色空间中的R通道中，主动方的权值较大，被动方的权值较小；(2)主要部位和次要部位映射到RGB颜色空间中的G通道中，主要部位的权值较大，次要部位的权值较小；(3)关键帧和非关键帧映射到RGB颜色空间中的B通道中，关键帧的权值较大，非关键帧的权值较小。

进一步地，步骤S16中所述加权具体为，首先根据深度关注矩阵在RGB图像上给背景以0的关注度，前景以1的关注度，再将关节点关注矩阵加权到该图像中，即得到关节点-深度联合关注RGB特征图。

进一步地，所述步骤S2卷积神经网络中卷积层为Alex网络前端的6个卷积层，继而得到深层卷积特征，将其以时间顺序送入LSTM网络进行时序建模，得到最终识别结果。

本发明提出了一种基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，该方法中构建了一种新的多模态数据深度学习的融合框架，利用深度信息关节点信息对RGB数据模态进行关注，充分考虑双人交互运动中的交互关系，并结合CNN和LSTM进行时序建模，加强视频动作的时间依赖关系。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中关节点-深度信息联合关注RGB模态数据的整体框图；

图2是本发明关节点-深度联合关注RGB模态数据流程图；

图3是本发明CNN各层参数结构图；

图4是SBU Kinect交互数据集示例图；

图5是本发明在SBU Kinect交互数据集识别结果混淆矩阵。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。

为解决现有技术中，单个信息表达不完整或缺少对主要信息的关注问题。本实施方案提供了基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法,本发明中涉及一种新的多模态数据深度学习的融合框架，利用深度信息关节点信息对RGB数据模态进行关注，充分考虑双人交互运动中的交互关系，并结合CNN和LSTM进行时序建模，加强视频动作的时间依赖关系。

参见图1和2，包括以下步骤：

步骤1:构建关节点-深度联合RGB关注特征图；

步骤2:采用卷积神经网络对关节点-深度联合RGB关注特征图进行深层特征提取，并结合长短期记忆网络进行时序建模，得到最终识别结果。

其中关节点-深度联合RGB关注特征图的构建步骤为：利用深度数据给RGB视频帧前景部分以最大的关注度，利用关节点数据给RGB视频帧的主要交互部位以较大的关注度，得到关节点-深度联合RGB关注特征图；

关节点-深度联合RGB关注特征图送入CNN和LSTM，得到最终识别结果，其中将关节点-深度联合RGB关注特征图归一化为224*224大小。卷积层为Alex网络前端的卷积部分，输入图像为n张224*224*3的特征图，经过6层卷积得到n个1*1*4096维的特征向量，再将特征向量以时序关系送入LSTM网络，得到最终识别结果。

其中，构建关节点-深度联合RGB关注特征图，具体包括如下步骤：

步骤11：获取人体运动的深度数据、RGB视频数据和关节点数据；使用深度相机(Kinect v2)提取人的中的深度信息，RGB视频信息和关节点信息。其中深度信息将摄像机到场景中每个点的距离作为像素值，反应像素点距离的远近。RGB信息是对视频中人物的直观表达，包含外观，纹理等信息。关节点信息为人体运动的15个关节点，由三维坐标(x，y，z)表示。

步骤12：对步骤11中的深度数据进行边缘检测、膨胀等操作，得到深度关注矩阵；利用Canny边缘检测算法，保留人体轮廓的边缘部分，再选取8*8的卷积核对边缘部分加深，然后通过孔洞填充的方法填充两个人的身体区域，保证人体部位的像素点值1，非人体部位的像素点值为0。

步骤13：根据深度数据和RGB数据的对齐关系，在RGB视频帧上剪切出人体运动的ROI区域；根据步骤12中的深度关注矩阵，计算像素点为0的最大外接矩阵，将对应的RGB帧剪切出人体区域。

步骤14：将步骤11中的关节点数据进行归一化处理，并计算双人交互的主动方和被动方、主要部位和次要部位、关键交互帧和非关键交互帧等信息；

(1)对主动方与被动方的计算：分别计算交互双方各关节点的运动速度，并对整个序列关节点的运动速度求和，运动速度和大的定义为主动方，运动速度和小的定义为被动方。

(2)对主要部位和次要部位的计算：将人体分为躯干、左肢、右肢、左腿和右腿5各部位，计算每个部位的运动速度，运动速度大的部位定义为主要交互部位，运动速度小的部位定义为次要交互部位。

(3)对关键交互帧和非关键交互帧的计算：计算单帧中每个关节点的运动速度，对双人间所有关节点的运动速度求和，运动速度和大的帧定义为关键交互帧，运动速度小的帧定义为非关键交互帧。

步骤15：对步骤14中的主动方和被动方、主要部位和次要部位以及关键交互帧和非关键交互帧进行不同程度的加权，并映射到RGB颜色空间中，形成关节点关注矩阵；

(1)将主动方和被动方的关系映射到RGB颜色空间的R通道中，主动方R通道像素值为200，被动方R通道像素值为100。

(2)将主要交互部位和次要交互部位的关系映射到RGB颜色空间的G通道中，主动方G通道像素值为200，被动方G通道像素值为100。

(3)将关键帧和非关键帧的关系映射到RGB颜色空间的B通道中，主动方B通道像素值为200，被动方B通道像素值为100。

步骤16：将步骤12中的深度关注矩阵和步骤5中的关节点关注矩阵加权到RGB图像的ROI运动区域中，得到关节点-深度联合RGB关注特征图；

首先，将RGB图像的ROI区域与深度关注矩阵进行融合，深度关注矩阵为0的区域为背景，赋予最小的权值，将相应RGB图片的该区域赋值为[0,0,0]，达到去除背景的目的，得到深度关注RGB特征图。

然后，将深度关注RGB特征图与关节点关注矩阵融合，对其以7：3的加权比例进行融合，得到关节点-深度联合RGB关注特征图。本发明所构造的关节点-深度联合RGB关注特征图，既考虑了RGB视频提供的外观信息，又利用深度信息关注前景部分，同时结合关节点运动趋势对RGB视频帧的交互部分进行加强。

利用Alexnet前端卷积层提取深层特征，并结合LSTM网络进行时序建模，得出实验结果。通过实验结果可知该方法可以有效提高双人交互行为识别的准确率。

下面结合附图对本发明作进一步描述，便于更加清楚地说明本发明的技术方案，但不能将它们理解为对本发明保护范围的限定。

实施例1

为了能保证方法的性能与效率，本实施例将Alexnet与LSTM结合进行时序建模，利用Alexnet提取深层结构特征，如图3为CNN各层参数结构图。再将深层特征送入LSTM中进行时序建模，得到识别结果。

本实例中，为证明提出方法的有效性，采用国际标准的SBU Kinect数据库进行验证。SBU Kinect数据库共包含282个骨架序列，该数据库具有八种交互动作类型，包括：靠近、离开、推搡、踢、打、交换物品、拥抱和握手，数据采集均采用相同的试验环境，七名参与者进行采集数据，组成了21对互动，该数据集每帧的每个人均有15个关节点的3维坐标表示，在训练期间，将随机剪裁增加数据的多样性。

步骤1：获取人体运动的深度数据，RGB视频数据和关节点数据；

本实施例采用深度相机(Kinect v2)提取人的中的深度信息，RGB视频信息和关节点信息。其中深度相机处于原点位置，x轴正半轴在深度相机的视角上向左延伸，y轴正半轴向上延伸，z轴的正半轴与相机的感应方向一致。

步骤2：对步骤1中的深度数据进行边缘检测、膨胀、填充等操作，得到深度关注矩阵；

对于从摄像机中获取的深度实验数据，首先对其进行Canny边缘检测，可分为以下几个步骤：(1)利用高斯滤波器，平滑图像，滤除噪声；(2)计算图像中每个像素点的梯度大小和方向；(3)非极大值抑制，消除杂散响应；(4)运用双阈值检测确定真实和潜在的边缘；(5)抑制孤立的弱边缘，完成检测。

对于完成Canny边缘检测的图像，将其进行卷积核为8*8的膨胀处理，以突出双人形态的轮廓边缘。再通过孔洞填充操作填充人体运动区域，得到只包含人体区域的二值矩阵。

步骤3：根据深度数据和RGB数据的对齐关系，在RGB视频帧上剪切出人体运动的ROI区域；计算深度关注矩阵的最大外接矩形，保留最大外接矩阵的坐标点数据，对相应的RGB视频帧进行剪切，得到RGB图像的双人交互区域。

步骤4：将步骤1中的关节点数据进行归一化处理，并计算双人交互的主动方和被动方、主要部位和次要部位、关键交互帧和非关键交互帧等信息；

(1)根据主动方与被动方的计算规则，计算双方各关节点的运动速度，计算公式为：

其中，va，vb分别代表两个表演者的运动速度，x，y，z分别为人体关节点的x，y，z坐标，n为该视频序列的总帧数，k为步长。

然后分别对交互双方的运动速度求和，计算公式为：

其中Va为左侧表演者者的运动速度和，Vb为右侧表演者的运动速度和。将Va与Vb进行比较，较大者为主动方，较小者为被动方。

(2)根据主要部位与次要部位的计算规则，计算各肢体的运动速度，双方各关节点的运动速度与(1)中计算方法相同。各肢体运动速度计算公式为：

其中，分别为交互双方各关节的速度，j分别为五个肢体的运动速度，m为每个肢体包含的关节点序号，由于在SBU Kinect数据库中，每个肢体包含3个关节点，所以m为j*3。

然后计算每个部位的肢体运动和，计算公式为：

Va(b)j为各个肢体的运动速度和，根据运动速度的大小对运动部位进行主次划分。

(3)根据关键交互帧和非关键交互帧的计算规则，计算各肢体的运动速度，双方各关节点的运动速度与(1)中计算方法相同。然后计算单帧内所有关节点的运动速度和，计算公式为：

其中，V为单帧内所有关节点的运动速度和，求所有运动速度和的中值，大于等于中值的定义为关键交互帧，小于中值的定义为非关键交互帧。

步骤5：对步骤4中的主动方和被动方、主要部位和次要部位以及关键交互帧和非关键交互帧进行不同程度的加权，并映射到RGB颜色空间中，形成关节点加权特征图；

建立224*224的零数组，将其转化为RGB形式。通过关节点信息分别求得双人运动的最大外接矩形，主动方的矩形区域赋予R通道为200的像素值，被动方的矩形区域赋予R通道为100的像素值。通过关节点信息求得肢体部位的最大外接矩形，在G通道上根据肢体运动速度大小对肢体外接矩形进行100-200区间内的映射。根据关键帧和非关键帧的关系在B通道上对整帧图像赋值，关键帧B通道像素值为200，非关键帧B通道像素值为100。

步骤6：将步骤3中深度关注矩阵和步骤5中的关节点关注矩阵加权到RGB图像的ROI运动区域中，得到关节点-深度联合RGB关注特征图；

首先，将RGB图像的ROI区域与深度关注矩阵进行融合，加权关系为：

Q_a＝Q_a1*1.0+Q_a2*0.0

其中，Qa为深度关注RGB特征图，Qa1为RGB图像的前景部分，由深度关注矩阵的前景部分结合RGB的ROI区域得到，Qa2为RGB图像的后景部分，由深度关注矩阵的后景部分结合RGB的ROI区域得到。

然后，将深度关注RGB特征图与关节点关注矩阵融合，加权关系为：

Q＝Q_a*0.7+Q_b*0.3

其中，Q为关节点-深度联合RGB关注特征图，Qa为深度关注RGB特征图，Qb为关节点关注矩阵。

步骤7：将步骤6中的关节点-深度联合RGB关注特征图送入CNN和LSTM，得到最终识别结果。

送入CNN网络的特征图为224*224*3大小，分别经过6个卷积层得到1*1*4096的特征向量。第一个卷积核的尺寸为11*11，第二个卷积核的尺寸为5*5，第三个卷积核的尺寸为3*3，第四个卷积核的尺寸为3*3，第五个卷积核的尺寸为3*3，第六个卷积核的尺寸为6*6。

送入LSTM网络的特征为1*1*4096大小，帧数统一为数据集某个动作的最小帧数10帧。对于超过10帧的视频帧，利用总帧数除以10求得步长，然后对根据步长进行间隔取帧，最终也得到10帧；根据网络训练关系，最终得出识别结果。

为突显关节点-深度联合关注RGB模态可以有效提高双人交互行为识别的准确率，实验结果分两部分测试。分别为：未利用关节点-深度联合关注RGB模态，仅利用RGB信息的测试结果为83.5％，利用关节点-深度联合关注RGB模态测试结果为96.2％。由此可见，该方法可以有效提高双人交互行为识别的准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改变和变形也应视为本发明的保护范围。

Claims

1.基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，其特征在于，包括如下步骤：

步骤S1: 构建关节点-深度联合RGB关注特征图；

步骤S2:采用卷积神经网络对关节点-深度联合RGB关注特征图进行深层特征提取，并结合长短期记忆网络进行时序建模，得到最终识别结果；

所述步骤S1构建关节点-深度联合RGB关注特征图，包括：

S16：将深度关注矩阵和关节点关注矩阵加权到RGB图像的ROI运动区域中，得到关节点-深度联合RGB关注特征图；

所述步骤 S15中加权映射关系为：主动方和被动方映射到RGB颜色空间中的R通道中，主动方的权值较大，被动方的权值较小；（2）主要部位和次要部位映射到RGB颜色空间中的G通道中，主要部位的权值较大，次要部位的权值较小；（3）关键帧和非关键帧映射到RGB颜色空间中的B通道中，关键帧的权值较大，非关键帧的权值较小；

步骤S16中所述加权具体为，首先根据深度关注矩阵在RGB图像上给背景以0的关注度，前景以1的关注度，再将关节点关注矩阵加权到该图像中，即得到关节点-深度联合关注RGB特征图。

2.根据权利要求1所述的基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，其特征在于，所述步骤S11中使用深度相机Kinect v2提取人体中的深度数据、RGB视频数据和关节点数据。

3.根据权利要求1所述的基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，其特征在于，所述步骤S14中，所述双人交互的主动方和被动方是计算单人整体的运动幅度；主要交互部位和次要交互部位是计算双人各个肢体的运动幅度；关键交互帧与非关键交互帧是计算每帧中双人整体的运动幅度。

4.根据权利要求1所述的基于关节点-深度联合关注RGB模态数据的双人交互行为识别方法，其特征在于，所述步骤S2卷积神经网络中卷积层为Alex网络前端的6个卷积层，继而得到深层卷积特征，将其以时间顺序送入LSTM网络进行时序建模，得到最终识别结果。