CN113469018A

CN113469018A - 基于rgb与三维骨骼的多模态交互行为识别方法

Info

Publication number: CN113469018A
Application number: CN202110725737.XA
Authority: CN
Inventors: 李传坤; 李剑; 郭锦铭; 韩星程; 王黎明; 韩焱
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-01
Anticipated expiration: 2041-06-29
Also published as: CN113469018B

Abstract

本发明涉及一种基于RGB与骨骼多模态的人体交互行为识别方法，首先会对视频进行预处理，提取视频中人和物体信息，然后利用多模态从全局到局部构建人与物体之间的空间关系；并利用图卷积网络提取对应的深度特征，最后在特征层和决策层融合各个模态特征，用于识别人体交互行为；本发明利用RGB信息与人体三维骨骼模态的数据，通过构建空间关系网络模型，挖掘人与物体之间的空间关系，提取人与物体之间的多模态交互信息，并建立基于多模态交互信息的融合网络，有效地融合各个模态特征，利用各个模态的优势提高交互行为识别精度。

Description

基于RGB与三维骨骼的多模态交互行为识别方法

技术领域

本发明属于计算机视频理解、人工智能技术领域，具体涉及一种基于RGB与三维骨骼的多模态交互行为识别方法。

背景技术

早期的人体行为识别研究主要基于RGB视频，容易受到视角变化、光照变化、复杂背景等因素的影响，使得识别精度一直不能令人满意。近年来，随着低成本深度相机的发展(例如微软的kinect)，人们可以非常容易的获取深度数据，并且可以从深度数据中实时提取人体骨骼关节点的可靠的位置信息。与RGB数据相比，三维数据能够提供更丰富的三维场景的结构信息，并且对光照和尺度的变化具有较强的鲁棒性，其中骨骼数据是一种包含人体关节位置的较高层次的运动特征，并且对摄像机的视角、人体的旋转和运动速度的变化都具有一定的不变性，但骨骼序列没有外观信息。为了充分利用各个模态的优势，目前学术界已经提出了许多基于多模态的人体行为识别方法，主要分为以下三种融合方式：数据层融合、特征层融合或决策层融合。数据融合需要要求不同模态之间具有兼容性，例如，RGB可以与深度图在时空间上对齐，但RGB与骨骼数据只能在时间上对齐。与数据层融合的方法相比，在特征层和决策层上的融合更为常见。在特征融合中，特征从每个模态独立提取，然后连接到一起用于任务的分类。然而，如果多个模态彼此独立，简单地将不同模态的特征串联起来是有效的，但是相关性强的特征串联却会对分类产生不利影响。在这种情况下，决策融合更为合适，但是决策融合的性能取决于每个模态的分类概率，很容易被错误的分类概率干扰。

交互动作是生活中最常见的动作，如人与物体或者人与人交互，但也具有复杂性高、相似度高的特点。不同类别的交互动作之间有很多共享的肢体动作或背景环境，会出现不同交互动作间差异性小的问题，如吃饭和喝水这两个动作，人的内在姿势和背景是一样的，唯一差异的是人交互的对象不同，动作的区分度很小，导致识别精度下降。而单独利用物体检测提供交互行为的物体信息，不能有效地提高识别精度。

发明内容

本发明提供一种基于RGB与三维骨骼的多模态交互行为识别方法，解决上述缺陷。

为了解决以上技术问题，本发明提供了一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，包括以下步骤：

S1、首先对视频进行预处理，提取视频中人和物体信息；

S2、然后利用多模态从全局到局部构建人与物体之间的空间关系；

S3、利用图卷积网络提取对应的深度特征，最后在特征层和决策层融合各个模态特征，用于识别人体交互行为；

S4、在特征层和决策层融合各个模态特征；

S5、根据S4得到的决策概率值识别人体交互行为，即最大决策概率值对应的交互行为为预测动作。

有益效果：本发明利用RGB信息与人体三维骨骼模态的数据，通过构建空间关系网络模型，挖掘人与物体之间的空间关系，提取人与物体之间的多模态交互信息，并建立基于多模态交互信息的融合网络，有效地融合各个模态特征，利用各个模态的优势提高交互行为识别精度。

附图说明

图1多模态交互行为识别方框图；

图2人体图卷积网络；

图3多模态特征融合示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面对本发明的具体实施方式作进一步详细描述。

本发明提出的一种基于RGB与三维骨骼的多模态交互行为识别方法，主要包括以下步骤：视频预处理、多模态空间关系、图卷积网络的特征提取和特征融合；首先会对视频进行预处理，提取视频中人和物体信息，然后利用多模态从全局到局部构建人与物体之间的空间关系；并利用图卷积网络提取对应的深度特征，最后在特征层和决策层融合各个模态特征，用于识别人体交互行为，具体如下：

(1)视频预处理：物体信息与三维骨骼信息的提取

先利用一个网络模型(为现有的自上而下方法获取的网络模型)估计RGB视频中的三维骨骼节点位置以及检测物体信息，该网络模型首先利用一个MASK_RCNN网络模块检测物体和人体位置信息，然后利用三维人物根定位网络和单人姿势估计网络从人体位置信息提取对应人体的三维骨骼信息；

(2)建立多模态空间关系

如图1所示，针对交互行为识别的问题，采用RGB模态和骨骼模态构建三种不同的空间关系：人体骨骼节点之间的空间关系、人体骨骼节点各个身体部位与被检测物体的空间关系和RGB视频中人体全局信息与物体之间的空间关系。通过这三个空间关系可以很好地捕获到人体自生的动态信息以及局部到全局的人体与物体的交互信息，可以有效地避免不相关的背景噪声干扰。

根据步骤(1)提取的三维骨骼信息，即人体的各个骨骼节点，利用提取的骨骼节点数据构建图谱结构挖掘人体各个身体部分的空间关系，人体骨骼的每一个节点当作图谱中的一个节点，人体相连接的节点看成相邻的节点；

在人与物体交互时，一般他们之间的距离会比较近，人与物体的空间关系可以通过人和物体在图片中位置构建图谱结构。首先以人为中心，计算人与各个物体的位置距离，与距离近的物体构成一条边，然后依次计算其他物体之间的距离，距离相近的物体建立边的关系。为了能够捕获到人与物体空间的局部关系和全局关系，构建2个图谱：1)人体骨骼的中五个身体部分(躯干、左右手、左右腿)与RGB视频中物体的图谱；2)RGB视频中人整体部分与物体的图谱。同时利用它们之间的距离信息构建对应图谱的邻接矩阵A，公式如下：

其中d_ij是节点i跟节点j之间的距离，c是图谱中节点的个数。a_ij是邻接矩阵A的元素，代表着节点i与节点j之间的关联程度；与人距离越近的物体，两者之间的关联程度越高。

(3)利用图卷积网络提取对应的深度特征

S3.1针对人体骨骼节点之间的空间关系，利用层次图卷积神经网络提取骨骼模态特征；人体骨骼数据不具备规则的空间结构，传统的卷积神经网络很难提取骨骼节点之间的结构信息，而且人体骨骼具有固定的空间关系，比较适用图卷积网络提取特征信息。为能够更好地抽取局部关节信息，同时加快节点信息传播速度，采用层次图卷积网络，如图2所示，先将人体骨架分为5个身体部分，每个部分对应一个子图，然后经过各自独立的三层图卷积模块后，利用一个注意力模块，关注重要的身体部位并对每个部分进行池化；最后各个身体部分之间构建一个新子图，并利用一层图卷积模块捕获子图之间的信息。每一个图卷积模块包含2个图卷积操作：位移空间图卷积和位移时间图卷积。与传统的图卷积操作不同，位移图卷积利用移位图操作和轻量点卷积降低了计算的复杂度，同时移位图操作为空间图和时间图提供了灵活的感受野。

S3.2、利用步骤(2)中人体骨骼节点各个身体部位与被检测物体的空间关系，利用三层图卷积模块提取对应的两模态交互特征，即骨骼与RGB视频的局部混合特征；

S3.3、最后利用步骤(2)中RGB视频中人体全局信息与物体之间的空间关系，构建三层全局图卷积模块提取RGB视频的模态特征。

但有些动作人不仅跟近的物体互动，同时也涉及到一些远的物体，比如投篮动作，除了跟球的互动，还跟篮筐之间有交互的信息。对于S3.2和S3.3，为了能够探索人节点与其他远节点的信息交互，在每层图卷积模块后引入一个Non-local模块，提取重要的时空交互信息用于人体行为识别。

(4)在特征层和决策层融合各个模态特征

根据步骤(3)提取的三种不同模态的特征：骨骼模态特征、骨骼与RGB视频的局部混合特征以及RGB视频的模态特征，在特征层融合生成一个融合特征，并在决策层与上述三个模态特征进一步融合得到识别人体交互行为的决策概率值。

为了提高人体行为识别的精度，本发明采用联合框架的多模态融合方法融合特征，生成更具有判别能力的融合特征，即将多模态空间映射到共享语义子空间中，从而融合多个模态特征。为了最大化各个特征集中对应特征的相关关系，同时最大化不同类之间的差异，先利用判别相关分析方法(DCA)进行特征的空间变换；然后利用克罗内克积联合各个模态特征，生成共享语义的子空间用于人体行为识别。

同时借助多任务的思想对每种特征的表达进行约束，让融合后的特征能够获取更好的泛化能力，每个模态特征和融合特征都有对应的动作分类器。训练的损失函数是各个特征损失和融合后特征损失的一个加权求和：

loss_f是融合特征的损失函数，loss_k是每个模态特征的损失函数。由于多loss的使用，每个模态特征和融合特征都会得到一个决策概率值，可以进一步利用乘法决策融合提升行为动作的识别率。

(5)根据步骤(4)得到的决策概率值识别人体交互行为，即最大决策概率值对应的交互行为为预测动作。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，包括以下步骤：

S1、首先对视频进行预处理，提取视频中人和物体信息；

S4、在特征层和决策层融合各个模态特征；

2.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S1具体为：先利用一个网络模型估计RGB视频中的三维骨骼节点位置以及检测物体信息，该网络模型首先利用一个MASK_RCNN网络模块检测物体和人体位置信息，然后利用三维人物根定位网络和单人姿势估计网络从人体位置信息提取对应人体的三维骨骼信息。

3.根据权利要求2所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，所述网络模型为自上而下方法获取的网络模型。

4.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S2中，采用RGB模态和骨骼模态构建三种不同的空间关系：人体骨骼节点之间的空间关系、人体骨骼节点各个身体部位与被检测物体的空间关系和RGB视频中人体全局信息与物体之间的空间关系；通过这三个空间关系捕获人体自生的动态信息以及局部到全局的人体与物体的交互信息。

5.根据权利要求4所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，根据S1提取的三维骨骼信息，即人体的各个骨骼节点，利用提取的骨骼节点数据构建图谱结构挖掘人体各个身体部分的空间关系，人体骨骼的每一个节点当作图谱中的一个节点，人体相连接的节点看成相邻的节点；在人与物体交互时，首先以人为中心，计算人与各个物体的位置距离，与距离近的物体构成一条边，然后依次计算其他物体之间的距离，距离相近的物体建立边的关系。

6.根据权利要求5所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，为了能够捕获到人与物体空间的局部关系和全局关系，构建2个图谱：1)人体骨骼的中五个身体部分与RGB视频中物体的图谱；2)RGB视频中人整体部分与物体的图谱；同时利用它们之间的距离信息构建对应图谱的邻接矩阵A，公式如下：

7.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S3具体包括以下步骤：

S3.1针对人体骨骼节点之间的空间关系，利用层次图卷积神经网络提取骨骼模态特征；

S3.2、利用S2中人体骨骼节点各个身体部位与被检测物体的空间关系，利用三层图卷积模块提取对应的两模态交互特征，即骨骼与RGB视频的局部混合特征；

8.根据权利要求7所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S3.1中，采用层次图卷积网络，先将人体骨架分为5个身体部分，每个部分对应一个子图，然后经过各自独立的三层图卷积模块后，利用一个注意力模块，关注重要的身体部位并对每个部分进行池化；最后各个身体部分之间构建一个新子图，并利用一层图卷积模块捕获子图之间的信息。

9.根据权利要求8所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S4中，根据S3提取的三种不同模态的特征：骨骼模态特征、骨骼与RGB视频的局部混合特征以及RGB视频的模态特征，在特征层融合生成一个融合特征，并在决策层与上述三个模态特征进一步融合得到识别人体交互行为的决策概率值。

10.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法，其特征在于，S4中，先利用判别相关分析方法进行特征的空间变换；然后利用克罗内克积联合各个模态特征，生成共享语义的子空间用于人体行为识别；

同时借助多任务的思想对每种特征的表达进行约束，让每个模态特征和融合特征都有对应的动作分类器；训练的损失函数是各个特征损失和融合后特征损失的一个加权求和：