CN113902995B

CN113902995B - 一种多模态人体行为识别方法及相关设备

Info

Publication number: CN113902995B
Application number: CN202111325933.4A
Authority: CN
Inventors: 张信明; 郑辉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2024-04-02
Anticipated expiration: 2041-11-10
Also published as: CN113902995A

Abstract

本申请提出了一种多模态人体行为识别方法及相关设备，为了避免通过图像泄露待处理对象的隐私，以及RGB图像展示的待处理对象特征受外界环境干扰，如待处理对象被遮挡，导致被遮挡区域特征无法获取等，本申请在采集到的视频数据后，将从中获取待处理对象的骨架序列信息和光流图像，之后，对骨架序列信息进行静态特征和动态特征提取，得到表征待处理对象的不同骨骼与不同关节之间的依赖关系，且提取光流图像中的光流模态特征，基于耦合机制融合得到多模态融合特征向量后，据此进行行为识别，可以得到高准确率和可靠性的行为识别结果。

Description

一种多模态人体行为识别方法及相关设备

技术领域

本申请主要涉及图像处理技术领域，更具体地说是涉及一种多模态人体行为识别方法及相关设备。

背景技术

随着人工智能(Artificial Intelligence，AI)的应用发展，人体行为识别成为视频分析的主要研究方向，被广泛应用在智慧安防、智慧医疗、智慧交通、视频游戏、机器人等领域，基于AI包含的如计算机视觉、深度学习等算法进行人体行为识别，从而触发计算机设备执行相应操作，满足应用需求。

其中，在基于深度学习模型的人体行为识别方法实现过程中，是直接对图像传感器采集到的RGB视频数据进行特征提取，依据提取到的空间特征实现人体行为识别，但这种识别方式会暴露个人隐私信息，无法满足安全性要求，且很容易受到外界环境因素干扰，降低识别精准度。

发明内容

有鉴于此，本申请提出了一种多模态行为识别方法，所述方法包括：

获取视频数据中待处理对象的骨架序列信息和光流图像；

对所述骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征；所述骨架模态特征能够表征所述待处理对象的不同骨骼与不同关节之间的依赖关系；

对所述光流图像进行特征提取，得到光流模态特征；所述光流模态特征能够表征所述待处理对象在相邻视频帧之间的动态信息；

基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量；

依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果。

可选的，所述对所述骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征，包括：

将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征；

其中，所述骨架模态特征提取模型基于多视角多流图卷积神经网络训练得到，以学习样本对象的不同骨骼与不同关节之间的依赖关系；所述多视角包括骨骼视角和关节视角；所述多流包括不同视角下的静态信息和动态信息。

可选的，所述多视角多流图卷积神经网络包括不同视角图卷积神经网络，以及相应视角下的多流图卷积神经网络，所述将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征，包括：

将所述骨架序列信息输入图卷积神经网络，得到所述视频数据中不同视频帧包含的所述待处理对象的关节图信息和骨骼图信息；

获取所述关节图信息中相邻关节的关节静态位置信息，以及所述骨骼图像信息中相邻骨骼的骨骼静态位置信息；

利用所述关节静态位置信息，获得所述相邻关节各自的关节速度和关节加速度；

利用所述骨骼静态位置信息，获得所述相邻骨骼各自的骨骼速度和骨骼加速度；

对同一视频帧包含的所述关节静态位置信息、所述关节速度、所述关节加速度、所述骨骼静态位置信息、所述骨骼速度以及所述骨骼加速度进行融合处理，得到所述待处理对象的骨架模态特征。

可选的，所述对所述光流图像进行特征提取，得到光流模态特征，包括：

将所述光流图像输入光流模态特征提取模型，输出光流模态特征；

其中，所述光流模态特征提取模型基于二维残差卷积神经网络训练得到。

可选的，所述基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量，包括：

将所述骨架模态特征和所述光流模态特征输入深度耦合自动编码器模型进行多模态融合处理，输出多模态融合特征向量；

其中，在所述深度耦合自动编码器模型的训练过程中，基于骨架模态损失、光流模态损失以及平方差损失的总损失，实现网络参数调整；所述平方差损失是指基于耦合机制得到的骨架模态编码向量与光流模态编码向量之间的差异损失。

可选的，所述依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果，包括：

利用极限学习机对所述多模态融合特征向量进行分类识别，得到所述视频数据中所述待处理对象的行为识别结果。

可选的，所述获取视频数据中待处理对象的骨架序列信息和光流图像，包括：

获取第一多模态传感器采集的各视频帧中待处理对象的不同关节的三维坐标数据；

由所述各视频帧中不同关节的所述三维坐标数据，构建所述待处理对象的骨架序列信息；

对相邻视频帧进行光流运算，得到所述待处理对象的光流图像。

又一方面，本申请还提出了一种多模态行为识别装置，所述装置包括：

多模态信息获取模块，用于获取视频数据中待处理对象的骨架序列信息和光流图像；

骨架模态特征提取模块，用于对所述骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征；所述骨架模态特征能够表征所述待处理对象的不同骨骼与不同关节之间的依赖关系；

光流模态特征提取模块，用于对所述光流图像进行特征提取，得到光流模态特征；所述光流模态特征能够表征所述待处理对象在相邻视频帧之间的动态信息；

多模态融合处理模块，用于基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量；

行为识别模块，用于依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果。

又一方面，本申请还提出了一种计算机设备，所述计算机设备包括：

通信模块；

存储器，用于存储实现如上述的多模态行为识别方法的程序；

处理器，用于加载执行所述存储器存储的程序，以实现如上述的多模态行为识别方法。

又一方面，本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，其特征碍于，所述计算机程序被处理器加载执行，实现如上述的多模态行为识别方法。

由此可见，本申请提出了一种多模态人体行为识别方法及相关设备，为了避免通过图像泄露待处理对象的隐私，以及RGB图像展示的待处理对象特征受外界环境干扰，如待处理对象被遮挡，导致被遮挡区域特征无法获取等，本申请在采集到的视频数据后，将从中获取待处理对象的骨架序列信息和光流图像，之后，对骨架序列信息进行静态特征和动态特征提取，得到表征待处理对象的不同骨骼与不同关节之间的依赖关系，且提取光流图像中的光流模态特征，基于耦合机制融合得到多模态融合特征向量后，据此进行行为识别，可以得到高准确率和可靠性的行为识别结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的多模态行为识别方法的一可选示例的流程示意图；

图2为本申请提出的多模态行为识别方法的又一可选示例的流程示意图；

图3为本申请提出的多模态行为识别方法中，获取光流图像的场景示意图；

图4为本申请提出的多模态行为识别方法中，从骨架序列信息中提取骨架模态特征的流程示意图；

图5为本申请提出的多模态行为识别方法中，从光流图像中提取光流模态特征的流程示意图；

图6为本申请提出的多模态行为识别方法中，提取多模态特征的一可选示例的流程示意图；

图7为本申请提出的多模态行为识别方法中，用于行为识别的一种分类网络结构示意图；

图8为本申请提出的多模态行为识别方法的又一可选示例的流程示意图；

图9为本申请提出的多模态行为识别装置的一可选示例的结构示意图；

图10为适用于本申请提出的多模态行为识别方法的计算机设备的又一可选示例的硬件结构示意图；

图11为适用于本申请提出的多模态行为识别方法的计算机设备的一可选示例的硬件结构示意图；

图12为适用于本申请提出的多模态行为识别方法的一可选应用环境的架构结构示意图。

具体实施方式

针对背景技术部分的描述，在人体行为识别应用中，为了满足个人隐私信息，提出基于光流图像和人体骨架序列进行人体行为识别，利用光流图像可以准确描述视频的时间动态特性又不包含隐私信息的特点，以及人体骨架序列可以通过用图网络模型去描述人体各个骨骼和关节之间的相互依赖性关系，以实现对人体静态动态信息的刻画，从而结合光流模态和骨骼模态的相应信息，更好地学习反映人体行为的一致性和互补性特征的表示，从而更准确、有效的刻画人体行为的特性，由此提高人体行为识别的精准度，以及避免识别过程中个人隐私信息的泄露。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，也就是说，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的多模态行为识别方法的一可选示例的流程示意图，该方法可以适用于计算机设备，该计算机设备可以是服务器，或者是具有一定数据处理能力的终端设备。该服务器可以是独立的物理服务器，也可以是多个物理服务器集成的服务器集群，还可以是具有云计算能力的云服务器等；该终端设备可以包括但并不局限于：智能手机、平板电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、增强现实技术(Augmented Reality，AR)设备、虚拟现实(Virtual Reality，VR)设备、机器人、台式计算机等，本申请对计算机设备的设备类型不做限制，可视情况而定。

如图1所示，本实施例提出的多模态行为识别方法可以包括但并不局限于以下步骤：

步骤S11，获取视频数据中待处理对象的骨架序列信息和光流图像；

结合上文对本申请技术方案的相关描述，为了避免待处理对象的隐私信息通过RGB视频图像被泄露，同时解决外界环境因素对行为识别结果精准度的不利影响，本申请提出基于骨架序列和光流图像的多模态信息，实现待处理对应的行为识别，在充分利用不同模态信息各自的特性的同时，利用不同模态信息，更好地学习反映人体行为的一致性、互补性特征表示，可以更准确、有效的刻画人体行为的特性，从而提高人体行为识别效率和精准度。

基于此，本申请实施例可以利用多模态传感器进行相应模态信息的采集，得到包含连续视频帧的视频数据，之后，对视频数据中相应模态信息进行处理，得到视频数据中待处理对象(如用户)的骨架序列信息和光流图像，本申请对骨架序列信息和光流图像的获取方法不做限制，可视情况而定。

在一些实施例中，用于获取骨架序列信息的多模态传感器可以是体态感知设备，其可以包括但并不局限于Kinect v2传感器，在实际应用中，该传感器可以有效对人体运动信息进行捕捉，据此可以获得人体各个关节点的坐标信息，也就是说，该体态感知设备采集的每一视频帧中，人体骨架序列信息可以包括包含人体若干个关节点的三维坐标数据等。

可以理解，在上述骨架序列信息获取过程中，对于需要捕捉的关节点三维坐标数据的关节点个数，可以依据系统配置的多模态传感器(如上述Kinect v2传感器)确定，如25个关节点等，本申请对关节点个数不做限制。另外，对于非用户的其他类型的待处理对象，其骨架序列信息的获取方式类似，本申请不做举例详述。

在计算机视觉领域，光流(Optcal Flow)是指视频图像中各点像素随时间的运动情况，光流具有丰富的运动信息，可以从一对时间相关的视频帧中，估计出第一视频帧中各像素点在相邻视频帧中的位置，基于该特点，在多模态传感器采集到连续视频帧后，本申请可以采用但并不局限于TVL1(即一种针对稠密光流进行快速求解的光流方式)、FlowNet2.0(基于卷积神经网络的光流预测算法)等光流提取方式，获取相邻视频帧的光流图像，本申请对提取视频帧的光流图像的实现方法不做详述。

步骤S12，对骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征；

本申请在获取骨架模态特征过程中，本申请不仅考虑了骨架中关节点之间的相关性静态信息，还考虑到关节视角下的动态信息，以及连接相邻关节点的骨骼视角信息，结合骨骼视角和关节视角下相应的静态信息和动态信息进行建模，得到相应的图网络，以便挖掘不同节点与骨骼的相关性，得到更具有判别性、鲁棒性的信息。

基于此，本申请实施例提出基于多视角(如关节视角、骨骼视角)多流(如每一视角下的静态信息流、动态信息流等)实现对骨架序列信息的特征提取，得到能够表征待处理对象的不同骨骼与不同关节之间的依赖关系的骨架模态特征，实现过程本申请不做限制。

在一些实施例中，对于上文描述的骨骼序列信息包含的关节信息、相邻关节之间的骨骼信息等图数据，本申请可以利用对非欧数据具有强大学习能力的图卷积神经网络(Graph Convolutional Network,GCN)，对骨骼序列信息进行深度学习，挖掘不同关节、不同骨骼之间的相互依赖关系，得到所需的骨架模态特征，实现过程可以结合上述技术构思以及GCN的运算原理确定，本申请实施例在此不做详述。

步骤S13，对光流图像进行特征提取，得到光流模态特征；

其中，结合光流图像所具有的特性，本申请提出到的光流模态特征能够表征待处理对象在相邻视频帧之间的动态信息。本申请实施例按照上文描述的方法获得光流图像后，由于光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻视频帧之间的相关性，来找到上一视频帧跟当前视频帧之间存在的对应关系，据此计算出相邻视频帧之间物体的运动信息。

基于此，本申请实施例可以采用卷积神经网络对光流图像进行特征提取，以获得能够刻画待处理对象动态信息的特征表示，即获得光流模态特征。本申请对该卷积神经网络的网络结构不做限制，为了提高特征提取准确性和可靠性，可以预先利用样本光流图像对该卷积神经网络进行训练，得到能够全面且准确提取输入图像中的光流模态特征的光流特征提取模型，这样，在实际应用中，可以直接将实际获得的光流图像输入该模型，得到所需的光流模态特征，本申请对该模型训练实现过程不做详述。

其中，对于上述提取到的光光流图像的尺寸，与上述卷积神经网络的输入图像尺寸要求不一致的情况下，可以先对获取的光流图像进行裁剪处理，得到预设尺寸的光流图像后，再输入卷积神经网络，本申请对该裁剪处理方法不做限制，通常情况下，为了保留光流特征，可以对光流图像中的背景区域进行裁剪等。

步骤S14，基于耦合机制，对骨架模态特征和光流模态特征进行编码融合处理，得到多模态融合特征向量；

结合上文对本申请技术构思的相关描述，本申请需要综合考虑视频数据中待处理对象的骨架模态特征和光流模态特征，实现对视频数据的行为识别。因此，本申请实施例按照上文步骤获得多模态特征后，为了方便后续分类网络据此实现行为识别，可以先对多模态特征进行融合处理，实现异构模态特征之间的一致性、互补性。

因此，本申请可以基于耦合机制，捕捉不同模态之间一致性、互补性特征，使得多模态融合后的特征具有更强的鲁棒性和判别性，有助于提高行为识别结果的可靠性和准确性。本申请对多模态特征之间的融合处理方法不做限制。

在又一些实施例中，为了提高特征提取精准度和可靠性，在上述各模态特征提取过程中，可以结合空间注意力、语义注意力、深度注意力等一种或多种注意力机制实现，本申请对基于注意力机制的特征提取模型的网络结构不做限制，该特征提取模型的训练过程可以依据实际应用需求，如不同模态特征的特点等确定，实现过程本申请不做详述。

步骤S15，依据多模态融合特征向量，获得视频数据中待处理对象的行为识别结果。

继上文描述，对于得到的包含骨骼模态和光流模态的特征信息的多模态融合特征向量，其并不会包含待处理对象的隐私信息，避免了隐私泄露问题，且从视频数据中提取的骨架序列信息和光流信息，相对于RGB信息来说，不会受到外界环境因素的干扰，保证了所得多模态融合特征向量中信息的全面性、可靠性，这样，利用该多模态融合特征向量进行分类识别，可以提高行为识别结果的可靠性和准确性。

在本申请实施例应用中，本申请可以预先训练分类网络实现行为分类识别，这样，在得到多模态融合特征向量后，可以将其输入该分类网络进行处理，预测待处理对象可能的行为类别，如得到可能所属行为类别的概率或分数等，将最高概率或分数对应的行为类别确定为待处理对象的目标行为类别，即得到待处理对象的行为识别结果，如待处理对象在视频数据中的姿态等，本申请对行为识别结果的内容不做限制，可以依据应用场景确定。

综上，在本申请实施例中，为了避免通过图像泄露待处理对象的隐私，以及RGB图像展示的待处理对象特征受外界环境干扰，如待处理对象被遮挡，导致被遮挡区域特征无法获取等，本申请在采集到的视频数据后，将从中获取待处理对象的骨架序列信息和光流图像，之后，对骨架序列信息进行静态特征和动态特征提取，得到表征待处理对象的不同骨骼与不同关节之间的依赖关系，且提取光流图像中的光流模态特征，基于耦合机制融合得到多模态融合特征向量后，据此进行行为识别，可以得到高准确率和可靠性的行为识别结果。

参照图2，为本申请提出的多模态行为识别方法的又一可选示例的流程示意图，本实施例可以是上文描述的多模态行为识别方法的一可选细化实现方法，如图2所示，该方法可以包括：

步骤S21，获取多模态传感器采集的各视频帧中待处理对象的不同关节的三维坐标数据；

步骤S22，由各视频帧中不同关节的三维坐标数据，构建待处理对象的骨架序列信息；

结合上文实施例相应部分的描述，本申请可以如Kinect v2等多模态传感器，来捕捉人体运动信息，获得待处理对象的骨架序列信息。

步骤S23，对相邻视频帧进行光流运算，得到待处理对象的光流图像；

在本申请实施例中，对于如图3上边附图所示的人体运动过程中采集到的连续视频帧，可以采用如TVLI等光流运算方式，对相邻视频帧进行光流计算，得到图3下边所示的光流图像，实现过程本申请不做详述。

步骤S24，将骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征；

结合上文对本申请技术构思的相关描述，该骨架模态特征提取模型可以是基于多视角多流图卷积神经网络训练得到，以学习样本对象的不同骨骼与不同关节之间的依赖关系；该多视角可以包括骨骼视角和关节视角；多流可以包括不同视角下的静态信息和动态信息。其中，静态信息可以包括静态位置信息；动态信息可以包括动态速度、动态加速度等，可以依据应用需求确定，本申请对该静态信息和动态信息的内容不做限制。

基于上述分析，本申请在构建骨架模态特征提取模型的初始网络时，构建基于多视角多流的图卷积神经网络，也就是说，本实施例可以从如关节点、骨骼等不同视角分别构建骨架的图卷积神经网络，且结合相应视角下的节点的不同属性特征，如上述静态信息和动态信息，来构建相应视角下的图卷积神经网络，用于实现对相应视角的特征提取。

可见，本申请的骨架模态特征提取模型包括骨骼特征提取网络和关节特征提取网络，该骨骼特提取网络可以提取骨架序列信息包含的骨骼信息，如图4中下边所示的人体骨骼特征图，之后，将进一步提取其包含的静态信息和动态信息，如图4所示的骨骼流信息1和骨骼流信息2，关于静态信息和动态信息的提取过程本申请不做详述。

同理，通过关节特征提取网络可以提取骨架序列信息包含的关节点信息，如图4上边附图所示的关节点特征图，之后，可以进一步从该关节点特征图中，获取关节视角下的动态信息和静态信息，如图4所示的关节流信息1和关节流信息2等。之后，可以将提取到的关节视角、骨骼视角等各视角下的动态信息、静态信息分别进行特征量化，融合得到骨骼序列信息包含的骨架模态特征。可见，骨架模态特征能够表征待处理对象的不同骨骼与不同关节之间的依赖关系，该依赖关系可以依据上述提取的不同视角下的静态、动态信息确定，本申请对该依赖关系的表示方式不做限制，可视情况而定。

步骤S25，将光流图像输入光流模态特征提取模型，输出光流模态特征；

参照图5所示的光流模态特征提取过程的流程示意图，对于获取的光流图像，可以输入二维卷积神经网络，由不同尺度的卷积核按照不同步长进行特征提取，经过平均池化层和全连接层处理后，得到所需的光流模态特征，本申请对多个卷积层的卷积核尺寸和卷积运算的步长等不做限制，包括但并不局限于图5所示的卷积处理方法。

步骤S26，将骨架模态特征和光流模态特征输入深度耦合自动编码器模型进行多模态融合处理，输出多模态融合特征向量；

其中，深度耦合自动编码器模型包括深度耦合自动编码器和解码器，本申请对该模型的网络结构及其训练实现过程不做详述。本申请对深度耦合自动编码器和解码器各自的运算原理不做详述。

可见，为了保证异构模态特征之间的一致性、互补性关系，在对提取到的多模态特征进行融合处理时，参照图6所示的深度耦合自动编码器模型的结构示意图，相对于深度自动编码器，本申请采用的深度耦合自动编码器中，耦合机制的加入使得网络捕捉不同模态之间的一致性、互补性特征表示的能力进一步增强，从而使得最终融合后的特征表示即多模态融合特征向量更具鲁棒性和判别性。

在一些实施例中，上述深度耦合自动编码器模型中的编码器和解码器的公式分别可以表示为：

h＝g(x)＝S_g(W_gx+b_h) (1)

y＝f(x)＝S_f(W_fx+b_y) (2)

在上述公式(1)和公式(2)中，g(x)可以表示深度耦合自动编码器(其可以表示模型中的编码网络)；f(x)可以表示深度耦合自动解码器(其可以表示模型中的解码网络)；S_g和S_f分别表示相应网络的激活函数，本申请可以使用Sigmoid函数，但并不局限于这一类激活函数；W_g和W_f分别表示相应网络中的权重；b_n和b_y分别表示相应网络中的偏置量；x可以表示输入模型的骨架模态特征和光流模态特征。

对于如上编码器和解码器构成的深度耦合自动编码器模型，其在训练过程中，可以针对不同模态信息配置相应的损失函数，基于该损失函数获取相应模态特征的损失，如骨架模态损失和光流模态损失。可选的，对于这两个模态损失可以利用但并不局限于如下公式(3)和公式(4)计算得到：

在上述公式(3)和公式(4)中，字母下标符号o可以表示光流模态的相应信息；字母下标符号s可以表示骨架模态的相应信息，因此，L_o(x_o，y_o)可以表示光流模态损失函数；L_s(x_s，y_s)可以表示骨架模态损失函数，这两个损失函数可以是交叉熵损失函数，但模型训练所调用的损失函数包括但并不局限于这种交叉熵损失函数，可视情况而定，本申请实施例以此为例进行说明。依据该交叉熵损失函数的运算原理，上述公式中x^T可以对相应模态特征进行转置运算；log()可以表示对数函数。

此外，本申请还可以获取基于耦合机制得到的骨架模态编码向量与光流模态编码向量之间的差异损失，如图6所示，可以获取耦合机制下隐藏层的平方差损失，可以调用如公式(5)所示的平方差损失函数L_couple实现：

L_couple(x_o,x_s,θ₁,θ₂)＝||g_o(x_o,θ₁)-g_s(x_s,θ₂)||² (5)

在上述公式(5)中，θ₁和θ₂可以表示相应模态的编码网络的网络参数，可以在模型训练过程中调整该网络参数，以提高模型输出结果的精准度和可靠性。

基于上述分析，在每一次模型训练后，可以按照上文描述的方法，获取骨架模态损失、光流模态损失以及平方差损失，对这三部分损失进行求和，得到本次训练的总损失，之后，基于该总损失实现网络参数调整，再基于具有调整后的网络参数的深度耦合自动编码器模型继续进行学习训练，直至满足训练终止条件，如达到预设训练次数、各损失或总损失趋于平稳或达到最小值等，本申请对模型训练终止条件的内容不做限制，可视情况而定。

在一些实施例中，通常情况下，上述不同类型损失对整个模型输出结果的影响力可能不同，所以，在获取上述总损失时，可以针对不同类型损失配置对应的损失权重θ₁、θ₂、θ₃，本实施例中，该损失权重可以是相应网络的网络参数，基于此，每次模型训练计算得到的总损失L_f可以表示为：

L_f＝θ₁L_o+θ₂L_s+θ₃L_couple (6)

如上述分析，L_o可以表示光流模态损失；L_s可以表示骨架模态损失；L_couple-可以表示两个模态特征的平方差损失。可以理解，对于这三个损失各自的损失权重可以在模型训练过程不断调整，以提高模型训练效率和可靠性，且在不同应用场景下，训练得到的三个损失权重的数值可能不同。

步骤S27，利用极限学习机对多模态融合特征向量进行分类识别，得到视频数据中待处理对象的行为识别结果。

参照图7所示的分类网络结构示意图，本申请可以利用极限学习机(ExtremeLearning Machine，ELM)对融合后特征进行分类识别，由于极限学习机不需要调整网络的权重，其可以利用矩阵的伪逆运算替代了误差的反向传播，所以，使用极限学习机作为分类器(即分类网络)，其输入权重和偏置可以随机生成，且在模型训练阶段可以保持固定，无需任何迭代，这样，在保证分类器识别精度的同时，加快了上述模型训练速度，提高了深度耦合自动编码器模型训练效率。

另外，相对于其他人工神经网络只趋向于最小的训练误差，这种极限学习机最小化训练误差和输出权重的范数，从而使得网络具有更强的泛化性，提高了应用范围。

在一些实施例中，对于上述极限学习机的计算公式可以包括但并不局限于：

其中，上述公式(7)中，h_i可以表示第i个隐藏层的隐藏节点的输出；X_i可以表示输入层的第i个输入向量；W_i可以表示X_i的输入权重；β_i可以表示输出层第i个输出的输出权重；b_i可以表示偏置；r()可以表示激活函数；L可以表示隐藏层的隐藏节点的数量；N可以表示训练样本的数量。

在上述公式(8)中，H()可以表示极限学习机的隐藏层输出矩阵；公式(9)可以表示优化函数，该公式中，H和β均可以表示隐藏层的输出，T＝[t₁…t_N]^T可以表示训练集目标矩阵，由于H是可逆的，因此，可以通过公式(10)求解求解过程本申请不做详述，其中，/>可以表示矩阵H的伪逆矩阵，本申请通过引入伪逆矩阵，来降低直接计算矩阵H的逆矩阵而产生的计算量，提高行为识别效率。

参照图8，为本申请提出的多模态行为识别方法的又一可选示例的流程示意图，本实施例可以对上文实施例描述的多模态行为识别方法中，骨架模态特征的获取过程进行细化描述，但并不局限于本实施例描述的这种细化实现方法，且关于多模态行为识别方法的其他执行步骤，可以参照上文实施例相应部分的描述，本实施例不做赘述。如图8所示，该方法可以包括：

步骤S31，将骨架序列信息输入图卷积神经网络，得到视频数据中不同视频帧包含的待处理对象的关节图信息和骨骼图信息；

结合上图4所示的特征提取场景流程示意图，将某一视频帧对应的骨架序列信息输入图卷积神经网络，得到不同模态的特征图，如关节图信息(即关节点特征图)和骨骼图信息，实现过程本实施例不做详述。

步骤S32，获取关节图信息中相邻关节的关节静态位置信息，以及骨骼图像信息中相邻骨骼的骨骼静态位置信息；

结合上文实施例对本申请提出的基于多视角多流图卷积神经网络，学习骨架序列数据中不同骨骼和不同关节点之间的相互依赖关系的相关描述。本申请可以基于不同视角的不同属性特征，构建相应视角下的图卷积神经网络。示例性的，以关节视角为例，可以按照如下公式，获取不同属性特征，即上述相应视角的静态位置信息：

其中，上述公式中，m、n可以表示待处理对象骨架中相邻两个关节点；公式(11)可以表示t时刻，关节点m的静态位置信息；公式(12)可以表示t时刻，关节点n的静态位置信息；x、y和z分别表示xyz坐标系下的静态坐标值，本申请对该xyz坐标系的构建方法不做限制。

步骤S33，利用关节静态位置信息，获得相邻关节各自的关节速度和关节加速度；

步骤S34，利用骨骼静态位置信息，获得相邻骨骼各自的骨骼速度和骨骼加速度；

在一些实施例中，可以按照如下公式计算相应关节或骨骼的一阶动态速度和二阶动态加速度：

上述公式中，公式(13)和公式(14)分别表示相应关节点m和n的一阶动态信息，即相应关节点的动态速度；公式(15)和公式(16)分别表示相应关节点m和n的二阶动态信息，即相应关节点的动态加速度，计算过程本申请不做详述。

同理，对于骨骼视角也可以按照上文描述的方法获得骨骼静态位置信息、骨骼速度和骨骼加速度。在这种情况下，对于相邻骨骼节点m和n的骨骼向量可以表示为骨骼节点n相较于骨骼节点m更加靠近骨架的重心，骨骼视角的静态信息、动态信息的计算过程可以参照上文关节视角下相应信息的计算方法，本申请实施例在此不做详述。

步骤S35，对同一视频帧包含的关节静态位置信息、关节速度、关节加速度、骨骼静态位置信息、骨骼速度以及骨骼加速度进行融合处理，得到待处理对象的骨架模态特征。

如上图4所示，对于每一视频帧提取到的不同属性特征，可以通过拼接融合处理，得到相应的骨架模态特征，但并不局限于这种拼接融合处理方法，根据需要还可以针对不同属性特征配置相应的属性权重，结合该属性权重，实现多个特征的融合处理等，本申请对上述多个属性特征进行融合处理的实现方法不做限制。

参照图9，为本申请提出的多模态行为识别装置的一可选示例的结构示意图，如图9所示，该装置可以包括：

多模态信息获取模块11，用于获取视频数据中待处理对象的骨架序列信息和光流图像；

骨架模态特征提取模块12，用于对所述骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征；所述骨架模态特征能够表征所述待处理对象的不同骨骼与不同关节之间的依赖关系；

光流模态特征提取模块13，用于对所述光流图像进行特征提取，得到光流模态特征；所述光流模态特征能够表征所述待处理对象在相邻视频帧之间的动态信息；

多模态融合处理模块14，用于基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量；

行为识别模块15，用于依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果。

在一些实施例中，上述骨架模态特征提取模块12可以包括：

骨架模态特征提取单元，用于将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征；

本申请实施例中，上述多视角多流图卷积神经网络包括不同视角图卷积神经网络，以及相应视角下的多流图卷积神经网络，基于此，上述骨架模态特征提取单元可以包括：

多视角图信息提取单元，用于将所述骨架序列信息输入图卷积神经网络，得到所述视频数据中不同视频帧包含的所述待处理对象的关节图信息和骨骼图信息；

静态位置信息获取单元，用于获取所述关节图信息中相邻关节的关节静态位置信息，以及所述骨骼图像信息中相邻骨骼的骨骼静态位置信息；

关节动态信息获得单元，用于利用所述关节静态位置信息，获得所述相邻关节各自的关节速度和关节加速度；

骨骼动态信息获得单元，用于利用所述骨骼静态位置信息，获得所述相邻骨骼各自的骨骼速度和骨骼加速度；

特征融合处理单元，用于对同一视频帧包含的所述关节静态位置信息、所述关节速度、所述关节加速度、所述骨骼静态位置信息、所述骨骼速度以及所述骨骼加速度进行融合处理，得到所述待处理对象的骨架模态特征。

在又一些实施例中，上述光流模态特征提取模块13可以包括：

光流模态特征提取单元，用于将所述光流图像输入光流模态特征提取模型，输出光流模态特征；

基于上述实施例，上述多模态融合处理模块14可以包括：

多模态融合单元，用于将所述骨架模态特征和所述光流模态特征输入深度耦合自动编码器模型进行多模态融合处理，输出多模态融合特征向量；

可选的，上述行为识别模块15可以包括：

分类识别单元，用于利用极限学习机对所述多模态融合特征向量进行分类识别，得到所述视频数据中所述待处理对象的行为识别结果。

基于上文各实施例描述的装置结构，上述多模态信息获取模块11可以包括：

三维坐标数据获取单元，用于获取第一多模态传感器采集的各视频帧中待处理对象的不同关节的三维坐标数据；

骨架序列信息构建单元，用于由所述各视频帧中不同关节的所述三维坐标数据，构建所述待处理对象的骨架序列信息；

光流运算单元，用于对相邻视频帧进行光流运算，得到所述待处理对象的光流图像。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的多模态行为识别方法的各个步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。

参照图10，为适用于本申请提出的多模态行为识别方法的计算机设备的一可选示例的硬件结构示意图，如图10所示，该计算机设备可以包括：通信模块21、存储器22及处理器23，其中：

通信模块21、存储器22和处理器23的数量均可以为至少一个，且通信模块21、存储器22和处理器23均可以连接通信总线，以通过该通信总线实现相互之间的数据交互，具体实现过程可以依据具体应用场景的需求确定，本申请不做详述。

通信模块21可以包括能够利用无线通信网络实现数据交互的通信模块，如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等，该通信模块21还可以包括实现计算机设备内部组成部件之间的数据交互的通信接口，如USB接口、串/并口等，本申请对该通信模块21包含的具体内容不做限定。

在本申请实施例中，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器23，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

在本实施例实际应用中，存储器22可以用于存储实现上述任一方法实施例描述的多模态行为识别方法的程序；处理器23可以加载并执行存储器22中存储的程序，以实现本申请上述任一方法实施例提出的多模态行为识别方法的各个步骤，具体实现过程可以参照上文相应实施例相应部分的描述，不再赘述。

应该理解的是，图10所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图10所示的更多或更少的部件，或者组合某些部件，可以依据该计算机设备的产品类型确定，如该计算机设备为上文列举的终端设备，如图11所示，该计算机设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、图像采集器(如摄像头)、拾音器等至少一个设备；如显示器、扬声器等至少一个输出设备等，以及各传感器构成的传感器模组、天线、电源管理模组等，图11并未一一示出，可以依据功能需求确定，本申请在此对终端设备的组词结构不做一一列举。

参照图12，为适用于本申请提出的多模态行为识别方法的一可选应用环境的架构结构示意图，在该应用环境下，其系统架构可以包括多模态传感器31以及计算机设备32，其中：

多模态传感器31可以包括但并不局限于上文列举的Kinect v2传感器，用于捕捉相应模态信息，可以理解，对于不同模态信息获取需求，可以配置相应的模态传感器，以实现相应模态信息的捕捉，实现过程本申请不做一一详述。

计算机设备32的组成结构可以参照但并不局限于上文计算机设备实施例的描述，本申请不做赘述。在实际应用中，在计算机设备32为服务器的情况下，多模态传感器31可以将采集到的模态信息直接，或通过其他终端设备的通信功能转发至服务器，由服务器按照上文方法实施例描述的多模态行为识别方法，实现对视频中待处理对象的行为识别，将行为识别结果反馈至该终端设备或预设终端输出，或满足后续应用需求，如执行目标姿态对应的应用操作等。

在计算机设备32为终端设备的情况下，多模态传感器可以集成在终端设备中，也可以独立于该终端设备，将捕捉到的模态信息发送至终端设备，执行本申请提出的多模态行为识别方法，满足当前应用的高精准度的行为识别需求。

可以理解，对于上述系统架构的组成并不局限于图12所示的对本申请实施例提出的系统架构的限定，在实际应用中，该系统还可以包括比图12所示更多的设备或组合设备，如数据库等，本申请不做一一列举。

最后，需要说明的是，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备、系统而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态行为识别方法，其特征在于，所述方法包括：

获取视频数据中待处理对象的骨架序列信息和光流图像；

基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量；所述基于耦合机制，对所述骨架模态特征和所述光流模态特征进行编码融合处理，得到多模态融合特征向量，包括：将所述骨架模态特征和所述光流模态特征输入深度耦合自动编码器模型进行多模态融合处理，输出多模态融合特征向量；其中，在所述深度耦合自动编码器模型的训练过程中，基于骨架模态损失、光流模态损失以及平方差损失的总损失，实现网络参数调整；所述平方差损失是指基于耦合机制得到的骨架模态编码向量与光流模态编码向量之间的差异损失；

依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果；所述对所述骨架序列信息进行静态特征和动态特征提取，得到骨架模态特征，包括：

将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征；其中，所述骨架模态特征提取模型基于多视角多流图卷积神经网络训练得到，以学习样本对象的不同骨骼与不同关节之间的依赖关系；所述多视角包括骨骼视角和关节视角；所述多流包括不同视角下的静态信息和动态信息；

所述多视角多流图卷积神经网络包括不同视角图卷积神经网络，以及相应视角下的多流图卷积神经网络，所述将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述光流图像进行特征提取，得到光流模态特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取视频数据中待处理对象的骨架序列信息和光流图像，包括：

5.一种多模态行为识别装置，其特征在于，所述装置包括：

行为识别模块，用于依据所述多模态融合特征向量，获得所述视频数据中所述待处理对象的行为识别结果；

所述骨架模态特征提取模块，包括：

骨架模态特征提取单元，用于将所述骨架序列信息输入骨架模态特征提取模型，输出骨架模态特征；其中，所述骨架模态特征提取模型基于多视角多流图卷积神经网络训练得到，以学习样本对象的不同骨骼与不同关节之间的依赖关系；所述多视角包括骨骼视角和关节视角；所述多流包括不同视角下的静态信息和动态信息；

所述多视角多流图卷积神经网络包括不同视角图卷积神经网络，以及相应视角下的多流图卷积神经网络，所述骨架模态特征提取单元，包括：

特征融合处理单元，用于对同一视频帧包含的所述关节静态位置信息、所述关节速度、所述关节加速度、所述骨骼静态位置信息、所述骨骼速度以及所述骨骼加速度进行融合处理，得到所述待处理对象的骨架模态特征；

所述多模态融合处理模块，包括：

多模态融合单元，用于将所述骨架模态特征和所述光流模态特征输入深度耦合自动编码器模型进行多模态融合处理，输出多模态融合特征向量；其中，在所述深度耦合自动编码器模型的训练过程中，基于骨架模态损失、光流模态损失以及平方差损失的总损失，实现网络参数调整；所述平方差损失是指基于耦合机制得到的骨架模态编码向量与光流模态编码向量之间的差异损失。

6.一种计算机设备，其特征在于，所述计算机设备包括：

通信模块；

存储器，用于存储实现如权利要求1-5任一项所述的多模态行为识别方法的程序；

处理器，用于加载执行所述存储器存储的程序，以实现如权利要求1-5任一项所述的多模态行为识别方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征碍于，所述计算机程序被处理器加载执行，实现如权利要求1-5任一项所述的多模态行为识别方法。