CN115862152A

CN115862152A - 基于多层感知机的轻量化人体骨骼交互行为推理网络结构

Info

Publication number: CN115862152A
Application number: CN202310128147.8A
Authority: CN
Inventors: 王程; 陈哲; 董丽芳; 胡顺顺
Original assignee: Shanxi Qingzhong Technology Co ltd
Current assignee: Shanxi Qingzhong Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-03-28
Anticipated expiration: 2043-02-17
Also published as: CN115862152B

Abstract

本发明提供了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构，属于行为识别技术领域；解决了视频中人体行为识别难以正确分辨参与者之间的复杂关系、计算量大的问题；包括：模块1：双人交互行为信息特征提取器，模块2：单人行为信息特征提取器，模块3：基于TRN/LSTM的时序分类器：将模块1和模块2的数据进行合理拼接整合，并计算各时间段内的交互双方间的平均距离信息，将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别，分类器采用多时段的RNs进行推理验证，最终得到学习推理后的分类结果；模块4：注意力模块：依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算；本发明应用于视频中交互行为识别。

Description

基于多层感知机的轻量化人体骨骼交互行为推理网络结构

技术领域

本发明提供了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构，属于计算机技术的深度学习、模式识别、人体交互行为识别技术领域。

背景技术

视频中人类交互（相互行为）的识别是一项异常重要的计算机视觉任务，它可以帮助我们为监控、机器人、人机界面、基于内容的检索等一系列应用开发提供解决方案。特别是，人类交互识别是视频理解的关键组成部分，也是不可或缺的，因为它经常在真实视频中被观察到。虽然在过去的几十年里已经有了许多作品，但这仍然是一个具有挑战性的问题，特别是当视频提供非常规的条件时，例如不寻常的视角和杂乱的背景。视频中的人类行为识别是人类活动分析的一个重要研究分支，并已提出了许多行为识别的方法。目前该领域的解决方案通常由复杂的体系结构和机制（主要由CNN、GCNs和LSTM主导）组成，且由于对视频的计算花销远超图片的计算花销，因此在移动设备上的应用受到限制。此外在不同的环境或者视频角度变动的情况下，也会对行为识别产生较大的干扰。

人类交互识别困难的主要原因是，我们需要同时考虑人们的单个行为和共生的单体活动，以理解参与者之间的复杂关系。这项任务成功的关键是如何提取能够有效捕捉每个人在空间和时间上的运动特征的区别性特征。一般的方法是视频的隐式表示，例如基于词袋（BOW）的模型。BOW方法通过对时空图像块特征进行聚类来描述整个帧，这些特征是从兴趣点、预设属性或视频的关键姿势中提取的。在最近的研究中，基于深度神经网络的视频分类方法，如3D卷积神经网络(CNN)、双流CNN或多流CNN，在视频表示方面显示了良好的结果。这种方法的一个优点是，表示对于关键点提取失败是健壮的，因为它是组成整个图像的像素的整体分布，而不是特定点。然而，这种方法缺乏高级信息，这可能是理解人类行为的关键属性。

与单纯的单一动作或关注多个对象之间关系的群体活动不同，人类交互行为既包括个人动作，也包括关系，两者同等重要。作用对象直接影响相互作用的对象，反应取决于作用对象的个体运动。在互动的情况下，细微的差异，例如每个人的身体部位如何与其他人的身体部位互动，可以改变活动类别。

此外，针对视频的人体行为识别，已存在各种各样的神经网络框架，效果有好有坏，但都为该方向的发展推进提供了足够的主力，然而不可否认的是当下主流的框架在处理视频信息时其计算量庞大、检测速度慢等效率问题也逐渐成为诟病的中心。

发明内容

本发明为了解决以下问题：1.视频中人体行为识别，既要考虑单人行为信息，同时也要考虑交互双方的互动信息，当前现有方法难以正确分辨参与者之间的复杂关系；2.在计算量方面，视频具有丰富的可训练信息，这虽然保证了信息的充分，但也导致了计算量指数性质的上升，存在实时性、时效性不足等问题；3.视频中交互双方的站位与拍摄视角的不同，同样会对视频中的行为识别产生较大的影响。因此，提出了一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构。

为了解决上述技术问题，本发明采用的技术方案为：一种基于多层感知机的轻量化人体骨骼交互行为推理网络结构，包括多GPU服务器，所述多GPU服务器上设置有多个处理器、显卡和显存，所述多GPU服务器上搭载有基于多层感知机的轻量化人体骨骼交互行为推理网络的计算机程序，所述处理器用于执行上述轻量化人体骨骼交互行为推理网络的程序，所述轻量化人体骨骼交互行为推理网络包括：

模块1：双人交互行为信息特征提取器：包含多个小型数据流，分别处理交互双方的各肢体部位的交互行为信息，求和取平均处理后进行拼接并通过MLP实现数据的再编码；

模块2：单人行为信息特征提取器：包含两种相似的数据流，分别是交互双方每个行为人的整体姿势信息，身体的各部位按照特定的顺序进行拼接，经过多层感知机进行特征编码与认知，形成双方行为信息的新表征，继而进行求和操作，得到单人行为信息；

模块3：基于TRN/LSTM的时序分类器：将模块1和模块2的数据进行合理拼接整合，并计算各时间段内的交互双方间的平均距离信息，将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别，分类器采用多时段的RNs进行推理验证，最终得到学习推理后的分类结果；

模块4：注意力模块：依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算。

所述交互双方的各肢体部位具体划分为：头、身、左手臂、右手臂、左脚腿、右脚腿部位，每个人的每个部位不仅能与另一人的相同部位交互，还能与另一人的其他部位进行交互，并对同部位交互赋予较大的权重，异部位交互根据交互部位的运动激烈程度进行权重的调整，交互双方的各部位的行为信息由关节速度、关节角度组成。

所述双人交互行为信息特征提取器包含两层MLP，以及一层平均池化层，所有交互部位能够共用一个大的MLP，或者每对部位独享一个MLP。

所述单人行为信息特征提取器包含两层MLP，以及一层平均池化层。

在活动的每个时间段内，依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算；

在活动的每个时间段内，依据交互的双方活动量的剧烈程度，将两方的特征权重重新分配，以达到注意力的机制；

将每个独立运动划分为多段短时序信息，每段包含一定的信息量，采用正态分布形式的随机值给予各段初始权重，采用活动量计算方式得到数据潜藏权重，两种权重互相补充，相互配合，计算得出各段应有的权重。

依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算的公式如下：

；

上式中，p_l表示交互部位中的一方，p_r表示交互部位的另一方，A_i表示第i个交互对的注意力权重。

双人交互行为中，当单个人作为整体时，交互双方不同的运动状态同样具有不同的可参考意义，在活动的每个时间段内，依据交互的双方活动量的剧烈程度，将两方的特征权重重新分配，以达到注意力的机制的计算公式如下：

；

上式中：PA_i表示第i个人总特征权重值，i表示第i个人，S_i表示单人速度信息，PS_i表示第i人速度权重，S_part表示第i个人某部位速度。

将每个独立运动划分为多段短时序信息，每段包含一定的信息量，每段的重要程度随时间的递进先增加后下降，活动的中间段是活动可参考性最大的段；采用正态分布形式的随机值给予各段初始权重，采用活动量计算方式得到数据潜藏权重，两种权重互相补充，相互配合，计算得出各段应有的权重，上述过程的计算公式如下：

；

上式中：x_j表示第j段短时序对应的分布值，x表示短时序对应的分布值的集合，j表示第j段短时序信息，Vol_j表示第j段短时序信息的权重值。

本发明相对于现有技术具备的有益效果为：本发明提供的基于多层感知机的轻量化人体骨骼交互行为推理网络借助人体骨架信息，采用最少的先验知识，驱动网络自己对肢体行为编码。通过将视频进行分段，每段作为计算的最小单位以降低计算量。融合独立的个体姿势全局信息、各肢体部位的局部交互信息和在时间维度上变化的距离信息，三者信息经过TRN/LSTM耦合，并将时序变化切入网络特征中，进行识别分类。此方法相较于以往同类型方法在理论上更轻量，抗干扰性更强，能够对不同环境下的不同视角的交互行为进行识别。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明网络搭载的服务器结构示意图；

图2为本发明网络的整体结构示意图；

图3为本发明双人交互行为信息特征提取器的结构示意图；

图4为本发明单人行为信息特征提取器的结构示意图。

具体实施方式

本发明提出的基于多层感知机的轻量化人体骨骼交互行为推理网络均部署在一个多GPU的服务器上，如图1所示，该服务器配备了四个内核数为16的英特尔至强E5-2683V4处理器，内存大小为512GB；配备了8块英伟达GTX2080的显卡（GPU），共88GB显存。服务器运行在CentOS 7.7.1908的操作系统上。使用的编程语言为Python，涉及的深度学习平台是Pytorch。

本发明提出的基于多层感知机的轻量化人体骨骼交互行为推理网络的结构如图2所示，包括以下模块：

模块1：双人交互行为信息特征提取器

为了解决交互双方互动信息的各部位特征提取问题，本发明提出了一种双人交互行为信息特征提取器。

在人体交互行为中，双方各肢体部位的交互部分应是非常重要的识别信息。例如，握手行为中，双方右手靠近；推搡行为中，一方双手触碰另一方躯体。本发明将人体区分为头、身、左手臂、右手臂、左脚腿、右脚腿等部位。每个人的每个部位不仅能与另一人的相同部位交互，还能与另一人的其他部位进行交互。由于人的自然习惯性，同部位交互是最常见的交互，应该给予较大的权重。相较而言，异部位交互则不如同部位重要，但仍不可否认异部位交互的重要性，所以应对部位交互的运动激烈程度进行权重调整。

交互双方的各部位的行为信息由关节速度、关节角度等组成，相对于像素或坐标数据而言，角度与速度同样具有卷积网络得特性——平移不变性，能够有效降低数据量且保持数据的相对完整性。各部位的数据经过多层感知机进行编码处理后，得到数据的较高维信息。在数据量与参数设置合适的情况下，理论上能够自动达到词袋模型（BoW）所达到的效果，而不需要手工操作进行聚类等操作。在交互行为中，交互双方的顺序也具有极其重要的意义，不同的交互顺序可能对模型内部的参数具有不同的影响，因此本发明采用求和取平均的方式解决该问题。虽然此行为会使处理后的数据特征增大解空间，损失部分可信性，但却能刨除交互双方的前后顺序，不需要考虑谁是交互发起方、谁是交互被动方这一难缠问题。各部位信息经过处理后进行拼接，生成该模块最终的双人交互行为信息的特征数据。

双人交互行为信息特征提取器的网络结构图如图3所示，包含多个小型数据流，分别处理交互双方的各肢体部位的交互行为信息，求和取平均处理后进行拼接并通过MLP实现数据的再编码。本模块包含两大层MLP，以及一层平均池化层。两种方式：1.共用一个大的MLP。2.每对部位独享一个MLP。看效果决定。

模块2：单人行为信息特征提取器

为了解决交互活动中难以正确分辨双方复杂关系的问题，本发明提出了一种单人行为信息特征提取器。

在人体行为交互状态下，将每个人作为独立的个体进行描述，也具有非常重要的信息。比如在推搡活动中，一人做出前推动作，另一人做出后退动作等。不同的交互活动中，双方的行为同样具有不同的描述信息。对人体行为交互识别同样具有非常明确的信息，可以与肢体部位间的信息互相补充，增加识别的准确率。

单人信息由每个人的各肢体部位信息按照一定顺序进行拼接，经过共享参数的多层感知机编码处理，生成具有可分辨性的较高维特征信息。此外，在该模块中同样采用了模块1中提到的求和取均值的方法，用以刨除交互双方间的复杂顺序问题。使得网络不需要通过冗余输入数据而解决交互双方的前后顺序问题。这种求和取均值的方法能够接近共现矩阵的效果，且不存在共现矩阵的系数问题。能够有效加强数据的分辨性，且能够由网络自己对单人行为信息进行重塑。

单人行为信息特征提取器的网络结构如图4所示，包含两种相似的数据流。分别是交互双方每个行为人的整体姿势信息。身体的各部位按照特定的顺序进行拼接，经过多层感知机进行特征编码与认知，形成双方行为信息的新表征，继而进行求和操作，得到单人行为信息。本模块包含两大层MLP，以及一层平均池化层。

模块3：基于TRN/LSTM的时序分类器

为解决交互活动中时间序列上的分类识别问题，本发明使用了一种基于TRN/LSTM的时序分类器。

该模块为分类识别模块，负责将前两个模块的数据进行合理拼接整合，并计算各时间段内的交互双方间的平均距离信息。将上述的所有信息送入特定的TRN/LSTM的时序分类器进行分类识别，分类器采用多时段的RNs进行推理验证，最终得到学习推理后的分类结果。

模块4：注意力模块

在双人交互行为中，不同的交互行为中，占主导地位的肢体交互不同。在握手行为中，双方的右手交互具有决定性的意义；而在踢踹等行为中，右脚与躯体得交互显然更具有参考意义。由此本发明提出双人交互注意力机制：依据交互行为中各部位的交互速度、交互距离等信息进行注意力权重计算。其计算公式如下：

。

双人交互行为中，当单个人作为整体时，交互双方不同的运动状态同样具有不同的可参考意义。在握手行为中，双方具有同等的重要性，但若在推倒交互中，推的一方在活动的前端占主导地位，而在活动的后半段时间内却由另一方占据主要的活动。本发明由此提出一种单人行为自适应调整的注意力机制：在活动的每个时间段内，依据交互的双方活动量的剧烈程度，将两方的特征权重重新分配，以达到注意力的机制。其计算公式如下：

。

本发明将每个独立运动划分为多段短时序信息，每段包含一定的信息量，此操作能够降低计算量的同时保持信息的完整性。从直觉上来说，每段的重要程度随时间的递进先增加后下降，活动的中间段是活动可参考性最大的段。受此启发，采用正态分布形式的随机值给予各段初始权重。此外，还应尊重实际数据所体现的潜在规律，采用前述的活动量计算方式得到数据潜藏权重。两种权重互相补充，相互配合，计算得出各段应有的权重。其计算公式如下：

。

三种注意力机制互相补充配合，在分辨哪个时间段重要的同时，对交互的双方进行重点人物重点关注，时刻聚焦交互最密切的肢体部位，最终能够实现类人的注意力。

关于本发明具体结构需要说明的是，本发明采用的各部件模块相互之间的连接关系是确定的、可实现的，除实施例中特殊说明的以外，其特定的连接关系可以带来相应的技术效果，并基于不依赖相应软件程序执行的前提下，解决本发明提出的技术问题，本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及，由上述技术特征带来的常规使用方法、可预期技术效果，除具体说明的以外，均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容，或属于本领域常规技术、公知常识等现有技术，无需赘述，使得本案提供的技术方案是清楚、完整、可实现的，并能根据该技术手段重现或获得相应的实体产品。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：包括多GPU服务器，所述多GPU服务器上设置有多个处理器、显卡和显存，所述多GPU服务器上搭载有基于多层感知机的轻量化人体骨骼交互行为推理网络的计算机程序，所述处理器用于执行上述轻量化人体骨骼交互行为推理网络的计算机程序，所述轻量化人体骨骼交互行为推理网络包括：

2.根据权利要求1所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：所述交互双方的各肢体部位具体划分为：头、身、左手臂、右手臂、左脚腿、右脚腿部位，每个人的每个部位不仅能与另一人的相同部位交互，还能与另一人的其他部位进行交互，并对同部位交互赋予较大的权重，异部位交互根据交互部位的运动激烈程度进行权重的调整，交互双方的各部位的行为信息由关节速度、关节角度组成。

3.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：所述双人交互行为信息特征提取器包含两层MLP，以及一层平均池化层，所有交互部位能够共用一个大的MLP，或者每对部位独享一个MLP。

4.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：所述单人行为信息特征提取器包含两层MLP，以及一层平均池化层。

5.根据权利要求2所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：在活动的每个时间段内，依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算；

6.根据权利要求5所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：依据交互行为中各部位的交互速度、交互距离信息进行注意力权重计算的公式如下：

；

7.根据权利要求6所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：双人交互行为中，当单个人作为整体时，交互双方不同的运动状态同样具有不同的可参考意义，在活动的每个时间段内，依据交互的双方活动量的剧烈程度，将两方的特征权重重新分配，以达到注意力的机制的计算公式如下：

；

8.根据权利要求7所述的基于多层感知机的轻量化人体骨骼交互行为推理网络结构，其特征在于：将每个独立运动划分为多段短时序信息，每段包含一定的信息量，每段的重要程度随时间的递进先增加后下降，活动的中间段是活动可参考性最大的段；采用正态分布形式的随机值给予各段初始权重，采用活动量计算方式得到数据潜藏权重，两种权重互相补充，相互配合，计算得出各段应有的权重，上述过程的计算公式如下：

；