CN115527269B

CN115527269B - 一种人体姿态图像智能识别方法及系统

Info

Publication number: CN115527269B
Application number: CN202211232052.2A
Authority: CN
Inventors: 葛杰; 郭保琪; 谭建昌; 宗绪麟; 胡若彤; 周永星; 朱静朝; 吕利涛
Original assignee: Dynamic Freedom Beijing Technology Co ltd
Current assignee: Dynamic Freedom Beijing Technology Co ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-05-16
Anticipated expiration: 2042-10-10
Also published as: CN115527269A

Abstract

本发明公开了一种人体姿态图像智能识别方法及系统，其中方法包括元学习样本预处理：将人体动作采集公开数据集作为预训练数据集，并对预训练数据集中的人体姿态图像进行预处理；元学习模型构建：构建姿态动作识别模型来计算两个动作样本之间的距离，分析匹配程度；元学习模型训练：使用预处理后的人体姿态图像来训练姿态动作识别模型，识别出难以区分的类别记为难样本；使用难样本作为输入再次训练；目标姿态动作学习和识别：使用训练后的姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作。本发明通过多任务学习让姿态动作识别模型具备运动姿态的通用学习能力，只需要学习少量的标注样本就能识别新类别的动作姿态。

Description

一种人体姿态图像智能识别方法及系统

技术领域

本发明涉及图像识别技术领域，尤其涉及一种人体姿态图像智能识别方法及系统。

背景技术

目前运动姿态识别的专家标记样本少，标记成本高，要识别的动作姿态接近时不易区分，且存在使用中动态增加等问题。

中国发明专利CN112101184B(申请号：CN202010950803.9)公开了一种基于半监督学习的无线跨域动作识别方法，根据人体动作对无线信号产生影响的原理，从WiFi信号的CSI数据中提取各子载波的幅值信息进行动作识别。为了解决不易获得大量标注数据的问题，该发明只对少量动作样本标注真实动作标签，然后通过DTW算法计算无标签样本与带标签样本之间的相似度，为无标签样本贴上伪标签，从而扩大训练样本集。为增加动作识别模型的泛化性，实现不同位置或不同人动作识别，该发明提出分类和聚类综合模型，建立SOM网络对动作样本进行聚类，结合分类和聚类的结果对样本进行最终分类。

中国发明专利申请CN113642457A(申请号：CN202110923074.2)公开了一种基于对抗式元学习的跨场景人体动作识别方法，首先使用无线收发信号设备采集人体动作CSI信号，然后采用离散小波滤波技术处理原始信号并使用阈值分割方法获得CSI样本，构建元学习任务集；再使用上述任务集来依次训练特征提取器模块、生成器模块、鉴别器模块和人体动作识别模块，得到一个基本对抗式元模型；最后在新场景中采集少量数据来微调模型参数，使其可以更好地适应于识别新的动作种类。

以上专利或专利申请存在使用的信号数据只能直接获取一维信息，难以直接获取二维信息、人体动作识别能力不高等问题。

发明内容

为了解决上述问题，本发明提出一种人体姿态图像智能识别方法及系统，通过多任务学习让姿态动作识别模型具备运动姿态的通用学习能力，能够区分两种动作姿态是否属于同一类别，之后只需要学习少量的标注样本就能识别新类别的动作姿态。

本发明采用的技术方案如下：

一种人体姿态图像智能识别方法，包括：

元学习样本预处理：将人体动作采集公开数据集作为预训练数据集，并对所述预训练数据集中的人体姿态图像进行预处理，所述预处理包括裁剪、翻转、旋转和数据增强；

元学习模型构建：构建姿态动作识别模型来计算两个动作样本之间的距离，分析匹配程度；所述姿态动作识别模型包括嵌入模块和关系模块，所述嵌入模块用于计算成对动作样本的特征图，并将得到的特征图在通道深度维度上进行串联组合操作，所述关系模块基于特征图计算成对动作样本属于同一类别的概率，记为相似关系分数；

元学习模型训练：使用所述预训练数据集中预处理后的人体姿态图像来训练所述姿态动作识别模型，然后用所述姿态动作识别模型识别出难以区分的类别，即相似关系分数高的类别，记为难样本；使用所述难样本作为输入，再次训练所述姿态动作识别模型，以区分之前难以区分的类别；

目标姿态动作学习和识别：使用训练后的所述姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作；所述支持集为待识别的动作分类图像，每一类包括少量标记样本，所述查询集为待识别的人体姿态图像。

进一步地，所述元学习模型构建包括以下步骤：

S201.使用Openpose人体姿态识别模型识别出目标人物的若干个关节点；

S202.获取每个关节点的特征，并获取每个关节点与其邻近两个关节点形成的三角形基元的特征，并使用串联组合操作将这些特征进行组合；

S203.使用MLP即多层感知机网络挖掘以上特征的深度特征；

S204.将所有关节点特征通过最大池化层组合，得到人体姿态图像的特征表示，再基于特征表示计算成对动作样本属于同一类别的概率，从而得到相似关系分数。

进一步地，所述相似关系分数的计算方法包括：

式中，Score_i,j指样本i与样本j之间的相似关系分数，

指经过嵌入模块处理后得到的特征映射，Comb指串联组合操作，

指经过关系模块处理。

进一步地，所述元学习模型训练包括以下步骤：

S301.对所述预训练数据集使用Openpose人体姿态识别模型得到关节点图；

S302.对所述预训练数据集通过小样本学习方法的n-way k-shot方式归类划分，得到动作元学习的任务集，每个任务是采样两张图片并利用所述姿态动作识别模型识别是否归属同一类别；初始化所述姿态动作识别模型参数

S303.计算目标损失函数

使得所有任务的总的损失最小，其中N指小任务的个数，

指网络参数学习到第n个小任务时的参数，lⁿ指以

为参数的小任务n的损失函数；

S304.将训练好的姿态动作识别模型作为难样本选择器，选择出难以区分的类别即难样本；

S305.将难样本作为输入再次执行步骤S301～S303，重新训练得到一个姿态动作识别模型，新模型参数的初始化为步骤S303更新结束后对应模型的参数；

S306.保存最终输出的姿态动作识别模型。

进一步地，步骤S303包括以下子步骤：

S3031.随机采样一个任务n，得到该任务中每对样本的相似关系分数；

S3032.进行多次梯度下降和反向参数更新，得到该任务下的优化参数θⁿ；

S3033.利用θⁿ的方向来更新参数

到

S3034.采样新任务，循环步骤S3031～S3033，直到无新任务或误差低于预设值为止。

进一步地，所述目标姿态动作学习和识别包括以下步骤：

S401.建立支持集特征库；

S402.对支持集特征库的每个目标类别中所有样本的嵌入向量进行平均，并进行归一化，得到目标类别的代表向量；

S403.将每个目标类别的代表向量转置后放入softmax函数的权值矩阵W的每一行，作为权值向量的初始值；

S404.利用交叉熵对权值矩阵W进行微调；

S405.将待识别的查询样本经过预处理和提取关节点特征后，将特征输入所述姿态动作识别模型，得到查询样本的特征向量x，再利用微调好的权值矩阵W和Softmax预测头来预测查询样本所属类别。

进一步地，步骤S401包括以下子步骤：

S4011.使用Openpose人体姿态识别模型得到关节点图，再处理得到支持集的关节点特征图集；

S4012.将支持集关节点特征图集输入到所述姿态动作识别模型的嵌入模块，得到关节点特征图集的特征向量集合；

S4013.将类别作为索引建立支持集特征库。

进一步地，步骤S404包括以下子步骤：

S4041.在支持集中任取一张图片；

S4042.从支持集特征库中检索到该图片的嵌入特征向量x；

S4043.利用p＝softmax(Wx+b)计算预测的概率分布，其中b为偏置；

S4044.利用该图片的标注计算实际的one-hot向量；

S4045.计算实际和预测的概率分布的交叉熵CrossEntropy(x)；

S4046.利用概率分布p计算熵正则化指标-p(x)log(p(x))，使得输出的概率不确定度减小；

S4047.求解最优化问题：

找到使得所有样本交叉熵最小的权值矩阵W。

进一步地，所述元学习样本预处理中，所述裁剪的方法包括：通过Yolov5算法检测目标人物，并裁剪出目标人物；所述数据增强的方法包括Cutout增强，所述Cutout增强将随机生成一个方形区域，此方形区域允许在图片外，而生成在掩码内的像素值则为零。

一种人体姿态图像智能识别系统，包括：

元学习样本预处理模块，用于将人体动作采集公开数据集作为预训练数据集，并对所述预训练数据集中的人体姿态图像进行预处理，所述预处理包括裁剪、翻转、旋转和数据增强；

元学习模型构建模块，用于构建姿态动作识别模型来计算两个动作样本之间的距离，分析匹配程度；所述姿态动作识别模型包括嵌入模块和关系模块，所述嵌入模块用于计算成对动作样本的特征图，并将得到的特征图在通道深度维度上进行串联组合操作，所述关系模块基于特征图计算成对动作样本属于同一类别的概率，记为相似关系分数；

元学习模型训练模块，用于使用所述预训练数据集中预处理后的人体姿态图像来训练所述姿态动作识别模型，然后用所述姿态动作识别模型识别出难以区分的类别，即相似关系分数高的类别，记为难样本；使用所述难样本作为输入，再次训练所述姿态动作识别模型，以区分之前难以区分的类别；

目标姿态动作学习和识别模块，用于使用训练后的所述姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作；所述支持集为待识别的动作分类图像，每一类包括少量标记样本，所述查询集为待识别的人体姿态图像。

本发明的有益效果在于：

本发明通过多任务学习让姿态动作识别模型具备运动姿态的通用学习能力，能够区分两种动作姿态是否属于同一类别，之后只需要学习少量的标注样本就能识别新类别的动作姿态。随着使用范围扩大，新的类别不断加入，本发明可以保持元学习模型即姿态动作识别模型不变，只需要根据新加入的支持集微调预测头模型权值矩阵，计算量比目前流行的深度学习方法大幅度降低，易于推广落地使用。

相比于现有技术，本发明使用的图像数据可以直接获取二维信息，此外本发明的识别模型是针对人体动作识别构建的，其模型训练框架以及特征提取模型都能提高本技术的细粒度识别能力，使得本发明能更有效的区分动作幅度差别较小的健康动作。

附图说明

图1本发明实施例1的人体姿态图像智能识别方法流程图之一。

图2本发明实施例1的人体姿态图像智能识别方法流程图之二。

图3本发明实施例1的姿态动作识别模型架构图。

图4本发明实施例1的嵌入模块架构图。

图5本发明实施例1中点p的特征三角形示意图。

图6本发明实施例1中元学习的模型参数梯度更新示意图。

图7本发明实施例1中Softmax预测头结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，本实施例提供了一种人体姿态图像智能识别方法，包括元学习样本预处理、元学习模型构建、元学习模型训练和目标姿态动作学习和识别共4个步骤，通过构建多任务训练，使得元学习模型具备通用的动作姿态识别的学习能力，详细说明如下。

一、元学习样本预处理

为了使模型在动作识别数据上能够快速拟合收敛，本实施例基于人体动作采集公开数据集(例如NTU-RGBD数据集)进行预训练，也就是将该人体动作采集公开数据集作为预训练数据集。为使得模型识别效果更好，本实施例对预训练数据集做了如下预处理：

裁剪：由于采集的图片可能会出现多人或者无关物品的干扰，所以需要裁剪出照片中的目标人物。优选地，本实施例通过Yolov5算法检测目标人物，并裁剪出目标人物。

翻转、旋转：由于输入的查询集样本有正面、背面、左侧面和右侧面，为使得识别模型具有更好的鲁棒性，本实施例将预训练样本进行水平翻转与旋转操作。

数据增强：本实施例采用Cutout增强，Cutout增强将随机生成一个方形区域，此方形区域允许在图片外，而生成在掩码内的像素值则为零。

二、元学习模型构建

由于本实施例中被用于识别目标对象动作的类别，不同类别之间只有角度以及关节点之间的距离有差异，所以本实施例更注重细粒度视觉识别。

由于标注样本少，并且动作类别之间较相似，为了能更好的对动作进行评估，本实施例构建了PoseRelationNets姿态动作识别模型，通过神经网络来计算两个动作样本之间的距离，分析匹配程度。该阶段并不需要学习具体的动作识别，而是要学习这种对差异不大的动作的区分能力和通用的动作学习能力。

姿态动作识别模型的输入为一对图像样本，输出为两者间相似关系分数，得分越大说明两者越接近。如图3所示，姿态动作识别模型包括嵌入模块和关系模块，嵌入模块用于计算成对动作样本的特征图，并将得到的特征图在通道深度维度上进行串联组合操作，关系模块基于特征图计算成对动作样本属于同一类别的概率，记为相似关系分数。相似关系分数的计算可以表示为：

式中，Score_i,j指样本i与样本j之间的相似关系分数，

指关系模块。

如图4所示为嵌入模块示意图，由于目标人物动作评估主要在于关节之间的角度是否在规定范围内，为防止衣服等物品对动作评估造成干扰，所以本实施例使用表征目标人物动作特征的关节点特征图。

优选地，元学习模型构建具体包括以下步骤：

S202.获取每个关节点的特征，并获取每个关节点与其邻近两个关节点形成的三角形基元的特征，以获取尽可能多的有效特征。如图5所示，人体关节点之间的角度以及距离都会对动作评估产生影响，所以对点p选取的特征有p_x(点p的横坐标)、p_y(点p的纵坐标)，边e₁、e₂、e₃，角∠mpq、∠pmq、∠mqp，并使用Comb串联组合操作将这些特征组合。

S203.使用MLP即多层感知机网络挖掘以上特征的深度特征，经过以上操作将会得到每个关节点的特征表示，其公式如下所示：

v_p＝MLP(Comb(p_x、p_y，e₁、e₂、e₃、∠mpq、∠pmq、∠mqp))

上式v_p表示点p的特征向量。

S204.将所有关节点特征通过最大池化层组合，最大池化层不仅可以提升模型的尺度不变性，还可以降低信息冗余。组合后得到人体姿态图像的特征表示，再基于特征表示计算成对动作样本属于同一类别的概率，从而得到相似关系分数。

三、元学习模型训练

首先使用预训练数据集中预处理后的人体姿态图像来训练姿态动作识别模型，然后用姿态动作识别模型识别出难以区分的类别，即相似关系分数高的类别，记为难样本；使用难样本作为输入，再次训练姿态动作识别模型，以区分之前难以区分的类别，从而对动作评估有更好的效果。

优选地，元学习模型训练具体包括以下步骤：

S301.对预训练数据集使用Openpose人体姿态识别模型得到关节点图；

S302.对预训练数据集通过小样本学习方法的n-way k-shot方式归类划分，得到动作元学习的任务集，每个任务是采样两张图片并利用姿态动作识别模型识别是否归属同一类别；初始化姿态动作识别模型参数

S303.计算目标损失函数

使得所有任务的总的损失最小，其中N指小任务的个数，

指网络参数学习到第n个小任务时的参数，lⁿ指以

为参数的小任务n的损失函数；

S306.保存最终输出的姿态动作识别模型。

更为优选地，如图6所示，步骤S303包括以下子步骤：

S3033.利用θⁿ的方向来更新参数

到

四、目标姿态动作学习和识别

使用训练后的姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作。在元学习的模式下，本实施例只需要少量标注的支持集就能学习目标姿态动作的识别。其中，支持集为待识别的动作分类图像，每一类包括少量标记样本，查询集为待识别的人体姿态图像。支持集和查询集都需要按照上述元学习样本预处理方法进行目标任务的提取和分割。

优选地，目标姿态动作学习和识别具体包括以下步骤：

S401.建立支持集特征库；

S403.将每个目标类别的代表向量转置后放入softmax函数的权值矩阵W的每一行，作为权值向量的初始值。如图7所示，由于softmax计算的概率分布向量p中的每个值是由x和每个类代表向量的内积，所以这种处置方式能够近似表征x与类代表向量的相似度。

S404.利用交叉熵对权值矩阵W进行微调；

S405.将待识别的查询样本经过预处理和提取关节点特征后，将特征输入姿态动作识别模型，得到查询样本的特征向量x，再利用微调好的权值矩阵W和Softmax预测头来预测查询样本所属类别。

更为优选地，步骤S401包括以下子步骤：

S4012.将支持集关节点特征图集输入到姿态动作识别模型的嵌入模块，得到关节点特征图集的特征向量集合；

S4013.将类别作为索引建立支持集特征库。

更为优选地，步骤S404包括以下子步骤：

S4041.在支持集中任取一张图片；

S4042.从支持集特征库中检索到该图片的嵌入特征向量x；

S4043.利用p＝softmax(Wx+b)计算预测的概率分布，其中b为偏置；

S4044.利用该图片的标注计算实际的one-hot向量；

S4045.计算实际和预测的概率分布的交叉熵CrossEntropy(x)；

S4047.求解最优化问题：

找到使得所有样本交叉熵最小的权值矩阵W。

随着使用范围扩大，新的类别不断加入，本实施例的方法可以保持元学习模型即姿态动作识别模型不变，只需要根据新加入的支持集微调预测头模型权值矩阵，计算量比目前流行的深度学习方法大幅度降低，易于推广落地使用。

实施例2

本实施例在实施例1的基础上：

本实施例提供了一种人体姿态图像智能识别系统，包括元学习样本预处理模块、元学习模型构建模块、元学习模型训练模块、目标姿态动作学习和识别模块，其中：

元学习样本预处理模块，用于将人体动作采集公开数据集作为预训练数据集，并对预训练数据集中的人体姿态图像进行预处理，预处理包括裁剪、翻转、旋转和数据增强。

元学习模型构建模块，用于构建姿态动作识别模型来计算两个动作样本之间的距离，分析匹配程度；姿态动作识别模型包括嵌入模块和关系模块，嵌入模块用于计算成对动作样本的特征图，并将得到的特征图在通道深度维度上进行串联组合操作，关系模块基于特征图计算成对动作样本属于同一类别的概率，记为相似关系分数。

元学习模型训练模块，用于使用预训练数据集中预处理后的人体姿态图像来训练姿态动作识别模型，然后用姿态动作识别模型识别出难以区分的类别，即相似关系分数高的类别，记为难样本；使用难样本作为输入，再次训练姿态动作识别模型，以区分之前难以区分的类别。

目标姿态动作学习和识别模块，用于使用训练后的姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作；支持集为待识别的动作分类图像，每一类包括少量标记样本，查询集为待识别的人体姿态图像。

需要说明的是，对于前述的方法实施例，为了简便描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

Claims

1.一种人体姿态图像智能识别方法，其特征在于，包括：

目标姿态动作学习和识别：使用训练后的所述姿态动作识别模型学习支持集中目标类别的姿势动作，并识别查询集中的姿态动作；所述支持集为待识别的动作分类图像，每一类包括少量标记样本，所述查询集为待识别的人体姿态图像；

所述目标姿态动作学习和识别包括以下步骤：

S401. 建立支持集特征库；

S402. 对支持集特征库的每个目标类别中所有样本的嵌入向量进行平均，并进行归一化，得到目标类别的代表向量；

S403. 将每个目标类别的代表向量转置后放入softmax函数的权值矩阵W的每一行，作为权值向量的初始值；

S404. 利用交叉熵对权值矩阵W进行微调；

S405. 将待识别的查询样本经过预处理和提取关节点特征后，将特征输入所述姿态动作识别模型，得到查询样本的特征向量x，再利用微调好的权值矩阵W和Softmax预测头来预测查询样本所属类别；

步骤S401包括以下子步骤：

S4011. 使用Openpose人体姿态识别模型得到关节点图，再处理得到支持集的关节点特征图集；

S4012. 将支持集关节点特征图集输入到所述姿态动作识别模型的嵌入模块，得到关节点特征图集的特征向量集合；

S4013. 将类别作为索引建立支持集特征库；

步骤S404包括以下子步骤：

S4041. 在支持集中任取一张图片；

S4042. 从支持集特征库中检索到该图片的嵌入特征向量x；

S4043. 利用p=softmax(Wx+b)计算预测的概率分布，其中b为偏置；

S4044. 利用该图片的标注计算实际的one-hot向量；

S4045. 计算实际和预测的概率分布的交叉熵CrossEntropy(x)；

S4047.求解最优化问题：

找到使得所有样本交叉熵最小的权值矩阵W。

2.根据权利要求1所述的人体姿态图像智能识别方法，其特征在于，所述元学习模型构建包括以下步骤：

S201. 使用Openpose人体姿态识别模型识别出目标人物的若干个关节点；

S202. 获取每个关节点的特征，并获取每个关节点与其邻近两个关节点形成的三角形基元的特征，并使用串联组合操作将这些特征进行组合；

S203. 使用MLP即多层感知机网络挖掘以上特征的深度特征；

S204. 将所有关节点特征通过最大池化层组合，得到人体姿态图像的特征表示，再基于特征表示计算成对动作样本属于同一类别的概率，从而得到相似关系分数。

3.根据权利要求1所述的人体姿态图像智能识别方法，其特征在于，所述相似关系分数的计算方法包括：

式中，指样本i与样本j之间的相似关系分数，指经过嵌入模块处理后得到的特征映射，Comb指串联组合操作，指经过关系模块处理。

4.根据权利要求1所述的人体姿态图像智能识别方法，其特征在于，所述元学习模型训练包括以下步骤：

S301. 对所述预训练数据集使用Openpose人体姿态识别模型得到关节点图；

S302. 对所述预训练数据集通过小样本学习方法的n-way k-shot方式归类划分，得到动作元学习的任务集，每个任务是采样两张图片并利用所述姿态动作识别模型识别是否归属同一类别；初始化所述姿态动作识别模型参数；

S303. 计算目标损失函数，使得所有任务的总的损失最小，其中N指小任务的个数，指网络参数学习到第n个小任务时的参数，指以为参数的小任务n的损失函数；

S304. 将训练好的姿态动作识别模型作为难样本选择器，选择出难以区分的类别即难样本；

S305. 将难样本作为输入再次执行步骤S301~ S303，重新训练得到一个姿态动作识别模型，新模型参数的初始化为步骤S303更新结束后对应模型的参数；

S306. 保存最终输出的姿态动作识别模型。

5.根据权利要求4所述的人体姿态图像智能识别方法，其特征在于，步骤S303包括以下子步骤：

S3031. 随机采样一个任务n，得到该任务中每对样本的相似关系分数；

S3032. 进行多次梯度下降和反向参数更新，得到该任务下的优化参数；

S3033. 利用的方向来更新参数到；

S3034. 采样新任务，循环步骤S3031~ S3033，直到无新任务或误差低于预设值为止。

6.根据权利要求1-5任一项所述的人体姿态图像智能识别方法，其特征在于，所述元学习样本预处理中，所述裁剪的方法包括：通过Yolov5算法检测目标人物，并裁剪出目标人物；所述数据增强的方法包括Cutout增强，所述Cutout增强将随机生成一个方形区域，此方形区域允许在图片外，而生成在掩码内的像素值则为零。

7.一种人体姿态图像智能识别系统，基于权利要求1所述的人体姿态图像智能识别方法，其特征在于，包括：