CN111753796B

CN111753796B - 图像中关键点的识别方法、装置、电子设备及存储介质

Info

Publication number: CN111753796B
Application number: CN202010624017.XA
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-03-08
Anticipated expiration: 2040-06-30
Also published as: CN111753796A

Abstract

本发明实施例提供了一种图像中关键点的识别方法、装置、电子设备及存储介质，上述方法包括：获得目标红外图像；分别确定目标红外图像中的各个光捕球图像在目标红外图像中的位置信息，作为待识别关键点的位置信息；其中每个待识别关键点对应目标对象的一个预设部位；根据各个待识别关键点的位置信息，确定目标对象的位置特征；将目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果。采用本发明实施例提供的方法，不需对目标对象部署主动发光的光捕球，因此针对目标对象采集红外图像时也不需要高帧率的红外相机，减小了关键点识别所消耗的硬件资源。

Description

图像中关键点的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种图像中关键点的识别方法、装置、电子设备及存储介质。

背景技术

对人体的关键点进行识别是对人体进行动作识别和异常行为检测等的实现基础。人体的关键点识别主要用于针对给定的图像，定位人体的关键部位，例如头部、肩部、手部和脚踝等部位。

目前，可以通过主动式光捕捉方案识别人体关键点。主动式光捕捉方案，是在人体的关键部位部署可主动发光的光捕球，然后通过多台部署在人体周围不同位置的红外相机机接收光捕球发出的红外光。并且，可以根据光捕球的发光频率区分不同光捕球，进而确定出部署在人体的各个光捕球的空间三维坐标，进一步的，识别出人体关键点。

然而，主动式光捕捉方案需要在人体部署能够主动发光的光捕球，这种能够主动发光的光捕球比较笨重并且也比较难以部署。并且，根据采样定理，红外相机的帧率至少要达到光捕球发光频率的两倍，才能够采集到光捕球发射的光，因此，主动式光捕捉方案需要高帧率的红外相机才能实现人体关键点识别。由此可见，主动式光捕捉方案所消耗的硬件资源较多。

发明内容

本发明实施例的目的在于提供一种图像中关键点的识别方法、装置、电子设备及存储介质，以减小识别图像中关键点所消耗的硬件资源。

为了达到上述目的，本发明实施例提供了一种图像中关键点的识别方法，包括：

获得目标红外图像，所述目标红外图像为：红外摄像头针对目标对象所采集的视频图像中包含多个光捕球图像的图像帧；其中，目标对象的多个预设部位被分别部署有反光式的光捕球；

分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息；其中每个待识别关键点对应目标对象的一个预设部位；

根据各个待识别关键点的位置信息，确定目标对象的位置特征；

将所述目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果；所述关键点识别模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本对象的位置特征，以及样本对象的各个关键点对应的部位。

进一步的，所述各个待识别关键点的位置信息，包括：各个待识别关键点的位置坐标；

所述根据各个待识别关键点的位置信息，确定目标对象的位置特征，包括：

计算各个待识别关键点的横坐标的均值和纵坐标的均值，将横坐标的均值和纵坐标的均值作为目标对象的重心坐标；将目标对象的各个待识别关键点的位置坐标和重心坐标，作为目标对象的位置特征；

所述将所述目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果，包括：

将目标对象的各个待识别关键点的位置坐标和重心坐标，输入预先训练的关键点识别模型，得到各个关键点对应的各个预设部位的输出结果。

进一步的，所述分别确定目标红外图像中的各个光捕球图像，在所述目标红外图像中的位置信息，作为待识别关键点的位置信息，包括：

提取所述目标红外图像的像素矩阵；

将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；

确定所述目标像素矩阵的多个连通区域，每个所述连通区域对应一个光捕球图像；

针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为待识别关键点的位置坐标。

进一步的，所述将目标对象的各个待识别关键点的位置坐标和重心坐标，输入预先训练的关键点识别模型，得到各个关键点对应的各个预设部位的输出结果，包括：

基于各个待识别关键点的位置坐标和目标对象的重心坐标，生成目标坐标序列矩阵；

将所述目标坐标序列矩阵，输入预先训练的关键点识别模型，得到预测索引矩阵；所述预测索引矩阵为：目标坐标序列矩阵中各个待识别关键点对应的预设部位的索引序号；所述训练样本集包含：多个样本对象的样本坐标序列，每个所述样本坐标序列对应的样本对象的多个关键点的真值序列索引矩阵，所述样本坐标序列由样本对象的多个关键点的位置坐标和样本对象的重心坐标所组成；

基于所述预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位。

进一步的，所述基于所述预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位，包括：

针对各个待识别关键点，根据该待识别关键点在所述预测索引矩阵中对应的索引序号，将与该索引序号对应的预设部位确定为该待识别关键点对应的预设部位；其中，目标对象的每个预设部位对应一个索引序号。

进一步的，所述关键点识别模型的训练过程具体包括：

将样本坐标序列输入待训练神经网络模型，得到样本对象的各个关键点的预测索引矩阵，作为输出结果；

基于所述输出结果和所述真值序列索引矩阵，计算当前的待训练神经模型的交叉熵损失函数值；

判断所述交叉熵损失函数值是否小于预设交叉熵损失函数阈值；

如果是，确定当前的待训练神经网络模型为关键点识别模型；

如果不是，调整当前的待训练神经网络模型的参数，并返回所述将样本坐标序列输入待训练神经网络模型的步骤。

进一步的，所述关键点识别模型包括：排序层和输出层；

所述排序层包括预设数量个全连接层；其中，所述排序层的第一个全连接层的输入特征维度为1×(2N+2)；所述排序层的最后一个全连接层的输出特征维度为N×N；N表示待识别关键点的数量；

所述输出层包括：Resize层。

为了达到上述目的，本发明实施例还提供了一种图像中关键点的识别装置，包括：

图像获取模块，用于获得目标红外图像，所述目标红外图像为：红外摄像头针对目标对象所采集的视频图像中包含多个光捕球图像的图像帧；其中，目标对象的多个预设部位被分别部署有反光式的光捕球；

位置信息确定模块，用于分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息；其中每个待识别关键点对应目标对象的一个预设部位；

位置特征确定模块，用于根据各个待识别关键点的位置信息，确定目标对象的位置特征；

关键点识别模块，用于将所述目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果；所述关键点识别模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本对象的位置特征，以及样本对象的各个关键点对应的部位。

所述位置特征确定模块，具体用于计算各个待识别关键点的横坐标的均值和纵坐标的均值，将横坐标的均值和纵坐标的均值作为目标对象的重心坐标；将目标对象的各个待识别关键点的位置坐标和重心坐标，作为目标对象的位置特征；

所述关键点识别模块，具体用于将目标对象的各个待识别关键点的位置坐标和重心坐标，输入预先训练的关键点识别模型，得到各个关键点对应的各个预设部位的输出结果。

进一步的，所述位置信息确定模块，具体用于提取所述目标红外图像的像素矩阵；将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定所述目标像素矩阵的多个连通区域，每个所述连通区域对应一个光捕球图像；针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为待识别关键点的位置坐标。

进一步的，所述关键点识别模块，具体用于将所述目标坐标序列矩阵，输入预先训练的关键点识别模型，得到预测索引矩阵；所述预测索引矩阵为：目标坐标序列矩阵中各个待识别关键点对应的预设部位的索引序号；所述训练样本集包含：多个样本对象的样本坐标序列，每个所述样本坐标序列对应的样本对象的多个关键点的真值序列索引矩阵，所述样本坐标序列由样本对象的多个关键点的位置坐标和样本对象的重心坐标所组成；基于所述预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位。

进一步的，所述关键点识别模块，针对各个待识别关键点，根据该待识别关键点在所述预测索引矩阵中对应的索引序号，将与该索引序号对应的预设部位确定为该待识别关键点对应的预设部位；其中，目标对象的每个预设部位对应一个索引序号。

进一步的，所述装置，还包括：模型训练模块；

所述模型训练模块用于采用如下步骤基于训练样本集训练得到所述关键点识别模型：

进一步的，所述关键点识别模型包括：排序层和输出层；

所述输出层包括：Resize层。

为了达到上述目的，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述图像中关键点的识别方法步骤。

为了达到上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的图像中关键点的识别方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像中关键点的识别方法步骤。

本发明实施例有益效果：

采用本发明实施例提供的方法，通过对目标对象部署多个反光式光捕球，使用红外摄像头针对目标对象采集的视频图像，获得视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；分别确定目标红外图像中的各个光捕球图像，在目标红外图像中的位置信息，作为待识别关键点的位置信息；根据各个待识别关键点的位置信息，确定目标对象的位置特征；将目标对象的位置特征输入预先训练的关键点识别模型，进而得到各个关键点对应的目标对象的各个预设部位的输出结果。即本发明实施例提供的方法，不需对目标对象部署主动发光的光捕球，因此针对目标对象采集红外图像时也不需要高帧率的红外相机，只需要采集到包含目标对象的目标红外图像，结合预先训练的关键点识别模型，就可以确定出每个光捕球对应的目标对象的部位，因此，减小了关键点识别所消耗的硬件资源。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的图像中关键点的识别方法的一种流程图；

图2为本发明实施例提供的图像中关键点的识别方法的另一种流程图；

图3为本发明实施例提供的图像中关键点的识别方法中部署有光捕球的目标对象的示意图；

图4为本发明实施例提供的部署有光捕球的目标对象和针对部署有光捕球的目标对象所采集的目标红外图像的示意图；

图5为本发明实施例提供的确定待识别关键点的位置坐标的流程图；

图6为本发明实施例提供的训练关键点识别模型的流程图；

图7为本发明实施例提供的图像中关键点的识别装置的一种结构示意图；

图8为本发明实施例提供的图像中关键点的识别装置的另一种结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

由于现有的通过主动式光捕捉方案识别图像中关键点的方法，存在消耗的硬件资源较多的问题，为了降低识别图像中关键点所消耗的硬件资源，本发明实施例提供了一种图像中关键点的识别方法，参见图1，包括：

步骤101，获得目标红外图像，目标红外图像为：红外摄像头针对目标对象所采集的视频图像中包含多个光捕球图像的图像帧；其中，目标对象的多个预设部位被分别部署有反光式的光捕球。

步骤102，分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息；其中每个待识别关键点对应目标对象的一个预设部位。

步骤103，根据各个待识别关键点的位置信息，确定目标对象的位置特征。

步骤104，将目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果；关键点识别模型为基于训练样本集进行训练得到的，训练样本集包含：多个样本对象的位置特征，以及样本对象的各个关键点对应的部位。

下面通过具体实施例对本发明实施例提供的动作识别方法及装置进行详细描述。

在本申请的一个实施例中，如图2所示，图像中关键点的识别方法的另一种流程，包括如下步骤：

步骤201，获得目标红外图像。

本发明实施例中，目标对象的每个预设部位可以对应一个索引序号，并且，可以按照目标对象的各个预设部位对应的索引序号，在目标对象的各个预设部位粘贴反光式的光捕球。其中，目标对象可以是人物和动物等等可以获取到红外信息的对象，本发明实施例中对象为人物，以能够实现为准并不做具体限定。

举例说明，参照图3，目标对象301的12个预设部位，每个预设部位均对应一个索引序号，例如，目标对象301的左肩部对应索引序号1，目标对象301的右肩部对应索引序号2。并且，可以按照目标对象301的各个预设部位的索引序号从小到大的顺序，依次在目标对象的各个预设部位粘贴反光式的光捕球302。具体的，针对目标对象301，可以在目标对象301“左肩部”1、“右肩部”2、“左肘部”3、“右肘部”4、“左手腕”5、“右手腕”6、“左胯骨”7、“右胯骨”8、“左膝盖”9、“右膝盖”10、“左脚部”11和“右脚部”12，依次粘贴反光式光捕球302，得到被部署了反光式光捕球的目标对象301。

本步骤中，可以使用红外摄像头，例如Kineck DK摄像头，针对被部署了多个反光式的光捕球的目标对象采集红外视频图像。从所采集的红外视频图像中选取包含有多个光捕球图像的图像帧，作为目标红外图像。例如，参照图4，目标对象401的左手腕、右手腕、左手肘与右手肘部位被部署了反光式光捕球302，可以使用红外摄像机针对被部署了反光式光捕球的目标对象401，采集得到红外图像410。

步骤202，分别确定目标红外图像中的各个光捕球图像在目标红外图像中的位置坐标，作为待识别关键点的位置坐标。

本发明实施例中，参见图5，确定待识别关键点的位置坐标的一种流程，可以包括：

步骤501，提取目标红外图像的像素矩阵。

步骤502，将像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵。

步骤503，确定目标像素矩阵的多个连通区域，每个连通区域对应一个光捕球图像。

步骤504，针对每个连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为待识别关键点的位置坐标。

具体的，可以提取目标红外图像的像素矩阵，所提取的像素矩阵为w×h×1维的矩阵，其中，w为像素矩阵中横向的像素点的数量，h为像素矩阵中纵向像素点的数量。针对所提取的像素矩阵，将像素矩阵中像素，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；其中，预设像素阈值可以根据实际应用具体进行设定，设定原则为：保留光捕球图像的像素值；例如，预设像素阈值可以设定为200或210。针对目标像素矩阵，确定目标像素矩阵的多个连通区域。其中，连通区域为：目标像素矩阵中像素值高于预设像素阈值且位置相邻的像素点组成的区域，每个连通区域对应一个光捕球图像，即每个连通区域对应一个待识别关键点。针对所确定的多个连通区域，将各个连通区域中，像素值最大的像素点的位置坐标，确定为该连通区域对应的待识别关键点的位置坐标。

举例说明，若在目标对象A的4个预设部位“左手肘、右手肘、左手腕、右手腕”均部署了反光式光捕球，针对目标对象A所获取的目标红外图像中，包含4个光捕球图像，并且针对目标红外图像所提取的像素值矩阵a为1080×640×1维的矩阵，像素值矩阵a的各个像素点的值位于区间[0，255]。预设像素阈值可以设定为200，可以针对所提取的1080×640×1维的像素值矩阵，将该矩阵中像素值小于200的像素点的像素值全部置为0，得到的矩阵作为目标像素矩阵a₁，目标像素矩阵a₁的各个像素点的值位于区间[200，255]。针对目标像素矩阵，将目标像素矩阵中，像素值在区间[200，255]内，且位置相邻的像素点组成的区域确定为连通区域，可以得到4个光捕球图像分别对应的连通区域。针对各个连通区域，将连通区域中像素值最大的像素点的位置坐标，确定为待识别关键点的位置坐标，可以得到4个待识别关键点对应的位置坐标。

步骤203，计算各个待识别关键点的横坐标的均值和纵坐标的均值，将横坐标的均值和纵坐标的均值作为目标对象的重心坐标；将目标对象的各个待识别关键点的位置坐标和重心坐标，作为目标对象的位置特征。

举例说明，参见图4，目标对象401有4个待识别关键点。且4个待识别关键点1的位置坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)和(x₄，y₄)。可以计算4个待识别关键点的横坐标的均值：x_avg＝(x₁+x₂+x₃+x₄)/4，计算4个待识别关键点的纵坐标的均值：y_avg＝(y₁+y₂+y₃+y₄)/4，得到的坐标(x_avg，y_avg)作为目标对象的重心的位置坐标。

步骤204，基于各个待识别关键点的位置坐标和目标对象的重心坐标，生成目标坐标序列矩阵。

举例说明，参照图4，若目标对象401有4个待识别关键点，且其位置坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)和(x₄，y₄)。目标对象401的重心坐标为：(x_avg，y_avg)，且x_avg＝(x₁+x₂+x₃+x₄)/4，y_avg＝(y₁+y₂+y₃+y₄)/4。根据目标对象401的各个待识别关键点的位置坐标，以及目标对象401的重心坐标，可以生成目标坐标序列矩阵：

[x₁ y₁ x₂ y₂ x₃ y₃ x₄ y₄ x_avg y_avg]。

步骤205，将目标坐标序列矩阵，输入预先训练的关键点识别模型，得到预测索引矩阵。

本发明实施例中，关键点识别模型包括：排序层和输出层。

具体的，关键点识别模型的排序层包括：预设数量的全连接层，其中，在保证排序层的最后一个全连接层的输出特征维度为N×N的前提下，预设数量可以根据实际应用具体进行设定，N为待识别关键点的数量。例如，预设数量可以为5，即关键点识别模型的排序层包括：第一全连接层至第五全连接层：

第一全连接层：输入特征维度为1×(2N+2)，神经元个数为8N，输出特征维度为1×8N；N表示待识别关键点的数量；

第二全连接层：输入特征维度为1×8N，神经元个数为32N，输出特征维度为1×32N；

第三全连接层：输入特征维度为1×32N，神经元个数为64N，输出特征维度为1×64N；

第四全连接层：输入特征维度为1×64N，神经元个数为128N，输出特征维度为1×128N；

第五全连接层：输入特征维度为1×128N，神经元个数为128N，输出特征维度为N×N。

其中，关键点识别模型的排序层的最后一个全连接层的输出维度为N×N。

本发明实施例中，关键点识别模型的输出层包括：Resize层。Resize层的输入特征维度为N×N，输出特征维度为N×N。

本发明实施例中，输入预先训练的关键点识别模型的目标坐标序列矩阵可以为1×(2N+2)的矩阵。例如，参照图4，目标对象401有4个待识别关键点，则针对目标对象401的目标坐标序列矩阵为1×10的矩阵：[x₁ y₁ x₂ y₂ x₃ y₃ x₄ y₄ x_avg y_avg]。

本步骤中，在将目标坐标序列矩阵输入预先训练的关键点识别模型之后，关键点识别模型的排序层，可以基于输入的目标坐标序列矩阵，确定出各个待识别关键点对应各个目标对象各个预设部位的概率，并基于各个待识别关键点对应各个目标对象各个预设部位的概率，确定出概率矩阵；基于概率矩阵，确定出预测索引矩阵。

本发明实施例中，若目标对象有N个待识别关键点，则输入预先训练的关键点识别模型的目标坐标序列可以为：[x₁ y₁ x₂ y₂…x_N y_N x_avg y_avg]，则基于输入的目标坐标序列矩阵，所确定出的概率矩阵可以为：其中，概率矩阵中第一行的行向量至最后一行的行向量，依次对应位置坐标为(x₁，y₁)的待识别关键点至位置坐标为(x_N，y_N)的待识别关键点。并且，针对概率矩阵中每一个行向量，该行向量的第一列的元素值至第N列的元素值分别为：该行向量对应的位置坐标表示的待识别关键点，为目标对象的索引序号为1的预设部位，至目标对象的索引序号为N的预设部位的概率。并且，概率矩阵中，每一行向量的各个元素值之和为1。

针对概率矩阵中的每一行向量，将该行向量中最大元素值置为1，将将该行向量中其他元素值置为0，将得到的新的矩阵确定为预测索引矩阵。其中，预测索引矩阵中，每一行向量中元素值为1的列的序数，为该行向量对应的待识别关键点所对应的目标对象的预设部位的索引序号。

举例说明，参见图4中的目标红外图像410，目标对象401有4个待识别关键点，若目标对象401的4个待识别关键点的位置坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)和(x₄，y₄)。目标对象401的重心坐标为：(x_avg，y_avg)，且x_avg＝(x₁+x₂+x₃+x₄)/4，y_avg＝(y₁+y₂+y₃+y₄)/4。根据目标对象401的4个待识别关键点的位置坐标，以及目标对象401的重心坐标，可以生成目标坐标序列矩阵：[x₁ y₁ x₂ y₂ x₃ y₃ x₄ y₄ x_avg y_avg]。

将目标坐标序列矩阵：[x₁ y₁ x₂ y₂ x₃ y₃ x₄ y₄ x_avg y_avg]则输入预先训练的关键点识别模型，则所确定出的概率矩阵可以为：

其中，概率矩阵中第一行的行向量[p₁₁ p₁₂ p₁₃ p₁₄]对应目标红外图像410中位置坐标为(x₁，y₁)的待识别关键点，概率矩阵中第二行的行向量[p₂₁ p₂₂ p₂₃ p₂₄]对应目标红外图像410中位置坐标为(x₂，y₂)的待识别关键点，概率矩阵中第三行的行向量[p₃₁ p₃₂ p₃₃p₃₄]对应目标红外图像410中位置坐标为(x₃，y₃)的待识别关键点，概率矩阵中第四行的行向量[p₄₁ p₄₂ p₄₃ p₄₄]对应目标红外图像410中位置坐标为(x₄，y₄)的待识别关键点。

并且，概率矩阵中第一行的行向量[p₁₁ p₁₂ p₁₃ p₁₄]中的概率值p₁₁、p₁₂、p₁₃和p₁₄依次为：目标红外图像410中位置坐标为(x₁，y₁)的待识别关键点，为目标对象401的索引序号为1的预设部位，至目标对象401的索引序号为4的预设部位的概率。概率矩阵中第二行的行向量[p₂₁ p₂₂ p₂₃ p₂₄]中的概率值p₂₁、p₂₂、p₂₃和p₂₄依次为：目标红外图像410中位置坐标为(x₂，y₂)的待识别关键点，为目标对象401的索引序号为1的预设部位，至目标对象401的索引序号为4的预设部位的概率。概率矩阵中第三行的行向量[p₃₁ p₃₂ p₃₃ p₃₄]中的概率值p₃₁、p₃₂、p₃₃和p₃₄依次为：目标红外图像410中位置坐标为(x₃，y₃)的待识别关键点，为目标对象401的索引序号为1的预设部位，至目标对象401的索引序号为4的预设部位的概率。概率矩阵中第四行的行向量[p₄₁ p₄₂ p₄₃ p₄₄]中的概率值p₄₁、p₄₂、p₄₃和p₄₄依次为：目标红外图像410中位置坐标为(x₄，y₄)的待识别关键点，为目标对象401的索引序号为1的预设部位，至目标对象401的索引序号为4的预设部位的概率。

针对目标红外图像410的概率矩阵中每一行向量，若p₁₃为第一行的行向量中最大的元素值，p₂₂第二行的行向量中最大的元素值，p₃₁第三行的行向量中最大的元素值，p₄₄第四行的行向量中最大的元素值；则可以将每一行向量中最大元素值置为1，将每一行向量中其他元素值置为0，得到预测索引矩阵：其中，预测索引矩阵中，第一行的行向量中元素值为1的列的序数为3，表示第一行行向量对应的位置坐标为(x₁，y₁)的待识别关键点所对应的目标对象401的预设部位的索引序号为3；第二行的行向量中元素值为1的列的序数为2，表示第二行行向量对应的位置坐标为(x₂，y₂)的待识别关键点所对应的目标对象401的预设部位的索引序号为2；第三行的行向量中元素值为1的列的序数为1，表示第三行行向量对应的位置坐标为(x₃，y₃)的待识别关键点所对应的目标对象401的预设部位的索引序号为1；第四行的行向量中元素值为1的列的序数为4，表示第三行行向量对应的位置坐标为(x₄，y₄)的待识别关键点所对应的目标对象401的预设部位的索引序号为4。

步骤206，基于预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位。

本步骤中，针对各个待识别关键点，可以根据该待识别关键点所对应的目标对象的预设部位的索引序号，将该序号代表的预设部位确定为该待识别关键点对应的目标对象的预设部位。

举例说明，参照步骤205中的所确定的图4中目标对象401的预测索引矩阵：其中，预测索引矩阵中，第一行的行向量中元素值为1的列的序数为3，表示第一行行向量对应的位置坐标为(x₁，y₁)的待识别关键点所对应的目标对象401的预设部位的索引序号为3，即位置坐标为(x₁，y₁)的待识别关键点对应的预设部位为目标对象401的左肘部；第二行的行向量中元素值为1的列的序数为2，表示第二行行向量对应的位置坐标为(x₂，y₂)的待识别关键点所对应的目标对象401的预设部位的索引序号为2，即位置坐标为(x₂，y₂)的待识别关键点对应的预设部位为目标对象401的右手腕；第三行的行向量中元素值为1的列的序数为1，表示第三行行向量对应的位置坐标为(x₃，y₃)的待识别关键点所对应的目标对象401的预设部位的索引序号为1，即位置坐标为(x₃，y₃)的待识别关键点对应的预设部位为目标对象401的左手腕；第四行的行向量中元素值为1的列的序数为4，表示第三行行向量对应的位置坐标为(x₄，y₄)的待识别关键点所对应的目标对象401的预设部位的索引序号为4，即位置坐标为(x₄，y₄)的待识别关键点对应的预设部位为目标对象401的右手肘。

本步骤中，可以将位置坐标为(x₁，y₁)的待识别关键点对应目标对象401的左肘部、位置坐标为(x₂，y₂)的待识别关键点对应目标对象401的右手腕、位置坐标为(x₃，y₃)的待识别关键点对应目标对象401的左手腕、位置坐标为(x₄，y₄)的待识别关键点对应目标对象401的右手肘，作为关键点识别模型的输出。

采用本发明实施例提供的方法，不需对目标对象部署主动发光的光捕球，因此针对目标对象采集红外图像时也不需要高帧率的红外相机，只需要采集到包含目标对象的目标红外图像，结合预先训练的关键点识别模型，就可以确定出每个光捕球对应的目标对象的部位，因此，减小了关键点识别所消耗的硬件资源。避免了单目光捕需要主动式动捕球的约束限制，降低了关键点识别的算法复杂度，并且，本发明实施例完全使用单目光捕的结果，提高了关键点识别的准确率。

本发明实施例中，参见图6，训练关键点识别模型的一种流程，包括：

步骤601，将样本坐标序列输入待训练神经网络模型，得到样本对象的各个关键点的预测索引矩阵，作为输出结果。

具体的，样本坐标序列包括：样本对象的各个预设部位的坐标，以及基于各个预设部位的坐标所计算得到的样本对象的重心坐标。基于样本对象各个预设部位的坐标，以及样本对象的重心坐标，可以生成样本坐标序列。

其中，样本对象可以是人物和动物等等，本发明实施例中的样本对象为人物，以能够实现为准并不做具体限定。

步骤602，基于输出结果和真值序列索引矩阵，计算当前的待训练神经模型的交叉熵损失函数值。

其中，真值序列索引矩阵表示：样本坐标序列中，样本对象的每个关键点的位置坐标对应的样本对象的预设部位的索引序号序号。

根据输出结果与真值序列索引矩阵，计算当前的待训练神经网络模型的交叉熵损失函数，具体的，可以根据如下公式，计算交叉熵损失函数：

其中，M表示样本对象的预设部位的数量；yic为指示变量(0或1)，如果预测索引矩阵中每一行向量所表示的样本对象的预设部位和真值序列索引矩阵中相同行的行向量所表示的样本对象的预设部位相同就是1，否则是0；p_ic为预测索引矩阵中每一行向量所表示的样本对象的位置坐标对应的样本对象的各个预设部位的概率。

举例说明，若真值序列索引矩阵为：输出结果中的预测索引矩阵为：/>则可以计算每一行的交叉熵：

L1＝-(0×log0.1+1×log0.6+0×log0.1+0×log0.2)＝0.223；

L2＝-(0×log0.05+0×log0.3+1×log0.5+0×log0.15)＝0.301；

L3＝-(0×log0.1+0×log0.1+0×log0.2+1×log0.6)＝0.223；

L1＝-(1×log0.7+0×log0.1+0×log0.05+0×log0.15)＝0.155；

其中，L1、L2、L3和L4分别为第一行至第四行的交叉熵，进一步的可以计算得到交叉熵损失函数值：

L＝L1+L2+L3+L4＝0.902

步骤603，判断交叉熵损失函数值是否小于预设交叉熵损失函数阈值，若判断结果为是，执行步骤604，若判断结果为否，执行步骤605。

其中，预设交叉熵函数阈值可以根据实际的模型训练情况具体进行设定，例如可以设定为1或2。

步骤604，确定当前的待训练神经网络模型为关键点识别模型。

步骤605，调整当前的待训练神经网络模型的参数，并返回步骤601。

基于同一发明构思，根据本发明上述实施例提供的图像中关键点的识别方法，相应地，本发明另一实施例还提供了一种图像中关键点的识别装置，其结构示意图如图7所示，具体包括：

图像获取模块701，用于获得目标红外图像，所述目标红外图像为：红外摄像头针对目标对象所采集的视频图像中包含多个光捕球图像的图像帧；其中，目标对象的多个预设部位被分别部署有反光式的光捕球；

位置信息确定模块702，用于分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息；其中每个待识别关键点对应目标对象的一个预设部位；

位置特征确定模块703，用于根据各个待识别关键点的位置信息，确定目标对象的位置特征；

关键点识别模块704，用于将所述目标对象的位置特征输入预先训练的关键点识别模型，得到各个待识别关键点对应的各个预设部位的输出结果；所述关键点识别模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本对象的位置特征，以及样本对象的各个关键点对应的部位。

可见，采用本发明实施例提供的装置，通过对目标对象部署多个反光式光捕球，使用红外摄像头针对目标对象采集的视频图像，获得视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；分别确定目标红外图像中的各个光捕球图像，在目标红外图像中的位置信息，作为待识别关键点的位置信息；根据各个待识别关键点的位置信息，确定目标对象的位置特征；将目标对象的位置特征输入预先训练的关键点识别模型，进而得到各个关键点对应的目标对象的各个预设部位的输出结果。即本发明实施例提供的方法，不需对目标对象部署主动发光的光捕球，因此针对目标对象采集红外图像时也不需要高帧率的红外相机，只需要采集到包含目标对象的目标红外图像，结合预先预先训练的关键点识别模型，就可以确定出每个光捕球对应的目标对象的部位，因此，减小了关键点识别所消耗的硬件资源。

进一步的，各个待识别关键点的位置信息，包括：各个待识别关键点的位置坐标；

进一步的，位置特征确定模块703，具体用于计算各个待识别关键点的横坐标的均值和纵坐标的均值，将横坐标的均值和纵坐标的均值作为目标对象的重心坐标；将目标对象的各个待识别关键点的位置坐标和重心坐标，作为目标对象的位置特征；

进一步的，关键点识别模块704，具体用于将目标对象的各个待识别关键点的位置坐标和重心坐标，输入预先训练的关键点识别模型，得到各个关键点对应的各个预设部位的输出结果。

进一步的，位置信息确定模块702，具体用于提取所述目标红外图像的像素矩阵；将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定所述目标像素矩阵的多个连通区域，每个所述连通区域对应一个光捕球图像；针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为待识别关键点的位置坐标。

进一步的，关键点识别模块704，具体用于将所述目标坐标序列矩阵，输入预先训练的关键点识别模型，得到预测索引矩阵；所述预测索引矩阵为：目标坐标序列矩阵中各个待识别关键点对应的预设部位的索引序号；所述训练样本集包含：多个样本对象的样本坐标序列，每个所述样本坐标序列对应的样本对象的多个关键点的真值序列索引矩阵，所述样本坐标序列由样本对象的多个关键点的位置坐标和样本对象的重心坐标所组成；基于所述预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位。

进一步的，关键点识别模块704，针对各个待识别关键点，根据该待识别关键点在所述预测索引矩阵中对应的索引序号，将与该索引序号对应的预设部位确定为该待识别关键点对应的预设部位；其中，目标对象的每个预设部位对应一个索引序号。

进一步的，参见图8，图像中关键点的识别装置，还包括：模型训练模块801；

模型训练模块801，用于采用如下步骤基于训练样本集训练得到关键点识别模型：

进一步的，关键点识别模型包括：排序层和输出层；

所述输出层包括：Resize层。

进一步的，所述排序层包括：第一全连接层至第五全连接层；

所述第一全连接层：输入特征维度为1×(2N+2)，神经元个数为8N，输出特征维度为1×8N；N表示待识别关键点的数量；

所述第二全连接层：输入特征维度为1×8N，神经元个数为32N，输出特征维度为1×32N；

所述第三全连接层：输入特征维度为1×32N，神经元个数为64N，输出特征维度为1×64N；

所述第四全连接层：输入特征维度为1×64N，神经元个数为128N，输出特征维度为1×128N；

所述第五全连接层：输入特征维度为1×128N，神经元个数为128N，输出特征维度为N×N；

所述Resize层，输入特征维度为N×N，输出特征维度为N×N。

可见，采用本发明实施例提供的装置，不需对目标对象部署主动发光的光捕球，因此针对目标对象采集红外图像时也不需要高帧率的红外相机，只需要采集到包含目标对象的目标红外图像，结合预先预先训练的关键点识别模型，就可以确定出每个光捕球对应的目标对象的部位，因此，减小了关键点识别所消耗的硬件资源。避免了单目光捕需要主动式动捕球的约束限制，降低了关键点识别的算法复杂度，并且，本发明实施例完全使用单目光捕的结果，提高了关键点识别的准确率。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一图像中关键点的识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一图像中关键点的识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像中关键点的识别方法，其特征在于，包括：

分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息；其中，每个待识别关键点对应目标对象的一个预设部位；

2.根据权利要求1所述的方法，其特征在于，所述各个待识别关键点的位置信息，包括：各个待识别关键点的位置坐标；

3.根据权利要求2所述的方法，其特征在于，所述分别确定目标红外图像中的各个光捕球图像在所述目标红外图像中的位置信息，作为待识别关键点的位置信息，包括：

提取所述目标红外图像的像素矩阵；

4.根据权利要求2所述的方法，其特征在于，所述将目标对象的各个待识别关键点的位置坐标和重心坐标，输入预先训练的关键点识别模型，得到各个关键点对应的各个预设部位的输出结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述预测索引矩阵，确定各个待识别关键点对应的目标对象的预设部位，包括：

6.根据权利要求4所述的方法，其特征在于，所述关键点识别模型的训练过程具体包括：

7.根据权利要求4所述的方法，其特征在于，所述关键点识别模型包括：排序层和输出层；

所述输出层包括：Resize层。

8.一种图像中关键点的识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。