CN111738202A

CN111738202A - 一种关键点识别方法、装置、电子设备及存储介质

Info

Publication number: CN111738202A
Application number: CN202010622500.4A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-02
Anticipated expiration: 2040-06-30
Also published as: CN111738202B

Abstract

本发明实施例提供了一种关键点识别方法、装置、电子设备及存储介质，上述方法包括：获得包含目标对象多个预设关键点的目标可见光图像；以及获得包含多个光捕球图像的目标红外图像；基于目标红外图像包含的各个光捕球图像的位置信息，确定目标红外图像的特征，作为光捕特征；提取目标可见光图像的特征，作为非光捕特征；将光捕特征和非光捕特征进行融合，得到融合特征；将融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果。采用本发明实施例提供的方法，实现了在简化对关键点识别的处理之下，提高了关键点识别的准确率。

Description

一种关键点识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种关键点识别方法、装置、电子设备及存储介质。

背景技术

人体关键点识别是通过从给定的图像中定位人体关键部位，例如头部、颈部、肩部、手部等部位。人体关键点识别是动作识别以及异常行为检测等技术的实现基础。

目前，对人体关键点进行识别，有很多技术。例如：仅通过图像处理技术，对视频画面中目标对象的关键点进行识别，或通过光捕技术对目标对象的关键点进行识别。其中，由于人体的脚踝和手腕等运动幅度较大的关键部位在视频画面中可能比较模糊，因此，仅通过图像处理技术对视频画面中的人体关键点进行识别，对于这些运动幅度较大的人体关键点是比较难以识别的，会导致人体关键点识别的准确率较低。

现有技术基于图像处理技术对人体关键点进行识别，对可见光图像，例如RGB(red、green、blue，红、绿、蓝)图像中包含的目标对象的关键点进行识别。然而，由于可见光图像受环境影响较大，图像质量不稳定，容易影响关键点识别的精度。例如，针对低对比度的可见光图像中包含的目标对象进行关键点识别，由于图像对比度较低，图像中目标对象不够清晰，会导致识别结果的准确率降低。

仅通过光捕技术对目标对象的关键点进行识别的方式主要应用于影视制作中，其识别过程需要在专业的摄影棚中完成，但这种方式虽然识别精度较高，但是成本也比较高，并且需要对多路视频图像进行处理，算法复杂，对使用场景的要求较高。

发明内容

本发明实施例的目的在于提供一种关键点识别方法、装置、电子设备及存储介质，用以在简化对关键点识别的处理之下，提高关键点识别的准确率。

为了达到上述目的，本发明实施例提供了一种关键点识别方法，包括：

获得非红外摄像头所采集的视频图像中包含目标对象多个预设关键点的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；所述目标对象被预先部署有多个光捕球，其中，每个光捕球对应所述目标对象多个预设关键点中的一个指定关键点；

基于所述目标红外图像包含的各个光捕球图像的位置信息，确定所述目标红外图像的特征，作为光捕特征；

将所述光捕特征和所述目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征；

将所述融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果；其中，所述关键点识别模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本对象的融合特征，以及各个样本对象的多个预设关键点的标识和位置信息。

进一步的，所述基于所述目标红外图像包含的各个光捕球图像的位置信息，确定所述目标红外图像的特征，作为光捕特征，包括：

确定所述目标红外图像包含的各个光捕球图像的位置信息；

根据所述目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵；

生成k-n个零矩阵，作为多个预设关键点中非指定关键点对应的第二红外特征矩阵，第一红外特征矩阵与第二红外特征矩阵的维度相同，k为目标对象的预设关键点的数量，n为光捕球的数量；

将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征。

进一步的，所述各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

所述确定所述目标红外图像包含的各个光捕球图像的位置信息，包括：

提取所述目标红外图像的像素矩阵；

将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；

确定所述目标像素矩阵的连通区域，每个所述连通区域对应一个光捕球图像；

针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，所述根据所述目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵，包括：

根据所述目标红外图像包含的各个光捕球图像的位置坐标，针对每个光捕球图像，生成以该光捕球图像的位置坐标为中心，以预设距离为半径，且呈高斯分布的图像，作为该光捕球图像的先验热度图；

分别提取各个先验热度图的热度值矩阵，作为各个指定关键点对应的第一红外特征矩阵。

进一步的，所述将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征，包括：

根据所述目标对象的各个预设关键点，以及部署于目标对象的各个光捕球，生成k维的光捕球部署向量；k维的光捕球部署向量的每个元素对应目标对象的一个预设关键点，其中，光捕球部署向量的各个元素中，与预设关键点中的指定关键点相对应的元素的值为1，与预设关键点中的非指定关键点相对应的元素的值为0；

针对所述光捕球部署向量，将所述光捕球部署向量中值为1的元素替换为指定关键点对应的第一红外特征矩阵，将所述光捕球部署向量中值为0的元素替换为非指定关键点对应的第二红外特征矩阵，得到先验热度图组矩阵，作为光捕特征；所述先验热度图组矩阵为w×h×k维的矩阵，先验热度图的矩阵为w×h的矩阵，其中，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽。

进一步的，所述将所述光捕特征和所述目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征，包括：

将所述先验热度图组矩阵，与所述目标可见光图像的各个颜色通道的色值矩阵进行拼接，得到融合矩阵，作为融合特征，所述融合矩阵为w×h×(k+m)维的矩阵，m为可见光图像的颜色通道的数量。

进一步的，所述预先训练的关键点识别模型，包括：特征提取网络层、热度图网络层和输出层；

所述将所述融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果，包括：

将所述融合特征输入预先训练的关键点识别模型的所述特征提取网络层；

所述特征提取网络层，基于所述融合特征提取第一图像特征矩阵F_i，并将所述第一图像特征矩阵输入所述热度图网络层：

其中，s为缩放系数，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽，f是第一图像特征矩阵的通道数；

所述热度图网络层，根据所述第一图像特征矩阵，预测目标对象的各个预设关键点对应的预测热度图矩阵，并将由各个预测热度图矩阵在第三维度上所拼接得到的第二图像特征矩阵输入所述输出层；其中，各个预测热度图矩阵均为

的矩阵，第二图像特征矩阵H_i：

所述输出层，针对预设关键点，将该关键点对应的预测热度图中热度值最大的点的位置坐标确定为该关键点的位置坐标，以及将该关键点对应的预测热度图矩阵在所述第二图像特征矩阵的第三维度上对应的维度值确定为该关键点的标识；并输出该关键点的标识和位置坐标。

进一步的，所述特征提取网络层为：残差神经网络ResNet，或Inception网络，或视觉几何群网络VGG；

所述热度图网络层包括多个卷积神经网络。

进一步的，采用如下步骤基于训练样本集训练得到所述关键点识别模型：

将样本对象的融合特征输入待训练神经网络模型，得到样本对象的各个预设关键点的标识和位置信息，作为输出结果；

确定当前的待训练神经模型的损失函数值；

判断所述损失函数值是否小于预设损失函数阈值；

如果是，确定当前的待训练神经网络模型为关键点识别模型；

如果不是，基于预先确定的各个样本对象的多个预设关键点的标识和位置信息，以及所述输出结果，调整当前的待训练神经网络模型的参数；并返回所述将样本对象的融合特征输入待训练神经网络模型的步骤。

进一步的，所述非红外摄像头和所述红外摄像头在同一个水平位置，且所述非红外摄像头和所述红外摄像头的镜头中心相距不超过预设距离阈值。

为了达到上述目的，本发明实施例还提供了一种关键点识别装置，包括：

图像获取模块，用于获得非红外摄像头所采集的视频图像中包含目标对象多个预设关键点的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；所述目标对象被预先部署有多个光捕球，其中，每个光捕球对应所述目标对象多个预设关键点中的一个指定关键点；

光捕特征确定模块，用于基于所述目标红外图像包含的各个光捕球图像的位置信息，确定所述目标红外图像的特征，作为光捕特征；

特征融合模块，用于将所述光捕特征和所述目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征；

关键点识别模块，用于将所述融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果；其中，所述关键点识别模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本对象的融合特征，以及各个样本对象的多个预设关键点的标识和位置信息。

进一步的，所述光捕特征确定模块，包括：

位置信息确定子模块，用于确定所述目标红外图像包含的各个光捕球图像的位置信息；

第一特征矩阵生成子模块，用于根据所述目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵；

第二特征矩阵生成子模块，用于生成k-n个零矩阵，作为多个预设关键点中非指定关键点对应的第二红外特征矩阵，第一红外特征矩阵与第二红外特征矩阵的维度相同，k为目标对象的预设关键点的数量，n为光捕球的数量；

特征矩阵拼接子模块，用于将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征。

所述位置信息确定子模块，具体用于提取所述目标红外图像的像素矩阵；将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定所述目标像素矩阵的连通区域，每个所述连通区域对应一个光捕球图像；针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，所述第一特征矩阵生成子模块，具体用于根据所述目标红外图像包含的各个光捕球图像的位置坐标，针对每个光捕球图像，生成以该光捕球图像的位置坐标为中心，以预设距离为半径，且呈高斯分布的图像，作为该光捕球图像的先验热度图；分别提取各个先验热度图的热度值矩阵，作为各个指定关键点对应的第一红外特征矩阵。

进一步的，所述特征矩阵拼接子模块，具体用于根据所述目标对象的各个预设关键点，以及部署于目标对象的各个光捕球，生成k维的光捕球部署向量；k维的光捕球部署向量的每个元素对应目标对象的一个预设关键点，其中，光捕球部署向量的各个元素中，与预设关键点中的指定关键点相对应的元素的值为1，与预设关键点中的非指定关键点相对应的元素的值为0；针对所述光捕球部署向量，将所述光捕球部署向量中值为1的元素替换为指定关键点对应的第一红外特征矩阵，将所述光捕球部署向量中值为0的元素替换为非指定关键点对应的第二红外特征矩阵，得到先验热度图组矩阵，作为光捕特征；所述先验热度图组矩阵为w×h×k维的矩阵，先验热度图的矩阵为w×h的矩阵，其中，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽。

进一步的，所述特征融合模块，具体用于将所述先验热度图组矩阵，与所述目标可见光图像的各个颜色通道的色值矩阵进行拼接，得到融合矩阵，作为融合特征，所述融合矩阵为w×h×(k+m)维的矩阵，m为可见光图像的颜色通道的数量。

关键点识别模块，具体用于将所述融合特征输入预先训练的关键点识别模型的所述特征提取网络层；

的矩阵，第二图像特征矩阵H_i：

所述热度图网络层包括多个卷积神经网络。

进一步的，所述装置，还包括：模型训练模块；

所述模型训练模块，用于采用如下步骤基于训练样本集训练得到所述关键点识别模型：

确定当前的待训练神经模型的损失函数值；

判断所述损失函数值是否小于预设损失函数阈值；

为了达到上述目的，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述关键点识别方法步骤。

为了达到上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的关键点识别方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的关键点识别方法步骤。

本发明实施例有益效果：

本发明实施例提供的方法，通过提取目标红外图像的光捕特征和目标可见光图像的非光捕特征，并对光捕特征和非光捕特征进行融合，得到融合特征，通过预先训练的关键点识别模型对融合特征进行识别，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果。采用本发明实施例提供的方法，通过光捕特征预先确定出目标对象的多个预设关键点中的部分指定关键点，进一步的通过融合特征识别出目标对象的所有预设关键点。通过结合光捕技术的高精度和深度学习模型的易部署性，实现了在简化对关键点识别的处理之下，提高了关键点识别的准确率，并且由于简化对关键点识别的处理，也降低了关键点识别的使用场景的要求。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为现有技术中专业光捕数据采集示意图；

图2为本发明实施例提供的关键点识别方法的一种流程图；

图3为本发明实施例提供的关键点识别方法的另一种流程图；

图4a为本发明实施例提供的关键点识别方法中部署有光捕球的目标对象的示意图；

图4b为本发明实施例提供的部署有光捕球的目标对象和针对部署有光捕球的目标对象所采集的目标红外图像的示意图；

图5为本发明实施例提供的确定光捕球图像的位置坐标的流程示意图；

图6a为所提取的目标对象的光捕特征的示意图；

图6b为所提取的目标对象的非光捕特征的示意图；

图6c为目标对象的融合特征的示意图；

图7为本发明实施例提供的关键点识别模型的结构示意图；

图8为本发明实施例提供的关键点识别模型的热度图网络层所输出的热度图组矩阵的示意图；

图9为本发明实施例提供的训练关键点识别模型的流程图；

图10为本发明实施例提供的关键点识别装置的一种结构示意图；

图11为本发明实施例提供的关键点识别装置的另一种结构示意图；

图12为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术中，根据光捕数据进行人体关键点识别算法复杂，且对于光捕设备的部署、红外线摄像机设备的要求都比较高，均为商业应用且需在专业摄影棚中完成。图1为现有技术中专业光捕数据采集示意图，如图1所示：在摄影棚中不同的位置安装多个红外摄像机103，演员穿着特制的光捕衣服101，光捕衣服上部署有多个反射能力很强的光捕球102，每个光捕球102对应人体的一个关键部位。在拍摄过程中，红外摄像机103发出红外光，并接收光捕球102所反射的红外光，拍摄出不同方向的红外视频图像。在得到不同方向的红外视频图像后，再通过图像融合等图像处理技术，计算出光捕球102的空间位置，进而可以得到光捕球对应的人体关键点。这种方式虽然识别精度较高，但是成本也比较高，并且需要对多路视频图像进行处理，算法复杂，对使用场景的要求较高。

由于现有的关键点识别的方式存在算法复杂以及对使用场景的要求较高的问题，为了在简化对关键点识别的处理之下，提高关键点识别的准确率，本发明实施例提供了一种关键点识别方法，参见图2，包括：

步骤201，获得非红外摄像头所采集的视频图像中包含目标对象多个预设关键点的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；目标对象被预先部署有多个光捕球，其中，每个光捕球对应目标对象多个预设关键点中的一个指定关键点。

步骤202，基于目标红外图像包含的各个光捕球图像的位置信息，确定目标红外图像的特征，作为光捕特征。

步骤203，将光捕特征和目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征。

步骤204，将融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果；其中，关键点识别模型为基于训练样本集进行训练得到的，训练样本集包含：多个样本对象的融合特征，以及各个样本对象的多个预设关键点的标识和位置信息。

采用本发明实施例提供的方法，通过提取目标红外图像的光捕特征和目标可见光图像的非光捕特征，并对光捕特征和非光捕特征进行融合，得到融合特征，通过预先训练的关键点识别模型对融合特征进行识别，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果。采用本发明实施例提供的方法，通过光捕特征预先确定出目标对象的多个预设关键点中的部分指定关键点，进一步的通过融合特征识别出目标对象的所有预设关键点。通过结合光捕技术的高精度和深度学习模型的易部署性，实现了在简化对关键点识别的处理之下，提高了关键点识别的准确率，并且由于简化了对关键点识别的处理，也降低了关键点识别的使用场景的要求。

下面通过具体实施例对本发明实施例提供的关键点识别方法及装置进行详细描述。

在本申请的一个实施例中，图3所示，关键点识别方法的另一种流程，包括如下步骤：

步骤301，获得目标可见光图像和目标红外图像。

本发明实施例中，可以对目标对象的多个预设关键点标定序号，每个预设关键点的序号为该预设关键点的标识。其中，每个预设关键点代表目标对象的一个部位，例如目标对象的左肩部、右肩部、和左膝盖等部位。如图4a所示，目标对象401有24个预设关键点，其中，目标对象401的每个预设关键点对应一个序号，如图4a中表示目标对象左膝盖的预设关键点的序号为19，即该预设关键点的标识为序号19。针对目标对象的多个预设关键点，我们可以将多个预设关键点中任意的一个或多个预设关键点确定为指定关键点，较佳的，可以将目标对象的运动幅度较大的部位的预设关键点确定为指定关键点，并且，可以对目标对象的指定关键点部署光捕球。其中，目标对象可以是人物和动物等等可以获取到红外信息的对象，本发明实施例中对象为人物，以能够实现为准并不做具体限定。其中，目标对象可以是人物和动物等等可以获取到红外信息的对象，本发明实施例中对象为人物，以能够实现为准并不做具体限定。光捕球可以是反光式光捕球。

例如，如图4a所示，当目标对象401在做动作时，左手腕、右手腕、左脚踝、和右脚踝4个部位的动作幅度相比其他部位比较大，因此，可以将目标对象401的24个预设关键点中，左手腕、右手腕、左脚踝、和右脚踝4个部位的的预设关键点确定为指定关键点，并在4个指定关键点处各粘贴一个光捕球402。具体的可参见图4a，目标对象401身上的左手腕、右手腕、左脚踝、和右脚踝均被部署了光捕球402。

本步骤中，可以使用一台红外摄像机，如Kineck DK摄像头，针对被部署了光捕球的目标对象采集红外视频。针对所采集的红外视频，可以选取一帧包含了各个光捕球图像的图像帧，作为目标红外图像。同时，可以使用非红外摄像机，针对目标对象采集视频，并且，可以从所采集的视频中，选取一帧视频图像，作为目标可见光图像。

其中，非红外摄像头和红外摄像头可以在同一个水平位置，且非红外摄像头和红外摄像头的镜头中心相距不超过预设距离阈值。预设距离阈值可以根据实际应用情况具体进行设定，并且预设距离阈值越小，非红外摄像头和红外摄像头所采集的视频图像越好。例如预设距离阈值可以设定为50厘米或100厘米。

如图4b所示，目标对象403的左手腕、右手腕、左手肘与右手肘部位被部署了光捕球402，可以使用红外摄像机针对被部署了光捕球的目标对象403，采集得到目标红外图像410。

步骤302，确定目标红外图像包含的各个光捕球图像的位置信息。

本发明实施例中，各个光捕球图像的位置信息可以为各个光捕球图像的位置坐标。具体的，可以采用如图5所示的方式，确定目标红外图像包含的各个光捕球图像的位置坐标：

步骤501，提取目标红外图像的像素矩阵；

步骤502，将像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；

步骤503，确定目标像素矩阵的连通区域，每个连通区域对应一个光捕球图像；

步骤504，针对每个连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

具体的，可以提取目标红外图像的像素矩阵，所提取的像素矩阵为w×h×1维的矩阵，其中，w为像素矩阵中横向的像素点的数量，h为像素矩阵中纵向像素点的数量。针对所提取的像素矩阵，将像素矩阵中像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；其中，预设像素阈值可以根据实际应用具体进行设定，设定原则为：保留光捕球图像的像素值；例如，预设像素阈值可以设定为200或210。针对目标像素矩阵，确定目标像素矩阵的多个连通区域。其中，连通区域为：目标像素矩阵中像素值高于预设像素阈值且位置相邻的像素点组成的区域，每个连通区域对应一个光捕球图像。针对所确定的多个连通区域，将各个连通区域中，像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

举例说明，若在目标对象A的4个指定关键点“左手肘、右手肘、左手腕、右手腕”均部署了光捕球，针对目标对象A所获取的目标红外图像中，包含4个光捕球图像，并且针对目标红外图像所提取的像素矩阵a为1080×640×1维的矩阵，像素值矩阵a的各个像素点的值位于区间[0，255]。预设像素阈值可以设定为200，可以针对所提取的1080×640×1维的像素矩阵，将该矩阵中像素值小于200的像素点的像素值全部置为0，得到的矩阵作为目标像素矩阵a₁，目标像素矩阵a₁的各个像素点的像素值位于区间[200，255]。针对目标像素矩阵，将目标像素矩阵中，像素值在区间[200，255]内，且位置相邻的像素点组成的区域确定为连通区域，可以得到4个光捕球图像分别对应的连通区域。针对各个连通区域，将连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标，可以得到4个光捕球图像的位置坐标。

步骤303，根据目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵。

本发明实施例中，可以采用以下方法生成指定关键点对应的第一红外特征矩阵：

步骤A1：根据目标红外图像包含的各个光捕球图像的位置坐标，针对每个光捕球图像，可以生成以该光捕球图像的位置坐标为中心，以预设距离为半径，且呈高斯分布的图像，作为该光捕球图像的先验热度图。

其中，预设距离可以根据实际应用情况具体进行设定，例如，预设距离可以设定为1厘米或2厘米。

步骤A2：分别提取各个先验热度图的热度值矩阵，作为各个指定关键点对应的第一红外特征矩阵。

其中，所提取的先验热度图的热度值矩阵中，热度值最大的点的位置坐标即该先验热度图对应的光捕图像的位置坐标。

本发明实施例中，还可以采用以下方法生成指定关键点对应的第一红外特征矩阵：

步骤B1：根据目标红外图像包含的各个光捕球图像的位置坐标，针对每个光捕球图像，将目标红外图像的像素矩阵中以该光捕球图像的位置坐标为中心，以预设像素点数为半径所确定区域内的像素点的像素值保留，该区域之外的像素点的像素值均重置为0，得到该光捕球图像的像素矩阵，作为该光捕球图像对应的各指定关键点所对应的第一红外特征矩阵。

其中，预设距离可以根据实际应用情况具体进行设定，例如，预设像素点数可以设定为5或10。w为目标红外图像的矩阵的长，h为目标红外图像的矩阵的宽。

步骤304，生成k-n个零矩阵，作为多个预设关键点中非指定关键点对应的第二红外特征矩阵。

第一红外特征矩阵与第二红外特征矩阵的维度相同，k为目标对象的预设关键点的数量，n为光捕球的数量。

例如，第一红外特征矩阵为4×4×1维的矩阵，可以生成k-n个均为4×4×1维的零矩阵：

步骤305，将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征。

本发明实施例中，可以根据目标对象的各个预设关键点，以及部署于目标对象的各个光捕球，生成k维的光捕球部署向量。其中，k维的光捕球部署向量的每个元素对应目标对象的一个预设关键点，其中，光捕球部署向量的各个元素中，与预设关键点中的指定关键点相对应的元素的值为1，与预设关键点中的非指定关键点相对应的元素的值为0。

针对光捕球部署向量，将光捕球部署向量中值为1的元素替换为指定关键点对应的第一红外特征矩阵，将光捕球部署向量中值为0的元素替换为非指定关键点对应的第二红外特征矩阵，得到先验热度图组矩阵，作为光捕特征；先验热度图组矩阵为w×h×k维的矩阵，先验热度图的矩阵为w×h的矩阵，其中，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽。

举例说明，若目标对象B有6个预设关键点，且6个预设关键点中，代表目标对象B的左手肘和右手肘两个部位的预设关键点被确定为指定关键点，并在两个指定关键点处均部署了光捕球。可以根据目标对象B的6个预设关键点，以及部署于目标对象的2个光捕球，生成6维的光捕球部署向量：[1 1 0 0 0 0]。其中，所生成的6维的光捕球部署向量各个元素中，值为1的元素与目标对象B的指定关键点相对应，值为0的元素与目标对象B的预设关键点中的非指定关键点相对应。针对6维的光捕球部署向量，将6维的光捕球部署向量中值为1的元素替换为指定关键点对应的第一红外特征矩阵，将6维的光捕球部署向量中值为0的元素替换为非指定关键点对应的第二红外特征矩阵，得到先验热度图组矩阵，作为光捕特征。若先验热度图的矩阵为4×4的矩阵，其中，6个预设关键点中2个指定关键点的先验热度图矩阵为：

和

其中，各个指定关键点的先验热度图矩阵的值不全为0。6个预设关键点中4个非指定关键点的先验热度图矩阵均为4×4的零矩阵：

则拼接得到的先验热度图组矩阵为4×4×6维的矩阵。具体的，参见图6a，将目标对象B的指定关键点对应的第一红外特征矩阵610和第一红外特征矩阵620，以及目标对象B的非指定关键点对应的第二红外特征矩阵630、第二红外特征矩阵640、第二红外特征矩阵650和第二红外特征矩阵660，进行拼接，得到的拼接后的矩阵如图6a所示。

步骤306，将光捕特征和目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征。

本发明实施例中，目标可见光图像中的不同颜色往往是由一定的色彩模式构成，例如，由RGB(Red、Green、Blue，红色、绿色、蓝色)色彩模式构成，或者由CMYK(Cyan、Magenta、Yellow、Black，青色、品红色、黄色、黑色)色彩模式构成。因此，可以按照色彩模式，将目标可见光图像的每个像素点的色彩分离，从而可以得到目标可见光图像的色彩模式中的每个色彩分量的色彩图像，例如，按照RGB色彩模式，可以得到目标可见光图像的红色色彩图像、目标可见光图像的绿色色彩图像和目标可见光图像的蓝色色彩图像。

针对目标可见光图像的各个色彩图像，可以将该色彩图像中的横向像素点的数量作为该色彩图像的色值矩阵的列数，将该色彩图像中的纵向像素点的数量作为该色彩图像的色值矩阵的行数，将该色彩图像中每个像素点的颜色色值作为该像素点对应的元素在该色彩图像的色值矩阵中的元素值，从而可以得到该色彩图像各个色值矩阵。例如，按照RGB色彩模式，可以得到目标可见光图像的红色色彩图像、目标可见光图像的绿色色彩图像和目标可见光图像的蓝色色彩图像，且各个色彩图像的横向像素点的数量和纵向像素点的数量都为4，可以依次得到如下所示的目标可见光图像的红色色值矩阵、绿色色值矩阵和蓝色色值矩阵：

和

在得到目标可见光图像的各个颜色通道的色值矩阵之后，可以将各个色值矩阵进行拼接。参见图6b，将红色色值矩阵670、绿色色值矩阵680和蓝色色值矩阵690进行拼接，得到的拼接矩阵可以如图6b所示。可以将拼接后的色值矩阵作为非光捕特征。

本发明实施例中，将先验热度图组矩阵，与所提取的各个颜色通道的色值矩阵进行拼接，得到融合矩阵，作为融合特征，融合矩阵为w×h×(k+m)维的矩阵，m为目标可见光图像的颜色通道的数量。

举例说明，若目标对象有6个预设关键点，且所提取的目标对象的光捕特征为如图6a所示的先验热度图组矩阵；目标可见光图像的颜色通道的数量为3，且所提取的目标对象的非光捕特征为如图6b所示的各个颜色通道的色值矩阵所拼接的矩阵。则可以将图6a所示的光捕特征和图6b所示的非光捕特征进行拼接，得到如图6c所示的融合矩阵，作为目标对象的融合特征。

步骤307，将融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果。

本发明实施例中，参见图7，预先训练的关键点识别模型，可以包括：特征提取网络层、热度图网络层和输出层。其中，特征提取网络层可以为：ResNet(残差神经网络)，或Inception网络，或VGG(视觉几何群网络)；热度图网络层可以包括多个卷积神经网络。

本步骤中，将融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果，可以包括：

步骤B1：将融合特征输入预先训练的关键点识别模型的特征提取网络层。

步骤B2：特征提取网络层，基于融合特征提取第一图像特征矩阵F_i，并将第一图像特征矩阵输入热度图网络层：

其中，s为缩放系数，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽，f是第一图像特征矩阵的通道数，且f可以取值为48或72。

步骤B3：热度图网络层，根据第一图像特征矩阵，预测目标对象的各个预设关键点对应的预测热度图矩阵，并将由各个预测热度图矩阵在第三维度上所拼接得到的第二图像特征矩阵输入输出层；其中，各个预测热度图矩阵均为

的矩阵，第二图像特征矩阵H_i：

其中，第二图像特征矩阵可以视为各个预设关键点的预测热度矩阵在第三维度上拼接得到的矩阵。

步骤B4：输出层，针对预设关键点，将该关键点对应的预测热度图中热度值最大的点的位置坐标确定为该关键点的位置坐标，以及将该关键点对应的预测热度图矩阵在第二图像特征矩阵的第三维度上对应的维度值确定为该关键点的标识；并输出该关键点的标识和位置坐标。

本发明实施例中，目标对象的每个预设关键点与第二图像特征矩阵中第三维度上的预测热度图的矩阵一一对应，且针对每个预设关键点，该关键点对应的预测热度图中热度值最大的点的位置坐标为该预设关键点的位置坐标；该预设关键点对应的预测热度图矩阵在第二图像特征矩阵的第三维度上对应的维度值为该预设关键点的标识。

举例说明，若目标对象为图4a所示的目标对象401，目标对象401有24个预设关键点，则热度图网络层输出的第二图像特征矩阵为可以为图8所示的矩阵，且图8所示的第二图像特征矩阵可视为矩阵801、矩阵802…矩阵8024在第三维度上进行拼接得到的拼接矩阵。

如图8所示的目标对象401的热度图组矩阵，目标对象401的每个预设关键点与第二图像特征矩阵中第三维度上的预测热度图矩阵一一对应。其中，矩阵801为目标对象401的预设关键点1对应的预测热度图矩阵、矩阵802为目标对象401的预设关键点2对应的预测热度图矩阵…矩阵8024为目标对象401的预设关键点24对应的预测热度图矩阵。

针对每个预设关键点，如矩阵801对应的预设关键点在第三维度的维度值为1，则该预设关键点的标识为1。可以根据该标识确定出该预设关键点代表的人体部位。同时，可以将该预设关键点对应的预测热度图矩阵中，值最大的点的位置坐标确定为该预设关键点的位置坐标。

针对每个预设关键点，输出层可以将该预设关键点的标识与该预设关键点的位置坐标输出。

本发明实施例中，参见图9，一种训练关键点识别模型的流程，包括：

步骤901，将样本对象的融合特征输入待训练神经网络模型，得到样本对象的各个预设关键点的标识和位置信息，作为输出结果。

其中，其中，样本对象可以是人物和动物等等可以获取到红外信息的对象，本发明实施例中样本对象为人物。

步骤902，确定当前的待训练神经模型的损失函数值。

步骤903，判断损失函数值是否小于预设损失函数阈值，若判断结果为是，执行步骤904，若判断结果为否，执行步骤905。

步骤904，确定当前的待训练神经网络模型为关键点识别模型。

步骤905，基于预先确定的各个样本对象的多个预设关键点的标识和位置信息，以及输出结果，调整当前的待训练神经网络模型的参数；并返回步骤601。

基于同一发明构思，根据本发明上述实施例提供的关键点识别方法，相应地，本发明另一实施例还提供了一种关键点识别装置，其结构示意图如图10所示，具体包括：

图像获取模块1001，用于获得非红外摄像头所采集的视频图像中包含目标对象多个预设关键点的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；目标对象被预先部署有多个光捕球，其中，每个光捕球对应目标对象多个预设关键点中的一个指定关键点；

光捕特征确定模块1002，用于基于目标红外图像包含的各个光捕球图像的位置信息，确定目标红外图像的特征，作为光捕特征；

特征融合模块1003，用于将光捕特征和目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征；

关键点识别模块1004，用于将融合特征输入预先训练的关键点识别模型，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果；其中，关键点识别模型为基于训练样本集进行训练得到的，训练样本集包含：多个样本对象的融合特征，以及各个样本对象的多个预设关键点的标识和位置信息。

可见，采用本发明实施例提供的装置，通过提取目标红外图像的光捕特征和目标可见光图像的非光捕特征，并对光捕特征和非光捕特征进行融合，得到融合特征，通过预先训练的关键点识别模型对融合特征进行识别，得到目标对象的各个预设关键点的标识和位置信息，作为识别结果。采用本发明实施例提供的装置，通过光捕特征预先确定出目标对象的多个预设关键点中的部分指定关键点，进一步的通过融合特征识别出目标对象的所有预设关键点。通过结合光捕技术的高精度和深度学习模型的易部署性，实现了在简化对关键点识别的处理之下，提高了关键点识别的准确率，并且由于简化了对关键点识别的处理，也降低了关键点识别的使用场景的要求。

进一步的，参见图11，光捕特征确定模块1002，包括：

位置信息确定子模块1101，用于确定目标红外图像包含的各个光捕球图像的位置信息；

第一特征矩阵生成子模块1102，用于根据目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵；

第二特征矩阵生成子模块1103，用于生成k-n个零矩阵，作为多个预设关键点中非指定关键点对应的第二红外特征矩阵，第一红外特征矩阵与第二红外特征矩阵的维度相同，k为目标对象的预设关键点的数量，n为光捕球的数量；

特征矩阵拼接子模块1104，用于将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征。

进一步的，各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

位置信息确定子模块1101，具体用于提取目标红外图像的像素矩阵；将像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定目标像素矩阵的连通区域，每个连通区域对应一个光捕球图像；针对每个连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，第一特征矩阵生成子模块1102，具体用于根据目标红外图像包含的各个光捕球图像的位置坐标，针对每个光捕球图像，生成以该光捕球图像的位置坐标为中心，以预设距离为半径，且呈高斯分布的图像，作为该光捕球图像的先验热度图；分别提取各个先验热度图的热度值矩阵，作为各个指定关键点对应的第一红外特征矩阵。

进一步的，特征矩阵拼接子模块1104，具体用于根据目标对象的各个预设关键点，以及部署于目标对象的各个光捕球，生成k维的光捕球部署向量；k维的光捕球部署向量的每个元素对应目标对象的一个预设关键点，其中，光捕球部署向量的各个元素中，与预设关键点中的指定关键点相对应的元素的值为1，与预设关键点中的非指定关键点相对应的元素的值为0；针对光捕球部署向量，将光捕球部署向量中值为1的元素替换为指定关键点对应的第一红外特征矩阵，将光捕球部署向量中值为0的元素替换为非指定关键点对应的第二红外特征矩阵，得到先验热度图组矩阵，作为光捕特征；先验热度图组矩阵为w×h×k维的矩阵，先验热度图的矩阵为w×h的矩阵，其中，w为先验热度图的矩阵的长，h为先验热度图的矩阵的宽；

特征融合模块1003，具体用于将所述先验热度图组矩阵，与所述目标可见光图像的各个颜色通道的色值矩阵进行拼接，得到融合矩阵，作为融合特征，所述融合矩阵为w×h×(k+m)维的矩阵，m为可见光图像的颜色通道的数量。

进一步的，预先训练的关键点识别模型，包括：特征提取网络层、热度图网络层和输出层；

关键点识别模块，具体用于将融合特征输入预先训练的关键点识别模型的特征提取网络层；

特征提取网络层，基于融合特征提取第一图像特征矩阵F_i，并将第一图像特征矩阵输入热度图网络层：

热度图网络层，根据第一图像特征矩阵，预测目标对象的各个预设关键点对应的预测热度图矩阵，并将由各个预测热度图矩阵在第三维度上所拼接得到的第二图像特征矩阵输入所述输出层；其中，各个预测热度图矩阵均为

的矩阵，第二图像特征矩阵H_i：

输出层，针对预设关键点，将该关键点对应的预测热度图中热度值最大的点的位置坐标确定为该关键点的位置坐标，以及将该关键点对应的预测热度图矩阵在第二图像特征矩阵的第三维度上对应的维度值确定为该关键点的标识；并输出该关键点的标识和位置坐标。

进一步的，特征提取网络层为：残差神经网络ResNet，或Inception网络，或视觉几何群网络VGG；热度图网络层包括多个卷积神经网络。

进一步的，参见图11，关键点识别装置，还包括：模型训练模块1105；

模型训练模块1105，用于采用如下步骤基于训练样本集训练得到关键点识别模型：

确定当前的待训练神经模型的损失函数值；

判断损失函数值是否小于预设损失函数阈值；

如果不是，基于预先确定的各个样本对象的多个预设关键点的标识和位置信息，以及输出结果，调整当前的待训练神经网络模型的参数；并返回将样本对象的融合特征输入待训练神经网络模型的步骤。

进一步的，非红外摄像头和红外摄像头在同一个水平位置，且非红外摄像头和红外摄像头的镜头中心相距不超过预设距离阈值。

本发明实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一关键点识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一关键点识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种关键点识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标红外图像包含的各个光捕球图像的位置信息，确定所述目标红外图像的特征，作为光捕特征，包括：

确定所述目标红外图像包含的各个光捕球图像的位置信息；

3.根据权利要求2所述的方法，其特征在于，所述各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

提取所述目标红外图像的像素矩阵；

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标红外图像包含的各个光捕球图像的位置信息，生成指定关键点对应的第一红外特征矩阵，包括：

5.根据权利要求3所述的方法，其特征在于，所述将第一红外特征矩阵和第二红外特征矩阵进行拼接得到的拼接特征矩阵，作为光捕特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述光捕特征和所述目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述预先训练的关键点识别模型，包括：特征提取网络层、热度图网络层和输出层；

所述热度图网络层，根据所述第一图像特征矩阵，预测目标对象的各个预设关键点对应的预测热度图矩阵，并将由各个预测热度图矩阵所拼接得到的第二图像特征矩阵输入所述输出层；其中，各个预测热度图矩阵均为

的矩阵，第二图像特征矩阵H_i：

8.根据权利要求1所述的方法，其特征在于，采用如下步骤基于训练样本集训练得到所述关键点识别模型：

确定当前的待训练神经模型的损失函数值；

判断所述损失函数值是否小于预设损失函数阈值；

9.根据权利要求1所述的方法，其特征在于，所述非红外摄像头和所述红外摄像头在同一个水平位置，且所述非红外摄像头和所述红外摄像头的镜头中心相距不超过预设距离阈值。

10.一种关键点识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。