CN113516705A

CN113516705A - 一种手部关键点的标定方法及装置

Info

Publication number: CN113516705A
Application number: CN202010276930.5A
Authority: CN
Inventors: 顾阳; 王晋玮; 杨德尧; 左钟融; 张册; 刘运泽
Original assignee: Momenta Suzhou Technology Co Ltd
Current assignee: Momenta Suzhou Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-10-19
Anticipated expiration: 2040-04-10
Also published as: CN113516705B

Abstract

本发明实施例公开一种手部关键点的标定方法及装置，该方法包括：获得多个图像采集设针对手势展示区域采集的红外图像；基于预先建立的关键点检测模型，从每一红外图像中确定出目标手势中手部关键点的检测位置信息及检测语义信息；对红外图像进行分组，得到至少一组红外图像组；利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及其对应的设备信息，确定出目标检测语义信息对应的目标空间位置信息；基于目标检测语义信息对应的目标空间位置信息及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中目标检测语义信息所对应手部关键点的标注位置信息，以实现自动对红外图像中的手部关键点进行标注。

Description

一种手部关键点的标定方法及装置

技术领域

本发明涉及图像标定技术领域，具体而言，涉及一种手部关键点的标定方法及装置。

背景技术

随着科技的发展，为了提高用户生活质量，各种智能化控制设备应运而生。例如，智能家居以及智能驾驶等领域，通过用户的手势控制被控设备的相应的功能，以提高用户的使用体验。

目前通过手势控制被控设备的相应功能的过程中，首先需要检测图像中手部的各关键点的位置，进而基于各关键点的位置确定图像中手部所展示手势的含义，进而基于所识别的手势的含义控制被控设备的相应功能。

相关技术中，图像中手部的各关键点的位置可以通过神经网络模型进行检测。而为了训练得到可以用于检测图像中手部的各关键点的位置的关键点检测模型，需要获得大量的标注有手部的各关键点的红外图像，来训练得到手部关键点检测模型。相应的，如何获得标注有手部关键点的红外图像至关重要，即如何对红外图像中包含的各种手势的手部关键点进行标定至关重要。

发明内容

本发明提供了一种手部关键点的标定方法及装置，以实现自动对红外图像中的手部关键点进行标注。具体的技术方案如下：

第一方面，本发明实施例提供了一种手部关键点的标定方法，所述方法包括：

获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像，其中，所述多个图像采集设备从不同角度对所述手势展示区域内展示的目标手势进行拍摄；

基于预先建立的关键点检测模型，从每一红外图像中确定出所述目标手势中手部关键点的检测位置信息及检测语义信息，其中，所述预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型；

基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对所述红外图像进行分组，得到至少一组红外图像组；

利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；

针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

可选的，所述基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对所述红外图像进行分组，得到至少一组红外图像组的步骤，通过如下两种实现方式中的任一种实现方式实现：

第一种实现方式：

针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组，得到至少一组红外图像组；

第二种实现方式：

基于红外图像对应的图像采集设备的设备位姿信息，将所对应图像采集设备位置相邻的多个红外图像，划分为一组，得到至少一组红外图像组。

可选的，在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下；

所述利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息的步骤，包括：

针对每一红外图像组，利用该红外图像组中的每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第一三维位置信息，N为不小于2的任一整数；

针对每一红外图像组，利用该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息，以及该检测语义信息所对应手部关键点的检测位置信息及其对应的设备位姿信息和设备内参信息，确定出目标语义信息及其对应的手部关键点对应的目标空间位置信息。

可选的，所述利用该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息，以及该检测语义信息所对应手部关键点的检测位置信息及其对应的设备位姿信息和设备内参信息，确定出目标语义信息及其对应的手部关键点对应的目标空间位置信息的步骤，包括：

针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息；

针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息，以及该检测语义信息所对应手部关键点的检测位置信息，确定该第一三维位置信息对应的重投影误差；

针对每一第一三维位置信息，判断该第一三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值；

在判断该第一三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该第一三维位置信息对应的检测语义信息为目标检测语义信息，并将该对应最小重投影误差的第一三维位置信息，确定为该目标检测语义信息对应的手部关键点对应的目标空间位置信息。

可选的，所述用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息的步骤，包括：

针对每一红外图像组，执行如下步骤A-H，以确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；

步骤A：基于该红外图像组的每一当前的红外图像中、该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及每一当前的红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组对应的检测语义信息所对应手部关键点对应的当前三维位置信息；

步骤B：基于该红外图像组对应的检测语义信息所对应手部关键点对应的当前三维位置信息，以及每一当前的红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组所对应当前三维位置信息对应的空间点、在每一当前的红外图像中的投影点的第二投影位置信息；

步骤C：针对该红外图像组的每一当前的红外图像，基于该当前的红外图像中该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该红外图像组所对应当前三维位置信息对应的空间点、在该当前的红外图像中的第二投影位置信息，确定该当前的红外图像对应的重投影误差；

步骤D：针对该红外图像组，判断该红外图像组的当前的红外图像对应的重投影误差中，是否存在超过预设误差阈值的重投影误差；

步骤E：若判断该红外图像组的当前的红外图像对应的重投影误差中，不存在超过预设误差阈值的重投影误差，则将该红外图像组所对应当前三维位置信息，确定为该红外图像组对应的目标检测语义信息所对应手部关键点对应的目标空间位置信息；

步骤F：若判断该红外图像组的当前的红外图像对应的重投影误差中，存在超过预设误差阈值的重投影误差，将所对应重投影误差超过预设误差阈值的当前的红外图像，从该红外图像组的当前的红外图像中滤除，得到该红外图像组的新的当前的红外图像；

步骤G：判断该红外图像组的新的当前的红外图像的数量是否不低于预设数量阈值，若判断该红外图像组的新的当前的红外图像的数量不低于所述预设数量阈值，返回执行步骤A；

步骤H：若判断该红外图像组的新的当前的红外图像的数量低于所述预设数量阈值，确定该红外图像组对应的检测语义信息不为目标检测语义信息。

可选的，在基于红外图像对应的图像采集设备的设备位姿信息对所述红外图像进行分组的情况下；

针对每一红外图像组对应的每一检测语义信息，基于该检测语义信息所对应手部关键点的检测位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第二三维位置信息，其中，若红外图像组中至少两帧红外图像的手部关键点对应相同的检测语义信息时，将该检测语义信息作为该红外图像组对应的检测语义信息；

针对每一检测语义信息所对应手部关键点对应的每一第二三维位置信息，利用该第二三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息，其中，该第一红外图像为：包含对应该检测语义信息的手部关键点的红外图像；

针对每一检测语义信息所对应手部关键点对应的每一第二三维位置信息，利用该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息，以及该检测语义信息对应的手部关键点的检测位置信息，确定该第二三维位置信息对应的重投影误差；

针对每一红外图像组对应的每一检测语义信息，判断该检测语义信息所对应手部关键点对应的第二三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值；

在判断该检测语义信息所对应手部关键点对应的第二三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该检测语义信息为目标检测语义信息，并将对应最小重投影误差的第二三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息。

第二方面，本发明实施例提供了一种手部关键点的标定装置，所述装置包括：

获得模块，被配置为获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像，其中，所述多个图像采集设备从不同角度对所述手势展示区域内展示的目标手势进行拍摄；

第一确定模块，被配置为基于预先建立的关键点检测模型，从每一红外图像中确定出所述目标手势中手部关键点的检测位置信息及检测语义信息，其中，所述预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型；

分组模块，被配置为基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对所述红外图像进行分组，得到至少一组红外图像组；

第二确定模块，被配置为利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；

第三确定模块，被配置为针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

由上述内容可知，本发明实施例提供的一种手部关键点的标定方法及装置，获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像，其中，多个图像采集设备从不同角度对手势展示区域内展示的目标手势进行拍摄；基于预先建立的关键点检测模型，从每一红外图像中确定出目标手势中手部关键点的检测位置信息及检测语义信息，其中，预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型；基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对红外图像进行分组，得到至少一组红外图像组；利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

应用本发明实施例，可以利用预先建立的关键点检测模型，每一红外图像中，初步检测出其中包括的目标手势中手部关键点的检测位置信息及检测语义信息；对红外图像进行分组，使得每组中包括多帧含有相同的检测语义信息的手部关键点的红外图像；利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及检测语义信息所对应手部关键点对应的设备位姿信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息，即构建目标检测语义信息所对应手部关键点对应的空间点；进而，利用目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息及每一红外图像对应的设备位姿信息，优化确定出每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息，以实现自动对红外图像中的手部关键点进行标注，节省人力成本和时间成本，且通过目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息，对初步得到的目标检测语义信息所对应手部关键点的检测位置信息进行修正，确定出目标检测语义信息所对应手部关键点的较准确的标注位置信息，并且，可以对包含被遮挡的手部关键点的红外图像中手部关键点的标注。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、可以利用预先建立的关键点检测模型，每一红外图像中，初步检测出其中包括的目标手势中手部关键点的检测位置信息及检测语义信息；对红外图像进行分组，使得每组中包括多帧含有相同的检测语义信息的手部关键点的红外图像；利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及检测语义信息所对应手部关键点对应的设备位姿信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息，即构建目标检测语义信息所对应手部关键点对应的空间点；进而，利用目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息及每一红外图像对应的设备位姿信息，优化确定出每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息，以实现自动对红外图像中的手部关键点进行标注，节省人力成本和时间成本，且通过目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息，对初步得到的目标检测语义信息所对应手部关键点的检测位置信息进行修正，确定出目标检测语义信息所对应手部关键点的较准确的标注位置信息，并且，可以对包含被遮挡的手部关键点的红外图像中手部关键点的标注。

2、在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下，针对每一红外图像组，利用该组中的每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及以及该N帧红外图像对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第一三维位置信息；进而，针对该红外图像组对应的每一第一三维位置信息，利用该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息，以及该检测语义信息所对应手部关键点的检测位置信息，确定该第一三维位置信息对应的重投影误差；进而，将所对应第一三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的检测语义信息作为目标检测语义信息，并将对应最小重投影误差的第一三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息，以确定出目标空间位置较准确的空间点，为后续的准确地确定手部关键点的标注位置信息提供基础，进而，得到较准确的目标检测语义信息所对应手部关键点的标注位置信息。

3、在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下，利用红外图像组的每一当前的红外图像及其对应的设备位姿信息和设备内参信息，确定该红外图像组对应的检测语义信息所对应手部关键点对应的当前三维位置信息；进而，基于该当前三维位置信息，以及每一当前的红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组所对应当前三维位置信息对应的空间点、在每一当前的红外图像中的投影点的第二投影位置信息，针对该红外图像组的每一当前的红外图像，基于该当前的红外图像中该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该当前三维位置信息对应的空间点、在该当前的红外图像中的第二投影位置信息，确定该当前的红外图像对应的重投影误差；判断该红外图像组的当前的红外图像对应的重投影误差中，是否存在超过预设误差阈值的重投影误差，若判断不存在，将该当前三维位置信息，确定为该红外图像组对应的目标检测语义信息所对应手部关键点对应的目标空间位置信息；若判断存在，剔除该红外图像组的当前的红外图像中所对应重投影误差较大的红外图像，确定该红外图像组新的当前的红外图像，在确定红外图像组的当前的红外图像的数量不低于预设数量阈值的情况下，继续构建该红外图像组对应的检测语义信息对应的当前的三维位置信息，直至判断该红外图像组的当前的红外图像对应的重投影误差中，不存在超过预设误差阈值的重投影误差，则将该红外图像组对应的检测语义信息所对应当前的三维位置信息，确定为目标检测语义信息所对应手部关键点对应的目标空间位置信息，以确定出较准确的目标语义信息所对应眼睛关键点对应的空间位置信息，或判断该红外图像组的新的当前的红外图像的数量低于预设数量阈值，确定该红外图像组对应的检测语义信息不为目标检测语义信息。。

4、在基于红外图像对应的图像采集设备的位姿信息对红外图像进行分组的情况下；针对每一红外图像组对应的每一语义信息，针对每一红外图像组对应的每一检测语义信息，确定该检测语义信息所对应手部关键点对应的第二三维位置信息，并构建该检测语义信息所对应手部关键点对应的第二三维位置信息对应的重投影误差，将所对应第二三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的检测语义信息作为目标检测语义信息，并将对应最小重投影误差的第二三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息，以确定出空间位置较准确的空间点，进而，得到较准确的目标检测语义信息所对应手部关键点的标注位置信息。

5、利用每一目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息，确定每一目标检测语义信息所对应手部关键点对应的空间点在红外图像中的映射位置信息；并将该目标空间位置信息对应的空间点在每一红外图像中的映射位置信息，确定为每一红外图像中该目标检测语义信息对应的手部关键点的标注位置信息，以得到较准确的目标检测语义信息所对应手部关键点的标注位置信息。

6、利用所获得的红外图像以及其对应的更准确的每一目标检测语义信息所对应手部关键点的标注位置信息，修正预先建立的关键点检测模型，以得到对红外图像中手部关键点的检测结果更准确的关键点检测模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的手部关键点的标定方法的一种流程示意图；

图2为本发明实施例提供的手部关键点的标定方法的另一种流程示意图；

图3为本发明实施例提供的手部关键点的标定装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种手部关键点的标定方法及装置，以实现自动对红外图像中的手部关键点进行标注。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的手部关键点的标定方法的一种流程示意图。该方法可以包括以下步骤：

S101：获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像。

其中，多个图像采集设备从不同角度对手势展示区域内展示的目标手势进行拍摄。

本发明实施例所提供的该方法可以应用于任意类型的具有计算能力的电子设备中，该电子设备可以为服务器或者终端。该电子设备可以与多个图像采集设备进行直接或间接连接，可以获得每一图像采集设备在相同采集周期内所采集的红外图像。一种情况中，该多个图像采集设备可以设置于车辆的内部，该手势展示区域为车辆内部的多个图像采集设备均可拍摄到的区域。

多个图像采集设备可以从不同角度对手势展示区域内展示的目标手势进行拍摄，位置相邻的图像采集设备的图像采集区域存在重叠。在一种情况中，该多个图像采集设备可以实现对手势展示区域内展示的目标手势进行360度监控。该多个图像采集设备可以包括至少3台图像采集设备。在一种实现方式中，该多个图像采集设备可以包括9台或16台图像采集设备。该图像采集设备可以为红外摄像头以及红外相机等可以采集红外图像的设备。

S102：基于预先建立的关键点检测模型，从每一红外图像中确定出目标手势中手部关键点的检测位置信息及检测语义信息。

其中，预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型。该预先建立的关键点检测模型可以为：基于深度学习的神经网络模型。初始的：该预先建立的关键点检测模型为：基于标注有样本关键点的色彩样本图像训练所得的模型，随之时间推移，该预先建立的关键点检测模型为：通过该多个图像采集设备所采集的红外图像，以及通过本发明实施例所提供的手部关键点的标定流程，从红外图像中自动标注的手部关键点的标注位置信息进行修正后的模型。

其中，基于标注有样本关键点的色彩样本图像，训练得到该预先建立的关键点检测模型的过程，可以参见相关技术中训练得到神经网络模型的过程，在此不再赘述。

电子设备获得多个图像采集设备中每一图像采集设备采集的红外图像之后，将所获得的红外图像均输入至预先建立的关键点检测模型中，基于预先建立的关键点检测模型，从每一红外图像中确定出其中的手部关键点的检测位置信息及检测语义信息，为了描述清楚。

其中，手部关键点对应的检测语义信息可以是：描述该手部关键点的属性的信息，手部关键点的属性的信息包括但不限于：手部关键点所属手，所属手指，处于所属手指的位置以及处于所属手的位置。例如：手部关键点为左手的食指的指尖；或手部关键点为右手的虎口位置；或者手部关键点为左手的食指的最上的指节处；或者手部关键点为左手的食指的中间的指节处；或者手部关键点为左手的食指的最下的指节处；或者手部关键点为左手的掌心位置处等等。

S103：基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对红外图像进行分组，得到至少一组红外图像组。

本步骤中，考虑到不同的图像采集设备采集到的红外图像之间存在重叠区域也存在不重叠区域。相应的，不同的图像采集设备采集到的红外图像之间可以包含对应相同的检测语义信息的手部关键点，也可能不包含对应相同的检测语义信息的手部关键点。鉴于此，为了便于计算，减少计算量，可以首先基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息，对红外图像进行分组，得到至少一组红外图像组，其中，每一红外图像中可以包括包含有相同检测语义信息的手部关键点的红外图像。进而，针对不同的红外图像组，确定该红外图像组对应的检测语义信息所对应手部关键点对应的空间点的空间位置信息。

其中，在将包含对应该检测语义信息的手部关键点的红外图像，划分为一组红外图像组的情况下，红外图像组对应的检测语义信息可以指：所包含红外图像均包含所对应手部关键点的检测语义信息。在基于红外图像对应的图像采集设备的设备位姿信息，将所对应图像采集设备位置相邻的多个红外图像，划分为一组的情况下，红外图像组对应的检测语义信息可以指：该红外图像组所包含红外图像中的手部关键点对应的检测语义信息中，至少存在第一数量个的检测语义信息，该第一数量不低于2。

在本发明的一种实现方式中，基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息，对红外图像进行分组的方式多种多样，为了保证可以针对每一红外图像组中的至少一组对应同一检测语义信息的手部关键点构建出其对应的空间点，所述S103，可以通过如下两种实现方式中的任一种实现方式实现：

第一种实现方式：针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组，得到至少一组红外图像组。

本实现方式中，针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组，得到每一检测语义信息对应的红外图像组，使得包含对应相同检测语义信息的手部关键点的红外图像组成一组红外图像组，便于后续针对同一检测语义信息的手部关键点构建其对应的空间点。

第二种实现方式：基于红外图像对应的图像采集设备的位姿信息，将所对应图像采集设备位置相邻的多个红外图像，划分为一组，得到至少一组红外图像组。

本实现方式中，考虑到位置相邻的图像采集设备之间的图像采集区域一般存在重叠，其采集的红外图像之间可能包含对应相同的检测语义信息的手部关键点，为了便于针对同一检测语义信息的手部关键点构建其对应的空间点，可以基于多个图像采集设备的位姿信息，将所对应图像采集设备位置相邻的多个红外图像，划分为一组，得到至少一组红外图像组。一种情况，可以预先设置该位置相邻的多个图像采集设备的具体数量。

举例而言，图像采集系统包括编号为1至16的16个图像采集设备，编号1至16的16个图像采集设备依次位置相邻，且组成环形；可以针对位于该环形内部的手势展示区域进行拍摄。此时，可以将编号为1到5的5个图像采集设备分成一组、编号为2到6的5个图像采集设备分成一组，以此类推，将编号为12到16的5个图像采集设备分为一组，将编号为13到1的5个图像采集设备分为一组。

S104：利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息。

本步骤，对红外图像进行分组后，可以针对不同的分组依据，利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息对应的手部关键点对应的目标空间位置信息。

其中，该目标检测语义信息可以为全部或部分该检测语义信息。

其中，每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息为：每一检测语义信息所对应手部关键点所在红外图像对应的设备位姿信息和设备内参信息，即采集得到该红外图像的图像采集设备的设备位姿信息和设备内参信息。

设备内参信息包括但不限于图像采集设备的横轴方向上每个像素点的长度，纵轴方向上的每个像素点的长度，焦距，像主点的位置信息以及缩放因数等，像主点为光轴与像平面的交点。图像采集设备的设备位姿信息可以包括：图像采集设备采集得到红外图像时的位置和姿态。

一种情况中，图像采集设备的设备位姿信息可以为：在该图像采集设备对应的安装对象所在坐标系下的位姿信息，其中，图像采集系统对应的安装对象为安装该图像采集系统的对象。举例而言，若多个图像采集设备安装于目标车辆上，该目标车辆为图像采集设备对应的安装对象，相应的，图像采集设备的设备位姿信息可以为：在目标车辆的车体坐标系下的位姿信息。图像采集设备相应于目标车辆而言，其安装位置固定，相应的，可以认为图像采集设备在目标车辆的车体坐标系下的位姿信息为固定的。

另一种情况，图像采集设备的设备位姿信息可以为：在世界坐标系下的位姿信息。若多个图像采集设备安装于行驶中的车辆时，图像采集设备的设备位姿信息根据行驶中车辆的车辆位姿信息的变化而变化；图像采集设备的设备位姿信息与行驶中车辆的车辆位姿信息之间的相对位置关系不同，且各图像采集设备之间的相对位置关系不变。该类情况下，可以基于行驶中车辆在每一时刻的车辆位姿信息直接确定图像采集设备在该时刻的设备位姿信息。相应的，本发明实施例中，所提到的红外图像对应的图像采集设备的设备位姿信息为：采集得到该红外图像时的设备位姿信息。

在本发明的一种实施例中，在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下；

所述S104，可以包括如下步骤011-012：

011：针对每一红外图像组，利用该红外图像组中的每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第一三维位置信息。

N为不小于2的任一整数。

012：针对每一红外图像组，利用该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息，以及该检测语义信息所对应手部关键点的检测位置信息及其对应的设备位姿信息和设备内参信息，确定出目标语义信息及其对应的手部关键点对应的目标空间位置信息。

本实施例中，电子设备确定出每一红外图像组之后，针对每一红外图像组对应的检测语义信息，构建该红外图像组对应的检测语义信息所对应手部关键点对应的空间点，并确定该空间点的目标空间位置信息。

考虑到通过预先建立的关键点检测模型，所检测出的手部关键点可能存在出现检测误差的情况。针对每一红外图像组，每一红外图像中包括的该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息存在优劣之分，即位置信息的识别的准确与否之分。利用该红外图像组对应的检测语义信息所对应的检测位置信息相对准确的手部关键点，所构建出的该红外图像组对应的检测语义信息所对应的空间点的位置信息也会相对准确；进而可以利用该红外图像组对应的检测语义信息所对应的、位置信息相对准确的空间点在红外图像中的投影，优化红外图像中该红外图像组对应的检测语义信息所对应手部关键点不够准确的检测位置信息；进而得到该红外图像组各红外图像中该红外图像组对应的检测语义信息所对应手部关键点的位置信息。

鉴于此，在一种实现方式中，电子设备可以针对每一红外图像组，基于预设非线性优化算法，利用该红外图像组中的每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第一三维位置信息。其中，该预设非线性优化算法可以包括但不限于：牛顿法、梯度下降法以及拟牛顿法。该N的取值范围为[2，M]中的整数，M为该红外图像组中红外图像的总数量。

具体的，电子设备可以针对每一红外图像组，随机从该红外图像组中剔除一帧或多帧红外图像，认为该红外图像组中剩余的N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置识别较准确，得到该红外图像组对应的多组包含N帧红外图像的子图像组，即得到包含不小于2帧红外图像的子图像组；进而，利用红外图像组中每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，每N帧红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组对应的检测语义信息所对应手部关键点对应的多个第一三维位置信息；后续执行步骤012。

其中，红外图像组中每N帧红外图像可以组成一个上述的子图像组。

举例而言，一红外图像组a中包含5帧红外图像，分别为红外图像1-5，红外图像组a对应检测语义信息A，即该红外图像组a包含的5帧红外图像，均包括对应检测语义信息A的手部关键点；电子设备针对该红外图像组a，随机剔除一帧或多帧红外图像，将该红外图像组a中剩余的N帧图像作为该红外图像组a对应的一组子图像组，获得该红外图像组a的多组子图像组。该红外图像组a对应的子图像组可以分别包括2帧红外图像，3帧红外图像，4帧红外图像以及5帧红外图像，其中，包括2帧红外图像的子图像组可以为10组，包括3帧红外图像的子图像组可以为10组，包括4帧红外图像的子图像组可以为5组，包括5帧红外图像的子图像组可以为1组。相应的，该红外图像组a对应的检测该语义信息A所对应手部关键点对应的第一三维位置信息，最多可以为26个。

上述利用红外图像组中每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，该N帧红外图像对应的设备位姿信息和设备内参，确定该红外图像组对应的检测语义信息所对应手部关键点对应的多个第一三维位置信息的过程，可以是：

针对该红外图像组的每N帧红外图像，利用该N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像分别对应的图像采集设备的设备内参信息，确定该红外图像组对应的检测语义信息所对应手部关键点，在各自对应的图像采集设备的设备坐标系下的位置信息；进而，利用该N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点，在各自对应的图像采集设备的设备坐标系下的位置信息，以及该N帧红外图像中该红外图像组对应的检测语义信息所对应手部关键点对应的设备位姿信息，即该N帧红外图像每一图像对应的设备位姿信息，确定该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息。

其中，该N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，分别为：采集得到该N帧红外图像中每一图像的图像采集设备的设备位姿信息和设备内参信息。

上述利用该N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像分别对应的图像采集设备的设备内参信息，确定该检测语义信息所对应手部关键点，在各自对应的图像采集设备的设备坐标系下的位置信息的过程，可以采用如下公式(1)进行计算：

其中，(u_i，v_i)表示该N帧红外图像中该红外图像组对应的第j个检测语义信息所对应第i个手部关键点的检测位置信息，(x_cij，y_cij，z_cij)表示该N帧红外图像中该红外图像组对应的第j个检测语义信息所对应第i个手部关键点，在其所对应图像采集设备的设备坐标系下的位置信息，K表示该N帧红外图像中该红外图像组对应的第j个检测语义信息所对应第i个手部关键点所对应图像采集设备的内参矩阵，由设备内参信息确定；i的取值范围可以为[1，N]之间的整数，j的取值范围可以为[1，M]之间的整数，M该红外图像组对应的检测语义信息的总个数。

上述确定该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息的过程，可以通过如下公式(2)，计算得到每一该N帧红外图像中该红外图像组对应的第j个检测语义信息所对应第i个手部关键点对应的空间点的初始三维位置信息；

其中，(x_wij，y_wij，z_wij)表示该N帧红外图像中该红外图像组对应的第j个检测语义信息所对应第i个手部关键点对应的空间点的初始三维位置信息；R_i表示该第i个手部关键点所对应图像采集设备的设备坐标系，与预设空间直角坐标系之间的旋转矩阵；t_i表示该第i个手部关键点所对应图像采集设备的设备坐标系，与预设空间直角坐标系之间的平移矩阵，该R_i和t_i可以基于该第i个手部关键点所对应图像采集设备的设备位姿信息确定。该图像采集设备的设备位姿信息为预设空间直角坐标系下的位姿信息。预设空间直角坐标系为车体坐标系或世界坐标系。

针对每一红外图像组中的每N帧红外图像，利用公式(2)构建出该N帧红外图像中该红外图像组对应的第j个检测语义信息、所对应每一手部关键点对应的空间点的初始三维位置信息，通过预设非线性优化算法，拟合出该N帧红外图像中该红外图像组对应的第j个检测语义信息、所对应手部关键点对应的空间点的第一三维位置信息，以得到该红外图像组对应的第j个检测语义信息所对应手部关键点对应的多个第一三维位置信息。

在一种实现方式中，所述012，可以包括如下步骤0121-0124：

0121：针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息。

0122：针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息，以及该检测语义信息所对应手部关键点的检测位置信息，确定该第一三维位置信息对应的重投影误差。

0123：针对每一第一三维位置信息，判断该第一三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值。

0124：在判断该第一三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该第一三维位置信息对应的检测语义信息为目标检测语义信息，并将该对应最小重投影误差的第一三维位置信息，确定为该目标检测语义信息对应的手部关键点对应的目标空间位置信息。

本实现方式中，可以确定出该红外图像组对应的检测语义信息所对应手部关键点对应的多个第一三维位置信息，该多个第一三维位置信息中存在优劣之分，为了保证后续的在该红外图像组的各红外图像中，确定出该红外图像组对应的检测语义信息所对应手部关键点的相对准确的标注位置信息，可以从该红外图像组对应的检测语义信息所对应手部关键点对应的多个第一三维位置信息中，筛选出最优的第一三维位置信息，进而利用所确定出的最优的第一三维位置信息，从该红外图像组的各红外图像中，确定出该红外图像组对应的检测语义信息所对应手部关键点的相对准确的标注位置信息。

具体的，电子设备针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息，确定出该第一三维位置信息所对应空间点，在该红外图像组对应的检测语义信息所对应手部关键点、对应的图像采集设备的设备坐标系下的位置信息；进而，利用该红外图像组对应的检测语义信息所对应手部关键点对应的图像采集设备的设备内参信息，以及该第一三维位置信息所对应空间点在红外图像组对应的检测语义信息所对应手部关键点对应的设备坐标系下的位置信息，确定出该第一三维位置信息对应的空间点在该红外图像组中每一红外图像中的投影点的投影位置信息，作为第一投影位置信息。

例如：红外图像组b对应检测语义信息B，红外图像组b对应的检测语义信息B所对应手部关键点对应的每一第一三维位置信息，存在26个，该红外图像组b中5帧红外图像均包括对应该检测语义信息B的手部关键点；针对每一个第一三维位置信息，利用该检测语义信息B所对应手部关键点对应的设备位姿信息，将第一三维位置信息对应的空间点，映射至该检测语义信息B所对应手部关键点对应的图像采集设备的设备坐标系下，得到该第一三维位置信息所对应空间点，在该检测语义信息B所对应手部关键点、对应的图像采集设备的设备坐标系下的位置信息；进而，利用该检测语义信息B所对应手部关键点对应的图像采集设备的设备内参信息，以及该第一三维位置信息所对应空间点在检测语义信息B所对应手部关键点、对应的设备坐标系下的位置信息，确定出该第一三维位置信息对应的空间点在该红外图像组中每一红外图像中的第一投影位置信息。

相应的，该红外图像组中各红外图像包括：该红外图像组对应的检测语义信息所对应手部关键点的一个检测位置信息，和每一第一三维位置信息对应的空间点的第一投影位置信息；针对每一第一三维位置信息，利用该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息，以及该检测语义信息所对应手部关键点的检测位置信息，确定该第一三维位置信息对应的重投影误差。

具体的，针对该红外图像组中每一红外图像，计算该第一三维位置信息所对应空间点在该红外图像中的第一投影位置信息，与该红外图像组对应的检测语义信息所对应手部关键点在该红外图像中的检测位置信息之间的距离，作为该红外图像对应的误差距离；计算该红外图像组中所有红外图像对应的误差距离之和，或者计算该红外图像组中所有红外图像对应的误差距离的平均值，作为第一三维位置信息对应的重投影误差。

从该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息中，确定出所对应重投影误差最小的第一三维位置信息，作为第一目标三维位置信息；并判断该第一目标三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值，若判断该第一目标三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值，则认为该第一目标三维位置信息为：所构建出的该红外图像组对应的检测语义信息对应的较准确地空间点对应的三维位置信息，即该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息识别位置较准确；反之，则认为该第一目标三维位置信息不为：所构建出的该红外图像组对应的检测语义信息对应的较准确地空间点对应的三维位置信息，即该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息中，存在识别位置不准确的手部关键点。

为了保证所确定出的该红外图像对应的检测语义信息所对应手部关键点的标注位置信息的准确性，在判断所对应第一三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该检测语义信息为目标检测语义信息，并将对应最小重投影误差的第一三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息。

上述确定第一三维位置信息对应的空间点在该红外图像组中每一红外图像中的投影点的第一投影位置信息的过程，可以通过如下公式(3)计算得到；

其中，(x_wj，y_wj，z_wj)表示上述红外图像组中N帧红外图像中、该红外图像组对应的第j个检测语义信息、所对应手部关键点对应的空间点的第一三维位置信息；(u_ij’，v_ij’)表示该第一三维位置信息对应的空间点，在第一三维位置信息所对应红外图像组的N帧红外图像中第i个手部关键点所在红外图像中的投影点的第一投影位置信息。

针对每一第一三维位置信息而言，将该第一三维位置信息对应的N帧红外图像对应的误差距离之和，作为该第一三维位置信息对应的重投影误差，具体的，可以通过如下公式(4)表示：

其中，loss表示上述红外图像组中N帧红外图像中、该红外图像组对应的第j个检测语义信息、所对应手部关键点对应的空间点的第一三维位置信息对应的重投影误差。

在本发明的另一种实施例中，在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下；

所述S104，可以包括如下步骤：

步骤A：基于该红外图像组的每一当前的红外图像中、该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及每一当前的红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组对应的检测语义信息所对应手部关键点对应的当前三维位置信息。

步骤B：基于该红外图像组对应的检测语义信息所对应手部关键点对应的当前三维位置信息，以及每一当前的红外图像对应的设备位姿信息和设备内参信息，确定该红外图像组所对应当前三维位置信息对应的空间点、在每一当前的红外图像中的投影点的第二投影位置信息。

步骤C：针对该红外图像组的每一当前的红外图像，基于该当前的红外图像中该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该红外图像组所对应当前三维位置信息对应的空间点、在该当前的红外图像中的第二投影位置信息，确定该当前的红外图像对应的重投影误差。

步骤D：针对该红外图像组，判断该红外图像组的当前的红外图像对应的重投影误差中，是否存在超过预设误差阈值的重投影误差。

步骤H：若判断该红外图像组的新的当前的红外图像的数量低于预设数量阈值，确定该红外图像组对应的检测语义信息不为目标检测语义信息。

其中，上述预设误差阈值可以为工作人员根据实际情况所确定的阈值，上述预设数量阈值也可以为工作人员根据实际情况所确定的阈值。

举例而言，待红外图像组1包括5帧红外图像，分别为图像1、图像2、图像3、图像4和图像5，红外图像组1对应的检测语义信息1；电子设备可以基于红外图像组中的图像1-5对应检测语义信息1的手部关键点的检测位置信息，以及图像1-5各自对应的设备位姿信息和设备内参信息，确定检测语义信息1所对应手部关键点对应的当前三维位置信息。

基于检测语义信息1的手部关键点对应的当前三维位置信息，以及红外图像组中的图像1-5对应的设备位姿信息和设备内参信息，确定检测语义信息1所对应手部关键点对应的当前三维位置信息所表征的空间点、在图像1-5中的投影点的位置信息，作为第二投影位置信息。

基于图像1中检测语义信息1所对应手部关键点的检测位置信息，以及检测语义信息1所对应手部关键点对应的当前三维位置信息所表征的空间点在图像1中的第一投影位置信息，确定该图像1对应的重投影误差；并利用相同方式，确定图像2-5对应的重投影误差；

针对该红外图像组，判断图像1-5对应的重投影误差中，是否存在超过预设误差阈值的重投影误差；一种情况，若判断图像1-5对应的重投影误差中，不存在超过预设误差阈值的重投影误差，则将红外图像组1对应的检测语义信息1确定为目标检测语义信息，并将该红外图像组1所对应检测语义信息1所对应手部关键点对应的当前三维位置信息，确定为目标检测语义信息所对应手部关键点对应的目标空间位置信息。

另一种情况，若判断图像1-5对应的重投影误差中，存在超过预设误差阈值的重投影误差，例如图像2和图像3对应的重投影误差超过预设误差阈值，将图像2和图像3从该红外图像组中滤除，将图像1、图像4和图像5作为该红外图像组的新的当前的红外图像。继续判断该红外图像组1的新的当前的红外图像的数量是否不低于预设数量阈值；例如：预设数量阈值为3，3不低于3。

则电子设备基于红外图像组1中的图像1、图像4和图像5中检测语义信息1所对应手部关键点的检测位置信息，以及图像1、图像4和图像5对应的设备位姿信息和设备内参信息，确定检测语义信息1所对应手部关键点对应的当前三维位置信息。

基于检测语义信息1所对应手部关键点对应的当前三维位置信息，以及红外图像组中的图像1、图像4和图像5对应的设备位姿信息和设备内参信息，确定检测语义信息1所对应手部关键点对应的当前三维位置信息所表征的空间点、在图像1、图像4和图像5中的投影点的位置信息，作为第二投影位置信息。

基于图像1中该检测语义信息1所对应手部关键点的检测位置信息，以及该检测语义信息1所对应手部关键点对应的当前三维位置信息所表征的空间点在图像1中的第二投影位置信息，确定该图像1对应的重投影误差；并利用相同方式，确定图像4和图像5对应的重投影误差；

判断图像1、图像4和图像5对应的重投影误差中，是否存在超过预设误差阈值的重投影误差；一种情况，若判断图像1、图像4和图像5对应的重投影误差中，不存在超过预设误差阈值的重投影误差，则将红外图像组1对应的检测语义信息1确定为目标检测语义信息，并将该红外图像组1所对应检测语义信息1所对应手部关键点对应的当前三维位置信息，确定为目标检测语义信息所对应手部关键点对应的目标空间位置信息。

另一种情况，若判断图像1、图像4和图像5对应的重投影误差中，存在超过预设误差阈值的重投影误差，例如图像4对应的重投影误差超过预设误差阈值，将图像4从该待标定图像中滤除，将图像1和图像5作为该红外图像组的新的当前的红外图像。继续判断该红外图像组的新的当前的红外图像的数量是否不低于预设数量阈值；例如：预设数量阈值为3，此时2低于3，则确定该红外图像组1所对应检测语义信息1不为目标检测语义信息，该检测语义信息1对应的手部关键点对应的空间位置信息确定不准确。后续的，可以不针对检测语义信息1对应的手部关键点，确定其在红外图像中的标注位置信息。

在本发明的另一种实施例中，在基于红外图像对应的图像采集设备的设备位姿信息对红外图像进行分组的情况下；

所述S104，可以包括如下步骤021-025：

021：针对每一红外图像组对应的每一检测语义信息，基于该检测语义信息所对应手部关键点的检测位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第二三维位置信息。

其中，若红外图像组中至少两帧红外图像的手部关键点对应相同的检测语义信息时，将该检测语义信息作为该红外图像组对应的检测语义信息。

022：二三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息。

其中，该第一红外图像为：包含对应该检测语义信息的手部关键点的红外图像。

023：针对每一检测语义信息所对应手部关键点对应的每一第二三维位置信息，利用该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息，以及该检测语义信息对应的手部关键点的检测位置信息，确定该第二三维位置信息对应的重投影误差。

024：针对每一红外图像组对应的每一检测语义信息，判断该检测语义信息所对应手部关键点对应的第二三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值。

025：在判断该检测语义信息所对应手部关键点对应的第二三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该检测语义信息为目标检测语义信息，并将对应最小重投影误差的第二三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息。

本实现方式中，在基于红外图像对应的图像采集设备的设备位姿信息，对红外图像进行分组的情况下，将所对应图像采集设备位置相邻的多个红外图像，划分为一组，得到至少一组红外图像组。位置相邻的图像采集设备之间的图像采集区域可以存在重叠的区域，其之间采集的红外图像中存在对应相同的检测语义信息，即对应同一物理点的手部关键点的可能性较高。

电子设备在确定出每一组红外图像组后，针对每一红外图像组，统计其中包括的每一检测语义信息对应的手部关键点的个数，若检测语义信息对应的手部关键点的个数不低于2，则确定该检测语义信息为该红外图像组对应的检测语义信息。

针对每一红外图像组对应的每一检测语义信息，基于该检测语义信息所对应手部关键点的检测位置信息，以及该检测语义信息所对应手部关键点对应的图像采集设备的设备内参信息，确定该检测语义信息所对应手部关键点在各自对应的图像采集设备的设备坐标系下的位置信息；基于该检测语义信息所对应手部关键点在各自对应的图像采集设备的设备坐标系下的位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息，确定该检测语义信息所对应手部关键点对应的第二三维位置信息。

其中，该检测语义信息所对应手部关键点对应的图像采集设备为：采集到该检测语义信息所对应手部关键点所在红外图像的图像采集设备。确定每一红外图像组对应的每一检测语义信息所对应手部关键点对应的第二三维位置信息的过程是：基于预设非线性优化算法确定的，以得到每一红外图像组对应的每一检测语义信息所对应手部关键点对应的多个第二三维位置信息。

进而，针对每一检测语义信息所对应手部关键点对应的每一第二三维位置信息，利用该第二三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息，确定该第二三维位置信息所对应空间点在相应的图像采集设备的设备坐标系下的位置信息，进而，结合图像采集设备的设备内参信息，确定该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息，即在每一包含该检测语义信息所对应手部关键点的红外图像中的投第三影位置信息。

进而，针对每一检测语义信息所对应手部关键点对应的每一第二三维位置信息，计算该第二三维位置信息所对应空间点在每一第一红外图像中的第三投影位置信息，以及该检测语义信息所对应手部关键点在该第一红外图像中的检测位置信息之间的距离，确定为每一第一红外图像对应的误差距离；计算所有第一红外图像对应的误差距离之和，或者计算所有第一红外图像对应的误差距离的平均值，作为该第二三维位置信息对应的重投影误差。

针对每一红外图像组对应的每一检测语义信息，从该检测语义信息所对应手部关键点对应的第二三维位置信息中，确定出所对应重投影误差最小的第二三维位置信息，作为第二目标三维位置信息；判断该第二目标三维位置信息对应的最小重投影误差，是否不高于预设重投影误差阈值；若判断该第二目标三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值，则认为该第二目标三维位置信息为：所构建出的该红外图像组对应的该检测语义信息对应的较准确地空间点的三维位置信息，即该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息均较准确；反之，则认为该红外图像组对应的检测语义信息不对应较准确地空间点的三维位置信息，即该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息中，存在识别位置不准确的手部关键点的检测位置信息。

相应的，为了保证所确定出每一红外图像组对应的每一检测语义信息所对应手部关键点对应的目标空间位置信息的准确性。在判断该第二目标三维位置信息对应的最小重投影误差，不高于预设重投影误差阈值的情况下，确定该检测语义信息为目标检测语义信息，并将对应最小重投影误差的第二三维位置信息，即第二目标三维位置信息，确定为该目标检测语义信息所对应手部关键点对应的目标空间位置信息。

S105：针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

一种情况中，针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息，以及采集到每一红外图像的图像采集设备的设备位姿信息，确定该目标检测语义信息所对应手部关键点所对应空间点在每一图像采集设备的设备坐标系下的位置信息；进而，基于该检测目标语义信息所对应手部关键点所对应空间点在每一图像采集设备的设备坐标系下的位置信息，以及该图像采集设备的设备内参信息，确定该检测目标语义信息所对应手部关键点所对应空间点每一红外图像中的映射位置信息；进而，将该目标检测语义信息所对应手部关键点所对应空间点每一红外图像中的映射位置信息，确定为该目标检测语义信息所对应手部关键点的标注位置信息。

相应的，所述S105，可以包括如下步骤：

针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息，以及每一红外图像对应的设备位姿信息和设备内参信息，确定该目标空间位置信息对应的空间点在每一红外图像中的映射位置信息；

针对每一目标检测语义信息，将该目标空间位置信息对应的空间点在每一红外图像中的映射位置信息，确定为每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

应用本发明实施例，可以利用预先建立的关键点检测模型，每一红外图像中，初步检测出其中包括的目标手势中手部关键点的检测位置信息及检测语义信息；对红外图像进行分组，使得每组中包括多帧含有相同的检测语义信息的手部关键点的红外图像；利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及检测语义信息所对应手部关键点对应的设备位姿信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息，即构建目标检测语义信息所对应手部关键点对应的空间点；进而，利用目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息及每一红外图像对应的设备位姿信息，优化确定出每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息，以实现自动对红外图像中的手部关键点进行标注，节省人力成本和时间成本，且通过目标检测语义信息所对应手部关键点对应的空间点的目标空间位置信息，对初步得到的目标检测语义信息所对应手部关键点的检测位置信息进行修正，确定出目标检测语义信息所对应手部关键点的较准确的标注位置信息，并且，可以对包含被遮挡的手部关键点的红外图像中手部关键点的标注。

在本发明的另一实施例中，如图2所示，所述方法可以包括如下步骤：

S201：获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像。

S202：基于预先建立的关键点检测模型，从每一红外图像中确定出目标手势中手部关键点的检测位置信息及检测语义信息。

其中，预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型。

S203：基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对红外图像进行分组，得到至少一组红外图像组。

S204：利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息。

S205：针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

S206：利用红外图像及其对应的手部关键点的标注位置信息，修正预先建立的关键点检测模型，得到新的关键点检测模型。

该新的关键点检测模型用于对所获得的该多个图像采集设备在后续的相同采集周期内采集的红外图像，进行手部关键点的检测。

其中，该S201与图1中所示的S101相同，该S202与图1中所示的S102相同，该S203与图1中所示的S103相同，该S204与图1中所示的S104相同，该S205与图1中所示的S105相同，在此不再赘述。

本实施例中，电子设备确定出每一红外图像中目标检测语义信息所对应手部关键点的标注位置信息之后，可以将该红外图像以及该红外图像中每一目标检测语义信息所对应手部关键点的标注位置信息，以及基于本发明实施例所标定的其他红外图像及其其他红外图像中手部关键点的标注位置信息，作为训练集，继续训练预先建立的关键点检测模型，以修正该预先建立的关键点检测模型。更进一步提高修正后的新的关键点检测模型对红外图像中的手部关键点的检测的准确率。

其中，该其他红外图像可以包括：该多个图像采集设备在其他的相同采集周期针对手势展示区域所展示的手势所采集的图像。其中，该“其他红外图像”中的“其他”是相对于本发明实施例所提到的红外图像而言的，该“其他的相同采集周期”中的“其他”是相对于本发明实施例所提到的相同采集周期而言的。

一种实现中，电子设备可以获得该多个图像采集设备在相同采集周期内采集的新的红外图像；基于该新的关键点检测模型，从每一新的红外图像中检测出手部关键点的检测位置信息及对应的检测语义信息；基于每一手部关键点对应的检测语义信息或新的红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对新的红外图像进行分组，至少一组新的红外图像组，利用每一新的红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；进而基于目标检测语义信息所对应手部关键点对应的目标空间位置信息，将目标检测语义信息所对应手部关键点对应的目标空间位置信息所表征空间点，投影回各新的红外图像中，得到每一新的红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。以实现对图像中手部关键点的闭环自动化的标注，并且可以循环修正关键点检测模型，不断提升关键点检测模型的手部关键点的检测精度。

通过本实施例，可以实现利用至少基于标注有样本手部关键点的色彩样本图像训练所得的预先建立的关键点检测模型，对红外图像中的手部关键点的自动检测，并且，通过所确定出的每一红外图像中目标检测语义信息所对应手部关键点的标注位置信息以及红外图像，继续修正该预先建立的关键点检测模型，以提高修正后的预先建立的关键点检测模型，即新的关键点检测模型对红外图像中的手部关键点的检测的准确率，实现手部关键点检测的场景转移，从对色彩图像中手部关键点的准确检测，转移到对红外图像中手部关键点的自动准确检测。

后续的，一种实现中，通过大量的红外图像及红外图像中各检测语义信息所对应手部关键点的标注位置信息，对预先建立的关键点检测模型的修正，当该预先建立的关键点检测模型收敛之后，可以直接利用该收敛的预先建立的关键点检测模型对红外图像进行自动检测。

相应于上述方法实施例，本发明实施例提供了一种手部关键点的标定装置，如图3所示，所述装置包括：

获得模块310，被配置为获得多个图像采集设备在相同采集周期内针对手势展示区域采集的红外图像，其中，所述多个图像采集设备从不同角度对所述手势展示区域内展示的目标手势进行拍摄；

第一确定模块320，被配置为基于预先建立的关键点检测模型，从每一红外图像中确定出所述目标手势中手部关键点的检测位置信息及检测语义信息，其中，所述预先建立的关键点检测模型为：至少基于标注有样本手部关键点的色彩样本图像训练所得的模型；

分组模块330，被配置为基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对所述红外图像进行分组，得到至少一组红外图像组；

第二确定模块340，被配置为利用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；

第三确定模块350，被配置为针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息。

在本发明的另一实施例中，所述分组模块330，被具体配置为针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组，得到至少一组红外图像组；

或，被具体配置为基于红外图像对应的图像采集设备的设备位姿信息，将所对应图像采集设备位置相邻的多个红外图像，划分为一组，得到至少一组红外图像组。

在本发明的另一实施例中，在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下；

所述第二确定模块340，包括：

第一确定单元(图中未示出)，被配置为针对每一红外图像组，利用该红外图像组中的每N帧红外图像中，该红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，以及该N帧红外图像对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第一三维位置信息，N为不小于2的任一整数；

第二确定单元(图中未示出)，被配置为针对每一红外图像组，利用该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息，以及该检测语义信息所对应手部关键点的检测位置信息及其对应的设备位姿信息和设备内参信息，确定出目标语义信息及其对应的手部关键点对应的目标空间位置信息。

在本发明的另一实施例中，所述第二确定单元，被具体配置为针对该红外图像组对应的检测语义信息所对应手部关键点对应的每一第一三维位置信息，利用该第一三维位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该第一三维位置信息所对应空间点在该红外图像组中每一红外图像中的第一投影位置信息；

在本发明的另一实施例中，所述第二确定模块340，被具体配置为针对每一红外图像组，执行如下步骤A-H，以确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息；

在本发明的另一实施例中，在基于红外图像对应的图像采集设备的设备位姿信息对所述红外图像进行分组的情况下；

所述第二确定模块340，被具体配置为针对每一红外图像组对应的每一检测语义信息，基于该检测语义信息所对应手部关键点的检测位置信息，以及该检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定该检测语义信息所对应手部关键点对应的第二三维位置信息，其中，若红外图像组中至少两帧红外图像的手部关键点对应相同的检测语义信息时，将该检测语义信息作为该红外图像组对应的检测语义信息；

在本发明的另一实施例中，所述第三确定模块350，被具体配置为针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息，以及每一红外图像对应的设备位姿信息和设备内参信息，确定该目标空间位置信息对应的空间点在每一红外图像中的映射位置信息；

在本发明的另一实施例中，所述装置还包括：

修正模块(图中未示出)，被配置为在所述针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息之后，利用所述红外图像及其对应的手部关键点的标注位置信息，修正所述预先建立的关键点检测模型，得到新的关键点检测模型。

上述装置、系统实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种手部关键点的标定方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于每一手部关键点的检测语义信息或红外图像对应的图像采集设备的设备位姿信息和设备内参信息，对所述红外图像进行分组，得到至少一组红外图像组的步骤，通过如下两种实现方式中的任一种实现方式实现：

第一种实现方式：

第二种实现方式：

3.如权利要求2所述的方法，其特征在于，在针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组的情况下；

4.如权利要求3所述的方法，其特征在于，所述利用该红外图像组对应的检测语义信息所对应手部关键点对应的第一三维位置信息，以及该检测语义信息所对应手部关键点的检测位置信息及其对应的设备位姿信息和设备内参信息，确定出目标语义信息及其对应的手部关键点对应的目标空间位置信息的步骤，包括：

5.如权利要求2所述的方法，其特征在于，所述用每一红外图像组对应的检测语义信息所对应手部关键点的检测位置信息，及每一检测语义信息所对应手部关键点对应的设备位姿信息和设备内参信息，确定出目标检测语义信息所对应手部关键点对应的目标空间位置信息的步骤，包括：

6.如权利要求2所述的方法，其特征在于，在基于红外图像对应的图像采集设备的设备位姿信息对所述红外图像进行分组的情况下；

7.如权利要求1-6任一项所述的方法，其特征在于，所述针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息的步骤，包括：

8.如权利要求1-7任一项所述的方法，其特征在于，在所述针对每一目标检测语义信息，基于该目标检测语义信息所对应手部关键点对应的目标空间位置信息以及每一红外图像对应的设备位姿信息和设备内参信息，确定每一红外图像中该目标检测语义信息所对应手部关键点的标注位置信息的步骤之后，所述方法还包括：

利用所述红外图像及其对应的手部关键点的标注位置信息，修正所述预先建立的关键点检测模型，得到新的关键点检测模型。

9.一种手部关键点的标定装置，其特征在于，所述装置包括：

10.如权利要求9所述的装置，其特征在于，所述分组模块，被具体配置为针对每一检测语义信息，将包含对应该检测语义信息的手部关键点的红外图像，划分为一组，得到至少一组红外图像组；