CN111882601A

CN111882601A - 定位方法、装置及设备

Info

Publication number: CN111882601A
Application number: CN202010719528.XA
Authority: CN
Inventors: 程浩; 朱皓; 张迪; 张天琦; 龚晖; 戴华东; 邹明杰; 吴昌建; 陈鹏; 张玉全
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-03
Anticipated expiration: 2040-07-23
Also published as: CN111882601B

Abstract

本发明提供一种定位方法、装置及设备，可以实现目标对象上指定部位如手部的定位。该方法包括：获得第一图像；第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；第二图像和第三图像被同步采集；采集第二与第三图像的图像组件具有相重叠的监控区域，第一图像区域与第二图像区域为对应监控区域的图像区域；从第一图像中识别出目标对象的姿态信息，并依据姿态信息确定目标对象上指定部位的目标位置信息；依据目标位置信息从三维点云信息中确定出指定部位的三维空间坐标信息；三维点云信息包含监控区域中多个三维空间点的三维空间坐标信息，存在与第一图像中各像素点对应的三维空间点的三维空间坐标信息。

Description

定位方法、装置及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种定位方法、装置及设备。

背景技术

在越来越多的场景中，如无人零售场景、实验考试场景等，会需要确定手部的位置，以根据手部位置自动化实现相应的操作。以无人零售场景为例，当货架上的商品被拿起或放回时，需要将商品与进行取拿操作的顾客进行关联才能完成结算。在该场景中，若可以知道店内顾客的手部位置，再与发生商品拿取事件的位置进行对比，即可完成商品与进行取拿操作的顾客之间的关联，从而自动化得完成结算。然而，目前尚且还缺乏可以实现手部定位的方式。

发明内容

有鉴于此，本发明提供一种定位方法、装置及设备，可以实现目标对象上指定部位如手部的定位。

本发明第一方面提供一种定位方法，包括：

获得第一图像；所述第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；所述第二图像和所述第三图像被同步采集；采集所述第二图像的图像组件与采集所述第三图像的图像组件具有相重叠的监控区域，所述第一图像区域为对应所述监控区域的图像区域，所述第二图像区域为对应所述监控区域的图像区域；

从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，所述姿态信息由所述目标对象上多个部位的位置信息组成；

依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息；所述三维点云信息包含所述监控区域中多个三维空间点的三维空间坐标信息；所述三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。

根据本发明的一个实施例，从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，包括：

依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据；

将所述输入数据输入至已训练的姿态估计模型以由所述姿态估计模型识别所述目标对象的姿态信息并输出所述姿态信息；所述姿态信息包括所述指定部位的位置信息、以及在所述姿态信息对应的姿态下其它部位的位置信息；

将所述姿态估计模型输出的姿态信息中指定部位的位置信息确定为所述目标位置信息；或者，按照设定的调整算法并依据所述其它部位的位置信息调整指定部位的位置信息，将调整后的位置信息确定为所述目标位置信息。

根据本发明的一个实施例，依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据，包括：

对所述第一图像进行指定处理，所述指定处理为：针对所述第一图像中每一像素点，将所述三维点云信息中与该像素点对应的三维空间点的三维空间坐标信息中的第三坐标分量新增为该像素点的一个通道分量并融合至第一图像中，所述第三坐标分量表示高度；

将处理后的第一图像确定为所述输入数据。

根据本发明的一个实施例，所述依据第一图像确定待输入至已训练的姿态估计模型的输入数据，包括：

将所述第一图像和所述三维点云信息中各三维空间点的三维空间坐标信息中的第三坐标分量确定为所述输入数据，所述第三坐标分量表示高度。

根据本发明的一个实施例，所述依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息，包括：

从所述第一图像中确定出与所述目标位置信息对应的指定部位区域；

在所述三维点云信息中确定与所述指定部位区域中各像素点对应的候选三维空间点的候选三维空间坐标信息；

依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息。

根据本发明的一个实施例，依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息，包括：

从所有候选三维空间坐标信息中选取第三坐标分量大于设定值的参考三维空间坐标信息；所述第三坐标分量表示高度；

依据各参考三维空间坐标信息中沿着同一坐标轴上的坐标分量，对参考三维空间坐标信息进行过滤，得到目标三维空间坐标信息；

依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息。

根据本发明的一个实施例，

依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息，包括：

针对每一坐标轴，将目标三维空间坐标信息中沿着该坐标轴上的坐标分量的平均值，确定为该坐标轴对应的坐标分量；

将各坐标轴对应的坐标分量确定为所述指定部位的三维空间坐标信息。

本发明第二方面提供一种定位装置，包括：

图像获得模块，用于获得第一图像；所述第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；所述第二图像和所述第三图像被同步采集；采集所述第二图像的图像组件与采集所述第三图像的图像组件具有相重叠的监控区域，所述第一图像区域为对应所述监控区域的图像区域，所述第二图像区域为对应所述监控区域的图像区域；

图像位置确定模块，用于从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，所述姿态信息由所述目标对象上多个部位的位置信息组成；

空间位置确定模块，用于依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息；所述三维点云信息包含所述监控区域中多个三维空间点的三维空间坐标信息；所述三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。

根据本发明的一个实施例，所述图像位置确定模块从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息时，具体用于：

根据本发明的一个实施例，所述图像位置确定模块依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据时，具体用于：

将处理后的第一图像确定为所述输入数据。

根据本发明的一个实施例，所述图像位置确定模块依据第一图像确定待输入至已训练的姿态估计模型的输入数据时，具体用于：

根据本发明的一个实施例，所述空间位置确定模块依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息时，具体用于：

根据本发明的一个实施例，所述空间位置确定模块依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息时，具体用于：

根据本发明的一个实施例，

所述空间位置确定模块依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息时，具体用于：

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的定位方法。

本发明第四方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的定位方法。

本发明实施例具有以下有益效果：

本发明实施例中，可以依据第一图像中目标对象的姿态信息从第一图像中确定出目标对象上指定部位的目标位置信息，由于借助了作为有机整体的目标对象的姿态信息，也就是目标对象各个部位间的位置关联，所以确定出的目标位置信息可以更准确；并且，第一图像是依据第二图像中与监控区域对应的第一图像区域和/或第三图像中与监控区域对应的第二图像区域确定的，第一图像中的像素点可以与监控区域中各个三维空间点对应，而已生成的三维点云信息包含监控区域中多个三维空间点的三维空间坐标信息，其中存在第一图像中各像素点对应的三维空间点的三维空间坐标信息，借助于该对应关系，可以依据确定出的目标位置信息从三维点云信息中确定出指定部位的三维空间坐标信息，通过上述方式，可以更准确、快速地定位监控区域中的指定部位，且适用于单人或多人场景。

附图说明

图1是本发明一实施例的定位方法的流程示意图；

图2是本发明一实施例的无人零售场景的示意图；

图3是本发明一实施例的定位装置的结构框图；

图4是本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

双目相机：一种基于双目视差原理的立体视觉成像设备，通常为含有左右目两个镜头的相机，当然也可以由三个镜头构成，可以同步采集得到左右目两个图像(RGB图、灰度图均可)，这两个图像存在一定的视差，根据这个视差可以确定出场景的深度信息。

下面对本发明实施例的定位方法进行更具体的描述，但不应以此为限。在一个实施例中，参看图1，一种定位方法，应用于电子设备，该方法可以包括以下步骤：

S100：获得第一图像；所述第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；所述第二图像和所述第三图像被同步采集；采集所述第二图像的图像组件与采集所述第三图像的图像组件具有相重叠的监控区域，所述第一图像区域为对应所述监控区域的图像区域，所述第二图像区域为对应所述监控区域的图像区域；

S200：从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，所述姿态信息由所述目标对象上多个部位的位置信息组成；

S300：依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息；所述三维点云信息包含所述监控区域中多个三维空间点的三维空间坐标信息；所述三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。

本发明实施例中，定位方法的执行主体可以为电子设备。电子设备比如可以是摄像机设备，摄像机设备比如可以为双目相机；或者，可以是与摄像机设备连接的其它设备比如计算机设备或嵌入式设备。当然，电子设备的具体类型不限，具有一定的处理能力即可。

本发明实施例的定位方法可以应用多种场景中，具体比如可以应用在无人零售场景、实验考试场景等，只要是需要对目标对象上指定部位进行定位的场景均可。

无人零售场景可以包括无人超市、无人售货机等，在无人零售场景中，目标对象可以为顾客，通过对顾客上指定部位如手部进行定位可以确定顾客取拿商品的位置，进而可确定取拿的是哪个商品，以便于进行该商品的结算。

实验考试场景可以包括化学实验考场、物理实验考场等，在实验考试场景中，目标对象可以为考生，通过连续对考生上指定部位如手部进行定位，可以确定考生进行不同实验操作的先后顺序，进而确定实验操作的顺序是否正确，可减轻监考老师的工作。

以无人零售场景为例，参看图2，无人零售场景中设置有货架S1和摄像机设备C1，货架S1中可以摆放有商品，摄像机设备C1可以通过执行本发明实施例的上述定位方法，以定位顾客上指定部位如手部的三维空间坐标信息。进而，可以基于手部的三维空间坐标信息确定出顾客所取的商品，如图2所示，有两个顾客P1和P2分别要取处于不同货区的商品G1和G2，通过摄像机设备C1进行定位顾客P1和P2的指定部位，进一步确定出顾客P1的指定部位最接近商品G1，顾客P2的指定部位最接近商品G2，从而可确定两个顾客P1和P2分别取的是商品G1和G2。

可选的，在图2示出的货架S1中可以设置有处理设备(图中未示出)。摄像机设备C1可以将定位出的手部的三维空间坐标信息发送给处理设备，以由处理设备来基于手部的三维空间坐标信息确定出顾客所取的商品，进而进行商品费用结算；或者，可以由摄像机设备C1基于手部的三维空间坐标信息确定出顾客所取的商品，再将商品信息如商品标识发送给处理设备进行商品费用结算，具体不作限定。

摄像机设备的安装位置可根据应用场景来决定，只要能够拍摄到所需的场景即可。以图2中的场景为例，摄像机设备C1可以安装在货架S1的前上方，并垂直向下拍摄。具体来说，摄像机设备C1与货架S1的水平距离可以大于0且小于预设距离，预设距离根据统计出的成年人的手臂长度来确定；摄像机设备C1与货架S1的竖直距离(即高度差)可以大于0且小于摄像机设备C1的最远工作距离(以地面为参考)，当然，具体不做限定。

当然，上述针对无人零售场景展开的内容只是举例，在应用于其他场景中时可以根据需要进行调整。本发明实施例的执行主体也不限于摄像机设备。

步骤S100中，获得第一图像；所述第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；所述第二图像和所述第三图像被同步采集；采集所述第二图像的图像组件与采集所述第三图像的图像组件具有相重叠的监控区域，所述第一图像区域为对应所述监控区域的图像区域，所述第二图像区域为对应所述监控区域的图像区域。

采集所述第二图像的图像组件(下面简称第一图像组件)与采集所述第三图像的图像组件(下面简称第二图像组件)，可以是同一摄像机设备中的两个组件，或者也可以是两个摄像机设备中的组件。比如，第一图像组件和第二图像组件可以分别是同一双目相机的左目镜头和右目镜头，相应的，第二图像和第三图像可以分别由双目相机的左目镜头和右目镜头同步采集得到，当然此处不作为限制，只要第一图像组件与第二图像组件具有相重叠的监控区域即可。

关于第一图像组件与第二图像组件具有相重叠的监控区域，具体来说，第一图像组件和第二图像组件可以从不同的角度进行拍摄，而且第一图像组件的视野范围与第二图像组件的视野范围存在交集(而且交集的区域占比可以较大)，交集的区域就是该监控区域，这样两者采集的图像中会存在与监控区域对应的图像区域，这两个图像区域存在一定的视差。

第一图像可以依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定，第一图像区域为第一图像组件采集的第二图像中与监控区域对应的图像区域，第二图像区域为第二图像组件采集的第三图像中与监控区域对应的图像区域。如此，在监控区域中出现目标对象时，第一图像区域和第二图像区域中均会包含该目标对象。

在确定第一图像时，比如可以将第二图像和第三图像进行特征匹配，以确定出两个图像中监控区域对应的图像区域即第一图像区域和第二图像区域；接着，可以将第一图像区域或第二图像区域作为第一图像，或者，可以将第一图像区域和第二图像区域进行融合得到第一图像，图像融合方式不限。第一图像可以为RGB图像，当然也可以是其它色彩模式的图像，具体不做限定。

第一图像区域和第二图像区域可以均包含目标对象，相应的，第一图像也包含该目标对象。可选的，电子设备可以在确定到监控区域中存在目标对象(比如在第一或第二图像区域中检测到目标对象)时，执行上述步骤S100-S300。

当然，第一图像区域、第二图像区域、第一图像中除了目标对象，还可以包含其它景物，比如图2所示的场景中，监控区域中还包含货架S1，相应的，第一图像区域、第二图像区域、第一图像中也会存在该货架S1。

步骤S200中，从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，所述姿态信息由所述目标对象上多个部位的位置信息组成。

可选的，目标对象比如为人体，指定部位比如可以为人体的手部，更具体可以为手关节，当然也可以是其它部位，比如脚部等。当然，目标对象也不限于人体，还可以是其它对象，比如还可以为机器人、机械臂等。下面以目标对象为人体为例展开说明，但不应以此为限。

人体是一个有机整体，各个部位是存在关联的，通过相互间的有机配合才得以形成相应的姿态。人体姿态可以反映人体各个部位的相对位置关系，比如上半身的姿态可以反映人体的手腕关节、肩关节、肘关节、头部之间的位置关系，不同的姿态对应于不同位置关系。

那么，依据人体的姿态来确定人体上某个部位的位置信息时，就可以借助于相应姿态下各个部位之间的位置关联来确定，相比于不考虑该位置关联而独立地对该部位进行定位而言，可以更准确地确定出该部位的位置信息。

所以，本实施例中，可以借助于第一图像中目标对象的姿态信息对应的姿态下各个部位的位置关联，来确定出作为一个有机整体的目标对象上指定部位的目标位置信息，结果更为准确。

可选的，在目标对象为人体，指定部位为手部的情况下，目标对象的姿态信息可以进一步为目标对象的上半身的姿态信息。在此情况下，姿态信息比如可以包括左手腕关节的位置信息、左手肘关节的位置信息、左肩关节的位置信息、头部的位置信息、右肩关节的位置信息、右手肘关节的位置信息、右手腕关节的位置信息，当然，此处只是举例，并不作为限制，还可以是这些位置信息中几个位置信息的组合，或者还可以包括其他部位的位置信息。可以理解，指定部位也不一定是手部，也可以是脚部等，可视具体应用场景而定。

目标位置信息可以是第一图像中与指定部位对应的至少一个像素点的像素坐标信息，也就是第一图像应用的图像坐标系下的二维坐标信息，还无法体现指定部位的空间位置(或者说指定部位在场景中的位置)，所以本实施例中通过步骤S300来基于目标位置信息进一步定位出指定部位的空间位置。

步骤S300中，依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息；所述三维点云信息包含所述监控区域中多个三维空间点的三维空间坐标信息；所述三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。

三维点云信息包括监控区域中多个三维空间点的三维空间坐标信息，可以是监控区域中各个三维空间点的三维空间坐标信息的集合。三维点云信息可以依据第二图像和第三图像确定。可选的，可以采用特征匹配算法和立体视觉原理(或者说双目视差原理)计算出第二图像和第三图像间的视差信息，得到深度图(或者视差图)，依据深度图(或者视差图)可以计算出监控区域中各个三维空间点的三维空间坐标信息。其中，特征匹配算法可以为SGM(semi-global matching，半全局匹配)算法、或RSGM(快速的SGM)算法等，具体不做限定。

三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。三维点云信息与第一图像可以是像素级的对应关系，三维点云信息中的一个三维空间坐标信息对应于第一图像中的一个像素坐标信息。

可选的，第一图像中的每个像素坐标信息都具有对应的三维空间坐标。这种情况下，三维点云信息的尺寸可以视为第一图像的尺寸的3倍，即如果第一图像的尺寸为w*h(像素点个数)，则三维点云信息的尺寸为3*w*h。原因是：一个三维空间坐标信息可以由比如XYZ三个坐标轴上的坐标值组成，在每个坐标轴上的坐标值个数为w*h，所以三个坐标轴上的坐标值个数就是3*w*h，也就是第一图像的尺寸的3倍。

可选的，依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息时，可以直接将三维点云信息中与目标位置信息对应的三维空间坐标信息作为指定部位的三维空间坐标信息；或者，可以依据目标位置信息在三维点云信息中确定一些候选的三维空间坐标信息，再采用设定的运算方式(比如计算平均值)对候选的三维空间坐标信息进行运算得到指定部位的三维空间坐标信息，当然，具体方式不限于此。

通过上述方式，可以得到指定部位的三维空间坐标信息，该三维空间坐标信息可以体现指定部位在场景中的空间位置。在无人零售场景中，在商品的空间位置已确定的情况下(货架上商品的空间位置可以预先确定好)，基于指定部位的三维空间坐标信息可以确定出指定部位如手部与商品间的位置关系，从而可确定手部具体取的是哪件商品，进而实现人货关联并进行商品费用结算。

此外，上述的第二图像和第三图像可以由摄像机设备采集得到，而且第一图像可以基于第二图像和第三图像中的图像区域确定，三维点云信息同样可以依据第二图像和第三图像确定，在此情况下，只需要摄像机设备即可完成上述的定位方法，不需要额外的定位装置，设备成本较低。

在一个实施例中，步骤S200中，从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，包括：

S201：依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据；

S202：将所述输入数据输入至已训练的姿态估计模型以由所述姿态估计模型识别所述目标对象的姿态信息并输出所述姿态信息；所述姿态信息包括所述指定部位的位置信息、以及在所述姿态信息对应的姿态下其它部位的位置信息；

S203：将所述姿态估计模型输出的姿态信息中指定部位的位置信息确定为所述目标位置信息；或者，按照设定的调整算法并依据所述其它部位的位置信息调整指定部位的位置信息，将调整后的位置信息确定为所述目标位置信息。

本实施例中，步骤S203在步骤S201和S202之后执行，步骤S203中包含两个并列可选的方式，在执行时只需选择一种方式。姿态估计模型是预先训练好的，可以保存在电子设备或其它设备中，在需要时调用。

步骤S201中，可以将第一图像作为输入数据，或者对第一图像进行处理后作为输入数据，或者还可以将第一图像和其他信息(如上述的三维点云信息，或者三维点云信息中的一部分信息)一起作为输入数据，具体不做限定。比如，对第一图像进行图像ISP处理(例如噪声过滤等)并将处理后的图像作为输入数据，或者对第一图像与其它信息融合之后作为输入数据，具体不做限定。

步骤S202中，姿态估计模型可以从第一图像中识别出目标对象的姿态信息，目标对象的姿态信息可以由各个部位的位置信息来体现，由于人体是一个有机整体，因而各个部位之间有着相应的位置关联，所以在训练过程中，让姿态估计模型学习各个部位之间的位置关联，相比于单独学习指定部位的位置而言，可以有利于提升姿态估计模型的检测性能，从而可更准确地确定指定部位的位置。

姿态信息包括所述指定部位的位置信息、以及在所述姿态信息对应的姿态下其它部位的位置信息。其中，这里的指定部位比如可以为目标对象的手腕关节(这里的手腕关节可以包括左手腕关节和右手腕关节)。这里的其他部位比如可以包括目标对象的头部和/或目标对象上半身的其它关节，目标对象上半身的其它关节比如可以包括肩关节(包括左肩关节和右肩关节)、肘关节(包括左肘关节和右手关节)等。当然具体不限于此，本实施例中着重关注目标对象上半身的姿态信息，所以可以关注这些部位，在其它情况下也可以关注其它部位，比如下半身的部位。

在指定部位为手腕关节的情况下，由于人体的手部与手腕关节是一体的，手腕关节的位置基本上可以表示手部的位置，相差不会很大，且相差的值也通常是在某个合理范围内，所以定位手腕关节的位置也就意味着定位手部的位置。

步骤S203的一个方式中，将所述姿态估计模型输出的姿态信息中指定部位的位置信息确定为所述目标位置信息。

在一个例子中，在姿态估计模型输出姿态信息时，姿态估计模型可以按设定顺序输出目标对象上各个部位的位置信息，比如依次输出左手腕关节的位置信息、左手肘关节的位置信息、左肩关节的位置信息、头部的位置信息、右肩关节的位置信息、右手肘关节的位置信息、右手腕关节的位置信息。在此情况下，姿态估计模型输出的第一个和最后一个位置信息分别为左手腕关节的位置信息和右手腕关节的位置信息，可以选取姿态估计模型输出的第一个和最后一个位置信息作为目标位置信息。

在另一个例子中，在姿态估计模型输出姿态信息时，也可以不按照设定顺序输出目标对象上各个部位的位置信息，即每次输出的位置信息的顺序可以不同，在输出位置信息的同时，比如还可以输出与位置信息对应的部位标识，部位标识可以用于指示位置信息属于哪个部位，在此情况下，可以根据将指定部位的部位标识对应的位置信息确定为目标位置信息。

可以理解，上述是两种姿态估计模型输出姿态信息的方式以及对应的确定目标位置信息的优选方式，实际并不局限于此。

步骤S203的另一个方式中，按照设定的调整算法并依据所述其它部位的位置信息调整指定部位的位置信息，将调整后的位置信息确定为所述目标位置信息。

与步骤S203的上一个方式不同的是，本方式中并不直接将姿态估计模型输出的目标对象上指定部位的位置信息确定为目标位置信息，而是进一步按照设定的调整算法并依据其它部位的位置信息调整指定部位的位置信息，将调整后的位置信息确定为所述目标位置信息。

可选的，电子设备中可以预先设置目标对象上指定部位与其它部位间的位置关系可选范围，在按照设定的调整算法并依据其它部位的位置信息调整指定部位的位置信息时，可以判断该指定部位的位置信息与其它部位的位置信息之间的相对位置关系是否处在预设的位置关系可选范围内，如果否，则调整指定部位的位置信息，直至指定部位的位置信息与其它部位的位置信息之间的相对位置关系处在预设的位置关系可选范围内。

本方式中，不仅可以利用姿态估计模型学习到的姿态确定目标对象上各个部位的位置信息，还可以依据姿态估计模型输出的其它部位的位置信息来调整指定部位的位置信息，将调整后的位置信息确定为目标位置信息，可以进一步提升目标位置信息的准确性。

可选的，姿态估计模型可以通过以下步骤训练得到：

T100：获取训练样本集并建立初始模型，训练样本集包含多个样本图像，每个样本图像被标定有标签，该标签包含样本图像中对象各个部位的位置信息序列；

T200：从训练样本集中选择样本图像，将选被择的样本图像输入至初始模型中，以得到初始模型输出的各部位的预测位置信息序列；

T300：比较初始模型输出的各部位的预测位置信息序列与被选择的样本图像的标签指示的位置信息序列，根据比较结果优化所述初始模型；

T400：检查当前是否满足训练完成条件，若是，则将训练出的初始模型确定为姿态估计模型；若否，则返回从训练样本集中选择样本图像继续执行。

可选的，步骤T100中，标签中的位置信息序列比如可以依次包括：左手腕关节的位置信息、左手肘关节的位置信息、左肩关节的位置信息、头部的位置信息、右肩关节的位置信息、右手肘关节的位置信息、右手腕关节的位置信息。预测位置信息序列也理应是按照上述的顺序输出，一开始可能会出现顺序不对或者与标签中相同顺序的位置信息不一致的情况，后续通过优化可逐渐改善这种情况。相应的，将第一图像输入至姿态估计模型中后，姿态估计模型输出的各个部位的位置信息也会按照上述的顺序排布，即设定顺序为左手腕关节的位置信息、左手肘关节的位置信息、左肩关节的位置信息、头部的位置信息、右肩关节的位置信息、右手肘关节的位置信息、右手腕关节的位置信息从前往后的顺序。在此情况下，姿态估计模型输出的位置信息中的第一个和最后一个位置信息就是手腕关节的位置信息。当然，这里只是示例，并不作为限制。

可选的，步骤T400中，检查当前是否满足训练完成条件可以有以下几种方式：

1)检查训练样本集中是否存在未被选择过的样本图像，如果是，则确定未满足训练完成条件，否则确定满足训练完成条件；

2)检查当前训练次数是否达到设定次数，如果是，则确定满足训练完成条件，否则确定未满足训练完成条件；

3)检查初始模型的检测性能是否达到指定要求，如果是，则确定满足训练完成条件，否则确定未满足训练完成条件。

当然，上述几种方式只是举例，具体方式不限于此。

进一步的，该方法还可以包括：依据姿态估计模型输出的头部的位置信息跟踪目标对象，并将跟踪到的目标对象与手腕关节进行关联。如此，可以实现无人零售中的人货关联，从而在结算的时候可以确定顾客所购买的是哪个商品等。

在一个实施例中，步骤S201中，依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据，可以包括：

S2011：对所述第一图像进行指定处理，所述指定处理为：针对所述第一图像中每一像素点，将所述三维点云信息中与该像素点对应的三维空间点的三维空间坐标信息中的第三坐标分量新增为该像素点的一个通道分量并融合至第一图像中，所述第三坐标分量表示高度；

S2012：将处理后的第一图像确定为所述输入数据。

本实施例中，先将第一图像与三维点云信息中各个三维空间点的三维空间坐标信息中的第三坐标分量融合在一起，再将融合结果作为输入数据输入至姿态估计模型中。

第一图像中各个像素点一般包含三个通道分量(如R通道分量、G通道分量和B通道分量)，将三维空间点的三维空间坐标信息中的第三坐标分量作为对应像素点的第四个通道分量，融合至第一图像中，可以得到包含四个分量的第二图像作为输入数据，实现了第一图像与各三维空间坐标信息的第三坐标分量在模型之外的预先融合。

举例来说，第一图像原本只有三个通道分量，比如R、G、B通道分量，在融合第四个通道分量即三维空间点的三维空间坐标信息中的第三坐标分量(简称Z通道分量)之后，得到的第一图像包含四个通道分量，分别为R、G、B、Z通道分量。

其中，第三坐标分量表示高度，三维空间点的高度可以增加更多细节信息，使得输入数据的特征信息更丰富，从而有利于提升姿态估计模型的检测效果，提升模型的鲁棒性。

本实施例的姿态估计模型的训练方式可以参考前述实施例中的训练方式，当然输入的样本图像有所不同，本实施例所需的样本图像的每个像素点包含色彩模式所需的三通道分量、以及作为第四通道分量的第三坐标分量。

在另一个实施例中，步骤S201中，所述依据第一图像确定待输入至已训练的姿态估计模型的输入数据，包括：

S2013：将所述第一图像和所述三维点云信息中各三维空间点的三维空间坐标信息中的第三坐标分量确定为所述输入数据，所述第三坐标分量表示高度。

本实施例中，将第一图像和三维点云信息中各三维空间点的三维空间坐标信息中的第三坐标分量作为输入数据输入到姿态估计模型中，融合由姿态估计模型来实现。

比如，姿态估计模型可以分别从第一图像和各第三坐标分量中提取出特征信息，将提取出的特征信息进行融合，并基于融合后的特征信息确定所述第一图像中各部位的位置信息，实现了第一图像与各三维空间坐标信息的第三坐标分量在模型内的融合。

其中，第三坐标分量表示高度，同理，三维空间点的高度可以增加更多细节信息，使得输入数据的特征信息更丰富，从而有利于提升姿态估计模型的检测效果，提升模型的鲁棒性。

在一个实施例中，步骤S300中，所述依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息，包括：

S301：从所述第一图像中确定出与所述目标位置信息对应的指定部位区域；

S302：在所述三维点云信息中确定与所述指定部位区域中各像素点对应的候选三维空间点的候选三维空间坐标信息；

S303：依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息。

由于指定部位比较小(目标位置信息比如可以为手腕关节点的位置信息)，有可能会将误检测出的干扰元素的位置信息作为目标位置信息，所以，如果直接将三维点云信息中与目标位置信息对应的三维空间坐标作为指定部位的三维空间坐标，可能会存在一定的误差。

本实施例中，从所述第一图像中确定出与所述目标位置信息对应的指定部位区域，指定部位区域包含多个点，即使存在干扰元素的位置信息，也基本上是少数的，在所述三维点云信息中确定与所述指定部位区域中各像素点对应的候选三维空间点的候选三维空间坐标信息，并依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息，可以降低误差，提升定位结果准确性。

可选的，目标位置信息可以为点位置信息，步骤S301中，从所述第一图像中确定出与所述目标位置信息对应的指定部位区域时，可以在第一图像中确定一块以目标位置信息为中心、大小为设定尺寸的区域，将该区域确定为指定部位区域。其中，设定尺寸比如为N*N(像素点个数)，N大于1，比如可以为10、13、15等，具体取值不限。

在一个实施例中，步骤S303中，依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息，包括：

S3031：从所有候选三维空间坐标信息中选取第三坐标分量大于设定值的参考三维空间坐标信息；所述第三坐标分量表示高度；

S3032：依据各参考三维空间坐标信息中沿着同一坐标轴上的坐标分量，对参考三维空间坐标信息进行过滤，得到目标三维空间坐标信息；

S3033：依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息。

其中，设定值可以根据应用场景确定。以无人零售场景为例，设定值比如可以在0-指定高度之间(可以包含0和指定高度)取值，指定高度比如为货架底部不存在商品的部分的高度。在无人零售场景中，顾客的手部一般不会伸到没有商品的货架底部位置，所以第三坐标分量小于或等于设定值的候选三维空间坐标信息一般是指定部位之外的三维空间点的三维空间坐标信息，因而可以先去除这些候选三维空间坐标信息，选取候选三维空间坐标信息中第三坐标分量大于设定值的参考三维空间坐标信息，以提升定位结果的准确性。其他场景也是类似，在此不再赘述。

三维空间坐标信息可以用X-Y-Z坐标系中的坐标值来表示，对参考三维空间坐标信息进行过滤的过滤条件比如可以为：

且

且

其中，(x1，y1，z1)为参考三维空间坐标信息，(x，y，z)为选取出的各参考三维空间坐标信息分别沿着X、Y、Z坐标轴的平均值，(a，b，c)为选取出的各参考三维空间坐标信息分别沿着X、Y、Z坐标轴的标准差。这里与标准差相乘的系数“3”只是举例，实际还可以为其他取值。

通过上述的过滤，可进一步去除异常的三维空间坐标信息，得到结果更为可靠的目标三维空间坐标信息，再依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息，以进一步提升最终得到的指定部位的三维空间坐标信息的准确性。

在一个实施例中，步骤S3033中，依据目标三维空间坐标信息中沿着同一坐标轴上的坐标分量确定所述指定部位的三维空间坐标信息，包括：

可以理解，本实施例中采用平均值只是一种优选的方式，当然还可以有其他依据目标三维空间坐标信息确定所述指定部位的三维空间坐标信息的方式，比如还可以取中值等，具体不做限定。

本发明还提供一种定位装置，参看图3，该定位装置100可以包括：

图像获得模块101，用于获得第一图像；所述第一图像是依据第二图像中第一图像区域、和/或第三图像中第二图像区域确定的；所述第二图像和所述第三图像被同步采集；采集所述第二图像的图像组件与采集所述第三图像的图像组件具有相重叠的监控区域，所述第一图像区域为对应所述监控区域的图像区域，所述第二图像区域为对应所述监控区域的图像区域；

图像位置确定模块102，用于从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，所述姿态信息由所述目标对象上多个部位的位置信息组成；

空间位置确定模块103，用于依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息；所述三维点云信息包含所述监控区域中多个三维空间点的三维空间坐标信息；所述三维点云信息中存在与所述第一图像中各像素点对应的三维空间点的三维空间坐标信息。

在一个实施例中，所述图像位置确定模块从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息时，具体用于：

在一个实施例中，所述图像位置确定模块依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据时，具体用于：

将处理后的第一图像确定为所述输入数据。

在一个实施例中，所述图像位置确定模块依据第一图像确定待输入至已训练的姿态估计模型的输入数据时，具体用于：

在一个实施例中，所述空间位置确定模块依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息时，具体用于：

在一个实施例中，所述空间位置确定模块依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息时，具体用于：

在一个实施例中，

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的定位方法。

本发明定位装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，图4是本发明根据一示例性实施例示出的定位装置100所在电子设备的一种硬件结构图，除了图4所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置100所在的电子设备通常根据该电子设备的实际功能，还可以包括其它硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的定位方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种定位方法，其特征在于，包括：

2.如权利要求1所述的定位方法，其特征在于，从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息，包括：

将所述输入数据输入至已训练的姿态估计模型输出所述姿态信息；所述姿态信息包括所述指定部位的位置信息、以及在所述姿态信息对应的姿态下其它部位的位置信息；

3.如权利要求2所述的定位方法，其特征在于，依据所述第一图像确定待输入至已训练的姿态估计模型的输入数据，包括：

将处理后的第一图像确定为所述输入数据。

4.如权利要求2所述的定位方法，其特征在于，所述依据第一图像确定待输入至已训练的姿态估计模型的输入数据，包括：

5.如权利要求1所述的定位方法，其特征在于，所述依据所述目标位置信息从已生成的三维点云信息中确定出所述指定部位的三维空间坐标信息，包括：

6.如权利要求5所述的定位方法，其特征在于，依据所述候选三维空间坐标信息确定出所述指定部位的三维空间坐标信息，包括：

7.如权利要求6所述的定位方法，其特征在于，

8.一种定位装置，其特征在于，包括：

9.如权利要求8所述的定位装置，其特征在于，所述图像位置确定模块从所述第一图像中识别出目标对象的姿态信息，并依据所述姿态信息确定所述目标对象上指定部位的目标位置信息时，具体用于：

10.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-7中任意一项所述的定位方法。