CN115428014A

CN115428014A - 基于神经网络的关键点检测方法和系统

Info

Publication number: CN115428014A
Application number: CN202180029875.2A
Authority: CN
Inventors: C·戈尔; P·罗霍斯卡; A·卡拉普斯
Original assignee: Continental Zhixing Germany Co ltd
Current assignee: Continental Zhixing Germany Co ltd
Priority date: 2020-04-22
Filing date: 2021-03-17
Publication date: 2022-12-02
Also published as: EP3901817A1; EP4139831A1; US20230162472A1; DE112021002477T5; WO2021213742A1

Abstract

本发明涉及确定包含在图像中的多个对象的关键点并基于神经网络(2)和与神经网络(2)耦合的后处理系统(3)将所述关键点与各相应对象相关联的一种计算机实现方法。

Description

基于神经网络的关键点检测方法和系统

技术领域

本发明涉及的是一般的神经网络领域，尤其是深度神经网络领域。更具体地说，本发明涉及用于检测包含在图像中的多个对象的关键点并基于神经网络将所述关键点与各相应对象相关联的一种方法和系统。所述神经网络可以是例如卷积神经网络。

背景技术

关键点检测的目的是，定位图像上一对象的预定义点集，并将它们分组到各个对象实例，这是一项挑战性的任务，尤其是在汽车应用领域中。通过检测行人、骑车人、车辆等对象的关键点，可确定所述对象相对于摄像装置视线的姿态。此外，还可对由摄像装置提供的图像中的一个或多个人进行骨骼检测。

尤其在车辆中，计算资源是有限的。然而，在如自主驾驶或至少部分辅助驾驶等汽车应用领域中，却有必要实时检测和分组关键点，并将所述分组的关键点(例如以0.1秒或更短的延迟)与对象相关联，因为必须基于检测到的对象关键点或姿态，迅速做出决定。

曹哲(Zhe Cao)、托马斯·西蒙(Tomas Simon)、魏斯恩(Shih-En Wei)、亚瑟·沙伊赫(Yaser Sheikh)于2016年11月24日在国际计算机视觉与模式识别会议上发表的论文“Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields(使用部分亲和场的实时多人二维平面姿态估计)”中公布了以感兴趣关键点位置为中心的高斯置信图预测。将关键点与人的实例相关联分两步进行：首先，通过引入关键点之间的定向连接，使相应关键点构成一完整的骨骼，然后试图通过预测与之对齐的矢量场对所述连接进行定位。找到所有有效连接后，可重建离散骨架。方法是使共享关键点的连接相关联。

曹哲等人提出的姿态估计算法的主要缺点是使用双三次像素插值的升格算法的计算复杂性，以及对关键点进行分组，并将所述分组的关键点与对象实例相关联的后处理的计算复杂性。

周兴义(Xingyi Zhou)、王德权(Dequan Wang)、菲利普·克莱恩布尔(Philipp

)于2019年4月16日在国际计算机视觉与模式识别会议上发表的论文“Objects as Points(对象作为点)”中公布了一种算法，所述算法检测图像上对象质心，将关键点预测与这些质心相关联，并预测关键点相对于质心的偏移。所提出的方法无法处理(例如由于腿的下部缺失，膝盖和脚踝缺失等)对象实例的关键点缺失情况。在关键点缺失情况下，所述方法被迫也预测图像上人缺失的关键点，从而导致大量的假阳性关键点检测。

发明内容

本发明的一个目的是，提供检测一图像中所包含的多个对象的关键点并将所述关键点与各相应对象相关联的一种方法，所述方法一方面需要较少的计算资源，另一方面不容易出现假阳性关键点检测。所述任务通过独立权利要求的特征解决。从属权利要求中给出了优选的实施方式。如果没有明确说明，本发明的实施方式可彼此自由组合。

根据一观点，本发明涉及的是用于确定包含在图像中的多个对象的关键点并将所述关键点与各相应对象相关联的一种方法。所述方法基于神经网络和与所述神经网络耦合的后处理系统执行。所述方法包括以下步骤：

首先，由神经网络提供置信热图。每个置信热图提供关于感兴趣的关键点的大致位置的信息。更详细地说，每个置信热图可以是高斯分布或类似高斯的分布，它以一特定关键点的位置为中心。与提供给神经网络的输入图像的分辨率相比，置信热图可具有较低的分辨率。因此，降低了计算的复杂性，但缺点是精确度较低。由于置信热图的分辨率或比例降低，置信热图只能提供关键点的大致位置。

此外，由神经网络提供细化偏移矢量。每个细化偏移矢量都与一特定关键点相关联，并为细化由置信热图显示的相关关键点的大致位置提供信息。细化偏移矢量是一矢量，尤其是一个二维矢量，它提供关键点相对于置信热图所示关键点大致位置的准确方向信息。更详细地说，置信热图可以是一概率分布，即提供指示一关键点在图像一特定位置的概率的值。置信热图包括一最大值，由于置信热图较低的分辨率，该值表示的是关键点的大致位置。在将细化偏移矢量添加到置信热图的最大值位置后，就可得到关键点的细化位置。例如，如果置信热图表明关键点的大致位置是(x＝2，y＝2)，而细化偏移矢量的值是(0.1，0.8)，那么通过将细化偏移矢量的值与关键点大致位置的值相加，就可得到关键点的细化位置(2.1，2.8)。

此外，神经网络还提供质心偏移矢量集或一个或多个质心置信热图，以及质心细化偏移矢量。在第一种替代选择情况下，质心偏移矢量集中的每个质心偏移矢量都与一特定关键点相关联，并提供有关关键点与所述关键点所属对象的质心之间的距离和方向信息。更详细地说，对象的质心位置可通过将质心偏移矢量值与关键点的位置相加而获取。关键点位置可以是关键点的大致位置(即没有添加细化偏移矢量的置信热图最大值的位置)或关键点的准确位置(即细化偏移矢量与置信热图最大值相加后的位置)。

在第二替代选择情况下，每个质心置信热图提供有关质心大致位置的信息。更详细地说，每个质心置信热图可以是高斯分布或类似高斯的分布，它以一特定质心的位置为中心。质心置信热图可以是一个概率分布，即提供指示图像一特定位置具有质心的概率值。与提供给神经网络的输入图像分辨率相比，质心置信热图可具有较低的分辨率。因此，降低了计算的复杂性，但缺点是精确度较低。因此，由于质心置信热图的分辨率或比例降低，质心置信热图只能提供关键点的大致位置。

每个质心细化偏移矢量与一质心相关联，并提供细化所述相关联的质心的位置的信息。质心细化偏移矢量是一矢量，具体地说是一个二维矢量，它提供质心的方向信息，相对于质心置信热图所指示质心的大致位置而言，质心的位置是准确的。更详细地说，质心置信热图包括最大值，由于质心置信热图的分辨率较低，它表示质心的大致位置。在将质心细化偏移矢量添加到质心置信热图的最大值位置后，就可得到质心的细化位置。例如，如果质心置信热图表明质心的大致位置是(x＝3，y＝3)，而质心细化偏移矢量的值是(0.2，0.7)，那么将质心细化偏移矢量的值与质心大致位置的值相加，就可得到质心的细化位置(3.2，3.7)。

后处理中，对由神经网络提供的信息进行处理。

为获得关键点大致位置，确定各相应置信热图中的最大值位置。所述关键点大致位置基于包含在细化偏移矢量中的信息进行细化。更详细地说，置信热图的最大值位置表示关键点的大致位置。通过将细化偏移矢量添加到关键点的大致位置，可得到关键点的细化位置。

此外，对象质心是通过将质心偏移矢量应用于关键点位置或通过基于质心细化偏移矢量对由质心置信热图提供的质心大致位置进行细化而确定的。更详细地说，质心置信热图的最大值位置表示质心的大致位置。通过将质心细化偏移矢量添加到质心的大致位置，就可得到质心的细化位置。

最后，基于所确定的对象质心将关键点分组，从而将关键点组与各相应对象相关联。可通过不同方式实施与所述对象的相关联。例如，质心偏移矢量提供的信息可用于将一关键点与一质心相关联，从而与该质心所属对象相关联。此外，可基于所述分组的关键点确定对象的连接。

所述方法是有益的，因为使用细化偏移矢量对关键点位置进行细化，可避免计算上复杂的放大操作。此外，通过确定质心并使用所述质心进行关键点分组以及将关键点集与对象相关联，还可用较低的计算复杂性处理关键点分组和将关键点与对象相关联的任务。此外，所提出方法不容易出现假阳性检测，因为出于将关键点位置转换为质心位置的原因，没必要提供图像上不存在的关键点。

因此，在整体评估中，所提出的方法更有效，并有更高的可靠性。

根据一实施方式，神经网络提供一亲和场矢量集，其中，所述亲和场矢量提供关于关键点对之间的连接的信息。更详细地说，亲和场矢量集是一矢量场，它提供有关一对关键点之间的现有对象连接的信息。亲和场矢量集可用于关键点分组。

根据一实施方式，亲和场矢量用于确定通过对象连接结构相互连接/彼此互连的关键点对。因此，基于所述亲和场矢量集，可确定一对关键点之间是否存在连接。所述确定可以是在考虑有关质心信息情况下对检测到的连接是否正确进行验证的步骤。因此，可大幅度降低关键点错误分组的风险。

根据一实施方式，在关键点模糊的情况下，亲和场矢量被用来消除关键点的模糊性。关键点可包括指示所述关键点一特征或位置的标记。所述特征例如可表示关键点是“右耳”或“左肩”。如果上述方法针对一特定对象检测到两个或多个具有相同标记的关键点，那么亲和场矢量中包含的信息可用于确定，哪个关键点与所述对象正确相关联。以此方式可大幅度降低关键点错误分组的风险。

根据一实施方式，置信热图和/或质心置信热图是基于包含一比图像更低分辨率的栅格提供的。由此可大幅度减少置信热图和/或质心置信热图的计算工作量。为了减轻由于较低分辨率造成的准确度损失，在后处理中，可基于细化偏移矢量对关键点位置进行细化。

根据一实施方式，神经网络为不同类型的对象提供置信热图、细化偏移矢量、质心偏移矢量和/或质心置信热图。例如，第一类型可以是“人”，第二类型可以是“车辆”。神经网络可提供有关检测到哪种类型对象的信息。可并行进行不同对象的检测，即该方法可在神经网络的单个检测过程中确定不同对象的关键点。优选只检测与图像上实际存在的对象相关联的那些关键点。由此，检测质量得到明显改善。

根据一实施方式，置信热图是根据特定的关键点类型分组和/或标记的。换句话说，关键点可包括一指标，即哪种类型的关键点存在于图像的特定位置(例如左肘、右肩等)。由此，对象骨骼的确定得到显著改善。

根据一实施方式，将一组关键点分组到对象的步骤是基于搜索与一个或多个关键点最近的相邻质心实施的。由此大幅度降低关键点分组的复杂性。

根据一实施方式，通过确定一个或多个质心集群，为每个质心集群分配一标记，并通过考虑与所述关键点相关联的质心偏移矢量，将某个质心集群的标记分配给关键点，实施将一组关键点分组到对象的步骤。因此，所述实施方式考虑了哪些关键点属于哪个质心的信息，以标记与同一质心相关联的关键点，分组所述关键点，并将分组后的关键点与对象相关联。

根据一实施方式，确定一个或多个对象质心的步骤包括质心偏移矢量用于关键点位置，导致多个临时质心，并通过对所述多个临时质心应用插值算法确定质心。因此，从关键点位置开始，向内确定质心。由此可降低确定质心偏移矢量的不准确性。

根据一实施方式，所述方法步骤由包括在车辆中的处理硬件实施，以便处理车辆周围环境的图像和/或从车辆内部所拍摄的图像。具体到汽车应用领域中，所提出的方法是有益的，因为它提供了低运行时间和低代码复杂性，因此非常适用于典型情况下处理能力非常有限的汽车处理硬件。

根据一实施方式，所述方法步骤由包括在车辆摄像装置中的处理硬件实施。换句话说，至少神经网络的任务以及优选后处理的任务是在摄像装置内部的处理硬件中执行的。

根据一实施方式，对象的分组关键点被关联起来用以估计对象的姿态。由此可得出有关未来运动和/或未来姿态的信息，以便根据所估计的未来运动/姿态对行驶操控进行协调。

根据另一观点，本发明涉及一种计算机程序产品，用于确定包含在图像中的多个对象的关键点，并将所述关键点与各对象相关联。所述计算机程序产品包括其中含有程序指令的计算机可读存储介质。所述程序指令可由处理器执行，以使所述处理器执行根据上述实施方式中任一实施方式所述的方法。

根据另一观点，本发明涉及确定包含在图像中的多个对象关键点并将所述关键点与各相应对象相关联的一种系统。所述系统包括神经网络和与所述神经网络耦合的后处理系统。所述系统配置用于执行以下步骤：

-由神经网络提供置信热图，其中，所述置信热图包含比所述图像更低的分辨率，并由此提供有关关键点的大致位置的信息；

-由神经网络提供细化偏移矢量，其中，每个细化偏移矢量与一特定关键点相关联，其中，每个细化偏移矢量提供细化相关关键点的位置的信息；

-提供：

o由神经网络提供质心偏移矢量集，其中，所述质心偏移矢量集中的每个质心偏移矢量都与一关键点相关联，其中，所述质心偏移矢量提供有关关键点与所述关键点所属对象的质心之间的距离和方向的信息；或

o由神经网络提供一个或多个质心置信热图，其中，每个质心置信热图包含一比所述图像更低的分辨率，并由此提供关于质心大致位置的信息，其中，由神经网络提供一个或多个质心细化偏移矢量，其中，每个质心细化偏移矢量与一质心相关联，并提供对所述相关质心位置细化的信息。

-确定各相应置信热图中的最大值位置，并将各相应置信热图中的最大值位置用作关键点大致位置，通过添加细化偏移矢量对所述关键点大致位置进行细化，从而获得细化的关键点位置；

-通过以下方式确定所述多个对象的质心

o将质心偏移矢量添加到细化的关键点位置或关键点大致位置；或

o通过向各相应质心大致位置添加质心细化偏移矢量，对由质心置信热图提供的质心大致位置进行细化；

-基于所确定的对象质心，将一组关键点与对象相关联。

作为所述方法一实施方式描述的上述每个特征也可在根据本专利文献中公布的系统中用作一系统特征。

在本发明中使用的术语“车辆”可指汽车、卡车、巴士、有轨车辆或任意其他交通工具。

本专利文献公布内容中使用的术语“关键点”可指表征所述对象的姿态的对象位置或对象点。就一个人而言，关键点可以是“眼睛”、“耳朵”、“肩膀”、“肘部”、“手腕”、“臀部”、“膝盖”、“脚踝”等。

本专利文献公布内容中使用的术语“置信热图”可指对象的一个关键点处于其中的区域，该区域由例如高斯分布等一概率分布叠加。所述概率分布表示关键点以何种概率处于各相应概率值的位置。

本专利文献公布内容中使用的术语“细化偏移矢量”可指一矢量，它表明为到达实际关键点位置，关键点大致位置必须以什么距离和沿哪个方向移动。

本专利文献公布内容中使用的术语“质心”可指一对象的中心，尤其是重心。

本专利文献公布内容中使用的术语“质心偏移矢量”可指一矢量，它表明为到达实际的质心位置，质心大致位置必须以什么距离和沿哪个方向移动。

本专利文献公布内容中使用的术语“质心置信热图”可指一对象的质心所在区域，该区域由概率分布叠加。所述概率分布表示质心根据哪种概率处于各相应概率值的位置。

本专利文献公布内容中使用的术语“对象连接结构”可指构成对象骨骼的一部分的一对关键点的直接连接结构。在对象是人的情况下，对象连接结构例如可以是肢体。

本发明中使用的术语“基本上”或“大约”是指与精确值偏差+/-10％，优选偏差+/-5％，和/或以变化的形式对功能和/或对交通规则而言不重要的偏差。

附图说明

从以下详细描述和附图中更容易理解本发明的不同观点，包括其特定的特征和优点，其中：

图1示出了用于确定图像中所包含的多个对象的关键点并将所述关键点与各相应对象相关联的一种系统的示例性示意图；

图2示意性地图示了在根据图1所述系统的后处理系统中实施的步骤；

图3示出了应用所述方法的示例图；

图4示出了根据图3所述的图像的关键点和质心；

图5示出了置信热图和细化偏移矢量，两者都与特定关键点相关联。

图6示意性地图示了使用多个质心偏移矢量确定对象质心的一种方法。

图7示意性地图示了基于质心偏移矢量将关键点与质心相关联的过程。

图8图示了被设置在一对关键点之间的多个亲和场矢量；

图9图示了根据图3所示的图像的检测到的骨骼；以及

图10示出了一示意框图，该框图图示用于确定包含在图像中的多个对象的关键点并将所述关键点与各相应对象相关联的方法的各步骤。

具体实施方式

现参照展示示例性实施方式的附图对本发明进行更详细的描述。附图中的实施方式涉及优选实施方式，同时，已结合实施方式描述的所有要素和特征可尽可能与本文讨论的任何其他实施方式和特征结合使用，尤其是与上面进一步讨论的任何其他实施方式相关联。然而，本发明不应被解释为只限于这里所述的实施方式。在后面所有描述中，如果适用的话，相似的参考号表示相似的要素、部分、项目或特征。

在说明、权利要求、实施例和/或附图中公布的本发明特征既可单独，也可任意组合成各种形式，用于实现本发明。

图1图示确定包含在图像中的多个对象的关键点并将所述关键点与各相应对象相关联的一种系统1。对象例如可以是个人、车辆等。所述图像可包含单一对象类别的多个对象(例如图像上的多个人)，也可包含不同对象类别的多个对象(例如一个或多个人和一辆或多辆车)。

所述图像可由摄像装置提供，尤其可由设置在车辆中或包含在车辆内的摄像装置提供。

所述图像由神经网络2接收，所述神经网络例如可以是卷积神经网络。神经网络2可以是一经训练的神经网络，即神经网络2已事先针对特定任务接受过训练，以便为确定有关图像中包含的多个对象的关键点信息提供特定特征，并为确定用于将所述关键点与各相应对象相关联的所需信息提供特定特征。

如图1所示，神经网络2提供不同的输出信息。首先，神经网络2提供多个置信热图CH。每个置信热图CH定义图像上一特定区域，并与对象的一特定关键点(例如人的左肘)相关联。置信热图CH表示相关的关键点处于所述置信热图CH中。神经网络2可为图像上每个可见的关键点提供置信热图CH。

根据实施方式，置信热图CH是有标记的。基于所述标记，可确定例如“右肘”、“右肩”等关键点类型。

此外，置信热图CH还提供图像在至少两个维度的概率值。所述概率值可表明，关键点处于图像一特定区域的概率是多少。置信热图CH的概率值可根据高斯分布或类似高斯的分布进行设置。

为降低计算复杂性，置信热图CH可具有比用作神经网络2输入的图像更低的分辨率。例如，置信热图CH可只包括1/4到1/100，尤其是1/8的图像分辨率。所述分辨率的降低导致准确性的损失。

为降低准确性的损失，神经网络2提供细化偏移矢量ROV。每个细化偏移矢量ROV都与一特定置信热图CH相关联。细化偏移矢量ROV提供校正信息，用于校正相关置信热图CH的最大值位置，以准确定义关键点(与置信热图CH相关联)在图像上的位置。

更详细地说，细化偏移矢量ROV可以是一定义置信热图CH的最大值位置变化的矢量，从而减小与图像分辨率相比降低置信热图CH分辨率而引起的准确性的损失。

值得一提的是，细化偏移矢量ROV是由神经网络2提供的，也就是说，与图像分辨率相比，降低置信热图CH的分辨率所引起的准确性的损失不一定由后处理3中执行的复杂细化算法引起。

神经网络可基于基准真相信息进行训练，以估计细化偏移矢量ROV。基准真相信息可包括基准真相细化偏移矢量，该矢量通过计算一矢量而建立，所述矢量从基准真相关键点的大致位置开始，到基准真相关键点的确切位置结束。基准真相关键点的大致位置是以置信热图较低的分辨率确定的，确切位置可以较高的分辨率确定，即以提供作为神经网络输入的图像分辨率确定。基于所述基准真相信息，可对神经网络加以训练，以便例如借助一损失函数对细化偏移矢量进行估计。

此外，参考周兴义(Xingyi Zhou)、王德权(Dequan Wang)、菲利普·克莱恩布尔(Philipp

)于2019年4月16日在国际计算机视觉与模式识别会议上发表的论文“Objects as Points(对象作为点)”第3节中提供的训练神经网络的一损失函数示例，用于提供降低由于向下采样造成的准确性的损失的矢量。神经网络2可以类似方式进行训练，用于估计细化偏移矢量ROV。

此外，神经网络2可提供有关图像中所包含的一个或多个对象的质心信息。可以不同方式提供有关所述质心的信息。

根据图1所述实施方式，神经网络2提供质心偏移矢量COV。每个质心偏移矢量COV都与一对象特定关键点相关联。每个质心偏移矢量COV提供位移信息，所述位移信息表明一特定关键点必须沿哪个方向移动以及移动多远才能到达对象的质心。换句话说，基于质心偏移矢量COV，对象特定关键点可被移动到所述对象的质心位置。

根据另一实施方式，神经网络2可基于一个或多个质心置信热图和一个或多个质心细化偏移矢量，提供有关图像中所包含的一个或多个对象的质心的信息。

与上述置信热图相似，质心置信热图对图像上对象的质心所位于的特定区域进行了定义。此外，质心置信热图还提供在图像的至少两个维度上的信号值。所述信号值可表明，对象质心处于图像一特定区域中的概率是多少。质心置信热图的信号值可根据高斯分布或类似高斯的分布进行设置。

质心置信热图还可具有比用作神经网络2的输入的图像更低的分辨率。为降低由所述降低的分辨率导致的准确性的损失，神经网络2提供一个或多个质心细化偏移矢量。每个质心细化偏移矢量都与一特定质心置信热图相关联。所述质心细化偏移矢量提供校正信息，用于校正相关质心置信热图的最大值位置，以准确定义质心在图像上的位置。

更详细地说，质心细化偏移矢量可以是一个定义质心置信热图最大值位置变化的矢量，并由此降低因与图像分辨率相比降低质心置信热图分辨率导致的准确性的损失。

值得一提的是，质心细化偏移矢量可由神经网络2提供，也就是说，与图像分辨率相比，降低质心置信热图的分辨率导致的准确性的损失不一定由后处理3中执行的复杂细化算法引起。

神经网络2可基于基准真相信息进行训练，以估计所述质心细化偏移矢量。基准真相信息可包含基准真相质心细化偏移矢量，所述矢量通过计算从基准真相质心的大致位置开始并于基准真相质心的确切位置结束的矢量而设立。基准真相质心的大致位置是在较低分辨率的质心置信热图中确定的，确切位置可以较高分辨率——即，用作神经网络2的输入的图像分辨率——确定。基于所述基准真相信息，可对神经网络2进行训练，例如通过使用损失函数等对质心细化偏移矢量进行估计。

)于2019年4月16日在国际计算机视觉与模式识别会议上发表的论文“Objects as Points(对象作为点)”第3节中提供的训练神经网络的损失函数示例，用于提供降低由于向下采样造成的准确性的损失的矢量。神经网络2可以类似方式训练，以对质心细化偏移矢量进行估计。

最后，根据一实施方式，神经网络2可提供一个或多个亲和场矢量AFV集。亲和场矢量集是表示一对关键点之间的特定连接的矢量场。例如，亲和场矢量集可表示第一关键点“右肩”和第二关键点“右肘”之间的连接，即，可表示例如人的肢体。包含在亲和场矢量集中的矢量是根据现有连接排列的。

如下文更详细的描述，亲和场矢量集可用于将关键点与特定对象相关联和/或消除模糊性。

神经网络2的输出信息可提供给后处理系统3，所述后处理系统配置用于处理收到的信息，以确定关键点、确定关键点与特定对象的关联，以及确定关键点之间的现有连接，以建立对象的骨骼。

图2更详细展示由后处理系统3执行的过程。

由神经网络2提供的置信热图CH可被解析，以确定局部最大值。换句话说，每个置信热图CH的峰值被确定，以获得与各相应置信热图相关联的关键点大致位置信息。置信热图CH可在栅格上提供。置信热图CH的局部最大值可设置在栅格线的交点处。

图3展示一示例图，图中展示两个对象，即两个芭蕾舞者。

图4中，以白色椭圆突出显示图3中所示对象的置信热图，所述对象的质心由白色方块突出显示。

图5示例性展示在栅格上提供的特定置信热图CH。方块的不同灰度等级表示各相应位置的概率值。峰值概率值处于中间，由黑色方块表示。

回到图2，在搜索局部最大值后，基于细化偏移矢量ROV提供的信息细化关键点。如上所述，细化偏移矢量ROV与特定置信热图CH相关联。由于置信热图CH的分辨率较低，确定的局部最大值只能表明关键点大致位置。

通过将细化偏移矢量ROV用于局部最大值，就可确定关键点的细化位置。换句话说，根据细化偏移矢量ROV提供的信息，通过移动局部最大值的位置，可降低准确性的损失。

图5示例性展示通过细化偏移矢量ROV实施的局部最大值移动，所述移动通过黑色方块中间的白色箭头表示。通过将细化偏移矢量ROV用于置信热图CH的局部最大值，确定由白色箭头尖端区域的白色十字表示的关键点细化位置。

再回到图2，对关键点进行细化后，图像中所包含的对象质心被确定。

如上所述，可以不同方式确定质心。图2中所示实施方式用质心偏移矢量COV确定对象质心。

每个质心偏移矢量COV都与特定关键点相关联。通过将质心偏移矢量COV用于相关的关键点，可确定该关键点所属对象的质心位置，或确定至少质心的位置估计。

图6示例性展示用黑点表示的对象的多个关键点，以及用白色箭头表示的质心偏移矢量COV集。每个质心偏移矢量COV都与特定关键点相关联。如果基于质心偏移矢量COV对关键点进行移位操作，就会得到滑雪者中心由白点表示的质心估计。通过所述移位操作获得的估计质心可能不完全处于对象的实际质心。然而，通过考虑所有估计的质心，并将平均算法用于所述估计的质心，则可得出实际质心。

根据另一实施方式，如上所述，也可基于质心置信热图和质心细化偏移矢量确定图像中所包含的对象质心，其中，每个质心细化偏移矢量与所述质心置信热图之一相对应。质心置信热图的最大位置表示质心的大致位置。质心的确切位置是基于相应的质心细化偏移矢量中所包含信息，通过移动质心的大致位置得出的。

再回到图2，确定质心后，关键点就与一特定对象相关联。换句话说，在图像存在多个关键点的情况下，决定哪个关键点属于哪个对象。

神经网络提供的关键点可被标记。关键点的标记可表明所述关键点处于对象的哪个位置。由此，属于个人的关键点标记例如可表示“左肘”或“右肩”。

然而，在具有相同标记类别的多个关键点情况下，必须确定关键点与对象的关联，也就是说，例如哪个“右肩”属于哪个人。

根据第一实施例，关键点与对象的关联可基于“最邻近搜索”算法加以确定。换句话说，通过考虑对象的哪个质心最接近所述关键点，将特定关键点与对象相关联。

根据第二实施例，由质心偏移矢量COV提供的信息可用于将关键点与对象相关联。如上所述，质心偏移矢量COV提供有关一特定关键点与该关键点所属对象的质心的方向和距离信息。所述信息可用于将关键点与对象相关联。

例如，聚类算法可用于确定通过将质心偏移矢量COV用于关键点获得所述质心大致位置的集群。聚类机制的例子可以是例如，k均值算法或EM算法(EM：expectationmaximization(期望最大))。每个聚类可由表示一特定对象的标记提供。使用质心偏移矢量COV知识，提供给聚类的标记也可提供给对应于所述质心偏移矢量COV的一组关键点(参见图6)。因此，一组关键点可被确定为属于一特定聚类，或属于一特定对象。

图7示意性说明基于“聚类”算法将关键点与对象相关联。检测到的关键点用X表示，检测到的质心用C表示。箭头表示所述质心偏移矢量COV。通过考虑有关质心偏移矢量COV的信息，可得到关键点与质心的分组，或关键点与对象的分组。

根据第三实施方式，还可通过使用亲和场矢量AFV获得关键点分组。如上所述，每个亲和场矢量集提供有关关键点连接的信息，也就是说，有关哪个关键点通过对象连接结构与哪个进一步的关键点相连接的信息。这种对象连接结构例如可以是人的肢体。通过考虑包含在所述亲和场矢量中的信息，可得到关键点与对象的分组，因为只有通过亲和场矢量彼此连接的关键点对才属于特定对象。

图8提供一亲和场矢量集。所述亲和场矢量例如可表明两个关键点“肩”和“肘”的连接。亲和场矢量根据例如肢体方向等对象连接结构进行排列。

将关键点与图像中对象相关联后，可能会出现模糊不清的情况。例如，一个对象可包含属于同一关键点标记的多个关键点，例如多个“左肩”。为消除这类模糊性，可使用亲和场矢量AFV检查哪个关键点确实属于所述对象，并删除至少一个进一步的关键点关联。在使用“最邻近搜索”或“聚类”机制获取关键点与对象关联的实施方式中，所述模糊性的消除可能特别有益，因为在所述实施方式中，亲和场矢量AFV未被用于获取关键点与对象的关联。

最后，在消除模糊性后，建立对象骨骼。例如，可通过根据关键点标记连接与一特定对象相关联的关键点获取所述骨骼的建立。这类连接例如可包括根据对象一已知结构实施对象与相关联关键点的连接，例如将关键点“左腕”与关键点“左肘”相连接，将关键点“左肘”与关键点“左肩”相连接。

图9图示的是根据图3和图4的图像检测到的对象骨骼。基于检测到的关键点所确定的骨骼由白线表示。

人工神经网络2可使用图像进行训练，所述图像在用于训练前都进行了手动标记。提供给图像的所述标记也被称为基准真相数据。所述基准真相数据例如可为每个对象提供一表示所述对象范围的边界框。基于所述边界框，例如可通过计算边界框的中心坐标，将所述中心坐标用作对象的质心位置确定对象质心。

此外，基准真相数据可提供有关对象关键点位置的信息。此外，基准真相数据可提供例如左肩、右耳、左膝等有关关键点类型的信息，或在车辆作为一对象的情况下，左外后视镜、右前灯等有关关键点类型的信息。

通过使用所述基准真相数据，人工神经网络2可被训练用于对置信热图、关键点大致位置、细化偏移矢量、质心偏移矢量、质心细化偏移矢量和/或质心置信热图等进行估计。

由后处理系统3执行的一些过程已在之前与特定实施方式相关的部分进行了描述。此外，后处理系统3还可执行其他任务，如姿态估计，基于检测到的关键点(也通过回归对象深度延伸的三维立体方式)提供对象周围的边界框，提供对象之间关系的预测(例如检测摩托车和摩托车附近一人之间的关系，为此，作出“摩托车驾驶员”的决定)，通过回归分析或跟踪关键点的距离进行关键点的三维立体检测，一对象的三维立体定向(例如通过确定对象相对于摄像装置的翻滚角、俯仰角和偏航角)，以及通过回归分析关键点坐标的时间偏移实施对象追踪。

本专利文献中公布的内容可用于一车辆周围环境中关键点和对象的检测。然而，根据另一实施方式，也可基于摄像装置监控车辆内部空间，并检测车内人员的关键点，以得出例如在自主驾驶情况下驾驶员是否准备好接管汽车等有关车辆乘客的信息。

图10展示的是一方框图，它说明确定多个对象关键点，并将所述关键点与对象相关联的一种方法的方法步骤。

第一步，可在图像中检测多个对象。每个对象包含一个质心和多个关键点。

随后，由神经网络提供置信热图(S10)。所述置信热图提供关于关键点大致位置的信息。

提供置信热图后，由神经网络提供细化偏移矢量(S11)。每个细化偏移矢量都与一特定关键点相关联，并提供细化相关关键点位置的信息。

提供置信热图后，由神经网络提供质心偏移矢量或质心热图(S12)。

作为进一步的步骤，确定定义关键点大致位置的各相应置信热图的最大值位置。基于细化偏移矢量细化所述关键点大致位置(S13)。

在一进一步的步骤中，确定图像中所包含对象的质心(S14)。

最后，基于所确定质心，对所确定的关键点进行分组(S15)。

应注意的是，描述和附图仅说明所提出本发明的原理。本领域的技术人员能实施在此没有明确描述或展示，但体现本发明原理的各种设置。

附图标记列表

1 系统

2 神经网络

3 后处理

AFV 亲和场矢量

CH 置信热图

COV 质心偏移矢量

ROV 细化偏移矢量

Claims

1.用于确定包含在图像中的多个对象的关键点并基于神经网络(2)和与神经网络(2)耦合的后处理系统(3)将所述关键点与各相应对象相关联的计算机实现方法，其中，所述方法包括以下步骤：

-由神经网络(2)提供置信热图(CH)(S10)，其中，所述置信热图(CH)包含比所述图像更低的分辨率，并由此提供有关感兴趣的关键点的大致位置的信息；

-由神经网络(2)提供细化偏移矢量(ROV)(S11)，其中，每个细化偏移矢量(ROV)与一特定关键点相关联，其中，每个细化偏移矢量(ROV)提供用于细化相关联的关键点的位置的信息；

-提供(S12)：

o由神经网络(2)提供质心偏移矢量(COV)集，其中，所述质心偏移矢量(COV)集中的每个质心偏移矢量都与一关键点相关联，其中，所述质心偏移矢量(COV)提供有关关键点与所述关键点所属对象的质心之间的距离和方向的信息；或

o由神经网络(2)提供一个或多个质心置信热图，其中，每个质心置信热图包括比所述图像更低的分辨率，并由此提供关于质心大致位置的信息，其中，由神经网络(2)提供一个或多个质心细化偏移矢量，其中，每个质心细化偏移矢量与一质心相关联，并提供用于对相关联的质心的位置进行细化的信息；

-确定各相应置信热图(CH)中的最大值位置，并将各相应置信热图(CH)中的最大值位置用作关键点大致位置，并通过添加细化偏移矢量(ROV)对所述关键点大致位置进行细化，从而获得细化的关键点位置(S13)；

-通过以下方式确定所述多个对象的质心(S14)

o将质心偏移矢量(COV)添加到细化的关键点位置或关键点大致位置；或

o通过向各相应质心大致位置添加质心细化偏移矢量，对由质心置信热图提供的质心大致位置进行细化(S14)；

-基于所确定的对象质心将关键点与对象相关联(S15)。

2.根据权利要求1所述的方法，其中，神经网络(2)提供一亲和场矢量(AFV)集，其中，所述亲和场矢量(AFV)提供有关关键点对之间的连接的信息。

3.根据权利要求2所述的方法，其中，亲和场矢量(AFV)用于确定通过对象连接结构相互连接的关键点对。

4.根据权利要求2或3所述的方法，其中，在关键点模糊不清情况下，亲和场矢量(AFV)用于消除关键点的模糊性。

5.根据上述权利要求中任一权利要求所述的方法，其中，神经网络(2)为不同类型的对象提供置信热图(CH)、细化偏移矢量(ROV)、质心偏移矢量和/或质心置信热图。

6.根据上述权利要求中任一权利要求所述的方法，其中，置信热图(CH)根据给定的关键点类型进行分组和/或标记。

7.根据上述权利要求中任一权利要求所述的方法，其中，将关键点与对象相关联的步骤是基于搜索与一个或多个关键点最接近的质心来实施的。

8.根据上述权利要求中任一权利要求所述的方法，其中，将关键点与对象相关联的步骤是通过确定一个或多个质心集群、为每个质心集群分配一标记以及通过考虑与所述关键点相关联的质心偏移矢量(COV)将一特定质心集群的标记分配给关键点来执行的。

9.根据上述权利要求中任一权利要求所述的方法，其中，确定对象质心的步骤包括：将质心偏移矢量(COV)应用于关键点位置以产生多个临时质心，和将插值算法应用于所述多个临时质心以确定质心。

10.根据上述权利要求中任一权利要求所述的方法，其中，所述方法的各步骤由包括在车辆中的处理硬件执行，用于处理汽车周围环境的图像和/或处理从车辆内部拍摄的图像。

11.根据上述权利要求中任一权利要求所述的方法，其中，所述方法的各步骤由包括在车辆摄像装置中的处理硬件执行。

12.根据上述权利要求中任一权利要求所述的方法，其中，为估计对象的姿态，将与对象相关联的关键点连接起来。

13.用于确定包含在图像中的多个对象的关键点并将所述关键点与各相应对象相关联的计算机程序产品，其中，所述计算机程序产品包括含有程序指令的一计算机可读存储介质，其中，所述程序指令可由处理器执行，以使所述处理器执行根据上述权利要求中任一权利要求所述的方法。

14.用于确定包含在图像中的多个对象的关键点并将所述关键点与各相应对象相关联的系统，其中，所述系统包括神经网络(2)和与所述神经网络(2)耦合的后处理系统(3)，其中，所述系统还配置用于执行以下步骤：

-由神经网络(2)提供置信热图(CH)，其中，所述置信热图(CH)包含比所述图像更低的分辨率，并由此提供有关感兴趣的关键点的大致位置的信息；

-由神经网络(2)提供细化偏移矢量(ROV)，其中，每个细化偏移矢量(ROV)与一特定关键点相关联，其中，每个细化偏移矢量(ROV)提供用于细化相关联的关键点的位置的信息；

-提供：

o由神经网络(2)提供质心偏移矢量(COV)集，其中，所述质心偏移矢量(COV)集中的每个质心偏移矢量(COV)都与一关键点相关联，其中，所述质心偏移矢量(COV)提供有关关键点与所述关键点所属对象的质心之间的距离和方向的信息；或

o由神经网络(2)提供一个或多个质心置信热图，其中，每个质心置信热图包括比所述图像更低的分辨率，并由此提供关于质心的大致位置的信息，其中，由神经网络(2)提供一个或多个质心细化偏移矢量，其中，每个质心细化偏移矢量与一质心相关联，并提供用于对相关联的质心的位置进行细化的信息；

-确定各相应置信热图(CH)中的最大值位置，并将各相应置信热图(CH)中的最大值位置用作关键点大致位置，并通过添加细化偏移矢量(ROV)对所述关键点大致位置进行细化，从而获得细化的关键点位置；

-通过以下方式确定所述多个对象的质心

o通过向各相应质心大致位置添加质心细化偏移矢量，对由质心置信热图提供的质心大致位置进行细化。

-基于所确定的对象质心，将一组关键点与对象相关联。