CN117437433B

CN117437433B - 一种亚像素级关键点检测方法及装置

Info

Publication number: CN117437433B
Application number: CN202311665963.9A
Authority: CN
Inventors: 章永宏; 季旭全; 刘洪升; 宋雄康; 耿宝多; 毛宁波; 张坚
Original assignee: Suzhou Zhuzheng Robot Co ltd
Current assignee: Suzhou Zhuzheng Robot Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-03-19
Anticipated expiration: 2043-12-07
Also published as: CN117437433A

Abstract

本发明公开了一种亚像素级关键点检测方法及装置，涉及计算机视觉和深度学习技术领域，方法包括：将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图；确定所述单通道热力图中各个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息。本发明采用特征维度为1的热力图实现对未知数量的关键点的定位，并基于偏置量对热力图定位得到的关键点进行修正，实现了亚像素级的关键点精确定位。

Description

一种亚像素级关键点检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于偏置热力图回归的亚像素级关键点检测方法及装置。

背景技术

关键点检测是计算机视觉领域的重要任务之一。传统的关键点定位算法精度不足且鲁棒性不高，难以适应复杂的应用场景。

目前，最为常用的关键点检测算法均是基于卷积神经网络开发的，主要分为两大类，分别是：坐标直接回归、热力图回归。坐标直接回归由于缺乏空间泛化能力，目前应用较少。热力图回归是使用网络算法生成一个表示中间状态的高斯热图，并在高斯热图内通过查找亮度最高的点来实现对关键点的定位，目前是最为常用的关键点定位方法。

然而，热力图回归算法存在理论误差下界，即使输入图像与输出的热力图之间尺寸相同，也依然只能达到像素级精度，这对于一些对探测精度要求极高的场景是无法满足要求的。虽然部分传统热力图回归方法能实现亚像素级关键点检测，但是这些方法要求热力图通道数至少与关键点数目相同，并不能实现对单一通道热力图的数目不确定的关键点的精确定位的要求。

因此，有必要提供一种基于单一通道热力图实现对数目不确定的关键点的亚像素级精确定位方法。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种亚像素级关键点检测方法及装置，采用特征维度为1的热力图实现对未知数量的关键点的定位，并基于偏置量对热力图定位得到的关键点进行修正，实现了亚像素级的关键点精确定位。

本发明的一个方面，提供了一种亚像素级关键点检测方法，包括如下步骤：

将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图；

确定所述单通道热力图中各个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息。

进一步的，所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块；

所述生成模块包括热力图生成模块和偏置向量图生成模块；所述热力图生成模块的输入端连接所述第五CTBR模块的输出端，所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块，Sigmoid激活函数模块输出热力图；所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端，所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块，所述第二卷积模块输出偏置向量图；

上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块；

所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块，所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小；

上述全部的CB模块均包括依次连接的第三卷积模块和BN模块；

所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块，所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大；

所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同。

进一步的，确定所述单通道热力图中各个亮斑区域的关键像素点的步骤，包括：

在热力图的每个亮斑区域内查找亮度最高的像素点，将亮度最高的像素点作为该亮斑区域的候选关键像素点；

判断候选关键像素点的数量，若亮斑区域内的候选关键像素点唯一，则将唯一的候选关键像素点作为该亮斑区域的关键像素点；若亮斑区域内的候选关键像素点不唯一且相邻，则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。

进一步的，所述在热力图的每个亮斑区域内查找亮度最高的像素点，包括：自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。

进一步的，还包括对偏置热力图网络进行预训练的步骤，在预训练的过程中，采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。

本发明的另一方面，还提供了一种亚像素级关键点检测装置，包括：

第一模块，被配置为将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图；

第二模块，被配置为确定所述单通道热力图中各个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息。

上述全部的CB模块均包括依次连接的第三卷积模块和BN模块；

进一步的，第二模块被进一步配置为：

进一步的，第二模块被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。

进一步的，还包括预训练模块，被配置为在预训练的过程中采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。

本发明提供的一种亚像素级关键点检测方法及装置，采用单通道的热力图实现对未知数量的关键点的定位，并基于偏置向量对热力图定位得到的关键像素点进行修正，实现了亚像素级的关键点精确定位。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一个实施例提供的亚像素级关键点检测方法的流程图；

图2是本申请一个实施例提供的多个关键点的单通道热力图；

图3是本申请一个实施例提供的热力图亮斑区域关键点的示意图，图中数字表示像素的不同亮度等级；

图4是本申请一个实施例提供的关键点偏置处理的示意图；

图5是本申请一个实施例提供的偏置热力图网络结构示意图；

图6是本申请一个实施例提供的亚像素级关键点检测装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要注意的是，本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

热力图回归算法是通过对卷积神经网络输出的表示关键点位置的热力图进行处理得到关键点位置的方法。这种传统方法采用在热力图的每个通道内查找亮度最高的点作为关键点坐标，其要求热力图通道数至少与关键点数目相同，因此并不能满足实际运用中实现对数目不确定的关键点的精确定位的要求。本发明意在通过一个偏置热力图网络实现单通道内对数目不确定的一类关键点的亚像素级的精确定位。

参见图1，本发明的一个实施例提供了一种亚像素级关键点检测方法，包括如下步骤：

步骤S101：将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图。

具体的，图2示出了单通道的热力图中的多个亮斑分布，其中亮斑关键点的数量不限于5个，可以是任意多个，因此是不确定的。本发明的偏置热力图网络能够同时生成特征维度为1的热力图和特征维度为2的偏置向量图。热力图的特征维度为1意味着热力图能够在一个通道内实现对数目不确定的一类关键点的定位。偏置向量图的特征维度为2意味着热力图中的关键点能够在X轴、Y轴两个方向上进行关键点的偏置，从而实现关键点的更精确的定位。

更进一步的解释说明。参见图3，示出的亮斑区域都是规则的，其区域中心一般是亮度最大的，越向外延伸亮度越低，因此这种规则的亮斑区域的中心像素往往是亮度最高的像素点，也是整个亮斑的关键点位置。然而，有些亮斑区域并不是规则的，其亮度最大的像素点并不是亮斑的中心像素，或者该不规则的亮斑区域没有中心像素，此时即使按照最大亮度的像素确定关键点，该关键点也不是真正的亮斑关键点位置，这就产生了定位误差。通常这个误差可以通过一定的人工经验弥补，即在获得的规则区域的关键点位置的基础上进行一定量的偏置，但是往往并不准确。本发明通过改进的深度学习网络直接获得热力图和该热力图需要偏置的量，能够获得更加精确的关键点的位置。图4示出了关键点偏置处理的示意图。

参见图5，本发明的偏置热力图网络包括如下结构：

依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块；

其中，生成模块包括：热力图生成模块和偏置向量图生成模块；所述热力图生成模块的输入端连接所述第五CTBR模块的输出端，所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块，Sigmoid激活函数模块输出热力图；所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端，所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块，所述第二卷积模块输出偏置向量图；

上述全部的CB模块均包括依次连接的第三卷积模块和BN模块；

上述偏置热力图网络中的各模块的含义如下：

ConvT：转置卷积模块；

BN：BatchNormer模块；

ReLU：ReLU激活函数模块；

Conv：卷积模块；

CTBR：转置卷积、BatchNormer以及ReLU激活函数模块的组合；

CB：卷积以及BatchNormer模块的组合；

CBR：CB模块与ReLU激活函数模块的组合；

BNE：由CBR、CB以及ReLU激活函数模块组成的带有残差结构的组合模块；

CBBL：由CB模块以及N个BNE模块组合而成的组合模块，N可灵活设定；

Pool：最大值池化模块；

Sigmoid：Sigmoid激活函数模块。

从图5可以看出，偏置热力图网络并行输出一个热力图以及一个偏置距离向量矩阵，偏置距离向量矩阵以偏置向量图的形式展现。在上述网络结构中，热力图和偏置向量图的尺寸与输入的待处理图像相同，但特征维度不同。其中热力图的特征维度为1，偏置距离向量矩阵的特征维度为2（分别表示X和Y两个方向的偏置量）。在偏置热力图网络的运算结束后，解码程序只需在热力图中找到各个局部高亮区的最亮的点，并在偏置向量图中取出对应的偏置向量相加即可。本发明的网络结构为保证有效提取图像的特征，需要不断扩展偏置热力图网络中卷积核的感受野。因此，本发明的偏置热力图网络不断采用池化操作以及CBBL模块来缩小特征张量的尺寸，为了保证对关键点的定位精度，本发明将偏置热力图网络的输出张量的尺寸设定为与输入图像的张量尺寸相同，因此，本发明的偏置热力图网络在完成对图像的特征提取后需要不断扩大特征张量的尺寸。具体的，输入与输出张量的尺寸关系为，其中，/>为批量大小，即每批输入图的数量，/>、/>是特征通道数，/>、/>为图像的宽和高。/>与/>可以根据具体情况灵活设定。

步骤S102：确定所述单通道热力图中各个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息。

具体的，在通过偏置热力图网络得到热力图和偏置向量图后，进一步的从热力图中获取亮斑区域的关键像素点位置信息，该关键像素点位置信息是像素级精度的位置信息，即未进行亚像素级偏置校正的关键像素点位置。参见图3，图中的数值表示各个像素的亮度大小，也表示各个像素作为关键像素点的概率值。由于亮斑区域是由亮斑中心向外亮度逐渐降低形成的，所以优选的在图像中遍历寻找满足比其周围一定范围内所有点均亮的点即可。图3中的a像素区域的中心点相较其周围5×5区域内其他像素点亮度更高，因此其中心点像素可以作为关键像素点。图3中的b像素区域的中心点明显不是最高亮度，因此其不满足作为关键像素点要求。图3中的c像素区域的中心点也可以作为关键像素点，但该区域总体亮度较低，可能是歧义点，因此可以设定一定的亮度阈值，来将亮度低于阈值的某些歧义点删除，这样可以更精确的定位像素级精度的关键像素点。

更进一步的，参见图3中的d像素区域，亮斑区域的中心点可能不止一个，即：多个相邻的像素点共同构成了亮斑区域的中心，并且多个相邻的像素点共同具有最高亮度，此时可以将这些像素点都列为候选关键像素点，并将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。

根据上述内容，可以得出如下确定像素级精度的关键像素点的方法：在热力图的每个亮斑区域内查找亮度最高的像素点，将亮度最高的像素点作为该亮斑区域的候选关键像素点；判断候选关键像素点的数量，若亮斑区域内的候选关键像素点唯一，则将唯一的候选关键像素点作为该亮斑区域的关键像素点；若亮斑区域内的候选关键像素点不唯一且相邻，则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。

更进一步的，本发明的亚像素级关键点检测方法还包括对偏置热力图网络进行预训练的步骤。在训练过程中，需要对热力图的生成以及偏置向量的生成两个部分同时进行优化。在对热力图分支进行优化过程中，优选的，采用FocalLoss损失函数和MseLoss损失函数的加权和对应的损失函数来监督学习热力图的生成。其中，MseLoss损失函数是均方误差损失函数，用于衡量预测结果与实际值之间的误差大小；FocalLoss损失函数是一个解决类别不平衡问题的损失函数。本发明采用上述损失函数能够获得优于现有算法的训练结果，这是因为FocalLoss损失函数可以在算法训练的主要阶段平衡难易样本和正负样本，而MseLoss损失函数可以在训练后期阶段，进一步优化算法生成的热力图的质量。

上述过程可用数学公式表达为：

其中，为本发明采用的损失函数，/>为FocalLoss损失函数，/>为MseLoss损失函数，/>和/>为两个损失函数的权重，因此本发明采用的损失函数/>为FocalLoss损失函数和MseLoss损失函数的加权和。

参见图6，本发明的另一实施例还提供了一种亚像素级关键点检测装置200，至少包括第一模块201和第二模块202，亚像素级关键点检测装置200能够执行上述方法实施例中的亚像素级关键点检测方法。

所述亚像素级关键点检测装置200包括：

第一模块201，被配置为将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图；

所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块；

上述全部的CB模块均包括依次连接的第三卷积模块和BN模块；

第二模块202，被配置为确定所述单通道热力图中各个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息。

进一步的，第二模块202被进一步配置为：

进一步的，第二模块202被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。

进一步的，装置200还包括第三模块203，被配置为在预训练的过程中采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。

需要说明的是，本实施例提供的亚像素级关键点检测装置200对应的可用于执行各方法实施例的技术方案，其实现原理和技术效果与方法类似，此处不再赘述。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种亚像素级关键点检测方法，其特征在于，包括如下步骤：

确定所述单通道热力图中多个亮斑区域的关键像素点，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息；

所述生成模块包括热力图生成模块和偏置向量图生成模块；所述热力图生成模块的输入端连接所述第五CTBR模块的输出端，所述热力图生成模块包括依次连接的CBR模块、卷积模块和Sigmoid激活函数模块，Sigmoid激活函数模块输出热力图；所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端，所述偏置向量图生成模块包括依次连接的CBR模块和卷积模块，第二卷积模块输出偏置向量图；

上述全部的CB模块均包括依次连接的卷积模块和BN模块；

所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同；

在预训练的过程中，采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成；

其中，所述确定所述单通道热力图中多个亮斑区域的关键像素点的步骤，包括：在热力图的每个亮斑区域内查找亮度最高的像素点，将亮度最高的像素点作为该亮斑区域的候选关键像素点；判断候选关键像素点的数量，若亮斑区域内的候选关键像素点唯一，则将唯一的候选关键像素点作为该亮斑区域的关键像素点；若亮斑区域内的候选关键像素点不唯一且相邻，则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。

2.根据权利要求1所述的一种亚像素级关键点检测方法，其特征在于，所述在热力图的每个亮斑区域内查找亮度最高的像素点，包括：自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。

3.一种亚像素级关键点检测装置，其特征在于，包括：

第一模块，被配置为将待处理图像输入至偏置热力图网络，得到所述待处理图像的单通道热力图和偏置向量图；所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块；所述生成模块包括热力图生成模块和偏置向量图生成模块；所述热力图生成模块的输入端连接所述第五CTBR模块的输出端，所述热力图生成模块包括依次连接的CBR模块、卷积模块和Sigmoid激活函数模块，Sigmoid激活函数模块输出热力图；所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端，所述偏置向量图生成模块包括依次连接的CBR模块和卷积模块，第二卷积模块输出偏置向量图；上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块；所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块，所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小；上述全部的CB模块均包括依次连接的卷积模块和BN模块；所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块，所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大；所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同；

第二模块，被配置为在热力图的多个亮斑区域的每个亮斑区域内查找亮度最高的像素点，将亮度最高的像素点作为该亮斑区域的候选关键像素点；判断候选关键像素点的数量，若亮斑区域内的候选关键像素点唯一，则将唯一的候选关键像素点作为该亮斑区域的关键像素点；若亮斑区域内的候选关键像素点不唯一且相邻，则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置，将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加，得到热力图的亚像素级关键点的位置信息；

第三模块，被配置为在预训练的过程中，采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。

4.根据权利要求3所述的一种亚像素级关键点检测装置，其特征在于，第二模块被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。