CN117437433B - 一种亚像素级关键点检测方法及装置 - Google Patents
一种亚像素级关键点检测方法及装置 Download PDFInfo
- Publication number
- CN117437433B CN117437433B CN202311665963.9A CN202311665963A CN117437433B CN 117437433 B CN117437433 B CN 117437433B CN 202311665963 A CN202311665963 A CN 202311665963A CN 117437433 B CN117437433 B CN 117437433B
- Authority
- CN
- China
- Prior art keywords
- module
- ctbr
- thermodynamic diagram
- cbbl
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 181
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 57
- 230000004913 activation Effects 0.000 claims description 16
- 230000003213 activating effect Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种亚像素级关键点检测方法及装置,涉及计算机视觉和深度学习技术领域,方法包括:将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;确定所述单通道热力图中各个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息。本发明采用特征维度为1的热力图实现对未知数量的关键点的定位,并基于偏置量对热力图定位得到的关键点进行修正,实现了亚像素级的关键点精确定位。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于偏置热力图回归的亚像素级关键点检测方法及装置。
背景技术
关键点检测是计算机视觉领域的重要任务之一。传统的关键点定位算法精度不足且鲁棒性不高,难以适应复杂的应用场景。
目前,最为常用的关键点检测算法均是基于卷积神经网络开发的,主要分为两大类,分别是:坐标直接回归、热力图回归。坐标直接回归由于缺乏空间泛化能力,目前应用较少。热力图回归是使用网络算法生成一个表示中间状态的高斯热图,并在高斯热图内通过查找亮度最高的点来实现对关键点的定位,目前是最为常用的关键点定位方法。
然而,热力图回归算法存在理论误差下界,即使输入图像与输出的热力图之间尺寸相同,也依然只能达到像素级精度,这对于一些对探测精度要求极高的场景是无法满足要求的。虽然部分传统热力图回归方法能实现亚像素级关键点检测,但是这些方法要求热力图通道数至少与关键点数目相同,并不能实现对单一通道热力图的数目不确定的关键点的精确定位的要求。
因此,有必要提供一种基于单一通道热力图实现对数目不确定的关键点的亚像素级精确定位方法。
发明内容
鉴于现有技术中的上述缺陷或不足,本发明提供了一种亚像素级关键点检测方法及装置,采用特征维度为1的热力图实现对未知数量的关键点的定位,并基于偏置量对热力图定位得到的关键点进行修正,实现了亚像素级的关键点精确定位。
本发明的一个方面,提供了一种亚像素级关键点检测方法,包括如下步骤:
将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;
确定所述单通道热力图中各个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息。
进一步的,所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;
所述生成模块包括热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块,所述第二卷积模块输出偏置向量图;
上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;
所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;
上述全部的CB模块均包括依次连接的第三卷积模块和BN模块;
所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;
所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同。
进一步的,确定所述单通道热力图中各个亮斑区域的关键像素点的步骤,包括:
在热力图的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;
判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
进一步的,所述在热力图的每个亮斑区域内查找亮度最高的像素点,包括:自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。
进一步的,还包括对偏置热力图网络进行预训练的步骤,在预训练的过程中,采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。
本发明的另一方面,还提供了一种亚像素级关键点检测装置,包括:
第一模块,被配置为将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;
第二模块,被配置为确定所述单通道热力图中各个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息。
进一步的,所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;
所述生成模块包括热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块,所述第二卷积模块输出偏置向量图;
上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;
所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;
上述全部的CB模块均包括依次连接的第三卷积模块和BN模块;
所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;
所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同。
进一步的,第二模块被进一步配置为:
在热力图的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;
判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
进一步的,第二模块被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。
进一步的,还包括预训练模块,被配置为在预训练的过程中采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。
本发明提供的一种亚像素级关键点检测方法及装置,采用单通道的热力图实现对未知数量的关键点的定位,并基于偏置向量对热力图定位得到的关键像素点进行修正,实现了亚像素级的关键点精确定位。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一个实施例提供的亚像素级关键点检测方法的流程图;
图2是本申请一个实施例提供的多个关键点的单通道热力图;
图3是本申请一个实施例提供的热力图亮斑区域关键点的示意图,图中数字表示像素的不同亮度等级;
图4是本申请一个实施例提供的关键点偏置处理的示意图;
图5是本申请一个实施例提供的偏置热力图网络结构示意图;
图6是本申请一个实施例提供的亚像素级关键点检测装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块,但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要注意的是,本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的,不应理解为对本发明实施例的限定。此外在上下文中,还需要理解的是,当提到一个元件被形成在另一个元件“上”或“下”时,其不仅能够直接形成在另一个元件“上”或者“下”,也可以通过中间元件间接形成在另一元件“上”或者“下”。
热力图回归算法是通过对卷积神经网络输出的表示关键点位置的热力图进行处理得到关键点位置的方法。这种传统方法采用在热力图的每个通道内查找亮度最高的点作为关键点坐标,其要求热力图通道数至少与关键点数目相同,因此并不能满足实际运用中实现对数目不确定的关键点的精确定位的要求。本发明意在通过一个偏置热力图网络实现单通道内对数目不确定的一类关键点的亚像素级的精确定位。
参见图1,本发明的一个实施例提供了一种亚像素级关键点检测方法,包括如下步骤:
步骤S101:将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图。
具体的,图2示出了单通道的热力图中的多个亮斑分布,其中亮斑关键点的数量不限于5个,可以是任意多个,因此是不确定的。本发明的偏置热力图网络能够同时生成特征维度为1的热力图和特征维度为2的偏置向量图。热力图的特征维度为1意味着热力图能够在一个通道内实现对数目不确定的一类关键点的定位。偏置向量图的特征维度为2意味着热力图中的关键点能够在X轴、Y轴两个方向上进行关键点的偏置,从而实现关键点的更精确的定位。
更进一步的解释说明。参见图3,示出的亮斑区域都是规则的,其区域中心一般是亮度最大的,越向外延伸亮度越低,因此这种规则的亮斑区域的中心像素往往是亮度最高的像素点,也是整个亮斑的关键点位置。然而,有些亮斑区域并不是规则的,其亮度最大的像素点并不是亮斑的中心像素,或者该不规则的亮斑区域没有中心像素,此时即使按照最大亮度的像素确定关键点,该关键点也不是真正的亮斑关键点位置,这就产生了定位误差。通常这个误差可以通过一定的人工经验弥补,即在获得的规则区域的关键点位置的基础上进行一定量的偏置,但是往往并不准确。本发明通过改进的深度学习网络直接获得热力图和该热力图需要偏置的量,能够获得更加精确的关键点的位置。图4示出了关键点偏置处理的示意图。
参见图5,本发明的偏置热力图网络包括如下结构:
依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;
其中,生成模块包括:热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块,所述第二卷积模块输出偏置向量图;
上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;
所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;
上述全部的CB模块均包括依次连接的第三卷积模块和BN模块;
所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;
所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同。
上述偏置热力图网络中的各模块的含义如下:
ConvT:转置卷积模块;
BN:BatchNormer模块;
ReLU:ReLU激活函数模块;
Conv:卷积模块;
CTBR:转置卷积、BatchNormer以及ReLU激活函数模块的组合;
CB:卷积以及BatchNormer模块的组合;
CBR:CB模块与ReLU激活函数模块的组合;
BNE:由CBR、CB以及ReLU激活函数模块组成的带有残差结构的组合模块;
CBBL:由CB模块以及N个BNE模块组合而成的组合模块,N可灵活设定;
Pool:最大值池化模块;
Sigmoid:Sigmoid激活函数模块。
从图5可以看出,偏置热力图网络并行输出一个热力图以及一个偏置距离向量矩阵,偏置距离向量矩阵以偏置向量图的形式展现。在上述网络结构中,热力图和偏置向量图的尺寸与输入的待处理图像相同,但特征维度不同。其中热力图的特征维度为1,偏置距离向量矩阵的特征维度为2(分别表示X和Y两个方向的偏置量)。在偏置热力图网络的运算结束后,解码程序只需在热力图中找到各个局部高亮区的最亮的点,并在偏置向量图中取出对应的偏置向量相加即可。本发明的网络结构为保证有效提取图像的特征,需要不断扩展偏置热力图网络中卷积核的感受野。因此,本发明的偏置热力图网络不断采用池化操作以及CBBL模块来缩小特征张量的尺寸,为了保证对关键点的定位精度,本发明将偏置热力图网络的输出张量的尺寸设定为与输入图像的张量尺寸相同,因此,本发明的偏置热力图网络在完成对图像的特征提取后需要不断扩大特征张量的尺寸。具体的,输入与输出张量的尺寸关系为,其中,/>为批量大小,即每批输入图的数量,/>、/>是特征通道数,/>、/>为图像的宽和高。/>与/>可以根据具体情况灵活设定。
步骤S102:确定所述单通道热力图中各个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息。
具体的,在通过偏置热力图网络得到热力图和偏置向量图后,进一步的从热力图中获取亮斑区域的关键像素点位置信息,该关键像素点位置信息是像素级精度的位置信息,即未进行亚像素级偏置校正的关键像素点位置。参见图3,图中的数值表示各个像素的亮度大小,也表示各个像素作为关键像素点的概率值。由于亮斑区域是由亮斑中心向外亮度逐渐降低形成的,所以优选的在图像中遍历寻找满足比其周围一定范围内所有点均亮的点即可。图3中的a像素区域的中心点相较其周围5×5区域内其他像素点亮度更高,因此其中心点像素可以作为关键像素点。图3中的b像素区域的中心点明显不是最高亮度,因此其不满足作为关键像素点要求。图3中的c像素区域的中心点也可以作为关键像素点,但该区域总体亮度较低,可能是歧义点,因此可以设定一定的亮度阈值,来将亮度低于阈值的某些歧义点删除,这样可以更精确的定位像素级精度的关键像素点。
更进一步的,参见图3中的d像素区域,亮斑区域的中心点可能不止一个,即:多个相邻的像素点共同构成了亮斑区域的中心,并且多个相邻的像素点共同具有最高亮度,此时可以将这些像素点都列为候选关键像素点,并将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
根据上述内容,可以得出如下确定像素级精度的关键像素点的方法:在热力图的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
更进一步的,本发明的亚像素级关键点检测方法还包括对偏置热力图网络进行预训练的步骤。在训练过程中,需要对热力图的生成以及偏置向量的生成两个部分同时进行优化。在对热力图分支进行优化过程中,优选的,采用FocalLoss损失函数和MseLoss损失函数的加权和对应的损失函数来监督学习热力图的生成。其中,MseLoss损失函数是均方误差损失函数,用于衡量预测结果与实际值之间的误差大小;FocalLoss损失函数是一个解决类别不平衡问题的损失函数。本发明采用上述损失函数能够获得优于现有算法的训练结果,这是因为FocalLoss损失函数可以在算法训练的主要阶段平衡难易样本和正负样本,而MseLoss损失函数可以在训练后期阶段,进一步优化算法生成的热力图的质量。
上述过程可用数学公式表达为:
其中,为本发明采用的损失函数,/>为FocalLoss损失函数,/>为MseLoss损失函数,/>和/>为两个损失函数的权重,因此本发明采用的损失函数/>为FocalLoss损失函数和MseLoss损失函数的加权和。
参见图6,本发明的另一实施例还提供了一种亚像素级关键点检测装置200,至少包括第一模块201和第二模块202,亚像素级关键点检测装置200能够执行上述方法实施例中的亚像素级关键点检测方法。
所述亚像素级关键点检测装置200包括:
第一模块201,被配置为将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;
所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;
所述生成模块包括热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、第一卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和第二卷积模块,所述第二卷积模块输出偏置向量图;
上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;
所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;
上述全部的CB模块均包括依次连接的第三卷积模块和BN模块;
所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;
所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同。
第二模块202,被配置为确定所述单通道热力图中各个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息。
进一步的,第二模块202被进一步配置为:
在热力图的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;
判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
进一步的,第二模块202被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。
进一步的,装置200还包括第三模块203,被配置为在预训练的过程中采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。
需要说明的是,本实施例提供的亚像素级关键点检测装置200对应的可用于执行各方法实施例的技术方案,其实现原理和技术效果与方法类似,此处不再赘述。
以上描述仅为本发明的较佳实施例。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (4)
1.一种亚像素级关键点检测方法,其特征在于,包括如下步骤:
将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;
确定所述单通道热力图中多个亮斑区域的关键像素点,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息;
所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;
所述生成模块包括热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和卷积模块,第二卷积模块输出偏置向量图;
上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;
所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;
上述全部的CB模块均包括依次连接的卷积模块和BN模块;
所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;
所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同;
在预训练的过程中,采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成;
其中,所述确定所述单通道热力图中多个亮斑区域的关键像素点的步骤,包括:在热力图的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置。
2.根据权利要求1所述的一种亚像素级关键点检测方法,其特征在于,所述在热力图的每个亮斑区域内查找亮度最高的像素点,包括:自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。
3.一种亚像素级关键点检测装置,其特征在于,包括:
第一模块,被配置为将待处理图像输入至偏置热力图网络,得到所述待处理图像的单通道热力图和偏置向量图;所述偏置热力图网络包括依次连接的输入层、CBR模块、Pool最大值池化模块、第一CBBL模块、第二CBBL模块、第三CBBL模块、第四CBBL模块、第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块、第五CTBR模块和生成模块;所述生成模块包括热力图生成模块和偏置向量图生成模块;所述热力图生成模块的输入端连接所述第五CTBR模块的输出端,所述热力图生成模块包括依次连接的CBR模块、卷积模块和Sigmoid激活函数模块,Sigmoid激活函数模块输出热力图;所述偏置向量图生成模块的输入端连接第五CTBR模块的输出端,所述偏置向量图生成模块包括依次连接的CBR模块和卷积模块,第二卷积模块输出偏置向量图;上述全部的CBR模块均包括依次连接的CB模块与ReLU激活函数模块;所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块均包括依次连接的CB模块和N个BNE模块,所述第一CBBL模块、第二CBBL模块、第三CBBL模块和第四CBBL模块的输出张量尺寸逐渐缩小;上述全部的CB模块均包括依次连接的卷积模块和BN模块;所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块均包括依次连接的转置卷积模块、BN模块和ReLU激活函数模块,所述第一CTBR模块、第二CTBR模块、第三CTBR模块、第四CTBR模块和第五CTBR模块的输出张量尺寸逐渐变大;所述偏置热力图网络输出张量的尺寸和所述待处理图像的输入张量的尺寸相同;
第二模块,被配置为在热力图的多个亮斑区域的每个亮斑区域内查找亮度最高的像素点,将亮度最高的像素点作为该亮斑区域的候选关键像素点;判断候选关键像素点的数量,若亮斑区域内的候选关键像素点唯一,则将唯一的候选关键像素点作为该亮斑区域的关键像素点;若亮斑区域内的候选关键像素点不唯一且相邻,则将候选关键像素点的坐标均值作为该亮斑区域的关键像素点的位置,将所述关键像素点的位置坐标与所述偏置向量图中对应的亚像素偏置向量相加,得到热力图的亚像素级关键点的位置信息;
第三模块,被配置为在预训练的过程中,采用FocalLoss损失函数和MseLoss损失函数的加权和来监督学习热力图的生成。
4.根据权利要求3所述的一种亚像素级关键点检测装置,其特征在于,第二模块被进一步配置为自亮斑区域的中心向外遍历寻找比预定范围内所有像素点均亮的点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311665963.9A CN117437433B (zh) | 2023-12-07 | 2023-12-07 | 一种亚像素级关键点检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311665963.9A CN117437433B (zh) | 2023-12-07 | 2023-12-07 | 一种亚像素级关键点检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117437433A CN117437433A (zh) | 2024-01-23 |
CN117437433B true CN117437433B (zh) | 2024-03-19 |
Family
ID=89551696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311665963.9A Active CN117437433B (zh) | 2023-12-07 | 2023-12-07 | 一种亚像素级关键点检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437433B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191622A (zh) * | 2020-01-03 | 2020-05-22 | 华南师范大学 | 基于热力图和偏移向量的姿态识别方法、系统及存储介质 |
CN111402228A (zh) * | 2020-03-13 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 图像检测方法、装置和计算机可读存储介质 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
-
2023
- 2023-12-07 CN CN202311665963.9A patent/CN117437433B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191622A (zh) * | 2020-01-03 | 2020-05-22 | 华南师范大学 | 基于热力图和偏移向量的姿态识别方法、系统及存储介质 |
CN111402228A (zh) * | 2020-03-13 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 图像检测方法、装置和计算机可读存储介质 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117437433A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179251B (zh) | 基于孪生神经网络利用模板比对的缺陷检测系统及方法 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109829853B (zh) | 一种无人机航拍图像拼接方法 | |
CN112508090B (zh) | 一种外包装缺陷检测方法 | |
CN110246168A (zh) | 一种移动巡检机器人双目图像拼接的特征匹配方法 | |
WO2018150812A1 (en) | Balancing active learning | |
CN111563473A (zh) | 基于密集特征融合和像素级注意力的遥感舰船识别方法 | |
CN110766095B (zh) | 基于图像灰度特征的缺陷检测方法 | |
CN112784717B (zh) | 一种基于深度学习的管件自动分拣方法 | |
CN109118473A (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
CN111259710B (zh) | 采用停车位框线、端点的停车位结构检测模型训练方法 | |
CN116595208B (zh) | 高光谱图像的分类方法、装置及电子设备 | |
CN117152484B (zh) | 基于改进的YOLOv5s的小目标布匹瑕疵检测方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN115082422A (zh) | 一种基于图像的建筑钢管横截面尺寸测量方法 | |
CN113343989A (zh) | 一种基于前景选择域自适应的目标检测方法及系统 | |
CN108804581B (zh) | 一种基于深度学习的同类物体检索方法及系统 | |
CN117437433B (zh) | 一种亚像素级关键点检测方法及装置 | |
Sun et al. | Decoupled feature pyramid learning for multi-scale object detection in low-altitude remote sensing images | |
CN117521768A (zh) | 一种图像搜索模型的训练方法、装置、设备及存储介质 | |
CN111222558B (zh) | 图像处理方法及存储介质 | |
CN113128518A (zh) | 基于孪生卷积网络和特征混合的sift误匹配检测方法 | |
CN116229104A (zh) | 一种基于边缘特征引导的显著性目标检测方法 | |
CN116311391A (zh) | 一种高低精度混合的多维度特征融合指纹检索方法 | |
CN115546129A (zh) | 一种基于fpga的红外图像坏元检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |