CN114399731A

CN114399731A - 一种单粗点监督下的目标定位方法

Info

Publication number: CN114399731A
Application number: CN202111676774.2A
Authority: CN
Inventors: 余学辉; 张如飞; 韩振军; 陈鹏飞; 吴狄; 曹光明; 韩许盟; 王岿然; 彭潇珂; 黄志勋; 陈皓睿; 叶齐祥; 焦建彬; 万方
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-26
Anticipated expiration: 2041-12-31
Also published as: CN114399731B

Abstract

本发明公开了一种单粗点监督下的目标定位方法，所述方法包括获取进行目标定位训练的标注点的过程，所述过程包括以下步骤：步骤1，对目标进行粗点标注或获取已有原始标注；步骤2，将粗点标注或已有原始标注进行细化，获得改善后的标注。本发明公开的单粗点监督下的目标定位方法，采用粗点注释策略，使用细化点作为训练定位器的监督，解决了现有POL方法严重依赖于难以定义的准确关键点注释的问题，扩展了基于点的物体定位的应用范围，提高了目标定位性能。

Description

一种单粗点监督下的目标定位方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种粗点细化方法，尤其涉及一种单粗点监督下的目标定位方法。

背景技术

人类可以识别并轻松感知其视力中存在的物体，在计算机视觉中，这通常被定义为在对象周围绘制边界框或整个场景的密集注释。然而，训练此类模型的一个不可避免的情况是它们需要高质量的密集注释数据，而这些数据既昂贵又难以获得。但是，在某些应用中，往往只需要对象的位置，昂贵的注释(例如边界框)是多余的，甚至是不可取的(例如：机械臂瞄准一个点来拾取对象)。

基于点的对象定位(POL)由于其简单且省时的注释，近年来受到越来越多的关注。基于POL的方法需要点级对象注释进行训练，并且可以将对象的位置预测为原始图像中的2D坐标。但是，在将对象注释为一个点时，可以有多个候选点。可选候选点导致出现如下问题：对于同一类、具有不同语义信息的多个区域被标记为正，相反地，具有相似语义信息的相同区域被不同地标记。以类别为例，如图1所示，在标注时，根据图像中的可见区域将鸟类的不同身体部位(例如颈部和尾部)标记为正。基于注释，对于数据集中的不同图像，将鸟的相同身体部位(例如颈部)标记为正和负。因此，在训练过程中，模型必须将颈部区域视为一幅图像中的正值而另一幅图像(注释尾部的图像)中的负值，这种现象会引入歧义并混淆模型，进而导致模型性能不佳。

现有技术中，一般通过仅注释对象的预定义关键点区域来设置严格的注释规则以解决上述问题，但是通常存在以下难点：

(1)关键点不容易定义，尤其是对于一些定义广泛的类别，其没有特定的形状；

(2)由于物体的不同姿态和不同的相机视图，图像中可能不存在关键点；

(3)当对象具有较大的尺度方差时，很难确定关键点的合适粒度。对于一个人来说，如果头部是一个关键点，那么对于大规模的人实例(无论是注释眼睛还是鼻子)，仍然存在很大的语义差异，如果将眼睛标记为关键点(细粒度)，则无法识别小规模人物实例的眼睛位置。

因此，从注释的角度解决语义方差问题需要复杂的注释规则，这大大增加了注释的难度和人力负担，进而限制了POL方法探索多类和多尺度数据集(例如COCO或DOTA)。

基于上述原因，亟需提供一种新的目标定位方法，以解决现有的POL方法严重依赖难以定义的准确关键点注释的问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种使用粗点注释的基于点的物体定位(POL)方法，将监督信号从准确的关键点放松到自由发现的点，并提出了一种粗点细化(CPR)的方法，通过构建点袋、选择语义相关点、经多实例学习产生语义中心点，确保了在粗点监督下训练高性能的目标定位器，实现了POL方法在探索多类和多尺度数据集方面的应用，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种单粗点监督下的目标定位方法，所述方法包括获取进行目标定位训练的标注点的过程，所述过程包括以下步骤：

步骤1，对目标进行粗点标注或获取已有原始标注；

步骤2，将粗点标注或已有原始标注进行细化，获得改善后的标注。

第二方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有单粗点监督下的目标定位程序，所述程序被处理器执行时，使得处理器执行上述单粗点监督下的目标定位方法的步骤。

第三方面，提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有单粗点监督下的目标定位程序，所述程序被处理器执行时，使得处理器执行上述单粗点监督下的目标定位方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的单粗点监督下的目标定位方法，使用粗点注释，将监督信号从准确的关键点放松到自由发现的点，将应用范围扩展到多类和多尺度的POL任务；

(2)本发明提供的单粗点监督下的目标定位方法，采用的粗点细化策略缓解了语义差异，获得了与基于中心点(近似关键点)的物体定位相当的性能，与baseline(P2PNet,COCO数据集)相比，性能提高了

(3)本发明提供的单粗点监督下的目标定位方法，获得的语义中心局具有更小的语义方差和更高的预测误差容忍度。

附图说明

图1示出了现有技术中粗标注带来的语义歧义问题；

图2示出了现有技术中基于关键点的标注的难点；

图3示出了根据本发明一种优选实施方式的CPR的流程图；

图4示出了根据本发明一种优选实施方式的CPR的框架示意图；

图5示出了根据本发明一种优选实施方式的CPR的可视化效果图；

图6中的(a)和(c)分别示出了实验例中自优化方法与CPR方法中点的相对位置分布；(b)示出了CPR训练期间RSV值的变化；(d)、(e)、(f)、(g)示出了训练过程中，优化后的点的位置变化。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本发明人研究发现，点注释模式不可避免地会为注释点的不一致引入语义差异，现有的POL方法严重依赖于难以定义的准确关键点注释。本发明人经过大量研究，创新性地采用粗点注释的POL方法，将监督信号从准确的关键点放松到自由发现的点，提出了一种单粗点监督下的目标定位方法。

根据本发明一种优选的实施方式，所述单粗点监督下的目标定位方法包括获取进行目标定位训练的标注点的过程，优选包括以下步骤：

步骤1，对目标进行粗点标注或获取已有原始标注；

以下进一步描述所述获取进行目标定位训练的标注点的过程：

步骤1，对目标进行粗点标注或获取已有原始标注。

基于点的视觉任务包括姿势预测、人群计数和目标定位。

其中，在姿势预测任务中，人体姿态估计旨在准确定位关节点的位置，为该任务构建了几个基准，例如COCO和Human3.6M数据集是最著名的用于2D和3D姿态估计的数据集，在这些数据集中，注释是一组准确的关键点，预测结果是人体姿势而不是人的位置。

在人群计数任务中，准确的头部注释被用作点监督，选择由头部注释生成的人群密度图作为网络的优化目标，此外，人群计数侧重于人数而不是每个人的位置，它依赖于精确的关键点，例如人体头部，而粗点目标定位任务只需要对人体进行粗略的位置标注。

目标定位，不同于目标检测，边界框会相对更大，更加注重定位出目标，训练一个定位器，预测出目标的位置，并且用点表示而不是框，这些工作统称为POL，非常依赖关键点的选取。如图2中的(a)～(c)所示，基于关键点的标注的难点如下：(a)由于形状的类内差异较大，关键点难以定义；(b)由于多个姿势和视图，关键点(例如头部)不存在；(c)由于多个尺度，关键点的粒度(眼睛、前额、头部或身体)难以确定。

与上述任务不同，本发明所述的单粗点监督下的目标定位依赖于粗点而不是关键点。

在本发明中，标注者随机在目标物体上选取的点，或由框标注中随机采点所得到的标注点，统称为粗点标注。

通常，在实际场景中，粗点可以通过在物体中随机选取一个点得到，在数据集中的标注结果是全像素或标注框。

本发明中采用的粗点注释策略，允许注释对象上的任何点。

数据集的标注结果是全像素或标注框，根据大数定律，手动标注点符合高斯分布。

由于标志点一定在边界框之内，根据本发明一种优选的实施方式，按照下式生成标注点：

φ(p；μ,σ)＝Gauss(p；μ,σ)·Mask(p)

其中，μ和σ分别为高斯分布的均值和方差，Mask(p)∈{0,1}代表p点是否落在物体上。

优选地，采用RG(p；0,1/4)生成标注点。

在本发明中，优选采用改进的高斯分布——Rectified Gaussian(RG)分布生成标注点。

其中，如果从标注框出发，那么把标注框当做一个遮布(物体)。

本发明人研究发现，需要将初始化的标注粗点细化到训练集中的语义中心，提出了一种粗点细化(CPR)的方法，从算法角度缓解语义差异，将监督信号从准确的关键点放松到自由点。

具体地，粗点细化(CPR)的方法可以看作是一种预处理，将训练集上的注释转换为更具有传导性的形式，以供后续任务使用。其主要目的是寻找一个语义方差更小、预测误差容忍度更高的语义点来代替初始标注点。

在本发明中，粗点细化(CPR)通过多实例学习(MIL)找到标志点周围的语义点，然后对语义点进行加权平均得到语义中心，语义中心具有更小的语义方差和更高的预测误差容忍度。

多实例学习(MIL)的范式是，如果一个包至少包含一个正实例，则它被标记为正标签，否则，被标记为负标签。本发明人受弱监督对象定位任务的启发，提出的CPR方法遵循MIL范式，使用对象类别和粗点注释，将每个注释点周围的采样点视为一个包，并利用MIL进行训练。

多实例学习的视觉任务包括图像级别任务、视频级别任务和实例级别任务。

其中，图像级别任务是指一个图像被分成补丁，补丁被看作是实例，整个图像被看作是一个包。基于内容的图像检索是一项传统的MIL任务，它只是按内容对图像进行分类，如果图像包含至少一个类的对象，则整个包可以被视为该类的正样本，否则，包将被视为负样本。

视频级别任务是指首先将视频分割成片段，将片段单独分类，然后将整个视频看成一个包。在上述预处理之后，MIL用于识别视频中的特定事件。此外，一些研究人员已将MIL应用于视频目标跟踪，训练预分类器以识别和跟踪对象，然后，这个分类器生成候选框并将它们视为一个包来训练MIL分类器。

实例级别任务中，MIL广泛地应用在弱监督目标定位与检测，在这些任务中，只使用了图像级别的标注。首先，SelectSearch(Koen E.A.van de Sande,JasperR.R.Uijlings,and Theo Gevers et al.Segmentation as selective search forobject recognition.In ICCV,2011.3)EdgeBox(C.Lawrence Zitnick and PiotrDollar.Edge boxes:Locating′object proposals from edges.In ECCV,2014)方法被用于产生推荐框，然后，他们通过判断图像是否包含至少一个特定类别的对象来对正样本和负样本进行分类。其中，WSOL(Ramazan GokberkCinbis,Jakob J.Verbeek,and CordeliaSchmid.Weakly supervised object localization with multifold multiple instancelearning.IEEE TPAMI,2017.3)/WSOD(Hakan Bilen and Andrea Vedaldi.Weaklysupervised deep detection networks.In CVPR,2016.3,4；Ze Chen,Zhihang Fu,andRongxin Jiang et al.SLV:spatial likelihood voting for weakly supervisedobject detection.In CVPR,2020.3；Peng Tang,Xinggang Wang,and Song Bai etal.PCL:proposal cluster learning for weakly supervised object detection.IEEETPAMI,2020；Fang Wan,Chang Liu,and Wei Ke et al.C-MIL:continuation multipleinstance learning for weakly supervised object detection.In CVPR,2019；FangWan,Pengxu Wei,Zhenjun Han,Jianbin Jiao,and Qixiang Ye.Min-entropy latentmodel for weakly supervised object detection.IEEE Trans.PatternAnal.Mach.Intell.,2019；Jiajie Wang,Jiangchao Yao,and Ya Zhang etal.Collaborative learning for weakly supervised object detection.In IJCAI,2018)，只有图像级标注，关注局部区域，由于缺乏对象级标注，无法区分实例。基于粗点的定位(CPL)方法的注释是粗点位置和每个对象的类别，粗点细化(CPR)将注释点周围的采样点视为一个包，并训练对象级MIL以找到更好、更稳定的语义中心。

根据本发明一种优选的实施方式，所述步骤2包括以下子步骤，如图3所示：

步骤2-1，对标注点邻域内的点进行采样。

根据本发明一种优选的实施方式，按照包括以下步骤的方法对标注点邻域内的点进行采样，如图4所示：

首先，定义a_j表示第j个标注点(注释点)的2D坐标，c_j表示注释点在第j类上的实例标签，a_j∈R²，R²表示平面空间，c_j∈{0,1}^K，K表示类别的数量；

p＝(p_x,p_y)表示特征图上的一个点，p_x表示该点的横坐标，p_y表示该点的纵坐标。

然后，定义以a_j为中心的R个圆，其中，第r个(1≤r≤R，r∈N⁺，N⁺表示正整数)圆的半径为r；

等间隔在半径为r的圆周上采样r*u₀个点，优选地，u₀默认为8，获得Circle(a_j，r)(以标注点a_j为中心的半径为r的采样点集合)；

优选地，所述采样点的位置通过下式(一)获得：

上式中，Circle(p，r)表示采样点集合，p代表一个抽象的点。

本发明人研究发现，采用上述步骤，能够对标注点邻域内的点进行均匀采样。

步骤2-2，训练网络对采样点进行分类。

根据本发明一种优选的实施方式，设置所有R个圆的采样点为标志点a_j的点包，记为B_j，如下式(二)所示：

其中，U表示B_j中的点数。

在进一步优选的实施方式中，设置不在特征图给定类别的所有注释点的半径为R的圆内的、特征图上的所有整数点为负样本，记为Neg_k，

优选地，所述负样本如下式(三)所示：

其中，k为负样本的类别，||p-a_j||表示p和a_j之间的欧几里得距离，w表示给定特征图的宽度，h表示给定特征图的高度。

根据本发明一种优选的实施方式，基于采样点包B_j(j∈{1,2,..M})和负点Negk(k∈{1,2,..K})训练CPR网络(粗点细化网络)对采样点进行分类，其中，M表示实例的数量，K表示类别的数量。

在进一步优选的实施方式中，所述CPR网络采用FPN和ResNet作为骨干。

其中，由于点注释中缺少比例信息，故仅使用P2或P3层特征图。

优选地，经过四个3×3conv层和ReLU激活后，得到待检测图像最终的特征图F，F∈R^h×w×d，其中，w表示给定特征图的宽度，h表示给定特征图的高度，h×w表示对应特征图的空间大小，d表示通道的维度。

对于特征图上给定的点p＝(p_x,p_y)，Fp表示p在F上的特征向量，Fp∈Rd。其中，如果p不是整数点，优选使用双线性插值获得Fp。

根据本发明一种优选的实施方式，所述CPR网络的目标函数通过下式(四)获得：

L_CPR＝L_MIL+α_annL_ann+α_negL_neg (四)

其中，L_MIL表示实例级MIL损失，L_ann表示注释损失，L_neg表示负损失，α_ann表示注释损失权重，α_neg表示负损失权重。

α_ann优选为0.5，α_neg优选为3。

在本发明中，CPR网络的目标函数是实例级MIL损失、注释损失和负损失的加权求和。

在进一步优选的实施方式中，所述CPR网络的损失基于焦点损失(focalloss)，通过下式(五)获得：

在本发明中，采用焦点损失作为框架构造注释损失和负损失。

其中，c_j∈{0,1}^K为分类标签得分，c_j,k表示第j个标注点在第k个类别上的分类得分，S_p,k表示p点在第k个类上的预测得分，γ表示可调节参数，优选取值为2。

为了在细化过程中找到语义点，本发明人优选采用下式(六)获得实例级MIL损失，以使CPR网络证明点包B_j中的点是否与标志点a_j属于同一类别：

其中，

其中，Fp表示p在F上的特征向量，fc^cls表示分类分支，fc^ins表示实例选举分支，σ1表示sigmoid激活函数，σ2表示softmax激活函数，

表示B_j中p的分类分数，

表示B_j中p点的实例得分，

表示B_j中p点的整体得分。

在本发明中，sigmoid激活函数适用于σ1，与softmax函数相比，它适用于二元任务，此外，sigmoid激活函数允许对点执行多标签分类(针对多个对象邻域的重叠区域)，并且与焦点损失(Focal Loss)更兼容。

基于B_j，特征向量{F_p|p∈j}被提取。

如图5所示，对于每个p∈B_j，用分类分支fc^cls来获得logits

然后将其用作激活函数σ1的输入以获得

将实例选举分支fc^ins应用于Fp以获得

然后将

用作激活函数σ2的输入O获得选择分数

进而通过

和

的元素乘积获得得分

通过求和B_j中的所有点的得分，得到

如图6所示，

可以看作是B_j中p的分类分数

的加权求和选举得分

本发明人研究发现，由于在MIL中缺乏用于监督的明确的正样本，网络有时会关注实例区域之外的点，而错误的将它们视为前景，因此，在CPR网络中引入了注释损失L_ann，以通过注释点为网络提供准确的正样本进行监督，进而指导MIL训练。

根据本发明一种优选的实施方式，所述注释损失L_ann通过下式(七)获得：

其中，

表示a_j的分类分数。

在本发明中，通过引入注释损失L_ann，可以保证注释点的高分，并在一定程度上减少误分类。

本发明人研究发现，传统的MIL采用二进制对数损失，它将属于其他类别的提案视为负样本，由于缺乏明确的监督，在背景中，负样本在MIL训练期间没有得到很好的抑制。

因此，根据本发明一种优选的实施方式，采用下式(八)获得负损失：

其中，S_p＝σ₁(fc_cls(F_p))∈R^K。

优选地，γ取值为2。

步骤2-3，选择语义相关点，获得语义中心点。

在本发明中，经过训练的CPR网络

(

表示网络)用于细化注释点，基于B_j，

预测的

和约束条件，选择与注释点具有相同类别(相似语义)的点(语义相关点)，记为B_j+。

根据本发明一种优选的实施方式，按照下述约束条件选择语义相关点：

(1)删去小得分；

(2)删去分类不正确的点；

(3)删去属于其他类别领域内的点。

在进一步优选的实施方式中，约束条件(1)中，所述删去小得分是指删去B_j中的得分

低于阈值δ₁的点，或者删去得分

低于

的点，其中，δ₂设置为0.5，k_j为类别标签；

约束条件(2)中，分类正确是指分类得分

大于该点在其他类别上的得分，所述删去分类不正确的点是指删去不符合上述条件的点；

约束条件(3)中，所述其他类别领域是指两个靠近的点产生相交的领域。

在本发明中，经过上述三条约束条件的限制与删除，使得B_j中余下的点组成了B_j+，记为语义相关点。

根据本发明一种优选的实施方式，对上述获得的语义相关点的分数进行加权平均，获得平均语义点，作为语义中心(最终细化点)。

通过上述点选取、CPR网络训练和点优化的过程，CPR方法可以有效地感知语义区别，如图5所示，语义点(红)和标志点(绿)被平均权重以得到语义中心点(黄)作为最终细化点。

在本发明中，通过上述训练过程，获得训练收敛的进行粗点细化的网络，进而可以通过网络模型获得进行目标定位训练的标注点。

本发明所述的CPR(粗点细化)方法并不是从注释的角度缓解语义差异，通过多实例学习找到标志点周围的语义点，然后对语义点进行加权平均得到语义中心，语义中心具有更小的语义方差和更高的预测误差容忍度。通过这种方式，CPR定义了一个弱监督的进化过程，确保在粗点监督下训练高性能的目标定位器。

根据本发明一种优选的实施方式，所述单粗点监督下的目标定位方法还包括训练过程，所述训练过程包括以下步骤：

步骤I，获得改善的标注点；

步骤II，利用改善的标注点进行目标定位的训练；

步骤III，获得训练收敛的目标定位网络模型。

其中，步骤I中，采用前述的粗点细化的网络模型获得改善优化的标注点。

步骤II中，利用改善优化后的标注点代替初始标注点，来训练目标定位网络。

在本发明中，优选采用P2PNet训练点标注，并预测出每个目标。

根据本发明一种优选的实施方式，所述P2PNet采用Resnet50为骨干网络；采用焦点损失作为损失函数。

根据本发明一种优选的实施方式，所述单粗点监督下的目标定位方法还包括测试过程，即利用训练好的目标定位模型对未知图像进行目标定位。

其中，所述未知图像是指图像不属于训练数据集。

本发明所述的单粗点监督下的目标定位方法，将监督信号从准确的关键点放松到自由发现的点，可以将目标定位任务扩展到多类和多尺度的基于点的物体定位任务，且可以显著提升目标定位性能。

根据本发明的实施例，所采用的CPR方法获得了与基于中心点的物体定位相当的性能，与baseline相比性能提高了

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有单粗点监督下的目标定位程序，所述程序被处理器执行时，使得处理器执行所述单粗点监督下的目标定位方法的步骤。

本发明所述的单粗点监督下的目标定位方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有单粗点监督下的目标定位程序，所述程序被处理器执行时，使得处理器执行所述单粗点监督下的目标定位方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

本实施例采用三种公开数据集进行点监督定位任务。

MSCOCO2017，含有118000张训练图片与5000张验证集，包含80个类，由于测试集的标注框没有公开，因此在训练集上训练，在验证集上测试。

DOTA，含有2806张图片，包含15个物体类别，在训练集上训练，验证集上测试。

SeaPerson，是一个小目标数据集(数据与代码公开在http:/github.com/hfashdk/CPR)，通过无人机收集包含12032张图片和619627个标注框，每个物体像素较少，具有超过600,000个注释，SeaPerson数据集随机分成10：1：10的比例分别用于训练，验证，测试。

2、评价标准

本实施例中，类似WSOD(Hakan Bilen and Andrea Vedaldi.Weakly superviseddeep detection networks.In CVPR,2016.3,4)，测试点-框距离，度量点与框的差距。

具体地，点p与边界框b＝(x^c,y^c,w,h)定义为：

其中，d作为POL的评价准则，一个点和物体框在d小于一个阈值τ(默认为1)时便会进行匹配。如果一个边界框匹配了多个点，那么得分最高点被选取出来；当一个点匹配到多个边界框，有最小的距离的框被选取出来。当一个点匹配到框时，真正类(true positive，TP)增长，反之，假正类(falsepositive)增加，真反类TP和假反类FP永不增加，此处的真假代表是否为前景，而正反代表模型预测的结果是否为前景。这和行人检测，小人物检测的准则是一致的。

本实施例使用AP值作为指标。

3、任务描述

按照下述步骤进行粗点细化训练：

(3.1)粗点标注

数据集的标注结果是全像素或标注框，根据大数定律，手动标注点符合高斯分布，由于标志点一定在边界框之内，本实施例中采用改进的高斯分布——Rectified Gaussian(RG)分布，用于标注，RG(p；0,1/4)用于生成标注点，具体如下式所示：

φ(p；μ,σ)＝Gauss(p；μ,σ)·Mask(p)

如果从标注框出发，那么把标注框当做一个遮布。

(3.2)将标注的粗点进行细化

对标志点邻域内的点进行采样：

首先，定义a_j表示第j个标注点(注释点)的2D坐标，c_j表示注释点在第j类上的实例标签，；然后，定义以a_j为中心的R个圆，其中，第r个(1≤r≤R，r∈N⁺，N⁺表示正整数)圆的半径为r；等间隔在半径为r的圆周上采样r*u₀个点，u₀为8，获得Circle(a_j，r)。

按照下式获得采样点的位置：

训练网络对采样点进行分类：

设置所有R个圆的采样点为标志点a_j的点包，记为B_j，如下式所示：

设置不在特征图给定类别的所有注释点的半径为R的圆内的、特征图上的所有整数点为负样本，记为Neg_k，如下式所示：

基于采样点包B_j(j∈{1,2,..M})和负点Negk(k∈{1,2,..K})训练CPR网络(粗点细化网络)对采样点进行分类。

CPR网络采用FPN和ResNet作为骨干，所述CPR网络的目标函数通过下式获得：

L_CPR＝L_MIL+α_annL_ann+α_negL_neg

α_ann为0.5，α_neg为3。

CPR网络的损失基于焦点损失，通过下式获得：

采用下式获得实例级MIL损失：

注释损失L_ann通过下式获得：

负损失L_neg通过下式获得：

在本实施例中，CPR网络与COCO目标检测的默认设定相同，采用随机梯度下降法优化损失函数，学习率设定为0.0025，每8轮和11轮下降0.1倍。

选择语义相关点，获得语义中心点：

按照下述约束条件选择语义相关点：

(1)删去小得分，删去B_j中的得分

低于阈值δ₁的点，或者删去得分

低于

的点，其中，δ₂设置为0.5，k_j为类别标签；

(2)删去分类不正确的点，分类正确是指分类得分

(3)删去属于其他类别领域内的点，其他类别领域是指两个靠近的点产生相交的领域。

经过上述三条约束条件的限制与删除，使得B_j中余下的点组成了B_j+，记为语义相关点，对上述获得的语义相关点的分数进行加权平均，获得平均语义点，作为语义中心。

通过上述训练过程，获得训练收敛的进行粗点细化的网络。

按照下述步骤进行目标定位的训练：

(i)采用粗点细化的网络获得改善的标注点；

(ii)利用改善优化后的标注点代替初始标注点，来训练目标定位网络；采用P2PNet训练点标注，P2PNet采用Resnet50为骨干网络；采用焦点损失作为损失函数；

(iii)获得训练收敛的目标定位网络模型。

实验例

实验例1

基于点的物体定位任务(POL)分为两个模块，包括改善标注点与利用改善点进行训练。本实验例采用下述策略在三种数据集上训练同一个点定位网络——P2PNet，并在同一个测试集上测试性能。

伪框训练：首先，基于标注点生成一个固定大小的伪框，然后，利用伪框训练目标检测器，最后，目标检测器预测出检测框的中心点，被作为最终结果输出。具体地，按照“Javier Ribera,David Guera,Yuhao Chen,and Edward J.Delp.Locating objectswithout bounding boxes.In CVPR,2019”中所述的方法进行训练，不同之处在于采用RepPoint(Ze Yang,Shaohui Liu,and Han Hu et al.Reppoints:Point setrepresentation for object detection.In ICCV,2019.6)而不是FasterRCNN(ShaoqingRen,Kaiming He,and Ross B.Girshick et al.Faster R-CNN:towards real-timeobject detection with region proposal networks.In NeurIPS,2015.1)进行比较。

多类别P2PNet：采用多类别P2PNet训练点标注，并且预测出每个目标，，按照下述方式提高检测性能：P2PNet的骨干网络为Resnet50；采用focalloss作为损失函数；采用Smooth-l1函数作为回归；在匹配标签时，使用top-k正例匹配；预测点使用NMS(AlexanderNeubeck and Luc Van Gool.Efficient nonmaximum suppression.In ICPR,2006.7)以获得最终点得分。

自优化方法，其基于自迭代学习，以改善粗点标注。首先，采用伪框策略训练一个点定位器，然后，定位器预测的点的重心被作为监督，最后，得到了改善的点。

本发明所述的CPR方法。

对按照上述策略进行标注点改善的目标定位方法的性能进行检测，结果如表1所示。

表1

由表1可以看出，无点改善过程的多类别P2PNet相较于RepPoint，性能提升很大；本发明所述的CPR方法与baseline(P2PNet,COCO数据集)相比，性能提高了

此外，本发明的方法相较于自优化，使得P2PNet表现更好，表明CPR能够更高效地处理语义歧义问题。

具体地，为了量化语义差别，定义了相对语义差别(RSV)，如下所示：

其中，(x,y)为改善点(粗点细化后的点)，(x^c,y^c)为一标注框的中心点，Var(x’)为数据集所有点x’的方差，RSV为相对语义差别。

图6中的(a)和(c)分别示出了自优化方法与CPR方法中点的相对位置分布，可以看出，自优化改善后的粗点的RSV很大，但是CPR改善后的RSV较小。

为了体现相对位置分布，进一步比较了Prob(x′,y′)：

其中，(x′_j,y′_j)是标注点的相对位置，j代表数据集中的第j个目标，I是示性函数。

图6中的(b)示出了CPR训练期间RSV值的变化，图6中的(d)、(e)、(f)、(g)示出了训练过程中，优化后的点的位置变化，绿色为优化前的点，在图中是不变的，黄色点表示训练过程中CPR给出的点的变化。

综合上述可知，基于伪框的定位器和训练一个点定位器(指P2PNet，视标注点附近点皆为正例，其它点为负例)几乎等价。一般的分类器通过IoU判断每个类别，与边界框的大小信息有很大关联。然而，精确的边界框无法从点标注中获取，使得伪框标注的方法表现较差。

P2PNet更好地实现了点对点的分类指定，但是，其对于数据集的标注点的语义信息非常敏感。

本发明所述的点优化策略，有效的减少了语义歧义。

实验例2

本实验例对实施例1所述的CPR方法的有效性和鲁棒性进行比较分析。

具体地，采用消融实验对CPRNet的训练损失进行分析，其有效性结果如表2所示。

表2 CPRNet中训练损失的有效性

其中，MIL表示MIL loss，ann表示annotation loss，neg表示negative loss，Pos表示Posloss，1表示使用该损失。

由表2可知，CPRNetloss(表2中的最后一行)达到55.46mAP；如果不使用MIL loss，会降低3.64个百分点；如果使用pos loss代替，会降低12.74个百分点(42.72)。表明MIL可以自动地为点选取归属的物体。如果缺少annotationloss，会降低1.22个百分点(54.24)，该损失使得训练朝着一个给定良好精度的监督。采用negativeloss，使得结果提升了16.01个百分点(由39.45提升至55.46)，表明MIL损失不足以压制负损失。

CPRNet建立在FPN后的一层特征图上，表3展示了不同层特征图上的表现，由于P3上的表现与P2相似，选择P3为COCO对上实验的标准。

表3不同的R在P3和P2上的表现，R代表采样圈数量

由表3可知，R是一个比较敏感的参数，在P3中，R为8时结果最佳，如果R为5，则结果降至53.32。随着R逐渐增大，

结果逐渐降低，是由于加入了大量的背景噪声。

进一步地，表4示出了三种约束齐力产生的结果，其中，δ₁,δ₂为限制1的阈值。

表4

为了更好的评价CPR，在COCO上，将CPR和一个严格基于边界框的定位器(视作CPR的上界)进行比较。由于很难在COCO上使用关键点标注全部数据，近似使用中心点。结果如表5所示。

表5不同标注下的比较

由表5可知，直接使用粗点训练时准确率很低，本发明的CPR策略相较于直接使用几何中心点标注结果相差很小(55.46vs567.47)。

对不同骨干网络(ResNet-50和ResNet-101)下的结果进行比对，结果如表6所示。

表6

由表6可以看出，更复杂的骨干网络可以实现更好的性能。

综上所述，大量的消融实验证明了模型的有效性，本发明提出的CPR在标注点领域，借助MIL计算了各点语义得分，进而加权获得了语义中心点。CPR缓解了语义歧义问题，为POL任务向着多类别与多尺度方向迈出一步。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。