CN115100501B - 一种基于单点监督的精准目标检测方法 - Google Patents
一种基于单点监督的精准目标检测方法 Download PDFInfo
- Publication number
- CN115100501B CN115100501B CN202210713181.7A CN202210713181A CN115100501B CN 115100501 B CN115100501 B CN 115100501B CN 202210713181 A CN202210713181 A CN 202210713181A CN 115100501 B CN115100501 B CN 115100501B
- Authority
- CN
- China
- Prior art keywords
- frame
- proposal
- target
- score
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims description 43
- 230000006872 improvement Effects 0.000 claims description 41
- 238000010586 diagram Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 239000013255 MILs Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004821 distillation Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101001034843 Mus musculus Interferon-induced transmembrane protein 1 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单点监督的精准目标检测方法,将图片输入神经网络模型,由神经网络模型输出图片中目标的类别以及目标的位置,神经网络模型通过训练获得,在训练过程中,训练样本的图片采用点标注的方式,神经网络模型包括点到框网络和目标检测网络,其中,点到框网络用于把图片中的点标注转化成伪框标注,通过带有伪框标注的图片对目标检测网络进行训练,获得最终的神经网络模型。本发明公开的基于单点监督的精准目标检测方法,极大提高了点监督的目标检测准确度。
Description
技术领域
本发明涉及一种基于单点监督的精准目标检测方法,属于图像识别技术领域。
背景技术
通过神经网络对图片进行识别已被大规模使用。在对图片进行识别时,首先需要对目标进行检测。
现有的目标检测方法中包围框监督的目标检测法被广泛应用,在现有技术中,其准确率最高,然而此种方法在训练前需要投入大量的人力成本进行包围框的标注。
为了解决包围框监督目标检测法的弊端,又诞生了弱监督目标检测法(WSOD)和点监督目标检测法(PSOD),这两种方法的准确率都远低于包围框监督的目标检测法,其中,弱监督目标检测法在复杂的场景下目标检测表现很差,而点监督目标检测法可以提供有区分性的目标位置信息,更适用于复杂场景下的目标检测。
因此,有必要对现有的点监督目标检测法进行深入研究,以提高传统点监督目标检测法检测准确率低的问题。
发明内容
为了克服上述问题,本发明人进行了深入研究,发现大多数点监督目标检测法都是使用现成提议(OTSP)的方法获得提议来构建提议包,进而根据构建的提议包进行后续的检测,例如论文van de Sande,K.E.A.,Uijlings,J.R.R.,et al.,T.G.:Segmentation asselective search for object recognition.In:ICCV(2011)2,4,11中提到的selectivesearch方法、论文Arbel′aez,P.A.,Pont-Tuset,J.,et al.,J.T.B.:Multiscalecombinatorial grouping.In:CVPR(2014)2,11中提到的MCG方法等,尽管这些现成提议方法在弱监督目标检测里被广泛应用,他们仍然存在以下问题:1)提议包里有太多的背景框,产生太多的与目标没有交集的纯背景框;(2)每个目标的正例框是不平衡的;(3)大多数提议包里的提议框与真实标注框GT有着低IoU,即提议的质量差。
此外,现有的点监督目标检测法只构建了图像级别的提议包,在MIL训练时无法利用点的信息,所以导致了同一个提议包里的不同目标容易混淆,上述问题限制了构建的提议包的质量,导致了该方法的低准确率。
在本发明中,提出了一种基于单点监督的精准目标检测方法,其特征在于,将图片输入神经网络模型,由神经网络模型输出图片中目标的类别以及目标的位置,
所述神经网络模型通过训练获得,在训练过程中,图片采用点标注的方式,
所述神经网络模型包括点到框网络和目标检测网络,其中,点到框网络用于把图片中的点标注转化成伪框标注,通过带有伪框标注的图片对目标检测网络进行训练,获得最终的神经网络模型。
在一个优选的实施方式中,所述点到框网络包括粗伪框预测子模块,所述粗伪框预测子模块以标注点为中心生成不同的提议框,通过生成的提议框来训练第一分类器,进而获得目标的初步伪标注框。
在一个优选的实施方式中,所述提议框表示为
bji=(bjx,bjy,bjiw,bjih)=(pjx,pjy,vji·sji,sji/vji)
其中,pjx,pjy为标注点pj的坐标,将其作为提议框的中点bjx,bjy,下标i表示不同的提议框bji的序号,bjiw为提议框的宽,bjiw=vji·sji,bjih表示提议框的高,bjih=sji/vji,sji表示不同提议框的大小,vji为不同提议框的调整比例。
在一个优选的实施方式中,所述第一分类器为双流结构MIL分类器,包括第一分类分支fcls和第一实例分支fins,
所述训练第一分类器获得目标初步伪标注框过程包括:
获取提议框中的特征Fj;
将特征Fj输入第一分类分支获得第一分类得分;
将特征Fj输入第一实例分支获得第一实例得分;
将第一分类得分与第一实例得分进行hadamard直积获得提议框得分Sj;
根据第一分类器损失函数获得不同提议框对应的预测类别与其所属目标之间的关系;
取目标的前q1个最高得分Sj的提议框,以得分作为比重加权平均求取提议框的均值,以均值作为该目标的初步伪标注框。
在一个优选的实施方式中,所述第一分类器损失函数表示为:
其中,cj表示标注点pj对应目标的类别标签,M表示图中目标的数量,k表示不同的类别,K表示总类别数量,表示目标对应提议框得分Sj的总和。
在一个优选的实施方式中,所述点到框网络还包括伪框改善子模块,通过伪框改善子模块对目标的初步伪标注框的宽、高及中心位置进行微调。
在一个优选的实施方式中,以目标的初步伪标注框为基础获得多个改善提议框,采用多个改善提议框训练第二分类器,通过第二分类器获得改善后的目标伪标注框,
所述微调进行多次,下一次微调时,以上一次微调获得的标注框为基础获得多个改善提议框;
通过多次微调后,获得最终的目标伪标注框。
在一个优选的实施方式中,所述第二分类器为双流结构MIL分类器,包括第二分类分支f′cls和第二实例分支f′ins,
所述训练第二分类器获得改善后目标伪标注框的过程包括:
获取改善提议框中的特征F′j;
将特征F′j输入第二分类分支获得第二分类得分;
将特征F′j输入第二实例分支获得第二实例得分;
将第二分类得分与第二实例得分进行hadamard直积获得改善提议框得分
根据第二分类器损失函数获得不同改善提议框对应的预测类别与其所属目标之间的关系,
取目标的前q2个最高得分的改善提议框,以得分作为比重加权平均求取改善提议框的均值,以均值作为该目标的改善标注框。
在一个优选的实施方式中,所述第二分类器损失函数表示为:
其中,表示向量/>与/>的内积,上标T表示转置,γ为超参数。
在一个优选的实施方式中,在训练时,样本图片中还设置有负例标注框,通过负例标注框对第二分类器进行训练,对应的负例损失函数设置为:
其中,表示负例标注框的集合,γ为超参数,/>为第二分类负例得分,由负例标注框中的特征输入第二分类分支获得。
本发明所具有的有益效果包括:
(1)标注过程中人力成本低;
(2)极大提高了点监督的目标检测准确度。
附图说明
图1示出根据本发明一种优选实施方式的基于单点监督的精准目标检测方法中点到框网络流程示意图。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明提供了一种基于单点监督的精准目标检测方法,将图片输入神经网络模型,由神经网络模型输出图片中目标的类别以及目标的位置,
进一步地,所述神经网络模型通过训练获得,在训练过程中,图片采用点标注的方式。
在本发明中,所述神经网络模型包括点到框网络和目标检测网络,其中,点到框网络用于把图片中的点标注转化成伪框标注,通过带有伪框标注的图片对目标检测网络进行训练,获得最终的神经网络模型。
根据本发明,所述目标检测网络可以是任意一种图像识别网络,例如Faster R-CNN,RetinaNet,Reppoint,优选为Faster R-CNN。
进一步地,根据本发明,所述目标检测方法由点到框网络和目标检测网络组成。传统的目标检测器都是基于包围框的,需要对训练图片进行精确的标注,浪费大量的人力成本,例如经典的FasterRCNN方法、RetinaNet方法以及基于transformer检测器的众多方法、Sparse-RCNN方法等。
在本发明中,所述点到框网络包含粗伪框预测子模块和伪框改善子模块。所述粗伪框预测子模块以标注点为中心生成不同的提议框,通过生成的提议框来训练第一分类器,进而获得目标的初步伪标注框。在初步位置标注框局部周围生成精细的候选框训练第二类分类器,进而获得最终的目标伪标注框。
由于不再以包围框为监督进行训练,可以极大降低人力成本,但是如何解决标注点训练带来的准确率大幅度降低是本发明的难点所在。
在本发明中,通过生成类别间数量平衡的目标级别的提议框,提高对分类器的训练效果,从而提高检测的准确率。
进一步地,每个标注点会生成多个提议框,具体每个标注点生成提议框的数量本领域技术人员可根据多次试验确定最优值,在本发明中不做限制。
由于图片上可能存在多个标注点,在本发明中,采用pj=(pjx,pjy),j∈R表示一张图上的不同标注点。
具体地,所述提议框表示为
bji=(bjx,bjy,bjiw,bjih)=(pjx,pjy,vji·sji,sji/vji)
其中,pjx,pjy为标注点pj的坐标,将其作为提议框的中点bjx,bjy,下标i表示不同的提议框bji的序号,bjiw为提议框的宽,bjiw=vji·sji,bjih表示提议框的高,bjih=sji/vji,sji表示不同提议框的大小,vji为不同提议框的调整比例。
通过调整sji和vji的取值,即可获得多个提议框。
发明人发现,当sji设置过大时,会导致框超出图片边界,并且会带来无意义的填充补齐,在一个优选的实施方式中,在获得多个提议框后,还对提议框进一步优化,使得提议框在图片范围内。
具体地,对提议框的宽、高进行约束:
bjiw=min(vji·sji,2(pjx-0),2(W-pjx))
bjih=min(sji/vji,2(pjy-0),2(H-pjy))
其中,W表示图片的宽,H表示图片的高。
根据本发明一个优选的实施方式,所述第一分类器为双流结构MIL分类器,双流结构MIL分类器是论文Bilen,H.,Vedaldi,A.:Weakly supervised deep detectionnetworks.In:CVPR(2016)1,4,7中提出的一种分类器,包括第一分类分支fcls和第一实例分支fins,其具体结构在本发明中不做赘述。不同于该论文的是,原论文双流结构MIL分类器是对于图片中所有的候选框视为实例包进行训练,此为图像级别的MIL优化,在本发明中,将双流结构MIL分类器的输入将每个目标的候选框视为一个实例包进行训练,此为目标级别的MIL优化。
进一步地,所述训练第一分类器获得目标初步伪标注框,初步伪标注框过程包括:
获取提议框中的特征Fj,将特征Fj输入第一分类分支获得第一分类得分;将特征Fj输入第一实例分支获得第一实例得分,将第一分类得分与第一实例得分进行hadamard直积获得提议框得分Sj;
根据第一分类器损失函数获得不同提议框对应的预测类别与其所属目标之间的关系,以得分作为权重进行加权平均求取提议框的均值,以均值作为该目标的初步伪标注框,优选地,取目标的前q1个最高得分Sj的提议框,以得分作为权重进行加权平均求取提议框的加权平均值,以其均值作为该目标的初步伪标注框,从而提高系统的鲁棒性。
更进一步地,提议框中的特征Fj通过RoIAlign层和两个卷积层对提议框中图片处理获得,RoIAlign层的具体可参见论文He,K.,Gkioxari,G.,et al.,P.D.:Mask R-CNN.In:ICCV(2017)7,在此不做赘述。
进一步地,第一分类得分可表示为:
第一实例得分可表示为:
其中,表示第一分类得分,/>表示第一实例得分,第一分类得分矩阵、第一实例得分均为U×K的矩阵,U表示标注点pj对应的提议框总数量,K表示训练集中总类别数量,[·]uk代表矩阵的第u行第k列个元素。
提议框得分Sj可以表示为:
⊙表示hadamard直积。
进一步优选地,所述第一分类器损失函数表示为:
其中,cj表示标注点pj对应目标的类别标签,M表示图中目标的数量,k表示不同的类别,K表示训练集中总类别数量,表示目标对应提议框得分Sj的总和。
根据本发明,所述点到框网络还包括伪框改善子模块,如图1所示,通过伪框改善子模块对目标的初步伪标注框的宽、高及中心位置进行微调。
所述微调,可以表示为,
标注框宽度微调:
标注框高度微调:
标注框中心位置微调:
其中,表示微调前标注框的宽,bw表示微调后标注框的宽;/>表示微调前标注框的高,bh表示微调后标注框的高;/>表示微调前标注框的中心位置,bx、by表示微调后标注框的中心位置;ox、oy表示偏移因子。
进一步地,以目标的初步伪标注框为基础获得多个改善提议框,采用多个改善提议框训练第二分类器,通过第二分类器获得改善后的目标伪标注框,
所述微调进行多次,下一次微调时,以上一次微调获得的标注框为基础获得多个改善提议框;
通过多次微调后,获得最终的目标伪标注框。
在本发明中,通过迭代地多次微调对标注框进行改善,能够获得更好的性能,进而进一步提高检测的准确率。
进一步优选地,所述第二分类器为双流结构MIL分类器,包括第二分类分支f′cls和第二实例分支f′ins,
获取改善提议框中的特征F′j;
将特征F′j输入第二分类分支获得第二分类得分;
将特征F′j输入第二实例分支获得第二实例得分;
将第二分类得分与第二实例得分进行hadamard直积获得改善提议框得分
根据第二分类器损失函数获得不同改善提议框对应的预测类别与其所属目标之间的关系,
取目标的前q2个最高得分的改善提议框,以得分作为比重加权平均求取改善提议框的均值,以均值作为该目标的改善标注框。
其中,改善提议框中的特征F′j的获取方式与提议框中的特征Fj获取方式相同,在此不做赘述。
与第一分类器训练过程不同的是,在获取第二分类得分的过程中,第二分类分支使用sigmoid激活函数σ(x)来预测分类得分,表示为:
这种形式使得一个横跨多个目标的提议框可以在多个类别上得到高分,从而更好地实现多类别分类,减少训练的混淆。
进一步地,所述第二分类器损失函数表示为:
其中,表示向量/>与/>的内积,上标T表示转置,γ为超参数。
通过该损失函数,能够进一步增加检测的鲁棒性。
在MIL分类器中,如果一个包属于的类别与标注的类别不相交,那么这个包作为这个类别的负例处理,在本发明中,所述负例标注框是指标注框内无目标类别的标注框,为了压制负例,在本发明中,还设置了负例损失函数,通过设置负例标注框,更好的对提议框进行优化。
在训练时,样本图片中还设置有负例标注框,通过负例标注框对第二分类器进行训练,对应的负例损失函数设置为:
其中,表示负例标注框的集合,γ为超参数,其取值与第二分类器损失函数中相同;
为第二分类负例得分,由负例标注框中的特征输入第二分类分支获得。
进一步地,所述负例标注框随机选取,优选地,负例标注框与上一阶段的伪标注框所产生的所有改善提议框的交并比低于0.3。
在一个优选的实施方式中,负例分类得分可以表示为:
σ()为激活函数,Fneg为负例标注框中的特征。
进一步地,第二分类器的综合损失函数设置为:
其中,αmil2、αneg为可设置参数,优选地,αmil2为0.25,αneg为0.75。
实施例
实施例1
在公开的COCO数据集(包含COCO-14和COCO-17)中进行实验,将数据集中验证集的图片输入神经网络模型,由神经网络模型输出图片中目标的类别以及目标的位置,
所述神经网络模型通过数据集中训练集图片训练获得,在训练过程中,训练样本的图片采用点标注的方式,
所述神经网络模型包括点到框网络和目标检测网络,其中,点到框网络用于把图片中的点标注转化成伪框标注,通过带有伪框标注的图片对目标检测网络进行训练,获得最终的神经网络目标检测模型。
其中,所述目标检测网络为主干网络为ResNet-50的FasterR-CNN-FPN目标检测神经网络。
所述点到框网络包括粗伪框预测子模块,所述粗伪框预测子模块以标注点为中心生成不同的提议框,通过生成的提议框来训练第一分类器,进而获得目标的初步伪标注框。
所述提议框表示为
bji=(bjx,bjy,bjiw,bjih)=(pjx,pjy,vji·sji,sji/vji)
所述第一分类器为双流结构MIL分类器,包括第一分类分支fcls和第一实例分支fins,
所述训练第一分类器获得目标初步伪标注框过程包括:
获取提议框中的特征Fj;
将特征Fj输入第一分类分支获得第一分类得分;
将特征Fj输入第一实例分支获得第一实例得分;
将第一分类得分与第一实例得分进行hadamard直积获得提议框得分Sj;
根据第一分类器损失函数获得不同提议框对应的预测类别与其所属目标之间的关系;
取目标的前4个最高得分Sj的提议框,以得分作为比重加权平均求取提议框的均值,以均值作为该目标的初步伪标注框。
所述第一分类器损失函数表示为:
其中,cj表示标注点pj对应目标的类别标签,M表示图中目标的数量,k表示不同的类别,K表示总类别数量,表示目标对应提议框得分Sj的总和。
所述点到框网络还包括伪框改善子模块,通过伪框改善子模块对目标的初步伪标注框的宽、高及中心位置进行微调。
以目标的初步伪标注框为基础获得多个改善提议框,采用多个改善提议框训练第二分类器,通过第二分类器获得改善后的目标伪标注框,
所述微调进行多次,下一次微调时,以上一次微调获得的标注框为基础获得多个改善提议框;
通过多次微调后,获得最终的目标伪标注框。
所述第二分类器为双流结构MIL分类器,包括第二分类分支f′cls和第二实例分支f′ins,
所述训练第二分类器获得改善后目标伪标注框的过程包括:
获取改善提议框中的特征F′j;
将特征F′j输入第二分类分支获得第二分类得分;
将特征F′j输入第二实例分支获得第二实例得分;
将第二分类得分与第二实例得分进行hadamard直积获得改善提议框得分
根据第二分类器损失函数获得不同改善提议框对应的预测类别与其所属目标之间的关系,
取目标的前4个最高得分的改善提议框,求取改善提议框的均值,以均值作为该目标的改善标注框。
所述第二分类分支中激活函数为sigmoid激活函数。
所述第二分类器损失函数表示为:
其中,表示向量/>与/>的内积,上标T表示转置,γ为超参数,取2。
在训练时,样本图片中还设置有负例标注框,通过负例标注框对第二分类器进行训练,对应的负例损失函数设置为:
其中,表示负例标注框的集合,γ取值为2;/>为第二分类负例得分,由负例标注框中的特征输入第二分类分支获得。
负例分类得分可以表示为:
σ()为激活函数,Fneg为负例标注框中的特征。
进一步地,第二分类器的综合损失函数设置为:
其中,αmil2为0.25,αneg为0.75。
进一步地,由于点标注是在图片中用一个类中心点以宽松的规则对目标进行标注,然而,由于实验中的数据集已经用边界框或掩码进行了标注,因此手动标注的点根据大数定律在中心区域遵循高斯分布是合理的,考虑到标注点必须位于目标边界框或掩码的中心区域,利用论文Yu,X.,Chen,P.,et al.,D.W.:Object localization under singlecoarse point supervision.In:CVPR(2022)1,10,13中定义的具有边界约束的校正高斯分布(RG),加以中心区域椭圆约束,进行类中心点标注。
对比例1
采用目前较为先进的几种方法进行与实施例1相同的实验,这几种方法包括:
Fast R-CNN法,具体参见论文Girshick,R.B.:Fast R-CNN.In:ICCV(2015)1,4,11,12;
Faster R-CNN法,具体参见论文Ren,S.,He,K.,et al.,R.B.G.:Faster R-CNN:towards real-time object detection with region proposal networks.IEEE TPAMI(2017)1,4,10,11,12,13,14;
FPN法,具体参见论文Chen,K.,Wang,J.,Pang,J.e.:MMDetection:Open mmlabdetection toolbox and benchmark.arXiv preprint arXiv:1906.07155(2019)10,11;
RetinaNet法,具体参见论文Lin,T.,Goyal,P.,et al.,R.B.G.:Focal loss fordense object detection.In:ICCV(2017)1,4,9,11,13,14;
Reppoint法,具体参见论文Yang,Z.,Liu,S.,et al.,H.H.:Reppoints:Point setrepresentation for object detection.In:ICCV(2019)11,13,14;
Sparse R-CNN法,具体参见论文Sun,P.,Zhang,R.,et al.,Y.J.:Sparse R-CNN:end-to-end object detection with learnable proposals.In:CVPR(2021)1,4,11,13,14;
PCL法,具体参见论文Tang,P.,Wang,X.,et al.,S.B.:PCL:proposal clusterlearning for weakly supervised object detection.IEEE TPAMI(2020)1,4,11;
C-MIDN法,具体参见论文Yan,G.,Liu,B.,et al.,N.G.:C-MIDN:coupledmultiple instance detection network with segmentation guidance for weaklysupervised object detection.In:ICCV(2019)11;
WSOD2法,具体参见论文Zeng,Z.,Liu,B.,et al.,J.F.:WSOD2:learning bottom-up and top-down objectness distillation for weakly-supervised objectdetection.In:ICCV(2019)11;
GradingNet-C-MIL法,具体参见论文Jia,Q.,Wei,S.,et al.,T.R.:Gradingnet:Towards providing reliable supervisions for weakly supervised objectdetection by grading the box candidates.In:AAAI(2021)11;
ICMWSD法,具体参见论文Ren,Z.,Yu,Z.,et al.,X.Y.:Instance-aware,context-focused,and memory-efficient weakly supervised object detection.In:CVPR(2020)11;
CASD法,具体参见论文Huang,Z.,Zou,Y.,et al.,B.V.K.V.K.:Comprehensiveattention self-distillation for weakly-supervised object detection.In:NeurIPS(2020)11;
Click法,具体参见论文Papadopoulos,D.P.,Uijlings,J.R.R.,et al.,F.K.:Training object class detectors with click supervision.In:CVPR(2017)1,2,5,11;
UFO2法,具体参见论文Ren,Z.,Yu,Z.,et al.,X.Y.:Ufo2:A unified frameworktowards omni-supervised object detection.In:ECCV(2020)1,2,5,10,11。
实验例
对比实施例1与对比例1中的不同方法,以AP和AP50表征其性能,AP、AP50为国际标准目标识别评价标准,得分越高表示识别准确率越好,比对结果如表一所示。
表一
表中代表用了与实施例1同样的类中心点标注,且用了同样能力的特征提取主干网络R-50的UFO2,R-50指的是ResNet-50。
从表中可以看出,实施例1中的方法,其准确率比其它点监督检测方法有了明显的升高;相比于图像监督检测方法,其准确率提升明显。实施例1中的方法由于其对标注要求低,能够节约人力成本,可以在对框质量要求不高、更倾向于找目标的产业可以代替框监督目标检测法,进行广泛使用。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接普通;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (6)
1.一种基于单点监督的精准目标检测方法,其特征在于,将图片输入神经网络模型,由神经网络模型输出图片中目标的类别以及目标的位置,
所述神经网络模型通过训练获得,在训练过程中,图片采用点标注的方式,
所述神经网络模型包括点到框网络和目标检测网络,其中,点到框网络用于把图片中的点标注转化成伪框标注,通过带有伪框标注的图片对目标检测网络进行训练,获得最终的神经网络模型;
所述点到框网络包括粗伪框预测子模块,所述粗伪框预测子模块以标注点为中心生成不同的提议框,通过生成的提议框来训练第一分类器,进而获得目标的初步伪标注框;
所述第一分类器为双流结构MIL分类器,包括第一分类分支fcls和第一实例分支fins,
所述训练第一分类器获得目标初步伪标注框过程包括:
获取提议框中的特征Fj;
将特征Fj输入第一分类分支获得第一分类得分;
将特征Fj输入第一实例分支获得第一实例得分;
将第一分类得分与第一实例得分进行hadamard直积获得提议框得分Sj;
根据第一分类器损失函数获得不同提议框对应的预测类别与其所属目标之间的关系;
取目标的前q1个最高得分的提议框得分Sj,以得分作为比重加权平均求取提议框的均值,以均值作为该目标的初步伪标注框;
所述点到框网络还包括伪框改善子模块,通过伪框改善子模块对目标的初步伪标注框的宽、高及中心位置进行微调;
以目标的初步伪标注框为基础获得多个改善提议框,采用多个改善提议框训练第二分类器,通过第二分类器获得改善后的目标伪标注框,
所述微调进行多次,下一次微调时,以上一次微调获得的标注框为基础获得多个改善提议框;
通过多次微调后,获得最终的目标伪标注框;
所述第二分类器为双流结构MIL分类器,包括第二分类分支f′cls和第二实例分支f′ins,
所述训练第二分类器获得改善后目标伪标注框的过程包括:
获取改善提议框中的特征F′j;
将特征F′j输入第二分类分支获得第二分类得分;
将特征F′j输入第二实例分支获得第二实例得分;
将第二分类得分与第二实例得分进行hadamard直积获得改善提议框得分
根据第二分类器损失函数获得不同改善提议框对应的预测类别与其所属目标之间的关系,
取目标的前q2个最高得分的改善提议框得分以得分作为比重加权平均求取改善提议框的均值,以均值作为该目标的改善标注框。
2.根据权利要求1所述的基于单点监督的精准目标检测方法,其特征在于,
所述提议框表示为
bji=(bjx,bjy,bjiw,bjih)=(pjx,pjy,vji·sji,sji/vji)
其中,pjx,pjy为标注点pj的坐标,将其作为提议框的中点bjx,bjy,下标i表示不同的提议框bji的序号,bjiw为提议框的宽,bjiw=vji·sji,bjih表示提议框的高,bjih=sji/vji,sji表示不同提议框的大小,vji为不同提议框的调整比例。
3.根据权利要求1所述的基于单点监督的精准目标检测方法,其特征在于,
所述第一分类器损失函数表示为:
其中,cj表示标注点pj对应目标的类别标签,M表示图中目标的数量,k表示不同的类别,K表示总类别数量,表示目标对应提议框得分Sj的总和。
4.根据权利要求2所述的基于单点监督的精准目标检测方法,其特征在于,
对提议框的宽、高进行约束:
bjiw=min(vji·sji,2(pjx-0),2(W-pjx))
bjih=min(sji/vji,2(pjy-0),2(H-pjy))
其中,W表示图片的宽,H表示图片的高。
5.根据权利要求1所述的基于单点监督的精准目标检测方法,其特征在于,
所述第二分类器损失函数表示为:
其中,表示向量/>与/>的内积,上标T表示转置,γ为超参数。
6.根据权利要求5所述的基于单点监督的精准目标检测方法,其特征在于,
在训练时,样本图片中还设置有负例标注框,通过负例标注框对第二分类器进行训练,对应的负例损失函数设置为:
其中,表示负例标注框的集合,γ为超参数,/>为第二分类负例得分,由负例标注框中的特征输入第二分类分支获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210713181.7A CN115100501B (zh) | 2022-06-22 | 2022-06-22 | 一种基于单点监督的精准目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210713181.7A CN115100501B (zh) | 2022-06-22 | 2022-06-22 | 一种基于单点监督的精准目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100501A CN115100501A (zh) | 2022-09-23 |
CN115100501B true CN115100501B (zh) | 2023-09-22 |
Family
ID=83292992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210713181.7A Active CN115100501B (zh) | 2022-06-22 | 2022-06-22 | 一种基于单点监督的精准目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100501B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792803A (zh) * | 2021-09-16 | 2021-12-14 | 中国科学技术大学 | 前景信息引导的弱监督目标检测方法与系统 |
CN114627437A (zh) * | 2022-05-16 | 2022-06-14 | 科大天工智能装备技术(天津)有限公司 | 一种交通目标识别方法及系统 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818326B (zh) * | 2017-12-11 | 2018-07-20 | 珠海大横琴科技发展有限公司 | 一种基于场景多维特征的船只检测方法及系统 |
-
2022
- 2022-06-22 CN CN202210713181.7A patent/CN115100501B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792803A (zh) * | 2021-09-16 | 2021-12-14 | 中国科学技术大学 | 前景信息引导的弱监督目标检测方法与系统 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
CN114627437A (zh) * | 2022-05-16 | 2022-06-14 | 科大天工智能装备技术(天津)有限公司 | 一种交通目标识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的时序动作检测研究;胡芮;《中国优秀硕士学位论文全文数据库 信息科技辑》(第03期);1-71 * |
Also Published As
Publication number | Publication date |
---|---|
CN115100501A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543837B (zh) | 一种基于潜在目标点的可见光机场飞机检测方法 | |
CN110175982B (zh) | 一种基于目标检测的缺陷检测方法 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
Zhao et al. | Cloud shape classification system based on multi-channel cnn and improved fdm | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
Xie et al. | DeRPN: Taking a further step toward more general object detection | |
CN105160317B (zh) | 一种基于区域分块行人性别识别方法 | |
CN107330397A (zh) | 一种基于大间隔相对距离度量学习的行人重识别方法 | |
CN103824090B (zh) | 一种自适应的人脸低层特征选择方法及人脸属性识别方法 | |
CN106610969A (zh) | 基于多模态信息的视频内容审查系统及方法 | |
CN104615986B (zh) | 利用多检测器对场景变化的视频图像进行行人检测的方法 | |
CN104952073B (zh) | 基于深度学习的镜头边缘检测方法 | |
CN106446890B (zh) | 一种基于窗口打分和超像素分割的候选区域提取方法 | |
CN105513066B (zh) | 一种基于种子点选取与超像素融合的通用物体检测方法 | |
CN105938551A (zh) | 一种基于视频数据的人脸特定区域提取方法 | |
CN106897681A (zh) | 一种遥感图像对比分析方法及系统 | |
CN111353487A (zh) | 用于变电站的设备信息提取方法 | |
CN111310756A (zh) | 一种基于深度学习的损伤玉米颗粒检测和分类方法 | |
CN103530638A (zh) | 多摄像头下的行人匹配方法 | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN112508857B (zh) | 基于改进型Cascade R-CNN的铝材表面缺陷检测方法 | |
CN115272652A (zh) | 基于多元回归和自适应焦点损失的密集物体图像检测方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN110599463A (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN108596244A (zh) | 一种基于光谱角度密度峰值的高光谱图像标签噪声检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |