CN111783797A - 目标检测方法、装置及存储介质 - Google Patents
目标检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111783797A CN111783797A CN202010610242.8A CN202010610242A CN111783797A CN 111783797 A CN111783797 A CN 111783797A CN 202010610242 A CN202010610242 A CN 202010610242A CN 111783797 A CN111783797 A CN 111783797A
- Authority
- CN
- China
- Prior art keywords
- target
- target detection
- category score
- detection result
- target frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000001629 suppression Effects 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283074 Equus asinus Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种目标检测方法、装置及存储介质,通过对待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图,分别对多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果。通过对第一目标检测结果中的各目标框对应的类别分数信息进行修正,得到修正后的第二目标检测结果。再对第二目标检测结果中的各目标框进行非极大值抑制,确定最终的目标检测结果。上述方法可有效降低相近类别之间的误检,提高目标检测的准确性。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,尤其涉及一种目标检测方法、装置及存储介质。
背景技术
目标检测(Object Detection)是很多计算机视觉任务的基础,可以理解为物体识别和物体定位的综合,不仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。目前的目标检测分为两类,一类是两步走(two-stage)的目标检测,先进行候选区域推荐,然后进行目标分类,代表有R-CNN、SPP-net、Fast R-CNN、Faster R-CNN等;另一类是端到端(one-stage)的目标检测,采用一个网络一步到位,代表有YOLO、SSD等。不论是one-stage还是two-stage的目标检测,都存在类别上的相互误检问题,即相近类别相互误检,例如将一段视频中的目标交替检测为类别A(骑行人)和类别B(行走的人),将影响后续的目标跟踪。
目前通用的解决方案是在目标检测模型训练过程中增加策略,例如相近类别的loss惩罚,其技术要点是:对于相近类别的相互误检,如果将类别A误判为类别B,则对损失函数增加一个惩罚项,例如100,使得在训练过程中类别A不会被误检为类别B。
然而,上述方案中,如果惩罚项过大将会降低其他类别目标出现时的检测性能,如果惩罚项过小则起不到降低相近类别相互误检的效果。
发明内容
本发明实施例提供一种目标检测方法、装置及存储介质,可有效降低相近类别之间的误检,提高目标检测的准确性。
第一方面,本发明实施例提供一种目标检测方法,包括:
获取待检测图像,所述待检测图像包括至少一个目标对象;
对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图;
分别对所述多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果,所述第一目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框对应的类别分数信息;
对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,所述第二目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框的分类结果;
从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果。
可选的,各所述目标框对应的类别分数信息包括至少两个类别对应的分数。
在一种可能的实施方式中,对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,包括:
对各所述目标框对应的类别分数信息中的最大类别分数进行分数修正,得到所述第二目标检测结果。
在一种可能的实施方式中,所述对各所述目标框对应的类别分数信息中的最大类别分数进行分数修正,得到所述第二目标检测结果,包括:
若第一目标框对应的类别分数信息中的最大类别分数与第一类别分数之间的差值小于预设差值,则对所述第一目标框的最大类别分数进行分数修正;
其中,所述第一类别分数为所述类别分数信息中与所述最大类别分数的差值最小的类别分数,所述第一目标框为所述第一目标检测结果中的任意一个目标框。
在一种可能的实施方式中,通过以下任意一种方式进行分数修正:
对所述最大类别分数除以一预设值;
利用所述第一类别分数对所述最大类别分数进行分数修正;
利用所述最大类别分数和所述第一类别分数对所述最大类别分数进行分数修正。
在一种可能的实施方式中,所述对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图,包括:将所述待检测图像输入至特征提取网络,得到多张不同尺度的第二特征图;
将所述多张不同尺度的第二特征图输入至特征融合网络,得到多张不同尺度的第一特征图。
在一种可能的实施方式中,所述从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果,包括:
对所述第二目标检测结果中的各所述目标框进行非极大值抑制,确定所述至少一个目标对象对应的目标框以及分类结果。
第二方面,本发明实施例提供一种目标检测装置,包括:
获取模块,用于获取待检测图像,所述待检测图像包括至少一个目标对象;
处理模块,用于对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图;
所述处理模块,还用于分别对所述多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果,所述第一目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框对应的类别分数信息;
所述处理模块,还用于对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,所述第二目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框的分类结果;
所述处理模块,还用于从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果。
第三方面,本发明实施例提供一种目标检测装置,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述目标检测装置能够执行上述第一方面中任一项所述的目标检测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括:用于存储计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行上述第一方面中任一项所述的目标检测方法。
本发明实施例提供一种目标检测方法、装置及存储介质,通过对待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图,分别对多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果。通过对第一目标检测结果中的各目标框对应的类别分数信息进行修正,得到修正后的第二目标检测结果。再对第二目标检测结果中的各目标框进行非极大值抑制,确定最终的目标检测结果。上述方法可有效降低相近类别之间的误检,提高目标检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种目标检测方法的流程图;
图2为本发明实施例提供的一种目标检测方法的流程图;
图3为本发明实施例提供的特征提取和特征融合的示意图;
图4为本发明实施例提供的某一尺度特征图对应的目标检测结果的示意图;
图5为本发明实施例提供的对类别分数信息修正的流程图;
图6为本发明实施例提供的非极大值抑制过程的示意图;
图7为本发明实施例提供的目标检测方法的输出结果的示意图;
图8为本发明实施例提供的一种目标检测装置的结构示意图;
图9为本发明实施例提供的一种目标检测装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前的目标检测算法分为两类:
一类是two-stage目标检测算法,该目标检测算法将检测问题划分为两个阶段,首先产生候选区域(region proposals),然后对候选区域分类(一般还需要对位置精修),这一类的典型代表是R-CNN,Fast R-CNN,Faster R-CNN,Mask R-CNN,Cascade RCNN等。该目标检测算法识别目标的错误率低,漏识别率也较低,但速度较慢,不能满足实时检测场景。
另一类是one-stage目标检测算法,该目标检测算法没有产生候选区域阶段,而是直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,因此有着更快的检测速度,比较典型的算法如YOLO,SSD,YOLOv2,YOLOv3,Retina-Net,FCOS等。
不论是one-stage目标检测算法还是two-stage目标检测算法,都存在类别上的相互误检问题,应当尽量避免。类别上的相互误检问题是指相近类别相互误检,例如一段视频中的目标交替检测为类别A和类别B,将影响后续目标跟踪。其中,相近类别可以是不同状态下的同一类目标,例如骑行人和行走人,骑行三轮车的人和骑行二轮车的人等。相近类别还可以是外形相近的同一类目标或者不同类目标,例如猫和狗、马和驴等。
为了提高目标检测的准确性,降低类别上的相互误检问题,本发明实施例提出一种目标检测方法,通过对输入图像的特征提取、特征融合、目标检测,得到目标物体对应的多尺度目标框的位置以及各个目标框对应的类别分数信息,其中,类别分数信息中包括各种类别的分数信息。对每一个目标框的类别分数信息进行分析,确定是否需要对类别分数信息中的类别分数进行分数修正,最终输出各个目标框的位置大小信息以及类别结果,再采用非极大值抑制NMS,去掉目标检测过程中重复的目标框,完成目标检测。
图1示出了本发明实施例提供的一种目标检测方法的流程图,如图1所示,目标检测方法主要包括如下流程:输入图像、特征提取、特征融合、目标检测、类别分数修正、非极大值抑制、输出结果。
本发明实施例的特征提取是通过特征提取网络获取图像的多尺度特征图,例如获取8倍、16倍、32倍、64倍的特征图。
本发明实施例的特征融合是通过特征融合网络,例如FPN网络,对多尺度的特征图进行特征融合,得到特征融合后的多尺度特征图。
本发明实施例的目标检测是对特征融合后的多尺度特征图分别进行目标检测,获取各尺度上的目标框以及目标框对应的类别分数信息(或称为类别分数矢量)。
本发明实施例的类别分数修正是通过对各目标框对应的类别分数信息中的类别分数大小的分析,确定是否对类别分数信息中的最高分数进行分数抑制。例如某一目标框对应的类别分数信息包括类别A、B、C的分数分别为98%、95%、10%,该分类分数信息中存在相近类别A和B,且类别A和类别B的分数很接近,通过类别分数修正过程调整类别A的分数。若类别A的分数在调整后仍然为最大分数,则将类别A作为该目标框的分类结果;若类别A的分数在调整后小于类别B的分数,则将类别B作为该目标框的分类结果。通过上述过程可有效降低相近类别之间的误检,提高目标检测的准确性。
本发明实施例的非极大值抑制是在上述类别分数修正过程之后进行的,针对同一类别的多个目标框,进行目标框的筛选,删除与该类别分数最大的目标框重叠较大的其他目标框,经过多次迭代,最终得到输入图像中目标对象对应的目标框以及分类结果。
本发明实施例提供的目标检测方法通过对各目标框对应的类别分数信息中的相近类别的分数进行修正,可有效降低相近类别之间的误检,提高目标检测的准确性。上述方法可以只在执行推理中使用,无需对目标检测模型进行重新训练,执行的灵活性更高。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明实施例提供的一种目标检测方法的流程图。如图2所示,本发明实施例提供的目标检测方法,包括如下步骤:
步骤101、获取待检测图像,待检测图像包括至少一个目标对象。
步骤102、对待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图。
具体的,将待检测图像输入至特征提取网络,得到多张不同尺度的第二特征图。随后,将多张不同尺度的第二特征图输入至特征融合网络,得到多张不同尺度的第一特征图。
在本发明实施例中,特征提取网络可以是ResNet50、ResNet101、MobileNet等主干网络。特征融合网络可以是FPN网络,PAFPN,BPN等网络。对于特征提取网络和特征融合网络,本发明实施例不作任何限制。
需要说明的是,FPN网络是传统CNN网络对图像信息进行表达输出的一种增强,其目的是为了改进CNN网络的特征提取方式,从而可以使最终输出的特征更好地表示出输入图像各个维度的信息。FPN网络包括如下三个过程:自下至上的通路(即自下至上的不同维度特征生成)、自上至下的通路(即自上至下的特征补充增强)、CNN网络层特征与最终输出的各维度特征之间的关联表达。
图3示出了特征提取和特征融合的示意图,如图3所示,通过特征提取网络,得到多张不同尺度的第二特征图,分别表示为C3、C4、C5。其中,C3是对待检测图像进行8倍下采样得到的特征图,C4是对待检测图像进行16倍下采样得到的特征图,C5是对待检测图像进行32倍下采样得到的特征图。将多张不同尺度的第二特征图输入至特征融合网络,得到多张不同尺度的第一特征图,分别表示为P3、P4、P5。
基于上述示例的特征融合过程如下:对C5特征图进行1×1卷积操作,得到P5特征图。对P5特征图进行2倍上采样,对C4特征图进行1×1卷积操作,两者相加得到P4特征图。对P4特征图进行2倍上采样,对C3特征图进行1×1卷积操作,两者相加得到P3特征图。其中,C3与P3对应,C4与P4对应,C5与P5对应,相互对应的特征图具有相同的尺度,属于同一层的特征图。
由图3可知,经过特征融合,得到的第一特征图(P3、P4、P5)与同层的第二特征图(C3、C4、C5)相比,同时具有低层的目标位置信息和高层的特征语义信息,这有利于不同层特征图的目标检测,提高了目标检测的准确性。
需要说明的是,图3仅作为一种示例,在实际应用中,可以根据需求增加下采样的深度,获取更多层的第二特征图,并根据上述特征融合过程,得到更多层的第一特征图。
步骤103、分别对多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果。
其中,第一目标检测结果包括各第一特征图对应的至少一个目标框,以及各目标框对应的类别分数信息。
基于步骤102的示例,对本步骤中的第一目标检测结果进行说明。在得到特征融合网络输出的多张不同尺度的第一特征图P3、P4、P5之后,分别对第一特征图P3、P4、P5进行目标检测,在相应的特征图上分别进行卷积,直接输出得到目标框(或称为回归框)和目标框对应的类别分数(或称为类别置信度),即得到各个尺度的目标检测结果。
图4示出了某一尺度的第一特征图对应的目标检测结果的示意图,如图4所示,该尺度的第一特征图中检测到两个目标框,对应的目标检测结果包括该第一特征图的两个目标框的位置信息、大小信息,以及每一个目标框对应的类别分数信息。
其中,位置信息包括目标框的中心点在特征图的坐标位置,如图4中的目标框1的坐标位置(x1,y1),目标框2的坐标位置(x2,y2)。大小信息包括目标框的长度值和宽度值,如图4中的目标框1的长度值为l1,宽度值为w1,目标框2的长度值为l2,目标框2的宽度值为w2。目标框对应的类别分数信息包括至少两个类别对应的分数。需要说明的是,类别分数信息中的类别数量取决于目标检测模型的分类能力,有些模型可以区分3种类型的目标,有些模型可以区分20种类型的目标,对此本发明实施例不做任何限制。以类别数量为3进行举例,如图4中的目标框1对应的类别分数信息可以表示为矢量形式(a1,b1,c1),目标框2对应的类别分数信息可以表示为(a2,b2,c2),a表示目标框为类别A的分数,b表示目标框为类别B的分数,c表示目标框为类别C的分数,类别分数均位于[0,1]区间内。
步骤104、对第一目标检测结果中的各目标框对应的类别分数信息进行修正,得到第二目标检测结果。
其中,第二目标检测结果包括各第一特征图对应的至少一个目标框,以及各目标框的分类结果。对应第一目标检测结果,第二目标检测结果包括各目标框的位置信息、大小信息,以及每一个目标框对应的分类结果。可选的,各目标框的分类结果可以包括类别标识和该类别标识对应的分数。
具体的,步骤104包括:对各目标框对应的类别分数信息中的最大类别分数进行分数修正,得到第二目标检测结果。以第一目标框(各目标框中的任意一个)为例,若第一目标框对应的类别分数信息中的最大类别分数与第一类别分数之间的差值小于预设差值,则对第一目标框的最大类别分数进行分数修正。上述的第一类别分数为类别分数信息中与最大类别分数的差值最小的类别分数。
为了便于理解,下面结合图4中的目标框1对类别分数信息的修正过程进行说明。图5示出了类别分数信息修正的流程图,如图5所示,目标框1对应的类别分数信息表示为矢量形式(a1,b1,c1),其中a1表示类别A(比如骑行人)的分数,b1表示类别B(比如行走人)的分数,c1表示类别C(比如背景)的分数。假设a1,b1,c1分别为0.9、0.85、0.1,预设差值设置为0.1,由此可知,该目标框的最大类别分数a1与第二大类别分数(即第一类别分数)b1之间的差值为0.05,该差值小于预设差值0.1,此时需要对最大类别分数a1进行分数修正(或者说分数抑制)。反之,若a1与b1的差值大于预设差值0.1,则直接输出该目标框1的目标检测结果。
在本发明实施例中,可以通过如下任意一种方式对最高类别分数进行分数修正:
对最大类别分数除以一预设值;
利用第一类别分数对最大类别分数进行分数修正;
利用最大类别分数和第一类别分数对最大类别分数进行分数修正。
为了便于理解,下面对上述三种修正方式进行举例。
(1)对最大类别分数除以一预设值,可通过如下公式一表示。
式中,f′(A)表示修正后的f(A),f(A)表示最大类别分数,α为预设值,α为大于1的常数,示例性的,α可设置在[1.2,5]区间内。
(2)利用第一类别分数对最大类别分数进行分数修正,可通过如下公式二表示。
式中,f′(A)表示修正后的f(A),f(A)表示最大类别分数,f(B)表示第一类别分数(即第二大类别分数),β为人工设置的经验值,需要确保β×f(B)>1,从而实现对原最大类别分数f(A)的抑制效果。
该修正方式是利用第一类别分数(通常是与最高类别相近的相近类别的类别分数)对最高类别分数进行分数修正。
(3)利用最大类别分数和第一类别分数对最大类别分数进行分数修正,可通过如下公式三、四、五表示。
式中,f′(A)表示修正后的f(A),f(A)表示最大类别分数,f(B)表示第一类别分数。
该修正方式中,f(A)和f(B)越接近,对f(A)的修正越大;f(B)越大,修正效果越明显。
需要说明的是,采用上述任意一种修正方式得到的f′(A)均小于f(A),从而达到对最大类别分数的抑制效果。修正后的f(A),即f′(A),有可能不再是最大类别分数,也有可能还是最大类别分数,这取决于与f(A)分数相近的第一类别分数f(B)。
步骤105、从第二目标检测结果中确定至少一个目标对象对应的目标框以及分类结果。
在得到第二目标检测结果之后,对第二目标检测结果中的各目标框进行非极大值抑制,对同一类别的多个目标框(包括同一尺度或不同尺度的分类结果相同的多个目标框)进行筛选,删除与该类别分数最大的目标框重叠较大的其他目标框,最终确定待检测图像中至少一个目标对象对应的目标框以及分类结果。
在本发明实施例中,非极大值抑制的作用是去掉第二目标检测结果中重复的目标框。图6示出了非极大值抑制过程的示意图,如图6所示,假设第二目标检测结果中包括5个目标框,分别为目标框1、2、3、4、5,这些目标框的分类结果均为类别A,对应的类别分数分别为0.8、0.7、0.6、0.85、0.9。作为一种示例,从最大分数的目标框5开始,分别判断目标框1至4与目标框5的重叠度(或称为交并比IoU),若重叠度大于或等于某设定的阈值,则删除相应的目标框,假设目标框2和3与目标框5的重叠度超过阈值,那么就删除目标框2和3,保留目标框5。然后从剩余的目标框1和4中,选择分数最大的目标框1,然后判断目标框1和目标框4的重叠度,若重叠度超过阈值,则删除目标框4,保留目标框1。该示例经过两次迭代确定出两个目标框,这两个目标框分别对应了待检测图像中的同类别的两个目标对象。
图7为本发明实施例提供的目标检测方法的输出结果的展示图。如图7中的(a)所示,在输入图像上标注目标对象的目标框以及类别(比如骑行人)。如图7中的(b)所示,在输入图像上标注目标对象的目标框以及分数值。如图7中的(c)所示,在输入图像上标注目标对象的目标框、类别以及该类别对应的分数值。对于输出结果,本发明实施例不作任何限制。
本发明实施例提供的目标检测方法,通过对待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图,分别对多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果。第一目标检测结果中包括各尺度目标框对应的类别分数信息,通过对各目标框对应的类别分数信息进行修正,得到修正后的第二目标检测结果。第二目标检测结果中包括各目标框的分类结果,即确定的类别以及该类别分数。再通过非极大值抑制确定最终的目标检测结果,即待检测图像中的至少一个目标物体对应的目标框以及该目标框的分类结果。上述方法可有效降低相近类别之间的误检,提高目标检测的准确性,不会影响到对其他类别的检测性能。
需要指出的是,本发明实施例提供的目标检测方法包括分数修正过程(可称为soft-score),利用相近类别进行分数修正,可有效降低相近类别之间的误检,该过程可以只在推理中采用,无需重新训练目标检测模型,修正参数(即上述修正公式中的参数)的调整灵活,且不会如现有的loss惩罚方案那样影响其他类别的检测性能。本发明实施例提供的方法可以应用到其他目标检测算法中,包括one-stage目标检测算法(比如FCOS)和two-stage目标检测算法(比如Cascade RCNN)中。
本发明实施例可以根据上述方法实施例对目标检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现,也可以使用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。
图8为本发明实施例提供的一种目标检测装置的结构示意图。如图8所示,该目标检测装置200,包括:
获取模块201,用于获取待检测图像,所述待检测图像包括至少一个目标对象;
处理模块202,用于对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图;
所述处理模块202,还用于分别对所述多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果,所述第一目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框对应的类别分数信息;
所述处理模块202,还用于对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,所述第二目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框的分类结果;
所述处理模块202,还用于从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果。
可选的,各所述目标框对应的类别分数信息包括至少两个类别对应的分数。
在一种可能的实施方式中,所述处理模块202,具体用于:
对各所述目标框对应的类别分数信息中的最大类别分数进行分数修正,得到所述第二目标检测结果。
在一种可能的实施方式中,所述处理模块202,具体用于:
若第一目标框对应的类别分数信息中的最大类别分数与第一类别分数之间的差值小于预设差值,则对所述第一目标框的最大类别分数进行分数修正;
其中,所述第一类别分数为所述类别分数信息中与所述最大类别分数的差值最小的类别分数,所述第一目标框为所述第一目标检测结果中的任意一个目标框。
可选的,通过以下任意一种方式进行分数修正:
对所述最大类别分数除以一预设值;
利用所述第一类别分数对所述最大类别分数进行分数修正;
利用所述最大类别分数和所述第一类别分数对所述最大类别分数进行分数修正。
在一种可能的实施方式中,所述处理模块202,具体用于:
将所述待检测图像输入至特征提取网络,得到多张不同尺度的第二特征图;
将所述多张不同尺度的第二特征图输入至特征融合网络,得到多张不同尺度的第一特征图。
在一种可能的实施方式中,所述处理模块202,具体用于:
对所述第二目标检测结果中的各所述目标框进行非极大值抑制,确定所述至少一个目标对象对应的目标框以及分类结果。
本发明实施例提供的目标检测装置,用于执行前述任一方法实施例中的各个步骤,其实现原理和技术效果类似,在此不再赘述。
图9为本发明实施例提供的一种目标检测装置的硬件结构示意图。如图9所示,该目标检测装置300,包括:
至少一个处理器301(图9中仅示出了一个处理器);以及
与所述至少一个处理器通信连接的存储器302;其中,
所述存储器302存储有可被所述至少一个处理器301执行的指令,所述指令被所述至少一个处理器301执行,以使所述目标检测装置300能够执行前述任一方法实施例中的各个步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现前述任一方法实施例中的技术方案。
应理解,本发明实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本发明实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种目标检测方法,其特征在于,包括:
获取待检测图像,所述待检测图像包括至少一个目标对象;
对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图;
分别对所述多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果,所述第一目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框对应的类别分数信息;
对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,所述第二目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框的分类结果;
从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果。
2.根据权利要求1所述的方法,其特征在于,各所述目标框对应的类别分数信息包括至少两个类别对应的分数。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,包括:
对各所述目标框对应的类别分数信息中的最大类别分数进行分数修正,得到所述第二目标检测结果。
4.根据权利要求3所述的方法,其特征在于,所述对各所述目标框对应的类别分数信息中的最大类别分数进行分数修正,得到所述第二目标检测结果,包括:
若第一目标框对应的类别分数信息中的最大类别分数与第一类别分数之间的差值小于预设差值,则对所述第一目标框的最大类别分数进行分数修正;
其中,所述第一类别分数为所述类别分数信息中与所述最大类别分数的差值最小的类别分数,所述第一目标框为所述第一目标检测结果中的任意一个目标框。
5.根据权利要求4所述的方法,其特征在于,通过以下任意一种方式进行分数修正:
对所述最大类别分数除以一预设值;
利用所述第一类别分数对所述最大类别分数进行分数修正;
利用所述最大类别分数和所述第一类别分数对所述最大类别分数进行分数修正。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图,包括:将所述待检测图像输入至特征提取网络,得到多张不同尺度的第二特征图;
将所述多张不同尺度的第二特征图输入至特征融合网络,得到多张不同尺度的第一特征图。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果,包括:
对所述第二目标检测结果中的各所述目标框进行非极大值抑制,确定所述至少一个目标对象对应的目标框以及分类结果。
8.一种目标检测装置,其特征在于,包括:
获取模块,用于获取待检测图像,所述待检测图像包括至少一个目标对象;
处理模块,用于对所述待检测图像进行特征提取和特征融合,得到多张不同尺度的第一特征图;
所述处理模块,还用于分别对所述多张不同尺度的第一特征图进行目标检测,得到第一目标检测结果,所述第一目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框对应的类别分数信息;
所述处理模块,还用于对所述第一目标检测结果中的各所述目标框对应的类别分数信息进行修正,得到第二目标检测结果,所述第二目标检测结果包括各所述第一特征图对应的至少一个目标框,以及各所述目标框的分类结果;
所述处理模块,还用于从所述第二目标检测结果中确定所述至少一个目标对象对应的目标框以及分类结果。
9.一种目标检测装置,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述目标检测装置能够执行权利要求1-7中任一项所述的目标检测方法。
10.一种计算机可读存储介质,其特征在于,包括:用于存储计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行权利要求1-7中任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610242.8A CN111783797B (zh) | 2020-06-30 | 2020-06-30 | 目标检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610242.8A CN111783797B (zh) | 2020-06-30 | 2020-06-30 | 目标检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783797A true CN111783797A (zh) | 2020-10-16 |
CN111783797B CN111783797B (zh) | 2023-08-18 |
Family
ID=72761266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010610242.8A Active CN111783797B (zh) | 2020-06-30 | 2020-06-30 | 目标检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783797B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435367A (zh) * | 2021-06-30 | 2021-09-24 | 北大方正集团有限公司 | 社交距离评估方法、装置及存储介质 |
CN113454644A (zh) * | 2021-06-14 | 2021-09-28 | 商汤国际私人有限公司 | 对象类别的检测方法和装置 |
CN113642510A (zh) * | 2021-08-27 | 2021-11-12 | 北京京东乾石科技有限公司 | 目标检测方法、装置、设备和计算机可读介质 |
CN113763109A (zh) * | 2021-02-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 物品推荐方法、装置、设备及存储介质 |
CN114663800A (zh) * | 2022-02-25 | 2022-06-24 | 上海事凡物联网科技有限公司 | 视频图像的目标检测方法、电子设备以及可读存储介质 |
CN115131819A (zh) * | 2022-05-27 | 2022-09-30 | 中南民族大学 | 行人检测方法、装置、设备及存储介质 |
CN118470342A (zh) * | 2024-07-10 | 2024-08-09 | 天翼视联科技有限公司 | 火情检测方法、装置及计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060120609A1 (en) * | 2004-12-06 | 2006-06-08 | Yuri Ivanov | Confidence weighted classifier combination for multi-modal identification |
JP2015075983A (ja) * | 2013-10-10 | 2015-04-20 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
US20180129919A1 (en) * | 2015-07-08 | 2018-05-10 | Beijing Sensetime Technology Development Co., Ltd | Apparatuses and methods for semantic image labeling |
CN108846415A (zh) * | 2018-05-22 | 2018-11-20 | 长沙理工大学 | 工业分拣机器人的目标识别装置和方法 |
CN109886998A (zh) * | 2019-01-23 | 2019-06-14 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机装置及计算机存储介质 |
US20190385016A1 (en) * | 2018-06-13 | 2019-12-19 | Canon Kabushiki Kaisha | Device that updates recognition model and method of updating recognition model |
CN110751134A (zh) * | 2019-12-23 | 2020-02-04 | 长沙智能驾驶研究院有限公司 | 目标检测方法、存储介质及计算机设备 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN111340126A (zh) * | 2020-03-03 | 2020-06-26 | 腾讯云计算(北京)有限责任公司 | 物品识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-06-30 CN CN202010610242.8A patent/CN111783797B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060120609A1 (en) * | 2004-12-06 | 2006-06-08 | Yuri Ivanov | Confidence weighted classifier combination for multi-modal identification |
JP2015075983A (ja) * | 2013-10-10 | 2015-04-20 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
US20180129919A1 (en) * | 2015-07-08 | 2018-05-10 | Beijing Sensetime Technology Development Co., Ltd | Apparatuses and methods for semantic image labeling |
CN108846415A (zh) * | 2018-05-22 | 2018-11-20 | 长沙理工大学 | 工业分拣机器人的目标识别装置和方法 |
US20190385016A1 (en) * | 2018-06-13 | 2019-12-19 | Canon Kabushiki Kaisha | Device that updates recognition model and method of updating recognition model |
CN109886998A (zh) * | 2019-01-23 | 2019-06-14 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机装置及计算机存储介质 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN110751134A (zh) * | 2019-12-23 | 2020-02-04 | 长沙智能驾驶研究院有限公司 | 目标检测方法、存储介质及计算机设备 |
CN111340126A (zh) * | 2020-03-03 | 2020-06-26 | 腾讯云计算(北京)有限责任公司 | 物品识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
KUEN J等: "Scaling Object Detection by Transferring Classification Weights", 《ARXIV:1909.06804V1》, pages 1 - 10 * |
柴玉华等: "基于高光谱图像技术的大豆品种无损鉴别", 《东北农业大学学报》, vol. 47, no. 3, pages 91 - 98 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763109A (zh) * | 2021-02-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 物品推荐方法、装置、设备及存储介质 |
CN113454644A (zh) * | 2021-06-14 | 2021-09-28 | 商汤国际私人有限公司 | 对象类别的检测方法和装置 |
CN113435367A (zh) * | 2021-06-30 | 2021-09-24 | 北大方正集团有限公司 | 社交距离评估方法、装置及存储介质 |
CN113642510A (zh) * | 2021-08-27 | 2021-11-12 | 北京京东乾石科技有限公司 | 目标检测方法、装置、设备和计算机可读介质 |
CN114663800A (zh) * | 2022-02-25 | 2022-06-24 | 上海事凡物联网科技有限公司 | 视频图像的目标检测方法、电子设备以及可读存储介质 |
CN115131819A (zh) * | 2022-05-27 | 2022-09-30 | 中南民族大学 | 行人检测方法、装置、设备及存储介质 |
CN118470342A (zh) * | 2024-07-10 | 2024-08-09 | 天翼视联科技有限公司 | 火情检测方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111783797B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783797B (zh) | 目标检测方法、装置及存储介质 | |
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
CN111582021B (zh) | 场景图像中的文本检测方法、装置及计算机设备 | |
CN110378837B (zh) | 基于鱼眼摄像头的目标检测方法、装置和存储介质 | |
CN110751134A (zh) | 目标检测方法、存储介质及计算机设备 | |
CN111767847B (zh) | 一种集成目标检测和关联的行人多目标跟踪方法 | |
CN110097050B (zh) | 行人检测方法、装置、计算机设备及存储介质 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN112907530B (zh) | 基于分组反向注意力的伪装物体检测方法及系统 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN111340195A (zh) | 网络模型的训练方法及装置、图像处理方法及存储介质 | |
CN111696110A (zh) | 场景分割方法及系统 | |
CN111046949A (zh) | 一种图像分类方法、装置及设备 | |
CN116168017A (zh) | 一种基于深度学习的pcb元件检测方法、系统及存储介质 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN114037888A (zh) | 基于联合注意力和自适应nms的目标检测方法和系统 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN116343080A (zh) | 一种动态稀疏关键帧视频目标检测方法、装置及存储介质 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110866484A (zh) | 驾驶员人脸检测方法、计算机装置及计算机可读存储介质 | |
CN112818986A (zh) | 基于深度关系推理的文本检测方法、装置、系统及介质 | |
WO2024011859A1 (zh) | 一种基于神经网络的人脸检测方法和装置 | |
CN109583266A (zh) | 一种目标检测方法、装置、计算机设备及存储介质 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |