CN114549825A - 目标检测方法、装置、电子设备与存储介质 - Google Patents

目标检测方法、装置、电子设备与存储介质 Download PDF

Info

Publication number
CN114549825A
CN114549825A CN202210178676.4A CN202210178676A CN114549825A CN 114549825 A CN114549825 A CN 114549825A CN 202210178676 A CN202210178676 A CN 202210178676A CN 114549825 A CN114549825 A CN 114549825A
Authority
CN
China
Prior art keywords
target
frame
image
sample
compact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210178676.4A
Other languages
English (en)
Inventor
晏雨晴
贾若然
李成龙
谭昶
汤进
张友国
吕军
胡少云
刘江
冯祥
韩辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Anhui University
Iflytek Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Anhui University
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd, Anhui University, Iflytek Information Technology Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210178676.4A priority Critical patent/CN114549825A/zh
Publication of CN114549825A publication Critical patent/CN114549825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明提供一种目标检测方法、装置、电子设备与存储介质,其中方法包括:确定待检测图像;基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。本发明提供的方法、装置、电子设备与存储介质,通过目标检测模型能够基于输入的待检测图像生成图像中目标的紧致框,实现精确刻画目标的细节信息,提高了目标检测的精度,并且此种目标表示方法相较于现有技术更加具有通用性。

Description

目标检测方法、装置、电子设备与存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种目标检测方法、装置、电子设备与存储介质。
背景技术
任意方向目标检测作为目标检测领域的拓展分支之一,在智能交通、遥感图像目标检测、场景文本检测、鱼眼图像行人检测等领域都得到了广泛的应用。一些场景中的目标存在密集排列、任意方向、背景杂乱、长宽比较大等问题,此时再使用传统的水平边界框表示目标的位置,会存在包含过多背景信息或者前景背景歧义的问题。
现有的任意方向目标检测方法通常采用旋转矩形框的五参数表示法或者任意四边形的八参数表示法来表示目标的位置,这两种目标表示方式虽然能从一定程度上减轻水平边界框表示方法所存在的问题,但仍无法精确刻画目标的细节信息。
发明内容
本发明提供一种目标检测方法、装置、电子设备与存储介质,用以解决现有技术无法充分利用目标细节信息,无法以紧致的方式表示目标的缺陷,实现了目标位置、方向等细节信息的精确刻画。
本发明提供一种目标检测方法,包括:
确定待检测图像;
基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;
所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
根据本发明提供的一种目标检测方法,所述基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,包括:
基于所述目标检测模型中的矩形框检测网络,对所述待检测图像进行目标检测,得到所述待检测图像中的矩形框;
基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述紧致框。
根据本发明提供的一种目标检测方法,所述基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述紧致框,包括:
基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述矩形框的各顶点的滑动偏移量,并基于所述矩形框的各顶点的滑动偏移量,确定所述紧致框的各顶点,并基于所述紧致框的各顶点确定所述紧致框。
根据本发明提供的一种目标检测方法,所述基于所述矩形框的各顶点的滑动偏移量,确定所述紧致框的各顶点,之前还包括:
若所述矩形框的任一顶点的滑动偏移量小于预设阈值,则将所述任一顶点的滑动偏移量更新为零。
根据本发明提供的一种目标检测方法,所述矩形框各顶点的滑动偏移量包括所述各顶点在其对应的多条边上的偏移量。
根据本发明提供的一种目标检测方法,所述目标检测模型的损失函数是基于预测滑动偏移量与真实滑动偏移量之间的差值确定的,所述预测滑动偏移量是所述目标检测模型基于所述样本图像确定的,所述真实滑动偏移量是基于所述样本目标的最小外接矩形框和所述样本紧致框确定的。
根据本发明提供的一种目标检测方法,所述样本紧致框是基于如下步骤确定的:
在所述样本图像中构建轮廓辅助线;
获取所述轮廓辅助线与所述目标掩膜相切时,所述轮廓辅助线与所述样本目标的最小外接矩形框的交点;
基于所述轮廓辅助线与所述样本目标的最小外接矩形框的交点,确定所述样本紧致框。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标检测方法。
本发明提供的目标检测方法、装置、电子设备与存储介质,通过结合样本图像中样本目标的最小外接矩形框和目标掩膜生成样本紧致框,基于样本紧致框训练目标检测模型,使得训练所得的目标检测模型能够基于输入的待检测图像生成图像中目标的紧致框,实现精确刻画目标的细节信息,提高了目标检测的精度,并且此种目标表示方法相较于现有技术更加具有通用性,拓宽了目标检测的应用场景。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标检测方法的流程示意图之一;
图2是本发明提供的目标紧致框表示方法的示例图;
图3是本发明提供的目标检测方法的流程示意图之二;
图4是本发明提供的样本紧致框的确定方法的流程示意图;
图5是本发明提供的样本紧致框的确定方法的示例图;
图6是本发明提供的目标检测模型的结构示意图;
图7是本发明提供的目标检测模型的训练流程图;
图8是本发明提供的目标检测模型的测试流程图;
图9是本发明提供的目标检测装置的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着深度学习相关技术的飞速崛起,目标检测领域得到了极大的发展。传统的2D(Two-Dimensional,二维)目标检测算法,旨在用水平边界框表示目标的位置,并给出目标相应的类别,主要针对的是自然场景中的轴对齐图像。近年来,基于R-CNN(Regions withconvolutional network,区域卷积神经网络)的两阶段目标检测器以及基于YOLO(YouOnly Look Once)、SSD(Single Shot MultiBox Detector)的单阶段目标检测器在轴对齐图像上都取得了优异的检测性能,已经成功应用到安全、交通、生活等相关领域中,且越来越多的领域对该项技术提出了新的应用需求。
任意方向目标检测作为目标检测领域的拓展分支之一,在智能交通、遥感图像目标检测、场景文本检测、鱼眼图像行人检测等领域都得到了广泛的应用。一些场景中的目标存在密集排列、任意方向、背景杂乱、长宽比较大等问题,如果仍使用水平边界框表示目标,会存在包含过多背景信息或者前景背景歧义的问题。尤其是目标密集排列、任意方向且背景杂乱的场景,如果使用水平边界框表示目标不仅会出现前景背景混乱的问题,即对于一个目标可能是前景的信息,对于另一个目标是背景信息的问题,相同类别的目标相互重叠更加会影响判别器以及检测器的训练。此外,即使目标的漏检率很低,水平边界框的位置回归很准确,使用水平边界框表示目标的视觉体验效果也很差。
现有的任意方向目标检测方法主要分为基于旋转矩形框的任意方向目标检测以及基于任意四边形的任意方向目标检测。基于旋转矩形框表示的任意方向目标检测在传统2D目标检测的基础上增加了角度信息θ,用于表示目标的方向,最终使用五参数(x,y,w,h,θ)来表示目标的位置信息;基于任意四边形表示的任意方向目标检测,通过网络直接回归出检测框的四个角点坐标,使用任意四边形(x1,y1,x2,y2,x3,y3,x4,y4)来表示目标的位置信息。
这两种表示方法都一定程度上减轻了水平边界框表示方法所存在的问题,提高了分类器的判别能力以及检测器的定位精度,已经广泛地应用于遥感图像目标检测、场景文本检测等领域中。尽管如此,上述两种方法中目标所采用的标注信息仍是旋转矩形框或者任意四边形,没有结合更细粒度的掩膜信息作为监督信号,无法精确刻画目标的细节信息,且其表示形式是旋转矩形框或者任意四边形,不具有通用性。
对此,本发明提供一种目标检测方法。图1是本发明提供的目标检测方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待检测图像;
步骤120,基于目标检测模型,对待检测图像进行目标检测,得到待检测图像中的紧致框,紧致框与待检测图像中目标外切,紧致框在目标的最小外接矩形框内;
目标检测模型是基于样本图像以及样本图像中的样本紧致框训练得到的,样本紧致框基于样本图像中样本目标的最小外接矩形框和目标掩膜确定。
具体地,待检测图像即需要进行目标检测的图像,例如可以是摄像机拍摄的图像、从摄像机拍摄的视频中提取的视频帧等,本发明实施例对此不作具体限定。将该待检测图像输入到目标检测模型中,目标检测模型能够将待检测图像中的目标识别出来,并在待检测图像上通过检测框将其标注出来。
考虑到现有技术中目标所采用的标注信息为任意四边形或旋转矩形框,没有结合更细粒度的掩膜信息作为模型的监督信号,使得模型生成的检测框无法精确刻画目标的细节信息。针对这一问题,本发明实施例在目标检测模型的训练过程中,以样本图像为样本,以样本图像中样本目标的最小外接矩形框和目标掩膜所确定的样本紧致框为样本标签,通过应用目标掩膜对目标检测模型进行有监督学习,以使训练所得的目标检测模型能够为输入的待检测图像确定出更紧致地包围在目标周围的检测框,即紧致框,该紧致框与待检测图像中目标外切,且在目标的最小外接矩形框内。
此处,紧致框可以是五边形,六边形等任意多边形,例如,图2是本发明提供的目标紧致框表示的示例图,如图2所示,紧致框是由顶点left_top、top_left、top_right、right_top、right_bottom、bottom_right、bottom_left和left_bottom构成的八边形,可以看出,该紧致框与待检测图像中目标外切,且在目标的最小外接矩形框ABCD内,比最小外接矩形框更紧致地包围在目标周围。对应地,样本紧致框为与样本目标的目标掩膜外切且在样本目标的最小外接矩形框内的多边形。
需要说明的是,针对目标检测中存在的目标方向任意、密集排列、长宽比较大、背景杂乱等挑战,本发明实施例利用目标掩膜生成多边形的样本紧致框,作为目标检测模型的监督信号,最终实现目标检测模型能够生成多边形紧致框来表示输入图像中的目标,实现以更加紧致的方式描绘目标的位置、姿势、尺度等细节信息。并且,目标检测模型所生成的紧致框不限定于四边形,相较于现有技术中的四边形表示方法,更加具有通用性。
本发明实施例提供的方法,通过结合样本图像中样本目标的最小外接矩形框和目标掩膜生成样本紧致框,基于样本紧致框训练目标检测模型,使得训练所得的目标检测模型能够基于输入的待检测图像生成图像中目标的紧致框,实现精确刻画目标的细节信息,提高了目标检测的精度,并且此种目标表示方法相较于现有技术更加具有通用性,拓宽了目标检测的应用场景。
基于上述实施例,图3是本发明提供的目标检测方法的流程示意图之二,如图3所示,步骤120包括:
步骤121,基于目标检测模型中的矩形框检测网络,对待检测图像进行目标检测,得到待检测图像中的矩形框;
步骤122,基于目标检测模型中的紧致框检测网络,应用矩形框内的图像特征,在矩形框内进行目标检测,得到紧致框。
具体地,为了进一步提高目标检测的精度,本发明实施例中目标检测模型可以包括矩形框检测网络和紧致框检测网络,当待检测图像输入到目标检测模型中,矩形框检测网络可以对待检测图像进行目标检测,从而得到待检测图像中目标的候选检测框,即矩形框,并输出给紧致框检测网络,随即,紧致框检测网络可以应用矩形框内的图像特征,在矩形框内进行目标检测,从而得到更紧致地包围在目标周围的检测框即紧致框。
此处,矩形框内的图像特征的确定方式可以是根据待检测图像中矩形框内的区域图像进行特征提取得到的,也可以是首先提取出待检测图像的特征,再将矩形框映射到该特征上,从而得到矩形框对应的图像特征,本发明实施例对此不作具体限定。紧致框检测网络可以直接输出紧致框各顶点的坐标,从而直接得到紧致框,也可以输出矩形框的各顶点相对于紧致框的坐标偏移量,从而由矩形框迁移为紧致框,本发明实施例对此也不作具体限定。
基于上述任一实施例,步骤122包括:
基于目标检测模型中的紧致框检测网络,应用矩形框内的图像特征,在矩形框内进行目标检测,得到矩形框的各顶点的滑动偏移量,并基于矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,并基于紧致框的各顶点确定紧致框。
具体地,在得到待检测图像中目标的最小外接矩形框之后,紧致框检测网络可以应用矩形框内的图像特征,在该矩形框内进行更细粒度的目标检测,即从矩形框内进一步确定出目标的紧致框,具体过程可以是,首先确定出矩形框的各顶点的滑动偏移量,再根据矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,最后连接紧致框的各顶点,即可得到紧致框。
此处,可以直接根据矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,也可以首先对矩形框的各顶点的滑动偏移量进行更新调整,再根据更新后的值确定紧致框的各顶点,本发明实施例对此不作具体限定。滑动偏移量指的是矩形框的各顶点在滑动方向上相对于紧致框的坐标偏移量,为了得到更紧致地包围在目标周围的紧致框,各顶点对应的滑动方向为向着目标方向滑动的多个方向,可以是各顶点所在多条边的方向,也可以是其它方向,本发明实施例对此也不作具体限定。
例如,如图2所示,若ABCD为矩形框,对于顶点A,顶点A的滑动偏移量包括AB方向上的坐标偏移量和AD方向上的坐标偏移量,根据顶点A的滑动偏移量可以直接得到紧致框的顶点top_left和left_top;又例如,若left_top、top_left这条线段上有任意两点b、c,顶点A的滑动偏移量包括Ab方向上的坐标偏移量和Ac方向上的坐标偏移量,根据顶点A的滑动偏移量可以得到b和c的坐标,根据这两点的坐标可以确定一条直线,根据这条直线与矩形框的交点即可确定紧致框的顶点top_left和left_top。
进一步地,紧致框检测网络包括分类分支和回归分支。其中,分类分支用于待检测图像中目标的类别预测,回归分支除了可以得到矩形框的各顶点相对于紧致框的滑动偏移量之外,还可以得到矩形框的各顶点本身的坐标偏移量,以实现矩形框的位置精修,最终得到目标的最小外接矩形框。
基于上述任一实施例,基于矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,之前还包括:
若矩形框的任一顶点的滑动偏移量小于预设阈值,则将该顶点的滑动偏移量更新为零。
具体地,为了避免模型不收敛,模型生成的紧致框存在多余边的情况,本发明实施例预先设置了滑动偏移量对应的阈值,即预设阈值,当矩形框的任意一个顶点的滑动偏移量小于预设阈值时,则将该顶点的滑动偏移量更新为零,即说明该顶点可以直接作为紧致框的其中一个顶点。此处,预设阈值可以是根据测试过程中的经验值设置的,也可以是智能计算得到的,本发明实施例对此不作具体限定。
例如,在上述示例中,如果点A与top_left之间的距离极小,即说明点A拐角处的两条边已经较为贴合目标,所包含的多余的背景区域已较小,无需在此处进行进一步收缩,此时则可以直接将矩形框的顶点A作为紧致框的其中一个顶点,最终得到的紧致框即由顶点A、top_right、right_top、right_bottom、bottom_right、bottom_left和left_bottom构成的七边形。
特殊地,如果矩形框的每个顶点的滑动偏移量均小于预设阈值,即说明原始的矩形框已经很贴合目标,对于此种情况,紧致框可以是原始的四边形矩形框。
需要说明的是,本发明实施例通过引入滑动偏移量的预设阈值,针对近似水平的目标以及任意方向的目标,通过阈值的设定,网络可以自适应的选取目标最合适的表示形式,提高了目标检测的通用性以及检测精度。
基于上述任一实施例,矩形框各顶点的滑动偏移量包括矩形框各顶点在其对应的多条边上的偏移量。
具体地,为了不引入多余的方向信息,减少计算量,本发明实施例中矩形框各顶点的滑动偏移量包括矩形框各顶点在其对应的多条边上的偏移量,例如,如图2所示,若ABCD为矩形框,对于矩形框的左上角点A,A的滑动偏移量包括AB方向上的坐标偏移量和AD方向上的坐标偏移量,对于矩形框的右上角点B,B的滑动偏移量包括BA方向上的坐标偏移量和BC方向上的坐标偏移量。
需要说明的是,本发明实施例中目标检测模型相对于原始的目标检测网络只是增加了输出的维度,由于矩形框各顶点的滑动偏移量与矩形框的各顶点本身的坐标偏移量是同时输出的,时间复杂度是一样的,并且不涉及角度信息。因此实现了在引入的额外计算量可以忽略的同时,以更紧致的方式描述目标的细节信息。并且,本发明实施例中紧致框是在矩形框的基础上进行迁移生成的,能够保证紧致框的各顶点的回归顺序与真实顺序保持一致,很好地解决了目前任意方向目标检测技术对于角度回归敏感以及顺序标签点的问题。
基于上述任一实施例,目标检测模型的损失函数是基于预测滑动偏移量与真实滑动偏移量之间的差值确定的,预测滑动偏移量是目标检测模型基于样本图像确定的,真实滑动偏移量是基于样本目标的最小外接矩形框和样本紧致框确定的。
具体地,由于紧致框根据矩形框的各顶点的滑动偏移量确定,为了进一步提高紧致框的预测准确率,本发明实施例在目标检测模型的训练过程中,根据预测滑动偏移量与真实滑动偏移量之间的差值确定目标检测模型的损失函数,此处的预测滑动偏移量是目标检测模型根据输入的样本图像预测得到的,具体可以是由目标检测模型中的紧致框检测网络所得到的样本矩形框的各顶点的预测滑动偏移量,真实滑动偏移量即滑动偏移量的实际值,可以根据样本目标的最小外接矩形框的各顶点的坐标,与样本紧致框的各顶点的坐标确定。
进一步地,目标检测模型可以采用Faster RCNN(Faster Regions withConvolutional Neural Network,快速区域卷积神经网络),目标检测模型的损失函数除了包括预测滑动偏移量与真实滑动偏移量之间的损失之外,还可以包括原始Faster RCNN中矩形框的位置回归损失。
基于上述任一实施例,图4是本发明提供的样本紧致框的确定方法的流程示意图,如图4所示,样本紧致框是基于如下步骤确定的:
步骤410,在样本图像中构建轮廓辅助线;
步骤420,获取轮廓辅助线与目标掩膜相切时,轮廓辅助线与样本目标的最小外接矩形框的交点;
步骤430,基于轮廓辅助线与样本目标的最小外接矩形框的交点,确定样本紧致框。
具体地,在确定目标检测模型的训练样本即样本图像之后,可以首先在样本图像中构建轮廓辅助线,此处的轮廓辅助线即为确定样本紧致框的轮廓所构建的辅助线,平移轮廓辅助线,获取轮廓辅助线与样本图像中样本目标的目标掩膜相切时,轮廓辅助线与样本目标的最小外接矩形框的交点,随即,根据轮廓辅助线与样本目标的最小外接矩形框的交点,得到样本标签,即样本紧致框。
例如,轮廓辅助线可以是过样本目标的最小外接矩形框的各顶点所作的各条直线,各条直线的倾斜角度可以预先设置,例如,可以设置左上角点和右下角点对应的直线的倾斜角度为45°,右上角点和左下角点对应的直线的倾斜角度为-45°,平移轮廓辅助线,直至与样本目标的目标掩膜相切,即可得到相切时轮廓辅助线与样本目标的最小外接矩形框的交点,随即,根据轮廓辅助线与样本目标的最小外接矩形框的交点,即可得到样本紧致框。
又例如,图5是本发明提供的样本紧致框的确定方法的示例图,如图5所示,考虑到外接矩形框的对称性,轮廓辅助线可以是过样本目标的最小外接矩形框的左上角点A和右上角点B分别作的直线L1和L4,L1和L4的倾斜角度可以预先设置,再遍历目标掩膜中的所有像素点,计算距离上述每条直线的最短距离以及最远距离所对应的像素点,由此可以得到直线L1对应的两个像素点a、b,直线L4对应的两个像素点c、d;随即,平移L1直至分别经过a、b两点,即可得到与目标掩膜相切的轮廓辅助线L2、L3,其中L2与最小外接矩形框的上边top以及左边Left分别相交于top_left、left_top两点,L3与最小外接矩形框的右边right以及下边bottom分别相交于right_bottom、bottom_right两点,同样的方式,平移L4直至分别经过c、d两点,即可得到与目标掩膜相切的轮廓辅助线L5、L6,其中L5与最小外接矩形框的上边top以及右边right分别相交于top_right、right_top两点,L6与最小外接矩形框的左边left以及下边bottom分别相交于left_bottom、bottom_left两点;最后顺序连接上述确定出的各个点,即可得到样本紧致框。
基于上述任一实施例,现有的任意方向目标检测方法基于图像的语义特征设计锚框,同时通过中心点预测分支以及形状预测分支预测锚框的位置及大小,在遥感图像数据集上有着不错的表现效果。但是仍然存在一些问题,如添加额外的损失函数可能导致不收敛的问题,同时,锚框中心点预测分支以及锚框形状预测分支以及多种形状的锚框的引入,增加了额外的计算量等问题。并且,针对于一些密集排列、长宽比较大的目标,此方法的效果欠佳。
此外,现有的任意方向目标检测方法主要分为基于旋转矩形框的任意方向目标检测以及基于任意四边形的任意方向目标检测。这两种表示方法都一定程度上减轻了水平边界框表示方法所存在的问题,提高了分类器的判别能力以及检测器的定位精度,广泛地应用于遥感图像目标检测、场景文本检测等领域中。尽管如此,上述两种方法仍存在一定的局限性。基于旋转矩形框的五参数表示法对于角度的预测精度要求很严格,细微的角度偏差可能会导致目标交并比的大幅度下降,导致检测性能下降,尤其是对于长宽比较大的目标,并且无论是框的产生阶段还是后处理阶段都增加了很多的计算量;基于任意四边形的八参数表示法存在着顺序标签点问题,即如何定义四个角点的回归顺序能够使得其与真实值的顺序保持一致。
现有技术基于原始图像提取得到的多尺度特征分别进行锚框中心点和锚框形状的预测,一方面,锚框中心点预测分支、锚框形状预测分支以及多种形状的锚框的引入,增加了计算量,并且过多的损失计算有可能导致网络训练不收敛。另一方面,目标所采用的标注信息仍是旋转矩形框或任意四边形,没有结合更细粒度的掩膜信息作为模型的监督信号,模型生成的检测框无法精确刻画目标的细节信息,且其表示形式不具有通用性。
对此,本发明针对以往任意方向目标检测中存在的计算复杂度、对角度预测的准确度敏感以及顺序标签点等问题进行了改进,提供了一种基于多边形紧致框表示的精准目标检测方法,该方法包括以下步骤:
步骤S1、数据准备:
首先是对数据集进行预处理,可选地,可以采用MS COCO2017数据集作为样本图像,根据COCO数据集的标注信息可以得到样本图像中样本目标的最小外接矩形框和目标掩膜。随即,将最小外接矩形框和目标掩膜经过一定的公式转换得到对应的多边形标注框,即样本紧致框,从而实现结合不同粒度的标注信息得到对应的多边形标注框。
步骤S2、目标检测模型构建:
图6是本发明提供的目标检测模型的结构示意图,如图6所示,该模型是基于两阶段的目标检测器Faster RCNN进行修改的,包括矩形框检测网络和紧致框检测网络,其中,矩形框检测网络可以包括特征提取模块和RPN(Region Proposal Network,区域候选网络)模块,紧致框检测网络可以采用修改后的ROI Head(Region of Interest Head,感兴趣区域的检测头部)。特别地,在ROI Head的尾部添加了八个回归参数,分别用于表示模型第一阶段产生的矩形框的各个顶点在其对应边上的滑动偏移量。
进一步地,目标检测模型的骨干网络(即图6中的Backbone)即特征提取模块可以采用预先训练好的ResNet101(Residual Networks,残差网络)加FPN(Feature PyramidNetwork,特征金字塔网络)结构,其中使用的是FPN的C1-C5层。将骨干网络所提取到的特征图(即图6中的Feature map)输入到RPN网络模块中生成目标的候选检测框即矩形框。首先,针对FPN特征图的每一层使用3*3的卷积分别产生不同尺度、长宽比的锚框,例如可以得到以下五种尺度(32,64,128,256,512),长宽比大小为(0.5,1.0,2.0)的锚框。然后,将所提取到的锚框特征先经过一个3*3的卷积层,然后并联两个1*1的卷积层分别用于锚框的前景得分预测,以及锚框的坐标偏移量的预测,最后经过NMS(Non-Maximum Suppression,非极大值抑制)等后处理得到目标的矩形框。
将经过骨干网络所得到的多尺度特征以及RPN网络模块产生的矩形框,同时输入RoI Head中,其中RoI Head包括一个RoI Align层以及两个多层感知机层,具体地,将RPN产生的矩形框分别投影到FPN特征图的每一层上获得相应的特征矩阵,然后将每个特征矩阵经过RoI Align层缩放为固定尺寸例如7*7的特征图,接着将特征图输入全连接层(即图6中的FC*2)中展平,输入并联的两个全连接层中,分别用于目标类别的分类预测,以及矩形框偏移量和八个滑动偏移量的回归预测。分类分支的输出维度为N*类别数,回归分支的输出维度为N*12,其中N为图像中目标的个数,类别数包括目标类别数M和背景,回归分支的输出包括矩形框本身的坐标偏移量以及各顶点在其对应两条边上的滑动偏移量。
步骤S3、目标检测模型训练:
定义目标检测模型的交并比计算方式以及损失函数计算方法,图7是本发明提供的目标检测模型的训练流程图,如图7所示,使用已预处理的样本图像与对应样本目标的最小外接矩形框和样本紧致框对模型的参数进行训练,得到已训练的基于多边形紧致框表示的目标检测模型,目标检测模型的损失函数为Loss=Lossrpn+lossm-Fasterrcnn,其中Lossrpn与Faster RCNN中的设置相同,包括锚框的前景得分预测损失,以及锚框的偏移量预测损失;修改后的ROI Head(即图7中的检测头部)的损失lossm-Fasterrcnn与原始的Faster RCNN检测头部网络不同的是,不仅包含矩形框的回归参数,还引入了八个滑动偏移量的回归参数,但是这八个滑动偏移量的计算代价是可以忽略的。
步骤S4、目标检测模型测试:
图8是本发明提供的目标检测模型的测试流程图,如图8所示,对待检测图像进行预处理,并输入已训练的目标检测模型中进行检测。在检测过程中,对于滑动偏移量的预测值,当滑动偏移量的预测值小于预设阈值例如0.05时,直接将其设置为0,使用这种方式,针对目标拐角近似水平的情况也能得到很好的处理。最后输出的是待检测图像中目标的紧致框表示及其对应的目标类别。
需要说明的是,为了避免紧致框的边数过多,导致与轮廓点检测相似,引入过多的计算量,本发明实施例中将紧致框的最多边数限定为八边形,因此目标检测模型最终检测得到的紧致框可以是任意四边形到任意八边形的,模型可以根据目标的形状自适应地选择任意四边形到任意八边形进行表示。
本发明实施例提供的方法,通过利用样本目标的掩膜信息生成多边形的监督信号,设计一种目标的多边形紧致框表示方式,将不同粒度的视觉任务相结合,有效地解决了以往基于回归的任意方向目标检测对于角度回归准确度的依赖问题以及顺序标签点的问题,在引入的额外计算量可忽略的前提下,可以以更加紧致的方式描绘目标的位置、姿势、尺度等细节信息。并且,紧致框不限定于四边形,更加具有一般通用性,拓宽了目标检测的应用场景,提高了目标检测的性能。
同时,设置了滑动偏移量阈值,针对近似水平的目标以及任意方向的目标,通过阈值的设定,网络可以自适应的选取目标最合适的表示形式,提高了目标检测的通用性以及检测精度,并且,最终实验证明所提出的方法同时适应于自然场景中的轴对齐目标以及遥感图像、交通场景中等任意方向的目标。
下面对本发明提供的目标检测装置进行描述,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。
基于上述任一实施例,本发明提供一种目标检测装置。图9是本发明提供的目标检测装置的结构示意图,如图9所示,该装置包括:
确定单元910,用于确定待检测图像;
检测单元920,用于基于目标检测模型,对待检测图像进行目标检测,得到待检测图像中的紧致框,紧致框与待检测图像中目标外切,紧致框在目标的最小外接矩形框内;
目标检测模型是基于样本图像以及样本图像中的样本紧致框训练得到的,样本紧致框基于样本图像中样本目标的最小外接矩形框和目标掩膜确定。
本发明实施例提供的装置,通过结合样本图像中样本目标的最小外接矩形框和目标掩膜生成样本紧致框,基于样本紧致框训练目标检测模型,使得训练所得的目标检测模型能够基于输入的待检测图像生成图像中目标的紧致框,实现精确刻画目标的细节信息,提高了目标检测的精度,并且此种目标表示方法相较于现有技术更加具有通用性,拓宽了目标检测的应用场景。
基于上述任一实施例,检测单元920包括:
矩形框检子单元,用于基于目标检测模型中的矩形框检测网络,对待检测图像进行目标检测,得到待检测图像中的矩形框;
紧致框检测子单元,用于基于目标检测模型中的紧致框检测网络,应用矩形框内的图像特征,在矩形框内进行目标检测,得到紧致框。
基于上述任一实施例,紧致框检测子单元用于:
基于目标检测模型中的紧致框检测网络,应用矩形框内的图像特征,在矩形框内进行目标检测,得到矩形框的各顶点的滑动偏移量,并基于矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,并基于紧致框的各顶点确定紧致框。
基于上述任一实施例,基于矩形框的各顶点的滑动偏移量,确定紧致框的各顶点,之前还包括:
若矩形框的任一顶点的滑动偏移量小于预设阈值,则将该顶点的滑动偏移量更新为零。
基于上述任一实施例,矩形框各顶点的滑动偏移量包括矩形框各顶点在其对应的多条边上的偏移量。
基于上述任一实施例,目标检测模型的损失函数是基于预测滑动偏移量与真实滑动偏移量之间的差值确定的,预测滑动偏移量是目标检测模型基于样本图像确定的,真实滑动偏移量是基于样本目标的最小外接矩形框和样本紧致框确定的。
基于上述任一实施例,样本紧致框是基于如下步骤确定的:
在样本图像中构建轮廓辅助线;
获取轮廓辅助线与目标掩膜相切时,轮廓辅助线与样本目标的最小外接矩形框的交点;
基于轮廓辅助线与样本目标的最小外接矩形框的交点,确定样本紧致框。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行目标检测方法,该方法包括:确定待检测图像;基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标检测方法,该方法包括:确定待检测图像;基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测方法,该方法包括:确定待检测图像;基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
确定待检测图像;
基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;
所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
2.根据权利要求1所述的目标检测方法,其特征在于,所述基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,包括:
基于所述目标检测模型中的矩形框检测网络,对所述待检测图像进行目标检测,得到所述待检测图像中的矩形框;
基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述紧致框。
3.根据权利要求2所述的目标检测方法,其特征在于,所述基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述紧致框,包括:
基于所述目标检测模型中的紧致框检测网络,应用所述矩形框内的图像特征,在所述矩形框内进行目标检测,得到所述矩形框的各顶点的滑动偏移量,并基于所述矩形框的各顶点的滑动偏移量,确定所述紧致框的各顶点,并基于所述紧致框的各顶点确定所述紧致框。
4.根据权利要求3所述的目标检测方法,其特征在于,所述基于所述矩形框的各顶点的滑动偏移量,确定所述紧致框的各顶点,之前还包括:
若所述矩形框的任一顶点的滑动偏移量小于预设阈值,则将所述任一顶点的滑动偏移量更新为零。
5.根据权利要求3所述的目标检测方法,其特征在于,所述矩形框各顶点的滑动偏移量包括所述矩形框各顶点在其对应的多条边上的偏移量。
6.根据权利要求3所述的目标检测方法,其特征在于,所述目标检测模型的损失函数是基于预测滑动偏移量与真实滑动偏移量之间的差值确定的,所述预测滑动偏移量是所述目标检测模型基于所述样本图像确定的,所述真实滑动偏移量是基于所述样本目标的最小外接矩形框和所述样本紧致框确定的。
7.根据权利要求1至6中任一项所述的目标检测方法,其特征在于,所述样本紧致框是基于如下步骤确定的:
在所述样本图像中构建轮廓辅助线;
获取所述轮廓辅助线与所述目标掩膜相切时,所述轮廓辅助线与所述样本目标的最小外接矩形框的交点;
基于所述轮廓辅助线与所述样本目标的最小外接矩形框的交点,确定所述样本紧致框。
8.一种目标检测装置,其特征在于,包括:
确定单元,用于确定待检测图像;
检测单元,用于基于目标检测模型,对所述待检测图像进行目标检测,得到所述待检测图像中的紧致框,所述紧致框与所述待检测图像中目标外切,所述紧致框在所述目标的最小外接矩形框内;
所述目标检测模型是基于样本图像以及所述样本图像中的样本紧致框训练得到的,所述样本紧致框基于所述样本图像中样本目标的最小外接矩形框和目标掩膜确定。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述目标检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标检测方法。
CN202210178676.4A 2022-02-25 2022-02-25 目标检测方法、装置、电子设备与存储介质 Pending CN114549825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210178676.4A CN114549825A (zh) 2022-02-25 2022-02-25 目标检测方法、装置、电子设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210178676.4A CN114549825A (zh) 2022-02-25 2022-02-25 目标检测方法、装置、电子设备与存储介质

Publications (1)

Publication Number Publication Date
CN114549825A true CN114549825A (zh) 2022-05-27

Family

ID=81679779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210178676.4A Pending CN114549825A (zh) 2022-02-25 2022-02-25 目标检测方法、装置、电子设备与存储介质

Country Status (1)

Country Link
CN (1) CN114549825A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071605A (zh) * 2023-03-07 2023-05-05 超音速人工智能科技股份有限公司 基于深度学习的标注方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071605A (zh) * 2023-03-07 2023-05-05 超音速人工智能科技股份有限公司 基于深度学习的标注方法、装置及存储介质
CN116071605B (zh) * 2023-03-07 2023-09-01 超音速人工智能科技股份有限公司 基于深度学习的标注方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
US11488308B2 (en) Three-dimensional object detection method and system based on weighted channel features of a point cloud
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN110832501A (zh) 用于姿态不变面部对准的系统和方法
CN110378837B (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
CN113989450B (zh) 图像处理方法、装置、电子设备和介质
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
CN115330940B (zh) 一种三维重建方法、装置、设备和介质
CN111583381A (zh) 游戏资源图的渲染方法、装置及电子设备
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN115937552A (zh) 一种基于融合手工特征与深度特征的图像匹配方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN114549825A (zh) 目标检测方法、装置、电子设备与存储介质
CN112102342B (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
CN115880555B (zh) 目标检测方法、模型训练方法、装置、设备及介质
CN112509126A (zh) 三维物体检测的方法、装置、设备及存储介质
CN115273184B (zh) 人脸活体检测模型训练方法及装置
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN115984219A (zh) 产品表面缺陷检测方法、装置、电子设备及存储介质
WO2022267387A1 (zh) 图像识别方法、装置、电子设备和存储介质
Wang et al. An Improved YOLOv3 Object Detection Network for Mobile Augmented Reality
CN114140320A (zh) 图像迁移方法和图像迁移模型的训练方法、装置
CN110580451A (zh) 一种基于三维优化子曲面的人脸识别方法及系统
CN117523428B (zh) 基于飞行器平台的地面目标检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination