CN111126399A - 一种图像检测方法、装置、设备及可读存储介质 - Google Patents
一种图像检测方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111126399A CN111126399A CN201911384402.5A CN201911384402A CN111126399A CN 111126399 A CN111126399 A CN 111126399A CN 201911384402 A CN201911384402 A CN 201911384402A CN 111126399 A CN111126399 A CN 111126399A
- Authority
- CN
- China
- Prior art keywords
- detection
- target
- image
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明公开了一种图像检测方法、装置、设备及可读存储介质,该方法包括以下步骤:获取待检测的目标图像;利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像;其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。可最终实现了对不同尺度的目标进行高效且准确的检测。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种图像检测方法、装置、设备及可读存储介质。
背景技术
随着人工智能技术的发展,有越来越多的用于检测图像中目标的目标检测算法应运而生。这些目标检测算法中包括技术较为成熟的有边框检测算法,即anchor-based系列的算法,同时也包括无边框检测算法,即anchor-free系列算法。
其中,Anchor-based算法由于提出的时间较早,经过多年的发展技术较为成熟,其中具有代表的算法有SSD,Faster RCNN以及FPN等。该类算法需要预先设置锚框,在所设置的锚框基础上进行位置预测。这就造成了与锚框相关的计算量很大,同时也使得预测框的位置形状受所设定的锚框形状的影响极为严重。由于锚框的大小和宽高比是固定的,使得对一些形状尺寸变化较大的对象的检测效果不佳,甚至是对一些目标的遗漏,特别是对一些小目标的检测上。
Anchor-free系列算法避免了锚框的预设定,减少了大量的相关计算,使得其内存占用率和速度都有明显提高。而且没有锚框的预先设定,预测框是在整个特征图范围内去回归目标位置,适用于各种形状尺寸的目标对象的检测。但由于Anchor-free系列算法缺乏先验知识的指导,Anchor-free系列算法对应的检测网络在整个特征图范围内回归目标位置的难度也就增加了,其定位精度较比anchor-based算法略低,特别是对小目标的敏感性略低。
综上所述,如何有效地解决图像目标检测的准确率等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种图像检测方法、装置、设备及可读存储介质,以通过结合有边框检测算法和无边框检测算法,提高图像目标检测准确率。
为解决上述技术问题,本发明提供如下技术方案:
一种图像检测方法,包括:
获取待检测的目标图像;
利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像;
其中,所述目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;所述检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接所述无边框检测算法和有边框检测算法进行分类和回归预测。
优选地,其中,所述指定卷积层拉分支进行上采样为所述检测特征金字塔的P4至P6层,所述目标卷积层后添加的两层所述卷积层结构并进行上采样构成所述检测特征金字塔的P7层和P8层,所述负责微小目标检测的目标特征层为P4层;所述利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像,包括:
所述检测特征金字塔的P5至P8层中的分类支路获得所述目标图像对应的特征图上每一点的类别得分;
所述检测特征金字塔的P5至P8层中的位置回归支路获得所述特征图上每一点映射回所述目标图像后到达标准答案框四边的距离,以确定所述检测图像中所述目标结果框的位置。
优选地,在所述获取待检测的目标图像之前,还包括:
设置所述检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式;
利用训练样本训练所述目标检测模型。
优选地,设置所述检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式,包括:
按照[Sl/n2,Sl*n2]对所述检测特征金字塔中每一特征层设置感兴趣区域;其中P4层至P8层的Sl分别为322-5122,其中n为2;
将标准答案框映射到每一所述特征层中,获得所述标准答案框的指定角点和中心点坐标;
利用所述指定角点和所述中心点坐标确定每一所述特征层对应的特征图的正样本区域和负样本区域。
优选地,利用所述指定角点和所述中心点坐标确定每一特征层对应的所述特征图的正样本区域和负样本区域,包括:
利用所述指定角点和所述中心点坐标计算获得所述标准答案框内的第一中心区域,并将每一特征层对应的特征图内所述第一中心区域作为正样本区域;
利用所述指定角点和所述中心点坐标计算获得所述标准答案框内的第二中心区域,并将每一特征层对应的特征图所述第二中心区域外的区域作为负样本区域。
优选地,利用所述指定角点和所述中心点坐标确定每一特征层对应的所述特征图的正样本区域和负样本区域,包括:
对于P4层,对于感兴趣区域内的特征点在利用对应的位置回归支路获得的预测框与标准答案框的相似性大于预设阈值时,则确定为正样本;否则为负样本。
优选地,所述利用训练样本训练所述目标检测模型,包括:
输入训练样本至所述目标检测模型,获得训练目标检测框;
利用损失函数结合所述目标检测框与对应的所述标准答案框计算所述目标检测模型的损失值;其中,对分类支路均采用focal loss函数计算损失;对位置回归支路均采用IOU loss函数来计算损失;
利用所述损失值对所述目标检测模型进行参数调整,直到所述目标检测模型收敛。
一种图像检测装置,包括:
目标图像获取模块,用于获取待检测的目标图像;
目标检测模块,用于利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像;
其中,所述目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构成构建所述检测特征金字塔;所述检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接所述无边框检测算法和有边框检测算法进行分类和回归预测。
一种图像检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述图像检测方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述图像检测方法的步骤。
应用本发明实施例所提供的方法,获取待检测的目标图像;利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像;其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。
其中,有边框检测算法即anchor-based系列中的检测算法,无边框检测算法即anchor-free系列中的检测算法。在本方法中,采用融合了有边框检测算法和无边框检测算法的目标检测模型对目标图像进行目标检测,能够提高目标检测准确率。具体的,从目标检测模型的结构可见,经过目标检测模型的分类和回归等算法处理,既保留了无边框检测算法内存占用率小,又解决了无边框检测算法在没有任何先验知识指导的情况下,在整张目标图像范围内对形状变化巨大的锚框进行回归,特别是对较小目标锚框回归的困难,又弥补了有边框检测算法中由于锚框尺寸固定,对小目标的遗漏问题,最终实现了对不同尺度的目标进行高效且准确的检测。
相应地,本发明实施例还提供了与上述图像检测方法相对应的图像检测装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种图像检测方法的实施流程图;
图2为本发明实施例中一种目标检测模型的结构示意;
图3为本发明实施例中一种正负样本区域设置示意图;
图4为本发明实施例中一种电梯场景下的检测结果示意图;
图5为本发明实施例中一种马路场景下的检测结果示意图;
图6为本发明实施例中一种图像检测装置的结构示意图;
图7为本发明实施例中一种图像检测设备的结构示意图;
图8为本发明实施例中一种图像检测设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种图像检测方法的流程图,该方法包括以下步骤:
S101、获取待检测的目标图像。
其中,目标图像可以为任意一张需要检测目标的图像。例如,当在实时检测图像的场景中,如二维码识别,则可直接将当前设备拍摄的图片作为目标图像,当在视频图像检测场景中,如车辆或人员跟踪等,则可将监控设备拍摄的视频中的视频帧作为目标图像。
S102、利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像。
其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。
其中,指定卷积层,目标特征层还可根据实际应用的需求进行修改,增加数目以及调整在检测特征金字塔中的卷积层数。
其中,目标检测模型的具体架构可具体参见图2,图2为本发明实施例中一种目标检测模型的结构示意。在图2中P7层和P8层未绘制。为便于描述,在本文中将以P4-P8分别代表检测特征金字塔中的相应特征层,当然还可以采用其他指代形式,分别指代相应的特征层。
其中,视觉神经网络可具体为MobileNetv1(一种通用计算机视觉神经网络,能支持图像分类和检测)作为backbone(一种帮助开发重量级的javascript应用的框架)的RetinaNet(一种组合了FPN网络与FCN网络(全卷积网络)的目标检测网络)网络结构。该网络结构可在指定卷积层如conv4_1,conv5_5和conv6,拉分支进行上采样来构造FPN(Feature Pyramid Network,检测特征金字塔网络,即深度卷积神经网络(DCNN)提取的不同尺度特征组成的金字塔形状)结构P4,P5和P6;其后添加两层卷积的目标卷积层可具体为conv6,即在conv6后添加两层卷积,并在该两个卷积层上进行上采样构建FPN结构P7和P8。也就是说,P5-P8共同构成用于检测的检测特征金字塔。
相应地,P5-P8可具体为指定特征层,P4可具体为负责微小目标检测的目标特征层。即,在P5-P8上接anchor-free分支进行分类和回归的预测。分类支路可具体由K个通道的3*3卷积层构成,以获得特征图上每一点的K个类别的得分;回归支路则是由4个通道的3*3卷积层构成,获得特征图上每一点映射回原图后到达预测框四边的距离,从而确定目标位置。
在负责微小目标检测的P4特征层上,anchor-free和anchor-based两分支相结合,均进行分类和位置回归预测以提高网络对小目标的敏感性。对anchor-based分支延用SSD算法的方法,其中的位置回归预测分支可预先设定16*16的标准答案框;P4特征层对于anchor-free分支(即anchor-free算法)的分类和位置的预测方法可参见anchor-free算法本身的定义和应用。
需要说明的是,在利用目标检测模型对目标图像进行目标检测之前,还需要对目标检测模型进行设置和训练。即在获取待检测的目标图像之前,还包括:
步骤一、设置检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式;
步骤二、利用训练样本训练目标检测模型。
为便于描述,下面将上述两个步骤结合起来进行说明。
其中,感兴趣区域设置过程:按照[Sl/n2,Sl*n2]对检测特征金字塔中每一特征层设置感兴趣区域;其中P4层至P8层的Sl分别为322-5122,其中n为2。具体的,对每一特征层设定感兴趣区域,即在训练过程中,没有落到相应感兴趣区域内的目标则被忽略,其损失值不进行回传,具体对每一特征层感兴趣区域的设定如下:
[Sl/n2,Sl*n2];其中P4-P8的Sl分别是322-5122。其中n取2,使得感兴趣区域存在覆盖,部分目标在多层内进行检测,提升检测效果。
正负样本区域设置过程,包括:
步骤1、将标准答案框映射到每一特征层中,获得标准答案框的指定角点和中心点坐标;
步骤2、利用指定角点和中心点坐标确定每一特征层对应的特征图的正样本区域和负样本区域。
步骤2可具体包括:
步骤21、利用指定角点和中心点坐标计算获得标准答案框内的第一中心区域,并将每一特征层对应的特征图内第一中心区域作为正样本区域;
步骤22、利用指定角点和中心点坐标计算获得标准答案框内的第二中心区域,并将每一特征层对应的特征图第二中心区域外的区域作为负样本区域。
具体的,请参考图3,图3为本发明实施例中正负样本区域设置示意图。P5-P8特征层中正负样本区域的设定,可首先将标准答案框映射到每一特征层中,获得其角点(如左上角点和右下角点)和中心点坐标,然后利用该三点坐标值进行相应计算获得标准答案框内某一中心区域area1(即第一中心区域)作为正样本区域;同样利用映射到每一特征层的标准答案框关键的坐标(包括标准答案框的角点和中心点坐标)计算获得答案中心另一区域area2(即第二中心区域),在整个特征图中,除该区域外的其它区域则为负样本区域。其余区域为忽略区域,对忽略区域中的点不进行损失计算。
假设答案的角点坐标为(x1,y1,x2,y2),映射到特征层l的具体计算公式如下:
c'x=x′1+w'/2;c'y=y′1+h'/2;
area1区域计算如下,ε为预先设定的小于1的常数。
x″1=c'x-w'/2*ε;x″2=c'x+w'/2*ε;
y″1=c'y-h'/2*ε;y″2=c'y+h'/2*ε;
area2区域计算如下,σ为预先设定的小于1的常数,一般的σ>ε。
x″′1=c'x-w'/2*σ;x″′2=c'x+w'/2*σ;
y″′1=c'y-h'/2*σ;y″′2=c'y+h'/2*σ;
优选地,为了使两种算法更好的结合,对于P4层,对于感兴趣区域内的特征点在利用对应的位置回归支路获得的预测框与标准答案框的相似性大于预设阈值时,则确定为正样本;否则为负样本。即,对P4特征层中anchor-free分支的正负样本确定方法进行更改,即在该层无论是anchor-free还是anchor-based分支在感兴趣区域内的所有点通过其相应的位置回归支路获得的预测框与标准答案框的相似性其中A指代预测框,B指代标准答案框(AB指代框可相互替换),大于0.5时,则认为该点为正样本,其余均为负样本。
对于步骤二、目标检测模型的训练过程,包括:
步骤1、输入训练样本至目标检测模型,获得训练目标检测框;
步骤2、利用损失函数结合目标检测框与对应的标准答案框计算目标检测模型的损失值;其中,对分类支路均采用focal loss函数计算损失;对位置回归支路均采用IOUloss函数来计算损失;
步骤3、利用损失值对目标检测模型进行参数调整,直到目标检测模型收敛。
其中,损失计算方法在每一特征层中是一样的,无论是anchor-free支路还是anchor-based支路,为解决其正负样本的不均匀性,对其所接的分类支路均采用focalloss算法来计算损失;而为使预测位置更加准确,对位置回归支路均采用IOU loss算法来计算该部分损失。两种损失的计算公式如下:
FL(pt)=-αt(1-pt)γlog(pt);
训练至目标检测模型达到收敛条件时,则可结束训练,并利用训练好的目标检测模型对目标图像进行目标检测。其中收敛条件根据具体的检测精度要求进行设置,如当损失值小于预设值,或损失值不再明显变化。
具体的,目标检测模型对目标图像进行目标检测过程,包括:
步骤一、检测特征金字塔的P5层至P8层中的分类支路获得目标图像对应的特征图上每一点的类别得分;
步骤二、检测特征金字塔的P5层至P8层中的位置回归支路获得特征图上每一点映射回目标图像后到达标准答案框四边的距离,以确定检测图像中目标结果框的位置。
为便于描述,下面将上述两个步骤结合起来进行说明。
在本实施例中,可对同一目标图像进行多类目标的检测,因此目标检测模型在对目标图像件进行检测过程中,可对特征图中的每一点计算分类得分。具体的,类别的数量可大于等于1,当为1时,则仅检测目标图像中的一类目标,如人脸,当然类别数据大于1时,则可检测目标图像中的多类目标,如人脸、头肩、全人、非机动车、机动车、骑手等类别中的至少两种。当然,具体类别的数量以及种类可具体进行设置,并基于设置类别的数量和种类对应的训练样本对目标检测模型进行训练后便可对目标图像检测目标检测。
在确定检测特征金字塔的P5层至P8层中的位置回归支路获得特征图上每一点映射回目标图像后到达标准答案框四边的距离,以确定检测图像中目标结果框的位置。
举例说明,假设标准答案框的坐标为(x1,y1,x2,y2),特征层l上的每一点(x,y)映射回目标图像后到达标准答案框四边的距离计算如下:
其中,公式中的l即为特征层l。Left,top,right,bottom则分别表示每一点到标准答案框左,上,右,下四边的距离。
需要说明的是,在本文中仅针对与现有的检测过程存在区别的检测过程进行了描述,对于与现有的检测过程中相似和相同步骤(例如,对输入目标检测模型的目标图像进行大小进行归一化处理,具体如何提取目标图像的特征图,如何基于类别得分确定是否为某类目标等)则可参照现有的检测实现过程,在此不再一一赘述。
应用本发明实施例所提供的方法,获取待检测的目标图像;利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像;其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。
其中,有边框检测算法即anchor-based系列中的检测算法,无边框检测算法即anchor-free系列中的检测算法。在本方法中,采用融合了有边框检测算法和无边框检测算法的目标检测模型对目标图像进行目标检测,能够提高目标检测准确率。具体的,从目标检测模型的结构可见,经过目标检测模型的分类和回归等算法处理,既保留了无边框检测算法内存占用率小,又解决了无边框检测算法在没有任何先验知识指导的情况下,在整张目标图像范围内对形状变化巨大的锚框进行回归,特别是对较小目标锚框回归的困难,又弥补了有边框检测算法中由于锚框尺寸固定,对小目标的遗漏问题,最终实现了对不同尺度的目标进行高效且准确的检测。
为便于本领域技术人员更好地理解本发明实施例所提供的图像检测方法,下面结合具体的应用过程以及具体的应用场景为例,对图像检测方法进行详细说明。
在实际应用中,具体的应用实现过程,包括:
步骤1,搭建一个anchor-free和anchor-based相结合的网络结构;
步骤2,设置各特征层感兴趣区域及正负样本区域确定方式;
步骤3,根据各分支特点确定损失的计算方法。
步骤4,利用训练样本对模型进行训练;
步骤5、利用训练好的目标网络模型对目标图像进行目标检测,获得检测结果。
具体的,可构建如图2所示的RetinaNet网络结构,采用图中MobileNetv1作为该网络结构的backbone,从MobileNetv1中的conv4_1,conv5_5和conv6拉分支进行上采样来构造FPN结构P4,P5和P6,并在conv6后添加两层3*3的卷积层,并在这两个卷积层上采样来构建FPN结构P7和P8(图中未绘制和标注)。由P4-P8共同构成进行检测的检测特征金字塔;获得特征图后对每一层特征图进行检测。如图所示,在P5-P8上均连接anchor-free分支进行分类和位置回归的预测,而在P4上则接有anchor-free和anchor-based两个分支共同进行预测。分类和回归的预测则分别通过一个K通道的3*3卷积层和一个4通道的3*3卷积层实现。其中,anchor-based分支预先设定的锚框大小为16*16。
在P4-P8特征层上的anchor-free分支正负样本区域的定义如图3所示。首先将标准答案框映射到每一特征层中。通过计算获得其角点和中心点坐标如下:
h'=y'2-y′1;c'x=x′1+w'/2;c'y=y′1+h'/2;
然后利用该三点坐标值进行相应计算获得答案内某一中心区域area1作为正样本区域,图红色填充区域所示;计算公式如下:
x″1=c'x-w'/2*ε;x″2=c'x+w'/2*ε;y″1=c'y-h'/2*ε;y″2=c'y+h'/2*ε;
(x″1,y″1)和(x″2,y″2)分别代表area1区域左上角和右下角点坐标。同样利用映射到每一特征层的答案关键点坐标计算获得答案中心另一区域area2,如绿色矩形所示,角点计算公式如下:
x″′1=c'x-w'/2*σ;x″′2=c'x+w'/2*σ;y″′1=c'y-h'/2*σ;y″′2=c'y+h'/2*σ;
其中ε取0.3,σ取0.4。在整个特征图中,除area2区域外的其它区域则为负样本区域,即绿色填充区域。其余区域为忽略区域,对忽略区域中的点不进行损失计算。
电梯场景下的具体应用:
图4是将本发明实施例所提供的图像检测方法应用于电梯场景下的非机动车检测报警系统的检测结果。受限于电梯空间大小,由于近大远小的原因,电梯场景中所拍摄的图片(包括视频中的图像帧)中的目标尺寸相对较大。例如,从图4中可以看出在电梯场景下,目标尺寸较大。在该应用场景下,首先制作电梯场景样本集,并将该样本集放入目标检测模型中进行人脸、头肩、全人、非机动车和骑手5类的训练。输入图像大小为360*640,学习率为0.01,在迭代12万次、18万次和20万次时对学习率进行调整,经过30万次迭代后获得准确率为56.6%(现有的检测模型的准确率一般在40%左右)的目标检测模型,利用训练好的目标检测模型对电梯场景视频检测。检测结果截取如图4所示。
马路场景下的具体应用:
图5是将本发明实施例所提供的图像检测方法应用于马路场景下的检测结果。一般来说,马路场景下,图像采集范围相对较大,由于近大远小的原因,马路场景下所拍摄的图片(包括视频中的图像帧)中的目标尺寸相对较小。例如,在图5中,目标尺寸较小,特别是人脸目标。在该场景下,可利用公共样本集COCO、CrowdHuman、WIDER_PEDESTRIAN以及私有样本集进行人脸、头肩、全人、非机动车、三轮车、骑手、汽车、卡车、公交以及小公交10类的训练。同样可采用360*640大小的输入图像,学习率设为0.01,在迭代12万次、18万次和20万次时对学习率进行调整,经过30万次迭代后获得准确率为55.8%的目标检测模型,并对马路监控视频进行检测,检测结果截取如图5。
从两组检测结果图中可以看出,在两种场景下各类别均可准确的被检测,这说明无论目标是大是小,本发明实施例所提供的图像检测方法均能获得一个较好的检测结果,能够更加高效的对不同尺度的目标进行检测。
实施例二:
相应于上面的方法实施例,本发明实施例还提供了一种图像检测装置,下文描述的图像检测装置与上文描述的图像检测方法可相互对应参照。
参见图6所示,该装置包括以下模块:
目标图像获取模块101,用于获取待检测的目标图像;
目标检测模块102,用于利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像;
其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构成构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。
应用本发明实施例所提供的装置,获取待检测的目标图像;利用训练好的目标检测模型对目标图像进行目标检测,获得具有检测结果框的检测图像;其中,目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接无边框检测算法和有边框检测算法进行分类和回归预测。
其中,有边框检测算法即anchor-based系列中的检测算法,无边框检测算法即anchor-free系列中的检测算法。在本装置中,采用融合了有边框检测算法和无边框检测算法的目标检测模型对目标图像进行目标检测,能够提高目标检测准确率。具体的,从目标检测模型的结构可见,经过目标检测模型的分类和回归等算法处理,既保留了无边框检测算法内存占用率小,又解决了无边框检测算法在没有任何先验知识指导的情况下,在整张目标图像范围内对形状变化巨大的锚框进行回归,特别是对较小目标锚框回归的困难,又弥补了有边框检测算法中由于锚框尺寸固定,对小目标的遗漏问题,最终实现了对不同尺度的目标进行高效且准确的检测。
优选地,其中,指定卷积层拉分支进行上采样为检测特征金字塔的P4至P6层,目标卷积层后添加的两层卷积层结构并进行上采样构成检测特征金字塔的P7层和P8层,负责微小目标检测的目标特征层为P4层;
目标检测模块102,具体用于检测特征金字塔的P5至P8层中的分类支路获得目标图像对应的特征图上每一点的类别得分;检测特征金字塔的P5至P8层中的位置回归支路获得特征图上每一点映射回目标图像后到达标准答案框四边的距离,以确定检测图像中目标结果框的位置。
优选地,还包括:
检测特征金字塔设置模块,用于在获取待检测的目标图像之前,设置检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式;
目标检测模型训练模块,用于利用训练样本训练目标检测模型。
优选地,检测特征金字塔设置模块,具体用于按照[Sl/n2,Sl*n2]对检测特征金字塔中每一特征层设置感兴趣区域;其中P4层至P8层的Sl分别为322-5122,其中n为2;将标准答案框映射到每一特征层中,获得标准答案框的指定角点和中心点坐标;利用指定角点和中心点坐标确定每一特征层对应的特征图的正样本区域和负样本区域。
优选地,检测特征金字塔设置模块,具体用于利用指定角点和中心点坐标计算获得标准答案框内的第一中心区域,并将每一特征层对应的特征图内第一中心区域作为正样本区域;利用指定角点和中心点坐标计算获得标准答案框内的第二中心区域,并将每一特征层对应的特征图第二中心区域外的区域作为负样本区域。
优选地,检测特征金字塔设置模块,具体用于对于P4层,对于感兴趣区域内的特征点在利用对应的位置回归支路获得的预测框与标准答案框的相似性大于预设阈值时,则确定为正样本;否则为负样本。
优选地,目标检测模型训练模块,具体用于输入训练样本至目标检测模型,获得训练目标检测框;利用损失函数结合目标检测框与对应的标准答案框计算目标检测模型的损失值;其中,对分类支路均采用focal loss函数计算损失;对位置回归支路均采用IOU loss函数来计算损失;利用损失值对目标检测模型进行参数调整,直到目标检测模型收敛。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种图像检测设备,下文描述的一种图像检测设备与上文描述的一种图像检测方法可相互对应参照。
参见图7所示,该图像检测设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的图像检测方法的步骤。
具体的,请参考图8,为本实施例提供的一种图像检测设备的具体结构示意图,该图像检测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在图像检测设备301上执行存储介质330中的一系列指令操作。
图像检测设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的图像检测方法中的步骤可以由图像检测设备的结构实现。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种图像检测方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的图像检测方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (10)
1.一种图像检测方法,其特征在于,包括:
获取待检测的目标图像;
利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像;
其中,所述目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构建检测特征金字塔;所述检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接所述无边框检测算法和有边框检测算法进行分类和回归预测。
2.根据权利要求1所述的图像检测方法,其特征在于,其中,所述指定卷积层拉分支进行上采样为所述检测特征金字塔的P4至P6层,所述目标卷积层后添加的两层所述卷积层结构并进行上采样构成所述检测特征金字塔的P7层和P8层,所述负责微小目标检测的目标特征层为P4层;所述利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像,包括:
所述检测特征金字塔的P5至P8层中的分类支路获得所述目标图像对应的特征图上每一点的类别得分;
所述检测特征金字塔的P5至P8层中的位置回归支路获得所述特征图上每一点映射回所述目标图像后到达标准答案框四边的距离,以确定所述检测图像中所述目标结果框的位置。
3.根据权利要求2所述的图像检测方法,其特征在于,在所述获取待检测的目标图像之前,还包括:
设置所述检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式;
利用训练样本训练所述目标检测模型。
4.根据权利要求2所述的图像检测方法,其特征在于,设置所述检测特征金字塔中每一个特征层分别对应的感兴趣区域和正负样本区域确定方式,包括:
按照[Sl/n2,Sl*n2]对所述检测特征金字塔中每一特征层设置感兴趣区域;其中P4层至P8层的Sl分别为322-5122,其中n为2;
将标准答案框映射到每一所述特征层中,获得所述标准答案框的指定角点和中心点坐标;
利用所述指定角点和所述中心点坐标确定每一所述特征层对应的特征图的正样本区域和负样本区域。
5.根据权利要求4所述的图像检测方法,其特征在于,利用所述指定角点和所述中心点坐标确定每一特征层对应的所述特征图的正样本区域和负样本区域,包括:
利用所述指定角点和所述中心点坐标计算获得所述标准答案框内的第一中心区域,并将每一特征层对应的特征图内所述第一中心区域作为正样本区域;
利用所述指定角点和所述中心点坐标计算获得所述标准答案框内的第二中心区域,并将每一特征层对应的特征图所述第二中心区域外的区域作为负样本区域。
6.根据权利要求4所述的图像检测方法,其特征在于,利用所述指定角点和所述中心点坐标确定每一特征层对应的所述特征图的正样本区域和负样本区域,包括:
对于P4层,对于感兴趣区域内的特征点在利用对应的位置回归支路获得的预测框与标准答案框的相似性大于预设阈值时,则确定为正样本;否则为负样本。
7.根据权利要求4所述的图像检测方法,其特征在于,所述利用训练样本训练所述目标检测模型,包括:
输入训练样本至所述目标检测模型,获得训练目标检测框;
利用损失函数结合所述目标检测框与对应的所述标准答案框计算所述目标检测模型的损失值;其中,对分类支路均采用focal loss函数计算损失;对位置回归支路均采用IOUloss函数来计算损失;
利用所述损失值对所述目标检测模型进行参数调整,直到所述目标检测模型收敛。
8.一种图像检测装置,其特征在于,包括:
目标图像获取模块,用于获取待检测的目标图像;
目标检测模块,用于利用训练好的目标检测模型对所述目标图像进行目标检测,获得具有检测结果框的检测图像;
其中,所述目标检测模型以视觉神经网络为框架,在指定卷积层拉分支进行上采样,在目标卷积层后添加两层卷积层结构并进行上采样构成构建所述检测特征金字塔;所述检测特征金字塔中的指定特征层均接无边框检测算法进行分类和回归的预测;负责微小目标检测的目标特征层接所述无边框检测算法和有边框检测算法进行分类和回归预测。
9.一种图像检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述图像检测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911384402.5A CN111126399B (zh) | 2019-12-28 | 2019-12-28 | 一种图像检测方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911384402.5A CN111126399B (zh) | 2019-12-28 | 2019-12-28 | 一种图像检测方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126399A true CN111126399A (zh) | 2020-05-08 |
CN111126399B CN111126399B (zh) | 2022-07-26 |
Family
ID=70505748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911384402.5A Active CN111126399B (zh) | 2019-12-28 | 2019-12-28 | 一种图像检测方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126399B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815576A (zh) * | 2020-06-23 | 2020-10-23 | 深圳供电局有限公司 | 金属部件腐蚀状况检测方法、装置、设备和存储介质 |
CN111985439A (zh) * | 2020-08-31 | 2020-11-24 | 中移(杭州)信息技术有限公司 | 人脸检测方法、装置、设备和存储介质 |
CN112016503A (zh) * | 2020-09-04 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 人行道检测方法、装置、计算机设备及存储介质 |
CN112085018A (zh) * | 2020-08-27 | 2020-12-15 | 南京佑驾科技有限公司 | 基于神经网络的车牌识别系统 |
CN112200163A (zh) * | 2020-12-03 | 2021-01-08 | 中国科学院自动化研究所 | 水下底栖生物检测方法及系统 |
CN112257692A (zh) * | 2020-12-22 | 2021-01-22 | 湖北亿咖通科技有限公司 | 一种行人目标的检测方法、电子设备及存储介质 |
CN112381092A (zh) * | 2020-11-20 | 2021-02-19 | 深圳力维智联技术有限公司 | 跟踪方法、装置及计算机可读存储介质 |
CN112528701A (zh) * | 2020-12-15 | 2021-03-19 | 平安科技(深圳)有限公司 | 二维码检测方法、装置、电子设备及介质 |
CN112580509A (zh) * | 2020-12-18 | 2021-03-30 | 中国民用航空总局第二研究所 | 逻辑推理式道面检测方法及系统 |
CN112733671A (zh) * | 2020-12-31 | 2021-04-30 | 新大陆数字技术股份有限公司 | 行人检测方法、装置及可读存储介质 |
CN112950703A (zh) * | 2021-03-11 | 2021-06-11 | 江苏禹空间科技有限公司 | 小目标的检测方法、装置、存储介质及设备 |
CN113160128A (zh) * | 2021-03-03 | 2021-07-23 | 合肥图迅电子科技有限公司 | 用于led的缺陷检测方法以及存储介质 |
WO2021227366A1 (zh) * | 2020-05-14 | 2021-11-18 | 华南理工大学 | 一种多个小目标的自动准确检测方法 |
CN114648685A (zh) * | 2022-03-23 | 2022-06-21 | 成都臻识科技发展有限公司 | 一种anchor-free算法转换为anchor-based算法的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388879A (zh) * | 2018-03-15 | 2018-08-10 | 斑马网络技术有限公司 | 目标的检测方法、装置和存储介质 |
CN110321923A (zh) * | 2019-05-10 | 2019-10-11 | 上海大学 | 不同尺度感受野特征层融合的目标检测方法、系统及介质 |
-
2019
- 2019-12-28 CN CN201911384402.5A patent/CN111126399B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388879A (zh) * | 2018-03-15 | 2018-08-10 | 斑马网络技术有限公司 | 目标的检测方法、装置和存储介质 |
CN110321923A (zh) * | 2019-05-10 | 2019-10-11 | 上海大学 | 不同尺度感受野特征层融合的目标检测方法、系统及介质 |
Non-Patent Citations (2)
Title |
---|
CHENCHEN ZHU等: "Feature Selective Anchor-Free Module for Single-Shot Object Detection", 《ARXIV数据库》 * |
TSUNG-YI LIN等: "Focal Loss for Dense Object Detection", 《ARXIV数据库》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021227366A1 (zh) * | 2020-05-14 | 2021-11-18 | 华南理工大学 | 一种多个小目标的自动准确检测方法 |
CN111815576B (zh) * | 2020-06-23 | 2024-01-19 | 深圳供电局有限公司 | 金属部件腐蚀状况检测方法、装置、设备和存储介质 |
CN111815576A (zh) * | 2020-06-23 | 2020-10-23 | 深圳供电局有限公司 | 金属部件腐蚀状况检测方法、装置、设备和存储介质 |
CN112085018A (zh) * | 2020-08-27 | 2020-12-15 | 南京佑驾科技有限公司 | 基于神经网络的车牌识别系统 |
CN111985439A (zh) * | 2020-08-31 | 2020-11-24 | 中移(杭州)信息技术有限公司 | 人脸检测方法、装置、设备和存储介质 |
CN112016503B (zh) * | 2020-09-04 | 2024-01-23 | 平安国际智慧城市科技股份有限公司 | 人行道检测方法、装置、计算机设备及存储介质 |
CN112016503A (zh) * | 2020-09-04 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 人行道检测方法、装置、计算机设备及存储介质 |
CN112381092A (zh) * | 2020-11-20 | 2021-02-19 | 深圳力维智联技术有限公司 | 跟踪方法、装置及计算机可读存储介质 |
CN112200163A (zh) * | 2020-12-03 | 2021-01-08 | 中国科学院自动化研究所 | 水下底栖生物检测方法及系统 |
CN112200163B (zh) * | 2020-12-03 | 2021-06-25 | 中国科学院自动化研究所 | 水下底栖生物检测方法及系统 |
CN112528701A (zh) * | 2020-12-15 | 2021-03-19 | 平安科技(深圳)有限公司 | 二维码检测方法、装置、电子设备及介质 |
CN112528701B (zh) * | 2020-12-15 | 2022-09-20 | 平安科技(深圳)有限公司 | 二维码检测方法、装置、电子设备及介质 |
CN112580509A (zh) * | 2020-12-18 | 2021-03-30 | 中国民用航空总局第二研究所 | 逻辑推理式道面检测方法及系统 |
CN112580509B (zh) * | 2020-12-18 | 2022-04-15 | 中国民用航空总局第二研究所 | 逻辑推理式道面检测方法及系统 |
CN112257692A (zh) * | 2020-12-22 | 2021-01-22 | 湖北亿咖通科技有限公司 | 一种行人目标的检测方法、电子设备及存储介质 |
CN112257692B (zh) * | 2020-12-22 | 2021-03-12 | 湖北亿咖通科技有限公司 | 一种行人目标的检测方法、电子设备及存储介质 |
CN112733671A (zh) * | 2020-12-31 | 2021-04-30 | 新大陆数字技术股份有限公司 | 行人检测方法、装置及可读存储介质 |
CN113160128A (zh) * | 2021-03-03 | 2021-07-23 | 合肥图迅电子科技有限公司 | 用于led的缺陷检测方法以及存储介质 |
CN112950703A (zh) * | 2021-03-11 | 2021-06-11 | 江苏禹空间科技有限公司 | 小目标的检测方法、装置、存储介质及设备 |
CN112950703B (zh) * | 2021-03-11 | 2024-01-19 | 无锡禹空间智能科技有限公司 | 小目标的检测方法、装置、存储介质及设备 |
CN114648685A (zh) * | 2022-03-23 | 2022-06-21 | 成都臻识科技发展有限公司 | 一种anchor-free算法转换为anchor-based算法的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111126399B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126399B (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN108256431B (zh) | 一种手部位置标识方法及装置 | |
CN109598794B (zh) | 三维gis动态模型的构建方法 | |
CN110458165B (zh) | 一种引入注意力机制的自然场景文本检测方法 | |
CN111091023B (zh) | 一种车辆检测方法、装置及电子设备 | |
CN107220603A (zh) | 基于深度学习的车辆检测方法及装置 | |
CN108288047A (zh) | 一种行人/车辆检测方法 | |
CN111292366B (zh) | 一种基于深度学习和边缘计算的视觉行车测距算法 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
CN114089330B (zh) | 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法 | |
CN113284144B (zh) | 一种基于无人机的隧道检测方法及装置 | |
CN109558790B (zh) | 一种行人目标检测方法、装置及系统 | |
CN111738114A (zh) | 基于无锚点精确采样遥感图像车辆目标检测方法 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
Li et al. | Vehicle object detection based on rgb-camera and radar sensor fusion | |
CN112699748B (zh) | 基于yolo及rgb图像的人车距离估计方法 | |
CN112001453B (zh) | 一种视频事件检测算法的准确率计算方法及装置 | |
CN113920254A (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN114140659A (zh) | 一种基于无人机视角下人体检测的社交距离监控方法 | |
CN113790711A (zh) | 一种无人机低空飞行位姿无控多视测量方法及存储介质 | |
CN110910450A (zh) | 一种基于混合特征感知神经网络进行3d目标检测的方法 | |
CN113870412A (zh) | 一种航空场景图像的处理方法、装置以及电子设备 | |
WO2022217551A1 (zh) | 目标检测方法和装置 | |
CN117593674B (zh) | 一种轻量级无人机航拍目标实时检测方法 | |
Fan et al. | Pose recognition for dense vehicles under complex street scenario |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |