CN111723860A - 一种目标检测方法及装置 - Google Patents

一种目标检测方法及装置 Download PDF

Info

Publication number
CN111723860A
CN111723860A CN202010553786.5A CN202010553786A CN111723860A CN 111723860 A CN111723860 A CN 111723860A CN 202010553786 A CN202010553786 A CN 202010553786A CN 111723860 A CN111723860 A CN 111723860A
Authority
CN
China
Prior art keywords
target
detection
image
mask
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010553786.5A
Other languages
English (en)
Other versions
CN111723860B (zh
Inventor
汪明明
唐诗尧
刘澍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202010553786.5A priority Critical patent/CN111723860B/zh
Publication of CN111723860A publication Critical patent/CN111723860A/zh
Priority to PCT/CN2021/098734 priority patent/WO2021254205A1/zh
Application granted granted Critical
Publication of CN111723860B publication Critical patent/CN111723860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种目标检测方法及装置,属于图像检测与识别技术领域,方法包括:获取待检测图像中的至少一个目标对象对应的目标掩膜;使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像;将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。本发明能够解决现有的相应监控场景下目标检测算法对环境依赖性问题以及复杂场景的误检问题。

Description

一种目标检测方法及装置
技术领域
本发明涉及图像检测与识别技术领域,尤其涉及一种目标检测方法及装置。
背景技术
随着消费升级的趋势不断深化,人们对于购物体验的要求也更加多元化、精细化,期望在购物全流程能够得到更方便快捷的购物体验,由此通过相应的监控场景来提供智能化的零售服务,通过全场景摄像头的覆盖和计算机视觉技术进行目标检测,从而获取用户的轨迹和购物行为,实现实时地进行商品结算。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前主流的目标检测方法是基于深度学习的方法,优点是可以得到比较好的检测效果,但是由于深度学习目标检测方法对场景的依赖性,当更换场景时候会产生效果不好的问题。此外,由于相应监控场景的复杂化,单一的深度学习目标检测算法并不能很好地解决复杂场景中的误检问题,这样会导致相应监控场景后期的跟踪以及购物行为的错误分析,从而会影响最后的商品结算。
发明内容
本发明提供一种目标检测方法及装置,以解决现有的相应监控场景下目标检测算法对环境依赖性问题以及复杂场景的误检问题。
本发明实施例提供的具体技术方案如下:
第一方面,提供了一种目标检测方法,所述方法包括:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
使用所述目标掩膜对所述待检测图像进行掩膜,获得去除背景的掩膜图像;
将所述掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一所述目标对象的最终检测结果。
第二方面,提供了一种目标检测方法,所述方法包括:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
将所述待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一所述目标对象的有效候选框;
使用所述目标掩膜对每一所述目标对象的有效候选框进行验证,获得每一所述目标对象的最终检测结果。
第三方面,提供了一种目标检测装置,所述装置包括:
第一获取模块,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
第二获取模块,用于使用所述目标掩膜对所述待检测图像进行掩膜,获得去除背景的掩膜图像;
目标检测模块,用于将所述掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块,用于对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一所述目标对象的最终检测结果。
第四方面,提供了一种目标检测装置,所述装置包括:
获取模块,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
目标检测模块,用于将所述待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块,用于对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一所述目标对象的有效候选框;
验证模块,用于使用所述目标掩膜对每一所述目标对象的有效候选框进行验证,获得每一所述目标对象的最终检测结果。
第五方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第二方面任一所述的目标检测方法。
第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第二方面任一所述的目标检测方法。
本发明提供的技术方案至少具有如下有益效果:
本发明实施例提供一种目标检测方法及装置,通过使用预先训练好的目标检测模型对去除背景的掩膜图像进行目标检测,相比于现有技术,很大程度上解决了深度学习算法对环境的依赖性,提高了目标检测算法的鲁棒性,减少了复杂场景的目标误检,提高了目标检测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的目标检测方法的流程图;
图2为图1中所示步骤103中的目标检测模型的训练流程图;
图3为本发明实施例二提供的目标检测方法的流程图;
图4为图3中所示步骤302中的目标检测模型的训练流程图;
图5为本发明实施例三提供的目标检测装置的结构图;
图6为本发明实施例四提供的目标检测装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
此外,在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
如背景技术所述,目前主流的目标检测方法是基于深度学习的方法,由于深度学习目标检测方法对场景的依赖性,当更换场景时候会产生效果不好的问题,此外,由于相应监控场景的复杂化,单一的深度学习目标检测算法并不能很好地解决复杂场景中的误检问题,这样会导致目标检测出现误检。为此,本发明实施例提供一种目标检测方法,该方法可以应用于诸如人体跟踪、人货交互等监控场景中,通过获取图片中的目标对象对应的目标掩模,并将目标掩膜结合基于深度学习的目标检测算法,应用在较为复杂的监控场景中,可以很大程度上减少了复杂场景下目标的误检问题,得到较好的目标检测效果,而且在环境变化的情况下也具有较好的鲁棒性。
实施例一
本发明实施例提供了一种目标检测方法,以该方法应用于目标检测装置中来举例说明,该装置可以被配置于任一计算机设备中,以使该计算机设备可以执行目标检测方法。参照图1所示,该方法可以包括步骤:
101,获取待检测图像中的至少一个目标对象对应的目标掩膜。
其中,可以从监控摄像机拍摄的监控场景视频中抽取待检测图像,监控场景视频是在监控场景下通过全场景摄像头拍摄得到的视频。可以每隔一预设时间从监控场景视频中抽取待检测图像,也可以是在监测到监控场景中出现移动目标时触发从监控场景视频中抽取待检测图像。其中,待检测图像包含至少一个目标对象和背景,对监控购物场景来说,待检测图像中的目标对象具体为人物对象。
在一个示例中,步骤101的实现过程可以包括步骤:
1011,对待检测图像与背景图像进行差分处理。
其中,背景图像可以是对不包含目标对象的监控场景进行拍摄得到的图像,背景图像与待检测图像可以均是RGB图像或均是RGB-D图像。
具体地,可以采用如下公式(1)对待检测图像R(x,y)与背景图像G(x,y)进行对应位置的像素值比对:
Figure BDA0002543499630000051
1012,将差分处理后的待检测图像转换为灰度图,并在灰度图上使用区域生成算法,生成去除背景的初始掩膜。
其中,在差分处理后的待检测图像的灰度图上使用区域生长算法可以得到目标对象的候选区域,具体步骤如下:
设定区域生长阈值th_grow限制区域生长以及截止条件,Flag数组标志该像素是否被访问。使用八连通生长方式,从左到右遍历像素,若满足下式(2):
Flag(x,y)≠0 (2)
则该像素没有被生长,计算下一个生长点,若满足下式(3):
|Mask(x±1,y±1)-Mask(x,y)|<thgrow (3)
当前生长点与下一个生长点的差值小于阈值,则置下一个点为生长点,从下一个开始生长,置:
Flag(x,y)=1 (4)
否则,这个方向的生长截止,依次类推,直至所有标志位都被置为1,生长结束。
1013,对初始掩膜中的连通域面积低于面积阈值的区域进行滤除,得到目标掩膜。
其中,面积阈值可以根据实际需要进行设定。
本实施例中,通过对初始掩膜中的连通域面积低于面积阈值的区域进行滤除,有利于提高后续目标检测的准确性。
102,使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像。
具体地,将目标掩膜与待检测图像进行对应位置的像素值之间的位与运算,获得去除背景的掩膜图像。
其中,获得去除背景的掩膜图像,即生成实例掩膜,实现了实例分割。
103,将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度。
其中,预先训练好的目标检测模型为预先对多个样本掩膜图像进行训练得到的。样本掩膜图像可以是通过对存在目标对象的监控场景进行拍摄得到场景图像,并对场景图像进行掩膜处理而得到的。
其中,某个候选框的置信度用于指示该候选框属于某个类别的概率。
具体地,对去除背景的掩膜图像进行预处理,包括:减去均值归一化,并缩放成的预设尺寸(例如512*320)的图像;以预处理后的掩膜图像作为目标检测模型的输入图像,由目标检测模型生成输入图像中的每一个目标对象的特征图,在各个特征图中的每个锚点上输出多个检测框,并对每个检测框进行前向推理,得到每个检测框的位置、类别以及置信度,形成每一目标对象的检测结果。
104,对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。
具体地,针对每一检测结果执行如下操作:根据非极大抑制算法NMS过滤掉该检测结果中的置信度低于预设的置信度阈值的候选框,对剩余候选框按照置信度由高至低的顺序进行排序,选定排序结果中置信度最高的候选框,遍历排序结果中其余的候选框,如果当前遍历到的候选框和置信度最高的候选框的并交比(IOU,即两个候选框的交集与并集之间的比值)大于预设的阈值,则将当前遍历到的候选框进行删除,并将保留的候选框作为目标对象的目标框。
其中,非极大抑制算法如下公式(5):
Figure BDA0002543499630000071
其中,conf为候选框的置信度,ovr为当前遍历到的候选框和置信度最高的候选框的并交比iou的阈值。
此外,还可以根据改进的NMS算法对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果,其中,改进的NMS算法可以是soft-NMS或Softer-NMS。
在一个示例中,为了进一步提高目标检测的准确性,在步骤104执行之后,方法还可以包括:
使用目标掩膜对每一目标对象的最终检测结果中的目标框进行验证。
具体地,该过程可以包括:
a,对每一目标对象的目标框与目标掩膜的每一连通域进行映射。
具体地,对目标掩膜中的所有连通域进行标号,对各个目标对象的目标框与目标掩膜中标号后的各个连通域进行位置映射,即将各个目标对象的目标框映射到目标掩膜中标号后的各个连通域上。
在实际应用中,一个连通域所映射的目标框的数量可以是一个或多个,一个目标框所映射的连通域的数量可以是一个或多个。
b,根据每一目标框所映射的连通域的面积,对每一目标框进行过滤处理,确定最终的目标框。
具体地,针对每一个目标框行如下操作:
确定该目标框所映射的连通域的数量和连通域的面积;
若该目标框仅映射有一个连通域,且所映射的连通域的面积大于预设连通域面积阈值,则将该目标框与所映射的连通域的标号进行绑定,否则,则过滤掉该目标框;
若该目标框所映射的连通域的数量为多个,且多个连通域中的面积最大的连通域的面积大于预设连通域面积阈值,则将该目标框与所映射的面积最大的连通域的标号进行绑定,否则,则过滤掉该目标框;
根据针对每一个目标框执行的操作结果,确定最终的目标框。
其中,可以采用如下步骤确定目标掩膜中的连通域的面积,包括:
设定label=0为连通域的标记,flag=0来标记该像素是否被搜索,从左到右遍历目标掩模中的每一个像素,若遍历到的像素满足下式(6):
Mask(x,y)>0 and flag=0 (6)
则flag=1标记为搜索过该像素。以该像素点作为种子点遍历该位置的四周所有与其相邻的像素点,若相邻的像素点与该种子点连通,则将其存入一个堆栈中并标记该点的标签和种子点相同的标签,并且flag=1。然后从堆栈中取出元素查看其四领域,将与其相通的像素点存入堆栈中,下一次继续从堆栈中取出点并遍历四周,如此循环直至堆栈为空,说明已经遍历完与种子点相连通的部分,label++,然后继续从左到右遍历直至遍历完整个目标掩模,最后统计相同label的像素个数即为每个连通域的面积。
c,针对每一最终的目标框,当最终的目标框仅映射一个连通域时,则将最终的目标框的面积与其映射的连通域的外切矩形的面积进行比对,根据比对结果,对最终的目标框的位置进行调整。
其中,针对每一最终的目标框,判断该最终的目标框所映射的连通域是否只有一个,若是,则对该最终的目标框的位置进行调整。而当多个最终的目标框所映射的连通域为同一个时,则无需对该多个最终的目标框进行位置调整。
具体地,根据最终的目标框的位置,计算得到最终的目标框的面积,确定最终的目标框所映射的连通域的外切矩形的位置,并计算得到该连通域的外切矩形的面积,对最终的目标框的面积与其映射的连通域的外切矩形的面积进行比对。
其中,可以采用如下步骤确定连通域的外切矩形的位置,包括:
遍历相同label的像素点,将相同label的像素点的x和y分别进行排序,其中(Xm,Ym)为外切矩形中心点坐标,(Wm,Hm)为外切矩形的高和宽,连通域内最小的x为xmin,最大的x为xmax,最小的y为ymin,最大的y为ymax,则可以通过如下公式(7)确定连通域的外切矩形的位置:
Figure BDA0002543499630000091
其中,根据比对结果,对最终的目标框的位置进行调整,该过程包括:
若比对结果指示最终的目标框的面积大于其映射的连通域的外切矩形的面积,则根据最终的目标框与其映射的连通域的外切矩形之间的交集,对最终的目标框的位置进行调整;
若比对结果指示最终的目标框的面积小于其映射的连通域的外切矩形的面积,则根据最终的目标框与其映射的连通域的外切矩形之间的并集,对最终的目标框的位置进行调整。
本实施例中,当一个最终的目标框所映射的连通域只有一个时,该最终的目标框的面积与所映射的连通域的外切矩形的面积可能相同,一种情况是:最终的目标框的面积大于其所映射的连通域的外切矩形的面积,说明目标对象被环境遮挡一部分后而导致检测到的目标框(即最终的目标框)过大,此种情况可以将目标框所映射的连通域的外切矩形与目标框进行取交集,来调整目标框的位置;另一种情况是:最终的目标框的面积小于其所映射的连通域的外切矩形的面积,说明检测结果可能对目标对象的部位(例如人手的部位)有截断而导致检测到的目标框(即最终的目标框)过小,此种情况可以将目标框所映射的连通域的外切矩形与目标框进行取并集,来调整目标框的位置。应当理解的是,除采用交集或并集之外,还可以采用其他方式进行调整目标框的位置,本发明对此不作具体限定。
本发明实施例提供一种目标检测方法,通过获取待检测图像中的至少一个目标对象对应的目标掩膜;使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像;将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。相比于现有技术,本发明通过使用预先训练好的目标检测模型对去除背景的掩膜图像进行目标检测,很大程度上解决了深度学习算法对环境的依赖性,提高了目标检测算法的鲁棒性,减少了复杂场景的目标误检,提高了目标检测的准确性。
参照图2所示,上述步骤103中的目标检测模型可以通过如下方式训练得到,包括步骤:
201,对样本视频的每一帧图像进行掩膜,获得去除背景的多个样本掩膜图像。
具体地,针对样本视频中的每一帧图像执行如下操作:
获取该图像中的至少一个目标对象对应的目标掩膜,使用目标掩膜对待检测图像进行掩膜,获得去除背景的样本掩膜图像。
其中,样本掩膜图像的获取过程可参照步骤101至步骤102,此处不再赘述。
202,对每一样本掩膜图像进行预处理得到训练样本集,其中,训练样本集中的训练样本包括样本图像和样本图像的标注信息。
具体地,步骤202的实现过程可以包括步骤:
2021,对每一样本掩膜图像进行归一化处理,并对归一化处理后的每一样本掩膜图像进行样本增强,获得多个样本图像。
其中,可以按照公式(8)对每一样本掩膜图像进行减去均值归一化处理。
Figure BDA0002543499630000111
在具体实施时,样本增强可以包括对样本掩膜图像进行缩放成多种不同尺寸的图像,还可以包括对各种不同尺寸图像进行翻转、镜像以及图像旋转等。
本实施例中,通过对样本掩膜图像进行预处理,能够将样本图像变得更为自然,目标特征更为明显,从而更加便于模型训练;此外,对样本掩膜图像进行样本增强,这样无需单独采集大量训练数据集,即可以生成多种数据样本,能够提高模型识别泛化能力和鲁棒性。
2022,获取每一样本图像的标记信息,其中,标记信息包括样本图像中的样本目标对象对应的位置和类别。
具体地,获取以人工标注方式对每一样本图像进行位置和类别的标记信息。
其中,样本图像的标注信息具体可以包含如下几个参数:样本图像id、目标对象在样本图像中的空间起始横坐标x、目标对象在样本图像中的空间起始纵坐标y、目标对象在样本图像中的区域宽度w、目标对象在样本图像中的区域高度h以及目标对象的具体类别type。
2023,根据每一样本图像和对应的标注信息,生成训练样本集。
203,对训练样本集划分为训练集和测试集,将训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型。
其中,可以对训练样本集按照预设比例(例如3:1)划分为训练集和测试集。训练集用于训练初始网络模型并确定初始网络模型中的参数,测试集用于测试训练得到的目标检测模型的模型能力。
其中,初始网络模型包括权重初始化后的基础卷积神经网络和目标检测网络。在实际应用中,可以使用在COCO数据集上训练的网络权重初始化基础卷积神经网络的权重和目标检测网络的权重,得到初始网络模型。
其中,步骤203中将训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型,该过程可以包括步骤:
2031,通过权重初始化后的基础卷积神经网络生成输入的样本图像的特征图。
其中,基础卷积神经网络可以采用Mobilenetv1网络框架。具体来说,Mobilenetv1使用深度可分离卷积替代传统卷积的基础神经网络,而深度可分离卷积针对每个输入通道采用不同的卷积核进行提取特征图,即一个卷积核仅对一个通道进行卷积,因此M个通道共有M个卷积核,一个卷积核对应一个通道,相比较传统卷积,深度可分离卷积能够减少地提高卷积计算量。
2032,通过权重初始化后的目标检测网络在特征图中的每个锚点上输出多个检测框,并对每个检测框进行前向推理,得到每个检测框的位置、类别以及置信度。
其中,目标检测网络采用诸如YOLO、Fast-RCNN、FRCNN或MaskRCNN网络,优选地,本实施例中的检测网络采用YOLOv3网络,通过YOLOv3检测网络中的池化层对特征图进行16倍及32倍降采样,在降采样后的特征图中的每个锚点上选取3种不同长宽比的候选框,通过前向推理得到每个候选框的置信度、位置和类别,其中,一个检测框的位置包括该检测框在待检测图像中的空间起始横坐标x、空间起始纵坐标y、区域宽度w、区域高度h以及具体类别type。
本实施例中,通过使用MobileNet-YOLOv3的网络结构能够在保证目标检测精度的情况下获得更快的处理速度。
2033,将每个检测框的位置和类别与样本图像的标注信息中样本目标的位置和类别进行误差计算,得到每个检测框的位置损失值和类别损失值。
具体地,根据每个检测框的位置与样本目标的位置,获取每个检测框对应的位置偏移量,根据每个检测框对应的位置偏移量,计算出每个检测框的位置的平方差损失loss(x,y,w,h);根据每个检测框的类别与样本目标的类别,获取每个检测框的类别的二元交叉熵损失loss(p)。
2034,根据每个检测框的位置损失值、类别损失值与置信度,计算模型损失值。
具体地,可以采用如下公式(9)计算模型损失值:
Loss(object)=loss(x,y,w,h)+loss(C)+loss(p) (9)
其中,loss(x,y,w,h)为检测框位置的平方差损失,loss(C)和loss(p)为检测框的置信度以及类别的二元交叉熵损失。
2035,根据模型损失值对初始网络模型进行优化,并通过反向传播更新初始网络模型中的权重,以训练得到目标检测模型。
具体地,根据模型损失值对初始网络模型的参数进行优化,并重新进入步骤2031至步骤2035,通过反复优化迭代,直至损失函数收敛时结束训练,即得到训练好的目标检测模型。其中,可以采用梯度下降法(SGD)优化初始网络模型中的模型参数,以最小化预测结果与实际结果的差值。
204,将测试集输入至目标检测模型进行测试得到测试值,当测试值满足预设要求时,目标检测模型完成训练。
具体地,将测试集输入至目标检测模型进行测试得到测试值,若测试值小于预设阈值,则使用训练集对目标检测模型进行继续训练,若测试值大于预设阈值,则表明目标检测模型完成训练。
实施例二
本发明实施例提供了一种目标检测方法,以该方法应用于目标检测装置中来举例说明,该装置可以应用于任一计算机设备中,以使该计算机设备可以执行目标检测方法。参照图3所示,该方法可以包括步骤:
301,获取待检测图像中的至少一个目标对象对应的目标掩膜。
其中,可以从监控摄像机拍摄的监控场景视频中抽取待检测图像,监控场景视频是在监控场景下通过全场景摄像头拍摄到的视频。可以每隔一预设时间从监控场景视频中抽取待检测图像,也可以是在监测到监控场景中出现移动目标时触发从监控场景视频中抽取待检测图像。其中,待检测图像中包含至少一个目标对象和背景,对监控购物场景来说,待检测图像中的目标对象具体为人物对象。
在一个示例中,步骤301的实现过程可以包括步骤:
3011,对待检测图像与背景图像进行差分处理。
具体地,步骤3011的实现过程可以参照步骤1011,此处不再赘述。
3012,将差分处理后的待检测图像转换为灰度图,并在灰度图上使用区域生成算法,生成去除背景的初始掩膜。
具体地,步骤3012的实现过程可以参照步骤1012,此处不再赘述。
3013,对初始掩膜中的连通域面积低于第一阈值的区域进行滤除,得到目标掩膜。
具体地,步骤3013的实现过程可以参照步骤1013,此处不再赘述。
302,将待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度。
其中,预先训练好的目标检测模型为预先对多个样本图像进行训练得到的。样本图像是通过对存在目标对象的监控场景进行拍摄得到的场景图像。
其中,某个候选框的置信度用于指示该候选框属于某个类别的概率。
具体地,对待检测图像进行预处理,包括:减去均值归一化,并缩放成的预设尺寸(例如512*320)的图像;以预处理后的待检测图像作为目标检测模型的输入图像,由目标检测模型生成输入图像中的每一个目标对象的特征图,在各个特征图中的每个锚点上输出多个检测框,并对每个检测框进行前向推理,得到每个检测框的位置、类别以及置信度,形成每一目标对象的检测结果。
303,对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一目标对象的有效候选框。
具体地,针对每一检测结果执行如下操作:根据非极大抑制算法NMS过滤掉该检测结果中的置信度低于预设的置信度阈值的候选框,对剩余候选框按照置信度由高至低的顺序进行排序,选定排序结果中置信度最高的候选框,遍历排序结果中其余的候选框,如果当前遍历到的候选框和置信度最高的候选框的重叠面积(IOU)大于一阈值,则将当前遍历到的候选框删除,以获得每一目标对象的有效候选框。
此外,还可以根据改进的NMS算法对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果,其中,改进的NMS算法可以是soft-NMS或Softer-NMS。
需要说明的是,步骤301可以在步骤302或步骤303之前执行,也可以在步骤302或步骤303之后执行,还可以与步骤302同时执行,或者与步骤303同时执行,本实施例对此不做具体限定。
304,使用目标掩膜对每一目标对象的有效候选框进行验证,获得每一目标对象的最终检测结果。
具体地,步骤304的实现过程可以包括步骤:
3041,对每一目标对象的有效候选框与目标掩膜的每一连通域进行映射。
具体地,对目标掩膜中的所有连通域进行标号,对各个目标对象的有效候选框与目标掩膜中标号后的各个连通域进行位置映射,即将各个目标对象的有效候选框映射到目标掩膜中标号后的各个连通域上。
在实际应用中,一个连通域所映射的有效候选框的数量可以是一个或多个,一个有效候选框所映射的连通域的数量可以是一个或多个。
3042,根据每一有效候选框所映射的连通域的面积,对每一有效候选框进行过滤处理,确定最终的有效候选框。
具体地,针对每一个有效候选框执行如下操作:
确定该有效候选框所映射的连通域的数量和连通域的面积;
若该有效候选框仅映射有一个连通域,且所映射的连通域的面积大于预设连通域面积阈值,则将该有效候选框与所映射的连通域的标号进行绑定,否则,则过滤掉该有效候选框;
若该有效候选框所映射的连通域的数量为多个,且多个连通域中的面积最大的连通域的面积大于预设连通域面积阈值,则将该有效候选框与所映射的面积最大的连通域的标号进行绑定,否则,则过滤掉该有效候选框;
根据针对每一个有效候选框执行的操作结果,确定最终的有效候选框。
其中,可以采用如下步骤确定目标掩膜中的连通域的面积,包括:
设定label=0为连通域的标记,flag=0来标记该像素是否被搜索,从左到右遍历目标掩模中的每一个像素,若遍历到的像素满足下式:
Mask(x,y)>0 and flag=0
则flag=1标记为搜索过该像素。以该像素点作为种子点遍历该位置的四周所有与其相邻的像素点,若相邻的像素点与该种子点连通,则将其存入一个堆栈中并标记该点的标签和种子点相同的标签,并且flag=1。然后从堆栈中取出元素查看其四领域,将与其相通的像素点存入堆栈中,下一次继续从堆栈中取出点并遍历四周,如此循环直至堆栈为空,说明已经遍历完与种子点相连通的部分,label++,然后继续从左到右遍历直至遍历完整个目标掩模,最后统计相同label的像素个数即为每个连通域的面积。
3043,针对每一最终的有效候选框,当最终的有效候选框仅映射一个连通域时,则将最终的有效候选框的面积与其映射的连通域的外切矩形的面积进行比对,根据比对结果,对最终的有效候选框的位置进行调整。
其中,针对每一最终的有效候选框,判断该最终的有效候选框所映射的连通域是否只有一个,若是,则对该最终的有效候选框的位置进行调整。而当多个最终的有效候选框所映射的连通域为同一个时,则无需对该多个最终的有效候选框进行位置调整。
具体地,根据最终的有效候选框的位置,计算得到最终的有效候选框的面积,确定最终的有效候选框所映射的连通域的外切矩形的位置,并计算得到该连通域的外切矩形的面积,对最终的有效候选框的面积与其映射的连通域的外切矩形的面积进行比对。
其中,可以采用如下步骤确定连通域的外切矩形的位置,包括:
遍历相同label的像素点,将相同label的像素点的x和y分别进行排序,其中(Xm,Ym)为外切矩形中心点坐标,(Wm,Hm)为外切矩形的高和宽,连通域内最小的x为xmin,最大的x为xmax,最小的y为ymin,最大的y为ymax,则可以通过如下公式确定连通域的外切矩形的位置:
Figure BDA0002543499630000171
Figure BDA0002543499630000172
Wm=xmax-xmin
Hm=ymax-ymin
其中,根据比对结果,对最终的有效候选框的位置进行调整,该过程包括:
若比对结果指示最终的有效候选框的面积大于其映射的连通域的外切矩形的面积,则根据最终的有效候选框与其映射的连通域的外切矩形之间的交集,对最终的有效候选框的位置进行调整;
若比对结果指示最终的有效候选框的面积小于其映射的连通域的外切矩形的面积,则根据最终的有效候选框与其映射的连通域的外切矩形之间的并集,对最终的有效候选框的位置进行调整。
本实施例中,当一个最终的有效候选框所映射的连通域只有一个时,该最终的有效候选框的面积与所映射的连通域的外切矩形的面积可能相同,一种情况是:最终的有效候选框的面积大于其所映射的连通域的外切矩形的面积,说明目标对象被环境遮挡一部分后而导致检测到的目标框(即最终的有效候选框)过大,此种情况可以将目标框所映射的连通域的外切矩形与目标框进行取交集,来调整目标框的位置;另一种情况是:最终的有效候选框的面积小于其所映射的连通域的外切矩形的面积,说明检测结果可能对目标对象的部位(例如人手的部位)有截断而导致检测到的目标框(即最终的有效候选框)过小,此种情况可以将目标框所映射的连通域的外切矩形与目标框进行取并集,来调整目标框的位置。应当理解的是,除采用交集或并集之外,还可以采用其他方式进行调整目标框的位置,本发明对此不作具体限定。
本发明实施例提供一种目标检测方法,通过获取待检测图像中的至少一个目标对象对应的目标掩膜;将待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一目标对象的有效候选框;使用目标掩膜对每一目标对象的有效候选框进行验证,获得每一目标对象的最终检测结果。相比于现有技术,本发明通过使用预先训练好的目标检测模型对待检测图像进行目标检测,并通过去除背景的掩膜图像对检测结果进行验证,很大程度上解决了深度学习检测算法对环境的依赖性,提高了目标检测算法的鲁棒性,减少了复杂场景的目标误检,提高了目标检测的准确性,同时也便于检测算法的可扩展性。
参照图4所示,上述步骤302中的目标检测模型可以通过如下方式训练得到,包括步骤:
401,对样本视频的每一帧图像进行预处理得到训练样本集,其中,训练样本集中的训练样本包括样本图像和样本图像的标注信息。
具体地,步骤401的实现过程可以参照步骤202,此处不再赘述。
402,对训练样本集划分为训练集和测试集,将训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型。
具体地,步骤402的实现过程可以参照步骤203,此处不再赘述。
403,将测试集输入至目标检测模型进行测试得到测试值,当测试值满足预设要求时,目标检测模型完成训练。
具体地,步骤403的实现过程可以参照步骤204,此处不再赘述。
实施例三
基于上述实施例一提供的目标检测方法,本发明实施例提供了一种目标检测装置,该装置可以被配置于任一计算机设备中,以使该计算机设备可以执行实施例一提供的目标检测方法。其中,计算机设备可以配置为各种终端,例如服务器,服务器可以采用一个独立的服务或服务器集群来实现。
参照图5所示,该装置可以包括:
第一获取模块51,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
第二获取模块52,用于使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像;
目标检测模块53,用于将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块54,用于对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。
在一个示例中,第一获取模块51具体用于:
对待检测图像与背景图像进行差分处理,得到去除背景的差分图像;
在差分图像的灰度图上使用区域生成算法,生成去除背景的初始掩膜;
对初始掩膜中的连通域面积低于面积阈值的区域进行过滤,得到目标掩膜。
在一个示例中,装置还包括训练模块,训练模块包括:
获取子模块,用于对样本视频的每一帧图像进行掩膜,获得去除背景的多个样本掩膜图像;
预处理子模块,用于对每一样本掩膜图像进行预处理得到训练样本集,其中,训练样本集中的训练样本包括样本图像和样本图像的标注信息;
划分子模块,用于对训练样本集划分为训练集和测试集;
训练子模块,用于将训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型;以及
测试子模块,用于将测试集输入至目标检测模型进行测试得到测试值,当测试值满足预设要求时,目标检测模型完成训练。
在一个示例中,预处理子模块具体用于:
对每一样本掩膜图像进行归一化处理,并对归一化处理后的每一样本掩膜图像进行样本增强,获得多个样本图像;
获取每一样本图像的标记信息,其中,标记信息包括样本图像中的样本目标对象对应的位置和类别;
根据每一样本图像和对应的标注信息,生成训练样本集。
优选地,样本增强包括如下方式中的至少一个:
对样本掩膜图像进行尺寸缩放、翻转、镜像以及图像旋转中的至少一种。
在一个示例中,初始网络模型包括权重初始化后的基础卷积神经网络和目标检测网络,训练子模块具体用于:
通过权重初始化后的基础卷积神经网络生成输入的样本图像的特征图;
通过权重初始化后的目标检测网络在特征图中的每个锚点上输出多个检测框,并对每个检测框进行前向推理,得到每个检测框的位置、类别以及置信度;
将每个检测框的位置和类别与样本图像的标注信息中样本目标的位置和类别进行误差计算,得到每个检测框的位置损失值和类别损失值;
根据每个检测框的位置损失值、类别损失值与置信度,计算模型损失值;
根据模型损失值对初始网络模型进行优化,并通过反向传播更新初始网络模型中的权重,以训练得到目标检测模型。
需要说明的是:本实施例提供的目标检测装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例中的目标检测装置的具体实现过程和有益效果详见实施例一中的目标检测方法,这里不再赘述。
实施例四
基于上述实施例二提供的目标检测方法,本发明实施例提供了一种目标检测装置,该装置可以被配置于任一计算机设备中,以使该计算机设备可以执行实施例二提供的目标检测方法。其中,计算机设备可以配置为各种终端,例如服务器,服务器可以采用一个独立的服务或服务器集群来实现。
参照图6所示,该装置可以包括:
获取模块61,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
目标检测模块62,用于将待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块63,用于对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一目标对象的有效候选框;
验证模块64,用于使用目标掩膜对每一目标对象的有效候选框进行验证,获得每一目标对象的最终检测结果。
在一个示例中,获取模块61具体用于:
对待检测图像与背景图像进行差分处理,得到去除背景的差分图像;
在差分图像的灰度图上使用区域生成算法,生成去除背景的初始掩膜;
对初始掩膜中的连通域面积低于第一阈值的区域进行过滤,得到目标掩膜。
在一个示例中,装置还包括训练模块,训练模块包括:
预处理子模块,用于对样本视频的每一帧图像进行预处理得到训练样本集,其中,训练样本集中的训练样本包括样本图像和样本图像的标注信息;
划分子模块,用于对训练样本集划分为训练集和测试集;
训练子模块,用于将训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型;以及
测试子模块,用于将测试集输入至目标检测模型进行测试得到测试值,当测试值满足预设要求时,目标检测模型完成训练。
在一个示例中,预处理子模块具体用于:
对每一图像进行归一化处理,并对归一化处理后的每一图像进行样本增强,获得多个样本图像;
获取每一样本图像的标记信息,其中,标记信息包括样本图像中的样本目标对象对应的位置和类别;
根据每一样本图像和对应的标注信息,生成训练样本集。
优选地,样本增强包括如下方式中的至少一个:
对样本掩膜图像进行尺寸缩放、翻转、镜像以及图像旋转中的至少一种。
在一个示例中,初始网络模型包括权重初始化后的基础卷积神经网络和目标检测网络,训练子模块具体用于:
通过权重初始化后的基础卷积神经网络生成输入的样本图像的特征图;
通过权重初始化后的目标检测网络在特征图中的每个锚点上输出多个检测框,并对每个检测框进行前向推理,得到每个检测框的位置、类别以及置信度;
将每个检测框的位置和类别与样本图像的标注信息中样本目标的位置和类别进行误差计算,得到每个检测框的位置损失值和类别损失值;
根据每个检测框的位置损失值、类别损失值与置信度,计算模型损失值;
根据模型损失值对初始网络模型进行优化,并通过反向传播更新初始网络模型中的权重,以训练得到目标检测模型。
在一个示例中,验证模块64包括:
映射子模块,用于对每一目标对象的有效候选框与目标掩膜的每一连通域进行映射;
过滤子模块,用于根据每一有效候选框所映射的连通域的面积,对每一有效候选框进行过滤处理,确定最终的有效候选框;
比对子模块,用于针对每一最终的有效候选框,当最终的有效候选框仅映射一个连通域时,则将最终的有效候选框的面积与其映射的连通域的外切矩形的面积进行比对;
调整子模块,用于根据比对结果,对最终的有效候选框的位置进行调整;
进一步地,调整子模块具体用于:
若比对结果指示最终的有效候选框的面积大于其映射的连通域的外切矩形的面积,则根据最终的有效候选框与其映射的连通域的外切矩形之间的交集,对最终的有效候选框的位置进行调整;
若比对结果指示最终的有效候选框的面积小于其映射的连通域的外切矩形的面积,则根据最终的有效候选框与其映射的连通域的外切矩形之间的并集,对最终的有效候选框的位置进行调整。
需要说明的是:本实施例提供的目标检测装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例中的目标检测装置的具体实现过程和有益效果详见实施例二中的目标检测方法,这里不再赘述。
在一个实施例中,还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像;
将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
使用目标掩膜对待检测图像进行掩膜,获得去除背景的掩膜图像;
将掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一目标对象的最终检测结果。
在一个实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
将待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一目标对象的有效候选框;
使用目标掩膜对每一目标对象的有效候选框进行验证,获得每一目标对象的最终检测结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
将待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一目标对象的检测结果,其中,每一检测结果包括多个候选框的位置、类别以及置信度;
对每一检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一目标对象的有效候选框;
使用目标掩膜对每一目标对象的有效候选框进行验证,获得每一目标对象的最终检测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
使用所述目标掩膜对所述待检测图像进行掩膜,获得去除背景的掩膜图像;
将所述掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一所述目标对象的最终检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测图像中的至少一个目标对象对应的目标掩膜,包括:
对所述待检测图像与背景图像进行差分处理;
将差分处理后的所述待检测图像转换为灰度图,并在所述灰度图上使用区域生成算法,生成去除背景的初始掩膜;
对所述初始掩膜中的连通域面积低于面积阈值的区域进行滤除,得到所述目标掩膜。
3.根据权利要求1或2所述的方法,其特征在于,所述目标检测模型是通过如下方式训练得到的:
对样本视频的每一帧图像进行掩膜,获得去除背景的多个样本掩膜图像;
对每一所述样本掩膜图像进行预处理得到训练样本集,其中,所述训练样本集中的训练样本包括样本图像和所述样本图像的标注信息;
对训练样本集划分为训练集和测试集,将所述训练集中输入至预先构建的初始网络模型中进行训练得到目标检测模型;以及
将所述测试集输入至所述目标检测模型进行测试得到测试值,当所述测试值满足预设要求时,所述目标检测模型完成训练。
4.根据权利要求3所述的方法,其特征在于,所述初始网络模型包括权重初始化后的基础卷积神经网络和目标检测网络,所述将所述训练集中输入至预先构建的网络模型中进行训练得到目标检测模型,包括:
通过权重初始化后的所述基础卷积神经网络生成输入的样本图像的特征图;
通过权重初始化后的所述目标检测网络在所述特征图中的每个锚点上输出多个检测框,并对每个所述检测框进行前向推理,得到每个所述检测框的位置、类别以及置信度;
将每个所述检测框的位置和类别与所述样本图像的标注信息中样本目标的位置和类别进行误差计算,得到每个所述检测框的位置损失值和类别损失值;
根据每个所述检测框的位置损失值、类别损失值与置信度,计算模型损失值;
根据所述模型损失值对所述初始网络模型进行优化,并通过反向传播更新所述初始网络模型中的权重,以训练得到所述目标检测模型。
5.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像中的至少一个目标对象对应的目标掩膜;
将所述待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一所述目标对象的有效候选框;
使用所述目标掩膜对每一所述目标对象的有效候选框进行验证,获得每一所述目标对象的最终检测结果。
6.根据权利要求5所述的方法,其特征在于,所述获取待检测图像中的至少一个目标对象对应的目标掩膜,包括:
对所述待检测图像与背景图像进行差分处理;
将差分处理后的所述待检测图像转换为灰度图,并在所述灰度图上使用区域生成算法,生成去除背景的初始掩膜;
对所述初始掩膜中的连通域面积低于面积阈值的区域进行滤除,得到所述目标掩膜。
7.根据权利要求5或6所述的方法,其特征在于,所述使用所述目标掩膜对每一所述目标对象的有效候选框进行验证,获得每一所述目标对象的最终检测结果,包括:
对每一所述目标对象的有效候选框与所述目标掩膜的每一连通域进行映射;
根据每一所述有效候选框所映射的连通域的面积,对每一所述有效候选框进行过滤处理,确定最终的有效候选框;
针对每一所述最终的有效候选框,当所述最终的有效候选框仅映射一个连通域时,则将所述最终的有效候选框的面积与其映射的连通域的外切矩形的面积进行比对;
根据比对结果,对所述最终的有效候选框的位置进行调整。
8.根据权利要求7所述的方法,其特征在于,所述根据比对结果,对所述最终的有效候选框的位置进行调整包括:
若所述比对结果指示所述最终的有效候选框的面积大于其映射的连通域的外切矩形的面积,则根据所述最终的有效候选框与其映射的连通域的外切矩形之间的交集,对所述最终的有效候选框的位置进行调整;
若所述比对结果指示所述最终的有效候选框的面积小于其映射的连通域的外切矩形的面积,则根据所述最终的有效候选框与其映射的连通域的外切矩形之间的并集,对所述最终的有效候选框的位置进行调整。
9.一种目标检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
第二获取模块,用于使用所述目标掩膜对所述待检测图像进行掩膜,获得去除背景的掩膜图像;
目标检测模块,用于将所述掩膜图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块,用于对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,获得每一所述目标对象的最终检测结果。
10.一种目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像中的至少一个目标对象对应的目标掩膜;
目标检测模块,用于将所述待检测图像输入至预先训练好的目标检测模型中进行检测,获得每一所述目标对象的检测结果,其中,每一所述检测结果包括多个候选框的位置、类别以及置信度;
去噪处理模块,用于对每一所述检测结果中置信度高于置信度阈值的多个候选框进行去噪处理,得到每一所述目标对象的有效候选框;
验证模块,用于使用所述目标掩膜对每一所述目标对象的有效候选框进行验证,获得每一所述目标对象的最终检测结果。
CN202010553786.5A 2020-06-17 2020-06-17 一种目标检测方法及装置 Active CN111723860B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010553786.5A CN111723860B (zh) 2020-06-17 2020-06-17 一种目标检测方法及装置
PCT/CN2021/098734 WO2021254205A1 (zh) 2020-06-17 2021-06-07 一种目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010553786.5A CN111723860B (zh) 2020-06-17 2020-06-17 一种目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN111723860A true CN111723860A (zh) 2020-09-29
CN111723860B CN111723860B (zh) 2022-11-18

Family

ID=72567122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010553786.5A Active CN111723860B (zh) 2020-06-17 2020-06-17 一种目标检测方法及装置

Country Status (2)

Country Link
CN (1) CN111723860B (zh)
WO (1) WO2021254205A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258504A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112396116A (zh) * 2020-11-24 2021-02-23 武汉三江中电科技有限责任公司 一种雷电检测方法、装置、计算机设备及可读介质
CN112507983A (zh) * 2021-02-03 2021-03-16 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112529851A (zh) * 2020-11-27 2021-03-19 中冶赛迪重庆信息技术有限公司 一种液压管状态确定方法、系统、终端及介质
CN112613570A (zh) * 2020-12-29 2021-04-06 深圳云天励飞技术股份有限公司 一种图像检测方法、图像检测装置、设备及存储介质
CN112766046A (zh) * 2020-12-28 2021-05-07 深圳市捷顺科技实业股份有限公司 一种目标检测方法及相关装置
CN112990211A (zh) * 2021-01-29 2021-06-18 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112989995A (zh) * 2021-03-10 2021-06-18 北京百度网讯科技有限公司 文本检测方法、装置及电子设备
CN113298122A (zh) * 2021-04-30 2021-08-24 北京迈格威科技有限公司 目标检测方法、装置和电子设备
CN113331160A (zh) * 2021-06-02 2021-09-03 河南省农业科学院烟草研究所 一种烟草专用精准喷药系统
CN113361576A (zh) * 2021-05-31 2021-09-07 展讯通信(天津)有限公司 图片标注方法和设备
CN113408361A (zh) * 2021-05-25 2021-09-17 中国矿业大学 一种基于深度学习的矿用输送带大块物料检测方法及系统
CN113449606A (zh) * 2021-06-04 2021-09-28 南京苏宁软件技术有限公司 一种目标对象识别方法、装置、计算机设备及存储介质
CN113808117A (zh) * 2021-09-24 2021-12-17 北京市商汤科技开发有限公司 灯具检测方法、装置、设备及存储介质
CN113808200A (zh) * 2021-08-03 2021-12-17 嘉洋智慧安全生产科技发展(北京)有限公司 一种检测目标对象移动速度的方法、装置及电子设备
WO2021254205A1 (zh) * 2020-06-17 2021-12-23 苏宁易购集团股份有限公司 一种目标检测方法及装置
CN113989626A (zh) * 2021-12-27 2022-01-28 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN115100492A (zh) * 2022-08-26 2022-09-23 摩尔线程智能科技(北京)有限责任公司 Yolov3网络训练、pcb表面缺陷检测方法及装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445622A (zh) * 2022-01-14 2022-05-06 支付宝(杭州)信息技术有限公司 一种目标检测方法、装置、设备及处理器
CN114612769B (zh) * 2022-03-14 2023-05-26 电子科技大学 一种融入局部结构信息的集成感知红外成像舰船检测方法
CN115294478B (zh) * 2022-07-28 2024-04-05 北京航空航天大学 一种应用于现代光电平台的空中无人机目标检测方法
CN115063578B (zh) * 2022-08-18 2023-01-10 杭州长川科技股份有限公司 芯片图像中目标对象检测与定位方法、装置及存储介质
CN116030272B (zh) * 2023-03-30 2023-07-14 之江实验室 一种基于信息抽取的目标检测方法、系统和装置
CN116777843B (zh) * 2023-05-26 2024-02-27 湖南大学 一种基于动态非极大值抑制的厨余垃圾检测方法及系统
CN116824258B (zh) * 2023-06-30 2024-05-14 哈尔滨工业大学 一种基于反向投影的施工场地烟尘检测方法
CN116630832B (zh) * 2023-07-21 2023-09-29 江西现代职业技术学院 一种无人机目标识别方法、系统、计算机及可读存储介质
CN116664604B (zh) * 2023-07-31 2023-11-03 苏州浪潮智能科技有限公司 图像的处理方法及装置、存储介质及电子设备
CN117218515B (zh) * 2023-09-19 2024-05-03 人民网股份有限公司 一种目标检测方法、装置、计算设备和存储介质
CN117541782A (zh) * 2024-01-09 2024-02-09 北京闪马智建科技有限公司 对象的识别方法、装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN109147254A (zh) * 2018-07-18 2019-01-04 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法
CN110096960A (zh) * 2019-04-03 2019-08-06 罗克佳华科技集团股份有限公司 目标检测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI381717B (zh) * 2008-03-31 2013-01-01 Univ Nat Taiwan 數位視訊動態目標物體分割處理方法及系統
CN108268869B (zh) * 2018-02-13 2021-11-16 北京旷视科技有限公司 目标检测方法、装置及系统
CN108647588A (zh) * 2018-04-24 2018-10-12 广州绿怡信息科技有限公司 物品类别识别方法、装置、计算机设备和存储介质
CN108876810A (zh) * 2018-06-11 2018-11-23 江苏东大金智信息系统有限公司 视频摘要中利用图割算法进行运动目标检测的方法
CN111160065A (zh) * 2018-11-07 2020-05-15 中电科海洋信息技术研究院有限公司 遥感图像舰船检测方法、装置、设备及其存储介质
CN110490073A (zh) * 2019-07-15 2019-11-22 浙江省北大信息技术高等研究院 目标检测方法、装置、设备及存储介质
CN111723860B (zh) * 2020-06-17 2022-11-18 苏宁云计算有限公司 一种目标检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN109147254A (zh) * 2018-07-18 2019-01-04 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法
CN110096960A (zh) * 2019-04-03 2019-08-06 罗克佳华科技集团股份有限公司 目标检测方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021254205A1 (zh) * 2020-06-17 2021-12-23 苏宁易购集团股份有限公司 一种目标检测方法及装置
CN112258504A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112258504B (zh) * 2020-11-13 2023-12-08 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112396116A (zh) * 2020-11-24 2021-02-23 武汉三江中电科技有限责任公司 一种雷电检测方法、装置、计算机设备及可读介质
CN112529851A (zh) * 2020-11-27 2021-03-19 中冶赛迪重庆信息技术有限公司 一种液压管状态确定方法、系统、终端及介质
CN112766046B (zh) * 2020-12-28 2024-05-10 深圳市捷顺科技实业股份有限公司 一种目标检测方法及相关装置
CN112766046A (zh) * 2020-12-28 2021-05-07 深圳市捷顺科技实业股份有限公司 一种目标检测方法及相关装置
CN112613570A (zh) * 2020-12-29 2021-04-06 深圳云天励飞技术股份有限公司 一种图像检测方法、图像检测装置、设备及存储介质
CN112990211A (zh) * 2021-01-29 2021-06-18 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112507983B (zh) * 2021-02-03 2021-11-16 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112507983A (zh) * 2021-02-03 2021-03-16 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112989995A (zh) * 2021-03-10 2021-06-18 北京百度网讯科技有限公司 文本检测方法、装置及电子设备
CN112989995B (zh) * 2021-03-10 2024-02-20 北京百度网讯科技有限公司 文本检测方法、装置及电子设备
CN113298122A (zh) * 2021-04-30 2021-08-24 北京迈格威科技有限公司 目标检测方法、装置和电子设备
CN113408361A (zh) * 2021-05-25 2021-09-17 中国矿业大学 一种基于深度学习的矿用输送带大块物料检测方法及系统
CN113408361B (zh) * 2021-05-25 2023-09-19 中国矿业大学 一种基于深度学习的矿用输送带大块物料检测方法及系统
CN113361576A (zh) * 2021-05-31 2021-09-07 展讯通信(天津)有限公司 图片标注方法和设备
CN113331160A (zh) * 2021-06-02 2021-09-03 河南省农业科学院烟草研究所 一种烟草专用精准喷药系统
CN113331160B (zh) * 2021-06-02 2022-09-27 河南省农业科学院烟草研究所 一种烟草专用精准喷药系统
CN113449606B (zh) * 2021-06-04 2022-12-16 南京苏宁软件技术有限公司 一种目标对象识别方法、装置、计算机设备及存储介质
CN113449606A (zh) * 2021-06-04 2021-09-28 南京苏宁软件技术有限公司 一种目标对象识别方法、装置、计算机设备及存储介质
CN113808200A (zh) * 2021-08-03 2021-12-17 嘉洋智慧安全生产科技发展(北京)有限公司 一种检测目标对象移动速度的方法、装置及电子设备
CN113808117A (zh) * 2021-09-24 2021-12-17 北京市商汤科技开发有限公司 灯具检测方法、装置、设备及存储介质
CN113808117B (zh) * 2021-09-24 2024-05-21 北京市商汤科技开发有限公司 灯具检测方法、装置、设备及存储介质
CN113989626B (zh) * 2021-12-27 2022-04-05 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN113989626A (zh) * 2021-12-27 2022-01-28 北京文安智能技术股份有限公司 一种基于目标检测模型的多类别垃圾场景区分方法
CN115100492A (zh) * 2022-08-26 2022-09-23 摩尔线程智能科技(北京)有限责任公司 Yolov3网络训练、pcb表面缺陷检测方法及装置
CN115100492B (zh) * 2022-08-26 2023-04-07 摩尔线程智能科技(北京)有限责任公司 Yolov3网络训练、pcb表面缺陷检测方法及装置

Also Published As

Publication number Publication date
CN111723860B (zh) 2022-11-18
WO2021254205A1 (zh) 2021-12-23

Similar Documents

Publication Publication Date Title
CN111723860B (zh) 一种目标检测方法及装置
CN111860670B (zh) 域自适应模型训练、图像检测方法、装置、设备及介质
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111080628A (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN110163207B (zh) 一种基于Mask-RCNN船舶目标定位方法及存储设备
CN111814794A (zh) 文本检测方法、装置、电子设备及存储介质
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109035300B (zh) 一种基于深度特征与平均峰值相关能量的目标跟踪方法
CN111368769A (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN115909172A (zh) 深度伪造视频检测分割识别系统、终端及存储介质
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN113744142A (zh) 图像修复方法、电子设备及存储介质
CN117636298A (zh) 基于多尺度特征学习的车辆重识别方法、系统及存储介质
CN109284752A (zh) 一种车辆的快速检测方法
CN110211106B (zh) 基于分段Sigmoid带宽的均值漂移SAR图像海岸线检测方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN111401415A (zh) 计算机视觉任务模型的训练方法、装置、设备和存储介质
US20230386023A1 (en) Method for detecting medical images, electronic device, and storage medium
CN111079807A (zh) 一种地物分类方法及装置
CN112699809B (zh) 痘痘类别识别方法、装置、计算机设备及存储介质
CN111832508B (zh) 基于die_ga的低照度目标检测方法
CN113807229A (zh) 智慧教室非接触式考勤装置、方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant