CN113192057A - 目标检测方法、系统、设备及存储介质 - Google Patents

目标检测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113192057A
CN113192057A CN202110559403.XA CN202110559403A CN113192057A CN 113192057 A CN113192057 A CN 113192057A CN 202110559403 A CN202110559403 A CN 202110559403A CN 113192057 A CN113192057 A CN 113192057A
Authority
CN
China
Prior art keywords
frame
image
detection
candidate
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110559403.XA
Other languages
English (en)
Inventor
谭黎敏
蔡文扬
洪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Westwell Information Technology Co Ltd
Original Assignee
Shanghai Westwell Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Westwell Information Technology Co Ltd filed Critical Shanghai Westwell Information Technology Co Ltd
Priority to CN202110559403.XA priority Critical patent/CN113192057A/zh
Publication of CN113192057A publication Critical patent/CN113192057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种目标检测方法、系统、设备及存储介质,该方法包括:从视频数据中抽取当前检测帧的图像;从所述视频数据中抽取当前检测帧之前的一参照帧的图像;计算所述当前检测帧的图像和所述参照帧的图像的差值图;根据所述差值图从当前检测帧选取候选框;基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。本发明实现了基于高清视频的小尺度目标高精度检测识别,相比现有的计算机视觉算法具有极低的资源消耗和更快的检测速度,更适用于实时目标检测,并且大大降低了误报率。

Description

目标检测方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种目标检测方法、系统、设备及存储介质。
背景技术
现有的港口等场景由于重型机械较多,人员流动复杂,存在着安全隐患。对于港口客户来说,设置行人禁止进入区域是常见的安全管理手段。传统的无人化安全管理依赖着较多的工作人员对监控摄像头的实时跟踪,对客户来说有着较大的人力需求,且长时间工作负荷下或业务繁忙时,人力肉眼观察存在着较大漏报的可能性。因此,采用自动报警系统已经成为节约人力成本提高管理效率的必要措施。
由于港口面积范围广,如采用传统的视觉检测或常用深度学习检测方法,对小尺度目标较为薄弱的检测能力和高精度实时性的要求,会导致摄像头部署时覆盖范围需尽量小的局面,因此需要的监控摄像头较多。另一方面,如摄像头覆盖的范围尽量大,行人在摄像头画面中就变成了小目标。对检测算法的小尺度检测能力则有了较大的要求。
小尺度目标检测长久以来一直是计算机视觉方向的难点和热点。采用传统计算机视觉算法,在1080p摄像头画面中,精准检测小尺度目标会存在着较多噪声的干扰。如采用深度学习卷积神经网络检测小尺度目标,也会由于目标可利用特征较少而对网络有着较大的参数需求,导致模型预测时间慢效率低,另一方面也会带来较多的误触发。如何确保在极高的准确率和实时性要求这一条件约束下,实现对小尺度目标的检测功能,已经成为算法设计的首要目标。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种目标检测方法、系统、设备及存储介质,实现基于高清视频的小尺度目标高精度检测识别。
本发明实施例提供一种目标检测方法,包括如下步骤:
S100:从视频数据中抽取当前检测帧的图像;
S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
S300:计算所述当前检测帧的图像和所述参照帧的图像的差值图;
S400:根据所述差值图从当前检测帧选取候选框;
S500:基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;
S600:将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
在一些实施例中,所述步骤S300:根据所述差值图从当前检测帧选取候选框,包括如下步骤:
判断所述差值图是否有像素值超过预设像素阈值的区域;
如果是,则对差值图进行形态学处理,处理后的差值图;
对所述处理后的差值图采用轮廓检测算法检测动态变化区域的轮廓,并输出所述动态变化区域的外接矩形;
根据所述动态变化区域的外接矩形的中心点确定预设候选框尺寸的候选框。
在一些实施例中,获取所述目标检测网络的输出结果,还包括如下步骤:
将所述目标检测网络中的目标位置所对应的候选框加入到下一个检测帧的候选框中。
在一些实施例中,所述步骤S100和步骤S200之间,还包括如下步骤:
判断当前检测帧的序号n是否为预设系数a的整数倍;
如果是,则继续步骤S200;
如果否,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500。
在一些实施例中,所述步骤S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像,包括如下步骤:
将所述视频数据中序号为n-a的帧作为参考帧,从所述视频数据中抽取该参考帧的图像。
在一些实施例中,所述判断当前检测帧的序号n是否为预设系数a的整数倍之后,如果当前检测帧的序号n不是预设系数a的整数倍,则继续如下步骤:
判断前一检测帧是否通过目标检测网络检测到目标位置;
如果是,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500;
如果否,则继续步骤S200。
在一些实施例中,如果当前检测帧的序号n为预设系数a的整数倍,且前一检测帧通过目标检测网络检测到目标位置,则当前检测帧的候选框包括通过步骤S200~S400得到的候选框和前一检测帧通过目标检测网络检测到的目标位置所对应的候选框。
在一些实施例中,所述目标检测网络包括s个依次串联的卷积模块,s≥3;
其中,第2个~第s个卷积模块的输出端分别连接有一检测层,所述目标检测网络的输出结果为各个所述检测层的输出结果的组合。
在一些实施例中,所述方法还包括采用如下步骤训练所述目标检测网络:
对训练集中的样本图像进行目标标注处理,得到真实框的坐标信息;
将所述样本图像输入目标检测网络,得到各个所述检测层的输出结果;
将所述检测层的输出结果组合后得到所述目标检测网络的预测框的坐标信息;
根据所述真实框的坐标信息和所述预测框的坐标信息,基于损失函数计算损失值,基于所述损失值反向优化所述目标检测网络。
在一些实施例中,将所述样本图像输入目标检测网络之后,所述检测层中加入多个不同尺寸的先验框,将所述先验框与真实框计算IOU后,选择具有最大IOU的先验框在所述样本图像中预测目标。
在一些实施例中,所述损失函数基于定位损失函数和置信度损失函数构建,所述定位损失函数为Smooth L1回归损失函数,所述置信度损失函数为softmax损失函数。
本发明实施例还提供一种目标检测系统,用于实现所述的目标检测方法,所述系统包括:
第一图像抽取模块,用于从视频数据中抽取当前检测帧的图像;
第二图像抽取模块,用于从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
候选框选择模块,用于计算所述当前检测帧的图像和所述参照帧的图像的差值图,根据所述差值图从当前检测帧选取候选框;
候选区域截取模块,用于基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;
目标检测模块,用于将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
本发明实施例还提供一种目标检测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的目标检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的目标检测方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明的目标检测方法、系统、设备及存储介质具有如下有益效果:
本发明可以在高清视频中实现小尺度目标高精度检测识别,首先采用帧差法在高清图像中选择候选框,然后基于候选框在高清图像中截取候选区域图像,对候选区域图像进行目标检测,一方面通过帧差法实现运动检测,避免在高清图像中遗漏目标,另一方面通过截取候选区域图像进行目标检测而不是对原始高清图像进行目标检测,可以实现小尺度目标检测,大大提高了目标检测的精度,并且相比于直接采用原始高清图像进行目标检测,目标检测网络的输入图像尺寸大大减小,相比现有的计算机视觉算法具有极低的资源消耗和更快的检测速度,更适用于实时目标检测,并且大大降低了误报率;本发明不仅可以应用于行人的检测,也可以应用于其他类型的目标检测,例如车辆、障碍物、标志物等,本发明不仅可以应用于港口范围内的检测,也可以应用于其他场景中的目标检测,例如厂区、公路、人行道等。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的目标检测方法的流程图;
图2是本发明一实施例的目标检测网络对候选区域图像进行检测的示意图;
图3是本发明一实施例的卷积模块的示意图;
图4是本发明一实施例的损失函数的构成示意图;
图5是本发明一实施例的获取所述目标检测网络的输出结果的流程图;
图6是本发明一实施例的目标检测系统的结构示意图;
图7是本发明一实施例的目标检测设备的结构示意图;
图8是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
如图1所示,本发明实施例提供一种目标检测方法,包括如下步骤:
S100:从视频数据中抽取当前检测帧的图像,此处所述视频数据包括视频中各个帧的图像;
此处所述视频数据可以是从摄像头获取到的高清视频数据,例如1080p等分辨率的高清视频,也可以是其他低分辨率的视频数据;
S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
此处参照帧的时间在当前检测帧的时间之前,参照帧可以是当前检测帧之前一帧,也可以是当前检测帧之前间隔多帧的一帧;
S300:计算所述当前检测帧的图像和所述参照帧的图像的差值图,即利用帧差法对当前帧和参照帧的图像做差值,得到差值图;
S400:根据所述差值图从当前检测帧选取候选框,此处候选框的位置即为当前检测帧中发生了运动变化的位置;
S500:基于所述候选框的位置在当前检测帧的图像中截取候选区域图像,此处截取候选区域图像即为从当前检测帧的原图中截取;
在应用于高清视频的处理时,从高清原图中截取有运动变化的区域图像来进行后续的目标检测,可以大大降低目标检测的输入图像尺寸,也可以专注于有运动变化的区域进行检测,提高检测精确度;
S600:将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
本发明的目标检测方法可以在高清视频中实现小尺度目标高精度检测识别,首先通过步骤S100~S400采用帧差法在高清图像中选择候选框,然后通过步骤S500基于候选框在高清图像中截取候选区域图像,通过步骤S600对候选区域图像进行目标检测,一方面通过帧差法实现运动检测,避免在高清图像中遗漏目标,另一方面通过截取候选区域图像进行目标检测而不是对原始高清图像进行目标检测,可以实现小尺度目标检测,大大提高了目标检测的精度,并且相比于直接采用原始高清图像进行目标检测,目标检测网络的输入图像尺寸大大减小,相比现有的计算机视觉算法具有极低的资源消耗和更快的检测速度,更适用于实时目标检测,并且大大降低了误报率。
在将本发明的目标检测方法应用于高清视频中的目标检测时,可以快速高效地在1080p等高清视频中输出目标位置信息,检测到的目标宽高尺寸可以小至20x60。在将本发明的目标检测方法应用于港口范围内的人员监控时,能够为港口无人区的管理提供准确实时的人员报警。在另一可替代的实施方式中,本发明的目标检测方法也可以应用于非高清视频中的目标检测,并且检测目标可以不限于行人,也可以是车辆、障碍物、标志物等,在另一可替代的实施方式中,本发明的目标检测方法也可以应用于非港口场景,例如应用于厂区、公路、人行道等。
在该实施例中,所述步骤S300:根据所述差值图从当前检测帧选取候选框,包括如下步骤:
判断所述差值图是否有像素值超过预设像素阈值的区域,此处像素值超过预设像素阈值的区域可以是一个像素值超过预设像素阈值的像素点,也可以是多个像素值超过预设像素阈值的像素点集合得到的连续区域,在一种实施方式中,可以设定区域的最小尺寸阈值,当存在一个区域,其尺寸大于等于最小尺寸阈值,并且该区域中的像素值均超过预设像素阈值,则认为所述差值图是否有像素值超过预设像素阈值的区域;
如果所述差值图不存在像素值超过预设像素阈值的区域,则重复步骤S100;
如果所述差值图存在像素值超过预设像素阈值的区域,则对差值图进行形态学处理,处理后的差值图;
具体地,此处对差值图进行形态学处理,可以包括对差值图进行膨胀、腐蚀、平滑和resize(改变图像大小)等操作,在不同的实施方式中,对差值图的形态学处理的方式可以不同,例如可以只采用膨胀、腐蚀,或者只采用平滑、resize等,均属于本发明的保护范围之内;
对所述处理后的差值图采用轮廓检测算法检测动态变化区域的轮廓,并输出所述动态变化区域的外接矩形,此处轮廓检测算法可以是现有技术中的轮廓检测算法,例如对差值图进行二值化处理后寻找连通区域,然后检测连通区域边缘等,动态变化区域即为其中像素值均超过预设像素阈值的连通区域;
根据所述动态变化区域的外接矩形的中心点确定预设候选框尺寸的候选框,即得到候选框的坐标信息,在所述动态变化区域位于图像中部时,所述动态变化区域位于确定的候选框的中心位置,在所述动态变化区域靠近图像边缘时,所述候选框为从图像边缘处向图像中部延伸的一个矩形框且该动态变化区域为与候选框的内部。此处候选框可以是一个正方形的候选框,但本发明不限于此。
得到多个候选框后,考虑到候选框之间可能存在重叠的情况,还可以基于IOU(Intersection over Union,交并比)计算剔除相近的候选框。
在该实施例中,所述目标检测网络为卷积神经网络(CNN),包括s个依次串联的卷积模块,s≥3。如图2所示,为该实施例的目标检测网络对候选区域图像进行检测的示意图。其中,所述目标检测网络包括四个卷积模块,输入图像经过四个卷积模块处理后,得到的特征图feature map尺寸宽高均为输入图像尺寸的1/16。图2中的block即对应于每个卷积模块。图3示出了一种示例的卷积模块的结构,其中,每个卷积模块包括BN(批归一化层)、卷积层和leakyRelu(泄露修正线性单元)。此处卷积模块的结构仅为示例,在其他可替代的实施方式中,卷积核的数量可以增加或者减少,也可以不采用leakyRelu,而采用Relu作为激活函数等,均属于本发明的保护范围之内。
考虑到目标移动过程中在画面中尺度大小会发生变化,在所述目标检测网络中对应于不同尺寸的特征图设置一个检测层。在该实施例中,第2个~第s个卷积模块的输出端分别连接有一检测层,所述目标检测网络的输出结果为各个所述检测层的输出结果的组合。具体地,以图2中的目标检测网络为例,第二个卷积模块输出的feature_mapA连接第一个检测层,第三个卷积模块输出的feature_mapB连接第二个检测层,第四个卷积模块输出的feature_mapC连接第三个检测层。
在该实施例中,所述目标检测方法还包括采用如下步骤训练所述目标检测网络:
对训练集中的样本图像进行目标标注处理,得到真实框的坐标信息;
具体地,在训练集中的样本图像中标注出行人目标所在矩形边框的坐标信息,然后对样本图像进行数据预处理,数据预处理包括水平翻转、随机裁剪、拉伸、旋转、对比度增强、亮度增强等,采用数据预处理后的样本图像对目标检测网络进行模型训练;
将所述样本图像输入目标检测网络,得到各个所述检测层的输出结果;
将所述检测层的输出结果组合后得到所述目标检测网络的预测框的坐标信息,即将检测层的输出结果中各个预测框进行合并,并且基于IOU计算剔除相近的预测框,得到最终目标检测网络得到的预测框;
根据所述真实框的坐标信息和所述预测框的坐标信息,基于损失函数计算损失值,基于所述损失值反向优化所述目标检测网络,例如可以基于SGDM反向传播进行目标检测网络的参数优化。
在该实施例中,将所述样本图像输入目标检测网络之后,所述检测层中加入多个不同尺寸的先验框,将所述先验框与真实框计算IOU后,选择具有最大IOU的先验框在所述样本图像中预测目标。具体地,在检测层中,像素级加入预定义尺寸的先验框,根据每个先验框和预先标记的真实框计算IOU后排序取有着最大IOU的先验框预测该目标。如果某先验框与任何真实框的IOU都小于预设阈值(例如0.5,但本发明不限于此,也可以选择为0.6等),则其作为负样本参与loss损失计算。
如图4所示,在该实施例中,所述损失函数基于定位损失函数(location loss)和置信度损失函数(confidence loss)构建,所述定位损失函数为Smooth L1回归损失函数,所述置信度损失函数为softmax损失函数。
具体地,训练时所述目标检测网络的损失函数的公式如下:
Figure BDA0003078369230000091
其中,N是匹配到真实框的prior box数量,α参数用于调整置信度损失和定位损失之间的比例,默认α=1,可以根据需要调整。
定位损失函数的公式如下:
Figure BDA0003078369230000101
其中,
Figure BDA0003078369230000102
为预测框,
Figure BDA0003078369230000103
为真实框,
Figure BDA0003078369230000104
表示第i个预测框和第j个真实框关于类别k是否匹配,Pos为正样本。
置信度损失函数的公式如下:
Figure BDA0003078369230000105
Figure BDA0003078369230000106
其中,p表示类别序号,
Figure BDA0003078369230000107
表示第i个预测框和第j个真实框关于类别p的匹配概率,p的概率预测越高,损失越小。
Figure BDA0003078369230000108
表示预测框中没有物体的概率,即为背景的概率,概率越高,损失越小。
Figure BDA0003078369230000109
通过softmax损失函数产生。
如图5所示,在该实施例中,所述步骤S600:获取所述目标检测网络的输出结果,包括如下步骤:
根据当前目标检测网络的输出结果,判断是否检测到目标;
如果是,将所述目标检测网络中的目标位置所对应的候选框加入到下一个检测帧的候选框中,即考虑到视频的连续性,一般在当前检测帧中检测到的目标在下一检测帧中可能位置变化不大,将当前帧中已检测到目标的候选框加入到下一个检测帧的候选框中,可以保证目标检测的全面性的准确性。
在该实施例中,可以进一步设置进行帧差法计算的间隔,即每隔a帧进行一次帧差法,减少帧差法使用的次数,提高对视频数据处理的效率,也降低视频处理的能耗。同时,考虑到视频的连续性和目标移动的速度可能比较慢,如果直接比较相邻的两帧可能变化不大,因此间隔a帧选择参照帧,可以进一步提高检测的准确性。此处a为大于等于1的整数,其具体数值可以根据需要选择,例如选择为5、10、15等。
具体地,所述步骤S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像,包括如下步骤:
将所述视频数据中序号为n-a的帧作为参考帧,从所述视频数据中抽取该参考帧的图像。
所述步骤S100和步骤S200之间,还包括如下步骤:
判断当前检测帧的序号n是否为预设系数a的整数倍;
如果是,则继续步骤S200,即再使用帧差法扩充候选框;
如果否,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500。
在该实施例中,存在当前检测帧的序号不是a的整数倍,而前一检测帧中也没有检测到目标的情况。此种情况下也需要采用帧差法进行候选框的选择。即所述判断当前检测帧的序号n是否为预设系数a的整数倍之后,如果当前检测帧的序号n不是预设系数a的整数倍,则继续如下步骤:
判断前一检测帧是否通过目标检测网络检测到目标位置;
如果是,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500;
如果否,则继续步骤S200,即再使用帧差法确定候选框。
在该实施例中,如果当前检测帧的序号n为预设系数a的整数倍,且前一检测帧通过目标检测网络检测到目标位置,则当前检测帧的候选框包括通过步骤S200~S400得到的候选框和前一检测帧通过目标检测网络检测到的目标位置所对应的候选框。
此处为了进行区分,将采用帧差法确定的候选框作为第一候选框,根据前一检测帧中目标位置确定的候选框作为第二候选框。在不同情况下,输入到目标检测网络中的候选目标区域对应的候选框是不同的,具体如下:
(1)当前检测帧的序号n是预设系数a的倍数,且前一检测帧n-1中检测到目标:当前检测帧的候选框包括第一候选框和第二候选框;
(2)当前检测帧的序号n是预设系数a的倍数,且前一检测帧n-1中未检测到目标:当前检测帧的候选框只包括第一候选框;
(3)当前检测帧的序号n不是预设系数a的倍数,且前一检测帧n-1中检测到目标:当前检测帧的候选框只包括第二候选框;
(4)当前检测帧的序号n不是预设系数a的倍数,且前一检测帧n-1中未检测到目标:当前检测帧的候选框只包括第一候选框。
如图6所示,本发明实施例还提供一种目标检测系统,用于实现所述的目标检测方法,所述系统包括:
第一图像抽取模块M100,用于从视频数据中抽取当前检测帧的图像;
第二图像抽取模块M200,用于从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
候选框选择模块M300,用于计算所述当前检测帧的图像和所述参照帧的图像的差值图,根据所述差值图从当前检测帧选取候选框;
候选区域截取模块M400,用于基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;
目标检测模块M500,用于将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
本发明的目标检测系统可以在高清视频中实现小尺度目标高精度检测识别,首先通过第一图像抽取模块M100、第二图像抽取模块M200和候选框选择模块M300,采用帧差法在高清图像中选择候选框,然后通过候选区域截取模块M400基于候选框在高清图像中截取候选区域图像,通过目标检测模块M500对候选区域图像进行目标检测,一方面通过帧差法实现运动检测,避免在高清图像中遗漏目标,另一方面通过截取候选区域图像进行目标检测而不是对原始高清图像进行目标检测,可以实现小尺度目标检测,大大提高了目标检测的精度,并且相比于直接采用原始高清图像进行目标检测,目标检测网络的输入图像尺寸大大减小,相比现有的计算机视觉算法具有极低的资源消耗和更快的检测速度,更适用于实时目标检测,并且大大降低了误报率。
在本发明的目标检测系统中,各个模块的功能可以采用上述目标检测方法中各个步骤的具体实施方式来实现,此处不再赘述。例如,第一图像抽取模块M100可以采用步骤S100的具体实施方式抽取检测帧,第二图像抽取模块M200可以采用步骤S200的具体实施方式抽取参照帧,候选框选择模块M300可以采用步骤S300和步骤S400的具体实施方式确定候选框,候选区域截取模块M400可以采用步骤S500的具体实施方式截取图像,目标检测模块M500可以采用步骤S600的具体实施方式来实现目标检测。
本发明实施例还提供一种目标检测设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的目标检测方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述目标检测方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
所述目标检测设备中,所述存储器中的程序被处理器执行时实现所述的目标检测方法的步骤,因此,所述设备也可以获得上述目标检测方法的技术效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的目标检测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述目标检测方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
所述计算机存储介质中的程序被处理器执行时实现所述的目标检测方法的步骤,因此,所述计算机存储介质也可以获得上述目标检测方法的技术效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (14)

1.一种目标检测方法,其特征在于,包括如下步骤:
S100:从视频数据中抽取当前检测帧的图像;
S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
S300:计算所述当前检测帧的图像和所述参照帧的图像的差值图;
S400:根据所述差值图从当前检测帧选取候选框;
S500:基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;
S600:将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
2.根据权利要求1所述的目标检测方法,其特征在于,所述步骤S300:根据所述差值图从当前检测帧选取候选框,包括如下步骤:
判断所述差值图是否有像素值超过预设像素阈值的区域;
如果是,则对差值图进行形态学处理,处理后的差值图;
对所述处理后的差值图采用轮廓检测算法检测动态变化区域的轮廓,并输出所述动态变化区域的外接矩形;
根据所述动态变化区域的外接矩形的中心点确定预设候选框尺寸的候选框。
3.根据权利要求1所述的目标检测方法,其特征在于,所述步骤S600:获取所述目标检测网络的输出结果,还包括如下步骤:
将所述目标检测网络中的目标位置所对应的候选框加入到下一个检测帧的候选框中。
4.根据权利要求1所述的目标检测方法,其特征在于,所述步骤S100和步骤S200之间,还包括如下步骤:
判断当前检测帧的序号n是否为预设系数a的整数倍;
如果是,则继续步骤S200;
如果否,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500。
5.根据权利要求4所述的目标检测方法,其特征在于,所述步骤S200:从所述视频数据中抽取当前检测帧之前的一参照帧的图像,包括如下步骤:
将所述视频数据中序号为n-a的帧作为参考帧,从所述视频数据中抽取该参考帧的图像。
6.根据权利要求4所述的目标检测方法,其特征在于,所述判断当前检测帧的序号n是否为预设系数a的整数倍之后,如果当前检测帧的序号n不是预设系数a的整数倍,则继续如下步骤:
判断前一检测帧是否通过目标检测网络检测到目标位置;
如果是,则将前一检测帧通过目标检测网络检测到的目标位置所对应的候选框作为当前检测帧的候选框,然后继续步骤S500;
如果否,则继续步骤S200。
7.根据权利要求4所述的目标检测方法,其特征在于,如果当前检测帧的序号n为预设系数a的整数倍,且前一检测帧通过目标检测网络检测到目标位置,则当前检测帧的候选框包括通过步骤S200~S400得到的候选框和前一检测帧通过目标检测网络检测到的目标位置所对应的候选框。
8.根据权利要求1所述的目标检测方法,其特征在于,所述目标检测网络包括s个依次串联的卷积模块,s≥3;
其中,第2个~第s个卷积模块的输出端分别连接有一检测层,所述目标检测网络的输出结果为各个所述检测层的输出结果的组合。
9.根据权利要求8所述的目标检测方法,其特征在于,所述方法还包括采用如下步骤训练所述目标检测网络:
对训练集中的样本图像进行目标标注处理,得到真实框的坐标信息;
将所述样本图像输入目标检测网络,得到各个所述检测层的输出结果;
将所述检测层的输出结果组合后得到所述目标检测网络的预测框的坐标信息;
根据所述真实框的坐标信息和所述预测框的坐标信息,基于损失函数计算损失值,基于所述损失值反向优化所述目标检测网络。
10.根据权利要求9所述的目标检测方法,其特征在于,将所述样本图像输入目标检测网络之后,所述检测层中加入多个不同尺寸的先验框,将所述先验框与真实框计算IOU后,选择具有最大IOU的先验框在所述样本图像中预测目标。
11.根据权利要求9所述的目标检测方法,其特征在于,所述损失函数基于定位损失函数和置信度损失函数构建,所述定位损失函数为Smooth L1回归损失函数,所述置信度损失函数为softmax损失函数。
12.一种目标检测系统,其特征在于,用于实现权利要求1至11中任一项所述的目标检测方法,所述系统包括:
第一图像抽取模块,用于从视频数据中抽取当前检测帧的图像;
第二图像抽取模块,用于从所述视频数据中抽取当前检测帧之前的一参照帧的图像;
候选框选择模块,用于计算所述当前检测帧的图像和所述参照帧的图像的差值图,根据所述差值图从当前检测帧选取候选框;
候选区域截取模块,用于基于所述候选框的位置在当前检测帧的图像中截取候选区域图像;
目标检测模块,用于将所述候选区域图像输入训练好的目标检测网络,获取所述目标检测网络的输出结果,所述输出结果包括检测到的目标位置。
13.一种目标检测设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任一项所述的目标检测方法的步骤。
14.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至11中任一项所述的目标检测方法的步骤。
CN202110559403.XA 2021-05-21 2021-05-21 目标检测方法、系统、设备及存储介质 Pending CN113192057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110559403.XA CN113192057A (zh) 2021-05-21 2021-05-21 目标检测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110559403.XA CN113192057A (zh) 2021-05-21 2021-05-21 目标检测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113192057A true CN113192057A (zh) 2021-07-30

Family

ID=76984801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110559403.XA Pending CN113192057A (zh) 2021-05-21 2021-05-21 目标检测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113192057A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550062A (zh) * 2022-02-25 2022-05-27 京东科技信息技术有限公司 图像中运动对象的确定方法、装置、电子设备和存储介质
CN114693556A (zh) * 2022-03-25 2022-07-01 英特灵达信息技术(深圳)有限公司 一种高空抛物帧差法运动目标检测去拖影方法
CN118135539A (zh) * 2024-03-08 2024-06-04 酷哇科技有限公司 用于自动驾驶车辆的障碍物检测方法、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062553A (zh) * 2016-11-09 2018-05-22 鹦鹉无人机股份有限公司 包括用于经由神经网络确定目标的表示的设备的无人机、相关确定方法及计算机
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN110660085A (zh) * 2019-09-29 2020-01-07 凯迈(洛阳)测控有限公司 一种适用于光电吊舱的实时视频图像运动目标检测与稳定跟踪方法
CN110929805A (zh) * 2019-12-05 2020-03-27 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质
CN110942449A (zh) * 2019-10-30 2020-03-31 华南理工大学 一种基于激光与视觉融合的车辆检测方法
CN111738211A (zh) * 2020-07-17 2020-10-02 浙江大学 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法
CN111950517A (zh) * 2020-08-26 2020-11-17 司马大大(北京)智能系统有限公司 一种目标检测方法、模型训练方法,电子设备及存储介质
CN112347818A (zh) * 2019-08-08 2021-02-09 初速度(苏州)科技有限公司 一种视频目标检测模型的困难样本图像筛选方法及装置
CN112529943A (zh) * 2020-12-22 2021-03-19 深圳市优必选科技股份有限公司 一种物体检测方法、物体检测装置及智能设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062553A (zh) * 2016-11-09 2018-05-22 鹦鹉无人机股份有限公司 包括用于经由神经网络确定目标的表示的设备的无人机、相关确定方法及计算机
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及系统
CN112347818A (zh) * 2019-08-08 2021-02-09 初速度(苏州)科技有限公司 一种视频目标检测模型的困难样本图像筛选方法及装置
CN110660085A (zh) * 2019-09-29 2020-01-07 凯迈(洛阳)测控有限公司 一种适用于光电吊舱的实时视频图像运动目标检测与稳定跟踪方法
CN110942449A (zh) * 2019-10-30 2020-03-31 华南理工大学 一种基于激光与视觉融合的车辆检测方法
CN110929805A (zh) * 2019-12-05 2020-03-27 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质
CN111738211A (zh) * 2020-07-17 2020-10-02 浙江大学 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法
CN111950517A (zh) * 2020-08-26 2020-11-17 司马大大(北京)智能系统有限公司 一种目标检测方法、模型训练方法,电子设备及存储介质
CN112529943A (zh) * 2020-12-22 2021-03-19 深圳市优必选科技股份有限公司 一种物体检测方法、物体检测装置及智能设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王克强 等: "《人工智能原理及应用》", 天津科学技术出版社, pages: 164 *
陆子幸等: "基于改进帧差法的视觉监控实验系统", 《实验室研究与探索》, no. 09, 15 September 2018 (2018-09-15), pages 28 - 31 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550062A (zh) * 2022-02-25 2022-05-27 京东科技信息技术有限公司 图像中运动对象的确定方法、装置、电子设备和存储介质
CN114693556A (zh) * 2022-03-25 2022-07-01 英特灵达信息技术(深圳)有限公司 一种高空抛物帧差法运动目标检测去拖影方法
CN118135539A (zh) * 2024-03-08 2024-06-04 酷哇科技有限公司 用于自动驾驶车辆的障碍物检测方法、设备及存储介质

Similar Documents

Publication Publication Date Title
US11475660B2 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
Cheng et al. Automated detection of sewer pipe defects in closed-circuit television images using deep learning techniques
JP6180482B2 (ja) マルチキュー・オブジェクトの検出および分析のための方法、システム、製品、およびコンピュータ・プログラム(マルチキュー・オブジェクトの検出および分析)
CN113192057A (zh) 目标检测方法、系统、设备及存储介质
Li et al. Automatic recognition and analysis system of asphalt pavement cracks using interleaved low-rank group convolution hybrid deep network and SegNet fusing dense condition random field
WO2023287276A1 (en) Geographic data processing methods and systems for detecting encroachment by objects into a geographic corridor
Mi et al. A two-stage approach for road marking extraction and modeling using MLS point clouds
CN107563370B (zh) 一种基于视觉注意机制的海上红外目标检测方法
CN115273039B (zh) 一种基于摄像头的小障碍物探测方法
CN114089330B (zh) 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法
US10599946B2 (en) System and method for detecting change using ontology based saliency
Ranyal et al. Enhancing pavement health assessment: An attention-based approach for accurate crack detection, measurement, and mapping
CN112116585B (zh) 图像移除篡改盲检测方法、系统、设备及存储介质
Hara et al. An initial study of automatic curb ramp detection with crowdsourced verification using google street view images
CN114648736B (zh) 基于目标检测的鲁棒工程车辆识别方法及系统
US11792514B2 (en) Method and apparatus for stabilizing image, roadside device and cloud control platform
CN115457505A (zh) 一种摄像头的小障碍物探测方法、装置、设备及存储介质
CN113505860B (zh) 盲区检测训练集的筛选方法、装置、服务器及存储介质
Kadiķis et al. Vehicle classification in video using virtual detection lines
Vishwakarma et al. Design and Augmentation of a Deep Learning Based Vehicle Detection Model for Low Light Intensity Conditions
Gaikwad et al. Applications of unsupervised auto segmentation on Dhule area hyperspectral image for drought and yield prediction
Devyatkin et al. Neural networks modification for solving the traffic signs detection problem
Han et al. Monocular visual obstacle avoidance method for autonomous vehicles based on YOLOv5 in multi lane scenes
Romão et al. Convolutional Neural Networks for Object Detection
Xue et al. Small target modified car parts detection based on improved Faster-RCNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 503-3, 398 Jiangsu Road, Changning District, Shanghai 200050

Applicant after: Shanghai Xijing Technology Co.,Ltd.

Address before: Room 503-3, 398 Jiangsu Road, Changning District, Shanghai 200050

Applicant before: SHANGHAI WESTWELL INFORMATION AND TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210730