CN111353544B - 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 - Google Patents

一种基于改进的Mixed Pooling-YOLOV3目标检测方法 Download PDF

Info

Publication number
CN111353544B
CN111353544B CN202010146020.5A CN202010146020A CN111353544B CN 111353544 B CN111353544 B CN 111353544B CN 202010146020 A CN202010146020 A CN 202010146020A CN 111353544 B CN111353544 B CN 111353544B
Authority
CN
China
Prior art keywords
target
feature
size
detection
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010146020.5A
Other languages
English (en)
Other versions
CN111353544A (zh
Inventor
郝琨
郭飞
赵璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Chengjian University
Original Assignee
Tianjin Chengjian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Chengjian University filed Critical Tianjin Chengjian University
Priority to CN202010146020.5A priority Critical patent/CN111353544B/zh
Publication of CN111353544A publication Critical patent/CN111353544A/zh
Application granted granted Critical
Publication of CN111353544B publication Critical patent/CN111353544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于改进的Mixed Pooling‑YOLOV3目标检测方法,基于回归的思想进行目标检测算法的设计,实现了多尺度和多标签的分类。本发明基于目前一阶段目标检测方法YOLOV3的不足,设计了基于Darknet‑53结构的DMP网络作为特征提取器;其次,对原有损失函数进行重构,同时也对其参数进行优化,有效提升了检测精度,也使得收敛更加快速。DMP框架兼顾了网络的复杂度与检测的准确率,与常用的目标检测特征提取网络VGG‑16相比降低了模型运算量,本专利方法将计算机视觉的最新进展引入到目标检测领域中,在检测精度和检测速度上都有良好的效果,同时具有更好的性能和推广应用前景。

Description

一种基于改进的Mixed Pooling-YOLOV3目标检测方法
技术领域
本发明涉及计算机视觉、深度学习技术、目标检测的技术领域,特别是涉及一种基于改进的Mixed Pooling-YOLOV3的目标检测方法。
背景技术
作为计算机视觉中最基本和最具有挑战性的问题之一,目标检测近年来受到了极大的关注。目标检测是一项基本计算机视觉任务,它提供了用于图像和视频理解语义分割的基本信息,也能够用于检测数字图像中特定类别视觉对象的实例,因此受到了广泛的关注。目标检测的目的在于开发一个能够提供给计算机视觉应用程序所需基本信息的计算模型和技术:什么样的目标,它是在哪儿?从应用角度来看,目标检测可以分为两个研究主题:“一般物体检测”和“检测应用”,前者的意义在于统一框架下利用不同的目标检测方法去模拟人类的视觉和认知,后者的目的在于针对特定的应用场景下对特定的物体进行检测,如行人检测、人脸检测、文本检测等等。从目标检测的历程来看,目标检测分为两个历史阶段:传统目标检测时期(2014年以前)和基于深度学习的目标检测时期,P.Viola和M.Jones等人首次提出实现了实时人脸检测的Viola-Jones(VJ)detector,VJ detector采用最直接的检测方式,即滑动窗口查看所有可能包含人脸的位置和比例,以便查看是否存在人脸,虽然过程比较简单,VJ detector结合了“图像整体”、“特征选择”和“级联检测”三项重要的技术,极大提升了检测的速度;2005年N.Dalal和B.Triggs等人提出HOG(Histogram of OrientedGradients),HOG被认为当时尺度不变特征变换和形状上下文的重要改进,主要用于检测不同的目标对象类,尤其是行人检测问题;P.Felzenszwalb等人于2008年提出DPM(Deformable Part-based Model),作为一种基于组件的检测算法,创造了传统目标检测方法的巅峰。
伴随着2012年卷积神经网络CNN(Convolutional Neural Network)的出现,目标检测已得到了明显的提升。在深度学习的时代,目标检测大致被分为两大类:“两阶段检测”和“一阶段检测”,前者目标检测是一个由粗略到精细的过程,而后者是一步到位完成。2014年R.Girshick首次提出具有CNN特征的候选区域网络(Region-CNN),其思想简单:首先是通过Selective search区域建议方法对可能存在的目标位置(对象候选框)进行筛选,然后将每个建议框进行缩放,输入到提前训练好的CNN模型(例如AlexNet)中进行特征的提取,最后借助分类器判断各个区域中是否含有特定类型的目标,通过一些的后处理操作(例如非极大值抑制、边框位置回归)等,得到最终目标的位置;同年,K.He等人提出SPPNet(SpatialPyramid Pooling Networks)通过引入SPP(Spatial Pyramid Pooling)解决了R-CNN重复计算大量重叠候选区域的问题,从而避免了反复计算卷积特征,速度明显提升;2015年R.Girshick等人针对SPPNet存在的问题提出了Fast RCNN使得能够在相同网络配置下同时训练检测器和边框回归器,检测速度比R-CNN快200倍;同年,S.Ren等人又提出FasterRCNN,通过引入区域建议网络(RPN Region Proposal Network)实现了第一个接近实时、端到端的深度学习检测器,突破了速度的瓶颈;2017年T.-Y.Lin等人在Faster RCNN的基础上提出了FPN(Feature Pyramid Networks)网络,实现了当时最先进的模型结果。两阶段的目标检测方法虽然在能够实现很高的精确度,但是检测速度还有待提升;2015年R.Joseph首次提出了深度学习时代的一阶段目标检测器YOLO(You Only Look Once),代替了两阶段“proposal detection+verification”的检测模式,相反的它将整个神经网络应用于完整图像,将图像划分为对多个区域,并预测每个区域的边界框和概率。尽管YOLO的检测速度提升了很多,但是与两级检测器相比,它定位的精度却下降了,特别是针对一些小的物体,R.Joseph做出了一系列的改进,并提出了v2和v3版本,进一步改善检测能力,并保持了较高的检测速度。SSD(Single Shot MultiBox Detector)作为第二个一阶段检测器,相对于需要目标建议的方法而言是简单的,因为它完全消除了建议区域的生成和后续像素或特征重采样阶段,将所有的计算封装在单个网络中,使得更加容易训练。
发明内容
本发明的目的在于,针对一阶段目标检测算法YOLOV3存在的精度低、正负样本不均衡及过拟合等问题,将“混合池化”和“重构损失函数”思想融入到YOLOV3的网络结构中,提出一种新型DMP(Darknet based on Mixed Pooling)的目标检测网络框架。本发明能够有效提升检测的精度,且收敛速度更快,使得检测能力进一步提升。
为解决上述技术问题,本发明提供一种基于改进的Mixed Pooling-YOLOV3的目标检测方法,是采用下述技术方案实现的:
一种基于改进的Mixed Pooling-YOLOV3目标检测方法,包括以下步骤:
a.制作非自然场景中的图像数据集,并对部分图像进行预处理操作;
b.数据预处理完成之后根据需要识别的目标类型优化DMP网络参数并开始模型训练;
c.训练完模型之后将采集得到的图像输入到模型中进行测试,实现目标的识别与定位。
一种可能的技术方案中,所述的步骤a中,图像数据集的格式为VOC格式;图像数据集制作时,采集含有各种类型目标对象的图像,利用标签制作工具将所述图像数据集中各类型目标对象进行位置和类别标记,同时采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作,进而制得图像数据集。
一种可能的技术方案中,所述标签制作工具为labelImg标签制作工具,所述图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。
一种可能的技术方案中,所述的模型训练和目标的识别与定位是基于MixedPooling-YOLOV3的DMP框架进行,其是先将输入的图像分成S×S等大的网络单元,目标的中心落在哪个网格单元中,则这个网格单元就负责检测这个目标;然后利用DMP特征提取网络对输入图像进行特征提取,得到一定尺寸大小的特征图,之后继续利用卷积网络进一步完成目标的检测与定位;采用GIoU来衡量检测边框和真实边框之间的差距,GIoU的值越大说明定位误差越小;因为每个格子中都会预测固定数量的边界框,要选择与真实目标置信度值最大的那个边框作为最终检测边框,最理想的情况是GIoU=IoU:找到所有真实边框的集合为GroundTruth(GT)与所有预测边框的集合为DectionResult(DR)的最小闭包最终计算得到GIoU值:
Mixed Pooling-YOLOV3在每一个单元格上为每个边界框预测4个值,记为(tx,ty,tw,th),如果目标网格偏离图像左上角的边距(cx,cy),且它对应锚点框的宽和高(pw,ph),那么最终的网格预测值为
bx=σ(tx)+cx (3) by=σ(ty)+cy (4)
其中,cx,cy是目标网格偏移图像的偏移量;pw,ph是对应锚点框的宽和高;bx,by,bw,bh为最终预测得到的边框坐标值;tx,ty,tw,th为DMP特征提取网络学习目标;x,y为目标对象的中心位置坐标;w,h为目标对象坐标相对于网格的偏移的宽度和高度;所述的x,y,w,h为了数据处理方便,均作归一化处理。
一种可能的技术方案中,所述的DMP框架的0~79层中,共有52个卷积层,其中res层用于解决网络的梯度弥散或者是梯度爆炸的问题;Mixed Pooling层旨在通过降低特征映射的分辨率,同时解决过度拟合的问题。
一种可能的技术方案中,所述的DMP框架的79~111层作为Mixed Pooling-YOLOV3特征交互层,所述的特征交互层分为三个尺寸,每个尺寸内,通过卷积核的方式实现局部的特征交互,通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互。
一种可能的技术方案中,所述的三个尺寸的特征输出尺寸具体如下:
尺寸1:在基础网络之后添加少数卷积层再输出boundingbox信息;
尺寸2:为了实现细粒度的检测,从尺寸1中倒数第二层的卷积层又开始作上采样再与最后一个26*26大小的特征图进行融合操作,同样经过几个卷积层后得到输入图像16倍下采样的特征图,再次输出boundingbox信息,相比尺寸1变为原来的2倍;
尺寸3:从尺寸2输出的特征图基础上再次进行上采样,最后得到相对输入图像8倍下采样的52*52特征图,在此基础上进行分类和回归。
与现有技术相比本发明的有益效果为:本发明基于改进的Mixed Pooling-YOLOV3目标检测方法,本发明在YOLOV3(You Only Look Once:An Incremental Improvement)算法的基础上进行以下两大改进:(1)设计了使用混合池化(Mixed Pooling)的特征提取网络DMP(Darknet based on Mixed Pooling),缓解在训练过程中由于网络过深而造成的过拟合问题,从而减少因下采样而导致特征空间信息丢失.(2)对原有损失函数进行重构,不仅减少梯度消失的情况,而且可以使网络收敛更加快速,同时解决正负样本分布不均衡问题,从而降低分配给分类良好样本的损失;在Pascal VOC数据集上的实验表明,在不影响检测速度的情况下准确率提升了3个百分点左右,且收敛速度变快,使目标检测能力进一步提升。
综上,本发明旨在提出基于改进的Mixed Pooling-YOLOV3目标检测方法,避免了其他目标检测算法的复杂度,利用相对较好的YOLOV3检测算法和神经网络DMP框架实现,DMP框架提取的特征加上局部特征交互,能够有效提升检测目标的精度;另外,该发明在非自然场景中目标检测应用上具有更好的性能和推广应用前景。
附图说明
附图用来提供对本发明作进一步说明,并构成说明书的一部分,并与本发明的实施例一起,旨在便于本发明的理解,并不构成对本发明的限制。
在附图中:
图1是本发明中基于改进Mixed Pooling-YOLOV3的S×S等大单元格预测边框示意图;
图2是本发明中计算先验框anchor所对应的先验框位置示意图;
图3是本发明所使用的DMP网络结构图;
图4是本发明所提供的基于改进的Mixed Pooling-YOLOV3目标检测方法的整体流程图;
图5(a)~(c)是实际测试的效果截图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图4所示,本发明实施例的基于改进的Mixed Pooling-YOLOV3目标检测方法,包括以下步骤:
a.制作非自然场景中的图像数据集,并对部分图像进行预处理操作;
b.数据预处理完成之后根据需要识别的目标类型优化DMP网络参数并开始模型训练;
c.训练完模型之后将采集得到的图像输入到模型中进行测试,实现目标的识别与定位。
前述的步骤a,图像数据集的格式为VOC格式;数据集按照下述方法进行制作,采集含有各种类型目标对象的图像,利用标签制作工具将图像数据集中各类型目标进行位置和类别标记,同时也采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作,进而制得图像数据集。
前述的标签制作工具为labelImg标签制作工具,所述的图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。
前述的模型训练和目标的识别与定位是基于Mixed Pooling-YOLOV3的DMP框架进行;其主要思想是将输入的图像分成S×S等大的网络单元,如图1,目标的中心落在哪个网格单元中,则这个网格单元就负责检测这个目标;然后利用DMP特征提取网络对输入图像进行特征提取,得到一定尺寸大小的特征图,之后继续利用卷积网络进一步完成目标的检测与定位;采用GIoU(Generalized Intersection over Union)来衡量检测边框和真实边框之间的差距,GIoU的值越大说明误差越小。因为每个格子中都会预测固定数量的边界框,要选择与真实目标的置信度值最大的那个检测边界框作为最终检测边框,最理想的情况是GIoU=IoU(Intersection over Union):找到真实边框的集合与预测边框的集合/>的最小闭包/>最终计算得到GIoU值:
如图3所示,基于改进的Mixed Pooling-YOLOV3目标检测方法采用DMP网络结构为目标对象所在的每个单元格预测每个边界框的4个值,记为(tx,ty,tw,th),如果目标网格偏离图像左上角的边距(cx,cy),且它对应锚点框的宽和高(pw,ph)那么最终的网格预测值将为(如图2示)
bx=σ(tx)+cx (3) by=σ(ty)+cy (4)
其中,cx,cy是目标网格偏移图像的偏移量;pw,ph是对应锚点框的宽和高;bx,by,bw,bh为最终预测得到的边框坐标值;tx,ty,tw,th为DMP特征提取网络学习目标;x,y为目标对象的中心位置坐标;w,h为目标对象坐标相对于网格的偏移的宽度和高度;所述的x,y,w,h为了数据处理方便,均作归一化处理。
前述的模型,在准备图像数据集之后,利用DMP特征提取网络对输入图像进行训练,训练在GPU(图形处理器)上进行。所述的DMP框架的0~79层中,共有52个卷积层,其中res层:用于解决网络的梯度弥散或者是梯度爆炸的问题;mixed Pooling层旨在通过降低特征映射的分辨率,同时也可以解决过度拟合问题,其性能优于最大池化和平均池化。DMP框架借鉴darknet-53整合了各主流网络结构性能优异卷积层的优势作为改进的MixedPooling-YOLOV3特征网络提取主要结构。DMP网络结构如图3所示,右侧支路的作用为特征融合和预测。
前述的DMP框架的79~111层作为Mixed Pooling-YOLOV3特征交互层,所述的特征交互层分为三个尺寸,每个尺寸内,通过卷积核的方式实现局部的特征交互,通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互。
前述的三个尺寸的特征图输出尺寸具体如下:
尺寸1:在基础网络之后添加少数卷积层再输出boundingbox信息;
尺寸2:为了实现细粒度的检测,从尺寸1中倒数第二层的卷积层又开始作上采样再与最后一个26*26大小的特征图进行融合操作,同样经过几个卷积层后得到输入图像16倍下采样的特征图,再次输出boundingbox信息,相比尺寸1变为原来的2倍;
尺寸3:从尺寸2输出的特征图基础上再次进行上采样,最后得到相对输入图像8倍下采样的52*52特征图,在此基础上进行分类和回归。
具体地,尺寸1:输入13*13的特征图,一共1024个通道,输出特征图的大小13*13,255个通道,在此基础上进行分类与位置回归。
尺寸2:将84层的13*13、512通道的特征图进行卷积操作,生成13*13、256通道的特征图,然后进行上采样,生成26*26、256通道的特征图,同时与65层26*26、512通道的中尺度的特征图合并,再进行一系列卷积操作。输出26*26大小的特征图,255个通道,然后在此进行分类与位置回归。
尺寸3:将96层的26*26、256通道的特征图进行卷积操作,生成26*26、128通道的特征图,然后进行上采样,生成52*52、512通道的特征图,同时与39层52*52、256通道的中尺度的特征图合并,再进行一系列卷积操作。输出52*52大小的特征图,255个通道,然后在此进行分类与位置回归。
图5(a)~(c)为实际测试的系列结果截图,实际测试时目标的识别与定位。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (3)

1.一种基于改进的Mixed Pooling-YOLOV3目标检测方法,其特征在于,该方法包括以下步骤:
a.制作非自然场景中的图像数据集,并对部分图像进行预处理操作;所述非自然场景中含有各种类型目标对象;
b.数据预处理完成之后根据需要识别的目标类型优化DMP网络参数并开始模型训练;
c.训练完模型之后将采集得到的图像输入到模型中进行测试,实现目标的识别与定位;
所述的模型训练和目标的识别与定位是基于Mixed Pooling-YOLOV3的DMP框架进行,其是先将输入的图像分成S×S等大的网络单元,目标的中心所在的网格单元负责检测这个目标;然后利用DMP特征提取网络对输入图像进行特征提取,得到一定尺寸大小的特征图,之后继续利用卷积网络进一步完成目标的检测与定位;采用GIoU来衡量检测边框和真实边框之间的差距,GIoU的值越大说明定位误差越小;因为每个格子中都会预测固定数量的边界框,要选择与真实目标置信度值最大的那个边框作为最终检测边框,最理想的情况是GIoU=IoU:找到所有真实边框的集合为GroundTruth(GT)与所有预测边框的集合为DectionResult(DR)的最小闭包最终计算得到GIoU值:
Mixed Pooling-YOLOV3在每一个单元格上为每个边界框预测4个值,记为(tx,ty,tw,th),如果目标网格偏离图像左上角的边距(cx,cy),且它对应锚点框的宽和高(pw,ph),那么最终的网格预测值为
bx=σ(tx)+cx (3) by=σ(ty)+cy (4)
其中,cx,cy是目标网格偏移图像的偏移量;pw,ph是对应锚点框的宽和高;bx,by,bw,bh为最终预测得到的边框坐标值;tx,ty,tw,th为DMP特征提取网络学习目标;x,y为目标对象的中心位置坐标;w,h为目标对象坐标相对于网格的偏移的宽度和高度;所述的x,y,w,h为了数据处理方便,均作归一化处理;
所述的DMP框架的0~79层中,共有52个卷积层,其中res层用于解决网络的梯度弥散或者是梯度爆炸的问题;Mixed Pooling层旨在通过降低特征映射的分辨率,同时解决过度拟合的问题;
所述的DMP框架的79~111层作为Mixed Pooling-YOLOV3特征交互层,所述的特征交互层分为三个尺寸,每个尺寸内,通过卷积核的方式实现局部的特征交互,通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互;
所述的三个尺寸的特征输出尺寸具体如下:
尺寸1:在基础网络之后添加少数卷积层再输出boundingbox信息;
尺寸2:为了实现细粒度的检测,从尺寸1中倒数第二层的卷积层又开始作上采样再与最后一个26*26大小的特征图进行融合操作,同样经过几个卷积层后得到输入图像16倍下采样的特征图,再次输出boundingbox信息,相比尺寸1变为原来的2倍;
尺寸3:从尺寸2输出的特征图基础上再次进行上采样,最后得到相对输入图像8倍下采样的52*52特征图,在此基础上进行分类和回归。
2.如权利要求1所述的基于改进的Mixed Pooling-YOLOV3目标检测方法,其特征在于,所述的步骤a中,图像数据集的格式为VOC格式;图像数据集制作时,采集含有各种类型目标对象的图像,利用标签制作工具将所述图像数据集中各类型目标对象进行位置和类别标记,同时采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作,进而制得图像数据集。
3.如权利要求2所述的基于改进的Mixed Pooling-YOLOV3目标检测方法,其特征在于,所述标签制作工具为labelImg标签制作工具,所述图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。
CN202010146020.5A 2020-03-05 2020-03-05 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 Active CN111353544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010146020.5A CN111353544B (zh) 2020-03-05 2020-03-05 一种基于改进的Mixed Pooling-YOLOV3目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010146020.5A CN111353544B (zh) 2020-03-05 2020-03-05 一种基于改进的Mixed Pooling-YOLOV3目标检测方法

Publications (2)

Publication Number Publication Date
CN111353544A CN111353544A (zh) 2020-06-30
CN111353544B true CN111353544B (zh) 2023-07-25

Family

ID=71197260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010146020.5A Active CN111353544B (zh) 2020-03-05 2020-03-05 一种基于改进的Mixed Pooling-YOLOV3目标检测方法

Country Status (1)

Country Link
CN (1) CN111353544B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898539A (zh) * 2020-07-30 2020-11-06 国汽(北京)智能网联汽车研究院有限公司 一种多目标检测方法、装置、系统、设备及可读存储介质
CN112183255A (zh) * 2020-09-15 2021-01-05 西北工业大学 一种基于深度学习的水下目标视觉识别与姿态估计方法
CN112686314B (zh) * 2020-12-30 2023-03-24 苏州科达科技股份有限公司 基于远距离拍摄场景的目标检测方法、装置及存储介质
CN113298130B (zh) * 2021-05-14 2023-05-09 嘉洋智慧安全科技(北京)股份有限公司 目标图像的检测、目标对象检测模型的生成方法
CN113379697B (zh) * 2021-06-06 2022-03-25 湖南大学 基于深度学习的彩色图像龋病识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110363100A (zh) * 2019-06-24 2019-10-22 昆明理工大学 一种基于YOLOv3的视频目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN110363100A (zh) * 2019-06-24 2019-10-22 昆明理工大学 一种基于YOLOv3的视频目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression;Hamid Rezatofighi et al.;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;第658-666页 *
Mixed Pooling for Convolutional Neural Networks;Dingjun Yu et al.;《springer》;20141231;第364-375页 *

Also Published As

Publication number Publication date
CN111353544A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
US20220067335A1 (en) Method for dim and small object detection based on discriminant feature of video satellite data
US20190130232A1 (en) Font identification from imagery
CN107358242B (zh) 目标区域颜色识别方法、装置及监控终端
CN111612008B (zh) 基于卷积网络的图像分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
Gao et al. Counting from sky: A large-scale data set for remote sensing object counting and a benchmark method
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
Wang et al. Small-object detection based on yolo and dense block via image super-resolution
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN102385592B (zh) 图像概念的检测方法和装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN112861917B (zh) 基于图像属性学习的弱监督目标检测方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN112784756B (zh) 人体识别跟踪方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
Cheng et al. A direct regression scene text detector with position-sensitive segmentation
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
Zhang et al. Small object detection with multiple receptive fields
Zhang et al. Residual attentive feature learning network for salient object detection
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant