CN113283428A - 一种基于fce-ssd方法的图像目标检测方法 - Google Patents

一种基于fce-ssd方法的图像目标检测方法 Download PDF

Info

Publication number
CN113283428A
CN113283428A CN202110820773.4A CN202110820773A CN113283428A CN 113283428 A CN113283428 A CN 113283428A CN 202110820773 A CN202110820773 A CN 202110820773A CN 113283428 A CN113283428 A CN 113283428A
Authority
CN
China
Prior art keywords
convolution
block
resolution
kernel
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110820773.4A
Other languages
English (en)
Other versions
CN113283428B (zh
Inventor
夏景明
张宇
谈玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110820773.4A priority Critical patent/CN113283428B/zh
Publication of CN113283428A publication Critical patent/CN113283428A/zh
Application granted granted Critical
Publication of CN113283428B publication Critical patent/CN113283428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及一种基于FCE‑SSD方法的图像目标检测方法,应用所设计特征单元信息增强网络框架,结合膨胀卷积模块提取特征单元感受野区域信息,并将信息融合进主干特征图中实现特征增强,在保持SSD网络深度情况下,通过特征增强的方式,提高主干网络特征单元感受野回归的精度,实现高精度目标检测定位;相较于传统的目标检测定位方法,精度方面显著提高,尤其在小目标检测方面效果显著;本发明设计方法在PASCAL VOC 2007与2012数据集上进行实验测试,FCE‑VGG平均均值精度值(mAP)可以达到79.1%与79.3%,相比SSD300方法提升了1.6%和1.9%。

Description

一种基于FCE-SSD方法的图像目标检测方法
技术领域
本发明涉及一种基于FCE-SSD方法的图像目标检测方法,属于图像定位技术领域。
背景技术
目标检测是无人驾驶,人脸检测,行人检测,医学图像等领域重要的技术核心。传统的目标检测算法首先人工的提取特征,如SIFT尺度不变特征变换匹配算法, HOG方向梯度直方图特征, SURF加速稳健特征等,再将这些人为提取的特征结合分类器进行目标识别,结合相应的策略对目标的位置进行定位。但是无法应对背景复杂多变,目标复杂多变的场景,所以传统方法对与目标检测由很大的局限性。基于深度学习的目标检测算法起初是滑动窗口的思想,但是对一张图片截取的框的数量巨大,太过耗时,从而提出用卷积代替全连接的优化方法,该方法虽然可以加速网络的识别速度,但是对于多目标的检测难度剧增。R-CNN检测算法提出区域建议的思想,通过选择性搜索方法提取大约2000个候选区域,输入神经网络提取特征,通过SVM分类器分类,边框回归修正实现目标定位。Fast R-CNN采纳了SPP net的方法,加入了ROI Pooling的层,对每个region的特征层上都提取一个固定维度的特征表示,实现通过一种卷积可以提取所有region的特征,并且Fast R-CNN实现了通过网络特征去学习边框信息,使得网络成为了multi-task模型。Faster R-CNN通过加入Region Proposal Network(RPN)去寻找目标框代替了Fast R-CNN中较为耗时的选择性搜索。不管是滑动窗口方法,还是R-CNN算法,Fast R-CNN算法,Faster R-CNN算法都需要区域建议后再通过深度网络检测目标。但是区域建议的过程耗费大量时间。He提出的空间金字塔池化,通过膨胀卷积有效地解决了细节特征丢失的问题。受YOLO利用全卷积完成预测以及空间金字塔提取信息的启发,liu等人提出的高效的one-stage目标检测算法SingleShot MultiBox Detector(SSD)。
SSD目标检测算法是目前较为流行的单阶段检测算法,在保证检测精度的同时,有效的提高了检测的速度,SSD算法结合了YOLO中回归的思想和Faster R-CNN中的Anchor机制,使用全图各个位置的多尺度区域进行回归,既保持了YOLO速度快的特性,也保证了窗口预测跟Faster-RCNN一样比较精准。SSD算法采用分层学习不同目标的策略,浅层一般用于检测小尺度目标,用于学习小尺度目标的浅层网络往往由于学习能力不足,同时浅层特征单元在原图中的感受野较小,学习难度较大,经常存在漏检与错检的情况。 Li提出的Feature Fusion Single Shot Multibox Detector (FSSD),借鉴了FPN的思想,重构了一组pyramid feature map,有效的提高了检测精度,同时检测速度也没有过多下降。Fu介绍了一种deconvolution SSD(DSSD),它使用ResNet替换VGG作为金字塔特征的提取模型,同时加入了反卷积操作,通过skip连接来给浅层特征更好的表征能力,DSSD虽然牺牲了一定的速度,但提高了检测进度。Jeong提出了RSSD,通过rainbow concatenation方式融合不同层的特征,在增加不同层之间地feature map关系的同时也增加了不同层地feature map数量,虽然一定程度上缓解了传统SSD小目标检测问题,但是其对小目标的检测效果依旧很差。
发明内容
本发明所要解决的技术问题是提供一种基于FCE-SSD方法的图像目标检测方法,应用所设计特征单元信息增强网络框架,结合膨胀卷积模块提取特征单元感受野区域信息,并将信息融合进主干特征图中实现特征增强,在保持SSD网络深度情况下,通过特征增强的方式,提高主干网络特征单元感受野回归的精度,实现高精度目标检测定位。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于FCE-SSD方法的图像目标检测方法,基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像,执行步骤i至步骤v,获得目标识别定位模型;并应用目标识别定位模型,针对目标图像实现目标类型对象的定位;
步骤i. 针对VGG16卷积神经网络结构,移除其中3个全连接层,并在其中第五卷积块Conv5之后依次连接空洞卷积块FC7、第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9,构建主网络,然后进入步骤ii;其中,空洞卷积块FC7包括依次串联的两层空洞卷积层,第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9分别均包括两层卷积层;
步骤ii. 分别构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3,然后进入步骤iii;
步骤iii. 第四卷积块中第三卷积层Conv4_3的输出端与第一膨胀卷积块DB1的输出端分别对接第一融合模块的输入端,第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层,空洞卷积块FC7的输出端与第二膨胀卷积块DB2的输出端分别对接第二融合模块的输入端,第二融合层的输出端对接一个卷积核尺寸为3×3的卷积层,第六卷积块中第二卷积层Conv6_2的输出端与第三膨胀卷积块DB3的输出端分别对接第三融合模块的输入端,第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层,并结合第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端,构成六路分支网络,然后进入步骤iv;
步骤iv. 六路分支网络中第一融合层所对接卷积层的输出端、第二融合层所对接卷积层的输出端、第三融合层所对接卷积层的输出端、第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端分别对接SSD方法中分类定位网络的各输入端,并结合主网络,构建以主网络中第一卷积块Conv1输入端、第一膨胀卷积块DB1输入端、第二膨胀卷积块DB2输入端、第三膨胀卷积块DB3输入端为输入,SSD方法中分类定位网络的输出端为输出,构成待训练网络,然后进入步骤v;
步骤v. 根据各幅样本图像,以样本图像为输入,样本图像中目标类型对象定位信息为输出,结合损失函数,针对待训练网络进行训练,获得目标识别定位模型。
作为本发明的一种优选技术方案:所述步骤ii中按如下步骤ii-1至步骤ii-4,构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3;
步骤ii-1. 基于目标识别定位模型输入端所接收图像的尺寸,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸、空洞卷积块FC7所输出特征图的尺寸、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸,根据所接收图像尺寸分别与各输出特征图尺寸的比值,确定第一膨胀卷积块DB1中卷积核的步长、第二膨胀卷积块DB2中卷积核的步长、第三膨胀卷积块DB3中卷积核的步长,同时设定各膨胀卷积块的padding均为same,然后进入步骤ii-2;
步骤ii-2. 基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边、空洞卷积块FC7所对应先验框最长边、第六卷积块中第二卷积层Conv6_2所对应先验框最长边,确定第一膨胀卷积块DB1中卷积核分辨率、第二膨胀卷积块DB2中卷积核分辨率、第三膨胀卷积块DB3中卷积核分辨率,然后进入步骤ii-3;
步骤ii-3. 根据第一膨胀卷积块DB1中卷积核分辨率,在第一膨胀卷积块DB1中并行添加a1分辨率的分支卷积核与a2分辨率的分支卷积核,其中,4*a2=2*a1=第一膨胀卷积块DB1中卷积核分辨率;根据第二膨胀卷积块DB2中卷积核分辨率,在第二膨胀卷积块DB2中并行添加b1分辨率的分支卷积核与b2分辨率的分支卷积核,其中,4*b2=2*b1=第二膨胀卷积块DB2中卷积核分辨率;根据第三膨胀卷积块DB3中卷积核分辨率,在第三膨胀卷积块DB3中并行添加c1分辨率的分支卷积核与c2分辨率的分支卷积核,其中,4*c2=2*c1=第三膨胀卷积块DB3中卷积核分辨率;然后进入步骤ii-4;
步骤ii-4. 分别针对第一膨胀卷积块DB1、第二膨胀卷积块DB2、第三膨胀卷积块DB3,针对膨胀卷积块中由大至小的各卷积核分辨率,顺序按由大至小预设各膨胀率进行转化,更新该膨胀卷积块中各卷积核的分辨率;进而更新第一膨胀卷积块DB1中各卷积核的分辨率、第二膨胀卷积块DB2中各卷积核的分辨率、以及第三膨胀卷积块DB3中各卷积核的分辨率。
作为本发明的一种优选技术方案:所述步骤ii-1中,基于目标识别定位模型输入端所接收图像的尺寸300*300,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10,根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10,确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24;
所述步骤ii-2中,基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边42、空洞卷积块FC7所对应先验框最长边104、第六卷积块中第二卷积层Conv6_2所对应先验框最长边192,确定第一膨胀卷积块DB1中卷积核分辨率60×60、第二膨胀卷积块DB2中卷积核分辨率120×120、第三膨胀卷积块DB3中卷积核分辨率240×240;
所述步骤ii-3中,根据第一膨胀卷积块DB1中卷积核分辨率60×60,在第一膨胀卷积块DB1中并行添加30×30分辨率的分支卷积核与15×15分辨率的分支卷积核;根据第二膨胀卷积块DB2中卷积核分辨率120×120,在第二膨胀卷积块DB2中并行添加60×60分辨率的分支卷积核与30×30分辨率的分支卷积核;根据第三膨胀卷积块DB3中卷积核分辨率240×240,在第三膨胀卷积块DB3中并行添加120×120分辨率的分支卷积核与60×60分辨率的分支卷积核;
所述步骤ii-4中,针对第一膨胀卷积块DB1中60×60卷积核分辨率、30×30卷积核分辨率、15×15卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第一膨胀卷积块DB1中各卷积核的分辨率;针对第二膨胀卷积块DB2中120×120卷积核分辨率、60×60卷积核分辨率、30×30卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第二膨胀卷积块DB2中各卷积核的分辨率;针对第三膨胀卷积块DB3中240×240卷积核分辨率、120×120卷积核分辨率、60×60卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第三膨胀卷积块DB3中各卷积核的分辨率。
作为本发明的一种优选技术方案:所述第一融合模块、第二融合模块、第三融合模块均采用concate方式融合,且axis=2。
作为本发明的一种优选技术方案:所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中,SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块;各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端,该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端;各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端,末端合并模块的输出端构成待训练网络进行训练的输出端。
作为本发明的一种优选技术方案,所述步骤v中的损失函数如下:
Figure 364451DEST_PATH_IMAGE001
其中:
Figure 398266DEST_PATH_IMAGE002
为权重系数;
Figure 549018DEST_PATH_IMAGE003
表示第
Figure 148627DEST_PATH_IMAGE004
个正例框与第
Figure 225167DEST_PATH_IMAGE005
个真实框匹 配,且该真实框的实际类别为第
Figure 746278DEST_PATH_IMAGE006
个类别,
Figure 432212DEST_PATH_IMAGE007
表示第
Figure 355169DEST_PATH_IMAGE004
个正例框与第
Figure 602611DEST_PATH_IMAGE005
个真实框不匹 配,
Figure 345439DEST_PATH_IMAGE008
表示第
Figure 837993DEST_PATH_IMAGE005
个真实框对应的所有类别值,
Figure 615457DEST_PATH_IMAGE009
表示与第
Figure 830537DEST_PATH_IMAGE005
个真实框相匹配的第
Figure 795082DEST_PATH_IMAGE004
个正例 框,
Figure 589863DEST_PATH_IMAGE006
表示第
Figure 517105DEST_PATH_IMAGE006
个类别;
Figure 106350DEST_PATH_IMAGE010
表示第
Figure 89349DEST_PATH_IMAGE004
个正例框对应的第
Figure 156662DEST_PATH_IMAGE006
个类别;
Figure 144603DEST_PATH_IMAGE011
表示第
Figure 170328DEST_PATH_IMAGE004
个正 例框与第
Figure 375044DEST_PATH_IMAGE005
个真实框差值的最大值;
Figure 308365DEST_PATH_IMAGE012
表示正例框的集合,
Figure 383769DEST_PATH_IMAGE013
表示负例框的集合。
本发明所述一种基于FCE-SSD方法的图像目标检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明所设计一种基于FCE-SSD方法的图像目标检测方法,应用所设计特征单元信息增强网络框架,结合膨胀卷积模块提取特征单元感受野区域信息,并将信息融合进主干特征图中实现特征增强,在保持SSD网络深度情况下,通过特征增强的方式,提高主干网络特征单元感受野回归的精度,实现高精度目标检测定位;相较于传统的目标检测定位方法,精度方面显著提高,尤其在小目标检测方面效果显著;本发明设计方法在PASCAL VOC2007与 2012数据集上进行实验测试, FCE-VGG平均均值精度值(mAP)可以达到79.1%与79.3%,相比SSD300方法提升了1.6%和1.9%。
附图说明
图1为本发明所设计基于FCE-SSD方法的图像目标检测方法的实施流程图;
图2为本发明所设计基于FCE-SSD方法的图像目标检测方法中改进SSD算法框架图;
图3为特征单元感受野
图4为定焦原理图;
图5为膨胀卷积块结构图;
图6为检测效果图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明提出一种特征单元信息增强的网络框架fce-ssd(feature cell enhancedssd),具体结构在如图2。fce-ssd框架采用本专利提出了一种膨胀卷积模块DB(dilatedconvolutions block)提取特征单元感受野区域信息,并将该信息融合进主干特征图中实现特征增强。在保持SSD网络深度情况下,通过特征增强的方式,提高主干网络提取的特征单元感受野回归的精度。传统SSD算法挑选conv4_3,fc7,conv6_2,conv7_2,conv8_2,conv9_2层提取不同尺度的特征图,其中浅层特征图尺度较大,特征单元感受野较小,不同特征单元分别用于学习其感受野区域内的标签框信息,所以浅层特征图用于检测小目标。如图3所示,浅层特征图上特征单元的数量远大于较深层特征,在网络学习过程中,特征单元需要将其感受野区域收敛至靠近原图上的特征中心附近,相较于深层特征,浅层特征的感受野区域更小,数量也更多,导致浅层学习起来难度更大,因此传统的SSD算法对小物体的学习表现往往不如较大的物体。针对此缺点,fce-ssd对conv4_3,fc7,conv6_2特征提取层分别融合了对应尺度的DB1,DB2,DB3膨胀卷积块以达到增强浅层特征信息的效果。具体改进主要分为改进主干网络、设计卷积块卷积步长、卷积块中添加定焦分支、更改卷积方式为膨胀卷积、改进损失函数,实际应用中,具体如下。
本发明设计了一种基于FCE-SSD方法的图像目标检测方法,基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像,如图1所示,执行步骤i至步骤v,获得目标识别定位模型;并应用目标识别定位模型,针对目标图像实现目标类型对象的定位;这里对于各幅样本图像来说,即明确知晓各幅样本图像中所存在各目标类型对象的定位信息。
步骤i. 针对VGG16卷积神经网络结构,将conv5卷积块中池化层的kernel的strides设为1,padding设为same,移除其中3个全连接层,并在其中第五卷积块Conv5之后依次连接空洞卷积块FC7、第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9,构建主网络,然后进入步骤ii;其中,空洞卷积块FC7包括依次串联的两层空洞卷积层,第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9分别均包括两层卷积层,具体参数设计中,空洞卷积块FC7中第一层卷积核分辨率为3*3*1024、第二层卷积核分比率为1*1*1024;第六卷积块Conv6中包含conv6_1卷积层(kernel:3*3*1024*256;steride:1)与conv6_2卷积层(kernel:3*3*256*512;steride:2);第七卷积块Conv7中包含conv7_1卷积层(kernel:1*1*512*128;steride:1)与conv7_2卷积层(kernel:3*3*128*256;steride:2);第八卷积块Conv8中包含conv8_1卷积层(kernel:1*1*256*128;steride:1)与conv8_2卷积层(kernel:3*3*128*256;steride:1);第九卷积块Conv9中包含conv9_1卷积层(kernel:1*1*256*128;steride:1)与conv9_2卷积层(kernel:3*3*128*256;sterid:1;padding:valid)。
步骤ii. 分别构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3,然后进入步骤iii。
具体实际应用中,上述步骤ii中按如下步骤ii-1至步骤ii-4,构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3。
设计膨胀卷积块的初衷是对各浅层特征提取层的特征单元在原图的感受野区域进行信息二次学习,并将该信息融合进该特征单元中,以达到特征增强的效果,那么我们此时即需要知道各层特征单元的感受野大小,也需要实现膨胀卷积块输出尺寸与对应主干提取层输出特征的尺寸相匹配。其中,感受野区域我们参考了SSD先验框的生成方法,在SSD先验框生成方法中,特征图第(n,m)个特征单元对应的先验框中心坐标为((offset+n-1)*step,(offset+m-1)*step),step是输入图片相对于特征图尺寸的比值,offset是一个比值一般取0.5,相邻的两个先验框中心坐标总是相差(step,step)。因此本发明提出一种用深度神经网络独立地学习每个标签框的信息的方法,即在输入图片上进行一种步长为step的卷积进行特征学习,设置步长为step的卷积方式输出的特征维度可以匹配对应主干特征图的输出维度,具体如下述步骤ii-1至步骤ii-2。
步骤ii-1. 基于目标识别定位模型输入端所接收图像的尺寸,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸、空洞卷积块FC7所输出特征图的尺寸、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸,根据所接收图像尺寸分别与各输出特征图尺寸的比值,确定第一膨胀卷积块DB1中卷积核的步长、第二膨胀卷积块DB2中卷积核的步长、第三膨胀卷积块DB3中卷积核的步长,同时设定各膨胀卷积块的padding均为same,然后进入步骤ii-2。
具体来说,上述步骤ii-1中基于目标识别定位模型输入端所接收图像的尺寸300*300,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10,根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10,确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24。
步骤ii-2. 基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边、空洞卷积块FC7所对应先验框最长边、第六卷积块中第二卷积层Conv6_2所对应先验框最长边,确定第一膨胀卷积块DB1中卷积核分辨率、第二膨胀卷积块DB2中卷积核分辨率、第三膨胀卷积块DB3中卷积核分辨率,然后进入步骤ii-3。
具体来说,上述步骤ii-2中,基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边42、空洞卷积块FC7所对应先验框最长边104、第六卷积块中第二卷积层Conv6_2所对应先验框最长边192,确定第一膨胀卷积块DB1中卷积核分辨率60×60、第二膨胀卷积块DB2中卷积核分辨率120×120、第三膨胀卷积块DB3中卷积核分辨率240×240。
对于待检测图片,越靠近目标中心点区域内的像素值往往关注度越高。如图4,当卷积核覆盖该中心时,更希望让卷积核将注意力放在中心点附近。在SSD算法中,特别小的目标一般是用浅层特征去提取,对于一个远小与60×60分辨率的目标,往往周围很大一块区域的像素是无效的特征,所以单纯使用一种尺寸的卷积核去学习特征单元感受野区域内的信息,效率并不高,因此进一步设计执行如下步骤ii-3。
步骤ii-3. 根据第一膨胀卷积块DB1中卷积核分辨率,在第一膨胀卷积块DB1中并行添加a1分辨率的分支卷积核与a2分辨率的分支卷积核,其中,4*a2=2*a1=第一膨胀卷积块DB1中卷积核分辨率;根据第二膨胀卷积块DB2中卷积核分辨率,在第二膨胀卷积块DB2中并行添加b1分辨率的分支卷积核与b2分辨率的分支卷积核,其中,4*b2=2*b1=第二膨胀卷积块DB2中卷积核分辨率;根据第三膨胀卷积块DB3中卷积核分辨率,在第三膨胀卷积块DB3中并行添加c1分辨率的分支卷积核与c2分辨率的分支卷积核,其中,4*c2=2*c1=第三膨胀卷积块DB3中卷积核分辨率;然后进入步骤ii-4。
具体来说,上述步骤ii-3中,根据第一膨胀卷积块DB1中卷积核分辨率60×60,在第一膨胀卷积块DB1中并行添加30×30分辨率的分支卷积核与15×15分辨率的分支卷积核;根据第二膨胀卷积块DB2中卷积核分辨率120×120,在第二膨胀卷积块DB2中并行添加60×60分辨率的分支卷积核与30×30分辨率的分支卷积核;根据第三膨胀卷积块DB3中卷积核分辨率240×240,在第三膨胀卷积块DB3中并行添加120×120分辨率的分支卷积核与60×60分辨率的分支卷积核。
按上述设计各卷积核尺寸已经近似目标尺寸,这样的设计带来计算量剧增的问题,第三膨胀卷积块DB3中卷积核尺寸达到了240×240分辨率,虽然strides设为step(DB3卷积核的step为32)可以减少巨大的计算量,但是对于3通道的原图,完成单通道输出,参数量就高达172800,若是匹配特征map的通道数,单个卷积核完成卷积,参数量就高达88473600。常规的卷积方式显然是不可行,因此引入了膨胀卷积,在膨胀率大于1时,相同参数量的卷积核可以有更大的感受野,即具体继续执行如下步骤ii-4。
步骤ii-4. 分别针对第一膨胀卷积块DB1、第二膨胀卷积块DB2、第三膨胀卷积块DB3,针对膨胀卷积块中由大至小的各卷积核分辨率,顺序按由大至小预设各膨胀率进行转化,更新该膨胀卷积块中各卷积核的分辨率;进而更新第一膨胀卷积块DB1中各卷积核的分辨率、第二膨胀卷积块DB2中各卷积核的分辨率、以及第三膨胀卷积块DB3中各卷积核的分辨率。
具体来说,上述步骤ii-4中,针对第一膨胀卷积块DB1中60×60卷积核分辨率、30×30卷积核分辨率、15×15卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第一膨胀卷积块DB1中各卷积核的分辨率;针对第二膨胀卷积块DB2中120×120卷积核分辨率、60×60卷积核分辨率、30×30卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第二膨胀卷积块DB2中各卷积核的分辨率;针对第三膨胀卷积块DB3中240×240卷积核分辨率、120×120卷积核分辨率、60×60卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第三膨胀卷积块DB3中各卷积核的分辨率,更新后的结构如图5所示。
步骤iii. 第四卷积块中第三卷积层Conv4_3输出端的输出特征(38,38,512)与第一膨胀卷积块DB1的输出端分别对接第一融合模块的输入端,第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层,空洞卷积块FC7输出端的输出特征(19,19,1024)与第二膨胀卷积块DB2的输出端分别对接第二融合模块的输入端,第二融合层的输出端对接一个卷积核尺寸为3×3的卷积层,第六卷积块中第二卷积层Conv6_2输出端的输出特征(10,10,512)与第三膨胀卷积块DB3的输出端分别对接第三融合模块的输入端,第三融合层的输出端对接一个卷积核尺寸为3×3的卷积层,并结合第七卷积块中第二卷积层Conv7_2输出端的输出特征(5,5,256)、第八卷积块中第二卷积层Conv8_2输出端的输出特征(3,3,256)、第九卷积块中第二卷积层Conv9_2输出端的输出特征(1,1,256),构成六路分支网络,然后进入步骤iv;实际应用中,第一融合模块、第二融合模块、第三融合模块均采用concate方式融合,且axis=2,其中第一融合层所对接卷积层的输出端输出channel为512,第二融合层所对接卷积层输出channel为1024,第三融合层所对接卷积层输出channel为256。
步骤iv. 六路分支网络中第一融合层所对接卷积层的输出端、第二融合层所对接卷积层的输出端、第三融合层所对接卷积层的输出端、第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端分别对接SSD方法中分类定位网络的各输入端,并结合主网络,构建以主网络中第一卷积块Conv1输入端、第一膨胀卷积块DB1输入端、第二膨胀卷积块DB2输入端、第三膨胀卷积块DB3输入端为输入,SSD方法中分类定位网络的输出端为输出,构成待训练网络,然后进入步骤v。
实际应用中,所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中,SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块;各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端,该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端;各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端,末端合并模块的输出端构成待训练网络进行训练的输出端。
步骤v. 根据各幅样本图像,以样本图像为输入,样本图像中目标类型对象定位信息为输出,结合如下损失函数,针对待训练网络进行训练,获得目标识别定位模型。
Figure 78930DEST_PATH_IMAGE001
其中:
Figure 770943DEST_PATH_IMAGE002
为权重系数;
Figure 242375DEST_PATH_IMAGE003
表示第
Figure 703443DEST_PATH_IMAGE004
个正例框与第
Figure 584154DEST_PATH_IMAGE005
个真实框匹配, 且该真实框的实际类别为第
Figure 232305DEST_PATH_IMAGE006
个类别,
Figure 710690DEST_PATH_IMAGE007
表示第
Figure 88582DEST_PATH_IMAGE004
个正例框与第
Figure 361432DEST_PATH_IMAGE005
个真实框不匹配,
Figure 260992DEST_PATH_IMAGE008
表示第
Figure 277490DEST_PATH_IMAGE005
个真实框对应的所有类别值,
Figure 509888DEST_PATH_IMAGE009
表示与第
Figure 156901DEST_PATH_IMAGE005
个真实框相匹配的第
Figure 609005DEST_PATH_IMAGE004
个正例框,
Figure 429193DEST_PATH_IMAGE006
表示第
Figure 719360DEST_PATH_IMAGE006
个类别;
Figure 599591DEST_PATH_IMAGE010
表示第
Figure 208165DEST_PATH_IMAGE004
个正例框对应的第
Figure 566465DEST_PATH_IMAGE006
个类别;
Figure 773456DEST_PATH_IMAGE011
表示第
Figure 762271DEST_PATH_IMAGE004
个正例 框与第
Figure 421923DEST_PATH_IMAGE005
个真实框差值的最大值;
Figure 85379DEST_PATH_IMAGE012
表示正例框的集合,
Figure 350138DEST_PATH_IMAGE013
表示负例框的集合。
将本发明所设计基于FCE-SSD方法的图像目标检测方法应用于实际当中,FCE-VGG模型在PASCAL VOC2007验证集上平均均值精度(mAP)可以达到79.1%,实验结果如下表1所示。
表1在PASCAL VOC2007上与SSD300实验对比
Figure 306593DEST_PATH_IMAGE014
相比传统SSD方法提升了1.6%,该实验证明我们在传统SSD模型中融入特征单元信息增强网络的想法是可行的。我们选取了几个较为先进的模型在PASCAL VOC2012trainval集上训练,分别在PASCAL VOC2012test集上测试模型检测效果,实验结果如下表2所示。
表2 PASCAL VOC2012test上检测均值精度AP(%)
Figure 656802DEST_PATH_IMAGE015
FCE-SSD检测的均值精度值(mAP)达到81.1%。,除了在“飞机”,“奶牛”,“马”,“火车”类别检测AP值外,FCE-VGG都是优于传统SSD300方法。与DSSD算法相比,fce-ssd精度值高了0.6%。除“奶牛”外,有19个种类,本发明设计模型检测精度优于两阶段的Faster RCNN,而SSD方法检测结果中存在更多类别的检测精度不如Fast RCNN,说明本方法提升了单阶段检测算法在检测精度上的优越性。在“盆栽”,“显示器”,“椅子”,“花瓶”这几个小目标的检测上,FCE-SSD检测效果最好,说明本方法对小目标的检测有一定帮助。
图6中挑选了一些具有典型特征的图片作为检测图片,分别是带有复杂多目标场景图,包含大小目标场景图,小目标场景图,以及大目标场景图。图6展示了使用SSD300,FCE-SSD分别在PASCAL VOC2007上检测效果,其中(a)、(d)、(g)、(j)是SSD检测效果图,(b)、(e)、(h)、(k)是FCE-SSD检测效果图,(c)、(f)、(i)(l)是Ground truth。从图(a)、(b)与(c)对比可以看出,两种方法在复杂的多目标场景下均存在一定的漏检情况,但是本方法相较于SSD300表现更好,漏检情况明显改善。(d)、(e)、(f)图中包含了不同尺度的目标,和GT对比可以看出传统SSD方法在该图上存在多检情况。(g)、(h)图展示了两种方法对于小目标检测的能力,从(i)中可以看出该图中共有6个盆栽,本模型可以检测出其中5个,而SSD只能检测出其中4个,显然本方法对提升小目标的检测效果是有效的。最后三张图(j)、(k)、(l)展示了两种方法对大目标的检测效果。两种方法对于大目标物体检测都较为准确,从这三张图中 可以看出第一张图对汽车检测的置信度更高,第二张图对于目标定位更精确。
下面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (6)

1.一种基于FCE-SSD方法的图像目标检测方法,其特征在于:基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像,执行步骤i至步骤v,获得目标识别定位模型;并应用目标识别定位模型,针对目标图像实现目标类型对象的定位;
步骤i. 针对VGG16卷积神经网络结构,移除其中3个全连接层,并在其中第五卷积块Conv5之后依次连接空洞卷积块FC7、第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9,构建主网络,然后进入步骤ii;其中,空洞卷积块FC7包括依次串联的两层空洞卷积层,第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9分别均包括两层卷积层;
步骤ii. 分别构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3,然后进入步骤iii;
步骤iii. 第四卷积块中第三卷积层Conv4_3的输出端与第一膨胀卷积块DB1的输出端分别对接第一融合模块的输入端,第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层,空洞卷积块FC7的输出端与第二膨胀卷积块DB2的输出端分别对接第二融合模块的输入端,第二融合层的输出端对接一个卷积核尺寸为3×3的卷积层,第六卷积块中第二卷积层Conv6_2的输出端与第三膨胀卷积块DB3的输出端分别对接第三融合模块的输入端,第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层,并结合第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端,构成六路分支网络,然后进入步骤iv;
步骤iv. 六路分支网络中第一融合层所对接卷积层的输出端、第二融合层所对接卷积层的输出端、第三融合层所对接卷积层的输出端、第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端分别对接SSD方法中分类定位网络的各输入端,并结合主网络,构建以主网络中第一卷积块Conv1输入端、第一膨胀卷积块DB1输入端、第二膨胀卷积块DB2输入端、第三膨胀卷积块DB3输入端为输入,SSD方法中分类定位网络的输出端为输出,构成待训练网络,然后进入步骤v;
步骤v. 根据各幅样本图像,以样本图像为输入,样本图像中目标类型对象定位信息为输出,结合损失函数,针对待训练网络进行训练,获得目标识别定位模型。
2.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法,其特征在于:所述步骤ii中按如下步骤ii-1至步骤ii-4,构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3;
步骤ii-1. 基于目标识别定位模型输入端所接收图像的尺寸,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸、空洞卷积块FC7所输出特征图的尺寸、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸,根据所接收图像尺寸分别与各输出特征图尺寸的比值,确定第一膨胀卷积块DB1中卷积核的步长、第二膨胀卷积块DB2中卷积核的步长、第三膨胀卷积块DB3中卷积核的步长,同时设定各膨胀卷积块的padding均为same,然后进入步骤ii-2;
步骤ii-2. 基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边、空洞卷积块FC7所对应先验框最长边、第六卷积块中第二卷积层Conv6_2所对应先验框最长边,确定第一膨胀卷积块DB1中卷积核分辨率、第二膨胀卷积块DB2中卷积核分辨率、第三膨胀卷积块DB3中卷积核分辨率,然后进入步骤ii-3;
步骤ii-3. 根据第一膨胀卷积块DB1中卷积核分辨率,在第一膨胀卷积块DB1中并行添加a1分辨率的分支卷积核与a2分辨率的分支卷积核,其中,4*a2=2*a1=第一膨胀卷积块DB1中卷积核分辨率;根据第二膨胀卷积块DB2中卷积核分辨率,在第二膨胀卷积块DB2中并行添加b1分辨率的分支卷积核与b2分辨率的分支卷积核,其中,4*b2=2*b1=第二膨胀卷积块DB2中卷积核分辨率;根据第三膨胀卷积块DB3中卷积核分辨率,在第三膨胀卷积块DB3中并行添加c1分辨率的分支卷积核与c2分辨率的分支卷积核,其中,4*c2=2*c1=第三膨胀卷积块DB3中卷积核分辨率;然后进入步骤ii-4;
步骤ii-4. 分别针对第一膨胀卷积块DB1、第二膨胀卷积块DB2、第三膨胀卷积块DB3,针对膨胀卷积块中由大至小的各卷积核分辨率,顺序按由大至小预设各膨胀率进行转化,更新该膨胀卷积块中各卷积核的分辨率;进而更新第一膨胀卷积块DB1中各卷积核的分辨率、第二膨胀卷积块DB2中各卷积核的分辨率、以及第三膨胀卷积块DB3中各卷积核的分辨率。
3.根据权利要求2所述一种基于FCE-SSD方法的图像目标检测方法,其特征在于:所述步骤ii-1中,基于目标识别定位模型输入端所接收图像的尺寸300*300,以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10,根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10,确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24;
所述步骤ii-2中,基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边42、空洞卷积块FC7所对应先验框最长边104、第六卷积块中第二卷积层Conv6_2所对应先验框最长边192,确定第一膨胀卷积块DB1中卷积核分辨率60×60、第二膨胀卷积块DB2中卷积核分辨率120×120、第三膨胀卷积块DB3中卷积核分辨率240×240;
所述步骤ii-3中,根据第一膨胀卷积块DB1中卷积核分辨率60×60,在第一膨胀卷积块DB1中并行添加30×30分辨率的分支卷积核与15×15分辨率的分支卷积核;根据第二膨胀卷积块DB2中卷积核分辨率120×120,在第二膨胀卷积块DB2中并行添加60×60分辨率的分支卷积核与30×30分辨率的分支卷积核;根据第三膨胀卷积块DB3中卷积核分辨率240×240,在第三膨胀卷积块DB3中并行添加120×120分辨率的分支卷积核与60×60分辨率的分支卷积核;
所述步骤ii-4中,针对第一膨胀卷积块DB1中60×60卷积核分辨率、30×30卷积核分辨率、15×15卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第一膨胀卷积块DB1中各卷积核的分辨率;针对第二膨胀卷积块DB2中120×120卷积核分辨率、60×60卷积核分辨率、30×30卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第二膨胀卷积块DB2中各卷积核的分辨率;针对第三膨胀卷积块DB3中240×240卷积核分辨率、120×120卷积核分辨率、60×60卷积核分辨率,顺序按各膨胀率8、5、3进行转化,更新第三膨胀卷积块DB3中各卷积核的分辨率。
4.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法,其特征在于:所述第一融合模块、第二融合模块、第三融合模块均采用concate方式融合,且axis=2。
5.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法,其特征在于:所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中,SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块;各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端,该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端;各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端,末端合并模块的输出端构成待训练网络进行训练的输出端。
6.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法,其特征在于,所述步骤v中的损失函数如下:
Figure 268831DEST_PATH_IMAGE001
其中:
Figure 886632DEST_PATH_IMAGE002
为权重系数;
Figure 810726DEST_PATH_IMAGE003
表示第
Figure 444970DEST_PATH_IMAGE004
个正例框与第
Figure 948763DEST_PATH_IMAGE005
个真实框匹配,且该 真实框的实际类别为第
Figure 656956DEST_PATH_IMAGE006
个类别,
Figure 518995DEST_PATH_IMAGE007
表示第
Figure 578218DEST_PATH_IMAGE004
个正例框与第
Figure 416861DEST_PATH_IMAGE005
个真实框不匹配,
Figure 245140DEST_PATH_IMAGE008
表示 第
Figure 979878DEST_PATH_IMAGE005
个真实框对应的所有类别值,
Figure 821670DEST_PATH_IMAGE009
表示与第
Figure 932845DEST_PATH_IMAGE005
个真实框相匹配的第
Figure 615630DEST_PATH_IMAGE004
个正例框,
Figure 521269DEST_PATH_IMAGE006
表示第
Figure 351822DEST_PATH_IMAGE006
个类别;
Figure 248714DEST_PATH_IMAGE010
表示第
Figure 317164DEST_PATH_IMAGE004
个正例框对应的第
Figure 128125DEST_PATH_IMAGE006
个类别;
Figure 649236DEST_PATH_IMAGE011
表示第
Figure 69591DEST_PATH_IMAGE004
个正例框与第
Figure 726968DEST_PATH_IMAGE005
个 真实框差值的最大值;
Figure 974410DEST_PATH_IMAGE012
表示正例框的集合,
Figure 484282DEST_PATH_IMAGE013
表示负例框的集合。
CN202110820773.4A 2021-07-20 2021-07-20 一种基于fce-ssd方法的图像目标检测方法 Active CN113283428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110820773.4A CN113283428B (zh) 2021-07-20 2021-07-20 一种基于fce-ssd方法的图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110820773.4A CN113283428B (zh) 2021-07-20 2021-07-20 一种基于fce-ssd方法的图像目标检测方法

Publications (2)

Publication Number Publication Date
CN113283428A true CN113283428A (zh) 2021-08-20
CN113283428B CN113283428B (zh) 2021-10-08

Family

ID=77286784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110820773.4A Active CN113283428B (zh) 2021-07-20 2021-07-20 一种基于fce-ssd方法的图像目标检测方法

Country Status (1)

Country Link
CN (1) CN113283428B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756B (zh) * 2018-01-29 2020-04-14 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法
US20210073558A1 (en) * 2018-12-29 2021-03-11 Beijing Sensetime Technology Development Co., Ltd. Method of detecting target object detection method and device for detecting target object, electronic apparatus and storage medium
CN112580664A (zh) * 2020-12-15 2021-03-30 哈尔滨理工大学 一种基于ssd网络的小目标检测方法
CN112884033A (zh) * 2021-02-06 2021-06-01 浙江净禾智慧科技有限公司 一种基于卷积神经网络的生活垃圾分类检测方法
CN113096184A (zh) * 2021-03-26 2021-07-09 广东工业大学 一种复杂背景下硅藻定位与识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756B (zh) * 2018-01-29 2020-04-14 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
US20210073558A1 (en) * 2018-12-29 2021-03-11 Beijing Sensetime Technology Development Co., Ltd. Method of detecting target object detection method and device for detecting target object, electronic apparatus and storage medium
CN111476219A (zh) * 2020-06-02 2020-07-31 苏州科技大学 智能家居环境中图像目标检测方法
CN112580664A (zh) * 2020-12-15 2021-03-30 哈尔滨理工大学 一种基于ssd网络的小目标检测方法
CN112884033A (zh) * 2021-02-06 2021-06-01 浙江净禾智慧科技有限公司 一种基于卷积神经网络的生活垃圾分类检测方法
CN113096184A (zh) * 2021-03-26 2021-07-09 广东工业大学 一种复杂背景下硅藻定位与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINGMING XIA: "Urban Remote Sensing Scene Recognition Based on Lightweight Convolution Neural Network", 《IEEE ACCESS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质
CN116071709B (zh) * 2023-03-31 2023-06-16 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Also Published As

Publication number Publication date
CN113283428B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111523521B (zh) 一种双支路融合多尺度注意神经网络的遥感图像分类方法
CN110059586B (zh) 一种基于空洞残差注意力结构的虹膜定位分割系统
CN109446922B (zh) 一种实时鲁棒的人脸检测方法
CN111274921A (zh) 一种利用姿态掩模进行人体行为识别的方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109376641B (zh) 一种基于无人机航拍视频的运动车辆检测方法
CN111860587B (zh) 一种用于图片小目标的检测方法
CN109784205B (zh) 一种基于多光谱巡检图像的杂草智能识别方法
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN116681636B (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN115393225A (zh) 一种基于多层次特征提取融合的低光照图像增强方法
CN114782298A (zh) 一种具有区域注意力的红外与可见光图像融合方法
CN115410087A (zh) 一种基于改进YOLOv4的输电线路异物检测方法
CN113283428B (zh) 一种基于fce-ssd方法的图像目标检测方法
CN115223219A (zh) 一种基于改进yolov4的羊脸识别方法
CN114495170A (zh) 一种基于局部抑制自注意力的行人重识别方法及系统
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN111461085A (zh) 一种基于权值共享和上下特征融合的原木检测方法
CN116704188A (zh) 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法
CN116740419A (zh) 一种基于图调控网络的目标检测方法
CN116188859A (zh) 一种基于超分和检测网络的茶叶病害无人机遥感监测方法
CN113160291B (zh) 一种基于图像配准的变化检测方法
CN115690770A (zh) 基于空间注意力特征的非受限场景下的车牌识别方法
CN115641449A (zh) 一种用于机器人视觉的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220207

Address after: 224014 room 1601, 16th floor, Yanlong Street innovation center, Yandu District, Yancheng City, Jiangsu Province (d)

Patentee after: YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.

Address before: 210044 No. 219, Ning six road, Nanjing, Jiangsu

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right