CN111680705A - 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 - Google Patents

适于目标检测的mb-ssd方法和mb-ssd特征提取网络 Download PDF

Info

Publication number
CN111680705A
CN111680705A CN202010810771.2A CN202010810771A CN111680705A CN 111680705 A CN111680705 A CN 111680705A CN 202010810771 A CN202010810771 A CN 202010810771A CN 111680705 A CN111680705 A CN 111680705A
Authority
CN
China
Prior art keywords
network
feature extraction
extraction network
classification
ssd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010810771.2A
Other languages
English (en)
Other versions
CN111680705B (zh
Inventor
夏景明
张宇
谈玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010810771.2A priority Critical patent/CN111680705B/zh
Publication of CN111680705A publication Critical patent/CN111680705A/zh
Application granted granted Critical
Publication of CN111680705B publication Critical patent/CN111680705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种适于目标检测的MB‑SSD方法,包括:提取多小目标图像,采用生成对抗网络对提取的多小目标图像进行增强;构建MB‑SSD特征提取网络,所述MB‑SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB‑SSD特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果;再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征;将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维;计算模型损失,训练模型,优化模型参数。本发明能够在分类层中加入相对重合度调整分类结果的方法,来提高SSD算法的分类效果,同时有效的改善了对小目标的检测精度。

Description

适于目标检测的MB-SSD方法和MB-SSD特征提取网络
技术领域
本发明涉及计算机视觉技术领域,具体而言涉及一种用于适于目标检测的MB-SSD方法和MB-SSD特征提取网络。
背景技术
目标检测是计算机视觉领域较为流行的研究方向,可应用于无人驾驶,视屏监控,行人检测,遥感图像检测等领域。传统的目标检测算法首先人工的提取特征,列如SIFT (尺度不变特征变换匹配算法Scale Invariant Feature Transform), HOG(方向梯度直方图特征Histogram of Oriented Gradient), SURF( 加速稳健特征Speeded Up RobustFeatures)等,再将这些人为提取的特征结合分类器进行目标识别,最后再结合相应的策略对目标的位置进行定位,但是对于背景复杂多变,目标复杂多变的场景,人们很难总结出图像的抽象特征,所以传统方法对与目标检测由很大的局限性。基于深度学习提取特征的目标检测算法对于同一目标可以提取其较为丰富的特征,从而使得目标检测的算法更加泛化,对实际场景的目标检测更加适应。基于深度学习的目标检测算法起初是滑动窗口的思想,但是对一张图片截取的框的数量巨大,太过耗时。从而提出用卷积代替全连接的优化方法,该方法虽然可以加速网络的识别速度,但是对于多目标的检测难度剧增。R-CNN检测算法提出候选框区域的思想,通过选择性搜索方法提取大约2000个候选区域,输入神经网络提取特征,通过分类器分类,边框回归修正实现目标定位。R-CNN算法将VOC数据集的准确率由35.1%提升到53.7%。但是R-CNN需要将每个候选框都要再卷积网络中计算一次,非常耗时。
Fast R-CNN采纳了SPP net的方法,加入了ROI Pooling的层,对每个region的特征层上都提取一个固定维度的特征表示,实现通过一次卷积可以提取所有region的特征,并且Fast R-CNN实现了通过网络特征去学习边框信息,使得网络成为了multi-task模型。Faster R-CNN通过加入Region Proposal Network(RPN)网络去寻找目标框代替了Fast R-CNN中较为耗时的选择性搜索。不管是滑动窗口方法,R-CNN算法,Fast R-CNN算法,FasterR-CNN算法都需要提取region proposal,它们都需要two stage才能完成目标检测,对于one stage的算法,其不需要region proposal阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,因此有着更快的检测速度,比较典型的算法如YOLO,SSD,YOLOv2,YOLOv3等。SSD方法结合了YOLO中回归的思想和Faster R-CNN中的Anchor机制,使用全图各个位置的多尺度区域进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。对于稀疏场景下大目标的检测,SDD算法检测的准确率可以超过较为精准的Faster R-CNN,但是对于小目标的检测效果并不好,存在小目标漏检,错检的情况。
发明内容
本发明针对现有技术中的不足,提供一种适于目标检测的MB-SSD方法和MB-SSD特征提取网络,在分类层中加入相对重合度调整分类结果的方法,来提高SSD算法的分类效果,同时有效的改善了对小目标的检测精度。
为实现上述目的,本发明采用以下技术方案:
一种适于目标检测的MB-SSD方法,所述MB-SSD方法包括以下步骤:
S1,提取多小目标图像,采用生成对抗网络对提取的多小目标图像进行增强。
S2,构建MB-SSD特征提取网络,所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB-SSD特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果;再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征;其中,所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同,其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征。
S3,将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维。
S4,计算模型损失,训练模型,优化模型参数。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1中,所述提取多小目标图像的过程包括以下步骤:
S11,将VOC数据集中所有的图片的分辨率调整至至预设的标准尺寸(如300*300),并更新标注中所有目标的位置信息。
S12,输入图片和与其对应的标注。
S13,统计标注中面积小于预设面积阈值(如8000)的目标数量n和标注中所有目标总数N。
S14,对图片进行判断,如果n/N大于预设比例阈值则提取该图片。
S15,输入下一张图片,重复步骤S12至S14,直至遍历VOC数据集中所有图片。
进一步地,所述预设比例阈值为2/3。
步骤S1将提取的多小目标图像输入生成对抗网络进行训练,并用生成对抗网络生成更多的多小目标图像,实现对VOC数据集中多小目标图像的增强。
进一步地,所述主支特征提取网络通过改进VGG16网络得到:将VGG16网络的第6,7,8全连接层去除,并增加依次连接的5个卷积层,得到11个卷积层。
所述步骤S2中,首先改进VGG16作为主支特征提取网络,将第6,7,8全连接层去除,并增加5个卷积层,得到11个卷积层。随后添加分支特征提取网络,分支网络输入特征为主支网络Conv4_3层的特征,首先对特征进行步幅为2的池化操作,随后进行3层步幅为3,卷积核数量为512的卷积操作,随后进行一层步幅为1的池化操作,一层卷积核尺寸为3,卷积核数量为1024的空洞卷积,最后进行2层卷积操作,卷积核尺寸均为1,数量分别为1024,256。添加分支网络的方法可以使浅层用于小目标学习的特征独立完成学习,分支网络中两层用于学习小目标的特征层可以不再受主支网络中较深的网络层反向更新的影响,使得小目标的学习更加精确。随后将主支网络6个特征图,假设其分辨率分别为38×38,19×19,10×10,5×5,3×3,1×1,分支网络的两个特征图假设其分辨率分别为38×38,19×19输入分类定位网络,分别得到[f,f,n×(c+1)],[f,f,n×4]形状的输出,其中f代表输出了特征图的尺寸,n代表该层特征所具有的先验框的数量,c代表分类的类别数,随后根据定位网络的输出通过相对重合度调整分类网络的输出特征。
进一步地,所述根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征的过程包括以下步骤:
S21,假设主支网络的6个特征图的分辨率分别为38×38,19×19,10×10,5×5,3×3,1×1,分支网络的2个特征图的分辨率分别为38×38,19×19。
将主支网络的6个特征图和分支网络的2个特征图输入分类定位网络,分别得到[f,f,n×(c+1)],[f,f,n×4]形状的输出;其中f代表输出特征图的尺寸,n代表该层特征所具有的先验框的数量,c代表分类的类别数。
S22,将分类定位网络的输出形状[38,38,n×(c+1)]转变为[38,38,n,1],[38,38,n×4]转变为[38,38,n,4]。
S23,求同区域不同位置之间的相对IoU值,得到形状为[38,38,n×n]的相对 IoU矩阵
S24,将分类矩阵在第三个维度复制n次,并将其与相对IoU矩阵相乘得到形状为[f,f,n×n,(c+1)]的新分类矩阵。
S25,将更新的分类矩阵在第三个维度每n个元素相加,得到形状为[f,f,n,(c+1)]的分类矩阵,并最终以该分类矩阵作为最终的输出结果。
该方法可以充分利用邻近先验框之间的相似性,加快正例框置信度的学习,从而可以使网络匀出充分的资源去给目标定位,因此该方法对目标的分类与定位的精度的提升皆有作用。
进一步地,步骤S3中,所述将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维的过程包括以下步骤:
将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合,随后将融合的特征进行1×1的卷积进行降维,匹配label的通道数。相较于传统SSD方法用较浅层学习小目标特征,用较深层学习大目标特征,使得网络对小目标的学习并不充分的缺陷,本发明融合了主支的第一个特征层与分支的第一个特征层,主支网络的第二个特征层与分支网络的第二个特征层,可以加深浅层学习的效果。
进一步地,所述MB-SSD特征提取网络的损失函数为:
Figure 638423DEST_PATH_IMAGE001
其中:
Figure 631786DEST_PATH_IMAGE002
为权重系数;
Figure 182854DEST_PATH_IMAGE003
Figure 654286DEST_PATH_IMAGE004
表示第
Figure 223677DEST_PATH_IMAGE005
个正例框与第
Figure 387942DEST_PATH_IMAGE006
个真实框匹配,
Figure 160726DEST_PATH_IMAGE007
表示第
Figure 701428DEST_PATH_IMAGE007
个类别;
Figure 79320DEST_PATH_IMAGE008
表示第i个框第p个输出值;
Figure 211224DEST_PATH_IMAGE009
表示第i个正例框与第j个真实框差值的最大值;
Figure 674567DEST_PATH_IMAGE010
表示正类框的集合,
Figure 550119DEST_PATH_IMAGE011
表示负类框的集合。
基于前述方法,本发明还提及一种用于提升目标检测效果的MB-SSD特征提取网络,所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB-SSD的特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果。
所述主支特征提取网络通过改进VGG16网络得到:将VGG16网络的第6,7,8全连接层去除,并增加依次连接的5个卷积层,得到11个卷积层,用于输出6个第一特征图。
所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同,其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征,用于输出2个第二特征图。
所述主支特征提取网络新增的5个卷积层的输出端与定位网络连接,所述分支特征提取网络的输出端与定位网络连接,分别将输出的6个第一特征图和2个第二特征图导入定位网络,根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征。
所述MB-SSD特征提取网络还包括融合网络,用于将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合,随后将融合的特征进行1×1的卷积进行降维,匹配label的通道数。
本发明的有益效果是:
(1)在分类层中加入相对重合度调整分类结果的方法,来提高SSD算法的分类效果,同时有效的改善了对小目标的检测精度。
(2)对数据集进行提取,将提取出来的数据集通过生成对抗网络实现多小目标图片的增强,可以增加数据集中小目标可用于学习的特征数量。
(3)充分利用邻近先验框之间的相似性,加快正例框置信度的学习,从而可以使网络匀出充分的资源去给目标定位,因此该方法对目标的分类与定位的精度的提升皆有作用。
(4)针对传统SSD方法用较浅层学习小目标特征,用较深层学习大目标特征,使得网络对小目标的学习并不充分的缺陷,本发明融合了主支的第一个特征层与分支的第一个特征层,主支网络的第二个特征层与分支网络的第二个特征层,可以加深浅层学习的效果。
(5)在原始损失的基础上加上了
Figure 782517DEST_PATH_IMAGE009
项,该项不仅可以加快分类的学习,同时可以平均非类的置信度,增加第一置信度与第二置信度之间的差距,提高置信度的权威性。
附图说明
图1是本发明的适于目标检测的MB-SSD方法的流程图。
图2为提取多小目标图片实施流程图。
图3为MB-SSD网络框架图。
图4为根据位置重合度调整置信度实施流程图。
图5是本发明与其他方法均值平均精度的对比图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
具体实施例一
结合图1,本发明提及一种适于目标检测的MB-SSD方法,所述MB-SSD方法包括以下步骤:
S1,提取多小目标图像,采用生成对抗网络对提取的多小目标图像进行增强。
S2,构建MB-SSD特征提取网络,所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB-SSD特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果;再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征;其中,所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同,其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征。
S3,将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维。
S4,计算模型损失,训练模型,优化模型参数。
图1是对本发明提供的一种适于目标检测的MB-SSD方法的流程示意图。具体包括以下步骤:
步骤(1)对数据集进行预处理,将数据里中的图片归一化到300×300的尺寸,随后通过多小目标提取方法将数据集中面积小于8000平方像素的目标数量占总目标数量2/3以上的图像提取出来。提取多小目标图片方法如图2所示,具体步骤如下:
步骤1-1)将VOC数据集中所有的图片resize到300×300,并跟新label中所有object的位置信息。
步骤1-2)输入图片,与其对应的label。
步骤1-3)统计label中面积小于8000的object数量n,与object的总数N。
步骤1-4)若n/N>2/3则提取该图片。
步骤1-5)输入下一张图片,直至遍历VOC数据集中所有图片。
随后将提取出的所有多小目标图像送入生成对抗网络,生成更多的多小目标图像,再将生成的图像放入初始数据集,实现对多小目标图像的增强。
步骤2)搭建MB-SSD网络框架,首先改进VGG16作为主干提取网络,将VGG16的第五个池化层步幅设为1,padding设为SAME,将第6,7,8全连接层去除,并增加5个卷积层,得到11个卷积层。随后添加分支特征提取网络,分支网络输入特征为主支网络Conv4_3层的特征,首先对特征进行步幅为2的pooling,随后进行3层步幅为3,卷积核数量为512的卷积操作,随后进行一层步幅为1的池化操作,一层卷积核尺寸为3,卷积核数量为1024的空洞卷积,最后进行2层卷积操作,卷积核尺寸均为1,数量分别为1024,256。提取主支网络conv4_3,fc7,conv6_2,conv7_2,conv8_2,conv9_2层的特征图,尺寸分别为38×38,19×19,10×10,5×,3×3,1×1,与分支网络对应主支网络conv4_3,fc7层的特征图,尺寸分别为38×38,19×19输入分类定位网络,分别得到[f,f,n×(c+1)],[f,f,n×4]形状的输出,其中f代表输出了特征图的尺寸,n代表该层特征所具有的先验框的数量,c代表分类的类别数。在分支网络后添加相对重合度调整层,方法流程如图4,该层的方法思想为根据定位网络同cell上先验框的位置的重合度去调整分类值,具体操作如下:
(1)转换分类定位网络的输出形状[38,38,n×(c+1)]转变为[38,38,n,1],[38,38,n×4]转变为[38,38,n,4]。
(2)求同cell不同位置之间的相对 IoU值,等到形状为[38,38,n×n]的相对 IoU矩阵。
(3)将分类矩阵在第三个维度复制n次,并将其与相对 IoU矩阵相乘得到形状为[f,f,n×n,(c+1)]的新分类矩阵。
(4)将更新的分类矩阵在第三个维度每n个元素想加,得到形状为[f,f,n,(c+1)]的分类矩阵,并最终以该分类矩阵作为最终的输出结果。
步骤3)将主支前两块类别特征位置特征分别与分支两块类别特征位置特征进行融合,并将融合特征经过1×1卷积进行降维,恢复分类网络与定位网络的通道数,分类网络的通道数为4×num_priors,定位网络得通道数为4×4。
步骤4)对网络进行训练与测试,首先对网络参数进行初始化,网络训练网络采用随机梯度下降法进行训练,分别计算图像位置的损失
Figure 836055DEST_PATH_IMAGE012
与分类的损失
Figure 786693DEST_PATH_IMAGE013
,再计算SSD方法的总损失
Figure 465936DEST_PATH_IMAGE014
,这里的总损失是位置损失与分类损失的加权和。
总损失定义如下:
Figure 552841DEST_PATH_IMAGE015
其中:
Figure 495389DEST_PATH_IMAGE016
代表正例框的数量;
Figure 730061DEST_PATH_IMAGE017
为权重系数,训练时设为1; c表示网络预测置信度的值。
位置损失定义如下:
Figure 885099DEST_PATH_IMAGE018
Figure 154406DEST_PATH_IMAGE019
其中:
Figure 736698DEST_PATH_IMAGE020
表示网络预测位置的值;
Figure 728441DEST_PATH_IMAGE021
表示groundtruth位置值;
Figure 687170DEST_PATH_IMAGE022
分别表示候选框的中心的横坐标、纵坐标、宽和高。
分类损失定义如下:
Figure 810984DEST_PATH_IMAGE001
其中:
Figure 829755DEST_PATH_IMAGE023
为权重系数,训练时设为1;
Figure 242282DEST_PATH_IMAGE024
Figure 801440DEST_PATH_IMAGE004
表示第
Figure 717443DEST_PATH_IMAGE005
个正例框与第
Figure 969433DEST_PATH_IMAGE006
个真实框匹配,
Figure 603676DEST_PATH_IMAGE007
表示第
Figure 717257DEST_PATH_IMAGE007
个类别;
Figure 487767DEST_PATH_IMAGE008
表示第i个框第p个输出值;
Figure 113920DEST_PATH_IMAGE009
表示第i个正例框与第j个真实框差值的最大值;
Figure 297777DEST_PATH_IMAGE010
表示正类框的集合,
Figure 136420DEST_PATH_IMAGE011
表示负类框的集合。
具体实施例二
使用ILSVR数据集分别对SSD主支与分支特征提取网络进行预训练,选取分类效果最好的参数作为网络初始化参数。随后使用PASCAL VOC训练集对网络进行训练。
数据集:使用ILSVR数据集分别对SSD主支与分支特征提取网络进行预训练,选取分类效果最好的参数作为网络初始化参数。使用PASCAL VOC2012训练集对网络进行训练。使用PASCAL VOC测试集对检测效果进行测试。
实验参数:batch设为32,momentum设为0.9,学习率采用指数衰减方法,初始学习率设为0.01,衰减系数设为0.9。
实验环境:显卡:Nvidia GeForce RTX 2080 Ti,处理器:Intel Core i7-9700K,主板:微星MAG Z390 TOMAHAWK。
实验结果:为客观评价检测效果,本实验采用均值平均精度(MAP)来评估检测质量,本发明与较为主流的几种检测方法(YOLO,Faster R_CNN,SSD)在PASCAL VOC数据集上的测试效果对比,预训练集为ILSVR,数据集为PASCAL VOC2012,几种检测方法对应的均值平均精度mAP(%)分别为:(1)YOLO方法:60.8%,(2)Faster-RCNN方法:70.1%,(3)SSD方法:68.8%,(4)BR-SSD(本发明):72.3%。可以看出,本发明检测精度较其他检测方法要好很多,高出了检测较好的Faster R-CNN方法2.2个百分点。相比于SSD方法如图5对置信度阈值相同的情况下,本发明对小目标检测有着更高的召回率(rescall)与精度(precision)。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种适于目标检测的MB-SSD方法,其特征在于,所述MB-SSD方法包括以下步骤:
S1,提取多小目标图像,采用生成对抗网络对提取的多小目标图像进行增强;
S2,构建MB-SSD特征提取网络,所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB-SSD特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果;再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征;其中,所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同,其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征;
S3,将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维;
S4,计算模型损失,训练模型,优化模型参数。
2.根据权利要求1所述的适于目标检测的MB-SSD方法,其特征在于,步骤S1中,所述提取多小目标图像的过程包括以下步骤:
S11,将VOC数据集中所有的图片的分辨率调整至预设的标准尺寸,并更新标注中所有目标的位置信息;
S12,输入图片和与其对应的标注;
S13,统计标注中面积小于预设面积阈值的目标数量n和标注中所有目标总数N;
S14,对图片进行判断,如果n/N大于预设比例阈值则提取该图片;
S15,输入下一张图片,重复步骤S12至S14,直至遍历VOC数据集中所有图片。
3.根据权利要求2所述的适于目标检测的MB-SSD方法,其特征在于,所述预设比例阈值为2/3。
4.根据权利要求1所述的适于目标检测的MB-SSD方法,其特征在于,所述主支特征提取网络通过改进VGG16网络得到:将VGG16网络的第6,7,8全连接层去除,并增加依次连接的5个卷积层,得到11个卷积层。
5.根据权利要求4所述的适于目标检测的MB-SSD方法,其特征在于,所述根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征的过程包括以下步骤:
S21,假设主支网络的6个特征图的分辨率分别为38×38,19×19,10×10,5×5,3×3,1×1,分支网络的2个特征图的分辨率分别为38×38,19×19;
将主支网络的6个特征图和分支网络的2个特征图输入分类定位网络,分别得到[f,f,n×(c+1)],[f,f,n×4]形状的输出;其中f代表输出特征图的尺寸,n代表该层特征所具有的先验框的数量,c代表分类的类别数;
S22,将分类定位网络的输出形状[38,38,n×(c+1)]转变为[38,38,n,1],[38,38,n×4]转变为[38,38,n,4];
S23,求同区域不同位置之间的相对IoU值,得到形状为[38,38,n×n]的相对 IoU矩阵
S24,将分类矩阵在第三个维度复制n次,并将其与相对IoU矩阵相乘得到形状为[f,f,n×n,(c+1)]的新分类矩阵;
S25,将更新的分类矩阵在第三个维度每n个元素相加,得到形状为[f,f,n,(c+1)]的分类矩阵,并最终以该分类矩阵作为最终的输出结果。
6.根据权利要求1所述的适于目标检测的MB-SSD方法,其特征在于,步骤S3中,所述将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维的过程包括以下步骤:
将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合,随后将融合的特征进行1×1的卷积进行降维,匹配label的通道数。
7.根据权利要求1所述的适于目标检测的MB-SSD方法,其特征在于,所述MB-SSD特征提取网络的损失函数为:
Figure 446179DEST_PATH_IMAGE002
其中:
Figure 19111DEST_PATH_IMAGE004
为权重系数;
Figure 595586DEST_PATH_IMAGE006
Figure 990795DEST_PATH_IMAGE008
表示第i个正例框与j个真实框匹配, p表示p个类别;
Figure 539588DEST_PATH_IMAGE010
表示第i个框第p个输出值;
Figure 34155DEST_PATH_IMAGE012
表示第i个正例框与第j个真实框差值的最大值;
Figure 35609DEST_PATH_IMAGE014
表示正类框的集合,
Figure 31247DEST_PATH_IMAGE016
表示负类框的集合。
8.一种适于目标检测的MB-SSD特征提取网络,其特征在于,所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络,将增强后数据输入MB-SSD的特征提取网络,分别获取主支特征提取网络和分支特征提取网络的分类定位结果;
所述主支特征提取网络通过改进VGG16网络得到:将VGG16网络的第6,7,8全连接层去除,并增加依次连接的5个卷积层,得到11个卷积层,用于输出6个第一特征图;
所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同,其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征,用于输出2个第二特征图;
所述主支特征提取网络新增的5个卷积层的输出端与定位网络连接,所述分支特征提取网络的输出端与定位网络连接,分别将输出的6个第一特征图和2个第二特征图导入定位网络,根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征;
所述MB-SSD特征提取网络还包括融合网络,用于将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合,随后将融合的特征进行1×1的卷积进行降维,匹配label的通道数。
CN202010810771.2A 2020-08-13 2020-08-13 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 Active CN111680705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810771.2A CN111680705B (zh) 2020-08-13 2020-08-13 适于目标检测的mb-ssd方法和mb-ssd特征提取网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810771.2A CN111680705B (zh) 2020-08-13 2020-08-13 适于目标检测的mb-ssd方法和mb-ssd特征提取网络

Publications (2)

Publication Number Publication Date
CN111680705A true CN111680705A (zh) 2020-09-18
CN111680705B CN111680705B (zh) 2021-02-26

Family

ID=72458311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810771.2A Active CN111680705B (zh) 2020-08-13 2020-08-13 适于目标检测的mb-ssd方法和mb-ssd特征提取网络

Country Status (1)

Country Link
CN (1) CN111680705B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861924A (zh) * 2021-01-17 2021-05-28 西北工业大学 一种可见光/红外图像多平台分布式融合多目标检测方法
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN114581790A (zh) * 2022-03-01 2022-06-03 哈尔滨理工大学 基于图像增强与多特征融合的小目标检测方法
CN114925387A (zh) * 2022-04-02 2022-08-19 北方工业大学 基于端边云架构的分拣系统、方法、及可读存储介质
CN116596878A (zh) * 2023-05-15 2023-08-15 湖北纽睿德防务科技有限公司 一种带钢表面缺陷检测方法、系统、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916379A (zh) * 2010-09-03 2010-12-15 华中科技大学 一种基于对象积累视觉注意机制的目标搜索和识别方法
CN108537824A (zh) * 2018-03-15 2018-09-14 上海交通大学 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN108710868A (zh) * 2018-06-05 2018-10-26 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
US20180342077A1 (en) * 2017-05-26 2018-11-29 Fujitsu Limited Teacher data generation apparatus and method, and object detection system
CN109447066A (zh) * 2018-10-18 2019-03-08 中国人民武装警察部队海警学院 一种快速精确的单阶段目标检测方法及装置
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916379A (zh) * 2010-09-03 2010-12-15 华中科技大学 一种基于对象积累视觉注意机制的目标搜索和识别方法
US20180342077A1 (en) * 2017-05-26 2018-11-29 Fujitsu Limited Teacher data generation apparatus and method, and object detection system
CN108537824A (zh) * 2018-03-15 2018-09-14 上海交通大学 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN108710868A (zh) * 2018-06-05 2018-10-26 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
CN109447066A (zh) * 2018-10-18 2019-03-08 中国人民武装警察部队海警学院 一种快速精确的单阶段目标检测方法及装置
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861924A (zh) * 2021-01-17 2021-05-28 西北工业大学 一种可见光/红外图像多平台分布式融合多目标检测方法
CN112861924B (zh) * 2021-01-17 2023-04-07 西北工业大学 一种可见光/红外图像多平台分布式融合多目标检测方法
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN114581790A (zh) * 2022-03-01 2022-06-03 哈尔滨理工大学 基于图像增强与多特征融合的小目标检测方法
CN114925387A (zh) * 2022-04-02 2022-08-19 北方工业大学 基于端边云架构的分拣系统、方法、及可读存储介质
CN116596878A (zh) * 2023-05-15 2023-08-15 湖北纽睿德防务科技有限公司 一种带钢表面缺陷检测方法、系统、电子设备及介质
CN116596878B (zh) * 2023-05-15 2024-04-16 湖北纽睿德防务科技有限公司 一种带钢表面缺陷检测方法、系统、电子设备及介质

Also Published As

Publication number Publication date
CN111680705B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN112926652B (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN113052185A (zh) 一种基于Faster R-CNN的小样本目标检测方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
CN114663769B (zh) 一种基于YOLO v5的水果识别方法
CN111553337A (zh) 一种基于改进锚框的高光谱多目标检测方法
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN111339950B (zh) 一种遥感图像目标检测方法
CN113033371A (zh) 基于csp模型的多级特征融合行人检测方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN115861595A (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
Lin et al. Traffic sign detection algorithm based on improved YOLOv4
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用
CN114627424A (zh) 一种基于视角转化的步态识别方法和系统
CN110717544B (zh) 一种垂直鱼眼镜头下行人属性分析方法及系统
Pang et al. PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN113361336B (zh) 基于注意力机制的视频监控场景下行人视图属性的定位与识别方法
Yang et al. Research on Aircraft Remote Sensing Image Recognition Network Based on Attention Mechanism and TF Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220207

Address after: 224014 room 1601, 16th floor, Yanlong Street innovation center, Yandu District, Yancheng City, Jiangsu Province (d)

Patentee after: YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.

Address before: 210044 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right