CN113076962A - 一种基于可微神经网络搜索技术的多尺度目标检测方法 - Google Patents

一种基于可微神经网络搜索技术的多尺度目标检测方法 Download PDF

Info

Publication number
CN113076962A
CN113076962A CN202110528406.7A CN202110528406A CN113076962A CN 113076962 A CN113076962 A CN 113076962A CN 202110528406 A CN202110528406 A CN 202110528406A CN 113076962 A CN113076962 A CN 113076962A
Authority
CN
China
Prior art keywords
scale
convolution
conv
target detection
conf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528406.7A
Other languages
English (en)
Other versions
CN113076962B (zh
Inventor
刘启和
严张豹
周世杰
张准
董婉祾
王钰涵
但毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110528406.7A priority Critical patent/CN113076962B/zh
Publication of CN113076962A publication Critical patent/CN113076962A/zh
Application granted granted Critical
Publication of CN113076962B publication Critical patent/CN113076962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可微神经网络搜索技术的多尺度目标检测方法,针对不同的数据以及应用场景不需要通过大量的人力来改进已有模型使其满足性能要求,而是通过神经网络结构搜索技术来自动搜索出一个较为理想的网络模型,同时在搜索过程中,考虑了多尺度目标检测,使得搜索出的模型具有良好的检测效果。

Description

一种基于可微神经网络搜索技术的多尺度目标检测方法
技术领域
本发明属于目标检测技术领域,具体涉及一种基于可微神经网络搜索技术的多尺度目标检测方法。
背景技术
近年来,深度学习飞速发展,尤其是神经网络的发展,颠覆了传统问题的解决方式,,与此同时,模型的各种参数也越来越庞大。层出不穷的各种网络模型,使得在对实际问题进行模型选择和设计的时候,很难找出一个最优的模型,即便找出这种模型,其资源消耗也特别巨大。在此背景在,一种针对不同数据自动搜索出最优或者较为最优的神经网络结构的技术—神经网络结构搜索(Neural Architecture Search),受到人们的广泛关注,而在目标检测这一块,尽管研究人员已经提出了许多目标检测方法,但是,大量任务表明这些目标检测算法在实际部署中往往存在一些漏洞,目前主要有三个问题:一、针对不同场景下的数据,利用原始的网络模型,最后训练出的模型其检测效果并不理想。二、为了让模型的检测效果理想,需要人工重新设计和改进已有的网络模型,如在多尺度目标检测中,对不同尺度特征图所提取的位置,往往会随着实际用途或者所处平台而不同,这大大增大了人力成本和资源。三、通过人工设计或改进的模型,大都仍然存在冗余,可以进一步裁剪和改进。
发明内容
针对现有技术中的上述不足,本发明提供的基于可微神经网络搜索技术的多尺度目标检测方法解决了现有的多尺度目标检测过程中需要人工设计改进模型,以致于目标检测效果不理想的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于可微神经网络搜索技术的多尺度目标检测方法,包括以下步骤:
S1、构建基于可微神经网络搜索技术的多尺度目标检测模型;
S2、对多尺度目标检测模型进行训练;
S3、将原始待处理图像输入到训练好的多尺度目标检测模型中,获得多尺度目标检测结果。
本发明的有益效果为:
(1)本发明针对不同的数据以及应用场景不需要通过大量的人力来改进已有模型使其满足性能要求,而是通过神经网络结构搜索技术来自动搜索出一个较为理想的网络模型;
(2)本发明在在网络模型的搜索过程中,考虑了多尺度的目标检测,使得搜索出的模型具有良好的检测效果;
(3)本发明中在进行多尺度特征提取提取时,在单个cell结构中的两个结点之间设计了混合操作,对每个可能的操作均赋予权重,再进行softmax操作,经过这种连续池化后,搜索空间变得可微,而对结构的搜索就变成了对权重的学习,提高了模型检测的准确性;
(4)本发明进行了多尺度特征图提取,并采样SSD算法进行目标检测,保证了对大小差异较大的目标的准确提取;
附图说明
图1为本发明提供的基于可微神经网络搜索技术的多尺度目标检测方法流程图。
图2为本发明提供的多尺度目标检测模型的网络结构示意图。
图3为本发明提供的cell结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于可微神经网络搜索技术的多尺度目标检测方法,包括以下步骤:
S1、构建基于可微神经网络搜索技术的多尺度目标检测模型;
S2、对多尺度目标检测模型进行训练;
S3、将原始待处理图像输入到训练好的多尺度目标检测模型中,获得多尺度目标检测结果。
本实施例的步骤S1中的多尺度目标检测模型如图2所示,包括初始卷积单元、多尺度特征提取单元及分类回归单元;
所述初始卷积单元用于对输入数据进行初步的特征提取,同时确保输入多尺度特征提取单元的特征图的尺寸,其中,输入到多尺度特征提取单元中的特征图的尺寸为38×38;
所述多尺度特征提取单元用于基于可微神经网络搜索技术自动搜索出尺度不通过的6个特征图;
所述分类回归单元用于对多尺度特征提取单元提取的6个特征图进行目标检测。
上述初始卷积单元包括依次连接的第一3×3卷积层、第二3×3卷积层、第一2×2最大池化层、第三3×3卷积层、第二2×2最大池化层、第四3×3卷积层和第三2×2最大池化层;
其中,所述第一3×3卷积层、第二3×3卷积层、第三3×3卷积层和第四3×3卷积层后均添加有Relu层。
具体地,设置原始输入图像x的大小为300×300×3,即图像长宽为300,采用grb通道,pi×qi×mi为第i层输出特征图的大小,其中,p0×q0×m0为初始输入;
第一3×3卷积层表示为:p1×q1×m1=F1(p0×q0×m0),其中,F1表示采用64个padding模式的3×3卷积,输出大小保持不变,此时,输出特征图大小p1×q1×m1=300×300×64;
第二3×3卷积层表示为:p2×q2×m2=F2(p1×q1×m1),其中,F2表示采用64个padding模式的3×3卷积,输出大小保持不变,此时,输出特征图大小p2×q2×m2=300×300×64;
第一2×2最大池化层表示为:p3×q3×m3=F3(p2×q2×m2),其中,F3表示采用64个2×2的最大池化,此时,输出特征图大小p2×q2×m2=150×150×64;
第三3×3卷积层表示为:p4×q4×m4=F4(p3×q3×m3),其中,F4表示采用128个padding模式的3×3卷积,输出大小保持不变,此时,输出特征图大小p4×q4×m4=150×150×128;
第二2×2最大池化层表示为:p5×q5×m5=F5(p4×q4×m4),其中,F5表示采用64个2×2的最大池化,此时,输出特征图大小p5×q5×m5=75×75×128;
第四3×3卷积层表示为:p6×q6×m6=F6(p5×q5×m5),其中,F6表示采用256个padding模式的3×3卷积,输出大小保持不变,此时,输出特征图大小p6×q6×m6=75×75×256;
第三2×2最大池化层表示为::p7×q7×m7=F7(p6×q6×m6),其中,F7表示采用512个ceil-mode方式的2×2的最大池化,此时,输出特征图大小p7×q7×m7=38×8×512。
在SSD目标检测算法中,涉及6个尺度不同的特征图,本实施例中的多尺度特征提取单元包括6个尺度下依次连接的cell结构,cell结构是一种特定的基本结构单元,每个cell输出对应尺度的特征图,从而实现多尺度的目标检测,如图3所示,为一个cell结构的具体结构示意;
每个所述cell结构包括5个结点,前4个结点对输入图像进行卷积及池化操作,在操作过程中,图像x的大小保持不变,第5个结点对输入图像进行reduction操作,在操作过程中,图像x的大小保持不变,使输入每个cell结构输出的图像尺寸减半。
具体地,对于第一个cell结构:L1(x)=Mix(x),其中,L1(x)为经过第1个cell结构后输出的p1×q1阶特征矩阵,Mix(x)为5个结点所进行的一些列混合操作;
其中,第1个结点:l11(x)=o'(1,2)(x),l11(x)为经过第1个cell结构的第1个cell结构的第1个结点后的输出;
第2个结点:l12(x)=o'(2,3)(x),l12(x)为经过第1个cell结构的第1个cell结构的第2个结点后的输出;
第3个结点:l13(x)=o'(3,4)(x),l13(x)为经过第1个cell结构的第1个cell结构的第3个结点后的输出;
第4个结点:l14(x)=o'(4,5)(x),l14(x)为经过第1个cell结构的第1个cell结构的第4个结点后的输出;
第5个结点:l15(x)=N(x),l15(x)为经过第1个cell结构的第5个结点后的输出,N(x)表示不做操作。
基于上述结点构建方法,构建剩余5个cell结构,但是对于第5个结点,采用如下方式:
li5(x)=reduction(x),li5(x)为经过第i个cell结构的第5个结点后的输出,N(x)表示不做操作,reduction(x)表示将x的大小减半。
对于每个cell结构中的5个结点,每个结点可以看做一个特征图,两个结点之间并非单一确定的某个操作,而是由多种操作混合而成的一种混合操作,例如,结点1和结点2之间可能存在5×5卷积操作o1,3×3卷积操作o2,1×1卷积操作o3,以及最大池化操作o4,共四种操作,其对应的权值分别为a1,a2,a3,a4,那么这两个结点之间的混合操作定义为:
Figure BDA0003067215500000061
因此,相邻两个结点之间对图像进行混合操作,所述混合操作的表达式为:
Figure BDA0003067215500000062
式中,o'(i,j)为结点i和结点j之间的混合操作,
Figure BDA0003067215500000063
为结点i和结点j之间原始操作o的权值,o(i,j)为结点i和结点j之间的原始操作,O为原始操作的集合;
基于上述混合操作,对每个可能的操作均赋予权重a,再进行softmax操作,经过这种连续池化后,搜索空间变得可微,而对结构的搜索就变成了对权重a的学习;
对于搜索空间,我们搜索的是两个特征图之间应该选择何种操作,如果特征图P1得到特征图P2,可以由多种大小不同的卷积核得到,或者不采用卷积而使用池化,因此对于每个cell结构,其对特征图进行处理时的操作的集合作为对应的搜索空间;
第一个cell结构的搜索空间f1为:
f1={conv5×5,conv3×3,maxpool3×3,averagepool3×3}
第二个cell结构的搜索空间f2为:
f2={conv5×5,conv3×3,maxpool2×2,averagepool2×2}
第三个cell结构的搜索空间f3为:
f3={conv3×3,conv1×1,maxpool2×2,averagepool2×2}
第四个cell结构的搜索空间f4为:
f4={conv3×3,conv1×1,maxpool1×1,averagepool1×1}
第五个cell结构的搜索空间f5为:
f5={conv3×3,conv1×1,maxpool1×1,averagepool1×1}
第六个cell结构的搜索空间f6为:
f6={conv1×1,maxpool1×1,averagepool1×1}
式中,convK×K为卷积核大小为K的卷积操作,maxpoolK×K为大小为K的最大池化操作,averagepoolK×K为大小为K的均值池化操作。
将上述多尺度目标检测模型中的cell结构的输出作为SSD算法中的多尺度特征图,分别进行分类和检测框的逻辑回归,对特征图的每一个点生成不同数目的默认框,依次为4、6、6、6、4、4;
具体地,分类回归单元包括6个Muti-box层,6个所述Muti-box层的输入依次对应6个cell结构的输出,每个Muti-box层均包括逻辑回归网络和分类网络;
第一个Muti-box层中的逻辑回归网络表示为:
loc1=Conv1(L1)
第二个Muti-box层中的逻辑回归网络表示为:
loc2=Conv2(L2)
第三个Muti-box层中的逻辑回归网络表示为:
loc3=Conv3(L3)
第四个Muti-box层对应的逻辑回归网络表示为:
loc4=Conv4(L4)
第五个Muti-box层中的逻辑回归网络表示为:
loc5=Conv5(L5)
第六个Muti-box层中的逻辑回归网络表示为:
loc6=Conv6(L6)
式中,locp为第p个Muti-box层对应的逻辑回归网络的输出,p=1,2,...,6,其输出大小依次为38×38×16、19×19×24、10×10×24、5×5×24、3×3×16、1×1×16;
Lp为第p个cell结构的输出,其输出大小依次为38×38×512、19×19×512、10×10×512、5×5×512、3×3×512、1×1×512;
Conv1为用16个padding模式的3×3卷积核操作进行卷积操作,Conv2为用24个padding模式的3×3卷积核操作进行卷积操作,Conv3为用24个padding模式的3×3卷积核操作进行卷积操作,Conv4为用24个padding模式的3×3卷积核操作进行卷积操作,Conv5为用16个padding模式的3×3卷积核操作进行卷积操作,Conv6为用16个padding模式的3×3卷积核操作进行卷积操作,
将前6层的输出结合,展开形成大小为1×8732×4的loc7
第一Muti-box层中的分类网络表示为:
conf1=Conv_conf1(L1)
第二Muti-box层中的分类网络表示为:
conf2=Conv_conf2(L2)
第三Muti-box层中的分类网络表示为:
conf3=Conv_conf3(L3)
第四Muti-box层中的分类网络表示为:
conf4=Conv_conf4(L4)
第五Muti-box层中的分类网络表示为:
conf5=Conv_conf5(L5)
第六Muti-box层中的分类网络表示为:
conf6=Conv_conf6(L6)
式中,confp为第p个Muti-box层对应的分类网络的输出,其输出大小依次为38×38×84、19×19×126、10×10×126、5×5×126、3×3×84、1×1×84;
Conv_conf1为用84个padding模式的3×3卷积核操作进行卷积操作,Conv_conf2为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf3为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf4为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf5为用84个padding模式的3×3卷积核操作进行卷积操作,Conv_conf6为用84个padding模式的3×3卷积核操作进行卷积操作;
将前6层的输出结合,展开成大小为1×8732×21的conf7
在本实施例的步骤S2中,对多尺度目标检测模型进行训练的方法具体为:
S21、构建训练样本集合Xtrain={x1,x2,...,xn};
式中,xi为样本,下标1≤i≤n,n为样本总个数;
S22、将训练样本集合中的样本xi依次输入到多尺度目标检测模型中,得到6个尺度的特征图;
S23、进行尺度及比例设置,在6个尺度的特征图上生成先验框;
先验框的尺度遵循线性递增的规则,即随着特征图的大小降低,先验框的尺度线性增加,因此,进行尺度设置的公式为:
Figure BDA0003067215500000091
其中,Sk为第k个特征图的先验框尺度相对于图像的比例,k∈[2,m],m为特征图的数量,Smax为最大尺度,取0.9,Smax为最小尺度,取0.2;对于第一个特征图,其尺度单独设置为0.1;
所述步骤S23中,进行比例设置时,每个尺度下的特征图中先验框的长宽比依次设置为1,2,3,1/2,1/3,1',其中,1'为长宽比为1但是尺度大小为
Figure BDA0003067215500000101
的先验框;
S24、基于生成的先验框,进行正样本及负样本的选择;
具体地,进行正样本和负样本选择的方法具体为:
A1、在每个特征图中,计算每个先验框和对应真实框的IOU值,计算公式为:
IOU=(A∩B)/(A∪B)
式中,A和B分别为先验框和真实框的面积;
A2、将IOU值大于0.5对应的样本作为正样本,将IOU值小于0.5对应的样本作为负样本,且正样本和负样本的比例为1:3;
S25、基于正样本和负样本的选择结果,计算多尺度目标检测模型的损失;
具体地,多尺度目标检测模型的损失的计算公式为:
Figure BDA0003067215500000102
式中,N为先验框对应的样本为正样本的样本数量,Lconf(x,c)为类别损失,Lloc(x,l,g)为位置损失,x为是否匹配的参数值,x={0,1},c为类别置信度预测值,a为经验值,l为先验框的位置预测值,g为真实框的位置参数;
所述位置损失Lloc(x,l,g)采用Smoot hL1损失计算,其表达式为:
Figure BDA0003067215500000103
Figure BDA0003067215500000104
Figure BDA0003067215500000111
Figure BDA0003067215500000112
Figure BDA0003067215500000113
式中,上标cx,cy为框的中心点的横、纵坐标,上标w,h为框的宽和高,
Figure BDA0003067215500000114
为i个default-box与第j个真实框关于类别k是否匹配的参数,
Figure BDA0003067215500000115
d为default-box的位置参数;
所述类别损失函数Lconf(x,c)的计算公式为:
Figure BDA0003067215500000116
Figure BDA0003067215500000117
式中,
Figure BDA0003067215500000118
为第i个default-box与第j个真实框关于类别p是否匹配的参数,
Figure BDA0003067215500000119
Figure BDA00030672155000001110
为第p个类别的预测置信度;
S26、基于损失计算结果,进行多尺度目标检测模型的参数优化,得到训练好的多尺度目标检测模型。
具体地,在定义混合操作时引入结构参数a,并且结构参数通过了softmx进行连续池化,故对于结构参数a和网络参数w,都可以利用梯度下降算法进行优化,因此,进行参数优化时的公式为:
Figure BDA00030672155000001111
式中,a为结构参数,即对操作赋予的权重,w为网络参数,Lval(·)为验证集合样本上的损失值,Ltrain(·)为训练样本集合上的损失值;
上述对结构参数a和网络参数w进行优化的方法具体为:
B1、将结构参数a视为已经训练好的参数,固定不变,在训练样本集上利用梯度下降法优化网络参数w;
B2、将网络参数w视为已经训练好的参数,固定不变,在验证样本集上利用梯度下降法优化结构参数a;
B3、重复步骤B1~B2,对网络参数w和结构参数a进行优化,进而得到训练好的多尺度目标检测模型。
本实施的步骤S3中,利用多尺度目标检测模型对原始待处理图像进行处理,获得多尺度目标检测结果的方法具体为:
S31、通过初始卷积单元对原始待处理图像进行初始卷积处理,获得图像F;
S32、通过多尺度特征提取单元对图像F进行处理,获得6个尺度的特征图;
S33、对每个特征图中的每个像素点生成大小比例不同的先验框;
S34、基于生成的先验框,进行正样本和负样本匹配;
具体地,进行正样本匹配的方法具体为:
设一张图像中,先验框数量为m,真实框数量为n,遍历所有先验框,对每个先验框,其与n个真实框求IOU,得到一个m×n的矩阵A,在矩阵A中按每列找出最大值,用得到n个最大值,进而保证了每个真实框至少有一个匹配的先验框,在矩阵A中按行进行遍历,如果某行是已经进行匹配的,则跳过,否则,找出这一行中超过阈值的IOU的最大值,并认为该先验框匹配对应的真实框。
进行负样本匹配的方法具体为:
计算所有先验框的类别损失,将损失按照从大到小排序得到矩阵B,对于没有作为正样本的先验框框,且其IOU小于阈值,选取B中靠前损失所对应的样本作为负样本,且满足正负样本比例为1:3;
S35、基于正样本和负样本的匹配结果,计算多尺度目标检测的损失,并通过梯度下降法更新多尺度目标检测模型的参数a和w;
S36、基于当前多尺度目标检测模型的参数,选取每个混合操作中参数a最大的操作,并确定其对应的cell结构;
S37、对确定的cell结构输出的特征图进行非极大值抑制操作,获得对应尺度下特征图中的目标检测结果。
具体地,步骤S37具体为:
S37-1、选取当前特征图中置信度前200的所有先验框,构建集合H;
同时,构造用于存放最优框的集合M,并将其初始化为空集;
S37-2、将集合H中的先验框按照置信度进行排序,选出分数最高的先验框m,并将其移动到集合M中;
S37-3、遍历集合H中的先验框,计算分数最高的先验框m的IOU值,并将高于设定IOU阈值的先验框从集合H中删除;
S37-4、重复步骤S37-2~S37-3,直到集合H为空,输出集合M中的先验框,作为多尺度目标检测结果。

Claims (10)

1.一种基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,包括以下步骤:
S1、构建基于可微神经网络搜索技术的多尺度目标检测模型;
S2、对多尺度目标检测模型进行训练;
S3、将原始待处理图像输入到训练好的多尺度目标检测模型中,获得多尺度目标检测结果。
2.根据权利要求1所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S1中的多尺度目标检测模型包括初始卷积单元、多尺度特征提取单元及分类回归单元;
所述初始卷积单元用于对输入数据进行初步的特征提取,同时确保输入多尺度特征提取单元的特征图的尺寸;
所述多尺度特征提取单元用于基于可微神经网络搜索技术自动搜索出尺度不通过的6个特征图;
所述分类回归单元用于对多尺度特征提取单元提取的6个特征图进行目标检测。
3.根据权利要求2所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述初始卷积单元包括依次连接的第一3×3卷积层、第二3×3卷积层、第一2×2最大池化层、第三3×3卷积层、第二2×2最大池化层、第四3×3卷积层和第三2×2最大池化层;
其中,所述第一3×3卷积层、第二3×3卷积层、第三3×3卷积层和第四3×3卷积层后均添加有Relu层。
4.根据权利要求2所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述多尺度特征提取单元包括6个尺度下依次连接的cell结构;
每个所述cell结构包括5个结点,前4个结点对输入图像进行卷积及池化操作,第5个结点对输入图像进行reduction操作,使输入每个cell结构输出的图像尺寸减半。
5.根据权利要求4所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,对于每个cell结构中的5个结点,相邻两个结点之间对图像进行混合操作,所述混合操作的表达式为:
Figure FDA0003067215490000021
式中,o'(i,j)为结点i和结点j之间的混合操作,
Figure FDA0003067215490000022
为结点i和结点j之间原始操作o的权值,o(i,j)为结点i和结点j之间的原始操作,O为原始操作的集合;
基于上述混合操作,对每个可能的操作均赋予权重a,再进行softmax操作;
对于每个cell结构,其对特征图进行处理时的操作的集合作为对应的搜索空间;
第一个cell结构的搜索空间f1为:
f1={conv5×5,conv3×3,maxpool3×3,averagepool3×3}
第二个cell结构的搜索空间f2为:
f2={conv5×5,conv3×3,maxpool2×2,averagepool2×2}
第三个cell结构的搜索空间f3为:
f3={conv3×3,conv1×1,maxpool2×2,averagepool2×2}
第四个cell结构的搜索空间f4为:
f4={conv3×3,conv1×1,maxpool1×1,averagepool1×1}
第五个cell结构的搜索空间f5为:
f5={conv3×3,conv1×1,maxpool1×1,averagepool1×1}
第六个cell结构的搜索空间f6为:
f6={conv1×1,maxpool1×1,averagepool1×1}
式中,convK×K为卷积核大小为K的卷积操作,maxpoolK×K为大小为K的最大池化操作,averagepoolK×K为大小为K的均值池化操作。
6.根据权利要求2所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述分类回归单元包括6个Muti-box层,6个所述Muti-box层的输入依次对应6个cell结构的输出,每个Muti-box层均包括逻辑回归网络和分类网络;
第一个Muti-box层中的逻辑回归网络表示为:
loc1=Conv1(L1)
第二个Muti-box层中的逻辑回归网络表示为:
loc2=Conv2(L2)
第三个Muti-box层中的逻辑回归网络表示为:
loc3=Conv3(L3)
第四个Muti-box层对应的逻辑回归网络表示为:
loc4=Conv4(L4)
第五个Muti-box层中的逻辑回归网络表示为:
loc5=Conv5(L5)
第六个Muti-box层中的逻辑回归网络表示为:
loc6=Conv6(L6)
式中,locp为第p个Muti-box层对应的逻辑回归网络的输出,Lp为第p个cell结构的输出,Conv1为用16个padding模式的3×3卷积核操作进行卷积操作,Conv2为用24个padding模式的3×3卷积核操作进行卷积操作,Conv3为用24个padding模式的3×3卷积核操作进行卷积操作,Conv4为用24个padding模式的3×3卷积核操作进行卷积操作,Conv5为用16个padding模式的3×3卷积核操作进行卷积操作,Conv6为用16个padding模式的3×3卷积核操作进行卷积操作,其中,p=1,2,...,6;
第一Muti-box层中的分类网络表示为:
conf1=Conv_conf1(L1)
第二Muti-box层中的分类网络表示为:
conf2=Conv_conf2(L2)
第三Muti-box层中的分类网络表示为:
conf3=Conv_conf3(L3)
第四Muti-box层中的分类网络表示为:
conf4=Conv_conf4(L4)
第五Muti-box层中的分类网络表示为:
conf5=Conv_conf5(L5)
第六Muti-box层中的分类网络表示为:
conf6=Conv_conf6(L6)
式中,confp为第p个Muti-box层对应的分类网络的输出,Conv_conf1为用84个padding模式的3×3卷积核操作进行卷积操作,Conv_conf2为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf3为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf4为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf5为用84个padding模式的3×3卷积核操作进行卷积操作,Conv_conf6为用84个padding模式的3×3卷积核操作进行卷积操作。
7.根据权利要求4所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S2中,对多尺度目标检测模型进行训练的方法具体为:
S21、构建训练样本集合Xtrain={x1,x2,...,xn};
式中,xi为样本,下标1≤i≤n,n为样本总个数;
S22、将训练样本集合中的样本xi依次输入到多尺度目标检测模型中,得到6个尺度的特征图;
S23、进行尺度及比例设置,在6个尺度的特征图上生成先验框;
S24、基于生成的先验框,进行正样本及负样本的选择;
S25、基于正样本和负样本的选择结果,计算多尺度目标检测模型的损失;
S26、基于损失计算结果,进行多尺度目标检测模型的参数优化,得到训练好的多尺度目标检测模型。
8.根据权利要求7所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S23中,进行尺度设置的公式为:
Figure FDA0003067215490000051
其中,Sk为第k个特征图的先验框尺度相对于图像的比例,k∈[2,m],m为特征图的数量,Smax为最大尺度,取0.9,Smax为最小尺度,取0.2;对于第一个特征图,其尺度单独设置为0.1;
所述步骤S23中,进行比例设置时,每个尺度下的特征图中先验框的长宽比依次设置为1,2,3,1/2,1/3,1',其中,1'为长宽比为1但是尺度大小为
Figure FDA0003067215490000052
的先验框;
所述步骤S24中,进行正样本和负样本选择的方法具体为:
A1、在每个特征图中,计算每个先验框和对应真实框的IOU值,计算公式为:
IOU=(A∩B)/(A∪B)
式中,A和B分别为先验框和真实框的面积;
A2、将IOU值大于0.5对应的样本作为正样本,将IOU值小于0.5对应的样本作为负样本,且正样本和负样本的比例为1:3;
所述步骤S25中,多尺度目标检测模型的损失的计算公式为:
Figure FDA0003067215490000061
式中,N为先验框对应的样本为正样本的样本数量,Lconf(x,c)为类别损失,Lloc(x,l,g)为位置损失,x为是否匹配的参数值,x={0,1},c为类别置信度预测值,a为经验值,l为先验框的位置预测值,g为真实框的位置参数;
所述位置损失Lloc(x,l,g)采用Smoot hL1损失计算,其表达式为:
Figure FDA0003067215490000062
Figure FDA0003067215490000063
Figure FDA0003067215490000064
Figure FDA0003067215490000065
Figure FDA0003067215490000066
式中,上标cx,cy为框的中心点的横、纵坐标,上标w,h为框的宽和高,
Figure FDA0003067215490000067
为i个default-box与第j个真实框关于类别k是否匹配的参数,
Figure FDA0003067215490000068
d为default-box的位置参数;
所述类别损失函数Lconf(x,c)的计算公式为:
Figure FDA0003067215490000069
Figure FDA0003067215490000071
式中,
Figure FDA0003067215490000072
为第i个default-box与第j个真实框关于类别p是否匹配的参数,
Figure FDA0003067215490000073
Figure FDA0003067215490000074
为第p个类别的预测置信度;
所述步骤S26中,对结构参数a和网络参数w进行优化的方法具体为:
B1、将结构参数a视为已经训练好的参数,固定不变,在训练样本集上利用梯度下降法优化网络参数w;
B2、将网络参数w视为已经训练好的参数,固定不变,在验证样本集上利用梯度下降法优化结构参数a;
B3、重复步骤B1~B2,对网络参数w和结构参数a进行优化,进而得到训练好的多尺度目标检测模型。
9.根据权利要求8所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S3中,利用多尺度目标检测模型对原始待处理图像进行处理,获得多尺度目标检测结果的方法具体为:
S31、通过初始卷积单元对原始待处理图像进行初始卷积处理,获得图像F;
S32、通过多尺度特征提取单元对图像F进行处理,获得6个尺度的特征图;
S33、对每个特征图中的每个像素点生成大小比例不同的先验框;
S34、基于生成的先验框,进行正样本和负样本匹配;
S35、基于正样本和负样本的匹配结果,计算多尺度目标检测的损失,并通过梯度下降法更新多尺度目标检测模型的参数a和w;
S36、基于当前多尺度目标检测模型的参数,选取每个混合操作中参数a最大的操作,并确定其对应的cell结构;
S37、对确定的cell结构输出的特征图进行非极大值抑制操作,获得对应尺度下特征图中的目标检测结果。
10.根据权利要求9所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S37具体为:
S37-1、选取当前特征图中置信度前200的所有先验框,构建集合H;
同时,构造用于存放最优框的集合M,并将其初始化为空集;
S37-2、将集合H中的先验框按照置信度进行排序,选出分数最高的先验框m,并将其移动到集合M中;
S37-3、遍历集合H中的先验框,计算分数最高的先验框m的IOU值,并将高于设定IOU阈值的先验框从集合H中删除;
S37-4、重复步骤S37-2~S37-3,直到集合H为空,输出集合M中的先验框,作为多尺度目标检测结果。
CN202110528406.7A 2021-05-14 2021-05-14 一种基于可微神经网络搜索技术的多尺度目标检测方法 Active CN113076962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528406.7A CN113076962B (zh) 2021-05-14 2021-05-14 一种基于可微神经网络搜索技术的多尺度目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528406.7A CN113076962B (zh) 2021-05-14 2021-05-14 一种基于可微神经网络搜索技术的多尺度目标检测方法

Publications (2)

Publication Number Publication Date
CN113076962A true CN113076962A (zh) 2021-07-06
CN113076962B CN113076962B (zh) 2022-10-21

Family

ID=76616923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528406.7A Active CN113076962B (zh) 2021-05-14 2021-05-14 一种基于可微神经网络搜索技术的多尺度目标检测方法

Country Status (1)

Country Link
CN (1) CN113076962B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006249A2 (en) * 1999-07-02 2001-01-25 Conceptual Mindworks, Inc. Organic semiconductor recognition complex and system
US20040023266A1 (en) * 1999-07-02 2004-02-05 Jeevalatha Vivekananda Methods and compositions for aptamers against anthrax
TW200951833A (en) * 2008-04-15 2009-12-16 Novafora Inc Methods and systems for representation and matching of video content
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN108170162A (zh) * 2017-12-30 2018-06-15 天津职业技术师范大学 多尺度风扰分析无人机机群协调控制系统性能评估方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108709574A (zh) * 2015-10-13 2018-10-26 北京信息科技大学 一种用于小波奇异性检测的光纤光栅传感系统
CN108734219A (zh) * 2018-05-23 2018-11-02 北京航空航天大学 一种基于全卷积神经网络结构的端到端撞击坑检测与识别方法
CN110969065A (zh) * 2018-09-30 2020-04-07 北京四维图新科技股份有限公司 车辆检测方法、装置、前车防撞预警设备及存储介质
CN111160205A (zh) * 2019-12-24 2020-05-15 江苏大学 一种交通场景嵌入式多类目标端对端统一检测方法
CN111257341A (zh) * 2020-03-30 2020-06-09 河海大学常州校区 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法
CN111275172A (zh) * 2020-01-21 2020-06-12 复旦大学 一种基于搜索空间优化的前馈神经网络结构搜索方法
CN111652321A (zh) * 2020-06-10 2020-09-11 江苏科技大学 一种基于改进yolov3算法的海上船舶检测方法
CN111723829A (zh) * 2019-03-18 2020-09-29 四川大学 一种基于注意力掩模融合的全卷积目标检测方法
CN111860077A (zh) * 2019-04-30 2020-10-30 北京眼神智能科技有限公司 人脸检测方法、装置、计算机可读存储介质及设备
CN111882048A (zh) * 2020-09-28 2020-11-03 深圳追一科技有限公司 一种神经网络结构搜索方法及相关设备
CN112016512A (zh) * 2020-09-08 2020-12-01 重庆市地理信息和遥感应用中心 基于反馈式多尺度训练的遥感图像小目标检测方法
CN112381030A (zh) * 2020-11-24 2021-02-19 东方红卫星移动通信有限公司 一种基于特征融合的卫星光学遥感图像目标检测方法
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、系统、存储介质、设备、终端及应用
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006249A2 (en) * 1999-07-02 2001-01-25 Conceptual Mindworks, Inc. Organic semiconductor recognition complex and system
US20040023266A1 (en) * 1999-07-02 2004-02-05 Jeevalatha Vivekananda Methods and compositions for aptamers against anthrax
TW200951833A (en) * 2008-04-15 2009-12-16 Novafora Inc Methods and systems for representation and matching of video content
CN108709574A (zh) * 2015-10-13 2018-10-26 北京信息科技大学 一种用于小波奇异性检测的光纤光栅传感系统
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108170162A (zh) * 2017-12-30 2018-06-15 天津职业技术师范大学 多尺度风扰分析无人机机群协调控制系统性能评估方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108734219A (zh) * 2018-05-23 2018-11-02 北京航空航天大学 一种基于全卷积神经网络结构的端到端撞击坑检测与识别方法
CN110969065A (zh) * 2018-09-30 2020-04-07 北京四维图新科技股份有限公司 车辆检测方法、装置、前车防撞预警设备及存储介质
CN111723829A (zh) * 2019-03-18 2020-09-29 四川大学 一种基于注意力掩模融合的全卷积目标检测方法
CN111860077A (zh) * 2019-04-30 2020-10-30 北京眼神智能科技有限公司 人脸检测方法、装置、计算机可读存储介质及设备
CN111160205A (zh) * 2019-12-24 2020-05-15 江苏大学 一种交通场景嵌入式多类目标端对端统一检测方法
CN111275172A (zh) * 2020-01-21 2020-06-12 复旦大学 一种基于搜索空间优化的前馈神经网络结构搜索方法
CN111257341A (zh) * 2020-03-30 2020-06-09 河海大学常州校区 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法
CN111652321A (zh) * 2020-06-10 2020-09-11 江苏科技大学 一种基于改进yolov3算法的海上船舶检测方法
CN112016512A (zh) * 2020-09-08 2020-12-01 重庆市地理信息和遥感应用中心 基于反馈式多尺度训练的遥感图像小目标检测方法
CN111882048A (zh) * 2020-09-28 2020-11-03 深圳追一科技有限公司 一种神经网络结构搜索方法及相关设备
CN112381030A (zh) * 2020-11-24 2021-02-19 东方红卫星移动通信有限公司 一种基于特征融合的卫星光学遥感图像目标检测方法
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、系统、存储介质、设备、终端及应用
CN112651406A (zh) * 2020-12-18 2021-04-13 浙江大学 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
M.LIU: "Towardsbetteranalysisofdeepconvolutionalneuralnetworks", 《IEEETRANSACTIONSONVISUALIZATION&COMPUTERGRAPHICS》 *
刘仕超: "深度强化学习在地形自适应运动技能上的应用", 《科技风》 *
包壮壮等: "脱离预训练的多尺度目标检测网络模型", 《计算机工程》 *
彭艳等: "时空上下文融合的无人艇海面目标跟踪", 《中国科学:技术科学》 *
田娟秀等: "医学图像分析深度学习方法研究与挑战", 《自动化学报》 *
赵永强等: "深度学习目标检测方法综述", 《中国图象图形学报》 *

Also Published As

Publication number Publication date
CN113076962B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN109685152B (zh) 一种基于dc-spp-yolo的图像目标检测方法
CN111882040B (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN111860495B (zh) 一种层级化网络结构搜索方法、设备及可读存储介质
CN107229942B (zh) 一种基于多个分类器的卷积神经网络分类方法
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
CN106897714A (zh) 一种基于卷积神经网络的视频动作检测方法
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN107564007A (zh) 融合全局信息的场景分割修正方法与系统
KR102149355B1 (ko) 연산량을 줄이는 학습 시스템
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN116310386A (zh) 基于浅层自适应增强上下文的CenterNet小目标检测方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN111401405B (zh) 一种多神经网络集成的图像分类方法及系统
CN113076962B (zh) 一种基于可微神经网络搜索技术的多尺度目标检测方法
Hao et al. Architecture self-attention mechanism: Nonlinear optimization for neural architecture search
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN116433980A (zh) 脉冲神经网络结构的图像分类方法、装置、设备及介质
CN115457269A (zh) 一种基于改进DenseNAS的语义分割方法
CN113705724B (zh) 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN115661542A (zh) 一种基于特征关系迁移的小样本目标检测方法
CN115713647A (zh) 基于深度学习的桥梁表观信息三分级识别方法和识别系统
CN115620068A (zh) 一种深度学习模式下的岩石岩性自动识别分类方法
CN111401155B (zh) 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant