CN111612017A - 一种基于信息增强的目标检测方法 - Google Patents

一种基于信息增强的目标检测方法 Download PDF

Info

Publication number
CN111612017A
CN111612017A CN202010647374.8A CN202010647374A CN111612017A CN 111612017 A CN111612017 A CN 111612017A CN 202010647374 A CN202010647374 A CN 202010647374A CN 111612017 A CN111612017 A CN 111612017A
Authority
CN
China
Prior art keywords
module
feature
feature map
target
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010647374.8A
Other languages
English (en)
Other versions
CN111612017B (zh
Inventor
史殿习
崔玉宁
刘哲
杨思宁
李林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010647374.8A priority Critical patent/CN111612017B/zh
Publication of CN111612017A publication Critical patent/CN111612017A/zh
Application granted granted Critical
Publication of CN111612017B publication Critical patent/CN111612017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于信息增强的目标检测方法,目的是解决单阶段检测方法精度低的缺点。技术方案是构建由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统,采用训练数据集对目标检测网络进行训练,采用训练后的目标检测系统对单帧图像进行特征提取、语义提升、特征选择、特征融合,识别目标的位置和类别。本发明语义提升模块丰富多尺度特征的语义信息,特征选择模块采用注意力模块增强不同尺度特征图中的有用信息、抑制无用信息,达到了增强信息的目的;特征融合模块将经过特征选择的全局语义特征图融合到多尺度特征图上,使每个特征图都具有更准确的位置和语义信息,提高了检测精度。

Description

一种基于信息增强的目标检测方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于信息增强的的目标检测方法。
背景技术
目标检测是计算机视觉领域重要的研究方向之一,传统的目标检测方法是通过对一定区域内的图像构建特征描述子(如方向梯度直方图等)提取特征,然后利用分类器对特征进行分类实现目标检测,如支持向量机SVM(Support Vector Machine)等。近来随着卷积神经网络的发展,工程特征大部分已经被卷积神经网络特征所取代,目标检测系统在精度和速度上都取得了很大的进步。
当前,基于深度学习的目标检测方法分为双阶段检测方法和单阶段检测方法。
双阶段检测方法采用Fast R-CNN、Faster R-CNN、R-FCN双阶段网络,首先对输入图片提取候选区域,然后对提取的候选区域进行分类和定位。目前,该类方法达到了检测精度非常好的效果,但是存在速度较慢的缺点,达不到实时性的要求。
单阶段检测方法采用SSD(Single Shot MultiBox Detector,单阶段多参考窗口检测器)等单阶段网络直接对设置的默认框进行定位和分类,省略了双阶段方法中提取候选区域的操作,检测速度得到了提升,但是检测精度较双阶段方法略有下降,尤其是对小尺寸目标的检测。出现这种情况主要是因为面向小尺寸目标检测的低层特征的卷积层数少,语义信息不够丰富,导致小目标的检测效果仍然不尽如人意。
FPN(见文献“Lin,Tsung-Yi,et al.Feature pyramid networks for objectdetection[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2017”,Lin Tsung-Yi的论文:目标检测特征金字塔网络)网络通过侧向连接将高层特征丰富的语义逐层传递给低层特征,Libra r-cnn(见文献“Pang,Jiangmiao,et al.Libra r-cnn:Towards balanced learning for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2019”,Pang Jiangmiao的论文:针对目标检测的平衡学习)网络通过特征相加求均值的方法使每层特征都获得了其他所有特征的信息。采用了FPN和Libra r-cnn网络进行特征融合的目标检测方法都是将已有特征直接进行结合,没有经过筛选以抑制无用的信息、增强有用的信息,无法达到很好的融合效果,因此检测精度仍然比较低。
因此,如何充分利用全局信息,在不降低单阶段检测方法速度的同时,提供一种检测精度更高的目标检测方法,是本领域技术人员正在探讨的热点问题。
发明内容
本发明要解决的技术问题是解决目前单阶段检测方法虽然检测速度快,但精度低的缺点。
本发明提供一种基于信息增强的目标检测方法,在单阶段SSD网络中加入注意力机制,达到提升目标检测尤其是小目标检测精度的目的。
为解决上述技术问题,本发明的技术方案是:首先构建由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统。然后选择PASCAL VOC2007、PASCAL 2012的训练集和验证集的组合数据集作为对目标检测网络进行训练的训练数据集,拟合后得到目标检测系统的网络参数。最后采用训练后的目标检测系统对单帧图像进行特征提取、语义提升、特征选择、特征融合,识别目标的位置和类别。
本发明主要包括以下具体步骤:
第一步:构建目标检测系统。该系统由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成。
特征提取模块为一个卷积神经网络,与语义提升模块相连。特征提取模块共包括23个卷积层,5个池化层,共28层。池化层分别为第3、6、10、14、18层,其他层均为卷积层。特征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给语义提升模块。多尺度特征图集合包含六个尺度的特征图,六个尺度的特征图的尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256,分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中,第13层、第21层、第23层、第25层、第27层特征既输出给语义提升模块,也输出给它们各自的下一层。(即,第13层将尺寸为38×38×512的特征图输出给语义提升模块和第14层;第21层将尺寸为19×19×1024的特征图输出给语义提升模块和第22层;第23层将尺寸为10×10×512的特征图输出给语义提升模块和第24层;第25层将尺寸为5×5×256的特征图输出给语义提升模块和第26层;第27层将尺寸为3×3×256的特征图输出给语义提升模块和第28层;第28层将尺寸为1×1×256的特征图输出给语义提升模块。)特征图的尺寸的含义是:前两个维度是特征图中每个通道中的像素长和宽,第三个维度为通道数。以尺寸为10×10×256的特征图为例,256为通道数,前两个维度是特征图中每个通道中的像素点的坐标。
语义提升模块包含一个1×1卷积层和一个ReLU激活函数(见文献“Krizhevsky,Alex,et al.ImageNet Classification with Deep Convolutional Neural Networks[C]//Advances in neural information processing systems,2012”,Krizhevsky,Alex的论文:ImageNet分类与深度卷积神经网络),与特征提取模块、特征选择模块、特征融合模块相连。语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的6个特征图逐张进行卷积操作,将F(I)中的6个特征图的第三个维度统一为256,得到S'(I),将S'(I)发送给ReLU激活函数;ReLU激活函数从1×1卷积网络接收到S'(I),对S'(I)进行激活操作,以提升特征的语义信息,得到S(I),将S(I)输出给特征选择模块和特征融合模块。S(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
特征选择模块与语义提升模块、特征融合模块相连,对S(I)进行选择性地融合,得到全局特征图集合G(I),将G(I)发送给特征融合模块。特征选择模块由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块(含6个注意力模块、归一化模块、通道赋权模块)、第二特征图相加模块、第二变形模块组成。
第一变形模块是对S(I)进行插值和下采样操作的模块,与语义提升模块和第一特征图相加模块相连;对S(I)中的特征图进行上采样或插值操作,统一特征图的尺寸,得到A1(I),将A1(I)发送给第一特征图相加模块,A1(I)包含的6个特征图尺寸都为10×10×256,由于缩小特征图会损失信息,在没引入较大计算量的前提下,为了减少特征图的信息损失,统一将特征图尺寸调整至10×10×256。
第一特征图相加模块与第一变形模块和全局池化模块连接,对A1(I)中的六个特征图执行像素级别的加法操作,获得尺寸为10×10×256的第一全局特征图,记为I2,将I2发送给全局池化模块。
全局池化模块和第一特征图相加模块和非线性增加模块相连,对I2进行全局池化操作,获得第一一维向量A3(I),将A3(I)发送给非线性增加模块。A3(I)中共有256个元素。
非线性增加模块包含一个全连接层和一个ReLU激活函数,与全局池化模块、特征生成模块相连,对A3(I)采用全连接操作,以降低模型复杂度,得到包含16个元素的激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收到A4(I)',对A4(I)'进行激活操作,提升A4(I)'的非线性,得到第二一维向量A4(I),A4(I)中包含16个元素,将A4(I)发送给特征生成模块。
特征生成模块和非线性增加模块、第二特征图相加模块相连。特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成。6个注意力模块均为一层全连接层。注意力模块是一种注意力模型,注意力模型可以宏观上理解为一个查询(Query)到一系列(键Key-值Value)对的映射。将Source(源)中的构成元素想象成由一系列的<Key,Value>数据对构成,给定某个Query(查询),通过注意力模块计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数。
6个注意力模块均与非线性增加模块和归一化模块相连,6个注意力模块并行地对A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,这6个一维向量即为S(I)中6个特征图的权重系数,用w1,w2,w3,w4,w5,w6表示,wi(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块。归一化模块与6个注意力模块、通道赋权模块相连,归一化模块对w1,w2,w3,w4,w5,w6的256个元素分别执行softmax操作以进行归一化,得到归一化后的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6,发送给通道赋权模块。
通道赋权模块和归一化模块、第一变形模块相连,对s1,s2,s3,s4,s5,s6,与A1(I)中对应的特征图分别执行通道级乘法操作,以获得A1(I)中更符合检测目标尺度的特征图信息,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I)中,将A5(I)发送给第二特征图相加模块。
第二特征图相加模块与通道赋权模块、第二变形模块相连,对A5(I)中的6个特征图执行加法操作,获得第二全局特征图I3,I3中融合了不同尺度特征图的信息,尺寸为10×10×256。将I3发送给第二变形模块。
第二变形模块与第二特征图相加模块、特征融合模块相连。第二变形模块对I3进行变形,即进行插值和下采样操作,得到变形后的特征图集合G(I),G(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256,将G(I)发送给特征融合模块。
特征融合模块与特征选择模块、语义提升模块、检测模块相连,它从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)中相同尺寸的特征图相加,得到用于检测的特征图集合D(I)。在相加过程中,多尺度特征图的尺寸不变,D(I)具有与G(I)和S(I)相同的尺寸,但融合了G(I)和S(I)的特征图信息,使得特征图包含的位置信息和语义信息得到了增强。
检测模块与特征融合模块相连,由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量,E为数据集中包含的目标类别数量);定位网络从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值,包括左上和右下2个坐标,共4个值);分类网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置),从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连,采用非极大值抑制方法(NMS,Non-Maximum Suppression方法,见文献“Efficient Non-Maximum Suppression.”18th International Conference on Pattern Recognition(ICPR’06)3(2006):850-855,Neubeck,Alexander和Luc Van Gool的论文:有效的非极大值抑制方法)将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测类别。
第二步:准备目标检测系统的训练数据集。方法为:
选择PASCAL VOC 2007、PASCAL VOC 2012(见文献“M.Everingham,L.Van Gool,C.K.I.Williams,J.Winn,and A.Zisserman.The pascal visual object classes VOCchallenge[J]//International Journal of Computer Vision.2010:303-338”,MarkEveringham的论文:视觉目标类别挑战,2010年出版的《国际计算机视觉杂志》第303页)的训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为正整数。对于训练数据集中的第d(1≤d≤16551)张图片,PASCAL VOC 2007、PASCAL VOC2012中给出了第d张图片所包含的目标的类别以及位置向量gd
Figure BDA0002573599230000041
为包含四个值的一维向量,z表示一张图片中的第z个目标,
Figure BDA0002573599230000042
为目标区域矩形框的左上角的坐标值,
Figure BDA0002573599230000043
为目标区域举行框的右下角的坐标值,四个坐标值均为标量,四个值表示出一个矩形的目标区域。
第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是:
3.1 采用SSD(见文献“SSD:Single Shot MultiBox Detector.”EuropeanConference on Computer Vision,2016.”Liu Wei等人的论文:单阶段多参考窗口检测器)中的初始化方法对特征提取模块的网络参数Φ1进行初始化;采用Kaiming初始化方法(见文献“Delving deep into rectifiers:Surpassing human-level performance onimagenet classification.”Proceedings of the IEEE international conference oncomputer vision.2015.He Kaiming等人的论文:深入研究整流器:在ImageNet数据集上超越人类水平的性能)对其余模块(即语义提升模块的网络参数Φ2、特征选择模块的网络参数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4)进行初始化。
3.2 将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训练,拟合得到目标检测系统的网络参数,具体步骤是:
3.2.1 初始化迭代次数epoch=1;初始化批处理大小batchsize=32;初始化学习率lr=4*10-3
3.2.2 采用训练数据集中的图片对目标检测系统进行训练,具体步骤为:
3.2.2.1.初始化变量d=1;
3.2.2.2.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中,使用随机梯度下降算法(SGD)(见文献“Backpropagation applied to handwrittenzip code recognition[J]//Neural Computation,1989”,Yann Lecun等人的论文:反向传播应用于手写邮政编码识别)使损失函数最小化,以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数,形式为:
Figure BDA0002573599230000051
其中L为总损失函数,Lloc为位置预测损失函数,通过计算预测框和真实框(即真实图像的左上坐标和右下坐标围起来的框)之间的Smooth L1损失函数获得,Lconf为类别预测损失函数,通过计算预测类别和真实类别之间的Softmax损失函数获得,N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量,即训练数据集中所有IOU大于0.5的样本数量,也即:
Figure BDA0002573599230000052
的样本数量。
其中,IOU表示交并比,A表示定位网络输出的一个目标框的坐标所包围的面积,B表示目标真实坐标值所包围的面积。
3.2.2.3.若d+2*batchsize<16551,令d=d+batchsize,转3.2.2.2;若d+2*batchsize≥16551,转3.2.3。
3.2.3 若epoch<160,令epoch=epoch+1,转3.2.2;若epoch=160,令lr=lr*0.1,令epoch=epoch+1,转3.2.2;若160<epoch≤250,令epoch=epoch+1,转3.2.2;若epoch>250,转3.2.4。
3.2.4 将各个模块更新所得的参数作为最终的目标检测系统的网络参数。
第四步:利用目标检测系统进行目标检测,方法是:
4.1 通过相机获得需要检测的图像I;
4.2 将训练得到的目标检测系统的网络参数载入到目标检测系统中;
4.3 特征提取模块对被检测图像I进行特征提取,得到多尺度特征图集合F(I),F(I)中包含6张图,尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256。F(I)的6个特征图中,在特征提取模块中经过卷积神经网络处理次数少的特征层,位置信息比较准确,但是语义信息不足,无法辨别目标属于的类别;在特征提取模块中经过卷积神经网络处理次数多的特征层,位置信息不准确,但是语义信息丰富。
4.4 语义提升模块从特征提取模块接收F(I),对F(I)中的特征图逐张进行卷积操作,提升特征图中包含的语义信息,得到语言提升特征图集合S(I),S(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
4.5 特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数,对S(I)进行信息增强,以增强S(I)中的有用信息、抑制无用信息,并通过加法运算和放缩,获得全局语义特征图集合G(I)。通过把S(I)中6个特征图相加,得到第二全局特征图,既具有准确的位置信息,又有丰富的语义信息。具体方法为:
4.5.1 第一变形模块从语义提升模块接收S(I),对S(I)中的特征图统一尺寸,得到A1(I),A1(I)包含的特征图尺寸都为10×10×256。方法是:采用下采样方法将S(I)中的38×38×256,19×19×256特征图的前两个维度缩小至10×10×256;采用插值方法将S(I)中的5×5×256,3×3×256,1×1×256特征图的前两个维度放大,得到3个10×10×256的特征图,对S(I)中原有的10×10×256特征图不作处理;将尺寸统一后的6个特征图放到集合A1(I)中。
4.5.2 第一特征图相加模块从第一变形模块接收A1(I),对A1(I)中的6个特征图执行像素级别的加法运算,获得尺寸为10×10×256的第一全局特征图,记为I2,将I2发送给全局池化模块。
4.5.3 全局池化模块从第一特征图相加模块接收I2,对I2进行全局池化操作,得到A3(I),A3(I)的为包含256个元素的第一一维向量,将A3(I)发送给非线性增加模块。A3(I)中共有256个元素,第c(1≤c≤256)个元素(即全局特征图I2中第c(1≤c≤256)个通道经过全局平均池化后的值)A3(I)c为:
Figure BDA0002573599230000061
H、W表示I2的长和宽,a、b(1≤a≤H,1≤b≤W)表示第c个通道中像素点的坐标。
4.5.4 非线性增加模块从全局池化模块接收A3(I),非线性增加模块的全连接层对A3(I)进行全连接操作,得到包含16个元素的激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收A4(I)',对A4(I)'进行激活操作,提升A4(I)'的非线性,得到包含16个元素的第二一维向量A4(I),将A4(I)发送给特征生成模块;
4.5.5 特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(I)中每个特征图中的每个通道对应的权重参数,并对每个通道的像素进行赋权操作,获得S(I)中更符合检测目标尺度的特征图信息。具体方法为:
4.5.5.1 6个注意力模块从非线性增加模块分别接收A4(I),并行地对A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,即w1,w2,w3,w4,w5,w6,wi(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块。
4.5.5.2 归一化模块从6个注意力模块分别接收w1,w2,w3,w4,w5,w6,对w1,w2,w3,w4,w5,w6采用softmax进行归一化操作,得到6个包含256个元素的一维向量s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6发送给通道赋权模块。
4.5.5.3通道赋权模块从归一化模块接收s1,s2,s3,s4,s5,s6、从第一变形模块接收A1(I),对s1,s2,s3,s4,s5,s6和A1(I)中对应的特征图进行通道级乘法操作,得到特征图集合A5(I),将A5(I)发送给第二特征图相加模块。A5(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。A5(I)中第i个特征图的第c个通道中的元素A5(I)ic为:
A5(I)ic=A1(I)ic×sic
其中,i是A5(I)中的第i个特征图的序号;
4.5.6 第二特征图相加模块从通道赋权模块接收A5(I),对A5(I)中的6个特征图执行像素级别的相加,获得具有多尺度信息的第二全局特征图I3,I3的尺寸为10×10×256,将I3发送给第二变形模块。
4.5.7 第二变形模块从第二特征图相加模块接收I3,对I3进行变形,方法是先对I3进行两次并行插值操作,将I3放大至38×38×256,19×19×256;再对I3进行三次并行下采样操作,将I3缩小至5×5×256,3×3×256,1×1×256;将I3以及放缩后5个特征图构成变形后的特征图集合G(I),将G(I)发送给特征融合模块。
4.6 特征融合模块从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)相加,得到检测特征图集合D(I),将D(I)发送给检测模块,D(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
4.7 检测模块从特征融合模块接收D(I),利用分类网络获得预测目标的概率集合C(I)={c1,c2,c3,…,ce,…,cE},E为训练数据集图片中共包含的目标类别数;ce={ce2,ce3,ce4,…,cep,…,ceP},表示预测目标属于第e类的概率集合,cep表示属于第e类的预测目标中第ep个目标属于第e类的概率;利用定位网络获得预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE},le={le2,le3,le4,…,lep,…,leP},表示预测目标属于第e个类别的坐标向量集合,
Figure BDA0002573599230000071
Figure BDA0002573599230000072
是坐标系中预测目标框左上角横坐标,
Figure BDA0002573599230000073
是预测目标框左上角纵坐标,
Figure BDA0002573599230000074
是预测目标框右下角横坐标,
Figure BDA0002573599230000075
是预测目标框右下角纵坐标。le和ce中相同序号的元素对应相同的预测目标,然后利用非最大值抑制模块对L(I)和C(I)进行筛选,获得最终的目标检测结果。具体方法为:
4.7.1.分类网络接收D(I),生成预测目标的类别概率C(I)={c1,c2,c3,…,ce,…,cE};
4.7.2.定位网络接收D(I),生成预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE};
4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选:
4.7.3.1.初始化m=1;
4.7.3.2.将cm中的概率值按照降序排列;
4.7.3.3.将lm中坐标值按照cm的排序结果重新排列,保证属于同一个预测目标的类别概率和坐标值的元素序号相同;
4.7.3.4.初始化n=1;
4.7.3.5.计算lm(n+1)与lmn的交并比。若交并比小于阈值t(0.7<t<0.9),则删除lm(n+1)对应的预测目标,转4.7.3.6;若交并比大于t,则保留lm(n+1)对应的预测目标,转4.7.3.6;
4.7.3.6.若n<eP,则令n=n+1,转4.7.3.5;若n=eP,转4.7.3.7;
4.7.3.7.若m<E,则令m=m+1,转4.7.3.2;若m=E,转4.7.3.8;
4.7.3.8.收集C(I)中被保留的类别概率,收集L(I)中被保留的坐标值,作为目标检测系统最终的预测结果。
采用本发明可以达到以下技术效果:
1、本发明特征提取模块对输入的图像数据进行多尺度特征图的提取,语义提升模块丰富多尺度特征的语义信息,特征选择模块采用注意力模块增强不同尺度特征图中的有用信息、抑制无用信息,达到了增强信息的目的,使特征图中的信息更适用于图片的检测目标;
2、本发明特征融合模块将经过特征选择的全局语义特征图融合到多尺度特征图上,使多尺度特征图集合中的每个特征图都具有了更加准确的位置信息和语义信息,提高了目标检测的精度。
3、本发明在提高检测精度的同时没有丢失单阶段网络检测速度快的优点,仍然满足实时性要求。
附图说明
图1为本发明的整体流程图;
图2为本发明第一步构建的目标检测系统逻辑结构图;
图3为图2中的特征选择模块的逻辑结构图。
具体实施方式
图1是本发明的总体流程图。如图1所示,本发明包括以下步骤:
第一步:构建目标检测系统。该系统如图2所示,由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成。
特征提取模块为一个卷积神经网络,与语义提升模块相连。特征提取模块共包括23个卷积层,5个池化层,共28层。池化层分别为第3、6、10、14、18层,其他层均为卷积层。特征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给语义提升模块。多尺度特征图集合包含六个尺度的特征图,六个尺度的特征图的尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256,分别由第13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中,第13层、第21层、第23层、第25层、第27层特征既输出给语义提升模块,也输出给它们各自的下一层。
语义提升模块包含一个1×1卷积层和一个ReLU激活函数,与特征提取模块、特征选择模块、特征融合模块相连。语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的6个特征图逐张进行卷积操作,将F(I)中的6个特征图的第三个维度统一为256,得到S'(I),将S'(I)发送给ReLU激活函数;ReLU激活函数从1×1卷积网络接收到S'(I),对S'(I)进行激活操作,以提升特征的语义信息,得到S(I),将S(I)输出给特征选择模块和特征融合模块。S(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
特征选择模块与语义提升模块、特征融合模块相连,对S(I)进行选择性地融合,得到全局特征图集合G(I),将G(I)发送给特征融合模块。特征选择模块如图3所示,由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块(含6个注意力模块、归一化模块、通道赋权模块)、第二特征图相加模块、第二变形模块组成。
第一变形模块是对S(I)进行插值和下采样操作的模块,与语义提升模块和第一特征图相加模块相连;对S(I)中的特征图进行上采样或插值操作,统一特征图的尺寸,得到A1(I),将A1(I)发送给第一特征图相加模块,A1(I)包含的6个特征图尺寸都为10×10×256,由于缩小特征图会损失信息,在没引入较大计算量的前提下,为了减少特征图的信息损失,统一将特征图尺寸调整至10×10×256。
第一特征图相加模块与第一变形模块和全局池化模块连接,对A1(I)中的六个特征图执行像素级别的加法操作,获得尺寸为10×10×256的第一全局特征图,记为I2,将I2发送给全局池化模块。
全局池化模块和第一特征图相加模块和非线性增加模块相连,对I2进行全局池化操作,获得第一一维向量A3(I),将A3(I)发送给非线性增加模块。A3(I)中共有256个元素。
非线性增加模块包含一个全连接层和一个ReLU激活函数,与全局池化模块、特征生成模块相连,对A3(I)采用全连接操作,得到包含16个元素的激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收到A4(I)',对A4(I)'进行激活操作,提升A4(I)'的非线性,得到第二一维向量A4(I),A4(I)中包含16个元素,将A4(I)发送给特征生成模块。
特征生成模块和非线性增加模块、第二特征图相加模块相连。特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成。6个注意力模块均为一层全连接层。
6个注意力模块均与非线性增加模块和归一化模块相连,6个注意力模块并行地对A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,这6个一维向量即为S(I)中6个特征图的权重系数,用w1,w2,w3,w4,w5,w6表示,wi(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块。归一化模块与6个注意力模块、通道赋权模块相连,归一化模块对w1,w2,w3,w4,w5,w6的256个元素分别执行softmax操作以进行归一化,得到归一化后的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6,发送给通道赋权模块。
通道赋权模块和归一化模块、第一变形模块相连,对s1,s2,s3,s4,s5,s6与A1(I)中对应的特征图分别执行通道级乘法操作,以获得A1(I)中更符合检测目标尺度的特征图信息,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I)中,将A5(I)发送给第二特征图相加模块。
第二特征图相加模块与通道赋权模块、第二变形模块相连,对A5(I)中的6个特征图执行加法操作,获得第二全局特征图I3,I3中融合了不同尺度特征图的信息,尺寸为10×10×256。将I3发送给第二变形模块。
第二变形模块与第二特征图相加模块、特征融合模块相连。第二变形模块对I3进行变形,即进行插值和下采样操作,得到变形后的特征图集合G(I),G(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256,将G(I)发送给特征融合模块。
特征融合模块与特征选择模块、语义提升模块、检测模块相连,它从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)中相同尺寸的特征图相加,得到用于检测的特征图集合D(I)。D(I)具有与G(I)和S(I)相同的尺寸,但融合了G(I)和S(I)的特征图信息,使得特征图包含的位置信息和语义信息得到了增强。
检测模块与特征融合模块相连,由分类网络、定位网络和非极大值抑制(NMS)模块组成。定位网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量,E为数据集中包含的目标类别数量);定位网络从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值,包括左上和右下2个坐标,共4个值);分类网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置),从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向NMS模块输出预测目标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连,采用非极大值抑制方法将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测类别。
第二步:准备目标检测系统的训练数据集。方法为:
选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为正整数。PASCAL VOC 2007、PASCAL VOC2012中给出训练数据集中第d(1≤d≤16551)张图片所包含的目标的类别以及位置向量gd
Figure BDA0002573599230000101
为包含四个值的一维向量,z表示一张图片中的第z个目标,
Figure BDA0002573599230000102
为目标区域矩形框的左上角的坐标值,
Figure BDA0002573599230000103
为目标区域举行框的右下角的坐标值,四个坐标值均为标量,四个值表示出一个矩形的目标区域。
第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是:
3.1 采用SSD中的初始化方法对特征提取模块的网络参数Φ1进行初始化;采用Kaiming初始化方法对其余模块(即语义提升模块的网络参数Φ2、特征选择模块的网络参数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4)进行初始化。
3.2 将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训练,拟合得到目标检测系统的网络参数,具体步骤是:
3.2.1 初始化迭代次数epoch=1;初始化批处理大小batchsize=32;初始化学习率lr=4*10-3
3.2.2 采用训练数据集中的图片对目标检测系统进行训练,具体步骤为:
3.2.2.4.初始化变量d=1;
3.2.2.5.将训练数据集中的第d张至第(d+batchsize)张图片输入到目标检测系统中,使用随机梯度下降算法(SGD)使损失函数最小化,以更新目标检测系统中各模块的网络参数。所述损失函数采用SSD中的损失函数作为训练的损失函数,形式为:
Figure BDA0002573599230000104
其中L为总损失函数,Lloc为位置预测损失函数,通过计算预测框和真实框之间的Smooth L1损失函数获得,Lconf为类别预测损失函数,通过计算预测类别和真实类别之间的Softmax损失函数获得,N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量,即训练数据集中所有IOU大于0.5的样本数量,也即:
Figure BDA0002573599230000111
的样本数量。
其中,IOU表示交并比,A表示定位网络输出的一个目标框的坐标所包围的面积,B表示目标真实坐标值所包围的面积。
3.2.2.6.若d+2*batchsize<16551,令d=d+batchsize,转3.2.2.2;若d+2*batchsize≥16551,转3.2.3。
3.2.3 若epoch<160,令epoch=epoch+1,转3.2.2;若epoch=160,令lr=lr*0.1,令epoch=epoch+1,转3.2.2;若160<epoch≤250,令epoch=epoch+1,转3.2.2;若epoch>250,转3.2.4。
3.2.4 将各个模块更新所得的参数作为最终的目标检测系统的网络参数。
第四步:利用目标检测系统进行目标检测,方法是:
4.1 通过相机获得需要检测的图像I;
4.2 将训练得到的目标检测系统的网络参数载入到目标检测系统中;
4.3 特征提取模块对被检测图像I进行特征提取,得到多尺度特征图集合F(I),F(I)中包含6张图,尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256。
4.4 语义提升模块从特征提取模块接收F(I),对F(I)中的特征图逐张进行卷积操作,提升特征图中包含的语义信息,得到S(I),S(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
4.5 特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数,对S(I)进行信息增强,以增强S(I)中的有用信息、抑制无用信息,并通过加法运算和放缩,获得具有全局语义的特征图集合G(I)。通过把S(I)中6个特征图相加,得到第二全局特征图,既具有准确的位置信息,又有丰富的语义信息。具体方法为:
4.5.1 第一变形模块从语义提升模块接收S(I),对S(I)中的特征图统一尺寸,得到A1(I),A1(I)包含的特征图尺寸都为10×10×256。方法是:采用下采样方法将S(I)中的38×38×256,19×19×256特征图的前两个维度缩小至10×10×256;采用插值方法将S(I)中的5×5×256,3×3×256,1×1×256特征图的前两个维度放大,得到3个10×10×256的特征图,对S(I)中原有的10×10×256特征图不作处理;将尺寸统一后的6个特征图放到集合A1(I)中。
4.5.2 第一特征图相加模块从第一变形模块接收A1(I),对A1(I)中的6个特征图执行像素级别的加法运算,获得尺寸为10×10×256的第一全局特征图,记为I2,将I2发送给全局池化模块。
4.5.3 全局池化模块从第一特征图相加模块接收I2,对I2进行全局池化操作,得到A3(I),A3(I)的为包含256个元素的第一一维向量,将A3(I)发送给非线性增加模块。A3(I)中共有256个元素,第c(1≤c≤256)个元素A3(I)c为:
Figure BDA0002573599230000121
H、W表示I2的长和宽,a、b(1≤a≤H,1≤b≤W)表示第c个通道中像素点的坐标。
4.5.4 非线性增加模块从全局池化模块接收A3(I),非线性增加模块的全连接层对A3(I)进行全连接操作,得到包含16个元素的激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收A4(I)',对A4(I)'进行激活操作,提升A4(I)'的非线性,得到包含16个元素的第二一维向量A4(I),将A4(I)发送给特征生成模块;
4.5.5 特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(I)中每个特征图中的每个通道对应的权重参数,并对每个通道的像素进行赋权操作,获得S(I)中更符合检测目标尺度的特征图信息。具体方法为:
4.5.5.1 6个注意力模块从非线性增加模块分别接收A4(I),并行地对A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,即w1,w2,w3,w4,w5,w6,wi(1≤i≤6)为S(I)中第i个特征图的权重系数。6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块。
4.5.5.2 归一化模块从6个注意力模块分别接收w1,w2,w3,w4,w5,w6,对w1,w2,w3,w4,w5,w6采用softmax进行归一化操作,得到6个包含256个元素的一维向量s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6发送给通道赋权模块。
4.5.5.3 通道赋权模块从归一化模块接收s1,s2,s3,s4,s5,s6、从第一变形模块接收A1(I),对s1,s2,s3,s4,s5,s6和A1(I)中对应的特征图进行通道级乘法操作,得到特征图集合A5(I),将A5(I)发送给第二特征图相加模块。A5(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。A5(I)中第i个特征图的第c个通道中的元素A5(I)ic为:
A5(I)ic=A1(I)ic×sic
其中,i是A5(I)中的第i个特征图的序号;
4.5.6 第二特征图相加模块从通道赋权模块接收A5(I),对A5(I)中的6个特征图执行像素级别的相加,获得具有多尺度信息的第二全局特征图I3,I3的尺寸为10×10×256,将I3发送给第二变形模块。
4.5.7 第二变形模块从第二特征图相加模块接收I3,对I3进行变形,方法是先对I3进行两次并行插值操作,将I3放大至38×38×256,19×19×256;再对I3进行三次并行下采样操作,将I3缩小至5×5×256,3×3×256,1×1×256;将I3以及放缩后5个特征图构成变形后的特征图集合G(I),将G(I)发送给特征融合模块。
4.6 特征融合模块从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)相加,得到检测特征图集合D(I),将D(I)发送给检测模块,D(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256。
4.7 检测模块从特征融合模块接收D(I),利用分类网络获得预测目标的概率集合C(I)={c1,c2,c3,…,ce,…,cE},E为训练数据集图片中共包含的目标类别数;ce={ce2,ce3,ce4,…,cep,…,ceP},表示预测目标属于第e类的概率集合,cep表示属于第e类的预测目标中第ep个目标属于第e类的概率;利用定位网络获得预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE},le={le2,le3,le4,…,lep,…,leP},表示预测目标属于第e个类别的坐标向量集合,
Figure BDA0002573599230000131
Figure BDA0002573599230000132
是坐标系中预测目标框左上角横坐标,
Figure BDA0002573599230000133
是预测目标框左上角纵坐标,
Figure BDA0002573599230000134
是预测目标框右下角横坐标,
Figure BDA0002573599230000135
是预测目标框右下角纵坐标。le和ce中相同序号的元素对应相同的预测目标,然后利用非最大值抑制模块对L(I)和C(I)进行筛选,获得最终的目标检测结果。具体方法为:
4.7.1.分类网络接收D(I),生成预测目标的类别概率C(I)={c1,c2,c3,…,ce,…,cE};
4.7.2.定位网络接收D(I),生成预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE};
4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选:
4.7.3.1.初始化m=1;
4.7.3.2.将cm中的概率值按照降序排列;
4.7.3.3.将lm中坐标值按照cm的排序结果重新排列,保证属于同一个预测目标的类别概率和坐标值的元素序号相同;
4.7.3.4.初始化n=1;
4.7.3.5.计算lm(n+1)与lmn的交并比。若交并比小于阈值t(0.7<t<0.9),则删除lm(n+1)对应的预测目标,转4.7.3.6;若交并比大于t,则保留lm(n+1)对应的预测目标,转4.7.3.6;
4.7.3.6.若n<eP,则令n=n+1,转4.7.3.5;若n=eP,转4.7.3.7;
4.7.3.7.若m<E,则令m=m+1,转4.7.3.2;若m=E,转4.7.3.8;
4.7.3.8.收集C(I)中被保留的类别概率,收集L(I)中被保留的坐标值,作为目标检测系统最终的预测结果。
目标识别领域采用平均精度均值mAP(mean average precision)来表示检测的准确性能,表示m个类别平均精度AP的平均值,mAP越大表示检测的效果越好。每个类别的AP指标综合考虑了查全率(recall)和查准率(precision),能够全面地评测目标检测方法的性能。其中,查准率用来表示被正确检测的目标数与被检测到的目标总数之比,查全率用来表示被正确检测的目标数与应当被检测到的目标数之比。
检测速度用FPS(frames per second)来衡量,表示每秒检测的帧数,FPS越大表示检测速度越快。
表1给出了本发明与经典单阶段目标检测方法SSD方法在目标检测数据集PASCALVOC2007测试集上的对比结果。
表1本发明与经典SSD方法在VOC数据集的测试集上的检测精度对比
Figure BDA0002573599230000136
表1中第一行是VOC 2007数据集的测试数据集图片中包含的类别,第二行是SSD方法对于每种类别的检测精度,第三行是本发明的检测精度,加粗字体标识每种类别的最高精度。从表1中可以看出,在20种类别中的19种类别上,本发明的检测精度高于SSD方法的检测精度,尤其在“飞机”类别上提升了5%的检测精度,在“瓶子”类别上提升了5.7%的检测精度,在“牛”类别上提升了4.4%的精测精度,说明本发明明显提升了对于较小目标的检测精度。
表2给出了本发明与经典单阶段目标检测方法SSD方法、FPN方法和Libra r-cnn方法在目标检测数据集ASCAL VOC 2007测试集上的检测精度和运行速度对比。
表2本发明与不同特征增强方、SSD方法在VOC数据集的测试机上的检测精度对比
方法 mAP(%) FPS
SSD 77.5 106.4
FPN 78.3 94
Libra r-cnn 79.3 99
本发明 79.9 98
从表2中可以看出,本发明的信息增强方法优于FPN方法和Libra r-cnn方法,同时比经典单阶段目标检测方法的检测精度提高了2.4%。同时,在1080Ti显卡上测试了检测的速度,经典SSD算法的检测速度为106.4FPS,本方法的检测速度为98FPS。说明本方法在提升目标检测精度的同时,保持了检测的速度。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims (10)

1.一种基于信息增强的目标检测方法,其特征在于包括以下步骤:
第一步:构建目标检测系统,目标检测系统由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块组成;
特征提取模块为一个卷积神经网络,与语义提升模块相连;特征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给语义提升模块;
语义提升模块包含一个1×1卷积层和一个ReLU激活函数,与特征提取模块、特征选择模块、特征融合模块相连;语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的特征图逐张进行卷积操作,得到S'(I),将S'(I)发送给ReLU激活函数;ReLU激活函数对S'(I)进行激活操作,得到S(I),将S(I)输出给特征选择模块和特征融合模块;
特征选择模块与语义提升模块、特征融合模块相连,对S(I)进行选择性地融合,得到全局特征图集合G(I),将G(I)发送给特征融合模块;特征选择模块由第一变形模块、第一特征图相加模块、全局池化模块、非线性增加模块、特征生成模块、第二特征图相加模块、第二变形模块组成;特征生成模块由6个注意力模块、归一化模块、通道赋权模块组成;
第一变形模块与语义提升模块和第一特征图相加模块相连,统一S(I)中特征图的尺寸,得到A1(I),将A1(I)发送给第一特征图相加模块;
第一特征图相加模块与第一变形模块和全局池化模块连接,对A1(I)中的六个特征图执行加法操作,获得第一全局特征图I2,将I2发送给全局池化模块;
全局池化模块和第一特征图相加模块和非线性增加模块相连,对I2进行全局池化操作,获得第一一维向量A3(I),将A3(I)发送给非线性增加模块;
非线性增加模块包含一个全连接层和一个ReLU激活函数,与全局池化模块、特征生成模块相连,全连接层对A3(I)进行全连接操作,得到激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收到A4(I)',对A4(I)'进行激活操作,得到第二一维向量A4(I),将A4(I)发送给特征生成模块;
特征生成模块和非线性增加模块、第二特征图相加模块相连;特征生成模块由6个注意力模块、1个归一化模块和1个通道赋权模块组成;6个注意力模块均为一层全连接层;
6个注意力模块均与非线性增加模块和归一化模块相连,6个注意力模块并行地对A4(I)进行全连接操作,分别得到S(I)中6个特征图的权重系数,用w1,w2,w3,w4,w5,w6表示,wi为S(I)中第i个特征图的权重系数,1≤i≤6;6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块;归一化模块与6个注意力模块、通道赋权模块相连,对w1,w2,w3,w4,w5,w6的256个元素进行归一化,得到归一化后的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6,发送给通道赋权模块;
通道赋权模块和归一化模块、第一变形模块相连,对S中的s1,s2,s3,s4,s5,s6与A1(I)中对应的特征图分别执行通道级乘法操作,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I)中,将A5(I)发送给第二特征图相加模块;
第二特征图相加模块与通道赋权模块、第二变形模块相连,对A5(I)中的6个特征图执行加法操作,获得第二全局特征图I3,将I3发送给第二变形模块;
第二变形模块与第二特征图相加模块、特征融合模块相连;第二变形模块对I3进行变形,得到变形后的特征图集合G(I),将G(I)发送给特征融合模块;
特征融合模块与特征选择模块、语义提升模块、检测模块相连,它从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)中相同尺寸的特征图相加,得到用于检测的特征图集合D(I);
检测模块与特征融合模块相连,由分类网络、定位网络和非极大值抑制模块即NMS模块组成;定位网络与特征融合模块、非极大值抑制模块相连,定位网络从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的坐标值;分类网络与特征融合模块、非极大值抑制模块相连,从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向NMS模块输出预测目标的类别;非极大值抑制模块与分类网络和定位网络相连,将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测类别;
第二步:准备目标检测系统的训练数据集,方法为:
选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为正整数;对于训练数据集中的第d张图片,1≤d≤16551,PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量gd
Figure FDA0002573599220000021
为包含四个值的一维向量,z表示一张图片中的第z个目标,
Figure FDA0002573599220000022
为目标区域矩形框的左上角的坐标值,
Figure FDA0002573599220000023
为目标区域举行框的右下角的坐标值,四个坐标值均为标量,四个值表示出一个矩形的目标区域;
第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是:
3.1对特征提取模块的网络参数Φ1、语义提升模块的网络参数Φ2、特征选择模块的网络参数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4进行初始化;
3.2将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训练,拟合得到目标检测系统的网络参数;
第四步:利用目标检测系统进行目标检测,方法是:
4.1通过相机获得需要检测的图像I;
4.2将训练得到的目标检测系统的网络参数载入到目标检测系统中;
4.3特征提取模块对被检测图像I进行特征提取,得到多尺度特征图集合F(I),F(I)中包含6张图,尺寸分别为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256;
4.4语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的特征图逐张进行卷积操作,将F(I)中的6个特征图的第三个维度统一为256,得到S'(I),将S'(I)发送给ReLU激活函数;ReLU激活函数从1×1卷积网络接收到S'(I),对S'(I)进行激活操作,提升特征的语义信息,得到语言提升特征图集合S(I),将S(I)输出给特征选择模块和特征融合模块;S(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;
4.5特征选择模块为S(I)中的每一个通道的特征图学习一个权重系数,对S(I)进行信息增强,即增强S(I)中的有用信息、抑制无用信息,并通过加法运算和放缩,获得全局语义特征图集合G(I);具体方法为:
4.5.1第一变形模块从语义提升模块接收S(I),对S(I)中的特征图统一尺寸,得到A1(I),A1(I)包含的6个特征图尺寸都为10×10×256;
4.5.2第一特征图相加模块从第一变形模块接收A1(I),对A1(I)中的6个特征图执行像素级别的加法运算,获得尺寸为10×10×256的第一全局特征图I2,将I2发送给全局池化模块;
4.5.3全局池化模块从第一特征图相加模块接收I2,对I2进行全局池化操作,得到第一一维向量A3(I),将A3(I)发送给非线性增加模块;A3(I)中共有256个元素,第c个元素即全局特征图I2中第c个通道经过全局平均池化后的值A3(I)c为:
Figure FDA0002573599220000031
H、W表示I2的长和宽,a、b表示第c个通道中像素点的坐标,1≤a≤H,1≤b≤W,1≤c≤256;
4.5.4非线性增加模块从全局池化模块接收A3(I),非线性增加模块的全连接层对A3(I)进行全连接操作,得到包含16个元素的激活前向量A4(I)',将A4(I)'发送给ReLU激活函数;ReLU激活函数从全连接层接收A4(I)',对A4(I)'进行激活操作,提升A4(I)'的非线性,得到包含16个元素的第二一维向量A4(I),将A4(I)发送给特征生成模块;
4.5.5特征生成模块通过6个注意力模块、归一化模块和通道赋权模块生成S(I)中每个特征图中的每个通道对应的权重参数,并对每个通道的像素进行赋权操作,获得S(I)中更符合检测目标尺度的特征图信息;具体方法为:
4.5.5.1 6个注意力模块从非线性增加模块分别接收A4(I),并行地对A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,即w1,w2,w3,w4,w5,w6,wi为S(I)中第i个特征图的权重系数;6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块;
4.5.5.2归一化模块从6个注意力模块分别接收w1,w2,w3,w4,w5,w6,对w1,w2,w3,w4,w5,w6采用softmax进行归一化操作,得到包含256个元素的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5,s6发送给通道赋权模块;si中的第c个元素sic为:
Figure FDA0002573599220000032
4.5.5.3通道赋权模块从归一化模块接收s1,s2,s3,s4,s5,s6、从第一变形模块接收A1(I),对s1,s2,s3,s4,s5,s6和A1(I)中对应的特征图进行通道级乘法操作,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I),将A5(I)发送给第二特征图相加模块;A5(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;A5(I)中第i个特征图的第c个通道中的元素A5(I)ic为:
A5(I)ic=A1(I)ic×sic
4.5.6第二特征图相加模块从通道赋权模块接收A5(I),对A5(I)中的6个特征图执行像素级别的相加,获得具有多尺度信息的第二全局特征图I3,I3的尺寸为10×10×256,将I3发送给第二变形模块;
4.5.7第二变形模块从第二特征图相加模块接收I3,先对I3进行两次并行插值操作,将I3放大至38×38×256,19×19×256;再对I3进行三次并行下采样操作,将I3缩小至5×5×256,3×3×256,1×1×256;将I3以及放缩后5个特征图构成变形后的特征图集合G(I),将G(I)发送给特征融合模块;
4.6特征融合模块从特征选择模块接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)相加,得到检测特征图集合D(I),将D(I)发送给检测模块,D(I)包含的特征图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256;
4.7检测模块从特征融合模块接收D(I),利用分类网络获得预测目标的概率集合C(I)={c1,c2,c3,…,ce,…,cE},E为训练数据集图片中共包含的目标类别数,ce={ce2,ce3,ce4,…,cep,…,ceP},表示预测目标属于第e类的概率集合,cep表示属于第e类的预测目标中第ep个目标属于第e类的概率;利用定位网络获得预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE},le={le2,le3,le4,…,lep,…,leP},表示预测目标属于第e个类别的坐标向量集合,
Figure FDA0002573599220000041
Figure FDA0002573599220000042
是坐标系中预测目标框左上角横坐标,
Figure FDA0002573599220000043
是预测目标框左上角纵坐标,
Figure FDA0002573599220000044
是预测目标框右下角横坐标,
Figure FDA0002573599220000045
是预测目标框右下角纵坐标;le和ce中相同序号的元素对应相同的预测目标,然后利用非最大值抑制模块对L(I)和C(I)进行筛选,获得最终的目标检测结果;具体方法为:
4.7.1.分类网络接收D(I),生成预测目标的类别概率C(I)={c1,c2,c3,…,ce,…,cE};
4.7.2.定位网络接收D(I),生成预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE};
4.7.3.利用非最大值抑制模块对L(I)和C(I)进行筛选:
4.7.3.1.初始化m=1;
4.7.3.2.将cm中的概率值按照降序排列;
4.7.3.3.将lm中坐标值按照cm的排序结果重新排列,保证属于同一个预测目标的类别概率和坐标值的元素序号相同;
4.7.3.4.初始化n=1;
4.7.3.5.计算lm(n+1)与lmn的交并比;若交并比小于阈值t,删除lm(n+1)对应的预测目标,转
4.7.3.6;若交并比大于t,则保留lm(n+1)对应的预测目标,转4.7.3.6;
4.7.3.6.若n<eP,则令n=n+1,转4.7.3.5;若n=eP,转4.7.3.7;
4.7.3.7.若m<E,则令m=m+1,转4.7.3.2;若m=E,转4.7.3.8;
4.7.3.8.收集C(I)中被保留的类别概率,收集L(I)中被保留的坐标值,作为目标检测系统最终的预测结果。
2.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于所述特征提取模块共包括23个卷积层,5个池化层,共28层;池化层分别为第3、6、10、14、18层,其他层均为卷积层;第13层将尺寸为38×38×512的特征图输出给语义提升模块和第14层;第21层将尺寸为19×19×1024的特征图输出给语义提升模块和第22层;第23层将尺寸为10×10×512的特征图输出给语义提升模块和第24层;第25层将尺寸为5×5×256的特征图输出给语义提升模块和第26层;第27层将尺寸为3×3×256的特征图输出给语义提升模块和第28层;第28层将尺寸为1×1×256的特征图输出给语义提升模块。
3.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于所述定位网络是一个卷积核大小为3×3、卷积核个数为k×E的卷积网络,k为图片上每个位置预定义框的数量,E为训练数据集中包含的目标类别数量。
4.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于所述分类网络是一个卷积核大小为3×3、卷积核数量为k×4的卷积网络,k为图片上每个位置预定义框的数量。
5.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于所述3.1步对特征提取模块的网络参数Φ1进行初始化的方法是SSD中的初始化方法;对语义提升模块的网络参数Φ2、特征选择模块的网络参数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4进行初始化的方法是Kaiming初始化方法。
6.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于3.2步所述对目标检测系统进行训练,拟合得到目标检测系统参数的具体方法是:
3.2.1初始化迭代次数epoch=1;初始化批处理大小batchsize=32;初始化学习率lr=4*10-3
3.2.2采用训练数据集中的图片对目标检测系统进行训练,具体步骤为:
3.2.2.1.初始化变量d=1;
3.2.2.2.将训练数据集中的第d张至第d+batchsize张图片输入到目标检测系统中,使用随机梯度下降算法SGD使损失函数最小化,以更新目标检测系统中各模块的网络参数;
3.2.2.3.若d+2*batchsize<16551,令d=d+batchsize,转3.2.2.2;若d+2*batchsize≥16551,转3.2.3;
3.2.3若epoch<160,令epoch=epoch+1,转3.2.2;若epoch=160,令lr=lr*0.1,令epoch=epoch+1,转3.2.2;若160<epoch≤250,令epoch=epoch+1,转3.2.2;若epoch>250,转3.2.4;
3.2.4将各个模块更新所得的参数作为最终的目标检测系统的网络参数。
7.如权利要求6所述的一种基于信息增强的目标检测方法,其特征在于所述训练的损失函数采用SSD中的损失函数,形式为:
Figure FDA0002573599220000051
其中L为总损失函数,Lloc为位置预测损失函数,通过计算预测框和真实框之间的Smooth L1损失函数获得,Lconf为类别预测损失函数,通过计算预测类别和真实类别之间的Softmax损失函数获得,N为训练数据集中图片的预测目标的坐标框与真实框匹配的样本数量,即训练数据集中所有IOU大于0.5的样本数量,也即:
Figure FDA0002573599220000061
的样本数量;
其中,IOU表示交并比,A表示定位网络输出的一个目标框的坐标所包围的面积,B表示目标真实坐标值所包围的面积。
8.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于4.5.1步所述第一变形模块对S(I)中的特征图统一尺寸的方法是:采用下采样方法将S(I)中的38×38×256,19×19×256特征图的前两个维度缩小至10×10×256;采用插值方法将S(I)中的5×5×256,3×3×256,1×1×256特征图的前两个维度放大,得到3个10×10×256的特征图,对S(I)中原有的10×10×256特征图不作处理;将尺寸统一后的6个特征图放到集合A1(I)中。
9.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于4.5.7步所述第二变形模块对I3进行变形的方法是:先对I3进行两次并行插值操作,将I3放大至38×38×256,19×19×256;再对I3进行三次并行下采样操作,将I3缩小至5×5×256,3×3×256,1×1×256;将I3以及放缩后5个特征图构成变形后的特征图集合G(I)。
10.如权利要求1所述的一种基于信息增强的目标检测方法,其特征在于所述阈值t满足0.7<t<0.9。
CN202010647374.8A 2020-07-07 2020-07-07 一种基于信息增强的目标检测方法 Active CN111612017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010647374.8A CN111612017B (zh) 2020-07-07 2020-07-07 一种基于信息增强的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010647374.8A CN111612017B (zh) 2020-07-07 2020-07-07 一种基于信息增强的目标检测方法

Publications (2)

Publication Number Publication Date
CN111612017A true CN111612017A (zh) 2020-09-01
CN111612017B CN111612017B (zh) 2021-01-29

Family

ID=72200984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010647374.8A Active CN111612017B (zh) 2020-07-07 2020-07-07 一种基于信息增强的目标检测方法

Country Status (1)

Country Link
CN (1) CN111612017B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832668A (zh) * 2020-09-21 2020-10-27 北京同方软件有限公司 一种自适应特征及数据分布的目标检测方法
CN112150821A (zh) * 2020-10-14 2020-12-29 清华大学 轻量化车辆检测模型构建方法、系统及装置
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112507872A (zh) * 2020-12-09 2021-03-16 中科视语(北京)科技有限公司 人体头肩区域的定位方法、定位装置和电子设备
CN112597925A (zh) * 2020-12-28 2021-04-02 作业帮教育科技(北京)有限公司 手写字迹的识别/提取、擦除方法及擦除系统、电子设备
CN112634174A (zh) * 2020-12-31 2021-04-09 上海明略人工智能(集团)有限公司 一种图像表示学习方法及系统
CN114445482A (zh) * 2022-01-29 2022-05-06 福州大学 基于Libra-RCNN和椭圆形状特征的图像中目标检测方法及系统
CN114782875A (zh) * 2022-05-18 2022-07-22 电子科技大学 一种基于鱼道构建的鱼类细粒度信息获取方法
CN116434039A (zh) * 2023-06-12 2023-07-14 济南大学 一种基于多尺度拆分注意力机制的目标检测方法
CN117593746A (zh) * 2024-01-18 2024-02-23 武汉互创联合科技有限公司 基于目标检测的细胞分裂均衡度评估系统及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011499A1 (en) * 2015-07-06 2017-01-12 The United States Of America As Represented By The Secretary Of The Navy Atmospheric Channel Characterization System and Method Using Target Image Information
US20170273161A1 (en) * 2016-03-16 2017-09-21 Tadashi Nakamura Object detection apparatus and moveable apparatus
CN107505614A (zh) * 2017-07-20 2017-12-22 上海无线电设备研究所 一种基于ati‑sar图像幅相信息融合的目标检测方法
CN109543662A (zh) * 2018-12-28 2019-03-29 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN109657551A (zh) * 2018-11-15 2019-04-19 天津大学 一种基于上下文信息增强的人脸检测方法
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111144315A (zh) * 2019-12-27 2020-05-12 北京三快在线科技有限公司 目标检测方法、装置、电子设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011499A1 (en) * 2015-07-06 2017-01-12 The United States Of America As Represented By The Secretary Of The Navy Atmospheric Channel Characterization System and Method Using Target Image Information
US20170273161A1 (en) * 2016-03-16 2017-09-21 Tadashi Nakamura Object detection apparatus and moveable apparatus
CN107505614A (zh) * 2017-07-20 2017-12-22 上海无线电设备研究所 一种基于ati‑sar图像幅相信息融合的目标检测方法
CN109657551A (zh) * 2018-11-15 2019-04-19 天津大学 一种基于上下文信息增强的人脸检测方法
CN109543662A (zh) * 2018-12-28 2019-03-29 广州海昇计算机科技有限公司 基于区域提议的目标检测方法、系统、装置和存储介质
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111144315A (zh) * 2019-12-27 2020-05-12 北京三快在线科技有限公司 目标检测方法、装置、电子设备和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG, X 等: "CNN with spatio-temporal information for fast suspicious object", 《SIGNAL PROCESSING》 *
马枢杰: "基于卷积神经网络的高精度目标检测算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832668A (zh) * 2020-09-21 2020-10-27 北京同方软件有限公司 一种自适应特征及数据分布的目标检测方法
CN112150821A (zh) * 2020-10-14 2020-12-29 清华大学 轻量化车辆检测模型构建方法、系统及装置
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112329800B (zh) * 2020-12-03 2022-09-23 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112507872B (zh) * 2020-12-09 2021-12-28 中科视语(北京)科技有限公司 人体头肩区域的定位方法、定位装置和电子设备
CN112507872A (zh) * 2020-12-09 2021-03-16 中科视语(北京)科技有限公司 人体头肩区域的定位方法、定位装置和电子设备
CN112597925B (zh) * 2020-12-28 2023-08-29 北京百舸飞驰科技有限公司 手写字迹的识别/提取、擦除方法及擦除系统、电子设备
CN112597925A (zh) * 2020-12-28 2021-04-02 作业帮教育科技(北京)有限公司 手写字迹的识别/提取、擦除方法及擦除系统、电子设备
CN112634174A (zh) * 2020-12-31 2021-04-09 上海明略人工智能(集团)有限公司 一种图像表示学习方法及系统
CN112634174B (zh) * 2020-12-31 2023-12-12 上海明略人工智能(集团)有限公司 一种图像表示学习方法及系统
CN114445482A (zh) * 2022-01-29 2022-05-06 福州大学 基于Libra-RCNN和椭圆形状特征的图像中目标检测方法及系统
CN114782875A (zh) * 2022-05-18 2022-07-22 电子科技大学 一种基于鱼道构建的鱼类细粒度信息获取方法
CN114782875B (zh) * 2022-05-18 2023-04-21 电子科技大学 一种基于鱼道构建的鱼类细粒度信息获取方法
CN116434039A (zh) * 2023-06-12 2023-07-14 济南大学 一种基于多尺度拆分注意力机制的目标检测方法
CN116434039B (zh) * 2023-06-12 2023-10-13 济南大学 一种基于多尺度拆分注意力机制的目标检测方法
CN117593746A (zh) * 2024-01-18 2024-02-23 武汉互创联合科技有限公司 基于目标检测的细胞分裂均衡度评估系统及装置
CN117593746B (zh) * 2024-01-18 2024-04-19 武汉互创联合科技有限公司 基于目标检测的细胞分裂均衡度评估系统及装置

Also Published As

Publication number Publication date
CN111612017B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111612017B (zh) 一种基于信息增强的目标检测方法
CN111126472B (zh) 一种基于ssd改进的目标检测方法
US10984289B2 (en) License plate recognition method, device thereof, and user equipment
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111210443A (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN112381030B (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN110852317A (zh) 一种基于弱边缘的小尺度目标检测方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN113065426A (zh) 基于通道感知的手势图像特征融合方法
CN116152254A (zh) 工业泄露目标气体检测模型训练方法、检测方法、电子设备
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN115941407A (zh) 基于递归式卷积网络和注意力机制的信号调制识别方法
CN114511785A (zh) 基于瓶颈注意力模块的遥感图像云检测方法及系统
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN113139618B (zh) 一种基于集成防御的鲁棒性增强的分类方法及装置
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant