CN112149664A - 一种优化分类与定位任务的目标检测方法 - Google Patents

一种优化分类与定位任务的目标检测方法 Download PDF

Info

Publication number
CN112149664A
CN112149664A CN202010920593.9A CN202010920593A CN112149664A CN 112149664 A CN112149664 A CN 112149664A CN 202010920593 A CN202010920593 A CN 202010920593A CN 112149664 A CN112149664 A CN 112149664A
Authority
CN
China
Prior art keywords
image block
classification
training
detection
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010920593.9A
Other languages
English (en)
Other versions
CN112149664B (zh
Inventor
邵子睿
陆佳炜
潘伟航
黄奕涵
郑薇
朱冰倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010920593.9A priority Critical patent/CN112149664B/zh
Publication of CN112149664A publication Critical patent/CN112149664A/zh
Application granted granted Critical
Publication of CN112149664B publication Critical patent/CN112149664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种优化分类与定位任务的目标检测方法,首先通过滑窗方法对输入图像做图像块的提取;随后在生成的图像块中筛选出正图像块与负图像块;再将筛选出的正负图像块用于RPN网络与R‑CNN网络的训练,得到最终的网络参数;对输入图像进行预测焦点像素集,并生成焦点像素块;焦点像素块经过分类检测与回归处理,并使用非极大值抑制方法合并各尺度检测结果。本发明显著得减少多尺度检测方法的计算量,大幅提高检测速率,突破了以往多尺度检测算法无法投入实际应用的瓶颈。进一步,通过解决分类与回归任务存在冲突的问题,大幅度提高了模型的精度。

Description

一种优化分类与定位任务的目标检测方法
技术领域
本发明涉及信息技术领域,具体涉及一种优化分类与定位任务的目标检测方法。
背景技术
从车辆的识别到疫情期间佩戴口罩识别,各种目标检测算法在当今社会中被广泛地使用,如Fast RCNN(快速的基于区域推荐的卷积网络方法),Faster RCNN,YOLOv3,YOLOv4。衡量目标检测最重要的两个性能就是精度(mAP)和速度(FPS)。而现有的目标检测算法,要么注重mAP的结果,如Faster RCNN系列的two-stage算法,精度高,共享计算量但速度慢、训练时间长、误报率高。要么就是强调精度和速度之间的平衡,例如YOLOv4系列的one-stage算法,速度快,避免产生背景错误(false positives),能够学到物体的泛化特征但精度低、对小物体的检测效果不好。
目标检测已被政府及许多企业应用于各个行业,例如智慧城市、指挥交通、智慧安防、智慧工业、智慧农业、智慧体育等行业。其中,智慧安防中安全帽识别、安检仪危险品识别,智慧农业中的辣椒病虫害识别等应用受到了政府的极大重视。对于目标检测应用,应用的实时性以及可靠性是关注的重点,实时性意味着降低检测出目标的时间,即提高检测结果的速度。可靠性意味着高精度,对复杂环境下的目标也能够得到理想的结果(极高的准确度)。而从过去的结果来看,高精度就意味着低速度,高速度意味着低精度,这样的结果很难达到应用所需的级别。
在two-stage算法中,基本流程是线性的,基本上可以分为两个部分,一是产生候选区域CNN特征,二是区域分类、位置精修。现在大多数训练算法处理图像金字塔(图像多尺度表达的一种,是一种以多分辨率来解释图像的有效但概念简单的结构)时考虑所有像素,例如一张图片在三个尺度下时,需要处理的像素量就达到了14倍,大大减慢了训练的速度。同样的情况出现在检测过程中,这样最终导致候选区域的数量过多,且大部分候选区域的质量也存在着问题,降低了检测速度。
发明内容
为了克服现有技术的不足,本发明针对训练过程提出一种全新的候选区域选取方法,同时针对检测流程,采用一种由浅入深的方法,忽略不可能包含目标的区域,相对于过往检测算法处理整个图像金字塔,该发明显著得减少多尺度检测方法的计算量,大幅提高检测速率,突破了以往多尺度检测算法无法投入实际应用的瓶颈。进一步,通过解决分类与回归任务存在冲突的问题,大幅度提高了模型的精度。
本发明提供如下的技术方案:
一种优化分类与定位任务的目标检测方法,所述目标检测方法包括训练过程以及检测过程,
所述训练过程如下:
1.1、输入图片,生成图像块;
1.2、筛选正图像块;
1.3、筛选负图像块;
1.4、输入图像块,训练模型;
所述检测过程如下:
2.1、预测焦点像素集;
2.2、生成焦点图像块;
2.3、RoI阶段;
2.4、分类和回归;
2.2生成的焦点图像块送入全连接层;焦点图像块经过softmax层被分类成具体目标对象,其位置ground-truth boxes所在坐标在regression层中进行优化,其中softmax层的作用为将分类结果进行归一化,regression层则修正区域提议边框的位置,通过上述优化使得输入的区域提议的边框(Px,Py,Pw,Ph)与Ground Truth box(Gx,Gy,Gw,Gh)尽可能得接近,其中(x,y)为边框的中心位置,(w,h)表示边框的宽和高,中心位置通过平移的方式进行修正,边框的宽和高则通过缩放进行修正;
在传统Faster R-CNN框架中,其优化目标是最小化候选区域的分类与回归损失,表示为:
L=Lcls(H1(Fl,P),y)+Lloc(H2(Fl,P),B)
其中,Lcls表示分类(classification)损失函数,Lloc表示定位(location)损失函数,y代表目标类别,B代表目标位置,H1(Fl,P)={f(Fl,P),C(Fl,P)},H2(Fl,P)={f(Fl,P),R(Fl,P)},f(Fl,P)为通用的特征提取函数,C(Fl,P)和R(Fl,P)为分别从特征进行分类和定位的预测函数,P表示矩形标注框区域,Fl表示P的RoI特征,但是,Lcls与Lloc存在内在冲突,分类任务要求具有平移不变性,即候选区域有微小变化时,分类结果需保持不变;定位任务要求具备平移感知性,即候选区域有微小变化时,回归结果需随之改变,表示为:
C(f(Fl,P))=C(f(Fl,P+ε))
R(f(Fl,P))≠R(f(Fl,P+ε))
其中,ε表示极其微小变化的值,为了针对性的解决分类与定位的内在冲突,定义新的损失函数如下:
Figure BDA0002666599190000031
其中,
Figure BDA0002666599190000032
Figure BDA0002666599190000033
式子中上标D表示与原损失函数区分;
Figure BDA0002666599190000034
表示适应分类任务的候选区域,
Figure BDA0002666599190000035
表示适应定位任务的候选区域,
Figure BDA0002666599190000036
Figure BDA0002666599190000037
是根据函数τ从原候选区域P演变而来,τc对应分类任务的候选区域演变公式,τr对应定位任务的候选区域演变公式,
Figure BDA0002666599190000038
Figure BDA0002666599190000039
具体的演变的公式如下:
Figure BDA00026665991900000310
Figure BDA00026665991900000311
ΔR与ΔC表示候选区域P通过其平移变化分别生成
Figure BDA00026665991900000312
Figure BDA00026665991900000313
对具有平移感知性的分类任务,对候选区域P进行整体的移动,区域中新点的值使用双线性插值计算,使得可微,ΔR的公式表示如下:
ΔR=γFr(F;θr)·(w·h)
其中,
Figure BDA00026665991900000315
Figure BDA00026665991900000316
表示张量的实数域,上标表示其维数,在这表示为1*1*2维的张量,γ表示预先定义来调节ΔR的标量,F为候选区域P的RoI特征,θr表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度。Fr表示一个每层输出为{256,256,2}的三层全连接网络;
对于分类任务,对共享的候选区域P,选择一个长宽为k*k的网格,规则的候选区域P通过逐点变形得到不规则的适应分类任务的候选区域
Figure BDA0002666599190000042
ΔC的公式表示如下:
ΔC=γFc(F;θc)·(w·h)
其中,
Figure BDA0002666599190000044
γ表示预先定义来调节ΔC的标量,F为候选区域P的RoI特征,θc表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度,Fc表示一个每层输出为{256,256,k*k*2}的三层全连接网络;
为减少参数,Fr与Fc首层共用同一个全连接层,为了通过不规则的
Figure BDA0002666599190000046
来产生图像特征区域
Figure BDA0002666599190000047
采用了与池化操作Deformable RoI pooling相同的操作,公式如下:
Figure BDA0002666599190000048
其中,G(x,y)是坐标为(x,y)的网格,|G(x,y)|表示网格中采样点的个数,p0与p1为网格中采用点的坐标,FB(·)则是能够使得ΔC可微的双线性插值;
随后,基于
Figure BDA0002666599190000049
Figure BDA00026665991900000410
使用不同的特征提取器
Figure BDA00026665991900000411
Figure BDA00026665991900000412
进行分类与定位的预测;
2.5、焦点合成。
进一步,所述2.4中,引入渐进约束PC来辅助新损失函数的学习,
Figure BDA00026665991900000413
对于分类任务,渐进约束如上式,H1(y|F1,P)为类y的置信度,mc为预设的间隔,|·|+中加号表示该式为非负实数,上式约束新损失函数的预测置信度需要比常规特征提取器高,且至少需要高mc
Figure BDA00026665991900000414
对于定位分支,渐进约束如上式,
Figure BDA00026665991900000415
为原损失函数的预测结果,
Figure BDA00026665991900000416
为新损失函数转换后的预测结果,B为ground-truth boxes所在的区域。mr为预设的间隔。上式仅对正样本进行计算,即预测结果的IoU需要比至少常规特征提取器高,且至少需要高mr
Figure BDA0002666599190000051
训练时最终的损失函数为上式,其结合了所有的损失,包括原始损失函数classical loss与新的损失函数extra loss。
再进一步,所述1.1中,所述图像块是指在任一尺度下,某图片上一系列固定大小的以恒定间隔排布的窗口,每个窗口都可能包含一个或几个目标,在尺度{S1,S2,…,Sn}下生成的图像块记作Gi,其中Sn表示第n个尺度。
所述1.2中,图像的正确的标注框ground-truth boxes随着图像尺度的变化进行对应的缩放。因此对于每一个尺度i,需要指定理想检测面积desired area range为
Figure BDA0002666599190000052
i∈[1,n],
Figure BDA0002666599190000053
分别表示理想检测面积的最小值与最大值,若某个ground-truth boxes完全位于一个图像块内,则该ground-truth boxes被图像块包围,用贪心的策略,根据图像块包围的ground-truth boxes数量,从每个尺度i中筛选图像块作为正图像块,记作
Figure BDA0002666599190000054
其中贪心算法是一种每一步选择上都要保证能获得局部最优解的算法。
所述1.3包括以下步骤:
步骤1.3.1使用步骤二中筛选得到的正图像块训练一个仅有几个epochs的弱RPN,epochs指代所有的数据送入网络中完成一次前向计算及反向传播的过程,其中RPN是在Faster RCNN中首次提出的深度全卷积网络,该RPN仅用来选择负图像块,因此即使精度不高也几乎不会对模型最终性能产生影响;
步骤1.3.2使用该RPN检测整个训练集,根据检测结果即RPN提议的区域选择负图像块,选择过程如下:
a)排除所有被正图像块
Figure BDA0002666599190000055
包围的区域提议(Region proposals),区域提议指最有可能为目标的区域;
b)在每个尺度i下使用贪心算法选择至少包含M个区域提议的图像组成负图像块池;
步骤1.3.3训练时从负图像块池中以固定数量随机选择参与训练的负图像块,表示为
Figure BDA0002666599190000061
其中∪表示的是负图像块全集,neg指的是negative,
Figure BDA0002666599190000062
指尺度i下的负图像块。
所述1.4包括以下步骤:
步骤1.4.1使用一个庞大的开源数据集ImageNet初始化共享的卷积层,包括kernel(卷积核的尺寸)、stride(卷积步长)、padding(输入的每一条边补充0的层数)、dilation(卷积核元素之间的间距)、group(从输入通道到输出通道的阻塞连接数)、bias(偏置)、in_channels(输入信号的通道)、out_channels(输出信号的通道)参数,初始化RPN网络中卷积核部分,通过步骤三中筛选出的正负图像块训练RPN,训练之后,共享的卷积层以及RPN的边框回归(Bounding-box regression)函数被更新,边框回归函数指的是一种关系使得输入的原始窗口P经过映射得到一个跟ground-truth box更接近的回归窗口P1,该函数通过梯度下降法(一种寻找目标函数最小化的方法)实现参数的更新;
步骤1.4.2用ImageNet重新初始化共享的卷积层,初始化Fast-RCNN网络的池化层以及卷积层,通过使用训练过的RPN计算得到区域提议,计算步骤包括使用滑动窗口机制生成区域提议,并进行分类与回归,再将生成的区域提议重新训练Fast-RCNN,根据步骤1.4.1设置的参数,重复步骤1.4.1,训练结束之后,共享的卷积层以及Fast-RCNN的权重参数都会被更新;
步骤1.4.3使用步骤1.4.2中训练完成的共享卷积层初始化RPN网络,随后,第二次训练RPN网络,通过初始化后的RPN网络计算得到区域提议,计算步骤与步骤1.4.2相同,训练结束之后,RPN中边框回归函数被更新;
步骤1.4.4保持步骤1.4.3中的共享卷积层不变,再次训练Fast-RCNN网络,具体步骤与步骤1.4.2相同,训练完毕,得到最终的一个统一网络。
所述2.1中,焦点像素集位于卷积神经网络特征图的粒度之上,由带ReLU的两层卷积层(3*3和1*1)以及一个二分类器softmax组成,特征图上某个与小目标重叠的像素记为焦点像素,对于输入的面积为X*Y的图片,经过一个步长为s的全卷积神经网络,得到一个特征图标签集L的大小为
Figure BDA0002666599190000063
Figure BDA0002666599190000064
X′与Y′分别代表经过全卷积神经网络后输出的特征图标签集的长和宽,对每一个大小为s*s的标签l(l∈L),作如下的定义:
Figure BDA0002666599190000071
其中,1代表标注正,0代表标注负,-1表示无效,GTArea表示实际边界框经过缩放后的面积,即ground-truth boxes区域面积,其中a、b、c皆为判定的阈值,IoU为重叠度,即两个矩形框重叠面积占其并集的面积比例;
在训练时,焦点像素集标注为正,忽略与极小目标、中等目标重叠的像素,其他像素标注为负,同时,同一目标的标记可能随着训练尺度的变化而发生改变。
所述2.2中,由于存在某在图像块面积过小,缺少检测的必要信息,为了保证检测效率,需要指定图像块最小面积为k,输入为预测分支输出的焦点像素集预测结果P、设定的阈值t、膨胀系数d以及图像块最小面积k,焦点图像块生成算法的步骤如下:
步骤2.2.1用阈值t将P二值化;
步骤2.2.2使用d*d的过滤器对P进行膨胀操作;
步骤2.2.3从P中获得连通域集合S;
步骤2.2.4对每个在S中的连通域,生成多个最小面积大于k的图像块C;
步骤2.2.5合并重叠的图像块C;
基于焦点图像块,级联推断过程如下:
a)在最低分辨率检测并生成焦点图像块;
b)在当前最低分辨率图像块上检测,并进一步生成下一尺度的焦点图像块;
c)重复步骤b,仅将可能存在目标的区域即焦点图像块传递给下一尺度检测。
所述2.3中,ROI指的是从目标图像中识别出的候选识别区域,也就是步骤2.2中生成的焦点图像块,ROI Pooling的作用是把大小形状各不相同的候选识别区域归一化为固定尺寸的目标识别区域,不同于CNN网络中的池化层,ROI Pooling通过如下的方法得到固定尺寸的输出,过程如下:
步骤2.3.1对于ROI Pooling层,首先确定输出大小,然后确定内核大小、步幅和填充值,将ROI Pooling层的输出大小表示为w2*h2,输入候选区域的大小为w*h;
步骤2.3.2将步骤二的焦点图像块划分为w2*h2大小的子窗口,每个窗口的大小为
Figure BDA0002666599190000084
步骤2.3.3对步骤2.3.1中每个子窗口取最大元素作为输出,从而得到大小为w2*h2的输出。
所述2.5中,步骤2.2中使用d*d的过滤器对P进行膨胀操作可以有效避免应在下一尺度检测的物体出现在焦点图像块的边界上,因此可以忽略所有出现在图像块边界上的检测框,对其他位置的目标,有如下规则:对于处在原图边界上的目标,则检查其是否整体位于某图像块中,如果整体位于某图像块中,保留其检测结果,否则忽略;本发明运用上述规则成功过滤各尺度不符合上述规则的检测,在检测过程的最后,使用非极大值抑制方法(即搜索局部IoU极大值,抑制非极大值元素。非极大值元素指的是同一检测中,非置信度得分最高的冗余边界框)合并各尺度检测结果,获得最终结果。
本发明为解决分类回归任务冲突的通用目标检测方法,首先通过滑窗方法对输入图像做图像块的提取;随后在生成的图像块中筛选出正图像块与负图像块;再将筛选出的正负图像块用于RPN网络与R-CNN网络的训练,得到最终的网络参数;对输入图像进行预测焦点像素集,并生成焦点像素块;焦点像素块经过分类检测与回归处理,并使用非极大值抑制方法合并各尺度检测结果;与现有方法相比,本发明所述方法在保证模型准确度的基础上,减少了像素数据的处理量,大幅度提高了训练速度及检测速度。
与现有技术相比,本发明具有以下优点:
1.本发明使用多尺度算法解决小目标检测问题,传统的多尺度训练算法会严重影响训练速度,而本发明采用的筛选图像块方法大幅度提高了训练速度。
2.检测过程采用一种由浅入深的方法,忽略不可能包含目标的区域,显著地减少多尺度检测方法的计算量,大幅度提高检测速率,突破了以往多尺度检测算法无法投入实际应用的瓶颈。
3.本发明针对分类任务和定位(回归)任务对于输入特征的空间敏感性不同,进行相应优化,使得分类和定位(回归)任务分别学习自适应的候选区域与特征提取器,解决了由于分类与定位(回归)任务共享同一候选区域和特征提取器在训练时会出现一些内在的矛盾影响检测器的性能。
4.训练时,从原图裁剪出筛选得到的图像块,获得一系列大小固定的子图,这些子图为后续的训练样本。由于得到的图像块尺寸较小(可能不到某些高分别率图像的1/10),因此可以显著减小训练的时间与空间复杂度。并且,每个实际边界框均被合适尺寸的图像块包围,这使得模型更加容易收敛。
具体实施方式
下面将结合具体实施方式对本发明做进一步说明。
一种优化分类与定位任务的目标检测方法,包括以下步骤:
训练过程如下:
1.1、输入图像、生成图像块
这里的图像块,是指在任一尺度下,某图片上一系列固定大小的(K*K像素)以恒定间隔(d像素)排布的窗口,每个窗口都可能包含一个或几个目标(类似滑动窗口机制),在尺度{S1,S2,…,Sn}下生成的图像块记作Ci,其中Sn表示第n个尺度。例如选定最优值K为512,d最优值为32,在图像金字塔的某个大小为Wi*Hi的图像上,通过步长为32的滑窗方法得到约
Figure BDA0002666599190000091
个大小为512*512像素的图像块,因此整个图像金字塔生成的图像块总数约为:
Figure BDA0002666599190000092
1.2、筛选正图像块
图像的ground-truth boxes(正确的标注框)随着图像尺度的变化进行对应的缩放。因此对于每一个尺度i,需要指定理想检测面积(desired area range)为
Figure BDA0002666599190000093
i∈[1,n]。
Figure BDA0002666599190000094
分别表示理想检测面积的最小值与最大值,若某个ground-truth boxes完全位于一个图像块内,则该ground-truth boxes被图像块包围。采用贪心算法,根据图像块包围的ground-truth boxes数量,从每个尺度i中筛选图像块作为正图像块,记作
Figure BDA0002666599190000101
其中pos指的是positive,其中贪心算法是一种每一步选择上都要保证能获得局部最优解的算法
1.3、筛选负图像块,包括以下步骤:
步骤1.3.1使用步骤二中筛选得到的正图像块训练一个仅有几个epochs(指代所有的数据送入网络中完成一次前向计算及反向传播的过程)的弱RPN。其中RPN是在FasterRCNN中首次提出的深度全卷积网络,该RPN仅用来选择负图像块,因此即使精度不高也几乎不会对模型最终性能产生影响;
步骤1.3.2使用该RPN检测整个训练集,根据检测结果(即RPN提议的区域)选择负图像块,选择过程如下:
a)排除所有被正图像块
Figure BDA0002666599190000102
包围的区域提议(Region proposals),区域提议指最有可能为目标的区域;
b)在每个尺度i下贪心算法选择至少包含M个区域提议的图像组成负图像块池。
步骤1.3.3训练时从负图像块池中以固定数量随机选择参与训练的负图像块,表示为
Figure BDA0002666599190000103
其中∪表示的是负图像块全集,neg指的是negative,
Figure BDA0002666599190000104
指尺度i下的负图像块;
1.4、输入图像块,训练模型,包括以下步骤:
步骤1.4.1使用ImageNet(一个庞大的开源数据集)初始化共享的卷积层(包括kernel(卷积核的尺寸)、stride(卷积步长)、padding(输入的每一条边补充0的层数)、dilation(卷积核元素之间的间距)、group(从输入通道到输出通道的阻塞连接数)、bias(偏置)、in_channels(输入信号的通道)、out_channels(输出信号的通道)参数),部分初始化RPN网络,即初始化RPN网络中如卷积核部分,通过步骤1.3中筛选出的正负图像块训练RPN,训练之后,共享的卷积层以及RPN的边框回归(Bounding-box regression)函数被更新,边框回归函数指的是一种关系使得输入的原始窗口P经过映射得到一个跟ground-truth box更接近的回归窗口P1,该函数通过梯度下降法(一种寻找目标函数最小化的方法)实现参数的更新;
步骤1.4.2用ImageNet重新初始化共享的卷积层,部分初始化Fast-RCNN网络,即网络中的池化层以及卷积层,通过使用训练过的RPN计算区域提议,计算步骤包括使用类似滑动窗口机制生成区域提议,并进行简单的分类与回归,再将生成的区域提议重新训练Fast-RCNN。根据步骤1.4.1设置的参数,重复步骤1.4.1。训练结束之后,共享的卷积层以及Fast-RCNN的权重参数都会被更新。
步骤1.4.3使用步骤1.4.2中训练完成的共享卷积层初始化RPN网络,随后,第二次训练RPN网络,通过初始化后的RPN网络计算得到区域提议,计算步骤与步骤1.4.2相同,训练结束之后,RPN中边框回归函数被更新。
步骤1.4.4保持步骤1.4.3中的共享卷积层不变,再次训练Fast-RCNN网络,具体步骤与步骤1.4.2相同。训练完毕,得到最终的一个统一网络。
检测过程如下:
2.1、预测焦点像素集
焦点像素集位于卷积神经网络特征图(feature map)的粒度之上,特征图上某个与小目标(面积在5*5像素到64*64像素之间)重叠的像素记为焦点像素,对于输入的面积为X*Y的图片,经过一个步长为s的全卷积神经网络(FCN,Full Convolutional Networks),得到一个特征图标签集L的大小为
Figure BDA0002666599190000113
Figure BDA0002666599190000111
对每一个大小为s*s的标签l(l∈L),作如下的定义:
Figure BDA0002666599190000112
其中,1代表标注正,0代表标注负,-1表示无效(即忽略的区域)。GTArea表示实际边界框经过缩放后的面积,即ground-truth boxes区域面积。
例如,a,b,c取值分别是5,64,90。以上公式可表述为:在训练时,焦点像素集标注为正,忽略与极小目标(面积小于5*5像素)、中等目标(面积在64*64像素与90*90像素之间)重叠的像素,其他像素标注为负。同时,同一目标的标记可能随着训练尺度的变化而发生改变。
以上标记仅用来训练本发明训练过程中用于预测焦点像素集的分支。该分支位于conv5(一个卷积层)顶部,由带ReLU的两层卷积层(3*3和1*1)以及一个二分类器SoftMax组成。
2.2、生成焦点图像块
由于存在某在图像块面积过小,缺少检测的必要信息。为了保证检测效率,需要指定图像块最小面积为k,焦点图像块生成算法的具体步骤如下:
输入为预测分支输出的焦点像素集预测结果P、设定的阈值t、膨胀系数d以及图像块最小面积k。
步骤2.2.1用阈值t将P二值化;
步骤2.2.2使用d*d的过滤器对P进行膨胀操作(增加图像亮部);
步骤2.2.3从P中获得连通域集合S;
步骤2.2.4对每个在S中的连通域,生成多个最小面积大于k的图像块C;
步骤2.2.5合并重叠的图像块C;
基于焦点图像块,本发明的级联推断过程如下:
a)在最低分辨率检测并生成焦点图像块;
b)在当前最低分辨率图像块上检测,并进一步生成下一尺度的焦点图像块;
c)重复步骤b,仅将可能存在目标的区域(即焦点图像块)传递给下一尺度检测。
2.3、ROI阶段
ROI(Region Of Interest,感兴趣区域)指的是从目标图像中识别出的候选识别区域,也就是步骤二中生成的焦点图像块,ROI Pooling的作用是把大小形状各不相同的候选识别区域归一化为固定尺寸的目标识别区域,不同于CNN网络中的池化层,ROI Pooling通过如下的方法得到固定尺寸的输出,过程如下:
步骤2.3.1对于ROI Pooling层,首先确定输出大小,然后确定内核大小、步幅和填充值,将ROI Pooling层的输出大小表示为w2*h2,输入候选区域的大小为w*h;
步骤2.3.2将步骤二的焦点图像块划分为w2*h2大小的子窗口,每个窗口的大小为
Figure BDA0002666599190000131
步骤2.3.3对步骤2.3.1中每个子窗口取最大元素作为输出,从而得到大小为w2*h2的输出;
2.4、分类和回归
步骤2.2生成的焦点图像块送入全连接层;焦点图像块经过softmax层被分类成具体目标对象,其位置(ground-truth boxes)所在坐标在regression层中进行优化,其中softmax层的作用为将分类结果进行归一化,regression层则修正区域提议边框的位置,通过上述优化使得(Px,Py,Pw,Ph)(输入的区域提议的边框)与(Gx,Gy,Gw,Gh)(Ground Truthbox)尽可能得接近,其中(x,y)为边框的中心位置,(w,h)表示边框的宽和高。中心位置通过平移的方式进行修正,边框的宽和高则通过缩放进行修正;
分类任务和定位(回归)任务对于输入特征的空间敏感性不同。分类任务更关注语义信息丰富的地方,而定位任务比较关注物体的边界处;
在传统Faster R-CNN框架中,其优化目标是最小化候选区域的分类与回归损失,表示为:
L=Lcls(H1(Fl,P),y)+Lloc(H2(Fl,P),B)
其中,Lcls表示分类(classification)损失函数,Lloc表示定位(location)损失函数,y代表目标类别,B代表目标位置,H1(Fl,P)={f(Fl,P),C(Fl,P)},H2(Fl,P)={f(Fl,P),R(Fl,P)},f(Fl,P)为通用的特征提取函数,C(Fl,P)和R(Fl,P)为分别从特征进行分类和定位的预测函数,P表示矩形标注框区域,Fl表示P的RoI特征。但是,Lcls与Lloc存在内在冲突,分类任务要求具有平移不变性,即候选区域有微小变化时,分类结果需保持不变;定位任务要求具备平移感知性,即候选区域有微小变化时,回归结果需随之改变,表示为:
C(f(Fl,P))=C(f(Fl,P+ε))
R(f(Fl,P))≠R(f(Fl,P+ε))
其中,C(f(Fl,P))和R(f(Fl,P))与上文定义相同,ε表示极其微小变化的值,为了针对性的解决分类与定位的内在冲突,定义新的损失函数如下:
Figure BDA0002666599190000141
其中,
Figure BDA0002666599190000142
Figure BDA0002666599190000143
式子中上标D表示与原损失函数区分;
Figure BDA0002666599190000144
表示适应分类任务的候选区域,
Figure BDA0002666599190000145
表示适应定位(回归)任务的候选区域,
Figure BDA0002666599190000146
Figure BDA0002666599190000147
是根据函数τ从原候选区域P演变而来,τc对应分类任务的候选区域演变公式,τr对应定位(回归)任务的候选区域演变公式,
Figure BDA0002666599190000148
Figure BDA0002666599190000149
具体的演变的公式如下:
Figure BDA00026665991900001410
Figure BDA00026665991900001411
ΔR与ΔC表示候选区域P通过其平移变化分别生成
Figure BDA00026665991900001412
Figure BDA00026665991900001413
对具有平移感知性的分类任务,对候选区域P进行整体的移动,区域中新点的值使用双线性插值计算,使得可微,ΔR的公式表示如下:
ΔR=γFr(F;θr)·(w·h)
其中,
Figure BDA00026665991900001415
Figure BDA00026665991900001416
表示张量的实数域,上标表示其维数,在这表示为1*1*2维的张量,γ表示预先定义来调节ΔR的标量,F为候选区域P的RoI特征,θr表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度。Fr表示一个每层输出为{256,256,2}的三层全连接网络;
对于分类任务,对共享的候选区域P,选择一个长宽为k*k的网格,规则的候选区域P通过逐点变形得到不规则的适应分类任务的候选区域
Figure BDA00026665991900001418
ΔC的公式表示如下:
ΔC=γFc(F;θc)·(w·h)
其中,
Figure BDA00026665991900001420
γ表示预先定义来调节ΔC的标量,F为候选区域P的RoI特征,θc表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度。Fc表示一个每层输出为{256,256,k*k*2}的三层全连接网络;
为减少参数,Fr与Fc首层共用同一个全连接层。为了通过不规则的
Figure BDA0002666599190000151
来产生图像特征区域
Figure BDA0002666599190000152
采用了与Deformable RoI pooling(一种池化操作)相同的操作,公式如下:
Figure BDA0002666599190000153
其中,G(x,y)是坐标为(x,y)的网格,|G(x,y)|表示网格中采样点的个数。p0与p1为网格中采用点的坐标,FB(·)则是能够使得ΔC可微的双线性插值(·为对上述式子中内容的省略,下同)。
随后,基于
Figure BDA0002666599190000154
Figure BDA0002666599190000155
使用不同的特征提取器
Figure BDA0002666599190000156
Figure BDA0002666599190000157
进行分类与定位的预测;
为进一步提升模型性能,引入渐进约束(progressive constraint,PC)来辅助新损失函数的学习;
Figure BDA0002666599190000158
对于分类任务,渐进约束如上式,H1(y|F1,P)为类y的置信度,mc为预设的间隔,|·|+中加号表示该式为非负实数,上式约束新损失函数的预测置信度需要比常规特征提取器高,且至少需要高mc
Figure BDA0002666599190000159
对于定位分支,渐进约束如上式,
Figure BDA00026665991900001510
为常规方式(原损失函数)的预测结果,
Figure BDA00026665991900001511
为新损失函数转换后的预测结果,B为ground-truth boxes所在的区域。mr为预设的间隔,上式仅对正样本进行计算,即约束基于任务空间自适应解耦检测算法的预测结果的IoU需要比至少常规特征提取器高,且至少需要高mr
Figure BDA00026665991900001512
训练时最终的损失函数为上式,其结合了所有的损失,包括classical loss(原始损失函数)与extra loss(新的损失函数)。
2.5、焦点合成
步骤2.2中使用d*d的过滤器对P进行膨胀操作可以有效避免应在下一尺度检测的物体出现在焦点图像块的边界上(图像块与原图共享边界除外),因此可以忽略所有出现在图像块边界上的检测框。对其他位置的目标,有如下规则:
对于处在原图边界上的目标,则检查其是否整体位于某图像块中,如果整体位于某图像块中,保留其检测结果,否则忽略;
本发明运用上述规则成功过滤各尺度不符合上述规则的检测,在检测过程的最后,使用非极大值抑制方法(即搜索局部IoU极大值,抑制非极大值元素。非极大值元素指的是同一检测中,非置信度得分最高的冗余边界框)合并各尺度检测结果,获得最终结果。
实例:以英伟达GPU作为计算平台,采用CUDA作为GPU加速器,选取MXNET作为CNN框架。
步骤一、数据准备:
本实验中使用通过网络爬取的30199张图片作为数据集。其中标注为“hat”的目标有59428个,标注为“person”的目标有125892个。以符合学术标准的8:2比例将数据集分为训练集与测试集,其中训练集24159张图片,测试集6040张图片。不存在同时出现在训练集和测试集中的图片。
步骤二、模型训练:
步骤2.1:本实验的模型采用随机梯度下降算法(SGD),批处理数量(batchsize)为4,epochs的个数为6,每个epoch包含110000次迭代。
步骤2.2:本实验的学习率设置如下:前五个epoch的学习率设置为0.025,第五次epoch训练结束时减小学习率(learning rate)为0.015。
步骤2.3:图像块大小(chip size)设置为(512,512),训练尺度(trainingscales)设置为(480,512)、(800,1280)、(1400,2000)。
步骤2.4:最佳检测面积Ri(desired area ranges)设置为(0,802)、(322,1502)、(1202,inf)。
步骤2.5:设置学习参数θr为0.05。
步骤2.6:模型训练过程中生成的.states文件可用于模型的继续训练,.params文件可用于接下来的模型测试。
步骤三、模型测试:
步骤3.1:用上述模型训练生成的.param文件来进行测试。
步骤3.2:本实验采用贪心的非极大值抑制策略对测试生成的预测结果进行处理,消除高重叠度和低分数的预测结果。非极大值抑制的阈值设置为0.99999,分数的阈值设置为0.25。
步骤四、模型评估:
模型的评估采用mAP@0.5的值作为最终评估的结果。
步骤五、训练环境配置:
具体训练环境配置说明如下表1:
品名 型号 数量
CPU INTEL I5 9700K 1
主板 微星Z390 GAMING PLUS 1
内存 海盗船复仇者16GB/3200 1
显卡 NVIDIA GTX2060 6G骁将 1
固态硬盘 西数500GB 1
硬盘 希捷1TB 1
表1
具体实施步骤叙述完毕,在上述实验参数设置下,最终训练时间约为42小时,训练用于筛选负图像块的RPN的时间大约为12小时。测试处理一张图片的平均时间约0.08秒,即平均每秒约12.5张图片。本实验训练下表给出本发明在mAP@0.5在上述实验设置的测试结果,并在相同条件下,给出利用其他方法的测试结果对比,如表2:
Figure BDA0002666599190000171
Figure BDA0002666599190000181
表2。

Claims (10)

1.一种优化分类与定位任务的目标检测方法,其特征在于,所述目标检测方法包括训练过程以及检测过程,
所述训练过程如下:
1.1、输入图片,生成图像块;
1.2、筛选正图像块;
1.3、筛选负图像块;
1.4、输入图像块,训练模型;
所述检测过程如下:
2.1、预测焦点像素集;
2.2、生成焦点图像块;
2.3、RoI阶段;
2.4、分类和回归;
2.2生成的焦点图像块送入全连接层;焦点图像块经过softmax层被分类成具体目标对象,其位置ground-truth boxes所在坐标在regression层中进行优化,其中softmax层的作用为将分类结果进行归一化,regression层则修正区域提议边框的位置,通过上述优化使得输入的区域提议的边框(Px,Py,Pw,Ph)与GroundTruth box(Gx,Gy,Gw,Gh)尽可能得接近,其中(x,y)为边框的中心位置,(w,h)表示边框的宽和高,中心位置通过平移的方式进行修正,边框的宽和高则通过缩放进行修正;
在传统Faster R-CNN框架中,其优化目标是最小化候选区域的分类与回归损失,表示为:
L=Lcls(H1(Fl,P),y)+Lloc(H2(Fl,P),B)
其中,Lcls表示分类(classification)损失函数,Lloc表示定位(location)损失函数,y代表目标类别,B代表目标位置,H1(Fl,P)={f(Fl,P),C(Fl,P)},H2(Fl,P)={f(Fl,P),R(Fl,P)},f(Fl,P)为通用的特征提取函数,C(Fl,P)和R(Fl,P)为分别从特征进行分类和定位的预测函数,P表示矩形标注框区域,Fl表示P的RoI特征,但是,Lcls与Lloc存在内在冲突,分类任务要求具有平移不变性,即候选区域有微小变化时,分类结果需保持不变;定位任务要求具备平移感知性,即候选区域有微小变化时,回归结果需随之改变,表示为:
C(f(Fl,P))=C(f(Fl,P+ε))
R(f(Fl,P))≠R(f(Fl,P+ε))
其中,ε表示极其微小变化的值,为了针对性的解决分类与定位的内在冲突,定义新的损失函数如下:
Figure FDA0002666599180000021
其中,
Figure FDA0002666599180000022
Figure FDA0002666599180000023
式子中上标D表示与原损失函数区分;
Figure FDA0002666599180000024
表示适应分类任务的候选区域,
Figure FDA0002666599180000025
表示适应定位任务的候选区域,
Figure FDA0002666599180000026
Figure FDA0002666599180000027
是根据函数τ从原候选区域P演变而来,τc对应分类任务的候选区域演变公式,τr对应定位任务的候选区域演变公式,
Figure FDA0002666599180000028
Figure FDA0002666599180000029
具体的演变的公式如下:
Figure FDA00026665991800000210
Figure FDA00026665991800000211
ΔR与ΔC表示候选区域P通过其平移变化分别生成
Figure FDA00026665991800000212
Figure FDA00026665991800000213
对具有平移感知性的分类任务,对候选区域P进行整体的移动,区域中新点的值使用双线性插值计算,使得可微,ΔR的公式表示如下:
ΔR=γFr(F;θr)·(w·h)
其中,
Figure FDA00026665991800000214
Figure FDA00026665991800000215
表示张量的实数域,上标表示其维数,在这表示为1*1*2维的张量,γ表示预先定义来调节ΔR的标量,F为候选区域P的RoI特征,θr表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度,Fr表示一个每层输出为{256,256,2}的三层全连接网络;
对于分类任务,对共享的候选区域P,选择一个长宽为k*k的网格,规则的候选区域P通过逐点变形得到不规则的适应分类任务的候选区域
Figure FDA00026665991800000216
ΔC的公式表示如下:
ΔC=γFc(F;θc)·(w·h)
其中,
Figure FDA0002666599180000031
γ表示预先定义来调节ΔC的标量,F为候选区域P的RoI特征,θc表示学习参数,w表示候选区域P的宽度,h表示候选区域P的高度,Fc表示一个每层输出为{256,256,k*k*2}的三层全连接网络;
为减少参数,Fr与Fc首层共用同一个全连接层,为了通过不规则的
Figure FDA0002666599180000032
来产生图像特征区域
Figure FDA0002666599180000033
采用了与池化操作Deformable RoI pooling相同的操作,公式如下:
Figure FDA0002666599180000034
其中,G(x,y)是坐标为(x,y)的网格,|G(x,y)|表示网格中采样点的个数,p0与p1为网格中采用点的坐标,FB(·)则是能够使得ΔC可微的双线性插值;
随后,基于
Figure FDA0002666599180000035
Figure FDA0002666599180000036
使用不同的特征提取器
Figure FDA0002666599180000037
Figure FDA0002666599180000038
进行分类与定位的预测;
2.5、焦点合成。
2.如权利要求1所述的优化分类与定位任务的目标检测方法,其特征在于,所述2.4中,引入渐进约束PC来辅助新损失函数的学习,
Figure FDA0002666599180000039
对于分类任务,渐进约束如上式,H1(y|F1,P)为类y的置信度,mc为预设的间隔,|·|+中加号表示该式为非负实数,上式约束新损失函数的预测置信度需要比常规特征提取器高,且至少需要高mc
Figure FDA00026665991800000310
对于定位分支,渐进约束如上式,
Figure FDA00026665991800000311
为原损失函数的预测结果,
Figure FDA00026665991800000312
为新损失函数转换后的预测结果,B为ground-truth boxes所在的区域,mr为预设的间隔,上式仅对正样本进行计算,即预测结果的IoU需要比至少常规特征提取器高,且至少需要高mr
Figure FDA00026665991800000313
训练时最终的损失函数为上式,其结合了所有的损失,包括原始损失函数classicalloss与新的损失函数extra loss。
3.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述1.1中,所述图像块是指在任一尺度下,某图片上一系列固定大小的以恒定间隔排布的窗口,每个窗口都可能包含一个或几个目标,在尺度{S1,S2,...,Sn}下生成的图像块记作Ci,其中Sn表示第n个尺度。
4.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述1.2中,图像的正确的标注框ground-truth boxes随着图像尺度的变化进行对应的缩放,因此对于每一个尺度i,需要指定理想检测面积desired area range为
Figure FDA0002666599180000041
Figure FDA0002666599180000042
分别表示理想检测面积的最小值与最大值,若某个ground-truth boxes完全位于一个图像块内,则该ground-truth boxes被图像块包围,用贪心的策略,根据图像块包围的ground-truth boxes数量,从每个尺度i中筛选图像块作为正图像块,记作
Figure FDA0002666599180000043
其中贪心算法是一种每一步选择上都要保证能获得局部最优解的算法。
5.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述1.3包括以下步骤:
步骤1.3.1使用步骤二中筛选得到的正图像块训练一个仅有几个epochs的弱RPN,epochs指代所有的数据送入网络中完成一次前向计算及反向传播的过程,其中RPN是在Faster RCNN中首次提出的深度全卷积网络,该RPN仅用来选择负图像块,因此即使精度不高也几乎不会对模型最终性能产生影响;
步骤1.3.2使用该RPN检测整个训练集,根据检测结果即RPN提议的区域选择负图像块,选择过程如下:
a)排除所有被正图像块
Figure FDA0002666599180000044
包围的区域提议(Region proposals),区域提议指最有可能为目标的区域;
b)在每个尺度i下使用贪心算法选择至少包含M个区域提议的图像组成负图像块池;
步骤1.3.3训练时从负图像块池中以固定数量随机选择参与训练的负图像块,表示为
Figure FDA0002666599180000045
其中U表示的是负图像块全集,neg指的是negative,
Figure FDA0002666599180000046
指尺度i下的负图像块。
6.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述1.4包括以下步骤:
步骤1.4.1使用一个庞大的开源数据集ImageNet初始化共享的卷积层,包括kernel(卷积核的尺寸)、stride(卷积步长)、padding(输入的每一条边补充0的层数)、dilation(卷积核元素之间的间距)、group(从输入通道到输出通道的阻塞连接数)、bias(偏置)、in_channels(输入信号的通道)、out_channels(输出信号的通道)参数,初始化RPN网络中卷积核部分,通过步骤三中筛选出的正负图像块训练RPN,训练之后,共享的卷积层以及RPN的边框回归(Bounding-box regression)函数被更新,边框回归函数指的是一种关系使得输入的原始窗口P经过映射得到一个跟ground-truth box更接近的回归窗口P1,该函数通过梯度下降法(一种寻找目标函数最小化的方法)实现参数的更新;
步骤1.4.2用ImageNet重新初始化共享的卷积层,初始化Fast-RCNN网络的池化层以及卷积层,通过使用训练过的RPN计算得到区域提议,计算步骤包括使用滑动窗口机制生成区域提议,并进行分类与回归,再将生成的区域提议重新训练Fast-RCNN,根据步骤1.4.1设置的参数,重复步骤1.4.1,训练结束之后,共享的卷积层以及Fast-RCNN的权重参数都会被更新;
步骤1.4.3使用步骤1.4.2中训练完成的共享卷积层初始化RPN网络,随后,第二次训练RPN网络,通过初始化后的RPN网络计算得到区域提议,计算步骤与步骤1.4.2相同,训练结束之后,RPN中边框回归函数被更新;
步骤1.4.4保持步骤1.4.3中的共享卷积层不变,再次训练Fast-RCNN网络,具体步骤与步骤1.4.2相同,训练完毕,得到最终的一个统一网络。
7.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述2.1中,焦点像素集位于卷积神经网络特征图的粒度之上,由带ReLU的两层卷积层(3*3和1*1)以及一个二分类器soffmax组成,特征图上某个与小目标重叠的像素记为焦点像素,对于输入的面积为X*Y的图片,经过一个步长为s的全卷积神经网络,得到一个特征图标签集L的大小为X′*Y′
Figure FDA0002666599180000051
Figure FDA0002666599180000052
X′与Y′分别代表经过全卷积神经网络后输出的特征图标签集的长和宽,对每一个大小为s*s的标签l(l∈L),作如下的定义:
Figure FDA0002666599180000061
其中,1代表标注正,0代表标注负,-1表示无效,GTArea表示实际边界框经过缩放后的面积,即ground-truth boxes区域面积,其中a、b、c皆为判定的阈值,IoU为重叠度,即两个矩形框重叠面积占其并集的面积比例;
在训练时,焦点像素集标注为正,忽略与极小目标、中等目标重叠的像素,其他像素标注为负,同时,同一目标的标记可能随着训练尺度的变化而发生改变。
8.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述2.2中,由于存在某在图像块面积过小,缺少检测的必要信息,为了保证检测效率,需要指定图像块最小面积为k,输入为预测分支输出的焦点像素集预测结果P、设定的阈值t、膨胀系数d以及图像块最小面积k,焦点图像块生成算法的步骤如下:
步骤2.2.1用阈值t将P二值化;
步骤2.2.2使用d*d的过滤器对P进行膨胀操作;
步骤2.2.3从P中获得连通域集合S;
步骤2.2.4对每个在S中的连通域,生成多个最小面积大于k的图像块C;
步骤2.2.5合并重叠的图像块C;
基于焦点图像块,级联推断过程如下:
a)在最低分辨率检测并生成焦点图像块;
b)在当前最低分辨率图像块上检测,并进一步生成下一尺度的焦点图像块;
c)重复步骤b,仅将可能存在目标的区域即焦点图像块传递给下一尺度检测。
9.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述2.3中,ROI指的是从目标图像中识别出的候选识别区域,也就是步骤2.2中生成的焦点图像块,ROI Pooling的作用是把大小形状各不相同的候选识别区域归一化为固定尺寸的目标识别区域,不同于CNN网络中的池化层,ROI Pooling通过如下的方法得到固定尺寸的输出,过程如下:
步骤2.3.1对于ROI Pooling层,首先确定输出大小,然后确定内核大小、步幅和填充值,将ROI Pooling层的输出大小表示为w2*h2,输入候选区域的大小为w*h;
步骤2.3.2将步骤二的焦点图像块划分为w2*h2大小的子窗口,每个窗口的大小为
Figure FDA0002666599180000071
步骤2.3.3对步骤2.3.1中每个子窗口取最大元素作为输出,从而得到大小为w2*h2的输出。
10.如权利要求1或2所述的优化分类与定位任务的目标检测方法,其特征在于,所述2.5中,步骤2.2中使用d*d的过滤器对P进行膨胀操作可以有效避免应在下一尺度检测的物体出现在焦点图像块的边界上,因此可以忽略所有出现在图像块边界上的检测框,对其他位置的目标,有如下规则:对于处在原图边界上的目标,则检查其是否整体位于某图像块中,如果整体位于某图像块中,保留其检测结果,否则忽略;在检测过程的最后,使用非极大值抑制方法合并各尺度检测结果,获得最终结果。
CN202010920593.9A 2020-09-04 2020-09-04 一种优化分类与定位任务的目标检测方法 Active CN112149664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010920593.9A CN112149664B (zh) 2020-09-04 2020-09-04 一种优化分类与定位任务的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010920593.9A CN112149664B (zh) 2020-09-04 2020-09-04 一种优化分类与定位任务的目标检测方法

Publications (2)

Publication Number Publication Date
CN112149664A true CN112149664A (zh) 2020-12-29
CN112149664B CN112149664B (zh) 2024-05-07

Family

ID=73890561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010920593.9A Active CN112149664B (zh) 2020-09-04 2020-09-04 一种优化分类与定位任务的目标检测方法

Country Status (1)

Country Link
CN (1) CN112149664B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240077A (zh) * 2021-04-27 2021-08-10 瀚博半导体(上海)有限公司 一种张量处理方法和系统
CN114155561A (zh) * 2022-02-08 2022-03-08 杭州迪英加科技有限公司 一种幽门螺杆菌定位方法及装置
CN115620215A (zh) * 2022-12-20 2023-01-17 苏州万店掌软件技术有限公司 目标检测模型生成方法、目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110211097A (zh) * 2019-05-14 2019-09-06 河海大学 一种基于Faster R-CNN参数迁移的裂缝图像检测方法
CN110942000A (zh) * 2019-11-13 2020-03-31 南京理工大学 一种基于深度学习的无人驾驶车辆目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110211097A (zh) * 2019-05-14 2019-09-06 河海大学 一种基于Faster R-CNN参数迁移的裂缝图像检测方法
CN110942000A (zh) * 2019-11-13 2020-03-31 南京理工大学 一种基于深度学习的无人驾驶车辆目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240077A (zh) * 2021-04-27 2021-08-10 瀚博半导体(上海)有限公司 一种张量处理方法和系统
CN113240077B (zh) * 2021-04-27 2022-04-05 瀚博半导体(上海)有限公司 一种张量处理方法和系统
CN114155561A (zh) * 2022-02-08 2022-03-08 杭州迪英加科技有限公司 一种幽门螺杆菌定位方法及装置
CN115620215A (zh) * 2022-12-20 2023-01-17 苏州万店掌软件技术有限公司 目标检测模型生成方法、目标检测方法
CN115620215B (zh) * 2022-12-20 2023-04-07 苏州万店掌软件技术有限公司 目标检测模型生成方法、目标检测方法

Also Published As

Publication number Publication date
CN112149664B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
KR100442834B1 (ko) 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템
CN110309747B (zh) 一种支持多尺度快速深度行人检测模型
CN112149664A (zh) 一种优化分类与定位任务的目标检测方法
CN112149665B (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN110610210B (zh) 一种多目标检测方法
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN106778687A (zh) 基于局部评估和全局优化的注视点检测方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN112949572A (zh) 基于Slim-YOLOv3的口罩佩戴情况检测方法
CN112861919A (zh) 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法
CN113269257A (zh) 一种图像分类方法、装置、终端设备及存储介质
CN107967692A (zh) 一种基于跟踪学习检测的目标跟踪优化方法
CN112598031A (zh) 一种蔬菜病害检测方法及系统
Fan et al. A novel sonar target detection and classification algorithm
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统
CN116824333A (zh) 一种基于深度学习模型的鼻咽癌检测系统
CN112597842B (zh) 基于人工智能的运动检测面瘫程度评估系统
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
CN111881732B (zh) 一种基于svm的人脸质量评价方法
Huang et al. An enhanced convolutional neural network for accurate classification of grape leaf diseases
Singh et al. Cucumber Leaf Disease Detection and Classification Using a Deep Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant