CN109800809A - 一种基于维度分解的候选区域提取方法 - Google Patents

一种基于维度分解的候选区域提取方法 Download PDF

Info

Publication number
CN109800809A
CN109800809A CN201910056596.XA CN201910056596A CN109800809A CN 109800809 A CN109800809 A CN 109800809A CN 201910056596 A CN201910056596 A CN 201910056596A CN 109800809 A CN109800809 A CN 109800809A
Authority
CN
China
Prior art keywords
anchor
strings
target
label
anchor strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910056596.XA
Other languages
English (en)
Inventor
金连文
谢乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910056596.XA priority Critical patent/CN109800809A/zh
Publication of CN109800809A publication Critical patent/CN109800809A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于维度分解的候选区域提取方法,包括以下步骤:引入anchor strings作为模型的回归参考、匹配anchor strings和目标边长、搭建的全卷积神经网络、对anchor strings进行分配训练标签、设计损失函数以及训练全卷积神经网络和预测独立的宽高线段并进行维度重组;本发明通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings,可以用最佳的回归参考和目标进行匹配,使模型得到更平滑的训练,通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题,本发明的候选区域提取方法更容易召回小检测目标,且可以应对宽高比变化大的目标。

Description

一种基于维度分解的候选区域提取方法
技术领域
本发明涉及计算机视觉与人工智能领域,尤其涉一种基于维度分解的候选区域提取方法。
背景技术
计算机视觉的研究旨在赋予机器以人类的视觉感官能力,它对于实现自动驾驶、人机交互、视屏监督和增强现实等方面的应用有着重要作用。其中,目标检测是计算机视觉中的一项基础而关键的任务,它主要解决如何在图片或者视频数据中找到特定目标并确定其类别,是人工智能学会看懂世界的第一步。
近年来,在深度学习技术的推动下,目标检测领域有了充分的发展,越来越多的方法被相继提出,基于深度学习的检测方法体现出了明显的优势,检测精度已经远远超过了传统检测方法,检测目标形态的多样性是目标检测中的一个重要挑战,图片或视频等媒体数据中呈现出的目标往往具有不同的尺度和宽高比,这对检测算法的鲁棒性有很高的要求,很多研究表明现有的通用目标检测算法可能并不通用,在解决特定目标检测任务,例如解决自然场景文本检测的时候,这些算法的表现往往欠佳,因此,本发明提出一种基于维度分解的候选区域提取方法,以解决现有技术中的不足之处。
发明内容
针对上述问题,本发明通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings,可以用最佳的回归参考和目标进行匹配,使模型得到更平滑的训练,通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题,通过采用的全卷积神经网络,具有结构简单的优点,可以很方便的被移植到现存的检测器上,本发明的候选区域提取方法更容易召回小检测目标,且可以应对宽高比变化大的目标。
本发明提出一种基于维度分解的候选区域提取方法,包括以下步骤:
步骤一:引入anchor strings作为模型的回归参考,采用新颖的维度分解思想将anchor boxes分解成独立的一维线段,分别用来预测目标的宽或者高,从而将目标的宽和高两个维度解耦,以应对目标宽高比的多变性;
步骤二:匹配anchor strings和目标边长,进行匹配anchor strings和目标边的时先为每个目标边长寻找最接近的anchor strings,同时,为了避免处于中间的边长在匹配时的模糊,还需要在相邻的anchor strings中间设置了过度区域;
步骤三:网络搭建,搭建的全卷积神经网络,将检测器中用于检测候选区域提取网络的一个全卷积子网络拼接在检测器的特征提取模块之后;
步骤四:标签分配,对anchor strings进行分配训练标签,对处于目标中心的anchor strings采用步骤二中的匹配方法进行确定标签,对于对于其他的anchor strings采用了先观察后分配的策略进行标签分配;
步骤五:损失函数设计和网络训练,设计一种新颖的尺度敏感的损失函数,再采用SGD算法来训练全卷积神经网络;
步骤六:预测独立的宽高线段并进行维度重组,采用维度重组算法,把每个anchorstring预测的宽或高线段重组成二维的候选框。
进一步改进在于:所述步骤一中anchor strings被设置为以2为公比的等比数列,且所述等比数列的范围可以确保覆盖绝大部分目标的边长。
进一步改进在于:所述步骤二中具体匹配公式如公式(1)和(2)所示:
(i=1,2,3,...,N)
(2)
其中,Mj代表的是第j个目标匹配到的anchor strings的序号,ej和ai分别代表第j个目标的边长和等比数列中第i个anchor string,N是等比数列的项数,q是等比数列公比,β用以调整过渡区域的大小。
进一步改进在于:所述步骤三中候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成,其中,两个并行的1x1卷积层分别负责回归和分类,回归器用于对anchorstrings的长度和位置作调整,分类器用于筛选anchor strings,并得到相应的置信度输出。
进一步改进在于:所述步骤四中具体过程为:标签分配,对anchor strings进行分配训练标签,对处于目标中心的anchor strings,可以按照步骤二中的匹配方法来确定标签,匹配到的设置为正标签,否则为负标签,对于其他的anchor strings采用了先观察后分配的策略,先将anchor strings的预测线段重新组合成二维候选框,如果候选框和真实目标框间的交叠度大于阈值,则赋予相应的anchor strings正的标签,否则为负标签。
进一步改进在于:所述步骤五中一种新颖的尺度敏感的损失函数公式如公式(3)所示:
Rj=(κ|sk=aj,k=l,2,…,M},
其中,N是等比数列的项数,M是一个训练批次的大小,s代表anchor strings,p是相应anchor strings的预测概率,p*则是对应的标签,如果标签为正则对应1,否则为0,t*是目标框的参数化向量;
A代表对齐的anchor strings的集合,R是相同尺度的anchor strings组成的集合,G则是正标签的anchor strings的集合,损失函数主要由Lcls和Lreg两部分组成,分别表示分类和回归的loss,前者采用交叉熵损失,后者采用平滑L1损失函数。
进一步改进在于:所述步骤五中一种新颖的尺度敏感的损失函数公式(3)中,t*是目标框的参数化向量,其定义公式如公式(4)、(5)、(6)和(7)所示:
tx *=(x*-xa)/wa (4)
ty *=(y*-ya)/ha (5)
tw *=log(w*/wa) (6)
th *=log(h*/ha) (7)
其中,x,y,w,h代表边框的中心坐标和宽高,xa,x*来自于预测框,anchor string和ground truth框,y,w,h与此相同。
进一步改进在于:所述步骤五中SGD算法的迭代次数iters=70000,学习率更新策略:step,更新步长:50000,初始学习率:0.001,系数为:0.1,权重衰减weight_decay:0.0005。
进一步改进在于:所述步骤六中重组算法具体过程为:先考虑预测的宽线段,根据它们的预测置信度筛选出排列最高的1500个线段,再针对每个筛选出的宽线段,在其对应位置上选出2个置信度最高的高线段,然后利用宽、高线段组成的pair可以确定一个具体的候选框,由此可以确定约3000个候选框,记为Bw,再以高线段为对象,重复上述的步骤也可以得到Bh,最后对Bw和Bh的并集做非极大值抑制,挑出前300个置信度最高的框作为最终的输出候选框。
本发明的有益效果为:本发明方法具有很强的自适应性,在不对超参数做任何修改的情况下,可以被直接运用于不同的模型、任务和数据集,通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings,可以用最佳的回归参考和目标进行匹配,使模型得到更平滑的训练,通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题,通过采用的全卷积神经网络,具有结构简单的优点,可以很方便的被移植到现存的检测器上,通过对处于目标中心的anchor strings按照匹配方法来确定标签,以及对于其他的anchor strings采用先观察后分配的策略,可以确保所分配的标签的合理性,更有利于模型的训练和测试,同时,本发明的候选区域提取方法更容易召回小检测目标,且可以应对宽高比变化大的目标。
附图说明
图1为本发明方法原理示意图。
图2为本发明方法流程示意图。
图3为本发明的全卷积神经网络结构图。
具体实施方式
为了使发明实现的技术手段、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
根据图1、2、3示,本实施例提出一种基于维度分解的候选区域提取方法,包括以下步骤:
步骤一:引入anchor strings作为模型的回归参考,采用新颖的维度分解思想将anchor boxes分解成独立的一维线段,分别用来预测目标的宽或者高,从而将目标的宽和高两个维度解耦,以应对目标宽高比的多变性,anchor strings被设置为以2为公比的等比数列(16,32,64,128,256,512,1024),等比数列的范围可以确保覆盖绝大部分目标的边长;
步骤二:匹配anchor strings和目标边长,进行匹配anchor strings和目标边的时先为每个目标边长寻找最接近的anchor strings,同时,为了避免处于中间的边长在匹配时的模糊,还需要在相邻的anchor strings中间设置了过度区域,匹配公式如公式(1)和(2)所示:
(i=1,2,3,...,N)
(2)
其中,Mj代表的是第j个目标匹配到的anchor strings的序号,ej和ai分别代表第j个目标的边长和等比数列中第i个anchor string,N是等比数列的项数,q是等比数列公比,β用以调整过渡区域的大小,β设为0.1;
步骤三:网络搭建,搭建的全卷积神经网络,将检测器中用于检测候选区域提取网络的一个全卷积子网络拼接在检测器的特征提取模块之后,候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成,其中,两个并行的1x1卷积层分别负责回归和分类,回归器用于对anchor strings的长度和位置作调整,分类器用于筛选anchor strings,并得到相应的置信度输出;
步骤四:标签分配,对anchor strings进行分配训练标签,对处于目标中心的anchor strings,可以按照步骤二中的匹配方法来确定标签,匹配到的设置为正标签,否则为负标签,对于其他的anchor strings采用了先观察后分配的策略,先将anchor strings的预测线段重新组合成二维候选框,如果候选框和真实目标框间的交叠度大于阈值,则赋予相应的anchor strings正的标签,否则为负标签;
步骤五:损失函数设计和网络训练,设计一种新颖的尺度敏感的损失函数,再采用SGD算法来训练全卷积神经网络,一种新颖的尺度敏感的损失函数公式如公式(3)所示:
Rj={k|sk=aj,k=1,2,…,M},
其中,N是等比数列的项数,M是一个训练批次的大小,s代表anchor strings,p是相应anchor strings的预测概率,p*则是对应的标签,如果标签为正则对应1,否则为0,t*是目标框的参数化向量;
A代表对齐的anchor strings的集合,R是相同尺度的anchor strings组成的集合,G则是正标签的anchor strings的集合,损失函数主要由Lcls和Lreg两部分组成,分别表示分类和回归的loss,前者采用交叉熵损失,后者采用平滑L1损失函数;
t*是目标框的参数化向量,其定义公式如公式(4)、(5)、(6)和(7)所示:
tx *=(x*-xa)/wa (4)
ty *=(y*-ya)/ha (5)
tw *=log(w*/wa) (6)
th *=log(h*/ha) (7)
其中,x,y,w,h代表边框的中心坐标和宽高,xa,x*来自于预测框,anchor string和ground truth框,y,w,h与此相同;
步骤六:预测独立的宽高线段并进行维度重组,采用维度重组算法,把每个anchorstring预测的宽或高线段重组成二维的候选框,重组算法具体过程为:先考虑预测的宽线段,根据它们的预测置信度筛选出排列最高的1500个线段,再针对每个筛选出的宽线段,在其对应位置上选出2个置信度最高的高线段,然后利用宽、高线段组成的pair可以确定一个具体的候选框,由此可以确定3000个候选框,记为Bw,再以高线段为对象,重复上述的步骤也可以得到Bh,最后对Bw和Bh的并集做非极大值抑制,挑出前300个置信度最高的框作为最终的输出候选框。
本发明方法具有很强的自适应性,在不对超参数做任何修改的情况下,可以被直接运用于不同的模型、任务和数据集,通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings,可以用最佳的回归参考和目标进行匹配,使模型得到更平滑的训练,通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题,通过采用的全卷积神经网络,具有结构简单的优点,可以很方便的被移植到现存的检测器上,通过对处于目标中心的anchor strings按照匹配方法来确定标签,以及对于其他的anchor strings采用先观察后分配的策略,可以确保所分配的标签的合理性,更有利于模型的训练和测试,同时,本发明的候选区域提取方法更容易召回小检测目标,且可以应对宽高比变化大的目标。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种基于维度分解的候选区域提取方法,其特征在于,包括以下步骤:
步骤一:引入anchor strings作为模型的回归参考,采用新颖的维度分解思想将anchor boxes分解成独立的一维线段,分别用来预测目标的宽或者高,从而将目标的宽和高两个维度解耦,以应对目标宽高比的多变性;
步骤二:匹配anchor strings和目标边长,进行匹配anchor strings和目标边的时先为每个目标边长寻找最接近的anchor strings,同时,为了避免处于中间的边长在匹配时的模糊,还需要在相邻的anchor strings中间设置了过度区域;
步骤三:网络搭建,搭建的全卷积神经网络,将检测器中用于检测候选区域提取网络的一个全卷积子网络拼接在检测器的特征提取模块之后;
步骤四:标签分配,对anchor strings进行分配训练标签,对处于目标中心的anchorstrings采用步骤二中的匹配方法进行确定标签,对于对于其他的anchor strings采用了先观察后分配的策略进行标签分配;
步骤五:损失函数设计和网络训练,设计一种新颖的尺度敏感的损失函数,再采用SGD算法来训练全卷积神经网络;
步骤六:预测独立的宽高线段并进行维度重组,采用维度重组算法,把每个anchorstring预测的宽或高线段重组成二维的候选框。
2.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤一中anchor strings被设置为以2为公比的等比数列,且所述等比数列的范围可以确保覆盖绝大部分目标的边长。
3.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤二中具体匹配公式如公式(1)和(2)所示:
(i=1,2,3,...,N)
(2)
其中,Mj代表的是第j个目标匹配到的anchor strings的序号,ej和ai分别代表第j个目标的边长和等比数列中第i个anchor string,N是等比数列的项数,q是等比数列公比,β用以调整过渡区域的大小。
4.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤三中候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成,其中,两个并行的1x1卷积层分别负责回归和分类,回归器用于对anchor strings的长度和位置作调整,分类器用于筛选anchor strings,并得到相应的置信度输出。
5.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤四中具体过程为:标签分配,对anchor strings进行分配训练标签,对处于目标中心的anchor strings,可以按照步骤二中的匹配方法来确定标签,匹配到的设置为正标签,否则为负标签,对于其他的anchor strings采用了先观察后分配的策略,先将anchor strings的预测线段重新组合成二维候选框,如果候选框和真实目标框间的交叠度大于阈值,则赋予相应的anchor strings正的标签,否则为负标签。
6.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤五中一种新颖的尺度敏感的损失函数公式如公式(3)所示:
Rj=(κ|sk=aj,k=l,2,…,M},
其中,N是等比数列的项数,M是一个训练批次的大小,s代表anchor strings,p是相应anchor strings的预测概率,p*则是对应的标签,如果标签为正则对应1,否则为0,t*是目标框的参数化向量;
A代表对齐的anchor strings的集合,R是相同尺度的anchor strings组成的集合,G则是正标签的anchor strings的集合,损失函数主要由Lcls和Lreg两部分组成,分别表示分类和回归的loss,前者采用交叉熵损失,后者采用平滑L1损失函数。
7.根据权利要求6所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤五中一种新颖的尺度敏感的损失函数公式(3)中,t*是目标框的参数化向量,其定义公式如公式(4)、(5)、(6)和(7)所示:
tx *=(x*-xa)/wa (4)
ty *=(y*-ya)/ha (5)
tw *=log(w*/wa) (6)
th *=log(h*/ha) (7)
其中,x,y,w,h代表边框的中心坐标和宽高,xa,x*来自于预测框,anchor string和ground truth框,y,w,h与此相同。
8.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤五中SGD算法的迭代次数iters=70000,学习率更新策略:step,更新步长:50000,初始学习率:0.001,系数为:0.1,权重衰减weight_decay:0.0005。
9.根据权利要求1所述的一种基于维度分解的候选区域提取方法,其特征在于:所述步骤六中重组算法具体过程为:先考虑预测的宽线段,根据它们的预测置信度筛选出排列最高的1500个线段,再针对每个筛选出的宽线段,在其对应位置上选出2个置信度最高的高线段,然后利用宽、高线段组成的pair可以确定一个具体的候选框,由此可以确定约3000个候选框,记为Bw,再以高线段为对象,重复上述的步骤也可以得到Bh,最后对Bw和Bh的并集做非极大值抑制,挑出前300个置信度最高的框作为最终的输出候选框。
CN201910056596.XA 2019-01-22 2019-01-22 一种基于维度分解的候选区域提取方法 Pending CN109800809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910056596.XA CN109800809A (zh) 2019-01-22 2019-01-22 一种基于维度分解的候选区域提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910056596.XA CN109800809A (zh) 2019-01-22 2019-01-22 一种基于维度分解的候选区域提取方法

Publications (1)

Publication Number Publication Date
CN109800809A true CN109800809A (zh) 2019-05-24

Family

ID=66559852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910056596.XA Pending CN109800809A (zh) 2019-01-22 2019-01-22 一种基于维度分解的候选区域提取方法

Country Status (1)

Country Link
CN (1) CN109800809A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428413A (zh) * 2019-08-02 2019-11-08 中国科学院合肥物质科学研究院 一种用于灯诱设备下的草地贪夜蛾成虫图像检测方法
CN111401376A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
WO2022160229A1 (zh) * 2021-01-29 2022-08-04 华为技术有限公司 利用多核处理候选框的装置以及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LELE XIE ET AL: "DeRPN: Taking a further step toward more general object detection", 《ARXIV.ORG》 *
SHAOQING REN ET AL: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428413A (zh) * 2019-08-02 2019-11-08 中国科学院合肥物质科学研究院 一种用于灯诱设备下的草地贪夜蛾成虫图像检测方法
CN110428413B (zh) * 2019-08-02 2021-09-28 中国科学院合肥物质科学研究院 一种用于灯诱设备下的草地贪夜蛾成虫图像检测方法
CN111401376A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
CN111401376B (zh) * 2020-03-12 2023-06-30 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
WO2022160229A1 (zh) * 2021-01-29 2022-08-04 华为技术有限公司 利用多核处理候选框的装置以及方法

Similar Documents

Publication Publication Date Title
CN106874956B (zh) 图像分类卷积神经网络结构的构建方法
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN109784204B (zh) 一种用于并联机器人的堆叠串类水果主果梗识别和提取方法
CN108021947B (zh) 一种基于视觉的分层极限学习机目标识别方法
CN107862668A (zh) 一种基于gnn的文物图像复原方法
CN109272500B (zh) 基于自适应卷积神经网络的织物分类方法
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN108764298B (zh) 基于单分类器的电力图像环境影响识别方法
CN107808132A (zh) 一种融合主题模型的场景图像分类方法
CN108647655A (zh) 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法
CN107392925A (zh) 基于超像素编码和卷积神经网络的遥感影像地物分类方法
CN104217214A (zh) 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN104182772A (zh) 一种基于深度学习的手势识别方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN107016413A (zh) 一种基于深度学习算法的烟叶在线分级方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN108520114A (zh) 一种纺织布疵点检测模型及其训练方法和应用
CN109800809A (zh) 一种基于维度分解的候选区域提取方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN108985365A (zh) 基于深度子空间切换集成学习的多源异构数据融合方法
CN107423747A (zh) 一种基于深度卷积网络的显著性目标检测方法
CN109241814A (zh) 基于yolo神经网络的行人检测方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524

RJ01 Rejection of invention patent application after publication