CN109800809A

CN109800809A - 一种基于维度分解的候选区域提取方法

Info

Publication number: CN109800809A
Application number: CN201910056596.XA
Authority: CN
Inventors: 金连文; 谢乐乐
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-05-24

Abstract

本发明提出一种基于维度分解的候选区域提取方法，包括以下步骤：引入anchor strings作为模型的回归参考、匹配anchor strings和目标边长、搭建的全卷积神经网络、对anchor strings进行分配训练标签、设计损失函数以及训练全卷积神经网络和预测独立的宽高线段并进行维度重组；本发明通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings，可以用最佳的回归参考和目标进行匹配，使模型得到更平滑的训练，通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题，本发明的候选区域提取方法更容易召回小检测目标，且可以应对宽高比变化大的目标。

Description

一种基于维度分解的候选区域提取方法

技术领域

本发明涉及计算机视觉与人工智能领域，尤其涉一种基于维度分解的候选区域提取方法。

背景技术

计算机视觉的研究旨在赋予机器以人类的视觉感官能力，它对于实现自动驾驶、人机交互、视屏监督和增强现实等方面的应用有着重要作用。其中，目标检测是计算机视觉中的一项基础而关键的任务，它主要解决如何在图片或者视频数据中找到特定目标并确定其类别，是人工智能学会看懂世界的第一步。

近年来，在深度学习技术的推动下，目标检测领域有了充分的发展，越来越多的方法被相继提出，基于深度学习的检测方法体现出了明显的优势，检测精度已经远远超过了传统检测方法，检测目标形态的多样性是目标检测中的一个重要挑战，图片或视频等媒体数据中呈现出的目标往往具有不同的尺度和宽高比，这对检测算法的鲁棒性有很高的要求，很多研究表明现有的通用目标检测算法可能并不通用，在解决特定目标检测任务，例如解决自然场景文本检测的时候，这些算法的表现往往欠佳，因此，本发明提出一种基于维度分解的候选区域提取方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings，可以用最佳的回归参考和目标进行匹配，使模型得到更平滑的训练，通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题，通过采用的全卷积神经网络，具有结构简单的优点，可以很方便的被移植到现存的检测器上，本发明的候选区域提取方法更容易召回小检测目标，且可以应对宽高比变化大的目标。

本发明提出一种基于维度分解的候选区域提取方法，包括以下步骤：

步骤一：引入anchor strings作为模型的回归参考，采用新颖的维度分解思想将anchor boxes分解成独立的一维线段，分别用来预测目标的宽或者高，从而将目标的宽和高两个维度解耦，以应对目标宽高比的多变性；

步骤二：匹配anchor strings和目标边长，进行匹配anchor strings和目标边的时先为每个目标边长寻找最接近的anchor strings，同时，为了避免处于中间的边长在匹配时的模糊，还需要在相邻的anchor strings中间设置了过度区域；

步骤三：网络搭建，搭建的全卷积神经网络，将检测器中用于检测候选区域提取网络的一个全卷积子网络拼接在检测器的特征提取模块之后；

步骤四：标签分配，对anchor strings进行分配训练标签，对处于目标中心的anchor strings采用步骤二中的匹配方法进行确定标签，对于对于其他的anchor strings采用了先观察后分配的策略进行标签分配；

步骤五：损失函数设计和网络训练，设计一种新颖的尺度敏感的损失函数，再采用SGD算法来训练全卷积神经网络；

步骤六：预测独立的宽高线段并进行维度重组，采用维度重组算法，把每个anchorstring预测的宽或高线段重组成二维的候选框。

进一步改进在于：所述步骤一中anchor strings被设置为以2为公比的等比数列，且所述等比数列的范围可以确保覆盖绝大部分目标的边长。

进一步改进在于：所述步骤二中具体匹配公式如公式(1)和(2)所示：

(i＝1，2，3，...，N)

(2)

其中，M_j代表的是第j个目标匹配到的anchor strings的序号，e_j和a_i分别代表第j个目标的边长和等比数列中第i个anchor string，N是等比数列的项数，q是等比数列公比，β用以调整过渡区域的大小。

进一步改进在于：所述步骤三中候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成，其中，两个并行的1x1卷积层分别负责回归和分类，回归器用于对anchorstrings的长度和位置作调整，分类器用于筛选anchor strings，并得到相应的置信度输出。

进一步改进在于：所述步骤四中具体过程为：标签分配，对anchor strings进行分配训练标签，对处于目标中心的anchor strings，可以按照步骤二中的匹配方法来确定标签，匹配到的设置为正标签，否则为负标签，对于其他的anchor strings采用了先观察后分配的策略，先将anchor strings的预测线段重新组合成二维候选框，如果候选框和真实目标框间的交叠度大于阈值，则赋予相应的anchor strings正的标签，否则为负标签。

进一步改进在于：所述步骤五中一种新颖的尺度敏感的损失函数公式如公式(3)所示：

R_j＝(κ|s_k＝a_j，k＝l，2，…，M}，

其中，N是等比数列的项数，M是一个训练批次的大小，s代表anchor strings，p是相应anchor strings的预测概率，p^*则是对应的标签，如果标签为正则对应1，否则为0，t^*是目标框的参数化向量；

A代表对齐的anchor strings的集合，R是相同尺度的anchor strings组成的集合，G则是正标签的anchor strings的集合，损失函数主要由L_cls和L_reg两部分组成，分别表示分类和回归的loss，前者采用交叉熵损失，后者采用平滑L1损失函数。

进一步改进在于：所述步骤五中一种新颖的尺度敏感的损失函数公式(3)中，t^*是目标框的参数化向量，其定义公式如公式(4)、(5)、(6)和(7)所示：

t_x ^*＝(x^*-x_a)/w_a (4)

t_y ^*＝(y^*-y_a)/h_a (5)

t_w ^*＝log(w^*/w_a) (6)

t_h ^*＝log(h^*/h_a) (7)

其中，x,y,w,h代表边框的中心坐标和宽高，x_a,x*来自于预测框，anchor string和ground truth框，y,w,h与此相同。

进一步改进在于：所述步骤五中SGD算法的迭代次数iters＝70000，学习率更新策略：step，更新步长：50000，初始学习率：0.001，系数为：0.1，权重衰减weight_decay：0.0005。

进一步改进在于：所述步骤六中重组算法具体过程为：先考虑预测的宽线段，根据它们的预测置信度筛选出排列最高的1500个线段，再针对每个筛选出的宽线段，在其对应位置上选出2个置信度最高的高线段，然后利用宽、高线段组成的pair可以确定一个具体的候选框，由此可以确定约3000个候选框，记为Bw，再以高线段为对象，重复上述的步骤也可以得到Bh，最后对Bw和Bh的并集做非极大值抑制，挑出前300个置信度最高的框作为最终的输出候选框。

本发明的有益效果为：本发明方法具有很强的自适应性，在不对超参数做任何修改的情况下，可以被直接运用于不同的模型、任务和数据集，通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings，可以用最佳的回归参考和目标进行匹配，使模型得到更平滑的训练，通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题，通过采用的全卷积神经网络，具有结构简单的优点，可以很方便的被移植到现存的检测器上，通过对处于目标中心的anchor strings按照匹配方法来确定标签，以及对于其他的anchor strings采用先观察后分配的策略，可以确保所分配的标签的合理性，更有利于模型的训练和测试，同时，本发明的候选区域提取方法更容易召回小检测目标，且可以应对宽高比变化大的目标。

附图说明

图1为本发明方法原理示意图。

图2为本发明方法流程示意图。

图3为本发明的全卷积神经网络结构图。

具体实施方式

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

根据图1、2、3示，本实施例提出一种基于维度分解的候选区域提取方法，包括以下步骤：

步骤一：引入anchor strings作为模型的回归参考，采用新颖的维度分解思想将anchor boxes分解成独立的一维线段，分别用来预测目标的宽或者高，从而将目标的宽和高两个维度解耦，以应对目标宽高比的多变性，anchor strings被设置为以2为公比的等比数列(16,32,64,128,256,512,1024)，等比数列的范围可以确保覆盖绝大部分目标的边长；

步骤二：匹配anchor strings和目标边长，进行匹配anchor strings和目标边的时先为每个目标边长寻找最接近的anchor strings，同时，为了避免处于中间的边长在匹配时的模糊，还需要在相邻的anchor strings中间设置了过度区域，匹配公式如公式(1)和(2)所示：

(i＝1，2，3，...，N)

(2)

其中，M_j代表的是第j个目标匹配到的anchor strings的序号，e_j和a_i分别代表第j个目标的边长和等比数列中第i个anchor string，N是等比数列的项数，q是等比数列公比，β用以调整过渡区域的大小，β设为0.1；

步骤三：网络搭建，搭建的全卷积神经网络，将检测器中用于检测候选区域提取网络的一个全卷积子网络拼接在检测器的特征提取模块之后，候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成，其中，两个并行的1x1卷积层分别负责回归和分类，回归器用于对anchor strings的长度和位置作调整，分类器用于筛选anchor strings，并得到相应的置信度输出；

步骤四：标签分配，对anchor strings进行分配训练标签，对处于目标中心的anchor strings，可以按照步骤二中的匹配方法来确定标签，匹配到的设置为正标签，否则为负标签，对于其他的anchor strings采用了先观察后分配的策略，先将anchor strings的预测线段重新组合成二维候选框，如果候选框和真实目标框间的交叠度大于阈值，则赋予相应的anchor strings正的标签，否则为负标签；

步骤五：损失函数设计和网络训练，设计一种新颖的尺度敏感的损失函数，再采用SGD算法来训练全卷积神经网络，一种新颖的尺度敏感的损失函数公式如公式(3)所示：

R_j＝{k|s_k＝a_j，k＝1，2，…，M}，

A代表对齐的anchor strings的集合，R是相同尺度的anchor strings组成的集合，G则是正标签的anchor strings的集合，损失函数主要由L_cls和L_reg两部分组成，分别表示分类和回归的loss，前者采用交叉熵损失，后者采用平滑L1损失函数；

t^*是目标框的参数化向量，其定义公式如公式(4)、(5)、(6)和(7)所示：

t_x ^*＝(x^*-x_a)/w_a (4)

t_y ^*＝(y^*-y_a)/h_a (5)

t_w ^*＝log(w^*/w_a) (6)

t_h ^*＝log(h^*/h_a) (7)

其中，x,y,w,h代表边框的中心坐标和宽高，x_a,x*来自于预测框，anchor string和ground truth框，y,w,h与此相同；

步骤六：预测独立的宽高线段并进行维度重组，采用维度重组算法，把每个anchorstring预测的宽或高线段重组成二维的候选框，重组算法具体过程为：先考虑预测的宽线段，根据它们的预测置信度筛选出排列最高的1500个线段，再针对每个筛选出的宽线段，在其对应位置上选出2个置信度最高的高线段，然后利用宽、高线段组成的pair可以确定一个具体的候选框，由此可以确定3000个候选框，记为Bw，再以高线段为对象，重复上述的步骤也可以得到Bh，最后对Bw和Bh的并集做非极大值抑制，挑出前300个置信度最高的框作为最终的输出候选框。

本发明方法具有很强的自适应性，在不对超参数做任何修改的情况下，可以被直接运用于不同的模型、任务和数据集，通过采用了新颖的维度分解策略以及通过运用灵活的anchor strings，可以用最佳的回归参考和目标进行匹配，使模型得到更平滑的训练，通过采用的尺度敏感的损失函数可以解决目标尺度分布不平衡的问题，通过采用的全卷积神经网络，具有结构简单的优点，可以很方便的被移植到现存的检测器上，通过对处于目标中心的anchor strings按照匹配方法来确定标签，以及对于其他的anchor strings采用先观察后分配的策略，可以确保所分配的标签的合理性，更有利于模型的训练和测试，同时，本发明的候选区域提取方法更容易召回小检测目标，且可以应对宽高比变化大的目标。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于维度分解的候选区域提取方法，其特征在于，包括以下步骤：

步骤四：标签分配，对anchor strings进行分配训练标签，对处于目标中心的anchorstrings采用步骤二中的匹配方法进行确定标签，对于对于其他的anchor strings采用了先观察后分配的策略进行标签分配；

2.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤一中anchor strings被设置为以2为公比的等比数列，且所述等比数列的范围可以确保覆盖绝大部分目标的边长。

3.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤二中具体匹配公式如公式(1)和(2)所示：

(i＝1，2，3，...，N)

(2)

4.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤三中候选区域提取网络由一个3x3的卷积层和两个并行的1x1卷积组成，其中，两个并行的1x1卷积层分别负责回归和分类，回归器用于对anchor strings的长度和位置作调整，分类器用于筛选anchor strings，并得到相应的置信度输出。

5.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤四中具体过程为：标签分配，对anchor strings进行分配训练标签，对处于目标中心的anchor strings，可以按照步骤二中的匹配方法来确定标签，匹配到的设置为正标签，否则为负标签，对于其他的anchor strings采用了先观察后分配的策略，先将anchor strings的预测线段重新组合成二维候选框，如果候选框和真实目标框间的交叠度大于阈值，则赋予相应的anchor strings正的标签，否则为负标签。

6.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤五中一种新颖的尺度敏感的损失函数公式如公式(3)所示：

R_j＝(κ|s_k＝a_j，k＝l，2，…，M}，

7.根据权利要求6所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤五中一种新颖的尺度敏感的损失函数公式(3)中，t^*是目标框的参数化向量，其定义公式如公式(4)、(5)、(6)和(7)所示：

t_x ^*＝(x^*-x_a)/w_a (4)

t_y ^*＝(y^*-y_a)/h_a (5)

t_w ^*＝log(w^*/w_a) (6)

t_h ^*＝log(h^*/h_a) (7)

其中，x,y,w,h代表边框的中心坐标和宽高，x_a,x^*来自于预测框，anchor string和ground truth框，y,w,h与此相同。

8.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤五中SGD算法的迭代次数iters＝70000，学习率更新策略：step，更新步长：50000，初始学习率：0.001，系数为：0.1，权重衰减weight_decay：0.0005。

9.根据权利要求1所述的一种基于维度分解的候选区域提取方法，其特征在于：所述步骤六中重组算法具体过程为：先考虑预测的宽线段，根据它们的预测置信度筛选出排列最高的1500个线段，再针对每个筛选出的宽线段，在其对应位置上选出2个置信度最高的高线段，然后利用宽、高线段组成的pair可以确定一个具体的候选框，由此可以确定约3000个候选框，记为Bw，再以高线段为对象，重复上述的步骤也可以得到Bh，最后对Bw和Bh的并集做非极大值抑制，挑出前300个置信度最高的框作为最终的输出候选框。