CN105740891A

CN105740891A - 基于多层次特征提取和上下文模型的目标检测

Info

Publication number: CN105740891A
Application number: CN201610056601.3A
Authority: CN
Inventors: 刘波; 马增妍
Original assignee: Beijing University of Technology
Current assignee: Shenzhen Xiaofeng Technology Co ltd
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-07-06
Anticipated expiration: 2036-01-27
Also published as: CN105740891B

Abstract

基于多层次特征提取和上下文模型的目标检测，本发明所构造的模型主要是统计了真实图片中图像之间的空间位置关系，从而可以提高目标检测的正确率。无论图像是同类别还是不同类，都会有一些特定的空间位置关系。首先对一副图片进行选择搜索，产生大量region proposals，然后对每一幅图片的所有region proposals进行特征提取，采用的是7层的卷积神经网络，最后用支持向量机进行分类。本发明给出一种新的找到最佳物体检测位置的方法。主要解决的技术问题是提供一种新的上下文模型，代替原有的非极大值抑制方法，用来获得更好的目标检测正确率。

Description

基于多层次特征提取和上下文模型的目标检测

技术领域

本发明属于计算机机器学习领域，具体是把机器学习算法应用到图像处理中的目标检测上，即定位图片中目标位置的一种算法。

背景技术

目标检测是定位图像中目标位置的一种算法，它将目标的分割和识别合二为一。总结2010—2012年间，在标准的视觉检测PASCALVOC数据集上训练的各种算法的平均查准率后，不难发现，算法进步缓慢，几乎都是集成系统或者在已有算法上的一点点改进。直到2012年，AlexKrizhevsky应用卷积神经网络(ConvolutionalNeuralNetworks)在图像分类上并取得很大的进步，在AlexKrizhevsky的基础上，RossGirshick提出了在PASCALVOC数据集上应用卷积神经网络(ConvolutionalNeuralNetworks)提取图像的特征，并用线性的支持向量机(SupportVectorMachine)进行分类，从而判断图像的所属类别即实现目标检测。

RossGirshick的具体内容是首先对一副图片进行选择搜索，产生大量regionproposals，然后对每一幅图片的所有regionproposals进行特征提取，采用的是7层的卷积神经网络，最后用支持向量机进行分类。

传统的目标检测算法一般都采用滑动窗口的方法来解决定位题，但是由于RossGirshick采用的是7层卷积神经网络，在5层卷积后得到的图像大小已经很小了，不适合滑动窗口，而且滑动窗口耗时长。因此，RossGirshick采用选择搜索的方法产生大量的regionproposals。选择搜索通过分割方法将图分成多个regions，再用最小生成树算法合并像素点，构成一个个regionproposals。第一步分割图片，把图像(Image)表示成图结构(Graph)，Image中的每一个像素看成Graph中的每一个顶点，像素之间的关系构成Graph的边，边得权值是像素之间的灰度差值，用最小生成树算法合并像素点，构成一个个regions。第二部合并regions，首先计算所有regions之间两两的颜色相似度，纹理相似度，大小相似度，吻合相似度，再把这4种相似度组合起来，得到最终的相似度。根据相似度合并最像的2个regions，再重新计算新产生的region和其它剩下的regions的相似度。重复上述过程直到整张图片都聚合成了一个大的region，随机给每个region打分，并按分数进行排序，选出前K个子集。

以AlexKrizhevsky提出的7层卷积神经网络为框架，对每一幅图片的所有regionproposals进行特征提取。7层卷积神经网络中前5层是卷基层，后2层是全连接层。因为卷积神经网络的输入是固定格式的227*227，而经过选择搜索后得到的regionproposals大小不定，所以，对每一个regionproposal先进行长宽调整再输入网络。最后把从网络输出的结果用线性的支持向量机进行分类，从而进行目标检测。为了消除多余的框，找到最佳的物体检测的位置，一般采用非极大值抑制(non-maximasuppression)方法。

发明目的

本发明给出一种新的找到最佳物体检测位置的方法。主要解决的技术问题是提供一种新的上下文模型，代替原有的非极大值抑制(non-maximasuppression)方法，用来获得更好的目标检测正确率。

本发明所构造的模型主要是统计了真实图片中图像之间的空间位置关系，从而可以提高目标检测的正确率。无论图像是同类别还是不同类，都会有一些特定的空间位置关系。比如人和自行车这两类图像，它俩之间的空间位置关系就只可能是人在自行车上(above)，或者人在自行车的旁边(next-to)，很少会出现自行车在人上(above)这种空间位置关系，再比如人和人的空间位置关系一般都是人在人的旁边(next-to)，很少有人在人上(above)的空间位置关系。发明的流程如图1，主要步骤如下：

S1构造上下文模型

首先构造一个上下文模型，用于捕获目标检测器之间的关系。用一系列有重合的窗口明确表示一副图片，第i个窗口的位置用其中心和长宽表示，写作I_i＝(x，y，s)，N表示一副图片有N个窗口，x_i表示从第i个窗口提取的图片特征，整幅图片用X＝{x_i：i＝1，……N}表示，K代表图像类别个数(本方法所用的是PASCALLVOC数据集，所以K为20)，y_i∈{0，……，K}代表了第i个窗口的标签，0表示背景，Y＝{y_i:i＝1,……N}。定义X,Y之间的分数为：

S (X, Y) = \underset{i, j}{Σ} w_{y i, y j}^{T} d_{i, j} + \underset{i}{Σ} w_{y i}^{T} x_{i} - - - (1)

其中w_yi,yj表示y_i类和y_j类之间的权重，w_yi表示类i的局部模板，d_ij表示窗口i和窗口j之间的空间位置关系，把位置关系分为，上面(above)，下面(below)，重叠(overlapping)，旁边(next-to)，近(near)和远(far)，因此，d_ij是一个稀疏的一维向量，只有满足相互之间的空间位置关系的对应项会赋值为1。人与人之间的空间位置关系总是next-to，而不会是above，所以，above及其他位置的对应项赋值为0，而next-to赋值为1。

因为计算maxS(X,Y)是非确定性多项式NP(non-deterministicpolynomial)hard，所以本方法采用类似贪心算法(greedyalgorithms)来解决NPhard问题。算法步骤如下：

(1)对每一个窗口的向量Y初始化为背景类；

(2)贪心的选择不是背景类的单一窗口，最大限度的增加S(X,Y)的值；

(3)当选择任意一个窗口，S(X,Y)的值不增加反而减少时，停止；

I代表一系列实例化的窗口-类(window-class)I＝{pairs(i,c)}，记Y(I)代表相关的标签向量，当所有的pairs在集合I中时，y_i＝c，否则y_i＝0；通过加窗口-类(window-class)pair(i,c)到集合I里来改变S(X,Y)的值，具体如下表示：

(i,c)＝S(X，Y(I{(i,C)}))-S(X，Y(I))

初始化I＝{}，S＝0，(i，c)＝w^T _cx_i，迭代

1)(i*，c*)＝argmax_(i,j)I(i，c)

2)I＝I{(i*，c*)}

3)S＝S+(i*,c*)

4)(i，c)＝(i，c)+w^T _c*,cd_i*,i+w^T _c,c*d_i,i*

结束条件是(i*，c*)0或者所有的窗口都实例化了。

S2用切平面最优化进行凸训练

为了描述本发明的学习算法，需要把公式(1)写成如下形式：

等价于S(X,Y)＝W^TΨ(X,Y)

其中，

即：

Y * = \arg \underset{Y}{m a x} W^{T} Ψ (X, Y)

凸训练的目的是假设给定一系列训练图片X_i和标签Y_i，希望得到一个W的最优模型，使得给定一副新的图片X_i，可以产生一个标签向量Y*＝Y_i。因此，凸训练的结果是得到W的最优模型，使得Y*和Y_i的差值尽可能的小，凸训练得到W最优模型的这一过程既是求下列数学公式极值的过程，

\arg \underset{w, ξ_{i} &GreaterEqual; 0}{m i n} w^{T} w + C \underset{i}{Σ} ξ_{i} - - - (3)

s.t.,H_iw^TΔΨ(X_i,Y_i,H_i)≥l(Y_i,H_i)-ξ_i

其中，ΔΨ(X_i,Y_i,H_i)＝Ψ(X_i,Y_i)-Ψ(Y_i,H_i)，

l (Y_{i}, H_{i}) = Σ_{i = 1}^{N} l (y_{i}, h_{i})

H_i是自己算出的标签，

为了方便最优化，把公式(3)的约束问题等价于公式(4)的无约束问题：

w * = \arg \underset{w}{m i n} L (w) - - - (4)

其中

L (w) = \frac{1}{2} {|| w ||}^{2} + C R (w)

R (w) = Σ_{i = 1}^{N} \underset{H}{m a x} (0, l (Y_{i}, H) - w^{T} Δ Ψ (X_{i}, Y_{i}, H))

对上述公式(4)进行切平面最优化，即可得到W的最优模型。

S3整体实施流程

首先通过搜索算法得到图片的regionproposals，其次采用RossGirshick的已经训练好的7层卷积神经网络CNNS进行图像的特征提取，因为本发明的训练集和测试集都采用的PASCALLVOC数据集(有20个类别)，所以把RossGirshick的7层CNNS网络结构的最后输出改成21(20个VOC类和1个背景类)，最后用线性的支持向量机SVM进行图片分类，分类的过程中为了找到最佳物体检测的位置，用已经训练好的上下文模型进行更准确的定位，最终得到更好的目标检测正确率。

附图说明

图1为本发明方法的流程图。

图2空间位置关系说明图。

具体实施方式

如图1-2所示，根据上面的方法进行了实验。实验对比是否采用上下文模型目标检测的结果，本实验采用的是PASCALLVOC数据集，有20个类。由于本方法只保存了类别之间(同类或者非同类)7种空间位置关系，所以如果满足7种位置关系中的一种，那么相应的类别的目标检测正确率应该比没有采用上下文模型训练过的方法的目标检测正确率高，反之，如果相互之间没有确定的空间位置关系，则可能学习的上下文模型起到反面的作用，并且由于没有进行非极大值抑制(non-maximasuppression)，可能会扰乱检测结果，导致相应的目标检测正确率下降。

表1：实验结果对比

表1：实验结果对比Class	没有采用上下文模型(单位％)	采用了上下文模型(单位％)
			aero	66.9	70.7
bike	23.7	21.2
			bird	58.3	53.7
boat	37.4	39.8
			bottle	55.4	50.1
bus	73.3	35.8
			car	58.7	34.8
cat	56.5	59.5
			chair	9.7	9.6
cow	45.5	53
			table	29.5	15.9
dog	49.3	43.6
			horse	40.1	34
mbike	57.8	52.8
			person	53.9	57.4
plant	33.8	13.3
			sheep	60.7	36.9
soft	22.7	23.2
			train	47.1	55.9
tv	41.3	41.9

Claims

1.基于多层次特征提取和上下文模型的目标检测方法，其特征在于：

本方法所构造的模型主要是统计了真实图片中图像之间的空间位置关系，从而可以提高目标检测的正确率；无论图像是同类别还是不同类，都会有一些特定的空间位置关系；人和自行车这两类图像，它俩之间的空间位置关系就只可能是人在自行车上(above)，或者人在自行车的旁边(next-to)，很少会出现自行车在人上(above)这种空间位置关系；人和人的空间位置关系一般都是人在人的旁边(next-to)，很少有人在人上(above)的空间位置关系；该方法的主要步骤如下，

S1构造上下文模型

首先构造一个上下文模型，用于捕获目标检测器之间的关系；用一系列有重合的窗口明确表示一副图片，第i个窗口的位置用其中心和长宽表示，写作I_i＝(x，y，s)，N表示一副图片有N个窗口，x_i表示从第i个窗口提取的图片特征，整幅图片用X＝{x_i：i＝1，……N}表示，K代表图像类别个数(本方法所用的是PASCALLVOC数据集，所以K为20)，y_i∈{0，……，K}代表了第i个窗口的标签，0表示背景，Y＝{y_i:i＝1,……N}；定义X,Y之间的分数为：

S (X, Y) = \underset{i, j}{Σ} w_{y i, y j}^{T} d_{i, j} + \underset{i}{Σ} w_{y i}^{T} x_{i} - - - (1)

其中w_yi,yj表示y_i类和y_j类之间的权重，w_yi表示类i的局部模板，d_ij表示窗口i和窗口j之间的空间位置关系，把位置关系分为，上面(above)，下面(below)，重叠(overlapping)，旁边(next-to)，近(near)和远(far)，因此，d_ij是一个稀疏的一维向量，只有满足相互之间的空间位置关系的对应项会赋值为1；人与人之间的空间位置关系总是next-to，而不会是above，所以，above及其他位置的对应项赋值为0，而next-to赋值为1；

因为计算maxS(X,Y)是非确定性多项式NP(non-deterministicpolynomial)hard，所以本方法采用类似贪心算法(greedyalgorithms)来解决NPhard问题；

(i,c)＝S(X，Y(I{(i,C)}))-S(X，Y(I))

初始化I＝{}，S＝0，(i，c)＝w^T _cx_i，迭代

1)(i*，c*)＝argmax_(i,j)I(i，c)

2)I＝I{(i*，c*)}

3)S＝S+(i*,c*)

4)

(i, c) = (i, c) + {w^{T}}_{c *, c} d_{i *, i} + {w^{T}}_{c, c *} d_{i, i *}

结束条件是(i*，c*)0或者所有的窗口都实例化了；

S2用切平面最优化进行凸训练

为了描述本方法的学习算法，需要把公式(1)写成如下形式：

等价于S(X,Y)＝W^TΨ(X,Y)

其中，

W = (\begin{matrix} w_{s} \\ w_{a} \end{matrix})

即：

Y * = \arg \underset{Y}{m a x} W^{T} Ψ (X, Y)

凸训练的目的是假设给定一系列训练图片X_i和标签Y_i，希望得到一个W的最优模型，使得给定一副新的图片X_i，可以产生一个标签向量Y*＝Y_i；因此，凸训练的结果是得到W的最优模型，使得Y*和Y_i的差值尽可能的小，凸训练得到W最优模型的这一过程既是求下列数学公式极值的过程，

\arg \underset{w, ξ_{i} &GreaterEqual; 0}{m i n} w^{T} w + C \underset{i}{Σ} ξ_{i} - - - (3)

\begin{matrix} s . t . &ForAll; i, H_{i} & w^{T} Δ Ψ (X_{i}, Y_{i}, H_{i}) &GreaterEqual; l (Y_{i}, H_{i}) - ξ_{i} \end{matrix}

其中，ΔΨ(X_i,Y_i,H_i)＝Ψ(X_i,Y_i)-Ψ(Y_i,H_i)，

l (Y_{i}, H_{i}) = Σ_{i = 1}^{N} l (y_{i}, h_{i})

H_i是自己算出的标签，

l (y_{i}, h_{i}) = \{\begin{matrix} 1 : y_{i} &NotEqual; b g^h_{i} &NotEqual; y_{i} \\ 1 : h_{i} &NotEqual; b g^~ &Exists; j \\ 0 : o t h e r w i s e \end{matrix}\}

w * = \arg \underset{w}{m i n} L (w) - - - (4)

其中

L (w) = \frac{1}{2} | | w | |^{2} + C R (w)

R (w) = Σ_{i = 1}^{N} \underset{H}{m a x} (0, l (Y_{i}, H) - w^{T} Δ Ψ (X_{i}, Y_{i}, H))

对上述公式(4)进行切平面最优化，即可得到W的最优模型；

S3整体实施流程

首先通过搜索算法得到图片的regionproposals，其次采用RossGirshick的已经训练好的7层卷积神经网络CNNS进行图像的特征提取，因为本方法的训练集和测试集都采用的PASCALLVOC数据集(有20个类别)，所以把RossGirshick的7层CNNS网络结构的最后输出改成21(20个VOC类和1个背景类)，最后用线性的支持向量机SVM进行图片分类，分类的过程中为了找到最佳物体检测的位置，用已经训练好的上下文模型进行更准确的定位，最终得到更好的目标检测正确率。

2.根据权利要求1所述的基于多层次特征提取和上下文模型的目标检测方法，其特征在于：

算法步骤如下，

(1)对每一个窗口的向量Y初始化为背景类；

(3)当选择任意一个窗口，S(X,Y)的值不增加反而减少时，停止。