CN107610224A

CN107610224A - 一种基于弱监督与明确闭塞建模的3d汽车对象类表示算法

Info

Publication number: CN107610224A
Application number: CN201710874127.XA
Authority: CN
Inventors: 朱智勤; 王冠; 李鹏华; 米怡; 赵芬
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-01-19
Anticipated expiration: 2037-09-25
Also published as: CN107610224B

Abstract

本发明涉及一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，属于神经网络对汽车检测与定位的领域。该算法利用弱标签图片作为训练集，同时利用3D汽车闭塞模型能通过汽车零部件定位与遮挡评估来恢复与完善汽车3D信息的优点，解决目前汽车检测中存在汽车检测与定位不完整的问题。本发明采用3D汽车闭塞模型对仅有的2D汽车信息进行恢复与完善，使得被截断、遮挡和闭塞等不完整的2D汽车信息恢复为完成的3D汽车表示，解决了目前汽车检测代价大，汽车信息检测与汽车定位不完备的问题。3D汽车对象类表示因此采用基于弱监督与明确闭塞建模的算法对于汽车检测与定位的后续处理具有重要的理论意义和应用价值。

Description

一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法

技术领域

本发明属于神经网络对汽车检测与定位的领域，涉及一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法。

背景技术

如今，汽车检测与定位在各个领域的应用十分广泛，尤其在辅助驾驶方面。但在对图片进行训练时，存在边界框人为标注昂贵的问题，这主要是由于采用强监督图片集作为训练集所导致。与此同时，对汽车定位与检测时，存在目标定位不完整，检测不准确的问题，这主要是由于在检测图片中，出现汽车对象被其他物体遮挡、截断和闭塞等问题。这两个问题的解决与否直接决定了汽车检测与定位的效果。

发明内容

有鉴于此，本发明的目的在于提供一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，通过建立弱标记图片集与3D汽车闭塞模型处理现存的问题。

为达到上述目的，本发明提供如下技术方案：

一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，包括以下步骤：

S1：在训练图片集上标注有对象存在/不存在的标签；

S2：搭建区域卷积神经网络(Regions with Convolutional Neural Network,R-CNN)神经网络，将标注完成的图片集统一尺寸后输入R-CNN神经网络中进行2D汽车检测神经网络的训练，得到训练好的弱标签2D汽车检测器；

S3：通过步骤S2的训练，将弱标签训练图片集输入训练好的弱标签2D汽车检测器中，得到粗糙的2D特征信息；

S4：搭建3D汽车闭塞模型，将步骤S3中得到的2D特征信息输入该模型中进行训练，得到汽车的3D信息表示。

进一步，在步骤S3中，所述训练的过程具体为：

S201：找出候选框：使用Selective Search方法生成候选窗口，Selective Search方法为：先基于各种颜色特征将图像划分为多个小块，然后自底向上地对不同的块进行合并，合并前后的每一个块都对应于一个候选窗口，最后挑出最有可能包含待检测目标的窗口作为候选窗口；

S202：利用卷积神经网络(Convolutional Neural Network,CNN)提取特征向量：先将候选窗口图像尺寸变为227*227，再对每个图像进行扭曲，最后输入到CNN模型中，得到提取的特征值；

S203：利用支持向量机(Support Vector Machine,SVM)进行特征向量分类；

S204：边框回归：在给定窗口的基础上去预测真实检测框的位置和大小。

进一步，所述步骤S4具体为：

S401：将3D对象检测和建模分为两层，第一层是基于小图框架的2D汽车信息表现，通过相对松散的几何约束将视点依赖的部分配置集合在一起，在大图像中找到具有对象姿态的粗略初始估计；第二层是基于局部部分的3D活动形状模型，增加显式遮挡掩模的集合；将物体几何形状紧密地约束到合理的形状，预测当零件被遮挡时的物体形状及遮挡部件的位置；

S402：在第一层中，通过检测图像中部分配置的实例与相应检测器，每个检测到的配置，对于完整对象2D位置和尺度q＝(q_x,q_y,q_s)以及对于姿态θ＝(θ_az,θ_el)投射相关联的投票；投票以贪婪聚集方法聚类，获得检测假设H，每个具有投票配对的列表{l₁...l_p}表示对象的存在；

在第一层之后，留下一组稀疏推定的检测，负担昂贵的目标函数；h＝(s,f,θ,q,a)表示对象实例，包括形状参数s，摄像机焦距f，方位角和仰角的视点参数θ，以及在图像空间中的平移和缩放参数q；设将3D顶点X_j(s)映射到图像点X_j的投影矩阵P仅依赖于θ和q，f固定，对所有图像有透视效果X_j＝P(f,θ,q)X_j(s)；拟合模型找到目标函数L(h)的MAP估计为：

其中因子表示在不同点对不同数量的自遮蔽部分进行归一化；L_v是部分j的证据如果该部分是可见的，则通过查找图像位置X_j和比例处的检测分数来找到；部分可能性用背景分数进行归一化；如果该部分位于遮挡掩模下面，则向该部分分配固定的似然度c；L_c测量较大配置对部分j的预测效果：

L_ο＝(ο_j(s,θ,a₀)-ο_j(s,θ,a))c

找到一个基于样本的随机大致估计h，维护一组加权样本，每一个对应于物体假设{s,θ,q,a}的空间中的一组不同的值；粒子迭代更新，通过以与当前值为中心的独立高斯重新采样个体参数；除剩余参数外，掩模索引a是离散的；对w.r.t.的掩码集进行排序，定义掩码之间的相似性。

本发明的有益效果在于：本发明采用弱标签图片作为训练集的方法，有效节约人为标记资源，降低整体成本。使用3D汽车闭塞模型能通过对汽车零部件定位与遮挡评估来恢复与完善汽车3D信息的特点，恢复汽车完整信息。本发明采用建立弱标签图片集的方法，只对训练图片标注对象是否存在的信息。搭建3D汽车闭塞模型，整合2D汽车信息，评估信息并预测出准确的3D汽车表示。将以上两种方法结合，组合成完整的弱监督明确闭塞建模的3D汽车对象类表示算法，不仅使降低了标注成本，同时还极大的提高了汽车检测的准确率。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为整体结构流程框图。

图2为R-CNN网络结构图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1、2所示，本发明各部分具体实施细节如下：

1、预训练弱标签图片集。该过程包含以下3个步骤：

对图片集中图片标记对象存在/不存在信息；

将图片集中图片统一为224*224尺寸；

搭建R-CNN网络，将图片集输入该网络中进行预训练，得到弱标签2D汽车检测器；

2、训练弱标签图片集。该过程包含以下4个步骤：

(1)对图片集中图片标记对象存在/不存在信息；

(2)将图片集中图片统一为224*224尺寸；

(3)把弱标签训练图片集输入上述步骤1中得到的弱标签2D汽车检测器中得到弱标签2D汽车特征信息；

(4)建立3D汽车闭塞模型，将上述弱标签2D汽车特征信息输入该网络中进行训练，获得训练好的3D汽车检测器；

3、测试图片集。该过程包含以下2个步骤：

(1)将图片集中图片统一为224*224尺寸；

(2)将弱标签测试图片集输入步骤2中训练好的3D汽车检测器中，获得汽车的3D表示结果。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，其特征在于：该算法包括以下步骤：

S1：在训练图片集上标注有对象存在/不存在的标签；

S2：搭建区域卷积神经网络(RegionswithConvolutionalNeuralNetwork,R-CNN)神经网络，将标注完成的图片集统一尺寸后输入R-CNN神经网络中进行2D汽车检测神经网络的训练，得到训练好的弱标签2D汽车检测器；

2.根据权利要求1所述的一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，其特征在于：在步骤S3中，所述训练的过程具体为：

S202：利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取特征向量：先将候选窗口图像尺寸变为227*227，再对每个图像进行扭曲，最后输入到CNN模型中，得到提取的特征值；

S203：利用支持向量机(SupportVectorMachine,SVM)进行特征向量分类；

3.根据权利要求1所述的一种基于弱监督与明确闭塞建模的3D汽车对象类表示算法，其特征在于：所述步骤S4具体为：

在第一层之后，留下一组稀疏推定的检测，负担昂贵的目标函数；h＝(s,f,θ,q,a)表示对象实例，包括形状参数s，摄像机焦距f，方位角、仰角的视点参数θ和汽车掩膜a，以及在图像空间中的平移和缩放参数q；设将3D顶点X_j(s)映射到图像点X_j的投影矩阵P仅依赖于θ和q，f固定，对所有图像有透视效果X_j＝P(f,θ,q)X_j(s)；拟合模型找到目标函数L(h)的估计为：

其中因子表示在不同点对不同数量的自遮蔽部分进行归一化；L_v是自遮蔽部分j的证据如果该部分是可见的，则通过查找图像位置X_j和比例处的检测分数来找到；部分可能性用背景分数进行归一化；如果该部分位于遮挡掩模下面，则向该部分分配固定的似然度c；L_c表示测量较大配置对部分j的预测效果：

L_ο＝(ο_j(s,θ,a₀)-ο_j(s,θ,a))c

<mrow> <msub> <mi>L</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>o</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>&theta;</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> <mi>p</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&lambda;</mi> <mi>N</mi> <mo>(</mo> <mrow> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>;</mo> <msub> <mi>&mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中σ_ij表示协方差，μ表示均值，p表示匹配3D的投影矩阵，a₀表示遮挡掩膜，L₀表示部分固定分配的度量，N表示预测效果符合正太分布，λ为正太分布参数，v_ij表示二进制标志，指示在配置内找到哪些部分j，o_j为指示功能函数用于遮挡部分建模，i表示汽车遮盖部分的数量；找到一个基于样本的随机大致估计h，维护一组加权样本，每一个对应于物体假设{s,θ,q,a}的空间中的一组不同的值；粒子迭代更新，通过以与当前值为中心的独立高斯重新采样个体参数；除剩余参数外，掩模索引a是离散的；对掩码集进行排序，定义掩码之间的相似性。