CN110570469B

CN110570469B - 一种汽车图片角度位置的智能识别方法

Info

Publication number: CN110570469B
Application number: CN201910758901.XA
Authority: CN
Inventors: 陈晶; 汪超; 陈宋德; 梁维新
Original assignee: Guangzhou Wilson Information Technology Co ltd
Current assignee: Guangzhou Wilson Information Technology Co ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2020-08-25
Anticipated expiration: 2039-08-16
Also published as: CN110570469A

Abstract

本发明公开了一种汽车图片角度位置的智能识别方法，通过获取多张附有角度标识汽车图片并进行预处理，生成第一图片，对第一图片进行灰度处理得到第一灰度图，通过SIFT算法对第一灰度图进行特征区域提取生成第一特征区域，对第一特征区域进行高亮处理生成第一特征像素点，将第一特征像素点代入卡方公式进行计算，得到汽车图片角度分类最显著的第一角度位置，将第一角度位置的像素和角度类别输入至CNN模型，输出256维的向量，通过k‑means对256维的向量进行聚类处理生成多个角度类别，并将多个角度类别和256维的向量输入至汽车角度识别模型，生成最优角度位置，能够减少人员的参与力度，并且大大的提高了识别效率与准确率。

Description

一种汽车图片角度位置的智能识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种汽车图片角度位置的智能识别方法。

背景技术

现有的汽车图片的目标识别技术主要是利用形状特征去表示图片中目标物体区域，然后利用分类器对所得的特征向量进行分类，或是人工定义汽车图片的角度位置标签，或是通过图像合成装置获取影像，再将影像进行投影来掌握周围情况以及汽车相对于别的物体的位置关系，以识别汽车位置。

但是在现实生活中，由于汽车外形和驾驶舱内饰的多变性，通过物体的轮廓线条特征来识别汽车位置使得其鲁棒性较差；其次对于部分遮挡、视角变化、噪声及模糊等诸多干扰因素相对敏感；并且人工打标签需要校对，耗时耗力；以及通过投影原理进行逻辑判断，逻辑复杂，不易掌握，使得成本偏高。

发明内容

本发明实施例的目的是提供一种汽车图片角度位置的智能识别方法，能够减少人员的参与力度，并且大大的提高了识别效率与准确率。

为实现上述目的，本发明实施例提供了一种汽车图片角度位置的智能识别方法，包括以下步骤：

获取多张附有角度标识汽车图片，对每张附有角度标识汽车图片进行预处理，生成第一图片；其中，所述角度标识为8个：车头、车尾正面、斜前、斜后、车身侧面、驾驶舱、中控及座椅；

对所述第一图片进行灰度处理，得到第一灰度图，通过SIFT算法对所述第一灰度图进行特征区域提取，生成第一特征区域，并对所述第一特征区域进行高亮处理，生成所述第一特征区域的第一特征像素点；

将所述第一特征像素点代入卡方公式进行计算，得到汽车图片角度分类最显著的第一角度位置；

将所述第一角度位置的像素和角度类别输入至预设的CNN模型，输出256维的向量；

通过k-means对所述256维的向量进行聚类处理，生成多个角度类别，并将所述多个角度类别和所述256维的向量输入至预设的汽车角度识别模型，生成最优角度位置。

进一步的，所述预处理具体为：

获取所述多张附有角度标识汽车图片的属性，并根据所述多张附有角度标识汽车图片的属性对所述多张附有角度标识汽车图片的图层进行拆分，生成多张图层拆分后的图片；

对所述多张图层拆分后的图片的图像分辨率进行统一，生成第一图片。

进一步的，所述对所述第一图片进行灰度处理，得到第一灰度图，通过SIFT算法对所述第一灰度图进行特征区域提取，生成第一特征区域，并对所述第一特征区域进行高亮处理，生成所述第一特征区域的第一特征像素点，具体为：

对所述第一图片进行灰度处理，生成第一灰度图；

以所述第一灰度图构建尺度空间，在所述尺度空间中找到多个像素极值点，并在所述多个像素极值点中去除局部曲率不对称的像素，得到第一像素极值点；

以所述第一像素极值点为中心，取16*16的邻域作为采样窗口，将所述采样窗口与所述第一像素极值点的相对方向通过高斯加权后归入包含8个bin的方向直方图，得到4*4*8的128维特征描述子，并将所述128维特征描述子长度归一化，得到第一特征区域；

降低所述第一特征区域的亮度，并对所述第一特征区域进行颜色变换处理，生成所述第一特征区域的第一特征像素点。

进一步的，所述颜色变换处理需使镜面反射β(θ)和φ(λ)满足以下公式：

Val_i＝Col_i×φ–β；

其中，i＝r,g,b,0<φ<1，Col_i为原图像的RGB值，Val_i为调整后的RGB值。

进一步的，所述卡方公式为：N*(AD-BC)²/((A+B)(A+C)(B+D)(C+D))；

其中，N为图片总数，A为包含位置点t且属于C类角度的图片数目，B为包含位置点t且不属于C类角度的图片数目，C为不包含位置点t但属于C类角度的图片数目，D为不包含位置点t也不属于C类角度的图片数目。

进一步的，所述预设的CNN模型以TensorFlow作为基础框架，并且由两个卷积层、两个池化层以及一个全连接层组成；

所述卷积层采用卷积核提取输入图像的特征，调用tf.nn.conv2d模型；

所述池化层将卷积得到的特征图进行稀疏处理，减少数据量，其中池化的输入为最大值；

所述全连接层在网络的末端进行重新拟合，恢复特征，减少特征的损失，并对全连接层结果进行dropout再输出。

进一步的，所述预设的CNN模型中的激活函数采用relu函数，优化器使用AdamOptimizer，最终输出256维向量。

进一步的，在所述通过k-means对所述256维的向量进行聚类处理，生成更合理的角度类别，并将所述多个角度类别和所述256维的向量输入至预设的汽车角度识别模型，生成最优角度位置之后，还包括：

将所述角度标识由原来的8个增加至11个；其中，增加后的11个角度标识分别为车头、车尾正面、斜左前、斜右前、斜左后、斜右后、车身左侧面、车身右侧面、驾驶舱、中控及座椅；

对所述最优角度位置进行标记。

进一步的，所述预设的汽车角度识别模型通过以下方式构建：

将所述预设的CNN模型输出的结果，和所述预设的CNN模型输出的结果进行聚类处理后得到的结果作为模型的输入；

通过将所述预设的汽车角度识别模型的输入，输入至SVM分类器进行分类训练，得到模型所需的参数；

以进行多次训练后的SVM分类器输出的结果，作为模型的输出，并构建所述预设的汽车角度识别模型。

进一步的，所述汽车角度识别模型还可用于新的汽车图片角度预测，以提高汽车图片角度识别准确率并减少人工参与。

与现有技术相比，具有如下有益效果：

本发明实施例提供的汽车图片角度位置的智能识别方法，通过获取多张附有角度标识汽车图片并进行预处理，生成第一图片，对第一图片进行灰度处理得到第一灰度图，通过SIFT算法对第一灰度图进行特征区域提取生成第一特征区域，对第一特征区域进行高亮处理生成第一特征像素点，将第一特征像素点代入卡方公式进行计算，得到汽车图片角度分类最显著的第一角度位置，将第一角度位置的像素和角度类别输入至CNN模型，输出256维的向量，通过k-means对256维的向量进行聚类处理生成多个角度类别，并将多个角度类别和256维的向量输入至汽车角度识别模型，生成最优角度位置，能够减少人员的参与力度，并且大大的提高了识别效率与准确率。

附图说明

图1是本发明提供的汽车图片角度位置的智能识别方法的一个实施例的流程示意图；

图2是本发明提供的汽车图片角度位置的智能识别方法的一个实施例的CNN模型的工作流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的汽车图片角度位置的智能识别方法的一个实施例的流程示意图；本发明实施例提供一种汽车图片角度位置的智能识别方法，包括步骤S1-S5；

S1，获取多张附有角度标识汽车图片，对每张附有角度标识汽车图片进行预处理，生成第一图片。

其中，所述角度标识为8个：车头、车尾正面、斜前、斜后、车身侧面、驾驶舱、中控及座椅。

在本实施例中，所述预处理具体为：获取所述多张附有角度标识汽车图片的属性，并根据所述多张附有角度标识汽车图片的属性对所述多张附有角度标识汽车图片的图层进行拆分，生成多张图层拆分后的图片；对所述多张图层拆分后的图片的图像分辨率进行统一，生成第一图片。

S2，对所述第一图片进行灰度处理，得到第一灰度图，通过SIFT算法对所述第一灰度图进行特征区域提取，生成第一特征区域，并对所述第一特征区域进行高亮处理，生成所述第一特征区域的第一特征像素点。

在本实施例中，步骤S2具体为：对所述第一图片进行灰度处理，生成第一灰度图；以所述第一灰度图构建尺度空间，在所述尺度空间中找到多个像素极值点，并在所述多个像素极值点中去除局部曲率不对称的像素，得到第一像素极值点；以所述第一像素极值点为中心，取16*16的邻域作为采样窗口，将所述采样窗口与所述第一像素极值点的相对方向通过高斯加权后归入包含8个bin的方向直方图，得到4*4*8的128维特征描述子，并将所述128维特征描述子长度归一化，得到第一特征区域；降低所述第一特征区域的亮度，并对所述第一特征区域进行颜色变换处理，生成所述第一特征区域的第一特征像素点。

需要说明的是，用于展示的汽车图片，周围环境相对简单，主要受强光影响，为了解决高光反射对车身颜色的影响，需通过降低图像亮度，从而减弱图像的曝光度。

而高亮是由镜面反射β(θ)、φ(λ)所引起，使得高光区域中的像素颜色接近照明颜色，为了去除图像中的高光，首先根据高光物体的颜色估计光源的颜色，然后通过使用稳定的颜色变换消除镜面反射β(θ)φ(λ)，从面达到消除高光的目的。另外，由于强光照条件下拍摄的图像三通道出现普遍偏高现象，在尽可能降低图像亮度的情况下，同时对三通道的值进行线性调整，需使镜面反射β(θ)和φ(λ)满足以下公式：Val_i＝Col_i×φ–β；

优选的，SIFT算法是一种提取局部特征的算法，在尺度空间寻找极值点，提取位置，尺度，旋转不变量。借助SIFT算法求一幅图中的特征点这个特性，分别对不同角度(车头、车尾正面、斜前、斜后、车身侧面、驾驶舱、中控及座椅)的汽车图片进行SIFT特征点获取。其具体步骤为：先构建尺度空间，再检测DOG尺度空间极值点，为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小，一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点，然后除去不好的特征点，本质上要去掉DOG局部曲率非常不对称的像素，并利用特征描述符寻找匹配点，以特征点为中心取16*16的邻域作为采样窗口，将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图，最后获得4*4*8的128维特征描述子，最后直接调用OpenCV中SIFT算法实现8个角度位置特征点收集，并获取这些位置点的颜色值。

S3，将所述第一特征像素点代入卡方公式进行计算，得到汽车图片角度分类最显著的第一角度位置。

在本实施例中，所述卡方公式为：N*(AD-BC)²/((A+B)(A+C)(B+D)(C+D))；其中，N为图片总数，A为包含位置点t且属于C类角度的图片数目，B为包含位置点t且不属于C类角度的图片数目，C为不包含位置点t但属于C类角度的图片数目，D为不包含位置点t也不属于C类角度的图片数目。其中，角度位置为上面提及的8个类别。因为卡方未考虑词频，所以将相同位置点出现的频率一并进行考虑，筛选出对识别汽车角度位置有贡献的位置点。

S4，将所述第一角度位置的像素和角度类别输入至预设的CNN模型，输出256维的向量。

作为本发明的优选实施例，所述预设的CNN模型以TensorFlow作为基础框架，并且由两个卷积层、两个池化层以及一个全连接层组成；所述卷积层采用卷积核提取输入图像的特征，调用tf.nn.conv2d模型；所述池化层将卷积得到的特征图进行稀疏处理，减少数据量，其中池化的输入为最大值；所述全连接层在网络的末端进行重新拟合，恢复特征，减少特征的损失，并对全连接层结果进行dropout再输出。

需要说明的是，所述预设的CNN模型中的激活函数采用relu函数，优化器使用AdamOptimizer。

具体的，请参阅图2，本发明提供的CNN模型由两个卷积层、两个池化层以及一个全连接层组成；

其中，输出层：用于将数据输入到神经网络中，数据源为步骤S2和S3得到的结果；

卷积层：使用卷积核提取特征，调用tf.nn.conv2d模型：tf.nn.conv2d(input,filter,strides,padding,use_cudnn_on_gpu＝None,name＝None)；

其中，input：指需要做卷积的输入图像，它要求是一个Tensor，具有[图片的数量，图片高度,图片宽度,图像通道数]；filter：卷积核，它要求是一个Tensor，具有[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]，图像通道数与参数input相同；strides：卷积时在图像每一维的步长，这是一个一维的向量，长度4；padding：string类型，值为“SAME”和“VALID”，表示的是卷积的形式，是否考虑边界，"SAME"是考虑边界，不足的时候用0去填充周围，"VALID"则不考虑；use_cudnn_on_gpu：bool类型，是否使用cudnn加速，默认为true；Name：指定该操作的name。

池化层：卷积得到的特征图进行稀疏处理，减少数据量，这里用最大值池化：tf.nn.max_pool(value,ksize,strides,padding,name＝None)；

其中，value：需要池化的输入，在卷积层后面，所以输入为卷积层的输出，依然是[batch,height,width,channels]这样的shape；ksize：池化窗口的大小，取一个四维向量[1,height,width,1]，因为不想在batch和channels上做池化，所以这两个维度设为了1；strides：和卷积类似，窗口在每一个维度上滑动的步长，是[1,stride,stride,1]；padding：和卷积类似，可以取'VALID'或者'SAME'。

全连接层：在网络的末端进行重新拟合，恢复特征，减少特征的损失：tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)；

其中，tf.nn.relu：激活函数；tf.matmul：生成两个矩阵的乘积；h_pool2_flat：第二次池化的结果进行变形；W_fc1：权重；b_fc1：偏置量。

对全连接结果进行过拟合处理：tf.nn.dropout(x,keep_prob)；

其中，x：指输入，全连接结果；keep_prob:设置神经元被选中的概率。

输出层：输出结果，用于后面目标分类：tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)；

其中，h_fc1_drop：全连接层结果；W_fc2：权重；b_fc2：偏置量。

S5，通过k-means对所述256维的向量进行聚类处理，生成多个角度类别，并将所述多个角度类别和所述256维的向量输入至预设的汽车角度识别模型，生成最优角度位置。

在本实施例中，所述预设的汽车角度识别模型通过以下方式构建：将所述预设的CNN模型输出的结果，和所述预设的CNN模型输出的结果进行聚类处理后得到的结果作为模型的输入；通过将所述预设的汽车角度识别模型的输入，输入至SVM分类器进行分类训练和预测，得到模型所需的参数；以进行多次训练预测后的SVM分类器输出的结果，作为模型的输出，并构建所述预设的汽车角度识别模型。

需要说明的是，聚类的类别数判断，组间距离越大越好，组内距离越小越好，并选择拐点(斜率转折点)作为最优类别数。

在本实施例中，所述汽车角度识别模型能够将所述角度标识由原来的8个识别并进行添加标记为11个，以应对各个部门传达给观看者不同角度样式的需要。

其中，增加后的11个角度标识分别为车头、车尾正面、斜左前、斜右前、斜左后、斜右后、车身左侧面、车身右侧面、驾驶舱、中控及座椅。

优选的，本发明提供的汽车角度识别模型还可用于新的汽车图片角度预测，以提高汽车图片角度识别准确率并减少人工参与。

相比较于现有技术，本发明提供的实施例具有以下优点：

1.面对汽车外观设计变化多，为了能够获得汽车其他方面的信息，颜色作为视觉传达过程中画面信息的重要表现形式，能够传达出汽车的第二大重要特征，而且相对外观更加稳定，通过不同位置颜色组合可以确定汽车的角度。

2.由于颜色特征与角度类别之间没有固定的物理映射关系，因此传统的建模方法往往无法满足角度类别识别的需求，深度学习利用一种深层的非线性网络结构，学习将要分类的对象的深层特征，实现每一层网络对复杂函数不同程度的逼近，并实现输入数据的分布式表示。

3.减少人员参与力度，大大提高了效率与数据准确率。

4.采用变形后的卡方模型，对图片特征点进行识别和降维，不仅减弱了直接将数据进行CNN处理所承受的性能压力，而且更利于模型拟合，使最终模型稳定。

5.目前深度学习框架已经比较成熟，较容易掌握。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种汽车图片角度位置的智能识别方法，其特征在于，包括以下步骤：

通过k-means对所述256维的向量进行聚类处理，生成多个角度类别，并将所述多个角度类别和所述256维的向量输入至预设的汽车角度识别模型进行训练，训练采用SVM分类模型，以使训练完成后的汽车角度识别模型对新的未有角度标识的汽车图片进行角度预测，生成对应的角度位置；

所述预处理具体为：

对所述多张图层拆分后的图片的图像分辨率进行统一，生成第一图片；

所述汽车角度识别模型能够将所述角度标识由原来的8个识别并进行添加标记为11个，其中，增加后的11个角度标识分别为车头、车尾正面、斜左前、斜右前、斜左后、斜右后、车身左侧面、车身右侧面、驾驶舱、中控及座椅。

2.如权利要求1所述的汽车图片角度位置的智能识别方法，其特征在于，所述对所述第一图片进行灰度处理，得到第一灰度图，通过SIFT算法对所述第一灰度图进行特征区域提取，生成第一特征区域，并对所述第一特征区域进行高亮处理，生成所述第一特征区域的第一特征像素点，具体为：

对所述第一图片进行灰度处理，生成第一灰度图；

3.如权利要求2所述的汽车图片角度位置的智能识别方法，其特征在于，所述卡方公式为：N*(AD-BC)²/((A+B)(A+C)(B+D)(C+D))；

4.如权利要求3所述的汽车图片角度位置的智能识别方法，其特征在于，所述预设的CNN模型以TensorFlow作为基础框架，并且由两个卷积层、两个池化层以及一个全连接层组成；

5.如权利要求4所述汽车图片角度位置的智能识别方法，其特征在于，所述预设的CNN模型中的激活函数采用relu函数，优化器使用AdamOptimizer，最终输出256维向量。

6.如权利要求5所述的汽车图片角度位置的智能识别方法，其特征在于，所述预设的汽车角度识别模型通过以下方式构建：