CN109766999A

CN109766999A - 一种优化多要素识别类别混淆的方法

Info

Publication number: CN109766999A
Application number: CN201910038724.8A
Authority: CN
Inventors: 张本兴; 高三元
Original assignee: Wide Bench (beijing) Technology Co Ltd
Current assignee: Wide Bench (beijing) Technology Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-17

Abstract

本发明涉及一种优化多要素识别类别混淆的方法，该方法是神经网络在通过卷积层提取图像特征时，扩大所述卷积层的感受野。通过扩大卷积层的感受野，使得特征提取的区域越大，提取到的特征越多，要素识别越不容易混淆，继而可以优化要素识别类别混淆的问题。

Description

一种优化多要素识别类别混淆的方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种优化多要素识别类别混淆的方法。

背景技术

近年来，随着深度学习的逐渐发展，卷积神经网络在计算机视觉领域得到了广泛的应用，包括目标检测、图象语义分割等方面。例如，路面要素识别。路面要素包括车道线、车辆、道路以及其他物体，其中车道线又分为多种类别的车道线，包括但不限于车道线虚线、车道线实线、公交车道线等。在现有的路面要素识别技术中，是将所有的线全部划为一类，即车道线，然而这样划分方式相对比较粗略，例如不能将普通车道线与公交车道线相区分，导致无法为例如无人驾驶应用提供准确的导航引导。如果要将道路线要素进行准确的划分，那么将会导致要素类别很多，容易导致分类混淆，因为神经网络去预测物体所属分类时，加入分类数目是n类，神经网络会给出属于每个分类的概率，所有分类的概率加起来是1，因此分类越多，混淆的概率越大。

发明内容

本发明的目的在于改善现有技术中所存在的多要素识别时类别容易混淆的不足，提供一种优化多要素识别类别混淆的方法及装置。

为了实现上述发明目的，本发明实施例提供了一种优化多要素识别类别混淆的方法，该方法是：神经网络在通过卷积层提取图像特征时，扩大所述卷积层的感受野。

作为一种实施方式，神经网络通过增大输入层的输入图像尺寸的方式扩大卷积层的感受野。

作为另一种实施方式，神经网络通过增加卷积层的卷积核的大小的方式扩大卷积层的感受野。

作为另一种实施方式，神经网络通过采用空洞卷积的方式扩大卷积层的感受野。

与现有技术相比，本发明方法通过扩大卷积层的感受野，使得特征提取的区域越大，提取到的特征越多，要素识别越不容易混淆，继而可以优化要素识别类别混淆的问题，为进行更准确地要素识别提供技术支持。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例中提供了一种优化多要素识别类别混淆的方法，该方法是神经网络在通过卷积层提取图像特征时，扩大所述卷积层的感受野，为神经网络的卷积层提供更大范围的图片作为特征提取的来源。

扩大所述卷积层的感受野的实施方式可以有多种，例如神经网络通过增大输入层的输入图像尺寸的方式扩大卷积层的感受野；又例如，神经网络通过增加卷积层的卷积核的大小的方式扩大卷积层的感受野；又或者，神经网络通过采用空洞卷积(或称为扩展卷积，或扩张卷积)的方式扩大卷积层的感受野。当然地，不同的实施方式也可以同时采用，以进一步增大卷积层的感受野。

通过扩大卷积核的方式扩大卷积层的感受野时，例如可以将卷积核扩大到 3，甚至扩大到5或者7。理论上卷积核越大越好，卷积核越大，代表卷积提取到的特征越多，一个像素代表原图多个像素提取到的信息。但是卷积核越大，计算量就越大，为了兼顾计算量与感受野，即在保障感受野足够大(要素识别不混淆)的同时降低运算量，可以通过多个相对较小卷积核实现一个较大卷积核，例如将一个7*7的卷积，换成3个3*3的卷积。

通过增大输入层的输入图像尺寸的方式扩大卷积层的感受野时，例如可以设定输入图像尺寸的高*宽为400*400～600*600。输入图像尺寸大小是越大越好，输入图像越大，上采样时就会越精确。例如原始图像大小是1000*1000，若输入图像大小是200*200，那么上采样时，从200*200上采样到1000*1000，那么一个像素就相当于了5个像素，但如果输入图像是400*400，往回上采样时一个像素就相当于2.5个像素，因此提取到的特征数据来更精确。

识别类别混淆问题是由于神经网络感受野范围内的信息较为匮乏，这种情况在离镜头越近的区域，影响越明显。因为对于相同大小的感受野，离镜头越近，感受野范围内的信息越匮乏，可能仅剩下路面以及很少的车道线，无法准确预测识别该车道线的正确语义。通过本发明方法神经网络可以提取到更丰富的上下文信息，继而可以更加准确的预测识别得到正确的类别。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种优化多要素识别类别混淆的方法，其特征在于，神经网络在通过卷积层提取图像特征时，扩大所述卷积层的感受野。

2.根据权利要求1所述的方法，其特征在于，神经网络通过增大输入层的输入图像尺寸的方式扩大卷积层的感受野。

3.根据权利要求1所述的方法，其特征在于，神经网络通过增加卷积层的卷积核的大小的方式扩大卷积层的感受野。

4.根据权利要求1所述的方法，其特征在于，神经网络通过采用空洞卷积的方式扩大卷积层的感受野。