CN109886269A

CN109886269A - 一种基于注意力机制的交通广告牌识别方法

Info

Publication number: CN109886269A
Application number: CN201910149659.6A
Authority: CN
Inventors: 周敏; 朱志超; 王勇; 杨健; 曾元; 图尔荪艾力
Original assignee: Nanjing China Aviation Technology Development Co Ltd
Current assignee: Nanjing China Aviation Technology Development Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-14

Abstract

本发明公开了一种基于注意力机制的交通广告牌识别方法，应用于电子设备，包括以下步骤：输入原始图像，原始图像的尺寸以及每个像素点的灰度值范围均在0‑255之间；对原始图像进行归一化，将每张图像转为3阶张量形式：[height，width，channels]；构建注意力机制，对原始图像需要处理的部分进行学习；构建Faster RCNN多层神经网络，提取图像的特征并处理；根据处理结果，勾画广告牌的包围盒。本发明通过采用多层神经网络，结合注意力机制，对公路两侧附近提高识别的分数，对远离路面的部分降低识别的分数，从而提高识别的精确度，在图像分类和目标识别领域中具有广阔的应用前景。

Description

一种基于注意力机制的交通广告牌识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于注意力机制的交通广告牌识别方法。

背景技术

视觉系统是人类感知世界的重要途径，也是人类对自身研究认识最深刻的部分，研究表明80％的外界信息时通过人类视觉系统传递给大脑。在实际生活中，人们能够非常轻松的通过视觉系统达到感知世界的目的。虽然，人类视觉系统功能非常强大，但是发展能够模拟人类视觉系统的计算机视觉仍然十分必要。当前，计算机视觉技术越来越受到学者们的关注，并且取得了丰富的成果，但是，距离像人类视觉一样感知外界信息的目标还很遥远。目标检测是计算机视觉一个重要的研究方向，某些技术已经成功应用在我们的实际生活中，例如人脸识别、行人检测等应用。随着社会逐步进入智能化和信息化时代，对场景目标进行分割识别在未来的生活中将会扮演越来越重要的角色。

目标检测对于人来说是再简单不过的任务，但是对于计算机来说，它看到的是一些值为0-255的数组，因而很难直接得到图像中某种目标这种高层语义概念，也不清楚目标出现在图像中哪个区域。

传统的目标检测一般分为三个阶段：首先在给定的图像上选择一些候选的区域，然后对这些区域提取特征，最后使用训练的分类器进行分类。对于传统目标检测任务主要存在两个问题：一个是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。基于感兴趣区域的深度学习目标检测算法，能够很好的解决这两个问题，感兴趣区域是预先找出图中目标可能出现的位置，感兴趣区域利用了图像中的纹理、边缘、颜色等信息，可以保证在选取较少窗口的情况下保持较高的召回率，这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高。

近年来，卷积神经网络(Convolutional Neural Network，CNN)作为最热门的深度神经网络之一，将人工神经网络和深度学习技术相结合，具有结构层次、特征抽取和分类结合的全局训练特征。以CNN为代表的深度学习方法，利用权值共享的技术，减少了网络中的参数，逐步克服神经网络中的计算量大等问题。将CNN运用在遥感图像的目标识别和检测中，这种深层的架构在图像分类和目标识别领域中具有广阔的应用前景。

发明内容

本发明的目的在于利用深度学习实现对公路两侧广告牌的自动识别，提供一种基于注意力机制的交通广告牌识别方法，在识别中采用深度神经网络，结合注意力机制，对公路两侧附近目标提高识别的分数，对远离路面的部分目标降低识别的分数，从而提高识别的精确度。

为实现上述技术目的，本发明采取的技术方案为：

一种基于注意力机制的交通广告牌识别方法，应用于电子设备，包括以下步骤：

S1：输入原始图像，原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间；

S2：对原始图像进行归一化，将每张图像转为3阶张量形式：[height，width，channels]，其中，height为归一化后图像的高，width为归一化后图像的宽，channels为归一化后图像的通道数；

S3：构建注意力机制，对原始图像需要处理的部分进行学习；

S4：构建具有卷积神经网络特征的更快区域(Faster Regions withConvolutional Neural Network features，Faster RCNN)多层神经网络，提取图像的特征并处理；

S5：根据S4处理结果，勾画广告牌的包围盒。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤S2中，归一化为：将图像中的每个像素点的值范围为0-255线性转化到0-1之间，转化公式如下:

式中，Gray为图像中某像素点的灰度值，NonGray为该像素点在图像归一化后的灰度值。

上述的步骤S3具体为：通过注意力机制学习一幅图像要处理的部分，当前状态根据前一个状态学习得到的要关注的位置和当前输入的图像，去处理注意力部分像素。

上述的步骤S4中Faster RCNN多层神经网络包括四层：第一层为卷积层，用于提取图像的特征映射；第二层为RPN网络(区域提案网络)，用于提取感兴趣的区域；第三层为感兴趣区域池化层，用于收集卷积层提取图像的特征映射，以及RPN网络提取感兴趣的区域；第四层为分类器，用于根据感兴趣区域的特征映射计算感兴趣区域的类别，根据边框回归算法获得广告牌包围盒的最终精确位置。

上述的步骤S4包括以下步骤：

S41：用CNN来提取图像的特征，通过多个串行的卷积层和池化层间隔排列的方式逐层学习图像数据特征，最终得到图像对应的特征映射；

S42：利用RPN网络提取感兴趣区域，对每个感兴趣区域通过池化层获取其在步骤S41中所对应的特征；

S43：感兴趣区域池化层收集卷积层提取图像的特征映射以及RPN网络提取感兴趣的区域；

S44：将步骤S43中每个感兴趣区域的特征传入多层全连接分类器中，对每个感兴趣区域进行分类，根据边框回归算法获得广告牌包围盒的最终精确位置。

分类标签为公路的感兴趣区域，设定距离阈值k，把距离公路小于K的感兴趣区域进行加分操作，而距离公路大于K的感兴趣区域进行减分操作；

分类标签为广告牌的感兴趣区域，对其相邻的感兴趣区域做k-近邻(k-NearestNeighbor，KNN)算法，分析其周围的感兴趣区域所属类别，若相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的门槛值(Threshold)，则该感兴趣区域为广告牌，否则为背景。

本发明具有以下有益效果：

(1)本发明提出的技术方案为多层的神经网络，采用Faster RCNN，经过RCNN和Fast RCNN的积淀，Faster RCNN在结构上，已经将特征提取，感兴趣区域提取，边框回归，分类器都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显；

(2)本发明将注意力机制引入图像，通过注意力机制去学习一幅图像要处理的部分，每次当前状态，都会根据前一个状态学习得到的要关注的位置和当前输入的图像，去处理注意力部分像素，而不是图像的全部像素，这样做的好处就是更少的像素需要处理，减少了任务的复杂度；

(3)本发明通过深度CNN提取特征，泛化能力强，识别效率高；通过注意力机制过滤层的过滤，对公路两侧附近提高识别的分数，对远离路面的部分降低识别的分数，从而进一步提高了模型的识别精度。

附图说明

图1是本发明的神经网络模型图；

图2是本发明的流程框图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

如图1、图2所示，本发明的一种基于注意力机制的交通广告牌识别方法，应用于一电子设备，包括以下步骤：

S1：输入一张原始图像，原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间；

S2：由于CNN擅长处理数值较小的张量，而原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间，所以对原始图像进行归一化，将每张图像转为3阶张量形式：[height，width，channels]，其中，height为归一化后图像的高，width为归一化后图像的宽，channels为归一化后图像的通道数；

深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，是一种模拟人脑注意力的模型，其核心为Encoder-Decoder过程。

Encoder-Decoder模型是一种经典的自然语言处理模型，主要是通过Encoder模块对于输入序列进行编码得到编码后的code，然后将code输入到Decoder模块进行解码，最后输出特定的序列；

注意力机制为编码器-解码器的过程，其原理为：在Decoder阶段计算出输入序列对于当前输出的的注意力概率分布，对应唯一的语义编码信息，这种编码信息融合了输入对当前输出的注意力概率模型，可以优化当前的输出。

S4：构建Faster RCNN多层神经网络，提取图像的特征；

S5：根据提取图像的特征，勾画出广告牌的包围盒。

实施例中，电子设备为台式电脑或笔记本电脑，但不限于这两种。

步骤S2中，归一化为：将图像中的每个像素点的值范围为0-255线性转化到0-1之间，转化公式如下:

步骤S3具体为：通过注意力机制学习一幅图像要处理的部分，每次当前状态，都会根据前一个状态学习得到的要关注的位置和当前输入的图像，去处理注意力部分像素。

步骤S4中Faster RCNN多层神经网络包括四层：第一层为卷积层，用于提取图像的特征映射；第二层为RPN网络，用于提取感兴趣的区域；第三层为感兴趣区域池化层，用于收集卷积层提取图像的特征映射，以及RPN网络提取感兴趣的区域；第四层为分类器，用于根据感兴趣区域的特征映射计算感兴趣区域的类别，根据边框回归算法获得最终包围盒的最终精确位置。

步骤S4包括以下步骤：

S41：用CNN来提取图像的特征，通过多个串行的卷积层和池化层间隔排列的方式逐层学习图像数据特征，最终得到图像对应的特征映射。采用卷积操作方式利用小于图像尺寸卷积核扫描整个图像并计算卷积核与图像局部位置权重之和。每个卷积都对应一个特征映射，随后被输入到池化层进行空域上子抽样，使得CNN具有一定抗畸变能力。网络最顶层将所有得到的特征映射重新拉成一维向量并结合分类器反向传播错误信号来调整网络参数；

S44：将步骤S43中每个感兴趣区域的特征传入多层全连接分类器中，对每个感兴趣区域进行分类，根据边框回归算法获得最终包围盒的最终精确位置。

对每个感兴趣区域进行分类，分类标签为公路的感兴趣区域，设定距离阈值k，把距离公路小于K的感兴趣区域进行加分操作，而距离公路大于K的感兴趣区域进行减分操作；分类标签为广告牌的感兴趣区域，对其相邻的感兴趣区域做KNN算法，分析其周围的感兴趣区域所属类别，如果相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的Threshold，就认为该感兴趣区域为广告牌，否则，认为是背景。

本发明提供了一种基于注意力机制的交通广告牌识别方法，通过采用多层神经网络，结合注意力机制，对公路两侧附近提高识别的分数，对远离路面的部分降低识别的分数，从而提高识别的精确度，在图像分类和目标识别领域中具有广阔的应用背景。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于注意力机制的交通广告牌识别方法，应用于电子设备，其特征在于：包括以下步骤：

S4：构建Faster RCNN多层神经网络，提取图像的特征并处理；

S5：根据S4处理结果，勾画广告牌的包围盒。

2.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法，其特征在于：步骤S2所述归一化为：将图像中的每个像素点的值范围为0-255线性转化到0-1之间，转化公式如下:

3.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法，其特征在于：步骤S3具体为：通过注意力机制学习一幅图像要处理的部分，当前状态根据前一个状态学习得到的要关注的位置和当前输入的图像，去处理注意力部分像素。

4.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法，其特征在于：步骤S4所述Faster RCNN多层神经网络包括四层：第一层为卷积层，用于提取图像的特征映射；第二层为RPN网络，用于提取感兴趣的区域；第三层为感兴趣区域池化层，用于收集卷积层提取图像的特征映射，以及RPN网络提取感兴趣的区域；第四层为分类器，用于根据感兴趣区域的特征映射计算感兴趣区域的类别，根据边框回归算法获得广告牌包围盒的最终精确位置。

5.根据权利要求4所述的一种基于注意力机制的交通广告牌识别方法，其特征在于：步骤S4包括以下步骤：

6.根据权利要求5所述的一种基于注意力机制的交通广告牌识别方法，其特征在于：步骤S44中，对每个感兴趣区域进行分类，分类标签为公路的感兴趣区域，设定距离阈值k，把距离公路小于K的感兴趣区域进行加分操作，而距离公路大于K的感兴趣区域进行减分操作；分类标签为广告牌的感兴趣区域，对其相邻的感兴趣区域做KNN算法，分析其周围的感兴趣区域所属类别，若相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的Threshold，则该感兴趣区域为广告牌，否则为背景。