CN109886269A - 一种基于注意力机制的交通广告牌识别方法 - Google Patents

一种基于注意力机制的交通广告牌识别方法 Download PDF

Info

Publication number
CN109886269A
CN109886269A CN201910149659.6A CN201910149659A CN109886269A CN 109886269 A CN109886269 A CN 109886269A CN 201910149659 A CN201910149659 A CN 201910149659A CN 109886269 A CN109886269 A CN 109886269A
Authority
CN
China
Prior art keywords
image
interest
area
attention mechanism
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910149659.6A
Other languages
English (en)
Inventor
周敏
朱志超
王勇
杨健
曾元
图尔荪艾力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing China Aviation Technology Development Co Ltd
Original Assignee
Nanjing China Aviation Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing China Aviation Technology Development Co Ltd filed Critical Nanjing China Aviation Technology Development Co Ltd
Priority to CN201910149659.6A priority Critical patent/CN109886269A/zh
Publication of CN109886269A publication Critical patent/CN109886269A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的交通广告牌识别方法,应用于电子设备,包括以下步骤:输入原始图像,原始图像的尺寸以及每个像素点的灰度值范围均在0‑255之间;对原始图像进行归一化,将每张图像转为3阶张量形式:[height,width,channels];构建注意力机制,对原始图像需要处理的部分进行学习;构建Faster RCNN多层神经网络,提取图像的特征并处理;根据处理结果,勾画广告牌的包围盒。本发明通过采用多层神经网络,结合注意力机制,对公路两侧附近提高识别的分数,对远离路面的部分降低识别的分数,从而提高识别的精确度,在图像分类和目标识别领域中具有广阔的应用前景。

Description

一种基于注意力机制的交通广告牌识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于注意力机制的交通广告牌识别方法。
背景技术
视觉系统是人类感知世界的重要途径,也是人类对自身研究认识最深刻的部分,研究表明80%的外界信息时通过人类视觉系统传递给大脑。在实际生活中,人们能够非常轻松的通过视觉系统达到感知世界的目的。虽然,人类视觉系统功能非常强大,但是发展能够模拟人类视觉系统的计算机视觉仍然十分必要。当前,计算机视觉技术越来越受到学者们的关注,并且取得了丰富的成果,但是,距离像人类视觉一样感知外界信息的目标还很遥远。目标检测是计算机视觉一个重要的研究方向,某些技术已经成功应用在我们的实际生活中,例如人脸识别、行人检测等应用。随着社会逐步进入智能化和信息化时代,对场景目标进行分割识别在未来的生活中将会扮演越来越重要的角色。
目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0-255的数组,因而很难直接得到图像中某种目标这种高层语义概念,也不清楚目标出现在图像中哪个区域。
传统的目标检测一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。对于传统目标检测任务主要存在两个问题:一个是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。基于感兴趣区域的深度学习目标检测算法,能够很好的解决这两个问题,感兴趣区域是预先找出图中目标可能出现的位置,感兴趣区域利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口的情况下保持较高的召回率,这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高。
近年来,卷积神经网络(Convolutional Neural Network,CNN)作为最热门的深度神经网络之一,将人工神经网络和深度学习技术相结合,具有结构层次、特征抽取和分类结合的全局训练特征。以CNN为代表的深度学习方法,利用权值共享的技术,减少了网络中的参数,逐步克服神经网络中的计算量大等问题。将CNN运用在遥感图像的目标识别和检测中,这种深层的架构在图像分类和目标识别领域中具有广阔的应用前景。
发明内容
本发明的目的在于利用深度学习实现对公路两侧广告牌的自动识别,提供一种基于注意力机制的交通广告牌识别方法,在识别中采用深度神经网络,结合注意力机制,对公路两侧附近目标提高识别的分数,对远离路面的部分目标降低识别的分数,从而提高识别的精确度。
为实现上述技术目的,本发明采取的技术方案为:
一种基于注意力机制的交通广告牌识别方法,应用于电子设备,包括以下步骤:
S1:输入原始图像,原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间;
S2:对原始图像进行归一化,将每张图像转为3阶张量形式:[height,width,channels],其中,height为归一化后图像的高,width为归一化后图像的宽,channels为归一化后图像的通道数;
S3:构建注意力机制,对原始图像需要处理的部分进行学习;
S4:构建具有卷积神经网络特征的更快区域(Faster Regions withConvolutional Neural Network features,Faster RCNN)多层神经网络,提取图像的特征并处理;
S5:根据S4处理结果,勾画广告牌的包围盒。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤S2中,归一化为:将图像中的每个像素点的值范围为0-255线性转化到0-1之间,转化公式如下:
式中,Gray为图像中某像素点的灰度值,NonGray为该像素点在图像归一化后的灰度值。
上述的步骤S3具体为:通过注意力机制学习一幅图像要处理的部分,当前状态根据前一个状态学习得到的要关注的位置和当前输入的图像,去处理注意力部分像素。
上述的步骤S4中Faster RCNN多层神经网络包括四层:第一层为卷积层,用于提取图像的特征映射;第二层为RPN网络(区域提案网络),用于提取感兴趣的区域;第三层为感兴趣区域池化层,用于收集卷积层提取图像的特征映射,以及RPN网络提取感兴趣的区域;第四层为分类器,用于根据感兴趣区域的特征映射计算感兴趣区域的类别,根据边框回归算法获得广告牌包围盒的最终精确位置。
上述的步骤S4包括以下步骤:
S41:用CNN来提取图像的特征,通过多个串行的卷积层和池化层间隔排列的方式逐层学习图像数据特征,最终得到图像对应的特征映射;
S42:利用RPN网络提取感兴趣区域,对每个感兴趣区域通过池化层获取其在步骤S41中所对应的特征;
S43:感兴趣区域池化层收集卷积层提取图像的特征映射以及RPN网络提取感兴趣的区域;
S44:将步骤S43中每个感兴趣区域的特征传入多层全连接分类器中,对每个感兴趣区域进行分类,根据边框回归算法获得广告牌包围盒的最终精确位置。
分类标签为公路的感兴趣区域,设定距离阈值k,把距离公路小于K的感兴趣区域进行加分操作,而距离公路大于K的感兴趣区域进行减分操作;
分类标签为广告牌的感兴趣区域,对其相邻的感兴趣区域做k-近邻(k-NearestNeighbor,KNN)算法,分析其周围的感兴趣区域所属类别,若相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的门槛值(Threshold),则该感兴趣区域为广告牌,否则为背景。
本发明具有以下有益效果:
(1)本发明提出的技术方案为多层的神经网络,采用Faster RCNN,经过RCNN和Fast RCNN的积淀,Faster RCNN在结构上,已经将特征提取,感兴趣区域提取,边框回归,分类器都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显;
(2)本发明将注意力机制引入图像,通过注意力机制去学习一幅图像要处理的部分,每次当前状态,都会根据前一个状态学习得到的要关注的位置和当前输入的图像,去处理注意力部分像素,而不是图像的全部像素,这样做的好处就是更少的像素需要处理,减少了任务的复杂度;
(3)本发明通过深度CNN提取特征,泛化能力强,识别效率高;通过注意力机制过滤层的过滤,对公路两侧附近提高识别的分数,对远离路面的部分降低识别的分数,从而进一步提高了模型的识别精度。
附图说明
图1是本发明的神经网络模型图;
图2是本发明的流程框图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
如图1、图2所示,本发明的一种基于注意力机制的交通广告牌识别方法,应用于一电子设备,包括以下步骤:
S1:输入一张原始图像,原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间;
S2:由于CNN擅长处理数值较小的张量,而原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间,所以对原始图像进行归一化,将每张图像转为3阶张量形式:[height,width,channels],其中,height为归一化后图像的高,width为归一化后图像的宽,channels为归一化后图像的通道数;
S3:构建注意力机制,对原始图像需要处理的部分进行学习;
深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,是一种模拟人脑注意力的模型,其核心为Encoder-Decoder过程。
Encoder-Decoder模型是一种经典的自然语言处理模型,主要是通过Encoder模块对于输入序列进行编码得到编码后的code,然后将code输入到Decoder模块进行解码,最后输出特定的序列;
注意力机制为编码器-解码器的过程,其原理为:在Decoder阶段计算出输入序列对于当前输出的的注意力概率分布,对应唯一的语义编码信息,这种编码信息融合了输入对当前输出的注意力概率模型,可以优化当前的输出。
S4:构建Faster RCNN多层神经网络,提取图像的特征;
S5:根据提取图像的特征,勾画出广告牌的包围盒。
实施例中,电子设备为台式电脑或笔记本电脑,但不限于这两种。
步骤S2中,归一化为:将图像中的每个像素点的值范围为0-255线性转化到0-1之间,转化公式如下:
式中,Gray为图像中某像素点的灰度值,NonGray为该像素点在图像归一化后的灰度值。
步骤S3具体为:通过注意力机制学习一幅图像要处理的部分,每次当前状态,都会根据前一个状态学习得到的要关注的位置和当前输入的图像,去处理注意力部分像素。
步骤S4中Faster RCNN多层神经网络包括四层:第一层为卷积层,用于提取图像的特征映射;第二层为RPN网络,用于提取感兴趣的区域;第三层为感兴趣区域池化层,用于收集卷积层提取图像的特征映射,以及RPN网络提取感兴趣的区域;第四层为分类器,用于根据感兴趣区域的特征映射计算感兴趣区域的类别,根据边框回归算法获得最终包围盒的最终精确位置。
步骤S4包括以下步骤:
S41:用CNN来提取图像的特征,通过多个串行的卷积层和池化层间隔排列的方式逐层学习图像数据特征,最终得到图像对应的特征映射。采用卷积操作方式利用小于图像尺寸卷积核扫描整个图像并计算卷积核与图像局部位置权重之和。每个卷积都对应一个特征映射,随后被输入到池化层进行空域上子抽样,使得CNN具有一定抗畸变能力。网络最顶层将所有得到的特征映射重新拉成一维向量并结合分类器反向传播错误信号来调整网络参数;
S42:利用RPN网络提取感兴趣区域,对每个感兴趣区域通过池化层获取其在步骤S41中所对应的特征;
S43:感兴趣区域池化层收集卷积层提取图像的特征映射以及RPN网络提取感兴趣的区域;
S44:将步骤S43中每个感兴趣区域的特征传入多层全连接分类器中,对每个感兴趣区域进行分类,根据边框回归算法获得最终包围盒的最终精确位置。
对每个感兴趣区域进行分类,分类标签为公路的感兴趣区域,设定距离阈值k,把距离公路小于K的感兴趣区域进行加分操作,而距离公路大于K的感兴趣区域进行减分操作;分类标签为广告牌的感兴趣区域,对其相邻的感兴趣区域做KNN算法,分析其周围的感兴趣区域所属类别,如果相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的Threshold,就认为该感兴趣区域为广告牌,否则,认为是背景。
本发明提供了一种基于注意力机制的交通广告牌识别方法,通过采用多层神经网络,结合注意力机制,对公路两侧附近提高识别的分数,对远离路面的部分降低识别的分数,从而提高识别的精确度,在图像分类和目标识别领域中具有广阔的应用背景。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于注意力机制的交通广告牌识别方法,应用于电子设备,其特征在于:包括以下步骤:
S1:输入原始图像,原始图像的尺寸以及每个像素点的灰度值范围均在0-255之间;
S2:对原始图像进行归一化,将每张图像转为3阶张量形式:[height,width,channels],其中,height为归一化后图像的高,width为归一化后图像的宽,channels为归一化后图像的通道数;
S3:构建注意力机制,对原始图像需要处理的部分进行学习;
S4:构建Faster RCNN多层神经网络,提取图像的特征并处理;
S5:根据S4处理结果,勾画广告牌的包围盒。
2.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法,其特征在于:步骤S2所述归一化为:将图像中的每个像素点的值范围为0-255线性转化到0-1之间,转化公式如下:
式中,Gray为图像中某像素点的灰度值,NonGray为该像素点在图像归一化后的灰度值。
3.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法,其特征在于:步骤S3具体为:通过注意力机制学习一幅图像要处理的部分,当前状态根据前一个状态学习得到的要关注的位置和当前输入的图像,去处理注意力部分像素。
4.根据权利要求1所述的一种基于注意力机制的交通广告牌识别方法,其特征在于:步骤S4所述Faster RCNN多层神经网络包括四层:第一层为卷积层,用于提取图像的特征映射;第二层为RPN网络,用于提取感兴趣的区域;第三层为感兴趣区域池化层,用于收集卷积层提取图像的特征映射,以及RPN网络提取感兴趣的区域;第四层为分类器,用于根据感兴趣区域的特征映射计算感兴趣区域的类别,根据边框回归算法获得广告牌包围盒的最终精确位置。
5.根据权利要求4所述的一种基于注意力机制的交通广告牌识别方法,其特征在于:步骤S4包括以下步骤:
S41:用CNN来提取图像的特征,通过多个串行的卷积层和池化层间隔排列的方式逐层学习图像数据特征,最终得到图像对应的特征映射;
S42:利用RPN网络提取感兴趣区域,对每个感兴趣区域通过池化层获取其在步骤S41中所对应的特征;
S43:感兴趣区域池化层收集卷积层提取图像的特征映射以及RPN网络提取感兴趣的区域;
S44:将步骤S43中每个感兴趣区域的特征传入多层全连接分类器中,对每个感兴趣区域进行分类,根据边框回归算法获得广告牌包围盒的最终精确位置。
6.根据权利要求5所述的一种基于注意力机制的交通广告牌识别方法,其特征在于:步骤S44中,对每个感兴趣区域进行分类,分类标签为公路的感兴趣区域,设定距离阈值k,把距离公路小于K的感兴趣区域进行加分操作,而距离公路大于K的感兴趣区域进行减分操作;分类标签为广告牌的感兴趣区域,对其相邻的感兴趣区域做KNN算法,分析其周围的感兴趣区域所属类别,若相邻感兴趣区域的标签为广告牌的数目与相邻感兴趣区域总数相比大于设定的Threshold,则该感兴趣区域为广告牌,否则为背景。
CN201910149659.6A 2019-02-27 2019-02-27 一种基于注意力机制的交通广告牌识别方法 Pending CN109886269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910149659.6A CN109886269A (zh) 2019-02-27 2019-02-27 一种基于注意力机制的交通广告牌识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910149659.6A CN109886269A (zh) 2019-02-27 2019-02-27 一种基于注意力机制的交通广告牌识别方法

Publications (1)

Publication Number Publication Date
CN109886269A true CN109886269A (zh) 2019-06-14

Family

ID=66929825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910149659.6A Pending CN109886269A (zh) 2019-02-27 2019-02-27 一种基于注意力机制的交通广告牌识别方法

Country Status (1)

Country Link
CN (1) CN109886269A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN110472524A (zh) * 2019-07-25 2019-11-19 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN111008555A (zh) * 2019-10-21 2020-04-14 武汉大学 一种无人机图像弱小目标增强提取方法
CN111126338A (zh) * 2019-12-31 2020-05-08 大连理工大学 一种融合视觉注意力机制的智能车辆环境感知方法
CN111723660A (zh) * 2020-05-18 2020-09-29 天津大学 一种用于长形地面目标检测网络的检测方法
CN112418020A (zh) * 2020-11-09 2021-02-26 南京信息工程大学 一种基于注意力机制的YOLOv3违法广告牌智能检测方法
CN114332456A (zh) * 2022-03-16 2022-04-12 山东力聚机器人科技股份有限公司 大分辨率图像的目标检测和识别方法及装置
CN117350792A (zh) * 2023-12-06 2024-01-05 南京智慧交通信息股份有限公司 一种基于多任务学习的自适应广告投放方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
WO2018145028A1 (en) * 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
CN108492272A (zh) * 2018-03-26 2018-09-04 西安交通大学 基于注意力模型及多任务神经网络的心血管易损斑块识别方法及系统
CN109325502A (zh) * 2018-08-20 2019-02-12 杨学霖 基于视频渐进区域提取的共享单车停放检测方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
WO2018145028A1 (en) * 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
CN108492272A (zh) * 2018-03-26 2018-09-04 西安交通大学 基于注意力模型及多任务神经网络的心血管易损斑块识别方法及系统
CN109325502A (zh) * 2018-08-20 2019-02-12 杨学霖 基于视频渐进区域提取的共享单车停放检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李家兴等: "《基于卷积神经网络的交通标志检测》", 《工业控制计算机》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN110472524A (zh) * 2019-07-25 2019-11-19 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110472524B (zh) * 2019-07-25 2022-09-13 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN111008555A (zh) * 2019-10-21 2020-04-14 武汉大学 一种无人机图像弱小目标增强提取方法
CN111126338A (zh) * 2019-12-31 2020-05-08 大连理工大学 一种融合视觉注意力机制的智能车辆环境感知方法
CN111126338B (zh) * 2019-12-31 2022-09-16 大连理工大学 一种融合视觉注意力机制的智能车辆环境感知方法
CN111723660A (zh) * 2020-05-18 2020-09-29 天津大学 一种用于长形地面目标检测网络的检测方法
CN112418020A (zh) * 2020-11-09 2021-02-26 南京信息工程大学 一种基于注意力机制的YOLOv3违法广告牌智能检测方法
CN114332456A (zh) * 2022-03-16 2022-04-12 山东力聚机器人科技股份有限公司 大分辨率图像的目标检测和识别方法及装置
CN117350792A (zh) * 2023-12-06 2024-01-05 南京智慧交通信息股份有限公司 一种基于多任务学习的自适应广告投放方法及系统
CN117350792B (zh) * 2023-12-06 2024-03-08 南京智慧交通信息股份有限公司 一种基于多任务学习的自适应广告投放方法及系统

Similar Documents

Publication Publication Date Title
CN109886269A (zh) 一种基于注意力机制的交通广告牌识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
CN110119703A (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN103310466B (zh) 一种单目标跟踪方法及其实现装置
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN105574510A (zh) 一种步态识别方法及装置
CN111368846B (zh) 一种基于边界语义分割的道路积水识别方法
CN111709300B (zh) 基于视频图像的人群计数方法
CN113158943A (zh) 一种跨域红外目标检测方法
Kaluri et al. A framework for sign gesture recognition using improved genetic algorithm and adaptive filter
Nguyen et al. Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes
Lu et al. Multi-object detection method based on YOLO and ResNet hybrid networks
CN105404865A (zh) 基于概率态受限玻尔兹曼机级联的人脸检测方法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及系统
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
Yang et al. Lane detection with versatile atrousformer and local semantic guidance
Wang et al. Extraction of main urban roads from high resolution satellite images by machine learning
Gu et al. Analysis of art classroom teaching behavior based on intelligent image recognition
Zhang et al. Traffic sign detection algorithm based on YOLOv5 combined with BIFPN and attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614

RJ01 Rejection of invention patent application after publication