CN113033482B

CN113033482B - 一种基于区域注意力的交通标志检测方法

Info

Publication number: CN113033482B
Application number: CN202110425906.8A
Authority: CN
Inventors: 李文举; 苏攀; 那馨元
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2024-01-30
Anticipated expiration: 2041-04-20
Also published as: CN113033482A

Abstract

本发明公开了一种基于区域注意力的交通标志检测方法，包括步骤1：获取ImageNet数据集和TT100K交通标志数据集，在ImageNet数据集上预先训练ResNet50深度网络；步骤2：输入TT100K训练集图片，从预训练的ResNet50网络的第10、22、40和49层获取样本特征，构成特征金字塔，在Faster R‑CNN目标检测框架下对网络进行微调；步骤3：训练数据集以图片形式输入区域注意力模块，获取注意力图；步骤4：RPN网络使用特征金字塔的信息生成候选区域；步骤5：利用区域注意力图滤除注意力区域之外的候选区域，得到最终的检测结果。

Description

一种基于区域注意力的交通标志检测方法

技术领域

本发明涉及交通标志检测领域，特别涉及一种基于区域注意力的交通标志检测方法。

背景技术

交通标志检测技术是交通标志识别系统的关键技术之一，广泛应用于自动驾驶汽车、辅助驾驶系统和交通秩序管制等领域。交通标志的检测和识别是目标检测的一个应用场景，但是交通标志的检测有其特殊性。在真实场景下，交通标志的检测过程可能会受到光照、变形、遮挡等问题，而且交通标志的检测在某些场景下属于小目标检测，目标在图片中所占面积可能不足1/1000。

目前，主流的交通标志检测方法大多采用的是基于颜色分割或者结合形状特性的方法，该方法依靠人工设计的特征检测交通标志。在实际运行环境中，这种人工设计的特征极易受到光照、天气和视点等变化的干扰，使得小目标交通标志的检测变得困难。

近年来，随着深度学习方法在目标识别、图像检索等领域取得的巨大成功，研究者开始尝试使用卷积神经网络(CNN)解决交通标志识别问题。有研究表明从预训练的CNN模型中提取的图像特征较人工设计的特征有更好的表现。以图像分类为目标训练的卷积核更倾向于抓取那些有可能成为图像分类目标的对象，这对于检测和识别是有利的。然而，从CNN中提取的高维度特征向量增加了计算复杂度，这对于需要实时运行的交通标志检测和识别是一个挑战。

发明内容

为了克服现有技术中的不足，本发明提供一种基于区域注意力的交通标志检测方法，以实现准确检测出路边的交通标志，从而减小由于预测的候选区域过多导致的识别效率低的问题。针对特定的交通标志检测任务，引入区域注意力的方法优化网络模型，提高交通标志检测的准确率，减小候选区域的数量。通过使用特征金字塔提升对小目标的检测精度，提高特征对视角和光照变化的鲁棒性，降低对小目标的漏检率。

为了达到上述发明目的，解决其技术问题所采用的技术方案如下：

一种基于区域注意力的交通标志检测方法，包括以下步骤：

步骤1：获取ImageNet数据集和TT100K交通标志数据集，在ImageNet数据集上预先训练ResNet50深度网络；

步骤2：输入TT100K训练集图片，从预训练的ResNet50网络的第10、22、40和49层获取样本特征，构成特征金字塔，在Faster R-CNN目标检测框架下对网络进行微调；

步骤3：训练数据集以图片形式输入区域注意力模块，获取注意力图；

步骤4：RPN网络使用特征金字塔的信息生成候选区域；

步骤5：利用区域注意力图滤除注意力区域之外的候选区域，得到最终的检测结果。

进一步的，在所述步骤1中，使用了迁移学习的方法，在ImageNet数据集上对ResNet50进行预训练，所述ImageNet是一个大型的图像分类数据集，包含100个目标类别，所述ResNet50是一个包含残差模块的卷积神经网络，一共有50个权重层。

进一步的，在所述步骤2中，获取在ImageNet数据集上预训练的ResNet50分类模型，将全连接层之外的卷积层作为特征提取模块，并从网络的第10、22、40和49层卷积层提取特征图，构成特征金字塔；将全连接层作为网络最终的分类模块，并另外添加一个3层的全连接层作为交通标志位置回归模块。

进一步的，在所述步骤2中，获取特征金字塔，所述特征金字塔是一个5层结构，假设输入图片大小为800×800，那么ResNet50第10、22、40和49层卷积层得到的特征图f₁、f₂、f₃和f₄大小分别为200×200、100×100、50×50、25×25，对最后一层特征图进行最大池化操作，得到一个大小为13×13的特征图f₅，构成一个5层的特征金字塔。

进一步的，在所述步骤3中，将训练图片输入区域注意力模块，获取注意力图，所述训练图片是RGB颜色空间的彩色图片X(x，y)，根据公式(1)-(9)将输入图像从RGB颜色空间转换到HSV颜色空间：

R′＝R/255 (1)

G′＝G/255 (2)

B′＝B/255 (3)

C_max＝max(R′，G′，B′) (4)

C_min＝min(R′，G′，B′) (5)

Δ＝C_max-C_min (6)

V＝C_max (9)

其中，R，G，B分别表示RGB颜色空间彩色图片的三个分量，数值范围为[0，255]，R′，G′和B′表示归一化之后三个颜色分量，数值范围为[0，1]，C_max和C_min表示图片每个空间位置的最大值和最小值，Δ表示空间位置最大值和最小值的差值，H，S，V分别表示色度、饱和度和明度，即HSV颜色空间的三个分量，从HSV中提取H分量，并将H通道的颜色信息按照数值(0～360°)划分为4个子区域(0°～90°、90°～180°、180°～270°、270°～360°)，分别表示为h₁、h₂、h₃和h₄，它们分别表示4个不同的颜色范围，然后，将H分量的所有值划分到这4个区间，得到4个掩膜m₁、m₂、m₃和m₄，最后利用掩膜提取RGB颜色空间的图像像素信息，对不属于子区间的位置填充为零，得到4个子图像p₁、p₂、p₃和p₄。

进一步的，在所述步骤3中，对于p₁、p₂、p₃和p₄子区域，使用一个两层的全卷积网络预测其4个子区域中可能存在目标的概率，并得到4张注意力图a₁、a₂、a₃和a₄，然后使用双线性插值的方法对注意力图进行缩放，分别得到和特征图同样大小的5张注意力图A₁、A₂、A₃、A₄和A₅，其中，a₄执行两次不同大小的缩放，得到A₄和A₅。

进一步的，在所述步骤4中，所述RPN网络使用特征金字塔生成候选区域，使用两个两层的全连接网络分别预测候选框的位置偏差和类别，并使其和锚框一起计算实际预测的候选框位置，为了减小计算量，使用全卷积层代替了全连接层。

进一步的，在所述步骤4中，RPN网络分别在特征图f₁、f₂、f₃、f₄和f₅上用一个3×3的网络滑动，在每一个位置预测5×3个不同大小和纵横比的候选区域的坐标偏移和类别，然后结合锚框的坐标计算出实际的候选区域位置S_di(x_tl，y_tl，x_rb，y_rb)，S_di表示特征金字塔第d层预测的第i个候选框。

进一步的，在所述步骤5中，利用区域注意力图滤除注意力区域之外的候选区域，区域注意力图包含了在各个位置存在目标的概率，首先将区域注意力图缩放到不同的尺度大小，然后对每一张区域注意力图的概率进行排序，滤除掉20％概率最小的候选区域，留下剩下的候选区域，最后，计算候选区域和目标标签的交并比(IoU)，根据IoU值进行匹配，得到最终的候选框。

进一步的，在所述步骤5中，对于得到的候选区域S_di，先将其从(x_tl，y_tl，x_rb，y_rb)转换为(x_c，y_c，h，w)的形式，x_c，y_c分别代表锚框的中心点坐标，对于注意力图，先根据其目标概率值进行排序，并保留索引值，对于每一个候选区域的中心点坐标(x_c，y_c)，若在注意力图中存在目标的概率值处于前80％，则保留下来，否则丢弃。

本发明由于采用以上技术方案，使之与现有技术相比，具有以下的优点和积极效果：

1、本发明针对真实场景下的交通标志检测任务，引入区域注意力模块优化网络模型，让网络学习到更有利于交通标志检测的特征表示，解决人工设计的特征在复杂多变的环境下无法检测到小目标交通标志的问题，提高了交通标志检测的准确率。

2、本发明通过应用特征金字塔和区域注意力图，提高对小目标交通标志的检测精度和在光照变化条件下的鲁棒性。此外，高维特征向量通过有效的信息解析，提高了交通标志检测的准确性。

3、本发明基于ResNet50网络结构进行交通标志的检测，并使用区域注意力网络减少冗余信息，提升检测结果，且对不同类型的标志均有较快的检测与识别速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图中：

图1为本发明所述交通标志检测方法的具体流程图；

图2为本发明在特征金字塔上采用多尺度目标预测的示例图；

图3为本发明区域注意力模块示意图；

图4为本发明候选框提取网络结构示意图。

具体实施方式

以下将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整的描述和讨论，显然，这里所描述的仅仅是本发明的一部分实例，并不是全部的实例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本实施例公开了一种基于区域注意力的交通标志检测方法，包括以下步骤：

步骤4：RPN网络(Region Proposal Network，区域提取网络)使用特征金字塔的信息生成候选区域；

具体的，在所述步骤1中，使用了迁移学习的方法，在ImageNet数据集上对ResNet50进行预训练，所述的ImageNet是一个包含超过150万张高分辨率图像的数据集，包含22000个目标类别，本方法根据ImageNet竞赛要求从中选取1000个类别对ResNet50模型进行预训练，然后使用迁移学习的方法，使其在新的交通标志识别数据集TT100K上快速收敛。所述ResNet50是一个包含残差模块的卷积神经网络，一共有50个权重层，其中包括49层的卷积层和1个全连接层，如表1所示。

表1

具体的，在所述步骤2中，所述TT100K数据集，是清华和腾讯联合推出的中国交通标志数据集，共10万张高分辨率街景图片，包含30000个交通标志实例，含221个交通标志类别。此外，在所述步骤2中，获取在ImageNet数据集上预训练的ResNet50分类模型，将全连接层之外的卷积层作为特征提取模块，并从网络的第10、22、40和49层卷积层提取特征图，构成特征金字塔；将全连接层作为网络最终的分类模块，并另外添加一个3层的全连接层作为交通标志位置回归模块。

进一步的，在所述步骤2中，获取特征金字塔，所述特征金字塔是一个5层结构，假设输入图片大小为800×800，那么ResNet50第10、22、40和49层卷积层得到的特征图f₁、f₂、f₃和f₄大小分别为200×200、100×100、50×50、25×25，对最后一层特征图进行最大池化操作，得到一个大小为13×13的特征图f₅，构成一个5层的特征金字塔，如图2所示。

具体的，在所述步骤3中，将训练图片输入区域注意力模块，获取注意力图，所述训练图片是RGB颜色空间的彩色图片X(x，y)，根据公式(1)-(9)将输入图像从RGB颜色空间转换到HSV颜色空间：

R′＝R/255 (1)

G′＝G/255 (2)

B′＝B/255 (3)

C_max＝max(R′，G′，B′) (4)

C_min＝min(R′，G′，B′) (5)

Δ＝C_max-C_min (6)

V＝C_max (9)

其中，R，G，B分别表示RGB颜色空间彩色图片的三个分量，数值范围为[0，255]，R′，G′和B′表示归一化之后三个颜色分量，数值范围为[0，1]，C_max和C_min表示图片每个空间位置的最大值和最小值，Δ表示空间位置最大值和最小值的差值，H，S，V分别表示色度、饱和度和明度，即HSV颜色空间的三个分量，从HSV中提取H分量，并将H通道的颜色信息按照数值(0～360°)划分为4个子区域(0°～90°、90°～180°、180°～270°、270°～360°)，分别表示为h₁、h₂、h₃和h₄，它们分别表示4个不同的颜色范围，然后，将H分量的所有值划分到这4个区间，得到4个掩膜m₁、m₂、m₃和m₄，最后利用掩膜提取RGB颜色空间的图像像素信息，对不属于子区间的位置填充为零，得到4个子图像p₁、p₂、p₃和p₄，如图3所示。

具体的，在所述步骤4中，所述RPN网络与Faster R-CNN中基本一致，区别在于在本方法中使用的锚框(anchor)更小，数量更多，分别为(16，32，64，128，256)，并在特征金字塔的不同层，分别预测不同大小的交通标志目标，而且本方法中引入了注意力信息去过滤不存在交通标志的位置的候选框。

进一步的，在所述步骤4中，所述RPN网络使用特征金字塔生成候选区域，使用两个两层的全连接网络分别预测候选框的位置偏差和类别，并使其和锚框一起计算实际预测的候选框位置，在实现过程中，为了减小计算量，使用全卷积层代替了全连接层，如图4所示。

进一步的，在所述步骤4中，RPN网络分别在特征图f₁、f₂、f₃、f₄和f₅上用一个3×3的网络滑动，在每一个位置预测5×3个不同大小和纵横比的候选区域的坐标偏移和类别(目标或者背景)，然后结合锚框的坐标计算出实际的候选区域位置S_di(x_tl，y_tl，x_rb，y_rb)，S_di表示特征金字塔第d层预测的第i个候选框。

具体的，在所述步骤5中，利用区域注意力图滤除注意力区域之外的候选区域，区域注意力图包含了在各个位置存在目标的概率，首先将区域注意力图缩放到不同的尺度大小，然后对每一张区域注意力图的概率进行排序，滤除掉20％概率最小的候选区域，留下剩下的候选区域，最后，计算候选区域和目标标签的交并比(IoU)，根据IoU值进行匹配，得到最终的候选框。本发明为验证交通标志检测的有效性，从TT100K数据集中选取了2404张高分辨率图像进行测试，训练集和测试集彼此不交叉。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于区域注意力的交通标志检测方法，其特征在于，包括以下步骤：

在所述步骤2中，获取在ImageNet数据集上预训练的ResNet50分类模型，将全连接层之外的卷积层作为特征提取模块，并从网络的第10、22、40和49层卷积层提取特征图，构成特征金字塔；将全连接层作为网络最终的分类模块，并另外添加一个3层的全连接层作为交通标志位置回归模块；

在所述步骤2中，获取特征金字塔，所述特征金字塔是一个5层结构，假设输入图片大小为800×800，那么ResNet50第10、22、40和49层卷积层得到的特征图f₁、f₂、f₃和f₄大小分别为200×200、100×100、50×50、25×25，对最后一层特征图进行最大池化操作，得到一个大小为13×13的特征图f₅，构成一个5层的特征金字塔；

在所述步骤3中，将训练图片输入区域注意力模块，获取注意力图，所述训练图片是RGB颜色空间的彩色图片X(x，y)，根据公式(1)-(9)将输入图像从RGB颜色空间转换到HSV颜色空间：

R′＝R/255 (1)

G′＝G/255 (2)

B′＝B/255 (3)

C_max＝max(R′，G′，B′) (4)

C_min＝min(R′，G′，B′) (5)

Δ＝C_max-C_min (6)

V＝C_max (9)

其中，R，G，B分别表示RGB颜色空间彩色图片的三个分量，数值范围为[0，255]，R′，G′和B′表示归一化之后三个颜色分量，数值范围为[0，1]，C_max和C_min表示图片每个空间位置的最大值和最小值，Δ表示空间位置最大值和最小值的差值，H，S，V分别表示色度、饱和度和明度，即HSV颜色空间的三个分量，从HSV中提取H分量，并将H通道的颜色信息按照数值0～360°划分为4个子区域0°～90°、90°～180°、180°～270°、270°～360°，分别表示为h₁、h₂、h₃和h₄，它们分别表示4个不同的颜色范围，然后，将H分量的所有值划分到这4个区间，得到4个掩膜m₁、m₂、m₃和m₄，最后利用掩膜提取RGB颜色空间的图像像素信息，对不属于子区间的位置填充为零，得到4个子图像p₁、p₂、p₃和p₄；

在所述步骤3中，对于p₁、p₂、p₃和p₄子区域，使用一个两层的全卷积网络预测其4个子区域中可能存在目标的概率，并得到4张注意力图a₁、a₂、a₃和a₄，然后使用双线性插值的方法对注意力图进行缩放，分别得到和特征图同样大小的5张注意力图A₁、A₂、A₃、A₄和A₅，其中，a₄执行两次不同大小的缩放，得到A₄和A₅；

步骤4：RPN网络使用特征金字塔的信息生成候选区域；

在所述步骤4中，所述RPN网络使用特征金字塔生成候选区域，使用两个两层的全连接网络分别预测候选框的位置偏差和类别，并使其和锚框一起计算实际预测的候选框位置，为了减小计算量，使用全卷积层代替了全连接层；

在所述步骤4中，RPN网络分别在特征图f₁、f₂、f₃、f₄和f₅上用一个3×3的网络滑动，在每一个位置预测5×3个不同大小和纵横比的候选区域的坐标偏移和类别，然后结合锚框的坐标计算出实际的候选区域位置S_di(x_tl,y_tl,x_rb,y_rb)，S_di表示特征金字塔第d层预测的第i个候选框；

步骤5：利用区域注意力图滤除注意力区域之外的候选区域，得到最终的检测结果；

在所述步骤5中，利用区域注意力图滤除注意力区域之外的候选区域，区域注意力图包含了在各个位置存在目标的概率，首先将区域注意力图缩放到不同的尺度大小，然后对每一张区域注意力图的概率进行排序，滤除掉20％概率最小的候选区域，留下剩下的候选区域，最后，计算候选区域和目标标签的交并比IoU，根据IoU值进行匹配，得到最终的候选框；

在所述步骤5中，对于得到的候选区域S_di，先将其从(x_tl,y_ti,x_rb,y_rb)转换为(x_c，y_c，h，w)的形式，x_c，y_c分别代表锚框的中心点坐标，对于注意力图，先根据其目标概率值进行排序，并保留索引值，对于每一个候选区域的中心点坐标(x_c，y_c)，若在注意力图中存在目标的概率值处于前80％，则保留下来，否则丢弃。

2.根据权利要求1所述的一种基于区域注意力的交通标志检测方法，其特征在于，在所述步骤1中，使用了迁移学习的方法，在ImageNet数据集上对ResNet50进行预训练，所述ImageNet是一个大型的图像分类数据集，包含100个目标类别，所述ResNet50是一个包含残差模块的卷积神经网络，一共有50个权重层。