CN111626200A

CN111626200A - 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法

Info

Publication number: CN111626200A
Application number: CN202010458422.9A
Authority: CN
Inventors: 李学伟; 赵子婧; 刘宏哲; 徐成
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04

Abstract

提出了一种基于Libra R‑CNN的多尺度目标检测网络。针对城市道路下的交通标志检测存在的环境复杂，目标种类多且数量不平衡的特点，对Libra R‑CNN进行改进，修改IoU‑balanced Sampling模块，使用GA‑RPN替代原有RPN，并将Balanced L1 Loss替换为Smooth L1 Loss，使训练期间产生更精确更多样化的样本，提高检测准确率，并通过实验验证了其有效性。实验是在MS COCO 2017和交通标志数据集上进行的。改进后的Libra R‑CNN的mAP提高了3个百分点，达到0.773。实验结果表明，改进后的网络相比原有的目标检测网络性能有了显著提升。

Description

一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于Libra R-CNN的多尺度目标检测网络以及基于此的交通标识检测方法，可用于对城市道路场景下的交通标识检测。

背景技术

机器视觉和深度学习现在有很多很广泛的应用，相对技术都已经比较成熟，大中尺度的目标检测已经达到了一个精度较高的水平，但是仍然还存在许多难点，复杂背景下的小目标检测问题和普遍存在于多类别标签目标中的数据不平衡问题就是两个突出难点，它们造成权重的不平衡，严重影响了检测的精度，但是在世界范围内都没有得到很好的解决，也因此成为影响人工智能现实应用的关键性问题。交通标识检测是同时具备这两个关键问题的典型现实应用，城市道路中的交通标识具有种类多，数据量不平衡，背景复杂，小目标多的特点，使得交通标示检测成为无人驾驶汽车发展的一个重大障碍，对这个问题的研究不仅对无人驾驶的发展具有重要意义，也对应用在各个领域的人工智能发展有着重大的意义。

基于深度学习的目标检测算法主要分为两大类，分别是基于回归的目标检测算法和基于分类的目标检测算法，基于回归的目标检测算法为one-stage算法，主要包括YOLO、SSD等；基于分类的目标检测算法为two-stage或multi-stage算法，主要包括Fast R-CNN，Faster R-CNN，Mask R-CNN以及Cascade R-CNN等。基于现实的各种应用需求和应用场景，又在以上目标检测算法基础上做了改进，衍生出具有针对性的方法。目前，研究人员己经创造和改进了许多基于图像的目标检测方法。分别提出了一些能够进行特征融合、数据增强或者可变锚框的策略，其中，Libra R-CNN达到了先进水平。

Libra R-CNN是由上边所提到的基础网络Faster R-CNN改进而来，它创造性的提出了从训练期间的平衡问题考虑，对训练期间平衡采样、特征的平衡提取、Loss值的平衡三方面进行了改进，具体改进如下。

对训练期间平衡采样进行改进的部分称为IoU-balanced Sampling。首先通过RPN进行采样。RPN能够产生9种形状的锚框，锚框在图像上移动生成大量的候选框。这些候选框的分布在IoU上并不是均匀分布的，对生成侯选框的随机采样，会导致背景框的数量远大于框中真实目标框的数量，背景占据了大部分，其IoU大多在0-0.05,为简单样本，随机采样时这种不平衡就会将困难样本埋没在简单样本中。而困难样本对检测能够产生更大的影响，因此考虑对IoU区间进行等分，在每个小区间内进行随机取样，则可以保证采样相对平衡。

对特征的平衡提取进行改进的部分称为Balanced Feature Pyramid(简称：bfp)。过去的特征融合方法都对相邻层关注更多，而在一定程度上忽略了非相邻层之间的关系，此处采取的方法则是将每一层的信息一起做了融合取均值再进行特征增强，考虑了每一层的信息，保证了特征的损失尽可能小。首先利用FPN将特征图进行融合。FPN是一种自上而下的特征融合方法，如附图3所示，它主要包括两个过程：左边的自下而上过程是依次提取不同尺度的特征，右边的自上而下过程是采集特征进行融合，以弥补特征提取过程中丢失的特征。水平连接是将自下而上生成的特征映射与相同的大小的采样结果合并。融合后，每个融合结果用3×3的卷积核进行卷积，消除上采样的混叠效应。但是FPN更注重相邻层的关系，对非相邻层的特征图并没有做到很好的融合，于是Balanced Feature Pyramid在FPN基础上又做了进一步处理。将FPN得到不同尺度的特征{C₂,C₃,C₄,C₅}，选定一层特征曾作为基准，通过插值和池化操作将其他层缩放到其大小，至此所有层转化成同等尺度，执行累加操作，针对总层数为L，对缩放后的每一层特征进行简单的累加，再将累加结果取均值，求出平均特征，得到平均了的一个特征C，由于直接累加的特征C存在重叠效应，因此要对它进行提炼操作，最终将提炼操作得到特征图缩放到和之前各层的相同尺寸再用于后面的对象检测(确认是否通顺)。其中将平均特征通过non-local network进行提炼。non-local能够消除噪声，捕获长范围依赖，建立图像上两个有一定距离的像素之间的联系，使用在此能够较好地建立累加取均值后的特征图不同像素之间的联系，在保证了输入输出维度相同的同时，整合了全局信息(确认是否通顺)。最后将特征融合完的特征图恢复到原本每个特征层的尺寸，再将修改尺寸后的特征图与相应尺寸的原始特征层进行累加，从而达到特征增强效果。

对Loss值的平衡进行改进的部分称为Balanced L1 Loss。Balanced L1 Loss是由Smooth L1 Loss发展而来的。Balanced L1 Loss考虑到在训练过程中，数量较少的困难样本却贡献了70％的梯度，而数量较多的简单样本却只贡献了30％的梯度，因此增加了简单样本的对损失值计算产生的梯度，使得训练过程更加平衡。

城市道路下的交通标识检测具有环境复杂，目标种类多，数据不平衡，小目标多等特点，单一方法不能有效的完成交通标识检测工作，如何更准确地定位目标，产生数量更多，性状更多样化的目标，如何提取有用的特征，如何更好地利用这些特征是我们需要解决的问题。特征融合和特征增强都有利于特征提取。在使用加深网络进行训练时，每一层都会丢失一些信息，因此使用特征融合，通过覆盖不同层的特征图来保留不同层的信息，减少信息的丢失。在特征融合过程中，会出现不同程度的信息保持不平衡。此时，需要对特征进行增强，对信息进行再积累和提炼。可变形锚框有利于提高目标定位精度。在区域标记对象时，通常采用固定大小的网格或锚框，这样容易固定区域的形状，不能适应形状。可变形锚框可以使区域形状更加多样化，适应实际需要。基于此提出了特征融合、特征增强和可变锚定框架相结合的思想，对Libra R-CNN网络进行改进，以达到能够在真实城市交通道路场景中达到更高的交通标识检测精度的目的。

发明内容

针对上述城市交通道路场景中交通标识检测现有技术所存在的问题和缺点，提出一种基于Libra R-CNN改进的多尺度目标检测网络以及基于此的交通标识检测方法，可以使得交通标识牌中数量较少的目标做到相对之前结果数据更平衡，从而测试准确率有提升；可以使得中大目标检测准确率几乎不变的情况下，小目标的检测率有所上升。

我们提出改进Libra R-CNN网络中的IoU-balanced Sampling和Balanced L1Loss两部分。

在使用IoU-balanced Sampling的过程中，仍然存在三个影响训练效果的问题：(1)由于背景提取框(负样本)数量太多，含有目标的提取框(正样本)太少，没有考虑到正负样本之间的平衡；(2)对于负样本的处理虽然提高了困难负样本的数量，但困难负样本的数量远小于简单负样本，所以困难样本与简单负片样本之间的不平衡仍然存在；(3)锚框是一个定位目标区域的盒子。真实样本形状多样，样本形状缺乏多样性和不精确性,仅有的9种固定形状的锚框无法准确定位目标。这些问题能够通过将原有的RPN替换为GA-RPN得到缓解。GA-RPN是Guided Anchoring中提出的结构，它能根据定位坐标和形状来定位锚框，节省了滑动窗口的时间，能更准确地标记形状。用导向锚定的GA-RPN来代替原来的RPN，能够产生更为多样化的锚框，不受长宽比限制，由于这些锚与位置信息相关，它们大多集中在目标周围，使得IoU值更大，正样本的数量也会显著增加，促进正负样本之间的平衡，同时困难样本的比例也会相对增加，为IoU均衡采样提供更多的困难样本，促进简单样本和困难样本之间的平衡，使用GA-RPN进行改进后，可以使IoU-balanced Sampling过程更加均衡，对最终检测结果产生增益效应，提高检测精度。

Balanced L1 Loss并不适用于此时修改了IoU-balanced Sampling的Libra R-CNN，也需要进行相应的修改。当使用GA-RPN时，不同形状的样本都围绕着真实样本产生，这大大增加了正样本的数量。简单样本数远大于困难样本数。原始的平衡处理削弱了异常样本的贡献，因此Balanced L1 Loss的对于Smooth L1 Loss进行改进的设计反而使得损失计算偏向于简单样本了。因此需要重新设计损失计算方法，从而在分类、整体定位和准确定位方面实现更加平衡的训练。此处，将Balanced L1 Loss替换为Smooth L1 Loss，就能够保证损失计算更加的合理。

一种基于Libra R-CNN改进的多尺度目标检测网络，具体技术方案如下：

步骤一，读取城市交通道路场景图片；

步骤二，通过CNN提取城市交通道路场景图片的多层特征图；此处使用的CNN网络为Resnet50,可使用任何CNN进行替换。Resnet50相对层数较少，在不损失太多精度的条件下具有更高的效率。特征提取过程将原始图片转化为RGB图片，下文将RGB图片作为特征图使用。在经过不同层的卷积神经网络时，生成了不同尺度的特征图，他们保留的特征信息不同，因此要保留多层特征图，对应不同信息。

步骤三，根据步骤二产生的特征图生成训练样本，即锚框，并且采用BalancedFeature Pyramid对步骤二产生的多尺度特征图进行特征融合，得到效果增强后的特征图组；

对步骤二产生的特征图生成训练样本，展开如下；

3.1)通过GA-RPN对步骤二产生的特征图提取样本。原始的Libra R-CNN网络中使用在全图滑动的固定尺寸的RPN结构，效率低，生成的样本形状也不够精确。因此进行改进，将此处替换为GA-RPN。它能够生成多尺度多长宽比的锚框，以真实目标为中心，进行样本提取，以距离真实目标中心的距离区分正样本(中心坐标距离近)、负样本(中心坐标距离远)，得到具有高IoU，具有多样化形状的正样本和多样化形状的负样本核心思想为：GA-RPN通过以下概率分布公式来预测锚定。当我们有图像I时，图像中的目标可以通过四个参数(x,y,w,h)获得。位置坐标(x，y)定位预测锚框的中心，宽度w和高度h描述预测锚框的形状。在不同的位置和宽度高度属性下，每个预测锚框都有不同的出现概率，可以描述为p(x，y，w，h|I)。当中心点出现在不同的位置(x，y)时，每个预测锚框的出现概率是不同的，可以描述为p(x，y，I)。当位置(x,y)确定时,不同形状预测锚框的发生概率是不同的,可以描述为p(w，h|x，y，I)。不同位置预测锚框的出现概率与同一位置不同形状预测锚框的出现概率之积等于不同位置和形状预测锚框的出现概率，得出公式如下。该公式也说明位置对宽度和高度有影响。

p(x，y，w，h|I)＝p(x，y|I)p(w，h|x，y，I)

具体操作包括位置预测和形状预测。

位置预测就是通过锚框的位置来预测中心点的坐标。在预测中心点坐标的过程中，为了保证IoU和真实目标尽可能的重合，将地面真值分为三部分，即最接近中心的正样本区域中心区域(CR)，忽略区域(IR)作为负样本，它位于比中心区域更远的区域和这两个区域以外的外部区域(OR)，此过程确保锚定尽可能集中在目标附近，从而确保整体IoU值较大。

形状预测是预测锚框的宽度和高度。这个过程为一个给定的特征图的每个位置预测最佳锚框形状，并确保这些形状和地面真实性得到尽可能高的IoU。由于宽度和高度在很大范围内变化，下面的公式用于预测宽度w和高度h，其中s是步长，σ是经验系数。这个公式可以调整的范围，使他们更稳定。

w＝σ·s·e^dw,h＝σ·s·e^dh,

3.2)通过IoU-balancedSampling对数量较多的负样本进行平衡采样。由于图片中往往背景比真实目标占据更大的面积，所以3.1中产生的负样本数量远远大于正样本，因此要通过采样，削减负样本的数量。以前使用的随机抽样是对整个抽样范围进行随机抽样，而IoU-balancedSampling是将整个抽样范围进行划分，然后对每个子区间进行随机抽样，以保证抽样分布的均衡性。实施过程如以下公式所示。将总区间k∈[0，K)采样范围划分为k个子区间，M_k即第k个子区间的样本数，N为总样本数，即第k子区间的采样结果为p_k。

采用Balanced Feature Pyramid对步骤二产生的多尺度特征图进行特征融合，具体如下：

4.1)使用FPN，生成初步融合的多尺度特征图。

4.2)选定FPN生成特征图的一层作为基准，通过插值和池化操作将其他层缩放到其大小，至此所有层转化成同等尺度；

4.3)对4.2中相同尺度的不同特征层进行累加取平均值操作。令特征图总层数为L，对缩放后的每一层特征进行累加，再将累加结果取均值，求出平均特征；得到第L层的平均特征为C_l(l∈(0，L))。

4.4)将平均特征通过non-local network进行提炼处理；为了消除累加过程中产生的噪声，捕获非相邻特征图的相关性，通过non-local network对平均特征进行提炼处理。non-local network可以建立图像上具有一定距离的两个像素之间的关系，并利用该方法较好地建立了均值累加后特征地图不同像素之间的关系，保证了相同的输入和输出维数，集成了全局信息。

4.5)将4.4处理后的特征图恢复到原本每个特征层的尺寸，再将修改尺寸后的平均特征与相应尺寸的原特征层进行累加，得到效果增强后的特征图组；

步骤五，通过特征自适应，将步骤三中的锚框对应到步骤三得到的效果增强后的特征图组中(图中记为Box Head)。步骤三的锚框仅对应于原始特征图。为了使特征图组中不同尺度的特征图能够理解锚框的形状，还需要进行特征自适应。过去，每个锚框的形状都是固定的，所以可以直接在整个特征图上使用完全卷积的分类器，此时，每个位置的锚框具有不同的宽度和高度，为适应这种情况，需要使用变形卷积，将锚框对应到特征图组的每一层特征图上。

步骤六，计算损失值。损失值包括分类损失和回归损失，因工作主要侧重于目标检测，而非分类，故将对回归损失进行描述。此处对原始Libra R-CNN进行了改进，使用SmoothL1 Loss计算回归损失值。以下为Smooth L1 Loss的计算公式，x为实际值与预测值之差。对于|x|<1的情况，计算二次幂，使其值更小。当|x|较大时，直接进行减法，这样就不会太大。平滑L1损失是一个分段函数，它可以从两个方面限制梯度增加；当样本与真实目标相差很小时，梯度值足够小；当预测盒与地面真值相差太大时，也能控制梯度值不太大。

除此之外，还需使用softmax计算分类损失。

以上为利用一张图片进行训练的过程，训练过程中，以上步骤将进行重复，直至达到规定的训练次数，生成训练后的权重。

六、有益效果

提出一种基于Libra R-CNN改进的多尺度目标检测网络，可以使得交通标识牌中数量较少的目标做到相对之前结果数据更平衡，从而测试准确率有提升；可以使得中大目标检测准确率几乎不变的情况下，小目标的检测率有所上升。

七、附图及附图说明

图1本发明的流程图

图2本发明的网络架构图(其中Guided Anchoring和Smooth L1 Loss是较原网络改进部分)

图3FPN结构图

图4本发明在晴天的检测结果

图5本发明在阴天的检测结果

图6本发明在夜间的检测结果

八、具体实施方式

重要参数设置，迭代次数设置为12，初始学习率为0.02。在第8次和第11次迭代中，学习率降低了0.1，每个GPU处理的图像数为2。在使用交通标志数据集进行的实验中，除了上述所有变化外，还将每个倍频程的比例更改为6，将初始学习率更改为0.05，以在该应用场景中获得更好的性能，此参数设置在任何场景中均可使用，无限制。

具体实施方式如附图1所示。

步骤一，输入图像。将城市交通道路场景图片读入。

步骤二，特征提取。通过ResNet50进行特征提取，将图片转换为RGB图片，图像通过卷积核卷积进行特征提取，获得合适的权重，生成多层特征图。

步骤三，对步骤二产生的特征图生成锚框。

3.1)通过Guided Anchoring进行多尺度多长宽比的锚框的提取。利用如下概率分布公式预测锚框，该公式阐明了每一个目标在不同位置和宽高属性下都有不同的出现概率，该概率等同于不同位置同一目标的概率与同一位置同一目标，不同宽高概率的乘积，也说明了位置对宽高是有影响的。

p(x,y,w,h|I)＝p(x,y|I)p(w,h|x,y,I)

通过锚框的位置预测即预测中心点坐标，形状预测即预测宽高，最后再通过特征自适应。将锚框主要集中在目标周围。

先进行中心点坐标预测。在预测中心点坐标过程中，为保证获得较大的IoU,与groundtruth尽可能大的重合，将groundtruth分为三部分，即最靠近中心的正样本区域CR，除了中心靠外一点的可忽略区域IR和作为负样本的其他区域OR，从而预测目标物体中心概率。

再进行锚框形状预测。通过如下公式，对宽高进行预测，由于宽高变化范围较大，因此利用形状预测中产生的dw和dh，通过取对数并与步长和经验因子乘积求得所需的宽高。

w＝σ·s·e^dw,h＝σ·s·e^dh

最后进行特征自适应。通过一个3*3的可变形卷积核N_T，对第i个位置的特征及宽高进行处理，进行特征转化。

f_i'＝N_T(f_i,w_i,h_i)

3.2)通过IoU-balanced Sampling对负样本进行平衡取样。

将总区间k∈[0,K)取样范围划分为k个小区间,对每个小区间进行随机取样。若总共要在M个samples中取N个samples,则取样公式如下：

步骤四，特征融合。采用Balanced Feature Pyramid进行特征融合。

4.1)利用FPN对步骤二生成的特征图组进行特征融合。

4.2)选定FPN生成特征图组的一层特征曾作为基准，通过插值和池化操作将其他层缩放到其大小，至此所有层转化成同等尺度。

4.3)对4.2的同等尺度的特征图组进行累加求平均。令4.2总层数为L，对缩放后的每一层特征进行累加，再将累加结果取均值，求出平均特征。

4.4)将平均特征通过non-local network消除噪声，再恢复到原本每个特征层的尺寸。

4.5)将修改尺寸后的平均特征与相应尺寸的原特征层进行累加，从而达到特征增强效果。

步骤五，特征自适应过程。将步骤三中的锚框对应到步骤四中的特征图中。(图中记为Box Head)

步骤六，计算损失值，本发明仅用于识别，则仅使用回归随时，如果希望扩展出分类功能则可以使用分类损失。

重复步骤一到六直到完成预设训练次数，生成训练后不同类别的权重。

进一步实验证实：

以Faster R-CNN+fpn检测精度作为基准线进行对比，分别使用Libra R-CNN，Guided Anchoring(以下简写为ga)以及将ga和Libra R-CNN部件(包括IoU balancedsampling，bfp和balanced l1loss)进行拆分组合，进行训练和测试，最终对比准确率，证明了本发明方法的有效性。

表1：所提方法得到的交通标识牌目标精确度统计(在Faster R-CNN+fpn基础上)

为确保方法的广泛适用性，该改进网络也在公共数据集进行了实验验证，实验可以显示该方法在不同的卷积网络下都能有较好的结果。

表2：为确保方法的广泛适用性，在MS COCO 2017数据集进行了实验

Claims

1.一种基于Libra R-CNN的多尺度目标检测网络，基于Libra R-CNN网络，其特征在于，改进了Libra R-CNN网络中的IoU-balanced Sampling和Balanced L1Loss两部分，其中，将IoU-balanced Sampling中原有的RPN替换为GA-RPN，将Balanced L1 Loss替换为SmoothL1 Loss。

2.一种基于Libra R-CNN的多尺度目标检测网络的交通标识检测方法，基于Libra R-CNN改进的多尺度目标检测网络，其特征在于包括以下步骤：

步骤一，读取城市交通道路场景图片；

步骤二，通过CNN提取城市交通道路场景图片的多层特征图；特征提取过程将原始图片转化为RGB图片，下文将RGB图片作为特征图使用；所述的多层特征图是指在经过不同层的卷积神经网络时生成了不同尺度的特征图，用于保留不同的特征信息；

步骤三，根据步骤二产生的特征图生成训练样本，即锚框，并且采用Balanced FeaturePyramid对步骤二产生的多尺度特征图进行特征融合，得到效果增强后的特征图组；

步骤五，通过特征自适应，使用变形卷积将步骤三中的锚框对应到特征图组的每一层特征图上；

步骤六，计算损失值，此处对原始Libra R-CNN进行了改进，故使用Smooth L1 Loss计算回归损失值；

步骤七、训练完成后，即可对待识别城市交通道路场景图片中的交通标识进行识别。

3.根据权利要求2所述的一种基于Libra R-CNN的多尺度目标检测网络的交通标识检测方法，其特征在于：步骤2中的CNN网络优选Resnet50,但可使用任何CNN进行替换。

4.根据权利要求2所述的一种基于Libra R-CNN的多尺度目标检测网络的交通标识检测方法，其特征在于：步骤三中所述的训练样本生成过程进一步如下，

3.1)通过GA-RPN对步骤二产生的某层特征图提取锚框，进一步的，以真实目标为中心进行样本提取，距离真实目标中心的距离进的锚框为正样本，远的为负样本；

3.2)通过IoU-balanced Sampling对负样本进行平衡采样，完成训练样本的构建。