CN108830285A

CN108830285A - 一种基于Faster-RCNN的加强学习的目标检测方法

Info

Publication number: CN108830285A
Application number: CN201810208500.2A
Authority: CN
Inventors: 黄敏; 蒋胜; 朱启兵; 郭亚
Original assignee: Jiangnan University
Current assignee: Topronin (Beijing) Education Technology Co.,Ltd.
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-11-16
Anticipated expiration: 2038-03-14
Also published as: CN108830285B

Abstract

本发明公开了一种基于Faster‑RCNN的加强学习的目标检测方法，涉及图像处理领域，该方法包括：采集待测图像，将待测图像导入Faster‑RCNN，Faster‑RCNN中的卷积神经网络的网络结构进行了修改，将最后一个尺度的网络结构中的卷积模块替换为沙漏模块，通过卷积神经网络对待测图像进行特征提取生成特征映射图，将最后一层特征映射图导入RPN，RPN网络筛选出来的候选区域对应的特征映射图向量化后再用分类器对其进行具体的分类，得到检测结果；该方法修改了卷积神经网络的网络结构，使用沙漏模块代替深层网络中的普通的卷积模块，对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习，分层突出物体的语义信息，在一定程度上减少了漏报和误报。

Description

一种基于Faster-RCNN的加强学习的目标检测方法

技术领域

本发明涉及图像处理领域，尤其是一种基于Faster-RCNN的加强学习的目标检测方法。

背景技术

目标检测被广泛地应用于行人检测、智能辅助驾驶、智能监控、火焰烟雾检测以及智能机器人等领域，目标检测技术虽然发展迅速，但是也存在很多问题，光照、遮挡、背景混淆、尺度问题一直是目标检测的难点。

深度卷积神经网络在目标检测任务上表现非常出色，这主要归功于大样本和其复杂的形式，深度使得模型拥有了很强的非线性表达能力。通常情况下，深度卷积神经网络搭建好后之后，进行端对端的训练，虽然可以通过卷积神经网络可视化技术来观察网络训练的优劣，但是目前这只是用来判断网络是否收敛的一个依据，卷积神经网络提取的可视化的深层特征中包含丰富的语义信息，但目前并不会对这些可视化的特征做后续处理，若能对语义信息进行再学习和提炼，对于之后的图像处理任务都会有所帮助。

发明内容

本发明人针对上述问题及技术需求，提出了一种基于Faster-RCNN的加强学习的目标检测方法，该方法修改了卷积神经网络的网络结构，使用沙漏模块代替深层网络中的普通的卷积模块，对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习，分层突出物体的语义信息，在一定程度上减少了漏报和误报。

本发明的技术方案如下：

一种基于Faster-RCNN的加强学习的目标检测方法，该Faster-RCNN包括卷积神经网络、候选区域网络RPN和分类器，方法包括：

采集待测图像，将待测图像导入卷积神经网络，卷积神经网络包括M个网络层，卷积神经网络的最后一个尺度的网络结构中包括沙漏模块、其余尺度的网络结构中分别包括卷积层和采样层，M为正整数且M≥2；

按照从M个网络层的最顶层至最底层的顺序通过M个网络层依次对待测图像进行特征提取，生成待测图像的M层特征映射图；

将第M层特征映射图导入RPN，通过RPN对第M层特征映射图中的前景区域和后景区域进行前后景初步分类，并确定前景区域的坐标；

确定第M层特征映射图中与前景区域的坐标对应的特征映射块，将特征映射块使用金字塔池化的方法向量化，得到用于表征特征映射块的特征向量；

将特征向量输入分类器中进行具体分类，确定特征向量对应的类别并输出检测结果。

其进一步的技术方案为，沙漏模块依次包括下采样层、转置卷积层以及像素叠加层，下采样层用于对输入沙漏模块的张量进行N种不同尺度的下采样并分别生成N个尺度不同的特征映射图，转置卷积层用于采用不同尺度的转置卷积对N个尺度不同的特征映射图进行转置卷积，并生成与输入的张量尺度相同的N个特征映射图，像素叠加层用于对输入的张量以及与张量尺度相同的N个特征映射图进行逐像素的叠加并输出，N为正整数且N≥2。

其进一步的技术方案为，该方法还包括：

读入Faster-RCNN在ImageNet数据集上的参数，确定卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的基础网络参数为读取到的参数，确定卷积神经网络最后一个尺度的网络结构的基础网络参数为沙漏模块对应的参数；

选取训练样本集，训练样本集中包括若干个样本图像和每个样本图像中的目标框的监督信息，目标框用于对目标进行标注，监督信息包括样本图像中的目标框的位置信息和属性信息，目标框的位置信息包括目标框的横坐标和纵坐标，目标框的属性信息包括目标框的长度和宽度；

保持卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的基础网络参数，利用训练样本集对卷积神经网络最后一个尺度的网络结构的基础网络参数进行训练。

其进一步的技术方案为，该方法还包括：

选取测试样本集，测试样本集中包括若干个样本图像，将测试样本集中的各个样本图像输入Faster-RCNN中，筛选出误判的样本图像组成新的训练样本集，并对各个误判的样本图像进行监督信息的标注；

当新的训练样本集中的样本图像的数量达到预设数量时，使用新的训练样本集不断更新Faster-RCNN的参数。

其进一步的技术方案为，Faster-RCNN包括至少两个不同的Faster-RCNN，每个Faster-RCNN分别用于检测不同属性的目标，则监督信息中还包括样本属性，样本属性是整体、上半部分以及下半部分中的任意一种。

其进一步的技术方案为，通过RPN对第M层特征映射图中的前景区域和后景区域进行前后景初步分类，包括：

通过候选区域在第M层特征映射图上滑动扫描，对候选区域进行前后景初步分类，候选区域包括32²、64²、128²、256²以及512²中的至少一种，候选区域的长宽比例为1：1、1：2以及2：1中的至少一种。

其进一步的技术方案为，将待测图像导入卷积神经网络，包括：

对待测图像进行图像预处理，将待测图像的尺寸处理为预定尺寸；

将预定尺寸的待测图像导入卷积神经网络。

本发明的有益技术效果是：

1、本申请公开了一种基于Faster-RCNN的加强学习的目标检测方法，该方法修改了Faster-RCNN中的卷积神经网络的网络结构，使用沙漏模块代替深层网络中的卷积模块，对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习，分层突出物体的语义信息，在一定程度上减少了漏报和误报。

2、该方法采用在线学习的策略更新网络参数，在不断积累训练集的过程中不断地提高模型的性能，对于模型多次误判的物体进行加强学习，针对性地减少模型对这类目标的误判，提高模型性能。

3、该方法增加了RPN网络中的候选区域数量，使其更适合多尺度目标的检测，可以进一步减少漏报，提高检测精度。

4、采用各种样本属性的监督信号，多模型协调检测物体，分别对目标的整体和部分进行检测并综合输出检测结果，即使在自然场景中存在遮挡，也能很好的检测出物体，减少了漏报率。

附图说明

图1是本申请公开的目标检测方法的流程图。

图2是本申请中的沙漏模块的结构图。

图3是本申请中的候选区域的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请公开了一种基于Faster-RCNN的加强学习的目标检测方法，其中待检测的目标的尺寸不一，比如目标是行人、车辆、火焰等。本发明中的Faster-RCNN(FasterRegion-based Convolutional Neural Network，更快的基于区域的卷积神经网络)包括卷积神经网络、RPN(Region Proposal Networks，候选区域网络)和分类器，卷积神经网络可以是残差网络，卷积神经网络包括M个网络层，M为正整数且M≥2，本发明中使用的卷积神经网络的基础模型是ResNet-50，则M＝50，使用的分类器是softmax分类器。

本发明公开的方法在使用Faster-RCNN检测目标之前，需要先训练得到Faster-RCNN，因此本发明主要分为两个部分，第一部分为模型训练部分，第二部分为目标检测部分，主要流程图请参考图1。

第一部分，模型训练部分，主要包括如下几个步骤：

第一步，预先读入Faster-RCNN在ImageNet数据集上的参数，将读取到的参数作为卷积神经网络的基础网络参数的初始，将最后的输出修改为要检测的类别数+1(背景)的输出，将剩余网络结构的参数冻结，进行进一步修改，将最后一个尺度的网络结构中使用沙漏模块代替卷积模块，在本申请使用的ResNet-50中，也就是将ResNet-50中的Res4和Res5的网络结构修改为沙漏模块，其中Res4和Res5两者之间没有池化操作，尺度相同，卷积神经网络的最后一个尺度的网络结构中包括沙漏模块，其余各个尺度的网络结构中分别包括卷积层和采样层，卷积层用于对待测图像进行卷积运算生成特征映射图，采样层用于对卷积运算后生成的特征映射图进行采样，通常为下采样，具体做法为：保持其余网络的参数不变，将卷积神经网络最后一个尺度的网络结构的参数由读入的参数修改为沙漏模块对应的参数。沙漏模块结构图如图2所示，沙漏模块的输入为一个张量，沙漏模块依次包括下采样层、转置卷积层以及像素叠加层，下采样层用于对输入该沙漏模块的张量进行N种不同尺度的下采样并分别生成N个尺度不同的特征映射图，N为正整数且N≥2，图2以N＝3为例，转置卷积层用于采用不同尺度的转置卷积对N个尺度不同的特征映射图进行转置卷积，并生成与输入的张量尺度相同的N个特征映射图，像素叠加层用于对输入的张量以及与张量尺度相同的N个特征映射图进行逐像素的叠加并作为沙漏模块的输出。

本发明只在卷积神经网络最后一个尺度的网络结构做替换的原因是深度卷积神经网络在深层的特征映射图携带更多的语义信息，目的是为了分层加强特征映射图对这些语义信息的表征，从而来提高模型的整体性能，实际也不固定是最后一个尺度，只要卷积神经网络提取的二维特征有一定的语义信息(可以通过特征可视化的方法来观察)就满足这个条件，但通常采用最后一个尺度。另外，沙漏模块中包括转置卷积操作，在浅层特征(底层特征)上使用转置卷积是不合适的，而Res4和Res5是网络结构中比较深的层次，特征聚合的比较好，携带更多的语义信息，因此在Res4和Res5上进行替换。

第二步，选取训练样本集，训练样本集中包括若干个样本图像和每个样本图像中的目标框的监督信息，目标框用于对目标进行标注，监督信息包括样本图像中的目标框的位置信息和属性信息，目标框的位置信息包括目标框的横坐标和纵坐标，目标框的属性信息包括目标框的长度和宽度，监督信息可以表示为(x,y,w,h)，其中，x是目标框的横坐标，y是目标框的纵坐标，w是目标框的宽度，h是目标框的长度。

在实际对目标进行检测的过程中，由于遮挡的缘故，有些目标并不会在图像中完全呈现，只有小部分出现在图片中，如果只对目标的整体进行标注，就会产生遗漏，则样本图像中不仅包括用于标注目标的整体的目标框，还包括用于标注目标的部分的目标框，目标框的监督信息中还包括样本属性，样本属性是整体、上半部分以及下半部分中的任意一种，则用于标注目标的整体的目标框的监督信息可以表示为(x,y,w,h,whole)，用于标注目标的上半部分的目标框的监督信息可以表示为(x,y,w,h,uppart)，用于标注目标的下半部分的目标框的监督信息可以表示为(x,y,w,h,downpart)。

第三步，增加RPN网络的候选区域搜索目标框为32²、64²、128²、256²以及512²中至少一种，候选区域的长宽比例为1：1、1：2以及2：1中的至少一种，如图3所示，图中并未完全画出所有的候选区域。目前常用的候选区域的大小为128²、256²以及512²，对于尺寸较小的目标检测效果极差，因此本发明增加了32²和64²两种尺寸，在实际使用时，会同时使用上述五种大小的候选区域，且对于每种大小的候选区域，也会同时使用上述三种长宽比例，也即本发明公开的方法中总共包括15种规格的候选区域。

第四步，利用训练样本集训练得到Faster-RCNN，对于卷积神经网络的模型参数，冻结Res4之前的卷积层的参数，只训练Res4之后的参数，也即保持卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的基础网络参数，利用训练样本集对卷积神经网络最后一个尺度的修改后的网络结构进行训练，具体的模型训练方式本申请不再详细赘述。

由于训练样本集的样本图像中对目标的整体和部分都进行了标注，因此在训练模型的时候，也通常会根据包括不同样本属性的样本图像训练得到至少两个用于检测不同属性的目标的Faster-RCNN，具体为：

根据训练样本集中包括第一类目标框的样本图像训练得到第一Faster-RCNN，第一类目标框是样本属性为整体的目标框，第一Faster-RCNN用于对目标的整体进行检测；

和/或，根据训练样本集中包括第二类目标框的样本图像训练得到第二Faster-RCNN，第二类目标框是样本属性为上半部分的目标框，第二Faster-RCNN用于对目标的上半部分进行检测；

和/或，根据训练样本集中包括第三类目标框的样本图像训练得到第三Faster-RCNN，第三类目标框是样本属性为下半部分的目标框，第三Faster-RCNN用于对目标的下半部分进行检测。

根据实际情况，训练得到的Faster-RCNN包括上述第一Faster-RCNN、第二Faster-RCNN以及第三Faster-RCNN中的至少一种，通常同时包括三种，具体操作时若样本属性也可以不按照整体、上半部分和下半部分进行分类，但生成对应模型的方法类似。

第五步，本发明还利用了在线学习的方法不断更新模型参数，提高模型的性能，在通过样本图像训练Faster-RCNN之后，选取测试样本集，将测试样本集中的各个样本图像输入Faster-RCNN中进行测试并记录结果，测试样本集中包括若干个样本图像。筛选出误判的样本图像组成新的训练样本集，并对各个误判的样本图像进行监督信息的标注。当新的训练样本集中的样本图像的数量达到预设数量时，使用新的训练样本集对Faster-RCNN进行参数的微调，预设数量大于等于2。若微调后的Faster-RCNN对相似样本仍有误判，则需要加大对这类样本的着重学习，增加其在新的训练样本集中的比例，比如微调后的Faster-RCNN对目标的上半部分仍有误判，则需要增加包括第二类目标框的样本图像。

第二部分，目标检测部分，在训练得到Faster-RCNN后，可以通过该Faster-RCNN对待测图像进行目标检测，包括如下几个步骤：

第一步，采集待测图像，该待测图像为RGB图像，可以是图片或视频等形式。待测图像尺寸较大时，会增大检测的精度，但会影响检测速度也会使检测所消耗的显存略大，因此可以适当减小尺寸在检测精度和检测速度之间取一个平衡，则可选的，在将待测图像导入Faster-RCNN之前，对待测图像进行图像预处理，将待测图像的尺寸处理为预定尺寸，再将预定尺寸的待测图像导入卷积神经网络，预定尺寸是自定义的经验值，预处理后的待测图像尺寸较为一致，方便批量处理。

第二步，将待测图像导入卷积神经网络，按照从M个网络层的最顶层至最底层的顺序通过M个网络层依次对待测图像进行特征提取，生成待测图像的M层特征映射图，将第M层特征映射图导入RPN，通过RPN中的候选区域在第M层特征映射图上滑动扫描，对第M层特征映射图中的前景区域和后景区域进行前后景初步分类，并确定前景区域的坐标。确定第M层特征映射图中与前景区域的坐标对应的特征映射块，将特征映射块使用金字塔池化的方法向量化，得到用于表征特征映射块的特征向量。将特征向量输入softmax分类器中进行具体分类，计算每个类别的softmax分类器的响应值，得到的是一个待测类别数量+1维的向量，每一维对应该类的概率，第一类默认是背景，比较哪一类的概率值较大，则概率值最大的类别即为特征向量对应的类别，输出为分类器的检测结果。

需要说明的是，当通过至少两个不同的Faster-RCNN分别对待测图像中的目标的整体、上半部分和下半部分进行检测时，最终输出的检测结果是综合所有Faster-RCNN的检测结果所生成的，且以检测上半部分或下半部分的Faster-RCNN检测到的部分目标为主，以检测整体的Faster-RCNN检测到的整体部分为辅。实际目标检测过程中，各个待测图像也可以看做是测试样本集中样本图像，则每个待测图像的检测结果也会被用于更新模型参数。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于Faster-RCNN的加强学习的目标检测方法，其特征在于，所述Faster-RCNN包括卷积神经网络、候选区域网络RPN和分类器，所述方法包括：

采集待测图像，将所述待测图像导入所述卷积神经网络，所述卷积神经网络包括M个网络层，所述卷积神经网络的最后一个尺度的网络结构中包括沙漏模块、其余尺度的网络结构中分别包括卷积层和采样层，M为正整数且M≥2；

按照从所述M个网络层的最顶层至最底层的顺序通过所述M个网络层依次对所述待测图像进行特征提取，生成所述待测图像的M层特征映射图；

将第M层特征映射图导入RPN，通过所述RPN对所述第M层特征映射图中的前景区域和后景区域进行前后景初步分类，并确定所述前景区域的坐标；

确定所述第M层特征映射图中与所述前景区域的坐标对应的特征映射块，将所述特征映射块使用金字塔池化的方法向量化，得到用于表征所述特征映射块的特征向量；

将所述特征向量输入所述分类器中进行具体分类，确定所述特征向量对应的类别并输出检测结果。

2.根据权利要求1所述的方法，其特征在于，所述沙漏模块依次包括下采样层、转置卷积层以及像素叠加层，所述下采样层用于对输入所述沙漏模块的张量进行N种不同尺度的下采样并分别生成N个尺度不同的特征映射图，所述转置卷积层用于采用不同尺度的转置卷积对所述N个尺度不同的特征映射图进行转置卷积，并生成与输入的张量尺度相同的N个特征映射图，所述像素叠加层用于对输入的张量以及与所述张量尺度相同的N个特征映射图进行逐像素的叠加并输出，N为正整数且N≥2。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

读入Faster-RCNN在ImageNet数据集上的参数，确定所述卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的基础网络参数为读取到的参数，确定所述卷积神经网络最后一个尺度的网络结构的基础网络参数为所述沙漏模块对应的参数；

选取训练样本集，所述训练样本集中包括若干个样本图像和每个所述样本图像中的目标框的监督信息，所述目标框用于对目标进行标注，所述监督信息包括所述样本图像中的目标框的位置信息和属性信息，所述目标框的位置信息包括所述目标框的横坐标和纵坐标，所述目标框的属性信息包括所述目标框的长度和宽度；

保持所述卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述卷积神经网络最后一个尺度的网络结构的基础网络参数进行训练。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

选取测试样本集，所述测试样本集中包括若干个样本图像，将所述测试样本集中的各个样本图像输入Faster-RCNN中，筛选出误判的样本图像组成新的训练样本集，并对各个误判的样本图像进行监督信息的标注；

当新的训练样本集中的样本图像的数量达到预设数量时，使用所述新的训练样本集不断更新所述Faster-RCNN的参数。

5.根据权利要求1所述的方法，其特征在于，所述Faster-RCNN包括至少两个不同的Faster-RCNN，每个Faster-RCNN分别用于检测不同属性的目标，则所述监督信息中还包括样本属性，所述样本属性是整体、上半部分以及下半部分中的任意一种。

6.根据权利要求1所述的方法，其特征在于，所述通过所述RPN对所述第M层特征映射图中的前景区域和后景区域进行前后景初步分类，包括：

通过候选区域在所述第M层特征映射图上滑动扫描，对所述候选区域进行前后景初步分类，所述候选区域包括32²、64²、128²、256²以及512²中的至少一种，所述候选区域的长宽比例为1：1、1：2以及2：1中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述将所述待测图像导入所述卷积神经网络，包括：

对所述待测图像进行图像预处理，将所述待测图像的尺寸处理为预定尺寸；

将所述预定尺寸的待测图像导入所述卷积神经网络。