CN113537045A

CN113537045A - 基于改进FasterR-CNN的岩画检测方法

Info

Publication number: CN113537045A
Application number: CN202110795038.2A
Authority: CN
Inventors: 李春树; 路梦瑶; 贾大勇; 刘煜; 姜文超
Original assignee: Ningxia University
Current assignee: Ningxia University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-22
Anticipated expiration: 2041-07-14
Also published as: CN113537045B

Abstract

一种基于改进Faster R‑CNN的岩画检测方法，包括以下步骤：制作岩画数据集，采用摄影设备拍摄岩画信息，并将岩画信息按照岩画的物种对岩画进行分类保存；数据集的采集与增强；利用空间金字塔池化；建立金字塔卷积模块；设计RoI Align构造基于改进Faster R‑CNN目标检测算法，通过空间金字塔池化，提取出岩画图像的多尺度特征，金字塔卷积模块利用不同类型的核进行信息互补，将原来的RoI Pooling替换成RoI Align，构造出基于改进Faster R‑CNN目标检测算法。本发明相比于Faster R‑CNN目标检测算法实现了识别精度和检测性能的提升，改进后的算法回归的边界框将羊像更完整的包含在内，置信度由0.69增加到了0.96，改进后的算法没有产生误检，生成的边界框将羊像完整地包含且置信度高达0.99。

Description

基于改进FasterR-CNN的岩画检测方法

技术领域

本发明涉及深度学习的目标检测算法领域技术领域，具体地，涉及一种基于改进Faster R-CNN的岩画检测方法。

背景技术

贺兰山岩画是人类祖先留给后人的宝贵文化遗产，具有巨大的人文价值。贺兰山岩画大部分是使用石材工具或者金属器具凿刻在石壁上，因此前景和背景的区分度较低；因为贺兰山连绵不绝，北起石嘴山，尾抵中卫，贺兰山岩画分布在不同地方的山石之上，这里先后有很多古代少数民族在此游牧、狩猎，不同地区、不同民族、不同时期的人们对于同一事物的看法和认知不同，并且作画工具和手法也各不相同；贺兰山岩画历史悠久，并且制作在裸露的岩壁之上，长期面临着风吹雨打、盐碱侵蚀和自然灾害等破坏，导致岩画内容不完整，有残缺。传统的贺兰山岩画检测是依靠人力通过目视来完成，这就要求相关人员具有很强的专业性，并且人为的一张张检测耗时较长、效率低下。

在对贺兰山岩画进行目标检测识别之前，通过网络查阅相关资料发现，现有的公开的数据集当中，没有和贺兰山岩画相关的数据集。

为了减轻人力识别的劳动强度，为了给保护岩画争取更多的时间，为了使岩画资料更加精准的保存下来，文章将基于深度学习的目标检测算法应用于贺兰山岩画的检测中，一方面利用深度学习较强的学习能力和表征能力提高检测的准确率，另一方面利用计算机较强的运算能力解放人力并且加速检测的进程。

近些年来，随着卷积神经网络(Convolutional Neural Networks，CNN) 的不断发展以及计算机相关硬件设备计算和存储等能力的提升，深度学习有了突破性的进展，基于深度学习的目标检测算法取得了良好的效果和性能，渐渐取代了传统的目标检测算法，成为了该领域的主流算法。基于深度学习的目标检测算法主要分基于候选区域的目标检测算法(即两级目标检测器)和基于回归的目标检测算法(即单级目标检测器)。

2014年，Ross Grishick等人提出了R-CNN(Region based CNN)算法，该算法是将深度学习引用到目标检测领域的开山之作。

R-CNN算法选择性搜索和CNN对输入的待检测图像进行候选区域生成和特征提取，之后分别使用SVM分类器和回归器对目标的类别和位置进行分类和回归。在VOC2007数据集上R-CNN的平均精度均值达到了 58.5％，其检测效果大大超过了传统的目标检测算法。但是，由于R-CNN 对所有候选区域分别使用CNN进行提取特征，导致计算量大、耗时严重。此外，R-CNN中的全连接层要求输入固定维度大小，因此，对输入图像进行了裁剪和扭曲，这对检测的精度造成了一定影响。

2015年Kaiming He等人提出了SPP-Net，该网络仅对输入的整张待检测图像进行一次卷积操作，然而，在训练阶段SPP-Net的候选区域生成、特征提取、特征分类和边界框回归这些步骤是独立的，需要分别训练，导致训练繁琐、耗时久。

2015年进一步提出了Fast R-CNN。该网络将SPP层的三级池化简化为一级，称为ROI Pooling层，利用该层固定特征维度。Fast R-CNN降低了计算复杂度，同时也提高了检测精度。在VOC2007数据集上以VGG16为特征提取网络的Fast R-CNN的平均精度均值达到了70.0％。然而，无论是 SPP-Net还是Fast R-CNN，都通过SS方法生成候选区域，该方法十分耗时，导致检测速度慢，无法实现实时检测。

发明内容

有鉴于此，有必要提供一种基于改进Faster R-CNN的岩画检测方法。

一种基于改进Faster R-CNN的岩画检测方法，包括以下步骤：

步骤一，制作岩画数据集，采集岩画信息，并将岩画信息按照岩画的物种对岩画进行分类保存；

步骤二，数据集的采集与增强；

步骤三，利用空间金字塔池化；

步骤四，建立金字塔卷积模块；

步骤五，设计RoI Align构造基于改进Faster R-CNN目标检测算法，通过空间金字塔池化，提取出岩画图像的多尺度特征，金字塔卷积模块利用不同类型的核进行信息互补，将原来的RoI Pooling替换成RoI Align，构造出基于改进Faster R-CNN目标检测算法。

优选的，步骤一中，使用摄影设备寻找相关岩画信息并进行实地拍摄，并且在拍摄过程中，注意拍摄位置的光照，避免其他物体的遮挡，确保相机的准确对焦，调整拍摄距离的远近和拍摄角度，以保证图像不发生变形扭曲、图中目标完整清晰，便于后期的处理和识别，通过对岩画PDF中的图像进行提取；通过搜索引擎搜索相关图像并对其进行保存；对图像的数据进行筛除，之后对图像进行人工分类，按照物种进行分类并命名。

优选的，步骤二中，使用深度神经网络对岩画数据集进行训练，在训练阶段利用在线数据增强技术对训练集中的图像进行处理，生成等价的数据。

优选的，步骤二中具体使用的增强方法为：调整图像大小、翻转、归一化和填充。

优选的，步骤一中，岩画数据集按照VOC2007数据格式进行制作，首先，通过运行Python代码将获取到的图像全部转换为JPG格式的图像，并按照VOC2007数据集的图像命名要求进行统一批量重命名，之后创建名为 JPEGImages的文件夹，将统一命名好的JPG格式的岩画图像全部放入；其次，创建名为Annotations的文件夹，该文件夹下存放标注岩画图像生成的 XML文档，该文档包含了图像及图像中目标的相关信息，然后创建名为ImageSets的文件夹，并在该文件夹下新建Main文件夹，该文件夹下存放数据集按比例划分后的训练验证集、测试集、训练集和验证集的相关txt文档；采用LabelImg图像标注软件对岩画进行标注，用sheep、monkey_face、 sun_spirit和human_face分别表示羊像、猴面像、太阳神像和人面像，标注完后岩画图像及图中目标的信息以XML文件格式进行保存，将产生的XML 文件通过相应的代码按比例随机分配，其中训练集占整体数据集的十分之九，测试集占整体数据集的十分之一，之后再将训练验证集按照一定比例随机分配，其中训练集占训练验证集的五分之四，验证集占训练验证集的五分之一。

优选的，步骤三中，首先通过ResNet101对输入岩画图像进行处理，生成特征图，在ResNet101的卷积组的一层的输出后加入空间金字塔池化结构，对岩画图像的多尺度特征进行提取，池化操作输出大小计算公式：

式一中，W_i和H_i分别为输入的宽和高，池化核的大小记为f×f，S为步长大小，W_o和H_o分别为输出的宽和高，在上述公式中加入填充操作，并对步长的计算公式进行修正：

之后利用带有填充的池化操作输出大小计算公式：

式二中(P_W，P_h)为填充padding，size_w为空间金字塔池化核的宽度大小， size_h为空间金字塔池化核的长度大小，式三中，stride_w为步长宽度大小， stride_h为步长长度大小，式二和式三中的w、h分别为空间金字塔的宽度和长度，n为图像输出的宽度和长度，通过计算可知，加入填充操作并对步长计算公式进行修改后，所得到的输出大小可以满足期望输出大小，最大值池化是将池化核范围内数据的最大值作为输出，这有利于提取更多关键信息，核的大小设置为3、5、7三种尺度，并且为了保证输出特征图大小不变，池化操作的步长设置为1并进行填充操作，之后将池化后的特征与原始特征进行合并，从而实现了局部特征与全局特征的融合，进一步丰富了特征图中的语义信息。

优选的，步骤四中，在FPN后增加金字塔卷积模块，金字塔卷积从底部到顶部共两层，每层的输入为256，输出为128；每层使用了不同类型的卷积核，第一层卷积核的空间大小为3×3，其具有较小的感受野，可以专注于细节，捕捉小物体或物体的局部信息，第二层卷积核的空间大小为5 ×5，具有较大的感受野，可以捕获较大的物体或更可靠的上下文信息的细节；每层使用了相同深度的卷积，其组数都设置了分组数64，即输入特征图被分成64组，每组独立的应用卷积进行计算，为保证最后每层输出的特征图大小一致，步长采用相同的大小，默认设置为1，第一层和第二层填充的大小分别设置为1和2；

将原来的RoI Pooling替换成RoI Align，其将取整操作替换成双线性插值，将RoI取得的特征和原图对齐，这使得原始区域的特征被很好的保留了下来，从而改善了岩画的检测效果。

本发明的特征提取网络选取ResNet-50和ResNet101两种常用结构，在 Faster R-CNN模型上，将两种不同的特征提取网络分别融合FPN进行训练。基于两种不同特征提取网络，随着epoch的增加，整体loss值均逐渐降低并逐渐收敛趋于稳定，但是相比ResNet-50+FPN，ResNet-101+FPN网络模型收敛更为迅速，且最终loss值较低。除此之外，由特征提取网络对比实验表可得，使用ResNet50+FPN训练得到的模型的mAP为76.5％，使用 ResNet-101训练得到的模型的mAP为81.4％，并且岩画的人面类和羊类的平均精度ResNet101+FPN比ResNet-50+FPN分别高7.9％和11.9％。由此可见，101层的ResNet特征提取网络更适合岩画检测模型，其网络更深，从而提取更多目标特征，导致有良好的检测精度。

本发明设计一种基于改进Faster R-CNN的目标检测算法，相比于Faster R-CNN目标检测算法实现了识别精度和检测性能的提升，改进后的算法回归的边界框将岩画的羊像更完整的包含在内，并且置信度由0.69增加到了 0.96，改进后的算法没有产生误检，生成的边界框将羊像完整地包含且置信度高达0.99；太阳神像的置信度由0.99提升到了1.00。具有较好的可实施性。

本发明的创新点有：

(1)创新性的设计出一种基于改进Faster R-CNN的岩画检测方法相比于FasterR-CNN这一经典的目标检测算法在Faster R-CNN的基础上，基于 ResNet-101构建特征金字塔网络，充分利用不同层的优势，提升算法的精度。

(2)创新性的设计出一种基于改进Faster R-CNN的岩画检测方法，并对其检测精度做出了定性阐释。

(3)创新性制作了贺兰山岩画数据集并采用数据增强技术，使数据集中图像量达到一定数目，满足实验要求。

(4)创新性的设计出在基于特征金字塔网络的Faster R-CNN上进行改进。其增加空间金字塔池化提取物体的多尺度特征，替换RoI Pooling为RoI Align以获取物体更准确的位置信息，

本发明对基于改进Faster R-CNN的岩画检测方法进行了研究探索，利用金字塔卷积模块多样化的卷积组合对语义信息进行互补，从而提高网络的检测性能。最终实验结果表明，改进的检测方法对岩画检测的平均精度均值达到了85.3％，相比改进之前提高了3.9％，能够有效精确地检测本发明中预定义的四种岩画目标。

附图说明

图1为双线性插值过程示意图；

图2为改进算法整体结构示意图；

图3为新增空间金字塔池化模块结构示意图；

图4为新增金字塔卷积模块结构示意图。

具体实施方式

为了使本发明技术方案更容易理解，现结合附图采用具体实施例的方式，对本发明的技术方案进行清晰、完整的描述。

基于改进Faster R-CNN的贺兰山岩画检测方法，包括以下步骤：

步骤二，数据集的采集与增强；

步骤三，利用空间金字塔池化；

步骤四，建立金字塔卷积模块；

本发明提供了一种Faster R-CNN目标检测算法应用于贺兰山岩画检测方法：

Faster R-CNN算法，该算法最大的创新点在于提出了区域候选网络 (RegionProposal Network，RPN)，利用锚框(Anchor)机制将区域生成与卷积网络联系到一起，将检测速度一举提升到了17FPS(Frames Per Second)，并在VOC 2012测试集上实现了70.4％的检测结果。

首先制作一个岩画数据集包括以下步骤：

使用摄影设备到贺兰山岩画遗址公园、宁夏博物馆和宁夏图书馆寻找相关岩画信息并进行实地拍摄，并且在拍摄过程中，注意拍摄位置的光照，避免其他物体的遮挡，确保相机的准确对焦，调整拍摄距离的远近和拍摄角度，以保证图像不发生变形扭曲、图中目标完整清晰，便于后期的处理和识别；通过对《贺兰山岩画》的图像进行提取。由于获取的资料有限，制作数据集的过程中仅对《贺兰山岩画》的第一册和第二册中的岩画图像进行筛选截取；通过百度和谷歌等搜索引擎搜索相关图像并对其进行保存。通过上述三种渠道，对不清晰、不完整、难以辨识、相应类图像较少的数据进行筛除，最终共计获得571张图像，之后对其进行人工分类，主要分为4大类，分别是：羊像、人面像、太阳神像和猴面像，其中羊像123张，人面像256张，太阳神像123张，猴面像15张。

使用深度神经网络对数据集进行训练，在训练阶段利用在线数据增强技术对训练集中的图像进行处理，生成更多等价的数据，丰富训练数据的分布。具体使用的增强方法有：调整图像大小(Resize)、翻转(Flip)、归一化(Normalize)和填充(Pad)，每种方法都包含了随机因子，从而使得每个epoch训练时的数据都有所差异，尽可能的保证了训练数据的丰富性和多样性，使得最后得到的模型具有较好的泛化能力。

数据集按照VOC2007数据格式进行制作。首先，通过运行Python代码将获取到的图像全部转换为JPG格式的图像，并按照VOC2007数据集的图像命名要求进行统一批量重命名。之后创建名为JPEGImages的文件夹，将统一命名好的JPG格式的贺兰山岩画图像全部放入。其次，创建名为 Annotations的文件夹，该文件夹下存放标注贺兰山岩画图像生成的XML 文档，该文档包含了图像及图像中目标的相关信息。然后创建名为ImageSets 的文件夹，并在该文件夹下新建Main文件夹，该文件夹下存放数据集按比例划分后的训练验证集、测试集、训练集和验证集的相关txt文档。采用 LabelImg图像标注软件对贺兰山岩画进行标注，用sheep、monkey_face、 sun_spirit和human_face分别表示羊像、猴面像、太阳神像和人面像，标注完后岩画图像及图中目标的信息以XML文件格式进行保存。将产生的XML 文件通过相应的代码按比例随机分配，其中训练集占整体数据集的十分之九，测试集占整体数据集的十分之一。之后再将训练验证集按照一定比例随机分配，其中训练集占训练验证集的五分之四，验证集占训练验证集的五分之一。至此，贺兰山岩画制作完毕。

基于改进Faster R-CNN的贺兰山岩画检测方法包括以下步骤：

(1)为了让输入图像大小满足相应网络的要求，通常先使用裁剪(crop) 或者扭曲(warp)操作对图像的尺寸进行改变，然而其缺点明显，对图像进行裁剪之后，剩下的区域包含的物体不完整，导致重要的信息丢失；对图像进行扭曲处理会使得扭曲的部分发生几何形变，导致图像内容产生失真。

空间金字塔池化(Spatial Pyramid Pooling，SPP)很好的消除网络输入图像需要固定大小的约束，该方法避免了在一开始对图像进行裁剪或扭曲操作，而是在卷积层后添加了SPP层，经过该层处理后，任意大小的特征图变为固定维度的特征向量，之后将其输入到全连接层进行后续操作，进而弥补了CNN存在的局限性。该方法也进一步提高了深度网络的识别检测精度。

(2)Faster R-CNN中首先利用RoI Pooling层接收特征提取网络输出的特征图和RPN层输出的有效的RoI，其次将RoI映射到特征图的对应位置，之后将映射后的区域分为相同大小的块，块的数量与输出维度相同，最后对每一块进行最大值池化操作。一般来说，由模型回归后得到的RoI 的边界长度为浮点数，但池化后要求的特征图边界长度为整数。因此，RoI Pooling操作对数据进行两次量化：①将RoI的边界长度进行取整操作量化为整数；②将量化后的边界区域均分成k×k块，对每块的边界长度再一次进行取整操作量化为整数。事实上，经上面两次量化操作，此时的RoI与最初的RoI之间存在一定的偏差。在特征图上偏差0.1个像素，对应到原图上就是3.2个像素。

针对Faster R-CNN算法中RoI Pooling存在的问题，使用RoI Align对其进行替换，以获得物体更准确的位置信息。该方法对边界长度不再进行取整处理，而是利用双线性插值((Bilinear Interpolation)的方法对坐标为浮点数的像素点进行处理，使其保留精确的空间位置，利于RoI取得的特征能够很好的和原图对齐，从而获得更好的性能。

Faster R-CNN目标检测算法中感兴趣区域提取出的特征和最开始回归出的位置存在一定偏差，该偏差是由于RoI Pooling操作中对边界长度进行了两次取整操作导致的，对后续的检测或分割任务存在一定影响。因此，为了解决RoI Pooling对特征的粗糙量化，RoI Align为一种实力分割方法，该方法对边界长度不再进行取整处理，而是利用双线性插值((Bilinear Interpolation)的方法对坐标为浮点数的像素点进行处理，使其保留精确的空间位置，利于RoI取得的特征能够很好的和原图对齐，从而获得更好的性能。

采用双线性插值可以对图像进行较好的缩放。双线性插值是在x轴方向和y轴方向分别进行一次线性插值。如图1所示，假设已知Q₁₁(x₁，y₁)， Q₁₂(x₂，y₁)，Q₂₁(x₁，y₂)，Q₁₁(x₁，y₁)和Q₂₂(x₂，y₂)四个点的坐标值，利用双线性插值对点P(x，y)进行求值，具体步骤如下：在x轴方向进行线性插值，得到：

其中，R1＝(x，y1)。

其中R2＝(x，y2)。

在y方向进行线性插值，得到：

经过上述两个步骤，就得到了双线性插值的最终结果：

RoI Align具体的双线性插值与池化过程后，RoI Align方法最大可能的将 RoI取得的特征和原图对齐，这使得原始区域的特征被很好的保留了下来，这对后续的分类和回归提供了有利的前提。

(3)CNN的核心是卷积，其通过卷积核对图像进行视觉识别。如果卷积核的尺寸较大，会增加参数量和计算复杂度。因此，大多数的CNN使用尺寸大小相对小的卷积核，通常是3×3。然而，小尺寸的卷积核不能覆盖大的输入区域。为解决该问题，CNN可以通过较小尺寸的卷积核和下采样层反复堆叠逐渐减小输入的大小，从而增加网络的感受野。但是，这样的方法可能会出现两个问题。第一，虽然该方法理论上的感受野可以覆盖很大一部分输入或者整个输入，文献中表明实际上的感受野要比理论上的小得多。第二，在没有提取足够多上下文信息的情况下对输入进行下采样，会对网络的学习过程和识别性能有所影响。这是因为在下采样之前，由于感受野不够大，无法捕捉到场景中不同物体之间的关联，导致有用的细节信息丢失了。

金字塔卷积为了解决上述挑战，同层次包含了多尺度、多深度的卷积核从而扩大了感受野，并且通过并行不断增加尺寸大小的内核来处理输入，以获取不同层次的细节。

标准卷积所需要的参数量和浮点运算量计算公式分别为：

结构金字塔卷积对于输入特征图FM_i，Pyconv的每一层{1，2，3，…，n} 应用不同空间大小{K₁ ²，K₂ ²，K₃ ²，...，K_n ²}和不同深度为：

的卷积核，输出不同数量的特征图{FM_o1，FM_o2，FM_o3，...，FM_on}(高为H，宽为W)。因此， Pyconv的参数量和FLOPS计算公式分别为：

其中：FM_on+...+FM_o3+FM_o2+FM_o1＝FM_o

包含有n个不同类型卷积核的金字塔，其目的是在不增加计算成本和模型复杂度(参数量)的情况下，利用不同尺度的卷积核对输入进行处理。金字塔卷积从底部(Pyconv的第一层)到顶部(Pyconv的第n层)，每一层都包含了不同空间大小的卷积核。与此同时，随着空间大小的增加，卷积核的深度从第一层到第n层逐渐减小。因此，这就形成了两个相互连接但方向相反的金字塔。一个金字塔基于底部，通过不断减少卷积核的深度到达顶部；另一个金字塔基于顶部，通过不断减少卷积核的空间大小到达底部。

不同深度的卷积核使用在Pyconv的每一层，输入特征图被分成不同的组(Groups)，之后独立的为每个组使用卷积核。

为使Faster R-CNN能更好的应用于贺兰山岩画检测中，在提升准确度的同时增加可行性。本发明进行整体改进后的方法的结构如图2所示，图2 中P1至P2为特征图，C1至C2为5个不同的输出图，FPN的5个输出中，首先在C5的输出后加入空间金字塔池化结构SPP，其目的是对图像的多尺度特征进行提取，从而提高对不同尺度物体的识别精确度。在原始的金字塔中假设输入尺寸为9×13，输出尺寸为2×2，池化核大小应为5×7，步长为4×6。池化操作输出大小计算公式：

W_i和H_i分别为输入的宽和高，池化核的大小记为f×f，S为步长大小， W_o和H_o分别为输出的宽和高。按照计算出的池化核大小和步长对输入进行操作后确实得到了2×2的输出。然而，在保持输入尺寸不变的情况下，将输出尺寸调整为7×7，则根据式和式可得，池化核的大小应为2×2，步长为1×1，根据式计算可知，按照该池化核大小和步长对输入进行操作后得到的输出大小为8×12，显然与期望输出大小不符。因此，为了保证经过空间金字塔池化后的特征图和输入特征图大小一致，在此加入填充(padding) 操作，并对步长的计算公式进行修正：

之后利用带有填充的池化操作输出大小计算公式：

通过计算可知，加入填充操作并对步长计算公式进行修改后，所得到的输出大小可以满足期望输出大小。新增的空间金字塔池化的具体结构如图3所示，对C5层输出特征图进行多级最大值池化操作。最大值池化是将池化核范围内数据的最大值作为输出，这有利于提取更多关键信息，核的大小设置为3、5、7三种尺度，并且为了保证输出特征图大小不变，池化操作的步长设置为1并进行填充操作，之后将池化后的特征与原始特征进行合并，从而实现了局部特征与全局特征的融合，进一步丰富了特征图中的语义信息。

新增空间金字塔池化模块结构，在FPN后增加金字塔卷积模块，即图 2中整体结构图中Pyconv部分，其目标是在不增加额外代价的基础上利用不同类型的核进行信息的互补，从而提高网络的检测性能。新增模块的具体结构如图4所示，金字塔卷积从底部到顶部共两层，每层的输入为256，输出为128。每层使用了不同类型的卷积核，第一层卷积核的空间大小为3 ×3，其具有较小的感受野，可以专注于细节，捕捉小物体或物体的局部信息，第二层卷积核的空间大小为5×5，具有较大的感受野，可以捕获较大的物体或更可靠的上下文信息的细节。每层使用了相同深度的卷积，其组数都设置了较高的分组数64，即输入特征图被分成64组，每组独立的应用卷积进行计算。除此之外，为保证最后每层输出的特征图大小一致，步长采用相同的大小，默认设置为1，第一层和第二层填充的大小分别设置为1 和2。之后，RPN模块综合考虑贺兰山岩画中目标的信息，将锚框基准尺寸设置为8，锚框步长设置为{4²，8²，16²，32²，64²}，从而可得P2到P6 特征图对应的锚箱尺寸分别为{32²，64²，128²，256²，512²}，且每个尺寸的锚箱采取三种不同的长宽比，分别是{1∶1，1∶2，2∶1}，最终生成15种不同的锚箱，确保可以涵盖各类岩画目标。

最后，将原来的RoI Pooling替换成RoI Align，其将取整操作替换成双线性插值，最大可能的将RoI取得的特征和原图对齐，这使得原始区域的特征被很好的保留了下来，这对后续的分类和回归提供了有利的前提，从而使检测效果有所改善。

本发明的创新点有：

Claims

1.一种基于改进Faster R-CNN的岩画检测方法，其特征在于：基于改进Faster R-CNN的岩画检测方法包括以下步骤：

步骤二，数据集的采集与增强；

步骤三，利用空间金字塔池化；

步骤四，建立金字塔卷积模块；

2.如权利要求1所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤一中，使用摄影设备寻找相关岩画信息并进行实地拍摄，并且在拍摄过程中，注意拍摄位置的光照，避免其他物体的遮挡，确保相机的准确对焦，调整拍摄距离的远近和拍摄角度，通过对岩画的图像进行提取；通过搜索引擎搜索相关图像并对其进行保存；对图像的数据进行筛除，之后对图像进行人工分类，按照物种进行分类并命名。

3.如权利要求2所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤二中，使用深度神经网络对岩画数据集进行训练，在训练阶段利用在线数据增强技术对训练集中的图像进行处理，生成等价的数据。

4.如权利要求3所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤二中具体使用的增强方法为：调整图像大小、翻转、归一化和填充。

5.如权利要求4所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤一中，岩画数据集按照VOC2007数据格式进行制作，首先，通过运行Python代码将获取到的图像全部转换为JPG格式的图像，并按照VOC2007数据集的图像命名要求进行统一批量重命名，之后创建名为JPEGImages的文件夹，将统一命名好的JPG格式的岩画图像全部放入；其次，创建名为Annotations的文件夹，该文件夹下存放标注岩画图像生成的XML文档，该文档包含了图像及图像中目标的相关信息，然后创建名为ImageSets的文件夹，并在该文件夹下新建Main文件夹，该文件夹下存放数据集按比例划分后的训练验证集、测试集、训练集和验证集的相关txt文档；采用LabelImg图像标注软件对岩画进行标注，用sheep、monkey_face、sun_spirit和human_face分别表示羊像、猴面像、太阳神像和人面像，标注完后岩画图像及图中目标的信息以XML文件格式进行保存，将产生的XML文件通过相应的代码按比例随机分配，其中训练集占整体数据集的十分之九，测试集占整体数据集的十分之一，之后再将训练验证集按照一定比例随机分配，其中训练集占训练验证集的五分之四，验证集占训练验证集的五分之一。

6.如权利要求5所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤三中，首先通过ResNet101对输入岩画图像进行处理，生成特征图，在ResNet101的卷积组的一层的输出后加入空间金字塔池化结构，对岩画图像的多尺度特征进行提取，池化操作输出大小计算公式：

之后利用带有填充的池化操作输出大小计算公式：

式二中(P_W,P_h)为填充padding，size_w为空间金字塔池化核的宽度大小，size_h为空间金字塔池化核的长度大小，式三中，stride_w为步长宽度大小，stride_h为步长长度大小，式二和式三中的w、h分别为空间金字塔的宽度和长度，n为图像输出的宽度和长度，核的大小设置为3、5、7三种尺度，池化操作的步长设置为1并进行填充操作，之后将池化后的特征与原始特征进行合并。

7.如权利要求6所述的基于改进Faster R-CNN的岩画检测方法，其特征在于：步骤四中，在FPN后增加金字塔卷积模块，金字塔卷积从底部到顶部共两层，每层的输入为256，输出为128；第一层卷积核的空间大小为3×3，第二层卷积核的空间大小为5×5；每层使用了相同深度的卷积，其组数都设置了分组数64，即输入特征图被分成64组，每组独立的应用卷积进行计算，步长采用相同的大小，默认设置为1，第一层和第二层填充的大小分别设置为1和2；

将原来的RoI Pooling替换成RoI Align，其将取整操作替换成双线性插值，将RoI取得的特征和原图对齐。