CN113327239A

CN113327239A - 一种增强注意力区域生成网络的小样本目标检测方法

Info

Publication number: CN113327239A
Application number: CN202110651171.0A
Authority: CN
Inventors: 刘丽颖; 张笑钦; 徐曰旺; 黄自玮
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-31

Abstract

本发明公开了一种增强注意力区域生成网络的小样本目标检测方法，包括：获取与检测目标相关的数据信息；对获取的数据信息进行预处理；搭建RetinaNet网络，并将经过预处理的数据输入到搭建好的RetinaNet网络进行训练；将待检测图像或视频输入至训练好的RetinaNet网络进行检测，本发明通过对获取的数据信息进行预处理，并将预处理后的数据输入至搭建好的RetinaNet网络进行训练获取RetinaNet网络模型，再将待检测图像或视频输入至训练好的RetinaNet网络进行检测，可提高小样本目标的检测精度与准确度。

Description

一种增强注意力区域生成网络的小样本目标检测方法

技术领域

本发明涉及目标检测领域，尤其涉及一种增强注意力区域生成网络的小样本目标检测方法。

背景技术

随着科学技术的发展，小样本目标检测成为保护人身、财产等安全的重要措施，例如，小型无人机非法在机场附近进行“黑飞”、“滥飞”会对飞机的升降、或者飞行训练等造成影响，从而对飞机飞行构成重大安全威胁，于是，对机场小型无人机进行检测尤为必要；此外，随着小型化水下武器装备迅速发展，恐怖主义分子采用此类隐蔽性好、破坏力强的水下武器进行攻击，于是，水下小目标的检测也成为必要趋势。

因此，提供一种新的技术方案改善上述问题，是本领域技术人员急需解决的问题。

发明内容

有鉴于此，本发明提供一种增强注意力区域生成网络的小样本目标检测方法，以解决上述技术问题。

一种增强注意力区域生成网络的小样本目标检测方法，其特征在于，包括获取与检测目标相关的数据信息；对获取的数据信息进行预处理；搭建RetinaNet网络，并将经过预处理的数据输入到搭建好的RetinaNet网络进行训练；将待检测图像或视频输入至训练好的RetinaNet网络进行检测。

在上述的方案中，所述与检测目标相关的数据信息包括图像数据和视频数据，所述与检测目标相关的数据信息的获取方法包括网络爬虫和摄像机采集，所述网络爬虫通过Bing、Baidu和Google图片库搜索与检测目标相关的关键词爬取数据并保存至控制器中，所述控制器用于对接收到的数据信息进行存储和处理，并根据处理结果发送控制信号至相应模块；所述摄像机采集通过摄像机模块获取数据信息，所述摄像机模块包括云台摄像机、驱动电机、红外传感器、亮度传感器和补光灯，所述云台摄像机用于采集图像与视频信息，所述驱动电机与所述云台摄像机相连接，所述驱动电机用于驱动所述云台摄像机进行转动，所述红外传感器、所述亮度传感器和所述补光灯均安装在所述云台摄像机的云台上，所述红外传感器用于检测拍摄目标是否存在以及拍摄目标的距离信息，所述亮度传感器用于采集环境亮度信息，所述补光灯用于对所述云台摄像机进行拍摄补光。

在上述的方案中，所述控制器包括云台解码单元和比较单元，所述云台解码单元用于根据目标的信息发送转动控制信号至所述驱动电机驱动所述云台摄像机的转动，所述比较单元用于对所述红外传感器采集的距离数据与距离预设值和所述亮度传感器采集的亮度数据与亮度预设值进行比较，并根据距离比较结果控制所述云台摄像机的光圈以及焦距的调整，根据亮度比较结果控制所述补光灯的开启与关闭。

在上述的方案中，所述对获取的数据信息进行预处理包括：进行数据筛选；对经过数据筛选后的数据进行数据清洗；对经过数据清洗处理后的数据进行数据标注；对经过数据标注处理后的数据进行数据增强。

在上述的方案中，所述数据筛选包括通过图像数据筛选单元筛选图像数据和通过视频数据筛选单元筛选视频数据，所述图像数据筛选单元用于将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的图像筛选出来，所述视频数据筛选单元用于通过OpenCV库将视频数据按帧分割，并将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的每帧图像筛选出来。

在上述的方案中，所述数据清洗通过对经过数据筛选处理的图像中重复的图像进行清除，所述数据清洗包括以下步骤：对经过数据筛选处理的图像进行灰度化处理；通过双三次差值法将经过灰度化处理后的灰度图像调整为固定的大小的灰度图像；通过感知哈希算法对经过双三次差值法处理后的灰度图像进行处理，生成能代表图像内容的感知哈希序列；比较不同图像的感知哈希序列，将感知哈希序列相似度大于感知哈希序列相似度预设值的两个图像删除其中一个。

在上述的方案中，所述数据标注通过将经过数据清洗处理后的图像输入至基于注意力机制的图像标注模型进行处理，所述基于注意力机制的图像标注模型通过以下步骤获取：通过包含ResNet101网络结构的编码器提取待训练图像的图像特征；通过将待训练图像的图像特征输入至解码器来生成待训练图像的每个像素的注意力权重，所述解码器包括基于注意力机制的LSTM网络和能生成指针的神经网络；将注意力权重与待训练图像的图像特征加权求得到局部视觉特征并作为所述解码器下一时刻输入直至解码结束。

在上述的方案中，所述数据增强包括以下步骤：对经过数据标注的图像进行色彩变换处理；对经过数据标注的图像进行水平翻转处理；对经过数据标注的图像像进行旋转处理；通过亮度增强技术对经过数据标注的图像进行亮度增强处理；对经过数据标注的图像像进行缩放处理；对经过数据标注的图像像进行裁剪处理；在经过数据标注的图像中引入椒盐噪声和高斯噪声。

在上述的方案中，所述搭建RetinaNet网络包括以下步骤：将ResNet作为特征提取网络对经过预处理的图像进行卷积操作提取特征，并将第三卷积层conv3输出的特征图标记为C3、将第四卷积层conv4输出的特征图标记为C4、将第五卷积层conv5输出的特征图标记为C5；在ResNet架构上通过FPN网络生成多尺度卷积特征金字塔；在所述多尺度卷积特征金字塔的各层特征图上对于每个锚点生成尺度和长宽比固定的多个候选框；将多尺度卷积特征金字塔的每层特征图的候选框输入到分类子网络，所述分类子网络对所述多尺度卷积特征金字塔的每层特征图的候选框中所有目标类别的置信度进行预测；将多尺度卷积特征金字塔的每层特征图的候选框输入到边框回归子网络，所述边框回归子网络络根据候选框中是否包含目标通过Focal Loss函数对候选框和真值框之间的偏移量进行计算，并对候选框与真实标注框的误差进行纠正。

在上述的方案中，所述将经过预处理的数据输入到搭建好的RetinaNet网络进行训练包括以下步骤：对RetinaNet网络模型进行初始化与参数配置；将经过预处理的数据输入到经过初始化与参数配置的RetinaNet网络模型中进行训练。

综上所述，本发明的有益效果是：通过对获取的数据信息进行预处理，并将预处理后的数据输入至搭建好的RetinaNet网络进行训练获取RetinaNet网络模型，再将待检测图像或视频输入至训练好的RetinaNet网络进行检测，可提高小样本目标的检测精度与准确度。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明强注意力区域生成网络的小样本目标检测方法的步骤图。

图2为摄像机模块的组成示意图。

图3为预处理数据信息的步骤图。

图4为数据清洗的步骤图。

图5为数据增强的步骤图。

图6为搭建RetinaNet网络的步骤图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

如图1所示，本发明的一种增强注意力区域生成网络的小样本目标检测方法，包括以下步骤：

步骤S1：获取与检测目标相关的数据信息；

步骤S2：对获取的数据信息进行预处理；

步骤S3：搭建RetinaNet网络，并将经过预处理的数据输入到搭建好的RetinaNet网络进行训练；

步骤S4：将待检测图像或视频输入至训练好的RetinaNet网络进行检测。

进一步地，所述与检测目标相关的数据信息包括图像数据和视频数据，所述与检测目标相关的数据信息的获取方法包括网络爬虫和摄像机采集，所述网络爬虫通过Bing、Baidu和Google图片库搜索与检测目标相关的关键词爬取数据并保存至控制器中，所述控制器用于对接收到的数据信息进行存储和处理，并根据处理结果发送控制信号至相应模块。

如图2所示，所述摄像机采集通过摄像机模块获取数据信息，所述摄像机模块包括云台摄像机、驱动电机、红外传感器、亮度传感器和补光灯，所述云台摄像机用于采集图像与视频信息，所述驱动电机与所述云台摄像机相连接，所述驱动电机用于驱动所述云台摄像机进行转动，所述红外传感器、所述亮度传感器和所述补光灯均安装在所述云台摄像机的云台上，所述红外传感器用于检测拍摄目标是否存在以及拍摄目标的距离信息，所述亮度传感器用于采集环境亮度信息，所述补光灯用于对所述云台摄像机进行拍摄补光。

进一步地，所述控制器包括云台解码单元和比较单元，所述云台解码单元用于根据目标的信息发送转动控制信号至所述驱动电机驱动所述云台摄像机的转动，所述比较单元用于对所述红外传感器采集的距离数据与距离预设值和所述亮度传感器采集的亮度数据与亮度预设值进行比较，并根据距离比较结果控制所述云台摄像机的光圈以及焦距的调整，根据亮度比较结果控制所述补光灯的开启与关闭。

如图3所示，所述对获取的数据信息进行预处理包括以下步骤：

步骤S201：进行数据筛选；

步骤S202：对经过数据筛选后的数据进行数据清洗；

步骤S203：对经过数据清洗处理后的数据进行数据标注；

步骤S204：对经过数据标注处理后的数据进行数据增强。

进一步地，所述数据筛选包括通过图像数据筛选单元筛选图像数据和通过视频数据筛选单元筛选视频数据，所述图像数据筛选单元用于将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的图像筛选出来，所述视频数据筛选单元用于通过OpenCV库将视频数据按帧分割，并将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的每帧图像筛选出来。

如图4所示，所述数据清洗通过对经过数据筛选处理的图像中重复的图像进行清除，所述数据清洗包括以下步骤：

步骤S221：对经过数据筛选处理的图像进行灰度化处理；

步骤S222：通过双三次差值法将经过灰度化处理后的灰度图像调整为固定的大小的灰度图像；

步骤S223：通过感知哈希算法对经过双三次差值法处理后的灰度图像进行处理，生成能代表图像内容的感知哈希序列；

步骤S224：比较不同图像的感知哈希序列，将感知哈希序列相似度大于感知哈希序列相似度预设值的两个图像删除其中一个。

进一步地，所述数据标注通过将经过数据清洗处理后的图像输入至基于注意力机制的图像标注模型进行处理，所述基于注意力机制的图像标注模型通过以下步骤获取：通过包含ResNet101网络结构的编码器提取待训练图像的图像特征；通过将待训练图像的图像特征输入至解码器来生成待训练图像的每个像素的注意力权重，所述解码器包括基于注意力机制的LSTM网络和能生成指针的神经网络；将注意力权重与待训练图像的图像特征加权求得到局部视觉特征并作为所述解码器下一时刻输入直至解码结束。

在本实施例中，在解码过程中，使用Dropout技术进行正则化，Dropout技术将训练网络的部分神经元随机的设置为0，使其失效，然后再将其输入下一层，将Dropout的概率设置在一定数值时，能够很好的提高模型的泛化能力。

如图5所示，所述数据增强包括以下步骤：

步骤S241：对经过数据标注的图像进行色彩变换处理；

步骤S242：对经过数据标注的图像进行水平翻转处理；

步骤S243：对经过数据标注的图像像进行旋转处理；

步骤S244：通过亮度增强技术对经过数据标注的图像进行亮度增强处理；

步骤S245：对经过数据标注的图像像进行缩放处理；

步骤S246：对经过数据标注的图像像进行裁剪处理；

步骤S247：在经过数据标注的图像中引入椒盐噪声和高斯噪声。

在本实施例中，通过色彩变换操作，改变图像中目标的颜色，可达到有效扩充样本集的效果；水平翻转不会大幅度地改变检测目标的整体结构，可以保证生成的新图像样本具备有效性；通过适当的旋转可使目标处于水平或者竖直位置，便于精准定位到标注位置，通过旋转操作，新生成的图像会存在黑边，如果想去掉黑边，可以进一步对生成的新图像进行适当裁剪；拍照时，不仅受物体运动的影响，也会受到天色明暗影响，有的时候在拍照时光线较暗，导致对亮度的鲁棒性很差，因此使用亮度增强技术尤为重要；为了提高目标的检测精度，需要对已有图像进行缩放处理，比如将大尺度的图像缩小，缩放是将图像的短边或长边固定到某个值，然后长边或短边根据一定的比例进行放大或者缩小；通过裁剪处理可以更好地学习目标物只被拍摄到某一部分或者被其他物体遮挡的目标，并扩充原始的数据集；通过引入椒盐噪声和高斯噪声能够改善对模糊图像的检测效果，使得训练模型的鲁棒性更好，其中，椒盐噪声又名脉冲噪声，它是一种随机出现的白点或黑点，可以较好拟合生活中雨天拍照情景，高斯噪声是指概率密度函数服从高斯分布的噪声。

如图6所示，所述搭建RetinaNet网络包括以下步骤：

步骤S301：将ResNet作为特征提取网络对经过预处理的图像进行卷积操作提取特征，并将第三卷积层conv3输出的特征图标记为C3、将第四卷积层conv4输出的特征图标记为C4、将第五卷积层conv5输出的特征图标记为C5；

步骤S302：在ResNet架构上通过FPN网络生成多尺度卷积特征金字塔；

步骤S303：在所述多尺度卷积特征金字塔的各层特征图上对于每个锚点生成尺度和长宽比固定的多个候选框；

步骤S304：将多尺度卷积特征金字塔的每层特征图的候选框输入到分类子网络，所述分类子网络对所述多尺度卷积特征金字塔的每层特征图的候选框中所有目标类别的置信度进行预测；

步骤S305：将多尺度卷积特征金字塔的每层特征图的候选框输入到边框回归子网络，所述边框回归子网络络根据候选框中是否包含目标通过Focal Loss函数对候选框和真值框之间的偏移量进行计算，并对候选框与真实标注框的误差进行纠正。

在本实施例中，所述多尺度卷积特征金字塔包括5层特征映射{P3，P4，…，P7}，其中P3-P5是通过所述FPN网络中的自顶向下和横向连接对所述ResNet输出的C3-C5进行计算得到的，P6是在C5上进行卷积核为3*3、步长为2的卷积运算得到的，P7是通过在P6上应用Relu函数以及积核为3*3、步长为2的卷积运算得到的，采用多尺度卷积特征金字塔可增加检测效果的鲁棒性

进一步地，所述将经过预处理的数据输入到搭建好的RetinaNet网络进行训练包括以下步骤：对RetinaNet网络模型进行初始化与参数配置；将经过预处理的数据输入到经过初始化与参数配置的RetinaNet网络模型中进行训练。

在本实施例中，在参数配置过程中，以SGD为优化器，分别设置训练迭代次数、训练批次、ResNet网络层数和FocalLoss函数的相关参数等；RetinaNet网络模型的训练包含以下参数：分类损失、回归损失和两者之和的总损失，并通过包含软加权的交叉熵损失函数作为损失函数进行训练，采用包含软加权的交叉熵损失函数作为损失函数与交叉熵函数相比，所有的样本都参与了训练，可充分利用所有的样本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强注意力区域生成网络的小样本目标检测方法，其特征在于，包括：

获取与检测目标相关的数据信息；

对获取的数据信息进行预处理；

搭建RetinaNet网络，并将经过预处理的数据输入到搭建好的RetinaNet网络进行训练；

将待检测图像或视频输入至训练好的RetinaNet网络进行检测。

2.根据权利要求1所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述与检测目标相关的数据信息包括图像数据和视频数据，所述与检测目标相关的数据信息的获取方法包括网络爬虫和摄像机采集，所述网络爬虫通过Bing、Baidu和Google图片库搜索与检测目标相关的关键词爬取数据并保存至控制器中，所述控制器用于对接收到的数据信息进行存储和处理，并根据处理结果发送控制信号至相应模块；所述摄像机采集通过摄像机模块获取数据信息，所述摄像机模块包括云台摄像机、驱动电机、红外传感器、亮度传感器和补光灯，所述云台摄像机用于采集图像与视频信息，所述驱动电机与所述云台摄像机相连接，所述驱动电机用于驱动所述云台摄像机进行转动，所述红外传感器、所述亮度传感器和所述补光灯均安装在所述云台摄像机的云台上，所述红外传感器用于检测拍摄目标是否存在以及拍摄目标的距离信息，所述亮度传感器用于采集环境亮度信息，所述补光灯用于对所述云台摄像机进行拍摄补光。

3.根据权利要求2所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述控制器包括云台解码单元和比较单元，所述云台解码单元用于根据目标的信息发送转动控制信号至所述驱动电机驱动所述云台摄像机的转动，所述比较单元用于对所述红外传感器采集的距离数据与距离预设值和所述亮度传感器采集的亮度数据与亮度预设值进行比较，并根据距离比较结果控制所述云台摄像机的光圈以及焦距的调整，根据亮度比较结果控制所述补光灯的开启与关闭。

4.根据权利要求1所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述对获取的数据信息进行预处理包括：进行数据筛选；对经过数据筛选后的数据进行数据清洗；对经过数据清洗处理后的数据进行数据标注；对经过数据标注处理后的数据进行数据增强。

5.根据权利要求4所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述数据筛选包括通过图像数据筛选单元筛选图像数据和通过视频数据筛选单元筛选视频数据，所述图像数据筛选单元用于将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的图像筛选出来，所述视频数据筛选单元用于通过OpenCV库将视频数据按帧分割，并将图像内容为检测目标数据、拍摄目标占比在占比预范围内、图像像素在像素范围内的每帧图像筛选出来。

6.根据权利要求4所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述数据清洗通过对经过数据筛选处理的图像中重复的图像进行清除，所述数据清洗包括以下步骤：对经过数据筛选处理的图像进行灰度化处理；通过双三次差值法将经过灰度化处理后的灰度图像调整为固定的大小的灰度图像；通过感知哈希算法对经过双三次差值法处理后的灰度图像进行处理，生成能代表图像内容的感知哈希序列；比较不同图像的感知哈希序列，将感知哈希序列相似度大于感知哈希序列相似度预设值的两个图像删除其中一个。

7.根据权利要求4所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述数据标注通过将经过数据清洗处理后的图像输入至基于注意力机制的图像标注模型进行处理，所述基于注意力机制的图像标注模型通过以下步骤获取：通过包含ResNet101网络结构的编码器提取待训练图像的图像特征；通过将待训练图像的图像特征输入至解码器来生成待训练图像的每个像素的注意力权重，所述解码器包括基于注意力机制的LSTM网络和能生成指针的神经网络；将注意力权重与待训练图像的图像特征加权求得到局部视觉特征并作为所述解码器下一时刻输入直至解码结束。

8.根据权利要求4所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述数据增强包括以下步骤：对经过数据标注的图像进行色彩变换处理；对经过数据标注的图像进行水平翻转处理；对经过数据标注的图像像进行旋转处理；通过亮度增强技术对经过数据标注的图像进行亮度增强处理；对经过数据标注的图像像进行缩放处理；对经过数据标注的图像像进行裁剪处理；在经过数据标注的图像中引入椒盐噪声和高斯噪声。

9.根据权利要求1所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述搭建RetinaNet网络包括以下步骤：将ResNet作为特征提取网络对经过预处理的图像进行卷积操作提取特征，并将第三卷积层conv3输出的特征图标记为C3、将第四卷积层conv4输出的特征图标记为C4、将第五卷积层conv5输出的特征图标记为C5；在ResNet架构上通过FPN网络生成多尺度卷积特征金字塔；在所述多尺度卷积特征金字塔的各层特征图上对于每个锚点生成尺度和长宽比固定的多个候选框；将多尺度卷积特征金字塔的每层特征图的候选框输入到分类子网络，所述分类子网络对所述多尺度卷积特征金字塔的每层特征图的候选框中所有目标类别的置信度进行预测；将多尺度卷积特征金字塔的每层特征图的候选框输入到边框回归子网络，所述边框回归子网络络根据候选框中是否包含目标通过Focal Loss函数对候选框和真值框之间的偏移量进行计算，并对候选框与真实标注框的误差进行纠正。

10.根据权利要求1所述的增强注意力区域生成网络的小样本目标检测方法，其特征在于，所述将经过预处理的数据输入到搭建好的RetinaNet网络进行训练包括以下步骤：对RetinaNet网络模型进行初始化与参数配置；将经过预处理的数据输入到经过初始化与参数配置的RetinaNet网络模型中进行训练。