CN112257810B

CN112257810B - 一种基于改进FasterR-CNN的海底生物目标检测方法

Info

Publication number: CN112257810B
Application number: CN202011213028.5A
Authority: CN
Inventors: 马艳华; 刘宇昊; 朱明�; 常玉春; 岳庭秀
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology; Dalian University of Technology
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-11-28
Anticipated expiration: 2040-11-03
Also published as: CN112257810A

Abstract

本发明属于水下目标检测领域，提供了一种基于改进FasterR‑CNN的海底生物目标检测方法，通过样本复制和随机擦除实现数据增广，进一步通过加强特征提取网络backbone改进Faster R‑CNN对包含海底小目标图像的特征提取能力，从而提高训练样本不足情况下，海底生物目标的识别准确率。通过本发明设计的基于改进Faster R‑CNN的海底生物目标检测方法，可以解决海底生物目标检测中训练数据不足和对小目标检测效果不佳的问题，大大提高了识别准确率。本发明，有助于目标检测算法在水下机器人上的应用，进一步为水下机器人海生物自主捕捞技术提供技术支撑。

Description

一种基于改进FasterR-CNN的海底生物目标检测方法

技术领域

本发明属于水下目标检测领域，为一种基于改进FasterR-CNN的海底生物图像特征提取与目标识别，具体为一种基于改进FasterR-CNN的海底生物目标检测方法。

背景技术

近年来，我国逐渐重视对海洋资源的开发和利用。同时，水下机器人自主作业技术对于海底环境勘探和海洋生物捕捞等工作的支持也变得愈加重要。人工智能算法设计随着数据量和存储访问量的快速增长获得了极大发展，已经在语音识别、计算机视觉和自然语言处理等领域的应用取得了突破性的进展。海底生物的目标检测作为计算机视觉任务的一种，同时也作为水下机器人自主作业的重要组成部分，应用深度学习技术取代传统鲁棒性差，准确率低的目标检测算法来实现更高的速度和性能成为应用研究的热点。

目前，基于深度学习的目标检测模型通常由两部分组成，其一是backbone(网络主干)，用于提取特征图，如VGG、ResNet、ResNetXt和DenseNet等耳熟能详的backbone都是GPU平台上常用的特征提取网络；其二是head(网络头部)，用于根据特征图做边界回归和目标分类，包括YOLO、SSD等单阶段检测架构，和Fast R-CNN、Faster R-CNN等基于区域回归的双阶段检测架构。然而尽管通用的检测识别技术已经比较成熟，但在海底生物目标检测识别的研究和应用存在着以下问题：(1)海底生物目标检测数据集训练数据样本不足，海底环境复杂且多变，因而导致获取有效的海底生物目标图片较为困难，并且涉及到大量图片标注工作。此外，目前国内外尚没有公开可用的标准数据集；(2)海底生物，如海参、海胆及扇贝等，体积较小，数量十分丰富且容易堆叠，这类小目标对象的目标分类和边框回归更为困难。因此，针对上述问题，设计一种高识别率的海底生物目标检测方法具有重要的意义。

发明内容

针对海底生物目标检测识别任务中数据集训练数据样本不足和对小目标检测效果不佳这两个问题，提出一种基于改进Faster R-CNN的海底生物目标检测方法，通过样本复制和随机擦除实现数据增广，进一步通过加强特征提取网络backbone改进Faster R-CNN对包含海底小目标图像的特征提取能力，从而提高训练样本不足情况下，海底生物目标的识别准确率。

本发明的技术方案：

一种基于改进FasterR-CNN的海底生物目标检测方法，步骤如下：

步骤1：获取海底生物图像数据样本，构建样本数据集，随机选择样本数据集中70％的图像数据构成训练数据集，30％构成测试数据集；

步骤2：在训练数据集上实施基于样本复制的数据增广方法；

步骤2.1：在整个训练数据集中挑选出类别样本体积小、数量少且边缘清晰的图片，作为做样本复制的目标集合；

步骤2.2：利用Facebook开源的可视化工具Visdom，在目标集合的图片上绘制出用于监督训练的真实边界框(gt_bbox)和类别标签(label)，确定出模糊的水下环境中物体的具体位置和类别；

步骤2.3：使用网页工具VGG Image Annotator(VIA)，对目标集合的图片中需要扩增数量的类别样本，根据确定的具体位置和类别做轮廓标注，获得.json格式的物理轮廓标注文本；

步骤2.4：在训练过程中每读入一张图片，遍历轮廓标注文本中获得的标注名称，当存在名称与当前读入图片名匹配时，则从文本中取出该图片的轮廓标注；将当前图片该轮廓内的所有像素值复制到一个相同形状的随机区域，完成样本复制；

步骤2.5：使用OpenCV提供的函数求目标轮廓的最小外接四边形的面积S，然后求此面积值S与当前图片内所有用于监督训练的边界框的面积的交并比(IoU)，与S拥有最大IoU的边界框即视为被复制目标的边界框；

步骤2.6：将步骤2.5中筛选出的边界框赋给步骤2.4中随机复制的样本，同时添加类别标签，用来进行监督训练；

步骤3：在经过样本复制的训练数据集上随机实施基于随机擦除的数据增广方法；

步骤3.1：根据边界框信息判断图像内多个待检测小目标的具体位置，在其周围以随机的概率，放置一个随机大小的矩形来遮挡物体边缘，从而模拟水下环境中频繁出现的物体堆叠和遮挡情况；

步骤3.2：为了避免随机更改像素值而引起了训练集与测试集数据分布的差异，矩形内的像素值全部赋值为整个训练集样本的像素均值；

步骤4：面向小样本检测任务对检测网络模型Faster R-CNN中的特征提取网络backbone(VGG16)做基于“上采样+特征拼接+′shortcut′路径”的适应性改进；

步骤4.1：对VGG16获得的具有强语义信息但分辨率低的特征图通过多次基于双线性插值算法的上采样方式逐渐增大分辨率得到特征图；

步骤4.2：将VGG16输出并扩大分辨率后的特征图f₁与backbone内具有相同分辨率且富含丰富定位信息的特征图在通道数方向上拼接，获得兼备语义和强定位信息的特征图f₂；

步骤4.3：将特征图f₂重新进行多次卷积和池化操作提取抽象特征，最终得到特征图f₃；

步骤4.4：在改进网络之间增加“shortcut”路径来保证网络收敛和避免训练过慢的现象。

本发明的有益效果：通过本发明设计的基于改进Faster R-CNN的海底生物目标检测方法，可以解决海底生物目标检测中训练数据不足和对小目标检测效果不佳的问题，大大提高了识别准确率。本发明，有助于目标检测算法在水下机器人上的应用，进一步为水下机器人海生物自主捕捞技术提供技术支撑。

附图说明

图1为本发明的方法流程图。

图2为一张典型的水下图像样本。

图3为本发明采用的基于“样本复制”的数据增广方式效果图。

图4为本发明采用的基于“随机擦除”的数据增广方式效果图，在图片中每个目标的边界框内随机选择一个矩形区域，并将其赋值为整个训练集样本的像素均值。

图5为本发明中基于VGG16的Faster R-CNN网络采用基于“上采样+特征拼接+′shortcut′路径”的特征提取网络backbone改进方法结构图。

图6为双线性插值算法的示意图。

具体实施方式

下面结合附图及技术方案对本发明的具体实施方式做进一步详细说明。

以图2所代表的水下图像样本为例，对四类水下生物利用深度学习技术做检测和识别，也就是边框回归和目标分类。检测类别包括海胆(echinus)、海参(holothurian)、扇贝(scallop)、海星(starfish)四类。

步骤1：获取海底生物图像数据样本，构建样本数据集，随机选择样本数据集中70％的图像数据构成训练数据集，30％构成测试数据集。

步骤2：在训练数据集上实施基于样本复制的数据增广方法。

步骤2.1：在整个训练集中挑选出类别样本体积小、数量少且边缘清晰的图片，作为做样本复制的目标集合。

步骤2.2：利用Facebook开源的可视化工具Visdom，在目标集合的图片上绘制出用于监督训练的真实边界框(gt_bbox)和类别标签(label)，确定出模糊的水下环境中物体的具体位置和类别。

步骤2.3：使用由物理科学委员会(EPSRC)赞助设计的网页工具VGG ImageAnnotator(VIA)，对目标集合的图片中需要扩增数量的类别样本，根据确定的具体位置和类别做轮廓标注，获得.json格式的物理轮廓标注文本。

步骤2.4：在训练过程中每读入一张图片，遍历轮廓标注文本中获得的标注名称，当存在名称与当前读入图片名匹配时，则从轮廓文本中取出该图片的轮廓标注。将当前图片该轮廓内的所有像素值复制到一个相同形状的随机区域，完成样本复制。

步骤2.5：使用OpenCV提供的函数求目标轮廓的最小外接四边形的面积S，然后求此面积值S与当前图片内所有用于监督训练的边界框的面积的交并比(IoU)，与S拥有最大IoU的边界框即视为被复制目标的边界框。

步骤2.6：将步骤2.5中筛选出的边界框赋给步骤2.4中随机复制的样本，同时添加类别标签，用来进行监督训练。

基于“样本复制”的数据增广方式近效果如图3所示，图中五个完全相同的扇贝(scallop)的其中四个就是由另一个扇贝复制过来的。

步骤3：在经过样本复制的训练数据集上随机实施基于随机擦除的数据增广方法。

步骤3.1：根据边界框信息判断图像内多个待检测小目标的具体位置，并在其周围以随机的概率，放置一个随机大小的矩形来遮挡物体边缘，从而模拟水下环境中频繁出现的物体堆叠和遮挡情况。

步骤3.2：为了避免随机更改像素值而引起了训练集与测试集数据分布的差异，矩形内的像素值全部赋值为整个训练集样本的像素均值。

基于随机擦除的数据增广方式近效果如图4所示，在每个物体周围放置矩形框的概率、放置矩形框的相对位置，以及矩形框的形状、面积、宽敞比的具体数值都是在一个范围内的随机值。具体将某个随机值限制在什么范围内应视检测类别等具体情况做相应改动。如矩形框的宽敞比选取中，经过大量实验发现，矩形遮挡的宽敞在0.25以下时会提高Faster R-CNN网络对海参类别的识别准确率，而0.4左右宽敞比的矩形会提高网络对海星的识别准确率；又如矩形框的面积选取方面，体积较小的样本(像素值在50x50左右)对矩形框面积的选取下限很敏感，通常设置为物体边界框面积的0.02倍能提高网络对小样本的检测精度。而大样本对矩形框面积上限通常比较敏感，一般可以设置在物体边界框面积的0.4倍左右。

步骤4：面向小样本检测任务对检测网络模型Faster R-CNN中的特征提取网络VGG16做适应性改进。下面参考图5的整个模型改进过程进行详细说明。

步骤4.1：VGG16中的每次池化操作都使输入特征图的长宽减半，共进行四次池化操作，将每次池化后输出的特征图分别记为f₁₁，f₁₂，f₁₃和f₁₄，其分辨率分别为(w₁,h₁)，(w₂,h₂)，(w₃,h₃)，(w₄,h₄)。将特征图f₁₄通过多次双线性插值进行上采样依次得到特征图f₂₁，f₂₂，f₂₃和f₂₄，其分辨率分别为(w₄,h₄)，(w₃,h₃)，(w₂,h₂)，(w₁,h₁)。其中w₁＞w₂＞w₃＞w₄，h₁＞h₂＞h₃＞h₄。

图6给出在二维平面上进行一次双线性插值的示意图。设已知四个点f(x₁,y₁)，f(x₂,y₁)，f(x₁,y₂)，f(x₂,y₂)，待求点为f(x,y)。双线性插值的核心思想是在二维平面上先进行x方向的两次线性插值，由f(x₁,y₁)，f(x₂,y₁)获得f(x,y₁)，由f(x₁,y₂)，f(x₂,y₂)获得f(x,y₂)；再对f(x,y₁)，f(x,y₂)进行一次y方向的线性插值获得f(x,y)。表示如下：

步骤4.2：将相同分辨率的特征图f₂₄和特征图f₁₁在通道数方向上拼接，获得兼备语义和强定位信息的特征图f₃₁，其分辨率为(w₁,h₁)，通道数为f₂₄和f₁₁通道数之和。

步骤4.3：将特征图f₃₁重新进行多次卷积和池化操作提取抽象特征，再次按序得到分辨率为(w₁,h₁)，(w₂,h₂)，(w₃,h₃)，(w₄,h₄)的特征图f₃₁，f₃₂，f₃₃和f₃₄。因为网络改进前后的最终输出的特征图f₁₄和f₃₄具有相同的分辨率(w₄,h₄)，因此该改进网络可以直接耦合到Faster R-CNN后面的RPN网络进行下一步的区域建议提取。

步骤4.4：在改进网络之间增加“shortcut”路径来保证网络收敛和避免训练过慢的现象。使用1x1的卷积核对特征图f₁₃进行卷积，得到与特征图f₂₂具有相同通道数的特征图f′₁₃，将有相同形状的特征图f′₁₃与f₂₂直接相加后得到特征图f′₂₂，使用f′₂₂进行前向传播得到f₂₃；同样地，使用1x1的卷积核对特征图f₂₂进行卷积，得到特征图f′₂₂，再与有相同形状的特征图f₃₃相加后得到特征图f′₃₃，使用f′₃₃进行前向传播得到f₃₄。

综上，本发明面向水下小目标检测识别任务，在使用卷积神经网络对目标进行边框回归和目标分类工作中出现的训练数据不足和对小目标检测效果不佳这两个问题入手，分别在数据增广和深度网络架构设计进行研究，提出一种基于改进Faster R-CNN的海底生物目标检测方法。主要内容包括：首先针对水下小目标样本数据集特殊的体积小、易堆叠等特点，通过样本复制和随机擦除实现数据增广；进一步通过“上采样+特征拼接+′shortcut′路径”的方式加强特征提取网络backbone，生成同时兼备强语义信息和丰富定位信息的特征图用于完成检测识别任务，改进Faster R-CNN对包含海底小目标图像的特征提取能力，同时避免了增大网络体积而导致训练慢甚至精度下降的问题。该改进方法的研究对于基于卷积神经网络的目标检测算法在水下机器人上的应用，进一步为水下机器人海生物自主捕捞技术提供技术支撑有特别的意义。

Claims

1.一种基于改进FasterR-CNN的海底生物目标检测方法，其特征在于，步骤如下：

步骤2：在训练数据集上实施基于样本复制的数据增广方法；

步骤2.1：在训练数据集中挑选出图片，作为做样本复制的目标集合；

步骤2.2：利用Facebook开源的可视化工具Visdom，在目标集合的图片上绘制出用于监督训练的真实边界框和类别标签，确定出模糊的水下环境中物体的具体位置和类别；

步骤2.3：使用网页工具VGG Image Annotator，对目标集合的图片中需要扩增数量的类别样本，根据确定的具体位置和类别做轮廓标注，获得.json格式的物理轮廓标注文本；

步骤2.5：使用OpenCV提供的函数求目标轮廓的最小外接四边形的面积S，然后求此面积值S与当前图片内所有用于监督训练的边界框的面积的交并比IoU，与S拥有最大IoU的边界框即视为被复制目标的边界框；

步骤3.1：根据边界框信息判断图像内多个待检测小目标的具体位置，在其周围以随机的概率，放置一个随机大小的矩形来遮挡物体边缘，模拟水下环境中频繁出现的物体堆叠和遮挡情况；

步骤4：面向小样本检测任务对检测网络模型Faster R-CNN中的特征提取网络VGG16做基于“上采样+特征拼接+'shortcut'路径”的适应性改进；

步骤4.1：对VGG16获得的具有强语义信息但分辨率低的特征图通过多次基于双线性插值算法的上采样方式逐渐增大分辨率得到特征图；VGG16中的每次池化操作都使输入特征图的长宽减半，共进行四次池化操作，将每次池化后输出的特征图分别记为f₁₁，f₁₂，f₁₃和f₁₄，其分辨率分别为(w₁,h₁)，(w₂,h₂)，(w₃,h₃)，(w₄,h₄)，将特征图f₁₄通过多次双线性插值进行上采样依次得到特征图f₂₁，f₂₂，f₂₃和f₂₄，其分辨率分别为(w₄,h₄)，(w₃,h₃)，(w₂,h₂)，(w₁,h₁)；其中w₁＞w₂＞w₃＞w₄，h₁＞h₂＞h₃＞h₄；

步骤4.2：将相同分辨率的特征图f₂₄和特征图f₁₁在通道数方向上拼接，获得兼备语义和强定位信息的特征图f₃₁，其分辨率为(w₁,h₁)，通道数为f₂₄和f₁₁通道数之和；

步骤4.3：将特征图f₃₁重新进行多次卷积和池化操作提取抽象特征，再次按序得到分辨率为(w₁,h₁)，(w₂,h₂)，(w₃,h₃)，(w₄,h₄)的特征图f₃₁，f₃₂，f₃₃和f₃₄；

步骤4.4：在基于步骤4.3得到的改进网络之间增加“shortcut”路径来保证网络收敛和避免训练过慢的现象；使用1x1的卷积核对特征图f₁₃进行卷积，得到与特征图f₂₂具有相同通道数的特征图f₁'₃，将有相同形状的特征图f′₁₃与f₂₂直接相加后得到特征图f′₂₂，使用f′₂₂进行前向传播得到f₂₃；同样地，使用1x1的卷积核对特征图f₂₂进行卷积，得到特征图f′₂₂，再与有相同形状的特征图f₃₃相加后得到特征图f′₃₃，使用f′₃₃进行前向传播得到f₃₄。