CN113420759A

CN113420759A - 一种基于深度学习的抗遮挡与多尺度死鱼识别系统与方法

Info

Publication number: CN113420759A
Application number: CN202110653176.7A
Authority: CN
Inventors: 杨明东; 张先奎; 陈静; 杨勇; 周红坤; 杨飞
Original assignee: No 750 Test Field of China Shipbuilding Industry Corp
Current assignee: No 750 Test Field of China Shipbuilding Industry Corp
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-21
Anticipated expiration: 2041-06-11
Also published as: CN113420759B

Abstract

本发明公开了基于深度学习的抗遮挡与多尺度死鱼识别系统和方法，针对死鱼识别背景复杂、尺度变化大与遮挡等难点，对FasterRCNN识别模型进行了改进，以适应复杂水下环境的死鱼识别场景。本发明首先对待识别图像进行对比度受限的自适应直方图均衡处理，增强目标局部对比度；其次设计多尺度特征增强模块以处理大尺度范围的死鱼识别问题，并基于注意力机制设计抗遮挡模块，高亮目标区域，排除其他噪声等背景干扰；最终利用旋转矩形框表征死鱼目标，大幅提升了密集场景下死鱼的识别精度。

Description

一种基于深度学习的抗遮挡与多尺度死鱼识别系统与方法

技术领域

本发明涉及一种图像识别的应用技术领域，特别涉及水下死鱼识别技术，具体是一种基于深度学习的抗遮挡与多尺度死鱼识别系统与方法。

背景技术

在鱼类养殖过程中，由于养殖水体中存在细菌、寄生虫，或者养殖密度过大水体流动性不好导致氧浓度不够等原因，养殖过程中难免会发生鱼类死亡。鱼类死亡后先沉入水底，内脏器官发酵产生气体后浮上水面，在这个过程中死鱼在养殖网箱中的移动可能与其他活鱼接触或者被活鱼分食而导致病菌扩散。为了防止该问题发生，急需设计一种死鱼识别方法，能及时给出死鱼上浮之前的位置、数量等信息，为后续死鱼的提前清理与收集提供依据。

传统死鱼识别方法通常借助人工干预，但其智能化水平低，极大增加了人力物力。随着人工智能和深度学习的快速发展，图像目标识别技术应用越来越广，出现了FasterRCNN与YOLO等经典的识别模型，然而，这些方法均针对水上环境进行设计。《一种基于深度卷积神经网络的死鱼识别方法及预警系统》将原始Faster RCNN模型直接迁移到水下死鱼识别上。《基于图像识别的养殖鱼监控方法及系统》则直接将YOLO模型运用到鱼类识别上。上述方法均直接套用了现有模型，没有考虑并针对性解决以下四个方面的实际难题和因素，造成识别准确率低：(1)水下图像通常具有低对比度、低亮度等特点，与水上图像存在较大差异，无法直接迁移；(2)死鱼沉入水底后会出现死鱼之间或死鱼与活鱼之间的类内遮挡，同时死鱼也会被水草等干扰，出现类间遮挡，导致提取的识别特征容易被污染；(3)由于死鱼的类别、体积等差异，造成死鱼尺度变化范围大；(4)Faster RCNN等方法均采用水平矩形框表示目标位置，然而由于死鱼体态一般分布在不同方向，水平矩形框会包含大量无用背景信息，且在密集场景下，矩形框之间也会发生重叠，易被后处理阶段排除。

发明内容

为解决上述现有技术存在的不足和缺陷，申请人经过研发设计，现提供一种基于深度学习的死鱼识别方法，设计多尺度特征增强模块有效解决多尺度死鱼识别问题，该方法还设计基于注意力机制的抗遮挡模块，有效凸显前景，抑制背景干扰，此外，该方法通过预测表征死鱼位置的旋转矩形框，使得在密集场景下识别效果更好。

具体的，本发明是这样实现的：一种基于深度学习的抗遮挡与多尺度死鱼识别系统，包括：

死鱼识别数据集模块，用于获取并保存水下拍摄的水下图像，用于构建死鱼识别训练集、验证集与测试集；

图像特征提取模块，用于对水下图像进行预处理，提取图像底层边缘和高层抽象特征图；

多尺度特征加强模块，用于通过串联多个特征金字塔的方式，提高特征的多尺度表达能力。生成候选框对前景目标进行表示，并能自适应提取和融合不同尺度的区域候选框特征；

抗遮挡模块，用于通过注意力机制学习前景目标的掩码，并与候选框特征进行融合，抑制背景的干扰，得抗遮挡特征，

死鱼目标识别模块，用于以候选框特征为初始起点，结合抗遮挡特征和全连接层，回归表征死鱼位置的旋转矩形框，并进行死鱼类别分类，完成死鱼目标识别。

同时，基于上述的系统，本发明还公开了一种基于深度学习的抗遮挡与多尺度死鱼识别方法，

步骤S1、获取水下图像，建立训练和测试用的死鱼识别数据集，

步骤S2、行图像预处理，将图像输入图像特征提取模块，提取图像底层边缘和高层抽象特征图；

步骤S3、多尺度特征加强模块，通过串联多个特征金字塔的方式，提高特征的多尺度表达能力，得多尺度特征；

步骤S4、将多尺度特征生成水平矩形区域候选框，并设计一种自适应ROIAlign算法，用于自适应提取和融合不同尺度的区域候选框特征；

步骤S5、将区域候选框特征通过注意力机制学习前景目标的掩码，并与候选框特征进行融合，抑制背景的干扰；

步骤S6、以水平矩形区域候选框为初始起点，结合抗遮挡分支融合后的特征和全连接层，回归表征死鱼位置的旋转矩形框，并进行死鱼类别分类，完成死鱼目标识别。

本发明的工作原理和有益效果介绍：采用水下摄像机拍摄水下图像，制作用于训练和测试的死鱼识别数据集。同时设计图像预处理模块，为后续步骤提供高质量清晰的待识别图像；将图像输入ResNet特征提取模块，提取图像底层边缘和高层抽象特征图；输出特征图后，设计多尺度特征加强模块，通过串联多个特征金字塔的方式，提高特征的多尺度表达能力，以缓解死鱼尺度变化范围大而难以识别的问题；将多尺度特征输入到RPN网络，生成水平矩形区域候选框(ROI)，表示前景目标(死鱼或活鱼)，并设计一种自适应ROIAlign算法，用于自适应提取和融合不同尺度的候选框特征；将区域候选框特征输入到抗遮挡分支中，通过注意力机制学习前景目标的掩码，并与候选框特征进行融合，抑制背景的干扰，起到抗遮挡的目的；以生成的水平候选框为初始起点，结合抗遮挡分支融合后的特征和全连接层，回归表征死鱼位置的旋转矩形框，并进行死鱼类别分类，完成死鱼目标识别。所述图像特征提取模块包括ResNet、VGG、MobileNets或Efficient通用系列网络，可按系统处理实时性需求进行选择。所述生成候选框包括RPN网络和自适应ROIAlign算法单元；首先将RPN网络输出的候选框的置信度进行排序，进而去除置信度低的框，然后再进行后续NMS操作，以提升算法后处理速度；

针对死鱼识别背景复杂、尺度变化大与遮挡等难点，对Faster RCNN识别模型进行了改进，以适应复杂水下环境的死鱼识别场景。本系统和方法在识别处理前，设计对比度受限的自适应直方图均衡化算法进行图像预处理，以改善图像细节信息和局部对比度，提高识别准确率；多尺度特征加强模块，通过串联多个特征金字塔提取丰富的多尺度信息，并且特征金字塔之间设计跨阶段连接单元进行特征重利用并解决网络变深引起的梯度消失问题。最终将相同步长的金字塔层进行累加后输出加强后的特征金字塔。自适应ROIAlign，不同于标准ROIAlign只在单一特征金字塔层提取特征，其可以自适应池化不同特征层的特征并进行融合，使小目标和大目标均能共享低层与高层信息。抗遮挡模块，结合注意力机制和标注的矩形框以弱监督的方式学习候选区域的掩码，该掩码强调目标可视化区域，抑制遮挡区域噪声等干扰，使得提取的特征更关注前景目标，同时特征判别性更强，具有较强的抗遮挡能力。使用旋转矩形框定位死鱼目标，在密集场景下，能无重叠框出死鱼位置。同时排除大量相似背景区域的干扰，提高训练的鲁棒性。

本发明首先对待识别图像进行对比度受限的自适应直方图均衡处理，增强目标局部对比度；其次设计多尺度特征增强模块以处理大尺度范围的死鱼识别问题，并基于注意力机制设计抗遮挡模块，高亮目标区域，排除其他噪声等背景干扰；最终利用旋转矩形框表征死鱼目标，大幅提升了密集场景下死鱼的识别精度。

附图说明

图1为死鱼识别模型结构图；

图2为数据集标注示意图；

图3为图1中的多尺度特征增强模块示意图；

图4为图3中的特征金字塔构建示意图；

图5为图3中的跨阶段连接单元示意图；

图6为图1的自适应ROIAlign示意图；

图7为图1中的抗遮挡模块示意图；

图8为旋转矩形框表示方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例1：本发明提供了一种基于深度学习的抗遮挡与多尺度死鱼识别方法，具体流程如图1所示，步骤包括：

步骤1，采用水下摄像机拍摄水下图像，制作用于训练和测试的死鱼识别数据集。同时设计图像预处理模块，为后续步骤提供高质量清晰的待识别图像。

步骤2，将图像输入ResNet-50特征提取模块，提取图像底层边缘和高层抽象特征图。

步骤3，在步骤2的输出特征图后，设计多尺度特征加强模块，通过串联多个特征金字塔的方式，提高特征的多尺度表达能力，以缓解死鱼尺度变化范围大而难以识别的问题。

步骤4，将步骤3输出的多尺度特征输入到RPN网络，生成水平矩形区域候选框(ROI)，表示前景目标(死鱼或活鱼)，并设计一种自适应ROIAlign算法，用于自适应提取和融合不同尺度的候选框特征。

步骤5，将区域候选框特征输入到抗遮挡分支中，通过注意力机制学习前景目标的掩码，并与候选框特征进行融合，抑制背景的干扰，起到抗遮挡的目的。

步骤6，以步骤4生成的水平候选框为初始起点，结合抗遮挡分支融合后的特征和全连接层，回归表征死鱼位置的旋转矩形框，并进行死鱼类别分类，完成死鱼目标识别。

所述步骤1包括以下步骤：

步骤1-1，采用水下摄像机拍摄大量水下图像，进行死鱼/活鱼目标标注后，将数据集按6:3:1的比例划分为训练集、测试集和验证集。进一步地，标注方式如图2所示，首先根据死鱼的具体位置和大小，使用图中实线旋转矩形框标注，其表示为四个顶点(x1,y1,x2,y2,x3,y3,x4,y4)。进一步地，水平矩形框(x0,y0,xM,yM)用于RPN网络的训练，其生成方式为：

x₀＝min(x₁,x₄),y₀＝min(y₁,y₄),x_M＝max(x₂,x₃),y_M＝max(y₂,y₃)

步骤1-2，训练过程数据预处理：将训练图像先进行归一化处理，然后进行随机尺度缩放，并随机裁剪出一定大小的图像块，最后经过随机水平翻转和随机对比度受限的自适应直方图均衡后完成预处理，用于后续训练。

步骤1-3，测试过程数据预处理：先进行图像归一化，再进行随机对比度受限的自适应直方图均衡后完成预处理。

所述步骤2利用ResNet-50网络对输入的图像数据进行特征提取，得到如图1所示的Res1、Res2、Res3、Res4和Res5五个特征图，其通道数分别为128，256，512，1024，2048，步长分别为2，4，8，16，32。

所述步骤3中的多尺度特征增强模块如图3所示，包括以下步骤：

步骤3-1，特征金字塔生成：其生成方式如图4所示，首先将Res2、Res3、Res4和Res5输入特征通过一个侧向连接的1×1卷积，通道数降维至256，并采用双线性插值将高层低分辨率特征进行2倍上采样；然后将上采样后的特征与降低通道后的特征进行逐像素相加；最后使用3×3卷积融合相加后的特征图，获得当前的加强特征，重复上述步骤3次即生成由4层特征构成的特征金字塔。

步骤3-2，多阶段特征金字塔生成：将前一阶段生成的金字塔的输出作为下一阶段金字塔的输入，然后按照步骤3-1的方式构建下一阶段金字塔，以此串联的方式生成多阶段特征金字塔。

步骤3-3，多阶段特征金字塔之间通过跨阶段连接单元进行连接，该单元具体示意图如图5所示。首先使用1×1卷积，分别将前一阶段的特征进行通道降维，然后与当前阶段的特征经过降采样后进行累加，形成特征新的特征。所述空间注意力掩码生成单元，训练掩码标签通过标注的矩形框以弱监督的方式生成。

步骤3-4，多尺度特征生成过程如图3所示，n个阶段特征金字塔表示为{P1,P2,…,Pn}，每个金字塔由4层特征{C1,C2,C3,C4}组成，其步长分别为4,8,16,32，将各个金字塔的相同步长的特征层进行逐像素累加，形成多尺度特征输出{F1,F2,F3,F4}。通常，n值设置的越大，处理性能越强，考虑到计算量的问题，可以将n设置为2，若要提升处理准确率，可以设置更大的n值。

所述步骤4为区域水平候选框生成与特征提取，其具体过程如图6所示，包含以下步骤：

步骤4-1，利用RPN网络生成水平候选框，这些候选框可能包含死鱼或活鱼。本发明不同于Faster RCNN中直接使用NMS方式滤除冗余候选框，而是首先将候选框的置信度进行排序，取前15000，然后再进行后续NMS操作，保留2000个候选框，而在测试阶段，取前5000个进行NMS，保留200个。RPN的其他环节均与Faster RCNN保持一致。

步骤4-2，Faster RCNN利用候选框的大小将其分配至{F1,F2,F3,F4}，然后利用7×7池化核ROIAlign模块提取候选框对应的特征，本发明为了让不同大小的候选目标均能共享不同尺度的特征，将每个候选框均分配到所有层，如图6所示，然后利用ROIAlign模块提取特征，特征图大小为7×7×256。

步骤4-3，不同于Faster RCNN将特征经过全连接层进行特征转换，本发明为了能保留特征空间信息，利用3×3卷积进行处理。

步骤4-4，将处理完的特征进行最大值融合，最终输出特征维度为7×7×256。

所述步骤5为抗遮挡分支的构建，具体过程如图7所示：

步骤5-1，空间注意力掩码生成测试阶段。将步骤4输出的特征经过两个3×3卷积，每个卷积均利用ReLU进行非线性激活，然后使用1×1卷积将特征变换为1个通道的特征图，最后使用Sigmoid函数将输出值转换到0～1之间。

步骤5-2，空间注意力掩码生成训练阶段。为了训练掩码，本发明使用弱监督的方式计算掩码标签，具体地，将标注的矩形框内部的像素记为1，外部的像素记为0。此外，本发明使用二进制交叉熵损失函数监督掩码的训练过程，假设掩码标签为ci，预测掩码为pi，则掩码生成损失L_mask为：

其中，N表示像素个数，即N＝7×7＝49。

步骤5-3，将生成的掩码与输入特征进行加权，具体地，将两者进行逐像素相乘，以此高亮非遮挡目标部位，抑制其他非目标区域的干扰，使特征更具判别性，起到抗遮挡的目的。

步骤6为以步骤4生成的水平候选框为起点，对死鱼目标进行类别预测和旋转矩形框回归，其具体过程为：

步骤6-1，死鱼目标预测。本发明中，目标类别为死鱼、活鱼和背景3类，训练时，类别预测采用交叉熵损失函数。测试时，进行softmax概率归一化和最大值函数后，预测出类别和分类置信度。

步骤6-2，死鱼旋转矩形框回归。旋转矩形框示意图如图8所示，表示形式为(x,y,w,h,θ)，其中(x,y)为旋转矩形框中心点，(w,h)为旋转矩形框的宽和高，θ表示旋转框的某一边与X轴呈锐角的角度，同时将该边定义为w，此时，θ∈[-π/2,0)。更进一步地，旋转矩形框回归的起点为RPN预测的水平候选框，其编码方式为：

其中，(x₀,y₀,w₀,h₀,θ₀)为水平候选框，且θ₀＝-π/2，x,x′分别为旋转框预测值和旋转框真值，其他参数(y,w,h,θ)含义一致。则预测值ti和真值t_i′之间损失用

进行计算：

在测试时，需要对预测值进行解码，解码规则如下：

步骤6-3，经过解码后获得旋转框检测结果，并使用旋转NMS去除冗余检测框，获得最终的死鱼识别结果。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度学习的抗遮挡与多尺度死鱼识别系统，其特征在于包括：

多尺度特征加强模块，用于通过串联多个特征金字塔的方式，提高特征的多尺度表达能力；生成候选框对前景目标进行表示，并能自适应提取和融合不同尺度的区域候选框特征；

抗遮挡模块，用于通过注意力机制学习前景目标的掩码，并与候选框特征进行融合，抑制背景的干扰，得抗遮挡特征。

2.根据权利要求1所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述死鱼识别数据集模块，包括死鱼类、活鱼类、背景类三大类别数据，并分为训练集、验证集和测试集三个数据集；所述的图像预处理模块，还用于设计对比度受限的自适应直方图均衡算法进行图像预处理，以改善图像细节信息和局部对比度；所述图像特征提取模块包括ResNet、VGG、MobileNets或Efficient通用系列网络，可按系统处理实时性需求进行选择。

3.根据权利要求1所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述多尺度特征加强模块，包括多阶段特征金字塔、跨阶段连接单元及多尺度特征生成三个部分，所述的多阶段特征金字塔生成方式为首先将图像特征提取模块的输出特征通过一个侧向连接的1×1卷积，通道数降维至256，并用双线性插值将高层低分辨率特征进行2倍上采样；然后将上采样后的特征与降低通道后的特征进行逐像素相加；最后使用3×3卷积融合相加后的特征图，获得当前的加强特征，重复上述步骤3次即生成单个由4层特征组成的特征金字塔。

4.根据权利要求3所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述多阶段特征金字塔由多个特征金字塔串联形成，将前一阶段生成的特征金字塔的输出作为下一阶段特征金字塔的输入，前面的特征金字塔表达浅层特征，后续的特征金字塔为深层特征，每个特征金字塔均包含丰富的多尺度信息；

所述跨阶段连接单元将上一阶段的特征传播到下一阶段，使当前特征能充分重利用之前的先验知识，加强特征表达能力；

所述的多尺度特征生成过程为，假设n个多阶段特征金字塔表示为{P¹,P²,…,Pⁿ}，每个金字塔由4层特征{C¹,C²,C³,C⁴}组成，其步长分别为4,8,16,32，将各金字塔相同步长的特征层进行逐像素累加，输出多尺度特征{F¹,F²,F³,F⁴}；其中，n设置为2或设置更大的n值。

5.根据权利要求1所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述生成候选框包括RPN网络和自适应ROIAlign算法单元；首先将RPN网络输出的候选框的置信度进行排序，进而去除置信度低的框，然后再进行后续NMS操作，以提升算法后处理速度；自适应ROIAlign算法单元，用于自适应池化不同特征层的特征并进行融合，先将生成的所有候选框均映射到步骤3生成的多尺度特征层{F¹,F²,F³,F⁴}，并进行池化核为7×7的ROIAlign操作，然后将生成的特征进行映射后完成融合。

6.根据权利要求1所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述抗遮挡模块包括空间注意力掩码生成单元和特征加权单元，空间注意力掩码生成单元用于提取候选框特征的7×7×256特征为输入，经过两个3×3卷积和一个1×1卷积后，将特征图映射为7×7×1维度，最终经过Sigmoid激活函数后，输出值在[0,1]之间的前景目标概率图；特征加权单元用于将概率图与原始输入特征进行逐像素相乘后作为分支的输出；

所述空间注意力掩码生成单元，训练掩码标签通过标注的矩形框以弱监督的方式生成。

7.根据权利要求1所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述旋转矩形框，表示形式为(x,y,w,h,θ)，其中(x,y)为旋转矩形框中心点，(w,h)为旋转矩形框的宽和高，θ表示旋转框的某一边与X轴呈锐角的角度，同时将该边定义为w，此时，θ∈[-π/2,0)。

8.根据权利要求7所述的抗遮挡与多尺度死鱼识别系统，其特征在于：所述旋转矩形框以水平候选框为起点进行回归，其编码方式为：

其中，(x₀,y₀,w₀,h₀,θ₀)为水平候选框，且θ₀＝-π/2，x,x′分别为旋转框预测值和旋转框真值，其他参数(y,w,h,θ)含义一致；预测值t和真值t′之间用Smooth_L1计算损失。

9.一种基于深度学习的抗遮挡与多尺度死鱼识别方法，其特征在于包括以下步骤：

10.根据权利要求9所述的抗遮挡与多尺度死鱼识别方法，其特征在于：所述步骤S2中，设计对比度受限的自适应直方图均衡化算法进行图像预处理，以改善图像细节信息和局部对比度；

所述步骤S3中，将相同步长的金字塔层进行累加后输出加强后的特征金字塔；

所述步骤S4中，ROIAlign算法可以自适应池化不同特征层的特征并进行融合，使小目标和大目标均能共享低层与高层信息。