CN112528782B

CN112528782B - 水下鱼类目标检测方法及装置

Info

Publication number: CN112528782B
Application number: CN202011373485.0A
Authority: CN
Inventors: 周超; 赵振锡; 孙传恒; 杨信廷; 刘杨; 徐大明
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-02-23
Anticipated expiration: 2040-11-30
Also published as: CN112528782A

Abstract

本发明提供一种水下鱼类目标检测方法及装置，该方法包括：获取水下相机拍摄的待检测图像和无检测目标时的背景图像；将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，所述目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。通过主干网络和辅助网络的特征相减融合，可以有效去除环境干扰，从而提高待检测目标的检测准确率。

Description

水下鱼类目标检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种水下鱼类目标检测方法及装置。

背景技术

由于水产养殖现场光照度低及不均匀、水体浑浊、海床背景复杂、鱼类姿态多样、目标尺寸变化大、分辨率和对比度低和摄像设备等原因导致对水下目标检测干扰很大。传统的手工设计特征提取和单纯使用基于CNN的目标检测等算法并不能满足真实水下检测需求。

虽然目标检测算法发展迅速，模型泛用性强，但这些算法并没有结合水下环境的特点进行设计，在海床场景复杂、低分辨率、模糊和目标小等复杂场景下表现一般。

发明内容

针对现有技术存在的问题，本发明提供一种水下鱼类目标检测方法及装置。

本发明提供一种水下鱼类目标检测方法，包括：获取水下相机拍摄的待检测图像和无检测目标时的背景图像；将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，所述目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

根据本发明一个的水下鱼类目标检测方法，所述分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，包括：将含有目标对象的待检图像通过主干网络，及不含有目标对象的背景图片通过辅助网络，分别经浅层信息提取层输出初步特征，再依次通过主干网络的四个残差块和辅助网络的三个残差块进行特征处理；

将主干网络的浅层信息提取层的输出与辅助网络的第一残差块的输出进行特征相减融合，主干网络的第一残差块输出与辅助网络的第二残差块的输出进行特征相减融合，主干网络的第二残差块输出与辅助网络的第三残差块的输出进行特征相减融合，结合主干网络的第三残差块输出和第四残差块输出，得到相减融合后的四层特征。

根据本发明一个的水下鱼类目标检测方法，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果，包括：

将相减融合后的四层特征，进行特征融合；将融合后特征，输入RPN网络生成目标区域候选框；将所述目标区域候选框，输入多联检测器进行候选框筛选和分类，得到标有鱼类定位信息的图片检测结果。

根据本发明一个的水下鱼类目标检测方法，将相减融合后的四层特征，进行特征融合，包括：将相减融合后的四层特征x¹,x²,x³和x⁴，以特征图作为输入，依次经过卷积层和批归一化层得到p1、p2、p3、p4；然后将p4、p3、p2均向下经PixelShuffle结构上采样，进行多尺度融合得到N4、N3、N2和N1；

p1、p2、p3、p4定义为：

其中，g(·)是PixelShuffle上采样方式将输入特征信息重建放大操作；N_i是多尺度高低层信息融合后的特征信息(i＝0,1,2,3,4)；N_i的计算公式为：

其中，D(·)是下采样非线性转换；fpnconv(·)是卷积操作。

根据本发明一个的水下鱼类目标检测方法，所述依次通过主干网络的四个残差块和辅助网络的三个残差块进行特征处理，包括根据如下公式进行特征提取：

x^l＝F^l(x^l-1-upconv(y^l)),l≥2；

其中，F^l(·)为主干网络中第l-1层的残差块输入到下一层中的非线性转换；x^l,y^l分别为主干网络和辅助网络第l层残差块输出的特征信息；upconv(·)表示复合连接。

根据本发明一个的水下鱼类目标检测方法，将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络之前，还包括：

将含有已知目标对象的待检图像和不含有目标对象的背景图片作为检测网络的输入，对应的含有标注信息的待检图像样本作为目标检测网络的预期输出，设置网络初始参数，对构建的目标识别网络模型进行训练。

根据本发明一个的水下鱼类目标检测方法，所述设置网络初始参数，对构建的目标识别网络模型进行训练，包括使用如下损失函数进行训练：

其中，γ为聚焦参数，γ>＝0；y′是经过激活函数的输出，在0-1之间；α为平衡因子。

本发明还提供一种水下鱼类目标检测装置，包括：获取模块，用于获取水下相机拍摄的待检测图像和无检测目标时的背景图像；处理模块，用于将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，所述目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述水下鱼类目标检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述水下鱼类目标检测方法的步骤。

本发明提供的水下鱼类目标检测方法及装置，通过主干网络和辅助网络的特征相减融合，可以有效去除环境干扰，从而提高待检测目标的检测准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的水下鱼类目标检测方法的流程示意图之一；

图2是本发明提供的水下鱼类目标检测方法的残差块结构图；

图3是本发明提供的水下鱼类目标检测方法的流程示意图之二；

图4是本发明提供的水下鱼类目标检测装置的结构示意图；

图5是本发明提供的水下鱼类目标检测系统结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的水下鱼类目标检测方法及装置。图1是本发明提供的水下鱼类目标检测方法的流程示意图之一，如图1所示，本发明提供水下鱼类目标检测方法，包括：

101、获取水下相机拍摄的待检测图像和无检测目标时的背景图像。

在没有目标时，可通过水下相机获取无检测目标时的背景图像，并进行存储。在进行目标检测时，将水下相机拍摄的待检测图像和存储区中获取的背景图像，经过一些常规的预处理后，分别输入神经网络模型。预处理包括，将输入图像的短边调整为W，将长边限制为H，和训练时一致，以及进行图像翻转增强等预处理。例如，将输入图像的短边调整为800，将长边限制为1333，并进行图像翻转增强。

102、将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果。

本发明实施例中，预设有已经训练完成的目标识别网络模型。该目标识别网络模型，包括主干网络和辅助网络(或源域辅助学习网络)构成的复合主干网络。相应地，还可包括用于目标检测的目标检测网络，可基于常规的目标检测网络实现。

得到的含有目标对象的鱼类图像(W×H×3)和不含有目标对象的背景图片(W×H×3)作为检测网络的输入，含有目标对象的鱼类图像将通过主干网络，而不含有目标对象的背景图片将会通过辅助网络。主干网络和辅助网络，可以为多层结构。二者提取到的多层特征，分别进行特征信息相减，剔除复杂的源域信息干扰，再经过高低层信息融合后，输入目前的目标检测网络，则可以输出标有鱼类定位信息的图片检测结果。

相应地，目标识别网络模型是以已知目标对象作为标签，待检图像和背景图像作为样本训练后得到。其中，复合主干网络和目标检测网络，作为目标识别网络模型的两部分，同时进行训练。

本发明的水下鱼类目标检测方法，通过主干网络和辅助网络的特征相减融合，可以有效去除环境干扰，从而提高待检测目标的检测准确率。

在一个实施例中，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，包括：将含有目标对象的待检图像通过主干网络，及不含有目标对象的背景图片通过辅助网络，分别经浅层信息提取层输出初步特征，再依次通过主干网络的四个残差块和辅助网络的三个残差块进行特征处理；将主干网络的浅层信息提取层的输出与辅助网络的第一残差块的输出进行特征相减融合，主干网络的第一残差块输出与辅助网络的第二残差块的输出进行特征相减融合，主干网络的第二残差块输出与辅助网络的第三残差块的输出进行特征相减融合，结合主干网络的第三残差块输出和第四残差块输出，得到相减融合后的四层特征。

主干网络为常见的resnet包含四个局部残差块(res)。源域辅助学习网络则是由3个对应的res组成。用Adjacent Higher Level Composition方式将辅助主干网络中res1、res2、res3学习到的源域信息与backbone主干网络(ResNet)的浅层信息提取层、res1、res2的特征信息相减，剔除复杂的源域信息干扰。经过高低层信息融合后，backbone主干网络(Resnet)分别在res1、res2、res3、res4上输出W/4×H/4×256、W/8×H/8×512、W/16×H/16×1024和W/32×H/32×2048四种不同尺度大小的特征通道。

res1、res2、res3、res4则分别由3、4、23、3个bottleneck(瓶颈层)串联组成，其中bottleneck由2层卷积核为1×1的卷积层、3层批归一化(Batch Normalization，简称BN)层；一层卷积核为3×3、卷积步长为1的卷积层和ReLu激活层组成。以含有目标对象的特征图和不含有目标对象的背景特征图作为输入，输入特征图先依次经过卷积核为1×1的卷积层和Batch Normalization层；接着依次经过卷积核为3×3、卷积步长为1的卷积层、BatchNormalization层；经过随后依次经过卷积核为1×1的卷积层、Batch Normalization层和ReLu激活层，完成一次bottleneck层的特征图输出。图2是本发明提供的水下鱼类目标检测方法的残差块结构图，可参见图2。

在一个实施例中，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果，包括：将相减融合后的四层特征，进行特征融合；将融合后特征，输入RPN网络生成目标区域候选框；将目标区域候选框，输入多联检测器进行候选框筛选和分类，得到标有鱼类定位信息的图片检测结果。

输入复合主干网络的图像都会经过浅层信息提取层输出f_n，再依次通过主干网络和源域辅助学习网络中若干个局部残差块(res)并进行信息融合，完成基本的图像特征提取并输出f_n+1。

经过复合主干网络提取的特征f_n+1，由特征融合网络(EPANet网络)实现多尺度特征信息融合，由区域选取网络(RPN)生成目标区域候选框，RPN可通过ROI pool层输出结果，再经多联检测器(Cascade R-CNN)判断正负样本，进行候选框筛选和分类，最终得到标有鱼类和定位信息的图片。

在一个实施例中，将相减融合后的四层特征，进行特征融合，包括：将相减融合后的四层特征x¹,x²,x³和x⁴，以特征图作为输入，依次经过卷积层(如卷积核为1×1的卷积层)，和批归一化层(Batch Normalization)，得到p1、p2、p3、p4；然后p4、p3、p2均向下经PixelShuffle结构(如2倍上采样)，进行多尺度融合得到N4、N3、N2和N1；

p1、p2、p3、p4定义为：

其中，D(·)是下采样非线性转换；fpnconv(·)是卷积操作。

图3是本发明提供的水下鱼类目标检测方法的流程示意图之二，如图3所示，EPANet将CBresnet输出的4种不同尺寸大小的特征图作为输入，输入的特征(x¹,x²,x³和x⁴)依次经过依次经过卷积核为1×1和Batch Normalization(批标准化)层得到p1、p2、p3、p4。接着p4、p3、p2均向下经PixelShuffle结构上采样2倍，进行多尺度融合得到N4、N3、N2和N1。

g(·)是PixelShuffle上采样方式将输入特征信息重建放大操作，在本发明中PixelShuffle上采样方式将由1×1conv学习重建特征信息。其原理是利用1×1conv将原有输入的W×H大小的图像扩充为W×H×(r×r)，再重新排列为(W×r)×(H×r)从而实现r倍的图像放大(r＝2)。

可选的，D(·)代表着下采样2倍的非线性转换。fpnconv(·)为卷积核大小为3*3的卷积操作。

本发明的水下鱼类目标检测方法，采用PixelShuffle上采样方式并使用一个较小的卷积核学习上采样信息，不会引入太多计算量且能更加还原鱼类形状特征信息，增加浅层信息的利用。解决了目标检测算法中线性上采样方式重建特征信息效果不可靠的问题。

在一个实施例中，依次通过主干网络的四个残差块和辅助网络的三个残差块进行特征处理，包括根据如下公式进行特征提取：

x^l＝F^l(x^l-1-upconv(y^l)),l≥2；

其中，F^l(·)为主干网络中第l-1层的残差块输入到下一层中的非线性转换；x^l,y^l分别为主干网络和辅助网络Backbone中第l层残差块输出的特征信息；upconv(·)表示复合连接，可由1×1卷积层和批处理归一化层组成以进行上采样操作。

在一个实施例中，将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络之前，还包括：将含有已知目标对象的待检图像和不含有目标对象的背景图片作为检测网络的输入，对应的含有标注信息的待检图像样本作为目标检测网络的预期输出，设置网络初始参数，对构建的目标识别网络模型进行训练。

目标识别网络模型的目标检测网络部分，可基于多联检测器(Cascade R-CNN)和非极大值抑制算法(NMS)实现。

采集多个已知目标已知的训练样本，可按0.85：0.15重新分配出训练集和测试集。m组水下视频可近似看成为m种风格的水下图像。每段视频中不含目标的海床背景图片可进行数据复制扩充得到与训练集和测试集对应的源域学习数据集。

将训练样本中的含有目标对象的鱼类图像和不含有目标对象的背景图片作为检测网络的输入，对应的含有标注信息的鱼类图像样本作为目标检测网络的预期输出，设置网络初始参数，并使用SSD优化器训练目标识别网络模型。

回归分类的损失函数可使用Focalloss函数，候选框损失函数使用IOUloss。IOUloss计算公式为：

其中，B为产生的候选框(candidate bound)，B_gt为原标记框(ground truthbound)。IoUloss将位置信息作为一个整体进行训练，而最小平方误差l₂损失函数却把它们当作互相独立的四个变量进行训练，因此IoUloss能得到更为准确的训练效果；输入任意样本，IoU的值均介于[0,1]之间，这种自然的归一化损失使模型具有更强的处理多尺度图像的能力。

在一个实施例中，设置网络初始参数，对构建的目标识别网络模型进行训练，包括使用如下损失函数进行训练：

其中，γ为聚焦参数(focusing parameter)，γ>＝0；y′是经过激活函数的输出，在0-1之间；α为平衡因子。α可取0.25，即正样本要比负样本占比小。

本发明在标准交叉熵损失基础上修改得到损失函数。本发明的水下鱼类目标检测方法，在损失函数的设计上，考虑了鱼群种类样本数量上存在很大的差异。为了能使产生的正负样本数量趋近1:3，在回归分类上的损失函数使用Focalloss函数，候选框损失函数使用IOUloss。解决环境中采集的鱼类样本不平衡导致的低样本数量鱼类检测精度低下的问题。

针对类别不均衡问题，Focalloss可以通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

下面对本发明提供的水下鱼类目标检测装置进行描述，下文描述的水下鱼类目标检测装置与上文描述的水下鱼类目标检测方法可相互对应参照。

图4是本发明提供的水下鱼类目标检测装置的结构示意图，如图4所示，该水下鱼类目标检测装置包括：获取模块401和处理模块402。其中，获取模块401用于获取水下相机拍摄的待检测图像和无检测目标时的背景图像；处理模块402用于将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的水下鱼类目标检测装置，通过主干网络和辅助网络的特征相减融合，可以有效去除环境干扰，从而提高待检测目标的检测准确率。

图5是本发明提供的水下鱼类目标检测系统结构示意图，如图5所示，本发明还提供了水下鱼类目标检测系统，包括：水下相机1、光源2、光照度变送器3以及水下鱼类目标检测装置4。其中，水下鱼类目标检测装置与水下相机、光源和光照度变送器分别连接。

水下相机能够在水下鱼类目标检测装置的控制下采集鱼群的水下图像，光源用于为水下相机补光，光照度变送器能够感应环境的光线强度并将光线强度信息传送给水下鱼类目标检测装置，水下鱼类目标检测装置根据光线强度信息控制光源开关以及光照强度，且水下鱼类目标检测装置能接收水下相机采集的图像并对图像进行实时鱼类识别和定位。

进一步地，光照度变送器包括依次光照度传感器、微控制器以及通信接口，微控制器与光照度传感器和通信接口分别相连，微控制器能够控制光照度传感器采集数据，并通过通信接口将光照度传感器采集的数据传递给水下鱼类目标检测装置。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行水下鱼类目标检测方法，该方法包括：获取水下相机拍摄的待检测图像和无检测目标时的背景图像；将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的水下鱼类目标检测方法，该方法包括：获取水下相机拍摄的待检测图像和无检测目标时的背景图像；将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的水下鱼类目标检测方法，该方法包括：获取水下相机拍摄的待检测图像和无检测目标时的背景图像；将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；其中，目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种水下鱼类目标检测方法，其特征在于，包括：

获取水下相机拍摄的待检测图像和无检测目标时的背景图像；

将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；

其中，所述目标识别网络模型，根据已知目标对象作为标签的待检图像和背景图像作为样本训练后得到；

主干网络包括浅层信息提取层和四个残差块，辅助网络包括浅层信息提取层和三个残差块，所述将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，包括：

将含有目标对象的待检图像通过主干网络，及不含有目标对象的背景图片通过辅助网络，分别经浅层信息提取层输出初步特征；

将主干网络的浅层信息提取层的输出与辅助网络的第一残差块的输出进行特征相减融合，并输入主干网络的第一残差块，主干网络的第一残差块输出与辅助网络的第二残差块的输出进行特征相减融合，获得相减融合后的第一层特征，并将相减融合后的第一层特征输入主干网络的第二残差块，主干网络的第二残差块输出与辅助网络的第三残差块的输出进行特征相减融合，获得相减融合后的第二层特征，并将相减融合后的第二层特征输入主干网络的第三残差块，主干网络的第三残差块输出相减融合后的第三层特征，将相减融合后的第三层特征输入主干网络的第四残差块，第四残差块输出相减融合后的第四层特征，从而得到相减融合后的四层特征；

所述根据相减融合后特征，输出标有鱼类定位信息的图片检测结果，包括：

将相减融合后的四层特征，进行特征融合；

将融合后特征，输入RPN网络生成目标区域候选框；

将所述目标区域候选框，输入多联检测器进行候选框筛选和分类，得到标有鱼类定位信息的图片检测结果；

所述将相减融合后的四层特征，进行特征融合，包括：

将相减融合后的四层特征x¹,x²,x³和x⁴，以特征图作为输入，依次经过卷积层和批归一化层得到p1、p2、p3、p4；

然后将p4、p3、p2均向下经PixelShuffle结构上采样，进行多尺度融合得到N4、N3、N2和N1；

p1、p2、p3、p4定义为：

其中，D(·)是下采样非线性转换；fpnconv(·)是卷积操作。

2.根据权利要求1所述的水下鱼类目标检测方法，其特征在于，所述依次通过主干网络的四个残差块和辅助网络的三个残差块进行特征处理，包括根据如下公式进行特征提取：

x^l＝F^l(x^l-1-upconv(y^l)),l≥2；

3.根据权利要求1所述的水下鱼类目标检测方法，其特征在于，将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络之前，还包括：

4.根据权利要求3所述的水下鱼类目标检测方法，其特征在于，所述设置网络初始参数，对构建的目标识别网络模型进行训练，包括使用如下损失函数进行训练：

其中，γ为聚焦参数，γ>＝0；y'是经过激活函数的输出，在0-1之间；α为平衡因子。

5.一种水下鱼类目标检测装置，其特征在于，包括：

获取模块，用于获取水下相机拍摄的待检测图像和无检测目标时的背景图像；

处理模块，用于将含有目标对象的待检图像和不含有目标对象的背景图片，分别输入预设的目标识别网络模型的主干网络和辅助网络，分别提取特征并进行主干网络和辅助网络的特征相减融合，根据相减融合后特征，输出标有鱼类定位信息的图片检测结果；

将相减融合后的四层特征，进行特征融合；

将融合后特征，输入RPN网络生成目标区域候选框；

所述将相减融合后的四层特征，进行特征融合，包括：

p1、p2、p3、p4定义为：

其中，D(·)是下采样非线性转换；fpnconv(·)是卷积操作。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述水下鱼类目标检测方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述水下鱼类目标检测方法的步骤。