CN117690011B

CN117690011B - 适用于嘈杂水下场景的目标检测方法及其模型搭建方法

Info

Publication number: CN117690011B
Application number: CN202410152958.6A
Authority: CN
Inventors: 王柘; 郑冰; 张沁悦; 李继哲
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-04-19
Anticipated expiration: 2044-02-04
Also published as: CN117690011A

Abstract

本发明提供了一种适用于嘈杂水下场景的目标检测方法及其模型搭建方法，属于水下目标检测模型学习方法技术领域，本发明设计了样本加权超特征网络，用于特征提取和目标检测；其次，本发明设计了样本加权损失函数，根据样本重要性赋予训练数据权重，以控制样本对目标检测网络训练的影响；此外，进一步设计了三阶段目标检测模型及相应的训练方法；最后，提出了选择性集成算法，通过整合多个高性能检测器构建最终的集成目标检测模型，从而进一步提升水下目标检测性能。总的来说，这些方法共同推动了水下目标检测技术在处理噪声、提升检测准确性和鲁棒性方面取得了显著进步。

Description

适用于嘈杂水下场景的目标检测方法及其模型搭建方法

技术领域

本发明属于水下目标检测模型学习方法技术领域，尤其涉及适用于嘈杂水下场景的目标检测方法及其模型搭建方法。

背景技术

智能水下目标检测系统在海洋资源开发与保护中具有关键作用。然而，复杂的水下环境和光照条件给捕获的图像带来相当大的噪声干扰，给基于智能视觉的水下目标检测系统带来了巨大挑战。目前基于深度学习的目标检测系统在水下环境下仍存在不足，主要因水下数据集稀缺、目标尺寸小和波长依赖的吸收与散射导致噪声数据。这些噪声数据造成图像中对象和背景混淆，给水下目标检测带来困难。因此，解决水下目标检测中的噪声问题对于提升系统性能和泛化能力至关重要。现有的水下目标检测技术主要涵盖以下两种：传统检测方法和深度学习方法。

传统检测方法：传统检测方法涉及基于特征提取和模型匹配的技术，如Adaboost、多帧三联体模式、平均移动分割、归一化交叉校正等，以及基于颜色、形状、纹理等特征进行目标检测和跟踪。然而，这些方法面临光传输问题、背景伪装、目标遮挡和阴影等挑战，限制了其准确性和适用性，并且传统方法在复杂的水下复杂环境中的准确性和适应性有限。

深度学习方法：特别是卷积神经网络（CNN）已经在水下目标检测中表现出潜力。目标检测系统可以从数据中学习特征并识别目标，但水下数据集的稀缺性和噪声问题限制了深度学习模型的性能。

针对水下环境中的噪声数据，一些方法尝试通过图像处理技术或噪声建模来提升目标检测的鲁棒性。然而，噪声多样性和复杂性使得完全消除噪声极具挑战性。此外在水下环境中，通常存在尺寸较小的目标对象，这些对象更难以准确识别和定位，增加了检测的难度。因此，当前的水下目标检测技术需要更多的关注点放在噪声数据处理、数据集质量和多样性的提升，以及小目标检测技术的改进上，从而增强水下目标检测系统的性能和鲁棒性。

总的来看，现有的水下目标检测技术在应对噪声干扰、计算复杂度、数据集稀缺和质量不足等方面尚存在缺陷，需要进一步应对这些问题，以提高水下目标检测的准确性和适用性。

发明内容

针对上述问题，本发明提出新的噪声鲁棒深度检测框架和训练方法，有效处理水下场景中的小目标和噪声数据。

本发明第一方面提出了一种适用于嘈杂水下场景的目标检测模型搭建方法，包括以下过程：

步骤1，获取水下待检测目标原始数据集，对原始数据集进行预处理，获取预处理后的数据集，并划分为训练集和测试集；

步骤2，第一阶段噪声消除阶段；基于两组基础检测模型，使用训练集进行噪声消除阶段的训练学习，未被检测到的目标的权值会减小，通过样本加权损失，下一个目标检测网络将着重学习具有高权重的干净数据；所述基础检测模型包括特征提取网络和目标检测网络；

步骤3，第二阶段噪声学习阶段；使用训练集对其中一组检测模型进行噪声学习阶段的训练学习，通过样本加权损失，增加未被检测到的目标权重，使检测器专注于对带有噪声的样本进行学习；

步骤4，第三阶段集成阶段；通过选择性集成算法将第一阶段和第二阶段得到的检测模型进行集成；

步骤5，使用测试集对集成后的模型进行测试，并获得最终目标检测模型。

优选的，所述步骤1具体包括以下过程：

S1，获取水下待检测目标的原始图像数据，并将收集图像切分成像素大小为的图像，最终得到共/>张图像数据；

S2，利用边框对图像中待检测目标进行相应标签标注，包括被检测目标的位置信息和类别信息，其中位置信息为边框的中心点坐标和边框的长宽/>，类别信息即边框中的被检测目标类别/>，则标签信息为/>；

S3，将图像数据与对应的标签信息合并得到一组训练数据集；

S4，重复执行步骤S2和S3，最终得到完整数据集，并划分为训练集和测试集。

优选的，所述基础检测模型包括多个卷积块、扩张卷积块、反卷积块以及样本加权损失；通过对图像数据的特征提取，得到像素数据对应的高分辨率和语义丰富的特征映射，基于该深层级别特征进行后端目标检测，特征提取网络和目标检测网络集成在一个网络模型中；

所述基础检测模型的网络前端采用标准的VGG16模型架构为基础，在该模型后嵌入扩展卷积块，用于提取高层语义特征，并保持特征地图的分辨率；最后，利用反卷积块对特征图进行上采样，并引入跳层连接，以建立多个超特征图。

优选的，所述样本加权损失具体为：

损失函数包括一个用于边界框分类的样本加权损失/>和一个用于边界框回归的样本加权平滑损失/>：

其中，和/>分别表示训练样本数和正样本数；/>和/>分别表示分类和回归损失的加权系数；/>的计算如下所示：

其中，表示在第m次迭代中计算得到的第i个样本权重；/>和/>分别为第i个样本的预测和真实类别向量，且这两个向量维度为/>；/>和/>表示第i个样本的预测和真实类向量的第/>个元素，当被检测目标属于第/>类时，，否则为0；/>是目标检测网络的分类预测结果；/>为样本加权平滑损失，公式如下：

其中，和/>分别表示第i个样本的预测和真实位置向量，即；/>和/>分别表示第i个样本的第l个预测元素的坐标向量和真实坐标向量；/>为目标检测网络的坐标预测结果。

优选的，基于样本加权损失的网络参数迭代更新过程为：

在严格不能加权检测损失中，样本权值可以调整样本梯度幅值，将目标检测网络的参数表示为/>，则样本加权损失对参数的偏导数/>为：

样本在导数中的梯度大小受到预测的类和坐标的准确性两个因素影响，对于具有真实类的第/>个训练样本，/>，/>和/>更接近真实结果，第/>个样本的梯度幅度越小，对应样本权重为/>。

优选的，所述噪声消除阶段和噪声学习阶段的训练方法为：

用表示在第m次迭代时，第j个样本的权值；针对噪声消除阶段，每个样本目标权值初始化为/>，/>，且该阶段的迭代次数为/>；

在第m次迭代中，首先计算正训练样本的权值；如果第k个正样本在训练过程中与第j个对象匹配，计算第k个正样本的权重为：

(1)

其中，表示在第m次迭代中第j个样本的权值；由于样本加权损失中每个正训练样本的初始权值为1，因此提升正样本的权重为其匹配对象的N倍；之后，使用重新加权的样本来训练检测器；最后，在训练集上运行第m次迭代的检测器，得到检测结果，而/>是第q个预测结果，包括预测类（/>）、分数（/>）和坐标/>；根据未被检测到对象的百分比计算第m个检测器的错误率/>：

(2)

其中：

(3)

如果存在一个检测目标d与第个真实对象/>属于同一类，并且两者检测的IoU大于阈值θ，则设置/>，表示第/>个目标已被检测到；最后，使用式（4）计算第m个检测器的权重/>，用于不同的检测器的集成使用：

(4)

(5)

其中，为被检测目标的类别数；最后，更新每个对象的权重/>，并训练目标检测；

在噪声消除阶段的次迭代中，通过等式（5）减少了未检测对象的权重，这使得后续检测器能够更少地关注可能的噪声数据；在噪声学习阶段的/>次迭代中，通过等式（6）增加未检测到的目标对象的权重，而检测器转向学习不同的噪声数据，直到训练完成；

(6)

其中，是一个标准化常数，此外，从噪声消除到噪声学习阶段时，初始化噪声学习阶段检测器的初始参数为噪声消除阶段最后的训练参数/>。

优选的，所述步骤4中第三阶段集成阶段，具体为：

利用贪婪选择算法选择最终集成的候选检测器；首先，构建一个候选集合E，以对所选的检测器进行相加，并将其初始化为噪声学习阶段中所有迭代的检测器中具有高检测精度的模型参数；然后，逐步选择一个多样性最大的单一检测器，并将其添加到集成模型中，如下式所示：

利用Q统计量测量两个检测器的性能的多样性：

其中，表示检测器/>和/>之间的多样性；/>和/>分别为两个检测器检测到和遗漏的目标物体数；/>为/>遗漏到、/>检测到的目标总数，/>为/>检测到、/>遗漏到的目标总数；当两个检测器的检测结果完全不同时，在/>处达到最大分集，当两个检测器检测结果完全相同时，在/>处达到最小分集；

在选出了所有的候选检测器后，根据不同检测器的权值将它们集成为统一的集成检测器；为具有更大多样性的检测器分配了更高的权重，使得集成检测器能够检测到水下场景中的不同物体；计算检测器/>的多样性权值/>：

检测器的最终权值/>的公式为：

基于候选集合中的所有检测器以及对应的权值加权求和得到最终的集成目标检测模型。

本发明第二方面提供了一种适用于嘈杂水下场景的目标检测方法，其特征在于，包括以下过程：

获取待检测目标图像；

将待检测目标图像输入到如第一方面所述的搭建方法所搭建的最终目标检测模型中；

输出获的目标图像的检测结果，其中包括目标物体的位置信息和相应的类别标识。

本发明第三方面提供了一种适用于嘈杂水下场景的目标检测设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如第一方面所述的搭建方法所搭建的最终目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行一种适用于嘈杂水下场景的目标检测方法。

本发明第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如第一方面所述的搭建方法所搭建的最终目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时，使处理器执行一种适用于嘈杂水下场景的目标检测方法。

与现有技术相比，本发明具有如下有益效果：

小目标检测效果提升：构建样本加权超特征网络用于特征提取和目标检测，充分利用高分辨率和语义丰富的特征映射，可以显著提高小目标检测的效果；

降低噪声数据影响，提高鲁棒性：应用样本加权损失函数，为训练数据赋予权重，以控制训练样本对目标检测网络的影响；通过降低噪声数据干扰，提高模型对关键样本的关注度，增强了模型的鲁棒性；

强泛化能力：利用分阶段学习策略，在噪声消除阶段专注于学习检测容易样本，形成“干净”检测器，减少噪声数据对模型的影响；在噪声学习阶段通过学习不同噪声数据，优化检测器参数，提高系统泛化能力；

提高目标检测准确度：通过集成多个训练效果良好、数据多样性强的检测器，进一步提高水下目标检测的性能。

总的来说，这些方法共同推动了水下目标检测技术在处理噪声、提升检测准确性和鲁棒性方面取得了显著进步。

附图说明

为了更清楚地说明本发明或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍，显而易见地，下面描述的仅仅是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明适用于嘈杂水下场景的目标检测方法的逻辑框图。

图2为本发明基础检测模型的整体结构示意图。

图3为卷积块、扩张卷积块、反卷积块结构示意图。

图4为三阶段检测模型获取最终目标检测模型的整体原理图。

图5为实施例2中目标检测设备的简易结构框图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

为提高复杂水下目标检测的准确性和广泛适用性，本发明提出了一种适用于嘈杂的水下场景的目标检测方法。首先，本发明设计了样本加权超特征网络，用于特征提取和目标检测；其次，本发明设计了样本加权损失函数，根据样本重要性赋予训练数据权重，以控制样本对目标检测网络训练的影响；此外，进一步设计了三阶段目标检测模型及相应的训练方法；最后，提出了选择性集成算法，通过整合多个高性能检测器构建最终的集成目标检测模型，从而进一步提升水下目标检测性能。

本发明整体思路如图1所示，首先提出了一种适用于嘈杂水下场景的目标检测模型搭建方法，包括以下过程：

1.关于水下目标检测数据集的收集与制作

2.第一阶段及第二阶段检测所利用的基础检测模型建立

基础检测模型包括特征提取网络和目标检测网络。通过对图像数据的特征提取，得到像素数据对应的高分辨率和语义丰富的特征映射，基于该深层级别特征进行后端目标检测，特征提取网络和目标检测网络集成在一个网络模型中。该网络模型由多个卷积块、扩张卷积块、反卷积块以及样本加权损失组成。

该网络模型采用标准的VGG16模型架构为基础，在该模型后嵌入扩展卷积块，用于提取高层语义特征，并保持特征地图的分辨率；最后，利用反卷积块对特征图进行上采样，并引入跳层连接，以建立多个超特征图。整体网络模型架构如图2所示，其中卷积块、扩张卷积块、反卷积块结构如图3所示。

3.网络中样本加权损失的设计

由于水下图像数据中包含大量的模糊噪声，导致不同样本数据对模型训练的影响不同。因此本技术设计了一种样本加权损失函数，使其根据训练样本的权重控制训练样本的影响，以解决水下目标检测中的噪声数据问题。

其中，和/>分别表示第i个样本的预测和真实位置向量，即；/>和/>分别表示第i个正训练样本的第l个预测元素的坐标向量和真实坐标向量；/>为目标检测网络的坐标预测结果。

4.样本加权损失的网络参数迭代更新过程

在基于梯度的优化算法中，损失函数在提供用于在反向传播过程中更新模型参数的梯度方面起着关键作用。样本在损失函数导数中的梯度大小决定了其对网络参数更新的影响。在严格不能加权检测损失中，样本权值可以调整样本梯度幅值。将目标检测网络的参数表示为/>，则样本加权损失对参数的偏导数/>为：

样本在导数中的梯度大小受到预测的类和坐标的准确性两个因素影响。对于具有地面真实类的第/>个训练样本（/>），/>和/>更接近真实结果，第/>个样本的梯度幅度越小，对应样本权重为/>。因此，目标检测网络的特征学习主要是高权重样本，而低权重样本对特征更新的贡献更小。

5.目标检测模型的训练策略

水下图像遭受多种退化，如照明不足、噪音和模糊等，这些因素导致被检测的目标带有大量噪声，使其在视觉上与背景相似，因此这类目标更加难以被准确检测到。针对该问题，本发明采用了从易到难的三阶段目标检测策略，并设计了相应的训练方法。三阶段包括噪声消除阶段、噪声学习阶段和检测器集成阶段。

在噪声消除阶段，未被检测到的目标的权值会减小，因为这些数据很可能带有噪声。通过样本加权损失，下一个目标检测网络将着重学习具有高权重的干净数据。为了预防目标检测网络出现过拟合问题，一旦性能达到瓶颈，噪声消除阶段会被中止。最终训练所得的检测器能够有效识别易于辨认的对象，但无法检测带有噪声的对象，因为它忽略了那些带有噪声的样本实例。

在噪声学习阶段，通过增加未被检测到的目标权重，使检测器专注于对带有噪声的样本进行学习。最终，在检测器集成阶段，将噪声学习阶段的检测器与噪声消除阶段的检测器进行协同集成，以提高目标检测模型对带有噪声数据的泛化能力。三阶段检测模型获得最终目标检测模型的整体框图如图4所示。

噪声消除阶段和噪声学习阶段的训练方法为：

(1)

(2)

其中：

(3)

(4)

(5)

(6)

该策略为后续深度检测器提供了良好的初始化，这对于深度网络在训练过程中避免陷入局部最优解问题并增进泛化能力至关重要。

6.选择性集成算法获得最终目标检测模型

本发明利用贪婪选择算法选择最终集成的候选检测器。首先，构建一个候选集合E，以对所选的检测器进行相加，并将其初始化为噪声学习阶段中所有迭代的检测器中具有高检测精度的模型参数。然后，逐步选择一个多样性最大的单一检测器，并将其添加到集成模型中，如下式所示：

利用Q统计量测量两个检测器的性能的多样性：

/>

其中，表示检测器/>和/>之间的多样性；/>和/>分别为两个检测器检测到和遗漏的目标物体数；/>为/>遗漏到、/>检测到的目标总数，/>为/>检测到、/>遗漏到的目标总数。当两个检测器的检测结果完全不同时，在/>处达到最大分集，当两个检测器检测结果完全相同时，在/>处达到最小分集。

在选出了所有的候选检测器后，根据不同检测器的权值将它们集成为统一的集成检测器。本发明为具有更大多样性的检测器分配了更高的权重。这使得集成检测器能够检测到水下场景中的不同物体。计算检测器/>的多样性权值/>：

检测器的最终权值/>的公式为

针对待检测的图像样本，使用通过贪婪选择算法得到的目标检测模型作为集成目标检测模型，将待检测样本输入检测模型中，最终获取目标图像的检测结果，其中包括物体的位置信息和相应的类别标识。通过实验发现，每个检测目标的位置和类别信息都以方框及相应的类别标签方式展示，作为目标检测的视觉呈现。根据目标检测结果可以发现，本发明提出的目标检测模型在实现高精度检测方面的卓越表现。本实施例还提供了与目前知名模型CNN、VGG16和YOLOV8的结果对比，评价指标采用mAP50和mAP50：95，其中mAP50是IoU阈值等于0.5时所有类别的平均检测精度，mAP50：95表示步长为0.05，计算IoU阈值从0.5-0.95的所有IoU阈值下的检测精度的平均值。结果如表1所示，本发明提出的模型在mAP50和mAP50:95上均取得了最大值，说明本模型具有较高的精确度。

表1 测试数据集在不同模型的定量分析

实施例2：

如图5所示，本发明同时提供了一种适用于嘈杂水下场景的目标检测设备，设备包括至少一个处理器和至少一个存储器，同时还包括通信接口和内部总线；存储器中存储有如实施例1所述的搭建方法所搭建的最终目标检测模型的计算机执行程序；所述处理器执行存储器存储的计算机执行程序时，可以使处理器执行一种适用于嘈杂水下场景的目标检测方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(XtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

设备可以被提供为终端、服务器或其它形态的设备。

图5是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储有如实施例1所述的所述的搭建方法所搭建的最终目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行一种适用于嘈杂水下场景的目标检测方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于，包括以下过程：

所述噪声消除阶段和噪声学习阶段的训练方法为：

用表示在第/>次迭代时，第/>个样本的权值；针对噪声消除阶段，每个样本目标权值初始化为/>，/>，且该阶段的迭代次数为/>；

在第m次迭代中，首先计算正训练样本的权值；如果第个正样本在训练过程中与第/>个对象匹配，计算第/>个正样本的权重/>为：

(1)

其中，表示在第m次迭代中第/>个样本的权值；由于样本加权损失中每个正训练样本的初始权值为1，因此提升正样本的权重为其匹配对象的/>倍；之后，使用重新加权的样本来训练检测器；最后，在训练集上运行第m次迭代的检测器，得到检测结果，而/>是第q个预测结果，包括预测类（/>）、分数（/>）和坐标/>；根据未被检测到对象的百分比计算第m个检测器的错误率/>：

(2)

其中：

(3)

如果存在一个检测目标d与第个真实对象/>属于同一类，并且两者检测的IoU大于阈值θ，则设置/>，表示第/>个目标已被检测到；最后，使用式（4）计算第m个检测器的权重，用于不同的检测器的集成使用：

(4)

(5)

(6)

其中，是一个标准化常数，此外，从噪声消除到噪声学习阶段时，初始化噪声学习阶段检测器的初始参数为噪声消除阶段最后的训练参数/>；

2.如权利要求1所述的一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于，所述步骤1具体包括以下过程：

3.如权利要求1所述的一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于：所述基础检测模型包括多个卷积块、扩张卷积块、反卷积块以及样本加权损失；通过对图像数据的特征提取，得到像素数据对应的高分辨率和语义丰富的特征映射，基于该特征映射进行后端目标检测，特征提取网络和目标检测网络集成在一个网络模型中；

4.如权利要求1所述的一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于，所述样本加权损失具体为：

其中，表示在第m次迭代中计算得到的第i个样本权重；/>和/>分别为第i个样本的预测和真实类别向量，且这两个向量维度为/>；/>和/>表示第i个样本的预测和真实类向量的第/>个元素，当被检测目标属于第/>类时，/>，否则为0；/>是目标检测网络的分类预测结果；/>为样本加权平滑损失，公式如下：

其中，和/>分别表示第/>个正样本的预测和真实位置向量，即；/>和/>分别表示第/>个正样本的第/>个预测元素的坐标向量和真实坐标向量；/>为目标检测网络的坐标预测结果。

5.如权利要求4所述的一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于，基于样本加权损失的网络参数迭代更新过程为：

在样本加权损失中，样本权值可以调整样本梯度幅值，将目标检测网络的参数表示为/>，则样本加权损失对参数的偏导数/>为：

样本在导数中的梯度大小受到预测的类和坐标的准确性两个因素影响，对于具有真实类的第/>个训练样本，/>，则/>和/>更接近真实结果，第/>个样本的梯度幅度越小，对应样本权重为/>。

6.如权利要求1所述的一种适用于嘈杂水下场景的目标检测模型搭建方法，其特征在于，所述步骤4中第三阶段集成阶段，具体为：

利用Q统计量测量两个检测器的性能的多样性：

检测器的最终权值/>的公式为：

7.一种适用于嘈杂水下场景的目标检测方法，其特征在于，包括以下过程：

获取待检测目标图像；

将待检测目标图像输入到如权利要求1至6任意一项所述的搭建方法所搭建的最终目标检测模型中；

8.一种适用于嘈杂水下场景的目标检测设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如权利要求1至6任意一项所述的搭建方法所搭建的最终目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行一种适用于嘈杂水下场景的目标检测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如权利要求1至6任意一项所述的搭建方法所搭建的最终目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时，使处理器执行一种适用于嘈杂水下场景的目标检测方法。