CN115115863A

CN115115863A - 水面多尺度目标检测方法、装置及系统和存储介质

Info

Publication number: CN115115863A
Application number: CN202210751621.8A
Authority: CN
Inventors: 马忠丽; 曾钥涵; 吴丽丽; 万毅; 李嘉迪; 张锦宇
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-27

Abstract

本发明公开一种水面多尺度目标检测方法、装置及系统和存储介质，建立了一个涵盖十类、近一万两千张图片的水面目标数据集，首先对数据集中的目标框进行提取优化，得到尺度分布更广的预设目标框；然后在主干网络嵌入双重注意力机制，改善目标多尺度导致的大、小目标检测精度差异过大的问题；同时使用改进的金字塔池化模块，增强模型分割不同尺度目标的感知能力，改善普通下采样方法导致分辨率下降、局部信息丢失的问题；最后加入分类损失函数，改善由于数据样本类别不均衡导致的过拟合与准确性差的问题。结果表明该检测方法对水面多尺度目标的检测精度高，漏检率低。

Description

水面多尺度目标检测方法、装置及系统和存储介质

技术领域

本发明属于图像处理和计算机视觉技术领域，涉及目标检测技术，特别是涉及一种水面多尺度目标检测方法、装置及系统和存储介质。

背景技术

进入二十一世纪以来，随着科学技术的快速发展，海洋经济总量持续增长，海洋经济已成为拉动国民经济发展的重要引擎。我国拥有广阔的海洋领土面积，并且日渐依赖海洋空间及其资源，维护国家海洋权益、建设海洋强国也是必然之路。目标检测是其发展必不可少的研究任务。

近年来，随着人工智能，大数据，云计算，深度学习等新一轮信息技术的不断革新和完善，智能目标检测技术和方法不断推出，视觉系统在智能检测设备中的应用也愈加广泛和成熟，其中，水面智能装备的目标检测对于监管水域环境、保障航运安全、执行军事任务、开展海洋资源勘探以及值守无人岛礁具有重要意义和作用。

尽管当前存在许多目标检测方法，但无论是基于模板匹配、目标结构还是基于深度学习方法，都存在一定的普适性问题，这些方法对单一目标的检测效果良好，而对多目标类型的检测能力较差。在实际场景中，水上目标种类的多样性，有货轮、游轮、帆船、军舰、鸟等，对于同一种类型的目标，其类内差异也会较大。水面上的目标尺度分布差别较大，存在遮挡较多，这些因素的存在都会导致目标检测的精度降低，所以目标大小分布的不均性以及目标的姿态、尺度、视角的不确定性大大提高了水面目标检测的难度。解决水面多尺度目标检测中目标检测精度不均衡，提升当前目标检测器的整体表现是一项具有挑战性的工作。

目标检测和识别是水上智能设备视觉系统需要进行研究的主要任务，对水上多目标进行正确的识别与分类，同时提升视觉系统中目标检测的精度也是研究重点，这对于保障水空环境安全具有重要意义。

因此，目前急需一种对水面多尺度目标检测精度高、漏检率低的方案，解决上述问题。

发明内容

提供了本发明以解决现有技术中存在的上述问题。因此，需要一种水面多尺度目标检测方法、装置及系统和存储介质，使用基于回归的目标检测方法对水面出现的物体进行检测与识别。

根据本发明的第一方案，提供了一种水面多尺度目标检测方法，所述方法包括：

图像预处理：获取若干张图片，分别对各张图片随机缩放、随机裁剪、随机排布，并进行图片和先验框的拼接；

预设目标框优化：初始化聚类中心，从输入的数据集中随机选取一个样本点作为第一个中心点，对每一个样本点分别计算到已选取的中心点的距离，按照轮盘法重新选择新的聚类中心，不断迭代重复，直至所有样本点归属类别都没有发生变化时停止；

多尺度特征提取：将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图F_CONV1，然后将所述全局特征图F_CONV1经过归一化处理后，再通过激活函数得到特征图F_CONV2；加入双重注意力机制，通过通道注意力模块和空间注意力模块，使所述特征图F_CONV2沿着通道和空间两个独立的维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征；将获得的特征图经过改进的金字塔池化模块，统一采用3×3的最大池化的方式，引入不同的膨胀率来获取不同尺度的感受野，提取多尺度的特征信息；

多尺度特征融合：Neck层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行多尺度特征融合；

多尺度图像预测：使用融合后的各种尺度的特征图分别预测不同大小的物体；

损失计算：采用分类损失函数来计算，以改善由于样本分类不均导致的过拟合与准确度低的问题，提升检测框的回归精度，得到最终的目标检测网络。

进一步地，所述方法的检测类别标签至少包括军舰、邮轮、货轮、帆船、游艇、其他船、人、鸟、鱼。

进一步地，所述预设目标框优化的计算公式为：

其中R(x)为计算初始聚类中心点到每一个数据样本x_i的距离，P(x)为每个样本成为下一个聚类中心的概率。

进一步地，所述通道注意力模块和空间注意力模块的关注过程如下公式所示：

其中A表示输入特征图，N_c为一维通道注意图，A'表示一维通道输出特征图，N_s为二维空间注意图，

表示逐元素相乘；在乘法过程中，注意值会相应地广播：频道注意值是沿空间维度广播的，反之亦然；A”是最终的改进后的输出。

进一步地，所述改进的金字塔池化模块以不同的膨化率采样特征图片，对于给定的输入以不同膨化率的空洞卷积并行采样，将得到的结果在通道层面合并在一起，扩大通道数，接着再通过1×1的卷积将通道数降低到预期的数值。

进一步地，所述分类损失函数为：

其中s表示真实样本的标签；t表示经过softmax函数的预测输出值；

为平衡因子，η是在二分类交叉熵的基础上加入的因子，若η>0，代表易分类样本损失会降低，网络对困难样本且易错分的样本给予更多关注，以降低易分类样本在网络训练时产生的影响。

根据本发明的第二技术方案，提供一种水面多尺度目标检测装置，所述装置包括：

图像预处理模块，被配置为获取若干张图片，分别对各张图片随机缩放、随机裁剪、随机排布，并进行图片和先验框的拼接；

预设目标框优化模块，被配置为初始化聚类中心，从输入的数据集中随机选取一个样本点作为第一个中心点，对每一个样本点分别计算到已选取的中心点的距离，按照轮盘法重新选择新的聚类中心，不断迭代重复，直至所有样本点归属类别都没有发生变化时停止；

多尺度特征提取模块，被配置为将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图F_CONV1，然后将所述全局特征图F_CONV1经过归一化处理后，再通过激活函数得到特征图F_CONV2；加入双重注意力机制，通过通道注意力模块和空间注意力模块，使所述特征图F_CONV2沿着通道和空间两个独立的维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征；将获得的特征图经过改进的金字塔池化模块，统一采用3×3的最大池化的方式，引入不同的膨胀率来获取不同尺度的感受野，提取多尺度的特征信息；

多尺度特征融合模块，被配置为Neck层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行多尺度特征融合；

多尺度图像预测模块，被配置为使用融合后的各种尺度的特征图分别预测不同大小的物体；

损失计算模块，被配置为采用分类损失函数来计算，以改善由于样本分类不均导致的过拟合与准确度低的问题，提升检测框的回归精度，得到最终的目标检测网络。

进一步，所述分类损失函数为：

根据本发明的第三技术方案，提供一种水面多尺度目标检测系统，所述系统包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上所述的方法。

根据本发明的第四技术方案，提供一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行如上所述的方法。

根据本发明各个方案的水面多尺度目标检测方法、装置及系统和存储介质，其至少具有以下技术效果：

本发明所提出的水面多尺度目标检测方法中所使用的基于回归的目标检测网络加入了双重注意力机制，沿着空间和通道两个维度依次推断出注意力权重，减少了特征信息丢失，节约了参数和计算力；经过改进的金字塔池化模块，引入不同的膨胀率来获取不同尺度的感受野，提取多尺度的特征信息，改善普通下采样方法导致分辨率下降、局部信息丢失的问题；同时使用分类损失函数，解决样本类别不平衡以及样本分类难度不平衡等问题，因此水面多尺度目标检测精度高。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了根据本发明实施例的一种水面多尺度目标检测方法的流程图。

图2示出了根据本发明实施例的网络模型图。

图3示出了根据本发明实施例的数据集示例图。

图4示出了根据本发明实施例的数据集种类分布图。

图5示出了根据本发明实施例的多尺度分布柱状图。

图6a示出了根据本发明实施例的多尺度检测结果图。

图6b示出了根据本发明实施例的多尺度检测结果图。

图7示出了根据本发明实施例的一种水面多尺度目标检测装置的结构图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述，但不作为对本发明的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

本发明实施例提供一种水面多尺度目标检测方法，请如图1和图2所示，该方法包括如下步骤：

步骤一、图像预处理：获取若干张图片，分别对各张图片随机缩放、随机裁剪、随机排布，并进行图片和先验框的拼接。其中图片的具体数量根据预设的数量来确定，至少为两个，例如可以是四个、八个等等，本实施例对此不作具体限制。

步骤二、预设目标框优化：初始化聚类中心，从输入的数据集中随机选取一个样本点作为第一个中心点，对每一个样本点分别计算到已选取的中心点的距离，按照轮盘法重新选择新的聚类中心，不断迭代重复，直至所有样本点归属类别都没有发生变化时停止。

其中每个中心点即为聚类中心，每个聚类中心分别代表一个检测类别标签。具体的检测类别标签根据不同的数据集种类来确定。仅作为示例，检测类别标签至少包括warship(军舰)、youlun(邮轮)、Cargoship(货轮)、fanchuan(帆船)、yacht(游艇)、otherboat(其他船)、person(人)、bird(鸟)、fish(鱼)。本实施例中所述的数据集包括若干图片数据，每个图片数据包括若干样本点，针对各个图片数据进行上述聚类中心的确定，每个聚类中心点下包括多个样本点，以此优化预设目标框。

在一些实施例中，所述预设目标框优化的计算公式为：

示例性的，如图3所示，是本实施例所使用的数据集示例图，基于上述数据集，进行步骤二预设目标框优化的操作，得到的数据集种类分布如图4 所示。

步骤四，多尺度特征提取：将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图F_CONV1，然后将所述全局特征图F_CONV1经过归一化处理后，再通过激活函数得到特征图F_CONV2；加入双重注意力机制，通过通道注意力模块和空间注意力模块，使所述特征图F_CONV2沿着通道和空间两个独立的维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征；将获得的特征图经过改进的金字塔池化模块，统一采用3×3的最大池化的方式，引入不同的膨胀率来获取不同尺度的感受野，提取多尺度的特征信息。

其中多尺度的特征信息包括大尺度、中尺度、小尺度的特征信息，通过上述处理后得到的多尺度分布柱状图如图4所示。根据不同尺度的特征提取，可以获得对应的“小目标”、“中目标”、“大目标”，其中术语“小目标”、“中目标”、“大目标”是采用绝对目标的定义对目标尺度分布情况进行统计，将小于整张图片0.12％像素区域的目标视为小目标，大于0.12％小于0.38％的视为中目标，大于0.38％的视为大目标。

在一些实施例中，所述通道注意力模块和空间注意力模块的关注过程如下公式所示：

在一些实施例中，所述改进的金字塔池化模块以不同的膨化率采样特征图片，对于给定的输入以不同膨化率的空洞卷积并行采样，将得到的结果在通道层面合并在一起，扩大通道数，接着再通过1×1的卷积将通道数降低到预期的数值。

步骤五，多尺度特征融合：Neck层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行多尺度特征融合。

步骤六，多尺度图像预测：使用融合后的各种尺度的特征图分别预测不同大小的物体；

步骤七，损失计算：采用分类损失函数来计算，以改善由于样本分类不均导致的过拟合与准确度低的问题，提升检测框的回归精度，得到最终的目标检测网络。

在一些实施例中，所述分类损失函数为：

利用本实施例所述方法对输入图片数据的检测结果如图6a和图6b所示，图中的方框内表示的是识别出来的图片数据中的目标检测物，各个方框的左上方文字符表示对应目标的认证编码，当然其不仅仅是如图中所示的表述方式，也可以用其他形式，例如中文等等。

本发明实施例还提供一种水面多尺度目标检测装置，请参阅图7，图7 示出了根据本发明实施例的一种水面多尺度目标检测装置的结构图。所述装置包括：

图像预处理模块701，被配置为获取若干张图片，分别对各张图片随机缩放、随机裁剪、随机排布，并进行图片和先验框的拼接；

预设目标框优化模块702，被配置为初始化聚类中心，从输入的数据集中随机选取一个样本点作为第一个中心点，对每一个样本点分别计算到已选取的中心点的距离，按照轮盘法重新选择新的聚类中心，不断迭代重复，直至所有样本点归属类别都没有发生变化时停止；

多尺度特征提取模块703，被配置为将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图F_CONV1，然后将所述全局特征图F_CONV1经过归一化处理后，再通过激活函数得到特征图F_CONV2；加入双重注意力机制，通过通道注意力模块和空间注意力模块，使所述特征图F_CONV2沿着通道和空间两个独立的维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征；将获得的特征图经过改进的金字塔池化模块，统一采用3×3 的最大池化的方式，引入不同的膨胀率来获取不同尺度的感受野，提取多尺度的特征信息；

多尺度特征融合模块704，被配置为Neck层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行多尺度特征融合；

多尺度图像预测模块705，被配置为使用融合后的各种尺度的特征图分别预测不同大小的物体；

损失计算模块706，被配置为采用分类损失函数来计算，以改善由于样本分类不均导致的过拟合与准确度低的问题，提升检测框的回归精度，得到最终的目标检测网络。

在一些实施例中，所述分类损失函数为：

在一些实施例中，所述预设目标框优化的计算公式为：

在一些实施例中，所述多尺度特征提取模块703被进一步配置为：所述通道注意力模块和空间注意力模块的关注过程如下公式所示：

在一些实施例中，所述多尺度特征提取模块703被进一步配置为：所述改进的金字塔池化模块以不同的膨化率采样特征图片，对于给定的输入以不同膨化率的空洞卷积并行采样，将得到的结果在通道层面合并在一起，扩大通道数，接着再通过1×1的卷积将通道数降低到预期的数值。

需要注意，描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块也可以设置在处理器中。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

本发明实施例所提到的水面多尺度目标检测装置与在先阐述的方法属于同一技术构思，其起到的技术效果基本一致，此处不赘述。

本发明实施例还提供一种水面多尺度目标检测系统，所述系统包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现本发明任一实施例的水面多尺度目标方法。

本发明实施例还提供了一种存储有指令的非暂时性计算机可读介质，当指令由处理器执行时，执行根据本发明任一实施例所述的水面多尺度目标方法。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的发明的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。