CN115115863A - 水面多尺度目标检测方法、装置及系统和存储介质 - Google Patents

水面多尺度目标检测方法、装置及系统和存储介质 Download PDF

Info

Publication number
CN115115863A
CN115115863A CN202210751621.8A CN202210751621A CN115115863A CN 115115863 A CN115115863 A CN 115115863A CN 202210751621 A CN202210751621 A CN 202210751621A CN 115115863 A CN115115863 A CN 115115863A
Authority
CN
China
Prior art keywords
scale
attention
feature
module
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210751621.8A
Other languages
English (en)
Inventor
马忠丽
曾钥涵
吴丽丽
万毅
李嘉迪
张锦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210751621.8A priority Critical patent/CN115115863A/zh
Publication of CN115115863A publication Critical patent/CN115115863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种水面多尺度目标检测方法、装置及系统和存储介质,建立了一个涵盖十类、近一万两千张图片的水面目标数据集,首先对数据集中的目标框进行提取优化,得到尺度分布更广的预设目标框;然后在主干网络嵌入双重注意力机制,改善目标多尺度导致的大、小目标检测精度差异过大的问题;同时使用改进的金字塔池化模块,增强模型分割不同尺度目标的感知能力,改善普通下采样方法导致分辨率下降、局部信息丢失的问题;最后加入分类损失函数,改善由于数据样本类别不均衡导致的过拟合与准确性差的问题。结果表明该检测方法对水面多尺度目标的检测精度高,漏检率低。

Description

水面多尺度目标检测方法、装置及系统和存储介质
技术领域
本发明属于图像处理和计算机视觉技术领域,涉及目标检测技术,特别 是涉及一种水面多尺度目标检测方法、装置及系统和存储介质。
背景技术
进入二十一世纪以来,随着科学技术的快速发展,海洋经济总量持续增 长,海洋经济已成为拉动国民经济发展的重要引擎。我国拥有广阔的海洋领 土面积,并且日渐依赖海洋空间及其资源,维护国家海洋权益、建设海洋强 国也是必然之路。目标检测是其发展必不可少的研究任务。
近年来,随着人工智能,大数据,云计算,深度学习等新一轮信息技术 的不断革新和完善,智能目标检测技术和方法不断推出,视觉系统在智能检 测设备中的应用也愈加广泛和成熟,其中,水面智能装备的目标检测对于监 管水域环境、保障航运安全、执行军事任务、开展海洋资源勘探以及值守无 人岛礁具有重要意义和作用。
尽管当前存在许多目标检测方法,但无论是基于模板匹配、目标结构还 是基于深度学习方法,都存在一定的普适性问题,这些方法对单一目标的检 测效果良好,而对多目标类型的检测能力较差。在实际场景中,水上目标种 类的多样性,有货轮、游轮、帆船、军舰、鸟等,对于同一种类型的目标, 其类内差异也会较大。水面上的目标尺度分布差别较大,存在遮挡较多,这 些因素的存在都会导致目标检测的精度降低,所以目标大小分布的不均性以 及目标的姿态、尺度、视角的不确定性大大提高了水面目标检测的难度。解 决水面多尺度目标检测中目标检测精度不均衡,提升当前目标检测器的整体 表现是一项具有挑战性的工作。
目标检测和识别是水上智能设备视觉系统需要进行研究的主要任务,对 水上多目标进行正确的识别与分类,同时提升视觉系统中目标检测的精度也 是研究重点,这对于保障水空环境安全具有重要意义。
因此,目前急需一种对水面多尺度目标检测精度高、漏检率低的方案, 解决上述问题。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种水面 多尺度目标检测方法、装置及系统和存储介质,使用基于回归的目标检测方 法对水面出现的物体进行检测与识别。
根据本发明的第一方案,提供了一种水面多尺度目标检测方法,所述方 法包括:
图像预处理:获取若干张图片,分别对各张图片随机缩放、随机裁剪、 随机排布,并进行图片和先验框的拼接;
预设目标框优化:初始化聚类中心,从输入的数据集中随机选取一个样 本点作为第一个中心点,对每一个样本点分别计算到已选取的中心点的距离, 按照轮盘法重新选择新的聚类中心,不断迭代重复,直至所有样本点归属类 别都没有发生变化时停止;
多尺度特征提取:将预处理后的图像经过3×3的卷积操作之后得到低层 全局特征图FCONV1,然后将所述全局特征图FCONV1经过归一化处理后,再通 过激活函数得到特征图FCONV2;加入双重注意力机制,通过通道注意力模块 和空间注意力模块,使所述特征图FCONV2沿着通道和空间两个独立的维度依 次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征;将 获得的特征图经过改进的金字塔池化模块,统一采用3×3的最大池化的方式, 引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的特征信息;
多尺度特征融合:Neck层自顶向下传达强语义特征,特征金字塔则自底 向上传达强定位特征,从不同的主干层对不同的检测层进行多尺度特征融合;
多尺度图像预测:使用融合后的各种尺度的特征图分别预测不同大小的 物体;
损失计算:采用分类损失函数来计算,以改善由于样本分类不均导致的 过拟合与准确度低的问题,提升检测框的回归精度,得到最终的目标检测网 络。
进一步地,所述方法的检测类别标签至少包括军舰、邮轮、货轮、帆船、 游艇、其他船、人、鸟、鱼。
进一步地,所述预设目标框优化的计算公式为:
Figure BDA0003718447850000021
其中R(x)为计算初始聚类中心点到每一个数据样本xi的距离,P(x)为每 个样本成为下一个聚类中心的概率。
进一步地,所述通道注意力模块和空间注意力模块的关注过程如下公式 所示:
Figure BDA0003718447850000031
Figure BDA0003718447850000032
其中A表示输入特征图,Nc为一维通道注意图,A'表示一维通道输出特 征图,Ns为二维空间注意图,
Figure BDA0003718447850000033
表示逐元素相乘;在乘法过程中,注意值会 相应地广播:频道注意值是沿空间维度广播的,反之亦然;A”是最终的改进 后的输出。
进一步地,所述改进的金字塔池化模块以不同的膨化率采样特征图片, 对于给定的输入以不同膨化率的空洞卷积并行采样,将得到的结果在通道层 面合并在一起,扩大通道数,接着再通过1×1的卷积将通道数降低到预期的 数值。
进一步地,所述分类损失函数为:
Figure RE-GDA0003755221240000034
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure BDA0003718447850000035
为 平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样 本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分 类样本在网络训练时产生的影响。
根据本发明的第二技术方案,提供一种水面多尺度目标检测装置,所述 装置包括:
图像预处理模块,被配置为获取若干张图片,分别对各张图片随机缩放、 随机裁剪、随机排布,并进行图片和先验框的拼接;
预设目标框优化模块,被配置为初始化聚类中心,从输入的数据集中随 机选取一个样本点作为第一个中心点,对每一个样本点分别计算到已选取的 中心点的距离,按照轮盘法重新选择新的聚类中心,不断迭代重复,直至所 有样本点归属类别都没有发生变化时停止;
多尺度特征提取模块,被配置为将预处理后的图像经过3×3的卷积操作 之后得到低层全局特征图FCONV1,然后将所述全局特征图FCONV1经过归一化 处理后,再通过激活函数得到特征图FCONV2;加入双重注意力机制,通过通 道注意力模块和空间注意力模块,使所述特征图FCONV2沿着通道和空间两个 独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自 适应特征;将获得的特征图经过改进的金字塔池化模块,统一采用3×3的最 大池化的方式,引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的 特征信息;
多尺度特征融合模块,被配置为Neck层自顶向下传达强语义特征,特 征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行 多尺度特征融合;
多尺度图像预测模块,被配置为使用融合后的各种尺度的特征图分别预 测不同大小的物体;
损失计算模块,被配置为采用分类损失函数来计算,以改善由于样本分 类不均导致的过拟合与准确度低的问题,提升检测框的回归精度,得到最终 的目标检测网络。
进一步,所述分类损失函数为:
Figure RE-GDA0003755221240000041
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure BDA0003718447850000042
为 平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样 本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分 类样本在网络训练时产生的影响。
根据本发明的第三技术方案,提供一种水面多尺度目标检测系统,所述 系统包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上所述的方法。
根据本发明的第四技术方案,提供一种存储有指令的非暂时性计算机可 读存储介质,当所述指令由处理器执行时,执行如上所述的方法。
根据本发明各个方案的水面多尺度目标检测方法、装置及系统和存储介 质,其至少具有以下技术效果:
本发明所提出的水面多尺度目标检测方法中所使用的基于回归的目标检 测网络加入了双重注意力机制,沿着空间和通道两个维度依次推断出注意力 权重,减少了特征信息丢失,节约了参数和计算力;经过改进的金字塔池化 模块,引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的特征信息, 改善普通下采样方法导致分辨率下降、局部信息丢失的问题;同时使用分类 损失函数,解决样本类别不平衡以及样本分类难度不平衡等问题,因此水面 多尺度目标检测精度高。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描 述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似 部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例, 并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当 的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的 实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出了根据本发明实施例的一种水面多尺度目标检测方法的流程图。
图2示出了根据本发明实施例的网络模型图。
图3示出了根据本发明实施例的数据集示例图。
图4示出了根据本发明实施例的数据集种类分布图。
图5示出了根据本发明实施例的多尺度分布柱状图。
图6a示出了根据本发明实施例的多尺度检测结果图。
图6b示出了根据本发明实施例的多尺度检测结果图。
图7示出了根据本发明实施例的一种水面多尺度目标检测装置的结构图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具 体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实 施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步 骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述 的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要 不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
本发明实施例提供一种水面多尺度目标检测方法,请如图1和图2所示, 该方法包括如下步骤:
步骤一、图像预处理:获取若干张图片,分别对各张图片随机缩放、随 机裁剪、随机排布,并进行图片和先验框的拼接。其中图片的具体数量根据 预设的数量来确定,至少为两个,例如可以是四个、八个等等,本实施例对 此不作具体限制。
步骤二、预设目标框优化:初始化聚类中心,从输入的数据集中随机选 取一个样本点作为第一个中心点,对每一个样本点分别计算到已选取的中心 点的距离,按照轮盘法重新选择新的聚类中心,不断迭代重复,直至所有样 本点归属类别都没有发生变化时停止。
其中每个中心点即为聚类中心,每个聚类中心分别代表一个检测类别标 签。具体的检测类别标签根据不同的数据集种类来确定。仅作为示例,检测 类别标签至少包括warship(军舰)、youlun(邮轮)、Cargoship(货轮)、fanchuan(帆 船)、yacht(游艇)、otherboat(其他船)、person(人)、bird(鸟)、fish(鱼)。本实施 例中所述的数据集包括若干图片数据,每个图片数据包括若干样本点,针对 各个图片数据进行上述聚类中心的确定,每个聚类中心点下包括多个样本点, 以此优化预设目标框。
在一些实施例中,所述预设目标框优化的计算公式为:
Figure BDA0003718447850000061
其中R(x)为计算初始聚类中心点到每一个数据样本xi的距离,P(x)为每 个样本成为下一个聚类中心的概率。
示例性的,如图3所示,是本实施例所使用的数据集示例图,基于上述 数据集,进行步骤二预设目标框优化的操作,得到的数据集种类分布如图4 所示。
步骤四,多尺度特征提取:将预处理后的图像经过3×3的卷积操作之后 得到低层全局特征图FCONV1,然后将所述全局特征图FCONV1经过归一化处理 后,再通过激活函数得到特征图FCONV2;加入双重注意力机制,通过通道注 意力模块和空间注意力模块,使所述特征图FCONV2沿着通道和空间两个独立 的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应 特征;将获得的特征图经过改进的金字塔池化模块,统一采用3×3的最大池 化的方式,引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的特征 信息。
其中多尺度的特征信息包括大尺度、中尺度、小尺度的特征信息,通过 上述处理后得到的多尺度分布柱状图如图4所示。根据不同尺度的特征提取, 可以获得对应的“小目标”、“中目标”、“大目标”,其中术语“小目标”、“中目 标”、“大目标”是采用绝对目标的定义对目标尺度分布情况进行统计,将小于 整张图片0.12%像素区域的目标视为小目标,大于0.12%小于0.38%的视为中 目标,大于0.38%的视为大目标。
在一些实施例中,所述通道注意力模块和空间注意力模块的关注过程如 下公式所示:
Figure BDA0003718447850000071
Figure BDA0003718447850000072
其中A表示输入特征图,Nc为一维通道注意图,A'表示一维通道输出特 征图,Ns为二维空间注意图,
Figure BDA0003718447850000073
表示逐元素相乘;在乘法过程中,注意值会 相应地广播:频道注意值是沿空间维度广播的,反之亦然;A”是最终的改进 后的输出。
在一些实施例中,所述改进的金字塔池化模块以不同的膨化率采样特征 图片,对于给定的输入以不同膨化率的空洞卷积并行采样,将得到的结果在 通道层面合并在一起,扩大通道数,接着再通过1×1的卷积将通道数降低到 预期的数值。
步骤五,多尺度特征融合:Neck层自顶向下传达强语义特征,特征金字 塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行多尺度 特征融合。
步骤六,多尺度图像预测:使用融合后的各种尺度的特征图分别预测不 同大小的物体;
步骤七,损失计算:采用分类损失函数来计算,以改善由于样本分类不 均导致的过拟合与准确度低的问题,提升检测框的回归精度,得到最终的目 标检测网络。
在一些实施例中,所述分类损失函数为:
Figure RE-GDA0003755221240000074
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure BDA0003718447850000075
为 平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样 本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分 类样本在网络训练时产生的影响。
利用本实施例所述方法对输入图片数据的检测结果如图6a和图6b所示, 图中的方框内表示的是识别出来的图片数据中的目标检测物,各个方框的左 上方文字符表示对应目标的认证编码,当然其不仅仅是如图中所示的表述方 式,也可以用其他形式,例如中文等等。
本发明实施例还提供一种水面多尺度目标检测装置,请参阅图7,图7 示出了根据本发明实施例的一种水面多尺度目标检测装置的结构图。所述装 置包括:
图像预处理模块701,被配置为获取若干张图片,分别对各张图片随机 缩放、随机裁剪、随机排布,并进行图片和先验框的拼接;
预设目标框优化模块702,被配置为初始化聚类中心,从输入的数据集 中随机选取一个样本点作为第一个中心点,对每一个样本点分别计算到已选 取的中心点的距离,按照轮盘法重新选择新的聚类中心,不断迭代重复,直 至所有样本点归属类别都没有发生变化时停止;
多尺度特征提取模块703,被配置为将预处理后的图像经过3×3的卷积 操作之后得到低层全局特征图FCONV1,然后将所述全局特征图FCONV1经过归 一化处理后,再通过激活函数得到特征图FCONV2;加入双重注意力机制,通 过通道注意力模块和空间注意力模块,使所述特征图FCONV2沿着通道和空间 两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进 行自适应特征;将获得的特征图经过改进的金字塔池化模块,统一采用3×3 的最大池化的方式,引入不同的膨胀率来获取不同尺度的感受野,提取多尺 度的特征信息;
多尺度特征融合模块704,被配置为Neck层自顶向下传达强语义特征, 特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进 行多尺度特征融合;
多尺度图像预测模块705,被配置为使用融合后的各种尺度的特征图分 别预测不同大小的物体;
损失计算模块706,被配置为采用分类损失函数来计算,以改善由于样 本分类不均导致的过拟合与准确度低的问题,提升检测框的回归精度,得到 最终的目标检测网络。
在一些实施例中,所述分类损失函数为:
Figure RE-GDA0003755221240000081
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure BDA0003718447850000082
为 平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样 本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分 类样本在网络训练时产生的影响。
在一些实施例中,所述预设目标框优化的计算公式为:
Figure BDA0003718447850000091
其中R(x)为计算初始聚类中心点到每一个数据样本xi的距离,P(x)为每 个样本成为下一个聚类中心的概率。
在一些实施例中,所述多尺度特征提取模块703被进一步配置为:所述 通道注意力模块和空间注意力模块的关注过程如下公式所示:
Figure BDA0003718447850000092
Figure BDA0003718447850000093
其中A表示输入特征图,Nc为一维通道注意图,A'表示一维通道输出特 征图,Ns为二维空间注意图,
Figure BDA0003718447850000094
表示逐元素相乘;在乘法过程中,注意值会 相应地广播:频道注意值是沿空间维度广播的,反之亦然;A”是最终的改进 后的输出。
在一些实施例中,所述多尺度特征提取模块703被进一步配置为:所述 改进的金字塔池化模块以不同的膨化率采样特征图片,对于给定的输入以不 同膨化率的空洞卷积并行采样,将得到的结果在通道层面合并在一起,扩大 通道数,接着再通过1×1的卷积将通道数降低到预期的数值。
需要注意,描述于本发明实施例中所涉及到的模块可以通过软件的方式 实现,也可以通过硬件的方式来实现,所描述的模块也可以设置在处理器中。 其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
本发明实施例所提到的水面多尺度目标检测装置与在先阐述的方法属于 同一技术构思,其起到的技术效果基本一致,此处不赘述。
本发明实施例还提供一种水面多尺度目标检测系统,所述系统包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现本发明任一实施例的水面多尺 度目标方法。
本发明实施例还提供了一种存储有指令的非暂时性计算机可读介质,当 指令由处理器执行时,执行根据本发明任一实施例所述的水面多尺度目标方 法。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有 基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的 方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用 的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示 例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是 示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个 或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述 时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分 组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于 任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实 施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实 施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及 这些权利要求赋权的等同形式的全部范围来确定。

Claims (10)

1.一种水面多尺度目标检测方法,其特征在于,所述方法包括:
图像预处理:获取若干张图片,分别对各张图片随机缩放、随机裁剪、随机排布,并进行图片和先验框的拼接;
预设目标框优化:初始化聚类中心,从输入的数据集中随机选取一个样本点作为第一个中心点,对每一个样本点分别计算到已选取的中心点的距离,按照轮盘法重新选择新的聚类中心,不断迭代重复,直至所有样本点归属类别都没有发生变化时停止;
多尺度特征提取:将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图FCONV1,然后将所述全局特征图FCONV1经过归一化处理后,再通过激活函数得到特征图FCONV2;加入双重注意力机制,通过通道注意力模块和空间注意力模块,使所述特征图FCONV2沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征;将获得的特征图经过改进的金字塔池化模块,统一采用3×3的最大池化的方式,引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的特征信息;
多尺度特征融合:Neck层自顶向下传达强语义特征,特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行多尺度特征融合;
多尺度图像预测:使用融合后的各种尺度的特征图分别预测不同大小的物体;
损失计算:采用分类损失函数来计算,以改善由于样本分类不均导致的过拟合与准确度低的问题,提升检测框的回归精度,得到最终的目标检测网络。
2.根据权利要求1所述的方法,其特征在于,所述方法的检测类别标签至少包括军舰、邮轮、货轮、帆船、游艇、其他船、人、鸟、鱼。
3.根据权利要求1所述的方法,其特征在于,所述预设目标框优化的计算公式为:
Figure RE-FDA0003755221230000011
其中R(x)为计算初始聚类中心点到每一个数据样本xi的距离,P(x)为每个样本成为下一个聚类中心的概率。
4.根据权利要求1所述的方法,其特征在于,所述通道注意力模块和空间注意力模块的关注过程如下公式所示:
Figure RE-FDA0003755221230000021
Figure RE-FDA0003755221230000022
其中A表示输入特征图,Nc为一维通道注意图,A'表示一维通道输出特征图,Ns为二维空间注意图,
Figure RE-FDA0003755221230000023
表示逐元素相乘;在乘法过程中,注意值会相应地广播:频道注意值是沿空间维度广播的,反之亦然;A”是最终的改进后的输出。
5.根据权利要求1所述的方法,其特征在于,所述改进的金字塔池化模块以不同的膨化率采样特征图片,对于给定的输入以不同膨化率的空洞卷积并行采样,将得到的结果在通道层面合并在一起,扩大通道数,接着再通过1×1的卷积将通道数降低到预期的数值。
6.根据权利要求1所述的方法,其特征在于,所述分类损失函数为:
Figure RE-FDA0003755221230000024
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure RE-FDA0003755221230000025
为平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分类样本在网络训练时产生的影响。
7.一种水面多尺度目标检测装置,其特征在于,所述装置包括:
图像预处理模块,被配置为获取若干张图片,分别对各张图片随机缩放、随机裁剪、随机排布,并进行图片和先验框的拼接;
预设目标框优化模块,被配置为初始化聚类中心,从输入的数据集中随机选取一个样本点作为第一个中心点,对每一个样本点分别计算到已选取的中心点的距离,按照轮盘法重新选择新的聚类中心,不断迭代重复,直至所有样本点归属类别都没有发生变化时停止;
多尺度特征提取模块,被配置为将预处理后的图像经过3×3的卷积操作之后得到低层全局特征图FCONV1,然后将所述全局特征图FCONV1经过归一化处理后,再通过激活函数得到特征图FCONV2;加入双重注意力机制,通过通道注意力模块和空间注意力模块,使所述特征图FCONV2沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征;将获得的特征图经过改进的金字塔池化模块,统一采用3×3的最大池化的方式,引入不同的膨胀率来获取不同尺度的感受野,提取多尺度的特征信息;
多尺度特征融合模块,被配置为Neck层自顶向下传达强语义特征,特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行多尺度特征融合;
多尺度图像预测模块,被配置为使用融合后的各种尺度的特征图分别预测不同大小的物体;
损失计算模块,被配置为采用分类损失函数来计算,以改善由于样本分类不均导致的过拟合与准确度低的问题,提升检测框的回归精度,得到最终的目标检测网络。
8.根据权利要求7所述的装置,其特征在于,所述分类损失函数为:
Figure RE-FDA0003755221230000031
其中s表示真实样本的标签;t表示经过softmax函数的预测输出值;
Figure RE-FDA0003755221230000032
为平衡因子,η是在二分类交叉熵的基础上加入的因子,若η>0,代表易分类样本损失会降低,网络对困难样本且易错分的样本给予更多关注,以降低易分类样本在网络训练时产生的影响。
9.一种水面多尺度目标检测系统,其特征在于:所述系统包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至6中任一项所述的方法。
10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至6中任一项所述的方法。
CN202210751621.8A 2022-06-28 2022-06-28 水面多尺度目标检测方法、装置及系统和存储介质 Pending CN115115863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751621.8A CN115115863A (zh) 2022-06-28 2022-06-28 水面多尺度目标检测方法、装置及系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751621.8A CN115115863A (zh) 2022-06-28 2022-06-28 水面多尺度目标检测方法、装置及系统和存储介质

Publications (1)

Publication Number Publication Date
CN115115863A true CN115115863A (zh) 2022-09-27

Family

ID=83331057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751621.8A Pending CN115115863A (zh) 2022-06-28 2022-06-28 水面多尺度目标检测方法、装置及系统和存储介质

Country Status (1)

Country Link
CN (1) CN115115863A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403115A (zh) * 2023-06-07 2023-07-07 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法
CN116524201A (zh) * 2023-03-29 2023-08-01 锋睿领创(珠海)科技有限公司 多尺度门控融合单元的特征提取方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069868A (zh) * 2020-06-28 2020-12-11 南京信息工程大学 一种基于卷积神经网络的无人机实时车辆检测方法
CN113158738A (zh) * 2021-01-28 2021-07-23 中南大学 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN113743505A (zh) * 2021-09-06 2021-12-03 辽宁工程技术大学 基于自注意力和特征融合的改进ssd目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069868A (zh) * 2020-06-28 2020-12-11 南京信息工程大学 一种基于卷积神经网络的无人机实时车辆检测方法
CN113158738A (zh) * 2021-01-28 2021-07-23 中南大学 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN113743505A (zh) * 2021-09-06 2021-12-03 辽宁工程技术大学 基于自注意力和特征融合的改进ssd目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID ARTHUR: "k-means++: the advantages of careful seeding", 《SODA "07: PROCEEDINGS OF THE EIGHTEENTH ANNUAL ACM-SIAM SYMPOSIUM ON DISCRETE ALGORITHMS》 *
刘荻: "基于特征重聚焦网络的多尺度近岸舰船检测", 《光学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524201A (zh) * 2023-03-29 2023-08-01 锋睿领创(珠海)科技有限公司 多尺度门控融合单元的特征提取方法、装置、设备及介质
CN116524201B (zh) * 2023-03-29 2023-11-17 锋睿领创(珠海)科技有限公司 多尺度门控融合单元的特征提取方法、装置、设备及介质
CN116403115A (zh) * 2023-06-07 2023-07-07 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法
CN116403115B (zh) * 2023-06-07 2023-08-22 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
Zheng et al. A lightweight ship target detection model based on improved YOLOv5s algorithm
CN115115863A (zh) 水面多尺度目标检测方法、装置及系统和存储介质
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN109766823A (zh) 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN112926429B (zh) 机审模型训练、视频机审方法、装置、设备及存储介质
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
Shaodan et al. A ship target location and mask generation algorithms base on Mask RCNN
CN113591592B (zh) 水上目标识别方法、装置、终端设备及存储介质
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及系统
CN110443155A (zh) 一种基于卷积神经网络的视觉航标识别与分类方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113343989A (zh) 一种基于前景选择域自适应的目标检测方法及系统
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN114022727B (zh) 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法
Sun et al. Marine ship instance segmentation by deep neural networks using a global and local attention (GALA) mechanism
CN115082781A (zh) 一种舰船图像检测方法、装置以及存储介质
CN111242134A (zh) 一种基于特征自适应学习的遥感影像地物分割方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN117934814A (zh) 一种基于分散注意力挖掘网络的红外小目标识别方法
CN115761552B (zh) 面向无人机机载平台的目标检测方法、设备及介质
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220927

RJ01 Rejection of invention patent application after publication