CN114782798A - 一种基于注意力融合的水下目标检测方法 - Google Patents

一种基于注意力融合的水下目标检测方法 Download PDF

Info

Publication number
CN114782798A
CN114782798A CN202210410629.8A CN202210410629A CN114782798A CN 114782798 A CN114782798 A CN 114782798A CN 202210410629 A CN202210410629 A CN 202210410629A CN 114782798 A CN114782798 A CN 114782798A
Authority
CN
China
Prior art keywords
attention
target detection
information
target
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210410629.8A
Other languages
English (en)
Inventor
张亚新
赵志强
唐金龙
吕帅帅
潘勉
于海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210410629.8A priority Critical patent/CN114782798A/zh
Publication of CN114782798A publication Critical patent/CN114782798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力融合的水下目标检测方法,包括以下步骤:步骤一,准备数据集。步骤二,构建基于注意力融合的目标检测网络。步骤三,获得通用场景下的特征提取网络。步骤四,构建损失函数,训练得到基于注意力融合的水下目标检测网络。本发明使用Vision‑Transformer模块提取输入图像的自注意力信息,并通过对输入图像分块,避免对完整图像计算自注意力,减少了计算量。使用PAFPN模块提取特征的空间注意力信息,并分层输出,将提取到的高级语义信息和低级细节信息进行融合。使用SE模块提取特征的通道注意力信息,进一步提升了模型的检测精度。

Description

一种基于注意力融合的水下目标检测方法
技术领域
本发明涉及计算机技术领域,尤其涉及计算机视觉、图像模式识别技术领域。
背景技术
目标检测技术是目前计算机视觉领域非常热门的基础研究方向,该技术能够准确地给出图像/视频中感兴趣的目标的类别和位置。作为计算机视觉领域的的基础研究方向,基于目标检测技术有很多重要的应用,例如工业生产线上瑕疵检测、水下鱼类养殖场捕捞、文字识别等。
申请号为202111127297.4的发明专利(大连理工大学专利中心),公布了一种基于特征融合及神经网络搜索的轻量型水下目标检测方法,该发明将陆上与水下检测网络特征进行融合,即相加操作,以实现利用陆上先验知识指导水下网络结构建设的目标。同时利用神经网络搜索算法,设计高效搜索空间,采用基于梯度的可微搜索策略,并构建水下超网络结构以及陆上镜像检测结构以直接建立水下降质因素、陆上先验信息与检测网络结构的联系。
现有技术存在以下不足之处:
1、现阶段,把特征相加的操作,即特征融合,属于提取空间注意力信息,而仅使用空间注意力信息是不完备的。
2、现阶段,使用Vision-Transformer提取图像的自注意力信息已被证明,性能优于卷积神经网络提取的空间注意力信息。
3、现阶段,基于卷积神经网络的深度学习模型只能用于图像领域,而Vision-Transformer为深度学习计算机视觉领域和自然语言处理领域的大一统提供了有效的标准框架。
发明内容
本发明旨在解决现有基于卷积神经网络的水下目标检测方法的不足,提供一种有监督学习的基于注意力融合的水下目标检测方法。改进基于通用目标检测先验信息的水下目标检测结构。
一种基于注意力融合的水下目标检测方法,步骤如下:
步骤一,准备数据集。
步骤二,构建基于注意力融合的目标检测网络。
步骤三,获得通用场景下的特征提取网络。
步骤四,构建损失函数,训练得到基于注意力融合的水下目标检测网络。
进一步的,步骤一具体方法如下:
在实际水下场景下拍摄含有感兴趣目标的图片/视频(拍摄的是视频,需要截取为图片),采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注,获得水下目标检测数据集;从ImageNet官方网站下载数据集,以备模型预训练使用;
进一步的,步骤二具体方法如下:
所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头。
图片输入到目标检测网络中,通过主干特征提取网络提取自注意力信息,通过PAFPN路径增强特征金字塔模块提取空间注意力信息,通过检测头内部的SE模块(SqueezeExcitation Block)提取通道间注意力信息。
之后进行注意力信息融合,通过级联的方式传递特征,并根据不同类型的注意力机制的优势,对注意力信息进行融合,将主干特征提取网络提取的自注意力信息、PAFPN路径增强特征金字塔模块提取的空间注意力信息、检测头内部的SE模块提取的通道间注意力信息做逐步融合。
进一步的,目标检测网络使用Vision-Transformer作为主干特征提取网络,提取自注意力信息。
进一步的,所述的PAFPN路径增强的特征金字塔模块,包含特征金字塔模块和路径增强模块。特征金字塔模块通过下采样,压缩了特征的尺寸,提取了低级细节信息。路径增强模块通过上采样,扩大了特征的尺寸,提取了高级语义信息,并将低级细节信息和高级语义信息进行融合,并分M层输出。PAFPN路径增强的特征金字塔模块,不仅提取了多尺寸的特征信息,还将高级语义信息和低级细节信息进行融合,专注于空间层面的信息,即提取了空间注意力信息。
进一步的,所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测,检测出可能存在目标的区域并推荐给对应的检测头。区域推荐网络包括分类分支和定位分支两个分支。其中,分类分支是对区域内是否存在目标分类,若存在则将它的边界框推荐给检测头;定位分支是对目标所在区域做回归,输出目标所在边界框的左上角、右下角坐标。使用检测头内部的SE模块提取通道间注意力信息,并输送到检测头内部的定位分支和分类分支,对输入图像中可能存在的目标做检测。
进一步的,所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定,有M个。检测头根据送入的区域中可能存在目标的特征,对目标分类,并预测目标的位置。将特征拷贝,再输入到分类分支,经过全连接层输出目标属于可能类别的概率;将特征输入定位分支,经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。
进一步的,步骤三具体方法如下:
通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络,得到具有强大特征提取能力的预训练模型权重;
进一步的,步骤四具体方法如下:
构建位置回归损失函数和分类预测损失函数。其中位置回归损失函数采用smoothL1 loss,衡量预测边界框与真实边界框之间的差距,
Figure BDA0003603531100000031
分类预测损失函数采用Focal loss,衡量预测类别与真实类别之间的差距,
Figure BDA0003603531100000032
其中,y取值为1或-1,表示目标是否是真实类别;p取值[0,1],表示目标是某待测类别的概率;α、γ用来调节分类损失的权重,参考Focal loss原文中推荐的取值,α=0.25,γ=2。
总损失函数是位置回归损失和分类预测损失之和:
Loss=Lreg+Lclass
设计基于注意力融合的水下目标检测网络,采用Adam优化器更新模型权重,同时将多种注意力机制模型提取的特征进行融合,通过步骤一获得的水下目标检测数据集训练目标检测网络,得到基于注意力融合的水下目标检测网络。
使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重。
Figure BDA0003603531100000033
其中Wt,Wt+1分别表示在t阶段和t+1阶段的目标检测模型权重;ηt表示在t阶段的目标检测模型的学习率;mt,mt-1分别表示在t阶段和t-1阶段目标检测模型的一阶动量项;vt,vt-1分别表示在t阶段和t-1阶段目标检测模型的二阶动量项;
Figure BDA0003603531100000034
Figure BDA0003603531100000035
分别表示t阶段目标检测模型梯度的一阶矩和二阶矩;β1和β2分别表示一阶动量项和二阶动量项的常数系数,通常取0.9和0.999;∈是一个取值很小的数(一般为10-8)为了避免分母为0。
进一步的,所述的PAFPN路径增强的特征金字塔模块中的M取值为5,PAFPN路径增强的特征金字塔模块分5层输出。
本发明有益效果如下:
1、本文提出的基于注意力融合的水下目标检测模型,提取了空间注意力信息、自注意力信息和通道注意力信息。弥补了只提取空间注意力信息、通道注意力信息的不足。
2、本文使用Vision-Transformer模块提取输入图像的自注意力信息,并通过对输入图像分块,避免对完整图像计算自注意力,减少了计算量。
3、本文使用PAFPN模块提取特征的空间注意力信息,并分层输出,将提取到的高级语义信息和低级细节信息进行融合。
4、本文使用SE模块提取特征的通道注意力信息,进一步提升了模型的检测精度。
附图说明
图1为本发明实施例流程图;
图2为本发明实施例整体结构图;
图3为本发明实施例主干特征提取模块示意图;
图4为本发明实施例路径增强的金字塔模块示意图;
图5是本发明实施例检测头示意图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这个具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
一种基于注意力融合的水下目标检测方法,步骤如下:
步骤一,准备数据集。
在实际水下场景下拍摄含有感兴趣目标的图片/视频(拍摄的是视频,需要截取为图片),采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注,获得水下目标检测数据集;从ImageNet官方网站下载数据集,以备模型预训练使用;
步骤二,构建基于注意力融合的目标检测网络。
所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头。
图片输入到目标检测网络中,通过主干特征提取网络提取自注意力信息,通过PAFPN路径增强特征金字塔模块提取空间注意力信息,通过检测头内部的SE模块(SqueezeExcitation Block)提取通道间注意力信息。
之后进行注意力信息融合,通过级联的方式传递特征,并根据不同类型的注意力机制的优势,对注意力信息进行融合,将主干特征提取网络提取的自注意力信息、PAFPN路径增强特征金字塔模块提取的空间注意力信息、检测头内部的SE模块提取的通道间注意力信息做逐步融合。
目标检测网络使用Vision-Transformer作为主干特征提取网络,提取自注意力信息。
所述的PAFPN路径增强的特征金字塔模块,包含特征金字塔模块和路径增强模块。特征金字塔模块通过下采样,压缩了特征的尺寸,提取了低级细节信息。路径增强模块通过上采样,扩大了特征的尺寸,提取了高级语义信息,并将低级细节信息和高级语义信息进行融合,并分M层输出。PAFPN路径增强的特征金字塔模块,不仅提取了多尺寸的特征信息,还将高级语义信息和低级细节信息进行融合,专注于空间层面的信息,即提取了空间注意力信息。
所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测,检测出可能存在目标的区域并推荐给对应的检测头。区域推荐网络包括分类分支和定位分支两个分支。其中,分类分支是对区域内是否存在目标分类,若存在则将它的边界框推荐给检测头;定位分支是对目标所在区域做回归,输出目标所在边界框的左上角、右下角坐标。使用检测头内部的SE模块提取通道间注意力信息,并输送到检测头内部的定位分支和分类分支,对输入图像中可能存在的目标做检测。
所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定,有M个。检测头根据送入的区域中可能存在目标的特征,对目标分类,并预测目标的位置。将特征拷贝,再输入到分类分支,经过全连接层输出目标属于可能类别的概率;将特征输入定位分支,经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。
步骤三,获得通用场景下的特征提取网络。
通过预训练数据集(例如ImageNet数据集)预训练通用目标检测网络的主干特征提取网络,得到具有强大特征提取能力的预训练模型权重;
步骤四,构建损失函数,训练得到基于注意力融合的水下目标检测网络。
构建位置回归损失函数和分类预测损失函数。其中位置回归损失函数采用smoothL1 loss,衡量预测边界框与真实边界框之间的差距,
Figure BDA0003603531100000061
分类预测损失函数采用Focal loss,衡量预测类别与真实类别之间的差距,
Figure BDA0003603531100000062
其中,y取值为1或-1,表示目标是否是真实类别;p取值[0,1],表示目标是某待测类别的概率;α、γ用来调节分类损失的权重,参考Focal loss原文中推荐的取值,α=0.25,γ=2。
总损失函数是位置回归损失和分类预测损失之和:
Loss=Lreg+Lclass
设计基于注意力融合的水下目标检测网络,采用Adam优化器更新模型权重,同时将多种注意力机制模型提取的特征进行融合,通过步骤一获得的水下目标检测数据集训练目标检测网络,得到基于注意力融合的水下目标检测网络。
使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重。
Figure BDA0003603531100000063
其中Wt,Wt+1分别表示在t阶段和t+1阶段的目标检测模型权重;ηt表示在t阶段的目标检测模型的学习率;mt,mt-1分别表示在t阶段和t-1阶段目标检测模型的一阶动量项;vt,vt-1分别表示在t阶段和t-1阶段目标检测模型的二阶动量项;
Figure BDA0003603531100000064
Figure BDA0003603531100000065
分别表示t阶段目标检测模型梯度的一阶矩和二阶矩;β1和β2分别表示一阶动量项和二阶动量项的常数系数,通常取0.9和0.999;∈是一个取值很小的数(一般为10-8)为了避免分母为0。
进一步的,所述的PAFPN路径增强的特征金字塔模块中的M取值为5,PAFPN路径增强的特征金字塔模块分5层输出。
下面对本发明的水下目标检测方法的流程示意图进行详细介绍。
请参阅图1,图1是本发明实施例提供的一种基于注意力融合的水下目标检测方法的流程图:
步骤101,获取应用场景下的图片,制作目标检测数据集
在实际应用的水下场景中用水下摄像头拍摄感兴趣的目标,然后使用目标检测标注软件(例如labelme)对感兴趣的目标做标注,构建水下目标检测数据集。
步骤102,构建水下目标检测模型;
所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头
步骤103,Vision-Transformer提取图像的自注意力信息;
将输入的图片平均分成两行两列,共四块,对每个图片块计算局部自注意力机制,并且为每个图片块嵌入位置编码,嵌入了位置编码的图片块经过层正则化,分别经过三个端子Q、K、V,获取多头自注意力信息,并且和输入的编码图片块以残差链接的形式像素级相加,将得到的输出再做层正则化、多层感知机,再以残差链接的形式像素级相加,得到单个Vision-Transformer模块的输出。经过多个Vision-Transformer模块得到主干特征提取网络提取的自注意力信息。
步骤104,PAFPN路径增强的特征金字塔提取特征的空间注意力信息
将提取到的自注意力信息输入到路径增强的特征金字塔,以进一步提取空间注意力信息。路径增强的特征金字塔结构不仅提取了多尺寸的特征信息,并分层输出,还将提取到的高级语义信息和低级细节信息进行融合,即提取了空间注意力信息。
步骤105,区域推荐网络推荐出感兴趣区域
将输入到区域推荐网络的特征信息,拷贝一份特征信息并分别输入到分类分支和定位分支。其中,分类分支是对区域内是否存在目标分类,若存在则将它的边界框推荐给检测头;定位分支是对目标所在区域做回归,输出目标所在边界框的左上角、右下角坐标。得到感兴趣区域。
步骤106,检测头内部的SE模块提取特征的通道间注意力信息
根据感兴趣区域划分提取到的多层空间注意力信息,分别输入到对应层的检测头。针对高维度的特征采用SE模块提取通道间注意力信息。SE模块包括压缩和扩展两个部分,先是将高维度特征经过全局平均池化,然后压缩到低维度,表示提取到重要的通道,然后再扩张到原来的高维度,表示恢复到原通道数,经过sigmoid函数归一化,得到高维度特征中每个维度的权重,再相乘得到通道间注意力信息。
步骤107,检测头检测目标
将提取通道间注意力信息的特征,分别输送到全连接层定位分支和全连接层分类分支,对输入图像中可能存在的目标做定位和分类。
步骤108,训练模型
将准备好的水下目标检测数据集图片输入搭建好的水下目标检测模型。采用指定的Smooth L1损失函数和Focal loss损失函数衡量定位损失和分类损失,并用梯度下降算法更新权重,最后保存模型权重。
请参阅图2,图2是本发明实施例提供的一种基于注意力融合的水下目标检测方法的整体结构图:
执行步骤201,将图像分块输送到下一模块;
执行步骤202,Vision-Transformer模块对输入的分块图像提取自注意力信息;
执行步骤203,路径增强的特征金字塔模块能够输出多尺寸的特征和空间注意力信息;
执行步骤204,区域推荐网络做第一次粗糙地检测,输出感兴趣区域;
执行步骤205,检测头对感兴趣区域内的空间注意力信息提取通道间注意力信息,并且做第二次精细地检测。
请参阅图3,图3为本发明提供的基于注意力融合的水下目标检测方法的主干特征提取模块示意图;
Vision-Transformer提取图像的自注意力信息,首先是对嵌入了位置编码的图片块经过层正则化,分别经过三个端子Q、K、V,获取多头自注意力信息,并且和输入的编码图片块以残差链接的形式像素级相加,将得到的输出再做层正则化、多层感知机,再以残差链接的形式像素级相加,得到单个Vision-Transformer模块的输出。经过多个Vision-Transformer得到主干特征提取网络提取的自注意力信息。
请参阅图4,图4为本发明提供的基于注意力融合的水下目标检测方法的路径增强的金字塔模块示意图;
将提取到的自注意力信息输入到路径增强的特征金字塔,经过下采样支路p,以进一步提取空间注意力信息。再经过上采样支路q,并与支路p的输出融合,提取低级细节信息。最后经过下采样支路r,并与支路q的输出融合,提取高级语义信息,即提取了空间注意力信息。路径增强的特征金字塔结构不仅提取了多尺寸的特征信息,并分层输出。
请参阅图5,图5是本发明提供的基于注意力融合的水下目标检测方法的检测头示意图;
将提取到的多层空间注意力信息分别输入到不同的检测头,针对高维度的特征使用SE模块(Squeeze Excitation Block)提取通道间注意力信息。SE模块包括压缩和扩展两个部分,先是将高维度特征经过全局平均池化,得到高维度特征向量,然后压缩到低维度,表示提取到重要的通道,然后再扩张到原来的高维度,表示恢复到原数量的通道,经过sigmoid函数归一化,得到高维度特征中每个维度的权重,再相乘得到通道间注意力信息。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.一种基于注意力融合的水下目标检测方法,其特征在于,步骤如下:
步骤一,准备数据集;
步骤二,构建基于注意力融合的目标检测网络;
步骤三,获得通用场景下的特征提取网络;
步骤四,构建损失函数,训练得到基于注意力融合的水下目标检测网络。
2.根据权利要求1所述的一种基于注意力融合的水下目标检测方法,其特征在于,步骤一具体方法如下:
在实际水下场景下拍摄含有感兴趣目标的图片/视频,采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注,获得水下目标检测数据集;从ImageNet官方网站下载数据集,以备模型预训练使用。
3.根据权利要求2所述的一种基于注意力融合的水下目标检测方法,其特征在于,步骤二具体方法如下:
所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头;
图片输入到目标检测网络中,通过主干特征提取网络提取自注意力信息,通过PAFPN路径增强特征金字塔模块提取空间注意力信息,通过检测头内部的SE模块提取通道间注意力信息;
之后进行注意力信息融合,通过级联的方式传递特征,并根据不同类型的注意力机制的优势,对注意力信息进行融合,将主干特征提取网络提取的自注意力信息、PAFPN路径增强特征金字塔模块提取的空间注意力信息、检测头内部的SE模块提取的通道间注意力信息做逐步融合。
4.根据权利要求3所述的一种基于注意力融合的水下目标检测方法,其特征在于,目标检测网络使用Vision-Transformer作为主干特征提取网络,提取自注意力信息。
5.根据权利要求4所述的一种基于注意力融合的水下目标检测方法,其特征在于,所述的PAFPN路径增强的特征金字塔模块,包含特征金字塔模块和路径增强模块;特征金字塔模块通过下采样,压缩了特征的尺寸,提取了低级细节信息;路径增强模块通过上采样,扩大了特征的尺寸,提取了高级语义信息,并将低级细节信息和高级语义信息进行融合,并分M层输出;PAFPN路径增强的特征金字塔模块,不仅提取了多尺寸的特征信息,还将高级语义信息和低级细节信息进行融合,专注于空间层面的信息,即提取了空间注意力信息。
6.根据权利要求5所述的一种基于注意力融合的水下目标检测方法,其特征在于,所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测,检测出可能存在目标的区域并推荐给对应的检测头;区域推荐网络包括分类分支和定位分支两个分支;其中,分类分支是对区域内是否存在目标分类,若存在则将它的边界框推荐给检测头;定位分支是对目标所在区域做回归,输出目标所在边界框的左上角、右下角坐标;使用检测头内部的SE模块提取通道间注意力信息,并输送到检测头内部的定位分支和分类分支,对输入图像中可能存在的目标做检测。
7.根据权利要求6所述的一种基于注意力融合的水下目标检测方法,其特征在于,所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定,有M个;检测头根据送入的区域中可能存在目标的特征,对目标分类,并预测目标的位置;将特征拷贝,再输入到分类分支,经过全连接层输出目标属于可能类别的概率;将特征输入定位分支,经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。
8.根据权利要求3-7任一所述的一种基于注意力融合的水下目标检测方法,其特征在于,步骤三具体方法如下:
通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络,得到具有强大特征提取能力的预训练模型权重。
9.根据权利要求8所述的一种基于注意力融合的水下目标检测方法,其特征在于,步骤四具体方法如下:
构建位置回归损失函数和分类预测损失函数;其中位置回归损失函数采用smooth L1loss,衡量预测边界框与真实边界框之间的差距,
Figure FDA0003603531090000021
分类预测损失函数采用Focal loss,衡量预测类别与真实类别之间的差距,
Figure FDA0003603531090000022
其中,y取值为1或-1,表示目标是否是真实类别;p取值[0,1],表示目标是某待测类别的概率;α、γ用来调节分类损失的权重,参考Focal loss原文中推荐的取值,α=0.25,γ=2;
总损失函数是位置回归损失和分类预测损失之和:
Loss=Lreg+Lclass
设计基于注意力融合的水下目标检测网络,采用Adam优化器更新模型权重,同时将多种注意力机制模型提取的特征进行融合,通过步骤一获得的水下目标检测数据集训练目标检测网络,得到基于注意力融合的水下目标检测网络;
使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重;
Figure FDA0003603531090000031
其中Wt,Wt+1分别表示在t阶段和t+1阶段的目标检测模型权重;ηt表示在t阶段的目标检测模型的学习率;mt,mt-1分别表示在t阶段和t-1阶段目标检测模型的一阶动量项;vt,vt-1分别表示在t阶段和t-1阶段目标检测模型的二阶动量项;
Figure FDA0003603531090000032
Figure FDA0003603531090000033
分别表示t阶段目标检测模型梯度的一阶矩和二阶矩;β1和β2分别表示一阶动量项和二阶动量项的常数系数,通常取0.9和0.999;∈是一个取值很小的数,为了避免分母为0。
10.根据权利要求7所述的一种基于注意力融合的水下目标检测方法,其特征在于,所述的PAFPN路径增强的特征金字塔模块中的M取值为5,PAFPN路径增强的特征金字塔模块分5层输出。
CN202210410629.8A 2022-04-19 2022-04-19 一种基于注意力融合的水下目标检测方法 Pending CN114782798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210410629.8A CN114782798A (zh) 2022-04-19 2022-04-19 一种基于注意力融合的水下目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210410629.8A CN114782798A (zh) 2022-04-19 2022-04-19 一种基于注意力融合的水下目标检测方法

Publications (1)

Publication Number Publication Date
CN114782798A true CN114782798A (zh) 2022-07-22

Family

ID=82431246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210410629.8A Pending CN114782798A (zh) 2022-04-19 2022-04-19 一种基于注意力融合的水下目标检测方法

Country Status (1)

Country Link
CN (1) CN114782798A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN116665088A (zh) * 2023-05-06 2023-08-29 海南大学 一种船舶识别与检测的方法、装置、设备及介质
CN117198331A (zh) * 2023-11-08 2023-12-08 东南大学 一种基于对数比调整的水下目标智能识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN116665088A (zh) * 2023-05-06 2023-08-29 海南大学 一种船舶识别与检测的方法、装置、设备及介质
CN117198331A (zh) * 2023-11-08 2023-12-08 东南大学 一种基于对数比调整的水下目标智能识别方法及系统
CN117198331B (zh) * 2023-11-08 2024-03-15 东南大学 一种基于对数比调整的水下目标智能识别方法及系统

Similar Documents

Publication Publication Date Title
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111079584A (zh) 基于改进YOLOv3的快速车辆检测方法
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN113780211A (zh) 一种基于改进型Yolov4-tiny的轻量级飞机检测方法
CN110414344A (zh) 一种基于视频的人物分类方法、智能终端及存储介质
CN112784756B (zh) 人体识别跟踪方法
CN113610144A (zh) 一种基于多分支局部注意力网络的车辆分类方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN113052834A (zh) 一种基于卷积神经网络多尺度特征的管道缺陷检测方法
CN111738054A (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN115375781A (zh) 一种数据处理方法及其装置
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN115222998B (zh) 一种图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination