CN114943888B - 基于多尺度信息融合的海面小目标检测方法 - Google Patents

基于多尺度信息融合的海面小目标检测方法 Download PDF

Info

Publication number
CN114943888B
CN114943888B CN202210296395.9A CN202210296395A CN114943888B CN 114943888 B CN114943888 B CN 114943888B CN 202210296395 A CN202210296395 A CN 202210296395A CN 114943888 B CN114943888 B CN 114943888B
Authority
CN
China
Prior art keywords
frame
sea surface
prediction
network
small target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210296395.9A
Other languages
English (en)
Other versions
CN114943888A (zh
Inventor
蒋永馨
邹勤
毕京强
彭鹏
张志友
郑振宇
吴明
金鑫
曹延哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Dalian Naval Academy
Original Assignee
PLA Dalian Naval Academy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Dalian Naval Academy filed Critical PLA Dalian Naval Academy
Priority to CN202210296395.9A priority Critical patent/CN114943888B/zh
Publication of CN114943888A publication Critical patent/CN114943888A/zh
Application granted granted Critical
Publication of CN114943888B publication Critical patent/CN114943888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质,属于人工智能和计算机视觉领域。构建海面小目标仿真数据集;构建深度学习网络模型;利用小目标仿真数据集对构建的深度学习模型进行训练;在训练过程中,通过transformer模块解码和检测出海面小目标的位置和类别信息;利用训练好的模型进行其他场景下的海面小目标检测。本发明创新性使用自上而下的transformer解码策略,对FPN中自上而下的不同尺度特征图采用可变形卷积的方式实现encoder中的自注意力机制,同时从高层的较小特征层开始通过在相邻两个特征层之间引入transformer模块进行解码预测边界框,自上而下通过不断引入包含更多小目标信息的低层特征来不断进行边界框修正,进而提高小目标检测准确率。

Description

基于多尺度信息融合的海面小目标检测方法
技术领域
本发明涉及人工智能和计算机视觉领域,具体涉及一种基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质。
背景技术
目标检测是计算机视觉的核心任务之一,也是其他复杂视觉任务的基础,旨在预测每个感兴趣对象的一组边界框和类别标签。近几年,随着技术的不断成熟,主流目标检测算法对于中、大目标的检测已经取得了一个非常好的效果,但是小目标的检测依旧是限制目标检测算法精度提升的难点。
目前不同场景对于小目标的定义各不相同,主要采用两种标准:1)基于相对尺度的定义。这种定义标准是从目标和图像的相对大小出发,如目标的宽高与图像的宽高比例小于0.1,或者目标边界框的面积与图像总面积的比值平方根小于0.03等。2)基于绝对尺度的定义。这种定义标准是从目标的绝对像素大小出发。比较通用的定义来自公共数据集MSCOCO,其将小目标定义为分辨率小于
Figure GDA0004125080020000011
像素的目标。而在航天图像数据集DOTA上,对小目标的定义进一步缩小到了10至50像素。
小目标检测的难点存在多个方面,如可用特征少,样本不均衡,目标聚集,网络能力差等问题。针对这些难点,目前方法主要从网络结构出发,通过提取多尺度特征,引入注意力机制等加强对小目标的检测。但是一方面这些方法依旧无法高效地利用包含更多小目标信息的低层信息;另一方面目前的公共数据集中存在一个重要缺陷,即小目标样本稀少。现有的数据集大多针对大/中尺度的目标,而对小目标关注较少。在公共数据集MS COCO中,虽然小目标的占比达到31.62%,但是小目标分布极度不均匀,在整个样本集中,存在小目标的图像占比极小,这对于小目标的检测是非常不利。而在一些特定领域,例如海面目标检测,小目标又因为其分辨率低而存在标注困难,边界框标注不准确等问题。因此,开展利用仿真数据增强的、多尺度信息融合的海面小目标检测研究,具有非常重要的现实意义。
在海面小目标(船只)检测领域中,小目标的仿真数据增强主要存在以下两个问题:(1)如何选择小目标的嵌入位置;(2)如何将仿真小目标无缝融入海面场景之中。一方面海平面上的波浪起伏会导致船只的上下起伏,从而使嵌入位置的选择变得困难。另一方面,目前已有的无缝融合技术如泊松融合技术并不适用于小目标
Figure GDA0004125080020000021
并且无法将目标融入前景中,如大雾,阴雨等天气场景。
发明内容
为了解决上述现有技术中存在的问题,提高海面小目标检测的准确度,本发明提供一种基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质,本发明致力于海面小目标如船只等仿真数据的嵌入轨迹规划和无缝融合方式,同时在神经网络中结合多尺度与注意力机制提高海面小目标检测的准确率,研究和探索出一种适用于海面小目标的高精度检测方法,通过构造海面小目标仿真数据集并进行数据增强,训练深度神经网络得到检测模型。
技术方案如下:
一种基于多尺度信息融合的海面小目标检测方法,步骤如下:
步骤S1,构建海面小目标仿真数据集:利用嵌入轨迹规划方法和无缝融合方法,使用所述数据集将船只渲染到场景中,从而根据嵌入位置标注得到准确的边界框和类别信息;
步骤S2,构建深度学习网络模型,所述模型包括主干网络、FPN网络、自上而下的transformer网络;所述主干网络用于特征提取,抽取所述主干网络的特征层并构建FPN网络用于多尺度特征融合,并且嵌入transformer模块,利用自上而下的解码方式使网络进一步加强关注小目标区域;其中使用可变形卷积实现transformer模块的注意力机制;
步骤S3,利用步骤S1构建的小目标仿真数据集对步骤S2构建的深度学习模型进行训练;在训练过程中,通过transformer模块解码和检测出海面小目标的位置和类别信息;
步骤S4,利用步骤S3训练好的模型进行其他场景下的海面小目标检测。
进一步地,所述步骤S1具体为:
步骤S1-1,收集M幅真实的不同种类的船只图像和N个不同天气状况下的海面视频;
步骤S1-2,海平面嵌入轨迹规划:针对每个海面视频,每间隔1s抽取其中一个视频帧,针对每个视频帧的海平面等间隔采集多个采样点,并根据视频海平面的起伏程度选择T次多项式,利用T次多项式曲线拟合的方式拟合完整海平面,该多项式含有T+1个参数;在得到整个海面视频的所有T次多项式拟合曲线后,针对多项式的每一项系数以时间为横坐标,系数为纵坐标同样使用多项式进行曲线拟合;总共得到T+1个参数拟合曲线;通过上述步骤得到系数随时间变化的T次多项式海面拟合曲线;
步骤S1-3,针对每个海面场景视频,给定嵌入船只的初始位置和移动速度;对每个视频帧,根据时间标签计算船只在每个海平面视频帧图像中的横坐标,并利用当前视频帧对应的时间求得T次多项式的当前系数,得到当前视频帧的海平面拟合曲线,进而根据横坐标计算出纵坐标,从而得到每帧视频图像的船只嵌入位置;
步骤S1-4,船只与海面的无缝融合:针对嵌入的图片,利用高斯滤波对前景船只图片进行模糊处理,之后将船只缩小,将得到的模糊小尺寸图片嵌入到步骤S1-3生成的位置,并在嵌入后再次使用高斯滤波对边缘进行平滑;
步骤S1-5,针对每个视频帧,以步骤S1-3中得到的每个视频帧的嵌入位置为中心,将步骤S1-4中得到的结果图片逐帧嵌入到海面场景图像;利用前景目标图像插入的位置和缩放后的大小构建目标检测的标注框。
步骤S1-6,针对每个海面视频,重复步骤S1-2到步骤S1-5,从而构建完整的海面小目标数据集。
进一步地,所述构建深度学习网络为一个多尺度信息融合的端到端网络;所述步骤S2具体为:
步骤S2-1,通过所述主干网络对图片进行特征提取;
步骤S2-2,将得到的多个不同尺度feature map输入FPN网络进行多尺度信息融合;
步骤S2-3,将经过融合的多层feature map输入级联transformer模块进行反向解码,得到高精度的类别预测和边界框预测结果;所述transformer模块利用可变形卷积形成注意力机制,其中,transformer模块的decoder利用不同尺度特征图实现跨层注意力,同时利用自上而下的方式进行解码。
进一步地,所述步骤S2中主干网络使用ResNet-50为基准网络。
进一步地,在步骤S2-3中,将得到的不同尺度特征输入分类分支,使用交叉熵损失作为分类损失:
Figure GDA0004125080020000041
其中,Lcls(x,c)表示分类学习损失,i表示预测框序号,Pos表示预测为正样本,n表示预测框的总个数,p表示类别,j表示真实框序号,
Figure GDA0004125080020000042
表示第i个预测框与第j个真实框匹配,取值为{0,1},/>
Figure GDA0004125080020000043
表示第i个预测框关于类别p的概率(通过/>
Figure GDA0004125080020000044
使用softmax函数求出),Neg表示预测为负样本(即不与任何一个真实框匹配,匹配背景),/>
Figure GDA0004125080020000045
表示第i个预测框关于背景类的置信度(0代表背景类),ci p表示预测类别为p的置信度。
进一步地,在步骤S2-3中,将得到的不同尺度特征输入边界框预测分支,使用SmoothL1损失作为边界框回归损失:
Figure GDA0004125080020000046
Figure GDA0004125080020000047
Figure GDA0004125080020000048
Figure GDA0004125080020000049
Figure GDA00041250800200000410
其中,Lloc(x,l,g)表示边界框预测损失,边界框中心为(cx,cy),宽高分别为w和h,m表示表示边界框的每个参数,k表示类别,
Figure GDA00041250800200000411
代表第i个预测框与第j个真实框关于类别k是否匹配,/>
Figure GDA00041250800200000412
为预测框,/>
Figure GDA00041250800200000413
为真实框,/>
Figure GDA00041250800200000414
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的横坐标的相对偏移量,/>
Figure GDA00041250800200000415
表示第j个真实框中心点的横坐标,/>
Figure GDA00041250800200000416
表示第i个预测框初始锚框中心的横坐标,/>
Figure GDA00041250800200000417
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的纵坐标的相对偏移量,/>
Figure GDA00041250800200000418
表示第j个真实框中心点的纵坐标,/>
Figure GDA00041250800200000419
表示第i个预测框初始锚框的纵坐标,/>
Figure GDA00041250800200000420
表示第j个真实框的宽与第i个预测框初始锚框的宽的相对大小,/>
Figure GDA0004125080020000051
表示第j个真实框的宽,/>
Figure GDA0004125080020000052
表示第i个预测框初始锚框的宽,/>
Figure GDA0004125080020000053
表示第j个真实框的高与第i个预测框初始锚框的高的相对大小,/>
Figure GDA0004125080020000054
表示第j个真实框的高,/>
Figure GDA0004125080020000055
表示第i个预测框初始锚框的高。
进一步地,以分类学习损失Lcls(x,c)和/或边界框预测损失Lloc(x,l,g)为目标,使用反向传播算法对步骤S2中网络结构进行训练。
进一步地,利用步骤S3训练好的深度学习模型,将真实的海面图片输入网络得到分类置信度和边界框预测,根据置信度NMS选取最终预测边界结果。
本发明还包括一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上列任一所述的方法。
本发明还包括一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上列任一所述的方法。
本发明的有益效果:
1.本发明创新性使用自上而下的transformer解码策略,对FPN中自上而下的不同尺度特征图采用可变形卷积的方式实现encoder中的自注意力机制,同时从高层的较小特征层开始通过在相邻两个特征层之间引入transformer模块进行解码预测边界框,自上而下通过不断引入包含更多小目标信息的低层特征来不断进行边界框修正,进而提高小目标检测准确率。
2.本发明创新性使用时空动态变化的仿真方式规划小目标在海面的嵌入位置。同时通过对小目标进行渲染,提高了海面小目标嵌入的真实性。通过使用仿真数据进行数据增强,使图片中的小目标分布均衡且真实。利用构建的仿真数据集进行训练,提高了小目标检测准确率。
附图说明
图1为本发明实施例的深度学习神经网络总体架构图;
图2为本发明的系统流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图1-2对基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质做进一步说明。
实施例1
一种多尺度信息融合的海面小目标检测方法,包含以下步骤:
步骤S1,构建海面小目标仿真数据集。所述数据集主要利用嵌入轨迹规划和无缝融合方式将船只渲染到场景中,从而根据嵌入位置标注得到准确的边界框和类别信息;
步骤S2,构建深度学习网络模型,该模型包括主干网络、FPN网络、自上而下的transformer网络;其中,主干网络用于特征提取。为了尽可能保留小目标的特征,抽取主干网络的特征层并构建FPN用于多尺度特征融合,并且嵌入transformer模块利用自上而下的解码方式使网络更加关注小目标区域。其中使用可变形卷积实现transformer模块的注意力机制;
步骤S3,利用S1构建的小目标数据集对步骤S2构建的深度学习模型进行训练;在训练过程中,transformer模块能够很好的解码和检测出海面小目标的位置和类别信息。
步骤S4,利用步骤S3训练好的模型进行其他场景下的海面小目标检测。
所述步骤S1具体为:
步骤S1-1,收集M幅真实的不同种类的船只图像和N个不同天气状况下的海面视频;
步骤S1-2,海平面嵌入轨迹规划。针对每个海面视频,每间隔1s抽取其中一个视频帧,针对每个视频帧的海平面等间隔采集多个采样点,并根据视频海平面的起伏程度选择T次多项式,利用T次多项式曲线拟合的方式拟合完整海平面,该多项式含有T+1个参数。在得到整个海面视频的所有T次多项式拟合曲线后,针对多项式的每一项系数以时间为横坐标,系数为纵坐标同样使用多项式进行曲线拟合;总共得到T+1个参数拟合曲线。因为海面的时空连续性,通过这种方式我们就可以得到系数随时间变化的T次多项式海面拟合曲线。除多项式逼近外,对于不同海面场景我们可以选择不同的曲线拟合类型,如指数逼近,傅里叶逼近等。我们称之为时空动态变化的海平面轨迹规划;
步骤S1-3,针对每个海面场景视频,我们给定嵌入船只的初始位置和移动速度。对每个视频帧,根据时间标签计算船只在每个海平面视频帧图像中的横坐标,并利用当前视频帧对应的时间求得T次多项式的当前系数,得到当前视频帧的海平面拟合曲线,进而根据横坐标计算出纵坐标,从而得到每帧视频图像的船只嵌入位置;
步骤S1-4,船只与海面的无缝融合。针对嵌入的图片,我们利用高斯滤波对前景船只图片进行模糊处理,之后将船只缩小到合适的大小,如50像素,将得到的模糊小尺寸图片嵌入到S1-3生成的位置,并在嵌入后再次使用高斯滤波对边缘进行平滑。
步骤S1-5,针对每个视频帧,以S1-3中得到的每个视频帧的嵌入位置为中心,将S1-4中得到的结果图片逐帧嵌入到海面场景图像。利用前景目标图像插入的位置和缩放后的大小构建目标检测的标注框。
步骤S1-6,针对每个海面视频,重复步骤S1-2到S1-5,从而构建完整的海面小目标数据集。我们称这种方法为时空动态变化的数据仿真方法。
步骤S1,构造的数据集是仿真的海面小目标数据集。
所述步骤S2具体为:
所述构建深度学习网络为一个多尺度信息融合的端到端网络;所述主干网络输入数据为图片进行特征提取。将得到的多个不同尺度feature map输入FPN网络进行多尺度信息融合。然后将经过融合的多层feature map输入级联transformer模块进行反向解码,最终得到高精度的类别预测和边界框预测结果;所述transformer模块利用可变形卷积形成注意力机制,其中,transformer模块的decoder利用不同尺度特征图实现跨层注意力,同时利用自上而下的方式进行解码,使网络不断聚焦于小目标区域,细化预测结果,提高了小目标的检测准确度;
步骤S2-1,所述主干网络输入数据为图片进行特征提取。将得到的多个不同尺度feature map。
步骤S2-2,将得到的多个不同尺度feature map输入FPN网络进行多尺度信息融合。
步骤S2-3,将经过融合的多层feature map输入级联transformer模块进行反向解码,最终得到高精度的类别预测和边界框预测结果;所述transformer模块利用可变形卷积形成注意力机制,其中,transformer模块的decoder利用不同尺度特征图实现跨层注意力,同时利用自上而下的方式进行解码,使网络不断聚焦于小目标区域,细化预测结果,提高了小目标的检测准确度;
实施例2
现有的小目标检测方法,应用于海面小目标的检测时,由于数据样本少,数据标注困难且不准确,检测准确率较低。本发明提出时空动态变化的仿真方式构建标注准确的仿真数据集,并利用多尺度信息融合和transformer解码的方式提高海面小目标的检测准确率。本方法利用主干网络进行特征提取,利用FPN网络提取多尺度信息,结合注意力机制进行语义增强,并利用transformer进行自上而下的逆向解码,提高了海面小目标的检测准确率。
本发明提供的方法设计了一种小目标仿真数据集的构建方式,和一种新型的结合注意力机制的多尺度信息融合的深度学习网络模型,其总体结构参见图1。其具体实施例包含以下步骤:
步骤S1,构建海面小目标仿真数据集。所述数据集主要利用嵌入轨迹规划和无缝融合方式将船只渲染到场景中,从而根据嵌入位置标注得到准确的边界框和类别信息。具体实施过程说明如下:
步骤S1-1,收集20幅真实的不同种类的船只图像和15个不同天气状况下的海面视频;
步骤S1-2,海平面嵌入轨迹规划。针对每个海面视频,每间隔1s抽取其中一个视频帧,针对每个视频帧的海平面等间隔采集10个采样点,并根据视频海平面的起伏程度最终选择10次多项式,利用10次多项式曲线拟合的方式拟合完整海平面,该多项式含有11个参数。在得到整个海面视频的所有10次多项式拟合曲线后,针对多项式的每一项系数以时间为横坐标,系数为纵坐标同样使用多项式进行曲线拟合;总共得到11个参数拟合曲线。因为海面的时空连续性,通过这种方式我们就可以得到系数随时间变化的10次多项式海面拟合曲线。
步骤S1-3,针对每个海面场景视频,我们给定嵌入船只的初始位置和移动速度。对每个视频帧,根据时间标签计算船只在每个海平面视频帧图像中的横坐标,并利用当前视频帧对应的时间求得10次多项式的当前系数,得到当前视频帧的海平面拟合曲线,进而根据横坐标计算出纵坐标,从而得到每帧视频图像的船只嵌入位置;
步骤S1-4,船只与海面的无缝融合。针对嵌入的图片,我们利用高斯滤波对前景船只图片进行模糊处理,之后将船只缩小到合适的大小,如50像素,将得到的模糊小尺寸图片嵌入到S1-3生成的位置,并在嵌入后再次使用高斯滤波对边缘进行平滑。
步骤S1-5,针对每个视频帧,以S1-3中得到的每个视频帧的嵌入位置为中心,将S1-4中得到的结果图片逐帧嵌入到海面场景图像。利用前景目标图像插入的位置和缩放后的大小构建目标检测的标注框。
步骤S1-6,针对每个海面视频,重复步骤S1-2到S1-5,从而构建完整的海面小目标数据集,一个得到36段仿真视频,共计21278张图像。
步骤S2,构建深度学习网络模型,该模型包括主干网络、FPN网络、自上而下的transformer网络;其中,主干网络用于特征提取。为了尽可能保留小目标的特征,抽取主干网络的特征层并构建FPN用于多尺度特征融合,并且嵌入transformer模块利用自上而下的解码方式使网络更加关注小目标区域。其中transformer模块的注意力机制我们使用可变形卷积实现。具体的步骤为:
S2-1,将一个宽高为
Figure GDA0004125080020000091
的包含小目标的图片输入主干网络,经过主干网络进行特征提取,并抽取多张不同尺度特征层得到feature map。
S2-2,将上一步得到的feature map输入FPN网络进行多尺度信息融合,并从包含更多语义信息的高层特征层开始利用FPN中相邻的特征层输入到对应transformer模块中,自上而下的进行解码。
S2-3,transformer模块中encoder和decoder分别需要输入一个特征层。将低层特征层(该特征层更大,包含更多的位置信息,更有利于小目标的检测)输入解码器进行边界框的解码预测。为使encoder输出结果大小和decoder一致,我们将高层特征层上采样后输入编码器进行编码。在利用可变形卷积形成注意力时,首先利用卷积得到每个特征点关注的其他位置,即注意力区域。对这些位置与当前位置使用乘法求和并利用sigmoid得到置信度,从而实现每个特征层的自注意力机制。encoder-decoder之间的注意力机制相似,不同点在于我们利用decoder自注意力后的结果进行卷积得到可变形卷积的offset,并将该offset作用于encoder的输出特征,进行跨层的可变形卷积,实现两者之间的跨层注意力机制。为了保持特征的平移不变性,我们将FNN替换成CNN,并预测边界框和类别。将decoder输出的特征层上采样后作为下一层encoder的输入。我们利用这种自上而下回溯解码的方式,不断利用包含更多小目标信息的低层特征层来修正边界框预测的结果,同时使用自注意力和跨层注意力机制增强语义信息,使边界框预测的结果更加精确。
进一步的,所述步骤S2中主干网络使用ResNet-50为基准网络;
步骤S3,利用S1构建的小目标仿真数据集对步骤S2构建的深度学习模型进行训练;
S3-1,在步骤S2-3中,将得到的不同尺度特征输入分类分支,使用交叉熵损失作为分类损失:
Figure GDA0004125080020000101
其中,Lcls(x,c)表示分类学习损失,i表示预测框序号,Pos表示预测为正样本,n表示预测框的总个数,p表示类别,j表示真实框序号,
Figure GDA0004125080020000102
表示第i个预测框与第j个真实框匹配,取值为{0,1},/>
Figure GDA0004125080020000103
表示第i个预测框关于类别p的概率(通过/>
Figure GDA0004125080020000104
使用softmax函数求出),Neg表示预测为负样本(即不与任何一个真实框匹配,匹配背景),/>
Figure GDA0004125080020000105
表示第i个预测框关于背景类的置信度(0代表背景类),ci p表示预测类别为p的置信度。
在步骤S2-3中,将得到的不同尺度特征输入边界框预测分支,使用SmoothL1损失作为边界框回归损失:
Figure GDA0004125080020000106
Figure GDA0004125080020000109
Figure GDA0004125080020000107
Figure GDA0004125080020000108
Figure GDA0004125080020000111
其中,Lloc(x,l,g)表示边界框预测损失,边界框中心为(cx,cy),宽高分别为w和h,m表示表示边界框的每个参数,k表示类别,
Figure GDA0004125080020000112
代表第i个预测框与第j个真实框关于类别k是否匹配,/>
Figure GDA0004125080020000113
为预测框,/>
Figure GDA0004125080020000114
为真实框,/>
Figure GDA0004125080020000115
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的横坐标的相对偏移量,/>
Figure GDA0004125080020000116
表示第j个真实框中心点的横坐标,/>
Figure GDA0004125080020000117
表示第i个预测框初始锚框中心的横坐标,/>
Figure GDA0004125080020000118
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的纵坐标的相对偏移量,/>
Figure GDA0004125080020000119
表示第j个真实框中心点的纵坐标,/>
Figure GDA00041250800200001110
表示第i个预测框初始锚框的纵坐标,/>
Figure GDA00041250800200001111
表示第j个真实框的宽与第i个预测框初始锚框的宽的相对大小,/>
Figure GDA00041250800200001112
表示第j个真实框的宽,/>
Figure GDA00041250800200001113
表示第i个预测框初始锚框的宽,/>
Figure GDA00041250800200001114
表示第j个真实框的高与第i个预测框初始锚框的高的相对大小,/>
Figure GDA00041250800200001115
表示第j个真实框的高,/>
Figure GDA00041250800200001116
表示第i个预测框初始锚框的高。
进一步地,以分类学习损失Lcls(x,c)和边界框预测损失Lloc(x,l,g)为目标,使用反向传播算法对S-2中网络结构进行训练;
步骤S4,利用步骤S3训练好的深度学习模型,将真实的海面图片输入网络得到分类置信度和边界框预测,根据置信度NMS选取最终预测边界结果。
本发明创新性使用自上而下的transformer解码策略,对FPN中自上而下的不同尺度特征图采用可变形卷积的方式实现encoder中的自注意力机制,同时从高层的较小特征层开始通过在相邻两个特征层之间引入transformer模块进行解码预测边界框,自上而下通过不断引入包含更多小目标信息的低层特征来不断进行边界框修正,进而提高小目标检测准确率。
本发明创新性使用时空动态变化的仿真方式规划小目标在海面的嵌入位置。同时通过对小目标进行渲染,提高了海面小目标嵌入的真实性。通过使用仿真数据进行数据增强,使图片中的小目标分布均衡且真实。利用构建的仿真数据集进行训练,提高了小目标检测准确率。
实施例3
本实施例提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例1-实施例2中任一所述的方法。
实施例4
本实施例提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-实施例2中任一所述的方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.一种基于多尺度信息融合的海面小目标检测方法,其特征在于,步骤如下:
步骤S1,构建海面小目标仿真数据集:利用嵌入轨迹规划方法和无缝融合方法,使用所述数据集将船只渲染到场景中,从而根据嵌入位置标注得到准确的边界框和类别信息;
所述步骤S1具体为:
步骤S1-1,收集M幅真实的不同种类的船只图像和N个不同天气状况下的海面视频;
步骤S1-2,海平面嵌入轨迹规划:针对每个海面视频,每间隔1s抽取其中一个视频帧,针对每个视频帧的海平面等间隔采集多个采样点,并根据视频海平面的起伏程度选择T次多项式,利用T次多项式曲线拟合的方式拟合完整海平面,该多项式含有T+1个参数;在得到整个海面视频的所有T次多项式拟合曲线后,针对多项式的每一项系数以时间为横坐标,系数为纵坐标同样使用多项式进行曲线拟合;总共得到T+1个参数拟合曲线;通过上述步骤得到系数随时间变化的T次多项式海面拟合曲线;
步骤S1-3,针对每个海面场景视频,给定嵌入船只的初始位置和移动速度;对每个视频帧,根据时间标签计算船只在每个海平面视频帧图像中的横坐标,并利用当前视频帧对应的时间求得T次多项式的当前系数,得到当前视频帧的海平面拟合曲线,进而根据横坐标计算出纵坐标,从而得到每帧视频图像的船只嵌入位置;
步骤S1-4,船只与海面的无缝融合:针对嵌入的图片,利用高斯滤波对前景船只图片进行模糊处理,之后将船只缩小,将得到的模糊小尺寸图片嵌入到步骤S1-3生成的位置,并在嵌入后再次使用高斯滤波对边缘进行平滑;
步骤S1-5,针对每个视频帧,以步骤S1-3中得到的每个视频帧的嵌入位置为中心,将步骤S1-4中得到的结果图片逐帧嵌入到海面场景图像;利用前景目标图像插入的位置和缩放后的大小构建目标检测的标注框;
步骤S1-6,针对每个海面视频,重复步骤S1-2到步骤S1-5,从而构建完整的海面小目标数据集;
步骤S2,构建深度学习网络模型,所述模型包括主干网络、FPN网络、自上而下的transformer网络;所述主干网络用于特征提取,抽取所述主干网络的特征层并构建FPN网络用于多尺度特征融合,并且嵌入transformer模块,利用自上而下的解码方式使网络进一步加强关注小目标区域;其中使用可变形卷积实现transformer模块的注意力机制;
步骤S3,利用步骤S1构建的小目标仿真数据集对步骤S2构建的深度学习模型进行训练;在训练过程中,通过transformer模块解码和检测出海面小目标的位置和类别信息;
步骤S4,利用步骤S3训练好的模型进行其他场景下的海面小目标检测。
2.根据权利要求1所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,所述构建深度学习网络为一个多尺度信息融合的端到端网络;所述步骤S2具体为:
步骤S2-1,通过所述主干网络对图片进行特征提取;
步骤S2-2,将得到的多个不同尺度feature map输入FPN网络进行多尺度信息融合;
步骤S2-3,将经过融合的多层feature map输入级联transformer模块进行反向解码,得到高精度的类别预测和边界框预测结果;所述transformer模块利用可变形卷积形成注意力机制,其中,transformer模块的decoder利用不同尺度特征图实现跨层注意力,同时利用自上而下的方式进行解码。
3.根据权利要求1所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,所述步骤S2中主干网络使用ResNet-50为基准网络。
4.根据权利要求2所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,在步骤S2-3中,将得到的不同尺度特征输入分类分支,使用交叉熵损失作为分类损失:
Figure QLYQS_1
其中,Lcls(x,c)表示分类学习损失,i表示预测框序号,Pos表示预测为正样本,n表示预测框的总个数,p表示类别,j表示真实框序号,
Figure QLYQS_2
表示第i个预测框与第j个真实框匹配,取值为{0,1},/>
Figure QLYQS_3
表示第i个预测框关于类别p的概率,Neg表示预测为负样本,/>
Figure QLYQS_4
表示第i个预测框关于背景类的置信度,/>
Figure QLYQS_5
表示预测类别为p的置信度。
5.根据权利要求2所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,在步骤S2-3中,将得到的不同尺度特征输入边界框预测分支,使用SmoothL1损失作为边界框回归损失:
Figure QLYQS_6
Figure QLYQS_7
Figure QLYQS_8
Figure QLYQS_9
Figure QLYQS_10
其中,Lloc(x,l,g)表示边界框预测损失,n表示预测框的总个数,边界框中心为(cx,cy),宽高分别为w和h,m表示边界框的每个参数,k表示类别,
Figure QLYQS_12
代表第i个预测框与第j个真实框关于类别k是否匹配,/>
Figure QLYQS_15
为预测框,/>
Figure QLYQS_18
为真实框,/>
Figure QLYQS_14
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的横坐标的相对偏移量,/>
Figure QLYQS_19
表示第j个真实框中心点的横坐标,/>
Figure QLYQS_22
表示第i个预测框初始锚框中心的横坐标,/>
Figure QLYQS_24
表示第j个真实框中心点的横坐标与第i个预测框初始锚框中心的纵坐标的相对偏移量,/>
Figure QLYQS_11
表示第j个真实框中心点的纵坐标,
Figure QLYQS_16
表示第i个预测框初始锚框的纵坐标,/>
Figure QLYQS_21
表示第j个真实框的宽与第i个预测框初始锚框的宽的相对大小,/>
Figure QLYQS_25
表示第j个真实框的宽,/>
Figure QLYQS_13
表示第i个预测框初始锚框的宽,/>
Figure QLYQS_17
表示第j个真实框的高与第i个预测框初始锚框的高的相对大小,/>
Figure QLYQS_20
表示第j个真实框的高,/>
Figure QLYQS_23
表示第i个预测框初始锚框的高。
6.根据权利要求4或5所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,以分类学习损失Lcls(x,c)和/或边界框预测损失Lloc(x,l,g)为目标,使用反向传播算法对步骤S2中网络结构进行训练。
7.根据权利要求5所述的基于多尺度信息融合的海面小目标检测方法,其特征在于,利用步骤S3训练好的深度学习模型,将真实的海面图片输入网络得到分类置信度和边界框预测,根据置信度NMS选取最终预测边界结果。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202210296395.9A 2022-03-24 2022-03-24 基于多尺度信息融合的海面小目标检测方法 Active CN114943888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210296395.9A CN114943888B (zh) 2022-03-24 2022-03-24 基于多尺度信息融合的海面小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210296395.9A CN114943888B (zh) 2022-03-24 2022-03-24 基于多尺度信息融合的海面小目标检测方法

Publications (2)

Publication Number Publication Date
CN114943888A CN114943888A (zh) 2022-08-26
CN114943888B true CN114943888B (zh) 2023-05-30

Family

ID=82906007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210296395.9A Active CN114943888B (zh) 2022-03-24 2022-03-24 基于多尺度信息融合的海面小目标检测方法

Country Status (1)

Country Link
CN (1) CN114943888B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115719368B (zh) * 2022-11-29 2024-05-17 上海船舶运输科学研究所有限公司 一种多目标船舶跟踪方法及系统
CN116661005B (zh) * 2023-08-02 2023-12-12 中国地质科学院地球物理地球化学勘查研究所 一种实现地下管线精确探测的电磁波ct分析识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN112966659B (zh) * 2021-03-31 2022-08-23 北湾科技(武汉)有限公司 一种基于深度学习的视频图像小目标检测方法
CN114140753A (zh) * 2021-11-29 2022-03-04 广州中科智巡科技有限公司 一种海洋船舶识别的方法、装置及系统
CN114140680A (zh) * 2021-12-02 2022-03-04 罗普特科技集团股份有限公司 一种基于深度学习的海面目标检测与识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质

Also Published As

Publication number Publication date
CN114943888A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
Zhang et al. C2FDA: Coarse-to-fine domain adaptation for traffic object detection
CN109934200B (zh) 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
CN114943888B (zh) 基于多尺度信息融合的海面小目标检测方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN114742799B (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
Li et al. Semisupervised semantic segmentation of remote sensing images with consistency self-training
CN111738113A (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN111582232A (zh) 一种基于像素级语义信息的slam方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
CN114821326A (zh) 一种宽幅遥感影像中密集弱小目标检测识别方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113628180B (zh) 一种基于语义分割网络的遥感建筑物检测方法及系统
CN114926826A (zh) 场景文本检测系统
CN114782919A (zh) 一种真实和仿真数据增强的道路栅格地图构建方法、系统
Lv et al. Contour deformation network for instance segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant