CN116310323A - 一种飞机目标实例分割方法、系统和可读存储介质 - Google Patents
一种飞机目标实例分割方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN116310323A CN116310323A CN202310164678.2A CN202310164678A CN116310323A CN 116310323 A CN116310323 A CN 116310323A CN 202310164678 A CN202310164678 A CN 202310164678A CN 116310323 A CN116310323 A CN 116310323A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- current picture
- mask
- aircraft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种飞机目标实例分割方法、系统和可读存储介质,本发明基于SOLOv2,提出了一种基于坐标注意力和边界损失的多视角可见光飞机目标实例分割算法,命名为CABL‑SOLO。CABL‑SOLO算法通过在特征金字塔网络的每一层输出后添加坐标注意力模块,来增强模型对位置特征的敏感程度;利用第二代可变形卷积来替换传统卷积,优化网络结构,减少计算参数;优化掩码分支的损失函数,增加边界损失的计算,使得分割轮廓更加准确平滑。实验结果表明,CABL‑SOLO算法能够有效地提高多视角可见光飞机图像中飞机目标的分割准确率。
Description
技术领域
本申请涉及数据处理和数据传输领域,更具体的,涉及一种飞机目标实例分割方法、系统和可读存储介质。
背景技术
通过轮廓来识别可见光图像中的飞机目标型号在民航、军事领域有着广阔的应用前景。目前,通过对图像中的飞机目标进行实例分割然后经过后处理得到飞机目标轮廓是比较有效的方法。如何准确地对飞机目标进行实例分割是研究的重点也是难点。
发明内容
鉴于上述问题,本发明的目的是提供一种飞机目标实例分割方法、系统和可读存储介质。
本发明第一方面提供了一种飞机目标实例分割方法,包括:
获取当前图片数据;
将所述当前图片数据发送至预设的第一模型中;
得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
本方案中,将所述当前图片数据发送至预设的第一模型中,包括:
将所述当前图片数据发送至ResNet主干网络进行特征值提取;
得到当前图片特征数据;
将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
本方案中,得到当前图片多尺度预测数据之后,还包括:
将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
本方案中,所述坐标注意力模块包括信息嵌入模块和注意力生成模块。
本方案中,将所述当前图片数据发送至预设的第一模型中之前,还包括:
获取数据集数据信息;
把所述数据集数据信息根据预设规则进行训练;
得到预设的第一模型;
其中,所述预设的第一模型采用DCNv2来替换传统的卷积网络。
本方案中,
把所述数据集数据信息引入边界损失函数进行融合训练;
所述数据集数据信息包括训练数据集和训练验证集。
本发明第二方面提供了一种飞机目标实例分割系统,包括存储器和处理器,所述存储器中包括飞机目标实例分割方法程序,所述飞机目标实例分割方法程序被所述处理器执行时实现如下步骤:
获取当前图片数据;
将所述当前图片数据发送至预设的第一模型中;
得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
本方案中,将所述当前图片数据发送至预设的第一模型中,包括:
将所述当前图片数据发送至ResNet主干网络进行特征值提取;
得到当前图片特征数据;
将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
本方案中,得到当前图片多尺度预测数据之后,还包括:
将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
本方案中,所述坐标注意力模块包括信息嵌入模块和注意力生成模块。
本方案中,将所述当前图片数据发送至预设的第一模型中之前,还包括:
获取数据集数据信息;
把所述数据集数据信息根据预设规则进行训练;
得到预设的第一模型;
其中,所述预设的第一模型采用DCNv2来替换传统的卷积网络。
本方案中,
把所述数据集数据信息引入边界损失函数进行融合训练;
所述数据集数据信息包括训练数据集和训练验证集。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种飞机目标实例分割方法程序,所述一种飞机目标实例分割方法程序被处理器执行时,实现如上述任一项所述的一种飞机目标实例分割方法的步骤。
本发明公开的一种飞机目标实例分割方法、系统和可读存储介质,本发明基于SOLOv2,提出了一种基于坐标注意力和边界损失的多视角可见光飞机目标实例分割算法,命名为CABL-SOLO。CABL-SOLO算法通过在特征金字塔网络的每一层输出后添加坐标注意力模块,来增强模型对位置特征的敏感程度;利用第二代可变形卷积来替换传统卷积,优化网络结构,减少计算参数;优化掩码分支的损失函数,增加边界损失的计算,使得分割轮廓更加准确平滑。实验结果表明,CABL-SOLO算法能够有效地提高多视角可见光飞机图像中飞机目标的分割准确率。
附图说明
图1示出了本发明一种飞机目标实例分割方法的流程图;
图2示出了本发明一种图片多尺度预测方法的流程图;
图3示出了本发明一种图片多尺度预测数据分割方法的流程图;
图4示出了本发明一种飞机目标实例分割系统的框图;
图5示出了本发明一种CABL-SOLO结构的示意图;
图6示出了本发明一种左侧是普通卷积,右侧是添加两个通道后的卷积的示意图;
图7示出了本发明一种坐标注意力模块的结构的示意图;
图8示出了本发明部分实验结果的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种飞机目标实例分割方法的流程图。
如图1所示,本发明公开了一种飞机目标实例分割方法,包括:
S102,获取当前图片数据;
S104,将所述当前图片数据发送至预设的第一模型中;
S106,得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
根据本发明实施例,预设的第一模型为在SOLOv2的基础上,提出了一种基于坐标注意力和边界损失的多视角可见光飞机目标实例分割算法,命名为CABL-SOLO,网络结构如图5所示。CABL-SOLO的算法模型框架主要分为五个部分:ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支、掩码分支。
根据本发明实施例,将所述当前图片数据发送至预设的第一模型中,包括:
S202,将所述当前图片数据发送至ResNet主干网络进行特征值提取;
S204,得到当前图片特征数据;
S206,将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
需要说明的是,CABL-SOLO的核心思想是把实例分割重新定义为根据实例中每个像素的位置和大小进行分类的问题。CABL-SOLO网络首先将输入图像经过主干网络提取特征后进入特征金字塔,利用金字塔的不同层次对不同尺寸的目标进行多尺度预测。在FPN的每个特征层后都连接了坐标注意力模块,来强化网络对位置特征的敏感程度。最后将每层的特征图都连接两个分支,预测语义类别的语义分支和生成掩码的掩码分支。
根据本发明实施例,得到当前图片多尺度预测数据之后,还包括:
S302,将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
S304,将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
S306,根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
需要说明的是,语义类别分支,负责预测目标类别。输入图像经过特征融合网络后将H×W×E的特征图输入语义类别分支,将输入特征图划分为S×S的网络,分支需要为每个网格单元预测是哪种类别的概率。将特征图对齐后的尺寸为S×S×E,最后经过语义类别处理后输出S×S×C,C是目标类别数。
掩码分支,负责生成目标掩码。CABL-SOLO采用的是动态的掩码预测。掩码分支细分为卷积核分支和特征分支,分别学习得到掩码核G∈RS×S×D以及掩码特征F∈RH×W×E,然后将两个分支结果进行动态卷积运算得到掩码预测结果,计算过程如下:
式中,(i,j)表示原图中坐标,Mi,j是(i,j)位置上的单个掩码预测结果,Gi,j为(i,j)上的卷积核预测。
Mi,j=Gi,j×F
对于卷积核分支,在CABL-SOLO预测头中与语义类别分支是平行关系,不同层的特征图输入到卷积核分支后,经过对齐变为S×S×E的尺寸,在经过4层卷积进行特征提取后,通过最后一层左卷积核预测,得到G∈S×S×D。其中对于每个网格单元,卷积核分支均预测D维(D为参数数量)输出用来表示卷积核的权重,为了生成具有E个输入通道的1×1卷积的权重,D=E;当为3×3卷积的权重时,D=9E。此处生成的权重由网格单元来决定,当输入图像被分成S×S个网格单元,则输出为S×S×D的输出空间。
对于特征分支,采用的方法是将不同层级的特征图进行融合,融合的方式为通过卷积和上采样来保证所有层尺寸相同,最终得到的特征图为输入特征的1/4大小,在最小输入层的处理上,利用CoordConv来增强位置编码信息。具体操作时经FPN中的P2-P5特征层分别进行3x3卷积、组归一化、激活函数Re LU以及双线性插值运算使得P2-P5被合并到相同尺寸即原图的1/4,然后进行逐点相加,最后通过1x1卷积、组归一化和激活函数Re LU得到最终掩码特征图。
最后,收集每个网格的实例分割结果,通过矩阵非极大值抑制(Matrix NMS)处理,得到最终的分割结果。
根据本发明实施例,还包括:
所述坐标注意力模块包括信息嵌入模块和注意力生成模块。
需要说明的是,SOLO的核心思想是基于位置进行实例分割,采用的方法是通过全卷积神经网络来预测实例掩码。然而传统的卷积运算具有一定的空间不变性,空间不变性能提高网络的鲁棒性。但由于SOLO的分割掩码非常依赖于网格单元,必须由不同的特征通道分隔开,因此,本发明构建了一个对位置敏感的模型——坐标注意力模块。
为了解决这个问题,创建了一个与输入具有相同空间大小的张量,该张量包含像素坐标信息,且规范化为[-1,1]。然后,该张量与输入特征concat之后传递到下一层。将输入的坐标信息给到卷积操作,就将空间位置特征添加到传统的FCN模型中,具体如图6所示。
图6左侧是普通卷积,右侧是添加两个通道后的卷积
模型拥有更高的敏感度意味着更准确地分割,通过在FPN每一层的输出后添加坐标注意力模块,可以有效提高模型的位置敏感度。
如图7所示,坐标注意力(Coordinate Attention,CA)模块包含信息嵌入以及注意力生成两部分。信息嵌入阶段对特征进行汇聚,对输入特征图的所有通道,分别沿水平坐标和垂直坐标方向进行平均池化,获取到尺寸为C×H×1和C×1×W的特征图。在注意力生成阶段,将获取到的两幅特征图拼接为C×1×(H+W)的特征图,然后采用1×1卷积将其通道维以收缩率r从C维压缩至C/r维,并使用ReLU函数进行非线性激活,再将获取到的结果沿空间维分解为C/r×H×1的水平注意张量和C/r×1×W的垂直注意张量。之后,再使用两组1×1的卷积将通道维从C/r维升至C维,并使用Sigmoid函数进行非线性激活。最后,将获取到的两个注意图C×H×1和C×1×W与输入的特征图相乘,完成坐标注意力的施加。
根据本发明实施例,将所述当前图片数据发送至预设的第一模型中之前,还包括:
获取数据集数据信息;
把所述数据集数据信息根据预设规则进行训练;
得到预设的第一模型;
其中,所述预设的第一模型采用DCNv2来替换传统的卷积网络。
需要说明的是,多视角下的空中飞机可见光图像包含飞机的多种飞行姿态,大小不一,不同型号飞机之间类间差异小,相同型号飞机之间类内差异大。由于常规卷积结构固定,对目标形状的感受野不够灵活,泛化性不强,因此引入DCNv2来替换传统的卷积网络。
DCNv2是在传统卷积的基础上,增加了调整卷积核的方向向量,利用偏移量来学习实例的几何形变,在采样时更贴近目标的形状和尺寸,可以显著提高后续分割的精度。但是,可变形卷积引入随机偏移量的同时,产生较多的目标区域外无关的干扰信息,DCNv2则加入了对每个采样点的权重,增加学习自由度的同时,可以将一些无关采样点的权重学习为0,使卷积区域在目标物体区域范围内。
对于特征图p处的特征为y(p)计算公式为
式中:K是在p处卷积核的范围内所有采样的位置总数;wk为第k位置的权重;x(p+pk+Δpk)为p处偏移后的特征值;pk是预先设定的p处的偏移;Δpk为第k位置上可学习的偏移;Δmk为第k位置上的可调权重。
根据本发明实施例,还包括:
把所述数据集数据信息引入边界损失函数进行融合训练;
所述数据集数据信息包括训练数据集和训练验证集。
需要说明的是,如今被广泛使用的损失函数大都是基于分割区域的,在训练中,它们对边界不够敏感,即使偏离真实值5-10个像素,预测边界也不会显著影响它们的分数。为了得到更准确地边界,引入边界损失函数,将它和掩码分支的原损失函数进行融合训练。
边界损失首先,利用自定义边界和扩展边界构建边界损失。边界的定义为:
b=pool(1-mk,θ0)-(1-mk) (2)
其中,b,b*分别表示预测边界和真实边界,m,m*分别表示掩码预测值和真实值,θ0是超参数,实验中设置为3。
扩展边界自定义为:
bexp=pool(b,θ1) (4)
准确率P和召回率R自定义为:
其中,“o”表示逐像素相乘,sum(·)表示逐像素求和。
最后,边界损失的定义为:
整体损失损失函数的定义如下:
L=Lcate+λLmask (9)
其中,Lcate是语义分支的损失函数,Lmask是掩膜分支的损失函数,λ是超参数,实验中设置为3。Lcate采用的是常规的焦点损失(Focal Loss)。Lmask的表达式是:
其中,k=i×S+j,Npos为正样本数,p*,m*分别为类别真值和掩码真值,是指示函数,如果/>则为1,否则为0。dmask的实现如下,采用的是焦点损失(Dice Loss)和边界损失(Boundary Loss):
dmask=LDice+LBoundary (11)
其中,LDice的定义如下:
px,y,qx,y分别是预测掩码和真实掩码在(x,y)位置的像素值。
需要说明的是,实验所用数据集涵盖多视角下的飞机可见光图像,共有2643张,其中的393张飞机图像筛选自开源的飞机摄影网站,剩余的2250张图像筛选自COCO和其他公开数据集中的飞机类别图像。此外,数据集中的飞机图像均包含至少一个飞机目标。数据集的具体构建流程如下:
首先,从开源网站和公开数据集中筛选和收集多视角下的飞机可见光图像。其中,收集的飞机可见光图像不受特定的飞机型号限制,可以收集属于任意型号的飞机可见光图像。此外,在筛选飞机可见光图像的过程中,尽可能地保证数据集覆盖飞机目标足够多的不同的空中姿态,以保证数据集的全面性。然后,对所有飞机可见光图像按照COCO数据集的实例分割标注格式重新进行图像实例分割任务的数据标注。特别地,数据集仅拥有类不可知的图像二分类标签,而不具备具体飞机型号的细分类标签。最后,将数据集分为常规训练集和训练验证集。其中,训练数据集的90%的飞机可见光图像用于网络训练,剩余10%的飞机可见光图像作为网络的训练验证集。
根据本发明实施例,还包括:
消融实验。
需要说明的是,消融实验在自定义多视角下的飞机可见光图像数据集上进行,所有训练模型都训练了12个epoch,初始学习率为0.01。对比了坐标注意力模块、第二代可变形卷积和边界损失对于分割的提升效果,以及CABL-SOLO对于分割的提升效果。
对这些算法进行了定量分析,并通过AP,AP50,AP75,APS,APM,APL评估不同模型的有效性。表1记录了不同情况下的实验结果,实验结果表明了针对基础模型做出的改进是切实有效的,通过添加坐标注意力模块、引入第二代可变形卷积和添加边界损失,AP分别提高了5.5%、4.3%、3.1%。最终的CABL-SOLO算法效果提升明显,相较于基础模型的AP提高了9%。实验结果充分证明了CABL-SOLO算法的优越性,部分实验结果如图8所示。
根据本发明实施例,还包括:
对比实验。
需要说明的是,为了验证所提出算法的性能,在MS COCO test-dev数据集上,将CABL-SOLO和其它实例分割中最先进的算法进行了比较。表2记录了不同情况下的实验结果。实验结果表明,无论是相较于基于目标框和不基于目标框的实例分割算法,CABL-SOLO都有着更好的结果。
表2 COCO test-dev上的实例分割掩码AP(%)
表2 COCO测试集上实例分割算法准确率对比
图4示出了本发明一种飞机目标实例分割系统的框图。
如图4所示,本发明第二方面提供了一种飞机目标实例分割系统6,包括存储器41和处理器42,所述存储器中包括飞机目标实例分割方法程序,所述飞机目标实例分割方法程序被所述处理器执行时实现如下步骤:
获取当前图片数据;
将所述当前图片数据发送至预设的第一模型中;
得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
根据本发明实施例,预设的第一模型为在SOLOv2的基础上,提出了一种基于坐标注意力和边界损失的多视角可见光飞机目标实例分割算法,命名为CABL-SOLO,网络结构如图5所示。CABL-SOLO的算法模型框架主要分为五个部分:ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支、掩码分支。
根据本发明实施例,将所述当前图片数据发送至预设的第一模型中,包括:
将所述当前图片数据发送至ResNet主干网络进行特征值提取;
得到当前图片特征数据;
将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
需要说明的是,CABL-SOLO的核心思想是把实例分割重新定义为根据实例中每个像素的位置和大小进行分类的问题。CABL-SOLO网络首先将输入图像经过主干网络提取特征后进入特征金字塔,利用金字塔的不同层次对不同尺寸的目标进行多尺度预测。在FPN的每个特征层后都连接了坐标注意力模块,来强化网络对位置特征的敏感程度。最后将每层的特征图都连接两个分支,预测语义类别的语义分支和生成掩码的掩码分支。
根据本发明实施例,得到当前图片多尺度预测数据之后,还包括:
将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
需要说明的是,语义类别分支,负责预测目标类别。输入图像经过特征融合网络后将H×W×E的特征图输入语义类别分支,将输入特征图划分为S×S的网络,分支需要为每个网格单元预测是哪种类别的概率。将特征图对齐后的尺寸为S×S×E,最后经过语义类别处理后输出S×S×C,C是目标类别数。
掩码分支,负责生成目标掩码。CABL-SOLO采用的是动态的掩码预测。掩码分支细分为卷积核分支和特征分支,分别学习得到掩码核G∈RS×S×D以及掩码特征F∈RH×W×E,然后将两个分支结果进行动态卷积运算得到掩码预测结果,计算过程如下:
式中,(i,j)表示原图中坐标,Mi,j是(i,j)位置上的单个掩码预测结果,Gi,j为(i,j)上的卷积核预测。
Mi,j=Gi,j×F
对于卷积核分支,在CABL-SOLO预测头中与语义类别分支是平行关系,不同层的特征图输入到卷积核分支后,经过对齐变为S×S×E的尺寸,在经过4层卷积进行特征提取后,通过最后一层左卷积核预测,得到G∈S×S×D。其中对于每个网格单元,卷积核分支均预测D维(D为参数数量)输出用来表示卷积核的权重,为了生成具有E个输入通道的1×1卷积的权重,D=E;当为3×3卷积的权重时,D=9E。此处生成的权重由网格单元来决定,当输入图像被分成S×S个网格单元,则输出为S×S×D的输出空间。
对于特征分支,采用的方法是将不同层级的特征图进行融合,融合的方式为通过卷积和上采样来保证所有层尺寸相同,最终得到的特征图为输入特征的1/4大小,在最小输入层的处理上,利用CoordConv来增强位置编码信息。具体操作时经FPN中的P2-P5特征层分别进行3x3卷积、组归一化、激活函数Re LU以及双线性插值运算使得P2-P5被合并到相同尺寸即原图的1/4,然后进行逐点相加,最后通过1x1卷积、组归一化和激活函数Re LU得到最终掩码特征图。
最后,收集每个网格的实例分割结果,通过矩阵非极大值抑制(Matrix NMS)处理,得到最终的分割结果。
根据本发明实施例,还包括:
所述坐标注意力模块包括信息嵌入模块和注意力生成模块。
需要说明的是,SOLO的核心思想是基于位置进行实例分割,采用的方法是通过全卷积神经网络来预测实例掩码。然而传统的卷积运算具有一定的空间不变性,空间不变性能提高网络的鲁棒性。但由于SOLO的分割掩码非常依赖于网格单元,必须由不同的特征通道分隔开,因此,本发明构建了一个对位置敏感的模型——坐标注意力模块。
为了解决这个问题,创建了一个与输入具有相同空间大小的张量,该张量包含像素坐标信息,且规范化为[-1,1]。然后,该张量与输入特征concat之后传递到下一层。将输入的坐标信息给到卷积操作,就将空间位置特征添加到传统的FCN模型中,具体如图6所示。
图6左侧是普通卷积,右侧是添加两个通道后的卷积
模型拥有更高的敏感度意味着更准确地分割,通过在FPN每一层的输出后添加坐标注意力模块,可以有效提高模型的位置敏感度。
如图7所示,坐标注意力(Coordinate Attention,CA)模块包含信息嵌入以及注意力生成两部分。信息嵌入阶段对特征进行汇聚,对输入特征图的所有通道,分别沿水平坐标和垂直坐标方向进行平均池化,获取到尺寸为C×H×1和C×1×W的特征图。在注意力生成阶段,将获取到的两幅特征图拼接为C×1×(H+W)的特征图,然后采用1×1卷积将其通道维以收缩率r从C维压缩至C/r维,并使用ReLU函数进行非线性激活,再将获取到的结果沿空间维分解为C/r×H×1的水平注意张量和C/r×1×W的垂直注意张量。之后,再使用两组1×1的卷积将通道维从C/r维升至C维,并使用Sigmoid函数进行非线性激活。最后,将获取到的两个注意图C×H×1和C×1×W与输入的特征图相乘,完成坐标注意力的施加。
根据本发明实施例,将所述当前图片数据发送至预设的第一模型中之前,还包括:
获取数据集数据信息;
把所述数据集数据信息根据预设规则进行训练;
得到预设的第一模型;
其中,所述预设的第一模型采用DCNv2来替换传统的卷积网络。
需要说明的是,多视角下的空中飞机可见光图像包含飞机的多种飞行姿态,大小不一,不同型号飞机之间类间差异小,相同型号飞机之间类内差异大。由于常规卷积结构固定,对目标形状的感受野不够灵活,泛化性不强,因此引入DCNv2来替换传统的卷积网络。
DCNv2是在传统卷积的基础上,增加了调整卷积核的方向向量,利用偏移量来学习实例的几何形变,在采样时更贴近目标的形状和尺寸,可以显著提高后续分割的精度。但是,可变形卷积引入随机偏移量的同时,产生较多的目标区域外无关的干扰信息,DCNv2则加入了对每个采样点的权重,增加学习自由度的同时,可以将一些无关采样点的权重学习为0,使卷积区域在目标物体区域范围内。
对于特征图p处的特征为y(p)计算公式为
式中:K是在p处卷积核的范围内所有采样的位置总数;wk为第k位置的权重;x(p+pk+Δpk)为p处偏移后的特征值;pk是预先设定的p处的偏移;Δpk为第k位置上可学习的偏移;Δmk为第k位置上的可调权重。
根据本发明实施例,还包括:
把所述数据集数据信息引入边界损失函数进行融合训练;
所述数据集数据信息包括训练数据集和训练验证集。
需要说明的是,如今被广泛使用的损失函数大都是基于分割区域的,在训练中,它们对边界不够敏感,即使偏离真实值5-10个像素,预测边界也不会显著影响它们的分数。为了得到更准确地边界,引入边界损失函数,将它和掩码分支的原损失函数进行融合训练。
边界损失首先,利用自定义边界和扩展边界构建边界损失。边界的定义为:
b=pool(1-mk,θ0)-(1-mk) (14)
其中,b,b*分别表示预测边界和真实边界,m,m*分别表示掩码预测值和真实值,θ0是超参数,实验中设置为3。
扩展边界自定义为:
bexp=pool(b,θ1) (16)
准确率P和召回率R自定义为:
其中,“o”表示逐像素相乘,sum(·)表示逐像素求和。
最后,边界损失的定义为:
整体损失损失函数的定义如下:
L=Lcate+λLmask (21)
其中,Lcate是语义分支的损失函数,Lmask是掩膜分支的损失函数,λ是超参数,实验中设置为3。Lcate采用的是常规的焦点损失(Focal Loss)。Lmask的表达式是:
其中,k=i×S+j,Npos为正样本数,p*,m*分别为类别真值和掩码真值,是指示函数,如果/>则为1,否则为0。dmask的实现如下,采用的是焦点损失(Dice Loss)和边界损失(Boundary Loss):
dmask=LDice+LBoundary (23)
其中,LDice的定义如下:
px,y,qx,y分别是预测掩码和真实掩码在(x,y)位置的像素值。
需要说明的是,实验所用数据集涵盖多视角下的飞机可见光图像,共有2643张,其中的393张飞机图像筛选自开源的飞机摄影网站,剩余的2250张图像筛选自COCO和其他公开数据集中的飞机类别图像。此外,数据集中的飞机图像均包含至少一个飞机目标。数据集的具体构建流程如下:
首先,从开源网站和公开数据集中筛选和收集多视角下的飞机可见光图像。其中,收集的飞机可见光图像不受特定的飞机型号限制,可以收集属于任意型号的飞机可见光图像。此外,在筛选飞机可见光图像的过程中,尽可能地保证数据集覆盖飞机目标足够多的不同的空中姿态,以保证数据集的全面性。然后,对所有飞机可见光图像按照COCO数据集的实例分割标注格式重新进行图像实例分割任务的数据标注。特别地,数据集仅拥有类不可知的图像二分类标签,而不具备具体飞机型号的细分类标签。最后,将数据集分为常规训练集和训练验证集。其中,训练数据集的90%的飞机可见光图像用于网络训练,剩余10%的飞机可见光图像作为网络的训练验证集。
根据本发明实施例,还包括:
消融实验。
需要说明的是,消融实验在自定义多视角下的飞机可见光图像数据集上进行,所有训练模型都训练了12个epoch,初始学习率为0.01。对比了坐标注意力模块、第二代可变形卷积和边界损失对于分割的提升效果,以及CABL-SOLO对于分割的提升效果。
对这些算法进行了定量分析,并通过AP,AP50,AP75,APS,APM,APL评估不同模型的有效性。表1记录了不同情况下的实验结果,实验结果表明了针对基础模型做出的改进是切实有效的,通过添加坐标注意力模块、引入第二代可变形卷积和添加边界损失,AP分别提高了5.5%、4.3%、3.1%。最终的CABL-SOLO算法效果提升明显,相较于基础模型的AP提高了9%。实验结果充分证明了CABL-SOLO算法的优越性,部分实验结果如图8所示。
根据本发明实施例,还包括:
对比实验。
需要说明的是,为了验证所提出算法的性能,在MS COCO test-dev数据集上,将CABL-SOLO和其它实例分割中最先进的算法进行了比较。表2记录了不同情况下的实验结果。实验结果表明,无论是相较于基于目标框和不基于目标框的实例分割算法,CABL-SOLO都有着更好的结果。
表2 COCO test-dev上的实例分割掩码AP(%)
表2 COCO测试集上实例分割算法准确率对比
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种飞机目标实例分割方法程序,所述一种飞机目标实例分割方法程序被处理器执行时,实现如上述任一项所述的一种飞机目标实例分割方法的步骤。
本发明公开的一种飞机目标实例分割方法、系统和可读存储介质,本发明基于SOLOv2,提出了一种基于坐标注意力和边界损失的多视角可见光飞机目标实例分割算法,命名为CABL-SOLO。CABL-SOLO算法通过在特征金字塔网络的每一层输出后添加坐标注意力模块,来增强模型对位置特征的敏感程度;利用第二代可变形卷积来替换传统卷积,优化网络结构,减少计算参数;优化掩码分支的损失函数,增加边界损失的计算,使得分割轮廓更加准确平滑。实验结果表明,CABL-SOLO算法能够有效地提高多视角可见光飞机图像中飞机目标的分割准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种飞机目标实例分割方法,其特征在于,包括:
获取当前图片数据;
将所述当前图片数据发送至预设的第一模型中;
得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
2.根据权利要求1所述的一种飞机目标实例分割方法,其特征在于,将所述当前图片数据发送至预设的第一模型中,包括:
将所述当前图片数据发送至ResNet主干网络进行特征值提取;
得到当前图片特征数据;
将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
3.根据权利要求2所述的一种飞机目标实例分割方法,其特征在于,得到当前图片多尺度预测数据之后,还包括:
将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
4.根据权利要求2所述的一种飞机目标实例分割方法,其特征在于,
所述坐标注意力模块包括信息嵌入模块和注意力生成模块。
5.根据权利要求1所述的一种飞机目标实例分割方法,其特征在于,将所述当前图片数据发送至预设的第一模型中之前,还包括:
获取数据集数据信息;
把所述数据集数据信息根据预设规则进行训练;
得到预设的第一模型;
其中,所述预设的第一模型采用DCNv2来替换传统的卷积网络。
6.根据权利要求5所述的一种飞机目标实例分割方法,其特征在于,
把所述数据集数据信息引入边界损失函数进行融合训练;
所述数据集数据信息包括训练数据集和训练验证集。
7.一种飞机目标实例分割系统,其特征在于,包括存储器和处理器,所述存储器中包括飞机目标实例分割方法程序,所述飞机目标实例分割方法程序被所述处理器执行时实现如下步骤:
获取当前图片数据;
将所述当前图片数据发送至预设的第一模型中;
得到分割结果信息;
其中,所述预设的第一模型包括ResNet主干网络、FPN特征金字塔、CA坐标注意力模块、语义类别分支和掩码分支。
8.根据权利要求7所述的一种飞机目标实例分割系统,其特征在于,将所述当前图片数据发送至预设的第一模型中,包括:
将所述当前图片数据发送至ResNet主干网络进行特征值提取;
得到当前图片特征数据;
将所述当前图片特征数据发送至特征金字塔进行多尺度预测处理,得到当前图片多尺度预测数据;
其中,所述特征金字塔具备多个特征图层,每个特征图层后连接坐标注意力块,所述特征图都具备语义分支和掩码分支。
9.根据权利要求7所述的一种飞机目标实例分割系统,其特征在于,得到当前图片多尺度预测数据之后,还包括:
将所述当前图片多尺度预测数据发送至所述语义分支,得到目标类别数数据;
将所述当前图片多尺度预测数据发送至所述掩码分支,得到输出空间数据和最终掩码特征图数据;
根据所述目标类别数数据、出空间数据和最终掩码特征图数据进行矩阵非极大值抑制处理,得到所述分割结果信息;
其中,所述掩码分支包括卷积核分支和特征分支。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种飞机目标实例分割方法程序,所述一种飞机目标实例分割方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种飞机目标实例分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164678.2A CN116310323A (zh) | 2023-02-26 | 2023-02-26 | 一种飞机目标实例分割方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164678.2A CN116310323A (zh) | 2023-02-26 | 2023-02-26 | 一种飞机目标实例分割方法、系统和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310323A true CN116310323A (zh) | 2023-06-23 |
Family
ID=86779006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310164678.2A Pending CN116310323A (zh) | 2023-02-26 | 2023-02-26 | 一种飞机目标实例分割方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310323A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844143A (zh) * | 2023-09-01 | 2023-10-03 | 武汉互创联合科技有限公司 | 基于边缘增强的胚胎发育阶段预测与质量评估系统 |
-
2023
- 2023-02-26 CN CN202310164678.2A patent/CN116310323A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844143A (zh) * | 2023-09-01 | 2023-10-03 | 武汉互创联合科技有限公司 | 基于边缘增强的胚胎发育阶段预测与质量评估系统 |
CN116844143B (zh) * | 2023-09-01 | 2023-12-05 | 武汉互创联合科技有限公司 | 基于边缘增强的胚胎发育阶段预测与质量评估系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN111353531B (zh) | 基于奇异值分解和空谱域注意力机制高光谱图像分类方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN107944450A (zh) | 一种车牌识别方法及装置 | |
CN112949572A (zh) | 基于Slim-YOLOv3的口罩佩戴情况检测方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN114092833B (zh) | 遥感图像分类方法、装置、计算机设备和存储介质 | |
CN117237808A (zh) | 基于odc-yolo网络的遥感图像目标检测方法及系统 | |
CN110163294A (zh) | 基于降维操作和卷积网络的遥感图像变化区域检测方法 | |
CN116310323A (zh) | 一种飞机目标实例分割方法、系统和可读存储介质 | |
Singh et al. | A two-step deep convolution neural network for road extraction from aerial images | |
Meng et al. | A mobilenet-SSD model with FPN for waste detection | |
CN113673556A (zh) | 一种基于多尺度密集卷积网络的高光谱图像分类方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN115995042A (zh) | 一种视频sar运动目标检测方法及装置 | |
CN116912574A (zh) | 一种基于孪生网络的多尺度目标感知分类方法及系统 | |
CN111553337A (zh) | 一种基于改进锚框的高光谱多目标检测方法 | |
Cao et al. | Face detection for rail transit passengers based on single shot detector and active learning | |
CN116503398B (zh) | 绝缘子污闪检测方法、装置、电子设备及存储介质 | |
CN117315499A (zh) | 一种卫星遥感图像目标检测方法及系统 | |
CN116977747A (zh) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 | |
CN116863227A (zh) | 一种基于改进YOLOv5的危化品车辆检测方法 | |
CN110399868B (zh) | 一种滨海湿地鸟类检测方法 | |
CN116843589A (zh) | 遥感图像的融合方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |