CN114445620A - 一种改进Mask R-CNN的目标分割方法 - Google Patents

一种改进Mask R-CNN的目标分割方法 Download PDF

Info

Publication number
CN114445620A
CN114445620A CN202210038272.5A CN202210038272A CN114445620A CN 114445620 A CN114445620 A CN 114445620A CN 202210038272 A CN202210038272 A CN 202210038272A CN 114445620 A CN114445620 A CN 114445620A
Authority
CN
China
Prior art keywords
mask
target
cnn
branch
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210038272.5A
Other languages
English (en)
Inventor
顾杨青
白锐
何平
兴胜利
徐成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN202210038272.5A priority Critical patent/CN114445620A/zh
Publication of CN114445620A publication Critical patent/CN114445620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种改进Mask R‑CNN的目标分割方法,其特征在于:步骤1,采用Mask R‑CNN的目标分割方法对原始图像中的ROI区域特征进行获取,其中,对全局上下文信息采用一维注意力机制进行特征转换后,将所述转换获得的全局特征融合至ROI区域特征中;步骤2,对包含ROI区域特征的特征图进行分类损失函数和回归损失函数的计算,并采用相互监督的分类损失权重和回归损失权重实现对协调损失函数的构建,以预测最优检测框;步骤3,将最优检测框提取的局部特征进行目标分割。本发明方法避免掩膜分割不完整和目标边界粗糙的问题,大幅提高目标分割的准确程度。

Description

一种改进Mask R-CNN的目标分割方法
技术领域
本发明涉及图像处理领域,更具体地,涉及一种改进Mask R-CNN的目标分割方法。
背景技术
图像目标分割是计算机视觉中一个重要的研究课题,其兼具目标检测和语义分割两项任务的特点,能够通过预测图像中每个目标的类别标签和像素化目标掩膜来完成图像理解,有着良好的发展前景和重要意义。目前,这项技术已经被广泛的应用在自动驾驶、城市监测和机器人抓取等领域中。
现有技术中,图像目标分割方法主要包括以下三类,基于深度学习的单阶段方法、基于分割的两阶段方法和基于检测的两阶段方法。
首先,基于深度学习的单阶段方法旨在一个阶段同时完成定位、分类和分割对象三个任务。其中,有的技术方案可以利用极坐标系建模轮廓,通过对目标中心点分类和密集距离回归来完成目标分割。有的技术方案则可以将掩膜预测合并到全卷积网络中,通过使用一组轮廓系数来对目标形状进行编码,从而形成单阶段目标分割框架。还有的技术方案能够通过迭代细分的方法,在自适应选择的位置执行基于点的分割预测。
然而,这种方法需要在一个阶段同时完成目标的定位、分类和分割三项任务,因此掩膜质量通常较低。该方法在复杂场景下的目标检测和像素级特征对齐处理上仍然存在较大的挑战。
其次,基于分割的两阶段方法能够对图像进行像素级别的语义分割,并通过聚类、度量学习等手段将每个对象的像素组合从而区分出不同的目标。该方法中的部分技术方案能够利用深度度量学习来学习目标的嵌入,然后对像素进行分组,形成目标级分割。还有部分技术方案能够将目标分割这一复杂的任务用一系列神经网络来解决,由于每个神经网络都可以用来解决一个增加语义复杂度的子类问题,从而使得方法能够采用简单的结构逐步构造目标实例。
然而,这种方法在处理目标底层特征时,经常会导致分割不够准确的问题,且算法的泛化能力交叉,无法应对类别较多的复杂场景。
第三,基于检测的两阶段方法能够首先对图像进行目标检测,在找到目标所在的区域后,再在特定的检测框内进行语义分割。不同的目标都可以作为单独的分割结果被输出。在这种方法中,有的算法能够通过使用不同大小的窗口在图像上进行滑动,并使用分类器来判别滑动框内存在目标的概率,从而通过这种概率来生成候选子区域,以最终实现目标的识别和分割。另外一些算法则能够支持选择性搜索的方式来生成候选子区域,即只对图像中最有可能包含目标的区域进行检测。
但是,由于方法的本质仍然是在预测的检测框中进行逐像素分割的,因此会导致任务对检测框准确性的过分依赖。在采样过程中,可能会出现细节特征信息丢失或空间特征分辨率过低的情况,从而导致靠近边界的像素点很难被分类,掩膜只捕捉到目标的大致外形。由于目标的边界轮廓不够清晰,在提取目标的过程中,经常可能会导致目标边界细节信息缺失的问题,从而进一步的影响了目标分割的质量。
针对上述问题,本发明中提供了一种改进Mask R-CNN的目标分割方法。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种改进Mask R-CNN的目标分割方法,通过将全局特征融合至感兴趣区域特征中,并通过协调损失函数在回归分支与分类分支相互监督的前提下生成检测框,以及基于边界加强实现边界和掩膜的生成。
本发明采用如下的技术方案。
一种改进Mask R-CNN的目标分割方法,包括以下步骤:步骤1,采用Mask R-CNN的目标分割方法对原始图像中的ROI区域特征进行获取,其中,对全局上下文信息采用一维注意力机制进行特征转换后,将转换获得的全局特征融合至ROI区域特征中;步骤2,对包含ROI区域特征的特征图进行分类损失函数和回归损失函数的计算,并采用相互监督的分类损失权重和回归损失权重实现对协调损失函数的构建,以预测最优检测框;步骤3,将最优检测框提取的局部特征进行目标分割,其中,利用边界加强方法实现对于目标边界的特征进行加强,从而实现目标掩膜的生成。
优选的,步骤1中对原始图像中的ROI区域特征进行获取的方法为:步骤1.1.1,利用残差网络ResNetXt-101和特征金字塔网络FPN生成多个不同尺度的特征图;步骤1.1.2,采用区域候选网络RPN生成感兴趣区域;步骤1.2.3,采用感兴趣特征对齐方法ROI Align提取感兴趣区域中的局部区域特征,并采用通道相乘方法实现局部区域特征和全局特征的融合。
优选的,步骤1中全局特征的获取方法为:步骤1.2.1,采用全局平均池化GAP对步骤1.1.1中生成的每一个不同尺度的特征图进行降维后,将降维信息进行合并;步骤1.2.2,采用轻量级注意力机制对合并后的降维信息进行特征转换,以获得全局特征。
优选的,轻量级注意力机制采用卷积核为5的一维卷积实现。
优选的,采用协调损失函数分别训练所述ROI区域特征的特征图的分类分支和回归分支,以预测预测最优检测框。
优选的,协调损失函数为:
Figure BDA0003469242550000031
其中,i为小批量样本中预测候选框的序号,
pi为第i个预测候选框的预测概率,
yi为第i个预测候选框的原标记框正负标签,
di为第i个预测候选框的坐标向量,
Figure BDA0003469242550000032
为第i个预测候选框对应的原标记框的坐标向量,
CE()为交叉熵损失函数,L()为平滑L1损失函数,
γr和γr分别为回归协调因子和分类协调因子。
优选的,采用回归协调因子实现分类损失与回归损失的相互监督;并且,回归协调因子为
Figure BDA0003469242550000033
分类协调因子为
Figure BDA0003469242550000034
优选的,步骤3中,目标掩膜的生成方法为:步骤3.1,利用边界加强分支生成目标边界的预测特征,并基于预测特征生成预测目标边界;步骤3.2,将目标边界的预测特征增加至掩膜分支中,实现目标对象掩膜的生成。
优选的,边界加强分支包括第一子分支、第二子分支、第三子分支和第四子分支;其中,第一子分支,对从特征图中提取的局部特征进行转换和变形,并与第二子分支、第三子分支共同生成的位置注意矩阵相乘,以得到结果矩阵;第二子分支,对从特征图中提取的局部特征进行降维和转换,并与第三分支生成的转置矩阵相乘后,通过归一化指数函数生成位置注意矩阵;第三子分支,对从特征图中提取的局部特征进行降维和转换,并在转置后与第二子分支的特征矩阵相乘;第四分支,将从特征图中提取的局部特征与结果矩阵采用残差连接方式相加,并通过卷积层和上采样实现特征融合。
优选的,边界加强分支的损失函数为二元交叉熵损失函数L;并且,
Figure BDA0003469242550000041
其中,yi为第i个预测候选框的原标记框正负标签,取值为1或0;N为所述预测候选框的小批量样本的总的训练样本数量。
优选的,第四分支中卷积层的数量为4层;对实现特征融合后生成的目标边界的预测特征进行2层卷积,以生成预测目标边界。
优选的,掩膜分支对从特征图中提取的局部特征进行4层卷积和上采样,并与目标边界的预测特征相加后,进行反卷积并生成掩膜。
本发明的有益效果在于,与现有技术相比,本发明中一种改进Mask R-CNN的目标分割方法,能够通过将全局特征融合至感兴趣区域特征中,并通过协调损失函数在回归分支与分类分支相互监督的前提下生成检测框,以及基于边界加强实现边界和掩膜的生成。本发明方法,能够在图像处理的多个过程中对目标边界特征进行提取和增强,预测出了目标完整的检测框,从而避免了掩膜分割不完整和目标边界粗糙的问题,大幅提高了目标分割的准确程度。
本发明的有益效果还包括:
1、本发明方法基于深度卷积神经网络(CNN,Convolutional Neural Networks)实现,因此在深度学习中具有更加广泛的适用性,可以应用于精准计算建筑场景布局、帮助聚焦患者体内病变区域等多种不同的场景中,在不同类型的目标分割和检测过程中适应度良好。
2、本发明方法专注于对Mask(掩膜)R-CNN(Regions with CNN features,基于CNN特征的区域方法)进行了改进,在集成了Mask R-CNN的有益效果的同时,还改进了Mask R-CNN的技术问题,能够有效的改变图像中的目标细节特征丢失、分割边缘粗糙等问题,使得生成的掩膜更加精准、自然和完整。另外,本发明的方法也可以面对现实生活中更为复杂的场景,实现更加精准的目标分割。
附图说明
图1为本发明中一种改进Mask R-CNN的目标分割方法的实施流程示意图;
图2为本发明中一种改进Mask R-CNN的目标分割方法中全局上下文信息融合模块的实施流程示意图;
图3为本发明中一种改进Mask R-CNN的目标分割方法中检测框损失函数获取方法的示意图;
图4为本发明中一种改进Mask R-CNN的目标分割方法中边界增强方法的实施流程示意图;
图5为本发明中一种改进Mask R-CNN的目标分割方法实现的目标分割结果与现有技术中的Mask R-CNN实现的目标分割结果的对比图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
图1为本发明中一种改进Mask R-CNN的目标分割方法的实施流程示意图。如图1所示,本发明中一种改进Mask R-CNN的目标分割方法,具体包括步骤1至步骤3。
其中,步骤1,采用Mask R-CNN的目标分割方法对原始图像中的ROI区域特征进行获取,其中,对全局上下文信息采用一维注意力机制进行特征转换后,将转换获得的全局特征融合至ROI区域特征中。
具体来说,步骤1中所采用的方法可以参考现有技术中Mask R-CNN的方法来实现。但是与现有技术中的方法略有不同,本发明中同时对全局特征进行了提取,并将其有效的融合到了ROI(感兴趣区域,Region of Interest)区域特征中。通过这种方法,在对图像进行掩膜生成和目标分割之前,就可以有效的得到全局特征中的一些边界信息,即使感兴趣区域中并不能完全包括这些目标边界信息,这些目标边界信息也不会被全局特征错过。
优选的,步骤1中对原始图像中的ROI区域特征进行获取的方法为:步骤1.1.1,利用残差网络ResNetXt-101和特征金字塔网络FPN(Feature Pyramid Network)生成多个不同尺度的特征图;步骤1.1.2,采用区域候选网络RPN生成感兴趣区域;步骤1.2.3,采用感兴趣特征对齐方法(ROI Align)提取感兴趣区域中的局部区域特征,并采用通道相乘方法实现局部区域特征和全局特征的融合。
可以理解的是,本发明中,可以采用与现有技术中类似的Mask R-CNN方法实现主干网络中ROI信息的提取。
图2为本发明中一种改进Mask R-CNN的目标分割方法中全局上下文信息融合模块的实施流程示意图。如图2所示,优选的,步骤1中全局特征的获取方法为:步骤1.2.1,采用全局平均池化GAP对步骤1.1.1中生成的每一个不同尺度的特征图进行降维后,将降维信息进行合并;步骤1.2.2,采用轻量级注意力机制对合并后的降维信息进行特征转换,以获得全局特征。
本发明与现有技术的不同之处在于,本发明中增加了全局上下文信息融合模块(GCIFM,Global context Information Fusion Module),通过增加这一模块能够实现对全局特征的提取。
具体的,可以将前述步骤中提取的多个不同尺度的特征图,例如主干网络中特征金字塔网络各层中的特征{P2,P3,P4,P5},对其分别进行全局平均池化(GAP,GlobalAverage Pooling)。这里的池化过程主要是可以对全局上下文特征进行压缩,在保留全局信息中重要的特征的同时,还能够有效的降低特征的规模。然后,再将池化后的多个特征合并后,输入至轻量级注意力模块中。本发明中的合并方法可以实采用逐个元素相加的方法实现四个不同层级的全局上下文信息的融合的。通过轻量级注意力模块对全局特征进行细化,这里,可以在轻量级注意力模块中首先将合并后的池化信息进行一次特征变换(即图1中记载的Transform),可以采用轻量级注意力模块中经常采用的GLU(Gated LinearUnits)或FC(Full Connected Layers)来实现转换。在一次转换后,生成的信息能够符合一维卷积层的输入格式,因此可以通过一维卷积层(Conv1d)来实现输入通道特征和相邻通道特征之间的空间关系。在一维卷积层输出后,再通过转换方式实现轻量级注意力机制的输出。
优选的,轻量级注意力机制采用卷积核为5的一维卷积实现。
换言之,本发明的方法可以实现每个通道与相邻的5个通道实现局部特征交互。
本发明前述步骤1.2.3中包括的局部区域特征和全局特征之间的融合,可以被理解为是采用轻量级注意力机制输出的全局上下文特征权重参数与主干网络生成的ROI特征按照通道进行相乘运算,从而获得信息融合。这一融合过程能够有效的提高后续检测框生成的准确性,以及目标边缘定位的准确程度,进而提升网络的检测和分割性能。
步骤2,对包含ROI区域特征的特征图进行分类损失函数和回归损失函数的计算,并采用相互监督的分类损失权重和回归损失权重实现对协调损失函数的构建,以预测最优检测框。
图3为本发明中一种改进Mask R-CNN的目标分割方法中检测框损失函数获取方法的示意图。如图3所示,优选的,采用协调损失函数分别训练ROI区域特征的特征图的分类分支和回归分支,以预测预测最优检测框。
可以理解的是,本发明为了更好的保证检测框预测的一致性,提出了协调损失函数的概念。如图3所示,本发明中,将融合后获得的特征图输入到检测模块中实现检测框的预测。首先,在该检测模块中,通常可以包括分类支路和回归支路两个支路。在现有技术中,上述两个支路通常是各自完成检测框的预测的。这使得两个支路各自的损失函数在计算过程并不相关,只通过简单的求和获得的损失函数并不够准确,也不能充分体现检测模块中分类支路与回归支路之间的相互影响。如此,就容易在计算过程中获得分类得分较高但IOU(Intersection-over-Union,预测候选框与原标记框之间的交并比)较低的检测结果,或者是分类得分较低,IOU得分较高的检测结果。以上两个不一致的检测结果都是由于分类损失与回归损失在独立训练过程中没有关联所导致的。
针对上述问题,本发明中,采用了如下的协调损失函数。
优选的,协调损失函数为:
Figure BDA0003469242550000071
其中,i为小批量样本中预测候选框的序号,
pi为第i个预测候选框的预测概率,
yi为第i个预测候选框的原标记框正负标签,
di为第i个预测候选框的坐标向量,
Figure BDA0003469242550000081
为第i个预测候选框对应的原标记框的坐标向量,
CE()为交叉熵损失函数,L()为Smooth L1损失函数,
γr和γc分别为回归协调因子和分类协调因子。
可以理解的是,该协调损失函数公式中所记载的CE(pi,yi)为分类支路所采用的交叉熵损失函数,而
Figure BDA0003469242550000082
则为平滑支路所采用的平滑L1损失函数。为了确保在单独进行训练的过程中,保证二者之间的关联性,还增加了回归协调因子和分类协调因子所表征的权重(1+γr)和(1+γc)。
优选的,采用回归协调因子实现分类损失与回归损失的相互监督;并且,回归协调因子为
Figure BDA0003469242550000083
分类协调因子为
Figure BDA0003469242550000084
本发明中,对于分类分支,分配了一个回归协调因子,从而能够动态的监督分类分支的优化。相同的,对于回归分支则可以分配一个分类协调因子,从而能够监督回归分支的优化。因此,在优化的过程中,回归损失能够被分类支路感知到,而分类损失也能够被回归支路感知到。
因此,本发明的方法可以非常准确的预测到分类损失和回归损失的取值较为一致的最优的检测框。
具体来说,本发明可以判断感兴趣区域的目标类别,并回归出感兴趣区域的位置信息,同时利用协调损失函数分别完成分类支路和回归支路的训练,从而生成最优检测框。
如图3所示,本发明一实施例中,生成了7*7的感兴趣区域,并针对每一个感兴趣区域采用了256个目标种类数,随后采用1024全连接层分别实现回归分支和分类分支训练。
步骤3,将最优检测框提取的局部特征进行目标分割,其中,利用边界加强方法实现对于目标边界的特征进行加强,从而实现目标掩膜的生成。
在实现最优检测框后,就可以基于最优检测框来对局部特征进行提取。
优选的,步骤3中,目标掩膜的生成方法为:步骤3.1,利用边界加强分支生成目标边界的预测特征,并基于预测特征生成预测目标边界;步骤3.2,将目标边界的预测特征增加至掩膜分支中,实现目标对象掩膜的生成。
可以理解的是,本发明中目标掩膜的生成方法可以是基于增强的边界信息和最优检测框来实现的。
首先,掩膜生成过程中可以包括掩膜分支和边界增强分支两个分支。其中,边界增强分支中的边界增强模块的内容如图4所示。
图4为本发明中一种改进Mask R-CNN的目标分割方法中边界增强方法的实施流程示意图。在图4中,优选的,边界加强分支包括第一子分支、第二子分支、第三子分支和第四子分支;其中,第一子分支,对从特征图中提取的局部特征进行转换和变形,并与第二子分支、第三子分支共同生成的位置注意矩阵相乘,以得到结果矩阵;第二子分支,对从特征图中提取的局部特征进行降维和转换,并与第三分支生成的转置矩阵相乘后,通过归一化指数函数生成位置注意矩阵;第三子分支,对从特征图中提取的局部特征进行降维和转换,并在转置后与第二子分支的特征矩阵相乘;第四分支,将从特征图中提取的局部特征与结果矩阵采用残差连接方式相加,并通过卷积层和上采样实现特征融合。
可以理解的是,在图4所示的实施例中,可以将输入的局部特征A进行通道降维,分别得到特征B和C,也就是第二支路和第三支路的内容。对于B和C分别进行转换操作,并将转换后的B、转换后的C的转置矩阵进行矩阵相乘,得到的乘积利用Softmax(归一化指数函数)进行计算,生成位置注意矩阵S。该位置注意矩阵S能够对于特征中任意两个像素之间的位置关系进行建模。
本发明中,局部特征A也可以直接进行转换和矩阵转置操作,生成的结果需要与前述的位置注意矩阵S进行相乘,从而得到结果矩阵。结果矩阵再与局部特征A通过残差连接的方式,实现每个对应元素的相加,最后得到每个位置上的融合特征。本发明中,为了实现融合特征的进一步细化,可以采用四个卷积层来实现。
优选的,边界加强分支的损失函数为二元交叉熵损失函数L;并且,
Figure BDA0003469242550000101
其中,yi为第i个预测候选框的原标记框正负标签,具体来说也就是小批量样本的原标记框的正负标签,取值为1或0;N为所述预测候选框的小批量样本的总的训练样本数量
本发明中预测候选框的原标记框标签为正类时,yi的取值为1,为负类时,取值为0。另外,pi的取值为当yi为正类时的概率。本发明中,取值为正的标签也被称为目标真实类别标签。
由于需要边界加强分支也同时引入了一定程度的损失,因此本发明中采用了相应的损失函数。本发明通过多次验证,发现二元交叉熵损失函数的结果较好。
优选的,第四分支中卷积层的数量为4层;对实现特征融合后生成的目标边界的预测特征进行2层卷积,以生成预测目标边界。
本发明中,除了将融合特征通过一定的转换发送给掩膜分支之外,边界加强分支也通过进一步的2层卷积来实现了预测目标边界的生成。
本发明一实施例中,由于边界监督模块输出特征大小为14*14,而为了获得与掩膜分支中特征大小相同的特征图,并有效的实现元素相加,从而加强目标位置的特征表示,尤其是边界的特征表示,还可以在四个卷积层之后对于边界增强支路的输出进行上采样。同样的,为了预测目标边界的生成,可以将上采样后的输出再还原为14*14的特征,然后实现目标边界图的生成。
优选的,掩膜分支对从特征图中提取的局部特征进行4层卷积和上采样,并与目标边界的预测特征相加后,进行反卷积并生成掩膜。
生成掩膜分支的过程较为简单,就是通过四层卷积和上采样实现的。由于本发明同时对边界特征和掩膜特征均进行了一次上采样,从而增加了掩膜生成过程中边界的相关信息,另外,也使得掩膜边界的准确程度更高,防止出现边界粗糙的问题。
在合成边界加强特征后,掩膜支路通过反卷积生成了最终的掩膜。
图5为本发明中一种改进Mask R-CNN的目标分割方法实现的目标分割结果与现有技术中的Mask R-CNN实现的目标分割结果的对比图。如图5所示,上述方法应用于COCO(Common Objects in Context,上下文中的常见对象)数据集上,上一排的四幅图像是采用现有技术中常用的Mask R-CNN方法实现的目标分割,图中,不同的目标均不同程度上出现了边界缺失的情况。下一排的图像是根据本发明方法提取的目标,检测框能够完整的覆盖整个目标,并且解决了掩膜不完整,边界分割粗糙的问题。本发明实现的目标掩膜更精确、更自然、更完整。
本发明的有益效果在于,与现有技术相比,本发明中一种改进Mask R-CNN的目标分割方法,能够通过将全局特征融合至感兴趣区域特征中,并通过协调损失函数在回归分支与分类分支相互监督的前提下生成检测框,以及基于边界加强实现边界和掩膜的生成。本发明方法,能够在图像处理的多个过程中对目标边界特征进行提取和增强,预测出了目标完整的检测框,从而避免了掩膜分割不完整和目标边界粗糙的问题,大幅提高了目标分割的准确程度。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (12)

1.一种改进Mask R-CNN的目标分割方法,其特征在于,所述方法包括以下步骤:
步骤1,采用Mask R-CNN的目标分割方法对原始图像中的ROI区域特征进行获取,其中,对全局上下文信息采用一维注意力机制进行特征转换后,将所述转换获得的全局特征融合至ROI区域特征中;
步骤2,对包含ROI区域特征的特征图进行分类损失函数和回归损失函数的计算,并采用相互监督的分类损失权重和回归损失权重实现对协调损失函数的构建,以预测最优检测框;
步骤3,将最优检测框提取的局部特征进行目标分割,其中,利用边界加强方法实现对于目标边界的特征进行加强,从而实现目标掩膜的生成。
2.根据权利要求1中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述步骤1中对原始图像中的ROI区域特征进行获取的方法为:
步骤1.1.1,利用残差网络ResNetXt-101和特征金字塔网络FPN生成多个不同尺度的特征图;
步骤1.1.2,采用区域候选网络RPN生成感兴趣区域;
步骤1.2.3,采用感兴趣特征对齐方法ROIAlign提取所述感兴趣区域中的局部区域特征,并采用通道相乘方法实现局部区域特征和所述全局特征的融合。
3.根据权利要求2中所述的一种改进Mask R--CNN的目标分割方法,其特征在于:
所述步骤1中全局特征的获取方法为:
步骤1.2.1,采用全局平均池化GAP对步骤1.1.1中生成的每一个所述不同尺度的特征图进行降维后,将降维信息进行合并;
步骤1.2.2,采用轻量级注意力机制对合并后的降维信息进行特征转换,以获得全局特征。
4.根据权利要求3中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述轻量级注意力机制采用卷积核为5的一维卷积实现。
5.根据权利要求1中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
采用协调损失函数分别训练所述ROI区域特征的特征图的分类分支和回归分支,以预测预测最优检测框。
6.根据权利要求5中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述协调损失函数为:
Figure FDA0003469242540000021
其中,i为小批量样本中预测候选框的序号,
pi为第i个预测候选框的预测概率,
yi为第i个预测候选框的原标记框正负标签,
di为第i个预测候选框的坐标向量,
Figure FDA0003469242540000022
为第i个预测候选框对应的原标记框的坐标向量,
CE()为交叉熵损失函数,L()为平滑L1损失函数,
γr和γr分别为回归协调因子和分类协调因子。
7.根据权利要求6中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
采用回归协调因子实现分类损失与回归损失的相互监督;并且,
所述回归协调因子为
Figure FDA0003469242540000023
所述分类协调因子为
Figure FDA0003469242540000024
8.根据权利要求1中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述步骤3中,目标掩膜的生成方法为:
步骤3.1,利用边界加强分支生成目标边界的预测特征,并基于所述预测特征生成预测目标边界;
步骤3.2,将所述目标边界的预测特征增加至掩膜分支中,实现目标对象掩膜的生成。
9.根据权利要求8中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述边界加强分支包括第一子分支、第二子分支、第三子分支和第四子分支;其中,
所述第一子分支,对从所述特征图中提取的局部特征进行转换和变形,并与第二子分支、第三子分支共同生成的位置注意矩阵相乘,以得到结果矩阵;
所述第二子分支,对从所述特征图中提取的局部特征进行降维和转换,并与所述第三分支生成的转置矩阵相乘后,通过归一化指数函数生成位置注意矩阵;
所述第三子分支,对从所述特征图中提取的局部特征进行降维和转换,并在转置后与所述第二子分支的特征矩阵相乘;
所述第四分支,将从所述特征图中提取的局部特征与所述结果矩阵采用残差连接方式相加,并通过卷积层和上采样实现特征融合。
10.根据权利要求9中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述边界加强分支的损失函数为二元交叉熵损失函数L;并且,
Figure FDA0003469242540000031
其中,yi为第i个预测候选框的原标记框正负标签,取值为1或0;N为所述预测候选框的小批量样本的总的训练样本数量。
11.根据权利要求10中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述第四分支中卷积层的数量为4层;
对实现特征融合后生成的所述目标边界的预测特征进行2层卷积,以生成预测目标边界。
12.根据权利要求11中所述的一种改进Mask R-CNN的目标分割方法,其特征在于:
所述掩膜分支对从所述特征图中提取的局部特征进行4层卷积和上采样,并与所述目标边界的预测特征相加后,进行反卷积并生成掩膜。
CN202210038272.5A 2022-01-13 2022-01-13 一种改进Mask R-CNN的目标分割方法 Pending CN114445620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210038272.5A CN114445620A (zh) 2022-01-13 2022-01-13 一种改进Mask R-CNN的目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210038272.5A CN114445620A (zh) 2022-01-13 2022-01-13 一种改进Mask R-CNN的目标分割方法

Publications (1)

Publication Number Publication Date
CN114445620A true CN114445620A (zh) 2022-05-06

Family

ID=81368399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210038272.5A Pending CN114445620A (zh) 2022-01-13 2022-01-13 一种改进Mask R-CNN的目标分割方法

Country Status (1)

Country Link
CN (1) CN114445620A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN116152229A (zh) * 2023-04-14 2023-05-23 吉林大学 一种糖尿病视网膜病变诊断模型的构建方法及诊断模型

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953666A (zh) * 2023-03-15 2023-04-11 国网湖北省电力有限公司经济技术研究院 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN116152229A (zh) * 2023-04-14 2023-05-23 吉林大学 一种糖尿病视网膜病变诊断模型的构建方法及诊断模型
CN116152229B (zh) * 2023-04-14 2023-07-11 吉林大学 一种糖尿病视网膜病变诊断模型的构建方法及诊断模型

Similar Documents

Publication Publication Date Title
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN111401384A (zh) 一种变电设备缺陷图像匹配方法
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN114266794B (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN112560831A (zh) 一种基于多尺度空间校正的行人属性识别方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN111768415A (zh) 一种无量化池化的图像实例分割方法
Zhai et al. Deep texton-coherence network for camouflaged object detection
CN114494812A (zh) 一种基于改进CenterNet的图像小目标检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN117372853A (zh) 一种基于图像增强和注意力机制的水下目标检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination