CN113111885B - 一种动态分辨率实例分割方法及计算机可读存储介质 - Google Patents

一种动态分辨率实例分割方法及计算机可读存储介质 Download PDF

Info

Publication number
CN113111885B
CN113111885B CN202110400888.8A CN202110400888A CN113111885B CN 113111885 B CN113111885 B CN 113111885B CN 202110400888 A CN202110400888 A CN 202110400888A CN 113111885 B CN113111885 B CN 113111885B
Authority
CN
China
Prior art keywords
segmentation
dynamic
dynamic resolution
prediction
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110400888.8A
Other languages
English (en)
Other versions
CN113111885A (zh
Inventor
李秀
马露凡
陶佳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110400888.8A priority Critical patent/CN113111885B/zh
Publication of CN113111885A publication Critical patent/CN113111885A/zh
Application granted granted Critical
Publication of CN113111885B publication Critical patent/CN113111885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种动态分辨率实例分割方法及计算机可读存储介质,方法包括:将图像输入到特征提取网络中提取图像的特征并通过区域裁剪和缩放操作提取得到感兴趣区域的实例特征;将感兴趣区域的实例特征送入到头部网络中进行预测,头部网络包括分类回归分支和分割分支;预测包括将感兴趣区域的实例特征送入到分类回归分支中进行类别的分类预测和检测边界框的回归预测以及送入到分割分支中进行目标实例对应分割图的预测;得到图像的动态分辨率的分割图。通过动态卷积实现单一实例分割模型输出动态分辨率大小的分割掩膜,且具有较高的分割精度。

Description

一种动态分辨率实例分割方法及计算机可读存储介质
技术领域
本发明涉及实例分割技术领域,尤其涉及一种动态分辨率实例分割方法及计算机可读存储介质。
背景技术
随着深度学习技术的飞速发展,基于深度卷积神经网络的图像分割技术取得了巨大突破,实例分割(Instance Segmentation)技术成为计算机视觉领域中极具挑战性和重要性的研究方向,在自动驾驶、机器人、无人机以及可穿戴式设备等应用场景中发挥着关键作用。实例分割任务通常被看作是目标检测(Object Detection)和语义分割(SemanticSegmentation)任务的结合,它既需要定位出图像中的所有目标实例,又需要在像素级别上对不同实例进行分类,其目标是通过神经网络精准预测出每个实例的像素级分割掩膜(Mask)以及语义类别标签。
当前实例分割算法的主流思路是将目标检测方法和语义分割方法联合使用,最终达到实例分割的效果。随着目标检测和语义分割研究的发展,实例分割模型也在此基础上不断完善,通常被划分为双阶段(Two-Stage)方法和单阶段(One-Stage)方法两大类。两阶段实例分割通常采用基于候选区域(Region proposal-based)的方法,继承了两阶段目标检测器的整体框架,在牺牲速度的情况下取得了较高的分割精度。单阶段实例分割方法在速度上取得了极大的提升,但是在分割精度上做出了一定的牺牲。
现有技术仅支持固定分辨率大小的分割掩模预测,即一个实例分割框架仅能输出一种固定分辨率大小的mask,无法实现单一模型的动态分辨率预测。例如,基于ROIAlign或ROI Pooling机制的分割框架Mask R_CNN提取固定大小(28x28)的ROI特征,细节信息丢失,输出分割掩模的分辨率受限,直接影响分割精度。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种动态分辨率实例分割方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种动态分辨率实例分割方法,包括如下步骤:S1:将图像输入到特征提取网络中提取所述图像的特征并通过区域裁剪和缩放操作提取得到感兴趣区域的实例特征;S2:将所述感兴趣区域的实例特征送入到头部网络中进行预测,所述头部网络包括分类回归分支和分割分支;所述预测包括将所述感兴趣区域的实例特征送入到所述分类回归分支中进行类别的分类预测和检测边界框的回归预测以及送入到所述分割分支中进行目标实例对应分割图的预测;S3:得到所述图像的动态分辨率的分割图。
优选地,将所述感兴趣区域的实例特征送入到所述分割分支中进行目标实例对应分割图的预测包括:S21:从所述感兴趣区域的实例特征中学习到表征所述感兴趣区域内实例空间布局信息的粗糙掩膜特征;S22:通过位置坐标投影建立起从所述粗糙掩膜特征到动态分辨率的动态分辨率的分割图之间的坐标映射关系;S23:对所述动态分割图中的每一个像素点生成位置感知和尺度感知的动态权重;S24:将所述动态权重与与所述粗糙掩膜特征进行逐点对应的动态卷积得到所述图像动态分辨率的分割图。
优选地,采用全卷积网络从所述感兴趣区域的实例特征X中学习到表征所述感兴趣区域内实例空间布局信息的粗糙掩膜特征C∈R(b,256,14,14)
优选地,从所述粗糙掩膜特征C生成所述动态分辨率的分割图M∈R(b,c,H,W)的过程为对所述粗糙掩膜特征C按照任意尺度因子s进行上采样;所述任意尺度因子s是整数或浮点数;在根据任意大小的尺度因子s上采样过后,所述动态分辨率的分割图M的尺寸大小为任意动态分辨率,所述动态分辨率的分割图M的高度宽度随着s的变化而变化。
优选地,对于所述动态分辨率的分割图M中的任意一个像素点(x,y)都能通过位置坐标投影在所述粗糙掩膜特征C上找到一个唯一的对应像素点(x′,y′),并且这两个像素点高度相关,分割掩膜中的前景分类概率值M(x,y)由粗糙掩膜特征C(x′,y′)决定,采用坐标投影变换符T来执行对应像素点从输出分割掩膜(x,y)到粗糙掩膜特征(x′,y′)的映射,得到像素点之间的坐标映射关系:
Figure BDA0003020242230000031
优选地,对所述动态分割图中的每一个像素点生成位置感知和尺度感知的动态权重包括:对所述动态分辨率的分割图M中的每一个像素位置(x,y)以及所述粗糙掩膜特征C与动态分辨率的分割图M之间的每一个所述尺度因子s作为权重预测网络
Figure BDA0003020242230000032
的输入向量V(x,y),对所述动态分辨率的分割图M的任一点M(x,y)对应的位置感知和尺度感知向量V(x,y)∈R(HW,3)计算方式如下:
Figure BDA0003020242230000033
所述权重预测网络
Figure BDA0003020242230000034
根据所述输入向量生成包含分割图位置坐标信息和上采样倍率信息的动态权重W:
Figure BDA0003020242230000035
其中,θ表示所述权重预测网络
Figure BDA0003020242230000036
的参数。
优选地,所述权重预测网络
Figure BDA0003020242230000037
包括两个全连接层;第一个所述全连接层输入通道3、输出通道256;第二个所述全连接层输入通道256、输出通道k*k*256*c,其中k是动态卷积时卷积核的大小,c是输出的动态分辨率分割图的通道数量;所述参数θ表示两个所述全连接层的所述权重预测网络
Figure BDA0003020242230000038
的参数,所述动态权重W(x,y)∈R(HW,k*k*256*c)
优选地,将所述动态权重与与所述粗糙掩膜特征进行逐点对应卷积得到所述图像动态分辨率的分割图包括:获取所述动态分辨率的分割图的每个像素(x,y)所对应的卷积权重W(x,y)包括:通过位置坐标投影计算出每个像素(x,y)在所述粗糙掩模特征C上对应的像素点位置坐标(x′,y′),并以坐标(x′,y′)为领域中心构建3x3领域,将维度为(c,256,k,k)的卷积权重W(x,y)以内积方式逐点对应卷积;通过位置特定且尺度特定的卷积核W来将所述粗糙掩膜特征C上的像素(x′,y′)的特征值C(x′,y′)映射为所述动态分辨率的分割图的像素值M(x,y),得到从所述粗糙掩膜特征C到所述动态分辨率的分割图M的特征映射函数。
优选地,选择矩阵乘积作为所述特征映射函数F,公式表示如下:
M(x,y)=F(C(x′,y′),W(x,y))。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种动态分辨率实例分割方法及计算机可读存储介质,通过对包括特征提取网络和头部网络的两阶段实例分割方法中的头部网络的分割分支进行改进,实现单一实例分割模型输出动态分辨率大小的分割掩膜,进而得到动态分辨率的分割结果,实现单一实例分割模型的动态分辨率训练和测试,提升了模型的分割精度。
附图说明
图1是本发明实施例中一种动态分辨率实例分割方法的示意图。
图2是本发明实施例中一种动态分辨率实例分割方法的流程示意图。
图3是本发明实施例中将感兴趣区域的实例特征送入到分割分支中进行目标实例对应分割图的预测的方法示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
元学习(Meta Learning),也叫学会学习(Learning to Learn),是一门系统地观察不同机器学习方法如何在广泛的学习任务中执行的科学,然后从这种经验或元数据中学习,以比其他方法更快的速度学习新任务。元学习被广泛应用于小样本学习、迁移学习。在元学习中,动态权重生成指的是网络的卷积权重并非直接通过训练得到,而是通过另外一个网络预测得到。因此,网络卷积权重并非是静态固定的,而是会随着输入的变化而变化,所以称作是动态权重。本发明将元学习中的动态权重思想与实例分割技术相结合,提出一种新型的基于元学习的动态分辨率实例分割方法。
本发明提出了一种新型的基于元学习的动态分辨率实例分割方法。针对背景技术中指出的现有技术所存在的缺陷:现有的实例分割技术仅支持固定分辨率的分割图预测,即单一模型只能输出单一固定分辨率大小的分割图,并且所预测的分割图分辨率大小受限,导致最终分割精度较低的问题。此外,现有实例分割技术不能实现动态分辨率预测的原因主要包括两个:(1)方法中并未包括对输出分割图动态尺度上采样的建模,且若想要实现不同分辨率的预测输出,只能分别训练多个不同输出大小的分割模型;(2)现有方法输出的分割图大小受限(如Mask R-CNN输出大小是28x28),单纯地增大输出分辨率会显著增大模型的计算复杂度。
如图1所示,一种动态分辨率实例分割方法,包括如下步骤:
S1:将图像输入到特征提取网络中提取所述图像的特征并通过区域裁剪和缩放操作提取得到感兴趣区域的实例特征;
S2:将所述感兴趣区域的实例特征送入到头部网络中进行预测,所述头部网络包括分类回归分支和分割分支;
所述预测包括将所述感兴趣区域的实例特征送入到所述分类回归分支中进行类别的分类预测和检测边界框的回归预测以及送入到所述分割分支中进行目标实例对应分割图的预测;
S3:得到所述图像的动态分辨率的分割图。
本发明通过对包括特征提取网络和头部网络的两阶段实例分割方法中的头部网络的分割分支进行改进,实现单一实例分割模型输出动态分辨率大小的分割掩膜,进而得到动态分辨率的分割结果,实现单一实例分割模型的动态分辨率训练和测试,提升了模型的分割精度。
如前所述,一个完成的两阶段实例分割方法包括特征提取网络和头部网络两个部分,其中特征提取网络负责提取输出图像的特征,头部网络又可分为分类回归分支和分割分支。本发明所提出的动态分辨率实例分割方法主要是针对两阶段实例分割模型当中的分割分支进行改进,即本发明针对现有实例分割技术做出的改进点主要在于头部网络的分割分支,具体说明如下。
如图2所示,是本发明的一种动态分辨率实例分割方法的流程示意图。图中,Backbone为特征提取网络,ROIAlign是一种用于提取感兴趣区域特征的操作,实例分割领域公知。特征提取网络最终输出的动态分辨率的分割图表示为M∈R(b,c,H,W)。在预测掩膜与分类类别无关时通道数量c=1,在预测掩膜与分类类别相关时通道数量c=80。
如图3所示,在本发明的一种实施例中,将所述感兴趣区域的实例特征送入到所述分割分支中进行目标实例对应分割图的预测包括:
S21:从所述感兴趣区域的实例特征中学习到表征所述感兴趣区域内实例空间布局信息的粗糙掩膜特征;
S22:通过位置坐标投影建立起从所述粗糙掩膜特征到动态分辨率的动态分辨率的分割图之间的坐标映射关系;
S23:对所述动态分割图中的每一个像素点生成位置感知和尺度感知的动态权重;
S24:将所述动态权重与与所述粗糙掩膜特征进行逐点对应的动态卷积得到所述图像动态分辨率的分割图。
上述四个步骤可概括为:(1)粗糙掩膜特征提取;(2)位置坐标投影;(3)动态权重预测;(4)动态卷预测积。下面将针对每个步骤进行阐述:
(1)粗糙掩膜特征提取;
如图2所示,在分割分支中,输入是通过ROIAlign提取得到的固定大小的感兴趣区域的实例特征X∈R(b,256,14,14),本发明使用一个紧凑的全卷积网络从感兴趣区域的实例特征X中学习到表征感兴趣区域内实例空间布局信息的粗糙掩膜特征C∈R(b,256,14,14)。具体地,该全卷积网络由四个卷积核大小为3x3的卷积层构成,作用是学习从感兴趣区域的实例特征X到粗糙掩膜特征C的映射。
(2)位置坐标投影
位置坐标投影的目的是要建立起从粗糙掩膜特征C到动态分辨率的分割图M之间的坐标映射关系。从低分辨率的粗糙掩膜特征C生成动态分辨率的分割图M∈R(b,c,H,W)的过程可被视为是对粗糙掩膜特征C按照任意尺度因子s进行上采样;这里的s既可以是整数也可以是浮点数,如1.1,1.2,1.3,......。
自然地,对于动态分辨率的分割图M中的任意一个像素点(x,y)都能通过位置坐标投影在所述粗糙掩膜特征C上找到一个唯一的对应像素点(x′,y′),并且这两个像素点高度相关,分割掩膜中的前景分类概率值M(x,y)由粗糙掩膜特征C(x′,y′)决定。因此,本发明提出的位置坐标投影可被视为是一种可变尺度因子的步幅机制,即可以使用任意尺度因子放大特征图。在根据任意大小的尺度因子s上采样过后,动态分辨率的分割图M的尺寸大小为任意动态分辨率,动态分辨率的分割图M的高度宽度随着s的变化而变化。
采用坐标投影变换符T来执行对应像素点从输出分割掩膜(x,y)到粗糙掩膜特征(x′,y′)的映射,得到像素点之间的坐标映射关系:
Figure BDA0003020242230000071
(3)动态权重预测
动态权重预测部分的目的是针对动态分辨率的分割图M中的每一个像素点生成位置感知(position-aware)和尺度感知(scale-aware)的动态权重。本发明首次将元学习理论与实例分割任务相结合,用于动态生成卷积权重,实现动态分辨率的分割掩膜预测。在本发明中,引入元学习中的动态权重预测思想。动态权重预测是指卷积神经网络的权重W是由另外一个神经网络预测的,而不是从训练数据集中直接学习的,并且卷积核参数量也并非是预先定义的。
本发明提出针对动态分辨率的分割图M中的每一个像素位置(x,y),以及粗糙掩膜特征C与动态分辨率的分割图M之间的每一个尺度因子s,都使用权重预测网络
Figure BDA0003020242230000081
生成包含分割图位置坐标信息和上采样倍率信息的动态权重W。
具体地,对所述动态分割图中的每一个像素点生成位置感知和尺度感知的动态权重包括:
对所述动态分辨率的分割图M中的每一个像素位置(x,y)以及所述粗糙掩膜特征C与动态分辨率的分割图M之间的每一个所述尺度因子s作为权重预测网络
Figure BDA0003020242230000082
的输入向量V(x,y),对所述动态分辨率的分割图M的任一点M(x,y)对应的位置感知和尺度感知向量V(x,y)∈R(HW,3)计算方式如下:
Figure BDA0003020242230000083
所述权重预测网络
Figure BDA0003020242230000084
根据所述输入向量生成包含分割图位置坐标信息和上采样倍率信息的动态权重W:
Figure BDA0003020242230000085
其中,θ表示所述权重预测网络
Figure BDA0003020242230000086
的参数。
继续如图2所示,在本发明的一种实施例中,针对动态权重预测网络
Figure BDA0003020242230000087
本发明设计权重预测网络
Figure BDA0003020242230000088
包括两个全连接层;
第一个所述全连接层输入通道3、输出通道256;
第二个所述全连接层输入通道256、输出通道k*k*256*c,其中k是动态卷积时卷积核的大小,c是输出的动态分辨率分割图的通道数量;
所述参数θ表示两个所述全连接层的所述权重预测网络
Figure BDA0003020242230000089
的参数,所述动态权重W(x,y)∈R(HW,k*k*256*c)
(4)动态卷积预测
动态卷积预测部分的作用是将上述第(3)步中得到的动态权重与与粗糙掩膜特征C进行逐点对应卷积来得到动态分辨率的分割图M,从而实现从粗糙掩膜特征到动态分辨率的分割图M的特征映射。对于目标分割图上的每个像素(x,y),认为其像素值M(x,y)也就是前景分类概率取决于粗糙掩膜特征上的像素(x′,y′)的特征值C(x′,y′)和相应的卷积权重W(x,y)。从这个角度来看,本发明提出的动态卷积预测可被视为是从粗糙掩膜特征C到动态分辨率的分割图M的映射函数,这一转换过程的实现需要一个位置特定且尺度特定的卷积核W来将特征C(x′,y′)映射为动态分辨率的分割图像素值M(x,y)。
在本发明的一种实施例中,将所述动态权重与与所述粗糙掩膜特征进行逐点对应卷积得到所述图像动态分辨率的分割图包括:
获取所述动态分辨率的分割图的每个像素(x,y)所对应的卷积权重W(x,y)包括:
通过位置坐标投影计算出每个像素(x,y)在所述粗糙掩模特征C上对应的像素点位置坐标(x′,y′),并以坐标(x′,y′)为领域中心构建3x3领域,将维度为(c,256,k,k)的卷积权重W(x,y)以内积方式逐点对应卷积;
通过位置特定且尺度特定的卷积核W来将所述粗糙掩膜特征C上的像素(x′,y′)的特征值C(x′,y′)映射为所述动态分辨率的分割图的像素值M(x,y),得到从所述粗糙掩膜特征C到所述动态分辨率的分割图M的特征映射函数。
进一步地,可以选择矩阵乘积作为所述特征映射函数F,公式表示如下:
M(x,y)=F(C(x′,y′),W(x,y))。
动态卷积权重W与粗糙掩膜特征C的卷积方式是逐点对应卷积,并以滑动窗口的方式将预测的对应位置权重W(x,y)应用于对应位置特征C(x′,y′)。也就是说,粗糙掩膜特征上每个像素特征C(x′,y′)具有对应的特定权重W(x,y),而不是传统卷积当中的所有空间位置像素共享卷积参数。
如图2所示,动态卷积的具体实现是:对于目标分割图上的每个像素(x,y)所对应的特定卷积权重W(x,y),首先通过上述位置坐标投影模块计算出其在粗糙掩膜特征C上对应的像素点位置坐标(x′,y′),并以点(x′,y′)为领域中心构建3x3领域,然后将维度为(c,256,k,k)的卷积权重W(x,y)以内积方式逐点对应卷积。
本发明提出的动态卷积模块通过动态权重W与粗糙掩膜特征C的对应卷积得到动态分辨率的掩膜预测结果,实现同一模型的不同分辨率输出,有效解决了现有分割框架仅支持固定分辨率输出的技术问题。
本发明从动态分辨率角度出发,引入元学习中的动态卷积网络生成位置敏感和尺度敏感的动态卷积权重,在分割分支中与粗糙掩膜特征进行位置感知(position-aware)的动态卷积,进而得到动态分辨率的分割结果,实现单一实例分割模型的动态分辨率训练和测试,提升了模型的分割精度。
本发明首次在实例分割框架中实现动态分辨率的分割图预测,解决了现有分割框架仅支持固定分辨率预测的技术问题,打破了由于固定的低分辨率分割图导致的细节信息丢失、分割质量低等局限。与现有技术相比,本发明通过位置敏感和尺度敏度的动态卷积实现单一实例分割模型输出动态分辨率大小的分割掩膜,以往的方法均是单个模型只支持单个固定尺寸大小的分割图输出,要实现不同分辨率大小输出则需要多个模型。
综上所述,本发明具有以下特点:(1)基于元学习设计可学习的动态权重预测网络,按照任意指定比例对于低分辨率的粗糙掩膜进行上采样增强,仅需单个模型就能实现动态分辨率的掩膜预测;(2)利用目标分割图中的坐标点位置信息和动态比例因子,将其编码为位置敏感和尺度敏感的动态卷积权重;(3)在分割分支中,对不同位置的粗糙掩膜特征使用不同的卷积核进行位置感知的动态卷积,替代了传统的共享固定卷积核的卷积方式;(4)本发明提出的动态分辨率实例分割技术能够嵌入到任意的两阶段实例分割框架当中以实现动态分辨率的掩膜预测;(6)采用从粗糙到精细(coarse-to-fine)的分割掩膜生成方式,根据粗糙掩膜特征生成动态分辨率的掩膜预测;(7)在不需要迭代上采样操作的情况下,让网络输出更高分辨率的分割结果,使得测试流程更加快速简洁;(8)本发明提出的动态权重预测网络仅包含两个全连接层,在测试阶段网络前向预测掩膜速度足够快。
因此,本发明提出的基于元学习的动态分辨率实例分割方法可以被拓展到两阶段实例分割方法当中,对其分割分支进行改进。为了表明本发明的有效性,选取典型的两阶段实例分割方法Mask R-CNN进行了实验验证,表明在实例分割任务上,本发明提出的新型的基于元学习的动态分辨率实例分割框架能够带来更为优异的分割效果。
采用Mask R-CNN作为基线,将本发明改进的头部网络中的分割分支拓展到MaskR-CNN中。使用带有特征金字塔和ResNet50作为特征提取网络,并使用在ImageNet上的预训练的权重对特征提取网络进行初始化。本发明在典型的实例分割基准数据集COCO数据集上进行实验验证。
COCO数据集包含用于训练的118k张图像,用于验证的5k张图像和用于测试的20k张图像,其中包含80个带有实例级注释的对象类别。本发明提出的模型在训练集上进行训练。在测试集上与其他方法进行比较。对于评测指标,本发明采用标准的COCO度量标准,包括AP,AP50,AP75。
在训练过程中才用多尺度训练方式,输入图像的短边取值范围为[640,800]中,长边小于或等于1333。在训练期间也使用左右翻转数据增强。在测试时,才用常规的单尺寸方式,图像短边尺寸为800。采用随机梯度下降进行训练,初始学习率为0.01,批尺寸为16,累计迭代训练90k。在迭代60k和80k时,学习率分别降低为0.001和0.0001。验证实验在8个NVIDIA GPU上进行部署。
在相同特征提取和实验配置下,本发明提出的实例分割方法相比于现有方法在分割指标mAP上有显著的提升,比Mask RCNN提升1.5%AP,在相同速度下比BMask RCNN提升0.1%AP,在COCO测试集上的测试结果如表1所示。
表1 COCO实例分割任务效果对比
Model mAP mAP@0.5 mAP@0.75
Mask RCNN+ResNet50+FPN 34.2 56.0 36.3
SOLO+ResNet50+FPN 34.2 55.9 36.0
BMask RCNN+ResNet50+FPN 35.6 56.3 38.4
PolarMask+ResNext101+FPN 32.6 54.4 33.7
Our Method 35.7 56.7 38.1
上述实验结果证明本发明提出的基于元学习的动态分辨率实例分割框架具备优异的分割性能。
本发明专利创新性地将元学习理论引入到实例分割任务当中,提出一种新型的基于元学习的动态分辨率实例分割框架设计方法,首次实现单个实例分割模型生成动态分辨率的分割图,有效解决了现有分割框架仅支持固定分辨率预测的技术问题,打破了由于固定的低分辨率分割图导致的细节信息丢失、分割质量低等局限,同时也省去了训练多个不同分辨率预测模型以及迭代化上采样分割图等繁琐操作。
基于以上特性,本发明提出的基于元学习的动态分辨率实例分割技术能够生成更加鲁棒的实例分割模型,在不损失分割速度的情况框下提高自然场景的实例分割精度,上述实验结果证明本发明的有效性。同时,本发明提出的动态分辨率实例分割技术能够被轻松应用于各类分割场景以提高分割性能,比如自动驾驶、机器人、无人机以及可穿戴式设备等应用场景,展现出可期的应用前景。
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (9)

1.一种动态分辨率实例分割方法,其特征在于,包括如下步骤:
S1:将图像输入到特征提取网络中提取所述图像的特征并通过区域裁剪和缩放操作提取得到感兴趣区域的实例特征;
S2:将所述感兴趣区域的实例特征送入到头部网络中进行预测,所述头部网络包括分类回归分支和分割分支;
所述预测包括将所述感兴趣区域的实例特征送入到所述分类回归分支中进行类别的分类预测和检测边界框的回归预测以及送入到所述分割分支中进行目标实例对应分割图的预测;
S3:得到所述图像的动态分辨率的分割图;
将所述感兴趣区域的实例特征送入到所述分割分支中进行目标实例对应分割图的预测包括:
S21:从所述感兴趣区域的实例特征中学习到表征所述感兴趣区域内实例空间布局信息的粗糙掩膜特征;
S22:通过位置坐标投影建立起从所述粗糙掩膜特征到动态分辨率的分割图之间的坐标映射关系;
S23:对所述动态分辨率的分割图中的每一个像素点生成位置感知和尺度感知的动态权重;
S24:将所述动态权重与所述粗糙掩膜特征进行逐点对应的动态卷积得到所述图像动态分辨率的分割图。
2.如权利要求1所述的动态分辨率实例分割方法,其特征在于,采用全卷积网络从所述感兴趣区域的实例特征X中学习到表征所述感兴趣区域内实例空间布局信息的粗糙掩膜特征C∈R(b,256,14,14),其中,R是实数域,b是批尺寸。
3.如权利要求2所述的动态分辨率实例分割方法,其特征在于,从所述粗糙掩膜特征C生成所述动态分辨率的分割图M∈R(b,c,H,W)的过程为对所述粗糙掩膜特征C按照任意尺度因子s进行上采样;所述任意尺度因子s是整数或浮点数,c是输出的动态分辨率分割图的通道数量,H是输出的动态分辨率分割图的高度,W是输出的动态分辨率分割图的宽度;
在根据任意大小的尺度因子s上采样过后,所述动态分辨率的分割图M的尺寸大小为任意动态分辨率,所述动态分辨率的分割图M的高度宽度随着s的变化而变化。
4.如权利要求3所述的动态分辨率实例分割方法,其特征在于,对于所述动态分辨率的分割图M中的任意一个像素点(x,y)都能通过位置坐标投影在所述粗糙掩膜特征C上找到一个唯一的对应像素点(x′,y′),并且这两个像素点高度相关,分割掩膜中的前景分类概率值M(x,y)由粗糙掩膜特征C(x′,y′)决定,采用坐标投影变换符T来执行对应像素点从输出分割掩膜(x,y)到粗糙掩膜特征(x′,y′)的映射,得到像素点之间的坐标映射关系:
Figure FDA0003857599170000021
5.如权利要求4所述的动态分辨率实例分割方法,其特征在于,对所述动态分辨率的分割图中的每一个像素点生成位置感知和尺度感知的动态权重包括:
对所述动态分辨率的分割图M中的每一个像素位置(x,y)以及所述粗糙掩膜特征C与动态分辨率的分割图M之间的每一个所述尺度因子s作为权重预测网络
Figure FDA0003857599170000022
的输入向量V(x,y),对所述动态分辨率的分割图M的任一点M(x,y)对应的位置感知和尺度感知向量V(x,y)∈R(HW,3)计算方式如下:
Figure FDA0003857599170000023
所述权重预测网络
Figure FDA0003857599170000024
根据所述输入向量生成包含分割图位置坐标信息和上采样倍率信息的动态权重W:
Figure FDA0003857599170000025
其中,θ表示所述权重预测网络
Figure FDA0003857599170000026
的参数。
6.如权利要求5所述的动态分辨率实例分割方法,其特征在于,所述权重预测网络
Figure FDA0003857599170000027
包括两个全连接层;
第一个所述全连接层输入通道3、输出通道256;
第二个所述全连接层输入通道256、输出通道k*k*256*c,其中k是动态卷积时卷积核的大小,c是输出的动态分辨率分割图的通道数量;
所述参数θ表示两个所述全连接层的所述权重预测网络
Figure FDA0003857599170000031
的参数,所述动态权重W(x,y)∈R(HW,k*k*256*c)
7.如权利要求6所述的动态分辨率实例分割方法,其特征在于,将所述动态权重与所述粗糙掩膜特征进行逐点对应卷积得到所述图像动态分辨率的分割图包括:
获取所述动态分辨率的分割图的每个像素(x,y)所对应的卷积权重W(x,y)包括:
通过位置坐标投影计算出每个像素(x,y)在所述粗糙掩膜 特征C上对应的像素点位置坐标(x′,y′),并以坐标(x′,y′)为领域中心构建3x3领域,将维度为(c,256,k,k)的卷积权重W(x,y)以内积方式逐点对应卷积;
通过位置特定且尺度特定的卷积核W来将所述粗糙掩膜特征C上的像素(x′,y′)的特征值C(x′,y′)映射为所述动态分辨率的分割图的像素值M(x,y),得到从所述粗糙掩膜特征C到所述动态分辨率的分割图M的特征映射函数。
8.如权利要求7所述的动态分辨率实例分割方法,其特征在于,选择矩阵乘积作为所述特征映射函数F,公式表示如下:
M(x,y)=F(C(x′,y′),W(x,y))。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN202110400888.8A 2021-04-14 2021-04-14 一种动态分辨率实例分割方法及计算机可读存储介质 Active CN113111885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110400888.8A CN113111885B (zh) 2021-04-14 2021-04-14 一种动态分辨率实例分割方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110400888.8A CN113111885B (zh) 2021-04-14 2021-04-14 一种动态分辨率实例分割方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113111885A CN113111885A (zh) 2021-07-13
CN113111885B true CN113111885B (zh) 2022-11-29

Family

ID=76717630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110400888.8A Active CN113111885B (zh) 2021-04-14 2021-04-14 一种动态分辨率实例分割方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113111885B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569860B (zh) * 2021-07-29 2024-02-27 北京地平线信息技术有限公司 实例分割方法和实例分割网络的训练方法及其装置
CN116681892B (zh) * 2023-06-02 2024-01-26 山东省人工智能研究院 基于多中心PolarMask模型改进的图像精准分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047081A (zh) * 2019-03-26 2019-07-23 清华大学 胸部x光图像的实例分割方法、装置、设备及介质
CN110097078A (zh) * 2019-03-26 2019-08-06 深圳大学 一种最优尺度选择方法、装置及计算机可读存储介质
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN111080567A (zh) * 2019-12-12 2020-04-28 长沙理工大学 基于多尺度动态卷积神经网络的遥感图像融合方法及系统
CN112465801A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种分尺度提取掩码特征的实例分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507777A (zh) * 2020-10-10 2021-03-16 厦门大学 一种基于深度学习的光学遥感图像舰船检测与分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047081A (zh) * 2019-03-26 2019-07-23 清华大学 胸部x光图像的实例分割方法、装置、设备及介质
CN110097078A (zh) * 2019-03-26 2019-08-06 深圳大学 一种最优尺度选择方法、装置及计算机可读存储介质
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN111080567A (zh) * 2019-12-12 2020-04-28 长沙理工大学 基于多尺度动态卷积神经网络的遥感图像融合方法及系统
CN112465801A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种分尺度提取掩码特征的实例分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Conditional Convolutions for Instance Segmentation";Zhi Tian et al;《Springer》;20201231;第282-298页 *
"Instance and Panoptic Segmentation Using Conditional Convolutions";Zhi Tian et al;《arXiv》;20210205;第1-12页 *
"深度学习的图像实例分割方法综述";张继凯等;《小型微型计算机系统》;20210131;第42卷(第01期);第161-171页 *

Also Published As

Publication number Publication date
CN113111885A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
US20220083801A1 (en) Methods and apparatuses for vehicle appearance feature recognition, methods and apparatuses for vehicle retrieval, storage medium, and electronic devices
CN112733749B (zh) 融合注意力机制的实时行人检测方法
US9978002B2 (en) Object recognizer and detector for two-dimensional images using Bayesian network based classifier
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
Wang et al. Robust 3d action recognition with random occupancy patterns
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
US11636570B2 (en) Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
CN113111885B (zh) 一种动态分辨率实例分割方法及计算机可读存储介质
CN108564083A (zh) 一种遥感图像变化检测方法及装置
Singh et al. A novel position prior using fusion of rule of thirds and image center for salient object detection
CN111738164A (zh) 一种基于深度学习的行人检测方法
Sun et al. Perceptual multi-channel visual feature fusion for scene categorization
Balachandar et al. Deep learning technique based visually impaired people using YOLO V3 framework mechanism
CN115147606B (zh) 医学图像的分割方法、装置、计算机设备和存储介质
CN116051959A (zh) 一种目标检测方法、装置
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
Choudhury et al. Human detection using orientation shape histogram and coocurrence textures
US20240071049A1 (en) Spatially Preserving Flattening in Deep Learning Neural Networks
CN117523036B (zh) 平面户型图结构化重建方法、装置、设备与介质
Wang et al. Random occupancy patterns
CN117542075A (zh) 基于注意力机制的小样本图像分类方法及装置
CN114241017A (zh) 图像配准方法、装置、存储介质及计算机设备
Mousavi Retargeting Low-Resolution Aerial Imagery by Distribution-Preserving Perceptual Feature Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant