CN114549833A

CN114549833A - 一种实例分割方法、装置、电子设备及存储介质

Info

Publication number: CN114549833A
Application number: CN202210087999.2A
Authority: CN
Inventors: 侯亚丽; 杨玉源; 侯志江; 郝晓莉; 申艳; 陈后金
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-27

Abstract

本申请提供一种实例分割方法、装置、电子设备及存储介质，该方法包括：获取待分割图像的类别响应图、实例中心偏移场和实例边界响应图；根据待分割图像中目标的姿态，建立目标的先验模板；基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果。该方案可以减少欠分割和过分割。

Description

一种实例分割方法、装置、电子设备及存储介质

技术领域

本发明属于图像分割技术领域，特别涉及一种实例分割方法、装置、电子设备及存储介质。

背景技术

现有的图像分割领域的实例分割技术主要可以分为两类，一类是全监督实例分割，另一类是弱监督实例分割。第一类全监督实例分割方法，基于深度学习方法的实例分割技术能够自动预测图像中每个像素的类别及其所属的实例。但是该方法的主要缺点是在神经网络进行训练过程的过程中，需要使用精确的图像像素级类别与实例标注，而这种像素级别的标注需要耗费大量人力和时间投入，时间与经济成本极高，限制了可用数据的规模，阻碍了全监督实例分割方法的进一步发展。

为了降低数据标注的复杂度，近年来出现了弱监督实例分割方法。弱监督实例分割方法对图像标注的要求大大降低，其中尤以基于图像类别标注的实例分割方法所需的图像数据标注成本最低。基于图像类别标注的实例分割方法仅需要图像类别信息，即可进一步通过神经网络等技术得到关于目标实例的详细分割结果。以目前标注成本最低的图像类别标注为例，现有基于图像类别标注的弱监督实例分割方法，主要基于感知的图像信息进行像素级的实例分割，容易产生明显不符合人类先验认知的分割结果。

发明内容

本说明书实施例的目的是提供一种实例分割方法、装置、电子设备及存储介质。

为解决上述技术问题，本申请实施例通过以下方式实现的：

第一方面，本申请提供一种实例分割方法，该方法包括：

获取待分割图像的类别响应图、实例中心偏移场和实例边界响应图；

根据待分割图像中目标的姿态，建立目标的先验模板；

基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；

在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果。

在其中一个实施例中，基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图，包括：

根据实例中心偏移场，确定实例中心位置；

根据实例中心位置，确定目标候选位置；

将先验模板按照预设比例进行缩放，得到若干缩放模板，将缩放模板放置在目标候选位置，计算所有缩放模板的模板匹配分数，选取模板匹配分数大于分数阈值且目标匹配分数最大所对应的缩放模板，作为匹配模板；

根据匹配模板，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图。

在其中一个实施例中，根据实例中心偏移场，确定实例中心位置，包括：

根据实例中心偏移场，预估得到实例中心位置区域；

将指向实例中心位置区域的像素集合，确定为实例区域；

将实例区域的中心确定为实例中心位置。

在其中一个实施例中，根据实例中心位置，确定目标候选位置，包括：

选取实例区域的面积大于或等于面积阈值所对应的实例中心位置为目标候选位置；

和/或，

根据实例区域和类别响应图，选取实例区域中属于指定类别的概率大于预设概率的像素个数大于或等于实例区域的总面积的预设百分比，所对应的实例中心位置为目标候选位置。

在其中一个实施例中，模板匹配分数包括边缘方向匹配分数、偏移幅度匹配分数、模板区域匹配分数、模板边界匹配分数中至少一者；

边缘方向匹配分数根据缩放模板中的边缘轮廓像素集合、缩放模板中边缘各像素相对于缩放模板中心的偏移场方向及实例中心偏移场方向确定；

偏移幅度匹配分数根据缩放模板中的边缘轮廓像素集合及实例中心偏移场向量归一化长度确定；

模板区域匹配分数根据缩放模板所覆盖模板前景区域的像素集合和实例中心偏移场的向量长度决定的前景区域的像素集合确定；

模板边界匹配分数根据缩放模板中的边缘轮廓像素集合和缩放模板与实例边界响应图的倒角距离确定。

在其中一个实施例中，根据匹配模板，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图，包括：

若匹配模板与实例边界响应图的倒角距离大于倒角距离阈值，则保留匹配模板的边界，以改善实例边界响应图，得到基于模板边界图；

确定匹配模板覆盖类别响应图的覆盖区域，将覆盖区域内类别响应图的响应分值按预设比例进行放大，以改善类别响应图，得到基于模板类别响应图。

在其中一个实施例中，在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果，包括：

根据实例边界响应图，确定相似度矩阵；

将相似度矩阵进行若干次哈达玛积及矩阵的行归一化处理，得到转移矩阵；

根据基于模板边界图的边界概率，调整基于模板类别响应图的响应分值，得到调整后类别响应图；

将转移矩阵与调整后类别响应图进行若干次相乘，得到实例分割结果。

第二方面，本申请提供一种实例分割装置，该装置包括：

获取模块，用于获取待分割图像的类别响应图、实例中心偏移场和实例边界响应图；

模板建立模块，用于根据待分割图像中目标的姿态，建立目标的先验模板；

匹配模块，用于基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；

扩展模块，用于在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的实例分割方法。

第四方面，本申请提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的实例分割方法。

由以上本说明书实施例提供的技术方案可见，该方案：通过模板匹配，改善类别响应图，减少欠分割现象的发生；通过模板匹配，改善实例边界响应图，减少过分割现象的发生。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的实例分割方法的流程示意图；

图2为本申请提供的ResNet50的骨干网络的结构示意图；

图3为本申请提供的DP-IRNet网络的结构示意图；

图4为本申请提供的EDGE-IRNet网络的结构示意图；

图5为本申请提供的基于卷积神经网络的图像分类网络、DP-IRNet网络、EDGE-IRNet网络的训练流程图；

图6为本申请提供的目标匹配的流程示意图；

图7为本申请提供的实例分割方法的原理框图；

图8为采用本申请方法的实验结果与原始方法的结果对比图；

图9为本申请提供的实例分割装置的结构示意图；

图10为本申请提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下，可对本申请说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本申请中的“份”如无特别说明，均按质量份计。

相关技术中，基于图像类别标注的目标实例分割方法主要基于类别响应图获得。在基于卷积神经网络的图像分类网络中，通过梯度反传等技术可以获得目标的类别响应图，即图像中对应类别目标的显著区域。为了获得图像中的实例信息，峰值响应图(PRM,Peak Response Maps)类方法通过在分类网络的训练过程中加入峰值激励策略，引导网络突出类响应图中的峰值点，由此得到了近似的实例目标位置。之后依据峰值位置和峰值响应图对来自其他物体建议生成方法的分割结果进行排序筛选，得到最终的实例分割结果。后续的研究者将PRM方法和全监督实例分割方法相结合，将PRM的分割结果作为伪标注用于训练全监督实例分割网络。为了解决峰值响应图提取的目标区域不完整的问题，后续研究在PRM提取到的峰值响应图基础上，利用其他物体建议生成方法生成的分割结果作为伪标注来使网络学习填充峰值响应图的能力，填充后的峰值响应图称为实例激活图，其相比PRM在覆盖区域上更加完整。现有PRM类弱监督实例分割方法，不仅使用了图像类别信息，而且需要其他的物体建议生成方法，实际上用到了除图像类别之外的额外标注信息。像素间关系网络(IRNet,Inter-pixel Relation Network)类方法建立单独的神经网络在类别响应图中挖掘实例信息及像素间语义相似度，从而获得各像素相对所在实例的中心偏移向量及类别间边界图。进一步地，采用随机游走算法及条件随机场，完善类别响应图中的各实例区域。

基于IRNet架构的类别标注实例分割方法，分为三部分，第一部分是基于卷积神经网络的图像分类网络，用于产生类别响应图。在整体流程中，类别响应图将作为语义传播过程中的种子区域，并为IRNet网络提供监督信息。第二部分，IRNet网络从类别响应图中挖掘邻近像素间的类别相似性，从而指导卷积神经网络学习到预测类别边界图和实例中心偏移场的能力。偏移场指出了图像中潜在实例中心的位置。第三部分，在类别边界图的限制下，实例级类响应图将进行区域扩展，得到最终的实例分割结果。类别边界图在各实例的区域扩展完善过程中起到了限制区域过度扩展的作用。

对上述方法进行改进，通过对偏移场结果进行再次利用，进一步获得了实例边界图，具体为：第一部分图像分类网络产生了类别响应图。第二部分，原始的IRNet拆分为两个单独网络DP-IRNet和EDGE-IRNet。DP-IRNet基于类别响应图获取偏移场。偏移场包含的信息是每个像素位置对于其相应的目标中心位置的偏移向量。除类别响应图外，EDGE-IRNet将偏移场信息引入到训练过程中，用来获得实例级边界图。实例级边界图代表着图像中每一个像素位置属于实例边界的概率。最后，在实例边界图的限制下，实例级类响应图进行区域扩展，得到最终的实例分割结果。

综上，现有PRM类弱监督实例分割方法，不仅使用了图像类别信息，而且需要其他的目标建议方法。实际上用到了除图像类别之外的额外标注信息。基于IRNet架构的类别标注实例分割方法仅利用图像类别标注实现图像的实例分割，但目前技术仍存在以下缺点：

(1)由于仅依赖感知的图像信息获取类别或实例间分割边界，在前背景相似等复杂情况中常常出现实例边界部分缺失的情况，导致最终不合理的过度分割问题。

(2)由于基于卷积神经网络分类器获得的类别响应图往往只能关注到实例个体的局部显著区域，比如个体的部件等，不完整的类别响应图经过语义传播扩展后，仍然容易出现实例欠分割现象。

下面结合附图和实施例对本发明进一步详细说明。

参照图1，其示出了适用于本申请实施例提供的实例分割方法的流程示意图。

如图1所示，一种实例分割方法，可以包括：

S110、获取待分割图像的类别响应图、实例中心偏移场和实例边界响应图。

其中，在仅有图像类别信息监督的情况下，提取的类别响应图(或简称类响应图)可以给出每个类别的大致区域。类别响应图可以采用基于卷积神经网络的图像分类网络来获取得到，例如CAM、GradCAM等方式获取得到，在此不做限制。本实施例中以采用基于卷积神经网络的图像分类网络来获取得到类别响应图为例进行说明。

具体的，基于卷积神经网络的图像分类网络可以采用ResNet50分类网络或简称ResNet50网络或ResNet50，还可以采用ResNet系列、Inception系列、Xception、MobileNet系列等分类网络，在此不做限制。本实施例中以采用ResNet50分类网络为例进行说明，ResNet50的骨干网络结构如图2所示。使用过程中，将ResNet50网络的最后一个下采样层的步长设置为1，防止类别响应图的分辨率进一步降低。为了提取类别响应图，将训练好的分类网络最后的分类层和最大池化层去除，获得最后卷积层输出的特征图。将各个类别的对应的分类权重组成的向量与特征图相乘，进行归一化即可得到类别响应图。类别响应图中各像素的值代表着该像素属于某一类别的概率。

其中，实例中心偏移场简称偏移场包含的信息是每个像素位置对于其相应的目标中心位置的偏移向量。偏移场可以采用偏移场像素关系网络(DP-IRNet,DisplacementField Inter-pixel Relation Network)或简称DP-IRNet基于类别响应图获取得到。

具体的，DP-IRNet网络同样可以采用ResNet50网络为骨干网络，DP-IRNet网络的网络结构如图3所示。对ResNet50网络5个不同阶段的特征图分别进行1×1卷积操作，之后通过一系列卷积，上采样，特征级联等操作对各级特征进行融合，最后输出预测的实例中心偏移场。

在对DP-IRNet网络进行网络训练得到实例中心偏移场时，网络训练的数据来自类别响应图中的邻域点对。邻域内属于同一类别的点对视为来自同一实例，邻域内属于不同类别的点视为来自不同实例。网络训练的损失函数根据同一实例内两个像素点指向实例中心的偏移向量间的差向量等于两个像素的位置构成的向量进行定义。

其中，实例边界响应图或简称实例边界图可以采用边界像素关系网络(EDGE-IRNet,Edge Inter-pixel Relation Network)或简称EDGE-IRNet利用偏移场、类别响应图中的近邻域点对的语义相似性得到。

具体的，EDGE-IRNet网络或简称EDGE-IRNet同样可以采用ResNet50网络为骨干网络，EDGE-IRNet网络的网络结构如图4所示。EDGE-IRNet网络利用ResNet50网络5个不同阶段的特征图，第一级特征图和第二级特征图经过1×1卷积后与第三至第五级特征图进过1×1卷积后的上采样结果进行级联操作，最后再通过一个1×1卷积操作输出预测的实例边界图。

在对EDGE-IRNet网络进行网络训练得到实例边界图时，网络训练的数据来自类别响应图与实例中心偏移场中的邻域点对。邻域内属于同一类别，同一实例的点对视为来自同一实例，邻域内属于不同类别或不同实例的点对视为来自不同实例。网络训练的损失函数根据同一实例内两个像素点对语义相似性高，之间没有实例边界，来自不同实例的两个像素点对语义相似性低，之间存在实例边界定义。

可以理解的，在采用基于卷积神经网络的图像分类网络、DP-IRNet网络、EDGE-IRNet网络，分别得到类别响应图、偏移场、实例边界图之前，需分别先对基于卷积神经网络的图像分类网络、DP-IRNet网络、EDGE-IRNet网络进行训练，如图5所示，先训练基于卷积神经网络的图像分类网络，通过训练好的基于卷积神经网络的图像分类网络获取类响应图，根据类响应图，训练DP-IRNet，通过训练好的DP-IRNet获取偏移场，根据类响应图和偏移场，训练EDGE-IRNet。

S120、根据待分割图像中目标的姿态，建立目标的先验模板。

其中，待分割图像中目标可以称为物体。根据不同的待分割图像，该物体可以为人体、车辆等。

示例性的，以Pascal VOC2012数据集中的人体为例，我们一共构建了27个人体模板。将人体大致分为三部分区域，即头肩部区域、躯干区域、腿部区域。头肩部区域由5个模板构成，由5个不同倾斜角度的头和肩部组成。躯干区域分为正面站立和侧面站立两种情况，两种状态的躯干分别与5个头肩部模板组合，构成上半身的10个模板。腿部区域分为正面站立和侧面站立两种情况，与对应的10个上半身模板组合，构成10个完整人体模板。另外，为了处理数据集中仅露出头部的情况，额外增加两个倾斜角度较大的头部模板2个。

需要说明的是，本申请不限定S110和S120的执行顺序，可以先执行S110，再执行S120，或者先执行S120，再执行S110，或者同时执行S110和S120，对此不予限制。

S130、基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图。

具体的，该步骤S120为基于类别响应图、实例中心偏移场和实例边界响应图，通过模板匹配的方式引入物体的先验模型，通过人类对物体认知的先验知识进行类别响应图和实例边界图的完善。

具体的，模板匹配流程如图6所示，包括：实例中心定位、实例中心筛选、模板匹配评估、模板信息融合，分别对应S1301-S1304。

S1301、根据实例中心偏移场，确定实例中心位置，可以包括：

根据实例中心偏移场，预估得到实例中心位置区域；

将指向实例中心位置区域的像素集合，确定为实例区域；

将实例区域的中心确定为实例中心位置。

具体的，通过DP-IRNet网络得到了实例中心偏移场，实例中心偏移场中实例中心位置偏移向量幅度较小，因此，通过统计偏移场中偏移向量长度较小的区域，可以得到目标的实例中心位置所在的大致区域(即预估得到实例中心位置区域)。将预估得到的所有实例中心位置所在的大致区域可以看作若干个候选目标中心，待分割图像中各个像素将依据精细化之后的偏移场的指向位置进行划分，即指向某个候选目标中心的像素集合将被划分给某个实例区域，实例区域或称为候选区域。这些实例区域将一幅图像分成了若干部分，称为实例图，每部分对应一个候选目标，这些实例区域的中心将被认定为实例中心位置或称为候选位置或目标中心位置。

S1301实例中心定位通过偏移场得到的实例中心信息进行实例中心的定位。

S1302、根据实例中心位置，确定目标候选位置。

具体的，该步骤通过实例区域及实例中心位置的实例类别，可以对S1301得到的实例中心位置进一步筛选。

在一个实施例中，S1302可以包括：选取实例区域的面积大于或等于面积阈值所对应的实例中心位置为目标候选位置，即排除尺寸过小的候选区域。

其中，面积阈值可以根据实际需求进行设定，上述面积及面积阈值以像素个数计算，例如，设置面积阈值为1000个像素。

示例性的，以Pascal VOC2012数据集中的人体目标为例，当候选位置所在的实例区域面积小于1000个像素时，将相应的实例中心位置进行排除，即保留实例区域面积大于或等于1000个像素所对应的实例中心位置为目标候选位置。

在一个实施例中，S1302还可以包括：根据实例区域和类别响应图，选取实例区域中属于指定类别的概率大于预设概率的像素个数大于或等于实例区域的总面积的预设百分比，所对应的实例中心位置为目标候选位置。

其中，类别概率阈值可以根据实际需求进行设定，例如，可以设置为25％；预设百分比可以根据实际需求进行设定，例如可以设置为20％。

可以理解的，根据类别响应图可以得到目标所属类别。将实例区域和类别响应图相结合，即可根据类别响应图确定实例区域中类似像素的类别。

示例性的，以Pascal VOC2012数据集中的人体目标为例，当候选位置所在的实例区域中属于指定类别的概率大于25％的像素个数不能达到该候选位置所在的实例区域的总面积的20％，则该候选位置被排除，即保留实例区域中属于指定类别的概率大于25％的像素个数达到实例区域的总面积的20％所对应的实例中心位置为目标候选位置。

S1302实例中心筛选中上述两种方式利用类别响应图等信息进行目标候选位置的筛选，排除不符合先验的目标定位结果，上述两种方式可以任意择一进行筛选，也可以同时采用上述两种方式进行筛选，采用两种方式进行筛选时，不限定两者之间的执行顺序。

S1303、将先验模板按照预设比例进行缩放，得到若干缩放模板，将缩放模板放置在目标候选位置，计算所有缩放模板的模板匹配分数，选取模板匹配分数大于分数阈值且目标匹配分数最大所对应的缩放模板，作为匹配模板。

具体的，先验模板的缩放的预设比例为根据实际需求设置的比例，根据该缩放比例将先验模板的分辨率成倍数进行放大或缩小，得到若干缩放模板。将缩放模板放置在目标候选位置，执行模板匹配过程。根据得到的模板匹配分数，选择合适的实例模板及其对应的模板尺寸作为匹配模板，指导S1304的模板信息融合。

分数阈值可以根据实际需求进行设置。

该方案中，模板先验信息从三个方面进行表示，即模板的边界、模板区域形状、模板的方向指向，可以表示为

依据模板的这三方面先验特征，将其自然地与IRNet整体流程中的边界图、实例图、偏移场等信息进行结合，得到模板匹配程度的评估。

在一个实施例中，模板匹配分数包括边缘方向匹配分数、偏移幅度匹配分数、模板区域匹配分数、模板边界匹配分数中至少一者。

其中，边缘方向匹配分数S_{dp_ori}用于评估边缘方向匹配，该项评估用来比较缩放模板边缘像素的指向方向和IRNet预测的偏移场中像素的指向方向的匹配程度。边缘方向匹配分数根据缩放模板中的边缘轮廓像素集合、缩放模板中边缘各像素相对于缩放模板中心的偏移场方向及实例中心偏移场方向确定。具体的，将缩放模板中的边缘轮廓像素集合记为Ω_{tem_b}，α_TEM表示缩放模板中边缘各像素相对于缩放模板中心的偏移场方向，α_DP表示预测的实例中心偏移场方向，则边缘方向匹配分数S_{dp_ori}可以由式1得到。Ω_{tem_b}，α_TEM，α_DP均为二维矩阵。Ω_{tem_b}为二值矩阵，边缘轮廓像素为1，其余为0。x,y表示相对缩放模板中心的偏移位置。

其中，偏移幅度匹配分数S_{dp_mag}用于评估偏移幅度匹配，该匹配项鼓励缩放模板的边缘像素Ω_{tem_b}所覆盖偏移场区域的偏移向量长度尽可能大，以此鼓励缩放模板的尺寸尽可能完整覆盖目标区域。偏移幅度匹配分数根据缩放模板中的边缘轮廓像素集合及实例中心偏移场向量归一化长度确定。具体的，以γ_DP表示预测输出的偏移场向量归一化长度，则偏移幅度匹配分数S_{dp_mag}如式2所示。

其中，模板区域匹配分数S_{dp_region}用于评估模板区域匹配，该项通过计算缩放模板区域与预测得到的前景区域的交并比，来评估缩放模板区域与偏移场覆盖区域的匹配程度。交并比值越大说明缩放模板覆盖的区域与预测得到的目标前景区域越接近。模板区域匹配分数根据缩放模板所覆盖模板前景区域的像素集合和实例中心偏移场的向量长度决定的前景区域的像素集合确定。具体的，Ω_tem表示缩放模板所覆盖目标前景区域像素集合，Ω_fg表示由IRNet预测的相应实例位置的偏移场的向量长度决定的前景区域的像素集合，若某个像素所在位置的偏移向量长度不小于最长偏移向量长度的10％则认为该像素属于Ω_fg。则模板区域匹配分数S_{dp_region}计算方式如式3。Ω_tem为二值矩阵，前景像素为1，其余为0。

其中，模板边界匹配分数S_boundary用于评估模板边界匹配，通过计算缩放模板边界与EDGE-IRNet网络预测的实例边界图倒角距离，来评估缩放模板边界与待匹配目标区域边界的匹配程度。平均倒角距离越小说明匹配程度越高。模板边界匹配分数根据缩放模板中的边缘轮廓像素集合和缩放模板与实例边界响应图的倒角距离确定。具体的，以

表示模板与实例边界图的倒角距离，则模板边界匹配分数S_boundary的计算如式4所示。

模板匹配分数S_match可以为边缘方向匹配分数、偏移幅度匹配分数、模板区域匹配分数、模板边界匹配分数中任意一个或其中两个或两个以上的和。当模板匹配分数S_match为上述四者之和时：

S_match＝S_{dp_ori}+S_{dp_mag}+S_{dp_region}+10×S_boundary (式5)

可以理解的，模板匹配分数还可以通过其他边缘匹配方法等方法确定。

模板匹配分数高于分数阈值所对应的缩放模板，将进行下一步S1304模板信息融合的过程。

S1304、根据匹配模板，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图。

具体的，在S1303得到符合要求的匹配模板后，S1304从两个方面将模板先验信息融合进弱监督实例分割流程。

第一方面，匹配模板用来完善EDGE-IRNet得到的实例边界响应图，包括：若匹配模板与实例边界响应图的倒角距离大于倒角距离阈值，则保留匹配模板的边界，以改善实例边界响应图，得到基于模板边界图。

其中，倒角距离阈值可以根据实际需求进行设置。当匹配模板与实例边界响应图的倒角距离大于倒角距离阈值时，将匹配模板的边界加到实例边界响应图中，从而完善实例边界响应图。

可以理解的，在使用匹配模板完善实例边界响应图时，可以使用不同策略，例如完整保留模板边缘、部分保留模板边缘等，这里对此不作限制。

第二方面，匹配模板用来完善类别响应图。类别响应图通常仅关注局部显著区域，确定匹配模板覆盖类别响应图的覆盖区域，将覆盖区域内类别响应图的响应分值按预设比例进行放大，以改善类别响应图，得到基于模板类别响应图。

其中，预设比例可以根据实际需求进行设置。

该方面匹配模板完善类别响应图，可以改善欠分割问题。

可以理解的，在使用匹配模板扩大类别响应图范围可以使用不同策略，例如通过区域增长、模板覆盖区域之间增加响应分值等方法，这里对此不作限制。

S140、在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果，可以包括：

根据实例边界响应图，确定相似度矩阵；

其中，S140采用随机游走算法实现将类响应图的类别响应分值或简称响应分值或响应分数等传播至合理的相关区域。

具体的，通过EDGE-IRNet得到的实例边界图，可以得到像素间的语义相似度矩阵可以简称相似度矩阵，该相似度矩阵中的每个元素代表着某两个像素之间的相关性，元素分值越高，说明该像素对相关性高，有较高的概率进行注意力分值的传播。为了平滑相似度矩阵中的数值，将其进行若干次的哈达玛积，然后进行矩阵的行归一化处理，得到转移矩阵。将转移矩阵与S1304得到的基于模板类别响应图进行若干次相乘，即可得到区域增长的结果。在与转移矩阵相乘之前，利用预测得到的基于模板边界图的边界概率对基于模板类别响应图进行了调整，具体为调整基于模板类别响应图的响应分值，边界概率越高则此处的响应分值越低，示例性的，调整后响应分值＝(1-边界概率)×响应分值。最终得到的响应分值后25％部分被认定为背景，其它位置得到最终的实例分割结果。

参照图7，其示出了本申请提供的实例分割方法的原理框图。如图7所示，本申请提出的实例分割方法整体方案包括四大部分。首先，用基于卷积神经网络的图像分类网络来获取类响应图。在仅有图像类别信息监督的情况下，从卷积分类网络中提取出的类响应图可以给出每个类别的大致区域。第二部分，DP-IRNet基于类别响应图获取偏移场。偏移场包含的信息是每个像素位置对于其相应的目标中心位置的偏移向量。EDGE-IRNet利用偏移场信息、类别响应图中的近邻域点对的语义相似性，得到实例边界图。第三部分，本申请在区域扩展步骤前引入模板匹配过程，通过物体先验知识的显式引入，对类别响应图进行调整补充，对实例边界响应图进行完善。最后，在实例边界图的限制下，实例级类响应图进行区域扩展，得到最终的实例分割结果。

本申请实施例，在基于神经网络所产生的边界图、实例中心偏移场基础上，通过物体形状模板显式引入关于物体形状的先验知识。通过模板匹配技术，基本确定物体实例的位置及姿态，从而利用物体形状的先验认知补充部分缺失的实例边界。更为完整的实例边界使得分割结果符合先验认知，避免不合理的过度分割现象。

本申请实施例，通过模板匹配技术引入物体形状先验模板，扩大在已匹配的物体模板内区域的类别响应分值，一定程度上完善了实例的整体，从而得以减少基于区域扩展后的欠分割现象。

实验验证

通过对Pascal VOC2012数据集中人体目标的分割实验，采用本发明方案生成的分割标注质量比原始方案得到了进一步提高。以交并比大于等于50％为正确的实例分割，定量的实验结果如表1所示。

表1 Pascal VOC2012数据集上实例分割精度对比

部分实验结果示例如图8所示(其中，图8原始颜色为彩色，这里进行了灰度处理)。采用本申请实例分割方法的实验结果相比原始方法的结果更加接近真实标注，可以有效改善目标的欠分割和过分割问题，提高分割效果。

参照图9，其示出了根据本申请一个实施例描述的实例分割装置的结构示意图。

如图9所示，实例分割装置900，可以包括：

获取模块910，用于获取待分割图像的类别响应图、实例中心偏移场和实例边界响应图；

模板建立模块920，用于根据待分割图像中目标的姿态，建立目标的先验模板；

匹配模块930，用于基于类别响应图、实例中心偏移场、实例边界响应图及先验模板，通过模板匹配，分别改善类别响应图和实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；

扩展模块940，用于在基于模板边界图的限制下，基于模板类别响应图进行区域扩展，得到实例分割结果。

可选的，匹配模块930还用于：

根据实例中心偏移场，确定实例中心位置；

根据实例中心位置，确定目标候选位置；

可选的，匹配模块930还用于：

根据实例中心偏移场，预估得到实例中心位置区域；

将指向实例中心位置区域的像素集合，确定为实例区域；

将实例区域的中心确定为实例中心位置。

可选的，匹配模块930还用于：

和/或，

可选的，匹配模块930还用于：模板匹配分数包括边缘方向匹配分数、偏移幅度匹配分数、模板区域匹配分数、模板边界匹配分数中至少一者；

可选的，匹配模块930还用于：

可选的，扩展模块940还用于：

根据实例边界响应图，确定相似度矩阵；

本实施例提供的一种实例分割装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图10为本发明实施例提供的一种电子设备的结构示意图。如图10所示，示出了适于用来实现本申请实施例的电子设备300的结构示意图。

如图10所示，电子设备300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口306。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述实例分割方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

作为另一方面，本申请还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的实例分割方法。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种实例分割方法，其特征在于，所述方法包括：

根据所述待分割图像中目标的姿态，建立所述目标的先验模板；

基于所述类别响应图、所述实例中心偏移场、所述实例边界响应图及所述先验模板，通过模板匹配，分别改善所述类别响应图和所述实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；

在所述基于模板边界图的限制下，所述基于模板类别响应图进行区域扩展，得到实例分割结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述类别响应图、所述实例中心偏移场、所述实例边界响应图及所述先验模板，通过模板匹配，分别改善所述类别响应图和所述实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图，包括：

根据所述实例中心偏移场，确定实例中心位置；

根据所述实例中心位置，确定目标候选位置；

将所述先验模板按照预设比例进行缩放，得到若干缩放模板，将所述缩放模板放置在所述目标候选位置，计算所有所述缩放模板的模板匹配分数，选取所述模板匹配分数大于分数阈值且所述目标匹配分数最大所对应的缩放模板，作为匹配模板；

根据所述匹配模板，分别改善所述类别响应图和所述实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述实例中心偏移场，确定实例中心位置，包括：

根据所述实例中心偏移场，预估得到实例中心位置区域；

将指向所述实例中心位置区域的像素集合，确定为实例区域；

将所述实例区域的中心确定为所述实例中心位置。

4.根据权利要求3所述的方法，其特征在于，所述根据所述实例中心位置，确定目标候选位置，包括：

选取所述实例区域的面积大于或等于面积阈值所对应的所述实例中心位置为所述目标候选位置；

和/或，

根据所述实例区域和所述类别响应图，选取所述实例区域中属于指定类别的概率大于预设概率的像素个数大于或等于所述实例区域的总面积的预设百分比，所对应的所述实例中心位置为所述目标候选位置。

5.根据权利要求2所述的方法，其特征在于，所述模板匹配分数包括边缘方向匹配分数、偏移幅度匹配分数、模板区域匹配分数、模板边界匹配分数中至少一者；

所述边缘方向匹配分数根据所述缩放模板中的边缘轮廓像素集合、所述缩放模板中边缘各像素相对于所述缩放模板中心的偏移场方向及所述实例中心偏移场方向确定；

所述偏移幅度匹配分数根据所述缩放模板中的边缘轮廓像素集合及所述实例中心偏移场向量归一化长度确定；

所述模板区域匹配分数根据所述缩放模板所覆盖模板前景区域的像素集合和所述实例中心偏移场的向量长度决定的前景区域的像素集合确定；

所述模板边界匹配分数根据所述缩放模板中的边缘轮廓像素集合和所述缩放模板与所述实例边界响应图的倒角距离确定。

6.根据权利要求2所述的方法，其特征在于，所述根据所述匹配模板，分别改善所述类别响应图和所述实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图，包括：

若所述匹配模板与所述实例边界响应图的倒角距离大于倒角距离阈值，则保留所述匹配模板的边界，以改善所述实例边界响应图，得到所述基于模板边界图；

确定所述匹配模板覆盖所述类别响应图的覆盖区域，将所述覆盖区域内所述类别响应图的响应分值按预设比例进行放大，以改善所述类别响应图，得到所述基于模板类别响应图。

7.根据权利要求1所述的方法，其特征在于，所述在所述基于模板边界图的限制下，所述基于模板类别响应图进行区域扩展，得到实例分割结果，包括：

根据所述实例边界响应图，确定相似度矩阵；

将所述相似度矩阵进行若干次哈达玛积及矩阵的行归一化处理，得到转移矩阵；

根据所述基于模板边界图的边界概率，调整所述基于模板类别响应图的响应分值，得到调整后类别响应图；

将所述转移矩阵与所述调整后类别响应图进行若干次相乘，得到所述实例分割结果。

8.一种实例分割装置，其特征在于，所述装置包括：

模板建立模块，用于根据所述待分割图像中目标的姿态，建立所述目标的先验模板；

匹配模块，用于基于所述类别响应图、所述实例中心偏移场、所述实例边界响应图及所述先验模板，通过模板匹配，分别改善所述类别响应图和所述实例边界响应图，得到对应的基于模板类别响应图和基于模板边界图；

扩展模块，用于在所述基于模板边界图的限制下，所述基于模板类别响应图进行区域扩展，得到实例分割结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的实例分割方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的实例分割方法。