CN113569860B

CN113569860B - 实例分割方法和实例分割网络的训练方法及其装置

Info

Publication number: CN113569860B
Application number: CN202110865507.3A
Authority: CN
Inventors: 程天恒; 陈少宇; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-02-27
Anticipated expiration: 2041-07-29
Also published as: CN113569860A

Abstract

本公开实施例公开了一种实例分割方法和实例分割网络的训练方法及其装置，其中，实例分割方法包括：基于实例分割网络的第一分支网络对待分割图像进行特征提取，得到第一特征；基于所述实例分割网络的第二分支网络对所述第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数；基于所述实例分割网络的第三分支网络对所述第一特征进行分割掩码特征提取，得到第二特征；基于所述设定数量的分类结果、所述设定数量的卷积参数和所述第二特征，确定所述待分割图像的实例分割结果。本实施例提出的方法不再依赖于检测算法，模型性能不再受检测算法的约束。

Description

实例分割方法和实例分割网络的训练方法及其装置

技术领域

本公开涉及计算机视觉技术领域，尤其是一种实例分割方法和实例分割网络的训练方法及其装置。

背景技术

实例分割是计算机视觉领域非常重要的方向，此任务结合了语义分割和物体检测的特点，对于输入图像中的每一个物体，都会为他们生成一个独立的像素级别的掩膜(mask)，并且预测其对应的类别。实例分割在无人驾驶、家居机器人等领域有着非常广阔的应用。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种实例分割方法和实例分割网络的训练方法及其装置。

根据本公开实施例的一个方面，提供了一种实例分割方法，包括：

基于实例分割网络的第一分支网络对待分割图像进行特征提取，得到第一特征；

基于所述实例分割网络的第二分支网络对所述第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数；

基于所述实例分割网络的第三分支网络对所述第一特征进行分割掩码特征提取，得到第二特征；

基于所述设定数量的分类结果、所述设定数量的卷积参数和所述第二特征，确定所述待分割图像的实例分割结果。

根据本公开实施例的另一方面，提供了一种实例分割网络的训练方法，包括：

利用实例分割网络对样本图像进行实例分割预测，得到包括设定数量的物体对应的预测结果；

确定所述样本图像对应的至少一个物体的标注结果和所述设定数量的预测结果之间的匹配分数矩阵；

基于所述匹配分数矩阵确定网络损失；

基于所述网络损失对所述实例分割网络进行训练。

根据本公开实施例的又一方面，提供了一种实例分割装置，包括：

第一处理模块，用于基于实例分割网络的第一分支网络对待分割图像进行特征处理，得到第一特征；

第二处理模块，用于基于所述实例分割网络的第二分支网络对所述第一处理模块得到的第一特征进行预测处理，得到设定数量的分类结果和设定数量的卷积参数；

第三处理模块，用于基于所述实例分割网络的第三分支网络对所述第一处理模块得到的第一特征进行分割掩码特征提取，得到第二特征；

实例分割模块，用于基于所述第二处理模块得到的设定数量的分类结果和所述设定数量的卷积参数，以及所述第三处理模块得到的所述第二特征，确定所述待分割图像的实例分割结果。

根据本公开实施例的还一方面，提供了一种实例分割网络的训练装置，包括：

网络预测模块，用于利用实例分割网络对样本图像进行实例分割预测，得到包括设定数量的物体对应的预测结果；

结果匹配模块，用于确定所述样本图像对应的至少一个物体的标注结果和所述网络预测模块确定的设定数量的预测结果之间的匹配分数矩阵；

损失确定模块，用于基于所述结果匹配模块确定的匹配分数矩阵确定网络损失；

网络训练模块，用于基于所述损失确定模块确定的网络损失对所述实例分割网络进行训练。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的实例分割方法或上述任一实施例所述的实例分割网络的训练方法。

根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的实例分割方法或上述任一实施例所述的实例分割网络的训练方法。

基于本公开上述实施例提供的一种实例分割方法和实例分割网络的训练方法及其装置，本实施例提出的方法不再依赖于检测算法，模型性能不再受检测算法的约束；并且，本实施例采取使用稀疏激活图的方式确定待分割图像中所含有的物体，稀疏激活图相对于密集预测减少了计算消耗，提高了实例分割的效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的实例分割网络的结构示意图。

图2是本公开一示例性实施例提供的实例分割方法的流程示意图。

图3是本公开图2所示的实施例中步骤201的一个流程示意图。

图4是本公开图2所示的实施例中步骤202的一个流程示意图。

图5是本公开图2所示的实施例中步骤203的一个流程示意图。

图6是本公开图2所示的实施例中步骤204的一个流程示意图。

图7是本公开一示例性实施例提供的实例分割网络的训练方法的流程示意图。

图8是本公开图7所示的实施例中步骤702的一个流程示意图。

图9是本公开图7所示的实施例中步骤703的一个流程示意图。

图10是本公开一示例性实施例提供的实例分割装置的结构示意图。

图11是本公开另一示例性实施例提供的实例分割装置的结构示意图。

图12是本公开一示例性实施例提供的实例分割网络的训练装置的结构示意图。

图13是本公开另一示例性实施例提供的实例分割网络的训练装置的结构示意图。

图14是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有的实例分割方法通常依赖于物体检测算法，利用检测算法去定位图像中所含有的物体并进行识别分类，但现有实例分割方法至少存在以下问题：依赖于物体检测算法。

示例性网络结构

图1是本公开一示例性实施例提供的实例分割网络的结构示意图。如图1所示，本实施例中，实例分割网络包括：第一分支网络101、第二分支网络102和第三分支网络103。

本实施例中第一分支网络101可以包括卷积主干网络(如ResNet)和特征金字塔网络(Feature Pyramid Networks，FPN)；其中，卷积主干网络对待分割图像进行特征提取，可得到多个尺度的特征(每个尺度对应一个分辨率，即得到多个不同分辨率的特征)；通过特征金字塔网络对多个尺度的特征进行融合，得到一个分辨率的特征，例如，得到为待分割图像的八分之一分辨率大小的初始特征，该分辨率大小的选择可根据实际应用场景进行确定，其中，分辨率越高，实例分割精度越高，相应的分割速度越慢；而分辨率越低，分割速度越快，实例分割精度越低。

在第一分支网络101中，还可以包括编码器，通过编码器对特征金字塔网络输出的初始特征进行处理(例如，先执行至少一种分辨率的下采样，再执行至少一种分辨率的上采样，再将上下采样得到的多个特征和初始特征拼接，将拼接后的特征再执行卷积处理)，得到特征F，该特征F相对于初始特征增强了上下文信息并扩大了特征的感受野范围；可选地，编码器可采用现有的编码器实现，例如，金字塔池化模型(Pyramid Pooling Module)，当然，本实施例不限制编码器的具体结构，只需能够实现增强上下文信息并扩大特征的感受野范围的功能即可。

第二分支网络102可以包括：多层卷积层、激活层、预测卷积层、矩阵乘法模块、以及两个全连接层分支；首先，多层卷积层和激活层(例如，4层3x3卷积层和激活层ReLU等)对特征F进行特征提取，得到特征X；预测卷积层(例如，一个3x3卷积层)对特征X进行预测，得到设定数量n(例如，100个等)实例激活图A，其中，实例激活图的数量可根据实际场景进行设置；之后，通过矩阵乘法模型将设定数量的实例激活图A中每个实例激活图A_i分别与特征X的转置进行矩阵相乘(如公式(1)所示)，得到n个特征向量z_i，其中，i的取值为1到n；即提取每个实例激活图高亮区域的特征，最后每个实例激活图都能得到一个特征向量，即每个物体的特征向量z_i。

z_i＝A_iX^T 公式(1)

提取到每个被高亮物体的特征向量z_i后，利用两个全连接层分支分别对特征向量z_i进行处理，一个全连接层分支预测出n个物体的分类结果；另一个全连接层分支输出n个1x1维度的卷积参数。

第三分支网络103与第二分支网络102并列，对特征F进行分割掩码特征提取，具体地，首先基于特征F中每个像素点的坐标经过归一化后作为该像素点的特征值，得到空间坐标特征；将特征F和空间坐标特征进行维度拼接(concat)，将拼接后的特征经过多层卷积层和激活层(4层3x3卷积层以及ReLU激活层)的处理得到分割掩码特征M(mask features)。

基于第二分支网络102输出的卷积参数和第三分支网络103输出的分割掩码特征M，通过动态卷积运算(可通过动态滤波器卷积dynamic conv实现)或其他运算方式，得到n个物体中每个物体对应的分割结果(例如，一个掩码图mask)。

通过上述处理，实例分割网络输出n个物体中每个物体的分类结果和预测的分割结果，由于预测了n个实例激活图，则会输出n个物体的预测，本实施例使用稀疏实例激活图(instance activation maps)高亮出图像中每个物体具有区分性的区域，获取并聚合每个物体高亮区域的特征作为物体的特征，利用物体的特征进行分类，并预测出每个物体的一组卷积参数(kernel)，利用每个物体的卷积参数在提取到的图像分割掩码特征上进行1x1卷积运算，便可以得到每个物体的分割结果。最后利用n组稀疏实例激活图可以对应得到n个预测可能存在物体及其分割结果，利用置信度阈值进行筛选得到最后的预测结果。

本公开实施例提出的网络结构非常紧凑简单，有很好的拓展性且容易实现和部署，相比于现有的方法，本公开实施例不再依赖于检测算法，模型性能不再受检测算法的约束；本公开实施例采取使用稀疏激活图高亮图像中所含有的物体而未采用密集预测来检出所有物体，避免了现有方法过高的计算开销。

示例性方法

图2是本公开一示例性实施例提供的实例分割方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，基于实例分割网络中的第一分支网络对待分割图像进行特征提取，得到第一特征。

本实施例中，待分割图像可以为任意包括至少一个物体的图像，本实施例不限制该待分割图像的来源；可选地，实例分割网络可以为如图1所示的实例分割网络，第一分支网络的结构可以参照图1所示结构中的第一分支网络101进行理解。

步骤202，基于实例分割网络中的第二分支网络对第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数。

在一实施例中，第二分支网络的结构可参照图1所示结构中的第二分支网络102进行理解；设定数量可根据实际应用场景进行设置，保证设定数量大于等于待分割图像中包括的物体的数量；每个分类结果是基于对实例激活图进行分类预测，得到多个分数，以其最大分数对应的类别作为分类结果。

步骤203，基于实例分割网络中的第三分支网络对第一特征进行分割掩码特征提取，得到第二特征。

在一实施例中，第三分支网络的结构可参照图1所示结构中的第三分支网络103进行理解；第二特征可以为图1所示实施例中的分割掩码特征M。

步骤204，基于设定数量的分类结果、设定数量的卷积参数和第二特征，确定待分割图像的实例分割结果。

其中，实例分割结果包括待分割图像中包括的设定数量的物体中每个物体对应的分类结果以及分割结果，当待分割图像中包括的物体数量小于设定数量时，将存在至少一个分类结果为空，对应的分割结果也为空；可以通过设置分数阈值，将分类结果对应的分数中大于分数阈值的分类结果作为实例分割结果中的分类结果。

本公开上述实施例提供的一种实例分割方法，本实施例提出的方法不再依赖于检测算法，模型性能不再受检测算法的约束；并且，本实施例采取使用稀疏激活图的方式确定待分割图像中所含有的物体，稀疏激活图相对于密集预测减少了计算消耗，提高了实例分割的效率。

如图3所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，基于第一分支网络对待分割图像进行特征提取，得到单层特征。

本实施例中，对待分割图像进行特征提取的网络结构可参照图1提供的实施例中第一分支网络101包括的卷积主干网络和特征金字塔网络，通过卷积主干网络和特征金字塔网络的特征提取，可获得一个单层特征。

步骤2012，对单层特征进行特征增强处理，得到第一特征。

其中，特征增强处理可通过上述图1提供的实施例中第一分支网络101中包括的编码器实现，本实施例通过特征提取得到单层特征，降低了特征的分辨率，提升了实例分割的速度，增加了本实施例提供的方法的应用场景；并且通过特征增强处理，增强了上下文信息并扩大了特征的感受野范围，提高了实例分割的准确性。

如图4所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，基于第一特征进行特征提取处理，得到第三特征。

可选地，可基于如图1所示实施例中提供的多层卷积层和激活层对第一特征进行特征提取处理，得到的第三特征可相当于图1实施例中的特征X。

步骤2022，对第三特征进行激活图预测，得到设定数量的稀疏实例激活图。

可选地，可基于如图1所示实施例中提供的预测卷积层对第三特征进行激活图预测，得到设定数量的稀疏实例激活图可相当于图1实施例中的实例激活图A。

步骤2023，基于设定数量的稀疏实例激活图和第三特征，确定设定数量的分类结果和设定数量的卷积参数。

本实施例中使用稀疏实例激活图(instance activation maps)高亮出图像中每个物体具有区分性的区域，获取并聚合每个物体高亮区域的特征作为物体的特征，利用物体的特征进行分类，并预测出每个物体的一组卷积参数；由于采用了高亮稀疏激活图的方式检测物体区域，减少了计算开销，提高了实例分割效率。

可选地，上述实施例中步骤2023可以包括：

基于设定数量的稀疏实例激活图中每个稀疏实例激活图与第三特征执行矩阵乘法，得到第四特征向量。

其中，第四特征向量中包括设定数量的特征元素。

本实施例中的第四特征向量的获得可参照图1提供的实施例中的公式(1)所示，对每个实例激活图A_i分别与特征X进行矩阵相乘，得到设定数量的第四特征向量(特征向量z_i)，实现获得每个稀疏实例激活图高亮区域的特征。

利用第一预测分支对第四特征向量进行分类预测处理，得到对设定数量的稀疏实例激活图进行分类的设定数量的分类结果。

本实施例中的第一预测分支可以为图1所示实施例中的一个全连接层分支，基于该全连接层分支预测出n个物体的分类结果，即，n个物体中每个物体对应多个类别中每个类别的分数，基于预测分数中最大值确定每个物体对应的分类类别。

利用第二预测分支对第四特征向量进行预测处理，得到与设定数量的分类结果相对应的设定数量的卷积参数。

本实施例中的第一预测分支可以为图1所示实施例中的另一个全连接层分支，基于该全连接层分支可输出1x1维度的卷积参数，例如，输出卷积核W：N×D×1×1；本实施例通过两个预测分值分别对稀疏实例激活图高亮区域的特征进行处理，使预测处理集中在稀疏实例激活图中，避免了依赖于物体检测算法，提升了实例分割的效率，并且，实现了预测分类的同时获得卷积参数，提高了分割效率。

如图5所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，基于第一特征中每个像素点对应的绝对位置坐标，得到第一特征对应的第一坐标特征。

可选地，基于第一特征中每个像素点对应的绝对位置坐标，确定第一特征中每个像素点对应的坐标特征；对第一特征中每个像素点对应的坐标特征执行归一化处理，得到第一坐标特征。

本实施例中的第一坐标特征可以为如图1所示的实施例中基于特征F得到的空间坐标特征，该第一坐标特征中包括的特征数量与第一特征相同，其中，每个像素点的绝对位置坐标可以是基于第一特征的中心位置为原点确定的，或基于第一特征中任一点作为中心位置确定的相对位置坐标经过转换得到的；由于绝对位置坐标的数值存在大于1的情况，为了便于计算，本实施例对坐标特征执行归一化，使第一坐标特征中的每个特征在-1到1的范围内。

步骤2032，将第一特征与第一坐标特征进行维度拼接，得到第一拼接特征。

本实施例，通过维度拼接，获得了维度增加的第一拼接特征，例如，第一特征为256×H×W，第一坐标特征为2×H×W，经过维度拼接，得到的第一拼接特征为258×H×W。

步骤2033，对第一拼接特征进行分割掩码特征提取，得到第二特征。

可选地，分割掩码特征提取可通过如图1所示的实施例中第三分支网络103中的卷积层和激活层的处理，得到分割掩码特征M(mask features)。本实施例中通过第三分支网络获得了分割掩码特征，基于该分割掩码特征结合第二分支网络输出的卷积参数即可获得待分割图像中每个物体的分割结果，该分割结果可以为每个物体对应一个掩码图，提高了物体分割结果的准确性。

如图6所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，对设定数量的卷积参数和第二特征执行动态卷积操作，得到设定数量的分割结果。

可选地，卷积参数可以为卷积核，将设定数量的卷积核中每个卷积核与第二特征执行动态卷积操作，即可得到设定数量的分割结果，其中，动态卷积操作可通过动态滤波器卷积(dynamic conv)实现，例如，第二特征表示为D×H×W，设定数量的卷积核为N×D×1×1，其中，N为设定数量，经过卷积操作，结果为N×H×W，即得到N个H×W大小的掩码图作为分割结果。

步骤2042，基于设定数量的分类结果中每个分类结果与设定数量的卷积参数中每个卷积参数的对应关系，确定设定数量的分割结果中每个分割结果对应的分类结果。

由于第二分支网络基于每个稀疏实例激活图确定一个分类结果以及对应的卷积参数，因此，每个卷积参数与一个分类结果相对应，此时，可基于该对应关系确定每个分类结果对应的分割结果。

步骤2043，基于设定数量的分割结果以及每个分割结果对应的分类结果，确定待分割图像的实例分割结果。

本实施例通过实例分割网络输出设定数量的分类结果和预测的分割结果，本实施例通过使用稀疏实例激活图高亮出图像中每个物体具有区分性的区域，而未采用密集预测来检出所有物体，避免了现有方法过高的计算开销。

图7是本公开一示例性实施例提供的实例分割网络的训练方法的流程示意图。本实施例可应用在电子设备上，如图7所示，包括如下步骤：

步骤701，利用实例分割网络对样本图像进行实例分割预测，得到样本图像中包括的设定数量的物体中每个物体对应的预测结果。

本实施例中，实例分割网络的结构可参照图1提供的结构进行理解，而实例分割预测的过程可参照上述图2-6任一实施例提供的实例分割方法实现。

步骤702，确定样本图像对应的至少一个物体的标注结果和设定数量的预测结果之间的匹配分数矩阵。

其中，样本图像具有其中包括的至少一个物体中每个物体对应的标注结果，该标注结果包括该物体的标注分类结果和标注分割结果。

步骤703，基于匹配分数矩阵确定网络损失。

本实施例中，由于样本图像中的物体数量不止一个，因此，在确定网络损失之前，先要确定每个标注结果和每个预测结果之间的对应关系，本实施例中通过匹配分数矩阵来表达对应关系。

步骤704，基于网络损失对实例分割网络进行训练。

本实施例提出的实例分割网络的训练方法，通过将每个物体的标注结果和预测结果进行匹配，实现了使训练得到的实例分割网络不需要非极大值抑制后处理进行去重，拥有更加快速的推理预测，能够实现实时的实例分割并能取得很好的分割性能。

如图8所示，在上述图7所示实施例的基础上，步骤702可包括如下步骤：

步骤7021，确定设定数量的预测结果中包括的设定数量的预测分类结果与至少一个标注结果中的至少一个标注分类结果之间的匹配分数，得到第一匹配矩阵。

可选地，对于分类，本实施例直接用每个物体的预测分类结果对应标注类别的分数作为该物体的分类得分，即，由于预测分类结果为对应多个类别的多个分数，本实施例将该多个分数中对应的类别为标注类别的那个分数作为该物体的分类得分，即，对该物体分类预测准确的程度。

步骤7022，确定设定数量的预测结果中包括的设定数量的预测分割结果与至少一个标注结果中的至少一个标注分割结果之间的匹配分数，得到第二匹配矩阵。

可选地，直接计算每个预测分割结果和每个标注分割结果之间的dice系数作为每个预测分割结果的匹配分数，其中，dice系数是一种集合相似度度量函数。

步骤7023，基于第一匹配矩阵和第二匹配矩阵，确定匹配分数矩阵。

本实施例中，可将第一匹配矩阵和第二匹配矩阵执行矩阵乘法，得到最后的匹配分数矩阵，匹配分数矩阵中，样本图像中的每个物体对应一个匹配分数(matching score)，计算匹配分数矩阵的过程可参照如下公式(2)所示：

其中，C(i，k)表示匹配分数矩阵中的一个匹配分数，是n乘k的矩阵，n是设定数量；为第i个预测分类结果对应第k个物体的标注类别的分类分数(c_k表示第k个物体的标注类别，p_i表示第i个物体的预测分数)；m_i和t_k分别表示第i个分割预测和第k个真实的分割标注，DICE表示评价两个集合的相似性；上标α是设定指数，该设定指数的取值可根据实际应用场景进行设置，通常为小于1的数值，例如，0.2等。本实施例通过确定匹配分数矩阵为物体的标注信息与预测信息的匹配提供了基础，提高了匹配效率。

可选地，上述实施例中的步骤7021可以包括：

对设定数量的预测结果中包括的设定数量的预测分类结果按照分数阈值进行筛选，得到至少一个有效分类结果；确定至少一个有效分类结果与至少一个标注结果中的至少一个标注分类结果之间的匹配分数，得到第一匹配矩阵。

本实施例中，分数阈值可根据实际应用场景进行设置，通过分数阈值对分类分数进行筛选，去除了分数低的预测分类结果，提升了预测分类结果的准确性，以较大分数的预测分类结果确定匹配分数，提升了匹配分数的可信度。

可选地，上述实施例中的步骤7022可以包括：

对设定数量的预测结果中包括的设定数量的预测分割结果分别进行二值化处理，得到设定数量的处理分割结果；确定设定数量的处理分割结果与至少一个标注结果中的至少一个标注分割结果之间的匹配分数，得到第二匹配矩阵。

本实施例对每个预测分割结果对应的掩码图执行二值化处理，得到设定数量的二值化后的掩码图，例如，将物体对应的部分像素值设置为1，而图像中其他部分像素值设置为0；通过二值化使分割得到的掩码图实现更突出的显示，提升了与标注分割结果的匹配分数的可信度，进而提升了获得的匹配分数矩阵的可信度。

如图9所示，在上述图7所示实施例的基础上，步骤703可包括如下步骤：

步骤7031，基于匹配分数矩阵，利用匈牙利算法确定设定数量的预测结果与至少一个标注结果之间的匹配关系。

本实施例中，利用匈牙利算法实现了预测结果与标注结果之间的一一对应；具体地，利用匈牙利算法寻找使得总体得分最高的一个匹配作为最佳匹配，其中保证了每个预测结果最多只能匹配一个标注结果，一个标注结果只能匹配一个预测结果，其中，设定数量n的值通常设置为大于样本图像中包括的物体数量k，因此，会存在很多预测结果被匹配为None，即没有标注结果与这些预测结果相匹配，在训练时，这些没有匹配的标注结果会被作为负样本。

步骤7032，基于匹配关系确定样本图像中包括的至少一个物体中每个物体对应的分类损失和分割损失。

可选地，当确定了每个预测结果与标注结果的一一对应关系之后，可知每个预测分类结果与其对应的标注分类结果之间的差异，基于该差异即可确定该物体对应的分类损失，以及每个预测分割结果与其对应的标注分割结果之间的差异，基于该差异即可确定该物体对应的分割损失；可选地，分类损失可以为focal loss，分割损失可以为dice loss或dice loss+focal loss。

步骤7033，基于至少一个分类损失和至少一个分割损失，确定网络损失。

可选地，基于样本图像中包括的至少一个物体对应的至少一个分类损失可确定一个样本图像对应的图像分类损失，基于样本图像中包括的至少一个物体对应的至少一个分割损失可确定一个样本图像对应的图像分割损失，再以图像分类损失和图像分割损失确定网络损失，基于获得的网络损失实现了对实例分割模型的端到端的训练，并且，由于通过确定了每个预测结果与标注结果的一一对应关系，使训练后的实例分割网络在应用时不需要非极大值抑制后处理进行去重，拥有更加快速的推理预测，能够实现实时的实例分割并能取得很好的分割性能。

可选地，上述实施例中步骤7033可以包括：

基于至少一个分类损失的均值，确定均值分类损失；

本实施例通过计算均值的方式确定图像对应的分类损失，使图像对应的均值分类损失中体现了样本图像中包括的至少一个物体中每个物体对应的分类损失，提升了端到端训练网络的效果。

基于至少一个分割损失的均值，确定均值分割损失；

本实施例通过计算均值的方式确定图像对应的分割损失，使图像对应的均值分割损失中体现了样本图像中包括的至少一个物体中每个物体对应的分割损失，提升了端到端训练网络的效果。

对均值分类损失和均值分割损失加权求和，确定网络损失。

其中，均值分类损失和均值分割损失对应的权重可根据实际场景进行预先设置，其中，当分割损失包括两种损失函数时，两种损失函数也可以对应不同的权重值，例如，设置网络损失＝2*focal+(2*dice+10*focal)；或在一些应用场景中可以在训练过程中进行调整，通过加权求和获得的网络损失提升了对实例分割网络训练的效果，使训练后的实例分割网络性能更佳。

本公开实施例提供的任一种实例分割方法或实例分割网络的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种实例分割方法或实例分割网络的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种实例分割方法或实例分割网络的训练方法。下文不再赘述。

示例性装置

图10是本公开一示例性实施例提供的实例分割装置的结构示意图。如图10所示，本实施例提供的装置包括：

第一处理模块11，用于基于实例分割网络的第一分支网络对待分割图像进行特征处理，得到第一特征。

第二处理模块12，用于基于实例分割网络的第二分支网络对第一处理模块11得到的第一特征进行预测处理，得到设定数量的分类结果和设定数量的卷积参数。

第三处理模块13，用于基于实例分割网络的第三分支网络对第一处理模块11得到的第一特征进行分割掩码特征提取，得到第二特征。

实例分割模块14，用于基于第二处理模块12得到的设定数量的分类结果和设定数量的卷积参数，以及第三处理模块13得到的第二特征，确定待分割图像的实例分割结果。

本公开上述实施例提供的一种实例分割装置，本实施例提出的方法不再依赖于检测算法，模型性能不再受检测算法的约束；并且，本实施例采取使用稀疏激活图的方式确定待分割图像中所含有的物体，稀疏激活图相对于密集预测检出所有物体，减少了计算消耗，提高了实例分割的效率。

图11是本公开另一示例性实施例提供的实例分割装置的结构示意图。如图11所示，本实施例提供的装置中，第一处理模块11，具体用于基于第一分支网络对待分割图像进行特征提取，得到单层特征；

对单层特征进行特征增强处理，得到第一特征。

本实施例中，第二处理模块12，包括：

特征提取单元121，用于基于第一特征进行特征提取处理，得到第三特征；

激活图预测单元122，用于对第三特征进行激活图预测，得到设定数量的稀疏实例激活图；

激活图处理单元123，用于基于设定数量的稀疏实例激活图和第三特征，确定设定数量的分类结果和设定数量的卷积参数。

可选地，激活图处理单元123，具体用于基于设定数量的稀疏实例激活图中每个稀疏实例激活图与第三特征执行矩阵乘法，得到第四特征向量；其中，第四特征向量中包括设定数量的特征元素；

利用第一预测分支对第四特征向量进行分类预测处理，得到对设定数量的稀疏实例激活图进行分类的设定数量的分类结果；

本实施例中，第三处理模块13，包括：

坐标特征确定单元131，用于基于第一特征中每个像素点对应的绝对位置坐标，得到第一特征对应的第一坐标特征；

特征拼接单元132，用于将第一特征与第一坐标特征进行维度拼接，得到第一拼接特征；

掩码提取单元133，用于对第一拼接特征进行分割掩码特征提取，得到第二特征。

可选地，坐标特征确定单元131，具体用于基于第一特征中每个像素点对应的绝对位置坐标，确定第一特征中每个像素点对应的坐标特征；对第一特征中每个像素点对应的坐标特征执行归一化处理，得到第一坐标特征。

本实施例中，实例分割模块14，具体用于对设定数量的卷积参数和第二特征执行动态卷积操作，得到设定数量的分割结果；基于设定数量的分类结果中每个分类结果与设定数量的卷积参数中每个卷积参数的对应关系，确定设定数量的分割结果中每个分割结果对应的分类结果；基于设定数量的分割结果以及每个分割结果对应的所述分类结果，确定待分割图像的实例分割结果。

图12是本公开一示例性实施例提供的实例分割网络的训练装置的结构示意图。如图12所示，本实施例提供的装置包括：

网络预测模块121，用于利用实例分割网络对样本图像进行实例分割预测，得到包括设定数量的物体对应的预测结果。

结果匹配模块122，用于确定样本图像对应的至少一个物体的标注结果和网络预测模块121确定的设定数量的预测结果之间的匹配分数矩阵。

损失确定模块123，用于基于结果匹配模块122确定的匹配分数矩阵确定网络损失。

网络训练模块124，用于基于损失确定模块123确定的网络损失对实例分割网络进行训练。

本实施例提出的实例分割网络的训练装置，通过将每个物体的标注结果和预测结果进行匹配，实现了使训练得到的实例分割网络不需要非极大值抑制后处理进行去重，拥有更加快速的推理预测，能够实现实时的实例分割并能取得很好的分割性能。

图13是本公开另一示例性实施例提供的实例分割网络的训练装置的结构示意图。如图13所示，本实施例中，结果匹配模块122，包括：

第一匹配单元1221，用于确定设定数量的预测结果中包括的设定数量的预测分类结果与至少一个标注结果中的至少一个标注分类结果之间的匹配分数，得到第一匹配矩阵；

第二匹配单元1222，用于确定设定数量的预测结果中包括的设定数量的预测分割结果与至少一个标注结果中的至少一个标注分割结果之间的匹配分数，得到第二匹配矩阵；

矩阵确定单元1223，用于基于第一匹配矩阵和第二匹配矩阵，确定匹配分数矩阵。

可选地，第一匹配单元1221，具体用于对设定数量的预测结果中包括的设定数量的预测分类结果按照分数阈值进行筛选，得到至少一个有效分类结果；确定至少一个有效分类结果与至少一个标注结果中的至少一个标注分类结果之间的匹配分数，得到第一匹配矩阵；

第二匹配单元1222，具体用于对设定数量的预测结果中包括的设定数量的预测分割结果分别进行二值化处理，得到设定数量的处理分割结果；确定设定数量的处理分割结果与至少一个标注结果中的至少一个标注分割结果之间的匹配分数，得到第二匹配矩阵。

损失确定模块123，包括：

结果匹配单元1231，用于基于匹配分数矩阵，利用匈牙利算法确定设定数量的预测结果与至少一个标注结果之间的匹配关系；

物体损失确定单元1232，用于基于匹配关系确定样本图像中包括的至少一个物体中每个物体对应的分类损失和分割损失；

网络损失确定单元1233，用于基于至少一个分类损失和至少一个所述分割损失，确定网络损失。

可选地，网络损失确定单元1233，具体用于基于至少一个分类损失的均值，确定均值分类损失；基于至少一个分割损失的均值，确定均值分割损失；对均值分类损失和均值分割损失加权求和，确定网络损失。

示例性电子设备

下面，参考图14来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图14图示了根据本公开实施例的电子设备的框图。

如图14所示，电子设备140包括一个或多个处理器141和存储器142。

处理器141可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备140中的其他组件以执行期望的功能。

存储器142可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器141可以运行所述程序指令，以实现上文所述的本公开的各个实施例的实例分割方法或实例分割网络的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备140还可以包括：输入装置143和输出装置144，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置143可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置143可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置143还可以包括例如键盘、鼠标等等。

该输出装置144可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置144可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备140中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备140还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的实例分割方法或实例分割网络的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的实例分割方法或实例分割网络的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种实例分割方法，包括：

基于实例分割网络中的第一分支网络对待分割图像进行特征提取，得到第一特征；

基于所述实例分割网络中的第二分支网络对所述第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数；

基于所述实例分割网络中的第三分支网络对所述第一特征进行分割掩码特征提取，得到第二特征；

基于所述设定数量的分类结果、所述设定数量的卷积参数和所述第二特征，确定所述待分割图像的实例分割结果；

所述基于所述实例分割网络中的第二分支网络对所述第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数，包括：

基于所述第一特征进行特征提取处理，得到第三特征；

对所述第三特征进行激活图预测，得到设定数量的稀疏实例激活图；

基于所述设定数量的稀疏实例激活图和所述第三特征，确定所述设定数量的分类结果和所述设定数量的卷积参数。

2.根据权利要求1所述的方法，所述基于实例分割网络中的第一分支网络对待分割图像进行特征提取，得到第一特征，包括：

基于所述第一分支网络对所述待分割图像进行特征提取，得到单层特征；

对所述单层特征进行特征增强处理，得到所述第一特征。

3.根据权利要求1所述的方法，其中，所述基于所述设定数量的稀疏实例激活图和所述第三特征，确定所述设定数量的分类结果和所述设定数量的卷积参数，包括：

基于所述设定数量的稀疏实例激活图中每个所述稀疏实例激活图与所述第三特征执行矩阵乘法，得到第四特征向量；其中，所述第四特征向量中包括设定数量的特征元素；

利用第一预测分支对所述第四特征向量进行分类预测处理，得到对所述设定数量的稀疏实例激活图进行分类的所述设定数量的分类结果；

利用第二预测分支对所述第四特征向量进行预测处理，得到与所述设定数量的分类结果相对应的所述设定数量的卷积参数。

4.根据权利要求1-3任一所述的方法，其中，所述基于所述实例分割网络中的第三分支网络对所述第一特征进行分割掩码特征提取，得到第二特征，包括：

基于所述第一特征中每个像素点对应的绝对位置坐标，得到所述第一特征对应的第一坐标特征；

将所述第一特征与所述第一坐标特征进行维度拼接，得到第一拼接特征；

对所述第一拼接特征进行分割掩码特征提取，得到所述第二特征。

5.根据权利要求1-3任一所述的方法，其中，所述基于所述设定数量的分类结果、所述设定数量的卷积参数和所述第二特征，确定所述待分割图像的实例分割结果，包括：

对所述设定数量的卷积参数和所述第二特征执行动态卷积操作，得到设定数量的分割结果；

基于所述设定数量的分类结果中每个分类结果与所述设定数量的卷积参数中每个卷积参数的对应关系，确定所述设定数量的分割结果中每个分割结果对应的所述分类结果；

基于所述设定数量的分割结果以及每个所述分割结果对应的所述分类结果，确定所述待分割图像的实例分割结果。

6.一种实例分割网络的训练方法，包括：

利用实例分割网络对样本图像进行实例分割预测，得到所述样本图像中包括的设定数量的物体中每个物体对应的预测结果；

基于所述匹配分数矩阵确定网络损失；

基于所述网络损失对所述实例分割网络进行训练；训练得到的所述实例分割网络用于实现权利要求1-5任意一项所述的实例分割方法。

7.根据权利要求6所述的方法，其中，所述确定所述样本图像对应的至少一个物体的标注结果和所述设定数量的预测结果之间的匹配分数矩阵，包括：

确定所述设定数量的预测结果中包括的设定数量的预测分类结果与所述至少一个标注结果中的至少一个标注分类结果之间的匹配分数，得到第一匹配矩阵；

确定所述设定数量的预测结果中包括的设定数量的预测分割结果与所述至少一个标注结果中的至少一个标注分割结果之间的匹配分数，得到第二匹配矩阵；

基于所述第一匹配矩阵和所述第二匹配矩阵，确定所述匹配分数矩阵。

8.一种实例分割装置，包括：

第一处理模块，用于基于实例分割网络的第一分支网络对待分割图像进行特征提取，得到第一特征；

第二处理模块，用于基于所述实例分割网络的第二分支网络对所述第一处理模块得到的第一特征进行预测，得到设定数量的分类结果和设定数量的卷积参数；

实例分割模块，用于基于所述第二处理模块得到的设定数量的分类结果和所述设定数量的卷积参数，以及所述第三处理模块得到的所述第二特征，确定所述待分割图像的实例分割结果；

所述第二处理模块，包括：

特征提取单元，用于基于所述第一特征进行特征提取处理，得到第三特征；

激活图预测单元，用于对所述第三特征进行激活图预测，得到设定数量的稀疏实例激活图；

激活图处理单元，用于基于所述设定数量的稀疏实例激活图和所述第三特征，确定所述设定数量的分类结果和所述设定数量的卷积参数。

9.一种实例分割网络的训练装置，包括：

网络训练模块，用于基于所述损失确定模块确定的网络损失对所述实例分割网络进行训练；训练得到的所述实例分割网络用于实现权利要求1-5任意一项所述的实例分割方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。