CN116129126A

CN116129126A - 分割预测模型的构建方法、图片语义分割标注方法及装置

Info

Publication number: CN116129126A
Application number: CN202310350007.5A
Authority: CN
Inventors: 林群书; 刘明皓; 左汪洋; 祁士刚; 杨易; 张超; 赵子健; 吴欣骏
Original assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Current assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-05-16

Abstract

本发明公开了一种分割预测模型的构建方法、图片语义分割标注方法及装置，包括构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应；构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征；构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成分割预测结果。有效地提升标注效率和标注质量，克服了人工完成分割标注任务效率低的问题和目前的深度学习模型的边界不清晰问题。

Description

分割预测模型的构建方法、图片语义分割标注方法及装置

技术领域

本申请涉及图像分割标注技术领域，尤其涉及一种分割预测模型的构建方法、图片语义分割标注方法及装置。

背景技术

语义分割数据集需要对每个像素做标注，这对于数据标注员是一项繁琐低效的任务，迫切需要辅助标注的工具。交互式语义分割方法是一种有效缓解人工标注效率低的方案，但是目前现有的方法大多使用传统的计算机视觉方法，性能不能满足需求，而使用基于深度学习的方法，边界不够清晰，精度较低，需要人工大量精修。

发明内容

本申请实施例的目的是提供一种分割预测模型的构建方法、图片语义分割标注方法及装置，以解决相关技术中存在的人工标注效率低、边界分割不清晰的技术问题。

根据本申请实施例的第一方面，提供一种分割预测模型的构建方法，包括：

构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应；

构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征；

构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成分割预测结果。

可选的，还包括：

构建循环增强模块，所述循环增强模块用于将所述分割预测结果、所述待标注图片和所述轮廓图作为输入，输出增强后的分割结果，并将增强后的分割结果作为下一次循环的分割预测结果，通过判定前后两次分割预测结果之间的差值是否小于某一阈值，若小于则结束循环，得到最终的分割预测结果。

根据本申请实施例的第二方面，提供一种图片语义分割标注方法，包括：

接收待标注图片和标记信息；

根据所述标记信息对所述待标注图片进行标记，所述标记至少标记出待标注的区域；

提取所述待标注图片的轮廓图，根据待标注的标记信息生成正向图和负向图；

将待标注图片、轮廓图、正向图和负向图输入到第一方面所构建的分割预测模型中，输出分割标注结果。

可选的，提取所述待标注图片的轮廓图，根据待标注的标记信息生成正向图和负向图，包括：

创建和所述待标注图片相同大小的第一全空图片，提取待标注标记信息中的需要分割的点坐标，在所述的第一全空图片中对应区域灰度值设置为255，作为正向图；

创建和所述待标注图片相同大小的第二全空图片，提取待标注标记信息中的不需要分割的点坐标，在所述的第二全空图片中对应区域灰度值设置为255，作为负向图。

可选的，还包括：对所述分割标注结果进行优化处理。

可选的，对所述分割标注结果进行优化处理，包括：

如果尚未标注完毕，继续接收标记信息，根据所述标记信息对所述待标注图片进行标记；

如果标注完毕，输出分割标注结果。

根据本申请实施例的第三方面，提供一种分割预测模型的构建装置，包括：

第一构建模块，用于构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应；

第二构建模块，用于构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征；

第三构建模块，用于构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成分割预测结果。

根据本申请实施例的第四方面，提供一种图片语义分割标注装置，包括：

接收模块，用于接收待标注图片和标记信息；

标记模块，用于根据所述标记信息对所述待标注图片进行标记，所述标记至少标记出待标注的区域；

提取生成模块，用于提取所述待标注图片的轮廓图，根据待标注的区域生成正向图和负向图；

输入输出模块，用于将待标注图片、轮廓图、正向图和负向图输入到第一方面所构建的分割预测模型中，输出分割标注结果。

根据本申请实施例的第五方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面或第二方面所述的方法。

根据本申请实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面或第二方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请基于边界引导的交互式分割模型，通过引入轮廓图作为模型输入模块的一部分，并在特征融合模块和分割预测模型提升对边界信息的感知，从而加强对边界的分割，有效地提升分割的精度，和目前的深度学习模型的边界不清晰问题。本申请通过接受指定人员的待标注图像标记信息，完成对待标注图像的标注，通过这样的交互方式，有效地提升标注效率，克服了人工完成分割标注任务效率低的问题。通过引入轮廓图作为模型输入模块的一部分，并在特征融合模块和分割预测模型提升对边界信息的感知，从而加强对边界的分割，有效地提升分割的精度，和目前的深度学习模型的边界不清晰问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种分割预测模型的构建方法的流程图。

图2是根据一示例性实施例示出的四个输入子模块输入的图。

图3是根据一示例性实施例示出的边界引导的分割预测模块执行的流程图。

图4是根据一示例性实施例示出的循环增强模块执行的流程图。

图5是根据一示例性实施例示出的一种分割预测模型的构建装置框图。

图6是根据一示例性实施例示出的一种图片语义分割标注方法的流程图。

图7是根据一示例性实施例示出的一种添加标记的示意图。

图8是根据一示例性实施例示出的与其他模型的对比图。

图9是根据一示例性实施例示出的一种图片语义分割标注装置的框图。

图10是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实施例1：

图1是根据一示例性实施例示出的一种分割预测模型的构建方法的流程图，如图1所示，可以包括以下步骤：

S11：构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应； S12：构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征； S13：构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成初步的分割预测结果。由上述实施例可知，本申请基于边界引导的交互式分割模型，通过引入轮廓图作为模型输入模块的一部分，并在特征融合模块和分割预测模型提升对边界信息的感知，从而加强对边界的分割，有效地提升分割的精度，和目前的深度学习模型的边界不清晰问题。

在S11的具体实施中：构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应；

具体地，第一输入子模块所需要输入的待标注图应该具有RGB3个通道，第二、第三和第四输入子模块都应该只有一个通道。参考图2，其中（a）为待标注图片，（b）为轮廓图，（c）为正向图，（d）为负向图。

在S12的具体实施中：构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征；

具体地，可以采用ResNet架构或者HRNet或者CoarseNet架构提取语义特征。

在S13的具体实施中：构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成初步的分割预测结果。

具体地，将S12得到的特征，如图3所示，融合所述轮廓图，通过拼接和相加两种方式融合特征，通过卷积层得到分割结果图。因为采用了轮廓信息，使得模型能够充分利用边界信息，得到边界清晰的分割图。本实施例提供的一种分割预测模型的构建方法，还可包括：

S14：构建循环增强模块，用于将所述初步分割结果联合所述待标注图片和所述待标注图的轮廓图，作为输入，得到增强后的分割结果，并将增强后的分割结果作为下一次循环的分割结果输入，通过判定两次的结果是否小于某一阈值，结束循环，得到精细的分割预测结果。

具体地，如图4所示，循环增强模块的输入是三个内容，分别是分割预测图、轮廓图和待标注图，模块可以包括特征提取层和输出层，其输入为5个通道的信息，可以采用UNet或者DeeplabV3作为特征提取层和输出层，这里的特征提取层对应上述模型的Encoder层，输出层对应上述模型的Decoder层。判断循环增强模块得到的分割图与上述输入的分割结果图之间差异，是否小于给定的阈值，若小于则结束循环，得到精细的分割预测结果。可选的，这里的差异可以使用均方误差或者绝对值误差计算。

与前述的分割预测模型的构建方法的实施例相对应，本申请还提供了分割预测模型的构建装置的实施例。

图5是根据一示例性实施例示出的一种分割预测模型的构建装置框图。参照图5，该装置包括第一构建模块11、第二构建模块12、第三构建模块13。

第一构建模块11，用于构建输入模块，所述输入模块包括用于输入待标注图的第一输入子模块、用于输入轮廓图的第二输入子模块、用于输入正向图的第三输入子模块、用于输入负向图的第四输入子模块，所述待标注图、轮廓图、正向图和负向图相对应；

第二构建模块12，用于构建特征融合模块，所述特征融合模块用于提取所述的待标注图、轮廓图、正向图和负向图的语义特征，并融合所述语义特征；

第三构建模块13，用于构建边界引导的分割预测模块，所述分割预测模块用于根据融合后的语义特征和轮廓图的信息，生成分割预测结果。

本实施例提供的一种分割预测模型的构建装置，还可包括：

第四构建模块14，所述第四构建模块14用于构建循环增强模块，用于将所述初步分割结果联合所述待标注图片和所述待标注图的轮廓图，作为输入，得到增强后的分割结果，并将增强后的分割结果作为下一次循环的分割结果输入，通过判定两次的结果是否小于某一阈值，结束循环，得到精细的分割预测结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例2：

图6是根据一示例性实施例示出的一种图片语义分割标注方法的流程图，如图6所示，可以包括以下步骤：

S21：接收待标注图片和标记信息；

S22：根据所述标记信息对所述待标注图片进行标记，所述标记至少标记出待标注的区域；

S23：提取所述待标注图片的轮廓图，根据待标注的标记信息生成正向图和负向图；

S24：将待标注图片、轮廓图、正向图和负向图输入到实施例1构建的分割预测模型中，输出分割标注结果。由上述实施例可知，本申请通过接受指定人员的待标注图像标记信息，完成对待标注图像的标注，通过这样的交互方式，有效地提升标注效率，克服了人工完成分割标注任务效率低的问题。通过引入轮廓图作为模型输入模块的一部分，并在特征融合模块和分割预测模型提升对边界信息的感知，从而加强对边界的分割，有效地提升分割的精度，和目前的深度学习模型的边界不清晰问题。

在S21的具体实施中：接收待标注图片和标记信息；

具体地，待标注的图片由在第一指定平台上传，用户可以通过文件夹和单个文件的形式上传。比如，通过第一指定平台（例如WEB后端）返回第二指定平台（例如WEB前端）。

在S22的具体实施中：根据所述标记信息对所述待标注图片进行标记，所述标记至少标记出待标注的区域；

具体地，指定人员在第二指定平台所展示的所述待标注图片上，添加响应点，响应点分为两种类型：需要用于分割的区域点（称为正向点）和不需要分割的区域点（称为负向点），用于作为后续模型的输入信息。如图7所示，其中（a）为待标注图片，（b）为标记后的图片，正向点为圆形，负向点为三角形。

在S23的具体实施中：提取所述待标注图片的轮廓图，根据待标注的标记信息生成正向图和负向图；

具体地，如图2所示，所述待标注图片（图2中的（a））可以通过OpenCV获取轮廓图（图2中的（b）），或者使用轮廓提取网络获得。

如图2中的（c）所示，创建和所述待标注图片相同大小的第一全空图片，提取待标注标记信息中的需要分割的点坐标，在所述的第一全空图片中对应区域灰度值设置为255，作为正向图。

如图2中的（d）所示，创建和所述待标注图片相同大小的第二全空图片，提取待标注标记信息中的不需要分割的点坐标，在所述的第二全空图片中对应区域灰度值设置为255，作为负向图。

在S24的具体实施中：将待标注图片、轮廓图、正向图和负向图输入到实施例1构建的分割预测模型中，输出分割标注结果。

具体地，如图8所示，图8中（a）为待标注图片，图8中（b）为本发明的图片语义分割标注方法输出的分割标注结果，图8中（c）为RITM（Reviving Iterative Training withMask Guidance for Interactive Segmentation）方法处理后的图，可以对比分析（a）、（b）和（c），通过本发明的图片语义分割标注方法，在人的边界分割上面，更加清晰、准确。

本实施例提供的一种图片语义分割标注方法，还可包括：

对所述分割标注结果进行优化处理。

具体地，如果尚未标注完毕，继续接收标记信息，根据所述标记信息对所述待标注图片进行标记；如果标注完毕，输出分割标注结果。

与前述的图片语义分割标注方法的实施例相对应，本申请还提供了图片语义分割标注方法装置的实施例。

图9是根据一示例性实施例示出的一种图片语义分割标注方法装置框图。参照图9，该装置包括接收模块21、标记模块22、提取生成模块23、输入输出模块24。

接收模块21，用于接收待标注图片和标记信息；

标记模块22，用于根据所述标记信息对所述待标注图片进行标记，所述标记至少标记出待标注的区域；

提取生成模块23，用于提取所述待标注图片的轮廓图，根据待标注的区域生成正向图和负向图；

输入输出模块24，用于将待标注图片、轮廓图、正向图和负向图输入到实施例1所构建的分割预测模型中，输出分割标注结果。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的分割预测模型的构建方法或图片语义分割标注方法。如图10所示，为本发明实施例提供的一种分割预测模型的构建装置或图片语义分割标注装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图10所示的处理器、内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的分割预测模型的构建方法或图片语义分割标注方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种分割预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.一种图片语义分割标注方法，其特征在于，包括：

接收待标注图片和标记信息；

将待标注图片、轮廓图、正向图和负向图输入到权利要求1或2所构建的分割预测模型中，输出分割标注结果。

4.根据权利要求3所述的一种图片语义分割标注方法，其特征在于，提取所述待标注图片的轮廓图，根据待标注的标记信息生成正向图和负向图，包括：

5.根据权利要求3所述的方法，其特征在于，还包括：对所述分割标注结果进行优化处理。

6.根据权利要求3所述的方法，其特征在于，对所述分割标注结果进行优化处理，包括：

如果标注完毕，输出分割标注结果。

7.一种分割预测模型的构建装置，其特征在于，包括：

8.一种图片语义分割标注装置，其特征在于，包括：

接收模块，用于接收待标注图片和标记信息；

输入输出模块，用于将待标注图片、轮廓图、正向图和负向图输入到权利要求1或2所构建的分割预测模型中，输出分割标注结果。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。