CN113822901A

CN113822901A - 图像分割方法、装置、存储介质及电子设备

Info

Publication number: CN113822901A
Application number: CN202110827410.3A
Authority: CN
Inventors: 杜松; 王邦军; 杨怀宇; 李磊
Original assignee: Nanjing Xurui Software Technology Co ltd
Current assignee: Nanjing Xurui Software Technology Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-12-21
Anticipated expiration: 2041-07-21
Also published as: CN113822901B

Abstract

本申请公开了一种图像分割方法、装置、存储介质及电子设备，其中，图像分割方法包括：获取待分割图像；将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，第一层级特征为特征尺度超过预设特征尺度的特征，第二层级特征为小于或等于预设特征尺度的特征；利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别；将目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到待分割图像的尺寸，得到目标分割图；从目标分割图像提取目标分割轮廓坐标和置信度，并进行分割。

Description

图像分割方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种图像分割方法、装置、存储介质及电子设备。

背景技术

目前，在图像分割领域众多国内外的专家学者进行了多年深入的研究，涌现出大量图像分割的算法。图像分割之后的许多工作，如图像分类、图像分析等能否达到预期的效果，受图像分割质量的影响很大。

粗略的边缘分割图像训练效果差，有精确边缘的分割图像训练效果好，但是标注成本会非常高。

发明内容

本申请实施例的目的是提供一种图像分割方法、装置、存储介质及电子设备，以至少解决现有受图像分割质量差、速度慢的问题。

本申请的技术方案如下：

根据本申请实施例的第一方面，提供一种图像分割方法，该方法可以包括：

获取待分割图像；

将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，第一层级特征为特征尺度超过预设特征尺度的特征，第二层级特征为小于或等于预设特征尺度的特征；

利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别；

将所述目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到所述待分割图像的尺寸，得到目标分割图；

从所述目标分割图像提取目标分割轮廓坐标和置信度；

根据所述目标分割轮廓坐标对所述待分割图像进行分割。

进一步地，训练好的机器学习模型包括：特征提取网络和特征分类网络；

训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

利用矩形框对训练图像进行标注，得到带标注图像训练集；

利用带标注图像训练集对机器学习模型进行训练和测试，得到训练好的机器学习模型。

进一步地，在利用矩形框对训练图像进行标注，得到带标注图像训练集之后，方法还包括：

利用高斯模糊将带标注图像训练集中训练图像的标注进行降噪处理，得到伪掩膜标注。

进一步地，利用带标注图像训练集对机器学习模型进行训练和测试，得到训练好的机器学习模型，包括：

利用机器学习模型的特征提取网络提取带标注图像训练集中训练图像的特征；

利用机器学习模型的特征分类网络对特征进行融合及分类，得到分类特征；

利用伪掩膜标注计算分类特征的分类损失，并利用伪掩膜标注计算标注区域在水平方向和竖直方向的投影损失；

根据分类损失和投影损失计算总损失；

利用总损失对机器学习模型进行梯度下降优化，得到训练好的机器学习模型。

进一步地，将目标类别插值到待分割图像，得到待分割图像的分割框坐标及预测结果置信度，包括：

将目标类别插值到待分割图像，得到待分割图像；

对待分割图像进行提取和标记处理，得到分割框坐标及预测结果置信度。

根据本申请实施例的第二方面，提供一种图像分割装置，该装置可以包括：

获取模块，用于获取待分割图像；

特征提取模块，用于将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，第一层级特征为特征尺度超过预设特征尺度的特征，第二层级特征为小于或等于预设特征尺度的特征；

分类模块，用于利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别；

插值模块，用于将将所述目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到所述待分割图像的尺寸，得到目标分割图；

提取模块，用于从所述目标分割图像提取目标分割轮廓坐标和置信度；

分割模块，用于根据所述目标分割轮廓坐标对所述待分割图像进行分割。

训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

利用矩形框对训练图像进行标注，得到带标注图像训练集；

根据本申请实施例的第四方面，提供一种电子设备，该电子设备可以包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所示的图像分割方法。

根据本申请实施例的第四方面，提供一种存储介质，当存储介质中的指令由信息处理装置或者服务器的处理器执行时，以使信息处理装置或者服务器实现以实现如第一方面的任一项实施例中所示的图像分割方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请实施例通过将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别，再将目标类别插值到待分割图像，得到分割框坐标及预测结果置信度，最终就可以根据分割框坐标对待分割图像进行分割。该方法在分割过程中不需要回归图像坐标，只需要进行简单的分类即可准确地进行图像分割，因此可以大大提升分割速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限值本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是根据一示例性实施例示出的图像分割方法流程示意图；

图2是机器学习模型结构示意图；

图3是根据一示例性实施例示出的机器学习模型结构示意图；

图4是根据一示例性实施例示出的机器学习模型训练方法流程示意图；

图5是根据一示例性实施例示出的机器学习模型测试方法流程示意图；

图6是根据一示例性实施例示出的实际分割区域效果图；

图7是根据一示例性实施例示出的图像分割装置结构示意图；

图8是根据一示例性实施例示出的电子设备结构示意图；

图9是根据一示例性实施例示出的电子设备的硬件结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像分割方法进行详细地说明。

如图1所示，在本申请实施例的第一方面，提供一种图像分割方法，该方法可以包括：

S110：获取待分割图像；

S120：将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，第一层级特征为特征尺度超过预设特征尺度的特征，第二层级特征为小于或等于预设特征尺度的特征；

S130：利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别；

S140：将所述目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到所述待分割图像的尺寸，得到目标分割图；

S150：从所述目标分割图像提取目标分割轮廓坐标和置信度；

S160：根据所述目标分割轮廓坐标对所述待分割图像进行分割。

上述实施例方法通过将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别，再将目标类别插值到待分割图像，得到分割框坐标及预测结果置信度，最终就可以根据分割框坐标对待分割图像进行分割。该方法在分割过程中不需要回归图像坐标，只需要进行简单的分类即可准确地进行图像分割，因此，该方法可以大大提升分割速度。

通常的实例分割模型训练、测试面临标注成本高的问题，例如图2所示，(a)和(b)为现有技术方案，一般来说多边形的标注比矩形框慢很多倍，并且存在训练缓慢，很难通过GPU加速，在复杂背景下分割效果不好等问题。

如图2所示，(c)为本申请实施例的训练好的机器学习模型。

如图3所示，上述实施例机器学习模型可以包括一个特征提取网络Backbone，该模块利用卷积神经网络来提取图像特征，Backbone可以为resnet18、resnet50，vgg16等标准网络。特征提取网络需要输出2个层级的特征，低层级的特征尺度较大，特征的感受野较小，包含低级语义特征。高层级的特征尺度较少，特征感受野较大，包含高级语义特征。

然后，利用OFC网络将高层语义特征合并到底层语义特征，然后直接预测每一个特征点感受野范围内的缺陷类别，即每个特征点只需要学习特征分类，不需要回归坐标框。

其中，OFC的损失函数由分类损失和投影损失两部分组成，分类采用的是BinaryCross Entropy，投影损失是为了保预测的mask区域的x轴、y轴的最大值投影和矩形框标注的x轴、y轴的最大值投影一致；

Loss＝Lcls+Lproj

Lcls＝-w_n[y_n·logx_n+(1-y_n)·log(1-x_n)]

Lproj＝log(max(m,dim＝-1))+log(max(m,dim＝-2))

其中，PostProcess是后处理模块，先将OFC模型的输出插值到原图分辨率，再利用阈值分割、Blob分析等技术来获得最终预测的多边形坐标及目标置信度。

在本申请的一些可选实施例中，训练好的机器学习模型包括：特征提取网络和特征分类网络；

训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

利用矩形框对训练图像进行标注，得到带标注图像训练集；

在本申请的一些可选实施例中，在利用矩形框对训练图像进行标注，得到带标注图像训练集之后，方法还包括：

在本申请的一些可选实施例中，利用带标注图像训练集对机器学习模型进行训练和测试，得到训练好的机器学习模型，包括：

根据分类损失和投影损失计算总损失；

在本申请的一些可选实施例中，将目标类别插值到待分割图像，得到待分割图像的分割框坐标及预测结果置信度，包括：

将目标类别插值到待分割图像，得到待分割图像；

上述实施例对机器学习模型进行训练可测试的流程，如图4和图5所示。

通常的实例分割模型训练、测试面临标注成本高的问题，一般来说多边形的标注比矩形框慢很多倍，上述实施例的机器学习模型训练方法不需要多边形或者像素级标注，只需要矩形框标注即可训练，标注成本低；对比grabcut等传统方法，该机器学习模型可以完全用GPU来加速，运行速度快；模块不需要回归坐标，只需要做好最简单的分类即可，机器学习模型需要设置的参数少，运行更加快速、训练更加容易。

常见的检测、分割为多任务模型，多任务模型通常伴随着多个任务的权重如何平衡的问题，而通过该训练方法训练的模型并不会出现该问题。

利用上方法训练得到的训练好的机器学习模型在进行实例分割时的效果图，如图6所示。可以看出分割的区域比较准确。

需要说明的是，本申请实施例提供的图像分割方法，执行主体可以为图像分割装置，或者该图像分割装置中的用于执行图像分割的方法的控制模块。本申请实施例中以图像分割装置执行图像分割的方法为例，说明本申请实施例提供的图像分割的装置。

如图7所示，在本申请实施例的第二方面，提供一种图像分割装置，该装置可以包括：

获取模块710，用于获取待分割图像；

特征提取模块720，用于将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，第一层级特征为特征尺度超过预设特征尺度的特征，第二层级特征为小于或等于预设特征尺度的特征；

分类模块730，用于利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别；

插值模块740，用于将将所述目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到所述待分割图像的尺寸，得到目标分割图；

提取模块750，用于从所述目标分割图像提取目标分割轮廓坐标和置信度；

分割模块760，用于根据所述目标分割轮廓坐标对所述待分割图像进行分割。

上述实施例装置通过利用获取模块710获取待分割图像，利用特征提取模块720将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，利用分类模块730将第一层级特征合并到底层语义特征，得到第三层级特征，并利用插值模块740预测感受野范围内的目标类别，再将目标类别插值到待分割图像，得到分割框坐标及预测结果置信度，最终分割模块750就可以根据分割框坐标对待分割图像进行分割。该装置在分割过程中不需要回归图像坐标，只需要进行简单的分类即可准确地进行图像分割，因此可以大大提升分割速度。

训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

利用矩形框对训练图像进行标注，得到带标注图像训练集；

本申请实施例中的图像分割装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像分割装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像分割装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备800，包括处理器801，存储器802，存储在存储器802上并可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述图像分割方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

上述实施例电子设备通过将待分割图像输入训练好的机器学习模型的特征提取网络中，提取待分割图像第一层级特征和第二层级特征，利用训练好的机器学习模型的特征分类网络将第一层级特征合并到底层语义特征，得到第三层级特征，并根据第三层级特征和第二层级特征预测感受野范围内的目标类别，再将目标类别插值到待分割图像，得到分割框坐标及预测结果置信度，最终就可以根据分割框坐标对待分割图像进行分割。该电子设备在分割过程中不需要回归图像坐标，只需要进行简单的分类即可准确地进行图像分割，因此可以大大提升分割速度。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像分割方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像分割方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像分割方法，其特征在于，包括：

获取待分割图像；

将所述待分割图像输入训练好的机器学习模型的特征提取网络中，提取所述待分割图像第一层级特征和第二层级特征，所述第一层级特征为特征尺度超过预设特征尺度的特征，所述第二层级特征为小于或等于所述预设特征尺度的特征；

利用所述训练好的机器学习模型的特征分类网络将所述第一层级特征合并到底层语义特征，得到第三层级特征，并根据所述第三层级特征和第二层级特征预测感受野范围内的目标类别；

从所述目标分割图像提取目标分割轮廓坐标和置信度；

根据所述目标分割轮廓坐标对所述待分割图像进行分割。

2.根据权利要求1所述的方法，其特征在于，所述训练好的机器学习模型包括：特征提取网络和特征分类网络；

所述训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

利用矩形框对所述训练图像进行标注，得到带标注图像训练集；

利用所述带标注图像训练集对机器学习模型进行训练和测试，得到所述训练好的机器学习模型。

3.根据权利要求2所述的方法，其特征在于，在所述利用矩形框对所述训练图像进行标注，得到带标注图像训练集之后，所述方法还包括：

利用高斯模糊将所述带标注图像训练集中训练图像的标注进行降噪处理，得到伪掩膜标注。

4.根据权利要求3所述的方法，其特征在于，所述利用所述带标注图像训练集对机器学习模型进行训练和测试，得到所述训练好的机器学习模型，包括：

利用机器学习模型的特征提取网络提取所述带标注图像训练集中训练图像的特征；

利用所述机器学习模型的特征分类网络对所述特征进行融合及分类，得到分类特征；

利用所述伪掩膜标注计算所述分类特征的分类损失，并利用所述伪掩膜标注计算标注区域在水平方向和竖直方向的投影损失；

根据所述分类损失和所述投影损失计算总损失；

利用总损失对所述机器学习模型进行梯度下降优化，得到所述训练好的机器学习模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述目标类别所有特征点预测的预测置信度作为低分辨分割结果图，并进行插值缩放到所述待分割图像的尺寸，得到目标分割图，包括：

对所述待分割图像进行提取和标记处理，得到分割框坐标及预测结果置信度。

6.一种图像分割装置，其特征在于，包括：

获取模块，用于获取待分割图像；

特征提取模块，用于将所述待分割图像输入训练好的机器学习模型的特征提取网络中，提取所述待分割图像第一层级特征和第二层级特征，所述第一层级特征为特征尺度超过预设特征尺度的特征，所述第二层级特征为小于或等于所述预设特征尺度的特征；

分类模块，用于利用所述训练好的机器学习模型的特征分类网络将所述第一层级特征合并到底层语义特征，得到第三层级特征，并根据所述第三层级特征和第二层级特征预测感受野范围内的目标类别；

7.根据权利要求6所述的装置，其特征在于，所述训练好的机器学习模型包括：特征提取网络和特征分类网络；

所述训练好的机器学习模型是通过下述方法训练得到的：

获取训练图像；

8.一种电子设备，其特征在于，包括：包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的图像分割方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的图像分割方法的步骤。