CN113192072B

CN113192072B - 图像分割方法、装置、设备及存储介质

Info

Publication number: CN113192072B
Application number: CN202110357762.7A
Authority: CN
Inventors: 黄慧娟; 宋丛礼; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2023-11-24
Anticipated expiration: 2041-04-01
Also published as: CN113192072A

Abstract

本公开关于一种图像分割方法、装置、电子设备及存储介质，涉及图像处理领域。该方法包括：获取待处理图像；基于分类网络对该待处理图像进行分类，得到该待处理图像的类激活图，该类激活图用于指示每个像素的类别，该分类网络基于第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签训练得到；基于该类激活图所指示像素的类别，对该待处理图像进行分割，得到该待处理图像的第一分割结果；基于分割网络对该第一分割结果进行校正，得到该待处理图像的第二分割结果。分类网络训练时仅需要包围盒即可，无需人工进行像素级标注，且类激活图为图像分割过程引入了语义信息，因而，上述方法能够大大提高图像分割的准确性和效率。

Description

图像分割方法、装置、设备及存储介质

技术领域

本公开涉及图像处理领域，尤其涉及图像分割方法、装置、设备及存储介质。

背景技术

语义分割任务是给定一张图像，将图像中的每个像素进行分类。该任务是一个典型的计算机视觉任务，在自动驾驶、人脸特效等领域具有重要的应用价值。

基于深度学习的语义分割任务近些年取得了很大进展，但通常他们都需要像素级的标注来训练分割网络，可是像素级的标注非常耗时，标注数据的获取效率很低，图像分割效率低，因而亟需一种图像分割方法，来提高图像分割效率。

发明内容

本公开提供一种图像分割方法、装置、设备及存储介质，提高了图像分割效率和准确性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像分割方法，包括：

获取待处理图像；

基于分类网络对所述待处理图像进行分类，得到所述待处理图像的类激活图，所述类激活图用于指示每个像素的类别，所述分类网络基于第一样本图像、所述第一样本图像对应的包围盒以及所述第一样本图像的分类标签训练得到；

基于所述类激活图所指示像素的类别，对所述待处理图像进行分割，得到所述待处理图像的第一分割结果；

基于分割网络对所述第一分割结果进行校正，得到所述待处理图像的第二分割结果。在一些实施例中，所述分类网络的训练过程包括：

获取第一样本图像、所述第一样本图像对应的包围盒以及所述第一样本图像的分类标签；

将所述包围盒在所述第一样本图像中对应的图像区域外扩，得到第二样本图像，所述第二样本图像的分类标签与所述第一样本图像的分类标签相同；

将所述第二样本图像输入初始分类网络中进行分类，得到所述第二样本图像的预测分类标签；

根据所述第二样本图像的所述预测分类标签和所述第二样本图像的分类标签之间的差异，对所述初始分类网络进行训练，得到所述分类网络。

在一些实施例中，所述基于所述类激活图所指示像素的类别，对所述待处理图像进行分割，得到所述待处理图像的第一分割结果，包括：

基于所述类激活图中每个像素的取值与目标阈值之间的大小关系，确定所述待处理图像中每个像素的候选类别，所述候选类别包括前景像素、背景像素和候选前景像素；

基于所述待处理图像中每个像素的候选类别，对所述待处理图像进行建模，得到所述待处理图像对应的高斯混合模型；

根据所述待处理图像中每个像素与相邻像素之间的像素值相似度，对所述高斯混合模型进行更新，直至符合目标条件，得到目标高斯混合模型；

基于所述目标高斯混合模型，确定所述待处理图像的第一分割结果，所述第一分割结果用于指示所述待处理图像中每个像素的类别，所述类别包括前景像素、背景像素和候选前景像素。

在一些实施例中，所述基于分割网络对所述第一分割结果进行校正，得到所述待处理图像的第二分割结果，包括：

将所述第一分割结果所指示像素的三个类别进行两两组合，得到三个类别组合；

对于所述三个类别组合中的每个类别组合，基于所述类别组合对应的分割网络，对所述待处理图像进行分割，得到所述类别组合对应的第三分割结果，所述第三分割结果用于指示所述待处理图像每个像素的类别为所述类别组合中两个类别中的一个；

根据所述三个类别组合对应的所述第三分割结果，对所述第一分割结果进行校正，得到所述待处理图像的第二分割结果，所述第二分割结果用于指示所述待处理图像中每个像素的类别为所述三个类别中的一个。

在一些实施例中，所述三个类别组合对应的三个分割网络的训练过程包括：

获取第二样本图像；

基于所述分类网络对所述第二样本图像进行分类，得到所述第二样本图像的类激活图；

基于所述第二样本图像的类激活图所指示的类别，对所述第二样本图像进行分割，得到所述第二样本图像的分割结果；

将所述第二样本图像的分割结果所指示的三个类别进行两两组合，得到所述三个类别组合；

对于所述三个类别组合中的每个类别组合，根据所述类别组合对应的初始分割网络对所述第二样本图像进行分割，得到所述类别组合对应的预测分割结果；

根据所述每个类别组合对应的预测分割结果和所述第二样本图像的分割结果之间的差异，对所述初始分割网络进行训练，得到所述类别组合对应的分割网络。

根据本公开实施例的第二方面，提供一种图像分割装置，包括：

获取单元，被配置为执行获取待处理图像；

分类单元，被配置为执行基于分类网络对所述待处理图像进行分类，得到所述待处理图像的类激活图，所述类激活图用于指示每个像素的类别，所述分类网络基于第一样本图像、所述第一样本图像对应的包围盒以及所述第一样本图像的分类标签训练得到；

分割单元，被配置为执行基于所述类激活图所指示像素的类别，对所述待处理图像进行分割，得到所述待处理图像的第一分割结果；

校正单元，被配置为执行基于分割网络对所述第一分割结果进行校正，得到所述待处理图像的第二分割结果。

在一些实施例中，所述分类网络的训练过程包括：

在一些实施例中，所述分割单元被配置为执行：

在一些实施例中，所述校正单元被配置为执行：

获取第二样本图像；

根据本公开实施例的第三方面，提供一种电子设备，电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现第一方面任一项所述的图像分割方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面任一项所述的图像分割方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条计算机程序，所述一条或多条计算机程序存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条计算机程序，所述一个或多个处理器执行所述一条或多条计算机程序，使得电子设备能够执行上述任一种可能实施方式的图像分割方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例中，一方面，基于分类网络得到了待处理图像的类激活图，以类激活图作为初步分割的引导，该分类网络是对图像进行分类的，分类过程需要提取到图像的语义信息来判断类别，因而分类网络具备提取图像中语义信息的功能，则该类激活图中包含有所述待处理图像中的语义信息。该类激活图为该初步分割过程引入了较多的语义信息，从而得到更加符合语义的、精度更高的初步分割结果，也即是，该初步分割结果更加准确，且该分类网络训练时仅需要样本图像对应的包围盒即可，无需人工进行像素级标注，即可实现对待处理图像的分割，能够大大提高图像分割效率。另一方面，在得到能够初步分割结果后，通过分割网络进行了二次分割，对初步分割结果进行了校正，进一步提高了分割结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像分割方法的实施环境的示意图。

图2是根据一示例性实施例示出的一种图像分割方法的流程图。

图3是根据一示例性实施例示出的一种分类网络训练方法的流程图。

图4是根据一示例性实施例示出的一种图像分割方法的流程图。

图5是根据一示例性实施例示出的一种分割网络的结构示意图。

图6是根据一示例性实施例示出的一种图像分割方法的流程图。

图7是根据一示例性实施例示出的一种分割网络训练方法的流程图。

图8是根据一示例性实施例示出的一种图像分割装置框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

图10是根据一示例性实施例示出的一种终端的框图。

图11是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

下面针对本公开所涉及的技术和场景进行介绍。

语义分割(Semantic Segmentation)技术是给定一张图像，将图像中的每个像素进行分类的技术。语义分割的任务是一个典型的计算机视觉任务，在自动驾驶、人脸特效、医疗、人机交互、虚拟现实等领域具有重要的应用价值。从宏观上看，语义分割是一项高层次的任务，为实现场景的完整理解铺平了道路。场景理解作为一个核心的计算机视觉问题，其重要性在于越来越多的应用程序通过从图像中推断知识来提供营养。

该语义分割也可以称之为图像分割。本公开实施例提供的图像分割方法适用于任意语义分割场景。该语义分割场景可以为对任一类型的图像进行分割，基于分割结果进一步进行处理。

在不同的语义分割场景中，该图像可以为不同类型的图像，对图像进行分割的需求也可以不同。

在一种可能实现方式中，该图像可以为风景图像，通过对风景图像进行分割，将风景图像中某个特定目标所在的区域分割出来，后续可以用于抠图、对目标进行跟踪、对障碍物进行判定等。比如，该语义分割场景可以为自动驾驶场景，车辆通过实时采集图像，通过对图像进行分割，确定图像中一些目标物的位置，该目标物可以包括行人、建筑、树木、车辆、道路等，进而该车辆能够根据分割的结果结合自身的行驶状态，确定后续的行驶行为，该行驶行为可以包括行驶方向、行驶速度、是否刹车、是否加油等。

在另一种可能实现方式中，该图像可以是医学图像，也即是人体组织图像，则上述语义分割场景可以为人体组织图像分割场景(或医学图像分割场景)。例如，该医疗图像分割场景可以为肝癌分割、脑癌及周边损伤分割、肺癌分割、胰脏癌症分割、大肠癌分割、肝脏入侵微血管分割、海马体结构分割、前列腺结构分割、左心房分割、胰脏分割、肝脏分割或脾脏分割等人体组织图像分割场景，当然也可以是其它人体组织图像分割场景。在上述人体组织图像分割场景中，在分割得到人体组织所在区域后，能够辅助医师更准确地把握患者病情，进而采取相应的医疗手段。

当然，该图像也可以是其它类型的图像，则该语义分割场景也可以为其他语义分割场景，例如，该图像为人体图像，该语义分割场景为对人体图像分割场景，通过将人体分割出来，能够对人体所在区域进行抠图，以置换背景等。本公开实施例对该语义分割场景不作具体限定。

图1是本申请实施例提供的一种图像分割方法的实施环境的示意图。该实施环境包括终端101，或者该实施环境包括终端101和图像处理平台102。终端101通过无线网络或有线网络与图像处理平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器，膝上型便携计算机，智能机器人，自助支付设备中的至少一种。终端101安装和运行有支持图像处理的应用程序，例如，该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用。

示例性地，该终端101能够具有图像采集功能和图像处理功能，能够对采集到的图像进行处理，并根据处理结果执行相应的功能。该终端101能够独立完成该工作，也能够通过图像处理平台102为其提供数据服务。本申请实施例对此不作限定。

图像处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像处理平台102用于为支图像处理的应用程序提供后台服务。可选地，图像处理平台102承担主要处理工作，终端101承担次要处理工作；或者，图像处理平台102承担次要处理工作，终端101承担主要处理工作；或者，图像处理平台102或终端101分别能够单独承担处理工作。或者，图像处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地，该图像处理平台102包括至少一台服务器1021以及数据库1022，该数据库1022用于存储数据，在本申请实施例中，该数据库1022中能够存储有样本图像或样本人脸图像，为至少一台服务器1021提供数据服务。

服务器能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员能够知晓，上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个，或者上述终端101、服务器1021为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

图2是根据一示例性实施例示出的一种分类网络训练方法的流程图，该方法可以由电子设备执行，该电子设备可以为终端，也可以为服务器。如图2所示，方法包括以下步骤。

在步骤S21中，获取待处理图像。

在步骤S22中，基于分类网络对该待处理图像进行分类，得到该待处理图像的类激活图，该类激活图用于指示每个像素的类别，该分类网络基于第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签训练得到。

在步骤S23中，基于该类激活图所指示像素的类别，对该待处理图像进行分割，得到该待处理图像的第一分割结果。

在步骤S24中，基于分割网络对该第一分割结果进行校正，得到该待处理图像的第二分割结果。

在一些实施例中，该分类网络的训练过程包括：

获取第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签；

将该包围盒在该第一样本图像中对应的图像区域外扩，得到第二样本图像，该第二样本图像的分类标签与该第一样本图像的分类标签相同；

将该第二样本图像输入初始分类网络中进行分类，得到该第二样本图像的预测分类标签；

根据该第二样本图像的该预测分类标签和该第二样本图像的分类标签之间的差异，对该初始分类网络进行训练，得到该分类网络。

在一些实施例中，该基于该类激活图所指示像素的类别，对该待处理图像进行分割，得到该待处理图像的第一分割结果，包括：

基于该类激活图中每个像素的取值与目标阈值之间的大小关系，确定该待处理图像中每个像素的候选类别，该候选类别包括前景像素、背景像素和候选前景像素；

基于该待处理图像中每个像素的候选类别，对该待处理图像进行建模，得到该待处理图像对应的高斯混合模型；

根据该待处理图像中每个像素与相邻像素之间的像素值相似度，对该高斯混合模型进行更新，直至符合目标条件，得到目标高斯混合模型；

基于该目标高斯混合模型，确定该待处理图像的第一分割结果，该第一分割结果用于指示该待处理图像中每个像素的类别，该类别包括前景像素、背景像素和候选前景像素。

在一些实施例中，该基于分割网络对该第一分割结果进行校正，得到该待处理图像的第二分割结果，包括：

将该第一分割结果所指示像素的三个类别进行两两组合，得到三个类别组合；

对于该三个类别组合中的每个类别组合，基于该类别组合对应的分割网络，对该待处理图像进行分割，得到该类别组合对应的第三分割结果，该第三分割结果用于指示该待处理图像每个像素的类别为该类别组合中两个类别中的一个；

根据该三个类别组合对应的该第三分割结果，对该第一分割结果进行校正，得到该待处理图像的第二分割结果，该第二分割结果用于指示该待处理图像中每个像素的类别为该三个类别中的一个。

在一些实施例中，该三个类别组合对应的三个分割网络的训练过程包括：

获取第二样本图像；

基于该分类网络对该第二样本图像进行分类，得到该第二样本图像的类激活图；

基于该第二样本图像的类激活图所指示的类别，对该第二样本图像进行分割，得到该第二样本图像的分割结果；

将该第二样本图像的分割结果所指示的三个类别进行两两组合，得到该三个类别组合；

对于该三个类别组合中的每个类别组合，根据该类别组合对应的初始分割网络对该第二样本图像进行分割，得到该类别组合对应的预测分割结果；

根据该每个类别组合对应的预测分割结果和该第二样本图像的分割结果之间的差异，对该初始分割网络进行训练，得到该类别组合对应的分割网络。

在本公开实施例中，对于待处理图像，能够先通过分类网络对其进行分类，得到类激活图，将类激活图作为先导，对待处理图像进行两次分割，得到该待处理图像的分割结果。其中，该分类网络的训练过程与待处理图像的分类以及分割过程可能由同一电子设备执行，也可以由不同电子设备执行，因而，下面通过多个实施例，针对这几个过程分别进行说明。

下面通过图3所示实施例中对该分类网络的训练过程进行说明。图3是根据一示例性实施例示出的一种图像分割方法的流程图，如图3所示，该方法由电子设备执行，包括以下步骤。

在步骤S31中，获取第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签。

包围盒(Bounding Box)是指用体积稍大且特性简单的几何体(称为包围盒)来近似地代替复杂的几何对象。该包围盒可以为AABB包围盒(Axis-aligned bounding box)、包围球(Sphere)、方向包围盒(Oriented bounding box，OBB)以及固定方向凸包(Fixeddirections hulls，FDH)中的任一个。

该包围盒为对前景像素所在区域(也即是前景区域)的粗略标记，通过该包围盒大致能够了解第一样本图像中前景像素所在范围，可以将该包围盒理解为能够粗略体现该第一样本图像的分割结果的标注数据。

该分类标签用于指示该第一样本图像的类别。例如，在风景图像处理场景中，该第一样本图像可以为风景图像，该第一样本图像的分类标签可以包括树、街道等。又例如，在包含动物的图像处理场景中，该第一样本图像中可以包括动物，该第一样本图像的分类标签可以包括猫、狗、兔子等。又例如，在人体组织图像的图像处理场景中，该第一样本图像可以为人体组织图像，该第一样本图像的分类标签可以包括脑癌、脑瘤和正常等。

在本公开实施例中，可以对第一样本图像(第一样本图像为获取到的原始图像)进行处理，以得到具有轻量级标注数据的第二样本图像，该第二样本图像用于训练分类网络。具体地，可以获取第一样本图像以及该第一样本图像对应的包围盒，根据包围盒对第一样本图像进行处理，以得到用于训练分类网络的样本以及样本的标注数据。将包围盒作为标注数据，相较于像素级标注，该包围盒可以认为是轻量级标注数据。当然，在训练分类网络时，可以获取第一样本图像的分类标签，以此作为处理得到的样本的分类标签，这样样本的真实分类情况已知，通过这些数据即可训练分类网络使得分类网络具有良好的分类功能。

该第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签可以包括多种获取方式。

对于该第一样本图像，在一些实施例中，该第一样本图像可以存储于该电子设备中。电子设备可以从本地存储中提取该第一样本图像。在另一些实施例中，该第一样本图像可以存储于图像数据库中，该电子设备可以从图像数据库中，提取该第一样本图像。

对于该第一样本图像对应的包围盒，该包围盒可以由相关技术人员为该第一样本图像进行标注得到。相应地，该电子设备获取该第一样本图像对应的包围盒的过程则可以为：电子设备响应于对该第一样本图像的标注操作，获取该标注操作所标注出的包围盒作为该第一样本图像对应的包围盒。

该包围盒也可以预先标注好并与该第一样本图像对应存储于电子设备或图像数据库中。相应地，该电子设备获取该第一样本图像对应的包围盒的过程则可以为：电子设备获取与该第一样本图像对应存储的包围盒。

对于该第一样本图像的分类标签，该分类标签可以由相关技术人员为该第一样本图像设置。相应地，该电子设备获取该第一样本图像的分类标签的过程则可以为：电子设备响应于对该第一样本图像的标签设置操作，获取该标签设置操作所设置的分类标签作为该第一样本图像的分类标签。

该分类标签也可以预先设置好并与该第一样本图像对应存储于电子设备或图像数据库中。相应地，该电子设备获取该第一样本图像的分类标签的过程则可以为：电子设备获取与该第一样本图像对应存储的分类标签。

需要说明的是，该第一样本图像的数量可以为一个，也可以为多个，基于一个第一样本图像能够得到一个第二样本图像，基于多个第一样本图像能够得到多个第二样本图像。在对分类网络进行训练时所基于的第二样本图像可以为多个，在本实施例中，仅从对一个第二样本图像的具体处理过程角度来说明，在包括多个第二样本图像时，对每个第二样本图像的处理过程均同理。

在步骤S32中，将该包围盒在该第一样本图像中对应的图像区域外扩，得到第二样本图像，该第二样本图像的分类标签与该第一样本图像的分类标签相同。

该包围盒为对前景区域的粗略标记，通过该包围盒大致能够了解第一样本图像中前景区域的大概位置。以该包围盒作为该第一样本图像的标注数据，能够对该第一样本图像进行处理，进一步得到用于训练的第二样本图像。

在本公开实施例中，获取到第一样本图像对应的包围盒后，可以大概了解该第一样本图像中前景区域的位置。可以理解地，与前景像素距离较远的像素为背景像素的可能性更大一些，该包围盒附近的像素是否为前景像素是更进一步确认的重点。因而，可以基于该包围盒，对第一样本图像进行裁剪，将该包围盒对应的区域，以及该包围盒外一定距离的区域裁剪出来，得到第二样本图像，也即是将第一样本图像中包围盒对应区域外扩得到第二样本图像。这样该第二样本图像包括该第一样本图像中前景区域以及需要进一步进行分割的区域。第二样本图像中前景区域的占比更高，能够促使分类网络学习到精度更高、更细致化地分类能力。

该步骤S32的过程也即是基于该第一样本图像对应的包围盒，对该第一样本图像进行裁剪得到第二样本图像的过程。该第二样本图像为第一样本图像中的部分内容，自然的，对图像进行分类的结果并不会发生改变，该第二样本图像的分类标签与第一样本图像的分类标签相同。

在一些实施例中，该步骤S32可以通过下述步骤一和步骤二实现。

步骤一、基于该第一样本图像对应的包围盒在第一样本图像中对应的目标区域，确定该第一样本图像的待裁剪区域。该待裁剪区域包括该目标区域。

在对第一样本图像进行裁剪时，可以先确定出待裁剪区域后，再对该待裁剪区域进行裁剪，将该待裁剪区域中的图像作为第二样本图像。该待裁剪区域的尺寸大于该目标区域的尺寸。这样待裁剪区域中不仅包括目标区域，还包括该目标区域周围的区域。

在一些实施例中，可以通过设置目标比例，将包围盒对应的目标区域外扩该目标比例，得到待裁剪区域，相应地，该待裁剪区域基于该目标区域以及该目标比例确定。具体地，基于该目标区域的第一尺寸和目标比例，确定第二尺寸，将中心位置为该目标区域的中心位置、尺寸为该第二尺寸的区域确定为该第一样本图像的待裁剪区域。通过目标比例和尺寸，能够明确待裁剪区域，保证待裁剪区域的有效性和准确性，以此裁剪第一样本图像，能够得到更加优质的图像处理结果。

这样该目标区域的中心位置与待裁剪区域的中心位置重合，也即是，该包围盒的中心位置与待裁剪区域的中心位置重合。待裁剪区域的尺寸大于包围盒的尺寸，该待裁剪区域也即是包围于包围盒之外的一个区域，该待裁剪区域中不仅包括该包围盒，还包括该图像中包围盒外的区域。

对于该目标比例，在一些实施例中，该目标比例可以对应一个区域的宽度和高度，具体地，该目标比例可以包括宽度的第一目标比例和高度的第二目标比例。

其中，该第一目标比例可以与第二目标比例相同，该第一目标比例也可以与第二目标比例不同。上述第一目标比例和第二目标比例均可以由相关技术人员根据需求进行设置，本公开实施例对此不作限定。

上述目标比例为待裁剪区域与目标区域之间的比例，该待裁剪区域将作为第二样本图像，目标区域也即是包围盒所在区域，因而，该目标比例也即是第二样本图像与包围盒之间的比例。也即是，第一目标比例为第二样本图像的宽度与包围盒的宽度之间的比例；第二目标比例为第二样本图像的高度与包围盒的高度之间的比例。例如，可以设置有第一目标比例为120％，第二目标比例为120％，如果包围盒的宽度为10厘米(cm)，则第二样本图像的宽度可以为12cm，包围盒的高度为5cm，则第二样本图像的高度可以为6cm。

在另一些实施例中，该目标比例可以对应一个区域的面积。具体地，该目标比例可以为面积的目标比例。具体地，该目标比例可以为第二样本图像的面积与包围盒的面积之间的比例。例如，可以设置为第一目标比例为144％，该包围盒的第一尺寸为10cmx10cm，面积为100cm²。在确定待裁剪区域时，可以将以该包围盒为中心，面积为144cm²的区域作为待裁剪区域。该待裁剪区域的宽度和高度分别为12cmx12cm。

需要说明的是，上述目标比例、第一目标比例和第二目标比例可以由相关技术人员根据需求或实验结果进行设置，本申请实施例对此不作限定。

步骤二、基于该待裁剪区域，对该第一样本图像进行裁剪，得到该第二样本图像。

确定了待裁剪区域后，即可将该第一样本图像中该待裁剪区域裁剪出来，得到一个新的图像，也即是第二样本图像。该第二样本图像的图像内容与该第一样本图像中待裁剪区域的图像内容一致。

通过包围盒裁剪，将确定为背景像素的部分区域裁剪掉，以此来减少需要进一步确定类别的像素数量，且裁剪时将包围盒外扩一定比例的区域裁剪出来，能够促使分类网络进行更精细地分类，在提高训练效率的同时，提高了分类网络的分类准确性。

在步骤S33中，将该第二样本图像输入初始分类网络中进行分类，得到该第二样本图像的预测分类标签。

在该步骤S33中，可以将第二样本图像以及该第二样本图像的分类标签作为样本数据，训练一个分类网络。

可以理解地，初始分类网络的网络参数未经过训练，为初始值。该训练过程即为调整该分类网络的网络参数，使得调整后的初始分类网络针对同样的输入，能够得到更加准确的输出，也即是使得该初始分类网络的分类能力更强。

在一些实施例中，该训练过程可以为：将第二样本图像输入初始分类网络中，由初始分类网络对第二样本图像进行特征提取得到第二样本图像的图像特征，基于该图像特征，对第二样本图像进行分类，输出预测分类标签。该预测分类标签为该初始分类网络对第二样本图像进行分类得到的预测值，该第二样本图像的分类标签则是真实值。该真实值则是用于衡量预测值是否准确，进而衡量初始分类网络的分类能力。

其中，第二样本图像的图像特征可以为特征图，该初始分类网络用于将输入的第二样本图像处理为特征图，基于特征图来进行类别预测，得到预测分类标签。

在步骤S34中，根据该第二样本图像的该预测分类标签和该第二样本图像的分类标签之间的差异，对该初始分类网络进行训练，得到该分类网络。

该步骤S33和步骤S34为基于第二样本图像以及第二样本图像的分类标签对初始分类网络进行训练得到分类网络的过程，上述步骤S33中，电子设备基于初始分类网络得到了第二样本图像的预测分类标签，该第二样本图像的分类标签与该预测分类标签之间的差异则能够体现该初始分类网络的准确性。

可以理解地，该差异越大，该初始分类网络分类的准确性越差；该差异越小，该初始分类网络分类的准确性越小。该训练过程的目的就是减小该差异，使得初始分类网络得到的预测分类标签与分类标签一致。

在一些实施例中，第二样本图像的分类标签与该预测分类标签之间的差异可以通过损失函数得到的损失值来表示。该步骤S34中，可以基于该第二样本图像的该预测分类标签和该第二样本图像的分类标签，获取损失值，响应于该损失值不满足目标条件，则基于损失值对初始分类网络的网络参数进行更新。然后可以基于更新后的初始分类网络进行下一次迭代过程。在下一次迭代过程中，可以基于更新后的初始分类网络继续执行上述步骤S33，然后基于确定出的预测分类标签和分类标签，获取损失值，响应于该损失值不满足目标条件，则对网络参数进行更新并进行下下一次迭代过程。在上述迭代过程中，还可以响应于损失值满足目标条件，可以将当前的初始分类网络确定为分类网络。

也即是，该分类网络的训练过程可以包括多次迭代过程实现，在每次迭代过程中，还可以执行上述步骤S33，然后基于确定出的预测分类标签和分类标签，获取损失值。对于该损失值，如果该损失值不满足目标条件，则可以对网络参数进行更新，然后进行下一轮迭代过程。如果该损失值满足目标条件，则训练结束，将本次迭代过程使用的初始分类网络作为分类网络。

其中，该目标条件可以由相关技术人员根据需求进行设置，例如，该目标条件可以为损失值收敛，或者迭代次数达到目标次数等，本公开实施例对此不作限定。

上述分类网络训练过程中，将获取到的第一样本图像中包围盒外扩，得到第二样本图像，以第二样本图像来对分类网络进行训练，由于包围盒是对前景区域的粗略标记，前景区域大概会分布在包围盒内，可能有些包围盒外周围的区域也会有前景像素，而距离包围盒很远的区域为背景区域的可能性很大，通过将包围盒外扩，能够将可能的前景区域裁剪出来，且将大部分背景区域裁减掉，这样得到的第二样本图像进行分类时，能够更多的关注前景区域，能够提高分类精度，提高分类网络的准确性，且需要分析的像素变少，能够提高训练效率。

另外，该训练后的分类网络用于对待处理图像进行分类得到类激活图，以类激活图作为初步分割的先导，该分类网络的准确性高，自然也就能够保证后续分割结果的准确性，且作为先导的类激活图较为准确，后续分割过程中需要校正的次数也就更少，能够有效提高图像分割效率。

上述图3所示实施例中，针对分类网络的训练过程进行了详细说明，下面通过图4所示实施例对通过该分类网络对该待处理图像进行分类以及对待处理图像进行分割的过程进行说明。图4是根据一示例性实施例示出的一种图像分割方法的流程图，该方法可以由电子设备执行，该电子设备可以为终端，也可以为服务器。如图4所示，方法包括以下步骤。

在步骤S41中，获取待处理图像。

该待处理图像为待进行图像分割的图像。在不同的图像处理场景中，该待处理图像的获取方式可能不同。

在一些实施例中，该电子设备可以具有图像采集功能，该电子设备可以通过自身的图像采集组件采集图像作为该待处理图像。

在另一些实施例中，电子设备还可以获取其他设备采集的图像作为待处理图像，比如，电子设备可以从网站上下载图像作为待处理图像，也可以从图像数据库中获取图像作为该待处理图像，还可以接收其他设备发送的待处理图像。本公开实施例对该待处理图像的获取方式不作具体限定。

在步骤S42中，基于分类网络对该待处理图像进行分类，得到该待处理图像的类激活图，该类激活图用于指示每个像素的类别。

其中，该分类网络基于第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签训练得到。该分类网络的训练过程具体参见上述图3所示实施例，在此不作过多赘述。

需要说明的是，如果该分类网络的训练过程不在该电子设备上进行，而是在其他电子设备上进行的。在一些实施例中，该其他电子设备在训练得到分类网络后，可以将该分类网络压缩得到配置文件，将该配置文件发送至该电子设备，由该电子设备基于接收到的配置文件，在该电子设备上配置该分类网络。在另一些实施例中，该其他电子设备训练得到分类网络后，能够提供图像分类服务。该电子设备在获取到待处理图像后，可以将该待处理图像发送至该其他电子设备，由该其他电子设备基于分类网络对待处理图像进行分类，将分类得到的类激活图返回该电子设备。本公开实施例对具体采用哪种方式不作限定。

其中，类激活图(Class Activation Map，CAM)是一种利用分类网络获取某一分类类别在给定图像中的分布(或激活)区域。该分类网络可以为分类卷积网络，也可以为其他形式的模型，本公开实施例对此不作限定。

对于该类激活图，该类激活图的获取过程可以理解为特征提取过程，也即是可以使用分类网络对待处理图像进行特征提取，得到该待处理图像的类激活图。具体地，在对待处理图像进行特征提取时，可以得到该待处理图像的多个特征图，基于目标权重，对该多个特征图进行加权，得到该待处理图像的类激活图。

其中，该目标权重为该分类网络的网络参数，该网络参数在上述步骤S34中能够根据损失值进行更新。该类激活图中的元素也可以称为激活值或者激活大小。每个元素的值不同时，所指示的类别也可能不同。

需要说明的是，该分类网络是对图像进行分类的，其训练过程也是基于样本图像和样本图像的分类标签训练得到的，自然地，在需要对图像进行分类时，一般需要提取到图像中能够保证图像语义的图像特征，以此能够对图像进行准确分类。因而，该分类网络具备提取图像中语义信息的功能，则对待处理图像进行分类得到的类激活图中包含有该待处理图像中的语义信息。后续用该类激活图作为初步分割的先导，也就为图像分割过程引入了很多语义信息，能够使得图像分割得到更符合语义的分割结果，提高分割结果的准确性。

在步骤S43中，基于该类激活图中每个像素的取值与目标阈值之间的大小关系，确定该待处理图像中每个像素的候选类别，该候选类别包括前景像素、背景像素和候选前景像素。

该类激活图中每个像素的取值能够在一定程度上反映出该像素的类别。通过该类激活图，能够大概分析出该待处理图像中每个像素的类别，类激活图比较高的位置，也即是像素的取值比较大时，像素为前景像素的可能性大一些。反之，类激活图比较低的位置，也即是像素的取值比较小时，像素为前景像素的可能性小一些。

具体地，可以对类激活图进行进一步处理，确定出每个像素的候选类别，以该候选类别作为最初始的分割情况，来指导后续的图像分割过程。该候选类别是基于类激活图得到的分类结果，因而在此称之为候选类别，后续其可以作为图像分割的指导或引导。

对于该图像中每个像素的候选类别，该候选类别可以包括三个，分别为：前景像素、背景像素和候选前景像素。其中，该候选前景像素也可以称为潜在前景像素，该候选前景像素和潜在前景像素是指有可能为前景像素的像素。

对于目标阈值，该目标阈值可以由相关技术人员根据需求进行设置，该目标阈值的数量可以为两个，通过该两个目标阈值，能够确定出三个数值范围区间，不同的数值范围区间对应于不同的候选类别。本公开实施例对该目标阈值的取值不作限定。

在该步骤S43中，对于类激活图中一个像素的取值，该取值与目标阈值之间的大小关系不同时，可以将该像素的类别确定为不同的候选类别。该目标阈值包括第一阈值和第二阈值，该第一阈值小于该第二阈值。响应于该像素的取值小于该第一阈值，确定该像素的候选类别为背景像素。响应于该像素的取值大于或等于该第一阈值且小于该第二阈值，确定该像素的候选类别为候选前景像素。响应于大于或等于该第二阈值，确定该像素的候选类别为前景像素。

在一些实施例中，可以对该类激活图进行归一化，基于该归一化后的类激活图中每个像素的取值与目标阈值之间的大小关系，确定该图像中每个像素的候选类别。在本实施例中，对类激活图进行归一化，这样归一化后类激活图中各个元素的取值被归一化到一定范围内，这样各个元素的取值更具有相对性，以此作为候选类别的确定依据，能够提高候选类别的准确性，进而，以更准确的候选类别进行后续步骤，能够整体提高图像分割的准确性。

例如，在一个具体示例中，如果该候选类别包括三个，分别为前景像素、背景像素和候选前景像素，该目标阈值包括两个，分别为0.5、0.8。可以对类激活图进行归一化，类激活图中每个像素的取值转化到[0，1]内。如果一个像素的取值为0.9，则可以将该像素确定为前景像素。如果另一个像素对应元素的取值为0.7，则可以将该像素确定为候选前景像素。如果另一个像素对应元素的取值为0.4，则可以将该像素确定为背景像素。

在上述实施例中，仅以通过对类激活图进行归一化处理后再确定像素的候选类别的方式实现候选类别的确定过程为例进行了说明，在另一些实施例中，得到类激活图后，也可以直接基于类激活图中每个像素的取值与目标阈值之间的大小关系，确定该图像中每个像素的候选类别。本公开实施例对具体采用哪种方式不作限定。

在步骤S44中，基于该待处理图像中每个像素的候选类别，对该待处理图像进行建模，得到该待处理图像对应的高斯混合模型。

在根据类激活图得到每个像素的候选类别后，可以将此作为引导，生成目标高斯混合模型，以目标高斯混合模型作为确定初步原型，该初步原型是指该目标高斯混合模型并非最终的分割结果，需要进一步对其进行处理，得到最终的分割结果。

在一些实施例中，该建模过程也即是创建高斯混合模型的过程，该高斯混合模型可以包括多个高斯分量，每个像素对应一个高斯分量。相应地，该步骤S44可以为：创建包括多个高斯分量的高斯混合模型，根据该图像中每个像素的候选类别，为该每个像素分配对应的高斯分量。

在一些实施例中，该高斯混合模型包括多个高斯分量。可以为每个像素分配高斯分量，通过不同的高斯分量，来对像素进行区分，以此来实现对像素的分类或聚类。

需要说明的是，该步骤S44创建的高斯混合模型为基于类激活图得到的初始高斯混合模型，得到该初始高斯混合模型后，还可以再根据像素与相邻像素之间的像素值相似度，再进一步对像素进行聚类，根据聚类结果对该初始高斯混合模型进行更新，进而使得高斯混合模型所指示的每个像素的类别更加准确。最终通过多次迭代，得到目标高斯混合模型，以此来作为对图像的初步分割结果。

该图像中每个像素的候选类别包括前景像素、背景像素和候选前景像素。相应地，针对每个候选类别，可以对应一种高斯分量，这样在确定了每个像素的高斯分量后，该像素的类别也即确定。在一些实施例中，该多个高斯分量包括第一高斯分量、第二高斯分量和第三高斯分量，该第一高斯分量与前景像素对应，该第二高斯分量与背景像素对应，该第三高斯分量与候选前景像素对应。

相应地，该步骤S44中，在根据该图像中每个像素的候选类别，为该每个像素分配对应的高斯分量时，对于任一像素，该像素的候选类别不同时，可以为其分配不同的高斯分量。具体地，可以响应于任一像素的候选类别为前景像素，为该像素分配第一高斯分量，响应于任一像素的候选类别为背景像素，为该像素分配第二高斯分量，响应于任一像素的候选类别为候选前景像素，为该像素分配第三高斯分量。

这样候选类别与高斯分量之间具有对应关系，通过该像素被分配的高斯分量即可获知该像素的类别，后续基于像素之间的像素值相似度，对高斯混合模型进行更新后，每个像素的分类基于像素值的一些特征进行了更新、修正，能够得到更准确的分类结果。通过这样的初步原型进一步进行校正，能够得到更准确的分割结果。

上述每种候选类别对应的高斯分量可以包括一个，也可以包括多个。在一些实施例中，该第一高斯分量、第二高斯分量和第三高斯分量的数量为K个，该K大于1。也就是每个候选类别对应K个高斯分量。相应地，在该步骤S44中，可以根据该图像中每个像素的候选类别，获取该像素与该候选类别对应的K个高斯分量之间的匹配度，将该匹配度最大的高斯分量分配给该像素。

在为每个像素分配高斯分量时，通过分析每个像素与每个高斯分量的匹配度，能够为每个像素分配到最合适、最能体现该像素的高斯分量。为每个候选类别设置多个高斯分量，进而对每个候选类别中像素的类别进行了更进一步的划分，能够更细颗粒度地对像素的类别进行分析，分析得到的每个像素的类别也就更加准确，以此作为初步原型进行图像分割，能够获取到更加准确的分割结果。

需要说明的是，步骤S43和步骤S44为根据该类激活图，创建该图像对应的高斯混合模型的过程，该高斯混合模型包括多个高斯分量，通过为每个像素确定对应的高斯分量，从而后续通过高斯分量来确定每个像素的类别，这样后续基于高斯分量对图像中像素进行分析，能够更快、更便捷地确定像素的类别，得到更准确的初步原型，以进行后续的图像分割过程。

对于上述为像素分配高斯分量的过程，可以看做是高斯混合模型的初始化过程，在该初始化过程中，我们通过类激活图将像素分类，也可以称该类激活图或者类激活图得到的分类情况称为mask，然后以该mask作为先验，引导目标高斯混合模型的生成过程。

上述分配高斯分量的过程可以看做为聚类过程，通过类激活图为每个像素赋予了初始的分类，然后通过每个像素以及像素之间的像素值相似度，能够进一步对图像的像素进行聚类，该过程可以通过k-mean算法，分别把属于前景、背景和候选前景的像素聚类为K类，也即GMM中的K个高斯模型(也即是K个高斯分量)。这时候GMM中每个高斯模型就具有了一些像素样本集。基于像素样本集中像素的像素值，能够确定出GMM的参数均值和协方差，以及每个高斯分量的权值。

在步骤S45中，根据该待处理图像中每个像素与相邻像素之间的像素值相似度，对该高斯混合模型进行更新，直至符合目标条件，得到目标高斯混合模型。

在该步骤S45中，该高斯混合模型包括多个高斯分量，通过对像素的像素值分布进行分析，为像素分配最合适的高斯分量，进而确定每个像素的类别。通过多次迭代更新，该高斯混合模型所指示的像素的类别更符合图像中像素的像素值分布，也即最终得到的目标高斯混合模型所指示像素的类别更加准确。

在一些实施例中，基于该图像每个像素的像素值，生成该图像对应的图数据，其中，该图像中每个像素为该图数据中每个节点，每个像素与相邻像素之间连接作为该图数据中每条边，将该每个像素与相邻像素之间的像素值相似度作为每个像素与相邻像素之间边的权值；然后，基于该图数据进行分割，得到更新后的高斯混合模型。

对于图数据，图数据是指以图的形式存储的数据，图数据也称图模型、图表示或图结构数据。图数据包括至少一个节点和至少一条边，每个节点具有对应的特征，边用于表示不同节点之间的连接关系。可选地，图数据定义为G＝(V,E)。其中，G表示图数据，V表示图数据中节点的集合，E表示图数据中边的集合。可选地，图数据的边具有权重，边的权重表示了连接关系的属性。

通过图数据进行分割，能够更好的利用到每个像素的信息，以及像素之间对比的信息，还可以利用到该像素与分类边界之间的信息等，这样利用更多、更全面的信息进行分割，能够得到更加准确的高斯混合模型，得到更加准确的像素的类别，以此作为初步分割结果，后续再进行校正，能够获取到更加准确的分割结果。

在一些实施例中，在对每个像素对应的高斯分量进行更新时，能够基于该图数据中每个像素与相邻像素之间的像素值相似度，确定该每个像素对应的高斯分量，然后基于该每个像素对应的高斯分量，确定该高斯混合模型的能量，基于该能量，为该每个像素对应的高斯分量进行更新，直至该能量达到最小值，得到更新后的高斯混合模型。也即是，上述目标条件可以为该能量达到最小值。

该为像素确定高斯分量的过程可以理解为：将像素的RGB值代入各个高斯分量中，将概率最大的高斯分量确定为该像素对应的高斯分量，然后，该高斯混合模型的能量能够从所有像素分类层面上进行分析，可以理解地，像素分类越准确，高斯混合模型的能量也就越小，因而，通过该高斯混合模型的能量，能够使得各个像素的分类实现最优化，得到最准确的分类结果。

在一些实施例中，上述创建高斯混合模型以及对高斯混合模型的更新过程可以采用GrabCut实现，GrabCut是一种图分割算法，该GrabCut对图像进行分割时，可以将像素分为三类：前景、背景和潜在前景。通过上述生成对应包围盒的类激活图，然后按照激活大小将像素分别划分为前景、背景和候选前景像素，再将此先验作为GrabCut的引导，该过程为GrabCut引入语义信息引导，能够大大提高GrabCut分割结果的准确性。

在一个具体示例中，上述步骤S31至步骤S34，以及步骤S41至步骤S45可以包括以下步骤1至步骤4。

步骤1：将包围盒适当往外拓展一定比例，然后使用类标签(即分类标签)训练一个分类网络。该步骤1也即对应上述步骤S31至步骤S34。

步骤2:利用该分类网络生成对应的类激活图，并对该类激活图进行归一化。

步骤3:按照特定阈值将类激活图分作三类，从高到低分别标记为前景、可能是前景和背景。

该步骤2和步骤3也即对应上述步骤S43。

步骤4：利用上述生成的mask作为GrabCut的先验，引导GrabCut的生成。因为该先验有语义信息，所以可以生成更高质量的初步分割。

该步骤4也即对应上述步骤S44和步骤S45。

在步骤S46中，基于该目标高斯混合模型，确定该待处理图像的第一分割结果，该第一分割结果用于指示该待处理图像中每个像素的类别，该类别包括前景像素、背景像素和候选前景像素。

该目标高斯混合模型中每个像素已经分配有经过优化的高斯分量，通过每个像素的高斯分量，能够确定每个像素的类别。在一些实施例中，该多个高斯分量包括第一高斯分量、第二高斯分量和第三高斯分量，该第一高斯分量与前景像素对应，该第二高斯分量与背景像素对应，该第三高斯分量与候选前景像素对应。

上述步骤S43至步骤S46是基于该类激活图所指示像素的类别，对该待处理图像进行分割，得到该待处理图像的第一分割结果的过程。上述过程通过创建高斯混合模型并对高斯混合模型进行更新，该更新过程通过不断调整高斯混合模型中的高斯分量，并根据每次调整再衡量分割结果是否与像素值的分布情况一致，能够使得更新后的高斯混合模型越来越准确，从而得到最优解。这样得到基于最终的目标高斯混合模型确定出的第一分割结果也就更加准确。后续校正时，也就能够得到准确性好的分割结果。且需要校正的次数也就更少，还能够提高图像分割效率。

在步骤S47中，基于分割网络对该第一分割结果进行校正，得到该待处理图像的第二分割结果。

得到第一分割结果后，该第一分割结果也即是对待处理图像进行初步分割得到的初步原型，可以进一步对其进行校正，得到更准确的第二分割结果。

在一些实施例中，该分割网络可以为二类分割网络。可以将该第一分割结果所指示像素的三个类别进行两两组合，得到三个类别组合，然后对于该三个类别组合中的每个类别组合，基于该类别组合对应的分割网络，对该待处理图像进行分割，得到该类别组合对应的第三分割结果，该第三分割结果用于指示该待处理图像每个像素的类别为该类别组合中两个类别中的一个。每个类别组合得到了一个第三分割结果，针对三个类别组合，则得到了三个第三分割结果。可以将三个第三分割结果综合，得到最终的第二分割结果。具体地，可以根据该三个类别组合对应的该第三分割结果，对该第一分割结果进行校正，得到该待处理图像的第二分割结果，该第二分割结果用于指示该待处理图像中每个像素的类别为该三个类别中的一个。

其中，该根据该三个类别组合对应的该第三分割结果，对该第一分割结果进行校正的过程中，在得到了第三分割结果后，与第一分割结果进行对比，如果当前第三分割结果与第一分割结果相差较大，说明当前用于指示第一分割结果的目标高斯混合模型还不够准确，可以继续对目标高斯混合模型进行更新，得到更新后的目标高斯混合模型，该更新过程与上述步骤S45同理，还是对像素分配的高斯分量进行重新分配的过程，在此不多做赘述。通过校正，目标高斯混合模型发生了改变，第一分割结果相应地发生了改变，然后再根据改变后的第一分割结果进行分割，得到新的第三分割结果，再去将新的第三分割结果与新的第一分割结果进行对比，以此类推，直至二者相差不大，说明校正后的目标高斯混合模型比较准确，则可以将其对应的分割结果作为第二分割结果。

二类分割网络相较于三类甚至更多类的分割网络，网络结构更简单，更轻量，通过二类分割网络对初步分割得到的第一分割结果进行拟合，该拟合过程中，每次针对三类中的两类进行拟合，确定出第一分割结果中不够准确的分割结果，对其进行校正，最终汇总所有拟合结果，得到最终的包括三类的第二分割结果。该二类分割网络为小型的分割网络，该过程将复杂的分割过程，简化为一个受约束的显著性检测问题，每次只对单个对象进行拟合，并且只判断它是否属于显著性前提，也即将其分化为二分类问题，这样能够快捷地实现分割步骤，提高分割效率，也能够降低学习难度，减少设备的负荷。

例如，该分割网络可以如图5所示，该分割网络可以采用UNet分割网络，backbone是ResNet18，Decoder的每一层为2个级联的3x3卷积。对于大量输入(multiple inputs)，该输入包括第一样本图像、第一样本图像的包围盒和类标签，该分割网络能够每次选取其中的两个类别，通过编码器(encoder)对图像进行编码，再通过解码器(decoder)进行解码，得到图像的分割结果，也即是分割网络的输出(Supervision)，最终将输出结果组合。

在一个具体示例中，该步骤S46可以通过下述步骤1至步骤3实现。

步骤1：拓展一定比例后的包围盒图像(也即是第二样本图像)和初步分割(第一分割结果)训练一个简单的UNet分割网络。该UNet分割网络为二类分割，一类为前景，另一类为背景。

步骤2：训练完成后，对输入图像(即待处理图像)进行推理，对生成的分割(第一分割结果)进行矫正，矫正过程依旧使用GrabCut，该GrabCut中所采用的阈值的选取可以动态调整。

步骤3:组合生成所有类别和所有位置的分割(也即是第三分割结果)，作为语义分割网络的监督(Supervision)(也即是第二分割结果)。

如图6所示，上述步骤S31至S34，以及步骤S41至步骤S46的流程中，可以认为初始获取图像(这里是第一样本图像)、包围盒和类别(也即是类标签)，基于包围盒得到裁剪后图像(这里是第二样本图像)，然后通过裁剪后图像和类别训练分类网络，基于分类网络对待处理图像能够得到CAM，将CAM作为GrabCut的引导进行初步分割(这里得到了第一分割结果)，然后通过受限的前景分割，得到网络结果，以此再作为GrabCut的引导，进一步得到最终结果(这里是第二分割结果)。本公开通过多阶段引入语义信息，最终基于包围盒生成高质量区域原型，得到了更准确的分割结果。

本公开实施例中，一方面，基于分类网络得到了待处理图像的类激活图，以类激活图作为初步分割的引导，该分类网络是对图像进行分类的，分类过程需要提取到图像的语义信息来判断类别，因而分类网络具备提取图像中语义信息的功能，则该类激活图中包含有该待处理图像中的语义信息。该类激活图为该初步分割过程引入了较多的语义信息，从而得到更加符合语义的、精度更高的初步分割结果，也即是，该初步分割结果更加准确，且该分类网络训练时仅需要样本图像对应的包围盒即可，无需人工进行像素级标注，即可实现对待处理图像的分割，能够大大提高图像分割效率。另一方面，在得到能够初步分割结果后，通过分割网络进行了二次分割，对初步分割结果进行了校正，进一步提高了分割结果的准确性。

上述图4所示实施例中，步骤S47所采用的分割网络可以基于第二样本图像训练得到，该第二样本图像可以为上述图3所示实施例步骤S32中得到的第二样本图像。下面通过图7所示实施例对该分割网络的训练过程进行说明。也即是，在训练阶段，可以在通过上述图3所示实施例和下面的图7所示实施例，训练得到分类网络和分割网络，在有图像分割需求时，能够使用训练好的分类网络和分割网络，采用上述图4所示实施例中的方法来对待处理图像进行处理。

同理地，分类网络的训练过程、分割网络的训练过程和图像分割过程可以分别在不同的电子设备上执行，也可以其中任意两个过程在同一电子设备上执行，另一个过程在另一个电子设备上执行。上述三个过程还可以均在同一电子设备上执行，本公开实施例对此不作限定。

图7是根据一示例性实施例示出的一种分割网络训练方法的流程图，该方法可以由电子设备执行，该电子设备可以为终端，也可以为服务器。如图7所示，方法包括以下步骤。

在步骤S71中，获取第二样本图像。

该步骤S71与上述步骤S31和步骤S32同理，在此不多做赘述。

在步骤S72中，基于该分类网络对该第二样本图像进行分类，得到该第二样本图像的类激活图。

该步骤S72与上述步骤S42同理，在此不多做赘述。

在步骤S73中，基于该第二样本图像的类激活图所指示的类别，对该第二样本图像进行分割，得到该第二样本图像的分割结果。

该步骤S73与上述步骤S43至步骤S45同理，在此不多做赘述。

在步骤S74中，将该第二样本图像的分割结果所指示的三个类别进行两两组合，得到该三个类别组合。

在步骤S75中，对于该三个类别组合中的每个类别组合，根据该类别组合对应的初始分割网络对该第二样本图像进行分割，得到该类别组合对应的预测分割结果。

该步骤S74和步骤S75与上述步骤S46中校正过程同理，在此不多做赘述。

在步骤S76中，根据该每个类别组合对应的预测分割结果和该第二样本图像的分割结果之间的差异，对该初始分割网络进行训练，得到该类别组合对应的分割网络。

该步骤S76对分割网络的训练过程与上述步骤S34中对初始分类网络的训练过程同理，均是基于差异对网络参数进行更新，使得差异最小化，在此不多做赘述。

本公开实施例通过将获取到的第一样本图像中包围盒外扩，得到第二样本图像，以第二样本图像来对分类网络进行训练，由于包围盒是对前景区域的粗略标记，前景区域大概会分布在包围盒内，可能有些包围盒外周围的区域也会有前景像素，而距离包围盒很远的区域为背景区域的可能性很大，通过将包围盒外扩，能够将可能的前景区域裁剪出来，且将大部分背景区域裁减掉，这样得到的第二样本图像进行分割时，能够更多的关注前景区域，能够提高分割精度，提高分割网络的精度和准确性，且需要分析的像素变少，能够提高训练效率。然后使用训练好的分类网络对第二样本图像进行分类，以类激活图引入了语义信息，使得分割网络分割过程能够基于语义信息进行，提高分割网络的分割能力。

图8是根据一示例性实施例示出的一种图像分割装置框图。参照图8，该装置包括：

获取单元801，被配置为执行获取待处理图像；

分类单元802，被配置为执行基于分类网络对该待处理图像进行分类，得到该待处理图像的类激活图，该类激活图用于指示每个像素的类别，该分类网络基于第一样本图像、该第一样本图像对应的包围盒以及该第一样本图像的分类标签训练得到；

分割单元803，被配置为执行基于该类激活图所指示像素的类别，对该待处理图像进行分割，得到该待处理图像的第一分割结果；

校正单元804，被配置为执行基于分割网络对该第一分割结果进行校正，得到该待处理图像的第二分割结果。

在一些实施例中，该分类网络的训练过程包括：

在一些实施例中，该分割单元803被配置为执行：

在一些实施例中，该校正单元804被配置为执行：

获取第二样本图像；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是本申请实施例提供的一种电子设备的结构示意图，该电子设备900可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central ProcessingUnits，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个方法实施例提供的图像分割方法。该电子设备还能够包括其他用于实现设备功能的部件，例如，该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。本申请实施例在此不做赘述。

上述电子设备能够实现为终端。例如，图10是本申请实施例提供的一种终端的结构框图。该终端1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、10核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像分割方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制显示屏1005的显示亮度。具体地，当环境光强度较高时，调高显示屏1005的显示亮度；当环境光强度较低时，调低显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述电子设备能够实现为服务器。例如，图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)1101和一个或一个以上的存储器1102，其中，该存储器1102中存储有至少一条指令，该至少一条指令由该处理器1101加载并执行以实现上述各个方法实施例提供的图像分割方法。当然，该服务器还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令由可由处理器执行以完成上述实施例中的图像分割方法。例如，计算机可读存储介质能够是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括一条或多条计算机程序，该一条或多条计算机程序存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条计算机程序，该一个或多个处理器执行该一条或多条计算机程序，使得电子设备能够执行上述图像分割方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像分割方法，其特征在于，包括：

获取待处理图像；

基于所述目标高斯混合模型，确定所述待处理图像的第一分割结果，所述第一分割结果用于指示所述待处理图像中每个像素的类别，所述类别包括前景像素、背景像素和候选前景像素；

2.根据权利要求1所述的图像分割方法，其特征在于，所述分类网络的训练过程包括：

3.根据权利要求1所述的图像分割方法，其特征在于，所述三个类别组合对应的三个分割网络的训练过程包括：

获取第二样本图像；

根据所述每个类别组合对应的预测分割结果和所述第二样本图像的分割结果之间的差异，对所述初始分割网络进行训练，得到所述分割网络。

4.一种图像分割装置，其特征在于，包括：

获取单元，被配置为执行获取待处理图像；

分割单元，被配置为执行基于所述类激活图中每个像素的取值与目标阈值之间的大小关系，确定所述待处理图像中每个像素的候选类别，所述候选类别包括前景像素、背景像素和候选前景像素；基于所述待处理图像中每个像素的候选类别，对所述待处理图像进行建模，得到所述待处理图像对应的高斯混合模型；根据所述待处理图像中每个像素与相邻像素之间的像素值相似度，对所述高斯混合模型进行更新，直至符合目标条件，得到目标高斯混合模型；基于所述目标高斯混合模型，确定所述待处理图像的第一分割结果，所述第一分割结果用于指示所述待处理图像中每个像素的类别，所述类别包括前景像素、背景像素和候选前景像素；

校正单元，被配置为执行将所述第一分割结果所指示像素的三个类别进行两两组合，得到三个类别组合；对于所述三个类别组合中的每个类别组合，基于所述类别组合对应的分割网络，对所述待处理图像进行分割，得到所述类别组合对应的第三分割结果，所述第三分割结果用于指示所述待处理图像每个像素的类别为所述类别组合中两个类别中的一个；根据所述三个类别组合对应的所述第三分割结果，对所述第一分割结果进行校正，得到所述待处理图像的第二分割结果，所述第二分割结果用于指示所述待处理图像中每个像素的类别为所述三个类别中的一个。

5.根据权利要求4所述的图像分割装置，其特征在于，所述分类网络的训练过程包括：

6.根据权利要求3所述的图像分割装置，其特征在于，所述三个类别组合对应的三个分割网络的训练过程包括：

获取第二样本图像；

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的图像分割方法。

8.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至3中任一项所述的图像分割方法。