CN116342629A - 一种图像交互分割方法、装置、设备及存储介质 - Google Patents
一种图像交互分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116342629A CN116342629A CN202310642351.1A CN202310642351A CN116342629A CN 116342629 A CN116342629 A CN 116342629A CN 202310642351 A CN202310642351 A CN 202310642351A CN 116342629 A CN116342629 A CN 116342629A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- image
- interactive
- result
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 251
- 230000003993 interaction Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002452 interceptive effect Effects 0.000 claims abstract description 146
- 238000013507 mapping Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000005260 corrosion Methods 0.000 claims description 13
- 230000007797 corrosion Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像交互分割方法、装置、设备及存储介质,该方法包括:首先获取包含目标对象的待分割的目标图像;然后响应于用户的第一交互触发操作,对目标图像进行目标区域选择,得到该目标图像中包含目标对象的目标区域图像;接着对目标区域图像进行显著性分割,得到显著性分割结果,并根据该显著性分割结果进行初始化建图,得到初始化建图结果;进而响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。采用本申请,能够在选择出包含目标对象的目标区域图像后,利用显著性分割的方式更准确的完成初始化建图,从而在后续交互分割时,可以有效提高分割效率和准确率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像交互分割方法、装置、设备及存储介质。
背景技术
图像交互分割指的是基于用户交互的方式,将一幅图像中的目标物体分割出来。例如,首先可以由用户以某种交互手段标注图像的部分前景和部分背景,然后算法以用户的输入作为分割的约束条件自动的计算出满足约束条件下的最佳分割,得到分割结果。该技术在图像编辑,图像标注等领域有着广泛的应用。
目前,现有的图像交互分割方法通常包括两种:一种是基于深度学习的交互分割方法,但该方法需要依赖数据的训练和硬件环境,否则会影响模型推理的准确度和效率,同时局部交互信息会直接影响全局的分割结果,进而影响交互分割的鲁棒性;另一种是基于图割的交互分割方法,但该方法的分割效率直接受到初始化分割结果的影响,当出现目标颜色和背景对比度较低的情况时,初始化结果不佳,并会因为处理细小噪声等问题影响交互的效率。因此,这两种图像交互分割方法的分割效果均不够理想,如何提高图像交互分割效率和准确性,以提高分割效果是目前亟待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种图像交互分割方法、装置、设备及存储介质,能够有效提高图像交互分割的效率和准确性,进而提高分割效果。
第一方面,本申请提供了一种图像交互分割方法,包括:
获取待分割的目标图像;该目标图像中包含目标对象的图像;
响应于用户的第一交互触发操作,对目标图像进行目标区域选择,得到该目标图像中包含目标对象的目标区域图像;
对目标区域图像进行显著性分割,得到显著性分割结果,并根据该显著性分割结果进行初始化建图,得到初始化建图结果;
响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。
第二方面,本申请实施例还提供了一种图像交互分割装置,包括:
获取模块,用于获取待分割的目标图像;该目标图像中包含目标对象的图像;
选择模块,用于响应于用户的第一交互触发操作,对目标图像进行目标区域选择,得到该目标图像中包含目标对象的目标区域图像;
第一分割模块,用于对目标区域图像进行显著性分割,得到显著性分割结果,并根据该显著性分割结果进行初始化建图,得到初始化建图结果;
第二分割模块,用于响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。
第三方面,本申请提供了一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行该计算机程序时实现上述的方法中的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现本上述的方法中的步骤。
上述图像交互分割方法、装置、设备及存储介质,具有如下有益效果:
本申请在对目标图像进行交互分割时,首先从目标图像中选择出包含目标对象的目标区域图像,减少了交互范围,提高了后续交互效率,然后是利用显著性分割的方式更准确的进行初始化建图,有效解决了现有技术中基于图割进行交互分割时存在的初始化建图的准确率不高的问题,从而在利用得到的更为准确的初始化建图结果进行后续交互分割处理时,能够有效提高分割效率和准确率,进而获得更准确的图像交互分割结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像交互分割方法的流程示意图;
图2为本申请实施例提供的建图可视化结果的示例图;
图3为本申请实施例提供的初始化建图结果的对比示例图;
图4为本申请实施例提供的图像交互分割的整体过程示意图;
图5为本申请实施例提供的一种图像交互分割装置的组成示意图;
图6为本申请实施例提供的一种计算机设备的内部结构图;
图7为本申请实施例提供的另一种计算机设备的内部结构图;
图8为本申请实施例提供的一种计算机可读存储介质的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请的发明人在进行技术研究时发现,现有的图像交互分割方法通常包括以下两种:
一种是基于深度学习的图像交互分割方法。该方法是将对图像的分割看成是对图像像素的分类问题,将图像输出为前景和背景两类。目前深度学习方法是处理图像分割的主流技术,在交互分割领域也有所发展。其中,主流的深度学习处理交互分割的思路为:将待分割图像和含交互信息的图像同时输入到深度神经网络,通过网络输出含有前景和背景的二分类图像,每次交互都可以更新包含交互信息的图像并输出结果。该方法虽然可以通用性地处理不同场景,但通常需要大量数据训练和硬件支持,否则会直接影响模型推理的效果和速度,同时深度学习在一次交互过程的前后两次输出结果中,局部的交互信息会直接影响全局输出的分割结果,这是由深度学习模型决定的,所以存在一定的不鲁棒性。
另一种常用的图像交互分割方法是基于图割的交互分割方法。该方法目前是交互分割在实际应用的主要方向。主要思路可以总结为:首先在图像中选取目标并进行初始化建图,然后基于交互信息的输入实现交互分割,直至交互得到准确分割结果。相比基于深度学习的图像交互分割方法,基于图割的交互分割方法可以更加鲁棒的对交互区域进行局部更新,以提供更鲁棒的分割结果,但在基于图割的交互分割方法中,初始化的结果会影响交互分割的效率,并且,当出现目标颜色和背景对比度较低的情况时,初始化结果不佳,可能会因为处理细小噪声等问题影响交互的效率。
可见,上述两种目前常用的图像交互分割方法的分割效果均不够理想。因此,如何更高效的减少交互分割次数,并保证交互分割结果的鲁棒性和准确性是目前亟待解决的技术问题。
基于此,为解决上述缺陷,本申请提供了一种图像交互分割方法,通过基于显著性分割进行初始化建图的交互分割方法,保证在不同场景下,能够实现高效的交互分割初始化建图以减少交互次数,便于后续在交互分割处理时,有效提高分割效率和准确率,进而获得更准确的图像交互分割结果。
如图1所示,本申请实施例提供了一种图像交互分割方法,该方法包括以下步骤:
S101:获取待分割的目标图像;其中,目标图像中包含目标对象的图像。
在本实施例中,将需要进行交互分割的任一图像定义为待分割的目标图像,表示为image。并将目标图像中包含的待识别的对象定义为目标对象,需要说明的是,本实施例不限制目标图像的类型,比如,目标图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等,例如可将图2最左侧所示的图像作为目标图像。并且,本申请也不限制目标对象的内容,比如,目标图像可以是人物、车辆或动物等,例如图2所示目标图像中的目标对象可以是人物和其骑着的马。
可以理解的是,目标图像可以根据实际需要,通过拍照等方式获得,例如,人们行走在马路上利用手机拍摄的包含人物的图像、或者从视频流中截取的包含人物或动物的图像等均可作为目标图像。进一步的,在获取到目标图像后,可以利用本实施例提供的方案对该目标图像进行交互分割处理,如识别出包含目标对象所在的前景和非目标对象所在的背景的交互分割结果。
S102:响应于用户的第一交互触发操作,对目标图像进行目标区域选择,得到目标图像中包含目标对象的目标区域图像。
在本实施例中,通过步骤S101获取到包含目标对象的待分割的目标图像image后,为了能够更为有效的提高对于目标图像进行交互分割的效率和准确性,以提高分割效果,进一步的,在接收到用户对于目标图像的某种交互触发操作(此处将其定义为第一交互触发操作)后,响应于用户的该第一交互触发操作,可以对目标图像进行目标区域选择,得到目标图像中包含目标对象的目标区域图像,并将其定义为image_crop,用以执行后续步骤S103。
其中,本申请对用户的第一交互触发操作的具体内容和形式不做限定,比如,用户的第一交互触发操作可以为用户通过手动点击选择目标区域框的操作方式。
具体来讲,在一些实施例中,在接收到用户通过手动点击选择目标区域等第一交互触发操作后,响应于用户的该第一交互触发操作,首先可以确定出交互选择框的坐标;并利用该坐标,对目标图像进行裁剪,得到裁剪后包含目标对象的目标区域图像,并将目标区域图像外的部分作为确定性背景,以便在后续步骤的交互分割中作为确定的背景值进行数据输入。目标区域图像image_crop的确定公式如下:
image_crop=image[y1:y2,x1:x2]
其中,(x1,y1)和(x2,y2)分别表示对应交互选取框的左上角和右下角的坐标;image_crop表示目标区域图像;image表示目标图像。
可见,在本实施例中,利用交互选取框左上角和右下角的坐标,对目标图像image进行裁剪后,可以得到目标区域图像image_crop,实现对目标图像中需要交互分割的区域进行选择,用于确定目标区域同时也划分出部分确定背景,从而能够减少交互分割范围,提高后续交互分割的效率和准确率。
S103:对目标区域图像进行显著性分割,得到显著性分割结果,并根据显著性分割结果进行初始化建图,得到初始化建图结果。
在本实施例中,通过步骤S102得到目标图像image中包含目标对象的目标区域图像image_crop后,为了能够更为有效的提高对于目标图像进行交互分割的效率和准确性,以提高分割效果,进一步的,可以利用图像显著性分割方法,对目标区域图像进行显著性分割,得到显著性分割结果,并根据该显著性分割结果进行初始化建图,得到初始化建图结果,并将其定义为inter_mask,用以执行后续步骤S104。
具体来讲,在一些实施例中,对于包含目标对象的目标区域图像image_crop来说,首先可以利用预设深度网络架构模型对目标区域图像进行显著性分割,得到带有前景信息和背景信息的二值化分割结果。其中,预设深度网络架构模型的具体组成结构本申请不做限定,可根据实际情况和经验值进行预先设定,比如可以将预设深度网络架构模型设定为深度模型U2Net,即,可以基于深度模型U2Net作为显著性分割模型,对目标区域图像image_crop进行显著性分割,得到带有前景信息和背景信息的二值化分割结果。
然后再将得到的二值化分割结果覆盖到目标图像image中的相应位置,进行图像掩膜处理,得到显著性分割结果。并可以将目标图像image中目标区域图像image_crop外的区域均默认为背景,各步骤具体计算公式如下:
mask_crop=DNN(image_crop)
mask_fgbg= Zero(image)
mask_fgbg [y1:y2,x1:x2]= mask_crop
其中,DNN表示显著性分割模型;mask_crop 表示目标区域图像对应的带有前景信息和背景信息的二值化分割结果;mask_fgbg作为目标图像image对应的全局的包含前景和背景的二值化分割结果,可通过Zero为全0进行初始化;mask_fgbg [y1:y2,x1:x2]表示将mask_crop覆盖到目标图像image中左上角和右下角的坐标分别为(x1,y1)和(x2,y2)的对应图像区域,即目标区域图像,以得到掩膜处理后的显著性分割结果mask_fgbg,用以进行后续的初始化建图。
可见,在本实施例中,基于显著性分割的初始化结果可以提供更为准确的先验信息。
在此基础上,可以基于得到的带有语义信息(即包含前景和背景)的显著性分割结果mask_fgbg进行初始化建图,作为后续进行交互分割的参考。在一些实施例中,首先可以对显著性分割结果mask_fgbg进行腐蚀(erode)和膨胀(dilate)处理,得到腐蚀结果和膨胀结果,并将二者分别定义为mask_erode和mask_dilate。然后,可以根据显著性分割结果mask_fgbg、腐蚀结果mask_erode和膨胀结果mask_dilate之间的位置关系,判定出目标图像image中的确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域。接着,可以对确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域进行标签赋值,并根据标签赋值结果进行初始化建图,得到初始化建图结果,用以执行后续步骤S104。其中,标签的具体取值内容和形式本申请不做限定,仅需表示出确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域的区别即可。
具体来讲,在本实施例中,在基于显著性分割结果mask_fgbg进行初始化建图时,核心就是寻找每个像素点的标签,以此作为初始化和后续交互分割的参考。对此,本实施例在对显著性分割结果进行腐蚀和膨胀处理后,是将腐蚀结果和膨胀结果作为确定性前景和确定性背景之间的缓冲地带,将显著性分割结果中腐蚀后剩下的前景区域作为确定性前景、将显著性分割结果中被腐蚀的区域作为不确定性前景、将显著性分割结果外被膨胀的区域作为不确定性背景、将显著性分割结果外被膨胀的区域之外的区域作为确定性背景。
并将确定性前景中的像素标签赋值为1、将确定性背景中的像素标签赋值为0、将不确定性前景中的像素标签赋值为3、以及将不确定性背景中的像素标签赋值为2。各步骤具体计算公式如下:
mask_erode= Erode(mask_fgbg,kernel)
mask_dilate= Dilate(mask_fgbg,kernel)
mask= Zero(image)
mask[mask_dilate==255]= 2
mask[mask_fgbg==255]= 3
mask[mask_erode==255]= 1
对mask二值化:inter_mask=Select(mask,val=1,3)
其中,Erode和Dilate分别表示对显著性分割结果进行的腐蚀和膨胀处理;kernel表示为腐蚀和膨胀的参数(核)的取值,可根据实际情况和经验值设定,优选的实现方式是,可以将其设置为(21×21);mask_erode和mask_dilate分别表示腐蚀结果和膨胀结果;inter_mask表示初始化建图结果。
举例说明:如图3右侧图所示,对最终图像的像素标签来说,通过分别对膨胀结果区域、显著性分割结果区域、腐蚀结果区域进行赋值,可以得到每个像素的标签值,图3右侧图中的确定性背景、不确定背景、不确定前景和确定性前景对应的像素标签可以分别赋值为0、2、3、1。在此基础上可以实现初始化分割的建图,例如可以通过上述公式中提及的Select函数对像素标签为前景的1和3进行二值化(即将1、3置为前景(像素值为255),将0、2置为背景(像素值为0)),以初始化得到初始化建图结果inter_mask,如图3左侧图所示。需要说明的是,在进行初始化时,inter_mask和mask_fgbg的结果是一样的。
基于显著性分割结果确定的像素标签,作为初始化建图的依据,和现有的GrabCut算法中使用高斯混合模型(GMM)基于图像颜色像素值统计先验信息进行初始化建图得到的初始化建图结果对比如图2所示,其中,图2中的左侧图为目标图像,中间图为利于GrabCut算法进行初始化建图得到的初始化建图结果,右侧图则是显著性分割结果得到的初始化建图结果。
可见,本实施例中构建的初始化建图结果相比于利用现有技术得到的初始化建图结果来说,准确度更高、交互次数更少,也有利于提高后续交互分割的效率和准确率。
S104:响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。
在本实施例中,通过步骤S103得到初始化建图结果后,为了能够更为有效的提高对于目标图像进行交互分割的效率和准确性,以提高分割效果,进一步的,在接收到用户对于目标区域图像的某种交互触发操作(此处将其定义为第二交互触发操作)后,响应于用户的该第二交互触发操作,可以利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。
其中,本实施例对用户的第二交互触发操作的具体内容和形式不做限定,比如,用户的第二交互触发操作可以为用户通过画笔选择新的交互区域,或者是补充、修改对应的画笔区域等的操作方式。需要说明的是,用户的第一交互触发操作和第二交互触发操作的形式可以相同也可以不同,本申请对此不进行限定。
并且,本实施例对交互分割算法的具体内容也不做限定,可根据实际情况和经验值进行预先选择,比如可以将交互分割算法预先设定为Grabcut交互算法,其是一个基于图割理论的图像分割方法。即,可以利用Grabcut交互算法对目标图像进行交互分割处理,得到交互分割结果。
需要说明的是,在将确定出的各个像素标签作为初始化建图的依据,进行更准确的初始化分割,得到初始化建图结果后,利用Grabcut交互算法等交互分割算法进行交互分割处理得到的交互分割结果时,可能会产生一定的噪音,即在交互分割结果中出现的噪点。
对此,为了减少这些细小噪点导致的交互次数和难度,在一些实施例中,可以对交互分割结果中的噪点进行过滤,得到去噪后的更为准确的交互分割结果。具体的,在本实施例中,可以先利用面积阈值(具体取值不做限定,可根据实际情况和经验值设定,比如可以将其设定为0.02等),检测出交互分割结果的前景中包含的噪点位置(主要表现为细小孔洞),然后再对噪点位置进行填充处理,得到去噪后的交互分割结果。各步骤具体计算公式如下:
maskt=Grabcut(maskt-1, inter_area,image)
inter_maskt=Select(maskt,val=1,3)
inter_mask’t=Fill_Hole(inter_maskt,thr)
其中,inter_area表示用户通过第二交互触发操作选择的新的交互区域;maskt-1表示第t-1时刻对应的像素标签;maskt表示第t时刻通过Grabcut交互算法获取到的交互后更新的标签结果;inter_maskt表示通过Select函数对前景和背景进行二值化处理后得到的结果;Fill_Hole表示过滤噪点(即细小孔洞)的功能;inter_mask’t表示一次交互的最终交互分割结果;thr表示面积阈值,即当细小孔洞面积在交互分割结果的前景中的占比小于面积阈值thr时,可对其进行填充,具体填充方式不做限定,如可以填充为不确定性前景等。
可见,在本实施例中,通过对噪点的过滤,可以有助于提高分割结果的准确度和减少交互次数,进一步提高对于目标图像的交互分割效果。
在一些实施例中,在通过上述方式完成每一次交互,得到分割结果后,均可以判断得到的交互分割结果是否满足预设需求条件,若是,则可以将交互分割结果作为最终的交互分割结果;若否,则需要充分执行上述步骤S104,即重复执行响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果的步骤,直到满足预设需求条件,并将满足预设需求条件时的交互分割结果作为最终的交互分割结果,用以后续的结果图像导出。
其中,本实施例对预设需求条件的具体内容也不做限定,可根据实际情况和经验值进行预先选择,比如可以将预设需求条件设定为分割结果中分割边缘能够覆盖目标对象主体、或通过特定用户的人为判定等。从而能够进一步提高对于目标图像进行交互分割的效果,并提高用户体验。
这样,通过执行上述步骤S101-S104,可以实现如图4所示的图像交互分割的整体过程,具体处理过程主要可以包括:首先,在用户对目标图像中需要交互分割的目标对象所在区域进行选择后,确定出目标区域图像同时确定背景,以减少交互范围。其次,进行初始化建图,即对目标区域图像进行显著性分割,并将得到的分割结果用于交互分割初始化的建图,相比图割算法中基于像素点颜色作为依据的建图方式,显著性分割包含语义信息(即包含前景和背景),能够提供更准确的初始化建图参考,得到更准确的初始化建图结果。接着,进行图像的交互分割,即,在得到初始化建图结果后,用户可以通过手动画笔的方式对目标图像区域进行涂抹标注,形成确定性前景和背景的区域,以通过图割算法Grabcut更新前景和背景区域。进一步的,对于交互分割结果中存在的噪音,如分割结果中出现的细小孔洞,可以通过对其进行过滤,以提高分割结果的准确度和减少交互次数,以此类推,通过不断交互分割和去噪处理,直到分割结果满足预设需求条件后,即可得到最终的图像交互分割结果,并导出对应的结果图像。
综上,本实施例提供的图像交互分割方法,在对目标图像进行交互分割时,首先从目标图像中选择出包含目标对象的目标区域图像,减少了交互范围,提高了后续交互效率,然后是利用显著性分割的方式更准确的进行初始化建图,有效解决了现有技术中基于图割进行交互分割时存在的初始化建图的准确率不高的问题,从而在利用得到的更为准确的初始化建图结果进行后续交互分割处理时,能够有效提高分割效率和准确率,进而获得更准确的图像交互分割结果。
基于同样的发明构思,本申请实施例还提供了一种图像交互分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像交互分割装置实施例中的具体限定可以参见上文中对于图像交互分割方法的限定,在此不再赘述。
如图5所示,本申请实施例提供了一种图像交互分割装置500,包括:
获取模块501,用于获取待分割的目标图像;该目标图像中包含目标对象的图像;
选择模块502,用于响应于用户的第一交互触发操作,对目标图像进行目标区域选择,得到目标图像中包含目标对象的目标区域图像;
第一分割模块503,用于对目标区域图像进行显著性分割,得到显著性分割结果,并根据该显著性分割结果进行初始化建图,得到初始化建图结果;
第二分割模块504,用于响应于用户的第二交互触发操作,根据初始化建图结果,利用交互分割算法对目标图像进行交互分割处理,得到交互分割结果。
在一些实施例中,选择模块502具体用于:
响应于用户的第一交互触发操作,确定交互选择框的坐标;并利用该坐标,对目标图像进行裁剪,得到裁剪后包含目标对象的目标区域图像。
在一些实施例中,第一分割模块503具体用于:
利用预设深度网络架构模型对目标区域图像进行显著性分割,得到带有前景信息和背景信息的二值化分割结果;
将该二值化分割结果覆盖到目标图像中的相应位置,进行图像掩膜处理,得到显著性分割结果。
在一些实施例中,预设深度网络架构模型为深度模型U2Net。
在一些实施例中,第一分割模块503还具体用于:
对显著性分割结果进行腐蚀和膨胀处理,得到腐蚀结果和膨胀结果;
根据显著性分割结果、腐蚀结果和膨胀结果之间的位置关系,判定出确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域;
对确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域进行标签赋值,并根据标签赋值结果进行初始化建图,得到初始化建图结果。
在一些实施例中,该交互分割算法为Grabcut交互算法。
在一些实施例中,该装置还包括:
去噪模块,用于对交互分割结果中的噪点进行过滤,得到去噪后的交互分割结果。
在一些实施例中,去噪模块具体用于:
利用面积阈值,检测交互分割结果的前景中包含的噪点位置;
对噪点位置进行填充处理,得到去噪后的交互分割结果。
在一些实施例中,该面积阈值为0.02。
在一些实施例中,该装置还包括:
判断模块,用于判断交互分割结果是否满足预设需求条件;若是,则将该交互分割结果作为最终的交互分割结果;若否,则重复调用并执行第二分割模块504,直到满足预设需求条件,并将满足预设需求条件时的交互分割结果作为最终的交互分割结果。
上述图像交互分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器,也可以以软件形式存储于计算机设备中的存储器,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)及通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储设计图。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的图像交互分割方法中的步骤。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元及输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述的图像交互分割方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏;该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6或图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,如图8所示提供了一种计算机可读存储介质的内部结构图,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户相关信息(包括但不限于用户设备信息、用户操作信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(FerroelectricRandom Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种图像交互分割方法,其特征在于,包括:
获取待分割的目标图像;所述目标图像中包含目标对象的图像;
响应于用户的第一交互触发操作,对所述目标图像进行目标区域选择,得到所述目标图像中包含目标对象的目标区域图像;
对所述目标区域图像进行显著性分割,得到显著性分割结果,并根据所述显著性分割结果进行初始化建图,得到初始化建图结果;
响应于用户的第二交互触发操作,根据所述初始化建图结果,利用交互分割算法对所述目标图像进行交互分割处理,得到交互分割结果。
2.根据权利要求1所述的方法,其特征在于,所述响应于用户的第一交互触发操作,对所述目标图像进行目标区域选择,得到所述目标图像中包含目标对象的目标区域图像,包括:
响应于用户的第一交互触发操作,确定交互选择框的坐标;并利用所述坐标,对所述目标图像进行裁剪,得到裁剪后包含目标对象的目标区域图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标区域图像进行显著性分割,得到显著性分割结果,包括:
利用预设深度网络架构模型对所述目标区域图像进行显著性分割,得到带有前景信息和背景信息的二值化分割结果;
将所述二值化分割结果覆盖到所述目标图像中的相应位置,进行图像掩膜处理,得到显著性分割结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述显著性分割结果进行初始化建图,得到初始化建图结果,包括:
对所述显著性分割结果进行腐蚀和膨胀处理,得到腐蚀结果和膨胀结果;
根据所述显著性分割结果、腐蚀结果和膨胀结果之间的位置关系,判定出确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域;
对所述确定性前景、不确定性前景、不确定性背景和确定性背景的图像区域进行标签赋值,并根据标签赋值结果进行初始化建图,得到初始化建图结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述响应于用户的第二交互触发操作,根据所述初始化建图结果,利用交互分割算法对所述目标图像进行交互分割处理,得到交互分割结果之后,所述方法还包括:
对所述交互分割结果中的噪点进行过滤,得到去噪后的交互分割结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述交互分割结果中的噪点进行过滤,得到去噪后的交互分割结果,包括:
利用面积阈值,检测所述交互分割结果的前景中包含的噪点位置;
对所述噪点位置进行填充处理,得到去噪后的交互分割结果。
7.根据权利要求1所述的方法,其特征在于,所述响应于用户的第二交互触发操作,根据所述初始化建图结果,利用交互分割算法对所述目标图像进行交互分割处理,得到交互分割结果之后,所述方法还包括:
判断所述交互分割结果是否满足预设需求条件;
若是,则将所述交互分割结果作为最终的交互分割结果;
若否,则重复执行所述响应于用户的第二交互触发操作,根据所述初始化建图结果,利用交互分割算法对所述目标图像进行交互分割处理,得到交互分割结果的步骤,直到满足所述预设需求条件,并将满足所述预设需求条件时的交互分割结果作为最终的交互分割结果。
8.一种图像交互分割装置,其特征在于,包括:
获取模块,用于获取待分割的目标图像;所述目标图像中包含目标对象的图像;
选择模块,用于响应于用户的第一交互触发操作,对所述目标图像进行目标区域选择,得到所述目标图像中包含目标对象的目标区域图像;
第一分割模块,用于对所述目标区域图像进行显著性分割,得到显著性分割结果,并根据所述显著性分割结果进行初始化建图,得到初始化建图结果;
第二分割模块,用于响应于用户的第二交互触发操作,根据所述初始化建图结果,利用交互分割算法对所述目标图像进行交互分割处理,得到交互分割结果。
9.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310642351.1A CN116342629A (zh) | 2023-06-01 | 2023-06-01 | 一种图像交互分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310642351.1A CN116342629A (zh) | 2023-06-01 | 2023-06-01 | 一种图像交互分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342629A true CN116342629A (zh) | 2023-06-27 |
Family
ID=86891613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310642351.1A Pending CN116342629A (zh) | 2023-06-01 | 2023-06-01 | 一种图像交互分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342629A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664616A (zh) * | 2023-07-28 | 2023-08-29 | 苏州思谋智能科技有限公司 | 交互式图像分割标注方法、装置、计算机设备及存储介质 |
CN117853507A (zh) * | 2024-03-06 | 2024-04-09 | 阿里巴巴(中国)有限公司 | 交互式图像分割方法、设备、存储介质和程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592268A (zh) * | 2012-01-06 | 2012-07-18 | 清华大学深圳研究生院 | 一种分割前景图像的方法 |
CN102637253A (zh) * | 2011-12-30 | 2012-08-15 | 清华大学 | 基于视觉显著性和超像素分割的视频前景目标提取方法 |
CN104091326A (zh) * | 2014-06-16 | 2014-10-08 | 小米科技有限责任公司 | 图标分割方法和装置 |
CN106649487A (zh) * | 2016-10-09 | 2017-05-10 | 苏州大学 | 基于兴趣目标的图像检索方法 |
WO2017101626A1 (zh) * | 2015-12-15 | 2017-06-22 | 努比亚技术有限公司 | 一种实现图像处理的方法及装置 |
CN107644429A (zh) * | 2017-09-30 | 2018-01-30 | 华中科技大学 | 一种基于强目标约束视频显著性的视频分割方法 |
CN112634314A (zh) * | 2021-01-19 | 2021-04-09 | 深圳市英威诺科技有限公司 | 目标图像获取方法、装置、电子设备及存储介质 |
CN115690112A (zh) * | 2022-09-29 | 2023-02-03 | 广州文远知行科技有限公司 | 图像分割方法、装置、设备及存储介质 |
-
2023
- 2023-06-01 CN CN202310642351.1A patent/CN116342629A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637253A (zh) * | 2011-12-30 | 2012-08-15 | 清华大学 | 基于视觉显著性和超像素分割的视频前景目标提取方法 |
CN102592268A (zh) * | 2012-01-06 | 2012-07-18 | 清华大学深圳研究生院 | 一种分割前景图像的方法 |
CN104091326A (zh) * | 2014-06-16 | 2014-10-08 | 小米科技有限责任公司 | 图标分割方法和装置 |
WO2017101626A1 (zh) * | 2015-12-15 | 2017-06-22 | 努比亚技术有限公司 | 一种实现图像处理的方法及装置 |
CN106649487A (zh) * | 2016-10-09 | 2017-05-10 | 苏州大学 | 基于兴趣目标的图像检索方法 |
CN107644429A (zh) * | 2017-09-30 | 2018-01-30 | 华中科技大学 | 一种基于强目标约束视频显著性的视频分割方法 |
CN112634314A (zh) * | 2021-01-19 | 2021-04-09 | 深圳市英威诺科技有限公司 | 目标图像获取方法、装置、电子设备及存储介质 |
CN115690112A (zh) * | 2022-09-29 | 2023-02-03 | 广州文远知行科技有限公司 | 图像分割方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664616A (zh) * | 2023-07-28 | 2023-08-29 | 苏州思谋智能科技有限公司 | 交互式图像分割标注方法、装置、计算机设备及存储介质 |
CN116664616B (zh) * | 2023-07-28 | 2023-11-03 | 苏州思谋智能科技有限公司 | 交互式图像分割标注方法、装置、计算机设备及存储介质 |
CN117853507A (zh) * | 2024-03-06 | 2024-04-09 | 阿里巴巴(中国)有限公司 | 交互式图像分割方法、设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116342629A (zh) | 一种图像交互分割方法、装置、设备及存储介质 | |
CN110188760B (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
Komodakis et al. | Image completion using efficient belief propagation via priority scheduling and dynamic pruning | |
Giraud et al. | Robust superpixels using color and contour features along linear path | |
US8542923B2 (en) | Live coherent image selection | |
CN109117760B (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN112016614B (zh) | 光学图像目标检测模型的构建方法、目标检测方法及装置 | |
WO2021068618A1 (zh) | 图像融合方法、装置、计算处理设备和存储介质 | |
WO2006102014A1 (en) | Fast graph cuts: a weak shape assumption provides a fast, exact method for graph cuts segmentation | |
KR102216749B1 (ko) | 타겟 이미지의 채색 완성 방법, 장치 및 컴퓨터 프로그램 | |
CN109858487A (zh) | 基于分水岭算法和图像类别标签的弱监督语义分割方法 | |
CN112135041B (zh) | 一种人脸特效的处理方法及装置、存储介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113129229A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110428504B (zh) | 文本图像合成方法、装置、计算机设备和存储介质 | |
CN116310832A (zh) | 遥感图像处理方法、装置、设备、介质及产品 | |
CN112712571B (zh) | 基于视频的物体平面贴图方法、装置以及设备 | |
US20220138950A1 (en) | Generating change comparisons during editing of digital images | |
CN114724175A (zh) | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 | |
US11227166B2 (en) | Method and device for evaluating images, operating assistance method, and operating device | |
CN116664616B (zh) | 交互式图像分割标注方法、装置、计算机设备及存储介质 | |
CN113129227A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
GB2567723A (en) | Digital image completion using deep learning | |
CN111552755B (zh) | 三维地名标注的绘制方法、装置、设备及存储介质 | |
CN117744187B (zh) | Cad绘图方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230627 |
|
RJ01 | Rejection of invention patent application after publication |