CN117474932B - 对象分割方法和装置、电子设备及存储介质 - Google Patents
对象分割方法和装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117474932B CN117474932B CN202311813370.2A CN202311813370A CN117474932B CN 117474932 B CN117474932 B CN 117474932B CN 202311813370 A CN202311813370 A CN 202311813370A CN 117474932 B CN117474932 B CN 117474932B
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- feature map
- sample
- segmentation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims description 56
- 238000001514 detection method Methods 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 9
- 101001014572 Homo sapiens MARCKS-related protein Proteins 0.000 description 6
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 description 5
- 102100028187 ATP-binding cassette sub-family C member 6 Human genes 0.000 description 5
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 description 5
- 101000986621 Homo sapiens ATP-binding cassette sub-family C member 6 Proteins 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102100032514 MARCKS-related protein Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种对象分割方法和装置、电子设备及存储介质。方法包括:获取待处理图像,待处理图像包含目标对象;将待处理图像输入到经训练的第一分割模型中,以获得目标对象的掩膜图像;其中,第一分割模型至少通过将目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,样本掩膜图像是通过将包含目标对象的样本图像输入至待训练的第一分割模型而获得,训练第一分割模型时,使对于相同样本图像,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。该方案有助于提高图像分割的准确度。
Description
技术领域
本申请涉及技术领域,更具体地涉及一种对象分割方法、一种对象分割装置、一种电子设备以及一种存储介质。
背景技术
图像分割是计算机视觉中很重要的一个方向。不同于目标检测和目标识别,图像分割实现的是图像像素级别的分类。它能够将一张图片或者视频,按照类别的异同,将图像分为多个块。某些对象分割模型采用成对相似性损失函数进行训练,而成对相似性损失函数的限制比较简单,像素值在一定范围内就判断是同一类(实例),这会对分割精度带来一定的影响。
发明内容
考虑到上述问题而提出了本申请。本申请提供了一种对象分割方法、一种对象分割装置、一种电子设备以及一种存储介质。
根据本申请一方面,提供了一种对象分割方法,包括:获取待处理图像,待处理图像包含目标对象;将待处理图像输入到经训练的第一分割模型中,以获得目标对象的掩膜图像;其中,第一分割模型至少通过将目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,样本掩膜图像是通过将包含目标对象的样本图像输入至待训练的第一分割模型而获得,训练第一分割模型时,使对于相同样本图像,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。
在上述技术方案中,采用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行学习,可以有效提高第一分割模型的分割精度。该方案有助于提高图像分割的准确度。
示例性地,获取待处理图像,包括:获取包含目标对象的初始图像;对初始图像进行目标检测,以确定目标对象的目标检测结果;基于目标检测结果从初始图像中提取包含目标对象的图像块,以获得待处理图像。
上述技术方案通过对初始图像进行目标检测,并将基于目标检测结果从初始图像中提取包含目标对象的图像块作为待处理图像,由此,有助于减少待处理图像中的无关信息,从而有助于提高后续步骤中对待处理图像的处理效率。该方案有助于提高图像分割效率。
示例性地,对初始图像进行目标检测,以确定目标对象的目标检测结果,包括:将初始图像输入目标检测模型,以获得目标检测结果。
该示例的方案通过利用目标检测模型,可以快速且准确地获得初始图像的目标检测结果。该方案有助于进一步提高图像分割效率。
示例性地,经训练的第一分割模型通过以下训练操作训练得到:获取样本图像;将样本图像输入预训练的第二分割模型中,以获得第二分割模型输出的目标对象的第一掩膜特征图和第一边缘特征图;将样本图像输入第一分割模型中,以获得目标对象的样本掩膜图像;基于成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图;将第一掩膜特征图和第二掩膜特征图代入第一损失函数计算第一损失值;将第一边缘特征图和第二边缘特征图代入第一损失函数计算第二损失值;基于第一损失值和第二损失值对掩膜标签进行学习;将学习后的掩膜标签以及样本掩膜图像代入成对相似性损失函数进行计算,获得第三损失值;基于第三损失值对待训练的第一分割模型进行训练,获得经训练的第一分割模型。
上述技术方案通过利用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行监督校正,有助于提高第一分割模型地分割精度。
示例性地,基于成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图,包括:将掩膜标签分别输入两个多层感知机中,以获得两个多层感知机分别输出的第二掩膜特征图和第二边缘特征图。
上述技术方案通过将掩膜标签转换为第二掩膜特征图和第二边缘特征图,可以便于计算掩膜标签与第一掩膜特征图和第一边缘特征图之间的差异,从而有助于对掩膜标签进行学习,提高第一分割模型的掩膜标签的准确性。
示例性地,样本图像为样本图像集中的图像,训练操作还包括:基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像;将增强后的图像存储至样本图像集中,以对样本图像集进行更新;其中,获取样本图像包括:从更新后的样本图像集中获取样本图像。
该方案通过利用增强后的样本图像对图像处理模型进行训练,有助于避免将像素值比较接近的不同类别的像素误判为相同类别,从而有助于进一步提高掩膜标签以及训练后的图像处理模型的精度。
示例性地,基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像,包括:从至少两个样本图像中各取相同图像位置处的图像块;将至少两个样本图像中任一样本图像中的图像块填充至另一样本图像中,获得增强后的图像;或者,基于预设混合权重对至少两个样本图像中位于同一图像位置处的像素的像素值进行混合,获得增强后的图像。
上述技术方案可以快速获得数据增强后的图像,有利于提高模型训练效率。
示例性地,第二分割模型为显著性检测网络。
该方案通过采用显著性检测网络作为第二分割模型,有利于输出准确地掩膜特征图和边缘特征图,从而可以提高第一分割模型的训练效果。该方案有助于提高图像分割的准确性。
根据本申请另一方面,提供了一种对象分割装置,包括:获取模块,用于获取待处理图像,待处理图像包含目标对象;输入模块,用于将待处理图像输入到经训练的第一分割模型中,以获得目标对象的掩膜图像;其中,第一分割模型至少通过将目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,样本掩膜图像是通过将包含目标对象的样本图像输入至待训练的第一分割模型而获得,训练第一分割模型时,使对于相同样本图像,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。
在上述技术方案中,采用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行学习,可以有效提高第一分割模型的分割精度。该方案有助于提高图像分割的准确度。
根据本申请又一方面,提供了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的对象分割方法。
在上述技术方案中,采用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行学习,可以有效提高第一分割模型的分割精度。该方案有助于提高图像分割的准确度。
根据本申请再一方面,提供了一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行上述的对象分割方法。
在上述技术方案中,采用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行学习,可以有效提高第一分割模型的分割精度。该方案有助于提高图像分割的准确度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出根据本申请一个实施例的对象分割方法的示意性流程图;
图2示出根据本申请一个实施例的训练操作的示意图;
图3示出根据本申请一个实施例的对象分割装置的示意性框图;以及
图4示出根据本申请一个实施例的电子设备的示意性框图。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。
为了至少部分地解决上述问题,本申请实施例提供一种对象分割方法。图1示出根据本申请一个实施例的对象分割方法的示意性流程图。如图1所示,对象分割方法100可以包括步骤S110和步骤S120。
在步骤S110,获取待处理图像,待处理图像包含目标对象。
示例性地,待处理图像可以是任何合适的包含目标对象的图像。待处理图像可以是图像采集装置采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。
可选地,待处理图像可以是图像采集装置采集到的原始图像。根据本申请实施例,可以采用任何现有的或者未来研发的图像采集装置获取待处理图像。该图像采集装置可以例如为相机、具有拍照功能的移动终端等。
可选地,待处理图像可以是对原始图像进行预处理之后获得的图像。该预处理操作可以是任何可以满足后续图像分割步骤需要的预处理操作,可以包括为了改善图像的视觉效果,提高图像的清晰度,或是突出图像中的某些特征等便于对待处理图像进行图像分割的所有操作。可选地,预处理操作可以包括滤波等去噪操作,也可以包括图像参数的调整如图像增强灰度、对比度、亮度的调整。替代地,预处理操作可以包括对待处理图像的像素归一化处理。例如,可以将待处理图像的每个像素均除以255,以使预处理后的待处理图像的像素处于0-1范围内。这有助于提高后续图像检测的效率。
可选地,预处理操作还可以包括裁剪图像、删除图像等操作。例如,可以将原始图像裁剪为模型需求的大小,还可以删除不满足图像质量要求的原始图像,以获得满足图像质量要求的待处理图像等。
可选地,预处理操作还可以包括利用目标检测的方式在原始图像中提取待处理图像。示例性地,步骤S110,获取待处理图像,可以包括以下步骤:获取包含目标对象的初始图像;对初始图像进行目标检测,以确定目标对象的目标检测结果;基于目标检测结果从初始图像中提取包含目标对象的图像块,以获得待处理图像。
可选地,可以利用现有的或将来研发的任意一种目标检测方法对初始图像进行目标检测。例如,可以利用基于灰度的图像分割法来确定初始图像中的目标对象的位置,具体例如大津阈值法,边缘检测法等。又例如,可以利用预训练的目标检测模型,确定初始图像中的目标对象的位置。
上述技术方案通过对初始图像进行目标检测,并将基于目标检测结果从初始图像中提取包含目标对象的图像块作为待处理图像,由此,有助于减少待处理图像中的无关信息,从而有助于提高后续步骤中对待处理图像的处理效率。该方案有助于提高图像分割效率。
示例性地,对初始图像进行目标检测,以确定目标对象的目标检测结果,包括:将初始图像输入目标检测模型,以获得目标检测结果。可选地,该目标检测模型可以是现有的或将来研发的任意一种用于进行目标检测的神经网络模型。例如,该目标检测模型可以是基于卷积神经网络(CNN)训练得到的神经网络模型。又例如,该目标检测模型可以是基于Transformer架构的神经网络模型。该示例的方案通过利用目标检测模型,可以快速且准确地获得初始图像的目标检测结果。该方案有助于进一步提高图像分割效率。
示例性地,待处理图像的数目可以是1张也可以是多张。可选地,待处理图像的数目为1张,例如每次仅获取一张待处理图像。替代地,待处理图像的数目可以为多张,例如10张、500张,可以一次性获取多张待处理图像,然后将其一次性输入后续的第一分割模型中进行图像分割。
示例性地,待处理图像可以是黑白图像,也可以是彩色图像。示例性地,待处理图像可以是任意尺寸或分辨率大小的图像。替代地,待处理图像也可以是满足预设分辨率要求的图像。在一个示例中,待处理图像可以是具有512*512像素大小的黑白图像。对于待处理图像的要求可以基于实际的图像分割需求、图像采集装置的硬件条件以及模型(例如下文的第一分割模型)对输入图像的要求等进行设置,本申请不对其进行限制。
在步骤S120,将待处理图像输入到经训练的第一分割模型中,以获得目标对象的掩膜图像;其中,第一分割模型至少通过将目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,样本掩膜图像是通过将包含目标对象的样本图像输入至待训练的第一分割模型而获得,训练第一分割模型时,使对于相同样本图像,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。
可选地,第一分割模型可以是现有的或将来研发的任意一种图像分割模型。例如,可以是实例分割模型。具体例如,该实例分割模型可以是BoxInst模型、U-Net分割模型。当然,第一分割模型还可以是其他图像分割模型,本申请不对该第一分割模型的类型进行限定。
可以理解,在成对相似性损失(Pairwise affinity loss term)函数中,将颜色相近且距离在一定范围内的像素点作为同一类。由此,可以得到目标对象的掩膜标签。
如上文所述,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习。可选地,可以将第一掩膜特征图和第一边缘特征图分别转换成与掩膜标签相同形式的数据(例如第一掩膜特征数据和第一边缘特征数据),然后分别计算第一掩膜特征数据与掩膜标签间的第一差异以及第一边缘特征数据与掩膜标签间的第二差异,接着,利用第一差异和第二差异对掩膜标签进行学习,以提高掩膜标签的准确性。可选地,可以将掩膜标签转换为特征图,然后分别计算与第一掩膜特征图和第一边缘特征图间的差异,并基于该差异对掩膜标签进行学习,以提高掩膜标签的准确性。
第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。示例性地,第二分割模型可以是现有的或将来研发的任意一种可以用于输出掩膜特征图和边缘特征图的分割模型。示例性地,第二分割模型为显著性检测网络。在一些实施例中,第二分割模型可以采用显著性检测的老师网络。该方案通过采用显著性检测网络作为第二分割模型,有利于输出准确地掩膜特征图和边缘特征图,从而可以提高第一分割模型的训练效果。该方案有助于提高图像分割的准确性。
在上述技术方案中,采用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行学习,可以有效提高第一分割模型的分割精度。该方案有助于提高图像分割的准确度。
示例性地,经训练的第一分割模型通过以下训练操作训练得到:获取样本图像;将样本图像输入预训练的第二分割模型中,以获得第二分割模型输出的目标对象的第一掩膜特征图和第一边缘特征图;将样本图像输入第一分割模型中,以获得目标对象的样本掩膜图像;基于成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图;将第一掩膜特征图和第二掩膜特征图代入第一损失函数计算第一损失值;将第一边缘特征图和第二边缘特征图代入第一损失函数计算第二损失值;基于第一损失值和第二损失值对掩膜标签进行学习;将学习后的掩膜标签以及样本掩膜图像代入成对相似性损失函数进行计算,获得第三损失值;基于第三损失值对待训练的第一分割模型进行训练,获得经训练的第一分割模型。
可选地,样本图像可以采用现有的或将来研发的任意一种图像获取方法得到。例如,可以通过人工拍摄目标对象的图像,并将拍摄得到的图像作为样本图像。又例如,可以通过网络爬虫获取目标对象的样本图像。
可选地,第一边缘特征图可以基于第一掩膜特征图生成。在一些实施例中,可以将样本图像输入预训练的第二分割模型中,以获得第二分割模型输出的目标对象的第一掩膜特征图。然后,第二分割模型可以基于第一掩膜特征图,生成第一边缘特征图。
可选地,可以采用现有的或将来研发的任意一种可以实现掩膜标签与掩膜特征图、边缘特征图间的转换的模型,以基于掩膜标签获得第二掩膜特征图和第二边缘特征图。例如,该模型可以是多层感知机(MLP)、递归神经网络(RNN)等。
可选地,第一损失函数可以是任意一种用于计算图像间损失的损失函数。例如,第一损失函数可以是均方误差损失函数、结构相似性损失函数、交叉熵损失函数中的任意一种。
在一个具体的实施例中,第一损失函数可以是交叉熵(Cross-entropy,CE)损失函数。第一损失值可以称为CE1,第二损失值可以称为CE2。
上述技术方案通过利用第二分割模型输出的掩膜特征图(即第一掩膜特征图)和边缘特征图(即第一边缘特征图)对成对相似性损失函数采用的掩膜标签进行监督校正,有助于提高第一分割模型地分割精度。
示例性地,基于成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图,包括:将掩膜标签分别输入两个多层感知机中,以获得两个多层感知机分别输出的第二掩膜特征图和第二边缘特征图。
为便于描述,两个MLP可以分别称为MLP1和MLP2。其中,MLP1可以用于输出掩膜特征图,MLP2可以用于输出边缘特征图。在该实施例中,可以将掩膜标签分别输入MLP1和MLP2,以获得MLP1输出的第二掩膜特征图以及MLP2输出的第二边缘特征图。
上述技术方案通过将掩膜标签转换为第二掩膜特征图和第二边缘特征图,可以便于计算掩膜标签与第一掩膜特征图和第一边缘特征图之间的差异,从而有助于对掩膜标签进行学习,提高第一分割模型的掩膜标签的准确性。
示例性地,样本图像为样本图像集中的图像,所述样本图像集中的样本图像可以是针对某一类型的目标的图像,以图2中的样本图像为例,样本图像可以是针对运动员的图像。在训练过程中,可利用大量类似的样本图像对第一分割模型进行训练,使得经过训练后的第一分割模型能够从待处理图像中迅速且准确地分割出对象(例如,图2中的运动员)。但是在实际处理中,在待处理图像中可能会存在除目标对象外的其他对象。为了能够使第一分割网络在面对复杂图像(例如,目标对象区域与其它对象相互遮挡),需要丰富样本图像,也即是说,需要对训练第一分割模型的样本图像集更加地丰富。因此,本申请的另一实施例还可包括:基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像;将增强后的图像存储至样本图像集中,以对样本图像集进行更新;其中,获取样本图像包括:从更新后的样本图像集中获取样本图像。
可选地,可以采用现有的或将来研发的任意一种数据增强技术对至少两个样本图像进行数据增强。例如,可以将至少两个样本图像中的任意几个样本图像缩放后拼接成新的样本图像。该新的样本图像即为增强后的图像又例如,可以对至少两个样本图像进行颜色变化,以获得增强后的图像。再例如,可以采用诸如Mixup、CutMix、SnapMix等在线数据增强方法获得增强后的图像。
在获得增强后的图像后,可以将增强后的图像添加到样本图像集。然后,再利用样本图像集中的样本图像对第一分割模型进行训练。也就是说,在训练过程中,可先利用仅包括单个目标的样本图像对第一分割模型进行训练,使得经过训练的第一分割模型针对此类样本图像的准确率较高的情况下,还可采用如上方式对样本图像库进行数据增强,再利用增强后的样本图像集或者仅利用经由数据增强后的样本图像对第一分割模型进行二次训练。如此以来,有助于避免第一分割模型将像素值比较接近的不同类别的像素误判为相同类别,从而有助于进一步提高掩膜标签以及训练后的图像处理模型的精度。
示例性地,基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像的步骤在第一损失值和第二损失值满足要求时执行。
在该示例中,可以先从更新前的样本图像集中获取样本图像,以用于对第一分割模型进行训练,直至第一损失值和第二损失值满足要求。然后,再次从更新后的样本图像集中获取样本图像,以再次对第一分割模型进行训练。换言之,可以首先基于更新前的样本图像集训练第一分割模型,直至第一分割模型对具有对通用物体的区分能力后,再次基于更新后的样本图像集训练第一分割模型,从而进一步提高第一分割模型对不同对象的区分能力。
上述技术方案通过渐进式的训练方式,有助于提高第一分割模型对不同对象的区分能力,从而有助于提高第一分割模型的分割精度。
示例性地,基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像,包括:从至少两个样本图像中各取相同图像位置处的图像块;将至少两个样本图像中任一样本图像中的图像块填充至另一样本图像中,获得增强后的图像;或者,基于预设混合权重对至少两个样本图像中位于同一图像位置处的像素的像素值进行混合,获得增强后的图像。
可选地,基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像,包括:从至少两个样本图像中各取相同图像位置处的图像块;将至少两个样本图像中任一样本图像中的图像块填充至另一样本图像中,获得增强后的图像。为便于描述,下面通过一个具体的实施例对该数据增强过程进行说明。在一个实施例中,至少两个样本图像可以包括样本图像A和样本图像B。然后,可以从样本图像A上获取图像块a,并从样本图像B上获取图像块b,且图像块a在样本图像A上的位置与图像块b在样本图像B上的位置相同,该位置可以称为目标图像位置。在得到图像块a和图像块b后,可以将图像块a填充到样本图像B上的目标图像位置,或者/以及将图像块b填充到样本图像A的目标图像位置,这样至少能够获取到一个增强后的图像。
可以理解,上述实施例中样本图像的数量仅为示例,并不作为对至少两个样本图像中的样本图像的数量的限制。例如,至少两个样本图像还可以包括三个样本图像。三个样本图像依次为样本图像A、样本图像B和样本图像C。然后,可以从样本图像A的目标图像位置上获取图像块a,从样本图像B的目标图像位置上获取图像块b,并从样本图像C的目标图像位置上获取图像块c。接着,可以将图像块a填充到样本图像C上的目标图像位置,将图像块b填充到样本图像A的目标图像位置,将图像块c填充到样本图像B的目标图像位置从而获得三个增强后的图像。
上述实施例的方案通过将一个样本图像的图像块填充到另一样本图像中,可以快速获得数据增强后的图像。该方案有助于提高模型训练效率。
可选地,基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像,包括:基于预设混合权重对至少两个样本图像中位于同一图像位置处的像素的像素值进行混合,获得增强后的图像。为便于描述,下面通过一个具体的实施例对该数据增强过程进行说明。在一个实施例中,至少两个样本图像可以包括样本图像A和样本图像B。在该实施例中,可以按照预设混合权重将样本图像A与样本图像B上的位于同一图像位置处的像素的像素值进行混合,从而生成新的样本图像。该新的样本图像即为增强后的图像。该方案通过将至少两个样本图像中位于同一图像位置处的像素的像素值进行混合,可以快速获得数据增强后的图像。该方案有助于提高模型训练效率。
可选地,至少两个样本图像中的每个样本图像中均只包括一个目标对象。在该可选地实施例中,每个样本图像中均只包括一个目标对象,由此,有助于确保增强后的图像中的目标对象的唯一性,从而有助于保证图像分割结果的唯一性。该方案有助于进一步提高第一分割模型的精度。
图2示出根据本申请一个实施例的训练操作的示意图。在该实施例中,第二分割模型为显著性检测网络。第一损失函数为交叉熵损失函数。如图2所示,首先,将初始图像输入到目标检测模型中,以获得样本图像。然后,将样本图像输入到显著性检测网络中,以获得第一掩膜特征图和第一边缘特征图。同时,可以将成对相似性损失函数中采用的掩膜标签分别输入到MLP1和MLP2,以得到第二掩膜特征图和第二边缘特征图。接着,将第一掩膜特征图和第二掩膜特征图代入交叉熵损失函数,以得到第一损失值CE1,将第一边缘特征图和第二边缘特征图代入交叉熵损失函数,以得到第二损失值CE2。在得到CE1和CE2后,基于CE1和CE2对掩膜标签进行学习,获得第一次学习后的掩膜标签。
在获得第一次学习后的掩膜标签后,可以基于样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像。然后,将增强后的图像作为样本图像,并重复上述训练过程,以获得第二次学习后的掩膜标签。
上述技术方案可以快速获得数据增强后的图像,有利于提高模型训练效率、泛化能力。
根据本申请的另一方面,提供了一种对象分割装置。图3示出根据本申请一个实施例的对象分割装置的示意性框图。如图3所示,对象分割装置300包括获取模块310和输入模块320。
获取模块310,用于获取待处理图像,待处理图像包含目标对象。
输入模块320,用于将待处理图像输入到经训练的第一分割模型中,以获得目标对象的掩膜图像。
其中,第一分割模型至少通过将目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,样本掩膜图像是通过将包含目标对象的样本图像输入至待训练的第一分割模型而获得,训练第一分割模型时,使对于相同样本图像,成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,第一掩膜特征图和第一边缘特征图是通过将样本图像输入至第二分割模型而获得的。
根据本申请的另一方面,提供了一种电子设备。图4示出根据本申请一个实施例的电子设备的示意性框图。如图4所示,控制装置400包括处理器410和存储器420。存储器420中存储有计算机程序。处理器410用于执行计算机程序以实现对象分割方法100。
可选地,处理器可以包括任何合适的具有数据处理能力和/或指令执行能力的处理器件。例如,处理器可以采用可编程逻辑控制器(PLC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、中央处理单元(CPU)、专用的集成电路(ASIC)、微控制单元(MCU)和其它形式的处理单元中的一种或几种的组合来实现。
根据本申请实施例的又一方面,还提供了一种存储介质。该存储介质中存储有计算机程序/指令,计算机程序/指令被处理器执行时实现上述的对象分割方法100。存储介质例如可以包括只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
本领域普通技术人员通过阅读上文关于对象分割方法100的相关描述,可以理解上述对象分割装置、电子设备、存储介质的具体实现方案,为了简洁,在此不再赘述。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式或对具体实施方式的说明,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种对象分割方法,其特征在于,包括:
获取待处理图像,所述待处理图像包含目标对象;
将所述待处理图像输入到经训练的第一分割模型中,以获得所述目标对象的掩膜图像;
其中,所述第一分割模型至少通过将所述目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,所述样本掩膜图像是通过将包含所述目标对象的样本图像输入至待训练的所述第一分割模型而获得,训练所述第一分割模型时,使对于相同样本图像,所述成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,所述第一掩膜特征图和所述第一边缘特征图是通过将所述样本图像输入至第二分割模型而获得的;
经训练的第一分割模型通过以下训练操作训练得到:
获取所述样本图像;
将所述样本图像输入预训练的所述第二分割模型中,以获得所述第二分割模型输出的所述目标对象的所述第一掩膜特征图和所述第一边缘特征图;
将所述样本图像输入所述第一分割模型中,以获得所述目标对象的所述样本掩膜图像;
基于所述成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图;
将所述第一掩膜特征图和所述第二掩膜特征图代入第一损失函数计算第一损失值;
将所述第一边缘特征图和所述第二边缘特征图代入第一损失函数计算第二损失值;
基于所述第一损失值和所述第二损失值对所述掩膜标签进行学习;
将学习后的掩膜标签以及所述样本掩膜图像代入所述成对相似性损失函数进行计算,获得第三损失值;
基于所述第三损失值对待训练的所述第一分割模型进行训练,获得经训练的所述第一分割模型。
2.根据权利要求1所述的对象分割方法,其特征在于,所述获取待处理图像,包括:
获取包含所述目标对象的初始图像;
对所述初始图像进行目标检测,以确定所述目标对象的目标检测结果;
基于所述目标检测结果从所述初始图像中提取包含所述目标对象的图像块,以获得所述待处理图像。
3.根据权利要求2所述的对象分割方法,其特征在于,所述对所述初始图像进行目标检测,以确定所述目标对象的目标检测结果,包括:
将所述初始图像输入目标检测模型,以获得所述目标检测结果。
4.根据权利要求1所述的对象分割方法,其特征在于,所述基于所述成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图,包括:
将所述掩膜标签分别输入两个多层感知机中,以获得所述两个多层感知机分别输出的所述第二掩膜特征图和所述第二边缘特征图。
5.根据权利要求1所述的对象分割方法,其特征在于,所述样本图像为样本图像集中的图像,所述训练操作还包括:
基于所述样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像;
将增强后的图像存储至所述样本图像集中,以对所述样本图像集进行更新;
其中,所述获取所述样本图像包括:从更新后的所述样本图像集中获取所述样本图像。
6.根据权利要求5所述的对象分割方法,其特征在于,所述基于所述样本图像集中的至少两个样本图像进行数据增强,获得增强后的图像,包括:
从所述至少两个样本图像中各取相同图像位置处的图像块;
将所述至少两个样本图像中任一样本图像中的图像块填充至另一样本图像中,获得增强后的图像;
或者,
基于预设混合权重对所述至少两个样本图像中位于同一图像位置处的像素的像素值进行混合,获得增强后的图像。
7.根据权利要求1-3任一项所述的对象分割方法,其特征在于,所述第二分割模型为显著性检测网络。
8.一种对象分割装置,其特征在于,包括:
获取模块,用于获取待处理图像,所述待处理图像包含目标对象;
输入模块,用于将所述待处理图像输入到经训练的第一分割模型中,以获得所述目标对象的掩膜图像;
其中,所述第一分割模型至少通过将所述目标对象的样本掩膜图像和对应的掩膜标签输入至成对相似性损失函数进行训练,所述样本掩膜图像是通过将包含所述目标对象的样本图像输入至待训练的所述第一分割模型而获得,训练所述第一分割模型时,使对于相同样本图像,所述成对相似性损失函数采用的掩膜标签通过第一掩膜特征图和第一边缘特征图进行学习,所述第一掩膜特征图和所述第一边缘特征图是通过将所述样本图像输入至第二分割模型而获得的;
经训练的第一分割模型通过训练操作训练得到,装置还包括训练模块,训练模块包括:
获取子模块,用于获取所述样本图像;
第一输入子模块,用于将所述样本图像输入预训练的所述第二分割模型中,以获得所述第二分割模型输出的所述目标对象的所述第一掩膜特征图和所述第一边缘特征图;
第二输入子模块,用于将所述样本图像输入所述第一分割模型中,以获得所述目标对象的所述样本掩膜图像;
获得子模块,用于基于所述成对相似性损失函数采用的掩膜标签获得第二掩膜特征图和第二边缘特征图;
第一计算子模块,用于将所述第一掩膜特征图和所述第二掩膜特征图代入第一损失函数计算第一损失值;
第二计算子模块,用于将所述第一边缘特征图和所述第二边缘特征图代入第一损失函数计算第二损失值;
学习子模块,用于基于所述第一损失值和所述第二损失值对所述掩膜标签进行学习;
第三计算子模块,用于将学习后的掩膜标签以及所述样本掩膜图像代入所述成对相似性损失函数进行计算,获得第三损失值;
训练子模块,用于基于所述第三损失值对待训练的所述第一分割模型进行训练,获得经训练的所述第一分割模型。
9.一种电子设备,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1-7任一项所述的对象分割方法。
10.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1-7任一项所述的对象分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311813370.2A CN117474932B (zh) | 2023-12-27 | 2023-12-27 | 对象分割方法和装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311813370.2A CN117474932B (zh) | 2023-12-27 | 2023-12-27 | 对象分割方法和装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117474932A CN117474932A (zh) | 2024-01-30 |
CN117474932B true CN117474932B (zh) | 2024-03-19 |
Family
ID=89639992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311813370.2A Active CN117474932B (zh) | 2023-12-27 | 2023-12-27 | 对象分割方法和装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117474932B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN112508029A (zh) * | 2020-12-03 | 2021-03-16 | 苏州科本信息技术有限公司 | 一种基于目标框标注的实例分割方法 |
CN114022497A (zh) * | 2021-09-30 | 2022-02-08 | 泰康保险集团股份有限公司 | 一种图像处理方法及装置 |
CN114463361A (zh) * | 2022-02-15 | 2022-05-10 | 北京百度网讯科技有限公司 | 网络模型训练方法、装置、设备、介质及程序产品 |
-
2023
- 2023-12-27 CN CN202311813370.2A patent/CN117474932B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN112508029A (zh) * | 2020-12-03 | 2021-03-16 | 苏州科本信息技术有限公司 | 一种基于目标框标注的实例分割方法 |
CN114022497A (zh) * | 2021-09-30 | 2022-02-08 | 泰康保险集团股份有限公司 | 一种图像处理方法及装置 |
CN114463361A (zh) * | 2022-02-15 | 2022-05-10 | 北京百度网讯科技有限公司 | 网络模型训练方法、装置、设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN117474932A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110909651B (zh) | 视频主体人物的识别方法、装置、设备及可读存储介质 | |
US10346720B2 (en) | Rotation variant object detection in Deep Learning | |
CN111814902A (zh) | 目标检测模型训练方法、目标识别方法、装置和介质 | |
CN110378837B (zh) | 基于鱼眼摄像头的目标检测方法、装置和存储介质 | |
CN111369581A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110135446B (zh) | 文本检测方法及计算机存储介质 | |
CN113420745B (zh) | 基于图像的目标识别方法、系统、存储介质及终端设备 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
US8873839B2 (en) | Apparatus of learning recognition dictionary, and method of learning recognition dictionary | |
CN112927279A (zh) | 一种图像深度信息生成方法、设备及存储介质 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN115082450A (zh) | 基于深度学习网络的路面裂缝检测方法和系统 | |
CN112836653A (zh) | 人脸隐私化方法、设备、装置及计算机存储介质 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN109902751B (zh) | 融合卷积神经网络和半字模板匹配的表盘数字字符识别法 | |
CN112784494B (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN113191355A (zh) | 文本图像合成方法、装置、设备及存储介质 | |
CN113205507A (zh) | 一种视觉问答方法、系统及服务器 | |
CN117474932B (zh) | 对象分割方法和装置、电子设备及存储介质 | |
CN113315995B (zh) | 提高视频质量的方法、装置、可读存储介质及电子设备 | |
CN112699809B (zh) | 痘痘类别识别方法、装置、计算机设备及存储介质 | |
CN114782239A (zh) | 一种基于卷积神经网络的数字水印添加方法及系统 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN112287938A (zh) | 一种文本分割方法、系统、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |