CN112508974B - 图像分割模型的训练方法、装置、电子设备和存储介质 - Google Patents
图像分割模型的训练方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112508974B CN112508974B CN202011475015.5A CN202011475015A CN112508974B CN 112508974 B CN112508974 B CN 112508974B CN 202011475015 A CN202011475015 A CN 202011475015A CN 112508974 B CN112508974 B CN 112508974B
- Authority
- CN
- China
- Prior art keywords
- image
- segmentation
- model
- segmented
- pixel point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 158
- 238000003709 image segmentation Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000011218 segmentation Effects 0.000 claims abstract description 328
- 239000013598 vector Substances 0.000 claims description 119
- 230000009466 transformation Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 35
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 27
- 230000003321 amplification Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 16
- 238000013434 data augmentation Methods 0.000 claims description 13
- 239000002689 soil Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 132
- 230000000694 effects Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开关于图像分割模型的训练方法、装置、电子设备和存储介质,所述方法包括:获取包括第一图像和第二图像的训练样本,第一图像包括对应于目标对象的目标区域和目标区域之外的背景区域,第一图像对应的标准分割图像用于指示目标区域和背景区域的相对位置关系;将训练样本输入待训练模型,以获取待训练模型对训练样本中的目标对象进行分割处理后输出的第一分割图像和第二分割图像;根据第一分割图像和标准分割图像确定独立分割损失,并根据第一分割图像和第二分割图像确定关联分割损失;结合上述两损失得到综合分割损失,并据此训练上述待训练模型以得到图像分割模型。该方法训练所得图像分割模型适用场景广泛且分割稳定性较高。
Description
技术领域
本公开涉及神经网络领域,尤其涉及图像分割模型的训练方法、装置、电子设备和存储介质。
背景技术
对图像中的人像、车辆等目标对象进行图像分割,即为通过识别图像中的目标对象对应的目标区域,对目标区域与除目标区域之外的背景区域进行区分。在图像分割过程中,分割结果的稳定性至关重要,例如,在对视频对应的视频帧图像进行图像分割时,若相邻帧图像的分割结果差异较大(即分割结果不稳定),则在视频播放过程中会出现对象展示区域跳变等情况,从而视频播放效果较差,且不利于针对目标对象的后期处理。
为解决这一问题,在相关技术中,一方面可以采用已标注视频样本对图像分割模型进行训练,但是当前可供技术人员选用的已标注视频样本较少,因此使用这类已标注视频样本训练得到的图像分割模型的泛化能力弱,适用场景较为单一。另一方面可以通过时序平滑、结果差值等后处理方法对分割结果进行弥补,但这类后期补救方法也并未从根本上提高图像分割的稳定性。
发明内容
本公开提供了图像分割模型的训练方法、装置、电子设备和存储介质,以至少解决相关技术中的技术问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提出一种图像分割模型的训练方法,包括:
获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到;
将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像;
根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失;
结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
可选的,所述根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,包括:
基于所述第一分割图像与所述标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算所述独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率。
可选的,所述数据扩增处理包括为所述第一图像添加光线信息,所述根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失,包括:
获取所述第一分割图像与所述第二分割图像中各像素点分别对应的基本特征向量,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
确定所述第一分割图像与所述第二分割图像中的各相应像素点分别对应的所述基本特征向量之间的向量距离,所述第一分割图像中的任一像素点与所述第二分割图像中相同位置的像素点互为所述相应像素点;
将所述各像素点分别对应的所述向量距离的平均值作为所述关联分割损失。
可选的,所述数据扩增处理包括对所述第一图像进行仿射变换,所述根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失,包括:
对所述第一分割图像进行所述仿射变换以得到第一变换分割图像,并将所述第一变换分割图像与所述第二分割图像作为关联分割图像;或者,对所述第二分割图像进行对应于所述仿射变换的逆变换以得到第二变换分割图像,并将所述第一分割图像与所述第二变换分割图像作为关联分割图像;
获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定所述基本特征向量之间的向量距离,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
将所述各像素点对应的所述向量距离的平均值作为所述关联分割损失。
可选的,获取任一图像中的任一像素点对应的所述基本特征向量,包括:
将所述任一像素点的预测概率值作为向量长度构建所述基本特征向量,其中,所述任一像素点的预测概率值为该像素点位于所述目标区域或所述背景区域的概率;或者,
获取所述待训练模型中预设隐藏层输出的特征图像,确定所述任一像素点在所述特征图像中所对应像素点的特征值,并将利用所述特征值构建的特征向量确定为所述任一像素点对应的基本特征向量。
可选的,所述预设隐藏层包括所述待训练模型的多层隐藏层中的最后一层隐藏层,所述特征图像、所述第一分割图像和所述第二分割图像各自包含的像素点的数量相同。
可选的,所述结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,包括:
按照预设的权重值确定所述独立分割损失和所述关联分割损失的加权和,并将所述加权和确定为所述待训练模型的综合分割损失。
可选的,所述根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型,包括:
在所述第一分割图像和所述第二分割图像之间的至少一个稳定性参数满足所述待训练模型对应的参数阈值的情况下,终止训练所述待训练模型,并将最后一次训练得到的所述待训练模型作为所述图像分割模型;
其中,所述稳定性参数包括下述至少之一:
所述第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中任一像素点对应的预测差值为该像素点的预测概率值与该像素点在所述第二分割图像中对应的相应像素点的预测概率值之间的差值,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
所述第一分割图像中的目标区域与所述第二分割图像中的目标区域之间的交并比;
所述第一分割图像中的目标区域的边界与所述第二分割图像中的目标区域的边界之间的吻合度。
根据本公开实施例的第二方面,提出一种图像分割方法,包括:
获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域;
将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过第一方面中任一项所述的图像分割模型的训练方法预训练得到。
根据本公开实施例的第三方面,提出一种图像分割模型的训练装置,包括:
样本获取模块,被配置为获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到;
样本输入模块,被配置为将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像;
损失确定模块,被配置为根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失;
模型训练模块,被配置为结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
可选的,所述损失确定模块还被配置为:
基于所述第一分割图像与所述标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算所述独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率。
可选的,所述数据扩增处理包括为所述第一图像添加光线信息,所述损失确定模块还被配置为:
获取所述第一分割图像与所述第二分割图像中各像素点分别对应的基本特征向量,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
确定所述第一分割图像与所述第二分割图像中的各相应像素点分别对应的所述基本特征向量之间的向量距离,所述第一分割图像中的任一像素点与所述第二分割图像中相同位置的像素点互为所述相应像素点;
将所述各像素点分别对应的所述向量距离的平均值作为所述关联分割损失。
可选的,所述数据扩增处理包括对所述第一图像进行仿射变换,所述损失确定模块还被配置为:
对所述第一分割图像进行所述仿射变换以得到第一变换分割图像,并将所述第一变换分割图像与所述第二分割图像作为关联分割图像;或者,对所述第二分割图像进行对应于所述仿射变换的逆变换以得到第二变换分割图像,并将所述第一分割图像与所述第二变换分割图像作为关联分割图像;
获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定所述基本特征向量之间的向量距离,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
将所述各像素点对应的所述向量距离的平均值作为所述关联分割损失。
可选的,所述损失确定模块还被配置为:
将所述任一像素点的预测概率值作为向量长度构建所述基本特征向量,其中,所述任一像素点的预测概率值为该像素点位于所述目标区域或所述背景区域的概率;或者,
获取所述待训练模型中预设隐藏层输出的特征图像,确定所述任一像素点在所述特征图像中所对应像素点的特征值,并将利用所述特征值构建的特征向量确定为所述任一像素点对应的基本特征向量。
可选的,所述预设隐藏层包括所述待训练模型的多层隐藏层中的最后一层隐藏层,所述特征图像、所述第一分割图像和所述第二分割图像各自包含的像素点的数量相同。
可选的,所述模型训练模块还被配置为:
按照预设的权重值确定所述独立分割损失和所述关联分割损失的加权和,并将所述加权和确定为所述待训练模型的综合分割损失。
可选的,所述模型训练模块还被配置为:
在所述第一分割图像和所述第二分割图像之间的至少一个稳定性参数满足所述待训练模型对应的参数阈值的情况下,终止训练所述待训练模型,并将最后一次训练得到的所述待训练模型作为所述图像分割模型;
其中,所述稳定性参数包括下述至少之一:
所述第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中任一像素点对应的预测差值为该像素点的预测概率值与该像素点在所述第二分割图像中对应的相应像素点的预测概率值之间的差值,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
所述第一分割图像中的目标区域与所述第二分割图像中的目标区域之间的交并比;
所述第一分割图像中的目标区域的边界与所述第二分割图像中的目标区域的边界之间的吻合度。
根据本公开实施例的第四方面,提出一种图像分割装置,包括:
图像获取模块,被配置为获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域;
图像分割模块,被配置为将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过第一方面中任一项所述的图像分割模型的训练方法预训练得到。
根据本公开实施例的第五方面,提出一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述第一方面中任一实施例所述的图像分割模型的训练方法或者上述第二方面中任一实施例所述的图像分割方法。
根据本公开实施例的第六方面,提出一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中任一实施例所述的图像分割模型的训练方法或者第二方面中任一实施例所述的图像分割方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的实施例,一方面对第一图像进行数据扩增处理得到第二图像,以使用第一图像和第二图像模拟连续的视频帧图像,从而可以采用多种场景下的图像作为第一图像以扩展训练样本的场景丰富程度,有助于提升模型训练的泛化能力。另一方面在模型评价阶段不仅使用基本的分割损失(独立分割损失),还引入对于待训练模型的所输出的第一分割图像和第二分割图像的一致性约束(关联分割损失),保证了模型训练过程中计算的综合分割损失(用于评价待训练模型的整体分割损失)包含对第一图像和第二图像进行分割的一致性因素,有助于提升训练所得图像分割模型的分割稳定性,从而使得训练得到的图像分割模型能够有效适用于视频图像分割场景。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据本公开的实施例示出的一种图像分割模型的训练方法的流程图;
图2是根据本公开的实施例示出的一种待训练模型的图像分割过程示意图;
图3是根据本公开的实施例示出的另一种图像分割模型的训练方法的流程图;
图4是根据本公开的实施例示出的一种待训练模型的输入输出示意图;
图5是根据本公开的实施例示出的另一种待训练模型的输入输出示意图;
图6是根据本公开的实施例示出的一种图像分割方法的流程图;
图7是根据本公开的实施例示出的一种图像分割模型的训练装置的示意框图;
图8是根据本公开的实施例示出的一种图像分割装置的示意框图;
图9是根据本公开的实施例示出的一种电子设备的结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
对图像中的人像、车辆等目标对象进行图像分割的过程,即为通过识别图像中的目标对象对应的目标区域,将目标区域与除目标区域之外的背景区域进行区分的过程。在图像分割过程中,分割结果的稳定性至关重要,例如,在对视频对应的视频帧图像进行图像分割时,若相邻帧图像的分割结果差异较大(即分割结果不稳定),则在视频播放过程中会出现对象的展示区域跳变等情况,从而不仅播放效果较差,而且不利于对目标对象的后期处理。
在相关技术中,为解决这一问题,一方面可以采用已标注视频样本对图像分割模型进行训练,但是当前可供技术人员选用的已标注视频样本较少,因此使用这类已标注视频样本训练得到的图像分割模型的泛化能力弱,适用场景较为单一,而且这类已标注视频样本通常价格较为昂贵,导致模型训练的成本较高。另一方面可以通过时序平滑、结果差值等方法对分割结果进行弥补,但这类后期补救方法无法从根本上提高图像分割的稳定性。
为解决相关技术中存在的图像分割模型适用场景单一且分割稳定性较低的问题,本公开提出一种图像分割模型的训练方法,通过对第一图像进行扩增获取第二图像,以使用第一图像和第二图像构成的训练样本模拟连续视频帧图像输入待训练模型,有助于提升模型训练的泛化能力。并采用除基本的分割损失之外的关联分割损失对待训练模型的输出结果进行损失评价,引入对模型输出结果分割稳定性的评价指标,从而有助于提升训练得到的图像分割模型的分割稳定性。下面结合附图对本方案进行详细阐述。
图1是本说明书一示例性实施例示出的一种图像分割模型的训练方法的流程图。如图1所示,该方法应用于模型训练设备,该模型训练设备可以为服务器,该服务器可以为包含一独立主机的物理服务器、主机集群承载的虚拟服务器、云服务器等,本公开实施例并不对此进行限制。该方法可以包括以下步骤:
步骤102,获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到。
本方案使用训练样本对待训练模型进行训练,以得到图像分割模型。在训练之前,需要先获取第一图像,并对第一图像进行数据扩增数据得到第二图像,从而得到第一图像和第二图像构成的训练样本。
在一实施例中,可以通过多种方式获取上述第一图像。例如,可以从预先构建的训练图像库中获取上述第一图像;或者可以从目标视频中提取视频帧图像以作为第一图像;又或者可以对处于播放状态的视频对应的视频画面进行截取以得到第一图像;再或者还可以在获取到用户及其他相关方授权的情况下,将用户在社交平台上传的图像作为上述第一图像等,不再赘述。
在一实施例中,上述第一图像可以为RGB原图,其中包含的目标对象可以为人物、车辆、建筑、花草、文字等;相应的,目标对象对应的目标区域即为第一图像中的目标对象的像素点所在的区域。第一图像中除目标区域之外的其他区域即为背景区域,如在目标对象为前景人物的情况下,第一图像中除该人物之外的背景中的所有画面元素均为背景对象,相应的像素点所在区域即为背景区域。
在一实施例中,第一图像中的目标对象可以预先被添加对象标记,即由人工将第一图像中的目标区域与背景区域进行标记,标记得到的标准分割图像中各个像素点的取值用于指示目标区域和背景区域的相对位置关系。因为该标准分割图像由人工标记得到,因而可以认为该标准分割图像所指示的目标区域与背景区域的相对位置关系即为两区域的真实位置关系,即标准分割图像记录了目标对象的在第一图像中的真实位置,可作为评价待训练模型对第一图像分割效果的标准。
在一实施例中,可以通过数据扩增技术得到对应于第一图像的第二图像。例如,可以为第一图像添加光线信息,如随机加入平行光源或者点光源所发出光线对应的光线信息,从而由第二图像反映第一图像在不同光线照射情况下的展示效果。又例如,可以对第一图像进行仿射变换(如平移或线性变换后平移等)、翻转、旋转、扭曲等几何变换,从而由第二图像反映第一图像在不同几何变换情况下的展示效果。
根据数据扩增技术得到的上述第二图像中也包括目标区域和背景区域,例如在添加光线信息的情况下,因为光线信息并不会影响图像中目标对象的位置,因此第二图像中的目标区域与背景区域的相互位置关系与第一图像中的目标区域与背景区域的相互位置关系并无差异(即第一图像和第二图像中的目标对象所在位置相同);而在几何变换的情况下,因为变换前后目标对象的位置或第二图像的大小通常会发生变化,因此第二图像中的目标区域与背景区域的相互位置关系往往与第一图像中的目标区域与背景区域的相互位置关系不同。相应的,根据上述数据扩增技术的不同,后续关联分割损失的计算方式也有所不同,具体可参见下述步骤106的相关实施例,此处暂不详述。
步骤104,将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像。
在一实施例中,可以基于U-Net结构的深度神经网络构建上述待训练模型,以充分发挥U-Net结构和深度神经网络的算法优势。当然,上述待训练模型也可以基于其他算法构建上述待训练模型,不再赘述。
在本实施例中,模型训练设备将包含第一图像和第二图像的上述训练样本输入待训练模型后,待训练模型对训练样本进行图像分割处理,并将第一分割图像和第二分割图像作为处理结果(即模型输出结果)输出至模型训练设备。可以理解的是,为保证后续损失评价的准确性,应当保证第一图像和第二图像的关联性,如为第一图像和第二图像预先分配相同的关联标识以将二者关联;或者将二者关联后(如级联)输入待训练模型。另外,还可以将多组训练样本批量输入待训练模型,即选择合适的Batch进行训练,以提高模型的训练效率。
在一实施例中,待训练模型输出的第一分割图像中的任一像素点的取值,可以为第一图像中对应于该任一像素点的同位置像素点处于目标区域或背景区域中的预测概率值。例如,在第一分割图像中的任一像素点P的取值为0.4的情况下,可以表明第一图像中对应于像素点P的同位置像素点P’位于目标区域中的概率为0.4,或者也可以表明其位于背景区域中的概率为0.4,即任一像素点P的取值的具体含义可以根据待训练模型的构建逻辑预先确定,本公开实施例并不对此进行限制。当然,第二分割图像中任一像素点的取值含义与此类似,不再赘述。
步骤106,根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失。
在一实施例中,在接收到待训练模型输出的第一分割图像和第二分割图像之后,模型训练设备可以根据第一分割图像与标准分割图像之间的差值,得到独立分割损失。其中,上述差值可以为两图像中相同位置的各个像素点取值的差值。例如,可以基于第一分割图像与标准分割图像中各像素点的预测概率值,利用交叉墒损失函数(CrossEntropyLoss)计算二者之间的独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于目标区域或背景区域的概率。上述交叉熵损失函数的具体计算方式可参见下述图3所述实施例的式(2),此处暂不详述。通过交叉墒损失函数确定出的独立分割损失能够有效反映待训练模型对于任一像素点是否位于目标区域的预测结果,从而便于根据该预测结果准确判断第一分割图像的分割效果。
在一实施例中,模型训练设备可以根据第一分割图像与第二分割图像之间的差值,得到关联分割损失。具体的,根据获取第二图像的数据扩增技术不同,可以采用不同的方式得到该关联分割损失。作为一示例性实施例,在上述数据扩增包括为第一图像添加光线信息的情况下,模型训练设备可以先获取第一分割图像与第二分割图像中各像素点分别对应的基本特征向量,然后确定第一分割图像与第二分割图像中相应像素点分别对应的基本特征向量之间的向量距离,最后将各像素点分别对应的向量距离的平均值作为关联分割损失。其中,任一像素点对应的基本特征向量可以用于表征待训练模型对该像素点位于目标区域的预测概率值的大小,第一分割图像中的任一像素点与第二分割图像中相同位置的像素点互为上述相应像素点。可见,第一分割图像或第二分割图像中各像素点分别对应的基本特征向量能够反映待训练模型对于第一图像或第二图像的分割结果,而第一分割图像中的像素点对应的基本特征向量与第一分割图像中的相应像素点对应的基本特征向量之间的向量距离可以表征两像素点之间的预测概率值之间的差异,因而可以将各像素点分别对应的向量距离的平均值作为关联分割损失,以用于衡量并有效评价第一分割图像与第二分割图像之间分割效果的一致性。可以理解的是,该向量距离的平均值越小,则表明第一分割图像中的像素点与第二分割图像中的像素点之间预测概率越接近,即表明第一分割图像与第二分割图像的分割结果越接近,进一步表明针对第一图像和第二图像之间的分割稳定性越好。
作为另一示例性实施例,在上述数据扩增包括对第一图像进行仿射变换的情况下,模型训练设备可以对第一分割图像进行上述仿射变换以得到第一变换分割图像,并将第一变换分割图像与第二分割图像作为关联分割图像;或者,对第二分割图像进行对应于上述仿射变换的逆变换以得到第二变换分割图像,并将第一分割图像与第二变换分割图像作为关联分割图像;然后获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定两图像的各个基本特征向量之间的向量距离,最后将各像素点对应的向量距离的平均值作为关联分割损失,其中,上述任一像素点对应的基本特征向量用于表征待训练模型对该像素点位于目标区域的预测概率值的大小。例如,在对第一图像进行上下翻转这题仿射变换的情况下,上述逆变换可以仍为上下翻转,从而第一图像上下翻转得到第二图像,第二图像进行上下翻转得到第一图像;或者,在将第一图像中的目标对象向右平移得到第二图像的情况下,上述逆变换可以为将目标对象向左平移,从而将第一图像中的目标对象向右平移得到第二图像,将第二图像中的目标对象向左平移得到第一图像。通过上述逆变换能够保证第一分割图像与第二变换分割图像中的目标对象位置相同,并保证第二分割图像与第一变换分割图像中的目标对象位置相同,进而保证上述两对关联分割图像之间的关联分割损失能够真正反映待训练模型的图像分割效果。
在上述两示例性实施例中,可以通过多种方式确定任一图像中的任一像素点对应的所上述基本特征向量。例如,可以将任一像素点的预测概率值作为向量长度构建上述基本特征向量,其中,任一像素点的预测概率值用于表征该像素点位于目标区域或背景区域的概率。此时,直接将待训练模型输出的分割图像中任一像素点的预测概率值作为向量长度,构建出的基本特征向量即可以反映该像素点的预测结果。又例如,可以获取待训练模型中预设隐藏层输出的特征图像,然后确定任一像素点在特征图像中所对应像素点的特征值,并将利用特征值构建的特征向量确定为该任一像素点对应的基本特征向量。因为隐藏层的输出的特征图像中任一像素点的取值即为该像素点的特征值,所以直接将预设隐藏层输出的特征图像中任一像素点的特征值构建基本特征向量,能够实现基本特征向量的快速构建,进而有助于加快图像分割速度。
进一步的,在上述待训练模型存在多层隐藏层的情况下,上述预设隐藏层可以为待训练模型的多层隐藏层中的最后一层隐藏层,此时,最后一层特征层输出的特征图形与待训练迷行输出的第一分割图像和第二分割图像各自包含的像素点的数量相同,即三者中所包含的各个像素点之间一一对应。此时使用该特征图像计算上述基本特征向量,有助于提升关联分割损失的准确性。
另外,本公开实施例中所述的向量距离可以采用相关技术中的欧式距离、夹角余弦距离、曼哈顿距离、切比雪夫距离、马氏距离等任一种向量距离,本公开并不对此进行限制。
步骤108,结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
确定出上述独立分割损失和关联分割损失后,可以进一步根据二者得到待训练模型的综合分割损失。在一实施例中,可以按照预设的权重值确定独立分割损失和关联分割损失的加权和,并将该加权和确定为待训练模型的综合分割损失。此时,通过加权方式确定综合分割损失,其中独立分割损失和关联分割损失的权重稀疏可以根据实际场景进行设置,因此能够进一步保证本方案的适用场景,有助于提升模型训练的泛化能力。
可以理解的是,上述独立分割损失对应于对第一图像进行图像分割的分割准确度,用于表征待训练模型对第一图像进行图像分割时的分割误差;上述关联分对应于对第一图像和第二图像进行图像分割的分割稳定性,用于表征待训练模型输出的第一分割图像与第二分割图像之间的分割结果相似度。因此,利用上述独立分割损失和关联分割损失进行加权和计算得到的综合分割损失,既能够反映待训练模型对于第一图像的分割精确度,又能够反映对第一图像和第二图像进行图像分割的分割稳定性,因此根据该综合分割损失对待训练模型进行训练(调整模型参数)得到的图像分割模型,不仅对目标对象能够实现较高的分割准确度,而且在不同场景下的图像分割结果都较为稳定,所以能够适用于视频图像中目标对象的实时分割。
在模型训练过程中,在针对任意一组或一批训练样本的训练完成后,模型训练设备可以在第一分割图像和第二分割图像之间的至少一个稳定性参数满足待训练模型对应的参数阈值的情况下,终止训练该待训练模型,并将最后一次训练得到的当前时刻的待训练模型作为图像分割模型,从而完成模型训练过程。其中,上述稳定性参数可以包括下述至少之一:第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中,任一像素点对应的预测差值可以为该像素点的预测概率值与该像素点在第二分割图像中对应的相应像素点的预测概率值之间的差值,任一像素点的预测概率值用于表征该像素点位于目标区域或背景区域的概率。此时,该均值能够反映第一分割图像和第二分割图像的整体差异:该均值越小,表明第一分割图像和第二分割图像的分割结果越接近。或者,上述稳定性参数也可以包括第一分割图像中的目标区域与第二分割图像中的目标区域之间的交并比(Intersection over Union,IoU),此时,该交并比能够反映第一分割图像和第二分割图像中目标区域的分割结果的相近程度:该交并比越大,表明第一分割图像和第二分割图像中的目标区域重合程度越高,进而表明第一分割图像与第二分割图像中目标区域的分割结果越接近。又或者,上述稳定性参数还可以包括第一分割图像中的目标区域的边界与第二分割图像中的目标区域的边界之间的吻合度,该吻合度用于表征第一分割图像与第二分割图像中目标区域的边界重合程度:该吻合度越高,则表明第一分割图像与第二分割图像中目标区域的边界重合程度越高,进而表明第一分割图像与第二分割图像中目标区域的分割结果越接近。
根据本公开的实施例,一方面对第一图像进行数据扩增处理得到第二图像,以使用第一图像和第二图像模拟连续的视频帧图像,从而可以采用多种场景下的图像作为第一图像以扩展训练样本的场景丰富程度,有助于提升模型训练的泛化能力。另一方面在模型评价阶段不仅使用基本的分割损失(独立分割损失),还引入对于待训练模型的所输出的第一分割图像和第二分割图像的一致性约束(关联分割损失),保证了模型训练过程中计算的综合分割损失(用于评价待训练模型的整体分割损失)包含对第一图像和第二图像进行分割的一致性因素,有助于提升训练所得图像分割模型的分割稳定性,从而使得训练得到的图像分割模型能够有效适用于视频图像分割场景。
图2是根据本公开的实施例示出的一种待训练模型的图像分割过程示意图。如图2所示,该待训练模型被根据U-Net结构的深度神经网络所构建。该网络包含下采样单元和上采样单元两部分,下采样单元用于逐层展现环境信息,上采样单元用于结合下采样单元采集到的各层信息和上采样的输入信息还原图像的细节信息,并逐步还原图像精度。
在针对任一原始图像的处理过程中,模型训练设备首先向该待训练模型输入包含目标对象(如人像)的原始图像,待训练模型对该原始图像依次进行下采样和上采样处理,每一层的下采样和上采样处理都相应的存在一特征图像(该特征图像中任一像素点的取值为该像素点在该层对应的特征值),可以将每一层对应的特征图像作为该层对应的监督分支,用于对该层的采样结果进行损失评价。最后一层上采样的输出图像即为待训练模型最终输出的分割图像,该图像中任一像素点的取值可以为待训练模型对该像素点是否位于目标区域中进行预测得到的预测概率值,如可以为位于[0,1]之间的浮点型数值。
下面结合图3-图5,以目标对象对应的目标区域为人像区域为例,对本公开方案作进一步的详细阐述。图3是根据本公开的实施例示出的另一种图像分割模型的训练方法流程图;如图3所示,该方法可以包括下述步骤302-316。
步骤302,获取第一图像。
在一实施例中,可以通过多种方式获取第一图像。例如,可以从预先构建的训练图像库中获取上述第一图像;或者可以从目标视频中提取视频帧图像以作为第一图像;或者可以对处于播放状态的视频对应的视频画面进行截取以得到第一图像;再或者还可以在获取到用户及其他相关方授权的情况下,将用户在社交平台上传的图像作为上述第一图像等,不再赘述。第一图像中包含的目标对象可以为人物、车辆、建筑、花草、文字等,相应的,目标对象对应的目标区域即为第一图像中的目标对象的像素点所在的区域。第一图像中除目标区域之外的其他区域即为背景区域,如在目标对象为前景人物的情况下,第一图像中除该人物之外的背景中所有画面元素均为背景对象,相应像素点的所在区域即为背景区域。
在一实施例中,第一图像中的目标对象可以预先被添加对象标记,即由人工将第一图像中的目标区域与背景区域进行标记,标记得到的标准分割图像中各个像素点的取值用于指示目标区域和背景区域的相对位置关系。值得说明的是,第一图像中的目标区域是通过对该图像进行标记确定的,即对于同时包含车辆和人像的第一图像,若预先标识的是图像中的人像区域,则该人像区域即为目标区域;否则,若预先标识的是图像中的车辆区域,则该车辆区域即为目标区域。实际上,对于预先标注的第一图像,可以将其对应的标准分割图像与该第一图像关联保存,以便于模型训练设备关联获取上述第一图像及其对应的标注分割图像。
例如,该标准分割图像可以为Mask图,其中,目标区域中各个像素点的取值可以为255(或1),背景区域中各个像素点的取值可以为0,从而通过各个像素点的取值将目标区域与背景区域进行区分。因为该标准分割图像由人工进行标记得到,因而可以认为该标准分割图像所指示的目标区域与背景区域的相对位置关系即为两区域的真实位置关系,即标准分割图像记录了目标对象的在第一图像中的真实位置,可作为评价待训练模型对第一图像分割效果的标准。
如图4所示,通过上述任一方式确定出的第一图像即为图像4A,4A中的人像对应的图像区域即为目标区域,4A中除目标区域之外的其他区域即为背景区域。对4A中的目标区域和背景区域进行标注得到的Mask图4M。图5中的地图图像5A、Mask图5MA与此类似,不再赘述。
步骤304,对第一图像进行数据扩增得到第一图像。
在一实施例中,可以为第一图像添加光线信息,如随机加入平行光源或者点光源所发出光线对应的光线信息,从而由第二图像反映第一图像在不同光线照射情况下的展示效果。因为光线信息并不会影响图像中目标对象的位置,所以第二图像中的目标区域与背景区域的相互位置关系与第一图像中的目标区域与背景区域的相互位置关系相同。对图4中的第一图像4A添加漫射光效果的随机光线信息后,得到的第二图像4B。
在另一实施例中,可以对第一图像进行仿射变换(如平移或线性变换后平移等)、翻转、旋转、扭曲等几何变换,从而由第二图像反映第一图像在不同几何变换情况下的展示效果。因为几何变换前后目标对象的位置或第二图像的大小通常会发生变化,所以第二图像中的目标区域与背景区域的相互位置关系往往与第一图像中的目标区域与背景区域的相互位置关系不同。以图5所示的平移变换为例,对于第一图像5A,将其中的目标对象向右平移从而得到第二图像5B。
步骤306,将第一图像和第二图像构成的训练样本输入待训练模型。
在一实施例中,将包含第一图像和第二图像的上述训练样本输入待训练模型后,待训练模型对训练样本进行图像分割处理,并将第一分割图像和第二分割图像作为处理结果(即模型输出结果)输出至模型训练设备。可以理解的是,为保证后续损失评价的准确性,应当保证第一图像和第二图像的关联性,如为第一图像和第二图像预先分配相同的关联标识以将二者关联;或者将二者关联后(如级联)输入待训练模型。
在一实施例中,可以在待训练模型针对任意一个训练样本输出相应的分割结果后,即按照分割结果与标准分割图像之间的差值调整模型参数,或者也可以在待训练模型针对多个训练样本输出分割结果后,再进行调整。换言之,可以选择合适的Batch进行训练,以提高模型的训练效率。即可以循环执行步骤302-310多次再执行步骤312,或者也可以每执行一次步骤302-310就执行步骤312。具体方式可以根据实际业务场景或训练需求进行调整,本公开实施例并不对此进行限制。
步骤308,获取待训练模型输出的第一分割图像和第二分割图像。
在一实施例中,待训练模型输出的第一分割图像中的任一像素点的取值,可以为第一图像中对应于该任一像素点的同位置像素点处于目标区域中的概率,或者也可以为该同位置像素点处于背景区域中的概率。例如,在第一分割图像中的任一像素点P的取值为0.2的情况下,可以表明第一图像中对应于像素点P的同位置像素点P’位于目标区域中的概率为0.2,或者也可以表明其位于背景区域中的概率为0.2,即任一像素点P的取值的具体含义可以根据待训练模型的构建逻辑预先确定,本公开实施例并不对此进行限制。当然,第二分割图像中任一像素点的取值含义与此类似,不再赘述。
步骤310,计算第一分割图像和第二分割图像对应的稳定性参数。
在本实施例中,可以通过第一分割图像和第二分割图像的相似性表征待训练模型对第一图像和第二图像进行图像分割的稳定性,具体的,可以通过多种方式对第一分割图像和第二分割图像的相似性进行评价,即上述稳定性参数可以有多种表示方式。
例如,上述稳定性参数可以为第一分割图像中各像素点的预测概率值和第二分割图像中相应像素点的预测概率值之间差值的均值,其中,任一像素点的预测概率值用于表征该像素点位于目标区域或背景区域的概率。
以图4为例,在待训练模型输出的第一分割图像4A’和第二分割图像4B’中的任一像素点的取值为该像素点在第一图像或第二图像中对象的相应像素点位于目标区域中的预测概率值的情况下,可以按照下式(1)计算上述均值:
(1)
其中,为上述均值,n为4A’和4B’中像素点的个数,如可以为256*256,/>、/>分别为4A’和4B’中第i个像素点的预测概率值。该均值能够反映第一分割图像和第二分割图像的整体差异:该均值越小,表明第一分割图像和第二分割图像的分割结果越接近。
又例如,可以按照预设的二值化阈值,对4A’和4B’进行二值化处理,如在预测概率值位于[0,1]且预设的二值化阈值为0.5的情况下,可以将4A’和4B’二值化后确定各自的目标区域。然后将4A’和4B’分别对应的目标区域交并比IoUAB作为上述稳定性参数(可以使用两目标区域中像素点个数进行计算)。该交并比能够反映第一分割图像和第二分割图像中目标区域的分割结果的相近程度:该交并比越大,表明第一分割图像和第二分割图像中的目标区域重合程度越高,进而表明第一分割图像与第二分割图像中目标区域的分割结果越接近。该IoU的具体计算过程可以参加相关技术中的记载,此处不再赘述。
再例如,上述稳定性参数可以为第一分割图像中的目标区域的边界与第二分割图像中的目标区域的边界之间的吻合度,该吻合度用于表征第一分割图像与第二分割图像中目标区域的边界重合程度:该吻合度越高,则表明第一分割图像与第二分割图像中目标区域的边界重合程度越高,进而表明第一分割图像与第二分割图像中目标区域的分割结果越接近。该边界吻合度可以为相关技术中记载的区域边界Boundary_AB,具体计算过程可参见文章《A Benchmark Dataset and Evaluation Methodology for Video ObjectSegmentation》中的详细记载,此处不再赘述。
实际上,可以使用上述稳定性参数中的至少一个对4A’和4B’之间的分割稳定性进行衡量,或者通过上述多个稳定性参数计算综合稳定参数用以衡量,本公开实施例并不对此进行限制。
另外,对于图5所示的仿射变换,因为5A与5B中目标区域的位置有所不同,因此在该场景下使用上述稳定性参数对5A’和5B’之间的分割稳定性进行衡量时,需要先将二者统一为关联分割图像。例如,可以对5A’进行仿射变换,即将其中的目标区域向右平移以得到第一变换分割图像5A”,并将5A”与5B’作为关联分割图像;或者,对5B’进行对应于仿射变换的逆变换,即将其中的目标区域向左平移以得到第二变换分割图像5B”,并将5A’与5B”作为关联分割图像。然后,可以通过上述方式衡量上述关联分割图像(5A”与5B’,或者5A’与5B”)之间的稳定性。
步骤312,判断稳定性参数是否满足预设的参数阈值。
对于上述均值、交并比IoUAB和边界Boundary_AB中的任一稳定性参数,可以根据待训练模型的类型、应用场景、对象特点、精度要求等因素预先设置其对应的参数阈值,如可以设置上述均值/>,交并比IoUAB=0.9和边界Boundary_AB=0.95等。
进而,在计算得到上述一个或多个稳定性参数后,可以分别判断稳定性参数是否满足各自的参数阈值。若计算得到的稳定性参数满足预设的参数阈值,则转入步骤318;否则,若稳定性参数不满足预设的参数阈值,则转入步骤314。当然,在存在多个稳定性参数的情况下,可以根据实际情况设置各个稳定性参数的比较优先级或者比较规则,以确定各种比较结果分别对应的步骤跳转逻辑,不再赘述。
步骤314,计算第一分割图像和第二分割图像对应的综合分割损失。
在接收到待训练模型输出的第一分割图像和第二分割图像之后,模型训练设备可以确定第一分割图像与标准分割图像对应的独立分割损失和关联分割损失,然后根据独立分割损失和关联分割损失计算第一分割图像和第二分割图像对应的综合分割损失。
在一实施例中,可以基于第一分割图像与标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算二者之间的独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于目标区域或背景区域的概率。例如,在任一像素点的预测概率值g用于表征该像素点位于目标区域的概率的情况下,上述交叉墒损失函数如式(2)所示:
loss1= -[y*log(g) + (1-y)*log(1-g)] (2)
其中,y为像素点是否位于目标区域的标记值,像素点位于目标区域时y=1(或255),像素点位于背景区域时y=0;g为待训练模型输出的像素点位于目标区域的预测概率值。可见对于任一像素点,y越接近1,则g越接近1,loss1越小;g越接近0,loss1越大。反之,y越接近0,则g越接近1,loss1越大;g越接近1,loss1越小。
对应于图4,可以根据4A’与4M中各个像素点的预测概率值计算上述交叉墒损失函数loss1A,并根据4B’与4M中各个像素点的预测概率值计算上述交叉墒损失函数loss1B,上述loss1A和loss1B分别表示4A’和4B’相对于4M的分割误差。
对应于图5,可以根据5A’与5MA中各个像素点的预测概率值计算上述交叉墒损失函数loss1A,或者根据5B”与5MA中各个像素点的预测概率值计算上述交叉墒损失函数loss1B;并根据5B’与5MB中各个像素点的预测概率值计算上述交叉墒损失函数loss1B,或者根据5A”与5MB中各个像素点的预测概率值计算上述交叉墒损失函数loss1A。上述loss1A和loss1B分别表示5A’和5B’相对于5M的分割误差。
对应于不同的数据扩增方式,确定第一分割图像与第二分割图像对应的关联分割损失的方式也有所不同。在一实施例中,在数据扩增包括为第一图像添加光线信息的情况下,模型训练设备可以先获取第一分割图像与第二分割图像中各像素点分别对应的基本特征向量,然后确定第一分割图像与第二分割图像中相应像素点分别对应的基本特征向量之间的向量距离,最后将各像素点分别对应的向量距离的平均值作为关联分割损失。可以理解的是,该向量距离的平均值越小,则表明第一分割图像中的像素点与第二分割图像中的像素点之间预测概率越接近,即表明第一分割图像与第二分割图像的分割结果越接近,进一步表明针对第一图像和第二图像的分割稳定性越好。
参见图4,因为4A和4B中目标区域为位置相同,所以可以根据4A’与4B’计算二者中各个相应像素点所对应基础特征向量之间的向量距离,并将该向量距离作为4A’与4B’之间的关联分割损失。
在一实施例中,在数据扩增包括对第一图像进行仿射变换的情况下,模型训练设备可以对第一分割图像进行上述仿射变换以得到第一变换分割图像,并将第一变换分割图像与第二分割图像作为关联分割图像;或者,对第二分割图像进行对应于上述仿射变换的逆变换以得到第二变换分割图像,并将第一分割图像与第二变换分割图像作为关联分割图像;然后获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定两图像的各个基本特征向量之间的向量距离,最后将各像素点对应的向量距离的平均值作为关联分割损失,其中,上述任一像素点对应的基本特征向量用于表征待训练模型对该像素点位于目标区域的预测概率值的大小。
参见图5,因为5A和5B中目标区域的位置不同,所以可以根据关联分割图像5A”与5B’计算二者中各个相应像素点所对应基础特征向量之间的向量距离;或者根据关联分割图像5B”与5A’计算二者中各个相应像素点所对应基础特征向量之间的向量距离,并将计算得到的向量距离作为5A’与5B’之间的关联分割损失。
确定出上述独立分割损失和关联分割损失后,可以进一步根据二者得到待训练模型的综合分割损失。在一实施例中,可以按照预设的权重值确定独立分割损失和关联分割损失的加权和;并将该加权和作为待训练模型的综合分割损失。
例如,不妨假设上述关联分割损失为loss2,则上述综合分割损失LOSS可以为:
LOSS=weight1 * loss1+ weight2 * loss2 (3)
其中,上述weight1和weight2分别表示独立分割损失和关联分割损失在综合分割损失中所占的权重值。其中,上述weight1和weight2可以根据待训练模型的模型类型、具体场景、精度要求或者数据量级进行设置。
例如,为更加突出关联分割损失在综合分割损失中的作用,以尽可能保证训练得到的图像分割模型的分割稳定性,则可以将weight2适当设置的大一些,如可以设置weight1:weight2=1:5等,本公开实施例并不对此进行限制。
步骤316,按照综合分割损失调整待训练模型的模型参数。
根据上述综合分割损失LOSS调整待训练模型的模型参数,例如,可以按照预设的调整规则调整模型中的向量长度、神经元个数等模型参数,具体调整规则本公开并不进行限制。进行上述调整时,应尽量保证调整后的待训练模型对下一轮训练样本的综合分割损失LOSS’小于本轮训练样本的分割结果LOSS,即LOSS’<LOSS,从而保证调整后模型的分割精度和/或分割稳定性有所提高。
步骤318,终止模型训练过程。
此时,待训练模型的训练结果满足预设的模型损失要求,即表明当前模型满足模型训练要求,因此可以终止对待训练模型的训练过程,并将当前训练完成的模型作为训练结果,即训练得到的图像分割模型。
可以理解的是,模型训练的过程并非一蹴而就,而往往需要大量训练样本对待训练模型进行多次训练才能完成。所以,上述步骤302-316可能需要循环执行多次,直至步骤312中满足终止条件。
至此,针对待训练模型的训练过程已告完成。实际上,可以将上述过程训练得到的图像分割模型以独立SDK或者集成在其他图像处理应用中的功能模块等形式,部署在图像处理设备中。其中,上述图像处理应用可以为拍照、录视频等相机应用,也可以为对图像或视频进行后期或实时处理的第三方独立应用,图像处理设备可以在上述应用被调用时进一步调用上述SDK或功能模块以运行上述图像分割模型。
为此,本公开还提出同一种图像分割方法,参见图6所示的一种图像分割方法的流程图可见,该方法可以包括下述步骤:
步骤602,获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域。
步骤604,将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过本公开前述任一项所述的图像分割模型的训练方法预训练得到。
根据本公开的上述实施例,使用上述实施例训练得到的图像分割模型对待分割图像进行图像分割处,不仅能够实现对待分割图像的批量分割处理,而且有助于保证图像分割的速度和分割质量,从而能够实现对实时视频的快速、高质量的图像分割。可以应用在图像拍摄或视频录制前的预览阶段、视频录制过程中的特效实现、拍摄图像或录制视频后对图像或视频的后加后期处理阶段等,本公开实施例并不对此进行限制。
与前述图像分割模型的训练方法的实施例相对应地,本公开还提出了图像分割模型的训练装置的实施例。
图7是根据本公开的实施例示出的一种图像分割模型的训练装置的示意框图。本实施例所示的图像分割模型的训练装置可以适用于模型训练设备,该模型训练设备可以为服务器,该服务器可以为包含一独立主机的物理服务器、主机集群承载的虚拟服务器、云服务器等。
如图7所示,所述图像分割模型的训练装置可以包括:
样本获取模块701,被配置为获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到;
样本输入模块702,被配置为将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像;
损失确定模块703,被配置为根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失;
模型训练模块704,被配置为结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
可选的,所述损失确定模块703还被配置为:
基于所述第一分割图像与所述标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算所述独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率。
可选的,所述数据扩增处理包括为所述第一图像添加光线信息,所述损失确定模块703还被配置为:
获取所述第一分割图像与所述第二分割图像中各像素点分别对应的基本特征向量,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
确定所述第一分割图像与所述第二分割图像中的各相应像素点分别对应的所述基本特征向量之间的向量距离,所述第一分割图像中的任一像素点与所述第二分割图像中相同位置的像素点互为所述相应像素点;
将所述各像素点分别对应的所述向量距离的平均值作为所述关联分割损失。
可选的,所述数据扩增处理包括对所述第一图像进行仿射变换,所述损失确定模块703还被配置为:
对所述第一分割图像进行所述仿射变换以得到第一变换分割图像,并将所述第一变换分割图像与所述第二分割图像作为关联分割图像;或者,对所述第二分割图像进行对应于所述仿射变换的逆变换以得到第二变换分割图像,并将所述第一分割图像与所述第二变换分割图像作为关联分割图像;
获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定所述基本特征向量之间的向量距离,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;
将所述各像素点对应的所述向量距离的平均值作为所述关联分割损失。
可选的,所述损失确定模块703还被配置为:
将所述任一像素点的预测概率值作为向量长度构建所述基本特征向量,其中,所述任一像素点的预测概率值为该像素点位于所述目标区域或所述背景区域的概率;或者,
获取所述待训练模型中预设隐藏层输出的特征图像,确定所述任一像素点在所述特征图像中所对应像素点的特征值,并将利用所述特征值构建的特征向量确定为所述任一像素点对应的基本特征向量。
可选的,所述预设隐藏层包括所述待训练模型的多层隐藏层中的最后一层隐藏层,所述特征图像、所述第一分割图像和所述第二分割图像各自包含的像素点的数量相同。
可选的,所述模型训练模块704还被配置为:
按照预设的权重值确定所述独立分割损失和所述关联分割损失的加权和,并将所述加权和确定为所述待训练模型的综合分割损失。
可选的,所述模型训练模块704还被配置为:
在所述第一分割图像和所述第二分割图像之间的至少一个稳定性参数满足所述待训练模型对应的参数阈值的情况下,终止训练所述待训练模型,并将最后一次训练得到的所述待训练模型作为所述图像分割模型;
其中,所述稳定性参数包括下述至少之一:
所述第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中任一像素点对应的预测差值为该像素点的预测概率值与该像素点在所述第二分割图像中对应的相应像素点的预测概率值之间的差值,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
所述第一分割图像中的目标区域与所述第二分割图像中的目标区域之间的交并比;
所述第一分割图像中的目标区域的边界与所述第二分割图像中的目标区域的边界之间的吻合度。
图8是根据本公开的实施例示出的一种图像分割装置的示意框图。本实施例所示的图像分割装置可以适用于图像处理设备,该图像处理设备可以为终端设备,该终端设备包括但不限于手机、平板电脑、可穿戴设备、个人计算机等电子设备。该图像分割装置可以作为可调用的独立SDK或者集成在图像处理设备的图像处理应用中的功能模块等形式,部署在图像处理设备中。上述图像处理应用可以为拍照、录视频等相机应用,也可以为对图像或视频进行后期或实时处理的第三方独立应用,本公开实施例并不对此进行限制。
如图8所示,所述图像分割装置可以包括:
图像获取模块801,被配置为获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域;
图像分割模块802,被配置为将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过上述第一方面中任一项所述的图像分割模型的训练方法预训练得到。
本公开的实施例还提出一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一实施例所述的图像分割模型的训练方法或者上述任一实施例所述的图像分割方法。
本公开的实施例还提出一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施例所述的图像分割模型的训练方法或图像分割方法。
本公开的实施例还提出一种计算机程序产品,所述计算机程序产品被配置为执行上述任一实施例所述的图像分割模型的训练方法或图像分割方法。
图9是根据本公开的实施例示出的一种电子设备的示意框图。例如,电子设备900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件918。
处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述图像分割模型的训练方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图像,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件918发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如所述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
图像采集组件916可以用于采集被摄对象的图像数据,以形成关于被摄对象的图像,并可以对该图像进行必要的处理。该图像采集组件916可以包括相机模组,相机模组中的图像传感器(Sensor)通过镜头感应来自被摄对象的光线,将得到的感光数据提供给图像信号处理器(ISP,Image Signal Proce待训练模型ing),由后者根据感光数据生成对应于被摄对象的图像。其中,上述图像传感器可以为CMOS传感器或CCD传感器,当然,也可以为红外传感器、深度传感器等;相机模组可以内置在电子设备900中,也可以为电子设备900的外接模组;上述ISP可以内置在相机模组中,也可以外挂在上述电子设备中(不在相机模组内)。
通信组件918被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件918经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件918还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在本公开一实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图像分割模型的训练方法。
在本公开一实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述图像分割模型的训练方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本公开实施例所提供的方法和装置进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
Claims (15)
1.一种图像分割模型的训练方法,其特征在于,包括:
获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到,所述标准分割图像通过对所述第一图像中的所述目标对象进行标记得到;
将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像;
根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失;其中:
所述根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,包括:基于所述第一分割图像与所述标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算所述独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
在所述数据扩增处理包括为所述第一图像添加光线信息的情况下,所述根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失,包括:获取所述第一分割图像与所述第二分割图像中各像素点分别对应的基本特征向量,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;确定所述第一分割图像与所述第二分割图像中的各相应像素点分别对应的所述基本特征向量之间的向量距离,所述第一分割图像中的任一像素点与所述第二分割图像中相同位置的像素点互为所述相应像素点;将所述各像素点分别对应的所述向量距离的平均值作为所述关联分割损失;
在所述数据扩增处理包括对所述第一图像进行仿射变换的情况下,所述根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失,包括:对所述第一分割图像进行所述仿射变换以得到第一变换分割图像,并将所述第一变换分割图像与所述第二分割图像作为关联分割图像;或者,对所述第二分割图像进行对应于所述仿射变换的逆变换以得到第二变换分割图像,并将所述第一分割图像与所述第二变换分割图像作为关联分割图像;获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定所述基本特征向量之间的向量距离,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;将所述各像素点对应的所述向量距离的平均值作为所述关联分割损失;
结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
2.根据权利要求1所述的方法,其特征在于,获取任一图像中的任一像素点对应的所述基本特征向量,包括:
将所述任一像素点的预测概率值作为向量长度构建所述基本特征向量,其中,所述任一像素点的预测概率值为该像素点位于所述目标区域或所述背景区域的概率;或者,
获取所述待训练模型中预设隐藏层输出的特征图像,确定所述任一像素点在所述特征图像中所对应像素点的特征值,并将利用所述特征值构建的特征向量确定为所述任一像素点对应的基本特征向量。
3.根据权利要求2所述的方法,其特征在于,所述预设隐藏层包括所述待训练模型的多层隐藏层中的最后一层隐藏层,所述特征图像、所述第一分割图像和所述第二分割图像各自包含的像素点的数量相同。
4.根据权利要求1所述的方法,其特征在于,所述结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,包括:
按照预设的权重值确定所述独立分割损失和所述关联分割损失的加权和,并将所述加权和确定为所述待训练模型的综合分割损失。
5.根据权利要求1所述的方法,其特征在于,所述根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型,包括:
在所述第一分割图像和所述第二分割图像之间的至少一个稳定性参数满足所述待训练模型对应的参数阈值的情况下,终止训练所述待训练模型,并将最后一次训练得到的所述待训练模型作为所述图像分割模型;
其中,所述稳定性参数包括下述至少之一:
所述第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中任一像素点对应的预测差值为该像素点的预测概率值与该像素点在所述第二分割图像中对应的相应像素点的预测概率值之间的差值,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
所述第一分割图像中的目标区域与所述第二分割图像中的目标区域之间的交并比;
所述第一分割图像中的目标区域的边界与所述第二分割图像中的目标区域的边界之间的吻合度。
6.一种图像分割方法,其特征在于,包括:
获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域;
将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过如权利要求1至5中任一项所述的图像分割模型的训练方法预训练得到。
7.一种图像分割模型的训练装置,其特征在于,包括:
样本获取模块,被配置为获取包括第一图像和第二图像的训练样本,所述第一图像包括对应于目标对象的目标区域和所述目标区域之外的背景区域,所述第一图像对应的标准分割图像用于指示所述目标区域和所述背景区域的相对位置关系,所述第二图像由所述第一图像经过数据扩增处理得到,所述标准分割图像通过对所述第一图像中的所述目标对象进行标记得到;
样本输入模块,被配置为将所述训练样本输入待训练模型,以获取所述待训练模型对所述训练样本中的所述目标对象进行分割处理后输出的第一分割图像和第二分割图像,所述第一分割图像对应于所述第一图像,所述第二分割图像对应于所述第二图像;
损失确定模块,被配置为根据所述第一分割图像和所述标准分割图像之间的差值,得到独立分割损失,并根据所述第一分割图像和所述第二分割图像之间的差值,得到关联分割损失;其中,
所述损失确定模块具体被配置为:基于所述第一分割图像与所述标准分割图像中各像素点的预测概率值,利用交叉墒损失函数计算所述独立分割损失,其中,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
在所述数据扩增处理包括为所述第一图像添加光线信息的情况下,所述损失确定模块具体被配置为:获取所述第一分割图像与所述第二分割图像中各像素点分别对应的基本特征向量,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;确定所述第一分割图像与所述第二分割图像中的各相应像素点分别对应的所述基本特征向量之间的向量距离,所述第一分割图像中的任一像素点与所述第二分割图像中相同位置的像素点互为所述相应像素点;将所述各像素点分别对应的所述向量距离的平均值作为所述关联分割损失;
在所述数据扩增处理包括对所述第一图像进行仿射变换的情况下,所述损失确定模块具体被配置为:对所述第一分割图像进行所述仿射变换以得到第一变换分割图像,并将所述第一变换分割图像与所述第二分割图像作为关联分割图像;或者,对所述第二分割图像进行对应于所述仿射变换的逆变换以得到第二变换分割图像,并将所述第一分割图像与所述第二变换分割图像作为关联分割图像;获取作为关联分割图像的两图像中各像素点分别对应的基本特征向量,并确定所述基本特征向量之间的向量距离,任一像素点对应的所述基本特征向量用于表征所述待训练模型对该像素点位于所述目标区域的预测概率值的大小;将所述各像素点对应的所述向量距离的平均值作为所述关联分割损失;
模型训练模块,被配置为结合所述独立分割损失和所述关联分割损失得到所述待训练模型的综合分割损失,并根据所述综合分割损失训练所述待训练模型以得到所述图像分割模型。
8.根据权利要求7所述的装置,其特征在于,所述损失确定模块还被配置为:
将所述任一像素点的预测概率值作为向量长度构建所述基本特征向量,其中,所述任一像素点的预测概率值为该像素点位于所述目标区域或所述背景区域的概率;或者,
获取所述待训练模型中预设隐藏层输出的特征图像,确定所述任一像素点在所述特征图像中所对应像素点的特征值,并将利用所述特征值构建的特征向量确定为所述任一像素点对应的基本特征向量。
9.根据权利要求8所述的装置,其特征在于,所述预设隐藏层包括所述待训练模型的多层隐藏层中的最后一层隐藏层,所述特征图像、所述第一分割图像和所述第二分割图像各自包含的像素点的数量相同。
10.根据权利要求7所述的装置,其特征在于,所述模型训练模块还被配置为:
按照预设的权重值确定所述独立分割损失和所述关联分割损失的加权和,并将所述加权和确定为所述待训练模型的综合分割损失。
11.根据权利要求7所述的装置,其特征在于,所述模型训练模块还被配置为:
在所述第一分割图像和所述第二分割图像之间的至少一个稳定性参数满足所述待训练模型对应的参数阈值的情况下,终止训练所述待训练模型,并将最后一次训练得到的所述待训练模型作为所述图像分割模型;
其中,所述稳定性参数包括下述至少之一:
所述第一分割图像中位于目标区域的各像素点分别对应的预测差值的均值,其中任一像素点对应的预测差值为该像素点的预测概率值与该像素点在所述第二分割图像中对应的相应像素点的预测概率值之间的差值,任一像素点的预测概率值用于表征该像素点位于所述目标区域或所述背景区域的概率;
所述第一分割图像中的目标区域与所述第二分割图像中的目标区域之间的交并比;
所述第一分割图像中的目标区域的边界与所述第二分割图像中的目标区域的边界之间的吻合度。
12.一种图像分割装置,其特征在于,包括:
图像获取模块,被配置为获取待分割图像,所述待分割图像包括对应于待分割对象的对象区域和所述对象区域之外的背景区域;
图像分割模块,被配置为将所述待分割图像输入图像分割模型,以获取所述图像分割模型对所述待分割图像中的所述目标对象进行分割处理后输出的分割后图像,所述图像分割模型通过如权利要求1至5中任一项所述的图像分割模型的训练方法预训练得到。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的图像分割模型的训练方法或如权利要求6所述的图像分割方法。
14.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至5中任一项所述的图像分割模型的训练方法或如权利要求6所述的图像分割方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品被配置为执行如权利要求1至5中任一项所述的图像分割模型的训练方法或如权利要求6所述的图像分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011475015.5A CN112508974B (zh) | 2020-12-14 | 2020-12-14 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011475015.5A CN112508974B (zh) | 2020-12-14 | 2020-12-14 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508974A CN112508974A (zh) | 2021-03-16 |
CN112508974B true CN112508974B (zh) | 2024-06-11 |
Family
ID=74973899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011475015.5A Active CN112508974B (zh) | 2020-12-14 | 2020-12-14 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508974B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651880B (zh) * | 2020-12-25 | 2022-12-30 | 北京市商汤科技开发有限公司 | 视频数据处理方法及装置、电子设备和存储介质 |
CN113361380B (zh) * | 2021-06-03 | 2023-04-07 | 上海哔哩哔哩科技有限公司 | 人体关键点检测模型训练方法、检测方法及装置 |
CN115512116B (zh) * | 2022-11-01 | 2023-06-30 | 北京安德医智科技有限公司 | 图像分割模型优化方法、装置、电子设备及可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410220A (zh) * | 2018-10-16 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110189341A (zh) * | 2019-06-05 | 2019-08-30 | 北京青燕祥云科技有限公司 | 一种图像分割模型训练的方法、图像分割的方法及装置 |
CN110245662A (zh) * | 2019-06-18 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 检测模型训练方法、装置、计算机设备和存储介质 |
CN110298851A (zh) * | 2019-07-04 | 2019-10-01 | 北京字节跳动网络技术有限公司 | 人体分割神经网络的训练方法及设备 |
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110782468A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 图像分割模型的训练方法及装置及图像分割方法及装置 |
CN110796673A (zh) * | 2019-10-31 | 2020-02-14 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
CN111415358A (zh) * | 2020-03-20 | 2020-07-14 | Oppo广东移动通信有限公司 | 图像分割方法、装置、电子设备及存储介质 |
WO2020143309A1 (zh) * | 2019-01-09 | 2020-07-16 | 平安科技(深圳)有限公司 | 分割模型训练方法、oct图像分割方法、装置、设备及介质 |
WO2020199593A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
WO2020211293A1 (zh) * | 2019-04-18 | 2020-10-22 | 北京市商汤科技开发有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
-
2020
- 2020-12-14 CN CN202011475015.5A patent/CN112508974B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410220A (zh) * | 2018-10-16 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
WO2020143309A1 (zh) * | 2019-01-09 | 2020-07-16 | 平安科技(深圳)有限公司 | 分割模型训练方法、oct图像分割方法、装置、设备及介质 |
WO2020199593A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
WO2020211293A1 (zh) * | 2019-04-18 | 2020-10-22 | 北京市商汤科技开发有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110189341A (zh) * | 2019-06-05 | 2019-08-30 | 北京青燕祥云科技有限公司 | 一种图像分割模型训练的方法、图像分割的方法及装置 |
CN110245662A (zh) * | 2019-06-18 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 检测模型训练方法、装置、计算机设备和存储介质 |
CN110298851A (zh) * | 2019-07-04 | 2019-10-01 | 北京字节跳动网络技术有限公司 | 人体分割神经网络的训练方法及设备 |
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110782468A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 图像分割模型的训练方法及装置及图像分割方法及装置 |
CN110796673A (zh) * | 2019-10-31 | 2020-02-14 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
CN111415358A (zh) * | 2020-03-20 | 2020-07-14 | Oppo广东移动通信有限公司 | 图像分割方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112508974A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508974B (zh) | 图像分割模型的训练方法、装置、电子设备和存储介质 | |
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
CN111310616B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110782468B (zh) | 图像分割模型的训练方法及装置及图像分割方法及装置 | |
CN108629354B (zh) | 目标检测方法及装置 | |
KR101727169B1 (ko) | 이미지 필터를 생성하기 위한 방법 및 장치 | |
CN111160448B (zh) | 一种图像分类模型的训练方法及装置 | |
CN107133354B (zh) | 图像描述信息的获取方法及装置 | |
CN110751659B (zh) | 图像分割方法及装置、终端、存储介质 | |
CN111461182B (zh) | 图像处理方法、图像处理装置及存储介质 | |
CN106557759B (zh) | 一种标志牌信息获取方法及装置 | |
CN110941727B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
CN112148980B (zh) | 基于用户点击的物品推荐方法、装置、设备和存储介质 | |
CN112115894A (zh) | 手部关键点检测模型的训练方法、装置及电子设备 | |
CN114186622A (zh) | 图像特征提取模型训练方法、图像特征提取方法和装置 | |
CN114494442A (zh) | 图像处理方法、装置及设备 | |
CN117529753A (zh) | 图像分割模型的训练方法、图像分割方法和装置 | |
CN112529846A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN114120034A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113888543B (zh) | 肤色分割方法、装置、电子设备及存储介质 | |
CN107292901B (zh) | 边缘检测方法及装置 | |
CN107480773B (zh) | 训练卷积神经网络模型的方法、装置及存储介质 | |
CN111274444B (zh) | 视频封面确定模型的生成方法及装置、视频封面确定方法及装置 | |
CN115512116B (zh) | 图像分割模型优化方法、装置、电子设备及可读存储介质 | |
CN116543211A (zh) | 图像属性编辑方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |