CN113052242A - 图像处理网络的训练方法及装置、图像处理方法及装置 - Google Patents

图像处理网络的训练方法及装置、图像处理方法及装置 Download PDF

Info

Publication number
CN113052242A
CN113052242A CN202110334694.2A CN202110334694A CN113052242A CN 113052242 A CN113052242 A CN 113052242A CN 202110334694 A CN202110334694 A CN 202110334694A CN 113052242 A CN113052242 A CN 113052242A
Authority
CN
China
Prior art keywords
image
training
trimap
alpha
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110334694.2A
Other languages
English (en)
Inventor
孙亚楠
戴宇荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110334694.2A priority Critical patent/CN113052242A/zh
Publication of CN113052242A publication Critical patent/CN113052242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Abstract

本公开关于一种图像处理网络的训练方法及装置、一种图像处理方法及装置。该图像处理网络的训练方法包括:获取训练图像和训练图像的三分图以及训练图像的阿尔法值;基于训练图像和训练图像的三分图获得训练图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。根据本公开的图像处理网络的训练方法及装置,可使得图像处理网络在训练时收敛的更好。根据本公开的图像处理方法及装置,可提高图像处理效果。

Description

图像处理网络的训练方法及装置、图像处理方法及装置
技术领域
本公开涉及视频技术领域。更具体地,本公开涉及一种图像处理网络的训练方法及装置、一种图像处理方法及装置。
背景技术
在抠图任务中,一张图片可以认为是前景图像和背景图像的线性组合,组合的系数就是待求解的阿尔法值(Alpha),也被称为透明度图层。常见的前景物体有很多种类,包括人像,动物,透明或半透明的物体比如玻璃杯/纱裙,以及形状复杂的物体比如蜘蛛网/树木等,这些各种各样的前景物体极大的增加了抠图问题的难度,使得抠图任务更具有挑战性。
由于在不提供额外条件的情况下,算法无法定义前景物体,所以相关算法通常需要用户输入来指定前景物体,其中最常用的用户输入是三分图(trimap图)。三分图由三部分组成,分别是前景区域、背景区域、以及未知区域,而不包含任何的语义类别信息,即三分图并不提供任何和前景物体类别相关的信息。
发明内容
本公开的示例性实施例在于提供一种图像处理网络的训练方法及装置、图像处理方法及装置,以至少解决相关技术中的图像处理的问题,也可不解决任何上述问题。
根据本公开的示例性实施例,提供一种图像处理网络的训练方法,包括:获取训练图像和训练图像的三分图以及训练图像的阿尔法值;基于训练图像和训练图像的三分图获得训练图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
可选地,对所述图像处理网络进行训练的步骤可包括:将训练图像、训练图像的三分图和训练图像的语义三分图输入到所述图像处理网络中,获得训练图像的每个区域的像素的阿尔法预测值;基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失;根据预测损失对所述图像处理网络的参数进行调整。
可选地,基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失的步骤可包括:将训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值输入到预设的多类别判别器中,获得针对阿尔法预测值和阿尔法值的预测结果以及在判别过程中多类别判别器的每个网络层提取出的特征图;基于所述预测结果和所述特征图,确定所述图像处理网络的分类损失以及特征重建损失。
可选地,基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失的步骤还可包括:确定所述图像处理网络的可学习参数;基于训练图像的每个区域的像素的阿尔法预测值和所述图像处理网络的可学习参数,确定所述图像处理网络的阿尔法梯度分布损失。
可选地,基于训练图像和训练图像的三分图获得训练图像的语义三分图的步骤可包括:将训练图像和训练图像的三分图输入到预设的分类器中,通过所述分类器获得训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得训练图像的语义三分图。
根据本公开的示例性实施例,提供一种图像处理方法,包括:基于图像和所述图像的三分图获得所述图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值;基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
可选地,基于图像和所述图像的三分图获得所述图像的语义三分图的步骤可包括:将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
可选地,预测所述图像的每个区域的像素的阿尔法值的步骤可包括:基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式;基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
根据本公开的示例性实施例,提供一种图像处理网络的训练装置,包括:训练数据接收单元,被配置为获取训练图像和训练图像的三分图以及训练图像的阿尔法值;语义图获得单元,被配置为基于训练图像和训练图像的三分图获得训练图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;和训练单元,被配置为基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
可选地,训练单元可被配置为:将训练图像、训练图像的三分图和训练图像的语义三分图输入到所述图像处理网络中,获得训练图像的每个区域的像素的阿尔法预测值;基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失;根据预测损失对所述图像处理网络的参数进行调整。
可选地,训练单元可被配置为:将训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值输入到预设的多类别判别器中,获得针对阿尔法预测值和阿尔法值的预测结果以及在判别过程中多类别判别器的每个网络层提取出的特征图;基于所述预测结果和所述特征图,确定所述图像处理网络的分类损失以及特征重建损失。
可选地,训练单元可被配置为:确定所述图像处理网络的可学习参数;基于训练图像的每个区域的像素的阿尔法预测值和所述图像处理网络的可学习参数,确定所述图像处理网络的阿尔法梯度分布损失。
可选地,语义图获得单元可被配置为:将训练图像和训练图像的三分图输入到预设的分类器中,通过所述分类器获得训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得训练图像的语义三分图。
根据本公开的示例性实施例,提供一种图像处理装置,包括:语义图获得单元,被配置为基于图像和所述图像的三分图获得所述图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;预测单元,被配置为基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值;和图像处理单元,被配置为基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
可选地,语义图获得单元可被配置为:将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
可选地,预测单元可被配置为:基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式;基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
根据本公开的示例性实施例,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开的示例性实施例的图像处理方法。
根据本公开的示例性实施例,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使得电子设备执行根据本公开的示例性实施例的图像处理方法。
根据本公开的示例性实施例,提供一种计算机程序产品,包括计算机程序/指令,当所述计算机程序/指令被处理器执行时,实现根据本公开的示例性实施例的图像处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
使得图像处理网络在训练时收敛的更好;
使得图像处理网络针对不同类别给出更精准的预测。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出根据本公开的示例性实施例的20个Alpha区域的类别的示例。
图2示出根据本公开的示例性实施例的图像处理网络的训练的整体系统示意图。
图3示出根据本公开的示例性实施例的2D分数图的一个示例。
图4示出根据本公开的示例性实施例的异步转码框架的示意图。
图5示出根据本公开的示例性实施例的图像处理网络的训练方法的流程图。
图6示出不同类别的Alpha分布和Alpha梯度分布的示意图。
图7示出根据本公开的一个示例性实施例的图像处理方法的流程图。
图8示出根据本公开的另一示例性实施例的图像处理方法的流程图。
图9示出根据本公开的示例性实施例的图像处理网络的训练装置的框图。
图10示出根据本公开的一个示例性实施例的图像处理装置的框图。
图11示出根据本公开的另一示例性实施例的图像处理装置的框图。
图12是根据本公开的示例性实施例的电子设备1200的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
传统算法依靠色彩/纹理/结构等底层特征来解决抠图问题,由于这些算法并没有将前景物体的语义信息考虑进去,所以在前景和背景像素较为接近的图像中经常会预测失败。深度神经网络的应用可以在一定程度上缓解这个问题,因此很多研究致力于改进网络结构从而提升抠图性能。但是这些算法仍然统一处理各种各样的前景物体,。最近,一些研究开始针对特定类别的前景物体对抠图问题进行求解,比如人像抠图,透明物体抠图等。由于只处理特定类别的物体,这些算法在其针对的前景物体上取得了优异的性能。然而,这些算法仍然只是从数据层面应用语义类别信息,并没有从更深层次挖掘不同语义的出现原因以及成分构成。具体来讲,给定一个前景物体,它可能由不同的边界和模式组成,例如人体,通常既有精细复杂的毛发边缘,也有清晰明确的身体边缘,因此如何有效利用这些先验信息来提升抠图性能亟待解决。
目前的解决方案并不区分不同的前景物体和区域。这些算法依靠用户提供的三分图来确定前景区域,背景区域,以及未知区域。具体而言,无论是传统算法还是基于深度神经网络的算法,他们都要输入一张RGB图片以及用户提供的三分图,并根据trimap对图片提取底层或高层的图像特征,然后依靠这些特征进行像素级的阿尔法(Alpha)预测。一些针对特定前景类别的算法,例如人像抠图,减少了对三分图的依赖。因为有人像的先验知识,最近的人像抠图算法应用大规模人像数据集以及显著性识别技巧,首先在第一个阶段预测出人像掩膜,再根据人像掩膜在第二个阶段预测出最终的Alpha值。
对于不区分不同前景区域的抠图算法,它们在处理图像的不同区域时不能有效利用前景物体的语义信息,因此当三分图中的未知区域较大时,经常会将背景像素误识别为前景像素。
而针对特定前景类别的抠图算法,其应用范围有限;另外,即使是单一前景物体,它的边缘/形状和纹理,也通常由多种类别构成,这些情况也限制了算法的性能。
本公开旨在有效探索和利用前景物体区域中的语义信息。由于自然图片中的前景物体多种多样,因此即使是同一前景物体也可能有多种边缘和模式组成。这些不同区域的模式直接导致了Alpha值的多样性,例如在边缘清晰的区域,Alpha值通常接近1或接近0,即像素通常属于确定的前景或者确定的背景;在半透明的过渡区域,Alpha值通常介于0到1之间,并且从前景到背景区域递减。如果能根据前景物体有效识别其不同区域的模式组成,并以此作为先验知识输入到图像处理网络中,能够有效帮助图像处理网络预测不同区域的Alpha值。这里,图像处理网络用于抠图处理,即从待处理的图像中获取指定的目标对象。
在本公开中,为了区分不同前景区域的模式,根据物体的边缘/形状等定义了多个(例如,但不限于20个)Alpha区域的类别,以覆盖了绝大多数日然生活中会遇到的抠图场景。图1示出根据本公开的示例性实施例的20个Alpha区域的类别的示例。在本公开中,为便于描述,以20个Alpha区域的类别为例进行说明。
下面,将参照图2至图12具体描述根据本公开的示例性实施例的图像处理网络的训练方法及装置、图像处理方法及装置。
图2示出根据本公开的示例性实施例的图像处理网络的训练的整体系统示意图。
图2中示出了分类器210、多类别判别器220和图像处理网络230。分类器210可以是基于区域的分类器,用于产生富含语义的三分图。传统的三分图由前景区域,背景区域以及未知区域组成,不包含任何语义相关的信息。为了给图像处理网络提供先验知识,在本公开中将传统的三分图扩展为语义三分图。多类别判别器用于从损失的角度给图像处理网络提供了语义层面的监督。多类别判别器的输入是不同区域的Alpha图而不是RGB图。
分类器210可半监督自动产生图像的每个区域属于20个Alpha区域的类别的分数图。具体而言,可针对这20个类别收集了足够的数据,构成一个类间平衡的大规模数据集;由于很多单一的前景物体是由多种Alpha模式组成,因此,对于将每张RGB图片以及其对应的Alpha图,细分为不同区域,并根据不同区域的Alpha模式给标注了相应类别。
图2中的分类器和多类别判别器可以是训练好的分类器和多类别判别器。
例如,在训练基于区域的分类器时,以带有类别标注的RGB图片区域作为输入,并经过一个深度卷积分类网络(ResNet-50)预测类别标注的RGB图片对应的Alpha模式类别。当这个基于区域的分类器收敛后,从网络中得到最后一层的2D特征图以及全连接层的权重,并通过将2D特征图按照类别进行加权求和得到多维的2D分数图。例如,图3示出根据本公开的示例性实施例的2D分数图的一个示例。在图3中,a和b分别是2个类别的分数图的可视化,值越大代表置信度越高,即像素属于此类别的可能性越大。
多类别判别器220的模型也可以是一个分类器,其结构以及训练方式和基于区域的分类器结果类似,但输入是不同区域的Alpha图而不是RGB图。
例如,图4示出根据本公开的示例性实施例的多分类判别器的应用方式。
如图4所示,对于图像中的给定区域,由图像处理网络230预测出Alpha值后,预测值以及其对应的真值作为输入被送到多类别判别器220中,并得到两个预测结果
Figure BDA0002996960470000081
以及p,以及从多类别判别器多个网络层级提取出的不同尺度的特征图
Figure BDA0002996960470000082
和fi(i∈{1,2,3,4,5}),以用于计算多类别分类损失Lc以及特征重建损失Lf,来从语义层面监督图像处理网络230收敛。此外,如图2所示,还可计算重建损失和Alpha梯度分布损失来监督图像处理网络230收敛。
图像处理网络230可以是自动编码-解码器。在本公开中,未对图像处理网络230设计特殊结构,因此可以根据不同应用场景切换不同的图像处理网络,例如在服务端应用时使用精度更高的深度网络,在移动端应用时使用实时的轻便网络。
图5示出根据本公开的示例性实施例的图像处理网络的训练方法的流程图。
参照图5,在步骤S501,获取训练图像和训练图像的三分图以及训练图像的阿尔法值。
在本公开的示例性实施例中,训练图像和训练图像的三分图以及训练图像的阿尔法值可由用户提供。三分图由前景区域、背景区域以及未知区域组成,不包含任何语义相关的信息。
在步骤S502,基于训练图像和训练图像的三分图获得训练图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
为了给图像处理网络(例如,抠图网络)提供先验知识,在本公开的示例性实施例中,可将三分图扩展为语义三分图。语义三分图可以是例如,但不限于,三分图和20类2D分数图(score map)的串联。三分图能够给出前景以及背景的分布,而20类分数图能够给出图片中不同区域的像素属于不同类别Alpha模式的置信度。有了语义三分图作为输入,图像处理网络有足够的先验知识确定不同区域的Alpha模式,从而减少了求解空间,使得网络收敛的更好。
在本公开的示例性实施例中,在基于训练图像和训练图像的三分图获得训练图像的语义三分图时,可首先将训练图像和训练图像的三分图输入到预设的分类器(例如,图2的分类器220)中,通过所述分类器(例如,图2的分类器220)获得训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,然后基于训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得训练图像的语义三分图。
在步骤S503,基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
在本公开的示例性实施例中,在对所述图像处理网络进行训练时,可首先将训练图像、训练图像的三分图和训练图像的语义三分图输入到所述图像处理网络中,获得训练图像的每个区域的像素的阿尔法预测值,基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失,然后根据预测损失对所述图像处理网络的参数进行调整。
在本公开的示例性实施例中,在基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失时,可首先将训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值输入到预设的多类别判别器中,获得针对阿尔法预测值和阿尔法值的预测结果(例如,图4中的
Figure BDA0002996960470000091
和p)以及在判别过程中多类别判别器的每个网络层提取出的特征图(例如,图4中的
Figure BDA0002996960470000092
和fi(i∈{1,2,3,4,5})),然后基于所述预测结果(例如,图4中的
Figure BDA0002996960470000093
和p)和所述特征图(例如,图4中的
Figure BDA0002996960470000094
和fi(i∈{1,2,3,4,5})),确定所述图像处理网络的分类损失Lc以及特征重建损失Lf。例如,可通过以下公式来计算分类损失Lc以及特征重建损失Lf
Figure BDA0002996960470000095
Figure BDA0002996960470000096
值得一提的是,在计算Lc时,即使多类别判别器对于真值区域的预测与其真值不同,即不同于其真值,但在本公开中仍然使用p而不是其真值作为目标。例如,对于给定区域,如果其真值区域经过多类别判别器后得到的预测是类别1(例如,hair_easy),但其真值标签是类别2(例如,hair_hard),则仍然使用类别1(例如,hair_easy)作为监督,因为这里的目标是使得预测得到的Alpha值分布与其真值区域尽可能的接近,而不是与标注的分类标签接近。
相关的抠图算法在监督网络时通常使用像素级别的L1损失。在抠图任务中,L1损失是最直接的监督,但它的缺点是没有考虑区域内像素间的关联。在本公开中,通过引入多类别分类损失和特征重建损失,在语义层面上给出基于区域的分布损失,帮助图像处理网络区分不同Alpha区域的模式区别,从而能够对各个类别给出更精准的预测。
图6示出不同类别的Alpha分布和Alpha梯度分布的示意图。如图6所示,不同类别的Alpha模式不同,除了体现在Alpha数值的分布,也体现在Alpha的梯度分布上。对于一些类别,虽然它的Alpha分布稀疏,比如spider_web,但是其Alpha区域的梯度分布较大;对于一些类别,虽然它的Alpha分布紧密,比如silk,但是其Alpha区域的梯度分布较小。这意味着不同类别的Alpha梯度分布有各自的特点。因此,在本公开中,引入可学习的梯度相关的损失,从而针对不同类别提供不同的监督。
在本公开的示例性实施例中,在基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失时,还可确定所述图像处理网络的可学习参数,并且基于训练图像的每个区域的像素的阿尔法预测值和所述图像处理网络的可学习参数,确定所述图像处理网络的Alpha梯度分布损失。
例如,可将抠图问题定义为公式I=αF+(1-α)B,对该公式两边求导可得到如下公式:
Figure BDA0002996960470000101
由于F-B和α未知,因此可通过图像处理网络学习这两个参数并用作正则化系数,来平衡不同类别里前景/背景/Alpha对图片在梯度上的贡献。如果用λ1和λ2表示这两个可学习参数,则上述公式可表示为:
Figure BDA0002996960470000102
基于可学习的梯度损失Lg可表示为:
Figure BDA0002996960470000103
这里,U指三分图中的未知区域,
Figure BDA0002996960470000104
通过引入可学习的梯度损失,图像处理网络能够根据输入产生类别相关的损失,从而引导图像处理网络关注到不同类别下的Alpha模式的区别,最终提升图像处理网络的预测精度。
图7示出根据本公开的一个示例性实施例的图像处理方法的流程图。
参照图7,在步骤S701,基于图像和所述图像的三分图获得所述图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
在本公开的示例性实施例中,在基于图像和所述图像的三分图获得所述图像的语义三分图时,可首先将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,然后基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
在步骤S702,基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值。例如,可基于所述图像、所述图像的三分图以及所述图像的语义三分图利用图5中的方法训练得到的图像处理网络来预测所述图像的每个区域的像素的阿尔法值。
在本公开的示例性实施例中,在预测所述图像的每个区域的像素的阿尔法值时,可首先基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式,然后基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
图8示出根据本公开的另一示例性实施例的图像处理方法的流程图。
参照图8,在步骤S801,基于图像和所述图像的三分图获得所述图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
在本公开的示例性实施例中,在基于图像和所述图像的三分图获得所述图像的语义三分图时,可首先将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,然后基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
在步骤S802,基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值。例如,可基于所述图像、所述图像的三分图以及所述图像的语义三分图利用图5中的方法训练得到的图像处理网络来预测所述图像的每个区域的像素的阿尔法值。
在本公开的示例性实施例中,在预测所述图像的每个区域的像素的阿尔法值时,可首先基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式,然后基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
在步骤S803,基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
以上已经结合图1至图8对根据本公开的示例性实施例的图像处理网络的训练方法、图像处理方法进行了描述。在下文中,将参照图9至图11对根据本公开的示例性实施例的图像处理网络的训练装置、图像处理装置及其单元进行描述。
图9示出根据本公开的示例性实施例的图像处理网络的训练装置的框图。
参照图9,图像处理网络的训练装置包括训练数据接收单元91、语义图获得单元92和训练单元93。
训练数据接收单元91被配置为获取训练图像和训练图像的三分图以及训练图像的阿尔法值。
语义图获得单元92被配置为基于训练图像和训练图像的三分图获得训练图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
在本公开的示例性实施例中,语义图获得单元92可被配置为:将训练图像和训练图像的三分图输入到预设的分类器中,通过所述分类器获得训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得训练图像的语义三分图。
训练单元93被配置为基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
在本公开的示例性实施例中,训练单元93可被配置为:将训练图像、训练图像的三分图和训练图像的语义三分图输入到所述图像处理网络中,获得训练图像的每个区域的像素的阿尔法预测值;基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失;根据预测损失对所述图像处理网络的参数进行调整。
在本公开的示例性实施例中,训练单元93可被配置为:将训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值输入到预设的多类别判别器中,获得针对阿尔法预测值和阿尔法值的预测结果以及在判别过程中多类别判别器的每个网络层提取出的特征图;基于所述预测结果和所述特征图,确定所述图像处理网络的分类损失以及特征重建损失。
在本公开的示例性实施例中,训练单元93可被配置为:确定所述图像处理网络的可学习参数;基于训练图像的每个区域的像素的阿尔法预测值和所述图像处理网络的可学习参数,确定所述图像处理网络的阿尔法梯度分布损失。
图10示出根据本公开的一个示例性实施例的图像处理装置的框图。
参照图10,图像处理装置包括语义图获得单元101和预测单元102。
语义图获得单元101被配置为基于图像和所述图像的三分图获得所述图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
在本公开的示例性实施例中,语义图获得单元101可被配置为:将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
预测单元102被配置为基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值。
在本公开的示例性实施例中,预测单元102可被配置为:基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式;基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
图11示出根据本公开的另一示例性实施例的图像处理装置的框图。
参照图11,图像处理装置包括语义图获得单元111、预测单元112和图像处理单元113。
语义图获得单元111被配置为基于图像和所述图像的三分图获得所述图像的语义三分图。这里,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息。
在本公开的示例性实施例中,语义图获得单元111可被配置为:将所述图像和所述图像的三分图输入到预设的分类器中,通过所述分类器获得所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;基于所述图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得所述图像的语义三分图。
预测单元112被配置为基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值。
在本公开的示例性实施例中,预测单元112可被配置为:基于所述图像的语义三分图确定所述图像的中的每个区域的阿尔法模式;基于所述图像、所述图像的三分图、所述图像的中的每个区域的阿尔法模式预测所述图像的每个区域的像素的阿尔法值。
图像处理单元113被配置为基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上已经结合图9至图11对根据本公开的示例性实施例的图像处理网络的训练装置、图像处理装置进行了描述。接下来,结合图12对根据本公开的示例性实施例的电子设备进行描述。
图12是根据本公开的示例性实施例的电子设备1200的框图。
参照图12,电子设备1200包括至少一个存储器1201和至少一个处理器902,所述至少一个存储器1201中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器1202执行时,执行根据本公开的示例性实施例的图像处理的方法。
作为示例,电子设备1200可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1200并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1200还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1200中,处理器1202可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1202可运行存储在存储器1201中的指令或代码,其中,存储器1201还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1201可与处理器1202集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1201可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1201和处理器1202可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1202能够读取存储在存储器中的文件。
此外,电子设备1200还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备1200的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还提供一种包括指令的计算机可读存储介质,例如包括指令的存储器1201,上述指令可由装置1200的处理器1202执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机程序/指令,当所述计算机程序/指令被处理器执行时,实现根据本公开的示例性实施例的图像处理的方法。
以上已参照图1至图12描述了根据本公开的示例性实施例的图像处理网络的训练方法及装置、图像处理方法及装置。然而,应该理解的是:图9至图11中所示的图像处理网络的训练装置、图像处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合,图12中所示的电子设备并不限于包括以上示出的组件,而是可根据需要增加或删除一些组件,并且以上组件也可被组合。
根据本公开的图像处理网络的训练方法及装置,可通过将不同阿尔法模式所蕴含的语义信息用作先验知识减少图像处理网络的参数搜索空间,使得图像处理网络在训练时收敛的更好。
此外,根据本公开的图像处理方法及装置,可在语义层面给图像处理网络提供类别相关的监督,使得图像处理网络针对不同类别给出更精准的预测,从而提高图像处理效果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像处理网络的训练方法,其特征在于,包括:
获取训练图像和训练图像的三分图以及训练图像的阿尔法值;
基于训练图像和训练图像的三分图获得训练图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;
基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
2.根据权利要求1所述的训练方法,其特征在于,对所述图像处理网络进行训练的步骤包括:
将训练图像、训练图像的三分图和训练图像的语义三分图输入到所述图像处理网络中,获得训练图像的每个区域的像素的阿尔法预测值;
基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失;
根据预测损失对所述图像处理网络的参数进行调整。
3.根据权利要求2所述的训练方法,其特征在于,基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失的步骤包括:
将训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值输入到预设的多类别判别器中,获得针对阿尔法预测值和阿尔法值的预测结果以及在判别过程中多类别判别器的每个网络层提取出的特征图;
基于所述预测结果和所述特征图,确定所述图像处理网络的分类损失以及特征重建损失。
4.根据权利要求3所述的训练方法,其特征在于,基于训练图像的每个区域的像素的阿尔法预测值和训练图像的阿尔法值确定所述图像处理网络的预测损失的步骤还包括:
确定所述图像处理网络的可学习参数;
基于训练图像的每个区域的像素的阿尔法预测值和所述图像处理网络的可学习参数,确定所述图像处理网络的阿尔法梯度分布损失。
5.根据权利要求1所述的训练方法,其特征在于,基于训练图像和训练图像的三分图获得训练图像的语义三分图的步骤包括:
将训练图像和训练图像的三分图输入到预设的分类器中,通过所述分类器获得训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度;
基于训练图像的每个区域的像素属于所述多个不同类别的阿尔法模式的置信度,获得训练图像的语义三分图。
6.一种图像处理方法,其特征在于,包括:
基于图像和所述图像的三分图获得所述图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;
基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值;
基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
7.一种图像处理网络的训练装置,其特征在于,包括:
训练数据接收单元,被配置为获取训练图像和训练图像的三分图以及训练图像的阿尔法值;
语义图获得单元,被配置为基于训练图像和训练图像的三分图获得训练图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;和
训练单元,被配置为基于训练图像、训练图像的三分图、训练图像的语义三分图以及训练图像的阿尔法值对所述图像处理网络进行训练。
8.一种图像处理装置,其特征在于,包括:
语义图获得单元,被配置为基于图像和所述图像的三分图获得所述图像的语义三分图,其中,语义三分图包含关于图像中各个不同区域的像素属于多个不同类别阿尔法模式的置信度的信息;
预测单元,被配置为基于所述图像、所述图像的三分图以及所述图像的语义三分图,预测所述图像的每个区域的像素的阿尔法值;和
图像处理单元,被配置为基于所述图像的每个区域的像素的阿尔法值对所述图像进行处理,以获取所述图像中的目标对象。
9.一种电子设备/服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,当所述计算机程序被电子设备的处理器执行时,使得电子设备执行如权利要求1至6中任一项所述的方法。
CN202110334694.2A 2021-03-29 2021-03-29 图像处理网络的训练方法及装置、图像处理方法及装置 Pending CN113052242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334694.2A CN113052242A (zh) 2021-03-29 2021-03-29 图像处理网络的训练方法及装置、图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334694.2A CN113052242A (zh) 2021-03-29 2021-03-29 图像处理网络的训练方法及装置、图像处理方法及装置

Publications (1)

Publication Number Publication Date
CN113052242A true CN113052242A (zh) 2021-06-29

Family

ID=76516043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334694.2A Pending CN113052242A (zh) 2021-03-29 2021-03-29 图像处理网络的训练方法及装置、图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN113052242A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592074A (zh) * 2021-07-28 2021-11-02 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712145A (zh) * 2018-11-28 2019-05-03 山东师范大学 一种图像抠图方法及系统
CN110008832A (zh) * 2019-02-27 2019-07-12 西安电子科技大学 基于深度学习人物图像自动分割方法、信息数据处理终端
CN110956681A (zh) * 2019-11-08 2020-04-03 浙江工业大学 一种结合卷积网络和邻域相似性的人像背景自动替换方法
CN111223041A (zh) * 2020-01-12 2020-06-02 大连理工大学 一种全自动自然图像抠图方法
CN111383232A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 抠图方法、装置、终端设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712145A (zh) * 2018-11-28 2019-05-03 山东师范大学 一种图像抠图方法及系统
CN111383232A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 抠图方法、装置、终端设备及计算机可读存储介质
CN110008832A (zh) * 2019-02-27 2019-07-12 西安电子科技大学 基于深度学习人物图像自动分割方法、信息数据处理终端
CN110956681A (zh) * 2019-11-08 2020-04-03 浙江工业大学 一种结合卷积网络和邻域相似性的人像背景自动替换方法
CN111223041A (zh) * 2020-01-12 2020-06-02 大连理工大学 一种全自动自然图像抠图方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QUAN CHEN 等: ""Semantic Huamn matting"", 《MM\'18》 *
陈超: ""基于渐进分割网络的人像抠图算法"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592074A (zh) * 2021-07-28 2021-11-02 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备
CN113592074B (zh) * 2021-07-28 2023-12-12 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备

Similar Documents

Publication Publication Date Title
US11551333B2 (en) Image reconstruction method and device
Javed et al. Moving object detection in complex scene using spatiotemporal structured-sparse RPCA
US10354362B2 (en) Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11587234B2 (en) Generating class-agnostic object masks in digital images
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
Oliva et al. Metaheuristic algorithms for image segmentation: theory and applications
Kanani et al. Deep learning to detect skin cancer using google colab
WO2018182981A1 (en) Sensor data processor with update ability
WO2022110969A1 (zh) 无监督图像分割方法、电子设备和存储介质
Zhou et al. Embedding topological features into convolutional neural network salient object detection
Cai et al. Improving sampling-based image matting with cooperative coevolution differential evolution algorithm
Wang et al. Adaptive nonlocal random walks for image superpixel segmentation
Neshat et al. A new skin color detection approach based on fuzzy expert system
Lu et al. Aesthetic guided deep regression network for image cropping
Mano et al. Method of multi‐region tumour segmentation in brain MRI images using grid‐based segmentation and weighted bee swarm optimisation
Venegas et al. Automatic ladybird beetle detection using deep-learning models
CN116721460A (zh) 手势识别方法、装置、电子设备以及存储介质
Peng et al. An adaptive Lévy flight firefly algorithm for multilevel image thresholding based on Rényi entropy
CN113052242A (zh) 图像处理网络的训练方法及装置、图像处理方法及装置
Wang et al. Robust pixelwise saliency detection via progressive graph rankings
CN115272705B (zh) 显著性物体检测模型的训练方法、装置以及设备
CN116363733A (zh) 一种基于动态分布融合的人脸表情预测方法
Wang et al. Feature enhancement: predict more detailed and crisper edges
Huo et al. Local graph regularized sparse reconstruction for salient object detection
Carbajal-Degante et al. Active contours for multi-region segmentation with a convolutional neural network initialization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination