CN110188760A - 一种图像处理模型训练方法、图像处理方法及电子设备 - Google Patents
一种图像处理模型训练方法、图像处理方法及电子设备 Download PDFInfo
- Publication number
- CN110188760A CN110188760A CN201910258271.XA CN201910258271A CN110188760A CN 110188760 A CN110188760 A CN 110188760A CN 201910258271 A CN201910258271 A CN 201910258271A CN 110188760 A CN110188760 A CN 110188760A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- matte
- mark
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及一种图像处理模型训练方法、图像处理方法及电子设备。图像处理模型训练方法包括采用多个训练图像及其相应的带标注信息的图像对图像处理模型进行训练,针对每一训练图像,训练步骤包括:获取训练图像以及经标注的训练图像的标注阿尔法遮片;获取训练图像的弱标注图,其标识训练图像的前景和背景;将训练图像和弱标注图输入图像处理模型的第一神经网络得到预测阿尔法遮片;利用预测阿尔法遮片和标注阿尔法遮片计算第一神经网络的损失函数值;以及基于第一神经网络的损失函数值,对图像处理模型的参数进行修正。还提供利用经训练的图像处理模型进行图像处理方法,在不需要人工交互的情况下实现快速且高质量提取图像中期望部分。
Description
技术领域
本发明总体上涉及图像处理领域,具体涉及一种图像处理模型训练方法、图像处理方法及电子设备。
背景技术
在图像处理领域,常常涉及对部分图像的提取,例如对图片或视频的背景进行替换,需要将两个或两个以上的图片(视频中的至少一帧图片)通过处理而叠加或组合在一起,得到新的图片或视频。随着对此类图像处理的各种应用需求快速增长,用户也希望这些应用能够自动实现更为自然准确的融合处理效果。
目前,一些图像处理应用大多非常耗时,同时,这种图像处理需要高质量的人工标记,这在实际应用中是非常困难的。此外,对于图像的提取效果也比较生硬,影响用户的使用体验。
发明内容
针对上述问题,本发明的实施例提供一种图像处理模型训练方法、图像处理方法、电子设备及计算机可读存储介质。
在本发明的第一方面,提供一种图像处理模型训练方法,方法包括采用多个训练图像及其相应的带有标注信息的图像对图像处理模型进行训练,针对每一个训练图像,训练步骤包括:获取训练图像以及经标注的训练图像的标注阿尔法遮片;获取训练图像的弱标注图,弱标注图标识训练图像的前景区域和背景区域;将训练图像和弱标注图输入图像处理模型的第一神经网络,得到预测阿尔法遮片;利用预测阿尔法遮片和标注阿尔法遮片来计算第一神经网络的损失函数值;以及基于第一神经网络的损失函数值,对图像处理模型的参数进行修正。
在某些实施例中,获取训练图像的弱标注图包括:对训练图像进行语义分割,得到标识训练图像的前景区域和背景区域的分割二元图。
在某些实施例中,计算第一神经网络的损失函数值包括:计算预测阿尔法遮片和标注阿尔法遮片之间的误差,以得到全局损失值;以及计算预测阿尔法遮片的前背景边缘和标注阿尔法遮片的前背景边缘之间的误差,以得到局部损失值。
在某些实施例中,计算第一神经网络的损失函数值还包括:将预测阿尔法遮片和标注阿尔法遮片分别输入用于边缘提取的线性滤波器,分别得到预测滤波结果和标注滤波结果;以及计算预测滤波结果和标注滤波结果之间的误差,以得到滤波损失值。
在某些实施例中,对输入图像处理模型的参数进行修正包括:对全局损失值、局部损失值和滤波损失值加权求和得到图像处理模型的总损失;以及通过最小化总损失来优化图像处理模型的参数。
在某些实施例中,图像处理模型还包括作为鉴别器的第二神经网络,第二神经网络与作为生成器的第一神经网络构成生成对抗网络,方法还包括:将训练图像、弱标注图和预测阿尔法遮片作为第一三元组并且将训练图像和弱标注图和标注阿尔法遮片作为第二三元组输入第二神经网络,得到鉴别结果;以及基于鉴别结果,计算图像处理模型的对抗损失值。
在某些实施例中,对图像处理模型的参数进行修正包括:对第一神经网络的损失函数值和对抗损失值加权求和得到图像处理模型的总损失;以及通过最小化总损失来优化图像处理模型的参数。
在本发明的第二方面,提供一种图像处理方法,利用根据本发明第一方面所描述的图像处理模型训练方法训练得到的图像处理模型对待处理图像进行处理,方法包括:获取待处理图像的弱标注图,弱标注图标识待处理图像的前景区域和背景区域;以及将待处理图像的弱标注图和待处理图像输入图像处理模型的第一神经网络,得到待处理图像的阿尔法遮片。
在某些实施例中,获取待处理图像的弱标注图包括:将待处理图像输入语义分割网络,得到标识待处理图像的前景区域和背景区域的分割二元图。
在本发明的第三方面,提供一种电子设备,包括:处理器;以及存储有指令的存储器,指令在被处理器执行时促使设备执行动作,动作包括根据本发明第一方面和第二方面所描述的操作。
在本发明的第四方面,提供一种计算机可读存储介质,其存储有机器可读的指令,指令在由机器执行时使得机器执行根据本发明第一方面和第二方面所描述的方法。
通过本发明的实施例提供的图像处理模型训练方法以及利用经训练的图像处理模型对图像进行处理,在不需要人工交互的情况下,实现高质量地提取图像中的期望部分。
附图说明
图1示出根据本发明的一个实施例的图像处理模型训练过程的示意性概要图;
图2示出根据本发明的另一实施例的图像处理模型训练过程的示意性概要图;
图3示出根据本发明的一个实施例的神经网络结构的示意性框图;
图4示出根据本发明的一个实施例的图像处理模型训练方法的流程图;
图5示出根据本发明的一个实施例的图像处理方法的流程图;以及
图6示出适合实现本发明的实施例的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。但本领域技术人员知晓,本发明并不局限于附图和以下实施例。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。文中所使用的“第一”、“第二”等表述,仅是为了区分技术特征,并无实质含义。
背景替换类图像处理应用在实现时通常采用分离前景和背景处理,将源图的背景由新背景图替换得到。这类图像应用均需要对源图进行处理,提取出期望的部分区域(也即抠图处理)。发明人注意到,当前进行背景替换类应用所使用的遮片(matting)处理,需要对源图进行高质量的人工标注,得到具有大信息量的三元图(trimap)。这一处理过程是耗时的,而且需要人工标注的三元图,无法自动完成。同时,计算机处理时图像提取不够准确,更换背景的边缘不自然。
有鉴于此,本发明实施例提出一种图像处理模型训练方法,进而提供利用该训练方法训练出的图像处理模型对图像进行部分提取或抠图处理方案,在不需要人工交互的情况下,实现高质量地提取图像中的期望部分,或者对不同图像或视频的背景进行替换以融合得到效果自然的新图片或视频。
根据本发明的实施例,图像处理训练模型主要用于遮片matting处理,训练过程根据正确标注(Ground Truth)信息进行阿尔法混合(alpha blending)。训练图像集包括训练图像(即源图像)和已正确标注的阿尔法遮片(alpha matte)或alpha通道图,还包括任意背景图像。
在一个实施例中,训练图像集至少包括2000张源图像,其包括前景对象。这里的前景对象可以是想要进行训练或处理的目标对象。背景图像可以是例如5000张高分辨率图,可以将每张源图像通过翻转、对称或旋转不同角度等处理与随机的一些背景图进行融合处理,合成得到更多训练图像,以扩充训练图像集。
下面结合附图对本发明实施例进行详细描述。为了便于理解本发明实施例,图1示出了根据本发明的一个实施例的图像处理模型训练过程100的示意性概要图。本发明实施例可以在任何适宜的处理装置处实现,诸如移动终端、计算机、服务器等。
如图所示,该图像处理模型包括神经网络110。将来自训练图像集的训练图像101(即源图像,以I表示)以及与其相应的具有弱标注信息的二元图103(以M表示)输入神经网络110,得到预测阿尔法遮片107(以表示)。
这里,具有弱标注信息的二元图也可以称之为蒙板(mask),其是针对训练图像的前景区域和背景区域给出一些不太精确标注的带噪声或非准确的二元图像,也即该弱标注图能够标识出图像的前景区域和背景区域。应当理解,这里的前景同样可以包括希望训练或处理的目标对象,相应地,前景区域可以指代包括目标对象的区域,背景区域则是图像的非目标对象区域。
根据本发明实施例,可以有多种方式得到弱标注图。一种方式是对训练图像进行自动语义分割,即可得到二元图。也可以通过用户交互过程得到非准确的交互标注图。还可以通过对训练图像进行膨胀处理或腐蚀处理得到门限深度图。这些方式得到的二元图、交互标注图和门限深度图均可以作为这里的弱标注蒙板。
根据预测阿尔法遮片107和经正确标注的阿尔法遮片105(称为标注阿尔法遮片),或者附加地根据二元图103等信息,可以构造多个损失函数,在120进行损失函数计算,进而根据损失函数计算结果来修正神经网络110的参数。可以理解,训练过程迭代进行,对训练图像集中的每张训练图像类似进行训练和计算,从而优化神经网络110的参数。
关于损失函数的构造,在本发明的实施例中,可以施加以下损失函数中的一个或多个损失函数到神经网络110。
·全局损失
为了监督阿尔法遮片的预测,利用全局损失来实现。全局损失可以是正确标注的阿尔法遮片与预测阿尔法遮片之间的L1范数。也即
其中,Lg为全局损失,a为正确标注的阿尔法遮片(即ground truth),为预测阿尔法遮片,‖ ‖1表示L1范数。
·局部损失
为了更多地关注前景对象的边界或边缘,基于差分函数的加权重构来定义局部损失。该差分函数可以如下:
Δ(a,M)=δ(|a-M|>∈) (2)
差分函数得到二元边界图,其中1可以表示在标注阿尔法遮片a与弱标注图M中相同值,而0表示其他像素值。δ函数强制使得小于∈的两者之差被忽略。
局部损失可以如下式:
其中,Ll为局部损失,°表示哈达玛积。
·滤波损失
在本发明的一个实施例中,进一步利用用于边缘提取的线性滤波器例如Gabor滤波器来类似表征感知损失,本文中称之为滤波损失。由于Gabor滤波器对图像纹理敏感,有利于提高例如头发丝、丝网等颜色变换剧烈的纹理图像的分割效果,增强纹理细节,保留图像的高频分量的细节。
因此,可以采用多个不同定向的Gabor滤波器分别对标注阿尔法遮片a和预测阿尔法遮片进行滤波处理,计算如下式定义的滤波损失:
其中,Lgb为Gabor滤波损失,函数表示利用Gabor滤波器的卷积,Φ表示Gabor滤波器集合,‖ ‖2表示L2范数。
在图像处理模型训练过程100中,可以施加以上损失函数中的一个或多个损失函数到神经网络110,从而优化神经网络110的参数。
根据本发明的另一实施例,图像处理模型还包括另一神经网络,其与神经网络110构成生成对抗网络(GAN,Generative Adversarial Network)。图2示出了根据本发明的另一实施例的图像处理模型训练过程200的示意性概要图。
如图所示,该图像处理模型包括神经网络110(称为第一神经网络)和神经网络210(称为第二神经网络)。第一神经网络110作为生成器,第二神经网络210作为鉴别器,训练过程中第一神经网络110和第二神经网络120互相对抗学习博弈,产生更优化的结果。
将来自训练图像集的训练图像101以及与其相应的弱标注图103输入第一神经网络110,得到预测阿尔法遮片107。同时,将训练图像101、弱标注图103和预测阿尔法遮片107作为第一三元组,将训练图像101、弱标注图103和标注阿尔法遮片105作为第二三元组,两个三元组输入作为鉴别器的第二神经网络210,得到鉴别结果。
根据生成器和鉴别器的输出,在220通过构造的损失函数进行损失计算,修正第一神经网络110和第二神经网络210的参数。可以理解,训练过程迭代进行,对训练图像集中的每张训练图像类似进行训练和计算,从而优化两个神经网络的参数。
关于第二神经网络210的结构,本发明实施例中可以使用任何适宜结构的鉴别器,本发明实施例在此方面不做限制。
在图像处理模型训练过程200中,可以附加地计算对抗损失。对抗损失可以如下定义:
其中,LD表示作为鉴别器的第二神经网络210的损失,LG表示作为生成器的第一神经网络110的损失,表示具有从均匀分布采样的随机系数的a与的凸组合。
在图像处理模型训练过程200中,可以施加以上所描述的多个损失函数中的一个或多个损失函数到神经网络110和神经网络210,从而优化两个神经网络的参数。
图3示出了根据本发明的一个实施例的神经网络结构300的示意性框图,图1和图2中神经网络110可以实现为本实施例的神经网络结构300。
如图所示,神经网络结构300包括轻量沙漏(Lightweight Hourglass)骨干、空间注意力(Spatial Attention)机制和线性转换,其中表示相乘,表示相加,中加黑点处表示拼接(concatenation)。
具体而言,两个深度卷积层301和303后,接三个卷积层305、307和309,在沙漏瓶颈处只采用两个残差块311和313。之后的反向卷积过程包括第一级卷积层323和转置卷积层325,第二级卷积层327和转置卷积层329,之后通过卷积层331和333,并经过上采样层335和337。
该神经网络结构300还采用了捷径连接,对输入的拼接图像通过三个深度卷积层315、317和319分别与不同级反向卷积结果求和计算。
对于空间注意力机制,神经网络结构300融合来自输入的拼接图像和沙漏瓶颈的特征,以计算注意力图(attention map),其将应用到反向卷积过程中的高分辨率特征。具体而言,将输入的级联图像经下采样339与沙漏瓶颈处输出经转置卷积层341下采样后进行级联,之后通过转置卷积层343和345,然后连接至沙漏骨干。
应当理解,在对图像处理模型进行训练时,神经网络110不限于本发明实施例提出的神经网络结构300。但是,经过实际验证,神经网络结构300显著降低了推理迟延(inference latency),并且对遮片性能和精确度有良好的提升。
图4示出了根据本发明的一个实施例的图像处理模型训练方法400的流程图。方法400包括采用多个训练图像及其相应的带有标注信息的图像对图像处理模型进行训练,该图像处理模型可以是深度神经网络,例如神经网络110。针对每一个训练图像,训练步骤可以如下。
在410,获取训练图像及经标注的训练图像的标注阿尔法遮片。在一个实施例中,针对每一个训练图像I,在训练图像集中有经正确标注(ground truth)的训练图像的阿尔法遮片a。训练方法利用该正确标注信息来进行阿尔法混合。
在420,获取训练图像的弱标注图。弱标注图标识训练图像的前景区域和背景区域,也即其是具有弱标注信息的二元图。
如前所述,根据本发明实施例,可以有多种方式得到弱标注图。一种方式是对训练图像进行自动语义分割,将训练图像输入语义分割神经网络,即可得到二元图(mask),这种方式不需要人工标注或交互,可以自动完成。也可以通过用户交互过程得到非准确的交互标注图。还可以通过对训练图像进行膨胀处理或腐蚀处理得到门限深度图。这些方式得到的二元图、交互标注图和门限深度图均可以作为这里的弱标注蒙板。
在430,将训练图像和弱标注图输入图像处理模型的第一神经网络,得到预测阿尔法遮片。在一个实施例中,第一神经网络可以具有神经网络结构300,当输入训练图像I和弱标注图M,最终输出预测阿尔法遮片
在440,利用预测阿尔法遮片和标注阿尔法遮片来计算第一神经网络的损失函数值。根据本发明的实施例,可以针对第一神经网络110施加全局损失、局部损失、滤波损失中的一个或多个来计算损失函数值。
计算预测阿尔法遮片和标注阿尔法遮片之间的误差,得到全局损失值。在一个实施例中,可以根据上式(1)计算全局损失值。
计算预测阿尔法遮片的前背景边缘和标注阿尔法遮片的前背景边缘之间的误差,得到局部损失值。在一个实施例中,可以根据上式(3)计算局部损失值。
将预测阿尔法遮片和标注阿尔法遮片分别输入用于边缘提取的线性滤波器,诸如多个Gabor滤波器,分别得到预测滤波结果和标注滤波结果。计算预测滤波结果和标注滤波结果之间的误差,得到滤波损失值。在一个实施例中,可以根据上式(4)计算滤波损失值。
在450,基于第一神经网络的损失函数值,对图像处理模型的参数进行修正。在一个实施例中,通过最小化损失来优化图像处理模型的参数。
在本实施例中,可以对全局损失值、局部损失值和滤波损失值加权求和得到图像处理模型的总损失如下:
L=λgLg+λlLl+λgpLgb (6)
其中,λg、λl和λgp分别为加权系数,可以根据训练模型和训练集适当选取系数。通过最小化总损失L来优化图像处理模型的参数。
根据本发明的进一步实施例,当图像处理模型包括作为鉴别器的第二神经网络时,方法400还可以进一步将训练图像、弱标注图和预测阿尔法遮片作为第一三元组并且将训练图像、弱标注图和标注阿尔法遮片作为第二三元组输入第二神经网络,得到鉴别结果。这里的每个三元组输入可以是三个图像例如在深度的维度上拼接在一起作为第二神经网络的输入。
基于鉴别结果,计算图像处理模型的对抗损失值。在一个实施例中,可以根据上式(5)计算对抗损失值。
在本实施例中,步骤450可以进一步根据下式(7)计算图像处理模型的总损失如下:
L=λgLg+λlLl+λgpLgb+λadvLadv (7)
其中,λg、λl、λgp和λadv分别为加权系数,可以根据训练模型和训练集适当选取系数。通过最小化总损失L来优化图像处理模型的参数。
通过针对训练集中每个训练图像按照本发明实施提供的训练方法训练模型,附加地可以进行适当的测试或验证,以得到可以实际使用的图像处理模型,例如包括第一神经网络110的图像处理模型,其可以用来提取待处理图像中的部分,或者更换背景等类似抠图的应用。
图5示出了根据本发明的一个实施例的图像处理方法500的流程图,方法500利用根据上述的图像处理模型训练方法训练得到的图像处理模型对待处理图像进行处理,该图像处理模型包括第一神经网络110。
在510,获取待处理图像的弱标注图。该弱标注图标识待处理图像的前景区域和背景区域。在一个实施例中,将待处理图像输入语义分割网络,得到标识待处理图像的前景区域和背景区域的分割二元图(mask)。
在520,将待处理图像的弱标注图和待处理图像输入图像处理模型的第一神经网络,得到待处理图像的阿尔法遮片。
利用得到的阿尔法遮片a,可以进行多种图像处理应用。作为示例,可以将待处理图像的背景替换为新背景。根据下式(8),可以将新背景图像作为该待处理图像的背景与该待处理图像融合以得到融合图像:
Ii=aiFi+(1-ai)Bi (8)
其中Ii为融合图像I的第i像素值,ai为阿尔法遮片a的第i像素值,Fi为该待处理图像的第i像素值,Bi为新背景图像的第i像素值。
图6示出了适合实现本发明的实施例的电子设备600的方框图。如图所示,设备600包括处理器610。处理器610控制设备600的操作和功能。例如,在某些实施例中,处理器610可以借助于与其耦合的存储器620中所存储的指令630来执行各种操作。存储器620可以是适用于本地技术环境的任何合适的类型,并且可以利用任何合适的数据存储技术来实现,包括但不限于基于半导体的存储器件、磁存储器件和系统、光存储器件和系统。尽管图6中仅仅示出了一个存储器单元,但是在设备600中可以有多个物理不同的存储器单元。
处理器610可以是适用于本地技术环境的任何合适的类型,并且可以包括但不限于通用计算机、专用计算机、微控制器、数字信号控制器(DSP)以及基于控制器的多核控制器架构中的一个或多个多个。设备600也可以包括多个处理器610。
当处理器610在执行指令630时促使设备执行动作,以实现上文参考图1至图5描述的方法400和方法500。
本发明的实施例还提供一种计算机可读存储介质,其存储有机器可读的指令,指令在由机器执行时使得机器执行根据本发明所描述的方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像处理模型训练方法,其特征在于,所述方法包括采用多个训练图像及其相应的带有标注信息的图像对图像处理模型进行训练,针对每一个训练图像,训练步骤包括:
获取训练图像以及经标注的所述训练图像的标注阿尔法遮片;
获取所述训练图像的弱标注图,所述弱标注图标识所述训练图像的前景区域和背景区域;
将所述训练图像和所述弱标注图输入图像处理模型的第一神经网络,得到预测阿尔法遮片;
利用所述预测阿尔法遮片和所述标注阿尔法遮片来计算所述第一神经网络的损失函数值;以及
基于所述第一神经网络的损失函数值,对所述图像处理模型的参数进行修正。
2.根据权利要求1所述的方法,其特征在于,其中获取所述训练图像的弱标注图包括:
对所述训练图像进行语义分割,得到标识所述训练图像的前景区域和背景区域的分割二元图。
3.根据权利要求1所述的方法,其特征在于,其中计算所述第一神经网络的损失函数值包括:
计算所述预测阿尔法遮片和所述标注阿尔法遮片之间的误差,以得到全局损失值;以及
计算所述预测阿尔法遮片的前背景边缘和所述标注阿尔法遮片的前背景边缘之间的误差,以得到局部损失值。
4.根据权利要求3所述的方法,其特征在于,其中计算所述第一神经网络的损失函数值还包括:
将所述预测阿尔法遮片和所述标注阿尔法遮片分别输入用于边缘提取的线性滤波器,分别得到预测滤波结果和标注滤波结果;以及
计算所述预测滤波结果和所述标注滤波结果之间的误差,以得到滤波损失值。
5.根据权利要求4所述的方法,其特征在于,其中对所述输入图像处理模型的参数进行修正包括:
对所述全局损失值、所述局部损失值和所述滤波损失值加权求和得到所述图像处理模型的总损失;以及
通过最小化所述总损失来优化所述图像处理模型的参数。
6.根据权利要求1所述的方法,其特征在于,所述图像处理模型还包括作为鉴别器的第二神经网络,所述第二神经网络与作为生成器的所述第一神经网络构成生成对抗网络,所述方法还包括:
将所述训练图像、所述弱标注图和所述预测阿尔法遮片作为第一三元组并且将所述训练图像和所述弱标注图和所述标注阿尔法遮片作为第二三元组输入所述第二神经网络,得到鉴别结果;以及
基于所述鉴别结果,计算所述图像处理模型的对抗损失值。
7.根据权利要求5所述的方法,其特征在于,其中对所述图像处理模型的参数进行修正包括:
对所述第一神经网络的损失函数值和所述对抗损失值加权求和得到所述图像处理模型的总损失;以及
通过最小化所述总损失来优化所述图像处理模型的参数。
8.一种图像处理方法,其特征在于,利用根据权利要求1-7中任一项所述的图像处理模型训练方法训练得到的图像处理模型对待处理图像进行处理,包括:
获取所述待处理图像的弱标注图,所述弱标注图标识所述待处理图像的前景区域和背景区域;以及
将所述待处理图像的弱标注图和所述待处理图像输入所述图像处理模型的第一神经网络,得到所述待处理图像的阿尔法遮片。
9.根据权利要求8所述的方法,其特征在于,其中获取所述待处理图像的弱标注图包括:
将所述待处理图像输入语义分割网络,得到标识所述待处理图像的前景区域和背景区域的分割二元图。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储有指令的存储器,所述指令在被所述处理器执行时促使所述设备执行根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910258271.XA CN110188760B (zh) | 2019-04-01 | 2019-04-01 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910258271.XA CN110188760B (zh) | 2019-04-01 | 2019-04-01 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188760A true CN110188760A (zh) | 2019-08-30 |
CN110188760B CN110188760B (zh) | 2021-10-22 |
Family
ID=67714063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910258271.XA Active CN110188760B (zh) | 2019-04-01 | 2019-04-01 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188760B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN110705328A (zh) * | 2019-09-27 | 2020-01-17 | 江苏提米智能科技有限公司 | 一种基于二维码图像采集电力数据的方法 |
CN111046747A (zh) * | 2019-11-21 | 2020-04-21 | 北京金山云网络技术有限公司 | 人群计数模型的训练方法、人群计数方法、装置和服务器 |
CN111353546A (zh) * | 2020-03-09 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、计算机设备和存储介质 |
CN112270686A (zh) * | 2020-12-24 | 2021-01-26 | 北京达佳互联信息技术有限公司 | 图像分割模型训练、图像分割方法、装置及电子设备 |
CN112529929A (zh) * | 2020-12-07 | 2021-03-19 | 北京邮电大学 | 一种基于全卷积稠密网络的人像抠图方法 |
CN112949486A (zh) * | 2021-03-01 | 2021-06-11 | 八维通科技有限公司 | 基于神经网络的智能交通数据处理方法及装置 |
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN113095470A (zh) * | 2020-01-08 | 2021-07-09 | 字节跳动有限公司 | 神经网络的训练方法、图像处理方法及装置、存储介质 |
CN113538456A (zh) * | 2021-06-22 | 2021-10-22 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113592074A (zh) * | 2021-07-28 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113627421A (zh) * | 2021-06-30 | 2021-11-09 | 华为技术有限公司 | 一种图像处理方法、模型的训练方法以及相关设备 |
CN113688832A (zh) * | 2021-08-27 | 2021-11-23 | 北京三快在线科技有限公司 | 一种模型训练及图像处理方法、装置 |
CN113705807A (zh) * | 2021-08-26 | 2021-11-26 | 上海睿刀医疗科技有限公司 | 神经网络的训练装置及方法,消融布针规划装置及方法 |
CN114119976A (zh) * | 2021-11-30 | 2022-03-01 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
TWI757965B (zh) * | 2020-11-10 | 2022-03-11 | 鈊象電子股份有限公司 | 擴增實境體感遊戲機之深度學習方法 |
US20220319155A1 (en) * | 2020-02-21 | 2022-10-06 | Boe Technology Group Co., Ltd. | Image Processing Method, Image Processing Apparatus, and Device |
WO2023207531A1 (zh) * | 2022-04-29 | 2023-11-02 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
GB2619584A (en) * | 2022-03-24 | 2023-12-13 | Supponor Tech Limited | Image processing method and apparatus |
GB2619999A (en) * | 2022-03-24 | 2023-12-27 | Supponor Tech Limited | Image processing method and apparatus |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622754A (zh) * | 2012-02-29 | 2012-08-01 | 无锡宜华智能科技有限公司 | 一种基于用户交互Trimap的快速前景提取方法 |
US20150117779A1 (en) * | 2013-10-30 | 2015-04-30 | Thomson Licensing | Method and apparatus for alpha matting |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108257144A (zh) * | 2018-01-25 | 2018-07-06 | 深圳市商汤科技有限公司 | 基于神经网络的抠图方法、装置、设备、存储介质及程序 |
CN108961279A (zh) * | 2018-06-28 | 2018-12-07 | Oppo(重庆)智能科技有限公司 | 图像处理方法、装置及移动终端 |
CN108986132A (zh) * | 2018-07-04 | 2018-12-11 | 华南理工大学 | 一种使用全卷积神经网络生成证件照Trimap图的方法 |
CN109035253A (zh) * | 2018-07-04 | 2018-12-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导的深度学习自动图像抠图方法 |
CN109461167A (zh) * | 2018-11-02 | 2019-03-12 | Oppo广东移动通信有限公司 | 图像处理模型的训练方法、抠图方法、装置、介质及终端 |
-
2019
- 2019-04-01 CN CN201910258271.XA patent/CN110188760B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622754A (zh) * | 2012-02-29 | 2012-08-01 | 无锡宜华智能科技有限公司 | 一种基于用户交互Trimap的快速前景提取方法 |
US20150117779A1 (en) * | 2013-10-30 | 2015-04-30 | Thomson Licensing | Method and apparatus for alpha matting |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108257144A (zh) * | 2018-01-25 | 2018-07-06 | 深圳市商汤科技有限公司 | 基于神经网络的抠图方法、装置、设备、存储介质及程序 |
CN108961279A (zh) * | 2018-06-28 | 2018-12-07 | Oppo(重庆)智能科技有限公司 | 图像处理方法、装置及移动终端 |
CN108986132A (zh) * | 2018-07-04 | 2018-12-11 | 华南理工大学 | 一种使用全卷积神经网络生成证件照Trimap图的方法 |
CN109035253A (zh) * | 2018-07-04 | 2018-12-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导的深度学习自动图像抠图方法 |
CN109461167A (zh) * | 2018-11-02 | 2019-03-12 | Oppo广东移动通信有限公司 | 图像处理模型的训练方法、抠图方法、装置、介质及终端 |
Non-Patent Citations (2)
Title |
---|
BINGKE ZHU等: ""Fast Deep Matting for portrait Animation on Mobile Phone"", 《ARXIV》 * |
QUAN CHEN等: ""Semantic Human Matting"", 《ARXIV》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705328A (zh) * | 2019-09-27 | 2020-01-17 | 江苏提米智能科技有限公司 | 一种基于二维码图像采集电力数据的方法 |
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN111046747A (zh) * | 2019-11-21 | 2020-04-21 | 北京金山云网络技术有限公司 | 人群计数模型的训练方法、人群计数方法、装置和服务器 |
CN111046747B (zh) * | 2019-11-21 | 2023-04-18 | 北京金山云网络技术有限公司 | 人群计数模型的训练方法、人群计数方法、装置和服务器 |
CN113095470B (zh) * | 2020-01-08 | 2024-04-23 | 字节跳动有限公司 | 神经网络的训练方法、图像处理方法及装置、存储介质 |
CN113095470A (zh) * | 2020-01-08 | 2021-07-09 | 字节跳动有限公司 | 神经网络的训练方法、图像处理方法及装置、存储介质 |
US20220319155A1 (en) * | 2020-02-21 | 2022-10-06 | Boe Technology Group Co., Ltd. | Image Processing Method, Image Processing Apparatus, and Device |
CN111353546A (zh) * | 2020-03-09 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、计算机设备和存储介质 |
CN111353546B (zh) * | 2020-03-09 | 2022-12-23 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、计算机设备和存储介质 |
TWI757965B (zh) * | 2020-11-10 | 2022-03-11 | 鈊象電子股份有限公司 | 擴增實境體感遊戲機之深度學習方法 |
CN112529929A (zh) * | 2020-12-07 | 2021-03-19 | 北京邮电大学 | 一种基于全卷积稠密网络的人像抠图方法 |
CN112270686A (zh) * | 2020-12-24 | 2021-01-26 | 北京达佳互联信息技术有限公司 | 图像分割模型训练、图像分割方法、装置及电子设备 |
CN112949486A (zh) * | 2021-03-01 | 2021-06-11 | 八维通科技有限公司 | 基于神经网络的智能交通数据处理方法及装置 |
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN113538456A (zh) * | 2021-06-22 | 2021-10-22 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113538456B (zh) * | 2021-06-22 | 2022-03-18 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113627421A (zh) * | 2021-06-30 | 2021-11-09 | 华为技术有限公司 | 一种图像处理方法、模型的训练方法以及相关设备 |
CN113592074A (zh) * | 2021-07-28 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113592074B (zh) * | 2021-07-28 | 2023-12-12 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113705807A (zh) * | 2021-08-26 | 2021-11-26 | 上海睿刀医疗科技有限公司 | 神经网络的训练装置及方法,消融布针规划装置及方法 |
CN113688832A (zh) * | 2021-08-27 | 2021-11-23 | 北京三快在线科技有限公司 | 一种模型训练及图像处理方法、装置 |
CN114119976A (zh) * | 2021-11-30 | 2022-03-01 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
CN114119976B (zh) * | 2021-11-30 | 2024-05-14 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
GB2619584A (en) * | 2022-03-24 | 2023-12-13 | Supponor Tech Limited | Image processing method and apparatus |
GB2619999A (en) * | 2022-03-24 | 2023-12-27 | Supponor Tech Limited | Image processing method and apparatus |
WO2023207531A1 (zh) * | 2022-04-29 | 2023-11-02 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110188760B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188760A (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
Hong et al. | Deep fusion network for image completion | |
Yu et al. | Learning a discriminative feature network for semantic segmentation | |
Fu et al. | Three dimensional fluorescence microscopy image synthesis and segmentation | |
CN109712145A (zh) | 一种图像抠图方法及系统 | |
Xia et al. | Joint bilateral learning for real-time universal photorealistic style transfer | |
Mechrez et al. | Photorealistic style transfer with screened poisson equation | |
CN110378348A (zh) | 视频实例分割方法、设备及计算机可读存储介质 | |
Wang et al. | Variational-based mixed noise removal with CNN deep learning regularization | |
CN109685060A (zh) | 图像处理方法和装置 | |
Liang et al. | Spatial-separated curve rendering network for efficient and high-resolution image harmonization | |
Pan et al. | MIEGAN: Mobile image enhancement via a multi-module cascade neural network | |
CN109858487A (zh) | 基于分水岭算法和图像类别标签的弱监督语义分割方法 | |
Akimoto et al. | Fast soft color segmentation | |
CN113313663B (zh) | 基于零样本学习的多聚焦图像融合方法 | |
Ting et al. | Image inpainting by global structure and texture propagation | |
CN108596070A (zh) | 人物识别方法、装置、存储介质、程序产品和电子设备 | |
Conde et al. | Lens-to-lens bokeh effect transformation. NTIRE 2023 challenge report | |
CN113516604B (zh) | 图像修复方法 | |
CN110580696A (zh) | 一种细节保持的多曝光图像快速融合方法 | |
Li et al. | D2c-sr: A divergence to convergence approach for real-world image super-resolution | |
Moon et al. | Interestyle: Encoding an interest region for robust stylegan inversion | |
CN113763300A (zh) | 一种联合深度上下文与卷积条件随机场的多聚焦图像融合方法 | |
Yan et al. | A natural-based fusion strategy for underwater image enhancement | |
Zhang et al. | Inpainting at modern camera resolution by guided patchmatch with auto-curation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |