CN113592074B - 一种训练方法、生成方法及装置、电子设备 - Google Patents
一种训练方法、生成方法及装置、电子设备 Download PDFInfo
- Publication number
- CN113592074B CN113592074B CN202110854166.XA CN202110854166A CN113592074B CN 113592074 B CN113592074 B CN 113592074B CN 202110854166 A CN202110854166 A CN 202110854166A CN 113592074 B CN113592074 B CN 113592074B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- level
- network
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000010586 diagram Methods 0.000 claims abstract description 322
- 238000000605 extraction Methods 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 34
- 238000004891 communication Methods 0.000 description 23
- 238000013500 data storage Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 21
- 238000013507 mapping Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种训练方法、生成方法及装置、电子设备,涉及计算机视觉技术领域,所述训练方法包括:基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图,基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型,基于训练完成的所述第一网络模型预测所述第二样本图像的三元图,基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图和训练第二网络模型。本公开可以在没有预先指定抠图区域的情况下,自动实现精细的抠图。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种训练方法、抠图方法及装置、电子设备。
背景技术
自动抠图是指给定一张含有物体的图片,在没有人工指定所需抠出的物体的情况下,自动将主要物体精细地抠出来,其通常用于电影拍摄制作,图片后期编辑,海报制作等场景。
相关技术中,大多数使用深度学习技术进行自动抠图。在自动抠图过程中,可以指定所需抠出的物体。
发明内容
根据本公开的一方面,提供了一种训练方法,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:
基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;
基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;
基于训练完成的所述第一网络模型预测第二样本图像的三元图;
基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。
根据本公开的另一方面,提供了一种生成方法,应用所述方法生成的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述方法包括:
基于第一网络模型生成原始图像的三元图;
基于通道图生成模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
根据本公开的另一方面,提供了一种训练装置,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述设备包括:
标定模块,用于基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;
第一训练模块,用于基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;
预测模块,用于基于训练完成的所述第一网络模型预测第二样本图像的三元图;
第二训练模块,用于基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型。
根据本公开的另一方面,提供了一种生成装置,应用上述设备训练的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述装置包括:
第一生成模块,用于基于第一网络模型生成原始图像的三元图;
第二生成模块,基于第二网络模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
本公开实施例中提供的一个或多个技术方案,基于阿尔法通道图和三元图各个区域的透明度对应关系,在训练阶段采用阿尔法通道图标定三元图的方式建立三元图和阿尔法通道图之间的透明度映射,并以标定的三元图为目标,训练第一网络模型,因此,在生成阿尔法通道图时,可以在没有预先指定的抠出区域的前提下,第二网络模型依靠三元图与阿尔法通道图的映射关系,以第一网络模型生成的三元图为参考,准确生成阿尔法通道图。在此基础上,利用阿尔法通道图可以自动准确的从原始图像抠出精细度比较高的图像。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图;
图2示出了本公开示例性实施例的训练方法的流程图;
图3示出了本公开示例性实施例的第一样本图像的示意图;
图4示出了本公开示例性实施例的第一样本图像的阿尔法通道图的示意图;
图5示出了本公开示例性实施例的第一网络模型的基本架构图;
图6A示出了本公开示例性实施例的第一网络模型的架构示意图;
图6B示出了本公开示例性实施例的第一编码器的架构示意图;
图6C示出本公开示例性实施例的第二编码器的架构示意图;
图6D示出了本公开示例性实施例的第三编码器的架构示意图;
图6E示出了本公开示例性实施例的第四编码器的架构示意图;
图6F示出了本公开示例性实施例的第五编码器的架构示意图;
图7示出了本公开示例性的第二网络模型的基本架构示意图;
图8示出了本公开示例性的涉及GCA模块的单元结构的示意图;
图9A示出了本公开示例性实施例的第一网络模型的架构示意图;
图9B示出了本公开示例性实施例的第一编码器的结构示意图;
图9C示出了本公开示例性实施例的第二编码器的结构示意图;
图9D示出了本公开示例性实施例的第三编码器的结构示意图;
图9E示出了本公开示例性实施例的第四编码器的结构示意图;
图9F示出了本公开示例性实施例的第五编码器的结构示意图;
图9G示出了本公开示例性实施例的第一解码器的结构示意图;
图9H示出了本公开示例性实施例的第二解码器的结构示意图;
图9I示出了本公开示例性实施例的第五解码器的结构示意图;
图10示出了本公开示例性实施例提供的生成方法的流程图;
图11示出了根据本公开示例性实施例的训练装置的功能模块示意性框图;
图12示出了根据本公开示例性实施例的生成装置的功能模块示意性框图;
图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义:
三元图,又称trimap,是一种对图片前景、背景和未知区域进行标记的图片,往往是图片alpha通道生成模型的输入。
阿尔法通道图(Alpha Channel),又称Alpha通道图,是指一种“非彩色”通道图,可以体现物体透明度的表示,主要用来保存选区和编辑选区。
卷积神经网络(Convolutional Neural Network,缩写为CNN)是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。排在前边较浅的卷积层采用较小的感知域,可以学习到图像的一些局部的特征(如纹理特征),排在后边较深的卷积层采用较大的感知域,可以学习到更加抽象的特征(如物体大小,位置和方向信息等)。
全卷积神经网络(Fully Convolutional Networks,缩写为FCN),是一种通过多级卷积计算实现对图像输入进行分析的神经网络。FCN与CNN的区域在把于CNN最后的全连接层换成卷积层。
U-Net网络是2015年,OlafRonneberger等人提出了网络结构,U-net网络是基于FCN的一种语义分割网络,适用于做医学图像的分割。U-net网络结构与FCN网络结构相似,也是分为下采样阶段和上采样阶段,网络结构中只有卷积层和池化层,没有全连接层,网络中较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割。
端到端是输入是指是直接输入原始数据,让模型自己去学习特征,最后输出结果,中间不再需要人工的参与。
损失函数(loss function)又称目标函数(objective function),用于衡量预测值和目标值的差异的重要方程,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,在训练神经网络过程中,可以采用反向传播算法修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。例如,权重矩阵。
本公开示例性实施例提供一种训练方法及生成方法,其可以在没有预先指定抠出区域的情况下,提取出准确的阿尔法通道图像,以利用该阿尔法通道图抠出精细度比较高的图像。从图像的完整度上来讲,图像可以是拍摄设备拍摄的图像,也可以是拍摄设备拍摄的图像中截取的图像块。从图像类型来说,图像可以为动态图像,也可以为静态图像。
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图。如图1所示,本公开示例性实施例提供的场景100包括:用户设备110、计算设备120以及数据存储系统130。
如图1所示,上述用户设备110可以通过通信网络与计算设备120通信。该通信网络可以为有线通信网络或无线通信网络。有限通信网络可以为基于电力线载波技术的通信网络,无线通信网络可以为局域无线网络或广域无线网络。局域无线网络可以为WIFI无线网络、Zigbee无线网络、移动通信网络或卫星通信网络等。
如图1所示,上述用户设备110可以包括电脑、手机或者信息处理中心等智能终端,用户设备110可以作为模型训练操作或者阿尔法通道图生成操作的发起端,向计算设备120发起请求。计算设备120可以为云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的服务器,用以实施训练方法和生成方法。服务器内可以配置深度学习处理器,深度学习处理器可以是单核深度学习处理器(Deep Learning Processor-Singlecore,缩写为DLP-S)的神经元,也可以为多核深度学习处理器(Deep Learning Processor-Multicore,缩写为DLP-M)。DLP-M是在DLP-S的基础上进行的多核扩展,将多个DLP-S通过片上网络(Network-on-chip,缩写为Noc)进行互联、多播、核间同步等协议进行核间通信,以完成深度学习任务和阿尔法通道图生成任务。
如图1所示,上述数据存储系统130可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以在计算设备120上,也可以在其它网络服务器上,还可以在数据存储系统130上。该数据存储系统130可以与计算设备120分立,也可以集成在计算设备120内。数据存储系统130不仅可以输入用户设备110上传的数据,还可以存储程序指令、神经元数据、权重数据等,这些神经元数据和权重数据可以是经过训练的数据,也可以是未经过训练的数据,根据计算设备120实施的方法决定。除此之外,数据存储系统130也可以将计算设备120处理得到的处理结果等存储入数据存储系统130。
在实际应用中,如图1所示,上述用户设备110可以具有图像采集功能,使得用户设备110不仅可以通过交互接口向计算设备120发起请求,还可以在训练阶段和阿尔法通道图像生成阶段采集图像,并通过交互接口向计算设备120发送图像。基于此,计算设备120在实施训练方法时,所使用的样本图像不仅可以从数据存储系统130获取,还可以通过交互接口从用户设备110获取。另外,在计算设备120实施生成方法时,其生成的阿尔法通道图不仅可以通过通讯网络反馈至用户设备110,还可以保存在数据存储系统130,作为进一步训练模型的样本数据。
示例性的,如图1所示,上述用户设备110可以具有显示界面,可以在该用户设备110本地安装photoshop、matlab以及open CV等图像处理软件,用户设备110可以响应用户的操作,利用这些图像处理软件离线的对图像进行前处理,然后上传至计算设备120,也可以在计算设备120内安装photoshop、matlab以及open CV等图像处理软件。用户可以响应用户的操作,远程登录计算设备120,利用这些图像处理软件处理图像。
如图1所示,在计算设备120执行训练或生成任务时,中间处理结果和最终处理结果可以通过交互接口自动反馈至用户设备110,也可以基于用户设备110发送的请求消息通过交互接口反馈至用户设备110。例如:当用户需要利用阿尔法通道图抠图时,深度学习处理器可以在生成阿尔法通道图后,通过交互接口反馈至用户设备110,使得用户可以通过用户设备110获知阿尔法通道图。在此基础上,利用阿尔法通道图进行抠图操作。再例如:上述计算设备120不仅可以执行阿尔法通道图生成操作,还可以利用阿尔法通道图进行抠图。当计算设备120完成抠图后,可以将抠图结果通过交互接口自动反馈至用户设备110。
相关技术中,现在自动抠图的技术大多数使用深度学习技术,当前系统往往只能精细地抠出预先指定的物体种类,比如只能精细地抠出人体,人体部分主要需要精细抠出的部分是发丝部分,而不能精细地抠出该系统指定之外的物体,比如该系统指定对人体抠图,但是无法对动物精细抠图。也有一些系统能对通用物体进行抠图,但是往往不能很精细地抠出物体。
针对上述问题,本公开示例性实施例提供一种训练方法,其可以应用于计算设备,也可以应用于计算设备中的芯片。该计算设备可以为图1示例性的计算设备。当计算设备用于执行训练方法时,该计算设备可以作为训练设备。为了方便说明本公开实施例示例性的训练方法,下文将在图1所示例的相关架构图的基础上,结合相关附图举例描述。应理解,下文的举例描述仅用于解释本公开实施例示例性的训练过程,对训练方法没有限制作用。
本公开示例性实施例提供的训练方法用于训练阿尔法通道图生成模型,阿尔法通道图生成模型可以包括第一网络模型和第二网络模型。第一网络模型用于生成三元图,第二网络模型用于生成阿尔法通道图。
图2示例出本公开实施例示例性的训练方法的流程图。如图2所示,本公开示例性实施例的方法包括:
步骤201:基于第一样本图像的阿尔法通道图标定第一样本图像的三元图。第一样本图像的阿尔法通道图中各个区域的透明度已知,而三元图可以将给定图像粗略划分为第一已知区域、第二已知区域和待求的未知区域,并且第一已知区域和第二已知区域的差异比较大,未知区域的透明度位于第一已知区域的透明度和第二已知区域的透明度之间,因此,可以基于阿尔法通道图和三元图各个区域的透明度对应关系,在训练阶段采用阿尔法通道图标定三元图的方式建立第一样本图像的三元图和阿尔法通道图之间的透明度映射关系。
示例性的,可以选择静态图像或者从视频中抽取一帧图像输入photoshop、matlab以及open CV等图像处理软件中,并在图像处理软件中标注第一样本图像的阿尔法通道图,使得第一样本图像需要被抠出的区域在阿尔法通道图被标定。此处需要被抠出的图像可以是图像的前景、也可以是背景,或者其它区域。
举例说明,当用户设备为台式电脑,可以在台式电脑内安装photoshop软件(或者在计算设备中安装photoshop软件)。用户通过用户设备本地打开或在线打开photoshop软件,将图3示例的第一样本图像300输入photoshop软件中,然后用选择工具(如魔棒工具)或者选择工具和反选工具相结合的方式选定图像中需要抠出的前景,接着执行存储选区操作,即可获得图4所示的第一样本图像的阿尔法通道图400。接着台式电脑将第一样本图像通过通信网络上传至计算设备。计算机设备可以基于第一样本图像的阿尔法通道图标定第一样本图像的三元图。由此可见,本公开示例性实施例可以基于图像处理软件标注的alpha通道图自动生成抠图所需要的三元图的未知区域,达到标注三元图的目的,不需要事先判断物体所需要精细抠图的部分(比如说人体的头发部分),即可标注三元图的未知区域。
在标定第一样本图像的三元图的未知区域时,可以按照透明度将第一样本图像的阿尔法通道图划分为三个区域,例如:该第一样本图像的阿尔法通道图包括透明子图、半透明子图和不透明子图。此时,半透明子图用于标定第一样本图像的阿尔法通道含有的未知区域。
当采用深度神经网络建立映射关系时,基于第一样本图像的阿尔法通道图标定第一样本图像的三元图,包括:基于第一样本图像的阿尔法通道图生成透明子图、半透明子图和不透明子图;基于透明子图、半透明子图和不透明子图,确定所述第一样本图像的三元图。透明度映射关系可以是基于深度神经网络建立映射关系,也可以是通过设定不同透明度的子图的阿尔法值范围,建立映射关系。
示例性的,可以将已知映射关系的阿尔法通道图和三元图输入深度神经网络进行训练,训练后的深度神经网络定义为三元图标定网络,该三元图标定网络的架构可以为U-Net网络、全卷积神经网络等。在这个过程中,三元图标定网络可以将第一样本图像的阿尔法通道图分成透明子图、半透明子图和不透明子图,将透明子图设为第一样本图像的三元图含有第一已知区域图像,将不透明子图设为第一样本图像的三元图含有的第二已知区域图像,将半透明子图设为第一样本图像的三元图含有的未知区域图像。换句话说,可以根据透明子图的透明度对第一已知区域图像进行赋值,以代表第一已知区域图像的透明度,根据半透明子图的透明度对未知区域图像进行赋值,以代表未知区域图像的透明度,根据不透明子图的透明度对第二已知区域图像进行赋值,以代表第二已知区域图像的透明度。如果是训练阶段,在预测三元图后,可以采用反向传播算法更新深度神经网络的网络参数,例如:基于一批图像预设的三元图和该批图像映射的三元图计算损失量,根据损失量大小,决定是否需要对损失函数进行求导,更新网络参数,如权值矩阵等。
当设定不同透明度子图的阿尔法通道值建立映射关系时,透明子图的阿尔法值可以小于0.5,半透明子图的阿尔法值大于或等于0.5且小于1,不透明子图的阿尔法值可以为1。半透明子图用于标定第一样本图像的阿尔法通道含有的未知区域,透明子图用于标定第一样本图像的阿尔法通道含有的第一已知区域,不透明子图像用于标定第一样本图像的阿尔法通道含有的第二已知区域。由此可见,在基于第一样本图像的阿尔法通道图标定第一样本图像的三元图的过程中,以阿尔法值为透明度的评价指标,构建透明子图与三元图之间的透明度映射关系。
示例性的,当第一样本图像的阿尔通道图被标定的区域为第一样本图像的背景图,则透明子图为第一样本图像的前景图,不透明子图为第一样本图像的背景图。那么与透明子图具有映射关系的第一已知区域为第一样本图像的前景图,与不透明子图具有映射关系的第二已知区域为第一样本图像的背景图。
例如:可以以小于0.5的阿尔法值为参考,建立透明子图与三元图的前景的之间的透明度关系,以大于或等于0.5且小于1的阿尔法值为参考,建立半透明子图与三元图的未知区域之间的透明度映射关系,以等于1的阿尔法值为参考,建立不透明子图与三元图的背景之间的透明度映射关系,从而构建出透明子图与三元图之间的透明度映射关系。
示例性的,当第一样本图像的阿尔通道图被标定的区域为第一样本图像的前景图,则透明子图为第一样本图像的背景图,不透明子图为第一样本图像的前景图像,那么与透明子图具有映射关系的第一已知区域为第一样本图像的背景图,与不透明子图具有映射关系的第二已知区域为第一样本图像的前景图。
例如:可以以小于0.5的阿尔法值为参考,建立透明子图与三元图的背景之间的透明度关系,以大于或等于0.5且小于1的阿尔法值为参考,建立半透明子图与三元图的未知区域之间的透明度映射关系,以等于1的阿尔法值为参考,建立不透明子图与三元图的前景之间的透明度映射关系,从而构建出透明子图与三元图之间的透明度映射关系。
由上可见,本公开示例性实施例可以基于图像处理软件标注的alpha通道图自动生成抠图所需要的三元图的未知区域,达到标注三元图的目的,不需要事先判断物体所需要精细抠图的部分(比如说人体的头发部分)。
步骤202:基于第一样本图像和经过标定的第一样本图像的三元图训练第一网络模型。
鉴于训练后的第一网络模型是用于生成三元图,使得步骤101的操作实质是为第一网络模型提供监督信息。为了保证计算设备训练的第一网络模型生成通用物体的三元图,可以利用图像处理软件处理各种类别的第一样本图像的阿尔法通道图。从图像展示的物体类别来看,这些第一样本图像的类别可以包括:动物图像、植物图像、昆虫图像、自然景观(如地形地貌)、人工建筑等。从图像展示的物体区分度上来讲,这些第一样本图像可以是前景和背景差别比较小的图像,也可以是前景和背景差别比较大的图像。如在白色背景或接近白色背景的透明玻璃杯、白色玻璃杯等。
在实际应用中,可以将第一网络模型的网络参数、神经元可以保存在数据存储系统中。计算设备在执行第一网络模型训练时,可以调用数据存储系统的网络参数和神经元进行训练,并将每次更新的网络参数保存在数据存储系统中。当进行第一网络模型训练时,可以以标定的第一样本图像的三元图为目标,利用第一网络模型预测第一样本图像的三元图,获得三元图预测结果,然后采用反向传播算法更新第一网络模型的网络参数。例如:可以根据一批第一样本图像的三元图预测结果和标定的第一样本图像的三元图确定损失量,根据损失量大小,决定是否对损失函数进行求导,更新网络参数。由此可见,第一网络模型在训练阶段的监督信息为经过标定的第一样本图像的三元图,该第一样本图像的三元图由第一样本图像的阿尔法通道图标定,因此,当第一网络模型预测到三元图预测结果后,该三元图预测结果与阿尔法通道图之间存在一定的关联性。
步骤203:基于训练完成的第一网络模型预测第二样本图像的三元图。在第一网络模型在训练阶段的监督信息为经过标定的第一样本图像的三元图,使得该三元图预测结果与阿尔法通道图之间存在一定的关联性,因此,基于训练完成的第一网络模型预测的第二样本图像的三元图含有的未知区域未知,但是实质上隐含了与阿尔法通道图的关联性。
在实际应用中,可以通过用户设备将采集的第二样本图像通过通信网络上传至计算设备,计算设备调用保存在数据存储系统中的神经元和优化的网络参数,确定第二样本图像的三元图。
步骤204:基于第二样本图像、第二样本图像的三元图训练第二网络模型和第二样本图像的阿尔法通道图。
由于训练后的第二网络模型是用于生成阿尔法通道图,使得步骤203的操作实质是为第二网络模型准备训练所需的部分数据。第二网络模型在训练阶段的监督信息为经过标定的所述第二样本图像的阿尔法通道图。为了保证计算设备训练的第二网络模型生成通用物体的阿尔法通道图,可以利用图像处理软件处理各种类别的第二样本图像的阿尔法通道图。从图像展示的物体类别来看,这些第二样本图像的类别可以包括:动物图像、植物图像、昆虫图像、自然景观(如地形地貌)、人工建筑等。从图像展示的物体区分度上来讲,这些第二样本图像的类别可以是前景和背景差别比较小的图像,也可以是前景和背景差别比较大的图像。如在白色背景或接近白色背景的透明玻璃杯、白色玻璃杯等。
在实际应用中,可以将第二网络模型的网络参数、神经元可以保存在数据存储系统中。计算设备在执行第二网络模型训练时,可以调用数据存储系统的网络参数和神经元进行训练,并将每次更新的网络参数保存在数据存储系统中。当进行第二网络模型训练前,用户可以通过智能手机、台式电脑、笔记本电脑等用户设备提前对第二样本图像进行标定,标定方式可以参考第一样本图像的标定方法,此处不做详述。在此基础上,将标定的第二样本图像的阿尔法通道图可以作为第二网络模型的监督信息使用。此时,以标定第二样本图像的阿尔法通道图为目标,基于第二样本图像和第二样本图像的三元图预测第二样本图像的通道图,获得阿尔法通道图预测结果。在此之后,采用反向传播算法更新第二网络模型的网络参数。例如:可以根据一批第二样本图像、第二样本图像的三元图和标定的第二样本图像的三元图确定损失量,根据损失量大小,决定是否对损失函数进行求导,更新网络参数。
可见,本公开示例性实施例以第一样本图像的阿尔法通道图标定第一样本图像的三元图,在此基础上,以标定的第一样本图像的三元图为目标,训练第一网络模型,使得所训练的第一网络模型确定的第二样本图像的三元图含有的未知区域隐含了与阿尔法通道图的关联性。基于此,第二网络模型以经过标定的第二样本图像的阿尔法通道图为目标,以第二样本图像和第一网络模型确定的第二样本图像的三元图为输入,训练第二网络模型时,第二网络模型可以融合第二样本图像和第二样本图像的三元图,并在第二样本图像的三元图与阿尔法通道的关联性的指引下,基于融合后的特征预测出可以精细抠出所需物体的第二样本图像的阿尔法通道图。由此可见,本公开示例性实施例提供的训练方法可以训练第一网络模型和第二网络模型,构成可以生成阿尔法通道图的阿尔法通道图生成模型。而由于深度神经网络具有良好的泛化能力,在后续确定阿尔法通道图时,基于训练阶段的透明度关联性,利用训练后的第一网络模型确定图像的三元图,然后将图像的三元图和图像输入训练后的第二网络模型,可以生成精细度比较高的阿尔法通道图。在此基础上,利用阿尔法通道图可以精细的将图像中的物体抠出。整个过程不需要人工干介入,如预先指定需要抠出的区域,也不需要基于蒙版生成三元图,可以克服指定抠出区域和蒙版生成三元图效率不高和速度慢的问题。
在一种可选方式中,上述第一网络模型的架构和第二网络模型的架构均可以为端到端网络架构,这些端到端网络架构可以包括全卷积神经网络架构和U-Net神经网络架构。基于此,第一网络模型输出的三元图尺度可以与输入的图像尺度相同。在此基础上,三元图不经过尺度调整,直接与图像一起输入第二网络模型,并输出与图像相同的阿尔法通道图像。基于此,当确定阿尔法通道图后,无需变化阿尔法通道图的尺度,就可以从图像中精细抠出所需物体。
图5示出了本公开示例性实施例的第一网络模型的基本架构图。如图5所示,第一网络模型的架构500可以包括第一网络结构510和第二网络结构520,该第一网络结构510与第二网络结构520不同。第一网络结构510可以作为编码器,用于基于第一样本图像预测多级三元图编码特征。第二网络结构520可以作为解码器,用于基于多级三元图编码特征预测第一样本图像的三元图,获得三元图预测结果。
如图5所示,随着三元图编码特征的级数增加,三元图编码特征的尺度减小。三元图预测结果的尺度与第一样本图像的尺度相同。可见,通过第一网络结构510可以获得多级不同尺度的三元图编码特征,而三元图预测结果的尺度与第一样本图像的尺度相同,使得第一网络模型的架构具有一些端到端网络架构的特点。同时,作为解码器的第二网络结构520,可以基于不同尺度的多级三元图编码特征预测第一样本图像的三元图,而不是基于尺度最小的三元图编码特征预测第一样本图像的三元图,使得第二网络结构520可以融合将第一网络结构510的各级尺度的三元图编码特征,保证获得三元图预测结果不仅含有深层的三元图语义信息还含有底层的外表形态信息,因此,利用训练后的第一网络模型所预测的三元图包括的未知区域信息丰富,使得第二网络模型融合第二样本图像和第二样本图像的三元图后,可以生成用于抠出更为精细物体的阿尔法通道图。
示例性的,如图5所示,对于第一网络结构510来说,第一网络结构510包括M级级联的第一子网络511,该第二网络结构520包括N级级联的第二子网络521以及第一拼接单元522,M和N均为大于1的整数。每个第一子网络511的架构和每个第二子网络521的架构均可以为端到端架构,其包括U-Net神经网络架构或全卷积神经网络架构。但也可以是其它架构。
如图5所示,每级所述第一子网络511用于提取相应级三元图编码特征,第1级第一子网络从第一样本图像中提取第1级三元图编码特征,第2级第一子网络至第M级第一子网络从前一级三元图编码特征提取当前级三元图编码特征。
在第1级第一子网络至第t级所述第一子网络中,随着第一子网络的级数增加,第一子网络的深度减小。由于随着第一子网络的级数增加,第一子网络可以提取到更高层的三元图编码特征,第一子网络的越浅,可以从该第一子网络的输入特征提取到更底层的三元图编码特征语义,因此,在第1级第一子网络至t级第一子网络中,每级第一子网络都可以通过自身的深度以及其在第一网络结构510的级别,平衡输出的三元图编码特征所含有的高层特征和底层特征,使得第二网络结构520基于多级三元图编码特征预测第一样本图像的三元图时,保证第一样本的三元图所隐含的阿尔法通道图的关联信息更为准确。
鉴于第一子网络的级数越高,其所输出的三元图编码特征尺度越小,如果级数较高的第一子网络在提取特征时候进行下采样操作,并可能无法从尺度特别小的特征图中有效提取信息。基于此,在第t+1级第一子网络至N级第一子网络中,每级第一子网络包括多个特征提取层,每个特征提取层生成的特征图尺度相同。t为大于或等于3且小于或等于N的整数。
在此基础上,利用第一子网络对的尺度很小的三元图编码特征进行特征提取时,第一子网络内的各个特征提取层所提取的特征图大小一致,可以有效的提取三元图编码特征内的有效信息。
如图5所示,每级第二子网络521用于提取相应级三元图解码特征。第一拼接单元用于拼接第M级所述三元图编码特征、第1级所述三元图解码特征至第N级所述三元图解码特征,获得三元图预测结果。
第1级第二子网络的输入特征为第一拼接特征,第一拼接特征包括第N级三元图编码特征和所述第N-1级所述三元图编码特征。此时,第1级第二子网络可以基于第N级所述三元图编码特征和第N-1级所述三元图编码特征生成第1级三元图解码特征。同时,第N级第一子网络的架构与第1级第二子网络的架构可以相同,也可以不同。第s级第二子网络的输入特征为第二拼接特征,第二拼接特征包括第s-1级三元图解码特征和第k级三元图编码特征。同时,第k级第一子网络的架构与第s级第二子网络的架构可以相同,也可以不同。
k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于M的整数。k可以等于t,也可以不等于t,s与k的关系可以为s+k=N。在这种情况下,每级第二子网络的输入特征都可以融合前一级第二子网络输出的特征和一级第一子网络输出的特征的拼接特征,使得第一子网络逐级引入不同尺度的三元图编码特征。
为了比较清楚描述第一网络模型架构,图6A示出了本公开示例性实施例的第一网络模型的架构示意图。如图6A所示,该第一网络模型的架构600为U2-Net网络架构,其包括上采样网络910和下采样网络920。上采样网络910包括6个编码器,每个编码器的网络结构为U-Net结构或全卷积神经网络,每个编码器的输入特征尺度和输出特征尺度相同,下采样模块包括5个解码器,每个解码器为U-Net结构或全卷积神经网络,每个解码器的输入特征尺度和输出特征尺度相同。6个编码器分别定义为第一编码器611、第二编码器612、第三编码器613、第四编码器614、第五编码器615和第六编码器616,并且依次连接。5个解码器分别定义为第一解码器621、第二解码器622、第三解码器623、第四解码器624和第五解码器625,并且依次连接。并且,第一编码器611的架构与第五编码器615的架构相同,第二编码器612的架构与第四编码器614的架构相同,第三编码器613的架构与第三编码器613的架构相同,第四编码器614的架构与第二编码器612的架构相同,第五编码器615的架构与第一编码器611的架构相同。
图6B示出了本公开示例性实施例的第一编码器的架构示意图。图6C示出本公开示例性实施例的第二编码器的架构示意图。图6D示出了本公开示例性实施例的第三编码器的架构示意图。图6E示出了本公开示例性实施例的第四编码器的架构示意图。由图6B至图6E可以看出,第一编码器611、第二编码器612、第三编码器613、第四编码器614、第五编码器615的网络架构均为U-Net网络架构,第一编码器611、第二编码器612、第三编码器613、第四编码器614、第五编码器615的网络深度逐渐减小。相应的,第二解码器622、第三解码器623、第四解码器624和第五解码器625的网络架构均为U-Net网络架构,第二解码器622、第三解码器623、第四解码器624和第五解码器625的网络深度逐渐增加,使得每个解码器均可以提取到融合有上下文特征的三元图解码特征。
本公开示例性实施例中第五编码器和第六编码器的网络架构相同。图6F示出了本公开示例性实施例的第五编码器的架构示意图。如图6F所示,在第五编码器615中,不同网络深度提取的特征图大小相同。
本公开示例性的第一网络模型架构在处理图像的过程可以分为下采样阶段和上采样阶段,下面以512×512的图像处理过程为例进行描述。
如图6A所示,在下采样阶段,512×512的图像经过第一编码器611提取特征,第一编码器611输出的第1级三元图编码特征的尺度仍然为512×512,在输入第二编码器612前,可以进行第一次下采样操作,使得第1级三元图编码特征的尺度变为256×256,然后输入第二编码器612,第二编码器612输出的第2级三元图编码特征在输入第三编码器613前,可以进行第二次下采样操作,使得第2级三元图编码特征的尺度变为128×128,然后输入第三编码器613,第三编码器613输出的第3级三元图编码特征在输入第四编码器614前,可以进行第三次下采样操作,使得第3级三元图编码特征的尺度变为64×64,第四编码器614输出的第4级三元图编码特征在输入第五编码器615前,可以进行第四次下采样操作,使得第4级三元图编码特征的尺度变为32×32,第五编码器615输出的第5级三元图编码特征在输入第六编码器616前,可以进行第五次下采样操作,使得第5级三元图编码特征的尺度变为16×16,因此,第六编码器616输出的第6级三元图编码特征为16×16。
在上采样阶段,每个解码器输入的特征在进入该解码器前均执行特征拼接操作和上采样操作。上采样操作和拼接操作的先后顺序可以根据实际情况设定。下文以先执行上采样操作,后执行拼接操作为例描述上采样阶段。
如图6A所示,第六编码器616输出的第6级三元图编码特征P1尺度为16×16,经过第一次上采样操作后,其尺度增大至32×32,并与第五编码器615输出的第5级三元图编码特征(尺度为32×32)进行拼接,将拼接后形成的第一拼接特征图输入第一解码器621,因此,第一解码器621输出的第1级三元图编码特征P2的尺度为32×32,且融合有第一拼接特征的信息。第1级三元图解码特征经过第二次上采样操作后,尺度增大至64×64,并与第四编码器614输出的第4级三元图编码特征(尺度为64×64)进行拼接,将拼接后形成的第二拼接特征输入第二解码器622,因此,第二解码器622输出的第2级三元图解码特征P3的尺度为64×64,且融合有第二拼接特征的信息。第2级三元图解码特征P3进行第三次上采样操作后,尺度增大至128×128,并与第三编码器613输出的第3级三元图编码特征(128×128)进行拼接,将拼接后形成的第三拼接特征输入第三解码器623,因此,第三解码器623输出的第3级三元图解码特征P4的尺度为128×128,且融合有第三拼接特征的信息。第3级三元图解码特征P4进行第四次上采样操作后,其尺度增大至256×256,并与第二编码器612输出的第2级三元图编码特征(尺度为256×256)进行拼接,将拼接后形成的第四拼接特征输入第四解码器624,因此,第四解码器624输出的第3级三元图解码特征P5的尺度为256×256,且融合有第三拼接特征的信息;第4级三元图解码特征P5进行第五次上采样操作后,其尺度增大至512×512,并与第一编码器611输出的第1级三元图编码特征(尺度为512×512)进行拼接,将拼接后形成的第五拼接特征输入第五解码器625,因此,第五解码器625输出的第5级三元图解码特征P6的尺度为512×512融合有第五拼接特征的信息,恢复至输入的图像尺度。在此基础上,将第六编码器616输出的三元图编码特征、第一解码器621输出的三元图解码特征、第二解码器622输出的三元图解码特征、第三解码器623输出的三元图解码特征、第四解码器624输出的三元图解码特征和第五解码器625输出的三元图解码特征进行拼接,从而获得上下文信息比较丰富的三元图。
在一种可选方式中,图7示出了本公开示例性的第二网络模型的基本架构示意图。如图7所示,第二网络模型700包括:第三网络结构710和第四网络结构720。第一网络结构、第二网络结构、第三网络结构710和第四网络结构720不同。该第二网络模型700的监督信息为标定的第二样本图像的阿尔法通道图。
如图7所示,上述第三网络结构710可以作为编码器,用于基于第二样本图像、第二样本图像的三元图生成多级通道编码特征。随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小。第四网络结构720可以作为解码器,用于基于多级通道编码特征和第二样本图像的底层特征,预测第二样本图像的阿尔法通道图,获得阿尔法通道图预测结果。基于此,阿尔法通道图预测结果不仅含有高层语义信息还含有底层的外表形态信息,因此,利用训练后的第二网络模型生成的阿尔法通道图可以从图像抠出更为精细的物体。不仅如此,上述阿尔法通道图预测结果的尺度可以与第二样本图像的尺度相同,使得第二网络模型具有端到端网络架构。
示例性的,如图7所示,对于第三网络结构710来说,第三网络结构710包括P级第一提取模块711和1个第二提取模块712,P级第一提取模块级联在一起,P为大于或等于2的整数。
每级第一提取模块712用于提取相应级通道编码特征,第二提取模块712用于提取第二样本图像的底层特征。该底层特征含有第二样本图像的外表特征,如纹理、形状等。
如图7所示,当第二提取模块712还用于向至少一个第一提取模型711输入底层特征,至少一级所述通道编码特征融合有底层特征,所述底层特征用于指引相应级通道编码特征的未知区域。应理解,第二网络模型700以第二样本图像及其三元图为输入,预测阿尔法通道图,其本质是求解三元图中未知区域的过程。基于此,在第三网络结构710所含有的第一提取模块提取的相应级通道编码特征,其在一定程度上融合有三元图的未知区域,因此,通道编码特征中存在一定程度的透明度未知区域,这个未知区域与三元图中未知区域关联。通过底层特征指引编码特征的未知区域,可以保证确定的阿尔法通道图可以更为精细的从图像抠出物体。
图8示出了本公开示例性的涉及GCA模块的单元结构的示意图。如图8所示,在该单元结构800中,当第m级通道编码特征融合有底层特征,第m级第一提取模块810包括第一透明信息特征提取单元811和第一指引上下文注意力单元(第一GCA单元812,GCA全称为guided contextual attention),m为大于1且小于或等于P的整数。
如图8所示,第一透明信息提取单元811用于从第m-1级通道编码特征提取第一透明度特征。第一透明信息特征提取单元可以包括各种卷积层构成的网络结构。例如:可以多个残差网络从第m-1层输出的通道编码特征提取更深层的透明度特征图。
第一GCA单元812用于基于底层特征和第一透明度特征获得相应尺度的通道编码特征。第一GCA模块可以将具有相似外观的底层特征指的已知区域特征传导到未知区域上。此处GCA模块的内部实现机制可以参考相关技术,不做详细说明。
示例性的,如图7所示,对于第四网络结构720来说,第四网络结构720包括Q层第三提取模块721,Q层第三提取模块721级联在一起,Q为大于或等于2的整数。
上述第r级第三提取模块的输入特征为第三拼接特征,第三拼接特征包括第r-1级通道解码特征和第u级通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数,例如:第2级第三提取模块至第Q级第三提取模的输入特征均为第三拼接特征。基于此,可以保证第四网络结构可以基于多个通道编码特征预测第二样本图像的阿尔法通道图。如图7所示,当第二提取模块712还用于向至少一级第三提取模块721输入底层特征,至少一级所述通道解码特征融合有底层特征,该底层特征用于指引相应级通道解码特征的未知区域。相关效果可以参考关于通道编码特征的描述。
如图8所示,当第n级通道解码特征融合有底层特征,第n级第三提取模块820包括第二透明信息特征提取单元821和第二指引上下文注意力单元(后文称作第二GCA单元822),n为大于或等于1且小于或等于Q的整数。
如图8所示,第二透明信息特征提取单元821用于提取第二透明度特征,第二GCA单元822用于基于底层特征和第二透明度特征获得相应级通道解码特征。第二GCA单元822可以将具有相似外观的底层特征指的已知区域特征传导到未知区域上。此处第二GCA单元822的内部实现机制可以参考相关技术,不做详细说明。
当第m级通道编码特征和第n级通道解码特征均融合有底层特征均融合有底层特征,第n级第三提取模块820还包括第二拼接单元823,用于拼接第二透明度特征和第m级通道编码特征,获得透明度融合特征图,第二GCA单元822用于基于透明度融合特征图和底层特征获得相应级通道解码特征。
为了比较清楚描述第二网络模型架构,图9A示出了本公开示例性实施例的第一网络模型的架构示意图。如图9A所示,该第二网络模型的架构为U2-Net网络架构,其包括上采样网络910和下采样网络920。上采样网络910包括5个编码器,分别为级联的第一编码器911a、第二编码器911b、第三编码器911c、第四编码器911d和第五编码器911e615;上采样网络910还包括特征提取器912。下采样网络920包括5个解码器,分别为级联的第一解码器921、第二解码器922、第三解码器923、第四解码器924和第五解码器925。本公开示例性的第二网络模型架构在处理图像的过程同样可以分为下采样阶段和上采样阶段,下面以512×512的图像处理过程为例进行描述。
图9B示出了本公开示例性实施例的第一编码器的结构示意图。如图9B所示,该第一编码器911a包括级联的第一卷积层911a1和第二卷积层911a2。第一编码器911a的输入特征的尺度与输出特征的尺度相同。当第一编码器911a处理第二样本图像和第二样本图像的三元图尺度为512×512,那么第一编码器911a输出的第1级通道编码特征尺度为512×512。
图9C示出了本公开示例性实施例的第二编码器的结构示意图。如图9C所示,第二编码器911b包括级联的第三卷积层911b1、第一残差块911b2和2个第二残差块911b3。第一残差块911b2和第二残差块911b3的区别在于:第一残差块911b2的支路上需要对输入特征进行第一下采样操作,使得第二编码器911b输出的特征尺度是输入特征尺度的1/4倍。基于此,由于第一编码器911a输出的第1级通道编码特征尺度为512×512,因此,第二编码器911b的输入特征尺度为512×512,第二编码器911b输出的第2级通道编码特征尺度为256×256。
图9D示出了本公开示例性实施例的第三编码器的结构示意图。如图9D所示,第三编码器911c包括级联的第三残差块911c1、3个第四残差块911c2以及第一GCA单元911c3。第三残差块911c1和第四残差块911c2的区别在于:第三残差块911c1的支路上需要对输入特征进行第二下采样操作,使得第三编码器911c输出的特征尺度是输入特征尺度的1/4倍。基于此,由于第二编码器911b输出的第2级通道编码特征尺度为256×256,因此,第三编码器911c的输入特征尺度为256×256,第三编码器911c输出的第3级通道编码特征尺度为128×128。并且,第一GCA单元911c3可以处理最后一个第四残差块911c2输出的透明信息和底层特征,使得底层特征可以指引最终输出的第3级通道编码特征的未知区域。底层特征由特征提取器912从第二样本图像中提取,可以采用3层卷积层进行提取,随着层数的增加,其提取的底层特征的尺度逐渐减小。
图9E示出了本公开示例性实施例的第四编码器的结构示意图。如图9E所示,第四编码器911d包括级联的第五残差块911d1和3个第六残差块911d2。第五残差块911d1和第六残差块911d2的区别在于:第五残差块911d1的支路上需要对输入特征进行第三下采样操作,使得第四编码器911d输出的特征尺度是输入特征尺度的1/4倍。基于此,由于第三编码器911c输出的第3级通道编码特征尺度为128×128,因此,第四编码器911d的输入特征尺度为128×128,第四编码器911d输出的第4级通道编码特征尺度为64×64。
图9F示出了本公开示例性实施例的第五编码器的结构示意图。如图9F所示,第五编码器911e包括级联的第七残差块911e1和第八残差块911e2。第七残差块911e1和第八残差块911e2的区别在于:第七残差块911e1的支路上需要对输入特征进行第四下采样操作,使得第五编码器911e输出的特征尺度是输入特征尺度的1/4倍。基于此,由于第四编码器911d输出的第4级通道编码特征尺度为64×64,因此,第五编码器911e的输入特征尺度为64×64,第五编码器911e输出的第5级通道编码特征尺度为32×32。
图9G示出了本公开示例性实施例的第一解码器的结构示意图。如图9G所示,第一解码器921包括第九残差块9211和第十残差块9212,第九残差块9211和第十残差块9212的区别在于,第九残差块9211的支路上需要对输入特征进行第一上采样操作,使得第一解码器921输出的特征尺度是输入特征尺度的4倍。基于此,由于第五编码器911e输出的第5级通道编码特征尺度为32×32,因此,第一解码器921的输入特征尺度为32×32,第一解码器921输出的通道解码特征尺度为64×64。
图9H示出了本公开示例性实施例的第二解码器的结构示意图。如图9H所示,第二解码器922包括第十一残差块9221、第十二残差块9222和第二GCA单元9223,第十一残差块9221和第十二残差块9222的区别在于,第十一残差块9221的支路上需要对输入特征进行第二上采样操作,使得第二解码器922的输出特征尺度是输入特征尺度的4倍。基于此,由于第一解码器921输出的第1级解码特征尺度为64×64,第4编码器911d输出的第4级通道编码特征的尺度为64×64,因此,将第1级解码特征尺度为64×64和第4级通道编码特征拼接,可以获得输入第二解码器922的拼接特征,其尺度为64×64,然后输入至第十一残差块9221,使得最终输出第二通道解码特征尺度为128×128。同时,为了进一步实现上下文语义信息学习,第三编码器911c输出的第3级通道编码特征(尺度为128×128)可以和最后一个第十二残差块输出的透明信息(尺度为128×128)进行拼接,然后利用第二GCA生成第2级通道解码特征,使底层特征可以指引最终输出的第二通道解码特征的未知区域。
如图9A所示,上述第三解码器923和第四编码器924的结构可以参考图9G所示的第一解码器921的结构,第三解码器923和第一解码器921的结构区别在于第三解码器923c存在2个第十残差块的数量。基于此,由于第二解码器922输出的第二解码特征尺度为128×128,因此,第三解码器923的输入特征尺度为128×128,第三解码器923输出的第3级通道解码特征尺度为256×256。第四编码器911d的结构与第一编码器911a的结构相同。基于此,由于第三解码器923输出的第3级通道解码特征尺度为256×256,第二编码器911b输出的第2级通道编码特征尺度为256×256,因此,可以拼接第3级解码特征和第2级编码特征后,送入第四加码器924,使得输出的第4级解码特征尺度为512×512。
图9I示出了本公开示例性实施例的第五解码器的结构示意图。如图9I所示,第五解码器925包括级联的第四卷积层9251和第五卷积层9252。由于第一编码器911a输出的第1级通道编码特征的尺度为512×512,第四解码器925输出的第4级级通道解码特征尺度为512×512,因此,可以将第4级通道解码特征和第1级通道编码特征拼接后输入第四卷积层中,同时第四卷积层9251提取特征后,其尺度并未发生变化,可以将第二样本图像和第二样本图像的三元图与提取到的特征进行拼接,从而获得阿尔法通道图。
本公开示例性实施例的训练方法所训练的阿尔法通道图生成模型可以用于生成阿尔法通道图。基于此,本公开实施例示例性提供一种生成方法,其可以应用于计算设备,也可以应用于计算设备中的芯片。该计算设备可以为图1示例性的计算设备。当计算设备用于执行生成方法时,该计算设备可以作为执行设备。为了方便说明本公开实施例示例性的生成方法,下文将在图1所示例的相关架构图的基础上,结合相关附图举例描述。应理解,下文的举例描述仅用于解释本公开实施例示例性的生成过程,对生成方法没有限制作用。
本公开示例性实施例提供的生成方法可以应用阿尔法通道图生成模型包括第一网络模型和第二网络模型,第一网络模型用于生成三元图,第二网络模型用于生成阿尔法通道图。图10示出了本公开示例性实施例提供的生成方法的流程图。如图9所示,本公开示例性实施例提供的生成方法包括:
步骤1001:基于第一网络模型生成原始图像的三元图。用户设备可以通过通信网络将原始图像上传至计算设备或者被保存在数据存储系统中,计算设备基于该原始图像可以生成三元图。原始图像也可以被预先保存在数据存储系统中,用户可以通过用户设备登录至计算设备,计算设备可以通过通信网络访问数据存储系统,选定保存的原始图像,使得计算设备基于该原始图像生成三元图。在生成三元图的过程中,计算设备可以调用数据存储系统所保存的神经元和更新好的网络参数,确定出三元图。
上述第一网络模型可以包括第一网络结构和第二网络结构,第一网络结构和第二网络结构不同。第一网络结构用于基于原始图像确定多级三元图编码特征,随着三元图编码特征的级数增加,三元图编码特征的尺度减小。第二网络结构用于基于多级三元图编码特征确定三元图,三元图的尺度与原始图像的尺度相同。
示例性的,当第一网络结构包括M级级联的第一子网络,M为大于1的整数。每级第一子网络用于生成相应级三元图编码特征。其中,第1级第一子网络用于基于原始图像提取到第1级三元图编码特征,第2级第一子网络至第M级第一子网络均是基于前一级三元图解码特征生成当前级的编码特征。
示例性的,第二网络结构包括第一拼接单元和N级级联的第二子网络,N为大于1的整数。每级第二子网络用于提取相应级三元图解码特征。第一拼接单元用于拼接第M级三元图编码特征、第1级三元图解码特征至第N级三元图解码特征,获得三元图。
例如:第1级第二子网络的输入特征为第一拼接特征,该第一拼接特征包括第N级三元图编码特征和第N-1级三元图编码特征。又例如:第s级所述第二子网络的输入特征为第二拼接特征,所述第二拼接特征包括第s-1级三元图解码特征和第k级三元图编码特征,k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于N的整数。比如:第2级第二子网络至第N级第二子网络的输入特征为第二拼接特征,每级第二拼接特征包括:前一级三元图解码特征和另一第一子网络输出的相应级三元图编码特征。此处第一子网络的三元图编码特征和第二子网络输出的三元图编码特征进行拼接时,如果第一子网络的输出特征和第二子网罗的输出特征的尺度不同,可以通过对其中之一进行上采样或下采样操作,使得二者的尺度相同。
步骤1002:基于第二网络模型处理原始图像和三元图,获得原始图像的阿尔法通道图。计算设备可以调用保存在数据存储系统的原始图像,基于原始图像和步骤1001生成的三元图确定阿尔法通道图。步骤1001生成的三元图可以不保存,也可以保存在数据存储系统中,供用户设备随时调用和查看。
上述第二网络模型可以包括:第三网络结构和第四网络结构,所述第一网络结构、所述第二网络结构、所述第三网络结构和所述第四网络结构不同。该第三网络结构用于基于原始图像和所述三元图生成多级不同级通道编码特征,随着通道编码特征的级数增加,通道编码特征的尺度变小。第四网络结构用于基于多级通道编码特征和原始图像的底层特征,确定所述阿尔法通道图,阿尔法通道图的尺度与原始图像的尺度相同。
示例性的,上述第三网络结构包括P级第一提取模块和1个第二提取模块。每级第一提取模块用于提取相应级通道编码特征。例如:对于第1级第一提取模块来说,第1级第一提取模块用于基于原始图像和原始图像的三元图,生成第1级通道编码特征,对于第2级第一提取模块至第P级第一提取模块来说,其用于基于前一级通道编码特征生成当前级通道编码特征。
第二提取模块用于提取原始图像的底层特征,至少一级第一提取模块用于基于该底层特征和前一级通道编码特征生成当前级通道编码特征,使得当前级通道编码特征融合有底层特征。该底层特征用于指引当前级所述通道编码特征的未知区域。例如:当第m级通道编码特征融合有底层特征,第m级第一提取模块包括第一透明信息特征提取单元和第一GCA单元,第一透明信息提取单元用于从第m-1级所述通道编码特征提取第一透明度特征,第一GCA单元用于基于底层特征和所述第一透明度特征获得相应级通道编码特征。m为大于1且小于或等于P的整数。
示例性的,每级第三提取模块用于提取相应级通道解码特征。至少一级第二提取模型用于基于前一级通道解码特征和所述底层特征,确定当前级通道解码特征。当前级所述通道解码特征融合有底层特征,底层特征还用于指引当前级通道解码特征含有的未知区域。例如:当第n级通道解码特征融合有底层特征,第n级第三提取单元包括第二透明信息特征提取单元和第二GCA单元,所述第二透明信息特征提取单元用于提取第二透明度特征,所述第二GCA单元用于基于底层特征和第二透明度特征获得相应级通道解码特征,n为大于等于1且小于或等于Q的整数。
当第m级所述通道编码特征和第n级所述通道解码特征均融合有底层特征,第n级所第二提取模块还包括第二拼接单元,用于拼接第二透明度特征和第m级通道编码特征,获得透明度融合特征,第二指引上下文注意力单元用于基于透明度融合特征和所述底层特征获得相应级通道解码特征。
可以理解的是,如果第二透明度特征和第m级通道编码特征的尺度不一致,可以通过对其中之一进行上采样或下采样的方式,调整尺度,使得二者的尺度保持一致,进而正常拼接。
示例性的,第r级第三提取模块的输入特征为第三拼接特征,第三拼接特征包括第r-1级通道解码特征和第u级通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数。此处第r-1级通道解码特征和第u级通道编码特征的尺度如果不一致,可以通过对其中之一进行上采样或下采样的方式,调整尺度,使得二者的尺度保持一致,进而正常拼接。
采用本公开示例性实施例的生成方法生成阿尔法通道图后,可以基于I=αF+(1-α)B对原始图像进行精细抠图操作。其中,F为前景像素,B为背景像素,I为原始图像的像素,α为像素透明度,取值在0~1之间。
本公开实施例中提供的一个或多个技术方案,基于阿尔法通道图和三元图各个区域的透明度对应关系,在训练阶段采用阿尔法通道图标定三元图的方式建立三元图和阿尔法通道图之间的透明度映射,并以标定的三元图为目标,训练第一网络模型,因此,在生成阿尔法通道图时,可以在没有预先指定的抠出区域的前提下,第二网络模型依靠三元图与阿尔法通道图的映射关系,以第一网络模型生成的三元图为参考,准确生成阿尔法通道图。在此基础上,利用阿尔法通道图可以自动准确的从原始图像抠出精细度比较高的图像。
上述主要从计算设备角度对本公开实施例提供的方案进行了介绍。可以理解的是,计算设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对计算设备等进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能单元的情况下,图11示出了根据本公开示例性实施例的训练装置的功能模块示意性框图。如图11所示,该训练装置1100用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述训练装置1100包括:
标定模块1101,用于基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;
第一训练模块1102,用于基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;
预测模块1103,用于基于训练完成的所述第一网络模型预测所述第二样本图像的三元图;
第二训练模块1104,用于基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图和训练第二网络模型。
图12示出了根据本公开示例性实施例的生成装置的功能模块示意性框图。如图12所示,本公开示例性实施例提供的生成装置应用所述设备训练的阿尔法通道图生成模型生成阿尔法通道图,该阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述生成装置1200包括:
第一生成模块1201,用于基于第一网络模型生成原始图像的三元图;
第二生成模块1202,基于第二网络模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图。
上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能单元的功能描述,在此不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的训练方法和/或生成方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的训练方法和/或生成方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图13,现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,电子设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
电子设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备,输入单元1306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如,在一些实施例中,训练方法和/或阿尔法通道图的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法训练方法和/或生成方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管结合具体特征及其实施例对本公开进行了描述,显而易见的,在不脱离本公开的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明,且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包括这些改动和变型在内。
Claims (25)
1.一种训练方法,其特征在于,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述方法包括:
基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;
基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;
基于训练完成的所述第一网络模型预测第二样本图像的三元图;
基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型;
所述第二网络模型包括:第三网络结构和第四网络结构,所述第三网络结构用于基于所述第二样本图像和所述第二样本图像的三元图生成多级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小,至少一级所述通道编码特征融合有底层特征,所述底层特征用于指引相应级所述通道编码特征的未知区域;
所述第四网络结构用于基于多级所述通道编码特征和所述第二样本图像的底层特征,预测所述第二样本图像的阿尔法通道图,获得阿尔法通道图预测结果,所述阿尔法通道图预测结果的尺度与所述第二样本图像的尺度相同,至少一级所述通道解码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道解码特征的未知区域。
2.根据权利要求1所述的方法,其特征在于,所述基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图,包括:
基于所述第一样本图像的阿尔法通道图生成透明子图、半透明子图和不透明子图;
基于所述透明子图、所述半透明子图和所述不透明子图,确定所述第一样本图像的三元图。
3.根据权利要求1所述的方法,其特征在于,所述第一样本图像的阿尔法通道图包括透明子图、半透明子图和不透明子图,所述半透明子图用于标定所述第一样本图像的阿尔法通道含有的未知区域,所述半透明子图的阿尔法值大于或等于0.5且小于1。
4.根据权利要求3所述的方法,其特征在于,所述透明子图为所述第一样本图像的前景图,所述不透明子图为所述第一样本图像的背景图;或,
所述透明子图为所述第一样本图像的背景图,所述不透明子图为所述第一样本图像的前景图像。
5.根据权利要求1所述的方法,其特征在于,所述第一网络模型的架构和所述第二网络模型的架构为端到端网络架构,所述端到端网络架构包括全卷积神经网络架构和U-Net神经网络架构。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述第一网络模型在训练阶段的监督信息为经过标定的所述第一样本图像的三元图;
所述第一网络模型包括第一网络结构和第二网络结构,所述第一网络结构与所述第二网络结构不同;
所述第一网络结构用于基于所述第一样本图像预测多级三元图编码特征,随着所述三元图编码特征的级数增加,所述三元图编码特征的尺度减小;
所述第二网络结构用于基于多级所述三元图编码特征预测所述第一样本图像的三元图,获得三元图预测结果,所述三元图预测结果的尺度与所述第一样本图像的尺度相同。
7.根据权利要求6所述的方法,其特征在于,所述第一网络结构包括M级级联的第一子网络,所述第二网络结构包括第一拼接单元和N级第二子网络,M和N均为大于1的整数;
其中,每级所述第一子网络用于提取相应级三元图编码特征,在第1级所述第一子网络至第t级所述第一子网络中,随着所述第一子网络的级数增加,所述第一子网络的深度减小;在第t+1级所述第一子网络至N级所述第一子网络中,每个所述第一子网络包括多个特征提取层,每个特征提取层生成的特征图尺度相同,t为大于或等于3且小于或等于N的整数;
每级所述第二子网络用于提取相应级三元图解码特征,所述第一拼接单元用于拼接第M级所述三元图编码特征、第1级所述三元图解码特征至第N级所述三元图解码特征,获得三元图预测结果;
第1级所述第二子网络的输入特征为第一拼接特征,所述第一拼接特征包括第N级所述三元图编码特征和第N-1级所述三元图编码特征,第s级所述第二子网络的输入特征为第二拼接特征,所述第二拼接特征包括第s-1级所述三元图解码特征和第k级三元图编码特征,k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于N的整数。
8.根据权利要求7所述的方法,其特征在于,每个所述第一子网络的架构和每个所述第二子网络的架构包括U-Net神经网络架构或全卷积神经网络架构。
9.根据权利要求1~5任一项所述的方法,其特征在于,所述第二网络模型的监督信息为经过标定的所述第二样本图像的阿尔法通道图;
所述第二网络模型包括:第三网络结构和第四网络结构,所述第一网络结构、所述第二网络结构、所述第三网络结构和所述第四网络结构不同。
10.根据权利要求9所述的方法,其特征在于,所述第三网络结构包括P级第一提取模块和1个第二提取模块,P为大于或等于2的整数;所述第四网络结构包括Q级第三提取模块,Q为大于或等于2的整数;
每级所述第一提取模块用于提取相应级通道编码特征,所述第二提取模块用于提取所述第二样本图像的底层特征,每级所述第三提取模块用于提取相应级通道解码特征,第r级所述第三提取模块的输入特征为第三拼接特征,所述第三拼接特征包括第r-1级所述通道解码特征和第u级所述通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数;
所述第二提取模块还用于向至少一级所述第一提取模型输入所述底层特征,所述第二提取模块还用于向至少一级所述第三提取模块输入所述底层特征。
11.根据权利要求10所述的方法,其特征在于,当第m级所述通道编码特征融合有所述底层特征,第m级所述第一提取模块包括第一透明信息特征提取单元和第一指引上下文注意力单元,所述第一透明信息提取单元用于从第m-1级所述通道编码特征提取第一透明度特征,所述第一指引上下文注意力单元用于基于所述底层特征和所述第一透明度特征获得相应级通道编码特征,m为大于1且小于或等于P的整数;和/或,
当第n级所述通道解码特征融合有底层特征,第n级所述第三提取单元包括第二透明信息特征提取单元和第二指引上下文注意力单元,所述第二透明信息特征提取单元用于提取第二透明度特征,所述第二指引上下文注意力单元用于基于所述底层特征和所述第二透明度特征获得相应级通道解码特征,n为大于或等于1且小于或等于Q的整数。
12.根据权利要求11所述的方法,其特征在于,当第m级所述通道编码特征和第n级所述通道解码特征均融合有底层特征,第n级所述第三提取模块还包括第二拼接单元,用于拼接所述第二透明度特征和第m级所述通道编码特征,获得透明度融合特征,所述第二指引上下文注意力单元用于基于所述透明度融合特征和所述底层特征获得相应级通道解码特征。
13.一种生成方法,其特征在于,应用权利要求1~12任一项所述方法生成的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述方法包括:
基于第一网络模型生成原始图像的三元图;
基于第二网络模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图;所述第二网络模型包括:第三网络结构和第四网络结构,所述第三网络结构用于基于所述原始图像、所述三元图生成多级不同级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小,当前级所述通道编码特征融合有所述底层特征,所述底层特征用于指引当前级所述通道编码特征的未知区域;
所述第四网络结构用于基于多级所述通道编码特征和所述原始图像的底层特征,确定所述阿尔法通道图,所述阿尔法通道图的尺度与所述原始图像的尺度相同,当前级所述通道解码特征融合有所述底层特征,所述底层特征还用于指引当前级通道解码特征含有的未知区域。
14.根据权利要求13所述的方法,其特征在于,所述第一网络模型包括:第一网络结构和第二网络结构,所述第一网络结构和所述第二网络结构不同;
所述第一网络结构用于基于所述原始图像确定多级三元图编码特征,随着所述三元图编码特征的级数增加,所述三元图编码特征的尺度减小;
所述第二网络结构用于基于多级所述三元图编码特征确定所述三元图,所述三元图的尺度与所述原始图像的尺度相同。
15.根据权利要求14所述的方法,其特征在于,所述第一网络结构包括M级级联的第一子网络,所述第二网络结构包括拼接单元和N级第二子网络,M和N均为大于1的整数;
每级所述第一子网络用于提取相应级所述三元图编码特征;
每级所述第二子网络用于提取相应级所述三元图解码特征,第1级所述第二子网络的输入特征为第一拼接特征,所述第一拼接特征包括第N级所述三元图编码特征和所述第N-1级所述三元图编码特征,第s级所述第二子网络的输入特征为第二拼接特征,所述第二拼接特征包括第s-1级三元图解码特征和第k级三元图编码特征,k为大于或等于1且小于N的整数,s为大于或等于2且小于或等于N的整数;
所述第一拼接单元用于拼接第M级所述三元图编码特征、第1级所述三元图解码特征至第N级所述三元图解码特征,获得所述三元图。
16.根据权利要求14所述的方法,其特征在于,所述第一网络结构、所述第二网络结构、所述第三网络结构和所述第四网络结构不同。
17.根据权利要求16所述的方法,其特征在于,所述第三网络结构包括P级第一提取模块和1个第二提取模块,P为大于或等于2的整数;所述第四网络结构包括Q级第三提取模块,Q为大于或等于2的整数;
每级所述第一提取模块用于提取相应级所述通道编码特征,所述第二提取模块用于提取所述原始图像的底层特征,每级所述第三提取模块用于提取相应级通道解码特征,第r级所述第三提取模块的输入特征为第三拼接特征,所述第三拼接特征包括第r-1级所述通道解码特征和第u级所述通道编码特征,r为大于1且小于或等于Q的整数,u为大于或等于1且小于P的整数;
其中,至少一级所述第一提取模型用于基于前一级所述通道编码特征和所述底层特征,确定当前级所述通道编码特征;和/或,
至少一级所述第二提取模型用于基于前一级通道解码特征和所述底层特征,确定当前级所述通道解码特征。
18.根据权利要求17所述的方法,其特征在于,当第m级所述通道编码特征融合有所述底层特征,第m级所述第一提取模块包括第一透明信息特征提取单元和第一指引上下文注意力单元,所述第一透明信息提取单元用于从第m-1级所述通道编码特征提取第一透明度特征,所述第一指引上下文注意力单元用于基于所述底层特征和所述第一透明度特征获得相应级通道编码特征,m为大于1且小于或等于P的整数;和/或,
当第n级所述通道解码特征融合有底层特征,第n级所述第二提取单元包括第二透明信息特征提取单元和第二指引上下文注意力单元,所述第二透明信息特征提取单元用于提取第二透明度特征,所述第二指引上下文注意力单元用于基于所述底层特征和所述第二透明度特征获得相应级通道解码特征,n为大于等于1且小于或等于Q的整数。
19.根据权利要求18所述的方法,其特征在于,当第m级所述通道编码特征和第n级所述通道解码特征均融合有底层特征,第n级所述第二提取模块还包括第二拼接单元,用于拼接所述第二透明度特征和第m级所述通道编码特征,获得透明度融合特征,所述第二指引上下文注意力单元用于基于所述透明度融合特征和所述底层特征获得相应级通道解码特征。
20.一种训练装置,其特征在于,用于训练阿尔法通道图生成模型,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述第一网络模型用于生成三元图,所述第二网络模型用于生成阿尔法通道图,所述装置包括:
标定模块,用于基于第一样本图像的阿尔法通道图标定所述第一样本图像的三元图;
第一训练模块,用于基于所述第一样本图像和经过标定的所述第一样本图像的三元图训练第一网络模型;
预测模块,用于基于训练完成的所述第一网络模型预测第二样本图像的三元图;
第二训练模块,用于基于所述第二样本图像、所述第二样本图像的三元图和标定的所述第二样本图像的阿尔法通道图训练第二网络模型;
所述第二网络模型包括:第三网络结构和第四网络结构,所述第三网络结构用于基于所述第二样本图像和所述第二样本图像的三元图生成多级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小,至少一级所述通道编码特征融合有底层特征,所述底层特征用于指引相应级所述通道编码特征的未知区域;
所述第四网络结构用于基于多级所述通道编码特征和所述第二样本图像的底层特征,预测所述第二样本图像的阿尔法通道图,获得阿尔法通道图预测结果,所述阿尔法通道图预测结果的尺度与所述第二样本图像的尺度相同,至少一级所述通道解码特征融合有所述底层特征,所述底层特征用于指引相应级所述通道解码特征的未知区域。
21.一种生成装置,其特征在于,应用权利要求20所述装置训练的阿尔法通道图生成模型生成阿尔法通道图,所述阿尔法通道图生成模型包括第一网络模型和第二网络模型,所述装置包括:
第一生成模块,用于基于第一网络模型生成原始图像的三元图;
第二生成模块,基于第二网络模型处理所述原始图像和所述三元图,获得所述原始图像的阿尔法通道图;
所述第二网络模型包括:第三网络结构和第四网络结构,所述第三网络结构用于基于所述原始图像、所述三元图生成多级不同级通道编码特征,随着所述通道编码特征的级数增加,所述通道编码特征的尺度变小,当前级所述通道编码特征融合有所述底层特征,所述底层特征用于指引当前级所述通道编码特征的未知区域;
所述第四网络结构用于基于多级所述通道编码特征和所述原始图像的底层特征,确定所述阿尔法通道图,所述阿尔法通道图的尺度与所述原始图像的尺度相同,当前级所述通道解码特征融合有所述底层特征,所述底层特征还用于指引当前级通道解码特征含有的未知区域。
22.一种电子设备,其特征在于,包括:
处理器;以及,
存储程序的存储器;
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12任一项所述的方法。
23.一种电子设备,其特征在于,包括:
处理器;以及,
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求13~19任一项所述的方法。
24.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
25.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行根据权利要求13~19中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854166.XA CN113592074B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、生成方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854166.XA CN113592074B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、生成方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592074A CN113592074A (zh) | 2021-11-02 |
CN113592074B true CN113592074B (zh) | 2023-12-12 |
Family
ID=78250846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110854166.XA Active CN113592074B (zh) | 2021-07-28 | 2021-07-28 | 一种训练方法、生成方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592074B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140859A (zh) * | 2021-12-08 | 2022-03-04 | 山东大学 | 一种非接触式血氧饱和度测量方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271992A (zh) * | 2018-09-26 | 2019-01-25 | 上海联影智能医疗科技有限公司 | 一种医学图像处理方法、系统、装置和计算机可读存储介质 |
CN109461167A (zh) * | 2018-11-02 | 2019-03-12 | Oppo广东移动通信有限公司 | 图像处理模型的训练方法、抠图方法、装置、介质及终端 |
CN109712145A (zh) * | 2018-11-28 | 2019-05-03 | 山东师范大学 | 一种图像抠图方法及系统 |
CN110188760A (zh) * | 2019-04-01 | 2019-08-30 | 上海卫莎网络科技有限公司 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
CN110322468A (zh) * | 2019-06-04 | 2019-10-11 | 广东工业大学 | 一种图像自动编辑方法 |
CN111462000A (zh) * | 2020-03-17 | 2020-07-28 | 北京邮电大学 | 一种基于预训练自编码器的图像恢复方法及装置 |
CN111754517A (zh) * | 2019-03-26 | 2020-10-09 | 奥多比公司 | 使用神经网络的交互式图像抠图 |
CN112419325A (zh) * | 2020-11-27 | 2021-02-26 | 北京工业大学 | 一种基于深度学习的超像素分割方法 |
CN112541927A (zh) * | 2020-12-18 | 2021-03-23 | Oppo广东移动通信有限公司 | 抠图模型的训练、抠图方法、装置、设备及存储介质 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN113012169A (zh) * | 2021-03-22 | 2021-06-22 | 深圳市人工智能与机器人研究院 | 一种基于非局部注意力机制的全自动抠图方法 |
CN113052242A (zh) * | 2021-03-29 | 2021-06-29 | 北京达佳互联信息技术有限公司 | 图像处理网络的训练方法及装置、图像处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
US10984558B2 (en) * | 2019-05-09 | 2021-04-20 | Disney Enterprises, Inc. | Learning-based sampling for image matting |
-
2021
- 2021-07-28 CN CN202110854166.XA patent/CN113592074B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271992A (zh) * | 2018-09-26 | 2019-01-25 | 上海联影智能医疗科技有限公司 | 一种医学图像处理方法、系统、装置和计算机可读存储介质 |
CN109461167A (zh) * | 2018-11-02 | 2019-03-12 | Oppo广东移动通信有限公司 | 图像处理模型的训练方法、抠图方法、装置、介质及终端 |
CN109712145A (zh) * | 2018-11-28 | 2019-05-03 | 山东师范大学 | 一种图像抠图方法及系统 |
CN111754517A (zh) * | 2019-03-26 | 2020-10-09 | 奥多比公司 | 使用神经网络的交互式图像抠图 |
CN110188760A (zh) * | 2019-04-01 | 2019-08-30 | 上海卫莎网络科技有限公司 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
CN110322468A (zh) * | 2019-06-04 | 2019-10-11 | 广东工业大学 | 一种图像自动编辑方法 |
CN111462000A (zh) * | 2020-03-17 | 2020-07-28 | 北京邮电大学 | 一种基于预训练自编码器的图像恢复方法及装置 |
CN112419325A (zh) * | 2020-11-27 | 2021-02-26 | 北京工业大学 | 一种基于深度学习的超像素分割方法 |
CN112541927A (zh) * | 2020-12-18 | 2021-03-23 | Oppo广东移动通信有限公司 | 抠图模型的训练、抠图方法、装置、设备及存储介质 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
CN113012169A (zh) * | 2021-03-22 | 2021-06-22 | 深圳市人工智能与机器人研究院 | 一种基于非局部注意力机制的全自动抠图方法 |
CN113052242A (zh) * | 2021-03-29 | 2021-06-29 | 北京达佳互联信息技术有限公司 | 图像处理网络的训练方法及装置、图像处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
人体前景的自动抠图算法;冉清;冯结青;;计算机辅助设计与图形学学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113592074A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
CN113591918B (zh) | 图像处理模型的训练方法、图像处理方法、装置和设备 | |
CN111357018B (zh) | 使用神经网络的图像分割 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN112163601A (zh) | 图像分类方法、系统、计算机设备及存储介质 | |
WO2023159746A1 (zh) | 基于图像分割的图像抠图方法、装置、计算机设备及介质 | |
JP2022088588A (ja) | 画像画質補強方法、装置、機器および媒体 | |
JP2023531350A (ja) | サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN113240778A (zh) | 虚拟形象的生成方法、装置、电子设备和存储介质 | |
CN113379627A (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
CN114913325B (zh) | 语义分割方法、装置及计算机程序产品 | |
CN115757725A (zh) | 问答处理方法、装置、计算机设备及存储介质 | |
CN113592074B (zh) | 一种训练方法、生成方法及装置、电子设备 | |
CN112785493A (zh) | 模型的训练方法、风格迁移方法、装置、设备及存储介质 | |
CN114550313A (zh) | 图像处理方法、神经网络及其训练方法、设备和介质 | |
EP4246375A1 (en) | Model processing method and related device | |
CN113626129B (zh) | 一种页面颜色的确定方法、装置及电子设备 | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN115578261A (zh) | 图像处理方法、深度学习模型的训练方法、装置 | |
CN113344200B (zh) | 用于训练可分离卷积网络的方法、路侧设备及云控平台 | |
CN117011156A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114998668A (zh) | 特征提取方法、装置、存储介质及电子设备 | |
CN113962332A (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |