CN117974992A - 抠图处理方法、装置、计算机设备和存储介质 - Google Patents
抠图处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117974992A CN117974992A CN202311085258.1A CN202311085258A CN117974992A CN 117974992 A CN117974992 A CN 117974992A CN 202311085258 A CN202311085258 A CN 202311085258A CN 117974992 A CN117974992 A CN 117974992A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- detail
- image
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 186
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 17
- 230000014759 maintenance of location Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 13
- 238000000605 extraction Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 12
- 238000013507 mapping Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000004321 preservation Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种抠图处理方法、装置、计算机设备和存储介质。涉及到抠图领域,包括:对原始图像中的目标对象进行特征提取得到对象特征;对所述对象特征进行编码得到编码特征,并对所述编码特征进行解码得到对象分割图;基于所述编码特征生成目标图像,所述目标图像中的所述目标对象的图像质量高于所述原始图像中的所述目标对象的图像质量;基于所述对象分割图对所述目标图像进行抠图处理,得到所述目标对象的抠图结果。采用本方法能够提升抠图效果。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种抠图处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,图像抠图的应用越来越多,图像抠图是从图像或影像中分离出某一部分的技术,例如,可以将图像中物体、动物或人物抠出来。相关技术中,主要是将图像分割成前景和背景区域,然后从图像中抠出前景得到抠图结果。然而,采用传统的抠图处理方法得到的抠图结果,容易出现瑕疵,导致抠图效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升抠图效果的抠图处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种抠图处理方法。所述方法包括:对原始图像中的目标对象进行特征提取得到对象特征;对所述对象特征进行编码得到编码特征,并对所述编码特征进行解码得到对象分割图;基于所述编码特征生成目标图像,所述目标图像中的所述目标对象的图像质量高于所述原始图像中的所述目标对象的图像质量;基于所述对象分割图对所述目标图像进行抠图处理,得到所述目标对象的抠图结果。
第二方面,本申请还提供了一种抠图处理装置。所述装置包括:对象特征提取模块,用于对原始图像中的目标对象进行特征提取得到对象特征;对象分割模块,用于对所述对象特征进行编码得到编码特征,并对所述编码特征进行解码得到对象分割图;图像生成模块,用于基于所述编码特征生成目标图像,所述目标图像中的所述目标对象的图像质量高于所述原始图像中的所述目标对象的图像质量;对象抠图模块,用于基于所述对象分割图对所述目标图像进行抠图处理,得到所述目标对象的抠图结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述抠图处理方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述抠图处理方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述抠图处理方法中的步骤。
上述抠图处理方法、装置、计算机设备、存储介质和计算机程序产品,对原始图像中的目标对象进行特征提取得到对象特征,对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图,基于编码特征生成目标图像,由于编码特征中包括较多的细节特征,从而根据编码特征生成的目标图像中的目标对象的图像质量,高于原始图像中的目标对象的图像质量,从而相比于从原始图像中抠图,对目标图像进行抠图可以更准确的抠图,从而提升了抠图效果,此外,基于对象分割图对目标图像进行抠图处理,可以准确的从目标图像中抠出目标对象,使得抠图结果中的目标对象呈现更好的效果。
附图说明
图1为一些实施例中抠图处理方法的应用环境图;
图2为一些实施例中抠图处理方法的流程示意图;
图3为一些实施例中抠图处理方法的原理图;
图4为一些实施例中抠图处理方法的原理图;
图5为一些实施例中第一子特征图和第二子特征图的示意图;
图6为一些实施例中训练分割模型的原理图;
图7为一些实施例中抠图处理方法的流程示意图;
图8为一些实施例中抠图处理装置的结构框图;
图9为一些实施例中计算机设备的内部结构图;
图10为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的抠图处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
可选地,终端102向服务器104发送抠图请求,抠图请求中携带原始图像,原始图像为存在目标对象的图像。服务器104响应于抠图请求,对原始图像中的目标对象进行特征提取得到对象特征,对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图。服务器104基于编码特征生成目标图像。服务器104基于对象分割图对目标图像进行抠图处理,得到目标对象的抠图结果。目标图像中有目标对象。目标图像中的目标对象的图像质量高于原始图像中的目标对象的图像质量。服务器104可以将目标对象的抠图结果返回至终端102。
当然,抠图处理可以是由终端102完成的,例如,终端102获取到用于指示对原始图像进行抠图的指令或操作时,对原始图像中的目标对象进行特征提取得到对象特征,对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图以及基于编码特征生成目标图像,然后,基于对象分割图对目标图像进行抠图处理,得到目标对象的抠图结果。终端102可以将目标对象的抠图结果存储至服务器104,也可以展示目标对象的抠图结果。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
目前,抠图通常会应用到图像分割,图像分割用于将物体和背景在像素级别进行区分,例如,人体分割用于将人物和背景在像素级别进行区分。现有的图像分割方法,分割的结果边缘容易出现瑕疵,且针对发丝等精细的纹理的分割效果不好,从而应用现有的分割方法进行抠图处理导致抠图效果较差。而本申请提出的抠图处理方法中,一方面在抠图时,并非从原始图像中进行抠图处理,而是通过对对象特征进行编码得到编码特征,基于编码特征生成目标图像,然后对目标图像进行抠图处理,由于目标图像中的目标对象的图像质量高于原始图像中的目标对象的图像质量,从而更容易将精细纹理抠出来从而提升了抠图效果。另一方面,设计了对象分割模型,该对象分割模型中包括细节保留层(也可以称为精细卷积层),通过精细卷积层使得在分割的过程中保留下了发丝等精细的纹理,从而基于该对象分割模型的输出结果对目标图像进行抠图处理,使得抠图的结果中保留了精细的纹理,进一步的提高了抠图效果。
在一些实施例中,如图2所示,提供了一种抠图处理方法,该方法可以由终端或服务器执行,还可以由终端和服务器共同执行,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,对原始图像中的目标对象进行特征提取得到对象特征。
其中,原始图像是包括目标对象的图像。目标对象可以是无生命的事物,例如可以是车辆、家具或建筑物。原始图像可以是拍摄的图像,也可以是计算机生成的图像。目标对象也可以是有生命的事物,例如可以是人物或动物。原始图像例如可以是人物图像,例如可以是人物的肖像图像。对象特征是原始图像中目标对象的特征,例如,以原始图像为肖像图像为例,则对象特征为肖像特征。
可选地,服务器可以将原始图像输入到对象特征提取网络中提取得到对象特征。对象特征提取网络用于从原始图像中提取目标对象的特征,对象特征提取网络可以是预训练好的神经网络,例如可以是卷积神经网络。对象特征提取网络例如可以为mobilenetv3或resnet中的任一种。当然,还可以是其它结构的神经网络,这里不对对象特征提取网络的结构进行限定。
可选地,还可以用常用的图像特征提取匹配方法来提取对象特征,例如通过统计法、几何法、信号处理方法,得到目标对象的对象特征。
在一些实施例中,原始图像为肖像图像,对象特征提取网络为肖像特征提取网络,服务器可以将肖像图像输入到肖像特征提取网络中提取得到对象特征即肖像特征。
步骤204,对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图。
可选地,服务器可以将对象特征输入到对象分割模型的编码网络进行编码得到编码特征,并将编码特征输入到对象分割模型的解码网络进行解码得到对象分割图。其中,对象分割模型,用于根据输入的对象特征生成原始图像中每个像素点属于目标对象的概率,对象分割图与原始图像的尺寸相同,对象分割图中每个像素点的像素值代表原始图像中同一位置的像素点属于目标对象的概率。
可选地,如图3所示,服务器可以将对象特征输入到对象分割模型中,对象分割模型包括编码网络和解码网络,对象特征经过对象分割模型中的编码网络生成编码特征,将编码特征输入到解码网络生成对象分割图。
其中,对象分割模型,可以是待训练的分割模型进行训练得到的。该分割模型可以是任意的包括编码网络和解码网络的神经网络模型,可以是现有的神经网络模型、对现有的神经网络模型进行改进后的新的神经网络模型、或者全新的神经网络模型等。例如,可以是Unet网络模型,或者是对Unet网络模型进行改进后得到的模型。
可选地,还可以采用预测编码、变换域编码等方式,实现对对象特征的编码,得到编码特征,此处对编码方式不作任何限定。
步骤206,基于编码特征生成目标图像,目标图像中的目标对象的图像质量高于原始图像中的目标对象的图像质量。
其中,目标图像中的目标对象与原始图像中的目标对象一致,且目标图像中的目标对象的图像质量高于原始图像中该目标对象的质量。图像质量可以通过清晰度、真实度、精细程度中的至少一个衡量。
可选地,服务器可以将编码特征输入到图像生成模型中生成目标图像。图像生成模型用于生成逼真、高质量的图像,图像生成模型可以根据输入的编码特征还原出原始图像中的目标对象,且还原出的目标对象较原始图像中的目标对象更加真实。如图3所示,服务器将编码特征输入到图像生成模型中生成目标图像。图像生成模型中可以包括映射网络和图像生成网络,映射网络用于将编码特征映射到一个更高维的向量空间中,以使得图像生成网络可以更好的生成图像。映射网络通过全连接层实现,例如通过4层全连接层实现。服务器可以将编码特征输入到映射网络中生成映射特征,再将映射特征输入到图像生成网络中生成目标图像。图像生成网络可以是任意的用于生成高质量的对象图像的神经网络,包括但不限于是StyleGAN网络,例如可以是StyleGAN2网络。通过图像生成网络可以生成精细的结果,例如对于肖像图像,可以生成平滑且美观的肖像。
在一些实施例中,图像生成网络的输入数据还包括随机噪声,服务器可以生成随机噪声,将随机噪声和映射特征输入到图像生成网络中,生成目标图像。
本实施例中,将编码特征输入到图像生成模型中的映射网络得到映射特征,将映射特征和随机噪声输入到图像生成模型中的图像生成网络中生成目标图像,由于随机噪声有利于输出多样化的结果,多样性有利于网络生成的目标图像中保留精细的纹理,例如保留发丝等不易分割的精细纹理,从而提升了目标图像的自然程度。
可选地,还可以通过常用的图像软件,基于编码特征生成目标图像,例如,通过CAD软件将图像编码转换成图像,相关技术中存在多种通过图像编码特征生成图像的方式,此处对图像生成方式不作任何限定。
步骤208,基于对象分割图对目标图像进行抠图处理,得到目标对象的目标对象的抠图结果。
其中,对象分割图中包括原始图像中各像素点分别对应的概率,像素点对应的概率,是指该像素点为目标对象的像素点的概率,例如,该概率用A表示,A的取值范围为[0,1]。A也可以称为透明度即alpha。目标对象的抠图结果是一张与原始图像尺度一致的图。
可选地,服务器可以获取目标图像的前景图和目标图像的背景图,基于对象分割图、前景图和背景图进行抠图处理,得到目标对象的抠图结果。例如,服务器可以利用公式Ii=Ai*Fi+(1-Ai)Bi。其中,F是指前景图,B是指背景图,I是指目标对象的抠图结果。Ii是指目标对象的抠图结果中第i个像素点的像素值,Ai是指第i个像素点对应的概率,Fi是指前景图中第i个像素点的像素值,Bi是指背景图中第i个像素点的像素值。
上述抠图处理方法中,对原始图像中的目标对象进行特征提取得到对象特征,对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图,基于编码特征生成目标图像,由于编码特征中包括较多的细节特征,从而根据编码特征生成的目标图像中的目标对象的图像质量,高于原始图像中的目标对象的图像质量,从而相比于从原始图像中抠图,对目标图像进行抠图可以更准确的抠图,从而提升了抠图效果,此外,基于对象分割图对目标图像进行抠图处理,可以准确的从目标图像中抠出目标对象,使得抠图结果中的目标对象呈现更好的效果。
在一些实施例中,编码特征是基于对象分割模型的编码网络得到,编码网络包括多个级联的编码层,多个级联的编码层包括多个下采样层和至少一个第一细节保留层,每个第一细节保留层的上一层级为下采样层;对对象特征进行编码得到编码特征包括:将对象特征输入到编码网络中,经过级联的各编码层进行编码得到编码特征;其中,每个第一细节保留层用于对其上一层级的下采样层输出的下采样特征图进行细节保留处理,得到细节保留特征图,最后一个第一细节保留层输出的细节保留特征图输入至下一层级的下采样层进行下采样处理后,得到编码特征。
其中,编码网络包括多个级联的编码层,多个是指至少两个。多个级联的编码层包括多个下采样层,例如包括3个或4个下采样层。多个级联的编码层包括至少一个第一细节保留层,例如包括2或3个第一细节保留层。每个第一细节保留层的上一层级为下采样层。编码网络中,每个第一细节保留层的上一层级为下采样层,每个第一细节保留层的下一层级为下采样层。编码网络中第一细节保留层的数量小于下采样层的数量。如图4所示,编码网络中包括7个级联的编码层,其中有4个下采样层和3个第一细节保留层,该4个下采样层依次为下采样层1~下采样层4,该3个第一细节保留层依次为细节保留层1~细节保留层3。细节保留层1的上一层级为下采样层1,细节保留层2的上一层级为下采样层2,细节保留层3的上一层级为下采样层3。
每个下采样层可以通过卷积层实现,即每个下采样层可以为用于进行下采样的卷积层。每个下采样层还可以通过卷积层和激活层实现,例如,下采样层中包括卷积层和激活层,激活层在卷积层之后。卷积层中卷积核的大小和步长可以根据需要设置,例如卷积核大小为3*3,步长为2,卷积层的输出的通道数可以根据需要设置,例如为64通道。激活层采用的激活函数可以是任意的激活函数,包括但不限于是relu(Rectified Linear Unit,修正线性单元)、Prelu(Parametric Rectified Linear Unit,参数修正线性单元)中的至少一种。
在第一细节保留层中,对输入的下采样特征图进行细节保留处理,得到第一细节保留层输出的细节保留特征图;下采样特征图,是由第一细节保留层的上一层级的下采样层输出的。
可选地,服务器将对象特征输入到编码网络中,经过级联的各编码层进行编码得到编码特征。服务器将对象特征输入到第一层级的编码层进行编码,得到第一层级的编码层输出的特征图,然后,将第一层级的编码层输出的特征图输入至第二层级的编码层进行编码,得到第二层级的编码层输出的特征图,依次类推,直到得到最后一个层级的编码层输出的特征图。
在一些实施例中,在编码层为下采样层的情况下,下采样层用于对输入其的特征图进行下采样处理得到下采样特征图。每个下采样层均输出与其对应的下采样特征图。例如图4中,下采样层1对对象特征进行下采样处理,得到下采样层1对应的下采样特征图,并将该下采样特征图输入到细节保留层1中。
在一些实施例中,在编码层为第一细节保留层的情况下,第一细节保留层用于对输入其的特征图进行细节保留处理得到细节保留特征图。由于第一细节保留层的上一层级为下采样层,因此,输入该第一细节保留层的特征图,是由该第一细节保留层的上一层级的下采样层输出的下采样特征图。每个第一细节保留层均输出与其对应的细节保留特征图。例如图4中,下采样层1将其生成的下采样特征图输入到细节保留层1中,细节保留层1对该下采样特征图进行细节保留处理,得到细节保留层1对应的细节保留特征图。
本实施例中,由于下采样的过程中(例如卷积的过程中)容易丢失细节,例如对于肖像图像,由于发丝像素较小且较少,在卷积的过程中容易丢失。故在第一细节保留层中,对输入的下采样特征图进行细节保留处理,得到第一细节保留层输出的细节保留特征图,从而可以在将对象的细节进行保留,例如将发丝等细节特征进行保留,从而有助于提升抠图效果。
在一些实施例中,第一细节保留层用于执行如下步骤:生成待填充的特征图,从下采样特征图中选取第一子特征图;从特征图中确定第一子特征图对应的第二子特征图;第二子特征图在特征图中的位置,与第一子特征图在下采样特征图中的位置一致;从第一子特征图中确定预设数量的细节特征值,并根据预设数量的细节特征值填充第二子特征图;返回从下采样特征图中确定第一子特征图的步骤,直到遍历下采样特征图中的所有第一子特征图为止;输出填充结束后的特征图,将填充结束后的特征图作为第一细节保留层输出的细节保留特征图。
其中,特征值可以是数值或者向量形式的,当特征值为向量形式时,特征值也可以称为特征向量。刚生成的特征图中可以未填充特征值,或者,填充了预设特征值。在特征值为数值时,预设特征值可以为0,在特征值为2维向量是,预设特征值可以为(0,0),当然,预设特征值也可以是其他的数值或向量,这里不做具体的限制。特征图的尺度与下采样特征图的尺度一致。例如,下采样特征图的尺度为64*64大小的,则特征图也为64*64大小的。预设数量小于第一子特征图中包括的特征值的个数,例如,第一子特征图中包括9个特征值,则预设数量小于9,预设数量例如可以为1、2、3或4等。
可选地,第一细节保留层从下采样特征图中选取第一子特征图的方法,与根据卷积窗口从特征图中确定参与卷积的数据的过程一致。因此,第一细节保留层也可以称为一种卷积层,例如称为精细卷积层(fconv,Fine convolution)。例如,第一细节保留层采用遍历的方式,每次从下采样特征图中确定L*H大小的区域得到第一子特征图,例如L=H=3,则第一细节保留层从下采样特征图中确定3*3大小的区域得到第一子特征图。如图5所示,展示了第一子特征图的示意图,其中,每个特征值为向量形式的。第一细节保留层每次确定不同的第一子特征图。在遍历下采样特征图中的所有第一子特征图的情况下停止遍历。
在一些实施例中,每次确定出第一子特征图后,第一细节保留层从特征图中确定第一子特征图对应的第二子特征图。其中,第一子特征图在下采样特征图中的位置,与第二子特征图在特征图中的位置一致。例如,第一子特征图为下采样特征图中行属于第1~3行且列属于第1~3列的各特征值构成的区域,则第二子特征图为特征图中行属于第1~3行且列属于第1~3列的各特征值构成的区域。确定第二子特征图后,第一细节保留层从第一子特征图中确定预设数量的细节特征值,并将该预设数量的细节特征值填充至第二子特征图中。第一细节保留层重复从下采样特征图中确定第一子特征图至填充第二子特征图的过程,直到遍历下采样特征图为止,在遍历下采样特征图的情况下,特征图中每个位置的特征值也完成了填充。第一细节保留层输出遍历下采样特征图中所有第一子特征图的情况下的特征图,即输出填充结束后的特征图,将填充结束后的特征图作为第一细节保留层输出的细节保留特征图。
在一些实施例中,在得到预设数量的细节特征值后,第一细节保留层可以将该预设数量的细节特征值分别填充至第二子特征图中的不同位置。可选地,第一细节保留层可以随机的从第二子特征图中选取预设数量个不同的目标位置,例如3个不同的目标位置,分别将该预设数量的细节特征值填充至不同的目标位置处。
在一些实施例中,在得到预设数量的细节特征值后,第一细节保留层可以将该预设数量的细节特征值分别填充至第二子特征图中的不同位置。例如,第一细节保留层可以确定预设数量个不同的预设位置,将该预设数量的细节特征值分别填充至第二子特征图中的不同的预设位置处。预设位置可以根据需要设置。例如,若预设数量为4,则各不同的预设位置可以为第二子特征图中第一行的第一个位置、第一行的最后一个位置、第二行中的第一位置和第二行的最后一个位置。本申请中不对预设位置进行具体的限制。第一细节保留层可以根据第二子特征图中已填充的细节特征值,填充第二子特征图中各其他位置,各其他位置是指预设位置之外的各个位置。针对每个其他位置,第一细节保留层可以根据与该其他位置相邻的预设位置处的细节特征值填充该其他位置。例如,第一细节保留层可以计算与该其他位置相邻的各预设位置处的细节特征值的均值,将该均值作为该其他位置的特征值,并将该均值填充至该其他位置。在该其他位置为第二子特征图的中心位置的情况下,第一细节保留层可以计算各细节特征值的均值,将该均值作为该中心位置的特征值,并将该均值填充至该中心位置处。例如图5中,预设数量为4,预设位置为特征图的4个角的位置,(x1’,y1’)、(x2’,y2’)、(x3’,y3’)、(x4’,y4’)为4个细节特征值,该4个细节特征值填充至了第二子特征图的4个角的位置处,第二子特征图中第1行第2列用(x1’,y1’)和(x2’,y2’)的均值(x12’,y12’)填充,x12’=(x1’+x2’)/2,y12’=(y1’+y2’)/2。第2行第2列为中心位置,采用4个细节特征值的均值(x’,y’)填充,其中,x’=(x1’+x2’+x3’+x4’)/4,y’=(y1’+y2’+y3’+y4’)/4。通过细节特征值对第二子特征图进行填充,保留了高频信息(例如发丝信息)且对高频信息的周围像素进行了细化。有助于将相近像素分开,从而达到更加精准的区分前后背景的作用。
在一些实施例中,为了从第一子特征图中确定预设数量的细节特征值,第一细节保留层可以计算第一子特征图中各个特征值的均值,得到平均特征值。针对第一子特征图中的每个特征值,第一细节保留层可以计算该特征值与平均特征值之间的相似度,按照相似度从大到小的顺序从第一子特征图中确定预设数量的特征值,得到预设数量的细节特征值。在特征值为向量形式的情况下,平均特征值也可以称为平均特征向量。例如,图5中,图5中第一子特征图中包括9个特征值(即特征向量),第一细节保留层可以计算这9个特征向量的均值得到平均特征向量。例如,平均向量表示为(Xave,Yave),Xave=(x1+x2+…+x9)/9,Yave=(y1+y2+…+y9)/9。针对这9个特征向量中的每个特征向量,计算该特征向量与平均特征向量之间的相似度,按照相似度从大到小的顺序从第一子特征图中确定预设数量的特征向量,得到预设数量的细节特征值。其中,相似度可以通过余弦距离表示,例如(x1,y1)与(Xave,Yave)之间的相似度可以为(x1,y1)与(Xave,Yave)之间的余弦距离。余弦距离=cos(θ)。其中,cos(θ)=(a·b)/|a|·|b|。a和b分别代表一个向量。当然,相似度还可以通过余弦距离之外的方式表示,包括但不限于采用欧式距离表示。
在一些实施例中,从第一子特征图中确定预设数量的细节特征值包括:确定第一子特征图中各特征值之间的相似度;按照相似度从大到小的顺序,从第一子特征图的各特征值中选取预设数量的细节特征值。其中,特征值与特征值之间的相似度可以通过余弦距离表示,例如(x1,y1)与(x2,y2)之间的相似度可以为(x1,y1)与(x2,y2)之间的余弦距离。当然,特征值与特征值之间的相似度还可以通过余弦距离之外的方式表示,包括但不限于采用欧式距离表示。
在一些实施例中,第一细节保留层可以计算第一子特征图中各特征值之间的相似度,即计算该各特征值中两两之间的相似度。第一细节保留层按照相似度从大到小的顺序,从第一子特征图的各特征值中选取预设数量的细节特征值。例如,假设第一子特征图中包括9个特征值,分别为a1~a9,则计算a1~a9中两两之间的相似度,例如计算a1与a3之间的相似度、a1与a4之间的相似度、a2与a3之间的相似度、a2与a4之间的相似度、a3和a4之间的相似度……。若预设数量为4,若按照相似度从大到小排列为:a1与a2之间的相似度、a3和a4之间的相似度、a1与a4之间的相似度……。则将a1、a2、a3和a4分别作为细节特征值。本实施例中,按照相似度从大到小的顺序,从第一子特征图的各特征值中选取预设数量的细节特征值,从而可以将高频信息例如发丝等高频信息保留。
本实施例中,重复的从下采样特征图选取不同的第一子特征图,针对每个第一子特征图,从第一子特征图中确定预设数量的细节特征值,并根据预设数量的细节特征值填充第二子特征图,即每次填充特征图中的一部分,从而使得填充特征图的过程更加细致,提高了特征图的准确度。
在一些实施例中,对象分割图是基于对象分割模型中的解码网络得到,解码网络包括多个级联的解码层,多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层;将编码特征输入到对象分割模型的解码网络进行解码得到对象分割图包括:将编码特征输入到解码网络中经过级联的各解码层进行解码,得到对象分割图;其中,每个第二细节保留层用于对其上一层级的上采样层输出的上采样特征图进行细节保留处理,得到细节保留特征图,最后一个第二细节保留层输出的细节保留特征图输入至解码网络的输出层,得到对象分割图。
其中,解码网络包括多个级联的解码层,多个是指至少两个。多个级联的解码层包括多个上采样层,例如包括3个或4个上采样层。多个级联的解码层包括至少一个第二细节保留层,例如包括2或3个第二细节保留层。每个第二细节保留层的上一层级为上采样层。如图4所示,解码网络中包括7个级联的解码层,其中有4个上采样层和3个第二细节保留层,该4个上采样层依次为上采样层1~上采样层4,该3个第二细节保留层依次为细节保留层4~细节保留层6。细节保留层4的上一层级为上采样层2,细节保留层5的上一层级为上采样层3,细节保留层6的上一层级为上采样层4。上采样层的数量可以与下采样层的数量相同,当然也可以不同。解码网络中包括的第二细节保留层的数量,与编码网络中包括的第一细节保留层的数量可以相同,当然也可以不同。
每个上采样层可以通过卷积层实现,即每个上采样层可以为用于进行上采样的卷积层。每个上采样层还可以通过卷积层和激活层实现,例如,上采样层中包括卷积层和激活层,激活层在卷积层之后。卷积层中卷积核的大小和步长可以根据需要设置,例如卷积核大小为3*3,步长为1/2,卷积层的输出的通道数可以根据需要设置,例如为64通道。激活层采用的激活函数可以是任意的激活函数,包括但不限于是relu或Prelu中的至少一种。
可选地,服务器将对象特征输入到解码网络中,经过级联的各解码层进行解码得到解码特征。服务器将编码特征输入到第一层级的解码层进行解码,得到第一层级的解码层输出的特征图,然后,将第一层级的解码层输出的特征图输入至第二层级的解码层进行解码,得到第二层级的解码层输出的特征图,依次类推,直到得到最后一个层级的解码层输出的解码特征。服务器可以将解码特征作为对象分割图。
在一些实施例中,在解码层为上采样层的情况下,上采样层用于对输入其的特征图进行上采样处理得到上采样特征图。每个上采样层均输出与其对应的上采样特征图。例如图4中,上采样层1对编码特征进行上采样处理,得到上采样层1对应的上采样特征图,并将该上采样特征图输入到上采样层2中。
在一些实施例中,在解码层为第二细节保留层的情况下,第二细节保留层用于对输入其的特征图进行细节保留处理得到细节保留特征图。由于第二细节保留层的上一层级为上采样层,因此,输入该第二细节保留层的特征图,是由该第二细节保留层的上一层级的上采样层输出的上采样特征图。每个第二细节保留层均输出与其对应的细节保留特征图。例如图4中,上采样层2将其生成的上采样特征图输入到细节保留层4中,细节保留层4对该上采样特征图进行细节保留处理,得到细节保留层4对应的细节保留特征图。
在一些实施例中,解码网络中还包括输出层,服务器将编码特征输入到解码网络中经过级联的各解码层进行解码得到解码特征。服务器将解码特征输入到输出层中进行处理得到输出层所输出的对象分割图。输出层可以采用全连接层或卷积层实现,例如可以为1*1*3的卷积层。
本实施例中,由于上采样的过程中(例如卷积的过程中)容易丢失细节,例如对于肖像图像,由于发丝像素较小且较少,在卷积的过程中容易丢失。故在第二细节保留层中,对输入的上采样特征图进行细节保留处理,得到第二细节保留层输出的细节保留特征图,从而可以在将对象的细节进行保留,例如将发丝等细节特征进行保留,从而有助于提升抠图效果。
在一些实施例中,对象分割模型的训练过程包括如下步骤::将样本对象特征输入到待训练的分割模型的编码网络中进行编码,得到样本编码特征;样本对象特征是对样本图像中的样本对象进行特征提取所得到的特征;将样本编码特征输入到分割模型的解码网络中进行解码得到样本分割图,并将样本编码特征输入到图像生成模型中进行图像生成处理,得到对象生成图像;通过样本分割图对对象生成图像进行抠图处理,得到样本抠图结果;基于样本抠图结果和样本图像的标准抠图结果之间的差异,调整分割模型的参数,直到分割模型收敛,将收敛时的分割模型确定为对象分割模型。
其中,对象分割模型是通过对待训练的分割模型进行训练得到的,故对象分割模型与待训练的分割模型的结构是相同的。例如图6中展示的分割模型,该分割模型与图4中的对象分割模型的结构是一致,但是这两个模型的参数不同,需要对分割模型的参数进行调整才可以得到对象分割模型。标准抠图结果是期望得到的抠图结果。样本抠图结果是尺度与样本图像的尺度一致的图像。标准抠图结果是尺度与样本对象的尺度一致的图像。
可选地,服务器可以基于样本抠图结果和样本图像的标准抠图结果之间的差异,确定第一损失值。样本抠图结果和标准抠图结果之间的差异越大,则第一损失值越大。例如,n为像素的个数,P是指样本抠图结果,P’是指标准抠图结果,Pi是指P中的第i个像素的像素值,Pi′是指P’中的第i个像素的像素值。标准抠图结果也可以称为抠图标签。
在一些实施例中,服务器可以朝着使得第一损失值减小的方向,调整分割模型的参数,分割模型的参数包括编码网络的参数和解码网络的参数。服务器可以采用多个样本图像对分割模型进行多次迭代训练,直到分割模型收敛,并将收敛时的分割模型确定为对象分割模型。
本实施例中,基于样本抠图结果和样本图像的标准抠图结果之间的差异,调整分割模型的参数,可以训练分割模型,使得分割模型输出的样本分割结果能够准确进行抠图处理,提高了抠图的准确度。
在一些实施例中,解码网络包括多个级联的解码层,多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层;方法还包括:获取解码网络中目标细节保留层输出的目标特征图;目标细节保留层为解码网络中的最后一个第二细节保留层,且目标特征图与标准分割图的尺度一致;基于样本抠图结果和样本图像的标准抠图结果之间的差异,调整分割模型的参数包括:基于样本抠图结果和样本图像的标准抠图结果之间的差异,确定第一损失值;基于目标特征图与标准分割图之间的差异,生成第二损失值;根据第一损失值和第二损失值,调整分割模型的参数。
其中,目标特征图是指目标细节保留层输出的细节保留层。目标细节保留层为解码网络中的最后一个第二细节保留层,编码网络中还包括输出层,输出层连接在目标细节保留层之后,即目标细节保留层的下一层级为解码网络的输出层。目标特征图与标准分割图的尺度一致。标准分割图是指期望解码网络最终输出的结果。
可选地,服务器可以确定目标特征图与标准分割图之间的差异,生成第二损失值。目标特征图与标准分割图之间的差异,与第二损失值成正相关关系,差异越大,第二损失值也越大。
在一些实施例中,服务器可以从目标特征图中确定第三子特征图。确定第三子特征图的方法,参考从下采样特征图中确定第一子特征图的方法,这里不再赘述。服务器可以从标准分割图中确定第三子特征对应的第四子特征图。第四子特征图在标准分割图中的位置,与第三子特征图在目标特征图中的位置一致。服务器可以从第三子特征图中确定中心位置处的特征值,确定该特征值对应的标量值得到第三子特征图对应的第一中心值。在中心位置处的特征值为数值的情况下,该特征值对应的标量值即为该特征值本身。在中心位置处的特征值为向量的情况下,该特征值对应的标量值为该向量的模。例如,中心位置处的特征值为向量(x’,y’),则标量值服务器从第四子特征图中确定中心位置处的特征值,确定该特征值对应的标量值得到第四子特征图对应的第二中心值。计算第一中心值与第二中心值之间的差值,得到第三子特征图对应的特征差值。服务器重复从目标特征图中确定第三子特征图至得到第三子特征图对应的特征差值的步骤,直到遍历目标特征图为止。在遍历目标特征图的情况下,服务器基于各个第三子特征图分别对应的特征差值,生成第二损失值,第二损失值与每个特征差值均成正相关关系。
例如,m为第三子特征图的个数,Q是指目标特征图,Z’是指标准分割图,Qj是指Q中第j个第三子特征图的第一中心值,Zj′是指Z’中第j个第四子特征图的第二中心值。
在一些实施例中,服务器可以对第一损失值和第二损失值进行统计例如求和,得到统计损失值。服务器可以朝着使得统计损失值减小的方向,调整分割模型的参数。
本实施例中,结合第一损失值和第二损失值,调整分割模型的参数,可以使得分割模型学习到分辨像素点是否为对象的像素点的能力,从而可以提高模型训练的准确度。
在一些实施例中,获取样本图像的标准分割图;根据标准分割图和样本分割图之间的差异,确定第三损失值;根据第一损失值和第二损失值,调整分割模型的参数包括:根据第一损失值、第二损失值和第三损失值,调整分割模型的参数。
其中,标准分割图和样本分割图之间的差异,与第三损失值成正相关关系,差异越大,则第三损失值越大。例如,其中,Z’是指标准分割图,Z是指样本分割图。Zi′是指Z’中第i个像素的像素值。Zi是指Z中第i个像素的像素值。
可选地,服务器可以对第一损失值、第二损失值和第三损失值进行统计例如求和,得到统计损失值。例如,统计损失值用Loss1表示,Loss1=mse(P,P’)+mse(Q,Z’)+255*mse(Z,Z’)。服务器可以朝着使得统计损失值减小的方向,调整分割模型的参数。如前,对象分割图中包括原始图像中各像素点分别对应的概率。故样本分割图中的像素值取值范围为[0,1]。同样的,标准分割图中的像素值取值范围为[0,1],标准分割图中每个像素的像素值,代表该像素属于对象的像素点的实际概率。因此,在255*mse(Z,Z’)中的255用于将像素值从[0,1]转变为正常的像素值的取值范围[0,255]。
本实施例中,结合第一损失值、第二损失值和第三损失值,调整分割模型的参数,可以使得强化分割模型学习到分辨像素点是否为对象的像素点的能力,从而可以提升分割模型的分割精细程度。
在一些实施例中,根据第一损失值、第二损失值和第三损失值,调整分割模型的参数包括:基于第一身份特征向量和第二身份特征向量之间的相似度,确定第四损失值;第一身份特征向量,用于表征样本图像中的样本对象的身份;第二身份特征向量,用于表征对象生成图像中的对象的身份;根据第一损失值、第二损失值、第三损失值和第四损失值,调整分割模型的参数。
可选地,服务器可以对样本图像中的样本对象进行身份特征的提取,得到第一身份特征向量。同样的,服务器可以对对象生成图像中的对象身份特征的提取,得到第二身份特征向量。在对象为人物的情况下,身份特征向量可以为人脸特征向量。服务器可以对样本图像中的样本对象进行人脸识别,得到第一人脸特征向量。同样的,服务器可以对对象生成图像中的对象进行人脸识别,得到第二人脸特征向量。
在一些实施例中,服务器可以计算第一身份特征向量与第二身份特征向量之间的相似度,得到身份特征相似度。服务器可以根据身份特征相似度确定第四损失值。第一身份特征向量与第二身份特征向量之间的相似度,可以采用余弦距离表示,也可以采用欧式距离表示。第四损失值与身份特征相似度成负相关关系。例如,Lid=1-cos(ID1,ID2),其中,Lid是指第四损失值,cos(ID1,ID2)是指身份特征相似度,ID1是指第一身份特征向量,ID2是指第二身份特征向量。如图6中根据样本图像和对象生成图像计算损失值得到第四损失值。
在一些实施例中,服务器可以对第一损失值、第二损失值和第三损失值进行统计得到统计损失值。服务器可以对统计损失值和第四损失值进行加权计算得到总模型损失值。例如,总模型损失值Loss=w1*Loss1+w2*Lid。其中,Loss是指总模型损失值,w1是统计损失值对应的权重,w2是第四损失值对应的权重。w1和w2可以根据需要设置,可以是经验值,也可以是通过实验得出的。例如,w1为5,w2为2。服务器可以朝着使得总模型损失值减小的方向,调整分割模型的参数直到模型收敛得到对象分割模型。
本实施例中,由于第四损失值与身份特征相似度成负相关关系,从而结合第一损失值、第二损失值、第三损失值和第四损失值,调整分割模型的参数,可以使得分割模型中的编码网络提取的编码特征,能够正确的还原出样本图像中的样本对象,例如,还原出肖像图像中的人脸,从而可以提高模型训练的准确度。
在一些实施例中,如图7所示,提供了一种抠图处理方法。该抠图处理方法用于对肖像进行抠图处理,在原始图像为肖像图像的情况下,原始图像可以称为原始肖像图像,对象分割模型可以称为肖像分割模型,对象分割图可以称为肖像分割图,目标图像可以称为目标肖像图像,目标对象的抠图结果可以称为肖像抠图结果。该方法可以由终端执行,还可以由终端和服务器共同执行,以该方法应用于终端为例进行说明,包括以下步骤:
步骤702,将原始肖像图像输入到肖像特征提取网络中得到肖像特征。
步骤704,将肖像特征输入到肖像分割模型的编码网络中,经过级联的多个编码层进行编码得到编码特征;级联的多个编码层包括多个下采样层和至少一个第一细节保留层,每个第一细节保留层的上一层级为下采样层,每个第一细节保留层用于对其上一层级的下采样层输出的下采样特征图进行细节保留处理,得到细节保留特征图,最后一个第一细节保留层输出的细节保留特征图输入至下一层级的下采样层进行下采样处理后,得到编码特征。
其中,服务器生成待填充的特征图,从下采样特征图中选取第一子特征图,从特征图中确定第一子特征图对应的第二子特征图,确定第一子特征图中各特征值之间的相似度,按照相似度从大到小的顺序,从第一子特征图的各特征值中选取预设数量的细节特征值,并根据预设数量的细节特征值填充第二子特征图,返回从下采样特征图中确定第一子特征图的步骤,直到遍历下采样特征图中所有第一子特征图为止,输出填充结束后的特征图,将填充结束后的特征图作为第一细节保留层输出的细节保留特征图。
步骤706,将编码特征输入到肖像分割模型的解码网络中经过级联的多个解码层进行解码得到肖像分割图;级联的多个解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层,每个第二细节保留层用于对其上一层级的上采样层输出的上采样特征图进行细节保留处理,得到细节保留特征图,最后一个第二细节保留层输出的细节保留特征图输入至解码网络的输出层,得到肖像分割图。
步骤708,将编码特征输入到映射网络中得到映射特征。
步骤710,将映射特征和随机噪声输入到图像生成网络中生成目标肖像图像。
其中,目标肖像图像中的肖像代表的人物与原始肖像图像中的肖像代表的人物为同一人物。目标肖像图像中的肖像的图像质量高于原始肖像图像中的肖像的图像质量。
步骤712,基于肖像分割图对目标肖像图像进行抠图处理得到肖像抠图结果。
本实施例中,由于目标肖像图像中的肖像代表的人物与原始肖像图像中的肖像代表的人物为同一人物,且目标肖像图像中的肖像的图像质量高于原始肖像图像中的肖像的图像质量,从而相比于从原始肖像图像中抠图,对目标肖像图像进行抠图处理可以更准确的抠图,从而提升了抠图效果。并且,由于编码网络中通过第一细节保留层进行了细节保留处理,且解码网络中通过第二细节保留层进行了细节保留处理,从而使得在编码和解码的过程中保留了高频信息例如发丝等信息,从而提高了抠图准确度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请提供的抠图处理方法,可以用于视频通过或视频会议的场景中,用于将视频图像中的肖像抠出并为抠出的肖像增加新的背景,生成更换背景后的图像,由于视频图像中的背景可能会展现隐私信息,故在视频会议的过程中,通过更换背景可以保护隐私,提高视频会议的安全性。在肖像抠图场景中,对象分割模型可以称为肖像分割模型,对象分割图可以称为肖像分割图,目标图像可以称为目标肖像图像,目标对象的抠图结果可以称为肖像抠图结果。抠图的过程具体如下:终端中可以部署有对象特征提取网络、肖像分割模型、图像生成模型。在视频会议的过程中,终端进行视频采集得到视频图像,将视频图像输入到肖像特征提取网络中,对人物的肖像进行特征提取得到肖像特征,将肖像特征输入到肖像分割模型的编码网络中,经过级联的多个编码层进行编码得到编码特征。其中,每个第一细节保留层用于对其上一层级的下采样层输出的下采样特征图进行细节保留处理,得到细节保留特征图,最后一个第一细节保留层输出的细节保留特征图输入至下一层级的下采样层进行下采样处理后,得到编码特征。第一细节保留层得到细节保留特征图的具体步骤包括:生成待填充的特征图,从下采样特征图中选取第一子特征图,从特征图中确定第一子特征图对应的第二子特征图;第二子特征图在特征图中的位置,与第一子特征图在下采样特征图中的位置一致;从第一子特征图中确定预设数量的细节特征值,并根据预设数量的细节特征值填充第二子特征图;返回从下采样特征图中确定第一子特征图的步骤,直到遍历下采样特征图中的所有第一子特征图为止;输出填充结束后的特征图,将填充结束后的特征图作为第一细节保留层输出的细节保留特征图。
终端得到编码特征后,将编码特征输入到肖像分割模型的解码网络中,经过级联的多个解码层进行解码,得到解码特征,再将解码特征输入到解码网络的输出层得到肖像分割图。该级联的多个解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层。每个第二细节保留层用于对其上一层级的上采样层输出的上采样特征图进行细节保留处理,得到细节保留特征图,最后一个第二细节保留层输出的细节保留特征图输入至解码网络的输出层,得到肖像分割图。终端还可以将编码特征输入到图像生成模型中生成目标肖像图像,终端得到肖像分割图和目标肖像图像后,基于肖像分割图对目标肖像图像进行抠图处理,得到人物肖像的抠图结果。终端可以为人物肖像的抠图结果添加新的背景图生成新的图像,在视频会议的过程中展示该新的图像,从而在视频会议的过程中保护了用户的隐私,提高了视频会议的安全性。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的抠图处理方法的抠图处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个抠图处理装置实施例中的具体限定可以参见上文中对于抠图处理方法的限定,在此不再赘述。
在一些实施例中,如图8所示,提供了一种抠图处理装置,包括:对象特征提取模块802、对象分割模块804、图像生成模块806和对象抠图模块808,其中:
对象特征提取模块802,用于对原始图像中的目标对象进行特征提取得到对象特征。
对象分割模块804,用于对对象特征进行编码得到编码特征,并对编码特征进行解码得到对象分割图。
图像生成模块806,用于基于编码特征生成目标图像,目标图像中的目标对象的图像质量高于原始图像中的目标对象的图像质量。
对象抠图模块808,用于基于对象分割图对目标图像进行抠图处理,得到目标对象的抠图结果。
在一些实施例中,编码特征是基于对象分割模型的编码网络得到,编码网络包括多个级联的编码层,多个级联的编码层包括多个下采样层和至少一个第一细节保留层,每个第一细节保留层的上一层级为下采样层;对象分割模块804,还用于将对象特征输入到编码网络中,经过级联的各编码层进行编码得到编码特征;其中,每个第一细节保留层用于对其上一层级的下采样层输出的下采样特征图进行细节保留处理,得到细节保留特征图,最后一个第一细节保留层输出的细节保留特征图输入至下一层级的下采样层进行下采样处理后,得到编码特征。
在一些实施例中,对象分割模块804,还用于生成待填充的特征图,从下采样特征图中选取第一子特征图;从特征图中确定第一子特征图对应的第二子特征图;第二子特征图在特征图中的位置,与第一子特征图在下采样特征图中的位置一致;从第一子特征图中确定预设数量的细节特征值,并根据预设数量的细节特征值填充第二子特征图;返回从下采样特征图中确定第一子特征图的步骤,直到遍历下采样特征图中的所有第一子特征图为止;输出填充结束后的特征图,将填充结束后的特征图作为第一细节保留层输出的细节保留特征图。
在一些实施例中,对象分割图是基于对象分割模型中的解码网络得到,解码网络包括多个级联的解码层,多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层;对象分割模块804,还用于将编码特征输入到解码网络中经过级联的各解码层进行解码,得到对象分割图;其中,每个第二细节保留层用于对其上一层级的上采样层输出的上采样特征图进行细节保留处理,得到细节保留特征图,最后一个第二细节保留层输出的细节保留特征图输入至解码网络的输出层,得到对象分割图。
在一些实施例中,抠图处理装置还包括模型训练模块,模型训练模块,用于将样本特征输入到待训练的分割模型的编码网络中进行编码,得到样本编码特征;样本特征是对样本图像中的样本对象进行特征提取所得到的特征;将样本编码特征输入到分割模型的解码网络中进行解码得到样本分割图,并基于样本编码特征得到对象生成图像;通过样本分割图对对象生成图像进行抠图,得到样本抠图结果;基于样本抠图结果和样本图像的标准抠图结果之间的差异,调整分割模型的参数,直到分割模型收敛,将收敛时的分割模型确定为对象分割模型。
在一些实施例中,解码网络包括多个级联的解码层,多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个第二细节保留层的上一层级为上采样层;模型训练模块,还用于获取解码网络中目标细节保留层输出的目标特征图;目标细节保留层为解码网络中的最后一个第二细节保留层,且目标特征图与标准分割图的尺度一致;基于样本抠图结果和样本图像的标准抠图结果之间的差异,确定第一损失值;基于目标特征图与标准分割图之间的差异,生成第二损失值;根据第一损失值和第二损失值,调整分割模型的参数。
在一些实施例中,模型训练模块,还用于获取样本图像的标准分割图;根据标准分割图和样本分割图之间的差异,确定第三损失值;根据第一损失值、第二损失值和第三损失值,调整分割模型的参数。
在一些实施例中,模型训练模块,还用于基于第一身份特征向量和第二身份特征向量之间的相似度,确定第四损失值;第一身份特征向量,用于表征样本图像中的样本对象的身份;第二身份特征向量,用于表征对象生成图像中的对象的身份;根据第一损失值、第二损失值、第三损失值和第四损失值,调整分割模型的参数。
上述抠图处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储抠图处理方法中涉及到的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种抠图处理方法。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种抠图处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9和图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述抠图处理方法中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述抠图处理方法中的步骤。
在一些实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述抠图处理方法中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种抠图处理方法,其特征在于,所述方法包括:
对原始图像中的目标对象进行特征提取得到对象特征;
对所述对象特征进行编码得到编码特征,并对所述编码特征进行解码得到对象分割图;
基于所述编码特征生成目标图像,所述目标图像中的所述目标对象的图像质量高于所述原始图像中的所述目标对象的图像质量;
基于所述对象分割图对所述目标图像进行抠图处理,得到所述目标对象的抠图结果。
2.根据权利要求1所述的方法,其特征在于,所述编码特征是基于对象分割模型的编码网络得到,所述编码网络包括多个级联的编码层,所述多个级联的编码层包括多个下采样层和至少一个第一细节保留层,每个所述第一细节保留层的上一层级为下采样层;所述对所述对象特征进行编码得到编码特征包括:
将所述对象特征输入到所述编码网络中,经过级联的各编码层进行编码得到编码特征;
其中,每个所述第一细节保留层用于对其上一层级的下采样层输出的下采样特征图进行细节保留处理,得到细节保留特征图,最后一个所述第一细节保留层输出的细节保留特征图输入至下一层级的下采样层进行下采样处理后,得到所述编码特征。
3.根据权利要求2所述的方法,其特征在于,所述第一细节保留层用于执行如下步骤:
生成待填充的特征图,从所述下采样特征图中选取第一子特征图;
从特征图中确定所述第一子特征图对应的第二子特征图;所述第二子特征图在所述特征图中的位置,与所述第一子特征图在所述下采样特征图中的位置一致;
从所述第一子特征图中确定预设数量的细节特征值,并根据所述预设数量的细节特征值填充所述第二子特征图;
返回所述从所述下采样特征图中确定第一子特征图的步骤,直到遍历所述下采样特征图中的所有第一子特征图为止;
输出填充结束后的特征图,将所述填充结束后的特征图作为所述第一细节保留层输出的细节保留特征图。
4.根据权利要求1所述的方法,其特征在于,所述对象分割图是基于对象分割模型中的解码网络得到,所述解码网络包括输出层和多个级联的解码层,所述多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个所述第二细节保留层的上一层级为上采样层;所述对所述编码特征进行解码得到对象分割图包括:
将所述编码特征输入到所述解码网络中经过级联的各解码层进行解码,得到对象分割图;
其中,每个所述第二细节保留层用于对其上一层级的上采样层输出的上采样特征图进行细节保留处理,得到细节保留特征图,最后一个所述第二细节保留层输出的细节保留特征图输入至所述解码网络的输出层,得到所述对象分割图。
5.根据权利要求2或4所述的方法,其特征在于,所述对象分割模型的训练过程包括如下步骤:
将样本特征输入到待训练的分割模型的编码网络中进行编码,得到样本编码特征;所述样本特征是对样本图像中的样本对象进行特征提取所得到的特征;
将所述样本编码特征输入到所述分割模型的解码网络中进行解码得到样本分割图,并基于所述样本编码特征得到对象生成图像;
通过所述样本分割图对所述对象生成图像进行抠图,得到样本抠图结果;
基于所述样本抠图结果和所述样本图像的标准抠图结果之间的差异,调整所述分割模型的参数,直到所述分割模型收敛,将收敛时的所述分割模型确定为所述对象分割模型。
6.根据权利要求5所述的方法,其特征在于,所述解码网络包括多个级联的解码层,所述多个级联的解码层包括多个上采样层和至少一个第二细节保留层,每个所述第二细节保留层的上一层级为上采样层;所述方法还包括:
获取所述解码网络中目标细节保留层输出的目标特征图;所述目标细节保留层为所述解码网络中的最后一个第二细节保留层,且所述目标特征图与标准分割图的尺度一致;
所述基于所述样本抠图结果和所述样本图像的标准抠图结果之间的差异,调整所述分割模型的参数包括:
基于所述样本抠图结果和所述样本图像的标准抠图结果之间的差异,确定第一损失值;
基于所述目标特征图与所述标准分割图之间的差异,生成第二损失值;
根据所述第一损失值和所述第二损失值,调整所述分割模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述样本图像的标准分割图;
根据所述标准分割图和所述样本分割图之间的差异,确定第三损失值;
所述根据所述第一损失值和所述第二损失值,调整所述分割模型的参数包括:
根据所述第一损失值、所述第二损失值和所述第三损失值,调整所述分割模型的参数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一损失值、所述第二损失值和所述第三损失值,调整所述分割模型的参数包括:
基于第一身份特征向量和第二身份特征向量之间的相似度,确定第四损失值;所述第一身份特征向量,用于表征所述样本图像中的样本对象的身份;所述第二身份特征向量,用于表征所述对象生成图像中的对象的身份;
根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值,调整所述分割模型的参数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的抠图处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的抠图处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085258.1A CN117974992A (zh) | 2023-08-25 | 2023-08-25 | 抠图处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085258.1A CN117974992A (zh) | 2023-08-25 | 2023-08-25 | 抠图处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117974992A true CN117974992A (zh) | 2024-05-03 |
Family
ID=90863888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311085258.1A Pending CN117974992A (zh) | 2023-08-25 | 2023-08-25 | 抠图处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117974992A (zh) |
-
2023
- 2023-08-25 CN CN202311085258.1A patent/CN117974992A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
US20230274400A1 (en) | Automatically removing moving objects from video streams | |
US20230051749A1 (en) | Generating synthesized digital images utilizing class-specific machine-learning models | |
CN115272250B (zh) | 确定病灶位置方法、装置、计算机设备和存储介质 | |
CN115082322B (zh) | 图像处理方法和装置、图像重建模型的训练方法和装置 | |
CN118298127B (zh) | 三维模型重建与图像生成方法、设备、存储介质及程序产品 | |
CN115147606A (zh) | 医学图像的分割方法、装置、计算机设备和存储介质 | |
CN116912148B (zh) | 图像增强方法、装置、计算机设备及计算机可读存储介质 | |
CN117115047A (zh) | 一种图像增强方法、装置、设备及存储介质 | |
CN116912791A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN115546011A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN117974992A (zh) | 抠图处理方法、装置、计算机设备和存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
Luo et al. | Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection | |
CN116071478B (zh) | 图像重建模型的训练方法和虚拟场景渲染方法 | |
CN116486090B (zh) | 肺癌脊柱转移图像处理方法、装置、设备、存储介质 | |
Li et al. | Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications | |
CN118570054B (zh) | 图像生成模型的训练方法、相关装置和介质 | |
CN117611953B (zh) | 图形码生成方法、装置、计算机设备及存储介质 | |
CN116958451B (zh) | 模型处理、图像生成方法、装置、计算机设备和存储介质 | |
CN115620013B (zh) | 语义分割方法、装置、计算机设备及计算机可读存储介质 | |
CN117974707A (zh) | 图像分割模型的训练方法、图像分割方法和装置 | |
CN118675215A (zh) | 人脸图像生成模型的训练方法、装置和计算机设备 | |
CN118612478A (zh) | 视频生成方法、装置、计算机设备、可读存储介质和程序产品 | |
CN117495769A (zh) | 电力场景缺陷检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |