CN116912643A - 图像生成方法、电子设备、存储介质及程序产品 - Google Patents
图像生成方法、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116912643A CN116912643A CN202310665304.9A CN202310665304A CN116912643A CN 116912643 A CN116912643 A CN 116912643A CN 202310665304 A CN202310665304 A CN 202310665304A CN 116912643 A CN116912643 A CN 116912643A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- features
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 126
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 41
- 238000012549 training Methods 0.000 description 29
- 239000013598 vector Substances 0.000 description 21
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像生成方法、电子设备、存储介质及程序产品,涉及图像处理技术领域。该方法通过将源对象图像的源对象特征和目标对象图像的目标对象特征按照特征的维度进行融合,使得可以保留源对象和目标对象的相关特征,然后从多个融合特征中选择与源对象特征之间满足相似度要求的目标融合特征,使得生成的目标图像可以尽可能保留源对象的特征,但是又保留了目标对象的特征,达到更好地融合效果,即生成的目标图像的效果更好,进而在将目标对象图像中的对象替换为源对象图像中的对象时,大大提升了替换效果。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种图像生成方法、电子设备、存储介质及程序产品。
背景技术
目前,越来越多的场景,如虚拟世界、电影特效、美发设计、娱乐短视频等会使用到更换技术,如更换衣服、更换配饰、更换发型、更换用户所处场景、更换用户风格,如将用户更换为卡通场景等。
对于更换技术而言,难点在于将目标图像中的对象更换为源图像中的对象后,以此生成一张最终的图像,该最终的图像中的对象即实现了对象更换。目前的方式一般是基于传统方法或关键点做图像处理上的对象融合,以获得最终的图像,但是这种方式在一些对象特征比较复杂的场景下,其生成的最终的图像中对象的效果不佳,即生成的最终的图像效果不好,进而导致对象更换效果较差的问题。
发明内容
本申请实施例的目的在于提供一种图像生成方法、电子设备、存储介质及程序产品,用以改善现有方式中生成的最终的图像效果不佳,导致最终更换效果差的问题。
第一方面,本申请实施例提供了一种图像生成方法,所述方法包括:
获取源对象图像以及目标对象图像;
提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征;
将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,其中,所述特征的维度为所述源对象特征以及所述目标对象特征的维度;
从不同维度下的融合特征中选择与所述源对象特征之间满足相似度要求的目标融合特征;
基于所述目标融合特征生成目标图像,其中,所述目标图像是指将所述目标对象图像中的对象替换成所述源对象图像中的对象所生成的图像。
在上述实现过程中,通过将源对象图像的源对象特征和目标对象图像的目标对象特征按照特征的维度进行融合,使得可以保留源对象和目标对象的相关特征,然后从不同维度的融合特征中选择与源对象特征之间满足相似度要求的目标融合特征,使得生成的目标图像可以尽可能保留源对象的特征,但是又保留了目标对象的特征,达到更好地融合效果,即生成的目标图像的效果更好,进而在将目标对象图像中的对象替换为源对象图像中的对象时,大大提升了替换效果。
可选地,所述将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,包括:
从多个维度中选取目标数量的维度;
将所述目标数量的维度中属于同一维度的所述源对象特征与所述目标对象特征按照目标权重进行线性加权融合,得到相应维度下的融合特征;以及将所述多个维度中除所述目标数量的维度外的剩余维度中属于同一维度的源对象特征和所述目标对象特征按照随机权重进行线性加权融合,得到相应维度下的融合特征;
其中,在将所述目标数量的维度下的对象特征进行融合时,所述目标对象特征的权重大于所述源对象特征的权重。
在上述实现过程中,这样可以确保融合特征中有一些融合特征能够保留目标对象更多的特征,使得后续生成的目标图像中的对象与目标对象具有一定相似度,这样可使得替换后的对象能够更加真实。
可选地,所述提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征,包括:
利用对象编码网络对所述源对象图像进行特征编码,获得源对象特征,以及利用所述对象编码网络对所述目标对象图像进行特征编码,获得目标对象特征;
和/或,所述基于目标融合特征生成目标图像,包括:
利用对象生成网络基于目标融合特征生成目标图像;其中,所述对象生成网络为基于超网络的生成网络。
在上述实现过程中,利用对象编码网络实现特征编码,从而可以将对象图像映射到隐空间,得到更加鲁棒的编码特征。利用对象生成网络基于目标融合特征生成目标图像。如此可以达到更好的图像生成效果。
可选地,所述对象生成网络的网络权重为基于所述超网络的自身权重与所述超网络预测得出的偏移量获得的。这样可以使得超网络的设计简单,且也不需要大量的资源进行训练,进而使得超网络在表达能力以及训练资源数量之间取得平衡。
可选地,所述基于所述目标融合特征生成目标图像之后,还包括:
获取所述目标对象图像对应的掩膜,其中,所述掩膜中像素的像素值表征所述目标对象图像中对应像素属于目标对象的概率;
根据所述掩膜中像素的像素值对所述目标对象图像与所述目标图像进行加权融合,得到融合后的目标图像;其中,所述目标图像所对应的权重值为所述掩膜中像素的像素值,所述目标对象图像所对应的权重值为所述掩膜中像素的像素值的互补值。
在上述实现过程中,通过将目标对象图像的掩膜作为融合系数对目标对象图像和目标图像进行融合,如此可解决目标对象图像中对象被遮挡和自然度的问题。
可选地,所述得到融合后的目标图像之后,还包括:
利用超分辨率模型对所述融合后的目标图像进行超分辨率处理,得到所述目标图像对应的超分辨率图像。如此可使得获得的超分辨率图像具有较高的保真度和清晰度,从而使得超分辨率图像能够适配任何视频分辨率,使得视频场景下的替换效果更加真实自然。
可选地,所述源对象图像和所述目标对象图像为脸部图像。如此可实现脸部的替换,进而可在更多应用场景下达到较好的替换效果。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种图像生成方法的流程图;
图2为本申请实施例提供的一种通过超网络生成网络权重的示意图;
图3为本申请实施例提供的一种对象替换方案的实现框图;
图4为本申请实施例提供的一种图像生成装置的结构框图;
图5为本申请实施例提供的一种用于执行图像生成方法的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请方案所获取的数据,包括源对象图像以及目标对象图像等相关数据,均在明确告知用户或相关数据所属方对数据的采集内容、数据用途、处理方式等信息后,在用户或相关数据所属方同意、授权的情况下访问、采集、存储并应用于后续分析处理,且可以向用户或相关数据所属方提供访问、更正、删除该数据的途径,以及撤销同意、授权的方法。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
本申请实施例提供一种图像生成方法,该方法通过将源对象图像的源对象特征和目标对象图像的目标对象特征进行融合,使得可以保留源对象和目标对象的相关特征,然后从不同维度下的融合特征中选择与源对象特征之间满足相似度要求的目标融合特征,使得生成的目标图像可以尽可能保留源对象的特征,但是又保留了目标对象的特征,达到更好地融合效果,即生成的目标图像的效果更好,进而在将目标对象图像中的对象替换为源对象图像中的对象时,大大提升了替换效果。
请参照图1,图1为本申请实施例提供的一种图像生成方法的流程图,该方法包括如下步骤:
步骤S110:获取源对象图像以及目标对象图像。
这里获取源对象图像和目标对象图像的方式可以是从外部系统获取,也可以是从本地的存储系统中读取等。
其中,对象可以是指脸部,即源对象图像和目标对象图像均为脸部图像,可以是真实人脸,也可以是动漫脸,或者是元宇宙虚拟人的人脸,当然对象除了人脸外,还可以是其他的,比如动物、发型、场景等。
步骤S120:提取源对象图像中的源对象特征以及目标对象图像中的目标对象特征。
步骤S130:将源对象特征与目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征。
其中,特征的维度是指源对象特征和目标对象特征的维度。这里先提取源对象图像的源对象特征以及目标对象图像的目标对象特征,然后将源对象特征与目标对象特征按照特征的维度进行融合,比如将属于同一特征维度下的对象特征进行融合,获得不同维度下的融合特征。这里的每个融合特征均包括两个图像中的对象特征,也就是说,将两个图像中的对象特征进行融合,这样使得后面生成的目标图像既保留了源对象图像的对象特征,也保留了目标对象图像的对象特征。
比如,如果是卡通虚拟人物的脸部图像,则融合特征包含了源卡通人脸特征以及目标卡通人脸特征,这样可以很好地保留源卡通人脸的身份特征以及目标卡通人脸的属性信息,比如目标卡通人脸的表情、姿态等信息,使得后续生成的目标图像能够包含目标卡通人脸的属性信息以及源卡通人脸的身份特征等信息,这样目标图像中的卡通人脸与源卡通人脸和目标卡通人脸都有一定的相似度,达到更好地融合效果。
步骤S140:从不同维度下的融合特征中选择与源对象特征之间满足相似度要求的目标融合特征。
融合特征融合了两个图像的对象特征,为了使得融合效果更好,则从不同维度下的融合特征中选择与源对象特征之间满足相似度要求的目标融合特征。比如可以从不同维度下的融合特征中选择与源对象特征最相似的融合特征作为目标融合特征,或者可以从不同维度下的融合特征中选择相似度大于设定阈值的融合特征作为目标融合特征,或者也可以是将相似度大于设定阈值的这些融合特征再次融合后作为目标融合特征。如此可使得获得的目标融合特征与源对象图像更贴近,比如更贴近源卡通人脸。
步骤S150:基于目标融合特征生成目标图像。
在获得目标融合特征后,可以将目标融合特征还原成目标图像,目标图像是指将目标对象图像中的对象替换成源对象图像中的对象所生成的图像,此时生成的目标图像包含源对象图像的对象特征以及目标对象图像的对象特征,使得生成的目标图像更好地融合了两个图像中的对象特征,进而实现了对象替换。
需要说明的是,如果目标融合特征是指与源对象特征相似度最高的融合特征,那么生成的目标图像保留了更多源对象特征,比如在将人脸替换成卡通形象的场景下,如果将目标对象图像替换为目标图像,这样换脸后的图像则保留了更多源人脸的特征,而且又保留了一部分卡通形象的特征,则可以将卡通形象的属性信息(比如表情、姿态等信息)进行更好地融合,达到更好地替换效果。
如果目标融合特征是相似度大于设定阈值的这些融合特征再次融合获得的,这样可以融合更多的细节特征,生成的目标图像也能保留更多的关于对象的细节特征,效果更好。
而如果目标融合特征为相似度大于设定阈值的这些融合特征,这种情况下,获得的目标融合特征为多个,此时可基于每个目标融合特征均生成对应的目标图像,即获得多张目标图像,最后可以从多张目标图像中选择效果最好的一张目标图像作为最终的目标图像,比如再将每张目标图像与源对象图像进行相似度计算,选出相似度最高的一张目标图像作为最终目标图像,或者直接将多张目标图像再次进行融合成一张目标图像。
在一些其他应用场景下,生成的目标图像可直接使用,实质上生成的目标图像中的对象已经发生了替换,即目标图像中的对象是将目标对象图像中的对象换成源对象图像中的对象后所形成的,比如在卡通人物的换脸场景下,目标图像中的人脸其实已经完成了换脸,如替换成卡通形象等,后续可以直接利用目标图像进行图像处理,比如P图、换背景等,所以生成的目标图像可以不仅仅是用来替换目标对象图像,在其他应用场景下,还可以做其他用途。
在上述实现过程中,通过将源对象图像的源对象特征和目标对象图像的目标对象特征进行融合,使得可以保留源对象和目标对象的相关特征,然后从不同维度下的融合特征中选择与源对象特征之间满足相似度要求的目标融合特征,使得生成的目标图像可以尽可能保留源对象的特征,但是又保留了目标对象的特征,达到更好地融合效果,即生成的目标图像的效果更好,进而在将目标对象图像中的对象替换为源对象图像中的对象时,大大提升了替换效果。
在上述实施例的基础上,在上述获得不同维度下的融合特征的方式中,其中一种方式可以是对源对象图像进行特征编码,获得源对象特征,以及对目标对象图像进行特征编码,获得目标对象特征,然后将多个维度中属于同一维度的源对象特征与目标对象特征进行融合,得到不同维度下的融合特征,共获得多个融合特征。如此可以更好地将图像中的细节特征进行融合,得到更加鲁棒的融合特征。
例如,源对象特征和目标对象特征的表现形式为一定维数的特征向量,比如18维特征向量,在进行融合时,可以将第i维度的源对象特征与第i维度的目标对象特征进行融合,即将同一维度的特征进行融合,一共可获得18个维度下的融合特征,也就是18个融合特征。
这里进行融合时,可以是将同一位置的特征点的特征值进行求和,或者取平均,或者也可以是线性加权求和,即将多个维度中同一维度的源对象特征和目标对象特征进行线性加权求和,得到不同维度下的融合特征,共获得多个融合特征。
比如,源对象特征和目标对象特征均为18维1*512尺度的特征向量,源对象特征的特征向量表示为wsource,目标对象特征的特征向量表示为wtarget,那么将两个特征向量进行线性加权融合的计算公式如下所示:
其中,n取18,wmix表示融合特征,αi表示第i维度的温度系数,也可称为融合系数或权重,取0-1之间的数值,具体的取值可以根据实际情况灵活设置,且在实际应用中,i取不同值时,αi的取值可不同,当然,i取不同值时,αi的取值也可相同。
在上述实现过程中,将图像特征进行加权融合,如此可根据权重选择所需融合的特征,以确保能够更好地融合源对象图像和目标对象图像的图像特征。
在上述实施例的基础上,为了确保得到更好地融合效果,在进行融合时,可以从多个维度中选取目标数量的维度,然后将目标数量的维度中属于同一维度的源对象特征与目标对象特征按照目标权重进行线性加权融合,得到相应维度下的融合特征,以及将多个维度中除目标数量的维度外的剩余维度中同一维度的源对象特征和目标对象特征按照随机权重进行线性加权融合,得到相应维度下的融合特征,共获得多个融合特征。其中,在将目标数量的维度下的对象特征进行融合时,目标对象特征的权重大于源对象特征的权重。
这里的多个维度可以是指提取的对象特征的总的特征维度,如上述示例一共有18维,目标数量的具体取值可以根据实际情况设置,比如可以设置为7,表示任意7维的特征向量进行融合时,采用目标权重进行融合,比如按照上述融合公式,针对其中7维特征向量,αi取值为0.2(即目标权重为0.2)。为了确保目标数量的维度下的对象特征进行融合时,能够保留更多目标对象的对象特征,所以其目标对象对应的权重(1-αi)的取值应大于αi的取值,即αi的取值应小于0.5且大于0。
或者,目标数量的维度可以是指前7维的特征向量,如这里可以设置是前7维的特征向量对应目标权重,这样可以确保能够融合更多目标对象的特征,比如i取1-7时,αi取值为0.2(即目标权重为0.2),此时目标对象特征占据的权重较大,这样可以确保有一些融合特征保留了更多目标对象的特征。剩余维度即剩余的11维特征向量进行融合时,可以随机枚举一些权重进行加权,比如选择0.3、0.5、0.7,具体数值和权重的枚举数量可根据实际情况灵活设置。剩余11维中每个维度的特征向量可以从中随机选择一个权重进行加权融合,比如从这三个权重中随机选择第8~18维度的特征向量的权重,对应到不同的的向量值;或者每个维度的特征向量均可选择这三个权重进行加权融合,比如若选择3个权重,则对于第8维特征向量的融合,可获得3个融合特征向量,这样针对每一维特征向量的融合,都可以获得3个融合特征向量,进而可以获得更多的融合特征。
获得的不同维度下的融合特征可记为以便于能够从中找出最合适的目标融合特征。这样可以通过多对象的特征编码混合技术实现无监督通用对象混合编码。
然后在获得目标融合特征时,可计算Smix中所有融合特征向量与wsource的特征相似度,基于相似度分数的归一化得分进行排序,选择与wsource相似度得分最高的作为目标融合特征,记为wmix,再基于目标融合特征生成目标图像,表示为yswap=G(w′mix;θ)。
在上述实现过程中,通过目标权重对图像特征进行加权融合,这样可以确保融合特征中有一些融合特征能够保留目标对象更多的特征,使得后续生成的目标图像中的对象与目标对象具有一定相似度,这样目标图像中的对象更加真实。
在上述实施例的基础上,在对图像进行编码时,为了获得更深度的编码特征,可以利用对象编码网络对源对象图像进行特征编码,获得源对象特征,以及利用对象编码网络对目标对象图像进行特征编码,获得目标对象特征。
这里的对象编码网络可以是指编码器,其可以将输入图像x映射到特征编码隐空间得到图像特征从而实现输入任意对象图像都可以映射到隐空间,得到特定的对象编码,这样获得的编码特征更加鲁棒。公式记为:/>其中/>隐空间记为W。
在上述实施例的基础上,在生成目标图像时,为了达到更好地生成效果,可以利用对象生成网络基于目标融合特征生成目标图像。
这里对象生成网络可以理解为是一种解码器,或者是一种生成式对抗神经网络等,本申请实施例中可以定义对象生成网络为G(w;θ),其中θ为对象生成网络的网络权重,对象的隐空间向量编码为w(即目标融合特征)。对象生成网络可以将对象特征编码复原为原始对象图片,所以也可以将目标融合特征复原成对应的目标图像,复原后的目标图像可以记为y=G(w;θ)。
在上述实施例的基础上,为了达到更好的图像生成效果,上述的对象编码网络和对象生成网络均通过预先训练获得的,而对象生成网络可以是基于超网络的生成网络,对象生成网络的网络权重为通过训练超网络生成的。这样在对象替换场景下,对象生成网络可不依赖对象数据,也无需重训模型,即可实现通用的替换技术。
其中,超网络(hyper networks)也叫元网络,简单来说就是用一个网络来生成另外一个网络的网络参数,即网络权重,其工作原理是用一个超网络输入训练集数据,然后输出对应网络的网络权重,最好的输出是这些网络权重能够使得在测试数据集上取得好的效果。
本申请实施例中利用超网络来生成对象生成网络的网络权重,比如,定义是对象编码特征(即对象特征)第一次经过对象生成网络G(w;θ)复原的对象图像,此时/>没有超网络输出的网络权重的加成,只取决于G(w;θ),后续通过训练超网络,使得训练完成后,超网络能够输出对象生成网络的网络权重。训练时,可以是将对象编码网络、对象生成网络以及超网络一起进行训练,这种方式中,训练集图像为输入对象编码网络的原始对象图像,对象编码网络自身的网络权重通过训练自行更新,超网络的输入为对象生成网络输出的目标图像(也可称为复原图像),超网络的输出为对象生成网络的网络权重,此时对象生成网络的网络权重通过超网络的输出进行更新。当然,对象编码网络也可单独进行训练,而对象生成网络和超网络一起训练,此时训练集为对象特征(即对象编码网络输出的特征编码)。
在上述实现过程中,对象生成网络的网络权重由超网络生成,如此只需身份无关的单张对象图片数据集即可实现无监督训练,且达到较好的训练效果。
在上述实施例的基础上,对象生成网络的网络权重可以为基于超网络的自身权重与超网络预测得出的偏移量获得的。
具体地,本申请实施例提出一种渐进式迭代优化网络的训练策略,以此来训练超网络,让超网络学习对象生成网络G(w;θ)各层的网络权重。例如,以卡通人脸图像为例,定义超网络为H,超网络的目标是输入卡通人脸图像x作为真值标签,优化对象生成网络的权重/>使用获取的卡通人脸图像数据集/>训练超网络,训练超网络所使用的优化器公式表示为:
其中,损失函数可采用L2损失函数,当然,也可以采用其他损失函数,可以根据实际情况灵活选择。
在设计超网络时,一方面希望超网络具有表现力,使得可以允许用户控制这些网络权重以增强对象(比如卡通人脸)的生成效果,但是另一方面,控制太多网络权重会导致网络不适用,需要大量资源进行训练。因此,超网络的设计具有挑战性,需要在表达能力和所涉及的可训练参数数量之间取得微妙的平衡。所以,在设计超网络时,超网络只需要学习对象生成网络的各卷积层的权重,参数数量相对较小,可以多轮迭代而不影响训练速度,而且只是通过残差加权的方式对G(w;θ)的权重做线性加权。是固定不动的,只需要对象编码网络生成一次编码特征,迭代训练的是整个对象生成网络G(w;θ)和超网络H,如图2所示。
在训练过程中,可通过初始化和x0递归迭代更新对象生成网络的网络权重,定义超网络H的网络层数为M,超网络的网络权重为/>超网络为每个更新后的层l生成偏移量Δl。然后将这些偏移量乘以相应的层权重θl并以通道方式添加到原始权重上,对于t>=1(t表示训练的轮数)时,超网络预测一组偏移量/>用于对更新后的对象生成网络的权重/>进行更新,其网络权重的更新方式如下:
如此,在训练完成后,对象生成网络即可获得自身的网络权重。
为了获得更好地训练效果,在训练过程中,可对每张训练图像迭代训练N轮,N为大于1的整数。比如,使用残差叠加权重的方法,对同一张卡通人脸图像进行递归迭代N轮,本申请实施例可采用N=7,生成的目标图像若N等于7,则最终的目标图像为/>迭代7轮后对象生成网络的网络权重为/>它代表了7轮迭代所累加的超网络的各层权重。比如,在对象替换场景下,训练集中每张图像都循环迭代7轮作为一张卡通人脸图像的训练,数据集中所有图像反复训练超网络,直到网络收敛,如此需要较少的训练资源也能达到较好的训练效果。
在训练完网络后,即可利用训练后的对象编码网络、对象生成网络以及超网络实现目标图像的生成,比如在对象替换场景下,整个方案的实现框架可如图3所示。
在上述实施例的基础上,在生成目标图像后,为了解决图像中对象的遮挡和自然度的问题,还可以获取目标对象图像对应的掩膜,其中,掩膜中像素的像素值表中目标对象图像中对应像素属于目标对象的概率,然后根据掩膜中像素的像素值对目标对象图像与目标图像进行加权融合,得到融合后的目标图像;其中,目标图像所对应的权重值为所述掩膜中像素的像素值,目标对象图像所对应的权重值为所述掩膜中像素的像素值的互补值。
在一些实施方式中,可使用对象遮挡分割模型,处理目标对象图像Itarget,得到目标对象图像对应的掩膜该掩膜中的每个像素的像素值表征目标对象图像中对应像素属于目标对象的概率,将掩膜作为融合系数,对目标对象图像与目标图像进行线性加权融合,融合公式表示如下:
这里融合时,是将目标图像的像素值与掩膜图像中对应位置的像素值进行相乘,比如将目标图像中第i行第j列的像素值与掩膜图像中第i行第j列的像素值相乘;表示掩膜中像素的像素值的互补值,将目标对象图像的像素值与掩膜图像中对应位置的像素值的互补值进行相乘,比如将目标对象图像中第i行第j列的像素值与掩膜图像中第i行第j列的像素值的互补值相乘。
执行该融合算法后,即可获得融合后的目标图像,此时获得的目标图像保留了目标对象图像中的背景信息。如果是为了实现对象替换,则可以将融合后的目标图像贴回目标对象图像上,即将目标对象图像替换为融合后的目标图像。
在上述实施例的基础上,由于不同设备的分辨率不同,不同设备的对象尺度和分辨率也不同,所以还可以利用超分辨率模型对融合后的目标图像进行超分辨率处理,得到目标图像对应的超分辨率图像。即将上述的Iswap再经过一个超分辨率模型,使得获得的超分辨率图像的最大分辨率支持到4k,如此可以适配任意分辨率的设备,达到更好地显示效果。
可以理解地,这里也可以直接对生成的目标图像通过超分辨率模型进行处理,这样也能改善原始生成的目标图像的显示效果。如此可使得目标图像具有较高的保真度和清晰度,从而使得目标图像能够适配任何视频分辨率,使得视频场景下的替换效果更加真实自然。
上述在获得超分辨率图像后,若后续需要进行图像替换,则可将目标对象图像替换为超分辨率图像即可,即可以将超分辨率图像贴回目标对象图像上。所以,通过本申请实施例提供的方法,可以实现基于单张对象图像即可完成无监督视频中对象的替换的方法,并且可适配任何视频分辨率,视频中对象替换效果更加真实自然。
请参照图4,图4为本申请实施例提供的一种图像生成装置200的结构框图,该装置200可以是电子设备上的模块、程序段或代码。应理解,该装置200与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
可选地,所述装置200包括:
图像获取模块210,用于获取源对象图像以及目标对象图像;
特征提取模块220,用于提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征;
特征融合模块230,用于将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,其中,所述特征的维度为所述源对象特征以及所述目标对象特征的维度;
特征选择模块240,用于从不同维度下的融合特征中选择与所述源对象特征之间满足相似度要求的目标融合特征;
图像生成模块250,用于基于所述目标融合特征生成目标图像,其中,所述目标图像是指将所述目标对象图像中的对象替换成所述源对象图像中的对象所生成的图像。
可选地,所述特征融合模块230,用于从多个维度中选取目标数量的维度;将所述目标数量的维度中属于同一维度的所述源对象特征与所述目标对象特征按照目标权重进行线性加权融合,得到相应维度下的融合特征;以及将所述多个维度中除所述目标数量的维度外的剩余维度中属于同一维度的源对象特征和所述目标对象特征按照随机权重进行线性加权融合,得到相应维度下的融合特征;
其中,在将所述目标数量的维度下的对象特征进行融合时,所述目标对象特征的权重大于所述源对象特征的权重。
可选地,所述特征提取模块220,用于利用对象编码网络对所述源对象图像进行特征编码,获得源对象特征,以及利用所述对象编码网络对所述目标对象图像进行特征编码,获得目标对象特征;
和/或,所述图像生成模块250,用于利用对象生成网络基于目标融合特征生成目标图像;其中,所述对象生成网络为基于超网络的生成网络。
可选地,所述对象生成网络的网络权重为基于所述超网络的自身权重与所述超网络预测得出的偏移量获得的。
可选地,所述图像生成模块250,还用于获取所述目标对象图像对应的掩膜,其中,所述掩膜中像素的像素值表征所述目标对象图像中对应像素属于目标对象的概率;根据所述掩膜中像素的像素值对所述目标对象图像与所述目标图像进行加权融合,得到融合后的目标图像;其中,所述目标图像所对应的权重值为所述掩膜中像素的像素值,所述目标对象图像所对应的权重值为所述掩膜中像素的像素值的互补值。
可选地,所述图像生成模块250,还用于利用超分辨率模型对所述融合后的目标图像进行超分辨率处理,得到所述目标图像对应的超分辨率图像。
可选地,所述源对象图像和所述目标对象图像为脸部图像。
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
请参照图5,图5为本申请实施例提供的一种用于执行图像生成方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器310,例如CPU,至少一个通信接口320,至少一个存储器330和至少一个通信总线340。其中,通信总线340用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口320用于与其他节点设备进行信令或数据的通信。存储器330可以是高速RAM存储器,也可以是非易失性的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器330可选的还可以是至少一个位于远离前述处理器的存储装置。存储器330中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器310执行时,电子设备执行上述图1所示方法过程。
可以理解,图5所示的结构仅为示意,所述电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:
获取源对象图像以及目标对象图像;
提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征;
将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,其中,所述特征的维度为所述源对象特征以及所述目标对象特征的维度;
从不同维度下的融合特征中选择与所述源对象特征之间满足相似度要求的目标融合特征;
基于所述目标融合特征生成目标图像,其中,所述目标图像是指将所述目标对象图像中的对象替换成所述源对象图像中的对象所生成的图像。
综上所述,本申请实施例提供一种图像生成方法、电子设备、存储介质及程序产品,该方法通过将源对象图像的源对象特征和目标对象图像的目标对象特征按照特征的维度进行融合,使得可以保留源对象和目标对象的相关特征,然后从多个融合特征中选择与源对象特征之间满足相似度要求的目标融合特征,使得生成的目标图像可以尽可能保留源对象的特征,但是又保留了目标对象的特征,达到更好地融合效果,即生成的目标图像的效果更好,进而在将目标对象图像中的对象替换为源对象图像中的对象时,大大提升了替换效果。
需要说明的是,本说明书及实施例中所述方案,如涉及个人信息处理,则均会在具备合法性基础(例如征得个人信息主体同意,或者为履行合同所必需等)的前提下进行处理,且仅会在规定或者约定的范围内进行处理。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图像生成方法,其特征在于,所述方法包括:
获取源对象图像以及目标对象图像;
提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征;
将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,其中,所述特征的维度为所述源对象特征以及所述目标对象特征的维度;
从不同维度下的融合特征中选择与所述源对象特征之间满足相似度要求的目标融合特征;
基于所述目标融合特征生成目标图像,其中,所述目标图像是指将所述目标对象图像中的对象替换成所述源对象图像中的对象所生成的图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述源对象特征与所述目标对象特征按照特征的维度进行融合,获得不同维度下的融合特征,包括:
从多个维度中选取目标数量的维度;
将所述目标数量的维度中属于同一维度的所述源对象特征与所述目标对象特征按照目标权重进行线性加权融合,得到相应维度下的融合特征;以及将所述多个维度中除所述目标数量的维度外的剩余维度中属于同一维度的源对象特征和所述目标对象特征按照随机权重进行线性加权融合,得到相应维度下的融合特征;
其中,在将所述目标数量的维度下的对象特征进行融合时,所述目标对象特征的权重大于所述源对象特征的权重。
3.根据权利要求1所述的方法,其特征在于,所述提取所述源对象图像中的源对象特征以及所述目标对象图像中的目标对象特征,包括:
利用对象编码网络对所述源对象图像进行特征编码,获得源对象特征,以及利用所述对象编码网络对所述目标对象图像进行特征编码,获得目标对象特征;
和/或,所述基于所述目标融合特征生成目标图像,包括:
利用对象生成网络基于目标融合特征生成目标图像;其中,所述对象生成网络为基于超网络的生成网络。
4.根据权利要求3所述的方法,其特征在于,所述对象生成网络的网络权重为基于所述超网络的自身权重与所述超网络预测得出的偏移量获得的。
5.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述目标融合特征生成目标图像之后,还包括:
获取所述目标对象图像对应的掩膜,其中,所述掩膜中像素的像素值表征所述目标对象图像中对应像素属于目标对象的概率;
根据所述掩膜中像素的像素值对所述目标对象图像与所述目标图像进行加权融合,得到融合后的目标图像;其中,所述目标图像所对应的权重值为所述掩膜中像素的像素值,所述目标对象图像所对应的权重值为所述掩膜中像素的像素值的互补值。
6.根据权利要求5所述的方法,其特征在于,所述得到融合后的目标图像之后,还包括:
利用超分辨率模型对所述融合后的目标图像进行超分辨率处理,得到所述目标图像对应的超分辨率图像。
7.根据权利要求1-6任一所述的方法,其特征在于,所述源对象图像和所述目标对象图像为脸部图像。
8.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665304.9A CN116912643A (zh) | 2023-06-06 | 2023-06-06 | 图像生成方法、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665304.9A CN116912643A (zh) | 2023-06-06 | 2023-06-06 | 图像生成方法、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912643A true CN116912643A (zh) | 2023-10-20 |
Family
ID=88359049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310665304.9A Pending CN116912643A (zh) | 2023-06-06 | 2023-06-06 | 图像生成方法、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912643A (zh) |
-
2023
- 2023-06-06 CN CN202310665304.9A patent/CN116912643A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI753327B (zh) | 圖像處理方法、處理器、電子設備與電腦可讀存儲介質 | |
CN111199550B (zh) | 图像分割网络的训练方法、分割方法、装置和存储介质 | |
US20220028031A1 (en) | Image processing method and apparatus, device, and storage medium | |
CN111260653B (zh) | 一种图像分割方法、装置、存储介质和电子设备 | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112419170A (zh) | 遮挡检测模型的训练方法及人脸图像的美化处理方法 | |
CN111553267A (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN113011387B (zh) | 网络训练及人脸活体检测方法、装置、设备及存储介质 | |
CN115171199B (zh) | 图像处理方法、装置及计算机设备、存储介质 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN114494543A (zh) | 动作生成方法及相关装置、电子设备和存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN113723310B (zh) | 基于神经网络的图像识别方法及相关装置 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN116912643A (zh) | 图像生成方法、电子设备、存储介质及程序产品 | |
CN114936377A (zh) | 模型训练和身份匿名化方法、装置、设备及存储介质 | |
CN114708143A (zh) | 一种hdr图像生成方法、设备、产品及介质 | |
CN113962846A (zh) | 图像对齐方法及装置、计算机可读存储介质及电子设备 | |
CN116362981A (zh) | 色调映射方法、计算机程序产品、电子设备以及存储介质 | |
CN115708135A (zh) | 人脸识别模型的处理方法、人脸识别方法及装置 | |
CN116645700B (zh) | 特征提取模型处理方法、装置和特征提取方法、装置 | |
CN116542292B (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN116740540B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |