CN114187624B - 图像生成方法、装置、电子设备及存储介质 - Google Patents
图像生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114187624B CN114187624B CN202111320636.0A CN202111320636A CN114187624B CN 114187624 B CN114187624 B CN 114187624B CN 202111320636 A CN202111320636 A CN 202111320636A CN 114187624 B CN114187624 B CN 114187624B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- feature
- initial
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000004927 fusion Effects 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000007499 fusion processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 7
- 238000013475 authorization Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种图像生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、计算机视觉等技术领域,可应用于人脸图像处理和人脸图像识别等场景下。包括:获取参考图像和待处理图像,并从参考图像之中提取出目标融合特征,再根据目标融合特征,确定与参考图像对应的多个深度特征图,并根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,以及根据目标特征图处理待处理图像,以生成目标图像,由此能够有效地降低图像融合的计算量,有效适用于算力较低的电子设备,在有效地节约计算资源的同时,有效地提升图像生成效果。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及深度学习、计算机视觉等技术领域,可应用于人脸图像处理和人脸图像识别等场景下,尤其涉及一种图像生成方法、装置、电子设备及存储介质。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
相关技术中,在图像融合(例如,将图像A中的特征融合至图像B中)时,通常需要较大的计算量,从而导致图像生成方法无法适用于算力较差的电子设备。
发明内容
本公开提供了一种图像生成方法、装置、电子设备、存储介质及计算机程序产品。
根据本公开的第一方面,提供了一种图像生成方法,包括:获取参考图像和待处理图像;从所述参考图像之中提取出目标融合特征;根据所述目标融合特征,确定与所述参考图像对应的多个深度特征图;根据所述目标融合特征,对所述多个深度特征图进行融合处理得到目标特征图;以及根据所述目标特征图处理所述待处理图像,以生成目标图像。
根据本公开的第二方面,提供了一种图像生成装置,包括:获取模块,用于获取参考图像和待处理图像;提取模块,用于从所述参考图像之中提取出目标融合特征;确定模块,用于根据所述目标融合特征,确定与所述参考图像对应的多个深度特征图;第一处理模块,用于根据所述目标融合特征,对所述多个深度特征图进行融合处理得到目标特征图;以及第二处理模块,用于根据所述目标特征图处理所述待处理图像,以生成目标图像。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开第一方面的图像生成方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如本公开第一方面的图像生成方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开第一方面的图像生成方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开实施例的U形神经网络的结构示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6示出了用来实施本公开实施例的图像生成方法的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开第一实施例的示意图。
其中,需要说明的是,本实施例的图像生成方法的执行主体为图像生成装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本公开实施例涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于人脸图像处理和人脸图像识别等场景下。
其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
计算机视觉,指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
而人脸图像处理,是指利用计算机技术对输入的人脸图像或者视频流进行处理,提取出图像中包含的人脸图像信息;人脸图像识别,是指基于人脸图像的面部特征,对人脸图像中各个主要面部器官的位置信息进行提取,并依据这些信息,进一步提取每个人脸中所蕴涵的特征。
当将本公开提供的图像生成方法应用于人脸图像处理和人脸图像识别等场景,能够有效地降低人脸图像融合的计算量,使得人脸图像生成方法能够有效适用于算力较低的电子设备,在有效地节约计算资源的同时,有效地提升人脸图像生成效果。
需要说明的是,本公开实施例中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理方式,其过程均符合相关法律法规的规定,且不违背公序良俗。
如图1所示,该图像生成方法,包括:
S101:获取参考图像和待处理图像。
其中,当前待对其进行处理的图像即可以被称为待处理图像,该待处理图像的数量可以是一张或者多张,该待处理图像,可以是通过手机、相机等具有拍摄功能的摄像装置拍摄得到的,或者,该待处理图像也可以是从视频流中解析得到的,例如,该待处理图像,可以是从视频包含的多个视频帧中提取的部分视频帧图像,对此不做限制。
其中,在图像生成方法的执行过程中,对待处理图像起到参考作用的图像即可以被称为参考图像,该参考图像的数量可以是一张或者多张,其中,参考图像可以具有对应的身份信息,该参考图像可以例如是与待处理图像相同的图像,或者还可以与待处理图像具有相关联信息的图像,对此不做限制。
其中,身份信息可以具体例如为参考图像中人物的着装信息、发型信息、体型信息,或者其他任意能够表征参考图像中人物身份的信息等,对此不做限制。
也即是说,本公开实施例的一种应用场景可以例如为,获取具有身份信息的参考图像,而后从参考图像中提取出身份信息,并将该身份信息融合至待处理图像之中,以生成具有携带参考图像中人物身份信息的目标图像,对此不做限制。
需要说明的是,本公开实施例中的参考图像和待处理图像,并不是针对某一特定用户获取的图像,其并不能反映出某一特定用户的个人信息,并且参考图像和待处理图像,以及上述的身份信息均是在经过相关用户授权后获取的,其获取过程均符合相关法律、法规的规定,且不违背公序良俗。
可选地,一些实施例中,获取参考图像和待处理图像,可以是获取源图像和初始图像,并基于第一数量的关键点将源图像中源区域图像与标准对象图像进行多点对齐处理,以得到参考图像,再基于第二数量的关键点将初始图像中初始区域图像和标准对象图像进行对齐处理,以得到待处理图像,由于是分别采用不同的对齐方式对源图像和初始图像进行对齐处理,从而能够在后续图像生成方法的执行过程中,能够有效地提升参考图像和待处理图像的对齐效果,以保证能够从参考图像和待处理图像确定得到完整的区域图像,便于后续参考图像和待处理图像的图像融合,以及保障能够从参考图像和待处理图像读取正确的图像信息,有效的辅助提升图像生成效果。
其中,在初始阶段获取得到的未经处理的参考图像即可以被称为源图像,相应地,在图像生成方法的初始阶段获取得到的未经处理的待处理图像即可以被称为初始图像,也即是说,本公开实施例中,可以是获取源图像和初始图像,而后可以对源图像和初始图像分别进行相应的对齐处理,以得到参考图像和待处理图像,对此不做限制。
其中,图像可以是对相应对象进行拍摄捕获得到的,该对象可以例如为人物、动物、植物,或者前述对象中的部分对象(五官、头发、脸型轮廓)等等,本公开实施例中可以对象为人物进行示例,针对该人物进行图像拍摄、身份信息提取均是在经过相关用户授权后获取的,其获取过程均符合相关法律、法规的规定,且不违背公序良俗。
本公开实施例中图像中可以包括多个对象,多个对象可以分别对应不同的区域图像(该区域图像可以是图像中的局部图像区域),本公开实施例中,可以将源图像描述的对象作为第一对象,将第一对象对应的图像区域作为源区域图像,相应地,可以将初始图像描述的对象作为第二对象,将第二对象对应的图像区域作为初始区域图像,对此不做限制。
举例而言,当图像为人脸图像时,对象可以具体例如为五官、头发、脸型轮廓,而对象对应的区域可以具体例如为五官区域,头发区域,脸型轮廓区域,对此不做限制。
本公开实施例中,对源图像和初始图像进行相应处理,以得到参考图像和待处理图像,可以是分别从源图像中的源区域图像中选取相应数量(该数量即可以被称为第一数量)的关键点,再从初始图像中的初始区域图像中选取相应数量(该数量即可以被称为第二数量)的关键点,而后基于第一数量的关键点对源图像与标准对象图像进行多点对齐处理,以得到参考图像,并基于第二数量的关键点将初始图像中初始区域图像和标准对象图像进行对齐处理,以得到待处理图像。
其中,被用作对图像进行对齐参考的图像,即可以被称为标准对象图像,该标准对象图像可以是预先标注得到的,对此不做限制。
举例而言,该标准对象图像可以是高质量人脸数据集(Flickr Faces HighQuality,FFHQ)中的高清人脸图像,而高质量人脸数据集FFHQ包含1024×1024分辨率的70000张便携式网络图形(Portable Network Graphics,PNG)格式高清人脸图像,对此不做限制。
举例而言,基于第一数量的关键点将源图像中源区域图像与标准对象图像进行多点对齐处理,可以是基于5点关键点,并采用深度人脸识别的加性角边缘损失(AdditiveAngular Margin Loss for Deep Face Recognition,ArcFace)算法对源区域图像与标准对象图像进行多点对齐处理,以得到参考图像,对此不做限制。
举例而言,基于第二数量的关键点将初始图像中初始区域图像和标准对象图像进行对齐处理,可以是基于72点关键点,并采用与高质量人脸数据集(Flickr Faces HighQuality,FFHQ)相同的对齐方式对初始区域图像与标准对象图像进行多点对齐处理,以得到待处理图像,对此不做限制。
需要说明的是,本公开实施例中的参考图像和待处理图像,并不是针对某一特定用户获取的图像,其并不能反映出某一特定用户的个人信息,并且参考图像和待处理图像均是在经过相关用户授权后获取的,其获取过程均符合相关法律、法规的规定,且不违背公序良俗。
S102:从参考图像之中提取出目标融合特征。
其中,用于描述参考图像身份信息的特征,即可以被称为目标融合特征,也即是说,该目标融合特征,可以是从参考图像之中提取得到身份信息特征,其中,身份信息可以具体例如为参考图像中人物的着装信息、发型信息、体型信息,或者其他任意能够表征参考图像中人物身份的信息等,对此不做限制。
也即是说,本公开实施例中能够支持将参考图像中的目标融合特征融合至待处理图像之中,以实现对参考图像和待处理图像的融合处理,具体可以参见后续实施例。
一些实施例中,可以是采用预训练的神经网络模型,从参考图像之中提取出目标融合特征,例如可以将参考图像作为预训练的神经网络模型的输入参数,以得到预训练的神经网络模型输出的身份信息特征,并将该身份信息特征作为目标融合特征。
本公开实施例中,可以采用ArcFace算法,对待处理图像进行处理,以得到待处理图像的多个身份信息特征,并将该身份信息特征作为目标融合特征,或者,也可以采用其他任意可能的方法,从参考图像之中提取目标融合特征,对此不做限制。
可选地,一些实施例中,从参考图像之中提取出目标融合特征,可以是从参考图像之中提取出待融合特征,并对待融合特征进行编码处理,以得到目标融合特征,由于是对从参考图像之中提取出待融合特征,并对待融合特征进行编码处理,以得到目标融合特征,从而能够有效地减少待融合特征的数据量,同时还能够使得编码处理得到的目标融合特征,能够满足后续模型对输入数据的格式需求,另外通过对待融合特征进行编码处理,还可以在一定程度上滤除无关的特征带来的干扰,能够地辅助提升所生成的目标图像的质量。
其中,参考图像中,当前待对其进行编码处理的身份信息特征,即可以被称为待融合特征,也即是说,本公开实施例中可以先从参考图像之中提取出待融合特征,而后可以对待融合特征进行编码处理,以得到目标融合特征。
其中,编码处理是指通过特定的压缩技术,将某个格式的信息转换成另一种格式的信息,以适用不同的网络带宽,不同的终端处理能力和不同用户需求的信息处理技术。
一些实施例中,对待融合特征进行编码处理,可以是在图像生成装置中,预先配置相应的编码器,而后可以在图像生成方法的执行过程中,将待融合特征,输入预先配置的编码器中,由编码器对待融合特征进行编码处理,并输出相应的目标融合特征,对此不做限制。
S103:根据目标融合特征,确定与参考图像对应的多个深度特征图。
本公开实施例中,可以引入U形神经网络(Unet),如图2所示,图2是根据本公开实施例的U形神经网络的结构示意图,以实现本公开实施例描述的图像生成方法,生成目标图像。
需要说明的是,图2中所涉及的人脸图像,并不是针对某一特定用户获取的人脸图像,其并不能反映出某一特定用户的个人信息,并且前述人脸图像,均是在经过相关用户授权后获取的,其获取过程均符合相关法律、法规的规定,且不违背公序良俗。
本公开实施例中,可以支持将Unet中的常规卷积替换为深度可分离卷积,以降低Unet中的参数量,使得Unet的参数量可以为0.5兆,计算量为0.44每秒10亿次的浮点运算数(Giga Floating Point Operations Per Second,GFLOPS),从而能够在图像生成方法的执行过程中,有效地节约计算资源,且能够有效地辅助提升图像生成方法的执行效率,使得本公开实施例描述的图像生成方法可以适用于算力较低的边缘设备(例如:天玑1100算力的手机)。
其中,深度可分离卷积,是卷积神经网络中对标准的卷积计算进行改进得到的算法,其通过拆分空间维度和通道(深度)维度的相关性,减少了卷积计算所需要的参数个数,从而在将常规卷积替换为深度可分离卷积时,能够有效地辅助提升图像生成方法的执行效率。
其中,深度可分离卷积在对通道(深度)进行空间卷积,所得到的特征图,即可以被称为深度特征图。
一些实施例中,确定与参考图像对应的多个深度特征图,可以是结合深度卷积网络,在深度卷积网络的多个通道上,分别对参考图像进行卷积,以得到深度卷积网络的多个通道输出的多个深度特征图,或者,也可以采用其他任意可能的方式,确定与参考图像对应的多个深度特征图,例如特征解析的方法,模型解析的方法等,对此不做限制。
S104:根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图。
本公开实施例在根据目标融合特征,确定与参考图像对应的多个深度特征图后,可以根据目标融合特征,对多个深度特征图进行融合处理,以得到融合后的特征图,该融合后的特征图即可以被称为目标特征图。
一些实施例中,根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,可以是参考目标融合特征,对多个深度特征图像进行特征连接处理,并将前述处理得到的特征图作为目标特征图。
另一些实施例中,还可以结合预训练的特征图融合模型,实现根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,或者还可以采用其他任意可能的方式,实现根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,对此不做限制。
也即是说,本公开实施例中结合了参考图像中的目标融合特征来确定与参考图像对应的多个深度特征图,并且对多个深度特征图进行融合处理得到目标特征图,使得目标特征图能够基于图像深度的维度表征出相应参考图像所携带的身份信息,使得参考图像中的身份信息的提取和表征更为准确,并且实现将身份信息携带至目标特征图之中,当后续基于该目标特征图处理待处理图像,以生成目标图像时,在有效地提升图像生成效果,并且是基于深度可分离卷积处理参考图像得到多个深度特征图,从而有效地降低图像融合的计算量,有效适用于算力较低的电子设备。
S105:根据目标特征图处理待处理图像,以生成目标图像。
本公开实施例,在根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图后,可以根据目标特征图处理待处理图像,以生成目标图像。
一些实施例中,根据目特征图处理待处理图像,以生成目标图像,可以是对目标特征图和待处理图像进行融合处理,并将前述融合处理得到的图像作为目标图像。
另一些实施例中,根据目标特征图处理待处理图像,还可以是结合预训练的卷积神经网络,将目标特征图注入待处理图像中,以生成目标图像,或者,也可以采用其他任意可能的方式,根据目标特征图处理待处理图像,以生成目标图像,对此不做限制。
本实施例中,通过获取参考图像和待处理图像,并从参考图像之中提取出目标融合特征,再根据目标融合特征,确定与参考图像对应的多个深度特征图,并根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,以及根据目标特征图处理待处理图像,以生成目标图像,能够有效地降低图像融合的计算量,有效适用于算力较低的电子设备,在有效地节约计算资源的同时,有效地提升图像生成效果。
图3是根据本公开第二实施例的示意图。
如图3所示,该图像生成方法,包括:
S301:获取参考图像和待处理图像。
S302:从参考图像之中提取出目标融合特征。
S301-S302的描述说明可以具体参见上述实施例,在此不再赘述。
S303:根据目标融合特征,确定预测卷积参数。
其中,预测得到的初始深度卷积网络的网络参数,即可以被称为预测卷积参数。
其中,在图像生成方法执行过程中,获取得到的未经处理的深度卷积网络,即可以被称为初始深度卷积网络,该初始深度卷积网络可以具体为深度可分离卷积网络中的深度(Depthwise)卷积,对此不做限制。
其中,初始深度卷积网络Depthwise网络(该网络的功能是在每个深度上分别卷积,得到多个特征图)的网络参数,可以具体例如为输入参数的数量、过滤层的层数、卷积核大小,以及输出通道数等,对此不做限制。
一些实施例中,在根据目标融合特征,确定预测卷积参数时,可以根据目标融合特征的特征维度数量来确定待输入至初始深度卷积网络Depthwise网络的特征数量,该特征数量对应初始深度卷积网络Depthwise网络的输入参数的数量,并根据目标融合特征所表征参考图像所携带的多种深度值,确定过滤层的层数,或者,也可以结合其他可能的目标融合特征的一些特征形态,来确定其他可以将Depthwise网络的网络参数调整至的数值并作为预测网络参数。
另一些实施例中,也可以将目标融合特征与标注特征进行比对,该标注特征可以是预先标定的,且预先可对该标注特征预先配置适合的Depthwise网络的网络参数,而后,将与目标融合特征匹配的标注特征所适配的网络参数作为预测网络参数,其中,标注特征与Depthwise网络的网络参数相适配,可以是指基于该适配的网络参数配置Depthwise网络后,使得配置后的Depthwise网络能够有效地对标注特征进行学习建模,对此不做限制。
S304:将初始深度卷积网络的初始卷积参数调整为预测卷积参数,以得到目标深度卷积网络。
其中,初始深度卷积网络对应的网络参数即可以被称为初始卷积参数。
本公开实施例在根据目标融合特征,确定预测卷积参数后,可以将初始深度卷积网络的初始卷积参数调整为预测卷积参数,并将调整后的深度卷积网络作为目标深度卷积网络。
举例而言,将初始深度卷积网络的初始卷积参数调整为预测卷积参数,可以是将初始深度卷积网络的初始卷积参数替换为预测卷积参数,或者,也可以采用其他任意可能的方式,执行将初始深度卷积网络的初始卷积参数调整为预测卷积参数,以得到目标深度卷积网络的步骤,对此不做限制。
S305:采用目标深度卷积网络对参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,多个候选深度是基于目标融合特征确定的。
其中,参考图像中所具有的多种深度值,即可以被称为为候选深度,多个候选深度具体可以是基于目标融合特征确定的,对此不做限制。
可以理解的是,参考图像通常是对场景中对象进行拍照得到的,从而参考图像实际上是对场景中空间立体信息进行成像,因此,参考图像中会相应地携带多个深度值,比如,可以采用深度分析算法对参考图像进行分析,结合摄像装置的内参外参来确定参考图像中所具有的多种深度值作为候选深度,或者,也可以采用飞行时间算法测算摄像装置到场景中空间立体信息的相对距离,结合摄像装置的对焦信息等确定参考图像中所具有的多种深度值,对此不做限制。
本公开实施例中,由于目标深度卷积网络能够执行在每个深度上分别卷积,得到多个特征图的模型运算任务,从而可以采用目标深度卷积网络对参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,多个候选深度是基于目标融合特征确定的,由目标融合特征,可以是从参考图像之中提取得到身份信息特征,其中,身份信息可以具体例如为参考图像中人物的着装信息、发型信息、体型信息,或者其他任意能够表征参考图像中人物身份的信息等,从而当基于目标融合特征确定得到多个候选深度时,使得生成的多个深度特征图能够携带更多的目标融合特征,实现基于深度维度来表征目标融合特征,能够有效地提升目标融合特征的表征效果,保障后续目标图像的生成质量。
S306:根据目标融合特征,确定预测卷积核参数,其中,预测卷积核参数,是预测得到的初始逐点卷积(Pointwise)网络的网络参数。
其中,本公开实施例提出的Unet中的深度可分离卷积,可以包括:深度卷积网络和逐点卷积网络,该逐点卷积网络对应的网络参数即可以被称为初始卷积核参数。
一些实施例中,在根据目标融合特征,确定预测卷积核参数时,可以根据目标融合特征,来确定上一层目标深度卷积网络的输出通道数,而后,将该输出通道数作为预测卷积核参数(即,预测得到的初始逐点卷积(Pointwise)网络的网络参数),对此不做限制。
另一些实施例中,也可以将目标融合特征与标注特征进行比对,该标注特征可以是预先标定的,且预先可对该标注特征预先配置适合的Pointwise网络的网络参数,而后,将与目标融合特征匹配的标注特征所适配的Pointwise网络的网络参数,作为预测网络参数,其中,标注特征与Pointwise网络的网络参数相适配,可以是指基于该适配的网络参数配置Pointwise网络后,使得配置后的Pointwise网络能够有效地对标注特征进行学习建模,对此不做限制。
S307:将初始逐点卷积网络的初始卷积核参数调整为预测卷积核参数,以得到目标逐点卷积网络。
其中,在图像生成方法执行过程中,获取得到的未经处理的逐点卷积(Pointwise)网络,即可以被称为初始逐点卷积网络,该初始逐点卷积网络可以具有对应的网络参数,该网络参数即可以被称为初始卷积核参数,该初始卷积核参数可以具体例如为,逐点卷积(Pointwise)网络的卷积核数量。
本公开实施例在根据目标融合特征,确定预测卷积核参数后,可以将初始逐点卷积网络的初始卷积核参数调整为预测卷积核参数,并将调整后的逐点卷积网络作为目标逐点卷积网络。
举例而言,可以是采用参数调制(Weight Modulation)方式,将初始逐点卷积网络的初始卷积核参数调整为预测卷积核参数,或者,也可以采用其他任意可能的方式,执行将初始逐点卷积网络的初始卷积核参数调整为预测卷积核参数,以得到目标逐点卷积网络的步骤,对此不做限制。
S308:采用目标逐点卷积网络对多个深度特征图进行融合处理,以得到目标特征图。
本公开实施例在采用目标深度卷积网络对参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图后,可以采用目标逐点卷积网对多个深度特征图进行融合处理,以得到目标特征图,由于上述的目标深度卷积网络和目标逐点卷积网络的结合,能够共同辅助实现U形神经网络(Unet)的学习建模功能,并且,目标深度卷积网络和目标逐点卷积网络均是参考了参考图像中的目标融合特征调整处理得到的,从而在有效地实施U形神经网络(Unet)的学习建模功能的同时,使得U形神经网络(Unet)能够有效地对参考图像中的目标融合特征进行学习建模,以学习建模出质量更优的目标特征图,使得该目标特征图能够更为有效地、准确地表达建模参考图像中的目标融合特征。
举例而言,当采用目标逐点卷积网络对多个深度特征图进行融合处理,以得到目标特征图时,可以由目标逐点卷积网对多个深度特征图在多个通道(深度)上进行加权组合,即可以对预测卷积核参数和多个深度特征图进行相乘处理,以得到目标逐点卷积网络输出呈现标准分布的目标特征图,或者,也可以采用其他任意可能的方式,实现采用目标逐点卷积网络对多个深度特征图进行融合处理,以得到目标特征图的步骤,对此不做限制。
S309:从待处理图像中确定第二背景区域图像和第二对象的区域图像,第二背景区域图像具有初始掩码特征。
其中,参考图像可以包括:第一背景区域图像和第一对象的区域图像,第一背景区域图像可以是参考图像中用于描述背景区域的图像。
其中,第一背景区域图像可以具有相应的掩码特征,该掩码特征即可以被称为参考掩码特征。
其中,待处理图像中用于描述背景区域的图像,即可以被称为第二背景区域图像,相应地,待处理图像中用于描述第二对象区域的图像,即可以被称为第二对象的区域图像。
举例而言,当参考图像和待处理图像为人脸图像时,对象的区域图像可以具体例如为人脸的区域图像,而背景区域图像可以具体例如为头发的区域图像,对此不做限制。
其中,第二背景区域图像可以具有相应的掩码特征,该掩码特征即可以被称为初始掩码特征。
本公开实施例中,从待处理图像中确定第二背景区域图像和第二对象的区域图像,可以是采用图像处理装置对待处理图像进行分割处理,以得到第二背景区域图像和第二对象的区域图像,或者,也可以采用其他任意可能的方式,从待处理图像中确定第二背景区域图像和第二对象的区域图像,对此不做限制。
S310:根据参考掩码特征调整第二背景区域图像的初始掩码特征,以得到目标背景区域图像,其中,目标背景区域图像的掩码特征是调整后初始掩码特征,参考掩码特征和调整后初始掩码特征之间满足一致性条件。
本公开实施例中,可以根据第一背景区域图像的参考掩码特征,对第二背景区域图像的初始掩码特征进行调整,直至参考掩码特征和调整后初始掩码特征之间满足一致性条件,并将调整后的初始掩码特征对应的图像作为目标背景区域图像。
其中,一致性条件可以具体例如为,保持参考掩码特征和调整后初始掩码特征一致,或者,该一致性条件也可以根据实际图像生成场景中的业务需求自适应配置,对此不做限制。
S311:将目标特征图融合至第二对象的区域图像中,以得到待合成图像。
本公开实施例中,可以对目标特征图和待处理图像的第二对象的区域图像进行融合处理,并将前述融合处理所得到的图像作为待合成图像。
一些实施例中,可以结合预训练的卷积神经网络,将目标特征图注入至第二对象的区域图像,以实现对目标特征图和待处理图像的第二对象的区域图像进行融合处理,得到待合成图像,或者,也可以采用其他任意可能的方式实现将目标特征图融合至第二对象的区域图像中,以得到待合成图像,例如:图像融合算法的方式,基于调制的图像融合方法等,对此不做限制。
可选地,一些实施例中,将目标特征图融合至第二对象的区域图像中,以得到待合成图像,可以是将目标特征图融合至第二对象的区域图像中,以得到待融合图像,并将第一对象的区域图像输入至预训练的掩码预测模型之中,以得到掩码预测模型输出的第一对象的预测掩码特征,以及将预测掩码特征融合至待融合图像之中,以得到待合成图像,由于是结合预训练的掩码预测模型确定第一对象的区域图像的预测掩码特征,能够有效地提升预测掩码特征提取的灵活性和可操作性,还能够有效地提升预测掩码特征的准确性,使得预测掩码特征能够准确地对第一对象的区域图像的图像信息进行表征,从而使得生成的图像可以全面表征参考图像的身份信息,有效地提升图像生成效果。
本公开实施例在确定待处理图像的第二对象的区域图像后,可以对目标特征图和第二对象的区域图像进行融合处理,并将融合处理后得到的图像作为待融合图像。
其中,预先训练好的掩码预测模型即可以被称为预训练的掩码预测模型,该预训练的掩码预测模型可以具体是人工智能模型,具体例如为神经网络模型或者是机器学习模型,当然,也可以采用其他任意可能的能够执行掩码预测的人工智能模型,对此不做限制。
本公开实施例中,可以将参考图像的第一对象的区域图像作为预训练的掩码预测模型的输入参数,以得到预训练的掩码预测模型输出的掩码特征,该掩码特征即可以被称为第一对象的预测掩码特征。
本公开实施例在得到预训练的掩码预测模型输出的第一对象的预测掩码特征后,可以对预测掩码特征和待融合图像进行融合处理,以得到融合处理后的图像,并将其作为待合成图像。
S312:根据目标背景区域图像和待合成图像,合成得到目标图像。
本公开实施例中,在得到目标背景区域图像和待合成图像后,可以对目标背景区域图像和待合成图像进行合成处理(该合成处理的方式可以具体例如为:图像拼接,对此不做限制),并将合成处理后得到的图像作为目标图像。
本实施例中,由于是从所述待处理图像中确定第二背景区域图像和第二对象的区域图像,并根据所述参考掩码特征调整所述第二背景区域图像的初始掩码特征,以得到目标背景区域图像,再将所述目标特征图融合至所述第二对象的区域图像中,以得到待合成图像,以及根据所述目标背景区域图像和所述待合成图像,合成得到所述目标图像,由此可以有效地解决图像背景复杂,从而导致的背景迁移困难的技术问题,还能够有效地解决图像生成方法执行过程中出现的图像背景突变,图像对象闪动等图像抖动问题,从而能够有效地提升图像生成效果。
本公开实施例中,为了能够提高图像生成方法的稳定性,还可以引入基于蒸馏的图像生成的训练方案,如上述图2所示,通过已经训练好的图像生成模型的输出结果,对图像生成模型进行监督,从而能够进一步提升图像生成效果,在此过程中,由于教师模型在图像生成中也会产生一些失败案例,例如参考图像和待处理图像的身份相似度低或者生成图像的质量差等。当利用这些失败案例来蒸馏学生模型,会导致学生模型也生成这些失败案例。为了解决以上问题,本公开实施例可以设计一个教师输出结果质量评价模块。通过利用教师模型输出和参考图像的身份相似度及教师模型输出的目标图像质量来进行评价,再利用评价结果来动态调整蒸馏损失的权重,从而能够有效地提高学生模型的图像生成效果。
本实施例中,通过获取参考图像和待处理图像,并从参考图像之中提取出目标融合特征,再根据目标融合特征,确定与参考图像对应的多个深度特征图,并根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,以及根据目标特征图处理待处理图像,以生成目标图像,能够有效地降低图像融合的计算量,有效适用于算力较低的电子设备,在有效地节约计算资源的同时,有效地提升图像生成效果。由于目标深度卷积网络能够执行在每个深度上分别卷积,得到多个特征图的模型运算任务,从而可以采用目标深度卷积网络对参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,多个候选深度是基于目标融合特征确定的,由目标融合特征,可以是从参考图像之中提取得到身份信息特征,其中,身份信息可以具体例如为参考图像中人物的着装信息、发型信息、体型信息,或者其他任意能够表征参考图像中人物身份的信息等,从而当基于目标融合特征确定得到多个候选深度时,使得生成的多个深度特征图能够携带更多的目标融合特征,实现基于深度维度来表征目标融合特征,能够有效地提升目标融合特征的表征效果,保障后续目标图像的生成质量。由于上述的目标深度卷积网络和目标逐点卷积网络的结合,能够共同辅助实现U形神经网络(Unet)的学习建模功能,并且,目标深度卷积网络和目标逐点卷积网络均是参考了参考图像中的目标融合特征调整处理得到的,从而在有效地实施U形神经网络(Unet)的学习建模功能的同时,使得U形神经网络(Unet)能够有效地对参考图像中的目标融合特征进行学习建模,以学习建模出质量更优的目标特征图,使得该目标特征图能够更为有效地、准确地表达建模参考图像中的目标融合特征。由于是从所述待处理图像中确定第二背景区域图像和第二对象的区域图像,并根据所述参考掩码特征调整所述第二背景区域图像的初始掩码特征,以得到目标背景区域图像,再将所述目标特征图融合至所述第二对象的区域图像中,以得到待合成图像,以及根据所述目标背景区域图像和所述待合成图像,合成得到所述目标图像,由此可以有效地解决图像背景复杂,从而导致的背景迁移困难的技术问题,还能够有效地解决图像生成方法执行过程中出现的图像背景突变,图像对象闪动等图像抖动问题,从而能够有效地提升图像生成效果。
图4是根据本公开第三实施例的示意图。
如图4所示,该图像生成装置40,包括:
获取模块401,用于获取参考图像和待处理图像;
提取模块402,用于从参考图像之中提取出目标融合特征;
确定模块403,用于根据目标融合特征,确定与参考图像对应的多个深度特征图;
第一处理模块404,用于根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图;以及
第二处理模块405,用于根据目标特征图处理待处理图像,以生成目标图像。
在本公开的一些实施例中,如图5所示,图5是根据本公开第四实施例的示意图,该图像生成装置50,包括:获取模块501、提取模块502、确定模块503、第一处理模块504、第二处理模块505,其中,提取模块502,具体用于:
从参考图像之中提取出待融合特征;
对待融合特征进行编码处理,以得到目标融合特征。
在本公开的一些实施例中,其中,确定模块503,具体用于:
根据目标融合特征,确定预测卷积参数,其中,预测卷积参数,是预测得到的初始深度卷积网络的网络参数;
将初始深度卷积网络的初始卷积参数调整为预测卷积参数,以得到目标深度卷积网络;以及
采用目标深度卷积网络对参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,多个候选深度是基于目标融合特征确定的。
在本公开的一些实施例中,其中,第一处理模块504,具体用于:
根据目标融合特征,确定预测卷积核参数,其中,预测卷积核参数,是预测得到的初始逐点卷积网络的网络参数;
将初始逐点卷积网络的初始卷积核参数调整为预测卷积核参数,以得到目标逐点卷积网络;以及
采用目标逐点卷积网对多个深度特征图进行融合处理,以得到目标特征图。
在本公开的一些实施例中,参考图像包括:第一背景区域图像和第一对象的区域图像,目标融合特征,用于描述第一对象的图像特征,第一背景区域图像具有参考掩码特征;
其中,第二处理模块505,包括:
确定子模块5051,用于从待处理图像中确定第二背景区域图像和第二对象的区域图像,第二背景区域图像具有初始掩码特征;
调整子模块5052,用于根据参考掩码特征调整第二背景区域图像的初始掩码特征,以得到目标背景区域图像,其中,目标背景区域图像的掩码特征是调整后初始掩码特征,参考掩码特征和调整后初始掩码特征之间满足一致性条件;
融合子模块5053,用于将目标特征图融合至第二对象的区域图像中,以得到待合成图像;以及
合成子模块5054,用于根据目标背景区域图像和待合成图像,合成得到目标图像。
在本公开的一些实施例中,其中,融合子模块5053,具体用于:
将目标特征图融合至第二对象的区域图像中,以得到待融合图像;
将第一对象的区域图像输入至预训练的掩码预测模型之中,以得到掩码预测模型输出的第一对象的预测掩码特征;以及
将预测掩码特征融合至待融合图像之中,以得到待合成图像。
在本公开的一些实施例中,其中,获取模块501,具体用于:
获取源图像和初始图像,其中,源图像包括:第一对象的源区域图像,初始图像包括:第二对象的初始区域图像;
基于第一数量的关键点将源图像中源区域图像与标准对象图像进行多点对齐处理,以得到参考图像;以及
基于第二数量的关键点将初始图像中初始区域图像和标准对象图像进行对齐处理,以得到待处理图像,其中,第一数量大于第二数量。
可以理解的是,本实施例附图5中的图像生成装置50与上述实施例中的图像生成装置40,获取模块501与上述实施例中的获取模块401,提取模块502与上述实施例中的提取模块402,确定模块503与上述实施例中的确定模块403,第一处理模块504与上述实施例中的第一处理模块404,第二处理模块505与上述实施例中的第二处理模块405,可以具有相同的功能和结构。
需要说明的是,前述对图像生成方法的解释说明也适用于本实施例图像生成装置。
本实施例中,通过获取参考图像和待处理图像,并从参考图像之中提取出目标融合特征,再根据目标融合特征,确定与参考图像对应的多个深度特征图,并根据目标融合特征,对多个深度特征图进行融合处理得到目标特征图,以及根据目标特征图处理待处理图像,以生成目标图像,能够有效地降低图像融合的计算量,有效适用于算力较低的电子设备,在有效地节约计算资源的同时,有效地提升图像生成效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了用来实施本公开实施例的图像生成方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其他适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其他类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如图像生成方法。例如,在一些实施例中,图像生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的图像生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其他种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (14)
1.一种图像生成方法,包括:
获取参考图像和待处理图像;
从所述参考图像之中提取出目标融合特征;
根据所述目标融合特征,确定预测卷积参数,其中,所述预测卷积参数包括,根据所述目标融合特征的特征维度数量确定的初始深度卷积网络的输入参数的数量,以及根据所述目标融合特征所表征参考图像携带的深度值确定的所述初始深度卷积网络的过滤层的层数;
将所述初始深度卷积网络的初始卷积参数调整为所述预测卷积参数,以得到目标深度卷积网络;
采用所述目标深度卷积网络对所述参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,所述多个候选深度是基于所述目标融合特征确定的;
根据所述目标融合特征,对所述多个深度特征图进行融合处理得到目标特征图;以及
根据所述目标特征图处理所述待处理图像,以生成目标图像。
2.根据权利要求1所述的方法,其中,所述从所述参考图像之中提取出目标融合特征,包括:
从所述参考图像之中提取出待融合特征;
对所述待融合特征进行编码处理,以得到所述目标融合特征。
3.根据权利要求1所述的方法,其中,所述根据所述目标融合特征,对所述多个深度特征图进行融合处理得到目标特征图,包括:
根据所述目标融合特征,确定预测卷积核参数,其中,所述预测卷积核参数,是预测得到的初始逐点卷积网络的网络参数;
将所述初始逐点卷积网络的初始卷积核参数调整为所述预测卷积核参数,以得到目标逐点卷积网络;以及
采用所述目标逐点卷积网络对所述多个深度特征图进行融合处理,以得到所述目标特征图。
4.根据权利要求1所述的方法,所述参考图像包括:第一背景区域图像和第一对象的区域图像,所述目标融合特征,用于描述所述第一对象的图像特征,所述第一背景区域图像具有参考掩码特征;
其中,所述根据所述目标特征图处理所述待处理图像,以生成目标图像,包括:
从所述待处理图像中确定第二背景区域图像和第二对象的区域图像,所述第二背景区域图像具有初始掩码特征;
根据所述参考掩码特征调整所述第二背景区域图像的初始掩码特征,以得到目标背景区域图像,其中,所述目标背景区域图像的掩码特征是调整后所述初始掩码特征,所述参考掩码特征和调整后所述初始掩码特征之间满足一致性条件;
将所述目标特征图融合至所述第二对象的区域图像中,以得到待合成图像;以及
根据所述目标背景区域图像和所述待合成图像,合成得到所述目标图像。
5.根据权利要求4所述的方法,其中,所述将所述目标特征图融合至所述第二对象的区域图像中,以得到待合成图像,包括:
将所述目标特征图融合至所述第二对象的区域图像中,以得到待融合图像;
将所述第一对象的区域图像输入至预训练的掩码预测模型之中,以得到所述掩码预测模型输出的所述第一对象的预测掩码特征;以及
将所述预测掩码特征融合至所述待融合图像之中,以得到所述待合成图像。
6.根据权利要求1所述的方法,其中,所述获取参考图像和待处理图像,包括:
获取源图像和初始图像,其中,所述源图像包括:第一对象的源区域图像,所述初始图像包括:第二对象的初始区域图像;
基于第一数量的关键点将所述源图像中所述源区域图像与标准对象图像进行多点对齐处理,以得到所述参考图像;以及
基于第二数量的关键点将所述初始图像中所述初始区域图像和所述标准对象图像进行对齐处理,以得到所述待处理图像,其中,所述第一数量大于所述第二数量。
7.一种图像生成装置,包括:
获取模块,用于获取参考图像和待处理图像;
提取模块,用于从所述参考图像之中提取出目标融合特征;
确定模块,用于根据所述目标融合特征,确定与所述参考图像对应的多个深度特征图;
第一处理模块,用于根据所述目标融合特征,对所述多个深度特征图进行融合处理得到目标特征图;以及
第二处理模块,用于根据所述目标特征图处理所述待处理图像,以生成目标图像;
所述确定模块,具体用于:
根据所述目标融合特征,确定预测卷积参数,其中,所述预测卷积参数包括,根据所述目标融合特征的特征维度数量确定的初始深度卷积网络的输入参数的数量,以及根据所述目标融合特征所表征参考图像携带的深度值确定的所述初始深度卷积网络的过滤层的层数;
将所述初始深度卷积网络的初始卷积参数调整为所述预测卷积参数,以得到目标深度卷积网络;以及
采用所述目标深度卷积网络对所述参考图像进行特征图提取,以得到与多个候选深度分别对应的多个深度特征图,其中,所述多个候选深度是基于所述目标融合特征确定的。
8.根据权利要求7所述的装置,其中,所述提取模块,具体用于:
从所述参考图像之中提取出待融合特征;
对所述待融合特征进行编码处理,以得到所述目标融合特征。
9.根据权利要求7所述的装置,其中,所述第一处理模块,具体用于:
根据所述目标融合特征,确定预测卷积核参数,其中,所述预测卷积核参数,是预测得到的初始逐点卷积网络的网络参数;
将所述初始逐点卷积网络的初始卷积核参数调整为所述预测卷积核参数,以得到目标逐点卷积网络;以及
采用所述目标逐点卷积网络对所述多个深度特征图进行融合处理,以得到所述目标特征图。
10.根据权利要求7所述的装置,所述参考图像包括:第一背景区域图像和第一对象的区域图像,所述目标融合特征,用于描述所述第一对象的图像特征,所述第一背景区域图像具有参考掩码特征;
其中,所述第二处理模块,包括:
确定子模块,用于从所述待处理图像中确定第二背景区域图像和第二对象的区域图像,所述第二背景区域图像具有初始掩码特征;
调整子模块,用于根据所述参考掩码特征调整所述第二背景区域图像的初始掩码特征,以得到目标背景区域图像,其中,所述目标背景区域图像的掩码特征是调整后所述初始掩码特征,所述参考掩码特征和调整后所述初始掩码特征之间满足一致性条件;
融合子模块,用于将所述目标特征图融合至所述第二对象的区域图像中,以得到待合成图像;以及
合成子模块,用于根据所述目标背景区域图像和所述待合成图像,合成得到所述目标图像。
11.根据权利要求10所述的装置,其中,所述融合子模块,具体用于:
将所述目标特征图融合至所述第二对象的区域图像中,以得到待融合图像;
将所述第一对象的区域图像输入至预训练的掩码预测模型之中,以得到所述掩码预测模型输出的所述第一对象的预测掩码特征;以及
将所述预测掩码特征融合至所述待融合图像之中,以得到所述待合成图像。
12.根据权利要求7所述的装置,其中,所述获取模块,具体用于:
获取源图像和初始图像,其中,所述源图像包括:所述第一对象的源区域图像,所述初始图像包括:所述第二对象的初始区域图像;
基于第一数量的关键点将所述源图像中所述源区域图像与标准对象图像进行多点对齐处理,以得到所述参考图像;以及
基于第二数量的关键点将所述初始图像中所述初始区域图像和所述标准对象图像进行对齐处理,以得到所述待处理图像,其中,所述第一数量大于所述第二数量。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111320636.0A CN114187624B (zh) | 2021-11-09 | 2021-11-09 | 图像生成方法、装置、电子设备及存储介质 |
JP2022145137A JP7390454B2 (ja) | 2021-11-09 | 2022-09-13 | 画像生成方法、装置、電子機器及び記憶媒体 |
US17/982,832 US20230143452A1 (en) | 2021-11-09 | 2022-11-08 | Method and apparatus for generating image, electronic device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111320636.0A CN114187624B (zh) | 2021-11-09 | 2021-11-09 | 图像生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114187624A CN114187624A (zh) | 2022-03-15 |
CN114187624B true CN114187624B (zh) | 2023-09-22 |
Family
ID=80540835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111320636.0A Active CN114187624B (zh) | 2021-11-09 | 2021-11-09 | 图像生成方法、装置、电子设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230143452A1 (zh) |
JP (1) | JP7390454B2 (zh) |
CN (1) | CN114187624B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359132B (zh) * | 2022-10-21 | 2023-03-24 | 小米汽车科技有限公司 | 用于车辆的相机标定方法、装置、电子设备及存储介质 |
CN115578264B (zh) * | 2022-11-25 | 2023-03-07 | 武汉图科智能科技有限公司 | 一种快速的高质量图像拼接方法、装置和系统 |
CN115640835B (zh) * | 2022-12-22 | 2023-03-31 | 阿里巴巴(中国)有限公司 | 深度学习网络结构的生成方法及装置 |
CN116597039B (zh) * | 2023-05-22 | 2023-12-26 | 阿里巴巴(中国)有限公司 | 图像生成的方法和服务器 |
CN118450268A (zh) * | 2023-10-12 | 2024-08-06 | 荣耀终端有限公司 | 拍摄方法、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666976A (zh) * | 2020-05-08 | 2020-09-15 | 深圳力维智联技术有限公司 | 基于属性信息的特征融合方法、装置和存储介质 |
CN111783603A (zh) * | 2020-06-24 | 2020-10-16 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113221847A (zh) * | 2021-06-07 | 2021-08-06 | 广州虎牙科技有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113393371A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572720B2 (en) * | 2017-03-01 | 2020-02-25 | Sony Corporation | Virtual reality-based apparatus and method to generate a three dimensional (3D) human face model using image and depth data |
JP7353032B2 (ja) * | 2018-11-15 | 2023-09-29 | 株式会社Preferred Networks | データ生成装置、データ生成方法及びプログラム |
CN109919888B (zh) * | 2019-02-26 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种图像融合的方法、模型训练的方法以及相关装置 |
CN111861955A (zh) * | 2020-06-22 | 2020-10-30 | 北京百度网讯科技有限公司 | 构建图像编辑模型的方法以及装置 |
-
2021
- 2021-11-09 CN CN202111320636.0A patent/CN114187624B/zh active Active
-
2022
- 2022-09-13 JP JP2022145137A patent/JP7390454B2/ja active Active
- 2022-11-08 US US17/982,832 patent/US20230143452A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666976A (zh) * | 2020-05-08 | 2020-09-15 | 深圳力维智联技术有限公司 | 基于属性信息的特征融合方法、装置和存储介质 |
CN111783603A (zh) * | 2020-06-24 | 2020-10-16 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113221847A (zh) * | 2021-06-07 | 2021-08-06 | 广州虎牙科技有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113393371A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
FSGAN:Subject Agnostic Face Swapping and Reenactment;Y.Nirkin;《ICCV2019》;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114187624A (zh) | 2022-03-15 |
US20230143452A1 (en) | 2023-05-11 |
JP7390454B2 (ja) | 2023-12-01 |
JP2022172377A (ja) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114187624B (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN113177472B (zh) | 动态手势识别方法、装置、设备以及存储介质 | |
CN113361363B (zh) | 人脸图像识别模型的训练方法、装置、设备及存储介质 | |
US20190043205A1 (en) | Method and system for object tracking | |
CN113177451B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN113379877B (zh) | 人脸视频生成方法、装置、电子设备及存储介质 | |
CN116363261B (zh) | 图像编辑模型的训练方法、图像编辑方法和装置 | |
CN113538235B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN113705361A (zh) | 活体检测模型的方法、装置及电子设备 | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
US20230139994A1 (en) | Method for recognizing dynamic gesture, device, and storage medium | |
US20230115765A1 (en) | Method and apparatus of transferring image, and method and apparatus of training image transfer model | |
CN113177892A (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
CN113920023B (zh) | 图像处理方法及装置、计算机可读介质和电子设备 | |
CN116611491A (zh) | 目标检测模型的训练方法、装置、电子设备和存储介质 | |
CN114049290A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113177466A (zh) | 基于人脸图像的身份识别方法、装置、电子设备及介质 | |
CN113902789A (zh) | 图像特征处理、深度图像生成方法及装置、介质和设备 | |
CN115565186B (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN114863450B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116052288A (zh) | 活体检测模型训练方法、活体检测方法、装置和电子设备 | |
CN113781653B (zh) | 对象模型生成方法、装置、电子设备及存储介质 | |
CN113554550B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN112785524B (zh) | 一种人物图像的修复方法、装置及电子设备 | |
US20230122373A1 (en) | Method for training depth estimation model, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |