CN116363263A - 图像编辑方法、系统、电子设备、存储介质 - Google Patents

图像编辑方法、系统、电子设备、存储介质 Download PDF

Info

Publication number
CN116363263A
CN116363263A CN202310640287.3A CN202310640287A CN116363263A CN 116363263 A CN116363263 A CN 116363263A CN 202310640287 A CN202310640287 A CN 202310640287A CN 116363263 A CN116363263 A CN 116363263A
Authority
CN
China
Prior art keywords
image
edited
inversion
network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310640287.3A
Other languages
English (en)
Other versions
CN116363263B (zh
Inventor
张连海
曹朴
杨录
赵秋雨
王圣玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenmang Technology Co ltd
Original Assignee
Beijing Shenmang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenmang Technology Co ltd filed Critical Beijing Shenmang Technology Co ltd
Priority to CN202310640287.3A priority Critical patent/CN116363263B/zh
Publication of CN116363263A publication Critical patent/CN116363263A/zh
Application granted granted Critical
Publication of CN116363263B publication Critical patent/CN116363263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像编辑方法、系统、电子设备、存储介质,所述方法包括:获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。本发明提供了一种通过生成式对抗网络、反演网络配合编辑向量对图像进行编辑的方法,具有更好的鲁棒性。

Description

图像编辑方法、系统、电子设备、存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像编辑方法、系统、电子设备、存储介质。
背景技术
人脸图像包含各种信息,归类为各种属性,如年龄、表情、性别等。编辑人脸真实图像,即在保留人脸身份信息的基础上,对指定的属性进行改变,并且将改变后的信息反映在人脸图像上。要达到较好的人脸编辑效果,需要满足:1、保留足够的图像信息;2、精确编辑,不改动编辑属性外的其他图像信息。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
针对现有技术存在的问题,本发明提供一种图像编辑方法、系统、电子设备、存储介质,提升反演图像的真实性和可编辑性,从而提升真实人脸图像的编辑效果和属性解耦程度。
本发明提供的一种图像编辑方法,所述方法包括:
获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
根据本发明提供的一种图像编辑方法,对所述待编辑图像进行预处理,包括:
检测所述待编辑图像是否包括人脸,如果检测到所述待编辑图像包括人脸,则继续执行如下的步骤,如果检测到所述待编辑图像不包括人脸,则终止对所述待编辑图像的编辑;
对所述待编辑图像进行人脸关键点检测,获取多个关键点;
基于所述多个关键点,将所述待编辑图像输入人脸对齐模型,所述人脸对齐模型输出所述预处理后的待编辑图像。
根据本发明提供的一种图像编辑方法,所述反演网络包括残差网络和特征金字塔网络。
根据本发明提供的一种图像编辑方法,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、以及所述预处理后的待编辑图像和所述编辑后图像的视觉距离构建的损失函数进行训练;
其中,所述视觉距离包括第一特征和第二特征之间的欧式距离,所述第一特征是将所述预处理后的待编辑图像输入VGG模型提取得到的,所述第二特征是将所述编辑后图像输入所述VGG模型提取得到的。
根据本发明提供的一种图像编辑方法,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、所述预处理后的待编辑图像和所述编辑后图像的视觉距离以及所述预处理后的待编辑图像和所述编辑后图像的人脸相似距离构建的损失函数进行训练;
其中,所述人脸相似距离包括第三特征和第四特征之间的欧式距离,所述第三特征是将所述预处理后的待编辑图像输入人脸识别模型提取得到的,所述第四特征是将所述编辑后图像输入所述人脸识别模型提取得到的。
根据本发明提供的一种图像编辑方法,所述原始反演编码和所述生成式对抗网络具有相同数量的多个特征空间维度,所述反演网络在训练时的损失函数还包括所有所述维度上的所有特征距离之和,所述特征距离根据所述原始反演编码与所述生成式对抗网络的所述特征空间维度的仿射特征均值确定。
根据本发明提供的一种图像编辑方法,所述特征距离的获取包括:
基于所述生成式对抗网络,在标准多元正态分布中多次采样,将每次采样的所述生成式对抗网络每个所述特征空间维度对应的特征空间的向量输入所述生成器的仿射模块,所述仿射模块输出对应的仿射特征;
基于所述多次采样获取的多个所述仿射特征,计算得到所述仿射特征均值;
将所述仿射特征均值和所述原始反演编码的不相似度作为所述特征距离。
本发明还提供的一种图像编辑系统,所述系统包括:
预处理模块,用于获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
反演模块,用于将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
编辑模块,用于将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
生成模块,用于将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
本发明还提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述图像编辑方法的步骤。
本发明还提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述图像编辑方法的步骤。
本发明提供的图像编辑方法、系统、电子设备、存储介质,提供了一种通过生成式对抗网络、反演网络配合编辑向量对图像进行编辑的方法,具有更好的鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种图像编辑方法的流程示意图;
图2为本发明提供的一种对待编辑图像进行预处理的流程示意图;
图3为本发明提供的一种反演网络的具体构成示意图;
图4为本发明提供的一种编辑向量和原始反演编码结合的流程示意图;
图5为本发明提供的一种反演网络训练的流程示意图;
图6为本发明还提供的一种图像编辑系统的结构示意图;
图7为本发明提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像编辑方法进行详细地说明。
图1为本发明提供的一种图像编辑方法的流程示意图,如图1所示,本发明提供的一种图像编辑方法,方法包括如下步骤。
S100、获取待编辑图像和编辑向量,对待编辑图像进行预处理。
优选地,待编辑图像包括人脸,对应的,编辑向量包括针对人脸的各种属性的编辑,属性对于人脸而言,包括性别、年龄、皱纹等具体属性。
优选地,预处理包括对待编辑图像依次进行人脸检测、人脸关键点检测、人脸对齐、图像裁剪等操作。
可选地,图2为本发明提供的一种对待编辑图像进行预处理的流程示意图,如图2所示,对待编辑图像进行预处理,包括:
检测待编辑图像是否包括人脸,如果检测到待编辑图像包括人脸,则继续执行如下的步骤,如果检测到待编辑图像不包括人脸,则终止对待编辑图像的编辑;
对待编辑图像进行人脸关键点检测,获取多个关键点;
基于多个关键点,将待编辑图像输入人脸对齐模型,人脸对齐模型输出预处理后的待编辑图像。
优选地,对待编辑图像进行人脸关键点检测,获取多个关键点,包括:得到六十八个关键点。
优选地,基于多个关键点,将待编辑图像输入人脸对齐模型,人脸对齐模型输出预处理后的待编辑图像,包括:
按照上述关键点位置对齐人脸,其中包含旋转、缩放、填充等操作,并且图像裁剪成预先设定的大小(如256像素*256像素),输出对齐后的图像。
S200、将预处理后的待编辑图像输入反演网络,反演网络输出对应的原始反演编码。
可选地,图3为本发明提供的一种反演网络的具体构成示意图,如图3所示,反演网络包括残差网络(Residual Network,ResNet)和特征金字塔网络(Feature PyramidNetworks,FPN)。
S300、将编辑向量和原始反演编码结合,形成编辑后反演编码。
需要说明的是,通过获取不同属性的编辑向量,对待编辑图像编码得到的原始反演编码进行编辑。
进一步地,图4为本发明提供的一种编辑向量和原始反演编码结合的流程示意图,如图4所示,将编辑向量记为e,将原始反演编码记为w与编辑向量e结合,得到编辑后反演编码
Figure SMS_1
,参考如下的公式:
Figure SMS_2
其中,
Figure SMS_3
是用于控制编辑方向和编辑强度的参数,/>
Figure SMS_4
为正时,表示对该属性进行正向编辑;为负时,表示反向编辑。
S400、将编辑后反演编码输入生成式对抗网络(Generative AdversarialNetworks,GAN)的生成器(Generative Model),生成器输出编辑后图像。
需要说明的是,生成器输出编辑后图像,即是对编辑后反演编码的解码过程,实现待编辑图像编辑后的重建。
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,可以理解,反演网络在训练时的损失函数的参数包括:预处理后的待编辑图像和编辑后图像的图像距离。
需要说明的是,反演网络在训练时,生成器已经训练完成。
优选地,图像距离包括欧式距离,将对应的损失函数记为
Figure SMS_5
可选地,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、以及预处理后的待编辑图像和编辑后图像的视觉距离构建的损失函数进行训练;
其中,视觉距离包括第一特征和第二特征之间的欧式距离,第一特征是将预处理后的待编辑图像输入VGG模型提取得到的,第二特征是将编辑后图像输入VGG模型提取得到的。
进一步地,将视觉距离对应的损失函数记为
Figure SMS_6
优选地,VGG模型是预训练好的。
可选地,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、所述预处理后的待编辑图像和所述编辑后图像的视觉距离以及预处理后的待编辑图像和编辑后图像的人脸相似距离构建的损失函数进行训练;
其中,人脸相似距离包括第三特征和第四特征之间的欧式距离,第三特征是将预处理后的待编辑图像输入人脸识别模型提取得到的,第四特征是将编辑后图像输入人脸识别模型提取得到的。
进一步地,将人脸相似距离对应的损失函数记为
Figure SMS_7
优选地,人脸识别模型是预训练好的,用于计算人脸的身份特征。
可选地,原始反演编码和生成式对抗网络具有相同数量的多个特征空间维度,反演网络在训练时的损失函数还包括所有维度上的所有特征距离之和,所述特征距离根据所述原始反演编码与所述生成式对抗网络的所述特征空间维度的仿射特征均值确定。
需要说明的是,考虑待编辑图像与生成式对抗网络特征空间的对齐性质,通过约束反演网络输出对齐的原始反演编码,能够更加鲁棒地对图像进行编辑。
可选地,特征距离的获取包括:
基于所述生成式对抗网络,在标准多元正态分布中多次采样,将每次采样的所述生成式对抗网络每个所述特征空间维度对应的特征空间的向量输入生成器的仿射模块,仿射模块输出对应的仿射特征;
基于多次采样获取的多个仿射特征,计算得到所述仿射特征均值;
将仿射特征均值和原始反演编码的不相似度作为特征距离。
进一步地,对上述特征距离的获取做数学转换表达,设在标准多元正态分布中K次采样,特征空间维度为18(即对应18种不同分辨率),仿射特征
Figure SMS_8
,其中/>
Figure SMS_9
表示特征空间维度。
对于任一维度
Figure SMS_10
,仿射特征均值/>
Figure SMS_11
为:
Figure SMS_12
进一步地,所有特征距离之和对应的损失函数,记为
Figure SMS_13
,具体计算如下:
Figure SMS_14
其中,
Figure SMS_15
为维度/>
Figure SMS_16
相对应的原始反演编码,/>
Figure SMS_17
用来表示/>
Figure SMS_18
和/>
Figure SMS_19
之间的不相似度。
进一步地,不相似度包括
Figure SMS_20
和/>
Figure SMS_21
二者的余弦相似度的负值。
优选地,图5为本发明提供的一种反演网络训练的流程示意图,如图5所示,反演网络的总体损失函数包括上述多种损失函数,具体为:
Figure SMS_22
其中,
Figure SMS_23
为控制损失比例的超参数,优选地,分别为0.8,0.1,0.5。
优选地,训练时,计算反演网络参数梯度,采用AdamW算法更新网络参数。
本实施例提供了一种通过生成式对抗网络、反演网络配合编辑向量对图像进行编辑的方法,具有更好的鲁棒性。
下面对本发明提供的图像编辑系统进行描述,下文描述的图像编辑系统与上文描述的图像编辑方法可相互对应参照。
图6为本发明还提供的一种图像编辑系统的结构示意图,如图6所示,本发明还提供的一种图像编辑系统,系统包括:
预处理模块,用于获取待编辑图像和编辑向量,对待编辑图像进行预处理;
反演模块,用于将预处理后的待编辑图像输入反演网络,反演网络输出对应的原始反演编码;
编辑模块,用于将编辑向量和原始反演编码结合,形成编辑后反演编码;
生成模块,用于将编辑后反演编码输入生成式对抗网络的生成器,生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
本实施例提供了一种通过生成式对抗网络、反演网络配合编辑向量对图像进行编辑的方法,具有更好的鲁棒性。
图7为本发明提供的一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行图像编辑方法,所述方法包括:
获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像编辑方法,所述方法包括:
获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像编辑方法,所述方法包括:
获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种图像编辑方法,其特征在于,所述方法包括:
获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
2.根据权利要求1所述的图像编辑方法,其特征在于,对所述待编辑图像进行预处理,包括:
检测所述待编辑图像是否包括人脸,如果检测到所述待编辑图像包括人脸,则继续执行如下的步骤,如果检测到所述待编辑图像不包括人脸,则终止对所述待编辑图像的编辑;
对所述待编辑图像进行人脸关键点检测,获取多个关键点;
基于所述多个关键点,将所述待编辑图像输入人脸对齐模型,所述人脸对齐模型输出所述预处理后的待编辑图像。
3.根据权利要求1所述的图像编辑方法,其特征在于,所述反演网络包括残差网络和特征金字塔网络。
4.根据权利要求2所述的图像编辑方法,其特征在于,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、以及所述预处理后的待编辑图像和所述编辑后图像的视觉距离构建的损失函数进行训练;
其中,所述视觉距离包括第一特征和第二特征之间的欧式距离,所述第一特征是将所述预处理后的待编辑图像输入VGG模型提取得到的,所述第二特征是将所述编辑后图像输入所述VGG模型提取得到的。
5.根据权利要求4所述的图像编辑方法,其特征在于,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练,包括:
所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离、所述预处理后的待编辑图像和所述编辑后图像的视觉距离以及所述预处理后的待编辑图像和所述编辑后图像的人脸相似距离构建的损失函数进行训练;
其中,所述人脸相似距离包括第三特征和第四特征之间的欧式距离,所述第三特征是将所述预处理后的待编辑图像输入人脸识别模型提取得到的,所述第四特征是将所述编辑后图像输入所述人脸识别模型提取得到的。
6.根据权利要求2所述的图像编辑方法,其特征在于,所述原始反演编码和所述生成式对抗网络具有相同数量的多个特征空间维度,所述反演网络在训练时的损失函数还包括所有所述维度上的所有特征距离之和,所述特征距离根据所述原始反演编码与所述生成式对抗网络的所述特征空间维度的仿射特征均值确定。
7.根据权利要求6所述的图像编辑方法,其特征在于,所述特征距离的获取包括:
基于所述生成式对抗网络,在标准多元正态分布中多次采样,将每次采样的所述生成式对抗网络每个所述特征空间维度对应的特征空间的向量输入所述生成器的仿射模块,所述仿射模块输出对应的仿射特征;
基于所述多次采样获取的多个所述仿射特征,计算得到所述仿射特征均值;
将所述仿射特征均值和所述原始反演编码的不相似度作为所述特征距离。
8.一种图像编辑系统,其特征在于,所述系统包括:
预处理模块,用于获取待编辑图像和编辑向量,对所述待编辑图像进行预处理;
反演模块,用于将预处理后的待编辑图像输入反演网络,所述反演网络输出对应的原始反演编码;
编辑模块,用于将所述编辑向量和所述原始反演编码结合,形成编辑后反演编码;
生成模块,用于将所述编辑后反演编码输入生成式对抗网络的生成器,所述生成器输出编辑后图像;
其中,所述反演网络根据基于所述待编辑图像和所述编辑后图像的图像距离构建的损失函数进行训练。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述图像编辑方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述图像编辑方法的步骤。
CN202310640287.3A 2023-06-01 2023-06-01 图像编辑方法、系统、电子设备、存储介质 Active CN116363263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310640287.3A CN116363263B (zh) 2023-06-01 2023-06-01 图像编辑方法、系统、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310640287.3A CN116363263B (zh) 2023-06-01 2023-06-01 图像编辑方法、系统、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN116363263A true CN116363263A (zh) 2023-06-30
CN116363263B CN116363263B (zh) 2023-10-27

Family

ID=86913396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310640287.3A Active CN116363263B (zh) 2023-06-01 2023-06-01 图像编辑方法、系统、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116363263B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123083A (zh) * 2017-05-02 2017-09-01 中国科学技术大学 人脸编辑方法
CN115546537A (zh) * 2022-09-23 2022-12-30 华南理工大学 基于生成对抗模型的图像多属性联合编辑方法
CN115761048A (zh) * 2022-11-08 2023-03-07 北京中科睿鉴科技有限公司 基于视频时序的人脸年龄编辑方法
WO2023072067A1 (zh) * 2021-10-25 2023-05-04 百果园技术(新加坡)有限公司 人脸属性编辑模型的训练以及人脸属性编辑方法
CN116152391A (zh) * 2022-10-25 2023-05-23 上海人工智能创新中心 用于高分辨率人脸图像的多样化编辑方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123083A (zh) * 2017-05-02 2017-09-01 中国科学技术大学 人脸编辑方法
WO2023072067A1 (zh) * 2021-10-25 2023-05-04 百果园技术(新加坡)有限公司 人脸属性编辑模型的训练以及人脸属性编辑方法
CN115546537A (zh) * 2022-09-23 2022-12-30 华南理工大学 基于生成对抗模型的图像多属性联合编辑方法
CN116152391A (zh) * 2022-10-25 2023-05-23 上海人工智能创新中心 用于高分辨率人脸图像的多样化编辑方法及系统
CN115761048A (zh) * 2022-11-08 2023-03-07 北京中科睿鉴科技有限公司 基于视频时序的人脸年龄编辑方法

Also Published As

Publication number Publication date
CN116363263B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN108520503B (zh) 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
US11276231B2 (en) Semantic deep face models
CN108319932B (zh) 一种基于生成式对抗网络的多图像人脸对齐的方法及装置
Kim et al. Unsupervised real-world super resolution with cycle generative adversarial network and domain discriminator
CN115222630B (zh) 图像生成方法、图像去噪模型的训练方法和设备
CN110287956B (zh) 血管中心线自动匹配方法及装置
CN115018954B (zh) 图像生成方法、装置、电子设备和介质
CN111881926A (zh) 图像生成、图像生成模型的训练方法、装置、设备及介质
CN111696196B (zh) 一种三维人脸模型重建方法及装置
CN109413510B (zh) 视频摘要生成方法和装置、电子设备、计算机存储介质
US20220414838A1 (en) Image dehazing method and system based on cyclegan
CN110674824A (zh) 基于R2U-Net的手指静脉分割方法、装置和存储介质
CN112508782A (zh) 网络模型的训练方法、人脸图像超分辨率重建方法及设备
CN113052096B (zh) 一种视频检测方法、装置、设备及存储介质
CN113554742A (zh) 一种三维图像的重建方法、装置、设备及存储介质
CN111080531A (zh) 一种水下鱼类图像的超分辨率重建方法、系统及装置
CN114638767A (zh) 基于生成对抗网络的腹腔镜影像除烟方法
CN117496099A (zh) 三维图像编辑方法、系统、电子设备及存储介质
CN114782291A (zh) 图像生成器的训练方法、装置、电子设备和可读存储介质
Ko et al. Multi-laplacian GAN with edge enhancement for face super resolution
Liu et al. Facial image inpainting using multi-level generative network
US20220101122A1 (en) Energy-based variational autoencoders
CN109636867B (zh) 图像处理方法、装置及电子设备
CN111723688B (zh) 人体动作识别结果的评价方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant