CN116596752B - 脸部图像替换方法、装置、设备及存储介质 - Google Patents

脸部图像替换方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116596752B
CN116596752B CN202310883706.6A CN202310883706A CN116596752B CN 116596752 B CN116596752 B CN 116596752B CN 202310883706 A CN202310883706 A CN 202310883706A CN 116596752 B CN116596752 B CN 116596752B
Authority
CN
China
Prior art keywords
image
face
key point
sample
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310883706.6A
Other languages
English (en)
Other versions
CN116596752A (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310883706.6A priority Critical patent/CN116596752B/zh
Publication of CN116596752A publication Critical patent/CN116596752A/zh
Application granted granted Critical
Publication of CN116596752B publication Critical patent/CN116596752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18162Extraction of features or characteristics of the image related to a structural representation of the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种脸部图像替换方法、装置、设备及存储介质,涉及图像重绘技术领域。该方法包括:获取模版图像、噪声图像和模版文本内容,模版图像中划分有与脸部区域对应的掩码区域;获取脸部图像和对应的第二标识内容,脸部图像对应有第二脸部关键点信息;生成模版文本特征表示和第二文本特征表示,并进行文本特征表示替换得到目标文本特征表示;针对噪声图像提取的第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与脸部区域对应的第一脸部关键点信息进行替换,得到第二图像特征表示;对第二图像特征表示进行解码,得到替换后的目标图像,提高目标图像的质量。

Description

脸部图像替换方法、装置、设备及存储介质
技术领域
本申请涉及图像重绘技术领域,特别涉及一种脸部图像替换方法、装置、设备及存储介质。
背景技术
在模版的人物创作场景下,一些娱乐应用中通过增加影视剧名场景与用户的互动,如通过对特定名场景图像(称为模版图)中主角人脸替换成用户人脸,让用户出现在名场景中提升用户对影视剧的二次消费,这种玩法要求最终产生的图像与场景、人体身躯部分比较贴合。
相关技术中,通过稳定扩散(Stable-diffusion)模型以贴图生成方式,通过把目标人脸贴到对应区域实现脸部图像的替换。
然而,上述方法容易出现脖子与脸错位、人脸与周围环境差异大等问题,替换后的脸部图像与模版图契合度较差,即脸部替换图像的生成质量较差,脸部图像替换效率较低。
发明内容
本申请实施例提供了一种脸部图像替换方法、装置、设备及存储介质,能够提高脸部替换图像的生成质量。所述技术方案如下。
一方面,提供了一种脸部图像替换方法,所述方法包括:
获取模版图像、所述模版图像对应的噪声图像和所述模版图像对应的模版文本内容,所述模版图像中划分有与脸部区域对应的掩码区域,所述脸部区域对应有第一脸部关键点信息,所述模版文本内容中包括用于指示所述脸部区域的第一标识内容;
获取待替换至所述掩码区域的脸部图像和所述脸部图像对应的第二标识内容,所述脸部图像对应有第二脸部关键点信息;
提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示;
针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示;
对所述第二图像特征表示进行解码,得到替换后的目标图像,所述目标图像是将所述模版图像中的所述脸部区域替换为所述脸部图像后得到的图像。
另一方面,提供了一种脸部图像替换装置,所述装置包括:
获取模块,用于获取模版图像、所述模版图像对应的噪声图像和所述模版图像对应的模版文本内容,所述模版图像中划分有与脸部区域对应的掩码区域,所述脸部区域对应有第一脸部关键点信息,所述模版文本内容中包括用于指示所述脸部区域的第一标识内容;
所述获取模块,还用于获取待替换至所述掩码区域的脸部图像和所述脸部图像对应的第二标识内容,所述脸部图像对应有第二脸部关键点信息;
处理模块,用于提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示;
所述处理模块,还用于针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示;
所述处理模块,还用于对所述第二图像特征表示进行解码,得到替换后的目标图像,所述目标图像是将所述模版图像中的所述脸部区域替换为所述脸部图像后得到的图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如上述本申请实施例中任一所述的脸部图像替换方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如上述本申请实施例中任一所述的脸部图像替换方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的脸部图像替换方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取模版图像、模版图像对应的噪声图像和模版图像对应的模版文本内容,其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,模版文本内容中包括用于指示脸部区域的第一标识内容,获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容,脸部图像对应有第二脸部关键点信息,基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示,基于噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像,在此过程中,在通过掩码区域确定脸部区域之后,通过将第二脸部关键点信息与第一脸部关键点信息进行替换,实现脸部关键点对齐功能,使得基于第二脸部关键点信息进行嵌入的脸部图像,能够以与第一脸部关键点信息所指示的脸部角度嵌入模版图像,从而提高脸部图像与模版图像的契合度,提高目标图像的生成质量,从而提高脸部图像替换效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的稳定扩散模型结构示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的脸部图像替换方法的流程图;
图4是本申请一个示例性实施例提供的文本特征表示替换过程示意图;
图5是本申请一个示例性实施例提供的第二脸部关键点信息示意图;
图6是本申请一个示例性实施例提供的脸部图像替换示意图;
图7是本申请一个示例性实施例提供的关键点信息替换方法流程图;
图8是本申请一个示例性实施例提供的偏向信息示意图;
图9是本申请一个示例性实施例提供的脸部替换模型结构示意图;
图10是本申请一个示例性实施例提供的关键点模块与生成模块的连接示意图;
图11是本申请一个示例性实施例提供的关键点模块训练方法流程图;
图12是本申请一个示例性实施例提供的样本数据示意图;
图13是本申请一个示例性实施例提供的文本特征模块训练方法流程图;
图14是本申请一个示例性实施例提供的效果预演方法流程图;
图15是本申请一个示例性实施例提供的效果预演示意图;
图16是本申请一个示例性实施例提供的脸部图像替换显示方法流程图;
图17是本申请一个示例性实施例提供的脸部图像替换装置的结构框图;
图18是本申请一个示例性实施例提供的脸部图像替换装置模块的结构框图;
图19是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
应当理解,尽管在本公开可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一参数也可以被称为第二参数,类似地,第二参数也可以被称为第一参数。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在模版的人物创作场景下,一些娱乐应用中通过增加影视剧名场景与用户的互动,如通过对特定名场景图像(称为模版图)中主角人脸替换成用户人脸,让用户出现在名场景中提升用户对影视剧的二次消费,这种玩法要求最终产生的图像与场景、人体身躯部分比较贴合。相关技术中,通过稳定扩散(Stable-diffusion)模型以贴图生成方式,通过把目标人脸贴到对应区域实现脸部图像的替换。示意性的,请参考图1,图1是本申请一个示例性实施例提供的稳定扩散模型结构示意图,如图1所示,稳定扩散模型100中包括编解码模块110、生成模块120和文本特征模块130,获取模版图像和模版图像对应的模版文本内容,模版图像中划分有与脸部区域对应的掩码区域,模版文本内容中包括脸部区域对应的第一标识内容,基于模版图像获取模版图像对应的噪声图像,将噪声图像输入稳定扩散模型100,由编解码模块110对噪声图像进行编码得到模版噪声特征表示,由生成模块120对模版噪声特征表示进行扩散处理,得到第一图像特征表示。获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容,将第二标识内容输入稳定扩散模型100,由文本特征模块130将模版文本内容中的第一标识内容替换为第二标识内容,得到对应的目标文本特征,将目标文本特征输入生成模块120,由生成模块120在对第一图像特征表示进行去噪的过程中,基于目标文本特征,将脸部图像与脸部区域进行替换,得到第二图像特征表示,由编解码模块110对第二图像特征表示进行解码,得到替换后的目标图像,该目标图像是将模版图像中脸部区域替换为脸部图像后得到的图像。然而,上述方法容易出现脖子与脸错位、人脸与周围环境差异大等问题,替换后的脸部图像与模版图契合度较差,即脸部替换图像的生成质量较差,脸部图像替换效率较低。
本申请实施例中提供的脸部图像替换方法,通过获取模版图像、模版图像对应的噪声图像和模版图像对应的模版文本内容,其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,模版文本内容中包括用于指示脸部区域的第一标识内容,获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容,脸部图像对应有第二脸部关键点信息,基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示,基于噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像,在此过程中,在通过掩码区域确定脸部区域之后,通过将第二脸部关键点信息与第一脸部关键点信息进行替换,实现脸部关键点对齐功能,使得基于第二脸部关键点信息进行嵌入的脸部图像,能够以与第一脸部关键点信息所指示的脸部角度嵌入模版图像,从而提高脸部图像与模版图像的契合度,提高目标图像的生成质量,从而提高脸部图像替换效率。
首先,对本申请实施环境进行介绍。请参考图2,其示出了本申请一个示例性实施例提供的实施环境示意图,该实施环境中包括:终端210。
在一些实施例中,终端210安装有用于实现脸部替换功能的应用程序,用于将用户选定的模版图像中的脸部区域替换为用户提供的脸部图像。可选地,该应用程序可以是视频互动平台、社交程序、拍摄软件等任意具有脸部替换功能的应用程序,本申请对此不加以限定。
可选地,模版图像可以是用户在应用程序预先提供的图像中选定的模版图像,也可以是用户自己采集或者上传的用于进行替换的模版图像。
在一些实施例中,用户通过终端210向应用程序提供人脸图像,该应用程序基于脸部图像对模版图像中的脸部区域进行替换,得到目标图像,该目标图像是将模版图像中脸部区域替换为脸部图像后得到的图像。
在一些实施例中,该应用程序通过预先训练好的脸部替换模型实现脸部替换功能。
在一些实施例中,在脸部替换过程中,获取模版图像、模版图像对应的噪声图像和模版图像对应的模版文本内容,其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,模版文本内容中包括用于指示脸部区域的第一标识内容,获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容,脸部图像对应有第二脸部关键点信息,基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示,基于噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像。
在一些实施例中,可选地,该脸部替换模型可以部署终端中,也可以部署在应用程序对应的服务器中。
以脸部替换模型部署在服务器中为例进行说明,该实施环境中还包括服务器220和通信网络230。
终端210和服务器220通过通信网络230进行数据传输。
在一些实施例中,终端210基于用户操作获取用于进行脸部图像替换的脸部图像和脸部图像对应的第二标识内容,并将该脸部图像和第二标识内容通过通信网络230发送至服务器220。服务器220中存储有模版图像,服务器220获取模版图像,基于模版图像获取对应的噪声图像和模版文本内容,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息。服务器220通过脸部替换模型,基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示,基于噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像。服务器220通过通信网络230向终端210发送脸部替换模型输出的目标图像。
上述终端是可选的,终端可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group AudioLayer III,MP3)播放器、动态影像专家压缩标准音频层4(Moving Picture Experts GroupAudio Layer IV,MP4)播放、智能电视、智能车载等多种形式的终端设备,本申请实施例对此不加以限定。
值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云安全、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如,本申请中涉及到的用户信息、模版图像和脸部图像等都是在充分授权的情况下获取的。
进一步进行说明,本申请在收集用户的相关信息(例如:本申请中涉及到的用户信息、第二标识信息、模版图像和脸部图像等)之前以及在收集用户的相关信息的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。
示意性的,请参考图3,其示出了本申请一个示例性实施例提供的脸部图像替换方法的流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图2所示,该方法包括如下步骤:
步骤310,获取模版图像、模版图像对应的噪声图像和模版图像对应的模版文本内容。
其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,模版文本内容中包括用于指示脸部区域的第一标识内容。
可选地,模版图像可以是提供脸部替换功能的应用程序提供的图像,也可以是用户采集或上传的图像。
在一些实施例中,模版图像是影视作品、综艺作品、动画作品等视频作品中的图像帧。
示意性的,某视频软件为提高用户互动性,向用户提供脸部替换功能,为用户截选影视剧A中的名场面视频帧作为模版图像,模版图像中包括明星B的脸部区域,用户可以通过上传自己的脸部图像,将该模版图像中的明星B的脸部区域替换为该脸部图像,得到目标图像,并进行分享。
值得注意的是,上述模版图像是在得到充分授权情况下获取的图像,例如,将影视剧A中的名称面视频帧作为模版图像,是在该视频软件获取影视剧A的版权授权的情况下进行的。
在一些实施例中,掩码区域实现为遮挡上述脸部区域的预设颜色矩形区域,用于指示模版图像中待替换的脸部区域的区域位置。
在一些实施例中,掩码区域存在于掩码模版图像中,掩码模版图像是在模版图像上叠加掩码区域得到的图像。
在一些实施例中,模版图像对应的噪声图像是与模版图像尺寸相同的、基于随机数随机加噪生成的噪声图像。
在一些实施例中,第一脸部关键点信息中包括多个第一脸部关键点,用于描绘上述脸部区域中脸部轮廓和五官的关键点,可以用于确定脸部轮廓及五官在脸部区域中的位置。
在一些实施例中,模版文本内容是用于描述模版图像画面信息的文本内容,其中包括用于指示脸部区域的第一标识内容。
示意性的,模版图像实现为电影A中的某一视频帧,该视频帧中包括明星A、明星B和多个群众演员,该模版图像对应的模版文本内容为“明星A和明星B坐在多个群演前面”,假设该模版图像中与掩码区域对应的脸部区域为明星A的脸部区域,则模版文本内容中的“明星A”即为第一标识内容。
在一些实施例中,模版文本内容和掩码区域是对模版图像预先标注得到的。
步骤320,获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容。
其中,脸部图像对应有第二脸部关键点信息。
在一些实施例中,脸部图像是用户上传或实时采集的脸部图像。
可选地,该脸部图像可以是人脸图像,也可以是动物脸部图像,还可以是虚拟角色的脸部图像。
值得注意的是,上述脸部图像是在得到充分授权情况下获取的图像,例如,在用户进入用于实现脸部替换功能的应用程序时,以弹窗形式提示用户授权应用程序获取用户设备采集或存储的脸部图像等。
在一些实施例中,第二脸部关键点信息中包括多个第二脸部关键点,用于描绘脸部图像中脸部轮廓和五官的关键点,可以用于确定脸部轮廓及五官在图像中的位置。
在一些实施例中,第二标识内容是用于标识脸部图像的文本内容。
可选地,第二标识内容可以是用户的真实姓名,也可以是用户名等能唯一标识用户身份与脸部图像之间对应关系的文本内容。其中,第二标识内容与脸部图像之间的对应关系可以是一对一的,也可以是一对多的,还可以是多对一或多对多的,基于第二标识内容可以确定对应的脸部图像。
步骤330,提取模版文本内容对应的模版文本特征表示,并将模版文本特征表示中与第一标识内容对应的第一文本特征表示替换为第二标识内容对应的第二文本特征表示,得到目标文本特征表示。
在一些实施例中,基于模版文本内容与模版图像之间的对应关系,模版文本特征表示可以用于指示生成对应的模版图像,基于脸部图像与第二标识内容之间的对应关系,第二文本特征表示可以用于指示生成对应的脸部图像,基于脸部区域与第一标识内容之间的对应关系,第一文本特征表示可以用于指示生成对应的脸部区域。
在一些实施例中,通过对比文本-图像预训练模型(Contrastive Language-ImagePre-Training,CLIP)对模版文本内容进行编码,将模版文本内容映射到标记(token)空间,再由CLIP模型基于模版文本内容的token生成模版文本内容对应的模版文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征标识替换为第二文本特征表示,得到目标文本特征表示。
示意性的,请参考图4,图4是本申请一个示例性实施例提供的文本特征表示替换过程示意图,如图4所示,模版文本内容“角色A站在茶铺前”对应token空间410,其中,第一标识内容“角色A”对应的token空间为411,基于token空间410得到模版文本内容对应的模版文本特征表示420,其中包括第一标识内容对应的第一文本特征表示421,将模版文本特征表示420中的第一文本特征表示421替换为第二文本特征表示431,得到目标文本特征表示430。
步骤340,针对噪声图像提取的第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示。
在一些实施例中,基于噪声图像生成第一图像特征表示。
在一些实施例中,通过对噪声图像进行编码得到噪声图像特征表示,对噪声图像特征表示进行扩散,得到第一图像特征表示。
在一些实施例中,可以通过table-diffusion模型中的编码器对噪声图像进行编码得到噪声图像特征表示,通过模型中的扩散模块对噪声图像特征进行扩散,得到第一图像特征表示。
在一些实施例中,目标文本特征表示用于指示去噪目标,即,基于目标文本特征对第一图像特征进行去噪,使得到的第二图像特征表示符合目标文本特征表示所指示的图像特征。
在一些实施例中,掩码区域用于在对第一图像特征表示进行去噪的过程中,指示目标文本特征表示中第二文本特征表示的作用区域,即,指示第二脸部关键点信息与第一脸部关键点信息的替换区域,该替换区域即模版图像中的脸部区域。
在一些实施例中,在对第二脸部关键点信息和第一脸部关键点信息进行替换的过程中,需要对第二脸部关键点信息进行旋转和调整,使第二脸部关键点信息与第一脸部关键点信息的方向一致,且第二脸部关键点信息指示的脸部尺寸与第一脸部关键点信息一致。
在一些实施例中,第二脸部关键点信息是基于指定的开源工具对用户提供的脸部图像直接进行关键点提取得到的多个第二脸部关键点,用于描绘脸部图像中的脸部轮廓和五官等。
示意性的,请参考图5,图5是本申请一个示例性实施例提供的第二脸部关键点信息示意图,如图5所示,第二脸部关键点信息520由脸部图像510中的多个第二脸部关键点构成。
在一些实施例中,第二脸部关键点信息的方向可以基于多个第二脸部关键点中的至少两个第二脸部关键点确定,例如,将两个瞳孔关键点之间的连线确定瞳孔方向指示线,基于瞳孔方向指示线确定第二脸部关键点信息的方向。
在一些实施例中,第二脸部关键点信息指示的脸部尺寸可以基于多个第二脸部关键点中至少两个第二脸部关键点确定,例如,对脸部图像构建二维平面坐标系,确定多个第二脸部关键点的坐标位置,将其中纵坐标最大的第二关键点与纵坐标最小的第二关键点之间的纵坐标差值作为第二脸部关键点信息的高度值,用于指示第二脸部关键点信息对应的脸部尺寸。
步骤350,对第二图像特征表示进行解码,得到替换后的目标图像。
其中,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像。
示意性的,请参考图6,图6是本申请一个示例性实施例提供的脸部图像替换示意图,如图6所示,模版图像610中包括脸部区域611,将模版图像610中的脸部区域611替换为脸部图像621后,得到目标图像620。
综上所述,本申请实施例提供的方法,通过获取模版图像、模版图像对应的噪声图像和模版图像对应的模版文本内容,其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,模版文本内容中包括用于指示脸部区域的第一标识内容,获取待替换至掩码区域的脸部图像和脸部图像对应的第二标识内容,脸部图像对应有第二脸部关键点信息,基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示,基于噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像,在此过程中,在通过掩码区域确定脸部区域之后,通过将第二脸部关键点信息与第一脸部关键点信息进行替换,实现脸部关键点对齐功能,使得基于第二脸部关键点信息进行嵌入的脸部图像,能够以与第一脸部关键点信息所指示的脸部角度嵌入模版图像,从而提高脸部图像与模版图像的契合度,提高目标图像的生成质量,从而提高脸部图像替换效率。
请参考图7,图7是本申请一个示例性实施例提供的关键点信息替换方法流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图7所示,上述步骤340包括如下步骤:
步骤341,基于第一脸部关键点信息和第二脸部关键点信息确定偏向信息。
其中,偏向信息用于描述所第二脸部关键点信息与第一脸部关键点信息之间的偏转方向和偏向角度。
在一些实施例中,基于第一脸部关键点信息中的至少两个第一脸部关键点确定第一关键点方向,基于第二脸部关键点信息中的至少两个第二脸部关键点确定第二关键点方向,基于第一关键点方向和第二关键点方向之间的差异确定偏向信息。
在一些实施例中,步骤341包括如下三步:
第一步,基于第一脸部关键点信息确定第一指示线。
其中,第一指示线用于指示第一脸部关键点信息对应的脸部方向,即第一关键点方向。
在一些实施例中,可以将第一脸部关键点信息中的任意两个第一关键点确定为第一指示线。
示意性的,将第一关键点信息中鼻梁关键点与鼻尖关键点之间的连线确定为第一指示线,即以脸部区域中的鼻梁方向作为第一关键点方向。
第二步,基于第二脸部关键点信息确定第二指示线。
其中,第二指示线用于指示第二脸部关键点信息对应的脸部方向,即第二关键点方向。
在一些实施例中,将第二脸部关键点信息中任意两个第二关键点确定为第二指示线,其中,用于确定第二指示线的两个第二关键点与第一指示线的两个第一关键点存在对应关系。
示意性的,将第一关键点信息中鼻梁关键点与鼻尖关键点之间的连线确定为第一指示线,则将第二关键点信息中鼻梁关键点和鼻尖关键点之间的连线确定为第二指示线,即以脸部图像中的鼻梁方向作为第二关键点方向。
第三步,对第一指示线和第二指示线进行方向比对,并确定第一指示线和第二指示线之间的角度差异,得到偏向信息。
示意性的,请参考图8,图8是本申请一个示例性实施例提供的偏向信息示意图,如图8所示,脸部区域810中第一脸部关键点信息中鼻梁关键点与鼻尖关键点之间的连线为第一指示线811,脸部图像820中第二脸部关键点信息中鼻梁关键点与鼻尖关键点之间的连线为第二指示线821,对第一指示线和第二指示线进行方向比对,确定第二指示线相对于第一指示线的偏转方向为顺时针偏转,偏转角度为45度。
步骤342,按照偏向信息旋转第二脸部关键点信息,得到旋转后的第二脸部关键点信息。
其中,旋转后的第二脸部关键点信息与所第一脸部关键点信息的方向一致。
示意性的,以偏向信息中的偏转方向为顺时针偏转,偏转角度为45度为例,将第二脸部关键点信息顺时针旋转45度,得到旋转后的第二脸部关键点信息。
步骤343,基于第一脸部关键点信息和旋转后的第二脸部关键点信息确定尺寸比例。
其中,尺寸比例用于指示第一脸部关键点信息指示的脸部尺寸与旋转后的第二脸部关键点信息指示的脸部尺寸之间的比值。
在一些实施例中,基于第一脸部关键点信息中的至少两个第一脸部关键点确定第一脸部高度,基于第二脸部关键点信息中的至少两个第二脸部关键点确定第二脸部高度,基于第一脸部高度和第二脸部高度之间的比值确定尺寸比例。
在一些实施例中,步骤343包括如下三步:
第一步,基于第一脸部关键点信息确定第一脸部高度。
其中,第一脸部高度用于指示第一脸部关键点信息中最高关键点与最低关键点之间的高度差值。
在一些实施例中,以脸部区域左下角为原点,对脸部区域构建二维平面坐标系,确定第一脸部关键点信息中多个第一脸部关键点的坐标位置,将纵坐标值最大的第一关键点确定为第一脸部关键点信息中最高关键点,将纵坐标值最小的第一关键点确定为第一脸部关键点信息中最低关键点,第一脸部关键点信息中最高关键点与最低关键点之间的高度差值为这两个第一脸部关键点的纵坐标差值。
第二步,基于旋转后的第二脸部关键点信息确定第二脸部高度。
其中,第二脸部高度用于指示第二脸部关键点信息中最高关键点与最低关键点之间的高度差值。
在一些实施例中,以脸部图像左下角为原点,对脸部图像构建二维平面坐标系,确定第二脸部关键点信息中多个第二脸部关键点的坐标位置,将纵坐标值最大的第二关键点确定为第二脸部关键点信息中最高关键点,将纵坐标值最小的第二关键点确定为第二脸部关键点信息中最低关键点,第二脸部关键点信息中最高关键点与最低关键点之间的高度差值为这两个第二脸部关键点的纵坐标差值。
第三步,基于第一脸部高度和第二脸部高度的比值确定尺寸比例。
示意性的,将第一脸部高度记作h1,将第二脸部高度记作h2,则尺寸比例实现为如下公式1:
公式1,
其中,ratio为尺寸为例。
步骤344,按照尺寸比例调整旋转后的第二脸部关键点信息,得到调整后的第二脸部关键点信息。
其中,调整后的第二脸部关键点信息指示的脸部尺寸与第一脸部关键点信息一致。
在一些实施例中,获取脸部图像尺寸,将脸部图像尺寸和尺寸比例的乘积确定为目标尺寸,对包含第二脸部关键点信息的脸部图像的尺寸调整为目标尺寸,得到调整后的第二脸部关键点信息。
步骤345,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将调整后的第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示。
在一些实施例中,需要将调整后的第二脸部关键点信息与第一脸部关键点信息对齐。
在一些实施例中,通过将第一脸部关键点信息中的一个指定第一关键点与第二脸部关键点信息中的一个指定第二关键点对齐,实现将调整后的第二脸部关键点信息与第一脸部关键点信息对齐,其中,指定第一关键点与指定第二关键点之间存在对应关系。
在一些实施例中,步骤345包括如下三步:
第一步,获取第一脸部关键点信息中的第一定位关键点和第二脸部关键点信息中的第二定位关键点。
其中,第一定位关键点和第二定位关键点之间存在对应关系。
在一些实施例中,第一定位关键点和第二定位关键点之间的对应关系是指第一定位关键点和第二定位关键点属于同一脸部位置的关键点。
可选地,第一定位关键点和第二定位关键点可以是多个第一脸部关键点或多个第二脸部关键点中的任意一个关键点。
示意性的,将第一脸部关键信息中的鼻尖关键点作为第一定位关键点,则基于对应关系,第二定位关键点也需要指示脸部图像中的鼻尖位置,因此,将第二脸部关键信息中的鼻尖关键点作为第二定位关键点。
第二步,将第二定位关键点与第一定位关键点对齐。
示意性的,将第一脸部关键信息中的鼻尖关键点作为第一定位关键点,将第二脸部关键信息中的鼻尖关键点作为第二定位关键点,将第二定位关键点与第一定位关键点对齐,即,将第二定位关键点对齐至模版图像中脸部区域的鼻尖位置。
第三步,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,按照第二定位关键点将第一脸部关键点信息替换为调整后的第二脸部关键点信息,得到第二图像特征表示。
示意性的,将第一脸部关键信息中的鼻尖关键点作为第一定位关键点,将第二脸部关键信息中的鼻尖关键点作为第二定位关键点,将第二定位关键点与第一定位关键点对齐,即,将第二定位关键点对齐至模版图像中脸部区域的鼻尖位置,将第二脸部关键点信息按照第二定位关键点指示的位置整体替换第一脸部关键点信息。
综上所述,本申请实施例提供的方法,明确了第一脸部关键点信息与第二脸部关键点信息之间的替换方式,确保了第二脸部关键点信息与第一脸部关键点信息对齐,从而使得脸部图像能够基于第二脸部关键点信息契合模版图像,提高目标图像的质量。
在一些实施例中,本申请实施例提供的脸部图像替换方法是基于脸部替换模型实现的,该脸部替换模型是预先训练好的。可选地,该脸部替换模型中包括文本特征模块、生成模块、关键点模块和编解码模块。其中,文本特征模块用于获取目标图像对应的目标文本特征,将目标文本特征作为约束条件,参与生成目标图像,生成模块用于对图像特征表示进行扩散处理和去噪处理,关键点模块用于进行关键点替换,编解码模块用于对图像进行编码得到图像特征表示,或者对图像特征表示进行解码得到对应的图像。
在一些实施例中,基于上述脸部替换模型,上述步骤330实现为,通过脸部替换模型中的文本特征模块,提取模版文本内容对应的模版文本特征表示,并将模版文本特征表示中与第一标识内容对应的第一文本特征表示替换为第二标识内容对应的第二文本特征表示,得到目标文本特征表示;上述步骤340实现为,针对噪声图像提取的第一图像特征表示,通过脸部替换模型中的关键点模块,在对第一图像特征表示进行去噪的过程中,基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示,其中,第一图像特征是通过脸部替换模型中的生成模块基于噪声图像进行特征提取,并对提取得到的噪声图像特征表示进行扩散处理得到的图像特征表示;上述步骤350实现为,通过脸部替换模型中的编解码模块,对第二图像特征表示进行解码,得到替换后的目标图像。
在一些实施例中,上述脸部替换模型中的文本特征模块、生成模块和编解码模块可以实现为Stable-diffusion模型,在Stable-diffusion模型增加关键点模块形成脸部替换模型。其中,关键点模块与Stable-diffusion模型中去噪网络(Denoising U-net)下采样(Down Sample)模块的结构一致。
示意性的,请参考图9,图9是本申请一个示例性实施例提供的脸部替换模型结构示意图,如图9所示,脸部替换模型900中包括文本特征模块910、生成模块920、关键点模块930和编解码模块940。获取模版图像和模版图像对应的噪声图像,模版图像中划分有脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息;通过编解码模块940对噪声图像进行编码得到噪声图像特征表示;通过生成模块920对噪声图像特征表示进行扩散处理,得到第一图像特征表示;获取模版图像对应的模版文本内容,其中包括脸部区域对应的第一标识内容,获取脸部图像和脸部图像对应的第二标识内容,脸部图像对应有第二脸部关键点信息;通过文本特征模块910基于模版文本内容和第二标识内容分别得到模版文本特征表示和第二文本特征表示,并将模版文本特征表示中第一标识内容对应的第一文本特征表示替换为第二文本特征表示,得到目标文本特征表示;在生成模块920对第一图像特征表示进行去噪的过程中,通过关键点模块930基于掩码区域和目标文本特征表示,将第二脸部关键点信息与第一脸部关键点信息进行替换,得到第二图像特征表示;通过编解码模块940对第二图像特征表示进行解码,得到替换后的目标图像。
在一些实施例中,脸部替换模型中的文本特征模块可以实现为预先训练好的CLIP模型。
在一些实施例中,脸部替换模型中关键点模块的输出以加权方式加入到生成模块中。
示意性的,脸部替换模型中的文本特征模块、生成模块和编解码模块实现为Stable-diffusion模型,在Stable-diffusion模型增加关键点模块形成脸部替换模型。其中,关键点模块与Stable-diffusion模型中Denoising U-net的Down Sample模块结构一致。请参考图10,图10是本申请一个示例性实施例提供的关键点模块与生成模块的连接示意图,如图10所示,关键点模块1010与生成模块中的去噪网络1020相连,去噪网络中包括下采样模块1021和上采样模块1022,关键点模块1010与下采样模块1021的结构相同,关键点模块1010中包括第一网络模块7至第一网络模块9和第二网络模块1。关键点模块1010的输出分别以加权方式加入到生成模块中的去噪网络1020中,例如,生成模块中的去噪网络1020中第一网络模块2的输入数据为第一网络模块1的输出数据与第一网络模块7的输出数据进行加权得到的数据,将第一网络模块1的输出数据记作out_QKV1,将第一网络模块7的输出数据记作out_QKV7,则第一网络模块2的输入数据实现为如下公式2:
公式2,
其中,input_QKV2为第一网络模块2的输入数据,a为预设的加权系数。
综上所述,本申请实施例提供的方法,明确了脸部替换模型的模型结构,通过在稳定扩散模型中增加关键点模块,实现关键点对齐功能,提高脸部图像与模版图像的契合度,同时简化了实现方式。
在一些实施例中,在应用脸部替换模型进行脸部替换之前,还包括对脸部替换模型的训练过程。在一些实施例中,候选脸部替换模型中包括预先训练好的生成模块、预先训练好的编解码模块和候选关键点模块以及候选文本特征模块。
在一些实施例中,先对候选关键点模块进行训练,再对候选文本特征模块进行训练。其中,在候选关键点模块的训练过程中仅调整候选关键点模块中的参数,其余模块参数保持不变,可选地,其余模块参数在候选关键点模块的训练过程中采用预先训练好的Stable-diffusion模型参数;在候选文本特征模块的训练过程中仅调整候选文本特征模块中的参数,其余模块参数保持不变,可选地,其余模块中生成模块和编解码模块采用预先训练好的Stable-diffusion模型参数,关键点模块采用训练后的模块参数。
请参考图11,图11是本申请一个示例性实施例提供的关键点模块训练方法流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图11所示,该方法包括如下步骤:
步骤1110,获取样本模版图像、样本模版图像对应的样本噪声图像、样本模版图像对应的样本模版文本内容、样本模版掩码图像和样本模版脸部图像。
其中,样本模版掩码图像是基于样本模版图像上叠加样本掩码区域遮盖样本脸部区域得到的图像,样本模版脸部图像中包括样本脸部区域,样本脸部区域对应有样本脸部关键点信息。
在一些实施例中,样本噪声图像是与样本模版图像尺寸相同的图像,样本噪声图像是基于随机数进行随机加噪生成的噪声图像。
在一些实施例中,样本模版图像用于作为候选关键点模块训练过程中的监督图像,计算预测损失。
在一些实施例中,将样本模版掩码图像作为候选关键点模块训练过程中的模型输入,样本模版脸部图像作为待替换至掩码区域的脸部图像,样本模版文本内容用于作为约束条件参与生成图像。
示意性的,请参考图12,图12是本申请一个示例性实施例提供的样本数据示意图,如图12所示,获取有样本模版图像1210,样本模版图像1210中包括样本脸部区域1211,包括样本脸部区域1211的样本脸部图像1220,在样本模版图像1210上叠加样本掩码区域1231遮盖样本脸部区域1211得到样本模版掩码图像1230,样本模版图像1210对应的样本模版文本内容1240为“A在画面中央”。
步骤1120,通过候选脸部替换模型中预先训练好的文本特征模块,基于样本模版文本内容生成样本模版文本特征表示。
在一些实施例中,候选脸部替换图像中预先训练好的文本特征模块实现为预先训练好的CLIP模型。
在一些实施例中,通过CLIP模型基于样本模版文本内容获取对应的token序列,基于该token序列生成样本模版文本特征表示。
步骤1130,通过候选脸部替换模型中预先训练好的生成模块,基于样本噪声图像生成第一样本图像特征表示。
在一些实施例中,通过候选脸部替换模型中预先训练好的编解码模块对样本噪声图像进行编码,得到样本噪声图像特征表示,通过候选脸部替换模型中预先训练好的生成模块,对样本噪声图像特征表示进行扩散处理,得到第一样本图像特征表示。
步骤1140,通过候选脸部替换模型中的候选关键点模块,在对第一样本图像特征表示进行去噪的过程中,基于样本掩码区域和样本模版文本特征表示,将样本脸部关键点信息替换到样本掩码区域,得到第二样本图像特征表示。
在一些实施例中,通过候选脸部替换模型中预先训练好的生成模块对第一样本图像特征表示进行去噪,在去噪过程中,通过候选脸部替换模型中的候选关键点模块,在对第一样本图像特征表示进行去噪的过程中,基于样本掩码区域和样本模版文本特征表示,将样本脸部关键点信息替换到样本掩码区域,得到第二样本图像特征表示。
步骤1150,通过候选脸部替换模型中预先训练好的编解码模块,对第二样本图像特征表示进行解码,得到替换后的第一样本目标图像。
其中,第一样本目标图像是将样本模版掩码图像中样本掩码区域替换为样本模版脸部图像后得到的图像。
在一些实施例中,将第二样本图像特征表示输入编解码模块,输出得到第一样本目标图像。
步骤1160,基于第一样本目标图像与样本模版图像之间的差异确定第一预测损失。
可选地,基于第一样本目标图像与样本模版图像之间的均方误差(Mean-SquareError,MSE)确定第一预测损失。
示意性的,第一预测损失实现为如下公式3:
公式3,
其中,loss1为第一预测损失,n为图像中像素点的个数,i用于指示图像第i个像素点,yi是指样本模版图像中的第i个像素点的像素值,是指第一样本目标图像中的第i个像素点的像素值。
步骤1170,基于第一预测损失对候选关键点模块进行训练,得到包括关键点模块的脸部替换模型。
在一些实施例中,基于第一预测损失对候选关键点模块进行训练,直到候选关键点模块符合训练要求,得到包括关键点模块的来不替换模型。
可选地,训练要求包括如下要求中的至少一种:第一预测损失值达到预设损失阈值、第一预测损失值收敛、训练轮数达到预设轮数阈值。
综上所述,本申请实施例提供的方法,明确了对候选关键点模块的训练方法,基于第一样本目标图像与样本模版图像之间的差异确定第一预测损失,并基于第一预测损失对候选关键点模块进行训练,能够通过样本模版图像来监督候选脸部替换模型的重绘过程,确保候选关键点模块能够获得较好的脸部图像定位功能,从而使得训练得到的脸部替换模型能够基于关键点模块提高脸部图像与模版图像之间的契合度,从而提高目标图像质量。
请参考图13,图13是本申请一个示例性实施例提供的文本特征模块训练方法流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图13所示,该方法包括如下步骤:
步骤1310,获取样本模版图像、样本模版图像对应的样本噪声图像和样本掩码图像。
其中,样本模版图像中包括样本脸部区域,样本掩码图像中划分有与样本脸部区域对应的样本掩码区域和样本其他区域,样本掩码区域为第一像素值,样本其他区域为第二像素值。
在一些实施例中,样本噪声图像是与样本模版图像尺寸相同的图像,样本噪声图像是基于随机数进行随机加噪生成的噪声图像。
在一些实施例中,将样本模版图像中的样本脸部区域用像素值为第一像素值的样本掩码区域遮盖,并将样本模版图像中的其他区域像素值设置为第二像素值,得到样本掩码图像。
示意性的,样本模版图像中包括遮盖样本脸部区域的第一颜色样本掩码区域,和其余第二颜色图像区域。
步骤1320,获取待替换至样本掩码区域的样本脸部图像,以及样本脸部图像对应的第二样本标识内容。
其中,样本脸部图像对应有第二样本脸部关键点信息。
在一些实施例中,样本脸部图像是在用户授权情况下获取的用户脸部图像,第二样本标识内容是在用户授权情况下获取的用户名或真实姓名等身份标识信息。
步骤1330,通过候选脸部替换模型中的候选文本特征模块,基于第二样本标识内容生成第二样本文本特征表示。
在一些实施例中,候选脸部替换模型中的候选文本特征模块实现为CLIP模型,通过CLIP模型将第二样本标识内容映射到token空间,得到第二样本标识内容对应的token序列,基于该token序列生成第二样本文本特征表示。
步骤1340,通过候选脸部替换模型中的预先训练好的生成模块,基于样本噪声图像生成第一样本图像特征表示。
在一些实施例中,通过候选脸部替换模型中预先训练好的编解码模块对样本噪声图像进行编码,得到样本噪声图像特征表示,通过候选脸部替换模型中预先训练好的生成模块,对样本噪声图像特征表示进行扩散处理,得到第一样本图像特征表示。
步骤1350,通过候选脸部替换模型中的预先训练好的关键点模块,在对第一样本图像特征表示进行去噪的过程中,基于第二样本文本特征表示,将第二样本脸部关键点信息替换到样本掩码区域,得到第二样本图像特征表示。
在一些实施例中,通过候选脸部替换模型中预先训练好的生成模块对第一样本图像特征表示进行去噪,在去噪过程中,通过候选脸部替换模型中的候选关键点模块,在对第一样本图像特征表示进行去噪的过程中,基于第二样本文本特征表示,将第二样本脸部关键点信息替换到样本掩码区域,得到第二样本图像特征表示。
步骤1360,通过候选脸部替换模型中预先训练好的编解码模块,对第二样本图像特征表示进行解码,得到替换后的第二样本目标图像。
在一些实施例中,将第二样本图像特征表示输入编解码模块,输出得到第二样本目标图像。
步骤1370,获取预设的监督图像,并基于监督图像和第二样本目标图像之间的差异确定第二预测损失。
其中,预设的监督图像是将样本掩码图像中样本掩码区域替换为样本脸部图像后得到的图像。
在一些实施例中,将样本脸部图像叠加至样本掩码图像中的样本掩码区域,得到监督图像。
可选地,基于监督图像和第二样本目标图像之间的均方误差确定第二预测损失。
示意性的,第二预测损失实现为如下公式4:
公式4,
其中,loss2为第二预测损失,n为图像中像素点的个数,i用于指示图像第i个像素点,yi是指监督图像中的第i个像素点的像素值,是指第二样本目标图像中的第i个像素点的像素值。
步骤1380,基于第二预测损失对候选文本特征模块进行训练,得到包括文本特征模块的脸部替换模型。
在一些实施例中,基于第二预测损失对候选文本特征模块进行训练,直到候选文本特征模块符合训练要求,得到包括文本特征模块的来不替换模型。
可选地,训练要求包括如下要求中的至少一种:第二预测损失值达到预设损失阈值、第二预测损失值收敛、训练轮数达到预设轮数阈值。
综上所述,本申请实施例提供的方法,明确了对文本特征模块的训练方法,通过监督图像和第二样本目标图像之间的差异确定第二预测损失,并基于第二预测损失对候选文本特征模块进行训练,以将样本掩码图像中样本掩码区域替换为样本脸部图像后得到的图像作为监督图像,提高训练效率,使文本特征模块能够更准确的获取用于参与生成目标图像的目标文本特征。
在一些实施例中,本申请实施例提供的脸部图像替换方法在应用过程中还包括效果预演功能。请参考图14,图14是本申请一个示例性实施例提供的效果预演方法流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图14所示,该方法包括如下步骤:
步骤1410,显示脸部图像采集界面。
其中,脸部图像采集界面用于采集得到脸部图像。
在一些实施例中,响应于接收到用户的图像采集操作,在用户授权采集的情况下,显示脸部图像采集界面,对用户的脸部进行图像采集,并通过脸部图像采集界面向用户展示采集得到的脸部图像。
步骤1420,响应于接收到显示播放操作,在脸部图像采集界面中显示效果预演窗口。
其中,效果预演窗口用于实时显示与脸部图像采集界面中采集得到的脸部图像对应的目标图像。
在一些实施例中,用户可以实时变更脸部表情或姿态等,由脸部图像采集界面实时采集连续的脸部图像,当接收到用户的显示播放操作时,在脸部图像采集界面中显示效果预演窗口,效果预演窗口中显示有随用户脸部姿态实时变更得到的目标图像。
示意性的,请参考图15,图15是本申请一个示例性实施例提供的效果预演示意图,如图15所示,在脸部图像采集界面1500中显示有采集到的脸部图像1510,响应于接收到显示播放操作,在脸部图像采集界面1500中显示效果预演窗口1520,效果预演窗口中显示有基于脸部图像1510进行脸部图像替换得到的目标图像1530。
综上所述,本申请实施例提供的方法,通过显示脸部图像采集界面,响应于接收到显示播放操作,在脸部图像采集界面中显示效果预演窗口,使用户能够实时观察到预计生成的目标图像的效果,从而帮助用户决定是否采用该目标图像,或者调整脸部图像,从而提高用户对目标图像的满意度。
在一些实施例中,当用户通过具有脸部图像替换功能的应用程序进行脸部图像替换时,包括脸部图像替换的显示过程,请参考图16,图16是本申请一个示例性实施例提供的脸部图像替换显示方法流程图,该方法可以应用于终端,也可以应用于服务器,也可以同时应用于终端和服务器,本申请实施例以该方法应用于终端为例进行说明,如图16所示,该方法包括如下步骤:
步骤1610,显示多个候选模版图像。
其中,候选模版图像中划分有脸部区域。
在一些实施例中,多个候选模版图像是应用程序根据用户喜好或用户操作预先获取的多个模版图像。例如,当用户选择影视剧A时,应用程序自动获取影视剧A中的多个名场面视频帧作为多个候选模版图像;或者,根据候选模版图像被选择的频率,按照热度从高到低获取热度排名在预设名次范围内的多个候选模版图像。
可选地,候选模版图像中用于进行脸部图像替换的脸部区域可以是预设的,也可以是用户自主选择的。例如,候选模版图像1中包括角色A、角色B和群众演员分别对应的脸部区域,预设的脸部区域为角色A对应的脸部区域,则应用程序预先设置有对应的候选模版文本内容,其中包括用于标识角色A的第一标识内容,该候选模版文本内容用于输入脸部替换模型指导目标图像的生成,其中,第一标识内容用于指示角色A的脸部区域为待替换的脸部区域;或者,候选模版图像1中包括角色A、角色B和群众演员分别对应的脸部区域,用户选择角色B对应的脸部区域为用于进行脸部图像替换的脸部区域,应用程序基于用户选择生成对应的候选模版文本内容,其中包括用于标识角色B的第一标识内容,该候选模版文本内容用于输入脸部替换模型指导目标图像的生成,其中,第一标识内容用于指示角色B的脸部区域为待替换的脸部区域。
步骤1620,接收对多个候选模版图像中目标模版图像的选择操作。
在一些实施例中,响应于接收到对多个候选模版图像中目标模版图像的选择操作,获取目标模版图像对应的模版文本内容,其中包括用于指示脸部区域的第一标识内容。
步骤1630,获取多个候选脸部图像。
其中,多个候选脸部图像是待融合至目标模版图像的脸部图像。
在一些实施例中,在用户授权情况下,获取用户上传的多张脸部图像,或者,对用户进行实时脸部图像采集,得到多张脸部图像。
在一些实施例中,多张脸部图像对应同一个第二标识内容,该第二标识内容用于标识脸部图像对应的用户身份。
在一些实施例中,多张脸部图像对应多个第二脸部关键点信息,其中,多个第二脸部关键点信息中包括至少两个第二脸部关键点信息互不相同。
在一些实施例中,在获取到多个候选脸部图像之后,应用程序在用户授权的情况下自动获取脸部图像对应的第二标识内容和第二脸部关键点信息输入脸部替换模型。其中,第二标识内容可以是自动获取的用户名等用户标识信息,也可以是用户输入的标识内容。
步骤1640,显示多个目标图像。
其中,第i个目标图像是将目标模版图像中的脸部区域替换为第i个候选脸部图像后得到的图像,i为正整数。
可选地,多个目标图像可以按照预设的图像尺寸平铺显示在应用程序界面中,也可以按照预设的显示顺序依次进行显示。值得注意的是,上述多个目标图像的显示方式仅为示意性举例,本申请对此不加以限定。
在一些实施例中,用户可以基于主观感受对多个目标图像进行评分,具体地:响应于接收到评分操作,在多个目标图像上叠加显示多个目标图像分别对应的图像评分。其中,第i个图像评分用于指示第i个目标图像中目标模版图像与第i个候选脸部图像之间的契合度,目标图像用于结合图像评分对脸部替换模型进行迭代训练。
可选地,评分操作的操作方式包括分值键入操作,或者对预设分值的选择操作,或者接收用于指示评分的语音指令等至少一种。
在一些实施例中,在获取多个目标图像的图像评分之后,应用程序可以对脸部替换模型进行迭代训练,使脸部替换模型输出的目标图像中脸部图像与模版图像之间的契合度更加符合用户倾向。
在一些实施例中,将多个目标图像中图像评分最高的目标图像作为监督图像,针对多个目标图像和对应的多个脸部图像,获取目标模版图像对应的模版文本内容和多个脸部图像分别对应的第二标识内容,模版文本内容中包括用于指示脸部区域的第一标识内容。通过脸部替换模型中的文本特征模块,提取模版文本内容对应的模版文本特征表示,并将模版文本特征表示中与第一标识内容对应的第一文本特征表示替换为第二标识内容对应的第二文本特征表示,得到目标文本特征表示;针对目标图像对应的噪声图像生成的第一图像特征表示,通过脸部替换模型中的关键点模块,在对第一图像特征表示进行去噪的过程中,基于目标文本特征表示,将第二样本脸部关键点信息替换到目标模版图像的脸部区域,得到第二图像特征表示,通过脸部替换模型中的编解码模块,对第二图像特征表示进行解码得到预测图像;基于预测图像和监督图像之间的差异确定目标预测损失,基于目标预测损失对脸部替换模型进行迭代训练,得到调整后的脸部替换模型。
在一些实施例中,基于预测图像和监督图像之间的差异确定目标预测损失可以实现为:基于多个脸部图像对应的多个预测图像与监督图像之间的差异确定多个第二预测损失,按照多个脸部图像对应的图像评分对多个第二预测损失进行加权求和,得到目标预测损失。示意性的,可以将图像评分的倒数作为加权系数,对多个第二预测损失进行加权求和,得到目标预测损失。
图17是本申请一个示例性实施例提供的脸部图像替换装置的结构框图,如图17所示,该装置包括如下部分:
获取模块1710,用于获取模版图像、所述模版图像对应的噪声图像和所述模版图像对应的模版文本内容,所述模版图像中划分有与脸部区域对应的掩码区域,所述脸部区域对应有第一脸部关键点信息,所述模版文本内容中包括用于指示所述脸部区域的第一标识内容;
所述获取模块1710,还用于获取待替换至所述掩码区域的脸部图像和所述脸部图像对应的第二标识内容,所述脸部图像对应有第二脸部关键点信息;
处理模块1720,用于提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示;
所述处理模块1720,还用于针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示;
所述处理模块1720,还用于对所述第二图像特征表示进行解码,得到替换后的目标图像,所述目标图像是将所述模版图像中的所述脸部区域替换为所述脸部图像后得到的图像。
请参考图18,图18是本申请一个示例性实施例提供的脸部图像替换装置模块的结构框图,如图18所示,在一些实施例中,所述处理模块1720,包括:
第一确定单元1721,用于基于所述第一脸部关键点信息和所述第二脸部关键点信息确定偏向信息,所述偏向信息用于描述所述第二脸部关键点信息与所述第一脸部关键点信息之间的偏转方向和偏向角度;
方向调整单元1722,用于按照所述偏向信息旋转所述第二脸部关键点信息,得到旋转后的第二脸部关键点信息,所述旋转后的第二脸部关键点信息与所述第一脸部关键点信息的方向一致;
第二确定单元1723,用于基于所述第一脸部关键点信息和所述旋转后的第二脸部关键点信息确定尺寸比例,所述尺寸比例用于指示所述第一脸部关键点信息指示的脸部尺寸与所述旋转后的第二脸部关键点信息指示的脸部尺寸之间的比值;
尺寸调整单元1724,用于按照所述尺寸比例调整所述旋转后的第二脸部关键点信息,得到调整后的第二脸部关键点信息,所述调整后的第二脸部关键点信息指示的脸部尺寸与所述第一脸部关键点信息一致;
关键点替换单元1725,用于在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述调整后的第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到所述第二图像特征表示。
在一些实施例中,所述第一确定单元1721,用于:
基于所述第一脸部关键点信息确定第一指示线,所述第一指示线用于指示所述第一脸部关键点信息对应的脸部方向;
基于所述第二脸部关键点信息确定第二指示线,所述第二指示线用于指示所述第二脸部关键点信息对应的脸部方向;
对所述第一指示线和所述第二指示线进行方向比对,并确定所述第一指示线和所述第二指示线之间的角度差异,得到所述偏向信息。
在一些实施例中,所述第二确定单元1723,用于:
基于所述第一脸部关键点信息确定第一脸部高度,所述第一脸部高度用于指示所述第一脸部关键点信息中最高关键点与最低关键点之间的高度差值;
基于所述旋转后的第二脸部关键点信息确定第二脸部高度,所述第二脸部高度用于指示所述第二脸部关键点信息中最高关键点与最低关键点之间的高度差值;
基于所述第一脸部高度和所述第二脸部高度的比值确定所述尺寸比例。
在一些实施例中,所述关键点替换单元1725,用于:
获取所述第一脸部关键点信息中的第一定位关键点和所述第二脸部关键点信息中的第二定位关键点,所述第一定位关键点和所述第二定位关键点之间存在对应关系;
将所述第二定位关键点与所述第一定位关键点对齐;
在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,按照所述第二定位关键点将所述第一脸部关键点信息替换为所述调整后的第二脸部关键点信息,得到所述第二图像特征表示。
在一些实施例中,所述处理模块1720,用于通过脸部替换模型中的文本特征模块,提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示,所述脸部替换模型是预先训练好的;
所述处理模块1720,还用于针对所述噪声图像提取的第一图像特征表示,通过所述脸部替换模型中的关键点模块,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到所述第二图像特征表示;
所述处理模块1720,还用于通过所述脸部替换模型中的编解码模块,对所述第二图像特征表示进行解码,得到替换后的所述目标图像。
在一些实施例中,所述处理模块1720,还用于:
获取样本模版图像、所述样本模版图像对应的样本噪声图像、所述样本模版图像对应的样本模版文本内容、样本模版掩码图像和样本模版脸部图像,所述样本模版掩码图像是基于所述样本模版图像上叠加样本掩码区域遮盖样本脸部区域得到的图像,所述样本模版脸部图像中包括所述样本脸部区域,所述样本脸部区域对应有样本脸部关键点信息;
通过候选脸部替换模型中预先训练好的文本特征模块,基于所述样本模版文本内容生成样本模版文本特征表示;
通过所述候选脸部替换模型中预先训练好的生成模块,基于所述样本噪声图像生成所述第一样本图像特征表示;
通过所述候选脸部替换模型中的候选关键点模块,在对所述第一样本图像特征表示进行去噪的过程中,基于所述样本掩码区域和所述样本模版文本特征表示,将所述样本脸部关键点信息替换到所述样本掩码区域,得到第二样本图像特征表示;
通过所述候选脸部替换模型中预先训练好的编解码模块,对所述第二样本图像特征表示进行解码,得到替换后的第一样本目标图像,所述第一样本目标图像是将所述样本模版掩码图像中所述样本掩码区域替换为所述样本模版脸部图像后得到的图像;
基于所述第一样本目标图像与所述样本模版图像之间的差异确定第一预测损失;
基于所述第一预测损失对所述候选关键点模块进行训练,得到包括所述关键点模块的所述脸部替换模型。
在一些实施例中,所述处理模块1720,还用于:
获取样本模版图像、所述样本模版图像对应的样本噪声图像和样本掩码图像,所述样本模版图像中包括样本脸部区域,所述样本掩码图像中划分有与所述样本脸部区域对应的样本掩码区域和样本其他区域,所述样本掩码区域为第一像素值,所述样本其他区域为第二像素值;
获取待替换至所述样本掩码区域的样本脸部图像,以及所述样本脸部图像对应的第二样本标识内容,所述样本脸部图像对应有第二样本脸部关键点信息;
通过候选脸部替换模型中的候选文本特征模块,基于所述第二样本标识内容生成第二样本文本特征表示;
通过所述候选脸部替换模型中的预先训练好的生成模块,基于所述样本噪声图像生成第一样本图像特征表示;
通过所述候选脸部替换模型中的预先训练好的关键点模块,在对所述第一样本图像特征表示进行去噪的过程中,基于所述第二样本文本特征表示,将所述第二样本脸部关键点信息替换到所述样本掩码区域,得到第二样本图像特征表示;
通过所述候选脸部替换模型中预先训练好的编解码模块,基于所述目标样本文本特征表示,对所述第二样本图像特征表示进行解码,得到替换后的第二样本目标图像;
获取预设的监督图像,基于所述监督图像和所述第二样本目标图像之间的差异确定第二预测损失,所述预设的监督图像是将所述样本掩码图像中所述样本掩码区域替换为所述样本脸部图像后得到的图像;
基于所述第二预测损失对所述候选文本特征模块进行训练,得到包括所述文本特征模块的所述脸部替换模型。
在一些实施例中,所述装置还包括显示模块1730,用于:
显示脸部图像采集界面,所述脸部图像采集界面用于采集得到所述脸部图像;
响应于接收到显示播放操作,在所述脸部图像采集界面中显示效果预演窗口,所述效果预演窗口用于实时显示与所述脸部图像采集界面中采集得到的脸部图像对应的所述目标图像。
综上所述,本申请实施例提供的装置,通过获取模版图像和模版图像对应的噪声图像,其中,模版图像中划分有与脸部区域对应的掩码区域,脸部区域对应有第一脸部关键点信息,获取待替换至掩码区域的脸部图像,脸部图像对应有第二脸部关键点信息,基于掩码区域、模版图像和噪声图像生成第一图像特征表示,在对第一图像特征表示进行去噪的过程中,基于第二脸部关键点信息对第一脸部关键点信息进行替换,得到第二图像特征表示,对第二图像特征表示进行解码,得到替换后的目标图像,目标图像是将模版图像中的脸部区域替换为脸部图像后得到的图像,在此过程中,在通过掩码区域确定脸部区域之后,通过将第二脸部关键点信息与第一脸部关键点信息进行替换,实现脸部关键点对齐功能,使得基于第二脸部关键点信息进行嵌入的脸部图像,能够以与第一脸部关键点信息所指示的脸部角度嵌入模版图像,从而提高脸部图像与模版图像的契合度,提高目标图像的生成质量,从而提高脸部图像替换效率。
需要说明的是:上述实施例提供的脸部图像替换装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
图19示出了本申请一个示例性实施例提供的计算机设备的结构框图。该计算机设备可以是终端或服务器,在本实施例中,以该计算机设备是终端为例进行说明。
通常,终端1900包括有:处理器1901和存储器1902。
处理器1901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1901可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1901可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1901还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1901所执行以实现本申请中方法实施例提供的脸部图像替换方法。
在一些实施例中,终端1900还包括其他组件,本领域技术人员可以理解,图19中示出的结构并不构成对终端1900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请的实施例还提供了一种计算机设备。该计算机设备包括处理器和存储器,该存储器中存储有至少一段计算机程序,至少一段计算机程序由处理器加载并执行以实现上述各方法实施例提供的脸部图像替换方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一段计算机程序,至少一段计算机程序由处理器加载并执行,以实现上述各方法实施例提供的脸部图像替换方法。
本申请的实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例中任一所述的脸部图像替换方法。
可选地,该计算机可读存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、固态硬盘(Solid State Drives,SSD)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(Resistance Random AccessMemory,ReRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种脸部图像替换方法,其特征在于,所述方法包括:
获取模版图像、所述模版图像对应的噪声图像和所述模版图像对应的模版文本内容,所述模版图像中划分有与脸部区域对应的掩码区域,所述脸部区域对应有第一脸部关键点信息,所述模版文本内容中包括用于指示所述脸部区域的第一标识内容;
获取待替换至所述掩码区域的脸部图像和所述脸部图像对应的第二标识内容,所述脸部图像对应有第二脸部关键点信息;
提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示;
针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示;
对所述第二图像特征表示进行解码,得到替换后的目标图像,所述目标图像是将所述模版图像中的所述脸部区域替换为所述脸部图像后得到的图像。
2.根据权利要求1所述的方法,其特征在于,所述在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示,包括:
基于所述第一脸部关键点信息和所述第二脸部关键点信息确定偏向信息,所述偏向信息用于描述所述第二脸部关键点信息与所述第一脸部关键点信息之间的偏转方向和偏向角度;
按照所述偏向信息旋转所述第二脸部关键点信息,得到旋转后的第二脸部关键点信息,所述旋转后的第二脸部关键点信息与所述第一脸部关键点信息的方向一致;
基于所述第一脸部关键点信息和所述旋转后的第二脸部关键点信息确定尺寸比例,所述尺寸比例用于指示所述第一脸部关键点信息指示的脸部尺寸与所述旋转后的第二脸部关键点信息指示的脸部尺寸之间的比值;
按照所述尺寸比例调整所述旋转后的第二脸部关键点信息,得到调整后的第二脸部关键点信息,所述调整后的第二脸部关键点信息指示的脸部尺寸与所述第一脸部关键点信息一致;
在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述调整后的第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到所述第二图像特征表示。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一脸部关键点信息和所述第二脸部关键点信息确定偏向信息,包括:
基于所述第一脸部关键点信息确定第一指示线,所述第一指示线用于指示所述第一脸部关键点信息对应的脸部方向;
基于所述第二脸部关键点信息确定第二指示线,所述第二指示线用于指示所述第二脸部关键点信息对应的脸部方向;
对所述第一指示线和所述第二指示线进行方向比对,并确定所述第一指示线和所述第二指示线之间的角度差异,得到所述偏向信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一脸部关键点信息和所述旋转后的第二脸部关键点信息确定尺寸比例,包括:
基于所述第一脸部关键点信息确定第一脸部高度,所述第一脸部高度用于指示所述第一脸部关键点信息中最高关键点与最低关键点之间的高度差值;
基于所述旋转后的第二脸部关键点信息确定第二脸部高度,所述第二脸部高度用于指示所述第二脸部关键点信息中最高关键点与最低关键点之间的高度差值;
基于所述第一脸部高度和所述第二脸部高度的比值确定所述尺寸比例。
5.根据权利要求2所述的方法,其特征在于,所述在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述文本特征表示,将所述调整后的第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到所述第二图像特征表示,包括:
获取所述第一脸部关键点信息中的第一定位关键点和所述第二脸部关键点信息中的第二定位关键点,所述第一定位关键点和所述第二定位关键点之间存在对应关系;
将所述第二定位关键点与所述第一定位关键点对齐;
在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,按照所述第二定位关键点将所述第一脸部关键点信息替换为所述调整后的第二脸部关键点信息,得到所述第二图像特征表示。
6.根据权利要求1至5任一所述的方法,其特征在于,所述提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示,包括:
通过脸部替换模型中的文本特征模块,提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示,所述脸部替换模型是预先训练好的;
所述针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示,包括:
针对所述噪声图像提取的第一图像特征表示,通过所述脸部替换模型中的关键点模块,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到所述第二图像特征表示;
所述对所述第二图像特征表示进行解码,得到替换后的目标图像,包括:
通过所述脸部替换模型中的编解码模块对所述第二图像特征表示进行解码,得到替换后的所述目标图像。
7.根据权利要求6所述的方法,其特征在于,所述通过脸部替换模型中的文本特征模块,提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示之前,还包括:
获取样本模版图像、所述样本模版图像对应的样本噪声图像、所述样本模版图像对应的样本模版文本内容、样本模版掩码图像和样本模版脸部图像,所述样本模版掩码图像是基于所述样本模版图像上叠加样本掩码区域遮盖样本脸部区域得到的图像,所述样本模版脸部图像中包括所述样本脸部区域,所述样本脸部区域对应有样本脸部关键点信息;
通过候选脸部替换模型中预先训练好的文本特征模块,基于所述样本模版文本内容生成样本模版文本特征表示;
通过所述候选脸部替换模型中预先训练好的生成模块,基于所述样本噪声图像生成第一样本图像特征表示;
通过所述候选脸部替换模型中的候选关键点模块,在对所述第一样本图像特征表示进行去噪的过程中,基于所述样本掩码区域和所述样本模版文本特征表示,将所述样本脸部关键点信息替换到所述样本掩码区域,得到第二样本图像特征表示;
通过所述候选脸部替换模型中预先训练好的编解码模块,对所述第二样本图像特征表示进行解码,得到替换后的第一样本目标图像,所述第一样本目标图像是将所述样本模版掩码图像中所述样本掩码区域替换为所述样本模版脸部图像后得到的图像;
基于所述第一样本目标图像与所述样本模版图像之间的差异确定第一预测损失;
基于所述第一预测损失对所述候选关键点模块进行训练,得到包括所述关键点模块的所述脸部替换模型。
8.根据权利要求6所述的方法,其特征在于,所述通过脸部替换模型中的文本特征模块,提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示之前,还包括:
获取样本模版图像、所述样本模版图像对应的样本噪声图像和样本掩码图像,所述样本模版图像中包括样本脸部区域,所述样本掩码图像中划分有与所述样本脸部区域对应的样本掩码区域和样本其他区域,所述样本掩码区域为第一像素值,所述样本其他区域为第二像素值;
获取待替换至所述样本掩码区域的样本脸部图像,以及所述样本脸部图像对应的第二样本标识内容,所述样本脸部图像对应有第二样本脸部关键点信息;
通过候选脸部替换模型中的候选文本特征模块,基于所述第二样本标识内容生成第二样本文本特征表示;
通过所述候选脸部替换模型中的预先训练好的生成模块,基于所述样本噪声图像生成第一样本图像特征表示;
通过所述候选脸部替换模型中的预先训练好的关键点模块,在对所述第一样本图像特征表示进行去噪的过程中,基于所述第二样本文本特征表示,将所述第二样本脸部关键点信息替换到所述样本掩码区域,得到第二样本图像特征表示;
通过所述候选脸部替换模型中预先训练好的编解码模块,基于所述第二样本文本特征表示,对所述第二样本图像特征表示进行解码,得到替换后的第二样本目标图像;
获取预设的监督图像,基于所述监督图像和所述第二样本目标图像之间的差异确定第二预测损失,所述预设的监督图像是将所述样本掩码图像中所述样本掩码区域替换为所述样本脸部图像后得到的图像;
基于所述第二预测损失对所述候选文本特征模块进行训练,得到包括所述文本特征模块的所述脸部替换模型。
9.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
显示脸部图像采集界面,所述脸部图像采集界面用于采集得到所述脸部图像;
响应于接收到显示播放操作,在所述脸部图像采集界面中显示效果预演窗口,所述效果预演窗口用于实时显示与所述脸部图像采集界面中采集得到的脸部图像对应的所述目标图像。
10.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
显示多个候选模版图像,所述候选模版图像中划分有所述脸部区域;
接收对所述多个候选模版图像中目标模版图像的选择操作;
获取多个候选脸部图像,所述多个候选脸部图像是待融合至所述目标模版图像的脸部图像;
显示多个目标图像,其中,第i个目标图像是将所述目标模版图像中的脸部区域替换为第i个候选脸部图像后得到的图像,i为正整数。
11.根据权利要求10所述的方法,其特征在于,所述显示多个目标图像之后,还包括:
响应于接收到评分操作,在所述多个目标图像上叠加显示所述多个目标图像分别对应的图像评分,其中,第i个图像评分用于指示所述第i个目标图像中所述目标模版图像与所述第i个候选脸部图像之间的契合度,所述目标图像用于结合所述图像评分对脸部替换模型进行迭代训练。
12.一种脸部图像替换装置,其特征在于,所述装置包括:
获取模块,用于获取模版图像、所述模版图像对应的噪声图像和所述模版图像对应的模版文本内容,所述模版图像中划分有与脸部区域对应的掩码区域,所述脸部区域对应有第一脸部关键点信息,所述模版文本内容中包括用于指示所述脸部区域的第一标识内容;
所述获取模块,还用于获取待替换至所述掩码区域的脸部图像和所述脸部图像对应的第二标识内容,所述脸部图像对应有第二脸部关键点信息;
处理模块,用于提取所述模版文本内容对应的模版文本特征表示,并将所述模版文本特征表示中与所述第一标识内容对应的第一文本特征表示替换为所述第二标识内容对应的第二文本特征表示,得到目标文本特征表示;
所述处理模块,还用于针对所述噪声图像提取的第一图像特征表示,在对所述第一图像特征表示进行去噪的过程中,基于所述掩码区域和所述目标文本特征表示,将所述第二脸部关键点信息与所述第一脸部关键点信息进行替换,得到第二图像特征表示;
所述处理模块,还用于对所述第二图像特征表示进行解码,得到替换后的目标图像,所述目标图像是将所述模版图像中的所述脸部区域替换为所述脸部图像后得到的图像。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的脸部图像替换方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的脸部图像替换方法。
CN202310883706.6A 2023-07-19 2023-07-19 脸部图像替换方法、装置、设备及存储介质 Active CN116596752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310883706.6A CN116596752B (zh) 2023-07-19 2023-07-19 脸部图像替换方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310883706.6A CN116596752B (zh) 2023-07-19 2023-07-19 脸部图像替换方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116596752A CN116596752A (zh) 2023-08-15
CN116596752B true CN116596752B (zh) 2023-12-08

Family

ID=87595978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310883706.6A Active CN116596752B (zh) 2023-07-19 2023-07-19 脸部图像替换方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116596752B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170109851A (ko) * 2016-03-22 2017-10-10 한국전자통신연구원 가려짐과 음영 기반의 화상 얼굴 교체 장치 및 방법
CN110163832A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 人脸融合方法、装置和终端
CN110648289A (zh) * 2019-08-29 2020-01-03 腾讯科技(深圳)有限公司 图像的加噪处理方法及装置
CN112053278A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 图像处理方法、装置及电子设备
CN112257657A (zh) * 2020-11-11 2021-01-22 网易(杭州)网络有限公司 脸部图像融合方法及装置、存储介质、电子设备
CN112330527A (zh) * 2020-05-29 2021-02-05 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备和介质
CN114677330A (zh) * 2022-03-03 2022-06-28 北京旷视科技有限公司 一种图像处理方法、电子设备及存储介质
CN115147261A (zh) * 2022-05-17 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质、设备及产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146199B (zh) * 2017-05-02 2020-01-17 厦门美图之家科技有限公司 一种人脸图像的融合方法、装置及计算设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170109851A (ko) * 2016-03-22 2017-10-10 한국전자통신연구원 가려짐과 음영 기반의 화상 얼굴 교체 장치 및 방법
CN110163832A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 人脸融合方法、装置和终端
CN112053278A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 图像处理方法、装置及电子设备
CN110648289A (zh) * 2019-08-29 2020-01-03 腾讯科技(深圳)有限公司 图像的加噪处理方法及装置
CN112330527A (zh) * 2020-05-29 2021-02-05 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备和介质
CN112257657A (zh) * 2020-11-11 2021-01-22 网易(杭州)网络有限公司 脸部图像融合方法及装置、存储介质、电子设备
CN114677330A (zh) * 2022-03-03 2022-06-28 北京旷视科技有限公司 一种图像处理方法、电子设备及存储介质
CN115147261A (zh) * 2022-05-17 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质、设备及产品

Also Published As

Publication number Publication date
CN116596752A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Kim et al. Deep virtual reality image quality assessment with human perception guider for omnidirectional image
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
US11475666B2 (en) Method of obtaining mask frame data, computing device, and readable storage medium
Lee et al. High‐resolution 360 video foveated stitching for real‐time VR
US11871086B2 (en) Method of displaying comment information, computing device, and readable storage medium
CN114097248B (zh) 一种视频流处理方法、装置、设备及介质
US10885718B2 (en) Methods and systems for representing a pre-modeled object within virtual reality data
Yang et al. An objective assessment method based on multi-level factors for panoramic videos
US11074759B2 (en) Apparatus, system, and method of providing a three dimensional virtual local presence
Liu et al. JND-Pano: Database for just noticeable difference of JPEG compressed panoramic images
US10762663B2 (en) Apparatus, a method and a computer program for video coding and decoding
Chen et al. Face swapping: realistic image synthesis based on facial landmarks alignment
CN112819689A (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
Xian et al. A content-oriented no-reference perceptual video quality assessment method for computer graphics animation videos
Sousa et al. Influencing wine tourists' decision-making with VR: The impact of immersive experiences on their behavioural intentions
CN116596752B (zh) 脸部图像替换方法、装置、设备及存储介质
CN116363245A (zh) 虚拟人脸生成方法、虚拟人脸直播方法以及装置
CN115065863B (zh) 视频生成方法、装置、电子设备及存储介质
Bajić et al. Metaverse: A Young Gamer's Perspective
TWI790560B (zh) 並排影像偵測方法與使用該方法的電子裝置
Guo et al. No-reference omnidirectional video quality assessment based on generative adversarial networks
KR20230141429A (ko) 이미지 프로세싱 방법 및 장치, 컴퓨터 디바이스, 컴퓨터-판독가능 저장 매체, 및 컴퓨터 프로그램 제품
CN115035219A (zh) 表情生成方法、装置和表情生成模型的训练方法、装置
CN113887354A (zh) 图像识别方法、装置、电子设备及存储介质
CN114943799A (zh) 一种面部图像处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091027

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant