CN118037891A - 图像处理方法及装置及相关产品 - Google Patents

图像处理方法及装置及相关产品 Download PDF

Info

Publication number
CN118037891A
CN118037891A CN202410175099.2A CN202410175099A CN118037891A CN 118037891 A CN118037891 A CN 118037891A CN 202410175099 A CN202410175099 A CN 202410175099A CN 118037891 A CN118037891 A CN 118037891A
Authority
CN
China
Prior art keywords
face
feature
image
features
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410175099.2A
Other languages
English (en)
Inventor
王奇勋
白须
王浩帆
秦泽奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuhang Technology Beijing Co ltd
Original Assignee
Shuhang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuhang Technology Beijing Co ltd filed Critical Shuhang Technology Beijing Co ltd
Priority to CN202410175099.2A priority Critical patent/CN118037891A/zh
Publication of CN118037891A publication Critical patent/CN118037891A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种图像处理方法及装置及相关产品。该方法包括:获取第一人脸图像和目标文本,目标文本为描述图像风格的文本;提取第一人脸图像的人脸特征;获取人脸姿态特征,人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;将人脸姿态特征与人脸特征融合,得到第一人脸图像中的人脸的身份特征;对目标文本进行特征提取处理,得到第一文本特征;利用第一文本特征和身份特征生成目标图像,目标图像中的人物的身份信息与身份特征所携带的信息匹配,目标图像的图像风格为目标文本所描述的图像风格。

Description

图像处理方法及装置及相关产品
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法及装置及相关产品。
背景技术
通过目前的图像处理技术可为人脸图像中的人脸生成具有特定图像风格的目标图像,由此可增添图像的趣味性、娱乐性。然而目标图像中的人物,相较于人脸图像中的人物存在失真。
发明内容
本申请提供一种图像处理方法及装置及相关产品,以减小生成的目标图像中的人物相较于人脸图像中的人物的失真。其中,相关产品包括图像处理装置、电子设备、计算机可读存储介质及计算机程序产品
第一方面,提供了一种图像处理方法,所述方法包括:
获取第一人脸图像和目标文本,所述目标文本为描述图像风格的文本;
提取所述第一人脸图像的人脸特征;
获取人脸姿态特征,所述人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;
将所述人脸姿态特征与所述人脸特征融合,得到所述第一人脸图像中的人脸的身份特征;
对所述目标文本进行特征提取处理,得到第一文本特征;
利用所述第一文本特征和所述身份特征生成目标图像,所述目标图像中的人物的身份信息与所述身份特征所携带的信息匹配,所述目标图像的图像风格为所述目标文本所描述的图像风格。
结合本申请任一实施方式,所述对所述目标文本进行特征提取处理,得到第一文本特征,包括:
利用第一模型对所述目标文本进行特征提取处理,得到所述第一文本特征,所述第一模型为用于提取文本的特征的模型;
所述利用所述第一文本特征和所述身份特征生成目标图像,包括:
利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,所述第二模型为用于生成图像的模型;
所述第一模型与所述第二模型为利用训练数据训练得到的,所述训练数据包括训练文本和训练图像,所述训练文本为描述图像风格的文本,所述训练图像的图像风格与所述训练文本所描述的图像风格相同,所述训练图像用于监督所述第二模型基于第二文本特征生成的图像,所述第二文本特征是所述第一模型对所述训练文本进行特征提取处理得到的。
结合本申请任一实施方式,所述训练文本所描述的图像风格与所述目标文本所描述的图像风格匹配。
结合本申请任一实施方式,所述利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,包括:
利用所述第二模型对所述第一文本特征和所述人脸特征进行解码处理,得到第一中间特征;
对所述身份特征进行特征提取处理,得到第二中间特征,所述第二中间特征的尺度与所述第一中间特征的尺度相同;
对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征;
利用所述第二模型对所述第三中间特征进行解码,得到所述目标图像。
结合本申请任一实施方式,所述对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征,包括:
获取所述第一中间特征的第一校正系数和所述第二中间特征的第二校正系数,所述第一校正系数、所述第二校正系数与所述目标匹配度呈正相关,所述第一校正系数与所述第二校正系数均为小于或等于1的非负数,所述目标匹配度为所述目标图像中的人物的身份信息与所述第一人脸图像中的人物的身份信息的匹配度;
利用所述第一校正系数对所述第一中间特征进行校正,得到第四中间特征;
利用所述第二校正系数对所述第二中间特征进行校正,得到第五中间特征;
对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征,包括:
基于所述第四中间特征中的第一属性特征和所述目标文本所描述的图像风格,确定所述第一属性特征的第一权重,所述第一属性特征携带第一人脸属性的特征信息;
基于所述第四中间特征中的第二属性特征和所述目标文本所描述的图像风格,确定所述第二属性特征的第二权重,所述第二属性特征携带第二人脸属性的特征信息,所述第一人脸属性与所述第二人脸属性为不同的人脸属性;
基于所述第一权重和所述第二权重,对所述第四中间特征中的所述第一属性特征和所述第二属性特征进行校正,得到第六中间特征;
对所述第五中间特征与所述第六中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述获取人脸姿态特征,包括:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征。
结合本申请任一实施方式,在所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征之前,所述方法还包括:
获取第二人脸图像,所述第二人脸图像与所述第一人脸图像为不同的图像;从所述第二人脸图像中提取出视角特征,所述视角特征包括所述第二人脸图像中的人脸的拍摄视角的信息;
所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征,包括:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征;基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征。
结合本申请任一实施方式,所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征,包括:
从所述第一人脸图像中提取出预设数量的五官关键点的特征,得到所述人脸关键点特征,所述五官关键点为人脸关键点中用于表征五官的关键点。
结合本申请任一实施方式,在所述基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征之前,所述方法还包括:
获取第三人脸图像,所述第三人脸图像与所述第一人脸图像、所述第二人脸图像均不同;
提取出所述第三人脸图像中的人脸的表情的特征,得到表情特征;
所述基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征,包括:
基于所述人脸关键点特征、所述视角特征和所述表情特征,得到所述人脸姿态特征。
第二方面,提供了一种图像处理装置,所述图像处理装置包括:
获取单元,用于获取第一人脸图像和目标文本,所述目标文本为描述图像风格的文本;
提取单元,用于提取所述第一人脸图像的人脸特征;
所述获取单元,用于获取人脸姿态特征,所述人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;
融合单元,用于将所述人脸姿态特征与所述人脸特征融合,得到所述第一人脸图像中的人脸的身份特征;
所述提取单元,用于对所述目标文本进行特征提取处理,得到第一文本特征;
生成单元,用于利用所述第一文本特征和所述身份特征生成目标图像,所述目标图像中的人物的身份信息与所述身份特征所携带的信息匹配,所述目标图像的图像风格为所述目标文本所描述的图像风格。
结合本申请任一实施方式,所述提取单元,具体用于:
利用第一模型对所述目标文本进行特征提取处理,得到所述第一文本特征,所述第一模型为用于提取文本的特征的模型;
所述生成单元,具体用于:
利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,所述第二模型为用于生成图像的模型;
所述第一模型与所述第二模型为利用训练数据训练得到的,所述训练数据包括训练文本和训练图像,所述训练文本为描述图像风格的文本,所述训练图像的图像风格与所述训练文本所描述的图像风格相同,所述训练图像用于监督所述第二模型基于第二文本特征生成的图像,所述第二文本特征是所述第一模型对所述训练文本进行特征提取处理得到的。
结合本申请任一实施方式,所述训练文本所描述的图像风格与所述目标文本所描述的图像风格匹配。
结合本申请任一实施方式,所述生成单元,具体用于:
利用所述第二模型对所述第一文本特征和所述人脸特征进行解码处理,得到第一中间特征;
对所述身份特征进行特征提取处理,得到第二中间特征,所述第二中间特征的尺度与所述第一中间特征的尺度相同;
对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征;
利用所述第二模型对所述第三中间特征进行解码,得到所述目标图像。
结合本申请任一实施方式,所述生成单元,具体用于:
获取所述第一中间特征的第一校正系数和所述第二中间特征的第二校正系数,所述第一校正系数、所述第二校正系数与所述目标匹配度呈正相关,所述第一校正系数与所述第二校正系数均为小于或等于1的非负数,所述目标匹配度为所述目标图像中的人物的身份信息与所述第一人脸图像中的人物的身份信息的匹配度;
利用所述第一校正系数对所述第一中间特征进行校正,得到第四中间特征;
利用所述第二校正系数对所述第二中间特征进行校正,得到第五中间特征;
对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述生成单元,具体用于:
基于所述第四中间特征中的第一属性特征和所述目标文本所描述的图像风格,确定所述第一属性特征的第一权重,所述第一属性特征携带第一人脸属性的特征信息;
基于所述第四中间特征中的第二属性特征和所述目标文本所描述的图像风格,确定所述第二属性特征的第二权重,所述第二属性特征携带第二人脸属性的特征信息,所述第一人脸属性与所述第二人脸属性为不同的人脸属性;
基于所述第一权重和所述第二权重,对所述第四中间特征中的所述第一属性特征和所述第二属性特征进行校正,得到第六中间特征;
对所述第五中间特征与所述第六中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述获取单元,具体用于:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征。
结合本申请任一实施方式,所述获取单元,还用于:
获取第二人脸图像,所述第二人脸图像与所述第一人脸图像为不同的图像;从所述第二人脸图像中提取出视角特征,所述视角特征包括所述第二人脸图像中的人脸的拍摄视角的信息;
所述获取单元,具体用于从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征;基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征。
结合本申请任一实施方式,所述获取单元,具体用于从所述第一人脸图像中提取出预设数量的五官关键点的特征,得到所述人脸关键点特征,所述五官关键点为人脸关键点中用于表征五官的关键点。
结合本申请任一实施方式,所述获取单元,还用于获取第三人脸图像,所述第三人脸图像与所述第一人脸图像、所述第二人脸图像均不同;
所述提取单元,还用于提取出所述第三人脸图像中的人脸的表情的特征,得到表情特征;
所述获取单元,具体用于基于所述人脸关键点特征、所述视角特征和所述表情特征,得到所述人脸姿态特征。
第三方面,提供了一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
本申请中,图像处理装置在获取第一人脸图像后,提取第一人脸图像的人脸特征。在获取描述图像风格的目标文本后,对目标文本进行特征提取处理,得到第一文本特征,其中,第一文本特征包括目标文本所描述的图像风格。在获取携带第一人脸图像中的人物的人脸姿态信息的人脸姿态特征后,将人脸姿态特征与人脸特征融合,得到第一人脸图像中的人脸的身份特征,这样,身份特征中的人脸姿态的信息与人脸姿态特征中的人脸姿态的信息相同。最后利用第一文本特征和身份特征生成目标图像,可使目标图像中的人物的身份信息与身份特征所携带的信息匹配,目标图像的图像风格为目标文本所描述的图像风格,从而可实现为第一人脸图像中的人脸生成具有特定图像风格的目标图像的情况下,提升目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。由此可减少目标图像中的人物相较于第一人脸图像中的人物的失真,进而提升目标图像中的人物的保真度。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种图像处理方法的流程示意图;
图2为本申请实施例提供的一种图像处理装置的结构示意图;
图3为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例的执行主体为图像处理装置,其中,图像处理装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的,图像处理装置可以是以下中的一种:计算机、服务器。
应理解,本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1,图1为本申请实施例提供的一种图像处理方法的流程示意图。
101、获取第一人脸图像和目标文本。
本申请实施例中,第一人脸图像为包括人脸的任意图像。例如,第一人脸图像可以是人物的自拍照,又例如,第一人脸图像可以是人物的照片。
在一种获取第一人脸图像的实现方式中,图像处理装置接收用户通过输入组件输入的第一人脸图像,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器。
在另一种获取第一人脸图像的实现方式中,图像处理装置接收终端发送的第一人脸图像。可选的,终端可以是以下任意一种:手机、计算机、平板电脑、服务器。
在又一种获取第一人脸图像的实现方式中,图像处理装置包括成像组件,图像处理装置通过该成像组件对人物进行拍摄,得到第一人脸图像,可选的,成像组件为摄像头。
本申请实施例中,目标文本用于描述所需生成的图像的内容,目标文本为描述图像风格的文本。目标文本所描述的图像风格可以是任意图像风格,例如,目标文本所描述的图像风格为漫画风格,又例如,目标文本所描述的图像风格为国风风格,又例如,目标文本所描述的图像风格为水墨风格。基于目标文本可生成图像风格为目标文本所描述的图像风格的图像。
可选的,目标文本还包括图像中的人物的属性。例如,目标文本为漫画风格的短发男生,此时,图像风格为漫画,图像中的人物的属性包括短发、男生。这样,在基于目标文本生成的图像中,图像风格为目标文本所描述的图像风格的图像,人物的属性为目标文本中的人物的属性。
可选的,目标文本还包括图像的背景的信息,其中,背景为图像中除人脸之外的内容。例如,目标文本为在漫画风格下一个短发男生在篮球场上打篮球,此时,图像风格为漫画,图像中的人物的属性包括短发、男生,背景为在篮球场上打篮球。这样,在基于目标文本生成的图像中,图像风格为目标文本所描述的图像风格的图像,人物的属性为目标文本所描述的人物的属性,背景与目标文本中的背景的信息匹配。
在一种获取目标文本的实现方式中,图像处理装置接收用户通过输入组件输入的目标文本。
在另一种获取目标文本的实现方式中,图像处理装置接收终端发送的目标文本。
应理解,本申请实施例中,图像处理装置获取第一人脸图像的步骤、获取目标文本的步骤,可以分开执行,也可以同时执行,本申请对此不做限定。
102、提取上述第一人脸图像的人脸特征。
本申请实施例中,人脸特征为第一人脸图像中的人脸的特征,该人脸特征用于携带第一人脸图像中的人物的身份信息,基于人脸特征可确定第一人脸图像中的人脸的身份。图像处理装置可通过任意可提取图像中的人脸的特征的方法,提取第一人脸图像的人脸特征。在一种可能实现的方式中,图像处理装置利用卷积神经网络(convolutionalneural networks,CNN)提取第一人脸图像的人脸特征。在另一种可能实现的方式中,图像处理装置利用方向梯度直方图(histogram of oriented gradient,HOG)提取第一人脸图像的人脸特征。在又一种可能实现的方式中,图像处理装置利用人脸特征提取模型对第一人脸图像进行特征提取,得到人脸特征。可选的,人脸特征提取模型通过以下训练过程训练得到:利用人脸特征提取模型对训练人脸图像进行特征提取处理,得到训练人脸图像中的人脸的训练人脸特征,对训练人脸特征进行解码得到重建人脸图像,既有重建人脸图像与训练人脸图像的差异,更新人脸特征提取模型的参数。
作为一种可选的实施方式,图像处理装置从第一人脸图像中截取人脸所覆盖的区域,得到第四人脸图像。对第四人脸图像进行特征提取处理,得到第一人脸图像的人脸特征。在该种实施方式中,图像处理装置通过从第一人脸图像中截取人脸所覆盖的区域,得到第四人脸图像,去除第一人脸图像中除人脸之外的图像内容。然后通过对第四人脸图像进行特征提取处理,得到第一人脸图像的人脸特征,可减少第一人脸图像中除人脸之外的图像内容的干扰,提高第一人脸图像的人脸特征的准确度。
作为一种可选的实施方式,图像处理装置从第一人脸图像中截取人脸所覆盖的区域,得到第四人脸图像。对第四人脸图像进行旋转,以使第四人脸图像中的参考线与第四人脸图像的像素坐标系的坐标轴平行,得到第五人脸图像,其中,在参考线为过第四人脸图像中的两个眼睛的直线的情况下,参考线与像素坐标系的横轴平行,在参考线为过第四人脸图像中的人中和眉心的直线的情况下,参考线与像素坐标系的纵轴平行。对第五人脸图像进行特征提取处理,得到第一人脸图像的人脸特征。在该种实施方式中,图像处理装置通过从第一人脸图像中截取人脸所覆盖的区域,得到第四人脸图像,去除第一人脸图像中除人脸之外的图像内容。然后通过对第四人脸图像得到第五人脸图像,可校正人脸的位置。再通过对第五人脸图像进行特征提取处理,得到第一人脸图像的人脸特征,可减少第一人脸图像中除人脸之外的图像内容的干扰,以及提高对第一人脸图像的人脸特征的识别准确度,进而可提高第一人脸图像的人脸特征的准确度。
103、获取人脸姿态特征。
本申请实施例中,人脸姿态特征携带第一人脸图像中的人物的人脸姿态信息。人脸姿态信息包括以下中的一个或一个以上:人脸轮廓的信息、五官的信息、表情信息、拍摄视角的信息、人体姿态的信息。
拍摄视角的信息为对图像中的人脸进行拍摄的视角的信息,在不同的拍摄视角下图像中的人脸的朝向不同,例如,在拍摄视角从人脸的左前方对人脸进行拍摄的情况下,人脸的朝向为朝左前方;在拍摄视角为对人脸的右脸进行拍摄的情况下,人脸的朝向为朝右。
人体姿态的信息包括图像中的头部的姿态信息和躯干的姿态信息。例如,在张三的大头照中,包括张三的头和张三的肩膀,那么人体姿态的信息包括张三的头部的姿态信息和张三的肩膀的姿态信息。又例如,在李四的半身照中,包括李四的头和李四的上半身,那么人体姿态的信息包括李四的头部的姿态信息和李四的上半身的姿态信息。再例如,在王五的自拍照中,包括王五的头和王五的手,那么人体姿态的信息包括王五的头部的姿态信息和王五的手部的姿态信息。
由于在利用人脸特征为第一人脸图像中的人脸生成目标图像的过程中,人脸特征中的身份信息可能会出现丢失,进而导致目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度低。而人物的身份信息又与人脸姿态信息有关,具体来讲,若两个人脸的人脸姿态信息的匹配度高,那么两个人物的身份信息的匹配度也高。
例如,在人脸姿态信息包括人脸轮廓的信息的情况下,若两个人脸的人脸姿态信息的匹配度高,那么目标图像中的人物的人脸轮廓与第一人脸图像中的人物的人脸轮廓的匹配度高,相应的,目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度高。
又例如,在人脸姿态信息包括五官的信息的情况下,若两个人脸的人脸姿态信息的匹配度高,那么目标图像中的人物的五官的位置与第一人脸图像中的人物的五官的位置的匹配度高,而且目标图像中的人物的五官之间的相对位置与第一人脸图像中的人物的五官之间的相对位置的匹配度高,相应的,目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度高。
因此,图像处理装置在获取人脸姿态特征后,可在后续生成目标图像的过程中,利用第一人脸图像中的人物的人脸姿态信息,从而提高目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。
在一种可能实现方式中,图像处理装置从第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征。其中,用于表征人脸轮廓的位置的轮廓关键点和用于表征五官的位置的五官关键点。此时的人脸姿态特征包括人脸轮廓的信息和五官的信息,具体来讲,人脸姿态特征包括人脸轮廓的位置信息、五官的位置信息、人脸轮廓与五官的相对位置信息、不同五官之间的相对位置信息。
在另一种可能实现的方式中,图像处理装置从第一人脸图像中提取出预设数量的五官关键点的特征,得到人脸姿态特征。此时的人脸姿态特征包括五官的信息,具体来讲,人脸姿态特征包括五官的位置信息、不同五官之间的相对位置信息。
考虑到人脸的表情与人脸关键点的位置有关,而在人脸姿态特征中的五官关键点的信息与第一人脸图像中的五官关键点的信息匹配度高的情况下,利用人脸姿态特征生成目标图像,会导致所生成的目标图像的表情与第一人脸图像中的表情的匹配度高,这样就难以改变第一人脸图像中的表情。因此在该种实现方式中,五官关键点的数量为预设数量,即五官关键点的数量是有限的。这样,人脸姿态特征中既包括五官的信息,人脸姿态特征中的人脸关键点的信息又不至于与第一人脸图像中的人脸关键点的信息匹配度过高。再基于人脸姿态特征生成目标图像,可提高目标图像中的人脸的五官信息与第一人脸图像中的五官信息的匹配度高,进而可提高目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。而且还可使目标图像的表情与第一人脸图像中的表情不同,从而可在改变第一人脸图像的图像风格的同时,改变第一人脸图像中的人脸的表情。可选的,预设数量为5,例如,人脸姿态特征包括第一人脸图像中的人脸的左眼关键点的信息、右眼关键点的信息、左嘴角关键点的信息、左嘴角关键点的信息、鼻子关键点的信息。
在又一种可能实现的方式中,图像处理装置获取第二人脸图像,其中,第二人脸图像与第一人脸图像为不同的图像。第一人脸图像中的人脸与第二人脸图像中的人脸可以相同,也可以不同。从第二人脸图像中提取出视角特征,其中,视角特征包括第二人脸图像中的人脸的拍摄视角的信息,例如,拍摄视角为对第二人脸图像中的人脸的左脸进行拍摄,又例如,拍摄视角为从第二人脸图像中的人脸的左上方以45度的角度进行拍摄。从第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征。可选的,图像处理装置从第一人脸图像中提取出预设数量的五官关键点的特征,得到人脸关键点特征。
基于人脸关键点特征与视角特征,得到人脸姿态特征。可选的,图像处理装置通过对人脸关键点特征与视角特征进行融合,得到人脸姿态特征,在人脸姿态特征中,人脸的拍摄视角与第二人脸图像中的人脸的拍摄视角相同,人脸轮廓的信息与第一人脸图像中的人脸轮廓的信息相同,五官的信息与第一人脸图像中的五官的信息相同。
在该种实现方式中,既可在改变第一人脸图像的图像风格的同时,改变第一人脸图像中的人脸的表情,又可改变第一人脸图像中的人脸的拍摄视角。
在又一种可能实现的方式中,图像处理装置在基于人脸关键点特征与视角特征,得到人脸姿态特征之前,获取第三人脸图像,其中,第三人脸图像与第一人脸图像、第二人脸图像均不同。提取出第三人脸图像中的人脸的表情的特征,得到表情特征,该表情特征携带第三人脸图像中的人脸的表情信息。基于人脸关键点特征、视角特征和表情特征,得到人脸姿态特征。可选的,图像处理装置通过对人脸关键点特征、视角特征和表情特征进行融合,得到人脸姿态特征,在人脸姿态特征中,人脸的拍摄视角与第二人脸图像中的人脸的拍摄视角相同,人脸轮廓的信息与第一人脸图像中的人脸轮廓的信息相同,五官的信息与第一人脸图像中的五官的信息相同,人脸的表情与第三人脸图像中的人脸的表情信息相同。
104、将上述人脸姿态特征与上述人脸特征融合,得到上述第一人脸图像中的人脸的身份特征。
图像处理装置通过将人脸姿态特征与人脸特征融合,可加强第一人脸图像中的人物的身份信息。这样可身份特征所携带的身份信息与第一人脸图像中的人脸的身份的匹配度。
在一种可能实现的方式中,图像处理装置通过对人脸姿态特征与人脸特征拼接,得到第一人脸图像中的人脸的身份特征。在另一种可能实现的方式中,图像处理装置通过对人脸姿态特征与人脸特征进行加权融合,得到第一人脸图像中的人脸的身份特征。
105、对上述目标文本进行特征提取处理,得到第一文本特征。
本申请实施例中,第一文本特征携带目标文本中的文本信息。在一种可能实现的方式中,图像处理装置利用文本特征提取模型对目标文本进行特征提取处理,得到第一文本特征,其中,文本特征提取模型可以是任意用于提取文本的特征的模型。第一文本特征携带的信息包括目标文本所描述的图像风格。
106、利用上述第一文本特征和上述身份特征生成目标图像。
本申请实施例中,图像处理装置利用第一文本特征和身份特征生成目标图像,可使目标图像中的人物的身份信息与身份特征所携带的信息匹配,目标图像的图像风格为上述目标文本所描述的图像风格。
在一种可能实现的方式中,图像处理装置利用在生成图像的过程中,利用第一文本特征和身份特征控制所生成的图像的内容,得到目标图像。可选的,图像处理装置利用图像生成模型生成图像,其中,图像生成模型为用于生成图像的模型。可选的,图像生成模型包括:扩散模型(diffusion model)、变分自动编码器(variational auto encoder,VAE)、优型网络(UNet)、对抗式生成网络(Generative Adversarial Network,GAN)、控制网络(ControlNet)。
可选的,图像处理装置将身份特征作为控制条件,控制图像生成模型利用第一文本特征生成目标图像。这样可提高目标图像中的人物的身份信息与身份特征所携带的身份信息的匹配度,进而可提高目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。
本申请实施例中,图像处理装置在获取第一人脸图像后,提取第一人脸图像的人脸特征。在获取描述图像风格的目标文本后,对目标文本进行特征提取处理,得到第一文本特征,其中,第一文本特征包括目标文本所描述的图像风格。在获取携带第一人脸图像中的人物的人脸姿态信息的人脸姿态特征后,将人脸姿态特征与人脸特征融合,得到第一人脸图像中的人脸的身份特征,这样,身份特征中的人脸姿态的信息与人脸姿态特征中的人脸姿态的信息相同。最后利用第一文本特征和身份特征生成目标图像,可使目标图像中的人物的身份信息与身份特征所携带的信息匹配,目标图像的图像风格为目标文本所描述的图像风格,从而可实现为第一人脸图像中的人脸生成具有特定图像风格的目标图像的情况下,提升目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。由此可减少目标图像中的人物相较于第一人脸图像中的人物的失真,进而提升目标图像中的人物的保真度。
作为一种可选的实施方式,图像处理装置在执行步骤105的过程中执行以下步骤:
201、利用第一模型对上述目标文本进行特征提取处理,得到上述第一文本特征。
本申请实施例中,第一模型为用于提取文本的特征的模型,即第一模型为上述文本特征提取模型。
在该种实施方式中,图像处理装置在执行步骤106的过程中执行以下步骤:
202、利用第二模型对上述第一文本特征、上述身份特征和上述人脸特征进行处理,生成上述目标图像。
本申请实施例中,第二模型为用于生成图像的模型,即第二模型为上述图像生成模型。
在该种实施方式中,第一模型与第二模型为利用训练数据训练得到的,其中,训练数据包括训练文本和训练图像,训练文本为描述图像风格的文本,训练图像的图像风格与训练文本所描述的图像风格相同,训练图像用于监督第二模型基于第二文本特征生成的图像,第二文本特征是第一模型对训练文本进行特征提取处理得到的。
在一种可能实现的方式中,第一模型与第二模型的训练过程如下:利用第一模型提取训练文本的特征,得到第二文本特征。第二模型利用第二文本特征生成图像,得到参考图像。基于参考图像与训练图像的第一差异得到第一损失,其中,第一差异与第一损失呈正相关。基于第一损失,更新第一模型的参数和第二模型的参数,直至第一损失收敛,完成对第一模型的训练和第二模型的训练。
可选的,图像处理装置将人脸特征转换至第一文本特征所在的空间得到转换后的人脸特征。再利用第二模型对第一文本特征、转换后的身份特征和人脸特征进行处理,生成目标图像。
在该种实施方式中,第一模型与第二模型是一起训练得到的,具体来讲,通过训练可使第一模型能更准确的提取出文本中的图像风格的信息,而第二模型能基于第一模型所提取出的图像风格的信息,生成具有该图像风格的图像。这样,利用第一模型和第二模型生成目标图像,可提升基于第一模型和第二模型生成的目标图像的质量。而且,由于人脸特征携带第一人脸图像中的人物的身份信息,第二模型通过利用人脸特征生成目标图像,可提升目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。
作为一种可选的实施方式,训练文本描述的图像风格与目标文本所描述的图像风格匹配。由于第一模型和第二模型是利用训练数据训练得到的,因此在第一模型和第二模型所生成的图像的图像风格为训练数据中的训练文本所描述的图像风格的情况下,第一模型和第二模型所生成的图像的图像风格的效果较佳。因此,在训练文本描述的图像风格与目标文本所描述的图像风格匹配的情况下,图像处理装置利用第一模型与第二模型生成图像风格为目标文本所描述的图像风格的目标图像,可提升目标图像的图像风格的效果。
在一种可能实现的场景中,针对不同的图像风格,可将第一模型和第二模型更换为相应的模型,以适配所需转换的图像风格。具体的,在文本特征提取模型与图像生成模型是利用同一训练数据训练得到的情况下,将训练数据中的训练文本所描述的图像风格,称为文本特征提取模型的风格类型以及图像生成模型的风格类型。将第一人脸图像中的人脸所需转换的图像风格称为目标风格。那么在确定目标风格后,可以目标风格为依据对文本特征模型集合中的文本特征模型进行检索,确定风格类型为目标风格的文本特征模型,作为第一模型。以目标风格为依据对图像生成模型集合中的图像生成模型进行检索,确定风格类型为目标风格的图像生成模型,作为第二模型。
可选的,在该场景中,除第一模型和第二模型之外的步骤可通过插件实现,这样就可通过将该插件与第一模型、第二模型结合,实现为第一人脸图像中的人脸生成具有特定图像风格的图像。
作为一种可选的实施方式。图像处理装置通过人脸特征提取模型提取第一人脸图像的人脸特征。通过第一模型对目标文本进行特征提取处理,得到第一文本特征。通过转换模型将人脸特征转换至第一文本特征所在的空间,得到转换后的人脸特征。通过第一交叉注意力机制(cross attention)对转换后的人脸特征进行处理得到注意力人脸特征,这样可使注意力人脸特征所携带的信息更有利于提高目标图像的身份信息与第一人脸图像的身份信息的匹配度。通过第二交叉注意力机制对第一文本特征进行处理得到注意力文本特征,这样可使注意力文本特征所携带的信息更有利于生成图像风格为目标文本所描述的图像风格的目标图像。通过融合模型将人脸姿态特征与人脸特征融合,得到第一人脸图像中的人脸的身份特征,其中,融合模型通过对人脸姿态特征与人脸特征依次进行多级特征提取处理得到身份特征,可选的,融合模型所执行的特征提取处理为下采样处理。通过第二模型利用第一文本特征、身份特征和转换后的人脸特征生成目标图像。
可选的,在使用人脸特征提取模型、第一模型、转换模型、第一交叉注意力机制、第二交叉注意力机制、图像融合模型和第二模型之前,可通过以下训练过程对这些模型进行训练:在利用原始人脸图像、原始文本和监督图像进行训练的过程中,可在不更新人脸特征提取模型的参数、第一模型的参数、第二交叉注意力机制的参数、第二模型的参数的情况下,更新转换模型的参数、第一交叉注意力机制的参数、图像融合模型的参数,其中,监督图像为监督信息。监督图像中的人物的身份信息与原始人脸图像中的人物的身份信息相同,且监督图像的图像风格与原始文本所描述的图像风格相同。具体的,从所述原始人脸图像中提取出预设数量的人脸关键点的特征,得到原始姿态特征后,利用人脸特征提取模型、第一模型、转换模型、第一交叉注意力机制、第二交叉注意力机制、图像融合模型和第二模型,对原始姿态特征、原始图像和原始文本进行处理,以生成所包含的人物的身份信息与原始图像中的人物的身份信息相同,且所具有的图像风格与原始文本所描述的图像风格相同的预测图像。然后基于预测图像与监督图像的差异,确定第二损失。再基于第二损失,对转换模型的参数、第一交叉注意力机制的参数和图像融合模型的参数进行反向梯度传播,以更新转换模型的参数、第一交叉注意力机制的参数和图像融合模型的参数,直至第二损失收敛,完成训练。这样可减少训练过程中所需更新的参数的数量,提升训练的速度。
作为一种可选的实施方式,图像处理装置在执行步骤202的过程中执行以下步骤:
301、利用上述第二模型对上述第一文本特征和上述人脸特征进行解码处理,得到第一中间特征。
在一种可能实现的方式中,第二模型对原始图像进行编码处理,得到原始图像的编码特征,其中,原始图像为没有图像内容的图像。可选的,原始图像为噪声(nosie)。对编码特征、第一文本特征和人脸特征进行解码处理,得到第一中间特征。可选的,解码处理通过上采样处理实现。
302、对上述身份特征进行特征提取处理,得到第二中间特征。
本申请实施例中,第二中间特征的尺度与第一中间特征的尺度相同。可选的,第一中间特征的尺度与第二中间特征的尺度相同,即第一中间特征的尺寸与第二中间特征的尺寸相同。
在一种可能实现的方式中,图像处理装置通过对身份特征进行下采样处理,得到第二中间特征。
303、对上述第一中间特征与上述第二中间特征进行融合,得到第三中间特征。
在一种可能实现的方式中,图像处理装置对第一中间特征与第二中间特征相加,得到第三中间特征。
304、利用上述第二模型对上述第三中间特征进行解码,得到上述目标图像。
在一种可能实现的方式中,第二模型对第三中间特征进行上采样处理,实现对第三中间特征的解码,得到目标图像。
在该种实施方式中,图像处理装置首先利用第二模型对第一文本特征和人脸特征进行解码处理,得到第一中间特征。然后对身份特征进行特征提取处理,得到尺度与第一中间特征相同的第二中间特征。再对第一中间特征与第二中间特征进行融合得到第三中间特征,可实现对相同尺度下的第一文本特征、人脸特征和身份特征的融合,进而可提升特征融合的效果。最后利用第二模型对第三中间特征进行解码,得到目标图像,可提升目标图像中的人物的身份信息与身份特征所携带的信息的匹配度,以及提升目标图像的图像风格的效果。
可选的,利用第二模型对第一文本特征和人脸特征,依次进行n级解码处理,得到n个第一中间特征,其中,前一级解码处理的处理结果为后一级解码处理的输入,每一级解码处理得到的特征的尺度均不同,且随着解码处理的级数的增大,解码处理的处理结果的尺度越来越大。对身份特征依次进行n级特征提取处理,得到n个第二中间特征,其中,前一级特征提取处理的处理结果为后一级特征提取处理的输入,每一级特征提取处理得到的特征的尺度均不同,且随着特征提取处理的级数的增大,特征提取处理的处理结果的尺度越来越大。图像处理装置对n个第一中间特征与n个第二中间特征中尺度相同的两个特征进行融合,得到融合特征,并将融合特征作为与第一中间特征对应的解码处理的处理结果。这样,可从对不同尺度下的第一文本特征、人脸特征和身份特征的融合,进而可进一步提升特征融合的效果。
作为一种可选的实施方式,图像处理装置在执行步骤303的过程中执行以下步骤:
401、获取上述第一中间特征的第一校正系数和上述第二中间特征的第二校正系数。
本申请实施例中,第一校正系数、第二校正系数与目标匹配度呈正相关,其中,第一校正系数与第二校正系数均为小于或等于1的非负数,目标匹配度为目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。
具体来讲,第一校正系数越大,目标图像携带的第一中间特征中的信息越多。由于第一中间特征通过对第一文本特征和人脸特征进行解码处理得到,而人脸特征携带第一人脸图像中的人物的身份信息,因此第一校正系数越大,目标图像携带的第一人脸图像中的人物的身份信息越多,相应的,目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度就越高。第二校正系数越大,目标图像携带的第二中间特征中的信息越多。由于第二中间特征通过对身份特征进行特征提取处理得到,而身份特征携带第一人脸图像中的人物的身份信息,因此第二校正系数越大,目标图像携带的第一人脸图像中的人物的身份信息越多,相应的,目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度就越高。
在一种可能实现的方式中,图像处理装置接收用户通过输入组件输入的第一校正系数和第二校正系数。
402、利用上述第一校正系数对上述第一中间特征进行校正,得到第四中间特征。
在一种可能实现的方式中,图像处理装置确定第一校正系数与第一中间特征的乘积,得到第四中间特征。
403、利用上述第二校正系数对上述第二中间特征进行校正,得到第五中间特征。
在一种可能实现的方式中,图像处理装置确定第二校正系数与第二中间特征的乘积,得到第五中间特征。
404、对上述第四中间特征与上述第五中间特征进行融合,得到上述第三中间特征。
在该种实施方式中,图像处理装置在获取第一中间特征的第一校正系数和第二中间特征的第二校正系数后,利用第一校正系数对第一中间特征进行校正,得到第四中间特征,利用第二校正系数对第二中间特征进行校正,得到第五中间特征。然后对第四中间特征与第五中间特征进行融合,得到第三中间特征。这样,在基于第三中间特征得到目标图像的情况下,可控制目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。
作为一种可选的实施方式,图像处理装置在执行步骤404的过程中执行以下步骤:
501、基于上述第四中间特征中的第一属性特征和上述目标文本所描述的图像风格,确定上述第一属性特征的第一权重。
本申请实施例中,第一属性特征携带第一人脸属性的特征信息。人脸属性包括:轮廓、五官、纹理。在一种可能实现的方式中,第四中间特征包括多个维度的数据,其中,不同维度的数据携带不同的人脸属性的特征信息。图像处理装置基于第四中间特征中的第一维度的数据,可确定第一属性特征,其中,第一维度的数据携带第一人脸属性的特征信息。在另一种可能实现的方式中,图像处理装置通过对第四中间特征进行特征提取处理,可确定第四中间特征中的第一属性特征。
对于同一人脸属性,以不同的图像风格呈现时,所需改变程度不同,例如,在所需呈现的图像风格为人物写真的情况下,应尽可能的保留更多的人脸纹理,以及保留更清晰的轮廓,此时,纹理的改变程度和轮廓的改变程度均较小。又例如,在所需呈现的图像风格为漫画风格的情况下,需去除人脸纹理,以及需要与漫画风格的匹配的五官,此时,纹理的改变程度和五官的改变程度均较大。
因此,图像处理装置基于第一人脸属性和目标文本所描述的图像风格,确定第一属性特征的第一权重,其中,第一权重表征第一人脸属性的改变程度,具体的,第一权重越大,第一人脸属性的改变程度越小。可选的,第二权重为小于或等于1的非负数。
502、基于上述第四中间特征中的第二属性特征和上述目标文本所描述的图像风格,确定上述第二属性特征的第二权重。
本申请实施例中,第二属性特征携带第二人脸属性的特征信息。在一种可能实现的方式中,第四中间特征包括多个维度的数据,其中,不同维度的数据携带不同的人脸属性的特征信息。图像处理装置基于第四中间特征中的第二维度的数据,可确定第二属性特征,其中,第二维度的数据携带第二人脸属性的特征信息。在另一种可能实现的方式中,图像处理装置通过对第四中间特征进行特征提取处理,可确定第四中间特征中的第二属性特征。
如步骤502所述,对于同一人脸属性,以不同的图像风格呈现时,所需改变程度不同,因此,图像处理装置基于第二属性特征和目标文本所描述的图像风格,确定第二属性特征的第二权重,其中,第二权重表征第二人脸属性的改变程度,具体的,第二权重越大,第二人脸属性的改变程度越小。可选的,第二权重为小于或等于1的非负数。
503、基于上述第一权重和上述第二权重,对上述第四中间特征中的上述第一属性特征和上述第二属性特征进行校正,得到第六中间特征。
在一种可能实现的方式中,图像处理装置将第一权重与第四中间特征中的第一属性特征的相乘,并将第二权重与第四中间特征中的第二属性特征的相乘,得到第六中间特征。
504、对上述第五中间特征与上述第六中间特征进行融合,得到上述第三中间特征。
在该种实施方式中,图像处理装置基于第四中间特征中的第一属性特征和目标文本所描述的图像风格,确定第一属性特征的第一权重,其中,第一属性特征携带第一人脸属性的特征信息。基于第四中间特征中的第二属性特征和目标文本所描述的图像风格,确定第二属性特征的第二权重,其中,第二属性特征携带第二人脸属性的特征信息。然后基于第一权重和第二权重,对第四中间特征中的第一属性特征和第二属性特征进行校正,得到第六中间特征。对第五中间特征与第六中间特征进行融合,得到第三中间特征,可提高第三中间特征中的第一人脸属性与目标文本所描述的图像风格的匹配度,以及提高第三中间特征中的第二人脸属性与目标文本所描述的图像风格的匹配度。
作为一种可选的实施方式,图像处理装置通过执行以下步骤获取第一人脸图像:对两张或两张以上的第四人脸图像中的人脸进行融合,得到第一人脸图像,其中,任意两张第四人脸图像中的人脸相同,且任意两张第四人脸图像中的人脸的拍摄视角不同。例如,两张或两张以上的第四人脸图像包括第四人脸图像a和第四人脸图像b,其中,第四人脸图像a和第四人脸图像b均包括张三的人脸,第四人脸图像a中张三的人脸的拍摄视角为仰视,第四人脸图像b中张三的人脸的拍摄视角为俯视。
在该种实施方式中,由于不同的第四人脸图像携带的身份信息不同,图像处理装置通过对两张或两张以上的第四人脸图像中的人脸进行融合,得到第一人脸图像,可丰富第一人脸图像中的人物的身份信息。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图2,图2为本申请实施例提供的一种图像处理装置的结构示意图,该图像处理装置1包括:获取单元11、提取单元12、融合单元13、生成单元14,具体的:
获取单元11,用于获取第一人脸图像和目标文本,所述目标文本为描述图像风格的文本;
提取单元12,用于提取所述第一人脸图像的人脸特征;
所述获取单元11,用于获取人脸姿态特征,所述人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;
融合单元13,用于将所述人脸姿态特征与所述人脸特征融合,得到所述第一人脸图像中的人脸的身份特征;
所述提取单元12,用于对所述目标文本进行特征提取处理,得到第一文本特征;
生成单元14,用于利用所述第一文本特征和所述身份特征生成目标图像,所述目标图像中的人物的身份信息与所述身份特征所携带的信息匹配,所述目标图像的图像风格为所述目标文本所描述的图像风格。
结合本申请任一实施方式,所述提取单元12,具体用于:
利用第一模型对所述目标文本进行特征提取处理,得到所述第一文本特征,所述第一模型为用于提取文本的特征的模型;
所述生成单元14,具体用于:
利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,所述第二模型为用于生成图像的模型;
所述第一模型与所述第二模型为利用训练数据训练得到的,所述训练数据包括训练文本和训练图像,所述训练文本为描述图像风格的文本,所述训练图像的图像风格与所述训练文本所描述的图像风格相同,所述训练图像用于监督所述第二模型基于第二文本特征生成的图像,所述第二文本特征是所述第一模型对所述训练文本进行特征提取处理得到的。
结合本申请任一实施方式,所述训练文本所描述的图像风格与所述目标文本所描述的图像风格匹配。
结合本申请任一实施方式,所述生成单元14,具体用于:
利用所述第二模型对所述第一文本特征和所述人脸特征进行解码处理,得到第一中间特征;
对所述身份特征进行特征提取处理,得到第二中间特征,所述第二中间特征的尺度与所述第一中间特征的尺度相同;
对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征;
利用所述第二模型对所述第三中间特征进行解码,得到所述目标图像。
结合本申请任一实施方式,所述生成单元14,具体用于:
获取所述第一中间特征的第一校正系数和所述第二中间特征的第二校正系数,所述第一校正系数、所述第二校正系数与所述目标匹配度呈正相关,所述第一校正系数与所述第二校正系数均为小于或等于1的非负数,所述目标匹配度为所述目标图像中的人物的身份信息与所述第一人脸图像中的人物的身份信息的匹配度;
利用所述第一校正系数对所述第一中间特征进行校正,得到第四中间特征;
利用所述第二校正系数对所述第二中间特征进行校正,得到第五中间特征;
对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述生成单元14,具体用于:
基于所述第四中间特征中的第一属性特征和所述目标文本所描述的图像风格,确定所述第一属性特征的第一权重,所述第一属性特征携带第一人脸属性的特征信息;
基于所述第四中间特征中的第二属性特征和所述目标文本所描述的图像风格,确定所述第二属性特征的第二权重,所述第二属性特征携带第二人脸属性的特征信息,所述第一人脸属性与所述第二人脸属性为不同的人脸属性;
基于所述第一权重和所述第二权重,对所述第四中间特征中的所述第一属性特征和所述第二属性特征进行校正,得到第六中间特征;
对所述第五中间特征与所述第六中间特征进行融合,得到所述第三中间特征。
结合本申请任一实施方式,所述获取单元11,具体用于:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征。
结合本申请任一实施方式,所述获取单元11,还用于:
获取第二人脸图像,所述第二人脸图像与所述第一人脸图像为不同的图像;从所述第二人脸图像中提取出视角特征,所述视角特征包括所述第二人脸图像中的人脸的拍摄视角的信息;
所述获取单元11,具体用于从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征;基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征。
结合本申请任一实施方式,所述获取单元11,具体用于从所述第一人脸图像中提取出预设数量的五官关键点的特征,得到所述人脸关键点特征,所述五官关键点为人脸关键点中用于表征五官的关键点。
结合本申请任一实施方式,所述获取单元11,还用于获取第三人脸图像,所述第三人脸图像与所述第一人脸图像、所述第二人脸图像均不同;
所述提取单元12,还用于提取出所述第三人脸图像中的人脸的表情的特征,得到表情特征;
所述获取单元11,具体用于基于所述人脸关键点特征、所述视角特征和所述表情特征,得到所述人脸姿态特征。
本申请实施例中,图像处理装置在获取第一人脸图像后,提取第一人脸图像的人脸特征。在获取描述图像风格的目标文本后,对目标文本进行特征提取处理,得到第一文本特征,其中,第一文本特征包括目标文本所描述的图像风格。在获取携带第一人脸图像中的人物的人脸姿态信息的人脸姿态特征后,将人脸姿态特征与人脸特征融合,得到第一人脸图像中的人脸的身份特征,这样,身份特征中的人脸姿态的信息与人脸姿态特征中的人脸姿态的信息相同。最后利用第一文本特征和身份特征生成目标图像,可使目标图像中的人物的身份信息与身份特征所携带的信息匹配,目标图像的图像风格为目标文本所描述的图像风格,从而可实现为第一人脸图像中的人脸生成具有特定图像风格的目标图像的情况下,提升目标图像中的人物的身份信息与第一人脸图像中的人物的身份信息的匹配度。由此可减少目标图像中的人物相较于第一人脸图像中的人物的失真,进而提升目标图像中的人物的保真度。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图3为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备2包括处理器21,存储器22。可选的,该电子设备2还包括输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。可选的,处理器21可以是多个CPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,如该存储器22可用于存储通过输入装置23获取的第一人脸图像和目标文本,又或者该存储器22还可用于存储通过处理器21生成的目标图像等等,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图3仅仅示出了一种电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digitalversatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (14)

1.一种图像处理方法,其特征在于,所述方法包括:
获取第一人脸图像和目标文本,所述目标文本为描述图像风格的文本;
提取所述第一人脸图像的人脸特征;
获取人脸姿态特征,所述人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;
将所述人脸姿态特征与所述人脸特征融合,得到所述第一人脸图像中的人脸的身份特征;
对所述目标文本进行特征提取处理,得到第一文本特征;
利用所述第一文本特征和所述身份特征生成目标图像,所述目标图像中的人物的身份信息与所述身份特征所携带的信息匹配,所述目标图像的图像风格为所述目标文本所描述的图像风格。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行特征提取处理,得到第一文本特征,包括:
利用第一模型对所述目标文本进行特征提取处理,得到所述第一文本特征,所述第一模型为用于提取文本的特征的模型;
所述利用所述第一文本特征和所述身份特征生成目标图像,包括:
利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,所述第二模型为用于生成图像的模型;
所述第一模型与所述第二模型为利用训练数据训练得到的,所述训练数据包括训练文本和训练图像,所述训练文本为描述图像风格的文本,所述训练图像的图像风格与所述训练文本所描述的图像风格相同,所述训练图像用于监督所述第二模型基于第二文本特征生成的图像,所述第二文本特征是所述第一模型对所述训练文本进行特征提取处理得到的。
3.根据权利要求2所述的方法,其特征在于,所述训练文本所描述的图像风格与所述目标文本所描述的图像风格匹配。
4.根据权利要求2或3所述的方法,其特征在于,所述利用第二模型对所述第一文本特征、所述身份特征和所述人脸特征进行处理,生成所述目标图像,包括:
利用所述第二模型对所述第一文本特征和所述人脸特征进行解码处理,得到第一中间特征;
对所述身份特征进行特征提取处理,得到第二中间特征,所述第二中间特征的尺度与所述第一中间特征的尺度相同;
对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征;
利用所述第二模型对所述第三中间特征进行解码,得到所述目标图像。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一中间特征与所述第二中间特征进行融合,得到第三中间特征,包括:
获取所述第一中间特征的第一校正系数和所述第二中间特征的第二校正系数,所述第一校正系数、所述第二校正系数与所述目标匹配度呈正相关,所述第一校正系数与所述第二校正系数均为小于或等于1的非负数,所述目标匹配度为所述目标图像中的人物的身份信息与所述第一人脸图像中的人物的身份信息的匹配度;
利用所述第一校正系数对所述第一中间特征进行校正,得到第四中间特征;
利用所述第二校正系数对所述第二中间特征进行校正,得到第五中间特征;
对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述第四中间特征与所述第五中间特征进行融合,得到所述第三中间特征,包括:
基于所述第四中间特征中的第一属性特征和所述目标文本所描述的图像风格,确定所述第一属性特征的第一权重,所述第一属性特征携带第一人脸属性的特征信息;
基于所述第四中间特征中的第二属性特征和所述目标文本所描述的图像风格,确定所述第二属性特征的第二权重,所述第二属性特征携带第二人脸属性的特征信息,所述第一人脸属性与所述第二人脸属性为不同的人脸属性;
基于所述第一权重和所述第二权重,对所述第四中间特征中的所述第一属性特征和所述第二属性特征进行校正,得到第六中间特征;
对所述第五中间特征与所述第六中间特征进行融合,得到所述第三中间特征。
7.根据权利要求1至3中任意一项所述的方法,其特征在于,所述获取人脸姿态特征,包括:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征。
8.根据权利要求7所述的方法,其特征在于,在所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征之前,所述方法还包括:
获取第二人脸图像,所述第二人脸图像与所述第一人脸图像为不同的图像;
从所述第二人脸图像中提取出视角特征,所述视角特征包括所述第二人脸图像中的人脸的拍摄视角的信息;
所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到所述人脸姿态特征,包括:
从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征;
基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征。
9.根据权利要求8所述的方法,其特征在于,所述从所述第一人脸图像中提取出预设数量的人脸关键点的特征,得到人脸关键点特征,包括:
从所述第一人脸图像中提取出预设数量的五官关键点的特征,得到所述人脸关键点特征,所述五官关键点为人脸关键点中用于表征五官的关键点。
10.根据权利要求8所述的方法,其特征在于,在所述基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征之前,所述方法还包括:
获取第三人脸图像,所述第三人脸图像与所述第一人脸图像、所述第二人脸图像均不同;
提取出所述第三人脸图像中的人脸的表情的特征,得到表情特征;
所述基于所述人脸关键点特征与所述视角特征,得到所述人脸姿态特征,包括:
基于所述人脸关键点特征、所述视角特征和所述表情特征,得到所述人脸姿态特征。
11.一种图像处理装置,其特征在于,所述图像处理装置包括:
获取单元,用于获取第一人脸图像和目标文本,所述目标文本为描述图像风格的文本;
提取单元,用于提取所述第一人脸图像的人脸特征;
所述获取单元,用于获取人脸姿态特征,所述人脸姿态特征携带所述第一人脸图像中的人物的人脸姿态信息;
融合单元,用于将所述人脸姿态特征与所述人脸特征融合,得到所述第一人脸图像中的人脸的身份特征;
所述提取单元,用于对所述目标文本进行特征提取处理,得到第一文本特征;
生成单元,用于利用所述第一文本特征和所述身份特征生成目标图像,所述目标图像中的人物的身份信息与所述身份特征所携带的信息匹配,所述目标图像的图像风格为所述目标文本所描述的图像风格。
12.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至10中任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至10中任意一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或指令;在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行权利要求1至10中任意一项所述的方法。
CN202410175099.2A 2024-02-07 2024-02-07 图像处理方法及装置及相关产品 Pending CN118037891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410175099.2A CN118037891A (zh) 2024-02-07 2024-02-07 图像处理方法及装置及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410175099.2A CN118037891A (zh) 2024-02-07 2024-02-07 图像处理方法及装置及相关产品

Publications (1)

Publication Number Publication Date
CN118037891A true CN118037891A (zh) 2024-05-14

Family

ID=90988570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410175099.2A Pending CN118037891A (zh) 2024-02-07 2024-02-07 图像处理方法及装置及相关产品

Country Status (1)

Country Link
CN (1) CN118037891A (zh)

Similar Documents

Publication Publication Date Title
CN113569791B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN109657554B (zh) 一种基于微表情的图像识别方法、装置以及相关设备
CN111476200B (zh) 基于生成对抗网络的人脸去识别化生成方法
CN111754415B (zh) 人脸图像处理方法及装置、图像设备及存储介质
US11816880B2 (en) Face recognition method and apparatus, computer device, and storage medium
CN110555896B (zh) 一种图像生成方法、装置以及存储介质
CN111598051B (zh) 一种脸部验证方法、装置、设备及可读存储介质
CN110728319B (zh) 一种图像生成方法、装置以及计算机存储介质
CN111046759A (zh) 人脸识别方法及相关装置
CN111108508A (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN111311733A (zh) 三维模型处理方法及装置、处理器、电子设备及存储介质
WO2023184817A1 (zh) 图像处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN114708644B (zh) 一种基于家庭基因模板的人脸识别方法和系统
CN111597928A (zh) 三维模型处理方法及装置、电子设备、存储介质
CN113327191A (zh) 人脸图像合成方法及装置
CN111597926A (zh) 图像处理方法及装置、电子设备及存储介质
CN110321009B (zh) Ar表情处理方法、装置、设备和存储介质
JP7479507B2 (ja) 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム
CN118037891A (zh) 图像处理方法及装置及相关产品
WO2022252372A1 (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN115708135A (zh) 人脸识别模型的处理方法、人脸识别方法及装置
KR102532848B1 (ko) 바디 쉐입 기반의 아바타 생성 방법 및 장치
CN117252791A (zh) 图像处理方法、装置、电子设备及存储介质
CN116363726A (zh) 人脸融合方法、装置、计算机设备及存储介质
CN116168429A (zh) 图像处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination