CN115700772A - 人脸动画生成方法及装置 - Google Patents
人脸动画生成方法及装置 Download PDFInfo
- Publication number
- CN115700772A CN115700772A CN202110825987.0A CN202110825987A CN115700772A CN 115700772 A CN115700772 A CN 115700772A CN 202110825987 A CN202110825987 A CN 202110825987A CN 115700772 A CN115700772 A CN 115700772A
- Authority
- CN
- China
- Prior art keywords
- face
- key point
- sample
- information
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种人脸动画生成方法及装置,所述方法包括:获取目标人脸图像,对目标人脸图像进行关键点特征提取,得到人脸关键点特征;获取目标音频与文本信息,基于自然语言处理技术对目标音频与文本信息进行情感语义分析,得到情感语义特征,基于情感语义特征进行表情动作特征提取,得到表情动作特征;对目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;基于表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;将目标人脸图像和人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。本发明能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种人脸动画生成方法及装置。
背景技术
在人工智能技术中,虚拟人物交互得到越来越多的应用。其中,虚拟人物的面部动作画面包含了在虚拟人物说话场景下的口型动作,以及在接收用户信息或说话场景下的情感表情。
目前,相关技术中面部合成方法实现了音节、嘴型和音频的一致性,忽略了音频与文本的语义情感信息,导致生成的面部动画与真实的人际交流存在明显差异,并且,没有实现在虚拟人物接收用户音频信息的场景下的面部动画。
综上,相关技术中忽略了音频与文本的语义情感信息,导致生成的面部动画与真实的人际交流存在明显差异,并且,没有实现在虚拟人物接收用户音频信息的场景下的面部动画的技术问题亟待解决。
发明内容
本发明提供一种人脸动画生成方法及装置,用以解决相关技术中忽略了音频与文本的语义情感信息,导致生成的面部动画与真实的人际交流存在明显差异,并且,没有实现在虚拟人物接收用户音频信息的场景下的面部动画的技术问题。
第一方面,本发明提供一种人脸动画生成方法,包括:
获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
在一个实施例中,所述基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,具体包括:
基于所述表情动作特征和所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息;或者,
基于所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息。
在一个实施例中,所述图像转换生成器是基于人脸图像样本、音频与文本信息样本以及所述人脸图像样本对应的面部动画图像帧样本进行生成对抗训练得到。
在一个实施例中,所述方法还包括:基于生成对抗训练得到所述图像转换生成器;
其中,所述基于生成对抗训练得到所述图像转换生成器,包括:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
在一个实施例中,所述基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本,包括:
基于所述表情动作特征样本和所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本;或者,
基于所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本。
在一个实施例中,所述基于所述情感语义特征进行表情动作特征提取,得到表情动作特征,包括:
将所述情感语义特征,或者将所述情感语义特征和目标音频,输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
第二方面,本发明提供一种人脸动画生成装置,包括:
第一特征提取模块,用于获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
第二特征提取模块,用于获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
时序抽取模块,用于对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
位移变换模块,用于基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
生成模块,用于将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
在一个实施例中,还包括:训练模块,用于基于生成对抗训练得到所述图像转换生成器;
所述训练模块,具体用于:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
第三方面,本发明提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述人脸动画生成方法的步骤。
第四方面,本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面所述人脸动画生成方法的步骤。
本发明提供的人脸动画生成方法及装置,通过获取目标人脸图像,对目标人脸图像进行关键点特征提取,得到人脸关键点特征,获取目标音频与文本信息,基于自然语言处理技术对目标音频与文本信息进行情感语义分析,得到情感语义特征,基于情感语义特征进行表情动作特征提取,得到表情动作特征,对目标音频与文本信息按照时序进行信息抽取,得到语音信息帧,基于表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,将目标人脸图像和人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧,能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的人脸动画生成方法的流程示意图之一;
图2是本发明提供的人脸动画生成方法的流程示意图之二;
图3是本发明提供的人脸动画生成装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决相关技术中忽略了音频与文本的语义情感信息,导致生成的面部动画与真实的人际交流存在明显差异,并且,没有实现在虚拟人物接收用户音频信息的场景下的面部动画的技术问题,本发明实施例提供一种人脸动画生成方法,图1是本发明实施例提供的人脸动画生成方法的流程示意图之一。如图1所示,该方法包括以下步骤:
步骤100、获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征。
目标人脸图像包括至少一个人脸图像。
可选地,对所述目标人脸图像进行关键点特征提取,具体包括:
基于卷积神经网络模型对所述目标人脸图像进行关键点特征提取。
人脸关键点特征用于表征人脸图像的面部结构以及纹理信息。
一种实施方式中,获取目标人脸图像,基于卷积神经网络模型对目标人脸图像进行关键点特征提取,得到人脸关键点特征。
步骤101、获取目标音频与文本信息,对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征。
可选地,采用自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征。
在自然语言处理领域,音频和文本信息,一般被归一化为统一的文本形式。其中音频转换为文本的技术已经应用了较长时间且相对成熟稳定。对于文本信息的语义和情感分析,现有的自然语言处理技术可以提取出文本的意图信息,以及情感信息。因此,本申请实施例可以采用自然语言处理技术对目标音频与文本信息进行情感语义分析,得到情感语义特征。
其中,情感语义特征用于表征情感语义信息,情感语义信息包括愤怒、开心或沮丧等。
由于本申请最终要生成带有情感表情的人脸动画,因此,在得到情感语义特征之后,还需要对情感语义特征进行进一步地特征提取,得到表情动作特征,并利用表情动作特征去指导面部关键点发生位移变换。
此处表情动作特征用于描述情感语义特征对应的面部动作。
可选地,所述基于所述情感语义特征进行表情动作特征提取,得到表情动作特征,包括:
将所述情感语义特征,或者将所述情感语义特征和目标音频,输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
一种实施方式中,将所述情感语义特征输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
一种实施方式,将所述情感语义特征和目标音频输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
步骤102、对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧。
可以理解的是,还需要利用可提取时序信息的网络,对目标音频与文本信息按照时序进行信息抽取,以用于对人脸关键点的位置进行逐帧指导变换,由此来保证后续图像转换生成器生成的图像是时域连续的。
其中,语音信息帧用于表征时序化的语音信息。
步骤103、基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息。
其中,人脸关键点位移信息包括在虚拟人物说话场景下的人脸关键点位移信息和在虚拟人物接收用户音频信息场景下的人脸关键点位移信息中的至少一项。
可以理解的是,为了生成人脸动画,基于表情动作特征、语音信息帧对人脸关键点特征进行逐帧位移变换,得到人脸关键点位移信息。
人脸动画可以是虚拟人物说话场景下的人脸动画,也可以是在虚拟人物倾听用户说话场景下的人脸动画。
人脸关键点位移信息包括多帧动画图像帧对应的人脸关键点坐标信息。
步骤104、将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
本申请实施例利用生成对抗网络中的生成器生成面部动画图像帧。
可选地,所述图像转换生成器是基于人脸图像样本、音频与文本信息样本以及所述人脸图像样本对应的面部动画图像帧样本进行生成对抗训练得到。
可选地,面部动画图像帧包括在虚拟人物说话场景下的面部动画图像帧和在虚拟人物接收用户音频信息场景下的面部动画图像帧中的至少一项。
一种实施方式中,将目标人脸图像和在虚拟人物说话场景下的人脸关键点位移信息输入训练好的图像转换生成器,得到在虚拟人物说话场景下的面部动画图像帧。
一种实施方式中,将目标人脸图像和在虚拟人物接收用户音频信息场景下的人脸关键点位移信息输入训练好的图像转换生成器,得到在虚拟人物接收用户音频信息场景下的面部动画图像帧,。
本发明实施例提供的人脸动画生成方法,通过获取目标人脸图像,对目标人脸图像进行关键点特征提取,得到人脸关键点特征,获取目标音频与文本信息,基于自然语言处理技术对目标音频与文本信息进行情感语义分析,得到情感语义特征,基于情感语义特征进行表情动作特征提取,得到表情动作特征,对目标音频与文本信息按照时序进行信息抽取,得到语音信息帧,基于表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,将目标人脸图像和人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧,能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
基于上述任一实施例,所述基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,具体包括:
基于所述表情动作特征和所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息;或者,
基于所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息。
需要说明的是,语音信息帧用于指导人脸关键点特征运动到新的位置,影响虚拟人物的嘴部关键点,适用于虚拟人物说话场景;表情动作特征用于指导人脸关键点特征运动到新的位置,影响虚拟人物的表情相关的面部关键点,适用于虚拟人物说话场景和虚拟人物接收用户音频信息场景。
在虚拟人物说话场景下,利用语音信息帧指导人脸关键点运动到新的位置,这里主要影响人物的嘴部关键点,得到人脸关键点位移信息。
在虚拟人物倾听用户说话场景下,利用语音信息帧与表情动作特征指导人脸关键点运动到新的位置,这里主要影响虚拟人物的表情相关的面部关键点,得到人脸关键点位移信息。
本发明实施例提供的人脸动画生成方法,在虚拟人物说话场景下,基于语音信息帧,对人脸关键点特征进行关键点位移变换,得到虚拟人物说话场景下的人脸关键点位移信息;在虚拟人物接收用户音频信息场景下,基于表情动作特征和语音信息帧,对人脸关键点特征进行关键点位移变换,得到虚拟人物接收用户音频信息场景下的人脸关键点位移信息,进而能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
基于上述任一实施例,所述方法还包括:基于生成对抗训练得到所述图像转换生成器;
其中,所述基于生成对抗训练得到所述图像转换生成器,包括:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
人脸关键点位移信息样本包括在虚拟人物说话场景下的人脸关键点位移信息样本和在虚拟人物接收用户音频信息场景下的人脸关键点位移信息样本中的至少一项。
一种实施方式中,将人脸图像样本和在虚拟人物说话场景下的人脸关键点位移信息样本输入至初始生成对抗网络的生成器,得到在虚拟人物说话场景下的第一面部动画图像帧,或者,将人脸图像样本和在虚拟人物接收用户音频信息场景下的人脸关键点位移信息样本输入至初始生成对抗网络的生成器,得到在虚拟人物接收用户音频信息场景下的第一面部动画图像帧。
进一步地,将在虚拟人物说话场景下的第一面部动画图像帧或在虚拟人物接收用户音频信息场景下的第一面部动画图像帧与面部动画图像帧样本输入到初始生成对抗网络的判别器,得到梯度信息,将梯度信息反馈至生成器,进行生成对抗训练,训练结束时,得到训练好的生成对抗网络,将训练好的生成对抗网络的生成器作为图像转换生成器。
本发明实施例提供的人脸动画生成方法,将音频与文本信息样本、人脸图像样本以及人脸图像样本对应的面部动画图像帧样本对初始生成对抗网络进行生成对抗训练,得到训练好的生成对抗网络,该训练好的生成对抗网络作为图像转换生成器,进而基于图像转换生成器生成面部动画图像帧,能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
基于上述任一实施例,所述基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本,包括:
基于所述表情动作特征样本和所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本;或者,
基于所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本。
人脸关键点位移信息样本包括在虚拟人物说话场景下的人脸关键点位移信息样本和在虚拟人物接收用户音频信息场景下的人脸关键点位移信息样本中的至少一项。
一种实施方式中,在虚拟人物说话场景下,基于表情动作特征样本和语音信息帧样本,对人脸关键点特征样本进行关键点位移变换,得到虚拟人物说话场景下的人脸关键点位移信息样本。
一种实施方式中,在虚拟人物接收用户音频信息场景下,基于表情动作特征样本,对人脸关键点特征样本进行关键点位移变换,得到虚拟人物接收用户音频信息场景下的人脸关键点位移信息样本。
本发明实施例提供的人脸动画生成方法,在虚拟人物说话场景下,基于表情动作特征样本和语音信息帧样本,对人脸关键点特征样本进行关键点位移变换,得到虚拟人物说话场景下的人脸关键点位移信息样本,在虚拟人物接收用户音频信息场景下,基于表情动作特征样本,对人脸关键点特征样本进行关键点位移变换,得到虚拟人物接收用户音频信息场景下的人脸关键点位移信息样本,进而对初始生成对抗网络进行生成对抗训练,进而得到图像转换生成器,基于图像转换生成器能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
结合图2具体说明人脸动画生成方法的流程。图2是本发明实施例提供的人脸动画生成方法的流程示意图之二。如图2所示,该方法包括以下步骤:
步骤200、对人脸图像进行人脸关键点特征提取,得到人脸关键点特征;
步骤201、基于自然语言处理对音频与文本信息进行语义分析,得到情感语义特征;
步骤202、对音频进行时序特征提取,得到语音信息帧;
步骤203、对情感语义特征进行表情动作特征提取,得到表情动作特征;
步骤204、基于表情动作特征、语音信息帧,对人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息,或者,基于语音信息帧,对人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息。
步骤205、将人脸图像和人脸关键点位移信息输入图像转换生成器,得到面部动画图像帧。
下面对本发明提供的人脸动画生成装置进行描述,下文描述的人脸动画生成装置与上文描述的人脸动画生成方法可相互对应参照。
图3是本发明实施例提供的人脸动画生成装置的结构示意图,如图3所示,该人脸动画生成装置包括:第一特征提取模块300、第二特征提取模块310、时序抽取模块320、位移变换模块330和生成模块340,其中,
第一特征提取模块300,用于获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
第二特征提取模块310,用于获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
时序抽取模块320,用于对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
位移变换模块330,用于基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
生成模块340,用于将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
本发明实施例提供的人脸动画生成装置,通过获取目标人脸图像,对目标人脸图像进行关键点特征提取,得到人脸关键点特征,获取目标音频与文本信息,基于自然语言处理技术对目标音频与文本信息进行情感语义分析,得到情感语义特征,基于情感语义特征进行表情动作特征提取,得到表情动作特征,对目标音频与文本信息按照时序进行信息抽取,得到语音信息帧,基于表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,将目标人脸图像和人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧,能够生成表情丰富的面部动画,并生成了在接收用户音频信息的场景下的面部动画,保证面部动画的真实性。
可选地,所述位移变换模块330,具体用于:
基于所述表情动作特征和所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息;或者,
基于所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息。
可选地,所述图像转换生成器是基于人脸图像样本、音频与文本信息样本以及所述人脸图像样本对应的面部动画图像帧样本进行生成对抗训练得到。
可选地,所述人脸动画生成装置还包括:
训练模块,用于基于生成对抗训练得到所述图像转换生成器;
所述训练模块,具体用于:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
可选地,所述基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本,包括:
基于所述表情动作特征样本和所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本;或者,
基于所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本。
可选地,所述基于所述情感语义特征进行表情动作特征提取,得到表情动作特征,包括:
将所述情感语义特征,或者将所述情感语义特征和目标音频,输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
本发明提供的人脸动画生成装置能够实现图1至图2的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communication Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序,以执行人脸动画生成方法的步骤,例如包括:
获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的人脸动画生成方法,该方法包括:
获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述各实施例提供的方法,例如包括:
获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种人脸动画生成方法,其特征在于,包括:
获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
2.根据权利要求1所述的人脸动画生成方法,其特征在于,所述基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息,具体包括:
基于所述表情动作特征和所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息;或者,
基于所述语音信息帧,对所述人脸关键点特征进行关键点位移变换,得到人脸关键点位移信息。
3.根据权利要求1所述的人脸动画生成方法,其特征在于,所述图像转换生成器是基于人脸图像样本、音频与文本信息样本以及所述人脸图像样本对应的面部动画图像帧样本进行生成对抗训练得到。
4.根据权利要求1所述的人脸动画生成方法,其特征在于,所述方法还包括:基于生成对抗训练得到所述图像转换生成器;
其中,所述基于生成对抗训练得到所述图像转换生成器,包括:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
5.根据权利要求4所述的人脸动画生成方法,其特征在于,所述基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本,包括:
基于所述表情动作特征样本和所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本;或者,
基于所述语音信息帧样本,对所述人脸关键点特征样本进行关键点位移变换,得到人脸关键点位移信息样本。
6.根据权利要求1所述的人脸动画生成方法,其特征在于,所述基于所述情感语义特征进行表情动作特征提取,得到表情动作特征,包括:
将所述情感语义特征,或者将所述情感语义特征和目标音频,输入至深度学习网络进行表情动作特征提取,得到表情动作特征。
7.一种人脸动画生成装置,其特征在于,包括:
第一特征提取模块,用于获取目标人脸图像,对所述目标人脸图像进行关键点特征提取,得到人脸关键点特征;
第二特征提取模块,用于获取目标音频与文本信息,基于自然语言处理技术对所述目标音频与文本信息进行情感语义分析,得到情感语义特征,基于所述情感语义特征进行表情动作特征提取,得到表情动作特征;
时序抽取模块,用于对所述目标音频与文本信息按照时序进行信息抽取,得到语音信息帧;
位移变换模块,用于基于所述表情动作特征、语音信息帧和人脸关键点特征,得到人脸关键点位移信息;
生成模块,用于将所述目标人脸图像和所述人脸关键点位移信息输入训练好的图像转换生成器,得到面部动画图像帧。
8.根据权利要求7所述的人脸动画生成装置,其特征在于,还包括:训练模块,用于基于生成对抗训练得到所述图像转换生成器;
所述训练模块,具体用于:
构建初始生成对抗网络;
获取人脸图像样本以及所述人脸图像样本对应的面部动画图像帧样本,对所述人脸图像样本进行人脸关键点特征提取,得到人脸关键点特征样本;
获取音频与文本信息样本,基于自然语言处理技术对所述音频与文本信息样本进行情感语义分析,得到情感语义特征样本,基于所述情感语义特征样本进行表情动作特征提取,得到表情动作特征样本;
对所述音频与文本信息样本按照时序进行信息抽取,得到语音信息帧样本;
基于所述表情动作特征样本、语音信息帧样本和人脸关键点特征样本,得到人脸关键点位移信息样本;
将所述人脸图像样本和所述人脸关键点位移信息样本输入至所述初始生成对抗网络的生成器,得到第一面部动画图像帧;
将所述第一面部动画图像帧与所述面部动画图像帧样本输入到所述初始生成对抗网络的判别器,得到梯度信息;
将所述梯度信息反馈至所述生成器,进行生成对抗训练;
训练结束时,得到训练好的生成对抗网络,将所述训练好的生成对抗网络的生成器作为所述图像转换生成器。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述人脸动画生成方法的步骤。
10.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行权利要求1至6任一项所述人脸动画生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825987.0A CN115700772A (zh) | 2021-07-21 | 2021-07-21 | 人脸动画生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825987.0A CN115700772A (zh) | 2021-07-21 | 2021-07-21 | 人脸动画生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115700772A true CN115700772A (zh) | 2023-02-07 |
Family
ID=85120683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110825987.0A Pending CN115700772A (zh) | 2021-07-21 | 2021-07-21 | 人脸动画生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115700772A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571084A (zh) * | 2021-07-08 | 2021-10-29 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115996303A (zh) * | 2023-03-23 | 2023-04-21 | 科大讯飞股份有限公司 | 视频生成方法、装置、电子设备和存储介质 |
CN116433807A (zh) * | 2023-04-21 | 2023-07-14 | 北京百度网讯科技有限公司 | 动画合成方法及装置、动画合成模型的训练方法及装置 |
CN117135305A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
CN117523051A (zh) * | 2024-01-08 | 2024-02-06 | 南京硅基智能科技有限公司 | 基于音频生成动态图像的方法、装置、设备及存储介质 |
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
-
2021
- 2021-07-21 CN CN202110825987.0A patent/CN115700772A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571084A (zh) * | 2021-07-08 | 2021-10-29 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN113571084B (zh) * | 2021-07-08 | 2024-03-22 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN115996303A (zh) * | 2023-03-23 | 2023-04-21 | 科大讯飞股份有限公司 | 视频生成方法、装置、电子设备和存储介质 |
CN115996303B (zh) * | 2023-03-23 | 2023-07-25 | 科大讯飞股份有限公司 | 视频生成方法、装置、电子设备和存储介质 |
CN116433807A (zh) * | 2023-04-21 | 2023-07-14 | 北京百度网讯科技有限公司 | 动画合成方法及装置、动画合成模型的训练方法及装置 |
CN117135305A (zh) * | 2023-10-27 | 2023-11-28 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
CN117135305B (zh) * | 2023-10-27 | 2024-03-19 | 深圳市大而信科技有限公司 | 一种电话会议实现方法、装置和系统 |
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117635784B (zh) * | 2023-12-19 | 2024-04-19 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117523051A (zh) * | 2024-01-08 | 2024-02-06 | 南京硅基智能科技有限公司 | 基于音频生成动态图像的方法、装置、设备及存储介质 |
CN117523051B (zh) * | 2024-01-08 | 2024-05-07 | 南京硅基智能科技有限公司 | 基于音频生成动态图像的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
CN115700772A (zh) | 人脸动画生成方法及装置 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
US20230042654A1 (en) | Action synchronization for target object | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
CN107832382A (zh) | 基于文字生成视频的方法、装置、设备及存储介质 | |
CN116034424A (zh) | 两级语音韵律迁移 | |
CN113077537B (zh) | 一种视频生成方法、存储介质及设备 | |
KR20170034409A (ko) | 안면 구조에 기초한 음성 합성 방법 및 장치 | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
CN112329451B (zh) | 手语动作视频生成方法、装置、设备及存储介质 | |
Wang et al. | Comic-guided speech synthesis | |
CN107204027A (zh) | 图像处理装置、显示装置、动画生成方法以及动画显示方法 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
CN106708789B (zh) | 一种文本处理方法及装置 | |
CN116582726A (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN114581567B (zh) | 一种声音驱动虚拟形象口型方法、装置及介质 | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
Verma et al. | Animating expressive faces across languages | |
CN111160051B (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |