CN112785671A - 虚假人脸动画合成方法 - Google Patents

虚假人脸动画合成方法 Download PDF

Info

Publication number
CN112785671A
CN112785671A CN202110021844.4A CN202110021844A CN112785671A CN 112785671 A CN112785671 A CN 112785671A CN 202110021844 A CN202110021844 A CN 202110021844A CN 112785671 A CN112785671 A CN 112785671A
Authority
CN
China
Prior art keywords
frame
sample
face
representing
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110021844.4A
Other languages
English (en)
Other versions
CN112785671B (zh
Inventor
张勇东
于灵云
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110021844.4A priority Critical patent/CN112785671B/zh
Priority claimed from CN202110021844.4A external-priority patent/CN112785671B/zh
Publication of CN112785671A publication Critical patent/CN112785671A/zh
Application granted granted Critical
Publication of CN112785671B publication Critical patent/CN112785671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Abstract

本公开提供了一种虚假人脸动画合成方法,包括:从第一目标视频中提取语音信息和文本信息,并分别提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征;将多帧音频特征和多帧韵律特征输入训练完成的编码器‑解码器网络,输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列;根据第二目标视频和多组关键点序列,生成多帧合成人脸草图;以及使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画。

Description

虚假人脸动画合成方法
技术领域
本公开涉及人工智能领域/多模态领域,更具体地,涉及一种虚假 人脸动画合成方法。
背景技术
虚假人脸动画生成,旨在给定任意一段语音或文本,生成高自然 度的、唇音同步的人脸动画。唇音同步的虚假人脸动画在电影制作和 数字电脑游戏等行业具有广泛的应用前景。此外,人脸动画也可以提 供有关发音器官运动位置的视觉信息,从而可以应用于语言教学或是 针对听觉障碍的患者进行辅助治疗。
现有技术中,大部分虚假人脸动画生成的研究基于单模态输入, 即将音频信号映射到逼真的面部运动。然而,现有的方法只考虑了唇 部运动而忽略了下巴的运动,导致面部运动的变形。此外,现有的方 法通常使用单张图像生成方法来解决虚假人脸的动画生成,忽略了帧 间的相关性。
在实现本公开的过程中发现,现有技术忽略了发音器官的协同运 动和视频帧间的时间相关性,合成得到的虚假人脸动画唇音不同步、 真实感不足。
发明内容
有鉴于此,本公开提出了一种虚假人脸动画合成方法。
本公开的实施例的虚假人脸动画合成方法包括:从第一目标视频 中提取语音信息和文本信息,并分别提取上述语音信息中的多帧音频 特征和上述文本信息中的多帧韵律特征;将上述多帧音频特征和上述 多帧韵律特征输入训练完成的编码器-解码器网络,输出每一帧上述音 频特征和上述韵律特征对应的多个关键点所组成的多组关键点序列;根据第二目标视频和上述多组关键点序列生成多帧合成人脸草图;以 及使用视频生成网络基于上述多帧合成人脸草图合成虚假人脸动画。
根据本公开的实施例,上述训练完成的编码器-解码器网络通过如 下训练方法得到,训练方法包括:从样本视频中提取样本语音信息和 样本文本信息,并分别提取上述样本语音信息中的多帧样本音频特征 和上述样本文本信息中的多帧样本韵律特征;将上述样本视频按帧解 码成多帧样本图像,提取经过归一化处理后的上述多帧样本图像中的 唇部区域及下巴区域的关键点,得到多组关键点序列;以及以上述多 帧样本音频特征和上述多帧样本韵律特征作为输入,以上述多组关键 点序列作为标签,训练初始编码器-解码器网络结构,得到上述训练完 成的编码器-解码器网络。
根据本公开的实施例,上述初始编码器-解码器网络结构包括:语 音编码器,用于获取并编码上述多帧音频特征或上述多帧样本音频特 征;文本编码器,用于获取并编码上述多帧韵律特征或上述多帧样本 韵律特征;以及解码器,用于解码上述语音编码器和上述文本编码器 获取的特征,输出上述多组关键点序列或上述多组样本关键点序列。
根据本公开的实施例,上述根据第二目标视频和上述多组关键点 序列,生成多帧合成人脸草图包括:将上述第二目标视频按帧解码并 提取得到多帧人脸草图;基于上述多帧人脸草图中的人脸角度和形状 信息,使用嘴部反归一化方法逐个更新上述多组关键点序列中各个关 键点的位置,得到多组与上述多帧人脸草图中的人脸角度和形状信息 一致的预测关键点序列;以及依次将上述多组预测关键点序列和上述 多帧人脸草图进行合成,得到上述多帧合成人脸草图。
根据本公开的实施例,上述使用嘴部反归一化方法逐个更新上述 多组关键点序列中各个关键点的位置使用下式实现:
Figure RE-GDA0002993512710000021
其中,
Figure BDA0002887557650000031
表示一组上述关键点序列中的一个关键点;
Figure BDA0002887557650000032
表示与
Figure BDA0002887557650000033
对应 的一组所述预测关键点序列中的关键点;θ表示上述人脸草图中人脸 图像的旋转角度;d1表示该组上述关键点序列中表示下巴的关键点之 间的最大宽度;d2表示上述人脸草图中下巴最大宽度;c′(x,y)表示该 组上述关键点序列中表示嘴部的关键点的中心点;c″(x,y)表示上述人脸 草图中嘴部的中心点。
根据本公开的实施例,上述视频生成网络通过如下训练方法得到, 训练方法包括:将样本视频解码成多帧样本图像,从上述样本视频中 获取多帧样本合成人脸草图;以及以上述多帧样本合成人脸草图作为 输入,以上述多帧样本图像作为标签,训练初始网络模型,得到上述 视频生成网络。
根据本公开的实施例,上述训练初始网络模型,得到上述视频生 成网络包括:采用光流估计对上述样本视频帧之间的时间动态性能进 行建模;以及采用嘴部掩码(mouthmask)函数作为上述视频生成网 络的损失函数。
根据本公开的实施例,上述mouth mask函数表示如下:
Figure RE-GDA0002993512710000031
其中,T表示上述样本图像的帧数;xt表示第t帧上述样本图像;
Figure BDA0002887557650000035
表 示将第t帧上述样本合成人脸草图输入到上述初始网络模型中生成的 输出样本图像;mt表示第t帧上述样本图像对应的嘴部掩码。
根据本公开的实施例,上述使用视频生成网络基于上述多帧合成 人脸草图合成虚假人脸动画使用下式实现:
Figure RE-GDA0002993512710000032
其中,
Figure BDA0002887557650000037
表示已生成的L帧图像;
Figure BDA0002887557650000038
表示上述合成人脸草图序列以及嘴部掩码,st表示第t帧上述合成人 脸草图,mt表示第t帧上述合成人脸草图对应的嘴部掩码;
Figure BDA0002887557650000039
表示第 t帧上述合成人脸草图对应的遮挡掩码;
Figure BDA00028875576500000310
表示生成的第t帧伪参考图 (Hallucinated image),用于合成被遮挡的背景区域;
Figure BDA00028875576500000311
表示生成的第t帧嘴部区域的图像;
Figure BDA0002887557650000041
表示
Figure BDA0002887557650000042
Figure BDA0002887557650000043
间估计的光流,通过
Figure BDA0002887557650000044
可以从
Figure BDA0002887557650000045
估计得到
Figure BDA0002887557650000046
根据本公开实施例的虚假人脸动画合成方法,提出了一种关键点 预测方法和一种视频生成方法,通过语音和文本的多模态输入,实现 了唇音同步、时间连续的虚假人脸动画的合成,合成得到的动画具有 较高的真实感。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其 他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图;
图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方法 200的示意图;
图3示意性示出了根据本公开另一实施例的编码器-解码器网络的 训练方法300的流程图;
图4示意性示出了根据本公开另一实施例的视频生成网络的训练方 法400的流程图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些 描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述 中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全 面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情 况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术 的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本 公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、 操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、 步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人 员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解 释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于 刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下, 一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如,“具有A、B和C中至少一个的系统”应包括但不限于单独 具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C 等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术 人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中 至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具 有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C 的系统等)。
本公开提供了一种虚假人脸动画合成方法,包括:从第一目标视 频中提取语音信息和文本信息,并分别提取语音信息中的多帧音频特 征和文本信息中的多帧韵律特征;将多帧音频特征和多帧韵律特征输 入训练完成的编码器-解码器网络,输出每一帧音频特征和韵律特征对 应的多个关键点所组成的多组关键点序列;根据第二目标视频和多组 关键点序列生成多帧合成人脸草图;以及使用视频生成网络基于多帧 合成人脸草图合成虚假人脸动画。
图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图。
如图1所示,该方法100包括操作S110~S140。
在操作S110,从第一目标视频中提取语音信息和文本信息,并分别 提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征。
根据本公开的实施例,第一目标视频是所要合成的虚假人脸动画中 相关音频信息的来源,第一目标视频的获取方式包括但不限于互联网下 载、数据库提取、用户拍摄等。语音信息和文本信息构成该方法100的 多模态输入,从语音信息中提取音频特征和从文本信息中提取韵律特征 可以通过已有的特征提取工具实现,例如STRAIGHT、Merlin等,这些方法属于现有技术,因此不再赘述。音频特征和韵律特征的采样使用了 降采样的方法,其帧数与第一目标视频提取的图像的帧数相同,并且每 一帧音频特征和韵律特征与第一目标视频中提取的图像中的某一帧对 应。
在操作S120,将多帧音频特征和多帧韵律特征输入训练完成的编 码器-解码器网络,输出每一帧音频特征和韵律特征对应的多个关键点 所组成的多组关键点序列。
根据本公开的实施例,关键点序列中包含多个唇部区域和下巴区 域的关键点,对于每一个关键点,其位置在第一目标视频中的不同图 像帧中按一定的规律进行变化,这些变化规律与音频特征和韵律特征 具有较高的相关性。编码器-解码器网络事先使用样本视频进行训练, 其作用在于根据多模态的输入,输出预测得到的关键点,同时对关键 点作局部平滑处理。
在操作S130,根据第二目标视频和多组关键点序列,生成多帧合 成人脸草图。
根据本公开的实施例,第二目标视频提供了所要合成的虚假人脸 动画中的人脸动画及其背景,通过人脸动画中每一帧图像的角度、下 巴宽度、嘴部位置等信息,通过一些方法可以分别将每一帧中的各个 关键点与人脸动画中的每一帧图像的唇部和下巴区域进行拟合,得到 多帧合成人脸草图。
在操作S140,使用视频生成网络基于多帧合成人脸草图合成虚假 人脸动画。
根据本公开的实施例,使用样本视频预先训练得到视频生成网络, 视频生成网络可以增强输入的多帧合成人脸草图在帧间的连续性和帧 内的一致性,输出唇音同步且流畅的虚假人脸动画。
本公开实施例的虚假人脸动画合成方法可以应用于娱乐行业,例 如电源制作、视频配音以及游戏制作等,同时也可以应用于服务行业, 如虚拟主播、虚拟客服等。
根据本公开实施例的虚假人脸动画合成方法,提出了一种关键点 预测方法和一种视频生成方法,通过语音和文本的多模态输入,实现 了高真实感的虚假人脸动画的合成,合成得到的动画具有较高的真实 感。
图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方 法200的示意图。
如图2所示,本公开另一实施例的虚假人脸动画合成方法200从 在线视频数据201中提取语音信息202和文本信息203作为多模态输 入。对于语音信息202,采用STRAIGHT工具提取音频特征204;对 于文本信息203,采用Merlin提取具有丰富上下文信息的韵律特征205。
根据本公开的另一实施例,编码器-解码器网络206包括语音编码 器2061、文本编码器2062和解码器2063。其中语音编码器2061和文 本编码器2062是编码器-解码器网络结构206的输入部分,均使用TCN 网络作为其模型架构,分别用于编码音频特征204和韵律特征205并 将其输入到编码器-解码器网络206中。解码器2063是编码器-解码器 网络206的输出部分,使用双向GRU网络作为其模型架构,用于输出 预测得到的多组关键点序列207。
图3示意性示出了根据本公开另一实施例的编码器-解码器网络的 训练方法300的流程图。
如图3所示,该方法300包括操作S301~S303,用于实现对方法 100或方法200中编码器-解码器网络的训练。
在操作S301,从样本视频中提取样本语音信息和样本文本信息, 并分别提取样本语音信息中的多帧样本音频特征和样本文本信息中的 多帧样本韵律特征。
根据本公开的另一实施例,操作S301可依据方法100中的操作 S110实现。
在操作S302,将样本视频按帧解码成多帧样本图像,提取经过归 一化处理后的多帧样本图像中的唇部区域及下巴区域的关键点,得到 多组样本关键点序列。
根据本公开的另一实施例,对各帧样本图像进行归一化处理,可 以有效消除因样本视频中视角切换或人物运动带来的随机误差。在本 实施例中采用dlib工具提取唇部区域的20个关键点和下巴区域的13 个关键点。在实际应用中,可以采用任意关键点提取工具,各个区域 关键点的数量可以大于或小于本实施例中的数量。
在操作S303,以多帧样本音频特征和多帧样本韵律特征作为输入, 以多组样本关键点序列作为标签,训练初始编码器-解码器网络结构, 得到训练完成的编码器-解码器网络。
根据本公开的另一实施例,TCN网络和双向GRU网络的网络结 构可以有效提取输入数据的时域信息,实现局部平滑的关键点预测。
根据本公开的另一实施例,将目标视频按帧解码,从解码得到的 多帧目标图像208中提取得到多帧人脸草图209。人脸草图209包含 了完整的唇部区域和下巴区域在空间和时间上的信息,相较于目标图 像208具有较少的信息量,同时受噪声因素的影响也较低。人脸草图 209可以是目标图像208的轮廓图,也可以是将目标图像208映射到 YIQ颜色空间中得到的亮点图像。
根据本公开的另一实施例,基于多帧人脸草图209中人脸的角度 和形状信息,使用嘴部反归一化方法210逐个更新多组关键点序列207 中各个关键点的位置,得到多组与多帧人脸草图中的人脸角度和形状 信息一致的预测关键点序列。角度和形状信息包括人脸草图209中人 脸图像的旋转角度、多组关键点序列207和人脸草图209中下巴最大 宽度、多组关键点序列207和人脸草图209中嘴部中心点的位置等。
根据本公开的另一实施例,嘴部反归一化方法210的具体计算方 法如下式所示:
Figure RE-GDA0002993512710000081
在式中,
Figure BDA0002887557650000091
表示某一组关键点序列207中的一个关键点;
Figure BDA0002887557650000092
表示 与
Figure BDA0002887557650000093
对应的一组预测关键点序列中的关键点;θ表示人脸草图中人脸 图像的旋转角度;d1表示该组关键点序列中表示下巴的关键点之间的 最大宽度;d2表示人脸草图中下巴最大宽度;c′(x,y)表示该组关键点 序列中表示嘴部的关键点的中心点;c″(x,y)表示人脸草图中嘴部的中心 点。
根据本公开的另一实施例,依次将多组预测关键点序列和多帧人 脸草图209进行合成,即使用预测关键点序列中的每一个关键点替换 多帧人脸草图209的人脸区域的点,即可得到唇音同步的多帧合成人 脸草图211。
根据本公开的另一实施例,将多帧合成人脸草图211输入到视频 生成网络212中,对其帧间和帧内的相关性进行增强,并利用上述从 目标图像208中提取人脸草图209的逆方法将其按帧还原,即可生成 虚假人脸动画213。
图4示意性示出了根据本公开另一实施例的视频生成网络的训练 方法400的流程图。
如图4所示,该方法400包括操作S401~S402,可用于实现对方 法100或方法200中视频生成网络的训练。
在操作S401,将样本视频解码成多帧样本图像,从样本视频中获 取多帧样本合成人脸草图。
根据本公开的另一实施例,多帧样本合成人脸草图可以采用dilb、 canny等现有方法获取,因此不作赘述。训练视频生成网络时的样本包 括使用如方法100中的第一目标视频和第二目标视频作为训练的样本。
在操作S402,以多帧样本合成人脸草图作为输入,以多帧样本图 像作为标签,训练初始网络模型,得到视频生成网络。
根据本公开的另一实施例,为实现视频帧间的连续性,采用了例 如光流估计的方法对视频帧间的时间动态性能进行建模,保证帧间一 致性。同时,为提高嘴部区域纹理合成,在视频生成网络结构中添加 了嘴部合成分支,加入了嘴部掩码(mouth mask)作为模型的参数,以实 现帧内一致性。
根据本公开的另一实施例,视频生成网络使用了mouth-mask损失 函数对网络进行训练,其计算公式如下:
Figure RE-GDA0002993512710000101
在式中,T表示样本图像的帧数;xt表示第t帧样本图像;
Figure BDA0002887557650000102
表 示将第t帧样本合成人脸草图输入到初始网络模型中生成的输出样本 图像;mt表示第t帧样本图像对应的嘴部掩码。
根据本公开的另一实施例,使用视频生成网络基于多帧合成人脸 草图合成虚假人脸动画可示意性地使用下式表示:
Figure RE-GDA0002993512710000103
在式中,
Figure BDA0002887557650000104
表示合成人脸草图序列 以及嘴部掩码,st表示第t帧合成人脸草图,mt表示第t帧合成人脸 草图对应的嘴部掩码;
Figure BDA0002887557650000105
表示已生成的L帧图像;
Figure BDA0002887557650000106
表示第t帧合 成人脸草图对应的遮挡掩码(occlusion mask);
Figure BDA0002887557650000107
表示生成的第t帧伪 参考图(Hallucinated image),用于合成被遮挡的背景区域;
Figure BDA0002887557650000108
表示生 成的第t帧嘴部区域的图像;
Figure BDA0002887557650000109
表示
Figure BDA00028875576500001010
Figure BDA00028875576500001011
间估计的光流,通过
Figure BDA00028875576500001012
可以从
Figure BDA00028875576500001013
估计得到
Figure BDA00028875576500001014
本公开实施例中提出的虚假人脸动画合成方法融合了多模态信息 的互补性,所采用的方法保证了唇部运动与语音/文本信息的同步性以及 下巴运动与语音/文本的同步性,从而保证唇部区域与下巴运动的一致性, 提高了关键点的预测精度。同时,分别采用光流以及嘴部合成分支实现 视频帧间以及帧内相关性的建模,实现了唇音同步、时间连续的虚假人 脸动画的合成,合成得到的动画具有较高的真实感。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了 说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各 实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。 本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围, 本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本 公开的范围之内。

Claims (9)

1.一种虚假人脸动画合成方法,包括:
从第一目标视频中提取语音信息和文本信息,并分别提取所述语音信息中的多帧音频特征和所述文本信息中的多帧韵律特征;
将所述多帧音频特征和所述多帧韵律特征输入训练完成的编码器-解码器网络,输出每一帧所述音频特征和所述韵律特征对应的多个关键点所组成的多组关键点序列;
根据第二目标视频和所述多组关键点序列,生成多帧合成人脸草图;以及
使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画。
2.根据权利要求1所述的方法,其中,所述训练完成的编码器-解码器网络通过如下训练方法得到,训练方法包括:
从样本视频中提取样本语音信息和样本文本信息,并分别提取所述样本语音信息中的多帧样本音频特征和所述样本文本信息中的多帧样本韵律特征;
将所述样本视频按帧解码成多帧样本图像,提取经过归一化处理后的所述多帧样本图像中的唇部区域及下巴区域的关键点,得到多组样本关键点序列;以及
以所述多帧样本音频特征和所述多帧样本韵律特征作为输入,以所述多组样本关键点序列作为标签,训练初始编码器-解码器网络结构,得到所述训练完成的编码器-解码器网络。
3.根据权利要求2所述的方法,其中,所述初始编码器-解码器网络结构包括:
语音编码器,用于获取并编码所述多帧音频特征或所述多帧样本音频特征;
文本编码器,用于获取并编码所述多帧韵律特征或所述多帧样本韵律特征;以及
解码器,用于解码所述语音编码器和所述文本编码器获取的特征,输出所述多组关键点序列或所述多组样本关键点序列。
4.根据权利要求1所述的方法,其中,所述根据第二目标视频和所述多组关键点序列,生成多帧合成人脸草图包括:
将所述第二目标视频按帧解码并提取得到多帧人脸草图;
基于所述多帧人脸草图中的人脸角度和形状信息,使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置,得到多组与所述多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列;以及
依次将所述多组预测关键点序列和所述多帧人脸草图进行合成,得到所述多帧合成人脸草图。
5.根据权利要求4所述的方法,其中,所述使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置使用下式实现:
Figure RE-FDA0002993512700000021
其中,
Figure RE-FDA0002993512700000022
表示一组所述关键点序列中的一个关键点;
Figure RE-FDA0002993512700000023
表示与
Figure RE-FDA0002993512700000024
对应的一组所述预测关键点序列中的关键点;
θ表示所述人脸草图中人脸图像的旋转角度;
d1表示该组所述关键点序列中表示下巴的关键点之间的最大宽度;
d2表示所述人脸草图中下巴最大宽度;
c′(x,y)表示该组所述关键点序列中表示嘴部的关键点的中心点;
c″(x,y)表示所述人脸草图中嘴部的中心点。
6.根据权利要求1所述的方法,其中,所述视频生成网络通过如下训练方法得到,训练方法包括:
将样本视频解码成多帧样本图像,从所述样本视频中获取多帧样本人脸草图;以及
以所述多帧样本人脸草图作为输入,以所述多帧样本图像作为标签,训练初始网络模型,得到所述视频生成网络。
7.根据权利要求6所述的方法,其中,所述训练初始网络模型,得到所述视频生成网络包括:
采用光流估计对所述样本视频帧之间的时间动态性能进行建模;以及
采用嘴部掩码(mouth mask)函数作为所述视频生成网络的损失函数。
8.根据权利要求7所述的方法,其中,所述mouth mask函数表示如下:
Figure RE-RE-FDA0002993512700000031
其中,T表示所述样本图像的帧数;
xt表示第t帧所述样本图像;
Figure RE-RE-FDA0002993512700000032
表示将第t帧所述样本人脸草图输入到所述初始网络模型中生成的输出样本图像;
mt表示第t帧所述样本图像对应的嘴部掩码。
9.根据权利要求1所述的方法,其中,所述使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画使用下式实现:
Figure RE-FDA0002993512700000033
其中,
Figure RE-FDA0002993512700000034
表示已生成的L帧图像;
Figure RE-FDA0002993512700000035
表示所述合成人脸草图序列以及嘴部掩码,st表示第t帧所述合成人脸草图,mt表示第t帧所述合成人脸草图对应的嘴部掩码;
Figure RE-FDA0002993512700000036
表示第t帧所述合成人脸草图对应的遮挡掩码(occlusion mask);
Figure RE-FDA0002993512700000037
表示生成的第t帧伪参考图(Hallucinated image),用于合成被遮挡的背景区域;
Figure RE-FDA0002993512700000038
表示生成的第t帧嘴部区域的图像;
Figure RE-FDA0002993512700000039
表示
Figure RE-FDA00029935127000000310
Figure RE-FDA00029935127000000311
间估计的光流,通过
Figure RE-FDA00029935127000000312
可以从
Figure RE-FDA00029935127000000313
估计得到
Figure RE-FDA00029935127000000314
CN202110021844.4A 2021-01-07 虚假人脸动画合成方法 Active CN112785671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110021844.4A CN112785671B (zh) 2021-01-07 虚假人脸动画合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110021844.4A CN112785671B (zh) 2021-01-07 虚假人脸动画合成方法

Publications (2)

Publication Number Publication Date
CN112785671A true CN112785671A (zh) 2021-05-11
CN112785671B CN112785671B (zh) 2024-05-17

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379877A (zh) * 2021-06-08 2021-09-10 北京百度网讯科技有限公司 人脸视频生成方法、装置、电子设备及存储介质
CN113436302A (zh) * 2021-06-08 2021-09-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种人脸动画合成方法及系统
WO2022242381A1 (zh) * 2021-05-21 2022-11-24 上海商汤智能科技有限公司 图像生成方法、装置、设备以及存储介质
CN116129502A (zh) * 2023-02-06 2023-05-16 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹宝才;张思光;王立春;唐恒亮;: "基于韵律文本的三维口型动画", 北京工业大学学报, no. 12 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242381A1 (zh) * 2021-05-21 2022-11-24 上海商汤智能科技有限公司 图像生成方法、装置、设备以及存储介质
CN113379877A (zh) * 2021-06-08 2021-09-10 北京百度网讯科技有限公司 人脸视频生成方法、装置、电子设备及存储介质
CN113436302A (zh) * 2021-06-08 2021-09-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种人脸动画合成方法及系统
CN113379877B (zh) * 2021-06-08 2023-07-28 北京百度网讯科技有限公司 人脸视频生成方法、装置、电子设备及存储介质
CN113436302B (zh) * 2021-06-08 2024-02-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种人脸动画合成方法及系统
CN116129502A (zh) * 2023-02-06 2023-05-16 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备
CN116129502B (zh) * 2023-02-06 2024-03-01 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备

Similar Documents

Publication Publication Date Title
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
US20080259085A1 (en) Method for Animating an Image Using Speech Data
CN109859736A (zh) 语音合成方法及系统
Xie et al. A coupled HMM approach to video-realistic speech animation
JP2003529861A (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
JP4087935B2 (ja) 唇動きパラメータ発生装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN113228163A (zh) 基于文本和音频的实时面部再现
CN111666831A (zh) 一种基于解耦表示学习的说话人脸视频生成方法
JPH08235384A (ja) 音響支援画像処理
CN114663539B (zh) 一种基于音频驱动的口罩下2d人脸还原技术
CN117671764A (zh) 基于Transformer的动态说话人脸图像生成系统及方法
CN113470170A (zh) 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN112785671B (zh) 虚假人脸动画合成方法
CN112785671A (zh) 虚假人脸动画合成方法
Kubanek Method of speech recognition and speaker identification using audio-visual of polish speech and hidden markov models
Mendi et al. Facial animation framework for web and mobile platforms
Lin et al. A speech driven talking head system based on a single face image
Xiao et al. Dense convolutional recurrent neural network for generalized speech animation
Chu et al. CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation
Barve et al. Synchronized Speech and Video Synthesis
Shen et al. A method for synthesizing dynamic image of virtual human
CN116402928B (zh) 一种虚拟谈话数字人生成方法
CN116884066A (zh) 一种基于唇型合成技术的2d真人数字化身生成方法
Yan et al. Dance Evaluation Based on Movement and Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant