CN112785671B - 虚假人脸动画合成方法 - Google Patents
虚假人脸动画合成方法 Download PDFInfo
- Publication number
- CN112785671B CN112785671B CN202110021844.4A CN202110021844A CN112785671B CN 112785671 B CN112785671 B CN 112785671B CN 202110021844 A CN202110021844 A CN 202110021844A CN 112785671 B CN112785671 B CN 112785671B
- Authority
- CN
- China
- Prior art keywords
- frame
- sample
- face
- video
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 17
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 10
- 230000033764 rhythmic process Effects 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 241000272186 Falco columbarius Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开提供了一种虚假人脸动画合成方法,包括:从第一目标视频中提取语音信息和文本信息,并分别提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征;将多帧音频特征和多帧韵律特征输入训练完成的编码器‑解码器网络,输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列;根据第二目标视频和多组关键点序列,生成多帧合成人脸草图;以及使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画。
Description
技术领域
本公开涉及人工智能领域/多模态领域,更具体地,涉及一种虚假 人脸动画合成方法。
背景技术
虚假人脸动画生成,旨在给定任意一段语音或文本,生成高自然 度的、唇音同步的人脸动画。唇音同步的虚假人脸动画在电影制作和 数字电脑游戏等行业具有广泛的应用前景。此外,人脸动画也可以提 供有关发音器官运动位置的视觉信息,从而可以应用于语言教学或是 针对听觉障碍的患者进行辅助治疗。
现有技术中,大部分虚假人脸动画生成的研究基于单模态输入, 即将音频信号映射到逼真的面部运动。然而,现有的方法只考虑了唇 部运动而忽略了下巴的运动,导致面部运动的变形。此外,现有的方 法通常使用单张图像生成方法来解决虚假人脸的动画生成,忽略了帧 间的相关性。
在实现本公开的过程中发现,现有技术忽略了发音器官的协同运 动和视频帧间的时间相关性,合成得到的虚假人脸动画唇音不同步、 真实感不足。
发明内容
有鉴于此,本公开提出了一种虚假人脸动画合成方法。
本公开的实施例的虚假人脸动画合成方法包括:从第一目标视频 中提取语音信息和文本信息,并分别提取上述语音信息中的多帧音频 特征和上述文本信息中的多帧韵律特征;将上述多帧音频特征和上述 多帧韵律特征输入训练完成的编码器-解码器网络,输出每一帧上述音频特征和上述韵律特征对应的多个关键点所组成的多组关键点序列;根据第二目标视频和上述多组关键点序列生成多帧合成人脸草图;以 及使用视频生成网络基于上述多帧合成人脸草图合成虚假人脸动画。
根据本公开的实施例,上述训练完成的编码器-解码器网络通过如 下训练方法得到,训练方法包括:从样本视频中提取样本语音信息和 样本文本信息,并分别提取上述样本语音信息中的多帧样本音频特征 和上述样本文本信息中的多帧样本韵律特征;将上述样本视频按帧解 码成多帧样本图像,提取经过归一化处理后的上述多帧样本图像中的 唇部区域及下巴区域的关键点,得到多组关键点序列;以及以上述多帧样本音频特征和上述多帧样本韵律特征作为输入,以上述多组关键 点序列作为标签,训练初始编码器-解码器网络结构,得到上述训练完 成的编码器-解码器网络。
根据本公开的实施例,上述初始编码器-解码器网络结构包括:语 音编码器,用于获取并编码上述多帧音频特征或上述多帧样本音频特 征;文本编码器,用于获取并编码上述多帧韵律特征或上述多帧样本 韵律特征;以及解码器,用于解码上述语音编码器和上述文本编码器获取的特征,输出上述多组关键点序列或上述多组样本关键点序列。
根据本公开的实施例,上述根据第二目标视频和上述多组关键点 序列,生成多帧合成人脸草图包括:将上述第二目标视频按帧解码并 提取得到多帧人脸草图;基于上述多帧人脸草图中的人脸角度和形状 信息,使用嘴部反归一化方法逐个更新上述多组关键点序列中各个关 键点的位置,得到多组与上述多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列;以及依次将上述多组预测关键点序列和上述 多帧人脸草图进行合成,得到上述多帧合成人脸草图。
根据本公开的实施例,上述使用嘴部反归一化方法逐个更新上述 多组关键点序列中各个关键点的位置使用下式实现:
其中,表示一组上述关键点序列中的一个关键点;/>表示与/>对应 的一组所述预测关键点序列中的关键点;θ表示上述人脸草图中人脸 图像的旋转角度;d1表示该组上述关键点序列中表示下巴的关键点之 间的最大宽度;d2表示上述人脸草图中下巴最大宽度;c′(x,y)表示该 组上述关键点序列中表示嘴部的关键点的中心点;c″(x,y)表示上述人脸 草图中嘴部的中心点。
根据本公开的实施例,上述视频生成网络通过如下训练方法得到, 训练方法包括:将样本视频解码成多帧样本图像,从上述样本视频中 获取多帧样本合成人脸草图;以及以上述多帧样本合成人脸草图作为 输入,以上述多帧样本图像作为标签,训练初始网络模型,得到上述 视频生成网络。
根据本公开的实施例,上述训练初始网络模型,得到上述视频生 成网络包括:采用光流估计对上述样本视频帧之间的时间动态性能进 行建模;以及采用嘴部掩码(mouthmask)函数作为上述视频生成网 络的损失函数。
根据本公开的实施例,上述mouth mask函数表示如下:
其中,T表示上述样本图像的帧数;xt表示第t帧上述样本图像;表 示将第t帧上述样本合成人脸草图输入到上述初始网络模型中生成的 输出样本图像;mt表示第t帧上述样本图像对应的嘴部掩码。
根据本公开的实施例,上述使用视频生成网络基于上述多帧合成 人脸草图合成虚假人脸动画使用下式实现:
其中,表示已生成的L帧图像;/>表示上述合成人脸草图序列以及嘴部掩码,st表示第t帧上述合成人 脸草图,mt表示第t帧上述合成人脸草图对应的嘴部掩码;/>表示第 t帧上述合成人脸草图对应的遮挡掩码;/>表示生成的第t帧伪参考图 (Hallucinated image),用于合成被遮挡的背景区域;/>表示生成的第t帧嘴部区域的图像;/>表示/>和/>间估计的光流,通过/>可以从/>估计得到/>
根据本公开实施例的虚假人脸动画合成方法,提出了一种关键点 预测方法和一种视频生成方法,通过语音和文本的多模态输入,实现 了唇音同步、时间连续的虚假人脸动画的合成,合成得到的动画具有 较高的真实感。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其 他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图;
图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方法 200的示意图;
图3示意性示出了根据本公开另一实施例的编码器-解码器网络的 训练方法300的流程图;
图4示意性示出了根据本公开另一实施例的视频生成网络的训练方 法400的流程图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些 描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述 中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全 面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情 况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本 公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、 操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、 步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人 员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解 释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于 刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下, 一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如,“具有A、B和C中至少一个的系统”应包括但不限于单独 具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C 等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术 人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中 至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具 有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C 的系统等)。
本公开提供了一种虚假人脸动画合成方法,包括:从第一目标视 频中提取语音信息和文本信息,并分别提取语音信息中的多帧音频特 征和文本信息中的多帧韵律特征;将多帧音频特征和多帧韵律特征输 入训练完成的编码器-解码器网络,输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列;根据第二目标视频和多组 关键点序列生成多帧合成人脸草图;以及使用视频生成网络基于多帧 合成人脸草图合成虚假人脸动画。
图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图。
如图1所示,该方法100包括操作S110~S140。
在操作S110,从第一目标视频中提取语音信息和文本信息,并分别 提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征。
根据本公开的实施例,第一目标视频是所要合成的虚假人脸动画中 相关音频信息的来源,第一目标视频的获取方式包括但不限于互联网下 载、数据库提取、用户拍摄等。语音信息和文本信息构成该方法100的 多模态输入,从语音信息中提取音频特征和从文本信息中提取韵律特征可以通过已有的特征提取工具实现,例如STRAIGHT、Merlin等,这些方法属于现有技术,因此不再赘述。音频特征和韵律特征的采样使用了 降采样的方法,其帧数与第一目标视频提取的图像的帧数相同,并且每 一帧音频特征和韵律特征与第一目标视频中提取的图像中的某一帧对应。
在操作S120,将多帧音频特征和多帧韵律特征输入训练完成的编 码器-解码器网络,输出每一帧音频特征和韵律特征对应的多个关键点 所组成的多组关键点序列。
根据本公开的实施例,关键点序列中包含多个唇部区域和下巴区 域的关键点,对于每一个关键点,其位置在第一目标视频中的不同图 像帧中按一定的规律进行变化,这些变化规律与音频特征和韵律特征 具有较高的相关性。编码器-解码器网络事先使用样本视频进行训练,其作用在于根据多模态的输入,输出预测得到的关键点,同时对关键 点作局部平滑处理。
在操作S130,根据第二目标视频和多组关键点序列,生成多帧合 成人脸草图。
根据本公开的实施例,第二目标视频提供了所要合成的虚假人脸 动画中的人脸动画及其背景,通过人脸动画中每一帧图像的角度、下 巴宽度、嘴部位置等信息,通过一些方法可以分别将每一帧中的各个 关键点与人脸动画中的每一帧图像的唇部和下巴区域进行拟合,得到 多帧合成人脸草图。
在操作S140,使用视频生成网络基于多帧合成人脸草图合成虚假 人脸动画。
根据本公开的实施例,使用样本视频预先训练得到视频生成网络, 视频生成网络可以增强输入的多帧合成人脸草图在帧间的连续性和帧 内的一致性,输出唇音同步且流畅的虚假人脸动画。
本公开实施例的虚假人脸动画合成方法可以应用于娱乐行业,例 如电源制作、视频配音以及游戏制作等,同时也可以应用于服务行业, 如虚拟主播、虚拟客服等。
根据本公开实施例的虚假人脸动画合成方法,提出了一种关键点 预测方法和一种视频生成方法,通过语音和文本的多模态输入,实现了高真实感的虚假人脸动画的合成,合成得到的动画具有较高的真实 感。
图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方 法200的示意图。
如图2所示,本公开另一实施例的虚假人脸动画合成方法200从 在线视频数据201中提取语音信息202和文本信息203作为多模态输 入。对于语音信息202,采用STRAIGHT工具提取音频特征204;对 于文本信息203,采用Merlin提取具有丰富上下文信息的韵律特征205。
根据本公开的另一实施例,编码器-解码器网络206包括语音编码 器2061、文本编码器2062和解码器2063。其中语音编码器2061和文 本编码器2062是编码器-解码器网络结构206的输入部分,均使用TCN 网络作为其模型架构,分别用于编码音频特征204和韵律特征205并 将其输入到编码器-解码器网络206中。解码器2063是编码器-解码器 网络206的输出部分,使用双向GRU网络作为其模型架构,用于输出预测得到的多组关键点序列207。
图3示意性示出了根据本公开另一实施例的编码器-解码器网络的 训练方法300的流程图。
如图3所示,该方法300包括操作S301~S303,用于实现对方法 100或方法200中编码器-解码器网络的训练。
在操作S301,从样本视频中提取样本语音信息和样本文本信息, 并分别提取样本语音信息中的多帧样本音频特征和样本文本信息中的 多帧样本韵律特征。
根据本公开的另一实施例,操作S301可依据方法100中的操作 S110实现。
在操作S302,将样本视频按帧解码成多帧样本图像,提取经过归 一化处理后的多帧样本图像中的唇部区域及下巴区域的关键点,得到 多组样本关键点序列。
根据本公开的另一实施例,对各帧样本图像进行归一化处理,可 以有效消除因样本视频中视角切换或人物运动带来的随机误差。在本 实施例中采用dlib工具提取唇部区域的20个关键点和下巴区域的13 个关键点。在实际应用中,可以采用任意关键点提取工具,各个区域 关键点的数量可以大于或小于本实施例中的数量。
在操作S303,以多帧样本音频特征和多帧样本韵律特征作为输入, 以多组样本关键点序列作为标签,训练初始编码器-解码器网络结构, 得到训练完成的编码器-解码器网络。
根据本公开的另一实施例,TCN网络和双向GRU网络的网络结 构可以有效提取输入数据的时域信息,实现局部平滑的关键点预测。
根据本公开的另一实施例,将目标视频按帧解码,从解码得到的 多帧目标图像208中提取得到多帧人脸草图209。人脸草图209包含 了完整的唇部区域和下巴区域在空间和时间上的信息,相较于目标图 像208具有较少的信息量,同时受噪声因素的影响也较低。人脸草图 209可以是目标图像208的轮廓图,也可以是将目标图像208映射到 YIQ颜色空间中得到的亮点图像。
根据本公开的另一实施例,基于多帧人脸草图209中人脸的角度 和形状信息,使用嘴部反归一化方法210逐个更新多组关键点序列207 中各个关键点的位置,得到多组与多帧人脸草图中的人脸角度和形状 信息一致的预测关键点序列。角度和形状信息包括人脸草图209中人 脸图像的旋转角度、多组关键点序列207和人脸草图209中下巴最大 宽度、多组关键点序列207和人脸草图209中嘴部中心点的位置等。
根据本公开的另一实施例,嘴部反归一化方法210的具体计算方 法如下式所示:
在式中,表示某一组关键点序列207中的一个关键点;/>表示 与/>对应的一组预测关键点序列中的关键点;θ表示人脸草图中人脸 图像的旋转角度;d1表示该组关键点序列中表示下巴的关键点之间的 最大宽度;d2表示人脸草图中下巴最大宽度;c′(x,y)表示该组关键点 序列中表示嘴部的关键点的中心点;c″(x,y)表示人脸草图中嘴部的中心 点。
根据本公开的另一实施例,依次将多组预测关键点序列和多帧人 脸草图209进行合成,即使用预测关键点序列中的每一个关键点替换 多帧人脸草图209的人脸区域的点,即可得到唇音同步的多帧合成人 脸草图211。
根据本公开的另一实施例,将多帧合成人脸草图211输入到视频 生成网络212中,对其帧间和帧内的相关性进行增强,并利用上述从 目标图像208中提取人脸草图209的逆方法将其按帧还原,即可生成虚假人脸动画213。
图4示意性示出了根据本公开另一实施例的视频生成网络的训练 方法400的流程图。
如图4所示,该方法400包括操作S401~S402,可用于实现对方 法100或方法200中视频生成网络的训练。
在操作S401,将样本视频解码成多帧样本图像,从样本视频中获 取多帧样本合成人脸草图。
根据本公开的另一实施例,多帧样本合成人脸草图可以采用dilb、 canny等现有方法获取,因此不作赘述。训练视频生成网络时的样本包 括使用如方法100中的第一目标视频和第二目标视频作为训练的样本。
在操作S402,以多帧样本合成人脸草图作为输入,以多帧样本图 像作为标签,训练初始网络模型,得到视频生成网络。
根据本公开的另一实施例,为实现视频帧间的连续性,采用了例 如光流估计的方法对视频帧间的时间动态性能进行建模,保证帧间一 致性。同时,为提高嘴部区域纹理合成,在视频生成网络结构中添加 了嘴部合成分支,加入了嘴部掩码(mouth mask)作为模型的参数,以实 现帧内一致性。
根据本公开的另一实施例,视频生成网络使用了mouth-mask损失 函数对网络进行训练,其计算公式如下:
在式中,T表示样本图像的帧数;xt表示第t帧样本图像;表 示将第t帧样本合成人脸草图输入到初始网络模型中生成的输出样本 图像;mt表示第t帧样本图像对应的嘴部掩码。
根据本公开的另一实施例,使用视频生成网络基于多帧合成人脸 草图合成虚假人脸动画可示意性地使用下式表示:
在式中,表示合成人脸草图序列 以及嘴部掩码,st表示第t帧合成人脸草图,mt表示第t帧合成人脸 草图对应的嘴部掩码;/>表示已生成的L帧图像;/>表示第t帧合 成人脸草图对应的遮挡掩码(occlusion mask);表示生成的第t帧伪 参考图(Hallucinated image),用于合成被遮挡的背景区域;表示生 成的第t帧嘴部区域的图像;/>表示/>和/>间估计的光流,通过可以从/>估计得到/>
本公开实施例中提出的虚假人脸动画合成方法融合了多模态信息 的互补性,所采用的方法保证了唇部运动与语音/文本信息的同步性以及 下巴运动与语音/文本的同步性,从而保证唇部区域与下巴运动的一致性, 提高了关键点的预测精度。同时,分别采用光流以及嘴部合成分支实现 视频帧间以及帧内相关性的建模,实现了唇音同步、时间连续的虚假人 脸动画的合成,合成得到的动画具有较高的真实感。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了 说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各 实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。 本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围, 本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (4)
1.一种虚假人脸动画合成方法,包括:
从第一目标视频中提取语音信息和文本信息,并分别提取所述语音信息中的多帧音频特征和所述文本信息中的多帧韵律特征;
将所述多帧音频特征和所述多帧韵律特征输入训练完成的编码器-解码器网络,输出每一帧所述音频特征和所述韵律特征对应的多个关键点所组成的多组关键点序列;
根据第二目标视频和所述多组关键点序列,生成多帧合成人脸草图;以及
使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画;
其中,所述训练完成的编码器-解码器网络通过如下训练方法得到,训练方法包括;
从样本视频中提取样本语音信息和样本文本信息,并分别提取所述样本语音信息中的多帧样本音频特征和所述样本文本信息中的多帧样本韵律特征;
将所述样本视频按帧解码成多帧样本图像,提取经过归一化处理后的所述多帧样本图像中的唇部区域及下巴区域的关键点,得到多组样本关键点序列;以及
以所述多帧样本音频特征和所述多帧样本韵律特征作为输入,以所述多组样本关键点序列作为标签,训练初始编码器-解码器网络结构,得到所述训练完成的编码器-解码器网络;
其中,所述初始编码器-解码器网络结构包括:
语音编码器,用于获取并编码所述多帧音频特征或所述多帧样本音频特征;
文本编码器,用于获取并编码所述多帧韵律特征或所述多帧样本韵律特征;以及
解码器,用于解码所述语音编码器和所述文本编码器获取的特征,输出所述多组关键点序列或所述多组样本关键点序列;
其中,所述根据第二目标视频和所述多组关键点序列,生成多帧合成人脸草图包括:
将所述第二目标视频按帧解码并提取得到多帧人脸草图;
基于所述多帧人脸草图中的人脸角度和形状信息,使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置,得到多组与所述多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列;以及
依次将所述多组预测关键点序列和所述多帧人脸草图进行合成,得到所述多帧合成人脸草图;
其中,所述使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置使用下式实现:
其中,表示一组所述关键点序列中的一个关键点;
表示与/>对应的一组所述预测关键点序列中的关键点;
θ表示所述人脸草图中人脸图像的旋转角度;
d1表示该组所述关键点序列中表示下巴的关键点之间的最大宽度;
d2表示所述人脸草图中下巴最大宽度;
c′(x,y)表示该组所述关键点序列中表示嘴部的关键点的中心点;
c″(x,y)表示所述人脸草图中嘴部的中心点;
其中,所述使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画使用下式实现:
其中,表示已生成的L帧图像;
表示所述合成人脸草图序列以及嘴部掩码,st表示第t帧所述合成人脸草图,mt表示第t帧所述合成人脸草图对应的嘴部掩码;
表示第t帧所述合成人脸草图对应的遮挡掩码(occlusion mask);
表示生成的第t帧伪参考图(Hallucinated image),用于合成被遮挡的背景区域;
表示生成的第t帧嘴部区域的图像;
表示/>和/>间估计的光流,通过/>可以从/>估计得到/>
2.根据权利要求1所述的方法,其中,所述视频生成网络通过如下训练方法得到,训练方法包括:
将样本视频解码成多帧样本图像,从所述样本视频中获取多帧样本人脸草图;以及
以所述多帧样本人脸草图作为输入,以所述多帧样本图像作为标签,训练初始网络模型,得到所述视频生成网络。
3.根据权利要求2所述的方法,其中,所述训练初始网络模型,得到所述视频生成网络包括:
采用光流估计对所述样本视频帧之间的时间动态性能进行建模;以及
采用嘴部掩码(mouth mask)函数作为所述视频生成网络的损失函数。
4.根据权利要求3所述的方法,其中,所述mouth mask函数表示如下:
其中,T表示所述样本图像的帧数;
xt表示第t帧所述样本图像;
表示将第t帧所述样本人脸草图输入到所述初始网络模型中生成的输出样本图像;
mt表示第t帧所述样本图像对应的嘴部掩码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021844.4A CN112785671B (zh) | 2021-01-07 | 2021-01-07 | 虚假人脸动画合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021844.4A CN112785671B (zh) | 2021-01-07 | 2021-01-07 | 虚假人脸动画合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785671A CN112785671A (zh) | 2021-05-11 |
CN112785671B true CN112785671B (zh) | 2024-05-17 |
Family
ID=75756221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110021844.4A Active CN112785671B (zh) | 2021-01-07 | 2021-01-07 | 虚假人脸动画合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785671B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299312B (zh) * | 2021-05-21 | 2023-04-28 | 北京市商汤科技开发有限公司 | 一种图像生成方法、装置、设备以及存储介质 |
CN113379877B (zh) * | 2021-06-08 | 2023-07-28 | 北京百度网讯科技有限公司 | 人脸视频生成方法、装置、电子设备及存储介质 |
CN113436302B (zh) * | 2021-06-08 | 2024-02-13 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种人脸动画合成方法及系统 |
CN116129502B (zh) * | 2023-02-06 | 2024-03-01 | 人民网股份有限公司 | 人脸伪造视频检测模型的训练方法、装置及计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866968A (zh) * | 2019-10-18 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
CN109377539B (zh) * | 2018-11-06 | 2023-04-11 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
-
2021
- 2021-01-07 CN CN202110021844.4A patent/CN112785671B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866968A (zh) * | 2019-10-18 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
Non-Patent Citations (1)
Title |
---|
尹宝才 ; 张思光 ; 王立春 ; 唐恒亮 ; .基于韵律文本的三维口型动画.北京工业大学学报.2009,(12),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112785671A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112785671B (zh) | 虚假人脸动画合成方法 | |
CN110490896B (zh) | 一种视频帧图像处理方法和装置 | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
US20080259085A1 (en) | Method for Animating an Image Using Speech Data | |
CN113378697A (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN113228163A (zh) | 基于文本和音频的实时面部再现 | |
CN115004236A (zh) | 来自音频的照片级逼真说话面部 | |
CN111666831A (zh) | 一种基于解耦表示学习的说话人脸视频生成方法 | |
CN113470170A (zh) | 一种利用语音信息的实时视频人脸区域时空一致合成方法 | |
JPH08235384A (ja) | 音響支援画像処理 | |
CN114663539B (zh) | 一种基于音频驱动的口罩下2d人脸还原技术 | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
CN117671764A (zh) | 基于Transformer的动态说话人脸图像生成系统及方法 | |
CN117171392A (zh) | 一种基于神经辐射场和隐属性的虚拟主播生成方法与系统 | |
Huang et al. | Automatic feature point extraction on a human face in model-based image coding | |
JP6291265B2 (ja) | 手話cg合成装置及びそのプログラム | |
CN115767206A (zh) | 基于扩展现实的数据处理方法以及系统 | |
CN115223224A (zh) | 数字人说话视频生成方法、系统、终端设备及介质 | |
JP2001231037A (ja) | 画像処理システム、画像処理装置、及び記憶媒体 | |
Wang et al. | Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head | |
CN116402928B (zh) | 一种虚拟谈话数字人生成方法 | |
CN116884066A (zh) | 一种基于唇型合成技术的2d真人数字化身生成方法 | |
Maldonado et al. | Previs: A person-specific realistic virtual speaker | |
CN117557695A (zh) | 一种音频驱动单张照片生成视频的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |