CN115330912A - 基于音频和图像驱动的用于生成人脸说话视频的训练方法 - Google Patents

基于音频和图像驱动的用于生成人脸说话视频的训练方法 Download PDF

Info

Publication number
CN115330912A
CN115330912A CN202211248353.4A CN202211248353A CN115330912A CN 115330912 A CN115330912 A CN 115330912A CN 202211248353 A CN202211248353 A CN 202211248353A CN 115330912 A CN115330912 A CN 115330912A
Authority
CN
China
Prior art keywords
audio
vector
video
potential
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211248353.4A
Other languages
English (en)
Other versions
CN115330912B (zh
Inventor
储琪
刘斌
俞能海
盛典墨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211248353.4A priority Critical patent/CN115330912B/zh
Publication of CN115330912A publication Critical patent/CN115330912A/zh
Application granted granted Critical
Publication of CN115330912B publication Critical patent/CN115330912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法。该方法包括:获取预设帧数的视频样本,并构建人脸说话视频生成模型;利用音频特征提取器对视频样本的音频进行特征提取,得到音频特征向量;利用图像编码器对视频样本进行投影处理,得到视频图像的扩展潜在向量;利用音频‑表情映射网络处理音频特征向量和扩展潜在向量,得到加权的扩展潜在向量;利用生成器处理加权的扩展潜在向量,得到生成视频。本发明同时还提供了一种基于音频和图像驱动的人类说话视频的生成方法。

Description

基于音频和图像驱动的用于生成人脸说话视频的训练方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于音频和图像驱动的用于生成人脸说话视频的训练方法以及基于音频和图像驱动的人脸说话视频生成方法。
背景技术
所谓人脸说话生成,是指根据输入的驱动信号(音频、图像、视频、文本等)来生成一个人的具有真实感的有声谈话视频。通常音频信号提供目标人物的说话风格及唇部运动信息,图像或视频信号提供目标人物的外观及运动学信息。人脸说话生成具有广泛的应用,如说话和特效制作,电话会议,游戏,社交媒体,VR和虚拟角色生成等。然而该任务具有极大的挑战。生成一系列高真实感的视频帧,需要考虑人脸面部表情的真实性,视频帧之间的时间连续性,唇部运动与语音的同步性等多方面因素,而且人们对面部动作和视听同步中的细微异常都很敏感。随着深度生成模型的快速发展,现有方法大多通过借助不同驱动信号的信息辅助生成中间目标身份人脸建模,通过深度渲染的方式获得生成视频。
然而,现有技术中,人脸说话生成方法存在目标人脸身份信息难以保持、生成的人脸细节表现力差、泛化能力弱等问题。
发明内容
鉴于上述问题,本发明提供了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法及基于音频和图像驱动的人脸说话视频生成方法及系统,以期望能够至少解决上述问题之一。
根据本发明的第一个方面,提供了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法,包括:
获取预设帧数的视频样本,并构建人脸说话视频生成模型,其中,人脸说话视频生成模型包括音频-表情映射网络、音频特征提取器、图像编码器和生成器,音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块;
利用音频特征提取器对视频样本的音频进行特征提取,得到音频特征向量;利用音频编码器将音频特征向量进行编码处理,得到编码后的音频特征向量;利用图像编码器对视频样本进行投影处理,得到视频图像的扩展潜在向量;利用潜在向量编码器计算视频图像的扩展潜在向量的位移,得到扩展潜在向量的位移原点;利用映射网络处理编码后的音频特征向量和扩展潜在向量的位移原点,得到扩展潜在向量的位移信息;利用注意力模块计算扩展潜在向量的位移信息的线性组合,得到加权的扩展潜在向量;利用生成器处理加权的扩展潜在向量,得到生成视频,其中,生成器基于StyleGAN2模型构建;
利用损失函数处理生成视频、与生成视频相对应的视频样本和扩展潜在向量,得到损失值,并根据损失值,优化人脸说话视频生成模型的参数;
迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作,直到损失值满足预设条件,得到训练完成的人脸说话视频生成模型。
根据本发明的实施例,上述利用音频特征提取器对视频样本的音频进行特征提取,得到音频特征向量包括:
利用音频特征提取器分别获取距离视频样本的目标帧之前和之后第一预设时长的多个音频片段;
利用音频特征提取器的语音识别模型提取每个音频片段预设数量的逻辑单元,得到具有第二预设时长的多个逻辑单元,其中,任意两个逻辑单元所对应的音频互不重叠;
利用音频特征提取器将逻辑单元处理成第一预设维度的音频特征向量;
其中,音频特征提取器基于DeepSpeech构建,音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。
根据本发明的实施例,上述利用音频编码器将音频特征向量进行编码处理,得到编码后的音频特征向量包括:
利用音频编码器将音频特征向量进行转置,得到转置后的音频特征向量;
利用音频编码器对转置后的音频特征向量在时间维度上进行一维时间卷积,得到编码后的音频特征向量;
其中,音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层,每个一维卷积层包括偏置项和多个滤波器。
根据本发明的实施例,上述利用图像编码器对视频样本进行投影处理,得到视频图像的扩展潜在向量包括:
利用图像编码器处理视频样本,得到线性输出向量,并将线性输出向量映射到具有第二预设维度的扩展潜在空间,得到潜在向量;
利用图像编码器计算平均潜在向量的偏移量,并将平均潜在向量的偏移量和潜在向量进行向量运算,得到扩展潜在向量;
其中,图像编码器基于ResNet18构建;
其中,平均潜在向量由StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。
根据本发明的实施例,上述利用潜在向量编码器计算视频图像的扩展潜在向量的位移,得到扩展潜在向量的位移原点包括:
获取训练样本中事先设置的潜在向量的预设数量的主成分的分量,并根据预设数量的主成分的分量,初始化潜在向量编码器的参数;
利用潜在向量编码器提取视频图像的扩展潜在向量的位移的特征信息,并将特征信息映射到一维向量中得到扩展潜在向量的位移原点。
根据本发明的实施例,上述映射网络包括多个第一全连接层和多个第二全连接层;
其中,第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。
根据本发明的实施例,上述注意力模块包括采用预设斜率的LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。
根据本发明的实施例,上述利用生成器处理加权的扩展潜在向量,得到生成视频包括:
利用生成器的StyleGAN2模型进行跳跃连接,将具有不同尺寸的特征图引入生成器;
利用生成器通过多级特征生成视频图像的细节特征;
利用生成器输入逐帧经过位移信息调整后的潜在向量,生成时序图像;
利用图像转换工具将时序图像进行转换,得到生成视频。
根据本发明的实施例,上述损失函数包括感知损失函数和加权均方差损失函数。
根据本发明的第二个方面,提供了一种基于音频和图像驱动的人脸说话视频生成方法,包括:
利用训练完成的人脸说话视频生成模型处理目标人物的视频,得到目标人物的人脸说话生成视频,其中,训练完成的人脸说话生成模型由上述训练方法训练得到。
本发明通过基于StyleGAN2潜在向量映射空间的人脸说话生成模型来提高人脸说话的生成质量并提供音频对应的情绪表达。本发明提供的人脸说话生成模型具有通用性,可以适应不同的输入数据,应用于不同的目标身份,具有良好的泛化性。此外,本发明通过一个预测StyleGAN2的扩展潜在向量空间中与音频段相对应的线性位移的模块,利用音频特征对目标身份图像潜在向量进行控制,以实现音频-表情映射学习,进而生成带有音频情绪对应面部表情的目标身份说话视频。
附图说明
图1是根据本发明实施例的基于音频和图像驱动的用于生成人脸说话视频的训练方法的流程图;
图2是根据本发明实施例的获取音频特征向量的流程图;
图3是根据本发明实施例的DeepSpeech模型的结构示意图;
图4是根据本发明实施例的获取音频特征向量的过程示意图;
图5是根据本发明实施例的获取编码后的音频特征向量的流程图;
图6是根据本发明实施例的获取扩展潜在向量的流程图;
图7是根据本发明实施例的图像编码器的运行示意图;
图8是根据本发明实施例的获取位移原点的流程图;
图9是根据本发明实施例的潜在空间的示意图;
图10是根据本发明实施例的交换潜在向量区间可视化示意图;
图11是根据本发明实施例的获取生成视频的流程图;
图12是根据本发明实施例的基于StyleGAN2的生成器的结构示意图;
图13是根据本发明实施例的面部掩模可视化的示意图;
图14是根据本发明实施例的人脸说话视频生成方法的结构示意图;
图15是根据本发明实施例的可视化对比结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
根据人脸的建模类型不同,可以将人脸说话生成方法分为基于2D人脸模型和基于3D人头模型的方法。基于2D人脸模型的方法又可分类为对象相关模型和对象不相关模型。早期工作都是基于对象相关人脸建模,例如使用重定时动态编程方法重现说话人运动动态。然而,重定时动态编程方法是针对单一身份建模的,并不能推广到其他身份上。对象相关的建模限制了实际应用场景。另一方面,对象不相关模型需要目标身份图像或视频数据(例如在训练数据中出现过)生成一个目标人脸的面部动态2D关键点作为中间产物辅助合成说话人脸。现有技术中已经出现了采用人脸2D面部关键点作为中间表示帮助建模从驱动音频信号到人脸说话视频输出的映射。后续基于2D的方法大多延续了生成面部关键点作为中间表示的思路,例如通过卷曲生成的唇部区域融入到源视频帧获得与音频匹配的人脸说话视频,但面部其他区域没有灵活的运动。这些基于2D人脸建模的方法在展示出色的面部结果质量的同时,只能合成固定视点视频,很难获得更加动态体验。近年来随着深度学习的发展,利用卷积神经网络(Convolutional Neural Network, CNN)提取的外观特征被广泛应用到多目标跟踪领域。
基于2D人脸模型的方法不同,本发明提供的人脸说话生成方法将外观特征和目标之间的相互关系(特征)进行有效结合,为每个目标构建一个有向图的特征表示。
为了解决上述基于2D人脸模型存在的不足,基于3D人头模型的方法通过更加精准的立体建模一定程度上解决了这些问题。基于3D人头模型的方法也可分为对象相关模型和对象不相关模型。传统的基于3D人头模型的方法通常会建立一个目标身份相关的模型,该模型只能合成一个身份,无法迁移到其他身份上。此外,传统的基于3D人头模型的方法专注于在头部姿态固定情况下传递目标身份的表情,例如使用RGB或RGBD传感器收集要合成的目标身份的镜头,然后针对其面部区域构建目标身份3D模型。随着深度学习方法的发展,最近的基于3D模型的方法能够生成对象不相关的人脸说话生成,例如采用联合视听表示,将身份信息和说话内容信息从图像域中分离出来以构建对象不相关的3D人头模型。在测试时,新身份将用于驱动3D模型以生成所需的面部运动。尽管基于3D人头模型的方法在合成头部运动方面做得很出色,但很难生成逼真的头发,牙齿等细节。
然而,现有技术中,无论是基于2D人脸模型和基于3D人头模型的方法都存在一些共性的技术问题:
首先,很难保持目标人脸身份信息。针对特定身份的模型可以很好地保持身份信息,但存在无法针对其他身份生成的问题;采用构建标准人脸/人头模型的方法可以采用数据驱动的训练方法提高泛化性能,但很难保持目标身份的面部细节。
其次,生成的嘴唇动作通常表现出较少的表现力,不能很好传达音频语义信息。采用音素视位检索可以合成逼真的唇部运动,但针对训练数据不存在的音素无法生成,现有基于生成的方法通过对唇部细节设置损失函数可以学习到一定的唇部动作,但是往往与真实唇部动作有差异。
最后,泛化性弱,对于未知身份的面孔生成效果差。通过构建标准人脸或人头模型可以学习针对多个身份的人脸说话生成,然而对于数据集中不存在的身份,生成效果较差。针对泛化性弱等问题,最新研究采用元学习提高泛化性能。元学习,也称为“学会学习”,旨在通过少量训练样本即可让模型学习到如何快速适应全新的数据。在人脸说话生成领域,通过元学习阶段获得的通用人脸嵌入参数,再通过few-shot阶段在新身份上训练微调该参数得到特定身份嵌入参数用于生成对应身份视频帧;或者使用MAML(Model-Agnostic-Meta-Learning)方法训练GAN以实现标准2D人脸关键点到目标身份视频帧的映射。
针对上述技术问题,如何根据获得的中间表示生成最终的视频结果也是值得研究的内容。现有方法大多基于图像翻译生成模型基础上迁移得到。在人脸编辑领域,图像被编码为潜在向量(latent code)的过程就是一个解耦过程,网络的低层次控制全局特征如:姿势、一般发型、面部形状;中层影响更精细的面部特征、发型、眼睛的睁开或是闭合;高层影响颜色方案(眼睛、头发和皮肤)和微观特征,通过映射网络解耦出样式,在生成网络的不同层次引入额外的噪声,可以对不同层次的特征进行控制,通过实验证明了他们的方法有效性。由于StyleGAN在生成时会在局部细节上产生伪影,为了解决这个问题,通过对原生成模型中的AdaIN层(adaptive instance normalization)重新设计为权重解调层,并在GAN的编码器与解码器间加入跳跃连接实现了消除伪影与提高生成质量。
针对现有技术中存在的各种问题,本发明提供的人脸说话视频生成方法基于音频和单张图片驱动,通过将人脸肖像投影到共享的扩展潜在空间中实现面部特征的解耦,获得目标身份面部不同维度的特征。同时,通过设计音频-表情映射网络根据音频信号学习时序的音频情绪表示并对面部潜在向量计算偏移量,最终采用StyleGAN2生成器网络生成逼真的人脸说话视频帧。
本发明的人脸说话视频生成方法的技术要点主要有:首先提出了一种基于StyleGAN2投影潜在空间的生成方法,通过将输入图像投影到扩展潜在空间对人脸属性进行解耦;其次,构建音频-表情映射网络,使用解耦的潜在向量计算与标准面部位移并根据音频信息对目标身份的唇部和表情进行操纵;此外,基于StyleGAN2生成器网络,根据调整后的潜在向量生成高保真,唇形与音频同步的真实人脸说话视频,从而解决现有技术中人脸说话视频生成过程中生成质量低、唇形视听同步差等问题。
需要特别指出的是,在本发明的技术方案中,所涉及的包含人脸的视频数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1是根据本发明实施例的基于音频和图像驱动的用于生成人脸说话视频的训练方法的流程图。
如图1所示,上述基于音频和图像驱动的用于生成人脸说话视频的训练方法包括操作S100~操作S190。
在操作S100,获取预设帧数的视频样本,并构建人脸说话视频生成模型,其中,人脸说话视频生成模型包括音频-表情映射网络、音频特征提取器、图像编码器和生成器,音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块。
上述视频样本是包括人脸说话的真实影像视频。
预设帧数可以是25FPS,先将上述视频样本的帧数调整为25FPS,再进行后续的处理。
在操作S110,利用音频特征提取器对视频样本的音频进行特征提取,得到音频特征向量。
上述音频特征提取器基于DeepSpeech构建,DeepSpeech是一个在数千小时的转录音频进行端到端训练的自动语音识别模型。上述音频特征提取器结构包含三个采用ReLU激活函数的全连接层处理一个MFCC窗口,结果被传递到一个双向LSTM网络中,并进一步传递到采用Softmax激活函数的全连接层,输出29个字符的概率分布。
在操作S110中,对于视频样本中的每一帧,本发明采用320毫秒的音频,即期望输出帧之前和之后的160毫秒音频段。对每个音频片段,使用DeepSpeech模型提取16个logits,每个logit对应于没有重叠的20毫秒音频,产生16×29维的特征向量。输入的视频均预先调整为25 FPS,因此,连续帧之间具有280毫秒的重叠部分。
在操作S120,利用音频编码器将音频特征向量进行编码处理,得到编码后的音频特征向量。
在操作S110中提取的音频特征的维数为W×D,其中窗口大小W为16,DeepSpeech字 母表中的字符数D为29。由于这29个字符logits没有空间相关性,因此音频编码器
Figure 221478DEST_PATH_IMAGE001
在时间 维度上使用一维时间卷积。对于输入的音频特征,首先将其转置为D×W,使得D沿着一维卷 积的通道维度。
上述音频编码器的网络结构使用4个一维卷积层,所有卷积层都包含偏置项,卷积 核大小为3,步长为2,激活函数是一个斜率为0.02的Leaky ReLU (带泄漏单元的ReLU激活 函数)。卷积层分别有32、32、64和64个滤波器,最后输出维度为64×1的向量。在前向传播过 程中,音频编码器单独处理
Figure 669777DEST_PATH_IMAGE002
个音频特征。
在操作S130,利用图像编码器对视频样本进行投影处理,得到视频图像的扩展潜在向量。
由于本发明的目标是控制面部表情及嘴部运动等细粒度的面部特征,这需要将视 频样本(或者训练图片数据)的精确投影。因此,使用扩展潜在空间
Figure 449514DEST_PATH_IMAGE003
,该空间包含数据集 中所有图片的潜在向量。
图像编码器
Figure 47985DEST_PATH_IMAGE004
是一个ResNet18网络,其中输出层被一个线性层代替,该线性层被 映射到18×512维的扩展潜在空间中,以预测给定输入图像的扩展潜在向量
Figure 767417DEST_PATH_IMAGE005
。为了便于 训练,
Figure 855459DEST_PATH_IMAGE004
只预测每层平均潜在代码
Figure 122492DEST_PATH_IMAGE006
的偏移量
Figure 524655DEST_PATH_IMAGE007
Figure 600058DEST_PATH_IMAGE006
是通过StyleGAN2模型的投影网络初 始化10000个随机潜在向量样本z来计算的。本发明中的StyleGAN2模型并没有对噪声进行 优化,而是对所有图像使用固定的噪声。因为对于视频而言,需要最小化由随机噪声引入的 连续帧的皮肤和头发纹理等细微变化以保持目标身份信息。
在操作S140,利用潜在向量编码器计算视频图像的扩展潜在向量的位移,得到扩展潜在向量的位移原点。
由于不同身份的潜在向量位于潜在空间的不同位置,只有对于接近所需特征的分 离边界的潜在向量才能很好地进行属性编辑与控制。因此,在潜在空间中,人脸各部位特征 并没有在整个潜在空间完全解耦,而是仅在相对较小的范围内如特征分离边界得到一定程 度上的解耦。针对人脸说话生成任务,这种情况更加严重,因为在改变嘴唇形状与面部表情 的同时,这些部位应该与目标身份紧密匹配。在许多情况下,对每个身份应用一个通用的潜 在向量位移而不考虑不同身份的潜在向量在潜在空间中位置不同会导致次优结果。对潜在 向量
Figure 593422DEST_PATH_IMAGE008
Figure 613331DEST_PATH_IMAGE009
应用相同的位移
Figure 756867DEST_PATH_IMAGE010
不会以期望的方式改变
Figure 984980DEST_PATH_IMAGE009
。因此,网络必须知道潜在向量的 起始位置。
本发明在对潜在向量进行操纵前给出它在潜在空间的大致位置,即计算位移的原 点,这也是潜在向量编码器
Figure 414824DEST_PATH_IMAGE011
的任务。为了减小参数数量,这个网络只由一个线性层组成, 它从潜在向量中提取关键信息到一个128维的向量中。为了便于训练,这里使用训练数据所 有图片预先计算好的潜在向量的前150个主成分分析(Principal Component Analysis , PCA)的分量来初始化潜在向量编码器的权重,这些分量解释了训练数据中大约98.95%的差 异,足够进行特征分离以找到潜在向量于潜在空间的位置。
在操作S150,利用映射网络处理编码后的音频特征向量和扩展潜在向量的位移原点,得到扩展潜在向量的位移信息。
映射网络
Figure 187608DEST_PATH_IMAGE012
的任务是根据音频编码器和潜在向量编码器的输出生成输入图像潜 在向量的位移建议。该模块包含4个全连接层,其中前两层之后是斜率为0.02的Leaky ReLU 激活层,第一层在Leaky ReLU之前包含一个AdaIN层,后两个全连接层没有激活函数。这里 使用前512个预先计算的PCA分量初始化最后的全连接层的权重,这些分量解释了训练数据 中大约99.98%的差异。这意味着,最后的全连接层在PCA空间上执行回归。但是,本发明并没 有固定该层的权重,允许它在训练中进行更新。
映射网络仅在扩展潜在空间
Figure 603677DEST_PATH_IMAGE013
的子集中计算位移预测。由于StyleGAN样式生成 器中的各个层控制最终图像的某些特征,本发明进一步评估了在扩展潜在空间中的具体情 况。
在操作S160,利用注意力模块计算扩展潜在向量的位移信息的线性组合得到加权的扩展潜在向量。
注意力模块
Figure 778306DEST_PATH_IMAGE014
是一个卷积神经网络,将由映射网络计算的
Figure 113473DEST_PATH_IMAGE002
个位移建议作为输 入,计算输入的的线性组合,并输出最终位移
Figure 45657DEST_PATH_IMAGE015
。每个位移建议为2048维,即扩展潜在向量
Figure 265416DEST_PATH_IMAGE005
中的4个512维向量。本发明将位移建议叠加到一个形状为
Figure 294552DEST_PATH_IMAGE016
的矩阵中,其中
Figure 66199DEST_PATH_IMAGE017
,这样
Figure 718635DEST_PATH_IMAGE018
就位于通道维度上。
该模块包含4个一维卷积层,卷积核大小为3,步长为1,采用斜率为0.02的Leaky ReLU激活函数。它们沿着时间维度
Figure 7665DEST_PATH_IMAGE002
执行操作,连续地将通道数量减少到一个,最终输出
Figure 625728DEST_PATH_IMAGE019
维的潜在向量偏移。最后是一个带有softmax激活函数的全连接层,会计算
Figure 568277DEST_PATH_IMAGE002
个时序权 重,决定
Figure 412736DEST_PATH_IMAGE002
个位移如何整合成最终位移
Figure 36615DEST_PATH_IMAGE015
。这种形式的注意力模块,这增加了每个帧的有效 音频上下文,有助于显著降低连续帧的表情突变,并生成平滑的嘴巴运动。
在操作S170,利用生成器处理加权的扩展潜在向量,得到生成视频,其中,生成器基于StyleGAN2模型构建。
为了更充分地利用网络各层输出的特征图,StyleGAN2通过采用跳跃连接,将不同尺度的特征图引入生成器,利用多级特征生成高分辨率图像中的细节。
生成器网络输入逐帧的经过最终位移
Figure 40343DEST_PATH_IMAGE015
调整后的预测的潜在向量
Figure 153793DEST_PATH_IMAGE020
,输出生成的 时序图片结果,通过FFMPEG工具转换得到目标帧率的人脸说话视频结果。
在操作S180,利用损失函数处理生成视频、与生成视频相对应的视频样本和扩展潜在向量,得到损失值,并根据损失值,优化人脸说话视频生成模型的参数。
上述损失函数包括感知损失函数和加权均方差损失函数,其中,感知损失函数的输入包括生成视频和与生成视频相对应的视频样本,加权均方差损失函数的输入包括生成视频的扩展潜在向量和视频样本的扩展潜在向量。
在操作S190,迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作,直到损失值满足预设条件,得到训练完成的人脸说话视频生成模型。
本发明通过基于StyleGAN2潜在向量映射空间的人脸说话生成模型来提高人脸说话的生成质量并提供音频对应的情绪表达。本发明提供的人脸说话生成模型具有通用性,可以适应不同的输入数据,应用于不同的目标身份,具有良好的泛化性。此外,本发明通过一个预测StyleGAN2的扩展潜在向量空间中与音频段相对应的线性位移的模块,利用音频特征对目标身份图像潜在向量进行控制,以实现音频-表情映射学习,进而生成带有音频情绪对应面部表情的目标身份说话视频。
图2是根据本发明实施例的获取音频特征向量的流程图。
如图2所示,上述利用音频特征提取器对视频样本的音频进行特征提取,得到音频特征向量包括操作S210~操作S230。
在操作S210,利用音频特征提取器分别获取距离视频样本的目标帧之前和之后第一预设时长的多个音频片段。
在操作S220,利用音频特征提取器的语音识别模型提取每个音频片段预设数量的逻辑单元,得到具有第二预设时长的多个逻辑单元,其中,任意两个逻辑单元所对应的音频互不重叠。
在操作S230,利用音频特征提取器将逻辑单元处理成第一预设维度的音频特征向量。
其中,上述音频特征提取器基于DeepSpeech构建,音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。
图3是根据本发明实施例的DeepSpeech模型的结构示意图。
图4是根据本发明实施例的获取音频特征向量的过程示意图。
为了更好地理解上述获取音频特征向量的过程,本发明结合图3和图4对上述获取音频特征向量的过程作进一步详细地说明。
对于传统的语音识别,通常会分为3个部分:语音模型、词典以及语言模型。语音模 型和语言模型都是分开进行训练的,因此这两个模型优化的损失函数不是相同的。而整个 语音识别训练的目标(WER:word error rate)与这两个模型的损失函数不是一致的。另外 语音处理中有几个难点:输入的语音与目标文本之间的对齐(alignment);语音的切片如何 切,以多长的时间滑动窗口切分,是很难定义的;输出结果需要处理后才能映射到目标 label上。CTC损失函数完美地解决了这几个问题。基于RNN 网络和CTC损失,如图3所示, DeepSpeech模型学习音频到文本的映射的,实现了端到端的语音识别,其中,
Figure 733152DEST_PATH_IMAGE021
表示t时刻 第i层隐藏层的输出,例如
Figure 160723DEST_PATH_IMAGE022
表示t时刻第1层隐藏层的输出;
Figure 753378DEST_PATH_IMAGE023
表示t时刻隐藏层的前向 计算;
Figure 37729DEST_PATH_IMAGE024
表示t时刻隐藏层的反向传播;
Figure 591201DEST_PATH_IMAGE025
表示C帧的上下文信息;
Figure 150358DEST_PATH_IMAGE026
表示t时刻的音频帧信 息。上述DeepSpeech模型的输入是context特征,输出是字符序列,解码需要结合ngram语言 模型。ngram语言模型共五层,前三层是简单的DNN结构,第四层是双向RNN,第五层的输入是 RNN的前向和后向单元,后面跟着softmax分类。
图4表明了利用上述音频特征提取器对视频样本中目标帧所对应的音频的前后一段时长的音频片段进行提取,从而获取目标帧所对应的音频前后的多个音频片段。之后用图3所示的DeepSpeech模型对每个音频片段进行处理,提取多个logits,产生具有预设维度(例如16×29)的音频特征向量,其中,每个logit所对应的音频片段为20毫秒。视频样本的连续帧之间具有280毫秒的重叠部分。
图5是根据本发明实施例的获取编码后的音频特征向量的流程图。
如图5所示,上述利用音频编码器将音频特征向量进行编码处理,得到编码后的音频特征向量包括操作S510~操作S520。
在操作S510,利用音频编码器将音频特征向量进行转置,得到转置后的音频特征向量。
在操作S520,利用音频编码器对转置后的音频特征向量在时间维度上进行一维时间卷积,得到编码后的音频特征向量。
上述音频编码器包括预设斜率的LeakyReLU激活函数(带泄露单元的ReLU)和多个一维卷积层,每个一维卷积层包括偏置项和多个滤波器。
图6是根据本发明实施例的获取扩展潜在向量的流程图。
如图6所示,上述利用图像编码器对视频样本进行投影处理,得到视频图像的扩展潜在向量包括操作S610~操作S620。
在操作S610,利用图像编码器处理视频样本,得到线性输出向量,并将线性输出向量映射到具有第二预设维度的扩展潜在空间,得到潜在向量。
在操作S620,利用图像编码器计算平均潜在向量的偏移量,并将平均潜在向量的偏移量和潜在向量进行向量运算,得到扩展潜在向量。
图7是根据本发明实施例的图像编码器的运行示意图。
如图7所示,图像编码器
Figure 535203DEST_PATH_IMAGE004
基于ResNet18构建,平均潜在向量由StyleGAN2模型的 投影网络通过计算随机潜在向量样本得到。对于视频样本中目标帧图像,通过ResNet18处 理后得到
Figure 724876DEST_PATH_IMAGE007
,将
Figure 529759DEST_PATH_IMAGE007
与平均潜在向量
Figure 361449DEST_PATH_IMAGE006
进行向量运算得到预测的扩展潜在向量
Figure 663117DEST_PATH_IMAGE020
,预测 的扩展潜在向量
Figure 226954DEST_PATH_IMAGE020
再经过StyleGAN2处理得到视频样本中目标帧图像的扩展潜在向量
Figure 20597DEST_PATH_IMAGE027
,并利用训练完成和参数固定的StyleGAN2生成器生成最终图像
Figure 655978DEST_PATH_IMAGE028
图8是根据本发明实施例的获取位移原点的流程图。
如图8所示,上述利用潜在向量编码器计算视频图像的扩展潜在向量的位移,得到扩展潜在向量的位移原点包括操作S810~操作S820。
在操作S810,获取训练样本中事先设置的潜在向量的预设数量的主成分的分量,并根据预设数量的主成分的分量,初始化潜在向量编码器的参数。
在操作S820,利用潜在向量编码器提取视频图像的扩展潜在向量的位移的特征信息,并将特征信息映射到一维向量中得到扩展潜在向量的位移原点。
图9是根据本发明实施例的潜在空间的示意图。
下面结合图9对上述获取位移原点的过程作进一步详细地描述。
如图9所示,对潜在向量
Figure 546574DEST_PATH_IMAGE008
Figure 750153DEST_PATH_IMAGE009
应用相同的位移
Figure 63716DEST_PATH_IMAGE010
不会以期望的方式改变
Figure 768367DEST_PATH_IMAGE009
。因 此,网络必须知道潜在向量的起始位置。这就需要本发明所提供的潜在向量编码器能够计 算潜在向量的位移原点。
根据本发明的实施例,上述映射网络包括多个第一全连接层和多个第二全连接层;其中,第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。
图10是根据本发明实施例的交换潜在向量区间可视化示意图。
下面结合图10对本发明所提供的映射网络及其功能作进一步地详细说明。
如图10显示了投影到扩展潜在空间的两帧视频。第一列显示输入图像和目标图像,而后几列最上面一行显示输入图像潜在向量的各个层与目标图像的对应各个层交换的结果,第二行显示了输入图像和相应交换结果之间的绝对差异,第三行显示了目标图像和相应交换结果之间的绝对差异。白色表示绝对差异大,而黑色部分表示绝对差异小。通过可视化比较可以发现,只有交换中间层[4:7]才能得到想要的变化,包括显著的唇部变化与对应的表情。顶层[0:3]改变了头部姿势。这可以通过观察目标图像和结果之间的差异来验证,头部轮廓周围的灰色区域(即第一列中2个人脸图像所示的灰色区域和第一行中3个人脸图像所示的灰色区域)相对来说比所有其他层都要小。交换底层[8:18]几乎不会导致几何差异。因此本发明最终训练时仅会针对潜在向量的[4:7]层计算偏移量以减小数据维度。
根据本发明的实施例,上述注意力模块包括采用预设斜率的LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。
图11是根据本发明实施例的获取生成视频的流程图。
如图11所示,上述利用生成器处理加权的扩展潜在向量,得到生成视频包括操作S111~操作S114。
在操作S111,利用生成器的StyleGAN2模型进行跳跃连接,将具有不同尺寸的特征图引入生成器。
在操作S112,利用生成器通过多级特征生成视频图像的细节特征。
在操作S113,利用生成器输入逐帧经过位移信息调整后的潜在向量,生成时序图像。
在操作S114,利用图像转换工具将时序图像进行转换,得到生成视频。
图12是根据本发明实施例的基于StyleGAN2的生成器的结构示意图。
下面结合图12对上述生成器的结构和功能作进一步地详细说明。
在图12中,子图(a)和(b)为StyleGAN的网络结构,子图(b)显示了StyleGAN的详细 网络结构(detailed),子图(c)为StyleGAN2调整后的网络结构(revised architecture), 子图(d)为StyleGAN2使用权重解调操作来代替实例标准化示意图(weight demodulation)。附图12中,Upsample表示上采样,Mod mean/std表示模均值/标准差,Norm mean/std表示范数均值/标准差,Style block表示样式区块,AdaIN表示Adaptive Instance Normalization,自适应实例标准化,Conv表示卷积,例如Conv
Figure 779048DEST_PATH_IMAGE029
表示
Figure 887950DEST_PATH_IMAGE029
的卷 积层,Const表示常量,A代表从潜在空间中通过仿射变换的到的样式,B代表引入的噪声,w、 b、c分别代表网络权重、偏置项和恒定输入,Demod代表权重解调操作。并进一步引入了路径 长度正则化将生成良好图像的潜在空间进行拉伸,帮助生成器选择合适的潜在向量,同时 对于潜在空间中同方向的变化,不同的路径长短可以带来不同幅度的变化。这种方法有效 提高了图片的生成质量。
为了更充分地利用网络各层输出的特征图,StyleGAN2通过采用跳跃连接,将不同尺度的特征图引入生成器,利用多级特征生成高分辨率图像中的细节。
生成器网络输入逐帧的经过最终位移
Figure 515240DEST_PATH_IMAGE030
调整后的预测的潜在向量
Figure 430106DEST_PATH_IMAGE005
,输出生成的 时序图片结果,通过FFMPEG工具转换得到目标帧率的人脸说话视频结果。
根据本发明的实施例,上述损失函数包括感知损失函数和加权均方差损失函数。
图13是根据本发明实施例的面部掩模可视化的示意图。
下面结合图13对上述损失函数优化人脸说话视频生成模型的过程作进一步详细地说明。
上述人脸说话视频生成模型优化的目标是图像
Figure 295294DEST_PATH_IMAGE031
,它是输入音频
Figure 575097DEST_PATH_IMAGE032
的对应的视频 帧。本发明决定采用复合损失函数以获得理想的训练效果。
上述人脸说话视频生成模型的第一个损失函数是感知损失
Figure 689683DEST_PATH_IMAGE033
。输入图像和目 标图像都通过预先训练的VGG16网络,并且在网络的不同层比较它们的特征。这里将描述图 像内容的感知特征向量表示为
Figure 641197DEST_PATH_IMAGE034
。虽然所有训练数据人脸都是预先对齐的,但它仍然包 含头部姿态的许多变化,特别是俯仰和偏航旋转,以及对齐过程中产生的微小尺寸变化。这 些变化与音频没有直接相关性,因此必须将它们排除在优化过程之外。本发明通过在计算 感知损失之前用二进制掩模过滤
Figure 626470DEST_PATH_IMAGE035
Figure 342754DEST_PATH_IMAGE031
来实现这一点。掩模是通过使用Dlib开源工具为数 据集的每一帧预测眼部区域12个和唇部区域的20个二维面部关键点。然后计算所有帧的32 个二维面部关键点中每个关键点的平均值和标准差,并将每个标志的平均值移动到距离唇 部中心标准差的五倍而创建的。如图13所示,在这些点的凸包内部为1可见,在外部为0不可 见。这使得优化中充分考虑唇部和眼部周围的足够多的面部特征,它们与表情密切相关,同 时避免捕捉不必要的头部运动。
上述人脸说话视频生成模型的第一个损失函数是预测的扩展潜在向量
Figure 679057DEST_PATH_IMAGE020
和从目 标图像提取的扩展潜在向量
Figure 138988DEST_PATH_IMAGE036
之间的加权均方误差损失(Mean Squared Error, MSE)。由 于训练数据中每个视频只包含一个身份,因此潜在向量4至7维中的大部分差异来自面部表 情的变化。如公式1所示,通过计算数据集中所有潜在向量的每个视频差异,并使用这些每 个视频差异的平均值来计算与MSE相同形状的权重掩模
Figure 978768DEST_PATH_IMAGE037
Figure 662691DEST_PATH_IMAGE038
(1),
其中
Figure 486290DEST_PATH_IMAGE039
等于数据集中的视频数量,
Figure 985798DEST_PATH_IMAGE040
是第
Figure 883347DEST_PATH_IMAGE041
个视频中的帧数,
Figure 534908DEST_PATH_IMAGE042
表示第
Figure 111383DEST_PATH_IMAGE041
个视频中 第
Figure 647537DEST_PATH_IMAGE043
帧的扩展潜在向量,
Figure 196330DEST_PATH_IMAGE044
是第
Figure 815531DEST_PATH_IMAGE041
个视频的平均扩展潜在向量。因此完整的MSE损失如公式2 所示:
Figure 285826DEST_PATH_IMAGE045
(2),
其中,
Figure 389786DEST_PATH_IMAGE046
等于
Figure 793086DEST_PATH_IMAGE005
中的潜在向量总数,
Figure 317608DEST_PATH_IMAGE047
表示第
Figure 275200DEST_PATH_IMAGE048
帧掩模。
此外,用
Figure 418736DEST_PATH_IMAGE049
Figure 942121DEST_PATH_IMAGE050
超参数对两个损失进行加权,最终损失函数如公式3所示:
Figure 637545DEST_PATH_IMAGE051
(3)。
根据本发明的第二个方面,提供了一种基于音频和图像驱动的人脸说话视频生成方法,包括:利用训练完成的人脸说话视频生成模型处理目标人物的视频,得到目标人物的人脸说话生成视频,其中,训练完成的人脸说话生成模型由上述训练方法训练得到。
图14是根据本发明实施例的人脸说话视频生成方法的结构示意图。
下面结合图14对本发明所提供的上述人脸说话视频生成方法作进一步地详细说明。
如图14所示,其中, MSE表示加权均方误差损失,LPIPS表示感知损失函数,
Figure 20116DEST_PATH_IMAGE052
表示 图像,
Figure 265546DEST_PATH_IMAGE031
表示音频,
Figure 909017DEST_PATH_IMAGE036
表示音频的扩展潜在向量,
Figure 775342DEST_PATH_IMAGE027
表示图像的扩展向量,
Figure 645209DEST_PATH_IMAGE020
表示预测的 扩展潜在向量,
Figure 255182DEST_PATH_IMAGE028
表示最终生成的视频图像,
Figure 753159DEST_PATH_IMAGE015
表示加权系数。对目标人物视频的某一帧图 像,用图像编码器获取该帧图像的扩展潜在向量,在此过程中,可以先用MSE和LPIPS损失函 数优化图像编码器。同时,对于目标人物视频的某一帧图像所对应的音频,用基于 DeepSpeech模型的音频特征提取器得到音频特征,将上述音频特征和扩展潜在向量输入到 Audio2Expression Net(即音频-表情映射网络)中处理,得到加权的扩展潜在向量,最终由 基于StyleGAN2的生成器处理上述加权的扩展潜在向量,得到生成视频。
为了更好地理解本发明所提供的上述方法和/或模型,本发明通过设计以下实验来进一步详细地说明本发明所提供的上述方法。
为了评价本发明所提供的上述方法和/或模型的优点和积极效果,本发明设计了如下几个评价指标:峰值信噪比(Peak Signal to Noise Ratio, PSNR)、结构相似性指数(Structural Similarity, SSIM)、预先训练的唇读模型的错误率(Word Error Rate,WER)、SyncNet置信度和视听偏移量以及FaceNet嵌入空间中帧的距离。其中,峰值信噪比的值越高说明方法和/或模型的效果越好;结构相似性指数的值越高说明方法效果越好;预先训练的唇读模型的错误率的值越低说明方法和/或模型的效果越好;SyncNet置信度的值越高说明方法和/或模型的效果越好,SyncNet视听偏移量的值越低说明方法和/或模型的效果越好;FaceNet嵌入空间中帧的距离的值越低说明方法和/或模型的效果越好。
在实验中,本发明基于Pytorch 开源框架来实现音频-表情映射网络 (Audio2Expression Net),并使用torchvision库中预先训练的权重来初始化模型的图像 编码器ResNet18网络。优化器使用Adam优化器,学习率为0.0001,在最后30%的训练中线性 下降至0.0,批大小设置为
Figure 462489DEST_PATH_IMAGE053
,迭代300000次。CREMA-D数据集按7:2:1拆分为训练集、测 试集和验证集。在每次迭代中,会从预先划分的训练集的视频中随机抽取
Figure 819652DEST_PATH_IMAGE054
个视频的一帧作 为输入样本,并随机选择相同视频的另一帧及其对应的DeepSpeech特征组成训练样本。在 所有实验中设置音频上下文长度
Figure 702157DEST_PATH_IMAGE055
。损失函数的权重分别设置为
Figure 585800DEST_PATH_IMAGE056
Figure 230146DEST_PATH_IMAGE057
对于StyleGAN2生成器,这里使用NVIDIA官方的Pytorch实现以及在FFHQ数据集上训练好的权重。
将本发明中的Audio2Expression Net模型与基于时序GAN的方法的两个不同版本模型(CREMA、GRID)从直观可视化质量和评价指标两个方面进行对比。
图15是根据本发明实施例的可视化对比结果示意图。
如图15所示的可视化对比结果,可以看到,所有的对比方法只生成面部,而本发明的方法生成和输入肖像一样比例的说话人脸,并且能生成头发和背景。
另一个显著差异是生成帧的分辨率。由本发明的方法生成的帧分辨率为256×256,而Speech2Vid、ATVGNet和基于时序GAN的方法生成的帧分辨率分别是128×128,109×109和128×96。显然越高的分辨率,生成的效果越逼真。为了便于展示,这里将对比方法的生成结果均放大为宽256像素。
此外,还可以看到,基于时序GAN的方法两个模型都无法迁移到CREMA-D数据上,出现不同程度的扭曲与畸变,一定程度上反应了泛化性能较差。Speech2Vid、ATVGNet方法目标身份信息得以保持。最后,本发明的方法在生成逼真的面部纹理和背景效果方面优于所有基线方法,结果视觉感受更加真实自然。
为了确保各种方法之间的公平比较,本发明的生成结果在缩放到
128×128的面部区域上计算各个指标。对使用face-alignment开源库获得的2D面部关键点进行仿射变换,使得眼睛位于变换图像中的期望位置。
表1显示了在CREMA-D数据集和GRID数据集的测试集上的实验结果,其中标粗的是最优性能。对于WER指标由于LipNet仅在GRID数据集上训练,因此所有方法仅对比该数据集上的测试结果。基于时序GAN的方法(grid)和基于时序GAN的方法(crema)表示他们的模型分别在GRID和CREMA-D数据集上进行训练,因此在各自的测试数据上进行评估。为了和ATVGNet及基于时序GAN的方法(grid)对比,本发明的方法也在GRID数据集上进行了测试。
表1 在CREMA-D数据集和GRID数据集上的评价指标对比
Figure DEST_PATH_IMAGE058
本发明的Audio2Expression Net模型在两个数据集上评价指标得分领先。在CREMA-D数据集上5个指标除Offset均为最优,在GRID数据集上PSNR、SSIM、FD为最优。从可视化结果和评价指标均能看出本发明的Audio2Expression Net模型生成质量的优越性,对于未曾训练的GRID数据集也能保持较高的生成质量,泛化性能优秀,生成唇形与音频的置信度和视听偏移量也在良好的范围,可以很好地应用于人脸说话生成任务。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法,包括:
获取预设帧数的视频样本,并构建人脸说话视频生成模型,其中,所述人脸说话视频生成模型包括音频特征提取器、图像编码器、音频-表情映射网络和生成器,所述音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块;
利用所述音频特征提取器对所述视频样本的音频进行特征提取,得到音频特征向量;利用所述音频编码器将所述音频特征向量进行编码处理,得到编码后的音频特征向量;利用所述图像编码器对所述视频样本进行投影处理,得到视频图像的扩展潜在向量;利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移,得到所述扩展潜在向量的位移原点;利用所述映射网络处理所述编码后的音频特征向量和所述扩展潜在向量的位移原点,得到扩展潜在向量的位移信息;利用所述注意力模块计算所述扩展潜在向量的位移信息的线性组合,得到加权的扩展潜在向量;利用所述生成器处理所述加权的扩展潜在向量,得到生成视频,其中,所述生成器基于StyleGAN2模型构建;
利用损失函数处理所述生成视频、与所述生成视频相对应的视频样本和所述扩展潜在向量,得到损失值,并根据所述损失值,优化所述人脸说话视频生成模型的参数;
迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作,直到所述损失值满足预设条件,得到训练完成的人脸说话视频生成模型。
2.根据权利要求1所述的训练方法,其中,利用所述音频特征提取器对所述视频样本的音频进行特征提取,得到音频特征向量包括:
利用所述音频特征提取器分别获取距离所述视频样本的目标帧之前和之后第一预设时长的多个音频片段;
利用所述音频特征提取器的语音识别模型提取每个所述音频片段预设数量的逻辑单元,得到具有第二预设时长的多个逻辑单元,其中,任意两个逻辑单元所对应的音频互不重叠;
利用所述音频特征提取器将所述逻辑单元处理成第一预设维度的音频特征向量;
其中,所述音频特征提取器基于DeepSpeech构建,所述音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。
3.根据权利要求1所述的训练方法,其中,利用所述音频编码器将所述音频特征向量进行编码处理,得到编码后的音频特征向量包括:
利用所述音频编码器将所述音频特征向量进行转置,得到转置后的音频特征向量;
利用所述音频编码器对所述转置后的音频特征向量在时间维度上进行一维时间卷积,得到编码后的音频特征向量;
其中,所述音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层,每个所述一维卷积层包括偏置项和多个滤波器。
4.根据权利要求1所述的训练方法,其中,利用所述图像编码器对所述视频样本进行投影处理,得到视频图像的扩展潜在向量包括:
利用所述图像编码器处理所述视频样本,得到线性输出向量,并将所述线性输出向量映射到具有第二预设维度的扩展潜在空间,得到潜在向量;
利用所述图像编码器计算平均潜在向量的偏移量,并将所述平均潜在向量的偏移量和所述潜在向量进行向量运算,得到所述扩展潜在向量;
其中,所述图像编码器基于ResNet18构建;
其中,所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。
5.根据权利要求1所述的训练方法,其中,利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移,得到所述扩展潜在向量的位移原点包括:
获取所述视频样本中事先设置的潜在向量的预设数量的主成分的分量,并根据所述预设数量的主成分的分量,初始化所述潜在向量编码器的参数;
利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信息,并将所述特征信息映射到一维向量中得到所述扩展潜在向量的位移原点。
6.根据权利要求1所述的训练方法,其中,所述映射网络包括多个第一全连接层和多个第二全连接层;
其中,所述第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。
7.根据权利要求1所述的训练方法,其中,所述注意力模块包括采用预设斜率的LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。
8.根据权利要求1所述的训练方法,其中,利用所述生成器处理所述加权的扩展潜在向量,得到生成视频包括:
利用所述生成器的StyleGAN2模型进行跳跃连接,将具有不同尺寸的特征图引入所述生成器;
利用所述生成器通过多级特征生成所述视频图像的细节特征;
利用所述生成器输入逐帧经过所述位移信息调整后的潜在向量,生成时序图像;
利用图像转换工具将所述时序图像进行转换,得到所述生成视频。
9.根据权利要求1所述的训练方法,其中,所述损失函数包括感知损失函数和加权均方差损失函数。
10.一种基于音频和图像驱动的人脸说话视频生成方法,包括:
利用训练完成的人脸说话视频生成模型处理目标人物的视频,得到目标人物的人脸说话生成视频,其中,所述训练完成的人脸说话生成模型由权利要求1-9任一所述的训练方法训练得到。
CN202211248353.4A 2022-10-12 2022-10-12 基于音频和图像驱动的用于生成人脸说话视频的训练方法 Active CN115330912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211248353.4A CN115330912B (zh) 2022-10-12 2022-10-12 基于音频和图像驱动的用于生成人脸说话视频的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211248353.4A CN115330912B (zh) 2022-10-12 2022-10-12 基于音频和图像驱动的用于生成人脸说话视频的训练方法

Publications (2)

Publication Number Publication Date
CN115330912A true CN115330912A (zh) 2022-11-11
CN115330912B CN115330912B (zh) 2023-03-24

Family

ID=83914606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211248353.4A Active CN115330912B (zh) 2022-10-12 2022-10-12 基于音频和图像驱动的用于生成人脸说话视频的训练方法

Country Status (1)

Country Link
CN (1) CN115330912B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546017A (zh) * 2022-11-30 2022-12-30 天津大学 一种多媒体换脸方法及装置
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统
CN117153195A (zh) * 2023-10-31 2023-12-01 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统
CN117495649A (zh) * 2024-01-02 2024-02-02 支付宝(杭州)信息技术有限公司 一种图像的处理方法、装置及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443498A1 (en) * 2003-01-24 2004-08-04 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
CN110135215A (zh) * 2018-02-02 2019-08-16 上海大学 一种基于Avatar表情移植的虚拟社交方法
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113838174A (zh) * 2021-11-25 2021-12-24 之江实验室 一种音频驱动人脸动画生成方法、装置、设备与介质
CN114097248A (zh) * 2019-12-30 2022-02-25 华为技术有限公司 一种视频流处理方法、装置、设备及介质
US20220084273A1 (en) * 2020-09-12 2022-03-17 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN114549946A (zh) * 2022-02-21 2022-05-27 中山大学 一种基于跨模态注意力机制的多模态个性识别方法及系统
CN114724548A (zh) * 2022-03-11 2022-07-08 中国科学技术大学 多模态语音识别模型的训练方法、语音识别方法及设备
CN115082300A (zh) * 2022-07-22 2022-09-20 中国科学技术大学 图像生成模型的训练方法、图像生成方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443498A1 (en) * 2003-01-24 2004-08-04 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
CN110135215A (zh) * 2018-02-02 2019-08-16 上海大学 一种基于Avatar表情移植的虚拟社交方法
CN114097248A (zh) * 2019-12-30 2022-02-25 华为技术有限公司 一种视频流处理方法、装置、设备及介质
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
US20220084273A1 (en) * 2020-09-12 2022-03-17 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113838174A (zh) * 2021-11-25 2021-12-24 之江实验室 一种音频驱动人脸动画生成方法、装置、设备与介质
CN114549946A (zh) * 2022-02-21 2022-05-27 中山大学 一种基于跨模态注意力机制的多模态个性识别方法及系统
CN114724548A (zh) * 2022-03-11 2022-07-08 中国科学技术大学 多模态语音识别模型的训练方法、语音识别方法及设备
CN115082300A (zh) * 2022-07-22 2022-09-20 中国科学技术大学 图像生成模型的训练方法、图像生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜莱: "音频驱动跨模态视觉生成算法综述", 《图学学报》 *
李雨思: "基于音频驱动的视频生成设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546017A (zh) * 2022-11-30 2022-12-30 天津大学 一种多媒体换脸方法及装置
CN115546017B (zh) * 2022-11-30 2023-03-10 天津大学 一种多媒体换脸方法及装置
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统
CN117152692B (zh) * 2023-10-30 2024-02-23 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统
CN117153195A (zh) * 2023-10-31 2023-12-01 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统
CN117153195B (zh) * 2023-10-31 2024-03-12 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统
CN117495649A (zh) * 2024-01-02 2024-02-02 支付宝(杭州)信息技术有限公司 一种图像的处理方法、装置及设备

Also Published As

Publication number Publication date
CN115330912B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN113192161B (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN115330912B (zh) 基于音频和图像驱动的用于生成人脸说话视频的训练方法
Cudeiro et al. Capture, learning, and synthesis of 3D speaking styles
Das et al. Speech-driven facial animation using cascaded gans for learning of motion and texture
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
US20210248801A1 (en) Style-aware audio-driven talking head animation from a single image
US11682153B2 (en) System and method for synthesizing photo-realistic video of a speech
US20060009978A1 (en) Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
CN113822969A (zh) 训练神经辐射场模型和人脸生成方法、装置及服务器
CN115457169A (zh) 一种语音驱动的人脸动画生成方法及系统
Zhou et al. An image-based visual speech animation system
CN115588224A (zh) 一种人脸关键点的预测方法、虚拟数字人生成方法及装置
Yang et al. Large-scale multilingual audio visual dubbing
CN115984933A (zh) 人脸动画模型的训练方法、语音数据处理方法和装置
Websdale et al. Speaker-independent speech animation using perceptual loss functions and synthetic data
Lavagetto Time-delay neural networks for estimating lip movements from speech analysis: A useful tool in audio-video synchronization
Huang et al. Fine-grained talking face generation with video reinterpretation
CN116828129B (zh) 一种超清2d数字人生成方法及系统
US20230419579A1 (en) Three-dimensional face animation from speech
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
Wang et al. Talking faces: Audio-to-video face generation
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
CN113963092A (zh) 音视频拟合关联的计算方法、装置、介质和设备
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant