CN116403144A - 基于音频特征分离情感并驱动人脸动画合成方法及系统 - Google Patents

基于音频特征分离情感并驱动人脸动画合成方法及系统 Download PDF

Info

Publication number
CN116403144A
CN116403144A CN202310401054.8A CN202310401054A CN116403144A CN 116403144 A CN116403144 A CN 116403144A CN 202310401054 A CN202310401054 A CN 202310401054A CN 116403144 A CN116403144 A CN 116403144A
Authority
CN
China
Prior art keywords
emotion
audio
identity
image
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310401054.8A
Other languages
English (en)
Inventor
蔡敏捷
任新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310401054.8A priority Critical patent/CN116403144A/zh
Publication of CN116403144A publication Critical patent/CN116403144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统,包括步骤:S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频结合参考面部图像提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成脸部图像。本发明根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制,更细粒度地合成人脸动画视频。

Description

基于音频特征分离情感并驱动人脸动画合成方法及系统
技术领域
本发明涉及图像处理以及图像合成的技术领域,特别是涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统。
背景技术
音频驱动的人脸动画合成问题是计算机视觉领域的一个热门问题,这个问题可以被描述为,给定一副人脸参考图像和一段人的谈话音频,来生成这段音频所对应参考图像中人脸在谈话时的动画。
近年来,出现多种音频驱动的人脸动画合成的方法,这些方法主要利用神经网络对音频中的特征进行提取,然后将音频特征转换为某种中间表示,再将中间表示与参考图像以某种方式进行叠加,通过生成网络生成音频所对应的视频,生成的视频在真实性和准确性上取得了较好的提升。然而,在实际的谈话过程中,由于情感的影响,尽管谈论的内容本身相同,但音频中的音调等特征并不完全相同,因此,如何从谈话音频中将音频的情感部分进行分离,并根据分离的情感部分对生成视频的脸部表情进行控制,来合成更加真实准确的人脸动画视频是业内亟待解决的问题。
发明内容
为解决上述技术问题中的至少之一,本发明提出一种基于音频特征分离情感并驱动人脸动画合成方法。
本发明的目的通过以下技术方案实现:
本发明提供了一种基于音频特征分离情感并驱动人脸动画合成方法,包括如下步骤:
S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;
S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;
S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;
S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;
S5、根据预测图像的标志点坐标构造标志点图;
S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。
作为进一步的改进,所述步骤S2中,从语音音频中提取音频特征,首先对语音音频进行预处理,并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。
作为进一步的改进,所述步骤S2中,从参考面部图像中提取面部标志点,包括如下步骤:
S21、从参考面部图像中提取所有三维面部标志点坐标;
S22、对所有三维面部标志点坐标计算坐标平均值;
S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐;
S24、通过正交投影将三维面部标志点投影到图像空间上。
作为进一步的改进,所述步骤S3中,从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤:
S31、使用神经网络对音频特征进行编码;
S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息;
S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入;
S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息;
S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。
作为进一步的改进,所述步骤S34中,通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤:
S341、从参考面部图像中分别选取第一视频片段和第二视频片段,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段;
S342、将三个视频片段在对比学习模型中进行对比学习,根据第一视频片段的情感特征嵌入和第二视频片段的情感特征嵌入分离出包含情感特征嵌入的情感信息;
S343、由表情预测网络预测三个视频片段中表情的softmax概率;
S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息。
作为进一步的改进,所述步骤S342中,对比学习的情感损失公式如下:
Figure BDA0004179643800000031
其中,
Figure BDA0004179643800000032
表示情感损失函数,λr,s是预测的第一视频片段和第二视频片段表情的softmax概率之间的余弦相似度,dr,s表示第一个视频片段的情感特征嵌入和第二个视频片段的情感特征嵌入之间平均绝对误差,λr,p预测的第一视频片段和第三视频片段表情的softmax概率之间的余弦相似度,dr,p是第一个视频片段的情感特征嵌入和第三个视频片段的情感特征嵌入之间平均绝对误差。
作为进一步的改进,所述步骤S343中,根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息,对比学习的身份损失公式如下:
Figure BDA0004179643800000033
其中,
Figure BDA0004179643800000034
表示身份损失函数,/>
Figure BDA0004179643800000035
表示第一视频片段的身份特征嵌入,/>
Figure BDA0004179643800000036
表示第三视频片段的身份特征嵌入。
作为进一步的改进,所述步骤S4中,通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标,具体包括如下步骤:
S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量;
S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量;
S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点相加,得到预测图像的标志点坐标。
作为进一步的改进,所述步骤S6中,利用生成网络生成合成的脸部图像后,对比合成脸部图像和真实脸部图像之间像素值的差异,图像损失函数如下:
Figure BDA0004179643800000041
其中,
Figure BDA0004179643800000042
表示图像损失函数,Is表示真实脸部图像,It表示合成脸部图像。
本发明提供的基于音频特征分离情感并驱动人脸动画合成方法,包括步骤:S 1、给定需动画合成的一段语音音频和一段动态的参考面部图像;S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;S5、根据预测图像的标志点坐标构造标志点图;S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。本发明显式地将语音音频中音频特征的讲话内容、情感部分、讲话者的身分特点进行分离,根据分离的情感部分特征显式地对参考面部图像的脸部表情进行控制,更细粒度地合成真实准确的人脸动画视频。
本发明还提供一种人脸动画合成系统,包括上述所述的基于音频特征分离情感并驱动人脸动画合成方法的任一项改进,由于采用了上述技术内容,其应当具有相同或相应的技术效果,因此不再进行赘述。
附图说明
图1为本发明的流程示意图;
图2为本发明的架构示意图;
图3A为本发明实施例第一个定性实验的示意图;
图3B为本发明实施例第二个定性实验的示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
结合图1和图2所示,本发明实施例提供一种基于音频特征分离情感并驱动人脸动画合成方法,包括如下步骤:
S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;
S2、从语音音频中提取音频特征,首先对语音音频进行预处理,并对预处理后的语音音频进行提取后获得音频特征
Figure BDA0004179643800000051
其中,T为音频帧数,以20ms为间隔,步长为20ms进行音频帧划分,D为每帧音频特征的维度。
对语音音频进行预处理包括预加重、分帧和加窗等。预加重:因语音音频在经过声门激励和口鼻辐射影响时,其功率会有大幅度的衰减,而且语音音频的频谱中高频对应的能量较小、低频对应的能量较大,而未经处理的语音音频的高频部分更加难求,预加重的目的是为了提高高频部分,使得语音音频的频谱变得平坦,进而在整个频带内可以用相同的信噪比求得频谱,便于频谱分析,预加重可选但不限定采用一阶高通滤波器。分帧:语音信号一般情况都是非平稳的,分帧处理的目的是使得信号在帧内处于平稳状态便于后续处理,在分帧处理时,为了使得帧与帧之间过渡平滑,前一帧与后一帧之间会有重叠的部分。加窗:语音信号处理中可选但不仅限窗为矩形窗和汉明窗。
从参考面部图像中提取面部标志点,因参考面部图像中的头部姿势通常是动态的,为避免头部位姿的变化影响到面部标志点的位置。便于学习音频特征和面部标志点之间的稳定映射,通过将参考面部图像中的面部对齐成一致的头部姿势来消除头部姿势的影响,包括如下步骤:
S21、从参考面部图像中提取所有三维面部标志点坐标
Figure BDA0004179643800000052
S22、对所有三维面部标志点坐标计算坐标平均值;
S23、采用迭代最近点(Iterative Closest Point,ICP)算法将每个三维面部标志点坐标与坐标平均值对齐,采用迭代优化的思想以空间距离作为匹配点的选择依据,通过不断调整每个三维面部标志点坐标的位姿使得与坐标平均值之间距离累计最小;
S24、通过正交投影将三维面部标志点投影到图像空间上。
S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤:
S31、使用神经网络(Multilayer Perceptron,MLP)对音频特征进行编码,MLP全连接神经网络是一种前向结构的神经网络,映射一组输入向量到一组输出向量。
S32、使用长短期记忆网络(Long Short-Term Memory,LSTM)捕获语音音频提取的音频特征时序信息并获得包含内容特征嵌入
Figure BDA0004179643800000061
的内容信息。特征嵌入是将数据转换为固定大小的特征表示,以便于处理和计算。LSTM长短期记忆网络属于神经网络的一种,是一种时间循环神经网络,用于处理和预测语音音频时间序列中间隔和延迟非常长的重要事件,内容特征嵌入涉及的公式如下:
Econtent=LSTM(MLPc(Fa))
其中,Econtent表示语音音频的内容特征嵌入,MLPc表示用于获得内容特征嵌入的内容编码器,Fa表示语音音频的音频特征。
S33、使用两个神经网络分别将音频特征转换为情感特征嵌入
Figure BDA0004179643800000062
和身份特征嵌入/>
Figure BDA0004179643800000063
情感特征嵌入和身份特征嵌入涉及的公式如下:
Eemotion=MLPe(Fa)
Eidentity=MLPi(Fa)
其中,Eemotion表示语音音频的情感特征嵌入,Eidentity表示语音音频的身份特征嵌入,MLPe表示用于获得情感特征嵌入的风格编码器,MLPi表示用于获得身份特征嵌入的风格编码器。
S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤:
S341、从参考面部图像中分别选取第一视频片段Vr和第二视频片段Vs,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段Vp,第三视频片段Vp可选但不仅限从参考面部图像中选取,还可从同一讲话者的其它视频片段中选取,使用Vr和Vp分离身份特征嵌入;
S342、将三个视频片段在对比学习模型中进行对比学习,为了分离情感特征嵌入,我们使用Vr、Vs和Vp分离情感特征嵌入,并构造情感对比损失。假定同一视频的不同视频剪辑片段中的情绪状态比不同视频中的情绪状态更为相似,因此,Vr和Vs的情绪特征嵌入
Figure BDA0004179643800000064
和/>
Figure BDA0004179643800000065
相较于Vr和Vp的情绪特征嵌入/>
Figure BDA0004179643800000066
和/>
Figure BDA0004179643800000071
有更大的相似度,根据第一视频片段Vr的情感特征嵌入和第二视频片段Vs的情感特征嵌入分离出包含情感特征嵌入的情感信息。
S343、为了给情感对比损失添加合适的权重,由预训练的表情预测网络预测三个视频片段中表情的softmax概率,并记作er、es和ep,Softmax函数作为神经网络的最后一层,接受来自上一层网络的输入值,然后将其转化为概率,情感损失函数如下:
Figure BDA0004179643800000072
其中,
Figure BDA0004179643800000073
表示情感损失函数,λr,s是预测的第一视频片段和第二视频片段表情的softmax概率之间的余弦相似度,dr,s表示第一个视频片段的情感特征嵌入和第二个视频片段的情感特征嵌入之间平均绝对误差,λr,p预测的第一视频片段和第三视频片段表情的softmax概率之间的余弦相似度,dr,p是第一个视频片段的情感特征嵌入和第三个视频片段的情感特征嵌入之间平均绝对误差。
S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息,使第一视频片段Vr的身份特征嵌入和第三视频片段Vp的身份特征嵌入尽可能相同,涉及身份损失函数公式如下:
Figure BDA0004179643800000074
其中,
Figure BDA0004179643800000075
表示身份损失函数,/>
Figure BDA0004179643800000076
表示第一视频片段的身份特征嵌入,
Figure BDA0004179643800000077
表示第三视频片段的身份特征嵌入。
S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入输入的身份信息输入自注意力编码器获得包含风格特征嵌入
Figure BDA0004179643800000078
的风格信息。因情感信息和身份信息具有较长的时间依赖性,自注意力编码器是为了捕获包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息两者内部的依赖关系。语音音频中涉及讲话者的瞬时情绪和讲话者本身身份的声音特征,这些特征影响到谈话风格,从而影响讲话者面部表情,因此使用风格编码器将谈话风格与语音音频分离,风格编码器包括用于情感特征嵌入的MLPe、用于身份特征嵌入的MLPi和用于风格特征嵌入的MLPs。风格特征嵌入涉及的公式如下:
Estyle=Attn(Eemotion,Eidentity)
其中,Estyle表示语音音频的风格特征嵌入,Attn表示通过自注意力编码器获得风格特征嵌入的合并函数。
S4、使用脸部标志点作为语音音频到参考面部图像的中间表示,通过神经网络结合语音音频的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标,具体包括如下步骤:
S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量
Figure BDA0004179643800000081
涉及公式如下:
Dcontent=MLPt(Econtent)
其中,Dcontent表示内容标志点坐标偏移量,MLPt表示用于获得内容标志点坐标偏移量的内容编码器。
S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量
Figure BDA0004179643800000082
涉及公式如下:
Dstyle=MLPs(Concat(Econtent,Estyle))
其中,Dstyle表示风格标志点坐标偏移量,MLPs表示用于获得风格标志点坐标偏移量的风格编码器,Concat表示将Econtent和Estyle连接的函数。
S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点
Figure BDA0004179643800000083
相加,得到预测图像的标志点坐标/>
Figure BDA0004179643800000084
涉及公式如下:
Lp=L0+Dcontent+Dstyle
对于预测图像的标志点坐标预测,目标是令预测的标志点坐标尽可能地与参考面部图像中的脸部标志点坐标一致,为此,我们定义标志点损失函数
Figure BDA0004179643800000085
为标志点坐标的预测值Lpredict(Lp)和真实值Lv之间的绝对误差,可形式化表示为:
Figure BDA0004179643800000086
S5、根据预测图像的标志点坐标通过图像到图像变换模型构造标志点图
Figure BDA0004179643800000087
图像到图像变换遍历标志点图并定位可行的输入语义点,使标志点图由预测图像的标志点之间按语义的连线构成。
S6、将标志点图与参考面部图像中的参考图像
Figure BDA0004179643800000088
叠加,利用生成网络(U-Net)生成合成后的脸部图像/>
Figure BDA0004179643800000089
对比合成后的脸部图像和真实脸部图像之间像素值的差异,并以此作为损失函数如下:
Figure BDA0004179643800000091
其中,
Figure BDA0004179643800000092
表示图像损失函数,Is表示真实脸部图像,It表示合成脸部图像。
本发明实施例显式地将语音音频中音频特征的讲话内容、情感部分、讲话者的身分特点进行分离,根据分离的情感部分特征显式地对参考面部图像的脸部表情进行控制,更细粒度地合成真实准确的人脸动画视频。
本发明实施例还提供一种人脸动画合成系统,人脸动画合成系统包括上述基于音频特征分离情感并驱动人脸动画合成方法的任一项优选实施方式,以及优选实施方式在不冲突的情况下的组合,其应当具有基于音频特征分离情感并驱动人脸动画合成方法相同或相应的技术作用和有益效果,此处不再赘述。
本实施例的实验结果如下:
数据集:
为了评估本方法的有效性,基于以下公共数据集上进行实验。
人类语音的大规模视听数据集(VoxCeleb2):该数据集包含来自不同种族、口音、职业和年龄的演讲者的演讲。视频从YouTube上下载并剪辑,视频包含6112位名人的100多万次演讲。视频中的人脸存在着姿势等方面的变化,并且环境中也存在着背景聊天、笑声和照明条件变化等噪声。
实现细节:
MLP和LSTM的网络架构如表1所示,在每个MLP的隐藏层之后使用激活函数(LeakyReLU)和批标准化(Batch Normal)。对于LSTM,我们使用0.2的丢弃法(dropout)防止神经网络过拟合。
表1
Figure BDA0004179643800000093
Figure BDA0004179643800000101
对模型进行训练:首先利用损失函数
Figure BDA0004179643800000102
训练内容编码器MLPc,LSTM和MLPt;然后利用损失函数/>
Figure BDA0004179643800000103
和/>
Figure BDA0004179643800000104
训练风格编码器MLPe、MLPi、自注意力编码器和MLPs;最后利用损失函数/>
Figure BDA0004179643800000105
训练脸部图像生成部分。
使用开源的深度学习框架PyTorch来实现模型,在训练的过程中使用自适应矩估计(Adam)优化器,学习率设置为1e-5,整个模型在图形处理器Nvidia 3090GPU上训练近60个小时。
定量比较:
使用标志点距离(Landmark distance,LMD)和表情相似度(Emotion Similar,ES)作为评价指标,其中LMD为真实脸部图像和合成脸部图像的脸部68个标志点的欧氏距离,该指标用于评价合成脸部图像的脸部结构是否与真实脸部图像接近,ES为真实脸部图像的表情向量和合成脸部图像的表情向量的余弦相似度,其中表情向量通过预训练网络获取,该评价指标用于评价合成脸部图像的表情信息是否与真实脸部图像相似。如下表2所示,结果表明,在VoxCeleb2数据集上,本发明采用的方法在LMD和ES两个指标上取得了最佳性能。另外,表中的消融实验表明,完整方案显著优于没有
Figure BDA0004179643800000106
的基线模型,证明了风格编码器对比学习的有效性。通过比较这两种基线,可以看出,尽管样式部分的使用提高了性能,但如果没有对比学习,其优势就无法得到充分利用。
表2
Figure BDA0004179643800000107
Figure BDA0004179643800000111
表2中,MakeItTalk是一个新的深度学习为基础的架构,能够识别面部标志、下巴、头部姿势、眉毛和鼻子,并且能够通过声音的刺激使嘴唇发生变化。姿态可控的视听系统(Pose-Controllable Audio-Visual System,PC-AVS)在特征学习和图像重建的框架下,实现了对人头pose的自由控制。
定性分析:
为了分析本发明实施例学习到的情感空间,进行了如下两个定性实验。
第一个定性实验:使用训练的模型来获得所有训练视频的情感特征嵌入。然后对这些情感特征嵌入进行主成分分析,并使用第一主成分对不同的情感特征嵌入进行采样。用相同的音频合成了三个视频,如图3A所示,其中第二行的视频片段和第三行的视频片段是通过沿第一主分量增加提取的情感特征嵌入值来合成的。三行视频片段的面部表情从庄严到激动的情感变化平稳,嘴唇动作逐渐夸张。
第二个定性实验:本发明实施例可视化了三个视频中上唇和下唇之间的距离曲线。如图3B所示,图中Frame Number表示框架编号,LIP distance表示基于特定任务的方法。不同的曲线显示出相似的变化趋势,同时不同视频之间的唇距差异很大,结果表明,本发明实施例可以在保持语音音频和面部表情一致性的同时学习音频多样化的谈话风格。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,包括如下步骤:
S1、给定需动画合成的一段语音音频和一段动态的参考面部图像;
S2、从语音音频中提取音频特征,从参考面部图像中提取面部标志点;
S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离;
S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标;
S5、根据预测图像的标志点坐标构造标志点图;
S6、将标志点图与参考面部图像中的图像叠加,利用生成网络生成合成后的脸部图像。
2.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S2中,从语音音频中提取音频特征,首先对语音音频进行预处理,并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。
3.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S2中,从参考面部图像中提取面部标志点,包括如下步骤:
S21、从参考面部图像中提取所有三维面部标志点坐标;
S22、对所有三维面部标志点坐标计算坐标平均值;
S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐;
S24、通过正交投影将三维面部标志点投影到图像空间上。
4.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S3中,从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离,包括如下步骤:
S31、使用神经网络对音频特征进行编码;
S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息;
S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入;
S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络,以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息;
S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。
5.根据权利要求4所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S34中,通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息,包括如下步骤:
S341、从参考面部图像中分别选取第一视频片段和第二视频片段,再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段;
S342、将三个视频片段在对比学习模型中进行对比学习,根据第一视频片段的情感特征嵌入和第二视频片段的情感特征嵌入分离出包含情感特征嵌入的情感信息;
S343、由表情预测网络预测三个视频片段中表情的softmax概率;
S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息。
6.根据权利要求5所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S342中,对比学习的情感损失公式如下:
Figure FDA0004179643790000021
其中,
Figure FDA0004179643790000022
表示情感损失函数,λr,s是预测的第一视频片段和第二视频片段表情的softmax概率之间的余弦相似度,dr,s表示第一个视频片段的情感特征嵌入和第二个视频片段的情感特征嵌入之间平均绝对误差,λr,p预测的第一视频片段和第三视频片段表情的softmax概率之间的余弦相似度,dr,p是第一个视频片段的情感特征嵌入和第三个视频片段的情感特征嵌入之间平均绝对误差。
7.根据权利要求6所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S343中,根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息,对比学习的身份损失公式如下:
Figure FDA0004179643790000031
其中,
Figure FDA0004179643790000032
表示身份损失函数,/>
Figure FDA0004179643790000033
表示第一视频片段的身份特征嵌入,
Figure FDA0004179643790000034
表示第三视频片段的身份特征嵌入。
8.根据权利要求7所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S4中,通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标,具体包括如下步骤:
S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量;
S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量;
S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点相加,得到预测图像的标志点坐标。
9.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法,其特征在于,所述步骤S6中,利用生成网络生成合成的脸部图像后,对比合成脸部图像和真实脸部图像之间像素值的差异,图像损失函数如下:
Figure FDA0004179643790000035
其中,
Figure FDA0004179643790000036
表示图像损失函数,Is表示真实脸部图像,It表示合成脸部图像。
10.一种人脸动画合成系统,其特征在于,包括如权利要求1至9中任一项所述的基于音频特征分离情感并驱动人脸动画合成方法。
CN202310401054.8A 2023-04-14 2023-04-14 基于音频特征分离情感并驱动人脸动画合成方法及系统 Pending CN116403144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310401054.8A CN116403144A (zh) 2023-04-14 2023-04-14 基于音频特征分离情感并驱动人脸动画合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310401054.8A CN116403144A (zh) 2023-04-14 2023-04-14 基于音频特征分离情感并驱动人脸动画合成方法及系统

Publications (1)

Publication Number Publication Date
CN116403144A true CN116403144A (zh) 2023-07-07

Family

ID=87019682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310401054.8A Pending CN116403144A (zh) 2023-04-14 2023-04-14 基于音频特征分离情感并驱动人脸动画合成方法及系统

Country Status (1)

Country Link
CN (1) CN116403144A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523051A (zh) * 2024-01-08 2024-02-06 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523051A (zh) * 2024-01-08 2024-02-06 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质
CN117523051B (zh) * 2024-01-08 2024-05-07 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Vasquez et al. Melnet: A generative model for audio in the frequency domain
Zhou et al. Vision-infused deep audio inpainting
Wali et al. Generative adversarial networks for speech processing: A review
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
Mittal et al. Animating face using disentangled audio representations
CN112053690A (zh) 一种跨模态多特征融合的音视频语音识别方法及系统
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
Yadav et al. Speech prediction in silent videos using variational autoencoders
Ma et al. Unpaired image-to-speech synthesis with multimodal information bottleneck
CN116403144A (zh) 基于音频特征分离情感并驱动人脸动画合成方法及系统
Xiong et al. Look&listen: Multi-modal correlation learning for active speaker detection and speech enhancement
Fu et al. Svoice: Enabling voice communication in silence via acoustic sensing on commodity devices
Parthasarathi et al. Wordless sounds: Robust speaker diarization using privacy-preserving audio representations
Lavagetto Time-delay neural networks for estimating lip movements from speech analysis: A useful tool in audio-video synchronization
Jain et al. ATT: Attention-based timbre transfer
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
Friedland et al. Visual speaker localization aided by acoustic models
Wang et al. Nadiffuse: Noise-aware diffusion-based model for speech enhancement
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Liu et al. Real-time speech-driven animation of expressive talking faces
Wei et al. Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
Qiu et al. Adversarial Latent Representation Learning for Speech Enhancement.
Zhuang et al. A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion.
Takahashi et al. Robust one-shot singing voice conversion
EP4229637A1 (en) Frame-level permutation invariant training for source separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination