CN113379874B - 一种人脸动画生成方法、智能终端及存储介质 - Google Patents

一种人脸动画生成方法、智能终端及存储介质 Download PDF

Info

Publication number
CN113379874B
CN113379874B CN202010115428.6A CN202010115428A CN113379874B CN 113379874 B CN113379874 B CN 113379874B CN 202010115428 A CN202010115428 A CN 202010115428A CN 113379874 B CN113379874 B CN 113379874B
Authority
CN
China
Prior art keywords
face
key points
human face
low
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115428.6A
Other languages
English (en)
Other versions
CN113379874A (zh
Inventor
李秀阳
汪浩
王树朋
邹梦超
刘阳兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan TCL Group Industrial Research Institute Co Ltd
Original Assignee
Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan TCL Group Industrial Research Institute Co Ltd filed Critical Wuhan TCL Group Industrial Research Institute Co Ltd
Priority to CN202010115428.6A priority Critical patent/CN113379874B/zh
Publication of CN113379874A publication Critical patent/CN113379874A/zh
Application granted granted Critical
Publication of CN113379874B publication Critical patent/CN113379874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种人脸动画生成方法、智能终端及存储介质,所述方法包括:获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理;将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。本发明通过语音更快而且更稳定的生成人脸关键点,从而被应用于后期更好的生成更逼真和更稳定的人脸动画视频,提高了语音驱动人脸关键点的速度及精度,可以根据输入人脸生成对应脸型,使得输出结果更加多样化,进一步提高语音驱动人脸关键点的稳定度,减少人脸关键点到生成人脸动画时人脸部分尤其是人脸边缘部分的抖动,使得生成的人脸动画更加稳定、流畅和逼真。

Description

一种人脸动画生成方法、智能终端及存储介质
技术领域
本发明涉及人脸识别技术领域,尤其涉及一种人脸动画生成方法、智能终端及存储介质。
背景技术
经过近几年深度学习尤其是计算机视觉技术的飞速发展,计算机视觉技术已经广泛应用于安防监控,医疗健康等众多领域。虚拟现实技术作为更高级别的计算机视觉技术已成为目前的研究热点。众所周知,现今的聊天机器人已经能通过语音识别技术实现与人类的正常沟通,然而让其虚拟形象具有逼真的表情、流畅自然的脸部,动作变化仍是智能化以及图形学上的难题。虽然当下存在一些有效的消费级脸部追踪技术,但通过语音来生成更生动自然的人脸动画,不机械化的表情仍然是研究难点。考虑语音中的重音、情感等因素,用语音驱动人脸自然生动地变化,将极大地优化虚拟现实的展示与交互,使计算机软件的虚拟人物形象得到更生动的展示。因此,语音驱动的人脸动画技术可以提高虚拟会议、游戏、个人虚拟助手、教育辅导等注重人机交流的系统用户体验。因此,利用语音来驱动逼真的人脸动画是当下的一个具有较强现实意义的研究。
语音驱动人脸动画技术目前主要为两种方法:一是端到端的方法,即用语音直接生成人脸动画;二是二阶方法,即先根据语音生成人脸关键点,通过关键点再生成人脸动画。如今大多数通过语音驱动人脸关键点的方法都是通过深度学习的方法实现的,首先将视频中的每一帧人脸进行对齐,然后利用人脸关键点检测工具标注出视频中每一帧的人脸关键点来生成关键点向量,再将这些人脸关键点向量归一化得到标准脸向量,最后利用音频转化的MFCC(梅尔频率倒谱系数,梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系,梅尔频率倒谱系数则是利用它们之间的这种关系,计算得到的Hz频谱特征,主要用于语音数据特征提取和降低运算维度)特征来预测对应真的人脸关键点向量。
然而,这种提取人脸关键点的技术是存在本质上的缺陷的:首先,普遍使用的人脸检测工具Dlib(Dlib是一个包含机器学习算法的C++开源工具包,Dlib可以帮助创建很多复杂的机器学习方面的软件来帮助解决实际问题,目前Dlib已经被广泛的用在行业和学术领域,包括机器人,嵌入式设备,移动电话和大型高性能计算环境)效果并不稳定,误检率和帧与帧之间的抖动性都很大,将这些标注数据作为深度学习的标签大大影响了神经网络学习的效果;其次,将人脸关键点归一化虽然能加快网络的学习速度,但降低了网络生成的多样性,最终无论输入何种脸型,输出都是标准脸的形式;最后,将整个人脸向量作为输入使得这些输入样本的噪音也被用来学习,这些噪音会降低网络学习的速度及最终学习的效果使得语音驱动生成的人脸关键点效果并不理想。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种人脸动画生成方法、智能终端及存储介质,旨在解决现有技术中噪音会降低网络学习的速度及最终学习的效果使得语音驱动生成的人脸关键点效果并不理想的问题。
为实现上述目的,本发明提供一种人脸动画生成方法,所述人脸动画生成方法包括如下步骤:
获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理;
将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。
可选地,所述的人脸动画生成方法,其中,所述获取视频中的多个人脸关键点,具体包括:
获取目标人物的说话视频,提取所述说话视频中的若干帧图片;
通过边缘感知人脸对齐算法检测所述若干帧图片中所述目标人物的所述人脸关键点。
可选地,所述的人脸动画生成方法,其中,所述获取视频中的多个人脸关键点,之后还包括:
获取所述说话视频中的音频信号;
通过梅尔频率倒谱系数特征法提取所述音频信号的音频特征点,并将所述音频特征点与所述人脸关键点进行关联对应。
可选地,所述的人脸动画生成方法,其中,所述将所述人脸关键点进行降维处理,具体包括:
将所述人脸关键点进行主成分分析的降维处理,输出低维特征向量,将所述低维特征向量作为视频解码的输入;
将所述低维特征向量经过三层全连接层后输出视频解码特征,将所述视频解码特征与音频解码器输出音频解码特征进行合并。
可选地,所述的人脸动画生成方法,其中,所述将所述视频解码特征与音频解码器输出音频解码特征进行合并,之后还包括:
所述视频解码特征与所述音频解码特征合并以生成对应序列的人脸低维关键点序列;
将所述人脸低维关键点序列进行训练和测试。
可选地,所述的人脸动画生成方法,其中,所述将所述人脸低维关键点序列进行训练和测试,具体包括:
在训练阶段,将所述低维特征向量作为训练输入数据,并将所述人脸低维关键点序列作为训练输入标签进行训练;
在测试阶段,将所述音频特征点作为测试的音频输入数据,并将所述低维特征向量作为视频输入数据;
经过所述训练阶段和所述测试阶段后,生成人脸低维关键点向量序。
可选地,所述的人脸动画生成方法,其中,所述获得人脸低维关键点向量序,之后还包括:
将所述人脸低维关键点向量序经过反向主成分分析变换处理,生成与所述人脸关键点对应的预测人脸关键点序列。
可选地,所述的人脸动画生成方法,其中,所述将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画,具体包括:
将所述预测人脸关键点序列中的人脸各个部位分别进行卡尔曼滤波器的建模处理;
将所述人脸关键点进行关键点稳态处理,生成所述人脸动画。
此外,为实现上述目的,本发明还提供一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸动画生成程序,所述人脸动画生成程序被所述处理器执行时实现如上所述的人脸动画生成方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,其中,所述存储介质存储有人脸动画生成程序,所述人脸动画生成程序被处理器执行时实现如上所述的人脸动画生成方法的步骤。
本发明通过获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理;将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。本发明通过语音更快而且更稳定的生成人脸关键点,从而被应用于后期更好的生成更逼真和更稳定的人脸动画视频,提高了语音驱动人脸关键点的速度及精度,可以根据输入人脸生成对应脸型,使得输出结果更加多样化,进一步提高语音驱动人脸关键点的稳定度,减少人脸关键点到生成人脸动画时人脸部分尤其是人脸边缘部分的抖动,使得生成的人脸动画更加稳定、流畅和逼真。
附图说明
图1是本发明人脸动画生成方法的较佳实施例的流程图;
图2是本发明人脸动画生成方法的较佳实施例中三个全连接层的具体结构的示意图;
图3是本发明人脸动画生成方法的较佳实施例中音频解码器结构的示意图;
图4是本发明人脸动画生成方法的较佳实施例中根据人脸关键点生成人脸动画的示意图;
图5为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
传统的语音驱动关键点模型首先在人脸关键点(人脸关键点指的是人脸的关键部位,人脸关键点检测也称为人脸关键点定位或者人脸对齐,是指给定人脸图像,定位出人脸面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等)制作时就会出现人物关键点抖动甚至飘移等问题,采用传统Dlib的68个人脸关键点来会严重影响数据集质量;其次,大多数算法都是直接拟合所有人脸关键点,这些用Dlib算法制作的人脸关键点本来就含有很多噪音,使得在模型设计时不得不考虑提高模型复杂度从而导致模型很难训练,最后的生成效果也不尽人意。
本发明较佳实施例所述的人脸动画生成方法,如图1所示,所述人脸动画生成方法包括以下步骤:
步骤S10、获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理。
具体地,采集不同目标人物的说话视频(例如可以通过播放器或者单反相机采集用户说话的视频,即语音视频),提取单个视频的音频序列及视频的若干帧图片(例如可以是每一帧图片),利用边缘感知人脸对齐算法(LAB,目的是希望准确地找出人脸的关键点位置)检测所述若干帧中所述目标人物的人脸关键点;按照每一帧图片中所述人脸关键点坐标的极大值和极小值截取人脸,并缩放到同一比例(例如缩放到256*256)后作为人脸关键点(Ground Truth,即目标人物的人脸关键点)。
进一步地,获取包含目标人物说话视频中的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号;采用梅尔频率倒谱系数特征法(Mel-scaleFrequencyCepstral Coefficients,简称MFCC)提取每段音频的音频特征点,并采用滑动窗口的形式将音频提取的音频特征点与相对应帧的所述人脸关键点关联对应起来。
本发明中的人脸关键点检测算法为边缘感知人脸对齐算法(LAB),相比于目前普遍使用的Dlib人脸关键点检测算法,LAB将检测的人脸关键点数量从68个直接提高到98个,而且检测出的人脸关键点在帧与帧之间比Dlib更加的稳定。
具体地,对于视频阶段,将所述人脸关键点进行主成分分析(PCA,PrincipalComponent Analysis,是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统)的降维处理(降维处理是将高维数据化为低维度数据的操作)之后的低维特征向量作为视频解码部分的输入;将所述低维特征向量经过三层全连接层(全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来)之后输出视频解码特征,将所述视频解码特征与音频解码器输出音频解码特征进行合并。
其中,进行降维之后的低维特征向量为原来的人脸关键点经过主成分分析(PCA)的方法提取的主要特征,三个全连接层的具体结构如图2所示,图2中,Input Layer表示输入层,FC Layer表示全连接层。
其中,在CNN(Convolutional Neural Networks,卷积神经网络,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习(deep learning)的代表算法之一)结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层.与MLP类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息.为了提升CNN网络性能,全连接层每个神经元的激励函数一般采用ReLU函数。最后一层全连接层的输出值被传递给一个输出,可以采用softmax逻辑回归(softmax regression)进行分类,该层也可称为softmax层(softmax layer)。
进一步地,对于音频阶段,音频解码器采用二维卷积加上全连接层再加门循环单元(GRU,Gated Recurrent Unit)的结构进行解码;将解码后的音频解码特征与人脸关键点的视频解码特征经过三层全连接层后输出的特征进行合并,以生成的对应序列的人脸低维关键点序列为输出进行训练和测试。
音频解码器结构如图3所示,主要是由输入层、五个二维卷积层、两个最大值池化层,三个全连接层,一个门循环单元(GRU)和输出层依次顺序连接而成,图3中audio表示音频,conv2d表示二维卷积运算,maxpooling表示最大值池化,FC Layer表示全连接层,GRU表示门循环单元;其中二维卷积层的卷积核大小为3*1且卷积核个数分别为64,128,256,256,512,两个最大值池化层步长分别为(1,2)和(2,2),三个全连接层的输出分别为2048,1024和512,门循环单元(GRU)的含有三个隐藏层每个隐藏层维度都为256。
模型的损失函数为L1+L2;L1:L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)。总的说来,它是把目标值(Yi)与估计值(f(xi))的绝对差值的总和(S)最小化:S=Σ|Yi-f(xi)|;L2:L2范数损失函数,也被称为最小平方误差(LSE)。总的来说,它是把目标值(Yi)与估计值(f(xi))的差值的平方和(S)最小化:S=Σ(Yi-f(xi))2。
经过大量的特征选择实验,最后的实验结果表明当PCA=12时模型的收敛速度及生成效果最好。
其中,在训练阶段,使用包含目标人物说话视频的音频信号提取的语音特征和人脸关键点进行降维后的低维特征作为训练输入数据(即将所述低维特征向量作为训练输入数据),对应的底板低维特征向量序列作为训练输入标签(即将所述人脸低维关键点序列作为训练输入标签进行训练)。
其中,在测试阶段,使用从用户输入语音的音频信号或文本合成语音的音频信号提取的特征作为测试的音频输入数据(即将所述音频特征点作为测试的音频输入数据),将输入的单帧人脸图像检测出的人脸关键点的低维特征作为视频输入数据(即将所述低维特征向量作为视频输入数据),预测获得用户输入语音或文本合成语音的人脸低维关键点向量序。
将输出的所述人脸低维关键点向量序经过反向主成分分析(PCA)变换生成与所述人脸关键点对应的预测人脸关键点序列。
步骤S20、将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。
具体地,将生成的所述预测人脸关键点序列中的嘴巴、眼睛及脸部剩下的部位分别进行卡尔曼滤波器的建模,并选择最佳的超参数;将所述人脸关键点进行关键点稳态处理后生成人脸动画,如图4所示,表示根据人脸动画生成的人脸动画,生成的虚拟形象具有逼真的表情、流畅自然的脸部,不仅能进行准确的语音识别,还能配合生动、形象的表情。
例如,将对生成的人脸关键点序列的嘴巴,眼睛及剩下的部位分别进行卡尔曼滤波器的建模,实验选择合理的超参数。根据生成结果来看,脸部边缘的抖动最为明显,但在实际中人脸说话时,嘴巴和眼睛的动作会最明显,相对而言,脸部其他地方的变化会小一些,所以对嘴巴和眼睛采用更小的R值和更大的Q值,而其他地方则采用较大的R值和较小的Q值。
其中,R值指的是测量噪声,太小太大都不一定合适,R太大,卡尔曼滤波响应会变慢,因为它对新测量的值的信任度降低;越小系统收敛越快,但过小则容易出现震荡;Q值指的是过程噪声,越小系统越容易收敛,对模型预测的值信任度越高;但是太小则容易发散,如果Q为零,那么只相信预测值;Q值越大对于预测的信任度就越低,而对测量值的信任度就变高;如果Q值无穷大,那么只信任测量值。
本发明的特殊之处在于跳过在数据预处理阶段将人脸关键点归一化的步骤,直接根据数据集特征进行特征降维(PCA),提取主要特征,根据低维主要特征来构建语音驱动人脸关键点网络,不仅节省了数据预处理时间同时也保留了不同人物的脸型特征。
本发明提出的稳态算法是应用在生成人脸关键点之后的过程中而不是在使用人脸关键点检测工具检测人脸关键点时,原因是采用人脸关键点算法的目的是用来制作人脸关键点,此时要求检测的人脸关键点尽可能描述出原始视频人脸特征,在使用滤波器时虽然有效减少了人脸关键点抖动问题,但是滤波后的人脸关键点或多或少会与原视频人脸信息存在出入尤其是嘴部区域,而且训练数据集很庞大,滤波后的效果很难控制。如果是对模型生成后的人脸关键点进行滤波,可以根据生成模型的特性针对性的选取滤波器参数从而进行有效的建模,效果也更加明显。
本发明首次将卡尔曼滤波器用于人脸关键点序列的稳态处理,从实验结果来看,经过卡尔曼滤波后的人脸关键点序列可以很好地消除关键点的噪声,在保证生成的脸型稳定的同时又能够使生成的嘴部关键点保持与原始生成的人脸嘴部关键点具有相同的动作幅度。
有益效果:
(1)本发明提出了新的语音驱动的人脸关键点视频生成算法,结合数据集的人脸关键点的制作方法和神经网络输入端人脸关键点的降维及合适的主成分选择,不仅大大提高了神经网络模型的训练速度,而且使得学习到的模型具有更好的性能。
(2)本发明提出的算法在人脸关键点的制作阶段应用性能更好的LAB的98个点检测算法替代Dlib的68个点检测算法,从而获得稳定性更高的人脸关键点的数据集,为神经网络的学习提供了有效的保障。
(3)本发明提出的人脸关键点降维算法,选择合适的主成分特征成功的取代了直接将整个人脸关键点作为神经网络的输入的方法,有效降低了神经网络的尺寸,提高了网络学习的速度,而且利用主成分特征有效降低了噪音的干扰,使得生成的人脸关键点更加逼真。
(4)本发明提出的卡尔曼滤波稳态算法有效弥补了当前人脸关键点检测技术的先天性不足,有效解决了视频中帧与帧之间人脸关键点的抖动问题,从而能够生成更好的更稳定的人脸关键点序列。
进一步地,如图5所示,基于上述人脸动画生成方法,本发明还相应提供了一种智能终端,所述智能终端包括处理器10、存储器20及显示器30。图5仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有人脸动画生成程序40,该人脸动画生成程序40可被处理器10所执行,从而实现本申请中人脸动画生成方法。
所述处理器10在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述人脸动画生成方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中人脸动画生成程序40时实现以下步骤:
获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理;
将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。
所述获取视频中的多个人脸关键点,具体包括:
获取目标人物的说话视频,提取所述说话视频中的若干帧图片;
通过边缘感知人脸对齐算法检测所述若干帧图片中所述目标人物的所述人脸关键点。
所述获取视频中的多个人脸关键点,之后还包括:
获取所述说话视频中的音频信号;
通过梅尔频率倒谱系数特征法提取所述音频信号的音频特征点,并将所述音频特征点与所述人脸关键点进行关联对应。
所述将所述人脸关键点进行降维处理,具体包括:
将所述人脸关键点进行主成分分析的降维处理,输出低维特征向量,将所述低维特征向量作为视频解码的输入;
将所述低维特征向量经过三层全连接层后输出视频解码特征,将所述视频解码特征与音频解码器输出音频解码特征进行合并。
所述将所述视频解码特征与音频解码器输出音频解码特征进行合并,之后还包括:
所述视频解码特征与所述音频解码特征合并以生成对应序列的人脸低维关键点序列;
将所述人脸低维关键点序列进行训练和测试。
所述将所述人脸低维关键点序列进行训练和测试,具体包括:
在训练阶段,将所述低维特征向量作为训练输入数据,并将所述人脸低维关键点序列作为训练输入标签进行训练;
在测试阶段,将所述音频特征点作为测试的音频输入数据,并将所述低维特征向量作为视频输入数据;
经过所述训练阶段和所述测试阶段后,生成人脸低维关键点向量序。
所述获得人脸低维关键点向量序,之后还包括:
将所述人脸低维关键点向量序经过反向主成分分析变换处理,生成与所述人脸关键点对应的预测人脸关键点序列。
所述将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画,具体包括:
将所述预测人脸关键点序列中的人脸各个部位分别进行卡尔曼滤波器的建模处理;
将所述人脸关键点进行关键点稳态处理,生成所述人脸动画。
本发明还提供一种存储介质,其中,所述存储介质存储有人脸动画生成程序,所述人脸动画生成程序被处理器执行时实现如上所述的人脸动画生成方法的步骤。
综上所述,本发明提供一种人脸动画生成方法、智能终端及存储介质,所述方法包括:获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理;将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。本发明通过语音更快而且更稳定的生成人脸关键点,从而被应用于后期更好的生成更逼真和更稳定的人脸动画视频,提高了语音驱动人脸关键点的速度及精度,可以根据输入人脸生成对应脸型,使得输出结果更加多样化,进一步提高语音驱动人脸关键点的稳定度,减少人脸关键点到生成人脸动画时人脸部分尤其是人脸边缘部分的抖动,使得生成的人脸动画更加稳定、流畅和逼真。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种人脸动画生成方法,其特征在于,所述人脸动画生成方法包括:
获取视频中每一帧图片的多个人脸关键点,将多个所述人脸关键点进行降维处理输出低维特征向量,将所述低维特征向量经过三层全连接层后输出视频解码特征;
获取目标人物的说话视频中的音频信号,通过梅尔频率倒谱系数特征法提取所述音频信号的音频解码特征,并将所述音频解码特征与所述人脸关键点进行关联对应;
将视频解码特征与音频解码器输出的音频解码特征合并以生成对应序列的人脸低维关键点序列;
将所述人脸低维关键点序列进行训练和测试;
所述将所述人脸低维关键点序列进行训练和测试,具体包括:
在训练阶段,使用包含目标人物说话视频的音频信号提取的语音特征和人脸关键点进行降维后的低维特征作为训练输入数据,并将所述人脸低维关键点序列作为训练输入标签进行训练;
在测试阶段,将所述音频解码特征作为测试的音频输入数据,并将所述低维特征向量作为视频输入数据;
经过所述训练阶段和所述测试阶段后,生成人脸低维关键点向量序列;
将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画。
2.根据权利要求1所述的人脸动画生成方法,其特征在于,所述获取视频中的多个人脸关键点,具体包括:
获取目标人物的说话视频,提取所述说话视频中的若干帧图片;
通过边缘感知人脸对齐算法检测所述若干帧图片中所述目标人物的所述人脸关键点。
3.根据权利要求1所述的人脸动画生成方法,其特征在于,所述将所述视频解码特征与音频解码器输出音频解码特征进行合并,之后还包括:
所述视频解码特征与所述音频解码特征合并以生成对应序列的人脸低维关键点序列;
将所述人脸低维关键点序列进行训练和测试。
4.根据权利要求1所述的人脸动画生成方法,其特征在于,所述获得人脸低维关键点向量序列,之后还包括:
将所述人脸低维关键点向量序列经过反向主成分分析变换处理,生成与所述人脸关键点对应的预测人脸关键点序列。
5.根据权利要求4所述的人脸动画生成方法,其特征在于,所述将降维处理后的多个所述人脸关键点进行建模处理,生成人脸动画,具体包括:
将所述预测人脸关键点序列中的人脸各个部位分别进行卡尔曼滤波器的建模处理,生成所述人脸动画。
6.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸动画生成程序,所述人脸动画生成程序被所述处理器执行时实现如权利要求1-5任一项所述的人脸动画生成方法的步骤。
7.一种存储介质,其特征在于,所述存储介质存储有人脸动画生成程序,所述人脸动画生成程序被处理器执行时实现如权利要求1-5任一项所述的人脸动画生成方法的步骤。
CN202010115428.6A 2020-02-25 2020-02-25 一种人脸动画生成方法、智能终端及存储介质 Active CN113379874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115428.6A CN113379874B (zh) 2020-02-25 2020-02-25 一种人脸动画生成方法、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115428.6A CN113379874B (zh) 2020-02-25 2020-02-25 一种人脸动画生成方法、智能终端及存储介质

Publications (2)

Publication Number Publication Date
CN113379874A CN113379874A (zh) 2021-09-10
CN113379874B true CN113379874B (zh) 2023-04-07

Family

ID=77568493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115428.6A Active CN113379874B (zh) 2020-02-25 2020-02-25 一种人脸动画生成方法、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN113379874B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445529A (zh) * 2022-02-08 2022-05-06 北京中科深智科技有限公司 一种基于动作及语音特征的人脸图像动画方法和系统
CN116912373B (zh) * 2023-05-23 2024-04-16 苏州超次元网络科技有限公司 一种动画处理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
WO2019226964A1 (en) * 2018-05-24 2019-11-28 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
CN110796617A (zh) * 2019-10-24 2020-02-14 北京小米智能科技有限公司 面部图像的增强方法及装置、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
WO2019226964A1 (en) * 2018-05-24 2019-11-28 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN110796617A (zh) * 2019-10-24 2020-02-14 北京小米智能科技有限公司 面部图像的增强方法及装置、电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Audio to Body Dynamics;Eli Shlizerman等;《https://arxiv.org/abs/1712.09382?context=cs.CV》;20171219;摘要,第3节,第4节 *
Eli Shlizerman等.Audio to Body Dynamics.《https://arxiv.org/abs/1712.09382?context=cs.CV》.2017,摘要,第3节,第4节. *
Look at Boundary: A Boundary-Aware Face Alignment Algorithm;Wenyan Wu等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;摘要,第2130页左栏最后一段,图2 *

Also Published As

Publication number Publication date
CN113379874A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
US11587300B2 (en) Method and apparatus for generating three-dimensional virtual image, and storage medium
Tzirakis et al. End-to-end multimodal emotion recognition using deep neural networks
CN105096935B (zh) 一种语音输入方法、装置和系统
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
WO2023284435A1 (zh) 生成动画的方法及装置
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN109697978B (zh) 用于生成模型的方法和装置
WO2020244151A1 (zh) 图像处理方法、装置、终端及存储介质
CN113379874B (zh) 一种人脸动画生成方法、智能终端及存储介质
US11756250B2 (en) Three-dimensional face animation from speech
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Liu et al. Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network
CN115861462A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113343898A (zh) 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
CN113223125A (zh) 一种虚拟形象的面部驱动方法、装置、设备和介质
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN114220163B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN117456063B (zh) 基于语音的人脸驱动方法、装置、电子设备及存储介质
Wang et al. WaveNet with cross-attention for audiovisual speech recognition
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置
CN114519999A (zh) 基于双模态模型的语音识别方法、装置、设备及存储介质
Kheldoun et al. Algsl89: An algerian sign language dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant