CN102054287A - 面部动画视频生成的方法及装置 - Google Patents
面部动画视频生成的方法及装置 Download PDFInfo
- Publication number
- CN102054287A CN102054287A CN2009101801434A CN200910180143A CN102054287A CN 102054287 A CN102054287 A CN 102054287A CN 2009101801434 A CN2009101801434 A CN 2009101801434A CN 200910180143 A CN200910180143 A CN 200910180143A CN 102054287 A CN102054287 A CN 102054287A
- Authority
- CN
- China
- Prior art keywords
- image
- original
- personality elements
- distortion
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种面部动画视频生成的方法及装置,属于图像处理领域。其中,方法包括:根据输入的音频信号获取视频帧数N和语音特征参数;根据语音特征参数和输入的表情动作参数将原始面部图像生成N帧面部图像;将N帧面部图像合成为面部动画视频。装置包括:获取模块、生成模块和合成模块。本发明通过用户输入的语音特征参数和表情动作参数控制原始面部图像生成动画视频的每帧图像,使用户能够参与控制动画视频生成的过程。
Description
技术领域
本发明涉及图像处理领域,特别涉及面部动画视频生成的方法及装置。
背景技术
随着科技的进步,动画视频已经成为人们生活中广泛应用的娱乐手段,人们可以通过手机终端观看动画视频、在网络中传送动画视频给好友等等。常见的动画视频包括面部动画视频,面部动画视频可以通过为静态的人脸面部影像添入动态元素获得。
现有的面部动画视频生成技术通过定义一套连续动画的面部网格序列,将第一个网格套用在面部图像上,并从中计算出网格上每点的偏移量,再将此偏移量添加于序列中的每个后续网格,从而实现图像中面部的动画效果,进而生成动画视频。
在实现本发明的过程中,发明人发现:
基于面部网格的动画视频生成技术实现动画效果的好坏很大程度上取决于一开始定义的连续动画的面部网格序列的优劣,而此面部网格序列对于用户而言是隐藏的,所以此技术无法实现用户参与控制面部动画视频生成的功能。
发明内容
为了使用户能够参与控制面部动画视频的生成过程,本发明实施例提供了面部动画视频生成的方法及装置。所述技术方案如下:
一种面部动画视频生成的方法,所述方法包括:
根据输入的音频信号获取视频帧数N和语音特征参数,所述N为大于等于1的自然数;
根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
将所述N帧面部图像合成为面部动画视频。
所述根据输入的音频信号获取视频帧数N,具体为:
将输入的音频信号的时间长度和视频的播放速度相乘,把相乘的结果作为视频帧数N。
所述根据输入的音频信号获取语音特征参数,具体包括:
将输入的音频信号去噪后得到语音信号;
将所述语音信号按照音节划分为多个小组;
将每个小组分别作为当前小组,将当前小组内的语音信号的最大值与划分前的语音信号的最大值的比例,作为当前小组内的语音信号的语音特征参数。
所述根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像,具体包括:
为原始面部图像建立原始二维面部模型;
根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形;
将变形后的面部模型、所述原始二维面部模型与所述原始面部图像进行合成,生成N帧变形后的面部图像。
所述根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形,具体包括:
根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形;
根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形。
所述根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形,具体为:
根据所述语音特征参数计算所述嘴巴器官的模型中控制点的偏移量,根据所述嘴巴器官的模型中控制点的偏移量对所述嘴巴器官的模型进行变形;
所述根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形,具体为:
根据输入的表情动作参数计算除嘴巴器官以外的其它器官的模型中控制点的偏移量,根据所述其它器官的模型中控制点的偏移量对所述其它器官的模型进行变形。
所述将所述N帧面部图像合成为面部动画视频之前,还包括:
根据输入的表情动作参数,为所述N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
相应地,所述将所述N帧面部图像合成为面部动画视频,具体为:
将添入变形后的个性元素图像后的N帧面部图像合成为面部动画视频。
所述根据输入的表情动作参数,为所述N帧面部图像中的每帧面部图像添入变形后的个性元素图像,具体包括:
根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像;
为每个所述变形后的个性元素图像分别生成各自的个性元素掩模;
根据所述个性元素掩模,将每个所述变形后的个性元素图像分别与对应的帧面部图像进行合成。
所述根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像,具体包括:
为原始个性元素图像建立原始二维个性元素模型;
根据输入的表情动作参数中的个性元素的运动轨迹,将所述原始二维个性元素模型进行变形,生成每帧面部图像对应的变形后的个性元素模型;
将每个变形后的个性元素模型分别与所述原始二维个性元素模型和原始个性元素图像进行合成,得到每帧面部图像对应的变形后的个性元素图像。
一种面部动画视频生成的装置,所述装置包括:
获取模块,用于根据输入的音频信号获取视频帧数N和语音特征参数,所述N为大于等于1的自然数;
生成模块,用于根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
合成模块,用于将所述N帧面部图像合成为面部动画视频。
所述生成模块具体包括:
原始二维面部模型建立单元,用于为原始面部图像建立原始二维面部模型;
面部模型变形单元,用于根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形;
面部图像合成单元,用于将变形后的面部模型、所述原始二维面部模型和所述原始面部图像进行合成,生成N帧变形后的面部图像。
所述面部模型变形单元包括:
第一变形子单元,用于根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形;
第二变形子单元,用于根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形。
所述装置还包括:
添加模块,用于在所述合成模块将所述N帧面部图像合成为面部动画视频之前,根据输入的表情动作参数,为所述生成模块生成的N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
相应地,所述合成模块具体用于将添入变形后的个性元素图像后的N帧面部图像合成为面部动画视频。
所述添加模块具体包括:
变形后的个性元素图像生成单元,用于根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像;
个性元素掩模生成单元,用于为每个所述变形后的个性元素图像分别生成各自的个性元素掩模;
第一合成单元,根据所述个性元素掩模,将每个所述变形后的个性元素图像分别与对应的帧面部图像进行合成。
所述变形后的个性元素图像生成单元具体包括:
原始个性元素模型建立子单元,用于为原始个性元素图像建立原始二维个性元素模型;
个性元素模型变形子单元,用于根据输入的表情动作参数中的个性元素的运动轨迹,将所述原始二维个性元素模型进行变形,生成每帧面部图像对应的变形后的个性元素模型;
个性元素图像合成子单元,用于将每个变形后的个性元素模型分别与所述原始二维个性元素模型和原始个性元素图像进行合成,得到每帧面部图像对应的变形后的个性元素图像。
本发明实施例提供的技术方案的有益效果是:
根据输入的音频信号和表情动作参数将原始面部图像生成动画视频的每帧图像,再将所有帧图像合成,生成面部动画视频,使得用户在上述过程中,通过输入音频信号与表情动作参数,实现了用户参与控制面部动画视频生成的功能,从而能够提供更精准、细腻、逼真的动画效果。
附图说明
图1是本发明实施例一提供的面部动画视频生成的方法流程示意图;
图2是本发明实施例二提供的面部动画视频生成的方法流程示意图;
图3是本发明实施例三提供的面部动画视频生成的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
为了使用户能够参与控制面部动画视频的生成过程,本发明实施例提供了一种面部动画视频生成的方法,参见图1,该方法包括:
101:根据输入的音频信号获取视频帧数N和语音特征参数,N为大于等于1的自然数;
其中,可以根据输入的音频信号的复杂程度将N设置成不同的值,本发明实施例对此不做具体限定。
102:根据语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
103:将N帧面部图像合成为面部动画视频。
本实施例根据输入的音频信号和表情动作参数将原始面部图像生成动画视频的每帧图像,再将所有帧图像合成,生成面部动画视频,使得用户在上述过程中,通过输入音频信号与表情动作参数,实现了用户参与控制面部动画视频生成的功能。
实施例二
为了使用户能够参与控制面部动画视频的生成过程,参见图2,本发明实施例提供了一种面部动画视频生成的方法,其中,用户输入的信息包括:音频信号和表情动作参数,该表情动作参数包括个性元素图像的运动轨迹,该方法具体包括:
201:根据输入的音频信号获取视频帧数N和语音特征参数;
其中,视频帧数将决定一共需要生成多少帧图像;语音特征参数用于对原始面部图像中嘴形的控制,从音频信号中提取语音特征获取语音特征参数,语音特征可以包括语音音量、元音等,本发明实施例对此不作具体限定。
具体地,视频帧数通过音频信号的时间长度和视频的播放速度(由用户决定)相乘获取,例如,音频信号的时间长度为10s(秒),待生成视频的播放速度为20帧/s,为了在播放视频动画时达到良好的效果,音频信号的时间长度与视频信号的时间长度对应相等,因此视频的帧数为200帧。
语音特征参数的获取方法包括:将输入的音频信号进行去噪运算后得到语音信号,将语音信号按预设长度进行划分,该预设长度根据经验值可以取一个音节的长度,从而将语音信号划分为多个小组,一个音节对应一个小组,每个小组内包含多个语音信号;将每个小组分别作为当前小组,将当前小组内的语音信号的最大值与划分前的语音信号的最大值作比例,得到当前小组内的语音信号的语音特征参数,该语音特征参数反映了当前小组内的语音信号对应的嘴形,从而可以根据该语音特征参数控制嘴形。在对每个小组进行上述处理后,可以得到多个语音特征参数,即每个小组有一个语音特征参数。
上述语音特征参数的获取过程中,音节是描述人类语言时使用的定义;语音信号的最大值可以是语音音量的最大值。在本实施例中,优选地,采用语音音量按照上述获取方法获取相应的语音特征参数。
本实施例中,如图2所示,生成动画视频的N帧面部图像中的每帧图像的方法可以包括两个部分:生成面部图像部分、添加变形后的个性元素图像部分。
其中,生成面部图像部分如下:
202:根据语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
本步骤可以具体包括以下202a~202c三个步骤:
202a:为原始面部图像建立原始2D(维)面部模型;
其中,面部模型是基于面部器官轮廓的,主要分为嘴巴器官的模型和除嘴巴之外其它器官的模型,例如眼睛的模型、眉毛的模型、头部的模型等,本发明实施例对此不做具体限定。
202b:在语音特征参数和输入的表情动作参数的控制下将原始二维面部模型进行变形;
在模型变形的过程中,嘴巴器官的模型变形由语音特征参数控制,除嘴巴之外其它器官的模型变形由输入的表情动作参数控制。
在模型变形过程中,通过各个参数计算面部模型中控制点的偏移量,根据控制点的偏移量实现对模型变形的控制。其中,面部模型中的控制点是初始建模过程中设置的,通常为多个,根据需要可以设定在不同的位置上。下面对面部模型中不同器官的模型变形分别说明参数控制的方法:
1)对于嘴巴器官,主要动作是嘴巴的张开和闭合。语音特征参数控制嘴巴部分的模型变形的原理为:
首先,为嘴巴运动提供多组嘴形模型,每帧待生成的图像都随机的选取一种模型进行嘴形控制;其中,不同的帧可以选相同的嘴形模型,也可以选不同的嘴形模型;不同的嘴形模型中,嘴巴的形状、大小、颜色等元素中至少有一个元素不相同。
其次,根据语音特征参数中的语音音量确定每帧待生成的面部图像的嘴巴水平的运动幅度系数和垂直的运动幅度系数;这两个运动幅度系数可以反映嘴巴张开的程度,通常,语音音量与嘴巴水平的运动幅度系数和垂直的运动幅度系数成正比,即语音音量越大,嘴巴水平的运动幅度系数和垂直的运动幅度系数越大,嘴巴张开的程度也就越大。
最后,将模型中嘴巴的长、宽与上述水平的运动幅度系数和垂直的运动幅度系数按照预设的算法进行运算,并运用到嘴形模型中,即可计算出嘴形模型中嘴巴部分各控制点的偏移量。其中,预设的算法有多种,如将嘴巴的长、宽与上述水平的运动幅度系数和垂直的运动幅度系数相乘,并将相乘的结果根据现有的插值算法运用到嘴形模型中,当然也可以采用其它算法,本发明实施例对此不做具体限定。另外,各控制点为初始建模过程中嘴形模型的控制点,可以根据需要设定在不同的位置,本发明实施例对此不做限定。
在对面部模型进行变形的过程中,除了嘴巴外的每个器官做每个动作时的模型变形都需要表情动作参数的控制。
本发明实施例中,表情动作参数是一系列数字的排列集合,每个数字都代表某个时间段需要表达的动作组合。每个动作都具有帧数和动作控制系数两个属性。
动作组合包括多个单一动作,具体地,可以使用一个二进制数来表示,其中,不同的比特位代表不同的动作,也可以一个动作对应多个比特位。例如,用第一位和第二位这两个比特位控制左眼动作:00表示左眼不进行任何动作,01表示左眼进行眨眼动作,10表示左眼进行瞪眼动作;用第三位和第四位这两个比特位控制右眼动作,控制方法类似,如0100表示右眼眨眼,左眼不进行任何动作等;再用第五位和第六位这两个比特位控制摇头等。这样可以方便实现单一动作的叠加。
其中,每个单一动作对应的帧数可以根据该动作的完成时间来计算,以闭眼(前提为眼睛是睁开的)这个动作为例说明,假设一次闭眼所需的时间为0.5秒,该动作的播放速度(同视频的播放速度,由用户决定)为20帧/s,则该动作所对应的图像帧数为10帧;动作控制系数为每帧图像中的单一动作所具有的系数,代表该单一动作是如何做的,该系数根据每个单一动作的特性而定义,可以根据该系数计算面部模型中相应器官的控制点偏移量。其中,单一动作的特性例如,闭眼这个动作的特性可以包括闭上一半、闭上四分之一、闭上四分之三和全部闭上等,本发明实施例对此不做具体限定。
具体地,以单一动作闭眼举例说明,闭眼这个动作所对应的图像帧数为10帧,每帧中有一个动作控制系数,10帧图像共有10个动作控制系数,可以根据这些系数计算对应帧图像中眼睛模型的控制点偏移量。其中,眼睛闭到一半和眼睛完全闭上是闭眼动作的两个不同的特性,可以用0.5表示眼睛闭到一半,1表示眼睛完全闭上,那么0.5或1即为对应帧中的动作控制系数,可以根据该系数计算控制点偏移量。
2)对于眼睛器官,主要动作包括:眨眼,瞪眼,闭眼(本发明实施例中这些动作的前提是原始面部图像中眼睛是睁开的);对于眉毛器官,主要动作包括:眉毛相对头部作水平以及垂直动作。本发明实施例中根据输入的表情动作参数对眼睛和/或眉毛的模型进行变形,具体如下:
首先,根据原始二维面部模型中的眼睛和/或眉毛,计算出相应器官的模型中每个控制点离该模型中相应基准线的最大偏移量;
其中,针对不同动作,基准线的定义不同:
对于眼睛的眨眼、睁眼动作和眉毛相对头部的垂直动作,基准线是原始二维面部模型中头部的两个眼睛外侧眼角的连线;
对于眉毛相对头部的水平动作,基准线是原始二维面部模型中头部的垂直中轴线。
计算最大偏移量的过程可以采用现有的算法,此处不赘述。
然后,对于模型中眼睛和/或眉毛上的每个控制点,将计算得到的最大偏移量与输入的表情动作参数中的动作控制系数相乘,得到该控制点的偏移量,从而获得该器官各控制点的偏移量。
其中,动作控制系数为用户输入的表情动作参数,对于器官模型中的每个控制点,都具有一个动作控制系数。
3)对于头部,主要动作包括点头,抬头;向左向右歪头,水平向左、向右摇头。此时,表情动作参数包括:移动系数和旋转弧度,根据这两个参数控制头部的模型变形的原理为:
若是点头抬头动作,则根据原始2D面部模型中头顶到头底的距离以及每帧待生成图像中头部的移动系数计算模型中此头部各控制点的偏移量;
若是摇头动作,则根据原始二维面部模型中头部最左、最右两点的距离及每帧待生成图像中头部的移动系数计算模型中此头部各控制点的偏移量;若是左右歪头动作,则根据原始二维面部模型中头顶到头底的距离及每帧待生成图像中头部的旋转弧度计算模型中此头部各控制点的偏移量。
进一步地,当各个器官对应的模型控制点有重复时,对于重复的控制点,其变形后的偏移量等于该控制点在各个器官内计算出的偏移量的叠加。
本步骤202b中,计算出器官内各控制点的偏移量后,在原始二维面部模型基础上加上各控制点的偏移量,形成变形后的面部模型。
202c:将变形后的面部模型、原始二维面部模型和原始面部图像进行内容合成生成变形后的面部图像。
其中,可以采用现有的插值算法将变形后的面部模型、原始二维面部模型和原始面部图像进行内容合成,生成变形后的面部图像。
在步骤202得到N帧面部图像后,进一步地,为了满足用户在动画视频中添入个性化元素的需求,本实施例还可以包括在面部图像中添加变形后的个性元素图像的步骤,详细说明如下:
203:为N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
其中,个性元素图像可以是体现面部内容真实感的器官图片,如:口腔中的舌头、牙齿等;也可以是使面部表情更加生动的额外图片,如:额头上冒出的汗珠、眼睛里闪烁的泪水等;还可以是使动画视频具有娱乐性的搞笑图片等,本发明实施例对此不做具体限定。
具体地,步骤203中对每帧图像的处理可以包括以下203a~203e五个步骤:
203a:为原始个性元素图像建立原始个性元素模型;
其中,该模型为原始个性元素图像的原始2D个性元素模型。
203b:在输入的个性元素图像的运动轨迹的控制下将原始个性元素模型进行变形;
其中,个性元素图像的运动轨迹是个性元素模型控制点在每帧待生成图像里的运动偏移量的集合。以汗滴作为个性元素为例说明控制过程:假设汗滴的运动轨迹是由上而下滑落,则汗滴模型在每帧待生成图像里的位移均是不同的,每帧中的位移变形构成的集合为该汗滴的运动轨迹,因此,该举例中原始汗滴的变形由其位移变形进行控制。
203c:将变形后的个性元素模型、原始个性元素模型与原始个性元素图像进行合成,生成变形后的个性元素图像。
其中,合成的过程可以采用现有的插值算法,此处不再赘述。
203d:根据变形后的个性元素图像生成个性元素掩模;
其中,该个性元素掩模由变形后的个性元素图像内容确定,掩模大小为面部图像大小,且按照如下规则生成:将变形后的个性元素图像与变形后的面部图像交集的范围内的掩模值设置为第一预设值,其他掩模值设置为第二预设值,由此产生个性元素掩膜。当掩模值为第一预设值时,标识在合成过程中取个性元素图像的内容,当掩模值为第二预设值时,标识在合成过程中取变形后的面部图像的内容。具体地,该第一预设值和第二预设值可以根据需要设置,如设置第一预设值为1,设置第二预设值为0等等,本发明实施例对此不做具体限定。
203e:根据个性元素掩模,合成变形后的个性元素图像与变形后的面部图像。
在合成的过程中,若掩模值为第一预设值,则取变形后的个性元素内容;若掩模值为第二预设值,则取变形后的面部图像内容。
在结束上述合成操作后,即生成了动画视频中的第i帧图像,i的取值范围为0至视频帧数,每帧都做相同的处理后,可以得到N帧添加个性元素图像后的面部图像。
204:将203中得到N帧面部图像合成,组成个性化的面部动画视频。
具体地,可以将通过上述过程生成的所有帧图像经过压缩后,合成个性化的面部动画视频,该合成过程为现有技术,此处不再赘述。
本实施例中,用户可以通过输入基于器官动作特征的表情动作参数和语音特征参数,对原始面部图像进行控制生成面部动画视频的每帧图像,实现了用户参与动画视频生成过程的控制;另外,本实施例使用基于器官轮廓的2D面部模型并对其进行变形,使建模过程简单化,效率较高;采用从外部输入的基于器官动作特征的表情动作参数和语音特征参数生成变形后的每帧面部图像,降低了该面部图像对初始建模的依赖性;本实施例还在动画视频里通过简单的方法融入个性元素,使用户可以在动画图像中加入个性化的图像,使生成的动画视频更加生动、精准、细腻和逼真,也进一步实现了用户参与控制动画视频的功能。
实施例三
参见图3,为本实施例提供的面部动画视频生成的装置结构示意图,参照方法实施例中描述的技术方案,该装置包括:
获取模块31,用于根据输入的音频信号获取视频帧数N和语音特征参数,N为大于等于1的自然数;
生成模块32,用于根据语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
合成模块33,用于将N帧面部图像合成为面部动画视频。
其中,生成模块32具体包括:
原始二维面部模型建立单元321,用于为原始面部图像建立原始二维面部模型;
面部模型变形单元322,用于根据获取的语音特征参数和输入的表情动作参数,将原始二维面部模型进行变形;
面部图像合成单元323,用于将变形后的面部模型、原始二维面部模型和原始面部图像进行合成,生成N帧变形后的面部图像。
其中,面部模型变形单元具体包括:
第一变形子单元,用于根据语音特征参数,将原始二维面部模型中的嘴巴器官的模型进行变形;
第二变形子单元,用于根据输入的表情动作参数,将原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形。
具体地,
第一变形子单元,用于根据语音特征参数计算嘴巴器官的模型中控制点的偏移量,根据嘴巴器官的模型中控制点的偏移量对嘴巴器官模型进行变形;
第二变形子单元,用于根据表情动作参数计算除嘴巴器官以外的其它器官的模型中控制点的偏移量,根据该其它器官的模型中控制点的偏移量,对其它器官模型进行变形。
本实施例中,进一步地,该装置还包括:
添加模块34,用于在合成模块33将N帧面部图像合成为面部动画视频之前,根据输入的表情动作参数,为生成模块32生成的N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
相应地,合成模块33具体用于将添入变形后的个性元素图像后的N帧面部图像合成为面部动画视频。
其中,添加模块34具体包括:
变形后的个性元素图像生成单元341,用于根据原始个性元素图像和输入的表情动作参数,为每帧面部图像生成变形后的个性元素图像;
个性元素掩模生成单元342,用于为每个变形后的个性元素图像分别生成各自的个性元素掩模;
第一合成单元343,根据得到的个性元素掩模,将每个变形后的个性元素图像分别与对应的帧面部图像进行合成。
其中,变形后的个性元素图像生成单元具体包括:
原始个性元素模型建立子单元,用于为原始个性元素图像建立原始二维个性元素模型;
个性元素模型变形子单元,用于根据输入的表情动作参数中的个性元素的运动轨迹,将原始二维个性元素模型进行变形,生成每帧面部图像对应的变形后的个性元素模型;
个性元素图像合成子单元,用于将每个变形后的个性元素模型分别与原始二维个性元素模型和原始个性元素图像进行合成,得到每帧面部图像对应的变形后的个性元素图像。
本实施例根据输入的音频信号和表情动作参数将原始面部图像生成动画视频的每帧图像,再将所有帧图像合成,生成面部动画视频,使得用户在上述过程中,通过输入音频信号与表情动作参数,实现了用户参与控制面部动画视频生成的功能。
另外,本实施例使用基于器官轮廓的2D面部模型并对其进行变形,使建模过程简单化,效率较高;采用从外部输入的基于器官动作特征的表情动作参数和语音特征参数生成变形后的每帧面部图像,降低了该面部图像对初始建模的依赖性;本实施例还可以在动画视频里通过简单的方法融入个性元素,使用户可以在动画图像中加入个性化的图像,使生成的动画视频更加生动、精准、细腻和逼真,也进一步实现了用户参与控制动画视频的功能。
本发明实施例提供的上述方法和装置具体地可以应用于2D领域。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种面部动画视频生成的方法,其特征在于,所述方法包括:
根据输入的音频信号获取视频帧数N和语音特征参数,所述N为大于等于1的自然数;
根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
将所述N帧面部图像合成为面部动画视频。
2.根据权利要求1所述的方法,其特征在于,所述根据输入的音频信号获取视频帧数N,具体为:
将输入的音频信号的时间长度和视频的播放速度相乘,把相乘的结果作为视频帧数N。
3.根据权利要求1所述的方法,其特征在于,所述根据输入的音频信号获取语音特征参数,具体包括:
将输入的音频信号去噪后得到语音信号;
将所述语音信号按照音节划分为多个小组;
将每个小组分别作为当前小组,将当前小组内的语音信号的最大值与划分前的语音信号的最大值的比例,作为当前小组内的语音信号的语音特征参数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像,具体包括:
为原始面部图像建立原始二维面部模型;
根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形;
将变形后的面部模型、所述原始二维面部模型与所述原始面部图像进行合成,生成N帧变形后的面部图像。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形,具体包括:
根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形;
根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形,具体为:
根据所述语音特征参数计算所述嘴巴器官的模型中控制点的偏移量,根据所述嘴巴器官的模型中控制点的偏移量对所述嘴巴器官的模型进行变形;
所述根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形,具体为:
根据输入的表情动作参数计算除嘴巴器官以外的其它器官的模型中控制点的偏移量,根据所述其它器官的模型中控制点的偏移量对所述其它器官的模型进行变形。
7.根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述将所述N帧面部图像合成为面部动画视频之前,还包括:
根据输入的表情动作参数,为所述N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
相应地,所述将所述N帧面部图像合成为面部动画视频,具体为:
将添入变形后的个性元素图像后的N帧面部图像合成为面部动画视频。
8.根据权利要求7所述的方法,其特征在于,所述根据输入的表情动作参数,为所述N帧面部图像中的每帧面部图像添入变形后的个性元素图像,具体包括:
根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像;
为每个所述变形后的个性元素图像分别生成各自的个性元素掩模;
根据所述个性元素掩模,将每个所述变形后的个性元素图像分别与对应的帧面部图像进行合成。
9.根据权利要求8所述的方法,其特征在于,所述根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像,具体包括:
为原始个性元素图像建立原始二维个性元素模型;
根据输入的表情动作参数中的个性元素的运动轨迹,将所述原始二维个性元素模型进行变形,生成每帧面部图像对应的变形后的个性元素模型;
将每个变形后的个性元素模型分别与所述原始二维个性元素模型和原始个性元素图像进行合成,得到每帧面部图像对应的变形后的个性元素图像。
10.一种面部动画视频生成的装置,其特征在于,所述装置包括:
获取模块,用于根据输入的音频信号获取视频帧数N和语音特征参数,所述N为大于等于1的自然数;
生成模块,用于根据所述语音特征参数和输入的表情动作参数,将原始面部图像生成N帧面部图像;
合成模块,用于将所述N帧面部图像合成为面部动画视频。
11.根据权利要求10所述的装置,其特征在于,所述生成模块具体包括:
原始二维面部模型建立单元,用于为原始面部图像建立原始二维面部模型;
面部模型变形单元,用于根据所述语音特征参数和输入的表情动作参数,将所述原始二维面部模型进行变形;
面部图像合成单元,用于将变形后的面部模型、所述原始二维面部模型和所述原始面部图像进行合成,生成N帧变形后的面部图像。
12.根据权利要求11所述的装置,其特征在于,所述面部模型变形单元包括:
第一变形子单元,用于根据所述语音特征参数,将所述原始二维面部模型中的嘴巴器官的模型进行变形;
第二变形子单元,用于根据输入的表情动作参数,将所述原始二维面部模型中除嘴巴器官以外的其它器官的模型进行变形。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
添加模块,用于在所述合成模块将所述N帧面部图像合成为面部动画视频之前,根据输入的表情动作参数,为所述生成模块生成的N帧面部图像中的每帧面部图像添入变形后的个性元素图像;
相应地,所述合成模块具体用于将添入变形后的个性元素图像后的N帧面部图像合成为面部动画视频。
14.根据权利要求13所述的装置,其特征在于,所述添加模块具体包括:
变形后的个性元素图像生成单元,用于根据原始个性元素图像和输入的表情动作参数,为所述每帧面部图像生成变形后的个性元素图像;
个性元素掩模生成单元,用于为每个所述变形后的个性元素图像分别生成各自的个性元素掩模;
第一合成单元,根据所述个性元素掩模,将每个所述变形后的个性元素图像分别与对应的帧面部图像进行合成。
15.根据权利要求14所述的装置,其特征在于,所述变形后的个性元素图像生成单元具体包括:
原始个性元素模型建立子单元,用于为原始个性元素图像建立原始二维个性元素模型;
个性元素模型变形子单元,用于根据输入的表情动作参数中的个性元素的运动轨迹,将所述原始二维个性元素模型进行变形,生成每帧面部图像对应的变形后的个性元素模型;
个性元素图像合成子单元,用于将每个变形后的个性元素模型分别与所述原始二维个性元素模型和原始个性元素图像进行合成,得到每帧面部图像对应的变形后的个性元素图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910180143.4A CN102054287B (zh) | 2009-11-09 | 2009-11-09 | 面部动画视频生成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910180143.4A CN102054287B (zh) | 2009-11-09 | 2009-11-09 | 面部动画视频生成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102054287A true CN102054287A (zh) | 2011-05-11 |
CN102054287B CN102054287B (zh) | 2015-05-06 |
Family
ID=43958571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910180143.4A Active CN102054287B (zh) | 2009-11-09 | 2009-11-09 | 面部动画视频生成的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102054287B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014153689A1 (en) * | 2013-03-29 | 2014-10-02 | Intel Corporation | Avatar animation, social networking and touch screen applications |
CN104219197A (zh) * | 2013-05-30 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 一种视频会话方法、终端和系统 |
CN104851120A (zh) * | 2014-02-17 | 2015-08-19 | 腾讯科技(北京)有限公司 | 视频处理的方法及装置 |
CN104995662A (zh) * | 2013-03-20 | 2015-10-21 | 英特尔公司 | 基于化身的传输协议、图标生成和玩偶动画 |
WO2017152673A1 (zh) * | 2016-03-10 | 2017-09-14 | 腾讯科技(深圳)有限公司 | 人物面部模型的表情动画生成方法及装置 |
CN107204027A (zh) * | 2016-03-16 | 2017-09-26 | 卡西欧计算机株式会社 | 图像处理装置、显示装置、动画生成方法以及动画显示方法 |
CN109949390A (zh) * | 2017-12-21 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 图像生成方法、动态表情图像生成方法及装置 |
CN110149548A (zh) * | 2018-09-26 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 视频配音方法、电子装置和可读存储介质 |
CN111212245A (zh) * | 2020-01-15 | 2020-05-29 | 北京猿力未来科技有限公司 | 一种合成视频的方法和装置 |
CN111292773A (zh) * | 2020-01-13 | 2020-06-16 | 北京大米未来科技有限公司 | 音视频合成的方法、装置、电子设备及介质 |
CN112215926A (zh) * | 2020-09-28 | 2021-01-12 | 北京华严互娱科技有限公司 | 一种语音驱动的人脸动作实时转移方法和系统 |
CN113099150A (zh) * | 2020-01-08 | 2021-07-09 | 华为技术有限公司 | 图像处理的方法、设备及系统 |
CN113179449A (zh) * | 2021-04-22 | 2021-07-27 | 清华珠三角研究院 | 语音及动作驱动图像的方法、系统、装置及存储介质 |
CN113302694A (zh) * | 2019-01-18 | 2021-08-24 | 斯纳普公司 | 用于基于模板生成个性化视频的系统和方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000064110A (ko) * | 2000-08-22 | 2000-11-06 | 이성환 | 얼굴 영상에 기반한 캐릭터 자동 생성 장치 및 방법 |
CN101436312B (zh) * | 2008-12-03 | 2011-04-06 | 腾讯科技(深圳)有限公司 | 一种生成视频动画的方法及装置 |
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
-
2009
- 2009-11-09 CN CN200910180143.4A patent/CN102054287B/zh active Active
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104995662A (zh) * | 2013-03-20 | 2015-10-21 | 英特尔公司 | 基于化身的传输协议、图标生成和玩偶动画 |
US9460541B2 (en) | 2013-03-29 | 2016-10-04 | Intel Corporation | Avatar animation, social networking and touch screen applications |
WO2014153689A1 (en) * | 2013-03-29 | 2014-10-02 | Intel Corporation | Avatar animation, social networking and touch screen applications |
CN104219197A (zh) * | 2013-05-30 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 一种视频会话方法、终端和系统 |
CN104851120B (zh) * | 2014-02-17 | 2019-11-22 | 腾讯科技(北京)有限公司 | 视频处理的方法及装置 |
CN104851120A (zh) * | 2014-02-17 | 2015-08-19 | 腾讯科技(北京)有限公司 | 视频处理的方法及装置 |
WO2017152673A1 (zh) * | 2016-03-10 | 2017-09-14 | 腾讯科技(深圳)有限公司 | 人物面部模型的表情动画生成方法及装置 |
CN107180446B (zh) * | 2016-03-10 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 人物面部模型的表情动画生成方法及装置 |
CN107180446A (zh) * | 2016-03-10 | 2017-09-19 | 腾讯科技(深圳)有限公司 | 人物面部模型的表情动画生成方法及装置 |
CN107204027A (zh) * | 2016-03-16 | 2017-09-26 | 卡西欧计算机株式会社 | 图像处理装置、显示装置、动画生成方法以及动画显示方法 |
CN107204027B (zh) * | 2016-03-16 | 2021-03-12 | 卡西欧计算机株式会社 | 图像处理装置、显示装置、动画生成方法以及动画显示方法 |
CN109949390A (zh) * | 2017-12-21 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 图像生成方法、动态表情图像生成方法及装置 |
CN110149548A (zh) * | 2018-09-26 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 视频配音方法、电子装置和可读存储介质 |
CN113302694A (zh) * | 2019-01-18 | 2021-08-24 | 斯纳普公司 | 用于基于模板生成个性化视频的系统和方法 |
CN113099150A (zh) * | 2020-01-08 | 2021-07-09 | 华为技术有限公司 | 图像处理的方法、设备及系统 |
CN113099150B (zh) * | 2020-01-08 | 2022-12-02 | 华为技术有限公司 | 图像处理的方法、设备及系统 |
CN111292773A (zh) * | 2020-01-13 | 2020-06-16 | 北京大米未来科技有限公司 | 音视频合成的方法、装置、电子设备及介质 |
CN111212245A (zh) * | 2020-01-15 | 2020-05-29 | 北京猿力未来科技有限公司 | 一种合成视频的方法和装置 |
CN112215926A (zh) * | 2020-09-28 | 2021-01-12 | 北京华严互娱科技有限公司 | 一种语音驱动的人脸动作实时转移方法和系统 |
CN113179449A (zh) * | 2021-04-22 | 2021-07-27 | 清华珠三角研究院 | 语音及动作驱动图像的方法、系统、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102054287B (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054287A (zh) | 面部动画视频生成的方法及装置 | |
CN111145322B (zh) | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 | |
US8743125B2 (en) | Method and apparatus for providing natural facial animation | |
CN113781610B (zh) | 一种虚拟人脸的生成方法 | |
US9667574B2 (en) | Animated delivery of electronic messages | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
US20160134840A1 (en) | Avatar-Mediated Telepresence Systems with Enhanced Filtering | |
CN101324961B (zh) | 计算机虚拟世界中人脸部三维贴图方法 | |
Kouadio et al. | Real-time facial animation based upon a bank of 3D facial expressions | |
US20100182325A1 (en) | Apparatus and method for efficient animation of believable speaking 3d characters in real time | |
JP2012181704A (ja) | 情報処理装置および情報処理方法 | |
US11005796B2 (en) | Animated delivery of electronic messages | |
US8441485B2 (en) | Method and apparatus for generating video animation | |
CN111724457A (zh) | 基于ue4的真实感虚拟人多模态交互实现方法 | |
JP2009104570A (ja) | 画像の形成用のデータ構造及び画像の形成方法 | |
Li et al. | A survey of computer facial animation techniques | |
CN110189404B (zh) | 基于真实人脸图像的虚拟面部建模方法 | |
Kalberer et al. | Realistic face animation for speech | |
Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
JP2020091909A (ja) | 表情制御プログラム、記録媒体、表情制御装置、表情制御方法 | |
Ladwig et al. | Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence | |
JP2005057431A (ja) | テレビ電話端末装置 | |
Xiao et al. | Dense convolutional recurrent neural network for generalized speech animation | |
Lande et al. | An MPEG-4 facial animation system driven by synthetic speech | |
JP2006065684A (ja) | アバタ通信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20151231 Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone Patentee after: Shenzhen Tencent Computer System Co., Ltd. Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |