CN113362432A - 一种面部动画生成方法及装置 - Google Patents
一种面部动画生成方法及装置 Download PDFInfo
- Publication number
- CN113362432A CN113362432A CN202010144334.1A CN202010144334A CN113362432A CN 113362432 A CN113362432 A CN 113362432A CN 202010144334 A CN202010144334 A CN 202010144334A CN 113362432 A CN113362432 A CN 113362432A
- Authority
- CN
- China
- Prior art keywords
- fap
- facial
- feature points
- lstm
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 219
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000003068 static effect Effects 0.000 claims abstract description 88
- 230000000007 visual effect Effects 0.000 claims abstract description 33
- 230000009471 action Effects 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 abstract description 28
- 238000013461 design Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 15
- 230000033001 locomotion Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000007906 compression Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 210000000056 organ Anatomy 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开一种面部动画生成方法及装置,涉及互联网技术领域,以解决现有面部动画生成方法计算复杂度较高的问题。所述方法包括:识别目标音频数据,得到目标音频数据对应的多个音素,确定每个音素对应的视素;其中,视素包括用于控制音素对应的发音动作的N个静态FAP参数,N为正整数;确定每个视素对应的N个动态FAP参数,根据N个动态FAP参数生成虚拟人物的面部动画。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种面部动画生成方法及装置。
背景技术
随着科技的高速发展,人们已经不满足于呆板、僵硬的人机交互方式,人性化的、友好的人机交互技术越来越被重视。听觉与视觉是人们最主要、最便捷的两种沟通交流方式。为此,人们提出利用利用计算机生成开口说话的虚拟人物,为人们提供更加自然、逼真的人机交互体验,即将语音,转变为面部及口型对应的面部动画特征(Facial AnimationParameters,FAP)参数,来实时驱动虚拟人物(如:虚拟人或卡通形象)的面部动画。
上述面部动画生成技术是一种体验更佳的交互方式,而且在电影特效、虚拟现实、可视电话会议、语言学习、音视频聊天、智能终端等领域具有广泛的应用。但是,如何降低面部动画生成方法的计算复杂度,以适应于在硬件资源受限或者计算能力较低的智能终端部署上述面部动画生成,目前没有相关的解决方案。
发明内容
本申请的目的是提供一种面部动画生成方法及装置,解决现有面部动画生成方法计算复杂较高的问题。
基于上述问题,本申请所采用的技术方案是:
第一方面,提供了一种面部动画生成装置,该面部动画生成装置包括:音素识别模块,用于识别目标音频数据,得到目标音频数据对应的多个音素;音素视素映射模块,用于确定每个音素对应的视素;其中,音素对应的视素包括用于控制音素对应的发音动作的N个静态FAP参数;静态FAP参数对应虚拟人物的面部特征点的位置信息,N为正整数;FAP参数生成模块,用于确定每个视素对应的N个动态FAP参数;面部动画生成模块,用于根据N个动态FAP参数生成虚拟人物的面部动画。
基于第一方面所述的装置,可以根据虚拟人物的面部特征点生成与音素对应的包括N个静态FAP参数的视素,并根据生成的视素得到动态FAP参数,控制动态FAP参数生成人脸动画。由于将音素映射为包括N个静态FAP参数时,视素包括的静态FAP参数减少,进而降低了计算动态FAP参数时输入的静态FAP参数的数量。与现有方法相比,第一方面提供的装置可以基于较少的输入参数对动态FAP进行计算,降低了计算复杂度,使得基于第一方面提供的面部动画生成装置所实施的方法可适于在硬件资源受限或者计算能力较低的智能终端部署应用。
第二方面,提供了一种面部动画生成方法,该面部动画生成方法包括:识别目标音频数据,得到目标音频数据对应的多个音素;确定每个音素对应的视素;其中,音素对应的视素包括控制音素对应的发音动作的N个静态FAP参数;静态FAP参数对应面部特征点的位置信息,N为正整数;确定每个视素对应的N个动态FAP参数;根据N个动态FAP参数生成虚拟人物的面部动画。
基于第二方面所述的方法,可以根据虚拟人物的面部特征点生成与音素对应的包括N个静态FAP参数的视素,并根据生成的视素得到动态FAP参数,控制动态FAP参数生成人脸动画。由于将音素映射为包括静态FAP参数时,视素包括的静态FAP参数减少,进而降低了计算动态FAP参数时输入的静态FAP参数的数量。与现有方法相比,第二方面提供的方法可以基于较少的输入参数对动态FAP进行计算,降低了计算复杂度,使得基于第一方面提供的面部动画生成装置所实施的方法可适于在硬件资源受限或者计算能力较低的智能终端部署应用。
一种可能的设计,结合第一方面或第二方面,确定每个音素对应的视素可以包括:裁剪虚拟人物的面部特征点,根据裁剪后的面部特征点确定所述音素对应的视素。
基于该可能的设计,可以对原有标准中定义的人脸的面部特征点进行裁剪,根据裁剪后的面部特征点生成与音素对应的包括N个静态FAP参数的视素。由于面部特征点裁剪后,控制发音动作的面部特征点也随之减少,使得在将音素映射为包括静态FAP参数时,视素包括的静态FAP参数也减少,进而降低了根据静态FAP参数确定动态FAP参数的计算复杂度,以适于在硬件资源受限或者计算能力较低的智能终端部署面部生成动画应用。
一种可能的设计,结合第一方面或第二方面或第一方面的任一可能的设计或者第二方面的任一可能的设计,确定每个视素对应的N个动态FAP参数可以包括:将每个视素包括的N个静态FAP参数输入LSTM模型得到所述N个动态FAP参数。
基于该可能设计,可以采用LSTM模型生成动态FAP参数。因LSTM模型具有记忆功能,经过LSTM模型输出的动态FAP参数之间具有关联性,使得根据动态FAP参数生成的面部动画更加自然流畅,提高用户体验。
一种可能的设计中,结合第一方面或者第二方面或第一方面的任一可能的设计或者第二方面的任一可能的设计,LSTM模型包括与静态FAP参数对应的LSTM细胞,如:LSTM模型包括与N个静态FAP参数对应的N个LSTM细胞;每个LSTM细胞的输出包括动态FAP参数以及状态向量;对于N个LSTM细胞中的第n个LSTM细胞,n为大于或等于2的整数,第n个LSTM细胞的输入包括第n个静态FAP参数对应的面部特征点的位置信息、第n-1个LSTM细胞输出的动态FAP参数以及状态向量。
基于该可能的设计,可以将LSTM模型设计为包括N个LSTM细胞,并且相邻LSTM细胞间的输入、输出之间存在关联性,如此,可以使得前后两个FAP参数具有连贯性,使得根据具有连贯性的FAP参数生成的面部动画更加平滑、更加自然。
一种可能的设计中,结合第一方面或者第二方面或第一方面的任一可能的设计或者第二方面的任一可能的设计,每个LSTM细胞包括遗忘门,遗忘门的判决门限为第一阈值,第一阈值大于0小于1;若遗忘门的输出值小于或者等于第一阈值,则将遗忘门的输出值判定为0;若遗忘门的输出值大于第一阈值且小于1,则将遗忘门的输出值判定为1。
基于该可能的设计,可以通过将遗忘门的判决门限设置为小于1大于0的阈值,取值非常接近“1”的信息才视为有效信息,可以参与后续计算;取值在第一阈值附近以及小于第一阈值的这种模棱两可的状态信息全部抛弃。如此,可以将没有太大价值的临时状态信息进行筛选过滤,避免这部分没有太大价值的临时状态信息参与LSTM模型的计算所导致的对后续计算结果的准确率造成影响以及造成计算资源浪费的问题。
一种可能的设计中,结合第一方面或者第二方面或第一方面的任一可能的设计或者第二方面的任一可能的设计,预先设置第一阈值。
基于该可能的设计,可以将遗忘门的判决门限根据需要预先设置,如此,可以根据需要对该判断门限进行调整,使得适应当前应用环境的变化,使得输出的虚拟人物的面部动画更贴合用户需求。
一种可能的设计中,结合第一方面或者第二方面或第一方面的任一可能的设计或者第二方面的任一可能的设计,裁剪虚拟人物的面部特征点,包括:保留虚拟人物的面部特征点中,对虚拟人物的面部动画的影响程度大于第二阈值的面部特征点;删除虚拟人物的面部特征点中,对虚拟人物的面部动画的影响程度小于或等于第二阈值的面部特征点。
基于该可能的设计,可以对原有标准中定义的虚拟人物的面部特征点进行筛选,保留对虚拟人物的面部动画影响较大的面部特征点,删除对虚拟人物的面部动画影响较小,甚至无影响的面部特征点。如此,可以在保证虚拟人物的面部动画完整展示给用户的同时,删除对虚拟人物的面部动画影响较小,甚至无影响的面部特征点,减少面部动画生成的计算复杂度。
第三方面,提供了一种电子设备,该电子设备可以实现上述第二方面或者第二方面任一可能的设计所述的方法,所述方法可以通过硬件实现,如:一种可能的设计中,该电子设备可以包括:处理器。该处理器用于识别目标音频数据,得到目标音频数据对应的多个音素;确定每个音素对应的视素;其中,音素对应的视素包括控制音素对应的发音动作的N个静态FAP参数;静态FAP参数对应面部特征点的位置信息,N为正整数;确定每个视素对应的N个动态FAP参数;根据N个动态FAP参数生成虚拟人物的面部动画。在又一种可能的设计中,所述电子设备还可以包括存储器,所述存储器,用于保存电子设备必要的计算机执行指令和数据。当该电子设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使该电子设备执行如第二方面或者第二方面的任一种可能的设计所述的面部动画生成方法。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质可以为可读的非易失性存储介质,该计算机可读存储介质存储有计算机指令或者程序,当其在计算机上运行时,使得计算机执行上述第二方面或上述方面的任一种可能的设计所述的面部动画生成方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第二方面或者上述方面的任一种可能的设计所述的面部动画生成方法。
第六方面,提供了一种电子设备,该电子设备可以为电子设备或者电子设备中的芯片或者片上系统,该电子设备包括一个或者多个处理器以及和一个或多个存储器。所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得所述电子设备执行上述第二方面或第二方面的任一可能的设计的面部动画生成方法。
第七方面,提供了一种芯片系统,所述芯片系统包括一个或多个处理器和一个或多个存储器;一个或多个存储器与一个或多个处理器耦合,一个或多个存储器中存储有计算机程序代码或计算机指令;当一个或多个处理器执行所述计算机程序代码或计算机指令时,使得所述芯片系统执行上述第二方面或第二方面的任一可能的设计所述的面部动画生成方法。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供一种面部动画生成装置的组成示意图;
图2为本申请实施例提供又一种面部动画生成装置的组成示意图;
图3为本申请实施例提供的一种面部动画生成方法的流程图;
图4a为本申请实施例提供的面部特征点的示意图;
图4b为本申请实施例提供的面部特征点的又一示意图;
图5a为本申请实施例提供的一种LSTM模型的组成示意图;
图5b为本申请实施例提供的LSTM细胞的组成意图;
图5c为本申请实施例提供的LSTM模型包括的遗忘门的组成意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
目前,技术人员主要采用统计模型或神经网络模型进行统计计算或训练,从说话的音频码流中提取音素,并结合虚拟人面部形象定义控制音素对应的发音动作的静态视素。由统计模型或神经网络模型将音素和静态视素根据一定算法生成动态视素,统计模型或神经网络模型计算并输出一组与动态视素对应的FAP参数来驱动虚拟人物面部各个器官位置的变化,渲染显示虚拟人物的面部动画。
其中,动态图像专家组(Moving Pictures Experts Group,MPEG)定义了68个FAP参数,FAP参数数量较大。采用68个FAP参数控制虚拟人物的面部动画的生成过程较复杂,需要较大的计算资源,不适用于在计算能力较低的小型终端部署应用。
为降低面部动画生成算法的复杂度,本申请提供一种面部动画生成方法,该方法包括:对动态图像专家组(Moving Pictures Experts Group,MPEG)-4标准中定义的人脸的面部特征点进行裁剪,根据裁剪后的面部特征点生成与音素对应的视素,如:每个视素包括与面部特征点的位置信息对应的N个静态FAP参数;确定每个视素对应的N个动态FAP参数,控制N个动态FAP参数生成虚拟人物的人脸动画。
由于将视素对应的静态FAP参数控制为N个,视素包括的静态FAP参数的数量减少,计算动态FAP参数时输入的静态FAP参数的数量也随之降低。与现有技术相比,计算复杂度降低,因而本申请提供的面部动画生成方法适于在硬件资源受限的智能终端部署应用。
下面结合附图和具体实施方式对本申请进行详细说明。
首先,为了便于理解本申请实施例,对本申请涉及的技术术语进行描述:
视素,是指与某一音素相对应的可视发音器官(如:嘴、舌头、下腭等)所处的位置状态,本申请实施例所述的视素也可以成为静态视素,静态视素可以用动画表示,如:静态视素可以对应一组FAP参数。
FAP参数,可以用于描述人脸的特征和运动,称为面部动画特征参数。FAP参数是MPEG制定的人脸动画参数标记方法,目前MPEG定义了68个用于描述人脸各组织器官的基本动作。本申请实施例中,FAP参数可以包括静态FAP参数和动态FAP参数。静态FAP参数可以用于指示影响人脸面部运动的面部特征点的初始位置信息,静态FAP参数可以由MEPG-4规定,多个静态序列可以组成一组静态序列,该组静态序列中前后两个序列间可以具有相关性。动态FAP参数可以用来实时驱动虚拟人物(如:虚拟人或卡通形象)的面部动画。动态FAP参数可以对应人脸面部运动时面部特征点移动后的位置信息,动态FAP参数可以根据静态FAP参数得到,多个动态FAP参数可以组成一组动态序列。
长短期记忆(Long Short Term Memory,LSTM)模型,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,是一种特殊形式的递归神经网络(Recurrent Neural Network,RNN)模型。LSTM模型的基本原理是:在算法中加入了判断信息有用与否的"细胞(Cell)",一个Cell当中被放置了三扇门:做输入门、遗忘门和输出门,一个信息以及状态向量进入LSTM模型的Cell当中,可以根据规则来判断是否有用,只有符合算法认证的有用信息才会留下,不符的无效信息则通过遗忘门被遗忘,即该LSTM模型具有一定的“记忆能力”。基于LSTM模型可以使有用信息一直传递下去,对于那些有明显的上下文关联特征(或者关联关系)的序列化输入,可以更好地保证上下文特征的连贯性。
状态向量:可以用于表征LSTM细胞的状态,状态向量可以在输送带上从一个LSTM细胞的输入端到输出端,状态向量在输送过程中几乎是不变的,只有一些小的线性操作作用其上,状态向量几乎保持不变的从LSTM模型中LTSM细胞的输入端到输出端。
本申请实施例中,可以将静态FAP参数输入LSTM模型得到动态FAP参数,即将一组静态序列转化为具有上下文关联特征的一组动态序列,保证根据该组动态序列展示出的人脸面部动画的连贯性和自然性。其中,将静态FAP参数输入LSTM模型得到动态FAP参数的过程可以包括:首先将第1个静态FAP参数、状态向量输入到LSTM模型的第1个Cell当中,根据规则来选择忘记过去某些信息、记忆现在的某些信息,将过去与现在的记忆进行合并输出得到动态FAP参数;后续,将第1个Cell的输出、状态向量以及第2个FAP参数输入到LSTM模型的第1个Cell当中,根据规则来选择忘记过去某些信息、记忆现在的某些信息,将过去与现在的记忆进行合并输出得到动态FAP参数,以此类推,直至最后一个静态FAP参数转化为动态FAP参数。具体的,该过程可以参照下述步骤303中所述。
具体的,本申请实施例提供的面部动画生成方法可以应用于图1所示的面部动画生成装置,如图1所示,该面部动画生成装置可以包括音素识别模块101、音素视素映射模块102、FAP参数生成模块103以及面部动画生成模块104。该面部动画生成装置包括的各模块的连接关系可参照图1所示。
其中,音素识别模块101,可以用于识别目标音频数据,得到所述目标音频数据对应的多个音素。
具体的,音素识别模块101的执行可以参照步骤301所述。
音素视素映射模块102;可以确定每个音素对应的视素。如:音素视素映射模块102可以用于裁剪虚拟人物的面部特征点,根据裁剪后的面部特征点确定音素识别模块得到的每个音素对应的、包括控制音素对应的发音动作的N个静态FAP参数视素,静态FAP参数对应虚拟人物的面部特征点的位置信息,N为正整数,静态FAP参数对应的面部特征点包括在裁剪后的面部特征点中。
具体的,音素视素映射模块102的执行过程可参照下述步骤302a、步骤302b所述。
面部动画特征FAP参数生成模块103;可以用于确定每个视素对应的N个动态FAP参数,如:可以将所述音素视素映射模块得到的视素输入LSTM模型得到N个动态FAP参数。
具体的,FAP参数生成模块103的执行过程可参照步骤303所述。
面部动画生成模块104,可以用于根据所述FAP参数生成模块得到的N个动态FAP参数生成所述虚拟人物的面部动画。
具体的,面部动画生成模块104的执行过程可参照步骤304所述。
需要说明的是,图1仅为示例性附图,除图1所示模块之外,该装置还可以包括其他模块,如:还可以包括图2所示的全局控制模块以及其他模块等。此外,图1所示各模块的命名不予限制,还可以命名为其他功能模块等。
图2为本申请实施例提供的又一面部动画生成装置,如图2所述,该装置还可以包括:全局控制模块105。
其中,全局控制模块105可以控制音素识别模块101、音素视素映射模块102、FAP参数生成模块103以及面部动画生成模块104的开启/关闭。
全局控制模块105还可以控制模块之间的信息交互,如:控制音素识别模块101将识别得到的音素发送给音素视素映射模块102,控制音素视素映射模块102将生成的视素发送给FAP参数生成模块103,控制FAP参数生成模块103将生成的FAP参数发送给面部动画生成模块104。
其中,上述图1或图2所示装置可以部署在具有人机交互界面或者显示屏的电子设备中,如:可以部署/安装在智能终端中,也可以部署在手机(mobile phone)、平板电脑或带无线收发功能的电脑,或者,虚拟现实(virtual reality,VR)终端、增强现实(augmentedreality,AR)终端、工业控制中的终端、无人驾驶中的终端、远程医疗中的终端、智能电网中的终端、智慧城市(smart city)中的终端、智能家居、车载终端等,不予限制。
下面结合图1所示装置,描述本申请实施例提供的面部动画生成方法。
图3为本申请实施例提供的一种面部动画生成方法,该方法应用于图1或者图2所示装置。如图3所示,该方法可以包括步骤301-步骤304:
步骤301:识别目标音频数据,得到目标音频数据对应的多个音素。
其中,目标音频数据可以为由音频采集设备采集的说话人的音频数据、还可以为采用语音合成技术合成的音频数据,当然,目标音频数据还可为通过其它途径获得的音频数据,本实施例对音频数据的获取方式或获取途径不进行具体限定。
示例性的,目标音频数据可以为用户输入的一段音频数据,也可以为部署有该面部动画生成装置的电子设备响应于用户的提问,而待输出的包括答案一段音频数据等,不予限制。例如,该目标音频数据可以为音频数据“tian shang you bai yun,(天上有白云)”。
其中,音素(phoneme)可以是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个音素对应一个发音动作。如:汉语音节ā-啊只有一个音素,ài-爱有两个音素,bai-白有三个音素等。
示例性的,可以将目标音频数据拆分和标记成韵律单元,比如短语、从句和句子,向文字分配音素标音的过程被称为文本到音素或字素到音素转换,从该过程中可以识别出目标音频数据对应的音素。
步骤302:确定每个音素对应的视素。
其中,视素可以包括用于控制音素对应的发音动作的N个静态FAP参数;静态FAP参数对应虚拟人物的面部特征点的位置信息,N为正整数。
为降低计算复杂度,将每个视素包括的静态FAP参数的数量控制在比现有68个静态FAP参数少的范围内,步骤302具体可以包括如图3中所述的步骤302a和步骤302a:
步骤302a:裁剪虚拟人物的面部特征点。
其中,虚拟人物可以为显示在电子设备的显示屏上的、虚构出来的人物头像、面部等。虚拟人物的面部特征点可以包括现有MPEG-4规定的86个面部特征点,如:可以包括如图4a所示的虚拟人物的轮廓、额、脸、眉、耳、眼、等部位的面部特征点,也可以包括如4b所示的嘴部、鼻子、口内、含牙齿、舌头等对应的面部特征点。
其中,MPEG-4是动态图像专家组(Moving Pictures Experts Group,MEPG)的第4个版本,规定了一些具有交互性的动态图像标准,如:规定了影响人脸动画的86个面部特征点。MEPG-4主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800-64000比特/每秒(bits/s)之间,分辨率为176×144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。MPEG-4的特点是其更适于交互服务以及远程监控。MPEG-4被广泛应用于数字电视、交互式的图形应用(包括内容上的合成技术)、交互式多媒体领域等领域。
示例性的,裁剪虚拟人物的面部特征点可以包括:
保留虚拟人物的面部特征点中对虚拟人物的面部动画的影响程度大于第二阈值的面部特征点;删除虚拟人物的面部特征点中对虚拟人物的面部动画的影响程度小于或等于第二阈值的面部特征点。
其中,第二阈值可以根据需要进行设置,若面部特征点对虚拟人物的面部动画的影响程度大于第二阈值,则表示该面部特征点为表达该音频数据对应的面部表情的重要参数,不宜裁剪;若面部特征点对虚拟人物的面部动画的影响程度小于或等于第二阈值,则表示该面部特征点对表达该音频数据对应的面部表情举足轻重或者影响甚微,可以裁剪。
其中,面部特征点对虚拟人物的面部动画的影响程度可以由面部特征点在虚拟人物的面部动画中的移动频率来表征,面部特征点在虚拟人物的面部动画中的移动频率可以指面部特征点发生移动的次数。
示例性的,可以训练大量音素对应的虚拟人物的面部动画,若同一面部特征点在较多的面部动画中均发生位置移动,则确定面部特征点的移动频率较高,对虚拟人物的面部动画的影响程较大,反之,若同一面部特征点在较多的面部动画中均未发生位置变动,则确定面部特征点的移动频率较低,对虚拟人物的面部动画的影响程较小。例如,若某个面部特征点1在100个发音动作中均移动,而另外一个面部特征点2在该100个发音动作中位置几乎不变,则确定面部特征点1对虚拟人物的面部动画的影响程度较大,而面部特征点2对虚拟人物的面部动画的影响程度较小。
例如,下表一示出了MPEG-4定义的面部特征点以及裁剪后的面部特征点。如表一所示,眼神是人们表达传递情感的重要途径,其面部特征点不宜裁剪,保留MPEG-4定义的21个面部特征点。在说话期间,人们的鼻子动作变化幅度很小且对传递语言信息的效率和质量影响甚微,所以用于描述鼻子的部分特征点可以裁剪,如:裁减掉图4a中用于描述虚拟人物鼻子的9.3/9.4/9.5三个特征点,将鼻子处MPEG-4定义的11个面部特征点裁剪为8个面部特征点。人们在展现言语的口型动作时,嘴部区域通常是不闭合的,会露出口腔内的舌头和牙齿等器官,牙齿和舌头变化幅度很小,如:可以将图4b中用于描述牙齿(9.8/9.9/9.11)和用于描述舌头器官(6.1/6.3/6.4)的面部特征点裁剪掉,仅保留9.10和6.2两个特征点用于器官位置定位,即将口内MPEG-4定义的8个面部特征点裁剪为2个面部特征点。对于嘴巴的描述,考虑到在智能电视和智能手机上的应用不必像电影特效那样对嘴唇变化追求完美,本申请实施例可以裁减掉图4b中用于描述嘴巴的8.1/2.9/2.8/2.7/2.6五个特征点,即将嘴巴部位MPEG-4定义的18个面部特征点裁剪为15个面部特征点。在终端应用时虚拟人物耳朵的动画变化幅度基本可以忽略,如:图4a中描述耳朵的面部特征点10.1/10.2/10.3/10.4/10.5/10.6/10.7/10.8也可以裁掉,即将耳朵部位MPEG-4定义的8个面部特征点裁剪为2个面部特征点。如此,可以累计裁减掉虚拟人物的20个面部特征点,即将MPEG-4定义的86个面部特征点裁剪到66个。
表一
需要说明的是,本申请实施例不限定步骤301、步骤302a的执行顺序,可以如图3所示,先执行步骤301,再执行步骤302a;也可以先执行步骤302a、再执行步骤301;或者,可替换的,在执行图3所示方法之前,将裁剪后的面部特征点预先根据步骤302a设置好,执行图3所示方法时,可以在执行完步骤301之后,根据预先设置的裁剪后的面部特征点执行步骤302b,而无需执行步骤302a。
步骤302b:根据裁剪后的面部特征点确定每个音素对应的视素。
其中,步骤302b中所述的剪切后的面部特征点可以包括表一中所述的剪切后的66个面部特征点。
其中,每个音素对应的视素可以包括控制音素对应的发音动作的N个静态FAP参数,静态FAP参数可以为MPEG-4标准中对于面部和肢体动画的定义,静态FAP参数主要描述虚拟说话人的表情、情感以及发音等信息。由N个静态FAP参数值的变化牵引面部特征点位置的局部移动来综合形成该音素对应的发音动作,即形成该音素对应的面部表情的动态变化。一个静态FAP参数对应一个面部特征点的位置信息,N为正整数,静态FAP参数对应的面部特征点包括在裁剪后的面部特征点中。
例如,视素可以包括(x1,x2,x3,………xN),其中,xi表示静态FAP参数,每个静态FAP参数由一个面部特征点的位置信息表征。如:x1表示第1个面部特征点的位置信息,xN表示第N个面部特征点的位置信息等。其中,面部特征点的位置信息可以由三维坐标表示,不予限制。
其中,如下表三所示,假设根据裁剪后的面部特征点定义了58个控制虚拟人物的面部动画的FAP参数,则N的取值为58。
示例性的,根据裁剪后的面部特征点确定每个音素对应的视素可以包括:
从大量样本音频数据中提取梅尔倒谱系数(MelFrequency CepstralCoefficients,MFCC)或者滤波器组参数(Filter Bank,Fbank)等常见声学特征以及面部动画参数,然后使用隐马尔可夫模型(Hidden Markov Model,HMM)或者深度神经网络模型(Deep Neural Networks,DNN)建立声学特征与裁剪后的面部特征点对应的面部动画参数的映射关系;根据声学特征与面部动画参数的映射关系确定每个音素对应的视素。
由于本申请实施例将MPEG-4定义的86个面部特征点裁剪到66个,相应的,对于耳朵、眉毛、鼻子、牙齿、舌头和嘴唇等部位,用于控制面部特征点运动的FAP参数的数量也随之降低。
例如,如下表二所示,为MPEG-4原始定义的68个控制虚拟人物的面部动画的FAP参数,该68个FAP参数分为十组,由一组FAP参数值的变化牵引面部特征点位置的局部移动来综合形成面部表情的动态变化。如下表三所示,为根据裁剪后的面部特征点定义的58个控制虚拟人物的面部动画的FAP参数。相比表二与表三发现:控制眉毛运动的FAP参数由8个降低至6个;控制舌头和牙齿运动的FAP参数由5个降低至1个;控制鼻子运动的FAP参数由4个降低至2个;控制耳朵运动的FAP参数由4个降低至2个。至此,累计将FAP参数数量由68个降低至58个。
表二
表三
步骤303:确定每个视素对应的N个动态FAP参数。
示例性的,可以将每个视素包括的N个静态FAP参数输入LSTM模型得到N个动态FAP参数。
其中,LSTM模型可以用于对视素包括的静态FAP进行微调得到动态FAP参数。相比于现有LSTM模型,本申请实施所述LSTM模型输入的静态FAP参数的数量较少,因此,本申请实施例所述的LSTM模型还可以命名为LSTM剪枝压缩模型或者其他名称,不予限制。本申请实施例仅有LSTM模型为例进行描述。需要说明的是,本申请实施例所述的LSTM模型仅为示例性说明,可替换的,还可以将LSTM模型替换为DNN模型等其他具有生成动态FAP参数的模型,不予限制。
其中,LSTM模型可以包括与静态FAP参数对应的LSTM细胞。例如,如图5a所示,为LSTM模型的组成示意图,如图5a所示,该LSTM模型可以包括N个LSTM细胞(Cell):Cell-1~Cell-N,每个LSTM细胞的输出包括动态FAP参数以及状态向量;本申请实施例中,静态FAP参数可以用x代替。动态FAP参数可以用y代替,状态向量可以用s代替。
对于N个LSTM细胞中的第n个LSTM细胞,n为大于或等于2的整数,第n个LSTM细胞的输入包括第n个静态FAP参数对应的面部特征点的位置信息、第n-1个LSTM细胞输出的动态FAP参数以及状态向量。例如,第2个LSTM细胞的输入包括第2个静态FAP参数对应的面部特征点的位置信息、第1个LSTM细胞输出的动态FAP参数以及状态向量。类似的,第3个LSTM细胞、第4个LSTM细胞至第N个LSTM细胞中任一LSTM细胞的输入也可以包括该LSTM细胞的静态FAP参数对应的面部特征点的位置信息、以及该LSTM细胞相邻的上一LSTM细胞输出的动态FAP参数以及状态变量。
需要说明的是,本申请实施例中,第1个LSTM细胞的输入参数可以预先配置或者初始化配置,如:第1个LSTM细胞的输入参数可以初始化配置为包括{第1个静态FAP参数对应的面部特征点的位置信息,动态FAP参数=0,状态向量=x1},即第1个LSTM细胞的输入参数仅包括第1个静态FAP参数对应的面部特征点的位置信息以及状态向量x1,x1的取值可以根据需要进行设置,不予限制。
示例性的,可以给定一段足够长的视频(例如财新网主播16小时的对话视频),通过已知的“面部特征跟踪算法”和“基于实时因素识别的动态视素生成算法”,可以得到对应音素的一组静态FAP参数和一组动态FAP参数。将得到的静态FAP参数-动态FAP参数之间的参数取值关系制作成数据集,即成为已标记的训练数据集,根据该训练数据集训练生成LSTM模型。
其中,图5b为LSTM细胞的组成示意图,如图5b所示,每个LSTM细胞包括遗忘门,输入门以及输出门,输入门和遗忘门的激活函数为sigmoid函数,输出门的激活函数为tanh函数。其中,遗忘门的输入包括当前时刻的静态FAP参数x、前一时刻的状态向量s以及前一时刻输出的动态FAP参数y,静态FAP参数x、前一时刻的状态向量s以及前一时刻输出的动态FAP参数y经遗忘门的sigmoid函数、相乘计算后输出到输入门。遗忘门的输出经输入门的sigmoid函数、tanh函数、相乘、相加计算后输出到输出门。输出门对输入门的输出值进行sigmoid函数、相乘、tanh计算后输出动态FAP参数。具体的,遗忘门,输入门以及输出门的计算过程可参照现有技术,不予赘述。
其中,LSTM模型主要通过遗忘门决定应该从数据训练历史中丢弃什么信息,遗忘门会读取历史信息和当前信息,输出一个在0到1之间的数值,1表示该维度所携带的历史信息“完全保留”,0表示该维度所携带的历史信息“完全舍弃”。目前,遗忘门是通过激活函数实现的:给定一个输入值x,通过sigmoid激活函数变换得到一个值域在[0,1]之间的值。从一些学者的研究发现:很大一部分门的取值都在0.5附近,换句话说,LSTM模型中的门都处于一种模棱两可的“半开半关”的状态。这种现象与LSTM网络的设计有所出入,这些门并没有显式地控制信息的记忆与遗忘,而是以某种方式“记住”了部分无效的信息。因此现有的遗忘门计算方式存在状态信息无效,这部分没有无效的状态信息参与后续输入门、输出门的计算则会加重LSTM模型的计算负担以及对后续计算结果的准确率造成影响。
为此,本申请实施例中通过重新设置遗忘门的判决门限,压低遗忘门的判决门槛,将这些没有太大价值的临时状态信息进行筛选过滤,避免这部分没有太大价值的临时状态信息参与LSTM模型的计算所导致的对后续计算结果的准确率造成影响以及造成计算资源浪费的问题。
示例性的,本申请实施例中,将遗忘门的判决门限设置为第一阈值,第一阈值大于0小于1,若遗忘门的输出值小于或者等于第一阈值,则将遗忘门的输出值判定为0;若遗忘门的输出值大于第一阈值且小于1,则将遗忘门的输出值判定为1。如此,使得经过sigmoid函数运算后取值非常接近“1”的信息才视为有效信息,可以参与后续计算;取值在0.5附近这种模棱两可的状态信息全部抛弃。从数学运算上讲即置零操作。通过sigmoid函数的过滤减少了参与计算的门单元,即通过剔除无效门运算的方式降低了LSTM模型结构的复杂度。
其中,第一阈值可以是预先设置的,第一阈值的取值根据需要进行调整,是可调的。示例性的,第一阈值可以设置为0.5、或者0.8等。
下面结合图5c所示,以N为58,视素包括58个静态FAP参数,LSTM模型包括58个LSTM细胞,第n个LSTM细胞命名为Cell-n,如:58个LSTM细胞对应命名为Cell-1~Cell-58,静态FAP参数对应的面部特征性的位置信息为s,动态FAP参数为y,状态向量为x,LSTM模型的输出LSTM模型的输出包括58个动态FAP参数或者58个y,第一阈值为0.85,此阈值0.85为经验值可调整为例,对本申请实施例中,对LSTM模型中的58个遗忘门进行判断,并过滤掉无效和低效的遗忘门单元运算的过程进行说明,该过程可以包括下述步骤(a)~步骤(g):
步骤(a):LSTM模型初始化。Cell-1初始化,初始时刻状态s=0;y=0;x=x1。
其中,Cell-1表示第1个LSTM细胞,步骤(a)的意思为:初始化第1个LSTM细胞运算。
步骤(b):Cell-2接收x2、y1-(前一时刻)、s1-(前一时刻)作为输入,x2与y1-(前一时刻)运算并输出sigmoid变换后的结果,记为sig-2。
其中,Cell-2表示第2个LSTM细胞,步骤(b)的意思为:第2个LSTM细胞遗忘门运算。
步骤(c):if(sig-2<=0.85):sig-2=0;
else if(sig-2>0.85||sig-2<=1):sig-2=1。
其中,步骤(c)的意思为:判断sigmoid输出,如果取值不是非常接近1,则对sigmoid变换输出结果置“0”。此算法设定取值落在[0.0,0.85]之间输出均置0,表示遗忘所有信息。判断sigmoid输出,如果取值非常接近1,则对sigmoid变换输出结果置“1”。判断取值落在[0.85,1.0]之间的值均置1,即表示让信息全部通过,参与后续计算。
步骤(d):sig-2与s1-(前一时刻)进行向量乘法运算,结果参与后续输入门和输出门计算。
其中,步骤(d)的意思为:第2个LSTM细胞输入门、输出门运算。
步骤(e):输出y2和s2。
其中,步骤(e)的意思为:第2个LSTM细胞运算结果。
步骤(f):重复上述步骤b~e,直至最后一个LSTM细胞,即第58个LSTM细胞计算完成。
步骤(g):将输出的y1~y58存入向量y[0,2,...57],即动态视素FAP参数序列。
步骤304:根据动态FAP参数生成虚拟人物的面部动画。
其中,根据动态FAP参数生成虚拟人物的面部动画过程即为激活各面部特征点的坐标移动,从而实现以MPEG-4为标准的虚拟人说话系统的过程。该过程可参照现有技术中所述,不予赘述。
进一步的,可以将面部动画以及音频数据一起输出给用户。
基于图3所示方法,可以对原有标准中定义的人脸的面部特征点进行裁剪,根据裁剪后的面部特征点生成与音素对应的包括N个静态FAP参数的视素,并将生成的视素输入LSTM模型得到动态FAP参数,控制动态FAP参数生成人脸动画。由于面部特征点裁剪后,控制发音动作的面部特征点也随之减少,使得在将音素映射为包括静态FAP参数时,视素包括的静态FAP参数也减少,进而降低了LSTM模型输入的静态FAP参数的数量,与现有装置相比,图3所示方法可以使得LSTM模型基于较少的输入参数对动态FAP进行计算,降低了LSTM模型的计算复杂度,该方法可适于在硬件资源受限或者计算能力较低的智能终端部署应用。
下面采用16个小时的财新网中文主播视频,测试数据采用2个小时的财新中文主播视频,以Keras框架为实验平台,基于单图形处理器(Graphics Processing Unit,GPU)如:NVIDIA TITAN 12189MiB的计算硬件环境对本申请实施例提供的面部动画生成方法进行实验,与现有技术相比,得到本申请实施例提供的面部动画生成方法的准确率、参数压缩率、GPU占用率及其显存占用率、LSTM模型训练时间以及LSTM模型大小等评价指标:
(1)准确率
采用平均意见得分(Mean Opinion Score,MOS)评价机制对现有未压缩的LSTM模型训练得到动态FAP参数最终绘制出的虚拟人物的面部动画的MOS得分为3.42,采用MOS评价机制对经本申请实施例提出的一种面部动画生成模型输出的动态FAP参数,最终绘制出的虚拟人物的面部动画的MOS得分为3.50,与现有技术相比,主观评价得分有一定提升。
(2)FAP参数压缩率
本申请实施例提供的LSTM模型(或者称为LSTM剪枝压缩模块)输出的动态FAP参数的个数为58,而现有LSTM模型,即未压缩前的LSTM模型输出的动态参数个数为66,相比现有技术,本申请实施例的动态FAP参数压缩率为58/66=87.9%。
(3)GPU及其显存占用率
对本申请实施例提供的LSTM模型及现有LSTM模型分别经过5次训练,每30分钟间隔执行一次“nvidia-smi”命令并记录。对得到的GPU及显存占用率取平均值计算,得到如下表四所示本申请实施例提供的LSTM模型的GPU占用率及其显存占用、现有LSTM模型的GPU占用率及其显存占用。
表四
相比表四和表五,发现本申请实施例提供的LSTM模型的GPU占用率及其显存占用得到一定程度的优化提升。
(4)LSTM模型训练时间
本申请实施例提供的LSTM模型及现有LSTM模型分别经过5次训练,记录模型训练每次所需时间并进行平均值计算,得到下表五所示。由表五可知,本申请实施例提供的LSTM模型的训练时间得到一定程度的减少。
表五
(5)LSTM模型大小
面部特征点及FAP参数裁剪前LSTM模型的大小约75MB;面部特征点及FAP参数裁剪后LSTM模型的大小约50MB。模型磁盘(Flash ROM)物理空间占用压缩率为:50/75=66.7%。
由上述准确率、参数压缩率、GPU占用率及其显存占用率、LSTM模型训练时间以及LSTM模型大小等评价指标可知,本申请实施例提出的LSTM模型,在面部动画准确率保持良好的前提下,LSTM模型训练时间、对GPU资源的占用率、对显存的占用率、LSTM模型大小等方面均得到改善,更适用于在资源受限的智能终端(智能电视、智能手机)设备上部署应用。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请还提供了一种电子设备,该电子设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (16)
1.一种面部动画生成装置,其特征在于,包括:音素识别模块、音素视素映射模块、FAP参数生成模块以及面部动画生成模块;
所述音素识别模块,用于识别目标音频数据,得到所述目标音频数据对应的多个音素;
所述音素视素映射模块,用于确定每个音素对应的视素;其中,所述视素包括用于控制所述音素对应的发音动作的N个静态FAP参数;所述静态FAP参数对应虚拟人物的面部特征点的位置信息,所述N为正整数;
所述FAP参数生成模块,用于确定每个视素对应的N个动态FAP参数;
面部动画生成模块,用于根据所述N个动态FAP参数生成所述虚拟人物的面部动画。
2.根据权利要求1所述的面部动画生成装置,其特征在于,所述音素视素映射模块,具体用于:
裁剪虚拟人物的面部特征点,根据裁剪后的面部特征点确定所述音素对应的视素。
3.根据权利要求1或2所述的面部动画生成装置,其特征在于,所述FAP参数生成模块,具体用于:
将每个视素包括的N个静态FAP参数输入LSTM模型得到所述N个动态FAP参数。
4.根据权利要求3所述的面部动画生成装置,其特征在于,
所述LSTM模型包括与所述静态FAP参数对应的LSTM细胞。
5.根据权利要求3或4所述的面部动画生成装置,其特征在于,所述LSTM模型包括与所述N个静态FAP参数对应的N个LSTM细胞;
每个所述LSTM细胞的输出包括动态FAP参数以及状态向量;对于所述N个LSTM细胞中的第n个LSTM细胞,所述第n个LSTM细胞的输入包括第n个静态FAP参数对应的面部特征点的位置信息、第n-1个LSTM细胞输出的动态FAP参数以及状态向量,所述n为大于或等于2的整数。
6.根据权利要求3-5任一项所述的面部动画生成装置,其特征在于,
每个所述LSTM细胞包括遗忘门,所述遗忘门的判决门限为第一阈值,所述第一阈值大于0小于1;
若所述遗忘门的输出值小于或者等于第一阈值,则将所述遗忘门的输出值判定为0;若所述遗忘门的输出值大于所述第一阈值且小于1,则将所述遗忘门的输出值判定为1。
7.根据权利要求1-6任一项所述的面部动画生成装置,其特征在于,所述音素视素映射模块用于裁剪虚拟人物的面部特征点,包括:
保留所述虚拟人物的面部特征点中对所述虚拟人物的面部动画的影响程度大于第二阈值的面部特征点;
删除所述虚拟人物的面部特征点中对所述虚拟人物的面部动画的影响程度小于或等于第二阈值的面部特征点。
8.一种面部动画生成方法,其特征在于:所述面部动画生成方法包括:
识别目标音频数据,得到所述目标音频数据对应的多个音素;
确定每个音素对应的视素;其中,所述音素对应的视素包括用于控制所述音素对应的发音动作的N个静态FAP参数;所述静态FAP参数对应虚拟人物的面部特征点的位置信息,所述N为正整数;
确定每个视素对应的N个动态FAP参数;
根据所述N个动态FAP参数生成所述虚拟人物的面部动画。
9.根据权利要求8所述的面部动画生成方法,其特征在于,所述确定每个音素对应的视素,包括:
裁剪虚拟人物的面部特征点,根据裁剪后的面部特征点确定所述音素对应的视素。
10.根据权利要求8或9所述的面部动画生成方法,其特征在于,所述确定每个视素对应的N个动态FAP参数,包括:
将每个视素包括的N个静态FAP参数输入LSTM模型得到所述N个动态FAP参数。
11.根据权利要求10所述的面部动画生成方法,其特征在于,
所述LSTM模型包括与所述静态FAP参数对应的LSTM细胞。
12.根据权利要求10或11所述的面部动画生成方法,其特征在于,所述LSTM模型包括与所述N个静态FAP参数对应的N个LSTM细胞;
每个所述LSTM细胞的输出包括动态FAP参数以及状态向量;对于所述N个LSTM细胞中的第n个LSTM细胞,第n个LSTM细胞的输入包括第n个静态FAP参数对应的面部特征点的位置信息、第n-1个LSTM细胞输出的动态FAP参数以及状态向量,所述n为大于或者等于2的整数。
13.根据权利要求10-12任一项所述的面部动画生成方法,其特征在于,
每个所述LSTM细胞包括遗忘门,所述遗忘门的判决门限为第一阈值,所述第一阈值大于0小于1;
若所述遗忘门的输出值小于或者等于第一阈值,则将所述遗忘门的输出值判定为0;若所述遗忘门的输出值大于所述第一阈值且小于1,则将所述遗忘门的输出值判定为1。
14.根据权利要求8-13任一项所述的面部动画生成方法,其特征在于,所述裁剪虚拟人物的面部特征点,包括:
保留所述虚拟人物的面部特征点中,对所述虚拟人物的面部动画的影响程度大于第二阈值的面部特征点;
删除所述虚拟人物的面部特征点中,对所述虚拟人物的面部动画的影响程度小于或等于第二阈值的面部特征点。
15.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;所述一个或多个存储器与一个或多个处理器耦合,所述一个或多个存储器用于存储指令;当所述一个或多个处理器执行所述指令时,使得所述电子设备执行如权利要求8-14任一项所述的面部动画生成方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令或程序,当所述计算机指令或程序在计算机上运行时,使得所述计算机执行如权利要求8-14任一项所述的面部动画生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010144334.1A CN113362432B (zh) | 2020-03-04 | 2020-03-04 | 一种面部动画生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010144334.1A CN113362432B (zh) | 2020-03-04 | 2020-03-04 | 一种面部动画生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362432A true CN113362432A (zh) | 2021-09-07 |
CN113362432B CN113362432B (zh) | 2024-04-19 |
Family
ID=77523681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010144334.1A Active CN113362432B (zh) | 2020-03-04 | 2020-03-04 | 一种面部动画生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362432B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024027307A1 (zh) * | 2022-08-04 | 2024-02-08 | 腾讯科技(深圳)有限公司 | 口型动画生成方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826217A (zh) * | 2010-05-07 | 2010-09-08 | 上海交通大学 | 人脸动画快速生成方法 |
CN107004290A (zh) * | 2015-01-06 | 2017-08-01 | 索尼公司 | 效果生成装置、效果生成方法以及程序 |
CA2959862A1 (en) * | 2017-03-03 | 2018-09-03 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
CN110176284A (zh) * | 2019-05-21 | 2019-08-27 | 杭州师范大学 | 一种基于虚拟现实的言语失用症康复训练方法 |
CN110600018A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
-
2020
- 2020-03-04 CN CN202010144334.1A patent/CN113362432B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826217A (zh) * | 2010-05-07 | 2010-09-08 | 上海交通大学 | 人脸动画快速生成方法 |
CN107004290A (zh) * | 2015-01-06 | 2017-08-01 | 索尼公司 | 效果生成装置、效果生成方法以及程序 |
CA2959862A1 (en) * | 2017-03-03 | 2018-09-03 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
CN110176284A (zh) * | 2019-05-21 | 2019-08-27 | 杭州师范大学 | 一种基于虚拟现实的言语失用症康复训练方法 |
CN110600018A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
Non-Patent Citations (4)
Title |
---|
XU LI等: "Expressive Speech Driven Talking Avatar Synthesis with DBLSTM Using Limited Amount of Emotional Bimodal Data", 《INTERSPEECH 2016》, pages 1477 - 1480 * |
徐琳琳;张树美;赵俊莉;: "基于图像的面部表情识别方法综述", 计算机应用, no. 12 * |
李冰锋;谢磊;周祥增;付中华;张艳宁;: "实时语音驱动的虚拟说话人", 清华大学学报(自然科学版), vol. 51, no. 09, pages 1180 - 1186 * |
阳珊;樊博;谢磊;王丽娟;宋平;: "基于BLSTM-RNN的语音驱动逼真面部动画合成", 清华大学学报(自然科学版), no. 03 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024027307A1 (zh) * | 2022-08-04 | 2024-02-08 | 腾讯科技(深圳)有限公司 | 口型动画生成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113362432B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
CN111145282B (zh) | 虚拟形象合成方法、装置、电子设备和存储介质 | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
US8725507B2 (en) | Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices | |
CN113454708A (zh) | 语言学风格匹配代理 | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
EP3915108B1 (en) | Real-time generation of speech animation | |
GB2516965A (en) | Synthetic audiovisual storyteller | |
CN110751708A (zh) | 一种实时的语音驱动人脸动画的方法和系统 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN111459452A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
CN115662388A (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
JP2015038725A (ja) | 発話アニメーション生成装置、方法、及びプログラム | |
CN113362432B (zh) | 一种面部动画生成方法及装置 | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
KR100849027B1 (ko) | 음성 신호에 대한 립싱크 동기화 방법 및 장치 | |
CN110166844B (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
Verma et al. | Animating expressive faces across languages | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
D’alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
CN112992120A (zh) | 语音转换虚拟脸部图像的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |