CN117218249A - 动画生成方法、装置、设备、存储介质和产品 - Google Patents

动画生成方法、装置、设备、存储介质和产品 Download PDF

Info

Publication number
CN117218249A
CN117218249A CN202311049403.0A CN202311049403A CN117218249A CN 117218249 A CN117218249 A CN 117218249A CN 202311049403 A CN202311049403 A CN 202311049403A CN 117218249 A CN117218249 A CN 117218249A
Authority
CN
China
Prior art keywords
expression
time
key frame
intensity
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311049403.0A
Other languages
English (en)
Inventor
陈伟杰
陈长海
童妍钰
陈宇
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311049403.0A priority Critical patent/CN117218249A/zh
Publication of CN117218249A publication Critical patent/CN117218249A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种动画生成方法、装置、设备、存储介质和产品,属于计算机视觉技术领域。方法包括:获取多个音频片段和多个音频片段分别对应的表情制备参数,表情制备参数用于指示音频片段对应的表情、表情的变化时间和变化方式;对于每个音频片段,基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段,表情片段中的表情在变化时间内按照表情的变化方式变化;融合多个音频片段和多个音频片段各自对应的表情片段,得到表情动画。该方法通过一个表情帧自动生成了多个表情帧中的表情,而无需对多个表情帧分别制作表情,省时省力,提高了动画中表情的制作效率,进而提高了动画的生成效率。

Description

动画生成方法、装置、设备、存储介质和产品
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种动画生成方法、装置、设备、存储介质和产品。
背景技术
随着计算机视觉技术领域的发展,在生成三维的动画时,为了展示更真实的动画效果,往往会为动画中的人物制作表情。
相关技术中,在制作表情时,一般是对动画中的多个表情帧逐帧分别制作表情。而由于动画的复杂程度不同,一段5秒的表情动画往往需要花费一周或更长的时间来制作,费时费力,进而降低了动画的生成效率。
发明内容
本申请实施例提供了一种动画生成方法、装置、设备、存储介质和产品,提高了动画的生成效率。所述技术方案如下:
一方面,提供了一种动画生成方法,所述方法包括:
获取多个音频片段和所述多个音频片段分别对应的表情制备参数,所述表情制备参数用于指示音频片段对应的表情、所述表情的变化时间和变化方式;
对于每个音频片段,基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内按照所述表情的变化方式变化;
融合所述多个音频片段和所述多个音频片段各自对应的表情片段,得到表情动画。
另一方面,提供了一种动画生成装置,所述装置包括:
获取模块,用于获取多个音频片段和所述多个音频片段分别对应的表情制备参数,所述表情制备参数用于指示音频片段对应的表情、所述表情的变化时间和变化方式;
生成模块,用于对于每个音频片段,基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内按照所述表情的变化方式变化;
融合模块,用于融合所述多个音频片段和所述多个音频片段各自对应的表情片段,得到表情动画。
在一些实施例中,所述表情的变化方式用于指示基于参考表情强度值对表情进行变化,所述生成模块,用于:
基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内基于所述参考表情强度值发生表情强度值的变化。
在一些实施例中,所述变化时间包括第一关键帧时刻和第二关键帧时刻,所述第一关键帧时刻为表情开始变化的时刻,所述第二关键帧时刻为表情结束变化的时刻,所述生成模块,用于:
确定所述表情对应的强度上升时长和强度下降时长;
基于所述第一关键帧时刻、所述第二关键帧时刻、所述强度上升时长、所述强度下降时长和所述参考表情强度值,确定所述变化时间包括的多个时刻对应的表情强度值;
基于所述表情和所述多个时刻对应的表情强度值,生成所述音频片段对应的表情片段。
在一些实施例中,所述生成模块,用于:
基于所述第一关键帧时刻和所述强度上升时长,确定第三关键帧时刻,基于所述第二关键帧时刻和所述强度下降时长,确定第四关键帧时刻,所述第三关键帧时刻为表情结束上升的时刻,所述第四关键帧时刻为表情开始下降的时刻;
基于所述参考表情强度值,确定所述第一关键帧时刻、所述第二关键帧时刻、所述第三关键帧时刻和所述第四关键帧时刻分别对应的表情强度值;
基于所述变化时间包括的第一时刻分别对应的表情强度值,对所述变化时间包括的第二时刻进行表情强度值的插值,得到所述第二时刻对应的表情强度值,所述第一时刻包括第一关键帧时刻、所述第二关键帧时刻、所述第三关键帧时刻和所述第四关键帧时刻,所述第二时刻为所述第一时刻以外的时刻。
在一些实施例中,所述生成模块,用于:
在所述表情不存在表情突变的情况下,将所述第一关键帧时刻与所述强度上升时长之间的和值作为所述第三关键帧时刻,将所述第二关键帧时刻与所述强度下降时长之间的差值作为所述第四关键帧时刻;
在所述表情存在表情突变的情况下,将所述差值与所述和值的中间时刻作为所述第四关键帧时刻,将所述中间时刻的前一时刻与所述第一关键帧时刻中的最大值作为所述第三关键帧时刻。
在一些实施例中,所述生成模块,用于:
确定所述表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值,所述相邻表情为所述表情动画中所述表情的前一表情;
在所述差值大于参考阈值的情况下,将所述表情的第一关键帧时刻和第二关键帧时刻的表情强度值确定为零值,将所述表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为所述参考表情强度值。
在一些实施例中,所述生成模块还用于:
在所述差值不大于所述参考阈值的情况下,确定第一差值和第二差值之商,得到强度变化速度,所述第一差值为所述表情对应的参考表情强度值与所述相邻表情对应的参考表情强度值之间的差值,所述第二差值为所述表情的第三关键帧时刻与所述相邻表情的第四关键帧时刻之间的差值;
基于所述强度变化速度、所述相邻表情的第二关键帧时刻、所述相邻表情的第四关键帧时刻和所述相邻表情的第四关键帧时刻的表情强度值,确定强度调整值,将所述相邻表情的第二关键帧时刻的表情强度值调整为所述强度调整值;
基于所述强度变化速度、所述表情的第一关键帧时刻、所述相邻表情的第四关键帧时刻和所述相邻表情的第四关键帧时刻的表情强度值,确定所述表情的第一关键帧时刻的表情强度值;
将所述表情的第二关键帧时刻的表情强度值确定为零值,将所述表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为所述参考表情强度值。
在一些实施例中,所述生成模块,用于:
获取参考上限时长、参考下限时长和所述参考表情强度值对应的权重;
确定所述参考上限时长与所述参考下限时长之间的差值;
确定所述差值与所述权重之间的积;
确定所述积与所述参考下限时长之间的和值,将所述和值作为所述强度上升时长,将所述和值作为所述强度下降时长。
在一些实施例中,所述生成模块,用于:
基于所述表情和所述多个时刻对应的表情强度值,生成多个表情帧;
基于所述多个表情帧,生成所述音频片段对应的表情片段。
在一些实施例中,每个音频片段的表情制备参数包括表情标识,所述表情标识用于指示所述音频片段对应的表情,所述获取模块还用于:
对于每个音频片段,基于所述音频片段的表情制备参数所包括的表情标识,从多个候选表情中获取所述表情标识所标识的表情,以得到所述音频片段对应的表情。
在一些实施例中,所述获取模块还用于:
获取多个表情活动单元,所述多个表情活动单元用于指示面部表情中不同部位的不同活动程度;
组合至少两个表情活动单元,得到一个候选表情;或者,对任一个表情活动单元进行调整,得到一个候选表情。
在一些实施例中,所述融合模块,用于:
对于每个音频片段,融合所述音频片段和所述音频片段对应的表情片段,得到所述音频片段对应的动画片段;
拼接所述多个音频片段各自对应的动画片段,得到所述表情动画。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序,所述至少一段程序由所述处理器加载并执行以实现本申请实施例中的动画生成方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现本申请实施例中的动画生成方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行上述任一实现方式所述的动画生成方法。
本申请实施例提供了一种动画生成方法,该方法对于每个音频片段,基于该音频片段对应的表情以及表情的变化时间和变化方式,在变化时间内,生成了表情按照变化方式变化的表情片段,即得到了音频片段对应的表情片段。该方法实现了将静态的一帧表情拓展为一段表情片段,即通过一个表情帧自动生成了多个表情帧中的表情,而无需对多个表情帧分别制作表情,省时省力,提高了动画中表情的制作效率,进而提高了动画的生成效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种动画生成方法的流程图;
图3是本申请实施例提供的另一种动画生成方法的流程图;
图4是本申请实施例提供的一种多个表情活动单元的示意图;
图5是本申请实施例提供的一种表情制备界面的示意图;
图6是本申请实施例提供的一种数据导入界面的示意图;
图7是本申请实施例提供的一种表情动画制备界面的示意图;
图8是本申请实施例提供的一种表情动画制备的流程图;
图9是本申请实施例提供的一种确定表情强度值的流程图;
图10是本申请实施例提供的一种组合多种动画的示意图;
图11是本申请实施例提供的一种驱动数据的示意图;
图12是本申请实施例提供的另一种动画生成方法的流程图;
图13是本申请实施例提供的一种动画生成装置的框图;
图14是本申请实施例提供的一种终端的框图;
图15是本申请实施例提供的一种服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的音频片段、表情制备参数等都是在充分授权的情况下获取的。
以下,对本申请涉及的专业术语进行介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实与地图构建等技术。
以下,对本申请涉及的实施环境进行介绍:
本申请实施例提供的动画生成方法,能够由计算机设备执行,该计算机设备为终端和服务器中的至少一项。下面介绍一下本申请实施例提供的动画生成方法的实施环境示意图。
参见图1,图1是本申请实施例提供的一种动画生成方法的实施环境的示意图,该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,终端101上安装有动画制作平台的应用程序,该动画制作平台用于制作三维动画。例如,该动画制作平台可以用于制作表情动画。服务器102用于为动画制作平台提供后台服务。
在一些实施例中,终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器、VR(Virtual Reality,虚拟现实)装置、AR(Augmented Reality,增强现实)装置等,但并不限于此。在一些实施例中,服务器102是独立的服务器也能够是多个服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中,服务器102主要承担计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算服务,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。
参见图2,图2是本申请实施例提供的一种动画生成方法的流程图,该方法包括以下步骤。
201、计算机设备获取多个音频片段和多个音频片段分别对应的表情制备参数,表情制备参数用于指示音频片段对应的表情、表情的变化时间和变化方式。
在本申请实施例中,多个音频片段为一条音频数据中的多个音频片段。相应地,计算机设备为该条音频数据生成对应的表情动画。或者,多个音频片段来源于不同的音频数据,在此不作具体限定。
在本申请实施例中,表情的变化时间包括表情变化的起止时间。表情变化的起止时间可以为音频片段的起止时间,即变化时间对应的时段为音频片段对应的时段。变化时间对应的时段也可以为音频片段对应的时段中的部分时段,如为音频片段对应的时段的中心时段。进一步地,音频片段对应的时段中,变化时间对应的部分时段以外的时段对应的表情为中性表情,中性表情的表情强度值为零值,中性表情未发生表情变化。
在本申请实施例中,每个音频片段可以对应至少一个表情。每个表情分别对应一个变化时间和变化方式。相应地,若一个音频片段对应多个表情,则变化时间对应的时段为音频片段对应的时段中的部分时段。
202、计算机设备对于每个音频片段,基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段,表情片段中的表情在变化时间内按照表情的变化方式变化。
在本申请实施例中,表情片段中的表情为表情制备参数所指示的音频片段对应的表情。
在本申请实施例中,计算机设备对多个音频片段同步进行处理;或者,计算机设备基于多个音频片段的时间先后顺序,依次对多个音频片段进行处理。
203、计算机设备融合多个音频片段和多个音频片段各自对应的表情片段,得到表情动画。
在本申请实施例中,计算机设备将音频片段和表情片段进行音视频的合成,得到包括声音和画面的表情动画。
本申请实施例提供了一种动画生成方法,该方法对于每个音频片段,基于音频片段对应的表情以及表情的变化时间和变化方式,在变化时间内,生成了表情按照变化方式变化的表情片段,即得到了音频片段对应的表情片段。该方法实现了将静态的一帧表情拓展为一段表情片段,即通过一个表情帧自动生成了多个表情帧中的表情,而无需对多个表情帧分别制作表情,省时省力,提高了动画中表情的制作效率,进而提高了动画的生成效率。
上述基于图2的实施例对动画生成过程进行了简要介绍,下面基于图3的实施例对动画生成过程进行进一步介绍。参见图3,图3是本申请实施例提供的一种动画生成方法的流程图,该方法包括以下步骤。
301、计算机设备获取多个音频片段和多个音频片段分别对应的表情制备参数,表情制备参数包括表情标识,表情标识用于指示音频片段对应的表情,且表情制备参数用于指示表情的变化时间和变化方式,变化方式用于指示基于参考表情强度值对表情进行变化。
在本申请实施例中,变化时间包括第一关键帧时刻和第二关键帧时刻,第一关键帧时刻为表情开始变化的时刻,第二关键帧时刻为表情结束变化的时刻,即分别为变化时间的起止时间。
在本申请实施例中,第一关键帧时刻为第二关键帧时刻之前的时刻。第一关键帧时刻和第二关键帧时刻之间的时间区间对应一个表情区间。一个音频片段可以对应至少一个表情区间。
在本申请实施例中,表情变化指表情强度值发生变化。表情强度值用于指示表情的剧烈程度。进一步地,表情强度值为表情距离中性表情的相对程度,表情强度值越大,表示表情的剧烈程度越大,即距离中性表情的相对程度越大。参考表情强度值为表情变化所能达到的最大表情强度值。
在一些实施例中,表情强度值在变化时间内先增大后减小。相应地,第一关键帧时刻和第二关键帧时刻分别为表情开始上升的时刻和结束下降的时刻。表情上升指表情强度值增大,表情下降指表情强度值减小。
在本申请实施例中,表情标识用于标识表情,表情标识可以为表情的名称、表情的编号等。在本申请实施例中,以表情标识为表情的名称为例进行说明。如表情标识可以为开心、惊讶等。
302、计算机设备对于每个音频片段,基于音频片段的表情制备参数所包括的表情标识,从多个候选表情中获取表情标识所标识的表情,以得到音频片段对应的表情。
在本申请实施例中,多个候选表情的生成过程,包括以下步骤:计算机设备获取多个表情活动单元,多个表情活动单元用于指示面部表情中不同部位的不同活动程度。计算机设备组合至少两个表情活动单元,得到一个候选表情。或者,计算机设备对任一个表情活动单元进行调整,得到一个候选表情。或者,计算机设备组合至少两个表情活动单元,对组合单元进行调整,得到一个候选表情。或者,计算机设备对至少一个表情活动单元分别进行调整,得到调整后至少一个表情活动单元,组合调整后的至少一个表情活动单元,得到一个候选表情。或者,计算机设备直接将一个表情活动单元作为一个候选表情。在该实施例中,通过上述多种实现方式生成候选表情,提高了生成候选表情的灵活性,进而提高了候选表情的多样性。
在本申请实施例中,候选表情为自定义表情,相应地,候选表情不仅可以基于表情活动单元得到,候选表情还可以为用户自定义制作的表情,在此不作具体限定。
在本申请实施例中,表情活动单元可以独立地被进行分析和识别,通常被用作面部表情识别系统的基本组成部分。表情活动单元可以为AU(Action Units,活动单元),也可以为Arkit(一种表情活动单元),还可以为自定义制备的表情活动单元,在此不作具体限定。在本申请实施例中以表情活动单元为AU为例进行说明,AU是根据单块或一组肌肉的基本运动得到的基础模型,通过AU的不同组合可以得到不同的人脸表情。例如,参见图4,图4是本申请实施例提供的一种多个表情活动单元的示意图。其中,多个表情活动单元分别用于指示不同部位的不同表情表现。
在一些实施例中,计算机设备通过美术插件来生成候选表情。其中,美术插件可以导入用户数字人的BS(Blend shapes,混合形状)数据。Blend shapes是一种在三维动画中用于插值不同几何形状的技术。例如,在面部动画中,Blend shapes用于在表情之间进行转换,如从中性表情转换为微笑或皱眉。BS数据包括基础网格和目标网格的数据,多个网格用于构成三维人脸形状,通过控制多个网格的位移来变换人脸表情。基础网格和目标网格分别为表情变换前后对应的网格。BS数据可以为AU数据,也可以自定义的BS数据。进一步地,美术插件还提供控制器面板,以通过控制器编辑的方法制作候选表情,并导出候选表情的数据。例如,通过该控制器面板,可以将至少一个表情活动单元进行线性组合,得到一个候选表情。
其中,面部表情中的部位包括眼睛、嘴巴、眉毛等。组合多个表情活动单元指控制多个表情活动单元的权重,对多个表情活动单元进行组合,使得基于多个表情活动单元得到的候选表情中任一部位对应的权重和值为1。进一步地,由于部位由三维网格组成,候选表情中的任一部位对应的网格的权重和值为1。可选地,本申请实施例提供的方法还支持对表情活动单元的权重掩码。相应地,可以按照全脸、上半脸、下半脸、眉毛等区域进行局部控制。例如,在制作眉毛动画时,则可以对眉毛以外的其他区域的表情活动单元进行权重掩码。可选地,权重掩码指将表情活动单元的权重赋值为零值。
例如,参见图5,图5是本申请实施例提供的一种表情制备界面的示意图。其中,表情制备界面显示有控制器面板501,控制器面板501上显示有多个表情活动单元的选择控件5011和表情编辑区域5012。进一步地,表情制备界面还显示有数据处理区域502,用于将所制备的候选表情进行保存或删除等。
本申请实施例提供的方法可以应用于数字人技术领域,用于制作数字人的表情动画。相应地,计算机设备通过动画制作平台制作表情动画,则动画制作平台可以为数字人口型及表情AI驱动技术平台。动画制作平台可以批量导入多个候选表情的数据,也可以一个个地导入候选表情的数据。计算机设备从导入的多个候选表情中获取表情标识对应的表情。例如,候选表情的数据可以批量导入至数字人口型及表情AI驱动技术平台。候选表情的数据导入至平台后,用户即可以用新的候选表情标注数字人的音频轨,对应音频片段数字人将表现出候选表情的表情动画效果。例如,参见图6,图6是本申请实施例提供的一种数据导入界面的示意图。其中,数据导入界面包括第一导入控件601和第二导入控件602,分别用于单独导入候选表情的数据和批量导入候选表情的数据。且数据导入界面还包括删除控件,用于删除对所导入的数据。
在一些实施例中,计算机设备通过表情动画制备界面生成表情动画。表情动画制备界面上显示有多个表情片段。响应于对任一音频片段的选择操作,计算机设备确定待制备表情的音频片段。或者,表情制备界面上显示有音频数据的进度条,响应于对音频数据中一定时长的片段的选择操作,确定待制备表情的音频片段。进一步地,将音频片段的起止时间作为表情的变化时间,即通过音频片段的选择得到表情的变化时间。
在一些实施例中,表情制备界面上显示有多个表情标识,响应于对任一表情标识的选择操作,计算机设备确定音频片段对应的表情标识,然后获取表情标识所标识的表情。例如,参见图7,图7是本申请实施例提供的一种表情动画制作界面的示意图。其中,表情动画制备界面上显示有音频轨和标注轨,音频轨用于选择音频片段,且显示音频片段的起止时间。标注轨用于为音频片段生成表情片段,且显示表情标识和表情强度值。可选地,表情动画制备界面上显示有音频导入控件和制备参数导入控件,分别用于导入音频数据和表情制备参数。可选地,表情制备界面上还显示有文本轨,用于显示音频数据对应的文本。
例如,参见图8,图8是本申请实施例提供的一种表情动画制备的流程图。其中,先通过美术插件制作自定义表情,自定义表情即候选表情。然后将自定义表情的数据以JSON(JavaScript Object Notation,JS对象简谱)数据的格式导出。最后将自定义表情数据导入到数字人口型及表情AI驱动技术平台,通过表情VHML(Virtual Human MarkupLanguage,虚拟人的标记语言)工具对音频数据进行表情标注。
在该实施例中,以表情制备参数携带表情标识为例进行了说明,由于事先制作了多个候选表情,这样通过表情标识获取候选表情,降低了表情制备参数的数据携带量,且能够便捷快速地获取到表情。在另一些实施例中,表情制备参数直接携带音频片段对应表情,以避免基于表情标识获取表情的过程,从而可提高基于表情生成表情片段的效率。
303、计算机设备确定表情对应的强度上升时长和强度下降时长。
在本申请实施例中,强度上升时长指表情强度值增大的时长,强度下降时长指表情强度值减小的时长。
在本申请实施例中,计算机设备确定表情对应的强度上升时长和强度下降时长的过程,包括以下步骤:计算机设备获取参考上限时长、参考下限时长和参考表情强度值对应的权重;确定参考上限时长与参考下限时长之间的差值;确定差值与权重之间的积;确定积与参考下限时长之间的和值,将和值作为强度上升时长,将和值作为强度下降时长。
在本申请实施例中,计算机设备获取时长参考范围,时长参考范围的上限和下限分别为参考上限时长和参考下限时长。时长参考范围可以根据需要进行设定并更改。例如,时长参考范围为[1,1.5]秒,相应地,参考上限时长为1.5秒,参考下限时长为1秒。时长参考范围基于人脸情绪波动经验得到。
在一些实施例中,表情制备参数包括参考表情强度值对应的权重。在另一些实施例中,表情制备参数包括组合成表情的多个表情活动单元各自的表情强度值和权重。计算机设备将多个表情活动单元中表情强度值最大的表情活动单元的权重作为参考表情强度值对应的权重。
在该实施例中,根据人脸情绪波动经验和实际的最大表情强度值,获得实际的强度上升时长和强度下降时长,保证了所确定的强度上升时长和强度下降时长的合理性与真实性。
304、计算机设备基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值,变化时间包括第一关键帧时刻和第二关键帧时刻。
在本申请实施例中,上述计算机设备基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值,变化时间包括第一关键帧时刻和第二关键帧时刻的过程,参见图9所示的实施例,在此不再赘述。
305、计算机设备基于表情和多个时刻对应的表情强度值,生成音频片段对应的表情片段。
在一些实施例中,计算机设备基于表情和多个时刻对应的表情强度值,生成音频片段对应的表情片段的过程,包括以下步骤:计算机设备基于表情和多个时刻对应的表情强度值,生成多个表情帧;计算机设备基于多个表情帧,生成音频片段对应的表情片段。
其中,多个表情帧对应多个时刻。每个时刻的表情帧包括的表情具有该时刻对应的表情强度值。相应地,计算机设备按照多个表情帧各自对应的时刻,将多个表情帧按照时间先后顺序拼接,得到表情片段。
在本申请实施例中,通过上述步骤303-305实现了计算机设备基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段的过程。在该实施例中,先确定了强度上升时长和强度下降时长,然后确定多个时刻对应的表情强度值,使得可以按照表情先上升后下降的趋势准确得到多个时刻对应的表情强度值。然后基于多个时刻的强度值得到表情片段,使得表情片段按照表情先上升后下降的方式变化,实现了表情的渐变效果,提高了所得到的表情片段的真实性与准确性。
需要说明的是,上述步骤303-305仅为实现基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段的过程的一种可选地实现方式,计算机设备还可以通过其他可选地实现方式实现该过程。例如,计算机设备确定参考表情强度值与变化时间的二分之一之商,得到强度变化速度。将第一关键帧时刻和第二关键帧时刻的表情强度值确定为零值,将第一关键帧时刻和第二关键帧时刻的中间时刻的表情强度值确定为参考表情强度值。对于第一关键帧时刻和中间时刻的时刻,将该时刻与第一关键帧时刻之间的差值与强度变化速度乘积作为该时刻的表情强度值。对于第二关键帧时刻和中间时刻的时刻,将该时刻与第二关键帧时刻之间的差值与强度变化速度乘积作为该时刻的表情强度值,进而得到多个时刻对应的多个表情帧,基于多个表情帧得到表情片段,该实现方式提高了生成表情片段的效率。
306、计算机设备对于每个音频片段,融合音频片段和音频片段对应的表情片段,得到音频片段对应的动画片段。
在一些实施例中,计算机设备通过音视频合成工具融合音频片段和表情片段,得到动画片段。动画片段包括声音和画面。
在本申请实施例中,计算机设备可以得到多个音频片段各自对应的表情片段后,依次融合每个音频片段和每个音频片段对应的表情片段,得到每个音频片段对应的动画片段。计算机设备也可以得到一个音频片段的表情片段后,即融合该音频片段和该音频片段对应的表情片段,得到该音频片段对应的动画片段。
在一些实施例中,计算机设备获取动画片段后,还基于音频片段获取该音频片段对应的口型动画、眉毛动画和眨眼动画等,与该动画片段对应的表情动画进行组合加权和冲突处理,以得到生动自然的人脸动画。可选地,对多个动画进行组合加权指将多个动画进行叠加,以得到组合动画。对多个动画进行冲突处理指以口型动画、眉毛动画和眨眼动画为基准,调整表情动画,以使表情动画中部位的动作与口型动画、眉毛动画和眨眼动画相匹配。例如,口型动画中的嘴巴为嘟嘴动作,而表情动画中的嘴巴为微笑动作,则需要调整表情动画中嘴巴的动作,以使表情动画与口型动画相匹配。例如,参见图10,图10是本申请实施例提供的一种组合多种动画的示意图。
307、计算机设备拼接多个音频片段各自对应的动画片段,得到表情动画。
在一些实施例中,计算机设备按照多个音频片段的时间先后顺序拼接多个音频片段各自对应的动画片段,得到表情动画。可选地,多个音频片段的时间先后顺序指多个音频片段在音频数据中的时间先后顺序。或者,多个音频片段并不是一条音频数据的音频片段,则计算机设备基于事先为多个音频片段设置的排列顺序,拼接多个音频片段各自对应的动画片段,得到表情动画。
在本申请实施例中,通过上述步骤306-307实现了融合多个音频片段和多个音频片段各自对应的表情片段,得到表情动画的过程。在该实施例中,先融合每个音频片段和每个音频片段对应的表情片段,可以得到多个动画片段;然后再拼接多个动画片段得到表情动画,可实现对多个片段的准确有效融合,避免了音频片段和表情片段的错位。
在一些实施例中,通过表情动画制备界面生成任一动画片段后,还可以通过表情动画制备界面显示的播放控件,播放所生成的动画片段,实现对动画片段的预览。可选地,计算机设备在生成表情动画后,还生成表情的标注数据,用于指示表情的变化时间和参考表情强度值等参数。例如,继续参见图7,表情制备界面上显示有标注数据701,且表情制备界面上还显示有标注数据的复制控件和下载控件,分别用于复制和下载标注数据。
在一些实施例中,计算机设备在生成表情动画后,还生成表情动画的驱动数据,该数据可以应用于多种软件,用于驱动动画中人物的表情和口型。进一步地,若动画中的人物为数字人,则驱动数据用于驱动数字人的表情和口型。其中,驱动数据包括组成表情的多个表情活动单元各自的权重。例如,参见图11,图11是本申请实施例提供的一种驱动数据的示意图。其中,多个表情活动单元分别对应左眼看、右眼看、眉内向下,眉内向左等,在此不再一一赘述。
例如,参见图12,图12是本申请实施例提供的一种动画生成方法的流程图。其中,输入的数据包括多个音频片段的音频数据和多个音频片段分别对应的表情制备参数。然后对多个音频片段进行逐片段的表情动画生成。其中,先确定表情的渐变时长,渐变时长包括强度上升时长和强度下降时长。然后获取表情关键帧时刻,若发生表情突变则进行关键帧时刻的调整。然后获取表情关键帧时刻的表情强度值,若发生表情突变则进行表情强度值的调整。得到关键帧时刻的表情强度值之后,对变化时间内的多个时刻进行插值,得到多个时刻的表情强度值,进而得到多个时刻的多个表情帧,得到该音频片段对应的表情片段。然后判断是否还存在未处理的剩余音频片段,在存在的情况下,重复上述过程。在不存在的情况下,进行片段融合,得到表情动画并输出。
本申请实施例提供了一种在动画中快捷地生成自定义表情的方法,美术师仅需根据BS标准事先制备若干个单个自定义表情的表情帧,动画制作的相关人员再使用程序化生成方法生成可以任意调整时间区间的表情动画,进而可提高动画生成效率,且生成的表情动画也可以跟AI口型很好地耦合在一起。
在本申请实施例中,可以导出用户制作的自定义表情,即候选表情,存储为JSON标准格式,使得多个候选表情可以复用,提高了候选表情的利用率。并且,本申请实施例提供的自定义表情动画采用程序化生成方法,因此可以随意控制表情时间的长度。相应地,可以通过修改表情制备参数自上而下地修改动画效果,而无需进行一个个骨骼和动画轨的修改,提高了灵活性和效率。
在本申请实施例中,通过对多个基础的表情活动单元进行组合或调整来得到单个自定义表情,然后使用音频数据和表情制备参数作为输入,将静态表情生成为一个表情动画片段,极大减少了表情动画编辑的时间成本和人力成本。进一步地,若该方法应用于数字人领域,则极大减少了数字人表情动画编辑的时间成本和人力成本。
本申请实施例提供了一种动画生成方法,该方法对于每个音频片段,基于该音频片段对应的表情以及表情的变化时间和变化方式,在变化时间内,生成了表情按照变化方式变化的表情片段,即得到了音频片段对应的表情片段。该方法实现了将静态的一帧表情拓展为一段表情片段,即通过一个表情帧自动生成了多个表情帧中的表情,而无需对多个表情帧分别制作表情,省时省力,提高了动画中表情的制作效率,进而提高了动画的生成效率。
参见图9,图9是本申请实施例提供的一种确定表情强度值的流程图,该方法用于实现计算机设备基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值,变化时间包括第一关键帧时刻和第二关键帧时刻的过程。该方法包括以下步骤。
901、计算机设备基于第一关键帧时刻和强度上升时长,确定第三关键帧时刻,基于第二关键帧时刻和强度下降时长,确定第四关键帧时刻,第三关键帧时刻为表情结束上升的时刻,第四关键帧时刻为表情开始下降的时刻。
在本申请实施例中,第一关键帧时刻为第三关键帧时刻之前的时刻,在第一关键帧时刻和第三关键帧时刻之间的时刻,对应表情强度值上升,即前一时刻的表情强度值小于后一时刻的表情强度值。第四关键帧时刻为第二关键帧时刻之前的时刻,且第四关键帧时刻不大于第三关键帧时刻,即第四关键帧时刻为第三关键帧时刻之后的时刻或第四关键帧时刻与第三关键帧时刻相同。在第四关键帧时刻和第二关键帧时刻之间的时刻,对应表情强度值下降,即前一时刻的表情强度值大于后一时刻的表情强度值。
在本申请实施例中,上述计算机设备基于第一关键帧时刻和强度上升时长,确定第三关键帧时刻,基于第二关键帧时刻和强度下降时长,确定第四关键帧时刻的过程,包括以下两种情况。
在表情不存在表情突变的情况下,计算机设备将第一关键帧时刻与强度上升时长之间的和值作为第三关键帧时刻,将第二关键帧时刻与强度下降时长之间的差值作为第四关键帧时刻。在表情存在表情突变的情况下,计算机设备将差值与和值的中间时刻作为第四关键帧时刻,将中间时刻的前一时刻与第一关键帧时刻中的最大值作为第三关键帧时刻。其中,中间时刻即为第四关键帧时刻。中间时刻的前一时刻即表情开始下降的关键帧的前一帧的时刻。
在本申请实施例中,表情突变指表情的变化时间不足以使表情基于强度上升时长缓慢上升以及基于强度下降时长缓慢下降。可选地,计算机设备在变化时间的时长与时长和值之间的差值大于时长阈值的情况下,确定表情不存在表情突变,时长和值为强度上升时长与强度下降时长之间的和值。在变化时间的时长与时长和值之间的差值不大于时长阈值的情况下,确定表情存在表情突变。时长阈值可以根据需要进行设定并更改,例如,时长阈值为零值。
在本申请实施例中,将上一种情况中得到的第三关键帧时刻与第四关键帧时刻的中间时刻作为第四关键帧时刻,即将表情开始下降时刻向前调整。将该情况得到的第四关键帧时刻的前一时刻与上一种情况中得到的第三关键帧时刻中的较大值作为第三关键帧时刻,即将结束上升时刻向前调整,这样使得实际的强度上升时长与强度下降时长能够满足整体变化时间的时长,保证了表情变化的合理性与准确性。
902、计算机设备基于参考表情强度值,确定第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻分别对应的表情强度值。
在一些实施例中,上述计算机设备基于参考表情强度值,确定第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻分别对应的表情强度值的过程,包括以下步骤:计算机设备确定表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值,相邻表情为表情动画中表情的前一表情;在差值大于参考阈值的情况下,将表情的第一关键帧时刻和第二关键帧时刻的表情强度值确定为零值,将表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为参考表情强度值。
在差值不大于参考阈值的情况下,计算机设备确定第一差值和第二差值之商,得到强度变化速度,第一差值为表情对应的参考表情强度值与相邻表情对应的参考表情强度值之间的差值,第二差值为表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值;基于强度变化速度、相邻表情的第二关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定强度调整值,将相邻表情的第二关键帧时刻的表情强度值调整为强度调整值;基于强度变化速度、表情的第一关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定表情的第一关键帧时刻的表情强度值;将表情的第二关键帧时刻的表情强度值确定为零值,将表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为参考表情强度值。
在一些实施例中,计算机设备基于强度变化速度、相邻表情的第二关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定强度调整值的过程,包括以下步骤:计算机设备确定相邻表情的第二关键帧时刻和相邻表情的第四关键帧时刻之间的时长与强度变化速度之积,将第四关键帧时刻的表情强度值与该积的差值作为强度调整值。
在一些实施例中,计算机设备基于强度变化速度、表情的第一关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定表情的第一关键帧时刻的表情强度值的过程,包括以下步骤:计算机设备确定表情的第一关键帧时刻和相邻表情的第四关键帧时刻之间的时长与强度变化速度之积,将第四关键帧时刻的表情强度值与该积之间的差值作为表情的第一关键帧时刻的表情强度值。
在本申请实施例中,表情的结束上升时刻与前一表情的开始下降时刻的差值,代表了相邻表情的过渡时间。而在该实施例中,在相邻表情的过渡时间较长的情况下,使得表情基于参考表情强度值正常变化。在相邻表情的过渡时间较短的情况下,表情变化太快,若强制要求前一表情回归中立后再立即达到当前表情的峰值,即达到参考表情强度值,会使动画出现剧烈跳变,因此基于强度变化速度调整前一表情结束下降时刻的表情强度值以及调整当前表情开始上升时刻的表情强度值,使其不再为零值,进而使得相邻表情可以平缓过渡,提高了表情动画的展现效果。
903、计算机设备基于变化时间包括的第一时刻分别对应的表情强度值,对变化时间包括的第二时刻进行表情强度值的插值,得到第二时刻对应的表情强度值,第一时刻包括第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻,第二时刻为第一时刻以外的时刻。
可选地,计算机设备基于第一关键帧时刻和第三关键帧时刻的表情强度值,对第一关键帧时刻和第三关键帧时刻之前的时刻进行表情强度值的插值。计算机设备基于第四关键帧时刻和第二关键帧时刻的表情强度值,对第四关键帧时刻和第二关键帧时刻之间的第二时刻进行表情强度值的插值。计算机设备基于第三关键帧时刻和第四关键帧时刻的表情强度值,对第三关键帧时刻和第四关键帧帧时刻之间的第二时刻进行表情强度值的插值。
在本申请实施例中,计算机设备可以采用三次样条插值函数或缓动函数进行插值,在此不作具体限定。其中,计算机设备通过采样多个时刻,获得与音频片段的时长相对应的所有表情帧的驱动参数,以基于驱动参数呈现表情动画。
需要说明的是,在本申请实施例中,在变化时间包括的多个时刻包括第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻以外的第二时刻的情况下,计算机设备执行步骤903,得到第二时刻对应的表情强度值。在变化时间仅包括第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻的情况下,则计算机设备无需执行步骤903,直接基于第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻的表情强度值,得到多个表情帧,进而基于多个表情帧得到动画片段。
需要说明的是,上述步骤901-903仅为基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值的过程的一种可选地实现方式,计算机设备还可以通过其他可选地实现方式来实现该过程,在此不再赘述。
在本申请实施例中,可以随意设置不重叠的表情变化时间的长度,在各个表情区间内,根据设定的相关表情和强度峰值,设置从中立表情缓慢变化到第一个表情峰值、相邻表情的渐起渐落、最后回归中立表情的渐变效果,以得到具有渐变效果的表情片段,提高了表情片段的真实性与准确性。
在本申请实施例中,通过上述步骤901-903实现了计算机设备基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值的过程。在该实施例中,先基于强度上升时长和强度下降时长确定了表情上升的结束时刻以及表情下降的开始时刻,进而得到了表情开始上升时刻、表情结束上升时刻、表情开始下降时刻、表情结束下降时刻等四个时刻的表情强度值。而由于这四个时刻对应的表情帧为较为关键的表情帧,进而基于这四个时刻对应的表情强度值来对其他时刻的表情强度值进行插值,可保证插值的有效性和准确性,进而提高了多个时刻对应的表情强度值的准确性。
图13是根据本申请实施例提供的一种动画生成装置的框图。该装置用于执行上述动画生成方法时的步骤,参见图13,装置包括:
获取模块1301,用于获取多个音频片段和多个音频片段分别对应的表情制备参数,表情制备参数用于指示音频片段对应的表情、表情的变化时间和变化方式;
生成模块1302,用于对于每个音频片段,基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段,表情片段中的表情在变化时间内按照表情的变化方式变化;
融合模块1303,用于融合多个音频片段和多个音频片段各自对应的表情片段,得到表情动画。
在一些实施例中,表情的变化方式用于指示基于参考表情强度值对表情进行变化,生成模块1302,用于:
基于音频片段所对应的表情制备参数,在变化时间内,生成音频片段对应的表情片段,表情片段中的表情在变化时间内基于参考表情强度值发生表情强度值的变化。
在一些实施例中,变化时间包括第一关键帧时刻和第二关键帧时刻,第一关键帧时刻为表情开始变化的时刻,第二关键帧时刻为表情结束变化的时刻,生成模块1302,用于:
确定表情对应的强度上升时长和强度下降时长;
基于第一关键帧时刻、第二关键帧时刻、强度上升时长、强度下降时长和参考表情强度值,确定变化时间包括的多个时刻对应的表情强度值;
基于表情和多个时刻对应的表情强度值,生成音频片段对应的表情片段。
在一些实施例中,生成模块1302,用于:
基于第一关键帧时刻和强度上升时长,确定第三关键帧时刻,基于第二关键帧时刻和强度下降时长,确定第四关键帧时刻,第三关键帧时刻为表情结束上升的时刻,第四关键帧时刻为表情开始下降的时刻;
基于参考表情强度值,确定第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻分别对应的表情强度值;
基于变化时间包括的第一时刻分别对应的表情强度值,对变化时间包括的第二时刻进行表情强度值的插值,得到第二时刻对应的表情强度值,第一时刻包括第一关键帧时刻、第二关键帧时刻、第三关键帧时刻和第四关键帧时刻,第二时刻为第一时刻以外的时刻。
在一些实施例中,生成模块1302,用于:
在表情不存在表情突变的情况下,将第一关键帧时刻与强度上升时长之间的和值作为第三关键帧时刻,将第二关键帧时刻与强度下降时长之间的差值作为第四关键帧时刻;
在表情存在表情突变的情况下,将差值与和值的中间时刻作为第四关键帧时刻,将中间时刻的前一时刻与第一关键帧时刻中的最大值作为第三关键帧时刻。
在一些实施例中,生成模块1302,用于:
确定表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值,相邻表情为表情动画中表情的前一表情;
在差值大于参考阈值的情况下,将表情的第一关键帧时刻和第二关键帧时刻的表情强度值确定为零值,将表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为参考表情强度值。
在一些实施例中,生成模块1302还用于:
在差值不大于参考阈值的情况下,确定第一差值和第二差值之商,得到强度变化速度,第一差值为表情对应的参考表情强度值与相邻表情对应的参考表情强度值之间的差值,第二差值为表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值;
基于强度变化速度、相邻表情的第二关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定强度调整值,将相邻表情的第二关键帧时刻的表情强度值调整为强度调整值;
基于强度变化速度、表情的第一关键帧时刻、相邻表情的第四关键帧时刻和相邻表情的第四关键帧时刻的表情强度值,确定表情的第一关键帧时刻的表情强度值;
将表情的第二关键帧时刻的表情强度值确定为零值,将表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为参考表情强度值。
在一些实施例中,生成模块1302,用于:
获取参考上限时长、参考下限时长和参考表情强度值对应的权重;
确定参考上限时长与参考下限时长之间的差值;
确定差值与权重之间的积;
确定积与参考下限时长之间的和值,将和值作为强度上升时长,将和值作为强度下降时长。
在一些实施例中,生成模块1302,用于:
基于表情和多个时刻对应的表情强度值,生成多个表情帧;
基于多个表情帧,生成音频片段对应的表情片段。
在一些实施例中,每个音频片段的表情制备参数包括表情标识,表情标识用于指示音频片段对应的表情,获取模块1301还用于:
对于每个音频片段,基于音频片段的表情制备参数所包括的表情标识,从多个候选表情中获取表情标识所标识的表情,以得到音频片段对应的表情。
在一些实施例中,获取模块1301还用于:
获取多个表情活动单元,多个表情活动单元用于指示面部表情中不同部位的不同活动程度;
组合至少两个表情活动单元,得到一个候选表情;或者,对任一个表情活动单元进行调整,得到一个候选表情。
在一些实施例中,融合模块1303,用于:
对于每个音频片段,融合音频片段和音频片段对应的表情片段,得到音频片段对应的动画片段;
拼接多个音频片段各自对应的动画片段,得到表情动画。
本申请实施例提供了一种动画生成装置,该装置对于每个音频片段,基于该音频片段对应的表情以及表情的变化时间和变化方式,在变化时间内,生成了表情按照变化方式变化的表情片段,即得到了音频片段对应的表情片段。该装置实现了将静态的一帧表情拓展为一段表情片段,即通过一个表情帧自动生成了多个表情帧中的表情,而无需对多个表情帧分别制作表情,省时省力,提高了动画中表情的制作效率,进而提高了动画的生成效率。
在本申请实施例中,计算机设备可以为终端或者服务器,当计算机设备为终端时,由终端作为执行主体来实施本申请实施例提供的技术方案;当计算机设备为服务器时,由服务器作为执行主体来实施本申请实施例提供的技术方案;或者,通过终端和服务器之间的交互来实施本申请提供的技术方案,本申请实施例对此不作限定。
图14示出了本申请一个示例性实施例提供的终端1400的结构框图。该终端1400可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1400包括有:处理器1401和存储器1402。
处理器1401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1401可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1402中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1401所执行以实现本申请中方法实施例提供的动画生成方法。
在一些实施例中,终端1400还可选包括有:外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地,外围设备包括:射频电路1404、显示屏1405、摄像头组件1406、音频电路1407和电源1408中的至少一种。
外围设备接口1403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中,处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上;在一些其他实施例中,处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时,显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时,显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1405可以为一个,设置在终端1400的前面板;在另一些实施例中,显示屏1405可以为至少两个,分别设置在终端1400的不同表面或呈折叠设计;在另一些实施例中,显示屏1405可以是柔性显示屏,设置在终端1400的弯曲表面上或折叠面上。甚至,显示屏1405还可以设置成非矩形的不规则图形,也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件1406用于采集图像或视频。可选地,摄像头组件1406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1401进行处理,或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1407还可以包括耳机插孔。
电源1408用于为终端1400中的各个组件进行供电。电源1408可以是交流电、直流电、一次性电池或可充电电池。当电源1408包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1400还包括有一个或多个传感器1409。该一个或多个传感器1409包括但不限于:加速度传感器1410、陀螺仪传感器1411、压力传感器1412、光学传感器1413以及接近传感器1414。
加速度传感器1410可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1410可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1410采集的重力加速度信号,控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1410还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1411可以检测终端1400的机体方向及转动角度,陀螺仪传感器1411可以与加速度传感器1410协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1411采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1412可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1412设置在终端1400的侧边框时,可以检测用户对终端1400的握持信号,由处理器1401根据压力传感器1412采集的握持信号进行左右手识别或快捷操作。当压力传感器1412设置在显示屏1405的下层时,由处理器1401根据用户对显示屏1405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1413用于采集环境光强度。在一个实施例中,处理器1401可以根据光学传感器1413采集的环境光强度,控制显示屏1405的显示亮度。具体地,当环境光强度较高时,调高显示屏1405的显示亮度;当环境光强度较低时,调低显示屏1405的显示亮度。在另一个实施例中,处理器1401还可以根据光学传感器1413采集的环境光强度,动态调整摄像头组件1406的拍摄参数。
接近传感器1414,也称距离传感器,通常设置在终端1400的前面板。接近传感器1414用于采集用户与终端1400的正面之间的距离。在一个实施例中,当接近传感器1414检测到用户与终端1400的正面之间的距离逐渐变小时,由处理器1401控制显示屏1405从亮屏状态切换为息屏状态;当接近传感器1414检测到用户与终端1400的正面之间的距离逐渐变大时,由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图14中示出的结构并不构成对终端1400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图15是根据本申请实施例提供的一种服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)1501和一个或一个以上的存储器1502,其中,存储器1502用于存储可执行程序代码,处理器1501被配置为执行上述可执行程序代码,以实现上述各个方法实施例提供的动画生成方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一段程序,至少一段程序由处理器加载并执行,以实现上述任一实现方式的动画生成方法。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得计算机设备执行上述任一实现方式的动画生成方法。
在一些实施例中,本申请实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种动画生成方法,其特征在于,所述方法包括:
获取多个音频片段和所述多个音频片段分别对应的表情制备参数,所述表情制备参数用于指示音频片段对应的表情、所述表情的变化时间和变化方式;
对于每个音频片段,基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内按照所述表情的变化方式变化;
融合所述多个音频片段和所述多个音频片段各自对应的表情片段,得到表情动画。
2.根据权利要求1所述的方法,其特征在于,所述表情的变化方式用于指示基于参考表情强度值对表情进行变化,所述基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,包括:
基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内基于所述参考表情强度值发生表情强度值的变化。
3.根据权利要求2所述的方法,其特征在于,所述变化时间包括第一关键帧时刻和第二关键帧时刻,所述第一关键帧时刻为表情开始变化的时刻,所述第二关键帧时刻为表情结束变化的时刻,所述基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,包括:
确定所述表情对应的强度上升时长和强度下降时长;
基于所述第一关键帧时刻、所述第二关键帧时刻、所述强度上升时长、所述强度下降时长和所述参考表情强度值,确定所述变化时间包括的多个时刻对应的表情强度值;
基于所述表情和所述多个时刻对应的表情强度值,生成所述音频片段对应的表情片段。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一关键帧时刻、所述第二关键帧时刻、所述强度上升时长、所述强度下降时长和所述参考表情强度值,确定所述变化时间包括的多个时刻对应的表情强度值,包括:
基于所述第一关键帧时刻和所述强度上升时长,确定第三关键帧时刻,基于所述第二关键帧时刻和所述强度下降时长,确定第四关键帧时刻,所述第三关键帧时刻为表情结束上升的时刻,所述第四关键帧时刻为表情开始下降的时刻;
基于所述参考表情强度值,确定所述第一关键帧时刻、所述第二关键帧时刻、所述第三关键帧时刻和所述第四关键帧时刻分别对应的表情强度值;
基于所述变化时间包括的第一时刻分别对应的表情强度值,对所述变化时间包括的第二时刻进行表情强度值的插值,得到所述第二时刻对应的表情强度值,所述第一时刻包括第一关键帧时刻、所述第二关键帧时刻、所述第三关键帧时刻和所述第四关键帧时刻,所述第二时刻为所述第一时刻以外的时刻。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一关键帧时刻和所述强度上升时长,确定第三关键帧时刻,基于所述第二关键帧时刻和所述强度下降时长,确定第四关键帧时刻,包括:
在所述表情不存在表情突变的情况下,将所述第一关键帧时刻与所述强度上升时长之间的和值作为所述第三关键帧时刻,将所述第二关键帧时刻与所述强度下降时长之间的差值作为所述第四关键帧时刻;
在所述表情存在表情突变的情况下,将所述差值与所述和值的中间时刻作为所述第四关键帧时刻,将所述中间时刻的前一时刻与所述第一关键帧时刻中的最大值作为所述第三关键帧时刻。
6.根据权利要求4所述的方法,其特征在于,所述基于所述参考表情强度值,确定所述第一关键帧时刻、所述第二关键帧时刻、所述第三关键帧时刻和所述第四关键帧时刻分别对应的表情强度值,包括:
确定所述表情的第三关键帧时刻与相邻表情的第四关键帧时刻之间的差值,所述相邻表情为所述表情动画中所述表情的前一表情;
在所述差值大于参考阈值的情况下,将所述表情的第一关键帧时刻和第二关键帧时刻的表情强度值确定为零值,将所述表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为所述参考表情强度值。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在所述差值不大于所述参考阈值的情况下,确定第一差值和第二差值之商,得到强度变化速度,所述第一差值为所述表情对应的参考表情强度值与所述相邻表情对应的参考表情强度值之间的差值,所述第二差值为所述表情的第三关键帧时刻与所述相邻表情的第四关键帧时刻之间的差值;
基于所述强度变化速度、所述相邻表情的第二关键帧时刻、所述相邻表情的第四关键帧时刻和所述相邻表情的第四关键帧时刻的表情强度值,确定强度调整值,将所述相邻表情的第二关键帧时刻的表情强度值调整为所述强度调整值;
基于所述强度变化速度、所述表情的第一关键帧时刻、所述相邻表情的第四关键帧时刻和所述相邻表情的第四关键帧时刻的表情强度值,确定所述表情的第一关键帧时刻的表情强度值;
将所述表情的第二关键帧时刻的表情强度值确定为零值,将所述表情的第三关键帧时刻和第四关键帧时刻的表情强度值确定为所述参考表情强度值。
8.根据权利要求3所述的方法,其特征在于,所述确定所述表情对应的强度上升时长和强度下降时长,包括:
获取参考上限时长、参考下限时长和所述参考表情强度值对应的权重;
确定所述参考上限时长与所述参考下限时长之间的差值;
确定所述差值与所述权重之间的积;
确定所述积与所述参考下限时长之间的和值,将所述和值作为所述强度上升时长,将所述和值作为所述强度下降时长。
9.根据权利要求3所述的方法,其特征在于,所述基于所述表情和所述多个时刻对应的表情强度值,生成所述音频片段对应的表情片段,包括:
基于所述表情和所述多个时刻对应的表情强度值,生成多个表情帧;
基于所述多个表情帧,生成所述音频片段对应的表情片段。
10.根据权利要求1所述的方法,其特征在于,每个音频片段的表情制备参数包括表情标识,所述表情标识用于指示所述音频片段对应的表情,所述方法还包括:
对于每个音频片段,基于所述音频片段的表情制备参数所包括的表情标识,从多个候选表情中获取所述表情标识所标识的表情,以得到所述音频片段对应的表情。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取多个表情活动单元,所述多个表情活动单元用于指示面部表情中不同部位的不同活动程度;
组合至少两个表情活动单元,得到一个候选表情;或者,对任一个表情活动单元进行调整,得到一个候选表情。
12.根据权利要求1所述的方法,其特征在于,所述融合所述多个音频片段和所述多个音频片段各自对应的表情片段,得到表情动画,包括:
对于每个音频片段,融合所述音频片段和所述音频片段对应的表情片段,得到所述音频片段对应的动画片段;
拼接所述多个音频片段各自对应的动画片段,得到所述表情动画。
13.一种动画生成装置,其特征在于,所述装置包括:
获取模块,用于获取多个音频片段和所述多个音频片段分别对应的表情制备参数,所述表情制备参数用于指示音频片段对应的表情、所述表情的变化时间和变化方式;
生成模块,用于对于每个音频片段,基于所述音频片段所对应的表情制备参数,在所述变化时间内,生成所述音频片段对应的表情片段,所述表情片段中的表情在所述变化时间内按照所述表情的变化方式变化;
融合模块,用于融合所述多个音频片段和所述多个音频片段各自对应的表情片段,得到表情动画。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序,所述至少一段程序由所述处理器加载并执行权利要求1至12任一项权利要求所述的动画生成方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段程序,所述至少一段程序用于执行权利要求1至12任一项权利要求所述的动画生成方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行权利要求1至12任一项权利要求所述的动画生成方法。
CN202311049403.0A 2023-08-18 2023-08-18 动画生成方法、装置、设备、存储介质和产品 Pending CN117218249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311049403.0A CN117218249A (zh) 2023-08-18 2023-08-18 动画生成方法、装置、设备、存储介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311049403.0A CN117218249A (zh) 2023-08-18 2023-08-18 动画生成方法、装置、设备、存储介质和产品

Publications (1)

Publication Number Publication Date
CN117218249A true CN117218249A (zh) 2023-12-12

Family

ID=89047084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311049403.0A Pending CN117218249A (zh) 2023-08-18 2023-08-18 动画生成方法、装置、设备、存储介质和产品

Country Status (1)

Country Link
CN (1) CN117218249A (zh)

Similar Documents

Publication Publication Date Title
US10609334B2 (en) Group video communication method and network device
CN111726536A (zh) 视频生成方法、装置、存储介质及计算机设备
CN112634416B (zh) 虚拟形象模型的生成方法、装置、电子设备及存储介质
CN112396679B (zh) 虚拟对象显示方法及装置、电子设备、介质
KR20130032620A (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
CN110136236B (zh) 三维角色的个性化脸部显示方法、装置、设备及存储介质
US20220206581A1 (en) Communication interface with haptic feedback response
CN113569614A (zh) 虚拟形象生成方法、装置、设备及存储介质
US11989348B2 (en) Media content items with haptic feedback augmentations
US20220206584A1 (en) Communication interface with haptic feedback response
US20220317774A1 (en) Real-time communication interface with haptic and audio feedback response
CN111028566A (zh) 直播教学的方法、装置、终端和存储介质
WO2022212174A1 (en) Interface with haptic and audio feedback response
EP4315002A1 (en) Interface with haptic and audio feedback response
CN113420177A (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN112870697B (zh) 基于虚拟关系养成程序的交互方法、装置、设备及介质
CN113194329B (zh) 直播互动方法、装置、终端及存储介质
CN117218249A (zh) 动画生成方法、装置、设备、存储介质和产品
US11562548B2 (en) True size eyewear in real time
CN116366908B (zh) 直播间的互动方法、装置、电子设备及存储介质
CN114004922B (zh) 骨骼动画显示方法、装置、设备、介质及计算机程序产品
US20220377309A1 (en) Hardware encoder for stereo stitching
CN116959452A (zh) 合成音频的可视化调整方法、装置、设备、介质及产品
CN118055202A (zh) 视频制作方法、装置、电子设备及存储介质
CN117436418A (zh) 指定类型文本的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication