CN116912373B

CN116912373B - 一种动画处理方法和系统

Info

Publication number: CN116912373B
Application number: CN202310583444.1A
Authority: CN
Inventors: 翟彬彬
Original assignee: Suzhou Super Dimension Network Technology Co ltd
Current assignee: Suzhou Super Dimension Network Technology Co ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2024-04-16
Anticipated expiration: 2043-05-23
Also published as: CN116912373A

Abstract

本说明书实施例提供一种动画处理方法和系统，该方法包括获取预采集样本，预采集样本包括至少一段包含真实人脸数据的音视频；基于预采集样本，确定人脸模型的驱动参数；基于驱动参数驱动人脸模型，得到合成人脸动画。

Description

一种动画处理方法和系统

技术领域

本说明书涉及计算机技术领域，尤其涉及一种动画处理方法和系统。

背景技术

基于音频驱动的三维人脸动画技术是人脸表情动画的实现方式中的研究热点，采用神经网络相关的技术，该方法的输入是音频信息，通过提取音频中的特征信息，来预测面部形变。在一些动画生成系统中，一个模块可以对原始语音提取特征并进行情感分类，另一个模块负责对内容特征进行提取，主要用以生成口型信息，合成时利用获得的情感标签和口型特征预测人脸动画参数，但是，带有噪声的情感语音会影响模型对于全局声学特征的提取，导致模型自动提取的情感可能产生错误，进而导致动画建模口型与声音无法吻合等问题。此外，在制作动画过程中，视频帧易存在异常，导致不同帧之间存在无法拟合、过渡不自然、个别缺陷等情况，影响用户观感。

为解决噪声对情感提取造成影响的问题，CN113393832A提供一种基于全局情感编码的虚拟人动画合成方法，该申请通过噪声编码器引入噪声影响，可以提升对实际环境噪声以及静音段弱噪声的抗噪性，但并没有涉及动画异常动作的校正

因此提供一种动画处理方法和系统，有助于制作动画过程中口型和语音同步以及动画的异常动作校正。

发明内容

本说明书实施例之一提供一种动画处理方法，所述方法由处理器执行，包括：获取预采集样本，所述预采集样本包括至少一段包含真实人脸数据的音视频；基于所述预采集样本，确定人脸模型的驱动参数；基于所述驱动参数驱动所述人脸模型，得到合成人脸动画。

本说明书实施例之一提供一种动画处理系统，所述系统包括：获取模块，用于获取预采集样本，所述预采集样本包括至少一段包含真实人脸数据的音视频；确定模块，用于基于所述预采集样本，确定人脸模型的驱动参数；驱动模块，用于基于所述驱动参数驱动所述人脸模型，得到合成人脸动画。

本说明书实施例之一提供一种动画处理装置，所述装置包括至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现上述实施例中任一项所述的动画处理方法。

本说明书实施例之一提供一种计算机可读存储介质，存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行上述实施例中任一项所述的动画处理方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是本说明书一些实施例所示的动画处理方法的示例性流程图；

图2是根据本说明书一些实施例所示的编码参数确定模型的示例性示意图；

图3是根据本说明书一些实施例所示的确定人脸模型的驱动参数的示例性示意图；

图4是根据本说明书一些实施例所示的异常帧检测及修正的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本说明书实施例公开了一种动画处理系统。在一些实施例中，动画处理系统可以包括获取模块、确定模块以及驱动模块。在一些实施例中，动画处理系统可以集成在处理器中。

在一些实施例中，获取模块用于获取预采集样本，所述预采集样本包括至少一段包含真实人脸数据的音视频。

在一些实施例中，确定模块用于基于预采集样本，确定人脸模型的驱动参数。

在一些实施例中，确定模块可以用于从预采集样本中提取语音数据以及视频数据；基于语音数据，确定第一编码参数序列；基于视频数据，确定第二编码参数序列；基于第一编码参数序列以及第二编码参数序列，确定人脸模型的所述驱动参数。

在一些实施例中，确定模块可以基于第一编码参数序列与第二编码参数序列中每一帧对应的编码参数的比对结果，确定目标编码参数序列及其每一帧对应的编码参数的融合特征，融合特征包括编码参数为融合参数或非融合参数；基于目标编码参数序列中每一帧编码参数的融合特征，确定驱动参数。

在一些实施例中，驱动模块用于基于驱动参数驱动人脸模型，得到合成人脸动画。

在一些实施例中，动画处理系统可以包括修正模块。在一些实施例中，修正模块可以用于获取合成人脸动画中至少一个时间点的人脸动画合成帧；判断至少一个时间点的人脸动画合成帧是否存在异常；响应于存在至少一个异常帧，对合成人脸动画进行修正。

需要注意的是，以上对于动画处理系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。然而，这些修正和改变仍在本说明书的范围之内。

图1是根据本说明书一些实施例所示的动画处理方法的示例性流程图。

在一些实施例中，流程100可以由处理器执行。如图1所示，流程100包括下述步骤：

步骤110，获取预采集样本。

预采集样本是指预先采集的用于获取人脸模型的驱动参数的数据。例如，预采集样本包含视频、图片序列等。

在一些实施例中，预采集样本可以包括至少一段包含真实人脸数据的音视频。

音视频是指包括音频信息与视频信息的数据文件。真实人脸数据的音视频是指包含真实的人脸对应的视频信息、真实的人声音对应的音频信息的数据文件。例如，真实人脸数据的音视频可以包括录制人员说出任何语种的句子并伴随着做出不同口型和表情等的录音录像等。录制人员为音视频中真实的人。

在一些实施例中，处理器可以从开源数据库、系统存储设备等渠道获取包含真实人脸数据的音视频作为预采集样本。在一些实施例中，处理器可以通过直接或间接的方式获取预采集样本，例如，直接通过摄像头获取真实人脸数据的音视频，或基于用户输入的预采集样本的文件路径获取真实人脸数据的音视频。在一些实施例中，处理器还可以基于其他任何可行的方式获取预采集样本，本说明书对此不做限制。

步骤120，基于预采集样本，确定人脸模型的驱动参数。

人脸模型是指构造和生成人脸动画的模型。例如，人脸模型可以是Candide 3模型、FLAME模型、VOCA模型或其他模型。

驱动参数是用于实现复杂的人脸表情动作的参数。例如，驱动参数可以包括FDPS(人脸定义参数Facial Definition Parameters)、FAPS(人脸动画参数Facial AnimationParameters)等。FDPS用于描述人脸几何结构和纹理信息。FAPS用于描述人脸的动态变化。又例如，驱动参数可以包括多组动画单元参数(AU，action unit)，每组动画单元参数用于描述人类面部表情中不同部位的活动程度。例如，示例性的AU参数及其对应含义如下表1所示：

AU集合	具体实现的动作
		AU1	内侧眉毛上扬
AU2	外侧眉毛上扬
		AU4	眉毛下沉
AU5	上唇上扬
		AU6	脸颊上扬
AU9	皱鼻
		AU15	嘴角下沉
AU20	嘴唇拉伸
		AU23	嘴唇收拢
AU26	下巴下降
		AU27	咧嘴

表1

在一些实施例中，处理器可以基于预采集样本，通过多种方式确定人脸模型的驱动参数。例如，基于动作捕捉技术、Mpeg技术等确定人脸模型的驱动参数。

在一些实施例中，处理器可以基于预采集样本，通过步骤S1-步骤S4，确定人脸模型的驱动参数。

步骤S1，从预采集样本中分别提取语音数据以及视频数据。

语音数据是指包含预采集样本中音频信息的数据。视频数据是指包含预采集样本中视频信息的数据。

在一些实施例中，处理器可以通过多种方式，提取语音数据以及视频数据。例如，处理器可以基于各种视频剪辑软件，将音视频中的语音数据、视频数据进行分离，获得语音数据以及视频数据。分离后的语音数据、视频数据中各个帧的位置对应。

步骤S2，基于语音数据，确定第一编码参数序列。

编码参数是指用于生成人脸动画的动画单元参数(AU)。每个AU对应表示一种面部部位的动作。例如，AU1表示内侧眉毛上扬、AU9表示皱眉、AU27表示咧嘴等。

编码参数序列是指多个AU构成的序列。例如，编码参数序列可以包括AU1、AU2、AU8等。

在一些实施例中，编码参数序列可以进一步划分为多个AU组合。每个AU组合对应表示一种面部表情。例如，编码参数序列包括[(AU1、AU2、AU5、AU15、AU16、AU20、AU26)，(AU1、AU6、AU12、AU14)]，其中，(AU1、AU2、AU5、AU15、AU16、AU20、AU26)表示“惊讶”，(AU1、AU6、AU12、AU14)表示“开心”。

第一编码参数序列是指根据语音数据确定的编码参数序列。第一编码参数序列中包括多个第一编码参数，第一编码参数为根据语音数据确定的编码参数。

处理器可以基于语音数据，通过多种方式确定第一编码参数序列。在一些实施例中，处理器可以基于语音数据从语音数据库中获取对应的标准语音数据，基于标准语音数据确定第一编码参数序列。其中，语音数据库包括多个标准语音数据，每个标准语音数据对应一个参考编码参数序列。处理器可以将标准语音数据对应的参考编码参数序列确定为第一编码参数序列。

标准语音数据是指由专业录制人员预先录制的音频数据。标准语音数据可以是单字的语音数据，也可以是包括词语、短句等的语音数据。

在一些实施例中，处理器可以基于语音数据，通过多轮迭代从语音数据库中确定对应的标准语音数据。以下通过步骤S21-S25对多轮迭代进行说明。

步骤S21，确定多轮迭代中其中一轮迭代的划分区间。

划分区间是指对语音数据进行划分得到的区间。在一些实施例中，可以以帧数为单位对语音数据进行划分得到划分区间。在一些实施例中，划分区间可以是起始帧位置、结束帧位置确定的区间范围。例如，划分区间[A，B]表示第A帧为起始帧位置，第B帧为结束帧位置。

在一些实施例中，响应于当前迭代为第一轮时，处理器可以基于预设区间长度确定划分区间；响应于当前迭代为第k轮(k为整数且k不等于1)时，将第k-1轮更新后得到的划分区间确定为当前迭代轮次对应的划分区间。关于更新划分区间的更多说明参见下文相关描述。

预设区间长度是指用于确定第一轮迭代的划分区间的区间长度。预设区间长度可以由系统或人为等预设得到。

在一些实施例中，处理器可以基于预设区间长度以及语音数据的第一帧，确定第一轮迭代的划分区间。例如，划分区间的起始帧位置可以是语音数据的第一帧，结束帧位置可以是与第一帧之间间隔预设区间长度的帧。

步骤S22，基于划分区间，确定语音片段数据。

语音片段数据是指与划分区间对应的部分语音数据。

在一些实施例中，处理器可以通过多种方式，获得语音片段数据。例如，处理器可以基于划分区间，对语音数据进行划分，获得语音片段数据。

步骤S23，基于语音片段数据，通过语音识别模型确定至少一个参考语音数据及其识别区间和识别置信度。

参考语音数据是指迭代过程中在划分区间中识别出的标准语音数据。

识别区间是指单个标准语音数据在划分区间中的部分区间。在一些实施例中，识别区间可以是由参考语音数据对应的起始帧位置、结束帧位置之间的区间范围。

识别置信度是用于判断参考语音数据的识别的准确度。

在一些实施例中，语音识别模型可以是机器学习模型。

在一些实施例中，语音识别模型的输入可以是语音片段数据，输出可以是参考语音数据、识别区间、识别置信度。

在一些实施例中，语音识别模型可以通过大量带有第一标签的第一训练样本训练得到。在一些实施例中，第一训练样本可以包括样本语音片段数据，第一训练样本可以通过历史数据获取。在一些实施例中，第一标签为第一训练样本对应的参考语音数据、有效识别区间及其识别置信度(例如，识别置信度包括0或1，0表示识别准确，1表示识别不准确)。

其中，样本语音片段数据可以是直接对标准语音数据进行语音增强获得，语音增强可以包括语音拼接、添加噪音、抽帧等方式。样本语音片段数据也可以是录制人员根据标准语音数据的内容进行试读的语音，并将试读结果作为样本语音频片段数据。样本语音片段数据也可以是截取录制人员的一整段语音中的片段作为样本。第一标签可以是人为或处理器标注确定第一训练样本对应的标签

步骤S24，基于识别置信度，更新划分区间。

在一些实施例中，处理器可以判断划分区间内识别的至少一个参考语音数据对应的至少一个识别置信度是否满足预设更新条件，根据判断结果更新划分区间。

预设更新条件是指用于确定是否更新划分区间的判断条件。

在一些实施例中，预设更新条件包括识别置信度大于识别置信度阈值。识别置信度阈值可以通过多种方式确定。例如，识别置信度阈值可以基于经验或系统默认设置。

在一些实施例中，响应于识别置信度满足预设更新条件，处理器可以基于参考语音数据的识别区间以及预设区间长度更新划分区间；响应于识别置信度不满足预设更新条件，处理器可以基于预设步长更新划分区间。其中，预设步长是指每一次更新划分区间的滑动窗口长度。例如，预设步长为10帧，表示将划分区间向后移动10帧得到更新后划分区间。预设步长可以通过多种方式确定。例如，预设步长可以由人为或系统预设得到。

在一些实施例中，响应于至少一个参考语音数据对应的至少一个识别置信度中每一个识别置信度和/或至少一个识别置信度的均值满足预设更新条件，处理器可以将最后一个被识别出的参考语音数据对应的识别区间的结束帧位置作为更新后划分区间的起始帧位置，将预设区间长度之后的帧位置确定为更新后划分区间的结束帧位置，以更新划分区间。例如，划分区间为[0，10]，语音片段数据1的识别区间为[0，3]，语音片段数据2的识别区间为[4，8]，预设区间长度为10，则可以将划分区间更新为[8，18]。

在一些实施例中，响应于至少一个参考语音数据对应的至少一个识别置信度中任一识别置信度和/或至少一个识别置信度的均值不满足预设更新条件，处理器可以基于预设步长调整前一划分区间的起始帧位置、结束帧位置，基于调整后的起始帧位置与结束帧位置更新划分区间。例如，划分区间为[0，10]，预设步长为1，单位为帧，将划分区间更新为[1，11]。

步骤S25，将更新后的划分区间作为下一轮迭代的划分区间，重复上述步骤S22-S24，直到满足预设迭代条件时停止迭代。

预设迭代条件是评估迭代是否停止的判定条件。在一些实施例中，预设迭代条件可以包括迭代更新的次数已经达到预设次数阈值、语音数据全部识别完成等。其中，预设次数阈值可以是系统默认值、系统预设值等。

在一些实施例中，处理器可以在迭代停止后，基于多轮迭代中每一轮迭代确定的至少一个参考语音数据及其识别置信度，确定标准语音数据组。例如，处理器可以将每一轮迭代输出的至少一个参考语音数据中，识别置信度大于识别置信度阈值的参考语音数据确定为标准语音数据组。标准语音数据组由多个标准语音数据组成。

在一些实施例中，在迭代过程中，处理器对划分区间的识别结果可以包括多组。每组识别结果包括至少一个参考语音数据及其识别区间和识别置信度。例如，一组识别结果可以是[(参考语音数据1，识别区间1，识别置信度1)，(参考语音数据2，识别区间2，识别置信度2)]，另一组识别结果可以是[(参考语音数据3，识别区间3，识别置信度3)，(参考语音数据4，识别区间4，识别置信度4)]。

在一些实施例中，对划分区间的识别结果包括多组时，处理器可以基于每一组识别结果分别获得对应的下一轮的划分区间，确定多组最终识别结果。其中，每一轮迭代更新结果包括对应至少一个参考语音数据及其识别区间和识别置信度。例如，以上述示例为例，处理器可以在一组识别结果[(参考语音数据1，识别区间1，识别置信度1)，(参考语音数据2，识别区间2，识别置信度2)]的基础上进行多轮迭代更新，以及在另一组识别结果[(参考语音数据3，识别区间3，识别置信度3)，(参考语音数据4，识别区间4，识别置信度4)]的基础上进行多轮迭代更新，最后得到两组迭代更新结果，进而得到两组最终识别结果。

在一些实施例中，处理器可以输出识别置信度的平均值最大的一组最终识别结果为最终的标准语音数据组。

在一些实施例中，处理器可以基于标准语音数据组，通过数据库匹配的方式确定第一编码参数序列。

在一些实施例中，处理器可以基于标准语音数据组中每个标准语音数据在语音数据库中检索对应的参考编码参数序列，将多个参考编码参数序列确定为第一编码参数序列。参考编码参数序列是指至少一个AU组合。关于AU组合的更多内容，可以参见图1上文的相关描述。

在一些实施例中，处理器还可以基于语音数据，通过编码参数确定模型，确定第一编码参数序列。关于通过编码参数确定模型确定第一编码参数序列的更多内容，可以参见图2的相关描述。

步骤S3，基于视频数据，确定第二编码参数序列。

第二编码参数序列是指根据视频数据确定的编码参数序列。第二编码参数序列中包括多个第二编码参数，第二编码参数为根据语音数据确定的编码参数。第一编码参数与第二编码参数的区别在于来源不同，确定出的编码参数可以是相同的。

在一些实施例中，处理器可以识别跟踪视频数据中录制人员的面部特征点的运动，获得面部特征点在人脸做各种表情时的运动数据，基于面部特征点及其运动数据，获得第二编码参数序列。

在一些实施例中，处理器可以采用与对语音数据基于划分区间进行划分相类似的方式，对视频数据进行划分，获得最终的标准视频数据组，基于标准视频数据组中每个标准视频数据在视频数据库中检索对应的参考编码参数序列，将多个参考编码参数序列确定为第二编码参数序列。其中，视频数据库包括多个标准视频数据，每个标准视频数据对应一个参考编码参数序列。标准视频数据是指由专业录制人员预先录制的视频数据。标准视频数据可以是单字的视频数据，也可以是包括词语、短句等的视频数据。

步骤S4，基于第一编码参数序列以及第二编码参数序列，确定人脸模型的驱动参数。

在一些实施例中，处理器可以基于第一编码参数序列以及第二编码参数序列确定差值序列，根据差值序列确定人脸模型的驱动参数。其中，差值序列包括第一编码参数序列与第二编码参数序列中每一帧对应编码参数的差值(或差值绝对值)。

当差值序列中各个差值均大于对应差值阈值，和/或各个差值的均值大于对应差值阈值时，随机选取或指定第一编码参数序列、第二编码参数序列中的一个，确定为人脸模型的驱动参数。其中，差值阈值可以是系统默认或人为设置的值。

当差值序列中存在差值不大于对应差值阈值，和/或各个差值的均值不大于对应差值阈值时，将第一编码参数序列和第二编码参数序列的均值序列确定为人脸模型的驱动参数。第一编码参数序列和第二编码参数序列的均值序列可以是指由每一帧对应的第一编码参数与第二编码参数的平均值构成的编码参数序列。

在一些实施例中，处理器可以基于第一编码参数序列与第二编码参数序列中每一帧对应的编码参数的比对结果，确定目标编码参数序列及其每一帧对应的编码参数的融合特征，基于目标编码参数序列中每一帧对应的编码参数的融合特征，确定驱动参数。关于该实施例的更多内容参见图3的相关描述。

本说明书的一些实施例，通过对语音数据、视频数据进行处理，获得对应的第一编码参数序列、第二编码参数序列，以利于后续合成人脸动画中语音与动画口型吻合，提高获得的合成人脸动画的真实感。

步骤130，基于驱动参数驱动人脸模型，得到合成人脸动画。

合成人脸动画是指重构出的与真人脸部相像的三维人脸动画。

在一些实施例中，处理器可以将驱动参数输入人脸模型，建立三维人脸模型，并基于映射公式控制三维人脸模型运动，使三维人脸模型发生动作变化，合成三维人脸动画。

在一些实施例中，映射公式为：其中a、p、t是控制三维人脸模型缩放、旋转、位移的参数，S₀是标准三维人脸模型，S_i动画单元参数，w_i是动画单元参数的权重，n为动画单元参数的个数。权重可以是人为或系统设置的值。

本说明书的一些实施例，基于驱动参数驱动人脸模型，得到合成人脸动画，可以实现眼睛、眉毛、嘴唇及面部其他部位的运动,完成声画同步的三维人脸动画，通过自动化真实感虚拟角色动画制作，减少人工成本，提高生产效率。

图2是根据本说明书一些实施例所示的编码参数确定模型的示例性示意图。

在一些实施例中，处理器可以基于语音数据210，通过编码参数确定模型220，确定第一编码参数序列240。

编码参数确定模型220可以为机器学习模型。在一些实施例中，编码参数确定模型220可以为神经网络模型(Neural Networks，NN)。在一些实施例中，编码参数确定模型220还可以是下文中自定义结构的机器学习模型。

在一些实施例中，编码参数确定模型220的输入可以包括语音数据210，输出可以包括第一编码参数序列240。

关于语音数据和第一编码参数序列的说明参见图1中的相关说明。

在一些实施例中，编码参数确定模型220可以包括情感识别层221和编码参数生成层222。

在一些实施例中，情感识别层221可以用于识别语音数据210中的音频情感数据230。音频情感数据可以指音频中与情感相关的数据，例如，情感类型、各个情感类型的对应帧数片段(即与情感相关的帧的位置及数量)、每一帧音频的情感强度等。在一些实施例中，音频情感数据可以影响编码参数。

在一些实施例中，情感识别层221可以采用现有的音频情感识别模型，例如，情感识别层221可以是长短时记忆网络模型(Long Short Term Memory，LSTM)。

在一些实施例中，情感识别层221可以基于大量带有第二标签的第二训练样本训练得到。第二训练样本可以包括样本语音数据，第二标签可以包括对每一帧标注的情感类型、情感强度等。

在一些实施例中，情感识别层221的输出可以作为编码参数生成层222的输入。在一些实施例中，编码参数生成层222可以用于基于音频情感数据230以及语音数据210，确定第一编码参数序列240。

在一些实施例中，编码参数生成层222可以是生成对抗网络模型(GenerativeAdversarial Networks，GAN)。编码参数生成层222可以包括生成器(也称为模型A)和判别器(也称为模型B)。其中，模型A可以用于生成第一编码参数序列，将生成的第一编码参数序列与标准第一编码参数序列一起输入模型B，模型B可以用于判别输入模型B的第一编码参数序列是否为标准第一编码参数序列。在一些实施例中，编码参数生成层222可以基于大量第三训练样本训练得到。第三训练样本可以包括样本语音数据、样本语音数据对应的样本音频情感数据、样本语音数据对应的标准第一编码参数序列。标准第一编码参数序列是与样本语音数据对应的可以作为参考的第一编码参数序列。在一些实施例中，标准第一编码参数序列可以由动态捕捉器获取。

编码参数生成层222的训练包括多个阶段。

第一阶段：固定模型A的参数，训练模型B。将样本语音数据及其对应的音频情感数据输入模型A，生成第一编码参数序列。将生成的第一编码参数序列与样本语音数据及其对应的音频情感数据组成一组数据对(该数据对的标签为0)，再将与样本语音数据对应的标准第一编码参数序列、样本语音数据及其对应的音频情感数据组成另一组数据对(该数据对的标签为1)，作为训练数据训练模型B，使模型B尽可能判别出生成的第一编码参数序列和标准第一编码参数序列。

第二阶段：固定模型B的参数，训练模型A。将模型A和第一阶段所得的模型B拼接成模型C，输入样本语音数据及其对应的音频情感数据至模型C，模型C输出判别结果(包括0或1，0表示模型A输出的第一编码参数序列不是标准第一编码参数序列，1表示模型A输出的第一编码参数序列是标准第一编码参数序列)，将(1-判别结果)作为模型C的Loss，用该Loss基于梯度下降法更新模型A的参数。随着第二阶段的不断训练，模型C输出的结果为1的次数越多或连续输出的结果为1的次数越多，说明模型A输出与标准第一编码参数序列相似的第一编码参数序列的能力越来越强，模型A的输出的第一编码参数序列与标准第一编码参数序列的相似度不断提高。

然后循环第一阶段和第二阶段，最终通过不断的循环，模型A和模型B的能力越来越强，最终模型收敛，获得训练好的编码参数生成层222。

本说明书的一些实施例中，通过生成对抗网络的方式对编码参数生成层进行训练，通过训练过程中编码参数生成层的模型A与模型B不断循环的自我博弈，使得模型A和模型B的能力均越来越强，从而提高模型A生成的第一编码参数序列与标准第一编码参数序列的相似度，提高生成第一编码参数序列的精确性。

本说明书的一些实施例中，基于语音数据，通过编码参数确定模型，确定第一编码参数序列，可以利用机器学习的自学习能力，从大量数据中找到规律，获取到语音数据与第一编码参数序列之间的关联关系，提高确定第一编码参数序列的准确度和效率，进而便于后续确定人脸模型的驱动参数。通过将编码参数生成模型分为不同的层分别处理语音数据，可以提高数据处理的效率和第一编码参数序列的准确率。

图3是根据本说明书一些实施例所示的确定人脸模型的驱动参数的示例性示意图。

在一些实施例中，处理器可以基于第一编码参数序列311与第二编码参数序列312中每一帧对应的编码参数的比对结果，确定目标编码参数序列331及其每一帧对应的编码参数的融合特征；基于目标编码参数序列中每一帧对应的编码参数的融合特征，确定驱动参数340。

目标编码参数序列是指基于第一编码参数序列和第二编码参数序列确定的编码参数序列。目标编码参数序列可以用于确定驱动参数的编码参数序列。目标编码参数序列可以由至少一个目标编码参数构成。目标编码参数可以基于第一编码参数序列、第二编码参数序列中位于同一帧位置的第一编码参数和第二编码参数确定。关于编码参数序列的更多说明参见图1。

在一些实施例中，处理器可以基于第一编码参数序列中每一帧对应的第一编码参数，与第二编码参数序列中每一帧对应的第二编码参数的比对结果，确定目标编码参数序列。需要说明的是，第一编码参数序列、第二编码参数序列来源于同一预采集样本，其各个帧是对应的。对比需要建立在帧位置相同的基础上。例如，第一编码参数序列中第一帧的第一编码参数，只能与第二编码参数序列中第一帧的第二编码参数进行比对。

在一些实施例中，处理器可以确定同一帧位置的第一编码参数和第二编码参数的相似度，基于相似度确定目标编码参数；响应于相似度大于相似度阈值，将第一编码参数、第二编码参数中其中一个确定为该帧位置对应的目标编码参数；响应于相似度不大于相似度阈值，将第一编码参数、第二编码参数进行融合处理，将融合结果确定为该帧位置对应的目标编码参数。其中，融合处理的方法可以是加权融合。相似度阈值、加权融合的权重可以基于历史经验或先验知识进行预设。

融合特征可以反映目标编码参数序列中每一帧对应的目标编码参数与第一编码参数序列中第一编码参数、第二编码参数序列中第二编码参数的关系。例如，融合特征可以反映目标编码参数序列中每一帧对应的目标编码参数是第一编码参数还是第二编码参数融合。

在一些实施例中，融合特征包括目标编码参数为融合参数或非融合参数。

融合参数是指基于融合处理确定的目标编码参数。

非融合参数是指未经过融合处理确定的目标编码参数。非融合参数可以是第一编码参数、第二编码参数中其中一个。

在一些实施例中，融合特征包括融合系数。融合系数是指第一编码参数、第二编码参数进行加权融合确定目标编码参数时各自的权重。例如，融合系数(x1，y1)表示融合形成某一目标编码参数的第一编码参数的权重为x1、第二编码参数的权重为y1。

在一些实施例中，融合系数可以根据先验知识或历史数据进行确定。

在一些实施例中，处理器可以通过融合系数确定模型320确定优选融合系数序列333，优选融合系数序列333包括目标编码参数序列中每一帧对应的目标编码参数的融合系数。例如，优选融合系数序列[(x1，y1)，(x2，y2)，…]表示融合形成第一帧目标编码参数的第一编码参数的权重为x1、第二编码参数的权重为y1，融合形成第二帧目标编码参数的第一编码参数的权重为x2、第二编码参数的权重为y2等。

融合系数确定模型可以是机器学习模型，例如，神经网络模型。

在一些实施例中，融合系数确定模型的输入可以包括预采集样本、第一编码参数序列、第二编码参数序列，融合系数确定模型的输出可以包括优选融合序列。

在一些实施例中，融合系数确定模型可以通过大量带有第二标签的第二训练样本训练得到。

在一些实施例中，第二训练样本中的每组训练样本可以包括历史预采集样本、历史预采集样本对应的第一编码参数序列、历史预采集样本对应的第二编码参数序列，第二训练样本可以通过历史数据获取。

在一些实施例中，第二标签为第二训练样本对应的优选融合序列。第二标签可以由处理器或人为标注确定。例如，可以人工基于历史预采集样本，制作并调试出该历史预采集样本对应的标准合成人脸动画，并获得对应的标准编码参数序列；将该历史预采集样本对应的标准编码参数序列分别与该历史预采集样本对应的历史第一编码参数序列以及历史第二编码参数序列进行比对，基于比对结果确定每一帧的融合系数，基于每一帧的融合系数，确定融合参数序列，并将其确定为第二标签。

在一些实施例中，比对方式包括：若某一帧的标准编码参数与历史第一编码参数的相似度大于第一预设阈值，则对应帧的目标编码参数为非融合参数，该帧的融合系数为(1，0)。若某一帧的标准编码参数与历史第二编码参数序列的相似度大于第二预设阈值，则对应帧的目标编码参数为非融合参数，该帧的融合系数为(0，1)。

在一些实施例中，比对方式还包括：当某一帧的标准编码参数与历史第一编码参数、历史第二编码参数的相似度分别不大于第一预设阈值、第二预设阈值时，则对应帧的目标编码参数为融合参数，该帧的融合系数相关于标准编码参数分别与历史第一编码参数、历史第二编码参数的相似度。

例如，标准编码参数序列与历史第一编码参数序列的相似度为80％，标准编码参数序列与历史第二编码参数序列的相似度为60％，则对应帧的融合系数可以是：(0.8/0.6+0.8，0.6/0.6+0.8)＝(0.57，0.43)。

其中，第一预设阈值、第二预设阈值与相似度有关，其可以基于经验或实验设置。关于第一预设阈值、第二预设阈值的更多内容，可以参见下文的相关描述。

在一些实施例中，比对方式还包括：当某一帧的标准编码参数与历史第一编码参数、历史第二编码参数的相似度分别大于第一预设阈值、第二预设阈值时，则从(1，0)、(0，1)随机选取一个确定为对应帧的融合系数。

在一些实施例中，不同帧对应设置不同的第一相似度阈值。每一帧对应的第一相似度阈值相关于该帧对应的语音数据的情感丰富值。

第一相似度阈值是指用于评估标准编码参数与历史第一编码参数相似程度的判定条件。

语音数据的情感丰富值可以是与语音数据的录制人员有关的情感强度的量化值。例如，语音数据的情感丰富值可以基于情感强度确定。情感强度越大，情感丰富值越大。例如，处理器可以预设语音数据的情感丰富值与情感强度的对照关系，基于查表的方式确定语音数据的情感丰富值。情感强度可以由人为或系统对语音数据进行标注得到。

在一些实施例中，第一相似度阈值可以与情感丰富值正相关。情感丰富值越大，第一相似度阈值越大。

在一些实施例中，不同帧对应设置不同的第二相似度阈值。每一帧对应的第二相似度阈值相关于该帧对应的视频数据的情感丰富值。

第二相似度阈值是指用于评估标准编码参数与历史第二编码参数相似程度的判定条件。

视频数据的情感丰富值可以是与视频数据中的录制人员有关的情感强度的量化值。

处理器可以通过多种方式，确定视频数据的情感丰富值。例如，处理器可以通过机器学习模型对视频数据进行分析，获得视频数据对应的情感丰富值。机器学习模型可以是支持向量机模型、K近邻模型等。

在一些实施例中，第二相似度阈值可以与视频数据的情感丰富值正相关。视频数据的情感丰富值越大，第二相似度阈值越大。

本说明书的一些实施例，情绪丰富值越大，说明录制人员的情绪越丰富(或情绪跨度越大)，通过确定较大第一相似度阈值、第二相似度阈值，可以基于第一编码参数序列、第二编码参数序列，获得表情丰富的驱动参数，既能实现同步，增加真实感程度，又能获得更加细腻、丰富的三维人脸动画。

本说明书的一些实施例，通过融合系数确定模型确定融合参数的融合系数，利用机器学习模型的自学习能力，获得比基于经验更准确的融合序列，提高融合的效果，节省人力与时间资源。

本说明书的一些实施例，通过融合对应帧的第一编码参数序列、第二编码参数序列，可以准确地驱动丰富的人脸表情，实现合成人脸动画中口型与实际的语音同步。

图4是根据本说明书一些实施例所示的异常帧检测及修正的示例性流程图。在一些实施例中，流程400可以由处理器执行。如图4所示，流程400包括下述步骤：

步骤410，获取合成人脸动画中至少一个时间点的人脸动画合成帧。

人脸动画合成帧是指人脸合成动画中最小单位的单幅影像画面。

在一些实施例中，处理器可以通过多种方式获取至少一个时间点的人脸动画合成帧。例如，处理器可以按一定的时间间隔或帧间隔提取一帧人脸动画合成帧，得到多个时间点的人脸动画合成帧。又例如，处理器可以提取合成人脸动画中关键帧及关键帧对应的时间点，得到至少一个时间点的人脸动画合成帧。其中，时间间隔或帧间隔可以是系统默认或人为设置的值。

步骤420，判断至少一个时间点的人脸动画合成帧是否存在异常。

在一些实施例中，处理器可以基于滑动窗口，在人脸合成动画中进行截取获得多个人脸动画片段；将多个人脸动画片段输入异常帧判断模型，确定每一帧的异常率；响应于异常率大于异常率阈值，确定该帧为异常帧。

滑动窗口可以包括每次滑动步长、窗口大小等参数。窗口大小可以是以帧数划分的开始帧位置、结束帧之间的帧数，开始帧位置与结束帧位置可以是指合成人脸动画中预设的以帧数为单位的位置。滑动步长可以是上一滑动窗口与下一滑动窗口之间间隔的帧数。滑动窗口是指基于人脸合成动画时间轴的顺序从前向后滑动窗口，每按照滑动步长滑动一次窗口时，截取滑动窗口内的一段人脸合成动画，确定为人脸动画片段，依次类推，直到截取完成整个人脸合成动画。

异常帧是指出现异常的人脸动画合成帧。例如，人脸动画子帧对应的动画情感类别数据为惊讶，语音数据中对应帧的情感数据为开心，则表示该人脸动画子帧中的动作姿态出现异常。

异常率可以指人脸动画合成帧被判定为异常帧的频率。

在一些实施例中，可以将某一人脸动画合成帧被异常帧判断模型判定为异常帧的次数与该帧的总判断次数之比作为该人脸动画合成帧的异常率。

在一些实施例中，异常帧判别模型可以是机器学习模型，例如，神经网络模型。

在一些实施例中，异常帧判别模型的输入可以包括人脸动画片段，异常帧判别模型的输出可以包括人脸动画片段中的异常帧。

在一些实施例中，异常帧判别模型可以通过大量带有第三标签的第三训练样本训练得到。在一些实施例中，第三训练样本可以包括样本人脸动画片段，第三训练样本可以通过人工处理获取。在一些实施例中，第三标签为第三训练样本对应的异常帧，第三标签可以由处理器或人为标注确定。例如，样本人脸动画片段可以随机抽取正常的人脸动画片段中的帧进行人脸扭曲处理，并将该帧的标注为异常帧。人脸扭曲处理可以包括人脸至少一个组成部分的变形扭曲等。

在一些实施例中，处理器还可以对人脸动画合成帧进行划分，获得每个人脸动画合成帧中的至少一个人脸动画子帧；根据至少一个人脸动画子帧、音频情感数据，通过动画情感判别模型，确定异常帧。关于音频情感数据的更多说明参见图2。

人脸动画子帧是指人脸动画合成帧的部分区域，人脸动画子帧是与人的表情相关联的脸部区域。人脸动画子帧可以包括人脸组成部分，例如嘴部、眼部、眉部、脸颊等。

在一些实施例中，处理器可以基于对人脸动画合成帧，通过预设划分方法进行分区，获得人脸动画子帧。示例性的预设划分方法可以是通过OpenCV、Haar级联检测器等检测人脸各个组成部分，进而将人脸动画合成帧划分为多个预设大小的子帧，获得人脸动画子帧。

在一些实施例中，动画情感判别模型可以是机器学习模型，例如，神经网络模型等。

在一些实施例中，动画情感判别模型的输入可以包括人脸动画子帧，动画情感判别模型的输出可以包括动画情感类别数据。动画情感类别数据是指人脸动画子帧中的人脸特征所反映的情感类别信息。情感类别信息可以包括开心、惊讶、愤怒、悲伤等。

当输入动画情感判别模型的人脸动画子帧为序列时，动画情感判别模型的输出为各个人脸动画子帧对应动画情感类别数据的序列数据。

在一些实施例中，动画情感判别模型可以通过大量带有第四标签的第四训练样本训练得到。在一些实施例中，第四训练样本可以包括样本人脸动画子帧，第四训练样本可以通过人工处理获取。在一些实施例中，第四标签为第四训练样本对应的动画情感类别数据，第四标签可以由处理器或人为标注确定。

在一些实施例中，处理器可以通过多种方式，根据人脸动画合成帧中各个人脸动画子帧对应的动画情感类别数据确定是否该人脸动画合成帧是否为异常帧。

在一些实施例中，处理器可以判断人脸动画合成帧中各个人脸动画子帧对应的动画情感类别数据是否一致，若存在任意两个人脸动画子帧对应的动画情感类别数据不一致，则判定该人脸动画合成帧为异常帧。

在一些实施例中，处理器可以对比某一人脸动画子帧的动画情感类别数据与其在语音数据中对应帧的音频情感数据是否一致，若不一致，则判定该人脸动画子帧为异常帧。

本说明书的一些实施例，通过动画情感判别模型，获得人脸动画合成帧中每个人脸动画子帧表示的情感，当同一人脸动画合成帧中每个人脸动画子帧表示的情感不一致时，可以快速判断异常帧，提高异常帧判断的准确性，同时定位异常帧。

步骤430，响应于存在至少一个异常帧，对合成人脸动画进行修正。

在一些实施例中，当人脸动画合成帧中存在任意两个人脸动画子帧对应的动画情感类别数据不同时，处理器可以基于出现频次最高的动画情感类别数据，对异常帧中其他人脸动画子帧的进行修正，使得异常帧中各个人脸动画子帧的动画情感类别数据与频次最高的动画情感类别数据一致。其中，出现频次最高是指在人脸动画合成帧的全部人脸动画子帧对应的动画情感类别数据中，某一类动画情感类别数据的数量占全部人脸动画子帧对应的动画情感类别数据的总数量的比例最高。

在一些实施例中，处理器可以基于语音数据中对应帧的音频情感数据，对异常帧进修正，使得异常帧中各个人脸动画子帧的动画情感类别数据与语音数据中对应帧的音频情感数据一致。例如，语音数据中对应帧的音频情感数据为开心，则将不一致的动画情感类别数据对应的人脸动画子帧中对应的人脸组成部分的动作姿态调整为开心。

在一些实施例中，处理器可以通过删除异常帧，以及使用补帧算法对异常帧的位置进行补帧，来对合成人脸动画进行修正。补帧算法包括但不限于插值补帧、RIFE算法补帧等。

本说明书的一些实施例，通过对异常帧的检测及修正，可以发现个别人脸动画合成帧的缺陷，提高合成人脸动画中各个画面的流畅性，实现较强真实感以及高精度的三维人脸动画。

应当注意的是，上述有关流程100、流程400的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程100、流程400进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

本说明书的一个或多个实施例中还提供一种动画处理装置，所述装置包括至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上任一实施例所述的动画处理方法。

本说明书的一个或多个实施例中还提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如上任一实施例所述的动画处理方法。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种动画处理方法，所述方法由处理器执行，包括：

获取预采集样本，所述预采集样本包括至少一段包含真实人脸数据的音视频；

基于所述预采集样本，确定人脸模型的驱动参数，包括：

从所述预采集样本中提取语音数据以及视频数据；

基于所述语音数据，通过编码参数确定模型，确定第一编码参数序列；

基于所述视频数据，确定第二编码参数序列；

基于所述第一编码参数序列与所述第二编码参数序列中每一帧对应的编码参数的比对结果，确定目标编码参数序列及其每一帧对应的编码参数的融合特征，所述融合特征包括编码参数为融合参数或非融合参数、以及融合系数；所述融合系数是指所述第一编码参数序列、所述第二编码参数序列进行加权融合确定所述目标编码参数序列时各自的权重；所述融合系数基于融合系数确定模型确定，包括：通过所述融合系数确定模型确定优选融合系数序列，所述优选融合系数序列包括所述目标编码参数序列中所述每一帧对应的编码参数的所述融合系数，所述融合系数确定模型为机器学习模型；所述每一帧具有不同的第一预设相似度阈值或第二预设相似度阈值，第k帧的所述第一预设相似度阈值相关于所述第k帧对应的所述语音数据的情感丰富值，第k帧的所述第二预设相似度阈值相关于所述第k帧对应的所述视频数据的所述情感丰富值；

基于所述目标编码参数序列中每一帧编码参数的所述融合特征，确定所述驱动参数；

基于所述驱动参数驱动所述人脸模型，得到合成人脸动画。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述合成人脸动画中至少一个时间点的人脸动画合成帧；

判断所述至少一个时间点的所述人脸动画合成帧是否存在异常；

响应于存在至少一个异常帧，对所述合成人脸动画进行修正。

3.一种动画处理系统，所述系统包括：

获取模块，用于获取预采集样本，所述预采集样本包括至少一段包含真实人脸数据的音视频；

确定模块，用于基于所述预采集样本，确定人脸模型的驱动参数，包括：

从所述预采集样本中提取语音数据以及视频数据；

基于所述视频数据，确定第二编码参数序列；

驱动模块，用于基于所述驱动参数驱动所述人脸模型，得到合成人脸动画。

4.根据权利要求3所述的系统，其特征在于，所述系统进一步用于：

5.一种动画处理装置，其特征在于，所述装置包括至少一个处理器以及至少一个存储器；

所述至少一个存储器用于存储计算机指令；

所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现权利要求1-2中任意一项所述的动画处理方法。

6.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1-2中任一所述的动画处理方法。