CN116152900A

CN116152900A - 表情信息的获取方法、装置、计算机设备及存储介质

Info

Publication number: CN116152900A
Application number: CN202310405082.7A
Authority: CN
Inventors: 张铭杰; 付星辉; 孙钟前
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-23
Anticipated expiration: 2043-04-17
Also published as: CN116152900B

Abstract

本申请提供了一种表情信息的获取方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对于视频内多个视频帧中的任一视频帧，基于所述视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重；基于所述多个视频帧中所述对象的初始表情权重，从所述多个视频帧中获取目标数量的视频帧作为中立脸帧；基于所述目标数量的所述中立脸帧中所述对象的初始形状权重，确定所述对象的全局形状权重初值；基于所述多个视频帧中所述对象的脸部，对所述全局形状权重初值进行迭代，得到全局形状权重；基于所述全局形状权重，从所述视频中获取各个视频帧中所述对象的表情信息。上述方法能够获得更准确的表情信息。

Description

表情信息的获取方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种表情信息的获取方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，三维的虚拟动画应运而生。当制作三维的虚拟动画时，通过采用视频面捕来制作动画中的角色。视频面捕是一项提取二维视频中的人脸表情信息，再迁移到三维动画角色上的技术。如何精确地提取人脸表情信息，以提高三维动画角色的制作效果是本领域研究的重点。

目前，通常采用的方式是先获取视频中多个视频帧内的人脸；然后，由用户从多个视频帧内的人脸中选择一个没有表情的中立脸帧；然后，对于其他任一视频帧，基于用户选择的中立脸帧为基准，从该视频帧内的人脸中过滤掉中立脸帧所反映的脸部形状的干扰，提取人脸表情信息；最后，将人脸表情信息迁移到三维动画角色上。由此，三维动画角色上能够体现人脸的表情。

但是，上述技术方案中，由于用户选择的中立脸帧中很可能存在某些不易观察的细微表情，使得用户选择的中立脸帧中无法准确脸部形状，从而使得基于中立脸帧提取的人脸表情信息不够准确，导致制作的三维动画角色不能够准确体现人脸的表情，制作效果差。

发明内容

本申请实施例提供了一种表情信息的获取方法、装置、计算机设备及存储介质，能够实现脸部形状和表情信息准确解耦的目的，也即是能够更加准确地从视频中排除对象的脸部形状的干扰，获得更准确的表情信息，利于提升后续三维动画的制作效果。所述技术方案如下：

一方面，提供了一种表情信息的获取方法，所述方法包括：

对于视频内多个视频帧中的任一视频帧，基于所述视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，所述初始形状权重用于表示所述视频帧中所述对象的脸部形状，所述初始表情权重用于表示所述视频帧中所述对象的表情信息，所述形状基指的是用于描述脸部形状的形状基底，包括多个样本脸部形状，每个所述样本脸部形状可以基于样本脸部上与形状相关的关键点的位置来确定，所述表情基指的是用于描述表情信息的表情基底，包括多组样本表情信息，每组所述样本表情信息可以基于样本脸部上与表情相关的关键点的位置来确定；

基于所述多个视频帧中所述对象的初始表情权重，从所述多个视频帧中获取目标数量的视频帧作为中立脸帧，所述中立脸帧中所述对象的表情信息相比于其他视频帧中所述对象的表情信息的信息量少；

基于所述目标数量的所述中立脸帧中所述对象的初始形状权重，确定所述对象的全局形状权重初值，所述全局形状权重初值用于表示所述视频中所述对象的脸部形状的初始信息；

基于所述多个视频帧中所述对象的脸部，对所述全局形状权重初值进行迭代，得到全局形状权重，所述全局形状权重用于表示所述视频中所述对象的脸部形状；

基于所述全局形状权重，从所述视频中获取各个视频帧中所述对象的表情信息。

另一方面，提供了一种表情信息的获取装置，所述装置包括：

第一获取模块，用于对于视频内多个视频帧中的任一视频帧，基于所述视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，所述初始形状权重用于表示所述视频帧中所述对象的脸部形状，所述初始表情权重用于表示所述视频帧中所述对象的表情信息，所述形状基指的是用于描述脸部形状的形状基底，包括多个样本脸部形状，每个所述样本脸部形状可以基于样本脸部上与形状相关的关键点的位置来确定，所述表情基指的是用于描述表情信息的表情基底，包括多组样本表情信息，每组所述样本表情信息可以基于样本脸部上与表情相关的关键点的位置来确定；

第二获取模块，用于基于所述多个视频帧中所述对象的初始表情权重，从所述多个视频帧中获取目标数量的视频帧作为中立脸帧，所述中立脸帧中所述对象的表情信息相比于其他视频帧中所述对象的表情信息的信息量少；

第一确定模块，用于基于所述目标数量的所述中立脸帧中所述对象的初始形状权重，确定所述对象的全局形状权重初值，所述全局形状权重初值用于表示所述视频中所述对象的脸部形状的初始信息；

迭代模块，用于基于所述多个视频帧中所述对象的脸部，对所述全局形状权重初值进行迭代，得到全局形状权重，所述全局形状权重用于表示所述视频中所述对象的脸部形状；

第三获取模块，用于基于所述全局形状权重，从所述视频中获取各个视频帧中所述对象的表情信息。

在一些实施例中，所述第二获取模块，用于对于所述多个视频帧中的任一视频帧，将所述视频帧中所述对象的初始表情权重的模量，确定为所述视频帧中所述对象的表情参数，所述表情参数用于表示所述视频帧中所述对象的表情信息的信息量；对所述多个视频帧按照表情参数由低到高的顺序排列；从所述多个视频帧中，获取表情参数排序靠前的目标数量的视频帧作为中立脸帧。

在一些实施例中，所述迭代模块，包括：

获取单元，用于对于所述视频中的任一视频帧，从所述视频帧中获取所述对象的脸部图像；

重建单元，用于基于所述视频帧中所述对象的初始表情权重和所述全局形状权重初值，重建所述视频帧中所述对象的第一脸部模型；

迭代单元，用于基于所述视频帧中所述对象的脸部图像和重建后的第一脸部模型，对所述全局形状权重初值进行迭代，得到所述视频帧中所述对象的目标形状权重；

第一确定单元，用于基于所述多个视频帧中所述对象的目标形状权重，确定所述全局形状权重。

在一些实施例中，所述迭代单元，用于基于所述视频帧中所述对象的脸部图像，确定多个关键点的参考位置，所述多个关键点的参考位置为原始的所述视频帧中所述对象的脸部上关键点的位置；基于重建后的第一脸部模型，确定所述多个关键点的第一预测位置，所述关键点的第一预测位置为所述对象的所述第一脸部模型上关键点的投影位置；基于所述多个关键点的第一预测位置和所述多个关键点的参考位置，确定第一形状误差，所述第一形状误差用于表示所述全局形状权重初值所表示的形状与所述视频帧中所述对象的脸部形状之间的差距；在保持所述视频帧中所述对象的表情权重不变的情况下，以最小化所述第一形状误差为目标，对所述全局形状权重初值进行调整，得到所述视频帧中所述对象的目标形状权重。

在一些实施例中，所述第三获取模块，包括：

划分单元，用于将所述多个视频帧划分为多个视频块，每个视频块包括多个视频帧；

第二确定单元，用于采用滑窗以预设步长在所述视频的所述多个视频帧上滑动，基于所述全局形状权重，确定当前所述滑窗内的目标误差，所述滑窗的长度为两个所述视频块的长度，所述预设步长为一个所述视频块的长度，所述目标误差用于表示当前所述滑窗内视频帧中所述对象的表情总误差；

调整单元，用于以最小化所述目标误差为目标，对当前所述滑窗内各个视频帧的表情权重进行调整，得到当前所述滑窗内各个视频帧中的表情信息。

在一些实施例中，所述第二确定单元，包括：

第一确定子单元，用于对于当前所述滑窗内的任一视频帧，基于所述全局形状权重和所述视频帧中所述对象的初始表情权重，确定拟合误差，所述拟合误差用于表示基于所述全局形状权重和所述初始表情权重拟合后的脸部所产生的表情误差；

第二确定子单元，用于基于当前所述滑窗内各个视频帧的拟合误差，确定当前所述滑窗的目标拟合误差；

第三确定子单元，用于基于所述目标拟合误差，确定当前所述滑窗内的目标误差。

在一些实施例中，所述第一确定子单元，用于对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的初始表情权重和所述全局形状权重，重建所述视频帧中所述对象的第二脸部模型；基于重建后的第二脸部模型，确定多个关键点的第二预测位置，所述关键点的第二预测位置为所述对象的所述第二脸部模型上关键点的投影位置；基于所述多个关键点的第二预测位置和所述多个关键点的参考位置，确定第二形状误差，所述多个关键点的参考位置为原始的所述视频帧中所述对象的脸部上关键点的位置，所述第二形状误差用于表示所述全局形状权重所表示的形状与所述视频帧中所述对象的脸部形状之间的差距；基于所述第二形状误差和所述多个关键点的权重，确定所述视频帧的拟合误差，所述关键点的权重用于表示所述关键点对所述视频帧中所述对象的表情的贡献程度。

在一些实施例中，所述第三确定子单元，用于基于至少一个约束规则，确定当前所述滑窗内的至少一个表情误差，所述至少一个约束规则用于约束当前所述滑窗内各个视频帧中所述对象的表情符合条件；基于所述目标拟合误差和所述至少一个表情误差，确定当前所述滑窗内的所述目标误差。

在一些实施例中，所述至少一个约束规则包括边界约束规则，所述边界约束规则用于约束所述对象的表情权重中的数值处于第一预设范围内；

所述第三确定子单元，用于对于当前所述滑窗内的任一视频帧，基于所述边界约束规则和所述视频帧中所述对象的表情权重中的数值，确定第一表情误差，所述第一表情误差用于表示所述对象的表情权重中的数值与所述第一预设范围的差距。

在一些实施例中，所述至少一个约束规则包括帧间约束规则，所述帧间约束规则用于约束相邻视频帧中所述对象的表情之间的差距处于第二预设范围内；

所述第三确定子单元，用于对于当前滑窗内除前两个视频帧外的任一视频帧，基于所述帧间约束规则所述视频帧的参考视频帧，确定第二表情误差，所述参考视频帧为排序在所述视频帧前面的第一数量的视频帧，所述第二表情误差用于表示相邻视频帧中所述对象的表情的差距。

在一些实施例中，所述装置还包括：

第二确定模块，用于对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的表情权重和所述全局形状权重，确定所述视频帧中所述对象的脸部模型；

所述第三确定子单元，用于对于当前滑窗内除前两个视频帧外的任一视频帧，对于当前滑窗内除前两个视频帧外的任一视频帧，基于所述帧间约束规则，获取所述参考视频帧中所述对象的脸部模型；基于所述参考视频帧中所述对象的脸部模型和所述视频帧中所述对象的脸部模型，确定所述第二表情误差。

在一些实施例中，所述至少一个约束规则包括滑窗约束规则，所述滑窗约束规则用于约束相邻滑窗中所述对象的表情之间的差距处于第三预设范围内；

所述第三确定子单元，用于基于所述滑窗约束规则，确定当前所述滑窗内第二数量的目标视频帧，所述目标视频为当前所述滑窗与上一个所述滑窗重叠的视频帧；对于任一目标视频帧，基于当前所述滑窗内所述目标视频帧的表情权重和上一个所述滑窗内所述目标视频帧的表情权重，确定第三表情误差，所述第三表情误差用于表示相邻滑窗内的视频帧中所述对象的表情的差距。

在一些实施例中，所述至少一个约束规则包括距离约束规则，所述距离约束规则用于约束所要提取的所述对象的表情信息不能脱离以所述初始表情权重为基准的目标范围；

所述第三确定子单元，用于对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的表情权重和所述初始表情权重，确定表情权重差距；基于所述表情权重差距和表情维度权重，确定第四表情误差，所述表情维度权重用于表示对所述对象的表情权重中各个维度的数值实施对应程度的约束，所述表情权重中各个维度用于表示生成所述对象的表情时所采用的表情基，所述第四表情误差用于表示提取的所述视频中所述对象的表情信息与所述初始表情权重所反映的表情信息之间的差距。

在一些实施例中，所述至少一个约束规则包括互斥约束规则，所述互斥约束规则用于约束所述对象的表情权重中存在互斥关系的表情基对应的维度上不能同时有值，所述互斥关系用于表示若任意两个表情基对应的表情同时出现在所述对象的脸部，则不符合生理规律；

所述第三确定子单元，用于对于当前所述滑窗内的任一视频帧，获取所述视频帧中所述对象的表情权重所采用的表情基集合；对于所述表情基集合中的任一表情基，从所述表情基集合中选择出与所述表情基存在所述互斥关系的表情基，得到所述表情基的互斥集合；基于所述表情基集合中各个表情基的互斥集合和所述视频帧对应的表情权重，确定第五表情误差，所述第五表情误差用于表示所述对象的表情权重中存在互斥关系的表情基之间的互斥程度。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的表情信息的获取方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中表情信息的获取方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各个方面或者各个方面的各种可选实现方式中提供的表情信息的获取方法。

本申请实施例提供了一种表情信息的获取方法，通过视频内多个视频帧中对象的初始表情权重，来确定视频中的中立脸帧，由于在表情基已知的情况下，初始表情权重能够反映视频帧中对象的表情信息，使得能够尽可能摆脱表情信息的干扰，从视频中获取对象的脸部形状，也即是在形状基已知的情况下，使得中立脸帧能够更加准确的反映对象的脸部形状，然后基于中立脸帧确定对象的全局形状权重初值，通过以原始的视频帧中所呈现的脸部为基准，对全局形状权重初值进行迭代，使得得到的全局形状权重能够在全局角度上更加准确的反映整个视频中对象的脸部形状，从而实现脸部形状和表情信息准确解耦的目的，也即是能够更加准确地从视频中排除对象的脸部形状的干扰，获得更准确的表情信息，利于提升后续三维动画的制作效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种表情信息的获取方法的实施环境示意图；

图2是根据本申请实施例提供的一种表情信息的获取方法的流程图；

图3是根据本申请实施例提供的另一种表情信息的获取方法的流程图；

图4是根据本申请实施例提供的一种对全局形状权重初值进行迭代的示意图；

图5是根据本申请实施例提供的一种滑窗的示意图；

图6是根据本申请实施例提供的一种计算当前滑窗内的目标误差的方法流程图；

图7是根据本申请实施例提供的另一种计算当前滑窗内的目标误差的方法流程图；

图8是根据本申请实施例提供的一种优化对象的表情的流程图；

图9是是根据本申请实施例提供的一种表情信息的获取方法的框架图；

图10是根据本申请实施例提供的一种表情信息的获取装置的框图；

图11是根据本申请实施例提供的另一种表情信息的获取装置的框图；

图12是根据本申请实施例提供的一种终端的结构框图；

图13是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的对象的脸部图像都是在充分授权的情况下获取的。

为了便于理解，以下，对本申请涉及的术语进行解释。

人工智能（Artificial Intelligence，AI）：指的是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的表情信息的获取方法可应用于人工智能领域中，可以看做是一种计算机视觉技术。

计算机视觉技术（Computer Vision，CV）：指的是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D（Three Dimensional）技术、虚拟现实、增强现实与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

FACS（Facial Action Coding System，面部行为编码系统）：指的是一种根据面部表情对人类面部动作进行生物学分类的系统。

3DMM（3D Morphable Models，三维可变形人脸模型）：指的是一个通用的三维人脸模型，用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配，并且可以由其他许多幅人脸正交基加权线性相加而来。我们所处的三维空间，每一点(x,y,z)实际上都是由三维空间中三个方向的基量 (1,0,0)，(0,1,0)，(0,0,1)加权相加所得，只是权重分别为x、y、z。转换到三维人脸，道理也一样。每一个三维的人脸，可以由一个数据库中所有人脸组成的基向量在三维空间中进行表示，而求解任意三维人脸的模型，实际上等价于求解各个基向量的系数的问题。

人脸表情可以由平均脸、人脸形状以及表情信息组合而成。平均脸指的是本申请实施例中中立脸帧呈现的脸部。平均脸中所呈现的表情信息的信息量小于表情阈值，可以视为几乎没有什么表情。人脸形状由形状基加权组合而成。形状基指的是本申请实施例中描述脸部形状时所采用的多个样本对象的脸部。通过对多个样本对象的脸部所呈现的形状进行加权求和，就可得到视频帧中的对象的脸部形状。由此作为形状基的多个样本对象的脸部看作是表征脸部形状的基底。表情信息由表情基加权组合而成。与形状基的原理类似，表情基指的是本申请实施例中描述表情信息时所采用的多个样本对象的脸部。通过对多个样本对象的脸部所呈现的表情进行加权求和，就可得到视频帧中的对象的表情。由此作为表情基的多个样本对象的脸部看作是表征表情的基底。形状基和表情基的作用相当于上述三维空间中x、y、z三个方向的基量 (1,0,0)，(0,1,0)，(0,0,1)。本申请实施例中采用的表情基可以是ARKit表情基方案下的52维表情基，本申请实施例对此不进行限制。采用的表情基越多，所生成的表情就越丰富，利于提高表情的多样性。

本申请实施例提供的表情信息的获取方法，能够由计算机设备执行。在一些实施例中，该计算机设备为终端或服务器。下面以计算机设备为服务器为例，介绍一下本申请实施例提供的表情信息的获取方法的实施环境，图1是根据本申请实施例提供的一种表情信息的获取方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端101运行有支持脸部图像采集的应用程序。应用程序可以是多媒体应用程序、剪辑类应用程序或者通讯类应用程序等，本申请实施例对此不进行限制。示意性的，终端101是用户使用的终端。用户可以使用终端101获取视频。视频中的对象可以是用户本人、其他人或者动物等，本申请实施例对此不进行限制。终端101能够从视频的各个视频帧中获取对象的脸部图像。然后，终端101将各个视频帧中的脸部图像发送服务器102，由服务器102从脸部图像中提取对象的表情信息。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和设备类型不加以限定。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持脸部图像采集的应用程序提供后台服务。服务器102能够将提取到的表情信息发送给终端101，由终端101基于接收到的表情信息生成三维动画角色。在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

图2是根据本申请实施例提供的一种表情信息的获取方法的流程图，参见图2，在本申请实施例中以由服务器执行为例进行说明。该表情信息的获取方法包括以下步骤：

201、对于视频内多个视频帧中的任一视频帧，服务器基于视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，初始形状权重用于表示视频帧中对象的脸部形状，初始表情权重用于表示视频帧中对象的表情信息。

在本申请实施例中，视频中包括多个视频帧。对于任一视频帧，视频帧中显示有对象的脸部。对象可以是人，也可以是动物等，本申请实施例对此不进行限制。服务器可以从视频帧中获取对象的脸部图像。对象的脸部图像中包含对象的脸部形状和对象的表情信息。对象的脸部形状可以由多个样本脸部形状通过加权求和来得到。在此情况下，多个对象脸部形状可看作是上述视频中对象的脸部形状的基底。相应地，样本脸部形状可以称之为形状基。对象的表情信息可以由多组样本表情信息通过加权求和来得到。在此情况下，多组样本表情信息可看作是上述视频中对象的表情信息的基底。相应地，样本表情信息可以称之为表情基。本申请实施例对多个样本对象的脸部不进行限制。服务器基于对象的脸部图像的脸部特征，获取对象的初始形状权重和初始表情权重。初始形状权重包括作为形状基的多个样本脸部形状的权重系数。初始表情权重包括作为表情基的多组样本表情信息的权重系数。

202、服务器基于多个视频帧中对象的初始表情权重，从多个视频帧中获取目标数量的视频帧作为中立脸帧，中立脸帧中对象的表情信息相比于其他视频帧中对象的表情信息的信息量少。

在本申请实施例中，有些视频帧中的对象的表情丰富，则这些视频中对象的表情信息的信息量多。有些视频帧中的对象的表情单调，则这些视频中对象的表情信息的信息量少。服务器根据多个视频帧中对象的初始表情权重，确定各个视频帧中对象的表情信息的信息量的多少。然后，服务器将多个视频帧中表情信息的信息量较少的目标数量的视频帧作为中立脸帧。本申请实施例对目标数量的大小不进行限制。中立脸帧也可以看作是基本上没有表情信息的视频帧。

203、服务器基于目标数量的中立脸帧中对象的初始形状权重，确定对象的全局形状权重初值，全局形状权重初值用于表示视频中对象的脸部形状的初始信息。

在本申请实施例中，由于中立脸帧中表情信息的信息量较少，因此对象的表情信息对脸部形状的提取的干扰较小，使得从中立脸帧中提取的对象的初始形状权重能够更加准确的反映对象的脸部形状。服务器根据目标数量的中立脸帧中对象的初始形状权重，计算对象的全局形状权重初值。全局形状权重初值能够在全局角度上更加准确反映整个视频中对象的脸部形状。

204、服务器基于多个视频帧中对象的脸部，对全局形状权重初值进行迭代，得到全局形状权重，全局形状权重用于表示视频中对象的脸部形状。

在本申请实施例中，服务器能够以多个视频帧中对象的脸部形状为基准，对全局形状权重初值进行调整。也即是，服务器对全局形状权重初值进行调整，以使全局形状权重初值所表示的脸部形状逐渐贴近于视频中真实的脸部形状。在调整后的全局形状权重初值满足条件后，服务器可以基于最终调整后的全局形状权重初值，确定全局形状权重。其中，对于任一视频帧，条件可以是调整后的全局形状权重初值与视频帧对应的初始形状权重之间的差距小于误差阈值，本申请实施例对此不进行限制。

205、服务器基于全局形状权重，从视频中获取各个视频帧中对象的表情信息。

在本申请实施例中，在形状基已知的情况下，全局形状权重能够在全局角度上更加准确的反映整个视频中对象的脸部形状。服务器基于全局形状权重所表示的脸部形状，从视频中获取各个视频帧中对象的表情信息。也即是，服务器可以从视频中过滤掉全局形状权重所表示脸部形状的干扰，更准确地获取表情信息，从而实现脸部形状和表情信息的解耦。

图3是根据本申请实施例提供的另一种表情信息的获取方法的流程图，参见图3，在本申请实施例中以由服务器执行为例进行说明。该表情信息的获取方法包括以下步骤：

301、对于视频内多个视频帧中的任一视频帧，服务器基于视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，初始形状权重用于表示视频帧中对象的脸部形状，初始表情权重用于表示视频帧中对象的表情信息。

在本申请实施例中，对于视频内多个视频帧中的任一视频帧，服务器可以从视频帧中获取对象的脸部图像。或者，对象的脸部图像由终端从视频帧中提取，从而服务器可以直接从终端中获取视频帧中对象的脸部图像，本申请实施例对此不进行限制。在由服务器从视频帧中提取脸部图像的过程中，服务器可以通过脸部检测模型，检测视频帧中的对象的脸部，然后从视频帧中提取对象的脸部图像。脸部检测模型可以是MTCNN（Multi-TaskConvolutional Neural Network，多任务卷积神经网络）、CNN（Convolutional NeuralNetworks，卷积神经网络）、S3FD（Single Shot Scale-invariant Face Detector，单目不变尺度人脸检测器）或者FaceBoxes网络等能够用于执行上述步骤的网络，本申请实施例对脸部检测模型的结构不进行限制。

形状基指的是用于描述脸部形状的形状基底，包括多个样本脸部形状。每个样本脸部形状可以基于样本脸部上与形状相关的关键点的位置来确定，也可以基于样本脸部形状所属的样本脸部图像来确定。表情基指的是用于描述表情信息的表情基底，包括多组样本表情信息。每组样本表情信息可以基于样本脸部上与表情相关的关键点的位置来确定，也可以基于样本表情信息所属的样本脸部图像来确定。服务器可以基于形状基和表情基，从对象的脸部图像中获取初始形状权重和初始表情权重。可选地，服务器可以将脸部图像输入到训练好的脸部重建网络，以通过脸部重建网络提取对象的初始形状权重。脸部重建网络可以是PRNet（Position map Regression Network，位置图回归网络）、3DDFA（3DDense Face Alignment，三维稠密人脸对齐）网络或者 DECA（Detailed ExpressionCapture and Animation，细致表情捕捉和动画）网络等能够用于执行上述步骤的网络，本申请实施例对脸部重建网络的结构不进行限制。脸部重建网络可以基于形状基训练得到。服务器可以将脸部图像输入到训练好的表情回归网络，以通过表情回归网络提取对象的初始表情权重。表情回归网络可以是ResNet-50（一种残差网络）、MobileNet网络或者ShuffleNet网络等为主干网络的回归模型等能够用于执行上述步骤的网络，本申请实施例对表情回归网络的结构不进行限制。表情回归网络可以基于表情基训练得到。

302、服务器基于多个视频帧中对象的初始表情权重，从多个视频帧中获取目标数量的视频帧作为中立脸帧，中立脸帧中对象的表情信息相比于其他视频帧中对象的表情信息的信息量少。

在本申请实施例中，对于多个视频帧中的任一视频帧，服务器基于视频帧中对象的初始表情权重，计算视频帧中对象的表情信息的信息量。然后，服务器对多个视频帧中对象的表情信息的信息量进行比较，从多个视频帧中筛选出表情信息的信息量较少的目标数量的视频帧，作为中立脸帧。

在一些实施例中，初始表情权重是向量形式的权重。初始表情权重包括用于组成上述对象的表情信息的多个表情基的权重系数。每个表情基所呈现的表情不同。初始表情权重中的权重系数能够指示所采用的表情基中表情信息的多少。服务器可以根据初始表情权重的模量，从多个视频帧中筛选中立脸帧。相应地，服务器获取中立脸帧的过程为：对于多个视频帧中的任一视频帧，服务器将视频帧中对象的初始表情权重的模量，确定为视频帧中对象的表情参数。表情参数用于表示视频帧中对象的表情信息的信息量。然后，服务器对多个视频帧按照表情参数由低到高的顺序排列。然后，服务器从多个视频帧中，获取表情参数排序靠前的目标数量的视频帧作为中立脸帧。本申请实施例提供的方案，由于初始表情权重能够反映视频帧中对象的表情信息，通过计算初始表情权重的模量，使得能够确定视频帧中表情信息的信息量的多少，然后选择表情信息信息量较少的视频帧作为中立脸帧，由于中立脸帧中的表情信息的信息量较少，因此对象的表情信息对提取脸部形状的干扰较小，利于后续能够尽可能摆脱表情信息的干扰，从视频中获取对象的脸部形状，也即是从中立脸帧中的提取的对象的初始形状权重能够更加准确的反映对象的脸部形状。

303、服务器基于目标数量的中立脸帧中对象的初始形状权重，确定对象的全局形状权重初值，全局形状权重初值用于表示视频中对象的脸部形状的初始信息。

在本申请实施例中，服务器从多个视频帧中对象的初始形状权重中，获取目标数量的中立脸帧中对象的初始形状权重。然后，服务器可以对目标数量的中立脸帧中对象的初始形状权重进行加权求均值，得到全局形状权重初值。其中，目标数量的中立脸帧的权重可以相同，也可以不同，本申请实施例对此不进行限制。由于中立脸帧中的表情信息的信息量较少，因此对象的表情信息对脸部形状的提取的干扰较小，从而得到的全局形状权重初值能够在全局角度上更加准确的反映整个视频中对象的脸部形状。

304、服务器基于多个视频帧中对象的脸部，对全局形状权重初值进行迭代，得到全局形状权重，全局形状权重用于表示视频中对象的脸部形状。

在本申请实施例中，对于多个视频帧中的任一视频帧，服务器以视频帧中对象的脸部为基准，对全局形状权重初值进行调整，以使全局形状权重初值所表示的脸部形状逐渐贴近于视频帧中真实的脸部形状。然后，服务器基于多个视频帧对应的调整后的全局形状权重初值，确定全局形状权重。

在一些实施例中，服务器可以基于视频帧中对象的初始表情权重和全局形状权重初值，来拟合对象的脸部；然后通过拟合后的脸部与视频帧中真实的脸部，来对全局形状权重初值进行迭代，以使拟合后的脸部逐渐贴近于视频帧中真实的脸部。相应地，对于视频中的任一视频帧，服务器从视频帧中获取对象的脸部图像。然后，服务器执行步骤304的过程为：服务器基于视频帧中对象的初始表情权重和全局形状权重初值，重建视频帧中对象的第一脸部模型。然后，服务器基于视频帧中对象的脸部图像和重建后的第一脸部模型，对全局形状权重初值进行迭代，得到视频帧中对象的目标形状权重。然后，服务器基于多个视频帧中对象的目标形状权重，确定全局形状权重。本申请实施例提供的方案，通过视频帧中对象的初始表情权重和全局形状权重初值，来拟合对象的脸部模型，然后通过对比拟合后的脸部模型和视频帧中真实的脸部，对全局形状权重初值进行迭代，以使拟合后的脸部模型逐渐贴近于视频帧中真实的脸部，从而使得得到的全局形状权重能够在全局角度上更加准确反映整个视频中对象的脸部形状，利于后续更加准确地解耦脸部形状和表情信息，以提取到更准确的表情信息。

在重建视频帧中对象的第一脸部模型的过程中，第一脸部模型为三维模型，例如3DMM模型。相应地，服务器可以将视频帧中对象的初始表情权重和全局形状权重初值输入到3DMM模型中，通过3DMM模型重建视频帧中对象的第一脸部模型。

在对全局形状权重初值进行迭代的过程中，服务器可以通过对比拟合后的脸部模型和视频帧中真实脸部中关键点的位置，来对全局形状权重初值进行调整，以使拟合后的脸部模型中关键点的位置向视频帧中真实脸部中关键点的位置对齐。相应地，服务器对全局形状权重初值进行迭代的过程为：服务器基于视频帧中对象的脸部图像，确定多个关键点的参考位置。多个关键点的参考位置为原始的视频帧中对象的脸部上关键点的位置。然后，服务器基于重建后的第一脸部模型，确定多个关键点的第一预测位置。关键点的第一预测位置为对象的第一脸部模型上关键点的投影位置。然后，服务器基于多个关键点的第一预测位置和多个关键点的参考位置，确定第一形状误差。第一形状误差用于表示全局形状权重初值所表示的形状与视频帧中对象的脸部形状之间的差距。然后，在保持视频帧中对象的表情权重不变的情况下，服务器以最小化第一形状误差为目标，对全局形状权重初值进行调整，得到视频帧中对象的目标形状权重。本申请实施例提供的方案，由于对象的脸部上关键点的位置能够反映脸部的形状，通过以视频帧中真实脸部中关键点的位置为参考，不断调整全局形状权重初值，以使基于全局形状权重初值拟合后的脸部模型上关键点的位置与参考位置尽可能对齐，从而使得目标形状权重能够更加准确反映当前视频帧中对象的脸部形状，利于后续更加准确地解耦脸部形状和表情信息，以提取到更准确的表情信息。

其中，关键点是对象脸部上的点。关键点的位置与对象的脸部形状和表情信息相关。多个关键点可以包括眉毛内侧的眉毛端点、下巴尖的端点、外侧嘴角的两个端点、两眉毛上边缘的中心端点、下巴两侧的若干端点、双眼上下及眼角的端点、上下嘴唇内外侧边缘的中央端点以及其他若干端点等，本申请实施例对关键点的类型和数量均不进行限制。在获取多个关键点的参考位置的过程中，服务器可以将从视频帧中提取的脸部图像，输入到开源的关键点标注网络，通过关键点标注网络为对象的脸部图像标注多个关键点，从而确定多个关键点的参考位置。关键点标注网络可以为DAN（Deep Alignment Network，深度对齐网络）网络、LAB（Look at Boundary，基于边缘检测的人脸对齐算法）网络或者3DDFA网络等能够用于执行上述步骤的网络，本申请实施例对此不进行限制。服务器可以在进行迭代的之前的任一时机，为对象的脸部图像标注多个关键点，本申请实施例对获取多个关键点的参考位置的执行时机不进行限制。可选地，服务器可以在提取到脸部图像之后，就相继获取多个关键点的参考位置，也即是在服务器可以在执行步骤301的过程中，为对象的脸部图像标注多个关键点。在获取多个关键点的第一预测位置的过程中，服务器可以将第一脸部模型中的关键点投影到二维平面上，得到多个关键点的第一预测位置。然后，对于任一关键点，服务器可以通过计算关键点的参考位置与第一预测位置之间的欧式距离，得到关键点对应的预测误差。然后，服务器可以对多个关键点对应的预测误差进行加权求和，得到上述第一形状误差。多个关键点对应的权重可以相同，也可以不同，本申请实施例对此不进行限制。

对于任一视频帧，服务器可以通过下述公式一，对全局形状权重初值进行迭代。

公式一：

其中，

用于表示全局形状权重初值；/>

用于表示预定义的形状基，用于描述视频帧中对象的脸部形状；/>

用于表示当前视频帧中对象的初始形状权重；/>

用于表示预定义的表情基，用于描述视频帧中对象的表情信息；/>

用于表示当前视频帧中对象的初始表情权重；/>

用于表示调整后的全局形状权重初值。

例如，图4是根据本申请实施例提供的一种对全局形状权重初值进行迭代的示意图。参见图4，对于任一视频帧，服务器基于视频帧中对象的初始表情权重和全局形状权重初值，重建视频帧中对象的第一脸部模型。然后，服务器将第一脸部模型上的多个关键点投影到二维平面上，得到多个关键点的第一预测位置。然后，对于任一关键点，服务器基于关键点的第一预测位置401和关键点的参考位置402，计算关键点对应的预测误差。然后，服务器基于多个关键点对应的预测误差，确定第一形状误差。服务器以第一形状误差的大小为监督，通过公式一不断优化全局形状权重初值，以使第一形状误差尽可能减小，直至第一形状误差满足条件，停止迭代。

对于多个视频帧中的任一视频帧，在保持视频帧中对象的表情权重不变的情况下，以最小化第一形状误差为目标，服务器可以采用梯度下降法，对全局形状权重初值进行调整，得到视频帧中对象的目标形状权重。其中，服务器可以在第一形状误差低于预设误差的情况下，停止迭代，将当前调整后的全局形状权重初值作为视频帧中对象的目标形状权重。或者，服务器还可以在第一形状误差连续目标次数不变的情况下，停止迭代，将当前调整后的全局形状权重初值作为视频帧中对象的目标形状权重。本申请实施例对停止迭代的指标和目标次数均不进行限制。

在基于多个视频帧中对象的目标形状权重，确定全局形状权重的过程中，服务器可以对多个视频帧中对象的目标形状权重进行加权求和，来计算全局形状权重。其中，多个视频帧对应的权重可以相同，也可以不同，本申请实施例对此不进行限制。

305、服务器将多个视频帧划分为多个视频块，每个视频块包括多个视频帧。

在本申请实施例中，在得到能够反映整个视频中对象的脸部形状的全局形状权重后，服务器可以基于对象的脸部上的关键点对各个视频帧中对象的初始表情权重进行优化。也即是，对于任一视频帧，服务器将视频帧中对象的初始表情权重，作为视频帧对应的表情权重的初始值；将全局形状权重作为视频帧对应的形状权重的初始值。然后，服务器对视频帧对应的表情权重的初始值进行调整，以使基于调整后的表情权重和全局形状权重拟合后的脸部上的关键点，与视频帧中真实脸部上的关键点对齐。由于视频内某一帧中对象的表情与前后帧的表情存在着相似性，因此服务器可以基于滑窗的联合优化方法，结合前后多帧同时求解，以对视频帧对应的初始表情权重进行优化。也即是，服务器通过执行步骤305至步骤307，对各个视频帧中对象的初始表情权重进行调整。

服务器可以将视频中所有的视频帧，按照视频帧的时序，以预设数量的视频帧为一个单位，划分为多个视频块。本申请实施例对预设数量的大小不进行限制。若最后剩余的视频帧的数量小于预设数量，则后剩余的视频帧作为一个新的视频块。

例如，图5是根据本申请实施例提供的一种滑窗的示意图。参见图5，服务器将视频中所有的视频帧，按照视频帧的时序，以T帧为一个单位，划分为多个视频块。服务器将滑窗501按照视频帧的时序，以预设步长在视频中所有的视频帧上滑动。其中，滑窗501的长度为两个视频块的长度，也即是滑窗501的长度等于2T帧。预设步长为一个视频块的长度，也即是滑窗501每次滑动T帧。

需要说明的是，步骤305的执行时机可以是执行步骤306前的任一时机，本申请实施例对此不进行限制。例如，服务器可以在对全局形状权重初值进行迭代的同时，将多个视频帧划分为多个视频块。

306、服务器采用滑窗以预设步长在视频的多个视频帧上滑动，基于全局形状权重，确定当前滑窗内的目标误差，滑窗的长度为两个视频块的长度，预设步长为一个视频块的长度，目标误差用于表示当前滑窗内视频帧中对象的表情总误差。

在本申请实施例中，服务器将滑窗按照视频帧的时序，在视频中所有的视频帧上滑动，每次滑动一个视频块的长度。由于滑窗的长度为两个视频块的长度，因此除首个滑窗外，当前滑窗与前一个滑窗存在一个被复用的视频块。被复用视频块可以称为是重叠块。对于当前滑窗而言，服务器可以逐帧计算当前滑窗内的表情总误差，也即是目标误差。也即是，服务器能够通过对比当前滑窗内基于表情权重和全局形状权重拟合后的脸部与视频中真实的脸部，确定拟合后的对象表情与视频中真实表情之间的差距。

在一些实施例中，图6是根据本申请实施例提供的一种计算当前滑窗内的目标误差的方法流程图。参见图6，服务器可以通过步骤3061至步骤3062，来确定当前滑窗内的目标误差。

3061、服务器基于当前滑窗内各个视频帧中对象的初始表情权重和全局形状权重，确定当前滑窗的目标拟合误差。

其中，目标拟合误差用于表示当前滑窗内基于多个视频帧中对象的初始表情权重和全局形状权重拟合后的脸部所产生的表情误差。对于当前滑窗内的所有视频帧，逐帧计算各个视频帧对应的表情权重与形状权重的拟合误差。然后，服务器通过当前滑窗内的所有视频帧对应的拟合误差，确定当前滑窗的目标拟合误差。相应地，服务器确定当前滑窗的目标拟合误差的过程为：对于当前滑窗内的任一视频帧，服务器基于全局形状权重和视频帧中对象的初始表情权重，确定拟合误差。拟合误差用于表示基于全局形状权重和初始表情权重拟合后的脸部所产生的表情误差。然后，服务器基于当前滑窗内各个视频帧的拟合误差，确定当前滑窗的目标拟合误差。本申请实施例提供的方案，根据各个视频帧对应的表情权重与形状权重拟合视频帧中对象的脸部，然后通过对比拟合后的脸部与视频帧中真实的脸部，来计算各个视频帧对应的拟合误差，使得拟合误差能够准确地反映拟合后的脸部上的表情与视频帧中真实表情之间的差距，从而使得目标拟合误差能够更加准确的反映当前滑窗内拟合后的脸部所产生的表情误差，利于后续基于目标拟合误差对初始表情权重进行优化，以使优化后的表情权重更加准确地反映对象的表情信息。

在确定任一视频帧对应的拟合误差的过程中，服务器基于原始视频帧中对象的脸部上的关键点和拟合后的当前视频帧中对象的脸部上的关键点，来确定当前视频帧对应的拟合误差。相应地，服务器确定任一视频帧对应的拟合误差的过程为：对于当前滑窗内的任一视频帧，服务器基于视频帧中对象的初始表情权重和全局形状权重，重建视频帧中对象的第二脸部模型。然后，服务器基于重建后的第二脸部模型，确定多个关键点的第二预测位置，关键点的第二预测位置为对象的第二脸部模型上关键点的投影位置。服务器基于多个关键点的第二预测位置和多个关键点的参考位置，确定第二形状误差。服务器基于第二形状误差和多个关键点的权重，确定视频帧的拟合误差。其中，多个关键点的参考位置为原始的视频帧中对象的脸部上关键点的位置。第二形状误差用于表示全局形状权重所表示的形状与视频帧中对象的脸部形状之间的差距。关键点的权重用于表示关键点对视频帧中对象的表情的贡献程度。也即是，关键点的权重的大小与关键点的位置对视频帧中对象的表情的贡献程度正相关。本申请实施例提供的方案，由于对象的脸部上关键点的位置反映脸部的表情，通过以视频帧中真实脸部上关键点的位置为参考，对拟合后的脸部上的关键点进行比对，使得拟合误差能够准确地反映拟合后的脸部上的表情与视频帧中真实的表情之间的差距；并且，由于脸部上不同的关键点对拟合后的表情的贡献程度不同，有些关键点的位置包含了确定表情的决定性信息，而有些关键点位置与表情无关，通过关键点的权重来计算拟合误差，进一步提高了拟合误差的准确性，利于后续更加准确地优化表情权重。

其中，由于脸部上不同的关键点对拟合后的表情的贡献程度不同，则不同关键点的权重不同。服务器可以对不同关键点按照以下顺序采取从大到小的权重值，包括：眉毛内侧的眉毛端点、下巴尖的端点、外侧嘴角的两个端点、两眉毛上边缘的中心端点、下巴两侧的若干端点、双眼上下及眼角的端点、上下嘴唇内外侧边缘的中央端点以及其他若干端点对应的权重依次降低。

在一些实施例中，服务器可以通过下述公式二，计算当前滑窗内任一视频帧对应的拟合误差。

公式二：

其中，

用于表示多个关键点的权重；/>

用于表示当前视频帧中对象的脸部上多个关键点的参考位置；/>

用于表示多个关键点的第二预测位置；/>

用于表示当前视频帧对应的表情权重，/>

用于表示当前视频帧对应的形状权重，也即是全局形状权重；/>

用于表示平均绝对误差（Mean Absolute Error，MAE），可替换成均方根误差（Root Mean Square Error， RMSE），或者替换成如MSE（Mean SquareError，均方误差）等其他一阶、二阶范式的度量，本申请实施例对此不进行限制。

然后，服务器可以对当前滑窗内多个视频帧对应的拟合误差进行加权求和，来得到当前滑窗的目标拟合误差。其中，多个视频帧对应的拟合误差的权重可以相同，也可以不同，本申请实施例对此不进行限制。

3062、服务器基于目标拟合误差，确定当前滑窗内的目标误差。

其中，服务器可以直接将目标拟合误差作为当前滑窗内的目标误差；或者，在目标拟合误差的基础上，服务器还可以基于至少一个约束规则，来确定当前滑窗内的目标误差，以进一步约束当前滑窗内拟合后的对象的表情的合理性和平滑性。表情的合理性和平滑性指的是当前滑窗内相邻视频帧中对象的表情的不发生突变，也即是，至少一个约束规则使当前滑窗内视频帧中对象的表情的变化尽可能平滑，符合对象的生理规律。

在一些实施例中，服务器可以基于目标拟合误差和至少一个约束规则，来确定当前滑窗内的目标误差。相应地，服务器可以通过下述步骤（1）步骤（2），来计算当前滑窗内的目标误差。可参见图7，图7是根据本申请实施例提供的一种计算当前滑窗内的目标误差的方法流程图。

（1）服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差，至少一个约束规则用于约束当前滑窗内各个视频帧中对象的表情符合条件。

其中，不同的约束规则用于约束当前滑窗内各个视频帧中对象的表情符合的条件不同。从整体而言，至少一个约束规则所对应的条件都是为了使得当前滑窗内拟合后的对象的表情更加合理和平滑。本申请实施例对至少一个约束规则不进行限制。下面示例性地介绍五种约束规则，但并不限于此。

第一种约束规则为边界约束规则。边界约束规则用于约束对象的表情权重中的数值处于第一预设范围内。本申请实施例对第一预设范围不进行限制。可选地，第一预设范围为不大于1且不小于0。相应地，服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差的过程为：对于当前滑窗内的任一视频帧，服务器基于边界约束规则和视频帧中对象的表情权重中的数值，确定第一表情误差。其中，第一表情误差用于表示对象的表情权重中的数值与第一预设范围的差距。本申请实施例提供的方案，通过将对象的表情权重中的数值约束在第一预设范围内，使得约束后的表情权重能够更加准确地反映视频中原始的表情，利于后续将对象的表情呈现在三维动画角色上。

可选地，服务器可以通过下述公式三，来计算当前滑窗内的任一视频帧对应的第一表情误差。

公式三：

其中，

用于表示当前视频帧对应的第一表情误差；/>

用于表示当前视频帧对应的表情权重；/>

（Rectified Linear Unit，整流线性单元）用于表示所使用的函数算法。在得到当前滑窗内各个视频帧对应的第一表情误差之后，服务器可以对各个视频帧对应的第一表情误差进行加权求和，来计算当前滑窗的第一表情总误差。各个视频帧的可以不同，也可以相同（比如都为1，相当于直接求和），本申请实施例对此不进行限制。

第二种约束规则为帧间约束规则。帧间约束规则用于约束相邻视频帧中对象的表情之间的差距处于第二预设范围内。本申请实施例对第二预设范围不进行限制。也即是，帧间约束规则用于约束相邻视频帧中对象的表情不发生突变。相应地，服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差的过程为：对于当前滑窗内除前两个视频帧外的任一视频帧，服务器基于帧间约束规则视频帧的参考视频帧，确定第二表情误差。其中，参考视频帧为排序在视频帧前面的第一数量的视频帧。本申请实施例对第一数量的大小不进行限制。第二表情误差用于表示相邻视频帧中对象的表情的差距。服务器可以不用基于帧间约束规则，对当前滑窗内的前两个视频帧对应的表情权重进行约束；而是以当前滑窗内的前两个视频帧对应的表情权重为参考，对后续的视频帧对应的表情权重进行约束。本申请实施例提供的方案，通过排序在当前视频帧前面的参考视频帧中对象的脸部为参考，对比当前视频帧中对象的脸部与参考视频帧中对象的脸部之间的差距，使得第二表情误差能够更加准确地反映相邻视频帧中对象的表情的差距，从而利于后续基于第二表情误差来约束相邻视频帧中对象的表情不发生突变，符合对象的生理规律。

其中，对于当前滑窗内的任一视频帧，服务器可以基于视频帧中对象的表情权重和全局形状权重，确定视频帧中对象的脸部模型。相应地，在上述计算第二表情误差的过程中，服务器可以通过对比当前视频帧中对象的脸部模型和参考视频帧中对象的脸部模型，来计算当前视频帧对应的第二表情误差。也即是，服务器基于帧间约束规则，获取参考视频帧中对象的脸部模型。然后服务器基于参考视频帧中对象的脸部模型和视频帧中对象的脸部模型，确定第二表情误差。本申请实施例提供的方案，由于视频帧对应的脸部模型由视频帧对应的表情权重和形状权重拟合得到，因此脸部模型能够反映视频帧中对象的表情，通过排序在当前视频帧前面的参考视频帧中对象的脸部模型为参考，对比当前视频帧中对象的脸部模型与参考视频帧中对象的脸部模型之间的差距，使得第二表情误差能够更加准确地反映相邻视频帧中对象的表情的差距，从而利于后续基于第二表情误差来约束相邻视频帧中对象的表情不发生突变，使得拟合出的对象的表情更加合理，符合对象的生理规律。

可选地，服务器可以通过下述公式四，来计算当前滑窗内的任一视频帧对应的第二表情误差。

公式四：

其中，

用于表示当前视频帧对应的第二表情误差；/>

用于表示当前视频帧对应的表情权重；/>

用于表示当前视频帧对应的形状权重；

用于表示当前视频帧中对象的脸部模型；/>

用于表示前一个视频帧中对象的脸部模型；/>

用于表示两帧前对象的脸部模型。服务器可以基于三维的脸部模型中各个顶点的位置，来计算上述第二表情误差。在得到当前滑窗内各个视频帧对应的第二表情误差之后，服务器可以对各个视频帧对应的第二表情误差进行加权求和，来计算当前滑窗的第二表情总误差。各个视频帧的可以不同，也可以相同（比如都为1，相当于直接求和），本申请实施例对此不进行限制。

第三种约束规则为滑窗约束规则。滑窗约束规则用于约束相邻滑窗中对象的表情之间的差距处于第三预设范围内。本申请实施例对第三预设范围不进行限制。也即是，滑窗约束规则用于约束相邻滑窗中对象的表情不发生突变。相应地，服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差的过程为：服务器基于滑窗约束规则，确定当前滑窗内第二数量的目标视频帧。目标视频为当前滑窗与上一个滑窗重叠的视频帧。对于任一目标视频帧，服务器基于当前滑窗内目标视频帧的表情权重和上一个滑窗内目标视频帧的表情权重，确定第三表情误差。第三表情误差用于表示相邻滑窗内的视频帧中对象的表情的差距。本申请实施例提供的方案，由于视频帧对应的表情权重能够反映视频帧中对应的表情信息，通过对比相邻滑窗内重叠的视频帧对应的表情权重，使得第三表情误差能够更加准确地反映相邻滑窗内的视频帧中对象的表情的差距，从而利于后续基于第三表情误差来约束相邻滑窗中对象的表情不发生突变，使得拟合出的对象的表情更加合理，符合对象的生理规律。

可选地，服务器可以通过下述公式五，来计算当前滑窗内对应的第三表情误差。

公式五：

其中，

用于表示当前滑窗内对应的第三表情误差；/>

用于表示当前滑窗内所在的第/>

个视频块（/>

）中第/>

帧对应的表情权重；/>

用于表示前一个用于表示/>

个视频块中第/>

帧对应的表情权重；/>

用于表示视频块中视频帧的数量；/>

用于表示均方根误差，可替换成平均绝对误差，或者替换成如MSE等其他一阶、二阶范式的度量，本申请实施例对此不进行限制。

第四种约束规则为距离约束规则。距离约束规则用于约束所要提取的对象的表情信息不能脱离以初始表情权重为基准的目标范围。本申请实施例对目标范围不进行限制。也即是，滑窗约束规则用于约束拟合出的对象的脸部中的表情权重与初始表情权重之间的差距不超过目标范围，以提高拟合出的对象的表情的合理性和真实性。相应地，服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差的过程为：对于当前滑窗内的任一视频帧，服务器基于视频帧中对象的表情权重和初始表情权重，确定表情权重差距。然后，服务器基于表情权重差距和表情维度权重，确定第四表情误差。表情维度权重用于表示对对象的表情权重中各个维度的数值实施对应程度的约束。表情维度权重与表情权重中各个维度对表情的贡献程度正相关。表情权重中各个维度用于表示生成对象的表情时所采用的表情基。第四表情误差用于表示提取的视频中对象的表情信息与初始表情权重所反映的表情信息之间的差距。本申请实施例提供的方案，通过表情维度权重对表情权重的不同维度实施不同程度的优化距离约束，由于表情维度权重与表情权重中各个维度对表情的贡献程度正相关，对表情的贡献程度越大，则对表情权重中对应维度的数值进行更大程度的距离优化，使得优化后的表情权重更加准确地反映视频帧中的表情信息。

可选地，服务器可以通过下述公式六，来计算当前滑窗内的任一视频帧对应的第四表情误差。

公式六：

其中，

用于表示第四表情误差；/>

用于表示当前迭代过程中当前视频帧对应的表情权重；/>

用于表示表情维度权重；/>

用于表示当前视频帧的初始表情权重。在得到当前滑窗内各个视频帧对应的第四表情误差之后，服务器可以对各个视频帧对应的第四表情误差进行加权求和，来计算当前滑窗的第四表情总误差。各个视频帧的可以不同，也可以相同（比如都为1，相当于直接求和），本申请实施例对此不进行限制。

第五种约束规则为互斥约束规则。互斥约束规则用于约束对象的表情权重中存在互斥关系的表情基对应的维度上不能同时有值。互斥关系用于表示若任意两个表情基对应的表情同时出现在对象的脸部，则不符合生理规律。也即是，根据对象的脸部的生理规律，即由于肌肉群关系的限制，对象的脸部无法在一个肌肉群上同时做两个作用力互斥的表情。例如，对象无法在闭合右眼的情况下睁开右眼。因此不同表情基之间存在互斥关系，存在互斥的表情基对应的维度上不能同时有值。相应地，服务器基于至少一个约束规则，确定当前滑窗内的至少一个表情误差的过程为：对于当前滑窗内的任一视频帧，服务器获取视频帧中对象的表情权重所采用的表情基集合。然后，对于表情基集合中的任一表情基，服务器从表情基集合中选择出与表情基存在互斥关系的表情基，得到表情基的互斥集合。然后，服务器基于表情基集合中各个表情基的互斥集合和视频帧对应的表情权重，确定第五表情误差。第五表情误差用于表示对象的表情权重中存在互斥关系的表情基之间的互斥程度。互斥约束规则可以是基于FACS的表情基的约束规则。本申请实施例提供的方案，通过表情基之间的互斥关系，对视频帧中的对象的表情权重基进行约束，使得后续优化后的表情权重符合上述互斥关系，从而基于优化后的表情权重得到的表情符合对象的生理规律，更加准确地反映用户的表情信息。

可选地，服务器可以通过下述公式七，来计算当前滑窗内的任一视频帧对应的第五表情误差。

公式七：

其中，

用于表示当前视频帧对应的第五表情误差；/>

用于表示当前视频帧对应的表情权重；/>

用于表示表情基集合中的第/>

个表情基；/>

用于表示与第/>

个表情基存在互斥关系的互斥集合；/>

用于表示与第/>

个表情基存在互斥关系的表情基；/>

用于表示表情权重的维度。在得到当前滑窗内各个视频帧对应的第五表情误差之后，服务器可以对各个视频帧对应的第五表情误差进行加权求和，来计算当前滑窗的第五表情总误差。各个视频帧对应的第五表情误差的权重可以不同，也可以相同（比如都为1，相当于直接求和），本申请实施例对此不进行限制。

（2）服务器基于目标拟合误差和至少一个表情误差，确定当前滑窗内的目标误差。

可选地，服务器可以基于目标拟合误差和上述五种类型的表情误差，确定当前滑窗内的目标误差。目标误差可以看作是关于表情的损失。其中，服务器可以对上述五种类型的表情误差进行加权求和，再与目标拟合误差相加，得到当前滑窗内的目标误差。本申请实施例对目标误差的具体计算方式不进行限制。

307、服务器以最小化目标误差为目标，对当前滑窗内各个视频帧的表情权重进行调整，得到当前滑窗内各个视频帧中的表情信息。

在本申请实施例中，服务器可以以最小化目标误差为目标，采用梯度下降算法，对当前滑窗内各个视频帧的表情权重进行优化调整，来得到当前滑窗内各个视频帧中的表情信息。当目标误差处于预设误差范围时，对于任一视频帧，服务器将最后一次调整的表情权重，作为视频帧中的表情信息。或者，在目标误差连续多次不变的情况下，对于任一视频帧，服务器将最后一次调整的表情权重，作为视频帧中的表情信息，本申请实施例对此不进行限制。

例如，图8是根据本申请实施例提供的一种优化对象的表情的流程图。参见图8，对于任一视频帧，服务器基于视频帧中对象的初始表情权重和全局形状权重，对视频帧对应的表情权重和形状权重进行初始化。然后，在滑窗以预设步长在视频的多个视频帧上滑动的过程中，服务器逐帧计算拟合误差和至少一个表情误差，从而确定当前滑窗对应的目标误差。然后，服务器采用梯度下降算法，使得目标误差最小化。然后，对于任一视频帧，服务器将最后一次调整的表情权重，作为视频帧中的表情信息。在此过程中，为了使目标误差最小化，服务器还可以适当地调整全局形状权重，本申请实施例对此不进行限制。

为了更加清楚地描述本申请实施例提供的表情信息的获取方法，下面结合附图，对表情信息的获取方法进行进一步描述。图9是是根据本申请实施例提供的一种表情信息的获取方法的框架图。参见图9，服务器逐帧预测各个视频帧中对象的初始形状权重和初始表情权重。然后，服务器基于多个视频帧中对象的初始表情权重，从多个视频帧中筛选出表情信息的信息量较少的目标数量的视频帧，作为中立脸帧。然后，服务器对目标数量的中立脸帧中对象的初始形状权重求均值，得到对象的全局形状权重初值。然后，服务器逐帧对全局形状权重初值进行迭代并求均值，得到全局形状权重。然后，服务器基于全局形状权重，逐滑窗优化对象的表情。

本申请实施例提供了一种表情信息的获取方法，通过视频内多个视频帧中对象的初始表情权重，来确定视频中的中立脸帧，由于在表情基已知的情况下，初始表情权重能够反映视频帧中对象的表情信息，使得能够尽可能摆脱表情信息的干扰，从视频中获取对象的脸部形状，也即是在形状基已知的情况下，使得中立脸帧能够更加准确的反映对象的脸部形状，然后基于中立脸帧确定对象的全局形状权重初值，通过以原始的视频帧中所呈现的脸部为基准，对全局形状权重初值进行迭代，使得得到的全局形状权重能够在全局角度上更加准确的反映整个视频中对象的脸部形状，从而实现脸部形状和表情信息准确解耦的目的，也即是能够更加准确地从视频中排除对象的脸部形状和脸部运动的干扰，获得更准确的表情信息，提升了最终输出的表情的准确性与稳定性，利于提升后续三维动画的制作效果。

图10是根据本申请实施例提供的一种表情信息的获取装置的框图。该表情信息的获取装置用于执行上述表情信息的获取方法执行时的步骤，参见图10，表情信息的获取装置包括：第一获取模块1001、第二获取模块1002、第一确定模块1003、迭代模块1004以及第三获取模块1005。

第一获取模块1001，用于对于视频内多个视频帧中的任一视频帧，基于视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，初始形状权重用于表示视频帧中对象的脸部形状，初始表情权重用于表示视频帧中对象的表情信息，形状基指的是用于描述脸部形状的形状基底，包括多个样本脸部形状，每个样本脸部形状可以基于样本脸部上与形状相关的关键点的位置来确定，表情基指的是用于描述表情信息的表情基底，包括多组样本表情信息，每组样本表情信息可以基于样本脸部上与表情相关的关键点的位置来确定；

第二获取模块1002，用于基于多个视频帧中对象的初始表情权重，从多个视频帧中获取目标数量的视频帧作为中立脸帧，中立脸帧中对象的表情信息相比于其他视频帧中对象的表情信息的信息量少；

第一确定模块1003，用于基于目标数量的中立脸帧中对象的初始形状权重，确定对象的全局形状权重初值，全局形状权重初值用于表示视频中对象的脸部形状的初始信息；

迭代模块1004，用于基于多个视频帧中对象的脸部，对全局形状权重初值进行迭代，得到全局形状权重，全局形状权重用于表示视频中对象的脸部形状；

第三获取模块1005，用于基于全局形状权重，从视频中获取各个视频帧中对象的表情信息。

在一些实施例中，图11是根据本申请实施例提供的另一种表情信息的获取装置的框图。参见图11，第二获取模块1002，用于对于多个视频帧中的任一视频帧，将视频帧中对象的初始表情权重的模量，确定为视频帧中对象的表情参数，表情参数用于表示视频帧中对象的表情信息的信息量；对多个视频帧按照表情参数由低到高的顺序排列；从多个视频帧中，获取表情参数排序靠前的目标数量的视频帧作为中立脸帧。

在一些实施例中，继续参见图11，迭代模块1004，包括：

获取单元10041，用于对于视频中的任一视频帧，从视频帧中获取对象的脸部图像；

重建单元10042，用于基于视频帧中对象的初始表情权重和全局形状权重初值，重建视频帧中对象的第一脸部模型；

迭代单元10043，用于基于视频帧中对象的脸部图像和重建后的第一脸部模型，对全局形状权重初值进行迭代，得到视频帧中对象的目标形状权重；

第一确定单元10044，用于基于多个视频帧中对象的目标形状权重，确定全局形状权重。

在一些实施例中，继续参见图11，迭代单元10043，用于基于视频帧中对象的脸部图像，确定多个关键点的参考位置，多个关键点的参考位置为原始的视频帧中对象的脸部上关键点的位置；基于重建后的第一脸部模型，确定多个关键点的第一预测位置，关键点的第一预测位置为对象的第一脸部模型上关键点的投影位置；基于多个关键点的第一预测位置和多个关键点的参考位置，确定第一形状误差，第一形状误差用于表示全局形状权重初值所表示的形状与视频帧中对象的脸部形状之间的差距；在保持视频帧中对象的表情权重不变的情况下，以最小化第一形状误差为目标，对全局形状权重初值进行调整，得到视频帧中对象的目标形状权重。

在一些实施例中，继续参见图11，第三获取模块1005，包括：

划分单元10051，用于将多个视频帧划分为多个视频块，每个视频块包括多个视频帧；

第二确定单元10052，用于采用滑窗以预设步长在视频的多个视频帧上滑动，基于全局形状权重，确定当前滑窗内的目标误差，滑窗的长度为两个视频块的长度，预设步长为一个视频块的长度，目标误差用于表示当前滑窗内视频帧中对象的表情总误差；

调整单元10053，用于以最小化目标误差为目标，对当前滑窗内各个视频帧的表情权重进行调整，得到当前滑窗内各个视频帧中的表情信息。

在一些实施例中，继续参见图11，第二确定单元10052，包括：

第一确定子单元1101，用于对于当前滑窗内的任一视频帧，基于全局形状权重和视频帧中对象的初始表情权重，确定拟合误差，拟合误差用于表示基于全局形状权重和初始表情权重拟合后的脸部所产生的表情误差；

第二确定子单元1102，用于基于当前滑窗内各个视频帧的拟合误差，确定当前滑窗的目标拟合误差；

第三确定子单元1103，用于基于目标拟合误差，确定当前滑窗内的目标误差。

在一些实施例中，继续参见图11，第一确定子单元1101，用于对于当前滑窗内的任一视频帧，基于视频帧中对象的初始表情权重和全局形状权重，重建视频帧中对象的第二脸部模型；基于重建后的第二脸部模型，确定多个关键点的第二预测位置，关键点的第二预测位置为对象的第二脸部模型上关键点的投影位置；基于多个关键点的第二预测位置和多个关键点的参考位置，确定第二形状误差，多个关键点的参考位置为原始的视频帧中对象的脸部上关键点的位置，第二形状误差用于表示全局形状权重所表示的形状与视频帧中对象的脸部形状之间的差距；基于第二形状误差和多个关键点的权重，确定视频帧的拟合误差，关键点的权重用于表示关键点对视频帧中对象的表情的贡献程度。

在一些实施例中，继续参见图11，第三确定子单元1103，用于基于至少一个约束规则，确定当前滑窗内的至少一个表情误差，至少一个约束规则用于约束当前滑窗内各个视频帧中对象的表情符合条件；基于目标拟合误差和至少一个表情误差，确定当前滑窗内的目标误差。

在一些实施例中，继续参见图11，至少一个约束规则包括边界约束规则，边界约束规则用于约束对象的表情权重中的数值处于第一预设范围内；

第三确定子单元1103，用于对于当前滑窗内的任一视频帧，基于边界约束规则和视频帧中对象的表情权重中的数值，确定第一表情误差，第一表情误差用于表示对象的表情权重中的数值与第一预设范围的差距。

在一些实施例中，继续参见图11，至少一个约束规则包括帧间约束规则，帧间约束规则用于约束相邻视频帧中对象的表情之间的差距处于第二预设范围内；

第三确定子单元1103，用于对于当前滑窗内除前两个视频帧外的任一视频帧，基于帧间约束规则视频帧的参考视频帧，确定第二表情误差，参考视频帧为排序在视频帧前面的第一数量的视频帧，第二表情误差用于表示相邻视频帧中对象的表情的差距。

在一些实施例中，继续参见图11，装置还包括：

第二确定模块1006，用于对于当前滑窗内的任一视频帧，基于视频帧中对象的表情权重和全局形状权重，确定视频帧中对象的脸部模型；

第三确定子单元1103，用于对于当前滑窗内除前两个视频帧外的任一视频帧，对于当前滑窗内除前两个视频帧外的任一视频帧，基于帧间约束规则，获取参考视频帧中对象的脸部模型；基于参考视频帧中对象的脸部模型和视频帧中对象的脸部模型，确定第二表情误差。

在一些实施例中，继续参见图11，至少一个约束规则包括滑窗约束规则，滑窗约束规则用于约束相邻滑窗中对象的表情之间的差距处于第三预设范围内；

第三确定子单元1103，用于基于滑窗约束规则，确定当前滑窗内第二数量的目标视频帧，目标视频为当前滑窗与上一个滑窗重叠的视频帧；对于任一目标视频帧，基于当前滑窗内目标视频帧的表情权重和上一个滑窗内目标视频帧的表情权重，确定第三表情误差，第三表情误差用于表示相邻滑窗内的视频帧中对象的表情的差距。

在一些实施例中，继续参见图11，至少一个约束规则包括距离约束规则，距离约束规则用于约束所要提取的对象的表情信息不能脱离以初始表情权重为基准的目标范围；

第三确定子单元1103，用于对于当前滑窗内的任一视频帧，基于视频帧中对象的表情权重和初始表情权重，确定表情权重差距；基于表情权重差距和表情维度权重，确定第四表情误差，表情维度权重用于表示对对象的表情权重中各个维度的数值实施对应程度的约束，表情权重中各个维度用于表示生成对象的表情时所采用的表情基，第四表情误差用于表示提取的视频中对象的表情信息与初始表情权重所反映的表情信息之间的差距。

在一些实施例中，继续参见图11，至少一个约束规则包括互斥约束规则，互斥约束规则用于约束对象的表情权重中存在互斥关系的表情基对应的维度上不能同时有值，互斥关系用于表示若任意两个表情基对应的表情同时出现在对象的脸部，则不符合生理规律；

第三确定子单元1103，用于对于当前滑窗内的任一视频帧，获取视频帧中对象的表情权重所采用的表情基集合；对于表情基集合中的任一表情基，从表情基集合中选择出与表情基存在互斥关系的表情基，得到表情基的互斥集合；基于表情基集合中各个表情基的互斥集合和视频帧对应的表情权重，确定第五表情误差，第五表情误差用于表示对象的表情权重中存在互斥关系的表情基之间的互斥程度。

本申请实施例提供了一种表情信息的获取装置，通过视频内多个视频帧中对象的初始表情权重，来确定视频中的中立脸帧，由于在表情基已知的情况下，初始表情权重能够反映视频帧中对象的表情信息，使得能够尽可能摆脱表情信息的干扰，从视频中获取对象的脸部形状，也即是在形状基已知的情况下，使得中立脸帧能够更加准确的反映对象的脸部形状，然后基于中立脸帧确定对象的全局形状权重初值，通过以原始的视频帧中所呈现的脸部为基准，对全局形状权重初值进行迭代，使得得到的全局形状权重能够在全局角度上更加准确的反映整个视频中对象的脸部形状，从而实现脸部形状和表情信息准确解耦的目的，也即是能够更加准确地从视频中排除对象的脸部形状和脸部运动的干扰，获得更准确的表情信息，提升了最终输出的表情的准确性与稳定性，利于提升后续三维动画的制作效果。

需要说明的是，上述实施例提供的表情信息的获取装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的表情信息的获取装置与表情信息的获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图12是根据本申请实施例提供的一种终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器（Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1201所执行以实现本申请中方法实施例提供的表情信息的获取方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1208中的至少一种。

外围设备接口1203可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1204还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-EmittingDiode，有机发光二极管）等材质制备。

摄像头组件1206用于采集图像或视频。在一些实施例中，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

电源1208用于为终端1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1209。该一个或多个传感器1209包括但不限于：加速度传感器1210、陀螺仪传感器1211、压力传感器1212、光学传感器1213以及接近传感器1214。

加速度传感器1210可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1210可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1210采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1210还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1211可以检测终端1200的机体方向及转动角度，陀螺仪传感器1211可以与加速度传感器1210协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1211采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1212可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1212设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1212采集的握持信号进行左右手识别或快捷操作。当压力传感器1212设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1213用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1213采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1213采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1214，也称距离传感器，通常设置在终端1200的前面板。接近传感器1214用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图13是根据本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（CentralProcessing Units，CPU）1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1301加载并执行以实现上述各个方法实施例提供的表情信息的获取方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的表情信息的获取方法中计算机设备所执行的操作。例如，所述计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、光盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各种可选实现方式中提供的表情信息的获取方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种表情信息的获取方法，其特征在于，所述方法包括：

对于视频内多个视频帧中的任一视频帧，基于所述视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，所述初始形状权重用于表示所述视频帧中所述对象的脸部形状，所述初始表情权重用于表示所述视频帧中所述对象的表情信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个视频帧中所述对象的初始表情权重，从所述多个视频帧中获取目标数量的视频帧作为中立脸帧，包括：

对于所述多个视频帧中的任一视频帧，将所述视频帧中所述对象的初始表情权重的模量，确定为所述视频帧中所述对象的表情参数，所述表情参数用于表示所述视频帧中所述对象的表情信息的信息量；

对所述多个视频帧按照表情参数由低到高的顺序排列；

从所述多个视频帧中，获取表情参数排序靠前的目标数量的视频帧作为中立脸帧。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个视频帧中所述对象的脸部，对所述全局形状权重初值进行迭代，得到全局形状权重，包括：

对于所述视频中的任一视频帧，从所述视频帧中获取所述对象的脸部图像；

基于所述视频帧中所述对象的初始表情权重和所述全局形状权重初值，重建所述视频帧中所述对象的第一脸部模型；

基于所述视频帧中所述对象的脸部图像和重建后的第一脸部模型，对所述全局形状权重初值进行迭代，得到所述视频帧中所述对象的目标形状权重；

基于所述多个视频帧中所述对象的目标形状权重，确定所述全局形状权重。

4.根据权利要求3所述的方法，其特征在于，所述基于所述视频帧中所述对象的脸部图像和重建后的第一脸部模型，对所述全局形状权重初值进行迭代，得到所述视频帧中所述对象的目标形状权重，包括：

基于所述视频帧中所述对象的脸部图像，确定多个关键点的参考位置，所述多个关键点的参考位置为原始的所述视频帧中所述对象的脸部上关键点的位置；

基于重建后的第一脸部模型，确定所述多个关键点的第一预测位置，所述关键点的第一预测位置为所述对象的所述第一脸部模型上关键点的投影位置；

基于所述多个关键点的第一预测位置和所述多个关键点的参考位置，确定第一形状误差，所述第一形状误差用于表示所述全局形状权重初值所表示的形状与所述视频帧中所述对象的脸部形状之间的差距；

在保持所述视频帧中所述对象的表情权重不变的情况下，以最小化所述第一形状误差为目标，对所述全局形状权重初值进行调整，得到所述视频帧中所述对象的目标形状权重。

5.根据权利要求1所述的方法，其特征在于，所述基于所述全局形状权重，从所述视频中获取各个视频帧中所述对象的表情信息，包括：

将所述多个视频帧划分为多个视频块，每个视频块包括多个视频帧；

采用滑窗以预设步长在所述视频的所述多个视频帧上滑动，基于所述全局形状权重，确定当前所述滑窗内的目标误差，所述滑窗的长度为两个所述视频块的长度，所述预设步长为一个所述视频块的长度，所述目标误差用于表示当前所述滑窗内视频帧中所述对象的表情总误差；

以最小化所述目标误差为目标，对当前所述滑窗内各个视频帧的表情权重进行调整，得到当前所述滑窗内各个视频帧中的表情信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述全局形状权重，确定当前所述滑窗内的目标误差，包括：

对于当前所述滑窗内的任一视频帧，基于所述全局形状权重和所述视频帧中所述对象的初始表情权重，确定拟合误差，所述拟合误差用于表示基于所述全局形状权重和所述初始表情权重拟合后的脸部所产生的表情误差；

基于当前所述滑窗内各个视频帧的拟合误差，确定当前所述滑窗的目标拟合误差；

基于所述目标拟合误差，确定当前所述滑窗内的目标误差。

7.根据权利要求6所述的方法，其特征在于，所述对于当前所述滑窗内的任一视频帧，基于所述全局形状权重和所述视频帧中所述对象的初始表情权重，确定拟合误差，包括：

对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的初始表情权重和所述全局形状权重，重建所述视频帧中所述对象的第二脸部模型；

基于重建后的第二脸部模型，确定多个关键点的第二预测位置，所述关键点的第二预测位置为所述对象的所述第二脸部模型上关键点的投影位置；

基于所述多个关键点的第二预测位置和所述多个关键点的参考位置，确定第二形状误差，所述多个关键点的参考位置为原始的所述视频帧中所述对象的脸部上关键点的位置，所述第二形状误差用于表示所述全局形状权重所表示的形状与所述视频帧中所述对象的脸部形状之间的差距；

基于所述第二形状误差和所述多个关键点的权重，确定所述视频帧的拟合误差，所述关键点的权重用于表示所述关键点对所述视频帧中所述对象的表情的贡献程度。

8.根据权利要求6所述的方法，其特征在于，所述基于所述目标拟合误差，确定当前所述滑窗内的目标误差，包括：

基于至少一个约束规则，确定当前所述滑窗内的至少一个表情误差，所述至少一个约束规则用于约束当前所述滑窗内各个视频帧中所述对象的表情符合条件；

基于所述目标拟合误差和所述至少一个表情误差，确定当前所述滑窗内的所述目标误差。

9.根据权利要求8所述的方法，其特征在于，所述至少一个约束规则包括边界约束规则，所述边界约束规则用于约束所述对象的表情权重中的数值处于第一预设范围内；

所述基于至少一个约束规则，确定当前所述滑窗内的至少一个表情误差，包括：

对于当前所述滑窗内的任一视频帧，基于所述边界约束规则和所述视频帧中所述对象的表情权重中的数值，确定第一表情误差，所述第一表情误差用于表示所述对象的表情权重中的数值与所述第一预设范围的差距。

10.根据权利要求8所述的方法，其特征在于，所述至少一个约束规则包括帧间约束规则，所述帧间约束规则用于约束相邻视频帧中所述对象的表情之间的差距处于第二预设范围内；

对于当前滑窗内除前两个视频帧外的任一视频帧，基于所述帧间约束规则所述视频帧的参考视频帧，确定第二表情误差，所述参考视频帧为排序在所述视频帧前面的第一数量的视频帧，所述第二表情误差用于表示相邻视频帧中所述对象的表情的差距。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的表情权重和所述全局形状权重，确定所述视频帧中所述对象的脸部模型；

所述对于当前滑窗内除前两个视频帧外的任一视频帧，基于所述帧间约束规则所述视频帧的参考视频帧，确定第二表情误差，包括：

对于当前滑窗内除前两个视频帧外的任一视频帧，基于所述帧间约束规则，获取所述参考视频帧中所述对象的脸部模型；

基于所述参考视频帧中所述对象的脸部模型和所述视频帧中所述对象的脸部模型，确定所述第二表情误差。

12.根据权利要求8所述的方法，其特征在于，所述至少一个约束规则包括滑窗约束规则，所述滑窗约束规则用于约束相邻滑窗中所述对象的表情之间的差距处于第三预设范围内；

基于所述滑窗约束规则，确定当前所述滑窗内第二数量的目标视频帧，所述目标视频为当前所述滑窗与上一个所述滑窗重叠的视频帧；

对于任一目标视频帧，基于当前所述滑窗内所述目标视频帧的表情权重和上一个所述滑窗内所述目标视频帧的表情权重，确定第三表情误差，所述第三表情误差用于表示相邻滑窗内的视频帧中所述对象的表情的差距。

13.根据权利要求8所述的方法，其特征在于，所述至少一个约束规则包括距离约束规则，所述距离约束规则用于约束所要提取的所述对象的表情信息不能脱离以所述初始表情权重为基准的目标范围；

对于当前所述滑窗内的任一视频帧，基于所述视频帧中所述对象的表情权重和所述初始表情权重，确定表情权重差距；

基于所述表情权重差距和表情维度权重，确定第四表情误差，所述表情维度权重用于表示对所述对象的表情权重中各个维度的数值实施对应程度的约束，所述表情权重中各个维度用于表示生成所述对象的表情时所采用的表情基，所述第四表情误差用于表示提取的所述视频中所述对象的表情信息与所述初始表情权重所反映的表情信息之间的差距。

14.根据权利要求8所述的方法，其特征在于，所述至少一个约束规则包括互斥约束规则，所述互斥约束规则用于约束所述对象的表情权重中存在互斥关系的表情基对应的维度上不能同时有值，所述互斥关系用于表示若任意两个表情基对应的表情同时出现在所述对象的脸部，则不符合生理规律；

对于当前所述滑窗内的任一视频帧，获取所述视频帧中所述对象的表情权重所采用的表情基集合；

对于所述表情基集合中的任一表情基，从所述表情基集合中选择出与所述表情基存在所述互斥关系的表情基，得到所述表情基的互斥集合；

基于所述表情基集合中各个表情基的互斥集合和所述视频帧对应的表情权重，确定第五表情误差，所述第五表情误差用于表示所述对象的表情权重中存在互斥关系的表情基之间的互斥程度。

15.一种表情信息的获取装置，其特征在于，所述装置包括：

第一获取模块，用于对于视频内多个视频帧中的任一视频帧，基于所述视频帧中对象的脸部、形状基和表情基，获取初始形状权重和初始表情权重，所述初始形状权重用于表示所述视频帧中所述对象的脸部形状，所述初始表情权重用于表示所述视频帧中所述对象的表情信息；

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至14任一项权利要求所述的表情信息的获取方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至14任一项权利要求所述的表情信息的获取方法。