CN112149599B

CN112149599B - 表情追踪方法、装置、存储介质和电子设备

Info

Publication number: CN112149599B
Application number: CN202011057716.7A
Authority: CN
Inventors: 朱宇轲
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-03-08
Anticipated expiration: 2040-09-29
Also published as: CN112149599A

Abstract

本申请实施例公开了一种表情追踪方法、装置、存储介质和电子设备；本申请实施例通过获取指定场景下的样本视频帧集合，并根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情；基于目标数量的基本表情生成第一指定数量的标准表情，其中，第一指定数量大于目标数量，标准表情的表情元素多于基本表情的表情元素；当检测到针对该场景类型下目标对象的表情追踪指令时，基于标准表情和/或基本表情对目标对象进行表情追踪。本方案只需要根据实际场景制作少量的基本表情，在使用时可基于制作的基本表情生成更多数量的标准表情实现表情追踪，降低了表情模型设计难度，减少了制作成本。

Description

表情追踪方法、装置、存储介质和电子设备

技术领域

本申请涉及信息处理领域，具体涉及一种表情追踪方法、装置、存储介质和电子设备。

背景技术

实时表情追踪技术是近年来在计算机图形学领域快速发展的一门新兴技术。该技术利用摄像头捕捉人类的面部表情，通过解析人类表情特征，最终来驱动模型做出相应的表情。由于该技术可以做到人类表情和模型表情的实时反映，因此大量应用在直播、广告、影视、游戏等领域，有着广泛的应用前景。

对于目前的表情追踪算法，想要让模型能够被人的表情追踪，需要为模型设计多达46个标准表情动画，导致模型设计难度和制作成本较高。因此，现有技术存在缺陷，亟待改进。

发明内容

本申请实施例提供一种表情追踪方法、装置、存储介质和电子设备，可以降低表情模型的设计难度，减少制作成本。

本申请实施例提供一种表情追踪方法，包括：

获取指定场景下的样本视频帧集合；

根据所述指定场景的场景类型和所述样本视频帧集合，生成目标数量的基本表情；

基于所述目标数量的基本表情生成第一指定数量的标准表情，其中，所述第一指定数量大于所述目标数量，所述标准表情的表情元素多于所述基本表情的表情元素；

当检测到针对所述场景类型下目标对象的表情追踪指令时，基于所述标准表情和/或所述基本表情对所述目标对象进行表情追踪。

相应的，本申请实施例还提供一种表情追踪装置，包括：

获取单元，用于获取指定场景下的样本视频帧集合；

第一生成单元，用于根据所述指定场景的场景类型和所述样本视频帧集合，生成目标数量的基本表情；

第二生成单元，用于基于所述目标数量的基本表情生成第一指定数量的标准表情，其中，所述第一指定数量大于所述目标数量，所述标准表情的表情元素多于所述基本表情的表情元素；

处理单元，用于当检测到针对所述场景类型下目标对象的表情追踪指令时，基于所述标准表情和/或所述基本表情对所述目标对象进行表情追踪。

在一些实施例中，所述第二生成单元用于：

分别从所述目标数量的基本表情中选取第二指定数量的基本表情进行线性叠加组合，生成第一指定数量的标准表情，其中，所述第二指定数量小于所述目标数量。

在一些实施例中，所述第二生成单元包括：

识别子单元，用于识别所选取的每一基本表情的多个关键点；

确定子单元，用于确定每一关键点相对于预设无表情模型中样本关键点的运动轨迹；

调整子单元，用于根据所述运动轨迹和预设程度系数对每一关键点位置进行调整；

生成子单元，用于分别对调整关键点位置后的第二指定数量的基本表情进行线性叠加组合，生成第一指定数量的标准表情。

在一些实施例中，所述确定子单元用于：

确定每一关键点映射在所述预设无表情模型中的第一位置、及每一关键点对应在所述预设无表情模型中的样本关键点的第二位置；

按照预设规则生成从所述第二位置到所述第一位置的运动轨迹。

在一些实施例中，所述调整在单元用于：

确定所述运动轨迹的轨迹长度；

根据所述预设程度系数和所述轨迹长度，以所述第二位置为起始点从所述运动轨迹中确定目标位置，并将对应关键点的位置调整至所述目标位置。

在一些实施例中，所述第一生成单元包括：

筛选子单元，用于从所述视频帧集合中筛选出包含面部表情的目标视频帧；

相关度分析子单元，用于分析所述目标视频帧中包含的面部表情的表情相关度；

第二生成子单元，用于基于所述表情相关度和所述指定场景的场景类型，生成目标数量的基本表情。

在一些实施例中，所述第二生成子单元用于：

根据所述指定场景的场景类型确定待生成基本表情的数量，得到目标数量；

根据所述表情相关度从所述目标视频帧中包含的面部表情筛选出所述目标数量的面部表情；

将筛选出的面部表情分别映射到预设无表情模型中，得到所述目标数量的基本表情。

在一些实施例中，所述第二生成子单元进一步用于：

基于所述表情相关度和所述目标数量，对所述目标视频帧中包含的面部表情进行分类，得到所述目标数量的表情分类集合，每一表情分类集合至少包括一个面部表情；

根据同一表情分类集合中各面部表情之间的表情相关度，分别从每一表情分类集合中确定出唯一的面部表情，得到所述目标数量的面部表情。

在一些实施例中，所述第一生成单元包括：

内容分析子单元，用于对所述视频帧集合中的视频帧进行内容分析，得到内容分析结果；

第三生成子单元，用于根据内容分析结果、所述指定场景的场景类型和所述视频帧集合，生成目标数量的基本表情。

在一些实施例中，所述视频帧集合包括：至少一帧包含面部表情的视频帧，所述内容分析结果包括：视频意图和视频帧中面部表情的表情相关度；所述第三生成子单元进一步用于：

根据所述视频意图和所述指定场景的场景类型确定待生成基本表情的数量，得到目标数量；

根据所述表情相关度从包含面部表情的视频帧中筛选出所述目标数量的面部表情；

将筛选出的面部表情分别映射到预设无表情模型中，生成所述目标数量的基本表情。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种表情追踪方法中的步骤。

相应的，本申请实施例还提供一种电子设备，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种表情追踪方法中的步骤。

本申请实施例提供的方案，通过获取指定场景下的样本视频帧集合，并根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情，然后基于目标数量的基本表情生成第一指定数量的标准表情，其中，第一指定数量大于目标数量，标准表情的表情元素多于基本表情的表情元素。当检测到针对该场景类型下目标对象的表情追踪指令时，基于标准表情和/或基本表情对目标对象进行表情追踪。本方案只需要根据实际场景制作少量的基本表情，在使用时可基于制作的基本表情生成更多数量的标准表情实现表情追踪，降低了表情模型设计难度，减少了制作成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的表情追踪方法的流程示意图。

图2a是本申请实施例提供的闭眼表情动画示意图。

图2b是本申请实施例提供的基本表情动画示意图。

图2c是本申请实施例提供的标准表情动画示意图

图3是本申请实施例提供的表情追踪装置的结构示意图。

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种表情追踪方法、装置、存储介质和电子设备。

其中，该表情追踪装置具体可以集成在电子设备中。该电子设备可以为终端或服务器等设备。如该终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种表情追踪方法，如图1所示，该表情追踪方法的具体流程可以如下：

101、获取指定场景下的样本视频帧集合。

其中，指定场景指需要使用到表情追踪技术的应用场景，具体可根据实际需求进行设定。例如，该指定场景可以为直播场景、影视场景、广告播放场景、及游戏场景(如网络游戏、虚拟现实游戏、增强现实游戏)等。

样本视频帧集合，其中可包括该指定场景下的多个视频帧。例如，以该指定场景为直播场景为例，该视频帧集合则可以为多帧直播画面的集合；以该指定场景为影视场景为例，该视频帧集合则可以为多帧影视剧画面的集合；以该指定场景为广告播放场景为例，该视频帧集合则可以为多帧广告画面的集合；以该指定场景为游戏场景为例，则该视频帧集合则可以为多帧游戏画面的集合。

102、根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情。

具体的，指定场景的场景类型可以根据该场景对表情追踪的精细程度的需求大小来确定。例如，影视场景对人脸表情追踪的精细程度的需求较高，游戏场景对人脸表情追踪的精细程度的需求通常为适中，而直播场景、视频通话场景等对表情追踪的精细程度需求则较低。因此，具体实施时可将场景类型划分为三类，第一类为对表情追踪的精细程度的需求较高的场景，第二为对表情追踪的精细程度的需求适中的场景，第三类为对表情追踪的精细程度的需求较低的场景。实际应用中，还可以对场景分类做更细致的层级划分，具体可根据实际需求来确定。

在本实施例中，该基本表情为对于一个表情模型不可或缺的表情。例如该基本表情可以为“闭眼”、“笑”、“生气”等足以应付日常的交流和感情表达的表情。

在一些实施例中，“根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情”，可以包括以下流程：

(11)从视频帧集合中筛选出包含面部表情的目标视频帧；

(12)分析目标视频帧中包含的面部表情的表情相关度；

(13)基于表情相关度和该指定场景的场景类型，生成目标数量的基本表情。

需要说明的是，本申请实施例中的样本视频帧集合至少包括一帧包含面部表情的视频帧。其中，该面部表情可以为人物表情、动物表情等。而人物表情可以为真实人类面部表情、ACG(Animation Comics Games)人物面部表情等。本申请中该面部表情主要指人脸表情，具体实施时，可以采用人脸识别算对视频帧集合中的各视频帧进行内容识别，以从中识别出包含人脸表情的目标视频帧。

在分析面部表情的表情相关度时，可以采用图像处理技术从目标视频帧中提取面部表情图像，并基于图像匹配算法计算不同面部表情图像之间的相关度(在一定程度上可以理解为相似度)。具体的，可对不同的面部表情图像进行特征提取，并生成所提取特征的特征向量，通过计各面部表情对应特征向量之间的相似度来确定不同面部表情之间的表情相关度。在计算各面部表情对应特征向量之间的相似度时，可以采用余弦相似度的方式来计算两个特征向量之间的相似度。

在分析得到各面部表情的表情相关度(包括同一视频帧中面部表情间的表情相似度和不同视频帧中面部表情间的表情相似度)之后，便可基于各面部表情间的表情相关度、及该指定场景的场景类型生成目标数量的基本表情。其中，该目标数量可以基于该指定场景的场景类型确定。也即，在一些实施例中，“基于表情相关度和指定场景的场景类型，生成目标数量的基本表情”的步骤，可以包括以下流程：

(131)根据指定场景的场景类型确定待生成基本表情的数量，得到目标数量；

(132)根据表情相关度从目标视频帧中包含的面部表情筛选出目标数量的面部表情；

(133)将筛选出的面部表情分别映射到预设无表情模型中，得到目标数量的基本表情。

具体的，可以基于该指定场景的类型(即该场景对表情追踪的精细程度的需求大小来确定)来确定需要生成的基本表情的数量。例如，对于对表情追踪的精细程度的需求较低的直播场景，可以只生成较少量的基本表情(如眨眼、吃惊、皱眉、微笑、噘嘴等)，满足用户的基本交流和情感表达即可。例如，该基本表情可以包括“闭左眼”、“闭右眼”、“吃惊”、“缩小瞳孔”、“皱眉”、“抬眉”、“A口型”、“E口型”、“I口型”、“O口型”、“U口型”、“嘴角上扬”和“噘嘴”等13个面部表情。

在确定好需生成基本表情的数量后，基于上述确定的表情相关度上述视频帧集合中包含的面部表情中筛选出该目标数量的面部表情来生成基本表情即可。具体实施时，可以利用表情迁移技术，将筛选出的目标数量的面部表情分别迁移到预设无表情模型中，从而得到目标数量的基本表情。

在一些实施例中，在根据表情相关度从目标视频帧中包含的面部表情筛选出目标数量的面部表情时，具体可以基于表情相关度和目标数量，对目标视频帧中包含的面部表情进行分类，得到目标数量的表情分类集合，其中，每一表情分类集合至少包括一个面部表情。然后，根据同一表情分类集合中各面部表情之间的表情相关度，分别从每一表情分类集合中确定出唯一的面部表情，从而得到目标数量的面部表情。

实际应用中，根据同一表情分类集合中各面部表情之间的表情相关度，分别从每一表情分类集合中确定出唯一的面部表情时，对于中只包含一个面部表情的表情分类集合，直接将该面部表情作为上述唯一的面部表情；对于包含两个面部表情的表情分类集合，选取与其他表情集合中表情相似度较小的面部表情作为上述唯一的面部表情；对于包含三个或三个以上面部表情的表情分类集合，选取与该表情集合内其他面部表情的综合相似度较大的面部表情作为上述唯一的面部表情。基于此逻辑，从各个表情分类集合中筛选出唯一的面部表情，从而得到目标数量的面部表情以构建基本表情。

例如，对于表情分类集合1，其中只包含面部表情A，则将面部表情A作为从该表情分类集合筛选出的唯一的面部表情。对于表情分类集合2，其中只包含面部表情B和面部表情C，而面部表情B与集合外的其他面部表情的相似度(如与面部表情A的相似度为20％，与面部表情D的相似度为30％，与面部表情E的相似度为30％)大于面部表情C与集合外的其他面部表情的相似度(如与面部表情A的相似度为30％，与面部表情D的相似度为20％、与面部表情E的相似度为10％)，则将面部表情C作为从该表情分类集合筛选出的唯一的面部表情。对于表情集合3，其中包含面部表情D、面部表情E和面部表情F，假设面部表情D与面部表情E的相似度为80％、面部表情D与面部表情F的相似度为70％、面部表情E和面部表情F的相似度为70％，则将面部表情D作为从该表情分类集合筛选出的唯一的面部表情。

在一些实施例中，“根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情”的步骤可以包括以下流程：

(21)对视频帧集合中的视频帧进行内容分析，得到内容分析结果；

(22)根据内容分析结果、指定场景的场景类型和视频帧集合，生成目标数量的基本表情。

具体的，该视频帧集合中视频帧的内容可以包括有图像内容、音频内容和文本内容。在对视频帧集合中的视频帧进行内容分析时，具体可以为对该视频帧中的图像内容、音频内容和文本内容等进行语义分析，得到内容分析结果。其中，语义分析即语义识别，是NLP(Natural Language Processing，自然语言理解)技术的重要组成部分之一。语义识别的核心除了理解文本词汇的含义，还要理解这个词语在语句、篇章中所代表的意思，这意味着语义识别从技术上要做到：文本、词汇、句法、词法、篇章(段落)层面的语义分析和歧义消除，以及对应的含义重组，以达到识别语句本身的目的。

当视频帧中包含文本内容时，可直接利用语义分析技术对其语义进行识别。

当视频帧中包含图像内容时，利用图像识别技术识别图片中的文字，或者识别图片所表达的语义，并利用所述语义识别技术对其语义进行进一步识别。

当视频帧中包含音频内容时，可利用语音识别技术将语音转成文本内容，并利用语义识别技术对该文本内容的语义进行识别。

在得到内容分析结果后，可根据内容分析结果、指定场景的场景类型和视频帧集合，生成目标数量的基本表情。其中，该目标数量可以基于内容分析结果和场景类型确定。也即，在一些实施例中，视频帧集合包括：至少一帧包含面部表情的视频帧，内容分析结果可包括：视频意图和视频帧中面部表情的表情相关度。则“根据内容分析结果、所述指定场景的场景类型和所述视频帧集合，生成目标数量的基本表情”的步骤，可以包括以下流程：

(221)根据视频意图和指定场景的场景类型确定待生成基本表情的数量，得到目标数量；

(222)根据表情相关度从包含面部表情的视频帧中筛选出所述目标数量的面部表情；

(223)将筛选出的面部表情分别映射到预设无表情模型中，生成目标数量的基本表情。

其中，视频意图即指上述视频帧集合要表达的是什么，具体可基于上述对视频帧包含的内容进行语义分析得到。例如，以直播场景为例，其视频意图可以包括：讲解化妆产品的使用方法、服饰搭配教程讲解、游戏攻略讲解、才艺展示、纯粹娱乐等等。

由于不同的视频意图对表情追踪的需求也具备一定的影响力，例如，化妆类直播对表情追踪的需求较高、而服装搭配类直播则对表情追踪的需求较低。因此，可结合视频意图和指定场景的场景类型共同确定待生成基本表情的目标数量。

在确定好目标数量后，便可根据表情相关度从包含面部表情的视频帧中筛选出目标数量的面部表情，并将筛选出的面部表情分别映射到预设无表情模型中，生成目标数量的基本表情。具体可参考上述对面部表情筛选及表情映射的细节描述，在此不做赘述。

103、基于目标数量的基本表情生成第一指定数量的标准表情，其中，第一指定数量大于目标数量，标准表情的表情元素多于基本表情的表情元素。

其中，表情元素为人脸器官(如耳、眉、眼、鼻、唇、口、舌等)所呈现的不同形态。例如，处于紧皱状态下的眉毛、处于撅起状态下的嘴唇等。

标准表情可以为可构成所有表情(包括简单表情、复杂表情)的面部表情。例如，该标准表情可以为FACS(Fluorescence activated Cell Sorting，流式细胞荧光分选技术)的46个表情。

在基于目标数量的基本表情生成第一指定数量的标准表情时，可以分别从目标数量的基本表情中选取第二指定数量的基本表情进行线性叠加组合，以生成第一指定数量的标准表情。需要说明的是，生成的标准表情的数量大于上述基本表情的数量，基于生成的标准表情相较于上述基本表情可以拓展和构建出更多的复杂表情。

对于一个模型(可为初始的无表情模型)，它由一系列的顶点和面片所组成。而表情动画就是对无表情模型上某一部分顶点偏移的集合。例如，可以设该模型的顶点集合为V，则某一个表情动画就是一系列顶点的动画偏移集合Y＝{y_i}，y_i代表对应于V中顶点v_i的位置偏移。那么对模型应用该表情动画只需要对于Y中的每一个偏移y_i，使得：

其中，ratio指应用该动画表情的程度，一般取值为[0,1]之间。当ratio为0时相当于维持初始的无表情模型不变。参考图2a，图2a展示了某个模型单个闭眼睛表情的效果。图2a左侧图为模型的初始形态，图2a右侧图为应用闭眼表情，且设ratio为1时的表现。可以看到，实际上右图是对左图中眼睛部分的顶点进行了位移，使得眼皮部分模型遮住了眼睛，实现了闭眼效果。

有基于此，便可基于上述少量基本表情生成更多数量的标准表情，来满足对表情精度要求较高的场合。也即，在一些实施例中，“分别从所述目标数量的基本表情中选取第二指定数量的基本表情进行线性叠加组合”的步骤，可以包括以下流程：

(31)识别所选取的每一基本表情的多个关键点；

(32)确定每一关键点相对于预设无表情模型中样本关键点的运动轨迹；

(33)根据运动轨迹和预设程度系数对每一关键点位置进行调整；

(34)分别对调整关键点位置后的第二指定数量的基本表情进行线性叠加组合，生成第一指定数量的标准表情。

其中，该多个关键点可以包括面部表情中的五官特征点，如眼、耳、鼻、口、舌等部位的特征点；另外，还可以包括眉、耳、下巴等部位的特征点。预设无表情模型即指不具备任何表情的基础人脸模型，其中包含的所有人面部特征点即该样本关键点。

在本实施例中，预设程度系数指上述的应用该动画表情的程度ridio，即标准表情中应用到相应基本表情的程度。该预设程度系数可根据实际需求由本领域技术人员或产品厂商进行设定。

例如，参考图2b，以图2b所示的5个表情动画作为基本表情为例，通过选取相应的基本表情配予对应的预设程度系数进行线性叠加组合，除了原本的5个面部表情之外，还可以额外生成如图2c所示的3个标准表情。在生成标准表情时，通常可以选取1至3个基本表情进行关键点的调整后再线性叠加组合而成。

在一些实施例中，在确定每一关键点相对于预设无表情模型中样本关键点的运动轨迹时，具体可以确定每一关键点映射在预设无表情模型中的第一位置、及每一关键点对应在预设无表情模型中的样本关键点的第二位置，然后按照预设规则生成从第二位置到第一位置的运动轨迹。

在一些实施例中，在根据运动轨迹和预设程度系数对每一关键点位置进行调整时，具体可以确定运动轨迹的轨迹长度，然后根据预设程度系数和轨迹长度，以第二位置为起始点从所述运动轨迹中确定目标位置并将对应关键点的位置调整至该目标位置，以对关键点位置进行调整，从而得到赋予了预设程度系数后的基本表情。最后，再对若干数量的赋予了预设程度系数后的基本表情进行线性组合，最终得到标准表情。

104、当检测到针对场景类型下目标对象的表情追踪指令时，基于标准表情和/或基本表情对目标对象进行表情追踪。

具体的，当检测到对表情精度要求较低的场景类型(如直播场景、视频通话场景等对需)下对目标对象的表情追踪指令时，可直接基于上述生成的目标数量的基本表情对目标对象进行表情追踪。当检测到对表情精度要求较高的场景类型(如影视场景)下对目标对象的表情追踪指令时，可基于上述基于基本表情生成的标准表情(还可结合上述基本表情)对目标对象进行表情追踪。

可知，本申请实施例提供的表情追踪方法，通过获取指定场景下的样本视频帧集合，并根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情，然后基于目标数量的基本表情生成第一指定数量的标准表情。当检测到针对该场景类型下目标对象的表情追踪指令时，基于标准表情和/或基本表情对目标对象进行表情追踪。本方案只需要根据实际场景制作少量的基本表情，在使用时可基于制作的基本表情生成更多数量的标准表情实现表情追踪，降低了表情模型设计难度，减少了制作成本。

另外，本方案提供的表情追踪方法，虽然在一定程度上丢失了展示的模型表情的精致性，但是实际上仍然保留了主要的表情信息，喜怒哀乐仍然可以通过13个基本表情予以表达。同时相比于制作46个FACS标准表情动画来说，仅需要13个基本表情动画大大节省了美术的工作量，因此可以作为一种对于表情精细程度要求不大时的解决方案，取得了表情追踪效果真实性和便利性的折中。

为了更好地实施以上方法，本申请实施例还提供一种表情追踪装置，该表情追踪装置具体可以集成在电子设备中。该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在本实施例中，将以表情追踪装置具体集成在智能手机为例，对本申请实施例的方法进行详细说明。例如，如图3所示，该表情追踪装置可以包括第一获取单元301、第一生成单元302、第二生成单元303和处理单元304，如下：

获取单元301，用于获取指定场景下的样本视频帧集合；

第一生成单元302，用于根据所述指定场景的场景类型和所述样本视频帧集合，生成目标数量的基本表情；

第二生成单元303，用于基于所述目标数量的基本表情生成第一指定数量的标准表情，其中，所述第一指定数量大于所述目标数量，标准表情的表情元素多于基本表情的表情元素；

处理单元304，用于当检测到针对所述场景类型下目标对象的表情追踪指令时，基于所述标准表情和/或所述基本表情对所述目标对象进行表情追踪。

在一些实施例中，所述第二生成单元303用于：

分别从所述目标数量的基本表情中选取第二指定数量的基本表情进行线性叠加组合，生成第一指定数量的标准表情。

在一些实施例中，所述第二生成单元303包括：

在一些实施例中，所述确定子单元用于：

在一些实施例中，所述调整在单元用于：

确定所述运动轨迹的轨迹长度；

在一些实施例中，所述第一生成单元302包括：

在一些实施例中，所述第二生成子单元用于：

在一些实施例中，所述第二生成子单元进一步用于：

在一些实施例中，所述第一生成单元302包括：

由上可知，本实施例的表情追踪装置，通过获取单元301获取指定场景下的样本视频帧集合，第一生成单元302根据指定场景的场景类型和样本视频帧集合，生成目标数量的基本表情；第二生成单元303基于目标数量的基本表情生成第一指定数量的标准表情，其中，第一指定数量大于目标数量；当检测到针对该场景类型下目标对象的表情追踪指令时，处理单元304基于标准表情和/或基本表情对目标对象进行表情追踪。本方案只需要根据实际场景制作少量的基本表情，在使用时可基于制作的基本表情生成更多数量的标准表情实现表情追踪，降低了表情模型设计难度，减少了制作成本。

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端或服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图4所示，图4为本申请实施例提供的电子设备的结构示意图。该电子设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备400的各种功能和处理数据，从而对电子设备400进行整体监控。

在本申请实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

获取指定场景下的样本视频帧集合；

基于所述目标数量的基本表情生成第一指定数量的标准表情，其中，所述第一指定数量大于所述目标数量，标准表情的表情元素多于基本表情的表情元素；

可选的，如图4所示，电子设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给电子设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图4中未示出，电子设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可知，本实施例提供的电子设备只需要根据实际场景制作少量的基本表情，在使用时可基于制作的基本表情生成更多数量的标准表情实现表情追踪，降低了表情模型设计难度，减少了制作成本。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种表情追踪方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取指定场景下的样本视频帧集合；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种表情追踪方法中的步骤，因此，可以实现本申请实施例所提供的任一种表情追踪方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种表情追踪方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种表情追踪方法，其特征在于，包括：

获取指定场景下的样本视频帧集合；

当检测到针对所述场景类型下目标对象的表情追踪指令时，基于所述标准表情和/或所述基本表情对所述目标对象进行表情追踪；

所述根据所述指定场景的场景类型和所述样本视频帧集合，生成目标数量的基本表情，包括：

从所述视频帧集合中筛选出包含面部表情的目标视频帧；

分析所述目标视频帧中包含的面部表情的表情相关度；

基于所述表情相关度和所述指定场景的场景类型，生成目标数量的基本表情。

2.根据权利要求1所述的表情追踪方法，其特征在于，所述基于所述目标数量的基本表情生成第一指定数量的标准表情，包括：

3.根据权利要求2所述的表情追踪方法，其特征在于，所述分别从所述目标数量的基本表情中选取第二指定数量的基本表情进行线性叠加组合，包括：

识别所选取的每一基本表情的多个关键点；

确定每一关键点相对于预设无表情模型中样本关键点的运动轨迹；

根据所述运动轨迹和预设程度系数对每一关键点位置进行调整；

分别对调整关键点位置后的第二指定数量的基本表情进行线性叠加组合，生成第一指定数量的标准表情。

4.根据权利要求3所述的表情追踪方法，其特征在于，所述确定每一关键点相对于预设无表情模型中样本关键点的运动轨迹，包括：

5.根据权利要求4所述的表情追踪方法，其特征在于，所述根据所述运动轨迹和预设程度系数对每一关键点位置进行调整，包括：

确定所述运动轨迹的轨迹长度；

6.根据权利要求1-5任一项所述的表情追踪方法，其特征在于，所述基于所述表情相关度和所述指定场景的场景类型，生成目标数量的基本表情，包括：

7.根据权利要求6所述的表情追踪方法，其特征在于，所述根据所述表情相关度从所述目标视频帧中包含的面部表情筛选出所述目标数量的面部表情，包括：

8.根据权利要求1-5任一项所述的表情追踪方法，其特征在于，所述根据所述指定场景的场景类型和所述样本视频帧集合，生成目标数量的基本表情，还包括：

对所述视频帧集合中的视频帧进行内容分析，得到内容分析结果；

根据内容分析结果、所述指定场景的场景类型和所述视频帧集合，生成目标数量的基本表情。

9.根据权利要求8所述的表情追踪方法，其特征在于，所述视频帧集合包括：至少一帧包含面部表情的视频帧，所述内容分析结果包括：视频意图和视频帧中面部表情的表情相关度；

所述根据内容分析结果、所述指定场景的场景类型和所述视频帧集合，生成目标数量的基本表情，包括：

10.一种表情追踪装置，其特征在于，包括：

获取单元，用于获取指定场景下的样本视频帧集合；

处理单元，用于当检测到针对所述场景类型下目标对象的表情追踪指令时，基于所述标准表情和/或所述基本表情对所述目标对象进行表情追踪；

所述第一生成单元包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-9任一项所述的表情追踪方法中的步骤。

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行根据权利要求1-9任一项所述的表情追踪方法中的步骤。