CN115984944A

CN115984944A - 表情信息识别方法、装置、设备、可读存储介质及产品

Info

Publication number: CN115984944A
Application number: CN202310096499.XA
Authority: CN
Inventors: 符明韬; 张惜今; 袁燚
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2023-01-20
Filing date: 2023-01-20
Publication date: 2023-04-18
Anticipated expiration: 2043-01-20
Also published as: WO2024152723A1; CN115984944B

Abstract

本公开实施例提供一种表情信息识别方法、装置、设备、可读存储介质及产品，该方法包括：获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。有利于提高由目标面部图像特征确定出的表情信息的准确性，还可以提高所确定的连续帧图像间分别对应的表情信息的连续性。

Description

表情信息识别方法、装置、设备、可读存储介质及产品

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种表情信息识别方法、装置、设备、可读存储介质及产品。

背景技术

在计算机动画领域，为了使得虚拟人物能较好的表达情绪，可以使虚拟人物表情模拟人脸表情。

为了便于使虚拟人物对人脸表情进行模拟，将人脸表情表示成多维向量。每一个表情可以对应一个多维向量。对虚拟人物的面部应用上述多维向量使得虚拟人物表情模拟人脸表情。

在一些应用场景中，可以对用户的连续多帧表情进行模拟，例如对于视频流对应的图像帧序列中的人脸表情进行模拟。具体地，可以提取多帧图像分别对应的人脸表情信息，然后将人脸表情信息应用在虚拟人物。目前在将多帧人脸图像的表情信息应用到虚拟人物时，有抖动现象。

发明内容

本公开实施例提供一种表情信息识别方法、装置、设备、可读存储介质及产品，以克服相关技术中将连续多帧人脸图像中的表情信息应用到动画人物表情时存在抖动的问题。

第一方面，本公开实施例提供一种表情信息识别方法，包括：获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。

第二方面，本公开实施例提供一种表情信息识别装置，包括：获取单元，用于获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；预测单元，用于根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。

第三方面，本公开实施例提供一种电子设备，包括：处理器和存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的表情信息识别方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的表情信息识别方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的表情信息识别方法。

本实施例提供的表情信息识别方法、装置、设备、可读存储介质及产品，首先获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；然后根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。上述方案通过融合历史图像、当前帧图像和后继图像各自的面部图像特征作为当前帧图像的目标面部图像特征，使得目标面部图像特征中加入了历史图像的面部图像特征和后继图像的面部图像特征，相当于在确定当前帧图像对应的目标面部图像特征时加入了历史图像的面部图像特征和后继图像的面部图像特征的约束，从而可以确定出较为准确的当前帧图像的目标面部图像特征，进而有利于提高由目标面部图像特征确定出的表情信息的准确性，还可以提高所确定的连续帧图像间分别对应的表情信息的连续性。有利于改善将由连续多帧面部图像的表情信息应用到虚拟对象时，虚拟对象的连续帧之间的表情信息出现的抖动现象。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中确定图像中目标对象的表情信息的过程示意图；

图2为本公开实施例提供的表情信息识别方法流程示意图一；

图3为本公开实施例提供的表情信息识别方法流程示意图二；

图4为图3所示实施例中的表情生成模型的校正过程的示意图；

图5为相关技术中表情模型的校正过程示意图；

图6为确定图像序列中多帧图像分别对应的表情信息的示意图；

图7为相关技术中表情模型使用的全连接网络的计算示意图表情信息识别装置；

图8A和图8B为图3所示实施例中的表情生成模型中的一维卷积网络计算示意图；

图9为本公开实施例提供的表情信息识别装置的结构框图；

图10为本公开实施例提供的表情信息识别装置的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

为了使得虚拟人物的表情模拟真实人物表情，可以对连续多帧人脸图像中的各帧人脸图像分别进行人脸表情信息提取，并将所提取的各帧人脸图像的表情信息分别应用到虚拟人物面部。这种方案是对单帧图像进行人脸表情识别，而对于连续多帧人脸图像进行人脸表情识别时，所识别的各帧人脸图像的表情信息之间的关联性较差。使得将所得到的上述连续多帧人脸图像分别对应的表情信息应用到虚拟人物时，画面中虚拟人物的表情会出现不连贯的现象，也即抖动现象。

为了改善上述抖动现象，在另外一些相关技术中，对于连续多帧人脸图像，将前一帧历史图像或前两帧历史图像的人脸表情的表情信息以一定比例融合至当前帧图像的表情信息中，作为当前图像的表情信息。并将融合了历史图像的表情信息的当前帧图像的表情信息应用到虚拟人物。发明人发现，上述方案得到人脸的表情信息应用到虚拟人物时，仍然会出现抖动的现象。

为了确定面部表情信息，可以将面部肌肉分割为多个运动单元(Action Unit)，由多个运动单元的组合可以表示多种面部表情。假设面部运动单元数量为N，对于每一种表情，可以将该表情下的N个运动单元对应的位置和形状等特征按照预设量化规则进行量化，将各运动单元的量化结果按照预设顺序排列形成该面部图像中对象表情的表情向量，从而确定面部图像中对象的表情信息。

请参考图1，其示出了相关技术中提取人脸表情信息的示意性流程图。如图1所示，相关技术中使用当前帧图像的前两帧图像分别对应的人脸表情预测与当前帧图像的人脸表情预测进行融合，作为当前帧图像对应的最终人脸表情预测。具体地，

在预测第i帧图像的人脸表情时，可以分别提取第i帧图像、第i-1帧图像、第i-2帧图像分别对应的图像特征f_i、f_i-1、f_i-2，并根据第i帧图像、第i-1帧图像、第i-2帧图像分别对应的图像特征f_i、f_i-1、f_i-2分别预测第i帧图像、第i-1帧图像、第i-2帧图像分别对应的人脸表情p_i、p_i-1、p_i-2。然后将上述人脸表情p_i、p_i-1、p_i-2进行融合，来确定第i帧图像的p_i’。

上述过程中，虽然使用多帧图像来确定当前帧图像中人脸表情，但是存在如下问题：

当前帧图像的人脸表情中仅融合了历史图像的人脸表情，未融入后继图像中的人脸表情，由于未参考后继图像中的人脸表情，使得由历史图像和当前帧图像中的人脸表情确定的当前帧图像的人脸表情中，缺失了后继图像人脸表情的信息，一方面可能使得预测得到的当前帧图像的人脸表情不准确，另外一方面可能使得由上述方案确定出的连续多帧图像的人脸表情之间不连贯的现象。

上述相关技术仅对连续几帧图像分别对应的人脸表情的表情信息预测结果进行融合，没有涉及到图像的图像特征。如果图像特征提取本身存在问题，无法实现对图像特征提取时出现的问题进行修正，进而无法改善上述抖动现象。

参考图2，图2为本公开实施例提供的表情信息识别方法的流程示意图一。本实施例的方法可以应用在终端设备或服务器中，该人脸表情信息识别方法包括：

S201：获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像。

这里的目标对象可以为人，还可以为动物等目标对象，在一些应用场景中，上述目标对象还可以为虚拟对象。

这里的当前帧图像、历史图像和后继图像可以从连续采集的图像序列中提取。上述历史图像可以是当前帧图像采集时间之前采集的一帧或多帧图像。上述后继图像可以是当前帧图像采集时间之后采集的一帧或多帧图像。历史图像和后继图像的数量可以不同。需要说明的是，历史图像和后继图像的数量可以不做限制。

在一些应用场景中，上述当前帧图像的历史图像可以包括当前帧图像的前一帧图像。上述当前帧图像的后继图像可以包括当前帧图像的后一帧图像。

在这些应用场景中，当前帧图像的前一帧图像与当前帧图像的后一帧图像与当前帧的关联度较强，使用前一帧图像、后一帧图像和当前帧图像来综合确定当前帧图像的目标对象的表情信息，一方面可以在确定当前帧图像的表情信息时，参考历史图像的图像信息和后继图像的图像信息，另外一方面，可以减少确定当前帧图像对应的表情信息时的计算量。

在一些应用场景中，上述当前帧图像、历史图像和后继图像是对原始当前帧图像、原始历史图像和原始后继图像进行预处理后的得到的。上述预处理包括但不限于图像增强、面部定位、裁剪、对齐等操作。经过上述预处理后的不同图像中目标对象的面部部位处于相对固定的位置，便于后续处理。

S202：根据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于目标面部图像特征确定当前帧图像中目标对象的表情信息。

在本实施例中，可以根据各种方式对当前帧图像、历史图像和后继图像进行分析处理，以确定当前帧图像的目标面部图像特征。

例如，可以将当前帧图像、历史图像以及后续图像进行叠加，然后对叠加后的图像的像素值进行平均，得到均值化的图像数据，对均值化的图像数据提取图像特征，得到当前帧图像的目标面部图像特征。

作为一种实现方式，上述步骤S202可以包括如下步骤：

首先，分别确定当前帧图像、历史图像以及后继图像各自的面部图像特征。

其次，对当前帧图像、历史图像和后继图像各自的面部图像特征进行融合，得到当前帧图像目标面部图像特征。

具体地，可以根据的各种图像特征提取算法来分别提取当前帧图像、历史图像和后继图像各自的面部图像特征。

上述图像特征提取算法包括但不限于：Gabor小波算法、主成分析算法、分块局部二值模式算法等。

在一些应用场景中，上述面部图像特征为当前帧图像的全局面部特征。

在另外一些应用场景中，上述面部图像特征可以包括多个运动单元局部分别对应的局部特征。

在将上述面部图像特征进行融合时，可以预先设置当前帧图像、历史图像和后继图像分别对应的融合比例，根据上述融合比例将上述当前帧图像、历史图像和后继图像的面部图像特征进行融合，得到当前帧图像的目标面部图像特征。

下面以历史图像包括当前帧图像的前一帧图像以及后继图像包括当前帧图像的后一帧图像，来说明历史图像、当前帧图像和后继图像的特征融合。假设前一帧图像的面部图像特征为S_i-1，当前帧图像的面部图像特征为S_i，后一帧图像的面部图像特征为S_i+1。若预先设置的前一帧图像、当前帧图像和后一帧图像各自的融合比例分别为：k_i-1、K_i、k_i+1，则当前帧图像的目标面部图像特征可以由如下公式表征：

S_i’＝k_i-1×S_i-1+k_i×S_i+k_i+1×S_i+1 (1)；

上述各图像的融合比例可以根据具体的应用场景进行设置，此处不进行限制。作为一种实现方式，当前帧图像的融合比例例如可以为0.7，历史图像的融合比例例如可以为0.15，后继图像的融合比例例如可以为0.15。

在一些实施例中，对于任一图像帧，可以预先设置历史图像所包括的历史图像帧的数量，以及后继图像所包括的后继图像帧的数量，并进而确定该图像帧的目标面部图像特征涉及的图像的帧数。假设历史图像包括的历史图像帧的数量为t1，后继图像包括的后继图像帧的数量为t2，则该图像帧的目标面部图像特征可以由t1+t2+1帧图像中目标对象的面部图像特征来确定。可以根据上述帧数确定预设队列的长度。例如上述预设队列的长度可以为t1+t2+1。可以将目标对象的连续多帧图像分别对应的面部图像特征按照各帧图像分别对应的顺序依次输入到上述预设队列中。输入到预设队列中的各面部图像特征可以视为该预设队列的元素。当预设队列中填满一次时，融合一次该预设队列中各帧图像对应的面部图像特征，得到该预设队列中一图像的目标面部图像特征。在计算了该预设队列中的一图像的目标面部图像特征之后，可以将预设队列中的首个元素出队，然后在预设队列的队尾输入原预设队列队尾对应的图像帧的后一帧图像的目标对象的面部图像特征。

举例来说，对于连续图像帧中的第k帧图像，第k帧图像的目标面部图像特征需要融合t1帧历史图像帧的图像特征，t2帧后继图像帧的面部图像特征和第k帧图像自身的面部图像特征。则可以将第(k-t1)帧图像对应的面部图像特征至第(k+t2)帧图像对应的目标图像特征按照各帧图像的先后顺序依次输入到预设队列中，在预设队列被填满后，可以将该队列中的各元素进行融合，从而得到第k帧图像对应的目标对象的目标面部图像特征。在第k帧图像的目标面部图像特征得到后，可以将第(k-t1)帧图像对应的面部图像特征出队，预设队列中保存的元素各自前移一位。然后向预设队列的队尾输入第(k+1+t2)帧图像对应的面部图像特征。然后计算第(k+1)帧图像的目标面部图像特征。这里的t1为大于等于1，小于k的整数。t2为大于等于1的整数。k为大于1的整数。若预设队列未填满，则不对预设队列中的各元素进行融合。

通过将历史图像、当前帧图像和后继图像的面部图像特征进行融合，使得当前图像的面部图像特征中，包括了历史图像和后继图像的图像信息，从而使得前后多个图像分别对应的面部图像特征相互关联，弱化了不同图像间面部图像特征相互独立的现象。若相邻图像中有一帧图像特征提取出现偏差，也可以通过相邻帧图像的图像特征对该偏差进行纠正。从而有利于实现所提取的相邻帧图像的图像特征之间的连续性，进而有利于所确定的相邻对应的表情信息的连续性，改善将各表情信息应用动画时出现的抖动现象。

可以根据面目标部图像特征中不同运动单元上的关键点的特征来确定当前帧图像对应的表情信息。

上述运动单元例如可以包括：左眼、右眼、左眉毛、右眉毛、上嘴唇、下嘴唇、左脸颊、右脸颊等等。

在一些应用场景中，目标面部图像特征为全局面部图像特征。在确定了当前帧图像的全局面部图像特征之后，可以根据全局面部图像特征确定面部多个运动单元各自的特征。

运动单元的特征可以包括但不限于：形状特征、位置特征、不同运动单元的几何关系、运动单元的局部纹理特征

具体地，可以从全局面部图像特征中提取多个关键点的特征。上述多个关键点可以包括位于不同运动单元的预设位置的关键点，这里的预设位置例如可以包括运动单元的轮廓和中心。

可以根据运动单元的关键点的位置特征确定运动单元的形状特征以及运动单元的位置特征；还可以根据不同运动单元的关键点的位置特征确定不同运动单元之间的相对几何关系特征。此外还可以根据全局面部特征中的纹理特征，确定不同运动单元的纹理特征。

在确定了各运动单元的特征之后，对于每一个运动单元按照预设量化规则，对该运动单元的运动单元特征进行量化，得到该运动单元对应的量化值，也即该运动单元对应的表情参数。

作为一种实现方式，通常对于每一个运动单元，可以确定出该运动单元的最大表情参数(例如1)对应的第一参考特征，以及该运动单元对应的最小表情参数(例如0)对应的第二参考特征。可以将运动单元的实际特征与第一参考特征和第二参考特征进行比较来确定运动单元对应的表情参数。以对眼睛张开的程度进行参数化处理为例进行说明。眼睛张开最大时对应的张开特征为第一参考特征，张开参数可以设置为1。眼睛闭合时对应的张开特征为第二参考特征，张开参数设置为0。对于不同面部图像，可以根据由目标面部图像特征得到的当前帧图像的眼睛张开特征与眼睛张开最大时对应的张开特征和眼睛张开最小时对应的张开特征行比较，若处于二者之间，可以根据当前帧图像的眼睛张开特征与第一参考特征之间的比例关系，确定当前帧图像对应的眼睛张开的参数。

通过上述方案，可以将面部图像中不同运动单元的特征进行参数化，得到不同运动单元对应的表情参数。

在一些参数化规则中，确定了面部各运动单元的顺序。根据该参数化规则提供的上述各运动单元的顺序，将目标图像的各运动单元的表情参数进行排序，得到当前帧图像对应的多维表情向量。每一维表情向量对应一个运动单元的表情参数。本公开中的表情信息可以包括多维表情向量。

若仅使用当前帧图像的面部图像特征来确定目标对象的表情信息，由于没有前后图像的图像信息作为约束，仅根据当前帧图像的面部图像特征确定的表情信息，可能存在表情信息预测错误。

例如人在笑的过程中，可以包括平静、微微笑、微笑、笑、大笑这几个过程。上述过程可以对应5帧连续的图像。假设当前帧图像为微微笑时的图像，如果仅仅根据微微笑时的图像的面部图像特征，或者根据融合了平静和微微笑分别对应的两帧图像的面部图像特征的面部图像特征来确定当前帧图像的表情信息，可能会出现将当前帧图像中微微笑的表情信息错误的预测为微笑或者笑对应的表情信息。

同样地，如果仅仅根据融合了微微笑时对应的图像(当前帧图像)和微笑时对应的图像(后继图像)各自对应的面部图像特的面部图像特征来确定当前帧图像对应的目标对象的表情信息，有可能会错误地将当前帧图像对应的表情信息错误地表示为平静时对应的表情信息。

通过融合历史图像、当前帧图像和后继图像各自的面部图像特征作为当前帧图像的目标面部图像特征，使得目标面部图像特征中加入了历史图像的面部图像特征和后继图像的面部图像特征，相当于在确定当前帧图像对应的目标面部图像特征时加入了历史图像的面部图像特征和后继图像的面部图像特征的约束，从而可以确定出较为准确的当前帧图像的目标面部图像特征，进而有利于提高由目标面部图像特征确定出的表情信息的准确性以及连续帧图像间分别对应的表情信息的连续性。

本实施例提供的表情信息识别方法，通过首先获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；然后，根据当前帧图像、历史图像以及后继图像，确定当前帧图像的面部图像特征；最后，基于面部图像特征确定当前帧图像中目标对象的表情信息，实现了根据当前帧在内的前后多帧图像的图像特征融合为当前帧图像的目标面部图像特征，并根据上述融合后的当前帧图像的目标面部图像特征确定当前帧图像的表情信息。相对于相关技术中，对各图像帧分别预测的表情信息进行融合，本方案通过融合历史图像、当前帧图像和后继图像各自的面部图像特征作为当前帧图像的目标面部图像特征，使得目标面部图像特征中加入了历史图像的面部图像特征和后继图像的面部图像特征，相当于在确定当前帧图像对应的目标面部图像特征时加入了历史图像的面部图像特征和后继图像的面部图像特征的约束，从而可以确定出较为准确的当前帧图像的目标面部图像特征，进而有利于提高由目标面部图像特征确定出的表情信息的准确性，还可以提高所确定的连续帧图像间分别对应的表情信息的连续性。有利于改善将连续多帧面部图像的表情信息应用到虚拟对象时，虚拟对象在连续帧图像中的表情信息出现的抖动现象。

请参考图3，图3为本公开实施例提供的表情信息识别方法流程示意图二。本实施例的方法可以应用在终端设备或服务器中，该表情信息识别方法包括：

S301：获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像。

S302：将当前帧图像、历史图像以及后继图像输入到表情生成模型，由表情生成模型根据当前帧图像、历史图像以及后继图像确定当前帧图像的目标面部图像特征，并根据目标面部图像特征确定目标对象的表情信息。

上述表情生成模型可以是各种机器学习模型，例如基于人工神经网络的模型、基于卷积神经网络的模型等。

在本实施例中，上述表情生成模型用于根据输入的历史图像、当前帧图像和后继图像，确定并输出当前帧图像中目标对象的表情信息。具体地，表情生成模型可以分别提取历史图像、当前帧图像、后继图像分别对应的面部图像特征；然后再将上述历史图像、当前帧图像和后继图像分别对应的面部图像特征进行融合，得到当前帧图像的目标面部图像特征。然后根据目标面部图像特征预测当前帧图像中目标对象的表情信息。

上述表情生成模型可以是使用训练数据预先训练的模型。这里的训练数据包括多组训练数据。每组训练数据包括多帧图像以及多帧图像中其中一帧图像对应的表情信息标注。

作为一种实现方式，上述表情生成模型包括特征提取网络、特征融合网络和预测网络；其中，

特征提取网络用于分别提取输入的历史图像、当前帧图像和后继图像的面部图像特征；

特征融合网络用于对上述各面部图像特征进行融合，得到当前帧图像对应的目标面部图像特征；

预测网络用于根据目标面部图像特征预测当前帧图像中目标对象的表情信息。

可以通过训练数据同时对上述特征提取网络、特征融合网络和预测网络进行训练。

在一些可选的实现方式中，表情信息识别方法还包括对表情生成模型进行校正的步骤，校正的步骤包括：

首先，获取训练数据，训练数据包括多组训练数据，其中，每组训练数据包括m帧连续图像和m帧连续图像中的第n帧的图像对应的目标表情信息标注，其中，n、m均为整数，且n大于1且小于m；

其次，将每组训练数据中的m帧连续图像作为表情生成模型的输入，将该组训练数据中的第n帧图像的目标表情信息标注作为目标输出，对表情生成模型进行校正，得到校正后的表情生成模型。

在这些可选的实现方式中，可以使用多组训练数据来对表情生成模型进行校正，使得校正后的表情生成模型更加稳定和精准。此外，上述校正过程相比于相关技术中由表情模型对各图像的表情信息进行预测，然后再对各图像的表情信息预测结果进行融合的方案中所使用的表情模型的校正过程相比，省略了计算各训练样本图像分别对应的预测表情信息的损失的步骤，减少了模型训练过程的计算量。

请参考图4和图5，图4为本实施例中的上述表情生成模型的校正过程的示意图。图5为相关技术中表情模型的校正过程示意图。

如图5所示，相关技术中的表情模型包括特征提取网络、预测网络以及表情信息融合网络。特征提取网络可以分别对输入的各帧图像进行面部图像特征提取，预测网络分别根据各帧图像的面部图像特征预测每一帧图像对应的预测表情信息结果。表情信息融合网络对各帧图像分别对应的预测表情信息结果进行融合，得到融合后的预测表情信息。

该表情模型的训练数据可以包括多个训练数据。每一组训练数据可以包括当前帧图像以及当前帧图像的历史图像，以及当前帧图像和历史图像分别对应的表情信息标注。

在对该表情模型进行训练时，可以使用各训练数据对表情模型进行训练。每组训练数据中的各图像例如可以为图像i-2、图像i-1和图像i。可以对于将该组的每一帧图像作为输入，将该帧图像对应的表情信息标注作为目标输出。对每一帧图像的预测表情信息以及该帧图像对应表情信息标注，利用损失函数计算损失，并根据损失从后往前逐级反馈给表情模型的各级网络，对各级网络的网络参数进行调整。例如图5中图像i-2、图像i-1和图像i作为训练图像，图像i-2、图像i-1和图像i分别对应表情信息标注b_i-2、表情信息标注b_i-1和表情信息标注b_i。在对该表情模型进行训练时，可以将图像i-2作为输入，通过特征提取网络提取图像i-2的面部图像特征f_i-2。面部图像特征f_i-2输入到预测网络，得到图像i-2的预测表情信息z_i-2，根据预测表情信息z_i-2、表情信息标注b_i-2和预设损失函数计算损失值，根据损失值调整各级网络的网络参数。同样地，将图像i-1作为输入，通过特征提取网络提取图像i-1的面部图像特征f_i-1。面部图像特征f_i-1输入到预测网络，得到图像i-1的预测表情信息z_i-1，根据预测表情信息z_i-1、表情信息标注b_i-1和预设损失函数计算损失值，根据损失值调整各级网络的网络参数。将图像i作为输入，通过特征提取网络提取图像i的面部图像特征f_i。面部图像特征f_i输入到预测网络，得到图像i的预测表情信息z_i，根据预测表情信息z_i、表情信息标注b_i和预设损失函数计算损失值，根据损失值调整各级网络的网络参数。根据使用各帧图像初步训练后的模型，再将上述图像i-2、图像i-1和图像i作为输入，融合各帧图像的预测表情信息z_i-2、z_i-1和z_i后得到的z_i ^’作为图像i对应的再次预测表情信息，然后根据图像i的再次预测表情信息z_i ^’、图像i对应的表情信息标注b_i和预设损失函数计算损失，然后再根据损失调整各级网络的参数。可以看到，该表情模型的训练过程涉及两个步骤的损失计算，以及根据两个步骤的损失调整网络参数，从而该表情模型的训练过程中计算量较大。

请参考图4，本公开提供的表情生成模型包括特征提取网络、特征融合网络和预测网络。训练数据例如可以包括多组训练数据。每一组训练数据例如可以包括按照采集时间先后排列的图像i-1、图像i和图像i+1，以及图像的表情信息标注。图像i-1、图像i和图像i+1分别对应表情信息标注b_i-1、表情信息标注b_i和表情信息标注b_i+1。在对该表情生成模型进行训练时，可以将图像i-1作为输入，得到图像i-1的面部图像特征f_i-1；将图像i作为输入，得到图像i的面部图像特征f_i；将图像i+1作为输入，得到图像i+1的面部图像特征f_i+1。特征融合网络将上述面部图像特征i-1、面部图像特征i和面部图像特征i+1进行融合，得到图像i的目标面部表情图像f_i’。利用目标面部图像特征f_i’确定图像i中目标对象的预测表情信息z_i。可以根据预测表情信息z_i和图像i的表情信息标注b_i和损失函数计算损失，根据损失从后向前逐级调整各级网络的网络参数。

本公开的上述训练过程，仅在一个步骤计算损失，根据该步骤的损失来调整表情生成模型的各级网络参数。

对比图5和图4的训练过程，图4示出的对表情生成模型的训练过程中减少了一步损失计算，从而可以降低了表情生成模型训练过程中的计算量。

在一些可选的实现方式中，上述第n帧图像对应的目标表情信息标注可以由如下步骤得到：

将m帧连续图像分别对应的初始表情信息标注进行低通滤波，得到滤波后的第n帧图像对应的目标表情信息标注。

上述低通滤波例如可以包括但不限于：通过离散余弦变换方式、通过离散傅里叶变换方式进行低通滤波。

以离散余弦变换方式对m帧连续图像进行滤波为例，每一帧图像可以对应1个初始表情信息标注。初始表情信息标注可以是N维向量。m帧图像分别对应的N维向量中，相同维的向量对应同一个面部运动单元。对于任意一维向量，可以按照各帧图像的先后顺序将m个该维向量进行排列，形成该维向量的数据序列。下面以离散余弦变换为例说明低通滤过过程。将该维向量的m个数据序列进行离散余弦变换，得到该m个数据序列对应的频谱。将频谱中的最后一维丢弃。将丢弃了最后一维频谱的m个数据序列的频谱进行逆变换，将逆变换结果作为第n帧图像的该维向量对应的目标表情信息标注。

重复各维向量分别对应的m个数据序列的上述低通滤波过程，可以得到各维向量分别对应的低通滤波后的目标表情信息标注。将各维向量分别对应的目标表情信息标注按照各维向量的预设顺序进行排列，得到第n帧图像的目标表情信息标注。

通过对m帧训练图像对应的初始表情信息标注进行低通滤波，可以过滤初始表情信息标注异常，可以降低训练数据中由于人工对面部图像进行初始表情信息标注时出现的异常标注在表情生成模型训练过程中带来的不利影响，有利于提高对表情生成模型训练的效率。

请参考图6，其示出了确定图像序列多帧图像分别对应的表情信息的示意图。图像序列例如可以包括图像1、图像2、图像3、图像4和图像5。可以将图像1、图像2和图像3；图像2、图像3和图像4；图像3、图像4和图像5分别作为一组输入到表情生成模型。表情生成模型中的特征提取网络分别提取图像1、图像2、图像3、图像4和图像5分别对应的目标图像特征：特征1、特征2、特征3、特征4、特征5。将特征1、特征2和特征3通过特征融合网络进行融合得到图像2的目标图像特征特征2’。将特征2、特征3和特征4通过特征融合网络进行融合得到图像3的目标图像特征特征3’。将特征3、特征4和特征5通过特征融合网络进行融合，得到图像4的目标图像特征特征4’。可以根据利用预测网络对目标图像特征特征2’进行预测，得到图像2对应的预测表情信息2’。利用预测网络对目标图像特征特征3’进行预测，得到图像3对应的预测表情信息3’。利用预测网络随目标图像特征4’进行预测，得到图像特征4的预测表情信息4’。通过上述方式得到的图像2、图像3和图像4等的预测表情信息之间具有较好的连续性，将上述表情信息应用到虚拟对象时，虚拟对象的连续帧之间的表情信息的连贯性也较好。

在一些实施例中，对于任一图像帧，可以预先设置历史图像所包括的历史图像帧的数量，以及后继图像所包括的后继图像帧的数量，并进而确定确定该图像帧的目标面部图像特征涉及的图像的帧数。假设历史图像包括的历史图像帧的数量为t1，后继图像包括的后继图像帧的数量为t2，则该图像帧的目标面部图像特征可以由t1+t2+1帧图像中目标对象的面部图像特征来确定。可以根据上述帧数确定预设队列的长度。例如上述预设队列的长度可以为t1+t2+1。构建长度为t1+t2+1的预设队列。可以将目标对象的连续多帧图像依次输入到上述特征提取网络，得到各帧图像分别对应的面部图像特征。将各帧图像分别对应的面部图像特征按照各帧图像分别对应的顺序依次输入到上述预设队列中。输入到预设队列中的各面部图像特征可以视为该预设队列的元素。对于连续图像帧中的第k帧图像，第k帧图像的目标面部图像特征需要融合t1帧历史图像帧的图像特征，t2帧后继图像帧的面部图像特征和第k帧图像自身的面部图像特征。则可以将第(k-t1)帧图像对应的面部图像特征至第(k+t2)帧图像对应的目标图像特征按照各帧图像的先后顺序依次输入到预设队列中，在预设队列被填满后，可以将该队列中的各元素进行融合，从而得到第k帧图像对应的目标对象的目标面部图像特征。在第k帧图像的目标面部图像特征得到后，可以将第(k-t1)帧图像对应的面部图像特征出队。然后向预设队列的队尾输入第(k+1+t2)帧图像对应的面部图像特征。计算第(k+1)帧图像的目标面部图像特征。这里的t1为大于等于1，小于k的整数。t2为大于等于1的整数。k为大于1的整数。若预设队列未填满，则不对预设队列中的各元素进行融合。

与图2所示实施例提供的表情信息识别方法相比，本实施例提供的方法使用表情生成模型来确定融合了历史图像、当前帧图像和后继图像的图像特征的当前帧图像的目标面部图像特征，并由目标面部图像特征预测当前帧图像的目标对象的表情信息，可以简化确定当前帧图像中目标对象的表情信息的复杂度。

在一些可选的实现方式中，上述特征融合网络为一维卷积网络。

相关技术中的表情信息融合网络为全连接网络。例如图5所示的表情模型中表情信息融合网络为全连接网络。由于面部图像特征的数据维度相比预测表情信息的维度要高，因此面部图像特征的特征融合网络若和表情信息融合网络一样使用全连接网络，则会造成较大的参数量和计算量。如下图7所示，图7为全连接网络的计算示意图。

图8A和图8B为一维卷积网络计算示意图。

利用全连接层进行降维计算时，需要将目标面部图像特征整理成一维向量，如图7所示，将目标面部图像特征整理为一维向量f₁ ^i-1、f₂ ^i-1…f_m ^i-1、f₁ ⁱ、f₂ ⁱ…f_m ⁱ、f₁ ⁱ⁺¹、f₂ ⁱ⁺¹…f_m ⁱ ⁺¹。全连接层的输出可以为m帧图像分别对应的预测表情信息z₁ ⁱ、z₂ ⁱ…z_m ⁱ。在由一维向量确定m帧图像分别对应的预测表情信息时，对于每一帧图像对应的预测表情信息，该一维向量中的每个分向量均参与计算。

为了简化计算，可以将特征融合网络设置为一维卷积网络。如图8A所示，目标面部图像特征可以整理为矩阵形式，例如m×3的目标面部图像特征矩阵，将该m×3矩阵通过一维卷积网络，从而得到m帧图像分别对应的预测表情信息z₁ ⁱ、z₂ ⁱ…z_m ⁱ。

图8B是将目标面部图像特征矩阵与一维卷积矩阵的运算转换成了另外一种展现方式，以便于比较与图7所示的全连接网络的计算数量。如图8B所示，对于每一帧图像对应的预测表情信息，仅由与该帧图像对应的前一帧图像、该帧图像以及该帧图像的后一帧图像参与计算。上述对于每一帧图像对应的预测表情信息，只需要通过与该帧图像相关的多帧图像的图像特征与该一维卷积网络进行卷积计算即可。图7中图像特征融合使用一维卷积网络相比于使用全连接网络对特征进行融合，减少了大量地神经元之间的连接，减少了偏置参数量与计算量。

图8A所示的一维卷积网络中偏置参数可以为W。若忽略卷积层中的偏置参数，利用一维卷积网络来对目标面部图像特征确定预测表情信息，相比于全连接网络，计算量可以约缩减至原来的1/C，这里C为目标图像特征维度。

在得到了多帧图像分别对应的上述表情信息之后，可以将各上述表情信息应用到虚拟对象中，从而得到虚拟对象连贯性较好的面部表情。具体地，由多维表情向量构成的表情信息中的每一维表情向量对应一个运动单元。参考目标对象图像的运动单元划分，虚拟对象的面部也可以划分多个运动单元，按照表情信息设置各运动单元对应的运动参数，从而可以生成虚拟对象的面部表情。

对应于上文实施例的表情信息识别方法，图9为本公开实施例提供的表情信息识别装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图9，装置90包括：获取单元901和预测单元902。其中，

获取单元901，用于获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；

预测单元902，用于据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于目标面部图像特征确定当前帧图像中目标对象的表情信息。

在本公开的一个实施例中，预测单元902，具体用于：分别确定当前帧图像、历史图像以及后继图像的面部图像特征；对当前帧图像、历史图像和后继图像的面部图像特征进行融合，得到当前帧图像的目标面部图像特征。

在本公开的一个实施例中，预测单元902，具体用于：

根据面部图像特征确定多个面部运动单元各自对应的运动单元特征；

根据多个运动单元特征确定当前帧图像中目标对象的表情信息。

在本公开的一个实施例中，预测单元902，具体用于：

将当前帧图像、历史图像以及后继图像输入到表情生成模型，由表情生成模型根据当前帧图像、历史图像以及后继图像确定当前帧图像的目标面部图像特征，并根据目标面部图像特征确定目标对象的表情信息。

在本公开的一个实施例中，表情生成模型包括特征提取网络、特征融合网络和预测网络；其中

特征融合网络用于对图像特征网络提取各面部图像特征进行融合，得到当前帧图像对应的目标面部图像特征；

在本公开的一个实施例中，特征融合网络为一维卷积网络。

在本公开的一个实施例中，表情信息识别装置还包括校正单元(图中未示出)。训练单元用于：

获取训练数据，训练数据包括多组训练数据，其中，每组训练数据包括m帧连续图像和m帧连续图像中的第n帧的图像对应的目标表情信息标注，其中，n、m均为整数，且n大于1且小于m；

将每组训练数据中的m帧连续图像作为表情生成模型的输入，将该组训练数据中的第n帧图像的目标表情信息标注作为目标输出，对表情生成模型进行校正，得到校正后的表情生成模型。

在本公开的一个实施例中，校正单元具体用于基于如下步骤确定第n帧图像对应的目标表情信息标注：

在本公开的一个实施例中，历史图像包括当前帧图像的前一帧图像，后继图像包括当前帧图像的后一帧图像。

为了实现上述实施例，本公开实施例还提供了一种电子设备。

参考图10，其示出了适于用来实现本公开实施例的电子设备1000的结构示意图，该电子设备1000可以为扩展现实设备、终端设备。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(PortableMedia Player，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(Read Only Memory，简称ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(Random Access Memory，简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常，以下装置可以连接至I/O接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置1007；包括例如磁带、硬盘等的存储装置1008；以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1008被安装，或者从ROM1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取当前帧图像、当前帧图像的历史图像和后继图像的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种表情信息识别方法，包括：

获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；

根据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于目标面部图像特征确定当前帧图像中目标对象的表情信息。

根据本公开的一个或多个实施例，根据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征，包括：

分别确定当前帧图像、历史图像以及后继图像的面部图像特征；

对当前帧图像、历史图像和后继图像的面部图像特征进行融合，得到当前帧图像的目标面部图像特征。

根据本公开的一个或多个实施例，基于目标面部图像特征确定当前帧图像中目标对象的表情信息，包括：

根据本公开的一个或多个实施例，根据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于目标面部图像特征确定当前帧图像中目标对象的表情信息，包括：将当前帧图像、历史图像以及后继图像输入到表情生成模型，由表情生成模型根据当前帧图像、历史图像以及后继图像确定当前帧图像的目标面部图像特征，并根据目标面部图像特征确定目标对象的表情信息。

根据本公开的一个或多个实施例，表情生成模型包括特征提取网络、特征融合网络和预测网络；其中

特征融合网络用于对各面部图像特征进行融合，得到当前帧图像对应的目标面部图像特征；

根据本公开的一个或多个实施例，特征融合网络包括一维卷积网络。

根据本公开的一个或多个实施例，表情信息识别方法还包括：

根据本公开的一个或多个实施例，第n帧图像对应的目标表情信息标注由如下步骤得到：

根据本公开的一个或多个实施例，历史图像包括当前帧图像的前一帧图像，后继图像包括当前帧图像的后一帧图像。

第二方面，根据本公开的一个或多个实施例，提供了一种表情信息识别装置，包括：

获取单元，用于获取当前帧图像、当前帧图像的历史图像和后继图像，其中，图像中包括目标对象的面部图像；

预测单元，用于据当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于目标面部图像特征确定当前帧图像中目标对象的表情信息。

根据本公开的一个或多个实施例，预测单元，具体用于：分别确定当前帧图像、历史图像以及后继图像的面部图像特征；对当前帧图像、历史图像和后继图像的面部图像特征进行融合，得到当前帧图像的目标面部图像特征。

根据本公开的一个或多个实施例，预测单元，具体用于：

根据本公开的一个或多个实施例，表情信息识别装置还包括校正单元。

校正单元用于：

根据本公开的一个或多个实施例，校正单元具体用于基于如下步骤确定第n帧图像对应的目标表情信息标注：

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器和存储器；

存储器存储计算机执行指令；

至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上第一方面以及第一方面各种可能的设计的表情信息识别方法。

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计的表情信息识别方法。

第五方面，根据本公开的一个或多个实施例，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计的表情信息识别方法

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种表情信息识别方法，包括：

根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征，包括：

对所述当前帧图像、历史图像和后继图像的面部图像特征进行融合，得到所述当前帧图像的目标面部图像特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息，包括：

根据所述面部图像特征确定多个面部运动单元各自对应的运动单元特征；

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息，包括：

将所述当前帧图像、历史图像以及后继图像输入到表情生成模型，由所述表情生成模型根据当前帧图像、历史图像以及后继图像确定当前帧图像的目标面部图像特征，并根据所述目标面部图像特征确定目标对象的表情信息。

5.根据权利要求4所述的方法，其特征在于，所述表情生成模型包括特征提取网络、特征融合网络和预测网络；其中

所述特征提取网络用于分别提取输入的历史图像、当前帧图像和后继图像的面部图像特征；

所述特征融合网络用于对图像特征网络提取各面部图像特征进行融合，得到当前帧图像对应的目标面部图像特征；

所述预测网络用于根据所述目标面部图像特征预测当前帧图像中目标对象的表情信息。

6.根据权利要求5所述的方法，其特征在于，所述特征融合网络为一维卷积网络。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取训练数据，所述训练数据包括多组训练数据，其中，每组训练数据包括m帧连续图像和m帧连续图像中的第n帧的图像对应的目标表情信息标注，其中，n、m均为整数，且n大于1且小于m，；

8.根据权利要求7所述的方法，其特征在于，第n帧图像对应的目标表情信息标注由如下步骤得到：

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述历史图像包括当前帧图像的前一帧图像，所述后继图像包括当前帧图像的后一帧图像。

10.一种表情信息识别装置，包括：

预测单元，用于根据所述当前帧图像、历史图像以及后继图像，确定当前帧图像的目标面部图像特征；以及基于所述目标面部图像特征确定当前帧图像中目标对象的表情信息。

11.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至9任一项所述的表情信息识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9任一项所述的表情信息识别方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的图像处理的方法。