CN110321845B

CN110321845B - 一种从视频中提取表情包的方法、装置及电子设备

Info

Publication number: CN110321845B
Application number: CN201910598801.5A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-06-18
Anticipated expiration: 2039-07-04
Also published as: CN110321845A

Abstract

本发明实施例提供了一种从视频中提取表情包的方法、装置及电子设备。该方法包括从待提取表情包的视频中抽取视频帧；从所抽取到的视频帧中提取人脸图像；如果提取到，确定所提取到的人脸图像中人脸的目标特征信息；将目标特征信息输入至预先训练的表情包识别模型，得到识别结果；表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及第一样本图像的标签值，所训练完成的；所述第一样本图像为包含人脸区域的图像，所述标签值为表明所述第一样本人脸图像是否属于表情包的标识值；当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为视频的表情包。通过本方案可以提高视频中表情包的提取效率。

Description

一种从视频中提取表情包的方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种从视频中提取表情包的方法、装置及电子设备。

背景技术

所谓表情包，是一种利用图片来表示感情的一种方式，并且现如今已流行于互联网上。而由于视频中存在各类人物的不同的情感表达，因此，从视频中提取表情包，是常见的表情包生成方式。

现有技术中，从视频中提取表情包的方法包括：人工分析视频中各视频帧是否包含表情包，并从视频中抽取包含表情包的视频帧，进而，在所抽取的视频帧中提取表情包。

发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

尽管现有技术能够从视频中提取到表情包，但是由于采用人工方式，导致视频中表情包的提取效率较低。

发明内容

本发明实施例的目的在于提供一种从视频中提取表情包的方法、装置及电子设备，以提高视频中表情包的提取效率。具体技术方案如下：

第一方面，本发明实施例提供了一种从视频中提取表情包的方法，包括：

从待提取表情包的视频中抽取视频帧；

从所抽取到的视频帧中提取人脸图像；

如果提取到，确定所提取到的人脸图像中人脸的目标特征信息；其中，所述目标特征信息为人脸表情产生时受到影响的人脸特征信息；

将所述目标特征信息输入至预先训练的表情包识别模型，得到识别结果；其中，所述表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及所述第一样本图像的标签值，所训练完成的；所述第一样本图像为包含人脸区域的图像，所述标签值为表明所述第一样本人脸图像是否属于表情包的标识值；

当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为所述视频的表情包。

可选地，所述方法还包括：

将所述视频与所述视频的表情包进行关联存储；

当用户播放端请求所述视频时，将所述视频和与所述视频关联存储的表情包反馈给所述用户播放端，以使得所述用户播放端在播放所述视频的同时，关联显示所述视频的表情包。

可选地，所述目标特征信息包括：

关键点信息、视线信息、情感类别信息和面部对象信息中的一种或多种特征信息；

其中，所述面部对象信息为人脸表情发生时受到影响的面部对象的张开程度数据。

可选地，所述目标特征信息包括：所述关键点信息、所述视线信息、所述情感类别信息和所述面部对象信息；

所述确定所提取到的人脸图像中人脸的目标特征信息的步骤，包括：

将目标图像输入至预先训练的特征信息识别模型，得到所述目标图像中人脸的关键点信息、视线信息和情感类别信息；其中，所述目标图像为所述所提取到的人脸图像；

基于所得到的关键点信息，计算所述目标图像中人脸的面部对象信息；

其中，所述特征信息识别模型为基于第二样本图像，以及所述第二样本图像中人脸的真值关键点信息、真值视线信息和真值情感类别信息，所训练得到的模型；所述第二样本图像为包含人脸区域的图像。

可选地，所述特征信息识别模型包括：

顺次连接的特征提取网络和分支网络组，所述分支网络组包括作为并列分支的第一特征识别网络、第二特征识别网络以及第三特征识别网络；

所述特征提取网络，用于提取所述第二样本图像中人脸的特征数据；

所述第一特征识别网络，用于基于所述特征提取网络所提取的特征数据，识别所述第二样本图像中人脸的关键点信息；

所述第二特征识别网络，用于基于所述特征提取网络所提取的特征数据，识别所述第二样本图像中人脸的视线信息；

所述第三特征识别网络，用于基于所述特征提取网络所提取的特征数据，识别所述第二样本图像中人脸的情感类别信息。

可选地，所述特征信息识别模型的训练过程包括：

获得多个所述第二样本图像，以及每一所述第二样本图像中人脸的真值关键点信息、真值视线信息以及真值情感类别信息；

分别将多个所述第二样本图像输入至所述特征信息识别模型，以使所述特征信息识别模型中的所述特征提取网络分别提取每个所述第二样本图像中人脸的特征数据，并将每个所述第二样本图像中人脸的特征数据，均分别输入所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络，使得所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络对所接收到的特征数据进行信息识别，得到每个所述第二样本图像中人脸的预测关键点信息、预测视线信息和预测情感类别信息；

基于每个所述第二样本图像中人脸的预测关键点信息与相应真值关键点信息的差异、每个所述第二样本图像中人脸的预测视线信息与相应真值视线信息的差异，以及每个所述第二样本图像中人脸的预测情感类别信息与相应真值情感类别信息的差异，计算综合损失值；

基于所述综合损失值，判断训练中的特征信息识别模型是否收敛，如果收敛，结束训练，得到训练完成的特征信息识别模型；否则，调整所述特征信息识别模型的网络参数，继续下一次训练。

可选地，所述面部对象信息包括：眼睛睁开程度数据、嘴巴在高度上的张开程度数据和/或嘴巴在宽度上的张开程度数据；

计算所述目标图像中人脸的眼睛睁开程度数据的方式，包括：

利用所述目标图像中人脸的关于眼睛的关键点信息，计算所述目标图像中眼睛的最高点至最低点的第一距离，并将所述第一距离除以目标距离，得到所述目标图像中人脸的眼睛睁开程度数据；其中，所述目标距离为所述目标图像中人脸对应的用于尺寸归一化的距离；

计算所述目标图像中人脸的嘴巴在高度上的张开程度数据的方式，包括：

利用所述目标图像中人脸的关于嘴巴的关键点信息，计算所述目标图像中嘴巴的最高点至最低点的第二距离，并将所述第二距离除以所述目标距离，得到所述目标图像中人脸的嘴巴在高度上的张开程度数据；

计算所述目标图像中人脸的嘴巴在宽度上的张开程度数据的方式，包括：

利用所述目标图像中人脸的关于嘴巴的关键点信息，计算所述目标图像中嘴巴的最左点至最右点的第三距离，并将所述第三距离除以所述目标距离，得到所述目标图像中人脸的嘴巴在宽度上的张开程度数据。

可选地，所述目标距离的计算方式包括：

利用预定的计算公式和所述目标图像中人脸的关键点信息，计算所述目标距离；

所述预定的计算公式为：

其中，d_n为所述目标距离，d_{L_eye-L_mouth}为所述目标图像中左眼到嘴巴的最左点的距离，d_{L_eye-nose}为所述目标图像中左眼到鼻子的距离，d_{R_eye-L_mouth}为所述目标图像中右眼到嘴巴的最右点的距离，d_{R_eye-nose}为所述目标图像中右眼到鼻子的距离，d_{L_mouth-nose}为所述目标图像中嘴巴的最左点到鼻子的距离，d_{R_mouth-nose}为所述目标图像中嘴巴的最右点到鼻子的距离。

第二方面，本发明实施例提供了一种从视频中提取表情包的装置，包括：

视频帧抽取模块，用于从待提取表情包的视频中抽取视频帧；

图像提取模块，用于从所抽取到的视频帧中提取人脸图像；

信息确定模块，用于如果提取到，确定所提取到的人脸图像中人脸的目标特征信息；其中，所述目标特征信息为人脸表情产生时受到影响的人脸特征信息；

表情包识别模块，用于将所述目标特征信息输入至预先训练的表情包识别模型，得到识别结果；其中，所述表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及所述第一样本图像的标签值，所训练完成的；所述第一样本图像为包含人脸区域的图像，所述标签值为表明所述第一样本人脸图像是否属于表情包的标识值；

表情包确定模块，用于当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为所述视频的表情包。

可选地，所述装置还包括：

将所述视频与所述视频的表情包进行关联存储；

可选地，所述目标特征信息包括：

所述信息确定模块，包括：

第一确定子模块，用于将目标图像输入至预先训练的特征信息识别模型，得到所述目标图像中人脸的关键点信息、视线信息和情感类别信息；其中，所述目标图像为所述所提取到的人脸图像；

第二确定子模块，用于基于所得到的关键点信息，计算所述目标图像中人脸的面部对象信息；

可选地，所述特征信息识别模型包括：

可选地，所述特征信息识别模型的训练过程包括：

所述第二确定子模块计算所述目标图像中人脸的眼睛睁开程度数据的方式，包括：

所述第二确定子模块计算所述目标图像中人脸的嘴巴在高度上的张开程度数据的方式，包括：

所述第二确定子模块计算所述目标图像中人脸的嘴巴在宽度上的张开程度数据的方式，包括：

可选地，所述目标距离的计算方式包括：

所述预定的计算公式为：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一从视频中提取表情包的方法。

第四方面，本发明实施还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一从视频中提取表情包的方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一从视频中提取表情包的方法。

本发明实施例所提供方案中，针对待提取表情包的视频，无需采用人工方式提取，而是通过如下处理流程自动完成：从待提取表情包的视频中抽取视频帧；从所抽取到的视频帧中提取人脸图像；如果提取到，确定所提取到的人脸图像中人脸的目标特征信息，该目标特征信息为人脸表情产生时受到影响的人脸特征信息；将该目标特征信息输入至预先训练的表情包识别模型，得到识别结果；当该识别结果表明属于表情包时，将所提取到的人脸图像，作为该视频的表情包。可见，由于本方案无需人工提取表情包，因此，可以大大提高视频中表情包的提取效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种从视频中提取表情包的方法的流程图；

图2为本发明实施例所提供的一种从视频中提取表情包的方法的另一流程图；

图3(a)为图2所示实施例的处理流程示意图；

图3(b)为一种特征信息识别模型的结构示意图；

图4为本发明实施例所提供的一种从视频中提取表情包的装置的结构示意图；

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种从视频中提取表情包的方法、装置及电子设备，以实现提高视频中表情包的提取效率的目的。

下面首先对本发明实施例所提供的一种从视频中提取表情包的方法进行介绍。

本发明实施例所提供的一种从视频中提取表情包的方法的执行主体可以为一种从视频中提取表情包的装置，该从视频中提取表情包的装置可以运行于电子设备中。在具体应用中，该电子设备可以为终端设备，例如：智能手机、平板电脑、笔记本电脑、台式电脑等设备；当然，该电子设备也可以为服务器。

可以理解的是，针对电子设备为终端设备的情况，通过在电子设备中运行该从视频中提取表情的装置，可以满足用户从视频中提取表情包的个人需求。而针对电子设备为服务器的情况，通过在电子设备中运行该从视频中提取表情的装置，可以满足视频网站等平台的表情包提取需求。

另外，该从视频中提取表情包的装置可以为专门的客户端软件，也可以为现有的客户端软件中的插件。并且，该从视频中提取表情包的装置所能够处理的视频的时长、格式和内容等，本发明实施例不做任何限定。

为了下文描述方便，将该从视频中提取表情包的装置简称为：表情包提取装置。

如图1所示，本发明实施例提供了一种从视频中提取表情包的方法，可以包括如下步骤：

S101，从待提取表情包的视频中抽取视频帧；

当需要从某一视频中提取表情包时，可以将该视频作为待提取表情包的视频并提交至该表情包提取装置中。相应的，该表情包提取装置可以从待提取表情包的视频中抽取视频帧，并利用所抽取到的视频帧进行表情包分析处理。

为了保证待提取表情包的视频的提交，该表情包提取装置可以提供视频提交接口，例如：视频提交界面，或者，视频提交窗口，等等。并且，如果存在多个待提取表情包的视频，该多个待提取表情包的视频可以批量提交或者单独提交，这都是合理的。

另外，针对待提取表情包的视频而言，为了保证表情包提取的完整性，可以从该视频中抽取多个视频帧，并且，针对抽取到的每一视频帧均可以执行S102-S105的步骤。可以理解的是，该表情包提取装置可以在抽取完毕所有视频帧后，针对所抽取到的每一视频帧，执行S102-S105的步骤；当然，该表情包提取装置可以每抽取一个视频帧后，对当前所抽取到的视频帧执行S102-S105。

并且，从待提取表情包的视频中抽取视频帧的方式存在多种。示例性的，该表情包提取装置可以抽取视频中的每一视频帧；或者，按照预定抽取周期进行抽取；或者，按照随机抽取方式抽取；或者，对该待提取表情包的视频进行人脸检测及追踪，根据检测及及追踪结果从该待提取表情包的视频中抽取包含人脸区域的视频帧，等等。

S102，从所抽取到的视频帧中提取人脸图像；

在从待提取表情包的视频中抽取视频帧后，可以从所抽取到的视频帧中检测人脸区域，并在检测到人脸区域后，得到人脸框集合；然后，基于该人脸框集合，从所抽取到的视频帧中提取人脸图像，即包含人脸框内区域的图像。可以理解的是，一个视频帧中可以一个或多个人脸区域，也可以不存在人脸区域；而当存在一个或多个人脸区域时，可以获得相应数量的人脸框，进而，获得相应数量的人脸图像。其中，上述的人脸框集合为关于至少一个人脸框的集合，其中，人脸框为包围人脸区域的矩形框。并且，由于人脸框可以通过坐标信息来表征，因此，上述的人脸框集合中具体可以包括至少一个坐标信息，而每一坐标信息能够确定出一个人脸框。

可选地，为了表情包的完整表达，可以将人脸框向外扩张，得到新的矩形，将该新的矩形所包围的图像块提取出，得到人脸图像。关于向外扩张的具体实现方式可以采用任何一种能够实现区域扩展的方式，本发明实施例不做限定。

并且，本步骤中从所抽取到的视频帧中检测人脸区域的具体实现方式可以采用任一种能够从图像中检测人脸区域的方式。示例性的，可以利用预先训练的人脸检测模型，从所抽取到的视频帧中检测人脸区域。该人脸检测模型的网络类型可以存在多种，例如：MTCNN(Multi-task Cascaded Convolutional Networks)网络、SSH(single stageheadless)网络，当然并不局限于此。

S103，如果提取到，确定所提取到的人脸图像中人脸的目标特征信息；

如果提取到人脸图像，为了识别人脸图像是否属于表情包，可以通过预定的确定方式，确定所提取到的人脸图像中人脸的目标特征信息，其中，该目标特征信息为人脸表情产生时受到影响的人脸特征信息。可以理解的是，由于该目标特征信息为人脸表情产生时受到影响的人脸特征信息，因此，后续可以利用该目标特征信息来识别人脸图像是否属于表情包。

示例性的，在一种实现方式中，该目标特征信息可以包括：

关键点信息、视线信息、情感类别信息和面部对象信息中的一种或多种特征信息；其中，该面部对象信息为人脸表情发生时受到影响的面部对象的张开程度数据。

其中，该关键点信息即为人脸区域的各个关键点的坐标信息。由于每个关键点的坐标信息为x轴坐标信息和y轴坐标信息，因此，每个关键点的坐标信息为2维信息。基于此可知，该关键点信息为多维信息，各个关键点的数量的二倍为关键信息的维数，例如：各个关键点的数量为106，那么，关键点信息的维度为212维。并且，关键点信息的识别可以采用任一种能够识别关键点信息的方式，例如：通过预先训练的关键点识别模型，识别人脸图像中人脸的关键点信息。

其中，视线信息可以包括左右眼的航向yaw、俯仰pitch和横滚roll的角度信息中的一种或多种信息。并且，视线信息的识别可以采用任一种能够识别视线信息的方式，例如：通过预先训练的视线信息识别模型，识别人脸图像中人脸的视线信息。

其中，情感类别信息即表明人脸所属情感类别的信息，示例性的，该情感类别信息可以为t维的标签类型概率，t为情感类别的种类数量。其中，情感类别可以包括但不局限于悲伤、中性、厌恶、愤怒、惊喜、恐惧、幸福中的一种。并且，情感类别信息的识别可以采用任一种能够识别情感类别信息的方式，例如：通过预先训练的情感类别信息识别模型，识别人脸图像中人脸的情感类别信息。

其中，该面部对象信息可以包括：眼睛睁开程度数据、嘴巴在高度上的张开程度数据和/或嘴巴在宽度上的张开程度数据，其中，眼睛睁开程度数据包括左眼睁开程度数据和/或右眼睁开程度数据。并且，针对眼睛睁开程度数据、嘴巴在高度上的张开程度数据和嘴巴在宽度上的张开程度数据的任一种程度数据，可以采用任一种能够识别该程度数据的方式来得到，例如：通过预先训练的面部对象信息识别模型，识别人脸图像中人脸的面部对象信息。

需要强调的是，上述的关于目标特征信息所包括的各个特征信息，仅仅作为一种示例，并不应该构成对本发明实施例的限定。

S104，将该目标特征信息输入至预先训练的表情包识别模型，得到识别结果；

在获得所提取到的人脸图像中人脸的目标特征信息后，可以利用预先训练的表情包识别模型对目标特征信息的分析，从而识别所提取到的人脸图像是否属于表情包。其中，该表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及该第一样本图像的标签值，所训练完成的；该第一样本图像为包含人脸区域的图像，该标签值为表明该第一样本人脸图像是否属于表情包的标识值。其中，该标签值为对第一样本人脸图像所标注的、用于表明该第一样本人脸图像是否属于表情包的标识值。示例性的，该标签值的取值可以为0和1，即通过0和1表明是否属于表情包，当然并不局限于此。并且，在该标签值的取值为0和1的情况下，在一种实现方式中，0可以表明属于表情包而1表明不属于表情包；而在另一种实现方式中，1可以表明属于表情包而0表明不属于表情包。

其中，为了保证识别有效性，目标特征信息和样本特征信息所包括的信息类别相同。例如，该样本特征信息包括：关键点信息、视线信息、情感类别信息和面部对象信息；相应的，该目标特征信息包括：关键点信息、视线信息、情感类别信息和面部对象信息。又例如：该样本特征信息包括：视线信息、情感类别信息和面部对象信息；相应的，该目标特征信息包括：视线信息、情感类别信息和面部对象信息。并且，对于目标特征信息和样本特征信息所包括的信息类别为多种时，可以将目标特征信息和样本特征信息所包括的各类信息进行特征融合后，然后输入到表情包识别模型中。

示例性的，该表情包识别模型的训练过程可以包括：

获得多个第一样本图像中人脸的样本特征信息，以及每个第一样本图像的标签值；

分别将每个第一样本图像输入到训练中的表情包识别模型中，得到每个第一样本图像对应的输出结果；

基于每个第一样本图像的输出结果和每个第一样本图像的标签值，计算损失值；

当损失值小于预设阈值时，判定该表情包识别模型收敛，得到训练完成的表情包识别模型；否则，判定该表情包识别模型未收敛，调整所述表情包识别模型的模型参数，并继续下一次训练。

所谓的继续下一次训练即，返回所述分别将每个第一样本图像输入到训练中的表情包识别模型中，得到每个第一样本图像对应的输出结果的步骤。

另外，可以理解的是，该表情包识别模型可以为任一种能够实现数据分类的网络模型。例如：该表情包识别模型可以为SVM((support vector machine，支持向量机)模型、CNN(Convolutional Neural Network，卷积神经网络)模型、RNN(Recurrent NeuralNetworks，循环神经网络)模型、DNN(Deep Neural Networks，深度神经网络)模型，等等。并且，在计算损失值，可以利用任一种能够计算输出值与标签值差异的函数，示例性的，损失函数利用平方损失函数、对数损失函数、指数损失函数、铰链损失函数，等等。

S105，当该识别结果表明属于表情包时，将该所提取到的人脸图像，作为该视频的表情包。

可以理解的是，表情包识别模型的识别结果可以为表明是和否的结果内容，也可以为属于表情包的概率，这都是合理的。无论识别结果的具体形态为何种，当该识别结果表明属于表情包时，可以将该所提取到的人脸图像，作为该视频的表情包。

可选地，针对本发明实施例所提供的方法应用于服务器的情况而言，可以在从视频中提取表情包后，将所提取的表情包连同视频关联展示给用户，以使得用户可以在观看视频的同时便捷地获取到视频中的表情包，从而提升用户的观影体验。基于此，在上述的S101-S105的基础上，本发明实施例所提供的一种从视频中提取表情包的方法，还可以包括如下步骤：

将该视频与该视频的表情包进行关联存储；

当用户播放端请求该视频时，将该视频和与该视频关联存储的表情包反馈给该用户播放端，以使得该用户播放端在播放该视频的同时，关联显示该视频的表情包。

在具体应用中，该用户播放端在播放该视频的同时，关联显示该视频的表情包具体可以为：该用户播放端在播放该视频的同时，在该视频的播放界面的预定区域显示该视频的表情包。其中，该预定区域可以包括但不局限于播放区域的右侧区域或下侧区域。并且，该视频的表情包可以一次全部显示，或者，批量显示，这都是合理的。

另外，在关联显示该视频的表情包时，可以提供“一键收藏”功能，通过开启该功能，该视频的表情包可以被全部收藏到本地。示例性的，该“一键收藏”功能的实现方式可以通过“一键收藏”按钮来实现，即通过点击“一键收藏”按钮来实现批量收藏。当然，在关联显示该视频的表情包时，每个表情包可以具有收藏按钮，通过点击收藏按钮，用户可以选择部分表情包进行收藏。

下面结合具体实施例，对本发明实施例所提供的一种从视频中提取表情包的方法方法进行详细介绍。

如图2所示，本发明实施例提供了一种从视频中提取表情包的方法，可以包括如下步骤：

S201，从待提取表情包的视频中抽取视频帧；

S202，从所抽取到的视频帧中提取人脸图像；

本实施例中，S201-S202的描述内容与上述的S101-S102的描述内容相同，在此不做赘述。

S203，如果提取到，将目标图像输入至预先训练的特征信息识别模型，得到该目标图像中人脸的关键点信息、视线信息和情感类别信息；

其中，该目标图像为该所提取到的人脸图像。而该特征信息识别模型为基于第二样本图像，以及该第二样本图像中人脸的真值关键点信息、真值视线信息和真值情感类别信息，所训练得到的模型；该第二样本图像为包含人脸区域的图像。

可以理解的是，由于关键点信息、视线信息和情感类别信息均可以通过对人脸的特征数据进一步识别得到，因此，可以通过同一个识别模型来识别得到关键点信息、视线信息和情感类别信息，以此减少模型的数量。为了方案清楚及布局清晰，后续对特征信息识别模型的网络结构，以及训练过程进行示例性说明。

另外，关于关键点信息、视线信息和情感类别信息的相关介绍内容，可以参见上述实施例的相应内容。

S204，基于所得到的关键点信息，计算该目标图像中人脸的面部对象信息；

在获得关键点信息后，可以利用所得到的关键点信息，计算该目标图像中人脸的面部对象信息。

可选地，在一种实现方式中，计算该目标图像中人脸的眼睛睁开程度数据的方式，可以包括：

利用该目标图像中人脸的关于眼睛的关键点信息，计算该目标图像中眼睛的最高点至最低点的第一距离，并将该第一距离除以目标距离，得到该目标图像中人脸的眼睛睁开程度数据；其中，该目标距离为该目标图像中人脸对应的用于尺寸归一化的距离；

计算该目标图像中人脸的嘴巴在高度上的张开程度数据的方式，可以包括：

利用该目标图像中人脸的关于嘴巴的关键点信息，计算该目标图像中嘴巴的最高点至最低点的第二距离，并将该第二距离除以所述目标距离，得到该目标图像中人脸的嘴巴在高度上的张开程度数据；

计算该目标图像中人脸的嘴巴在宽度上的张开程度数据的方式，可以包括：

利用该目标图像中人脸的关于嘴巴的关键点信息，计算该目标图像中嘴巴的最左点至最右点的第三距离，并将该第三距离除以该目标距离，得到该目标图像中人脸的嘴巴在宽度上的张开程度数据。

可以理解的是，上述的眼睛睁开程度数据的过程适用于左眼睁开程度数据和右眼睁开程度数据，其中，计算左眼睁开程度数据时利用左眼的最高点和最低点，而计算右眼睁开程度数据时利用右眼的最高点和最低点。并且，各个关键点可以具有编号，那么，可以预先指定出眼睛的最高点和最低点的编号，嘴巴的最高点和最低点的编号，以及嘴巴的最左点和最右点的编号。这样，在关键点信息确定后，可以通过关键点的编号，确定眼睛的最高点和最低点，嘴巴的最高点和最低点，以及嘴巴的最左点和最右点。

示例性的，该目标距离的计算方式包括：

利用预定的计算公式和该目标图像中人脸的关键点信息，计算该目标距离；

所述预定的计算公式为：

其中，d_n为该目标距离，d_{L_eye-L_mouth}为该目标图像中左眼到嘴巴的最左点的距离，d_{L_eye-nose}为该目标图像中左眼到鼻子的距离，d_{R_eye-L_mouth}为该目标图像中右眼到嘴巴的最右点的距离，d_{R_mouth-nose}为该目标图像中右眼到鼻子的距离，d_{L_mouth-nose}为该目标图像中嘴巴的最左点到鼻子的距离，d_{R_mouth-nose}为该目标图像中嘴巴的最右点到鼻子的距离。

示例性的，上述的左眼到嘴巴的最左点的距离，可以为左眼的中心点到嘴巴的最左点的距离，当然并不局限于此；上述的左眼到鼻子的距离，可以为左眼的中心点到鼻尖的距离，当然并不局限于此；上述的右眼到嘴巴的最右点的距离，可以为右眼的中心点到嘴巴的最右点的距离，当然并不局限于此；上述的右眼到鼻子的距离，可以为右眼的中心点到鼻尖的距离，当然并不局限于此；上述嘴巴的最左点到鼻子的距离，可以为嘴巴的最左点到鼻尖的距离，当然并不局限于此；上述的嘴巴的最右点到鼻子的距离，可以为嘴巴的最右点到鼻尖的距离，当然并不局限于此。并且，为了方便计算上述的各个距离，每个关键点可以具有编号，这样可以预先指定左眼的中心点的关键点编号、右眼的中心点的关键点编号、鼻尖的关键点编号、嘴巴的最左点的关键点编号以及嘴巴的最右点的关键点编号。

可选地，在另一种实现方式中，计算该目标图像中人脸的眼睛睁开程度数据的方式，可以包括：

利用该目标图像中人脸的关于眼睛的关键点信息，计算该目标图像中眼睛的最高点至最低点的第一距离，并将该第一距离作为目标图像中人脸的眼睛睁开程度数据；

利用该目标图像中人脸的关于嘴巴的关键点信息，计算该目标图像中嘴巴的最高点至最低点的第二距离，并将该第二距离作为该目标图像中人脸的嘴巴在高度上的张开程度数据；

利用该目标图像中人脸的关于嘴巴的关键点信息，计算该目标图像中嘴巴的最左点至最右点的第三距离，并将该第三距离作为该目标图像中人脸的嘴巴在宽度上的张开程度数据。

上述的关于计算该目标图像中人脸的面部对象信息的具体实现方式，仅仅作为示例，并不应该构成对本发明实施例的限定。

S205，将该目标图像中人脸的关键点信息、视线信息、情感类别信息和面部对象信息，输入至预先训练的表情包识别模型，得到识别结果；

其中，该表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及所述第一样本图像的标签值，所训练完成的；所述第一样本图像为包含人脸区域的图像，所述标签值为表明第一样本人脸图像是否属于表情包的标识值。其中，该样本特征信息包括：样本关键点信息、样本视线信息、样本情感类别信息和样本面部对象信息。

其中，将该目标图像中人脸的关键点信息、视线信息、情感类别信息和面部对象信息，输入至预先训练的表情包识别模型，得到识别结果，可以包括：

将该目标图像中人脸的关键点信息、视线信息、情感类别信息和面部对象信息进行特征融合，得到融合结果，将融合结果输入至预先训练的表情包识别模型，得到识别结果。

相应的，该表情包识别模型的训练过程中，将样本关键点信息、样本视线信息、样本情感类别信息和样本面部对象信息进行特征融合，得到融合结果，将融合结果作为输入内容，输入至训练中的该表情包识别模型中。

其中，所谓的特征融合维数的组合。示例性的，假设关键点信息为212维，视线信息为6维，情感类别信息为7维，面部对象信息为4维，那么，特征融合后得到229维的数据。

其中，表情包识别模型的网络类型以及训练过程，参见上述的实施例的相应内容，在此不做赘述。

S206，当该识别结果表明属于表情包时，将该所提取到的人脸图像，作为该视频的表情包。

本实施例中，S206与上述的S105相同，在此不做赘述。

为了方便理解本具体实施例，图3(a)给出了本具体实施例所提供的方案的处理流程示意图。

可见，由于本方案无需人工提取表情包，因此，可以大大提高表情包提取效率。另外，由于本实施例中通过同一个模型识别得到三类信息，可以减少模型的数量，从而减小模型训练所需消耗的计算资源。

为了方案清楚及布局清晰，下述对特征信息识别模型的模型结构进行举例说明。

可选地，在一种实现方式中，该特征信息识别模型可以包括：

顺次连接的特征提取网络和分支网络组，该分支网络组包括作为并列分支的第一特征识别网络、第二特征识别网络以及第三特征识别网络；

该特征提取网络，用于提取该第二样本图像中人脸的特征数据；

该第一特征识别网络，用于基于该特征提取网络所提取的特征数据，识别该第二样本图像中人脸的关键点信息；

该第二特征识别网络，用于基于该特征提取网络所提取的特征数据，识别该第二样本图像中人脸的视线信息；

该第三特征识别网络，用于基于该特征提取网络所提取的特征数据，识别该第二样本图像中人脸的情感类别信息。

示例性的，该第一特征识别网络、第二特征识别网络、第三特征识别网络的结构可以均包括：卷积组和全连接层。针对每一识别网络均包括卷积组和全连接层的实现方式，特征信息识别模型的结构可以参见图3(b)所示，第一特征识别网络包括卷积组1和全连接层1，第二特征识别网络包括卷积组2和全连接层2，第三特征识别网络包括卷积组3和全连接层3。

相应的，基于上述的模型结构，所述特征信息识别模型的训练过程包括：

获得多个第二样本图像，以及每一第二样本图像中人脸的真值关键点信息、真值视线信息以及真值情感类别信息；

基于每个第二样本图像中人脸的预测关键点信息与相应真值关键点信息的差异、每个第二样本图像中人脸的预测视线信息与相应真值视线信息的差异，以及每个第二样本图像中人脸的预测情感类别信息与相应真值情感类别信息的差异，计算综合损失值；

基于综合损失值，判断训练中的特征信息识别模型是否收敛，如果收敛，结束训练，得到训练完成的特征信息识别模型；否则，调整该特征信息识别模型的网络参数，继续下一次训练。

其中，所谓的继续下一次训练，即为：返回执行：分别将多个所述第二样本图像输入至所述特征信息识别模型，以使所述特征信息识别模型中的所述特征提取网络分别提取每个所述第二样本图像中人脸的特征数据，并将每个所述第二样本图像中人脸的特征数据，均分别输入所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络，使得所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络对所接收到的特征数据进行信息识别，得到每个所述第二样本图像中人脸的预测关键点信息、预测视线信息和预测情感类别信息。

其中，在计算综合损失值时，可以基于每个第二样本图像中人脸的预测关键点信息与相应真值关键点信息的差异，计算第一损失值；基于每个第二样本图像中人脸的预测视线信息与相应真值视线信息的差异，计算第二损失值；以及，基于每个第二样本图像中人脸的预测情感类别信息与相应真值情感类别信息的差异，计算第三损失值；进而，将第一损失值、第二损失值和第三损失值进行加权求和，得到用于判定模型是否收敛的综合损失值。其中，第一损失值、第二损失值和第三损失值对应的权重系数可以根据实际情况进行设定，在此不做限定；并且，计算第一损失值、第二损失值和第三损失值的损失函数可以为任一种能计算数据差异的函数，示例性的，损失函数可以为：平方损失函数、对数损失函数、指数损失函数，等等。

下面以图3(b)所示的模型结构为例，对特征信息识别模型的输入输出内容，以及损失值的计算进行介绍。

(1)针对特征提取网络而言，输入为尺寸为w×h×3的人脸图像，经过特征提取网络，输出

的特征0。

其中，s为特征提取网络的步长，n为特征0的通道数。可以理解的是，s越小，n越大，精度越高，但是网络推理速度越慢。因此，可以根据业务需求结合物理环境进行设置，示例性的，s＝16，n＝1280；或者，s＝32，n＝640，等等。

(2)针对第一个分叉，即第一特征识别网络而言，将

的特征0送入卷积组1，输出

的特征1，再将特征1送入全连接层1，输出关键点信息。

其中，关键点信息的维数依赖于关键点的数量，并且，关键点信息的维数为关键点的数量的两倍。示例性的，如果第一特征识别网络可以识别到106个关键点，那么，所输出的关键点信息可以为212维的信息，即106个关键点的x，y坐标值。

(3)针对第二个分叉，即第二特征识别网络而言，将

的特征0送入卷积组2，输出

的特征2，再将特征2送入全连接层2，输出视线信息。

示例性的，视线信息可以为6维信息，具体为：左右眼的航向yaw、俯仰pitch和横滚roll的角度信息。

(4)针对第三个分叉，即第三特征识别网络而言，将

的特征0送入卷积组3，输出

的特征3，再将特征3送入全连接层3，输出情感类别信息。

示例性的，该情感类别信息可以为t维的标签类型概率，例如：情感分为7类，则该第三特征识别网络输出7维的标签类型概率。

并且，该特征信息识别模型在训练时，三个分叉的损失loss均采用均方误差，总体Loss，即模型的损失值如下：

Loss_total＝α×Loss_p+β×Loss_s+γ×Loss_t

Loss_total为总体损失，Loss_p为第一损失值，Loss_s为第二损失值，Loss_t为第三损失值，并且，α、β、γ为对应损失的权重系数。

当总体损失小于预设损失阈值时，该特征信息识别模型训练完毕；否则，调整该特征信息识别模型的模型参数，继续下一次训练。

上述的对特征信息识别模型的输入输出内容，以及损失值的计算的介绍，仅仅作为示例性内容，并不应该构成对本发明实施例的限定。

相应于上述方法实施例，本发明实施例还提供了一种从视频中提取表情包的装置。如图4所示，本发明实施例所提供的一种从视频中提取表情包的装置，可以包括：

视频帧抽取模块410，用于从待提取表情包的视频中抽取视频帧；

图像提取模块420，用于从所抽取到的视频帧中提取人脸图像；

信息确定模块430，用于如果提取到，确定所提取到的人脸图像中人脸的目标特征信息；其中，所述目标特征信息为人脸表情产生时受到影响的人脸特征信息；

表情包识别模块440，用于将所述目标特征信息输入至预先训练的表情包识别模型，得到识别结果；其中，所述表情包识别模型为：基于第一样本图像中人脸的样本特征信息，以及所述第一样本图像的标签值，所训练完成的；所述第一样本图像为包含人脸区域的图像，所述标签值为表明所述第一样本人脸图像是否属于表情包的标识值；

表情包确定模块450，用于当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为所述视频的表情包。

可选地，所述装置还包括：

将所述视频与所述视频的表情包进行关联存储；

可选地，所述目标特征信息包括：

所述信息确定模块430，包括：

可选地，所述特征信息识别模型包括：

可选地，所述特征信息识别模型的训练过程包括：

分别将多个所述第二样本图像输入至所述特征信息识别模型，以使所述特征信息识别模型中的所述特征提取网络分别提取每个所述第二样本图像中人脸的特征数据，并将每个所述第二样本图像中人脸的特征数据，均分别输入所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络，使得所述第一特征识别网络、所述第二特征识别网络以及所述第三特征识别网络对所接收到的特征数据进行信息识别，得到每个所述第二样本图像中人脸的预测关键点信息、预测视线信息和预测情感类别信息；基于每个所述第二样本图像中人脸的预测关键点信息与相应真值关键点信息的差异、每个所述第二样本图像中人脸的预测视线信息与相应真值视线信息的差异，以及每个所述第二样本图像中人脸的预测情感类别信息与相应真值情感类别信息的差异，计算损失值；

基于所述损失值，判断训练中的特征信息识别模型是否收敛，如果收敛，结束训练，得到训练完成的特征信息识别模型；否则，调整所述特征信息识别模型的网络参数，继续训练。

可选地，所述目标距离的计算方式包括：

所述预定的计算公式为：

相应于上述方法实施例，本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现本发明实施例所提供的任一种从视频中提取表情包的方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的任一种从视频中提取表情包的方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一种从视频中提取表情包的方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质以及程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种从视频中提取表情包的方法，其特征在于，包括：

从待提取表情包的视频中抽取视频帧；

从所抽取到的视频帧中提取人脸图像；

当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为所述视频的表情包；

将所述视频与所述视频的表情包进行关联存储；

2.根据权利要求1所述的方法，其特征在于，所述目标特征信息包括：

3.根据权利要求2所述的方法，其特征在于，所述目标特征信息包括：所述关键点信息、所述视线信息、所述情感类别信息和所述面部对象信息；

4.根据权利要求3所述的方法，其特征在于，所述特征信息识别模型包括：

5.根据权利要求4所述的方法，其特征在于，所述特征信息识别模型的训练过程包括：

6.根据权利要求3所述的方法，其特征在于，所述面部对象信息包括：眼睛睁开程度数据、嘴巴在高度上的张开程度数据和/或嘴巴在宽度上的张开程度数据；

7.根据权利要求6所述的方法，其特征在于，所述目标距离的计算方式包括：

所述预定的计算公式为：

8.一种从视频中提取表情包的装置，其特征在于，包括：

图像提取模块，用于从所抽取到的视频帧中提取人脸图像；

表情包确定模块，用于当所述识别结果表明属于表情包时，将所述所提取到的人脸图像，作为所述视频的表情包；

关联显示模块，用于将所述视频与所述视频的表情包进行关联存储；当用户播放端请求所述视频时，将所述视频和与所述视频关联存储的表情包反馈给所述用户播放端，以使得所述用户播放端在播放所述视频的同时，关联显示所述视频的表情包。

9.根据权利要求8所述的装置，其特征在于，所述目标特征信息包括：

10.根据权利要求9所述的装置，其特征在于，所述目标特征信息包括：所述关键点信息、所述视线信息、所述情感类别信息和所述面部对象信息；

所述信息确定模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述特征信息识别模型包括：

12.根据权利要求11所述的装置，其特征在于，所述特征信息识别模型的训练过程包括：

13.根据权利要求10所述的装置，其特征在于，所述面部对象信息包括：眼睛睁开程度数据、嘴巴在高度上的张开程度数据和/或嘴巴在宽度上的张开程度数据；

14.根据权利要求13所述的装置，其特征在于，所述目标距离的计算方式包括：

所述预定的计算公式为：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。