CN106951856A

CN106951856A - 表情包提取方法及装置

Info

Publication number: CN106951856A
Application number: CN201710157803.1A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2017-07-14

Abstract

本发明公开了一种表情包提取方法及装置，属于多媒体技术领域。方法包括：在接收到对目标视频片段的表情包提取请求后，对目标视频片段进行人脸检测；对得到的包含人脸的每一个目标图像进行人脸特征提取，得到至少一个目标人脸特征信息；对于每一个目标人脸特征信息，将目标人脸特征信息输入预先训练好的分类器中；获取分类器输出的目标特征人脸信息对应的目标图像归属于不同表情类别的概率；若不同表情类别中存在概率大于第一预设阈值的指定表情类别，则将目标图像作为表情包从目标视频片段中提取出来，并将目标图像标记为指定表情类别。由于在视频片段中提取表情包时，可完全自动操作，无需人工进行截取，因此节省了大量的人力和时间，较为简捷。

Description

表情包提取方法及装置

技术领域

本发明涉及多媒体技术领域，特别涉及一种表情包提取方法及装置。

背景技术

在移动互联网时代，依托于社交和网络的不断发展，人们之间交流方式也出现了相应的改变，由最早的文字沟通到开始逐渐使用一些简单的符号及表情，再逐步演变为日益多元化的表情包文化。换句话说，表情包是在社交软件活跃之后，形成的一种流行文化，其主要是人们以时下流行的明星、语录、动漫、影视截图等为素材，再配上一系列相匹配的文字，用以表达特定的情感。

相关技术中在提取表情包时通常仅是针对静态的一个个图片，即仅人工手动在静态的一个个图片中获取表情包。而如果想要提取动态的视频片段中心仪的表情包，则仅能在视频片段播放过程中通过人工手动截图来完成。在获取到表情包后，再人工对获取到的表情包进行表情类别分类，即人工标记出获取到的表情包是属于愤怒、高兴还是惊讶等表情类别。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

在动态的视频片段中提取表情包时，由于需要纯人工操作，因此需要消耗大量的人力和时间，所以该种表情包的提取方式过于繁琐和复杂。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种表情包提取方法及装置。所述技术方案如下：

第一方面，提供了一种表情包提取方法，所述方法包括：

在接收到对目标视频片段的表情包提取请求后，对所述目标视频片段进行人脸检测，得到包含人脸的至少一个目标图像；

对每一个目标图像进行人脸特征提取，得到至少一个目标人脸特征信息；

对于每一个目标人脸特征信息，将所述目标人脸特征信息输入预先训练好的分类器中，所述分类器用于输出所述目标人脸特征信息对应的目标图像归属于不同表情类别的概率；

获取所述分类器输出的所述目标图像归属于不同表情类别的概率；

若所述不同表情类别中存在概率大于第一预设阈值的指定表情类别，则将所述目标图像作为表情包从所述目标视频片段中提取出来，并将所述目标图像标记为所述指定表情类别。

第二方面，提供了一种表情包提取装置，所述装置包括：

检测模块，用于在接收到对目标视频片段的表情包提取请求后，对所述目标视频片段进行人脸检测，得到包含人脸的至少一个目标图像；

第一提取模块，用于对每一个目标图像进行人脸特征提取，得到至少一个目标人脸特征信息；

输入模块，用于对于每一个目标人脸特征信息，将所述目标人脸特征信息输入预先训练好的分类器中，所述分类器用于输出所述目标人脸特征信息对应的目标图像归属于不同表情类别的概率；

第一获取模块，用于获取所述分类器输出的所述目标图像归属于不同表情类别的概率；

第二提取模块，用于若所述不同表情类别中存在概率大于第一预设阈值的指定表情类别，则将所述目标图像作为表情包从所述目标视频片段中提取出来，并将所述目标图像标记为所述指定表情类别。

本发明实施例提供的技术方案带来的有益效果是：

由于在动态的视频片段中提取表情包时，可完全自动操作，无需人工进行截取，因此节省了大量的人力和时间，该种表情包的提取方式较为简捷和方便。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种表情包提取系统的架构图；

图2是本发明实施例提供的一种分类器训练过程以及检测过程的流程图；

图3是本发明实施例提供的一种表情包提取方法的流程图；

图4是本发明实施例提供的一种表情包的示意图；

图5是本发明实施例提供的一种表情包的示意图；

图6是本发明实施例提供的一种表情包提取装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例提供的表情包提取方法所涉及的系统架构进行简单的介绍。

参见图1，在本发明实施例中，运营人员的终端101向表情包提取系统102发起针对目标视频片段的表情包提取请求，比如提取某部影片中的表情包。

表情包提取系统102中的表情提取模块1021在接收到表情包提取请求后，获取该表情包提取请求中携带的目标视频片段的标识信息(ID)，根据该标识信息从网络中或本地加载该目标视频片段。在加载到目标视频片段后，表情包提取模块会依次对目标视频片段进行人脸检测、人脸预处理、人脸特征提取等操作处理。

表情提取模块1021在提取到目标人脸特征信息后，会将目标人脸特征信息输入到训练好的分类器1022中，以进行表情识别与匹配，由分类器1022给出表情识别与匹配结果。换句话说，即由分类器1022自动确定出该目标视频片段中包含的表情包以及表情包所归属与不同表情类别的概率。接下来，分类器1022将表情识别与匹配结果返回给表情提取模块1021，并由表情提取模块1021再将表情识别与匹配结果返回给运营人员的终端101，而表情提取模块1021便可基于表情识别与匹配结果进行表情包的提取。本发明实施例由于可自动在视频片段中进行表情包的提取，而完全无需运营人员手动进行操作，因此大大节省了运营人员的表情包提取时间。

此外，如图1所示，为了训练精确的分类器1022，本发明实施例提供的表情包提取系统102中还包括特征训练模块1023和数据库1024。其中，数据库1024中存储了用于进行分类器1022训练的训练样本图像。特征训练模块1023用于在依次对数据库1024中的训练样本图像进行人脸检测、人脸预处理以及人脸特征提取等操作处理后，基于训练样本图像的样本人脸特征信息、以及训练样本图像归属的表情类别，进行分类器1022的训练。

即，在图1中，特征训练模块1023对应的步骤4至步骤6包含在分类器1022的训练过程中，而表情包提取模块1021在通过步骤4至步骤6得到目标视频片段的目标人脸特征信息后，通过训练好的分类器1022来进行表情的识别与匹配，即表情提取模块1021对应的步骤4至步骤6、以及步骤7至9包含在分类器1022的检测过程中。其中，更为直观地解释说明请参见图2。如图2所示，无论是针对分类器的训练过程，还是分类器的检测过程，均包括人脸检测、人脸预处理和人脸特征提取这几个步骤。不同的是，图2中左侧的分支流程输出的人脸特征信息用于对分类器进行训练，而右侧的分支流程输出的人脸特征信息用于输入训练好的分类器中进行检测。

在本发明实施例中，数据库采用JAFFE表情数据库。其中，JAFFE数据库是一个由10日本女性的7种正面表情组成的开放人脸表情图像数据库。每个人有愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶共7种不同表情类别的人脸图像。其中，每种表情类别有3、4个人脸图像，总数是213个灰度图形式的训练样本图像。其中，原始的训练样本图像的大小为256×256像素。

图3是本发明实施例提供的一种表情包提取方法的流程图。参见图3，本发明实施例提供的方法流程包括：

301、在接收到对目标视频片段的表情包提取请求后，对目标视频片段进行人脸检测，得到包含人脸的至少一个目标图像。

在本发明实施例中，表情包一般指代的是普通人类所具备的表情。其中，通常情况下，表情包所表征的表情都比较夸张，例如图4和图5中所示的惊讶表情。即，本发明实施例提供的表情包提取方法，其主旨是在视频片段中提取这种具有夸张色彩的表情包。

其中，表情包提取系统在接收到表情包提取请求后，会获取携带在该表情包提取请求中的目标视频片段的标识信息；之后，根据该标识信息从本地或者网络中加载该目标视频片段。

具体来说，该标识信息可为视频发布者为目标视频片段所命名的名称，或者视频网站在发布该目标视频片段之前为其分配的一个唯一标识符，本发明实施例对标识信息的类型不进行具体限定。在本发明实施例中，表情提取系统可预先收集各种视频片段并存储在本地，或者预先与各个视频网站建立好可进行视频片段加载的接口，这样表情提取系统在接收到上述表情包提取请求后，便可在本地或者通过上述接口从视频网站等第三方途径加载目标视频片段，实现本地和网络的两种不同视频加载方式。

在加载到该目标视频片段后，表情包提取系统会对该目标视频片段进行人脸检测处理。其中，人脸检测是指对于任意一个给定的输入图像，采用一定的策略对其进行搜索以确定其中是否包含有人脸，如果包含有人脸，则在输入图像中确定人脸的位置、大小或位姿。其中，位姿用于描述人脸的姿态变化。

而针对于人脸图像来说，其中包含的特征十分丰富，如直方图特征、颜色特征、模板特征、结构特征及Haar特征等。人脸检测便是把这其中有用的信息挑出来，并利用这些特征实现人脸检测。时下，主流的人脸检测方法通常基于上述提及的模式特征采用Adaboost学习算法来实现。

其中，Adaboost算法是一种用来分类的方法，它把一些比较弱的分类方法合在一起，组合出新的很强的分类方法。在人脸检测过程中，使用Adaboost算法挑选出一些最能代表人脸的矩形特征(弱分类器)，之后按照加权投票的方式将弱分类器构造为一个强分类器，再将训练得到的若干强分类器串联组成一个级联结构的层叠分类器，从而有效地提高人脸检测速度。

此外，由于表情包提取的对象是视频片段，因此需要在目标视频片段中逐帧进行人脸检测。从而挑选出目标视频片段中包含有人脸的至少一个目标图像。

302、基于对每一个目标图像的人脸检测结果，对每一个目标图像进行人脸预处理，得到至少一个待进行人脸特征提取的图像。

其中，人脸预处理是基于对每一个目标图像的人脸检测结果，对每一个目标图像进行处理并最终服务于人脸特征提取的过程。原始的图像由于受到各种条件的限制和随机干扰，往往不能直接使用，必须在图像处理的早期阶段对它进行灰度校正、噪声过滤等预处理。在本发明实施例中，对于包含人脸的目标图像而言，其预处理过程可以包括人脸扶正、人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、中值滤波、人脸切割以及锐化等处理步骤中的一个或几个。

其中，人脸扶正是为了得到人脸位置端正的人脸图像；人脸图像的光线补偿是为了改善人脸图像的质量，不仅在视觉上使得图像更加清晰，而且使图像更利于计算机的处理与识别；直方图均衡化可以使输入图像转换为在每一个灰度级上都有相同像素点数的输出图像；而无论是直接获取的灰度图像，还是由彩色图像转换得到的灰度图像，里面都有噪声的存在，噪声对图像质量有很大的影响，进行中值滤波不仅可以去除孤点噪声，而且可以保持图像的边缘特性，不会使图像产生显著的模糊；归一化，目的是使不同成像条件(光照强度、方向、距离、姿势等)下拍摄的同一个人的照片具有一致性。

303、对每一个待进行人脸特征提取的图像进行人脸特征提取，得到至少一个目标人脸特征信息。

其中，人脸特征信息通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的。人脸特征提取也称人脸表征，它是对人脸进行特征建模的过程。人脸特征提取的方法归纳起来分为两大类：一种是基于知识的表征方法；另外一种是基于代数特征或统计学习的表征方法。

基于知识的表征方法主要是根据人脸器官的形状描述以及它们之间的距离特性来获得有助于人脸分类的特征数据，其特征分量通常包括特征点间的欧氏距离、轮廓线曲率等。而人脸由眼睛、鼻子、嘴、下巴等局部构成，对这些局部和它们之间结构关系的几何描述，可作为识别人脸的重要特征，这些特征被称为几何特征。基于知识的人脸表征主要包括基于几何特征的方法和模板匹配法。代数特征是将人脸图像向用特定的变换方法投影在降维子空间，形成人脸的代数特征。如经过奇异值变换得到奇异值特征、经过K-L变换得到特征脸特征、小波变换后得到小波特征等。

304、对于每一个目标人脸特征信息，将该目标人脸特征信息输入预先训练好的分类器中，获取分类器输出的该目标人脸特征信息对应的目标图像归属于不同表情类别的概率。

在本发明实施例中，在应用训练好的分类器进行表情的识别与匹配之前，还包括对分类器的训练过程。其中，用于对分类器进行训练的训练样本图像来自于数据库。如前文所述，这个数据库为JAFFE表情数据库，JAFFE表情数据库的建立过程为：将人脸可表征的表情进行分类，得到预设数目种表情类别；针对JAFFE表情数据库来说，将人脸可表征的表情总共分为愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶这7种表情类别，因此预设数目的取值为7。对于上述7种表情类别中的每一种表情类别，会获取用于表征每一种表情类别的至少一个人脸图像，通常为3到4个，进而得到用于进行分类器训练的至少一个训练样本图像。其中，训练样本图像总数为213个。

之后，表情包提取系统中的特征训练模块便基于每一种表情类别的至少一个训练样本图像，进行分类器的训练。其中，基于每一种表情类别的至少一个训练样本图像，训练分类器，通常采取下述方式实现：

首先，对每一个训练样本图像进行人脸检测，得到每一个训练样本图像的人脸检测结果；这里对训练样本图像的人脸检测过程，同上述对目标视频片段中每一帧的人脸检测过程一致，此处不再赘述。

之后，基于对每一个训练样本图像的人脸检测结果，对每一个训练样本样本图像进行人脸预处理，得到每一个训练样本图像的中间处理图像；这里对训练样本图像的人脸预处理过程，同上述对目标图像的人脸预处理过程一致，此处不再赘述。

接下来，对每一个中间处理图像进行人脸特征提取，得到每一个训练样本图像的样本人脸特征信息；这里对中间处理图像的人脸特征提取过程，同上述对待进行人脸特征提取的图像的人脸特征提取过程一致，此处不再赘述。

最终，基于每一个训练样本图像的样本人脸特征信息、每一个训练样本图像归属的表情类别，训练分类器。

当然，在对训练样本图像进行人脸检测之后，还可以直接进行人脸特征提取步骤，即跳过人脸预处理步骤，本发明实施例对分类器的训练方式不进行具体限定。此外，在训练分类器过程中，基于每一个训练样本图像的样本人脸特征信息、每一个训练样本图像归属的表情类别训练分类器，包括：对初始的分类器中的各个参数进行初始化；基于每一个训练样本图像的样本人脸特征信息、每一个训练样本图像归属的表情类别，对初始的分类器中各个参数的取值不断进行优化，直至分类误差小于第二预设阈值，得到训练后的分类器。

其中，第二预设阈值可由表情提取系统预先进行设置，这一数值可由表情提取系统依据经验给出，第二预设阈值的取值通常以保证分类器可区分出不同表情类别为准。

分类器在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，仅用已知的模式对分类器加以训练，分类器便具有输入输出之间的映射能力。在开始训练分类器之前，需对分类器中包含的所有参数进行初始化。这样在开始分类器训练之后，便可以利用至少一个训练样本图像的样本人脸特征信息和归属的表情类别，来不断进行运算以优化初始的分类器中各个参数的取值，从而尽可能最小化分类误差。比如，根据训练样本图像所归属的实际表情类别，和当前训练的分类器给出的该训练样本图像所归属的训练表情类别之间的差距，来不断地调整分类器中各个参数的取值，从而不断减小分类误差。而当训练后的分类器的分类误差小于第二预设阈值，即分类器的精准度达到一定要求后，便可结束训练过程。

换句话说，分类器本质上是为每一种表情类别均建立了一个特征模板，在接收到输入的目标人脸特征信息后，分类器将接收到的目标人脸特征信息与各个特征模板进行匹配，与哪一种的匹配度越高，表明目标人脸特征信息对应的目标图像归属于哪一种表情类别的几率就越大。

在本发明实施例中，分类器可为最邻近分类器或SVM(Support Vector Machine，支持向量机)分类器，本发明实施例对此不进行具体限定。需要说明的是，由于SVM分类器只是一个二类分类器，虽然这种分类器具有良好的分类性能，但是针对人脸图像的表情类别多样化的场景，仅靠一个SVM分类器是无法完成上述7种表情类别的分类的。因此若采用SVM分类器进行表情识别与匹配，则还需采取多个SVM分类器组合的方式。比如，一对多，即一个SVM分类器用于把每一类的样本同其他各类区分开来；一对一，即一个SVM分类器只用来分两类问题，通过若干个分类器的组合，完成多类识别。

其中，在将一个目标人脸特征信息输入预先训练好的分类器中后，分类器便会输出该目标人脸特征信息对应的目标图像归属于不同表情类别的概率。其继续以7种表情类别为例，比如参见下述表1，分类器给出了该目标图像归属于7种表情类别中每一种表情类别的概率。

表1

305、若不同表情类别中存在概率大于第一预设阈值的指定表情类别，则将该目标图像作为表情包从目标视频片段中提取出来，并将该目标图像标记为指定表情类别。

其中，第一预设阈值的取值可为0.9或0.95等等，本发明实施例对此不进行具体限定。目标图像归属于指定表情类别的概率大于第一预设阈值，则表明目标图像中包括的人脸图像所表征的表情属于数据库中收录的7种表情类别之一，需将该目标图像作为表情包从目标视频片段中提取出来。

举例来说，以第一预设阈值为0.9为例，继续以上述表1为例，由于目标图像归属于愤怒表情的概率大于第一预设阈值，因此指定表情类别便为愤怒。此外，愤怒这一表情类别在所有表情类别中概率还是最大的，为0.9821。

其中，对于表情包的提取可分为下述两种方式。一种方式为在该目标图像中提取出人脸图像，并将人脸图像标记为指定表情类别。而在提取出人脸图像后，可将人脸图像置于背景干净的新图像中，并配上相应的文字，从而生成一个全新的表情包。另一种方式为在判断出该概率大于第一预设阈值后，直接将该目标图像在目标视频片段中截取出来，并为其配上相应的文字，从而生成新的表情包，该表情包归属于指定表情类别，本发明实施例对表情包的提取方式不进行具体限定。

本发明实施例提供的方法，由于在动态的视频片段中提取表情包时，可完全自动操作，无需人工进行截取，因此节省了大量的人力和时间，该种表情包的提取方式较为简捷和方便。

图6是本发明实施例提供的一种表情包提取装置的结构示意图。参见图6，该装置包括：

检测模块601，用于在接收到对目标视频片段的表情包提取请求后，对目标视频片段进行人脸检测，得到包含人脸的至少一个目标图像；

第一提取模块602，用于对每一个目标图像进行人脸特征提取，得到至少一个目标人脸特征信息；

输入模块603，用于对于每一个目标人脸特征信息，将目标人脸特征信息输入预先训练好的分类器中，分类器用于输出目标人脸特征信息对应的目标图像归属于不同表情类别的概率；

第一获取模块604，用于获取分类器输出的目标图像归属于不同表情类别的概率；

第二提取模块605，用于若不同表情类别中存在概率大于第一预设阈值的指定表情类别，则将目标图像作为表情包从目标视频片段中提取出来，并将目标图像标记为指定表情类别。

在另一个实施例中，该装置还包括：

预处理模块，用于在得到至少一个目标图像后，基于对每一个目标图像的人脸检测结果，对每一个目标图像进行人脸预处理，得到至少一个待进行人脸特征提取的图像；

第一提取模块，用于对每一个待进行人脸特征提取的图像进行人脸特征提取，得到至少一个目标人脸特征信息。

在另一个实施例中，该装置还包括：

分类模块，用于将人脸可表征的表情进行分类，得到预设数目种表情类别；

第二获取模块，用于对于预设数目种表情类别中的每一种表情类别，获取用于表征表情类别的至少一个人脸图像，得到用于进行分类器训练的至少一个训练样本图像；

训练模块，用于基于每一种表情类别的至少一个训练样本图像，训练分类器。

在另一个实施例中，训练模块，用于在对每一个训练样本图像进行人脸检测后，对每一个训练样本图像进行人脸特征提取，得到每一个训练样本图像的样本人脸特征信息；对初始的分类器中的各个参数进行初始化；基于每一个训练样本图像的样本人脸特征信息、每一个训练样本图像归属的表情类别，对初始的分类器中各个参数的取值不断进行优化，直至分类误差小于第二预设阈值，得到训练后的分类器。

在另一个实施例中，训练模块，还用于在对每一个训练样本图像进行人脸检测后，基于对每一个训练样本图像的人脸检测结果，对每一个训练样本图像进行人脸预处理，得到每一个训练样本图像的中间处理图像；对每一个中间处理图像进行人脸特征提取，得到每一个训练样本图像的样本人脸特征信息。

在另一个实施例中，该装置还包括：

第三获取模块，用于在接收到表情包提取请求后，在表情包提取请求中获取目标视频片段的标识信息；

加载模块，用于基于标识信息加载目标视频片段；

检测模块，用于在基于标识信息加载到目标视频片段后，执行对目标视频片段进行人脸检测的步骤。

本发明实施例提供的装置，由于在动态的视频片段中提取表情包时，可完全自动操作，无需人工进行截取，因此节省了大量的人力和时间，该种表情包的提取方式较为简捷和方便。

需要说明的是：上述实施例提供的表情包提取装置在提取表情包时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的表情包提取装置与表情包提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是根据一示例性实施例示出的一种服务器，该服务器可以用于实施上述任一示例性实施例示出的表情包提取方法。具体来讲：参见图7，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Process ingUnit，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)。

服务器700还可以包括一个或一个以上电源728，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于执行表情包提取的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种表情包提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在得到所述至少一个目标图像后，基于对每一个目标图像的人脸检测结果，对所述每一个目标图像进行人脸预处理，得到至少一个待进行人脸特征提取的图像；

所述对每一个目标图像进行人脸特征提取，得到至少一个目标人脸特征信息，包括：

对每一个待进行人脸特征提取的图像进行人脸特征提取，得到所述至少一个目标人脸特征信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将人脸可表征的表情进行分类，得到预设数目种表情类别；

对于所述预设数目种表情类别中的每一种表情类别，获取用于表征所述表情类别的至少一个人脸图像，得到用于进行所述分类器训练的训练样本图像；

基于所述每一种表情类别的至少一个训练样本图像，训练所述分类器。

4.根据权利要求3所述的方法，其特征在于，所述基于所述每一种表情类别的至少一个训练样本图像，训练所述分类器，包括：

在对每一个训练样本图像进行人脸检测后，对所述每一个训练样本图像进行人脸特征提取，得到所述每一个训练样本图像的样本人脸特征信息；

对初始的所述分类器中的各个参数进行初始化；

基于所述每一个训练样本图像的样本人脸特征信息、所述每一个训练样本图像归属的表情类别，对初始的所述分类器中各个参数的取值不断进行优化，直至分类误差小于第二预设阈值，得到训练后的所述分类器。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在对所述每一个训练样本图像进行人脸检测后，基于对所述每一个训练样本图像的人脸检测结果，对所述每一个训练样本图像进行人脸预处理，得到所述每一个训练样本图像的中间处理图像；

所述对所述每一个训练样本图像进行人脸特征提取，得到所述每一个训练样本图像的样本人脸特征信息，包括：

对所述每一个中间处理图像进行人脸特征提取，得到所述每一个训练样本图像的样本人脸特征信息。

6.根据权利要求1至5中任一权利要求所述的方法，其特征在于，所述方法还包括：

在接收到所述表情包提取请求后，在所述表情包提取请求中获取所述目标视频片段的标识信息；

在基于所述标识信息加载到所述目标视频片段后，执行所述对所述目标视频片段进行人脸检测的步骤。

7.一种表情包提取装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

预处理模块，用于在得到所述至少一个目标图像后，基于对每一个目标图像的人脸检测结果，对所述每一个目标图像进行人脸预处理，得到至少一个待进行人脸特征提取的图像；

所述第一提取模块，用于对每一个待进行人脸特征提取的图像进行人脸特征提取，得到所述至少一个目标人脸特征信息。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于对于所述预设数目种表情类别中的每一种表情类别，获取用于表征所述表情类别的至少一个人脸图像，得到用于进行所述分类器训练的训练样本图像；

训练模块，用于基于所述每一种表情类别的至少一个训练样本图像，训练所述分类器。

10.根据权利要求9所述的装置，其特征在于，所述训练模块，用于在对每一个训练样本图像进行人脸检测后，对所述每一个训练样本图像进行人脸特征提取，得到所述每一个训练样本图像的样本人脸特征信息；对初始的所述分类器中的各个参数进行初始化；基于所述每一个训练样本图像的样本人脸特征信息、所述每一个训练样本图像归属的表情类别，对初始的所述分类器中各个参数的取值不断进行优化，直至分类误差小于第二预设阈值，得到训练后的所述分类器。

11.根据权利要求10所述的装置，其特征在于，所述训练模块，还用于在对所述每一个训练样本图像进行人脸检测后，基于对所述每一个训练样本图像的人脸检测结果，对所述每一个训练样本图像进行人脸预处理，得到所述每一个训练样本图像的中间处理图像；对所述每一个中间处理图像进行人脸特征提取，得到所述每一个训练样本图像的样本人脸特征信息。

12.根据权利要求7至11中任一权利要求所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于在接收到所述表情包提取请求后，在所述表情包提取请求中获取所述目标视频片段的标识信息；

加载模块，用于基于所述标识信息加载所述目标视频片段；

所述检测模块，用于在基于所述标识信息加载到所述目标视频片段后，执行所述对所述目标视频片段进行人脸检测的步骤。