CN107330407B

CN107330407B - 人脸表情识别方法、装置、电子设备及存储介质

Info

Publication number: CN107330407B
Application number: CN201710531767.0A
Authority: CN
Inventors: 高嘉宏
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Jupiter Technology Co ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2020-08-04
Anticipated expiration: 2037-06-30
Also published as: CN107330407A

Abstract

本发明实施例提供一种人脸表情识别方法、装置、电子设备及存储介质，用于解决视频中的人脸表情难以识别造成应用的实用差的问题，其中，对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段；从N个视频片段中提取目标人脸图像的表情信息，得到N个表情信息；将N个表情信息进行分类，得到P类表情信息；从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。实施本发明实施例，可识别输入视频中的目标人脸表情，从而提高人脸表情识别的应用范围和正确率。

Description

人脸表情识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种人脸表情识别方法、装置、电子设备及存储介质。

背景技术

人脸表情识别是指从给定的人脸图像中识别确定人脸的表情状态。例如，高兴、悲伤、惊讶、恐惧、厌恶、生气等。目前人脸表情识别已广泛应用于心理科学、神经系统科学、工程科学及计算机科学等领域。

在相关技术中，人脸表情识别包括如下两个主要步骤：第一，从待识别图像中检测人脸区域，并从人脸区域中提取脸部表情特征，第二，基于脸部表情特征进行表情分类，得到表情识别结果。然而，由于输入视频中包括输入人物的各种信息，如：性别、年龄、表情等，目前只能根据静态图片识别表情，而无法识别视频中的人脸表情，造成应用的实用差的问题。

发明内容

本发明实施例提供一种人脸表情识别方法、装置、电子设备及存储介质，用于解决视频中的人脸表情难以识别造成应用的实用差的问题。

本发明实施例第一方面提供一种人脸表情识别方法，包括：

对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，所述M为大于1的整数，所述N为小于或等于所述M的正整数；

从所述N个视频片段中提取所述目标人脸图像的表情信息，得到N个表情信息，每一视频片段对应一个表情信息；

将所述N个表情信息进行分类，得到P类表情信息，所述P为小于或等于所述N的正整数；

从所述P类表情信息中选取占用所述输入视频的播放时长最长的一类表情信息，将其作为所述输入视频的目标人脸表情。

结合本发明实施例第一方面，在本发明实施例第一方面的第一种可能的实现方式中，在所述对输入视频划分的M个视频片段进行目标识别之前，所述方法还包括：

根据预设时长或所述输入视频的播放时长将所述输入视频划分为所述M个视频片段。

结合本发明实施例第一方面或第一方面的第一种可能的实现方式，在本发明实施例第一方面的第二种可能的实现方式中，所述从所述N个视频片段中提取所述目标人脸图像的表情信息，得到N个表情信息，包括：

对目标视频片段中的所述目标人脸图像，或对所述目标视频片段中包含所述目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和所述K个表情信息中每一表情信息对应的表情概率值，所述K为正整数，所述L为正整数，所述目标视频片段为所述N个视频片段中的任一视频片段；

将所述K个表情信息中的最大表情概率值对应的表情信息作为所述目标视频片段的表情信息。

结合本发明实施例第一方面或第一方面的第一种可能的实现方式，在本发明实施例第一方面的第三种可能的实现方式中，所述将所述N个表情信息进行分类，得到P类表情信息，包括：

根据所述N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到所述P类表情信息。

结合本发明实施例第一方面或第一方面的第一种可能的实现方式，在本发明实施例第一方面的第四种可能的实现方式中，所述对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，包括：

将所述M个视频片段划分为Q个帧图像，所述Q为大于或等于所述M的整数；

对所述Q个帧图像中每一帧图像的所述目标人脸图像进行表情信息提取，得到Q个表情信息，每一帧图像对应一个表情信息；

将所述Q个表情信息中每一表情信息之间的差异值小于预设阈值的相邻帧图像划分为一个视频片段，得到所述N个视频片段。

本发明实施例第二方面提供一种人脸表情识别装置，包括：

识别单元，用于对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，所述M为大于1的整数，所述N为小于或等于所述M的正整数；

第一提取单元，用于从所述N个视频片段中提取所述目标人脸图像的表情信息，得到N个表情信息，每一视频片段对应一个表情信息；

分类单元，用于将所述N个表情信息进行分类，得到P类表情信息，所述P为小于或等于所述N的正整数；

选取单元，用于从所述P类表情信息中选取占用所述输入视频的播放时长最长的一类表情信息，将其作为所述输入视频的目标人脸表情。

结合本发明实施例第二方面，在本发明实施例第二方面的第一种可能的实现方式中，所述装置还包括：

第一划分单元，用于根据预设时长或所述输入视频的播放时长将所述输入视频划分为所述M个视频片段。

结合本发明实施例第二方面或第二方面的第一种可能的实现方式，在本发明实施例第二方面的第二种可能的实现方式中，所述第一提取单元具体用于对目标视频片段中的所述目标人脸图像，或对所述目标视频片段中包含所述目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和所述K个表情信息中每一表情信息对应的表情概率值，所述K为正整数，所述L为正整数，所述目标视频片段为所述N个视频片段中的任一视频片段；将所述K个表情信息中的最大表情概率值对应的表情信息作为所述目标视频片段的表情信息。

结合本发明实施例第二方面或第二方面的第一种可能的实现方式，在本发明实施例第二方面的第三种可能的实现方式中，所述分类单元具体用于根据所述N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到所述P类表情信息。

结合本发明实施例第二方面或第二方面的第一种可能的实现方式，在本发明实施例第二方面的第四种可能的实现方式中，所述装置还包括：

第二划分单元，用于将所述M个视频片段划分为Q个帧图像，所述Q为大于或等于所述M的整数；

第二提取单元，用于对所述Q个帧图像中每一帧图像的所述目标人脸图像进行表情信息提取，得到Q个表情信息，每一帧图像对应一个表情信息，由所述识别单元将所述Q个表情信息中每一表情信息之间的差异值小于预设阈值的相邻帧图像划分为一个视频片段，得到所述N个视频片段。

本发明实施例第三方面提供了一种电子设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本发明实施例第一方面提供的一种人脸表情识别方法。

本发明实施例第四方面提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现本发明实施例第一方面提供的一种人脸表情识别方法。

本发明实施例第五方面提供了一种应用程序，其中，该应用程序用于在运行时执行本发明实施例第一方面提供的一种人脸表情识别方法。

本发明实施例中，将输入视频划分为M个视频片段，从M个视频片段中选取包含目标人脸图像的视频片段得到N个视频片段，提取N个视频片段中的目标人脸图像的表情信息得到P类表情信息，也就是说，只提取包含目标人脸图像的视频片段的表情信息，可提高提取效率。从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息作为输入视频的人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人脸表情识别方法的流程图；

图2是本发明实施例提供的另一种图像处理方法的流程图；

图3是本发明实施例提供的一种图像处理装置的结构图；

图4是本发明实施例提供的另一种图像处理装置的结构图；

图5是本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例所描述的电子设备可以包括智能手机(如Android手机)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID，Mobile Internet Devices)或穿戴式设备等电子设备，设备仅是举例，而非穷举，包含但不限于电子设备。

本发明实施例提供一种人脸表情识别方法、装置、电子设备及存储介质，用于解决视频中的人脸表情难以识别造成应用的实用差的问题。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种人脸表情识别方法的流程图，该人脸表情识别方法可以包括以下步骤。

101、对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段。

本实施例中，M为大于1的整数，N为小于或等于M的正整数。本实施例基于目标人脸图像的人脸表情，当在M个视频片段中检测到目标人脸图像时，执行步骤102，否则结束。

本实施例中，可选ffmpeg技术将输入视频划分为M个视频片段，对于拆分视频片段的技术不作限定。将输入视频划分为M个视频片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。

本实施例中，可采用HOG(HistogramofOrientedGradient，方向梯度直方图)、LBP(LocalBinaryPattern，局部二值模式)、Gabor小波、类哈尔(Haar-like)等特征提取算法提取人脸特征，对于具体的特征提取算法不作限定。当目标人脸图像为多个时，可依照本发明实施例的方法依序处理即可。

当识别出视频片段中的人脸信息后，应根据识别出的人脸信息选取与目标人脸图像匹配的N个视频片段。由于视频片段中可能包含多个人脸，则当识别出目标人脸图像时，对该目标人脸图像进行身份信息的标识，身份信息除了人脸的特征信息之外，还应该包括人脸出现在输入视频上的时间点。

可选的，提取每一视频片段的人脸特征，根据人脸特征对视频片段进行积分处理得到积分图像；采用自适应增强算法区分积分图像中的人脸和非人脸的强分类器；采用瀑布型级联分类器将人脸的强分类器级联起来，得到人脸图像；判断得到的人脸图像是否为目标人脸图像，若是，则确定视频片段包含目标人脸图像。采用本方法，在多种尺度下用相同的时间计算不同的特征，可迅速淘汰大量待检测区域，降低了平均检测开销，从而提高人脸识别的效率。

需要说明的是，输入视频除了是视频之外，还可以是由多个连续帧图像构成的动态图像，或者是通过连拍形成的图像文件。输入视频可以上传至服务器端，也可导入本地端，还可通过本地端上传至服务器。其中，将输入视频上传至服务器端，由于服务器端采用大量的标签对输入视频中的对象、场景和人物进行识别，利于提高识别表情信息的准确性。

102、分别提取N个视频片段中目标人脸图像的表情信息，得到N个表情信息。

本实施例中，每一视频片段对应一个表情信息，目标人脸图像的表情信息可采用人脸识别的深度学习框架，对于人脸的部份提取不同的尺度特征，经过类神经网络的分类器加以分类得到。

本实施例对于存储表情信息的文本形式不做限定，可选的为txt格式，存储验证信息以json格式表示，按照最简单的形式表示“名称/值对”的组合。表情信息至少包括开心、难过、困惑、愤怒、厌恶、恐惧、中性和惊讶等等。需要说明的是，表情信息还携带了该表情信息占用输入视频的播放时长。

可选的，对目标视频片段中的目标人脸图像，或对目标视频片段中包含目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和K个表情信息中每一表情信息对应的表情概率值，目标视频片段为N个视频片段中的任一视频片段；将K个表情信息中的最大表情概率值对应的表情信息作为目标视频片段的表情信息。

其中，K为正整数，也就是说，当K为1时，将该表情信息作为该视频片段的表情信息；当K大于1时，选取表情概率值最高的表情信息作为该视频片段的表情信息。由于表情之间的差异不大，则视频片段可能包含多个可能的表情信息，而每个表情信息有不同的表情概率值，在多个可能的表情信息中选择表情概率值最高的表情信息作为视频片段的表情信息，利于提高表情信息选取的正确率。

其中，L为正整数。由于视频片段中可包括很多帧图像，而帧图像之间存在一定的差别，以视频片段为单位提取第一人脸图像的表情信息可大致获取该视频片段的表情信息，而以帧为单位提取第一人脸图像的表情信息，可进一步将视频片段的表情信息进行分类，从而提高目标人物的人物特征的准确率。

举例来说，一个视频片段中识别出一张稍微难过的人脸，获得“难过”和“困惑”两种表情信息，其中难过的表情概率值为80％，困惑的表情概率值为20％，则该视频片段的表情信息为难过。

可选的，表情信息至少包括表情特征、性别特征和五官特征等多个维度。以表情信息中的目标维度为例，目标维度为表情信息中的任一维度。可选的，将人脸特征与目标维度的特征参数进行匹配，得到多个匹配值；将多个匹配值中大于或等于预设阈值的匹配值作为目标维度对应的表征概率值。

其中，对于表征概率值的具体形式不作限定，可为百分数或者小数。也就是说，分别将第一人脸图像的人脸特征与每个维度的特征参数进行匹配得到多个匹配值，选取每个维度中大于或等于预设阈值的匹配值作为该维度对应的表征概率值，且以概率的方式来描述人脸特征，从而提高人脸特征描述的准确率。

可选的，估算人脸特征得到N个维度中每一维度对应的至少1个表征概率值，得到M个表征概率值；对M个表征概率值进行加权处理，得到表情信息。其中，M大于或等于N。也就是说，综合考虑各种不同的人脸特征，做出最适配的决策，从而提高判断人脸表情的准确性。

举例来说，表情特征为开心的概率为60％，但动作特征为微笑的概率有80％，则可以提高开心表情特征的权重，将开心表情特征的表征概率值加权得到80％。或者五官特征中表情特征为冷酷的概率为60％，带太阳眼镜的概率为75％，并且有留山羊胡80％的机率值，则可提高冷酷表情特征的权重，将冷酷表情特征的表征概率值加权得到80％。

103、将N个表情信息进行分类，得到P类表情信息。

其中，P为小于或等于N的正整数。根据每一视频片段对应的目标人脸图像的表情信息进行分类，即对输入视频中的表情信息进行统计，从而可获取每一类表情信息和对应的播放时长。

可选的，根据N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到P类表情信息。

举一个例子来说，假设输入视频中存在10个包含目标人脸图像的视频片段，提取每一视频片段的表情信息，其中，第1视频片段到第3视频片段的差异值小于表情阈值，第3视频片段与第4视频片段的差异值大于表情阈值，第4视频片段到第7视频片段差异值小于表情阈值，第7视频片段与第8视频片段的差异值大于表情阈值，第8视频片段到第10视频片段差异值小于表情阈值，且第8视频片段到第10视频片段差异值与第1视频片段到第3视频片段的差异值小于表情阈值，则将第1视频片段到第3视频片段和第8视频片段到第10视频片段分为一类表情信息，而第4视频片段到第7视频片段分为另一类表情信息。

再举一个例子来说，假设视频片段包括200帧，则在同一个视频片段中，提取每一帧图像的表情信息，其中，第1帧图像到第79帧图像的差异值小于表情阈值，第79帧图像与第80帧图像的差异值大于表情阈值，第80帧图像到第200帧图像的差异值小于表情阈值，则将第1帧图像到第79帧图像分为一类表情信息，而第80帧图像到第200帧图像分为另一类表情信息，可进一步将视频片段的表情信息进行分类。

104、从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。

在图1所描述的人脸表情识别方法中，将输入视频划分为M个视频片段，从M个视频片段中选取包含目标人脸图像的视频片段得到N个视频片段，提取N个视频片段中的目标人脸图像的表情信息得到P类表情信息，也就是说，只提取包含目标人脸图像的视频片段的表情信息，可提高提取效率。从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息作为输入视频的目标人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

请参阅图2，图2是本发明实施例提供的另一种人脸表情识别方法的流程图，该人脸表情识别方法可以包括以下步骤。

201、根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段。

本实施例中，M为大于1的整数。根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。

举例来说，假设预设时长为1秒钟，则每连续的1秒钟的输入视频为一个视频片段；假设输入视频的播放时长为10秒钟，M为5，则每连续的2秒钟的输入视频为一个视频片段。将输入视频划分为多个视频片段，由于视频片段是连续的且时间相差不大，则可认为该视频片段中的人脸表情一致，从而利于提高查找效率。

本实施例中，可选ffmpeg技术将输入视频划分为M个视频片段，对于拆分视频片段的技术不作限定。

202、对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段。

203、分别提取N个视频片段中目标人脸图像的表情信息，得到N个表情信息。

204、将N个表情信息进行分类，得到P类表情信息。

205、从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。

其中，步骤202-205可参照图1所描述的人脸表情识别方法中的步骤101-104，在此不再赘述。

可选的，将M个视频片段划分为Q个帧图像；对Q个帧图像中每一帧图像的目标人脸图像进行表情信息提取，得到Q个表情信息，每一帧图像对应一个表情信息；将Q个表情信息中每一表情信息之间的差异值小于预设阈值的相邻帧图像划分为一个视频片段，得到N个视频片段。

其中，Q为大于或等于M的整数，以帧为单位将M个视频片段进行划分，得到Q个表情信息对应的视频片段，因此可直接根据N个视频片段中占用播放时长最长的视频片段对应的表情信息作为输入视频的目标人脸表情。

在图2所描述的人脸表情识别方法中，根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。且只提取包含目标人脸图像的N个视频片段的表情信息，可提高提取效率，并将占用输入视频的播放时长最长的表情信息作为输入视频的目标人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

请参阅图3，图3是本发明实施例提供的一种人脸表情识别装置的结构图，该人脸表情识别装置300可以包括：

识别单元301，用于对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，M为大于1的整数，N为小于或等于M的正整数。

第一提取单元302，用于从N个视频片段中提取目标人脸图像的表情信息，得到N个表情信息，每一视频片段对应一个表情信息。

分类单元303，用于将N个表情信息进行分类，得到P类表情信息，P为小于或等于N的正整数。

选取单元304，用于从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。

在图3所描述的人脸表情识别装置中，将输入视频划分为M个视频片段，从M个视频片段中选取包含目标人脸图像的视频片段得到N个视频片段，提取N个视频片段中的目标人脸图像的表情信息得到P类表情信息，也就是说，只提取包含目标人脸图像的视频片段的表情信息，可提高提取效率。从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息作为输入视频的目标人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

请参阅图4，图4是本发明实施例提供的另一种人脸表情识别装置的结构图，该人脸表情识别装置400可以包括：

第一划分单元401，用于根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段。

识别单元402，用于对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，M为大于1的整数，N为小于或等于M的正整数。

第一提取单元403，用于从N个视频片段中提取目标人脸图像的表情信息，得到N个表情信息，每一视频片段对应一个表情信息。

分类单元404，用于将N个表情信息进行分类，得到P类表情信息，P为小于或等于N的正整数。

选取单元405，用于从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。

可选的，第一提取单元403具体用于对目标视频片段中的目标人脸图像，或对目标视频片段中包含目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和K个表情信息中每一表情信息对应的表情概率值，K为正整数，L为正整数，目标视频片段为N个视频片段中的任一视频片段；将K个表情信息中的最大表情概率值对应的表情信息作为目标视频片段的表情信息。

可选的，分类单元404具体用于根据N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到P类表情信息。

可选的，装置400还包括：

第二划分单元406，用于将M个视频片段划分为Q个帧图像，Q为大于或等于M的整数；

第二提取单元407，用于对Q个帧图像中每一帧图像的目标人脸图像进行表情信息提取，得到Q个表情信息，每一帧图像对应一个表情信息，由识别单元402将Q个表情信息中每一表情信息之间的差异值小于预设阈值的相邻帧图像划分为一个视频片段，得到N个视频片段。

在图4所描述的人脸表情识别装置中，根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。且只提取包含目标人脸图像的N个视频片段的表情信息，可提高提取效率，并将占用输入视频的播放时长最长的表情信息作为输入视频的目标人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

请参阅图5，图5是本发明实施例公开的一种电子设备。其中，电子设备可以为手机、平板电脑等。如图5所示，该电子设备可以包括壳体501、处理器502、存储器503、电路板504和电源电路505，其中，电路板504安置在壳体围成的空间内部，处理器502和存储器503设置在电路板504上；电源电路505，用于为电子设备的各个电路或器件供电；存储器503用于存储可执行程序代码；处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，M为大于1的整数，N为小于或等于M的正整数；

从N个视频片段中提取目标人脸图像的表情信息，得到N个表情信息，每一视频片段对应一个表情信息；

将N个表情信息进行分类，得到P类表情信息，P为小于或等于N的正整数；

从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息，将其作为输入视频的目标人脸表情。

作为一种可能的实施方式，在对输入视频划分的M个视频片段进行目标识别之前，处理器502还用于执行以下操作：

根据预设时长或输入视频的播放时长将输入视频划分为M个视频片段。

作为一种可能的实施方式，在从N个视频片段中提取目标人脸图像的表情信息，得到N个表情信息方面，处理器502具体用于执行以下操作：

对目标视频片段中的目标人脸图像，或对目标视频片段中包含目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和K个表情信息中每一表情信息对应的表情概率值，K为正整数，L为正整数，目标视频片段为N个视频片段中的任一视频片段；

将K个表情信息中的最大表情概率值对应的表情信息作为目标视频片段的表情信息。

作为一种可能的实施方式，在将N个表情信息进行分类，得到P类表情信息方面，处理器502具体用于执行以下操作：

根据N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到P类表情信息。

作为一种可能的实施方式，在对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段方面，处理器502具体用于执行以下操作：

将M个视频片段划分为Q个帧图像，Q为大于或等于M的整数；

对Q个帧图像中每一帧图像的目标人脸图像进行表情信息提取，得到Q个表情信息，每一帧图像对应一个表情信息；

将Q个表情信息中每一表情信息之间的差异值小于预设阈值的相邻帧图像划分为一个视频片段，得到N个视频片段。

在图5所描述的电子设备中，将输入视频划分为M个视频片段，从M个视频片段中选取包含目标人脸图像的视频片段得到N个视频片段，提取N个视频片段中的目标人脸图像的表情信息得到P类表情信息，也就是说，只提取包含目标人脸图像的视频片段的表情信息，可提高提取效率。从P类表情信息中选取占用输入视频的播放时长最长的一类表情信息作为输入视频的目标人脸表情，将原本只能识别静态图片的人脸表情延伸到视频，从而提高了人脸表情识别的应用范围和正确率。

在一个实施例中提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现实施例一或实施例二的人脸表情识别方法。

在一个实施例中提供了一种应用程序，该应用程序用于在运行时执行实施例一或实施例二的人脸表情识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，并记录所述目标人脸图像在所述输入视频上的时间点，所述M为大于1的整数，所述N为小于或等于所述M的正整数；

2.根据权利要求1所述的方法，其特征在于，在所述对输入视频划分的M个视频片段进行目标识别之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述从所述N个视频片段中提取所述目标人脸图像的表情信息，得到N个表情信息，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述将所述N个表情信息进行分类，得到P类表情信息，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，包括：

6.一种人脸表情识别装置，其特征在于，包括：

识别单元，用于对输入视频划分的M个视频片段进行目标识别，得到N个包含目标人脸图像的视频片段，并记录所述目标人脸图像在所述输入视频上的时间点，所述M为大于1的整数，所述N为小于或等于所述M的正整数；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述第一提取单元具体用于对目标视频片段中的所述目标人脸图像，或对所述目标视频片段中包含所述目标人脸图像的L帧图像中的每一帧图像的目标人脸图像进行表情信息提取，得到K个表情信息和所述K个表情信息中每一表情信息对应的表情概率值，所述K为正整数，所述L为正整数，所述目标视频片段为所述N个视频片段中的任一视频片段；将所述K个表情信息中的最大表情概率值对应的表情信息作为所述目标视频片段的表情信息。

9.根据权利要求6或7所述的装置，其特征在于，所述分类单元具体用于根据所述N个表情信息中的每一表情信息之间的差异值小于预设阈值的表情信息划分为一类表情信息，得到P类表情信息。

10.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

11.一种电子设备，其特征在于，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行如权利要求1-5中任一所述的方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。