CN111860407B

CN111860407B - 一种视频中人物的表情识别方法、装置、设备及存储介质

Info

Publication number: CN111860407B
Application number: CN202010742875.4A
Authority: CN
Inventors: 贺惠新; 范帅迪; 崔子栋
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2023-04-25
Anticipated expiration: 2040-07-29
Also published as: CN111860407A

Abstract

本发明实施例提供一种视频中人物的表情识别方法、装置、设备及存储介质，涉及视频内容分析技术领域。其中，方法包括：从待处理视频中获取多个第一图像；灰度化所述第一图像，获得第二图像；通过人脸检测模型，获得所述第二图像上的人脸区域；根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像；通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息；通过表情识别模型，获取所述第三图像的人物信息对应的表情信息。本发明大大提高了其大大提高了现有技术中分析视频、标注视频的效率，并且稳定可靠，不受人为因素影响，具有很好的实际意义。

Description

一种视频中人物的表情识别方法、装置、设备及存储介质

技术领域

本发明涉及视频内容分析技术领域，具体而言，涉及一种视频中人物的表情识别方法、装置、设备及存储介质。

背景技术

随着互联网大发展的时代到来，视频流媒体数据总量不断扩大，流媒体市场正在向着整合资源，优化输出效果的高质量方向发展。流媒体蕴含着大量的重要信息，但目前对视频流的数据挖掘程度只是冰山一角。

其中，人物的表情的变化，可以反映出视频整体的剧情走向，若充分挖掘视频流信息，进行有效标注，则有助于电影或自媒体等视频流行业的发展带来广阔市场前景。尤其是为视频推荐算法提供可靠的推荐基础。

目前，流媒体数据的标记均是人工完成的，面对几何式增长的视频流数据，传统方式效率过于低下。同时，目前对于视频流信息分析的研究工作主要集中于真实人的语音和文本两个方向，针对视频中的人物情感识别挖掘方法尚不成熟。

有鉴于此，申请人在研究了现有的技术后特提出本申请。

发明内容

本发明提供了一种视频中人物的表情识别方法、装置、设备及存储介质，以改善相关技术中的无法高效的对流媒体数据进行标记问题。

第一方面，本发明实施例提供了一种视频中人物的表情识别方法，其包括：

从待处理视频中获取多个第一图像；

灰度化所述第一图像，获得第二图像；

通过人脸检测模型，获得所述第二图像上的人脸区域；

根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像；

通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息；

通过表情识别模型，获取所述第三图像的人物信息对应的表情信息。

可选地，从待处理视频中获取多个第一图像，具体为：

遍历所述待处理视频，获取多个关键帧；

根据所述关键帧，获得两个关键帧间四分位点的特定帧为所述第一图像；其中，两个关键帧在所述待处理视频中的序号分别为i，j，特定帧的序号为

可选地，所述表情识别方法包括：根据所述人脸区域、所述人物信息，以及所述表情信息，获得目标视频；

所述根据所述人脸区域、所述人物信息，以及所述表情信息，获得目标视频，包括：

将所述人脸区域、所述人物信息，以及所述表情信息标注在所述特定帧；

扩展所述特定帧的标注信息至相邻的所述关键帧；

根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频。

可选地，所述表情识别方法包括：构建人脸检测模型；

构建人脸检测模型，包括：

获取多个第一样本；其中，所述第一样本为灰度图像，多个所述第一样本包括包含人正脸的正样本M张，以及不包含人脸的负样本N张，M：N＝1：3；

分别计算每个第一样本的积分图；其中，所述积分图的表达式为：SATk(x,y)＝∑_{x′≤x,y′≤y}k(x′,y′)，k(x,y)为第k个第一样本的像素值，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素值；

根据所述积分图，基于预设大小的特征检测窗口，计算出Haar图像特征；

根据所述Haar图像特征，训练Adaboost级联分类器，获得所述人脸检测模型；

可选地，通过人脸检测模型，获得所述第二图像上的人脸区域，具体为：

通过所述人脸检测模型，得到所述第二图像上的人脸位置坐标；其中，所述人脸位置坐标为(x₀,y₀,x₁,y₁,k_n)，(x₀,y₀)为人脸左上角的位置坐标，(x₁,y₁)为人脸右下角的位置坐标，k_n为第k张第二图像上的第n个人脸位置坐标；

可选地，根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像，具体为：

当

时，保留对应的人脸区域，否则删除对应的人脸区域；

当所述第二图像不具有

的人脸区域时，删除对应的第二图像。

可选地，所述表情识别方法包括：构建人脸识别模型；

所述构建人脸识别模型，包括：

获取多个第二样本；其中，所述第二样本为灰度图像，多个所述第二样本分别包含待处理视频中的不同人物的正脸；

基于LBP圆形算子，计算各第二样本的LBP特征图；

将所述LBP特征图分成多个区域，并计算各区域特征图像的直方图；

将所述直方图按区域的空间顺序依次排列成一行，以获得不同人物对应的基准LBP特征向量；

可选地，通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息，具体为：

获取所述第三图像的所述人脸区域的LBP特征向量；

根据相似性度量函数，分别计算所述LBP特征向量和多个基准LBP特征向量的相似度；

当相似度大于0.8时，输出当前基准LBP特征向量对应的人物信息。

可选地，所述表情识别方法包括：构建表情识别模型；

所述构建表情识别模型，包括：

获取多个第三样本；其中，所述第三样本是灰度图像，多个所述第三样本分别为7类人脸表情图像各50张，7类人脸表情分别为中性的、开心、伤心、惊讶、恐惧、生气，以及厌恶；

将多个所述第三样本重整为一维向量并打乱顺序；

根据多个所述第三样本的一维向量，训练Xception深度学习模型，以小批次梯度下降法进行优化，以分别获得多个所述第三样本对应的7类人脸表情的预测概率；

基于0.1的神经元遗弃率，训练迭代所述Xception深度学习模型多次，获得表情识别模型；

可选地，通过表情识别模型，获取所述第三图像的人脸区域对应的表情信息，具体为：

将所述第三图像的人脸区域的图像重整为一维向量；

根据所述表情识别模型，基于所述第三图像的一维向量，输出对应的表情信息。

可选地，分别计算每个第一样本的积分图，具体为：

采用增量的方式计算所述积分图；其中，计算公式为：SATk(x′,y′)＝SATk(x′,y′-1)+AATk(x′-1,y′)-SATk(x′-1,y′-1)+k(x′,y′)，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素点的像素值。增量计算的初始边界为：SAT(-1,y′)＝AAT(x′,-1)＝SAT(-1,-1)＝0。

第二方面，本发明实施例提供一种视频中人物的表情识别装置，包括：

第一图像获取模块，用于从待处理视频中获取多个第一图像；

灰度化模块，用于灰度化所述第一图像，获得第二图像；

人脸检测模块，用于通过人脸检测模型，获得所述第二图像上的人脸区域；

正脸筛选模块，用于根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像；

人脸识别模块，用于通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息；

表情识别模块，用于通过表情识别模型，获取所述第三图像的人物信息对应的表情信息。

可选地，表情识别装置还包括：人脸检测模型构建模块、人脸识别模型构建模块，以及表情识别模型构建模块；

可选地，人脸检测模型构建模块，包括：

第一样本获取单元，用于获取多个第一样本；其中，所述第一样本为灰度图像，多个所述第一样本包括包含人正脸的正样本M张，以及不包含人脸的负样本N张，M：N＝1：3；

积分图计算单元，用于分别计算每个第一样本的积分图；其中，所述积分图的表达式为：SATk(x,y)＝∑_{x′≤x,y′≤y}k(x′,y′)，k(x,y)为第k个第一样本的像素值，k(x′,′)表示第k个第一样本上坐标为(x′,y′)的像素值；

Haar特征计算单元，用于根据所述积分图，基于预设大小的特征检测窗口，计算出Haar图像特征；

人脸检测模型获取单元，用于根据所述Haar图像特征，训练Adaboost级联分类器，获得所述人脸检测模型；

可选地，积分图计算单元，具体用于：

采用增量的方式计算所述积分图；其中，计算公式为：SATk(x′,y′)＝SATk(x′,y′-1)+SATk(x′-1,y′)-SATk(x′-1,y′-1)+k(x′,y′)，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素点的像素值。增量计算的初始边界为：SAT(-1,y′)＝SAT(x′,-1)＝SAT(-1,-1)＝0。

可选地，人脸识别模型构建模块，包括：

第二样本获取单元，用于获取多个第二样本；其中，所述第二样本为灰度图像，多个所述第二样本分别包含待处理视频中的不同人物的正脸；

LBP特征计算单元，用于基于LBP圆形算子，计算各第二样本的LBP特征图；

直方图计算单元，用于将所述LBP特征图分成多个区域，并计算各区域特征图像的直方图；

基准LBP特征向量获取单元，用于将所述直方图按区域的空间顺序依次排列成一行，以获得不同人物对应的基准LBP特征向量。

可选地，表情识别模型构建模块，包括：

第三样本获取单元，用于获取多个第三样本；其中，所述第三样本是灰度图像，多个所述第三样本分别为7类人脸表情图像各50张，7类人脸表情分别为中性的、开心、伤心、惊讶、恐惧、生气，以及厌恶；

第三样本重整单元，用于将多个所述第三样本重整为一维向量并打乱顺序；

模型训练单元，用于根据多个所述第三样本的一维向量，训练Xception深度学习模型，以小批次梯度下降法进行优化，以分别获得多个所述第三样本对应的7类人脸表情的预测概率；

表情识别模型获取单元，用于基于0.1的神经元遗弃率，训练迭代所述Xception深度学习模型多次，获得表情识别模型。

可选地，第一图像获取模块，具体包括：

关键帧获取单元，用于遍历所述待处理视频，获取多个关键帧图像；

第一图像获取单元，用于根据所述关键帧，获得两个关键帧间四分位点的特定帧为所述第一图像；其中，两个关键帧在所述待处理视频中的序号分别为i，j，特定帧的序号为

可选地，人脸检测模块，具体用于：

可选地，正脸筛选模块，具体用于：

当

时，保留对应的人脸区域，否则删除对应的人脸区域；

当所述第二图像不具有

的人脸区域时，删除对应的第二图像；

可选地，人脸识别模块，具体用于：

获取所述第三图像的所述人脸区域的LBP特征向量；

当相似度大于0.8时，输出当前基准LBP特征向量对应的人物信息；

可选地，表情识别模块，具体用于：

将所述第三图像的人脸区域的图像重整为一维向量；

根据所述表情识别模型，基于所述第三图像的一维向量，输出对应的表情信息；

可选地，所述视频中人物的表情识别装置还包括；目标视频获取模块

目标视频获取模块包括：

标注单元，用于将所述人脸区域、所述人物信息，以及所述表情信息标注在所述特定帧；

扩展单元，用于扩展所述特定帧的标注信息至相邻的所述关键帧；

目标视频获取单元，用于根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频；

第三方面，本发明实施例提供一种视频中人物的表情识别设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的视频中人物的表情识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的视频中人物的表情识别方法。

通过采用上述技术方案，本发明可以取得以下技术效果：

本发明的视频中人物的表情识别方法，通过人脸识别模型识别出待处理视频的多个第一图像上的人脸区域，并将包含正脸的人脸区域筛选出来，进行人物信息识别和人脸表情识别，能够高效的获知待处理视频中各个人物的表情变化，进而对待处理视频进行标记。其大大提高了现有技术中分析视频、标注视频的效率，并且稳定可靠，不受人为因素影响，具有很好的实际意义。

通过对各个人物的表情变化的分析，还能进一步的分析出视频中人物的情感变化，以及反映出视频整体的剧情走向，为视频推荐算法提供电路可靠的推荐基础。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明第一实施例提供的视频中人物的表情识别方法的流程示意图。

图2是14种Haar特征的示意图。

图3是本发明第二实施例提供的视频中人物的表情识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

下面结合附图与具体实施方式对本发明作进一步详细描述：

实施例一：

请参阅图1，本发明实施例提供一种视频中人物的表情识别方法，其可由视频中人物的表情识别设备(以下简称表情识别设备)来执行，特别地，由表情识别设备中的至少一个处理器来执行，以至少实现如下步骤：

S101，从待处理视频中获取多个第一图像。

在本实施例中，待处理视频为具有人物形象的视频，其可以录制有真人的视频，也可以是具有人物形象的动漫类流媒体，本发明对此不作具体限定。其中，动漫类流媒体中的人物形象的表情，往往比真人的表情更为夸张，因此更容易被识别。

第一图像为待处理视频上的特定帧。

S102，灰度化所述第一图像，获得第二图像。

在本实施例中，待处理视频通常都是彩色的，其每个像素由三个值来表示，即RGB三个通道，每个通道的值在0到255之间，如果表情识别设备直接对彩色的第一图像进行人脸检测、人脸识别、表情识别的话，需要处理的数据量较大。

因此，先将第一图像灰度化成只有灰度的第二图像。灰度化后第二图像，每个像素由一个值来表示，即灰度一个通道，灰度通道的值在在0到255之间。大大降低了表情识别设备所需要处理的数据量，提高了处理效率。

S103，通过人脸检测模型，获得所述第二图像上的人脸区域。

在本实施例中，使用人脸检测模型，将第二图像上的人脸全部都标记出来。即，将人脸的区域框起来。

S104，根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像。

在本实施例中，根据步骤S103标记出来的人脸区域，将正脸的人脸区域筛选出来。并对筛选出来的人脸区域执行步骤S105和S106。

具体地，正脸的人脸区域，其宽高比大于二分之一。

S105，通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息。

在本实施例中，通过人脸识别模型，对步骤S104筛选出来的人脸区域进行识别，以获得各个人脸区域对应的人物信息。

S106，通过表情识别模型，获取所述第三图像的人物信息对应的表情信息。

在本实施例中，通过表情识别模型，对步骤S104筛选出来的人脸区域进行识别，以获得各个人脸区域对应的表情信息。

即，获得了各个人脸区域人物对应的表情信息。

通过人脸识别模型识别出待处理视频的多个第一图像上的人脸区域，并将包含正脸的人脸区域筛选出来，进行人物信息识别和人脸表情识别，能够高效的获知待处理视频中各个人物的表情变化，进而对待处理视频进行标记。本发明的视频中人物的表情识别方法大大提高了现有技术中分析视频、标注视频的效率，并且稳定可靠，不受人为因素影响，具有很好的实际意义。

在上述实施例的基础上，本发明一优选实施例中，S101具体包括以下步骤：

S1011，遍历所述待处理视频，获取所述待处理视频的所有关键帧；

S1012，根据所述关键帧，获得两个关键帧间四分位点的特定帧为所述第一图像；

其中，假设相邻的两个关键帧在所述待处理视频中的序号分别为i和j，特定帧的序号为k，所述四分位点为两个关键帧中间的4分之3处，为防止4分之3处除不尽，需要向下取整，以所获得的特定帧。特定帧的表达式为：

对于视频流，一般来说4分位点可以较为科学规避选取特定帧时的误差而导致的图像信息缺失。

在上述实施例的基础上，本发明一优选实施例中，所述表情识别方法还包括：构建人脸检测模型。

构建人脸检测模型具体包括以下步骤：

S11，获取多个第一样本；其中，所述第一样本为灰度图像，多个所述第一样本包括包含人正脸的正样本M张，以及不包含人脸的负样本N张，并且，M：N＝1：3。

在本实施例中，多个第一样本分为正样本M张和负样本N张。所述正样本为包含了待处理视频中的人物的正脸的灰度图像，所述负样本为不包含人脸的灰度图像。1比3的比例能够训练出识别准确率更高的人脸检测模型。

记第一样本为f_k(n,1),1≤k≤M+N；其中，k为第一样本的编号，n＝1表示正样本，n＝0表示负样本，1表示样本为单通道的灰度图。

S12，分别计算每个第一样本的积分图；其中，所述积分图的表达式为：

k(x,y)为第k个第一样本的像素值，x表示第一样本x方向总像素个数，y表示第一样本y方向总像素个数；k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素点的像素值,x′表示像素点的横坐标，y′表示像素点的纵坐标。

将第一样本转换成积分图，能够大大减小后续步骤的处理量。

优选地，采用增量的方式计算样本图像f_k(n,1)的各个像素点的积分SATk(x′,y′)。

具体地，增量计算积分图的公式为：SATk(x′,y′)＝SATk(x′,y′-1)+SATk(x′-1,y′)-SATk(x′-1,y′-1)+k(x′,y′)；

其中，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素点的像素值。增量计算的初始边界为：SAT(-1,y′)＝SAT(x′,-1)＝SAT(-1,-1)＝0。初始边界为计算第一样本的第一行或者第一列像素点的积分时，所需要的负一行和负一列的像素点的数值。

采用传统计算方式，计算某一像素点的积分，需要计算各个某一像素点与原点之间围成的矩形范围内各个像素点的像素值之和，处理器需要计算多次x′×y′-1次加法。而采用增量的方法，只需要计算两次加法一次减法，大大减少了处理器的工作量，具有很好的实际意义。

S13，根据所述积分图，基于预设大小的特征检测窗口，计算出Haar图像特征。

在本实施例中，选取24像素乘24像素的特征检测窗口，根据积分图SATk(x,y)计算如图2所示的14种Haar特征，并组成(14，n_max)向量Haar(x,y)。其中，n_max代表14种特征数最大维度，若某一种特征数小于n_max则补0。

所述Haar特征为某个区域的像素点经过某种四则运算(即加减乘除)之后得到的结果，所述结果可以是一个具体的值也可以是一个向量，矩阵，多维。计算14种Haar特征，并组成向量为现有技术，在此不再赘述。

S14，根据所述Haar图像特征，训练Adaboost级联分类器，获得所述人脸检测模型。

在本实施例中，将计算出的Haar(x,y)放入Adaboost级联分类器进行训练。迭代数次，直到达到设定的最大级联层数结束训练，获得所述人脸检测模型。

在上述实施例的基础上，本发明一优选实施例中，S103具体为：

通过所述人脸检测模型，得到所述第二图像上的人脸位置坐标。

其中，所述人脸位置坐标为(x₀,y₀,x₁,y₁,k_n)，(x₀,y₀)为人脸左上角的位置坐标，(x₁,y₁)为人脸右下角的位置坐标，k_n为第k张第二图像上的第n个人脸位置坐标；

当人脸检测模型识别到人脸后，绘制一方框将人脸框起来，方框的左上角坐标为(x₀,y₀)，方框的右下角坐标为(x₁,y₁)

在本实施例中，步骤S104具体为：

当

时，保留对应的人脸区域，否则删除对应的人脸区域，

当所述第二图像不具有

的人脸区域时，删除对应的第二图像。

由于侧脸有一部分脸被遮挡，显示出来的脸部面积比较少，难以准确的识别表情和人物信息，因此需要发明人通过将正脸筛选出来进行表情识别和人物信息识别，大大提高了表情识别设备的效率和准确度。

侧脸只露出来部分面部，会显得更为细长，而正脸因为整个面部都露出来了，因此会比侧脸更宽。

发明人通过大量的测量统计，宽高比超过

的面部特征，更容易被识别出来，因此通过将正脸的宽高比阈值设置为

有效的将正脸筛选出来。不仅大大提高了表情识别设备的准确率，而且大大提高了表情识别设备的效率，具有很好的实际意义。

在上述实施例的基础上，本发明一优选实施例中，所述表情识别方法包括：构建人脸识别模型。

构建人脸识别模型具体包括以下步骤：

S21，获取多个第二样本；其中，所述第二样本为灰度图像，多个所述第二样本分别包含待处理视频中的不同人物的正脸。

在本实施例中，多个第二样本包括：待处理视频中的各个人物的正脸灰度图各10张。

S22，基于LBP圆形算子，计算各第二样本的LBP特征图；

在本实施例中，LBP圆形算子半径为1像素，采样点为8像素,其表达式为

具体地，对第二样本图像中的每一个像素(以下称为中心点)，将与中心点相邻的8个邻域像素点分别与中心点比较灰度值，当邻域像素点的灰度值大于中心点的灰度值时，则对应的邻域像素点的位置被标记为1，否则标记为0。

第二样本图像的每个像素的邻域，均可根据LBP圆形算子，得到经比较产生的8位0/1值，将这8位0/1值按照固定的顺序排列，即可得到一个8位的二进制数来表示对应的像素点的领域；再将其转换为十进制就得到中心点的LBP值。

S23，将所述LBP特征图分成多个区域，并计算各区域特征图像的直方图。

在本实施例中，将所述LBP特征图分为8乘8的64个区域。并将所述直方图进行归一化，直方图的大小为1*256。

S24，将所述直方图按区域的空间顺序依次排列成一行，以获得不同人物对应的基准LBP特征向量。

在本实施例中，LBP特征向量的大小为1*(256*64)。多个基准LBP特征向量之间各不相同，其分别代表着待处理视频中的一个人物。

在本实施例中，S105具体包括以下步骤：

S1051，获取所述第三图像的所述人脸区域的LBP特征向量。

在本实施例中，根据与构建人脸识别模型相同的步骤，计算出S104筛选出的正脸对应的LBP特征向量。

S1052，根据相似性度量函数，分别计算所述LBP特征向量和多个基准LBP特征向量的相似度。

S1053，当相似度大于0.8时，输出当前基准LBP特征向量对应的人物信息。

在本实施例中，当不存在相识度大于0.8的基准LBP特征向量时，输出“未知”，表示未识别出S104筛选出的正脸的人物信息。

在上述实施例的基础上，本发明一优选实施例中，所述表情识别方法包括：构建表情识别模型。

构建表情识别模型具体包括以下步骤：

S31，获取多个第三样本。其中，所述第三样本是灰度图像，多个所述第三样本分别为7类人脸表情图像各50张，7类人脸表情分别为中性的、开心、伤心、惊讶、恐惧、生气，以及厌恶。

S32，将多个所述第三样本重整为一维向量并打乱顺序。

在本实施例中，将多个所述第三样本的图像转换成二维矩阵，再将二维矩阵按行展开成一维向量。

S33，根据多个所述第三样本的一维向量，训练Xception深度学习模型，以小批次梯度下降法进行优化，以分别获得多个所述第三样本对应的7类人脸表情的预测概率。

在本实施例中，对Xception模型进行初始化，将多个一维向量打乱后，输入Xception深度学习模型进行训练，以小批次梯度下降法进行优化，得到1*7的向量。所述1*7的向量为第三样本对应的七种表情的预测概率。

S34，基于0.1的神经元遗弃率，训练迭代所述Xception深度学习模型多次，获得表情识别模型。

在本实施例中，设置神经元丢弃率为0.1的Dropout层，对用以训练的样本按照0.1的比例进行暂时的随机丢弃处理，以防止过度拟合。

Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。对于随机梯度下降来说，由于是随机丢弃，故而每一个小批的梯度下降都在训练不同的网络。能够大大提高训练出来的表情识别模型的质量。

在本实施例中，S106具体为：

将所述第三图像的人脸区域的图像重整为一维向量；

在上述实施例的基础上，本发明另一实施例中，视频中人物的表情识别方法，还包括：根据所述人脸区域、所述人物信息，以及所述表情信息，获得目标视频。具体包括以下步骤：

S41，将所述人脸区域、所述人物信息，以及所述表情信息标注在所述特定帧。

在本实施例中，将特定帧上由人脸检测模型检测出来的人脸区域、由人脸识别模型检测出来的人脸区域内的人物信息，以及表情识别模型检测出来的人脸区域内的表情信息，均标注在对应的特定帧上。使得识别结果与特定帧上的人物形象一一对应。

S42，扩展所述特定帧的标注信息至相邻的所述关键帧。

在本实施例中，将特定帧的标注信息向后扩展至相邻的关键帧上，以在更多帧上标识出识别结果。

S43，根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频。

在本实施例中，将标记有识别结果的特定帧、关键帧，以及待处理视频重组为目标视频，并将目标视频作为识别结果输出。

实施例二：

请参阅图2，本发明第二实施例提供一种视频中人物的表情识别装置，其包括：

第一图像获取模块201，用于从待处理视频中获取多个第一图像；

灰度化模块202，用于灰度化所述第一图像，获得第二图像；

人脸检测模块203，用于通过人脸检测模型，获得所述第二图像上的人脸区域；

正脸筛选模块204，用于根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像；

人脸识别模205块，用于通过人脸识别模205型，获取所述第三图像的人脸区域对应的人物信息；

表情识别模块206，用于通过表情识别模型，获取所述第三图像的人物信息对应的表情信息。

在上述实施例的基础上，本发明一优选实施例中，表情识别装置还包括：人脸检测模型构建模块、人脸识别模205型构建模块，以及表情识别模型构建模块。

在本实施例中，所述人脸检测模型构建模块，包括：

积分图计算单元，用于分别计算每个第一样本的积分图；其中，所述积分图的表达式为：

(x,y)为所述第一样本的像素值，I(x_i,y_i)表示所述第一样本上的像素点的坐标；

人脸检测模型获取单元，用于根据所述Haar图像特征，训练Adaboost级联分类器，获得所述人脸检测模型。

在本实施例中，积分图计算单元，具体用于：

采用增量的方式计算所述积分图；其中，计算公式为：SAT(x_i,y_i)＝SAT(x_i,y_i-1)+SAT(x_i-1,y_i)-SAT(x_i-1,y_i-1)+I(x_i,y_i)，(x_i,y_i)为所述第一样本上的像素点的坐标，初始边界为SAT(-1,y_i)＝SAT(x_i,-1)＝SAT(-1,-1)＝0。

在本实施例中，人脸识别模205型构建模块，包括：

在本实施例中，表情识别模型构建模块，包括：

在上述实施例的基础上，本发明一优选实施例中，第一图像获取模块201，具体包括：

第一图像获取单元，用于根据所述关键帧，获得两个关键帧间四分位点的特定帧为所述第一图像；其中，两个关键帧在所述待处理视频中的序号分别为i，j，特定帧的序号为：

在上述实施例的基础上，本发明一优选实施例中，人脸检测模块203，具体用于：

通过所述人脸检测模型，得到所述第二图像上的人脸位置坐标；其中，所述人脸位置坐标为(x₀,y₀,x₁,y₁,k_n)，(x₀,y₀)为人脸左上角的位置坐标，(x₁,y₁)为人脸右下角的位置坐标，k_n为第k张第二图像上的第n个人脸位置坐标。

在本实施例中，正脸筛选模块204，具体用于：

当

时，保留对应的人脸区域，否则删除对应的人脸区域；

当所述第二图像不具有

的人脸区域时，删除对应的第二图像。

在上述实施例的基础上，本发明一优选实施例中，人脸识别模205块，具体用于：

获取所述第三图像的所述人脸区域的LBP特征向量；

在上述实施例的基础上，本发明一优选实施例中，表情识别模块206，具体用于：

将所述第三图像的人脸区域的图像重整为一维向量；

在上述实施例的基础上，本发明一优选实施例中，所述视频中人物的表情识别装置还包括；目标视频获取模块

目标视频获取模块包括：

目标视频获取单元，用于根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频。

实施例三：

本发明第三实施例提供一种视频中人物的表情识别设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的视频中人物的表情识别方法。

实施例四：

本发明第四实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的视频中人物的表情识别方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备100，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频中人物的表情识别方法，其特征在于，包括：

从待处理视频中获取多个第一图像；

灰度化所述第一图像，获得第二图像；

通过人脸检测模型，获得所述第二图像上的人脸区域；

通过表情识别模型，获取所述第三图像的人物信息对应的表情信息；

从待处理视频中获取多个第一图像，具体为：

遍历所述待处理视频，获取多个关键帧；

所述视频中人物的表情识别方法，还包括：根据所述人脸区域、所述人物信息，以及所述表情信息，获得目标视频；

扩展所述特定帧的标注信息至相邻的所述关键帧；

根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频；

所述表情识别方法包括：构建人脸检测模型；

构建人脸检测模型，包括：

分别计算每个第一样本的积分图；其中，所述积分图的表达式为：SATk(x，t)＝∑_{x′≤x，y′≤y}k(x′，t′)，k(x，y)为第k个第一样本的像素值，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素值；

通过人脸检测模型，获得所述第二图像上的人脸区域，具体为：

根据所述人脸区域，从多个第二图像中，筛选出包含正脸的第三图像，具体为：

当时，保留对应的人脸区域，否则删除对应的人脸区域；

当所述第二图像不具有的人脸区域时，删除对应的第二图像所述表情识别方法包括：构建人脸识别模型；

所述构建人脸识别模型，包括：

基于LBP圆形算子，计算各第二样本的LBP特征图；

通过人脸识别模型，获取所述第三图像的人脸区域对应的人物信息，具体为：

获取所述第三图像的所述人脸区域的LBP特征向量；

当相似度大于0.8时，输出当前基准LBP特征向量对应的人物信息所述表情识别方法包括：构建表情识别模型；

所述构建表情识别模型，包括：

将多个所述第三样本重整为一维向量并打乱顺序；

通过表情识别模型，获取所述第三图像的人脸区域对应的表情信息，具体为：

将所述第三图像的人脸区域的图像重整为一维向量；

2.根据权利要求1所述的一种视频中人物的表情识别方法，其特征在于，分别计算每个第一样本的积分图，具体为：

采用增量的方式计算所述积分图；其中，计算公式为：SATk(x′，y′)＝SATk(x′，y′-1)+SATk(x′-1，y′)-SATk(x′-1，y′-1)+k(x′，y′)，k(x′，y′)表示第k个第一样本上坐标为(x′，y′)的像素点的像素值；增量计算的初始边界为：SAT(-1，y′)＝SAT(x′，-1)＝SAT(-1，-1)＝0。

3.一种视频中人物的表情识别装置，其特征在于，包括：

灰度化模块，用于灰度化所述第一图像，获得第二图像；

表情识别模块，用于通过表情识别模型，获取所述第三图像的人物信息对应的表情信息；

第一图像获取模块，具体包括：

所述视频中人物的表情识别装置还包括目标视频获取模块；所述目标视频获取模块，用于根据所述人脸区域、所述人物信息，以及所述表情信息，获得目标视频

目标视频获取模块包括：

目标视频获取单元，用于根据所述待处理视频、标注后的所述特定帧，以及标注后的所述关键帧，重组目标视频

表情识别装置还包括人脸检测模型构建模块；所述人脸检测模型构建模块用于构建人脸检测模型；

人脸检测模型构建模块，包括：

积分图计算单元，用于分别计算每个第一样本的积分图；其中，所述积分图的表达式为：SATk(x，y)＝∑_{x′≤x，y′≤y}k(x′，y′)，k(x，y)为第k个第一样本的像素值，k(x′,y′)表示第k个第一样本上坐标为(x′,y′)的像素值；

人脸检测模块，具体用于：

正脸筛选模块，具体用于：

当时，保留对应的人脸区域，否则删除对应的人脸区域；

当所述第二图像不具有的人脸区域时，删除对应的第二图像；

表情识别装置还包括人脸识别模型构建模块；所述人脸识别模型构建模块用于构建人脸识别模型；

人脸识别模型构建模块，包括：

基准LBP特征向量获取单元，用于将所述直方图按区域的空间顺序依次排列成一行，以获得不同人物对应的基准LBP特征向量；

人脸识别模块，具体用于：

获取所述第三图像的所述人脸区域的LBP特征向量；

表情识别装置还包括表情识别模型构建模块；所述表情识别模型构建模块用于构建表情识别模型；

表情识别模型构建模块，包括：

表情识别模型获取单元，用于基于0.1的神经元遗弃率，训练迭代所述Xception深度学习模型多次，获得表情识别模型；

表情识别模块，具体用于：

将所述第三图像的人脸区域的图像重整为一维向量；

4.一种视频中人物的表情识别设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1或2任意一项所述的视频中人物的表情识别方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1或2任意一项所述的视频中人物的表情识别方法。