CN113435330B

CN113435330B - 基于视频的微表情识别方法、装置、设备及存储介质

Info

Publication number: CN113435330B
Application number: CN202110717408.0A
Authority: CN
Inventors: 陈昊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2024-05-28
Anticipated expiration: 2041-06-28
Also published as: CN113435330A

Abstract

本发明涉及微表情识别技术领域，本发明公开了一种基于视频的微表情识别方法、装置、设备及存储介质，所述方法包括：通过实时获取待识别视频；通过对待识别视频进行人脸时序提取，得到时序片段；通过三维卷积神经网络对时序片段进行图像时序特征提取，得到特征向量矩阵组；获取通过图神经网络模型训练完成的区域关联矩阵组，并将区域关联矩阵组和特征向量矩阵组融合，得到待分类向量；对待分类向量进行微表情识别，得到与待识别视频对应的微表情结果。因此，本发明实现了通过三维卷积神经网络从空间维度和时间维度，以及通过体现人脸中重点区域之间的关联关系的区域关联矩阵组，自动识别出人物的微表情类别，提高了微表情识别的准确率和质量。

Description

基于视频的微表情识别方法、装置、设备及存储介质

技术领域

本发明涉及微表情识别技术领域，尤其涉及一种基于视频的微表情识别方法、装置、设备及存储介质。

背景技术

微表情是短而不自觉的面部表情，它的开始和结束不受主观控制，短暂的微表情能够在不知不觉中反映出人内心的心理状态，如若能够在客服行业应用中提取到每个人的微表情，通过微表情的识别可以获取到客户的满意度的转变，能快速识别客户的满意度转变，这能够帮助企业改善服务质量，提高客户满意度，可见，微表情识别是目前较为活跃且前瞻的领域，也是结合心理学与机器视觉技术的交叉领域，在现有技术中，微表情的识别大致可以分为两类，一类是基于面部局部区域变化的传统方法识别，主要利用的是面部图像中的局部区域比如嘴唇等的变化来做一个分类，该类方案在大数据集下往往表现不好，是由于人群的习惯差异较大，导致难以兼顾到大量的人群；另一类是基于深度学习人工智能的图像识别技术，该类方案往往是对整张图像的识别，但是该方案的对象是静态的图像，只能提取静态的特征进行识别，因此，以上两类方案都存在微表情识别的准确率不高的情况，容易出现误判的不足，这将导致误解客户的心情，容易流失客户。

发明内容

本发明提供一种基于视频的微表情识别方法、装置、计算机设备及存储介质，实现了通过三维卷积神经网络从空间维度和时间维度，以及通过体现人脸中重点区域之间的关联关系的区域关联矩阵组，自动识别出待识别视频中的人物的微表情类别，提高了微表情识别的准确率和质量。

一种基于视频的微表情识别方法，包括：

实时获取待识别视频；

通过对所述待识别视频进行人脸时序提取，得到时序片段；

通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组；

获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量；

对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果。

一种基于视频的微表情识别装置，包括：

获取模块，用于实时获取待识别视频；

第一提取模块，用于通过对所述待识别视频进行人脸时序提取，得到时序片段；

第二提取模块，用于通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组；

融合模块，用于获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量；

识别模块，用于对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于视频的微表情识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于视频的微表情识别方法的步骤。

本发明提供的基于视频的微表情识别方法、装置、计算机设备及存储介质，通过实时获取待识别视频；通过对所述待识别视频进行人脸时序提取，得到时序片段；通过所述三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组；获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量；对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果，如此，能够通过三维卷积神经网络从空间维度和时间维度，以及通过体现人脸中重点区域之间的关联关系的区域关联矩阵组，自动识别出待识别视频中的人物的微表情类别，由于采用简单的神经网络结构以及图卷积神经网络，并构建端到端的基于数据驱动的方法，有效降低对设备的硬件依赖程度，以及降低设计难度，大大降低硬件门槛和开发人员的门槛，提高了微表情识别的准确率和质量，提升了整个微表情识别开发的效率，节省了成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于视频的微表情识别方法的应用环境示意图；

图2是本发明一实施例中基于视频的微表情识别方法的流程图；

图3是本发明一实施例中基于视频的微表情识别方法的步骤S20的流程图；

图4是本发明一实施例中基于视频的微表情识别方法的步骤S30的流程图；

图5是本发明一实施例中基于视频的微表情识别装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于视频的微表情识别方法，可应用在如图1的应用环境中，其中，客户端(计算机设备或终端)通过网络与服务器进行通信。其中，客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于视频的微表情识别方法，其技术方案主要包括以下步骤S10-S50：

S10，实时获取待识别视频。

可理解地，通过云服务器、数据库、摄像头或者图像采集设备实时获取所述待识别视频，所述待识别视频为预设时间段内需要进行识别微表情的视频，通过时间的移动而实时更新所述待识别视频。

S20，通过对所述待识别视频进行人脸时序提取，得到时序片段。

可理解地，所述人脸时序提取的过程为从所述待识别视频中提取出每一帧含有人脸的图像，将提取的图像按照时间的顺序进行拼接的过程，最后输出所述时序片段，所述时序片段为汇集具有时间序列的含有人脸的图像的片段。

在一实施例中，如图3所示，所述步骤S20中，即所述通过对所述待识别视频进行人脸时序提取，得到时序片段，包括：

S201，通过预设的时域插值模型对所述待识别视频进行插值处理，得到待处理片段。

可理解地，所述插值处理的过程为时域插值模型运用时域插值算法进行插帧任务，将每帧图像视作高维空间中的一个点，而图像通常是高度冗余的数据，因此，存在一个对应的低维流形映射，这种插值算法把图像序列映射到低维流形上并进行插值，再重新映射到原空间的过程，从而得到所述待处理片段。

在一实施例中，所述步骤S201中，即所述通过预设的时域插值模型对所述待识别视频进行插值处理，得到待处理片段，包括：

通过所述时域插值模型运用时域插值算法，对所述待识别视频进行插帧平滑处理，得到视频流。

可理解地，所述插帧平滑处理为将每帧图像视作高维空间中的一个点，而图像通常是高度冗余的数据，将这些高度冗余的数据进行平滑处理，将各帧之间的图像具有时序的平滑过渡。

对所述视频流进行归一化处理，并重新构建出与归一化后的所述视频流对应的所述待处理片段。

可理解地，所述归一化处理为将数据按比例缩放，使之落入一个预设的特定区间，对所述视频流进行归一化处理的过程为将所述视频流中的各个图像中的像素值按照等比例缩小至[-1,1]之间的范围内转换，并构建成分布在[-1,1]之间的片段，将其记录为所述待处理片段。

本发明实现了通过所述时域插值模型运用时域插值算法，对所述待识别视频进行插帧平滑处理，得到视频流；对所述视频流进行归一化处理，并重新构建出与归一化后的所述视频流对应的所述待处理片段，如此，是实现了通过所述时域插值模型自动将待识别视频转换成便于微表情识别的待处理片段，提高了微表情识别的准确率和效率。

S202，通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像。

可理解地，所述人脸区域检测模型为训练完成的用于识别人脸的目标检测模型，所述人脸区域检测模型的网络结构可以为基于YOLO的网络结构，通过所述人脸区域检测模型对所述待处理片段中的各帧图像进行人脸识别，所述人脸识别为提取图像中的人脸特征，所述人脸特征为人物的眼、鼻、口、眉等与人脸相关的特征，根据提取的所述人脸特征进行目标区域的识别，得到含有人脸的所述人脸图像。

在一实施例中，所述步骤S202中，即所述通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像，包括：

通过所述人脸区域检测模型对所述待处理片段进行分帧处理，得到多个待识别图像；所述人脸区域检测模型为基于YOLO构建的目标检测模型。

可理解地，所述分帧处理为对输入的视频片段中每帧视频中的图像分离出来的处理过程，运用分帧处理方法，通过所述人脸区域检测模型对所述待处理片段中的每帧图像分离出所述待识别图像，所述待处理片段是由每帧的图像组成的视频片段，所述人脸区域检测模型的网络结构为基于YOLO构建的目标检测模型的网络结构。

其中，基于YOLO构建的目标检测模型为基于YOLO(You Only Look Once)算法用于识别人脸目标的目标检测模型，YOLO是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度很快，可以用于实时系统。

通过所述人脸区域检测模型对各所述待识别图像进行人脸特征提取，得到各所述待识别图像的识别结果。

可理解地，所述人脸特征为人物的眼、鼻、口、眉等与人脸相关的特征，对每个所述待识别图像进行所述人脸特征的卷积，从而提取出所述人脸特征，根据提取的所述人脸特征可以进行分类，得到所述待识别图像的识别结果，所述识别结果包括含人脸和不含人脸，所述识别结果表明了所述待识别图像中是否包含人脸的结果。

将与含人脸的识别结果对应的所述待识别图像记录为所述人脸图像。

可理解地，将含人脸的所述识别结果所对应的所述待识别图像标记为所述人脸图像。

本发明实现了通过所述人脸区域检测模型对所述待处理片段进行分帧处理，得到多个待识别图像；所述人脸区域检测模型为基于YOLO构建的目标检测模型；通过所述人脸区域检测模型对各所述待识别图像进行人脸特征提取，得到各所述待识别图像的识别结果；将与含人脸的识别结果对应的所述待识别图像记录为所述人脸图像，如此，本发明通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像自动识别出含有人脸的图像，为后续只对含有人脸的视频进行微表情识别起到了过滤作用，避免后续的无用操作，提高了微表情识别的效率。

S203，将所有所述人脸图像按照时序拼接，得到时序片段。

可理解地，将识别到的所有所述人脸图像按照该图像在所述待处理片段中的时序进行拼接，从而得到所述时序片段，所述待处理片段中的时序通过从所述待识别视频中继承，其中，继承指的是标记有时间顺序标识，通过该时间顺序标识可以查看该人脸图像在所述待识别视频中的位置，按照继承的时间顺序标识可以按照时间顺序拼接各个所述人脸图像，从而得到所述时序片段。

本发明实现了通过预设的时域插值模型对所述待识别视频进行插值处理，得到待处理片段；通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像；将所有所述人脸图像按照时序拼接，得到时序片段，如此，实现了通过时域插值模型以及人脸区域检测模型，自动识别出含有人脸的图像，并提取出时序片段，为后续只对含有人脸的视频进行微表情识别起到了过滤作用，避免后续的无用操作，提高了微表情识别的效率。

S30，通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组。

可理解地，所述三维卷积神经网络为训练完成的用于提取图像时序特征以识别微表情的神经网络，所述图像时序特征为在空间和时间上与微表情相关的特征，即从静态图像的空间维度中体现的微表情特征和从时间维度中体现的微表情轻微变化的特征，从而对所述时序片段进行所述图像时序特征提取，即通过空间维度和时间维度的卷积核对所述时序片段进行卷积，可以得到所述特征向量矩阵组，所述特征向量矩阵组包括多个特征向量矩阵，所述特征向量矩阵为预设尺寸的向量矩阵。

在一实施例中，所述步骤S30之前，即通过三维卷积神经网络对所述时序片段进行图像时序特征提取之前，包括：

获取训练样本集；所述训练样本集包括多个训练样本，一个所述训练样本对应一个微表情类别标签；

可理解地，所述训练样本集为所述训练样本的集合，所述训练样本为包含有微表情的视频，所述微表情类别标签与微表情标签可以相同，所述微表情类别标签和所述微表情标签均体现了各种微表情的类别，例如：微表情的类别包括惊讶、厌恶、轻蔑、愤怒、恐惧、悲伤、愉悦等。

将所述训练样本输入含有初始时序参数的初始三维神经网络，可理解地，所述初始三维神经网络包含所述初始时序参数，所述初始三维神经网络为对输入的训练样本进行微表情识别的网络。

通过所述初始三维神经网络对所述训练样本进行所述图像时序特征提取，根据提取的所述图像时序特征输出初始向量矩阵组。

可理解地，所述图像时序特征为在空间和时间上与微表情相关的特征，对提取的所述图像时序特征进行池化层处理，经过池化后输出所述初始向量矩阵组，所述初始向量矩阵组为具有所述图像时序特征向量的矩阵。

对所述初始向量矩阵组进行分类，确定出该训练样本的识别结果。

可理解地，通过softmax层对所述初始向量矩阵组进行微表情类别的识别分类，即对所述初始向量矩阵组进行映射分类，得到该训练样本的微表情类别的识别结果。

根据所述识别结果和所述微表情类别标签，得到时序损失值。

可理解地，通过交叉熵损失函数计算所述识别结果和所述微表情类别标签之间的差距，得到所述时序损失值。

在所述时序损失值未达到预设时序收敛条件时，迭代更新初始时序参数，执行通过所述初始三维神经网络对所述训练样本机械能所述图像时序特征提取，根据提取的所述图像时序特征输出初始向量矩阵组的步骤，直至所述时序损失值达到所述预设时序收敛条件，将收敛之后的所述初始三维神经网络记录为训练完成的三维卷积神经网络。

在一实施例中，如图4所示，所述步骤S30中，即所述通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组，包括：

S301，通过所述三维卷积神经网络对所述时序片段中的各个所述人脸图像进行所述图像时序特征提取，得到各所述人脸图像的特征向量矩阵；所述三维卷积神经网络为基于ResNet-V2的网络结构构建的网络。

可理解地，所述三维卷积神经网络为基于ResNet-V2(残差网络)的网络结构构建的网络，所述三维卷积神经网络只采用ResNet-V2的前三层的网络结构，即卷积层中的前三层，第一卷积层为7×7的卷积核进行卷积，第二卷积层为3×3卷积核进行残差结构方式的卷积，第三层卷积层为另一3×3卷积核进行残差方式的卷积，可提取出所述图像时序特征，并得到与预设尺寸相同的所述特征向量矩阵。

其中，残差结构方式为先通过一个1×1的卷积减少通道数，使得中间卷积的通道数减少为四分之一；中间通过普通卷积为各卷积层的卷积核做完卷积后输出通道数等于输入通道数；再通过一个卷积用于增加(恢复)通道数，使得输出通道数等于输入通道数。

S302，将所有所述特征向量矩阵汇总，得到所述特征向量矩阵组。

可理解地，将所有所述特征向量矩阵汇总成多层矩阵，即层层叠加方式汇总成多层相同维度的矩阵，将汇总后的所有所述特征向量矩阵标记为所述特征向量矩阵组。

本发明实现了通过所述三维卷积神经网络对所述时序片段中的各个所述人脸图像进行所述图像时序特征提取，得到各所述人脸图像的特征向量矩阵；将所有所述特征向量矩阵汇总，得到所述特征向量矩阵组，如此，能够自动提取出所述人脸图像中具有图像时序特征的特征向量矩阵，从而获得特征向量矩阵组，为后续的微表情识别提高了识别准确率。

S40，获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量。

可理解地，所述区域关联矩阵组为通过训练完成的图神经网络模型获得的矩阵组，所述区域关联矩阵组能够反映人脸中各个节点区域之间的连续的关联关系，所述区域关联矩阵组和所述特征向量矩阵组的尺寸相同，即所述区域关联矩阵组和所述特征向量矩阵组的尺寸与所述预设尺寸相同，将所述区域关联矩阵组和所述特征向量矩阵组融合的过程为将所述区域关联矩阵组和所述特征向量矩阵组进行点乘处理，采对点乘后的矩阵进行格式的对齐，即池化处理得到统一格式的向量过程，从而得到所述待分类向量，所述待分类向量包括了多个对齐后的多个向量矩阵。

在一实施例中，所述步骤S40之前，即所述获取通过图神经网络模型训练完成的区域关联矩阵组之前，包括：

获取视频样本集；所述视频样本集包括多个视频样本，一个所述视频样本与一个时序标签和一个微表情标签。

可理解地，所述视频样本集为所述视频样本的集合，所述视频样本为含有人脸的微表情和普通表情的视频片段，一个所述视频样本与一个时序标签和一个微表情标签，所述时序标签为与其对应的所述视频样本中出现微表情的时间段范围的标签，例如：一段1分钟的视频样本，从36秒至40秒出现微表情，则标记的时序标签为36秒起40秒止，所述微表情标签为微表情的类别。

将所述视频样本输入含有初始参数的图神经网络模型。

可理解地，所述图神经网络模型为将卷积运算从传统数据推广到图数据，所述图数据为图像中的像素点之间的关联关系的数据，所述图神经网络模型的目的是学习一个函数映射图，通过该函数映射图对原像素点进行聚合自身的特征与其自身的邻居特征来生成该像素点的新表示的模型，通过所述图神经网络模型能够学习识别出所述视频样本中的各帧的图像中各像素点与相邻的像素之间关联的特征，以及各帧的图像之间的像素变化关系的特征，通过学习所述视频样本中的各帧的图像中各像素点与相邻的像素之间关联的特征，以及各帧的图像之间的像素变化关系的特征能够进行微表情帧识别，以识别出各帧图像是否为微表情。

通过所述图神经网络模型对所述视频样本进行微表情帧识别，得到时序样本结果。

可理解地，所述微表情帧识别为对所述视频样本中的各帧图像之间的表情变化进行判断是否为微表情变化的过程，所述时序样本结果体现了所述视频样本中的哪些帧属于微表情以及从所述视频样本中提取出识别出属于微表情的图像的结果。

对所述时序样本结果进行区域关联特征构建，构建出区域关联初始矩阵，以及进行微表情预测，得到区域关联初始矩阵和样本识别结果。

可理解地，对所述时序样本结果中的识别出属于微表情的图像进行所述区域关联特征构建，所述区域关联特征构建为对输入的图像中的各个人脸重点区域进行预测出分类标签条件概率构建的过程，所述人脸重点区域为人脸中对于微表情的识别具有重要区分或者分类的区域，例如：嘴角、眉边、眼睛开合区域等等，并根据构建的所述区域关联初始矩阵对所述时序样本结果中的图像进行微表情预测，得到样本识别结果，所述微表情预测为根据构建的所述区域关联初始矩阵对区域之间的连接关系预测出微表情的类别的过程，所述样本识别结果表征了与所述时序样本结果对应的所述视频样本的微表情的类别。

运用交叉熵损失函数，根据所述时序标签、所述微表情标签、所述时序样本结果和所述样本识别结果，得到损失值。

可理解地，将所述时序标签、所述微表情标签、所述时序样本结果和所述样本识别结果输入所述交叉熵损失函数中，通过所述交叉熵损失函数计算出所述损失值，通过所述损失值可以体现所述时序标签与所述时序样本结果之间的差距以及所述微表情标签与所述样本识别结果之间的差距。

在所述损失值未达到预设的收敛条件时，迭代更新所述图神经网络模型中的初始参数，直至所述损失值达到所述收敛条件，将收敛之后的所述图神经网络模型中构建的所述区域关联初始矩阵记录为训练完成的区域关联矩阵组。

可理解地，在所述损失值未达到预设的收敛条件时，通过迭代更新所述图神经网络模型中的初始参数以不断训练学习，所述收敛条件可以为所述损失值经过了20000次计算后值为很小且不会再下降的条件，即在所述损失值经过20000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的所述图神经网络模型中构建的所述区域关联初始矩阵记录为训练完成的区域关联矩阵组，也即训练完成所述图神经网络模型；所述收敛条件也可以为所述损失值小于设定阈值的条件，即在所述损失值小于设定阈值时，停止训练，并将收敛之后的所述图神经网络模型中构建的所述区域关联初始矩阵记录为训练完成的区域关联矩阵组，也即训练完成所述图神经网络模型。

如此，本发明实现了通过图神经网络训练的方法，构建出区域关联矩阵组，能够提供人脸中的重要区域之间的连接关联关系，为后续的微表情识别提高了准确性和可靠性。

在一实施例中，所述步骤S40中，即所述将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量，包括：

将所述区域关联矩阵组和所述特征向量矩阵组进行点乘处理，得到融合矩阵。

可理解地，所述点乘处理为矩阵之间的点乘计算方法，将所述区域关联矩阵组和所述特征向量矩阵组进行矩阵之间的点乘计算，输出所述融合矩阵。

对所述融合矩阵进行格式对齐处理，得到所述待分类向量。

可理解地，采用一个全局池化(global space-time pooling)操作将所述融合矩阵按照微表情分类的输出格式做一个统一操作的过程，即池化过程，对所述融合矩阵中的各个向量值进行全局池化操作，达到格式上的对齐，将池化后的所述融合矩阵记录为所述待分类向量。

如此，通过点乘处理和格式对齐处理，能够方便后续的微表情识别，提高微表情识别的效率。

S50，对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果。

可理解地，对所述待分类向量进行所述微表情识别，所述微表情识别为从空间维度、时间维度和人脸中重点区域之间的关联关系进行识别的过程，从而得到所述微表情结果，所述微表情结果表征了所述待识别视频中的人脸的细微变化体现微表情的类别。

本发明实现了通过实时获取待识别视频；通过对所述待识别视频进行人脸时序提取，得到时序片段；通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组；获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量；对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果，如此，能够通过三维卷积神经网络从空间维度和时间维度，以及通过体现人脸中重点区域之间的关联关系的区域关联矩阵组，自动识别出待识别视频中的人物的微表情类别，由于采用简单的神经网络结构以及图卷积神经网络，并构建端到端的基于数据驱动的方法，有效降低对设备的硬件依赖程度，以及降低设计难度，大大降低硬件门槛和开发人员的门槛，提高了微表情识别的准确率和质量，提升了整个微表情识别开发的效率，节省了成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于视频的微表情识别装置，该基于视频的微表情识别装置与上述实施例中基于视频的微表情识别方法一一对应。如图5所示，该基于视频的微表情识别装置包括获取模块11、第一提取模块12、第二提取模块13、融合模块14和识别模块15。各功能模块详细说明如下：

获取模块11，用于实时获取待识别视频；

第一提取模块12，用于通过对所述待识别视频进行人脸时序提取，得到时序片段；

第二提取模块13，用于通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组；

融合模块14，用于获取通过图神经网络模型训练完成的区域关联矩阵组，并将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量；

识别模块15，用于对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果。

关于基于视频的微表情识别装置的具体限定可以参见上文中对于基于视频的微表情识别方法的限定，在此不再赘述。上述基于视频的微表情识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频的微表情识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于视频的微表情识别方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于视频的微表情识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的微表情识别方法，其特征在于，包括：

实时获取待识别视频；

通过对所述待识别视频进行人脸时序提取，得到时序片段；

对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果；

所述通过对所述待识别视频进行人脸时序提取，得到时序片段，包括：

通过预设的时域插值模型对所述待识别视频进行插值处理，得到待处理片段；所述插值处理过程为把图像序列映射到低维流形上并进行插值，再重新映射到原空间的过程；

通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像；

将所有所述人脸图像按照时序拼接，得到时序片段；所述待处理片段中的时序通过从所述待识别视频中继承，其中，继承指的是标记有时间顺序标识，通过该时间顺序标识可以查看该人脸图像在所述待识别视频中的位置，按照继承的时间顺序标识可以按照时间顺序拼接各个所述人脸图像，从而得到所述时序片段；

所述通过三维卷积神经网络对所述时序片段进行图像时序特征提取，得到特征向量矩阵组，包括：

通过所述三维卷积神经网络对所述时序片段中的各个人脸图像进行所述图像时序特征提取，得到各所述人脸图像的特征向量矩阵；所述三维卷积神经网络为基于ResNet-V2的网络结构构建的网络；所述三维卷积神经网络为基于ResNet-V2的网络结构构建的网络，所述三维卷积神经网络采用ResNet-V2的前三层的网络结构，为卷积层中的前三层，第一卷积层为7×7的卷积核进行卷积，第二卷积层为3×3卷积核进行残差结构方式的卷积，第三层卷积层为另一3×3卷积核进行残差方式的卷积，可提取出所述图像时序特征，并得到与预设尺寸相同的所述特征向量矩阵；

将所有所述特征向量矩阵汇总，得到所述特征向量矩阵组。

2.如权利要求1所述的基于视频的微表情识别方法，其特征在于，所述通过预设的时域插值模型对所述待识别视频进行插值处理，得到待处理片段，包括：

通过所述时域插值模型运用时域插值算法，对所述待识别视频进行插帧平滑处理，得到视频流；

3.如权利要求1所述的基于视频的微表情识别方法，其特征在于，所述通过人脸区域检测模型，对所述待处理片段进行人脸识别，得到多个人脸图像，包括：

通过所述人脸区域检测模型对所述待处理片段进行分帧处理，得到多个待识别图像；所述人脸区域检测模型为基于YOLO构建的目标检测模型；

通过所述人脸区域检测模型对各所述待识别图像进行人脸特征提取，得到各所述待识别图像的识别结果；

4.如权利要求1所述的基于视频的微表情识别方法，其特征在于，所述获取通过图神经网络模型训练完成的区域关联矩阵组之前，包括：

获取视频样本集；所述视频样本集包括多个视频样本，一个所述视频样本与一个时序标签和一个微表情标签；

将所述视频样本输入含有初始参数的图神经网络模型；

通过所述图神经网络模型对所述视频样本进行微表情帧识别，得到时序样本结果；

对所述时序样本结果进行区域关联特征构建，构建出区域关联初始矩阵，以及进行微表情预测，得到区域关联初始矩阵和样本识别结果；

运用交叉熵损失函数，根据所述时序标签、所述微表情标签、所述时序样本结果和所述样本识别结果，得到损失值；

5.如权利要求1所述的基于视频的微表情识别方法，其特征在于，所述将所述区域关联矩阵组和所述特征向量矩阵组融合，得到待分类向量，包括：

将所述区域关联矩阵组和所述特征向量矩阵组进行点乘处理，得到融合矩阵；

对所述融合矩阵进行格式对齐处理，得到所述待分类向量。

6.一种基于视频的微表情识别装置，其特征在于，包括：

获取模块，用于实时获取待识别视频；

识别模块，用于对所述待分类向量进行微表情识别，得到与所述待识别视频对应的微表情结果；

将所有所述特征向量矩阵汇总，得到所述特征向量矩阵组。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于视频的微表情识别方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于视频的微表情识别方法。