CN113869276A

CN113869276A - 基于微表情的谎言识别方法及系统

Info

Publication number: CN113869276A
Application number: CN202111205155.5A
Authority: CN
Inventors: 曹叶文; 周冠群; 耿频永; 蒋友军; 陈海波; 邢红波
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2021-12-31
Anticipated expiration: 2041-10-15
Also published as: CN113869276B

Abstract

本发明公开了基于微表情的谎言识别方法及系统，包括：获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；针对同一个动作单元下的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有的动作融合特征进行依次串联，得到融合后的一维信号特征；基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果。能够精确识别谎言结果。

Description

基于微表情的谎言识别方法及系统

技术领域

本发明涉及信息处理以及机器学习技术领域，特别是涉及基于微表情的谎言识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

欺骗是一种隐瞒真相以误导他人或隐藏信息的行为，在人类存在时就被观察到。一个人一生倾向于在各种情况下进行欺骗。进行的欺骗可能是低风险或高风险。某些欺骗可能不会带来严重的后果，但某些欺骗行为可能会造成严重后果，如有人试图通过出示错误的身份证件误导移民官员的行为。尽管移民官员受过专业训练以识别出进行欺骗的人，但正如Depaulo等人所指出的那样，通常人检测欺骗的能力是有限的。

在远古时代，语言和非语言欺骗检测线索被确定来区分谎言和真实。由于欺骗是很难被识别的，因为某些欺骗检测线索没有引起注意，因此在后来，各种欺骗检测技术(包括测谎仪，功能磁共振(fMRI))应运而生。测谎仪是一种流行的方法之一，用于通过物理附着各种传感器来记录体内发生的生理变化来识别欺骗者。而在某些情况下，使用测谎仪方法很不方便，因为它需要将传感器物理附着到身体上，并且需要人工对问卷进行控制设置，以决定人的欺骗行为。而且，测谎仪方法容易出错，结果有偏差。

早期欺骗检测工作已经探索了使用语言和非语言特征以及新的公开可用数据集进行自动欺骗检测的方法。使用词袋提取语言特征，使用MUMIN编码方案提取非语言特征。对这三个不同特征进行的分析提供了72％的分类精度。Wu等人提出了一种使用多种模态的自动欺骗检测技术。使用IDT(改进的密集轨迹)提取包含视频中微表情的运动特征，使用MFCC提取音频特征，使用Glove提取文本特征。与单模态技术相比，多模态数据集上的分类准确性提高了性能。Krishnamurthy等人提出了一种基于深度学习的多模态欺骗检测技术，该技术使用3D-CNN进行视频特征提取。除此之外，使用卷积神经网络(CNN)提取文本数据，并使用openSMILE工具包提取具有高维特征的音频特征。最后，将包括微表情特征在内的所有特征融合在一起，获得了70.19％的识别精度。Su等人提出了一种基于二维外观的方法来区分三维面部特征，包括嘴巴动作，眨眼，皱纹出现和眉毛动作等微表情。在他们的私人数据库上，它们已经达到了66.92％的识别准确率。Venkatesh等人在多模态欺骗检测方面的最新工作上利用了微表情的特征。除此之外，通过对音频信号进行窗口化，使用梅尔滤波倒谱系数提取音频特征，并使用N-gram袋提取文本特征。最后，将这三种模式在决策级别上融合在一起，以做出最终决策，该决策显示出77％的识别性能。因此，基于欺骗检测的可用工作，可以注意到：(1)多模态信息的使用将有助于达到鲁棒的欺骗检测性能；(2)与人工的欺骗检测方法相比，使用非语言行为的自动欺骗检测技术表明具有更好的性能。

传统的自动欺骗检测系统具有以下问题：

①专注于一个非常短的欺骗视频中的单一欺骗行为；

②仅关注正面图像或具有轻微姿势变化的图像；

③输入模型的特征含有背景噪声和不重要特征的风险。

发明内容

为了解决现有技术的不足，本发明提供了基于微表情的谎言识别方法及系统；

第一方面，本发明提供了基于微表情的谎言识别方法；

基于微表情的谎言识别方法，包括：

获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；

对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；

针对同一个动作单元下的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有的动作融合特征进行依次串联，得到融合后的一维信号特征；

基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果。

第二方面，本发明提供了基于微表情的谎言识别系统；

基于微表情的谎言识别系统，包括：

获取模块，其被配置为：获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；

特征提取模块，其被配置为：对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；

特征融合模块，其被配置为：针对同一个动作单元下的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有动作单元的动作融合特征进行依次串联，得到融合后的一维信号特征；

谎言识别模块，其被配置为：基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

本发明是基于微表情的谎言识别方法，所提出的基于区域的微表情AU强度特征提取网络模型，可以在具有不同人脸姿势的人脸图像中同时检测AU的出现并估计它们的强度。网络可以通过多任务损失函数进行优化，同时可以学习AU之间的关系。此外，加入的人脸姿势信息可以改进微表情特征表示。所提出的谎言识别网络模型使用一维AU信号作为输入，是一个网络简单、模块化且功能强大的模型，该模型在实践中表现非常出色。因此具有良好的应用前景。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是实施例一的总流程图；

图2是实施例一的基于区域的微表情AU强度特征提取模型网络连接示意图；

图3是实施例一的基于微表情AU强度的谎言识别模型网络连接示意图；

图4(a)～图4(h)是实施例一的AU的示意图；

图5是实施例一的区域卷积网络模块结构图；

图6(a)～图6(c)是实施例一的空洞卷积示意图；

图7(a)～图7(b)是实施例一的训练误差和测试误差示意图；

图8是实施例一的残差学习单元；

图9是实施例一的人脸姿势估计的混淆矩阵示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

由于微表情并不是在整个人脸上出现，而是发生在人脸局部区域，则使用基于区域的微表情AU强度特征提取网络模型获取到每一帧图像的6个AU强度值，然后将一个图像序列获得的所有6个面部动作单元(FAU)强度值的一维向量按通道连接组成一个6通道的一维信号，将组成的结果作为谎言识别模型的输入，最终获得谎言识别结果。通过使用更高级别的输入，而不是原始视频，本申请能够训练一个概念简单、模块化和强大的模型，在基于视频的欺骗检测中实现最先进的性能。所提出的方法的高准确率使得该模型可以克服对多模态信息的需求，对于仅需要视频的各种现实应用更加可靠。

实施例一

本实施例提供了基于微表情的谎言识别方法；

基于微表情的谎言识别方法，包括：

S101：获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；

S102：对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；

S103：针对同一个动作单元的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有动作单元的动作融合特征进行依次串联，得到融合后的一维信号特征；

S104：基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果。

进一步地，所述S101：获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；具体包括：

使用dlib人脸检测器检测当前帧图像的人脸，返回人脸矩形框坐标。

进一步地，S102：对人脸表情图像序列中的每一帧人脸图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；具体包括：

采用训练后的特征提取网络，对人脸表情图像序列中的每一帧人脸图像进行特征提取，提取出每一帧人脸图像的6个动作单元的强度值。

进一步地，所述每一帧人脸图像的6个动作单元，包括：

AU01：内侧眉毛提起；AU04：眉毛降下；AU06：面颊提起；AU10：上嘴唇提起；AU12：拉动嘴角；和AU14：挤出酒窝。

进一步地，所述特征提取网络，其网络结构包括：第一分支、第二分支和第三分支；

其中，第一分支，包括：依次连接的卷积层a1、批标准化层p1、区域卷积网络模块、加法器、批标准化层p2、池化层c1、卷积层a2、全连接层FC2、全连接层FC4和输出层；其中，卷积层a1还与加法器连接；

其中，第二分支，包括：全连接层FC1，全连接层FC1与softmax函数层连接，softmax函数层与输出层连接；全连接层FC1还与卷积层a2连接；

其中，第三分支，包括：全连接层FC3，全连接层FC3与输出层连接，全连接层FC3还与全连接层FC2连接。

其中，区域卷积网络模块使用的是DRML(Deep Region and Multi-labelLearning)中提出的区域层，其包括：Patch clipping模块；

Patch clipping模块将160×160输入图均匀地切成8×8个局部区域。对于每一个局部区域使用相同的处理步骤，即：先使用批标准化(BN)对每个小批次进行标准化，然后通过ReLU传递到卷积层进行卷积，最后与原始的patch相加作为该局部区域的最终输出，处理后的局部区域处在原始的图像位置处，经过区域层的图像输出的大小与原始的输入图像大小一致。

其中，第一分支，用于进行人脸动作特征强度估计，第二分支，用于人脸动作特征检测；第三分支，用于进行人脸姿势估计。

进一步地，所述特征提取网络，其训练步骤包括：

构建第一训练集；所述第一训练集，包括：人脸动作特征标签、人脸动作特征强度标签和人脸姿势标签的人脸图像；

将第一训练集，输入到特征提取网络中，对网络进行训练，当总损失函数值不再下降时，停止训练；得到训练后的特征提取网络；

其中，总损失函数，为人脸动作特征检测损失函数、人脸动作特征强度估计损失函数和人脸估计损失函数的求和结果。

所述人脸动作特征，例如是指内侧眉毛提起；眉毛降下；面颊提起；上嘴唇提起；拉动嘴角；和挤出酒窝；

所述人脸动作特征强度标签，例如是指动作幅度大小。

所述人脸姿势标签，例如是指仰头、低头、歪头。

其中，总损失函数为L，如公式(1)所示：

L＝λ₁L1+λ₂L2+λ₃L3 (1)

其中，λ₁＝λ₂＝1和λ₃＝0.5，权重λ₁、权重λ₂和权重λ₃的不同在于网络重点是人脸动作特征检测和强度估计，而人脸姿势估计只是一种补充。

人脸动作特征检测的多标签损失函数L1，如公式(2)所示：

其中，N为一批次的图像数量，

为预测值，y为真实值。

人脸动作特征强度也可能同时出现，所以，将人脸动作特征强度估计建模为一个多输出回归问题。

为了进行多输出回归，强度估计的网络输出是一个有6个单元的全连接层，该层使用sigmoid激活函数将输出压缩为[0,1]。人脸动作特征强度估计的多输出回归损失函数L2如公式(3)所示：

其中，N为一批次的图像数量，

为预测值，y为真实值，且

和y为长度为6的一维向量。

人脸姿势估计是一个多分类问题。为了进行多分类，人脸姿势估计的网络将输出有9个单元的全连接层后面添加一个softmax层，得到当前图像属于不同人脸姿势的概率。

人脸姿势估计的多分类softmax交叉熵损失函数L3，如公式(4)所示：

其中，N为一批次的图像数量，

为预测值，y为真实值。

将人脸姿势信息添加到多任务损失函数中作为网络优化的约束，推动网络学习更好的特征表示。与需要为每个AU分别建立模型的方法不同的是，所提出的网络模型同时学习到所有AU的出现概率和强度级别。

进一步地，S103：针对同一个动作单元下的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有的动作融合特征进行依次串联，得到融合后的一维信号特征；具体包括：

S1031：将每一个动作特征在图像序列中获取到的所有的强度值组成一个一维向量；

S1032：将6个动作特征，对应的6个一维向量进行通道连接。

所述S1031的具体步骤为：每个视频v⁽ⁱ⁾实际上是一个大小为T×3×H×W的张量，其中T是一个视频的图像数量，3是通道数，H是图像高度，W是图像宽度。由S102可以获取到第i个图像序列每一个帧图像的6个AU的强度值。针对单个AU，在该图像序列中含有T个强度值，可以形成一个长度为T的一维向量。6个AU共获得6个一维向量。

所述S1032的具体步骤为：由S1031获取到的第i个图像序列的6个一维向量，按照公式(5)进行通道连接：

其中，i对应第i个图像序列，N＝6，即对应6个AU，

对应第i个图像序列的第j个AU对应的一维向量，且一维向量长度为T。最终组成一个大小为1×N×T的一维信号。

进一步地，S104：基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果；具体包括：

采用训练后的谎言识别模型，进行谎言识别，得到谎言识别结果。

进一步地，所述谎言识别模型，其网络结构包括：

依次连接的卷积层b1、批标准化层p3、全连接层FC5、第一空洞卷积模块、dropout层、激活函数层、批标准化层p4、第二空洞卷积模块、加法器、池化层、全连接层FC6和输出层；

其中，全连接层FC5通过卷积层b2与加法器连接。

在深度网络中为了增加感受野且降低计算量，总要进行降采样的方式，这样虽然可以增加感受野，但空间分辨率降低了。为了能不丢失分辨率，且仍然扩大感受野，可以使用空洞卷积。空洞卷积的作用是在不使用池化层的前提下既能扩大感受野(ReceptiveField)，同时又不会损失图像空间的分辨率。理论上，越深的网络，效果应该更好；但实际上，由于训练难度，过深的网络会产生退化问题，效果反而不如相对较浅的网络。而残差网络就可以解决退化问题的，残差网络越深，训练集上的效果会越好。

进一步地，所述谎言识别模型，其训练步骤包括：

构建第二训练集；所述第二训练集，包括：已知撒谎标签或未撒谎标签的一维信号特征；

将第二训练集，输入到谎言识别模型中，进行训练，当谎言识别模型的损失函数值不再下降时，停止训练，得到训练后的谎言识别模型。

进一步地，谎言识别模型的损失函数，为交叉熵损失函数L4，如公式(6)所示：

其中：N为一批次的图像序列数量，

为预测值，y为真实值。

将6个一维向量组成的大小为1×N×T的信号输入到谎言识别网络模型中去，以进行谎言检测。

训练基于微表情的谎言识别网络，并对其性能进行综合测评，评价标准为：F1-Score，ICC，混淆矩阵以及ACC。

为此，本申请提出了一种新颖的欺骗检测系统来检测视频中的欺骗行为。由于此系统的输入包含人脸图像，因此面部建模可以提供非常有用的线索特征。欺骗检测模型实际上为二进制视频分类。本申请应该为一个人表现出欺骗行为的视频预测为1，为一个人表现出真实行为的视频预测为0。

根据人际欺骗理论，欺骗是一个动态的过程，在这个过程中，欺骗者根据自己认为被他人怀疑的程度来调整自己的行为。出于这个原因，本申请认为仅关注单一欺骗行为的短视频剪辑的数据集是不足以对欺骗行为进行建模的。

为了解决这个问题，本申请使用了一个真实庭审现场的多模态谎言数据集来进行欺骗检测。该数据集包含121个法庭审判视频片段，其中61个是欺骗性的审判片段，60个是真实的审判片段。数据集中的研究对象是21名女性和35名男性，年龄在16至60岁之间。

尽管已经出现了多种面部表情分析方法，但它们仅关注正面图像或具有轻微姿势变化的图像。而处理非正面人脸图像至关重要，例如，从不受约束的环境中获得的人脸图像，人脸的姿势不一定是正面的，对其进行动作特征AU检测和强度估计有一定难度。因此本申请设计的网络模型也考虑了人脸姿势信息，并作为网络优化的约束，推动网络学习更好的特征表示。

研究表明，当人们交流时，非语言线索，尤其是面部，比语言线索传递更多的社会意义。面部表情可以传达很多关于一个人的身体和情绪状态的信息。人们依靠面部表情来“收集”互动过程中有意和无意的含义。为了研究面部表情，Paul Ekman等人开发了面部动作编码系统(FACS)。FACS是一个全面的，基于解剖学的系统，用于描述所有面部动作。在FACS中，AUs(ActionUnits)被定义为基本的面部运动，作为构建多种面部表情的基础。使用AU作为更高级别的特征表示，而不是输入视频的原始像素，原因为：由于欺骗检测数据集非常小，直接对原始视频进行操作会使得模型可能会过度拟合背景噪声，而本申请所选择的AU表示特征比原始视频更干净、更健壮，不会受到背景噪声的影响。此外，因为任何面部肌肉运动都可以分解为AU的组合，则所选的表示特征具有完整性。

本申请提出了一种基于区域的微表情AU强度特征提取网络模型，用于对具有不同人脸姿势的人脸面部图像执行AU检测和强度估计。然后对于本申请输入视频的每一帧图像，通过基于区域的微表情AU强度特征提取网络模型获得6个面部动作单元(FAU)的强度。之后，本申请按通道连接这6个AU的一维信号，并将组合的信号作为输入提供给本申请设计的谎言识别模型中去，并最终输出预测结果。

如图1所示，本发明使用the BP4D-Spontaneous Dataset训练和验证基于区域的微表情AU强度特征提取模型，使用the Real-Life Trial Dataset来训练和验证基于微表情AU强度的谎言识别模型，具体包括以下步骤。

步骤1.The BP4D-Spontaneous Dataset共有41名参与者(23名女性，18名男性)。他们的年龄在18-29岁之间，其中含有11名亚洲人，6名非裔美国人，4名西班牙裔美国人，20名欧洲裔美国人。每一个人诱发了8个不同情绪的视频，总共收集了328个视频。将该数据集按照3:1:1进行划分，其中训练集196个视频，验证集65个视频，测试集67个视频。该数据集本申请获取9种不同的人脸姿势，编码数字1-9，分别对应9个不同的人脸角度。该数据集对27个AU进行了编码，考虑到AU之间的相关性和网络的复杂性，针对AU检测，本申请分析了8个AU，分别为：AU01(内侧眉毛提起)、AU04(眉毛降下)、AU06(面颊提起)、AU07(绷紧眼睑)、AU10(上嘴唇提起)、AU12(拉动嘴角)、AU14(挤出酒窝)、AU17(下巴抬起)，编码数字0(缺失)或1(存在)；针对AU强度，本申请分析了6个AU，分别为：AU01(内侧眉毛提起)、AU04(眉毛降下)、AU06(面颊提起)、AU10(上嘴唇提起)、AU12(拉动嘴角)、AU14(挤出酒窝)，编码数字0-5，分别对应由低到高的不同的强度值。每一张人脸图像都被标注上真实的人脸姿势，AU存在和AU强度信息。所采用的AU的示意图如图4(a)～图4(h)。对单张图像进行分析：使用dlib人脸检测器检测当前帧图像的人脸，返回人脸矩形框坐标。

步骤2.将检测到的人脸输入到基于区域的微表情AU强度特征提取网络模型中去，该网络用于对具有多个人脸姿势的人脸面部图像执行动作单元(AU)检测和强度估计，最终获得6个AU的强度值。图2所示为基于区域的微表情AU强度特征提取模型网络连接示意图。

大多数深度学习文献利用标准卷积层来学习图像特征表示，并假设权重在整个图像中共享。然而，对于人脸图像，空间平稳性假设并不成立：人脸比自然图像更结构化，此外，AU并不是在整个人脸上表现，而是在局部区域发生，因此，不同的人脸区域遵循不同的局部统计。

基于此，Kaili Zhao等人提出区域学习方法来解决这个问题，该方法被用作本申请设计的基于区域的微表情AU强度特征提取网络模型的一个分支，即区域卷积网络模块，以处理由AU引起的局部外观变化。通过这一模块，可以学习到局部表示特征。

如图5所示，区域卷积网络模块结构图，包含三个组件：Patch clipping(补丁裁剪)，Local convolution(区域卷积)，和Addition(加法器)。

Local convolution学习捕捉局部外观变化，迫使每个patch中的学习权重独立更新。引入了Addition以及来自输入patch的“跳过连接”，这有助于避免在训练网络期间出现梯度消失问题。使用跳过连接也简化了学习假设：如果输入patch通过卷积处理后的输出不包含用于检测特定AU的有用信息，那么直接发送原始patch会带来有用的局部特征信息。总之，添加该区域层有助于保留含有特定AUs的面部区域。

不同于Kaili Zhao等人设计的区域层，本申请设计的区域层使用了5x5个局部区域。较少数量的区域表现更好。此外，由于人脸面部的移动会使得小区域获得的特征信息减少，则本申请选择区域面积大一些以补偿一些人脸错位带来的特征损失。

除了要考虑局部区域的特征，还要结合全局人脸特征，因为多个AU可能会共同出现，以及一个AU可能会导致其他AU的出现。因此，在与区域学习方法并行的分支中将卷积应用于整体人脸。

由于AU的共存性质，研究它们的关系可以帮助本申请进行AU检测。所以，将AU检测建模为多标签学习问题，并使网络能够通过多标签损失函数了解它们之间的关系。在这种情况下，网络的输出是一个有8个单元的全连接层，该层使用sigmoid激活函数将输出压缩为[0,1]。

步骤3.使用The Real-Life Trial Dataset来进行基于微表情AU强度的谎言识别模型。该数据集包含121个法庭审判视频片段，其中61个是欺骗性的审判片段，60个是真实的审判片段。数据集中的研究对象是21名女性和35名男性，年龄在16至60岁之间。对每一个视频分帧后进行采样，将每一个图像序列限制在200个帧图像。将该数据集按照3:1:1进行划分，其中训练集73个图像序列，验证集24个图像序列，测试集24个图像序列。

每个图像序列v⁽ⁱ⁾实际上是一个大小为T×3×H×W的张量。其中T是一个视频的图像数量，3是通道数，H是图像高度，W是图像宽度。由步骤1和步骤2可以获取到第i个图像序列每一个帧图像的6个AU的强度值。针对单个AU，在该图像序列中含有T个强度值，可以形成一个长度为T的一维向量。6个AU共获得6个一维向量。

步骤4.由步骤3获取到的第i个图像序列的6个一维向量，按照公式(7)进行通道连接：

其中i对应第i个图像序列，N＝6，即对应6个AU，

步骤5.将当前图像序列的大小为1×N×T的一维信号输入到谎言识别网络模型中去，以进行谎言检测。图3所示是基于微表情AU强度的谎言识别模型网络连接示意图。

空洞卷积(atrous convolutions)又名扩张卷积(dilated convolutions)，是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。利用空洞卷积扩大感受野，让原本3x3的卷积核，在相同参数量和计算量下拥有5x5(dilatedrate＝2)或者更大的感受野，从而无需下采样。空洞卷积(atrous convolutions)向卷积层引入一个称为“扩张率(dilation rate)”的新参数，该参数定义了卷积核处理数据时各值的间距。换句话说，相比原来的标准卷积，扩张卷积(dilated convolution)多了一个超参数称之为dilation rate(扩张率)，指的是卷积核各点之间的间隔数量，间隔添0，正常卷积层的dilatation rate为1。空洞卷积示意图，如图6(a)～图6(c)所示。图6(a)对应dilatation rate＝1的3x3卷积核，感受野为3x3；图6(b)对应dilatation rate＝2的3x3卷积核，感受野为5x5；图6(c)对应dilatation rate＝4的3x3卷积核，感受野为15x15。

在深度神经网络训练中，从经验来看，随着网络深度的增加，模型理论上可以取得更好的结果。但是实验却发现，深度神经网络中存在着退化问题。

如图7(a)～图7(b)所示，56层的网络比20层网络效果还要差。

上面的现象与过拟合不同，过拟合的表现是训练误差小而测试误差大，而上面的图片显示训练误差和测试误差都是56层的网络较大。

深度网络的退化问题至少说明深度网络不容易训练。假设这样一种情况，56层的网络的前20层和20层网络参数一模一样，而后36层是一个恒等映射(identity mapping)，即输入x输出也是x，那么56层的网络的效果也至少会和20层的网络效果一样，因此本申请在训练深层网络时，训练方法存在的一定的缺陷。

基于上面的假设，需要残差网络ResNet来解决退化问题。

ResNet中的残差学习单元，如图8所示。

对于一个堆积层结构(几层堆积而成)当输入为x时其学习到的特征记为H(x)，现在本申请希望其可以学习到残差F(x)＝H(x)-x，这样其实原始的学习特征是F(x)+x。当残差为0时，此时堆积层仅仅做了恒等映射，至少网络性能不会下降，实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。

步骤6.对于The BP4D-Spontaneous Dataset，AU检测的性能度量是F1-Score，它是召回率和精确率的调和平均值。对于单个AU的检测来说，召回率为R和精确率为P，其F1-Score计算如公式(8)所示：

其中TP是预测为正，实际为正的数量；FP是预测为正，实际为负的数量；TN是预测为负，实际为负的数量；FN是预测为负，实际为正的数量，F1-Score是P和R的调和平均数。对于F1-Score来说，值越大识别效果越好。

AU强度识别的性能度量是ICC，全称为intraclass correlation coefficient，即组内相关系数。它用于评价某一个AU的预测结果和真实结果之间的一致性或可靠性。

对于单个AU的强度识别来说，ICC计算如公式(9)所示：

其中

表示当前分析的AU在第i张图片上的预测强度值和真实强度值的平均值。k＝2，对应预测标签和真实标签这两个编码器，n对应图片数量。W和S分别是目标内均方和残差平方和。y_i为当前分析的AU在第i张图片上的实际强度值，

为预测强度值。

ICC值介于0～1之间。0表示不可信，1表示完全可信。一般认为信度系数低于0.4表示信度较差，大于0.75表示信度良好。ICC越大越好。

人脸姿势估计的性能度量是混淆矩阵。混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用矩阵形式来表示。混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。对角线上的数值越大，代表预测正确的数量越多，模型性能越好。为了方便观察，将数值限制在[0,1]范围内。

对于The Real-Life Trial Dataset来说谎言识别的性能度量为二分类准确率ACC，如公式(10)所示：

其中TP是预测为正，实际为正的数量；FP是预测为正，实际为负的数量；TN是预测为负，实际为负的数量；FN是预测为负，实际为正的数量。准确率越大识别效果越好。

表1基于区域的微表情AU强度特征提取模型参数表

参数	值
		学习率	0.005
优化器	Adam
		批量大小	200张图像
Dropout系数	0.25
		迭代次数	3000
weight_decay	0.1

表2基于微表情AU强度的谎言识别模型参数表

对比实验：基于区域的微表情AU强度特征提取模型相关实验：

本节描述了基于区域的微表情AU强度特征提取模型用于AU检测，AU强度估计以及人脸姿势估计的结果。

对于AU检测，其性能度量是F1-Score，将本申请设计的模型与当前先进的模型进行比较。比较对象包括：FERA 2017比赛中提供的基线数据；K Zhao等人设计的深度区域和多标签学习(DRML)，这是一个深度网络；WS Chu等人设计的MSTC，为面部空间和时间线索建模；OpenFace开源工具提供的数据，该工具是第一个能够进行面部标志检测、人脸姿势估计、面部动作单元识别和眼睛注视估计的开源工具。本申请观察到，本申请的方法在8个动作单元中有6个始终优于所有方法，与F1测量值相比平均提高了8％。这些AU主要分布在上面部和下面部。比较结果如表3所示：

表3 AU检测的F1-Score分数

AU	01	04	06	07	10	12	14	17	Mean
										FERA 2017Baseline	0.154	0.172	0.564	0.727	0.692	0.647	0.622	0.224	0.4752
DRML	0.364	0.430	0.550	0.670	0.663	0.658	0.541	0.480	0.5445
										MSTC	0.314	0.714	0.633	0.771	0.450	0.826	0.729	0.539	0.6220
OpenFace	0.246	0.216	0.572	0.675	0.666	0.673	0.576	0.321	0.4931
										本模型	0.534	0.558	0.792	0.782	0.831	0.884	0.666	0.620	0.7083

对于AU强度识别，其性能度量是ICC。本申请将其与FERA 2017基线数据和OpenFace数据进行比较。本模型在4个AU上的ICC分数最优，具有显著的优势。这种改进是联合学习方法的结果，可以将AUs的检测和强度识别联系起来。此外，本模型的测试结果中AU04的ICC得分最差，而AU12的ICC得分最好。这种情况可能是因为：AU04占据的面积小于AU12，并且显示的特征不太具有代表性。比较结果如表4所示：

表4 AU强度估计的ICC分数

AU	01	04	06	10	12	14	Mean
								FERA 2017Baseline	0.082	0.069	0.429	0.434	0.540	0.259	0.3021
OpenFace	0.239	0.057	0.420	0.508	0.540	0.250	0.3357
								本模型	0.228	0.095	0.702	0.710	0.732	0.104	0.4285

对于人脸姿势估计，其性能度量是混淆矩阵。从混淆矩阵中可以看出，本模型在姿势预测中获得了高精度分数，平均值为91.56％。如图9所示。

基于微表情AU强度的谎言识别模型相关实验：

对于谎言识别，评价标准为二分类准确率ACC。本申请将本方法与最新的方法进行比较。这些方法包括：Mimansa Jaiswal等人设计了一个数据驱动的方法，用于使用视觉和语言线索在现实试验数据中进行自动检测欺骗；V Pérezrosas等人使用从语言和视觉模式中提取和融合特征的模型进行欺骗检测；M Gogate等人提出了一种新颖的深度学习驱动的多模态融合，用于自动欺骗检测，首次将音频线索与视觉和文本线索结合起来；Z Wu等人提出了一种在真实法庭审判视频中进行隐蔽自动欺骗检测的系统，研究了视觉、音频和文本等不同模式对欺骗检测的重要性。这些方法大多数是多模态的。因此，为了在同等条件下与他们进行比较，本申请仅使用视觉线索来分析他们的结果。通过比较本申请观察到，本申请方法的ACC提高了至少3％。比较结果如表5所示：

表5谎言识别的二分类准确率ACC

模型	ACC(％)
		Mimansa Jaiswa	67.20
V Pérezrosas	74.40
		M Gogate	75.58
Z Wu	70.19
		本模型	78.13

综上所述，本发明的基于微表情的谎言识别方法，大大提高了谎言识别的性能。该方法不仅可以适用于不同人脸姿势的人脸图像，检测AU的出现并估计它们的强度，而且本申请展示了通过使用一维特征，本申请可以创建一个简单且易于训练的谎言识别模型，性能比以前的方法更好。

本发明的有益效果是：本发明是基于微表情的谎言识别方法。所提出的基于区域的微表情AU强度特征提取网络模型，可以在具有不同人脸姿势的人脸图像中同时检测AU的出现并估计它们的强度。网络可以通过多任务损失函数进行优化，同时可以学习AU之间的关系。此外，加入的人脸姿势信息可以改进微表情特征表示。所提出的谎言识别网络模型使用一维AU信号作为输入，是一个网络简单、模块化且功能强大的模型，该模型在实践中表现非常出色。因此具有良好的应用前景。

实施例二

本实施例提供了基于微表情的谎言识别系统；

基于微表情的谎言识别系统，包括：

特征提取模块，其被配置为：对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的不同动作单元的动作特征；

特征融合模块，其被配置为：针对同一个动作单元下的不同帧的动作特征，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有动作单元的动作融合特征进行通道连接，得到融合后的一维信号特征；

此处需要说明的是，上述获取模块、特征提取模块、特征融合模块和谎言识别模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于微表情的谎言识别方法，其特征是，包括：

2.如权利要求1所述的基于微表情的谎言识别方法，其特征是，获取待识别的人脸表情图像序列；对人脸表情图像序列中的每一帧图像进行人脸面部区域检测；具体包括：

3.如权利要求1所述的基于微表情的谎言识别方法，其特征是，对人脸表情图像序列中的每一帧人脸面部区域图像进行特征提取，提取出每一帧人脸图像的若干个动作单元的强度值；具体包括：

采用训练后的特征提取网络，对人脸表情图像序列中的每一帧人脸图像进行特征提取，提取出每一帧人脸图像的6个动作单元的强度值；

所述每一帧人脸图像的6个动作单元，包括：

4.如权利要求3所述的基于微表情的谎言识别方法，其特征是，所述特征提取网络，其网络结构包括：第一分支、第二分支和第三分支；

其中，第三分支，包括：全连接层FC3，全连接层FC3与输出层连接，全连接层FC3还与全连接层FC2连接；

5.如权利要求1所述的基于微表情的谎言识别方法，其特征是，针对同一个动作单元下的不同帧的强度值，按照图像帧的时间顺序进行拼接，得到当前动作单元的动作融合特征；同理，得到所有动作单元的动作融合特征；将所有的动作融合特征进行依次串联，得到融合后的一维信号特征；具体包括：

将每一个动作特征在图像序列中获取到的所有的强度值组成一个一维向量；

将6个动作特征，对应的6个一维向量进行通道连接。

6.如权利要求1所述的基于微表情的谎言识别方法，其特征是，基于融合后的一维信号特征，进行谎言识别，得到谎言识别结果；具体包括：

采用训练后的谎言识别模型，进行谎言识别，得到谎言识别结果；

所述谎言识别模型，其网络结构包括：

其中，全连接层FC5通过卷积层b2与加法器连接。

7.如权利要求6所述的基于微表情的谎言识别方法，其特征是，

所述谎言识别模型，其训练步骤包括：

8.基于微表情的谎言识别系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。