CN112861945B

CN112861945B - 一种多模态融合谎言检测方法

Info

Publication number: CN112861945B
Application number: CN202110118420.XA
Authority: CN
Inventors: 冯铃; 张慧君; 曹檑; 丁扬
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-05-13
Anticipated expiration: 2041-01-28
Also published as: CN112861945A

Abstract

本发明公开了一种多模态融合谎言检测方法，基于长短期记忆循环神经网络、前馈全连接神经网络和卷积神经网络，获取文本、视频和音频特征矩阵；接着基于每个问题的文本、视频和音频融合特征矩阵以及每个个体的问题之间的关联，获取问题间关联图神经网络；然后基于问题间关联图神经网络，获得图神经网络上每个问题结点的关联表达矩阵；最后基于每个问题结点的关联表达矩阵获取判断个体在该问题上是否说谎的分类向量。本发明适用于用于真实庭审或审讯情形下，处理比当前视频级别谎言检测更细粒度的问题级别的谎言检测问题。

Description

一种多模态融合谎言检测方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于多模态融合谎言检测方法。

背景技术

谎言在的日常生活中很常见。有些谎言不着边际，没有恶意。然而，有些谎言，如法庭上或刑事审判中的谎言，具有破坏性，对司法公正和社会安全产生不良影响。能否判断这些谎言，关系到正义和真理。因此，准确有效的欺骗检测可以为评估证词的真实性和审判的决定提供至关重要的支持。

已有的用于真实庭审或审讯情形下的谎言检测只关注于视频级别的谎言检测任务，即对于给定的视频片段给出检测结果，不管这个片段中包含一个还是多个审讯问题。然而，给出每个庭审问题的回答的真实性在现实庭审中是有必要的，而且同一个体在前后回答的表现也具有关联性，这种关联性应该被用于提升问题级别谎言检测的表现。

根据上面的描述可知，目前缺乏一种考虑个体前后回答表现的关联性的问题级别的谎言检测方法和装置。

发明目的

本发明的目的即在于针对现有技术中所存在的问题，提供一种多模态融合谎言检测方法。具体是针对问题级别的谎言检测任务，提供一种多模态融合谎言检测方法，实现将文本、视觉和音频模态的信息进行融合，同时通过图神经网络进行相同个体不同问题之间的关联学习，发掘出不同问题的个体行为的关联性从而提升谎言检测的表现。主要分为两个方面：1)文本、视觉、音频特征表达抽取与多模态融合；2)基于图神经网络的关联特征学习和谎言检测分类。

发明内容

本发明公开了一种多模态融合谎言检测方法，包括以下步骤：

步骤1、对于包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合，具体包括：

基于长短期记忆循环神经网络和前馈全连接神经网络，获取文本的谎言行为相关特征表达矩阵；

基于卷积神经网络和长短期记忆循环神经网络，获取视觉的谎言行为相关特征表达矩阵；

基于音频处理深度神经网络，获取音频的谎言行为相关特征表达矩阵；

基于所获取的文本、视觉、音频的谎言行为相关特征表达矩阵，获取多模态融合特征矩阵；

步骤2、基于图神经网络进行关联特征学习和谎言检测分类，具体包括：

基于步骤1所获取的多模态融合特征矩阵，获取全连通表示图，以每个用户的单个问题行为所对应的多模态融合特征矩阵作为节点；

基于所述全连通表示图和注意力机制，获取每个用户的单个问题行为所对应的表达矩阵；

基于所获取的每个用户的单个问题行为所对应的表达矩阵和前馈全连接神经网络，获取是否说谎的检测分类结果。

优选地，步骤1中所述获取文本的谎言行为相关特征表达矩阵，具体包括：

将文本抽象为含有n个单词的句子，用w＝{w₁，w₂，…，w_n}表示，通过预训练模型Bert，将文本w中每个单词编码为768维的词向量，即

用长短期记忆循环神经网络LSTM来获取序列中的文本信息，具体为，将词向量特征矩阵X输入LSTM层中，所述LSTM层为双向LSTM，通过正向和反向两个LSTM分别为每个词向量x_i生成一个隐状态

和

将这两个隐状态向量相加，并将n个隐状态拼接起来作为文本表示矩阵H，表示为如式(1)所示：

其中，

基于注意力机制，获取文本表示矩阵H中每个位置的单词的重要性权重，并通过对位相乘，将权重赋予文本表示矩阵，即重要性权重分布矩阵Ast，如式(2)、式(3)所示：

A_st＝softmax(w₁H+b₁) (2),

H′＝H×A_st+H (3),

其中，

表示重要性权重分布矩阵，

和

是可训练的参数向量，softmax是一种激活函数，

将H′从二维转变为一维向量,即

通过前馈全连接神经网络，得到文本特征表达矩阵F_T，如式(4)所示：

F_T＝ReLU(W₂H′+b₂) (4),

其中

和

是可训练的参数向量，ReLU是一种激活函数，

优选地，所述n＝20。

优选地，步骤1中所述获取视觉的谎言行为相关特征表达矩阵，具体包括：

将视频抽象为含有T个连续帧的图像序列，用V＝{frame₁，frame₂，…，frame_T}表示；

通过权重共享的预训练模型Resnet，为V中的每一个frame_i获取特征图，并在之后紧跟着用(2×2)的平均池化操作将特征图缩小，即，

将每一帧图像的特征图向量从3维将为1维,并将T个特征图拼接为一个矩阵,如式(5)、式(6)所示：

M′＝concat([M′₁，M′₂，…，M_T′]) (6),

其中

表示视频的特征图矩阵；

应用注意力机制关注在图像序列中对于判断是否说谎贡献更大的图像，并通过长短期记忆循环神经网络LSTM来学习视频中图像的时序变化；

应用注意力机制获取特征图矩阵中对于每个特征图的重要性分布，并通过对位乘法获取根据重要性分布重新分布权重的视频特征图矩阵

如式(7)、式(8)所示：

A_sv＝softmax(W₃M′+b₃) (7),

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

将视频特征图矩阵

输入到LSTM中，如式(9)所示：

其中，h_i和h_i-1分别表示第i和第i-1个特征图表达的隐向量，取最后序列中最后一个隐向量h_T作为视频的时序特征表达矩阵，

通过前馈全连接网络将h_T映射到F_T相同的维度空间中，如式(10)所示：

F_v＝ReLU(W₄h_T+b₄) (10)，

其中，

是视频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

优选地，所述T＝20。

优选地，步骤1中所述获取音频的谎言行为相关特征表达矩阵，具体包括：

将音频抽象为连续的声音信号序列，用A＝{a₁，a₂，…，a_L}表示；

使用预训练好的SincNet网络，从原始的声音信号中抽取特征表达，获取到D_A，如式(11)所示：

通过前馈全连接神经网络，将D_A映射到F_T相同的维度空间中，如式(12)所示：

F_A＝ReLU(W₅D_A+b₅) (12)，

其中，

是音频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

优选地，所述声音信号序列A中，L＝200。

优选地，步骤1中所述获取多模态融合特征矩阵，具体包括：

将所获取到的文本、视频和音频特征表达矩阵拼接到一起，获得多模态特征矩阵F_M′，如式(13)所示：

F_M′＝concat([F_T，F_V，F_A]) (13),

其中

通过注意力机制获取到多模态特征矩阵中不同特征的重要性贡献权重，并将权重通过对位相乘赋予多模态特征矩阵，得到多模态融合特征矩阵F_M，如式(14)、(15)所示：

A_mm＝softmax(W₆F_M′+b₆) (14),

F_M＝A_mm×F_M′+F_M′ (15),

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

是多模态融合特征矩阵。

优选地，步骤2中所述基于图神经网络进行关联特征学习，具体包括：

将用户个体的集合表示为O＝{o₁，o₂，…，o_m}，其中，

o_i是一个独立个体，每个独立个体包含对于若干个被询问的问题作出的回应，即

定义这个图神经网络为G(U，E)，其中，U表示问题节点的集合，

即，对于每一个问题节点，都属于O中的某一个个体；

每一个问题节点由该问题所对应的行为所获取的多模态融合特征矩阵表示，E表示边的集合，如果U中的任意两个节点满足u_i∈o_g并且u_j∈o_g(o_g∈O)，则e_ij＝1，e_ji＝1；

对问题u_i的表示向量

施加邻居影响，即同一个体对某一问题的表现会受其他问题的回应的影响，同时同一个体对不同问题的回应之间具有相似性；

通过一个全连接层，从

中找出任意问题u_i的表示向量的初始隐藏状态

如式(16)所示：

其中

是可训练的参数；

对于每个存在边的问题对(u_i，u_j)，将其表示向量

和

进行拼接，并用一个全连接层来获得注意力系数

如式(17)所示：

其中

是可训练的参数；

对于u_i∈o_g，获得了u_i的邻居注意力系数的向量

如式(18)所示：

其中，|o_g|是u_i相邻邻居的数量；

通过softmax函数获得每个邻居节点对问题u_i所施加的影响

如式(19)所示：

将

表示为

通过

更新u_i的隐藏状态为

如式(20)所示：

其中σ是一种激活函数sigmoid，

使用一层全连接网络获取节点问题的最终表达矩阵

如式(21)所示：

其中

是可训练的参数。

优选地，步骤2中所述基于图神经网络进行谎言检测分类，具体包括：

使用前馈全连接神经网络获取分类结果，如式(22)所示：

其中y₀，y₁表示对于问题u_i有或者没有产生欺诈行为，

是可训练的参数。

优选地，上述谎言检测方法用于真实庭审或审讯情形下的谎言检测。

附图说明

图1为本发明所述对包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合的示意图。

图2为本发明所述基于图神经网络的关联特征学习和谎言检测分类的流程图。

具体实施方式

以下结合附图详细阐述本发明所述的用于问题级别多模态融合的谎言检测方法。

本发明针对问题级别的谎言检测任务，提供一种多模态融合的方法，实现将文本、视觉和音频模态的信息进行融合，同时通过图神经网络进行相同个体不同问题之间的关联学习，发掘出不同问题的个体行为的关联性从而提升谎言检测的表现。主要分为两个步骤：1)文本、视觉、音频特征表达抽取与多模态融合；2)基于图神经网络的关联特征学习和谎言检测分类。

图1为本发明所述对包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合的示意图。如图所示，包括文本、视频、音频的谎言行为的相关特征被表达抽取为相应的矩阵，并多模态融合后获得多模态融合特征矩阵。

相关具体过程如下：

特征表达抽取与多模态融合

这一部分的目标是分别获取三种模态的特征表达矩阵以及三种模态的特征表达矩阵的融合。

1.文本特征表达抽取

在本发明中，n＝20。

为了从语义关联上学习说谎相关的文本特征表达，用长短期记忆循环神经网络LSTM来获取序列中的文本信息。除此以外，考虑到语句中不同单词对于检测结果的贡献不同，基于注意力机制来关注于更重要的单词。

首先，将词向量特征矩阵X输入LSTM层中，使用了双向LSTM，通过正向和反向两个LSTM可以分别为每个词向量x_i生成一个隐状态

和

将两个隐状态向量相加，并将n个隐状态拼接起来作为文本表示矩阵H

其中，

基于注意力机制，获取文本表示矩阵H中每个位置的单词的重要性权重，并通过对位相乘，将权重赋予文本表示矩阵：

A_st＝softmax(W₁H+b₁)

H′＝H×A_st+H

其中，

表示重要性权重分布矩阵，

和

是可训练的参数向量，softmax是一种激活函数，

将H′从二维转变为一维向量

通过前馈全连接神经网络，得到了文本特征表达矩阵F_T。

F_T＝ReLU[W₂H′+b₂)

其中

和

是可训练的参数向量，ReLU是一种激活函数，

2.视觉特征表达抽取

将视频抽象为含有T个连续帧的图像序列，用v＝{frame₁，frame₂，…，farme_T}表示。在本发明中，T＝20。首先通过权重共享的预训练模型Resnet，来为V中的每一个frame_i获取特征图，并在之后紧跟着用(2×2)的平均池化操作将特征图缩小，即，

将每一帧图像的特征图向量从3维将为1维并将T个特征图拼接为一个矩阵：

M′＝concat[[M′₁，M′₂，…，M_T′])

其中

表示视频的特征图矩阵。

为了建模视频中的时序信息，应用注意力机制去关注在图像序列中对于判断是否说谎贡献更大的图像，并通过长短期记忆循环神经网络LSTM来学习视频中图像的时序变化。

由于视频的特征图矩阵M′中包含每一个图像对应的特征图矩阵，因此首先应用注意力机制获取特征图矩阵中对于每个特征图的重要性分布，并通过对位乘法获取根据重要性分布重新分布权重的视频特征图矩阵

A_sv＝softmax(W₃M′+b₃)

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

视频特征图矩阵

输入到LSTM中：

最后，通过前馈全连接网络将h_T映射到F_T相同的维度空间中：

F_V＝ReLU(W₄h_T+b₄)

其中，

是视频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

3.音频特征表达抽取

将音频抽象为连续的声音信号的序列用A＝{a₁，a₂，…，a_L}表示。在本发明中L＝200。使用预训练好的SincNet网络从原始的声音信号中抽取特征表达，获取到

通过前馈全连接神经网络将D_A映射到F_T相同的维度空间中：

F_A＝ReLU(W₅D_A+b₅)

其中，

是音频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

4.特征表达矩阵融合

将上面获取到的文本、视频和音频特征表达矩阵拼接到一起，获得多模态特征矩阵F_M′：

F_M′＝concat([F_T，F_V，F_A])

其中

通过注意力机制获取到多模态特征矩阵中不同特征的重要性贡献权重，并将权重通过对位相乘赋予多模态特征矩阵，得到多模态融合特征矩阵F_M：

A_mm＝softmax(W₆F_M′+b₆)

F_M＝A_mm×F_M′+F_M′

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

是多模态融合特征矩阵。

图2为本发明所述基于图神经网络的关联特征学习和谎言检测分类的流程图，由图可见，对于上述所获得的多模态融合特征矩阵，基于图神经网络，进行关联特征学习和谎言检测分类，从而判断出个体是否说谎，该过程具体如下所述：

基于图神经网络的关联特征学习和谎言检测分类

这一部分的目标是通过构建图神经网络来学习不同问题对应的行为表现的关联性，并对是否说谎进行分类。

1.基于图神经网络的关联特征学习

首先描述如何构建问题图。将用户个体的集合表示为O＝{o₁，o₂，…，o_m}，其中，

o_i是一个独立个体，每个独立个体可能包含对于若干个被询问的问题作出的回应，即

定义这个图为G(U，E)，其中，U表示问题节点的集合，

即，对于每一个问题节点，都属于O中的某一个个体，这个问题节点由这个问题对应的行为所获取的多模态融合特征矩阵表示，E表示边的集合，如果U中的任意两个节点满足u_i∈o_g并且u_j∈o_g(o_g∈O)，那么e_ij＝1，e_ji＝1。

对问题u_i的表示向量

施加了邻居影响，即同一个体对某一问题的表现会受其他问题的回应的影响，同时同一个体对不同问题的回应之间具有相似性。考虑到不同问题对问题u_i回应的表现的不同影响，采用了相邻问题级别的注意力机制。

首先，通过一个全连接层，从

中找出任意问题u_i的表示向量的初始隐藏状态

其中

是可训练的参数。

对于每个存在边的问题对(u_i，u_j)，将其表示向量

和

进行拼接，并用一个全连接层来获得注意力系数

其中

是可训练的参数。

对于u_i∈o_g，通过上面这种方式，获得了ui的邻居注意力系数的向量：

其中，|o_g|是u_i相邻邻居的数量，并通过softmax函数来获得每个邻居节点对问题u_i所施加的影响：

将

表示为

通过

更新了u_i的隐藏状态为

最终，使用一层全连接网络来获取节点问题的最终表达矩阵

其中

是可训练的参数。

谎言检测分类

使用前馈全连接神经网络来获取分类结果：

其中y₀，y₁表示对于问题u_i有或者没有产生欺诈行为，

是可训练的参数。

本发明的有益效果

本发明通过构建问题关联的图神经网络，重新定义了现有谎言检测任务，考虑了相同个体在回答问题时的表现的关联性，同时通过多模态融合的方式，弥补了单数据源测谎的不足。

Claims

1.一种多模态融合谎言检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多模态融合谎言检测方法，其特征在于，步骤1中所述获取文本的谎言行为相关特征表达矩阵，具体包括：

和

其中，

A_st＝softmax(W₁H+b₁) (2)，

H′＝H×A_st+H (3)，

其中，

表示重要性权重分布矩阵，

和

是可训练的参数向量，softmax是一种激活函数，

将H′从二维转变为一维向量,即

F_T＝ReLU(W₂H′+b₂) (4)，

其中

和

是可训练的参数向量，ReLU是一种激活函数，

3.根据权利要求2所述的一种多模态融合谎言检测方法，其特征在于，所述n＝20。

4.根据权利要求3所述的一种多模态融合谎言检测方法，其特征在于，步骤1中所述获取视觉的谎言行为相关特征表达矩阵，具体包括：

将每一帧图像的特征图向量从3维降为1维,并将T个特征图拼接为一个矩阵,如式(5)、式(6)所示：

M′＝concat([M′₁，M′₂，…，M_T′]) (6),

其中

表示视频的特征图矩阵；

如式(7)、式(8)所示：

A_sv＝softmax(W₃M′+b₃) (7),

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

将视频特征图矩阵

输入到LSTM中，如式(9)所示：

F_V＝ReLU(W₄h_T+b₄) (10)，

其中，

是视频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

5.根据权利要求4所述的一种多模态融合谎言检测方法，其特征在于，所述T＝20。

6.根据权利要求5所述的一种多模态融合谎言检测方法，其特征在于，步骤1中所述获取音频的谎言行为相关特征表达矩阵，具体包括：

F_A＝ReLU(W₅D_A+b₅) (12)，

其中，

是音频特征表达矩阵，

和

是可训练的参数向量，ReLU是一种激活函数。

7.根据权利要求6所述的一种多模态融合谎言检测方法，其特征在于，所述声音信号序列A中，L＝200。

8.根据权利要求7所述的一种多模态融合谎言检测方法，其特征在于，步骤1中所述获取多模态融合特征矩阵，具体包括：

F_M′＝concat([F_T，F_V，F_A]) (13)，

其中

A_mm＝softmax(W₆F_M′+b₆) (14)，

F_m＝A_mm×F_M′+F_M′ (15)，

其中，

是重要性权重分布矩阵，softmax是一种激活函数，

和

是可训练的参数向量，

是多模态融合特征矩阵。

9.根据权利要求8所述的一种多模态融合谎言检测方法，其特征在于，步骤2中所述基于图神经网络进行关联特征学习，具体包括：

将用户个体的集合表示为O＝{o₁，o₂，…，o_m}，其中，

即，对于每一个问题节点，都属于O中的某一个个体；

对问题u_i的表示向量

通过一个全连接层，从

中找出任意问题u_i的表示向量的初始隐藏状态

如式(16)所示：

其中

是可训练的参数；

对于每个存在边的问题对(u_i，u_j)，将其表示向量

和

进行拼接，并用一个全连接层来获得注意力系数

如式(17)所示：

其中

是可训练的参数；

对于u_i∈o_g，获得了u_i的邻居注意力系数的向量

如式(18) 所示：

其中，|o_g|是u_i相邻邻居的数量；

通过softmax函数获得每个邻居节点对问题u_i所施加的影响

如式(19)所示：

将

表示为

通过

更新u_i的隐藏状态为

如式(20)所示：

其中σ是一种激活函数sigmoid，

使用一层全连接网络获取节点问题的最终表达矩阵

如式(21)所示：

其中

是可训练的参数。

10.根据权利要求9所述的一种多模态融合谎言检测方法，其特征在于，步骤2中所述基于图神经网络进行谎言检测分类，具体包括：

使用前馈全连接神经网络获取分类结果，如式(22)所示：

其中y₀，y₁表示对于问题u_i有或者没有产生欺诈行为，

是可训练的参数。

11.根据权利要求1-10任一所述的一种多模态融合谎言检测方法，其特征在于，用于真实庭审或审讯情形下的谎言检测。