CN112861945B - 一种多模态融合谎言检测方法 - Google Patents

一种多模态融合谎言检测方法 Download PDF

Info

Publication number
CN112861945B
CN112861945B CN202110118420.XA CN202110118420A CN112861945B CN 112861945 B CN112861945 B CN 112861945B CN 202110118420 A CN202110118420 A CN 202110118420A CN 112861945 B CN112861945 B CN 112861945B
Authority
CN
China
Prior art keywords
matrix
feature
lie
neural network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110118420.XA
Other languages
English (en)
Other versions
CN112861945A (zh
Inventor
冯铃
张慧君
曹檑
丁扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110118420.XA priority Critical patent/CN112861945B/zh
Publication of CN112861945A publication Critical patent/CN112861945A/zh
Application granted granted Critical
Publication of CN112861945B publication Critical patent/CN112861945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态融合谎言检测方法,基于长短期记忆循环神经网络、前馈全连接神经网络和卷积神经网络,获取文本、视频和音频特征矩阵;接着基于每个问题的文本、视频和音频融合特征矩阵以及每个个体的问题之间的关联,获取问题间关联图神经网络;然后基于问题间关联图神经网络,获得图神经网络上每个问题结点的关联表达矩阵;最后基于每个问题结点的关联表达矩阵获取判断个体在该问题上是否说谎的分类向量。本发明适用于用于真实庭审或审讯情形下,处理比当前视频级别谎言检测更细粒度的问题级别的谎言检测问题。

Description

一种多模态融合谎言检测方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于多模态融合谎言检测方法。
背景技术
谎言在的日常生活中很常见。有些谎言不着边际,没有恶意。然而,有些谎言,如法庭上或刑事审判中的谎言,具有破坏性,对司法公正和社会安全产生不良影响。能否判断这些谎言,关系到正义和真理。因此,准确有效的欺骗检测可以为评估证词的真实性和审判的决定提供至关重要的支持。
已有的用于真实庭审或审讯情形下的谎言检测只关注于视频级别的谎言检测任务,即对于给定的视频片段给出检测结果,不管这个片段中包含一个还是多个审讯问题。然而,给出每个庭审问题的回答的真实性在现实庭审中是有必要的,而且同一个体在前后回答的表现也具有关联性,这种关联性应该被用于提升问题级别谎言检测的表现。
根据上面的描述可知,目前缺乏一种考虑个体前后回答表现的关联性的问题级别的谎言检测方法和装置。
发明目的
本发明的目的即在于针对现有技术中所存在的问题,提供一种多模态融合谎言检测方法。具体是针对问题级别的谎言检测任务,提供一种多模态融合谎言检测方法,实现将文本、视觉和音频模态的信息进行融合,同时通过图神经网络进行相同个体不同问题之间的关联学习,发掘出不同问题的个体行为的关联性从而提升谎言检测的表现。主要分为两个方面:1)文本、视觉、音频特征表达抽取与多模态融合;2)基于图神经网络的关联特征学习和谎言检测分类。
发明内容
本发明公开了一种多模态融合谎言检测方法,包括以下步骤:
步骤1、对于包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合,具体包括:
基于长短期记忆循环神经网络和前馈全连接神经网络,获取文本的谎言行为相关特征表达矩阵;
基于卷积神经网络和长短期记忆循环神经网络,获取视觉的谎言行为相关特征表达矩阵;
基于音频处理深度神经网络,获取音频的谎言行为相关特征表达矩阵;
基于所获取的文本、视觉、音频的谎言行为相关特征表达矩阵,获取多模态融合特征矩阵;
步骤2、基于图神经网络进行关联特征学习和谎言检测分类,具体包括:
基于步骤1所获取的多模态融合特征矩阵,获取全连通表示图,以每个用户的单个问题行为所对应的多模态融合特征矩阵作为节点;
基于所述全连通表示图和注意力机制,获取每个用户的单个问题行为所对应的表达矩阵;
基于所获取的每个用户的单个问题行为所对应的表达矩阵和前馈全连接神经网络,获取是否说谎的检测分类结果。
优选地,步骤1中所述获取文本的谎言行为相关特征表达矩阵,具体包括:
将文本抽象为含有n个单词的句子,用w={w1,w2,…,wn}表示,通过预训练模型Bert,将文本w中每个单词编码为768维的词向量,即
Figure BDA0002921153320000021
用长短期记忆循环神经网络LSTM来获取序列中的文本信息,具体为,将词向量特征矩阵X输入LSTM层中,所述LSTM层为双向LSTM,通过正向和反向两个LSTM分别为每个词向量xi生成一个隐状态
Figure BDA0002921153320000031
Figure BDA0002921153320000032
将这两个隐状态向量相加,并将n个隐状态拼接起来作为文本表示矩阵H,表示为如式(1)所示:
Figure BDA0002921153320000033
其中,
Figure BDA0002921153320000034
基于注意力机制,获取文本表示矩阵H中每个位置的单词的重要性权重,并通过对位相乘,将权重赋予文本表示矩阵,即重要性权重分布矩阵Ast,如式(2)、式(3)所示:
Ast=softmax(w1H+b1) (2),
H′=H×Ast+H (3),
其中,
Figure BDA0002921153320000035
表示重要性权重分布矩阵,
Figure BDA0002921153320000036
Figure BDA0002921153320000037
是可训练的参数向量,softmax是一种激活函数,
Figure BDA0002921153320000038
将H′从二维转变为一维向量,即
Figure BDA0002921153320000039
通过前馈全连接神经网络,得到文本特征表达矩阵FT,如式(4)所示:
FT=ReLU(W2H′+b2) (4),
其中
Figure BDA00029211533200000310
Figure BDA00029211533200000311
是可训练的参数向量,ReLU是一种激活函数,
Figure BDA00029211533200000312
优选地,所述n=20。
优选地,步骤1中所述获取视觉的谎言行为相关特征表达矩阵,具体包括:
将视频抽象为含有T个连续帧的图像序列,用V={frame1,frame2,…,frameT}表示;
通过权重共享的预训练模型Resnet,为V中的每一个framei获取特征图,并在之后紧跟着用(2×2)的平均池化操作将特征图缩小,即,
Figure BDA0002921153320000041
将每一帧图像的特征图向量从3维将为1维,并将T个特征图拼接为一个矩阵,如式(5)、式(6)所示:
Figure BDA0002921153320000042
M′=concat([M′1,M′2,…,MT′]) (6),
其中
Figure BDA0002921153320000043
表示视频的特征图矩阵;
应用注意力机制关注在图像序列中对于判断是否说谎贡献更大的图像,并通过长短期记忆循环神经网络LSTM来学习视频中图像的时序变化;
应用注意力机制获取特征图矩阵中对于每个特征图的重要性分布,并通过对位乘法获取根据重要性分布重新分布权重的视频特征图矩阵
Figure BDA0002921153320000044
如式(7)、式(8)所示:
Asv=softmax(W3M′+b3) (7),
Figure BDA0002921153320000045
其中,
Figure BDA0002921153320000046
是重要性权重分布矩阵,softmax是一种激活函数,
Figure BDA0002921153320000047
Figure BDA0002921153320000048
是可训练的参数向量,
Figure BDA0002921153320000049
将视频特征图矩阵
Figure BDA00029211533200000410
输入到LSTM中,如式(9)所示:
Figure BDA0002921153320000051
其中,hi和hi-1分别表示第i和第i-1个特征图表达的隐向量,取最后序列中最后一个隐向量hT作为视频的时序特征表达矩阵,
Figure BDA0002921153320000052
通过前馈全连接网络将hT映射到FT相同的维度空间中,如式(10)所示:
Fv=ReLU(W4hT+b4) (10),
其中,
Figure BDA0002921153320000053
是视频特征表达矩阵,
Figure BDA0002921153320000054
Figure BDA0002921153320000055
是可训练的参数向量,ReLU是一种激活函数。
优选地,所述T=20。
优选地,步骤1中所述获取音频的谎言行为相关特征表达矩阵,具体包括:
将音频抽象为连续的声音信号序列,用A={a1,a2,…,aL}表示;
使用预训练好的SincNet网络,从原始的声音信号中抽取特征表达,获取到DA,如式(11)所示:
Figure BDA0002921153320000056
通过前馈全连接神经网络,将DA映射到FT相同的维度空间中,如式(12)所示:
FA=ReLU(W5DA+b5) (12),
其中,
Figure BDA0002921153320000057
是音频特征表达矩阵,
Figure BDA0002921153320000058
Figure BDA0002921153320000059
是可训练的参数向量,ReLU是一种激活函数。
优选地,所述声音信号序列A中,L=200。
优选地,步骤1中所述获取多模态融合特征矩阵,具体包括:
将所获取到的文本、视频和音频特征表达矩阵拼接到一起,获得多模态特征矩阵FM′,如式(13)所示:
FM′=concat([FT,FV,FA]) (13),
其中
Figure BDA0002921153320000061
通过注意力机制获取到多模态特征矩阵中不同特征的重要性贡献权重,并将权重通过对位相乘赋予多模态特征矩阵,得到多模态融合特征矩阵FM,如式(14)、(15)所示:
Amm=softmax(W6FM′+b6) (14),
FM=Amm×FM′+FM′ (15),
其中,
Figure BDA0002921153320000062
是重要性权重分布矩阵,softmax是一种激活函数,
Figure BDA0002921153320000063
Figure BDA0002921153320000064
是可训练的参数向量,
Figure BDA0002921153320000065
是多模态融合特征矩阵。
优选地,步骤2中所述基于图神经网络进行关联特征学习,具体包括:
将用户个体的集合表示为O={o1,o2,…,om},其中,
Figure BDA0002921153320000066
oi是一个独立个体,每个独立个体包含对于若干个被询问的问题作出的回应,即
Figure BDA0002921153320000067
定义这个图神经网络为G(U,E),其中,U表示问题节点的集合,
Figure BDA0002921153320000068
即,对于每一个问题节点,都属于O中的某一个个体;
每一个问题节点由该问题所对应的行为所获取的多模态融合特征矩阵表示,E表示边的集合,如果U中的任意两个节点满足ui∈og并且uj∈og(og∈O),则eij=1,eji=1;
对问题ui的表示向量
Figure BDA0002921153320000071
施加邻居影响,即同一个体对某一问题的表现会受其他问题的回应的影响,同时同一个体对不同问题的回应之间具有相似性;
通过一个全连接层,从
Figure BDA0002921153320000072
中找出任意问题ui的表示向量的初始隐藏状态
Figure BDA0002921153320000073
如式(16)所示:
Figure BDA0002921153320000074
其中
Figure BDA0002921153320000075
是可训练的参数;
对于每个存在边的问题对(ui,uj),将其表示向量
Figure BDA0002921153320000076
Figure BDA0002921153320000077
进行拼接,并用一个全连接层来获得注意力系数
Figure BDA0002921153320000078
如式(17)所示:
Figure BDA0002921153320000079
其中
Figure BDA00029211533200000710
是可训练的参数;
对于ui∈og,获得了ui的邻居注意力系数的向量
Figure BDA00029211533200000711
如式(18)所示:
Figure BDA00029211533200000712
其中,|og|是ui相邻邻居的数量;
通过softmax函数获得每个邻居节点对问题ui所施加的影响
Figure BDA00029211533200000713
如式(19)所示:
Figure BDA00029211533200000714
Figure BDA00029211533200000715
表示为
Figure BDA00029211533200000716
通过
Figure BDA00029211533200000717
更新ui的隐藏状态为
Figure BDA00029211533200000718
如式(20)所示:
Figure BDA00029211533200000719
其中σ是一种激活函数sigmoid,
Figure BDA00029211533200000720
使用一层全连接网络获取节点问题的最终表达矩阵
Figure BDA00029211533200000721
如式(21)所示:
Figure BDA0002921153320000081
其中
Figure BDA0002921153320000082
是可训练的参数。
优选地,步骤2中所述基于图神经网络进行谎言检测分类,具体包括:
使用前馈全连接神经网络获取分类结果,如式(22)所示:
Figure BDA0002921153320000083
其中y0,y1表示对于问题ui有或者没有产生欺诈行为,
Figure BDA0002921153320000084
是可训练的参数。
优选地,上述谎言检测方法用于真实庭审或审讯情形下的谎言检测。
附图说明
图1为本发明所述对包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合的示意图。
图2为本发明所述基于图神经网络的关联特征学习和谎言检测分类的流程图。
具体实施方式
以下结合附图详细阐述本发明所述的用于问题级别多模态融合的谎言检测方法。
本发明针对问题级别的谎言检测任务,提供一种多模态融合的方法,实现将文本、视觉和音频模态的信息进行融合,同时通过图神经网络进行相同个体不同问题之间的关联学习,发掘出不同问题的个体行为的关联性从而提升谎言检测的表现。主要分为两个步骤:1)文本、视觉、音频特征表达抽取与多模态融合;2)基于图神经网络的关联特征学习和谎言检测分类。
图1为本发明所述对包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合的示意图。如图所示,包括文本、视频、音频的谎言行为的相关特征被表达抽取为相应的矩阵,并多模态融合后获得多模态融合特征矩阵。
相关具体过程如下:
特征表达抽取与多模态融合
这一部分的目标是分别获取三种模态的特征表达矩阵以及三种模态的特征表达矩阵的融合。
1.文本特征表达抽取
将文本抽象为含有n个单词的句子,用w={w1,w2,…,wn}表示,通过预训练模型Bert,将文本w中每个单词编码为768维的词向量,即
Figure BDA0002921153320000091
在本发明中,n=20。
为了从语义关联上学习说谎相关的文本特征表达,用长短期记忆循环神经网络LSTM来获取序列中的文本信息。除此以外,考虑到语句中不同单词对于检测结果的贡献不同,基于注意力机制来关注于更重要的单词。
首先,将词向量特征矩阵X输入LSTM层中,使用了双向LSTM,通过正向和反向两个LSTM可以分别为每个词向量xi生成一个隐状态
Figure BDA0002921153320000092
Figure BDA0002921153320000093
将两个隐状态向量相加,并将n个隐状态拼接起来作为文本表示矩阵H
Figure BDA0002921153320000094
其中,
Figure BDA0002921153320000095
基于注意力机制,获取文本表示矩阵H中每个位置的单词的重要性权重,并通过对位相乘,将权重赋予文本表示矩阵:
Ast=softmax(W1H+b1)
H′=H×Ast+H
其中,
Figure BDA0002921153320000096
表示重要性权重分布矩阵,
Figure BDA0002921153320000097
Figure BDA0002921153320000098
是可训练的参数向量,softmax是一种激活函数,
Figure BDA0002921153320000101
将H′从二维转变为一维向量
Figure BDA0002921153320000102
通过前馈全连接神经网络,得到了文本特征表达矩阵FT
FT=ReLU[W2H′+b2)
其中
Figure BDA0002921153320000103
Figure BDA0002921153320000104
是可训练的参数向量,ReLU是一种激活函数,
Figure BDA0002921153320000105
2.视觉特征表达抽取
将视频抽象为含有T个连续帧的图像序列,用v={frame1,frame2,…,farmeT}表示。在本发明中,T=20。首先通过权重共享的预训练模型Resnet,来为V中的每一个framei获取特征图,并在之后紧跟着用(2×2)的平均池化操作将特征图缩小,即,
Figure BDA0002921153320000106
将每一帧图像的特征图向量从3维将为1维并将T个特征图拼接为一个矩阵:
Figure BDA0002921153320000107
M′=concat[[M′1,M′2,…,MT′])
其中
Figure BDA0002921153320000108
表示视频的特征图矩阵。
为了建模视频中的时序信息,应用注意力机制去关注在图像序列中对于判断是否说谎贡献更大的图像,并通过长短期记忆循环神经网络LSTM来学习视频中图像的时序变化。
由于视频的特征图矩阵M′中包含每一个图像对应的特征图矩阵,因此首先应用注意力机制获取特征图矩阵中对于每个特征图的重要性分布,并通过对位乘法获取根据重要性分布重新分布权重的视频特征图矩阵
Figure BDA0002921153320000111
Asv=softmax(W3M′+b3)
Figure BDA0002921153320000112
其中,
Figure BDA0002921153320000113
是重要性权重分布矩阵,softmax是一种激活函数,
Figure BDA0002921153320000114
Figure BDA0002921153320000115
是可训练的参数向量,
Figure BDA0002921153320000116
视频特征图矩阵
Figure BDA0002921153320000117
输入到LSTM中:
Figure BDA0002921153320000118
其中,hi和hi-1分别表示第i和第i-1个特征图表达的隐向量,取最后序列中最后一个隐向量hT作为视频的时序特征表达矩阵,
Figure BDA0002921153320000119
最后,通过前馈全连接网络将hT映射到FT相同的维度空间中:
FV=ReLU(W4hT+b4)
其中,
Figure BDA00029211533200001110
是视频特征表达矩阵,
Figure BDA00029211533200001111
Figure BDA00029211533200001112
是可训练的参数向量,ReLU是一种激活函数。
3.音频特征表达抽取
将音频抽象为连续的声音信号的序列用A={a1,a2,…,aL}表示。在本发明中L=200。使用预训练好的SincNet网络从原始的声音信号中抽取特征表达,获取到
Figure BDA00029211533200001113
通过前馈全连接神经网络将DA映射到FT相同的维度空间中:
FA=ReLU(W5DA+b5)
其中,
Figure BDA00029211533200001114
是音频特征表达矩阵,
Figure BDA00029211533200001115
Figure BDA00029211533200001116
是可训练的参数向量,ReLU是一种激活函数。
4.特征表达矩阵融合
将上面获取到的文本、视频和音频特征表达矩阵拼接到一起,获得多模态特征矩阵FM′:
FM′=concat([FT,FV,FA])
其中
Figure BDA0002921153320000121
通过注意力机制获取到多模态特征矩阵中不同特征的重要性贡献权重,并将权重通过对位相乘赋予多模态特征矩阵,得到多模态融合特征矩阵FM
Amm=softmax(W6FM′+b6)
FM=Amm×FM′+FM
其中,
Figure BDA0002921153320000122
是重要性权重分布矩阵,softmax是一种激活函数,
Figure BDA0002921153320000123
Figure BDA0002921153320000124
是可训练的参数向量,
Figure BDA0002921153320000125
是多模态融合特征矩阵。
图2为本发明所述基于图神经网络的关联特征学习和谎言检测分类的流程图,由图可见,对于上述所获得的多模态融合特征矩阵,基于图神经网络,进行关联特征学习和谎言检测分类,从而判断出个体是否说谎,该过程具体如下所述:
基于图神经网络的关联特征学习和谎言检测分类
这一部分的目标是通过构建图神经网络来学习不同问题对应的行为表现的关联性,并对是否说谎进行分类。
1.基于图神经网络的关联特征学习
首先描述如何构建问题图。将用户个体的集合表示为O={o1,o2,…,om},其中,
Figure BDA0002921153320000126
oi是一个独立个体,每个独立个体可能包含对于若干个被询问的问题作出的回应,即
Figure BDA0002921153320000131
定义这个图为G(U,E),其中,U表示问题节点的集合,
Figure BDA0002921153320000132
即,对于每一个问题节点,都属于O中的某一个个体,这个问题节点由这个问题对应的行为所获取的多模态融合特征矩阵表示,E表示边的集合,如果U中的任意两个节点满足ui∈og并且uj∈og(og∈O),那么eij=1,eji=1。
对问题ui的表示向量
Figure BDA0002921153320000133
施加了邻居影响,即同一个体对某一问题的表现会受其他问题的回应的影响,同时同一个体对不同问题的回应之间具有相似性。考虑到不同问题对问题ui回应的表现的不同影响,采用了相邻问题级别的注意力机制。
首先,通过一个全连接层,从
Figure BDA0002921153320000134
中找出任意问题ui的表示向量的初始隐藏状态
Figure BDA0002921153320000135
Figure BDA0002921153320000136
其中
Figure BDA0002921153320000137
是可训练的参数。
对于每个存在边的问题对(ui,uj),将其表示向量
Figure BDA0002921153320000138
Figure BDA0002921153320000139
进行拼接,并用一个全连接层来获得注意力系数
Figure BDA00029211533200001310
Figure BDA00029211533200001311
其中
Figure BDA00029211533200001312
是可训练的参数。
对于ui∈og,通过上面这种方式,获得了ui的邻居注意力系数的向量:
Figure BDA00029211533200001313
其中,|og|是ui相邻邻居的数量,并通过softmax函数来获得每个邻居节点对问题ui所施加的影响:
Figure BDA0002921153320000141
Figure BDA0002921153320000142
表示为
Figure BDA0002921153320000143
通过
Figure BDA0002921153320000144
更新了ui的隐藏状态为
Figure BDA0002921153320000145
Figure BDA0002921153320000146
最终,使用一层全连接网络来获取节点问题的最终表达矩阵
Figure BDA0002921153320000147
Figure BDA0002921153320000148
其中
Figure BDA0002921153320000149
是可训练的参数。
谎言检测分类
使用前馈全连接神经网络来获取分类结果:
Figure BDA00029211533200001410
其中y0,y1表示对于问题ui有或者没有产生欺诈行为,
Figure BDA00029211533200001411
是可训练的参数。
本发明的有益效果
本发明通过构建问题关联的图神经网络,重新定义了现有谎言检测任务,考虑了相同个体在回答问题时的表现的关联性,同时通过多模态融合的方式,弥补了单数据源测谎的不足。

Claims (11)

1.一种多模态融合谎言检测方法,其特征在于,包括以下步骤:
步骤1、对于包括文本、视觉、音频的谎言行为的相关特征进行表达抽取与多模态融合,具体包括:
基于长短期记忆循环神经网络和前馈全连接神经网络,获取文本的谎言行为相关特征表达矩阵;
基于卷积神经网络和长短期记忆循环神经网络,获取视觉的谎言行为相关特征表达矩阵;
基于音频处理深度神经网络,获取音频的谎言行为相关特征表达矩阵;
基于所获取的文本、视觉、音频的谎言行为相关特征表达矩阵,获取多模态融合特征矩阵;
步骤2、基于图神经网络进行关联特征学习和谎言检测分类,具体包括:
基于步骤1所获取的多模态融合特征矩阵,获取全连通表示图,以每个用户的单个问题行为所对应的多模态融合特征矩阵作为节点;
基于所述全连通表示图和注意力机制,获取每个用户的单个问题行为所对应的表达矩阵;
基于所获取的每个用户的单个问题行为所对应的表达矩阵和前馈全连接神经网络,获取是否说谎的检测分类结果。
2.根据权利要求1所述的一种多模态融合谎言检测方法,其特征在于,步骤1中所述获取文本的谎言行为相关特征表达矩阵,具体包括:
将文本抽象为含有n个单词的句子,用w={w1,w2,…,wn}表示,通过预训练模型Bert,将文本w中每个单词编码为768维的词向量,即
Figure FDA0002921153310000021
用长短期记忆循环神经网络LSTM来获取序列中的文本信息,具体为,将词向量特征矩阵X输入LSTM层中,所述LSTM层为双向LSTM,通过正向和反向两个LSTM分别为每个词向量xi生成一个隐状态
Figure FDA0002921153310000022
Figure FDA0002921153310000023
将这两个隐状态向量相加,并将n个隐状态拼接起来作为文本表示矩阵H,表示为如式(1)所示:
Figure FDA0002921153310000024
其中,
Figure FDA0002921153310000025
基于注意力机制,获取文本表示矩阵H中每个位置的单词的重要性权重,并通过对位相乘,将权重赋予文本表示矩阵,即重要性权重分布矩阵Ast,如式(2)、式(3)所示:
Ast=softmax(W1H+b1) (2),
H′=H×Ast+H (3),
其中,
Figure FDA0002921153310000026
表示重要性权重分布矩阵,
Figure FDA0002921153310000027
Figure FDA0002921153310000028
是可训练的参数向量,softmax是一种激活函数,
Figure FDA0002921153310000029
将H′从二维转变为一维向量,即
Figure FDA00029211533100000210
通过前馈全连接神经网络,得到文本特征表达矩阵FT,如式(4)所示:
FT=ReLU(W2H′+b2) (4),
其中
Figure FDA0002921153310000031
Figure FDA0002921153310000032
是可训练的参数向量,ReLU是一种激活函数,
Figure FDA0002921153310000033
3.根据权利要求2所述的一种多模态融合谎言检测方法,其特征在于,所述n=20。
4.根据权利要求3所述的一种多模态融合谎言检测方法,其特征在于,步骤1中所述获取视觉的谎言行为相关特征表达矩阵,具体包括:
将视频抽象为含有T个连续帧的图像序列,用V={frame1,frame2,…,frameT}表示;
通过权重共享的预训练模型Resnet,为V中的每一个framei获取特征图,并在之后紧跟着用(2×2)的平均池化操作将特征图缩小,即,
Figure FDA0002921153310000034
将每一帧图像的特征图向量从3维降 为1维,并将T个特征图拼接为一个矩阵,如式(5)、式(6)所示:
Figure FDA0002921153310000035
M′=concat([M′1,M′2,…,MT′]) (6),
其中
Figure FDA0002921153310000036
表示视频的特征图矩阵;
应用注意力机制关注在图像序列中对于判断是否说谎贡献更大的图像,并通过长短期记忆循环神经网络LSTM来学习视频中图像的时序变化;
应用注意力机制获取特征图矩阵中对于每个特征图的重要性分布,并通过对位乘法获取根据重要性分布重新分布权重的视频特征图矩阵
Figure FDA0002921153310000041
如式(7)、式(8)所示:
Asv=softmax(W3M′+b3) (7),
Figure FDA0002921153310000042
其中,
Figure FDA0002921153310000043
是重要性权重分布矩阵,softmax是一种激活函数,
Figure FDA0002921153310000044
Figure FDA0002921153310000045
是可训练的参数向量,
Figure FDA0002921153310000046
将视频特征图矩阵
Figure FDA0002921153310000047
输入到LSTM中,如式(9)所示:
Figure FDA0002921153310000048
其中,hi和hi-1分别表示第i和第i-1个特征图表达的隐向量,取最后序列中最后一个隐向量hT作为视频的时序特征表达矩阵,
Figure FDA0002921153310000049
通过前馈全连接网络将hT映射到FT相同的维度空间中,如式(10)所示:
FV=ReLU(W4hT+b4) (10),
其中,
Figure FDA00029211533100000410
是视频特征表达矩阵,
Figure FDA00029211533100000411
Figure FDA00029211533100000412
是可训练的参数向量,ReLU是一种激活函数。
5.根据权利要求4所述的一种多模态融合谎言检测方法,其特征在于,所述T=20。
6.根据权利要求5所述的一种多模态融合谎言检测方法,其特征在于,步骤1中所述获取音频的谎言行为相关特征表达矩阵,具体包括:
将音频抽象为连续的声音信号序列,用A={a1,a2,…,aL}表示;
使用预训练好的SincNet网络,从原始的声音信号中抽取特征表达,获取到DA,如式(11)所示:
Figure FDA0002921153310000051
通过前馈全连接神经网络,将DA映射到FT相同的维度空间中,如式(12)所示:
FA=ReLU(W5DA+b5) (12),
其中,
Figure FDA0002921153310000052
是音频特征表达矩阵,
Figure FDA0002921153310000053
Figure FDA0002921153310000054
是可训练的参数向量,ReLU是一种激活函数。
7.根据权利要求6所述的一种多模态融合谎言检测方法,其特征在于,所述声音信号序列A中,L=200。
8.根据权利要求7所述的一种多模态融合谎言检测方法,其特征在于,步骤1中所述获取多模态融合特征矩阵,具体包括:
将所获取到的文本、视频和音频特征表达矩阵拼接到一起,获得多模态特征矩阵FM′,如式(13)所示:
FM′=concat([FT,FV,FA]) (13),
其中
Figure FDA0002921153310000055
通过注意力机制获取到多模态特征矩阵中不同特征的重要性贡献权重,并将权重通过对位相乘赋予多模态特征矩阵,得到多模态融合特征矩阵FM,如式(14)、(15)所示:
Amm=softmax(W6FM′+b6) (14),
Fm=Amm×FM′+FM′ (15),
其中,
Figure FDA0002921153310000056
是重要性权重分布矩阵,softmax是一种激活函数,
Figure FDA0002921153310000057
Figure FDA0002921153310000058
是可训练的参数向量,
Figure FDA0002921153310000059
是多模态融合特征矩阵。
9.根据权利要求8所述的一种多模态融合谎言检测方法,其特征在于,步骤2中所述基于图神经网络进行关联特征学习,具体包括:
将用户个体的集合表示为O={o1,o2,…,om},其中,
Figure FDA0002921153310000061
oi是一个独立个体,每个独立个体包含对于若干个被询问的问题作出的回应,即
Figure FDA0002921153310000062
定义这个图神经网络为G(U,E),其中,U表示问题节点的集合,
Figure FDA0002921153310000063
即,对于每一个问题节点,都属于O中的某一个个体;
每一个问题节点由该问题所对应的行为所获取的多模态融合特征矩阵表示,E表示边的集合,如果U中的任意两个节点满足ui∈og并且uj∈og(og∈O),则eij=1,eji=1;
对问题ui的表示向量
Figure FDA0002921153310000064
施加邻居影响,即同一个体对某一问题的表现会受其他问题的回应的影响,同时同一个体对不同问题的回应之间具有相似性;
通过一个全连接层,从
Figure FDA0002921153310000065
中找出任意问题ui的表示向量的初始隐藏状态
Figure FDA0002921153310000066
如式(16)所示:
Figure FDA0002921153310000067
其中
Figure FDA0002921153310000068
是可训练的参数;
对于每个存在边的问题对(ui,uj),将其表示向量
Figure FDA0002921153310000069
Figure FDA00029211533100000610
进行拼接,并用一个全连接层来获得注意力系数
Figure FDA00029211533100000611
如式(17)所示:
Figure FDA00029211533100000612
其中
Figure FDA00029211533100000613
是可训练的参数;
对于ui∈og,获得了ui的邻居注意力系数的向量
Figure FDA00029211533100000614
如式(18) 所示:
Figure FDA0002921153310000071
其中,|og|是ui相邻邻居的数量;
通过softmax函数获得每个邻居节点对问题ui所施加的影响
Figure FDA0002921153310000072
如式(19)所示:
Figure FDA0002921153310000073
Figure FDA0002921153310000074
表示为
Figure FDA0002921153310000075
通过
Figure FDA0002921153310000076
更新ui的隐藏状态为
Figure FDA0002921153310000077
如式(20)所示:
Figure FDA0002921153310000078
其中σ是一种激活函数sigmoid,
Figure FDA0002921153310000079
使用一层全连接网络获取节点问题的最终表达矩阵
Figure FDA00029211533100000710
如式(21)所示:
Figure FDA00029211533100000711
其中
Figure FDA00029211533100000712
是可训练的参数。
10.根据权利要求9所述的一种多模态融合谎言检测方法,其特征在于,步骤2中所述基于图神经网络进行谎言检测分类,具体包括:
使用前馈全连接神经网络获取分类结果,如式(22)所示:
Figure FDA00029211533100000713
其中y0,y1表示对于问题ui有或者没有产生欺诈行为,
Figure FDA00029211533100000714
Figure FDA00029211533100000715
是可训练的参数。
11.根据权利要求1-10任一所述的一种多模态融合谎言检测方法,其特征在于,用于真实庭审或审讯情形下的谎言检测。
CN202110118420.XA 2021-01-28 2021-01-28 一种多模态融合谎言检测方法 Active CN112861945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110118420.XA CN112861945B (zh) 2021-01-28 2021-01-28 一种多模态融合谎言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110118420.XA CN112861945B (zh) 2021-01-28 2021-01-28 一种多模态融合谎言检测方法

Publications (2)

Publication Number Publication Date
CN112861945A CN112861945A (zh) 2021-05-28
CN112861945B true CN112861945B (zh) 2022-05-13

Family

ID=75987679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110118420.XA Active CN112861945B (zh) 2021-01-28 2021-01-28 一种多模态融合谎言检测方法

Country Status (1)

Country Link
CN (1) CN112861945B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
WO2023036159A1 (en) * 2021-09-07 2023-03-16 Huawei Technologies Co., Ltd. Methods and devices for audio visual event localization based on dual perspective networks
CN113869276B (zh) * 2021-10-15 2023-04-07 山东大学 基于微表情的谎言识别方法及系统
CN114881668A (zh) * 2022-05-05 2022-08-09 灵图数据(杭州)有限公司 一种基于多模态的欺骗检测方法
CN116522212B (zh) * 2023-07-05 2023-09-26 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110301920A (zh) * 2019-06-27 2019-10-08 清华大学 用于心理压力检测的多模态融合方法及装置
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US11862145B2 (en) * 2019-04-20 2024-01-02 Behavioral Signal Technologies, Inc. Deep hierarchical fusion for machine intelligence applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110301920A (zh) * 2019-06-27 2019-10-08 清华大学 用于心理压力检测的多模态融合方法及装置
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Human action recognition based on multi-mode spatial-temporal feature fusion;Dongli Wang,etc.;《22nd International Conference on Information Fusion》;20190705;全文 *
社会多媒体网络表示学习研究;胡骏;《中国优秀博士学位论文全文数据库信息科技辑》;20210115;全文 *

Also Published As

Publication number Publication date
CN112861945A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112861945B (zh) 一种多模态融合谎言检测方法
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111368074A (zh) 一种基于网络结构和文本信息的链路预测方法
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及系统
US20200134455A1 (en) Apparatus and method for training deep learning model
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
Farazi et al. Accuracy vs. complexity: a trade-off in visual question answering models
CN113849599B (zh) 基于模式信息和事实信息的联合虚假新闻检测方法
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
CN114844682A (zh) 一种dga域名检测方法及系统
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
CN113901810A (zh) 一种基于多表示学习的跨领域虚假新闻检测方法
CN113689514A (zh) 一种面向主题的图像场景图生成方法
KR20210099445A (ko) 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
KR20210035535A (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant