CN114881668A - 一种基于多模态的欺骗检测方法 - Google Patents
一种基于多模态的欺骗检测方法 Download PDFInfo
- Publication number
- CN114881668A CN114881668A CN202210481779.8A CN202210481779A CN114881668A CN 114881668 A CN114881668 A CN 114881668A CN 202210481779 A CN202210481779 A CN 202210481779A CN 114881668 A CN114881668 A CN 114881668A
- Authority
- CN
- China
- Prior art keywords
- feature
- audio
- features
- data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 137
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000017531 blood circulation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003727 cerebral blood flow Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000010344 pupil dilation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及欺骗检测技术领域,其目的在于提供一种基于多模态的欺骗检测方法,包括:接收多模态数据,所述多模态数据包括待测用户的视频数据、文本数据和音频数据;分别对所述视频数据、文本数据和音频数据进行特征提取,得到对应的视频特征、文本特征和音频特征;对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征;将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果。本发明的测谎准确度高,同时可进行非接触式测谎。
Description
技术领域
本发明涉及欺骗检测技术领域,特别是涉及一种基于多模态的欺骗检测方法。
背景技术
欺骗检测是计算机语言学、心理学、军事及情报学等各学科研究的重要方向,目前的欺骗检测方法大致分为以下两大类:
一是基于言语线索的检测方法;具体地,基于言语线索的检测方法主要是通过分析语法以及词性等特征来检测被测用户所说的话为真话还是假话。研究发现基于语言探究和字数统计词典的心理语言学特征可用于测谎,并且说谎者会使用更多的负面情绪词。多个研究表明,不同的语言特征(字数、词性和句子统计特征)以及文本句法复杂性等都与说谎存在联系。
二是基于非言语线索的检测方法;具体地,该方法主要分为三类:基于生理、声音和视觉线索的检测方法。其中,基于生理的检测方法包括使用测谎仪、热成像方法测量被测用户的面部血流量和面部皮肤温度以及使用脑功能磁共振成像(Functional MagneticResonance Imaging,FMRI)测量被测用户的脑血流量等。然而,这些方法都需要被测用户配合,且设备昂贵,还需要操作人员掌握专业的仪器操作等知识。基于声音的检测方法包括利用声压分析器(Voice Stress Analysis,VSA)和分层声音分析技术两种商业产品对人体声带进行操作来测谎,有相关研究表明,音高、持续时间、能量以及说话过程中的停顿可表明说谎信息。基于视觉的检测方法近年来也越来越受到关注,另有研究发现瞳孔扩张是一种表明说谎的行为,面部微表情如嘴唇突出翘起以及一些标志性手势也被认为是说谎的一类标志。
但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
上述欺骗检测方法均采用基于单模态的欺骗检测技术,其在进行欺骗检测的过程中,通常只考虑一个模态的特征,而没有多方面考虑各个模态之间的相互作用,最终导致只有单一模态特征作用域最终的分类,往往会造成测试结果精度较低的问题。
现有技术中,为解决单模态欺骗检测精度较低的问题,如公开号为CN113080969A的中国专利已公开了基于多模态特征的测谎数据处理方法及系统,其中的测谎方法包括:获取被审讯人员的审讯视频,获取被审讯人员的审讯过程中实时心率;对审讯视频中的音频进行端点检测,得到若干个音频端点;提取音频端点对应视频中被审讯人员的面部图像,识别面部图像中的微表情特征;对微表情特征进行测谎结果识别,得到微表情测谎结果;基于所有的音频端点,对整个音频进行划分,得到若干个音频段,对每个音频段进行测谎结果识别,得到音频测谎结果;对音频端点对应的心率进行测谎结果识别,得到心率测谎结果;综合微表情测谎结果、音频测谎结果和心率测谎结果,得到最终的测谎结果。
然而,上述现有技术中,通过分别对每个模态分别进行谎言检测,然后得到每个模态得出的测谎结论,最后结合这些结论得出最终的测谎结果,即,上述现有技术采用的是先单模态进行测谎判断,再综合各个模态的判断结果得到最终的测谎结果。该方法的实现不符合人类判断谎言的正常行为,具体地,人类综合判断他人是否说谎时,会在测谎的过程中充分考虑各个模态之间的关联性,例如:在对方说话过程中,综合对方说话语调、说话内容和动作姿态等,对对方是否存在说谎行为进行综合判断,导致上述现有技术仍存在测谎准确度低的问题。
此外,现有技术中的单模态欺骗检测方法及多模态欺骗检测方法中,均存在基于实时心率等生理特征的欺骗检测,在进行欺骗检测过程中,均需要通过电子仪器设备进行接触式信息采集,而实际的应用场合往往不允许接触式测谎。
因此,有必要研究一种准确度高,同时可进行非接触式测谎的基于多模态的欺骗检测方法。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种基于多模态的欺骗检测方法。
本发明采用的技术方案是:
本发明提供了一种基于多模态的欺骗检测方法,包括:
接收多模态数据,所述多模态数据包括待测用户的视频数据、文本数据和音频数据;
分别对所述视频数据、文本数据和音频数据进行特征提取,得到对应的视频特征、文本特征和音频特征;
对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征;
将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果。
本发明的测谎准确度高,同时可进行非接触式测谎。具体地,本发明通过对输入的提取视频、音频和文本三个模态的数据进行特征提取,并提取得到的多模态特征进行融合,最终对融合后的特征进行分类,由此实现欺骗检测数据采集内容和识别流程的优化,可实现无接触式多模态欺骗检测,利于拓展欺骗检测的使用环节,同时可提升欺骗检测的准确率。本发明在应用过程中,能够复刻人类的行为,提取每个模态带有时间属性的特征,并不立刻分别对模态内容进行测谎判断,而是将各个模态的特征进行融合,再根据融合后的特征进行测谎判断。
在一个可能的设计中,对所述视频数据进行特征提取,得到视频特征,包括:
基于3D-CNN滤波器对所述视频数据进行滤波处理,得到滤波后特征图;
对所述滤波后特征图进行卷积处理,得到卷积后特征图;
使用最大池化核对卷积后特征图进行池化处理,得到池化后特征图;
将池化后特征图输入全连接层,然后基于softmax激活函数进行处理,得到视频特征。
在一个可能的设计中,对所述文本数据进行特征提取时,基于卷积神经网络实现;对所述文本数据进行特征提取,得到文本特征,包括:
构建数据字典,通过所述数据字典将所述文本数据一一映射为向量编码;
采用embedding层将所述向量编码映射至高维空间,得到所述文本数据中每句话的特征向量;
将所述特征向量输入CNN层,通过一层卷积层进行卷积处理,再通过一层最大池化层进行池化处理,得到语句特征;
将所述语句特征输入全连接网络,然后基于ReLU激活函数进行处理,得到文本特征。
在一个可能的设计中,对所述音频数据进行特征提取,得到音频特征,包括:
从音频数据中去除背景噪声,得到除噪后音频数据;
使用z标准化对所述除噪后音频数据进行语音归一化,得到归一化处理后音频数据;
对所述归一化处理后音频数据进行高维音频特征提取处理,得到高维音频特征;
将所述高维音频特征进行降维处理,得到音频特征。
在一个可能的设计中,采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。
在一个可能的设计中,采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征,包括:
将所述视频特征、所述文本特征和所述音频特征都转换为指定维度的矩阵;
对所述视频特征对应的指定维度的矩阵、所述文本特征对应的指定维度的矩阵和所述音频特征对应的指定维度的矩阵进行哈达玛积处理,得到融合后特征。
在一个可能的设计中,所述多模态模型采用多层感知机模型。
在一个可能的设计中,所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层,其中,所述隐藏层的大小为1024,以便于将融合后特征的维度转换为1×1024维,所述dropout层的dropout概率为0.5,代表50%的隐藏层节点不进行反向传播,所述非线性激活层采用激活函数ReLU,所述全连接层的大小为2,以便输出1×2维特征;
将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果,包括:
将所述融合后特征依次输入隐藏层、dropout层、非线性激活层、全连接层和softmax函数层,得到欺骗检测结果(x,y),其维度为1×2维,其中所述欺骗检测结果(x,y)中,元素值x代表被测用户说真话的概率,元素值y代表被测用户说假话的概率。
在一个可能的设计中,得到欺骗检测结果后,所述基于多模态的欺骗检测方法还包括:
将所述欺骗检测结果与真实标签值输入交叉熵损失函数中进行计算,得到所述欺骗检测结果与真实标签值之间的损失值;
对计算出的损失值进行求导,得到梯度;
根据所述梯度,使用SGD优化器对所述多模态模型进行反向传播,以便于最小化所述多模态模型输出的欺骗检测结果和真实标签值之间的交叉熵损失,得到优化后多模态模型。
在一个可能的设计中,所述交叉熵损失函数为:
附图说明
图1是本发明中一种基于多模态的欺骗检测方法的流程图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。
实施例1:
本实施例第一方面提供了一种基于多模态的欺骗检测方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行,或者由虚拟机执行,以便提高测谎准确度高,同时实现非接触式测谎。
如图1所示,一种基于多模态的欺骗检测方法,可以但不限于包括有如下步骤:
S1.接收多模态数据,所述多模态数据包括待测用户的视频数据、文本数据和音频数据;
S2.分别对所述视频数据、文本数据和音频数据进行特征提取,得到对应的视频特征、文本特征和音频特征;
本实施例中,将所述视频数据表示为v(c,f,h,w),其中,c表示通道数,f表示帧数,h表示图像高度,w表示图像宽度;对所述视频数据进行特征提取,得到视频特征,包括:
A1.基于3D-CNN滤波器对所述视频数据v(c,f,h,w)进行滤波处理,得到滤波后特征图;其中,所述3D-CNN滤波器的维度是(f m ,c,f d ,f h ,f w ),其中f m 为特征图的数量,c为通道数,f d ,为帧数,f h 为卷积滤波器的高,f w 为卷积滤波器的宽;
A2.对所述滤波后特征图进行卷积处理,得到卷积后特征图;
A3.使用窗口大小为(m p ,m p ,m p )的最大池化核对卷积后特征图进行池化处理,得到池化后特征图;
A4.将池化后特征图输入维度为d f 的全连接层,然后基于softmax激活函数进行处理,得到视频特征。
本实施例中,采用3D-CNN(3 Dimensional-Convolutional Neural Network,三维卷积神经网络)对所述视频数据进行特征提取,其不仅可提取所述视频中的每个图像帧中的特征,还可提取所述视频数据中的时空特征,以便于用户更好地确定视频中待测用户的面部表情,例如微笑、生气和紧张等面部表情。
本实施例中,对所述文本数据进行特征提取时,基于卷积神经网络实现;对所述文本数据进行特征提取,得到文本特征,包括:
B1.构建数据字典,通过所述数据字典将所述文本数据一一映射为向量编码;
B2.采用embedding层将所述向量编码映射至高维空间,得到所述文本数据中每句话的特征向量,以便于提升表征能力;
B3.将所述特征向量输入CNN(Convolutional Neural Network,卷积神经网络)层,通过一层卷积层进行卷积处理,再通过一层最大池化层进行池化处理,得到语句特征;具体地,依次采用卷积核大小分别为3、5和8的卷积层对所述特征向量进行卷积处理,作用于大小为20的特征图,最大池化层的窗口大小设置为2;
B4.将所述语句特征输入维度为300的全连接网络,然后基于ReLU(Rectifiedlinear unit,,线性整流函数)激活函数进行处理,得到文本特征。
具体地,本实施例中,文本特征基于卷积神经网络从所述视频数据中提取得到。
本实施例中,对所述音频数据进行特征提取,得到音频特征,包括:
C1.从音频数据中去除背景噪声,得到除噪后音频数据;
C2.使用z标准化对所述除噪后音频数据进行语音归一化,得到归一化处理后音频数据;需要说明的是,在提取音频特征之前,需要确保音频数据中没有不必要的信号来影响特征的提取,对音频数据进行除噪及归一化处理,可提高特征提取的准确率。本实施例中,为了去除背景噪声,使用SoX(Sound eXchange)音频处理工具实现;
C3.对所述归一化处理后音频数据进行高维音频特征提取处理,得到高维音频特征;OpenSMILE是一个可以从音频文件中提取高维特征的工具箱,本实施例采用OpenSMILE从所述音频数据中提取音频特征。具体地,本实施例中,对所述归一化处理后音频数据进行高维音频特征提取处理,得到高维音频特征,包括将所述归一化处理后音频数据输入openSMILE工具箱,以便于进行高维音频特征LLD(low-level descriptor)的提取,得到高维音频特征。本实施例中,采用OpenSMILE中的IS13-ComParE配置提取出归一化处理后音频数据的6373维特征,6373维特征中包括能量特征、频谱特征、倒谱(MFCCs)特征、与语音相关的低级别描述符(LLDs)、对数谐波噪声比特征(HNR)、频谱谐度和心理声学频谱清晰度;具体地,采用IS13-ComParE配置提取归一化处理后音频数据的6373维特征时,考虑到实际计算过程中空间和内存需求,每一帧只计算一小组描述符,采用滑动窗口方案来生成每帧的描述符;其中,每帧的MFCCs特征和对数能量特征,连同其对应的一阶和二阶delta特征,以及回归系数都能一起被计算出来,以便用于语音识别;然后,对上述特征进行增强处理;最后,针对增强后特征中每一帧的低级别描述符特征,计算整个帧本身和8个相邻帧的算术平均值和标准偏差(前四个和后四个),用以保留高维音频特征的上下文关系。
C4.将所述高维音频特征进行降维处理,得到音频特征。具体地,本实施例中,采用一层全连接层将6373维特征降维至300维。
S3.对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征;
具体地,本实施例中,采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。
其中,采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征,包括:
S301.将所述视频特征、所述文本特征和所述音频特征都转换为指定维度的矩阵;本实施例中,将所述视频特征、所述文本特征和所述音频特征都转换为1×300维的矩阵;
S302.对所述视频特征对应的指定维度的矩阵、所述文本特征对应的指定维度的矩阵和所述音频特征对应的指定维度的矩阵进行哈达玛积处理,得到融合后特征。
具体地,进行哈达玛积处理时,矩阵之间的哈达玛积为取两个维度相同(m×n)的矩阵A和B,A和B的哈达玛积记为A⊙B,矩阵A和矩阵B按元素相乘得到矩阵C,矩阵C中的元素c ij =a ij ×b ij ;本实施例中,融合后特征为Z,融合后特征中的元素z f =[t f ⊙a f ⊙v f ],其中,t f 表示文本特征,a f 表示音频特征,v f 表示视频特征,融合后特征z f 仍然为1×300维的矩阵。
需要说明的是,其他多模态特征融合方法也可以用来进行多模态特征融合,不同的特征融合方法与特征种类和特征维度相关,选取不同的特征融合方法会影响后续分类器的分类精度。本实施例通过使用哈达玛积进行多模态特征的融合,可提升欺骗检测的性能,具体地,通过Schur(舒尔)定理和Pólya and Szegö定理可以证明,当矩阵A和矩阵B是半正定矩阵时,使用哈达玛积能够使矩阵A和矩阵B之间有着较好的相互作用。
S4.将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果。
本实施例中,所述多模态模型采用多层感知机模型。
具体地,所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层,其中,所述隐藏层的大小为1024,以便于将融合后特征的维度转换为1×1024维,所述dropout层的dropout概率为0.5,代表50%的隐藏层节点不进行反向传播,应当理解的是,dropout层的设置用于减少过拟合,所述非线性激活层采用激活函数ReLU,所述全连接层的大小为2,以便输出1×2维特征;
将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果,包括:
将所述融合后特征依次输入隐藏层、dropout层、非线性激活层、全连接层和softmax函数层,得到最终的预测输出向量,即欺骗检测结果(x,y),其维度为1×2维,其中所述欺骗检测结果(x,y)中,元素值x代表被测用户说真话的概率,元素值y代表被测用户说假话的概率。
得到欺骗检测结果后,所述基于多模态的欺骗检测方法还包括:
S5.将所述欺骗检测结果与真实标签值输入交叉熵损失函数中进行计算,得到所述欺骗检测结果与真实标签值之间的损失值(差距);
S6.对计算出的损失值进行求导,得到梯度;
S7.根据所述梯度,使用SGD(Stochastic Gradient Descent,随机梯度下降)优化器对所述多模态模型进行反向传播,以便于最小化所述多模态模型输出的欺骗检测结果和真实标签值之间的交叉熵损失,得到优化后多模态模型。
具体地,本实施例的步骤S5中,所述交叉熵损失函数为:
其中,N表示欺骗检测结果的个数;C表示欺骗检测结果的种类,本实施例中,C=2,代表欺骗检测结果包括真、假两个类别;y i,j 是真实标签值的one-hot编码(独热编码),本实施例中,当被测用户的行为(如说话等)为真时,真实标签值的one-hot编码为1,当被测用户的行为为假时,真实标签值的one-hot编码为0;是欺骗检测结果的预测概率编码,本实施例中,多模态模型输出为一个元素值和为1且形状为1×2的向量,例如[0.3,0.7],如果第一个元素比第二个元素小,则预测标签值为1,代表欺骗检测结果为真,反之则预测标签值为0,代表欺骗检测结果为假;L表示模型预测值与真实标签值之间的损失值,其中,L越小,代表多模态模型输出的欺骗检测结果与真实标签值之间的差距越小,多模态模型预测出的结果越准确,模型测谎的结果越准确。
本实施例的测谎准确度高,同时可进行非接触式测谎。具体地,本实施例通过对输入的提取视频、音频和文本三个模态的数据进行特征提取,并提取得到的多模态特征进行融合,最终对融合后的特征进行分类,由此实现欺骗检测数据采集内容和识别流程的优化,可实现无接触式多模态欺骗检测,利于拓展欺骗检测的使用环节,同时可提升欺骗检测的准确率。本实施例在应用过程中,能够复刻人类的行为,提取每个模态带有时间属性的特征,并不立刻分别对模态内容进行测谎判断,而是将各个模态的特征进行融合,再根据融合后的特征进行测谎判断。
实施例2:
本实施例提供一种基于多模态的欺骗检测系统,用于实现实施例1中基于多模态的欺骗检测方法;所述基于多模态的欺骗检测系统包括:
多模态数据接收模块,用于接收多模态数据,所述多模态数据包括待测用户的视频数据、文本数据和音频数据;
特征提取模块,用于分别对所述视频数据、文本数据和音频数据进行特征提取,得到对应的视频特征、文本特征和音频特征;
特征融合模块,用于对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征;
检测处理模块,用于将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果。
实施例3:
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等,电子设备包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的基于多模态的欺骗检测方法的操作。
实施例4:
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的基于多模态的欺骗检测方法的操作。
需要说明的是,所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种基于多模态的欺骗检测方法,其特征在于:包括:
接收多模态数据,所述多模态数据包括待测用户的视频数据、文本数据和音频数据;
分别对所述视频数据、文本数据和音频数据进行特征提取,得到对应的视频特征、文本特征和音频特征;
对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征;
将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果。
2.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:对所述视频数据进行特征提取,得到视频特征,包括:
基于3D-CNN滤波器对所述视频数据进行滤波处理,得到滤波后特征图;
对所述滤波后特征图进行卷积处理,得到卷积后特征图;
使用最大池化核对卷积后特征图进行池化处理,得到池化后特征图;
将池化后特征图输入全连接层,然后基于softmax激活函数进行处理,得到视频特征。
3.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:对所述文本数据进行特征提取时,基于卷积神经网络实现;对所述文本数据进行特征提取,得到文本特征,包括:
构建数据字典,通过所述数据字典将所述文本数据一一映射为向量编码;
采用embedding层将所述向量编码映射至高维空间,得到所述文本数据中每句话的特征向量;
将所述特征向量输入CNN层,通过一层卷积层进行卷积处理,再通过一层最大池化层进行池化处理,得到语句特征;
将所述语句特征输入全连接网络,然后基于ReLU激活函数进行处理,得到文本特征。
4.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:对所述音频数据进行特征提取,得到音频特征,包括:
从音频数据中去除背景噪声,得到除噪后音频数据;
使用z标准化对所述除噪后音频数据进行语音归一化,得到归一化处理后音频数据;
对所述归一化处理后音频数据进行高维音频特征提取处理,得到高维音频特征;
将所述高维音频特征进行降维处理,得到音频特征。
5.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。
6.根据权利要求5所述的一种基于多模态的欺骗检测方法,其特征在于:采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合,得到融合后特征,包括:
将所述视频特征、所述文本特征和所述音频特征都转换为指定维度的矩阵;
对所述视频特征对应的指定维度的矩阵、所述文本特征对应的指定维度的矩阵和所述音频特征对应的指定维度的矩阵进行哈达玛积处理,得到融合后特征。
7.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:所述多模态模型采用多层感知机模型。
8.根据权利要求7所述的一种基于多模态的欺骗检测方法,其特征在于:所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层,其中,所述隐藏层的大小为1024,以便于将融合后特征的维度转换为1×1024维,所述dropout层的dropout概率为0.5,代表50%的隐藏层节点不进行反向传播,所述非线性激活层采用激活函数ReLU,所述全连接层的大小为2,以便输出1×2维特征;
将所述融合后特征输入多模态模型进行处理,得到欺骗检测结果,包括:
将所述融合后特征依次输入隐藏层、dropout层、非线性激活层、全连接层和softmax函数层,得到欺骗检测结果(x,y),其维度为1×2维,其中所述欺骗检测结果(x,y)中,元素值x代表被测用户说真话的概率,元素值y代表被测用户说假话的概率。
9.根据权利要求1所述的一种基于多模态的欺骗检测方法,其特征在于:得到欺骗检测结果后,所述基于多模态的欺骗检测方法还包括:
将所述欺骗检测结果与真实标签值输入交叉熵损失函数中进行计算,得到所述欺骗检测结果与真实标签值之间的损失值;
对计算出的损失值进行求导,得到梯度;
根据所述梯度,使用SGD优化器对所述多模态模型进行反向传播,以便于最小化所述多模态模型输出的欺骗检测结果和真实标签值之间的交叉熵损失,得到优化后多模态模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481779.8A CN114881668A (zh) | 2022-05-05 | 2022-05-05 | 一种基于多模态的欺骗检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481779.8A CN114881668A (zh) | 2022-05-05 | 2022-05-05 | 一种基于多模态的欺骗检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881668A true CN114881668A (zh) | 2022-08-09 |
Family
ID=82674704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210481779.8A Pending CN114881668A (zh) | 2022-05-05 | 2022-05-05 | 一种基于多模态的欺骗检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881668A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662447A (zh) * | 2022-09-22 | 2023-01-31 | 北京邮电大学 | 一种基于多特征融合的测谎分析方法及装置 |
CN117196096A (zh) * | 2023-08-21 | 2023-12-08 | 中电科新型智慧城市研究院有限公司 | 目标事件的预测方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
CN112329746A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 多模态谎言检测方法、装置、设备 |
CN112861945A (zh) * | 2021-01-28 | 2021-05-28 | 清华大学 | 一种多模态融合谎言检测方法 |
-
2022
- 2022-05-05 CN CN202210481779.8A patent/CN114881668A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
CN112329746A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 多模态谎言检测方法、装置、设备 |
CN112861945A (zh) * | 2021-01-28 | 2021-05-28 | 清华大学 | 一种多模态融合谎言检测方法 |
Non-Patent Citations (1)
Title |
---|
贝叶斯派对: "一种基于深度学习的多模态欺骗检测方法", 《知乎》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662447A (zh) * | 2022-09-22 | 2023-01-31 | 北京邮电大学 | 一种基于多特征融合的测谎分析方法及装置 |
CN115662447B (zh) * | 2022-09-22 | 2023-04-07 | 北京邮电大学 | 一种基于多特征融合的测谎分析方法及装置 |
CN117196096A (zh) * | 2023-08-21 | 2023-12-08 | 中电科新型智慧城市研究院有限公司 | 目标事件的预测方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Atila et al. | Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition | |
Kumar et al. | Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance. | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN108805087B (zh) | 基于多模态情绪识别系统的时序语义融合关联判断子系统 | |
CN108877801B (zh) | 基于多模态情绪识别系统的多轮对话语义理解子系统 | |
CN114881668A (zh) | 一种基于多模态的欺骗检测方法 | |
CN111326178A (zh) | 基于卷积神经网络的多模态语音情感识别系统及方法 | |
Ding et al. | Deep connected attention (DCA) ResNet for robust voice pathology detection and classification | |
CN112418166A (zh) | 一种基于多模态信息的情感分布学习方法 | |
CN112101096A (zh) | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 | |
Venu | IOT Based Speech Recognition System to Improve the Performance of Emotion Detection | |
Kuang et al. | Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Mavaddati | Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
JP2016162437A (ja) | パターン分類装置、パターン分類方法およびパターン分類プログラム | |
Zhang et al. | Multimodal emotion recognition integrating affective speech with facial expression | |
CN112699236B (zh) | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 | |
Sindhu et al. | Automatic Speech and Voice Disorder Detection using Deep Learning-A Systematic Literature Review | |
Wu | Multimodal emotion recognition | |
Fennir et al. | Acoustic scene classification for speaker diarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220809 |
|
RJ01 | Rejection of invention patent application after publication |