CN112329746A - 多模态谎言检测方法、装置、设备 - Google Patents

多模态谎言检测方法、装置、设备 Download PDF

Info

Publication number
CN112329746A
CN112329746A CN202110001041.2A CN202110001041A CN112329746A CN 112329746 A CN112329746 A CN 112329746A CN 202110001041 A CN202110001041 A CN 202110001041A CN 112329746 A CN112329746 A CN 112329746A
Authority
CN
China
Prior art keywords
features
word
audio
video
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110001041.2A
Other languages
English (en)
Other versions
CN112329746B (zh
Inventor
陶建华
孙立才
刘斌
连政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110001041.2A priority Critical patent/CN112329746B/zh
Publication of CN112329746A publication Critical patent/CN112329746A/zh
Application granted granted Critical
Publication of CN112329746B publication Critical patent/CN112329746B/zh
Priority to US17/389,383 priority patent/US11244119B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及数据处理领域,具体涉及一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。所述方法包括:输入待测音频、待测视频以及待测文本这三个模态的原始数据;对输入内容分别进行特征提取,得到三个模态的深度特征;对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画,得到每个词的融合后的多模态特征;对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;对上述每个词的最终的特征进行池化得到全局特征,然后通过全连接层得到谎言分类结果。

Description

多模态谎言检测方法、装置、设备
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种多模态谎言检测方法、装置、设备。
背景技术
传统的谎言检测技术是利用接触式的生理信号,例如皮肤电、心电以及脑电信号灯进行谎言检测,但这类方法受限与受试者的配合程度,从而无法特别准确进行谎言检测。随着计算机科学技术的发展,基于音视频的非接触式谎言检测方法应运而生,未来将会在教育、金融等领域会有广泛的应用。现有的非接触式谎言检测方法为使用深度神经网络提取各个模态的特征,采用特征拼接的方式将不同模态的特征进行整合,使用循环神经网络对上下文进行建模,最后得到测谎结果。
现有技术的缺点是,将提取出的各个模态的特征进行简单的拼接,忽略了对不同模态特征高阶交互的关系,导致测谎效果不佳,同时循环神经网络在面对长时序列时建模效果不好,导致测谎效果不佳。
发明内容
本申请实施例提供一种多模态谎言检测方法、装置、设备,旨在提高自动谎言检测的准确率。
本申请实施例第一方面提供一种多模态谎言检测方法,所述方法包括:
输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态;
对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征;
对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征;
对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;
根据所述每个词的最终的特征,得到谎言分类结果。
可选地,对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征,包括:
利用文本对齐工具,获取所述待测音频、待测视频和待测文本中每个词语的对齐信息;
根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征;
根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征;
将所述待测文本输入至预先训练好的文本特征提取网络中,从所述待测文本中提取出所述词级别的深度文本特征。
可选地,根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征,包括:
根据所述对齐信息,从所述待测音频中提取每个词对应的音频片段;
将所述音频片段输入至所述预先训练好的音频特征提取网络,得到所述词级别的深度音频特征。
可选地,根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征,包括:
根据所述对齐信息,从所述待测视频中提取每个词对应的视频片段;
从所述视频片段中提取其中包含的多帧图像;
对所述多帧图像进行降采样,得到降采样后的多幅图像;
将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络,从所述降采样后的多幅图像中提取出高层特征;
将所述高层特征进行池化,得到池化后的特征,将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。
可选地,对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征,包括:
对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度,得到均衡化后的词级别的音频特征、视频特征以及文本特征;
在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,增加元素后的词级别的音频特征、视频特征以及文本特征;
计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积,得到每个词的融合后的多模态特征。
可选地,对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征,包括:
利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征;
将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中,得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征;
将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征。
可选地,利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征,包括:
利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项;
利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征。
可选地,根据所述每个词的最终的特征,得到谎言分类结果,包括:
将所述每个词的最终的特征输入池化层中,利用最大池化得到全局水平特征;
将所述全局水平特征输入全连接网络中,通过所述全连接网络输出所述谎言分类结果。
本申请实施例第二方面提供一种多模态谎言检测装置,所述装置包括:
待测片段输入模块,用于输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态;
短时特征提取模块,用于对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征;
多模态特征融合模块,用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征;
时序上下文建模模块,用于对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;
谎言分类模块,用于根据所述每个词的最终的特征,得到谎言分类结果。
可选地,所述短时特征提取模块包括:
文本对齐子模块,用于利用文本对齐工具,获取所述待测音频、待测视频和待测文本中每个词语的对齐信息;
音频特征提取子模块,用于根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征;
视频特征提取子模块,用于根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征;
文本特征提取子模块,用于将所述待测文本输入至预先训练好的文本特征提取网络中,从所述待测文本中提取出所述词级别的深度文本特征。
可选地,音频特征提取子模块包括:
音频片段提取子模块,用于根据所述对齐信息,从所述待测音频中提取每个词对应的音频片段;
深度音频特征提取子模块,用于将所述音频片段输入至所述预先训练好的音频特征提取网络,得到所述词级别的深度音频特征。
可选地,所述视频特征提取子模块包括:
视频片段提取子模块,用于根据所述对齐信息,从所述待测视频中提取每个词对应的视频片段;
图像提取子模块,用于从所述视频片段中提取其中包含的多帧图像;
图像降采样子模块,用于对所述多帧图像进行降采样,得到降采样后的多幅图像;
高层特征提取子模块,用于将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络,从所述降采样后的多幅图像中提取出高层特征;
深度视频特征提取子模块,用于将所述高层特征进行池化,得到池化后的特征,将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。
可选地,所述多模态特征融合模块包括:
深度特征均衡化子模块,用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度,得到均衡化后的词级别的音频特征、视频特征以及文本特征;
追加元素子模块,用于在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,增加元素后的词级别的音频特征、视频特征以及文本特征;
多模态特征融合子模块,用于计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积,得到每个词的融合后的多模态特征。
可选地,所述时序上下文建模模块包括:
自注意力机制融合子模块,用于利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征;
隐藏层特征提取子模块,用于将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中,得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征;
最终特征拼接子模块,用于将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征。
可选地,所述自注意力机制融合子模块包括:
参数计算子模块,用于利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项;
注意力机制计算子模块,用于利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征。
可选地,所述谎言分类模块包括:
池化子模块,用于将所述每个词的最终的特征输入池化层中,利用最大池化得到全局水平特征;
谎言分类子模块,用于将所述全局水平特征输入全连接网络中,通过所述全连接网络输出所述谎言分类结果。
本申请实施例第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的基于循环神经网络和自注意力机制的多模态谎言检测方法,将输入的待测音频、待测视频和待测文本利用对齐工具得到每个词的对齐信息,结合每个词的对齐信息,利用预先训练好的音频特征提取网络提取待测音频的深度音频特征;结合每个词的对齐信息,利用预先训练好的视频特征提取网络提取待测视频的深度视频特征;利用预先训练好的文本特征提取网络提取出深度文本特征,利用张量融合策略对深度音频特征、深度视频特征和深度文本特征进行融合得到每个词的融合后的多模态特征,利用自注意力机制对每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征,将融合自注意力机制的多模态特征分别输入双向循环神经网络之中,捕捉语言中的长时依赖关系,得到每个词的最终的特征,利用最大池化获取全局水平特征,通过全连接网络输出谎言分类结果。本发明通过张量融合策略显示刻画了多模态特征中的一阶及高阶交互关系,显式地对音频、视频以及文本三个模态特征表示中的一阶以及高阶交互关系进行建模,达到了充分整合多模态信息的效果,利用双向长短时记忆循环神经网络和自注意力机制可以有效地捕捉到任意位置的两个词的上下文关系,有效地完成了时序上下文的建模,较好地避免了双向网络在时序建模时各自单独存在的问题,提高了谎言检测的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的多模态谎言检测方法的流程图;
图2是本申请一实施例提出的多模态谎言检测装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例中,通过利用预先训练好的网络来提取词级别的深度特征表示,和传统的手工特征相比更加高效而且不需要领域内特定的专家知识,通过采用张量融合的方法显示地对音频、视频以及文本三个模态特征表示中的一阶以及高阶交互关系进行建模,达到了充分整合多模态信息的效果,本发明中,通过有机地结合循环神经网络和自注意力机制来捕捉语言中的长时依赖关系,较好地避免了两种网络在时序建模时各自单独存在的问题,从而提高了谎言检测的准确率。
参考图1,图1是本申请一实施例提出的一种多模态谎言检测方法的流程图。如图1所示,该方法包括以下步骤:
S11:输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态。
本实施例中,待测音频、待测视频是同一个片段中的视频和音频,待测文本和待测音频、待测视频相对应,音频、视频和文本分别为这段视频中的三种模态。
本实施例中,本实施例中需要对这三种模态的数据进行分析,以检测输入片段中的人物说出的话语的真假。
示例地,可以输入一个片段,该片段中有一个或多个人物说话,这一个或多个人物说话的连续画面就是待测视频,该片段中出现的音频就是待测音频,该片段中的视频和音频中对应的文本就是待测文本,例如该片段中一个人说了一句话,这个人说话的画面就是待测视频,这个人说话的语音就是待测音频,这个人说的话的文字内容就是待测文本。
S12:对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征。
本实施例中,对待测音频、待测视频以及待测文本进行特征提取是将待测音频、待测视频以及待测文本的转化为特征向量输入到神经网络中,词级别指的是提取输入片段中的每个词语对应的深度音频特征、深度视频特征以及深度文本特征。
本实施例中,对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征的具体步骤为:
S12-1:利用文本对齐工具,获取所述待测音频、待测视频和待测文本中每个词语的对齐信息。
本实施例中,文本对齐就是将待测文本中的内容与待测音频和待测视频中的内容一一对应起来,本发明中是以词语为单位对待测内容进行处理,所以需要将待测文本中的每个词语和待测音频、待测视频进行对齐,一个词语的文本对应了这个词语的音频和人物说这个词语的视频画面。
本实施例中,通过定位待测文本中的每个词语在输入片段中视频和音频的开始时间和终止时间,将待测音频和待测视频与待测文本进行对齐。
示例地,文本对齐工具可以得到每待测音频、待测视频和待测文本中每个词
Figure 139904DEST_PATH_IMAGE001
的对齐信息
Figure 119362DEST_PATH_IMAGE002
,其中
Figure 899099DEST_PATH_IMAGE003
表示每个词语
Figure 107357DEST_PATH_IMAGE001
在输入片段中的起始时间,
Figure 921730DEST_PATH_IMAGE004
表示每个词语
Figure 806509DEST_PATH_IMAGE001
在输入片段中的终止时间。文本对齐工具是将输入的音频、视频和文本的每个词语
Figure 73542DEST_PATH_IMAGE001
的出现时间一一对应起来的工具,对齐工具可以使用常用的对齐工具,本实施例不做限制。
S12-2:根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征。
本实施例中,根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征的具体步骤包括:
S12-2-1:根据所述对齐信息,从所述待测音频中提取每个词对应的音频片段。
本实施例中,对齐信息中包含了待测音频中每个词的起始时间与终止时间,根据对齐信息中的每个词的起始时间与终止时间提取出待测音频中每个词对应的音频片段。
示例地,根据输入片段中每个词
Figure 272442DEST_PATH_IMAGE001
的对齐信息
Figure 252906DEST_PATH_IMAGE002
,在待测音频中提取出对应的音频片段
Figure 246269DEST_PATH_IMAGE005
,例如在待测文本中有一个词是“你好”,这个词的对齐信息显示待测音频中“你好”这个词的开始时间为“00:16”结束时间为“00:17”,那么根据这个对齐信息,可以提取出待测音频中第16秒到第17秒的音频片段为“你好”这个词语对应的音频片段。
S12-2-2:将所述音频片段输入至所述预先训练好的音频特征提取网络,得到所述词级别的深度音频特征。
本实施例中,使用预先训练好的音频特征提取网络来进行音频特征提取,将每个词对应的音频片段输入预先训练好的音频特征提取网络中,就可以得到每个词的深度音频特征。
本实施例中,音频特征提取网络可以将输入的音频片段
Figure 599DEST_PATH_IMAGE005
转化为特征向量,该特征向量就是词语
Figure 737611DEST_PATH_IMAGE001
对应的深度音频特征
Figure 323313DEST_PATH_IMAGE006
。音频特征提取网络可以采用常见的特征提取网络,例如VGGish,本实施例不做限制。
S12-3:根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征。
本实施例中,根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征的具体步骤为:
S12-3-1:根据所述对齐信息,从所述待测视频中提取每个词对应的视频片段。
本实施例中,根据每个词
Figure 753157DEST_PATH_IMAGE001
的对齐信息
Figure 994783DEST_PATH_IMAGE002
提取出每个词对应的视频片段
Figure 82955DEST_PATH_IMAGE007
的方法与根据每个词的对齐信息提取出每个词对应的音频片段的方法相同,在此不再多做叙述。
S12-3-2:从所述视频片段中提取其中包含的多帧图像。
本实施例中,每个视频片段中都包含有多帧图像,将这些图像逐帧提取出来,以便于对图像进行后续处理。
示例地,假设待测视频的帧率为每秒30帧,从S11-3-1中提取出了“你好”这个词语对应的视频片段,这个视频片段的时长为1秒,那么就将这1秒内的30帧画面全部提取出来。
S12-3-3:对所述多帧图像进行降采样,得到降采样后的多幅图像。
本实施例中,降采样就是减少采样的点数,这样可以将图片缩小至预设大小,生成对应图像的缩略图,便于后续的处理。
示例地,可以将大小为500×500的图像统一降采样为大小为128*128的图像。
S12-3-4:将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络,从所述降采样后的多幅图像中提取出高层特征。
本实施例中,将降采样后的图像输入预先训练好的图像特征提取网络可以提取出每个图像的图像特征,图像特征网络对图像做了多次卷积计算,每次卷积计算都可以提取出这些图像的抽象特征,进而将这些图像转化为了特征向量,这些特征向量就是图像的高层特征。
S12-3-5:将所述高层特征进行池化,得到池化后的特征,将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。
本实施例中,将得到的所有图像输入特征提取网络的池化层中,池化层可以将图像的高层特征进行进一步处理,减少不必要的参数,在简化计算量的同时保留了图像的主要特征,池化后的特征向量就是视频片段的深度视频特征
Figure 726426DEST_PATH_IMAGE008
本实施例中,视频特征提取网络可使用例如VGG、ResNet等用于视频特征提取的网络,在此不做限制。
S12-4:将所述待测文本输入至预先训练好的文本特征提取网络中,从所述待测文本中提取出所述词级别的深度文本特征。
本实施例中,预先训练好的文本特征提取网络在接收到待测文本后,会提取出待测文本中每个词语的深度文本特征。
示例地,将待测文本输入至预先训练好的文本特征提取网络,文本本特征提取网络会提取出待测文本中每个词
Figure 61593DEST_PATH_IMAGE001
的词嵌入,即每个词
Figure 790514DEST_PATH_IMAGE001
的词向量,这些词向量就是每个词
Figure 931646DEST_PATH_IMAGE001
对应的深度文本特征
Figure 429623DEST_PATH_IMAGE009
。提取网络可以使用常用的用于语义识别的网络例如word2vec等网络,在这里不做限制。
S13:对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征。
本实施例中,为了更好地分析出输入片段中人物说出的话语的真假,需要将词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征,每个词的融合后的多模态特征可以结合三个模态的交互融合信息更加准确的分析输入片段中人物说话的真假,提高测谎准确率。
本实施例中,对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征的具体步骤为:
S13-1:对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度,得到均衡化后的词级别的音频特征、视频特征以及文本特征。
本实施例中,为了将三个模态的特征进行融合,首先需要将深度音频特征、深度视频特征以及深度文本特征分别进行线性变换,将三种模态的特征维度进行均衡化,均衡化的方法为:
Figure 201270DEST_PATH_IMAGE010
Figure 151908DEST_PATH_IMAGE011
Figure 345998DEST_PATH_IMAGE012
上述公式中,
Figure 698482DEST_PATH_IMAGE013
为词级别的深度音频特征,
Figure 641030DEST_PATH_IMAGE014
为词级别的深度视频特征,
Figure 141282DEST_PATH_IMAGE015
为词级别的深度文本特征,
Figure 561899DEST_PATH_IMAGE016
为深度音频特征线性变化参数,
Figure 34469DEST_PATH_IMAGE017
为深度视频特征线性变化参数,
Figure 147918DEST_PATH_IMAGE018
为深度文本特征线性变化参数。通过上述计算得到的是均衡化后的词级别的音频特征
Figure 886198DEST_PATH_IMAGE019
、均衡化后的词级别的深度视频特征
Figure 110506DEST_PATH_IMAGE020
、均衡化后的次级别的深度文本特征
Figure 172003DEST_PATH_IMAGE021
S13-2:在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,增加元素后的词级别的音频特征、视频特征以及文本特征。
本实施例中,为了保留融合后多模态特征的一阶特性和二阶特性,需要在均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,这样在后续计算中可以显示地对不同模态间的一阶、二阶关系进行建模,具体方法为:
Figure 518671DEST_PATH_IMAGE022
上述公式中,
Figure 931197DEST_PATH_IMAGE023
为增加元素后的词级别的音频特征、
Figure 959196DEST_PATH_IMAGE024
为增加元素后的词级别的视频特征、
Figure 140779DEST_PATH_IMAGE025
为增加元素后的词级别的文本特征。
S13-3:计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积,得到每个词的融合后的多模态特征。
本实施例中,将增加元素后的词级别的音频特征、视频特征以及文本特征张量相乘,以得到每个词的融合后的多模态特征,计算方法是:
Figure 659614DEST_PATH_IMAGE026
上述公式中,
Figure 559437DEST_PATH_IMAGE027
是每个词的融合后的多模态特征,
Figure 125548DEST_PATH_IMAGE028
是张量积计算符号。
本实施例中,对三个模态的特征进行张量计算,可以对不同模态间的三阶关系进行显示刻画,因为S13-2中为每个特征追加了一个元素1,在张量计算中同时保留了不同模态间的一二阶关系。
S14:对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征。
本实施例中,通过S13得到到了每个词的每个词的融合后的多模态特征,还需要参考上下文之间的关系,来得到每个词语每个词的最终的特征。
本实施例中,对对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征的具体步骤是:
S14-1:利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征。
本实施例中,自注意力机制可以计算出每个每个词的融合后的多模态特征的权重,在特征分析时可以对权重高的词重点关注,有利于提高谎言检测的准确率。利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征的具体步骤是:
S14-1-1:利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项。
本实施例中,每个词的注意力权重和注意力值项的计算方法为:
Figure 427216DEST_PATH_IMAGE029
Figure 286326DEST_PATH_IMAGE030
Figure 735761DEST_PATH_IMAGE031
Figure 105563DEST_PATH_IMAGE032
上述公式中,
Figure 996159DEST_PATH_IMAGE033
是注意力查询项,
Figure 606263DEST_PATH_IMAGE034
是健项,
Figure 215098DEST_PATH_IMAGE035
是注意力值项,
Figure 450908DEST_PATH_IMAGE036
是注意力权重,
Figure 461589DEST_PATH_IMAGE037
Figure 741130DEST_PATH_IMAGE038
Figure 837261DEST_PATH_IMAGE039
为线性变化参数,
Figure 548866DEST_PATH_IMAGE040
Figure 476370DEST_PATH_IMAGE041
的转置,
Figure 615228DEST_PATH_IMAGE042
是向量的维度,softmax是一种函数。
S14-1-2:利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征。
本实施例中,利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征的方法是:
Figure 198656DEST_PATH_IMAGE043
上述公式中,
Figure 261421DEST_PATH_IMAGE044
为每个词融合自注意力机制的多模态特征,
Figure 246694DEST_PATH_IMAGE045
为加权计算符号。
S14-2:将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中,得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征。
本实施例中,使用双向长短时记忆循环神经网络可以考虑到每个词之间的互相影响,捕捉到每个词之间的长时依赖关系。其特征可以表示为:
Figure 936214DEST_PATH_IMAGE046
Figure 6938DEST_PATH_IMAGE047
上述公式中,
Figure 60344DEST_PATH_IMAGE048
代表前向特征,
Figure 962441DEST_PATH_IMAGE049
代表后向特征,
Figure 505418DEST_PATH_IMAGE050
代表前向网络计算,
Figure 797859DEST_PATH_IMAGE051
代表后向网络计算,
Figure 717274DEST_PATH_IMAGE052
代表前一个词语的特征,
Figure 411560DEST_PATH_IMAGE053
代表前一个记忆单元,
Figure 312389DEST_PATH_IMAGE054
代表后一个词语的特征,
Figure 357705DEST_PATH_IMAGE055
代表后一个记忆单元。
S14-3:将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征。
本实施例中,将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征可以表示为:
Figure 2182DEST_PATH_IMAGE056
上述公式中
Figure 550975DEST_PATH_IMAGE057
表示每个词的最终的特征。
示例地,双向长短时记忆循环神经网络为双向LSTM网络。
S15:根据所述每个词的最终的特征,得到谎言分类结果。
本实施例中,根据所述每个词的最终的特征,得到谎言分类结果的具体步骤为:
S15-1:将所述每个词的最终的特征输入池化层中,利用最大池化得到全局水平特征。
本实施例中,每个词的最终的特征就是每个词对应的最终的特征向量,将这些特征向量输入池化层中,利用最大池化的方式可以得到输入片段中所有语句的全局水平特征,全局水平特征就是输入片段中每个语句的总体特征,通过对比神经网络已经学习到的真话与谎言的特征和全局水平特征,就可以判断输入片段中每句话的真假。
示例地,使用标注了真话和假话的片段作为训练集训练谎言检测网络,得到训好的谎言检测网络,对输入片段进行谎言识别。在训练谎言检测网络时输入的训练用的片段中标注了每个人物说的每句话的真假,谎言检测网络就会学习到人物说真话和说假话时的视频、音频、文本特征。谎言检测网络训练完成之后,将待测片段的视频、音频、文本输入谎言检测网络之中,谎言检测网络会通过上述步骤提取出待测片段中每句话的全局水平特征,通过对比学习到的真话与假话的特征和每句话的全局水平特征,就可以判断出输入片段中每句话的真假。
S15-2:将所述全局水平特征输入全连接网络中,通过所述全连接网络输出所述谎言分类结果。
本实施例中,全连接网络起到一个分类器的作用,可以根据全局水平特征为输入影片中的每句话进行分类,分类结果为真话或假话,分类完成后将结果进行输出,完成谎言检测任务。
基于同一发明构思,本申请一实施例提供一种多模态谎言检测装置200。参考图2,图2是本申请一实施例提出的多模态谎言检测装置的示意图。如图2所示,该装置包括:
待测片段输入模块201,用于输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态;
短时特征提取模块202,用于对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征;
多模态特征融合模块203,用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征;
时序上下文建模模块204,用于对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;
谎言分类模块205,用于根据所述每个词的最终的特征,得到谎言分类结果。
可选地,所述短时特征提取模块包括:
文本对齐子模块,用于利用文本对齐工具,获取所述待测音频、待测视频和待测文本中每个词语的对齐信息;
音频特征提取子模块,用于根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征;
视频特征提取子模块,用于根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征;
文本特征提取子模块,用于将所述待测文本输入至预先训练好的文本特征提取网络中,从所述待测文本中提取出所述词级别的深度文本特征。
可选地,音频特征提取子模块包括:
音频片段提取子模块,用于根据所述对齐信息,从所述待测音频中提取每个词对应的音频片段;
深度音频特征提取子模块,用于将所述音频片段输入至所述预先训练好的音频特征提取网络,得到所述词级别的深度音频特征。
可选地,所述视频特征提取子模块包括:
视频片段提取子模块,用于根据所述对齐信息,从所述待测视频中提取每个词对应的视频片段;
图像提取子模块,用于从所述视频片段中提取其中包含的多帧图像;
图像降采样子模块,用于对所述多帧图像进行降采样,得到降采样后的多幅图像;
高层特征提取子模块,用于将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络,从所述降采样后的多幅图像中提取出高层特征;
深度视频特征提取子模块,用于将所述高层特征进行池化,得到池化后的特征,将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。
可选地,所述多模态特征融合模块包括:
深度特征均衡化子模块,用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度,得到均衡化后的词级别的音频特征、视频特征以及文本特征;
追加元素子模块,用于在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,增加元素后的词级别的音频特征、视频特征以及文本特征;
多模态特征融合子模块,用于计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积,得到每个词的融合后的多模态特征。
可选地,所述时序上下文建模模块包括:
自注意力机制融合子模块,用于利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征;
隐藏层特征提取子模块,用于将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中,得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征;
最终特征拼接子模块,用于将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征。
可选地,所述自注意力机制融合子模块包括:
参数计算子模块,用于利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项;
注意力机制计算子模块,用于利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征。
可选地,所述谎言分类模块包括:
池化子模块,用于将所述每个词的最终的特征输入池化层中,利用最大池化得到全局水平特征;
谎言分类子模块,用于将所述全局水平特征输入全连接网络中,通过所述全连接网络输出所述谎言分类结果。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的基于循环神经网络和自注意力机制的多模态谎言检测方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种多模态谎言检测方法、装置、设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.多模态谎言检测方法,其特征在于,所述方法包括:
输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态;
对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征;
对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征;
对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;
根据所述每个词的最终的特征,得到谎言分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征,包括:
利用文本对齐工具,获取所述待测音频、待测视频和待测文本中每个词语的对齐信息;
根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征;
根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征;
将所述待测文本输入至预先训练好的文本特征提取网络中,从所述待测文本中提取出所述词级别的深度文本特征。
3.根据权利要求2所述的方法,其特征在于,根据所述对齐信息,结合预先训练好的音频特征提取网络,从所述待测音频中提取出所述词级别的深度音频特征,包括:
根据所述对齐信息,从所述待测音频中提取每个词对应的音频片段;
将所述音频片段输入至所述预先训练好的音频特征提取网络,得到所述词级别的深度音频特征。
4.根据权利要求2所述的方法,其特征在于,根据所述对齐信息,结合预先训练好的视频特征提取网络,从所述待测视频中提取出所述词级别的深度视频特征,包括:
根据所述对齐信息,从所述待测视频中提取每个词对应的视频片段;
从所述视频片段中提取其中包含的多帧图像;
对所述多帧图像进行降采样,得到降采样后的多幅图像;
将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络,从所述降采样后的多幅图像中提取出高层特征;
将所述高层特征进行池化,得到池化后的特征,将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。
5.根据权利要求1所述的方法,其特征在于,对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征,包括:
对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度,得到均衡化后的词级别的音频特征、视频特征以及文本特征;
在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素,增加元素后的词级别的音频特征、视频特征以及文本特征;
计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积,得到每个词的融合后的多模态特征。
6.根据权利要求1所述的方法,其特征在于,对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征,包括:
利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征;
将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中,得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征;
将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接,得到所述每个词的最终的特征。
7.根据权利要求6所述的方法,其特征在于,利用自注意力机制对所述每个词的融合后的多模态特征进行计算,得到融合自注意力机制的多模态特征,包括:
利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项;
利用所述每个词的注意力权重和注意力值项进行计算,得到所述融合自注意力机制的多模态特征。
8.根据权利要求1所述的方法,其特征在于,根据所述每个词的最终的特征,得到谎言分类结果,包括:
将所述每个词的最终的特征输入池化层中,利用最大池化得到全局水平特征;
将所述全局水平特征输入全连接网络中,通过所述全连接网络输出所述谎言分类结果。
9.一种多模态谎言检测装置,其特征在于,所述装置包括:
待测片段输入模块,用于输入待测音频、待测视频以及待测文本,所述待测音频、待测视频以及待测文本为三种不同模态;
短时特征提取模块,用于对所述待测音频、待测视频以及待测文本分别进行特征提取,得到词级别的深度音频特征、深度视频特征以及深度文本特征;
多模态特征融合模块,用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画,得到每个词的融合后的多模态特征;
时序上下文建模模块,用于对所述每个词的融合后的多模态特征进行上下文建模,得到每个词的最终的特征;
谎言分类模块,用于根据所述每个词的最终的特征,得到谎言分类结果。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8任一所述的方法的步骤。
CN202110001041.2A 2021-01-04 2021-01-04 多模态谎言检测方法、装置、设备 Active CN112329746B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110001041.2A CN112329746B (zh) 2021-01-04 2021-01-04 多模态谎言检测方法、装置、设备
US17/389,383 US11244119B1 (en) 2021-01-04 2021-07-30 Multi-modal lie detection method and apparatus, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001041.2A CN112329746B (zh) 2021-01-04 2021-01-04 多模态谎言检测方法、装置、设备

Publications (2)

Publication Number Publication Date
CN112329746A true CN112329746A (zh) 2021-02-05
CN112329746B CN112329746B (zh) 2021-04-16

Family

ID=74302042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001041.2A Active CN112329746B (zh) 2021-01-04 2021-01-04 多模态谎言检测方法、装置、设备

Country Status (2)

Country Link
US (1) US11244119B1 (zh)
CN (1) CN112329746B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881668A (zh) * 2022-05-05 2022-08-09 灵图数据(杭州)有限公司 一种基于多模态的欺骗检测方法
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818776B (zh) * 2022-03-18 2022-11-11 北京邮电大学 多模态测谎的数据对齐及异常值处理方法、装置及存储介质
CN114782739B (zh) * 2022-03-31 2023-07-14 电子科技大学 基于双向长短期记忆层和全连接层的多模态分类方法
CN115544227A (zh) * 2022-08-31 2022-12-30 浙江极氪智能科技有限公司 多模态数据的情感分析方法、装置、设备及存储介质
CN115423050A (zh) * 2022-11-04 2022-12-02 暨南大学 一种虚假新闻检测方法、装置、电子设备及存储介质
CN116563751B (zh) * 2023-04-19 2024-02-06 湖北工业大学 一种基于注意力机制的多模态情感分析方法及系统
CN117171712B (zh) * 2023-11-03 2024-02-02 中关村科学城城市大脑股份有限公司 辅助信息生成方法、装置、电子设备和计算机可读介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193987A1 (en) * 2015-12-30 2017-07-06 Le Holdings (Beijing) Co., Ltd. Speech recognition method and device
CN107305555A (zh) * 2016-04-20 2017-10-31 中国移动通信集团河北有限公司 数据处理方法及装置
CN109447129A (zh) * 2018-09-29 2019-03-08 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN110083654A (zh) * 2019-04-30 2019-08-02 中国船舶工业综合技术经济研究院 一种面向国防科技领域的多源数据融合方法及系统
CN110222331A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN110675352A (zh) * 2019-08-01 2020-01-10 广东技术师范大学 一种混合高低阶图卷积传播系统
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法
CN111723305A (zh) * 2020-05-29 2020-09-29 中国科学技术大学智慧城市研究院(芜湖) 一种预测用户下一轨迹点的方法
CN111839551A (zh) * 2019-04-29 2020-10-30 北京入思技术有限公司 一种基于视频和生理信号的多模态情感识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143170A1 (en) * 2002-12-20 2004-07-22 Durousseau Donald R. Intelligent deception verification system
WO2015191809A1 (en) * 2014-06-11 2015-12-17 Dignity Health Systems and methods for non-intrusive deception detection
CN109069072B (zh) * 2016-02-08 2021-11-30 纽洛斯公司 欺骗检测系统和方法
US11723566B2 (en) * 2017-05-09 2023-08-15 Eye-Minders Ltd. Deception detection system and method
US11074500B2 (en) * 2017-06-20 2021-07-27 Battelle Memorial Institute Prediction of social media postings as trusted news or as types of suspicious news
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193987A1 (en) * 2015-12-30 2017-07-06 Le Holdings (Beijing) Co., Ltd. Speech recognition method and device
CN107305555A (zh) * 2016-04-20 2017-10-31 中国移动通信集团河北有限公司 数据处理方法及装置
CN109447129A (zh) * 2018-09-29 2019-03-08 平安科技(深圳)有限公司 一种多模式情绪识别方法、装置及计算机可读存储介质
CN110222331A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN111839551A (zh) * 2019-04-29 2020-10-30 北京入思技术有限公司 一种基于视频和生理信号的多模态情感识别方法及系统
CN110083654A (zh) * 2019-04-30 2019-08-02 中国船舶工业综合技术经济研究院 一种面向国防科技领域的多源数据融合方法及系统
CN110675352A (zh) * 2019-08-01 2020-01-10 广东技术师范大学 一种混合高低阶图卷积传播系统
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法
CN111723305A (zh) * 2020-05-29 2020-09-29 中国科学技术大学智慧城市研究院(芜湖) 一种预测用户下一轨迹点的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881668A (zh) * 2022-05-05 2022-08-09 灵图数据(杭州)有限公司 一种基于多模态的欺骗检测方法
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116522212B (zh) * 2023-07-05 2023-09-26 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112329746B (zh) 2021-04-16
US11244119B1 (en) 2022-02-08

Similar Documents

Publication Publication Date Title
CN112329746B (zh) 多模态谎言检测方法、装置、设备
CN112560830B (zh) 多模态维度情感识别方法
US10657969B2 (en) Identity verification method and apparatus based on voiceprint
CN112559835B (zh) 多模态情感识别方法
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN112951240B (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
CN104933158B (zh) 数学问题求解模型的训练方法和装置、推理方法和装置
CN112598067A (zh) 事件的情感分类方法、装置、电子设备及存储介质
CN112951258B (zh) 一种音视频语音增强处理方法及装置
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN115050077A (zh) 情绪识别方法、装置、设备及存储介质
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN104700831B (zh) 分析音频文件的语音特征的方法和装置
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112329748B (zh) 面向交互场景的自动谎言检测方法、装置、设备及介质
CN111798871B (zh) 会话环节识别方法、装置及设备、存储介质
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN115101090A (zh) 语音内容检测方法、模型训练方法及相关装置
CN116612747B (zh) 语音音素识别方法、装置、设备及存储介质
CN113326780B (zh) 基于数据可靠性评价的非接触式负性心境检测方法和装置
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
Alnasser et al. Vocally Specified Text Recognition in Natural Scenes for the Blind and Visually Impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant