CN112329438B - 基于域对抗训练的自动谎言检测方法及系统 - Google Patents

基于域对抗训练的自动谎言检测方法及系统 Download PDF

Info

Publication number
CN112329438B
CN112329438B CN202011161532.5A CN202011161532A CN112329438B CN 112329438 B CN112329438 B CN 112329438B CN 202011161532 A CN202011161532 A CN 202011161532A CN 112329438 B CN112329438 B CN 112329438B
Authority
CN
China
Prior art keywords
lie
domain
neural network
modal
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011161532.5A
Other languages
English (en)
Other versions
CN112329438A (zh
Inventor
连政
刘斌
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Zhiji Technology Co ltd
Original Assignee
Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd filed Critical Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority to CN202011161532.5A priority Critical patent/CN112329438B/zh
Publication of CN112329438A publication Critical patent/CN112329438A/zh
Application granted granted Critical
Publication of CN112329438B publication Critical patent/CN112329438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于域对抗训练的自动谎言检测方法及系统,方法包括:S1,多模态特征提取,抽取文本特性表示、音频特征表示和面部特征表示;S2,多模态特征融合,利用自适应注意力机制获得多模态特征表示;S3,时序建模,利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测;S4,域对抗训练,利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;S5,谎言水平预测,将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平;系统包括:自上而下依次连接的多模态特征提取模块、多模态特征融合模块、时序建模模块、域对抗训练模块和谎言水平预测模块。

Description

基于域对抗训练的自动谎言检测方法及系统
技术领域
本发明涉及谎言分析技术领域,尤其是涉及了一种通过编码视频信息来自动地预测个体的谎言水平的方法及系统。
背景技术
“说谎”指的是说话人在知道事实的前提下,通过刻意隐瞒并提供与事实不符的语言信息的行为。自动谎言检测指的是,基于被试者的心理反映和行为反映,提出相应的模型和方法来建立起机器在捕获谎言线索方面的能力。自动谎言检测在刑事侦查领域具有广泛的前景,能够帮助刑侦人员加快审讯速度,提升审讯效率。
尽管自动谎言检测具有很重要的现实意义,但仍然存在着诸多难点。首先,谎言数据标注困难,如何利用较少的样本数据,就能取得不错的自动谎言检测能力,是一个较为困难的问题;其次,在说谎时,不同说话人具有不同的行为反应,如果学习到说话人无关的谎言特征,将有助于提升自动谎言检测系统对说话人的鲁棒性;最后,对话中的上下文信息和多模态信息对谎言的理解至关重要,如何有效利用这些信息进行谎言检测,也是一个值得探讨的问题。
首先,为了能在低资源情况下取得不错的检测效果,研究者往往采用无监督学习方法,通过从极少数据中学习到捕获数据本身内在结构的能力。例如自编码器、对抗自编码器、降噪自编码器等等。但是,这些无监督学习方法容易造成谎言信息的丢失,从而影响谎言检测的精度。
其次,如何学习到说话人无关的谎言特征表示,也是一个很重要的研究点。传统方法是在数据库划分过程中,确保训练集和测试集之间没有说话人重叠。但是上述方法也无法保证模型一定能够学习到说话人无关的谎言特征。
最后,上下文信息和多模态信息对于谎言检测至关重要。例如,在说谎时,到被测者往往存在前后矛盾的表述,这就需要综合考虑对话中的上下文信息,用于判断当前时刻被测者的谎言状态。除此之外,在谎言分析过程中,多模态信息至关重要,常用的模态包括语音、文本和面部等。对于语音而言,说谎时常常伴随着语速加快、声音颤抖、言语停顿更多、音调增高等现象,这些可以通过语音的韵律特征、频谱特征和音质特征反映出来;对于文本而言,说谎时常常伴随着言语错乱增多、内容更空洞、叹词较多、人称代词较少、用词重复频率降低等现象,这些可以通过文本的词向量反映出来;对于面部而言,说谎时常常伴随着眼神回避、快速眨眼、眼神躲闪、唇角翘起、脑袋低垂等现象,这些可以通过面部的外观特征和形状特征反映出来。
发明内容
为解决现有技术的不足,实现提高谎言检测的准确率目的,本发明采用如下的技术方案:
基于域对抗训练的自动谎言检测方法,包括如下步骤:
S1,多模态特征提取,抽取文本特性表示、音频特征表示和面部特征表示;
S2,多模态特征融合,利用自适应注意力机制获得多模态特征表示;
S3,时序建模,利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测;
S4,域对抗训练,利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;
S5,谎言水平预测,将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平。
所述步骤S1,通过视频段切分对语音时域波形、视频、文本进行切分,提取切分得到的各个模态数据的特征表示。
所述步骤S2,包括如下步骤:
S21,GA为音频特征,GL为文本特征,GV为面部特征,将各个模态特征映射到同一维度后,进行拼接:
Gcat=Concat(WAGA,WLGL,WVGV)
其中,WA,WL,WV为可训练参数,用于将各个模态特征映射到同一维度,Concat(*)是拼接操作,用于将内部所有特征按照特征维度进行拼接;
S22,计算每个模态的注意力权重,依据该注意力权重融合多模态特征:
F=GcatAF
其中,WF和wF为可训练参数,用于注意力权重计算,AF为每个模态的自适应注意力权重,用于表示各个模态对谎言检测的贡献度,对多模态特征Gcat按照注意力权重AF加权,使得模型能够自适应的关注于不同模态信息,从而获取更加鲁邦的多模态特征表示。
所述步骤S3,包括如下步骤:
S31,对话信息U=[u1,…,uN],其中uj(j=1,…,N)是对话中的第j句话,每个句子经过多模态特征融合模块后,获取每句话的多模态特征表示fj(j=1,…,N);
S32,将每句话的多模态特征输入到双向循环神经网络中,用于捕获对话中的上下文信息,辅助当前句子的谎言检测:
其中代表正向循环神经网络的输出,/>代表反向循环神经网络的输出,每个方向的循环神经网络,将上一时刻的隐层状态特征以及当前时刻的多模态特征fj作为输入信息,对于正向循环神经网络而言,上一时刻的隐层状态特征为/>而对于反向循环神经网络而言,上一时刻的隐层状态特征为/>
S33,将正向循环神经网络的输出和反向循环神经网络的输出/>拼接起来,作为融合上下文信息的特征表示:
从而增强了谎言检测的效果。
所述步骤S4,包括如下步骤:
S41,当对话数据库中存在M个有谎言标签对话和N个无谎言标签对话,并且所有对话的说话人信息已知,对话i包含Li个句子,其中第j个句子uij(j=1,…,Li)的说话人定义为sij,对于M个有谎言标签对话,uij的真实谎言状态为eij,而对于N个无谎言标签对话,uij的真实谎言状态未知,目标是预测N个无谎言标签对话的谎言状态,每个句子经过时序建模模块后,获取uij的特征表示rij
S42,域对抗训练中包括谎言分类器和领域分类器,都是基于特征rij进行分类,谎言分类器旨在最大化谎言识别精度,其损失函数定义为:
其中P(eij|rij)是基于输入特征rij,谎言分类器预测为真实谎言状态eij的概率,-logP(eij|rij)是交叉熵损失函数;
领域分类器旨在剔除说话人的影响,其损失函数定义为:
其中P(sij|rij)是基于输入特征rij,领域分类器预测为目标说话人sij的概率,-logP(sij|rij)是交叉熵损失函数;
S43,将谎言分类器损失函数和领域分类器损失函数加权融合,用于域对抗训练:
L=Le-λLd
其中,λ是权重系统,在领域分类器损失函数Ld上,增加梯度可逆层,使得模型学习到的特征表示对于领域不可区分,从而学习到说话人无关的谎言特征表示。
所述步骤S5,谎言检测水平使用准确率、召回率、F值进行度量,用于判断预测的谎言状态和真实谎言状态之间的相关性,从而有效地提高了自动谎言检测的预测精度。
基于域对抗训练的自动谎言检测系统,包括自上而下依次连接的多模态特征提取模块、多模态特征融合模块、时序建模模块、域对抗训练模块和谎言水平预测模块,多模态特征提取模块,用于抽取文本特性表示、音频特征表示和面部特征表示;多模态特征融合模块利用自适应注意力机制获得多模态特征表示;时序建模模块利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测;域对抗训练模块利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;谎言水平预测模块将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平。
所述多模态特征提取模块包括视频段切分模块和特征提取模块,视频段切分模块对语音时域波形、视频、文本进行切分,然后将切分得到的各个模态数据,输入到特征提取模块中提取各个模态的特征表示。
本发明的优势和有益效果在于:
本发明围绕自动谎言检测展开,通过自适应注意力机制获得多模态特征表示,相比于之前的特征更有助于提取具有区分性的特征;利用双向循环神经网络捕获对话中的上下文信息,从而增强了谎言检测的效果;通过域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响,提高了自动谎言检测的鲁棒性和准确性。
附图说明
图1是本发明的系统结构示意图。
图2是本发明中多模态特征提取模块的结构示意图。
图3是本发明中多模态特征融合模块的结构示意图。
图4是本发明中时序建模模块的结构示意图。
图5是本发明中域对抗训练模块的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,基于域对抗训练的自动谎言检测系统,包括多模态特征提取模块、多模态特征融合模块、时序建模模块、域对抗训练模块和谎言水平预测模块,多模态特征提取模块,用于抽取文本特性表示、音频特征表示和面部特征表示;多模态特征融合模块与多模态特征提取模块相连,利用自适应注意力机制获得多模态特征表示;时序建模模块与多模态特征融合模块相连,利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测;域对抗训练模块与时序建模模块相连,利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;谎言水平预测模块与域对抗训练模块相连,将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平,谎言检测水平使用准确率、召回率、F值进行度量,用于判断预测的谎言状态和真实谎言状态之间的相关性,从而有效地提高了自动谎言检测的预测精度。
如图2所示,视频段切分模块,对语音时域波形、视频、文本进行切分,然后将切分得到的各个模态数据,输入到特征提取模块中提取各个模态的特征表示。具体而言,抽取文本特性表示、音频特征表示和面部特征表示,将句子中所有词的词向量及其统计量作为文本特征;将语音中的韵律特征、音质特征和谱参数特征及其统计量作为音频特征;将人脸中的形状特征、外观特征及其统计量作为面部特征。
如图3所示,利用自适应注意力机制模块获得多模态特征表示,具体流程如下:
1、GA为音频特征,GL为文本特征,GV为面部特征,将各个模态特征映射到同一维度,然后进行拼接:
Gcat=Concat(WAGA,WLGL,WVGV)
其中,WA,WL,WV为可训练参数,用于将各个模态特征映射到同一维度,Concat(*)是拼接操作,用于将内部所有特征按照特征维度进行拼接。
2、计算每个模态的注意力权重,依据该注意力权重融合多模态特征:
F=GcatAF
其中,WF和wF为可训练参数,用于注意力权重计算,AF为每个模态的自适应注意力权重,用于表示各个模态对谎言检测的贡献度,对多模态特征Gcat按照注意力权重AF加权,使得模型能够自适应的关注于不同模态信息,从而获取更加鲁邦的多模态特征表示。
如图4所示,利用双向循环神经网络捕获对话中的上下文信息,具体流程如下:
1、对话信息U=[u1,…,uN],其中uj(j=1,…,N)是对话中的第j句话,每个句子经过多模态特征融合模块后,获取每句话的多模态特征表示fj(j=1,…,N)。
2、将这些特征输入到双向循环神经网络中,用于捕获对话中的上下文信息,辅助当前句子的谎言检测:
其中代表正向循环神经网络的输出,/>代表反向循环神经网络的输出。每个方向的循环神经网络,将上一时刻的隐层状态特征以及当前时刻的多模态特征fj作为输入信息。对于正向循环神经网络而言,上一时刻的隐层状态特征为/>而对于反向循环神经网络而言,上一时刻的隐层状态特征为/>
3、将正向循环神经网络的输出和反向循环神经网络的输出/>拼接起来,作为融合上下文信息的特征表示:
如图5所示,利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响,具体流程如下:
1、当对话数据库中存在M个有谎言标签对话和N个无谎言标签对话,并且所有对话的说话人信息已知。对话i包含Li个句子,其中第j个句子uij(j=1,…,Li)的说话人定义为sij。对于M个有谎言标签对话,uij的真实谎言状态为eij;而对于N个无谎言标签对话,uij的真实谎言状态未知。目标是预测N个无谎言标签对话的谎言状态。每个句子经过时序建模模块后,获取uij的特征表示rij
2、域对抗训练模块中包括两个分类器:谎言分类器和领域分类器。所有分类器都是基于特征rij进行分类。谎言分类器旨在最大化谎言识别精度,其损失函数定义为:
其中P(eij|rij)指的是基于输入特征rij,分类器预测为真实谎言状态eij的概率。-logP(eij|rij)指的是交叉熵损失函数。
领域分类器旨在剔除说话人的影响,其损失函数定义为:
其中P(sij|rij)指的是基于输入特征rij,分类器预测为目标说话人sij的概率。-logP(sij|rij)指的是交叉熵损失函数。
3、将领域分类器损失函数和谎言分类器损失函数加权融合,用于域对抗训练:
L=Le-λLd
其中,λ是权重系统。在领域分类器损失函数Ld上,增加梯度可逆层,使得模型学习到的特征表示对于领域不可区分,从而学习到说话人无关的谎言特征表示。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (7)

1.基于域对抗训练的自动谎言检测方法,其特征在于包括如下步骤:
S1,多模态特征提取,抽取文本特性表示、音频特征表示和面部特征表示;
S2,多模态特征融合,利用自适应注意力机制获得多模态特征表示;
S3,时序建模,利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测,包括如下步骤:
S31,对话信息U=[u1,…,uN],其中uj(j=1,…,N)是对话中的第j句话,每个句子经过多模态特征融合模块后,获取每句话的多模态特征表示fj(j=1,…,N);
S32,将每句话的多模态特征输入到双向循环神经网络中,用于捕获对话中的上下文信息,辅助当前句子的谎言检测:
其中代表正向循环神经网络的输出,/>代表反向循环神经网络的输出,每个方向的循环神经网络,将上一时刻的隐层状态特征以及当前时刻的多模态特征fj作为输入信息,对于正向循环神经网络而言,上一时刻的隐层状态特征为/>而对于反向循环神经网络而言,上一时刻的隐层状态特征为/>
S33,将正向循环神经网络的输出和反向循环神经网络的输出/>拼接起来,作为融合上下文信息的特征表示:
S4,域对抗训练,利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;
S5,谎言水平预测,将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平。
2.如权利要求1所述的基于域对抗训练的自动谎言检测方法,其特征在于所述步骤S1,通过视频段切分对语音时域波形、视频、文本进行切分,提取切分得到的各个模态数据的特征表示。
3.如权利要求1所述的基于域对抗训练的自动谎言检测方法,其特征在于所述步骤S2,包括如下步骤:
S21,GA为音频特征,GL为文本特征,GV为面部特征,将各个模态特征映射到同一维度后,进行拼接:
Gcat=Concat(WAGA,WLGL,WVGV)
其中,WA,WL,WV为可训练参数,用于将各个模态特征映射到同一维度,Concat(*)是拼接操作,用于将内部所有特征按照特征维度进行拼接;
S22,计算每个模态的注意力权重,依据该注意力权重融合多模态特征:
F=GcatAF
其中,WF为可训练参数,用于注意力权重计算,AF为每个模态的自适应注意力权重,用于表示各个模态对谎言检测的贡献度,对多模态特征Gcat按照注意力权重AF加权。
4.如权利要求1所述的基于域对抗训练的自动谎言检测方法,其特征在于所述步骤S4,包括如下步骤:
S41,当对话数据库中存在M个有谎言标签对话和N个无谎言标签对话,并且所有对话的说话人信息已知,对话i包含Li个句子,其中第j个句子uij(j=1,…,Li)的说话人定义为sij,对于M个有谎言标签对话,uij的真实谎言状态为eij,而对于N个无谎言标签对话,uij的真实谎言状态未知,目标是预测N个无谎言标签对话的谎言状态,每个句子经过时序建模模块后,获取uij的特征表示rij
S42,域对抗训练中包括谎言分类器和领域分类器,都是基于特征rij进行分类,谎言分类器旨在最大化谎言识别精度,其损失函数定义为:
其中P(eij|rij)是基于输入特征rij,谎言分类器预测为真实谎言状态eij的概率,-logP(eij|rij)是交叉熵损失函数;
领域分类器旨在剔除说话人的影响,其损失函数定义为:
其中P(sij|rij)是基于输入特征rij,领域分类器预测为目标说话人sij的概率,-logP(sij|rij)是交叉熵损失函数;
S43,将谎言分类器损失函数和领域分类器损失函数加权融合,用于域对抗训练:
L=Le-λLd
其中,λ是权重系统,在领域分类器损失函数Ld上,增加梯度可逆层,使得模型学习到的特征表示对于领域不可区分,从而学习到说话人无关的谎言特征表示。
5.如权利要求1所述的基于域对抗训练的自动谎言检测方法,其特征在于所述步骤S5,谎言检测水平使用准确率、召回率、F值进行度量,用于判断预测的谎言状态和真实谎言状态之间的相关性。
6.基于域对抗训练的自动谎言检测系统,其特征在于包括自上而下依次连接的多模态特征提取模块、多模态特征融合模块、时序建模模块、域对抗训练模块和谎言水平预测模块,多模态特征提取模块,用于抽取文本特性表示、音频特征表示和面部特征表示;多模态特征融合模块利用自适应注意力机制获得多模态特征表示;时序建模模块利用双向循环神经网络捕获对话中的上下文信息,用于辅助当前句子的谎言检测;域对抗训练模块利用域对抗网络抽取说话人无关的谎言特征表示,减少由于说话人差异对自动谎言检测性能的影响;谎言水平预测模块将待测数据输入到经过域对抗训练后的谎言分类器中,用于预测个体的谎言水平;
所述时序建模模块,执行过程如下:
1、对话信息U=[u1,…,uN],其中uj(j=1,…,N)是对话中的第j句话,每个句子经过多模态特征融合模块后,获取每句话的多模态特征表示fj(j=1,…,N);
2、将每句话的多模态特征输入到双向循环神经网络中,用于捕获对话中的上下文信息,辅助当前句子的谎言检测:
其中代表正向循环神经网络的输出,/>代表反向循环神经网络的输出,每个方向的循环神经网络,将上一时刻的隐层状态特征以及当前时刻的多模态特征fj作为输入信息,对于正向循环神经网络而言,上一时刻的隐层状态特征为/>而对于反向循环神经网络而言,上一时刻的隐层状态特征为/>
3、将正向循环神经网络的输出和反向循环神经网络的输出/>拼接起来,作为融合上下文信息的特征表示:
7.如权利要求6所述的基于域对抗训练的自动谎言检测系统,其特征在于所述多模态特征提取模块包括视频段切分模块和特征提取模块,视频段切分模块对语音时域波形、视频、文本进行切分,然后将切分得到的各个模态数据,输入到特征提取模块中提取各个模态的特征表示。
CN202011161532.5A 2020-10-27 2020-10-27 基于域对抗训练的自动谎言检测方法及系统 Active CN112329438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011161532.5A CN112329438B (zh) 2020-10-27 2020-10-27 基于域对抗训练的自动谎言检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011161532.5A CN112329438B (zh) 2020-10-27 2020-10-27 基于域对抗训练的自动谎言检测方法及系统

Publications (2)

Publication Number Publication Date
CN112329438A CN112329438A (zh) 2021-02-05
CN112329438B true CN112329438B (zh) 2024-03-08

Family

ID=74311097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011161532.5A Active CN112329438B (zh) 2020-10-27 2020-10-27 基于域对抗训练的自动谎言检测方法及系统

Country Status (1)

Country Link
CN (1) CN112329438B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869276B (zh) * 2021-10-15 2023-04-07 山东大学 基于微表情的谎言识别方法及系统
CN114424941A (zh) * 2022-01-26 2022-05-03 广东电网有限责任公司 疲劳检测模型构建方法、疲劳检测方法、装置及设备
GB2623552A (en) * 2022-10-20 2024-04-24 Continental Automotive Tech Gmbh A neural network training method and apparatus thereof
CN116522212B (zh) * 2023-07-05 2023-09-26 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质
CN117168802B (zh) * 2023-08-14 2024-06-18 苏州长木传动科技有限公司 一种谐波减速机性能寿命的检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037205A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
CN110309798A (zh) * 2019-07-05 2019-10-08 中新国际联合研究院 一种基于域自适应学习和域泛化的人脸欺骗检测方法
CN110674677A (zh) * 2019-08-06 2020-01-10 厦门大学 一种多模态多层融合的用于人脸反欺骗的深度神经网络
CN110807332A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037205A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 语音欺诈识别方法、装置、终端设备及存储介质
CN110309798A (zh) * 2019-07-05 2019-10-08 中新国际联合研究院 一种基于域自适应学习和域泛化的人脸欺骗检测方法
CN110674677A (zh) * 2019-08-06 2020-01-10 厦门大学 一种多模态多层融合的用于人脸反欺骗的深度神经网络
CN110807332A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多特征非接触式测谎技术;魏江平;林家骏;陈宁;;华东理工大学学报(自然科学版)(第04期) *

Also Published As

Publication number Publication date
CN112329438A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及系统
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN114973062B (zh) 基于Transformer的多模态情感分析方法
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN110890102A (zh) 一种基于rnn声纹识别的发动机缺陷检测算法
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN114267347A (zh) 一种基于智能语音交互的多模态拒识方法和系统
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN117765981A (zh) 一种基于语音文本跨模态融合的情感识别方法及系统
Nitisara et al. Speech age-gender classification using long short-term memory
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
Maji et al. Multimodal emotion recognition based on deep temporal features using cross-modal transformer and self-attention
CN113326868B (zh) 一种用于多模态情感分类的决策层融合方法
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
Asiya et al. A Novel Multimodal Speech Emotion Recognition System
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN117633674A (zh) 一种基于因果门控注意力机制的多模态情感分析方法
CN117976006A (zh) 音频处理方法、装置、计算机设备和存储介质
CN117116292A (zh) 音频检测方法、装置、电子设备及存储介质
Nanduri et al. A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Lin et al. Gated fusion of handcrafted and deep features for robust automatic pronunciation assessment
Gu et al. Zero-shot audio classification using synthesised classifiers and pre-trained models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240808

Address after: No. 3485, Room 101, 9th Floor, Building 19, Zone 16, No. 188 South Fourth Ring West Road, Fengtai District, Beijing, China

Patentee after: Beijing Zhongke Zhiji Technology Co.,Ltd.

Country or region after: China

Address before: Room 1105, 11 / F, building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right