CN112329746A

CN112329746A - 多模态谎言检测方法、装置、设备

Info

Publication number: CN112329746A
Application number: CN202110001041.2A
Authority: CN
Inventors: 陶建华; 孙立才; 刘斌; 连政
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-02-05
Anticipated expiration: 2041-01-04
Also published as: CN112329746B; US11244119B1

Abstract

本申请实施例涉及数据处理领域，具体涉及一种多模态谎言检测方法、装置、设备，旨在提高自动谎言检测的准确率。所述方法包括：输入待测音频、待测视频以及待测文本这三个模态的原始数据；对输入内容分别进行特征提取，得到三个模态的深度特征；对这三个模态的深度特征中的一阶、二阶以及三阶交互关系进行显式刻画，得到每个词的融合后的多模态特征；对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征；对上述每个词的最终的特征进行池化得到全局特征，然后通过全连接层得到谎言分类结果。

Description

多模态谎言检测方法、装置、设备

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种多模态谎言检测方法、装置、设备。

背景技术

传统的谎言检测技术是利用接触式的生理信号，例如皮肤电、心电以及脑电信号灯进行谎言检测，但这类方法受限与受试者的配合程度，从而无法特别准确进行谎言检测。随着计算机科学技术的发展，基于音视频的非接触式谎言检测方法应运而生，未来将会在教育、金融等领域会有广泛的应用。现有的非接触式谎言检测方法为使用深度神经网络提取各个模态的特征，采用特征拼接的方式将不同模态的特征进行整合，使用循环神经网络对上下文进行建模，最后得到测谎结果。

现有技术的缺点是，将提取出的各个模态的特征进行简单的拼接，忽略了对不同模态特征高阶交互的关系，导致测谎效果不佳，同时循环神经网络在面对长时序列时建模效果不好，导致测谎效果不佳。

发明内容

本申请实施例提供一种多模态谎言检测方法、装置、设备，旨在提高自动谎言检测的准确率。

本申请实施例第一方面提供一种多模态谎言检测方法，所述方法包括：

输入待测音频、待测视频以及待测文本，所述待测音频、待测视频以及待测文本为三种不同模态；

对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征；

对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征；

对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征；

根据所述每个词的最终的特征，得到谎言分类结果。

可选地，对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征，包括：

利用文本对齐工具，获取所述待测音频、待测视频和待测文本中每个词语的对齐信息；

根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征；

根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征；

将所述待测文本输入至预先训练好的文本特征提取网络中，从所述待测文本中提取出所述词级别的深度文本特征。

可选地，根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征，包括：

根据所述对齐信息，从所述待测音频中提取每个词对应的音频片段；

将所述音频片段输入至所述预先训练好的音频特征提取网络，得到所述词级别的深度音频特征。

可选地，根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征，包括：

根据所述对齐信息，从所述待测视频中提取每个词对应的视频片段；

从所述视频片段中提取其中包含的多帧图像；

对所述多帧图像进行降采样，得到降采样后的多幅图像；

将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络，从所述降采样后的多幅图像中提取出高层特征；

将所述高层特征进行池化，得到池化后的特征，将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。

可选地，对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征，包括：

对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度，得到均衡化后的词级别的音频特征、视频特征以及文本特征；

在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素，增加元素后的词级别的音频特征、视频特征以及文本特征；

计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积，得到每个词的融合后的多模态特征。

可选地，对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征，包括：

利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征；

将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中，得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征；

将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接，得到所述每个词的最终的特征。

可选地，利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征，包括：

利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项；

利用所述每个词的注意力权重和注意力值项进行计算，得到所述融合自注意力机制的多模态特征。

可选地，根据所述每个词的最终的特征，得到谎言分类结果，包括：

将所述每个词的最终的特征输入池化层中，利用最大池化得到全局水平特征；

将所述全局水平特征输入全连接网络中，通过所述全连接网络输出所述谎言分类结果。

本申请实施例第二方面提供一种多模态谎言检测装置，所述装置包括：

待测片段输入模块，用于输入待测音频、待测视频以及待测文本，所述待测音频、待测视频以及待测文本为三种不同模态；

短时特征提取模块，用于对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征；

多模态特征融合模块，用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征；

时序上下文建模模块，用于对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征；

谎言分类模块，用于根据所述每个词的最终的特征，得到谎言分类结果。

可选地，所述短时特征提取模块包括：

文本对齐子模块，用于利用文本对齐工具，获取所述待测音频、待测视频和待测文本中每个词语的对齐信息；

音频特征提取子模块，用于根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征；

视频特征提取子模块，用于根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征；

文本特征提取子模块，用于将所述待测文本输入至预先训练好的文本特征提取网络中，从所述待测文本中提取出所述词级别的深度文本特征。

可选地，音频特征提取子模块包括：

音频片段提取子模块，用于根据所述对齐信息，从所述待测音频中提取每个词对应的音频片段；

深度音频特征提取子模块，用于将所述音频片段输入至所述预先训练好的音频特征提取网络，得到所述词级别的深度音频特征。

可选地，所述视频特征提取子模块包括：

视频片段提取子模块，用于根据所述对齐信息，从所述待测视频中提取每个词对应的视频片段；

图像提取子模块，用于从所述视频片段中提取其中包含的多帧图像；

图像降采样子模块，用于对所述多帧图像进行降采样，得到降采样后的多幅图像；

高层特征提取子模块，用于将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络，从所述降采样后的多幅图像中提取出高层特征；

深度视频特征提取子模块，用于将所述高层特征进行池化，得到池化后的特征，将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。

可选地，所述多模态特征融合模块包括：

深度特征均衡化子模块，用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度，得到均衡化后的词级别的音频特征、视频特征以及文本特征；

追加元素子模块，用于在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素，增加元素后的词级别的音频特征、视频特征以及文本特征；

多模态特征融合子模块，用于计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积，得到每个词的融合后的多模态特征。

可选地，所述时序上下文建模模块包括：

自注意力机制融合子模块，用于利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征；

隐藏层特征提取子模块，用于将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中，得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征；

最终特征拼接子模块，用于将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接，得到所述每个词的最终的特征。

可选地，所述自注意力机制融合子模块包括：

参数计算子模块，用于利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项；

注意力机制计算子模块，用于利用所述每个词的注意力权重和注意力值项进行计算，得到所述融合自注意力机制的多模态特征。

可选地，所述谎言分类模块包括：

池化子模块，用于将所述每个词的最终的特征输入池化层中，利用最大池化得到全局水平特征；

谎言分类子模块，用于将所述全局水平特征输入全连接网络中，通过所述全连接网络输出所述谎言分类结果。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的基于循环神经网络和自注意力机制的多模态谎言检测方法，将输入的待测音频、待测视频和待测文本利用对齐工具得到每个词的对齐信息，结合每个词的对齐信息，利用预先训练好的音频特征提取网络提取待测音频的深度音频特征；结合每个词的对齐信息，利用预先训练好的视频特征提取网络提取待测视频的深度视频特征；利用预先训练好的文本特征提取网络提取出深度文本特征，利用张量融合策略对深度音频特征、深度视频特征和深度文本特征进行融合得到每个词的融合后的多模态特征，利用自注意力机制对每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征，将融合自注意力机制的多模态特征分别输入双向循环神经网络之中，捕捉语言中的长时依赖关系，得到每个词的最终的特征，利用最大池化获取全局水平特征，通过全连接网络输出谎言分类结果。本发明通过张量融合策略显示刻画了多模态特征中的一阶及高阶交互关系，显式地对音频、视频以及文本三个模态特征表示中的一阶以及高阶交互关系进行建模，达到了充分整合多模态信息的效果，利用双向长短时记忆循环神经网络和自注意力机制可以有效地捕捉到任意位置的两个词的上下文关系，有效地完成了时序上下文的建模，较好地避免了双向网络在时序建模时各自单独存在的问题，提高了谎言检测的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的多模态谎言检测方法的流程图；

图2是本申请一实施例提出的多模态谎言检测装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例中，通过利用预先训练好的网络来提取词级别的深度特征表示，和传统的手工特征相比更加高效而且不需要领域内特定的专家知识，通过采用张量融合的方法显示地对音频、视频以及文本三个模态特征表示中的一阶以及高阶交互关系进行建模，达到了充分整合多模态信息的效果，本发明中，通过有机地结合循环神经网络和自注意力机制来捕捉语言中的长时依赖关系，较好地避免了两种网络在时序建模时各自单独存在的问题，从而提高了谎言检测的准确率。

参考图1，图1是本申请一实施例提出的一种多模态谎言检测方法的流程图。如图1所示，该方法包括以下步骤：

S11：输入待测音频、待测视频以及待测文本，所述待测音频、待测视频以及待测文本为三种不同模态。

本实施例中，待测音频、待测视频是同一个片段中的视频和音频，待测文本和待测音频、待测视频相对应，音频、视频和文本分别为这段视频中的三种模态。

本实施例中，本实施例中需要对这三种模态的数据进行分析，以检测输入片段中的人物说出的话语的真假。

示例地，可以输入一个片段，该片段中有一个或多个人物说话，这一个或多个人物说话的连续画面就是待测视频，该片段中出现的音频就是待测音频，该片段中的视频和音频中对应的文本就是待测文本，例如该片段中一个人说了一句话，这个人说话的画面就是待测视频，这个人说话的语音就是待测音频，这个人说的话的文字内容就是待测文本。

S12：对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征。

本实施例中，对待测音频、待测视频以及待测文本进行特征提取是将待测音频、待测视频以及待测文本的转化为特征向量输入到神经网络中，词级别指的是提取输入片段中的每个词语对应的深度音频特征、深度视频特征以及深度文本特征。

本实施例中，对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征的具体步骤为：

S12-1：利用文本对齐工具，获取所述待测音频、待测视频和待测文本中每个词语的对齐信息。

本实施例中，文本对齐就是将待测文本中的内容与待测音频和待测视频中的内容一一对应起来，本发明中是以词语为单位对待测内容进行处理，所以需要将待测文本中的每个词语和待测音频、待测视频进行对齐，一个词语的文本对应了这个词语的音频和人物说这个词语的视频画面。

本实施例中，通过定位待测文本中的每个词语在输入片段中视频和音频的开始时间和终止时间，将待测音频和待测视频与待测文本进行对齐。

示例地，文本对齐工具可以得到每待测音频、待测视频和待测文本中每个词

的对齐信息

，其中

表示每个词语

在输入片段中的起始时间，

表示每个词语

在输入片段中的终止时间。文本对齐工具是将输入的音频、视频和文本的每个词语

的出现时间一一对应起来的工具，对齐工具可以使用常用的对齐工具，本实施例不做限制。

S12-2：根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征。

本实施例中，根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征的具体步骤包括：

S12-2-1：根据所述对齐信息，从所述待测音频中提取每个词对应的音频片段。

本实施例中，对齐信息中包含了待测音频中每个词的起始时间与终止时间，根据对齐信息中的每个词的起始时间与终止时间提取出待测音频中每个词对应的音频片段。

示例地，根据输入片段中每个词

的对齐信息

，在待测音频中提取出对应的音频片段

，例如在待测文本中有一个词是“你好”，这个词的对齐信息显示待测音频中“你好”这个词的开始时间为“00：16”结束时间为“00：17”，那么根据这个对齐信息，可以提取出待测音频中第16秒到第17秒的音频片段为“你好”这个词语对应的音频片段。

S12-2-2：将所述音频片段输入至所述预先训练好的音频特征提取网络，得到所述词级别的深度音频特征。

本实施例中，使用预先训练好的音频特征提取网络来进行音频特征提取，将每个词对应的音频片段输入预先训练好的音频特征提取网络中，就可以得到每个词的深度音频特征。

本实施例中，音频特征提取网络可以将输入的音频片段

转化为特征向量，该特征向量就是词语

对应的深度音频特征

。音频特征提取网络可以采用常见的特征提取网络，例如VGGish，本实施例不做限制。

S12-3：根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征。

本实施例中，根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征的具体步骤为：

S12-3-1：根据所述对齐信息，从所述待测视频中提取每个词对应的视频片段。

本实施例中，根据每个词

的对齐信息

提取出每个词对应的视频片段

的方法与根据每个词的对齐信息提取出每个词对应的音频片段的方法相同，在此不再多做叙述。

S12-3-2：从所述视频片段中提取其中包含的多帧图像。

本实施例中，每个视频片段中都包含有多帧图像，将这些图像逐帧提取出来，以便于对图像进行后续处理。

示例地，假设待测视频的帧率为每秒30帧，从S11-3-1中提取出了“你好”这个词语对应的视频片段，这个视频片段的时长为1秒，那么就将这1秒内的30帧画面全部提取出来。

S12-3-3：对所述多帧图像进行降采样，得到降采样后的多幅图像。

本实施例中，降采样就是减少采样的点数，这样可以将图片缩小至预设大小，生成对应图像的缩略图,便于后续的处理。

示例地，可以将大小为500×500的图像统一降采样为大小为128*128的图像。

S12-3-4：将所述降采样后的多幅图像分别输入至训练好的图像特征提取网络，从所述降采样后的多幅图像中提取出高层特征。

本实施例中，将降采样后的图像输入预先训练好的图像特征提取网络可以提取出每个图像的图像特征，图像特征网络对图像做了多次卷积计算，每次卷积计算都可以提取出这些图像的抽象特征，进而将这些图像转化为了特征向量，这些特征向量就是图像的高层特征。

S12-3-5：将所述高层特征进行池化，得到池化后的特征，将所述池化后的特征作为所述视频片段的所述词级别的深度视频特征。

本实施例中，将得到的所有图像输入特征提取网络的池化层中，池化层可以将图像的高层特征进行进一步处理，减少不必要的参数，在简化计算量的同时保留了图像的主要特征，池化后的特征向量就是视频片段的深度视频特征

。

本实施例中，视频特征提取网络可使用例如VGG、ResNet等用于视频特征提取的网络，在此不做限制。

S12-4：将所述待测文本输入至预先训练好的文本特征提取网络中，从所述待测文本中提取出所述词级别的深度文本特征。

本实施例中，预先训练好的文本特征提取网络在接收到待测文本后，会提取出待测文本中每个词语的深度文本特征。

示例地，将待测文本输入至预先训练好的文本特征提取网络，文本本特征提取网络会提取出待测文本中每个词

的词嵌入，即每个词

的词向量，这些词向量就是每个词

对应的深度文本特征

。提取网络可以使用常用的用于语义识别的网络例如word2vec等网络，在这里不做限制。

S13：对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征。

本实施例中，为了更好地分析出输入片段中人物说出的话语的真假，需要将词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征，每个词的融合后的多模态特征可以结合三个模态的交互融合信息更加准确的分析输入片段中人物说话的真假，提高测谎准确率。

本实施例中，对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征的具体步骤为：

S13-1：对所述词级别的深度音频特征、深度视频特征以及深度文本特征分别进行线性变换以均衡化不同模态特征的维度，得到均衡化后的词级别的音频特征、视频特征以及文本特征。

本实施例中，为了将三个模态的特征进行融合，首先需要将深度音频特征、深度视频特征以及深度文本特征分别进行线性变换，将三种模态的特征维度进行均衡化，均衡化的方法为：

上述公式中，

为词级别的深度音频特征，

为词级别的深度视频特征，

为词级别的深度文本特征，

为深度音频特征线性变化参数，

为深度视频特征线性变化参数，

为深度文本特征线性变化参数。通过上述计算得到的是均衡化后的词级别的音频特征

、均衡化后的词级别的深度视频特征

、均衡化后的次级别的深度文本特征

。

S13-2：在所述均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素，增加元素后的词级别的音频特征、视频特征以及文本特征。

本实施例中，为了保留融合后多模态特征的一阶特性和二阶特性，需要在均衡化后的词级别的音频特征、视频特征以及文本特征中分别追加一个值为1的元素，这样在后续计算中可以显示地对不同模态间的一阶、二阶关系进行建模，具体方法为：

上述公式中，

为增加元素后的词级别的音频特征、

为增加元素后的词级别的视频特征、

为增加元素后的词级别的文本特征。

S13-3：计算所述增加元素后的词级别的音频特征、视频特征以及文本特征的张量积，得到每个词的融合后的多模态特征。

本实施例中，将增加元素后的词级别的音频特征、视频特征以及文本特征张量相乘，以得到每个词的融合后的多模态特征，计算方法是：

上述公式中，

是每个词的融合后的多模态特征，

是张量积计算符号。

本实施例中，对三个模态的特征进行张量计算，可以对不同模态间的三阶关系进行显示刻画，因为S13-2中为每个特征追加了一个元素1，在张量计算中同时保留了不同模态间的一二阶关系。

S14：对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征。

本实施例中，通过S13得到到了每个词的每个词的融合后的多模态特征，还需要参考上下文之间的关系，来得到每个词语每个词的最终的特征。

本实施例中，对对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征的具体步骤是：

S14-1：利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征。

本实施例中，自注意力机制可以计算出每个每个词的融合后的多模态特征的权重，在特征分析时可以对权重高的词重点关注，有利于提高谎言检测的准确率。利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征的具体步骤是：

S14-1-1：利用所述每个词的融合后的多模态特征计算出每个词的注意力权重和注意力值项。

本实施例中，每个词的注意力权重和注意力值项的计算方法为：

上述公式中，

是注意力查询项，

是健项，

是注意力值项，

是注意力权重，

、

、

为线性变化参数，

是

的转置，

是向量的维度，softmax是一种函数。

S14-1-2：利用所述每个词的注意力权重和注意力值项进行计算，得到所述融合自注意力机制的多模态特征。

本实施例中，利用所述每个词的注意力权重和注意力值项进行计算，得到所述融合自注意力机制的多模态特征的方法是：

上述公式中，

为每个词融合自注意力机制的多模态特征,

为加权计算符号。

S14-2：将所述融合自注意力机制的多模态特征分别输入一个前向长短时记忆网络和一个反向长短时记忆网络中，得到前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征。

本实施例中，使用双向长短时记忆循环神经网络可以考虑到每个词之间的互相影响，捕捉到每个词之间的长时依赖关系。其特征可以表示为：

上述公式中，

代表前向特征，

代表后向特征，

代表前向网络计算，

代表后向网络计算，

代表前一个词语的特征，

代表前一个记忆单元，

代表后一个词语的特征，

代表后一个记忆单元。

S14-3：将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接，得到所述每个词的最终的特征。

本实施例中，将所述前向长短时记忆网络输出的隐藏层特征和反向长短时记忆网络输出的隐藏层特征进行拼接，得到所述每个词的最终的特征可以表示为：

上述公式中

表示每个词的最终的特征。

示例地，双向长短时记忆循环神经网络为双向LSTM网络。

S15：根据所述每个词的最终的特征，得到谎言分类结果。

本实施例中，根据所述每个词的最终的特征，得到谎言分类结果的具体步骤为：

S15-1：将所述每个词的最终的特征输入池化层中，利用最大池化得到全局水平特征。

本实施例中，每个词的最终的特征就是每个词对应的最终的特征向量，将这些特征向量输入池化层中，利用最大池化的方式可以得到输入片段中所有语句的全局水平特征，全局水平特征就是输入片段中每个语句的总体特征，通过对比神经网络已经学习到的真话与谎言的特征和全局水平特征，就可以判断输入片段中每句话的真假。

示例地，使用标注了真话和假话的片段作为训练集训练谎言检测网络，得到训好的谎言检测网络，对输入片段进行谎言识别。在训练谎言检测网络时输入的训练用的片段中标注了每个人物说的每句话的真假，谎言检测网络就会学习到人物说真话和说假话时的视频、音频、文本特征。谎言检测网络训练完成之后，将待测片段的视频、音频、文本输入谎言检测网络之中，谎言检测网络会通过上述步骤提取出待测片段中每句话的全局水平特征，通过对比学习到的真话与假话的特征和每句话的全局水平特征，就可以判断出输入片段中每句话的真假。

S15-2：将所述全局水平特征输入全连接网络中，通过所述全连接网络输出所述谎言分类结果。

本实施例中，全连接网络起到一个分类器的作用，可以根据全局水平特征为输入影片中的每句话进行分类，分类结果为真话或假话，分类完成后将结果进行输出，完成谎言检测任务。

基于同一发明构思，本申请一实施例提供一种多模态谎言检测装置200。参考图2，图2是本申请一实施例提出的多模态谎言检测装置的示意图。如图2所示，该装置包括：

待测片段输入模块201，用于输入待测音频、待测视频以及待测文本，所述待测音频、待测视频以及待测文本为三种不同模态；

短时特征提取模块202，用于对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征；

多模态特征融合模块203，用于对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征；

时序上下文建模模块204，用于对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征；

谎言分类模块205，用于根据所述每个词的最终的特征，得到谎言分类结果。

可选地，所述短时特征提取模块包括：

可选地，音频特征提取子模块包括：

可选地，所述视频特征提取子模块包括：

可选地，所述多模态特征融合模块包括：

可选地，所述时序上下文建模模块包括：

可选地，所述自注意力机制融合子模块包括：

可选地，所述谎言分类模块包括：

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的基于循环神经网络和自注意力机制的多模态谎言检测方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种多模态谎言检测方法、装置、设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.多模态谎言检测方法，其特征在于，所述方法包括：

根据所述每个词的最终的特征，得到谎言分类结果。

2.根据权利要求1所述的方法，其特征在于，对所述待测音频、待测视频以及待测文本分别进行特征提取，得到词级别的深度音频特征、深度视频特征以及深度文本特征，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述对齐信息，结合预先训练好的音频特征提取网络，从所述待测音频中提取出所述词级别的深度音频特征，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述对齐信息，结合预先训练好的视频特征提取网络，从所述待测视频中提取出所述词级别的深度视频特征，包括：

从所述视频片段中提取其中包含的多帧图像；

对所述多帧图像进行降采样，得到降采样后的多幅图像；

5.根据权利要求1所述的方法，其特征在于，对所述词级别的深度音频特征、深度视频特征以及深度文本特征中的一阶、二阶以及三阶交互关系进行显示刻画，得到每个词的融合后的多模态特征，包括：

6.根据权利要求1所述的方法，其特征在于，对所述每个词的融合后的多模态特征进行上下文建模，得到每个词的最终的特征，包括：

7.根据权利要求6所述的方法，其特征在于，利用自注意力机制对所述每个词的融合后的多模态特征进行计算，得到融合自注意力机制的多模态特征，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述每个词的最终的特征，得到谎言分类结果，包括：

9.一种多模态谎言检测装置，其特征在于，所述装置包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至8任一所述的方法的步骤。