CN113761377B

CN113761377B - 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质

Info

Publication number: CN113761377B
Application number: CN202111069695.5A
Authority: CN
Inventors: 马博; 地力夏提·阿布都热依木; 杨雅婷; 王磊; 周喜; 董瑞
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-12-15
Anticipated expiration: 2041-09-13
Also published as: CN113761377A

Abstract

本发明公开了一种基于注意力机制多特征融合的虚信息检测方法、装置、电子设备及存储介质，获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理；将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量；将文本数据输入到情感特征提取器中提取到文本中的情感特征向量；将预处理得到的图片数据输入到VGG‑19预训练模型中提取视觉特征；通过注意力机制融合文本特征和情感特征，形成文本情感融合特征；将多模态特征输入到虚假信息识别器和领域分类器中，得到最终的分类结果。本发明通过增加情感特征以及用注意力机制融合的方式，有效地利用了多模态的优势，提高了虚假信息检测的准确率。

Description

基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域中的自然语言处理领域，尤其涉及深度学习、多模态特征融合等技术领域，具体地提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质。

背景技术

网络和社交媒体的快速发展，降低了传播信息的成本，使得人们之间的交流更加频繁。但这也给虚假信息的迅速传播提供了机会。微博，推特等社交媒体因及时和全面的提供世界各地的新闻，也已经成为各种领域中重要的新闻媒体和舆论平台。

现在的自媒体还是专业媒体都开始向基于图、文、短视频的多媒体新闻形式转变。多媒体内容承载着更加丰富与直观的信息。虚假信息中真实图片和虚假文本、虚假图片和真实文本的结合让单一模态的虚假信息检测的性能直线下降。如何充分利用多模态的信息，准确快速地识别虚假信息是一个挑战。因此针对虚假信息的有效迅速检测具有重要的意义。

近年来，因神经网络和深度学习模型的进展迅速，产生了同时利用文本和视觉模态信息来判别真实性的多模态检测方法。在现有工作中，具有代表性的包括：attRNN、EANN、MV AE和BDANN。这些方法虽然在多模态形式的虚假信息检测中提供了启发式的思路，但仍有缺点。一是对于图像和文本两种信息的提取过程仍比较粗糙；二是在特征融合阶段往往都是将两种模态特征简单拼接，并未发挥多模态的优势。

发明内容

本发明目的在于。提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备以及存储介质。该方法获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理；将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量；将文本数据输入到情感特征提取器中提取到文本中的情感特征向量；将预处理得到的图片数据输入到VGG-19预训练模型中提取视觉特征；通过注意力机制融合文本特征和情感特征，形成文本情感融合特征；将多模态特征输入到虚假信息识别器和领域分类器中，得到最终的分类结果。本发明通过增加情感特征以及用注意力机制融合的方式，有效地利用了多模态的优势，提高了虚假信息检测的准确率。

本发明所述的一种基于注意力机制多特征融合的虚假信息检测方法，按下列步骤进行：

a、获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理，包括数据清洗、图片大小格式转换、中文数据集进行分词、去停用词、推特数据集非英文文本统一翻译为英文，并将两个数据集划分为训练集、验证集和测试集，并通过聚类方法，为每条数据附上领域标签；

b、将步骤a得到的预处理文本数据输入到BERT预训练模型中，获取语义信息提取文本特征向量是在句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示；

c、将原始文本数据输入到情感特征提取器分别提取情感分类、情感词汇、情感强度和情感辅助特征组成文本中的情感特征向量；

d、将步骤a得到的预处理图片数据转换为224×224×3，输入到VGG-19预训练模型中获得图片的视觉表示；

e、通过注意力机制融合步骤b文本特征和步骤c情感特征，通过软性注意力机制融合得到文本情感特征；

f、将步骤e所述的融合得到的文本情感特征与步骤d视觉特征通过Pytorch框架进行拼接，得到最终的多模态特征向量；

g、将步骤f中所述的多模态特征输入到虚假信息识别器和领域分类器中，得到最终的分类结果。

步骤a所述训练集、验证集和测试集中所含的数据分别属于不同领域。

步骤e中所述文本特征向量设置为Key和Value，情感特征向量设置为Query。

一种基于注意力机制多特征融合的虚假信息检测装置，该装置是由数据预处理模块、文本特征提取模块、视觉特征提取模块、情感特征提取模块、多特征融合模块、虚假信息判别模块和领域分类模块组成，其中：

数据预处理模块：获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理；包括：数据集切分单元、领域聚类单元、文本数据预处理单元和图片数据预处理单元；

文本特征提取模块：提取数据集文本中的语义信息，用于句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示，并转换成文字特征向量；

视觉特征提取模块：提取数据集图片中的视觉信息，转换为224×224×3的图片，使用预训练好的VGG-19模型进行提取，获得图片的视觉特征向量；

情感特征提取模块：提取数据集文本中的情感信息，分别是情感分类、情感词汇、情感强度和情感辅助特征，最后组合成情感特征向量；

多特征融合模块：用于将提取的文本特征与情感特征，通过注意力机制融合，得到新的文本情感联合表示，并将视觉特征与文本情感特征进行拼接得到最终的多模态特征，包括注意力机制融合单元：用于将文本特征和情感特征通过软性注意力机制融合得到文本情感联合表示；特征拼接单元：将文本情感联合特征与视觉特征通过拼接的方式组成最后的多模态特征；

虚假信息判别模块：用于将基于融合得到的多模态特征通过softmax函数进行虚假信息判别，输出最后结果，对虚假信息进行分类；

领域分类模块：用于对输入文本的所属领域进行分类。

数据预处理模块中的数据集切分单元：用于将微博数据集和推特数据集划分为训练集、验证集和测试集；领域聚类单元：对数据集中的文本进行聚类，属于统一领域的数据拥有相同的领域标签；文本数据预处理单元：删除重复数据、中文数据集文本进行分词、去停用词、推特数据集非英文文本统一翻译为英文；图片数据预处理单元：删除重复数据、原始图片转换为224×224×3格式。

一种电子设备，该设备包括至少一个处理器；至少一个GPU计算卡；以及与处理器通信连接的存储器；其中：所述存储器存储有至少一个处理器执行的指令，所述指令被至少一个处理器执行或至少一个GPU计算卡执行，以使至少一个处理器能或至少一个GPU计算卡能够执行权利要求1-3中所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-3中所述的方法。

附图说明

图1为本发明提供的基于注意力机制多特征融合的虚假信息检测方法结构示意图。

图2为本发明提供的一种基于注意力机制多特征融合的虚假信息检测方法的流程图；

图3为本发明提供的一种微博和推特数据集预处理的流程图；

图4为本发明提供的一种提取文本特征方法的流程图；

图5为本发明提供的一种提取情感特征方法的流程图；

图6为本发明提供的一种提取视觉特征方法的流程图；

图7为本发明提供的注意力机制融合文本特征和情感特征方法的流程图；

图8为本发明提供的注意力机制融合文本特征和情感特征方法的结构图；

图9为本发明提供的多模态特征输入虚假信息识别器和领域分类器进行虚假信息判别方法的结构图。

图10为本发明提供的一种基于注意力机制多特征融合的虚假信息检测方法装置的结构示意图；

图11为本发明电子设备的框图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面结合附图对本发明做进一步的详细说明。其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例

步骤a所述训练集、验证集和测试集中所含的数据分别属于不同领域的数据预处理。

领域分类模块：用于对输入文本的所属领域进行分类。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-3中所述的方法；

图1是本发明检测方法的结构图；图2是本发明检测方法的流程图；本发明所述方法适用于多模态数据的情况下，识别虚假信息的情况；该方法由一种基于注意力机制多特征融合的虚假信息检测装置来执行，该装置由软件和/或硬件的方式实现；

参见图2，本发明的一种基于注意力机制多特征融合的虚假信息检测方法：

获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理；

在实施例中，所述对获取的微博和推特数据集进行预处理的具体方法，参见图3，具体步骤包括：

在微博和推特数据集中使用单程聚类方法，从帖子中发现新出现的领域，并附上相应的领域标签；

在微博和推特数据集进行数据清洗、将数据集中的图片通过第三方库torchvision的transforms方法进行大小归一化，在微博数据集中文本使用python第三方库jieba进行中文分词、去停用词、推特数据集使用googletrans的Translator库将数据中非英文文本统一翻译成英文格式；

将微博数据集以7:1:2的比例划分成训练集、验证集和测试集，推特数据集则本身包含15推特开发集、测试集和16推特测试集，将分别划分为训练集、验证集和测试集；

在划分完成微博和推特数据集的训练集、验证集和测试集中，分别包含多个不同的领域类型；

将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量；

在实施例中，所述提取文本特征的具体方法参见图4，具体包括：

对每一个文本，将其编码为token序列，并在序列开头位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]；

将token序列输入BERT预训练模型中，取[CLS]位置处的d_t维输出向量R_t，并通过全连接层输出为p维向量R_tf作为整个句子的语义表示，即文本特征，R_tf＝σ_t(W_tf·R_t)，R_tf∈R^p；

将文本数据输入到情感特征提取器中提取到文本中的情感特征；

在实施例中，所述提取情感特征的具体方法参见图5，具体包括：

情感类别特征提取：情感类别特征是指句子所含情感的类型(如：快乐、悲伤、痛苦等)，微博数据集使用百度AI平台的对话情绪识别接口，推特数据集使用NVIDIA的开源情感分类模型sentiment-discovery，识别句子中的情感，并输出情感类别特征

情感词汇特征提取：一个文本中都会通过几个特定的词语来传达特定的情感，通过情感词典计算并最后将d_f中的情感词汇特征拼接得到情感词汇特征，/>

情感强度特征提取：通过其中intensity(T_i)表示若T_i在情感词典列表中，则按照表中值进行计算，若不在，则intensity(T_i)＝0，得到一种情绪下的情感程度值，最后通过连接不同情绪的程度值得到最终的情感强度特征，/>

情感辅助特征提取：统计文本中的标点符号，如感叹号、问号等，以及各种表情符号的频率，得到情感辅助特征，记为Emo^aux∈R^a；

情感子特征融合：将得到的四种情感子特征，情感类别特征、情感词汇特征、情感强度特征、情感辅助特征进行拼接，得到最终的情感特征，

通过连接一个全连接层输出为p维向量R_ef作为整个句子的情感表示，即情感特征，R_ef＝σ_e(W_ef·R_e)，R_ef∈R^p；

将预处理得到的图片数据输入到VGG-19预训练模型中提取视觉特征；

在实施例中，所述提取视觉特征的具体方法参见图6，具体包括：

将经过预处理的图片输入到预训练的VGG-19模型，输出d_v维向量R_v，并通过全连接层输出为p维向量R_vf作为图片的视觉表示，即视觉特征，R_vf＝σ_v(W_vf·R_v)，R_vf∈R^p；

通过注意力机制融合文本特征和情感特征，形成文本情感融合特征；

在实施例中，所述通过注意力机制融合文本特征和情感特征的具体方法参见图7，具体包括：

将文本特征R_tf＝[h₁，h₂，…，h_p]，情感特征R_ef，分别设置为Key＝Value＝R_tf和q＝R_ef；

根据Query和Key计算二者的相似度，得到注意力得分，s_i＝F(Q，k_i)；

根据权重系数对value进行加权求和，

将文本特征R_tf和情感特征R_ef输入注意力层，得到文本情感特征R_tef∈R^p，R_tef＝A(R_tf，R_ef)；

将融合得到的文本情感特征R_tef与视觉特征R_vf进行拼接，得到维数为2p的多模态特征，记为R_f∈R2^p；

将多模态特征输入到虚假信息识别器和领域分类器中，得到最终的分类结果；

在实施例中，所述多模态特征输入虚假信息识别器和领域分类器进行虚假信息判别的方法参见图9，具体包括：

虚假信息识别器由两个全连接层和softmax()函数构成，将识别器表示为C(R_f；θ_c)，其中θ_c表示检测器的参数，C表示检测器的映射函数。对于输入的文本P，虚假信息识别器的输出表示该帖子为虚假信息的概率，/>用y_i表示帖子的真实标签，当帖子标签为虚假时为1，真实时为0。所有帖子真实标签y_i的集合，记为Y；并采用交叉熵损失函数，/>

领域分类器D(R_f；θ_c)，θ_c表示领域分类器的参数，D为映射函数，将所有领域的集合记为M，将多模态特征R_f输入到分类器中，会将帖子p分类到M个领域中的一个；用Z来表示领域的标签集合，并且用交叉熵损失函数定义领域分类器的损失，

多模态提取器倾向于通过最大的领域分类损失L_d来提取领域不变特征，而虚假信息识别器倾向于通过最小化分类损失L_C来从多模态特征中发现虚假信息，并把最终的损失定义为L(θ_e，θ_c，θ_d)＝L_C(θ_e，θ_c)-λL_d(θ_e，θ_d)；

图10为本发明一种基于注意力机制多特征融合的虚假信息检测装置的结构示意图，包括：数据预处理模块、文本特征提取模块、视觉特征提取模块、情感特征提取模块、多特征融合模块、虚假信息判别模块、领域分类模块，其中：

数据预处理模块：获取微博和推特数据集，对所述微博和推特数据集中文本和图片进行预处理；

文本特征提取模块：提取数据集文本中的语义信息，并转换成文字特征向量；

视觉特征提取模块：提取数据集图片中的视觉信息，并转换成视觉特征向量；

情感特征提取模块：提取数据集文本中不同的情感信息，并组合成情感特征向量；

多特征融合模块：用于将提取的文本特征与情感特征，通过注意力机制融合，得到新的文本情感联合表示。并将视觉特征与文本情感特征进行拼接得到最终的多模态特征；

虚假信息判别模块：基于融合得到的多模态特征实现对虚假信息进行分类；

领域分类模块：用于对输入文本的所属领域进行分类；

进一步地，数据预处理模块，包括：

数据集切分单元，用于将微博数据集和推特数据集划分为训练集、验证集和测试集；

领域聚类单元，对数据集中的文本进行聚类，属于统一领域的数据拥有相同的领域标签；

文本数据预处理单元，删除重复数据、中文数据集文本进行分词、去停用词、推特数据集非英文文本统一翻译为英文；

图片数据预处理单元，删除重复数据、原始图片转换为224×224×3大小；

进一步地，文本特征提取模块，包括：

文本特征提取单元，用于句子的开始位置添加特殊标记[CLS]，结束位置添加特殊标记[SEP]，使用BERT语言模型进行编码，最终取[CLS]位置处的输出向量作为整个句子的语义表示；

进一步地，视觉特征提取模块，包括：

视觉特征提取单元，用于将转换为224×224×3的图片，使用预训练好的VGG-19模型进行提取，获得图片的视觉表示；

进一步地，情感特征提取模块，包括：

情感特征提取单元，提取数据集文本中不同的情感信息，分别是情感分类、情感词汇、情感强度和情感辅助特征，最后组合成情感特征向量；

进一步地，多特征融合模块，包括：

注意力机制融合单元，用于将文本特征和情感特征通过软性注意力机制融合得到文本情感联合表示；

特征拼接单元，将文本情感联合特征与视觉特征通过拼接的方式组成最后的多模态特征；

进一步地，虚假信息判别模块，包括：

虚假信息判别单元，用于将多模态特征通过softmax函数进行虚假信息判别，输出最后结果；

进一步地，领域分类模块，包括：

领域分类单元，用于对输入文本的所属领域进行分类；

本发明提供了一种电子设备和一种可读存储介质；

如图11所示，是本发明电子设备框图，电子设备指各种各样的现代电子数字计算机，包括如：个人计算机、便携式计算机、各种服务器设备。本文所示的构件及其互联关系和功能仅作为示例。

如图11所示，所述电子设备包括：一个或多个多核处理器、一个或多个GPU计算卡、存储器，为使电子设备产生交互，还应包括：输入设备、输出设备。各种设备之间通过总线进行互联通信；

存储器即为本申请所提供的非瞬时计算机可读存储介质，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个处理器能或所述至少一个GPU计算卡够执行本申请实施例中任一项所述的方法；

输入设备，提供并接受用户输入到电子设备中的控制信号，包括产生数字或字符信息的键盘以及用来控制设备产生其他关键信号的鼠标。输出设备提供用户电子设备的反馈信息，包括打印执行结果或过程的显示器。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于注意力机制多特征融合的虚假信息检测方法，其特征在于，按下列步骤进行：

g、将步骤f中所述的多模态特征输入到虚假信息识别器和领域分类器中，得到最终的分类结果，其中：

虚假信息识别器由两个全连接层和softmax()函数构成，将识别器表示为C(R_f；θ_c)，其中θ_c表示检测器的参数，C表示检测器的映射函数；对于输入的文本P，虚假信息识别器的输出表示帖子为虚假信息的概率，/>用y_i表示帖子的真实标签，当帖子标签为虚假时为1，真实时为0，所有帖子真实标签y_i的集合，记为Y；并采用交叉熵损失函数，

多模态提取器倾向于通过最大的领域分类损失L_d来提取领域不变特征，而虚假信息识别器倾向于通过最小化分类损失L_C来从多模态特征中发现虚假信息，并把最终的损失定义为L(θ_e，θ_c，θ_d)＝L_C(θ_e，θ_c)-λL_d(θ_e，θ_d)。

2.根据权利要求1所述的一种基于注意力机制多特征融合的虚假信息检测方法，其特征在于，步骤a所述训练集、验证集和测试集中所含的数据分别属于不同领域。

3.根据权利要求1所述的一种基于注意力机制多特征融合的虚假信息检测方法，其特征在于，步骤e中所述文本特征向量设置为Key和Value，情感特征向量设置为Query。

4.一种实现权利要求1所述方法的基于注意力机制多特征融合的虚假信息检测装置，其特征在于，该装置是由数据预处理模块、文本特征提取模块、视觉特征提取模块、情感特征提取模块、多特征融合模块、虚假信息判别模块和领域分类模块组成，其中：

虚假信息判别模块：用于将基于融合得到的多模态特征通过softmax进行虚假信息判别，输出最后结果，对虚假信息进行分类；

领域分类模块：用于对输入文本的所属领域进行分类。

5.一种实现权利要求1所述方法的基于注意力机制多特征融合的虚假信息检测装置，其特征在于，数据预处理模块中的数据集切分单元：用于将微博数据集和推特数据集划分为训练集、验证集和测试集；领域聚类单元：对数据集中的文本进行聚类，属于统一领域的数据拥有相同的领域标签；文本数据预处理单元：删除重复数据、中文数据集文本进行分词、去停用词、推特数据集非英文文本统一翻译为英文；图片数据预处理单元：删除重复数据、原始图片转换为224×224×3格式。

6.一种电子设备，其特征在于，该设备包括至少一个处理器；至少一个GPU计算卡；以及与处理器通信连接的存储器；其中：所述存储器存储有至少一个处理器执行的指令，所述指令被至少一个处理器执行或至少一个GPU计算卡执行，以使至少一个处理器能或至少一个GPU计算卡能够执行权利要求1-3中任意一项所述的方法。

7.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1中所述的方法。