CN117591752A

CN117591752A - 一种多模态虚假信息检测方法、系统及存储介质

Info

Publication number: CN117591752A
Application number: CN202311411955.1A
Authority: CN
Inventors: 寇菲菲; 李雅文; 王炳炜; 姚宇晗; 李炜炜; 杨俊俐; 亓丽梅
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-23
Anticipated expiration: 2043-10-27
Also published as: CN117591752B

Abstract

本发明提供一种多模态虚假信息检测方法、系统及存储介质，所述方法的步骤包括：获取待辨认信息，从待辨认信息中分离图像信息和文本信息；将图像信息输入到第一网络模型中，得到图像特征向量，将图像特征向量输入到图像分类网络中，得到图像分类向量；将图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量；将文本信息输入到第二网络模型和情感提取模块中，第二网络模型输出文字特征向量，情感提取模块输出文字情感特征向量，融合文字特征向量和文字情感特征向量得到融合情感文字特征向量；将融合类别图像特征向量和融合情感文字特征向量融合，得到融合图文特征向量，并输入到判别模块中判定待辨认信息是否为虚假信息。

Description

一种多模态虚假信息检测方法、系统及存储介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种多模态虚假信息检测方法、系统及存储介质。

背景技术

当前社交媒体已成为浏览新闻和获取信息的最重要途径。在流行的社交媒体平台上，用户可以发布任何类型的新闻内容。因此，庞大的发布者数量导致了社交网络上新闻的爆炸式增长，其中包括许多虚假新闻。泛滥的虚假新闻很容易误导读者，一些极端的言论甚至会对社会造成影响。因此，针对社交媒体上的虚假新闻检测已成为一个紧迫的研究课题。

近来，大多数虚假新闻检测方法都基于深度学习方法，其中可分为单模态方法和多模态方法。单模态方法侧重于单一内容特征，如新闻文本，新闻图像。现有的多模态虚假新闻检测方法大多通过预训练的模型提取图像和文本特征。而现有的图像和文本特征通常是图像本身和文字本身的特征，并通过神经网络模型对这些特征进行辨认。

在传统的虚假信息检测方法中，对于文本的检测主要依靠关键字词的检测，而对于模棱两可或是预设关键字词以外的语句时，需要依赖于人工的判断与检测。而对于图像的检测，在传统方法中只能依靠像素、色块等进行粗略而不准确的判断，许多工作仍旧需要人工来进行判别。传统的虚假信息检测方法效率低，准确度不高，且依赖于人工，面对爆炸式的多媒体信息，难以有效的对虚假信息进行检测。

发明内容

鉴于此，本发明的实施例提供了一种多模态虚假信息检测方法，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种多模态虚假信息检测方法，所述方法的步骤包括：

获取待辨认信息，并从所述待辨认信息中分离图像信息和文本信息；

将所述图像信息输入到第一网络模型中，对所述图像信息进行向量化，得到图像特征向量，将所述图像特征向量输入到图像分类网络中，得到图像分类向量；

将所述图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量；

将所述文本信息输入到第二网络模型和情感提取模块中，所述第二网络模型输出文字特征向量，所述情感提取模块输出文字情感特征向量，并通过注意力机制融合文字特征向量和文字情感特征向量，得到融合情感文字特征向量；

将所述融合类别图像特征向量和融合情感文字特征向量通过注意力机制融合，得到融合图文特征向量；

将所述融合图文特征向量输入到判别模块中，所述判别模块基于预设的分类器判定待辨认信息是否为虚假信息。

采用上述方案，本方案中图像特征向量和文字特征向量为图像和文字本身的特征，本方案并不直接应用上述两种特征，而是，进一步通过图像特征向量得到图像分类向量，将图像分类向量与图像特征向量进行融合，增加了图像隐藏信息的输入；进一步地，本方案同样将文字特征向量和文字情感特征向量进行融合，增加了文本隐藏信息的输入，且将最终的融合类别图像特征向量和融合情感文字特征向量进行融合，再判定待辨认信息是否为虚假信息，本方案不需要人工干预，且通过多种隐藏信息的融合输入提高了虚假信息辨认的准确度。

在本发明的一些实施方式中，所述图像分类网络对应各个类别设置有分类器，在将所述图像特征向量输入到图像分类网络中，得到图像分类向量的步骤中，将所述图像特征向量输入到图像分类网络中，所述图像分类网络的每个分类器输出一个分类值，组合各个分类器的分类值得到图像分类向量。

在本发明的一些实施方式中，在将所述图像特征向量和图像分类向量输入到多专家结构中的步骤中，所述多专家结构中对应每个图像分类网络的分类器设置有专家模型。

在本发明的一些实施方式中，将所述图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量的步骤包括：

将所述图像特征向量分别输入到各个专家模型中，获取所述图像分类向量对应每个分类器中的分类值；

将该分类值作为权重加权到对应同一个分类器的专家模型的输出向量中，得到对应每个专家模型的类别图像特征向量；

对所述类别图像特征向量进行融合，得到融合类别图像特征向量。

在本发明的一些实施方式中，在所述第二网络模型输出文字特征向量的步骤中，所述第二网络模型包括顺序连接的文字向量化网络和文本分类网络。

在本发明的一些实施方式中，在所述第二网络模型输出文字特征向量的步骤中，将所述文本信息输入到文字向量化网络中，所述文字向量化网络对文本信息进行向量化，得到词嵌入向量，将所述词嵌入向量输入到文本分类网络中，得到文字特征向量。

在本发明的一些实施方式中，在所述情感提取模块输出文字情感特征向量的步骤中，基于预设的情感信息对照表对所述文本信息进行匹配，得到所述文本信息对于每种情感信息的得分，组合各种情感信息的得分得到文字情感特征向量。

在本发明的一些实施方式中，所述图像信息包括多张图像，获取待辨认信息，并从所述待辨认信息中分离图像信息和文本信息的步骤包括对所述图像信息进行预处理，在对所述图像信息进行预处理的步骤中，将所述图像信息的多张图像的大小和图像中各个像素点的像素值进行归一化。

本发明的第二方面还提供一种多模态虚假信息检测系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如前所述方法所实现的步骤。

本发明的第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述多模态虚假信息检测方法所实现的步骤。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明多模态虚假信息检测方法一种实施方式的示意图；

图2为本发明多模态虚假信息检测方法的实施架构示意图；

图3为得到融合类别图像特征向量步骤的流程示意图；

图4为得到文字特征向量步骤的流程示意图；

图5为通过注意力机制得到融合图文特征向量步骤的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的步骤具体包括：

如图1和2所示，本发明提出一种多模态虚假信息检测方法，所述方法的步骤包括：

步骤S100，获取待辨认信息，并从所述待辨认信息中分离图像信息和文本信息；

在具体实施过程中，所述带辨认信息可以为网页，具体的，可以为社交媒体的新闻页面，所述待辨认信息中的图像信息为网页中的图像，所述待辨认信息中的文本信息为网页中的文本。

步骤S210，将所述图像信息输入到第一网络模型中，对所述图像信息进行向量化，得到图像特征向量，将所述图像特征向量输入到图像分类网络中，得到图像分类向量；

在本发明的一些实施方式中，所述第一网络模型可以为ResNet50网络，所述图像分类网络设置有对应激活函数的多个全连接层和对应各个类别设置的分类器，所述分类器可以为softmax分类器。

在具体实施过程中，所述ResNet50网络是一种基于残差连接和跳跃连接的深度卷积神经网络模型，预训练的ResNet50通过在大量图像数据上进行训练和学习，拥有较强的图像特征提取能力。

步骤S220，将所述图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量；

在本发明的一些实施方式中，所述多专家结构中对应每个图像分类网络的分类器设置有专家模型，所述专家模型中设置有用于输出对应每个类别的分类值的分类器。

在本发明的一些实施方式中，所述专家模型具有相同的结构，每一个专家专家模型的输入是相同的，都是图像特征向量，但每一个专家之间不共享参数，因此会得到多个不同的输出，每个专家模型对应每个类别，通过将图像分类向量的值作为各个专家模型的输出的权重，对多个专家模型加权后的输出进行合并，得到融合类别图像特征向量。

步骤S310，将所述文本信息输入到第二网络模型和情感提取模块中，所述第二网络模型输出文字特征向量，所述情感提取模块输出文字情感特征向量，并通过注意力机制融合文字特征向量和文字情感特征向量，得到融合情感文字特征向量；

在具体实施过程中，采用交叉注意力机制融合文字特征向量和文字情感特征向量，交叉注意力机制是一种特殊的注意力机制，通过将一个向量与另一个向量的元素之间进行交互来计算注意力权重，通过交叉注意力机制融合两个向量，可以使得模型能够更好地捕捉到两个向量之间的交互作用，从而更准确地理解和处理。

步骤S400，将所述融合类别图像特征向量和融合情感文字特征向量通过注意力机制融合，得到融合图文特征向量；

在具体实施过程中，采用交叉注意力机制融合所述融合类别图像特征向量和融合情感文字特征向量。

在具体实施过程中，通过注意力机制将融合类别图像特征向量和融合情感文字特征向量进行融合，能够有效地筛选和集中处理信息，提升任务执行的效率和准确性。

具体的，所述注意力机制(Attention Mechanism)是一种在机器学习和自然语言处理等领域中广泛应用的技术，用于模拟人类对信息的关注和集中注意力的能力。该算法让模型在处理数据时，能够动态地选择和加权不同位置或特征的重要性，以提高模型的性能。注意力机制在自然语言处理和图像处理，以及一些跨模态的任务上都实现了不错的效果。

步骤S500，将所述融合图文特征向量输入到判别模块中，所述判别模块基于预设的分类器判定待辨认信息是否为虚假信息。

在本发明的一些实施方式中，所述判别模块设置有分类器，通过所述分类器输出融合图文特征向量的分类结果，即所述待辨认信息是否为虚假信息。

融合图文特征向量输入到分类器中，输出真假结果，对信息的真假进行判断。其中分类器为带有对应激活函数的全连接层。

通过以上步骤，本发明通过图片与文字信息，融合图像类别与文字情感这类潜在特征信息，实现虚假信息检测的目的。

在本发明的一些实施方式中，所述图像分类网络的分类器对应的类别包括人物类、事件类、物品类、卡通类、广告类、截图文字类、风景类、无意义类和吸引眼球类，具体的，各个类别分别为：

(1)人物类：图像的主体为一个人物，图像所包含的信息内容为人物本身；

(2)事件类：图像中往往包含一个、多个人物或是物品等，且表现出一定的动作性，能让读者认为这是一个正在发生的事件的图像；

(3)物品类：图像的主体为一个物品，图像所包含的信息内容为物品本身；

(4)卡通类：一些卡通图片或者是表情包，最大的特点是可能包含较多大面积的色块；

(5)广告类：一些广告内容，比物品相比多了些文字或是人物内容等内容，但图片落脚点还是在物品上，具有一定特征；

(6)截图文字类：一些文字内容或截图，往往以模糊的文字内容为主，其所包含的可利用图像信息较少；

(7)风景类：主要为环境，一些地标、环境、风景等，不包含人物的场景或环境图片；

(8)无意义类：没有具体意义的图片，与文字内容无相关性，可能就是用来吸引读者注意力或是完全没有实际意义的图片，在虚假信息中比较常见；

(9)吸引眼球类：虚假信息的图片为了吸引人眼球，往往会用一些夸张的图片，和真实信息相比，出现这类内容的是虚假信息的概率非常大。

如图3所示，图3中专家1～n即为各个专家模型，在本发明的一些实施方式中，将所述图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量的步骤包括：

在本发明的一些实施方式中，所述文字向量化网络可以为BERT网络。

在具体实施过程中，所述BERT网络是一个基于Transformer架构的深度神经网络模型，通过在大量开源数据集上的学习训练，预训练的BERT网络能够从文本数据中捕捉丰富的语义信息，强大的文本表示和语义理解能力使其被广泛应用在各类自然语言处理任务中，基于预训练BERT网络的特点，词嵌入向量中包含了字符的语义信息与上下文信息。

在本发明的一些实施方式中，所述文本分类网络可以为Text-CNN网络，通过Text-CNN网络对词嵌入向量进行进一步的提取与压缩处理，得到文字特征向量。

如图4所示，在具体实施过程中，所述Text-CNN网络作用是在减少输入信息的特征信息的同时，提取出最有代表性的特征信息，从而提高网络整体的效率。所述Text-CNN网络包含了卷积层与最大池化层，在输入词嵌入向量后，得到文字特征向量。

在本发明的一些实施方式中，对于任意一种存在于情感信息对照表中的信息，情感词典特征是将在文本中出现的情感得分和并得到的。通常情况下，一段文本会通过使用词语来传达特定的情感，根据情感信息对照表，可以提取情感的特征，对于情感信息对照表中的一个情感，情感信息对照表记录了能够体现该情感的词语，对于一个给定文本，基于情感信息对照表可以得到文本中各类情感的得分，得分一方面与用词本身的强度有关，对于同类情感，不同的词语其体现出来的强度是不同的，例如同一类情感中，“狂喜”比“开心”的强度更高；另一方面，得分还与该类情感的词语出现的频率以及词语上下文中所含有的副词有关。通过计算情感词典中每类情感的得分，将每种情感的得分相加，得到该种情感信息的值，组合各个情感信息的值得到文字情感特征向量。

在具体实施过程中，文本注意力机制可以帮助模型专注于输入中最重要的部分，从而提高模型的准确性。一些文本数据可能较为冗长，而要想以更少的支出和更高的准确性识别假新闻，本方案不需要过于关注每个字词和标点符号，有了情感特征，本方案可以通过注意力机制集中于与情感特征相契合的字词特征。因此，本发明引入了文本注意力机制，来获得情感与文本之间的注意力关系，使得该模型可以结合文本的情感，更有效地利用文本信息。根据注意机制，得到了融合情感文字特征向量，在通过注意力机制融合文字特征向量和文字情感特征向量，得到融合情感文字特征向量的步骤中，得到所述融合情感文字特征向量的步骤可表示为：

其中，emo表示文字情感特征向量，T_featrue表示融合文字特征向量，(T_featrue)^T表示融合文字特征向量的转置，FC_Q、FC_K和FC_V分别表示三个全连接层的参数构成的向量，d表示三个全连接层的参数构成的向量的长度，softmax表示softmax函数，T_emo表示融合情感文字特征向量。

如图5所示，在具体实施过程中，在将所述融合类别图像特征向量和融合情感文字特征向量通过注意力机制融合，得到融合图文特征向量的步骤中，得到所述融合图文特征向量的步骤可表示为：

FV＝concat(LayerNorm(TF+f(TF)),LayerNorm(VF+f(VF)))；

其中，TF表示第一输出向量，VF为第二输出向量，T_emo表示融合情感文字特征向量，M表示融合类别图像特征向量，FC_Q、FC_K和FC_V分别表示三个全连接层的参数构成的向量，d表示三个全连接层的参数构成的向量的长度，softmax表示softmax函数，f表示前馈层的处理，LayerNorm表示层归一化处理，FV表示融合图文特征向量。

采用上述方案，一方面，融合TF和VF，另一方面，本方案也能保留一些原始的特性。本发明通过残差连接的方式，分别将前馈处理前后的特征进行拼接，从而更好地捕捉输入和输出之间的关系。前馈层包含了多个全连接层及对应的激活函数，层归一化能够提升网络的稳定性和泛化能力，最后再将两组输出进行拼接得到交叉注意力融合模块的输出。

本方案的有益效果包括：

1.本发明能够同时提取并融合图片和文字中的特征信息，并对特征信息进行检测与识别，与传统的虚假信息识别方法相比，识别效率更高，准确度更高，成本更低，更节省人力物力；

2.与其他基于图文的虚假信息检测方法相比，现有的基于深度学习的图文虚假信息检测方法大多关注于基本特征信息的融合，而忽略了显式特征信息之下包含的同样可用于虚假信息识别的丰富的隐式特征信息。本发明从图文信息中提取了包括图片类别信息与文字情感信息的图文隐式特征，从而实现更全面的虚假信息检测；

3.为了将显示特征与隐式特征进行更好的深度融合，本发明考虑到每种特征的同时将其有效地融合在一起，起到能够提升检测准确度的效果，本发明通过卷积神经网络、多专家结构、注意力机制等结构，实现对多种特征的融合；

4.本发明提出了图像类别这一可用于虚假信息检测的隐式特征，并基于不同的图像类别对该特征进行了建模；

5.本发明对图片与文字的显式特征，即图片和文字本身的特征信息，与图片与文字的隐式特征，即图片的类别特征与文字的情感特征，进行了分别提取，并将这四类不同的特征信息进行融合，进行虚假信息的检测；

6.本方面利用多专家结构将类别特征与图像特征进行融合，利用注意力机制融合文字特征与情感特征，并基于交叉注意力机制进行特征信息的深度融合。

本发明实施例还提供一种多模态虚假信息检测系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如前所述方法所实现的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述多模态虚假信息检测方法所实现的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态虚假信息检测方法，其特征在于，所述方法的步骤包括：

2.根据权利要求1所述的多模态虚假信息检测方法，其特征在于，所述图像分类网络对应各个类别设置有分类器，在将所述图像特征向量输入到图像分类网络中，得到图像分类向量的步骤中，将所述图像特征向量输入到图像分类网络中，所述图像分类网络的每个分类器输出一个分类值，组合各个分类器的分类值得到图像分类向量。

3.根据权利要求1所述的多模态虚假信息检测方法，其特征在于，在将所述图像特征向量和图像分类向量输入到多专家结构中的步骤中，所述多专家结构中对应每个图像分类网络的分类器设置有专家模型。

4.根据权利要求3所述的多模态虚假信息检测方法，其特征在于，将所述图像特征向量和图像分类向量输入到多专家结构中，得到融合类别图像特征向量的步骤包括：

5.根据权利要求1所述的多模态虚假信息检测方法，其特征在于，在所述第二网络模型输出文字特征向量的步骤中，所述第二网络模型包括顺序连接的文字向量化网络和文本分类网络。

6.根据权利要求5所述的多模态虚假信息检测方法，其特征在于，在所述第二网络模型输出文字特征向量的步骤中，将所述文本信息输入到文字向量化网络中，所述文字向量化网络对文本信息进行向量化，得到词嵌入向量，将所述词嵌入向量输入到文本分类网络中，得到文字特征向量。

7.根据权利要求1所述的多模态虚假信息检测方法，其特征在于，在所述情感提取模块输出文字情感特征向量的步骤中，基于预设的情感信息对照表对所述文本信息进行匹配，得到所述文本信息对于每种情感信息的得分，组合各种情感信息的得分得到文字情感特征向量。

8.根据权利要求1所述的多模态虚假信息检测方法，其特征在于，所述图像信息包括多张图像，获取待辨认信息，并从所述待辨认信息中分离图像信息和文本信息的步骤包括对所述图像信息进行预处理，在对所述图像信息进行预处理的步骤中，将所述图像信息的多张图像的大小和图像中各个像素点的像素值进行归一化。

9.一种多模态虚假信息检测系统，其特征在于，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1～8任一项所述方法所实现的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时以实现如权利要求1～8任一项的所述多模态虚假信息检测方法所实现的步骤。