CN112035669A

CN112035669A - 基于传播异质图建模的社交媒体多模态谣言检测方法

Info

Publication number: CN112035669A
Application number: CN202010940942.3A
Authority: CN
Inventors: 毛震东; 张勇东; 陈鑫; 王鹏辉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-04
Anticipated expiration: 2040-09-09
Also published as: CN112035669B

Abstract

本发明公开了一种基于传播异质图建模的社交媒体多模态谣言检测方法，在特征提取阶段，采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息，该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播，从而获取到更丰富的信息，并且该方法可以充分利用有限的标记数据和大量未标记的数据，减少人工标记的资源浪费。在谣言检测阶段，利用网络结构信息和多模态信息融合后的特征，使用softmax分类器进行谣言检测。通过本专利提出的方法，可以自动快速准确的实现谣言检测，从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

Description

基于传播异质图建模的社交媒体多模态谣言检测方法

技术领域

本发明涉及网络空间安全技术领域，尤其涉及一种基于传播异质图建模的社交媒体多模态谣言检测方法。

背景技术

随着社会的发展，传统社交媒体成为用户分享信息的重要来源，社交媒体在信息传播方面有着不可忽视的影响力。但是随之而来的是各种虚假信息的病毒式传播，谣言消息的泛滥引发公众恐慌，扰乱社会秩序，影响社会舆论，操控大众焦点，成为社会极大的不稳定因素。因此，提出一个行之有效的自动检测虚假谣言信息的方法，对于维持社会生活稳定和网络空间安全具有重要的意义。

为了抑制社交媒体谣言信息泛滥的问题，学术界提出了基于手工特征和机器学习的识别技术。基于手工特征的识别技术一般由专业人员判断同时需要用户参与，由于消息的正确性完全由人工判断，所以非常依赖鉴定者的能力和知识，而且谣言检测周期长等弊端非常明显，所以这种方法随着信息传播爆炸式增速，谣言规模指数式增长，逐渐的不能满足检测需求。随着人工智能技术的发展，基于机器学习的识别技术被提出。这种技术弥补了人工识别方法的缺点，提高识别的正确性，减轻人工审核造成的人力资源浪费。这类方法首先运用特征工程抽取信息特征，针对不同的谣言检测对象分析更适合的特征，或者从不同角度发现更具有代表性的特征，之后再构建分类器将事件分类为谣言和非谣言。但是这类方法依然存在缺陷，需要在特征的创建过程中引入相关专业领域知识，并且抽取过程复杂，实现成本较高。

另外，谣言的传播过程具有一定的社交网络特性，比如群体性、相似性等，目前存在的大部分方法都是从谣言数据本身的内容出发，并没有充分考虑到社交网络的拓扑结构特性以及信息传播特性。同时基于内容进行的谣言检测方法大多数仅仅通过文本内容判断社交媒体信息是否属于谣言信息，社交媒体中图片现在已经成为表达态度、传递信息的又一重要载体，此外，用户相关的社交媒体平台的信息(如点赞数，转发数等)也对判断谣言提供重要依据。但是，目前的检测方案都没有考虑这些因素，因此，检测准确度有待提升。

发明内容

本发明的目的是提供一种基于传播异质图建模的社交媒体多模态谣言检测方法，可以自动快速准确的实现谣言检测，从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

本发明的目的是通过以下技术方案实现的：

一种基于传播异质图建模的社交媒体多模态谣言检测方法，包括：

获取包含文本、图像以及社交信息的待检测事件；

基于预训练模型进行从文本与图像中各自提取文本特征与图像特征，并对社交信息进行特征编码，获得社交信息特征；

基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到一起，实现特征的融合；

将融合的特征输入至分类器，获得检测结果。

由上述本发明提供的技术方案可以看出，充分挖掘社交网络上内容丰富的文本信息和图像信息，结合基于社交网络平台的社交信息，利用多模态的信息实现社交网络谣言检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于传播异质图建模的社交媒体多模态谣言检测方法的网络模型示意图；

图2为本发明实施例提供的社交媒体异质信息网络图的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于传播异质图建模的社交媒体多模态谣言检测方法，图1示出了实现该方法的网络模型及主要检测流程。该方法通过构建异质信息网络，利用图注意力网络进行信息传播和结构信息学习，在充分挖掘社交媒体结构信息之外，还结合了社交媒体上内容丰富的文本信息和图像信息，利用多模态的信息实现社交媒体谣言检测。在特征提取阶段，采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息，该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播，从而获取到更丰富的信息，并且该方法可以充分利用有限的标记数据和大量未标记的数据，减少人工标记的资源浪费。在谣言检测阶段，利用网络结构信息和多模态信息融合后的特征，使用softmax分类器进行谣言检测。通过本专利提出的方法，可以自动快速准确的实现谣言检测，从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

在实际应用中，可以将社交媒体上的消息输入到该模型方法中，在经过多模态信息处理之后，进行社交媒体异质图信息网络建模，然后通过异质图注意力卷积神经网络处理，最后该框架可以自动给出该消息是否为谣言消息的结果。在实施上，可以运行在如微博之类的社交媒体平台的后台，检测社交媒体平台上的各类消息，方便高效地进行谣言的检测以及后续处理。

如图1所示，该方案主要包括如下步骤：

1、获取包含文本、图像以及社交信息的待检测事件。

本发明实施例中，待检测事件可以是社交平台上的帖子、消息等。

2、基于预训练模型进行从文本与图像中各自提取文本特征与图像特征，并对社交信息进行特征编码，获得社交信息特征。

1)基于预训练模型Bert进行中文文本特征提取。

Bert模型是目前效果优异的通用语言表达模型，为不同的自然语言处理任务提供支持。在实际使用时，只需要根据具体任务额外加入一个输出层进行微调即可，而不用为特定任务来修改模型结果，这是预训练的Bert模型的主要优点。而且传统的句向量采用wordembedding取加权平均，无法理解上下文的语义，Bert生成的句向量的优点在于可以理解聚义，并且排除词向量加权引起的误差。

本发明实施例中，首先，进行文本预处理：对文本进行数据清洗，去除非文本内容，并对清洗后的文本进行分词，以及引入停用词表，去除文本中无效词语；然后，将预处理后的文本输入至预训练模型Bert，得到文本特征；所述文本特征可以为1024维度的文本特征向量，使用倒数第二层的输出作为文本特征向量，序列的最大长度设置为1024，从而保证每个文本特征向量输出维度相同。

f_text＝Bert(text)

上式中，text表示预处理后的文本；f_text表示文本特征。

2)基于卷积神经网络进行图像特征提取。

本发明实施例选择ResNeSt模型。ResNeSt模型是一种在Imagenet分类任务上的CNN(卷积神经网络)预训练模型，它相比较传统的模型有着更高的准确率且不增加参数复杂度。本发明实施例中，去除卷积神经网络ResNeSt中顶部全连接层，输入预处理后的图像，将网络中最后一个池化层的输出作为提取到的图像特征。

f_image＝ResNeSt(image)

上式中，image表示预处理后的图像，f_image为图像特征，维度为2048。

3)社交信息特征编码。

所述社交信息包括：数字特征与类别特征。其中，数字特征包括：待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目；类别特征包括：用户ID、用户类型、发布平台及事件内容是否为原创。

对于数字特征，进行Z-Sore归一化，表示为：

f_numerical＝Z_Score[f_retweet，f_praise，f_follower，f_time，f_following，f_tweet]

其中，f表示特征，retweet表示转发数目，praise表示点赞数目，following表示用户的关注对象数目，time表示发布时间，follower表示用户的粉丝数目，tweet表示用户的发帖数目；

对于类别特征采用One-Hot编码(独热编码)。由于用户特征和发布平台的One-Hot编码的特征维度太大并且数据稀疏，因此，采用truncatedSVD进行降维处理，在保留大多数信息的同时大幅度降低特征维度，表示为：

f_categorical＝[tsvd(f_uid)，tsvd(f_platform)，f_original，f_usr-type]

其中，uid表示用户id，platform表示用户发表该推文的工具，original表示用户发表内容是否为原创，user-type表示用户类型，tsvd(.)表示采用truncatedSVD对特征进行降维处理；

再将f_numerical与f_categorical拼接，作为社交信息特征(维度为128)，表示为：

f_social＝Concat[f_categorical，f_numerical]。

3、基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到一起，实现特征的融合。

本步骤优选实施方式包括如下两个部分：

1)构建社交媒体异质信息网络图结构。

社交媒体异质信息网络图可以灵活地集成任何附加信息并对其丰富的关系进行建模，本发明实施例设计的社交媒体异质信息网络图如图2所示。

图结构表示为G＝(V，E)，E是节点间连接的边的集合，V是图结构中的节点的集合，包括文本内容节点Text＝{c₁，c₂，...，c_m}、用户社交信息节点User＝{u₁，u₂，...，u_n}、主题节点Topic＝{t₁，t₂...，t_k}、以及图像内容节点Image＝{i₁，i₂，...，i_w}；在初始时刻，利用若干标注好的节点构成基础图，构建社交媒体异质信息网络图结构，相当于在基础图的基础上添加新的节点和边，对于每一阶段得到的事件，都是利用得到的事件对应的节点来更新上一阶段的社交媒体异质信息网络图；对于当前阶段的待检测事件：

将之前提取的文本特征、图像特征以及社交信息特征各自对应的作为文本内容节点、图像内容节点以及用户社交信息节点，相应特征的向量表示作为对应节点的向量表示；主题节点通过文档主题生成模型从文本中提取，并构建主题节点与文本内容节点之间的边。文档主题生成模型LDA可以挖掘社交媒体事件(例如，帖子)的潜在主题，这样可以丰富社交媒体中帖子内容的语义信息，因此若将该条帖子分配了一个主题，则可以构建帖子文本内容c和主题t之间的边。

根据发布以及转发待检测事件的用户信息，构建文本内容节点和相关用户社交信息节点之间的边。为了进一步丰富消息的结构信息，促进信息的传播，还考虑了用户信息之间的关系。具体的，对于用户社交信息节点，如果两个用户社交信息节点的相似度(例如余弦相似度)得分高于阈值，则建立两个用户社交信息节点的边；这样，通过构造不同用户之间的边，就建模了谣言传播中的用户群落结构，不同用户发表的不同消息便可由此联系起来。

最后，根据图像与文本所属的社交媒体帖子，建立相应图像内容节点与文本内容节点的边。

上述社交媒体异质信息网络图中，对于单个事件，初始时刻对应的用户社交信息节点为一个，此后，如果某个用户转发了该事件，则构建相关用户社交信息节点与对应文本内容节点的边。具体应用中，一个用户社交信息节点与文本内容节点的边的个数可以是一个或多个，由具体情况来确定。对于单个事件，图像内容节点的数目与图像数目相同，主题节点的数目也取决于文本内容的主题数目，最终由LDA技术决定。

以上方式，通过结合主题、文本内容、图像内容和用户社交信息的关系，构建了一个内容丰富的社交媒体异质信息网络图，从而大大有利于后续的分类任务。

2)基于异质图注意力卷积神经网络的特征表示学习。

本发明实施例中，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到目标节点，实现特征的融合。主要过程如下：

对于类型为τ的节点v，如果v有一个类型为τ′的邻居节点v′∈N_v，N_v表示节点v的邻居节点集合，则v′的注意分数为b_vv′表示为：

b_vv′＝σ(V^T·[h_v||h_v′])

其中，V为注意力向量，h_v、h_v′各自表示节点v、节点v′的嵌入向量，||表示节点嵌入的拼接，σ(·)表示激活函数Leaky ReLU；使用softmax函数对节点级注意力分数进行归一化：

本发明实施例中，提出了异构图卷积神经网络算法，该算法考虑到多模态信息的差异和信息在社交媒体框架中的传播特性，采用分层传播规则，将节点级别的注意力机制纳入到图结构的卷积操作中：

其中，T表示节点类型集合，

W_τ ^(l)各自表示类型为τ的第l层节点的隐藏表示、变换矩阵；β_τ表示注意力矩阵，其第v行v′列的元素为β_vv′；

通过上式可知，节点的隐藏表示H^(l+1)是利用不同的变换矩阵，将其不同类型的邻居节点

的特征进行信息聚合得到，充分考虑了不同模态特征空间的差异，将其投射到公共隐空间。通过图结构中多层的卷积操作，例如，总层数设为L(即更新次数)，最终得到的融合特征H^(L)中融合了多模态和多节点信息的嵌入向量。

通常来说，层的概念可以理解为整个网络更新的次数，也就是每一层的卷积操作中都会把目前构建的图结构中各个节点更新一次。类比卷积神经网络，在建立图结构时确定了节点，每个层包含的节点数量都是相同的，只是节点的特征向量在更新。

4、谣言判断。

融合特征H^(L)将被送到一个softmax分类器进行分类操作：

Z＝softmax(H^(L))

以上是本发明实施例上述方法的主要检测原理；该方法构成的网络模型需要预先进行训练，训练过程采用交叉熵损失函数：

其中，C是类别数，D_train为训练数据集；Y为对应的标签矩阵，Z为分类结果构成的矩阵；Θ为模型参数，μ为正则化参数。对于模型优化，可以采用梯度下降算法。

与现有方法相比，而本发明上述方法能够提取多种模态特征并实现融合，包括图像特征，文本特征和用户社交信息特征；此外，该方法能够通过构建社交媒体异质信息网络图实现不同模态间的关联以及利用信息传播得到信息的最终表示。本发明能够更为细致精确地刻画网络信息，从而捕获到能够有效区分谣言与非谣言的潜在信息，提升谣言检测的效果，在保证检测精度的同时，能够更加快速的实现检测结果，即在谣言出现的早期就能很好的实现对谣言的检测，从而将谣言扼杀在传播扩大影响之前，能很好的控制谣言造成的恶劣后果。

为了分析本发明所提取的特征对社交媒体谣言检测任务的有效性，对特征在数据集上的对谣言和非谣言的区分能力进行了实验分析。使用WeiboRumorSet作为社交媒体谣言检测研究的数据集。该数据集真假信息数量平衡，分别有4779条已被证实的真实信息和5381张真实图像，4748条谣言信息和7954张谣言图像。实验的数据集划分情况为，数据集中75％作为训练集，10％作为验证集，15％作为测试集。通过大量的实验证明，社交媒体异质图的建模效果使得最终的谣言检测结果得到明显提升。因为图的建模优化了谣言与非谣言信息的表示，从而能够更准确地进行社交媒体谣言检测。因此，本发明的实验效果优异，能够较好的完成社交媒体上的谣言检测任务。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，包括：

获取包含文本、图像以及社交信息的待检测事件；

将融合的特征输入至分类器，获得检测结果。

2.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，基于预训练模型Bert进行中文文本特征提取，步骤包括：

首先，进行文本预处理：对文本进行数据清洗，去除非文本内容，并对清洗后的文本进行分词，以及引入停用词表，去除文本中无效词语；

然后，将预处理后的文本输入至预训练模型Bert，得到文本特征。

3.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，基于预训练的卷积神经网络进行图像特征的提取；所述卷积神经网络为去除卷积神经网络ResNeSt中顶部全连接层后的网络，网络中最后一个池化层的输出即为提取到的图像特征。

4.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，所述社交信息包括：数字特征与类别特征；其中，数字特征包括：待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目；类别特征包括：用户ID、用户类型、发布平台及事件内容是否为原创；

对于数字特征，进行Z-Sore归一化，表示为：

f_numerical＝Z_Score[f_retweet,f_praise,f_follower,f_time,f_following,f_tweet]

对于类别特征采用One-Hot编码，并采用truncatedSVD进行降维处理，表示为：

f_categorical＝[tsvd(f_uid),tsvd(f_platform),f_original,f_usr-type]

再将f_numerical与f_categorical拼接，作为社交信息特征，表示为：

f_social＝Concat[f_categorical,f_numerical]。

5.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，所述社交媒体异质信息网络图结构表示为G＝(V,E)，E是节点间连接的边的集合，V是图结构中的节点的集合，包括文本内容节点、用户社交信息节点、主题节点、以及图像内容节点；在初始时刻，利用若干标注好的节点构成基础图，构建社交媒体异质信息网络图结构，也即在基础图的基础上添加新的节点和边，对于每一阶段得到的事件，都是利用得到的事件对应的节点来更新上一阶段的社交媒体异质信息网络图；对于当前阶段的待检测事件：

将提取到的文本特征、图像特征以及社交信息特征各自对应的作为文本内容节点、图像内容节点以及用户社交信息节点，相应特征的向量表示作为对应节点的向量表示；主题节点通过文档主题生成模型从文本中提取，并构建主题节点与文本内容节点之间的边；

根据发布以及转发待检测事件的用户信息，构建文本内容节点和相关用户社交信息节点之间的边；对于用户社交信息节点，如果两个用户社交信息节点的相似度得分高于阈值，则建立两个用户社交信息节点的边；

最后，根据图像与文本所属的事件，建立相应图像内容节点与文本内容节点的边。

6.根据权利要求5所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到一起，实现特征的融合的过程如下：

b_vv′＝σ(V^T·[h_v||h_v′])其中，V为注意力向量，h_v、h_v′各自表示节点v、节点v′的嵌入向量，||表示节点嵌入的拼接，σ(·)表示激活函数；使用softmax函数对节点级注意力分数进行归一化：

采用分层传播规则，将节点级别的注意力机制纳入到图结构的卷积操作中：

其中，T表示节点类型集合，

各自表示类型为τ的第l层节点的隐藏表示、变换矩阵；β_τ表示注意力矩阵，其第v行v′列的元素为β_vv′；

每一层的卷积操作是针对图结构中的所有节点，通过图结构中多层的卷积操作，最终得到融合后的特征。

7.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，该方法构成的网络模型需要预先进行训练，训练过程采用交叉熵损失函数：

其中，C是类别数，D_train为训练数据集，Y为对应的标签矩阵，Z为分类结果构成的矩阵；Θ为模型参数，μ为正则化参数。