CN113515634A

CN113515634A - 基于分层异质图神经网络的社交媒体谣言检测方法及系统

Info

Publication number: CN113515634A
Application number: CN202110775965.8A
Authority: CN
Inventors: 廖祥文; 王灿杰; 林建洲; 林树凯; 陈泓敏
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-19
Anticipated expiration: 2041-07-09
Also published as: CN113515634B

Abstract

本发明涉及一种基于分层异质图神经网络的社交媒体谣言检测方法及系统，包括基于数据预处理模块，用于对文本数据进行预处理，抽取用户静态特征，构建分层异质图结构；事件编码模块，用于编码含有传播及扩散结构信息的文本；用户编码模块，用于学习用户行为特征；全局异质图编码模块，用于捕捉事件和用户之间丰富的全局结构信息；谣言检测标签输出模块，用于融合文本信息、用户行为特征、全局异质图信息，完成谣言检测的标签预测工作。本发明能够有效的学习用户与用户之间和文本与文本之间的局部内联关系，生成含有临近节点信息的用户、文本表示，以此建模学习用户与事件之间的全局结构关系，最终识别出事件的真实性。

Description

基于分层异质图神经网络的社交媒体谣言检测方法及系统

技术领域

本发明涉及文本检测领域，具体涉及一种基于分层异质图神经网络的社交媒体谣言检测方法及系统。

背景技术

谣言(Rumor)，一般指的是在发布时真实性尚未得到证实的流传陈述或报道。这一未经核实的陈述有可能会被证实是真实的，或者部分乃至完全是虚假的，甚至其真实性也可能长期无法得到证实。随着推特、微博等社交媒体平台的迅速发展，其已逐渐取代传统媒体，成为用户获取信息、表达意见和相互交流的一个方便的在线平台。由于社交媒体具有高速传播信息的本质特性，给用户带来快捷获取新信息途径的同时，也为谣言的传播提供了温床。社交媒体与传统媒体相比，传统媒体中的信息由公认组织发布，并经过多次审查核实，但社交媒体中的大部分信息由个人发布，在传播之前并未经过真实性验证。信息发布者中的造谣者往往为了名气或其他利益，肆意编造及传播未经核实的信息，这可能会使谣言借助社交媒体强大的传播能力在短时间内接触到成百上千的人，引起社会恐慌和经济动荡。尽管如Snopes、微博社区管理中心等组织致力于揭穿在社交媒体上出现的谣言，但这些组织对信息的判断基于人工收集和评估，面对社交媒体上庞大的信息流，不仅不能全面地验证信息真实性，且通常需要较长的响应时间。因此能够快速且准确地识别社交媒体谣言对于科技、经济、以及社会稳定和发展具有非常重要的意义和价值。

近些年的社交媒体谣言检测研究工作大体上可以分为以下两类1)基于传统机器学习的谣言检测，研究精力主要集中在事件的特征选择和设计上，通过人工选择的方式从事件信息中抽取显著的特征集，包括用户特征，上下文特征，传播特征等，例如用户个人信息，文本情感极性，传播树特征。在此类特征工程的基础上使用支持向量机、决策树等分类器进行分类，判断事件是否是谣言。该类方法取得了良好的效果，但是人工提取特征使得分类结果的优劣极大地依赖于研究者精心选择和设计的关键特征的质量，因此需要消耗大量的时间和人力物力。2)基于特征表示学习的谣言检测，该类方法主要借助神经网络模型的优秀的表示学习能力，从待检测对象的各类信息中挖掘谣言与非谣言之间的区别。现有的研究主要围绕谣言的内容、发布用户以及传播模式三个关键要素展开，尤其是以对文本内容建模为主，挖掘其中不确定性的表达作为识别谣言的重要线索，但对于社交媒体，其具有的文本信息一般较短、表达不规范等典型特点，使得模型难以对事件做到有效建模。另外，现有的研究将上述三个关键要素看做是相互独立的事件表示元素，忽视了其之间相互联系、相互补充、相互增强的关系，即割裂了“用户-事件”，“用户-用户”之间密切相关的联系，导致谣言检测模型性能受限，因此无法准确地刻画谣言事件。基于此，针对事件中三个关键要素之间的关系，选择合适的算法进行表示学习，获取其潜在的特征表示，对于谣言检测具有重要的意义和价值。

发明内容

有鉴于此，本发明的目的在于提供一种基于分层异质图神经网络的社交媒体谣言检测方法及系统，能够有效的学习用户与用户之间和文本与文本之间的局部内联关系，生成含有临近节点信息的用户、文本表示，以此建模学习用户与事件之间的全局结构关系，最终识别出事件的真实性。

为实现上述目的，本发明采用如下技术方案：

一种基于分层异质图神经网络的社交媒体谣言检测方法，包括以下步骤：

步骤S1:对推文事件数据进行预处理，抽取用户静态特征，构建用户行为关系图和分层异质图结构；

步骤S2:基于预处理后推文事件数据，采用双层GCN模型，获取推文事件隐层特征向量；

步骤S3基于用户静态特征和用户行为关系图作为模块的输入，采用双层GCN模型，从而得到处理后的用户特征向量表示；

步骤S4:采用双层GAT模型学习文本和用户之间丰富的全局结构信息；

步骤S5:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合，作为事件的整体特征向量，并使用softmax函数对于该向量进行计算，输出其预测标签。

进一步的，所述步骤S1具体为：

步骤S11：去除文本数据中的噪声，利用余下的词语构建字典，并利用CLFD法计算字典中单词的权重，结合tf-idf统计方法计算推文的向量表示；

步骤S12:从推文事件数据中抽取用户描述信息并转化为用户静态特征；

步骤S13:根据用户与用户之间是否共同参与事件讨论的关系构建用户行为关系图；

步骤S14:根据用户是否参与事件讨论构建用户与事件间的全局异质图。

进一步的，所述用户描述信息包括用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长。

进一步的，所述步骤S2具体为：

步骤S21:以推文向量表示和传播、扩散结构图作为输入，采用双层GCN模型学习推文文本信息及推文事件传播过程中产生的传播、扩散结构信息；

步骤S22:将每层GCN输入的源推文向量复制后与当前GCN层输出的向量进行拼接；

步骤S23:利用平均池化方法获得推文事件隐层特征向量.

进一步的，所述S3具体为：用户静态特征和用户行为关系图作为模块的输入，采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息，进一步得到处理后的用户特征向量表示。

进一步的，所述步骤S4具体为：以推文事件隐层特征向量、用户特征向量、全局异质图作为输入，其中全局异质图包含两种节点：

其中

W为可学习的模型变量，

和

分别为所述步骤S2输出的推文事件传播、扩散向量表示，

为所述步骤S3输出的用户特征向量表示，m′_j和u′_i分别为异质图中的推文节点和用户节点；

采用双层GAT模型学习文本和用户之间丰富的全局结构信息。

进一步的，所述GAT网络使用注意力机制计算融合邻居节点信息的分布式表示，注意力权重计算公式如下：

α′_ji＝softmax(LeakyReLU(a^T[m′_j；u′_i]))β′_jt＝softmax(LeakyReLU(c^T[u′_i；m′_t]))

其中，a^T和c^T为可学习的模型变量，α′_ji为推文节点m′_j的邻居用户节点u′_i的权重，β′_jt为用户节点u′_i的邻居推文节点m′_t的权重；

所述GAT网络采用了多头注意力机制，异质图中各个节点的最终向量表示由K个独立的注意力计算结果拼接而成，其计算公式如下：

其中

为第k个注意力层计算出的推文节点m′_j的邻居用户节点u′_i的权重，

为第k个注意力层计算出的用户节点u′_i的邻居推文节点m′_t的权重，

和

为可学习的模型变量，

和

分别表示推文节点m_j的邻居用户节点集合和用户节点u_i的邻居推文节点集合，||为向量拼接操作，σ(·)为ELU激活函数。

进一步的，所述步骤S5具体为：将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合，作为事件的整体特征向量，并使用softmax函数对于该向量进行计算，输出其预测标签，计算公式如下：

其中

和

分别为所述步骤S2输出的推文事件传播、扩散向量表示，

为所述步骤S3输出的用户特征向量表示，W为可学习的模型变量，b为偏置项，L_e为模型最终的预测标签。

一种基于分层异质图神经网络的社交媒体谣言检测系统，包括基于数据预处理模块，用于对文本数据进行预处理，抽取用户静态特征，构建分层异质图结构；

事件编码模块，用于编码含有传播及扩散结构信息的文本；

用户编码模块，用于学习用户行为特征；

全局异质图编码模块，用于捕捉事件和用户之间丰富的全局结构信息；

谣言检测标签输出模块，用于融合文本信息、用户行为特征、全局异质图信息，完成谣言检测的标签预测工作。

本发明与现有技术相比具有以下有益效果：

本发明能够有效的学习用户与用户之间和文本与文本之间的局部内联关系，生成含有临近节点信息的用户、文本表示，以此建模学习用户与事件之间的全局结构关系，最终识别出事件的真实性。

附图说明

图1是本发明一实施例中系统示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于分层异质图神经网络的社交媒体谣言检测系统，包括：

数据预处理模块，用于对文本数据进行预处理，抽取用户静态特征，构建分层异质图结构等；

事件编码模块，用于编码含有传播及扩散结构信息的文本；

用户编码模块，用于学习用户行为特征；

谣言检测标签输出模块，用于融合文本信息、用户行为特征、全局异质图信息，完成谣言检测的标签预测工作。下面分别详细描述各模块配置。

在本实施例中，还提供一种基于分层异质图神经网络的社交媒体谣言检测方法，包括以下步骤：

在本实施例中，优选的，步骤S1具体包括以下步骤：

步骤S11：去除文本数据中的噪声，比如去除文本中的链接、特殊字符、标点符号等，过滤文本中的停用词，利用余下的词语构建字典，利用CLFD(class label frequencydistance)算法计算字典中单词的权重，结合tf-idf统计方法计算推文的向量表示，CLFD算法如下：

上述算法中，tf(t，d)表示词语t在文档d中出现的次数；occ(t，i)表示词语t在标签为i的样本中出现的次数；

表示标签为非i的样本；total(i)表示标签为i的样本中词语的总数量；clfrⁱ(t)表示词语t在每个标签i类中的权重；clfd(t)即为词语t的权重。

推文的最终向量表示是计算出的clfd(t)和tf-idf生成的向量的Hadamard积，其公式如下：

步骤S12：从生数据中抽取用户描述信息并转化为用户静态特征，抽取的用户描述信息包括：用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长；

步骤S13：根据推文文本间的转发或评论关系构建传播和扩散结构图。其中，传播和扩散图中的节点皆为推文文本，传播图中的边由被转发/评论者指向转发/评论者，扩散图则相反；

步骤S14：根据用户与用户之间是否共同参与事件讨论的关系构建用户行为关系图；其中，用户行为关系图中的节点为用户，边为根据用户行为构建的无向边。

步骤S15：根据用户是否参与事件讨论构建用户与事件间的全局异质图。其中，全局异质图包含两种节点，分别为推文文本和用户，边为根据用户是否参与事件讨论构建的无向边。

在本实施例中，优选的，步骤S2具体为：以推文向量表示和传播、扩散结构图作为输入，采用两个双层GCN模型分别学习推文文本信息及推文事件传播过程中产生的传播、扩散结构信息，双层GCN模型计算公式如下：

其中，X为数据预处理模块1中输出的推文向量表示，

表示传播图或扩散图的正则化邻接矩阵，W为神经网络层的参数，σ(·)为RELU激活函数，H₁和H₂分别为两层GCN网络的输出。

在此基础上将每层GCN输入的源推文向量复制后与当前GCN层输出的向量进行拼接以达到原推文信息增强的目的，其计算公式如下：

其中H₀＝X，

为前一层GCN输出的源推文隐层向量复制n(事件中推文的数量)份后的矩阵。

最后分别对传播模型和扩散模型的输出利用平均池化方法获得推文事件的传播、扩散向量表示，计算公式如下：

其中

和

分别为信息增强后的传播、扩散结构事件矩阵表示，STD和SBU为最终的推文事件的传播、扩散向量表示。

在本实施例中，优选的，步骤S3具体为：以用户的静态特征和用户行为关系图作为模块的输入，采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息，从而得到语义更为丰富的用户特征向量表示。其中双层GCN模型计算公式如下：

其中U为用户的静态特征向量表示，σ(·)为RELU激活函数。

在本实施例中，优选的，步骤S4具体为：以推文事件隐层特征向量、用户特征向量、全局异质图作为输入，其中全局异质图包含两种节点：

其中

W为可学习的模型变量，m′_j和u′_i分别为异质图中的推文节点和用户节点。

而后采用双层GAT模型学习文本和用户之间丰富的全局结构信息。

GAT网络使用注意力机制计算融合邻居节点信息的分布式表示，注意力权重计算公式如下：

其中，a^T和c^T为可学习的模型变量，α′_ji为推文节点m′_j的邻居用户节点u′_i的权重，β′_jt为用户节点u′_i的邻居推文节点m′_t的权重。

为了从不同的潜在关系中捕捉多种表示，GAT网络还采用了多头注意力机制，异质图中各个节点的最终向量表示由K个独立的注意力计算结果拼接而成，其计算公式如下：

其中||为向量拼接操作，σ(·)为ELU激活函数。

在本实施例中，优选的，步骤S5具体为：将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合，作为事件的整体特征向量，并使用softmax函数对于该向量进行计算，输出其预测标签。计算公式如下：

其中，W为可学习的模型变量，b为偏置项，L_e为模型最终的预测标签。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述步骤S1具体为：

步骤S11：去除推文事件数据中的噪声，利用余下的词语构建字典，并利用CLFD法计算字典中单词的权重，结合tf-idf统计方法计算推文的向量表示；

3.根据权利要求2所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述用户描述信息包括用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长。

4.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述步骤S2具体为：

步骤S23:利用平均池化方法获得推文事件隐层特征向量.

5.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述步骤S3具体为：用户静态特征和用户行为关系图作为模块的输入，采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息，进一步得到处理后的用户特征向量表示。

6.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述步骤S4具体为：以推文事件隐层特征向量、用户特征向量、全局异质图作为输入，其中全局异质图包含两种节点：

其中

W为可学习的模型变量，

和

分别为所述步骤S2输出的推文事件传播、扩散向量表示，

采用双层GAT模型学习文本和用户之间丰富的全局结构信息。

7.根据权利要求6所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述GAT网络使用注意力机制计算融合邻居节点信息的分布式表示，注意力权重计算公式如下：

α′_ji＝softmax(LeakyReLU(a^T[m′_j；u′_i]))

β′_jt＝softmax(LeakyReLU(c^T[u′_i；m′_t]))

其中

和

为可学习的模型变量，

和

8.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法，其特征在于，所述步骤S5具体为：将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合，作为事件的整体特征向量，并使用softmax函数对于该向量进行计算，输出其预测标签，计算公式如下：

其中

和

分别为所述步骤S2输出的推文事件传播、扩散向量表示，

9.一种基于分层异质图神经网络的社交媒体谣言检测系统，其特征在于，包括:

数据预处理模块，用于对文本数据进行预处理，抽取用户静态特征，构建分层异质图结构；

事件编码模块，用于编码含有传播及扩散结构信息的文本；

用户编码模块，用于学习用户行为特征；