CN117556830B

CN117556830B - 基于潜在热点话题与传播过程的谣言检测方法

Info

Publication number: CN117556830B
Application number: CN202410039083.9A
Authority: CN
Inventors: 梁刚; 李劭; 赵奎; 杨进; 颜可翔; 孙明旭
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-04-19
Anticipated expiration: 2044-01-11
Also published as: CN117556830A

Abstract

本发明公开了基于潜在热点话题与传播过程的谣言检测方法，通过神经主题模型以及热度模型实现了对社交网络中的信息进行过滤与聚类，得到潜在热点话题，并通过图注意力网络分析其传播过程，达到检测谣言的目的，包括下述步骤：从获取的公开数据集中提取源帖信息、传播过程以及其他特征，将源帖信息与传播过程中的评论转发信息构成推文‑评论转发集；将其输入话题聚类模块，处理得到话题集；将得到的话题集输入潜在热点话题发现模块，处理得到潜在热点话题集；将潜在热点话题集中的话题构建为TPC图结构，将构建好的TPC图结构作为谣言检测模块的输入；将TPC图结构进行处理，完成最终的检测。

Description

基于潜在热点话题与传播过程的谣言检测方法

技术领域

本发明涉及谣言检测技术等领域，具体的说，是基于潜在热点话题与传播过程的谣言检测方法。

背景技术

社交网络的崛起已经彻底改变了人们获取和传播信息的方式。根据We AreSocial和Hootsuite在2020年发布的数字报告，超过38亿人使用社交媒体。用户可以通过Twitter、微博等各类社交网络以极低成本即时传播信息，从而推动了谣言的迅速传播。据微博官方发布的报告显示，2021年共处理了66251起微博谣言。这些谣言可能会误导人们对某些事件的看法，严重情况下甚至会引发社会恐慌，影响社会秩序。因此，社交网络中谣言的识别和减轻已成为亟待关注和解决的紧迫问题。

谣言在社交网络中的识别方法可以分为两大类：人工检测和自动检测。

人工检测是大多数社交网络采用的主要方法。其包括将疑似谣言信息提交给经验丰富的审阅者，由他们来判断其真实性。这些方法使用方便，不需要复杂的结构和设计，同时准确率也很高。然而，它们也面临一些挑战，比如显著的延迟使得在谣言传播之前难以控制其影响，对知识的高要求使得难以避免错误判断，以及难以凭借个人能力来处理社交网络中的大量信息。因此，自动谣言检测方法已成为当前研究的主流。

早期的自动谣言检测研究主要依赖于特征工程方法，通过这种方法从谣言信息中提取相关特征，然后利用传统的机器学习算法来学习这些特征，从而获取有效的检测模型。最后，使用训练好的模型对数据进行预测，判断数据是否是谣言。特征工程方法在初步研究中取得了一些成功。然而，特征的设计需要大量的时间和人力。此外，特征的有效性高度依赖于各种社交网络的内容，这使得难以在不同平台和领域之间进行泛化，从而导致了不稳定的检测结果。

随着深度神经网络的出现，自动谣言检测引入了一种新的研究方向。这些网络具有自动学习谣言信息表示的能力，可以提取更深层次、更强大的特征。初期的研究者们运用循环神经网络对谣言文本进行建模，通过学习深层特征实现检测。也有研究运用卷积神经网络处理文本信息，然后再通过循环神经网络进行分析。部分方法还引入了注意力机制以提升对文本关键词的理解。而近期研究则关注谣言信息的传播过程以提取深层传播特征。相关方法将谣言传播建模为传播树，以原始信息为根节点，然后通过递归神经网络等模型分析传播树以识别谣言信息。传统深度学习方法在谣言检测领域取得了一定的成就，但也存在一些局限性，例如难以处理复杂的谣言传播过程，在分析传播结构方面能力有限。图神经网络的提出为分析图结构化信息带来了一种新方法，图的节点代表了谣言的文本特征，而整个图的边代表了谣言传播的过程。相关研究使用图神经网络进行谣言检测，将推文的转发-回复关系构建为传播树，同时将用户集合表示为关系图，通过图神经网络对推文集合和用户集合进行处理，最终合并两个集合以获得谣言检测结果。

以上方法大多在谣言检测领域取得了成功，但其依然存在一些不足和局限性，如下所示：

(1)大多数方法侧重于单个推文的真实性检测，而未考虑到检测冷启动问题。例如，在突发事件的早期阶段，由于受到的关注有限，社交媒体用户发布的信息通常仅包括原始推文，缺少相关的评论和转发。这导致了冷启动问题的出现。这个问题不仅会导致显著的成本，也会造成长时间的检测延迟。解决这个问题的一个方法是将检测对象从单个推文转变为一个包含来自多个推文的主题，从而能够为事件提供更多信息。一些研究采用了手动方法或传统的聚类算法以进行主题级别的谣言检测。然而，在处理来自社交网络的大量短文本时，会面临着长时间延迟和特征稀疏的挑战。

(2)社交网络中通常包含大量与谣言检测无关的信息，如个人日常信息和广告。将这些信息纳入谣言检测中对社会影响微乎其微，同时会增加检测延迟并降低检测效果。因此，有必要过滤掉这些无关信息。然而，现有方法大多基于公共数据集，未对这些无关信息进行筛选，影响了检测的效果。

(3)传播结构被认为是区分谣言和非谣言信息的关键特征。目前，大多数方法将传播过程建模为一个图结构，并使用图神经网络或图卷积网络模型来提取特征。然而，现有模型只能通过图域中的空间关系来提取传播特征，无法动态学习节点之间的关系。因此，它们在分析具有大量节点的复杂传播结构时面临挑战，无法取得良好的性能。

发明内容

本发明的目的在于提供基于潜在热点话题与传播过程的谣言检测方法，基于神经主题模型和图注意力网络的社交网络谣言检测模型完成谣言检测，通过神经主题模型以及热度模型实现了对社交网络中的信息进行过滤与聚类，得到潜在热点话题，并通过图注意力网络分析其传播过程，达到检测谣言的目的。

本发明通过下述技术方案实现：基于潜在热点话题与传播过程的谣言检测方法，包括下述步骤：

1)从获取的公开数据集中提取源帖信息、传播过程以及其他特征，其他特征包括用户信息、粉丝数、点赞数等。将源帖信息与传播过程中的评论转发信息构成推文-评论转发集用于后续步骤；

2)将推文-评论转发集输入话题聚类模块，以其中的原始推文作为目标进行聚类，得到多个话题以及各话题所包含的推文-评论转发集，构成话题集用于后续步骤；

3)将得到的话题集输入潜在热点话题发现模块，根据每个话题中推文-评论转发集的相关特征计算推文-评论转发集的热度，进而计算话题集中各个话题的热度，选择在一段时间内热度增长率较大的话题作为潜在热点话题，构成潜在热点话题集用于后续步骤；

4)将潜在热点话题集中的话题构建为TPC图结构，将构建好的TPC图结构作为谣言检测模块的输入；其中，T表示话题节点，P表示原始推文节点，C表示评论转发节点；

5)将TPC图结构进行处理，得到两个方向上的传播矩阵，与特征矩阵一起输入包含门结构的双向图注意力神经网络之中，得到最终的特征向量，然后将特征向量输入分类器得到最终的检测结果。

进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述其他特征包括用户信息、评论数和点赞数等。

进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述步骤2)包括下述具体步骤：

2.1)将推文-评论转发集中原始推文的文本信息输入预训练语言模型中，得到所有文本的词嵌入向量；

2.2)通过降维方法来降低词嵌入向量的维度，得到低维词向量表示以捕获局部和全局特征；

2.3)使用c-TF-IDF文本聚类算法对低维词向量表示进行话题聚类，并通过每个主题的关键词对主题进行表示，得到聚类后的话题集。

进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述步骤3)包括下述具体步骤：

3.1)在潜在热点话题发现模块中，根据推文的相关特征计算得分，将得分进行平均值处理得到推文的热度权值；

3.2)潜在热点话题发现模块通过推文的评论数和点赞数计算推文的热度基值；

3.3)潜在热点话题发现模块根据推文的热度基值与热度权值计算该推文的热度值；

3.4)重复步骤3.1)～步骤3.3)的计算过程得到所有推文的热度，进而计算话题热度；

3.5)确定一个时间段的开始时间以及结束时间，利用潜在热点话题发现模块分别计算话题在两个时刻的热度，进而计算话题热度的增长速度；

3.6)将所有增长速度大于阈值的话题视为潜在热点话题，汇总为潜在热点话题集。

进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征。

进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述步骤5)包括下述具体步骤：

5.1)根据TPC图结构得到两个只包含单方向的TPC图的传播矩阵以及特征矩阵作为双向图注意力神经网络的检测模块的输入；

5.2)输入的两种矩阵经过双向图注意力神经网络中不同的图注意力层以及门结构，得到相反方向上的两个特征向量；

5.3)将两个特征向量通过池化和连接过程进行融合得到最终的特征向量，将最终的特征向量输入分类器得到终的检测结果。

本发明与现有技术相比，具有以下优点及有益效果：

针对大多数方法侧重于单个推文的真实性检测，而未考虑到检测冷启动问题，本发明提出了主题级谣言检测，将单个推文通过相关聚类方法聚类为主题以进行主题级别的谣言检测。并且，本发明首次将神经主题模型引入到谣言检测任务中，实现了对文本信息的自动聚类，解决了现有方法中存在的长延迟和特征稀疏的问题。

为了减少社交网络中无关信息对检测效果的影响，本发明提出了一个主题热度模型，利用主题热度指示一个主题受到的关注程度。通过计算主题热度随时间变化的速率，可以识别潜在的热门话题。将这些潜在的热点话题作为谣言检测的目标，达到过滤无关信息的目的。

为了提升对谣言传播过程的分析效果，本发明提出了一个名为TPC-BiGAT的图神经网络谣言检测模型，该模型将用户发布的文本信息及其传播结构作为输入，并将谣言传播表示为TPC图结构。然后利用双向图注意力网络来捕获更深层次的传播特征。最后将得到的谣言特征输入分类器以得到最终的检测结果。

本发明能够迅速、准确地识别社交网络中的潜在热点话题，并对其进行主题级别的谣言检测，从而提前发现并应对谣言传播的可能风险。

整体而言，本发明对谣言检测的性能进行了显著提升，特别是在解决了冷启动问题方面表现出色。它使得我们能够在谣言传播的早期阶段即时干预，为网络与社会安全奠定了坚实基础。这一成就不仅对于保护公共舆论环境、有效管理信息传播，也在维护网络秩序与社会稳定方面具有重要意义。

本发明提出了一个基于推文相关信息的热度模型用于选择潜在的热点话题以过滤无用信息。通过相关信息可以计算单个推文的热度值，进而可以计算整个话题的热度值。根据不同话题的热度值在一个单位时间段中的变化程度，可以筛选出其中热度增加较快，可能发展为热点话题的潜在热点话题，将其作为后续谣言检测的目标，达到过滤无用信息，提升检测效果的目的。

附图说明

图1为本发明的一种典型谣言检测模型架构图。

图2为图1中Ⅲ.话题-推文-评论转发结构(TPC图)放大图。

图3为话题聚类阶段的典型流程图。

图4为潜在热点话题发现阶段的流程图。

图5为谣言真实性检测阶段的典型流程图。

图6为图5中TD-GAT放大图。

图7为图5中BU-GAT放大图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例1：

基于潜在热点话题与传播过程的谣言检测方法，包括下述步骤：

1)从获取的公开数据集中提取源帖信息、传播过程以及其他特征，其他特征包括用户信息、评论数和点赞数等。将源帖信息与传播过程中的评论转发信息构成推文-评论转发集用于后续步骤；

4)将潜在热点话题集中的话题构建为TPC图结构，将构建好的TPC图结构作为谣言检测模块的输入；

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述步骤2)包括下述具体步骤：

3.1)在潜在热点话题发现模块中，根据推文的相关特征计算得分，将得分进行平均值处理得到推文的热度权值；所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征等；

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法，特别采用下述设置方式：所述步骤5)包括下述具体步骤：

实施例4：

基于潜在热点话题与传播过程的谣言检测方法，该方法通过如图1(结合图2)所示的典型谣言检测模型架构实现，其设置有四个模块：话题聚类、潜在热点话题发现、TPC图构建模块(话题-原始推文-评论转发结构(TPC图))以及谣言检测模块(TPC-BiGAT检测模型)。在图1、图2中，T_i表示原始数据集中的第i个话题，i∈[1,m]，m为原始数据集中的话题文本总数；P_i ^j表示属于话题T_i的第j个原始推文，j∈[1,r]，r为属于话题T_i的原始推文总数；表示属于原始推文P_i ^j的第k个评论转发推文，k∈[1,s]，s为属于原始推文P_i ^j的评论转发推文总数。该方法主要分为五个阶段：

第一阶段为数据提取阶段，本发明从公开数据集中提取相关信息，包括文本信息、用户信息、评论数、点赞数、传播过程以及源贴信息等，构成推文-评论转发集(推文-评论集)用于后续阶段；

第二阶段为话题聚类阶段(利用包括预训练向量以及文本聚类算法等在内的话题聚类模块完成)，该阶段有如下步骤，如图3所示：

步骤1：将文本信息输入预训练语言模型中得到文本词向量(词嵌入向量)，使用的模型为BERT、SBERT等基于transformer结构的预训练模型(预训练文本模型)。通过预训练模型得到的文本词向量的维度都很高，其在高维空间中的表示较为稀疏，难以直接进行聚类；

步骤2：在聚类前使用了UMAP降维方法(UMAP算法)来降低文本词向量的维度，得到文本的低维词向量表示，以在较低维度内捕获局部和全局特征；

步骤3：使用(HDBSCAN算法)对低维词向量表示进行聚类，得到聚类后的文本集合；

步骤4：将每个聚类后的主题转化为一个单独的文档，并使用c-TF-IDF算法计算文档中出现的某个词x在某个主题c中的重要程度W_x，c，根据W_x，c的大小在聚类后的文本中提取每个主题c的关键词。将关键词通过MMR算法筛选，最终得到的主题词作为主题表示。c-TF-IDF算法的过程如下所示：

其中，x表示文档中出现的某个词，tf_x，c表示词x在主题c中出现的频率，f_x表示词x在所有主题中出现的频率，A表示每个主题中的平均词数，结果W_x，c表示词x在主题c中的重要程度。

第三阶段为潜在热点话题发现阶段，该阶段有如下步骤，如图4所示。在该图中，为以t_x为截止时间的原始数据集的子集，x∈[0,z]，z表示发布时间中最晚的时间点，/>表示/>中的第i个话题集合，i∈[1,m]，m为原始数据集中的话题文本总数；表示第i个话题集合/>中的第j个推文集合，j∈[1,r],r为属于话题集合/>的原始推文总数；/>包含原始推文/>以及其全部的评论转发推文/>s为属于推文集合/>的评论转发推文总数；/>表示在以t_x为截止时间的原始数据集的子集中话题集合/>的热度值；R_i表示话题集合/>的热度增长速度。

步骤1：遍历主题聚类后产生的多个话题，分别计算其话题热度。对于其中的某一个话题集合 m为原始数据集中的话题文本总数,其中会存在多个推文集合/>推文集合/>表示第i个话题集合/>中的第j个推文集合，j∈[1,r]，r为属于话题集合/>的原始推文总数；/>包括其原始推文/>以及其全部的转发推文s为属于推文集合/>的评论转发推文总数。本发明依靠多媒体信息、外部链接、用户认证信息以及用户follower数量等相关特征来计算推文的热度权值：

多媒体信息特征S_media的值等于推文中包含的多媒体信息的数量，若不存在多媒体信息则S_media的值为0；

外部链接特征S_url的值等于推文中包含的链接的数量，若不存在链接则S_url的值为0；

如果信息的发布用户是已认证用户，则用户认证信息特征S_au的值为1，如果为未认证用户发布的信息则S_au的值为0；

用户follower数量S_fo的值等于推文发布用户的follower数量；

步骤2：对选取的以上特征进行平均值处理即得到推文的热度权值weight，考虑到各特征间的分布存在区别，因此选取所有特征的几何平均数来进行计算：

其中S_media为多媒体信息特征，S_url为外部链接特征，S_au为用户认证信息特征，S_fo为用户follower数量。

步骤3：通过推文的评论数N_co和点赞数N_st计算推文的热度基值base，计算也使用几何平均数进行：

步骤4：根据步骤2和3即可计算当前推文的热度值。推文可以为原始推文或评论转发推文，在此统一以P表示。weight_P为通过步骤2得到的P的热度权值，base_P为通过步骤3得到的P的热度基值。

H_P＝weight_P*base_P

步骤5：确定一个时间段的开始时间t₁以及结束时间t₂，分别计算话题集合在两个时刻的热度/>计算过程如步骤6所示。

步骤6：根据推文的热度基值与推文的热度权值计算推文在t_x时刻的热度值。计算话题集合中的第j个推文集合中的原始推文/>在t_x时刻的热度以及/>中所有评论转发推文/>在t_x时刻的热度通过累加得到话题集合/>在t_x时刻的热度/>

步骤7：根据步骤5中选择的t₁和t₂，通过下式计算话题集合的热度增长速度R_i。

其中，是话题集合/>在t₁时的热度，/>是话题集合/>在t₂时的热度。

步骤8：对话题集合中的所有话题，在相同的时间段内计算其热度增长速度R_i，再将R_i与预先设置的阈值进行比较。若R_i大于阈值则将当前话题视为一个潜在热点话题，反之则不是潜在热点话题。将所有潜在热点话题进行汇总，作为本发明中话题级别谣言检测的目标。

第四阶段为TPC图结构构建阶段，该阶段有如下步骤：

步骤1：使用邻接矩阵和特征矩阵来将话题集构建为一个TPC图结构。基于从属关系和谣言传播过程可以得到邻接矩阵A∈R^n×n与包含所有文本内容编码组成的特征矩阵X，通过A和X即可计算生成神经网络模型的输入。

步骤2：对于得到的TPC图的邻接矩阵A∈R^n×n，可以通过将无向图转化为单向有向图的方式得到只包含单方向的TPC图的邻接矩阵A′∈R^n×n(假设其只包含从上节点到下节点的边)。另外，选择矩阵Q∈R^n×n来表示topic节点与post节点之间的双向关系，得到TD-TPC与BU-TPC两个有向图的邻接矩阵A^TD与A^BU，∪表示集合间的求并集操作。

A^TD＝A′∪Q

A^BU＝A′^T∪Q

步骤3：使用DropEdge方法在每一次训练过程中随机的从A′中删除一定比例的边，再通过删除边后的A′计算A^TD与A^BU，结果作为此次训练过程的输入，以增加输入数据随机性，减少图神经网络中存在的过拟合问题。

第五阶段为谣言真实性检测阶段。本发明设计了一个双层的图注意力神经网络模型，该模型TD-TPC与BU-TPC两个有向图的邻接矩阵A^TD与A^BU和所有文本内容编码组成的特征矩阵X作为输入，由两个不同方向的图注意力神经网络TD-GAT和BU-GAT组成。图5为谣言真实性检测阶段的典型流程图，图6为图5中TD-GAT放大图，图7为图5中BU-GAT放大图。该图5、图6、图7中，T表示话题节点，P表示原始推文节点，C表示评论转发节点，X为包含所有文本内容编码的特征矩阵，A^TD为top-down方向的图TD-TPC的邻接矩阵，S^TD为top-down方向的图神经网络TD-GAT的最终特征，A^BU为bottom-up方向的图BU-TPC的邻接矩阵，S^BU为bottom-up方向的图神经网络BU-GAT的最终特征；表示神经网络中第l层中每个神经元xi的特征，i∈[0,n],n是节点个数，l∈[0,2]，顶部波浪线～表示经过门结构处理后的特征；C表示向量间的连接操作，/>表示最终的分类结果。

步骤1：图注意力神经网络中的每一层的输入都是一组向量，每个节点间共享self-attention机制，对其中第l层中的一个节点对(x_i,x_j)可以计算两个节点特征向量之间的相关度

其中W^l是神经网络中第l层中一个可训练的线性变换权重矩阵，表示神经网络中第l层中每个神经元x_i的特征，/>表示神经网络中第l层中每个神经元x_j的特征,α(,)表示计算两个特征向量的内积。

步骤2：通过节点间的相关度计算神经网络中第l层中(x_i,x_j)之间的注意力系数

其中，N_i包含x_i的所有一阶邻接节点和x_i本身，k是N_i中的任意节点，exp()表示以自然常数e为底的指数函数。

步骤3：对邻接节点特征进行线性组合，通过一个非线性激活函数来对l层的输入特征，即l-1层的输出特征进行更新，得到神经网络中第l层中每个神经元x_i的特征

其中，N_i包含x_i的所有一阶邻接节点和x_i本身，其中是神经网络中第l-1层(x_i,x_j)之间的注意力系数，W^l-1是神经网络中第l-1层中一个可训练的线性变换权重矩阵，j是N_i中的任意节点，/>表示神经网络中第l-1层中每个神经元x_j的特征，σ()表示神经网络中使用的ReLU激活函数，ReLU激活函数表达式如下所示：

σ(x)＝max(0，x)

步骤4：使用K个独立的注意力机制进行计算，将得到的K个特征进行连接得到神经网络中第l层中每个神经元x_i的特征

其中，N_i包含x_i的所有一阶邻接节点和x_i本身，K表示多头注意力的头数，k表示当前是第k个注意力头，是神经网络中第l-1层的第k个注意力头中(x_i,x_j)之间的注意力系数，/>是神经网络中第l-1层的第k个注意力头中一个可训练的线性变换权重矩阵，j是N_i中的任意节点，/>表示神经网络中第l-1层中每个神经元x_j的特征，σ()表示神经网络中使用的ReLU激活函数。

步骤5：图注意力神经网络每层之间有一个门模块(门结构)，使用特征矩阵的根特征来增强其他特征表示。首先计算第l层中门模块的门向量

其中，和/>是神经网络中第l层中的门模块中的可训练的线性变换权重矩阵，表示神经网络中第l层中每个神经元x_i的特征，/>表示神经网络中第l层中第一个神经元x₀的特征，sigmoid为使用的激活函数。根据门向量可计算原始特征在经过门模块的根特征增强后的特征/>和/>

其中，表示神经网络中第l层中第一个神经元x₀的特征，/>表示神经网络中第l层中每个神经元xi的特征，/>表示第l层中的门向量，/>和/>表示经过门结构处理之后的特征，⊙表示矩阵的Hadamard积。添加门结构后，重新计算第l层图注意力神经网络中节点对(xi,x_j)的两个特征向量之间的相关度/>

其中，W^l是神经网络中第l层中一个可训练的线性变换权重矩阵，表示神经网络中第l层中每个神经元xi的特征，/>表示神经网络中第l层中每个神经元xj的特征,/>和/>表示/>和/>经过门结构处理之后的特征，||表示向量间的连接操作，α(,)表示计算两个特征向量的内积。

步骤6：将步骤1中节点特征向量相关度的计算过程替换为步骤5中的计算过程，重新进行整个过程，可以得到TD-GAT的最后一层网络的输出特征H^TD和BU-GAT的最后一层网络的输出特征H^BU。

步骤5：对H^TD和H^BU进行均值池化MeanPooling操作，得到TD-GAT与BU-GAT的最终输出特征S^TD和S^BU。

S^TD＝MeanPooling(H^TD)

S^BU＝MeanPooling(H^BU)

步骤7：将TD-GAT与BU-GAT的最终输出特征S^TD和S^BU进行连接并输入多个全连接层FC中，最后输入softmax层进行分类，得到谣言真实性的检测结果(最终分类结果)

其中||表示向量间的连接操作。

通过以上五个阶段，本发明即可实现将社交网络中的推文聚类为话题，通过热度选择其中的潜在热点话题，将话题的传播过程建模为TPC图结构，并通过双向图注意力社交网络对图结构进行分析，最终得到对谣言真实性的检测结果的目的。

定义：

推文：指社交网络中用户发布的一条信息，根据其在谣言传播过程中所处的位置可以分为原始推文与评论转发推文；

原始推文：指一条不是对其他推文进行评论或转发操作而发布的推文；

评论转发推文：指一条对其他推文进行评论或转发操作而发布的推文。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于潜在热点话题与传播过程的谣言检测方法，其特征在于：

1）从获取的公开数据集中提取源帖信息、传播过程以及其他特征，将源帖信息与传播过程中的评论转发信息构成推文-评论转发集；

2）将推文-评论转发集输入话题聚类模块，以其中的原始推文作为目标进行聚类，得到多个话题以及各话题所包含的推文-评论转发集，构成话题集；

3）将得到的话题集输入潜在热点话题发现模块，根据每个话题中推文-评论转发集的相关特征计算推文-评论转发集的热度，进而计算话题集中各个话题的热度，选择在一段时间内热度增长率较大的话题作为潜在热点话题，构成潜在热点话题集；包括下述具体步骤：

3.1）在潜在热点话题发现模块中，根据推文的相关特征计算得分，将得分进行平均值处理得到推文的热度权值；

3.2）潜在热点话题发现模块通过推文的评论数和点赞数计算推文的热度基值；

3.3）潜在热点话题发现模块根据推文的热度基值与热度权值计算该推文的热度值；

3.4）重复步骤3.1）~步骤3.3）的计算过程得到所有推文的热度，进而计算话题热度；

3.5）确定一个时间段的开始时间以及结束时间，利用潜在热点话题发现模块分别计算话题在两个时刻的热度，进而计算话题热度的增长速度；

3.6）将所有增长速度大于阈值的话题视为潜在热点话题，汇总为潜在热点话题集；

4）将潜在热点话题集中的话题构建为TPC图结构，其中，T表示话题节点，P表示原始推文节点，C表示评论转发节点，将构建好的TPC图结构作为谣言检测模块的输入；包括下述具体步骤：

步骤1：使用邻接矩阵和特征矩阵来将话题集构建为一个TPC图结构；基于从属关系和谣言传播过程得到邻接矩阵A与包含所有文本内容编码组成的特征矩阵X，通过A和X计算生成神经网络模型的输入；

步骤2：对于得到的TPC图的邻接矩阵A，通过将无向图转化为单向有向图的方式得到只包含单方向的TPC图的邻接矩阵A ^′，A ^′只包含从上节点到下节点的边；另外，选择矩阵Q来表示topic节点与post节点之间的双向关系，得到有向图TD-TPC 与有向图BU-TPC的邻接矩阵A ^TD与A ^BU，∪表示集合间的求并集操作，其中，

；

步骤3：使用DropEdge方法在每一次训练过程中随机的从A ^′中删除一定比例的边，再通过删除边后的A ^′计算A ^TD与A ^BU，结果作为此次训练过程的输入；

5）将TPC图结构进行处理，得到两个方向上的传播矩阵，与特征矩阵一起输入包含门结构的双向图注意力神经网络之中，得到最终的特征向量，然后将特征向量输入分类器得到最终的检测结果。

2.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法，其特征在于：所述其他特征包括用户信息、评论数和点赞数。

3.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法，其特征在于：所述步骤2）包括下述具体步骤：

2.1）将推文-评论转发集中原始推文的文本信息输入预训练语言模型中，得到所有文本的词嵌入向量；

2.2）通过降维方法来降低词嵌入向量的维度，得到低维词向量表示；

2.3）使用c-TF-IDF文本聚类算法对低维词向量表示进行话题聚类，并通过每个主题的关键词对主题进行表示，得到聚类后的话题集。

4.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法，其特征在于：所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征。

5.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法，其特征在于：所述步骤5）包括下述具体步骤：

5.1）根据TPC图结构得到两个只包含单方向的TPC图的传播矩阵以及特征矩阵作为双向图注意力神经网络的检测模块的输入；

5.2）输入的两种矩阵经过双向图注意力神经网络中不同的图注意力层以及门结构，得到相反方向上的两个特征向量；

5.3）将两个特征向量通过池化和连接过程进行融合得到最终的特征向量，将最终的特征向量输入分类器得到终的检测结果。