CN117556830B - 基于潜在热点话题与传播过程的谣言检测方法 - Google Patents
基于潜在热点话题与传播过程的谣言检测方法 Download PDFInfo
- Publication number
- CN117556830B CN117556830B CN202410039083.9A CN202410039083A CN117556830B CN 117556830 B CN117556830 B CN 117556830B CN 202410039083 A CN202410039083 A CN 202410039083A CN 117556830 B CN117556830 B CN 117556830B
- Authority
- CN
- China
- Prior art keywords
- topic
- potential hot
- topics
- text
- tpc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 230000008569 process Effects 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 49
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 4
- 235000019633 pungent taste Nutrition 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 4
- 210000005036 nerve Anatomy 0.000 abstract 1
- 210000002569 neuron Anatomy 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- OQCFWECOQNPQCG-UHFFFAOYSA-N 1,3,4,8-tetrahydropyrimido[4,5-c]oxazin-7-one Chemical compound C1CONC2=C1C=NC(=O)N2 OQCFWECOQNPQCG-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于潜在热点话题与传播过程的谣言检测方法,通过神经主题模型以及热度模型实现了对社交网络中的信息进行过滤与聚类,得到潜在热点话题,并通过图注意力网络分析其传播过程,达到检测谣言的目的,包括下述步骤:从获取的公开数据集中提取源帖信息、传播过程以及其他特征,将源帖信息与传播过程中的评论转发信息构成推文‑评论转发集;将其输入话题聚类模块,处理得到话题集;将得到的话题集输入潜在热点话题发现模块,处理得到潜在热点话题集;将潜在热点话题集中的话题构建为TPC图结构,将构建好的TPC图结构作为谣言检测模块的输入;将TPC图结构进行处理,完成最终的检测。
Description
技术领域
本发明涉及谣言检测技术等领域,具体的说,是基于潜在热点话题与传播过程的谣言检测方法。
背景技术
社交网络的崛起已经彻底改变了人们获取和传播信息的方式。根据We AreSocial和Hootsuite在2020年发布的数字报告,超过38亿人使用社交媒体。用户可以通过Twitter、微博等各类社交网络以极低成本即时传播信息,从而推动了谣言的迅速传播。据微博官方发布的报告显示,2021年共处理了66251起微博谣言。这些谣言可能会误导人们对某些事件的看法,严重情况下甚至会引发社会恐慌,影响社会秩序。因此,社交网络中谣言的识别和减轻已成为亟待关注和解决的紧迫问题。
谣言在社交网络中的识别方法可以分为两大类:人工检测和自动检测。
人工检测是大多数社交网络采用的主要方法。其包括将疑似谣言信息提交给经验丰富的审阅者,由他们来判断其真实性。这些方法使用方便,不需要复杂的结构和设计,同时准确率也很高。然而,它们也面临一些挑战,比如显著的延迟使得在谣言传播之前难以控制其影响,对知识的高要求使得难以避免错误判断,以及难以凭借个人能力来处理社交网络中的大量信息。因此,自动谣言检测方法已成为当前研究的主流。
早期的自动谣言检测研究主要依赖于特征工程方法,通过这种方法从谣言信息中提取相关特征,然后利用传统的机器学习算法来学习这些特征,从而获取有效的检测模型。最后,使用训练好的模型对数据进行预测,判断数据是否是谣言。特征工程方法在初步研究中取得了一些成功。然而,特征的设计需要大量的时间和人力。此外,特征的有效性高度依赖于各种社交网络的内容,这使得难以在不同平台和领域之间进行泛化,从而导致了不稳定的检测结果。
随着深度神经网络的出现,自动谣言检测引入了一种新的研究方向。这些网络具有自动学习谣言信息表示的能力,可以提取更深层次、更强大的特征。初期的研究者们运用循环神经网络对谣言文本进行建模,通过学习深层特征实现检测。也有研究运用卷积神经网络处理文本信息,然后再通过循环神经网络进行分析。部分方法还引入了注意力机制以提升对文本关键词的理解。而近期研究则关注谣言信息的传播过程以提取深层传播特征。相关方法将谣言传播建模为传播树,以原始信息为根节点,然后通过递归神经网络等模型分析传播树以识别谣言信息。传统深度学习方法在谣言检测领域取得了一定的成就,但也存在一些局限性,例如难以处理复杂的谣言传播过程,在分析传播结构方面能力有限。图神经网络的提出为分析图结构化信息带来了一种新方法,图的节点代表了谣言的文本特征,而整个图的边代表了谣言传播的过程。相关研究使用图神经网络进行谣言检测,将推文的转发-回复关系构建为传播树,同时将用户集合表示为关系图,通过图神经网络对推文集合和用户集合进行处理,最终合并两个集合以获得谣言检测结果。
以上方法大多在谣言检测领域取得了成功,但其依然存在一些不足和局限性,如下所示:
(1)大多数方法侧重于单个推文的真实性检测,而未考虑到检测冷启动问题。例如,在突发事件的早期阶段,由于受到的关注有限,社交媒体用户发布的信息通常仅包括原始推文,缺少相关的评论和转发。这导致了冷启动问题的出现。这个问题不仅会导致显著的成本,也会造成长时间的检测延迟。解决这个问题的一个方法是将检测对象从单个推文转变为一个包含来自多个推文的主题,从而能够为事件提供更多信息。一些研究采用了手动方法或传统的聚类算法以进行主题级别的谣言检测。然而,在处理来自社交网络的大量短文本时,会面临着长时间延迟和特征稀疏的挑战。
(2)社交网络中通常包含大量与谣言检测无关的信息,如个人日常信息和广告。将这些信息纳入谣言检测中对社会影响微乎其微,同时会增加检测延迟并降低检测效果。因此,有必要过滤掉这些无关信息。然而,现有方法大多基于公共数据集,未对这些无关信息进行筛选,影响了检测的效果。
(3)传播结构被认为是区分谣言和非谣言信息的关键特征。目前,大多数方法将传播过程建模为一个图结构,并使用图神经网络或图卷积网络模型来提取特征。然而,现有模型只能通过图域中的空间关系来提取传播特征,无法动态学习节点之间的关系。因此,它们在分析具有大量节点的复杂传播结构时面临挑战,无法取得良好的性能。
发明内容
本发明的目的在于提供基于潜在热点话题与传播过程的谣言检测方法,基于神经主题模型和图注意力网络的社交网络谣言检测模型完成谣言检测,通过神经主题模型以及热度模型实现了对社交网络中的信息进行过滤与聚类,得到潜在热点话题,并通过图注意力网络分析其传播过程,达到检测谣言的目的。
本发明通过下述技术方案实现:基于潜在热点话题与传播过程的谣言检测方法,包括下述步骤:
1)从获取的公开数据集中提取源帖信息、传播过程以及其他特征,其他特征包括用户信息、粉丝数、点赞数等。将源帖信息与传播过程中的评论转发信息构成推文-评论转发集用于后续步骤;
2)将推文-评论转发集输入话题聚类模块,以其中的原始推文作为目标进行聚类,得到多个话题以及各话题所包含的推文-评论转发集,构成话题集用于后续步骤;
3)将得到的话题集输入潜在热点话题发现模块,根据每个话题中推文-评论转发集的相关特征计算推文-评论转发集的热度,进而计算话题集中各个话题的热度,选择在一段时间内热度增长率较大的话题作为潜在热点话题,构成潜在热点话题集用于后续步骤;
4)将潜在热点话题集中的话题构建为TPC图结构,将构建好的TPC图结构作为谣言检测模块的输入;其中,T表示话题节点,P表示原始推文节点,C表示评论转发节点;
5)将TPC图结构进行处理,得到两个方向上的传播矩阵,与特征矩阵一起输入包含门结构的双向图注意力神经网络之中,得到最终的特征向量,然后将特征向量输入分类器得到最终的检测结果。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述其他特征包括用户信息、评论数和点赞数等。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤2)包括下述具体步骤:
2.1)将推文-评论转发集中原始推文的文本信息输入预训练语言模型中,得到所有文本的词嵌入向量;
2.2)通过降维方法来降低词嵌入向量的维度,得到低维词向量表示以捕获局部和全局特征;
2.3)使用c-TF-IDF文本聚类算法对低维词向量表示进行话题聚类,并通过每个主题的关键词对主题进行表示,得到聚类后的话题集。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤3)包括下述具体步骤:
3.1)在潜在热点话题发现模块中,根据推文的相关特征计算得分,将得分进行平均值处理得到推文的热度权值;
3.2)潜在热点话题发现模块通过推文的评论数和点赞数计算推文的热度基值;
3.3)潜在热点话题发现模块根据推文的热度基值与热度权值计算该推文的热度值;
3.4)重复步骤3.1)~步骤3.3)的计算过程得到所有推文的热度,进而计算话题热度;
3.5)确定一个时间段的开始时间以及结束时间,利用潜在热点话题发现模块分别计算话题在两个时刻的热度,进而计算话题热度的增长速度;
3.6)将所有增长速度大于阈值的话题视为潜在热点话题,汇总为潜在热点话题集。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤5)包括下述具体步骤:
5.1)根据TPC图结构得到两个只包含单方向的TPC图的传播矩阵以及特征矩阵作为双向图注意力神经网络的检测模块的输入;
5.2)输入的两种矩阵经过双向图注意力神经网络中不同的图注意力层以及门结构,得到相反方向上的两个特征向量;
5.3)将两个特征向量通过池化和连接过程进行融合得到最终的特征向量,将最终的特征向量输入分类器得到终的检测结果。
本发明与现有技术相比,具有以下优点及有益效果:
针对大多数方法侧重于单个推文的真实性检测,而未考虑到检测冷启动问题,本发明提出了主题级谣言检测,将单个推文通过相关聚类方法聚类为主题以进行主题级别的谣言检测。并且,本发明首次将神经主题模型引入到谣言检测任务中,实现了对文本信息的自动聚类,解决了现有方法中存在的长延迟和特征稀疏的问题。
为了减少社交网络中无关信息对检测效果的影响,本发明提出了一个主题热度模型,利用主题热度指示一个主题受到的关注程度。通过计算主题热度随时间变化的速率,可以识别潜在的热门话题。将这些潜在的热点话题作为谣言检测的目标,达到过滤无关信息的目的。
为了提升对谣言传播过程的分析效果,本发明提出了一个名为TPC-BiGAT的图神经网络谣言检测模型,该模型将用户发布的文本信息及其传播结构作为输入,并将谣言传播表示为TPC图结构。然后利用双向图注意力网络来捕获更深层次的传播特征。最后将得到的谣言特征输入分类器以得到最终的检测结果。
本发明能够迅速、准确地识别社交网络中的潜在热点话题,并对其进行主题级别的谣言检测,从而提前发现并应对谣言传播的可能风险。
整体而言,本发明对谣言检测的性能进行了显著提升,特别是在解决了冷启动问题方面表现出色。它使得我们能够在谣言传播的早期阶段即时干预,为网络与社会安全奠定了坚实基础。这一成就不仅对于保护公共舆论环境、有效管理信息传播,也在维护网络秩序与社会稳定方面具有重要意义。
本发明提出了一个基于推文相关信息的热度模型用于选择潜在的热点话题以过滤无用信息。通过相关信息可以计算单个推文的热度值,进而可以计算整个话题的热度值。根据不同话题的热度值在一个单位时间段中的变化程度,可以筛选出其中热度增加较快,可能发展为热点话题的潜在热点话题,将其作为后续谣言检测的目标,达到过滤无用信息,提升检测效果的目的。
附图说明
图1为本发明的一种典型谣言检测模型架构图。
图2为图1中Ⅲ.话题-推文-评论转发结构(TPC图)放大图。
图3为话题聚类阶段的典型流程图。
图4为潜在热点话题发现阶段的流程图。
图5为谣言真实性检测阶段的典型流程图。
图6为图5中TD-GAT放大图。
图7为图5中BU-GAT放大图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例1:
基于潜在热点话题与传播过程的谣言检测方法,包括下述步骤:
1)从获取的公开数据集中提取源帖信息、传播过程以及其他特征,其他特征包括用户信息、评论数和点赞数等。将源帖信息与传播过程中的评论转发信息构成推文-评论转发集用于后续步骤;
2)将推文-评论转发集输入话题聚类模块,以其中的原始推文作为目标进行聚类,得到多个话题以及各话题所包含的推文-评论转发集,构成话题集用于后续步骤;
3)将得到的话题集输入潜在热点话题发现模块,根据每个话题中推文-评论转发集的相关特征计算推文-评论转发集的热度,进而计算话题集中各个话题的热度,选择在一段时间内热度增长率较大的话题作为潜在热点话题,构成潜在热点话题集用于后续步骤;
4)将潜在热点话题集中的话题构建为TPC图结构,将构建好的TPC图结构作为谣言检测模块的输入;
5)将TPC图结构进行处理,得到两个方向上的传播矩阵,与特征矩阵一起输入包含门结构的双向图注意力神经网络之中,得到最终的特征向量,然后将特征向量输入分类器得到最终的检测结果。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤2)包括下述具体步骤:
2.1)将推文-评论转发集中原始推文的文本信息输入预训练语言模型中,得到所有文本的词嵌入向量;
2.2)通过降维方法来降低词嵌入向量的维度,得到低维词向量表示以捕获局部和全局特征;
2.3)使用c-TF-IDF文本聚类算法对低维词向量表示进行话题聚类,并通过每个主题的关键词对主题进行表示,得到聚类后的话题集。
进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤3)包括下述具体步骤:
3.1)在潜在热点话题发现模块中,根据推文的相关特征计算得分,将得分进行平均值处理得到推文的热度权值;所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征等;
3.2)潜在热点话题发现模块通过推文的评论数和点赞数计算推文的热度基值;
3.3)潜在热点话题发现模块根据推文的热度基值与热度权值计算该推文的热度值;
3.4)重复步骤3.1)~步骤3.3)的计算过程得到所有推文的热度,进而计算话题热度;
3.5)确定一个时间段的开始时间以及结束时间,利用潜在热点话题发现模块分别计算话题在两个时刻的热度,进而计算话题热度的增长速度;
3.6)将所有增长速度大于阈值的话题视为潜在热点话题,汇总为潜在热点话题集。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于潜在热点话题与传播过程的谣言检测方法,特别采用下述设置方式:所述步骤5)包括下述具体步骤:
5.1)根据TPC图结构得到两个只包含单方向的TPC图的传播矩阵以及特征矩阵作为双向图注意力神经网络的检测模块的输入;
5.2)输入的两种矩阵经过双向图注意力神经网络中不同的图注意力层以及门结构,得到相反方向上的两个特征向量;
5.3)将两个特征向量通过池化和连接过程进行融合得到最终的特征向量,将最终的特征向量输入分类器得到终的检测结果。
实施例4:
基于潜在热点话题与传播过程的谣言检测方法,该方法通过如图1(结合图2)所示的典型谣言检测模型架构实现,其设置有四个模块:话题聚类、潜在热点话题发现、TPC图构建模块(话题-原始推文-评论转发结构(TPC图))以及谣言检测模块(TPC-BiGAT检测模型)。在图1、图2中,Ti表示原始数据集中的第i个话题,i∈[1,m],m为原始数据集中的话题文本总数;Pi j表示属于话题Ti的第j个原始推文,j∈[1,r],r为属于话题Ti的原始推文总数;表示属于原始推文Pi j的第k个评论转发推文,k∈[1,s],s为属于原始推文Pi j的评论转发推文总数。该方法主要分为五个阶段:
第一阶段为数据提取阶段,本发明从公开数据集中提取相关信息,包括文本信息、用户信息、评论数、点赞数、传播过程以及源贴信息等,构成推文-评论转发集(推文-评论集)用于后续阶段;
第二阶段为话题聚类阶段(利用包括预训练向量以及文本聚类算法等在内的话题聚类模块完成),该阶段有如下步骤,如图3所示:
步骤1:将文本信息输入预训练语言模型中得到文本词向量(词嵌入向量),使用的模型为BERT、SBERT等基于transformer结构的预训练模型(预训练文本模型)。通过预训练模型得到的文本词向量的维度都很高,其在高维空间中的表示较为稀疏,难以直接进行聚类;
步骤2:在聚类前使用了UMAP降维方法(UMAP算法)来降低文本词向量的维度,得到文本的低维词向量表示,以在较低维度内捕获局部和全局特征;
步骤3:使用(HDBSCAN算法)对低维词向量表示进行聚类,得到聚类后的文本集合;
步骤4:将每个聚类后的主题转化为一个单独的文档,并使用c-TF-IDF算法计算文档中出现的某个词x在某个主题c中的重要程度Wx,c,根据Wx,c的大小在聚类后的文本中提取每个主题c的关键词。将关键词通过MMR算法筛选,最终得到的主题词作为主题表示。c-TF-IDF算法的过程如下所示:
其中,x表示文档中出现的某个词,tfx,c表示词x在主题c中出现的频率,fx表示词x在所有主题中出现的频率,A表示每个主题中的平均词数,结果Wx,c表示词x在主题c中的重要程度。
第三阶段为潜在热点话题发现阶段,该阶段有如下步骤,如图4所示。在该图中,为以tx为截止时间的原始数据集的子集,x∈[0,z],z表示发布时间中最晚的时间点,/>表示/>中的第i个话题集合,i∈[1,m],m为原始数据集中的话题文本总数;表示第i个话题集合/>中的第j个推文集合,j∈[1,r],r为属于话题集合/>的原始推文总数;/>包含原始推文/>以及其全部的评论转发推文/>s为属于推文集合/>的评论转发推文总数;/>表示在以tx为截止时间的原始数据集的子集中话题集合/>的热度值;Ri表示话题集合/>的热度增长速度。
步骤1:遍历主题聚类后产生的多个话题,分别计算其话题热度。对于其中的某一个话题集合 m为原始数据集中的话题文本总数,其中会存在多个推文集合/>推文集合/>表示第i个话题集合/>中的第j个推文集合,j∈[1,r],r为属于话题集合/>的原始推文总数;/>包括其原始推文/>以及其全部的转发推文s为属于推文集合/>的评论转发推文总数。本发明依靠多媒体信息、外部链接、用户认证信息以及用户follower数量等相关特征来计算推文的热度权值:
多媒体信息特征Smedia的值等于推文中包含的多媒体信息的数量,若不存在多媒体信息则Smedia的值为0;
外部链接特征Surl的值等于推文中包含的链接的数量,若不存在链接则Surl的值为0;
如果信息的发布用户是已认证用户,则用户认证信息特征Sau的值为1,如果为未认证用户发布的信息则Sau的值为0;
用户follower数量Sfo的值等于推文发布用户的follower数量;
步骤2:对选取的以上特征进行平均值处理即得到推文的热度权值weight,考虑到各特征间的分布存在区别,因此选取所有特征的几何平均数来进行计算:
其中Smedia为多媒体信息特征,Surl为外部链接特征,Sau为用户认证信息特征,Sfo为用户follower数量。
步骤3:通过推文的评论数Nco和点赞数Nst计算推文的热度基值base,计算也使用几何平均数进行:
步骤4:根据步骤2和3即可计算当前推文的热度值。推文可以为原始推文或评论转发推文,在此统一以P表示。weightP为通过步骤2得到的P的热度权值,baseP为通过步骤3得到的P的热度基值。
HP=weightP*baseP
步骤5:确定一个时间段的开始时间t1以及结束时间t2,分别计算话题集合在两个时刻的热度/>计算过程如步骤6所示。
步骤6:根据推文的热度基值与推文的热度权值计算推文在tx时刻的热度值。计算话题集合中的第j个推文集合 中的原始推文/>在tx时刻的热度以及/>中所有评论转发推文/>在tx时刻的热度通过累加得到话题集合/>在tx时刻的热度/>
步骤7:根据步骤5中选择的t1和t2,通过下式计算话题集合的热度增长速度Ri。
其中,是话题集合/>在t1时的热度,/>是话题集合/>在t2时的热度。
步骤8:对话题集合中的所有话题,在相同的时间段内计算其热度增长速度Ri,再将Ri与预先设置的阈值进行比较。若Ri大于阈值则将当前话题视为一个潜在热点话题,反之则不是潜在热点话题。将所有潜在热点话题进行汇总,作为本发明中话题级别谣言检测的目标。
第四阶段为TPC图结构构建阶段,该阶段有如下步骤:
步骤1:使用邻接矩阵和特征矩阵来将话题集构建为一个TPC图结构。基于从属关系和谣言传播过程可以得到邻接矩阵A∈Rn×n与包含所有文本内容编码组成的特征矩阵X,通过A和X即可计算生成神经网络模型的输入。
步骤2:对于得到的TPC图的邻接矩阵A∈Rn×n,可以通过将无向图转化为单向有向图的方式得到只包含单方向的TPC图的邻接矩阵A′∈Rn×n(假设其只包含从上节点到下节点的边)。另外,选择矩阵Q∈Rn×n来表示topic节点与post节点之间的双向关系,得到TD-TPC与BU-TPC两个有向图的邻接矩阵ATD与ABU,∪表示集合间的求并集操作。
ATD=A′∪Q
ABU=A′T∪Q
步骤3:使用DropEdge方法在每一次训练过程中随机的从A′中删除一定比例的边,再通过删除边后的A′计算ATD与ABU,结果作为此次训练过程的输入,以增加输入数据随机性,减少图神经网络中存在的过拟合问题。
第五阶段为谣言真实性检测阶段。本发明设计了一个双层的图注意力神经网络模型,该模型TD-TPC与BU-TPC两个有向图的邻接矩阵ATD与ABU和所有文本内容编码组成的特征矩阵X作为输入,由两个不同方向的图注意力神经网络TD-GAT和BU-GAT组成。图5为谣言真实性检测阶段的典型流程图,图6为图5中TD-GAT放大图,图7为图5中BU-GAT放大图。该图5、图6、图7中,T表示话题节点,P表示原始推文节点,C表示评论转发节点,X为包含所有文本内容编码的特征矩阵,ATD为top-down方向的图TD-TPC的邻接矩阵,STD为top-down方向的图神经网络TD-GAT的最终特征,ABU为bottom-up方向的图BU-TPC的邻接矩阵,SBU为bottom-up方向的图神经网络BU-GAT的最终特征;表示神经网络中第l层中每个神经元xi的特征,i∈[0,n],n是节点个数,l∈[0,2],顶部波浪线~表示经过门结构处理后的特征;C表示向量间的连接操作,/>表示最终的分类结果。
步骤1:图注意力神经网络中的每一层的输入都是一组向量,每个节点间共享self-attention机制,对其中第l层中的一个节点对(xi,xj)可以计算两个节点特征向量之间的相关度
其中Wl是神经网络中第l层中一个可训练的线性变换权重矩阵,表示神经网络中第l层中每个神经元xi的特征,/>表示神经网络中第l层中每个神经元xj的特征,α(,)表示计算两个特征向量的内积。
步骤2:通过节点间的相关度计算神经网络中第l层中(xi,xj)之间的注意力系数
其中,Ni包含xi的所有一阶邻接节点和xi本身,k是Ni中的任意节点,exp()表示以自然常数e为底的指数函数。
步骤3:对邻接节点特征进行线性组合,通过一个非线性激活函数来对l层的输入特征,即l-1层的输出特征进行更新,得到神经网络中第l层中每个神经元xi的特征
其中,Ni包含xi的所有一阶邻接节点和xi本身,其中是神经网络中第l-1层(xi,xj)之间的注意力系数,Wl-1是神经网络中第l-1层中一个可训练的线性变换权重矩阵,j是Ni中的任意节点,/>表示神经网络中第l-1层中每个神经元xj的特征,σ()表示神经网络中使用的ReLU激活函数,ReLU激活函数表达式如下所示:
σ(x)=max(0,x)
步骤4:使用K个独立的注意力机制进行计算,将得到的K个特征进行连接得到神经网络中第l层中每个神经元xi的特征
其中,Ni包含xi的所有一阶邻接节点和xi本身,K表示多头注意力的头数,k表示当前是第k个注意力头,是神经网络中第l-1层的第k个注意力头中(xi,xj)之间的注意力系数,/>是神经网络中第l-1层的第k个注意力头中一个可训练的线性变换权重矩阵,j是Ni中的任意节点,/>表示神经网络中第l-1层中每个神经元xj的特征,σ()表示神经网络中使用的ReLU激活函数。
步骤5:图注意力神经网络每层之间有一个门模块(门结构),使用特征矩阵的根特征来增强其他特征表示。首先计算第l层中门模块的门向量
其中,和/>是神经网络中第l层中的门模块中的可训练的线性变换权重矩阵,表示神经网络中第l层中每个神经元xi的特征,/>表示神经网络中第l层中第一个神经元x0的特征,sigmoid为使用的激活函数。根据门向量可计算原始特征在经过门模块的根特征增强后的特征/>和/>
其中,表示神经网络中第l层中第一个神经元x0的特征,/>表示神经网络中第l层中每个神经元xi的特征,/>表示第l层中的门向量,/>和/>表示经过门结构处理之后的特征,⊙表示矩阵的Hadamard积。添加门结构后,重新计算第l层图注意力神经网络中节点对(xi,xj)的两个特征向量之间的相关度/>
其中,Wl是神经网络中第l层中一个可训练的线性变换权重矩阵,表示神经网络中第l层中每个神经元xi的特征,/>表示神经网络中第l层中每个神经元xj的特征,/>和/>表示/>和/>经过门结构处理之后的特征,||表示向量间的连接操作,α(,)表示计算两个特征向量的内积。
步骤6:将步骤1中节点特征向量相关度的计算过程替换为步骤5中的计算过程,重新进行整个过程,可以得到TD-GAT的最后一层网络的输出特征HTD和BU-GAT的最后一层网络的输出特征HBU。
步骤5:对HTD和HBU进行均值池化MeanPooling操作,得到TD-GAT与BU-GAT的最终输出特征STD和SBU。
STD=MeanPooling(HTD)
SBU=MeanPooling(HBU)
步骤7:将TD-GAT与BU-GAT的最终输出特征STD和SBU进行连接并输入多个全连接层FC中,最后输入softmax层进行分类,得到谣言真实性的检测结果(最终分类结果)
其中||表示向量间的连接操作。
通过以上五个阶段,本发明即可实现将社交网络中的推文聚类为话题,通过热度选择其中的潜在热点话题,将话题的传播过程建模为TPC图结构,并通过双向图注意力社交网络对图结构进行分析,最终得到对谣言真实性的检测结果的目的。
定义:
推文:指社交网络中用户发布的一条信息,根据其在谣言传播过程中所处的位置可以分为原始推文与评论转发推文;
原始推文:指一条不是对其他推文进行评论或转发操作而发布的推文;
评论转发推文:指一条对其他推文进行评论或转发操作而发布的推文。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (5)
1.基于潜在热点话题与传播过程的谣言检测方法,其特征在于:
1)从获取的公开数据集中提取源帖信息、传播过程以及其他特征,将源帖信息与传播过程中的评论转发信息构成推文-评论转发集;
2)将推文-评论转发集输入话题聚类模块,以其中的原始推文作为目标进行聚类,得到多个话题以及各话题所包含的推文-评论转发集,构成话题集;
3)将得到的话题集输入潜在热点话题发现模块,根据每个话题中推文-评论转发集的相关特征计算推文-评论转发集的热度,进而计算话题集中各个话题的热度,选择在一段时间内热度增长率较大的话题作为潜在热点话题,构成潜在热点话题集;包括下述具体步骤:
3.1)在潜在热点话题发现模块中,根据推文的相关特征计算得分,将得分进行平均值处理得到推文的热度权值;
3.2)潜在热点话题发现模块通过推文的评论数和点赞数计算推文的热度基值;
3.3)潜在热点话题发现模块根据推文的热度基值与热度权值计算该推文的热度值;
3.4)重复步骤3.1)~步骤3.3)的计算过程得到所有推文的热度,进而计算话题热度;
3.5)确定一个时间段的开始时间以及结束时间,利用潜在热点话题发现模块分别计算话题在两个时刻的热度,进而计算话题热度的增长速度;
3.6)将所有增长速度大于阈值的话题视为潜在热点话题,汇总为潜在热点话题集;
4)将潜在热点话题集中的话题构建为TPC图结构,其中,T表示话题节点,P表示原始推文节点,C表示评论转发节点,将构建好的TPC图结构作为谣言检测模块的输入;包括下述具体步骤:
步骤1:使用邻接矩阵和特征矩阵来将话题集构建为一个TPC图结构;基于从属关系和谣言传播过程得到邻接矩阵A与包含所有文本内容编码组成的特征矩阵X,通过A和X计算生成神经网络模型的输入;
步骤2:对于得到的TPC图的邻接矩阵A,通过将无向图转化为单向有向图的方式得到只包含单方向的TPC图的邻接矩阵A ′ ,A ′ 只包含从上节点到下节点的边;另外,选择矩阵Q来表示topic节点与post节点之间的双向关系,得到有向图TD-TPC 与有向图BU-TPC的邻接矩阵A TD 与A BU ,∪表示集合间的求并集操作,其中,
;
步骤3:使用DropEdge方法在每一次训练过程中随机的从A ′ 中删除一定比例的边,再通过删除边后的A ′ 计算A TD 与A BU ,结果作为此次训练过程的输入;
5)将TPC图结构进行处理,得到两个方向上的传播矩阵,与特征矩阵一起输入包含门结构的双向图注意力神经网络之中,得到最终的特征向量,然后将特征向量输入分类器得到最终的检测结果。
2.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法,其特征在于:所述其他特征包括用户信息、评论数和点赞数。
3.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法,其特征在于:所述步骤2)包括下述具体步骤:
2.1)将推文-评论转发集中原始推文的文本信息输入预训练语言模型中,得到所有文本的词嵌入向量;
2.2)通过降维方法来降低词嵌入向量的维度,得到低维词向量表示;
2.3)使用c-TF-IDF文本聚类算法对低维词向量表示进行话题聚类,并通过每个主题的关键词对主题进行表示,得到聚类后的话题集。
4.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法,其特征在于:所述相关特征包括多媒体信息特征、外部链接特征、用户认证信息特征及用户follower数量特征。
5.根据权利要求1所述的基于潜在热点话题与传播过程的谣言检测方法,其特征在于:所述步骤5)包括下述具体步骤:
5.1)根据TPC图结构得到两个只包含单方向的TPC图的传播矩阵以及特征矩阵作为双向图注意力神经网络的检测模块的输入;
5.2)输入的两种矩阵经过双向图注意力神经网络中不同的图注意力层以及门结构,得到相反方向上的两个特征向量;
5.3)将两个特征向量通过池化和连接过程进行融合得到最终的特征向量,将最终的特征向量输入分类器得到终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410039083.9A CN117556830B (zh) | 2024-01-11 | 2024-01-11 | 基于潜在热点话题与传播过程的谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410039083.9A CN117556830B (zh) | 2024-01-11 | 2024-01-11 | 基于潜在热点话题与传播过程的谣言检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556830A CN117556830A (zh) | 2024-02-13 |
CN117556830B true CN117556830B (zh) | 2024-04-19 |
Family
ID=89820875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410039083.9A Active CN117556830B (zh) | 2024-01-11 | 2024-01-11 | 基于潜在热点话题与传播过程的谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556830B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) * | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
CN108563686A (zh) * | 2018-03-14 | 2018-09-21 | 中国科学院自动化研究所 | 基于混合神经网络的社交网络谣言识别方法及系统 |
CN111143566A (zh) * | 2019-12-27 | 2020-05-12 | 北京工业大学 | 一种针对twitter的热点事件爆发预测的方法 |
CN113094596A (zh) * | 2021-04-26 | 2021-07-09 | 东南大学 | 一种基于双向传播图的多任务谣言检测方法 |
CN117371521A (zh) * | 2023-09-14 | 2024-01-09 | 广州大学 | 一种多维双层舆情知识图谱构建方法、系统、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113826092A (zh) * | 2019-06-25 | 2021-12-21 | 谷歌有限责任公司 | 使用实况数据流和/或搜索查询来确定关于发展中的事件的信息 |
-
2024
- 2024-01-11 CN CN202410039083.9A patent/CN117556830B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) * | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
CN108563686A (zh) * | 2018-03-14 | 2018-09-21 | 中国科学院自动化研究所 | 基于混合神经网络的社交网络谣言识别方法及系统 |
CN111143566A (zh) * | 2019-12-27 | 2020-05-12 | 北京工业大学 | 一种针对twitter的热点事件爆发预测的方法 |
CN113094596A (zh) * | 2021-04-26 | 2021-07-09 | 东南大学 | 一种基于双向传播图的多任务谣言检测方法 |
CN117371521A (zh) * | 2023-09-14 | 2024-01-09 | 广州大学 | 一种多维双层舆情知识图谱构建方法、系统、设备及介质 |
Non-Patent Citations (3)
Title |
---|
Rumor detection on social media using hierarchically aggregated feature via graph neural networks;Xu, SZ 等;《APPLIED INTELLIGENCE》;20220531;第53卷(第3期);3136-3149 * |
社会网络谣言检测综述;高玉君 等;《电子学报》;20200715;第48卷(第7期);1421-1435 * |
面向虚假新闻检测的社交媒体多模态数据集构建;高国鹏 等;《网络与信息安全学报》;20230825;第9卷(第04期);144-154 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556830A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tu et al. | Rumor2vec: a rumor detection framework with joint text and propagation structure representation learning | |
Adoma et al. | Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition | |
CN111581405A (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
Sun et al. | Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media | |
CN110990564A (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Uppal et al. | Fake news detection using discourse segment structure analysis | |
CN114444516B (zh) | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 | |
CN113705099B (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
Xian-Yi et al. | The framework of network public opinion monitoring and analyzing system based on semantic content identification | |
Bedi et al. | CitEnergy: A BERT based model to analyse Citizens’ Energy-Tweets | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
Dong et al. | Cross-media similarity evaluation for web image retrieval in the wild | |
Li et al. | A novel locality-sensitive hashing relational graph matching network for semantic textual similarity measurement | |
CN116150747A (zh) | 基于cnn和sltm的入侵检测方法及装置 | |
Wang et al. | Multimodal graph convolutional networks for high quality content recognition | |
Rijal et al. | Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19. | |
Li et al. | Mistr: A multiview structural-temporal learning framework for rumor detection | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
Zhang et al. | Rumour detection on social media with long-tail strategy | |
CN117556830B (zh) | 基于潜在热点话题与传播过程的谣言检测方法 | |
Yu et al. | Multi-module Fusion Relevance Attention Network for Multi-label Text Classification. | |
CN113191144B (zh) | 一种基于传播影响力的网络谣言识别系统及方法 | |
CN114238738A (zh) | 一种基于注意力机制与双向gru的谣言检测方法 | |
Cheng et al. | Knowledge-aware method for confusing charge prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |