CN111159395B - 基于图神经网络的谣言立场检测方法、装置和电子设备 - Google Patents

基于图神经网络的谣言立场检测方法、装置和电子设备 Download PDF

Info

Publication number
CN111159395B
CN111159395B CN201911158422.0A CN201911158422A CN111159395B CN 111159395 B CN111159395 B CN 111159395B CN 201911158422 A CN201911158422 A CN 201911158422A CN 111159395 B CN111159395 B CN 111159395B
Authority
CN
China
Prior art keywords
nodes
post
graph
word
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911158422.0A
Other languages
English (en)
Other versions
CN111159395A (zh
Inventor
王丽宏
李晨
贺敏
毛乾任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201911158422.0A priority Critical patent/CN111159395B/zh
Publication of CN111159395A publication Critical patent/CN111159395A/zh
Application granted granted Critical
Publication of CN111159395B publication Critical patent/CN111159395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于图神经网络的谣言立场检测方法、装置和电子设备,所述方法包括:获取谣言数据;根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的。本申请通过构建异构图,使用图神经网络进行图表征学习,无需依赖较大的数据规模,快速高效捕获目标帖子的邻居分布特征及跨主题特征,实现对帖子的立场进行分类。

Description

基于图神经网络的谣言立场检测方法、装置和电子设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于图神经网络的谣言立场检测方法、装置和电子设备。
背景技术
随着互联网的发展,每天,数十亿用户可以使用社交媒体实时获取新闻,分享观点和与他人互动,这显著提高了信息的传播速度和范围。然而,社交媒体上的信息内容往往缺乏必要的管理,大量虚假或未经证实的信息将与真实信息混杂在一起进行发布。社交媒体的普及使其便于信息获取,但实际上加剧了谣言对互联网乃至现实世界的影响。尽早地识别出社交媒体中流传的谣言是一项十分有意义的任务。
谣言的社会学定义是“未经证实且与工具相关的信息陈述”在流通中,其任务旨在确定给定信息的真实性。传统方法将谣言检测视为有监督的分类任务,它从帖子内容,用户档案和传播模式中收集和编码大量手工特征,以训练有效的分类器。此外,还有一些基于规则的方法来挖掘特殊的谣言传播模式。最近,为了通过数据驱动获得更有价值的特征(例如,语义分布和传播结构),已经提出了一些基于深度神经网络或树核的方法。
特别的,一些工作侧重于将帖子的态度作为判断谣言真实性的重要信号。它涉及到一个与谣言检测密切相关的研究课题:谣言立场检测,目的是确定给定文本对特定目标的态度。与传统的文本分类任务相似,已有许多基于语义和统计特征的方法被应用于对给定文本的立场进行分类。其中,特征构建方法要么是早期的特征工程和统计模型,要么是最近的基于深度神经网络的模型。最近,一些工作尝试将更丰富的手工制作的特性注入神经网络,并取得了更好的结果。具体来说,现有方法主要包括:
(1)基于手工特征的有监督文本分类方法;
(2)基于传统机器学习模型的谣言建模方法;
(3)基于深度神经网络的谣言建模方法。
现有方法在进行谣言立场检测时存在大量不足:
首先,谣言的传播以及谣言的内容普遍是独立的,而现有模型普遍针对谣言进行独立的建模,没有尝试挖掘谣言间的共有特征。这会导致挖掘到的特征极易带有大量的非重现特征,难以应用到大规模的社交文本中。
其次,现有谣言立场检测方法在进行建模普遍没有考虑谣言的上下文信息,丢失了大量显著的社会学特征,例如:持有询问(Query)立场的帖子下文较其他立场(如评论)更大概率出现带有情感极性立场的回帖。
再次,谣言主题及文本生成速度极快,但校验时间及过程却极为繁琐,因此标注数据花费极高。现有部分模型(特别是深层模型)的性能极大依赖于数据规模,因此在数据较少、乃至冷启动时会使模型性能急速下降。
此外,由于谣言的传播极易造成社交网络中悲伤、恐惧、愤怒等极端情感的快速蔓延,因此尽可能的在早期检测谣言立场分布,对谣言真实性的判断有极大的帮助。
发明内容
为了解决如何准确快速检测出谣言立场的技术问题,本申请提供了一种基于图神经网络的谣言立场检测方法、装置和电子设备,通过构建异构图,使用图神经网络进行图表征学习,快速高效捕获目标帖子的邻居分布特征及跨主题特征,实现对帖子的立场进行分类。
第一方面,本申请提供了一种基于图神经网络的谣言立场检测方法,包括:
获取谣言数据;
根据谣言数据的特征构建异构图,其中,异构图包括多个节点,节点用于表示谣言数据;
将异构图输入图神经网络模型,得到对节点的立场分类结果,其中,立场分类结果是由图神经网络模型确定节点的目标特征,并根据每个节点的目标特征经过分类得到的。
可选地,根据谣言数据的传播特征构建异构图的步骤包括:
根据谣言数据确定异构图的词节点和帖子节点;
确定帖子节点的特征,根据帖子节点的特征确定词节点和帖子节点间的关系;
根据词节点和帖子节点间的关系构建异构图。
可选地,根据谣言数据确定异构图的词节点和帖子节点的步骤包括:
筛选谣言数据中出现频率达到设定次数的每个词作为一个词节点,将用户每次发表的意见作为一个帖子节点。
可选地,确定帖子节点的特征步骤包括:
确定帖子的语义特征、属性特征和传播特征:
筛选帖子节点中每个句子中的主干内容,将主干内容映射为词向量,将每个帖子节点中的词向量的平均值作为帖子节点的语义特征;
将帖子节点的长度、表情个数、发出时段及回复人数信息进行归一化处理后作为帖子节点的属性特征;
将帖子节点的传播深度、入度与出度的比值作为帖子节点的传播特征。
可选地,根据帖子节点的特征确定词节点和帖子节点间的关系的步骤包括:
将节点间的关系作为异构图中相连节点间的边,分别确定两个词节点、词节点与帖子节点、两个帖子节点间的边的权重。
可选地,将异构图输入图神经网络模型,并获取图神经网络模型输出的异构图的每个节点的目标特征的步骤包括:
将异构图输入单层图神经网络模型,得到与每个节点相邻的一阶节点的特征;
将多个单层图神经网络模型堆叠,得到与每个节点相邻的多阶节点的特征。
可选地,根据每个节点的特征对节点的立场分类的步骤包括:
将图神经网络模型确定的节点的目标特征输入全连接层,并利用分类函数层对节点的立场进行分类后输出。
第二方面,本申请提供了一种基于图神经网络的谣言立场检测装置,包括:
数据获取模块,用于获取谣言数据;
异构图构建模块,用于根据谣言数据的特征构建异构图,其中,异构图包括多个节点,节点用于表示谣言数据;
数据处理模块,用于将异构图输入图神经网络模型,得到对节点的立场分类结果,其中,立场分类结果是由图神经网络模型确定节点的目标特征,并根据每个节点的目标特征经过分类得到的。
另一方面,本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,处理器执行所述程序时实现上述方法的步骤。
另一方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过构建异构图,使用图神经网络进行图表征学习,快速高效捕获目标帖子的邻居分布特征及跨主题特征,实现对帖子的立场进行分类。主要优点包括:
(1)构建大规模异构图,一方面便于获取谣言中帖子的邻居分布特征,另一方面便于获取不同谣言主题间的共性特征。
(2)使用图神经网络对异构图中的帖子节点表征进行学习,使其能够有效的对上述特征进行有目标性的捕捉与学习。同时,模型参数规模及计算复杂度对比其他基于RNN、CNN模型学习更加小巧,效率更高。
(3)模型为半监督模型,极大地削减了模型对标注数据规模的依赖,并能够有效的适应早期检测的需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于图神经网络的谣言立场检测方法流程图;
图2为本申请实施例提供的一种图神经网络模型进行谣言立场分类示意图;
图3为本申请实施例提供的一种基于图神经网络的谣言立场检测装置框图;
图4为本申请实施例提供的一种电子设备内部结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于图神经网络的谣言立场检测方法流程图,如图1所示,方法包括:
S11、获取谣言数据;
S12、根据谣言数据的特征构建异构图,其中,异构图包括多个节点,节点用于表示谣言数据;
具体地,谣言数据可以从网络论坛或新闻报纸等中获取,获取的谣言数据包括谣言文本和相关属性信息,根据获取到的谣言数据建立异构图,异构图即为:为了建立起不同谣言间的关联,以便学习得到不同谣言间共享的立场特征,通过将数据语料中的部分价值高的词语视为不同主题谣言间的桥梁,即将该类词语与谣言中的帖子置于同一张图中。
为了获取谣言结构中节点的初始特征,分别对谣言中帖子进行了内容、属性及传播特征的手动设计。其中,帖子的语义表征来源于词向量,为了减轻停用词、异常噪声的影响,对输入的帖子文本进行了筛选,仅保留每个帖子中的句子里重要的主干成分,并将主干内容映射为词向量,最终,帖子的语义特征以所有句子的主干成分对应词向量的平均值来表示;帖子的属性特征来源于帖子自身的可区分特性,例如:帖子长度、帖子表情个数、帖子发出时段、帖子回复人数等,为了去除量纲差距,对维度特征进行了列归一化处理;帖子的传播特征主要表示该帖子位于对应谣言的具体角色,其特征主要包括:帖子传播深度、帖子入度与出度比值等。至此,我们可获得谣言中帖子的三个特征。
图2为本申请实施例提供的一种图神经网络模型进行谣言立场分类示意图,如图2左侧部分所示,在获得帖子的特征后,使用谣言传播给出的传播树结构及筛选出的词构建出了一个异构图,其中异构图是由多个帖子节点和词节点连接构成的,筛选所述谣言数据中出现频率达到设定次数的每个词作为一个词节点,将用户每次发表的意见作为一个帖子节点。在图2中,由虚线椭圆构成的为词节点,由实线椭圆构成的为帖子节点,每个阴影区域代表一个完成的帖子传播过程,例如,图2中的p3,0为帖子的初始发出节点,p3,1和p3,2分别为连个帖子回复节点;p17,0为另一个帖子的初始发出节点,他们之间有共同的关键词w574。
图2中每个帖子节点的特征由上述实施例中描述的方法获得,词节点的特征则由词向量及所有所处帖子的平均水平来决定,此节点的特征由词向量和属性特征两部分组成,词向量在上述实施例中已经得到,而属性特征是指帖子的相关属性特征,词是没有属性特征的,因此由该词相连的帖子节点的属性取平均作为词的属性特征。这样一来,帖子间的上下文分布信息、跨主题词共现现象等特征可被轻松捕获。
图2中节点间的连线称为异构图的边,图中的边分为三类,来源为不同的词节点与词节点之间、词节点与帖子节点之间、帖子节点与帖子节点之间在语料库中的共现信息,以及不同帖子在传播中的交互关系。
其中,两词节点之间的关系由其在文本采样窗口中的共现频率决定,即边的重要程度与在同一滑动窗口中共同出现次数成正比。我们采用PMI来计算该边的权重,计算公式为:
Figure BDA0002285424420000081
其中,
Figure BDA0002285424420000082
为wi与wj共同出现的窗口个数,Nwindow为语料库中滑动窗口总数,
Figure BDA0002285424420000083
Figure BDA0002285424420000084
为wi与wj分别各自出现的滑动窗口次数。
类似的,词节点与帖子节点的关系由经典的词频-逆文档频率方法计算。
最后,两帖子节点间的关系由给出的传播树结构确定,其权重来源于两个帖子内容的相似度来确定。
这样一个完整的异构图就构建完成了。
在以往的方法通常孤立的分析某一个谣言,且常常忽视帖子特征的构建。本实施例首先针对谣言的语义、属性及传播三个重要方面的特征进行了收集、构建与归一化。其次,一方面通过词为桥梁关联起了不同主题谣言,另一方面将其邻居使用边进行关联,一次性解决了两种关键信息的来源。
S13、将异构图输入图神经网络模型,得到对节点的立场分类结果,其中,立场分类结果是由图神经网络模型确定节点的目标特征,并根据每个节点的目标特征经过分类得到的。
具体地,为了高效学习谣言中帖子邻居的分布特征,在此引入了图神经网络结构来对谣言中帖子的语义、属性等特征进行学习,并通过堆叠图神经网络层实现多个邻居信息的抽取。
如图2所示,在异构图构建完成后,将该异构图结构送入一个多层图神经网络中,并在该神经网络完成谣言立场检测任务。首先使用普通的图卷积神经网络(GCN)在异构图中学习每个帖子的特征。
由于单层GCN目标节点有一个自循环(self-loop)算法,可以在保留自身属性的前提下捕获节点1阶邻居的特征,因为图神经网络是从节点邻居获取信息的方法,加入自循环是为了在获取邻居信息的同时保存自身信息,其计算公式为:
Figure BDA0002285424420000091
其中,A为邻接矩阵,H(k)为k层的节点特征矩阵,W(k)为k层对应的参数矩阵,ReLU为非线性激活函数,D为度矩阵(表示节点出入度总和的对角矩阵)。
为了获得目标节点多阶邻居的信息及分布特征,将多个GCN层进行堆叠,上一层的输出作为下一层的输入,每经过一层计算的误差就会更小,每堆叠一层便获取一阶邻居的信息,最后堆叠的层数与获取的邻居信息的阶数相同。同时,为了将帖子的表征用于后续的谣言真实度监测,保留了GCN层的输出维度,依旧维持为稠密的低维数值特征。
本实施例使用图神经网络在不降维的前提下学习帖子表征。在学习帖子节点的特征是选用了图卷积神经网络:GCN,其能够通过堆叠快速抽取目标帖子节点多跳邻居的分布特征,并用于下游任务。
在得到所有帖子节点训练后的特征后,本申请将传统的有监督文本分类任务转为了图中的半监督节点分类任务,因此将所有的帖子节点的训练后的特征使用全连接层进行进一步的特征组合,并使用一个softmax层实现节点的立场分类。
具体来说,如图2所示,在图神经网络模型的输出端连接另一个神经网络的全连接层+softmax层实现了最终的节点立场检测。整体模型使用分类结果的交叉熵来计算损失,并通过反传误差实现模型参数优化。其中,分类及损失函数如下:
Y=softmax(FC(Hk))
Figure BDA0002285424420000092
其中,softmax()为:
Figure BDA0002285424420000101
函数(即分类函数);
FC()为全连接层,H(k)为k层的节点特征矩阵,
Figure BDA0002285424420000102
为真实标签,Y为预测标签,ri为第i个谣言,R为谣言总数,pi,j为第i个谣言里第j个帖子,l为立场类别数,L为立场类别总数。
为了增强模型的鲁棒性和稳定性,尽量减少模型对标注训练样本规模的依赖,本实施例结合紧邻相似的基本假设,将谣言立场检测任务转化为了图结构中的半监督节点分类任务。同时,这也解决了早期检测任务中谣言传播结构较少的问题。
为了便于多任务学习、以及应用于其他的下游任务,本实施例并未重组特征,而是采用了全连接层+softmax层实现最后的谣言立场分类。遵从了基本的邻域相似假设,采用了半监督的训练策略,极大地减轻了对标注数据规模的依赖,在面对冷启动、标注样本少、早期检测等任务时能更加鲁棒性和稳定性。
本申请提供了一种基于图神经网络的谣言立场检测装置,如图3所示,包括:
数据获取模块31,用于获取谣言数据;
异构图构建模块32,用于根据谣言数据的特征构建异构图,其中,异构图包括多个节点,节点用于表示谣言数据;
数据处理模块33,用于将异构图输入图神经网络模型,得到对节点的立场分类结果,其中,立场分类结果是由图神经网络模型确定节点的目标特征,并根据每个节点的目标特征经过分类得到的。
图4为本申请实施例提供的一种电子设备内部结构示意图。如图4所示,该电子设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有程序,该程序被处理器执行时,可使得处理器实现基于图神经网络的谣言立场检测方法。该内存储器中也可储存有程序,该程序被处理器执行时,可使得处理器执行基于图神经网络的谣言立场检测方法。电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于图神经网络的谣言立场检测方法,其特征在于,包括:
获取谣言数据;
根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;
将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的;
所述根据所述谣言数据的特征构建异构图的步骤包括:根据所述谣言数据确定所述异构图的词节点和帖子节点;确定所述帖子节点的特征,根据所述帖子节点的特征确定所述词节点和帖子节点间的关系;根据所述词节点和帖子节点间的关系构建所述异构图;
所述根据所述谣言数据确定所述异构图的词节点和帖子节点的步骤包括:筛选所述谣言数据中出现频率达到设定次数的每个词作为一个词节点,将用户每次发表的意见作为一个帖子节点;
所述根据所述帖子节点的特征确定所述词节点和帖子节点间的关系的步骤包括:将节点间的关系作为所述异构图中相连节点间的边,分别确定两个词节点、词节点与帖子节点、两个帖子节点间的边的权重,其中,所述节点间的关系按照与节点对应的词或帖子在所述谣言数据中的共现信息以及不同帖子在传播中的交互关系确定;
所述两个词节点的边的权重通过如下公式确定:
Figure FDA0003885546740000011
其中,所述两个词节点的边的权重由所述两个词节点在文本采样窗口中的共现频率确定,wi与wj表示两个词节点,
Figure FDA0003885546740000021
为wi与wj共同出现的窗口个数,Nwindow为所述谣言数据中滑动窗口总数,
Figure FDA0003885546740000022
Figure FDA0003885546740000023
为wi与wj分别各自出现的滑动窗口次数;
所述词节点与帖子节点的边的权重按照词频-逆文档频率方法确定;
所述两个帖子节点的边的权重按照所述两个帖子节点对应的两个帖子的内容相似度确定。
2.根据权利要求1所述的方法,其特征在于,所述确定所述帖子节点的特征步骤包括:
确定所述帖子节点的语义特征、属性特征和传播特征:
筛选所述帖子节点中每个句子中的主干内容,将所述主干内容映射为词向量,将每个所述帖子节点中的词向量的平均值作为所述帖子节点的语义特征;
将所述帖子节点的长度、表情个数、发出时段及回复人数信息进行归一化处理后作为所述帖子节点的属性特征;
将所述帖子节点的传播深度、入度与出度的比值作为所述帖子节点的传播特征。
3.根据权利要求1所述的方法,其特征在于,所述将所述异构图输入图神经网络模型,并获取所述图神经网络模型输出的所述异构图的每个节点的目标特征的步骤包括:
将所述异构图输入单层图神经网络模型,得到与每个节点相邻的一阶节点的特征;
将多个单层图神经网络模型堆叠,得到与每个节点相邻的多阶节点的特征。
4.根据权利要求1所述的方法,其特征在于,所述根据每个所述节点的特征对所述节点的立场分类的步骤包括:
将所述图神经网络模型确定的所述节点的目标特征输入全连接层,并利用分类函数层对所述节点的立场进行分类后输出。
5.一种基于图神经网络的谣言立场检测装置,其特征在于,包括:
数据获取模块,用于获取谣言数据;
异构图构建模块,用于根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;
数据处理模块,用于将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的;
所述异构图构建模块,还用于:根据所述谣言数据确定所述异构图的词节点和帖子节点;确定所述帖子节点的特征,根据所述帖子节点的特征确定所述词节点和帖子节点间的关系;根据所述词节点和帖子节点间的关系构建所述异构图;
所述异构图构建模块,还用于:筛选所述谣言数据中出现频率达到设定次数的每个词作为一个词节点,将用户每次发表的意见作为一个帖子节点;
所述根据所述帖子节点的特征确定所述词节点和帖子节点间的关系的步骤包括:将节点间的关系作为所述异构图中相连节点间的边,分别确定两个词节点、词节点与帖子节点、两个帖子节点间的边的权重,其中,所述节点间的关系按照与节点对应的词或帖子在所述谣言数据中的共现信息以及不同帖子在传播中的交互关系确定;
所述两个词节点的边的权重通过如下公式确定:
Figure FDA0003885546740000041
其中,所述两个词节点的边的权重由所述两个词节点在文本采样窗口中的共现频率确定,wi与wj表示两个词节点,
Figure FDA0003885546740000042
为wi与wj共同出现的窗口个数,Nwindow为所述谣言数据中滑动窗口总数,
Figure FDA0003885546740000043
Figure FDA0003885546740000044
为wi与wj分别各自出现的滑动窗口次数;
所述词节点与帖子节点的边的权重按照词频-逆文档频率方法确定;
所述两个帖子节点的边的权重按照所述两个帖子节点对应的两个帖子的内容相似度确定。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201911158422.0A 2019-11-22 2019-11-22 基于图神经网络的谣言立场检测方法、装置和电子设备 Active CN111159395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911158422.0A CN111159395B (zh) 2019-11-22 2019-11-22 基于图神经网络的谣言立场检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911158422.0A CN111159395B (zh) 2019-11-22 2019-11-22 基于图神经网络的谣言立场检测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111159395A CN111159395A (zh) 2020-05-15
CN111159395B true CN111159395B (zh) 2023-02-17

Family

ID=70556090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911158422.0A Active CN111159395B (zh) 2019-11-22 2019-11-22 基于图神经网络的谣言立场检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111159395B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861546A (zh) * 2020-06-28 2020-10-30 浪潮(北京)电子信息产业有限公司 一种评论质量的判断方法、装置、设备及存储介质
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN113971400B (zh) * 2020-07-24 2023-07-25 抖音视界有限公司 一种文本检测方法、装置、电子设备及存储介质
CN112148875A (zh) * 2020-08-03 2020-12-29 杭州中科睿鉴科技有限公司 基于图卷积神经网络整合内容和结构信息的争议性检测方法
CN112035669B (zh) * 2020-09-09 2021-05-14 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112231476B (zh) * 2020-10-14 2023-06-06 中国科学技术信息研究所 一种改进的图神经网络科技文献大数据分类方法
CN112231562B (zh) * 2020-10-15 2023-07-14 北京工商大学 一种网络谣言识别方法及系统
CN116318989A (zh) * 2020-10-16 2023-06-23 维萨国际服务协会 用于用户网络活动异常检测的系统、方法和计算机程序产品
CN113342944B (zh) * 2021-04-29 2023-04-07 腾讯科技(深圳)有限公司 一种语料泛化方法、装置、设备及存储介质
CN113239232B (zh) * 2021-05-17 2023-12-26 北京达佳互联信息技术有限公司 图神经网络推荐系统、方法、装置、电子设备及存储介质
CN113434668B (zh) * 2021-05-18 2022-05-20 湘潭大学 一种基于模型融合的深度学习文本分类方法及系统
CN113515634B (zh) * 2021-07-09 2023-08-01 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及系统
CN116306590B (zh) * 2023-05-19 2023-08-15 大汉软件股份有限公司 一种知识驱动的特定话题的立场分析方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117198406A (zh) * 2023-09-21 2023-12-08 亦康(北京)医药科技有限公司 一种特征筛选方法、系统、电子设备及介质
CN117633635B (zh) * 2024-01-23 2024-04-16 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403007A (zh) * 2017-07-25 2017-11-28 北京工商大学 一种基于网络的微博消息可信度判别模型的方法
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109948000A (zh) * 2019-01-09 2019-06-28 南方科技大学 异质网络的异常目标检测方法、装置、设备及存储介质
CN110209820A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 用户标识检测方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10097617B2 (en) * 2014-12-18 2018-10-09 International Business Machines Corporation Conforming distributed posts to reflect social networking web site environments and audiences

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403007A (zh) * 2017-07-25 2017-11-28 北京工商大学 一种基于网络的微博消息可信度判别模型的方法
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109948000A (zh) * 2019-01-09 2019-06-28 南方科技大学 异质网络的异常目标检测方法、装置、设备及存储介质
CN110209820A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 用户标识检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN111159395A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
Ren et al. A sentiment-aware deep learning approach for personality detection from text
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US11521041B2 (en) Fact validation method and system, computer device and storage medium
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
Yang et al. Microblog sentiment analysis via embedding social contexts into an attentive LSTM
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
Xiang et al. Spam detection in reviews using LSTM-based multi-entity temporal features
CN112100398A (zh) 一种专利空白预测方法及系统
Lin et al. Early prediction of hate speech propagation
Lee et al. Detecting suicidality with a contextual graph neural network
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
Wang et al. Detecting fake news by enhanced text representation with multi-EDU-structure awareness
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
Du et al. Multiple userids identification with deep learning
CN115422920A (zh) 基于bert和gat的裁判文书争议焦点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant