CN113515634A - 基于分层异质图神经网络的社交媒体谣言检测方法及系统 - Google Patents

基于分层异质图神经网络的社交媒体谣言检测方法及系统 Download PDF

Info

Publication number
CN113515634A
CN113515634A CN202110775965.8A CN202110775965A CN113515634A CN 113515634 A CN113515634 A CN 113515634A CN 202110775965 A CN202110775965 A CN 202110775965A CN 113515634 A CN113515634 A CN 113515634A
Authority
CN
China
Prior art keywords
user
event
tweet
vector
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110775965.8A
Other languages
English (en)
Other versions
CN113515634B (zh
Inventor
廖祥文
王灿杰
林建洲
林树凯
陈泓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110775965.8A priority Critical patent/CN113515634B/zh
Publication of CN113515634A publication Critical patent/CN113515634A/zh
Application granted granted Critical
Publication of CN113515634B publication Critical patent/CN113515634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于分层异质图神经网络的社交媒体谣言检测方法及系统,包括基于数据预处理模块,用于对文本数据进行预处理,抽取用户静态特征,构建分层异质图结构;事件编码模块,用于编码含有传播及扩散结构信息的文本;用户编码模块,用于学习用户行为特征;全局异质图编码模块,用于捕捉事件和用户之间丰富的全局结构信息;谣言检测标签输出模块,用于融合文本信息、用户行为特征、全局异质图信息,完成谣言检测的标签预测工作。本发明能够有效的学习用户与用户之间和文本与文本之间的局部内联关系,生成含有临近节点信息的用户、文本表示,以此建模学习用户与事件之间的全局结构关系,最终识别出事件的真实性。

Description

基于分层异质图神经网络的社交媒体谣言检测方法及系统
技术领域
本发明涉及文本检测领域,具体涉及一种基于分层异质图神经网络的社交媒体谣言检测方法及系统。
背景技术
谣言(Rumor),一般指的是在发布时真实性尚未得到证实的流传陈述或报道。这一未经核实的陈述有可能会被证实是真实的,或者部分乃至完全是虚假的,甚至其真实性也可能长期无法得到证实。随着推特、微博等社交媒体平台的迅速发展,其已逐渐取代传统媒体,成为用户获取信息、表达意见和相互交流的一个方便的在线平台。由于社交媒体具有高速传播信息的本质特性,给用户带来快捷获取新信息途径的同时,也为谣言的传播提供了温床。社交媒体与传统媒体相比,传统媒体中的信息由公认组织发布,并经过多次审查核实,但社交媒体中的大部分信息由个人发布,在传播之前并未经过真实性验证。信息发布者中的造谣者往往为了名气或其他利益,肆意编造及传播未经核实的信息,这可能会使谣言借助社交媒体强大的传播能力在短时间内接触到成百上千的人,引起社会恐慌和经济动荡。尽管如Snopes、微博社区管理中心等组织致力于揭穿在社交媒体上出现的谣言,但这些组织对信息的判断基于人工收集和评估,面对社交媒体上庞大的信息流,不仅不能全面地验证信息真实性,且通常需要较长的响应时间。因此能够快速且准确地识别社交媒体谣言对于科技、经济、以及社会稳定和发展具有非常重要的意义和价值。
近些年的社交媒体谣言检测研究工作大体上可以分为以下两类1)基于传统机器学习的谣言检测,研究精力主要集中在事件的特征选择和设计上,通过人工选择的方式从事件信息中抽取显著的特征集,包括用户特征,上下文特征,传播特征等,例如用户个人信息,文本情感极性,传播树特征。在此类特征工程的基础上使用支持向量机、决策树等分类器进行分类,判断事件是否是谣言。该类方法取得了良好的效果,但是人工提取特征使得分类结果的优劣极大地依赖于研究者精心选择和设计的关键特征的质量,因此需要消耗大量的时间和人力物力。2)基于特征表示学习的谣言检测,该类方法主要借助神经网络模型的优秀的表示学习能力,从待检测对象的各类信息中挖掘谣言与非谣言之间的区别。现有的研究主要围绕谣言的内容、发布用户以及传播模式三个关键要素展开,尤其是以对文本内容建模为主,挖掘其中不确定性的表达作为识别谣言的重要线索,但对于社交媒体,其具有的文本信息一般较短、表达不规范等典型特点,使得模型难以对事件做到有效建模。另外,现有的研究将上述三个关键要素看做是相互独立的事件表示元素,忽视了其之间相互联系、相互补充、相互增强的关系,即割裂了“用户-事件”,“用户-用户”之间密切相关的联系,导致谣言检测模型性能受限,因此无法准确地刻画谣言事件。基于此,针对事件中三个关键要素之间的关系,选择合适的算法进行表示学习,获取其潜在的特征表示,对于谣言检测具有重要的意义和价值。
发明内容
有鉴于此,本发明的目的在于提供一种基于分层异质图神经网络的社交媒体谣言检测方法及系统,能够有效的学习用户与用户之间和文本与文本之间的局部内联关系,生成含有临近节点信息的用户、文本表示,以此建模学习用户与事件之间的全局结构关系,最终识别出事件的真实性。
为实现上述目的,本发明采用如下技术方案:
一种基于分层异质图神经网络的社交媒体谣言检测方法,包括以下步骤:
步骤S1:对推文事件数据进行预处理,抽取用户静态特征,构建用户行为关系图和分层异质图结构;
步骤S2:基于预处理后推文事件数据,采用双层GCN模型,获取推文事件隐层特征向量;
步骤S3基于用户静态特征和用户行为关系图作为模块的输入,采用双层GCN模型,从而得到处理后的用户特征向量表示;
步骤S4:采用双层GAT模型学习文本和用户之间丰富的全局结构信息;
步骤S5:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签。
进一步的,所述步骤S1具体为:
步骤S11:去除文本数据中的噪声,利用余下的词语构建字典,并利用CLFD法计算字典中单词的权重,结合tf-idf统计方法计算推文的向量表示;
步骤S12:从推文事件数据中抽取用户描述信息并转化为用户静态特征;
步骤S13:根据用户与用户之间是否共同参与事件讨论的关系构建用户行为关系图;
步骤S14:根据用户是否参与事件讨论构建用户与事件间的全局异质图。
进一步的,所述用户描述信息包括用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长。
进一步的,所述步骤S2具体为:
步骤S21:以推文向量表示和传播、扩散结构图作为输入,采用双层GCN模型学习推文文本信息及推文事件传播过程中产生的传播、扩散结构信息;
步骤S22:将每层GCN输入的源推文向量复制后与当前GCN层输出的向量进行拼接;
步骤S23:利用平均池化方法获得推文事件隐层特征向量.
进一步的,所述S3具体为:用户静态特征和用户行为关系图作为模块的输入,采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息,进一步得到处理后的用户特征向量表示。
进一步的,所述步骤S4具体为:以推文事件隐层特征向量、用户特征向量、全局异质图作为输入,其中全局异质图包含两种节点:
Figure BDA0003155271800000051
Figure BDA0003155271800000052
其中
Figure BDA0003155271800000053
W为可学习的模型变量,
Figure BDA0003155271800000054
Figure BDA0003155271800000055
分别为所述步骤S2输出的推文事件传播、扩散向量表示,
Figure BDA0003155271800000056
为所述步骤S3输出的用户特征向量表示,m′j和u′i分别为异质图中的推文节点和用户节点;
采用双层GAT模型学习文本和用户之间丰富的全局结构信息。
进一步的,所述GAT网络使用注意力机制计算融合邻居节点信息的分布式表示,注意力权重计算公式如下:
α′ji=softmax(LeakyReLU(aT[m′j;u′i]))β′jt=softmax(LeakyReLU(cT[u′i;m′t]))
其中,aT和cT为可学习的模型变量,α′ji为推文节点m′j的邻居用户节点u′i的权重,β′jt为用户节点u′i的邻居推文节点m′t的权重;
所述GAT网络采用了多头注意力机制,异质图中各个节点的最终向量表示由K个独立的注意力计算结果拼接而成,其计算公式如下:
Figure BDA0003155271800000057
Figure BDA0003155271800000061
其中
Figure BDA0003155271800000062
为第k个注意力层计算出的推文节点m′j的邻居用户节点u′i的权重,
Figure BDA0003155271800000063
为第k个注意力层计算出的用户节点u′i的邻居推文节点m′t的权重,
Figure BDA0003155271800000064
Figure BDA0003155271800000065
为可学习的模型变量,
Figure BDA0003155271800000066
Figure BDA0003155271800000067
分别表示推文节点mj的邻居用户节点集合和用户节点ui的邻居推文节点集合,||为向量拼接操作,σ(·)为ELU激活函数。
进一步的,所述步骤S5具体为:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签,计算公式如下:
Figure BDA0003155271800000068
其中
Figure BDA0003155271800000069
Figure BDA00031552718000000610
分别为所述步骤S2输出的推文事件传播、扩散向量表示,
Figure BDA00031552718000000611
为所述步骤S3输出的用户特征向量表示,W为可学习的模型变量,b为偏置项,Le为模型最终的预测标签。
一种基于分层异质图神经网络的社交媒体谣言检测系统,包括基于数据预处理模块,用于对文本数据进行预处理,抽取用户静态特征,构建分层异质图结构;
事件编码模块,用于编码含有传播及扩散结构信息的文本;
用户编码模块,用于学习用户行为特征;
全局异质图编码模块,用于捕捉事件和用户之间丰富的全局结构信息;
谣言检测标签输出模块,用于融合文本信息、用户行为特征、全局异质图信息,完成谣言检测的标签预测工作。
本发明与现有技术相比具有以下有益效果:
本发明能够有效的学习用户与用户之间和文本与文本之间的局部内联关系,生成含有临近节点信息的用户、文本表示,以此建模学习用户与事件之间的全局结构关系,最终识别出事件的真实性。
附图说明
图1是本发明一实施例中系统示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于分层异质图神经网络的社交媒体谣言检测系统,包括:
数据预处理模块,用于对文本数据进行预处理,抽取用户静态特征,构建分层异质图结构等;
事件编码模块,用于编码含有传播及扩散结构信息的文本;
用户编码模块,用于学习用户行为特征;
全局异质图编码模块,用于捕捉事件和用户之间丰富的全局结构信息;
谣言检测标签输出模块,用于融合文本信息、用户行为特征、全局异质图信息,完成谣言检测的标签预测工作。下面分别详细描述各模块配置。
在本实施例中,还提供一种基于分层异质图神经网络的社交媒体谣言检测方法,包括以下步骤:
步骤S1:对推文事件数据进行预处理,抽取用户静态特征,构建用户行为关系图和分层异质图结构;
步骤S2:基于预处理后推文事件数据,采用双层GCN模型,获取推文事件隐层特征向量;
步骤S3基于用户静态特征和用户行为关系图作为模块的输入,采用双层GCN模型,从而得到处理后的用户特征向量表示;
步骤S4:采用双层GAT模型学习文本和用户之间丰富的全局结构信息;
步骤S5:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签。
在本实施例中,优选的,步骤S1具体包括以下步骤:
步骤S11:去除文本数据中的噪声,比如去除文本中的链接、特殊字符、标点符号等,过滤文本中的停用词,利用余下的词语构建字典,利用CLFD(class label frequencydistance)算法计算字典中单词的权重,结合tf-idf统计方法计算推文的向量表示,CLFD算法如下:
Figure BDA0003155271800000091
上述算法中,tf(t,d)表示词语t在文档d中出现的次数;occ(t,i)表示词语t在标签为i的样本中出现的次数;
Figure BDA0003155271800000092
表示标签为非i的样本;total(i)表示标签为i的样本中词语的总数量;clfri(t)表示词语t在每个标签i类中的权重;clfd(t)即为词语t的权重。
推文的最终向量表示是计算出的clfd(t)和tf-idf生成的向量的Hadamard积,其公式如下:
Figure BDA0003155271800000093
步骤S12:从生数据中抽取用户描述信息并转化为用户静态特征,抽取的用户描述信息包括:用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长;
步骤S13:根据推文文本间的转发或评论关系构建传播和扩散结构图。其中,传播和扩散图中的节点皆为推文文本,传播图中的边由被转发/评论者指向转发/评论者,扩散图则相反;
步骤S14:根据用户与用户之间是否共同参与事件讨论的关系构建用户行为关系图;其中,用户行为关系图中的节点为用户,边为根据用户行为构建的无向边。
步骤S15:根据用户是否参与事件讨论构建用户与事件间的全局异质图。其中,全局异质图包含两种节点,分别为推文文本和用户,边为根据用户是否参与事件讨论构建的无向边。
在本实施例中,优选的,步骤S2具体为:以推文向量表示和传播、扩散结构图作为输入,采用两个双层GCN模型分别学习推文文本信息及推文事件传播过程中产生的传播、扩散结构信息,双层GCN模型计算公式如下:
Figure BDA0003155271800000101
Figure BDA0003155271800000102
其中,X为数据预处理模块1中输出的推文向量表示,
Figure BDA0003155271800000103
表示传播图或扩散图的正则化邻接矩阵,W为神经网络层的参数,σ(·)为RELU激活函数,H1和H2分别为两层GCN网络的输出。
在此基础上将每层GCN输入的源推文向量复制后与当前GCN层输出的向量进行拼接以达到原推文信息增强的目的,其计算公式如下:
Figure BDA0003155271800000104
其中H0=X,
Figure BDA0003155271800000111
为前一层GCN输出的源推文隐层向量复制n(事件中推文的数量)份后的矩阵。
最后分别对传播模型和扩散模型的输出利用平均池化方法获得推文事件的传播、扩散向量表示,计算公式如下:
Figure BDA0003155271800000112
Figure BDA0003155271800000113
其中
Figure BDA0003155271800000114
Figure BDA0003155271800000115
分别为信息增强后的传播、扩散结构事件矩阵表示,STD和SBU为最终的推文事件的传播、扩散向量表示。
在本实施例中,优选的,步骤S3具体为:以用户的静态特征和用户行为关系图作为模块的输入,采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息,从而得到语义更为丰富的用户特征向量表示。其中双层GCN模型计算公式如下:
Figure BDA0003155271800000116
Figure BDA0003155271800000117
其中U为用户的静态特征向量表示,σ(·)为RELU激活函数。
在本实施例中,优选的,步骤S4具体为:以推文事件隐层特征向量、用户特征向量、全局异质图作为输入,其中全局异质图包含两种节点:
Figure BDA0003155271800000118
Figure BDA0003155271800000119
其中
Figure BDA00031552718000001110
W为可学习的模型变量,m′j和u′i分别为异质图中的推文节点和用户节点。
而后采用双层GAT模型学习文本和用户之间丰富的全局结构信息。
GAT网络使用注意力机制计算融合邻居节点信息的分布式表示,注意力权重计算公式如下:
α′ji=softmax(LeakyReLU(aT[m′j;u′i]))β′jt=softmax(LeakyReLU(cT[u′i;m′t]))
其中,aT和cT为可学习的模型变量,α′ji为推文节点m′j的邻居用户节点u′i的权重,β′jt为用户节点u′i的邻居推文节点m′t的权重。
为了从不同的潜在关系中捕捉多种表示,GAT网络还采用了多头注意力机制,异质图中各个节点的最终向量表示由K个独立的注意力计算结果拼接而成,其计算公式如下:
Figure BDA0003155271800000121
Figure BDA0003155271800000122
其中||为向量拼接操作,σ(·)为ELU激活函数。
在本实施例中,优选的,步骤S5具体为:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签。计算公式如下:
Figure BDA0003155271800000123
其中,W为可学习的模型变量,b为偏置项,Le为模型最终的预测标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (9)

1.一种基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,包括以下步骤:
步骤S1:对推文事件数据进行预处理,抽取用户静态特征,构建用户行为关系图和分层异质图结构;
步骤S2:基于预处理后推文事件数据,采用双层GCN模型,获取推文事件隐层特征向量;
步骤S3基于用户静态特征和用户行为关系图作为模块的输入,采用双层GCN模型,从而得到处理后的用户特征向量表示;
步骤S4:采用双层GAT模型学习文本和用户之间丰富的全局结构信息;
步骤S5:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签。
2.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述步骤S1具体为:
步骤S11:去除推文事件数据中的噪声,利用余下的词语构建字典,并利用CLFD法计算字典中单词的权重,结合tf-idf统计方法计算推文的向量表示;
步骤S12:从推文事件数据中抽取用户描述信息并转化为用户静态特征;
步骤S13:根据用户与用户之间是否共同参与事件讨论的关系构建用户行为关系图;
步骤S14:根据用户是否参与事件讨论构建用户与事件间的全局异质图。
3.根据权利要求2所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述用户描述信息包括用户是否认证、用户的粉丝数量、用户的推文数量、用户的友人数量、用户注册时长。
4.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述步骤S2具体为:
步骤S21:以推文向量表示和传播、扩散结构图作为输入,采用双层GCN模型学习推文文本信息及推文事件传播过程中产生的传播、扩散结构信息;
步骤S22:将每层GCN输入的源推文向量复制后与当前GCN层输出的向量进行拼接;
步骤S23:利用平均池化方法获得推文事件隐层特征向量.
5.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述步骤S3具体为:用户静态特征和用户行为关系图作为模块的输入,采用双层GCN模型学习用户的静态特征和用户在参与事件讨论过程中产生的用户行为信息,进一步得到处理后的用户特征向量表示。
6.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述步骤S4具体为:以推文事件隐层特征向量、用户特征向量、全局异质图作为输入,其中全局异质图包含两种节点:
Figure FDA0003155271790000031
Figure FDA0003155271790000032
其中
Figure FDA0003155271790000033
W为可学习的模型变量,
Figure FDA0003155271790000034
Figure FDA0003155271790000035
分别为所述步骤S2输出的推文事件传播、扩散向量表示,
Figure FDA0003155271790000036
为所述步骤S3输出的用户特征向量表示,m′j和u′i分别为异质图中的推文节点和用户节点;
采用双层GAT模型学习文本和用户之间丰富的全局结构信息。
7.根据权利要求6所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述GAT网络使用注意力机制计算融合邻居节点信息的分布式表示,注意力权重计算公式如下:
α′ji=softmax(LeakyReLU(aT[m′j;u′i]))
β′jt=softmax(LeakyReLU(cT[u′i;m′t]))
其中,aT和cT为可学习的模型变量,α′ji为推文节点m′j的邻居用户节点u′i的权重,β′jt为用户节点u′i的邻居推文节点m′t的权重;
所述GAT网络采用了多头注意力机制,异质图中各个节点的最终向量表示由K个独立的注意力计算结果拼接而成,其计算公式如下:
Figure FDA0003155271790000037
Figure FDA0003155271790000041
其中
Figure FDA0003155271790000042
为第k个注意力层计算出的推文节点m′j的邻居用户节点u′i的权重,
Figure FDA0003155271790000043
为第k个注意力层计算出的用户节点u′i的邻居推文节点m′t的权重,
Figure FDA0003155271790000044
Figure FDA0003155271790000045
为可学习的模型变量,
Figure FDA0003155271790000046
Figure FDA0003155271790000047
分别表示推文节点mj的邻居用户节点集合和用户节点ui的邻居推文节点集合,||为向量拼接操作,σ(·)为ELU激活函数。
8.根据权利要求1所述的基于分层异质图神经网络的社交媒体谣言检测方法,其特征在于,所述步骤S5具体为:将推文事件隐层特征向量、用户特征向量、全局结构信息进行融合,作为事件的整体特征向量,并使用softmax函数对于该向量进行计算,输出其预测标签,计算公式如下:
Figure FDA0003155271790000048
其中
Figure FDA0003155271790000049
Figure FDA00031552717900000410
分别为所述步骤S2输出的推文事件传播、扩散向量表示,
Figure FDA00031552717900000411
为所述步骤S3输出的用户特征向量表示,W为可学习的模型变量,b为偏置项,Le为模型最终的预测标签。
9.一种基于分层异质图神经网络的社交媒体谣言检测系统,其特征在于,包括:
数据预处理模块,用于对文本数据进行预处理,抽取用户静态特征,构建分层异质图结构;
事件编码模块,用于编码含有传播及扩散结构信息的文本;
用户编码模块,用于学习用户行为特征;
全局异质图编码模块,用于捕捉事件和用户之间丰富的全局结构信息;
谣言检测标签输出模块,用于融合文本信息、用户行为特征、全局异质图信息,完成谣言检测的标签预测工作。
CN202110775965.8A 2021-07-09 2021-07-09 基于分层异质图神经网络的社交媒体谣言检测方法及系统 Active CN113515634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775965.8A CN113515634B (zh) 2021-07-09 2021-07-09 基于分层异质图神经网络的社交媒体谣言检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775965.8A CN113515634B (zh) 2021-07-09 2021-07-09 基于分层异质图神经网络的社交媒体谣言检测方法及系统

Publications (2)

Publication Number Publication Date
CN113515634A true CN113515634A (zh) 2021-10-19
CN113515634B CN113515634B (zh) 2023-08-01

Family

ID=78066712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775965.8A Active CN113515634B (zh) 2021-07-09 2021-07-09 基于分层异质图神经网络的社交媒体谣言检测方法及系统

Country Status (1)

Country Link
CN (1) CN113515634B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN114048395A (zh) * 2021-11-05 2022-02-15 中国科学院信息工程研究所 基于时间感知与关键信息抽取的用户转发预测方法和系统
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114722254A (zh) * 2022-04-20 2022-07-08 平安科技(深圳)有限公司 基于信息传播树的网络信息检测方法、装置、设备和介质
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN117421671A (zh) * 2023-12-18 2024-01-19 南开大学 面向引文网络的频率自适应静态异质图节点分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN112199606A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于层次用户表示的面向社交媒体的谣言检测系统
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
AU2021102006A4 (en) * 2021-04-19 2021-06-03 Beijing Technology And Business University A system and method for identifying online rumors based on propagation influence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN112199606A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于层次用户表示的面向社交媒体的谣言检测系统
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
AU2021102006A4 (en) * 2021-04-19 2021-06-03 Beijing Technology And Business University A system and method for identifying online rumors based on propagation influence

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIANG G HE: "Rumor Identification in Microblogging systems based on users\'behavior.", IEEE, no. 12 *
廖祥文;黄知;杨定达;程学旗;陈国龙;: "基于分层注意力网络的社交媒体谣言检测", 中国科学:信息科学, no. 11 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN114048395A (zh) * 2021-11-05 2022-02-15 中国科学院信息工程研究所 基于时间感知与关键信息抽取的用户转发预测方法和系统
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114330337B (zh) * 2021-12-29 2023-04-07 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114722254A (zh) * 2022-04-20 2022-07-08 平安科技(深圳)有限公司 基于信息传播树的网络信息检测方法、装置、设备和介质
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115809327B (zh) * 2023-02-08 2023-05-05 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN117421671A (zh) * 2023-12-18 2024-01-19 南开大学 面向引文网络的频率自适应静态异质图节点分类方法
CN117421671B (zh) * 2023-12-18 2024-03-05 南开大学 面向引文网络的频率自适应静态异质图节点分类方法

Also Published As

Publication number Publication date
CN113515634B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Singhal et al. Spotfake: A multi-modal framework for fake news detection
CN113515634A (zh) 基于分层异质图神经网络的社交媒体谣言检测方法及系统
Abedalla et al. A closer look at fake news detection: A deep learning perspective
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN111885399A (zh) 内容分发方法、装置、电子设备以及存储介质
CN110929683B (zh) 一种基于人工智能的视频舆情监测方法及系统
Tan et al. Research status of deep learning methods for rumor detection
Umamaheswari et al. Analyzing product usage based on twitter users based on datamining process
Sabeeh et al. Enhancing the fake news detection by applying effective feature selection based on semantic sources
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN114548274A (zh) 一种基于多模态交互的谣言检测方法及系统
Sarsam et al. Geo-spatial-based emotions: A mechanism for event detection in microblogs
CN113127643A (zh) 一种融合微博主题及评论的深度学习谣言检测方法
Al Marouf et al. Looking behind the mask: A framework for detecting character assassination via troll comments on social media using psycholinguistic tools
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
Arumugam Development of argument based opinion mining model with sentimental data analysis from twitter content
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
Kurniawan et al. Exploring Tourist Feedback on Riau Attractions Through Indonesian Language YouTube Opinion Using Naïve Bayes Algorithm
Mouty et al. Survey on steps of truth detection on Arabic tweets
Cai et al. A spatial-temporal visual mid-level ontology for GIF sentiment analysis
AlSulaim et al. Prediction of Anime Series' Success using Sentiment Analysis and Deep Learning
Wang Online language education recommendation based on personalized learning and edge computing
Ding et al. How to Find Social Robots exactly?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant