CN115269853A - 一种基于模体的异构图神经网络假新闻检测算法 - Google Patents

一种基于模体的异构图神经网络假新闻检测算法 Download PDF

Info

Publication number
CN115269853A
CN115269853A CN202210949264.6A CN202210949264A CN115269853A CN 115269853 A CN115269853 A CN 115269853A CN 202210949264 A CN202210949264 A CN 202210949264A CN 115269853 A CN115269853 A CN 115269853A
Authority
CN
China
Prior art keywords
news
heterogeneous
node
motif
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210949264.6A
Other languages
English (en)
Inventor
于硕
黄华飞
夏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210949264.6A priority Critical patent/CN115269853A/zh
Publication of CN115269853A publication Critical patent/CN115269853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于假新闻检测领域,提供了一种基于模体的异构图神经网络假新闻检测算法。首先,将社交媒体的原始数据构建成新闻异构图;其次,将所有类型的节点映射到相同的特征空间,并根据每个异构模体类型分别提取实例;接着,利用实例级注意机制将同类型的所有模体实例聚合到相应的新闻节点中以捕获关键实例信息;然后,针对不同类型的异构模体,使用语义级注意力机制自适应地聚合不同的新闻语义嵌入;最后,将新闻的表示用于下游的假新闻检测任务。本发明考虑了社交平台中大量存在的异构高阶模式,通过两层注意力机制,学习到了高效的新闻节点表示,并提高了假新闻检测的效果。

Description

一种基于模体的异构图神经网络假新闻检测算法
技术领域
本发明属于网络表示学习领域,涉及一种基于模体的异构图神经网络假新闻检测算法,可用于社交媒体中的假新闻检测。
背景技术
新闻具有丰富的内容,长期以来一直是人们的重要信息来源,并影响着人们在不同活动中的决策。然而,假新闻大多有吸引人的标题和误导性的内容,吸引了更多读者,导致他们做出错误的选择。此外,互联网极大地加速了信息的传播,假新闻的威胁变得更加严重。目前,假新闻检测是一个很有前景的研究方向,在现代的社交网络环境下,急切地需要有效的检测算法。
当前主流的社交媒体上的假新闻检测算法可划分为以下几类:
基于新闻内容的假新闻检测算法。Ha和Gao在2021年发表在PRICAI上的工作《FakeNews Detection Using Multiple-View Text Representation》提出WES,在文本内容中提取三种不同的表示视图(词级、句子级和情感特征)来对新闻文章进行分类。Yang等人在2021年发表在IEEE Symposium on Computers and Communications上的工作《Multi-Modal fake news Detection on Social Media with Dual Attention FusionNetworks》提出DAFN,融合了文本和图像模态的信息,并使用BERT嵌入来获得用于假新闻检测的多模态融合表示。Zhou等人在2020年发表在PAKDD上的工作《SAFE:Similarity-AwareMulti-modal Fake News Detection》提出SAFE方法,计算文本和视觉信息之间的计算相似度,然后联合学习它们的表示以检测假新闻。Wang等人在2020年发表在ICMR上的工作《FakeNews Detection via Knowledge-driven Multimodal Graph Convolutional Networks》提出KMGCN,在检测任务中除了考虑新闻本身的内容外,还考虑了背景知识信息。然而,这些方法不可避免地忽略了新闻的社交背景,例如(出版商-发布-新闻)和(用户-转发-新闻)异构关系,而这些关系对于判断假新闻是有用的。
基于图方法的假新闻检测算法。该类方法根据社交平台的新闻传播特点构建新闻检测的图模型。Shu等人在2019年发表在WSDM上的工作《Beyond News Contents:The Roleof Social Context for Fake News Detection》提出了TriFN,试图分析社交媒体中出版商、新闻和用户之间的关系,并将其应用于假新闻检测。Ren等人在2020年发表在ICDM上的工作《Adversarial Active Learning based Heterogeneous Graph Neural Network forFake News Detection》提出AA-HGNN,应用了构建面向新闻的异构图的方法,然后设计图神经网络来学习新闻节点表示。Ren等人在2021年发表在IJCNN上的工作《Fake NewsDetection on News-Oriented Heterogeneous Information Networks throughHierarchical Graph Attention》提出了层次图注意力网络(HGAT),在假新闻发现方面取得了优异的性能。Dou等人在2021年发表在SIGIR上的工作《User Preference-aware FakeNews Detection》提出UPFD,在检测任务中引入了用户对新闻的偏好信息。此外,Kang等人在2021年发表在PAKDD上的工作《Fake News Detection with Heterogenous Deep GraphConvolutional Network》提出NDG,通过采样节点成功降低了异构图方法的计算成本。Nguyen等人在2020年发表在CIKM上的工作《FANG:Leveraging Social Context for FakeNews Detection Using Graph Representation》提出FANG,设计了一个符合归纳图学习设置的假新闻检测模型。然而,这些方法只考虑了节点之间的二元关系,缺乏对新闻异构图中高阶语义交互的研究,如两个用户转发同一篇新闻,一个出版商发布两篇新闻等关系,从而丢失了对于新闻表示学习有用的关键信息。
发明内容
现有的假新闻检测图方法通常只考虑节点之间的成对关系,因此忽略了新闻传播中可能更关键的高阶语义模式。例如,社交网络中的多个用户可以转发同一条新闻,一个出版商可以发布多篇新闻文章,一个用户可以共享多篇新闻文章。这些结构都不能用任何二元关系来描述。这些高阶连接模式在各种类型的图(网络)中普遍存在,并在图表示学习中起着关键作用。因此,一旦忽略高阶语义结构,可能会导致关键信息的丢失,从而无法让现有的异构图方法充分学习新闻表示。这种情况导致模型遗漏少量难以检测到的假新闻,因此这些检测方法只能达到次优的检测性能。
针对现有技术存在的问题,本发明的目的是通过引入和建模社交网络中异构模体实例,解决以往的大多数研究中,因为忽略的高阶语义结构带来的假新闻检测次优性能问题,提出了一种基于模体的异构图神经网络假新闻检测算法,可以准确地从不同异构模体实例中捕获信息,并通过注意力机制考虑每种类型的模体的对假新闻检测的贡献,最终学习有效的新闻表示,用于后续检测。
为了达到上述目的,本发明采取的技术方案如下:
一种基于模体的异构图神经网络假新闻检测算法,该假新闻检测算法,首先,数据预处理,将来自社交媒体的原始数据构建成新闻异构图;其次,将所有类型的节点映射到相同的特征空间,并根据每个异构模体类型分别提取相应实例;接着,利用实例级注意机制将同类型的所有模体实例聚合到相应的新闻节点中以捕获关键实例信息;然后,针对不同类型的异构模体,利用语义级注意力机制自适应地聚合不同的新闻语义嵌入;最后,将新闻的表示用于下游的假新闻检测任务,输出新闻的分类的预测结果,并持续优化到最优的模型;步骤如下:
步骤(1):数据预处理,将社交媒体的原始数据构建成新闻异构图;
1)从来自社交平台的原始数据中,抽取3种节点类型:用户U,新闻N,出版商P;和2种异构的二元关系:用户-转发-新闻U-N,出版商-发布-新闻P-N;
2)根据节点和关系,构建的新闻异构图
Figure BDA0003788831080000041
其中,
Figure BDA0003788831080000042
为节点集合,ε为边集合,
Figure BDA0003788831080000043
为节点类型集合,
Figure BDA0003788831080000044
为边/关系类型集合;节点v的初始属性为
Figure BDA0003788831080000045
Figure BDA0003788831080000046
为节点的类型,dA为该类型节点的属性的维度;
步骤(2):将所有类型的节点映射到相同的特征空间,并根据新闻数据提取出3个三阶异构模体,U-N-U(多个用户共同转发同一篇新闻,用户-新闻-用户),N-U-N(一个用户转发多篇新闻,新闻-用户-新闻)和N-P-N(一个出版商发布多篇新闻,新闻-出版商-新闻),分别提取相应的模体实例;
1)使用一层的Multi-layer Perceptron(MLP)将不同类型的节点转换到相同的特征空间中:
Figure BDA0003788831080000047
其中,σ(·)代表非线性函数,使用ReLU(x)=max{0,x}作为该函数,
Figure BDA0003788831080000048
Figure BDA0003788831080000049
为可训练的权重矩阵和偏置向量,dh为特征空间的维度;
2)根据新闻异构图的二阶异构关系,提取出的三种类型的三阶异构模体,分别为U-N-U(用户-新闻-用户),N-U-N(新闻-用户-新闻),和N-P-N(新闻-出版商-新闻)。之后抽取模体实例,对于节点v,抽取的类型为
Figure BDA00037888310800000410
的异构模体实例集合为
Figure BDA00037888310800000411
即包含节点v并的符合m定义的异构模体的集合,例如,新闻725(节点v)-用户28-新闻892为一个符合N-U-N的实例。然后将抽取出来的异构模体实例中包含的节点特征进行拼接,对于
Figure BDA00037888310800000412
的第k个异构模体实例,得到该异构模体实例的嵌入
Figure BDA00037888310800000413
节点特征拼接的操作如下:
Figure BDA00037888310800000414
其中,(ins_1,ins_2,…,ins_n)为
Figure BDA00037888310800000517
第k个异构模体实例的节点ID,实例中节点类型可以不同,CONCAT()为拼接操作;
步骤(3):利用注意机制将相同类型的所有异构模体实例聚合到相应新闻节点中,得到节点对于模体的语义表示;
1)应用一层MLP计算节点v相关的每个实例即同属于类型m的异构模体实例的注意力分数,然后对其进行归一化,计算过程如下:
Figure BDA0003788831080000051
Figure BDA0003788831080000052
其中,
Figure BDA0003788831080000053
为双曲正切函数,
Figure BDA0003788831080000054
为可训练的矩阵,
Figure BDA0003788831080000055
Figure BDA0003788831080000056
为可训练的向量,
Figure BDA0003788831080000057
为与节点v相关的类型m的异构模体实例数量;
2)将注意力分数视为权重,并对实例嵌入进行加权求和,并得到节点v关于类型m的异构模体实例的新闻表示,具体计算如下:
Figure BDA0003788831080000058
其中
Figure BDA0003788831080000059
为非线性激活函数,a=0.02,
Figure BDA00037888310800000510
为节点v的第k个异构模体实例的嵌入;
步骤(4):针对不同类型的异构模体,自适应地聚合不同的新闻语义嵌入;
1)通过注意力机制评估每种异构模体的贡献;语义级注意力计算过程如下:
Figure BDA00037888310800000511
Figure BDA00037888310800000512
Figure BDA00037888310800000513
其中,
Figure BDA00037888310800000514
为可训练的权重矩阵,
Figure BDA00037888310800000515
Figure BDA00037888310800000516
为可训练的权重向量,
Figure BDA0003788831080000061
为节点的数量,
Figure BDA0003788831080000062
可衡量类型m的异构模体实例在假新闻检测任务中的重要性;
2)利用注意力分数,自适应加权求和与节点v相关的所有语义表示:
Figure BDA0003788831080000063
其中
Figure BDA0003788831080000064
为异构模体实例类型的数量;
步骤(5):输出新闻的分类的预测结果,并持续优化到最优的模型;
1)对于假新闻检测,用一层MLP将其转换为下游任务表示,节点v的下游任务表示计算如下:
zv=σ(hvWz+bz)
其中,
Figure BDA0003788831080000065
为可训练的权重矩阵,
Figure BDA0003788831080000066
为可训练的偏置向量;
2)通过Softmax变换,从下游任务表示中获得预测的软标签,节点v的预测软标签计算如下:
Figure BDA0003788831080000067
3)通过交叉熵损失进行训练优化模型参数,直到假新闻检测模型收敛到最优;
Figure BDA0003788831080000068
其中,
Figure BDA0003788831080000069
为训练集中具有标签的数据索引集合,yv为节点v的真实标签,一共有C类;通过训练更新权重参数,从而达到模型的不断优化,在训练损失
Figure BDA00037888310800000610
收敛后,即得到最优算法模型。
与现有算法相比,本发明的有益效果为:本发明通过引入异构模体实例,可以融合各种复杂的社交信息。这些实例包含丰富的高阶语义模式,在以往的大多数新闻检测研究中被忽略。通过在实例级注意力机制,可以准确地从不同异构模体的实例中捕获信息,而在语义级注意力机制中,计算了每种类型的模体对于假新闻检测的贡献,从而学习到有效的新闻表示,在假新闻检测中具有优异的性能。解决了因为忽略的高阶语义结构带来的假新闻检测次优性能问题。
附图说明
图1是本发明基本框架。
图2是本发明中针对新闻节点的实例的编码和注意力计算原理图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
分为5个步骤:(1)数据预处理,将社交媒体的原始数据构建成新闻异构图;(2)将所有类型的节点映射到相同的特征空间,并根据每个异构模体类型分别提取实例;(3)利用注意机制将相同类型的所有模体实例聚合到相应新闻节点中,得到节点对于模体的语义表示;(4)针对不同类型的异构模体,自适应地聚合不同的新闻语义嵌入;(5)输出新闻的分类的预测结果,并持续优化到最优的模型;
第一步,数据预处理,将社交媒体的原始数据构建成新闻异构图。
1)从原始数据中,抽取节点类型(用户U,新闻N,出版商P)和关系类型(用户-转发-新闻(U-N),出版商-发布-新闻(P-N))。
2)根据节点和关系,构建的新闻异构图
Figure BDA0003788831080000071
第二步,将所有类型的节点映射到相同的特征空间,并根据每个异构模体类型U-N-U,N-U-N和N-P-N分别提取实例。
1)使用公式
Figure BDA0003788831080000072
对所有类型节点进行特征变换。
2)从异构图中提取出三种类型的异构模体实例,并使用公式
Figure BDA0003788831080000073
Figure BDA0003788831080000081
拼接节点v的第k个模体实例的节点特征。
第三步,利用实例级注意力机制将同类型的所有模体实例聚合到相应新闻节点中,得到节点对于各类型模体的语义表示。
1)计算新闻节点v相关的每个实例(同属于类型m的模体)的注意力分数
Figure BDA0003788831080000082
然后归一化
Figure BDA0003788831080000083
2)使用得到的注意力分数对同类型实例嵌入进行加权求和,并使用LeakyReLU进行非线性变换,
Figure BDA0003788831080000084
第四步,针对不同类型的异构模体,使用语义级注意力机制自适应地聚合不同的新闻语义嵌入。
1)通过注意力机制评估每种异构模体的贡献
Figure BDA0003788831080000085
对所有的新闻节点取平均值
Figure BDA0003788831080000086
然后归一化
Figure BDA0003788831080000087
Figure BDA0003788831080000088
2)使用语义级注意力分数对实例嵌入进行加权求和
Figure BDA0003788831080000089
第五步,输出新闻的分类的预测结果,并持续优化到最优的模型。
1)用一层MLP将其转换为下游任务表示,zv=σ(hvWz+bz)。
2)通过Softmax函数从表示中获得预测的软标签
Figure BDA00037888310800000810
3)通过交叉熵损失进行训练优化模型,直到本方法的假新闻检测模型收敛到最优。
结合本发明的方案,进行实验分析如下:
本方法使用从社交平台收集的的公开假新闻数据集来构建新闻异构图,并与当前主要假新闻检测方法进行比较,从而评估本方法的有效性。
(1)假新闻检测数据集介绍
本模型在2个公开的社交网络数据集BuzzFeed和PolitiFact上进行模型的性能对比测试,任务为假新闻检测。
数据集的详细信息如表1所示:
表1数据集统计信息
Figure BDA0003788831080000091
BuzzFeed数据集包含182个新闻、27个出版商和15257个社交用户。BuzzFeed中的链接包括N-U(新闻和转发它的用户)和N-P(新闻和发布它的出版商)。每条新闻都包含新闻的标签(假或真)、新闻标题、新闻内容、新闻出版商以及用户发布/分享新闻的历史等信息。
PolitiFact数据集包含1056条新闻、558938名用户和362名出版商。PolitiFact中的链接包括N-U(新闻和转发它的用户)和N-P(新闻和发布它的出版商)。
每条新闻都包含一个唯一的标识、新闻发布的URL、新闻标题以及推特上共享新闻的用户ID。给出了数据集中的新闻标签。此外,在实验中,本方法通过删除数据集中转发两条以下新闻的用户来筛选有用的用户。
(2)本方法与其他主流方法对比实验结果
本方法实验结果与假新闻检测邻域中其他主流模型的对比情况如表2所示。其中,SVM是一种可用于分类的监督学习方法,在处理高维数据方面是高效的,并在许多领域都有应用;DW(DeepWalk)是一种无监督图嵌入方法。它利用随机游走构造节点序列,并使用Word2vec模型将节点投影到低维嵌入中,使用线性分类器来检测假新闻;N2V(Node2vec)与Deepwalk类似,但它应用了有偏随机游走,并且具有更灵活的节点序列采样策略,可以有效地探索不同类型的社团;GCN是一种半监督图学习模型,它引入消息传递机制来聚合节点邻域信息,在异构图设置中,忽略所有节点类型;GAT是一种半监督方法,其中节点使用自注意力来自适应地学习邻域的表示,实验中忽略所有节点类型;HAN是一种半监督异构图学习模型,HAN通过注意机制聚合了基于元路径的邻域的节点嵌入,并考虑了不同元路径对任务的重要性;HGAT是一种用于假新闻检测的异构图方法,引入了分层两级注意力机制,可以聚合包含不同类型节点的邻域信息。在BuzzFeed上的对比实验如表2所示:
表2在BuzzFeed数据集上假新闻检测结果
Figure BDA0003788831080000101
在PolitiFact上的对比实验如表3所示:
表3在PolitiFact数据集上假新闻检测结果
Figure BDA0003788831080000102
Figure BDA0003788831080000111
从表2和表3中的结果可以看出,在大多数情况下,本方法取得了最好的结果,对于不同的训练集比例本方法在各种评估指标中保持最佳或有竞争力的性能,表明本方法在假新闻检测任务中的有效性和优越性。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (1)

1.一种基于模体的异构图神经网络假新闻检测算法,其特征在于,该假新闻检测算法,首先进行数据预处理,将来自社交媒体的原始数据构建成新闻异构图;其次,将所有类型的节点映射到相同的特征空间,并根据每个异构模体类型分别提取相应实例;接着,利用实例级注意机制将同类型的所有异构模体实例聚合到相应的新闻节点中以捕获关键实例信息;然后,针对不同类型的异构模体实例,利用语义级注意力机制自适应地聚合不同的新闻语义嵌入;最后,将新闻的表示用于下游的假新闻检测任务,输出新闻的分类的预测结果,并持续优化到最优的模型;步骤如下:
步骤(1):数据预处理,将社交媒体的原始数据构建成新闻异构图;
1)从来自社交平台的原始数据中,抽取3种节点类型:用户U,新闻N,出版商P;和2种异构的二元关系:用户-转发-新闻U-N,出版商-发布-新闻P-N;
2)根据节点和关系,构建的新闻异构图
Figure FDA0003788831070000011
其中,
Figure FDA0003788831070000012
为节点集合,ε为边集合,
Figure FDA0003788831070000013
为节点类型集合,
Figure FDA0003788831070000014
为边/关系类型集合;节点v的初始属性为
Figure FDA0003788831070000015
Figure FDA0003788831070000016
为节点的类型,dA为该类型节点的属性的维度;
步骤(2):将所有类型的节点映射到相同的特征空间,并根据新闻数据提取出3个三阶异构模体:U-N-U,多个用户共同转发同一篇新闻,用户-新闻-用户;N-U-N,一个用户转发多篇新闻,新闻-用户-新闻;和N-P-N,一个出版商发布多篇新闻,新闻-出版商-新闻;分别提取相应的模体实例;
1)使用一层的MLP将不同类型的节点转换到相同的特征空间中:
Figure FDA0003788831070000017
其中,σ(·)代表非线性函数,使用ReLU(x)=max{0,x}作为该函数,
Figure FDA0003788831070000018
Figure FDA0003788831070000019
为可训练的权重矩阵和偏置向量,dh为特征空间的维度;
2)根据新闻异构图的二阶异构关系,提取出的三种类型的三阶异构模体,分别为U-N-U、用户-新闻-用户,N-U-N、新闻-用户-新闻和N-P-N、新闻-出版商-新闻;之后抽取模体实例,对于节点v,抽取类型为
Figure FDA0003788831070000021
的异构模体实例的集合为
Figure FDA0003788831070000022
即包含节点v并符合类型m定义的异构模体的集合;然后将抽取出来的异构模体实例中包含的节点特征进行拼接,对于
Figure FDA0003788831070000023
的第k个异构模体实例,得到该异构模体实例的嵌入
Figure FDA0003788831070000024
节点特征拼接的操作如下:
Figure FDA0003788831070000025
其中,(ins_1,ins_2,…,ins_n)为
Figure FDA0003788831070000026
第k个异构模体实例的节点ID,实例中节点类型可以不同,CONCAT()为拼接操作;
步骤(3):利用注意力机制将相同类型的所有异构模体实例聚合到相应新闻节点中,得到节点对于模体的语义表示;
1)应用一层MLP计算节点v相关的每个实例即同属于类型m的异构模体实例的注意力分数,然后对其进行归一化,计算过程如下:
Figure FDA0003788831070000027
Figure FDA0003788831070000028
其中,
Figure FDA0003788831070000029
为双曲正切函数,
Figure FDA00037888310700000210
为可训练的矩阵,
Figure FDA00037888310700000211
Figure FDA00037888310700000212
为可训练的向量,
Figure FDA00037888310700000213
为与节点v相关的类型m的异构模体实例数量;
2)将注意力分数视为权重,并对实例嵌入进行加权求和,并得到节点v关于类型m的异构模体实例的新闻表示,具体计算如下:
Figure FDA00037888310700000214
其中
Figure FDA00037888310700000215
为非线性激活函数,a=0.02,
Figure FDA00037888310700000216
为节点v的第k个异构模体实例的嵌入;
步骤(4):针对不同类型的异构模体,自适应地聚合不同的新闻语义嵌入;
1)通过注意力机制评估每种异构模体的贡献;语义级注意力计算过程如下:
Figure FDA0003788831070000031
Figure FDA0003788831070000032
Figure FDA0003788831070000033
其中,
Figure FDA0003788831070000034
为可训练的权重矩阵,
Figure FDA0003788831070000035
Figure FDA0003788831070000036
为可训练的权重向量,
Figure FDA0003788831070000037
为节点的数量,
Figure FDA0003788831070000038
可衡量类型m的异构模体实例在假新闻检测任务中的重要性;
2)利用注意力分数,自适应加权求和与节点v相关的所有语义表示:
Figure FDA0003788831070000039
其中
Figure FDA00037888310700000310
为异构模体实例类型的数量;
步骤(5):输出新闻的分类的预测结果,并持续优化到最优的模型;
1)对于假新闻检测,用一层MLP将其转换为下游任务表示,节点v的下游任务表示计算如下:
zv=σ(hvWz+bz)
其中,
Figure FDA00037888310700000311
为可训练的权重矩阵,
Figure FDA00037888310700000312
为可训练的偏置向量;
2)通过Softmax变换,从下游任务表示中获得预测的软标签,节点v的预测软标签计算如下:
Figure FDA00037888310700000313
3)通过交叉熵损失进行训练优化模型参数,直到假新闻检测模型收敛到最优;
Figure FDA0003788831070000041
其中,
Figure FDA0003788831070000042
为训练集中具有标签的数据索引集合,yv为节点v的真实标签,一共有C类;通过训练更新权重参数,从而达到模型的不断优化,在训练损失
Figure FDA0003788831070000043
收敛后,即得到最优算法模型。
CN202210949264.6A 2022-08-09 2022-08-09 一种基于模体的异构图神经网络假新闻检测算法 Pending CN115269853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210949264.6A CN115269853A (zh) 2022-08-09 2022-08-09 一种基于模体的异构图神经网络假新闻检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210949264.6A CN115269853A (zh) 2022-08-09 2022-08-09 一种基于模体的异构图神经网络假新闻检测算法

Publications (1)

Publication Number Publication Date
CN115269853A true CN115269853A (zh) 2022-11-01

Family

ID=83750076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210949264.6A Pending CN115269853A (zh) 2022-08-09 2022-08-09 一种基于模体的异构图神经网络假新闻检测算法

Country Status (1)

Country Link
CN (1) CN115269853A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117034905B (zh) * 2023-08-07 2024-05-14 重庆邮电大学 一种基于大数据的互联网假新闻识别方法

Similar Documents

Publication Publication Date Title
Tu et al. Cane: Context-aware network embedding for relation modeling
Ji et al. Cross-modality microblog sentiment prediction via bi-layer multimodal hypergraph learning
CN112989064B (zh) 一种聚合知识图神经网络和自适应注意力的推荐方法
Ranjan et al. LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features
CN113095439A (zh) 基于注意力机制的异构图嵌入学习方法
Cao et al. Online news recommender based on stacked auto-encoder
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
Yu et al. Data fusion oriented graph convolution network model for rumor detection
Qiu et al. An adaptive social spammer detection model with semi-supervised broad learning
Xiao et al. Link prediction based on feature representation and fusion
Wang et al. An enhanced multi-modal recommendation based on alternate training with knowledge graph representation
Suthar et al. A survey of web usage mining techniques
CN115269853A (zh) 一种基于模体的异构图神经网络假新闻检测算法
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
Wang et al. Decoupled representation learning for attributed networks
WO2024120186A1 (zh) 一种物联网入侵检测方法、装置、设备以及存储介质
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
Balafar et al. Active learning for constrained document clustering with uncertainty region
Liu et al. Semantic Association and Decision‐Making for the Internet of Things Based on Partial Differential Fuzzy Unsupervised Models
İş et al. A Profile Analysis of User Interaction in Social Media Using Deep Learning.
Ma et al. Friend closeness based user matching cross social networks
CN115374283A (zh) 一种基于双图注意力网络的方面类别情感分类方法
Zhou et al. Iterative deep subspace clustering
Xie et al. Research and application of intrusion detection method based on hierarchical features
Xie et al. L-BGNN: Layerwise trained bipartite graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination