CN115329210A - 一种基于交互图分层池化的虚假新闻检测方法 - Google Patents

一种基于交互图分层池化的虚假新闻检测方法 Download PDF

Info

Publication number
CN115329210A
CN115329210A CN202210909644.7A CN202210909644A CN115329210A CN 115329210 A CN115329210 A CN 115329210A CN 202210909644 A CN202210909644 A CN 202210909644A CN 115329210 A CN115329210 A CN 115329210A
Authority
CN
China
Prior art keywords
graph
news
comment
pooling
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210909644.7A
Other languages
English (en)
Inventor
李玉华
邓会才
李瑞轩
辜希武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210909644.7A priority Critical patent/CN115329210A/zh
Publication of CN115329210A publication Critical patent/CN115329210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于虚假新闻检测领域,具体涉及一种基于交互图分层池化的虚假新闻检测方法,包括:根据用户评论交互信息构建评论图和传播图,其中,将待检测新闻的各句子、待检测新闻的推文以及推文的各评论作为评论图的结点,将各结点的文本语义特征作为结点属性;将待检测新闻、待检测新闻的各原推文用户以及各原推文用户的各转发用户作为传播图的结点,将各用户的社交资料作为用户结点属性;使用基于结点选择的池化方式对评论图进行分层池化,每层池化均用于保留关键内容结点;使用基于结点聚类的池化方式对传播图进行分层池化,每层池化均用于捕捉传播群体特征;采用池化结果评估待检测新闻的真实性。本发明能够有效提高虚假新闻检测速率和准确性。

Description

一种基于交互图分层池化的虚假新闻检测方法
技术领域
本发明属于虚假新闻检测领域,更具体地,涉及一种基于交互图分层池化的虚假新闻检测方法。
背景技术
传统媒体,比如报刊、广播等,在信息传播上存在较大的滞后性,而社交媒体得益于互联网的快速发展,具有传播成本低、速度快、范围广、便捷等特点,逐渐取代传统媒体占据新闻传播的主导地位。社交媒体给新闻传播带来便捷的同时,也给虚假新闻的传播创造了机会。
虚假新闻检测又被称为谣言检测或者事实检测,旨在验证新闻的真实性。新闻源和信息传播过程中的产生的交互图具有较多的特征,比如新闻文本、评论、传播过程等,在这些特征方面,真实的新闻和虚假的新闻存在着较大的差异,为检测虚假新闻提供了很好的机会。现有的虚假新闻检测方法分为两类:基于新闻内容的检测、基于社交内容的检测。
基于新闻内容的检测方法通常只考虑新闻源文,包括新闻文本内容和视觉信息,忽略新闻在社交平台上传播的影响,试图仅从新闻源中提取特征用于检测其内容的真实性。在新闻文本方面,现有的虚假新闻检测方法又可以分为:基于知识的检测、基于文本风格的检测。社交平台上的交互功能十分丰富,用户除在社交平台上发布信息外,也可以在自己或他人发布的内容下产生诸如点赞、评论、转发等交互行为,这些组成了新闻的社交内容,为评估新闻的真实性提供了充分的依据。基于社交内容的虚假新闻检测以传播过程中的特点或影响为要点,分析虚假新闻潜在的特征,目前这类方法大体可以分为:基于社交文本的检测、基于传播结构的检测。
新闻社交内容的信息量远多于包括文本、图片在内的新闻本身,因此现有的虚假新闻检测模型中基于社交内容的占据多数,然而现有基于社交内容的模型存在较多缺陷,主要包括:
(1)在评论特征提取上,文本语义特征提取大多沿用了传统词向量和循环神经网络结合的方式,或者使用BERT模型。传统词向量和循环神经网络结合的语义提取方式,其文本双向语义是通过正序和逆序处理文本,然后加以拼接,双向语义停留在浅层拼接;而BERT的文本语义提取方式落后于现有的RoBERTa模型。
(2)由于评论本身存在回复结构,回复关系中蕴含了评论文本之间的内容关联性,是一种很重要的特征。现有的模型很少考虑结构信息,或仅使用树状循环神经网络处理,这种方式除语义特征提取落后外,需要自顶向下或自底向上遍历评论树,得到评论树的特征向量,所有评论信息都会被融合在内,然而真实的评论环境中,存在很多无意义的评论,比如广告、灌水评论等,这些与新闻无关联性,对于评估新闻真实性的作用不大,使用树状循环神经网络的处理方式无法排除这些冗余评论。
(3)在传播网络特征提取上,手工设计特征的方式需要对数据具有较为完备的认知,且局限性较大,而使用图卷积提取特征的方式,将整个传播网络统一处理,没有捕捉其中存在的多个群体特征。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于交互图分层池化的虚假新闻检测方法,其目的在于提高虚假新闻检测速率和准确性。
为实现上述目的,按照本发明的一个方面,提供了一种基于交互图分层池化的虚假新闻检测方法,包括:
根据用户评论交互信息构建评论图和传播图,其中,将待检测新闻的各句子、待检测新闻的推文以及所述推文的各评论作为评论图的结点,将各结点的文本语义特征作为结点属性;将待检测新闻、待检测新闻的各原推文用户以及各原推文用户的各转发用户作为传播图的结点,将各用户的社交资料作为用户结点属性;
学习所述评论图和所述传播图的结点潜在特征,并使用基于结点选择的池化方式对所述评论图进行分层池化,每层池化均用于保留关键内容结点,得到多层第一特征图;使用基于结点聚类的池化方式对所述传播图进行分层池化,每层池化均用于捕捉传播群体特征,得到多层第二特征图;
采用所述多层第一特征图和所述多层第二特征图,评估待检测新闻的真实性,完成虚假新闻检测。
进一步,所述采用所述多层第一特征图和所述多层第二特征图的方式为:
对每层第一特征图和每层第二特征图,均采用全局平均池化和全局最大池化结果拼接的方式,得到各特征图的特征向量;
对所有第一特征图的特征向量进行拼接,得到所述评论图的特征向量;对所有第二特征图的特征向量进行拼接,得到所述传播图的特征向量;
对所述评论图的特征向量和所述传播图的特征向量进行拼接,得到最终的特征数据,用于评估新闻真实性。
进一步,所述社交资料包括创作者与否信息、用户创建时间、名字长度、描述长度、收藏推文数、关注数、朋友数、推文数、状态数和认证与否信息。
进一步,所述文本语义特征采用预训练RoBERTa模型提取。
进一步,利用GCN或者GAT学习所述评论图和所述传播图的结点潜在特征。
进一步,在构建所述评论图中,将新闻各句子结点按新闻原文顺序依次连接,将推文及其评论结点按照回复关系连接,且当新闻句子与推文之间、推文与推文之间或评论层次大于L的评论与其推文之间的两个结点的语义相似度大于阈值时为这两个结点构建边,其中,L为正整数。
进一步,L取值为3。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种基于交互图分层池化的虚假新闻检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)由于评论本身存在回复结构,回复关系中蕴含了评论文本之间的内容关联性,是一种很重要的特征,本发明在虚假新闻检测中同时引入评论图和传播图。对评论图分层池化处理,有效提取图中关键特征信息,评估结点的重要性,去除冗余评论,保留评论图中的关键语义结点;对传播图分层池化处理,对用户结点聚类,捕捉传播用户群体潜在的群体特征信息;将不同池化层次的特征进行拼接,可以减少信息的丢失。因此,利用多个池化层次的图特征来检测新闻真实性,具有较高的检测速率和准确性。
(2)本发明在构建评论图时提出在构建边时还需要考虑内容关联关系。将深度语义提取与内容关联关系融合,有效提高模型语义表征能力:将新闻句子、推文、评论组织成为图结构数据,边为评论回复关系或语义相似关系,并使用预训练RoBERTa模型提取文本语义,在较好地提取文本特征的同时,尽可能保留了文本之间的内容关联关系。
附图说明
图1为本发明实施例提供的基于交互图分层池化的虚假新闻检测框架图;
图2为本发明实施例提供的评论图特征学习模块示意图;
图3为本发明实施例提供的评论图池化算子示意图;
图4为本发明实施例提供的传播图特征学习模块示意图;
图5为本发明实施例提供的分层池化示意图;
图6为本发明实施例提供的图读出与全连接层分类示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种基于交互图分层池化的虚假新闻检测方法,包括:
S1、根据用户评论交互信息构建评论图和传播图,其中,将待检测新闻的各句子、待检测新闻的推文以及所述推文的各评论作为评论图的结点,将各结点的文本语义特征作为结点属性;将待检测新闻、待检测新闻的各原推文用户以及各原推文用户的各转发用户作为传播图的结点,将各用户的社交资料作为用户结点属性;
S2、学习评论图和传播图的结点潜在特征,并使用基于结点选择的池化方式对评论图进行分层池化,每层池化均用于保留关键内容结点,得到多层第一特征图;使用基于结点聚类的池化方式对传播图进行分层池化,每层池化均用于捕捉传播群体特征,得到多层第二特征图;
S3、采用多层第一特征图和多层第二特征图,评估待检测新闻的真实性,完成虚假新闻检测。
本实施例利用用户交互构建得到评论图和传播图,两个图的结点属性分别为评论和用户社交资料;学习图结点潜在特征之后,对于评论图,使用基于结点选择的方式对评论图进行分层池化,以保留关键内容结点;对于传播图,使用基于结点聚类的方式对传播图进行分层池化,以捕捉传播群体特征。结合两种图特征评估新闻真实性。
关于评论图。本实施例的评论图是以评论为主要组成部分,结合新闻源以及与评论相关的推文,并根据评论回复的关系以及文本内容相似性组织成为图结构数据,每个新闻句子视为评论图中的一个结点,并按照句子在新闻中的顺序用无向边依次连接,推文和评论视为评论图中单个结点,边为回复关系,结点文本语义特征可使用预训练RoBERTa提取。图中包含了新闻事件的主要内容以及用户群体的看法,通过边相连的结点之间内容关联性,可提取图中关键内容用于评估新闻真实性。
也就是,利用用户评论交互信息,构造了评论图,图中结点主要分为三类,新闻句子、评论、评论相关的推文。由于新闻内容较长,将新闻分句,每个句子视为评论图中的一个结点,评论和推文内容较短,直接视为评论图中的结点。对评论图结点文本进行数据清洗,去除干扰语义特征提取的内容。使用预训练RoBERTa模型提取评论图中结点的文本语义,并作为评论图结点的属性,并根据结点语义相似度,添加新的边,以增加评论图连通性,最终得到一个连通图Gc=<Vc,Ec,Xc>,其中vc,i∈Vc是评论图中的第i个结点,为新闻句子、推文或评论;ec,ij∈Ec是评论图中的连接结点i、j的无向边;
Figure BDA0003773581260000061
xi∈X为第i个结点的文本特征向量。
为了更好的说明评论图的构建,现具体说明如下:
对新闻内容、评论以及推文进行数据清洗,去除无关紧要或者干扰的字段,如url、特殊字符、多余的符号等。清洗规则为:
表1数据清洗规则
Figure BDA0003773581260000071
对于给定的新闻原文S,先对其进行分句处理,得到S=[s1,s1,...,sls],其中ls表示新闻中句子数目,si=[wi,1,wi,2,...,wi,li]表示新闻原文第i个句子,其中wij是第i个句子中第j个单词,li表示第i个句子的长度。将每个新闻句子视为评论图中的一个结点,并用预训练RoBERTa提取语义。按照句子在新闻中的顺序用无向边依次连接,作为评论图中新闻内容的子图结构 Gs=<Vs,Es,Xs>,其中Vs表示新闻句子集合,Es表示句子边集合,Xs表示句子语义特征矩阵。
将推文和评论视为评论图中单个结点,结点之间的连接边则按照评论文件中保存的回复关系进行添加,得到评论图中评论回复的子图集合 Gr={gr1,gr2,...,grn},其中gr,i=<Vr,i,Er,i,Xr,i>表示第i个子图,Vr,i,Er,i, Xr,i为对应的结点集合、边集合以及推文及其评论文本的特征构成的特征矩阵,特别地,vr,i0∈Vr,i表示子图gr,i中的推文,而vr,ij∈Vr,i,(j>0)则为推文vr,i0产生的相关评论。
前述的评论图结构被划分为若干个独立的子图,网络结构较为稀疏,各个子图之间关联度低。在同一新闻事件中,推文与新闻文章在内容上有极大的关联性,此外,各推文之间的内容也存在共通性,当推文存在多级评论时,各级评论与推文之间内容上也存在关联性。
基于新闻句子、推文、评论之间存在内容关联特性,利用结点之间文本语义相似度来构造新的边,可提高网络的连通性,以便于网络特征汇集。在结点语义相似度计算方面,采用余弦值进行评估,
Figure BDA0003773581260000081
Figure BDA0003773581260000082
其中x1、x2为评论图结点的文本语义特征向量。
对语义相似度大于阈值Φ=0.5的两个结点添加新的边,这些边分为以下三类:(1)新闻句子与推文之间;(2)推文与推文之间;(3)评论层次大于L的评论与其推文之间。L的取值根据评论本身与推文相关的程度确定,可定为3层。
按照上述规则处理后,评论图最终转化为一个连通图Gc=<Vc,Ec,Xc>,其中vc,i∈Vc是评论图中的第i个结点,为新闻句子、推文或评论;ec,ij∈Ec是评论图中的连接结点i、j的无向边;
Figure BDA0003773581260000083
xi∈X为第i个结点的文本特征向量。
关于传播图。本实施例的传播图是以原推结点、转发结点为主要组成部分,结合新闻源构建得到传播图,利用用户在社交平台上的资料,作为传播图中结点属性,进而保留整个传播图的用户群体特征,作为评估新闻真实性的依据。
也就是,利用用户的传播交互时间线信息,并根据用户的朋友圈关系,重建传播网络结构,得到传播图,图中结点分为三类,新闻源、原推结点、转发结点,并用用户的社交资料作为这些结点的属性,新闻原文结点的属性为所有用户结点属性的平均值,最终得到连通图得到一个连通的传播图 Gp=<Vp,Ep,Xp>,其中vp,i∈Vp是图中第i个参与传播的用户结点, ep,ij∈Ep代表结点i、j之间存在传播关系,xp,i∈Xp代表第i个传播用户的特征向量。
为了更好的说明传播图的构建,现具体说明如下:
根据推文历史转发记录以及朋友圈关系构建传播图,利用用户在社交平台上的资料,作为传播图中结点属性。将用户特征向量各维度进行标准化处理:
Figure BDA0003773581260000091
其中xi表示向量某一维度的值,xi,min与xi,min为该维度的最大值和最小值。用户特征表如下:
表2传播图结点用户特征表
Figure BDA0003773581260000092
爬下来的用户资料只有这些可以利用,而且属性越多,用户特征越全面,因此表中所有属性都要用到,后面直接让神经网络自己去提取关键属性。
在构建得到评论图和传播图基础上,实施例方法进入图特征学习阶段。具体的:
评论图的图特征学习包括评论图特征学习和传播图特征学习两个步骤,如图2所示。先利用图神经网络学习图中结点潜在特征表示。优选地,图神经网络可选则GCN或者GAT,若使用GCN,数学描述为:
Figure BDA0003773581260000093
Figure BDA0003773581260000094
其中H(l)为第l层GCN网络的输入,W为神经网络待学习的权重参数,
Figure BDA0003773581260000095
若使用GAT,数学描述为:
Figure BDA0003773581260000096
其中δ表示激活函数,x′i为第i个结点的注意力结果。
评论图池化算子如图3所示,首先计算结点的重要性,包括结构重要评分S1、属性重要评分S2,最后对二者加权作为最终的结点评分Sfinal
S1表示结点拓扑结构重要性评分,旨在根据评论图的结构信息,计算各评论图结点的重要性评分,对应于图3中的GCN部分。对于新闻评论图 Gc,图结构信息是重要组成部分,蕴含了结点之间的回复关系或文本内容相似性。由于GCN在学习图结点表示时,将结构信息考虑在内,因此评论图池化算子使用GCN来学习结点的结构重要性,其数学描述为
Figure BDA0003773581260000101
Figure BDA0003773581260000102
其中
Figure BDA0003773581260000103
Xc分别为池化输入评论图的邻接矩阵和单位矩阵和、结点度矩阵和单位矩阵和、结点特征矩阵,σ为激活函数。其中α为超参数,代表结点结构和属性评分的权重比例,值越小,最终评分越依赖于属性评分,反之依赖于结构评分。
S2表示结点属性重要性评分。评论图结点除在网络中的拓扑信息外,还包含自身的语义特征,在评论图中,这个特征表示新闻句子、推文和评论潜在的立场信息,是代表该结点最直接且最重要的特征。结点属性重要性评分直接利用评论图结点本身的语义信息,学习得到结点属性的重要性评分。具体地,使用全连接神经网络来计算结点文本语义的重要性,数学表达式为S2=σ(MLP(Xc))。其中Xc为池化输入评论图的特征矩阵。
经过前面两个步骤,得到了结点在图结构,以及结点自身语义方面的重要性评分,通过对两种评分加权求和,得到评论图结点最终的重要性评分Sfinal,这部分对应于图3中的SFTL部分,数学描述为Sfinal=αS1+(1- α)S2
在计算得到各评论图结点的重要性评分后,根据排名保留TopK个结点作为池化后的结点集合,即TopK个关键内容结点,然后使用GAT模块进行池化结点特征学习。由于GAT在学习结点潜在特征时,考虑了直接邻居结点的特征,因此使用这种特征学习方式,可以提高未被选择结点的利用率,减少因TopK限制丢弃其余结点造成图特征丢失的问题。TopK个关键结点选择完毕并学习结点特征后,接下来根据保留结点得到池化图的边。对于原图中的边eij∈Ec,若结点i与j均为池化后保留的结点,那么该边在池化后保留,否则去除。
关于评论图的池化,总体而言,使用基于结点选择的池化方式,评估各结点的重要程度,选择TopK个关键结点作为池化后的结果。评论图池化拓扑学习的作用是利用评论图的拓扑信息,为每个结点计算得到一个重要性评分,该拓扑学习又分为三部分:
(1)基于结构的拓扑学习:根据结构计算结点重要性,数学描述为
Figure BDA0003773581260000111
其中S1表示结点拓扑结构重要性评分,
Figure BDA0003773581260000112
Xc分别为池化输入评论图的邻接矩阵和单位矩阵和、结点度矩阵和单位矩阵和、结点特征矩阵,σ为激活函数。
(2)基于属性的拓扑学习:根据结点自身数学计算结点重要性,数学描述为S2=σ(MLP(Xc)),其中Xc为池化输入评论图的特征矩阵,MLP为全连接层。
(3)基于结构-属性的拓扑学习:综合结点结构和数学重要性,数学描述为Sfinal=αS1+(1-α)S2,其中α为超参数,代表结点结构和属性评分的权重比例,值越小,最终评分越依赖于属性评分,反之依赖于结构评分。
传播图的图特征学习方式如图4所示,也分为图结点潜在特征学习和图池化两个子步骤。将传播图中每个传播结点vp,i视为局部簇的中心结点,并记该局部簇为ch(vp,i),相应地将结点vp,i的h跳范围内的结点记为
Figure BDA0003773581260000113
并视为该簇中的成员结点,即
Figure BDA0003773581260000114
并记
Figure BDA0003773581260000115
为以结点vp,i为中心的簇ch(vp,i)的特征表示。记传播图结点簇分配矩阵为
Figure BDA0003773581260000116
其中Sp,ij表示结点vp,i与簇ch(vp,j)与之间的成员强度,Sp,ij的值域范围为 [0,1],其值越大,代表结点属于簇的可能性越大。簇的特征由簇中结点特征和成员强度决定,结点成员强度越大,其越能代表簇,可以将簇中结点的特征依据其成员强度加权求和,视为簇特征。
在学习元素之间权重的过程中,自注意力机制是一种常用的方法,但这种机制是用于评估元素之间的关联性,没有有效利用簇的信息。为了更好地表示簇特征,池化算子对自注意力机制进行了修改,具体地,引入了主查询
Figure BDA0003773581260000121
用于表示同一簇中的所有结点,其数学描述为: mi=fm(x′p,j|{vp,j∈ch(vp,i)}),其中x′p,j表示池化前GNN模块学习得到的第j个传播结点的潜在特征,该特征中包含了结点自身属性以及在簇中的结构信息。fm是主函数,用于转换以及合并结点vp,j∈ch(vp,i)的特征,并生成主查询mi。fm使用了max主函数
Figure BDA0003773581260000122
由此可知,mi利用了簇中所有结点的信息,具有代表簇的意义。利用主查询mi中附加的簇信息来处理簇中所有结点,并以此计算各结点在簇中的成员强度:
Figure BDA0003773581260000123
其中||代表拼接操作,
Figure BDA0003773581260000124
与W为待学习的权重参数,αi,j即为各结点的注意力分数,同时也代表各结点与簇之间的成员强度,即Sp,ij=αi,j。利用注意力分数,可以将簇特征表示为:
Figure BDA0003773581260000125
对于一个给定的簇,簇特征是评估其合理性的重要依据之一;此外,一个簇与邻居簇的差异越大,那么该簇的群体特征越明显,因此可结合二者用于评估簇的合理性。具体地,计算簇的合理性分数:
Figure BDA0003773581260000126
其中
Figure BDA0003773581260000127
代表第i个传播结点的邻居结点,W1、W2以及W3为待学习的权重参数,σ表示激活函数,
Figure BDA0003773581260000128
为簇结点邻接矩阵,等于池化前图结点邻接矩阵,值为边的权重,初始默认所有边的权重为1。将所有簇的合理性分数组合可得到向量
Figure BDA0003773581260000129
其中|Vp|为传播图的结点数,也代表簇的数目。将Φ与簇特征矩阵相乘,可以得到簇在考虑合理性情况下的新特征矩阵
Figure BDA0003773581260000131
Figure BDA0003773581260000132
其中⊙表示广播机制下的哈达玛积,即先将列向量Φ的每一行按行首数值扩展为N维,得到N×N的合理性矩阵,再与
Figure BDA0003773581260000133
执行矩阵的哈达玛积。
根据簇的合理性分数,利用TopK机制,保留分数最大的前
Figure BDA0003773581260000134
个簇,其中N为传播图的结点数,也代表簇的数目,k为池化率,其值范围为[0,1],簇索引集合
Figure BDA0003773581260000135
可以表示为:
Figure BDA0003773581260000136
传播图Gp池化后的图G′p由保留的前
Figure BDA0003773581260000137
个簇组成,原图Gp中结点与G′p中簇之间的分配矩阵
Figure BDA0003773581260000138
以及 G′p簇结点特征矩阵
Figure BDA0003773581260000139
可以表示为:
Figure BDA00037735812600001310
Figure BDA00037735812600001311
其中
Figure BDA00037735812600001312
表示取编号属于集合
Figure BDA00037735812600001313
的列向量,
Figure BDA00037735812600001314
表示取编号属于集合
Figure BDA00037735812600001320
的行向量。
簇特征学习阶段,完成了结点聚类、簇特征学习以及关键簇保留,而图池化是将原图转化为一个规模较小的特征聚集的子图,因此还需要构造簇结点的邻接矩阵
Figure BDA00037735812600001315
其中
Figure BDA00037735812600001316
由此可以得知簇i,j之间的边
Figure BDA00037735812600001317
即,若簇i和簇j在原图中存在公共结点,那么簇i和簇j在池化后是邻居结点,簇之间的连接权重由内部组成结点通过分配矩阵
Figure BDA00037735812600001318
与边权重
Figure BDA00037735812600001319
决定。
关于传播图的池化,总体而言,采用基于结点聚类的池化方式,依据用户潜在特征,对用户进行聚类处理,划分为多个群体,并根据群体的特征检测新闻的真实性。在传播图中,具有边连接关系的邻居结点,其属于同一个社交群体的概率要远大其他结点,因此,在结点聚类时,可以根据结点的邻居信息进行划分,此外,一个用户结点可能属于多个群体,因此对结点进行软划分。其过程包括:
(1)簇特征学习与筛选:利用局部聚类的思想,首先为每个局部簇计算得到包含簇信息的主查询mi=fm(x′p,j|{vp,j∈ch(vp,i)}),该主查询包含了簇的信息。借助主查询计算簇中各结点的重要性分数,该重要性分数也代表结点属于簇的成员强度,然后计算各簇的合理性分数,计算规则为
Figure BDA0003773581260000141
其中
Figure BDA0003773581260000142
代表第i个传播结点的邻居结点,W1、W2以及W3为待学习的权重参数,σ表示激活函数,
Figure BDA0003773581260000143
为簇结点邻接矩阵,等于池化前图结点邻接矩阵,值为边的权重,初始默认所有边的权重为1。
(2)簇结点连通:借助结点簇分配矩阵
Figure BDA0003773581260000144
以及原图的簇连接矩阵
Figure BDA0003773581260000145
Figure BDA0003773581260000146
等于原图的结点邻接矩阵Ap,簇结点边构造的数学描述为:
Figure BDA0003773581260000147
其中
Figure BDA0003773581260000148
在图特征学习之后,进入图读出与全连接分类阶段,具体的:
如图5所示,对于给定的图G,潜在特征学习和池化操作共可执行三次,分别得到浅层、中层以及深层的图特征。特别地,对于评论图Gc,其中Graph Pooling为基于结点选择的池化,对于传播图Gp,Graph Pooling为基于结点聚类的池化。
由于池化后的特征图仍然是图结构数据,不能直接输入到全连接层做分类任务,因此需要利用图读出机制,该机制是一种图数据表示方式,可以将图转化为特征向量,具体地,采用全局平均池化和全局最大池化结果拼接的方式:
Figure BDA0003773581260000149
图读出和全连接层分类模块如图6所示,评论图和传播图在分别读出,以及拼接各池化层特征后的特征向量分别记为
Figure BDA00037735812600001410
其中Nc与Np分别为图特征学习阶段评论图和传播图结点隐藏层维度,数值6包含了3个池化层次以及两种图读出方式,为避免分类器受两拼接向量维度差异过大的影响,先对特征向量Xc与Xp进行线性映射,压缩得到
Figure BDA0003773581260000151
Figure BDA0003773581260000152
其中Ncp为压缩后的特征向量维度。
在分类器中,第一层全连接的隐藏层结点数等于2Ncp,第二层隐藏层结点数为Ncp,最后一层结点的数目为2,与虚假新闻二分类任务相对应。损失函数方面,使用负对数损失函数:
Figure BDA0003773581260000153
其中yn为新闻的真实标签,0代表假新闻,1代表真实新闻,p代表模型预测新闻标签为yn的概率。
也就是,评论图和传播图各池化三次,得到浅层、中层、深层的池化图,之后利用图读出获取三种池化层次的图特征,读出方式采用全局平均池化和全局最大池化拼接
Figure BDA0003773581260000154
其中是xi第图中第i个结点的特征向量。将三种池化特征拼接得到两个图各自的综合特征,之后再将这两个综合特征拼接送入全连接层分类。
需要说明的是,经本申请分析,现有虚假新闻检测中,未同时考虑评论结构保存与冗余评论去除。而由于评论本身存在回复结构,回复关系中蕴含了评论文本之间的内容关联性,是一种很重要的特征。现有的模型很少考虑结构信息,或仅使用树状循环神经网络处理,这种方式除语义特征提取落后外,需要自顶向下或自底向上遍历评论树,得到评论树的特征向量,所有评论信息都会被融合在内,然而真实的评论环境中,存在很多无意义的评论,比如广告、灌水评论等,这些与新闻无关联性,对于评估新闻真实性的作用不大,使用树状循环神经网络的处理方式无法排除这些冗余评论。另外,在传播网络特征提取上,手工设计特征的方式需要对数据具有较为完备的认知,且局限性较大,而使用图卷积提取特征的方式,将整个传播网络统一处理,没有捕捉其中存在的多个群体特征。本申请提出,在虚假新闻检测中同时引入评论图和传播图,在构建评论图时,利用新闻在社交平台的异构交互图,从中构建得到以评论为主的评论图,其中结点代表新闻、评论、推文等文本内容,边代表评论回复或内容相似关系。另外,虚假新闻检测利用图神经网络学习评论和传播图结点潜在特征,并使用基于结点选择的方式对评论图进行池化,以保留评论图中的关键语义结点,以及使用基于结点聚类的方式对传播图进行池化,以捕捉传播群体特征,并利用多个池化层次的图特征检测新闻真实性。使用基于结点选择的池化方法,首先结根据结点的属性特征以及结构信息,为每个结点计算得到一个重要性评分,并保留前K个重要结点作为池化后的结点集合,并根据原图结构信息生成池化后图的边,以保持结果图的连通性,由此对评论图进行池化可以保留评论图中的关键语义结点、去除冗余评论结点。研究表明虚假新闻容易在特定的社交圈内传播,形成回声室效应。在传播图中,具有边连接关系的邻居结点,其属于同一个社交群体的概率要远大其他结点,因此,在结点聚类时,可以根据结点的邻居信息进行划分;此外,一个用户结点可能属于多个群体,因此对结点进行软划分比硬化分更加合理。本发明对于传播图处理引入池化算子,其采用了局部聚类的思想,对图中结点进行软化分,能够分层捕获局部子图信息,以在池化图中学习具有更好边连接性的全局特征。由此对传播图进行池化可以捕获传播图中的群体信息。进一步,由于池化在汇集特征的同时,避免不了信息丢失问题,将不同池化层次的特征进行拼接,可以减少信息的丢失,因此本发明方法利用多个池化层次的图特征拼接来检测新闻真实性。
综上,本发明结合图卷积和图池化技术,从新闻社交平台上评论和传播特点出发,以更加有效地检测新闻真实性。包括:设计一种虚假新闻检测框架,定义模型结构、输入输出数据的形式,以得到新闻内容真实性评估;利用新闻的社交异构互动图构建得到同构的评论图和传播图,并将评论和用户社交资料分别作为评论图和传播图的结点属性,使用预训练 RoBERTa模型提取评论语义;利用图卷积或图池化学习图节点潜在特征;对于评论图,采取基于节点选择的池化策略,保留关键评论;对于传播图,使用基于节点聚类的池化策略,捕捉传播群体特征;结合分层池化的方式,进行图特征读出与融合,作为新闻真实性评估的依据。
实施例二
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如实施例一所述的一种基于交互图分层池化的虚假新闻检测方法。
相关技术方案同实施例一,在此不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于交互图分层池化的虚假新闻检测方法,其特征在于,包括:
根据用户评论交互信息构建评论图和传播图,其中,将待检测新闻的各句子、待检测新闻的推文以及所述推文的各评论作为评论图的结点,将各结点的文本语义特征作为结点属性;将待检测新闻、待检测新闻的各原推文用户以及各原推文用户的各转发用户作为传播图的结点,将各用户的社交资料作为用户结点属性;
学习所述评论图和所述传播图的结点潜在特征,并使用基于结点选择的池化方式对所述评论图进行分层池化,每层池化均用于保留关键内容结点,得到多层第一特征图;使用基于结点聚类的池化方式对所述传播图进行分层池化,每层池化均用于捕捉传播群体特征,得到多层第二特征图;
采用所述多层第一特征图和所述多层第二特征图,评估待检测新闻的真实性,完成虚假新闻检测。
2.根据权利要求1所述的虚假新闻检测方法,其特征在于,所述采用所述多层第一特征图和所述多层第二特征图的方式为:
对每层第一特征图和每层第二特征图,均采用全局平均池化和全局最大池化结果拼接的方式,得到各特征图的特征向量;
对所有第一特征图的特征向量进行拼接,得到所述评论图的特征向量;对所有第二特征图的特征向量进行拼接,得到所述传播图的特征向量;
对所述评论图的特征向量和所述传播图的特征向量进行拼接,得到最终的特征数据,用于评估新闻真实性。
3.根据权利要求1所述的虚假新闻检测方法,其特征在于,所述社交资料包括创作者与否信息、用户创建时间、名字长度、描述长度、收藏推文数、关注数、朋友数、推文数、状态数和认证与否信息。
4.根据权利要求1所述的虚假新闻检测方法,其特征在于,所述文本语义特征采用预训练RoBERTa模型提取。
5.根据权利要求1所述的虚假新闻检测方法,其特征在于,利用GCN或者GAT学习所述评论图和所述传播图的结点潜在特征。
6.根据权利要求1至5任一项所述的虚假新闻检测方法,其特征在于,在构建所述评论图中,将新闻各句子结点按新闻原文顺序依次连接,将推文及其评论结点按照回复关系连接,且当新闻句子与推文之间、推文与推文之间或评论层次大于3的评论与其推文之间的两个结点的语义相似度大于阈值时为这两个结点构建边,其中,L为正整数。
7.根据权利要求6所述的虚假新闻检测方法,其特征在于,L取值为3。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的一种基于交互图分层池化的虚假新闻检测方法。
CN202210909644.7A 2022-07-29 2022-07-29 一种基于交互图分层池化的虚假新闻检测方法 Pending CN115329210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210909644.7A CN115329210A (zh) 2022-07-29 2022-07-29 一种基于交互图分层池化的虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210909644.7A CN115329210A (zh) 2022-07-29 2022-07-29 一种基于交互图分层池化的虚假新闻检测方法

Publications (1)

Publication Number Publication Date
CN115329210A true CN115329210A (zh) 2022-11-11

Family

ID=83919613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210909644.7A Pending CN115329210A (zh) 2022-07-29 2022-07-29 一种基于交互图分层池化的虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN115329210A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304028A (zh) * 2023-02-20 2023-06-23 重庆大学 基于社会情感共鸣与关系图卷积网络的虚假新闻检测方法
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304028A (zh) * 2023-02-20 2023-06-23 重庆大学 基于社会情感共鸣与关系图卷积网络的虚假新闻检测方法
CN116304028B (zh) * 2023-02-20 2023-10-03 重庆大学 基于社会情感共鸣与关系图卷积网络的虚假新闻检测方法
CN117034905A (zh) * 2023-08-07 2023-11-10 重庆邮电大学 一种基于大数据的互联网假新闻识别方法
CN117034905B (zh) * 2023-08-07 2024-05-14 重庆邮电大学 一种基于大数据的互联网假新闻识别方法

Similar Documents

Publication Publication Date Title
Kaliyar et al. EchoFakeD: improving fake news detection in social media with an efficient deep neural network
Yang et al. A sentiment-enhanced personalized location recommendation system
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
US20100205176A1 (en) Discovering City Landmarks from Online Journals
CN115329210A (zh) 一种基于交互图分层池化的虚假新闻检测方法
CN112650848A (zh) 基于文本语义相关乘客评价的城铁舆情信息分析方法
Breitfuss et al. Representing emotions with knowledge graphs for movie recommendations
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
Liu et al. Behavior2vector: Embedding users’ personalized travel behavior to Vector
CN111666496A (zh) 一种基于评论文本的组推荐方法
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
Sheeba et al. A fuzzy logic based on sentiment classification
Jang et al. Exploring technology opportunities based on user needs: application of opinion mining and SAO analysis
Li et al. Variational graph autoencoder with adversarial mutual information learning for network representation learning
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN109344319B (zh) 一种基于集成学习的线上内容热度预测方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN109254993B (zh) 一种基于文本的性格数据分析方法及系统
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Loor et al. Handling subjective information through augmented (fuzzy) computation
CN113987126A (zh) 基于知识图谱的检索方法及装置
Westerholt et al. Introduction to the second international symposium of platial information science
CN111428144A (zh) 基于dcn与lda结合的推荐方法、装置和计算机设备
Kapanova et al. Timeline Event Analysis of Social Network Communications Activity: The Case of Ján Kuciak

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination