CN113254652B - 一种基于超图注意力网络的社交媒体贴文真实性检测方法 - Google Patents

一种基于超图注意力网络的社交媒体贴文真实性检测方法 Download PDF

Info

Publication number
CN113254652B
CN113254652B CN202110746155.XA CN202110746155A CN113254652B CN 113254652 B CN113254652 B CN 113254652B CN 202110746155 A CN202110746155 A CN 202110746155A CN 113254652 B CN113254652 B CN 113254652B
Authority
CN
China
Prior art keywords
post
hypergraph
social media
branch
attention network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110746155.XA
Other languages
English (en)
Other versions
CN113254652A (zh
Inventor
李芳芳
宁肯
张盼曦
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110746155.XA priority Critical patent/CN113254652B/zh
Publication of CN113254652A publication Critical patent/CN113254652A/zh
Application granted granted Critical
Publication of CN113254652B publication Critical patent/CN113254652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及贴文检测的技术领域,公开了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支作为超边,超边与图节点组成的集合,共同构成超图,将超图结构的特征输入图注意力网络学习,从而构建超图注意力网络模型;S6:将S5中超图注意力网络模型用于预测源帖的真实性。本发明构建超图注意力模型,提高模型表达能力。

Description

一种基于超图注意力网络的社交媒体贴文真实性检测方法
技术领域
本发明涉及贴文检测的技术领域,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。
背景技术
随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。
贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。
但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的陈述或诠释。如何依据贴文文本内容及其传播途径来对贴文进行准确检测已经引起了研究者们的广泛关注。
虽然现有研究在贴文检测任务上取得了一些成绩,但当前贴文检测任务还存在以下的几个问题:
(1)现有方法较少地考虑了贴文特殊的会话结构以及贴文扩散式的传播方式。存在对贴文的传播结构建模不充分的问题。
(2)带有标签的贴文数据中存在数据不平衡的问题。
发明内容
本发明的目的是提供一种基于超图注意力网络的社交媒体贴文真实性检测方法,本发明构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT),用于从贴文传播和散布中获取结构特征以检测贴文,从而提高模型的表达能力。
为达到上述目的而采用了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Label rumor ,则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor ;真实性标签Label rumor 分为“真”、“假”、“未认定”这三个类别:
Figure DEST_PATH_IMAGE001
(1)。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\ t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S3中:
采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“[CLS] 帖子 [SEP]”的形式,随后,使用“[CLS]”位的向量表示作为帖子的向量表示。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,预训练模型BERT采用“bert-base-uncased”基本模型,输入的序列最大长度为512,如果帖子的长度少于512,则使用填充符填充;如果帖子的长度超过512,则将超过的部分截断。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S5中:
超图注意力网络模型中使用隐含狄利克雷分布模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个帖子,形式上,使用G=(A,X)表示整个超图,其中图中节点表示帖子,边表示branch,A是邻接矩阵,X是节点属性矩阵,X表示v个节点的属性,表示为X=[x1,x2,...,xv],将S4中拼接后的向量作为节点属性;A∈Rv×n,n表示会话中branch数量,R表示值域,用于表示节点之间的共现关系,矩阵元素定义为:
Figure DEST_PATH_IMAGE002
(2)
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch;
超图中图节点和超边的更新方式如下:
假设f=f 1,f 2,...,f n}是超边的原始表示,f'=f' 1,f' 2,...,f' n}是图注意力网络模型转换后的表示形式,给定节点v i ,连接的超边集合表示为ε i ,超边f j ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
Figure DEST_PATH_IMAGE003
(3)
其中,W f 为可训练的权重矩阵,hk为之前训练好的节点表示,σ为非线性激活函数。
其中α jk 表示节点v k 对超边e j 的重要性,α jk 的计算类似于GAT:
Figure DEST_PATH_IMAGE004
(4)
u jk =LeakyReLUb f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数。
在更新所有超边之后,依次使用超边来更新节点表示,对于超边e j ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义。h' i 为更新后的节点表示:
Figure DEST_PATH_IMAGE005
(6)
其中,β ij 表示超边e j 对节点v i 的重要性,β ij 的计算类似于GAT:
Figure DEST_PATH_IMAGE006
(7)
u ij =LeakyReLUb h T [W f f'||W h h i ]) (8)
其中,b h T 为节点h的注意力权重向量参数,W h 为权重矩阵,h i 是节点v i 的输出表示。更新贴文会话结构中的超边和图节点后,即用超图的形式模拟贴文会话的传播结构。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S6中:
超图注意力网络模型中构建了一个两层的网络进行分类,其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类;
在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为outputR n×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
类似地,已验证的类别被分类为真或假;
分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失,α是loss rumor 的权重参数,其中α>1,损失Loss代表loss verify loss rumor 的合并损失。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,所述帖子为推特上的推文或博客上的博文或贴吧上的贴文。
(1)在贴文检测任务中,本发明基于贴文的传播结构,构建了一个会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。
(2)普通图仅能表示相邻两个节点,即tweet,帖子之间的交互关系,本发明的超图模型通过使用超边(能够连接多个节点的边),表示多个节点的组合关系。
(3)本发明将BERT语言模型学习到的tweet级文本嵌入与提取到的手工特征相结合,作为超图中的节点。
(4)本发明使用图注意力机制模型,给予重要的tweet更多的关注。
(5)本发明对数据进行分层分类,使用分层预测来缓解数据分布不平衡的问题。
(6)本发明在来自 Twitter和Reddit的公开数据集上评估了本发明提出的方法。结果证明所提出的方法能够有效提高贴文检测的准确率。
附图说明
图1为基于超图注意力网络的贴文检测方法示意图。
图2为基于会话-分支-tweet的超图注意力网络(CBT-HGAT)模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
问题陈述:
贴文数据在诸如Twitter,Reddit,微博等社交媒体平台的公布形式都大同小异。以Twitter为例,贴文数据可分为会话,分支,tweet的层次结构。一个贴文会话通常是由一条源tweet开始,引出某个话题或是陈述某个事件的发生,然后由其他用户对其进行评论以展开讨论,形成多条链式回复。
根据上述数据格式,本发明将贴文数据进行公式化表示。将源tweet用s表示,则一个源tweet可以引出多条回复分支,回复分支由branch表示。总体而言,一条源tweet和多个回复分支 [branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量。其中,回复分支是自上而下的链式传播结构,回复分支中的回复用r表示。每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量。
贴文检测任务的目的是确定会话中的源帖子s所描述的内容的真实性,源帖s对应多个回复帖{r 1,r 2,...,r m }。将贴文检测任务看作一个有监督的分类问题,从有标记的数据中学习得到一个分类器,用于预测源帖子的真实性标签Label rumor 。则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor 。真实性标签Label rumor 可以分为“True(真)”、“False(假)”、“Unverified(未认定)”这三个类别。
Figure 320309DEST_PATH_IMAGE001
(1)
如图1所示,基于超图注意力网络的社交媒体贴文检测模型及主要步骤如下:
步骤1:对社交媒体贴文文本数据的数据预处理。
进行数据清洗和数据标准化的步骤。数据清洗包括去除代码标签和删除一些无关的干扰符号,例如换行符“\n”,制表符“\ t”。同时,删除与上下文无关的句柄符号(“@user”)。因为该(“@user”)符号的提示信息已经包含在回复分支的传播结构中。数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和Spacy库删除停用词并为上下文语料分词。
在数据清洗完成后,将原始语料组织成会话的形式。具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理tweet的组成结构,并按每个分支中的tweet ID对其进行排序。为了区分会话中的层级关系,将会话中的分支用“$branch$”分隔,分支中的tweet用“\t”分隔。通过这样的方式本节将语料组织为每行一个会话的形式,目的是在后续步骤中更轻松地将会话构建为图结构。
步骤2:对步骤1处理后的社交媒体贴文文本数据进行特征提取。
将提取的特征分为以下几类:
内容特征:内容特征是根据tweet的呈现形式,提取tweet中的以下特征:(1)是否包含符号特征:问号(
Figure DEST_PATH_IMAGE008
),感叹号(!),句号(
Figure DEST_PATH_IMAGE010
),#号标签(#),URL(“urlurlurl”)或图片(“picpicpic”)。(2)计算每条tweet中的字符数和单词数作为内容长度特征。(3)计算tweet中大写字母占字符数的比例。(4)计算以“wh”开头的单词数,例如“what”,“when”,“why”和“where”等。
情感特征:(1)计算tweet中包含的否定词数量,否定词包括“not”,“no”,“nobody”,“nothing”,“none”和“never”等。(2)计算tweet中表示可能性的标签数量,例如“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”等。
虚假信息特征:(1)tweet中的表示“fake(虚假)”的同义词数量,例如“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”和“fake”等。(2)tweet中的“fake(虚假)”的反义词数量,例如“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”等。(3)判断tweet中是否包含“rumor”,“gossip”,“hoax”之类的词。
相关特征:(1)当前tweet和源tweet之间的余弦相似度特征。(2)当前tweet和当前tweet的前一条tweet的序列之间的余弦相似度特征。
步骤3:对步骤1处理后的社交媒体贴文文本数据进行文本嵌入。
跟随当前最先进的语言模型的趋势,基于Hugging-Face团队的PyTorch的预训练模型BERT进行了微调,并用微调后的模型在tweet层级对每条tweet进行嵌入表示。主要使用BERT的遮盖语言模型(MLM)来掩盖tweet中15%的单词。通过预测这些被屏蔽的单词,获得每条tweet的向量表达。在模型训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条tweet。在tweet的开头放置“[CLS]”,在tweet的末尾放置“[SEP]”,具体的,将语料组织为“[CLS] tweet [SEP]”的形式。随后,使用“[CLS]”的向量表示作为tweet的向量表示。由于大多数tweet都属于短文本类型,因此使用“bert-base-uncased”基本模型,最大长度为512。如果tweet的长度少于512,则使用填充符填充;如果tweet的长度多于512,则将超过的部分截断。
步骤4:将步骤2和步骤3得到的向量拼接,作为超图结构的图节点。
步骤5:构建基于会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。
传统的GNN通常使用的图结构为G=(V,f),其中V={v1,v2,v3,...,vn}是一组节点,而f=f 1,f 2,...,f n}是一组连接节点的二元边,即每条边关联两个节点。传统的GNN仅关注节点之间的二元关系,但在现实世界中,字词或tweet之间的关系并不是二元的,一条回复tweet至少与它的前一条tweet及源tweet直接相关。tweet之间的交互关系可以是三元的,四元的或更加多元的。因此,CBT-HGAT构造超图的结构来适应tweet的多元关系。与传统的GNN模型相似,超图注意力网络有节点和边的结构。不同之处在于超图引入了超边的概念,超边可以连接多个节点构成超图。将贴文数据中的tweet作为节点,branch(分支)作为超边连接不同的tweet以形成超图,目的是捕获多个tweet之间的高级交互。CBT-HGAT通过超图中节点(tweet),超边(分支),图(会话)的结构,将贴文构造为会话-分支-tweet的层级结构。
在贴文的会话-分支-tweet传播结构中,将分支作为顺序超边,不仅有利于学习tweet之间的高级交互,而且还有助于捕获贴文传播结构的信息。此外,为了丰富每个tweet的上下文语义,CBT-HGAT模型中构建了语义超边来捕获tweet之间与主题相关的高阶相关性特征。具体来说,通过使用隐含狄利克雷分布(LDA)模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个tweet。
超图中图节点和超边的更新方式如下:
形式上,使用G=(A,X)表示整个超图,其中A是邻接矩阵;X是节点属性矩阵,用于表示每个节点的属性,表示为X=[x1,x2,...,xv]。每个节点的属性向量可以是d维的独热向量,也可以是预训练模型表示的tweet嵌入向量。在本发明中,使用了BERT预训练模型来表示tweet的文本向量,拼接tweet的特征向量作为节点属性。邻接矩阵A∈Rv×n(n表示会话中branch数量,R表示值域)用于表示节点之间的共现关系,其公式定义为:
Figure 706291DEST_PATH_IMAGE002
(2)
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch。
使用超边(branch)来学习节点(tweet)的高级表示,一条超边串联了多个tweet,通过超边来表达tweet之间的多元关系。下面介绍超图中节点和边的更新方式。假设f=f 1,f 2,...,f n}是超边的原始表示,f'=f' 1,f' 2,...,f' n}是图注意力网络(GAT)转换后的表示形式。给定节点v i ,连接的超边集合表示为ε i ,超边f j ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
Figure DEST_PATH_IMAGE011
(3)
其中α jk 表示节点v k 对超边e j 的重要性。α jk 的计算类似于GAT:
Figure DEST_PATH_IMAGE012
(4)
u jk =LeakyReLUb f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数;
在更新所有超边之后,依次使用超边来更新节点表示。对于超边e j ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义,h' i 为更新后的节点表示:
Figure 79503DEST_PATH_IMAGE005
(6)
其中,β ij 表示超边e j 对节点v i 的重要性。β ij 的计算类似于GAT:
Figure 5871DEST_PATH_IMAGE006
(7)
u ij =LeakyReLUb h T [W f f'||W h h i ]) (8)
通过以上的方式,更新贴文会话结构中的超边(branch)和节点(tweet),用超图的形式模拟贴文会话的传播结构。
步骤6: 在步骤5的基础上进行贴文的分层预测。
贴文检测任务是将文本分类为“真”、“假”或“未验证”这三个类别。由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明为了解决数据不平衡的问题,以及区分两个任务的重要性程度,构建了一个两层的网络进行分类。其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类。
在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为outputR n×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
类似地,已验证的类别被分类为真或假。分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失。α是loss rumor 的权重参数,其中(α>1)。损失Loss代表loss verify loss rumor 的合并损失。
图2中贴文会话样例:
A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at0939 UTC time urlurlurl Plane crashed near Digne South of France according tolocal police $branch$A320 flight 4U9525 registration DAIPX was lost from at6800 feet at 0939 UTC time urlurlurl A bit low for cruising altitude $branch$A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at 0939 UTCtime urlurlurl A320 van Germanwings neergestort in Franse Alpen Alpes desHautes Provence $branch$
本发明为了模拟贴文的发散性传播结构并更好地说明贴文数据中的会话、分支、tweet三者之间相互的复杂关系,本发明基于贴文数据的内部结构和文本内容构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT)。
优点:贴文检测模型只是基于贴文的分支结构(分支-tweet)进行建模,而没有对贴文的传播结构(会话-分支-tweet)进行建模,可能会造成贴文结构信息的丢失。一条tweet的观点不仅与它的前一条tweet相关,而是需要该条tweet与它前面n条tweet的组合才能表达该条tweet的观点。例如,考虑一个分支[s,r1,r2,r3,r4]。s表示源tweet,rn表示第n个tweet。回复tweet(帖子)r3可能不仅与r2直接相关,而且可能与s相关,因此需要使用s,r2,r3的组合来表达tweet(帖子)r3的观点。因此,普通的图模型仅用二元组表示两个tweet之间关系是不够的,并且无法反映分支内部的层次结构。而本发明构造的超图网络能够表示tweet之间的多重关系或高级关系。
本发明通过图注意力机制区分tweet的重要性程度。
优点:由于贴文数据结构中的每条tweet对判定该消息是否为贴文的重要性不同,不能将会话中的每条tweet一概而论,因此我们的超图注意力网络通过注意力机制,给予重要的tweet更多的关注。
本发明设置分层网络对贴文数据进行分层预测。
优点:由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明构建的分层网络能够解决数据不平衡的问题,以及区分两个任务的重要性程度。
本发明在Twitter和Reddit的真实数据集上评估了提出的方法,证明了提出的方法可以有效地提高贴文检测任务的准确性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。

Claims (8)

1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型通过有监督学习方式训练,从而形成一个分类器,用于预测源帖子的真实性标签Label rumor ,则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor ;真实性标签Label rumor 分为“真”、“假”、“未认定”这三个类别:
Figure 825636DEST_PATH_IMAGE001
(1);
S5中:
超图注意力网络模型中使用隐含狄利克雷分布模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个帖子,形式上,使用G=(A,X)表示整个超图,其中图中节点表示帖子,边表示branch,A是邻接矩阵,X是节点属性矩阵,X表示v个节点的属性,表示为X=[x1,x2,...,xv],将S4中拼接后的向量作为节点属性;A∈Rv×n,n表示会话中branch数量,R表示值域,用于表示节点之间的共现关系,矩阵元素定义为:
Figure 863999DEST_PATH_IMAGE002
(2)
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch;
超图中图节点和超边的更新方式如下:
f=f 1,f 2,...,f n}是超边的原始表示,f'=f' 1,f' 2,...,f' n}是图注意力网络模型转换后的表示形式,给定节点v i ,连接的超边集合表示为ε i ,超边f j ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
Figure 873544DEST_PATH_IMAGE003
(3)
其中,W f 为可训练的权重矩阵,hk为之前训练好的节点表示,σ为非线性激活函数;
其中α jk 表示节点v k 对超边e j 的重要性,α jk 的计算如下:
Figure 189119DEST_PATH_IMAGE004
(4)
u jk =LeakyReLUb f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数;
在更新所有超边之后,依次使用超边来更新节点表示,对于超边e j ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义,h' i 为更新后的节点表示:
Figure 258706DEST_PATH_IMAGE005
(6)
其中,β ij 表示超边e j 对节点v i 的重要性,β ij 的计算如下:
Figure 784365DEST_PATH_IMAGE006
(7)
u ij =LeakyReLUb h T [W f f'||W h h i ]) (8)
其中,b h T 为节点h的注意力权重向量参数,W h 为权重矩阵,h i 是节点v i 的输出表示,更新贴文会话结构中的超边和图节点后,即用超图的形式模拟贴文会话的传播结构。
2.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\ t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。
3.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。
4.根据权利要求3所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。
5.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S3中:
采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“[CLS] 帖子 [SEP]”的形式,随后,使用“[CLS]”位的向量表示作为帖子的向量表示。
6.根据权利要求5所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,预训练模型BERT采用“bert-base-uncased”基本模型,输入的序列最大长度为512,如果帖子的长度少于512,则使用填充符填充;如果帖子的长度超过512,则将超过的部分截断。
7.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S6中:
超图注意力网络模型中构建了一个两层的网络进行分类,其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类;
在经过超图注意力网络后,贴文会话的输出维数为n×m,那么输出表示为outputR n ×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
已验证的类别被分类为真或假;
分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失,α是loss rumor 的权重参数,其中α>1,损失Loss代表loss verify loss rumor 的合并损失。
8.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,所述帖子为推特上的推文或博客上的博文或贴吧上的贴文。
CN202110746155.XA 2021-07-01 2021-07-01 一种基于超图注意力网络的社交媒体贴文真实性检测方法 Active CN113254652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110746155.XA CN113254652B (zh) 2021-07-01 2021-07-01 一种基于超图注意力网络的社交媒体贴文真实性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110746155.XA CN113254652B (zh) 2021-07-01 2021-07-01 一种基于超图注意力网络的社交媒体贴文真实性检测方法

Publications (2)

Publication Number Publication Date
CN113254652A CN113254652A (zh) 2021-08-13
CN113254652B true CN113254652B (zh) 2021-09-17

Family

ID=77190387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110746155.XA Active CN113254652B (zh) 2021-07-01 2021-07-01 一种基于超图注意力网络的社交媒体贴文真实性检测方法

Country Status (1)

Country Link
CN (1) CN113254652B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146695B (zh) * 2022-03-23 2024-04-02 北京工业大学 一种基于超图注意力网络的公共交通出行群体分类方法
CN114969351B (zh) * 2022-08-01 2022-10-25 长沙市智为信息技术有限公司 一种基于超图聚合网络的Web攻击检测方法及装置
CN115617694B (zh) * 2022-11-30 2023-03-10 中南大学 基于信息融合的软件缺陷预测方法、系统、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589058B2 (en) * 2012-10-19 2017-03-07 SameGrain, Inc. Methods and systems for social matching
CN108804608B (zh) * 2018-05-30 2021-08-27 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN109214599B (zh) * 2018-10-25 2022-02-15 北京师范大学 一种对复杂网络进行链路预测的方法
CN112199606B (zh) * 2020-10-30 2022-06-03 福州大学 一种基于层次用户表示的面向社交媒体的谣言检测系统

Also Published As

Publication number Publication date
CN113254652A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
US11687728B2 (en) Text sentiment analysis method based on multi-level graph pooling
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN111104512B (zh) 游戏评论的处理方法及相关设备
CN110781317A (zh) 事件图谱的构建方法、装置及电子设备
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
Anoop et al. Leveraging heterogeneous data for fake news detection
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112100398A (zh) 一种专利空白预测方法及系统
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
Santagiustina et al. The architecture of partisan debates: The online controversy on the no-deal Brexit
CN104516873A (zh) 建立情感模型的方法和装置
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN114911933A (zh) 基于图内图间联合信息传播的假新闻检测方法及系统
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法
Muthulakshmi et al. Generative adversarial networks classifier optimized with water strider algorithm for fake tweets detection
CN118093983A (zh) 一种文本识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant