CN113254652A - 一种基于超图注意力网络的社交媒体贴文真实性检测方法 - Google Patents
一种基于超图注意力网络的社交媒体贴文真实性检测方法 Download PDFInfo
- Publication number
- CN113254652A CN113254652A CN202110746155.XA CN202110746155A CN113254652A CN 113254652 A CN113254652 A CN 113254652A CN 202110746155 A CN202110746155 A CN 202110746155A CN 113254652 A CN113254652 A CN 113254652A
- Authority
- CN
- China
- Prior art keywords
- post
- hypergraph
- social media
- branch
- attention network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000000692 anti-sense effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 241000590419 Polygonia interrogationis Species 0.000 claims description 2
- 239000000945 filler Substances 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 229920000136 polysorbate Polymers 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及贴文检测的技术领域,公开了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支作为超边,超边与图节点组成的集合,共同构成超图,将超图结构的特征输入图注意力网络学习,从而构建超图注意力网络模型;S6:将S5中超图注意力网络模型用于预测源帖的真实性。本发明构建超图注意力模型,提高模型表达能力。
Description
技术领域
本发明涉及贴文检测的技术领域,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。
背景技术
随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。
贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。
但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的陈述或诠释。如何依据贴文文本内容及其传播途径来对贴文进行准确检测已经引起了研究者们的广泛关注。
虽然现有研究在贴文检测任务上取得了一些成绩,但当前贴文检测任务还存在以下的几个问题:
(1)现有方法较少地考虑了贴文特殊的会话结构以及贴文扩散式的传播方式。存在对贴文的传播结构建模不充分的问题。
(2)带有标签的贴文数据中存在数据不平衡的问题。
发明内容
本发明的目的是提供一种基于超图注意力网络的社交媒体贴文真实性检测方法,本发明构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT),用于从贴文传播和散布中获取结构特征以检测贴文,从而提高模型的表达能力。
为达到上述目的而采用了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Label rumor ,则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor ;真实性标签Label rumor 分为“真”、“假”、“未认定”这三个类别:
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\ t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S3中:
采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“[CLS] 帖子 [SEP]”的形式,随后,使用“[CLS]”位的向量表示作为帖子的向量表示。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,预训练模型BERT采用“bert-base-uncased”基本模型,输入的序列最大长度为512,如果帖子的长度少于512,则使用填充符填充;如果帖子的长度超过512,则将超过的部分截断。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S5中:
超图注意力网络模型中使用隐含狄利克雷分布模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个帖子,形式上,使用G=(A,X)表示整个超图,其中图中节点表示帖子,边表示branch,A是邻接矩阵,X是节点属性矩阵,X表示v个节点的属性,表示为X=[x1,x2,...,xv],将S4中拼接后的向量作为节点属性;A∈Rv×n,n表示会话中branch数量,R表示值域,用于表示节点之间的共现关系,矩阵元素定义为:
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch;
超图中图节点和超边的更新方式如下:
假设f={f 1,f 2,...,f n}是超边的原始表示,f'={f' 1,f' 2,...,f' n}是图注意力网络模型转换后的表示形式,给定节点v i ,连接的超边集合表示为ε i ,超边f j ∈ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
其中,W f 为可训练的权重矩阵,hk为之前训练好的节点表示,σ为非线性激活函数。
其中α jk 表示节点v k 对超边e j 的重要性,α jk 的计算类似于GAT:
u jk =LeakyReLU(b f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk ,LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数。
在更新所有超边之后,依次使用超边来更新节点表示,对于超边e j ∈ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义。h' i 为更新后的节点表示:
其中,β ij 表示超边e j 对节点v i 的重要性,β ij 的计算类似于GAT:
u ij =LeakyReLU(b h T [W f f'||W h h i ]) (8)
其中,b h T 为节点h的注意力权重向量参数,W h 为权重矩阵,h i 是节点v i 的输出表示。更新贴文会话结构中的超边和图节点后,即用超图的形式模拟贴文会话的传播结构。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S6中:
超图注意力网络模型中构建了一个两层的网络进行分类,其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类;
在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为output∈R n×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
类似地,已验证的类别被分类为真或假;
分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失,α是loss rumor 的权重参数,其中α>1,损失Loss代表loss verify 和loss rumor 的合并损失。
作为本发明基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,所述帖子为推特上的推文或博客上的博文或贴吧上的贴文。
(1)在贴文检测任务中,本发明基于贴文的传播结构,构建了一个会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。
(2)普通图仅能表示相邻两个节点,即tweet,帖子之间的交互关系,本发明的超图模型通过使用超边(能够连接多个节点的边),表示多个节点的组合关系。
(3)本发明将BERT语言模型学习到的tweet级文本嵌入与提取到的手工特征相结合,作为超图中的节点。
(4)本发明使用图注意力机制模型,给予重要的tweet更多的关注。
(5)本发明对数据进行分层分类,使用分层预测来缓解数据分布不平衡的问题。
(6)本发明在来自 Twitter和Reddit的公开数据集上评估了本发明提出的方法。结果证明所提出的方法能够有效提高贴文检测的准确率。
附图说明
图1为基于超图注意力网络的贴文检测方法示意图。
图2为基于会话-分支-tweet的超图注意力网络(CBT-HGAT)模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
问题陈述:
贴文数据在诸如Twitter,Reddit,微博等社交媒体平台的公布形式都大同小异。以Twitter为例,贴文数据可分为会话,分支,tweet的层次结构。一个贴文会话通常是由一条源tweet开始,引出某个话题或是陈述某个事件的发生,然后由其他用户对其进行评论以展开讨论,形成多条链式回复。
根据上述数据格式,本发明将贴文数据进行公式化表示。将源tweet用s表示,则一个源tweet可以引出多条回复分支,回复分支由branch表示。总体而言,一条源tweet和多个回复分支 [branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量。其中,回复分支是自上而下的链式传播结构,回复分支中的回复用r表示。每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量。
贴文检测任务的目的是确定会话中的源帖子s所描述的内容的真实性,源帖s对应多个回复帖{r 1,r 2,...,r m }。将贴文检测任务看作一个有监督的分类问题,从有标记的数据中学习得到一个分类器,用于预测源帖子的真实性标签Label rumor 。则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor 。真实性标签Label rumor 可以分为“True(真)”、“False(假)”、“Unverified(未认定)”这三个类别。
如图1所示,基于超图注意力网络的社交媒体贴文检测模型及主要步骤如下:
步骤1:对社交媒体贴文文本数据的数据预处理。
进行数据清洗和数据标准化的步骤。数据清洗包括去除代码标签和删除一些无关的干扰符号,例如换行符“\n”,制表符“\ t”。同时,删除与上下文无关的句柄符号(“@user”)。因为该(“@user”)符号的提示信息已经包含在回复分支的传播结构中。数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和Spacy库删除停用词并为上下文语料分词。
在数据清洗完成后,将原始语料组织成会话的形式。具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理tweet的组成结构,并按每个分支中的tweet ID对其进行排序。为了区分会话中的层级关系,将会话中的分支用“$branch$”分隔,分支中的tweet用“\t”分隔。通过这样的方式本节将语料组织为每行一个会话的形式,目的是在后续步骤中更轻松地将会话构建为图结构。
步骤2:对步骤1处理后的社交媒体贴文文本数据进行特征提取。
将提取的特征分为以下几类:
内容特征:内容特征是根据tweet的呈现形式,提取tweet中的以下特征:(1)是否包含符号特征:问号(),感叹号(!),句号(),#号标签(#),URL(“urlurlurl”)或图片(“picpicpic”)。(2)计算每条tweet中的字符数和单词数作为内容长度特征。(3)计算tweet中大写字母占字符数的比例。(4)计算以“wh”开头的单词数,例如“what”,“when”,“why”和“where”等。
情感特征:(1)计算tweet中包含的否定词数量,否定词包括“not”,“no”,“nobody”,“nothing”,“none”和“never”等。(2)计算tweet中表示可能性的标签数量,例如“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”等。
虚假信息特征:(1)tweet中的表示“fake(虚假)”的同义词数量,例如“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”和“fake”等。(2)tweet中的“fake(虚假)”的反义词数量,例如“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”等。(3)判断tweet中是否包含“rumor”,“gossip”,“hoax”之类的词。
相关特征:(1)当前tweet和源tweet之间的余弦相似度特征。(2)当前tweet和当前tweet的前一条tweet的序列之间的余弦相似度特征。
步骤3:对步骤1处理后的社交媒体贴文文本数据进行文本嵌入。
跟随当前最先进的语言模型的趋势,基于Hugging-Face团队的PyTorch的预训练模型BERT进行了微调,并用微调后的模型在tweet层级对每条tweet进行嵌入表示。主要使用BERT的遮盖语言模型(MLM)来掩盖tweet中15%的单词。通过预测这些被屏蔽的单词,获得每条tweet的向量表达。在模型训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条tweet。在tweet的开头放置“[CLS]”,在tweet的末尾放置“[SEP]”,具体的,将语料组织为“[CLS] tweet [SEP]”的形式。随后,使用“[CLS]”的向量表示作为tweet的向量表示。由于大多数tweet都属于短文本类型,因此使用“bert-base-uncased”基本模型,最大长度为512。如果tweet的长度少于512,则使用填充符填充;如果tweet的长度多于512,则将超过的部分截断。
步骤4:将步骤2和步骤3得到的向量拼接,作为超图结构的图节点。
步骤5:构建基于会话-分支-tweet的超图注意力网络模型(CBT-HGAT)。
传统的GNN通常使用的图结构为G=(V,f),其中V={v1,v2,v3,...,vn}是一组节点,而f={f 1,f 2,...,f n}是一组连接节点的二元边,即每条边关联两个节点。传统的GNN仅关注节点之间的二元关系,但在现实世界中,字词或tweet之间的关系并不是二元的,一条回复tweet至少与它的前一条tweet及源tweet直接相关。tweet之间的交互关系可以是三元的,四元的或更加多元的。因此,CBT-HGAT构造超图的结构来适应tweet的多元关系。与传统的GNN模型相似,超图注意力网络有节点和边的结构。不同之处在于超图引入了超边的概念,超边可以连接多个节点构成超图。将贴文数据中的tweet作为节点,branch(分支)作为超边连接不同的tweet以形成超图,目的是捕获多个tweet之间的高级交互。CBT-HGAT通过超图中节点(tweet),超边(分支),图(会话)的结构,将贴文构造为会话-分支-tweet的层级结构。
在贴文的会话-分支-tweet传播结构中,将分支作为顺序超边,不仅有利于学习tweet之间的高级交互,而且还有助于捕获贴文传播结构的信息。此外,为了丰富每个tweet的上下文语义,CBT-HGAT模型中构建了语义超边来捕获tweet之间与主题相关的高阶相关性特征。具体来说,通过使用隐含狄利克雷分布(LDA)模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个tweet。
超图中图节点和超边的更新方式如下:
形式上,使用G=(A,X)表示整个超图,其中A是邻接矩阵;X是节点属性矩阵,用于表示每个节点的属性,表示为X=[x1,x2,...,xv]。每个节点的属性向量可以是d维的独热向量,也可以是预训练模型表示的tweet嵌入向量。在本发明中,使用了BERT预训练模型来表示tweet的文本向量,拼接tweet的特征向量作为节点属性。邻接矩阵A∈Rv×n(n表示会话中branch数量,R表示值域)用于表示节点之间的共现关系,其公式定义为:
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch。
使用超边(branch)来学习节点(tweet)的高级表示,一条超边串联了多个tweet,通过超边来表达tweet之间的多元关系。下面介绍超图中节点和边的更新方式。假设f={f 1,f 2,...,f n}是超边的原始表示,f'={f' 1,f' 2,...,f' n}是图注意力网络(GAT)转换后的表示形式。给定节点v i ,连接的超边集合表示为ε i ,超边f j ∈ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
其中α jk 表示节点v k 对超边e j 的重要性。α jk 的计算类似于GAT:
u jk =LeakyReLU(b f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk ,LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数;
在更新所有超边之后,依次使用超边来更新节点表示。对于超边e j ∈ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义,h' i 为更新后的节点表示:
其中,β ij 表示超边e j 对节点v i 的重要性。β ij 的计算类似于GAT:
u ij =LeakyReLU(b h T [W f f'||W h h i ]) (8)
通过以上的方式,更新贴文会话结构中的超边(branch)和节点(tweet),用超图的形式模拟贴文会话的传播结构。
步骤6: 在步骤5的基础上进行贴文的分层预测。
贴文检测任务是将文本分类为“真”、“假”或“未验证”这三个类别。由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明为了解决数据不平衡的问题,以及区分两个任务的重要性程度,构建了一个两层的网络进行分类。其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类。
在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为output∈R n×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
类似地,已验证的类别被分类为真或假。分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失。α是loss rumor 的权重参数,其中(α>1)。损失Loss代表loss verify 和loss rumor 的合并损失。
图2中贴文会话样例:
A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at0939 UTC time urlurlurl Plane crashed near Digne South of France according tolocal police $branch$A320 flight 4U9525 registration DAIPX was lost from at6800 feet at 0939 UTC time urlurlurl A bit low for cruising altitude $branch$A320 flight 4U9525 registration DAIPX was lost from at 6800 feet at 0939 UTCtime urlurlurl A320 van Germanwings neergestort in Franse Alpen Alpes desHautes Provence $branch$
本发明为了模拟贴文的发散性传播结构并更好地说明贴文数据中的会话、分支、tweet三者之间相互的复杂关系,本发明基于贴文数据的内部结构和文本内容构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT)。
优点:贴文检测模型只是基于贴文的分支结构(分支-tweet)进行建模,而没有对贴文的传播结构(会话-分支-tweet)进行建模,可能会造成贴文结构信息的丢失。一条tweet的观点不仅与它的前一条tweet相关,而是需要该条tweet与它前面n条tweet的组合才能表达该条tweet的观点。例如,考虑一个分支[s,r1,r2,r3,r4]。s表示源tweet,rn表示第n个tweet。回复tweet(帖子)r3可能不仅与r2直接相关,而且可能与s相关,因此需要使用s,r2,r3的组合来表达tweet(帖子)r3的观点。因此,普通的图模型仅用二元组表示两个tweet之间关系是不够的,并且无法反映分支内部的层次结构。而本发明构造的超图网络能够表示tweet之间的多重关系或高级关系。
本发明通过图注意力机制区分tweet的重要性程度。
优点:由于贴文数据结构中的每条tweet对判定该消息是否为贴文的重要性不同,不能将会话中的每条tweet一概而论,因此我们的超图注意力网络通过注意力机制,给予重要的tweet更多的关注。
本发明设置分层网络对贴文数据进行分层预测。
优点:由于贴文的数据分布不平衡,标签为“未验证”的数据量总是比其他两个标签中的数据多。并且,在贴文检测的任务中,判断“已验证”类别中的文本的真假性比判断贴文是否被验证更重要。本发明构建的分层网络能够解决数据不平衡的问题,以及区分两个任务的重要性程度。
本发明在Twitter和Reddit的真实数据集上评估了提出的方法,证明了提出的方法可以有效地提高贴文检测任务的准确性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (9)
1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branch n ]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s, r 1,r 2,...,r m ]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Label rumor ,则分类器的定义为:{s,r 1,r 2,...,r m }→Label rumor ;真实性标签Label rumor 分为“真”、“假”、“未认定”这三个类别:
2.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\ t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。
3.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。
4.根据权利要求3所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP $”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。
5.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S3中:
采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“[CLS] 帖子 [SEP]”的形式,随后,使用“[CLS]”位的向量表示作为帖子的向量表示。
6.根据权利要求5所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,预训练模型BERT采用“bert-base-uncased”基本模型,输入的序列最大长度为512,如果帖子的长度少于512,则使用填充符填充;如果帖子的长度超过512,则将超过的部分截断。
7.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S5中:
超图注意力网络模型中使用隐含狄利克雷分布模型来挖掘贴文会话中的潜在主题作为语义超边,从而连接与主题相关的前k个帖子,形式上,使用G=(A,X)表示整个超图,其中图中节点表示帖子,边表示branch,A是邻接矩阵,X是节点属性矩阵,X表示v个节点的属性,表示为X=[x1,x2,...,xv],将S4中拼接后的向量作为节点属性;A∈Rv×n,n表示会话中branch数量,R表示值域,用于表示节点之间的共现关系,矩阵元素定义为:
式中i,j分别指示矩阵的行列索引,v i 表示第i个节点,e j 表示第j个branch;
超图中图节点和超边的更新方式如下:
假设f={f 1,f 2,...,f n}是超边的原始表示,f'={f' 1,f' 2,...,f' n}是图注意力网络模型转换后的表示形式,给定节点v i ,连接的超边集合表示为ε i ,超边f j ∈ε i ,注意力机制用于区分不同节点对边f j 的含义,用下式表示:
其中,W f 为可训练的权重矩阵,hk为之前训练好的节点表示,σ为非线性激活函数;
其中α jk 表示节点v k 对超边e j 的重要性,α jk 的计算类似于GAT:
u jk =LeakyReLU(b f T W f h k ) (5)
其中,u jk 是一个中间值,目的是得到α jk ,LeakyReLU是一个非线性转换器,b f T 是注意力机制的权重向量参数;
在更新所有超边之后,依次使用超边来更新节点表示,对于超边e j ∈ε i ,使用注意力机制来区分不同节点v i 对超边e j 的含义,h' i 为更新后的节点表示:
其中,β ij 表示超边e j 对节点v i 的重要性,β ij 的计算类似于GAT:
u ij =LeakyReLU(b h T [W f f'||W h h i ]) (8)
其中,b h T 为节点h的注意力权重向量参数,W h 为权重矩阵,h i 是节点v i 的输出表示,更新贴文会话结构中的超边和图节点后,即用超图的形式模拟贴文会话的传播结构。
8.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S6中:
超图注意力网络模型中构建了一个两层的网络进行分类,其中,第一层网络用于对文本是否被验证进行分类,第二层网络用于对已被验证的文本进行真假性分类;
在经过超图注意力网络后,假设贴文会话的输出维数为n×m,那么输出表示为output∈R n×m ,将输出作为全连接层的输入,并将全连接层的输出形式调整为二维:
C verify =Dense(output,2) (9)
激活函数设置为S verify =softmax(C verify ) (10)
类似地,已验证的类别被分类为真或假;
分配损失权值时,分类为真或假的重要性比分类为是否验证更高,损失的计算公式如下:
Loss=loss verify +α×loss rumor (11)
其中loss verify 表示分类是否验证这一任务的损失,loss rumor 表示分类为真或假这一任务的损失,α是loss rumor 的权重参数,其中α>1,损失Loss代表loss verify 和loss rumor 的合并损失。
9.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,所述帖子为推特上的推文或博客上的博文或贴吧上的贴文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110746155.XA CN113254652B (zh) | 2021-07-01 | 2021-07-01 | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110746155.XA CN113254652B (zh) | 2021-07-01 | 2021-07-01 | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254652A true CN113254652A (zh) | 2021-08-13 |
CN113254652B CN113254652B (zh) | 2021-09-17 |
Family
ID=77190387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110746155.XA Active CN113254652B (zh) | 2021-07-01 | 2021-07-01 | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254652B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969351A (zh) * | 2022-08-01 | 2022-08-30 | 长沙市智为信息技术有限公司 | 一种基于超图聚合网络的Web攻击检测方法及装置 |
CN115146695A (zh) * | 2022-03-23 | 2022-10-04 | 北京工业大学 | 一种基于超图注意力网络的公共交通出行群体分类方法 |
CN115617694A (zh) * | 2022-11-30 | 2023-01-17 | 中南大学 | 基于信息融合的软件缺陷预测方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170177586A1 (en) * | 2012-10-19 | 2017-06-22 | SameGrain, Inc. | Methods and systems for social matching |
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN109214599A (zh) * | 2018-10-25 | 2019-01-15 | 北京师范大学 | 一种对复杂网络进行链路预测的方法 |
CN112199606A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于层次用户表示的面向社交媒体的谣言检测系统 |
-
2021
- 2021-07-01 CN CN202110746155.XA patent/CN113254652B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170177586A1 (en) * | 2012-10-19 | 2017-06-22 | SameGrain, Inc. | Methods and systems for social matching |
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN109214599A (zh) * | 2018-10-25 | 2019-01-15 | 北京师范大学 | 一种对复杂网络进行链路预测的方法 |
CN112199606A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于层次用户表示的面向社交媒体的谣言检测系统 |
Non-Patent Citations (3)
Title |
---|
YUXIANG REN等: "HGAT:Hierarchical Graph Attention Network for Fake News Detection", 《ARXIV》 * |
张蓉等: "基于层次异构图注意力网络的虚假评论检测", 《计算机应用》 * |
赵敏等: "集成层级图注意力网络监测非均衡虚假评论", 《计算机科学与探索》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146695A (zh) * | 2022-03-23 | 2022-10-04 | 北京工业大学 | 一种基于超图注意力网络的公共交通出行群体分类方法 |
CN115146695B (zh) * | 2022-03-23 | 2024-04-02 | 北京工业大学 | 一种基于超图注意力网络的公共交通出行群体分类方法 |
CN114969351A (zh) * | 2022-08-01 | 2022-08-30 | 长沙市智为信息技术有限公司 | 一种基于超图聚合网络的Web攻击检测方法及装置 |
CN115617694A (zh) * | 2022-11-30 | 2023-01-17 | 中南大学 | 基于信息融合的软件缺陷预测方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113254652B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
US11687728B2 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN110781317B (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN112084335B (zh) | 一种基于信息融合的社交媒体用户账号分类方法 | |
CN111104512B (zh) | 游戏评论的处理方法及相关设备 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
EP4060548A1 (en) | Method and device for presenting prompt information and storage medium | |
Anoop et al. | Leveraging heterogeneous data for fake news detection | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN112100398A (zh) | 一种专利空白预测方法及系统 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
Khun et al. | Visualization of Twitter sentiment during the period of US banned huawei | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 | |
CN104516873A (zh) | 建立情感模型的方法和装置 | |
CN114638222A (zh) | 自然灾害数据的分类方法及其模型训练方法、装置 | |
Muthulakshmi et al. | Generative adversarial networks classifier optimized with water strider algorithm for fake tweets detection | |
Nanduri et al. | Modified Fuzzy Approach to Automatic Classification of Cyber Hate Speech from the Online Social Networks (OSN's). | |
Divya et al. | An Empirical Study on Fake News Detection System using Deep and Machine Learning Ensemble Techniques | |
Ivezić et al. | Trends and Challenges of Text-to-Image Generation: Sustainability Perspective | |
CN110765108A (zh) | 一种基于群智数据融合的假消息早期检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |