CN116776889A - 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 - Google Patents
一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 Download PDFInfo
- Publication number
- CN116776889A CN116776889A CN202310526765.8A CN202310526765A CN116776889A CN 116776889 A CN116776889 A CN 116776889A CN 202310526765 A CN202310526765 A CN 202310526765A CN 116776889 A CN116776889 A CN 116776889A
- Authority
- CN
- China
- Prior art keywords
- rumor
- graph
- text
- external knowledge
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000005096 rolling process Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 78
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 33
- 229910052711 selenium Inorganic materials 0.000 claims description 33
- 239000011669 selenium Substances 0.000 claims description 33
- 230000009193 crawling Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 7
- 239000006185 dispersion Substances 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 12
- 238000011160 research Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000003892 spreading Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 239000005644 Dazomet Substances 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- QAYICIQNSGETAS-UHFFFAOYSA-N dazomet Chemical compound CN1CSC(=S)N(C)C1 QAYICIQNSGETAS-UHFFFAOYSA-N 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,首先采集社交网络平台上的包含原始推文、转推和评论的粤语谣言数据,并严格地进行了人工标注,构建一个较为完善的结构化粤语谣言数据集;其次构建一个有向异质知识图,使用异质图卷积神经网络获取外部知识嵌入;之后使用BERT提取推文的文本特征,并通过对比网络获取推文文本和外部知识的相关性向量;此外使用双向图卷积神经网络获取谣言传播过程中的结构特征;最终,构建了基于嵌入外部知识的双向图卷积神经网络的粤语谣言检测模型BGK,融合文本特征、对比特征和结构特征,实现对粤语谣言的分类。本发明的检测模型具有很好的检测效果,泛化能力强,并具有较好的抗噪声的能力。
Description
技术领域
本发明涉及计算机科学与技术中的网络安全领域技术领域,具体为一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法。
背景技术
随着互联网的迅速发展,社交媒体成为用户获取新闻信息、发表言论的重要途径,根据Digital 2022,全世界有46.2亿个社交媒体用户,占世界总人口的58.4%,并且年增长率超过了10%,某个具有顶级影响力的社交媒体平台,其全球注册人数已经达到29.63亿,成为用户获要社交媒体网站要社交媒体网站之一。然而,社交媒体的迅速发展不仅扩宽了谣言的传播范围,也增加了其传播的速度,导致谣言对社会稳定、网络环境等多方面的威胁不断加剧,同时由于谣言具有独有的似真性与广泛的传播性,为谣言的辨别与控制带来了极大的成本和困难。
作为全球华人使用人数众多的语言之一,粤语起源于中国广东省,其使用人数超过8240万人,不仅成为中国东南部地区的通用语言,同时也在世界五大洲的华人社区广泛使用。由于粤语的泛用性,在社交媒体上的粤语谣言也对社会稳定、网络环境等造成了重要影响。因此,检测社交媒体上的粤语谣言信息具有重要的意义。
传统的机器学习主要关注文本内容、用户统计特征,通过有监督学习训练出一个分类器用于谣言检测。Kwon等人采用了随机森林算法,利用了时间、结构和语言特征构建了一个分类器,用于谣言分类。Ma等人通过利用基于时间序列的时间特征进行谣言分类。Wu等人构建了一个基于图内核的SVM分类器,结合文本特征和传播结构特征。这些方法严重依赖于特征工程,需要花费大量的时间,并且检测效率并不理想。
为了自动化提取谣言的特征,一系列基于深度学习的方法被提出来了。Ma等人首次将循环神经网络(RNN)用于谣言检测,利用每个事件的时序特征进行谣言检测。Yu等人利用卷积神经网络(CNN)构建分类器,提取分散在驶入文本特征中的关键特征,有效的实现了谣言检测和实用的早期监测能力。Ma等人提出了基于树结构的结构递归神经网络(RvNN),结合结构和内容语义进行谣言检测。Song等人提出了对抗意识的谣言检测框架,通过边权图转化网络(WETGN)和位置感知对抗反应发生器(PARG)提高检测模型的脆弱性。Sun等人将对比学习应用到基于图结构的谣言检测,通过感知同一标签和不同标签的样本之间的差异,同时利用对抗样本和噪声进行对比学习,提高谣言图表示的质量。Zhu等人针对假新闻检测数据集中的实体偏差,并提出了减轻这种偏差的方法,以提高假新闻检测器的泛化能力。Naumzik等人提出了一种新的概率混合模型,根据潜在的传播过程对真假谣言进行分类。
相比于上述的基于深度学习的谣言检测,图卷积神经网络由于在结构化数据上的优越表征性能,已经被应用于谣言检测领域。Bian等人首次将图卷积神经网络应用于社交网络的谣言检测领域,利用谣言传播过程中自顶向下和自底向上的传播特征,并使用根节点增强传播特征。Wei等人针对传播过程中边的不确定性,提出了边增强的贝叶斯特卷积神经网络,获取鲁棒性的节点特征表示。Lu等人提出了图感知的共同注意力网络(GCAN),通过利用用户交互、转推传播和其与源短文本的相关性来进行可解释性的虚假信息检测。
现有的基于深度学习的谣言检测方法已经取得较好的效果,可以充分利用推文的文本特征和推文传播过程中的结构特征,但主要针对英文和中文进行,未对粤语进行较多的研究。
近来有一些研究意识到外部知识对于谣言检测的重要性,提出了一些基于知识图谱增强的谣言检测模型,现有的研究等利用从推文文本中提取出来的结构三元组(头、关系、尾)来与知识图谱进行对比,Zhang等人提出了多模态的谣言检测方法,利用多模态知识感知网络和事件记忆网络获取多模态特征。上述知识图谱的构建可以利用知识图谱中的结构化三元组,但是没有对外部事实等信息和推文及评论中的信息进行充分利用。
现有的针对粤语谣言检测的研究,利用推文的文本信息和特征工程进行谣言检测。Lin等人提出了一种方便人工事实核查的注释(Annotation)系统,协助核查人员标注粤语虚假新闻。Wang等人构建了一个粤语虚假新闻的数据集,并评估了传统机器学习算法和深度学习算法在粤语谣言检测下的效果。尽管现有的谣言检测方法已经有一定的检测效果,但主要针对文本信息和统计特征,未利用外部的知识图谱,而外部知识可以为谣言检测提供相应的证据,同时也未充分利用基于原始推文、转推和评论的传播结构特征。
然而,针对粤语谣言检测的两个主要的挑战还没有解决。第一,现有的谣言检测研究主要针对中文和英文的数据集,针对粤语的谣言检测较少被研究,现有的粤语谣言检测主要利用文本特征和用户特征,未对粤语谣言中转发和评论的传播结构进行利用,导致缺乏包含原始推文、转发和评论的结构化粤语数据集。而粤语作为使用人数较多的语言之一,但由于粤语语料的复杂性和结构化的基准粤语数据集的缺乏,导致针对粤语的谣言检测变成了相对困难的任务。第二,尽管现有的谣言检测方法已经有一定的检测效果,但较少利用外部的知识图谱,现有基于知识图谱的方法的检测性能极大受到知识图谱构建的影响,而外部知识对谣言的判断具有重要的辅助作用。因而,现有的研究没有充分利用基于事实的外部知识,以及其与基于原始推文、转推和评论的传播结构特征的结合。
发明内容
针对上述问题,本发明的目的在于提供一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,将推文的文本特征、对比特征和结构特征进行融合,并成功应用于粤语谣言检测,具有更好的检测效果,泛化能力强,并具有较好的抗噪声的能力。技术方案如下:
一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,包括以下步骤:
步骤1:数据收集与标注:通过爬虫程序爬取某社交网络上包括帖子信息、评论信息、转推结构和用户信息的数据,并完成数据标注的工作,从而构建的粤语谣言数据集;
步骤2:特征提取:根据粤语谣言数据集,分析并提取粤语谣言的特征,并为每一条谣言生成特征向量;对于文本特征,构建多领域的粤语语料库,对BERT中文预训练模型进行进一步预训练,使用BERT获取原始推文的文本特征向量;对于结构特征,使用双向图卷积神经网络,获取推文自上而下和自下向上的传播特征,并通过根结点增强,获得谣言传播过程中的结构特征向量;
步骤3:外部知识嵌入:基于图卷积神经网络将外部知识嵌入到文本特征;首先构建外部知识图,再使用异质图卷积神经网络提取外部知识的嵌入特征,最后通过对比网络获取外部知识嵌入特征和推文文本特征的对比特征;
步骤4:检测模型:将步骤2生成的文本特征向量和结构特征向量,以及步骤3生成的对比特征进行拼接,并将其输入到由BERT、Bi-GCN和对比网络构建的基于图卷积网络和外部知识嵌入的粤语谣言检测模型BGK中,完成对社交网络平台上的粤语谣言的检测。
进一步的,所述步骤1的爬虫程序选用Selenium作为爬虫程序框架,选取Python脚本语言;在程序中,创建浏览器对象,使Selenium框架与浏览器驱动建立联系,Selenium调用远程控制服务器,打开浏览器并按照脚本要求,执行对页面跳转和数据获取的操作;使用Selenium框架爬取平台页面信息的流程如下:
1)通过Selenium创建浏览器对象,并与浏览器驱动建立联系;
2)通过Core唤起浏览器页面,进行基础配置,并跳转网页;
3)控制器通过XPath定位元素,模拟登录和页面点击的处理;
4)通过爬虫控制器对所需爬取内容进行相对位置定位;
5)各对象被依次获取,并在脚本中解析出对应属性存储;
采用Selenium提供的相对位置定位以及父子层级切换定位,实现数据准确定位与爬取;使用睡眠函数限制爬取速度,并对每天爬取数量与时间进行限定,及时切换IP,清除浏览器记录以应对爬取限制;
将爬虫挂载到服务器进行持续爬取,使用错误告警结构进行编程防止脚本意外中断,以保证爬取数据量。
更进一步的,所述步骤1中数据标注时,要求两名标注者独立浏览数据集中的所有推文,然后通过计算Kappa系数来评估标注者之间的一致性;Kappa系数的定义如下式:
其中,K为Kappa系数,A1为第一个标注者标注的推文集合,B为第二个标注者标注的推文集合,C为第一个标注者无法判断是否为谣言的推文集合,D为第二个标注者无法判断是否为谣言的推文集合,E是所有推文的集合,|.|是一个集合的大小;
当Kappa系数大于等于0.9,则表明标注者在识别谣言方面达成高度的共识。
更进一步的,所述文本特征向量提取包括:
首先将BERT-Base-Chinese中文预训练模型在粤语语料上进行再训练,再使用Network-CR-Dataset数据集对再训练后的BERT模型进行微调,从而得到一个粤语词嵌入提取器;同时将原推文及转推/评论数据V={V1,V2,...,Vm}标记化后得到V'={V1',V′2,...,V′m},并将V'输入至经过再训练和微调的BERT模型,得到词向量W={w1,w2,...,wm},如下式所示:
V'=Tokenize(V) (2)
W=BERT(V') (3)
其中,Tokenize为分词函数,BERT为预训练模型,L为最大序列长度。
更进一步的,所述异质图卷积神经网络包含2个图卷积层,将外部知识的邻接矩阵A和特征矩阵X输入至异质GCN网络,如下式所示:
其中,和/>分别表示第1层和第2层的隐含特征,n为节点数,d为每个节点隐含特征的维度;/>是归一化的邻接矩阵,/> 代
表第i个节点的度,A为外部知识的邻接矩阵,IN为单位矩阵;为节点的度;W0和W1为可训练的权重矩阵;σ(·)为激活函数;
在每个图卷积层上使用Dropout来避免出现过拟合问题;最后隐含特征经过全连接层得到外部知识的,其中m为原推文的数量,更进一步的,所述结构特征向量的提取包括:
1)推文传播图构建
给定推文的原始推文、转发和评论信息,使用Cm={c1,c2,...,cm}表示全部的谣言数据集,其中ci表示第i个谣言事件表示为其中/>表示第j个转发和评论,ni表示谣言事件ci包含的评论和转发的总数;Gi表示谣言事件ci构成的谣言传播图,定义为Gi={Vi,Ei},其中节点集合为/>ri是传播图中的根结点,边集合每一条边/>表示推文和转推、评论之间的有向关系;对于的邻接矩阵,初始值计算为:
其中,当边在边集合Ei中时,初始值可取为1,否则取为0;对于每一个谣言事件ci,都有一个对应的标签yi∈Y,Y表示不同的种类取值,目标是训练一个分类器f:Cm→Y;
2)结构特征提取
基于原始推文和转发、评论的关系,对于每一个谣言事件ci构建了传播图Gi={Vi,Ei},然后构建出谣言事件邻接矩阵针对图结构中的每个节点构建文本特征xi,特征矩阵表示为/>
使用双向的图卷积神经网络来计算图节点表示,其中包括一个自顶向下的图卷积神经网络和自底向上的图卷积神经网络,对应的邻接矩阵分别表示为ATD=Ar和ABU=Ar T;自顶向下和自底向上的传播特征分别通过两层的GCN获取如下:
其中,是正则化后的邻接矩阵ABU,/>和/>为隐藏特征,/>和/>为权值矩阵,σ是非线性激活函数;同理得到自顶向下的隐藏特征/>和/>
同时,为充分利用原始推文的特征,将k-1层的根节点特征与k层的隐层特征/>进行连接得到分散特征/>
其中,concat表示特征连接;同理得到传播特征
通过上述获取的传播特征和分散特征进行连接,获取原始推文和转发、评论的结构特征:
其中,Tn为包含原始推文和转发、评论的结构特征。
更进一步的,所述步骤3中外部知识嵌入具体包括:
步骤3.1:构建外部知识图
针对原始推文所包含的种类,构建包括官方声明和实体描述的有向异质图ω=(V0,E0),图包含两种不同类型的节点:官方声明和实体描述其中xr代表官方声明的数量,yd代表实体描述的数量;边E0中包括双向连接边和无向连接边,外部知识图的具体构建方式如下所示:
原始推文包含P个具体方面,表示为Q={q1,q2,q3,...,qP};首先,将每个方面下所构建的官方声明进行双向连接,然后针对官方声明和原始推文中所包含的实体,将相同方面下的官方声明和实体描述进行双向连接,并将相同类型下的实体描述与其他的实体描述建立无向连接边;
步骤3.2:异质图卷积神经网络构建
通过构建的有向异质图ω=(V0,E0),使用有向的异质图卷积神经网络来表征学习官方声明和实体描述,首先使用粤语语料对基于中文预训练的BERT模型进行微调,获取节点嵌入特征矩阵节点嵌入特征矩阵X′={x1,x2,x3,...,x|V|}包括异质图上各节点的特征,|V|表示外部知识的数量,N表示外部知识的嵌入特征维度;定义A为外部知识的邻接矩阵,De为外部知识的度矩阵;然后异质图卷积层通过聚类第i层邻接矩阵的特征来
更新第i+1层聚类特征:
H(i+1)=σ(A'HiWi) (12)
其中,I是|V|维的单位矩阵,A'是经过自连接和正则化后的邻接矩阵,Wi是第i层的权值矩阵,Hi是第i层的特征矩阵,σ是非线性激活函数,Hi+1是聚合特征后的i+1层特征矩阵;
步骤3.3:通过构建的异质图卷积网络,得到外部知识的嵌入表示KV={k1,k2,k3,...,k|V|}。
更进一步的,所述步骤3中对比特征提取具体包括:
原始推文的文本表示为T={t1,t2,t3,...,t|C|},其中|C|表示数据集中原始推文的个数,通过构建的粤语语料对基于中文预训练的BERT模型进行微调,然后通过BERT获取文本特征如下:
Bn=BERT(T) (13)
其中,Bn={b1,b2,b3,...,b|C|}是原始推文的文本特征,n代表此推文在数据集中的排序;然后通过对比原始推文的文本特征Bn和知识嵌入特征kn,得到他们的对比特征:
Cn=fcmp(Bn,kn) (14)
其中,fcmp()是对比函数,设计的对比函数为fcmp(x,y)=G[x-y,x⊙y],G为维度转换矩阵,x和y分别对应原始推文的文本特征Bn和知识嵌入特征向量kn,⊙表示元素积。
更进一步的,所述步骤4中特征的拼接具体为:
将原始推文的文本特征Bn、对比特征Cn和基于转推和评论的结构特征Tn进行连接,得到向量然后将Fn输入到Softmax层,表示为Z=Softmax(WbFn+b),其中Wb是全连接层的参数矩阵,b是全连接层的偏置矩阵。
本发明的有益效果是:
1)本发明首次提出一种基于图卷积神经网络将外部知识嵌入到文本特征的提取方式。首先基于官方声明和维基百科的实体描述构建了异质知识图,然后使用异质图卷积神经网络提取外部知识的嵌入特征,最后通过对比网络获取外部知识嵌入特征和推文文本特征的对比特征。
2)本发明提出了一种新的粤语谣言检测框架BGK(Bidirectional GraphConvolutional Networks Embedded with External Knowledge,嵌入外部知识的双向图卷积神经网络)用于Facebook上的粤语谣言检测,将推文的文本特征、对比特征和结构特征进行融合。实验结果表明,BGK检测框架实现了较高的检测效率和F1值,性能优于其他SOTA的检测框架。
附图说明
图1为本发明基于图卷积网络和外部知识嵌入的粤语谣言检测方法整体框架图。
图2为数据爬取流程图。
图3为BGK模型结构图。
图4为特征消融对比结果。
图5为不同模型的可视化嵌入结果;(a)BGK,(b)BERT,(c)BiGCN,(d)EBGCN,(e)RvNN,(f)TextCNN。
图6为不同模型的鲁棒性能图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明方法整个框架主要包含四个部分:数据收集与标注、特征提取、知识图谱嵌入、检测模型,如图1所示。
(1)数据收集与标注:开发基于Selenium框架的爬虫来获取数据,以具有顶级影响力的某社交媒体平台为主要研究平台,爬取社交网络上包含帖子信息、评论信息、转推结构和用户信息,并完成了数据标注的工作,构建粤语谣言数据集为本发明方法提供数据支撑。
(2)特征提取:这一部分的核心工作是分析并提取粤语谣言的特征,并为每一条谣言生成特征向量。在文本特征方面,本发明构建了一个多领域的粤语语料库,并使用其对BERT(基于Transformer的双向编码表示)中文预训练模型进行了进一步预训练,使用BERT获取原始推文的文本特征。同时,在结构特征方面,本发明使用双向图卷积神经网络,获取推文自上而下和自下向上的传播特征,并通过根结点增强,获得谣言传播过程中的结构特征。
(3)外部知识嵌入:提出一种基于图卷积神经网络将外部知识嵌入到文本特征的提取方式。首先基于官方声明和维基百科的实体描述构建了异质知识图,然后使用异质图卷积神经网络提取外部知识的嵌入特征,最后通过对比网络获取外部知识嵌入特征和推文文本特征的对比特征。
(4)检测模型:将“特征提取”模块中生成的文本特征向量和结构特征向量,以及“外部知识嵌入”模块中生成的对比特征进行拼接,并将其输入本发明提出的BGK模型中。该模型利用了BERT、Bi-GCN和对比网络,能够基于特征向量对社交网络平台上的粤语谣言进行高效的检测。
详细步骤如下:
S1.数据收集与标注
选择以具有顶级影响力的某社交媒体平台作为研究对象,对平台中公开的帖子、评论、用户数据进行搜集用于粤语谣言检测的研究。
S11:开发基于Selenium框架的爬虫来获取数据,以具有顶级影响力的某社交媒体平台为主要研究平台,爬取社交网络上包含帖子信息、评论信息、转推结构和用户信息;
S12:基于辟谣网站和官方声明,采取统一的标注标准对数据进行标注,将数据分为谣言和非谣言的数据;
S13:将数据进行预处理,去除特殊符号和表情,将结构化的数据转化为统一的格式,获得粤语谣言数据集。
为爬取该平台上众多公开的用户数据,如昵称、性别、年龄、地区、受教育程度、工作单位、发帖信息等,编写相应的爬虫程序对该平台上的这些用户数据进行收集。该平台帖子包含推文信息、用户昵称、发布时间、点赞数、评论数、分享数、评论信息、转发信息、用户信息等众多的公开信息。本发明将使用基于Selenium的Python网络爬虫,0000等。数据爬取的流程图如图2所示。
1.1.数据的收集
(1)数据收集方法
选用Selenium作为爬虫程序框架,Selenium直接运行在浏览器中,就像真正的用户在操作一样,对该平台进行登录,以获得访问更多用户信息的权限。在模拟登录的过程中,由于Selenium框架很好的模拟了真实用户,使模拟登录变得简单。
(2)帖子与转推爬取流程
在使用Selenium框架爬取时,首先使用驱动模拟浏览器,之后再通过脚本自动输入用户名和密码自动登录。进入后,再利用脚本对收集到的关键词进行搜索,得到一个搜索结果列表。对列表中的每个帖子提取出用户的URL,帖子文本信息,发布时间等。同时再打开每个帖子的转推列表,进行迭代爬取,直到一个关键词的所有搜索结果爬取完毕,再使用其他的关键词。
(3)评论爬取流程
通过帖子的爬取,获得每个帖子的详细URL,由于网站的分类,一共分为三种帖子。通过Selenium登录并且进入详细页面后,通过Xpath定位,循环展开帖子的回复信息。最后再通过父子节点的关系,爬取得到评论信息结构图。
由于该平台极强的反爬措施和对数据爬取速度和频率的限制,一般的爬取策略(如提取Cookie并解析等)和框架(如BeautifulSoup等)均出现了失效的情况。在此前提下,本发明选用相对而言更安全的自动化框架Selenium来解决此问题。
(4)爬虫程序构建
Selenium属于自动化测试工具,在爬虫中主要解决了Requests无法执行JavaScript代码的问题。Selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,如跳转、输入、点击、下拉等,获取网页渲染之后的结果,可支持多种浏览器。由于Selenium解析执行了CSS、JavaScript所以相对Requests它的效率有较大下滑,然而此特性也使Selenium更适合伪装,处理具有较强反爬机制的网站。
Selenium基于它所支持的高级语言运行,本发明选取框架开发较为成熟的Python脚本语言,它的优点之一是可以随时中断,降低长时间爬取崩溃的风险。在程序中,创建浏览器对象,使Selenium框架与浏览器驱动建立联系。Selenium调用远程控制服务器,打开浏览器并按照脚本要求,执行对页面跳转和数据获取等的操作。这些由Selenium内核执行,它支持多种浏览器。
使用Selenium自动化框架爬取平台页面信息的流程大体如下:
1)Selenium创建浏览器对象,并与浏览器驱动建立联系;
2)Core唤起浏览器页面,进行基础配置,并跳转网页;
3)控制器通过XPath定位元素,模拟登录和页面点击等处理;
4)爬虫控制器对所需爬取内容进行相对位置定位;
5)各对象被依次获取,并在脚本中解析出对应属性存储。
面临问题:类名随机化,Xpath多样,周期性改变。
类名是无意义字符串,且每过一段时间,其类名会发生变化,导致爬虫失效。此外,由于内容的多样性,同一推文的不同部分或不同推文的同一部分会具有不同的Xpath格式,导致定位失效。因此,本发明所用爬虫,采用Selenium提供的相对位置定位以及父子层级切换定位,从而实现数据准确定位与爬取。
爬取限制应对:所述平台反爬措施较为严厉,对请求频率和请求数量进行了限制。同时,如果单一账号被作为机器人封禁,则对应浏览器、对应IP的注册账号或有登陆记录的账号,都将被列为高危账号进行限制。使用Sleep函数限制了爬取速度,并对每天爬取数量与时间进行限定,及时切换IP,清除浏览器Cookie。
数据量要求:为了满足深度网络充分学习谣言发帖的结构特征的需求,使模型尽可能达到收敛,至少需要1500条主要发帖,对应上万条转推、数十万条评论。而Selenium效率较低,所以将爬虫挂载到服务器进行持续爬取,使用try结构进行编程防止脚本意外中断,以此保证爬取数据量。
1.2.数据的标注
本发明以权威的官方媒体发布的内容作为事实基础,严格按照本发明中使用的谣言定义(在人群中产生和传播的、其真实值为无法确认或故意虚假的信息。一般在紧急情况下产生,容易引发公众恐慌,破坏社会秩序,降低政府信誉,甚至危害国家安全)对采集到的粤语推文进行了数据标注工作,并对缺乏事实基础、无法判别其真实性的推文数据进行了过滤。同时,在数据标注过程中,本发明要求两名标注者独立浏览数据集中的所有推文,从而确保数据标注结果的可靠性。最终,通过计算Kappa系数来评估标注者之间的一致性。Kappa系数的定义如式(1)所示。
其中,A1为第一个标注者标注的推文集合,B为第二个标注者标注的推文集合。C为第一个标注者无法判断是否为谣言的推文集合,D为第二个标注者无法判断是否为谣言的推文集合。E是所有推文的集合,|.|是一个集合的大小。在本发明的数据标注环节中,当Kappa系数大于等于0.9,则表明标注者可以在识别谣言方面达成高度的共识,从而确保数据标注结果的可靠性。
最终,本发明构建了一个粤语谣言数据集Facebook-C-Dataset,如Table 1所示,包含1924条原始推文、64221条评论和转推信息,其中推文包含3个大类(包括社会、健康、科技),49个具体的方面(包含致癌、慢性疾病、信号辐射等)。
表1 粤语谣言数据集Facebook-C-Dataset的描述
原始推文数量 | 转推和评论数量 | |
谣言 | 565 | 20625 |
非谣言 | 1359 | 43596 |
总计 | 1924 | 64221 |
2.文本特征提取
本发明首先将BERT-Base-Chinese中文预训练模型在粤语语料上进行进一步预训练,其次使用Network-CR-Dataset数据集对其进行了微调,从而得到一个粤语词嵌入提取器。同时,将原推文及转推/评论数据V={V1,V2,...,Vm}标记化后得到V'={V1',V2',...,Vm'},并将V'输入至经过再训练和微调的BERT模型,得到词向量W={w1,w2,...,wm},即本文特征向量,如式(2)和(3)所示。L为最大序列长度。由于本实施例拟定选取256作为BERT中的最大序列长度,因此/>
V'=Tokenize(V) (2)
W=BERT(V') (3)
3.异质GCN网络
由于卷积神经网络能够在其域内利用信号类别的局部平移不变性,因此它们在图像和音频识别任务中是极其高效的体系结构。而现实中很多重要的数据都是以图的形式存储的,例如社交网络信息、知识图谱、蛋白质网络、万维网等等。这些图结构的数据并不像图像那样是排列整齐的矩阵形式,而是非结构化的信息。因此,有研究者提出图卷积神经网络(Graph Convolutional Neural Network,GCN)模型,从而有效地捕获图结构数据中的节点特征和图结构特征。
对于图G=(V,E),有以下特征定义:V为节点的集合,E为边的集合,对于每个节点i,均有其特征xi,可以用矩阵XN×D表示。其中,N表示节点数,D表示每个节点的特征数,即特征向量的维度。
在图论中,邻接矩阵是表示节点之间相邻关系的矩阵,其可以指示图中任意两个节点之间是否有边相连。节点的度是与这个节点相连接的边的数目。对于有向图而言,节点的入度是指进入该节点的边的条数,节点的出度是指从该节点出发的边的条数。
GCN中的卷积运算被视为一般的“消息传递”结构,如公式(4)所示:
Hk=M(A,Hk-1;Wk-1) (4)
其中,是由第k层图卷积层(Graph Convolutional Layer,GCL)计算得到的隐藏特征矩阵,M是由邻接矩阵A、隐藏特征矩阵Hk-1以及可训练参数Wk-1决定的消息传递函数。
GCN的消息传播函数M有很多种形式。其中,在ChebNet(1stChebNet)的一阶近似中定义的消息传播函数如公式(5)所示:
其中,是归一化的邻接矩阵,/>(即加入自连接,考虑了节点信息自传递的问题);/>代表第i个节点的度;/>σ(·)为激活函数,例如ReLU函数。
GCN是直接在图上运作的多层神经网络,它能够根据节点的邻域属性更新节点的表示形式。Kipf等人的工作已经证明了图卷积网络在节点分类任务中的有效性:带有GCN的分类器可以学习节点的邻域特征,从而为节点分类问题提供信息。GCN捕获直接邻居的信息(具有一层卷积)还是k级跃点的间接邻居信息(如果k层堆叠在一起)取决于使用了多少个卷积层。
本发明运用基于半监督学习的异质GCN网络来对生成外部知识的高级结构特征表示,该网络包含2个图卷积层。将邻接矩阵A和特征矩阵X输入至GCN网络,如式(6)和(7)所示:
其中,和/>分别表示第1层和第2层的隐含特征,n为节点数,d为每个节点隐含特征的维度。/>是归一化的邻接矩阵,/> 代表第i个节点的度。W0和W1为可训练的权重矩阵。σ(·)为激活函数,这里采用ReLU函数。此外,在每个图卷积层上,本发明使用Dropout来避免出现过拟合问题。最终,隐含特征经过全连接层得到外部知识的嵌入特征向量S={s1,s2,...,sm},其中m为原推文的数量,/>
4.检测模型
本发明设计了一个基于图卷积网络和外部知识嵌入的粤语谣言检测模型BGK,该模型融合了文本特征、对比特征和结构特征,实现了对粤语谣言的分类,能够有效地检测社交网络中的粤语谣言。BGK模型结构如图3所示。4.1.推文传播图构建
给定推文的原始推文、转发和评论信息,使用Cm={c1,c2,...,cm}表示全部的谣言数据集,其中ci表示第i个谣言事件,可以表示为其中/>表示第j个转发和评论,ni表示谣言事件ci包含的评论和转发的总数,Gi表示谣言事件ci构成的谣言传播图,被定义为Gi={Vi,Ei},其中节点集合为/>ri是传播图中的根结点,边集合/>每一条边/>表示推文和转推、评论之间的有向关系。对于的邻接矩阵,初始值可以计算为:
其中,当边在边集合Ei中时,初始值可取为1,否则取为0。对于每一个谣言事件ci,都有一个对应的标签yi∈Y,Y表示不同的种类取值,目标是训练一个分类器f:Cm→Y。
4.2结构特征提取
基于原始推文和转发、评论的关系,对于每一个谣言事件ci构建了传播图Gi={Vi,Ei},然后构建出谣言事件邻接矩阵针对图结构中的每个节点构建文本特征xi,特征矩阵可以表示为/>其中,ni表示谣言事件ci包含的评论和转发的总数。使用双向的图卷积神经网络(Bi-GCN)来计算图节点表示,其中包括一个自顶向下的图卷积神经网络(TD-GCN)和自底向上的图卷积神经网络(BU-GCN),邻接矩阵可以分别表示为ATD=Ar和ABU=Ar T。自顶向下和自底向上的传播特征可分别通过两层的GCN获取如下:
其中,是正则化后的邻接矩阵ABU,/>和/>分别是隐藏特征和权值矩阵,σ是非线性激活函数,同样,自顶向下的隐藏特征/>可通过上面的公式得出。同时,为了充分利用原始推文的特征,将k-1层的根节点特征与k层的隐含特征进行连接。
通过上述获取的传播和分散特征将传播特征和分散特征进行连接,可获取原始推文和转发、评论的结构特征:
4.3.外部知识提取
4.3.1.构建外部知识图
针对原始推文所包含的种类,本发明构建了一个包括官方声明和实体描述的异质图ω=(V0,E0),图包含两种不同类型的节点:官方声明和实体描述其中xr代表官方声明的数量,yd代表实体描述的数量。边E0中包括双向链接边和无向连接边,外部知识图的具体构建方式如下所示:
原始推文包含P个具体方面,可以表示为Q={q1,q2,q3,...,qP},原始推文可能属于多个方面,相同方面下的推文内容具有一定的内容相似性。首先,将每个方面下所构建的官方声明进行双向连接,然后针对官方声明和原始推文中所包含的实体,将实体连接到维基百科上的词条,并选取第一段的内容作为实体描述,因为实体描述和官方声明具有相关性,因此将相同方面下的官方声明和实体描述进行双向连接,考虑到相同类型的方面对应的官方声明具有一定相似性,将相同类型下的官方声明进行双向连接,因为一个原始推文可能属于多个方面,因此将相同类型下的实体描述与其他的实体描述建立无向连接边。
4.3.2.异质图卷积神经网络构建
通过以上构建出来的有向异质图ω=(V0,E0),使用一个有向的异质图卷积神经网络来表征学习官方声明和实体描述,首先使用本发明所构建的粤语语料对基于中文预训练的BERT模型进行微调,获取节点嵌入特征矩阵矩阵X′={x1,x2,x3,...,x|V|}包括异质图上所有节点的特征,xi表示第i个节点的特征。定义A为外部知识的邻接矩阵,De为外部知识的度矩阵。然后异质图卷积层通过聚类第i层邻接矩阵的特征来更新第i+1层聚类特征
H(i+1)=σ(A'HiWi) (14)
其中,I是|V|维的单位矩阵,A'是经过自连接和正则化后的邻接矩阵,Wi是第i层的权值矩阵,Hi是第i层的特征矩阵,σ是非线性激活函数,Hi+1是聚合特征后的i+1层特征矩阵。
4.4.对比特征提取
通过上述的异质图卷积网络,得到外部知识的嵌入表示KV={k1,k2,k3,...,k|V|},原始推文的文本可以表示为T={t1,t2,t3,...,t|C|},其中|C|表示数据集中原始推文的个数,通过构建的粤语语料对基于中文预训练的BERT模型进行微调,然后文本特征可以通过特征进行获取如下:
Bn=BERT(T) (15)
其中,Bn={b1,b2,b3,...,b|C|}是原始推文的文本特征,n代表此推文在数据集中的排序;然后通过对比原始推文的文本特征Bn和知识嵌入特征kn,得到他们的对比向量:
Cn=fcmp(Bn,kn) (16)
其中,fcmp()是对比函数,设计的对比函数为fcmp(x,y)=G[x-y,x⊙y],G为维度转换矩阵,x和y分别是原始推文的文本特征和知识嵌入特征向量,⊙表示元素积(element-wise product)。
4.5.特征聚合
首先,将原始推文的文本特征Bn、对比特征Cn和基于转推和评论的结构特征Tn进行连接,得到向量然后将Fn输入到Softmax层,可以表示为Z=Soft max(WbFn+b),其中Wb是全连接层的参数矩阵,b是全连接层的偏置矩阵。
4.6.模型训练流程
本发明结合采集到的粤语原始推文、转发和评论、“香港粤语语料库”等现有粤语语料构建了一个多方面的粤语语料库,使用其对基于中文预训练的BERT模型进行了进一步的微调,使其可以表示粤语语料库中粤语的语法和文本特征,从而得到一个粤语BERT预训练模型。本发明使用的是Google发布的BERT-base-Chinese模型。接着将其在本发明构建的粤语谣言数据集上进行微调,词嵌入特征提取器的输入为带有标签信息的原始推文,输出的词向量被映射成的768维向量,即词嵌入矩阵的形状为[N,768],其中N代表原始推文的数量。将构建博文的词嵌入向量作为BGK模型的文本特征嵌入层,以此来充分提取文本的文本特征。然后本发明基于图卷积神经网络提出了一种新的对于外部知识的特征提取方式,首先基于官方声明和维基百科的实体描述构建了一个异质图;然后使用异质图卷积神经网络提取外部知识包含官方声明和实体描述的嵌入特征,并通过对比网络将外部知识嵌入特征和推文文本特征进行对比,获取嵌入外部知识的对比特征。最后使用双向图卷积神经网络,获取推文自上而下和自下向上的传播特征,并通过根结点增强,获得谣言传播过程中的结构特征。将文本特征、对比特征、结构特征进行融合,放入Sigmoid层得到分类结果,构建一个粤语谣言检测模型。
5.实验
本发明的实验都在一个有80G显存的NVIDIA A100-SXM4的工作站上进行,实验所用数据集是构建的Facebook-C-Dataset,在结构特征提取部分,原始推文、转推和评论的所有的文本特征是通过TF-IDF得分来提取前5,000个词,在对实验结果进行数值分析时,使用准确率、精确率、召回率和F1得分来评估模型的性能,同时采用了十折交叉验证来展示评价指标的平均值。
5.1.评估特征的有效性
本发明所提出的GBK模型结合了外部知识特征、文本特征和传播结构特征,为了评估每一个特征对于GBK模型的影响,设计了消融实验,所使用的变体如表2所示。其中,B代表原始推文的文本特征,C表示外部知识通过对比网络的对比特征,T代表包含原始推文、转发和评论为结构特征。在不同变体上实验所得的评价指标如图4所示。
表2特征集描述
特征集 | 包含的特征类别 |
BGK | 原始推文特征、结构特征、外部知识特征 |
BGK/C | 原始推文特征、结构特征 |
BGK/T | 原始推文特征、外部知识特征 |
BGK/B | 结构特征、外部知识特征 |
实验结果如图4、表3所示。可以看到,使用全特征集的模型表现最佳,说明本发明提取的三种类型的特征可以从不同的特征角度充分辅助谣言的判断。除此以外,BGK模型在使用BGK/C特征子集时表现最差,说明外部知识对谣言检测具有重要的意义,有利于辅助谣言特征的判断。
表3特征消融对比结果
5.2.评估模型的对比性能
为了评估模型性能,本发明考虑了一系列的Baseline方法,包括一些SOTA的模型如下:
i.RFC:利用用户特征、语言特征和结构特征的随机森林分类器。
ii.TextCNN:使用卷积神经网络为分类任务捕获文本语义。
iii.TextRNN_Att:使用BiLSTM和Attention机制,使用推文的文本获取文本特征进行分类。iv.SVM:使用手工特征、文本特征的线性SVM分类器。
v.BERT:基于双向Transformers的预训练语言模型。
vi.Transformer:利用自注意力机制和位置编码来提取文本特征,用于Seq2seq学习的模型。vii.RvNN:基于带有GRU单元的树结构循环神经网络的谣言检测方法。
viii.BiGCN:嵌入传播和分散结构,使用根节点特征增强节点表示的基于GCN的模型。
ix.EBGCN:考虑传播结构中的不确定性,通过贝叶斯方法动态调整不可靠关系权值的基于
GCN的模型。
x.BGK:本发明提出的基于图卷积网络和外部知识嵌入的模型。
不同模型用于粤语谣言检测的结果如表4所示,其中B表示文本特征,T表示结构特征,C表示外部知识特征。
表4不同模型的对比性能
5.3.评估不同模型的嵌入效果
为了形象化表示特征嵌入,在图5中展示不同模型在Facebook-C-Dataset上的嵌入效果,从图中可以看到,本发明提出的BGK模型可以更好的分离谣言和非谣言信息
5.4.评估模型的迁移性能
为了证明本发明所提出的BGK模型对于谣言检测的有效性,利用上述的Baseline方法,基于Twitter15和Twitter16数据集进行了对比实验,实验效果如表5所示,充分展示了本发明的BGK模型的泛化能力。F表示假谣言,T表示真谣言,NR表示非谣言,U表示未经验证的谣言。从评估结果可以看出,本发明的BGK模型具有在其他的数据集上仍具有很好的检测效果,证明了本发明的BGK模型的泛化能力。
表5不同模型在Twitter15和Twitter16的对比性能
5.5.评估模型的鲁棒性能
按照特定的比例(5%—45%)从训练集中随机选取了部分标签,并将它们进行错误的设置,然后将本发明的BGK模型在新的训练集上进行训练,测试在不同水平噪声下,模型的鲁棒性。实验结果如图6所示,结果显示,随着噪声率的增加,所有模型的性能(F1得分)都在下降,但是本发明提出的BGK模型,下降的比例最小,证明本发明的BGK模型具有较好的抗噪声的能力。
Claims (9)
1.一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,包括以下步骤:
步骤1:数据收集与标注:通过爬虫程序爬取某社交网络上包括帖子信息、评论信息、转推结构和用户信息的数据,并完成数据标注的工作,从而构建的粤语谣言数据集;
步骤2:特征提取:根据粤语谣言数据集,分析并提取粤语谣言的特征,并为每一条谣言生成特征向量;对于文本特征,构建多领域的粤语语料库,对BERT中文预训练模型进行进一步预训练,使用BERT获取原始推文的文本特征向量;对于结构特征,使用双向图卷积神经网络,获取推文自上而下和自下向上的传播特征,并通过根结点增强,获得谣言传播过程中的结构特征向量;
步骤3:外部知识嵌入:基于图卷积神经网络将外部知识嵌入到文本特征;首先构建外部知识图,再使用异质图卷积神经网络提取外部知识的嵌入特征,最后通过对比网络获取外部知识嵌入特征和推文文本特征的对比特征;
步骤4:检测模型:将步骤2生成的文本特征向量和结构特征向量,以及步骤3生成的对比特征进行拼接,并将其输入到由BERT、Bi-GCN和对比网络构建的基于图卷积网络和外部知识嵌入的粤语谣言检测模型BGK中,完成对社交网络平台上的粤语谣言的检测。
2.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤1的爬虫程序选用Selenium作为爬虫程序框架,选取Python脚本语言;在程序中,创建浏览器对象,使Selenium框架与浏览器驱动建立联系,Selenium调用远程控制服务器,打开浏览器并按照脚本要求,执行对页面跳转和数据获取的操作;使用Selenium框架爬取平台页面信息的流程如下:
1)通过Selenium创建浏览器对象,并与浏览器驱动建立联系;
2)通过Core唤起浏览器页面,进行基础配置,并跳转网页;
3)控制器通过XPath定位元素,模拟登录和页面点击的处理;
4)通过爬虫控制器对所需爬取内容进行相对位置定位;
5)各对象被依次获取,并在脚本中解析出对应属性存储;
采用Selenium提供的相对位置定位以及父子层级切换定位,实现数据准确定位与爬取;使用睡眠函数限制爬取速度,并对每天爬取数量与时间进行限定,及时切换IP,清除浏览器记录以应对爬取限制;
将爬虫挂载到服务器进行持续爬取,使用错误告警结构进行编程防止脚本意外中断,以保证爬取数据量。
3.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤1中数据标注时,要求两名标注者独立浏览数据集中的所有推文,然后通过计算Kappa系数来评估标注者之间的一致性;Kappa系数的定义如下式:
其中,K为Kappa系数,A1为第一个标注者标注的推文集合,B为第二个标注者标注的推文集合,C为第一个标注者无法判断是否为谣言的推文集合,D为第二个标注者无法判断是否为谣言的推文集合,E是所有推文的集合,|.|是一个集合的大小;
当Kappa系数大于等于0.9,则表明标注者在识别谣言方面达成高度的共识。
4.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述文本特征向量提取包括:
首先将BERT-Base-Chinese中文预训练模型在粤语语料上进行再训练,再使用Network-CR-Dataset数据集对再训练后的BERT模型进行微调,从而得到一个粤语词嵌入提取器;同时将原推文及转推/评论数据V={V1,V2,...,Vm}标记化后得到V'={V1',V2',...,Vm'},并将V'输入至经过再训练和微调的BERT模型,得到词向量W={w1,w2,...,wm},如下式所示:
V'=Tokenize(V) (2)
W=BERT(V') (3)
其中,Tokenize为分词函数,BERT为预训练模型,L为最大序列长度。
5.根据权利要求4所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述异质图卷积神经网络包含2个图卷积层,将外部知识的邻接矩阵A和特征矩阵X输入至异质GCN网络,如下式所示:
其中,和/>分别表示第1层和第2层的隐含特征,n为节点数,d为每个节点隐含特征的维度;/>是归一化的邻接矩阵,/>代表第i个节点的度,A为外部知识的邻接矩阵,IN为单位矩阵;/>为节点的度;W0和W1为可训练的权重矩阵;σ(·)为激活函数;
在每个图卷积层上使用Dropout来避免出现过拟合问题;最后隐含特征经过全连接层得到外部知识的,其中m为原推文的数量,
6.根据权利要求5所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述结构特征向量的提取包括:
1)推文传播图构建
给定推文的原始推文、转发和评论信息,使用Cm={c1,c2,...,cm}表示全部的谣言数据集,其中ci表示第i个谣言事件表示为其中/>表示第j个转发和评论,ni表示谣言事件ci包含的评论和转发的总数;Gi表示谣言事件ci构成的谣言传播图,定义为Gi={Vi,Ei},其中节点集合为/>ri是传播图中的根结点,边集合每一条边/>表示推文和转推、评论之间的有向关系;对于的邻接矩阵,初始值计算为:
其中,当边在边集合Ei中时,初始值可取为1,否则取为0;对于每一个谣言事件ci,都有一个对应的标签yi∈Y,Y表示不同的种类取值,目标是训练一个分类器f:Cm→Y;
2)结构特征提取
基于原始推文和转发、评论的关系,对于每一个谣言事件ci构建了传播图Gi={Vi,Ei},然后构建出谣言事件邻接矩阵针对图结构中的每个节点构建文本特征xi,特征矩阵表示为/>
使用双向的图卷积神经网络来计算图节点表示,其中包括一个自顶向下的图卷积神经网络和自底向上的图卷积神经网络,对应的邻接矩阵分别表示为ATD=Ar和ABU=Ar T;自顶向下和自底向上的传播特征分别通过两层的GCN获取如下:
其中,是正则化后的邻接矩阵ABU,/>和/>为隐藏特征,W0 BU和W1 BU为权值矩阵,σ是非线性激活函数;同理得到自顶向下的隐藏特征/>和/>
同时,为充分利用原始推文的特征,将k-1层的根节点特征与k层的隐层特征进行连接得到分散特征/>
其中,concat表示特征连接;同理得到传播特征
通过上述获取的传播特征和分散特征进行连接,获取原始推文和转发、评论的结构特征:
其中,Tn为包含原始推文和转发、评论的结构特征。
7.根据权利要求6所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤3中外部知识嵌入具体包括:
步骤3.1:构建外部知识图
针对原始推文所包含的种类,构建包括官方声明和实体描述的有向异质图ω=(V0,E0),图包含两种不同类型的节点:官方声明和实体描述其中xr代表官方声明的数量,yd代表实体描述的数量;边E0中包括双向连接边和无向连接边,外部知识图的具体构建方式如下所示:
原始推文包含P个具体方面,表示为Q={q1,q2,q3,...,qP};首先,将每个方面下所构建的官方声明进行双向连接,然后针对官方声明和原始推文中所包含的实体,将相同方面下的官方声明和实体描述进行双向连接,并将相同类型下的实体描述与其他的实体描述建立无向连接边;
步骤3.2:异质图卷积神经网络构建
通过构建的有向异质图ω=(V0,E0),使用有向的异质图卷积神经网络来表征学习官方声明和实体描述,首先使用粤语语料对基于中文预训练的BERT模型进行微调,获取节点嵌入特征矩阵节点嵌入特征矩阵X′={x1,x2,x3,...,x|V|}包括异质图上各节点的特征,|V|表示外部知识的数量,N表示外部知识的嵌入特征维度;定义A为外部知识的邻接矩阵,De为外部知识的度矩阵;然后异质图卷积层通过聚类第i层邻接矩阵的特征来更新第i+1层聚类特征:
H(i+1)=σ(A'HiWi) (14)
其中,I是|V|维的单位矩阵,A'是经过自连接和正则化后的邻接矩阵,Wi是第i层的权值矩阵,Hi是第i层的特征矩阵,σ是非线性激活函数,Hi+1是聚合特征后的i+1层特征矩阵;
步骤3.3:通过构建的异质图卷积网络,得到外部知识的嵌入表示KV={k1,k2,k3,...,k|V|}。
8.根据权利要求7所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤3中对比特征提取具体包括:
原始推文的文本表示为T={t1,t2,t3,...,t|C|},其中|C|表示数据集中原始推文的个数,通过构建的粤语语料对基于中文预训练的BERT模型进行微调,然后通过BERT获取文本特征如下:
Bn=BERT(T) (15)
其中,Bn={b1,b2,b3,...,b|C|}是原始推文的文本特征,n代表此推文在数据集中的排序;然后通过对比原始推文的文本特征Bn和知识嵌入特征kn,得到他们的对比特征:
Cn=fcmp(Bn,kn) (16)
其中,fcmp()是对比函数,设计的对比函数为fcmp(x,y)=G[x-y,x⊙y],G为维度转换矩阵,x和y分别对应原始推文的文本特征Bn和知识嵌入特征向量kn,⊙表示元素积。
9.根据权利要求8所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤4中特征的拼接具体为:将原始推文的文本特征Bn、对比特征Cn和基于转推和评论的结构特征Tn进行连接,得到向量然后将Fn输入到Softmax层,表示为Z=Softmax(WbFn+b),其中Wb是全连接层的参数矩阵,b是全连接层的偏置矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526765.8A CN116776889A (zh) | 2023-05-11 | 2023-05-11 | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526765.8A CN116776889A (zh) | 2023-05-11 | 2023-05-11 | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116776889A true CN116776889A (zh) | 2023-09-19 |
Family
ID=87988579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310526765.8A Pending CN116776889A (zh) | 2023-05-11 | 2023-05-11 | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776889A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454020A (zh) * | 2023-09-28 | 2024-01-26 | 广州大学 | 基于图卷积神经网络的在线社交网络用户表示方法及装置 |
CN117573988A (zh) * | 2023-10-17 | 2024-02-20 | 广东工业大学 | 一种基于多模态深度学习的冒犯性评论识别方法 |
CN118520868A (zh) * | 2024-07-19 | 2024-08-20 | 西安科技大学 | 基于双向特征增强异构图卷积的恶意社交机器人检测方法 |
-
2023
- 2023-05-11 CN CN202310526765.8A patent/CN116776889A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454020A (zh) * | 2023-09-28 | 2024-01-26 | 广州大学 | 基于图卷积神经网络的在线社交网络用户表示方法及装置 |
CN117454020B (zh) * | 2023-09-28 | 2024-08-06 | 广州大学 | 基于图卷积神经网络的在线社交网络用户表示方法及装置 |
CN117573988A (zh) * | 2023-10-17 | 2024-02-20 | 广东工业大学 | 一种基于多模态深度学习的冒犯性评论识别方法 |
CN117573988B (zh) * | 2023-10-17 | 2024-05-14 | 广东工业大学 | 一种基于多模态深度学习的冒犯性评论识别方法 |
CN118520868A (zh) * | 2024-07-19 | 2024-08-20 | 西安科技大学 | 基于双向特征增强异构图卷积的恶意社交机器人检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bangyal et al. | Detection of Fake News Text Classification on COVID‐19 Using Deep Learning Approaches | |
Tu et al. | Rumor2vec: a rumor detection framework with joint text and propagation structure representation learning | |
Cao et al. | Automatic rumor detection on microblogs: A survey | |
Yu et al. | Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts | |
Lu et al. | GCAN: Graph-aware co-attention networks for explainable fake news detection on social media | |
Zhou et al. | Fake news: A survey of research, detection methods, and opportunities | |
Zhang et al. | BDANN: BERT-based domain adaptation neural network for multi-modal fake news detection | |
Boididou et al. | Detection and visualization of misleading content on Twitter | |
Lu et al. | A deep architecture for matching short texts | |
Papadopoulou et al. | A corpus of debunked and verified user-generated videos | |
CN111159395A (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN116776889A (zh) | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
Lin et al. | A graph convolutional encoder and decoder model for rumor detection | |
Anoop et al. | Leveraging heterogeneous data for fake news detection | |
Liu et al. | Fact-based visual question answering via dual-process system | |
Xiong et al. | TRIMOON: Two-Round Inconsistency-based Multi-modal fusion Network for fake news detection | |
CN115688798A (zh) | 一种可信证据推理和时空特征聚合的可解释虚假信息检测方法及装置 | |
Thandaga Jwalanaiah et al. | Effective deep learning based multimodal sentiment analysis from unstructured big data | |
Ma et al. | Intelligent clickbait news detection system based on artificial intelligence and feature engineering | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
Sharma et al. | Construction of large-scale misinformation labeled datasets from social media discourse using label refinement | |
Sharma et al. | Fake news detection using deep learning | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
Gao et al. | Identifying informative tweets during a pandemic via a topic-aware neural language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |