CN113268675A - 一种基于图注意力网络的社交媒体谣言检测方法和系统 - Google Patents
一种基于图注意力网络的社交媒体谣言检测方法和系统 Download PDFInfo
- Publication number
- CN113268675A CN113268675A CN202110542802.5A CN202110542802A CN113268675A CN 113268675 A CN113268675 A CN 113268675A CN 202110542802 A CN202110542802 A CN 202110542802A CN 113268675 A CN113268675 A CN 113268675A
- Authority
- CN
- China
- Prior art keywords
- matrix
- rumor
- vector
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 239000011159 matrix material Substances 0.000 claims abstract description 183
- 239000013598 vector Substances 0.000 claims abstract description 145
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 230000009849 deactivation Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 11
- 230000008901 benefit Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图注意力网络的社交媒体谣言检测方法,其首先获取待检测的谣言事件,对待检测的谣言事件对应的文本进行预处理,以得到预处理后的文本,并使用BERT‑Large‑Cased预训练词向量模型将预处理后的文本转换成文本向量矩阵,然后根据待检测的谣言事件对应的用户之间的转发、评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该用户关系结构图构建邻接矩阵,最后将文本向量矩阵、以及邻接矩阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测结果。本发明能够解决现有基于深度学习的谣言检测方法由于不能高效的提取谣言传播结构特征和聚合邻接节点特征,导致影响谣言检测准确度的技术问题。
Description
技术领域
本发明属于人工智能中的深度学习和自然语言处理技术领域,更具体 地,涉及一种基于图注意力网络(Graph Attention Network,简称GAT)的 社交媒体谣言检测方法和系统。
背景技术
如今,越来越多的人在社交平台上分享自己的意见、经验和观点;以 Twitter为例,其每天发送的新推文超过5亿条,即每秒近5787条。
然而,如今的许多社交平台已经逐渐成为滋生虚假消息和散布谣言的 理想场所。因此,如何快速、准确的识别社交平台上的谣言是当务之急。目 前的谣言检测方法主要分为基于机器学习和基于深度学习两类。
针对基于机器学习的谣言检测方法而言,其集中于谣言的浅层特征, 其中有三个特征效果突出,一是文本特征,如用户的评论和回复等;二是 用户特征,如用户的关注数,用户的粉丝数,用户的星座,生日,兴趣等; 三是传播特征,如传播的时间序列,转发的帖子数等。利用这些特征训练 机器学习算法,如支持向量机、决策树、随机森林等来实现谣言检测。然 而,基于机器学习的这些谣言检测方法主要依赖于特征工程,提取特征的 效率较低,从而导致检测过程非常费时费力。
针对基于深度学习的谣言检测方法而言,虽然通过卷积神经网络、循 环神经网络、长短期记忆网络等深度学习模型,能自动化的从谣言事件中 提取特征,从而解决了现有基于机器学习的谣言检测方法提取特征效率低 的问题。但是,现有基于深度学习的谣言检测方法仍然存在一些不可忽略 的缺陷:第一、卷积神经网络设计的初衷是用于捕获结构化数据的特征, 比如图像数据等,循环神经网络,长短期记忆网络等模型主要是用于处理固定长度的数据,而在谣言事件级别检测中,每个谣言事件的帖子数不是 固定的,因此该基于深度学习的谣言检测方法不能高效地提取谣言传播结 构特征和聚合邻接节点特征,进而导致谣言检测准确率偏低;第二、在谣 言事件中,原贴子往往包含着更多有利于谣言检测的特征,随着谣言的传 播,越远离原贴子的节点包含的利于谣言检测的特征越少,这也会导致谣 言检测准确率偏低;第三,基于深度学习的谣言检测方法大部分都是基于 传统的词向量模型(例如one-hot、Word2Vec、Tf-idf等)来表示文本,该 词向量模型表示文本的能力有限,不能根据语境动态调整词语对词向量表 示,进而会导致谣言检测准确率偏低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于图注意 力网络的社交媒体谣言检测方法和系统。其目的在于,解决现有基于深度 学习的谣言检测方法由于不能高效的提取谣言传播结构特征和聚合邻接节 点特征,导致影响谣言检测准确度的技术问题;以及由于远离原贴子的节点 包含的有利于谣言检测的特征较少,导致影响谣言检测准确度的技术问题; 以及由于使用传统词向量对文本进行编码并不能根据语境动态调整词向量, 导致影响谣言检测准确度的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于图注意力 网络的社交媒体谣言检测方法,包括如下步骤:
(1)获取待检测的谣言事件,对待检测的谣言事件对应的文本进行预 处理,以得到预处理后的文本,并使用BERT-Large-Cased预训练词向量模 型将预处理后的文本转换成文本向量矩阵。
(2)根据步骤(1)得到的待检测的谣言事件对应的用户之间的转发、 评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该用户关系结 构图构建邻接矩阵,其中V表示节点集合,每个节点表示待检测的谣言事 件对应的一个用户,E表示边的集合,每条边表示两个用户之间的转发、评 论或回复关系。
(3)将步骤(1)得到的文本向量矩阵、以及步骤(2)得到的邻接矩 阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测结果。
优选地,步骤(1)首先是使用正则表达式对待检测的谣言事件对应的 文本进行清洗(即删除一些特殊符号以及网页链接等),然后使用 BERT-Large-Cased预训练词向量模型将清洗后的每条文本转换成1024维向 量,所有文本对应的1024维向量构成文本向量矩阵。
步骤(3)中,根据用户关系结构图构建邻接矩阵具体为:对谣言事件 对应的节点进行编号1到N,然后对于其中任意两个节点i和j而言,如果 对应的用户之间有转发、评论或回复关系,则邻接矩阵中第i行第j列的元 素Aij=1,否则为0,这样就可以得到维度为N·N的邻接矩阵A,其中N 为谣言事件对应的节点总数,即谣言事件对应的用户总数,其中i和j均∈ [1,N]。
优选地,谣言检测模型包含依次连接的第一图注意力网络、第二图注 意力网络、原帖子增强网络,以及全连接网络;
第一图注意力网络包括n个单头图注意力网络,其中n的取值为大于1 的自然数;
对于单头图注意力网络而言,其具体结构为:
第一层是特征变换层,输入N·d的文本向量矩阵,利用一个d·h的矩阵, 输出一个N·h特征矩阵,其中h为隐含层向量长度,d为编码后的文本向量 长度;
第二层是注意力计算层,其输入为第一层得到的N·h矩阵和N·N用户 行为关系的邻接矩阵,输出为N·N的注意力权值矩阵。
第三层是邻接顶点特征聚合层,其将第一层N·h矩阵和第二层得到N·N 的注意力权值矩阵进行矩阵乘法,以得到N·h的特征矩阵。
优选地,对于第一图注意力网络而言,其通过将n个单头图注意力网 络输出的N·h的特征矩阵进行拼接,就能得到一个N·(n*h)的特征矩阵;
第二图注意力网络是一个单头图注意力网络,其输入为第一图注意力 网络输出的N·(n*h)的特征矩阵,输出为N·h的特征矩阵。
优选地,原帖子增强网络的具体结构为:
第一层是拼接层,其输入为经过第二图注意力网络输出的特征矩阵, 该层使用N·h的原帖子特征矩阵进行拼接,输出为经过增强后的特征矩阵, 维度为N·2h;
第二层是池化层,其输入为增强后的特征矩阵,输出为经过池化后的 特征向量,维度为1·2h;
全连接网络具体结构为:
第一层是特征变换层,其输入为经过原帖子增强网络池化后的特征向 量,该层使用2h·h维的权重矩阵,输出维度为h的特征向量。
第二层是特征降维层,其输入为第一层输出的特征向量,该层使用h·h/2 维的权重矩阵,输出为降维后的特征向量,维度为h/2。
第三层是谣言检测结果层,其输入为第二层降维后的特征向量,该层 使用h/2·2维权重矩阵,输出为谣言检测结果。
优选地,谣言检测模型是通过以下步骤训练得到的:
(3-1)获取谣言数据,按照8:2的比例将谣言数据划分为训练集和测 试集,对训练集中每个谣言数据对应的文本进行预处理,以得到预处理后 的文本,使用BERT-Large-Cased预训练词向量模型将预处理后的文本转换 成文本向量矩阵X,根据训练集中每个谣言数据对应的用户之间的转发、 评论或回复关系构建用户关系结构图,并根据该用户关系结构图构建邻接 矩阵A。
(3-2)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入到第 一图注意力网络中,以得到N·(n*h)的特征向量矩阵T;
(3-3)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入第一 图注意力网络中第一个单头图注意力网络的特征变换层,以得到维度为N·h 的特征矩阵H;
(3-4)将步骤(3-3)得到的特征矩阵H输入第一图注意力网络中第一 个单头图注意力网络的注意力计算层,以得到每个谣言事件对应的节点之 间的注意力系数;
(3-5)对步骤(3-4)得到的每个谣言事件对应的节点之间的注意力系 数eij进行归一化处理,以得到归一化后的注意力系数αij;
(3-6)将步骤(3-3)得到的特征矩阵H和步骤(3-5)归一化后的注 意力系数αij输入第一图注意力网络中第一个单头图注意力网络的邻接顶点 特征聚合层,以得到N·h的特征矩阵;
(3-7)针对第一图注意力网络中剩余的n-1个单头图注意力网络中的 每一个而言,重复上述步骤(3-3)至(3-6),从而得到n-1个维度为N·h 的特征矩阵,将这n-1个维度为N·h的特征矩阵与步骤(3-6)得到的特征 矩阵进行拼接,从而得到N·(n*h)的特征矩阵;
(3-8)对步骤(3-2)得到的特征向量矩阵T进行drop_out处理,以得 到N·(n*h)的特征向量矩阵T`,其中随机失活的比例为0.5。
(3-9)将步骤(3-8)得到的特征向量矩阵T`和步骤(3-1)得到的邻 接矩阵A输入到第二图注意力网络中,以得到每个谣言数据的高阶表示所 对应的向量矩阵W,其维度为N·h。
(3-10)将步骤(3-9)得到的向量矩阵W中的第一行向量w0复制n 份,并沿着y轴的方向对复制的n份向量进行拼接,以得到大小为N·h的 向量矩阵W0;
(3-11)将步骤(3-9)得到的向量矩阵W和步骤(3-10)得到向量矩 阵W0进行拼接,以获得特征向量矩阵W`,其维度为N·(2*h);
(3-12)将步骤(3-11)得到的特征向量矩阵W`输入全连接网络进行 分类,以获得是否为谣言的概率向量p,其中概率向量P的长度为2;
(3-13)对步骤(3-12)得到的概率向量p先进行softmax运算以得到 归一化后的概率向量p`,之后对归一化后的概率向量p`进行对数运算,以 得到最后的分类标签向量y,其长度为2;
(3-14)根据步骤(3-13)得到的分类标签向量y计算损失函数,并利 用该损失函数对谣言检测模型进行迭代训练,直到该谣言检测模型收敛为 止,从而得到初步训练好的谣言检测模型。
(3-15)使用步骤(3-1)得到的测试集对步骤(3-14)初步训练好的 谣言检测模型进行验证,直到得到的分类精度达到最优为止,从而得到训 练好的谣言检测模型。
优选地,步骤(3-3)的计算公式为·:
H=Wh×X
其中Wh表示第一图注意力网络的初始权值参数矩阵,×表示矩阵乘法; 步骤(3-4)的计算公式为:
eij=a([hi||hj]),j∈Ai
其中hi表示步骤(3-3)得到的特征矩阵H中的第i行向量,Ai为邻接 矩阵A中的第i行向量,j∈Ai表示为邻接矩阵A中的第i行向量值为1 的节点,[hi||hj]表示对hi和hj进行拼接,a(.)表示把拼接后的特征通过前 馈神经网络映射到实数,这样就得到任意两个节点之间的注意系数eij,其 中如果Aij为0,则eij也为0,表示节点i和节点j没有转发、评论或回复关 系。
优选地,步骤(3-5)的计算公式为:
其中LeakyReLU(x)为激活函数,其中a为固定常数,a∈[0,1],公式表 示如下:
exp(x)为指数函数,公式表示如下:
exp(x)=ex
步骤(3-6)具体为:
首先根据以下公式获得节点特征:
h'i=σ(∑j∈Aiαijhj)
其中σ(x)为elu激活函数,其公式表示如下:
k为固定常数,k∈[0,1];
然后通过将得到的h'i按行进行拼接,就能得到维度为N·h的特征矩阵。
优选地,步骤(3-13)中的softmax运算的公式为:
对数运算的公式表示如下:
yi=loge(p'i)
步骤(3-14)使用的损失函数Loss为:
Loss=-(y0+y1)/2
其中y0和y1分别表示分类标签向量y中的第一个和第二个元素。
按照本发明的另一方面,提供了一种基于图注意力网络的社交媒体谣 言检测系统,包括:
第一模块,用于获取待检测的谣言事件,对待检测的谣言事件对应的 文本进行预处理,以得到预处理后的文本,并使用BERT-Large-Cased预训 练词向量模型将预处理后的文本转换成文本向量矩阵。
第二模块,用于根据第一模块得到的待检测的谣言事件对应的用户之 间的转发、评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该 用户关系结构图构建邻接矩阵,其中V表示节点集合,每个节点表示待检 测的谣言事件对应的一个用户,E表示边的集合,每条边表示两个用户之间 的转发、评论或回复关系。
第三模块,用于将第一模块得到的文本向量矩阵、以及第二模块得到 的邻接矩阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测 结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:
1、由于本发明采用了步骤(3-3)到步骤(3-7),其通过采用第一图注 意力网络,动态的给邻接节点赋予相应的权值,能更好的表示每个节点的 信息,聚合邻接节点特征,通过采用第二图注意力网络,能更好的提取谣 言传播结构高阶特征。因此能够解决现有基于深度学习的谣言检测方法不 能高效的提取谣言传播结构特征和聚合邻接节点特征,进而影响谣言检测 分类准确度的技术问题;
2、由于本发明采用了步骤(3-10)和步骤(3-11),其通过将原贴子的 特征信息聚合到每个节点上,能更好的利用原贴子信息,因此能够解决现 有基于深度学习的谣言检测方法由于远离原贴子的节点包含的有利于谣言 检测的特征较少,进而影响谣言检测分类准确率的技术问题;
3、由于本发明采用了步骤(3-1),其使用了BERT-Large-Cased预训练 词向量模型对谣言文本进行编码,因此能够解决现有基于深度学习的谣言 检测方法由于使用传统词向量对文本进行编码不能根据语境动态调整词向 量,进而影响谣言检测分类准率的技术问题;
4、本发明的方法具有普适性,能够适用于各种情况下的谣言检测任务。
附图说明
图1是本发明基于图注意力网络的社交媒体谣言检测方法的整体框架 示意图;
图2是本发明基于图注意力网络的社交媒体谣言检测方法的流程图;
图3是本发明中使用的谣言检测模型的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。
本发明的基本思路在于,从三个方面提升谣言检测的效果,一方面利 用第一图注意力网络动态的给谣言传播节点赋予权值,更好的聚合邻接顶 点的信息,同时利用第二图注意力网络能捕获到谣言传播结构的高阶特征; 另一方面,利用原帖子增强网络,聚合特征,更好的利用了原帖子的信息。 最后,用BERT-Large-Cased预训练词向量模型对谣言事件文本进行编码, 解决了一词多义的问题;
在本发明的实验中,通过在谣言检测的数据集上测试,本发明发现在 多个数据集上的谣言检测效果均有提升,以数据集PHEME2017为例,准确 率约提升7%,查全率约提升9%,召回率约提升15.7%,F1值约提升12.6%。 其原因在于利用BERT-Large-Cased预训练词向量模型对谣言事件文本进行 编码,解决了一词多义的问题。利用第一图注意力网络动态的给邻接节点 赋予相应的权值,能更好的表示每个节点的信息,聚合邻接节点特征。第二图注意力网络,能更好的提取谣言传播结构高阶特征。最后,利用原帖 子增强网络的方法,聚合特征,更好的利用了原帖子的信息,三个方面提 高谣言检测的结果。
如图1和图2所示,本发明提供了一种基于图注意力网络的社交媒体 谣言检测方法方法,包括如下步骤:
(1)获取待检测的谣言事件,对待检测的谣言事件对应的文本进行预 处理,以得到预处理后的文本,并使用BERT-Large-Cased预训练词向量模 型将预处理后的文本转换成文本向量矩阵。
具体而言,本步骤首先是使用正则表达式对待检测的谣言事件对应的 文本进行清洗(即删除一些特殊符号(例如#,@等)以及网页链接等), 然后使用BERT-Large-Cased预训练词向量模型将清洗后的每条文本转换成 1024维向量,所有文本对应的1024维向量构成文本向量矩阵。
(2)根据步骤(1)得到的待检测的谣言事件对应的用户之间的转发、 评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该用户关系结 构图构建邻接矩阵,其中V表示节点集合,每个节点表示待检测的谣言事 件对应的一个用户,E表示边的集合,每条边表示两个用户之间的转发、评 论或回复关系。
本步骤中,根据用户关系结构图构建邻接矩阵具体为:对谣言事件对 应的节点进行编号(1到N,其中N为谣言事件对应的节点总数,即谣言 事件对应的用户总数),然后对于其中任意两个节点i和j而言(其中i和j 均∈[1,N]),如果对应的用户之间有转发、评论或回复关系,则邻接矩阵 中第i行第j列的元素Aij=1,否则为0,这样就可以得到维度为N·N的邻 接矩阵A。
(3)将步骤(1)得到的文本向量矩阵、以及步骤(2)得到的邻接矩 阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测结果。
如图3所示,本发明的谣言检测模型包含依次连接的第一图注意力网 络、第二图注意力网络、原帖子增强网络,以及全连接网络四个部分。
第一图注意力网络包括n个单头图注意力网络,其中n的取值为大于1 的自然数,优选为5;
对于单头图注意力网络而言,其具体结构为:
第一层是特征变换层,输入N·d的文本向量矩阵,利用一个d·h的矩阵, 输出一个N·h特征矩阵,其中h为隐含层向量长度(其大小为64),d为编 码后的文本向量长度(其等于1024);
本层通过两个矩阵相乘可以提取编码后的文本向量特征,同时降低文 本向量长度提高运行速度。
第二层是注意力计算层,其输入为第一层得到的N·h矩阵和N·N用户 行为关系的邻接矩阵,输出为N·N的注意力权值矩阵。
第三层是邻接顶点特征聚合层,其将第一层N·h矩阵和第二层得到N·N 的注意力权值矩阵进行矩阵乘法,以得到N·h的特征矩阵。
对于第一图注意力网络而言,由于每个单头图注意力网络都会得到1 个N·h的特征矩阵,最终通过将n个单头图注意力网络输出的N·h的特征 矩阵进行拼接,就能得到一个N·(n*h)的特征矩阵。
第二图注意力网络是一个单头图注意力网络,其输入为第一图注意力 网络输出的N·(n*h)的特征矩阵,输出为N·h的特征矩阵。
原帖子增强网络的具体结构为:
第一层是拼接层,其输入为经过第二图注意力网络输出的特征矩阵, 该层使用N·h的原帖子特征矩阵进行拼接,输出为经过增强后的特征矩阵, 维度为N·2h;
第二层是池化层,其输入为增强后的特征矩阵,输出为经过池化后的 特征向量,维度为1·2h。
全连接网络具体结构为:
第一层是特征变换层,其输入为经过原帖子增强网络池化后的特征向 量,该层使用2h·h维的权重矩阵,输出维度为h的特征向量。
第二层是特征降维层,其输入为第一层输出的特征向量,该层使用h·h/2 维的权重矩阵,输出为降维后的特征向量,维度为h/2。
第三层是谣言检测结果层,其输入为第二层降维后的特征向量,该层 使用h/2·2维权重矩阵,输出为谣言检测结果。
具体而言,本发明的谣言检测模型是通过以下步骤训练得到的:
(3-1)获取谣言数据,按照8:2的比例将谣言数据划分为训练集和测 试集,对训练集中每个谣言数据对应的文本进行预处理,以得到预处理后 的文本,使用BERT-Large-Cased预训练词向量模型将预处理后的文本转换 成文本向量矩阵X,根据训练集中每个谣言数据对应的用户之间的转发、 评论或回复关系构建用户关系结构图,并根据该用户关系结构图构建邻接 矩阵A。
本步骤中对文本进行预处理并生成文本向量矩阵的过程和上述步骤(1) 完全相同,构建邻接矩阵的过程和上述步骤(2)完全相同,在此不再赘述;
本步骤数据的划分步骤如下:首先将所有谣言数据随机打乱,之后将 所有谣言数据均匀的划分成5份,从5份数据中取任意1份作为测试集, 其余4份作为训练集。
本步骤(3-1)的优点在于,使用BERT-Large-Cased预训练词向量模型 对谣言事件文本进行编码,解决了一词多义的问题。
(3-2)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入到第 一图注意力网络中,以得到N·(n*h)的特征向量矩阵T;
(3-3)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入第一 图注意力网络中第一个单头图注意力网络的特征变换层,以得到维度为N·h 的特征矩阵H;
具体而言,本步骤的计算公式为·:
H=Wh×X
其中Wh表示第一图注意力网络的初始权值参数矩阵,×表示矩阵乘法。
(3-4)将步骤(3-3)得到的特征矩阵H输入第一图注意力网络中第一 个单头图注意力网络的注意力计算层,以得到每个谣言事件对应的节点之 间的注意力系数;
具体而言,本步骤的计算公式为:
eij=a([hi||hj]),j∈Ai
其中hi表示步骤(3-3)得到的特征矩阵H中的第i行向量,Ai为邻接 矩阵A中的第i行向量,j∈Ai表示为邻接矩阵A中的第i行向量值为1 的节点,[hi||hj]表示对hi和hj进行拼接,a(.)表示把拼接后的特征通过前 馈神经网络映射到实数,这样就得到任意两个节点之间的注意系数eij,其 中如果Aij为0,则eij也为0,表示节点i和节点j没有转发、评论或回复关 系。
(3-5)对步骤(3-4)得到的每个谣言事件对应的节点之间的注意力系 数eij进行归一化处理,以得到归一化后的注意力系数αij;
具体而言,本步骤的计算公式为:
其中LeakyReLU(x)为激活函数,其中a为固定常数,a∈[0,1],公式表 示如下:
exp(x)为指数函数,公式表示如下:
exp(x)=ex
通过上述公式就能得到归一化后注意力系数αij。
(3-6)将步骤(3-3)得到的特征矩阵H和步骤(3-5)归一化后的注 意力系数αij输入第一图注意力网络中第一个单头图注意力网络的邻接顶点 特征聚合层,以得到N·h的特征矩阵;
具体而言,本步骤首先根据以下公式获得节点特征:
h'i=σ(∑j∈Aiαijhj)
其中σ(x)为elu激活函数,其公式表示如下:
k为固定常数,k∈[0,1],一般取值为1。
然后通过将得到的h'i按行进行拼接,就能得到维度为N·h的特征矩阵。
(3-7)针对第一图注意力网络中剩余的n-1个单头图注意力网络中的 每一个而言,重复上述步骤(3-3)至(3-6),从而得到n-1个维度为N·h 的特征矩阵,将这n-1个维度为N·h的特征矩阵与步骤(3-6)得到的特征 矩阵进行拼接,从而得到N·(n*h)的特征矩阵;
上述步骤(3-1)到(3-7)的优点在于,利用图注意力网络动态的给邻 接节点赋予相应的权值,能更好的表示每个节点的信息,聚合邻接节点特 征。
(3-8)对步骤(3-2)得到的特征向量矩阵T进行drop_out处理,以得 到N·(n*h)的特征向量矩阵T`,其中随机失活的比例为0.5。
上述步骤(3-8)的有优点在于,能防止模型过拟合,提高模型的泛化 能力。
(3-9)将步骤(3-8)得到的特征向量矩阵T`和步骤(3-1)得到的邻 接矩阵A输入到第二图注意力网络中,以得到每个谣言数据的高阶表示所 对应的向量矩阵W,其维度为N·h。
上述步骤(3-9)的有优点在于,能更好的提取谣言传播结构高阶特征。
(3-10)将步骤(3-9)得到的向量矩阵W中的第一行向量w0复制n 份,并沿着y轴的方向对复制的n份向量进行拼接,以得到大小为N·h的 向量矩阵W0;
(3-11)将步骤(3-9)得到的向量矩阵W和步骤(3-10)得到向量矩 阵W0进行拼接,以获得特征向量矩阵W`,其维度为N·(2*h);
上述步骤(3-10)到(3-11)的优点在于,利用原帖子增强网络的方法, 聚合特征,能更好的利用了原帖子的信息。
(3-12)将步骤(3-11)得到的特征向量矩阵W`输入全连接网络进行 分类,以获得是否为谣言的概率向量p,其中概率向量P的长度为2;
(3-13)对步骤(3-12)得到的概率向量p先进行softmax运算以得到 归一化后的概率向量p`,之后对归一化后的概率向量p`进行对数运算,以 得到最后的分类标签向量y,其长度为2;
具体而言,本步骤softmax运算的公式为:
对数运算的公式表示如下:
yi=loge(p'i)
(3-14)根据步骤(3-13)得到的分类标签向量y计算损失函数,并利 用该损失函数对谣言检测模型进行迭代训练,直到该谣言检测模型收敛为 止,从而得到初步训练好的谣言检测模型。
本步骤使用的损失函数Loss为:
Loss=-(y0+y1)/2
其中y0和y1分别表示分类标签向量y中的第一个和第二个元素。
(3-15)使用步骤(3-1)得到的测试集对步骤(3-14)初步训练好的 谣言检测模型进行验证,直到得到的分类精度达到最优为止,从而得到训 练好的谣言检测模型。
实验结果
本发明的实验环境:在Ubuntu 18.04操作系统下,CPU为 Intel(R)Core(TM)i9-7900X,GPU为2块NVIDIA 1080Ti 12GB,内存为64GB DDR4,采用Pytorch编程实现本发明的算法。具体设置如下:batch size大 小为256,初始学习率为1e-3,正则化权重1e-4。
为了说明本发明方法的有效性以及对于分类效果的提升,在多个数据 集上进行了测试,以PHEME2017数据集为例,该数据集的统计信息如下表 1,将本发明得到的测试结果与当前常用的方法进行对比,评估结果如下表 2:
表1
表2
根据上表2记载的在PHEME2017数据集下的实验结果,可以看到本发 明中提出的基于图注意力网络的社交媒体谣言检测方法,在准确率、查准 率、召回率、F1值的四个指标上都优于现有的方法。
本发明提出的基于图注意力网络的社交媒体谣言检测方法,一方面利 用第一图注意力网络动态的给邻接节点赋予相应的权值,能更好的表示每 个节点的信息,聚合邻接节点特征。第二图注意力网络,能更好的提取谣 言传播结构高阶特征。另一方面利用原帖子增强网络的方法,聚合特征, 更好的利用了原帖子的信息。最后用BERT-Large-Cased预训练词向量模型 对谣言事件文本进行编码,解决了一词多义的问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图注意力网络的社交媒体谣言检测方法,其特征在于,包括如下步骤:
(1)获取待检测的谣言事件,对待检测的谣言事件对应的文本进行预处理,以得到预处理后的文本,并使用BERT-Large-Cased预训练词向量模型将预处理后的文本转换成文本向量矩阵。
(2)根据步骤(1)得到的待检测的谣言事件对应的用户之间的转发、评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该用户关系结构图构建邻接矩阵,其中V表示节点集合,每个节点表示待检测的谣言事件对应的一个用户,E表示边的集合,每条边表示两个用户之间的转发、评论或回复关系。
(3)将步骤(1)得到的文本向量矩阵、以及步骤(2)得到的邻接矩阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测结果。
2.根据权利要求1所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,
步骤(1)首先是使用正则表达式对待检测的谣言事件对应的文本进行清洗(即删除一些特殊符号以及网页链接等),然后使用BERT-Large-Cased预训练词向量模型将清洗后的每条文本转换成1024维向量,所有文本对应的1024维向量构成文本向量矩阵。
步骤(2)中,根据用户关系结构图构建邻接矩阵具体为:对谣言事件对应的节点进行编号1到N,然后对于其中任意两个节点i和j而言,如果对应的用户之间有转发、评论或回复关系,则邻接矩阵中第i行第j列的元素Aij=1,否则为0,这样就可以得到维度为N·N的邻接矩阵A,其中N为谣言事件对应的节点总数,即谣言事件对应的用户总数,其中i和j均∈[1,N]。
3.根据权利要求1或2所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,
谣言检测模型包含依次连接的第一图注意力网络、第二图注意力网络、原帖子增强网络,以及全连接网络;
第一图注意力网络包括n个单头图注意力网络,其中n的取值为大于1的自然数;
对于单头图注意力网络而言,其具体结构为:
第一层是特征变换层,输入N·d的文本向量矩阵,利用一个d·h的矩阵,输出一个N·h特征矩阵,其中h为隐含层向量长度,d为编码后的文本向量长度;
第二层是注意力计算层,其输入为第一层得到的N·h矩阵和N·N用户行为关系的邻接矩阵,输出为N·N的注意力权值矩阵。
第三层是邻接顶点特征聚合层,其将第一层N·h矩阵和第二层得到N·N的注意力权值矩阵进行矩阵乘法,以得到N·h的特征矩阵。
4.根据权利要求1至3中任意一项所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,
对于第一图注意力网络而言,其通过将n个单头图注意力网络输出的N·h的特征矩阵进行拼接,就能得到一个N·(n*h)的特征矩阵;
第二图注意力网络是一个单头图注意力网络,其输入为第一图注意力网络输出的N·(n*h)的特征矩阵,输出为N·h的特征矩阵。
5.根据权利要求3所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,
原帖子增强网络的具体结构为:
第一层是拼接层,其输入为经过第二图注意力网络输出的特征矩阵,该层使用N·h的原帖子特征矩阵进行拼接,输出为经过增强后的特征矩阵,维度为N·2h;
第二层是池化层,其输入为增强后的特征矩阵,输出为经过池化后的特征向量,维度为1·2h;
全连接网络具体结构为:
第一层是特征变换层,其输入为经过原帖子增强网络池化后的特征向量,该层使用2h·h维的权重矩阵,输出维度为h的特征向量。
第二层是特征降维层,其输入为第一层输出的特征向量,该层使用h·h/2维的权重矩阵,输出为降维后的特征向量,维度为h/2。
第三层是谣言检测结果层,其输入为第二层降维后的特征向量,该层使用h/2·2维权重矩阵,输出为谣言检测结果。
6.根据权利要求3所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,谣言检测模型是通过以下步骤训练得到的:
(3-1)获取谣言数据,按照8:2的比例将谣言数据划分为训练集和测试集,对训练集中每个谣言数据对应的文本进行预处理,以得到预处理后的文本,使用BERT-Large-Cased预训练词向量模型将预处理后的文本转换成文本向量矩阵X,根据训练集中每个谣言数据对应的用户之间的转发、评论或回复关系构建用户关系结构图,并根据该用户关系结构图构建邻接矩阵A。
(3-2)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入到第一图注意力网络中,以得到N·(n*h)的特征向量矩阵T;
(3-3)将步骤(3-1)得到的文本向量矩阵X和邻接矩阵A输入第一图注意力网络中第一个单头图注意力网络的特征变换层,以得到维度为N·h的特征矩阵H;
(3-4)将步骤(3-3)得到的特征矩阵H输入第一图注意力网络中第一个单头图注意力网络的注意力计算层,以得到每个谣言事件对应的节点之间的注意力系数;
(3-5)对步骤(3-4)得到的每个谣言事件对应的节点之间的注意力系数eij进行归一化处理,以得到归一化后的注意力系数αij;
(3-6)将步骤(3-3)得到的特征矩阵H和步骤(3-5)归一化后的注意力系数αij输入第一图注意力网络中第一个单头图注意力网络的邻接顶点特征聚合层,以得到N·h的特征矩阵;
(3-7)针对第一图注意力网络中剩余的n-1个单头图注意力网络中的每一个而言,重复上述步骤(3-3)至(3-6),从而得到n-1个维度为N·h的特征矩阵,将这n-1个维度为N·h的特征矩阵与步骤(3-6)得到的特征矩阵进行拼接,从而得到N·(n*h)的特征矩阵;
(3-8)对步骤(3-2)得到的特征向量矩阵T进行drop_out处理,以得到N·(n*h)的特征向量矩阵T`,其中随机失活的比例为0.5。
(3-9)将步骤(3-8)得到的特征向量矩阵T`和步骤(3-1)得到的邻接矩阵A输入到第二图注意力网络中,以得到每个谣言数据的高阶表示所对应的向量矩阵W,其维度为N·h。
(3-10)将步骤(3-9)得到的向量矩阵W中的第一行向量w0复制n份,并沿着y轴的方向对复制的n份向量进行拼接,以得到大小为N·h的向量矩阵W0;
(3-11)将步骤(3-9)得到的向量矩阵W和步骤(3-10)得到向量矩阵W0进行拼接,以获得特征向量矩阵W`,其维度为N·(2*h);
(3-12)将步骤(3-11)得到的特征向量矩阵W`输入全连接网络进行分类,以获得是否为谣言的概率向量p,其中概率向量P的长度为2;
(3-13)对步骤(3-12)得到的概率向量p先进行softmax运算以得到归一化后的概率向量p`,之后对归一化后的概率向量p`进行l对数运算,以得到最后的分类标签向量y,其长度为2;
(3-14)根据步骤(3-13)得到的分类标签向量y计算损失函数,并利用该损失函数对谣言检测模型进行迭代训练,直到该谣言检测模型收敛为止,从而得到初步训练好的谣言检测模型。
(3-15)使用步骤(3-1)得到的测试集对步骤(3-14)初步训练好的谣言检测模型进行验证,直到得到的分类精度达到最优为止,从而得到训练好的谣言检测模型。
7.根据权利要求6所述的基于图注意力网络的社交媒体谣言检测方法,其特征在于,
步骤(3-3)的计算公式为·:
H=Wh×X
其中Wh表示第一图注意力网络的初始权值参数矩阵,×表示矩阵乘法;
步骤(3-4)的计算公式为:
eij=a([hi||hj]),j∈Ai
其中hi表示步骤(3-3)得到的特征矩阵H中的第i行向量,Ai为邻接矩阵A中的第i行向量,j∈Ai表示为邻接矩阵A中的第i行向量值为1的节点,[hi||hj]表示对hi和hj进行拼接,a(.)表示把拼接后的特征通过前馈神经网络映射到实数,这样就得到任意两个节点之间的注意系数eij,其中如果Aij为0,则eij也为0,表示节点i和节点j没有转发、评论或回复关系。
10.一种基于图注意力网络的社交媒体谣言检测系统,其特征在于,包括:
第一模块,用于获取待检测的谣言事件,对待检测的谣言事件对应的文本进行预处理,以得到预处理后的文本,并使用BERT-Large-Cased预训练词向量模型将预处理后的文本转换成文本向量矩阵。
第二模块,用于根据第一模块得到的待检测的谣言事件对应的用户之间的转发、评论或回复关系构建用户关系结构图表示为G=(V,E),并根据该用户关系结构图构建邻接矩阵,其中V表示节点集合,每个节点表示待检测的谣言事件对应的一个用户,E表示边的集合,每条边表示两个用户之间的转发、评论或回复关系。
第三模块,用于将第一模块得到的文本向量矩阵、以及第二模块得到的邻接矩阵,输入预先训练好的谣言检测模型中,以得到最终的谣言检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542802.5A CN113268675B (zh) | 2021-05-19 | 2021-05-19 | 一种基于图注意力网络的社交媒体谣言检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542802.5A CN113268675B (zh) | 2021-05-19 | 2021-05-19 | 一种基于图注意力网络的社交媒体谣言检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268675A true CN113268675A (zh) | 2021-08-17 |
CN113268675B CN113268675B (zh) | 2022-07-08 |
Family
ID=77231714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542802.5A Active CN113268675B (zh) | 2021-05-19 | 2021-05-19 | 一种基于图注意力网络的社交媒体谣言检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268675B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919440A (zh) * | 2021-10-22 | 2022-01-11 | 重庆理工大学 | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 |
CN114330337A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种用于社交媒体上的谣言检测方法 |
CN114328843A (zh) * | 2022-01-11 | 2022-04-12 | 南京邮电大学 | 一种基于多层编码网络的谣言检测方法及系统 |
CN114444516A (zh) * | 2022-04-08 | 2022-05-06 | 四川大学 | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 |
CN114595326A (zh) * | 2022-01-11 | 2022-06-07 | 三峡大学 | 一种谣言数据检测方法及装置 |
CN114706977A (zh) * | 2022-02-25 | 2022-07-05 | 福州大学 | 基于动态多跳图注意力网络的谣言检测方法及系统 |
CN114757185A (zh) * | 2022-04-21 | 2022-07-15 | 东南大学 | 一种基于动态图注意力胶囊网络的谣言检测方法与装置 |
CN118153687A (zh) * | 2024-02-06 | 2024-06-07 | 北京红棉小冰科技有限公司 | 对话系统的记忆增强回复方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN112231562A (zh) * | 2020-10-15 | 2021-01-15 | 北京工商大学 | 一种网络谣言识别方法及系统 |
US20210049441A1 (en) * | 2018-03-22 | 2021-02-18 | Twitter, Inc. | Method of news evaluation in social media networks |
CN112650929A (zh) * | 2020-12-31 | 2021-04-13 | 安徽农业大学 | 一种融入评论信息的图神经网络推荐方法 |
-
2021
- 2021-05-19 CN CN202110542802.5A patent/CN113268675B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
US20210049441A1 (en) * | 2018-03-22 | 2021-02-18 | Twitter, Inc. | Method of news evaluation in social media networks |
CN111914185A (zh) * | 2020-07-06 | 2020-11-10 | 华中科技大学 | 一种基于图注意力网络的社交网络中文本情感分析方法 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN112231562A (zh) * | 2020-10-15 | 2021-01-15 | 北京工商大学 | 一种网络谣言识别方法及系统 |
CN112650929A (zh) * | 2020-12-31 | 2021-04-13 | 安徽农业大学 | 一种融入评论信息的图神经网络推荐方法 |
Non-Patent Citations (3)
Title |
---|
QI HUANG,ET AL: "Heterogeneous Graph Attention Networks for Early Detection of Rumors on Twitter", 《2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
蒋昊: "基于图神经网络的谣言检测系统研究与实现", 《中国优秀高级论文全文数据库(信息科技辑)》 * |
郭修远,等: "微博涉核舆情的情感分析与公众传播研究", 《情报理论与实践》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919440A (zh) * | 2021-10-22 | 2022-01-11 | 重庆理工大学 | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 |
CN114330337A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种用于社交媒体上的谣言检测方法 |
CN114330337B (zh) * | 2021-12-29 | 2023-04-07 | 电子科技大学 | 一种用于社交媒体上的谣言检测方法 |
CN114328843A (zh) * | 2022-01-11 | 2022-04-12 | 南京邮电大学 | 一种基于多层编码网络的谣言检测方法及系统 |
CN114595326A (zh) * | 2022-01-11 | 2022-06-07 | 三峡大学 | 一种谣言数据检测方法及装置 |
CN114595326B (zh) * | 2022-01-11 | 2024-07-26 | 三峡大学 | 一种谣言数据检测方法及装置 |
CN114706977A (zh) * | 2022-02-25 | 2022-07-05 | 福州大学 | 基于动态多跳图注意力网络的谣言检测方法及系统 |
CN114444516A (zh) * | 2022-04-08 | 2022-05-06 | 四川大学 | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 |
CN114757185A (zh) * | 2022-04-21 | 2022-07-15 | 东南大学 | 一种基于动态图注意力胶囊网络的谣言检测方法与装置 |
CN118153687A (zh) * | 2024-02-06 | 2024-06-07 | 北京红棉小冰科技有限公司 | 对话系统的记忆增强回复方法、装置及电子设备 |
CN118153687B (zh) * | 2024-02-06 | 2024-10-29 | 北京红棉小冰科技有限公司 | 对话系统的记忆增强回复方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113268675B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268675B (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN112231562B (zh) | 一种网络谣言识别方法及系统 | |
CN112084335B (zh) | 一种基于信息融合的社交媒体用户账号分类方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112417099B (zh) | 一种基于图注意力网络的欺诈用户检测模型构建方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN108460019A (zh) | 一种基于注意力机制的新兴热点话题检测系统 | |
CN112000801A (zh) | 基于机器学习的政务文本分类、热点问题挖掘方法及系统 | |
CN112528163A (zh) | 一种基于图卷积网络的社交平台用户职业预测方法 | |
CN112215604A (zh) | 交易双方关系信息识别方法及装置 | |
CN113191144B (zh) | 一种基于传播影响力的网络谣言识别系统及方法 | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN112685541A (zh) | 一种基于多任务学习的社交媒体谣言检测方法 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
Abinaya et al. | Spam detection on social media platforms | |
Fang et al. | Learning latent local conversation modes for predicting comment endorsement in online discussions | |
CN113220964A (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN110909167B (zh) | 一种微博文本分类系统 | |
CN111274403B (zh) | 一种网络欺凌检测方法 | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
CN116738331A (zh) | 基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置 | |
CN114741515B (zh) | 基于图生成的社交网络用户属性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |