CN115048514A - 基于人格的社交网络谣言检测与立场分类方法及系统 - Google Patents
基于人格的社交网络谣言检测与立场分类方法及系统 Download PDFInfo
- Publication number
- CN115048514A CN115048514A CN202210647587.XA CN202210647587A CN115048514A CN 115048514 A CN115048514 A CN 115048514A CN 202210647587 A CN202210647587 A CN 202210647587A CN 115048514 A CN115048514 A CN 115048514A
- Authority
- CN
- China
- Prior art keywords
- personality
- vector
- rumor
- user
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 179
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 239000013604 expression vector Substances 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000006855 networking Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 14
- 230000006399 behavior Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000009254 shuang-huang-lian Substances 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于人格的社交网络谣言检测与立场分类方法及系统,方法包括:收集、整理数据集,将数据集处理成向量形式;在原数据集基础上再爬取用户日常发布的其他推文,处理成人格向量;实现人格识别任务,预测用户的大五人格值;将预处理推文向量通过LSTM共享层进一步训练;实现谣言检测任务,对源推文进行分类,判断是否是谣言;实现立场分类任务,对所有人的回复进行分类。解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。
Description
技术领域
本发明涉及社交数据及舆情处理分析领域,具体涉及基于人格的社交网络谣言检测与立场分类方法及系统。
背景技术
现如今,谣言检测和立场分类研究在各个领域都非常重要,并且应用范围十分广泛。尤其是在社交网络中。近年来,社交网络的发展越来越迅速,并且社交网络范围越来越广,使得人们传递消息变得越来越方便。国内外人们都广泛地使用社交平台,例如新浪微博和推特等。“谣言”释义为一种缺乏真实依据,或未经证实、公众一时难以辨别真伪的闲话、传闻或舆论。由于社交网络媒体平台的存在,谣言可以以闪电般的速度产生和传播。部分谣言不仅可能是错误的,甚至会误导和危害公众社会。例如一则“双黄连可抑制新型冠状病毒”的消息在网络上传播,引发公众抢购双黄连口服液。很多人甚至不顾居家隔离的要求,连夜上街排队抢购。从谣言社会心理学的角度来看,这则谣言体现了疫情期间公众的负面情绪、对安慰的寻求以及从众心理等心理类型。但是还是会有一部分人保持理智,不会轻易听信谣言,有自己客观的判断。那么,研究这类人的人格特征是我们关注的一个重点。
谣言检测的目的是确定关于某个主题的给定声明的真实性。这是一个三分类任务,即谣言可以是真、假或未经验证的。我们在研究如何识别谣言时,不仅关注发帖人的信息,其他用户对于主帖的回复和立场也是很重要的。不同的人有不同的立场,立场不坚定的人就容易相信别人的谣言,立场与谣言检测是有很大关联的,这在很多研究中都得到了论证。立场分类的目的是确定用户对社交网络上特定目标表达的不同态度,这是一个四分类任务,分为支持、否定、质疑和评论。但是现有的谣言检测和立场分类的方法都没有考虑到用户人格的影响因素,所以我们的研究考虑了用户大五人格的影响。
公开号为CN111159395A的现有发明专利申请文献《一种基于图神经网络的谣言立场检测方法、装置和电子设备》中披露的方法包括:获取谣言数据;根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的。该现有专利申请文献中未考虑用户人格的影响因素,该现有技术未完全披露本申请的技术方案,也无法达到本申请的技术效果。
公开号为CN114491025A的现有发明专利申请文献《一种基于写作风格的多任务谣言检测方法、装置及设备》披露的方法包括:获取待检测文本,并确定对应的内容特征以及写作风格特征;在多任务检测模型中,将内容特征输入至基于内容的谣言检测任务模块,得到谣言检测结果;将写作风格特征输入至基于写作风格的谣言检测任务模块,得到谣言检测结果;其中,在训练过程中,基于内容的谣言检测任务模块和基于写作风格的谣言检测任务模块通过共享层进行信息交互。该现有专利文献并未披露本申请的技术方案,也无法达到本申请的技术效果。
综上,现有技术存在考虑因素覆盖不够全面以及检测效果较差的技术问题。
发明内容
本发明所要解决的技术问题在于如何解决现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。
本发明是采用以下技术方案解决上述技术问题的:基于人格的社交网络谣言检测与立场分类方法包括:
S5、拼接谣言检测表示向量与对应用户的大五人格向量,以得到谣言人格拼接向量,依次利用多层感知器模型中的长短期记忆网络LSTM的共享层、softmax层及Dence层处理谣言人格拼接向量,据以得到谣言检测结果;
S6、拼接立场分类表示向量与对应用户的大五人格向量,以得到立场人格拼接向量,依次利用多层感知器模型中的LSTM共享层、softmax层及Dence层对立场人格拼接向量进行立场分类,据以得到立场分类结果。
本发明提供的多任务模型不仅可以进行谣言检测任务,还能对用户评论进行立场分类,还可以对用户人格进行分析。受到多任务学习成功的启发,本发明在一个统一的架构中,将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型,本发明使谣言检测和立场分类任务独立处理。在本文中,我们提出一个多任务模型,名为PI-RS,结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练,相互之间影响,不断迭代训练找出最优的参数,得到好的结果。同时,本发明通过使用多任务学习的方式,减少了对每个单独任务的过度拟合。
在更具体的技术方案中,步骤S1包括:
S11、在预设社交平台上收集源推文及回复立场;
S12、将源推文预处理为推文文本数据,并利用自然语言工具包(NLTK)标记推文文本;
S13、利用Google News数据集对推文文本中的每个单词提取预先训练的词嵌入,利用doc2vec得到句向量;
S14、将收集到的帖子集合表示为P={P1,P2,…,Pn},其中,P=(C,X,t)表示每个帖子,C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。
在更具体的技术方案中,步骤S13中,初始句向量的维度为300。
在更具体的技术方案中,步骤S2包括:
S21、根据用户信息爬取当前用户发布的推文记录数据;
S22、使用LIWC软件分析推文记录数据,据以得到当前用户的五维人格表示向量;
S23、以下述逻辑标准化处理五维人格表示向量,据以得到人格真实值的五维标签:
在更具体的技术方案中,步骤S3包括:
S31、获取每个用户发布的所有推文及评论,作为分析用户人格输入数据;
S32、从推文及立场数据向量中获取源推文及回复表示向量:
pi={ci,x(i,1),x(i,2),…,x(i,j)},i∈[1,n],P∈R|U|×d
其中d表示特征维度,平均值化处理每个用户的源推文及回复表示向量,以得到用户人格表示向量:
Q=[q1,q2,…,qu],u∈U
其中,q=mean embeddingk∈U(p1,p2,…,pk),mean embedding是每个用户发布的所有推文向量的平均值,U是用户总数。
针对人格信息很大程度上概括了用户的特征,同时会潜在地影响其在现实生活、社交网络中的行为等实际情况,本发明将每个人发布的源推文和评论都收集起来作为分析用户人格的数据,以通过全面信息来判断用户的人格。
在更具体的技术方案中,步骤S34包括:
S341、以下述逻辑处理得到预置多层感知器模型的损失:
S342、根据损失评估预置多层感知器模型。
在更具体的技术方案中,步骤S4包括:
S41、将大五人格向量作为输入序列pi={ci,xi,1,xi,2,…,xi,j},i∈[1,n],P∈R|U|×d,根据下述逻辑ht,t∈[1,n]用反馈边更新输入序列隐层的隐状态:
ht=f(Rht-1+Wpt+b)
其中,h0=0,f(·)为非线性函数是一个前馈网络,R、W、b、V为网络参数;
S42、以长短期记忆网络LSTM引入新内部状态ct,以利用下述逻辑传递线性循环消息:
ht=ot⊙tanh(ct)
S43、以下述逻辑,利用长短期记忆网络LSTM的共享层处理输入序列,以得到谣言检测表示向量以及立场分类表示向量:
it=σ(Wipt+Uiht-1+bi)
ft=σ(Wfpt+Ufht-1+bf)
ot=σ(Wopt+Uoht-1+bo)
其中,σ是一个sigmoid函数,Wf,Wo,Wi,Ui,Uf,Uo,bi,bf,bo是可学习的参数,通过LSTM共享层的输入向量表示为pt。
本发明的共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM) 对向量进行处理,整合源推文数据和回复数据相互影响,以学习出更准确的表示。
在更具体的技术方案中,步骤S5包括:
S51、利用下述逻辑拼接谣言检测表示向量与对应用户的大五人格向量,据以得到谣言人格拼接向量zi:
S52、以下述逻辑利用多层感知器模型中的长短期记忆网络LSTM的共享层处理谣言人格拼接向量zi,得到LSTM处理谣言人格拼接向量:
S53、利用softmax层,以下述逻辑处理LSTM处理谣言人格拼接向量,以得到谣言人格条件概率:
其中,wa是类别a的权重向量;
S54、利用Dence层处理谣言人格条件概率,以得到Dence处理结果;
S55、利用下述逻辑计算模型损失,并根据模型损失及Dence处理结果处理得到谣言检测结果:
在本发明采用的模型中,以预置谣言检测模块中的LSTM模型进行处理。本发明在该部分技术方案不同于现有技术在于,加入了人格分析因素。在将人格分析数据加入到谣言检测模块中,使得输入向量不仅仅包括推特分支数据,还覆盖了人格分析因素。
在更具体的技术方案中,步骤S6包括:
S61、以下述逻辑拼接立场分类表示向量与对应用户的大五人格向量,以得到立场人格拼接向量:
其中qi,j是与谣言验证任务相对应的用户的大五人格向量,s是拼接过后的立场分类任务输入向量;
S62、将立场人格拼接向量通过全连接层,以得到立场人格全连接处理数据;
S63、利用softmax层以下述逻辑处理立场人格全连接处理数据,以得到立场人格条件概率:
其中,wa是类别a的权重向量;
S64、利用下述逻辑计算模型损失:
S64、以下述逻辑处理超参数λ及模型损失,以得到立场分类结果:
L=LVer+λ1LSta+λ2LPER
其中λ1≥0,λ2≥0。
本发明的立场分类输入向量通过共享层处理分支序列后,同时考虑了每个用户的人格影响,以获知每个人的人格是否影响他们的说谎行为。本发明将人格数据添加到立场分类处理中,并通过最小化损失函数得到最优的实验结果,最终完成谣言检测和立场分类任务,提高了立场分类结果的准确性。
本发明学习到的表征可以导致比那些从单一任务的表面形式特征建立的模型更紧凑。实验结果显示,相对于单独学习,将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。
在更具体的技术方案中,基于人格的社交网络谣言检测与立场分类系统包括:
人格识别模块,用以从推文数据集中查找获取每个用户发布的所有推文及评论,平均值化处理推文及立场数据向量以得到用户输入向量,据以通过预置多层感知器模型预测用户的大五人格分数,人格识别模块与人格向量模块连接;
大五人格向量训练模块,用以利用长短期记忆网络LSTM的共享层,根据大五人格分数训练大五人格向量以整合源推文和回复立场的相互影响,据以得到谣言检测表示向量以及立场分类表示向量,大五人格向量训练模块与人格识别模块连接;
谣言检测模块,用以拼接谣言检测表示向量与对应用户的大五人格向量,以得到谣言人格拼接向量,依次利用多层感知器模型中的长短期记忆网络LSTM的共享层、softmax层及Dence层处理谣言人格拼接向量,据以得到谣言检测结果,谣言检测模块与人格向量模块及大五人格向量训练模块连接;
立场分类模块,用以拼接立场分类表示向量与对应用户的大五人格向量,以得到立场人格拼接向量,依次利用多层感知器模型中的LSTM共享层、softmax层及Dence层对立场人格拼接向量进行立场分类,据以得到立场分类结果,立场分类模块与人格向量模块及大五人格向量训练模块连接。
本发明相比现有技术具有以下优点:本发明提供的多任务模型不仅可以进行谣言检测任务,还能对用户评论进行立场分类,还可以对用户人格进行分析。受到多任务学习成功的启发,本发明在一个统一的架构中,将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型,本发明使谣言检测和立场分类任务独立处理。在本文中,我们提出一个多任务模型,名为PI-RS,结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练,相互之间影响,不断迭代训练找出最优的参数,得到好的结果。同时,本发明通过使用多任务学习的方式,减少了对每个单独任务的过度拟合。相对于单独学习,将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。
针对人格信息很大程度上概括了用户的特征,同时会潜在地影响其在现实生活、社交网络中的行为等实际情况,本发明将每个人发布的源推文和评论都收集起来作为分析用户人格的数据,以通过全面信息来判断用户的人格。
本发明的共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM) 对向量进行处理,整合源推文数据和回复数据相互影响,以学习出更准确的表示。
在本发明采用的模型中,以预置谣言检测模块中的LSTM模型进行处理。本发明在该部分技术方案不同于现有技术在于,加入了人格分析因素。在将人格分析数据加入到谣言检测模块中,使得输入向量不仅仅包括推特分支数据,还覆盖了人格分析因素。
本发明的立场分类输入向量通过共享层处理分支序列后,同时考虑了每个用户的人格影响,以获知每个人的人格是否影响他们的说谎行为。本发明将人格数据添加到立场分类处理中,并通过最小化损失函数得到最优的实验结果,最终完成谣言检测和立场分类任务,提高了立场分类结果的准确性。
本发明学习到的表征可以导致比那些从单一任务的表面形式特征建立的模型更紧凑。实验结果显示,相对于单独学习,将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。本发明解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。
附图说明
图1为本发明实施例1的基于人格的社交网络谣言检测与立场分类方法步骤示意图;
图2为本发明实施例1的数据收集处理流程示意图;
图3为本发明实施例1的人格向量获取流程示意图;
图4为本发明实施例1的大五人格值预测流程示意图;
图5为本发明实施例1的谣言检测流程示意图;
图6为本发明实施例1的立场分类流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,基于人格的社交网络谣言检测与立场分类方法包括以下步骤:
S5、实现谣言检测任务,对源推文进行分类,判断是否是谣言,在本实施例中,将S5中得到的谣言检测表示向量与对应用户的大五人格向量进行拼接通过LSTM层,再经过softmax和Dence层最后得到谣言检测结果;
S6、实现立场分类任务,对所有人的回复进行分类,在本实施例中,将S5中得到的立场分类表示向量与对应用户的大五人格向量进行拼接通过Dence和Softmax层最后得到立场分类结果。
如图2所示,步骤S1还包括:
S11、在推特官网上收集用户发布关于某重大事件的源推文和不同用户对该推文的立场回复;
S12、对于原始数据集我们所做的预处理有:首先删除了文本数据中的非字母字符,并将所有单词转换成小写,使用自然语言工具包(NLTK)对推文进行标记;
S13、在推文文本处理完成后,使用Google News数据集对推文中每个单词提取预先训练好的词嵌入,再使用doc2vec得到句向量,初始向量维度为300;
S14、将收集到的帖子集合表示为P,在本实施例中,将收集到的整个帖子表示为 P={P1,P2,…,Pn},每一个帖子都包含了发布的源推文和不同用户的评论,表示为 P=(C,X,t),其中C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。具体的解释为:用户在社交网络上发布的源推文定义为C={c1,c2,…,cn},每条源推文又表示为ci=(ui,wi,ti),其中u表示社交网络上的用户账号,w表示发布推文文本信息,t表示发布时间。另外,用户在社交网络上发布推文,会有很多不同的用户在下面进行回复,表达自己的立场,表示为Xi={xi1,xi2,…,xij}。同时,每条评论可以表示为 xi,={uj,wj,tj},其中u表示用户账号,w表示用户立场,t表示回复时间。该立场分类任务的输出为ys,将其分为四类标签,分别为支持、否定、疑问和评论。
如图3所示,步骤S2还包括:
S21、为了获得每个用户的人格基础信息,在Twitter官方网站上爬取当前用户发布的日常所有推文;
S22、使用LIWC软件对收集到的文本信息进行分析,得到一个五维人格表示向量;
S23、进行标准化。其计算公式如下:
如图4所示,步骤S3还包括:
S31、将每个人发布的源推文和评论都收集起来作为分析用户人格的数据,在本实施例中,对于人格识别模块,我们是将每个人发布的源推文和评论都收集起来作为分析用户人格的数据。因为一条评论或者一个源推文并不能简单的代表这个人的个性,必须通过全面信息来判断。人格信息很大程度上概括了用户的特征,同时会潜在地影响其在现实生活、社交网络中的行为。
S32、首先整个模型的输入是数据集中的序列数据,包括源推文表示向量和不同用户的回复表示向量;
在本实施例中,源推文表示向量和不同用户的回复表示向量表示为 pi={ci,x(i,j),x(i,2),…,x(i,j)},i∈[1,n],P∈R|U|×d,其中d表示特征维度。我们对每个用户的数据进行平均值化操作,得到用户人格表示向量,表示为Q=[q1,q2,…,qu],u∈ U。
q=mean embeddingk∈U(p1,p2,…,pk)
其中mean embedding是每个用户发布的所有推文向量的平均值,U是用户总数。
S34、计算模型损失,在本实施例中,我们比较了预测人格特征和真实人格特征qi′,并使用均方误差和平均绝对误差来评估模型。人格识别任务穿插在谣言检测任务和立场分类任务中,以补充其他两个任务,使其他任务更有效。模型损失计算公式为
步骤S4包括:
共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM)对向量进行处理,整合源推文数据和回复数据相互影响,学习出更准确的表示。给定输入序列 pi={ci,xi,1,xi,2,…,xi,j},i∈[1,n],P∈R|U|×d,则可以根据ht,t∈[1,n]用反馈边更新隐层的隐状态。
ht=f(Rht-1+Wpt+b)
其中,h0=0,f(·)为非线性函数是一个前馈网络。R、W、b、V为网络参数。LSTM 网络引入了一种新的内部状态ct,专门用于线性循环消息传递。
ht=ot⊙tanh(ct)
it=σ(Wipt+Uiht-1+bi)
ft=σ(Wfpt+Ufht-1+bf)
ot=σ(Wopt+Uoht-1+bo)
如图5所示,步骤S5包括:
S51、拼接谣言检测表示向量与对应用户的大五人格向量,以得到谣言人格拼接向量;在本实施例中,在我们的模型中,谣言检测模块用于测试用户源推文(即每个分支的第一个输入)的真实性,并在所有输入通过共享层后将其传递给谣言检测模块。进入谣言检测模块后,我们使用同样的LSTM模型进行处理。不同的是,在这一部分中,我们加入了人格分析因素。在将人格分析数据加入到谣言检测模块中后,我们的输入向量现在不仅仅是推特分支数据了。将这两个数据向量拼接在一起;
S52、利用多层感知器模型中的长短期记忆网络LSTM的共享层处理谣言人格拼接向量,得到LSTM处理谣言人格拼接向量;在本实施例中,然后将输出向量通过LSTM模型,接着是全连接层和softmax层,最终得到谣言分类结果预测。通过softmax回归预测的属于c类的条件概率为
wa是类别a的权重向量。
S53、计算该部分模型损失;在本实施例中,为每个任务提出的多任务模型的参数被训练成预测和地面真实分布的交叉熵最小。
如图6所示,步骤S6包括:
S61、拼接所述立场分类表示向量与对应用户的大五人格向量,以得到立场人格拼接向量;在本实施例中,立场分类输入向量通过共享层处理分支序列后,考虑每个用户的人格影响,看每个人的人格是否影响他们说谎。将人格数据添加到立场分类模块中,拼接公式为:
其中qi,j是与谣言验证任务相对应的用户的大五人格向量,s是拼接过后的立场分类任务输入向量。
S62、将立场人格拼接向量通过全连接层,以得到立场人格全连接处理数据,在本实施例中,在立场分类模块中,将拼接后的多维向量分别通过全连接层和softmax层。通过softmax回归预测的属于c类的条件概率为
wa是类别a的权重向量。
S63、计算该部分模型损失;在本实施例中,为每个任务提出的多任务模型的参数被训练成预测和地面真实分布的交叉熵最小。
S64、最后,人格识别任务对于谣言验证和立场分类任务的重要性由超参数λ决定。
L=Lver+λ1LSta+λ2LPER
其中λ1≥0,λ2≥0。通过最小化损失函数得到最优的实验结果,最终完成谣言检测和立场分类任务。
综上,本发明提供的多任务模型不仅可以进行谣言检测任务,还能对用户评论进行立场分类,还可以对用户人格进行分析。受到多任务学习成功的启发,本发明在一个统一的架构中,将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型,本发明使谣言检测和立场分类任务独立处理。在本文中,我们提出一个多任务模型,名为PI-RS,结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练,相互之间影响,不断迭代训练找出最优的参数,得到好的结果。同时,本发明通过使用多任务学习的方式,减少了对每个单独任务的过度拟合。相对于单独学习,将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。
针对人格信息很大程度上概括了用户的特征,同时会潜在地影响其在现实生活、社交网络中的行为等实际情况,本发明将每个人发布的源推文和评论都收集起来作为分析用户人格的数据,以通过全面信息来判断用户的人格。
本发明的共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM) 对向量进行处理,整合源推文数据和回复数据相互影响,以学习出更准确的表示。
在本发明采用的模型中,以预置谣言检测模块中的LSTM模型进行处理。本发明在该部分技术方案不同于现有技术在于,加入了人格分析因素。在将人格分析数据加入到谣言检测模块中,使得输入向量不仅仅包括推特分支数据,还覆盖了人格分析因素。
本发明的立场分类输入向量通过共享层处理分支序列后,同时考虑了每个用户的人格影响,以获知每个人的人格是否影响他们的说谎行为。本发明将人格数据添加到立场分类处理中,并通过最小化损失函数得到最优的实验结果,最终完成谣言检测和立场分类任务,提高了立场分类结果的准确性。
本发明学习到的表征可以导致比那些从单一任务的表面形式特征建立的模型更紧凑。实验结果显示,相对于单独学习,将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。本发明解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述方法包括:
S5、拼接所述谣言检测表示向量与对应用户的所述大五人格向量,以得到谣言人格拼接向量,依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量,据以得到谣言检测结果;
S6、拼接所述立场分类表示向量与对应用户的所述大五人格向量,以得到立场人格拼接向量,依次利用所述多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类,据以得到立场分类结果。
2.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S1包括:
S11、在预设社交平台上收集所述源推文及所述回复立场;
S12、将所述源推文预处理为推文文本数据,并利用自然语言工具包(NLTK)标记所述推文文本;
S13、利用Google News数据集对所述推文文本中的每个单词提取预先训练的词嵌入,利用doc2vec得到句向量;
S14、将收集到的帖子集合表示为P={P1,P2,…,Pn},其中,P=(C,X,t)表示每个帖子,C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。
3.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S13中,初始所述句向量的维度为300。
5.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S3包括:
S31、获取每个所述用户发布的所有所述推文及所述评论,作为分析用户人格输入数据;
S32、从所述推文及立场数据向量中获取源推文及回复表示向量:
pi={ci,x(i,1),x(i,2),...,x(i,j)},i∈[1,n],P∈R|U|×d
其中d表示特征维度,平均值化处理每个用户的所述源推文及回复表示向量,以得到用户人格表示向量:
Q=[q1,q2,...,qu],u∈U
其中,q=mean embeddingk∈U(p1,p2,...,pk),mean embedding是每个用户发布的所有推文向量的平均值,U是用户总数。
7.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S4包括:
S41、将所述大五人格向量作为输入序列pi={ci,xi,1,xi,2,...,xi,j},i∈[1,n],p∈R|U|×d,根据下述逻辑ht,t∈[1,n]用反馈边更新输入序列隐层的隐状态:
ht=f(Rht-1+Wpt+b)
其中,h0=0,f(·)为非线性函数是一个前馈网络,R、W、b、V为网络参数;
S42、以所述长短期记忆网络LSTM引入新内部状态ct,以利用下述逻辑传递线性循环消息:
ht=ot⊙tanh(ct)
S43、以下述逻辑,利用所述长短期记忆网络LSTM的共享层处理所述输入序列,以得到所述谣言检测表示向量以及所述立场分类表示向量:
it=σ(Wipt+Uiht-1+bi)
ft=σ(Wfpt+Ufht-1+bf)
ot=σ(Wopt+Uoht-1+bo)
其中,σ是一个sigmoid函数,Wf,Wo,Wi,Ui,Uf,Uo,bi,bf,bo是可学习的参数,通过LSTM共享层的输入向量表示为pt。
8.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S5包括:
S51、利用下述逻辑拼接所述谣言检测表示向量与对应用户的所述大五人格向量,据以得到所述谣言人格拼接向量zi:
S52、以下述逻辑利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层处理所述谣言人格拼接向量zi,得到LSTM处理谣言人格拼接向量:
S53、利用所述softmax层,以下述逻辑处理所述LSTM处理谣言人格拼接向量,以得到谣言人格条件概率:
其中,wa是类别a的权重向量;
S54、利用所述Dence层处理所述谣言人格条件概率,以得到Dence处理结果;
S55、利用下述逻辑计算模型损失,并根据所述模型损失及所述Dence处理结果处理得到所述谣言检测结果:
9.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S6包括:
S61、以下述逻辑拼接所述立场分类表示向量与对应用户的所述大五人格向量,以得到所述立场人格拼接向量:
其中qi,j是与谣言验证任务相对应的用户的大五人格向量,s是拼接过后的立场分类任务输入向量;
S62、将所述立场人格拼接向量通过全连接层,以得到立场人格全连接处理数据;
S63、利用所述softmax层以下述逻辑处理所述立场人格全连接处理数据,以得到立场人格条件概率:
其中,wa是类别a的权重向量;
S64、利用下述逻辑计算模型损失:
S64、以下述逻辑处理超参数λ及所述模型损失,以得到所述立场分类结果:
L=LVer+λ1LSta+λ2LPER
其中λ1≥0,λ2≥0。
10.基于人格的社交网络谣言检测与立场分类系统,其特征在于,所述系统包括:
人格识别模块,用以从所述推文数据集中查找获取每个所述用户发布的所有所述推文及评论,平均值化处理所述推文及立场数据向量以得到用户输入向量,据以通过预置多层感知器模型预测所述用户的大五人格分数,所述大五人格预测模块与所述人格向量模块连接;
大五人格向量训练模块,用以利用长短期记忆网络LSTM的共享层,根据所述大五人格分数训练所述大五人格向量以整合所述源推文和所述回复立场的相互影响,据以得到谣言检测表示向量以及立场分类表示向量,所述大五人格向量训练模块与所述人格识别模块连接;
谣言检测模块,用以拼接所述谣言检测表示向量与对应用户的所述大五人格向量,以得到谣言人格拼接向量,依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量,据以得到谣言检测结果,所述谣言检测模块与所述人格向量模块及所述大五人格向量训练模块连接;
立场分类模块,用以拼接所述立场分类表示向量与对应用户的所述大五人格向量,以得到立场人格拼接向量,依次利用多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类,据以得到立场分类结果,所述立场分类模块与所述人格向量模块及所述大五人格向量训练模块连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647587.XA CN115048514B (zh) | 2022-06-09 | 2022-06-09 | 基于人格的社交网络谣言检测与立场分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647587.XA CN115048514B (zh) | 2022-06-09 | 2022-06-09 | 基于人格的社交网络谣言检测与立场分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115048514A true CN115048514A (zh) | 2022-09-13 |
CN115048514B CN115048514B (zh) | 2023-06-16 |
Family
ID=83161173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210647587.XA Active CN115048514B (zh) | 2022-06-09 | 2022-06-09 | 基于人格的社交网络谣言检测与立场分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048514B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118395308A (zh) * | 2024-06-25 | 2024-07-26 | 国际关系学院 | 一种基于动态免疫网络理论的社交媒体谣言检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN111581534A (zh) * | 2020-05-22 | 2020-08-25 | 哈尔滨工程大学 | 一种基于立场一致的谣言传播树结构优化方法 |
CN111783086A (zh) * | 2020-07-06 | 2020-10-16 | 山东省计算中心(国家超级计算济南中心) | 基于反生产行为特征的内部威胁检测方法和系统 |
CN113094596A (zh) * | 2021-04-26 | 2021-07-09 | 东南大学 | 一种基于双向传播图的多任务谣言检测方法 |
US20210248511A1 (en) * | 2020-02-12 | 2021-08-12 | Wipro Limited | System and method for detecting instances of lie using machine learning model |
-
2022
- 2022-06-09 CN CN202210647587.XA patent/CN115048514B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
US20210248511A1 (en) * | 2020-02-12 | 2021-08-12 | Wipro Limited | System and method for detecting instances of lie using machine learning model |
CN111581534A (zh) * | 2020-05-22 | 2020-08-25 | 哈尔滨工程大学 | 一种基于立场一致的谣言传播树结构优化方法 |
CN111783086A (zh) * | 2020-07-06 | 2020-10-16 | 山东省计算中心(国家超级计算济南中心) | 基于反生产行为特征的内部威胁检测方法和系统 |
CN113094596A (zh) * | 2021-04-26 | 2021-07-09 | 东南大学 | 一种基于双向传播图的多任务谣言检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118395308A (zh) * | 2024-06-25 | 2024-07-26 | 国际关系学院 | 一种基于动态免疫网络理论的社交媒体谣言检测方法 |
CN118395308B (zh) * | 2024-06-25 | 2024-10-01 | 国际关系学院 | 一种基于动态免疫网络理论的社交媒体谣言检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115048514B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Madhiarasan et al. | Analysis of artificial neural network: architecture, types, and forecasting applications | |
Tang et al. | A pruning neural network model in credit classification analysis | |
Krešňáková et al. | Deep learning methods for Fake News detection | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
CN110347837A (zh) | 一种心血管疾病非计划再住院风险预测方法 | |
US20200364307A1 (en) | Cross-lingual information retrieval and information extraction | |
CN115348074B (zh) | 深度时空混合的云数据中心网络流量实时检测方法 | |
Vimali et al. | A text based sentiment analysis model using bi-directional lstm networks | |
WO2020171904A1 (en) | Human body part segmentation with real and synthetic images | |
CN111340112A (zh) | 分类方法、装置、服务器 | |
CN112148875A (zh) | 基于图卷积神经网络整合内容和结构信息的争议性检测方法 | |
CN114972839A (zh) | 一种基于在线对比蒸馏网络的广义持续分类方法 | |
Sirrianni et al. | Predicting stance polarity and intensity in cyber argumentation with deep bidirectional transformers | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 | |
Dahou et al. | A social media event detection framework based on transformers and swarm optimization for public notification of crises and emergency management | |
CN115048514B (zh) | 基于人格的社交网络谣言检测与立场分类方法及系统 | |
CN117493973A (zh) | 一种基于生成式人工智能的社交媒体负面情绪识别方法 | |
Agbinya | Applied data analytics-principles and applications | |
Chen et al. | CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19 | |
Saha et al. | The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN117172235A (zh) | 基于相似度度量的类案判别方法及系统 | |
US11676391B2 (en) | Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames | |
Zhu et al. | Attention based BiLSTM-MCNN for sentiment analysis | |
Salehgohari et al. | Abusive Language Detection on Social Media using Bidirectional Long-Short Term Memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |