CN115048514A

CN115048514A - 基于人格的社交网络谣言检测与立场分类方法及系统

Info

Publication number: CN115048514A
Application number: CN202210647587.XA
Authority: CN
Inventors: 颜登程; 蔡燕平; 张以文; 仲红
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-13
Anticipated expiration: 2042-06-09
Also published as: CN115048514B

Abstract

本发明提供基于人格的社交网络谣言检测与立场分类方法及系统，方法包括：收集、整理数据集，将数据集处理成向量形式；在原数据集基础上再爬取用户日常发布的其他推文，处理成人格向量；实现人格识别任务，预测用户的大五人格值；将预处理推文向量通过LSTM共享层进一步训练；实现谣言检测任务，对源推文进行分类，判断是否是谣言；实现立场分类任务，对所有人的回复进行分类。解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。

Description

基于人格的社交网络谣言检测与立场分类方法及系统

技术领域

本发明涉及社交数据及舆情处理分析领域，具体涉及基于人格的社交网络谣言检测与立场分类方法及系统。

背景技术

现如今，谣言检测和立场分类研究在各个领域都非常重要，并且应用范围十分广泛。尤其是在社交网络中。近年来，社交网络的发展越来越迅速，并且社交网络范围越来越广，使得人们传递消息变得越来越方便。国内外人们都广泛地使用社交平台，例如新浪微博和推特等。“谣言”释义为一种缺乏真实依据，或未经证实、公众一时难以辨别真伪的闲话、传闻或舆论。由于社交网络媒体平台的存在，谣言可以以闪电般的速度产生和传播。部分谣言不仅可能是错误的，甚至会误导和危害公众社会。例如一则“双黄连可抑制新型冠状病毒”的消息在网络上传播，引发公众抢购双黄连口服液。很多人甚至不顾居家隔离的要求，连夜上街排队抢购。从谣言社会心理学的角度来看，这则谣言体现了疫情期间公众的负面情绪、对安慰的寻求以及从众心理等心理类型。但是还是会有一部分人保持理智，不会轻易听信谣言，有自己客观的判断。那么，研究这类人的人格特征是我们关注的一个重点。

谣言检测的目的是确定关于某个主题的给定声明的真实性。这是一个三分类任务，即谣言可以是真、假或未经验证的。我们在研究如何识别谣言时，不仅关注发帖人的信息，其他用户对于主帖的回复和立场也是很重要的。不同的人有不同的立场，立场不坚定的人就容易相信别人的谣言，立场与谣言检测是有很大关联的，这在很多研究中都得到了论证。立场分类的目的是确定用户对社交网络上特定目标表达的不同态度，这是一个四分类任务，分为支持、否定、质疑和评论。但是现有的谣言检测和立场分类的方法都没有考虑到用户人格的影响因素，所以我们的研究考虑了用户大五人格的影响。

公开号为CN111159395A的现有发明专利申请文献《一种基于图神经网络的谣言立场检测方法、装置和电子设备》中披露的方法包括：获取谣言数据；根据所述谣言数据的特征构建异构图，其中，所述异构图包括多个节点，所述节点用于表示所述谣言数据；将所述异构图输入图神经网络模型，得到对所述节点的立场分类结果，其中，所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征，并根据每个所述节点的目标特征经过分类得到的。该现有专利申请文献中未考虑用户人格的影响因素，该现有技术未完全披露本申请的技术方案，也无法达到本申请的技术效果。

公开号为CN114491025A的现有发明专利申请文献《一种基于写作风格的多任务谣言检测方法、装置及设备》披露的方法包括：获取待检测文本，并确定对应的内容特征以及写作风格特征；在多任务检测模型中，将内容特征输入至基于内容的谣言检测任务模块，得到谣言检测结果；将写作风格特征输入至基于写作风格的谣言检测任务模块，得到谣言检测结果；其中，在训练过程中，基于内容的谣言检测任务模块和基于写作风格的谣言检测任务模块通过共享层进行信息交互。该现有专利文献并未披露本申请的技术方案，也无法达到本申请的技术效果。

综上，现有技术存在考虑因素覆盖不够全面以及检测效果较差的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。

本发明是采用以下技术方案解决上述技术问题的：基于人格的社交网络谣言检测与立场分类方法包括：

S1、收集用户对特定事件发布的源推文以及不同用户对源推文的回复立场，预处理源推文及回复立场，以得到推文数据集及立场数据集，据以获得推文及立场数据向量

S2、根据与推文数据集及立场数据集相关联的用户信息，从社交平台爬取所有用户的推文记录数据，据以处理得到每个用户的大五人格向量

S3、从推文数据集中查找获取每个用户发布的所有推文及评论，平均值化处理推文及立场数据向量

以得到用户输入向量，据以通过预置多层感知器模型MLP预测用户的大五人格分数；

S4、利用长短期记忆网络LSTM的共享层，根据大五人格分数训练大五人格向量

以整合源推文和回复立场的相互影响，据以得到谣言检测表示向量以及立场分类表示向量；

S5、拼接谣言检测表示向量与对应用户的大五人格向量，以得到谣言人格拼接向量，依次利用多层感知器模型中的长短期记忆网络LSTM的共享层、softmax层及Dence层处理谣言人格拼接向量，据以得到谣言检测结果；

S6、拼接立场分类表示向量与对应用户的大五人格向量，以得到立场人格拼接向量，依次利用多层感知器模型中的LSTM共享层、softmax层及Dence层对立场人格拼接向量进行立场分类，据以得到立场分类结果。

本发明提供的多任务模型不仅可以进行谣言检测任务，还能对用户评论进行立场分类，还可以对用户人格进行分析。受到多任务学习成功的启发，本发明在一个统一的架构中，将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型，本发明使谣言检测和立场分类任务独立处理。在本文中，我们提出一个多任务模型，名为PI-RS，结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练，相互之间影响，不断迭代训练找出最优的参数，得到好的结果。同时，本发明通过使用多任务学习的方式，减少了对每个单独任务的过度拟合。

在更具体的技术方案中，步骤S1包括：

S11、在预设社交平台上收集源推文及回复立场；

S12、将源推文预处理为推文文本数据，并利用自然语言工具包(NLTK)标记推文文本；

S13、利用Google News数据集对推文文本中的每个单词提取预先训练的词嵌入，利用doc2vec得到句向量；

S14、将收集到的帖子集合表示为P＝{P₁,P₂,…,P_n}，其中，P＝(C,X,t)表示每个帖子，C表示为一个源推文，X表示为一系列回复推文，t表示发布的时间。

在更具体的技术方案中，步骤S13中，初始句向量的维度为300。

在更具体的技术方案中，步骤S2包括：

S21、根据用户信息爬取当前用户发布的推文记录数据；

S22、使用LIWC软件分析推文记录数据，据以得到当前用户的五维人格表示向量；

S23、以下述逻辑标准化处理五维人格表示向量，据以得到人格真实值的五维标签：

其中

S24、根据五维标签获取每个用户的大五人格向量

在更具体的技术方案中，步骤S3包括：

S31、获取每个用户发布的所有推文及评论，作为分析用户人格输入数据；

S32、从推文及立场数据向量中获取源推文及回复表示向量：

p_i＝{c_i,x_(i,1),x_(i,2),…,x_(i,j)}，i∈[1,n]，P∈R^|U|×d

其中d表示特征维度，平均值化处理每个用户的源推文及回复表示向量，以得到用户人格表示向量：

Q＝[q₁,q₂,…,q_u]，u∈U

其中，q＝mean embedding_k∈U(p₁,p₂,…,p_k)，mean embedding是每个用户发布的所有推文向量的平均值，U是用户总数。

S33、以预置多层感知器模型通过多层感知器MLP处理用户人格表示向量，据以得到五维个性评分预测值

S34、比较五维个性评分预测值

和真实人格特征q_i′，并使用均方误差和平均绝对误差来评估预置多层感知器模型。

针对人格信息很大程度上概括了用户的特征，同时会潜在地影响其在现实生活、社交网络中的行为等实际情况，本发明将每个人发布的源推文和评论都收集起来作为分析用户人格的数据，以通过全面信息来判断用户的人格。

在更具体的技术方案中，步骤S34包括：

S341、以下述逻辑处理得到预置多层感知器模型的损失：

其中q_i′∈R^|U|×d,d＝5并且包括[q_O,q_C,q_E,q_A,q_N]，q_i′是大五人格的真实值，

是大五人格的预测值；

S342、根据损失评估预置多层感知器模型。

在更具体的技术方案中，步骤S4包括：

S41、将大五人格向量作为输入序列p_i＝{c_i,x_i,1,x_i,2,…,x_i,j},i∈[1,n],P∈R^|U|×d，根据下述逻辑h_t,t∈[1,n]用反馈边更新输入序列隐层的隐状态：

h_t＝f(Rh_t-1+Wp_t+b)

其中，h₀＝0,f(·)为非线性函数是一个前馈网络，R、W、b、V为网络参数；

S42、以长短期记忆网络LSTM引入新内部状态c_t，以利用下述逻辑传递线性循环消息：

h_t＝o_t⊙tanh(c_t)

其中，f_t，i_t和o_t是三个控制信息传递路径的门，⊙是向量元素乘积。c_t-1是前一时刻的内存单元，为候选状态，c_t和

分别是新状态和候选细胞状态；

S43、以下述逻辑，利用长短期记忆网络LSTM的共享层处理输入序列，以得到谣言检测表示向量以及立场分类表示向量：

i_t＝σ(W_ip_t+U_ih_t-1+b_i)

f_t＝σ(W_fp_t+U_fh_t-1+b_f)

o_t＝σ(W_op_t+U_oh_t-1+b_o)

其中，σ是一个sigmoid函数，W_f，W_o，W_i，U_i，U_f，U_o，b_i，b_f，b_o是可学习的参数，通过LSTM共享层的输入向量表示为p_t。

本发明的共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM) 对向量进行处理，整合源推文数据和回复数据相互影响，以学习出更准确的表示。

在更具体的技术方案中，步骤S5包括：

S51、利用下述逻辑拼接谣言检测表示向量与对应用户的大五人格向量，据以得到谣言人格拼接向量z_i：

其中q_i是与谣言验证任务相对应的用户的大五人格向量，

是谣言验证任务经过LSTM层之后的输出向量；

S52、以下述逻辑利用多层感知器模型中的长短期记忆网络LSTM的共享层处理谣言人格拼接向量z_i，得到LSTM处理谣言人格拼接向量：

S53、利用softmax层，以下述逻辑处理LSTM处理谣言人格拼接向量，以得到谣言人格条件概率：

其中，w_a是类别a的权重向量；

S54、利用Dence层处理谣言人格条件概率，以得到Dence处理结果；

S55、利用下述逻辑计算模型损失，并根据模型损失及Dence处理结果处理得到谣言检测结果：

其中

和

分别表示第c类别的真实值和预测值，L₂正则权衡了模型的误差与规模，Θ是模型参数，λ是平衡系数。

在本发明采用的模型中，以预置谣言检测模块中的LSTM模型进行处理。本发明在该部分技术方案不同于现有技术在于，加入了人格分析因素。在将人格分析数据加入到谣言检测模块中，使得输入向量不仅仅包括推特分支数据，还覆盖了人格分析因素。

在更具体的技术方案中，步骤S6包括：

S61、以下述逻辑拼接立场分类表示向量与对应用户的大五人格向量，以得到立场人格拼接向量：

其中q_i,j是与谣言验证任务相对应的用户的大五人格向量，s是拼接过后的立场分类任务输入向量；

S62、将立场人格拼接向量通过全连接层，以得到立场人格全连接处理数据；

S63、利用softmax层以下述逻辑处理立场人格全连接处理数据，以得到立场人格条件概率：

其中，w_a是类别a的权重向量；

S64、利用下述逻辑计算模型损失：

其中

和

分别表示第b类别的真实值和预测值，L₂正则权衡了模型的误差与规模，Θ是模型参数，λ是平衡系数。

S64、以下述逻辑处理超参数λ及模型损失，以得到立场分类结果：

L＝L_Ver+λ₁L_Sta+λ₂L_PER

其中λ₁≥0，λ₂≥0。

本发明的立场分类输入向量通过共享层处理分支序列后，同时考虑了每个用户的人格影响，以获知每个人的人格是否影响他们的说谎行为。本发明将人格数据添加到立场分类处理中，并通过最小化损失函数得到最优的实验结果，最终完成谣言检测和立场分类任务，提高了立场分类结果的准确性。

本发明学习到的表征可以导致比那些从单一任务的表面形式特征建立的模型更紧凑。实验结果显示，相对于单独学习，将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。

在更具体的技术方案中，基于人格的社交网络谣言检测与立场分类系统包括：

数据集采集处理模块，用以收集用户对特定事件发布的源推文以及不同用户对源推文的回复立场，预处理源推文及回复立场，以得到推文数据集及立场数据集，据以获得推文及立场数据向量

人格向量模块，用以根据与推文数据集及立场数据集相关联的用户信息，从社交平台爬取所有用户的推文记录数据，据以处理得到每个用户的大五人格向量

人格向量模块与数据集采集处理模块连接；

人格识别模块，用以从推文数据集中查找获取每个用户发布的所有推文及评论，平均值化处理推文及立场数据向量

以得到用户输入向量，据以通过预置多层感知器模型预测用户的大五人格分数，人格识别模块与人格向量模块连接；

大五人格向量训练模块，用以利用长短期记忆网络LSTM的共享层，根据大五人格分数训练大五人格向量

以整合源推文和回复立场的相互影响，据以得到谣言检测表示向量以及立场分类表示向量，大五人格向量训练模块与人格识别模块连接；

谣言检测模块，用以拼接谣言检测表示向量与对应用户的大五人格向量，以得到谣言人格拼接向量，依次利用多层感知器模型中的长短期记忆网络LSTM的共享层、softmax层及Dence层处理谣言人格拼接向量，据以得到谣言检测结果，谣言检测模块与人格向量模块及大五人格向量训练模块连接；

立场分类模块，用以拼接立场分类表示向量与对应用户的大五人格向量，以得到立场人格拼接向量，依次利用多层感知器模型中的LSTM共享层、softmax层及Dence层对立场人格拼接向量进行立场分类，据以得到立场分类结果，立场分类模块与人格向量模块及大五人格向量训练模块连接。

本发明相比现有技术具有以下优点：本发明提供的多任务模型不仅可以进行谣言检测任务，还能对用户评论进行立场分类，还可以对用户人格进行分析。受到多任务学习成功的启发，本发明在一个统一的架构中，将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型，本发明使谣言检测和立场分类任务独立处理。在本文中，我们提出一个多任务模型，名为PI-RS，结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练，相互之间影响，不断迭代训练找出最优的参数，得到好的结果。同时，本发明通过使用多任务学习的方式，减少了对每个单独任务的过度拟合。相对于单独学习，将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。

本发明学习到的表征可以导致比那些从单一任务的表面形式特征建立的模型更紧凑。实验结果显示，相对于单独学习，将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。本发明解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。

附图说明

图1为本发明实施例1的基于人格的社交网络谣言检测与立场分类方法步骤示意图；

图2为本发明实施例1的数据收集处理流程示意图；

图3为本发明实施例1的人格向量获取流程示意图；

图4为本发明实施例1的大五人格值预测流程示意图；

图5为本发明实施例1的谣言检测流程示意图；

图6为本发明实施例1的立场分类流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，基于人格的社交网络谣言检测与立场分类方法包括以下步骤：

S1、收集、整理数据集，将数据集处理成向量形式，在本实施例中，在社交网络上收集用户发布关于某重大事件的源推文和不同用户对该推文的回复立场。对收集到的源推文和回复进行预处理，处理成向量的形式

S2、在原数据集基础上再爬取用户日常发布的其他推文，处理成人格向量，在本实施例中，在原数据集的基础上，再在推特官网上爬取原数据集所有用户日常发布的推文，再处理成每个用户的大五人格向量

S3、实现人格识别任务，预测用户的大五人格值，在本实施例中，将每个用户发布的所有推文在原数据集上找到，再对

进行平均值化操作，将得到的用户的输入向量通过多层感知器模型预测用户的大五人格分数；

S4、将预处理推文向量通过LSTM共享层进一步训练，在本实施例中，通过LSTM共享层将S2得到的向量表示进一步训练，得到表示向量

S5、实现谣言检测任务，对源推文进行分类，判断是否是谣言，在本实施例中，将S5中得到的谣言检测表示向量与对应用户的大五人格向量进行拼接通过LSTM层，再经过softmax和Dence层最后得到谣言检测结果；

S6、实现立场分类任务，对所有人的回复进行分类，在本实施例中，将S5中得到的立场分类表示向量与对应用户的大五人格向量进行拼接通过Dence和Softmax层最后得到立场分类结果。

如图2所示，步骤S1还包括：

S11、在推特官网上收集用户发布关于某重大事件的源推文和不同用户对该推文的立场回复；

S12、对于原始数据集我们所做的预处理有：首先删除了文本数据中的非字母字符，并将所有单词转换成小写，使用自然语言工具包(NLTK)对推文进行标记；

S13、在推文文本处理完成后，使用Google News数据集对推文中每个单词提取预先训练好的词嵌入，再使用doc2vec得到句向量，初始向量维度为300；

S14、将收集到的帖子集合表示为P，在本实施例中，将收集到的整个帖子表示为 P＝{P₁,P₂,…,P_n}，每一个帖子都包含了发布的源推文和不同用户的评论，表示为 P＝(C,X,t)，其中C表示为一个源推文，X表示为一系列回复推文，t表示发布的时间。具体的解释为：用户在社交网络上发布的源推文定义为C＝{c₁,c₂,…,c_n}，每条源推文又表示为c_i＝(u_i,w_i,t_i)，其中u表示社交网络上的用户账号，w表示发布推文文本信息，t表示发布时间。另外，用户在社交网络上发布推文，会有很多不同的用户在下面进行回复，表达自己的立场，表示为X_i＝{x_i1,x_i2,…,x_ij}。同时，每条评论可以表示为 x_i,＝{u_j,w_j,t_j}，其中u表示用户账号，w表示用户立场，t表示回复时间。该立场分类任务的输出为y_s，将其分为四类标签，分别为支持、否定、疑问和评论。

如图3所示，步骤S2还包括：

S21、为了获得每个用户的人格基础信息，在Twitter官方网站上爬取当前用户发布的日常所有推文；

S22、使用LIWC软件对收集到的文本信息进行分析，得到一个五维人格表示向量；

S23、进行标准化。其计算公式如下：

其中

最后，我们得到了人格真实值的五维标签。最后得到每个用户的大五人格向量

如图4所示，步骤S3还包括：

S31、将每个人发布的源推文和评论都收集起来作为分析用户人格的数据，在本实施例中，对于人格识别模块，我们是将每个人发布的源推文和评论都收集起来作为分析用户人格的数据。因为一条评论或者一个源推文并不能简单的代表这个人的个性，必须通过全面信息来判断。人格信息很大程度上概括了用户的特征，同时会潜在地影响其在现实生活、社交网络中的行为。

S32、首先整个模型的输入是数据集中的序列数据，包括源推文表示向量和不同用户的回复表示向量；

在本实施例中，源推文表示向量和不同用户的回复表示向量表示为 p_i＝{c_i,x_(i,j),x_(i,2),…,x_(i,j)}，i∈[1,n]，P∈R^|U|×d，其中d表示特征维度。我们对每个用户的数据进行平均值化操作，得到用户人格表示向量，表示为Q＝[q₁,q₂,…,q_u]，u∈ U。

q＝mean embedding_k∈U(p₁,p₂,…,p_k)

其中mean embedding是每个用户发布的所有推文向量的平均值，U是用户总数。

S33、此外，该模型通过多层感知器(MLP)对人格表示向量进行处理，最终得到五维个性评分预测值

S34、计算模型损失，在本实施例中，我们比较了预测人格特征

和真实人格特征q_i′，并使用均方误差和平均绝对误差来评估模型。人格识别任务穿插在谣言检测任务和立场分类任务中，以补充其他两个任务，使其他任务更有效。模型损失计算公式为

是大五人格的预测值。

步骤S4包括：

共享层利用递归神经网络(RNN)中的一种变体网络长短期记忆网络(LSTM)对向量进行处理，整合源推文数据和回复数据相互影响，学习出更准确的表示。给定输入序列 p_i＝{c_i,x_i,1,x_i,2,…,x_i,j},i∈[1,n],P∈R^|U|×d，则可以根据h_t,t∈[1,n]用反馈边更新隐层的隐状态。

h_t＝f(Rh_t-1+Wp_t+b)

其中，h₀＝0,f(·)为非线性函数是一个前馈网络。R、W、b、V为网络参数。LSTM 网络引入了一种新的内部状态c_t，专门用于线性循环消息传递。

h_t＝o_t⊙tanh(c_t)

其中，f_t，i_t和o_t是三个控制信息传递路径的门，⊙是向量元素乘积。c_t-1是前一时刻的内存单元，为候选状态。c_t和

分别是新状态和候选细胞状态。

i_t＝σ(W_ip_t+U_ih_t-1+b_i)

f_t＝σ(W_fp_t+U_fh_t-1+b_f)

o_t＝σ(W_op_t+U_oh_t-1+b_o)

σ是一个sigmoid函数，W_f，W_o，W_i，U_i，U_f，U_o，b_i，b_f，b_o是可学习的参数，通过LSTM共享层的输入向量表示为p_t。模型输入通过共享层LSTM之后的输出向量为

如图5所示，步骤S5包括：

S51、拼接谣言检测表示向量与对应用户的大五人格向量，以得到谣言人格拼接向量；在本实施例中，在我们的模型中，谣言检测模块用于测试用户源推文(即每个分支的第一个输入)的真实性，并在所有输入通过共享层后将其传递给谣言检测模块。进入谣言检测模块后，我们使用同样的LSTM模型进行处理。不同的是，在这一部分中，我们加入了人格分析因素。在将人格分析数据加入到谣言检测模块中后，我们的输入向量现在不仅仅是推特分支数据了。将这两个数据向量拼接在一起；

其中q_i是与谣言验证任务相对应的用户的大五人格向量，

是谣言验证任务经过LSTM层之后的输出向量。

S52、利用多层感知器模型中的长短期记忆网络LSTM的共享层处理谣言人格拼接向量，得到LSTM处理谣言人格拼接向量；在本实施例中，然后将输出向量通过LSTM模型，接着是全连接层和softmax层，最终得到谣言分类结果预测。通过softmax回归预测的属于c类的条件概率为

w_a是类别a的权重向量。

S53、计算该部分模型损失；在本实施例中，为每个任务提出的多任务模型的参数被训练成预测和地面真实分布的交叉熵最小。

其中

和

(分别对应真，假和未经证实)分别表示第c类别的真实值和预测值。L₂正则权衡了模型的误差与规模，Θ是模型参数，λ是平衡系数。

如图6所示，步骤S6包括：

S61、拼接所述立场分类表示向量与对应用户的大五人格向量，以得到立场人格拼接向量；在本实施例中，立场分类输入向量通过共享层处理分支序列后，考虑每个用户的人格影响，看每个人的人格是否影响他们说谎。将人格数据添加到立场分类模块中，拼接公式为：

其中q_i,j是与谣言验证任务相对应的用户的大五人格向量，s是拼接过后的立场分类任务输入向量。

S62、将立场人格拼接向量通过全连接层，以得到立场人格全连接处理数据，在本实施例中，在立场分类模块中，将拼接后的多维向量分别通过全连接层和softmax层。通过softmax回归预测的属于c类的条件概率为

w_a是类别a的权重向量。

S63、计算该部分模型损失；在本实施例中，为每个任务提出的多任务模型的参数被训练成预测和地面真实分布的交叉熵最小。

其中

和

(分别对应支持、拒绝、质疑、评论)分别表示第b类别的真实值和预测值。L₂正则权衡了模型的误差与规模，Θ是模型参数，λ是平衡系数。

S64、最后，人格识别任务对于谣言验证和立场分类任务的重要性由超参数λ决定。

L＝L_ver+λ₁L_Sta+λ₂L_PER

其中λ₁≥0，λ₂≥0。通过最小化损失函数得到最优的实验结果，最终完成谣言检测和立场分类任务。

综上，本发明提供的多任务模型不仅可以进行谣言检测任务，还能对用户评论进行立场分类，还可以对用户人格进行分析。受到多任务学习成功的启发，本发明在一个统一的架构中，将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型，本发明使谣言检测和立场分类任务独立处理。在本文中，我们提出一个多任务模型，名为PI-RS，结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练，相互之间影响，不断迭代训练找出最优的参数，得到好的结果。同时，本发明通过使用多任务学习的方式，减少了对每个单独任务的过度拟合。相对于单独学习，将人格识别任务加入两个谣言相关任务的联合学习可以显著提高每个任务的性能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述方法包括：

S1、收集用户对特定事件发布的源推文以及不同用户对所述源推文的回复立场，预处理所述源推文及所述回复立场，以得到推文数据集及立场数据集，据以获得推文及立场数据向量

S2、根据与所述推文数据集及所述立场数据集相关联的用户信息，从社交平台爬取所有所述用户的推文记录数据，据以处理得到每个用户的大五人格向量

S3、从所述推文数据集中查找获取每个所述用户发布的所有所述推文及评论，平均值化处理所述推文及立场数据向量

以得到用户输入向量，据以通过预置多层感知器模型MLP预测所述用户的大五人格分数；

S4、利用长短期记忆网络LSTM的共享层，根据所述大五人格分数训练所述大五人格向量

以整合所述源推文和所述回复立场的相互影响，据以得到谣言检测表示向量以及立场分类表示向量；

S5、拼接所述谣言检测表示向量与对应用户的所述大五人格向量，以得到谣言人格拼接向量，依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量，据以得到谣言检测结果；

S6、拼接所述立场分类表示向量与对应用户的所述大五人格向量，以得到立场人格拼接向量，依次利用所述多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类，据以得到立场分类结果。

2.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S1包括：

S11、在预设社交平台上收集所述源推文及所述回复立场；

S12、将所述源推文预处理为推文文本数据，并利用自然语言工具包(NLTK)标记所述推文文本；

S13、利用Google News数据集对所述推文文本中的每个单词提取预先训练的词嵌入，利用doc2vec得到句向量；

3.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S13中，初始所述句向量的维度为300。

4.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S2包括：

S21、根据所述用户信息爬取当前所述用户发布的所述推文记录数据；

S22、使用LIWC软件分析所述推文记录数据，据以得到当前所述用户的五维人格表示向量；

S23、以下述逻辑标准化处理所述五维人格表示向量，据以得到人格真实值的五维标签：

其中

S24、根据所述五维标签获取每个所述用户的所述大五人格向量

5.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S3包括：

S31、获取每个所述用户发布的所有所述推文及所述评论，作为分析用户人格输入数据；

S32、从所述推文及立场数据向量中获取源推文及回复表示向量：

p_i＝{c_i，x_(i，1)，x_(i，2)，...，x_(i，j)}，i∈[1，n]，P∈R^|U|×d

其中d表示特征维度，平均值化处理每个用户的所述源推文及回复表示向量，以得到用户人格表示向量：

Q＝[q₁，q₂，...，q_u]，u∈U

其中，q＝mean embedding_k∈U(p₁，p₂，...，p_k)，mean embedding是每个用户发布的所有推文向量的平均值，U是用户总数。

S33、以所述预置多层感知器模型通过多层感知器MLP处理所述用户人格表示向量，据以得到五维个性评分预测值

S34、比较五维个性评分预测值

和真实人格特征q′_i，并使用均方误差和平均绝对误差来评估所述预置多层感知器模型。

6.根据权利要求4所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S34包括：

S341、以下述逻辑处理得到所述预置多层感知器模型的损失：

其中q′_i∈R^|U|×d，d＝5并且包括[q_O，q_C，q_E，q_A，q_N]，q′_i是大五人格的真实值，

是大五人格的预测值；

S342、根据所述损失评估所述预置多层感知器模型。

7.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S4包括：

S41、将所述大五人格向量作为输入序列p_i＝{c_i，x_i，1，x_i，2，...，x_i，j}，i∈[1，n]，p∈R^|U|×d，根据下述逻辑h_t，t∈[1，n]用反馈边更新输入序列隐层的隐状态：

h_t＝f(Rh_t-1+Wp_t+b)

其中，h₀＝0，f(·)为非线性函数是一个前馈网络，R、W、b、V为网络参数；

S42、以所述长短期记忆网络LSTM引入新内部状态c_t，以利用下述逻辑传递线性循环消息：

h_t＝o_t⊙tanh(c_t)

分别是新状态和候选细胞状态；

S43、以下述逻辑，利用所述长短期记忆网络LSTM的共享层处理所述输入序列，以得到所述谣言检测表示向量以及所述立场分类表示向量：

i_t＝σ(W_ip_t+U_ih_t-1+b_i)

f_t＝σ(W_fp_t+U_fh_t-1+b_f)

o_t＝σ(W_op_t+U_oh_t-1+b_o)

8.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S5包括：

S51、利用下述逻辑拼接所述谣言检测表示向量与对应用户的所述大五人格向量，据以得到所述谣言人格拼接向量z_i：

其中q_i是与谣言验证任务相对应的用户的大五人格向量，

是谣言验证任务经过LSTM层之后的输出向量；

S52、以下述逻辑利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层处理所述谣言人格拼接向量z_i，得到LSTM处理谣言人格拼接向量：

S53、利用所述softmax层，以下述逻辑处理所述LSTM处理谣言人格拼接向量，以得到谣言人格条件概率：

其中，w_a是类别a的权重向量；

S54、利用所述Dence层处理所述谣言人格条件概率，以得到Dence处理结果；

S55、利用下述逻辑计算模型损失，并根据所述模型损失及所述Dence处理结果处理得到所述谣言检测结果：

其中

和

9.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法，其特征在于，所述步骤S6包括：

S61、以下述逻辑拼接所述立场分类表示向量与对应用户的所述大五人格向量，以得到所述立场人格拼接向量：

其中q_i，j是与谣言验证任务相对应的用户的大五人格向量，s是拼接过后的立场分类任务输入向量；

S62、将所述立场人格拼接向量通过全连接层，以得到立场人格全连接处理数据；

S63、利用所述softmax层以下述逻辑处理所述立场人格全连接处理数据，以得到立场人格条件概率：

其中，w_a是类别a的权重向量；

S64、利用下述逻辑计算模型损失：

其中

和

S64、以下述逻辑处理超参数λ及所述模型损失，以得到所述立场分类结果：

L＝L_Ver+λ₁L_Sta+λ₂L_PER

其中λ₁≥0，λ₂≥0。

10.基于人格的社交网络谣言检测与立场分类系统，其特征在于，所述系统包括：

数据集采集处理模块，用以收集用户对特定事件发布的源推文以及不同用户对所述源推文的回复立场，预处理所述源推文及所述回复立场，以得到推文数据集及立场数据集，据以获得推文及立场数据向量

人格向量模块，用以根据与推文数据集及立场数据集相关联的用户信息，从社交平台爬取所有所述用户的推文记录数据，据以处理得到每个用户的大五人格向量

所述人格向量模块与所述数据集采集处理模块连接；

人格识别模块，用以从所述推文数据集中查找获取每个所述用户发布的所有所述推文及评论，平均值化处理所述推文及立场数据向量

以得到用户输入向量，据以通过预置多层感知器模型预测所述用户的大五人格分数，所述大五人格预测模块与所述人格向量模块连接；

大五人格向量训练模块，用以利用长短期记忆网络LSTM的共享层，根据所述大五人格分数训练所述大五人格向量

以整合所述源推文和所述回复立场的相互影响，据以得到谣言检测表示向量以及立场分类表示向量，所述大五人格向量训练模块与所述人格识别模块连接；

谣言检测模块，用以拼接所述谣言检测表示向量与对应用户的所述大五人格向量，以得到谣言人格拼接向量，依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量，据以得到谣言检测结果，所述谣言检测模块与所述人格向量模块及所述大五人格向量训练模块连接；

立场分类模块，用以拼接所述立场分类表示向量与对应用户的所述大五人格向量，以得到立场人格拼接向量，依次利用多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类，据以得到立场分类结果，所述立场分类模块与所述人格向量模块及所述大五人格向量训练模块连接。