CN112685541A

CN112685541A - 一种基于多任务学习的社交媒体谣言检测方法

Info

Publication number: CN112685541A
Application number: CN202110269307.1A
Authority: CN
Inventors: 李芳芳; 张盼曦; 宁肯; 刘志
Original assignee: Central South University
Current assignee: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-04-20
Anticipated expiration: 2041-03-11
Also published as: CN112685541B

Abstract

本发明涉及一种基于多任务学习的社交媒体谣言检测方法，具体包括如下步骤：S1：对语料进行数据提取及格式转换，获取帖子的源、回复及传播路径；S2：提取行文风格的特征；S3：提取用户置信度的特征；S4：对来源帖子及回复帖子中的文本部分做文本预处理,来输入后续任务；S5：将S2和S3提取到的特征与S4的文本表示做向量拼接；S6：将拼接后的向量放入一个共享的BERT层；S7：分别构建神经网络结构；S8：将S5处理后的数据输入神经网络结构中，输出立场分类和谣言分类。本发明能用多任务联合模型联合两个高度相关的任务，改进了谣言检测和立场分类任务，提高了谣言检测性能。

Description

一种基于多任务学习的社交媒体谣言检测方法

技术领域

本发明涉及谣言检测的技术领域，尤其涉及一种基于多任务学习的社交媒体谣言检测方法。

背景技术

近年来，随着社交媒体的快速发展，人们倾向于通过twitter, reddit等社交媒体查阅自己所关心的相关消息。然而，在这些社交媒体为我们的生活提供便利的同时，他们也导致信息泛滥和网络谣言大量传播的问题。谣言给人们的生产生活带来了很多危害，病毒式传播的谣言时常引起公众舆论，扰乱社会秩序，并给社会经济和政治带来负面影响。同时，谣言也会影响人们的判断力。

谣言的恶劣影响引发了大众的广泛关注，谣言检测技术亟待改进。由于传统的新闻媒体检测算法对社交媒体谣言检测任务是无效或不适用的，且故意撰写谣言以误导读者的情况难以检测，在社交媒体上进行谣言检测任务是具有挑战性的。传统的方法是采用常见的机器学习模型如Support Vector Machine (SVM) , Random Forest(RF)等进行特征分类，或使用深度学习RNN, LSTM, GCN等来模拟谣言信息流的传播结构。

发明内容

本发明的目的是提供一种基于多任务学习的社交媒体谣言检测方法，能用多任务联合模型联合两个高度相关的任务，改进了谣言检测和立场分类任务，提高了谣言检测性能。

为达到上述目的而采用了一种基于多任务学习的社交媒体谣言检测方法，具体包括如下步骤：

S1：对社交媒体文本数据集中的语料进行数据提取及格式转换，获取帖子的源、回复及传播路径；

S2：对步骤1处理过后的语料提取行文风格的特征，处理为向量的形式；

S3：对步骤1处理过后的语料提取用户置信度的特征，处理为向量的形式；

S4：对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示，来输入后续任务；

S5：将S2和S3提取到的特征与S4的文本表示做向量拼接；

S6：将拼接后的向量放入一个共享的BERT层，通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示；

S7：分别构建子任务I立场检测和子任务II谣言检测的神经网络结构；

S8：将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中，进行子任务I的四分类任务和子任务II的三分类任务，输出立场分类和谣言分类。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S1中：

源帖子用s表示，回复用

表示，源帖对应有多个回复，下标表示回复编号，回复对应的传播链用

表示，可构成多条传播链，是自上而下的传播结构，

的下标表示传播链编号，即s对应

形成多分枝的树状结构会话。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S2中，行文风格的特征包括：

帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词，其中，将帖子长度用根据空格分隔的单词数量

表示；

表示帖子是否含有URL，

表示帖子是否含有图片，取值为0或1；

表示是否含有负面词，所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”；

表示是否含有讽刺意味的词，通过比对整合得到的讽刺词词表确定，取值为0或1；源帖与对应评论的相似度运用余弦相似度计算公式计算，源帖的向量表示为A，对应回复的向量表示为B，则相似度计算公式为：

（1）

这里的

和

分别代表源帖向量A和回复向量B的各分量，i代表第i个分量，n代表向量的长度。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S3中，用户置信度的特征包括：

发帖人的职务、身份是否认证。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S4中，预处理部分包括：

使用文本处理工具去除帖子文本中的非字母内容；把所有单词转化成小写字母的形式；用BERT预训练模型的tokenizer模块对文本进行词级别的切分；用‘[CLS]’标识符表示帖子开头放在首部，‘[SEP]’标识符表示帖子结尾放在尾部，处理过后通过查询BERT词表，将文本编码为BERT词表所对应的向量。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S6中，在向量拼接后，加入需要遮盖部分的位置信息和分句信息，处理为BERT输入的形式，该输入形式为包括[ids, mask, segment]三个部分的二维数组，其中，ids表示经BERT词表转换后的向量，mask表示帖子中需要遮盖训练的部分，segment表示上下句切分的形式，处理后输入共享BERT层中，得到维度形式为R^u×d的向量表示，R表示向量的空间值域，u为帖子的最大长度，d为表示每个词的向量维度。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S7中，神经网络结构为，共享BERT层后，紧接dropout层，加入dropout的计算公式如下，通过Bernoulli 概率值p表示神经元丢弃概率，

表示l层的神经元数目：

Z⁽

⁾～Bernoulli（p）（2）

通过Bernoulli概率值p表示神经元丢弃概率，

表示第

层,Z⁽

⁾表示

层的 dropout概率，公式中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量。

（3）

表示

层的神经元数目, Z⁽

⁾表示

层的dropout概率,

表示

+1层的 dropout结果。

分别为子任务I和子任务II搭建全连接层，全连接层的激活函数使用softmax，将上一步得到的logits映射到0到1之间；

（4）

其中，k表示神经网络的多个输出或类别数，e表示指数函数，Z为输出向量，j表示当前所需要计算的类别，计算结果在0到1之间，且所有类别的softmax值求和为1。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S8中，

子任务I立场检测任务中，对应标签包括支持，反对，疑问，陈述四个类别，源帖和每一个回复都对应有立场检测的标签，表达发帖人的个人主张：

（5）

子任务II谣言检测任务中，对应标签包括真，假，中立三个类别，只有源帖对应有谣言检测的标签，表达该话题的真实性：

（6）

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，还包括S9：通过加权，平衡不同任务的损失权重，优化立场检测任务和谣言检测任务学习的损失。

作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进，S9中，使用动态的加权方式，利用GradNorm算法据梯度变化进行调整更新公式，将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整，计算公式如下：

（7）

其中，m表示第m种损失，w表示损失的权重，公式（7）通过加权调整损失loss，进行训练学习。

本发明能减少单任务在训练过程中出现的过拟合现象，使模型更具泛化能力，增强模型在验证集和测试集上的表现。2.多任务中立场检测任务可以弥补有标签的谣言文本较少的缺点，增加共享的训练样本。3.用表现较好的立场检测任务带动谣言检测任务的表现。

附图说明

图1为基于多任务学习的社交媒体谣言检测方法主要步骤流程示意图。

图2为源帖及回复帖传播结构图。

图3为基于多任务学习的社交媒体谣言检测模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、 “第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、 “相连”、 “连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

一种基于多任务学习的社交媒体谣言检测方法，具体包括如下步骤：

S5：将S2和S3提取到的特征与S4的文本表示做向量拼接；

在本实施例中，S1中：

源帖子用s表示，回复用

表示，可构成多条传播链，是自上而下的传播结构，

的下标表示传播链编号，即s对应

形成多分枝的树状结构会话。

在本实施例中，S2中，行文风格的特征包括：

表示；

表示帖子是否含有URL，

表示帖子是否含有图片，取值为0或1；

（1）

这里的

和

分别代表源帖向量A和回复向量B的各分量，i代表第i个分量，n代表向量的长度n。

在本实施例中，S3中，用户置信度的特征包括：

发帖人的职务、身份是否认证。

在本实施例中，S4中，预处理部分包括：

在本实施例中，S6中，在向量拼接后，加入需要遮盖部分的位置信息和分句信息，处理为BERT输入的形式，该输入形式为包括[ids, mask, segment]三个部分的二维数组，其中，ids表示经BERT词表转换后的向量，mask表示帖子中需要遮盖训练的部分，segment表示上下句切分的形式，处理后输入共享BERT层中，得到维度形式为R^u×d的向量表示，u为帖子的最大长度，d为表示每个词的向量维度。

在本实施例中，S7中，神经网络结构为，共享BERT层后，紧接dropout层，加入 dropout的计算公式如下，通过Bernoulli概率值p表示神经元丢弃概率，

表示l层的神经元数目：

Z⁽

⁾～Bernoulli（p）（2）

通过Bernoulli概率值p表示神经元丢弃概率，

表示第

层,Z⁽

⁾表示

（3）

表示

层的神经元数目, Z⁽

⁾表示

层的dropout概率,

表示

+1层的 dropout结果，分别为子任务I和子任务II搭建全连接层，全连接层的激活函数使用 softmax，将上一步得到的logits映射到0到1之间；

（4）

在本实施例中，S8中，

（5）

（6）

在本实施例中，还包括S9：通过加权，平衡不同任务的损失权重，优化立场检测任务和谣言检测任务学习的损失。

在本实施例中，S9中，使用动态的加权方式，利用GradNorm算法据梯度变化进行调整更新公式，将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整，计算公式如下：

（7）

实施例2

（1）对于社交媒体的谣言检测，本发明提出了一个基于多任务联合学习的模型方法，用于自动检测社交媒体中帖子内容的真实性，避免谣言带来的“后真相”问题。

（2）本发明将社交媒体的谣言检测任务划分为参与讨论者对帖子的立场（支持，反对，疑问，陈述）分类任务和对帖子陈述本身的真假性（真，假，中立）分类两个子任务。

（3）由于帖子的准确性与参与讨论者对帖子的态度有很强的相关性，模型建立两个任务共同学习，共享参数，相互启发，使两个任务学到的特征更具泛化能力，最终评估帖子真实性。

（4）本发明在预处理部分加入特征，包括帖子长度、是否有URL或图片、原贴与对应评论的相似度、并将发帖人的职务，身份是否认证等处理为用户置信度特征。

（5）本发明使用Bert (Bidirectional Encoder Representations fromTransformer)预训练模型对帖子做词级别的切分和文本表示。

（6）通过加权，平衡不同任务的损失权重，优化立场检测任务和谣言检测任务学习的损失。

（7）经试验表明，该模型能有效提升谣言检测任务的精度。

基于多任务学习的社交媒体谣言检测模型及主要步骤：

如图1所示：

步骤1：对社交媒体文本数据集中的语料进行数据提取及格式转换，获取帖子的源、回复及传播路径。

其中，源帖子用s表示，回复用

表示，源帖对应有多个回复，下标表示回复编号；回复对应的传播链用

，

表示传播链上的最后一条帖子源贴的回复，可构成多条传播链，是自上而下的传播结构，用

表示，

下标表示传播链编号，即s对应

形成多分枝的树状结构会话。

步骤2：对步骤1处理过后的语料提取行文风格的特征，包括提取帖子长度、是否有URL（网页网址）或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词等，处理为向量的形式。

行文风格是个人在写作风格上的不同行为习惯，我们从几个不同的方面捕获帖子行文风格上的特征，将帖子长度用根据空格分隔的单词数量

表示，

表示帖子是否含有URL，

表示帖子是否含有图片，取值为0或1。

表示是否含有负面词。

负面词包括“not, no, nobody, nothing, none, never, neither, nor,nowhere, hardly, scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t,couldn’t, doesn’t…”。

表示是否含有讽刺意味的词，通过比对整合得到的讽刺词词表确定，取值为0或1。

源帖与对应评论的相似度运用余弦相似度计算公式，源帖的向量表示为A，对应回复的向量表示为B，则相似度计算公式为：

（1）

这里的

和

步骤3：对步骤1处理过后的语料提取用户置信度的特征，将发帖人的职务，身份是否认证等用向量表示。

步骤4：对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为后续任务的输入。

预处理部分包括使用NLTK, Stanford CoreNLP，spacy等文本处理工具去除帖子文本中的表情符号等非字母内容，把所有单词转化成小写字母的形式，并用聊天机器人服务商hugging face团队的BERT预训练模型的tokenizer模块对文本进行词级别的切分。用‘[CLS]’标识符表示帖子开头放在首部，‘[SEP]’标识符表示帖子结尾放在尾部。

处理过后通过查询BERT词表，将文本编码为BERT词表所对应的向量。

步骤5：将步骤2和步骤3提取到的特征与步骤4的文本表示做向量拼接。

步骤6：将拼接后的向量放入一个共享的BERT层，通过共享把两个子任务的数据编码为同一个语义空间中的向量表示。

在向量拼接后，加入需要遮盖部分的位置信息和分句信息，处理为BERT输入的形式，该输入形式为包括[ids, mask, segment]三个部分的二维数组。其中，ids表示经BERT词表转换后的向量，mask表示帖子中需要遮盖训练的部分，segment表示上下句切分的形式。处理后将输入放入共享BERT层中，得到维度形式为R^u×d的向量表示，R表示向量的空间值域，u为帖子的最大长度，d为表示每个词的向量维度。

步骤7：分别构建子任务I立场检测和子任务II谣言检测的神经网络结构。

经过共享BERT层后，紧接dropout层。dropout层在一定概率上将部分神经网络单元暂时丢弃，作用是防止模型过度拟合，提高模型的泛化性能，加入dropout的计算公式如下，通过Bernoulli概率值p表示神经元丢弃概率，

表示l层的神经元数目：

Z⁽

⁾～Bernoulli（p）（2）

通过Bernoulli概率值p表示神经元丢弃概率，

表示第

层, Z⁽

⁾表示

层的 dropout概率，公式中Bernoulli函数，是为了以概率p，随机生成一个0、1的向量，

（3）

表示

层的神经元数目, Z⁽

⁾表示

层的dropout概率,

表示

+1层的 dropout结果，分别为子任务I和子任务II搭建全连接层，全连接层的激活函数使用 softmax，将上一步得到的logits映射到0到1之间。

（4）

其中，k表示神经网络的多个输出或类别数，e表示指数函数，Z为输出向量，i表示当前所需要计算的类别，计算结果在0到1之间，且所有类别的softmax值求和为1。

步骤8：将步骤5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中，进行子任务I的四分类任务和子任务II的三分类任务。

（5）

（6）

步骤9：通过加权，平衡不同任务的损失权重，优化立场检测任务和谣言检测任务学习的损失。

由于不同的子任务学习的难易程度不同，且不同的任务处于的学习阶段不同，我们不能用同一损失权重去处理不同任务。并且，数据集的数据分布更加偏向于子任务I立场检测的数据分布。因此在学习过程中，我们使用动态的加权方式，利用GradNorm算法据梯度变化进行调整更新公式，将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整。

（7）

本发明针对谣言设计的多任务学习模型，凭借参与讨论者对谣言的立场多样化这一特点，将立场检测任务引入到谣言检测任务中，将两者紧密联系起来，建立共享层使两个任务共享参数，相互启发，以提取共同和不变的特征。

优点：1.减少单任务在训练过程中出现的过拟合现象，使模型更具泛化能力，增强模型在验证集和测试集上的表现。2.多任务中立场检测任务可以弥补有标签的谣言文本较少的缺点，增加共享的训练样本。3.用表现较好的立场检测任务带动谣言检测任务的表现。

由于谣言的行文风格方面倾向于非正式，耸人听闻，情感化的语言，本发明提取行文风格相关的特征，帮助神经网络理解语义表达和写作风格的特征，以帮助提升谣言检测模型的表现。

本发明提取用户置信度特征，之前的许多研究表明，用户置信度特征在谣言检测中非常重要，当帖子由权威人员发布时，可信度较高。并且置信度高的用户（例如经过验证的用户，有影响力的用户，新闻官方代理，政府官方代理或谣言主题领域的专业人员）对帖子进行揭穿或支持时，能在一定程度上给予帖子公信力。

由于单处理纯文本达不到较好的表现，本发明考虑引入辅助任务去帮助完成。根据研究表明，对谣言的立场通常是多种多样的，且大多是有争议的立场。因此，确定参与讨论者的相关立场与成功发现谣言有关，反之亦然。而现有工作主要将谣言检测和立场检测作为单独的任务处理。而两者的紧密联系促使本发明将两者联系起来，用多任务联合模型联合两个高度相关的任务。基于深度神经网络，本发明使用权重共享共同训练两个任务，以提取共同和不变的特征，而每个任务仍可以学习其特定任务的特征。从Twitter和reddit收集的数据集上的大量实验表明，本发明提出的模型在共享层的连接下同时改进了谣言检测和立场分类任务，提高了谣言检测性能。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于多任务学习的社交媒体谣言检测方法，其特征在于，具体包括如下步骤：

S5：将S2和S3提取到的特征与S4的文本表示做向量拼接；

2.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S1中：

源帖子用s表示，回复用

表示，表示传播链上的最后一条帖子源贴的回复，传播链可构成多条，是自上而下的传播结构，的下标表示传播链编号，即s对应形成多分枝的树状结构会话。

3.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S2中，行文风格的特征包括：

表示；

表示帖子是否含有URL，

表示帖子是否含有图片，取值为0或1；

（1）

这里的

和

4.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S3中，用户置信度的特征包括：

发帖人的职务、身份是否认证。

5.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S4中，预处理部分包括：

6.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S6中，在向量拼接后，加入需要遮盖部分的位置信息和分句信息，处理为BERT输入的形式，该输入形式为包括[ids, mask, segment]三个部分的二维数组，其中，ids表示经BERT词表转换后的向量，mask表示帖子中需要遮盖训练的部分，segment表示上下句切分的形式，处理后输入共享BERT层中，得到维度形式为R^u×d的向量表示， R表示向量的空间值域，u为帖子的最大长度，d为表示每个词的向量维度。

7.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法，其特征在于，S7中，神经网络结构为，共享BERT层后，紧接dropout层，加入dropout的计算公式如下：

Z⁽