CN112685541A - 一种基于多任务学习的社交媒体谣言检测方法 - Google Patents

一种基于多任务学习的社交媒体谣言检测方法 Download PDF

Info

Publication number
CN112685541A
CN112685541A CN202110269307.1A CN202110269307A CN112685541A CN 112685541 A CN112685541 A CN 112685541A CN 202110269307 A CN202110269307 A CN 202110269307A CN 112685541 A CN112685541 A CN 112685541A
Authority
CN
China
Prior art keywords
post
vector
subtask
social media
rumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110269307.1A
Other languages
English (en)
Other versions
CN112685541B (zh
Inventor
李芳芳
张盼曦
宁肯
刘志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110269307.1A priority Critical patent/CN112685541B/zh
Publication of CN112685541A publication Critical patent/CN112685541A/zh
Application granted granted Critical
Publication of CN112685541B publication Critical patent/CN112685541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于多任务学习的社交媒体谣言检测方法,具体包括如下步骤:S1:对语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;S2:提取行文风格的特征;S3:提取用户置信度的特征;S4:对来源帖子及回复帖子中的文本部分做文本预处理,来输入后续任务;S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;S6:将拼接后的向量放入一个共享的BERT层;S7:分别构建神经网络结构;S8:将S5处理后的数据输入神经网络结构中,输出立场分类和谣言分类。本发明能用多任务联合模型联合两个高度相关的任务,改进了谣言检测和立场分类任务,提高了谣言检测性能。

Description

一种基于多任务学习的社交媒体谣言检测方法
技术领域
本发明涉及谣言检测的技术领域,尤其涉及一种基于多任务学习的社交媒体谣言检测方法。
背景技术
近年来,随着社交媒体的快速发展,人们倾向于通过twitter, reddit等社交媒体查阅自己所关心的相关消息。然而,在这些社交媒体为我们的生活提供便利的同时,他们也导致信息泛滥和网络谣言大量传播的问题。谣言给人们的生产生活带来了很多危害,病毒式传播的谣言时常引起公众舆论,扰乱社会秩序,并给社会经济和政治带来负面影响。同时,谣言也会影响人们的判断力。
谣言的恶劣影响引发了大众的广泛关注,谣言检测技术亟待改进。由于传统的新闻媒体检测算法对社交媒体谣言检测任务是无效或不适用的,且故意撰写谣言以误导读者的情况难以检测,在社交媒体上进行谣言检测任务是具有挑战性的。传统的方法是采用常见的机器学习模型如Support Vector Machine (SVM) , Random Forest(RF)等进行特征分类,或使用深度学习RNN, LSTM, GCN等来模拟谣言信息流的传播结构。
发明内容
本发明的目的是提供一种基于多任务学习的社交媒体谣言检测方法,能用多任务联合模型联合两个高度相关的任务,改进了谣言检测和立场分类任务,提高了谣言检测性能。
为达到上述目的而采用了一种基于多任务学习的社交媒体谣言检测方法,具体包括如下步骤:
S1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;
S2:对步骤1处理过后的语料提取行文风格的特征,处理为向量的形式;
S3:对步骤1处理过后的语料提取用户置信度的特征,处理为向量的形式;
S4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示,来输入后续任务;
S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;
S6:将拼接后的向量放入一个共享的BERT层,通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示;
S7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构;
S8:将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务,输出立场分类和谣言分类。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S1中:
源帖子用s表示,回复用
Figure 807098DEST_PATH_IMAGE001
表示,源帖对应有多个回复,下标表示回复编号,回复对 应的传播链用
Figure 997908DEST_PATH_IMAGE002
表示,可构成多条传播链,是自上而下的传播结构,
Figure 254839DEST_PATH_IMAGE003
的下标表示传播链编号,即s对应
Figure 847494DEST_PATH_IMAGE004
形成多分枝的 树状结构会话。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S2中,行文风格的特征包括:
帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词,其中,将帖子长度用根据空格分隔的单词数量
Figure 397424DEST_PATH_IMAGE005
表示;
Figure 341110DEST_PATH_IMAGE006
表示帖子是否含有URL,
Figure 165846DEST_PATH_IMAGE007
表示帖子是否含有图片,取值为0或1;
Figure 878587DEST_PATH_IMAGE008
表示是否含有负面词,所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”;
Figure 333839DEST_PATH_IMAGE009
表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1;源帖与对应评论的相似度运用余弦相似度计算公式计算,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:
Figure 499241DEST_PATH_IMAGE010
(1)
这里的
Figure 596510DEST_PATH_IMAGE011
Figure 668153DEST_PATH_IMAGE012
分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表 向量的长度。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S3中,用户置信度的特征包括:
发帖人的职务、身份是否认证。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S4中,预处理部分包括:
使用文本处理工具去除帖子文本中的非字母内容;把所有单词转化成小写字母的形式;用BERT预训练模型的tokenizer模块对文本进行词级别的切分;用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部,处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S6中,在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组,其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式,处理后输入共享BERT层中,得到维度形式为Ru×d的向量表示,R表示向量的空间值域,u为帖子的最大长度,d为表示每个词的向量维度。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S7中,神经 网络结构为,共享BERT层后,紧接dropout层,加入dropout的计算公式如下,通过Bernoulli 概率值p表示神经元丢弃概率,
Figure 294306DEST_PATH_IMAGE013
表示l层的神经元数目:
Z(
Figure 212583DEST_PATH_IMAGE014
)~Bernoulli(p) (2)
通过Bernoulli概率值p表示神经元丢弃概率,
Figure 847964DEST_PATH_IMAGE015
表示第
Figure 4139DEST_PATH_IMAGE015
层,Z(
Figure 332352DEST_PATH_IMAGE015
)表示
Figure 206767DEST_PATH_IMAGE015
层的 dropout概率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量。
Figure 645839DEST_PATH_IMAGE016
(3)
Figure 187679DEST_PATH_IMAGE013
表示
Figure 421214DEST_PATH_IMAGE015
层的神经元数目, Z(
Figure 48504DEST_PATH_IMAGE015
)表示
Figure 25687DEST_PATH_IMAGE015
层的dropout概率,
Figure 657919DEST_PATH_IMAGE017
表示
Figure 62356DEST_PATH_IMAGE015
+1层的 dropout结果。
分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用softmax,将上一步得到的logits映射到0到1之间;
Figure 176942DEST_PATH_IMAGE018
(4)
其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,j表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S8中,
子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:
Figure 692237DEST_PATH_IMAGE019
(5)
子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该话题的真实性:
Figure 549947DEST_PATH_IMAGE020
(6)
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,还包括S9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失。
作为本发明基于多任务学习的社交媒体谣言检测方法进一步的改进,S9中,使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整,计算公式如下:
Figure 390864DEST_PATH_IMAGE021
(7)
其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。
本发明能减少单任务在训练过程中出现的过拟合现象,使模型更具泛化能力,增强模型在验证集和测试集上的表现。2.多任务中立场检测任务可以弥补有标签的谣言文本较少的缺点,增加共享的训练样本。3.用表现较好的立场检测任务带动谣言检测任务的表现。
附图说明
图1为基于多任务学习的社交媒体谣言检测方法主要步骤流程示意图。
图2为源帖及回复帖传播结构图。
图3为基于多任务学习的社交媒体谣言检测模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
一种基于多任务学习的社交媒体谣言检测方法,具体包括如下步骤:
S1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;
S2:对步骤1处理过后的语料提取行文风格的特征,处理为向量的形式;
S3:对步骤1处理过后的语料提取用户置信度的特征,处理为向量的形式;
S4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示,来输入后续任务;
S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;
S6:将拼接后的向量放入一个共享的BERT层,通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示;
S7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构;
S8:将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务,输出立场分类和谣言分类。
在本实施例中,S1中:
源帖子用s表示,回复用
Figure 727168DEST_PATH_IMAGE022
表示,源帖对应有多个回复,下标表示回复编号,回复对 应的传播链用
Figure 547619DEST_PATH_IMAGE002
表示,可构成多条传播链,是自上而下的传播结构,
Figure 918557DEST_PATH_IMAGE003
的下标表示传播链编号,即s对应
Figure 664796DEST_PATH_IMAGE023
形成多分枝的 树状结构会话。
在本实施例中,S2中,行文风格的特征包括:
帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词,其中,将帖子长度用根据空格分隔的单词数量
Figure 488396DEST_PATH_IMAGE005
表示;
Figure 611073DEST_PATH_IMAGE006
表示帖子是否含有URL,
Figure 570938DEST_PATH_IMAGE007
表示帖子是否含有图片,取值为0或1;
Figure 753658DEST_PATH_IMAGE008
表示是否含有负面词,所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”;
Figure 64554DEST_PATH_IMAGE009
表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1;源帖与对应评论的相似度运用余弦相似度计算公式计算,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:
Figure 725342DEST_PATH_IMAGE010
(1)
这里的
Figure 539714DEST_PATH_IMAGE024
Figure 158914DEST_PATH_IMAGE025
分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表 向量的长度n。
在本实施例中,S3中,用户置信度的特征包括:
发帖人的职务、身份是否认证。
在本实施例中,S4中,预处理部分包括:
使用文本处理工具去除帖子文本中的非字母内容;把所有单词转化成小写字母的形式;用BERT预训练模型的tokenizer模块对文本进行词级别的切分;用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部,处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量。
在本实施例中,S6中,在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组,其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式,处理后输入共享BERT层中,得到维度形式为Ru×d的向量表示,u为帖子的最大长度,d为表示每个词的向量维度。
在本实施例中,S7中,神经网络结构为,共享BERT层后,紧接dropout层,加入 dropout的计算公式如下,通过Bernoulli概率值p表示神经元丢弃概率,
Figure 691527DEST_PATH_IMAGE013
表示l层的神 经元数目:
Z(
Figure 648682DEST_PATH_IMAGE014
)~Bernoulli(p) (2)
通过Bernoulli概率值p表示神经元丢弃概率,
Figure 583140DEST_PATH_IMAGE015
表示第
Figure 107662DEST_PATH_IMAGE015
层,Z(
Figure 393150DEST_PATH_IMAGE015
)表示
Figure 661320DEST_PATH_IMAGE015
层的 dropout概率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量。
Figure 450285DEST_PATH_IMAGE026
(3)
Figure 411288DEST_PATH_IMAGE013
表示
Figure 918492DEST_PATH_IMAGE015
层的神经元数目, Z(
Figure 990354DEST_PATH_IMAGE015
)表示
Figure 899404DEST_PATH_IMAGE015
层的dropout概率,
Figure 267193DEST_PATH_IMAGE027
表示
Figure 261694DEST_PATH_IMAGE015
+1层的 dropout结果,分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用 softmax,将上一步得到的logits映射到0到1之间;
Figure 871667DEST_PATH_IMAGE028
(4)
其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,j表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1。
在本实施例中,S8中,
子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:
Figure 635224DEST_PATH_IMAGE029
(5)
子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该话题的真实性:
Figure 672450DEST_PATH_IMAGE030
(6)
在本实施例中,还包括S9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失。
在本实施例中,S9中,使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整,计算公式如下:
Figure 154247DEST_PATH_IMAGE021
(7)
其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。
实施例2
(1)对于社交媒体的谣言检测,本发明提出了一个基于多任务联合学习的模型方法,用于自动检测社交媒体中帖子内容的真实性,避免谣言带来的“后真相”问题。
(2)本发明将社交媒体的谣言检测任务划分为参与讨论者对帖子的立场(支持,反对,疑问,陈述)分类任务和对帖子陈述本身的真假性(真,假,中立)分类两个子任务。
(3)由于帖子的准确性与参与讨论者对帖子的态度有很强的相关性,模型建立两个任务共同学习,共享参数,相互启发,使两个任务学到的特征更具泛化能力,最终评估帖子真实性。
(4)本发明在预处理部分加入特征,包括帖子长度、是否有URL或图片、原贴与对应评论的相似度、并将发帖人的职务,身份是否认证等处理为用户置信度特征。
(5)本发明使用Bert (Bidirectional Encoder Representations fromTransformer)预训练模型对帖子做词级别的切分和文本表示。
(6)通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失。
(7)经试验表明,该模型能有效提升谣言检测任务的精度。
基于多任务学习的社交媒体谣言检测模型及主要步骤:
如图1所示:
步骤1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径。
其中,源帖子用s表示,回复用
Figure 302331DEST_PATH_IMAGE001
表示,源帖对应有多个回复,下标表示回复编号; 回复对应的传播链用
Figure 185974DEST_PATH_IMAGE002
Figure 394101DEST_PATH_IMAGE031
表示传播链上的最后一条帖子源贴的回 复,可构成多条传播链,是自上而下的传播结构,用
Figure 97615DEST_PATH_IMAGE032
表示,
Figure 49391DEST_PATH_IMAGE033
下标表示传播 链编号,即s对应
Figure 286075DEST_PATH_IMAGE004
形成多分枝的树状结构会话。
步骤2:对步骤1处理过后的语料提取行文风格的特征,包括提取帖子长度、是否有URL(网页网址)或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词等,处理为向量的形式。
行文风格是个人在写作风格上的不同行为习惯,我们从几个不同的方面捕获帖子行文风格上的特征,将帖子长度用根据空格分隔的单词数量
Figure 399524DEST_PATH_IMAGE005
表示,
Figure 855913DEST_PATH_IMAGE006
表示帖子是否含有URL,
Figure 345800DEST_PATH_IMAGE034
表示帖子是否含有图片,取值为0或1。
Figure 938456DEST_PATH_IMAGE008
表示是否含有负面词。
负面词包括“not, no, nobody, nothing, none, never, neither, nor,nowhere, hardly, scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t,couldn’t, doesn’t…”。
Figure 753965DEST_PATH_IMAGE009
表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1。
源帖与对应评论的相似度运用余弦相似度计算公式,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:
Figure 432071DEST_PATH_IMAGE010
(1)
这里的
Figure 460070DEST_PATH_IMAGE024
Figure 907232DEST_PATH_IMAGE025
分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表 向量的长度。
步骤3:对步骤1处理过后的语料提取用户置信度的特征,将发帖人的职务,身份是否认证等用向量表示。
步骤4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为后续任务的输入。
预处理部分包括使用NLTK, Stanford CoreNLP,spacy等文本处理工具去除帖子文本中的表情符号等非字母内容,把所有单词转化成小写字母的形式,并用聊天机器人服务商hugging face团队的BERT预训练模型的tokenizer模块对文本进行词级别的切分。用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部。
处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量。
步骤5:将步骤2和步骤3提取到的特征与步骤4的文本表示做向量拼接。
步骤6:将拼接后的向量放入一个共享的BERT层,通过共享把两个子任务的数据编码为同一个语义空间中的向量表示。
在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组。其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式。处理后将输入放入共享BERT层中,得到维度形式为Ru×d的向量表示,R表示向量的空间值域,u为帖子的最大长度,d为表示每个词的向量维度。
步骤7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构。
经过共享BERT层后,紧接dropout层。dropout层在一定概率上将部分神经网络单 元暂时丢弃,作用是防止模型过度拟合,提高模型的泛化性能,加入dropout的计算公式如 下,通过Bernoulli概率值p表示神经元丢弃概率,
Figure 893642DEST_PATH_IMAGE013
表示l层的神经元数目:
Z(
Figure 59044DEST_PATH_IMAGE014
)~Bernoulli(p) (2)
通过Bernoulli概率值p表示神经元丢弃概率,
Figure 890734DEST_PATH_IMAGE015
表示第
Figure 959447DEST_PATH_IMAGE015
层, Z(
Figure 851179DEST_PATH_IMAGE015
)表示
Figure 503877DEST_PATH_IMAGE015
层的 dropout概率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量,
Figure 139258DEST_PATH_IMAGE035
(3)
Figure 561012DEST_PATH_IMAGE013
表示
Figure 889225DEST_PATH_IMAGE015
层的神经元数目, Z(
Figure 763640DEST_PATH_IMAGE015
)表示
Figure 202712DEST_PATH_IMAGE015
层的dropout概率,
Figure 744552DEST_PATH_IMAGE036
表示
Figure 978087DEST_PATH_IMAGE015
+1层的 dropout结果,分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用 softmax,将上一步得到的logits映射到0到1之间。
Figure 339798DEST_PATH_IMAGE028
(4)
其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,i表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1。
步骤8:将步骤5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务。
子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:
Figure 316982DEST_PATH_IMAGE037
(5)
子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该话题的真实性:
Figure 217722DEST_PATH_IMAGE038
(6)
步骤9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失。
由于不同的子任务学习的难易程度不同,且不同的任务处于的学习阶段不同,我们不能用同一损失权重去处理不同任务。并且,数据集的数据分布更加偏向于子任务I立场检测的数据分布。因此在学习过程中,我们使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整。
Figure 622159DEST_PATH_IMAGE021
(7)
其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。
本发明针对谣言设计的多任务学习模型,凭借参与讨论者对谣言的立场多样化这一特点,将立场检测任务引入到谣言检测任务中,将两者紧密联系起来,建立共享层使两个任务共享参数,相互启发,以提取共同和不变的特征。
优点:1.减少单任务在训练过程中出现的过拟合现象,使模型更具泛化能力,增强模型在验证集和测试集上的表现。2.多任务中立场检测任务可以弥补有标签的谣言文本较少的缺点,增加共享的训练样本。3.用表现较好的立场检测任务带动谣言检测任务的表现。
由于谣言的行文风格方面倾向于非正式,耸人听闻,情感化的语言,本发明提取行文风格相关的特征,帮助神经网络理解语义表达和写作风格的特征,以帮助提升谣言检测模型的表现。
本发明提取用户置信度特征,之前的许多研究表明,用户置信度特征在谣言检测中非常重要,当帖子由权威人员发布时,可信度较高。并且置信度高的用户(例如经过验证的用户,有影响力的用户,新闻官方代理,政府官方代理或谣言主题领域的专业人员)对帖子进行揭穿或支持时,能在一定程度上给予帖子公信力。
由于单处理纯文本达不到较好的表现,本发明考虑引入辅助任务去帮助完成。根据研究表明,对谣言的立场通常是多种多样的,且大多是有争议的立场。因此,确定参与讨论者的相关立场与成功发现谣言有关,反之亦然。而现有工作主要将谣言检测和立场检测作为单独的任务处理。而两者的紧密联系促使本发明将两者联系起来,用多任务联合模型联合两个高度相关的任务。基于深度神经网络,本发明使用权重共享共同训练两个任务,以提取共同和不变的特征,而每个任务仍可以学习其特定任务的特征。从Twitter和reddit收集的数据集上的大量实验表明,本发明提出的模型在共享层的连接下同时改进了谣言检测和立场分类任务,提高了谣言检测性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。

Claims (10)

1.一种基于多任务学习的社交媒体谣言检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体文本数据集中的语料进行数据提取及格式转换,获取帖子的源、回复及传播路径;
S2:对步骤1处理过后的语料提取行文风格的特征,处理为向量的形式;
S3:对步骤1处理过后的语料提取用户置信度的特征,处理为向量的形式;
S4:对来源帖子及回复帖子中的文本部分做文本预处理,并将文本编码为向量的形式以作为文本表示,来输入后续任务;
S5:将S2和S3提取到的特征与S4的文本表示做向量拼接;
S6:将拼接后的向量放入一个共享的BERT层,通过共享把子任务I立场检测和子任务II谣言检测的数据编码为同一个语义空间中的向量表示;
S7:分别构建子任务I立场检测和子任务II谣言检测的神经网络结构;
S8:将S5处理后的数据分别输入子任务I立场检测和子任务II谣言检测的神经网络结构中,进行子任务I的四分类任务和子任务II的三分类任务,输出立场分类和谣言分类。
2.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S1中:
源帖子用s表示,回复用
Figure 648510DEST_PATH_IMAGE001
表示,源帖对应有多个回复,下标表示回复编号,回复对应的 传播链用
Figure 34492DEST_PATH_IMAGE002
表示,表示传播链上的最后一条帖子源贴的回复,传 播链可构成多条,是自上而下的传播结构,的下标表示传播链编号,即s对应形成多分枝的树状结构会话。
3.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S2中,行文风格的特征包括:
帖子长度、是否有URL或图片、源贴与对应评论的相似度、是否有负面词、是否有讽刺词,其中,将帖子长度用根据空格分隔的单词数量
Figure 518377DEST_PATH_IMAGE006
表示;
Figure 519831DEST_PATH_IMAGE007
表示帖子是否含有URL,
Figure 187573DEST_PATH_IMAGE008
表示帖子是否含有图片,取值为0或1;
Figure 590872DEST_PATH_IMAGE009
表示是否含有负面词,所述负面词包括“not, no, nobody, nothing, none, never, neither, nor, nowhere, hardly,scarcely, barely, don’t, isn’t, wasn’t, shouldn’t, wouldn’t, couldn’t, doesn’t”;
Figure 53078DEST_PATH_IMAGE010
表示是否含有讽刺意味的词,通过比对整合得到的讽刺词词表确定,取值为0或1;源帖与对应评论的相似度运用余弦相似度计算公式计算,源帖的向量表示为A,对应回复的向量表示为B,则相似度计算公式为:
Figure 541828DEST_PATH_IMAGE011
(1)
这里的
Figure 511796DEST_PATH_IMAGE012
Figure 504023DEST_PATH_IMAGE013
分别代表源帖向量A和回复向量B的各分量,i代表第i个分量,n代表向量 的长度。
4.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S3中,用户置信度的特征包括:
发帖人的职务、身份是否认证。
5.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S4中,预处理部分包括:
使用文本处理工具去除帖子文本中的非字母内容;把所有单词转化成小写字母的形式;用BERT预训练模型的tokenizer模块对文本进行词级别的切分;用‘[CLS]’标识符表示帖子开头放在首部,‘[SEP]’标识符表示帖子结尾放在尾部,处理过后通过查询BERT词表,将文本编码为BERT词表所对应的向量。
6.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S6中,在向量拼接后,加入需要遮盖部分的位置信息和分句信息,处理为BERT输入的形式,该输入形式为包括[ids, mask, segment]三个部分的二维数组,其中,ids表示经BERT词表转换后的向量,mask表示帖子中需要遮盖训练的部分,segment表示上下句切分的形式,处理后输入共享BERT层中,得到维度形式为Ru×d的向量表示, R表示向量的空间值域,u为帖子的最大长度,d为表示每个词的向量维度。
7.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S7中,神经网络结构为,共享BERT层后,紧接dropout层,加入dropout的计算公式如下:
Z(
Figure 668288DEST_PATH_IMAGE014
)~Bernoulli(p) (2)
通过Bernoulli概率值p表示神经元丢弃概率,
Figure 378755DEST_PATH_IMAGE015
表示第
Figure 388299DEST_PATH_IMAGE015
层,Z(
Figure 766191DEST_PATH_IMAGE015
)表示
Figure 570199DEST_PATH_IMAGE015
层的dropout概 率,公式中Bernoulli函数,是为了以概率p,随机生成一个0、1的向量,
Figure 33541DEST_PATH_IMAGE016
(3)
Figure 846776DEST_PATH_IMAGE017
表示
Figure 813595DEST_PATH_IMAGE015
层的神经元数目, Z(
Figure 319663DEST_PATH_IMAGE015
)表示
Figure 4722DEST_PATH_IMAGE015
层的dropout概率,
Figure 854604DEST_PATH_IMAGE018
表示
Figure 941509DEST_PATH_IMAGE015
+1层的dropout结 果,分别为子任务I和子任务II搭建全连接层,全连接层的激活函数使用softmax,将上一步 得到的logits映射到0到1之间;
Figure 618478DEST_PATH_IMAGE019
(4)
其中,k表示神经网络的多个输出或类别数,e表示指数函数,Z为输出向量,j表示当前所需要计算的类别,计算结果在0到1之间,且所有类别的softmax值求和为1。
8.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S8中,
子任务I立场检测任务中,对应标签包括支持,反对,疑问,陈述四个类别,源帖和每一个回复都对应有立场检测的标签,表达发帖人的个人主张:
Figure 525254DEST_PATH_IMAGE020
(5)
子任务II谣言检测任务中,对应标签包括真,假,中立三个类别,只有源帖对应有谣言检测的标签,表达该话题的真实性:
Figure 680292DEST_PATH_IMAGE021
(6)。
9.按照权利要求1所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,还包括S9:通过加权,平衡不同任务的损失权重,优化立场检测任务和谣言检测任务学习的损失。
10.按照权利要求9所述的基于多任务学习的社交媒体谣言检测方法,其特征在于,S9中,使用动态的加权方式,利用GradNorm算法据梯度变化进行调整更新公式,将损失的权重根据任务的学习阶段、学习的难易程度甚至是学习的效果来进行调整,计算公式如下:
Figure 621703DEST_PATH_IMAGE022
(7)
其中,m表示第m种损失,w表示损失的权重,公式(7)通过加权调整损失loss,进行训练学习。
CN202110269307.1A 2021-03-11 2021-03-11 一种基于多任务学习的社交媒体谣言检测方法 Active CN112685541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269307.1A CN112685541B (zh) 2021-03-11 2021-03-11 一种基于多任务学习的社交媒体谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269307.1A CN112685541B (zh) 2021-03-11 2021-03-11 一种基于多任务学习的社交媒体谣言检测方法

Publications (2)

Publication Number Publication Date
CN112685541A true CN112685541A (zh) 2021-04-20
CN112685541B CN112685541B (zh) 2021-05-25

Family

ID=75455475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269307.1A Active CN112685541B (zh) 2021-03-11 2021-03-11 一种基于多任务学习的社交媒体谣言检测方法

Country Status (1)

Country Link
CN (1) CN112685541B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094596A (zh) * 2021-04-26 2021-07-09 东南大学 一种基于双向传播图的多任务谣言检测方法
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN114218381A (zh) * 2021-12-08 2022-03-22 北京中科闻歌科技股份有限公司 立场识别方法、装置、设备及介质
CN114639489A (zh) * 2022-03-21 2022-06-17 广东莲藕健康科技有限公司 基于相互学习的问诊快捷回复推荐方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357724A1 (en) * 2016-06-14 2017-12-14 International Business Machines Corporation Model independent and network structure driven ranking of nodes for limiting the spread of misinformation through location based social networks
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN112256861A (zh) * 2020-09-07 2021-01-22 中国科学院信息工程研究所 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357724A1 (en) * 2016-06-14 2017-12-14 International Business Machines Corporation Model independent and network structure driven ranking of nodes for limiting the spread of misinformation through location based social networks
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN112256861A (zh) * 2020-09-07 2021-01-22 中国科学院信息工程研究所 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN112416956A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于bert和独立循环神经网络的问句分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094596A (zh) * 2021-04-26 2021-07-09 东南大学 一种基于双向传播图的多任务谣言检测方法
CN113434684A (zh) * 2021-07-01 2021-09-24 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN114218381A (zh) * 2021-12-08 2022-03-22 北京中科闻歌科技股份有限公司 立场识别方法、装置、设备及介质
CN114639489A (zh) * 2022-03-21 2022-06-17 广东莲藕健康科技有限公司 基于相互学习的问诊快捷回复推荐方法、装置及电子设备

Also Published As

Publication number Publication date
CN112685541B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN112685541B (zh) 一种基于多任务学习的社交媒体谣言检测方法
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN110825881B (zh) 一种建立电力知识图谱的方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN112651448B (zh) 一种面向社交平台表情包的多模态情感分析方法
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN107944027B (zh) 创建语义键索引的方法及系统
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
Zhang et al. Encoding conversation context for neural keyphrase extraction from microblog posts
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN112084335A (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN107943800A (zh) 一种微博话题舆情计算与分析的方法
CN110175229A (zh) 一种基于自然语言进行在线培训的方法和系统
Van Nguyen et al. Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension
US20230073602A1 (en) System of and method for automatically detecting sarcasm of a batch of text
Kumar et al. A reliable technique for sentiment analysis on tweets via machine learning and bert
Basu et al. Multimodal sentiment analysis of# metoo tweets using focal loss (grand challenge)
Wang et al. Information-enhanced hierarchical self-attention network for multiturn dialog generation
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Sundriyal et al. DESYR: definition and syntactic representation based claim detection on the web
Hasnat et al. Understanding sarcasm from reddit texts using supervised algorithms
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Fangfang

Inventor after: Zhang Panxi

Inventor after: Ning Ken

Inventor after: Liu Zhi

Inventor after: Huang Wei

Inventor before: Li Fangfang

Inventor before: Zhang Panxi

Inventor before: Ning Ken

Inventor before: Liu Zhi

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20211123

Address after: 410221 floor 5, building E6, Lugu enterprise Plaza, No. 27, Wenxuan Road, high tech Zone, Changsha City, Hunan Province

Patentee after: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Yuelu District City, Hunan province 410000 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right