CN113158075A - 融合评论的多任务联合谣言检测方法 - Google Patents

融合评论的多任务联合谣言检测方法 Download PDF

Info

Publication number
CN113158075A
CN113158075A CN202110337896.2A CN202110337896A CN113158075A CN 113158075 A CN113158075 A CN 113158075A CN 202110337896 A CN202110337896 A CN 202110337896A CN 113158075 A CN113158075 A CN 113158075A
Authority
CN
China
Prior art keywords
microblog
text
user
rumor
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110337896.2A
Other languages
English (en)
Inventor
余正涛
王繁
郭军军
相艳
黄于欣
线岩团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110337896.2A priority Critical patent/CN113158075A/zh
Publication of CN113158075A publication Critical patent/CN113158075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合评论的多任务联合谣言检测方法,属于自然语言处理领域。本发明包括:构建微博谣言数据集;使用自注意力机制分别获取微博正文和用户评论丰富的上下文特征,之后将微博正文和用户评论共享特征通过带有过滤机制的门控单元和注意力单元对用户评论进行有效的筛选;最后输出层使用线性变换和softmax函数去预测当前序列中的用户评论相关性标签和微博事件标签。本发明采用多任务联合学习的方式,通过用户评论与微博事件之间的关联性,采用联合学习同时学习和更新主任务模型和辅助模型的参数。本发明通过融合用户评论并进行有效筛选作为背景实现了微博谣言检测,从获取的舆情中检测出谣言,为后续的谣言检测提供了支撑。

Description

融合评论的多任务联合谣言检测方法
技术领域
本发明涉及融合评论的多任务联合谣言检测方法,属于自然语言处理领域。
背景技术
谣言具有特殊性,是有意误导读者而撰写的,可能掺杂着真实内容而导致文本特征不足,单从新闻内容很难辨别真假,而用户评论具有来自社交媒体人群的丰富信息,包括观点、立场和情绪,有助于发现谣言。Natali Ruchansky等人提出混合的深度学习框架来同时对新闻文本、用户响应和文本源进行建模,为假新闻检测提供了全新的思路。但是这种方式没有有效利用社交媒体数据之间的关联性,用户社交信息参差不齐,噪声过多不利于发现谣言。然而微博社交媒体数据是大规模的、大多是用户生成的,有时是匿名和嘈杂的,微博中一些用户评论对微博事件判定并没有影响,有的甚至毫不相关,用户评论的质量对谣言判定也起不同的作用。虽然社交媒体上的网络谣言事件检测已经得到了广泛的关注并取得了一系列进步,但仍有很大的挑战有待进一步研究解决。其中,如何选择有效的用户评论特征促进微博谣言检测是关键问题。
发明内容
本发明提供了一个带有过滤机制的多任务联合学习模型,从微博文本和用户评论的角度进行谣言检测,通过引入共享特征过滤选择层用于丢弃无效特征和选择有利特征提升谣言检测任务的性能。
发明技术方案:融合评论的多任务联合谣言检测方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取微博评论和微博正文,通过人工对数据集进行标注得到谣言数据集,谣言微博主要以新浪微博上的微博小助手官方辟谣平台为依据,挑选转发数超过 50,评论数超过20条的热门微博,经过筛选与预处理形成的json格式文件。
Step2、通过词嵌入和位置嵌入分别对微博正文和用户评论进行特征编码,利用Transformer编码器提取特征,将获得的正文特征和评论特征进行融合提取共享特征,再对共享特征采用门控机制和注意力机制对用户评论进行有效地过滤筛选,采用联合学习同时学习和更新主任务模型和辅助模型的参数。
所述步骤Step1的具体步骤为:
Step1.1、通过爬虫技术爬取某年相关的热门微博,共爬取201条谣言微博与378条真实微博和微博下的用户评论;
Step1.2、对上述数据集中的微博正文及评论进行过滤筛选,过滤筛选的方式如下所示: (1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除微博中相同的用户评论信息;
Step1.3、采用人工标注,获得谣言数据集;首先对微博事件打上标签,1为谣言微博, 0为真实微博;针对某一个微博事件下的所有评论,同样给它打上标签,1表示该条用户评论与微博描述的事件相关,0为与微博描述的事件不相关;
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、正文微博正文编码模块用于提取微博正文的文本特征。设E1为某一事件下的一条微博正文,每条正文长度为l1,C={c1,c2,...,cN}是一组响应E1的用户评论,每条用户评论长度为l2;本发明使用transformer编码模块对微博正文特征嵌入进行编码。为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,位置编码与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
ECon=E(x1,x2,...,xn) (1)
ECon=Q=K=V (2)
Figure RE-GDA0003119397020000021
其中,ECon为微博正文输入文本的词嵌入表征;d表示微博正文和用户评论每个字(词) 通过预训练的搜狗新闻语料库提取的词向量维度;
Figure RE-GDA0003119397020000022
分别为查询向量、键向量、值向量;
Figure RE-GDA0003119397020000023
为缩放因子。
为了探索注意力的高度并行性,采用多头注意力机制多次并行地通过缩放的点积注意力。多头注意力通过不同的线性投影将Q,K,V进行h次线性投影,然后h次投影并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示。多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。
headi=Attention(QWi Q,KWi K,VWi V) (4)
HCon=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO (5)
其中,
Figure RE-GDA0003119397020000024
为微博正文编码后的输出;
Figure RE-GDA0003119397020000025
WO∈Rd×d为训练的参数,dk∈d/h,h为头的个数,本发明使用的h为2。
Step2.2、用户评论编码模块与微博正文编码模块相似,同样采用transformer编码模块对用户评论特征嵌入进行编码。
ECom=E(x1,x2,...,xn) (6)
ECom=Q=K=V (7)
HCom=Transformer_encoder(Q,K,V) (8)
其中,ECom为用户评论输入文本的词嵌入表征;
Figure RE-GDA0003119397020000026
分别为查询向量、键向量、值向量;
Figure RE-GDA0003119397020000027
为用户评论编码模块后的输出。
Step2.3、用户评论包含一些针对微博正文有用的信息,能对谣言的检测起到促进作用。目标是融合用户评论信息来促进对谣言的检测,本发明采用transformer编码模块来提取正文-评论交叉注意力特征。不同在于该体系结构中,查询向量Q是经过微博正文编码模块后的输出HCon,而键向量K和值向量V是经过用户评论编码模块后的输出HCom
headi=Attention(QConWi Q,KComWi K,VComWi V) (9)
HShared=MultiHead(QCon,KCom,VCom)=Concat(head1,head2,…,headh)WO (10)
其中,
Figure RE-GDA0003119397020000031
为微博正文和用户评论通过多头注意力所学的共同特征;
Figure RE-GDA0003119397020000032
WO∈Rd×d为训练的参数;dk∈d/h,h为头的个数,本发明使用的h为2。
Step2.4、用户评论大多是根据微博所陈述的事件而产生的,要判断用户评论是否与该微博事件相关,微博正文的特征能够有效的促进用户评论相关性检测任务。为了根据特定任务选择有价值和合适的特征,本发明在共享层之后设计了一个特征筛选模块。门控单元采用一个单一的门控单元过滤共享特征中无用的特征,与LSTM的遗忘门机制相似,共享特征通过sigmoid激活函数作为一种门控状态,再与共享特征做点乘通过tanh激活函数作为当前状态的输出。
g=δ(W·HShared+b) (11)
Figure RE-GDA0003119397020000033
其中,
Figure RE-GDA0003119397020000034
为两个任务的共同特征;
Figure RE-GDA0003119397020000035
为门控共享单元状态;
Figure RE-GDA0003119397020000036
为共享特征HShared经过门控机制过滤后的特征;
Figure RE-GDA0003119397020000037
Figure RE-GDA0003119397020000038
为可训练的参数;δ为 sigmoid激活函数;
Figure RE-GDA0003119397020000039
表示点乘操作。
注意力筛选单元把HShared作为输入同样采用transformer编码模块去关注更加有用的特征。
HShared=Q=K=V (13)
AShared=Transformer_encoder(Q,K,V) (14)
Figure RE-GDA00031193970200000310
其中,
Figure RE-GDA00031193970200000311
为共享特征HShared经过注意力机制选择后的特征;最后将过滤后的输出特征G与经过选择后的输出特征AShared相加作为共享特征层筛选模块的输出FCom
Step2.5、用户评论编码模块提取的特征与共享特征层筛选模块的输出特征进行拼接后,应用softmax函数分别实现对不同任务的分类,给出特定任务的概率分布预测。
Figure RE-GDA00031193970200000312
Figure RE-GDA00031193970200000313
F1=[FCom;HCom] (18)
其中,
Figure RE-GDA0003119397020000041
是用户评论相关性检测任务预测结果;
Figure RE-GDA0003119397020000042
为门控筛选单元与注意力筛选单元相加后的特征FCom与用户评论特征HCom的拼接;
Figure RE-GDA0003119397020000043
是谣言检测任务预测结果;
Figure RE-GDA0003119397020000044
b1,b2为训练的参数。
Figure RE-GDA0003119397020000045
Figure RE-GDA0003119397020000046
得到用户评论相关性检测任务和谣言检测任务的预测,对模型进行训练以最小化所有任务的预测和真实分布的交叉熵。ζ为两个任务损失的加权和,λi为平衡损失参数,本发明用户评论相关性检测任务损失平衡参数λ1为0.4,谣言检测任务损失平衡参数λ2为0.6。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-5,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解5e-5。
本发明的有益效果是:
(1)针对微博谣言检测,如何既考虑微博正文与用户评论之间的差别,又考虑它们之间的联系,同时如何过滤和选择用户评论中关键的特征提高谣言预测准确率。提出一种多任务选择和信息过滤机制实现多任务融合,设计了一个融合用户评论的筛选多任务联合学习模型的方法来促进对谣言的检测,首次引入用户评论相关性检测任务作为辅助任务改善其预测性能。
(2)提出的方法模型通过门控机制和注意力机制来过滤和选择多任务间的共享特征流来对用户评论进行有效的筛选,从而提升模型的预测效果。
(3)使用Transformer的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征,具有很好的并行性。
附图说明
图1是本发明提出的融合评论的多任务联合谣言检测方法的具体结构示意图;
图2是本发明用户评论权重可视化示意图。
具体实施方式
实施例1:如图1-2所示,基于融合评论的多任务联合谣言检测方法,所述方法的具体步骤如下:
Step1.1、通过爬虫技术爬取某年相关的热门微博,共爬取201条谣言微博与378条真实微博和微博下的用户评论;
Step1.2、对谣言数据集中的微博正文及评论进行过滤筛选,过滤筛选的方式如下所示: (1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除微博中相同的用户评论信息;
Step1.3、采用人工标注,获得谣言数据集;首先对微博事件打上标签,1为谣言微博, 0为真实微博;针对某一个微博事件下的所有评论,同样给它打上标签,1表示该条用户评论与微博描述的事件相关,0为与微博描述的事件不相关;实验语料规模如表1所示:
表1实验数据统计信息
Figure RE-GDA0003119397020000051
Step2.1、正文微博正文编码模块用于提取微博正文的文本特征。设E1为某一事件下的一条微博正文,每条正文长度为l1,C={c1,c2,...,cN}是一组响应E1的用户评论,每条用户评论长度为l2;本发明使用transformer编码模块对微博正文特征嵌入进行编码。为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,位置编码与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
ECon=E(x1,x2,...,xn) (1)
ECon=Q=K=V (2)
Figure RE-GDA0003119397020000052
其中,ECon为微博正文输入文本的词嵌入表征;d表示微博正文和用户评论每个字(词) 通过预训练的搜狗新闻语料库提取的词向量维度;
Figure RE-GDA0003119397020000053
分别为查询向量、键向量、值向量;
Figure RE-GDA0003119397020000054
为缩放因子。
为了探索注意力的高度并行性,采用多头注意力机制多次并行地通过缩放的点积注意力。多头注意力通过不同的线性投影将Q,K,V进行h次线性投影,然后h次投影并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示。多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。
headi=Attention(QWi Q,KWi K,VWi V) (4)
HCon=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO (5)
其中,
Figure RE-GDA0003119397020000055
为微博正文编码后的输出;
Figure RE-GDA0003119397020000056
WO∈Rd×d为训练的参数,dk∈d/h,h为头的个数,本发明使用的h为2。
Step2.2、用户评论编码模块与微博正文编码模块相似,同样采用transformer编码模块对用户评论特征嵌入进行编码。
ECom=E(x1,x2,...,xn) (6)
ECom=Q=K=V (7)
HCom=Transformer_encoder(Q,K,V) (8)
其中,ECom为用户评论输入文本的词嵌入表征;
Figure RE-GDA0003119397020000061
分别为查询向量、键向量、值向量;
Figure RE-GDA0003119397020000062
为用户评论编码模块后的输出。
Step2.3、用户评论包含一些针对微博正文有用的信息,能对谣言的检测起到促进作用。目标是融合用户评论信息来促进对谣言的检测,本发明采用transformer编码模块来提取正文-评论交叉注意力特征。不同在于该体系结构中,查询向量Q是经过微博正文编码模块后的输出HCon,而键向量K和值向量V是经过用户评论编码模块后的输出HCom
headi=Attention(QConWi Q,KComWi K,VComWi V) (9)
Hshared=MultiHead(QCon,KCom,VCom)=Concat(head1,head2,…,headh)WO (10)
其中,
Figure RE-GDA0003119397020000063
为微博正文和用户评论通过多头注意力所学的共同特征;
Figure RE-GDA0003119397020000064
WO∈Rd×d为训练的参数;dk∈d/h,h为头的个数,本发明使用的h为2。
Step2.4、用户评论大多是根据微博所陈述的事件而产生的,要判断用户评论是否与该微博事件相关,微博正文的特征能够有效的促进用户评论相关性检测任务。为了根据特定任务选择有价值和合适的特征,本发明在共享层之后设计了一个特征筛选模块。门控单元采用一个单一的门控单元过滤共享特征中无用的特征,与LSTM的遗忘门机制相似,共享特征通过sigmoid激活函数作为一种门控状态,再与共享特征做点乘通过tanh激活函数作为当前状态的输出。
g=δ(W·HShared+b) (11)
Figure RE-GDA0003119397020000065
其中,
Figure RE-GDA0003119397020000066
为两个任务的共同特征;
Figure RE-GDA0003119397020000067
为门控共享单元状态;
Figure RE-GDA0003119397020000068
为共享特征HShared经过门控机制过滤后的特征;
Figure RE-GDA0003119397020000069
Figure RE-GDA00031193970200000610
为可训练的参数;δ为 sigmoid激活函数;
Figure RE-GDA00031193970200000611
表示点乘操作。
注意力筛选单元把HShared作为输入同样采用transformer编码模块去关注更加有用的特征。
HShared=Q=K=V (13)
AShared=Transformer_encoder(Q,K,V) (14)
Figure RE-GDA00031193970200000612
其中,
Figure RE-GDA00031193970200000613
为共享特征HShared经过注意力机制选择后的特征;最后将过滤后的输出特征G与经过选择后的输出特征AShared相加作为共享特征层筛选模块的输出FCom
Step2.5、用户评论编码模块提取的特征与共享特征层筛选模块的输出特征进行拼接后,应用softmax函数分别实现对不同任务的分类,给出特定任务的概率分布预测。
Figure RE-GDA0003119397020000071
Figure RE-GDA0003119397020000072
F1=[FCom;HCom] (18)
其中,
Figure RE-GDA0003119397020000073
是用户评论相关性检测任务预测结果;
Figure RE-GDA0003119397020000074
为门控筛选单元与注意力筛选单元相加后的特征FCom与用户评论特征HCom的拼接;
Figure RE-GDA0003119397020000075
是谣言检测任务预测结果;
Figure RE-GDA0003119397020000076
b1,b2为训练的参数。
Figure RE-GDA0003119397020000077
Figure RE-GDA0003119397020000078
得到用户评论相关性检测任务和谣言检测任务的预测,对模型进行训练以最小化所有任务的预测和真实分布的交叉熵。ζ为两个任务损失的加权和,λi为平衡损失参数,本发明用户评论相关性检测任务损失平衡参数λ1为0.4,谣言检测任务损失平衡参数λ2为0.6。
Step2.6、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-5,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解5e-5。
为了说明本发明的效果,设置了3组对比实验。第一组实验验证谣言检测性能的提升,第二组实验验证本发明模型的有效性,第三组实验验证用户评论对谣言检测性能的影响。
(1)谣言检测性能提升验证
在基准模型中分别将微博正文和用户评论输入到模型中,用户评论特征不经过过滤选择直接参与评论相关性检测辅助任务,用户评论特征与微博正文特征做拼接作为共享特征经过全连接层来实现谣言检测主任务;CMT-G&A为本次发明主模型,实验结果如表2所示。
表2基线模型的性能比较
Figure RE-GDA0003119397020000081
分析表3可知,本发明方法基线模型CMT的准确率、精确率和F1值超过其他所有基线模型,证明其他基线模型在融合用户评论的谣言检测任务中预测效果略有不足,同时基线模型CMT引入Transformer编码模块对两个任务的输入进行编码,利用其长距离依赖和并行性,提高了模型的性能,表明本发明模型编码方式的有效性;主模型CMT-G&A在引入门控机制和注意力机制后预测性能有很好的提升,相较于CMT分别在准确率上提升 6.1%,精确率提升17.7%及F1值提升7.7%。但召回率却低于基线方法,对此原因,本发明是为了更好的模拟真实场景,数据集构建过程中谣言事件相较于真实事件更少,导致模型更加偏向于预测真实事件;同时分词错误也是影响模型性能的重要因素,很多关键词由于分词错误导致模型无法准确识别其类别,误导模型正确预测。本发明模型在另外三个性能指标都达到最优结果,表明本发明的有效性。
(2)模型有效性验证
本发明针对表1中的训练数据和测试数据本发明模型CMT-G&A和其简化模型性能进行测试,测试结果如表3所示:
表3 CMT-G&A与简化模型的比较
Figure RE-GDA0003119397020000082
分析表3可知,CMT-G&A的结果在准确率、精确率和F1值上都明显优于其他四种方法。其中CMT相较于基于微博正文的单任务谣言检测模型S-task而言,性能上有一些降幅,本发明考虑原因在于融合用户评论后的共享特征确实有一些无用甚至有害特征干扰检测。通过CMT-G和CMT-A实验结果比较中可以看出,在加入门控机制或注意力机制后,模型在准确率、精确率和F1值比S-task有较好的提升;CMT-G&A融合门控机制与注意力机制后模型表现出最优性能,表明多任务联合学习间的共享特征分别通过门控机制过滤和注意力机制选择后对谣言检测任务是有促进作用的。可见,在融合用户评论的谣言检测中,用户评论的质量确实对谣言检测性能有一定影响,本发明提出的融合评论的筛选多任务联合学习模型不仅能有效地挖掘微博事件中用户评论的有效信息,而且多任务中共享特征的过滤和选择能有效地促进微博谣言的检测。
(3)用户评论有效性验证
在对同一微博事件进行预测时,用户评论中每个单词的重要权值也是不同的,为了更加直观的表示CMT-G&A模型从用户评论中学到有用的信息,同时验证用户评论信息对谣言检测任务的影响,本发明统计用户评论对应微博事件的单词权重并进行热力图展示。测试结果如图2所示;
从微博事件中挑选的两组用户评论热力图发现,针对同一事件在融合两条不同相关评论时,对用户评论中词的关注度是不一样的。颜色深的部分表示当前用户评论中对于微博事件注意力权重较高的词,颜色越深权重越高。不考虑特殊符号例如“,”、“。”等,用户评论中“不信谣”、“谣言”等关键词表现出较高的权重,表明用户评论也为微博事件的判定提供一些重要的线索,融合用户评论对谣言检测任务是有效的,可以很大程度的帮助识别网络谣言。
通过以上实验数据证明了本发明微博正文和用户评论作为特征输入,通过用户评论与微博事件之间的关联性,将谣言检测任务作为主任务,用户评论相关性检测任务作为辅助任务,利用微博社交媒体的独特性,融合用户评论的多任务联合学习谣言检测方法能够有效的过滤用户评论,提高评论质量以促进谣言检测性能。同时应用transformer编码模块更好地捕获远程依赖关系并改善模型的并行性。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对谣言检测任务,本发明提出的一种融合评论的多任务联合谣言检测方法对微博谣言检测性能提升是有效的。

Claims (3)

1.一种融合评论的多任务联合谣言检测方法其特征在于:
所述方法的具体步骤如下:
Step1、构建微博谣言数据集;
Step2、通过词嵌入和位置嵌入分别对微博正文和用户评论进行特征编码,利用Transformer编码器提取特征,将获得的正文特征和评论特征进行融合提取共享特征,再对共享特征采用门控机制和注意力机制对用户评论进行有效地过滤筛选。
2.根据权利要求1所述的融合评论的多任务联合谣言检测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过爬虫技术爬取相关的热门微博;包括爬取谣言微博、真实微博和微博下的用户评论;
Step1.2、对上述数据集中的微博正文及评论进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除微博中相同的用户评论信息;
Step1.3、采用人工标注,获得谣言数据集:首先对微博事件打上标签,1为谣言微博,0为真实微博;针对某一个微博事件下的所有评论,同样给它打上标签,1表示该条用户评论与微博描述的事件相关,0为与微博描述的事件不相关。
3.根据权利要求1所述的基于音节切分和词切分联合学习的多任务泰语分词方法,其特征在于:所述步骤Step2包括:
Step2.1、正文微博正文编码模块用于提取微博正文的文本特征:设E1为某一事件下的一条微博正文,每条正文长度为l1,C={c1,c2,...,cN}是一组响应E1的用户评论,每条用户评论长度为l2;使用transformer编码模块对微博正文特征嵌入进行编码;在编码模块中将位置编码添加到词嵌入表征中,位置编码与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
ECon=E(x1,x2,...,xn) (1)
ECon=Q=K=V (2)
Figure RE-FDA0003119397010000011
其中,ECon为微博正文输入文本的词嵌入表征,d表示微博正文和用户评论每个字(词)通过预训练的搜狗新闻语料库提取的词向量维度,
Figure RE-FDA0003119397010000012
分别为查询向量、键向量、值向量;
Figure RE-FDA0003119397010000013
为缩放因子;
多头注意力通过不同的线性投影将Q,K,V进行h次线性投影,然后h次投影并行执行缩放点积注意,最后将注意结果串联起来再次获得新的表示;
Step2.2、采用transformer编码模块对用户评论特征嵌入进行编码;
Step2.3、采用transformer编码模块来提取正文-评论交叉注意力特征;
Step2.4、在共享特征层之后设计了一个特征筛选模块;门控单元采用一个单一的门控单元过滤共享特征中无用的特征,与LSTM的遗忘门机制相似,共享特征通过sigmoid激活函数作为一种门控状态,再与共享特征做点乘通过tanh激活函数作为当前状态的输出;
Step2.5、用户评论编码模块提取的特征与共享特征层特征筛选模块的输出特征进行拼接后,应用softmax函数分别实现对不同任务的分类,给出特定任务的概率分布预测。
CN202110337896.2A 2021-03-30 2021-03-30 融合评论的多任务联合谣言检测方法 Pending CN113158075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337896.2A CN113158075A (zh) 2021-03-30 2021-03-30 融合评论的多任务联合谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337896.2A CN113158075A (zh) 2021-03-30 2021-03-30 融合评论的多任务联合谣言检测方法

Publications (1)

Publication Number Publication Date
CN113158075A true CN113158075A (zh) 2021-07-23

Family

ID=76885261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337896.2A Pending CN113158075A (zh) 2021-03-30 2021-03-30 融合评论的多任务联合谣言检测方法

Country Status (1)

Country Link
CN (1) CN113158075A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN114880479A (zh) * 2022-06-14 2022-08-09 昆明理工大学 基于多级交互和图重构的异构图卷积谣言检测方法
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
CN109815383A (zh) * 2018-12-31 2019-05-28 南京理工大学 基于lstm的微博谣言检测及其资源库构建方法
CN111966786A (zh) * 2020-07-31 2020-11-20 南京邮电大学 一种微博谣言检测方法
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112560495A (zh) * 2020-12-09 2021-03-26 新疆师范大学 一种基于情感分析的微博谣言检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
CN109815383A (zh) * 2018-12-31 2019-05-28 南京理工大学 基于lstm的微博谣言检测及其资源库构建方法
CN111966786A (zh) * 2020-07-31 2020-11-20 南京邮电大学 一种微博谣言检测方法
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112560495A (zh) * 2020-12-09 2021-03-26 新疆师范大学 一种基于情感分析的微博谣言检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任文静等: "基于时间序列网络的谣言检测研究", 《智能计算机与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN114492407B (zh) * 2022-01-26 2022-12-30 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN114880479A (zh) * 2022-06-14 2022-08-09 昆明理工大学 基于多级交互和图重构的异构图卷积谣言检测方法
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法

Similar Documents

Publication Publication Date Title
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN113158075A (zh) 融合评论的多任务联合谣言检测方法
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN111222338A (zh) 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
CN116796045B (zh) 一种多维度图书分级方法、系统及可读介质
CN113283336A (zh) 一种文本识别方法与系统
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN114969458B (zh) 基于文本指导的层级自适应融合的多模态情感分析方法
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
Palash et al. Bangla image caption generation through cnn-transformer based encoder-decoder network
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN116662566A (zh) 一种基于对比学习机制的异质信息网络链路预测方法
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115858728A (zh) 一种基于多模态数据的情感分析方法
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723