CN114429126A

CN114429126A - 一种基于强化学习和事理知识图谱的真假消息鉴别方法

Info

Publication number: CN114429126A
Application number: CN202111554272.2A
Authority: CN
Inventors: 陈涛; 张卫山; 王振琦; 孙晨瑜
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-05-03

Abstract

本发明提出一种基于强化学习和事理知识图谱的真假消息鉴别方法。互联网和新媒体的发展突破了网络消息时空的限制，使得虚假消息能够在短时间内对现实世界产生巨大影响。目前谣言检测还主要依赖用户举报，无法大规模对网络中的信息进行检测，而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率，及时对突发事件进行真假判别，基于强化学习和事理知识图图谱，提出一种真假消息鉴别方法，使用弱分类器对舆情数据进行真假分类，使用强化学习筛选置信度高的舆情数据，使用基于事理知识图谱的真对筛选后的舆情数据进行真假鉴别，并根据鉴别结果更新强化学习和弱分类器。

Description

一种基于强化学习和事理知识图谱的真假消息鉴别方法

技术领域

本发明涉及深度学习、强化学习、自然语言处理、事理知识图谱等技术，具体涉及到真假消息检测算法。

背景技术

目前谣言检测还主要依赖用户举报，无法大规模对网络中的信息进行检测，而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率，及时对突发事件进行真假判别，基于强化学习和事理知识图图谱，提出一种真假消息鉴别方法。最接近本发明的技术有：

(1)基于神经网络的多模态谣言检测方法：该方法使用VGG-19网络提取图像内容特征,使用DenseNet提取图像内嵌文本内容,使用LSTM网络提取文本内容特征,与图像特征串接后,通过完全连接层获取图像与文本共享表示的均值与方差向量,借助从高斯分布中采样的随机变量以形成重新参数化的多模态特征并作为谣言检测器的输入进行谣言检测。但该方法没有利用相关的领域知识，无法对新谣言进行检测，不具备泛化能力。

(2)基于强化学习的谣言早期检测模型：该模型将社交媒体中发布的帖子按其发布时间以信息流的形式进行输入。每当一个新帖子到来，模型都会对其进行判别，并将判别结果输入到强化学习模块，强化学习模块利用奖励机制对当前检测结果进行判断，并根据准确率来进行策略选择。如果准确率满足要求，则输出判别结果，否则继续监听。该模型利用强化学习对检测结果进行判别，存在奖励机制复杂，无法完全模拟真实环境等问题，并且对新出现的谣言不具备较好的检测效果。

发明内容

为解决现有技术中的缺点和不足，基于强化学习和事理知识图谱的真假消息鉴别模型，根据强化学习，事理知识图谱，自然语言处理确定消息真假。

本发明的技术方案为：

一种基于强化学习和事理知识图谱的真假消息鉴别模型，通过事理知识图谱来存储舆情中的知识，通过强化学习来解决其数据集标注困难的问题，提升模型的泛化能力。包括以下步骤：

步骤(1)、对每一条舆情数据进行分词、去除停用词预处理；

步骤(2)、手动标定小部分预处理好的数据集；并使用标定好的部分数据微调XLNET预训练模型；

步骤(3)、在使用XLNET模型对无标签数据进行弱分类；

步骤(4)、针对步骤(3)分好类的数据，使用强化学习算法筛选出高置信度的数据；

步骤(5)、结合事理知识图谱，使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别；

步骤(6)、根据步骤(5)分类的结果，反向更新XLNET弱分类器和强化学习筛选算法；

步骤(7)、重复执行步骤(3)至步骤(6)，直到真假消息鉴别收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于强化学习和事理知识图谱的真假消息鉴别模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明中基于强化学习和事理知识图谱的真假消息鉴别模型。该真假消息鉴别模型首先使用一个弱分类器对网络舆情进行真假识别，在使用强化学习筛选出置信度高的数据，结合事理知识图谱，使用真假消息鉴别器对筛选出的数据进行真假识别，对识别结果进行评估并返回更新弱分类器和强化学习智能体。

下面结合图1，对基于强化学习和事理知识图谱的真假消息鉴别模型的具体流程进行详细说明：

步骤(1)、对每一条舆情数据进行分词、去除停用词预处理；

步骤(3)、在使用XLNET模型对无标签数据进行弱分类；

步骤(7)、重复执行步骤(3)至步骤(6)，直到真假消息鉴别器收敛。

本发明基于强化学习和事理知识图谱的真假消息鉴别方法，在强化学习和事理知识图谱的基础上进行谣言检测。使用弱分类器预先对舆情数据进行分类，使用强化学习算法筛选出高置信度的数据，结合事理知识图谱，使用BERT对筛选出的数据进行进一步的鉴别，并根据鉴别结果对弱分类器和强化学习智能体进行更新。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习和事理知识图谱的真假消息鉴别方法，将大量的网络舆情数据以及用户评论和反馈数据联合建模，通过弱分类器实现真假消息预分类，强化学习筛选器选择置信度高的数据，用以分类训练，分类器将事理知识图谱与预训练语言表示模型BERT相结合，使机器在语义解析时，能够利用相关舆情知识进行真假推理。具体包括以下步骤：

步骤(1)、对每一条舆情数据进行分词、去除停用词预处理；

步骤(3)、在使用XLNET模型对无标签数据进行弱分类；

2.一种强化学习筛选数据的方法。强化学习中的智能体能够根据真伪消息鉴别器(EEG-BERT)对数据真伪的判断结果，动态调整该条数据的可行度，并给数据筛选算法打分，从而强化学习筛选算法，同时更新弱分类器。具体包括一下步骤：

步骤(1)、智能体评估真伪消息鉴别器(EEG-BERT)的预测结果；

步骤(2)、智能体动态调整真伪消息鉴别器的输入数据的置信度；

步骤(3)、智能体给数据筛选算法打分；

步骤(4)、更新强化学习筛选算法和弱分类器。