CN114429126A - 一种基于强化学习和事理知识图谱的真假消息鉴别方法 - Google Patents

一种基于强化学习和事理知识图谱的真假消息鉴别方法 Download PDF

Info

Publication number
CN114429126A
CN114429126A CN202111554272.2A CN202111554272A CN114429126A CN 114429126 A CN114429126 A CN 114429126A CN 202111554272 A CN202111554272 A CN 202111554272A CN 114429126 A CN114429126 A CN 114429126A
Authority
CN
China
Prior art keywords
data
true
reinforcement learning
false
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111554272.2A
Other languages
English (en)
Inventor
陈涛
张卫山
王振琦
孙晨瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202111554272.2A priority Critical patent/CN114429126A/zh
Publication of CN114429126A publication Critical patent/CN114429126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于强化学习和事理知识图谱的真假消息鉴别方法。互联网和新媒体的发展突破了网络消息时空的限制,使得虚假消息能够在短时间内对现实世界产生巨大影响。目前谣言检测还主要依赖用户举报,无法大规模对网络中的信息进行检测,而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率,及时对突发事件进行真假判别,基于强化学习和事理知识图图谱,提出一种真假消息鉴别方法,使用弱分类器对舆情数据进行真假分类,使用强化学习筛选置信度高的舆情数据,使用基于事理知识图谱的真对筛选后的舆情数据进行真假鉴别,并根据鉴别结果更新强化学习和弱分类器。

Description

一种基于强化学习和事理知识图谱的真假消息鉴别方法
技术领域
本发明涉及深度学习、强化学习、自然语言处理、事理知识图谱等技术,具体涉及到真假消息检测算法。
背景技术
目前谣言检测还主要依赖用户举报,无法大规模对网络中的信息进行检测,而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率,及时对突发事件进行真假判别,基于强化学习和事理知识图图谱,提出一种真假消息鉴别方法。最接近本发明的技术有:
(1)基于神经网络的多模态谣言检测方法:该方法使用VGG-19网络提取图像内容特征,使用DenseNet提取图像内嵌文本内容,使用LSTM网络提取文本内容特征,与图像特征串接后,通过完全连接层获取图像与文本共享表示的均值与方差向量,借助从高斯分布中采样的随机变量以形成重新参数化的多模态特征并作为谣言检测器的输入进行谣言检测。但该方法没有利用相关的领域知识,无法对新谣言进行检测,不具备泛化能力。
(2)基于强化学习的谣言早期检测模型:该模型将社交媒体中发布的帖子按其发布时间以信息流的形式进行输入。每当一个新帖子到来,模型都会对其进行判别,并将判别结果输入到强化学习模块,强化学习模块利用奖励机制对当前检测结果进行判断,并根据准确率来进行策略选择。如果准确率满足要求,则输出判别结果,否则继续监听。该模型利用强化学习对检测结果进行判别,存在奖励机制复杂,无法完全模拟真实环境等问题,并且对新出现的谣言不具备较好的检测效果。
发明内容
为解决现有技术中的缺点和不足,基于强化学习和事理知识图谱的真假消息鉴别模型,根据强化学习,事理知识图谱,自然语言处理确定消息真假。
本发明的技术方案为:
一种基于强化学习和事理知识图谱的真假消息鉴别模型,通过事理知识图谱来存储舆情中的知识,通过强化学习来解决其数据集标注困难的问题,提升模型的泛化能力。包括以下步骤:
步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;
步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;
步骤(3)、在使用XLNET模型对无标签数据进行弱分类;
步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;
步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别;
步骤(6)、根据步骤(5)分类的结果,反向更新XLNET弱分类器和强化学习筛选算法;
步骤(7)、重复执行步骤(3)至步骤(6),直到真假消息鉴别收敛。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于强化学习和事理知识图谱的真假消息鉴别模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明中基于强化学习和事理知识图谱的真假消息鉴别模型。该真假消息鉴别模型首先使用一个弱分类器对网络舆情进行真假识别,在使用强化学习筛选出置信度高的数据,结合事理知识图谱,使用真假消息鉴别器对筛选出的数据进行真假识别,对识别结果进行评估并返回更新弱分类器和强化学习智能体。
下面结合图1,对基于强化学习和事理知识图谱的真假消息鉴别模型的具体流程进行详细说明:
步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;
步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;
步骤(3)、在使用XLNET模型对无标签数据进行弱分类;
步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;
步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别;
步骤(6)、根据步骤(5)分类的结果,反向更新XLNET弱分类器和强化学习筛选算法;
步骤(7)、重复执行步骤(3)至步骤(6),直到真假消息鉴别器收敛。
本发明基于强化学习和事理知识图谱的真假消息鉴别方法,在强化学习和事理知识图谱的基础上进行谣言检测。使用弱分类器预先对舆情数据进行分类,使用强化学习算法筛选出高置信度的数据,结合事理知识图谱,使用BERT对筛选出的数据进行进一步的鉴别,并根据鉴别结果对弱分类器和强化学习智能体进行更新。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于强化学习和事理知识图谱的真假消息鉴别方法,将大量的网络舆情数据以及用户评论和反馈数据联合建模,通过弱分类器实现真假消息预分类,强化学习筛选器选择置信度高的数据,用以分类训练,分类器将事理知识图谱与预训练语言表示模型BERT相结合,使机器在语义解析时,能够利用相关舆情知识进行真假推理。具体包括以下步骤:
步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;
步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;
步骤(3)、在使用XLNET模型对无标签数据进行弱分类;
步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;
步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别;
步骤(6)、根据步骤(5)分类的结果,反向更新XLNET弱分类器和强化学习筛选算法;
步骤(7)、重复执行步骤(3)至步骤(6),直到真假消息鉴别收敛。
2.一种强化学习筛选数据的方法。强化学习中的智能体能够根据真伪消息鉴别器(EEG-BERT)对数据真伪的判断结果,动态调整该条数据的可行度,并给数据筛选算法打分,从而强化学习筛选算法,同时更新弱分类器。具体包括一下步骤:
步骤(1)、智能体评估真伪消息鉴别器(EEG-BERT)的预测结果;
步骤(2)、智能体动态调整真伪消息鉴别器的输入数据的置信度;
步骤(3)、智能体给数据筛选算法打分;
步骤(4)、更新强化学习筛选算法和弱分类器。
CN202111554272.2A 2021-12-17 2021-12-17 一种基于强化学习和事理知识图谱的真假消息鉴别方法 Pending CN114429126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111554272.2A CN114429126A (zh) 2021-12-17 2021-12-17 一种基于强化学习和事理知识图谱的真假消息鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111554272.2A CN114429126A (zh) 2021-12-17 2021-12-17 一种基于强化学习和事理知识图谱的真假消息鉴别方法

Publications (1)

Publication Number Publication Date
CN114429126A true CN114429126A (zh) 2022-05-03

Family

ID=81311241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111554272.2A Pending CN114429126A (zh) 2021-12-17 2021-12-17 一种基于强化学习和事理知识图谱的真假消息鉴别方法

Country Status (1)

Country Link
CN (1) CN114429126A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707004A (zh) * 2022-05-24 2022-07-05 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN115936737A (zh) * 2023-03-10 2023-04-07 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707004A (zh) * 2022-05-24 2022-07-05 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN114707004B (zh) * 2022-05-24 2022-08-16 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN115936737A (zh) * 2023-03-10 2023-04-07 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统
CN115936737B (zh) * 2023-03-10 2023-06-23 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统

Similar Documents

Publication Publication Date Title
CN109194612B (zh) 一种基于深度置信网络和svm的网络攻击检测方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN108922560A (zh) 一种基于混合深度神经网络模型的城市噪声识别方法
WO2022134833A1 (zh) 语音信号的处理方法、装置、设备及存储介质
CN114429126A (zh) 一种基于强化学习和事理知识图谱的真假消息鉴别方法
CN108446645B (zh) 基于深度学习的车载人脸识别方法
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN112989035B (zh) 基于文本分类识别用户意图的方法、装置及存储介质
CN110969130A (zh) 一种基于yolov3司机危险动作识别方法及系统
CN110674483B (zh) 一种基于多模态信息的身份识别方法
CN111626367A (zh) 对抗样本检测方法、装置、设备及计算机可读存储介质
CN111506732A (zh) 一种文本多层次标签分类方法
CN116861258B (zh) 模型处理方法、装置、设备及存储介质
CN111581967A (zh) 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN110275942A (zh) 一种电子凭据安全事件融合分析方法
CN117390141B (zh) 一种农业社会化服务质量用户评价数据分析方法
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN111601314B (zh) 预训练模型加短信地址双重判定不良短信的方法和装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN113297525B (zh) 网页分类方法、装置、电子设备、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication