CN111831790A - 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 - Google Patents

一种基于低门限集成与文本内容匹配的虚假新闻识别方法 Download PDF

Info

Publication number
CN111831790A
CN111831790A CN202010581302.8A CN202010581302A CN111831790A CN 111831790 A CN111831790 A CN 111831790A CN 202010581302 A CN202010581302 A CN 202010581302A CN 111831790 A CN111831790 A CN 111831790A
Authority
CN
China
Prior art keywords
text
news
training
matching
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010581302.8A
Other languages
English (en)
Other versions
CN111831790B (zh
Inventor
谭华
徐维超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010581302.8A priority Critical patent/CN111831790B/zh
Publication of CN111831790A publication Critical patent/CN111831790A/zh
Application granted granted Critical
Publication of CN111831790B publication Critical patent/CN111831790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于低门限集成与文本内容匹配的虚假新闻识别方法,包括以下步骤:获取备用新闻文本和虚假新闻文本,并构建揭露语料库,其中备用新闻文本被分为训练文本和待测文本;对训练文本、待测文本和揭露语料库进行数据统计和处理;构建若干文本分类深度学习模型,并设置模型初始参数;将训练文本送入深度学习模型中训练,得到训练完毕的模型,然后将待测文本送入模型判别,并输出判别结果;将判别结果进行集成,得到初步判断新闻真伪的预测标签;获取分别能够代表揭露语料库和待测文本的关键词并匹配,然后根据匹配结果修正预测标签,得到最终判断新闻真伪的正式标签;本发明对新闻进行深层语义识别,并考虑虚假新闻的词性共性问题。

Description

一种基于低门限集成与文本内容匹配的虚假新闻识别方法
技术领域
本发明涉及深度学习以及文本分类技术领域,更具体地,涉及一种基于低门限集成与文本内容匹配的虚假新闻识别方法。
背景技术
在信息处理领域,关于信息资源的加工和组织方法较多,其中文本分类技术是比较关键的技术,并且有广泛的应用。文本分类技术作为组织和管理文本信息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。文本分类的应用领域有信息过滤、信息检索与舆情系统等。信息过滤就是对获取的信息进行二分类的处理,将用户不感兴趣、不需要的信息过滤掉。垃圾邮件过滤、垃圾短信过滤、新闻选择等都是信息过滤的典型应用。信息检索就是使用文本分类技术把大量的文本信息按主题层次归类组织,可以极大地提升信息检索的效率。而舆情系统中文本主题的分类、情感倾向性分析等业务场景的核心技术就是文本分类技术。
互联网虚假信息正在威胁着全球互联网的安全,其在规模、传播速度、造假手段三个方面呈现快速增长。虚假信息的发布与传播对国家安全、个人与企业信誉和媒体信任度带来严重的冲击。虚假信息检测这一领域目前正在迅猛发展。从技术上来说,未来有两个大趋势,一是多模态融合,在图像视频方面做得还不够,相信这两年Deepfake等深度伪造技术的出现会快速推动虚假检测技术的发展。另一个趋势是数据驱动和知识驱动的融合。虚假信息检测任务的定义一直在不断变化,数据和标注都很难获取。文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。虚假新闻文本检测的具体任务为,给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。该任务可抽象为NLP领域的文本分类任务,根据新闻文本内容,判定该新闻是真新闻还是假新闻。
目前而言,文本分类算法主要有fastText、TextCNN、TextRNN、RCNN、RNN+Attention、BERT_finetune。FastText文本分类算法是有Facebook AI Research提出的一种简单的模型,它能获得和深度模型相同的精度,但是计算时间却要远远小深度学习模型。TextCNN通过一层卷积,一层max-pooling,最后将输出外接softmax来n分类,它的最大优势在于网络结构简单,计算量少训练速度快,且有较好的性能表现。TextRNN模型类似于TEXTCNN,不同点在于可以直接取最后一个隐状态进行n分类,主要优点在于能够捕获序列中的长距离依赖关系,缺点在于运行速度较慢。RCNN模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。RNN+Attention模型是在RNN模型基础上加了Attention层,使得捕捉到的距离会更长。BERT_finetune是直接利用BERT模型取其cls位的状态接softmax层实现。虽然上述技术,能对给出的新闻文本进行提取特征分析,但是却未能进行虚假新闻内容之间的词性共性分析。
在现有技术中,公开号为CN109885796A的发明专利,公开了一种基于深度学习的网络新闻配图匹配性检测方法,包括基于深度学习的新闻配图多描述生成;以及生成新闻配图描述的文字内容与新闻文字内容进行对比评分;对于生成新闻配图描述部分,采用卷积神经网络对新闻配图特征的提取,然后利用自然语言模型生成新闻配图的相关描述;对于评分体系部分,与改进的BLEU算法形成评分体系;评分体系对生成的图片描述和新闻文字内容进行对比评分,通过评分来判断图片与新闻内容是否相符。虽然,该技术能够结合图片和新闻文本进行对比分析,但却同样忽略了虚假新闻内容之间的词性共性问题。
因此,急需一种不仅能从多方面对新闻文本进行深层语义识别,而且能考虑虚假新闻文本内容之间词性共性的虚假新闻识别方法。
发明内容
本发明为克服上述现有技术所述忽视虚假新闻内容之间共性识别的问题,提供一种基于低门限集成与文本内容匹配的虚假新闻识别方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于低门限集成与文本内容匹配的虚假新闻识别方法,包括以下步骤:
S1:获取备用新闻文本和虚假新闻文本,所述备用新闻文本划分为训练文本和待测文本,所述虚假新闻文本用以构建揭露语料库;
S2:对所述训练文本、待测文本和所述揭露语料库进行数据统计和处理;
S3:构建若干文本分类稳健的深度学习模型,并设置模型的初始参数;
S4:将所述训练文本送入所构建的深度学习模型进行训练,得到训练完毕的深度学习模型,然后将所述待测文本送入训练完毕的深度学习模型进行判别,并输出判别结果;
S5:将所述判别结果进行集成,得到初步判断新闻真伪的预测标签;
S6:获取分别能够代表所述揭露语料库和所述待测文本的关键词,并对他们进行匹配,然后根据匹配结果修正所述预测标签,得到最终判断新闻真伪的正式标签。
上述方案中,获取新闻文本后进行去重处理得到纯净的数据,构建深度学习模型并进行训练,训练后用于判别待测文本得到判别结果,对判别结果进行集成得到初步判断真伪性的预测标签,最后分别获取揭露语料库和待测文本的关键词进行匹配,用以修正预测标签,得出最终判断待测文本真伪性的正式标签。
优选地,在所述步骤S1中,所述训练文本、所述待测文本和所述虚假新闻文本均为纯文本数据;所述揭露语料库为若干所述虚假新闻文本的集合。
上述方案中,所述纯文本数据的来源为多媒体平台的新闻数据;将全部获取的虚假新闻文本进行合并,构建揭露语料库,以担任类似知识库的角色。
优选地,所述步骤S2具体过程为:
S2.1:采用pandas工具包对所述备用新闻文本和所述揭露语料库进行统计,并进行去除重复文本的操作;
S2.2:分别计算出所述训练文本、所述待测文本和所述虚假新闻文本的平均长度;
上述方案中,pandas是python中的一个数据分析包,提供了操作大型数据集所需的工具,能高效去除冗余数据,保留所需数据;计算出各个文本的平均长度,方便后续初始参数的设置。
优选地,所述步骤S3中构建所述深度学习模型的具体过程为:
S3.1:选取BERT、XLNet、roberta三个预训练语言模型作为基模型;
S3.2:选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用;
S3.3:构建三个深度学习模型:BERT+CNN+Linear、XLNet+Bi-LSTM+Linear、roberta+Bi-LSTM+CNN+Linear。
上述方案中,考虑到模型的集成需要优质的基模型以及基模型之间应有较大差异,因而选择预训练语言模型BERT、XLNet、roberta作为基模型,不仅效果最好,而且能够更好地捕捉新闻文本中不同层面的语义表示;为更好提取文本的语义特征,同时采用了双向长短期记忆网络Bi-LSTM和卷积神经网络CNN,以及线性神经网络,由此构建三个稳健的深度学习模型。
优选地,所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate;其中,所述文本长度参数设置为步骤S2.2中计算出的平均长度。
上述方案中,batch size调整每次进行训练时所送入的训练文本个数;epochs调整全部训练文本都被送入过一次的轮数;optimizer为优化器的种类,寻找深度学习模型的最优解;learning rate为学习率,调整深度学习模型的学习精度和学习速度。
优选地,所述步骤S4中对所构建的深度学习模型进行训练的方法为10折交叉验证法,其具体过程为:
S4.1:采用k-fold函数将所述训练文本拆分为10份;其中,9份作为训练集,用于训练;1份作为测试集,用于测试;
S4.2:将所述训练集其中1份数据与所述测试集进行轮换,如此重复后得到10个具有不同测试集的组合;
S4.3:设置甄别的最低门限,若测试集组合中有一个认定所述训练文本为虚假新闻,则得出的测试结果为虚假新闻;
S4.4:保存测试结果为虚假新闻的深度学习模型;
上述方案中,k-fold函数用于交叉验证,能帮助深度学习模型摆脱样本量不够充足的限制;将训练文本拆分为10份,进行10折交叉验证,完成深度学习模型的精度测试;同时,设置最低门限,使得测试标准更严格;最后,以测试时推断出虚假新闻占全部训练文本的比例为辅助评估标准,保存最优学习模型。
优选地,根据权利要求6所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,三个不同的深度学习模型均采用所述10折交叉验证的训练方法。
上述方案中,使用相同训练方法,获取三个深度学习模型以供使用,降低单一模型判别时的偶然性,提升所述预测标签的准确度。
优选地,所述步骤S4中所述训练采用的任务层为2-4层的LSTM和1层的CNN。
上述方案中,以此获得模型结构上的差异,提高后续模型融合的效果。
优选地,所述步骤S5中对判别结果进行集成的方法是投票法,将所构建的三个深度学习模型输出的判别结果中超过半数的,作为所述预测标签。
上述方案中,使用投票法以提高对判别结果进行集成的准确率,极大地减少了因个例差异造成的偶然性错误。
优选地,所述步骤6中修正所述预测标签的具体过程为:
S6.1:利用tf-idf与TextRank对所述揭露语料库进行处理,并进行人工筛选,获取若干能够代表所述揭露语料库的关键词;
S6.2:利用tf-idf与TextRank对所述待测文本进行处理,并进行人工筛选,获取若干能够代表所述待测文本的关键词;
S6.3:将所述揭露语料库的关键词与所述待测文本的关键词进行匹配,根据匹配结果,修正所述预测标签。
上述方案中,若代表所述待测文本的关键词能与代表所述揭露语料库的关键词匹配,则可确认该待测文本为虚假新闻,此过程中增加少量人工规则,能提升深度学习模型的合理性,减少误判的现象。
与现有技术相比,本发明技术方案的有益效果是:
本发明不仅能从多方面对新闻文本进行深层语义识别,而且能考虑虚假新闻文本内容之间词性共性问题,提高对新闻文本真伪性识别的准确率。
附图说明
图1为本发明的流程示意图。
图2为本发明的BERT+CNN+Linear深度学习模型网络结构框图。
图3为本发明的XLNet+Bi-LSTM+Linear深度学习模型网络结构框图。
图4为本发明的roberta+Bi-LSTM+CNN+Linear深度学习模型网络结构框图。
图5为本发明的三个深度学习模型使用投票法集成判别结果的结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,一种基于低门限集成与文本内容匹配的虚假新闻识别方法,包括以下步骤:
S1:获取备用新闻文本和虚假新闻文本,所述备用新闻文本划分为训练文本和待测文本,所述虚假新闻文本用以构建揭露语料库;
S2:对所述训练文本、待测文本和所述揭露语料库进行数据统计和处理;
S3:构建若干文本分类稳健的深度学习模型,并设置模型的初始参数;
S4:将所述训练文本送入所构建的深度学习模型进行训练,得到训练完毕的深度学习模型,然后将所述待测文本送入训练完毕的深度学习模型进行判别,并输出判别结果;
S5:将所述判别结果进行集成,得到初步判断新闻真伪的预测标签;
S6:获取分别能够代表所述揭露语料库和所述待测文本的关键词,并对他们进行匹配,然后根据匹配结果修正所述预测标签,得到最终判断新闻真伪的正式标签。
上述方案中,获取新闻文本后进行去重处理得到纯净的数据,构建深度学习模型并进行训练,训练后用于判别待测文本得到判别结果,对判别结果进行集成得到初步判断真伪性的预测标签,最后分别获取揭露语料库和待测文本的关键词进行匹配,用以修正预测标签,得出最终判断待测文本真伪性的正式标签。
优选地,在所述步骤S1中,所述训练文本、所述待测文本和所述虚假新闻文本均为纯文本数据;所述揭露语料库为若干所述虚假新闻文本的集合。
上述方案中,所述纯文本数据的来源为多媒体平台的新闻数据,本实施例中的新闻数据来源于今日头条;将全部获取的虚假新闻文本进行合并,构建揭露语料库,以担任类似知识库的角色。
优选地,所述步骤S2具体过程为:
S2.1:采用pandas工具包对所述备用新闻文本和所述揭露语料库进行统计,并进行去除重复文本的操作;
S2.2:分别计算出所述训练文本、所述待测文本和所述虚假新闻文本的平均长度;
上述方案中,pandas是python中的一个数据分析包,提供了操作大型数据集所需的工具,能高效去除冗余数据,保留所需数据;计算出各个文本的平均长度,方便后续初始参数的设置。
如图2-4所示,优选地,所述步骤S3中构建所述深度学习模型的具体过程为:
S3.1:选取BERT、XLNet、roberta三个预训练语言模型作为基模型;
S3.2:选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用;
S3.3:构建三个深度学习模型:BERT+CNN+Linear、XLNet+Bi-LSTM+Linear、roberta+Bi-LSTM+CNN+Linear。
上述方案中,考虑到模型的集成需要优质的基模型以及基模型之间应有较大差异,因而选择预训练语言模型BERT、XLNet、roberta作为基模型,不仅效果最好,而且能够更好地捕捉新闻文本中不同层面的语义表示;为更好提取文本的语义特征,同时采用了双向长短期记忆网络Bi-LSTM和卷积神经网络CNN,以及线性神经网络,由此构建三个稳健的深度学习模型。
优选地,所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate,本实施例中,具体参数如下:batchsize=32,epochs=10,optimizer=Adam,learning rate=0.001;所述文本长度参数设置为步骤S2.2中计算出的平均长度。
上述方案中,batch size调整每次进行训练时所送入的训练文本个数;epochs调整全部训练文本都被送入过一次的轮数;optimizer为优化器的种类,寻找深度学习模型的最优解;learning rate为学习率,调整深度学习模型的学习精度和学习速度。
优选地,所述步骤S4中对所构建的深度学习模型进行训练的方法为10折交叉验证法,其具体过程为:
S4.1:采用k-fold函数将所述训练文本拆分为10份;其中,9份作为训练集,用于训练;1份作为测试集,用于测试;
S4.2:将所述训练集其中1份数据与所述测试集进行轮换,如此重复后得到10个具有不同测试集的组合;
S4.3:设置甄别的最低门限,若测试集组合中有一个认定所述训练文本为虚假新闻,则得出的测试结果为虚假新闻;
S4.4:保存测试结果为虚假新闻的深度学习模型;
上述方案中,k-fold函数用于交叉验证,能帮助深度学习模型摆脱样本量不够充足的限制;将训练文本拆分为10份,进行10折交叉验证,完成深度学习模型的精度测试;同时,设置最低门限,使得测试标准更严格;最后,以测试时推断出虚假新闻占全部训练文本的比例为辅助评估标准,保存最优学习模型。
优选地,根据权利要求6所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,三个不同的深度学习模型均采用所述10折交叉验证的训练方法。
上述方案中,使用相同训练方法,获取三个深度学习模型以供使用,降低单一模型判别时的偶然性,提升所述预测标签的准确度。
优选地,所述步骤S4中所述训练采用的任务层为2-4层的LSTM和1层的CNN。
上述方案中,以此获得模型结构上的差异,提高后续模型融合的效果。
优选地,所述步骤S5中对判别结果进行集成的方法是投票法,将所构建的三个深度学习模型输出的判别结果中超过半数的,作为所述预测标签。
上述方案中,当所述深度学习模型判别为真新闻时,输出0;判别为假新闻时,输出1;使用投票法以提高集成判别结果的准确率,极大地减少了因个例差异造成的偶然性错误。
如图5,优选地,所述步骤6中修正所述预测标签的具体过程为:
S6.1:利用tf-idf与TextRank对所述揭露语料库进行处理,并进行人工筛选,获取若干能够代表所述揭露语料库的关键词;
S6.2:利用tf-idf与TextRank对所述待测文本进行处理,并进行人工筛选,获取若干能够代表所述待测文本的关键词;
S6.3:将所述揭露语料库的关键词与所述待测文本的关键词进行匹配,根据匹配结果,修正所述预测标签。
上述方案中,若代表所述待测文本的关键词能与代表所述揭露语料库的关键词匹配,则可确认该待测文本为虚假新闻,此过程中增加少量人工规则,能提升深度学习模型的合理性,减少误判的现象。
与现有技术相比,本发明技术方案的有益效果是:
本发明不仅能从多方面对新闻文本进行深层语义识别,而且能考虑虚假新闻文本内容之间词性共性问题,提高对新闻文本真伪性识别的准确率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,包括以下步骤:
S1:获取备用新闻文本和虚假新闻文本,所述备用新闻文本划分为训练文本和待测文本,所述虚假新闻文本用以构建揭露语料库;
S2:对所述训练文本、待测文本和所述揭露语料库进行数据统计和处理;
S3:构建若干文本分类稳健的深度学习模型,并设置模型的初始参数;
S4:将所述训练文本送入所构建的深度学习模型进行训练,得到训练完毕的深度学习模型,然后将所述待测文本送入训练完毕的深度学习模型进行判别,并输出判别结果;
S5:将所述判别结果进行集成,得到初步判断新闻真伪的预测标签;
S6:获取分别能够代表所述揭露语料库和所述待测文本的关键词,并对他们进行匹配,然后根据匹配结果修正所述预测标签,得到最终判断新闻真伪的正式标签。
2.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,在所述步骤S1中,所述训练文本、所述待测文本和所述虚假新闻文本均为纯文本数据;所述揭露语料库为若干所述虚假新闻文本的集合。
3.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S2具体过程为:
S2.1:采用pandas工具包对所述备用新闻文本和所述揭露语料库进行统计,并进行去除重复文本的操作;
S2.2:分别计算出所述训练文本、所述待测文本和所述虚假新闻文本的平均长度。
4.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S3中构建所述深度学习模型的具体过程为:
S3.1:选取BERT、XLNet、roberta三个预训练语言模型作为基模型;
S3.2:选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用;
S3.3:构建三个深度学习模型:BERT+CNN+Linear、XLNet+Bi-LSTM+Linear、roberta+Bi-LSTM+CNN+Linear。
5.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate;其中,所述文本长度参数设置为步骤S2中计算出的平均长度。
6.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S4中对所构建的深度学习模型进行训练的方法为10折交叉验证法,其具体过程为:
S4.1:采用k-fold函数将所述训练文本拆分为10份;其中,9份作为训练集,用于训练;1份作为测试集,用于测试;
S4.2:将所述训练集其中1份数据与所述测试集进行轮换,如此重复后得到10个具有不同测试集的组合;
S4.3:设置甄别的最低门限,若测试集组合中有一个认定所述训练文本为虚假新闻,则得出的测试结果为虚假新闻;
S4.4:保存测试结果为虚假新闻的深度学习模型。
7.根据权利要求6所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,三个不同的深度学习模型均采用所述10折交叉验证的训练方法。
8.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S4中所述训练采用的任务层为2-4层的LSTM和1层的CNN。
9.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤S5中对判别结果进行集成的方法是投票法,将所构建的三个深度学习模型输出的判别结果中超过半数的,作为所述预测标签。
10.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法,其特征在于,所述步骤6中修正所述预测标签的具体过程为:
S6.1:利用tf-idf与TextRank对所述揭露语料库进行处理,并进行人工筛选,获取若干能够代表所述揭露语料库的关键词;
S6.2:利用tf-idf与TextRank对所述待测文本进行处理,并进行人工筛选,获取若干能够代表所述待测文本的关键词;
S6.3:将所述揭露语料库的关键词与所述待测文本的关键词进行匹配,根据匹配结果,修正所述预测标签。
CN202010581302.8A 2020-06-23 2020-06-23 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 Active CN111831790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581302.8A CN111831790B (zh) 2020-06-23 2020-06-23 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010581302.8A CN111831790B (zh) 2020-06-23 2020-06-23 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Publications (2)

Publication Number Publication Date
CN111831790A true CN111831790A (zh) 2020-10-27
CN111831790B CN111831790B (zh) 2023-07-14

Family

ID=72898266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010581302.8A Active CN111831790B (zh) 2020-06-23 2020-06-23 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Country Status (1)

Country Link
CN (1) CN111831790B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417161A (zh) * 2020-11-12 2021-02-26 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测系统及方法
CN113051398A (zh) * 2021-03-22 2021-06-29 山西三友和智慧信息技术股份有限公司 一种基于从文本中检测虚假问题的迁移学习方法
CN113239730A (zh) * 2021-04-09 2021-08-10 哈尔滨工业大学 一种基于计算机视觉的结构虚假模态参数自动剔除方法
CN113609292A (zh) * 2021-08-09 2021-11-05 上海交通大学 基于图结构的已知虚假新闻智能检测方法
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN115130613A (zh) * 2022-07-26 2022-09-30 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115170800A (zh) * 2022-07-15 2022-10-11 浙江大学 一种基于社交媒体与深度学习的城市内涝积水深度识别方法
CN115309860A (zh) * 2022-07-18 2022-11-08 黑龙江大学 基于伪孪生网络的虚假新闻检测方法
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
CN110032733A (zh) * 2019-03-12 2019-07-19 中国科学院计算技术研究所 一种针对新闻长文本的谣言检测方法及系统
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
CN110032733A (zh) * 2019-03-12 2019-07-19 中国科学院计算技术研究所 一种针对新闻长文本的谣言检测方法及系统
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAQING WANG等: "Weak Supervision for Fake News Detection via Reinforcement Learning", 《COMPUTER SCIENCE》, pages 1 - 10 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417161A (zh) * 2020-11-12 2021-02-26 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112417161B (zh) * 2020-11-12 2022-06-24 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112613582B (zh) * 2021-01-05 2022-06-24 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测系统及方法
CN113051398A (zh) * 2021-03-22 2021-06-29 山西三友和智慧信息技术股份有限公司 一种基于从文本中检测虚假问题的迁移学习方法
CN113239730A (zh) * 2021-04-09 2021-08-10 哈尔滨工业大学 一种基于计算机视觉的结构虚假模态参数自动剔除方法
CN113239730B (zh) * 2021-04-09 2022-04-05 哈尔滨工业大学 一种基于计算机视觉的结构虚假模态参数自动剔除方法
CN113609292A (zh) * 2021-08-09 2021-11-05 上海交通大学 基于图结构的已知虚假新闻智能检测方法
CN113609292B (zh) * 2021-08-09 2023-10-13 上海交通大学 基于图结构的已知虚假新闻智能检测方法
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN115170800A (zh) * 2022-07-15 2022-10-11 浙江大学 一种基于社交媒体与深度学习的城市内涝积水深度识别方法
CN115309860A (zh) * 2022-07-18 2022-11-08 黑龙江大学 基于伪孪生网络的虚假新闻检测方法
CN115130613A (zh) * 2022-07-26 2022-09-30 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115130613B (zh) * 2022-07-26 2024-03-15 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN111831790B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111831790B (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
Wu et al. Detection of hate speech in videos using machine learning
CN110889003B (zh) 一种基于文本的车辆图像细粒度检索系统
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Putra et al. Hate speech detection using convolutional neural network algorithm based on image
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警系统
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
Matheven et al. Fake news detection using deep learning and natural language processing
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Baria et al. Theoretical evaluation of machine and deep learning for detecting fake news
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
Vardhan et al. Fake News Detection in Social Media Using Supervised Learning Techniques
Holla et al. An Improved Fake News Detection Model Using Hybrid Time Frequency-Inverse Document Frequency for Feature Extraction and AdaBoost Ensemble Model as a Classifier
Singh et al. Predicting the Veracity of News Articles Using Multimodal Embeddings and NLP-Based Features
CN111753084A (zh) 一种短文本特征提取与分类方法
Fenitha et al. ANALYSIS OF TWITTER DATA USING MACHINE LEARNING ALGORITHMS
PASBOLA Text Classification Using Deep learning Methods
Jalan et al. Comparing Results of Multiple Machine Learning Algorithms on a bilingual dataset for the Detection of Fraudulent News
Singh et al. Axiomatic Analysis of Pre‐Processing Methodologies Using Machine Learning in Text Mining: A Social Media Perspective in Internet of Things
Baria et al. Evaluation of Machine Learning Approaches for Classification of Fake News
Faturohman et al. Sentiment Analysis on Social Security Administrator for Health Using Recurrent Neural Network
Udayakumar et al. Automatic Fake News Detection on Social Networks using Multimodal Approach of BERT and ResNet110

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant