CN112256861B - 一种基于搜索引擎返回结果的谣言检测方法及电子装置 - Google Patents

一种基于搜索引擎返回结果的谣言检测方法及电子装置 Download PDF

Info

Publication number
CN112256861B
CN112256861B CN202010929737.7A CN202010929737A CN112256861B CN 112256861 B CN112256861 B CN 112256861B CN 202010929737 A CN202010929737 A CN 202010929737A CN 112256861 B CN112256861 B CN 112256861B
Authority
CN
China
Prior art keywords
document
original text
evidence
words
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010929737.7A
Other languages
English (en)
Other versions
CN112256861A (zh
Inventor
林政�
付鹏
刘欢
王伟平
孟丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010929737.7A priority Critical patent/CN112256861B/zh
Publication of CN112256861A publication Critical patent/CN112256861A/zh
Application granted granted Critical
Publication of CN112256861B publication Critical patent/CN112256861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于搜索引擎返回结果的谣言检测方法及电子装置,包括:依据一原文的内容,检索得到若干文档及相应发布来源,并从每一所述文档中选取若干单词组成一证据文档;拼接原文、原文发布人与每一证据文档及相应发布来源,得到一文本集合,并将所述文本集合输入到预训练语言模型,得到原文和证据文档之间的相关性特征;依据相关性特征对原文进行分类,判断原文是否为谣言。本发明未使用特征工程和领域知识,从外部证据文章中捕获对谣言检测有帮助的词句,训练数据获得难度极低,准确率优于现有方法。

Description

一种基于搜索引擎返回结果的谣言检测方法及电子装置
技术领域
本发明属于计算机领域,尤其涉及一种基于搜索引擎返回结果的谣言检测方法及电子装置。
背景技术
近年来,以预训练语言模型作为基础针对下游任务进行微调然后处理的方式取得了良好的效果。Delvin等人提出了BERT预训练语言模型([66]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Linguistics:Human LanguageTechnologies,Volume 1(Long and Short Papers).2019:4171-4186.)。BERT通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,在以后特定的NLP任务中,可以直接使用BERT的特征表示作为该任务的词嵌入特征。BERT使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的双向关系;使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,其在NLP领域的11个方向大幅刷新了精度。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器,可以高效地将其应用到自然语言处理任务中。
谣言原文能够提供的线索有限,而搜索引擎和知识库恰好可以为谣言检测系统提供丰富的外部知识,因此利用搜索引擎或构建知识库在辅助机器进行谣言检测方面具有重要意义。通过提取文档的基本元素并从网站上搜索它们。Popat等人通过评估语言风格(主观词汇的使用情况),证据文档发布者的可信度以及证据文档的情感立场,利用有监督的分类器进行分类。Popat等人(Popat K,Mukherjee S,Yates A,et al.DeClarE:DebunkingFake News and False Claims using Evidence-Aware Deep Learning[C]//Proceedingsof the 2018Conference on Empirical Methods in Natural LanguageProcessing.2018:22-32)搜索与谣言相关的网络文章,通过词嵌入和双向LSTM来得到文本的语言特征,同时使用注意力机制。将重点放在文章的相关部分上。然后,模型通过全连接层得到预测结果。
采用端到端的模型来进行针对网络搜索证据的可信性评估,无需任何人工干预。现有方法大多基于带有注意力机制的循环神经网络,缺少大规模语义知识。此外,因为BERT是基于大规模语料训练的语言模型,涵盖了大多数语义信息。但是,因为BERT缺少针对谣言特性的信息,直接将BERT用于谣言检测不能得到很好的效果。仍然需要进一步改进。
发明内容
本发明的目的在于提出一种基于搜索引擎返回结果的谣言检测方法及电子装置,模拟人类在发现可疑信息时采取的方法,自动利用搜索引擎返回结果,可以汇总证据上下文,结合这些文章的语言特征及其来源的可信度,还可以利用注意力机制捕捉到对谣言检测有用的信息,从而提高谣言检测准确率。
本发明的技术方案为:
一种基于搜索引擎返回结果的谣言检测方法,其步骤包括:
1)依据一原文的内容,检索得到若干文档及相应发布来源,并从每一所述文档中选取若干单词组成一证据文档;
2)拼接原文、原文发布人与每一证据文档及相应发布来源,得到一文本集合,并将所述文本集合输入到预训练语言模型,得到原文和证据文档之间的相关性特征;
3)依据相关性特征对原文进行分类,判断原文是否为谣言。
进一步地,检索得到若干文档及相应发布来源的方法包括使用Bing search API。
进一步地,在检索过程中,不对辟谣网站进行检索;所述辟谣网站包括:Politifact.com和Snopes.com。
进一步地,通过以下步骤从每一所述文档中选取若干单词组成一证据文档:
1)计算原文中单词占一文档中单词的比例a;
2)计算原文中单词平均词向量值与文档中每一单词词向量值的余弦相似度b;
3)依据每一单词的得分sim=a×b,获取该文档中得分最高的前n个单词,组成所述证据文档,n≥1。
进一步地,预训练语言模型包括BERT模型。
进一步地,通过以下步骤对原文进行分类:
1)将相关性特征输入一双向GRU网络,通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征,得到两个方向的隐含表示信息
2)将隐含表示信息v一全连接层,得到该原文的可信度得分;
3)将可信度得分输入一Softmax层,对原文进行分类。
进一步地,Softmax层的交叉熵损失函数其中N是训练集样本数,1≤i≤N,p是softmax分类结果,yi是样本的标签。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明具有以下优点:
利用本发明提供的方法对谣言进行分类,具有以下优点:
1、不需要大量特征工程,无需手动提取的特征或词典;
2、模型可以从外部证据文章中捕获对谣言检测有帮助的词句。利用不同的模型进行对比实验,可以发现引入多种外部信息的模型效果均好于只使用原文信息的模型。本方法未使用特征工程和领域知识,训练数据获得难度极低。在此基础上建立的模型取得了显著的预测效果,准确率优于现有方法。
3、引入两种外部信息的模型比只采用原文的模型具有更高的准确性。对于融合了不同种类信息的模型,具有利用原文、作者、证据、媒体信息模型效果最好。该结果表明多信息融合可以提升性能,并且它们可以从不同的角度捕获更多有用的信息。
附图说明
图1为本发明的谣言检测方法流程图。
图2为本发明的BERT模型结构示意图。
具体实施方式
为使本发明的目的、原理、技术方案和优点更加清晰明白,以下将结合具体实施例,并参照附图对本发明做详细的说明。
对于一则谣言,通过搜索引擎搜索其内容,可以获得相关的证据文档。本发明的模型利用相关证据文档,通过原文和搜索引擎返回的文档共同得出这条新闻是一则真/假新闻的结论。例如“A woman stabbed her boyfriend with a sharpened selfie stick,because he didn't like her newest Instagram selfie quickly enough.(一名女子用削尖的自拍杆刺了她的男友,因为他不喜欢她最新的Instagram照片。)”,模型会从文档中筛选一些有用的片段,并自动提取这些片段中有助于谣言检测的证据,对于检索到证据的谣言检测任务,模型建立在BERT上。利用BERT提取的基于特定任务的特征,将BERT提取到的特征向量与双向GRU模型结合,本方法将原文内容、发布者、证据文档及证据文档的来源拼接成一个原文-证据向量。
接下来,通过将原文-证据向量的表示输入BERT,再将BERT表示输入分类器双向GRU,将其表述为篇章分类任务。最后,利用一个全连接层输出利用该证据预测的原文的可信度得分。
具体地,本发明的基于搜索引擎返回结果的谣言检测方法,如图1所示,包括以下步骤:
1)需要将原文内容自动转换为查询,然后利用搜索引擎执行该查询,以获取潜在相关文档的列表。为了检索每条原文的所对应的网页文章,利用Bing search API进行查询,并保留检索到的前30个搜索结果。其中辟谣网站如Politifact.com,Snopes.com等都会被过滤掉。
2)由于网页内容往往比较长,本方法中利用的网页内容均被节选出一个片段来作为证据文档。因此,要从每篇网页内容中提取具有最高筛选得分的100个单词组成该片段,作为证据文档。具体步骤如下:
首先计算原文中单词占整个网页内容的比例,a=(原文中单词∩网页中单词)/网页中单词个数;
再计算原文的平均词向量值和网页中每个单词的词向量的余弦相似度
b=cosine(avg_embedding,w_embedding)
其中,avg_embedding为原文的平均词向量值,w_embedding为网页中每个单词的词向量;
最后,计算sim=a×b,选取值最大的100个词作为证据文档。
3)模型的输入是一个原文-证据向量。
输入包括:原文,每条原文有一个相应的发布人。证据文档表示对于每条原文搜索到的相应的证据文档。对于每一个证据文档,都有一个对应的发布媒体。因此,将原文内容、发布者、证据文档及证据文档的发布来源拼接构成一个文本集合作为输入。
4)请参考图2,考虑到证据文档和原文在语义上具有相关性,使用带有多头注意力机制的BERT模型,BERT将输入经过词向量、位置编码、句子编码的三种向量表示累加得到的表示输入到最底层双向Transformer中,然后将这层双向Transformer的输出输送到下一层的双向Transformer中再次进行编码,重复这个过程,经过多层双向Transformer编码后得到一组包含了上下文语义信息的表示作为BERT的输出。可以学习到原文和证据之间的相关性特征。
5)在BERT输出层后增加一个分类器。本方法使用双向GRU。双向GRU分别通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征。相应地,有两个隐藏状态捕获两个方向的信息,得到一种表示其中/>是GRU两个方向的隐含表示。最后再经过全连接层和Softmax层进行谣言分类,p=softmax(wv+b),其中w,b是参数。
6)使用交叉熵损失作为损失函数,计算方法为:
其中,N是训练集样本数,i表示第几个样本,p是上述softmax结果,yi是样本的标签,正类为1,负类为0。
7)最大训练轮数为200轮。当训练轮数的数量满足限制或loss收敛时,训练过程结束。对于BERT,输出的隐藏层维度为768维。在整个网络的训练中,批处理大小为32。
为验证本发明,分别使用LSTM-Plain、Bi-GRU-Plain、Distant Supervision、DeClarE及本发明对Politifact数据集进行了分类,实验结果如表1所示,可以看出本方法可以获得最高的准确率和F1值。
表1
以上所述实施例仅为更好的说明本发明的目的、原理、技术方案和有益效果。所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于搜索引擎返回结果的谣言检测方法,其步骤包括:
1)依据一原文的内容,检索得到若干文档及相应发布来源,并从每一所述文档中选取若干单词组成一证据文档;其中,所述从每一所述文档中选取若干单词组成一证据文档,包括:
1.1)计算原文中单词占一文档中单词的比例a;
1.2)计算原文中单词平均词向量值与文档中每一单词词向量值的余弦相似度b;
1.3)依据每一单词的得分sim=a×b,获取该文档中得分最高的前n个单词,组成所述证据文档;其中,n≥1;
2)拼接原文、原文发布人与每一证据文档及相应发布来源,得到一文本集合,并将所述文本集合输入到预训练语言模型,得到原文和证据文档之间的相关性特征;
3)依据相关性特征对原文进行分类,判断原文是否为谣言;其中,所述依据相关性特征对原文进行分类,包括:
3.1)将相关性特征输入一双向GRU网络,通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征,得到两个方向的隐含表示信息
3.2)将隐含表示信息v输入一全连接层,得到该原文的可信度得分;
3.3)将可信度得分输入一Softmax层对原文进行分类。
2.如权利要求1所述的方法,其特征在于,检索得到若干文档及相应发布来源的方法包括使用Bing search API。
3.如权利要求1所述的方法,其特征在于,在检索过程中,不对辟谣网站进行检索。
4.如权利要求3所述的方法,其特征在于,所述辟谣网站包括:Politifact.com和Snopes.com。
5.如权利要求1所述的方法,其特征在于,预训练语言模型包括BERT模型。
6.如权利要求1所述的方法,其特征在于,Softmax层的交叉熵损失函数其中N是训练集样本数,1≤i≤N,p是softmax分类结果,yi是样本的标签。
7.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-6中任一所述方法。
8.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-6中任一所述方法。
CN202010929737.7A 2020-09-07 2020-09-07 一种基于搜索引擎返回结果的谣言检测方法及电子装置 Active CN112256861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010929737.7A CN112256861B (zh) 2020-09-07 2020-09-07 一种基于搜索引擎返回结果的谣言检测方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010929737.7A CN112256861B (zh) 2020-09-07 2020-09-07 一种基于搜索引擎返回结果的谣言检测方法及电子装置

Publications (2)

Publication Number Publication Date
CN112256861A CN112256861A (zh) 2021-01-22
CN112256861B true CN112256861B (zh) 2023-09-26

Family

ID=74231879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010929737.7A Active CN112256861B (zh) 2020-09-07 2020-09-07 一种基于搜索引擎返回结果的谣言检测方法及电子装置

Country Status (1)

Country Link
CN (1) CN112256861B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127599B (zh) * 2021-03-02 2022-07-12 中国科学院信息工程研究所 一种层级对齐结构的问答立场检测方法及装置
CN112685541B (zh) * 2021-03-11 2021-05-25 中南大学 一种基于多任务学习的社交媒体谣言检测方法
CN113434684B (zh) * 2021-07-01 2022-03-08 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113627146B (zh) * 2021-08-11 2024-05-28 厦门大学 基于知识约束的两步式辟谣文本生成方法
CN115269786B (zh) * 2022-09-28 2023-01-06 吉林大学 可解释的虚假文本检测方法、装置、存储介质以及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537176A (zh) * 2017-02-21 2019-12-03 索尼互动娱乐有限责任公司 用于确定新闻真实性的方法
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664657B2 (en) * 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices
US10318870B2 (en) * 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537176A (zh) * 2017-02-21 2019-12-03 索尼互动娱乐有限责任公司 用于确定新闻真实性的方法
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于信任度和虚假度的证据组合方法;宋亚飞 等;《通信学报》;20150531;第36卷(第5期);全文 *
大数据中基于时态特征和混合式搜索的博客筛选挖掘;张丽娜 等;《电信科学》;20170131(第1期);全文 *

Also Published As

Publication number Publication date
CN112256861A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN108090070B (zh) 一种中文实体属性抽取方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
Wu et al. News filtering and summarization on the web
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
Ke et al. A novel approach for cantonese rumor detection based on deep neural network
CN112347339A (zh) 一种搜索结果处理方法及装置
CN113111645B (zh) 一种媒体文本相似性检测方法
Shen et al. Practical text phylogeny for real-world settings
Campbell et al. Content+ context networks for user classification in twitter
CN106933380B (zh) 一种词库的更新方法和装置
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
CN114238735B (zh) 一种互联网数据智能采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant