CN116738962B - 一种面向社交媒体的事实核查方法及系统 - Google Patents

一种面向社交媒体的事实核查方法及系统 Download PDF

Info

Publication number
CN116738962B
CN116738962B CN202310157754.7A CN202310157754A CN116738962B CN 116738962 B CN116738962 B CN 116738962B CN 202310157754 A CN202310157754 A CN 202310157754A CN 116738962 B CN116738962 B CN 116738962B
Authority
CN
China
Prior art keywords
model
verification
loss function
sentences
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310157754.7A
Other languages
English (en)
Other versions
CN116738962A (zh
Inventor
张熙
孙永胜
杨金翠
尚煜茗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN116738962A publication Critical patent/CN116738962A/zh
Application granted granted Critical
Publication of CN116738962B publication Critical patent/CN116738962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向社交媒体的事实核查方法及系统,接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量;将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。本方案不需要人为进行处理,在节约大量人力资源的前提下提高了验证精确度。

Description

一种面向社交媒体的事实核查方法及系统
技术领域
本发明涉及网页核查技术领域,尤其涉及一种面向社交媒体的事实核查方法及系统。
背景技术
自万维网诞生以来,互联网一直在不断高速发展,为世界带来日新月异的变化,将人类飞速带入了信息时代。无疑互联网拉进了世界的距离,人与人之间的交流真正实现了天涯若比邻。但是其所造成的影响却需要辩证看待,互联网在促进正面信息传播的同时,谣言与恶意信息也在以前所未有的速度、深度、广度在传播着。如今互联网上每天都生产着海量的信息,尤其是在社交媒体领域中,网络直接联系着每个具体的人,这些人既是信息的接收者,又是信息的生产者,可以说社交媒体上的信息传播有着爆发性快,对现实世界直接影响大的特点。
虽然一些明显比较离谱的,罔顾事实的内容很容易识别为错误消息,但某些陈述性的事实表达内容却不是那么容易去辨别真伪。这时就需要我们通过一些辅助手段,比如在搜索引擎中搜索相关词条,人为根据搜索结果进行判断是否准确。但面对社交媒体中海量的信息,人工核查往往有心无力,耗费大量资源。
发明内容
鉴于此,本发明的实施例提供了一种面向社交媒体的事实核查方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种面向社交媒体的事实核查方法,所述方法的步骤包括:
接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量;
将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
采用上述方案,本方案中输出的验证结果包括网页语句真实、虚假或不能判断三种,本方案通过一个比对文章即可对网页语句的真实性进行验证,不需要人为进行处理,且本方案利用验证模型进行验证,在节约大量人力资源的前提下提高了验证精确度;另一方面,本方案通过将多个所述第一向量分别输入到预设的第一分类器,用于确定每个比对语句作为网络语句的证据筛选结果时的权重,能够基于证据筛选结果对第二向量序列进行加权处理,提高验证模型的输入数据的精准度,进而提高所述验证结果的精准度。
在本发明的一些实施方式中,所述验证模型包括双向长短期记忆网络和第二分类器,在将筛选后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果的步骤中,所述第二向量输入到所述双向长短期记忆网络进行处理,再输入到第二分类器中。
在本发明的一些实施方式中,在推文核查模型中将所述比对文章拆分为多个比对语句的步骤之前,所述方法的步骤包括,将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
在本发明的一些实施方式中,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络,所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
在本发明的一些实施方式中,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型,所述方法的步骤包括对推文核查模型进行训练,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
在本发明的一些实施方式中,在基于第一损失函数和第二损失函数计算总损失函数的步骤中,基于如下公式计算总损失函数值:
loss=(losse/n+lossc)/2;
其中,loss表示总损失函数值,losse表示第一损失函数值,lossc表示第二损失函数值,n表示所述比对文章拆分出的比对语句的数量。
本发明的第二方面还提供一种面向社交媒体的事实核查系统,所述系统包括:
向量转化模块,用于接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量;
证据筛选模块,用于将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
结果验证模块,用于将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
在本发明的一些实施方式中,所述验证模型包括双向长短期记忆网络和第二分类器,在将筛选后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果的步骤中,所述第二向量输入到所述双向长短期记忆网络进行处理,再输入到第二分类器中。
在本发明的一些实施方式中,在推文核查模型中将所述比对文章拆分为多个比对语句的步骤之前,所述系统还包括推文筛选模块,用于将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
在本发明的一些实施方式中,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络,所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
在本发明的一些实施方式中,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型,所述系统包括对推文核查模型进行训练的步骤,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
在本发明的一些实施方式中,在基于第一损失函数和第二损失函数计算总损失函数的步骤中,基于如下公式计算总损失函数值:
loss=(losse/n+lossc)/2;
其中,loss表示总损失函数值,losse表示第一损失函数值,lossc表示第二损失函数值,n表示所述比对文章拆分出的比对语句的数量。
本发明的第三方面还提供一种面向社交媒体的事实核查装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法所实现的步骤。
本发明的第四方面还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述面向社交媒体的事实核查方法所实现的步骤。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明面向社交媒体的事实核查方法一种实施方式的示意图;
图2为本发明面向社交媒体的事实核查方法另一种实施方式的示意图;
图3为推文筛选模型的处理流程示意图;
图4为推文核查模型的处理流程示意图;
图5为本方案的架构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为解决以上问题,如图1所示,本发明提出一种面向社交媒体的事实核查方法,所述方法的步骤包括:
步骤S100,接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量;
在具体实施过程中,所述网页语句为从社交媒体中获取的文字语句,所述社交媒体包括微信、微博或推特等;所述对比文章为预保存的用于验证网页语句真实性的文章。
在具体实施过程中,BERT全称是来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。
步骤S200,将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
在具体实施过程中,所述第一分类器可以为softmax分类器,在将所述第一向量分别输入到预设的第一分类器中的步骤中,将第一向量组合为第一向量序列,将所述第一向量序列输入到第一分类器中,在产生第一向量序列的过程中,由于比对文章的长度不定,因此对应的比对语句数目不定,最后可得到长度为比对语句数量的第一向量序列。
步骤S300,将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
在本发明的一些实施方式中,在基于所述证据筛选结果对第二向量进行筛选的步骤中,基于所述证据筛选结果构建权重向量,将所述权重向量输入到预设的权重层,将第二向量输入到权重层进行加权处理。
在具体实施过程中,所述权重向量中的参数为0到1之间的浮点数,每个第二向量序列中的向量分别对应一个权重向量中的参数,使用该权重参数对该第二向量序列中的向量做加权处理,处理后的向量序列输入到验证分类模型中。
采用上述方案,本方案中输出的验证结果包括网页语句真实、虚假或证据信息不足三种,本方案通过一个比对文章即可对网页语句的真实性进行验证,不需要人为进行处理,且本方案利用验证模型进行验证,在节约大量人力资源的前提下提高了验证精确度;另一方面,本方案通过将多个所述第一向量序列分别输入到预设的第一分类器,用于确定每个比对语句作为网络语句的证据筛选结果时的权重,能够基于证据筛选结果对第二向量序列进行加权处理,提高验证模型的输入数据的精准度,进而提高所述验证结果的精准度。
在本发明的一些实施方式中,所述验证模型包括双向长短期记忆网络和第二分类器,在将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果的步骤中,所述第二向量输入到所述双向长短期记忆网络进行处理,再输入到第二分类器中。
在具体实施过程中,双向长短期记忆网络(Bi-LSTM),Bi-LSTM神经网络结构模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息,实验证明,这种神经网络结构模型对文本特征提取效率和性能要优于单个LSTM结构模型。
在具体实施过程中,所述第二分类器也可以为softmax分类器。
如图2所示,在本发明的一些实施方式中,在推文核查模型中将所述比对文章拆分为多个比对语句的步骤之前,所述方法的步骤包括,步骤S000,将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
在具体实施过程中,所述推文筛选模型为预先完成训练的模型,所述推文筛选模型用于判定所述网页语句中是否存在均有实际意义的内容,若存在则需要核查。
如图3所示,在本发明的一些实施方式中,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN),所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
采用上述方案,采取了基于BERT的微调模型作为上游模型,结合DPCNN作为的下游文本分类模型的技术方案。BERT模型是一种深度双向的、无监督的语言表示,且仅使用纯文本语料库进行预训练的模型,具有极强的语义信息提取能力。而DPCNN用于文本分类时由于通过引入了残差结构和增加深度,在有效地表示文本中的长范围关联,抽取长距离的文本依赖关系信息后于,在本任务是很有效的下游网络。
如图4所示,在本发明的一些实施方式中,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型,所述方法的步骤包括对推文核查模型进行训练,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
图4中,e1、e2、e3和ei分别表示对应每个第一向量序列对应的证据筛选结果。
在具体实施过程中,训练数据集取自于爬取的真实历史推文,随机在其中抽取10000条数据进行标注,训练数据集中训练集8000条,验证集与测试集各1000条。
在具体实施过程中,所述第一损失函数和第二损失函数均可以采用交叉熵损失函数。
在本发明的一些实施方式中,在基于第一损失函数和第二损失函数计算总损失函数的步骤中,基于如下公式计算总损失函数值:
loss=(losse/n+lossc)/2;
其中,loss表示总损失函数值,losse表示第一损失函数值,lossc表示第二损失函数值,n表示所述比对文章拆分出的比对语句的数量。
采用上述方案,本方案的损失函数同时考虑到了推文核查模型中的证据筛选部分和验证结果部分,分别计算两个部分的损失函数,再计算总的损失函数,提高训练准确度,并提高推文核查模型输出结果的准确度。
本方案中输入数据为真实的网页文章,所以难免存在着各种噪声与脏数据,故有必要进行有效证据筛选工作,即在文章中筛选出有效的证据句子。一种简单传统的筛选方式就是基于pipeline设计模型,即先从文章中筛选出和声明最相关的句子作为证据,然后根据筛选结果再结合声明进行核查分类。但这种类型的方法往往对于证据筛选和核查分类这两个任务是单向前进的,缺少相互之间的信息交互。虽然证据筛选可以传递到核查任务,但核查分类任务的结果不能反馈到任务筛选任务上。所以本研究在对CHEF数据集补充标注了证据筛选标签后,设计应用了证据筛选与声明分类的联合模型,同时进行证据筛选与声明分类训练了得到更好的分类效果。
在具体实施过程中,本方法适用于自动化事实核查系统中,可用于对推文网站推文进行自动化事实核查分析。举例来说,在如图5的架构图中,该方法可封装在数据处理服务模块中,用于分析数据采集模块发送来的数据。
其在模块中具体工作步骤如下:
1、推文筛选模型消费数据采集模块下发至kafka消息队列中的实时中文推文数据。
2、获取到推文数据后,通过微调的Bert预训练模型结合下游DPCNN模型得出该推文是否有核查价值的分类结果。
3、依据分类结果将有核查价值的推文下发到kafka消息队列,供推文核查模型使用。
4、推文核查模型从kafka消息队列中消费要核查的推文信息和由数据采集模块采集到的相关网页资讯。
5、将网页资讯整合过滤,与要核查的声明组成句子对序列输入模型中,得到证据筛选分类结果和声明分类结果。
6、依据分类结果判断该推文中观点是真是假,并将结果下发到kafka消息队列,用于数据展示。
本方案的有益效果包括:
一、运用Bert预训练模型结合微调的下游DPCNN模型作为技术方案,解决了中文推文中基于核查价值的推文筛选分类任务;
二、设计应用了一种同时进行证据筛选与声明分类的联合模型,更适用于中文推文中声明的核查分析。避免了先从文章中筛选出句子作为证据,然后再结合声明进行核查分类时,由于两个任务是单向前进的而缺少了信息交互的问题。
本发明的第二方面还提供一种面向社交媒体的事实核查系统,所述系统包括:
向量转化模块,用于接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量;
证据筛选模块,用于将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
结果验证模块,用于将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
在本发明的一些实施方式中,所述验证模型包括双向长短期记忆网络和第二分类器,在将筛选后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果的步骤中,所述第二向量输入到所述双向长短期记忆网络进行处理,再输入到第二分类器中。
在本发明的一些实施方式中,在推文核查模型中将所述比对文章拆分为多个比对语句的步骤之前,所述系统还包括推文筛选模块,用于将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
在本发明的一些实施方式中,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络,所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
在本发明的一些实施方式中,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型,所述系统包括对推文核查模型进行训练的步骤,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
在本发明的一些实施方式中,在基于第一损失函数和第二损失函数计算总损失函数的步骤中,基于如下公式计算总损失函数值:
loss=(losse/n+lossc)/2;
其中,loss表示总损失函数值,losse表示第一损失函数值,lossc表示第二损失函数值,n表示所述比对文章拆分出的比对语句的数量。
现有技术还没有使用网页证据对社交媒体的中文推文进行事实核查分析的相关发明。一般来说事实核查分析流程可以顺序分为关键的两环节,第一环节是寻找值得核查的观点声明,第二个环节是依据证据对该观点进行核查分析,推理出该观点是真是假。
对于核查价值研究方面的技术,演讲领域的核查价值研究是前些年的传统方向,但其中很多技术方案都过于依赖上下文信息,属于长文档方面的核查价值研究,但社交媒体中往往文本较短,不适于这些研究方法。之后的CLEF(Cross-Language EvaluationForum)会议中虽然提出了一些研究方案,但由于目前缺少中文推文领域的核查价值研究的公开数据集,所以尚且没有具体的实施方法。
对于核查分析研究方面的技术,在社交媒体这一应用场景中,由于本地证据库很难及时更新热点消息,故基于WEB网页资讯的事实核查流程更为有效。但在网页资讯的爬取难免充斥了冗余信息和各种脏数据,传统的依赖于Fever数据集等结构化形式良好的数据集的核查研究方案难以适应真实的应用场景。故该流程需要着重考虑如何在一篇文章中选中有效的证据句子。名为CredEye的WEB事实核查流程采用的基于n-gram匹配程度证据筛选方法,在实际应用中的是一种实用有效的方案。但其分析模型过于简单只用了逻辑回归模型进行事实核查分析。而且基于pipeline结构的先选择证据句子,再进行核查分析的方式,难以让后一任务对前一任务进行有效反馈。
本发明通过构建中文推文核查价值分类数据集,结合BERT预训练模型微调下游模型,实现中文推文核查价值筛选技术,筛选出有核查价值的推文。之后依据筛选出的推文和相关的网页资讯进行事实核查分析,分析模型采用联合模型架构,同时兼具证据句子筛选与声明观点分类功能,最后根据分类结果判断出该推文中观点是真实还是虚假。
本发明针对社交媒体进行实时数据采集,先运用深度学习算法技术筛选出采集到的推文中值得核查的观点内容,解释来说就是一方面我们更想核查与感兴趣的主题相关的推文,另一方面我们可以只关注那些与事实性叙述有关的推文信息(举例来说就是类似XX地发生XX事件这种类型的信息),而不关注那些单纯的观点表达,情绪感叹等非事实性叙述信息。之后再通过搜索引擎爬取相关网站文章作为证据,依据证据内容及进行事实核查分析,最后推理出该推文中所表达的观点是真实还是虚假。
本发明实施例还提供一种面向社交媒体的事实核查装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法所实现的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述面向社交媒体的事实核查方法所实现的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向社交媒体的事实核查方法,其特征在于,所述方法的步骤包括:
接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型;
将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
2.根据权利要求1所述的面向社交媒体的事实核查方法,其特征在于,所述验证模型包括双向长短期记忆网络和第二分类器,在将筛选后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果的步骤中,所述第二向量输入到所述双向长短期记忆网络进行处理,再输入到第二分类器中。
3.根据权利要求1所述的面向社交媒体的事实核查方法,其特征在于,在推文核查模型中将所述比对文章拆分为多个比对语句的步骤之前,所述方法的步骤包括,将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
4.根据权利要求3所述的面向社交媒体的事实核查方法,其特征在于,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络,所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
5.根据权利要求1所述的面向社交媒体的事实核查方法,其特征在于,所述方法的步骤包括对推文核查模型进行训练,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
6.根据权利要求5所述的面向社交媒体的事实核查方法,其特征在于,在基于第一损失函数和第二损失函数计算总损失函数的步骤中,基于如下公式计算总损失函数值:
loss=(losse/n+lossc)/2;
其中,loss表示总损失函数值,losse表示第一损失函数值,lossc表示第二损失函数值,n表示所述比对文章拆分出的比对语句的数量。
7.一种面向社交媒体的事实核查系统,其特征在于,所述系统包括:
向量转化模块,用于接收网页语句和比对文章,将所述网页语句和比对文章输入到推文核查模型中,在推文核查模型中将所述比对文章拆分为多个比对语句,将网页语句和每个比对语句组合拼接为句子对,将所述句子对输入到预设的第一BERT模型中,输出对应所述句子对的第一向量,所述推文核查模型包括第一BERT模型、第一分类器、全连接层和验证模型;
证据筛选模块,用于将所述第一向量分别输入到预设的第一分类器中,得到证据筛选结果;
结果验证模块,用于将所述第一向量经过全连接层进行处理得到第二向量,基于所述证据筛选结果对第二向量进行加权处理,将加权处理后的多个第二向量输入到预设的验证模型中,所述验证模型通过第二分类器输出验证结果。
8.根据权利要求7所述的面向社交媒体的事实核查系统,其特征在于,在执行将所述网页语句和比对语句输入到预设的第一BERT模型的步骤之前,所述系统还包括推文筛选模块,用于将所述网页语句输入到预设的推文筛选模型中,基于所述推文筛选模型输出的预分类结果确定所述网页语句是否需要核查。
9.根据权利要求8所述的面向社交媒体的事实核查系统,其特征在于,所述推文筛选模型包括第二BERT模型和深度金字塔卷积神经网络,所述网页语句顺序经过第二BERT模型和深度金字塔卷积神经网络进行处理,由深度金字塔卷积神经网络输出所述网页语句是否需要核查的结果。
10.根据权利要求7所述的面向社交媒体的事实核查系统,其特征在于,所述系统包括对推文核查模型进行训练的步骤,所述对推文核查模型进行训练的步骤包括,获取训练数据集,基于训练数据集中的数据和证据筛选结果计算第一损失函数,基于训练数据集中的数据和所述第二分类器输出验证结果计算第二损失函数,基于第一损失函数和第二损失函数计算总损失函数,基于总损失函数对推文核查模型进行训练。
CN202310157754.7A 2023-02-10 2023-02-13 一种面向社交媒体的事实核查方法及系统 Active CN116738962B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2023100986363 2023-02-10
CN202310098636 2023-02-10

Publications (2)

Publication Number Publication Date
CN116738962A CN116738962A (zh) 2023-09-12
CN116738962B true CN116738962B (zh) 2024-04-26

Family

ID=87915759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310157754.7A Active CN116738962B (zh) 2023-02-10 2023-02-13 一种面向社交媒体的事实核查方法及系统

Country Status (1)

Country Link
CN (1) CN116738962B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及系统
CN113536760A (zh) * 2021-07-06 2021-10-22 中国科学院计算技术研究所 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
CN113987174A (zh) * 2021-10-22 2022-01-28 上海携旅信息技术有限公司 分类标签的核心语句提取方法、系统、设备及存储介质
CN114936266A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于门控机制的多模态融合谣言早期检测方法及系统
CN115017887A (zh) * 2022-06-02 2022-09-06 电子科技大学 基于图卷积的中文谣言检测方法
CN115168439A (zh) * 2022-05-24 2022-10-11 西北工业大学 一种基于紧密图推理网络的表格事实验证方法
CN115269786A (zh) * 2022-09-28 2022-11-01 吉林大学 可解释的虚假文本检测方法、装置、存储介质以及终端
CN115391707A (zh) * 2022-09-02 2022-11-25 联通(广东)产业互联网有限公司 一种传销舆情分类训练方法、系统、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及系统
CN113536760A (zh) * 2021-07-06 2021-10-22 中国科学院计算技术研究所 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
CN113987174A (zh) * 2021-10-22 2022-01-28 上海携旅信息技术有限公司 分类标签的核心语句提取方法、系统、设备及存储介质
CN114936266A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于门控机制的多模态融合谣言早期检测方法及系统
CN115168439A (zh) * 2022-05-24 2022-10-11 西北工业大学 一种基于紧密图推理网络的表格事实验证方法
CN115017887A (zh) * 2022-06-02 2022-09-06 电子科技大学 基于图卷积的中文谣言检测方法
CN115391707A (zh) * 2022-09-02 2022-11-25 联通(广东)产业互联网有限公司 一种传销舆情分类训练方法、系统、计算机设备及存储介质
CN115269786A (zh) * 2022-09-28 2022-11-01 吉林大学 可解释的虚假文本检测方法、装置、存储介质以及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于故事浅层理解与事件框架的语义建模;谢秋妹;高春鸣;王小兰;;计算机科学;20131015(第10期);221-265, 264 *
李娜."功能目的论视角下互联网领域新闻的变译".《中国优秀说是学位论文全文数据库 信息科技辑》.第2-4章. *

Also Published As

Publication number Publication date
CN116738962A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Li et al. Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks
CN108959270A (zh) 一种基于深度学习的实体链接方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN103164428B (zh) 确定微博与给定实体的相关性的方法和装置
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
Nadeem et al. SSM: Stylometric and semantic similarity oriented multimodal fake news detection
CN112052424A (zh) 一种内容审核方法及装置
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN117312577A (zh) 基于多层语义图卷积神经网络交通事件知识图谱构建方法
CN103853701A (zh) 一种基于神经网络的自学习语义检测方法及系统
Gao et al. Few-shot fake news detection via prompt-based tuning
Chen et al. Identifying Cantonese rumors with discriminative feature integration in online social networks
CN116738962B (zh) 一种面向社交媒体的事实核查方法及系统
CN115687939B (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN116578671A (zh) 一种情感-原因对提取方法及装置
Kiran et al. Multi-stage Transfer Learning for Fake News Detection Using AWD-LSTM Network
Tsai et al. Generating construction safety observations via CLIP-based image-language embedding
Feng Misreporting and fake news detection techniques on the social media platform
Lopardo et al. Faithful and Robust Local Interpretability for Textual Predictions
Ivezić et al. Trends and Challenges of Text-to-Image Generation: Sustainability Perspective
Yin et al. Deep neural network ensembles for detecting self-admitted technical debt
Manh et al. Linguistic-based Augmentation for Enhancing Vietnamese Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant