CN115269786B - 可解释的虚假文本检测方法、装置、存储介质以及终端 - Google Patents

可解释的虚假文本检测方法、装置、存储介质以及终端 Download PDF

Info

Publication number
CN115269786B
CN115269786B CN202211186100.9A CN202211186100A CN115269786B CN 115269786 B CN115269786 B CN 115269786B CN 202211186100 A CN202211186100 A CN 202211186100A CN 115269786 B CN115269786 B CN 115269786B
Authority
CN
China
Prior art keywords
text
target
evidence
statement
embedded representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211186100.9A
Other languages
English (en)
Other versions
CN115269786A (zh
Inventor
杨志伟
马晶
陈贺昌
林鸿展
罗子洋
常毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211186100.9A priority Critical patent/CN115269786B/zh
Publication of CN115269786A publication Critical patent/CN115269786A/zh
Application granted granted Critical
Publication of CN115269786B publication Critical patent/CN115269786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种可解释的虚假文本检测方法、装置、存储介质以及终端,使用虚假文本检测模型,生成目标文本的目标文本嵌入表示,以及生成未处理原始文本的参考文本嵌入表示;确定目标文本的目标证据语句,以及目标证据语句的证据文本嵌入表示;基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。由于本申请基于原始的参考文本对目标文本进行真实性检测,减少检测时对人工事实核查报告的依赖,且从参考文本中确定出目标文本的真实性检测结果及其判断的证据文本。使得文本检测过程中减少对目标文本的检测时延,并且真实性检测结果具有可解释性。

Description

可解释的虚假文本检测方法、装置、存储介质以及终端
技术领域
本申请涉及自然语言处理以及人工智能技术领域,尤其涉及一种可解释的虚假文本检测方法、装置、存储介质以及终端。
背景技术
新闻文本作为社会中最常见的文本种类之一,具有权威性和代表性。随着互联网的发展,虚假新闻文本的传播和泛滥严重影响真实新闻文本的可信度,甚至可能导致社会秩序混乱。相比普通文本,虚假新闻的内容对人们的工作和生活产生的影响更大,范围更广。此外,普通受众通常缺少辨别新闻内容真实性的专业知识,难以说明判断的依据。因此,亟需准确可解释的虚假新闻检测方法,即利用相关文本自动检测新闻事件的真实性并生成检测结果的判断解释。
发明内容
本申请提供一种可解释的虚假文本检测方法、装置、存储介质以及终端,可以解决相关技术中虚假新闻无法准确检测分类、无法对检测结果提供解释的技术问题。
第一方面,本申请实施例提供一种可解释的虚假文本检测方法,所述方法应用于虚假文本检测模型,所述虚假文本检测模型至少包括文本编码器模块、证据选择器模块以及预测模块,该方法包括:
通过所述文本编码器模块,生成目标文本的目标文本嵌入表示,以及生成所述目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,所述参考文本为与所述目标文本具有相关性的未处理原始文本;
通过所述证据选择器模块,基于各参考文本嵌入表示确定所述目标文本对应的目标证据语句,以及所述目标证据语句的证据文本嵌入表示;
通过所述预测模块,基于所述目标文本嵌入表示、所述参考文本嵌入表示、以及所述证据文本嵌入表示确定目标文本的真实性检测结果,并基于所述目标证据语句解释所述真实性检测结果。
第二方面,本申请实施例提供一种可解释的虚假文本检测装置,应用于虚假文本检测模型,该装置包括:
文本编码器模块,用于生成目标文本的目标文本嵌入表示,以及生成所述目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,所述参考文本为与所述目标文本具有相关性的未处理原始文本;
证据选择器模块,用于基于各参考文本嵌入表示确定所述目标文本对应的目标证据语句,以及所述目标证据语句的证据文本嵌入表示;
预测模块,用于基于所述目标文本嵌入表示、所述参考文本嵌入表示、以及所述证据文本嵌入表示确定目标文本的真实性检测结果,并基于所述目标证据语句解释所述真实性检测结果。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第四方面,本申请实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请提供一种可解释的虚假文本检测方法,使用虚假文本检测模型,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示;基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。由于与目标文本相关的参考文本为未处理原始文本,本申请基于原始的参考文本对目标文本进行真实性检测,减少检测时对人工事实核查报告的依赖,且从参考文本中确定出目标文本的真实性检测结果及其判断的证据文本。使得文本检测过程中减少对目标文本的检测时延,并且真实性检测结果具有可解释性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可解释的虚假文本检测方法的示例性系统架构图;
图2为本申请实施例提供的一种可解释的虚假文本检测方法的流程示意图;
图3为本申请实施例提供的一种可解释的虚假文本检测方法的流程示意图;
图4为本申请实施例提供的一种可解释的虚假文本检测装置的结构框图;
图5为本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
日常生活中,新闻成为人们获取事实信息的主要来源之一,而将互联网的传播能力用于新闻传播,会快速增长新闻的信息传播速度。在这种情况下,为达成某种目的利用网络流量散播虚假消息或扭曲事实,导致网络中出现大量虚假新闻,这通常会对人们产生误导,甚至引起社会混乱,破坏社会中进行的正常程序和公共工作秩序。因此,虚假新闻的泛滥增加了社会对虚假新闻自动检测的需求。
早期的虚假新闻检测通常只注重于输出检测结果,从检测结果无法读取结果的判断依据,不便于对虚假新闻进行进一步分析。因此,近年来,为了对虚假新闻文本检测结果进行解释以增强虚假新闻文本检测结果的可信度和准确度,一些新闻文本检测方法进行虚假新闻检测的同时还输出检测结果的解释性证据,旨在对新闻描述的真实性进行准确分类并提供真实性判断的证据(Evidence)。然而,常见的虚假新闻检测方法主要依赖于新闻的事实核查报道来识别虚假新闻,以及基于事实核查报道来提供解释检测结果的证据。例如,部分虚假文本检测方法在提供检测结果的证据时直接抽取事实核查报道中的显著词或短语作为解释,但该类方法缺乏具有可读性的完整句子作为检测结果的证据支撑;还有少数方法通过注意力机制、预训练“抽取+生成”的文本摘要等得到相关事实核查报道中的显著相关句子作为解释。虽然已有研究探索利用事实核查报道生成真实性解释,但该事实核查报道是基于人工提炼,因而容易受到报道范围的限制,效率也相对较低。
研究表明真实性预测的解释通常能够显著提升虚假新闻文本检测的性能。已有方法都是基于虚假新闻文本相关的事实核查报道来生成真实性检测结果以及检测结果的解释,而事实核查报道是通过人工技术手段在相关主题的大量原始新闻进行提炼得到的已处理文本报道。其中,事实核查报道中的内容也都经过人工提炼分类整理,在人工提炼分类过程中事实核查报道包含的信息内容是人工手动筛选的。因此,利用事实核查报道进行虚假文本检测以及检测结果解释,容易受到事实核查报道范围的制约,泛化能力相对较差。除此之外,由于事实核查报道的制作提炼需要时间,导致获取事实核查报道的时间在相关主题的新闻出现的时间上存在一定滞后性。这也使得虚假新闻文本的检测时间存在一定滞后性,不便于及时对新闻文本进行检测,效率也相对较低。
因此本申请实施例提供一种可解释的虚假文本检测方法,使用虚假文本检测模型,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;基于各参考文本嵌入表示确定目标文本的目标证据语句,以及目标证据语句的证据文本嵌入表示;基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果,以解决虚假新闻无法准确检测分类、无法对检测结果提供解释的上述技术问题。
请参阅图1,图1为本申请实施例提供的一种可解释的虚假文本检测方法的示例性系统架构图。
如图1所示,系统架构可以包括终端101、网络102和服务器103。网络102用于在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端101可以通过网络102与服务器103交互,以接收来自服务器103的消息或向服务器103发送消息,或者终端101可以通过网络102与服务器103交互,进而接收其他用户向服务器103发送的消息或者数据。终端101可以是硬件,也可以是软件。当终端101为硬件时,可以是各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端101为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
终端101使用虚假文本检测模型,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;然后终端101基于各参考文本嵌入表示确定目标文本的目标证据语句,以及目标证据语句的证据文本嵌入表示;最终终端101基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。
服务器103可以是提供各种服务的业务服务器。需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
或者,该系统架构还可以不包括服务器103,换言之,服务器103可以为本说明书实施例中可选的设备,即本说明书实施例提供的方法可以应用于仅包括终端101的系统结构中,本申请实施例对此不做限定。
应理解,图1中的终端、网络以及服务器的数目仅是示意性的,根据实现需要,可以是任意数量的终端、网络以及服务器。
请参阅图2,图2为本申请实施例提供的一种可解释的虚假文本检测方法的流程示意图。本申请实施例的执行主体可以是执行虚假文本检测的终端,也可以是执行虚假文本检测方法的终端中的处理器,还可以是执行虚假文本检测方法的终端中的虚假文本检测服务。为方便描述,下面以执行主体是终端中的处理器为例,介绍可解释的虚假文本检测方法的具体执行过程。
如图2所示,可解释的虚假文本检测方法应用于虚假文本检测模型,虚假文本检测模型至少包括文本编码器模块、证据选择器模块以及预测模块,至少可以包括:
S201、通过文本编码器模块,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本。
可选地,由于利用事实核查报道进行虚假文本检测以及检测结果解释,容易受到事实核查报道范围的制约,泛化能力相对较差,且事实核查报道的制作提炼需要一定时间,那么对虚假新闻文本的检测时间也与相关话题出现时间存在一定滞后性,导致无法及时对目标文本进行检测,检测效率低。
容易理解的,网络中未处理的大量原始文本中已经包含足够信息,例如媒体新闻、用户评论、博客等都会基于话题进行大量讨论,这些文本内容虽然并没有经过事实核查,但其广泛性已经能够体现出普通群体的集体智慧。在文本检测时,已有研究表明普通群体的集体智慧能够与专业的事实核查人员得到的事实核查报道一样能有效地分辨虚假新闻。为了能够及时对目标文本进行真实性检测,并且减少在文本真实性检测过程中对人工事实核查报道的依赖,可以基于相关话题的未处理的原始文本来对目标文本进行真实性检测,并从未处理的原始文本中提供真实性检测结果的证据解释。
可选地,为了利用集体智慧及时检测虚假文本,众多不同媒体机构发布的相关原始报道中往往包含证据,能够有效地检测虚假文本并提供预测结果的解释。因此对目标文本进行真实性检测时,首先需要获得目标文本对应的参考文本集,参考文本为与目标文本具有相关性的未处理原始文本,以使得参考文本能够用于检测目标文本的真实性以及对检测结果提供证据解释。其中,获取目标文本对应的参考文本时,一种可行的实施方式为基于目标文本进行检索,选取预设检索页内的所有文本为参考文本,保证有足够数量的参考文本,确保对目标文本进行准确的真实性检测。需要注意的是,本申请实施例对获取参考文本集的方式以及使用的工具不作具体限定。
可选地,由于神经网络模型可以模拟生物神经网络,通过对样本数据的学习收集目标特征和目标知识,学习到较好效果后实现自动完成任务,也就说明在本申请实施例中可以训练神经网络模型得到虚假文本检测模型,将训练收敛的虚假文本检测模型用于检测目标文本,保证虚假文本检测的效率。
具体地,对目标文本以及其参考文本集进行分析时,为了对目标文本和参考文本集进行计算和分析,首先需要将目标文本以及参考文本集都转化为计算机语言能够识别的表示方法,也即需要基于虚假文本检测模型中的文本编码器模块,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本。
S202、通过证据选择器模块,基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示。
可选地,从上述实施例的介绍可以知道,参考文本中包含的所有语句中,不仅包含能够作为判断目标文本真实性的证据语句,也包含了一些冗杂的无关语句,因此为了根据参考文本中的证据语句来准确检测目标文本的真实性,以及根据证据语句对检测结果进行解释,就需要先从所有参考文本中抽取出能够用于作为证据的证据语句。
可选地,为了抽取参考文本中的证据语句以及对应的证据语句表示,可以训练虚假文本检测模型中的证据选择器模块来完成证据挖掘。具体的,获取目标文本嵌入表示以及参考文本集中各参考文本的表示之后,通过证据选择器模块,基于各参考文本嵌入表示对各参考文本中的各语句进行计算分析,确定目标文本对应的目标证据语句,以使得目标证据语句基于与目标文本之间高相关性,可以对目标文本的检测结果进行解释。进一步的,就可以从各参考文本嵌入表示中抽取出目标证据语句的证据文本嵌入表示,以使得目标证据语句的证据文本嵌入表示可以作为目标文本真实性判断的依据,同时还实现目标证据语句能够对目标文本的检测结果进行明确的文本解释的有益效果。
S203、通过预测模块,基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。
可选地,根据前述实施例,获取的目标文本嵌入表示是对目标文本进行检测分析的基础;获取的参考文本嵌入表示可以使得虚假文本检测模型基于与目标文本相关的未处理原始文本中体现的集体智慧来判断目标文本的真实性,获得更准确的真实性检测结果;获取的证据文本嵌入表示能够对目标文本的真实性检测提供判断依据,也能对目标文本的真实性检测结果进行解释,那么在本申请实施例中,通过预测模块,基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,可以缓解对人工加工过的事实核查报道的依赖,减少虚假文本检测的时间延迟,生成可解释的准确的真实性检测结果。
更进一步地,确定目标文本的真实性检测结果的同时,目标证据语句作为目标文本的真实性判断的重要依据,使得目标证据语句可以直接以文本形式解释目标文本的真实性检测结果。那么在本申请实施例中可以输出能够解释真实性检测结果的真实新闻语句,对真实性检测结果的准确性提供了支撑,这样就便于后续优化虚假文本检测模型,并提高虚假文本检测模型输出的检测结果的可信度。
在本申请实施例中,提供一种可解释的虚假文本检测方法,使用虚假文本检测模型,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示;基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。由于与目标文本相关的参考文本为未处理原始文本,本申请基于原始的参考文本对目标文本进行真实性检测,减少检测时对人工事实核查报告的依赖,且从参考文本中确定出目标文本的真实性检测结果及其判断的证据文本。使得文本检测过程中减少对目标文本的检测时延,并且真实性检测结果具有可解释性。
请参阅图3,图3为本申请实施例提供的一种可解释的虚假文本检测方法的流程示意图。
如图3所示,可解释的虚假文本检测方法应用于虚假文本检测模型,虚假文本检测模型至少包括文本编码器模块、证据选择器模块以及预测模块,至少可以包括:
S301、获取目标文本的目标词序列,以及获取目标文本对应的参考文本集中各参考文本的各参考词序列。
可选地,目前虚假文本检测方法旨在将一则文本分为真假,并提供真实性(Veracity)预测背后的解释(Explanation)。常见方法中需要根据人工事实核查报道定制检测策略,基于人工劳动成果进行检测就简化了基于原始文本报道进行真实性检测的任务流程,导致虚假文本检测所使用的参考文本覆盖面的局限性和辟谣的滞后性。一般而言,当一则新闻描述(Claim)尚未被核实时,各种媒体上会传播针对该新闻相关评论的原始报道。这些包含群众集体智慧的原始报道可帮助核实新闻的真实性并给出对应的解释。
进一步地,在具体使用虚假文本检测模型完成可靠的报道筛选、可解释的证据抽取和描述的真实性判断的任务时,虚假文本检测模型基于多个模块分别完成多个任务中的对应任务,其中获得文本表示时,需要通过文本编码器模块来根据文本内容进行编码,获得目标文本以及参考文本的文本表示。首先,为方便描述,以目标文本为
Figure 733668DEST_PATH_IMAGE001
为例,对使用虚假文本检测模型对目标文本进行真实性检测的具体过程进行解释,首先从预先准备的需要检测的目标文本数据集
Figure 403684DEST_PATH_IMAGE002
,其中各目标文本数据
Figure 518270DEST_PATH_IMAGE003
Figure 299144DEST_PATH_IMAGE004
,表示目标文本
Figure 815576DEST_PATH_IMAGE001
以及目标文本
Figure 656493DEST_PATH_IMAGE001
对应的参考文本集
Figure 258376DEST_PATH_IMAGE005
,参考文本为未处理的原始文本,其中
Figure 577362DEST_PATH_IMAGE006
表示由
Figure 948300DEST_PATH_IMAGE007
个语句构成的一个参考文本,需要注意的是,
Figure 960119DEST_PATH_IMAGE008
表示对应项x的数量,此处x为示例,在本方案中没有特殊含义。
具体地,对文本进行表示时,文本中词序列构成各个语句,而语句序列构成各个文本,因此对目标文本
Figure 783718DEST_PATH_IMAGE001
,需要可以基于目标文本中所有词语组成的词序列和参考文本中所有词语组成的词序列
Figure 171974DEST_PATH_IMAGE009
,其中
Figure 194157DEST_PATH_IMAGE010
表示
Figure 376876DEST_PATH_IMAGE011
维向量并通过文本编码器模块初始化,根据词序列来生成目标文本和参考文本的语句以及文本表示,使得虚假文本检测模型使用从词、句子和文档之间的层次性进行文本编码表示,提升编码准确性,确保生成的文本表示能够完整表达文本内容特征。
S302、根据目标词序列生成目标文本的目标文本嵌入表示,以及根据各参考词序列生成各参考文本的参考文本嵌入表示。
可选地,进行目标文本语句的表示以及参考文本中各语句的表示时,首先通过文本编码器模块得到词表示,需要注意的是,通常目标文本作为新闻描述时是一个单一的语句,因此可以直接获得目标文本
Figure 953351DEST_PATH_IMAGE001
对应的目标文本嵌入表示
Figure 879719DEST_PATH_IMAGE012
进一步地,对目标文本对应的参考文本
Figure 959670DEST_PATH_IMAGE013
进行表示时,也需要首先基于参考文本中的词序列的词表示获取参考文本
Figure 578871DEST_PATH_IMAGE013
中各语句的语句表示。在具体过程中,根据文本编码器模块的特性使用其最后一层中的特殊符号“[CLS]”的嵌入表示作为当前语句的表示,其中嵌入表示能够表示出整个文本语句的信息,得到参考文本
Figure 111483DEST_PATH_IMAGE013
中各语句的语句表示为
Figure 575963DEST_PATH_IMAGE014
。这样使得虚假文本检测模型使用从细粒度到粗粒度依次编码输入文本得到词、句子和文档的表示,提升编码效率和准确性,确保文本表示能够完整表达文本内容特征。
可选地,对于参考文本
Figure 572737DEST_PATH_IMAGE013
还需要基于参考文本
Figure 362839DEST_PATH_IMAGE013
中各语句的语句表示
Figure 117168DEST_PATH_IMAGE015
,确定参考文本
Figure 650918DEST_PATH_IMAGE013
的参考文本嵌入表示,具体的文本编码器模块可以结合双向长短期记忆网络(BiLSTM)和最大池化层聚合所有句子的显著特征作为当前文档的表示,具体如下:
Figure 502199DEST_PATH_IMAGE016
其中,
Figure 197623DEST_PATH_IMAGE017
Figure 970407DEST_PATH_IMAGE018
表示当前语句的上下文语句,得到
Figure 42268DEST_PATH_IMAGE019
表示参考文本
Figure 951318DEST_PATH_IMAGE013
中语句
Figure 83222DEST_PATH_IMAGE020
的句子级BiLSTM输出的上下文隐状态,通过语句自身信息以及上下文语句信息,可以完整表示出当前语句内容表达的语义特征。
进一步地,通过参考文本
Figure 812144DEST_PATH_IMAGE013
中各语句的语句表示
Figure 687696DEST_PATH_IMAGE019
,可以通过最大池化来聚合参考文本中所有语句的显著特征作为当前参考文本的参考文本嵌入表示,具体如下:
Figure 716832DEST_PATH_IMAGE021
其中,
Figure 754058DEST_PATH_IMAGE022
表示最大池化操作,
Figure 501434DEST_PATH_IMAGE023
表示拼接操作,
Figure 915098DEST_PATH_IMAGE024
表示文本编码器模块在训练过程中不断学习优化的学习参数,通过对
Figure 798740DEST_PATH_IMAGE024
的调整,训练虚假文本检测模型中文本编码器模块的编码性能。
S303、基于各参考文本嵌入表示确定各参考文本中的目标参考文本的目标参考文本嵌入表示,目标参考文本为包含目标证据语句的参考文本。
可选地,为了从大量包含未处理过的原始报道(例如媒体新闻、用户评论、博客等)的参考文本中抽取出与目标文本密切相关且可靠的证据作为目标文本真实性检测结果的判断依据,可以使得虚假文本检测模型进行从粗粒度到细粒度的级联证据抽取,其包括两个阶段:(1)粗粒度的可靠报道筛选、(2)细粒度的可解释证据抽取。也即可以首先在所有参考文本中确定出包含有证据语句的目标参考文本,再在所有目标参考文本中,抽取能够作为证据的证据语句,这样可以首先通过抽取可靠的目标参考文本来缩小抽取证据语句的范围,提升证据语句的抽取效率。
可选地,为了获取包含可以解释目标文本的真实性检测结果的目标证据语句,可以基于各参考文本嵌入表示确定各参考文本中的目标参考文本的目标参考文本嵌入表示。具体过程中,可以首先根据各参考文本的内容与目标文本的相关性计算其可靠性得分,将各参考文本按照可靠性得分进行排序,也即基于各参考文本嵌入表示计算各参考文本的可靠性排序,再根据各参考文本的可靠性排序确定各参考文本中的至少一个目标参考文本,以及从各参考文本嵌入表示中抽取各目标参考文本的目标参考文本嵌入表示。
具体地,由于该任务是基于大量原始的参考文本进行证据抽取,因此,可以使得虚假文本检测模型中的证据选择器模块,基于监督学习对各参考文本进行可靠性排序并基于可靠性排序进一步分析排名靠前的参考文本,从而缓解低可信度的参考文本的影响并自动缩小证据提取的范围。在实现过程中,可以设置证据选择器模块将目标文本
Figure 6868DEST_PATH_IMAGE001
作为查询向量,匹配K个最突出的结果,也即获取可靠性排序的前K个参考文本作为目标参考文本,其中利用全局的注意力获取各参考文本
Figure 975961DEST_PATH_IMAGE013
的可靠性得分排序表示如下:
Figure 193315DEST_PATH_IMAGE025
其中,
Figure 931464DEST_PATH_IMAGE026
表示所有参考文本的完整隐状态表示,
Figure 576072DEST_PATH_IMAGE027
用于表示排序所有的参考文本并筛选出前K个结果作为可靠的目标参考文本,也即目标参考文本的可靠标签为
Figure 32461DEST_PATH_IMAGE028
,非目标参考文本的不可靠标签为
Figure 584665DEST_PATH_IMAGE029
Figure 442900DEST_PATH_IMAGE030
表示证据选择器模块在训练过程中不断学习优化的学习参数,通过对
Figure 258409DEST_PATH_IMAGE031
的调整,训练虚假文本检测模型中证据选择器模块在粗粒度的证据抽取性能。需要注意的是,在被选取的目标参考文本中,第
Figure 936515DEST_PATH_IMAGE032
个文档表示为
Figure 495672DEST_PATH_IMAGE033
,其中的第t个语句表示为
Figure 208414DEST_PATH_IMAGE034
,这将用于后续第二阶段的细粒度证据抽取,以使得从各语句中抽取出目标证据语句。
S304、基于各目标参考文本嵌入表示确定各目标参考文本中目标文本对应的目标证据语句,以及抽取目标证据语句的证据文本嵌入表示。
可选地,确定出能够作为可靠的目标参考文本之后,需要基于证据选择器模块从细粒度来在所有目标参考文本中包含的语句中,抽取能够对目标文本的真实性检测进行解释的目标证据语句,那么在第二阶段证据抽取时,目标参考文本中的所有语句会被逐一顺序核查以获得目标证据语句,并最终从各目标参考文本嵌入表示中抽取目标文本对应的目标证据语句的证据文本嵌入表示,以实现对目标文本真实性检测结果进行解释。
可选地,目标参考文本代表了检测虚假文本时能够依据的集体智慧。那么,目标参考文本中,能够作为目标文本对应的目标证据语句应该是与目标文本相关的(claim-relevant)、信息丰富的(informative)、突出的(salient)和非冗余的(non-redundant)。具体来说,一个参考文本通常是完整自洽的,而多个参考文本之间可能存在内容和语句上的冗余。因此,多个参考文本可能包含更多语义无关的内容和冗余重复的语句。
具体地,抽取目标证据语句时,可以根据各语句包括的语义特征计算予以特征值,根据语义特征值来判断该语句是否满足证据语句条件,也即基于各目标参考文本中各语句的预设类型语义特征计算各语句的语义特征值,基于各语句的语义特征值以及预设语义特征阈值,确定目标文本对应的目标证据语句,以及从各目标参考文本嵌入表示中抽取目标证据语句的证据文本嵌入表示。
需要注意的是,为了保证目标证据语句应该是与目标文本相关的、信息丰富的、突出的和非冗余的,预设类型语义特征包括描述相关性、信息丰富性、显著性、非冗余性中的一种或者多种,其中,(1)描述相关性,用于度量每个句子与给定新闻描述的主题一致程度;(2)信息丰富性,用于度量每个句子自身内容包含的证据丰富程度;(3)显著性,用于度量每个句子相对整个文档的重要程度;(3)非冗余性,用于度量每个句子相对于已抽取的句子的新颖程度中的一种或者多种。
可选地,融合四种语义特征,抽取目标参考文本中的目标证据语句并解释最终检测结果,具体实现如下:
Figure 194824DEST_PATH_IMAGE035
其中,
Figure 625805DEST_PATH_IMAGE036
为二分类标签,表明当前目标参考文档
Figure 457495DEST_PATH_IMAGE037
中的第t个语句能否作为目标文本对应的目标证据语句(解释)
Figure 24743DEST_PATH_IMAGE038
Figure 182055DEST_PATH_IMAGE039
表示描述相关性部分的语义特征值计算,
Figure 834753DEST_PATH_IMAGE040
表示信息丰富性部分的语义特征值计算,
Figure 735713DEST_PATH_IMAGE041
表示显著性部分的语义特征值计算,
Figure 243221DEST_PATH_IMAGE042
表示非冗余性部分的语义特征值计算。
Figure 571434DEST_PATH_IMAGE043
Figure 711429DEST_PATH_IMAGE044
Figure 150500DEST_PATH_IMAGE045
Figure 692340DEST_PATH_IMAGE046
表示证据选择器模块在训练过程中不断学习优化的学习参数,通过对四个参数的调整,训练虚假文本检测模型中证据选择器模块在细粒度的证据抽取性能。
需要注意的是,在计算非冗余性部分的语义特征值时,需要将当前语句与已被分析得到的目标证据语句进行对比,确定其中内容和特征是否重复或冗余,那么
Figure 191455DEST_PATH_IMAGE047
表示零初始化的冗余向量并根据已选择的目标证据语句迭代更新,具体如下:
Figure 818745DEST_PATH_IMAGE048
进一步地,根据各语句的语义特征值,还需要将语义特征值与预设语义特征阈值进行对比,为了使用的预设语义特征阈值能够适用于多样化的场景,可以设置预设语义特征阈值基于目标参考文本的数量计算得到,这样可以根据目标参考文本的具体数量来计算合理的预设语义特征阈值,适应多场景都能准确抽取目标文本对应的目标证据语句。具体的,预设语义特征阈值可以表示为:
Figure 795928DEST_PATH_IMAGE049
基于此,可以抽取语义特征值超过预设语义特征阈值
Figure 457854DEST_PATH_IMAGE050
的语句作为目标证据语句解释文本检测结果,也即最终计算得到
Figure 127869DEST_PATH_IMAGE051
的语句作为目标证据语句,可以理解到,细粒度的目标证据语句抽取过程具有很高的透明度和可信度,有助于准确确定目标文本的真实性检测结果。需要注意的是,
Figure 976877DEST_PATH_IMAGE052
被用来表示从细粒度证据选择器模块输出的目标证据语句的证据语句表示。
S305、通过预测模块,基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。
可选地,通过上述实施例的介绍可以知道,每个参考文本
Figure 23330DEST_PATH_IMAGE013
最终也对应二分类标签
Figure 539762DEST_PATH_IMAGE053
,表示参考文本
Figure 177417DEST_PATH_IMAGE013
是否包含可用于解释的证据语句;每个句子也对应二分类标签
Figure 513720DEST_PATH_IMAGE054
,表示语句
Figure 98285DEST_PATH_IMAGE055
是否可以被抽取为证据语句对目标文本
Figure 469224DEST_PATH_IMAGE056
的真实性检测结果进行解释。基于此,在对目标文本
Figure 481042DEST_PATH_IMAGE056
进行真实性检测时,目标文本
Figure 570221DEST_PATH_IMAGE056
最终对应一个真实性(Veracity)标签
Figure 692898DEST_PATH_IMAGE057
,其中标签的具体类型可以自行设置,本申请实施例不作限定。
可选地,为了提高最终预测的准确性,基于残差网络的思想,通过虚假文本检测模型中的预测模块,将目标文本嵌入表示、抽取的证据文本嵌入表示和所有参考文本嵌入表示共同作为预测模块的输入,得到准确的真实性检测结果。具体地,首先,需要分别对所有证据文本嵌入表示和所有参考文本嵌入表示进行最大池化Max聚合获取对应的文档级特征表示,所有参考文本嵌入表示融合的参考文本集的整体表示
Figure 183922DEST_PATH_IMAGE058
如下所示:
Figure 366642DEST_PATH_IMAGE059
所有证据文本嵌入表示融合的最终证据表示
Figure 677537DEST_PATH_IMAGE060
如下所示:
Figure 603905DEST_PATH_IMAGE061
基于上述表示,将目标文本嵌入表示
Figure 949436DEST_PATH_IMAGE062
、参考文本集的整体表示
Figure 37477DEST_PATH_IMAGE063
和最终证据表示
Figure 835669DEST_PATH_IMAGE060
串联起来,最后获得融合后的目标文本的用于真实性检测的最终表示
Figure 565728DEST_PATH_IMAGE064
,如下所示:
Figure 765765DEST_PATH_IMAGE065
其中,
Figure 290287DEST_PATH_IMAGE066
表示控制选取目标参考文本的最大数目超参数。最后,基于目标文本的最终表示
Figure 575775DEST_PATH_IMAGE064
,通过预测模块中的一个线性层或多个线性层的组成,例如多层感知机(MLP),预测新闻描述的真实性标签,具体如下:
Figure 109524DEST_PATH_IMAGE067
那么可以理解的,虚假文本检测模型中基于多任务学习训练,包含了可靠的报道筛选、可解释的证据抽取和描述的真实性判断功能。正式地,模型会输出
Figure 164068DEST_PATH_IMAGE068
,其中
Figure 859492DEST_PATH_IMAGE069
表示预测结果的解释,即所有的预测为真的句子构成的证据。这样可以通过搜索、排序和相似度计算等方式收集相关报道并构建真实数据集,不限于事实核查报道,有利于虚假文本早期检测的发展,使这项任务更有现实意义,极大缓解对事实核查报道的依赖,有利于更早地发现和遏制假新闻,维护社交媒体的公信力。
可选地,在使用虚假文本检测模型之前,虚假文本检测模型需要首先经过训练,以使得各任务模块的参数都能够使得模块具有较好的性能,而训练神经网络模型时,损失函数常被用来度量网络输出的预测数据与实际期待数据之间的差距程度,神经网络模型可以基于损失函数对应的损失值调整网络参数,在减小损失值的过程中实现对预期方向的拟合。因此,虚假文本检测模型基于至少一个样本目标文本、各样本目标文本对应的样本参考文本集以及多任务损失函数训练得到。
具体的,通过上述实施例可以知道,虚假文本检测模型的输出结果的准确性,与确定目标参考文本以及抽取证据语句的准确性是高度正相关的,因此虚假文本检测模型的多任务损失函数需要考虑到选择目标参考文本的损失、抽取证据语句的损失以及最终预测结果的损失,也即多任务损失函数需要基于证据选择器模块的目标参考文本选择损失、证据语句选择损失以及预测模块的预测损失得到。其中,目标参考文本选择损失为证据选择器模块针对样本目标文本抽取的样本目标参考文本与样本目标文本的标准目标参考文本之间的损失;证据语句选择损失为证据选择器模块针对样本目标文本抽取的样本证据语句与样本目标文本的标准证据语句之间的损失;预测损失为预测模块针对样本目标文本得到的样本真实性检测结果与样本目标文本的标准真实性检测结果之间的损失,目标参考文本选择损失、证据语句选择损失以及预测损失具体表示如下:
Figure 632276DEST_PATH_IMAGE070
Figure 704137DEST_PATH_IMAGE071
Figure 613187DEST_PATH_IMAGE072
其中,
Figure 541829DEST_PATH_IMAGE073
表示样本目标参考文本筛选的交叉熵损失、
Figure 536330DEST_PATH_IMAGE074
表示样本目标证据语句抽取的交叉熵损失、
Figure 411882DEST_PATH_IMAGE073
表示样本目标文本真实性检测结果的交叉熵损失,
Figure 175438DEST_PATH_IMAGE075
表示样本目标参考文本的标准标签,
Figure 478244DEST_PATH_IMAGE076
表示样本目标参考文本的预测标签;
Figure 960041DEST_PATH_IMAGE077
表示样本目标证据语句的标准标签,
Figure 373704DEST_PATH_IMAGE078
表示样本目标证据语句的预测标签;
Figure 257347DEST_PATH_IMAGE079
表示样本目标文本的标准标签,
Figure 731053DEST_PATH_IMAGE080
表示样本目标文本的预测标签。
可选地,鉴于目标参考文本筛选、目标证据语句抽取和目标文本真实性预测之间内在的相关性以及可解释虚假文本检测流程的紧密关联,单独训练文本编码器模块的编码任务、证据选择器模块的证据选择任务以及预测模块的预测人物是十分不利和低效的。因此,可以将在端到端的虚假文本检测模型中同时优化这三个子任务,且三个子任务分别对应有不同权重,以平衡模型中的训练过程。因此在本申请实施例中,多任务损失函数基于证据选择器模块的目标参考文本选择损失、证据语句选择损失以及预测模块的预测损失得到,并且多任务损失函数为第一乘积、第二乘积以及第三乘积之和,其中,第一乘积为预设文本选择权重与目标参考文本选择损失的乘积,二乘积为预设选择权重与证据语句选择损失的乘积,第三乘积为预设预测权重与预测损失的乘积。联合优化损失函数如下:
Figure 700146DEST_PATH_IMAGE081
其中,
Figure 917501DEST_PATH_IMAGE082
表示权衡参数,控制各子任务的权重。考虑到在多任务联合训练过程中,不同任务之间的平衡应该根据训练过程动态调整任务权重才能达到最优效果。为了能够选择合适的任务权重参数,提出一种新颖的多任务自适应加权策略(MAW)。具体地,我们定义权重参数的函数为:
Figure 655650DEST_PATH_IMAGE083
Figure 34679DEST_PATH_IMAGE084
Figure 756647DEST_PATH_IMAGE085
可以理解的,其中,
Figure 246534DEST_PATH_IMAGE086
Figure 104769DEST_PATH_IMAGE087
Figure 654699DEST_PATH_IMAGE088
表示任务的损失率,其中t表示迭代步数,
Figure 598384DEST_PATH_IMAGE089
表示全局递增的经验函数,有助于达到任务之间的平衡,T表示初始温度参数,用于控制任务权重的弹性并通常设置为8。
Figure 157542DEST_PATH_IMAGE090
表示当前同步训练的任务的数目。需要注意的是,在训练的前两次迭代中,初始化
Figure 870283DEST_PATH_IMAGE091
,并通过上述式子迭代更新。与网格搜索参数的方式不同,权重参数可以通过多任务自适应策略的上述式子自动选择合适的任务权重,这样可以使得虚假文本检测模型自适应高效地获取任务权重
Figure 856693DEST_PATH_IMAGE092
Figure 818833DEST_PATH_IMAGE093
Figure 916102DEST_PATH_IMAGE094
,来自适应优化损失函数。通过小批量梯度下降法进行优化,当模型收敛或满足最大迭代次数时,训练过程结束,得到能够用于实际应用的虚假文本检测模型。
在本申请实施例中,提供一种可解释的虚假文本检测方法,获取目标文本嵌入表示和参考文本嵌入表示时,可以从细粒度到粗粒度基于词序列表示,得到语句表示,进而通过层次编码得到文本表示;抽取目标证据语句时,可以从粗粒度到细粒度,首先确定包含证据语句的目标参考文本,减小抽取证据语句的范围,再目标参考文本中抽取目标参考文本的证据文本嵌入表示;最后基于虚假文本检测模型将目标文本嵌入表示、最终参考文本集表示和最终证据表示串联起来,最后融合后得到目标文本的最终表示,基于最终表示对目标文本进行真实性检测,还提供了虚假文本检测模型的多任务同步训练方法,其中各子任务的损失函数可以通过自适应权重参数的计算方法得到,使得对目标文本的真实性检测结果具有可解释性,并且直接依靠原始参考文本进行真实性检测减少了对目标文本的检测时延。
请参阅图4,图4为本申请实施例提供的一种可解释的虚假文本检测装置的结构框图。如图4所示,应用于虚假文本检测模型,虚假文本检测装置400包括:
文本编码器模块410,用于生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;
证据选择器模块420,用于基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示;
预测模块430,用于基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。
可选地,证据选择器模块420,还用于基于各参考文本嵌入表示确定各参考文本中的目标参考文本的目标参考文本嵌入表示,目标参考文本为包含目标证据语句的参考文本;基于各目标参考文本嵌入表示确定各目标参考文本中目标文本对应的目标证据语句,以及抽取目标证据语句的证据文本嵌入表示。
可选地,证据选择器模块420,还用于基于各参考文本嵌入表示计算各参考文本的可靠性排序;根据各参考文本的可靠性排序确定各参考文本中的至少一个目标参考文本,以及从各参考文本嵌入表示中抽取各目标参考文本的目标参考文本嵌入表示。
可选地,证据选择器模块420,还用于基于各目标参考文本中各语句的预设类型语义特征计算各语句的语义特征值;基于各语句的语义特征值以及预设语义特征阈值,确定目标文本对应的目标证据语句,以及从各目标参考文本嵌入表示中抽取目标证据语句的证据文本嵌入表示。
可选地,预设类型语义特征包括描述相关性、信息丰富性、显著性、非冗余性中的一种或者多种,以及预设语义特征阈值基于目标参考文本的数量计算得到。
可选地,文本编码器模块410,还用于获取目标文本的目标词序列,以及获取目标文本对应的参考文本集中各参考文本的各参考词序列;根据目标词序列生成目标文本的目标文本嵌入表示,以及根据各参考词序列生成各参考文本的参考文本嵌入表示。
可选地,虚假文本检测模型基于至少一个样本目标文本、各样本目标文本对应的样本参考文本集以及多任务损失函数训练得到,多任务损失函数基于证据选择器模块的目标参考文本选择损失、证据语句选择损失以及预测模块的预测损失得到。
可选地,目标参考文本选择损失为证据选择器模块针对样本目标文本抽取的样本目标参考文本与样本目标文本的标准目标参考文本之间的损失;证据语句选择损失为证据选择器模块针对样本目标文本抽取的样本证据语句与样本目标文本的标准证据语句之间的损失;预测损失为预测模块针对样本目标文本得到的样本真实性检测结果与样本目标文本的标准真实性检测结果之间的损失。
可选地,多任务损失函数为第一乘积、第二乘积以及第三乘积之和,其中,第一乘积为预设文本选择权重与目标参考文本选择损失的乘积,二乘积为预设选择权重与证据语句选择损失的乘积,第三乘积为预设预测权重与预测损失的乘积。
在本申请实施例中,提供一种可解释的虚假文本检测装置,其中,文本编码器模块,用于生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;证据选择器模块,用于基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示;预测模块,用于基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。由于与目标文本相关的参考文本为未处理原始文本,本申请基于原始的参考文本对目标文本进行真实性检测,减少检测时对人工事实核查报告的依赖,且从参考文本中确定出目标文本的真实性检测结果及其判断的证据文本。使得文本检测过程中减少对目标文本的检测时延,并且真实性检测结果具有可解释性。
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
请参见图5,图5为本申请实施例提供的一种终端的结构示意图。如图5所示,终端500可以包括:至少一个终端处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。
其中,通信总线502用于实现这些组件之间的连接通信。
其中,用户接口503可以包括显示屏(Display)、摄像头(Camera),可选用户接口503还可以包括标准的有线接口、无线接口。
其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,终端处理器501可以包括一个或者多个处理核心。终端处理器501利用各种接口和线路连接整个终端500内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行终端500的各种功能和处理数据。可选的,终端处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。终端处理器501可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到终端处理器501中,单独通过一块芯片进行实现。
其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述终端处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及可解释的虚假文本检测程序。
在图5所示的终端500中,用户接口503主要用于为用户提供输入的接口,获取用户输入的数据;而终端处理器501可以用于调用存储器505中存储的可解释的虚假文本检测程序,应用于虚假文本检测模型,虚假文本检测模型至少包括文本编码器模块、证据选择器模块以及预测模块,并具体执行以下操作:
通过文本编码器模块,生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,参考文本为与目标文本具有相关性的未处理原始文本;
通过证据选择器模块,基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示;
通过预测模块,基于目标文本嵌入表示、参考文本嵌入表示、以及证据文本嵌入表示确定目标文本的真实性检测结果,并基于目标证据语句解释真实性检测结果。
在一些实施例中,终端处理器501在执行基于各参考文本嵌入表示确定目标文本对应的目标证据语句,以及目标证据语句的证据文本嵌入表示时,具体执行以下步骤:基于各参考文本嵌入表示确定各参考文本中的目标参考文本的目标参考文本嵌入表示,目标参考文本为包含目标证据语句的参考文本;基于各目标参考文本嵌入表示确定各目标参考文本中目标文本对应的目标证据语句,以及抽取目标证据语句的证据文本嵌入表示。
在一些实施例中,终端处理器501在执行基于各参考文本嵌入表示确定各参考文本中的目标参考文本的目标参考文本嵌入表示时,具体执行以下步骤:基于各参考文本嵌入表示计算各参考文本的可靠性排序;根据各参考文本的可靠性排序确定各参考文本中的至少一个目标参考文本,以及从各参考文本嵌入表示中抽取各目标参考文本的目标参考文本嵌入表示。
在一些实施例中,终端处理器501在执行基于各目标参考文本嵌入表示确定各目标参考文本中目标文本对应的目标证据语句,以及抽取目标证据语句的证据文本嵌入表示时,具体执行以下步骤:基于各目标参考文本中各语句的预设类型语义特征计算各语句的语义特征值;基于各语句的语义特征值以及预设语义特征阈值,确定目标文本对应的目标证据语句,以及从各目标参考文本嵌入表示中抽取目标证据语句的证据文本嵌入表示。
在一些实施例中,预设类型语义特征包括描述相关性、信息丰富性、显著性、非冗余性中的一种或者多种,以及预设语义特征阈值基于目标参考文本的数量计算得到。
在一些实施例中,终端处理器501在执行生成目标文本的目标文本嵌入表示,以及生成目标文本对应的参考文本集中各参考文本的参考文本嵌入表示时,具体执行以下步骤:获取目标文本的目标词序列,以及获取目标文本对应的参考文本集中各参考文本的各参考词序列;根据目标词序列生成目标文本的目标文本嵌入表示,以及根据各参考词序列生成各参考文本的参考文本嵌入表示。
在一些实施例中,虚假文本检测模型基于至少一个样本目标文本、各样本目标文本对应的样本参考文本集以及多任务损失函数训练得到,多任务损失函数基于证据选择器模块的目标参考文本选择损失、证据语句选择损失以及预测模块的预测损失得到。
在一些实施例中,目标参考文本选择损失为证据选择器模块针对样本目标文本抽取的样本目标参考文本与样本目标文本的标准目标参考文本之间的损失;证据语句选择损失为证据选择器模块针对样本目标文本抽取的样本证据语句与样本目标文本的标准证据语句之间的损失;预测损失为预测模块针对样本目标文本得到的样本真实性检测结果与样本目标文本的标准真实性检测结果之间的损失。
在一些实施例中,多任务损失函数为第一乘积、第二乘积以及第三乘积之和,其中,第一乘积为预设文本选择权重与目标参考文本选择损失的乘积,二乘积为预设选择权重与证据语句选择损失的乘积,第三乘积为预设预测权重与预测损失的乘积。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的一种可解释的虚假文本检测方法、装置、存储介质以及终端的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种可解释的虚假文本检测方法,其特征在于,所述方法应用于虚假文本检测模型,所述虚假文本检测模型至少包括文本编码器模块、证据选择器模块以及预测模块,所述方法包括:
通过所述文本编码器模块,生成目标文本的目标文本嵌入表示,以及生成所述目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,所述参考文本为与所述目标文本具有相关性的未经过人工事实核查处理的原始文本,所述人工事实核查处理包括但不限于核对、筛选和剔除不可靠文本和语句;
通过所述证据选择器模块,基于各参考文本嵌入表示确定所述目标文本对应的目标证据语句,以及所述目标证据语句的证据文本嵌入表示;
通过所述预测模块,基于所述目标文本嵌入表示、所述参考文本嵌入表示、以及所述证据文本嵌入表示确定目标文本的真实性检测结果,并基于所述目标证据语句解释所述真实性检测结果;
所述基于各参考文本嵌入表示确定所述目标文本对应的目标证据语句,以及所述目标证据语句的证据文本嵌入表示,包括:将所述目标文本c作为查询向量,基于各参考文本嵌入表示计算各参考文本的可靠性排序,如下:
Figure 713285DEST_PATH_IMAGE001
其中,所述可靠性用于描述各参考文本中包含的证据语句的可靠程度,
Figure 674288DEST_PATH_IMAGE002
表示所有参考文本的完整隐状态表示,
Figure 948537DEST_PATH_IMAGE003
为所述目标文本c对应的 目标文本嵌入表示,
Figure 754819DEST_PATH_IMAGE004
表示所述证据选择器模块在训练过程中不断学习优化的 学习参数;
获取所述可靠性排序
Figure 929448DEST_PATH_IMAGE005
中的前K个参考文本作为目标参考文本,以及从各参考文本 嵌入表示中抽取各目标参考文本的目标参考文本嵌入表示,所述目标参考文本为包含目标 证据语句的参考文本;
基于各目标参考文本嵌入表示确定各目标参考文本中所述目标文本对应的目标证据语句,以及抽取所述目标证据语句的证据文本嵌入表示;
所述基于各目标参考文本嵌入表示确定各目标参考文本中所述目标文本对应的目标证据语句,以及抽取所述目标证据语句的证据文本嵌入表示,包括:基于各目标参考文本中各语句的预设类型语义特征计算各语句的语义特征值;基于各语句的语义特征值以及预设语义特征阈值,确定所述目标文本对应的目标证据语句,以及从各目标参考文本嵌入表示中抽取所述目标证据语句的证据文本嵌入表示,所述预设类型语义特征包括描述相关性、信息丰富性、显著性、非冗余性中的一种或者多种,以及所述预设语义特征阈值基于所述目标参考文本的数量计算得到,其中,所述描述相关性,用于度量所有目标参考文本中每个语句与所述目标文本的主题一致程度;所述信息丰富性,用于度量所有目标参考文本中每个语句自身内容包含的证据丰富程度;所述显著性,用于度量所有目标参考文本中每个语句对于所在的目标参考文本的重要程度;所述非冗余性,用于度量所有目标参考文本中每个语句相对于已抽取的目标证据语句的新颖程度;
所述语义特征值的计算公式,具体实现如下:
Figure 795773DEST_PATH_IMAGE006
其中,
Figure 55853DEST_PATH_IMAGE007
为二分类标签,表明当前目标参考文档
Figure 665826DEST_PATH_IMAGE008
中的第t个语句能否作为目标 文本对应的目标证据语句
Figure 694962DEST_PATH_IMAGE009
Figure 732188DEST_PATH_IMAGE010
表示描述相关性部分的语义特征值计算,
Figure 246608DEST_PATH_IMAGE011
表示信息丰富性部分的语义特征值计算,
Figure 660272DEST_PATH_IMAGE012
表示显著性部分的语 义特征值计算,
Figure 278335DEST_PATH_IMAGE013
表示非冗余性部分的语义特征值计算,
Figure 752042DEST_PATH_IMAGE014
Figure 721135DEST_PATH_IMAGE015
Figure 672910DEST_PATH_IMAGE016
Figure 676639DEST_PATH_IMAGE017
表 示证据选择器模块在训练过程中不断学习优化的学习参数;
计算所述非冗余性的语义特征值时,需要将当前语句与已得到的目标证据语句进行对 比,确定其中内容和特征是否存在重复冗余,那么
Figure 55667DEST_PATH_IMAGE018
表示零初始化的冗余向量并根据已选 择的目标证据语句迭代更新,具体如下:
Figure 13521DEST_PATH_IMAGE019
2.根据权利要求1所述的方法,其特征在于,所述生成目标文本的目标文本嵌入表示,以及生成所述目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,包括:
获取目标文本的目标词序列,以及获取所述目标文本对应的参考文本集中各参考文本的各参考词序列;
根据所述目标词序列生成所述目标文本的目标文本嵌入表示,以及根据各参考词序列生成各参考文本的参考文本嵌入表示。
3.根据权利要求1所述的方法,其特征在于,所述虚假文本检测模型基于至少一个样本目标文本、各样本目标文本对应的样本参考文本集以及多任务损失函数训练得到,所述多任务损失函数基于所述证据选择器模块的目标参考文本选择损失、证据语句选择损失以及所述预测模块的预测损失得到。
4.根据权利要求3所述的方法,其特征在于,所述目标参考文本选择损失为所述证据选择器模块针对所述样本目标文本抽取的样本目标参考文本与所述样本目标文本的标准目标参考文本之间的损失;所述证据语句选择损失为所述证据选择器模块针对所述样本目标文本抽取的样本证据语句与所述样本目标文本的标准证据语句之间的损失;所述预测损失为所述预测模块针对所述样本目标文本得到的样本真实性检测结果与所述样本目标文本的标准真实性检测结果之间的损失。
5.根据权利要求3所述的方法,其特征在于,所述多任务损失函数为第一乘积、第二乘积以及第三乘积之和,其中,所述第一乘积为预设文本选择权重与所述目标参考文本选择损失的乘积,所述第二乘积为预设语句选择权重与所述证据语句选择损失的乘积,所述第三乘积为预设预测权重与所述预测损失的乘积。
6.一种可解释的虚假文本检测装置,其特征在于,应用于虚假文本检测模型,所述装置包括:
文本编码器模块,用于生成目标文本的目标文本嵌入表示,以及生成所述目标文本对应的参考文本集中各参考文本的参考文本嵌入表示,所述参考文本为与所述目标文本具有相关性的未经过人工事实核查处理的原始文本,所述人工事实核查处理包括但不限于核对、筛选和剔除不可靠文本和语句;
证据选择器模块,用于基于各参考文本嵌入表示确定所述目标文本对应的目标证据语句,以及所述目标证据语句的证据文本嵌入表示;
预测模块,用于基于所述目标文本嵌入表示、所述参考文本嵌入表示、以及所述证据文本嵌入表示确定目标文本的真实性检测结果,并基于所述目标证据语句解释所述真实性检测结果;
所述证据选择器模块,还用于将所述目标文本c作为查询向量,基于各参考文本嵌入表示计算各参考文本的可靠性排序,如下:
Figure 768988DEST_PATH_IMAGE020
其中,所述可靠性用于描述各参考文本中包含的证据语句的可靠程度,
Figure 627222DEST_PATH_IMAGE021
表示所有参考文本的完整隐状态表示,
Figure 708311DEST_PATH_IMAGE003
为所述目标文本c对应的目 标文本嵌入表示,
Figure 651996DEST_PATH_IMAGE004
表示所述证据选择器模块在训练过程中不断学习优化的学 习参数;
获取所述可靠性排序
Figure 945574DEST_PATH_IMAGE005
中的前K个参考文本作为目标参考文本,以及从各参考文本 嵌入表示中抽取各目标参考文本的目标参考文本嵌入表示,所述目标参考文本为包含目标 证据语句的参考文本;
基于各目标参考文本嵌入表示确定各目标参考文本中所述目标文本对应的目标证据语句,以及抽取所述目标证据语句的证据文本嵌入表示;
所述证据选择器模块,还用于基于各目标参考文本中各语句的预设类型语义特征计算各语句的语义特征值;基于各语句的语义特征值以及预设语义特征阈值,确定所述目标文本对应的目标证据语句,以及从各目标参考文本嵌入表示中抽取所述目标证据语句的证据文本嵌入表示,所述预设类型语义特征包括描述相关性、信息丰富性、显著性、非冗余性中的一种或者多种,以及所述预设语义特征阈值基于所述目标参考文本的数量计算得到,其中,所述描述相关性,用于度量所有目标参考文本中每个语句与所述目标文本的主题一致程度;所述信息丰富性,用于度量所有目标参考文本中每个语句自身内容包含的证据丰富程度;所述显著性,用于度量所有目标参考文本中每个语句对于所在的目标参考文本的重要程度;所述非冗余性,用于度量所有目标参考文本中每个语句相对于已抽取的目标证据语句的新颖程度;
所述语义特征值的计算公式,具体实现如下:
Figure 658315DEST_PATH_IMAGE022
其中,
Figure 644726DEST_PATH_IMAGE023
为二分类标签,表明当前目标参考文档
Figure 588891DEST_PATH_IMAGE024
中的第t个语句能否作为目标 文本对应的目标证据语句
Figure 951739DEST_PATH_IMAGE025
Figure 253407DEST_PATH_IMAGE026
表示描述相关性部分的语义特征值计算,
Figure 410719DEST_PATH_IMAGE027
表示信息丰富性部分的语义特征值计算,
Figure 391313DEST_PATH_IMAGE028
表示显著性部分的语义特征值计算,
Figure 26694DEST_PATH_IMAGE029
表示非冗余性部分的语义特征值计算,
Figure 949913DEST_PATH_IMAGE030
Figure 278126DEST_PATH_IMAGE015
Figure 418120DEST_PATH_IMAGE016
Figure 122771DEST_PATH_IMAGE017
表示证据选择器模块在 训练过程中不断学习优化的学习参数;
计算所述非冗余性的语义特征值时,需要将当前语句与已得到的目标证据语句进行对 比,确定其中内容和特征是否存在重复冗余,那么
Figure 664611DEST_PATH_IMAGE018
表示零初始化的冗余向量并根据已选 择的目标证据语句迭代更新,具体如下:
Figure 163725DEST_PATH_IMAGE031
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项的所述方法的步骤。
8.一种终端,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~5任一项所述方法的步骤。
CN202211186100.9A 2022-09-28 2022-09-28 可解释的虚假文本检测方法、装置、存储介质以及终端 Active CN115269786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211186100.9A CN115269786B (zh) 2022-09-28 2022-09-28 可解释的虚假文本检测方法、装置、存储介质以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211186100.9A CN115269786B (zh) 2022-09-28 2022-09-28 可解释的虚假文本检测方法、装置、存储介质以及终端

Publications (2)

Publication Number Publication Date
CN115269786A CN115269786A (zh) 2022-11-01
CN115269786B true CN115269786B (zh) 2023-01-06

Family

ID=83757498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211186100.9A Active CN115269786B (zh) 2022-09-28 2022-09-28 可解释的虚假文本检测方法、装置、存储介质以及终端

Country Status (1)

Country Link
CN (1) CN115269786B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738962B (zh) * 2023-02-10 2024-04-26 北京邮电大学 一种面向社交媒体的事实核查方法及系统
CN116542252B (zh) * 2023-07-07 2023-09-29 北京营加品牌管理有限公司 一种金融文本核查方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581979B (zh) * 2020-05-06 2022-08-16 西安交通大学 基于证据感知分层交互注意网络的假新闻检测系统及方法
CN112256861B (zh) * 2020-09-07 2023-09-26 中国科学院信息工程研究所 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN112966069B (zh) * 2021-01-13 2023-05-19 西安交通大学 一种基于普遍认知与个体认知的虚假新闻检测系统及方法
CN115203406A (zh) * 2022-06-23 2022-10-18 浙江大学 一种基于RoBERTa模型的长文本信息立场检测方法

Also Published As

Publication number Publication date
CN115269786A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN115269786B (zh) 可解释的虚假文本检测方法、装置、存储介质以及终端
WO2022095682A1 (zh) 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品
JP2018041443A (ja) ディープラーニング人工神経網基盤のタスク提供プラットフォーム
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN111680159A (zh) 数据处理方法、装置及电子设备
CN111444326A (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN116720004A (zh) 推荐理由生成方法、装置、设备及存储介质
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN117807482B (zh) 海关报关单的分类方法、装置、设备及存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
KR102614912B1 (ko) 딥러닝 기반 특허 잠재가치 평가 장치 및 그 방법
CN116547681A (zh) 用于持续演进内容的动态语言模型
US20220147547A1 (en) Analogy based recognition
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
Masood et al. Text analytics: The dark data frontier
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质
Wu et al. Using deep learning technology for healthcare applications in internet of things sensor monitoring system
CN117236347B (zh) 交互文本翻译的方法、交互文本的显示方法和相关装置
CN116827894B (zh) 广播剧用户评论信息发送方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant