CN114048286A - 一种融合图转换器和共同注意力网络的自动事实验证方法 - Google Patents

一种融合图转换器和共同注意力网络的自动事实验证方法 Download PDF

Info

Publication number
CN114048286A
CN114048286A CN202111268939.2A CN202111268939A CN114048286A CN 114048286 A CN114048286 A CN 114048286A CN 202111268939 A CN202111268939 A CN 202111268939A CN 114048286 A CN114048286 A CN 114048286A
Authority
CN
China
Prior art keywords
evidence
declaration
graph
statement
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111268939.2A
Other languages
English (en)
Other versions
CN114048286B (zh
Inventor
陈晨
袁婧
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202111268939.2A priority Critical patent/CN114048286B/zh
Publication of CN114048286A publication Critical patent/CN114048286A/zh
Application granted granted Critical
Publication of CN114048286B publication Critical patent/CN114048286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种融合图转换器和共同注意力网络的自动事实验证方法,属于人工智能技术领域。利用声明和检索到的证据作为输入数据,构建基于深度学习的自动事实验证方法。本方法首先通过实体链接的方法识别声明中的实体,并根据抽取的实体在维基百科中检索相关的文档。其次,使用排序模型在检索到的文档中选取与声明最相关的五个句子作为证据。再者,构建(证据,声明)对,将(证据,声明)对输入微调后的预训练语言模型中进行编码。最后,通过构建基于图转换器和共同注意力网络的事实验证模型,学习声明和证据以及证据和证据之间的潜在关系,完成事实验证。实验结果表明,本方法优于目前已有的自动事实验证方法,同时此方法具备可解释性。

Description

一种融合图转换器和共同注意力网络的自动事实验证方法
技术领域
本发明属于人工智能技术领域,具体涉及互联网的声明,对网络中出现的声明,提出了一种融合图转换器和共同注意力网络的自动事实验证方法。
背景技术
互联网的快速发展,将我们置身于一个信息爆炸的时代。网络中的每个人都能以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,使得互联网上存在一定数量的虚假信息。这就需要对互联网的信息有一个判断,但是人工检验不仅费时费力,而且成本很高。那么能否设计一种自动的事实验证系统进行辅助呢?所谓事实验证就是指给定一个声明(Claim),要求系统从大规模文本语料库中抽取相关句子作为证据(Evidence),并利用这些证据验证声明的正确性。系统需要给出证据对声明的三类判断,支持 (SUPPORTED)、反对(REFUTED)或信息不足(NOTENOUGHINFO)。
现有的事实验证方法通常使用包含检索文档、抽取证据和声明验证的三阶段模型。首先根据给定的声明在形如维基百科的语料库中检索文档,其次在检索到的文档中抽取相关的句子作为证据,最后根据抽取的证据对声明做出判断。
现有的方法都使用了较为简单的方式处理多条证据,将证据仅进行物理拼接或者只考虑单独的(证据,声明)对,而没有考虑证据间的关系。
举例来说,只有同时结合证据(1)“谋杀是指在没有正当理由的情况下非法杀害另一个人,特别是有预谋的非法杀害另一个人”和证据(2)“1931年3月,23岁的巴加特·辛格被判有罪并处以绞刑”我们才可以对声明“巴加特·辛格是被谋杀的”做出反对(REFUTED)的判断。而现有的模型大多将证据(1)和证据(2)视为两个独立的句子,未能考虑两者之间的联系,即证据(1)是对证据(2)中“谋杀”一词的解释,从而无法做出正确的推理。
发明内容
本发明的目的是解决现有的自动事实验证方法未考虑到证据间的相关性的问题,创新性地提出了一种融合图转换器和共同注意力网络的自动事实验证方法。
本发明提出的自动事实验证方法包含检索文档、抽取证据和验证声明三个阶段。本发明主要关注自动事实验证的第三阶段:声明验证。为了解决上述问题,在声明验证中引入了图神经网络。图神经网络是一种基于连接主义的模型,它通过图的节点之间的信息传递来捕捉图的依赖关系,通过图上的信息传递和聚合来学习更好的节点表示。因此,本发明方法通过引入图转换器来学习证据间的潜在关系并更新证据的表示。除此之外,本方法还引入了共同注意力机制来对声明和证据之间的关系进行推理。共同注意力机制是一种双向的注意力,通过共同注意力机制,声明和证据可以相互学习两者之间的潜在关系,且使得推理过程具有解释性。
综上所述,融合图转换器和共同注意力网络进行自动事实验证是一个创新的研究思路,具有重要的研究意义和研究价值。
本发明的技术方案
融合图转换器和共同注意力网络的自动事实验证方法,该方法的具体步骤如下:
第1、获取事实验证数据集;
收集社交媒体中的声明ci以及可以支持或者反对声明ci的证据集合E={ei,1,...ei,j,…ei,n} 和标签yi作为样本,构造事实检测数据集。
第2、根据声明检索相关的文档;
给定一个涉及一个或多个可解析到维基百科页面实体的待验证声明,通过实体链接的方法识别声明中潜在的实体,使用识别到的实体作为查询条件在维基百科中搜索相关文档。如声明中提及实体“Trevor Griffiths”,本发明将其作为查询条件通过在线的维基百科API 检索相关的文档。
定义1:实体链接,定义如下:
将声明ci中所提及的实体链接到知识库(如维基百科)中相应实体的过程。
第3、使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子作为证据;
抽取文档中的句子,使用BERT Base对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据。排序模型使用pairwise loss来进行优化。
定义2:pairwise,定义如下:
考虑两两样本间的偏序关系,典型的代表有RankSVM、LambdaMart。
第4、使用微调的BERT系列预训练语言模型进行编码;
在FEVER数据集上微调BERT系列预训练语言模型,使得预训练语言模型可以很好的适用于FEVER任务,使用第3步抽取到的句子作为证据,构建(证据,声明)对,使用以下微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系:
ei,j=PLM(ei,j,ci)
其中PLM表示微调后的BERT系列预训练语言模型,本发明用到的包括BERTBase、BERTLarge、RoBERTaBase和RoBERTaLarge,ci为第i个声明,ei,j为声明ci的第j个证据,(ei,j,ci)表示将ei,j和ci进行物理拼接。
定义3:微调,定义如下:
微调是指在已经训练好的语言模型的基础上,加入少量的特定任务的参数,例如对于分类问题在语言模型的基础上加一层softmax网络,然后在新的语料上重新训练来进行微调,从而很好的适用于新任务。
定义4:预训练语言模型,定义如下:
对于大多数的自然语言处理任务,构建一个大规模的有标签的数据集是一个很大的挑战。相反,大规模的无标签语料是相对容易构建的,为了充分利用这些无标签数据,我们可以先利用它们获取一个好的语言表示,再将这些表示用于其他任务。预训练的好处如下:
(1)预训练可以从大规模语料中学习得到通用的语言表示,并用于下游任务。
(2)预训练提供了更优的模型初始化方法,有助于提高模型的泛化能力和加速模型收敛。
(3)预训练可以当作是在小数据集上一种避免过拟合的正则化方法。
第5、构建事实验证模型;
本发明所提出的事实验证模型为融合图转换器和共同注意力网络的深度模型,该模型将事实验证视为自然语言推理任务。首先通过构建图转换器来学习证据间的潜在关系并更新证据的表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理。
定义5:自然语言推理,定义如下:
自然语言推理主要是判断两个句子(Premise,Hypothesis)或者两个词之间的语义关系,为了保证模型能够集中在语义理解上,该任务最终退化为一个分类任务,目前类别主要是三分类(Entailment,Contradiction,Neutral),对应于事实验证任务即为(Sopported、Refuted、 Not Enough Info)。
第5.1、使用图转换器来学习证据间的隐含关系;
首先将(证据,声明)对和声明作为顶点vi,构建全连接的、无向的、无权重的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图G输入图转换器中学习证据间的隐含关系,获取顶点的表示:
定义6:证据图G,定义如下:
证据图G的顶点由声明和证据构成,其为无向的、无权重的、并且顶点自环的全连接图。
图转换器是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似;通过计算节点与相邻节点的相似性,得到加权权重
Figure BDA0003327461770000041
对相邻节点特征的加权求和得到GraphAttention的输出结果;图转换器同样的利用了多头注意力机制,将所有的 Attention结果的输出串联后做映射,并与输入相加得到Attention模块输出
Figure BDA0003327461770000042
Figure BDA0003327461770000043
其中N表示N个头的注意力,本发明中N的取值为4,⊕表示将N个注意力头生成的特征进行串联,
Figure BDA0003327461770000044
表示节点i的相邻节点集合,
Figure BDA0003327461770000045
为权重矩阵,
Figure BDA0003327461770000046
表示第n个头关于节点vi和vj的注意力,
Figure BDA0003327461770000047
由以下公式给出:
Figure BDA0003327461770000048
an表示第n个头的注意力,为了使梯度稳定,进行了归一化即除以
Figure BDA0003327461770000049
对于任意两个向量qi和kj,a由以下公式给出:
Figure BDA00033274617700000410
g(vi,vj)=(WQvi)TWKvj
其中WQ∈Rd×d、WK∈Rd×d为权重矩阵。
FeedForward网络计算方式如下:
Figure BDA00033274617700000411
其中Norm为LayerNormalization即层归一化,FFN为一个双层感知机网络,
Figure BDA0003327461770000051
为节点vi经过一个模块的输出;图转换器通过堆叠L个以上公式所述的模块来得到最终编码结果
Figure BDA0003327461770000052
本发明中L的取值为6;
第5.2、对声明进行编码;
使用声明编码器对声明进行编码,本发明中依旧使用微调后的预训练语言模型对声明进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)
其中PLM为微调后的预训练语言模型,ci为第i个声明;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系;
首先从图转换器和声明编码器获取双层注意力网络第一层的输入
Figure BDA0003327461770000053
Figure BDA0003327461770000054
Figure BDA0003327461770000055
Figure BDA0003327461770000056
其中
Figure BDA0003327461770000057
表示e个证据和一个声明经过图转换器编码后的结果,
Figure BDA0003327461770000058
为声明编码器的编码结果。第一层共同注意力网络首先计算两者间的关联矩阵M1
Figure BDA0003327461770000059
Figure BDA00033274617700000510
Figure BDA00033274617700000511
注意力权重
Figure BDA00033274617700000512
Figure BDA00033274617700000513
分别为矩阵M1的列向量归一化和行向量归一化;之后,分别根据声明和证据的注意力权重矩阵计算声明和证据的内容矩阵
Figure BDA00033274617700000514
Figure BDA00033274617700000515
Figure BDA00033274617700000516
Figure BDA00033274617700000517
根据证据的内容矩阵和声明的注意力矩阵计算声明关于证据的共同注意力矩阵
Figure BDA00033274617700000518
Figure BDA00033274617700000519
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
Figure BDA00033274617700000520
为了构建两层的共同注意力网络,将第一层共同注意力网络的输出
Figure BDA00033274617700000521
Figure BDA00033274617700000522
输入双向 biLSTM中获取第二层共同注意力网络的输入
Figure BDA00033274617700000523
Figure BDA00033274617700000524
Figure BDA0003327461770000061
Figure BDA0003327461770000062
Figure BDA0003327461770000063
Figure BDA0003327461770000064
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性;
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U。
Figure BDA0003327461770000065
第6、融合图转换器和共同注意力网络,通过深度神经网络模型进行验证。
将矩阵U输入单层的线性的线性神经网络来获得最终的预测输出
Figure BDA0003327461770000066
Figure BDA0003327461770000067
其中WU为可学习的参数矩阵,b为偏置项,通过训练来最小化损失函数,损失函数如下:
Figure BDA0003327461770000068
其中y*为真实标签。
本发明的优点和积极效果:
本发明开创性地提出了一种融合图转换器和共同注意力网络的自动事实验证方法,针对现有的事实验证方法未能充分地考虑证据间的依赖关系,提出使用图数据结构来对证据间的关系进行建模,并使用图转换器来进行节点间的信息传递,从而学习到更好的节点表示,并设计共同注意力网络来对证据和声明间的关系进行推理。本发明有效地对证据间的关系进行了建模,除此之外其推理的过程具备可解释性,从而很大程度的提高了自动事实验证任务的性能。
附图说明
图1为融合图转换器和共同注意力网络的自动事实验证方法的流程图。
图2为事实验证数据集的样例示意图。
图3为自动事实验证方法的三阶段模型示意图。
图4为图转换器的示意图。
图5为证据图的示意图。
图6为共同注意力网络的示意图。
图7为事实验证数据集的样例划分示意图。
图8为自动事实验证模型的性能示意图。
图9为消融实验的结果示意图。
图10为在事实证据上的模型性能示意图。
图11为多证据和单证据推理的模型性能示意图。
图12为需要多证据推理的样例示意图。
图13为关联矩阵示意图,其中,(a)为支持样例的关联矩阵输出结果;(b)为信息不足声明的关联矩阵。
具体实施方式
本发明提出了一种融合图转换器和共同注意力网络的自动事实验证方法,方法的主要流程如图1所示。下面结合附图详细说明本发明的具体实施方式。
本发明的具体实施过程分为六个步骤,获取自动事实验证数据集;根据声明文本,抽取其中的实体作为检索条件在维基百科中检索相关的文档;使用排序模型在检索到的文档中抽取与声明最相关的五个句子作为证据;使用微调后的预训练语言模型对声明和证据进行编码;构建融合图转换器和共同注意力网络的自动事实验证模型;输入测试样例,通过深度神经网络模型对其进行推理。
第1步、样例说明
图2列举了三个典型的事实验证样例,分属SUPPORTED、REFUTED和NOTENOUGH INFO三类。每个样例均包含声明、证据和标签三个部分,其中加黑词为验证声明时的关键信息。以“SUPPORTED”样例为例,声明为“Bhagat Singh was murdered.”Bhagat Singh 是被谋杀的。证据(1)“Amurder is the unlawful killing of another human withoutjustification or valid excuse,especially the unlawful killing of anotherhuman being with malice aforethought.”给出了谋杀的定义:“谋杀是在没有正当理由的情况下非法杀害另一个人,尤其是蓄意非法杀害另一个人。”证据(2)“Bhagat Singh wasconvictedand hanged in March 1931,aged23.”描述了“1931年3月,23岁的巴加特·辛格被判有罪并处以绞刑。”综合证据(1)和证据(2)可以判定证据集合不支持声明,因此给定“REFUTED”的判断。“SUPPORTED”样例同理,只有同时结合证据(1)和证据(2)才能对声明做出“SUPPORTED”的判断。没有证据支撑或反对的声明则被标记为“NOTENOUGH INFO”。
第2步、根据声明检索相关的文档
图3的Document Retrieval阶段为根据声明中的实体检索相关文档的过程。比如“SUPPORTED”样例的声明中提及实体“AlJardine”和“Jardine”,本发明将实体“AlJardine”和“Jardine”作为查询条件通过在线的维基百科API检索相关的文档。系统返回两篇文档,分别为《AlJardine》和《Jardine》。
第3步、使用排序模型在检索到的文档中抽取与声明最相关的5个句子作为证据图3的Sentence Selection阶段为选取证据的过程:抽取第2步返回的文档中的句子,使用预训练语言模型对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据(即图中实线以上的部分)。排序前五的句子为:
(1)Alan Charles Jardine(born September 3,1942)is an Americanmusician,singer and songwriter who co-founded the Beach Boys.
(2)He is best known as the band's rhythm guitarist,and foroccasionally singing lead vocals on singles such as"Help Me,Rhonda"(1965),"Then I Kissed Her"(1965),and"Come Go with Me"(1978).
(3)In 2010,Jardine released his debut solo studio album,A Postcardfrom California.
(4)In 1988,Jardine was inducted into the Rock and Roll Hall of Fameas a member of the Beach Boys.
(5)Sir Ernest Jardine,1st Baronet(1859-1947),Scottish MP.
第4步、使用微调的预训练语言模型对声明和证据进行编码
图3的Sentence Encoding阶段为对(证据,声明)对进行编码的过程:在FEVER数据集上微调预训练语言模型,使得预训练语言模型可以很好的适用于FEVER任务,使用第3步抽取到的证据,构建(证据,声明)对,使用微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系,构建的(证据,声明)对如下:
声明ci:Al Jardine is an American rhythm guitarist.
(证据,声明)对如下:
(ei,1,ci)Alan Charles Jardine(born September 3,1942)is an Americanmusician,singer and songwriter who co-founded the Beach Boys.Al Jardine is anAmerican rhythm guitarist.
(ei,2,ci)He is best known as the band's rhythm guitarist,and foroccasionally singing lead vocals on singles such as"Help Me,Rhonda"(1965),"Then I Kissed Her"(1965),and"Come Go with Me"(1978).Al Jardine is an Americanrhythm guitarist.
(ei,3,ci)In 2010,Jardine released his debut solo studio album,APostcard from California. Al Jardine is an American rhythm guitarist.
(ei,4,ci)In 1988,Jardine was inducted into the Rock and Roll Hall ofFame as a member of the Beach Boys.Al Jardine is an American rhythmguitarist.
(ei,5,ci)Sir Ernest Jardine,1st Baronet(1859-1947),Scottish MP.AlJardine is an American rhythm guitarist.
使用微调后的预训练语言模型对以上的声明和5个(声明,证据)对进行编码,得到以下6个编码结果:
ci=PLM(ci)∈Rd
ei,1=PLM(ei,1,ci)∈Rd
ei,2=PLM(ei,2,ci)∈Rd
ei,3=PLM(ei,3,ci)∈Rd
ei,4=PLM(ei,4,ci)∈Rd
ei,5=PLM(ei,5,ci)∈Rd
第5步、构建事实验证模型
如图3的Claim Verification部分所示。本发明所提出的事实验证模型为融合图转换器和共同注意力网络的深度模型,其将事实验证任务视为自然语言推理任务。首先通过构建图转换器来学习证据间的潜在关系并更新表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理。
第5.1步、使用图转换器来学习证据间的隐含表示
本发明通过堆叠6个如图4所示的块来构建图转换器。图转换器首先将ci和ei,1,ei,2, ei,3,ei,4,ei,5作为顶点,构建如图5所示的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图输入图转换器中学习证据间的隐含关系,将节点的表示更新为VL,更新过程如下:
通过计算节点与相邻节点的相似性,得到加权权重
Figure BDA0003327461770000091
对相邻节点特征的加权求和得到Graph Attention的输出结果。图转换器同样的利用了多头的机制,将所有的Attention 结果的输出串联后做映射,并与输入相加得到Attention模块输出
Figure BDA0003327461770000092
Figure BDA0003327461770000101
Figure BDA0003327461770000102
Figure BDA0003327461770000103
g(vi,vj)=(WQvi)TWKvj
其中
Figure BDA00033274617700001021
为节点i的相邻节点,⊕表示特征的串联。FeedForward网络计算方式如下:
Figure BDA0003327461770000104
其中FFN为一个双层感知机网络。图转换器通过堆叠L个(本实施例中L的取值为6)以上模块来得到最终编码结果
Figure BDA0003327461770000105
第5.2步、对声明进行编码
本发明中依旧使用微调后的预训练语言模型对声明“Al Jardine is anAmerican rhythm guitarist.”进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)∈Rd
第5.3步、构建双层的共同注意力网络来推理声明和证据间的关系
双层注意力网络的结构如图6所示。其首先从图转换器和声明编码器获取双层注意力网络第一层的输入
Figure BDA0003327461770000106
Figure BDA0003327461770000107
Figure BDA0003327461770000108
Figure BDA0003327461770000109
其中
Figure BDA00033274617700001010
表示e个证据和一个声明经过图转换器编码后的结果,
Figure BDA00033274617700001011
为声明编码器的编码结果。第一层共同注意力网络首先计算两者间的关联矩阵M1
Figure BDA00033274617700001012
Figure BDA00033274617700001013
Figure BDA00033274617700001014
注意力权重
Figure BDA00033274617700001015
Figure BDA00033274617700001016
分别为矩阵M1的列向量归一化和行向量归一化;之后,分别根据声明和证据的注意力权重矩阵计算声明和证据的内容矩阵
Figure BDA00033274617700001017
Figure BDA00033274617700001018
Figure BDA00033274617700001019
Figure BDA00033274617700001020
根据证据的内容矩阵和声明的注意力矩阵计算声明关于证据的共同注意力矩阵
Figure BDA0003327461770000111
Figure BDA0003327461770000112
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
Figure BDA0003327461770000113
为了构建两层的共同注意力网络,将第一层共同注意力网络的输出
Figure BDA0003327461770000114
Figure BDA0003327461770000115
输入双向 biLSTM中获取第二层共同注意力网络的输入
Figure BDA0003327461770000116
Figure BDA0003327461770000117
Figure BDA0003327461770000118
Figure BDA0003327461770000119
Figure BDA00033274617700001110
Figure BDA00033274617700001111
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性。
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U。
Figure BDA00033274617700001112
第6步、融合图转换器和共同注意力网络,通过深度神经网络模型进行分类。
将矩阵U输入单层的线性的线性神经网络来获得最终的预测输出
Figure BDA00033274617700001113
Figure BDA00033274617700001114
对于声明“Al Jardine is an American rhythm guitarist.”模型预测的标签为“SUPPORTED”。
第7步、自动事实验证
本发明进行自动事实验证的主要性能指标是标签准确性(Label Accuracy,LA)和FEVER Score。实验结果表明,本发明在自动事实验证的性能上领先于其它方法。
定义7:标签准确性(Label Accuracy,LA),定义如下:
标签准确性是一种通用的指标,在本应用中为不考虑检索证据的情况下计算三分类标签的准确率。
定义8:FEVER Score,定义如下:
只有当检索到的证据至少与一个事实证据集重合,并且预测的标签正确,才会得到FEVER评分。
本方法采用数据集FEVER。数据集中的声明分为支持(Sopported)、反对(Refuted)、信息不足(Not Enough Info)三类,数据集的统计信息如图7所示。如图8所示,与其他方法相比本方法在自动事实验证的性能上取得了较大的提高。本方法将基线分为四组,第一组是来自FEVER任务的顶级模型,包括Athene、UCL MRG和UNC NLP。第二组则基于预训练语言模型BERT Base,与第一组相比,该组的性能有了显著的提高,这也显示了使用预训练语言模型对声明和证据进行编码的必要性。在第三组和第四组本方法则分别使用了BERT Large和RoBERTa Large来对声明和证据进行编码。结果表明,本方法取得了很好的结果,特别是第四组本方法的两项指标在测试集上都优于KGAT。除此之外,观察数据发现,随着预训练模型的提升,模型的性能也同步提升。
为了进一步验证,本发明方法各模块对性能的影响,本发明进行了消融实验,实验结果如图9所示。allw.RoBERTa Large表示预训练模型使用RoBERTa Large且使用完整的模型进行训练。-graph表示去除图转换器只使用声明编码器进行训练,-claim表示去除声明编码器只使用图转换器进行训练,-co-attention表示将图转换器和声明编码器的结果直接拼接不经过双层共同注意力网络。实验结果表明,当去除图转换器后模型的性能大幅下降,其标签准确性在验证集和测试集分别下降了20.29%和17.91%,这也说明了图转换器在学习证据间关系时发挥了重要的作用。当去除声明编码器时,验证集和测试集的标签准确性分别下降了0.86%和0.74%,这表明在构建证据图的节点时虽然已经通过(证据,声明)对的方式引入了声明信息,单独的使用声明编码器对声明进行编码也是有必要的。除此之外,不使用共同注意力网络直接进行拼接,其标签准确性在验证集和测试集分别下降了9.58%和8.14%,表明了使用共同注意力网络进行推理的必要性。
因为本发明主要关注的是事实验证的第三阶段即声明验证部分,为了消除检索的证据对于模型性能的影响,本发明从验证集中抽取证据被正确检索的样例构建子集。其性能如图10所示,实验结果表明相较于KGAT,该发明在标签准确性上提高了7.2%。
此外,为了证明本发明的去噪和推理能力,本发明将其与GEAR和KGAT在另一场景下进行了比较。根据推理需要事实证据的数量,我们将除信息不足之外的声明分为两类,若推理这条声明需要多于一条证据则将该声明归为Multiple类,若推理这条声明只需要一条证据则将该声明归为Single类,实验结果如图11所示。单证据推理主要考察的是模型对于检索证据的去噪能力,因为单证据推理要求模型具备从检索到的证据中选取与推理声明最相关的句子的能力。而多证据推理则考察的是模型对于多证据进行融合推理的能力。本发明在两类实验中都取得了最优的结果,这也说明了本发明在去噪和推理方面的优越性。
除此之外,本发明还进行了样例学习。如图12所示为需要多证据推理的样例,为了验证声明,我们需要同时结合证据(1)和证据(2)的信息进行推理。图13(a)为该样例的关联矩阵输出结果,M1和M2分别为共同注意力网络的第一层和第二层输出,其值越大,表明该证据对推理声明做出的贡献越大。关联矩阵的结果与样例一致,证据(1)和(2)获得了最高的关联分数,且M2较M1效果更好,这不仅说明了本发明两层共同注意力网络优秀的推理能力,同时表明了本发明具备可解释性。图13(b)为信息不足声明的关联矩阵,因为信息不足的声明无事实证据,因此检索到的证据对推理此类声明的贡献应该基本相同,与图示一致。
综上所述,使用融合图转换器和共同注意力网络的模型进行自动事实验证,有效地解决了现有的自动事实验证方法未能充分考虑证据间的相关性问题,除此之外,其推理过程具有可解释性,从而更好地完成事实验证问题。

Claims (7)

1.一种融合图转换器和共同注意力网络的自动事实验证方法,该方法首先使用微调的预训练语言模型对证据和声明进行编码以获得一个较好的初始表示,其次通过图转换器来学习证据间的依赖关系更新证据的表示,再者通过双层的共同注意力网络对证据和声明间的关系进行推理,最后使用线性层进行分类;
该方法的具体步骤如下:
第1、获取事实验证数据集;
第2、根据声明检索相关的文档;
第3、使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子作为证据;
第4、使用微调的BERT系列预训练语言模型进行编码;
第5、构建事实验证模型;
第5.1、使用图转换器来学习证据间的隐含关系;
第5.2、对声明进行编码;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系;
第6、融合图转换器和共同注意力网络,通过深度神经网络模型进行验证。
2.根据权利要求1所述的方法,其特征在于第1步所述的获取数据集的方法是:
收集社交媒体中的声明ci以及能够支持或者反对声明ci的证据集合E={ei,1,...ei,j,...ei,n}和标签yi作为数据集样本。
3.根据权利要求1所述的方法,其特征在于第2步所述的根据声明检索相关的文档的方法是:
给定一个涉及一个或多个可解析到维基百科页面实体的待验证声明,通过实体链接的方法识别声明中潜在的实体,使用识别到的实体作为查询条件在维基百科中搜索相关文档。
4.根据权利要求1所述的方法,其特征在于第3步所述的使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子的方法是:
抽取文档中的句子,使用BERTBase对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据。
5.根据权利要求1所述的方法,其特征在于第4步所述的使用微调的BERT系列预训练语言模型进行编码的方法是:
在FEVER数据集上微调BERT系列预训练语言模型,使得预训练语言模型能够很好的适用于FEVER任务,使用第3步抽取到的句子作为证据,构建(证据,声明)对,使用以下微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系:
ei,j=PLM(ei,j,ci)
其中PLM表示微调后的BERT系列预训练语言模型,本发明用到的包括BERT Base、BERTLarge、RoBERTa Base和RoBERTa Large,ci为第i个声明,ei,j为声明ci的第j个证据,(ei,j,ci)表示将ei,j和ci进行物理拼接。
6.根据权利要求5所述的方法,其特征在于第5步所述的构建事实验证模型的方法是:
事实验证模型为融合图转换器和共同注意力网络的深度模型,该模型将事实验证视为自然语言推理任务;首先通过构建图转换器来学习证据间的潜在关系并更新证据的表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理;具体构建如下:
第5.1、使用图转换器来学习证据间的隐含关系的方法是:首先将(证据,声明)对和声明作为顶点vi,构建全连接的、无向的、无权重的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图G输入图转换器中学习证据间的隐含关系,获取顶点的表示,即证据的表示:
图转换器是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似;通过计算节点与相邻节点的相似性,得到加权权重
Figure FDA0003327461760000021
对相邻节点特征的加权求和得到Graph Attention的输出结果;图转换器同样的利用了多头注意力机制,将所有的Attention结果的输出串联后做映射,并与输入相加得到Attention模块输出
Figure FDA0003327461760000022
Figure FDA0003327461760000023
其中N表示N个头的注意力,
Figure FDA0003327461760000024
表示将N个注意力头生成的特征进行串联,
Figure FDA0003327461760000025
表示节点i的相邻节点集合,
Figure FDA0003327461760000026
为权重矩阵,
Figure FDA0003327461760000027
表示第n个头关于节点vi和vj的注意力,
Figure FDA0003327461760000031
由以下公式给出:
Figure FDA0003327461760000032
an表示第n个头的注意力,为了使梯度稳定,进行了归一化即除以
Figure FDA0003327461760000033
对于任意两个向量qi和kj,a由以下公式给出:
Figure FDA0003327461760000034
g(vi,vj)=(WQvi)TWKvj
其中WQ∈Rd×d、WK∈Rd×d为权重矩阵;
Feed Forward网络计算方式如下:
Figure FDA0003327461760000035
其中Norm为Layer Normalization即层归一化,FFN为一个双层感知机网络,
Figure FDA0003327461760000036
为节点vi经过一个模块的输出;图转换器通过堆叠L个以上公式所述的模块来得到最终编码结果
Figure FDA0003327461760000037
第5.2、对声明进行编码的方法是:使用声明编码器对声明进行编码,本发明中依旧使用微调后的预训练语言模型对声明进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)
其中PLM为微调后的预训练语言模型,ci为第i个声明;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系的方法是:
首先从图转换器和声明编码器获取双层注意力网络第一层的输入
Figure FDA0003327461760000038
Figure FDA0003327461760000039
Figure FDA00033274617600000310
Figure FDA00033274617600000311
其中
Figure FDA00033274617600000312
表示e个证据和一个声明经过图转换器编码后的结果,
Figure FDA00033274617600000313
为声明编码器的编码结果;第一层共同注意力网络首先计算两者间的关联矩阵M1
Figure FDA00033274617600000314
Figure FDA00033274617600000315
Figure FDA00033274617600000316
注意力权重
Figure FDA00033274617600000317
Figure FDA00033274617600000318
分别为矩阵M1的列向量归一化和行向量归一化;之后,分别根据声明和证据的注意力权重矩阵计算声明和证据的内容矩阵
Figure FDA00033274617600000319
Figure FDA00033274617600000320
Figure FDA0003327461760000041
Figure FDA0003327461760000042
根据证据的内容矩阵和声明的注意力矩阵计算声明关于证据的共同注意力矩阵
Figure FDA0003327461760000043
Figure FDA0003327461760000044
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
Figure FDA0003327461760000045
为了构建两层的共同注意力网络,将第一层共同注意力网络的输出
Figure FDA0003327461760000046
Figure FDA0003327461760000047
输入双向biLSTM中获取第二层共同注意力网络的输入
Figure FDA0003327461760000048
Figure FDA0003327461760000049
Figure FDA00033274617600000410
Figure FDA00033274617600000411
Figure FDA00033274617600000412
Figure FDA00033274617600000413
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性;
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U:
Figure FDA00033274617600000414
7.根据权利要求6所述的方法,其特征在于第6步所述的融合图转换器和共同注意力网络,通过深度神经分类模型进行验证的方法是:
将矩阵U输入单层的线性神经网络来获得最终的预测输出
Figure FDA00033274617600000415
Figure FDA00033274617600000416
其中WU为可学习的参数矩阵,b为偏置项,通过训练来最小化损失函数,损失函数如下:
Figure FDA00033274617600000417
其中y*为真实标签。
CN202111268939.2A 2021-10-29 2021-10-29 一种融合图转换器和共同注意力网络的自动事实验证方法 Active CN114048286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111268939.2A CN114048286B (zh) 2021-10-29 2021-10-29 一种融合图转换器和共同注意力网络的自动事实验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111268939.2A CN114048286B (zh) 2021-10-29 2021-10-29 一种融合图转换器和共同注意力网络的自动事实验证方法

Publications (2)

Publication Number Publication Date
CN114048286A true CN114048286A (zh) 2022-02-15
CN114048286B CN114048286B (zh) 2024-06-07

Family

ID=80207270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111268939.2A Active CN114048286B (zh) 2021-10-29 2021-10-29 一种融合图转换器和共同注意力网络的自动事实验证方法

Country Status (1)

Country Link
CN (1) CN114048286B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383239A (zh) * 2023-06-06 2023-07-04 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质
CN117807322A (zh) * 2024-02-29 2024-04-02 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516697A (zh) * 2019-07-15 2019-11-29 清华大学 基于证据图聚合与推理的声明验证方法及系统
US10803387B1 (en) * 2019-09-27 2020-10-13 The University Of Stavanger Deep neural architectures for detecting false claims
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统
CN112579583A (zh) * 2020-12-14 2021-03-30 中山大学 一种面向事实检测的证据与声明联合抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516697A (zh) * 2019-07-15 2019-11-29 清华大学 基于证据图聚合与推理的声明验证方法及系统
US10803387B1 (en) * 2019-09-27 2020-10-13 The University Of Stavanger Deep neural architectures for detecting false claims
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112579583A (zh) * 2020-12-14 2021-03-30 中山大学 一种面向事实检测的证据与声明联合抽取方法
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张莹;王超;郭文雅;袁晓洁;: "基于双向分层语义模型的多源新闻评论情绪预测", 计算机研究与发展, no. 05, 15 May 2018 (2018-05-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383239A (zh) * 2023-06-06 2023-07-04 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质
CN116383239B (zh) * 2023-06-06 2023-08-15 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质
CN117807322A (zh) * 2024-02-29 2024-04-02 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统
CN117807322B (zh) * 2024-02-29 2024-05-14 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN114048286B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN112528676B (zh) 文档级别的事件论元抽取方法
Xiao et al. Joint entity and relation extraction with a hybrid transformer and reinforcement learning based model
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN114048286A (zh) 一种融合图转换器和共同注意力网络的自动事实验证方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN114065760B (zh) 基于预训练语言模型的法律文本类案检索方法及系统
CN115329088A (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
Ko et al. Paraphrase bidirectional transformer with multi-task learning
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
Keshavarz et al. Named entity recognition in long documents: an end-to-end case study in the legal domain
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN115687939A (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统
CN111813924B (zh) 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN114692604A (zh) 一种基于深度学习的方面级情感分类方法
Moussa et al. Named Entity Recognition in the Moroccan Dialect

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant