CN114048286A - 一种融合图转换器和共同注意力网络的自动事实验证方法 - Google Patents
一种融合图转换器和共同注意力网络的自动事实验证方法 Download PDFInfo
- Publication number
- CN114048286A CN114048286A CN202111268939.2A CN202111268939A CN114048286A CN 114048286 A CN114048286 A CN 114048286A CN 202111268939 A CN202111268939 A CN 202111268939A CN 114048286 A CN114048286 A CN 114048286A
- Authority
- CN
- China
- Prior art keywords
- evidence
- declaration
- graph
- statement
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012795 verification Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000010410 layer Substances 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 14
- 206010037660 Pyrexia Diseases 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 230000033764 rhythmic process Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000003643 water by type Substances 0.000 description 2
- 241000587155 Athene Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种融合图转换器和共同注意力网络的自动事实验证方法,属于人工智能技术领域。利用声明和检索到的证据作为输入数据,构建基于深度学习的自动事实验证方法。本方法首先通过实体链接的方法识别声明中的实体,并根据抽取的实体在维基百科中检索相关的文档。其次,使用排序模型在检索到的文档中选取与声明最相关的五个句子作为证据。再者,构建(证据,声明)对,将(证据,声明)对输入微调后的预训练语言模型中进行编码。最后,通过构建基于图转换器和共同注意力网络的事实验证模型,学习声明和证据以及证据和证据之间的潜在关系,完成事实验证。实验结果表明,本方法优于目前已有的自动事实验证方法,同时此方法具备可解释性。
Description
技术领域
本发明属于人工智能技术领域,具体涉及互联网的声明,对网络中出现的声明,提出了一种融合图转换器和共同注意力网络的自动事实验证方法。
背景技术
互联网的快速发展,将我们置身于一个信息爆炸的时代。网络中的每个人都能以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,使得互联网上存在一定数量的虚假信息。这就需要对互联网的信息有一个判断,但是人工检验不仅费时费力,而且成本很高。那么能否设计一种自动的事实验证系统进行辅助呢?所谓事实验证就是指给定一个声明(Claim),要求系统从大规模文本语料库中抽取相关句子作为证据(Evidence),并利用这些证据验证声明的正确性。系统需要给出证据对声明的三类判断,支持 (SUPPORTED)、反对(REFUTED)或信息不足(NOTENOUGHINFO)。
现有的事实验证方法通常使用包含检索文档、抽取证据和声明验证的三阶段模型。首先根据给定的声明在形如维基百科的语料库中检索文档,其次在检索到的文档中抽取相关的句子作为证据,最后根据抽取的证据对声明做出判断。
现有的方法都使用了较为简单的方式处理多条证据,将证据仅进行物理拼接或者只考虑单独的(证据,声明)对,而没有考虑证据间的关系。
举例来说,只有同时结合证据(1)“谋杀是指在没有正当理由的情况下非法杀害另一个人,特别是有预谋的非法杀害另一个人”和证据(2)“1931年3月,23岁的巴加特·辛格被判有罪并处以绞刑”我们才可以对声明“巴加特·辛格是被谋杀的”做出反对(REFUTED)的判断。而现有的模型大多将证据(1)和证据(2)视为两个独立的句子,未能考虑两者之间的联系,即证据(1)是对证据(2)中“谋杀”一词的解释,从而无法做出正确的推理。
发明内容
本发明的目的是解决现有的自动事实验证方法未考虑到证据间的相关性的问题,创新性地提出了一种融合图转换器和共同注意力网络的自动事实验证方法。
本发明提出的自动事实验证方法包含检索文档、抽取证据和验证声明三个阶段。本发明主要关注自动事实验证的第三阶段:声明验证。为了解决上述问题,在声明验证中引入了图神经网络。图神经网络是一种基于连接主义的模型,它通过图的节点之间的信息传递来捕捉图的依赖关系,通过图上的信息传递和聚合来学习更好的节点表示。因此,本发明方法通过引入图转换器来学习证据间的潜在关系并更新证据的表示。除此之外,本方法还引入了共同注意力机制来对声明和证据之间的关系进行推理。共同注意力机制是一种双向的注意力,通过共同注意力机制,声明和证据可以相互学习两者之间的潜在关系,且使得推理过程具有解释性。
综上所述,融合图转换器和共同注意力网络进行自动事实验证是一个创新的研究思路,具有重要的研究意义和研究价值。
本发明的技术方案
融合图转换器和共同注意力网络的自动事实验证方法,该方法的具体步骤如下:
第1、获取事实验证数据集;
收集社交媒体中的声明ci以及可以支持或者反对声明ci的证据集合E={ei,1,...ei,j,…ei,n} 和标签yi作为样本,构造事实检测数据集。
第2、根据声明检索相关的文档;
给定一个涉及一个或多个可解析到维基百科页面实体的待验证声明,通过实体链接的方法识别声明中潜在的实体,使用识别到的实体作为查询条件在维基百科中搜索相关文档。如声明中提及实体“Trevor Griffiths”,本发明将其作为查询条件通过在线的维基百科API 检索相关的文档。
定义1:实体链接,定义如下:
将声明ci中所提及的实体链接到知识库(如维基百科)中相应实体的过程。
第3、使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子作为证据;
抽取文档中的句子,使用BERT Base对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据。排序模型使用pairwise loss来进行优化。
定义2:pairwise,定义如下:
考虑两两样本间的偏序关系,典型的代表有RankSVM、LambdaMart。
第4、使用微调的BERT系列预训练语言模型进行编码;
在FEVER数据集上微调BERT系列预训练语言模型,使得预训练语言模型可以很好的适用于FEVER任务,使用第3步抽取到的句子作为证据,构建(证据,声明)对,使用以下微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系:
ei,j=PLM(ei,j,ci)
其中PLM表示微调后的BERT系列预训练语言模型,本发明用到的包括BERTBase、BERTLarge、RoBERTaBase和RoBERTaLarge,ci为第i个声明,ei,j为声明ci的第j个证据,(ei,j,ci)表示将ei,j和ci进行物理拼接。
定义3:微调,定义如下:
微调是指在已经训练好的语言模型的基础上,加入少量的特定任务的参数,例如对于分类问题在语言模型的基础上加一层softmax网络,然后在新的语料上重新训练来进行微调,从而很好的适用于新任务。
定义4:预训练语言模型,定义如下:
对于大多数的自然语言处理任务,构建一个大规模的有标签的数据集是一个很大的挑战。相反,大规模的无标签语料是相对容易构建的,为了充分利用这些无标签数据,我们可以先利用它们获取一个好的语言表示,再将这些表示用于其他任务。预训练的好处如下:
(1)预训练可以从大规模语料中学习得到通用的语言表示,并用于下游任务。
(2)预训练提供了更优的模型初始化方法,有助于提高模型的泛化能力和加速模型收敛。
(3)预训练可以当作是在小数据集上一种避免过拟合的正则化方法。
第5、构建事实验证模型;
本发明所提出的事实验证模型为融合图转换器和共同注意力网络的深度模型,该模型将事实验证视为自然语言推理任务。首先通过构建图转换器来学习证据间的潜在关系并更新证据的表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理。
定义5:自然语言推理,定义如下:
自然语言推理主要是判断两个句子(Premise,Hypothesis)或者两个词之间的语义关系,为了保证模型能够集中在语义理解上,该任务最终退化为一个分类任务,目前类别主要是三分类(Entailment,Contradiction,Neutral),对应于事实验证任务即为(Sopported、Refuted、 Not Enough Info)。
第5.1、使用图转换器来学习证据间的隐含关系;
首先将(证据,声明)对和声明作为顶点vi,构建全连接的、无向的、无权重的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图G输入图转换器中学习证据间的隐含关系,获取顶点的表示:
定义6:证据图G,定义如下:
证据图G的顶点由声明和证据构成,其为无向的、无权重的、并且顶点自环的全连接图。
图转换器是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似;通过计算节点与相邻节点的相似性,得到加权权重对相邻节点特征的加权求和得到GraphAttention的输出结果;图转换器同样的利用了多头注意力机制,将所有的 Attention结果的输出串联后做映射,并与输入相加得到Attention模块输出
g(vi,vj)=(WQvi)TWKvj
其中WQ∈Rd×d、WK∈Rd×d为权重矩阵。
FeedForward网络计算方式如下:
第5.2、对声明进行编码;
使用声明编码器对声明进行编码,本发明中依旧使用微调后的预训练语言模型对声明进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)
其中PLM为微调后的预训练语言模型,ci为第i个声明;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系;
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性;
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U。
第6、融合图转换器和共同注意力网络,通过深度神经网络模型进行验证。
其中WU为可学习的参数矩阵,b为偏置项,通过训练来最小化损失函数,损失函数如下:
其中y*为真实标签。
本发明的优点和积极效果:
本发明开创性地提出了一种融合图转换器和共同注意力网络的自动事实验证方法,针对现有的事实验证方法未能充分地考虑证据间的依赖关系,提出使用图数据结构来对证据间的关系进行建模,并使用图转换器来进行节点间的信息传递,从而学习到更好的节点表示,并设计共同注意力网络来对证据和声明间的关系进行推理。本发明有效地对证据间的关系进行了建模,除此之外其推理的过程具备可解释性,从而很大程度的提高了自动事实验证任务的性能。
附图说明
图1为融合图转换器和共同注意力网络的自动事实验证方法的流程图。
图2为事实验证数据集的样例示意图。
图3为自动事实验证方法的三阶段模型示意图。
图4为图转换器的示意图。
图5为证据图的示意图。
图6为共同注意力网络的示意图。
图7为事实验证数据集的样例划分示意图。
图8为自动事实验证模型的性能示意图。
图9为消融实验的结果示意图。
图10为在事实证据上的模型性能示意图。
图11为多证据和单证据推理的模型性能示意图。
图12为需要多证据推理的样例示意图。
图13为关联矩阵示意图,其中,(a)为支持样例的关联矩阵输出结果;(b)为信息不足声明的关联矩阵。
具体实施方式
本发明提出了一种融合图转换器和共同注意力网络的自动事实验证方法,方法的主要流程如图1所示。下面结合附图详细说明本发明的具体实施方式。
本发明的具体实施过程分为六个步骤,获取自动事实验证数据集;根据声明文本,抽取其中的实体作为检索条件在维基百科中检索相关的文档;使用排序模型在检索到的文档中抽取与声明最相关的五个句子作为证据;使用微调后的预训练语言模型对声明和证据进行编码;构建融合图转换器和共同注意力网络的自动事实验证模型;输入测试样例,通过深度神经网络模型对其进行推理。
第1步、样例说明
图2列举了三个典型的事实验证样例,分属SUPPORTED、REFUTED和NOTENOUGH INFO三类。每个样例均包含声明、证据和标签三个部分,其中加黑词为验证声明时的关键信息。以“SUPPORTED”样例为例,声明为“Bhagat Singh was murdered.”Bhagat Singh 是被谋杀的。证据(1)“Amurder is the unlawful killing of another human withoutjustification or valid excuse,especially the unlawful killing of anotherhuman being with malice aforethought.”给出了谋杀的定义:“谋杀是在没有正当理由的情况下非法杀害另一个人,尤其是蓄意非法杀害另一个人。”证据(2)“Bhagat Singh wasconvictedand hanged in March 1931,aged23.”描述了“1931年3月,23岁的巴加特·辛格被判有罪并处以绞刑。”综合证据(1)和证据(2)可以判定证据集合不支持声明,因此给定“REFUTED”的判断。“SUPPORTED”样例同理,只有同时结合证据(1)和证据(2)才能对声明做出“SUPPORTED”的判断。没有证据支撑或反对的声明则被标记为“NOTENOUGH INFO”。
第2步、根据声明检索相关的文档
图3的Document Retrieval阶段为根据声明中的实体检索相关文档的过程。比如“SUPPORTED”样例的声明中提及实体“AlJardine”和“Jardine”,本发明将实体“AlJardine”和“Jardine”作为查询条件通过在线的维基百科API检索相关的文档。系统返回两篇文档,分别为《AlJardine》和《Jardine》。
第3步、使用排序模型在检索到的文档中抽取与声明最相关的5个句子作为证据图3的Sentence Selection阶段为选取证据的过程:抽取第2步返回的文档中的句子,使用预训练语言模型对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据(即图中实线以上的部分)。排序前五的句子为:
(1)Alan Charles Jardine(born September 3,1942)is an Americanmusician,singer and songwriter who co-founded the Beach Boys.
(2)He is best known as the band's rhythm guitarist,and foroccasionally singing lead vocals on singles such as"Help Me,Rhonda"(1965),"Then I Kissed Her"(1965),and"Come Go with Me"(1978).
(3)In 2010,Jardine released his debut solo studio album,A Postcardfrom California.
(4)In 1988,Jardine was inducted into the Rock and Roll Hall of Fameas a member of the Beach Boys.
(5)Sir Ernest Jardine,1st Baronet(1859-1947),Scottish MP.
第4步、使用微调的预训练语言模型对声明和证据进行编码
图3的Sentence Encoding阶段为对(证据,声明)对进行编码的过程:在FEVER数据集上微调预训练语言模型,使得预训练语言模型可以很好的适用于FEVER任务,使用第3步抽取到的证据,构建(证据,声明)对,使用微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系,构建的(证据,声明)对如下:
声明ci:Al Jardine is an American rhythm guitarist.
(证据,声明)对如下:
(ei,1,ci)Alan Charles Jardine(born September 3,1942)is an Americanmusician,singer and songwriter who co-founded the Beach Boys.Al Jardine is anAmerican rhythm guitarist.
(ei,2,ci)He is best known as the band's rhythm guitarist,and foroccasionally singing lead vocals on singles such as"Help Me,Rhonda"(1965),"Then I Kissed Her"(1965),and"Come Go with Me"(1978).Al Jardine is an Americanrhythm guitarist.
(ei,3,ci)In 2010,Jardine released his debut solo studio album,APostcard from California. Al Jardine is an American rhythm guitarist.
(ei,4,ci)In 1988,Jardine was inducted into the Rock and Roll Hall ofFame as a member of the Beach Boys.Al Jardine is an American rhythmguitarist.
(ei,5,ci)Sir Ernest Jardine,1st Baronet(1859-1947),Scottish MP.AlJardine is an American rhythm guitarist.
使用微调后的预训练语言模型对以上的声明和5个(声明,证据)对进行编码,得到以下6个编码结果:
ci=PLM(ci)∈Rd
ei,1=PLM(ei,1,ci)∈Rd
ei,2=PLM(ei,2,ci)∈Rd
ei,3=PLM(ei,3,ci)∈Rd
ei,4=PLM(ei,4,ci)∈Rd
ei,5=PLM(ei,5,ci)∈Rd
第5步、构建事实验证模型
如图3的Claim Verification部分所示。本发明所提出的事实验证模型为融合图转换器和共同注意力网络的深度模型,其将事实验证任务视为自然语言推理任务。首先通过构建图转换器来学习证据间的潜在关系并更新表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理。
第5.1步、使用图转换器来学习证据间的隐含表示
本发明通过堆叠6个如图4所示的块来构建图转换器。图转换器首先将ci和ei,1,ei,2, ei,3,ei,4,ei,5作为顶点,构建如图5所示的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图输入图转换器中学习证据间的隐含关系,将节点的表示更新为VL,更新过程如下:
通过计算节点与相邻节点的相似性,得到加权权重对相邻节点特征的加权求和得到Graph Attention的输出结果。图转换器同样的利用了多头的机制,将所有的Attention 结果的输出串联后做映射,并与输入相加得到Attention模块输出
g(vi,vj)=(WQvi)TWKvj
第5.2步、对声明进行编码
本发明中依旧使用微调后的预训练语言模型对声明“Al Jardine is anAmerican rhythm guitarist.”进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)∈Rd
第5.3步、构建双层的共同注意力网络来推理声明和证据间的关系
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性。
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U。
第6步、融合图转换器和共同注意力网络,通过深度神经网络模型进行分类。
对于声明“Al Jardine is an American rhythm guitarist.”模型预测的标签为“SUPPORTED”。
第7步、自动事实验证
本发明进行自动事实验证的主要性能指标是标签准确性(Label Accuracy,LA)和FEVER Score。实验结果表明,本发明在自动事实验证的性能上领先于其它方法。
定义7:标签准确性(Label Accuracy,LA),定义如下:
标签准确性是一种通用的指标,在本应用中为不考虑检索证据的情况下计算三分类标签的准确率。
定义8:FEVER Score,定义如下:
只有当检索到的证据至少与一个事实证据集重合,并且预测的标签正确,才会得到FEVER评分。
本方法采用数据集FEVER。数据集中的声明分为支持(Sopported)、反对(Refuted)、信息不足(Not Enough Info)三类,数据集的统计信息如图7所示。如图8所示,与其他方法相比本方法在自动事实验证的性能上取得了较大的提高。本方法将基线分为四组,第一组是来自FEVER任务的顶级模型,包括Athene、UCL MRG和UNC NLP。第二组则基于预训练语言模型BERT Base,与第一组相比,该组的性能有了显著的提高,这也显示了使用预训练语言模型对声明和证据进行编码的必要性。在第三组和第四组本方法则分别使用了BERT Large和RoBERTa Large来对声明和证据进行编码。结果表明,本方法取得了很好的结果,特别是第四组本方法的两项指标在测试集上都优于KGAT。除此之外,观察数据发现,随着预训练模型的提升,模型的性能也同步提升。
为了进一步验证,本发明方法各模块对性能的影响,本发明进行了消融实验,实验结果如图9所示。allw.RoBERTa Large表示预训练模型使用RoBERTa Large且使用完整的模型进行训练。-graph表示去除图转换器只使用声明编码器进行训练,-claim表示去除声明编码器只使用图转换器进行训练,-co-attention表示将图转换器和声明编码器的结果直接拼接不经过双层共同注意力网络。实验结果表明,当去除图转换器后模型的性能大幅下降,其标签准确性在验证集和测试集分别下降了20.29%和17.91%,这也说明了图转换器在学习证据间关系时发挥了重要的作用。当去除声明编码器时,验证集和测试集的标签准确性分别下降了0.86%和0.74%,这表明在构建证据图的节点时虽然已经通过(证据,声明)对的方式引入了声明信息,单独的使用声明编码器对声明进行编码也是有必要的。除此之外,不使用共同注意力网络直接进行拼接,其标签准确性在验证集和测试集分别下降了9.58%和8.14%,表明了使用共同注意力网络进行推理的必要性。
因为本发明主要关注的是事实验证的第三阶段即声明验证部分,为了消除检索的证据对于模型性能的影响,本发明从验证集中抽取证据被正确检索的样例构建子集。其性能如图10所示,实验结果表明相较于KGAT,该发明在标签准确性上提高了7.2%。
此外,为了证明本发明的去噪和推理能力,本发明将其与GEAR和KGAT在另一场景下进行了比较。根据推理需要事实证据的数量,我们将除信息不足之外的声明分为两类,若推理这条声明需要多于一条证据则将该声明归为Multiple类,若推理这条声明只需要一条证据则将该声明归为Single类,实验结果如图11所示。单证据推理主要考察的是模型对于检索证据的去噪能力,因为单证据推理要求模型具备从检索到的证据中选取与推理声明最相关的句子的能力。而多证据推理则考察的是模型对于多证据进行融合推理的能力。本发明在两类实验中都取得了最优的结果,这也说明了本发明在去噪和推理方面的优越性。
除此之外,本发明还进行了样例学习。如图12所示为需要多证据推理的样例,为了验证声明,我们需要同时结合证据(1)和证据(2)的信息进行推理。图13(a)为该样例的关联矩阵输出结果,M1和M2分别为共同注意力网络的第一层和第二层输出,其值越大,表明该证据对推理声明做出的贡献越大。关联矩阵的结果与样例一致,证据(1)和(2)获得了最高的关联分数,且M2较M1效果更好,这不仅说明了本发明两层共同注意力网络优秀的推理能力,同时表明了本发明具备可解释性。图13(b)为信息不足声明的关联矩阵,因为信息不足的声明无事实证据,因此检索到的证据对推理此类声明的贡献应该基本相同,与图示一致。
综上所述,使用融合图转换器和共同注意力网络的模型进行自动事实验证,有效地解决了现有的自动事实验证方法未能充分考虑证据间的相关性问题,除此之外,其推理过程具有可解释性,从而更好地完成事实验证问题。
Claims (7)
1.一种融合图转换器和共同注意力网络的自动事实验证方法,该方法首先使用微调的预训练语言模型对证据和声明进行编码以获得一个较好的初始表示,其次通过图转换器来学习证据间的依赖关系更新证据的表示,再者通过双层的共同注意力网络对证据和声明间的关系进行推理,最后使用线性层进行分类;
该方法的具体步骤如下:
第1、获取事实验证数据集;
第2、根据声明检索相关的文档;
第3、使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子作为证据;
第4、使用微调的BERT系列预训练语言模型进行编码;
第5、构建事实验证模型;
第5.1、使用图转换器来学习证据间的隐含关系;
第5.2、对声明进行编码;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系;
第6、融合图转换器和共同注意力网络,通过深度神经网络模型进行验证。
2.根据权利要求1所述的方法,其特征在于第1步所述的获取数据集的方法是:
收集社交媒体中的声明ci以及能够支持或者反对声明ci的证据集合E={ei,1,...ei,j,...ei,n}和标签yi作为数据集样本。
3.根据权利要求1所述的方法,其特征在于第2步所述的根据声明检索相关的文档的方法是:
给定一个涉及一个或多个可解析到维基百科页面实体的待验证声明,通过实体链接的方法识别声明中潜在的实体,使用识别到的实体作为查询条件在维基百科中搜索相关文档。
4.根据权利要求1所述的方法,其特征在于第3步所述的使用排序模型在检索到的文档中抽取与声明最相关的至多5个句子的方法是:
抽取文档中的句子,使用BERTBase对句子进行编码,取状态[CLS]来表示声明和抽取句子的编码结果,计算声明和抽取句子之间的相似度,使用排序模型对其进行排序,选取得分最高的5个句子作为证据。
5.根据权利要求1所述的方法,其特征在于第4步所述的使用微调的BERT系列预训练语言模型进行编码的方法是:
在FEVER数据集上微调BERT系列预训练语言模型,使得预训练语言模型能够很好的适用于FEVER任务,使用第3步抽取到的句子作为证据,构建(证据,声明)对,使用以下微调后的预训练语言模型对(证据,声明)对进行编码,以很好的学习声明和证据之间的潜在关系:
ei,j=PLM(ei,j,ci)
其中PLM表示微调后的BERT系列预训练语言模型,本发明用到的包括BERT Base、BERTLarge、RoBERTa Base和RoBERTa Large,ci为第i个声明,ei,j为声明ci的第j个证据,(ei,j,ci)表示将ei,j和ci进行物理拼接。
6.根据权利要求5所述的方法,其特征在于第5步所述的构建事实验证模型的方法是:
事实验证模型为融合图转换器和共同注意力网络的深度模型,该模型将事实验证视为自然语言推理任务;首先通过构建图转换器来学习证据间的潜在关系并更新证据的表示,之后将图转换器的输出和声明编码器的输出作为双层注意力网络的输入进行推理;具体构建如下:
第5.1、使用图转换器来学习证据间的隐含关系的方法是:首先将(证据,声明)对和声明作为顶点vi,构建全连接的、无向的、无权重的证据图G,图的顶点集合为V=[vi],vi∈Rd,将证据图G输入图转换器中学习证据间的隐含关系,获取顶点的表示,即证据的表示:
图转换器是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似;通过计算节点与相邻节点的相似性,得到加权权重对相邻节点特征的加权求和得到Graph Attention的输出结果;图转换器同样的利用了多头注意力机制,将所有的Attention结果的输出串联后做映射,并与输入相加得到Attention模块输出
g(vi,vj)=(WQvi)TWKvj
其中WQ∈Rd×d、WK∈Rd×d为权重矩阵;
Feed Forward网络计算方式如下:
第5.2、对声明进行编码的方法是:使用声明编码器对声明进行编码,本发明中依旧使用微调后的预训练语言模型对声明进行编码,取状态[CLS]作为声明的表示:
ci=PLM(ci)
其中PLM为微调后的预训练语言模型,ci为第i个声明;
第5.3、构建双层的共同注意力网络来进一步推理声明和证据间的关系的方法是:
以上描述了单层的共同注意力网络的推理过程,总的来说,一层共同注意力网络可以用下式表示:
其中h为biLSTM的隐藏状态的大小,M2为第二层的关联矩阵,其值可以反映每个证据和声明之间的相关性;
将两层共同注意力网络的输出进行拼接并输入biLSTM中得到矩阵U:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268939.2A CN114048286B (zh) | 2021-10-29 | 2021-10-29 | 一种融合图转换器和共同注意力网络的自动事实验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268939.2A CN114048286B (zh) | 2021-10-29 | 2021-10-29 | 一种融合图转换器和共同注意力网络的自动事实验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048286A true CN114048286A (zh) | 2022-02-15 |
CN114048286B CN114048286B (zh) | 2024-06-07 |
Family
ID=80207270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111268939.2A Active CN114048286B (zh) | 2021-10-29 | 2021-10-29 | 一种融合图转换器和共同注意力网络的自动事实验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048286B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383239A (zh) * | 2023-06-06 | 2023-07-04 | 中国人民解放军国防科技大学 | 一种基于混合证据的事实验证方法、系统及存储介质 |
CN117807322A (zh) * | 2024-02-29 | 2024-04-02 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516697A (zh) * | 2019-07-15 | 2019-11-29 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
US10803387B1 (en) * | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112396185A (zh) * | 2021-01-21 | 2021-02-23 | 中国人民解放军国防科技大学 | 一种事实验证方法、系统、计算机设备和存储介质 |
CN112487020A (zh) * | 2020-12-18 | 2021-03-12 | 苏州思必驰信息科技有限公司 | 用于SQL to text的图到自然语言语句的转换方法及系统 |
CN112579583A (zh) * | 2020-12-14 | 2021-03-30 | 中山大学 | 一种面向事实检测的证据与声明联合抽取方法 |
-
2021
- 2021-10-29 CN CN202111268939.2A patent/CN114048286B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516697A (zh) * | 2019-07-15 | 2019-11-29 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
US10803387B1 (en) * | 2019-09-27 | 2020-10-13 | The University Of Stavanger | Deep neural architectures for detecting false claims |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112579583A (zh) * | 2020-12-14 | 2021-03-30 | 中山大学 | 一种面向事实检测的证据与声明联合抽取方法 |
CN112487020A (zh) * | 2020-12-18 | 2021-03-12 | 苏州思必驰信息科技有限公司 | 用于SQL to text的图到自然语言语句的转换方法及系统 |
CN112396185A (zh) * | 2021-01-21 | 2021-02-23 | 中国人民解放军国防科技大学 | 一种事实验证方法、系统、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
张莹;王超;郭文雅;袁晓洁;: "基于双向分层语义模型的多源新闻评论情绪预测", 计算机研究与发展, no. 05, 15 May 2018 (2018-05-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383239A (zh) * | 2023-06-06 | 2023-07-04 | 中国人民解放军国防科技大学 | 一种基于混合证据的事实验证方法、系统及存储介质 |
CN116383239B (zh) * | 2023-06-06 | 2023-08-15 | 中国人民解放军国防科技大学 | 一种基于混合证据的事实验证方法、系统及存储介质 |
CN117807322A (zh) * | 2024-02-29 | 2024-04-02 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
CN117807322B (zh) * | 2024-02-29 | 2024-05-14 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114048286B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
Xiao et al. | Joint entity and relation extraction with a hybrid transformer and reinforcement learning based model | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN114048286A (zh) | 一种融合图转换器和共同注意力网络的自动事实验证方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN114065760B (zh) | 基于预训练语言模型的法律文本类案检索方法及系统 | |
CN115329088A (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN114021584B (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
Ko et al. | Paraphrase bidirectional transformer with multi-task learning | |
CN112287119B (zh) | 一种在线资源相关信息抽取的知识图谱生成方法 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN117094835A (zh) | 面向社交媒体内容的多目标群体分类方法 | |
Keshavarz et al. | Named entity recognition in long documents: an end-to-end case study in the legal domain | |
CN117033423A (zh) | 一种注入最优模式项和历史交互信息的sql生成方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN115687939A (zh) | 一种基于多任务学习的Mask文本匹配方法及介质 | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
CN111813924B (zh) | 基于可扩展动态选择与注意力机制的类别检测算法及系统 | |
CN114692604A (zh) | 一种基于深度学习的方面级情感分类方法 | |
Moussa et al. | Named Entity Recognition in the Moroccan Dialect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |