CN114997155A - 一种基于表格检索和实体图推理的事实验证方法与装置 - Google Patents

一种基于表格检索和实体图推理的事实验证方法与装置 Download PDF

Info

Publication number
CN114997155A
CN114997155A CN202210619901.3A CN202210619901A CN114997155A CN 114997155 A CN114997155 A CN 114997155A CN 202210619901 A CN202210619901 A CN 202210619901A CN 114997155 A CN114997155 A CN 114997155A
Authority
CN
China
Prior art keywords
entity
evidence
statement
representation
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210619901.3A
Other languages
English (en)
Inventor
杨鹏
汤亚玲
李文军
解然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huaxun Technology Co ltd
Original Assignee
Zhejiang Huaxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huaxun Technology Co ltd filed Critical Zhejiang Huaxun Technology Co ltd
Priority to CN202210619901.3A priority Critical patent/CN114997155A/zh
Publication of CN114997155A publication Critical patent/CN114997155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于表格检索和实体图推理的事实验证方法与装置,方法包括如下步骤:首先针对输入的文本声明,进行表格证据检索,得到与声明最相关的表格证据集合;接着利用BERT模型对表格和文本声明进行编码,并得到表格和文本中的实体表示;然后将获取的实体表示和声明表示构建为实体图,并利用注意力聚合及信息融合操作增强表格实体与声明的交互;最后利用最佳表格提取操作获得最终声明的验证结果。本发明利用信息检索技术赋予模型表格证据检索的能力,并结合图注意力以及信息融合等操作增强模型的验证准确率,能够在海量语料库中根据给定声明检索表格证据,并结合表格证据对网络中的声明进行真实性验证。

Description

一种基于表格检索和实体图推理的事实验证方法与装置
技术领域
本发明涉及一种基于表格检索和实体图推理的事实验证方法与装置,属于互联网与人工智能技术领域。
背景技术
为抑制假新闻和虚假信息的负面社会影响,引导人们正确认识现实世界,越来越多的研究者开始关注文本的事实验证(Fact Verification),该任务旨在根据语料库或者证据库验证给定声明真实与否,这一任务可以作为谣言检测或者虚假新闻验证的基础,其验证能力的提升可以对谣言检测等任务产生正面影响,从而有效保护社交媒体环境。但是,传统的事实验证模型主要面向非结构化数据,例如将文本作为语料库,难以推广到语料库为结构化或者半结构化数据的情况,因此面向表格型数据进行事实验证是同等重要但尚未充分解决的问题。
现有面向表格型数据的事实验证研究通常给定声明的单个关联表,这虽然对模型的开发非常有用,但是这种封闭的设置不能反映现实世界的事实验证任务,在现实任务中通常难以得知要查阅哪个表来获取证据。检索与声明相关的证据是一项重要需求,因为证据为声明的验证结果提供了基本理由,这对于让用户相信系统的验证能力并评估其正确性至关重要。因此,要满足现实系统,必须包含从大型数据源中检索证据的步骤。表格证据检索过程需要模型能够在具有庞大数量的语料库中搜索出与声明相关程度最高的一组表格。验证过程不仅面临与给定单个关联表格场景中类似的问题且需要利用检索到的多个表格证据,这需要模型能精准地结合表格中的关键信息进行推理,但现有技术尚无法实现。
发明内容
针对现有技术中存在的问题,本发明提出一个基于表格检索和实体图推理的事实验证模型,促使模型具备从大型语料库中检索与声明相关信息的能力,使得模型的验证过程有证据支撑,并且该模型通过实体图推理与信息融合等操作,增强模型的验证准确率。
为了达到上述目的,本发明提供如下技术方案:
一种基于表格检索和实体图推理的事实验证方法,包括如下步骤:
步骤1,获取与文本声明相关的表格证据集合
通过计算证据语料库中每个表格内容双元表示的TF-IDF向量点积来获取表格中每个token的编码,使用同样的方法对文本声明所包含实体的token进行编码;根据表格单词表示与实体表示之间的最佳匹配得分之和作为表格证据与声明之间的匹配得分,将得分排名前k的表格作为检索到的证据集合;
步骤2,获取表格证据集合以及文本声明的初步表示
将步骤1中获取的表格证据集合以及给定的文本声明作为BERT模型的输入,获取初步编码表示;通过BERTNER对表格证据集合中涉及的实体进行识别,获取实体的初步表示;
步骤3,根据抽取的实体构建并初始化实体图,在此基础上进行图推理
将表格中的实体以及文本声明句子作为实体图中的节点,并根据节点之间的关系构建实体图的边,并利用GAT进行节点间的信息传播,获取实体节点以及声明节点的特征表示;
步骤4,融合表格与声明之间的信息
经过实体图处理获得每个表格中的实体节点的特征表示后,通过注意力聚合机制来融合不同表格以及不同实体之间的信息,并利用信息融合机制感知声明特征表示;
步骤5,获取最终对声明真实性的预测结果
将融合信息层输出的表格表示作为全连接层分类器的输入,得到一组预测输出,表示根据每一个表格获得的对声明的预测;使用联合建模表格证据的检索重排序以及声明验证过程的方法,获取最佳证据表格并得到声明的最终验证结果。
进一步的,所述步骤1具体包括如下过程:
首先计算表格中每个单元包含的字词bi-gram的TF-IDF,得到表格的TF-IDF向量表示:
Figure BDA0003675984120000021
然后,在文本声明和表格单元或者表格标题之间搜索最长的子字符串匹配对,将匹配的短语表示为链接实体,并对链接到的实体进行bi-gram的TF-IDF向量表示:
Figure BDA0003675984120000022
计算文本声明和表格之间的得分,计算方式如式(1)所示:
Figure BDA0003675984120000023
将得分排名前k的表格作为检索到的证据集合Ts
进一步的,所述步骤2具体包括如下过程:
子步骤2-1:骤将Ts中的每一个表格ti与文本声明s进行连接,在连接后的序列前添加[CLS]标识符,然后把这个长序列作为BERT预训练模型的输入,并将输出的[CLS]标识符的特征表示作为每一个证据表格的特征编码表示
Figure BDA0003675984120000024
如公式(2):
ri=BERT(ti,s) (2)
同时,BERT模型输出对表格的编码表示
Figure BDA0003675984120000025
以及对文本声明的编码表示
Figure BDA0003675984120000026
其中L1和L2分别表示表格的长度和文本声明的长度;
子步骤2-2:对表格证据中涉及的实体进行识别,使用BERTNER作为实体识别工具来从表格证据中提取实体,并直接利用与实体相关的表格单元内容来生成实体表示;具体包括:通过构建一个二进制矩阵Me来记录实体
Figure BDA0003675984120000031
与表格中每一个token之间的关系;模型通过在BERT编码器之上构建一个全连接层,将表格表示的向量维度进行转换使得
Figure BDA0003675984120000032
计算过程如式(3):
Figure BDA0003675984120000033
通过将二进制矩阵Me与表格表示ti相乘来保留与实体相关的行,然后通过平均池化层以及最大池化层的连接作为实体的表示Ei,具体计算过程如下所示:
Figure BDA0003675984120000034
Figure BDA0003675984120000035
Figure BDA0003675984120000036
其中,mean-pool和max-pool分别代表平均池化操作和最大池化操作,⊙代表矩阵的元素相乘(element-wise),最终可以得到ti中的实体表示:
Figure BDA0003675984120000037
则所有检索到的表格证据中的实体表示为:E=[E1,...,Ek]=[e1,...,em]。
进一步的,所述子步骤2-2中,若矩阵中Me(i,j)=1,则表示表格中的第j个token属于实体ei范围内,若为0则代表这个字符与该实体无关。
进一步的,所述步骤3具体包括如下过程:
子步骤3-1:首先,模型根据声明中字符的平均池化结果将声明节点初始化为如式(7)所示的
Figure BDA00036759841200000313
Figure BDA0003675984120000038
然后,通过计算一个选择门g来计算声明与实体之间的相关性,并可获得实体节点的初始表示E(0),计算过程如下所示:
Figure BDA0003675984120000039
g=σ([λ1,…,λm]) (9)
E(0)=gE=[g1e1,…,gmem] (10)
子步骤3-2:采用GAT来传播节点信息以进行推理;图中节点的初始表示为
Figure BDA00036759841200000310
Figure BDA00036759841200000311
包含m个实体节点以及一个文本声明节点;获得第t-1层的节点表示
Figure BDA00036759841200000312
后,通过一个图注意力层来得到第t层的节点表示,图注意力层分为注意力系数计算以及结点间的加权求和;
首先通过一个线性层对上一层获得的实体表示进行处理,计算过程如式(11):
Figure BDA0003675984120000041
其中,
Figure BDA0003675984120000042
是模型的可训练参数,然后通过共享注意力机制计算表示实体j特征对实体i的重要性的注意力系数
Figure BDA0003675984120000043
计算过程如式(12):
Figure BDA0003675984120000044
Figure BDA0003675984120000045
表示一个单层的前馈神经网络层,得到实体之间的注意力系数之后,模型根据该系数计算实体节点之间的注意力得分,计算过程如式(13):
Figure BDA0003675984120000046
其中,
Figure BDA0003675984120000047
代表两实体之间的注意力权重,表示要从实体i传播到实体j的信息的比例;
每个节点通过聚合来自其邻居的信息进行更新,如式(14)所示:
Figure BDA0003675984120000048
ReLU函数为激活函数,Bi表示节点ni的所有邻居节点,通过式可以获得经过第t层处理后的所有实体表示
Figure BDA0003675984120000049
进一步的,所述步骤4具体包括如下过程:
首先将文本声明的表示
Figure BDA00036759841200000417
作为查询向量来计算每个实体
Figure BDA00036759841200000410
与其注意力得分μj,计算过程如式(15)所示:
Figure BDA00036759841200000411
其中,
Figure BDA00036759841200000412
Figure BDA00036759841200000413
为模型的权重矩阵,||表示连接操作;得到实体与声明之间的注意力得分后,通过使用softmax函数获取归一化的权重系数αj来对各实体表示蕴含的信息进行聚合,具体如式(16):
Figure BDA00036759841200000414
其中,m表示表格证据集合中包含的实体数量;根据归一化权重系数αj获得聚合后的实体表示a,具体计算如式(17):
Figure BDA00036759841200000415
最后,利用融合层将
Figure BDA00036759841200000416
与公式(2)获得的表格证据表示ri连接作为下游最终结果预测的输入,即通过信息融合层处理过的单个表格表示为
Figure BDA0003675984120000051
表格证据集合表示为
Figure BDA0003675984120000052
进一步的,所述步骤5具体包括如下过程:
在给定声明和获取到一组表格证据的前提下,假设声明验证结果c和v是独立变量,则p(c,v∣s,Ts)也是一个分类分布,且具有一个可以优化的正确结果,这一结果表示检索正确的表格证据以及声明的正确预测结果,在训练阶段,通过式(18)获得该分布结果:
p(c,v∣s,Ts)=σ(fmlp((Ts)c)v) (18)
其中,fmlp表示全连接层,σ表示softmax函数;在测试阶段,模型通过对表格选择变量c进行边缘化来得到最终声明的验证结果分布,具体如式(19)所示:
Figure BDA0003675984120000053
同时,该模块通过边缘化变量v预测与文本声明匹配的最佳表格证据,如式(20)所示:
Figure BDA0003675984120000054
根据式(19)获得的分布,通过构建交叉熵损失函数来训练模型获得最佳表格证据。
进一步的,所述步骤5中,在训练阶段,若集合Ts未包含真实表格证据,则将Ts中得分最低的表格替换为tg
本发明还提供了一种基于表格检索和实体图推理的事实验证装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于表格检索和实体图推理的事实验证方法。
进一步的,基于表格检索和实体图推理的事实验证装置包括表格证据检索模块和声明验证模块;基于实体链接的表格证据检索模块用于获取与声明相关的表格证据集合,作为验证模块的证据支撑,具体包括基于表格检索和实体图推理的事实验证方法中步骤1内容;基于实体图推理的声明验证模块用于有效提取表格证据集合中的关键信息,从而获得对声明的验证结果,具体包括基于表格检索和实体图推理的事实验证方法中步骤2-5内容。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明通过结合TF-IDF和实体链接进行表格检索,来为模型验证过程提供证据支撑,并且提取多个证据表格中的实体构建图神经网络来有效整合表格中与声明相关的关键信息,最后利用注意力聚合以及信息融合操作增强声明与证据之间的关联,从而提升模型对声明的验证准确率。
2.本发明还提供了一个基于表格检索和实体图推理的事实验证装置,应用于未给定与声明相关表格的事实验证场景,包含基于实体链接的表格证据检索模块以及基于实体图推理的声明验证模块。为了建模表格证据检索步骤,本发明将给定与声明相关表格的场景中所有涉及的表格作为证据检索的大型语料库,并通过实体链接与TF-IDF结合的方式,进行表格证据的检索;在声明验证模块,为了生成检索到的表格内以及表格间更细粒度的证据特征,本发明提出一个基于实体图的事实验证算法。该算法将实体作为图中的节点,并根据表格实体中的关系以及实体与声明之间的关系构造图中的边。为了约束与声明相关的实体子图中的信息传播,本算法引入门约束,并应用图神经网络传播实体特征进行推理。为了使模型在检索阶段能获得更为准确的证据表格,对表格证据检索排序过程以及声明验证过程进行联合训练。
附图说明
图1为本发明实施例的方法总体框架图。
图2为声明验证模块的模型结构图。
图3为本发明实施例的方法流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
参见图1、图2、图3,一种基于表格检索和实体图推理的事实验证方法,具体实施步骤如下:
步骤1,首先计算表格中每个单元包含的字词双元(bi-gram)的TF-IDF,得到表格的TF-IDF向量表示:
Figure BDA0003675984120000061
表示表格t获得的bi-gram词表中第m个token;然后,在文本声明和表格单元或者表格标题之间搜索最长的子字符串匹配对,将匹配的短语表示为链接实体,并对链接到的实体进行bi-gram的TF-IDF向量表示:
Figure BDA0003675984120000062
表示声明s中的实体获得的bi-gram词表中的第n个token;最后为了能获得能对文本声明进行验证的表格证据集合Ts,接下来将计算文本声明和表格之间的得分,计算方式如式(1)所示:
Figure BDA0003675984120000063
将得分排名前k的表格作为检索到的证据集合Ts
步骤2,将步骤1获得的表格证据集合Ts={t1,...,tk}以及文本声明s作为声明验证模块的输入,该模块的模型结构如图2所示。步骤2用来获取输入的初始表示以及实体的初步表示,可以分为以下两个子步骤:
子步骤2-1:为了获得表格证据和文本声明的初步表示,该步骤将Ts中的每一个表格ti与文本声明s进行连接,在连接后的序列前添加[CLS]标识符,然后把这个长序列作为BERT预训练模型的输入,并将输出的[CLS]标识符的特征表示作为每一个证据表格的特征编码表示
Figure BDA0003675984120000071
d表示BERT输出向量的隐层维度,如公式(2):
ri=BERT(ti,s) (2)
同时,BERT模型会输出对表格的编码表示
Figure BDA0003675984120000072
以及对文本声明的编码表示
Figure BDA0003675984120000073
Figure BDA0003675984120000074
其中L1和L2分别表示表格的长度和文本声明的长度。
子步骤2-2:对表格证据中涉及的实体进行识别,使用BERT NER作为实体识别工具来从表格证据中提取实体,并直接利用与实体相关的表格单元内容来生成实体表示。具体来说,通过构建一个二进制矩阵Me来记录实体
Figure BDA0003675984120000075
与表格中每一个token之间的关系,d1表示实体表示的隐层维度。若矩阵中Me(i,j)=1,则表示表格中的第j个token属于实体ei范围内,若为0则代表这个字符与该实体无关。除此之外,为了保持向量维度的一致性,模型通过在BERT编码器之上构建一个全连接层,将表格表示的向量维度进行转换使得
Figure BDA0003675984120000076
计算过程如式(3):
Figure BDA0003675984120000077
为了获得最终的实体表示,该模块仅通过将二进制矩阵Me与表格表示ti相乘来保留与实体相关的行,然后通过平均池化层以及最大池化层的连接作为实体的表示Ei,具体计算过程如下所示:
Figure BDA0003675984120000078
Figure BDA0003675984120000079
Figure BDA00036759841200000710
其中,fmean-pool(·)和fmax-pool(·)分别代表平均池化操作和最大池化操作,⊙代表矩阵的元素相乘(element-wise),fconcat(·)表示连接操作,最终可以得到ti中的实体表示:
Figure BDA00036759841200000711
Figure BDA00036759841200000712
则所有检索到的表格证据中的实体可以表示为:E=[E1,...,Ek]=[e1,...,em]。
步骤3,为了充分捕获实体之间的语义关系,本发明基于表格实体间的关系以及实体与声明之间的关系构建一个实体图。该实体图中包含两类节点,一类是从表格中提取的实体节点,另一类是文本声明节点。这两类节点间可以构建以下两类边:(1)同一表格中的实体之间存在相连的边;(2)不同表格间的相同实体之间存在相连的边;(3)所有实体与声明节点之间存在相连的边。步骤3可以分为以下两个子步骤:
子步骤3-1:首先,模型根据声明中字符的平均池化结果将声明节点初始化为如式(7)所示的
Figure BDA0003675984120000081
Figure BDA0003675984120000082
然后,通过计算一个选择门g来计算声明与实体之间的相关性,并可获得实体节点的初始表示E(0),计算过程如下所示:
Figure BDA0003675984120000083
g=σ([λ1,…,λm]) (9)
E(0)=gE=[g1e1,…,gmem] (10)
其中,Wg表示权重系数,ei为声明中第i个实体的表示,σ表示softmax函数。
子步骤3-2:该步骤采用GAT来传播节点信息以进行推理。图中节点的初始表示为
Figure BDA0003675984120000084
Figure BDA0003675984120000085
包含m个实体节点以及一个文本声明节点。具体来说,获得第t-1层的节点表示
Figure BDA0003675984120000086
后,可以通过一个图注意力层来得到第t层的节点表示,图注意力层分为注意力系数计算以及结点间的加权求和。
为了获得节点之间的注意力系数,首先通过一个线性层对上一层获得的实体表示进行处理,得到如式(11)所示的隐层表示
Figure BDA0003675984120000087
Figure BDA0003675984120000088
其中,
Figure BDA0003675984120000089
是模型的可训练参数,然后通过共享注意力机制计算表示实体j特征对实体i的重要性的注意力系数
Figure BDA00036759841200000810
计算过程如式(12):
Figure BDA00036759841200000811
Figure BDA00036759841200000812
表示一个单层的前馈神经网络层,fLR(·)表示激活函数LeakReLU。得到实体之间的注意力系数之后,模型根据该系数计算实体节点之间的注意力得分,计算过程如式(13):
Figure BDA00036759841200000813
其中,
Figure BDA00036759841200000814
代表两实体之间的注意力权重,表示要从实体i传播到实体j的信息的比例,exp()表示指数函数。
为了根据注意力系数进行加权求和获得节点的最终表示,每个节点通过聚合来自其邻居的信息进行更新,如式(14)所示:
Figure BDA00036759841200000815
fR表示ReLU激活函数,Bi表示节点ni的所有邻居节点,通过式(14)可以获得经过第t层处理后的所有实体表示
Figure BDA0003675984120000091
步骤4,在获得每个表格证据中的实体节点表示后,该模块通过注意力聚合机制来融合不同表格以及不同实体之间的信息。该模块首先将文本声明的表示
Figure BDA0003675984120000092
作为查询向量来计算每个实体
Figure BDA0003675984120000093
与其注意力得分μj,计算过程如式(15)所示:
Figure BDA0003675984120000094
其中,
Figure BDA0003675984120000095
Figure BDA0003675984120000096
为模型的权重矩阵,||表示连接操作。得到实体与声明之间的注意力得分后,该模块通过使用softmax函数获取归一化的权重系数αj来对各实体表示蕴含的信息进行聚合,具体如式(16):
Figure BDA0003675984120000097
其中,m表示表格证据集合中包含的实体数量。根据归一化权重系数αj可以获得聚合后的实体表示a,具体计算如式(17):
Figure BDA0003675984120000098
最后,利用融合层将
Figure BDA0003675984120000099
与公式(2)获得的表格证据表示ri连接作为下游最终结果预测的输入,即通过信息融合层处理过的单个表格可以表示为
Figure BDA00036759841200000910
表格证据集合可以表示为
Figure BDA00036759841200000911
步骤5,将融合信息层输出的表格表示
Figure BDA00036759841200000912
作为全连接层分类器的输入,可以得到一组预测输出L=(L1,…,Lk),表示根据每一个表格获得的对声明的预测。为了文本声明最终的预测结果,本发明使用联合建模表格证据的检索重排序以及声明验证过程的方法。
具体来说,在训练阶段模型假设每个声明的最佳匹配证据表格可以得到,并可以用来学习证据排序函数。模型将其建模为从集合Ts中选择正确的表,并设置一个分类变量c来表明应该选择哪一个证据表。因此,在给定声明和获取到一组表格证据的前提下,本发明假设c和v(声明验证结果)是独立变量,则p(c,v∣s,Ts)也是一个分类分布,且具有一个可以优化的正确结果,这一结果表示检索正确的表格证据以及声明的正确预测结果,在训练阶段,通过式(18)获得该分布结果:
p(c,v∣s,Ts)=σ(fmlp((Ts)c)v) (18)
其中,fmlp表示全连接层,σ表示softmax函数。在测试阶段,模型通过对表格选择变量c进行边缘化来得到最终声明的验证结果分布,具体如式(19)所示:
Figure BDA0003675984120000101
同时,该模块通过边缘化变量v预测与文本声明匹配的最佳表格证据,如式(20)所示:
Figure BDA0003675984120000102
根据式(19)和(20)获得的分布,本发明通过构建交叉熵损失函数来训练模型获得最佳表格证据。为保证真实表格证据tg出现,在训练阶段,若集合Ts未包含真实表格证据,则将Ts中得分最低的表格替换为tg
基于相同的发明构思,本发明实施例公开了一种基于表格检索和实体图推理的事实验证装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于表格检索和实体图推理的事实验证方法。具体的,该装置结构如图1所示,包括表格证据检索模块和声明验证模块。基于实体链接的表格证据检索模块用于获取与声明相关的表格证据集合,作为验证模块的证据支撑,具体包括基于表格检索和实体图推理的事实验证方法中步骤1内容;基于实体图推理的声明验证模块用于有效提取表格证据集合中的关键信息,从而获得对声明的验证结果,具体包括基于表格检索和实体图推理的事实验证方法中步骤2内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于表格检索和实体图推理的事实验证方法,其特征在于,包括如下步骤:
步骤1,获取与文本声明相关的表格证据集合
通过计算证据语料库中每个表格内容双元表示的TF-IDF向量点积来获取表格中每个token的编码,使用同样的方法对文本声明所包含实体的token进行编码;根据表格单词表示与实体表示之间的最佳匹配得分之和作为表格证据与声明之间的匹配得分,将得分排名前k的表格作为检索到的证据集合;
步骤2,获取表格证据集合以及文本声明的初步表示
将步骤1中获取的表格证据集合以及给定的文本声明作为BERT模型的输入,获取初步编码表示;通过BERTNER对表格证据集合中涉及的实体进行识别,获取实体的初步表示;
步骤3,根据抽取的实体构建并初始化实体图,在此基础上进行图推理
将表格中的实体以及文本声明句子作为实体图中的节点,并根据节点之间的关系构建实体图的边,并利用GAT进行节点间的信息传播,获取实体节点以及声明节点的特征表示;
步骤4,融合表格与声明之间的信息
经过实体图处理获得每个表格中的实体节点的特征表示后,通过注意力聚合机制来融合不同表格以及不同实体之间的信息,并利用信息融合机制感知声明特征表示;
步骤5,获取最终对声明真实性的预测结果
将融合信息层输出的表格表示作为全连接层分类器的输入,得到一组预测输出,表示根据每一个表格获得的对声明的预测;使用联合建模表格证据的检索重排序以及声明验证过程的方法,获取最佳证据表格并得到声明的最终验证结果。
2.根据权利要求1所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤1具体包括如下过程:
首先计算表格中每个单元包含的字词bi-gram的TF-IDF,得到表格的TF-IDF向量表示:
Figure FDA0003675984110000011
然后,在文本声明和表格单元或者表格标题之间搜索最长的子字符串匹配对,将匹配的短语表示为链接实体,并对链接到的实体进行bi-gram的TF-IDF向量表示:
Figure FDA0003675984110000012
计算文本声明和表格之间的得分,计算方式如式(1)所示:
Figure FDA0003675984110000013
将得分排名前k的表格作为检索到的证据集合Ts
3.根据权利要求1所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤2具体包括如下过程:
子步骤2-1:骤将Ts中的每一个表格ti与文本声明s进行连接,在连接后的序列前添加[CLS]标识符,然后把这个长序列作为BERT预训练模型的输入,并将输出的[CLS]标识符的特征表示作为每一个证据表格的特征编码表示
Figure FDA0003675984110000021
如公式(2):
ri=BERT(ti,s) (2)
同时,BERT模型输出对表格的编码表示
Figure FDA0003675984110000022
以及对文本声明的编码表示
Figure FDA0003675984110000023
其中L1和L2分别表示表格的长度和文本声明的长度;
子步骤2-2:对表格证据中涉及的实体进行识别,使用BERTNER作为实体识别工具来从表格证据中提取实体,并直接利用与实体相关的表格单元内容来生成实体表示;具体包括:通过构建一个二进制矩阵Me来记录实体
Figure FDA0003675984110000024
与表格中每一个token之间的关系;模型通过在BERT编码器之上构建一个全连接层,将表格表示的向量维度进行转换使得
Figure FDA0003675984110000025
计算过程如式(3):
Figure FDA0003675984110000026
通过将二进制矩阵Me与表格表示ti相乘来保留与实体相关的行,然后通过平均池化层以及最大池化层的连接作为实体的表示Ei,具体计算过程如下所示:
Figure FDA0003675984110000027
Figure FDA0003675984110000028
Figure FDA0003675984110000029
其中,mean-pool和max-pool分别代表平均池化操作和最大池化操作,⊙代表矩阵的元素相乘(element-wise),最终可以得到ti中的实体表示:
Figure FDA00036759841100000210
则所有检索到的表格证据中的实体表示为:E=[E1,...,Ek]=[e1,…,em]。
4.根据权利要求3所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述子步骤2-2中,若矩阵中Me(i,j)=1,则表示表格中的第j个token属于实体ei范围内,若为0则代表这个字符与该实体无关。
5.根据权利要求1所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤3具体包括如下过程:
子步骤3-1:首先,模型根据声明中字符的平均池化结果将声明节点初始化为如式(7)所示的
Figure FDA00036759841100000212
Figure FDA00036759841100000211
然后,通过计算一个选择门g来计算声明与实体之间的相关性,并可获得实体节点的初始表示E(0),计算过程如下所示:
Figure FDA0003675984110000031
g=σ([λ1,…,λm]) (9)
E(0)=gE=[g1e1,…,gmem] (10)
子步骤3-2:采用GAT来传播节点信息以进行推理;图中节点的初始表示为
Figure FDA0003675984110000032
Figure FDA0003675984110000033
包含m个实体节点以及一个文本声明节点;获得第t-1层的节点表示
Figure FDA0003675984110000034
后,通过一个图注意力层来得到第t层的节点表示,图注意力层分为注意力系数计算以及结点间的加权求和;
首先通过一个线性层对上一层获得的实体表示进行处理,计算过程如式(11):
Figure FDA0003675984110000035
其中,
Figure FDA0003675984110000036
是模型的可训练参数,然后通过共享注意力机制计算表示实体j特征对实体i的重要性的注意力系数
Figure FDA0003675984110000037
计算过程如式(12):
Figure FDA0003675984110000038
Figure FDA0003675984110000039
表示一个单层的前馈神经网络层,得到实体之间的注意力系数之后,模型根据该系数计算实体节点之间的注意力得分,计算过程如式(13):
Figure FDA00036759841100000310
其中,
Figure FDA00036759841100000311
代表两实体之间的注意力权重,表示要从实体i传播到实体j的信息的比例;
每个节点通过聚合来自其邻居的信息进行更新,如式(14)所示:
Figure FDA00036759841100000312
ReLU函数为激活函数,Bi表示节点ni的所有邻居节点,通过式可以获得经过第t层处理后的所有实体表示
Figure FDA00036759841100000313
6.根据权利要求1所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤4具体包括如下过程:
首先将文本声明的表示
Figure FDA00036759841100000318
作为查询向量来计算每个实体
Figure FDA00036759841100000314
与其注意力得分μj,计算过程如式(15)所示:
Figure FDA00036759841100000317
其中,
Figure FDA00036759841100000315
Figure FDA00036759841100000316
为模型的权重矩阵,||表示连接操作;得到实体与声明之间的注意力得分后,通过使用softmax函数获取归一化的权重系数αj来对各实体表示蕴含的信息进行聚合,具体如式(16):
Figure FDA0003675984110000041
其中,m表示表格证据集合中包含的实体数量;根据归一化权重系数αj获得聚合后的实体表示a,具体计算如式(17):
Figure FDA0003675984110000042
最后,利用融合层将
Figure FDA0003675984110000043
与公式(2)获得的表格证据表示ri连接作为下游最终结果预测的输入,即通过信息融合层处理过的单个表格表示为
Figure FDA0003675984110000044
表格证据集合表示为
Figure FDA0003675984110000045
7.根据权利要求1所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤5具体包括如下过程:
在给定声明和获取到一组表格证据的前提下,假设声明验证结果c和v是独立变量,则p(c,v∣s,Ts)也是一个分类分布,且具有一个可以优化的正确结果,这一结果表示检索正确的表格证据以及声明的正确预测结果,在训练阶段,通过式(18)获得该分布结果:
p(c,v∣s,Ts)=σ(fmlp((Ts)c)v) (18)
其中,fmlp表示全连接层,σ表示softmax函数;在测试阶段,模型通过对表格选择变量c进行边缘化来得到最终声明的验证结果分布,具体如式(19)所示:
Figure FDA0003675984110000046
同时,该模块通过边缘化变量v预测与文本声明匹配的最佳表格证据,如式(20)所示:
Figure FDA0003675984110000047
根据式(19)获得的分布,通过构建交叉熵损失函数来训练模型获得最佳表格证据。
8.根据权利要求7所述的基于表格检索和实体图推理的事实验证方法,其特征在于,所述步骤5中,在训练阶段,若集合Ts未包含真实表格证据,则将Ts中得分最低的表格替换为tg
9.一种基于表格检索和实体图推理的事实验证装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,该计算机程序被加载至处理器时实现权利要求1-8中任意一项所述的基于表格检索和实体图推理的事实验证方法。
10.根据权利要求9所述的基于表格检索和实体图推理的事实验证装置,其特征在于,基于表格检索和实体图推理的事实验证装置包括表格证据检索模块和声明验证模块;基于实体链接的表格证据检索模块用于获取与声明相关的表格证据集合,作为验证模块的证据支撑,具体包括基于表格检索和实体图推理的事实验证方法中步骤1内容;基于实体图推理的声明验证模块用于有效提取表格证据集合中的关键信息,从而获得对声明的验证结果,具体包括基于表格检索和实体图推理的事实验证方法中步骤2-5内容。
CN202210619901.3A 2022-06-02 2022-06-02 一种基于表格检索和实体图推理的事实验证方法与装置 Pending CN114997155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210619901.3A CN114997155A (zh) 2022-06-02 2022-06-02 一种基于表格检索和实体图推理的事实验证方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210619901.3A CN114997155A (zh) 2022-06-02 2022-06-02 一种基于表格检索和实体图推理的事实验证方法与装置

Publications (1)

Publication Number Publication Date
CN114997155A true CN114997155A (zh) 2022-09-02

Family

ID=83031465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210619901.3A Pending CN114997155A (zh) 2022-06-02 2022-06-02 一种基于表格检索和实体图推理的事实验证方法与装置

Country Status (1)

Country Link
CN (1) CN114997155A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383239A (zh) * 2023-06-06 2023-07-04 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383239A (zh) * 2023-06-06 2023-07-04 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质
CN116383239B (zh) * 2023-06-06 2023-08-15 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
WO2020236483A1 (en) Cross-lingual information retrieval and information extraction
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
Mahalakshmi et al. Summarization of text and image captioning in information retrieval using deep learning techniques
CN113157919A (zh) 语句文本方面级情感分类方法及系统
Kalaivani et al. A review on feature extraction techniques for sentiment classification
Dangi et al. An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network
Zhou et al. Deep personalized medical recommendations based on the integration of rating features and review sentiment analysis
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
Chen et al. Cnfrd: A few-shot rumor detection framework via capsule network for COVID-19
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN113435212B (zh) 一种基于规则嵌入的文本推断方法及装置
JP2019133563A (ja) 情報処理装置および情報処理システム
Lang et al. Multi-level retrieval with semantic Axiomatic Fuzzy Set clustering for question answering
Hilmiaji et al. Identifying Emotion on Indonesian Tweets using Convolutional Neural Networks
Hameed User ticketing system with automatic resolution suggestions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination