CN114969279A

CN114969279A - 一种基于层次图神经网络的表格文本问答方法

Info

Publication number: CN114969279A
Application number: CN202210380864.5A
Authority: CN
Inventors: 杨鹏; 李文军; 汤亚玲; 陈维威
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-30

Abstract

本发明公开了一种基于层次图神经网络的表格文本问答方法，该方法首先通过稀疏检索器快速召回与问题关联的文本证据信息，并将这些证据信息填充到表格中；接着利用表格行选择模型对表格行打分排序，从而找到最有可能包含答案的答案行；然后对答案行以及关联文本融合编码得到特征向量表示，进而使用基于表格行的层次图神经网络对问题、单元格、短文进行图推理，以捕捉表格特有的半结构化信息；最后，通过三个相互关联的子任务求解得到问题对应的答案。本发明能够有效地解决表格和文本相互补充场景下的多跳问答问题。

Description

一种基于层次图神经网络的表格文本问答方法

技术领域

本发明涉及一种基于层次图神经网络的表格文本问答方法，属于互联网和人工智能技术领域。

背景技术

随着大数据、网络工程、通讯工程等相关技术的不断发展与进步，信息的传播变得越来越容易，从而导致网络上各种繁杂信息量呈指数性增长。据统计，互联网上的大部分信息以文本的形式存在，但也有较多信息被存放在半结构化的表格中，表格相比非架构化的文本具有更加严谨的信息聚合性，但是表格中的每个单元格的信息量往往较少，通常表现一个短语或者一个数值。如果能够将表格信息和文本信息相结合，就能在丰富信息量的同时，又能较好地保持结构化特征。例如在维基百科上表格中的单元格，大多数都会与相关的百科实体进行链接，作为对表格信息的补充。如何利用自然语言处理技术对表格文本混合信息进行机器阅读理解，是一个十分具有应用价值的难题。

目前，传统的机器阅读理解的任务主要分为：完形填空、多项选择、常识问答和片段抽取。其中片段抽取是指从给定的预料范围内，通过推理分析，抽取处材料中的文本片段作为答案。片段抽取任务最典型的应用就是问答系统，问答系统允许人们提出符合自然语言形式的问题，然后经过深入的问题分析和知识推理之后，直接返回答案，问答系统能够帮助用户快速从语料库从聚焦关键信息，显著地提高了人们处理信息的效率。由于减少了用户的处理时间，而且便于语音交互，问答系统目前在智能客服、智能检索、IOT智能家居领域等领域获得了广泛应用。尽管越来越多的问答相关算法和系统被提出，但该领域仍有许多挑战需要解决。首先，在大多数数据集中，数据源仅限于一种信息类型，例如非结构化文本、半结构化表格或基于知识的知识图谱。然而，不同类型的数据通常是相互补充的。

目前，由非结构化文本和半结构化表格组成的混合数据源推理场景越来越受到关注。但是大多数问答系统流程比较冗余繁杂，或者推理效果不佳，一种叫做HYBRIDER的表格文本推理方案，该方案主要由三个模型组成推理阶段：排序模型、多跳模型和阅读理解模型。尽管HYBRIDER设计得很好，但它的推理效果仍然不够理想，推理准确度较低。另有一种名为DocHopper的方案，该方案通过一种新机制扩展了现有的基于注意力的方法，以在多跳迭代中更新问题，DocHopper在多个场景上表现良好，但DocHopper对表格文本问答场景的推理效果有限，因为DocHopper只能应用于非结构化文档。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于层次图神经网络的表格文本问答方法，该方法能够快速对繁杂冗余的表格文本信息进行分析推理，从而得到问题对应的答案。

技术方案：为实现上述发明目的，本发明提供一种基于层次图神经网络的表格文本问答方法，首先对问题的答案进行初步定位，选择答案最可能存在的表格行，然后利用图推理对答案进行精确定位。该方法主要包括五个步骤，具体如下：

(1)关键信息检索：使用一个稀疏检索检索器和一个最长子串匹配器在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence)，检索器会计算单元格以及短文句子与问题之间的相似度，同时会选择相似度小于0.8的相关证据信息进行标记。

(2)表格行选择：使用TaPas作为表格编码模型，将包含SE信息的表格行用TaPas进行预编码，然后将所有检索到的SE信息填充到table中来得到整张表的向量表示，通过一个表格行选择器。

(3)长文本编码：使用一个长编码模型来对表格行以及该表格行的外链文本进行编码，以此来获取输入的特征向量表示。

(4)层次图推理：本发明设计并构建一种名为row-HGN的层次图神经网络模型，用row-HGN对三种类型的节点(问题，单元格，短文)进行建模，然后在三种节点之间做图推理，以捕捉半结构化信息。

(5)多任务答案抽取：一种混合的损失作为模型反向传播的函数，通过单元格选择，答案定位选择以及答案位置定位三个子任务来最终定位答案。

相对于现有技术，本发明的有益效果如下：

1.本发明设计了一个包含稀疏检索器和预训练语言模型的行选择方案，解决了混合异构数据的答案初步定位问题，能够快速找到最有可能包含答案的表格行。相比现有技术，本发明能够快速精确地捕捉表格型数据的结构化信息，从而做出推理。

2.本发明提出了一种针对表格文本数据的层次图神经网络，以此来对问题、单元格、短文进行图推理，此外，还构建了三个子任务来完成对答案的精确定位。相比传统方法，本发明能够较好地对表格文本混合数据源信息进行推理，从答案行中精确抽取问题对应的答案。

3.本发明提出的基于表格行的层次图神经网络可以应用到多种面向表格和文本的问答场景中，只要对节点进行更换即可，可扩展性强。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的表格行选择图。

图3为本发明实施例的表格行阅读理解图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1：本发明提供一种基于层次图神经网络的表格文本问答方法，所述方法包括以下步骤：

步骤1：关键信息检索，

本发明通过TF-IDF词频检索和TaPas来完成表格行元数据选择任务，使用TF-IDF来进行问题相关信息的粗召回，旨在降低冗余信息以及噪声对后续推理过程的干扰，之后利用Tapas对包含了关键证据的表格进行编码，旨在能够进行不同表格行之间的推理，最后通过一个分类器选出答案最可能存在的表格行元数据。

表格行选择方案(row-selection)的主要目标是选择答案最可能存在的表格行，本发明利用一个TF-IDF检索器和一个最长子串匹配器去在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence)，检索器会计算单元格以及短文句子与问题之间的相似度，同时会选择相似度小于0.8的相关证据信息标记为SE，也就是说SE既可能来自于与问题直接关联的单元格，也可能来自于短文中的某一个句子，一个SE单元主要包含三个部分，分别是：内容(content)、位置(location)、描述(description)是单元格的值文本，location就是此单元格的坐标，Description置为空；如果SE来自于passage，那么content就是passage的标题，location是这个passage所链接的单元格对应的位置，Description是此passage中被检索到的与问题相关的句子。在本发明的行选择阶段，如公式(1),本发明将所有的SE作为辅助信息，将它们插入到表中相应的单元格之后，部分单元格现在不仅包含单元格本身文本，最后将整个表发送给预先训练好的语言模型来决定哪一行最有可能包含答案。

Cell′_i,j＝Concatenate(Cell_i,j,SE[i,j]) (1)

步骤2：表格行选择，

本发明利用TaPas作为表格编码模型，TaPas模型在传统的Bert模型上面添加了一些表格型数据所特有的位置特征，包括：Position ID、Segment ID、Column ID、Row ID以及RankID，相比传统的绝对位置特征，这些表格层面的位置特征能够更有效地捕捉半结构化信息。TaPas的详细结构在上文中已经描述，此处不再叙述，通过上一步TF-IDF的预检索，获得和问题相关联的部分SE，将SE填充到表格中对应的单元格之后，本发明将新的包含SE信息的表格用TaPas进行预编码，然后将所有检索到的SP信息填充到table种来得到整张表的向量表示，记为TR(Table Representation)，

TR＝TaPas([cell′_0,0,…,cell′_i,j,…,cell′_m,n]) (2)

将表格行(包括这一行单元格所链接的所有passages)视为一个元数据，以便在下游执行表格行阅读理解任务，

Row_i＝MLP(Pooling(TR[start_i∶end_i])) (3)

Pooling表示池化，start_i和end_i表示每行的开始位置和结束位置，然后将Row_i的向量矩阵送到两层MLP构成的classifier中，根据每一行的logits大小选择答案最可能存在的那一行

本发明选择概率最大的那一行作为答案行，并且作为下一阶段的输入。

步骤3：长文本编码，

由于答案位置的不确定性，需要在答案行中的所有单元格以及这些单元格链接的所有短文中找到答案。但在大多数情况下，对于Bert这样语言模型，其输入长度限制为512，对于大部分行文本的长度来说是不够的。一种常见的解决办法是将长文本分块成长度为512的不同块，然后分别处理每个块，然后将每个块的结果与特定任务的模型相结合，但是这样很耗时，而且分块的好坏可能会对答案造成较大的影响。本发明的系统使用Longformer作为第二阶段的编码器。传统的Bert使用的是full attention的，也就是输入的所有token都会跟其他的所有token进行attention的计算，这比较适合于文本长度不是很长的情况，如果文本的长度很长的话，那么O(n²)的时间复杂度是很耗费计算资源的。Longformer设提出一种滑动窗口、扩展滑动窗口、全局注意相结合的注意力模式。针对不同的文本段使用不同的注意力方式，在减少计算量的同时尽最大限度地提升文本信息交互的可靠性。本发明设置question字段为full attention，信息部分设置为sliding windowattention，因为问题对于所有的文本信息都应该是有影响的，而文本token与文本token之间往往只有最相近的部分才会相互影响，一个段落最前面的句子与最后面的句子之间所共享的信息量远没有相邻的两个句子之间共享的信息量大。

本发明将表格行数据转换成自然语言形式的句子，例如：“Header1是A，Header是B”，“header”代表列名，A、B是单元格的内容。本发明把这三个部分按问题、单元格、短文的顺序拼接起来。然后将不同的节点以边的形式连接起来，以捕捉结构信息。

E＝LongFormer(Q,C,P) (5)

步骤4:层次图推理

经过上一步的长文本编码后，本发明得到了答案行元数据的每个token的嵌入。本发明构建一种名为row-HGN的层次图神经网络模型，用row-HGN三种类型的节点(问题，单元格，短文)进行建模，然后进行图推理，三种节点的构造方式分别如下：

在上述公式中，E∈R^l*d表示上一步骤通过Longformer长编码得到的特征向量，l为输入长度(本发明设置为1024)，d为嵌入向量的维数，

和

表示第i个cell的开始和结束位置，

和

表示第i个passage的开始和结束位置，mean(·)表示平均池化运算，最后分别得到Q：问题的特征向量空间，

单元格的特征向量空间，

与该行单元格相关联的短文的特征向量空间。将G＝{Q,C,P}表示为本发明的row-HGH的节点集。为了更好地捕捉表格行的结构信息，本发明定义了两种类型的边：(1)问题节点与单元格节点之间的边；(2)单元格节点与其连接短文节点之间的边。这样构建一方面降低了层次图的复杂度，一方面尽可能地捕捉到了表格行和外链短文的结构。本发明使用门控机制来决定有多少信息传播到下一步。通过以下方式聚合来自每个节点的邻居的信息：

其中，0≤l≤L表示层，N_i表示节点i的邻居，节点，‖*‖表示节点集合的大小，f₁是一个用MLP实现的变换函数，

是在第l层的节点j的特征向量表示。本发明通过加入门控机制来解决推理过程中的平滑问题。

步骤5：多任务答案抽取

经过图推理之后，本发明获得了图节点的特征向量G′＝{Q′,C′,P′},G′∈R^n*d,n＝1+n_c+n_p,本步骤构造三个不同的子任务来最终定位答案的最终位置,分别是：答案分类(answer classition)、单元格选择(cell selection)、片段定位(span location)。首先，对于第一个子任务answer classition，本发明需要去确定答案究竟是再单元格内还是在短文内，这个子任务是一个二分类任务(“In Table”还是“In passage”)。依据的信息是经过图推理之后得到Q′节点的embedding，该过程用公式描述为：

其次，对于在单元格中的那些答案，本发明需要执行一个单元格选择的子任务，这一步是用来确定该单元行中哪个单元格最有可能包含答案的，因为答案具体是在哪一个单元格中是未知的，这一步用公式描述为：

最终，对于段落中的那些答案，需要精确抽取答案的片段开始位置与结束位置，本发明将通过图推理得到的P′和长编码得到的初始特征E进行级联拼接，之后计算答案的开始和结束位置如下：

OutputLayer是一个混合输出层，主要由两层线性层和一层BertBorm层构成。最终，本发明使用一种混合的loss函数作为模型反向传播的函数，总的loss结合了单元格选择，答案定位选择以及答案位置定位三个子任务的loss，计算如下：

L_mix＝αL_location+βL_cell+γL_span (15)

其中，α、β、γ是超参数，L_location、L_cell、L_span分别对应三个子任务的损失值。

综上，本发明提出了两阶段的表格文本问答推理方法，首先使用稀疏搜索器和表格行选择器来选择答案最可能存在的表格行；其次本发明提出了基于表格行的层次图神经网络模型对问题、单元格、短文进行建模，来捕获表格和文本数据的半结构化和文本信息；最终，通过多任务求解得出问题对应的答案。

应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种基于层次图神经网络的表格文本问答方法，其特征在于，包括如下步骤：

(1)关键信息检索：使用一个稀疏检索检索器和一个最长子串匹配器在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence)，检索器会计算单元格以及短文句子与问题之间的相似度，同时会选择相似度小于0.8的相关证据信息进行标记；

(2)表格行选择：使用TaPas作为表格编码模型，将包含SE信息的表格行用TaPas进行预编码，然后将所有检索到的SE信息填充到table中来得到整张表的向量表示，通过一个表格行选择器；

(3)长文本编码：使用一个长编码模型来对表格行以及该表格行的外链文本进行编码，以此来获取输入的特征向量表示；

(4)层次图推理：本发明设计并构建一种名为row-HGN的层次图神经网络模型，用row-HGN对三种类型的节点(问题，单元格，短文)进行建模，然后在三种节点之间做图推理，以捕捉半结构化信息；

2.根据权利要求1所述的基于层次图神经网络的表格文本问答方法，其特征在于，所述TF-IDF检索器会选择相似度小于0.8的相关证据信息标记为SE，并且填充到表格中。

3.根据权利要求1所述的基于层次图神经网络的表格文本问答方法，其特征在于，步骤(2)中表格行选择模型只会选取包含SE信息的表格行进行排序，过程如下：

Row_i＝MLP(Pooling(TR[start_i∶end_i]))

start_i和end_i表示每行的开始位置和结束位置，然后将Row_i的向量矩阵送到两层MLP构成的classifier中，根据每一行的logits大小选择答案最可能存在的那一行，其中MLP是多层感知器，Pooling表示池化层，选取概率最大的表格行作为答案行，计算如下：

其中，softmax是逻辑回归函数，max是最大值函数。

4.根据权利要求1所述的基于层次图神经网络的表格文本问答方法，其特征在于，步骤(3)所述长文本编码会将表格行数据转换成自然语言形式的句子，按问题、单元格、短文的顺序拼接起来，然后将不同的节点以边的形式连接起来，以捕捉结构信息；

E＝LongFormer(Q,C,P)

其中，Q，C，P分别表示问题、单元格和短文输入，LongFormer()表示使用Longformer模型进行长文本编码。

5.根据权利要求1所述的基于层次图神经网络的表格文本问答方法，其特征在于，步骤(4)中，表格行图神经网络会利用门控机制来决定有多少信息传播到下一步，首先，通过以下方式聚合来自每个节点的邻居的信息：

是在第l层的节点j的特征向量表示，本发明通过加入门控机制来解决推理过程中的平滑问题，计算如下：

其中，sigmoid、tanh都是激活函数，f₂由多层感知器实现，

为第l+1层的节点i的特征向量。

6.根据权利要求1所述的基于层次图神经网络的表格文本问答方法，其特征在于，步骤(5)中多任务答案抽取，具体如下：

本发明经过图推理之后，获得了图节点的特征向量G′＝{Q′,C′,P′},G′∈R^n*d,n＝1+n_c+n_p，Q′,C′,P′分别是经过图推理之后得到的问题、单元格、短文节点特征向量，该步骤构造三个不同的子任务来最终定位答案的最终位置,分别是：答案分类(answer classition)、单元格选择(cell selection)、片段定位(span location)，首先，对于第一个子任务，分类依据的信息是经过图推理之后得到Q′节点的特征向量，该过程用公式描述为：

其次，对于在单元格中的答案，需要执行一个单元格选择的子任务，用公式描述为：

最终，对于段落中的答案，需要精确抽取答案的片段开始位置与结束位置，将通过图推理得到的P′和长编码得到的初始特征E进行级联拼接，之后计算答案的开始和结束位置如下：

上述公式中，OutputLayer是一个混合输出层，主要由两层线性层和一层BertBorm层构成，最终，本发明使用一种混合的loss函数作为模型反向传播的函数，总的L_mix结合了单元格选择，答案定位选择以及答案位置定位三个子任务的loss，计算如下：

L_mix＝αL_location+βL_cell+γL_span (15)