CN115186073A

CN115186073A - 一种基于混合检索的开放域表格文本问答方法

Info

Publication number: CN115186073A
Application number: CN202210608960.0A
Authority: CN
Inventors: 杨鹏; 李文军; 汤亚玲; 解然
Original assignee: Zhejiang Huaxun Technology Co ltd
Current assignee: Zhejiang Huaxun Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-10-14

Abstract

本发明公开了一种基于混合检索的开放域表格文本问答方法，包含：生成式增强、双编码器匹配、稀疏检索、密集检索和答案推理共五个步骤。首先通过生成式编码器对单元格内容进行增强，以丰富单元格的信息含量；然后通过双编码器将增强之后的单元格与候选文本进行匹配，从而构建表格文本元数据集合。之后通过稀疏检索和密集检索相结合的方式，快速检索与问题最相关的若干表格文本元数据，以缩小推理的语料范围。最后，对多个表格文本元数据进行长文本编码和推理，精确定位问题对应的答案位置。本发明能够快速地从海量的表格和文本异构数据中检索证据信息并定位问题对应的答案。

Description

一种基于混合检索的开放域表格文本问答方法

技术领域

本发明涉及一种基于混合检索的开放域表格文本问答方法，属于互联网和人工智能技术领域。

背景技术

随着人工智能技术的发展，机器阅读理解相关技术已经广泛的应用于各种现实场景中。现有的机器阅读理解的任务主要分为：完形填空、多项选择、常识问答和片段抽取。其中片段抽取是指从给定的语料范围内，通过推理分析，抽取出材料中的文本片段作为答案。片段抽取任务最典型的应用就是问答系统，问答系统允许人们提出符合自然语言形式的问题，然后经过深入的问题分析和知识推理之后，直接得出答案，能够帮助用户快速从语料库中聚焦关键信息，显著地提高人们处理信息的效率。问答系统目前在智能客服、智能问答、IOT智能家居等领域已经得到了广泛应用。

现今互联网上的大部分数据为非结构化的文本，同时也有很多数据以半结构化的表格形式存在。表格数据相比非结构化的散乱文本具有更为严谨的聚合性，但是表格中单元格的信息量较少，往往表现为一个短语或者一个数值。而将表格信息和文本信息相结合，就能在较好地丰富信息量的同时，又能保持表格的半结构化特征。例如维基百科页面中的表格，往往都在单元格中外链一个对该单元格的详细介绍页面。用户可以点击表格中的单元格链接，来跳转到对应的详细文本介绍页面，这种表格和文本相结合的方式能够使得用户获得较好的阅读体验。

传统的问答系统往往针对的是问题与语料之间一对一的问答场景，但是在日常的生活场景中，问题与语料之间往往不是一对一的关系，而是一对多的关系。对问题的推理求解需要从海量的语料库中检索和问题相关的语料信息，然后再进行推理，这种场景通常被称为开放域问答。开放域的问题允许提问者提出语料库范围内的任意一个问题，因此往往更为复杂，也更加具有挑战性。

综上所述，开放域中面向表格和文本的问答方法研究，是一个十分具有应用价值的研究方向。然而，现有的问答系统在处理表格和文本异构数据时仍然会面临以下问题：

(1)大部分问答系统在处理表格和文本的异构数据时，往往直接将表格数据等同于文本进行处理，丢失了表格所特有的半结构化信息；

(2)在海量语料的开放域场景下，现有的检索方法难以较好地支持对表格和文本异构数据检索，从而导致精度不高，且十分耗时，不利于后续对问题的多跳推理。

发明内容

针对现有技术中存在的问题与不足，本发明提出了一种基于混合检索的开放域表格文本问答方法，该方法能够快速精确地从海量表格和文本异构数据中检索关键证据信息并定位答案位置。

为实现上述发明目的，本发明提供一种基于混合检索的开放域表格文本问答方法，首先将表格中的单元格与相关文本进行匹配，从而将表格行与该行关联的所有文本构建成表格文本元数据作为基本的检索和推理单元。之后利用稀疏检索和密集检索相结合的方式来召回与问题最相关的若干个表格文本元数据。最终通过长文本编码从多个表格文本元数据中定位答案的最终位置。该方法主要包括五个步骤，具体如下：

步骤1，生成式增强

使用生成式编码器，利用表格的相关信息对单元格值进行增强，丰富单元格的信息含量；

步骤2，双编码器匹配

在步骤1的基础之上，本发明通过双编码器，将增强之后的单元格值和候选短文进行匹配；并将表格行与该表格行关联的所有短文抽取出来作为元数据，构建表格文本元数据集合，方便后续的检索和阅读推理；

步骤3，稀疏检索

利用稀疏检索器召回与问题相关的若干表格，以便快速构建表格文本元数据子集，缩小检索范围；

步骤4，密集检索

使用两个密集检索器在表格文本元数据集中检索与问题最相关的若干表格文本元数据；

步骤5，答案推理

对与问题最相关的若干表格文本元数据进行长文本编码，最后通过问答输出层来定位答案的具体位置。

进一步的，所述步骤1具体包括如下过程：

首先对cell单元格用生成式模型进行信息增强，针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强，如公式(1)：

cell'＝Decoder(title,decription,headers,cell) (1)

其中，decription表示表格描述，title表示表格标题，headers表示表头信息，cell表示单元格的值；使用GPT2作为生成器模型，并通过训练集中已知的<单元格值，短文标题>作为导向进行预训练，让内容增强之后的单元格值尽可能地接近与之配对的短文的标题。

进一步的，所述步骤2具体包括如下过程：

首先使用Bi-encoder模型对单元格和候选短文进行编码，将两者映射到统一的特征向量空间，分别获得单元格和短文的特征向量表示y_c和y_p，计算过程如公式(2)和(3)：

y_c＝cls(encoder_bi(cell')) (2)

y_p＝cls(encoder_bi(passage)) (3)

其中，cls(·)表示取模型输出的第一个CLS向量作为语义表示，encoder_bi表示双向编码模型，对于单元格编码如公式(4)：

[CLS]cell_l[Ms]cell'[Me]cell_r[SEP] (4)

其中，cell_l是对应单元格的左边的单元格，cell_r是该单元格右边的单元格，[Ms]，[Me]是特殊字符，用于分割不同的单元格；对于候选短文的编码形式如公式(5)：

[CLS]title[ENT]context[SEP] (5)

其中，title表示候选短文的标题，context是短文的具体内容，[ENT]是特殊分割字符；Bi-encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量，本发明采用点积的方式来计算候选短文和单元格之间的相似度Similarity如公式(6)：

Similarity(cell,passage)＝y_c*y_p (6)

此处的相似度仅用于对Bi-encoder的训练，不作为最后单元格和短文匹配的依据；额外使用一个Cross-encoder来进行匹配编码，以获得不同的单元格和短文之间的匹配度y_c,p，计算过程如公式(7)：

y_c,p＝cls(encoder_cross(y_c,y_p)) (7)

其中，encoder_cross表示交叉编码器，之后通过Bi-encoder获得的单元格和短文的特征向量y_c,y_p拼接之后作为Cross-encoder的输入，并将输出中的cls向量作为单元格和短文的匹配度y_c,p；

通过Bi-encoder和Cross-encoder将所有表格中的单元格和候选短文进行匹配；之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集。

进一步的，所述步骤3具体包括如下过程：

使用BM25算法对表格概要信息构建词频矩阵，在表格层面进行召回，针对表格的稀疏召回过程如公式(8)和(9)：

Ranker＝Bulid_BM25(table title,section title,headers) (8)

Tables＝TopK(Ranker(question)) (9)

其中，Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息headers构建BM25检索器，TopK表示根据问题召回K个最相似的表格；针对问题召回若干的表格Tables之后，从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据，构建一个表格文本元数据子集。

进一步的，所述步骤4具体包括如下过程：

使用元数据编码器D_m(*)将所有的表格文本元数据映射到一个d维度的实数向量空间，并且为其标号排序以方便检索，采用问题编码器D_q(*)，该编码器将问题映射到同一个d维的实数向量空间，编码过程如公式(10)和(11)：

Q＝D_q(question) (10)

M＝D_m(matedate) (11)

其中，Q和M分别表格问题和表格文本元数据的特征向量表示，之后，计算问题和表格文本元数据之间的相似度如公式(12)：

Similarity(q,mateData)＝D_q(question)^T·D_m(mateData) (12)

在推理阶段，用D_m(*)编码器将所有的候选元数据在离线阶段进行事先的预编码，并用FAISS进行存储；设置一定数量的负样本用于模型的训练，记训练数据为

损失计算如(13)：

其中，n为训练数据里面问题的数量，m为一个训练样例中负样本的数量。

进一步的，所述步骤5具体包括如下过程：

使用Longformer对问题和多个表格文本元数据进行长编码，以此获得输入的特征向量E，过程如公式(14)：

E＝Longformer(Question,MateData₁,…,MateData_k) (14)

之后预测答案的开始位置y_start和结束位置y_end如公式(15)和(16)：

y_start＝f_start(E) (15)

y_end＝f_end(E) (16)

其中，f_start和f_end均由一层线性感知层实现，最终通过区间[y_start,y_end]来获取问题对应的答案内容。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明能够精确地从海量的表格和文本异构数据中定位问题对应的答案。

2.本发明首先在表格层面召回与问题最相关的若干表格，构建表格文本元数据子集。然后通过双编码器对在该子集上进行排序以获得最可能包含答案的若干表格文本元数据。相比传统方法，本发明在保证检索精度的同时，减少了检索耗时，能够快速地从海量的表格和文本异构数据中召回与问题相关的证据信息。

附图说明

图1为本发明提供的基于混合检索的开放域表格文本问答方法流程图。

图2为本发明实施例的证据连接图。

图3为本发明实施例的证据检索图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图1-图3所示，本发明提供一种基于混合检索的开放域表格文本问答方法，包括以下步骤：

步骤1：生成式增强

表格相比文本有更为紧密的信息聚合性，但是表格中单元格的信息往往较短，大部分的单元格内容仅仅是短语或者数值，如果直接使用单元格值在候选短文语料库中进行检索的话，容易导致误差。本发明首先对cell单元格用生成式模型进行信息增强。针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强，如公式(1)：

cell'＝Decoder(title,decription,headers,cell) (1)

其中，decription表示表格描述，title表示表格标题，headers表示表头信息，cell表示单元格的值。本发明使用GPT2作为生成器模型Decoder，并通过训练集中已知的<单元格值，短文标题>作为导向进行预训练，让内容增强之后的单元格值尽可能地接近与之配对的短文的标题，以提高后续的配对效果。

步骤2：双编码器匹配

本发明设计了一个双编码器模型，用于对单元格和候选短文之间进行匹配。双编码器包括Bi-encoder和Cross-encoder，Bi-encoder用于将单元格和短文映射到同一个特征向量空间中，Cross-encoder用于对两者进行交叉匹配。

本发明首先使用Bi-encoder模型对单元格和候选短文进行编码，将两者映射到统一的特征向量空间，分别获得单元格和短文的特征向量表示y_c和y_p，计算过程如公式(2)和(3)：

y_c＝cls(encoder_bi(cell')) (2)

y_p＝cls(encoder_bi(passage)) (3)

其中，cls(·)表示取模型输出的第一个CLS向量作为语义表示，encoder_bi表示双向编码模型，passage表示候选段位，对于单元格编码如公式(4)：

[CLS]cell_l[Ms]cell'[Me]cell_r[SEP] (4)

其中，cell_l是对应单元格的左边的单元格，cell_r是该单元格右边的单元格，这样在一定程度上保证了表格行的属性，[Ms]，[Me]是特殊字符，[CLS]和[SEP]为分隔符，用于分割不同的单元格。对于候选短文的编码形式如公式(5)：

[CLS]title[ENT]context[SEP] (5)

其中，title表示候选短文的标题，context是短文的具体内容，[ENT]是特殊分割字符。Bi-encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量，本发明采用点积的方式来计算候选短文和单元格之间的相似度Similarity如公式(6)：

Similarity(cell,passage)＝y_c*y_p (6)

此处的相似度仅用于对Bi-encoder的训练，不作为最后单元格和短文匹配的依据，因为如果单纯使用点积来进行检索可能会存在较大的误差。本发明额外使用一个Cross-encoder来进行匹配编码，以获得不同的单元格和短文之间的匹配度y_c,p，计算过程如公式(7)：

y_c,p＝cls(encodre_cross(y_c,y_p)) (7)

其中，encoder_cross表示交叉编码器，之后通过Bi-encoder获得的单元格和短文的特征向量y_c,y_p拼接之后作为Cross-encoder的输入，并将输出中的cls向量作为单元格和短文的匹配度y_c,p。

通过Bi-encoder和Cross-encoder将所有表格中的单元格和候选短文进行匹配。之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集，便于后续的检索和答案推理。

步骤3：稀疏检索

考虑到直接在所有表格文本元数据上进行检索较为耗时，本发明使用BM25算法对表格概要信息构建词频矩阵，在表格层面进行召回，针对表格的稀疏召回过程如公式(8)和(9)：

Ranker＝Bulid_BM25(table title,section title,headers) (8)

Tables＝TopK(Ranker(question)) (9)

其中，Ranker表示排序器，Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息headers构建BM25检索器，TopK表示根据问题召回K个最相似的表格，question表示问题。针对问题召回若干的表格Tables之后，本发明从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据，构建一个表格文本元数据子集，避免了后续直接从整个表格文本库中进行检索。

步骤4：密集检索

由于单个表格包含的信息量较大，不便于将整个表格信息作为检索的基本单位，因为这样会造成大量的噪声，且影响检索的效率。本发明使用元数据编码器D_m(*)将所有的表格文本元数据映射到一个d维度的实数向量空间，并且为其标号排序以方便检索，与Linker不同的是，本发明对问题的编码采用另一个问题编码器D_q(*)，该编码器将问题映射到同一个d维的实数向量空间，编码过程如公式(10)和(11)：

Q＝D_q(question) (10)

M＝D_m(matedate) (11)

其中，matedate是表格文本元数据，Q和M分别表格问题和表格文本元数据的特征向量表示，之后，计算问题和表格文本元数据之间的相似度如公式(12)：

Similarity(q,mateData)＝D_q(question)^T·D_m(mateData) (12)

其中，question表示问题，在推理阶段，本发明用D_m(*)编码器将所有的候选元数据在离线阶段进行事先的预编码，并用FAISS进行存储，方便后续的检索。对于检索模型的训练往往会涉及到远程监督的问题，因为对于大多数开放域检索场景，正样本是比较容易获得的。但是由于数据集的样本数量过大，无法将除正样本之外的所有负样本放在一个训练样例内，只能设置一定数量的负样本用于模型的训练，记训练数据为

损失计算如(13)：

其中，n为训练数据里面问题的数量，m为一个训练样例中负样本的数量，

表示正样本，

表示负样本，q_i为待匹配样例。

步骤5：答案推理

由于多个表格文本元数据的内容较多，需要使用Longformer对问题和多个表格文本元数据进行长编码，以此获得输入的特征向量E，过程如公式(14)：

E＝Longformer(Question,MateData₁,…,MateData_k) (14)

y_start＝f_start(E) (15)

y_end＝f_end(E) (16)

其中，f_start和f_end为分类器，均由一层线性感知层实现。最终通过区间[y_start,y_end]来获取问题对应的答案内容。

综上，本发明提出了包含五个步骤的开放域表格文本问答推理方法，首先通过生成式编码器对单元格内容进行增强，以丰富单元格的信息含量；然后通过双编码器将增强之后的单元格和候选文本进行匹配，从而构建表格文本元数据集合。之后通过稀疏检索和.0检索相结合的方式，检索与问题最相关的若干表格文本元数据，以缩小推理的语料范围。最后，对多个表格文本元数据进行长文本编码和推理，精确定位问题对应的答案位置。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于混合检索的开放域表格文本问答方法，其特征在于，包括如下步骤：

步骤1，生成式增强

步骤2，双编码器匹配

步骤3，稀疏检索

步骤4，密集检索

步骤5，答案推理

2.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤1具体包括如下过程：

cell′＝Decoder(title，decription，headers，cell) (1)

3.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤2具体包括如下过程：

y_c＝cls(encoder_bi(cell′)) (2)

y_p＝cls(encoder_bi(passage)) (3)

[CLS]cell_l[Ms]cell′[Me]cell_r[SEP] (4)

[CLS]title[ENT]context[SEP] (5)

Similarity(cell，passage)＝y_c*y_p (6)

此处的相似度仅用于对Bi-encoder的训练，不作为最后单元格和短文匹配的依据；额外使用一个Cross-encoder来进行匹配编码，以获得不同的单元格和短文之间的匹配度y_c，p，计算过程如公式(7)：

y_c，p＝cls(encoder_cross(y_c，y_p)) (7)

其中，encoder_cross表示交叉编码器，之后通过Bi-encoder获得的单元格和短文的特征向量y_c，y_p拼接之后作为Cross-encoder的输入，并将输出中的cls向量作为单元格和短文的匹配度y_c，p；

4.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤3具体包括如下过程：

Ranker＝Bulid_BM25(table title，section title，headers) (8)

Tables＝TopK(Ranker(question)) (9)

5.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤4具体包括如下过程：

Q＝D_q(question) (10)

M＝D_m(matedate) (11)

Similarity(q，mateData)＝D_q(question)^T·D_m(mateData) (12)

损失计算如(13)：

6.根据权利要求1所述的基于混合检索的开放域表格文本问答方法，其特征在于，所述步骤5具体包括如下过程：

E＝Longformer(Question，MateData₁，...，MateData_k) (14)

Y_start＝f_start(E) (15)

y_end＝f_end(E) (16)

其中，f_start和f_end均由一层线性感知层实现，最终通过区间[y_start，y_end]来获取问题对应的答案内容。