CN115186073A - 一种基于混合检索的开放域表格文本问答方法 - Google Patents

一种基于混合检索的开放域表格文本问答方法 Download PDF

Info

Publication number
CN115186073A
CN115186073A CN202210608960.0A CN202210608960A CN115186073A CN 115186073 A CN115186073 A CN 115186073A CN 202210608960 A CN202210608960 A CN 202210608960A CN 115186073 A CN115186073 A CN 115186073A
Authority
CN
China
Prior art keywords
cell
text
encoder
question
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210608960.0A
Other languages
English (en)
Inventor
杨鹏
李文军
汤亚玲
解然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huaxun Technology Co ltd
Original Assignee
Zhejiang Huaxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huaxun Technology Co ltd filed Critical Zhejiang Huaxun Technology Co ltd
Priority to CN202210608960.0A priority Critical patent/CN115186073A/zh
Publication of CN115186073A publication Critical patent/CN115186073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合检索的开放域表格文本问答方法,包含:生成式增强、双编码器匹配、稀疏检索、密集检索和答案推理共五个步骤。首先通过生成式编码器对单元格内容进行增强,以丰富单元格的信息含量;然后通过双编码器将增强之后的单元格与候选文本进行匹配,从而构建表格文本元数据集合。之后通过稀疏检索和密集检索相结合的方式,快速检索与问题最相关的若干表格文本元数据,以缩小推理的语料范围。最后,对多个表格文本元数据进行长文本编码和推理,精确定位问题对应的答案位置。本发明能够快速地从海量的表格和文本异构数据中检索证据信息并定位问题对应的答案。

Description

一种基于混合检索的开放域表格文本问答方法
技术领域
本发明涉及一种基于混合检索的开放域表格文本问答方法,属于互联网和人工智能技术领域。
背景技术
随着人工智能技术的发展,机器阅读理解相关技术已经广泛的应用于各种现实场景中。现有的机器阅读理解的任务主要分为:完形填空、多项选择、常识问答和片段抽取。其中片段抽取是指从给定的语料范围内,通过推理分析,抽取出材料中的文本片段作为答案。片段抽取任务最典型的应用就是问答系统,问答系统允许人们提出符合自然语言形式的问题,然后经过深入的问题分析和知识推理之后,直接得出答案,能够帮助用户快速从语料库中聚焦关键信息,显著地提高人们处理信息的效率。问答系统目前在智能客服、智能问答、IOT智能家居等领域已经得到了广泛应用。
现今互联网上的大部分数据为非结构化的文本,同时也有很多数据以半结构化的表格形式存在。表格数据相比非结构化的散乱文本具有更为严谨的聚合性,但是表格中单元格的信息量较少,往往表现为一个短语或者一个数值。而将表格信息和文本信息相结合,就能在较好地丰富信息量的同时,又能保持表格的半结构化特征。例如维基百科页面中的表格,往往都在单元格中外链一个对该单元格的详细介绍页面。用户可以点击表格中的单元格链接,来跳转到对应的详细文本介绍页面,这种表格和文本相结合的方式能够使得用户获得较好的阅读体验。
传统的问答系统往往针对的是问题与语料之间一对一的问答场景,但是在日常的生活场景中,问题与语料之间往往不是一对一的关系,而是一对多的关系。对问题的推理求解需要从海量的语料库中检索和问题相关的语料信息,然后再进行推理,这种场景通常被称为开放域问答。开放域的问题允许提问者提出语料库范围内的任意一个问题,因此往往更为复杂,也更加具有挑战性。
综上所述,开放域中面向表格和文本的问答方法研究,是一个十分具有应用价值的研究方向。然而,现有的问答系统在处理表格和文本异构数据时仍然会面临以下问题:
(1)大部分问答系统在处理表格和文本的异构数据时,往往直接将表格数据等同于文本进行处理,丢失了表格所特有的半结构化信息;
(2)在海量语料的开放域场景下,现有的检索方法难以较好地支持对表格和文本异构数据检索,从而导致精度不高,且十分耗时,不利于后续对问题的多跳推理。
发明内容
针对现有技术中存在的问题与不足,本发明提出了一种基于混合检索的开放域表格文本问答方法,该方法能够快速精确地从海量表格和文本异构数据中检索关键证据信息并定位答案位置。
为实现上述发明目的,本发明提供一种基于混合检索的开放域表格文本问答方法,首先将表格中的单元格与相关文本进行匹配,从而将表格行与该行关联的所有文本构建成表格文本元数据作为基本的检索和推理单元。之后利用稀疏检索和密集检索相结合的方式来召回与问题最相关的若干个表格文本元数据。最终通过长文本编码从多个表格文本元数据中定位答案的最终位置。该方法主要包括五个步骤,具体如下:
步骤1,生成式增强
使用生成式编码器,利用表格的相关信息对单元格值进行增强,丰富单元格的信息含量;
步骤2,双编码器匹配
在步骤1的基础之上,本发明通过双编码器,将增强之后的单元格值和候选短文进行匹配;并将表格行与该表格行关联的所有短文抽取出来作为元数据,构建表格文本元数据集合,方便后续的检索和阅读推理;
步骤3,稀疏检索
利用稀疏检索器召回与问题相关的若干表格,以便快速构建表格文本元数据子集,缩小检索范围;
步骤4,密集检索
使用两个密集检索器在表格文本元数据集中检索与问题最相关的若干表格文本元数据;
步骤5,答案推理
对与问题最相关的若干表格文本元数据进行长文本编码,最后通过问答输出层来定位答案的具体位置。
进一步的,所述步骤1具体包括如下过程:
首先对cell单元格用生成式模型进行信息增强,针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强,如公式(1):
cell'=Decoder(title,decription,headers,cell) (1)
其中,decription表示表格描述,title表示表格标题,headers表示表头信息,cell表示单元格的值;使用GPT2作为生成器模型,并通过训练集中已知的<单元格值,短文标题>作为导向进行预训练,让内容增强之后的单元格值尽可能地接近与之配对的短文的标题。
进一步的,所述步骤2具体包括如下过程:
首先使用Bi-encoder模型对单元格和候选短文进行编码,将两者映射到统一的特征向量空间,分别获得单元格和短文的特征向量表示yc和yp,计算过程如公式(2)和(3):
yc=cls(encoderbi(cell')) (2)
yp=cls(encoderbi(passage)) (3)
其中,cls(·)表示取模型输出的第一个CLS向量作为语义表示,encoderbi表示双向编码模型,对于单元格编码如公式(4):
[CLS]celll[Ms]cell'[Me]cellr[SEP] (4)
其中,celll是对应单元格的左边的单元格,cellr是该单元格右边的单元格,[Ms],[Me]是特殊字符,用于分割不同的单元格;对于候选短文的编码形式如公式(5):
[CLS]title[ENT]context[SEP] (5)
其中,title表示候选短文的标题,context是短文的具体内容,[ENT]是特殊分割字符;Bi-encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量,本发明采用点积的方式来计算候选短文和单元格之间的相似度Similarity如公式(6):
Similarity(cell,passage)=yc*yp (6)
此处的相似度仅用于对Bi-encoder的训练,不作为最后单元格和短文匹配的依据;额外使用一个Cross-encoder来进行匹配编码,以获得不同的单元格和短文之间的匹配度yc,p,计算过程如公式(7):
yc,p=cls(encodercross(yc,yp)) (7)
其中,encodercross表示交叉编码器,之后通过Bi-encoder获得的单元格和短文的特征向量yc,yp拼接之后作为Cross-encoder的输入,并将输出中的cls向量作为单元格和短文的匹配度yc,p
通过Bi-encoder和Cross-encoder将所有表格中的单元格和候选短文进行匹配;之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集。
进一步的,所述步骤3具体包括如下过程:
使用BM25算法对表格概要信息构建词频矩阵,在表格层面进行召回,针对表格的稀疏召回过程如公式(8)和(9):
Ranker=Bulid_BM25(table title,section title,headers) (8)
Tables=TopK(Ranker(question)) (9)
其中,Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息headers构建BM25检索器,TopK表示根据问题召回K个最相似的表格;针对问题召回若干的表格Tables之后,从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据,构建一个表格文本元数据子集。
进一步的,所述步骤4具体包括如下过程:
使用元数据编码器Dm(*)将所有的表格文本元数据映射到一个d维度的实数向量空间,并且为其标号排序以方便检索,采用问题编码器Dq(*),该编码器将问题映射到同一个d维的实数向量空间,编码过程如公式(10)和(11):
Q=Dq(question) (10)
M=Dm(matedate) (11)
其中,Q和M分别表格问题和表格文本元数据的特征向量表示,之后,计算问题和表格文本元数据之间的相似度如公式(12):
Similarity(q,mateData)=Dq(question)T·Dm(mateData) (12)
在推理阶段,用Dm(*)编码器将所有的候选元数据在离线阶段进行事先的预编码,并用FAISS进行存储;设置一定数量的负样本用于模型的训练,记训练数据为
Figure BDA0003672617010000041
Figure BDA0003672617010000042
损失计算如(13):
Figure BDA0003672617010000043
其中,n为训练数据里面问题的数量,m为一个训练样例中负样本的数量。
进一步的,所述步骤5具体包括如下过程:
使用Longformer对问题和多个表格文本元数据进行长编码,以此获得输入的特征向量E,过程如公式(14):
E=Longformer(Question,MateData1,…,MateDatak) (14)
之后预测答案的开始位置ystart和结束位置yend如公式(15)和(16):
ystart=fstart(E) (15)
yend=fend(E) (16)
其中,fstart和fend均由一层线性感知层实现,最终通过区间[ystart,yend]来获取问题对应的答案内容。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明能够精确地从海量的表格和文本异构数据中定位问题对应的答案。
2.本发明首先在表格层面召回与问题最相关的若干表格,构建表格文本元数据子集。然后通过双编码器对在该子集上进行排序以获得最可能包含答案的若干表格文本元数据。相比传统方法,本发明在保证检索精度的同时,减少了检索耗时,能够快速地从海量的表格和文本异构数据中召回与问题相关的证据信息。
附图说明
图1为本发明提供的基于混合检索的开放域表格文本问答方法流程图。
图2为本发明实施例的证据连接图。
图3为本发明实施例的证据检索图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
如图1-图3所示,本发明提供一种基于混合检索的开放域表格文本问答方法,包括以下步骤:
步骤1:生成式增强
表格相比文本有更为紧密的信息聚合性,但是表格中单元格的信息往往较短,大部分的单元格内容仅仅是短语或者数值,如果直接使用单元格值在候选短文语料库中进行检索的话,容易导致误差。本发明首先对cell单元格用生成式模型进行信息增强。针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强,如公式(1):
cell'=Decoder(title,decription,headers,cell) (1)
其中,decription表示表格描述,title表示表格标题,headers表示表头信息,cell表示单元格的值。本发明使用GPT2作为生成器模型Decoder,并通过训练集中已知的<单元格值,短文标题>作为导向进行预训练,让内容增强之后的单元格值尽可能地接近与之配对的短文的标题,以提高后续的配对效果。
步骤2:双编码器匹配
本发明设计了一个双编码器模型,用于对单元格和候选短文之间进行匹配。双编码器包括Bi-encoder和Cross-encoder,Bi-encoder用于将单元格和短文映射到同一个特征向量空间中,Cross-encoder用于对两者进行交叉匹配。
本发明首先使用Bi-encoder模型对单元格和候选短文进行编码,将两者映射到统一的特征向量空间,分别获得单元格和短文的特征向量表示yc和yp,计算过程如公式(2)和(3):
yc=cls(encoderbi(cell')) (2)
yp=cls(encoderbi(passage)) (3)
其中,cls(·)表示取模型输出的第一个CLS向量作为语义表示,encoderbi表示双向编码模型,passage表示候选段位,对于单元格编码如公式(4):
[CLS]celll[Ms]cell'[Me]cellr[SEP] (4)
其中,celll是对应单元格的左边的单元格,cellr是该单元格右边的单元格,这样在一定程度上保证了表格行的属性,[Ms],[Me]是特殊字符,[CLS]和[SEP]为分隔符,用于分割不同的单元格。对于候选短文的编码形式如公式(5):
[CLS]title[ENT]context[SEP] (5)
其中,title表示候选短文的标题,context是短文的具体内容,[ENT]是特殊分割字符。Bi-encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量,本发明采用点积的方式来计算候选短文和单元格之间的相似度Similarity如公式(6):
Similarity(cell,passage)=yc*yp (6)
此处的相似度仅用于对Bi-encoder的训练,不作为最后单元格和短文匹配的依据,因为如果单纯使用点积来进行检索可能会存在较大的误差。本发明额外使用一个Cross-encoder来进行匹配编码,以获得不同的单元格和短文之间的匹配度yc,p,计算过程如公式(7):
yc,p=cls(encodrecross(yc,yp)) (7)
其中,encodercross表示交叉编码器,之后通过Bi-encoder获得的单元格和短文的特征向量yc,yp拼接之后作为Cross-encoder的输入,并将输出中的cls向量作为单元格和短文的匹配度yc,p
通过Bi-encoder和Cross-encoder将所有表格中的单元格和候选短文进行匹配。之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集,便于后续的检索和答案推理。
步骤3:稀疏检索
考虑到直接在所有表格文本元数据上进行检索较为耗时,本发明使用BM25算法对表格概要信息构建词频矩阵,在表格层面进行召回,针对表格的稀疏召回过程如公式(8)和(9):
Ranker=Bulid_BM25(table title,section title,headers) (8)
Tables=TopK(Ranker(question)) (9)
其中,Ranker表示排序器,Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息headers构建BM25检索器,TopK表示根据问题召回K个最相似的表格,question表示问题。针对问题召回若干的表格Tables之后,本发明从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据,构建一个表格文本元数据子集,避免了后续直接从整个表格文本库中进行检索。
步骤4:密集检索
由于单个表格包含的信息量较大,不便于将整个表格信息作为检索的基本单位,因为这样会造成大量的噪声,且影响检索的效率。本发明使用元数据编码器Dm(*)将所有的表格文本元数据映射到一个d维度的实数向量空间,并且为其标号排序以方便检索,与Linker不同的是,本发明对问题的编码采用另一个问题编码器Dq(*),该编码器将问题映射到同一个d维的实数向量空间,编码过程如公式(10)和(11):
Q=Dq(question) (10)
M=Dm(matedate) (11)
其中,matedate是表格文本元数据,Q和M分别表格问题和表格文本元数据的特征向量表示,之后,计算问题和表格文本元数据之间的相似度如公式(12):
Similarity(q,mateData)=Dq(question)T·Dm(mateData) (12)
其中,question表示问题,在推理阶段,本发明用Dm(*)编码器将所有的候选元数据在离线阶段进行事先的预编码,并用FAISS进行存储,方便后续的检索。对于检索模型的训练往往会涉及到远程监督的问题,因为对于大多数开放域检索场景,正样本是比较容易获得的。但是由于数据集的样本数量过大,无法将除正样本之外的所有负样本放在一个训练样例内,只能设置一定数量的负样本用于模型的训练,记训练数据为
Figure BDA0003672617010000071
损失计算如(13):
Figure BDA0003672617010000072
其中,n为训练数据里面问题的数量,m为一个训练样例中负样本的数量,
Figure BDA0003672617010000073
表示正样本,
Figure BDA0003672617010000074
表示负样本,qi为待匹配样例。
步骤5:答案推理
由于多个表格文本元数据的内容较多,需要使用Longformer对问题和多个表格文本元数据进行长编码,以此获得输入的特征向量E,过程如公式(14):
E=Longformer(Question,MateData1,…,MateDatak) (14)
之后预测答案的开始位置ystart和结束位置yend如公式(15)和(16):
ystart=fstart(E) (15)
yend=fend(E) (16)
其中,fstart和fend为分类器,均由一层线性感知层实现。最终通过区间[ystart,yend]来获取问题对应的答案内容。
综上,本发明提出了包含五个步骤的开放域表格文本问答推理方法,首先通过生成式编码器对单元格内容进行增强,以丰富单元格的信息含量;然后通过双编码器将增强之后的单元格和候选文本进行匹配,从而构建表格文本元数据集合。之后通过稀疏检索和.0检索相结合的方式,检索与问题最相关的若干表格文本元数据,以缩小推理的语料范围。最后,对多个表格文本元数据进行长文本编码和推理,精确定位问题对应的答案位置。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种基于混合检索的开放域表格文本问答方法,其特征在于,包括如下步骤:
步骤1,生成式增强
使用生成式编码器,利用表格的相关信息对单元格值进行增强,丰富单元格的信息含量;
步骤2,双编码器匹配
在步骤1的基础之上,本发明通过双编码器,将增强之后的单元格值和候选短文进行匹配;并将表格行与该表格行关联的所有短文抽取出来作为元数据,构建表格文本元数据集合,方便后续的检索和阅读推理;
步骤3,稀疏检索
利用稀疏检索器召回与问题相关的若干表格,以便快速构建表格文本元数据子集,缩小检索范围;
步骤4,密集检索
使用两个密集检索器在表格文本元数据集中检索与问题最相关的若干表格文本元数据;
步骤5,答案推理
对与问题最相关的若干表格文本元数据进行长文本编码,最后通过问答输出层来定位答案的具体位置。
2.根据权利要求1所述的基于混合检索的开放域表格文本问答方法,其特征在于,所述步骤1具体包括如下过程:
首先对cell单元格用生成式模型进行信息增强,针对每个单元格在检索之前利用表格的相关信息对该单元格进行内容增强,如公式(1):
cell′=Decoder(title,decription,headers,cell) (1)
其中,decription表示表格描述,title表示表格标题,headers表示表头信息,cell表示单元格的值;使用GPT2作为生成器模型,并通过训练集中已知的<单元格值,短文标题>作为导向进行预训练,让内容增强之后的单元格值尽可能地接近与之配对的短文的标题。
3.根据权利要求1所述的基于混合检索的开放域表格文本问答方法,其特征在于,所述步骤2具体包括如下过程:
首先使用Bi-encoder模型对单元格和候选短文进行编码,将两者映射到统一的特征向量空间,分别获得单元格和短文的特征向量表示yc和yp,计算过程如公式(2)和(3):
yc=cls(encoderbi(cell′)) (2)
yp=cls(encoderbi(passage)) (3)
其中,cls(·)表示取模型输出的第一个CLS向量作为语义表示,encoderbi表示双向编码模型,对于单元格编码如公式(4):
[CLS]celll[Ms]cell′[Me]cellr[SEP] (4)
其中,celll是对应单元格的左边的单元格,cellr是该单元格右边的单元格,[Ms],[Me]是特殊字符,用于分割不同的单元格;对于候选短文的编码形式如公式(5):
[CLS]title[ENT]context[SEP] (5)
其中,title表示候选短文的标题,context是短文的具体内容,[ENT]是特殊分割字符;Bi-encoder的目标是将相互匹配的单元格和短文映射到相似的特征向量,本发明采用点积的方式来计算候选短文和单元格之间的相似度Similarity如公式(6):
Similarity(cell,passage)=yc*yp (6)
此处的相似度仅用于对Bi-encoder的训练,不作为最后单元格和短文匹配的依据;额外使用一个Cross-encoder来进行匹配编码,以获得不同的单元格和短文之间的匹配度yc,p,计算过程如公式(7):
yc,p=cls(encodercross(yc,yp)) (7)
其中,encodercross表示交叉编码器,之后通过Bi-encoder获得的单元格和短文的特征向量yc,yp拼接之后作为Cross-encoder的输入,并将输出中的cls向量作为单元格和短文的匹配度yc,p
通过Bi-encoder和Cross-encoder将所有表格中的单元格和候选短文进行匹配;之后节抽取表格行以及与这些表格行所关联的所有短文构成表格文本元数据集。
4.根据权利要求1所述的基于混合检索的开放域表格文本问答方法,其特征在于,所述步骤3具体包括如下过程:
使用BM25算法对表格概要信息构建词频矩阵,在表格层面进行召回,针对表格的稀疏召回过程如公式(8)和(9):
Ranker=Bulid_BM25(table title,section title,headers) (8)
Tables=TopK(Ranker(question)) (9)
其中,Bulid_BM25表示根据表格标题table title、分类标题section title、表头信息headers构建BM25检索器,TopK表示根据问题召回K个最相似的表格;针对问题召回若干的表格Tables之后,从表格文本元数据集中抽取一部分属于召回表格的表格文本元数据,构建一个表格文本元数据子集。
5.根据权利要求1所述的基于混合检索的开放域表格文本问答方法,其特征在于,所述步骤4具体包括如下过程:
使用元数据编码器Dm(*)将所有的表格文本元数据映射到一个d维度的实数向量空间,并且为其标号排序以方便检索,采用问题编码器Dq(*),该编码器将问题映射到同一个d维的实数向量空间,编码过程如公式(10)和(11):
Q=Dq(question) (10)
M=Dm(matedate) (11)
其中,Q和M分别表格问题和表格文本元数据的特征向量表示,之后,计算问题和表格文本元数据之间的相似度如公式(12):
Similarity(q,mateData)=Dq(question)T·Dm(mateData) (12)
在推理阶段,用Dm(*)编码器将所有的候选元数据在离线阶段进行事先的预编码,并用FAISS进行存储;设置一定数量的负样本用于模型的训练,记训练数据为
Figure FDA0003672614000000033
Figure FDA0003672614000000032
损失计算如(13):
Figure FDA0003672614000000031
其中,n为训练数据里面问题的数量,m为一个训练样例中负样本的数量。
6.根据权利要求1所述的基于混合检索的开放域表格文本问答方法,其特征在于,所述步骤5具体包括如下过程:
使用Longformer对问题和多个表格文本元数据进行长编码,以此获得输入的特征向量E,过程如公式(14):
E=Longformer(Question,MateData1,...,MateDatak) (14)
之后预测答案的开始位置ystart和结束位置yend如公式(15)和(16):
Ystart=fstart(E) (15)
yend=fend(E) (16)
其中,fstart和fend均由一层线性感知层实现,最终通过区间[ystart,yend]来获取问题对应的答案内容。
CN202210608960.0A 2022-05-31 2022-05-31 一种基于混合检索的开放域表格文本问答方法 Pending CN115186073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210608960.0A CN115186073A (zh) 2022-05-31 2022-05-31 一种基于混合检索的开放域表格文本问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210608960.0A CN115186073A (zh) 2022-05-31 2022-05-31 一种基于混合检索的开放域表格文本问答方法

Publications (1)

Publication Number Publication Date
CN115186073A true CN115186073A (zh) 2022-10-14

Family

ID=83513252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210608960.0A Pending CN115186073A (zh) 2022-05-31 2022-05-31 一种基于混合检索的开放域表格文本问答方法

Country Status (1)

Country Link
CN (1) CN115186073A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056494A (zh) * 2023-09-28 2023-11-14 腾讯科技(深圳)有限公司 开放域问答的方法、装置、电子设备和计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056494A (zh) * 2023-09-28 2023-11-14 腾讯科技(深圳)有限公司 开放域问答的方法、装置、电子设备和计算机存储介质
CN117056494B (zh) * 2023-09-28 2024-01-23 腾讯科技(深圳)有限公司 开放域问答的方法、装置、电子设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN112232086A (zh) 一种语义识别方法、装置、计算机设备及存储介质
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN110378489A (zh) 基于实体超平面投影的知识表示学习模型
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN118093841B (zh) 一种用于问答系统的模型训练方法和问答方法
CN116303977A (zh) 一种基于特征分类的问答方法及系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
Jeon et al. Dropout prediction over weeks in MOOCs via interpretable multi-layer representation learning
CN117828050B (zh) 基于长文档检索增强生成的中医问答方法、设备及介质
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
CN115186073A (zh) 一种基于混合检索的开放域表格文本问答方法
CN117973540A (zh) 基于知识图谱的检索增强生成系统与方法
Hoppe et al. Towards intelligent legal advisors for document retrieval and question-answering in german legal documents
CN113590779A (zh) 一种空管领域知识图谱的智能问答系统构建方法
CN115758159B (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination