CN113779203A - 生成段落集的方法和装置、推理方法和装置 - Google Patents
生成段落集的方法和装置、推理方法和装置 Download PDFInfo
- Publication number
- CN113779203A CN113779203A CN202010518041.5A CN202010518041A CN113779203A CN 113779203 A CN113779203 A CN 113779203A CN 202010518041 A CN202010518041 A CN 202010518041A CN 113779203 A CN113779203 A CN 113779203A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- paragraphs
- candidate
- document
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 239000000306 component Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- VPGRYOFKCNULNK-ACXQXYJUSA-N Deoxycorticosterone acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)COC(=O)C)[C@@]1(C)CC2 VPGRYOFKCNULNK-ACXQXYJUSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质,以能够从大量的文本数据中高效、准确且全面地获取与问题的内容足够相关的证据内容,避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,以提高后续答案预测时的推理过程的准确性和效率。该生成段落集的方法包括:从文档数据库中得到与问题相关的文档集;基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;获取段落图中的所有段落,以生成段落集。
Description
技术领域
本申请涉及计算机技术领域,特别涉及生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质。
背景技术
句子关系判断是自然语言处理领域中的四大类任务之一,其中包含了阅读理解问答。在真实场景中,许多问题的答案分布在多个文本里面,且有时候产生答案的文本与问题之间有很少的(或者没有)重叠词汇。因此,许多任务需要通过分散在多个文本片段中的证据进行推理,同时在进行推理之前,需要处理的文本通常比较长,如果处理不好可能会丢失很多有价值的信息,从而影响推断效果。
对于一个问答系统输入查询问题,机器可能很容易在一个文本中找出答案。但很多情况下答案可能隐藏在一堆文本中,此时即使人类都需要经过严密的推理和分析才能得到正确答案。由此可见,亟需一种证据提取方式和推理方式,以能够从大量的文本数据中高效、准确且全面地获取与问题的内容足够相关的证据内容,避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,以提高后续答案预测时的推理过程的准确性和效率。
发明内容
有鉴于此,本申请实施例提供了生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了生成段落集的方法,包括:从文档数据库中得到与问题相关的文档集;基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;获取段落图中的所有段落,以生成段落集。
本申请实施例公开了推理方法,包括:基于如前所述的生成段落集的方法获取段落集;对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;将最佳路径输入答案预测模型,以获取答案区间。
本申请实施例公开了生成段落集的装置,包括:筛选模块,被配置为从文档数据库中得到与问题相关的文档集;段落图构建模块,被配置为基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;段落集获取模块,被配置为获取段落图中的所有段落,以生成段落集。
本申请实施例公开了推理装置,包括:段落集生成模块,被配置为基于如前所述的生成段落集的方法获取段落集;候选段落集生成模块,被配置为对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;推理路径获取模块,被配置为计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;路径评分模块,被配置为对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;答案预测模块,被配置为将最佳路径输入答案预测模型,以获取答案区间。
本申请实施例公开了计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,处理器执行指令时实现如前任意生成段落集的方法或推理方法的步骤。
本申请实施例公开了计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现如前任意生成段落集的方法或推理方法的步骤。
本申请提供的生成段落集的方法和装置、推理方法和装置、计算设备以及计算机可读存储介质,通过文档筛选的方式从文档数据库中筛选出与问题的内容的足够相关的文档,并通过构建段落图的方式将文档集中的文档拆分为段落,可高效、准确且全面地获取与问题的内容足够相关的段落集,并有效避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,提供答案预测的效果。
附图说明
图1是示出了根据本说明书一实施例的计算设备100的结构框图;
图2是示出了根据本说明书一实施例的生成段落集的方法的示意性流程图;
图3是示出了根据本说明书一实施例提供的段落图的结构示意图;
图4是示出了根据本说明书另一实施例的生成段落集的方法中基于多个文档生成文档集的示意性流程图;
图5是示出了根据本说明书另一实施例的生成段落集的方法中基于文档集构建段落图的示意性流程图;
图6是示出了根据本申请一实施例的基于段落集的推理方法的示意性流程图;
图7是示出了根据本申请一实施例的基于段落集的推理方法中在第t个时间步在候选段落集合Pst中选择一个段落pi的示意性流程图;
图8是本申请一实施例提供的生成段落集装置的结构示意图;
图9是本申请一实施例提供的推理装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”等。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
DrQA:一种基于维基百科(Wikipedia)的开放领域(Open-domain)的问答(QA)系统。
CMNS:一种常用的实体链接系统,是一种用来进行实体链接的工具。
BERT:一种预训练模型,是一种基于微调的多层双向变换器编码器。
BERT ranker:一种基于BERT模型的段落排序方法,本方案用于文档排序。
transformer-XH:一种文本表示方法或工具。
在本申请中,提供了生成段落集的方法和装置。本说明书还提供了基于段落集的推理方法和推理装置、计算设备以及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的生成段落集的方法的示意性流程图,包括步骤202至步骤206。
步骤202:从文档数据库中得到与问题相关的文档集。
具体地,可对文档数据库进行筛选,得到与问题的内容相关的多个文档,并基于多个文档生成文档集。文档数据库为生成段落集的数据来源,文档数据库可由用户采集生成也可为第三方的数据库,例如维基百科的文档数据库,本申请对文档数据库的来源不作限制。
本说明书一实施例中,可计算文档数据库中的文档与问题的内容的相关度,并基于相关度的计算结果,从文档数据库中选择文档。例如,可从文档数据库中筛选出与问题的内容的相关度最高的至少一个文档作为文档集。例如,可使用DrQA系统的两个核心组件之一的文档检索器,目标是缩小搜索空间,快速的在文档数据库的海量文档中找到最相关的文档,针对每个问题筛选出至少一个(例如100个,该预设数量可根据需要适当增减)文档,记为Ddr。本说明书一实施例中,与问题的内容的相关度的计算结果可通过如下方式获取:计算问题的词条(token)的词频-逆文本频率指数(TF-IDF,term frequency–inversedocument frequency)权重与文档数据库中的文档的词频-逆文本频率指数权重的乘积,利用乘积的值表征相关度的计算结果。因为TF-IDF是衡量一个词对一个文档的重要性,如果一些词既对问题重要,又对文档重要,那么就可以认为这个问题和这些文档的关联性比较重要。这样实际上所执行的筛选规则是利用DrQA系统的文档检索器根据问题q的token的TF-IDF权重和文档的TF-IDF权重的乘积得到与问题最相关的排序在前的k个文档。
本说明书另一实施例中,也可以是将问题中的实体词汇和文档数据库所包括的实体词汇进行相关度计算,并基于相关度的计算结果,从文档数据库中选择实体词汇所对应的文档。例如,将问题中的实体词汇和文档数据库所包括的实体词汇进行相关度计算,以获取相关度得分最高的至少一个实体词汇;以及从文档数据库中筛选出相关度得分最高的至少一个实体词汇所对应的文档作为文档集。例如,可采用CMNS实体链接系统,根据问题q中的实体词汇与文档数据库的文档中的实体词汇的相关度(如计算余弦相关度等,相关度计算方法可根据实际场景需求而调整)。找出得分最高的3-5个实体所对应的文档构成文档集合DCMNS。
本说明书另一实施例中,还可以将上述两种方式得到的Ddr和DCMNS求并集作为文档集,从而使得文档集对于与问题相关的文档的覆盖面可以更为全面。
步骤204:基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关。
具体地,文档集中的文档可以被认为是与问题的内容足够相关的文档,但是并不能直接生成段落集,且也不能直接进行答案预测。由于答案预测是基于以段落为单位的文本内容进行的,因此,需要积极文档集中的文档的段落构建段落图,并基于段落图来生成段落集。
段落图中的每个节点对应文档集中的一个段落,段落图的多个段落层级之间的关系表征着段落之间的内容相关关系。例如图3所示的段落图结构中,p5、p13和p25构成第一个段落层级,其中第二个段落层级的p15和p7由于与p5包括了相同的关键词,因而p5是和p15和p7相关的。
步骤206:获取段落图中的所有段落,以生成段落集。
具体地,段落图中的所有段落可以被认为是与问题的内容足够相关的段落,因而,将段落图中的所有段落生成段落集,该段落集即可作为后续进行答案预测的数据基础。
本说明书一实施例中,为了便于追溯,还可给段落集中的段落随机编号。
由此可见,本申请通过文档筛选的方式从文档数据库中筛选出与问题的内容的足够相关的文档,并通过构建段落图的方式将文档集中的文档拆分为段落,可高效、准确且全面地获取与问题的内容足够相关的段落集,并有效避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,提供答案预测的效果。
在本申请一实施例中,处理器120还可以执行图4所示方法中的步骤。图4是示出了根据本说明书另一实施例的生成段落集的方法中基于多个文档生成文档集的示意性流程图,包括步骤402至步骤408。
具体而言,在基于文档集构建段落图之前,基于多个文档生成文档集的过程还可具体包括:
步骤402:基于从文档数据库中选择出的文档与问题的内容相关的程度,对从文档数据库中选择出的文档进行排序。
本说明书一实施例中,与问题的内容相关的程度可通过如下方式获取:基于评分模型(例如BERT模型)获取与问题的内容的相关性评分,利用相关性评分表征与问题的内容相关的程度。
在本申请一实施例中,可将上述两种方式得到的Ddr和DCMNS求并集,得到新的文档集合Dconc。考虑文档中句子的语义关系,使用BERT ranker对文档集合Dconc进行排序。BERTranker是一种基于BERT的文档排序方法,BERT的输入是问题与Dconc中的每篇文档构成的组合,并在BERT的最后一层添加一个线性层(softmax函数)用于对文档进行相关性评分,softmax的作用是将BERT的输出映射到[0,1],这样每篇文档都会有一个对应的0-1之间的评分值,利用这个值对文档进行排序,然后根据评分对Dconc中的文档进行排序。
步骤404:将排序在前的文档进行扩展,以获取多个扩展文档。
应当理解的是,与问题的内容相关的程度也可通过除BERT模型外的其他方式表征从而实现排序,比如Transformer-XH模型也可用于获取与问题的内容的相关性评分,利用相关性评分表征与问题的内容相关的程度,本申请对此并不做限定。
对于Dconc中选出的排序在前的至少一个文档中的每一个进行扩展,例如当文档的数据其实来自维基百科(Wikipedia)时,便可通过Wikipedia的超链接发现排序在前的至少一个文档扩展文档集合Dex。例如,如果一篇文档docA(来自被选出的至少一个文档)被文档docB链接到或者链接到另一个文档docC,则docB和docC被筛选出来,放入文档集合Dex中。
步骤406:基于文档和多个扩展文档与问题的内容相关的程度,对该排序在前的文档和多个扩展文档一起进行排序。
具体而言,可使用BERT ranker对Dex与Dconc中选出的得分最高的至少一个文档一起参与评分排序。
步骤408:基于排序在前的文档生成文档集。
例如,排序选出得分在前的至少一个文档,便构成了构成文档集DTop,用来在后续的过程中构建段落图。
在本申请一实施例中,处理器120还可以执行图5所示方法中的步骤。图5是示出了根据本说明书另一实施例的生成段落集的方法中基于文档集构建段落图的示意性流程图。
具体而言,该基于文档集构建段落图的过程可具体包括如下步骤502至步骤506:
步骤502:根据文档集中的每个段落与问题的内容相关的程度,对文档集中的段落进行排序。
基于问题q,可使用BERT ranker对文档集中的每个段落进行排序。
步骤504:将排序在前的至少一个段落作为第一个段落层级。
选择评分最高的至少以个段落作为第一个段落层级。例如图3所示,将评分最高的3个段落作为第一个段落层级,并且三个段落用无向边连接。
步骤506:在文档集的剩余段落中,获取与第一个段落层级中的段落的内容相关的段落组成第二段落层级。
具体而言,从文档集剩下的段落中选择与第一个段落层级的段落中的事实或实体相关的段落作为第二段落层级,然后用无向边表征两个层级的段落间的对应关系。第一个段落层级中的每个节点所连接的结点也用无向边连接起来。如图3所示,虚线表征的是事实或实体相连关系,例如将与段落P5有相同实体或事实的P7、P15等段落用虚线连接起来。本说明书一实施例中,如图3所示,可在文档集的剩余段落中,获取与第一个段落层级中的段落的内容包括相同关键词的段落组成第二段落层级。
将构建的图中所有的段落放入一个集合中,该集合便作为最终生成的段落集,记为Pall。在本申请一实施例中,还可给段落集Pall中的段落随机编号,以便于后续推理过程中追溯每个段落。
本说明书另一实施例中,图1中的处理器120也可以执行图6所示方法中的步骤。图6是示出了根据本申请一实施例的基于段落集的推理方法的示意性流程图,包括步骤602至步骤610。
步骤602:基于如前述实施例所提供的段落集生成方法获取段落集。
段落集的生成方法在前面的实施例描述中已经进行了详细阐述,在此不再赘述。
步骤604:对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集。
具体而言,可基于问题q和段落集Pall生成初始候选段落集Ps1,可使用问题q的token的TF-IDF权重与段落的TF-IDF权重的乘积作为筛选规则,选择分数最高的多个段落生成初始候选段落集Ps1。
步骤606:计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落。
本说明书一实施例中,每个时间步会都从候选段落集中选出一个段落,时间步t表示第t次选择段落,且每个时间步都会产生一个新的候选段落集。第一个时间步则是从初始获选段落集中进行选择。如图7所示,在第t个时间步,在候选段落集合Pst中选择一个段落pi可具体包括:
步骤702:计算一个时间步对应的候选段落集中的候选段落与已选候选段落的相关性程度,并确定相关性程度最大的候选段落。
计算一个时间步对应的候选段落集中的候选段落被选中的概率。概率计算就是在transformer-XH后加一个sigmoid层,得到候选段落中每个段落被选择的概率值。从初始候选段落集Ps1中计算每个候选段落被选出的概率,把概率最大的段落pi当做推理路径的开始。
步骤704:确定与相关性程度最大的候选段落相关的其他候选段落,并组成下一时间步对应的候选段落集。
具体而言,接下来构建候选段落集合Ps2,Ps2中的段落是根据前一次选出的段落pi来确定,即把所有与pi相连的段落都放进下一时间步对应的候选段落集Ps2中。
接着继续计算Ps2中每个段落被选择的概率,即循环执行步骤702和704,然后继续构建下一个候选段落集,一直循环,直到遇到终止符号[EOE],即完成一条推理路径的构建。终止符号[EOE]可预先设置在初始候选段落集中,以表明推理路径的终止。
步骤608:对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径。
本说明书一实施例中,对多个推理路径进行路径评分的过程可包括:计算推理路径中所有候选段落分别与问题的内容相关的程度的乘积,并利用乘积表征推理路径的路径评分。具体而言,B条推理路径构建完成后,如E={E1,E2,...,EB},其中E1可以表示为如E1={pi,...,pk}。此时需要对多个推理路径进行评分,路径的评分计算是使用路径中所有段落被选择的概率的乘积得到,需要从B条路径中选出一条最可能的路径。在本申请一实施例中,上述获取推理路径的过程可基于一个模型完成,该模型的训练数据可采用问题q和段落集合Pall,模型的训练过程与上述步骤702和704所描述的过程相同,模型使用的损失函数是交叉熵损失函数。模型的具体训练过程不再赘述。
步骤610:将最佳路径输入答案预测模型,以获取答案区间。
选择出最佳路径Ebest之后,就可以认为问题的答案存在于路径中的段落中,可将选出的路径中的段落和问题q作为BERT模型的输入,以获取答案区间。答案区间的具体计算过程可参考Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova.BERT:Pre-training of deepbidirectional transformers for language understanding.InNAACL,2019中所公开的内容进行,在此不再赘述。
在本申请一实施例中,在对用于获取答案区间的BERT模型进行微调时,可引入一个开始向量S和一个结束向量E,对于Ebest中的每个段落,使用BERT模型微调得到段落中每个词可能是答案区间的起始位置和结束位置的概率,选出起始位置和结束位置的概率乘积的最大值,其起始位置和结束位置之间的内容就是答案区间。
图8是本申请一实施例提供的生成段落集装置的结构示意图。如图8所示,该生成段落集的装置80包括:
筛选模块801,被配置为从文档数据库中得到与问题相关的文档集;
段落图构建模块802,被配置为基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;
段落集获取模块803,被配置为获取段落图中的所有段落,以生成段落集。
本申请通过文档筛选的方式从文档数据库中筛选出与问题的内容的足够相关的文档,并通过构建段落图的方式将文档集中的文档拆分为段落,可高效、准确且全面地获取与问题的内容足够相关的段落集,并有效避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,提供答案预测的效果。
在本申请一实施例中,筛选模块801进一步配置为:
计算文档数据库中的文档与问题的内容的相关度,并基于相关度的计算结果,从文档数据库中选择文档;和/或
将问题中的实体词汇和文档数据库所包括的实体词汇进行相关度计算,并基于相关度的计算结果,从文档数据库中选择实体词汇所对应的文档。
在本申请一实施例中,筛选模块801进一步配置为通过如下步骤获取相关度的计算结果:
计算问题的词条的词频-逆文本频率指数权重与文档数据库中的文档的词频-逆文本频率指数权重的乘积,利用乘积的值表征相关度的计算结果。
在本申请一实施例中,筛选模块801进一步配置为:
基于从文档数据库中选择出的文档与问题的内容相关的程度,对从文档数据库中选择出的文档进行排序;
将排序在前的文档进行扩展,以获取多个扩展文档;
基于文档和多个扩展文档与问题的内容相关的程度,对排序在前的至少一个文档和多个扩展文档一起进行排序;
基于排序在前的文档生成文档集。
在本申请一实施例中,段落图构建模块802进一步配置为:
根据文档集中的每个段落与问题的内容相关的程度,对文档集中的段落进行排序;
将排序在前的至少一个段落作为第一个段落层级;
在文档集的剩余段落中,获取与第一个段落层级中的段落的内容相关的段落组成第二段落层级。
在本申请一实施例中,获取与第一个段落层级中的段落的内容相关的段落组成第二段落层级,包括:
在文档集的剩余段落中,获取与第一个段落层级中的段落的内容包括相同关键词的段落组成第二段落层级。
图9是本申请一实施例提供的推理装置的结构示意图。如图9所示,该推理装置90包括:
段落集生成模块901,被配置为基于如前的生成段落集的方法获取段落集;
候选段落集生成模块902,被配置为对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;
推理路径获取模块903,被配置为计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;
路径评分模块904,被配置为对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;
答案预测模块905,被配置为将最佳路径输入答案预测模型,以获取答案区间。
本申请通过文档筛选的方式从文档数据库中筛选出与问题的内容的足够相关的文档,并通过构建段落图的方式将文档集中的文档拆分为段落,可高效、准确且全面地获取与问题的内容足够相关的段落集,并有效避免丢失有价值的信息,为后续的答案预测提供优质的数据基础,提供答案预测的效果。
在本申请一实施例中,推理路径获取模块903进一步配置为:
计算一个时间步对应的候选段落集中的候选段落与已选候选段落的相关性程度,并确定相关性程度最大的候选段落;
确定与相关性程度最大的候选段落相关的其他候选段落,并组成下一时间步对应的候选段落集。
在本申请一实施例中,对多个推理路径进行路径评分,包括:
计算推理路径中所有候选段落分别与问题的内容相关的程度的乘积,并利用乘积表征推理路径的路径评分。
在本申请一实施例中,与问题的内容相关的程度通过如下方式获取:
基于评分模型获取与问题的内容的相关性评分,利用相关性评分表征与问题的内容相关的程度。
本申请一实施例还提供了计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行指令时实现以下生成段落集的方法步骤:
对文档数据库进行筛选,得到与问题的内容相关的多个文档,并基于多个文档生成文档集;
基于文档集构建段落图,其中,段落图包括多个段落层级,段落层级包括来自文档集的多个段落,每个段落层级中的段落与下一层段落层级中的至少一个段落的内容相关;以及
获取段落图中的所有段落,以生成段落集。
在本申请一实施例中,从文档数据库中得到与问题相关的文档集,包括:
计算文档数据库中的文档与问题的内容的相关度,并基于相关度的计算结果,从文档数据库中选择文档;和/或
将问题中的实体词汇和文档数据库所包括的实体词汇进行相关度计算,并基于相关度的计算结果,从文档数据库中选择实体词汇所对应的文档。
在本申请一实施例中,相关度的计算结果通过如下步骤获取:
计算问题的词条的词频-逆文本频率指数权重与文档数据库中的文档的词频-逆文本频率指数权重的乘积,利用乘积的值表征相关度的计算结果。
在本申请一实施例中,基于多个文档生成文档集,包括:
基于文档与问题的内容相关的程度,对多个文档进行排序;
将排序在前的至少一个文档进行扩展,以获取多个扩展文档;
基于文档和多个扩展文档与问题的内容相关的程度,对排序在前的至少一个文档和多个扩展文档一起进行排序;
基于排序在前的至少一个文档生成文档集。
在本申请一实施例中,基于文档集构建段落图,包括:
根据文档集中的每个段落与问题的内容相关的程度,对文档集中的段落进行排序;
将排序在前的至少一个段落作为第一个段落层级;
在文档集的剩余段落中,获取与第一个段落层级中的段落的内容相关的段落组成第二段落层级。
在本申请一实施例中,获取与第一个段落层级中的段落的内容相关的段落组成第二段落层级,包括:
在文档集的剩余段落中,获取与第一个段落层级中的段落的内容包括相同关键词的段落组成第二段落层级。
本申请一实施例还提供了计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行指令时实现以下推理方法的步骤:
基于如前所述的生成段落集的方法获取段落集;
对段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于多个候选段落生成初始候选段落集;
计算初始候选段落集中每个候选段落对应的推理路径,其中,推理路径包括对应的候选段落,以及与对应的候选段落相关的至少一个其他候选段落;
对多个推理路径进行路径评分,并将路径评分最高的推理路径最为最佳路径;
将最佳路径输入答案预测模型,以获取答案区间。
在本申请一实施例中,计算候选段落集中每个候选段落对应的推理路径,包括:
计算一个时间步对应的候选段落集中的候选段落与已选候选段落的相关性程度,并确定相关性程度最大的候选段落;
确定与相关性程度最大的候选段落相关的其他候选段落,并组成下一时间步对应的候选段落集。
在本申请一实施例中,对多个推理路径进行路径评分,包括:
计算推理路径中所有候选段落分别与问题的内容相关的程度的乘积,并利用乘积表征推理路径的路径评分。
在本申请一实施例中,与问题的内容相关的程度通过如下方式获取:
基于评分模型获取与问题的内容的相关性评分,利用相关性评分表征与问题的内容相关的程度。
本申请一实施例还提供了计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述的生成段落集的方法的步骤。
上述为本实施例的计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的生成段落集的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述生成段落集的方法的技术方案的描述。
本申请一实施例还提供了计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述的基于段落集的推理方法的步骤。
上述为本实施例的计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于段落集的推理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于段落集的推理方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种生成段落集的方法,其特征在于,包括:
从文档数据库中得到与问题相关的文档集;
基于所述文档集构建段落图,其中,所述段落图包括多个段落层级,所述段落层级包括来自所述文档集的多个段落,所述段落层级中的段落与下一层所述段落层级中的至少一个段落的内容相关;
获取所述段落图中的所有段落,以生成所述段落集。
2.根据权利要求1所述的方法,其特征在于,所述从文档数据库中得到与问题相关的文档集,包括:
计算所述文档数据库中的文档与所述问题的内容的相关度,并基于所述相关度的计算结果,从所述文档数据库中选择文档;和/或
将所述问题中的实体词汇和所述文档数据库所包括的实体词汇进行相关度计算,并基于所述相关度的计算结果,从所述文档数据库中选择实体词汇所对应的文档。
3.根据权利要求2所述的方法,其特征在于,所述相关度的计算结果通过如下步骤获取:
计算所述问题的词条的词频-逆文本频率指数权重与所述文档数据库中的文档的词频-逆文本频率指数权重的乘积,利用所述乘积的值表征所述相关度的计算结果。
4.根据权利要求2所述的方法,其特征在于,所述从文档数据库中得到与问题相关的文档集,进一步包括:
基于从所述文档数据库中选择出的文档与所述问题的内容相关的程度,对所述从所述文档数据库中选择出的文档进行排序;
将排序在前的所述文档进行扩展,以获取多个扩展文档;
基于所述文档和所述多个扩展文档与所述问题的内容相关的程度,对所述排序在前的所述文档和所述多个扩展文档一起进行排序;
基于排序在前的所述文档生成所述文档集。
5.根据权利要求1所述的方法,其特征在于,所述基于所述文档集构建段落图,包括:
根据所述文档集中的每个段落与所述问题的内容相关的程度,对所述文档集中的段落进行排序;
将排序在前的至少一个段落作为第一个段落层级;
在所述文档集的剩余段落中,获取与所述第一个段落层级中的段落的内容相关的段落组成第二段落层级。
6.根据权利要求5所述的方法,其特征在于,所述获取与所述第一个段落层级中的段落的内容相关的段落组成第二段落层级,包括:
在所述文档集的剩余段落中,获取与所述第一个段落层级中的段落的内容包括相同关键词的段落组成所述第二段落层级。
7.一种推理方法,其特征在于,包括:
基于如权利要求1-6任一项所述的方法获取所述段落集;
对所述段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于所述多个候选段落生成初始候选段落集;
计算所述初始候选段落集中每个候选段落对应的推理路径,其中,所述推理路径包括对应的候选段落,以及与所述对应的候选段落相关的至少一个其他候选段落;
对多个所述推理路径进行路径评分,并将所述路径评分最高的所述推理路径最为最佳路径;
将所述最佳路径输入答案预测模型,以获取答案区间。
8.根据权利要求7所述的方法,其特征在于,所述计算所述候选段落集中每个候选段落对应的推理路径,包括:
计算一个时间步对应的候选段落集中的所述候选段落与已选候选段落的相关性程度,并确定所述相关性程度最大的所述候选段落;
确定与所述相关性程度最大的所述候选段落相关的其他所述候选段落,并组成下一时间步对应的所述候选段落集。
9.根据权利要求7所述的方法,其特征在于,所述对多个所述推理路径进行路径评分,包括:
计算所述推理路径中所有候选段落分别与所述问题的内容相关的程度的乘积,并利用所述乘积表征所述推理路径的路径评分。
10.根据权利要求9所述的方法,其特征在于,与所述问题的内容相关的程度通过如下方式获取:
基于评分模型获取与所述问题的内容的相关性评分,利用所述相关性评分表征与所述问题的内容相关的程度。
11.一种生成段落集的装置,其特征在于,包括:
筛选模块,被配置为从文档数据库中得到与问题相关的文档集;
段落图构建模块,被配置为基于所述文档集构建段落图,其中,所述段落图包括多个段落层级,所述段落层级包括来自所述文档集的多个段落,所述段落层级中的段落与下一层所述段落层级中的至少一个段落的内容相关;
段落集获取模块,被配置为获取所述段落图中的所有段落,以生成所述段落集。
12.一种推理装置,其特征在于,包括:
段落集生成模块,被配置为基于如权利要求1-6任一项所述的方法获取所述段落集;
候选段落集生成模块,被配置为对所述段落集进行筛选,得到与问题的内容相关的多个候选段落,并基于所述多个候选段落生成初始候选段落集;
推理路径获取模块,被配置为计算所述初始候选段落集中每个候选段落对应的推理路径,其中,所述推理路径包括对应的候选段落,以及与所述对应的候选段落相关的至少一个其他候选段落;
路径评分模块,被配置为对多个所述推理路径进行路径评分,并将所述路径评分最高的所述推理路径最为最佳路径;
答案预测模块,被配置为将所述最佳路径输入答案预测模型,以获取答案区间。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-6或7-10任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6或7-10任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518041.5A CN113779203A (zh) | 2020-06-09 | 2020-06-09 | 生成段落集的方法和装置、推理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518041.5A CN113779203A (zh) | 2020-06-09 | 2020-06-09 | 生成段落集的方法和装置、推理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779203A true CN113779203A (zh) | 2021-12-10 |
Family
ID=78834663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010518041.5A Pending CN113779203A (zh) | 2020-06-09 | 2020-06-09 | 生成段落集的方法和装置、推理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779203A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090287678A1 (en) * | 2008-05-14 | 2009-11-19 | International Business Machines Corporation | System and method for providing answers to questions |
CN103729395A (zh) * | 2012-10-12 | 2014-04-16 | 国际商业机器公司 | 用于推断查询答案的方法和系统 |
AU2015268624A1 (en) * | 2011-03-31 | 2016-01-07 | Lexis-Nexis A Division Of Reed Elsevier Inc | Systems and methods for paragraph-based document searching |
US20160132589A1 (en) * | 2014-11-07 | 2016-05-12 | International Business Machines Corporation | Context based passage retreival and scoring in a question answering system |
US20160140187A1 (en) * | 2014-11-19 | 2016-05-19 | Electronics And Telecommunications Research Institute | System and method for answering natural language question |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
US20200134088A1 (en) * | 2018-10-24 | 2020-04-30 | International Business Machines Corporation | Supporting passage ranking in question answering (qa) system |
CN111090734A (zh) * | 2019-12-25 | 2020-05-01 | 湖南大学 | 基于层级注意力机制优化机器阅读理解能力的方法和系统 |
-
2020
- 2020-06-09 CN CN202010518041.5A patent/CN113779203A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090287678A1 (en) * | 2008-05-14 | 2009-11-19 | International Business Machines Corporation | System and method for providing answers to questions |
AU2015268624A1 (en) * | 2011-03-31 | 2016-01-07 | Lexis-Nexis A Division Of Reed Elsevier Inc | Systems and methods for paragraph-based document searching |
CN103729395A (zh) * | 2012-10-12 | 2014-04-16 | 国际商业机器公司 | 用于推断查询答案的方法和系统 |
US20160132589A1 (en) * | 2014-11-07 | 2016-05-12 | International Business Machines Corporation | Context based passage retreival and scoring in a question answering system |
US20160140187A1 (en) * | 2014-11-19 | 2016-05-19 | Electronics And Telecommunications Research Institute | System and method for answering natural language question |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
US20200134088A1 (en) * | 2018-10-24 | 2020-04-30 | International Business Machines Corporation | Supporting passage ranking in question answering (qa) system |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111090734A (zh) * | 2019-12-25 | 2020-05-01 | 湖南大学 | 基于层级注意力机制优化机器阅读理解能力的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096567B (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN111368042A (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
JP6308708B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
JP6232607B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
JP6123143B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN112100326B (zh) | 一种抗干扰的融合检索和机器阅读理解的问答方法及系统 | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
JP2023076413A (ja) | 言語モデルを利用してドメインに特化した対話を提供する方法、コンピュータ装置、およびコンピュータプログラム | |
CN113220832B (zh) | 一种文本处理方法及装置 | |
CN112784590A (zh) | 文本处理方法及装置 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN113076423A (zh) | 数据处理方法及装置、数据查询方法及装置 | |
CN113159187A (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN116595026A (zh) | 信息查询方法 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN113779203A (zh) | 生成段落集的方法和装置、推理方法和装置 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
JP6188172B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN112507097B (zh) | 一种提高问答系统泛化能力的方法 | |
CN114647717A (zh) | 一种智能问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |