CN111475636A - 信息提取方法和装置、设备及存储介质 - Google Patents
信息提取方法和装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111475636A CN111475636A CN202010583983.1A CN202010583983A CN111475636A CN 111475636 A CN111475636 A CN 111475636A CN 202010583983 A CN202010583983 A CN 202010583983A CN 111475636 A CN111475636 A CN 111475636A
- Authority
- CN
- China
- Prior art keywords
- vector
- paragraph
- unselected
- paragraph vector
- matching score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 121
- 239000013598 vector Substances 0.000 claims abstract description 402
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013100 final test Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 19
- 238000012216 screening Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000000306 recurrent effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种信息提取方法和装置、计算设备及计算机可读存储介质,其中,信息提取方法包括:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量;在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。本申请的信息提取方法能够提高证据链信息提取的准确性和对于问题的适用性,并由此提高答案预测的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种信息提取方法和装置、计算设备及计算机可读存储介质。
背景技术
在利用机器实现阅读理解的多跳问答任务中,问题往往需要由多个段落的信息组成推理链才能回答,任何单一的相关段落都不足以回答问题。因此,为了能够正确地回答问题,通常需要对给出的多个相关段落和干扰段落进行筛选,以获取与问题相关的信息,并将获取到的信息串联起来,以得到与问题对应的回答。
现有技术中,信息的提取方法通常是先将问题与段落进行匹配,以获取直接相关的段落;接着,对获取到的段落再进行匹配,以获取与其相关的段落;最后,基于获取到的段落构造证据链信息,并将该证据链信息输入到模型中进行答案预测。
在证据链信息的筛选过程中,现有技术采用的方法是先对段落进行粗筛选,得到与问题可能相关的几个段落,再根据这些相关段落进行答案预测。然而,这种方法存在以下缺陷和不足:
第一,粗筛选方法采用的是关键字匹配机制,虽然其能够筛选出关键字与问题一致的段落,但是会遗漏掉一些隐含答案的段落;
第二,每次筛选仅根据前一个段落进行,而不考虑已选择的所有段落和问题,导致筛选出来的段落与答案无关;
第三,对于筛选次数和每次筛选出的相关段落都有数量限制,导致证据链信息的长度是固定的。
因此,亟需一种新的信息提取方法,以提高证据链信息提取的准确性和对于问题的适用性,从而提高答案预测的准确性。
发明内容
有鉴于此,本申请实施例提供了一种信息提取方法和装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种信息提取方法,包括:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;根据所述匹配分数将对应的所述未选段落向量与所述已选段落向量输入融合网络,得到更新后的已选段落向量;在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
可选地,所述方法还包括:在所述更新后的已选段落向量不满足提取条件的情况下,将所述问题向量、更新后的已选段落向量和段落向量集合中的至少一个未选段落向量输入提取网络。
可选地,所述未选段落向量包括终止符;
确定所述更新后的已选段落向量满足提取条件,包括:
确定所述更新后的已选段落向量包括所述终止符。
可选地,所述将匹配分数最高的所述未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量,包括:
将匹配分数最高的所述未选段落向量与所述已选段落向量进行级联,得到级联向量;
将所述级联向量输入融合网络,得到所述融合网络输出的所述更新后的已选段落向量。
可选地,所述方法还包括:将所述证据链信息输入至答案预测模型,根据所述更新后的已选段落向量确定与所述问题向量对应的答案向量。
可选地,所述提取网络的训练过程包括:
将问题向量样本、段落向量样本集合中的已选段落向量样本和至少一个未选段落向量样本输入所述提取网络,得到所述提取网络输出的每个所述未选段落向量样本的匹配分数;
调整提取网络的参数,直至预先指定的未选段落向量样本的匹配分数最高。
可选地,所述提取网络的测试过程包括:
将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
在匹配分数最高的所述未选段落向量不满足预设条件的情况下,将所述匹配分数最高的所述未选段落向量与所述段落向量集合中原有的每个段落向量分别结合,以更新所述段落向量集合。
可选地,所述方法还包括:在所述匹配分数最高的所述未选段落向量满足预设条件时,将所述匹配分数最高的所述未选段落向量作为最终的测试结果。
可选地,所述预设条件包括:所述匹配分数最高的所述未选段落向量的长度小于预设长度;或者,
所述段落向量集合在初始状态下包括终止符,其中,所述预设条件包括:所述匹配分数最高的所述未选段落向量包括所述终止符。
本申请实施例还公开了一种信息提取装置,包括:输入模块,被配置为将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;融合模块,被配置为根据所述匹配分数将对应的所述未选段落向量与所述已选段落向量输入融合网络,得到更新后的已选段落向量;生成模块,被配置为在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
本申请实施例还公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行指令时实现如前所述的信息提取方法的步骤。
本申请实施例还公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述的提取方法的步骤。
本申请提供的信息提取方法和装置、计算设备及计算机可读存储介质,由于已选段落向量在利用提取网络所执行的段落筛选过程中是不断更新的,使得根据每一轮的筛选过程实际上都参考了之前的筛选结果,因此,有效地解决了现有技术中仅根据前一个证据段落来获取下一个证据段落所导致的遗漏隐含答案的段落的问题。进一步地,由于提取网络所执行的段落筛选过程可以根据问题是否能被回答的实际情况来调整循环次数,并且可以根据不同的问题生成不同长度的证据链信息,因此,有效地保证了答案所需要的证据链信息被提取出来,提高了答案预测的准确性。
附图说明
图1是本申请实施例的计算设备的结构框图。
图2是本申请实施例提供的信息提取方法的流程示意图。
图3是多层感知机的结构示意图。
图4是循环神经网络的结构示意图。
图5是本申请实施例提供的信息链提取方法的流程示意图。
图6是本申请实施例提供的信息提取方法的流程示意图。
图7是本申请实施例提供的信息提取装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
问题向量:一般是基于用户提出的问题进行特征提取后得到的向量表征形式,本申请实施例的目的在于基于问题向量生成证据链信息,该证据链信息则作为获取与问题对应的预测答案的参考数据。
段落向量:用于基于问题进行证据链信息提取的参考数据,由于是以文本段落为单位并进行特征提取后得到的,因此称作段落向量。
提取网络:通过训练过程建立的,基于问题向量、段落向量集合中的已选段落向量对段落向量集合中的未选段落向量进行匹配度评分的神经网络。
融合网络:用于将匹配分数最高的未选段落向量与已选段落向量进行融合,以更新已选段落向量的神经网络。
证据链信息:基于问题和已选段落向量的内容生成的格式数据,用于作为答案预测的参考数据。
终止符:设置在段落向量集合中用于标识段落提取过程可以结束的字符。
多层感知机(Multilayer Perceptron,MLP):是一种除了输入层和输出层,中间可以有多个隐层的神经网络架构。
循环神经网络(Recurrent Neural Network,RNN):是一类以序列(Sequence)数据为输入,在序列的演进方向进行递归(Recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive Neural Network)。
答案预测模型:基于证据链信息获取与用户提出的问题对应的预测答案的神经网络模型。
在本申请中,提供了一种信息提取方法。本说明书同时涉及一种信息提取装置、一种计算设备以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的信息提取方法的示意性流程图,包括步骤202至步骤206。
步骤202:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数。
具体地,问题向量和段落向量集合中的段落向量可以通过文本编码器得到。例如,可以将问题和段落的文本内容输入文本编码器,并通过文本编码器对问题和段落的文本内容进行向量化处理,得到问题向量和段落向量。需要说明的是,本说明书实施例对文件编码器的类型不作限制。
提取网络可以通过预先的基于样本集的训练过程建立,并且可以采用多层感知机实现。这里,多层感知机可以是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。图3是多层感知机的结构示意图。如图3所示,多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer),这里,图3所示的隐藏层共有5个隐藏单元;进一步地,由于输入层不涉及计算,因此,图3所示的多层感知机的层数为2。需要说明的是,图3所示的多层感知机中的隐藏层和输出层均为全连接层。
对于只有一个隐藏层且隐藏单元个数为h的多层感知机,将其输出记为H。由于图3的多层感知机中的隐藏层和输出层均为全连接层,因此,可以将隐藏层的权重参数和偏差参数分别设为W h 和b h ,输出层的权重参数和偏差参数分别设为W o 和b o ,并由此得到单隐藏层神经网络输入、隐藏层输出和输出之间的关系:
H=XW h +b h ,和
O=HW o +b o ,
将上面两个式子联立起来,可以得到输入与输出之间的关系:
O=(XW h +b h )W o +b o =XW h W o +b h W o +b o ,
由上式不难看出,这样的神经网络虽然引入了(一个或多个)隐藏层,却依然等价于一个单层神经网络。引起该问题的根源是全连接层,全连接层只是对数据进行仿射变换,而多个仿射变换叠加仍然为一个仿射变换。为了解决这样的问题,引入了非线性变换,即激活函数。
进一步地,提取网络的输出结果用于评价问题向量、已选段落向量和未选段落向量的匹配程度,并且可以给出每个未选段落向量的匹配分数,该匹配分数用于筛选出能够与问题向量和已选段落向量匹配的未选段落向量。需要说明的是,本说明书实施例对提取网络的种类和结构不作限制。
本说明书一实施例中,通过一个可学习的函数f(q, p, pi)可以获取未选段落向量的匹配分数。例如,可以将问题向量q、段落向量集合中的已选段落向量p和未选段落向量pi输入到函数f(q, p, pi),以得到未选段落向量的匹配分数。这里,段落向量集合为[p1,p2, p3, p4, EOE],其中,EOE(End Of Evidence)为段落向量集合中的终止符或标识符。
步骤204:根据匹配分数将对应的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量。
具体地,以上面的函数f(q, p, pi)为例,假设p3的分数最高,那么提取网络筛选出的段落向量为p3,此时,将已选段落向量p和p3进行融合,以生成更新后的已选段落向量。
这里,融合网络可以采用循环神经网络实现。循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。图4是RNN神经网络的结构示意图,如图4所示,该图示包含t-1、t和t+1三个时刻的输入与输出;t时刻的输入Xt经权值U、t-1时刻的状态记忆经权值W共同作用构成t时刻的状态St;t时刻的状态St作为一部分记忆经权值W传入下一时刻,也作为t时刻的输出经权值V作用后输出Ot。需要说明的是,本说明书实施例对融合网络的种类和结构不作限制。
步骤206:在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
具体地,通过对已选段落向量进行更新,得到更新后的已选段落向量,使得在下一个循环中输入函数f(q, p, pi)的已选段落向量p不仅包括筛选出的段落向量的内容,还包括之前已选段落向量的内容。
本说明书一实施例中,未选段落向量包括终止符;确定更新后的已选段落向量满足提取条件,包括:确定更新后的已选段落向量包括终止符。
本说明书一实施例中,将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量,包括:将匹配分数最高的未选段落向量与已选段落向量进行级联,得到级联向量;将级联向量输入融合网络,得到融合网络输出的更新后的已选段落向量。
具体地,融合网络用于对提取网络筛选出的段落向量和已选段落向量进行融合,使得更新后的已选段落向量中不仅包括筛选出的段落向量的内容,还包括已选段落向量的内容。
这里,融合网络可以采用循环神经网络实现。循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。需要说明的是,本说明书实施例对融合网络的种类和结构不作限制。
图5是示出了根据本说明书一实施例的信息提取方法的示意性流程图,包括步骤502至步骤508。
步骤502:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数。
步骤504:将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量。
步骤506:在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
步骤508:在更新后的已选段落向量不满足提取条件的情况下,将问题向量、更新后的已选段落向量和段落向量集合中的至少一个未选段落向量输入提取网络。
具体地,当更新后的已选段落向量不满足提取条件时,说明段落提取过程尚未结束,段落向量集合中可能还有包括有价值信息的未选段落向量。如前所述,可通过识别已选段落向量中是否包括了终止符来判断是否满足了提取条件,当已选段落向量中包括了终止符时,则可视为满足了提取条件。而当已选段落向量中并未包括终止符时,可以将问题向量、段落向量集合中的已选段落向量和剩余的未选段落向量输入提取网络,并返回步骤502由提取网络重新执行段落筛选过程。由于已选段落向量已经在步骤504中得到更新,因此,在下一个循环中,可以从剩余的未选段落向量中选择新的未选段落向量与已选段落向量进行融合,得到更新后的已选段落向量,利用更新后的已选段落向量和问题向量生成新的证据链信息。
图6是示出了根据本说明书一实施例的信息提取方法的示意性流程图,包括步骤602至步骤612。
步骤602:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数。
步骤604:将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量。
步骤606:在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
步骤608:将证据链信息输入至答案预测模型,根据更新后的已选段落向量确定与问题向量对应的答案向量。
具体地,答案预测模型用于基于证据链信息输出与问题对应的答案。在证据链信息中的段落内容不够充足的情况下,答案预测模型可能无法输出预测答案;而在答案预测模型能够输出预测答案的情况下,可以选择段落向量集合中的终止符与已选段落向量进行融合。
步骤610:判断答案预测模型是否能输出预测答案,如果是,则继续执行步骤612;否则,返回步骤602。
具体地,在答案预测模型无法输出预测答案的情况下,视为未满足证据链信息的提取条件,表明目前已选段落向量中的内容还不够充足,需要继续从段落向量集合中选择更多的段落向量来扩充能够形成的证据链信息的内容;此时,可以将问题向量、段落向量集合中的已选段落向量和剩余的未选段落向量输入提取网络,并返回步骤602由提取网络重新执行段落筛选过程。由于已选段落向量已经在步骤604中得到更新,因此,在下一个循环中,可以从剩余的未选段落向量中选择新的未选段落向量与已选段落向量进行融合,得到更新后的已选段落向量,利用更新后的已选段落向量和问题向量生成新的证据链信息。如此循环往复,直至答案预测模型能够基于所生成的证据链信息输出预测答案。
步骤612:判断已选段落向量是否包括终止符,如果是,则流程结束;否则,返回步骤602。
具体地,在答案预测模型能够输出预测答案的情况下,由于利用提取网络在循环筛选段落的阶段无法准确地确定应在何时停止筛选,因此,可以在段落向量集合中添加一个终止符EOE作为新的段落,即候选的段落向量集合为[p1, p2, p3, p4, EOE],而当更新后的已选段落向量并未包括终止符时,仍视为未满足证据链信息的提取条件,此时仍需要返回步骤602由提取网络重新执行段落筛选过程。然而,由于剩余的段落向量可能是与问题无关的段落,也就是说,这些段落向量可能会干扰答案预测模型输出预测答案,因此,在答案预测模型能够输出预测答案的情况下,可以直接选择段落向量集合中的终止符与已选段落向量进行融合,而无需再继续筛选新的段落向量;但在提取网络选择了终止符的情况下,意味着其实证据链信息已经足够预测答案,筛选出的段落向量已经足够,此时,段落提取过程可以结束,即循环终止。
本申请一实施例中,由于已选段落向量在利用提取网络所执行的段落筛选过程中是不断更新的,使得根据每一轮的筛选过程实际上都参考了之前的筛选结果,因此,有效地解决了现有技术中仅根据前一个证据段落来获取下一个证据段落所导致的遗漏隐含答案的段落的问题。进一步地,由于提取网络所执行的段落筛选过程可以根据问题是否能被回答的实际情况来调整循环次数,并且可以根据不同的问题生成不同长度的证据链信息,因此,有效地保证了答案所需要的证据链信息被提取出来,提高了答案预测的准确性。
在本申请一实施例中,提取网络的训练过程可包括:将问题向量样本、段落向量样本集合中的已选段落向量样本和至少一个未选段落向量样本输入提取网络,得到提取网络输出的每个未选段落向量样本的匹配分数;调整提取网络的参数,直至预先指定的未选段落向量样本的匹配分数最高。该预先指定的未选段落向量样本应当是与问题向量样本最为匹配的段落向量样本,通过调整段落提取完了的参数以使得该预先指定的未选段落向量样本的匹配分数最高,则证明该提取网络的输出精度已经足够高,此时可停止训练过程。
在本申请一实施例中,提取网络的测试过程包括:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;在匹配分数最高的未选段落向量不满足预设条件的情况下,将匹配分数最高的未选段落向量与段落向量集合中原有的每个段落向量分别结合,以更新段落向量集合。在本申请一实施例中,在匹配分数最高的未选段落向量满足预设条件时,将匹配分数最高的未选段落向量作为最终的测试结果。该预设条件可包括:匹配分数最高的未选段落向量的长度小于预设长度;或者,段落向量集合在初始状态下包括终止符,其中,预设条件包括:匹配分数最高的未选段落向量包括终止符。应当理解,提取网络的测试过程与本申请实施例所执行的实际信息提取方法的步骤相类似,在此不再赘述。
图7是本申请实施例提供的信息提取装置的结构示意图。如图7所示,该信息提取装置70包括:
输入模块71,被配置为将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
融合模块72,被配置为根据匹配分数将对应的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量;
生成模块73,被配置为在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
基于本申请实施例提供的信息提取装置70,由于已选段落向量在利用提取网络所执行的段落筛选过程中是不断更新的,使得根据每一轮的筛选过程实际上都参考了之前的筛选结果,因此,有效地解决了现有技术中仅根据前一个证据段落来获取下一个证据段落所导致的遗漏隐含答案的段落的问题。进一步地,由于提取网络所执行的段落筛选过程可以根据问题是否能被回答的实际情况来调整循环次数,并且可以根据不同的问题生成不同长度的证据链信息,因此,有效地保证了答案所需要的证据链信息被提取出来,提高了答案预测的准确性。
在本申请一实施例中,输入模块71进一步被配置为:在更新后的已选段落向量不满足提取条件的情况下,将问题向量、更新后的已选段落向量和段落向量集合中的至少一个未选段落向量输入提取网络。
在本申请一实施例中,未选段落向量包括终止符;其中,确定更新后的已选段落向量满足提取条件,包括:确定更新后的已选段落向量包括终止符。
在本申请一实施例中,融合模块72包括:
级联单元721,被配置为将匹配分数最高的未选段落向量与已选段落向量进行级联,得到级联向量;
融合单元722,被配置为将级联向量输入融合网络,得到融合网络输出的更新后的已选段落向量。
在本申请一实施例中,该信息提取装置70还包括:预测模块74,被配置为将证据链信息输入至答案预测模型,根据更新后的已选段落向量确定与问题向量对应的答案向量。
在本申请一实施例中,该信息提取装置70还包括:
训练模块75,被配置为训练提取网络;其中,训练模块75包括:
输入单元751,被配置为将问题向量样本、段落向量样本集合中的已选段落向量样本和至少一个未选段落向量样本输入提取网络,得到提取网络输出的每个未选段落向量样本的匹配分数;
调整单元752,被配置为调整提取网络的参数,直至预先指定的未选段落向量样本的匹配分数最高。
在本申请一实施例中,该信息链提取装置70还包括:
测试模块76,被配置为测试提取网络;其中,测试模块76包括:
获取单元761,被配置为将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
更新单元762,被配置为在匹配分数最高的未选段落向量不满足预设条件的情况下,将匹配分数最高的未选段落向量与段落向量集合中原有的每个段落向量分别结合,以更新段落向量集合。
在本申请一实施例中,测试模块76还包括:
确认单元763,被配置为在匹配分数最高的未选段落向量满足预设条件时,将匹配分数最高的未选段落向量作为最终的测试结果。
在本申请一实施例中,预设条件包括:匹配分数最高的未选段落向量的长度小于预设长度;或者,段落向量集合在初始状态下包括终止符,其中,预设条件包括:匹配分数最高的未选段落向量包括终止符。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量;
在更新后的已选段落向量满足提取条件的情况下,根据问题向量和更新后的已选段落向量生成证据链信息。
在本申请一实施例中,还可以在更新后的已选段落向量不满足提取条件的情况下,将问题向量、更新后的已选段落向量和段落向量集合中的至少一个未选段落向量输入提取网络。
在本申请一实施例中,未选段落向量包括终止符;确定更新后的已选段落向量满足提取条件,包括:确定更新后的已选段落向量包括终止符。
在本申请一实施例中,将匹配分数最高的未选段落向量与已选段落向量输入融合网络,得到更新后的已选段落向量,包括:将匹配分数最高的未选段落向量与已选段落向量进行级联,得到级联向量;将级联向量输入融合网络,得到融合网络输出的更新后的已选段落向量。
在本申请一实施例中,还可以将证据链信息输入至答案预测模型,根据更新后的已选段落向量确定与问题向量对应的答案向量。
在本申请一实施例中,提取网络的训练过程包括:将问题向量样本、段落向量样本集合中的已选段落向量样本和至少一个未选段落向量样本输入提取网络,得到提取网络输出的每个未选段落向量样本的匹配分数;调整提取网络的参数,直至预先指定的未选段落向量样本的匹配分数最高。
在本申请一实施例中,提取网络的测试过程包括:将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;在匹配分数最高的未选段落向量不满足预设条件的情况下,将匹配分数最高的未选段落向量与段落向量集合中原有的每个段落向量分别结合,以更新段落向量集合。
在本申请一实施例中,还可以在匹配分数最高的未选段落向量满足预设条件时,将匹配分数最高的未选段落向量作为最终的测试结果。
在本申请一实施例中,预设条件包括:匹配分数最高的未选段落向量的长度小于预设长度;或者,段落向量集合在初始状态下包括终止符,其中,预设条件包括:匹配分数最高的未选段落向量包括终止符。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述的信息提取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的信息提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (12)
1.一种信息提取方法,其特征在于,包括:
将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
根据所述匹配分数将对应的所述未选段落向量与所述已选段落向量输入融合网络,得到更新后的已选段落向量;
在所述更新后的已选段落向量满足提取条件的情况下,根据所述问题向量和所述更新后的已选段落向量生成证据链信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述更新后的已选段落向量不满足提取条件的情况下,将所述问题向量、更新后的已选段落向量和段落向量集合中的至少一个未选段落向量输入提取网络。
3.根据权利要求1所述的方法,其特征在于,所述未选段落向量包括终止符;
确定所述更新后的已选段落向量满足提取条件,包括:
确定所述更新后的已选段落向量包括所述终止符。
4.根据权利要求1所述的方法,其特征在于,所述根据所述匹配分数将对应的所述未选段落向量与所述已选段落向量输入融合网络,得到更新后的已选段落向量,包括:
将匹配分数最高的所述未选段落向量与所述已选段落向量进行级联,得到级联向量;
将所述级联向量输入所述融合网络,得到所述融合网络输出的所述更新后的已选段落向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述证据链信息输入至答案预测模型,根据所述更新后的已选段落向量确定与所述问题向量对应的答案向量。
6.根据权利要求1所述的方法,其特征在于,所述提取网络的训练过程包括:
将问题向量样本、段落向量样本集合中的已选段落向量样本和至少一个未选段落向量样本输入所述提取网络,得到所述提取网络输出的每个所述未选段落向量样本的匹配分数;
调整提取网络的参数,直至预先指定的未选段落向量样本的匹配分数最高。
7.根据权利要求1所述的方法,其特征在于,所述提取网络的测试过程包括:
将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
在匹配分数最高的所述未选段落向量不满足预设条件的情况下,将所述匹配分数最高的所述未选段落向量与所述段落向量集合中原有的每个段落向量分别结合,以更新所述段落向量集合。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述匹配分数最高的所述未选段落向量满足预设条件时,将所述匹配分数最高的所述未选段落向量作为最终的测试结果。
9.根据权利要求7或8所述的方法,其特征在于,所述预设条件包括:所述匹配分数最高的所述未选段落向量的长度小于预设长度;或者,
所述段落向量集合在初始状态下包括终止符,其中,所述预设条件包括:所述匹配分数最高的所述未选段落向量包括所述终止符。
10.一种信息提取装置,其特征在于,包括:
输入模块,被配置为将问题向量、段落向量集合中的已选段落向量和至少一个未选段落向量输入提取网络,得到每个未选段落向量的匹配分数;
融合模块,被配置为根据所述匹配分数将对应的所述未选段落向量与所述已选段落向量输入融合网络,得到更新后的已选段落向量;
生成模块,被配置为在所述更新后的已选段落向量满足提取条件的情况下,根据所述问题向量和所述更新后的已选段落向量生成信息。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419456.3A CN112434149B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
CN202010583983.1A CN111475636B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583983.1A CN111475636B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419456.3A Division CN112434149B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475636A true CN111475636A (zh) | 2020-07-31 |
CN111475636B CN111475636B (zh) | 2020-11-06 |
Family
ID=71763948
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419456.3A Active CN112434149B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
CN202010583983.1A Active CN111475636B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419456.3A Active CN112434149B (zh) | 2020-06-24 | 2020-06-24 | 信息提取方法和装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112434149B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992528A (zh) * | 2017-11-13 | 2018-05-04 | 清华大学 | 利用可解释推理网络的多关系问答系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
CN110232113A (zh) * | 2019-04-12 | 2019-09-13 | 中国科学院计算技术研究所 | 一种提高知识库问答准确度的方法及系统 |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9576248B2 (en) * | 2013-06-01 | 2017-02-21 | Adam M. Hurwitz | Record linkage sharing using labeled comparison vectors and a machine learning domain classification trainer |
WO2018097907A1 (en) * | 2016-10-20 | 2018-05-31 | Google Llc | Answer to question neural networks |
CN109947912B (zh) * | 2019-01-25 | 2020-06-23 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110704600B (zh) * | 2019-09-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 问答动态匹配方法、装置和电子设备 |
-
2020
- 2020-06-24 CN CN202011419456.3A patent/CN112434149B/zh active Active
- 2020-06-24 CN CN202010583983.1A patent/CN111475636B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992528A (zh) * | 2017-11-13 | 2018-05-04 | 清华大学 | 利用可解释推理网络的多关系问答系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
CN110232113A (zh) * | 2019-04-12 | 2019-09-13 | 中国科学院计算技术研究所 | 一种提高知识库问答准确度的方法及系统 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
KOSUKE NISHIDA等: "Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction", 《ACL 2019》 * |
QUENTIN GRAIL等: "Latent Question Reformulation and Information Accumulation for Multi-Hop Machine Reading", 《HTTPS://OPENREVIEW.NET/PDF?ID=S1X63TEYVR》 * |
YUNSHI LAN等: "Multi-hop Knowledge Base Question Answering with an Iterative Sequence Matching Model", 《2019 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112434149A (zh) | 2021-03-02 |
CN111475636B (zh) | 2020-11-06 |
CN112434149B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
CN111602148A (zh) | 正则化神经网络架构搜索 | |
CN112115352A (zh) | 基于用户兴趣的会话推荐方法及系统 | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
CN110472008B (zh) | 智能交互方法以及装置 | |
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
CN110598869A (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN108091334A (zh) | 识别装置、识别方法以及存储介质 | |
Striuk et al. | Generative adversarial neural network for creating photorealistic images | |
CN118194923B (zh) | 大语言模型的构建方法、装置、设备及计算机可读介质 | |
CN111475636B (zh) | 信息提取方法和装置、设备及存储介质 | |
WO2024058480A1 (ko) | 언어 모델을 기반으로 질의 응답 네트워크를 활용한 인적성 검사의 문제 생성 방법 및 서버 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
JP7024687B2 (ja) | データ分析システム、学習装置、方法、及びプログラム | |
CN111079175A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN116228361A (zh) | 基于特征匹配的课程推荐方法、装置、设备和存储介质 | |
CN113312445B (zh) | 数据处理方法、模型构建方法、分类方法及计算设备 | |
CN113886560A (zh) | 庭审问题的推荐方法以及装置 | |
KR20220114779A (ko) | 정형화된 연구 기록 데이터를 이용한 인공지능 모델의 학습 방법 | |
Thabet et al. | Towards intelligent serious games: deep knowledge tracing with hybrid prediction models | |
KR20220114780A (ko) | 실험 데이터 자동 수집을 통한 정형화된 연구 기록 데이터 자동생성 방법 | |
KR20220088248A (ko) | 메신저 대화 분석에 기반한 프로젝트 관리 서비스 제공방법, 서버 및 컴퓨터프로그램 | |
CN111199779A (zh) | 一种基于分子对接的虚拟药物筛选方法和装置 | |
KR20200084414A (ko) | 음성 몽타주 생성 방법 및 시스템 | |
CN112149835A (zh) | 一种网络重构方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |