CN109977428B - 一种答案获取的方法及装置 - Google Patents
一种答案获取的方法及装置 Download PDFInfo
- Publication number
- CN109977428B CN109977428B CN201910250326.2A CN201910250326A CN109977428B CN 109977428 B CN109977428 B CN 109977428B CN 201910250326 A CN201910250326 A CN 201910250326A CN 109977428 B CN109977428 B CN 109977428B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- answer
- sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 236
- 238000013507 mapping Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种答案获取的方法及装置,所述方法包括:将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量;根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量;根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定问题对应的答案,从而从句子和词单元两个维度确定问题对应的答案,从而提高模型获取答案的效果。
Description
技术领域
本申请涉及神经网络模型技术领域,特别涉及一种答案获取的方法及装置、计算设备、存储介质和芯片。
背景技术
2018年10月,谷歌的人工智能团队介绍了一种预训练模型——BERT模型(Bidirectional Encoder Representation from Transformers,双向注意力神经网络模型),被认为是自然语言翻译领域的极大突破。该模型通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。
图1为BERT模型的架构示意图。该模型包括12个堆栈层,该12个堆栈层依次连接。每个堆栈层中还包括:自注意力层、第一规范层、前馈层以及第二规范层。将文章和问题构成的文本输入至文本嵌入层,得到文本向量,然后将文本向量输入至第1个堆栈层,将第1个堆栈层的输出向量输入至第2个堆栈层……依次类推,最终得到最后一个堆栈层的输出向量。将最后一个堆栈层的输出向量作为每个词单元的表示向量输入至前馈层进行处理,得到每个词单元作为答案开始位置与答案结束位置的概率。
可见,对于阅读理解与问答任务,BERT模型通过拼接问题与文章,利用注意力机制获取文章信息以及问题与文章之间的相互依赖关系,从而获得问题与文章每个词单元的表示向量,最终通过线性映射与非线性变换分别获得每个词单元作为答案开始位置与答案结束位置的概率。
现有技术中,BERT模型仅仅从词单元的维度关注文章与问题的相互依赖关系及信息,模型效果有待提升。
发明内容
有鉴于此,本申请实施例提供了一种答案获取的方法及装置、计算设备、存储介质和芯片,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种答案获取的方法,包括:
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量;
根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量;
根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
可选地,将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量中以及每个句子中的词单元对应的第一词向量,包括:
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量;
对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重;
根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量。
可选地,根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量,包括:
将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量。
可选地,根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,包括:将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
可选地,所述答案获取模型包括嵌入层和n个堆栈层;
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量,包括:
S11、将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量;
S12、将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
S13、将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1;
S14、判断i是否等于n-1,若是,执行步骤S15,若否,执行步骤S13;
S15、将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
本申请实施例公开了一种答案获取的装置,所述装置包括:
句向量处理模块,被配置为将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量;
第二词向量获取模块,被配置为根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量;
概率获取模块,被配置为根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
答案确定模块,被配置为根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
可选地,所述句向量处理模块具体被配置为:
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量;
对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重;
根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量。
可选地,第二词向量获取模块具体被配置为:
将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量。
可选地,所述概率获取模块具体被配置为:将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
可选地,所述答案获取模型包括嵌入层和n个堆栈层;
所述句向量处理模块具体被配置为:
输入单元,被配置为将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量;
第一输出向量获取单元,被配置为将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
第二输出向量获取单元,被配置为将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1;
判断单元,被配置为判断i是否等于n-1,若是,执行输出单元,若否,执行第二输出向量获取单元;
输出单元,被配置为将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述答案获取的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述答案获取的方法的步骤。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被芯片执行时实现如上所述答案获取的方法的步骤。
本申请提供的答案获取的方法及装置,不仅获取输入集中的每个词单元对应的第一词向量,还进一步获取输入集中每个句子对应的句向量,并根据每个句子的句向量以及每个词单元的第一词向量得到每个词单元对应的第二词向量;再根据每个词单元对应的第二词向量获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,从而从句子和词单元两个维度确定问题对应的答案,从而提高模型获取答案的效果。
附图说明
图1是现有技术中的BERT模型的架构示意图;
图2是本申请一实施例的修改后的BERT模型的架构示意图;
图3是本申请一实施例的答案获取的方法的流程示意图;
图4是本申请一实施例的答案获取的方法的流程示意图;
图5是本申请一实施例的答案获取的方法的流程示意图;
图6是本申请一实施例的嵌入层的输入向量的生成示意图;
图7是本申请一实施例的答案获取的装置的结构示意图;
图8是本申请一实施例的计算设备的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
BERT(Bidirectional Encoder Representations from Transformers,双向注意力神经网络模型):谷歌于2018年10月提出的双向注意力神经网络模型。
token:词单元,对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
Softmax:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
在本申请中,提供了一种答案获取的方法及装置、计算设备、存储介质和芯片,在下面的实施例中逐一进行详细说明。
图2示出了本申请实施例的答案获取模型的架构示意图。参见图2,图2中的“12x”表示该模型包括12个堆栈层,该12个堆栈层依次连接。将文章和问题构成的文本输入至文本嵌入层,得到文本向量,然后将文本向量输入至第1个堆栈层,将第1个堆栈层的输出向量输入至第2个堆栈层……依次类推,最终得到最后一个堆栈层的输出向量。与现有技术所不同的是,在堆栈层的输出后新增加了一个句向量嵌入层。将最后一个堆栈层的输出向量输入至句向量嵌入层,得到句向量。然后根据每个句子对应的句向量和每个词单元对应的第一词向量,得到每个词单元对应的第二词向量,最后将第二词向量作为每个词单元的表示向量输入至前馈层进行处理,得到每个词单元作为答案开始位置与答案结束位置的概率,并最终确定答案对应的开始词单元和结束词单元。
通过设置新增的句向量嵌入层,本实施例的答案获取模型从句子和词单元两个维度确定问题对应的答案,从而提高模型获取答案的效果。
本实施例中,答案获取模型为BERT模型。
在BERT模型的预训练的过程中,使用两个无监督预测任务:
任务#1:Masked LM
为了训练深度双向表征,采取了一个直接的方法,随机遮蔽输入的某些词单元,然后预测该被遮住的词单元。我们将这一步骤称为“masked LM”。
任务#2:下一句预测
很多重要的下游任务,如问答(QA)和自然语言推断需要基于对文本中的两个句子之间关系的理解。为了训练一个理解句子关系的模型,需要在训练阶段输入至少两个句子,然后判断其中的两个句子是否相关。具体来说,选择句子A和B作为预训练样本,B有50%的可能是A的下一句,也有50%的可能是来自语料库的随机句子。
预训练的BERT模型的参数可以仅用一个额外的输出层进行微调,在不对模型架构做出大量修改的条件下,就可以为很多任务创建当前最优模型。
参见图3,图3示出了根据本申请一实施例的答案获取的方法的示意性流程图,包括步骤301至步骤304。
301、将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量。
具体地,输入集可以采用以下格式:[[cls],问题,[sep],目标文本,[sep]]。
另外,参见图2和图4,本实施例的答案获取模型包括嵌入层和n个堆栈层,步骤301具体包括下述步骤401~403:
401、将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量。
402、对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重。
归一化的变换经由softmax函数而实现。使得每一个词向量的取值范围都在[0,1]之间,并且所有元素的和为1。
403、根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量。
具体地,参见图5,步骤401包括下述步骤501~505:
501、将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量。
参见图6,图6为输入向量的生成示意图。其中,输入集包括“my dog likes bone”和“what does dog like”两个句子。其中,“my dog likes bone”作为目标文本,“whatdoes dog like”作为问题。
其中,嵌入层生成的输入向量,由下面3种向量求和而成:
词单元向量——每个词单元对应的向量;
句向量——每个词单元所属的句子向量;
位置向量——每个词单元对应的位置所生成向量。
502、将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量。
503、将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1。
504、判断i是否等于n-1,若是,执行步骤505,若否,执行步骤503。
505、将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
通过步骤501~505,可以获得每个词单元的第一词向量。需要说明的是,获得的第一词向量不仅包括目标文本对应的词单元的第一词向量,还会包括问题对应的词单元的第一词向量。
302、根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量。
具体地,步骤302包括:将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量。
通过此步骤302,生成的词单元的第二词向量相对于第一词向量的维度增大,从而增加了每个词单元的信息。
303、根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
具体地,步骤303包括:将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
具体地,线性映射是从一个向量空间V到另一个向量空间W的映射。通过线性映射,以实现词向量的维度至句向量的维度的转换。
非线性变换,就是把原始的特征向量做非线性变换,得到一个新的特征向量,使用这个新的特征向量来做线性的分类,则对应到原始的特征空间中,相当于做了非线性的分类。
其中,线性映射以及非线性变换可以通过答案获取模型的全连接层来实现。
需要说明的是,步骤303中获得的第二词向量,不仅包括目标文本对应的词单元的第二词向量,还包括答案的文本对应的词单元的第二词向量。通过对BERT模型的训练,最后得到的答案开始位置及答案结束位置不会出现答案对应的词单元,也即,答案对应的词单元的答案开始位置以及答案结束位置的概率要比目标文本的词单元的答案开始位置以及答案结束位置的概率小许多。
304、根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
例如,参见表1,表1为一个具体实例中得到的每个词单元对应的答案开始位置以及答案结束位置的概率。
表1
由表1可见,其中,答案开始位置概率最高的为第3个词单元,答案结束位置概率最高的为第7个词单元,所以从第3~7个词单元最为问题的答案输出。
本申请提供的答案获取的方法,不仅获取输入集中的每个词单元对应的第一词向量,还进一步获取输入集中每个句子对应的句向量,并根据每个句子的句向量以及每个词单元的第一词向量得到每个词单元对应的第二词向量;再根据每个词单元对应的第二词向量获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,从而从句子和词单元两个维度确定问题对应的答案,从而提高模型获取答案的效果。
为了便于理解,下面列举一具体实例对本实施例的答案获取的方法进行示意性的说明。
其中,输入集包括:
[[CLS]In what country is Normandy located?[SEP]The Normans(Norman:Nourmands;French:Normands;Latin:Normanni)were the people who in the 10thand11th centuries gave their name to Normandy,a region in France.[SEP]]
其中,输入集包括目标文本“The Normans(Norman:Nourmands;French:Normands;Latin:Normanni)were the people who in the10th and11th centuries gave theirname to Normandy,a region in France”和问题“In what country is Normandylocated?”两部分。
所述方法包括:
1)将输入集输入至答案获取模型,得到输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量;
2)将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量;
3)将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
4)根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
最终,得到的每个词单元作为答案开始位置以及答案结束位置的概率的结果如下:
答案开始位置概率:[-0.20,-0.27,-1.08,-0.23,-0.82-0.43,-1.08,-0.68,-0.28,-0.21,-0.68,-0.87,-0.40,-1.19,-0.38,-0.40,-0.60,-0.32,-0.19,-0.60,-1.06,-0.56,-0.50,-0.41,-0.31,-0.60,-0.71,-0.48,-0.62,-0.77,-0.72,-1.00,-0.26,-0.07,-0.00,-0.50,-0.40,-0.79,-0.72,-1.28,-0.46,-0.51,-0.13,0.27,-0.14,-0.05]
答案结束位置概率:[-0.72,0.11,0.45,0.42,0.27,-0.54,-0.45,0.14,0.78,0.87,0.44,0.27,-0.46,-0.21,0.02,0.64,0.73,0.27,0.29,0.11,0.13,0.45,0.51,0.45,0.30,0.38,0.35,0.60,0.18,-0.17,-0.27,0.98,0.62,0.50,-0.18,0.60,0.59,0.50,-0.30,-0.35,0.37,0.47,0.40,1.43,0.45,0.33]
最终可以得出,答案开始位置概率最高以及答案结束位置概率最高的词单元均为倒数第三个,即“France”,对应于问题“In what country is Normandy located?”的答案。
本申请一实施例公开了一种答案获取的装置,参见图7,包括:
句向量处理模块701,被配置为将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个句子对应的句向量以及每个句子中的词单元对应的第一词向量;
第二词向量获取模块702,被配置为根据每个句子的句向量以及每个词单元的第一词向量,得到每个句子中的每个词单元对应的第二词向量;
概率获取模块703,被配置为根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
答案确定模块704,被配置为根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
可选地,所述句向量处理模块701具体被配置为:
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量;
对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重;
根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量。
可选地,第二词向量获取模块702具体被配置为:
将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量。
可选地,所述概率获取模块703具体被配置为:将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
可选地,所述答案获取模型包括嵌入层和n个堆栈层;句向量处理模块701具体被配置为:
输入单元,被配置为将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量;
第一输出向量获取单元,被配置为将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
第二输出向量获取单元,被配置为将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1;
判断单元,被配置为判断i是否等于n-1,若是,执行输出单元,若否,执行第二输出向量获取单元;
输出单元,被配置为将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
本申请提供的答案获取的装置,不仅获取输入集中的每个词单元对应的第一词向量,还进一步获取输入集中每个句子对应的句向量,并根据每个句子的句向量以及每个词单元的第一词向量得到每个词单元对应的第二词向量;再根据每个词单元对应的第二词向量获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,从而从句子和词单元两个维度确定问题对应的答案,从而提高模型获取答案的效果。
上述为本实施例的一种答案获取的装置的示意性方案。需要说明的是,该答案获取的装置的技术方案与上述的答案获取的方法的技术方案属于同一构思,答案获取的装置的技术方案未详细描述的细节内容,均可以参见上述答案获取的方法的技术方案的描述。
本申请一实施例还公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述答案获取的方法的步骤。
图8是示出了根据本说明书一实施例的计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述答案获取的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的答案获取的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述答案获取的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被芯片执行时实现如前所述答案获取的方法的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (9)
1.一种答案获取的方法,其特征在于,包括:
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量,其中,所述答案获取模型用于从所述目标文本中获取所述问题对应的答案;
对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重;
根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量;
将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量;
根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
2.如权利要求1所述的答案获取的方法,其特征在于,根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,包括:
将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
3.如权利要求1所述的答案获取的方法,其特征在于,所述答案获取模型包括嵌入层和n个堆栈层;
将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量,包括:
S11、将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量;
S12、将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
S13、将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1;
S14、判断i是否等于n-1,若是,执行步骤S15,若否,执行步骤S13;
S15、将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
4.一种答案获取的装置,其特征在于,所述装置包括:
句向量处理模块,被配置为将目标文本和问题作为输入集输入至答案获取模型,得到所述输入集中每个词单元的第一词向量,其中,所述答案获取模型用于从所述目标文本中获取所述问题对应的答案,对每个句子对应的词单元的第一词向量进行线性映射,然后进行归一化变换,得到每个句子对应的词单元的第一词向量对应的权重,根据每个句子对应的词单元的第一词向量对应的权重,将每个句子对应的词单元的第一词向量合成为该句子对应的句向量;
第二词向量获取模块,被配置为将每个句子对应的句向量分别与该句子中的每个第一词向量相加,得到每个句子中的每个词单元对应的第二词向量;
概率获取模块,被配置为根据每个句子中的每个词单元对应的第二词向量,获得答案获取模型输出的每个词单元作为问题对应的答案开始位置以及答案结束位置的概率;
答案确定模块,被配置为根据每个词单元作为问题对应的答案开始位置以及答案结束位置的概率,确定所述问题对应的答案。
5.如权利要求4所述的答案获取的装置,其特征在于,所述概率获取模块具体被配置为:将每个句子中的每个词单元对应的第二词向量进行线性映射以及非线性变换,分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
6.如权利要求4所述的答案获取的装置,其特征在于,所述答案获取模型包括嵌入层和n个堆栈层;
所述句向量处理模块具体被配置为:
输入单元,被配置为将目标文本和问题作为输入集输入至嵌入层,得到对应的输入向量;
第一输出向量获取单元,被配置为将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
第二输出向量获取单元,被配置为将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输出向量,其中,1≤i≤n-1;
判断单元,被配置为判断i是否等于n-1,若是,执行输出单元,若否,执行第二输出向量获取单元;
输出单元,被配置为将第n个堆栈层的输出向量作为所述输入集中每个词单元的第一词向量输出。
7.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-3任意一项所述答案获取的方法的步骤。
8.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-3任意一项所述方法的步骤。
9.一种芯片,其存储有计算机指令,其特征在于,该指令被芯片执行时实现权利要求1-3任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910250326.2A CN109977428B (zh) | 2019-03-29 | 2019-03-29 | 一种答案获取的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910250326.2A CN109977428B (zh) | 2019-03-29 | 2019-03-29 | 一种答案获取的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977428A CN109977428A (zh) | 2019-07-05 |
CN109977428B true CN109977428B (zh) | 2024-04-02 |
Family
ID=67081756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910250326.2A Active CN109977428B (zh) | 2019-03-29 | 2019-03-29 | 一种答案获取的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977428B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201339A (zh) * | 2019-07-08 | 2021-01-08 | 四川大学华西医院 | 一种精神医学辅助诊断系统 |
CN110390050B (zh) * | 2019-07-10 | 2021-12-07 | 北京航空航天大学 | 一种基于深度语义理解的软件开发问答信息自动获取方法 |
CN110347802B (zh) * | 2019-07-17 | 2022-09-02 | 北京金山数字娱乐科技有限公司 | 一种文本分析方法及装置 |
CN110413865A (zh) * | 2019-08-02 | 2019-11-05 | 知者信息技术服务成都有限公司 | 基于双向编码器表征模型的语义表示模型及其方法 |
CN110704587B (zh) * | 2019-08-22 | 2023-10-20 | 平安科技(深圳)有限公司 | 文本答案的查找方法及装置 |
CN110543557B (zh) * | 2019-09-06 | 2021-04-02 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110688857B (zh) * | 2019-10-08 | 2023-04-21 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN110968671A (zh) * | 2019-12-03 | 2020-04-07 | 北京声智科技有限公司 | 一种基于Bert的意图确定方法及装置 |
CN113343645A (zh) * | 2020-03-03 | 2021-09-03 | 北京沃东天骏信息技术有限公司 | 信息提取模型的建立方法及装置、存储介质及电子设备 |
CN111460816B (zh) * | 2020-03-30 | 2023-03-31 | 招商局金融科技有限公司 | 基于语义特征的数据检索方法、电子装置及存储介质 |
CN112801829B (zh) * | 2020-12-31 | 2024-04-30 | 科大讯飞股份有限公司 | 试题预测网络模型的相关方法和装置 |
CN112328777B (zh) * | 2021-01-05 | 2021-04-23 | 北京金山数字娱乐科技有限公司 | 一种答案检测方法及装置 |
CN113011184A (zh) * | 2021-04-13 | 2021-06-22 | 北京金山数字娱乐科技有限公司 | 一种语言表征模型的训练方法及装置 |
CN113095083A (zh) * | 2021-06-07 | 2021-07-09 | 浙江大华技术股份有限公司 | 实体抽取方法及装置 |
CN114780706A (zh) * | 2022-06-15 | 2022-07-22 | 共道网络科技有限公司 | 一种舆情事件的信息提取方法、设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001273293A (ja) * | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN105740310A (zh) * | 2015-12-21 | 2016-07-06 | 哈尔滨工业大学 | 一种用于问答系统中的自动答案摘要方法及系统 |
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
CN106710596A (zh) * | 2016-12-15 | 2017-05-24 | 腾讯科技(上海)有限公司 | 回答语句确定方法及装置 |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN108304437A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108427707A (zh) * | 2018-01-23 | 2018-08-21 | 深圳市阿西莫夫科技有限公司 | 人机问答方法、装置、计算机设备和存储介质 |
CN108628935A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院大学 | 一种基于端到端记忆网络的问答方法 |
CN109213999A (zh) * | 2018-08-20 | 2019-01-15 | 成都佳发安泰教育科技股份有限公司 | 一种主观题评分方法 |
-
2019
- 2019-03-29 CN CN201910250326.2A patent/CN109977428B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001273293A (ja) * | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN105740310A (zh) * | 2015-12-21 | 2016-07-06 | 哈尔滨工业大学 | 一种用于问答系统中的自动答案摘要方法及系统 |
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
CN106710596A (zh) * | 2016-12-15 | 2017-05-24 | 腾讯科技(上海)有限公司 | 回答语句确定方法及装置 |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN108304437A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN108427707A (zh) * | 2018-01-23 | 2018-08-21 | 深圳市阿西莫夫科技有限公司 | 人机问答方法、装置、计算机设备和存储介质 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108628935A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院大学 | 一种基于端到端记忆网络的问答方法 |
CN109213999A (zh) * | 2018-08-20 | 2019-01-15 | 成都佳发安泰教育科技股份有限公司 | 一种主观题评分方法 |
Non-Patent Citations (7)
Title |
---|
"SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering";Chenguang Zhu 等;《arXiv》;20190102;1-8 * |
"Simple Applications of BERT for Ad Hoc Document Retrieval";Wei Yang 等;《arxiv》;20190326;1-6 * |
"文本阅读任务中基于神经网络的问答技术研究";张均备;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I140-156 * |
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding;Jacob Devlin 等;《arxiv》;1-16 * |
JavobDevlin 等.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.《arxiv》.2018,1-14. * |
基于注意力和字嵌入的中文医疗问答匹配方法;陈志豪;余翔;刘子辰;邱大伟;顾本刚;;计算机应用(第06期);1-4 * |
基于深度学习的问答匹配方法;荣光辉;黄震华;;计算机应用(第10期);1-3 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977428A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977428B (zh) | 一种答案获取的方法及装置 | |
Liang et al. | Mixkd: Towards efficient distillation of large-scale language models | |
CN110309839B (zh) | 一种图像描述的方法及装置 | |
CN110795552B (zh) | 一种训练样本生成方法、装置、电子设备及存储介质 | |
CN109858044B (zh) | 语言处理方法和装置、语言处理系统的训练方法和装置 | |
CN111161740A (zh) | 意图识别模型训练方法、意图识别方法以及相关装置 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN114495129B (zh) | 文字检测模型预训练方法以及装置 | |
CN111695591A (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN113536801A (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
Lee et al. | Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities | |
CN117648420A (zh) | 一种基于大语言模型的智能客服问答方法及系统 | |
CN113792121B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN115730607A (zh) | 对话检测模型训练方法及装置 | |
CN112509559B (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN111079013B (zh) | 一种基于推荐模型的信息推荐方法及装置 | |
CN110188367B (zh) | 一种数据处理方法及装置 | |
CN111767744A (zh) | 文本风格迁移系统的训练方法及装置 | |
CN114647717A (zh) | 一种智能问答方法及装置 | |
CN114638238A (zh) | 一种神经网络模型的训练方法及装置 | |
CN112328777A (zh) | 一种答案检测方法及装置 | |
CN112580365A (zh) | 篇章解析方法及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |