CN111858878B - 从自然语言文本中自动提取答案的方法、系统及存储介质 - Google Patents
从自然语言文本中自动提取答案的方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111858878B CN111858878B CN202010558804.9A CN202010558804A CN111858878B CN 111858878 B CN111858878 B CN 111858878B CN 202010558804 A CN202010558804 A CN 202010558804A CN 111858878 B CN111858878 B CN 111858878B
- Authority
- CN
- China
- Prior art keywords
- question
- paragraph
- suspected
- paragraphs
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种从自然语言文本中自动提取答案的方法、系统及存储介质,所述方法包括以下步骤:将自然语言文本切分为多个段落;分别获取各个段落的问题匹配特征向量;将各段落的问题匹配特征向量输入初筛分类模型,筛选得到问题相关段落;利用阅读理解模型,分别获取各个问题相关段落中包含的疑似答案及其疑似概率;并选取出疑似概率最高的疑似答案,判断该疑似答案的疑似概率是否高于预设的疑似阈值,若是,将该疑似答案作为问题的答案进行输出。本发明可以对任意长度文本进行问题答案的提取,不会出现计算量按平方规律增长的情况,有效地提高了计算机的数据处理速度,提高了答案提取的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种从自然语言文本中自动提取答案的方法、系统及存储介质。
背景技术
从自然语言文本中自动化提取答案的定义是:首先给出一个自然语言文本,同时给出一个自然语言表达的问题;如果问题的答案在该自然语言文本中存在,那么系统可以自动提取出此问题的答案,如果该自然语言文本中没有问题的答案,则系统可以判断出在此条件下问题无法回答。
从非结构化自然文本中提取答案的技术可以利用海量的非结构化文本获取相关问题的答案,在知识库建设、智能客服、法律咨询等多方面均有很大的应用前景。2015年以来,由于基于深度学习的机器阅读理解模型的提出,以及一系列大规模机器阅读理解数据集的公布,如CNN&Daily Mail、SQuAD、MS MARCO等。使得从非结构化文本中提取答案的技术逐渐被关注,成为了学术界和工业界的研究热点。
目前从非结构化文本中提取答案都是基于神经网络技术,结构上包含三个部分:特征提取、问题/文本交互、答案提取。以BERT模型的提出作为分界,特征提取包含两大类:1、基于RNN/CNN编码器的模型,如BiDAF、R-Net等,基于RNN/CNN编码器的阅读理解模型计算量适中,但编码能力相对较弱,答案准确率相对于基于self-attention的模型来说比较低。2、基于self-attention编码器的模型,编码器包括BERT、XLNet等,虽然准确率较高,但模型复杂,计算复杂度按输入文本长度的平方增加,处理长文本的计算量过大,由于GPU的显存限制造成无法计算或计算速度缓慢的问题,影响答案提取效率。
发明内容
有鉴于此,本发明提供了一种从自然语言文本中自动提取答案的方法、系统及存储介质,用以解决现有技术中存在的问题,通过将高精度的self-attention模型应用于长文本中,取消了对输入自然语言文本的长度限制,同时也加快了计算速度,提高了数据处理的速度和效率。
一种从自然语言文本中自动提取答案的方法,包括以下步骤:
S1,将自然语言文本切分为多个段落;
S2,分别获取各个段落的问题匹配特征向量;
S3,将各段落的问题匹配特征向量输入初筛分类模型,筛选得到问题相关段落;
S4,利用阅读理解模型,分别获取各个问题相关段落中包含的疑似答案及其疑似概率;
并选取出疑似概率最高的疑似答案,判断该疑似答案的疑似概率是否高于预设的疑似阈值,若是,将该疑似答案作为问题的答案进行输出。
优选地,所述步骤S1中,将自然语言文本切分为多个段落时,每个段落包含的字符数不超过预设的字符数阈值。
优选地,所述字符数阈值根据计算机的GPU显存容量来定。
优选地,所述步骤S2中获取各段落的问题匹配特征向量的具体步骤为:
分别将各段落的文本内容与问题进行交互,提取得到各个段落的与问题相关的语义特征;
根据各个段落的语义特征,对应生成各个段落的问题匹配特征向量。
优选地,所述语义特征包括段落内容与问题之间的词汇重合度和字符重合度,问题词汇在段落中的召回率,段落与问题的编辑距离,段落与问题的词汇相似度。
优选地,将段落的文本内容与问题进行交互,提取得到段落的与问题相关的语义特征。
优选地,所述步骤S3中筛选问题相关段落具体步骤为:
构建初筛分类模型;
将各个段落的问题匹配特征向量输入初筛分类模型,得到其各自的用于评判其段落内容与问题相关度的相关性分数;
剔除相关性分数低于预设的相关性阈值的段落,并将剩余的相关性分数高于预设的相关性阈值的段落作为问题相关段落。
优选地,所述初筛分类模型是基于GBDT的二分类模型。
优选地,所述步骤S4中利用阅读理解模型,分别获取各个问题相关段落中包含的疑似答案及其疑似概率的具体步骤为:
分别将各个问题相关段落与问题进行拼接,得到模型输入序列;
分别计算各个问题相关段落的人工特征;
将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型,得到各个问题相关段落包含答案的概率,各个问题相关段落中包含的疑似答案、疑似答案的疑似概率;
根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落;
从目标段落的所有疑似答案中选取出疑似概率最高的疑似答案,判断该疑似答案的疑似概率是否高于预设的疑似阈值,若是,将该疑似答案作为问题的答案进行输出;若否,则未找到问题的答案。
优选地,根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落时,剔除问题相关段落包含答案的概率值小于设定阈值的段落,并将问题相关段落包含答案的概率值大于设定阈值的段落作为目标段落;
若所有的问题相关段落包含答案的概率值均小于设定阈值,则直接输出未找到问题的答案。
优选地,所述人工特征包括问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词,以及问题相关段落内的每个词语是否出现在问题中。
一种存储介质,其存储有计算机指令,该指令被处理器执行时实现从自然语言文本中自动提取答案的方法的步骤。
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现从自然语言文本中自动提取答案的方法。
一种从自然语言文本中自动提取答案的系统,包括:
段落切分模块,用于将自然语言文本切分为多个段落;
特征提取模块,用于提取各个段落的与问题相关的语义特征,从而得到其各自对应的问题匹配特征向量;
段落初筛模块,用于根据各个段落的问题匹配特征向量,筛选得到与问题相关度较高的问题相关段落;
阅读理解模块,用于将问题相关段落与问题拼接得到的模型输入序列以及问题相关段落的人工特征输入阅读理解模型,并根据阅读理解模型的输出结果输出问题的答案。
优选地,所述阅读理解模块包括:
拼接模块,用于将问题相关段落与问题进行拼接,得到模型输入序列;
人工特征计算模块,用于计算各个问题相关段落的人工特征;
数据处理模块,用于将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型,得到各个问题相关段落包含答案的概率,各个问题相关段落中包含的疑似答案、疑似答案的疑似概率;
答案处理模块,用于根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落,并从目标段落的所有疑似答案中筛选出问题的答案进行输出。
本发明的有益效果是:
本发明通过将长文本切分为多个段落,从多个段落中初步筛选得到与问题相关度较高的问题相关段落,然后将问题相关段落的模型输入序列和人工特征输入阅读理解模型,可以在不降低模型参数规模的情况下,实现对任意长度自然文本的问题答案的提取,不会出现计算量按平方规律增长的情况,有效地提高了计算机的数据处理速度;同时,在数据处理复杂度可控的前提下,可以大概率排除掉无关段落对答案抽取阶段的干扰,提高了答案提取的准确率和提取效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的流程图。
图2是本发明阅读理解模型的结构图。
图3是本发明系统的系统框图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
本发明给出一种从自然语言文本中自动提取答案的方法,包括以下步骤:
S1,将自然语言文本切分为多个段落。
将自然语言文本D切分为Np个段落{P1,P2,...}时,每个段落包含的字符数不超过预设的字符数阈值Lmax,字符数阈值Lmax的大小根据当前计算环境硬件条件(如计算机的GPU显存容量)来定。
S2,分别获取各个段落的问题匹配特征向量。
具体地,首先,分别将Np个段落{P1,P2,...}的文本内容与问题Q进行交互,提取得到各个段落的与问题相关的语义特征;
所述语义特征包括某个段落P的段落内容与问题Q之间的词汇重合度和字符重合度,问题词汇在段落中的召回率,段落与问题的编辑距离,段落与问题的词汇相似度。
然后,根据各个段落的语义特征,对应生成各个段落的问题匹配特征向量,即Np个段落{P1,P2,...}对应生成Np个问题匹配特征向量{V1,V2,...}。
S3,将各段落的问题匹配特征向量输入初筛分类模型,筛选得到问题相关段落。
具体地,首先,构建初筛分类模型,初筛分类模型是基于GBDT的二分类模型,该模型利用大量的相关/非相关段落的标注数据进行训练。
然后,将Np个段落对应的问题匹配特征向量{V1,V2,...}输入初筛分类模型,得到Np个段落各自的用于评判其段落内容与问题相关度的相关性分数{S1,S2,...}。
然后,剔除相关性分数低于预设的相关性阈值Smin的段落,并将剩余的相关性分数高于预设的相关性阈值Smin的段落作为问题相关段落。
S4,利用阅读理解模型,分别获取各个问题相关段落中包含的疑似答案及其疑似概率;并选取出疑似概率最高的疑似答案,判断该疑似答案的疑似概率是否高于预设的疑似阈值,若是,将该疑似答案作为问题的答案进行输出。
具体地,输出问题的答案的步骤为:
首先,分别将步骤S3中筛选出的各个问题相关段落与问题进行拼接,得到模型输入序列,假设步骤S3中筛选出Nf个问题相关段落(Nf≤Np),则将这Nf个问题相关段落与问题Q进行拼接,会得到Nf个模型输入序列{X1,X2,...};
分别计算各个问题相关段落的人工特征,即Nf个问题相关段落对应计算得到Nf个人工特征{F1,F2,...},
所述人工特征包括某一问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词,以及问题相关段落内的每个词语是否出现在问题中。
其次,将Nf个问题相关段落的模型输入序列{X1,X2,...}及其对应的人工特征{F1,F2,...}输入阅读理解模型,最终输出各个问题相关段落包含答案的概率{Ppassage 1,Ppassage 2,...},以及各个问题相关段落中包含的前n个疑似答案{{A11,A12,...,A1n},{A21,A22,...,A2n},...}、疑似答案对应的疑似概率{{P11,P12,...,P1n},{P21,P22,...,P2n},...};
阅读理解模型是一个基于BERT的阅读理解模型,其基于self-attention架构,上层拼接Pointer和多层感知机(MLP),该模型经过大量的非结构化文本的预训练及阅读理解任务标注数据的监督训练。
然后,根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落。
从问题相关段落中筛选出目标段落时,剔除问题相关段落包含答案的概率值Ppassage小于设定阈值Ppassage min的段落,并将问题相关段落包含答案的概率值Ppassage大于设定阈值Ppassage min的段落作为目标段落;
若所有的问题相关段落包含答案的概率值均小于设定阈值Ppassage min,则直接输出“未找到问题的答案”。
最后,从目标段落的所有疑似答案中选取出疑似概率最高的疑似答案Afinal,其对应的答案概率为Pfinal,判断该疑似答案的疑似概率Pfinal是否高于预设的疑似阈值Pmin,若是,将该疑似答案Afinal作为问题的答案进行输出;若否,则未找到问题的答案。
下面通过举例具体说明本发明的从自然语言文本中自动提取答案的方法。
假设存在一篇网购索赔政策文档D,网购索赔政策文档D的长度为5000个字符。某人对该文档提出了一个问题Q。
利用本发明的从自然语言文本中自动提取答案的方法获取问题Q的答案的步骤为:
S1、切分文档。
将网购索赔政策文档D切分为段落长度不超过512个字符的10个段落。
S2、获取各段落的问题匹配特征向量。
分别将10个段落的文本内容与问题Q进行交互,提取得到各个段落的与问题相关的语义特征,对应生成各个段落的问题匹配特征向量,即生成10个问题匹配特征向量。
S3、筛选问题相关段落。
将10个问题匹配特征向量输入基于GBDT的初筛分类模型,得到其各自的相关性分数,排除相关性分数低于设定阈值的段落,假设有7个段落与问题Q的相关性不足,则将这7个段落排除,将剩余3个段落作为问题相关段落进入下一处理步骤。
S4,阅读理解模型计算。
分别将3个问题相关段落与问题Q进行拼接,得到其各自的模型输入序列;并分别计算这3个问题相关段落人工特征;
然后,将这3个问题相关段落的模型输入序列及其对应的人工特征输入阅读理解模型,每个段落分别得到本段落是否包含答案的概率Ppassage、以及前3位的疑似答案及各个疑似答案对应的答案概率。
假设这3个问题相关段落中有一个段落的Ppassage小于阈值,则此段落将被排除,剩余两个问题相关段落作为目标段落。
剩余的2个目标段落中分别包含有3个疑似答案,将这6个疑似答案按照其答案概率的高低进行排序,选取出疑似概率最高的疑似答案,如果该疑似答案的疑似概率值高于设定的阈值,则将该疑似答案作为问题的答案进行输出;若否,输出“文本中未找到问题的答案”。
本发明的从自然语言文本中自动提取答案的系统,包括段落切分模块、特征提取模块、段落初筛模块和阅读理解模块。
段落切分模块,用于将自然语言文本切分为多个段落。
特征提取模块,用于提取各个段落的与问题相关的语义特征,从而得到其各自对应的问题匹配特征向量。
段落初筛模块,用于根据各个段落的问题匹配特征向量,筛选得到与问题相关度较高的问题相关段落。
阅读理解模块,用于将问题相关段落与问题拼接得到的模型输入序列以及问题相关段落的人工特征输入阅读理解模型,并根据阅读理解模型的输出结果输出问题的答案。
具体地,所述阅读理解模块包括拼接模块、人工特征计算模块、数据处理模块和答案处理模块。
拼接模块,用于将问题相关段落与问题进行拼接,得到模型输入序列。
人工特征计算模块,用于计算各个问题相关段落的人工特征。
数据处理模块,用于将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型,得到各个问题相关段落包含答案的概率,各个问题相关段落中包含的疑似答案、疑似答案的疑似概率。
答案处理模块,用于根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落,并从目标段落的所有疑似答案中筛选出问题的答案进行输出。
本发明的存储介质,其存储有计算机指令,该指令被处理器执行时实现本发明的从自然语言文本中自动提取答案的方法的步骤。
本发明的计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明的从自然语言文本中自动提取答案的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (13)
1.一种从自然语言文本中自动提取答案的方法,其特征在于,包括以下步骤:
S1,将自然语言文本切分为多个段落;
S2,分别获取各个段落的问题匹配特征向量;
S3,将各段落的问题匹配特征向量输入初筛分类模型,筛选得到问题相关段落;
S4,利用阅读理解模型,分别获取各个问题相关段落中包含的疑似答案及其疑似概率;
具体地,分别将各个问题相关段落与问题进行拼接,得到模型输入序列;
分别计算各个问题相关段落的人工特征,所述人工特征包括问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词,以及问题相关段落内的每个词语是否出现在问题中;
将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型,得到各个问题相关段落包含答案的概率,各个问题相关段落中包含的疑似答案、疑似答案的疑似概率;
根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落;
从目标段落的所有疑似答案中选取出疑似概率最高的疑似答案,判断该疑似答案的疑似概率是否高于预设的疑似阈值,若是,将该疑似答案作为问题的答案进行输出;若否,则未找到问题的答案。
2.根据权利要求1所述的从自然语言文本中自动提取答案的方法,其特征在于,所述步骤S1中,将自然语言文本切分为多个段落时,每个段落包含的字符数不超过预设的字符数阈值。
3.根据权利要求2所述的从自然语言文本中自动提取答案的方法,其特征在于,所述字符数阈值根据计算机的GPU显存容量来定。
4.根据权利要求1所述的从自然语言文本中自动提取答案的方法,其特征在于,所述步骤S2中获取各段落的问题匹配特征向量的具体步骤为:
分别将各段落的文本内容与问题进行交互,提取得到各个段落的与问题相关的语义特征;
根据各个段落的语义特征,对应生成各个段落的问题匹配特征向量。
5.根据权利要求4所述的从自然语言文本中自动提取答案的方法,其特征在于,所述语义特征包括段落内容与问题之间的词汇重合度和字符重合度,问题词汇在段落中的召回率,段落与问题的编辑距离,段落与问题的词汇相似度。
6.根据权利要求4所述的从自然语言文本中自动提取答案的方法,其特征在于,将段落的文本内容与问题进行交互,提取得到段落的与问题相关的语义特征。
7.根据权利要求1所述的从自然语言文本中自动提取答案的方法,其特征在于,所述步骤S3中筛选问题相关段落具体步骤为:
构建初筛分类模型;
将各个段落的问题匹配特征向量输入初筛分类模型,得到其各自的用于评判其段落内容与问题相关度的相关性分数;
剔除相关性分数低于预设的相关性阈值的段落,并将剩余的相关性分数高于预设的相关性阈值的段落作为问题相关段落。
8.根据权利要求7所述的从自然语言文本中自动提取答案的方法,其特征在于,所述初筛分类模型是基于GBDT的二分类模型。
9.根据权利要求1所述的从自然语言文本中自动提取答案的方法,其特征在于,根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落时,剔除问题相关段落包含答案的概率值小于设定阈值的段落,并将问题相关段落包含答案的概率值大于设定阈值的段落作为目标段落;
若所有的问题相关段落包含答案的概率值均小于设定阈值,则直接输出未找到问题的答案。
10.一种存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至9中任一项所述的从自然语言文本中自动提取答案的方法的步骤。
11.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至9中任一项所述的从自然语言文本中自动提取答案的方法。
12.一种利用权利要求1-9中任一项所述的方法从自然语言文本中自动提取答案的系统,其特征在于,包括:
段落切分模块,用于将自然语言文本切分为多个段落;
特征提取模块,用于提取各个段落的与问题相关的语义特征,从而得到其各自对应的问题匹配特征向量;
段落初筛模块,用于根据各个段落的问题匹配特征向量,筛选得到与问题相关度较高的问题相关段落;
阅读理解模块,用于将问题相关段落与问题拼接得到的模型输入序列以及问题相关段落的人工特征输入阅读理解模型,并根据阅读理解模型的输出结果输出问题的答案。
13.根据权利要求12所述的从自然语言文本中自动提取答案的系统,其特征在于,所述阅读理解模块包括:
拼接模块,用于将问题相关段落与问题进行拼接,得到模型输入序列;
人工特征计算模块,用于计算各个问题相关段落的人工特征;
数据处理模块,用于将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型,得到各个问题相关段落包含答案的概率,各个问题相关段落中包含的疑似答案、疑似答案的疑似概率;
答案处理模块,用于根据问题相关段落包含答案的概率值大小,从问题相关段落中筛选出目标段落,并从目标段落的所有疑似答案中筛选出问题的答案进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010558804.9A CN111858878B (zh) | 2020-06-18 | 2020-06-18 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010558804.9A CN111858878B (zh) | 2020-06-18 | 2020-06-18 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858878A CN111858878A (zh) | 2020-10-30 |
CN111858878B true CN111858878B (zh) | 2023-12-22 |
Family
ID=72987288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010558804.9A Active CN111858878B (zh) | 2020-06-18 | 2020-06-18 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858878B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347229B (zh) * | 2020-11-12 | 2021-07-20 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113657075B (zh) * | 2021-10-18 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109063032A (zh) * | 2018-07-16 | 2018-12-21 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
CN110210021A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 阅读理解方法及装置 |
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111190997A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种使用神经网络和机器学习排序算法的问答系统实现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8340955B2 (en) * | 2000-11-15 | 2012-12-25 | International Business Machines Corporation | System and method for finding the most likely answer to a natural language question |
KR102094934B1 (ko) * | 2014-11-19 | 2020-03-31 | 한국전자통신연구원 | 자연어 질의 응답 시스템 및 방법 |
US10997221B2 (en) * | 2018-04-07 | 2021-05-04 | Microsoft Technology Licensing, Llc | Intelligent question answering using machine reading comprehension |
-
2020
- 2020-06-18 CN CN202010558804.9A patent/CN111858878B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109063032A (zh) * | 2018-07-16 | 2018-12-21 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN111190997A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种使用神经网络和机器学习排序算法的问答系统实现方法 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
CN110210021A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 阅读理解方法及装置 |
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN111046152A (zh) * | 2019-10-12 | 2020-04-21 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning;Minghao Hu等;《Computation and Language》;全文 * |
Deeper Text Understanding for IR with Contextual Neural Language Modeling;Zhuyun Dai等;《Information Retrieval (cs.IR)》;全文 * |
Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification;Yizhong Wang等;《Computation and Language》;全文 * |
Neural Machine Reading Comprehension-Methods and Trends;Shanshan Liu等;《Computation and Language》;全文 * |
Tag-based Multi-Span Extraction in Reading Comprehension;Avia Efrat等;《Computation and Language》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111858878A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN114218379B (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN111027292A (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN114626529B (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai Applicant after: Daguan Data Co.,Ltd. Address before: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |