CN113836283B - 答案的生成方法、装置、电子设备及存储介质 - Google Patents
答案的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113836283B CN113836283B CN202111123462.9A CN202111123462A CN113836283B CN 113836283 B CN113836283 B CN 113836283B CN 202111123462 A CN202111123462 A CN 202111123462A CN 113836283 B CN113836283 B CN 113836283B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- candidate answer
- score
- relevance
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012216 screening Methods 0.000 claims abstract description 18
- 239000012634 fragment Substances 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种答案的生成方法、装置、电子设备及存储介质。其中,在答案的生成方法中,首先获取待回复的问题,并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落,生成问题的答案。由此可知,利用本申请的方法,在根据问题匹配出若干文档后,会计算得到问题与各个文档中的每一个段落的相关度分值,并根据相关度分值筛选若干个相关段落,最后从若干个相关段落中生成问题的最终答案。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种答案的生成方法、装置、电子设备及存储介质。
背景技术
在人工智能领域的研究中,问答系统已经有很长的历史。人们希望可以用一个自然语言方式提问,系统能够直接返回精准答案的交互模式。特别是在基于知识库的问答和检索式问答领域,它提供了一种知识自动化获取的有效路径,在如今互联网信息过载以及移动互联网迅速发展的背景下,已经得到了越来越广泛的应用。
现有的问答系统在生成答案时通常从大规模语料库中检索相关段落,并应用阅读理解技术从最相关的段落中提取答案,但是在很多情况下,答案不一定只与一个段落相关,从而导致了生成的答案的准确率不高,影响用户体验。
发明内容
有鉴于此,本申请提供一种答案的生成方法、装置、电子设备及存储介质,以解决现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案,导致了生成的答案的准确率不高的问题。
为实现上述目的,本申请提供如下技术方案:
本申请第一方面公开一种答案的生成方法,应用于问答系统服务端,所述答案的生成方法,包括:
获取待回复的问题;
从预先构建的语料库查找出与所述问题相匹配的文档;
针对查找出的每一个文档,计算得到所述问题与所述文档中的每一个段落的相关度分值;其中,所述相关度分值用于表征问题与段落的相关性,所述相关度分值越大,问题与段落的相关性越高;
筛选出所述相关度分值满足预设分值条件的段落;
基于所述筛选出的每一个段落,生成所述问题的答案。
可选的,上述的方法,所述从预先构建的语料库查找出与所述问题相匹配的文档之后,还包括:
对查找出的每一个文档进行数据预处理。
可选的,上述的方法,所述针对查找出的每一个文档,计算得到所述问题与所述文档中的每一个段落的相关度分值,包括:
将所述问题进行向量化处理,得到所述问题的词向量,以及将所述文档中的每一个段落进行向量化处理,得到文档中的每一个段落的词向量;
将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到所述问题与所述文档中的每一个段落的相关度分值。
可选的,上述的方法,所述基于所述筛选出的每一个段落,生成所述问题的答案,包括:
针对所述筛选出的每一个段落,从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值;其中,所述概率分值用于表征所述答案片段可作为所述问题的答案的概率;
选取概率分值最大的前K个所述候选答案片段,生成问题的答案。
可选的,上述的方法,所述从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值,包括:
针对每一个段落,计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值,以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值;
针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置,以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置,生成所述候选答案片段;
针对每一个段落,基于所述段落的相关度分值,和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值,计算得到所述段落的候选答案片段的概率分值。
本申请第二方面公开了一种答案的生成装置,应用于问答系统服务端,所述答案的生成装置,包括:
获取单元,用于获取待回复的问题;
查找单元,用于从预先构建的语料库查找出与所述问题相匹配的文档;
计算单元,用于针对查找出的每一个文档,计算得到所述问题与所述文档中的每一个段落的相关度分值;其中,所述相关度分值用于表征问题与段落的相关性,所述相关度分值越大,问题与段落的相关性越高;
筛选单元,用于筛选出所述相关度分值满足预设分值条件的段落;
答案生成单元,用于基于所述筛选出的每一个段落,生成所述问题的答案。
可选的,上述的装置,还包括:
预处理单元,用于对查找出的每一个文档进行数据预处理。
可选的,上述的装置,所述计算单元,包括:
处理子单元,用于将所述问题进行向量化处理,得到所述问题的词向量,以及将所述文档中的每一个段落进行向量化处理,得到文档中的每一个段落的词向量;
第一计算子单元,用于将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到所述问题与所述文档中的每一个段落的相关度分值。
可选的,上述装置,所述答案生成单元,包括:
第二计算子单元,用于针对所述筛选出的每一个段落,从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值;其中,所述概率分值用于表征所述答案片段可作为所述问题的答案的概率;
第一选取子单元,用于选取概率分值最大的前K个所述候选答案片段,生成问题的答案。
可选的,上述装置,所述第二计算子单元,包括:
第三计算子单元,用于针对每一个段落,计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值,以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值;
第二选取子单元,用于针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置,以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置,生成所述候选答案片段;
第四计算子单元,用于针对每一个段落,基于所述段落的相关度分值,和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值,计算得到所述段落的候选答案片段的概率分值。
本申请第三方面公开了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如本申请第一方面中任意一项所述的方法。
本申请第四方面公开了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本申请第一方面中任意一项所述的方法。
从上述技术方案可以看出,本申请提供的一种答案的生成方法中,首先获取待回复的问题,并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落,生成问题的答案。由此可知,利用本申请的方法,在根据问题匹配出若干文档后,会计算得到问题与各个文档中的每一个段落的相关度分值,并根据相关度分值筛选若干个相关段落,最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案,导致了生成的答案的准确率不高的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种答案的生成方法的流程图;
图2为本申请另一实施例公开的步骤S105的一种实施方式的流程图;
图3为本申请另一实施例公开的步骤S201的一种实施方式的流程图;
图4为本申请另一实施例公开的一种答案的生成装置的示意图;
图5为本申请另一实施例公开的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
并且,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
由背景技术可知,现有的问答系统在生成答案时通常从大规模语料库中检索相关段落,并应用阅读理解技术从最相关的段落中提取答案,但是在很多情况下,答案不一定只与一个段落相关,从而导致了生成的答案的准确率不高,影响用户体验。
鉴于此,本申请提供了一种答案的生成方法、装置、电子设备及存储介质,以解决现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案,导致了生成的答案的准确率不高的问题。
本申请实施例提供了一种答案的生成方法,应用于问答系统服务端,具体如图1所示,可以包括:
S101、获取待回复的问题。
需要说明的是,用户可以通过基于B/S架构的问答系统客户端提出问题,然后问答系统的服务端则获取用户所提出的问题。
S102、从预先构建的语料库查找出与问题相匹配的文档。
需要说明的是,问答系统的服务端在获取到用户的问题之后,则从该问题中抽取出实体和关键词,然后利用抽取出的实体和关键词在预先构建的语料库中进行文档查找,查找出与问题相匹配的文档。其中,预先构建的语料库中根据实际需求存放了大量的文档。
可选的,在本申请的另一实施例中,执行步骤S102之后,还可以包括:
对查找出的每一个文档进行数据预处理。
需要说明的是,为了对查找出的文档进行数据清洗,减少一些无用数据的干扰,则需要对查找出的每一个文档进行数据预处理,比如去掉指定无用的符号,乱码等。
S103、针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。
需要说明的是,在查找出与问题相匹配的文档之后,针对查找出的每一个文档,首先进行文档的段落划分,然后计算当前问题的与文档中的每一个段落的相关度分值,其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。在计算得到问题与文档中的每一个段落的相关度分值之后,就可以清楚的知道哪些段落和问题的相关性更高,便于更好筛选段落。
可选的,在本申请的另一实施例中,步骤S103的一种实施方式,具体包括:
将问题进行向量化处理,得到问题的词向量,以及将文档中的每一个段落进行向量化处理,得到文档中的每一个段落的词向量。
将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到问题与文档中的每一个段落的相关度分值。
需要说明的是,通过段落选择器将获取到的问题和查找出的文档每一个段落分别通过轻量级的词向量Glove模型进行向量化处理,得到问题的词向量和文档中的每一个段落的词向量。然后分别将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,该预先构建的模型为RNN循环神经网络模型,得到每个段落和问题的隐藏层的向量表示,具体如下:
{P1i,P2i,......,P|pi|i}=RNN({p1i,p2i,......,p|pi|i}) (1)
{Q1,Q2,......,Q|q|}=RNN({q1,q2,......,q|q|}) (2)
其中,公式(1)代表段落Pi的编码表示,公式(2)代表问题Q的编码表示。然后,我们使用上步生成的问题隐藏层表示对问题Q的每个词进行self-attention(自注意力机制)操作,获取最终的问题Q表示:
Q^=∑jaiQj
其中,ai为问题中每个词的注意力得分,为一个概率分布;Wb为神经网络的权重参数,为自己学习训练所得;
最后,通过一个max-pooling layer(最大池化层)和softmax layer(softmax函数层)来计算得出问题与文档中的每一个段落的相关度分值,即进行对段落得分的归一化操作:
Pr(pi|q,P)=softmax(max-pool(PjiWQ^))
其中,W为神经网络的权重参数,为自己学习训练所得;Q^为上步公式得到的加入了注意力机制的表示;Pji为公式(1)得到的段落表示;pi为第i个段落;q为给定的问题q;P为问题q的相关多个段落。
S104、筛选出相关度分值满足预设分值条件的段落。
需要说明的是,在计算得到问题与文档中的每一个段落的相关度分值之后,从筛选出相关度分值满足预设分值条件的段落,该预设分值条件可以根据实际情况进行设定,比如设定为筛选出前5个相关度分值最高的段落,用于从中生成问题的最终答案。
S105、基于筛选出的每一个段落,生成问题的答案。
需要说明的是,在筛选出相关度分值满足预设分值条件的段落之后,就可以从这些段落中筛选出与问题相关的内容,生成每一个段落对应的候选答案片段。最后再将这些候选答案片段进行融合,生成问题的最终答案。
可选的,在本申请的另一实施例中,上述步骤S105的一种实施方式,如图2所示,可以包括:
S201、针对筛选出的每一个段落,从段落中筛选出候选答案片段,并计算得到候选答案片段的概率分值;其中,概率分值用于表征候选答案片段可作为问题的答案的概率。
需要说明的是,针对筛选出的每一个段落,从段落中筛选出与问题相关的内容作为候选答案片段,并计算得到候选答案片段的概率分值;其中,概率分值用于表征答案片段可生成问题的答案的概率。
可选的,在本申请的另一实施例中,上述步骤S201的一种实施方式,如图3所示,可以包括:
S301、针对每一个段落,计算得到段落中的每一个字的位置作为候选答案片段的起始位置的概率分值,以及计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值。
需要说明的是,本实施例基于预训练语言模型,即BERT模型,来完成在每个段落的答案片段抽取工作。针对每一个段落P,问题为Q,定义BERT模型输入为:
[CLS]Q[SEP]P
其中,P中n个单词的BERT编码为[h1,h2,......,hn],hi∈Rd。在BERT的模型上加入一个前向网络Ws∈Rd*1,获得分数si=hiWs。经过softmax函数层计算段落中的每一个字的位置作为候选答案片段的起始位置的概率分值:
Ps1,…,Psn=softmax(s1,…sn)
同理,加入另一个的前向网络We∈Rd*1,获得分数ei=hiWe。经过softmax函数层计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值:
Pe1,…,Pen=softmax(e1,…en)
S302、针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为候选答案片段的起始位置,以及选取出作为候选答案片段的结束位置的概率分值最大的一个字的位置作为候选答案片段的结束位置,生成候选答案片段。
需要说明的是,针对每一个段落,通过段落阅读器从该段落中选取出作为候选答案片段的起始位置概率分值最大的那一个字的位置作为候选答案片段的起始位置,从该段落中选取出作为候选答案片段的结束位置概率分值最大的那一个字的位置作为候选答案片段的结束位置,然后生成完整的答案片段。
S303、针对每一个段落,基于段落的相关度分值,和段落的候选答案片段的起始位置对应的概率分值、候选答案片段的结束位置对应的概率分值,计算得到候选答案片段的概率分值。
需要说明的是,经过对开始和结束位置的归一化计算后,选取候选答案片段的起始位置对应的概率分值和候选答案片段的结束位置对应的概率分值进行相乘,得到该段落生成候选答案片段的概率的表示:
Pr(a|q,pi)=max(Ps1,…,Psn)*max(Pe1,…,Pen)
然后将筛选出的每一个段落的相关度分值和筛选出的每一个段落对应的候选答案片段的概率分值代入预设的公式中,计算得到每一个候选答案片段的概率分值,具体如下:
Pr(a|q,P)=ΣpiePPr(pi|q,P)Pr(a|q,pi)
还需要说明的是,在对模型进行训练时,定义了一个极大似然估计作为损失函数,具体如下:
L(θ)=-Σa.q,P∈rlogPr(aq,P)-αR(p)
其中,θ为模型的所有参数,a为正确的标注答案,T为训练集,R(p)为模型定义的正则项以避免过拟合,使用Adam优化算法来加速模型收敛。
在模型的预测阶段,使用argmax的方法生成段落最大条件概率下的答案,公式如下:
a^=argmaxalogPr(a|q,p)=argmaxa∑pi∈PPr(Pi|q,P)Pr(a|q,pi)
训练数据主要聚焦金融机构的合规领域的各种文本,包括法律法规、公司合同和公司制度条款等,先由专业合规人员进行问题、段落和答案三元组的人工标注工作。后续进行了一定程度的文本增强工作,比如利用信息检索技术从大量的文档集合中筛选段落,并利用远程监督技术进行自动打标签,构造了一个合规领域的垂直机器阅读理解数据集。
在模型的训练阶段,在段落选择器模块中,选用的RNN特征提取器为BiLSTM,设置的hidden size为128,设置词向量GloVe的维度为300。在段落阅读器模块中,采用Bert4Keras下的中文BERT预训练语言模型,对于长度超过512的文本,进行了head+tail的截断操作,即保留前128个token和最后382个token。同时,针对错误的回答进行了数据负样本增强。比如“犹豫期内退出合约是否有损失”和“犹豫期外退出合约是否有损失”,从语义相似度的角度不过一字之差,答案却截然不同。模型在只有极少针对性训练样本的情况下不能很好区分二者,因此就会扩充带有“犹豫期内”、“犹豫期外”关键词的样本。
S202、选取概率分值最大的前K个候选答案片段,生成问题的答案。
需要说明的是,在得到每一个候选片段的概率分值之后,从中选取出概率分值最大的前K个候选答案片段,生成问题的答案。其中,为了更好的挑选候选答案片段来生成最终答案,也可以将筛选出的每一个候选答案片段按照概率分值的大小进行排序再进行挑选。
本申请提供的一种答案的生成方法中,首先获取待回复的问题,并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落,生成问题的答案。由此可知,利用本申请的方法,在根据问题匹配出若干文档后,会计算得到问题与各个文档中的每一个段落的相关度分值,并根据相关度分值筛选若干个相关段落,最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案,导致了生成的答案的准确率不高的问题。
本申请另一实施例还提供了一种答案的生成装置,应用于问答系统服务端,如图4所示,包括:
获取单元401,用于获取待回复的问题。
查找单元402,用于从预先构建的语料库查找出与问题相匹配的文档。
计算单元403,用于针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。
筛选单元404,用于筛选出相关度分值满足预设分值条件的段落。
答案生成单元405,用于基于筛选出的每一个段落,生成问题的答案。
本实施例中,获取单元401、查找单元402、计算单元403、筛选单元404以及答案生成单元405的具体执行过程,可参见对应图1的方法实施例内容,此处不再赘述。
本申请提供的一种答案的生成装置中,首先获取单元401获取待回复的问题,查找单元402从预先构建的语料库查找出与问题相匹配的文档。然后计算单元403针对查找出的每一个文档,计算得到问题与文档中的每一个段落的相关度分值;其中,相关度分值用于表征问题与段落的相关性,相关度分值越大,问题与段落的相关性越高。接着筛选单元404筛选出相关度分值满足预设分值条件的段落。最后答案生成单元405基于筛选出的每一个段落,生成问题的答案。由此可知,利用本申请的方法,在根据问题匹配出若干文档后,会计算得到问题与各个文档中的每一个段落的相关度分值,并根据相关度分值筛选若干个相关段落,最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案,导致了生成的答案的准确率不高的问题。
可选的,在在本申请的另一实施例中,上述答案的生成装置,还可以包括:
预处理单元,用于对查找出的每一个文档进行数据预处理。
本实施例中,预处理单元的具体执行过程,可参见上述对应的方法实施例内容,此处不再赘述。
可选的,在在本申请的另一实施例中,上述计算单元403的一种实施方式,包括:
处理子单元,用于将问题进行向量化处理,得到问题的词向量,以及将文档中的每一个段落进行向量化处理,得到文档中的每一个段落的词向量。
第一计算子单元,用于将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到问题与文档中的每一个段落的相关度分值。
本实施例中,处理子单元、第一计算子单元的具体执行过程,可参见上述对应的方法实施例内容,此处不再赘述。
可选的,在在本申请的另一实施例中,上述答案生成单元405的一种实施方式,包括:
第二计算子单元,用于针对筛选出的每一个段落,从段落中筛选出候选答案片段,并计算得到候选答案片段的概率分值;其中,概率分值用于表征答案片段可作为问题的答案的概率。
第一选取子单元,用于选取概率分值最大的前K个候选答案片段,生成问题的答案。
本实施例中,第二计算子单元以及第一选取子单元的具体执行过程,可参见上述图2对应的方法实施例内容,此处不再赘述。
可选的,在在本申请的另一实施例中,上述第二计算子单元的一种实施方式,包括:
第三计算子单元,用于针对每一个段落,计算得到段落中的每一个字的位置作为候选答案片段的起始位置的概率分值,以及计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值。
第二选取子单元,用于针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为候选答案片段的起始位置,以及选取出作为候选答案片段的结束位置的概率分值最大的一个字的位置作为候选答案片段的结束位置,生成候选答案片段。
第四计算子单元,用于针对每一个段落,基于段落的相关度分值,和段落的候选答案片段的起始位置对应的概率分值、段落的候选答案片段的结束位置对应的概率分值,计算得到段落的候选答案片段的概率分值。
本实施例中,第三计算子单元、第二选取子单元以及第四计算子单元的具体执行过程,可参见上述图3对应的方法实施例内容,此处不再赘述。
本申请另一实施例还提供了一种电子设备,如图5所示,具体包括:
一个或多个处理器501。
存储装置502,其上存储有一个或多个程序。
当一个或多个程序被一个或多个处理器501执行时,使得一个或多个处理器501实现如上述实施例中任意一项方法。
本申请另一实施例还提供了计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种答案的生成方法,其特征在于,应用于问答系统服务端,所述答案的生成方法,包括:
获取待回复的问题;
从预先构建的语料库查找出与所述问题相匹配的文档;
通过段落选择器将获取到的所述问题通过轻量级的词向量Glove模型进行向量化处理,得到所述问题的词向量,以及通过段落选择器将获取到的所述文档中的每一个段落通过轻量级的词向量Glove模型进行向量化处理,得到文档中的每一个段落的词向量;
将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到所述问题与所述文档中的每一个段落的相关度分值;其中,所述相关度分值用于表征问题与段落的相关性,所述相关度分值越大,问题与段落的相关性越高;所述预先构建的段落相关度模型在训练阶段中,在段落选择器模块中,所述段落选择器模块的RNN特征提取器为BiLSTM,在段落阅读器模块中,采用BERT预训练语言模型;
筛选出所述相关度分值满足预设分值条件的段落;
针对筛选出的每一个段落,从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值;其中,所述概率分值用于表征所述答案片段作为所述问题的答案的概率;
选取概率分值最大的前K个所述候选答案片段,生成问题的答案,使得避免只从最相关的一个段落中提取答案;
所述从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值,包括:
针对每一个段落,计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值,以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值;
针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置,以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置,生成所述候选答案片段;
针对每一个段落,基于所述段落的相关度分值,和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值,计算得到所述段落的候选答案片段的概率分值。
2.根据权利要求1所述的方法,其特征在于,所述从预先构建的语料库查找出与所述问题相匹配的文档之后,还包括:
对查找出的每一个文档进行数据预处理。
3.一种答案的生成装置,其特征在于,应用于问答系统服务端,所述答案的生成装置,包括:
获取单元,用于获取待回复的问题;
查找单元,用于从预先构建的语料库查找出与所述问题相匹配的文档;
计算单元,用于通过段落选择器将获取到的所述问题通过轻量级的词向量Glove模型进行向量化处理,得到所述问题的词向量,以及通过段落选择器将获取到的所述文档中的每一个段落通过轻量级的词向量Glove模型进行向量化处理,得到文档中的每一个段落的词向量;
将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中,计算得到所述问题与所述文档中的每一个段落的相关度分值;其中,所述相关度分值用于表征问题与段落的相关性,所述相关度分值越大,问题与段落的相关性越高;所述预先构建的段落相关度模型在训练阶段中,在段落选择器模块中,所述段落选择器模块的RNN特征提取器为BiLSTM,在段落阅读器模块中,采用BERT预训练语言模型;
筛选单元,用于筛选出所述相关度分值满足预设分值条件的段落;
答案生成单元,用于针对筛选出的每一个段落,从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值;其中,所述概率分值用于表征所述答案片段作为所述问题的答案的概率;
选取概率分值最大的前K个所述候选答案片段,生成问题的答案,使得避免只从最相关的一个段落中提取答案;
第二计算子单元,包括:
第三计算子单元,用于针对每一个段落,计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值,以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值;
第二选取子单元,用于针对每一个段落,选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置,以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置,生成所述候选答案片段;
第四计算子单元,用于针对每一个段落,基于所述段落的相关度分值,和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值,计算得到所述段落的候选答案片段的概率分值。
4.根据权利要求3所述的装置,其特征在于,所述答案生成单元,包括:
第二计算子单元,用于针对筛选出的每一个段落,从所述段落中筛选出候选答案片段,并计算得到所述候选答案片段的概率分值;其中,所述概率分值用于表征所述答案片段作为所述问题的答案的概率;
第一选取子单元,用于选取概率分值最大的前K个所述候选答案片段,生成问题的答案。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至2中任意一项所述的方法。
6.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123462.9A CN113836283B (zh) | 2021-09-24 | 2021-09-24 | 答案的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111123462.9A CN113836283B (zh) | 2021-09-24 | 2021-09-24 | 答案的生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836283A CN113836283A (zh) | 2021-12-24 |
CN113836283B true CN113836283B (zh) | 2024-04-12 |
Family
ID=78970213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111123462.9A Active CN113836283B (zh) | 2021-09-24 | 2021-09-24 | 答案的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836283B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840648A (zh) * | 2022-03-21 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 答案生成方法、装置及计算机程序产品 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720981B1 (en) * | 2016-02-25 | 2017-08-01 | International Business Machines Corporation | Multiple instance machine learning for question answering systems |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
CN109635094A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于生成答案的方法和装置 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
KR20190101567A (ko) * | 2018-02-23 | 2019-09-02 | 주식회사 마인즈랩 | 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법 |
CN110674429A (zh) * | 2018-07-03 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111858878A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
CN112052326A (zh) * | 2020-09-30 | 2020-12-08 | 民生科技有限责任公司 | 一种基于长短文本匹配的智能问答方法及系统 |
CN112417105A (zh) * | 2020-10-16 | 2021-02-26 | 泰康保险集团股份有限公司 | 问答处理方法、装置、存储介质和电子设备 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874569B2 (en) * | 2012-11-29 | 2014-10-28 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for identifying and visualizing elements of query results |
JP6150282B2 (ja) * | 2013-06-27 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
KR102094934B1 (ko) * | 2014-11-19 | 2020-03-31 | 한국전자통신연구원 | 자연어 질의 응답 시스템 및 방법 |
JP6929539B2 (ja) * | 2016-10-07 | 2021-09-01 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム |
US10860654B2 (en) * | 2019-03-28 | 2020-12-08 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for generating an answer based on clustering and sentence similarity |
US11481418B2 (en) * | 2020-01-02 | 2022-10-25 | International Business Machines Corporation | Natural question generation via reinforcement learning based graph-to-sequence model |
US11893060B2 (en) * | 2020-02-06 | 2024-02-06 | Naver Corporation | Latent question reformulation and information accumulation for multi-hop machine reading |
-
2021
- 2021-09-24 CN CN202111123462.9A patent/CN113836283B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720981B1 (en) * | 2016-02-25 | 2017-08-01 | International Business Machines Corporation | Multiple instance machine learning for question answering systems |
KR20190101567A (ko) * | 2018-02-23 | 2019-09-02 | 주식회사 마인즈랩 | 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법 |
CN110674429A (zh) * | 2018-07-03 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
CN109635094A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 用于生成答案的方法和装置 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111858878A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
CN112052326A (zh) * | 2020-09-30 | 2020-12-08 | 民生科技有限责任公司 | 一种基于长短文本匹配的智能问答方法及系统 |
CN112417105A (zh) * | 2020-10-16 | 2021-02-26 | 泰康保险集团股份有限公司 | 问答处理方法、装置、存储介质和电子设备 |
CN112765306A (zh) * | 2020-12-30 | 2021-05-07 | 金蝶软件(中国)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Quantitative evaluation of passage retrieval algorithms for question answering;Tellex S et al.;ACM;20031231;第41-47页 * |
关联首尾段落与首尾语句的多特征融合段落相似度计算;蒋宗礼等;计算机与现代化;20161231(第9期);第11-20页 * |
领域问答系统答案提取方法研究;毛存礼等;烟台大学学报(自然科学与工程版);20090715;第22卷(第3期);第212-216页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836283A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109983454B (zh) | 多领域实时答疑系统 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
CN112818694A (zh) | 一种基于规则和改进预训练模型的命名实体识别方法 | |
CN108875074A (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN115599899B (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN113724882A (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
Zhu et al. | A learning to rank framework for developer recommendation in software crowdsourcing | |
CN114595327A (zh) | 数据增强方法和装置、电子设备、存储介质 | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN109947923A (zh) | 一种基于词向量的初等数学题型自动提取方法及系统 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN113836283B (zh) | 答案的生成方法、装置、电子设备及存储介质 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN115713349A (zh) | 一种小样本评论数据驱动的产品关键用户需求挖掘方法 | |
CN117390169B (zh) | 表格数据问答方法、装置、设备及存储介质 | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
CN107122378B (zh) | 对象处理方法、装置及移动终端 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
JP7121819B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 210, Liangjing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 200120 Applicant after: Shanghai Jinshida Software Technology Co.,Ltd. Address before: 201203 No. 210, Liangjing Road, Pudong New Area, Shanghai Applicant before: Shanghai Kingstar Software Technology Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |