CN113836283B

CN113836283B - 答案的生成方法、装置、电子设备及存储介质

Info

Publication number: CN113836283B
Application number: CN202111123462.9A
Authority: CN
Inventors: 赵诣; 伍海华; 俞银涛; 崔渊; 孙科
Original assignee: Shanghai Jinshida Software Technology Co ltd
Current assignee: Shanghai Jinshida Software Technology Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2024-04-12
Anticipated expiration: 2041-09-24
Also published as: CN113836283A

Abstract

本申请提供了一种答案的生成方法、装置、电子设备及存储介质。其中，在答案的生成方法中，首先获取待回复的问题，并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落，生成问题的答案。由此可知，利用本申请的方法，在根据问题匹配出若干文档后，会计算得到问题与各个文档中的每一个段落的相关度分值，并根据相关度分值筛选若干个相关段落，最后从若干个相关段落中生成问题的最终答案。

Description

答案的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种答案的生成方法、装置、电子设备及存储介质。

背景技术

在人工智能领域的研究中，问答系统已经有很长的历史。人们希望可以用一个自然语言方式提问，系统能够直接返回精准答案的交互模式。特别是在基于知识库的问答和检索式问答领域，它提供了一种知识自动化获取的有效路径，在如今互联网信息过载以及移动互联网迅速发展的背景下，已经得到了越来越广泛的应用。

现有的问答系统在生成答案时通常从大规模语料库中检索相关段落，并应用阅读理解技术从最相关的段落中提取答案，但是在很多情况下，答案不一定只与一个段落相关，从而导致了生成的答案的准确率不高，影响用户体验。

发明内容

有鉴于此，本申请提供一种答案的生成方法、装置、电子设备及存储介质，以解决现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案，导致了生成的答案的准确率不高的问题。

为实现上述目的，本申请提供如下技术方案：

本申请第一方面公开一种答案的生成方法，应用于问答系统服务端，所述答案的生成方法，包括：

获取待回复的问题；

从预先构建的语料库查找出与所述问题相匹配的文档；

针对查找出的每一个文档，计算得到所述问题与所述文档中的每一个段落的相关度分值；其中，所述相关度分值用于表征问题与段落的相关性，所述相关度分值越大，问题与段落的相关性越高；

筛选出所述相关度分值满足预设分值条件的段落；

基于所述筛选出的每一个段落，生成所述问题的答案。

可选的，上述的方法，所述从预先构建的语料库查找出与所述问题相匹配的文档之后，还包括：

对查找出的每一个文档进行数据预处理。

可选的，上述的方法，所述针对查找出的每一个文档，计算得到所述问题与所述文档中的每一个段落的相关度分值，包括：

将所述问题进行向量化处理，得到所述问题的词向量，以及将所述文档中的每一个段落进行向量化处理，得到文档中的每一个段落的词向量；

将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，计算得到所述问题与所述文档中的每一个段落的相关度分值。

可选的，上述的方法，所述基于所述筛选出的每一个段落，生成所述问题的答案，包括：

针对所述筛选出的每一个段落，从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值；其中，所述概率分值用于表征所述答案片段可作为所述问题的答案的概率；

选取概率分值最大的前K个所述候选答案片段，生成问题的答案。

可选的，上述的方法，所述从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值，包括：

针对每一个段落，计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值，以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值；

针对每一个段落，选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置，以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置，生成所述候选答案片段；

针对每一个段落，基于所述段落的相关度分值，和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值，计算得到所述段落的候选答案片段的概率分值。

本申请第二方面公开了一种答案的生成装置，应用于问答系统服务端，所述答案的生成装置，包括：

获取单元，用于获取待回复的问题；

查找单元，用于从预先构建的语料库查找出与所述问题相匹配的文档；

计算单元，用于针对查找出的每一个文档，计算得到所述问题与所述文档中的每一个段落的相关度分值；其中，所述相关度分值用于表征问题与段落的相关性，所述相关度分值越大，问题与段落的相关性越高；

筛选单元，用于筛选出所述相关度分值满足预设分值条件的段落；

答案生成单元，用于基于所述筛选出的每一个段落，生成所述问题的答案。

可选的，上述的装置，还包括：

预处理单元，用于对查找出的每一个文档进行数据预处理。

可选的，上述的装置，所述计算单元，包括：

处理子单元，用于将所述问题进行向量化处理，得到所述问题的词向量，以及将所述文档中的每一个段落进行向量化处理，得到文档中的每一个段落的词向量；

第一计算子单元，用于将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，计算得到所述问题与所述文档中的每一个段落的相关度分值。

可选的，上述装置，所述答案生成单元，包括：

第二计算子单元，用于针对所述筛选出的每一个段落，从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值；其中，所述概率分值用于表征所述答案片段可作为所述问题的答案的概率；

第一选取子单元，用于选取概率分值最大的前K个所述候选答案片段，生成问题的答案。

可选的，上述装置，所述第二计算子单元，包括：

第三计算子单元，用于针对每一个段落，计算得到所述段落中的每一个字的位置作为所述候选答案片段的起始位置的概率分值，以及计算得到所述段落中的每一个字的位置作为所述候选答案片段的结束位置的概率分值；

第二选取子单元，用于针对每一个段落，选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为所述候选答案片段的起始位置，以及选取出作为所述候选答案片段的结束位置的概率分值最大的一个字的位置作为所述候选答案片段的结束位置，生成所述候选答案片段；

第四计算子单元，用于针对每一个段落，基于所述段落的相关度分值，和所述段落的候选答案片段的起始位置对应的概率分值、所述段落的候选答案片段的结束位置对应的概率分值，计算得到所述段落的候选答案片段的概率分值。

本申请第三方面公开了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本申请第一方面中任意一项所述的方法。

本申请第四方面公开了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本申请第一方面中任意一项所述的方法。

从上述技术方案可以看出，本申请提供的一种答案的生成方法中，首先获取待回复的问题，并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落，生成问题的答案。由此可知，利用本申请的方法，在根据问题匹配出若干文档后，会计算得到问题与各个文档中的每一个段落的相关度分值，并根据相关度分值筛选若干个相关段落，最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案，导致了生成的答案的准确率不高的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种答案的生成方法的流程图；

图2为本申请另一实施例公开的步骤S105的一种实施方式的流程图；

图3为本申请另一实施例公开的步骤S201的一种实施方式的流程图；

图4为本申请另一实施例公开的一种答案的生成装置的示意图；

图5为本申请另一实施例公开的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

并且，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

由背景技术可知，现有的问答系统在生成答案时通常从大规模语料库中检索相关段落，并应用阅读理解技术从最相关的段落中提取答案，但是在很多情况下，答案不一定只与一个段落相关，从而导致了生成的答案的准确率不高，影响用户体验。

鉴于此，本申请提供了一种答案的生成方法、装置、电子设备及存储介质，以解决现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案，导致了生成的答案的准确率不高的问题。

本申请实施例提供了一种答案的生成方法，应用于问答系统服务端，具体如图1所示，可以包括：

S101、获取待回复的问题。

需要说明的是，用户可以通过基于B/S架构的问答系统客户端提出问题，然后问答系统的服务端则获取用户所提出的问题。

S102、从预先构建的语料库查找出与问题相匹配的文档。

需要说明的是，问答系统的服务端在获取到用户的问题之后，则从该问题中抽取出实体和关键词，然后利用抽取出的实体和关键词在预先构建的语料库中进行文档查找，查找出与问题相匹配的文档。其中，预先构建的语料库中根据实际需求存放了大量的文档。

可选的，在本申请的另一实施例中，执行步骤S102之后，还可以包括：

对查找出的每一个文档进行数据预处理。

需要说明的是，为了对查找出的文档进行数据清洗，减少一些无用数据的干扰，则需要对查找出的每一个文档进行数据预处理，比如去掉指定无用的符号，乱码等。

S103、针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。

需要说明的是，在查找出与问题相匹配的文档之后，针对查找出的每一个文档，首先进行文档的段落划分，然后计算当前问题的与文档中的每一个段落的相关度分值，其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。在计算得到问题与文档中的每一个段落的相关度分值之后，就可以清楚的知道哪些段落和问题的相关性更高，便于更好筛选段落。

可选的，在本申请的另一实施例中，步骤S103的一种实施方式，具体包括：

将问题进行向量化处理，得到问题的词向量，以及将文档中的每一个段落进行向量化处理，得到文档中的每一个段落的词向量。

将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，计算得到问题与文档中的每一个段落的相关度分值。

需要说明的是，通过段落选择器将获取到的问题和查找出的文档每一个段落分别通过轻量级的词向量Glove模型进行向量化处理，得到问题的词向量和文档中的每一个段落的词向量。然后分别将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，该预先构建的模型为RNN循环神经网络模型，得到每个段落和问题的隐藏层的向量表示，具体如下：

{P1i，P2i，......，P|pi|i}＝RNN({p1i，p2i，......，p|pi|i}) (1)

{Q1，Q2，......，Q|q|}＝RNN({q1，q2，......，q|q|}) (2)

其中，公式(1)代表段落Pi的编码表示，公式(2)代表问题Q的编码表示。然后，我们使用上步生成的问题隐藏层表示对问题Q的每个词进行self-attention(自注意力机制)操作，获取最终的问题Q表示：

Q^＝∑_jaiQj

其中，a_i为问题中每个词的注意力得分，为一个概率分布；Wb为神经网络的权重参数，为自己学习训练所得；

最后，通过一个max-pooling layer(最大池化层)和softmax layer(softmax函数层)来计算得出问题与文档中的每一个段落的相关度分值，即进行对段落得分的归一化操作：

Pr(pi|q,P)＝softmax(max-pool(PjiWQ^))

其中，W为神经网络的权重参数，为自己学习训练所得；Q^为上步公式得到的加入了注意力机制的表示；Pji为公式(1)得到的段落表示；pi为第i个段落；q为给定的问题q；P为问题q的相关多个段落。

S104、筛选出相关度分值满足预设分值条件的段落。

需要说明的是，在计算得到问题与文档中的每一个段落的相关度分值之后，从筛选出相关度分值满足预设分值条件的段落，该预设分值条件可以根据实际情况进行设定，比如设定为筛选出前5个相关度分值最高的段落，用于从中生成问题的最终答案。

S105、基于筛选出的每一个段落，生成问题的答案。

需要说明的是，在筛选出相关度分值满足预设分值条件的段落之后，就可以从这些段落中筛选出与问题相关的内容，生成每一个段落对应的候选答案片段。最后再将这些候选答案片段进行融合，生成问题的最终答案。

可选的，在本申请的另一实施例中，上述步骤S105的一种实施方式，如图2所示，可以包括：

S201、针对筛选出的每一个段落，从段落中筛选出候选答案片段，并计算得到候选答案片段的概率分值；其中，概率分值用于表征候选答案片段可作为问题的答案的概率。

需要说明的是，针对筛选出的每一个段落，从段落中筛选出与问题相关的内容作为候选答案片段，并计算得到候选答案片段的概率分值；其中，概率分值用于表征答案片段可生成问题的答案的概率。

可选的，在本申请的另一实施例中，上述步骤S201的一种实施方式，如图3所示，可以包括：

S301、针对每一个段落，计算得到段落中的每一个字的位置作为候选答案片段的起始位置的概率分值，以及计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值。

需要说明的是，本实施例基于预训练语言模型，即BERT模型，来完成在每个段落的答案片段抽取工作。针对每一个段落P，问题为Q，定义BERT模型输入为：

[CLS]Q[SEP]P

其中，P中n个单词的BERT编码为[h1，h2，......，hn]，hi∈Rd。在BERT的模型上加入一个前向网络Ws∈Rd*1，获得分数si＝hiWs。经过softmax函数层计算段落中的每一个字的位置作为候选答案片段的起始位置的概率分值：

Ps1，…，Psn＝softmax(s1，…sn)

同理，加入另一个的前向网络We∈Rd*1,获得分数ei＝hiWe。经过softmax函数层计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值：

Pe1，…，Pen＝softmax(e1，…en)

S302、针对每一个段落，选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为候选答案片段的起始位置，以及选取出作为候选答案片段的结束位置的概率分值最大的一个字的位置作为候选答案片段的结束位置，生成候选答案片段。

需要说明的是，针对每一个段落，通过段落阅读器从该段落中选取出作为候选答案片段的起始位置概率分值最大的那一个字的位置作为候选答案片段的起始位置，从该段落中选取出作为候选答案片段的结束位置概率分值最大的那一个字的位置作为候选答案片段的结束位置，然后生成完整的答案片段。

S303、针对每一个段落，基于段落的相关度分值，和段落的候选答案片段的起始位置对应的概率分值、候选答案片段的结束位置对应的概率分值，计算得到候选答案片段的概率分值。

需要说明的是，经过对开始和结束位置的归一化计算后，选取候选答案片段的起始位置对应的概率分值和候选答案片段的结束位置对应的概率分值进行相乘，得到该段落生成候选答案片段的概率的表示：

Pr(a|q,pi)＝max(Ps₁，…，Ps_n)*max(Pe₁，…，Pe_n)

然后将筛选出的每一个段落的相关度分值和筛选出的每一个段落对应的候选答案片段的概率分值代入预设的公式中，计算得到每一个候选答案片段的概率分值，具体如下：

Pr(a|q,P)＝Σ_piePPr(pi|q，P)Pr(a|q，pi)

还需要说明的是，在对模型进行训练时，定义了一个极大似然估计作为损失函数，具体如下：

L(θ)＝-Σ_a.q，P∈rlogPr(aq，P)-αR(p)

其中，θ为模型的所有参数，a为正确的标注答案，T为训练集，R(p)为模型定义的正则项以避免过拟合，使用Adam优化算法来加速模型收敛。

在模型的预测阶段，使用argmax的方法生成段落最大条件概率下的答案，公式如下：

a^＝argmax_alogPr(a|q，p)＝argmax_a∑_pi∈PPr(Pi|q，P)Pr(a|q，pi)

训练数据主要聚焦金融机构的合规领域的各种文本，包括法律法规、公司合同和公司制度条款等，先由专业合规人员进行问题、段落和答案三元组的人工标注工作。后续进行了一定程度的文本增强工作，比如利用信息检索技术从大量的文档集合中筛选段落，并利用远程监督技术进行自动打标签，构造了一个合规领域的垂直机器阅读理解数据集。

在模型的训练阶段，在段落选择器模块中，选用的RNN特征提取器为BiLSTM，设置的hidden size为128，设置词向量GloVe的维度为300。在段落阅读器模块中，采用Bert4Keras下的中文BERT预训练语言模型，对于长度超过512的文本，进行了head+tail的截断操作，即保留前128个token和最后382个token。同时，针对错误的回答进行了数据负样本增强。比如“犹豫期内退出合约是否有损失”和“犹豫期外退出合约是否有损失”，从语义相似度的角度不过一字之差，答案却截然不同。模型在只有极少针对性训练样本的情况下不能很好区分二者，因此就会扩充带有“犹豫期内”、“犹豫期外”关键词的样本。

S202、选取概率分值最大的前K个候选答案片段，生成问题的答案。

需要说明的是，在得到每一个候选片段的概率分值之后，从中选取出概率分值最大的前K个候选答案片段，生成问题的答案。其中，为了更好的挑选候选答案片段来生成最终答案，也可以将筛选出的每一个候选答案片段按照概率分值的大小进行排序再进行挑选。

本申请提供的一种答案的生成方法中，首先获取待回复的问题，并从预先构建的语料库查找出与问题相匹配的文档。然后针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。接着筛选出相关度分值满足预设分值条件的段落。最后基于筛选出的每一个段落，生成问题的答案。由此可知，利用本申请的方法，在根据问题匹配出若干文档后，会计算得到问题与各个文档中的每一个段落的相关度分值，并根据相关度分值筛选若干个相关段落，最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案，导致了生成的答案的准确率不高的问题。

本申请另一实施例还提供了一种答案的生成装置，应用于问答系统服务端，如图4所示，包括：

获取单元401，用于获取待回复的问题。

查找单元402，用于从预先构建的语料库查找出与问题相匹配的文档。

计算单元403，用于针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。

筛选单元404，用于筛选出相关度分值满足预设分值条件的段落。

答案生成单元405，用于基于筛选出的每一个段落，生成问题的答案。

本实施例中，获取单元401、查找单元402、计算单元403、筛选单元404以及答案生成单元405的具体执行过程，可参见对应图1的方法实施例内容，此处不再赘述。

本申请提供的一种答案的生成装置中，首先获取单元401获取待回复的问题，查找单元402从预先构建的语料库查找出与问题相匹配的文档。然后计算单元403针对查找出的每一个文档，计算得到问题与文档中的每一个段落的相关度分值；其中，相关度分值用于表征问题与段落的相关性，相关度分值越大，问题与段落的相关性越高。接着筛选单元404筛选出相关度分值满足预设分值条件的段落。最后答案生成单元405基于筛选出的每一个段落，生成问题的答案。由此可知，利用本申请的方法，在根据问题匹配出若干文档后，会计算得到问题与各个文档中的每一个段落的相关度分值，并根据相关度分值筛选若干个相关段落，最后从若干个相关段落中生成问题的最终答案。解决了现有技术中问答系统在生成答案时通常只从最相关的段落中提取答案，导致了生成的答案的准确率不高的问题。

可选的，在在本申请的另一实施例中，上述答案的生成装置，还可以包括：

预处理单元，用于对查找出的每一个文档进行数据预处理。

本实施例中，预处理单元的具体执行过程，可参见上述对应的方法实施例内容，此处不再赘述。

可选的，在在本申请的另一实施例中，上述计算单元403的一种实施方式，包括：

处理子单元，用于将问题进行向量化处理，得到问题的词向量，以及将文档中的每一个段落进行向量化处理，得到文档中的每一个段落的词向量。

第一计算子单元，用于将问题的词向量和文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，计算得到问题与文档中的每一个段落的相关度分值。

本实施例中，处理子单元、第一计算子单元的具体执行过程，可参见上述对应的方法实施例内容，此处不再赘述。

可选的，在在本申请的另一实施例中，上述答案生成单元405的一种实施方式，包括：

第二计算子单元，用于针对筛选出的每一个段落，从段落中筛选出候选答案片段，并计算得到候选答案片段的概率分值；其中，概率分值用于表征答案片段可作为问题的答案的概率。

第一选取子单元，用于选取概率分值最大的前K个候选答案片段，生成问题的答案。

本实施例中，第二计算子单元以及第一选取子单元的具体执行过程，可参见上述图2对应的方法实施例内容，此处不再赘述。

可选的，在在本申请的另一实施例中，上述第二计算子单元的一种实施方式，包括：

第三计算子单元，用于针对每一个段落，计算得到段落中的每一个字的位置作为候选答案片段的起始位置的概率分值，以及计算得到段落中的每一个字的位置作为候选答案片段的结束位置的概率分值。

第二选取子单元，用于针对每一个段落，选取出作为候选答案片段的起始位置的概率分值最大的一个字的位置作为候选答案片段的起始位置，以及选取出作为候选答案片段的结束位置的概率分值最大的一个字的位置作为候选答案片段的结束位置，生成候选答案片段。

第四计算子单元，用于针对每一个段落，基于段落的相关度分值，和段落的候选答案片段的起始位置对应的概率分值、段落的候选答案片段的结束位置对应的概率分值，计算得到段落的候选答案片段的概率分值。

本实施例中，第三计算子单元、第二选取子单元以及第四计算子单元的具体执行过程，可参见上述图3对应的方法实施例内容，此处不再赘述。

本申请另一实施例还提供了一种电子设备，如图5所示，具体包括：

一个或多个处理器501。

存储装置502，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器501执行时，使得一个或多个处理器501实现如上述实施例中任意一项方法。

本申请另一实施例还提供了计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种答案的生成方法，其特征在于，应用于问答系统服务端，所述答案的生成方法，包括：

获取待回复的问题；

从预先构建的语料库查找出与所述问题相匹配的文档；

通过段落选择器将获取到的所述问题通过轻量级的词向量Glove模型进行向量化处理，得到所述问题的词向量，以及通过段落选择器将获取到的所述文档中的每一个段落通过轻量级的词向量Glove模型进行向量化处理，得到文档中的每一个段落的词向量；

将所述问题的词向量和所述文档中的每一个段落的词向量输入到预先构建的段落相关度模型中，计算得到所述问题与所述文档中的每一个段落的相关度分值；其中，所述相关度分值用于表征问题与段落的相关性，所述相关度分值越大，问题与段落的相关性越高；所述预先构建的段落相关度模型在训练阶段中，在段落选择器模块中，所述段落选择器模块的RNN特征提取器为BiLSTM，在段落阅读器模块中，采用BERT预训练语言模型；

筛选出所述相关度分值满足预设分值条件的段落；

针对筛选出的每一个段落，从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值；其中，所述概率分值用于表征所述答案片段作为所述问题的答案的概率；

选取概率分值最大的前K个所述候选答案片段，生成问题的答案，使得避免只从最相关的一个段落中提取答案；

所述从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值，包括：

2.根据权利要求1所述的方法，其特征在于，所述从预先构建的语料库查找出与所述问题相匹配的文档之后，还包括：

对查找出的每一个文档进行数据预处理。

3.一种答案的生成装置，其特征在于，应用于问答系统服务端，所述答案的生成装置，包括：

获取单元，用于获取待回复的问题；

计算单元，用于通过段落选择器将获取到的所述问题通过轻量级的词向量Glove模型进行向量化处理，得到所述问题的词向量，以及通过段落选择器将获取到的所述文档中的每一个段落通过轻量级的词向量Glove模型进行向量化处理，得到文档中的每一个段落的词向量；

答案生成单元，用于针对筛选出的每一个段落，从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值；其中，所述概率分值用于表征所述答案片段作为所述问题的答案的概率；

第二计算子单元，包括：

4.根据权利要求3所述的装置，其特征在于，所述答案生成单元，包括：

第二计算子单元，用于针对筛选出的每一个段落，从所述段落中筛选出候选答案片段，并计算得到所述候选答案片段的概率分值；其中，所述概率分值用于表征所述答案片段作为所述问题的答案的概率；

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至2中任意一项所述的方法。

6.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述的方法。