CN113342924A

CN113342924A - 答案检索方法及装置、存储介质及电子设备

Info

Publication number: CN113342924A
Application number: CN202110758028.1A
Authority: CN
Inventors: 蒋竺芳; 陈现麟; 王强
Original assignee: Beijing Duwo Network Technology Co ltd
Current assignee: Beijing Duwo Network Technology Co ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-09-03

Abstract

本发明提供一种答案检索方法及装置、存储介质及电子设备，该方法包括：依据预设的倒排索引表，在问答库中确定查询问题对应的多个候选问题；确定每个候选问题对应的第一相似性参数，以确定各个目标候选问题；基于预训练的BERT模型，获得每个目标候选问题对应的句向量和查询问题对应的句向量，以确定每个目标候选问题对应的第二相似性参数，基于每个目标候选问题对应的第一相似性参数和第二相似性参数，确定该目标候选问题对应的相似度；基于每个目标候选问题对应的相似度，确定问题集合，获取问题集合中每个目标候选问题对应的答案，以确定该查询问题对应的答案。应用本发明的方法，可提高答案检索的准确度，无需训练模型，可节省工作量。

Description

答案检索方法及装置、存储介质及电子设备

技术领域

本发明涉及人工智能技术领域，特别是涉及一种答案检索方法及装置、存储介质及电子设备。

背景技术

随着自然语言处理技术的发展，问答系统(Question Answering System，QA)在各个领域中的应用越来越广泛。QA系统是一种特定类型的信息检索，它能以自然语言回答用户以自然语言提出的问题。

QA系统通常是基于用户提出的问题，在包含各类问题及其答案的知识库中，检索用户提出的问题所对应的答案，以回答用户提出的问题。而在QA系统进行答案检索的过程中，通常需要将文本转换为向量以进行一系列的数据处理。

目前，QA系统通常是基于将词映射到实值向量空间的方式，将问题文本转换为各个词向量，再将各个词向量进行拼接得到句向量的。而用于映射的各类模型的词表达能力需要大量的、与业务相关的语料进行训练，如Word2vec模型。而在实际的应用过程中，QA系统的问答业务范围愈加广泛，在QA系统对应不同的业务的知识库时，均需要以该知识库相关的语料训练模型，工作量较大。此外，当应用在没有数据积累的新业务领域时，更是难以训练出一个转换效果良好的模型。

发明内容

有鉴于此，本发明实施例提供了一种答案检索方法，以解决QA系统设计过程中工作量较大，难以实现良好的文本转换效果的问题。

本发明实施例还提供了一种答案检索装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种答案检索方法，包括：

当接收到对用户输入的查询问题进行答案检索的指令时，依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题；

确定每个所述候选问题对应的第一相似性参数，每个所述候选问题对应的所述第一相似性参数表征该候选问题与所述查询问题的相似程度；

基于各个所述候选问题对应的所述第一相似性参数，在各个所述候选问题中确定各个目标候选问题；

将每个所述目标候选问题和所述查询问题分别输入预训练的BERT模型，经所述BERT模型处理后，获得每个所述目标候选问题对应的句向量，以及所述查询问题对应的句向量；

确定每个所述目标候选问题对应的第二相似性参数，每个所述目标候选问题对应的所述第二相似性参数表征，该目标候选问题对应的句向量与所述查询问题对应的句向量的相似程度；

基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度；

基于每个所述目标候选问题对应的所述相似度，确定问题集合，所述问题集合中包含至少一个目标候选问题；

在所述预设的问答库中，获取所述问题集合中每个所述目标候选问题对应的答案，并将各个所述目标候选问题对应的所述答案，作为所述查询问题对应的答案。

上述的方法，可选的，所述倒排索引表的设置过程，包括：

确定所述预设的问答库中包含的各个预设问题；

基于各个所述预设问题，确定各个文本关键词；

依据预设的筛选策略，在各个所述文本关键词中，确定各个索引关键词；

确定每个所述索引关键词对应的问题索引信息，并基于各个所述索引关键词和每个所述索引关键词对应的问题索引信息，设置倒排索引表。

上述的方法，可选的，所述依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题，包括：

在所述倒排索引表包含的各个索引关键词中，确定所述查询问题对应的各个目标关键词；

在所述倒排索引表包含的各个问题索引信息中，确定每个所述目标关键词对应的问题索引信息；

获取各个所述目标关键词对应的所述问题索引信息中包含的各个问题标识；

在所述预设的问答库中，确定每个所述问题标识对应的问题，并将每个所述问题标识对应的所述问题作为所述候选问题。

上述的方法，可选的，所述确定每个所述候选问题对应的第一相似性参数，包括：

依据预设的动态规划算法，确定每个所述候选问题对应的匹配字符数，每个所述候选问题对应的所述匹配字符数为，该候选问题与所述查询问题之间的最长匹配字符数；

确定每个所述候选问题对应的总字符数；

确定每个所述候选问题对应的比值，每个所述候选问题对应的所述比值为，该候选问题对应的匹配字符数与该候选问题对应的总字符数的比值；

将每个所述候选问题对应的所述比值，作为每个所述候选问题对应的所述第一相似性参数。

上述的方法，可选的，所述确定每个所述目标候选问题对应的第二相似性参数，包括：

确定每个所述目标候选问题对应的夹角余弦值，每个所述目标候选问题对应的所述夹角余弦值为该目标候选问题对应的句向量，与所述查询问题对应的句向量之间的夹角余弦值；

将每个所述目标候选问题对应的所述夹角余弦值，作为每个所述目标候选问题对应的所述第二相似性参数。

上述的方法，可选的，所述基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度，包括：

确定预设的第一权重和第二权重；

对于每个所述目标候选问题，基于所述第一权重和所述第二权重，对该目标候选问题对应的所述第一相似性参数和所述第二相似性参数进行加权求和，并将求和结果作为该目标候选问题对应的相似度。

上述的方法，可选的，所述基于每个所述目标候选问题对应的所述相似度，确定问题集合，包括：

确定预设的匹配问题个数；

按照各个所述目标候选问题对应的相似度由高到低的顺序，在各个所述目标候选问题中，选取与所述匹配问题个数相对应的各个目标候选问题，将已选取的各个目标候选问题组成所述问题集合。

一种答案检索装置，包括：

第一确定单元，用于当接收到对用户输入的查询问题进行答案检索的指令时，依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题；

第二确定单元，用于确定每个所述候选问题对应的第一相似性参数，每个所述候选问题对应的所述第一相似性参数表征该候选问题与所述查询问题的相似程度；

第三确定单元，用于基于各个所述候选问题对应的所述第一相似性参数，在各个所述候选问题中确定各个目标候选问题；

输入单元，用于将每个所述目标候选问题和所述查询问题分别输入预训练的BERT模型，经所述BERT模型处理后，获得每个所述目标候选问题对应的句向量，以及所述查询问题对应的句向量；

第四确定单元，用于确定每个所述目标候选问题对应的第二相似性参数，每个所述目标候选问题对应的所述第二相似性参数表征，该目标候选问题对应的句向量与所述查询问题对应的句向量的相似程度；

第五确定单元，用于基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度；

第六确定单元，用于基于每个所述目标候选问题对应的所述相似度，确定问题集合，所述问题集合中包含至少一个目标候选问题；

第七确定单元，用于在所述预设的问答库中，获取所述问题集合中每个所述目标候选问题对应的答案，并将各个所述目标候选问题对应的所述答案，作为所述查询问题对应的答案。

上述的装置，可选的，还包括：

第八确定单元，用于确定所述预设的问答库中包含的各个预设问题；

第九确定单元，用于基于各个所述预设问题，确定各个文本关键词；

第十确定单元，用于依据预设的筛选策略，在各个所述文本关键词中，确定各个索引关键词；

第十一确定单元，用于确定每个所述索引关键词对应的问题索引信息，并基于各个所述索引关键词和每个所述索引关键词对应的问题索引信息，设置倒排索引表。

上述的装置，可选的，所述第一确定单元，包括：

第一确定子单元，用于在所述倒排索引表包含的各个索引关键词中，确定所述查询问题对应的各个目标关键词；

第二确定子单元，用于在所述倒排索引表包含的各个问题索引信息中，确定每个所述目标关键词对应的问题索引信息；

获取子单元，用于获取各个所述目标关键词对应的所述问题索引信息中包含的各个问题标识；

第三确定子单元，用于在所述预设的问答库中，确定每个所述问题标识对应的问题，并将每个所述问题标识对应的所述问题作为所述候选问题。

上述的装置，可选的，所述第二确定单元，包括：

第四确定子单元，用于依据预设的动态规划算法，确定每个所述候选问题对应的匹配字符数，每个所述候选问题对应的所述匹配字符数为，该候选问题与所述查询问题之间的最长匹配字符数；

第五确定子单元，用于确定每个所述候选问题对应的总字符数；

第六确定子单元，用于确定每个所述候选问题对应的比值，每个所述候选问题对应的所述比值为，该候选问题对应的匹配字符数与该候选问题对应的总字符数的比值；

第七确定子单元，用于将每个所述候选问题对应的所述比值，作为每个所述候选问题对应的所述第一相似性参数。

上述的装置，可选的，所述第四确定单元，包括：

第八确定子单元，用于确定每个所述目标候选问题对应的夹角余弦值，每个所述目标候选问题对应的所述夹角余弦值为该目标候选问题对应的句向量，与所述查询问题对应的句向量之间的夹角余弦值；

第九确定子单元，用于将每个所述目标候选问题对应的所述夹角余弦值，作为每个所述目标候选问题对应的所述第二相似性参数。

上述的装置，可选的，所述第五确定单元，包括：

第十确定子单元，用于确定预设的第一权重和第二权重；

运算子单元，用于对于每个所述目标候选问题，基于所述第一权重和所述第二权重，对该目标候选问题对应的所述第一相似性参数和所述第二相似性参数进行加权求和，并将求和结果作为该目标候选问题对应的相似度。

上述的装置，可选的，所述第六确定单元，包括：

第十一确定子单元，用于确定预设的匹配问题个数；

选取子单元，用于按照各个所述目标候选问题对应的相似度由高到低的顺序，在各个所述目标候选问题中，选取与所述匹配问题个数相对应的各个目标候选问题，将已选取的各个目标候选问题组成所述问题集合。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的答案检索方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的答案检索方法。

基于上述本发明实施例提供的一种答案检索方法，通过预设的倒排索引表，在预设的问答库中确定用户输入的查询问题对应的多个候选问题，并确定每个候选问题对应的第一相似性参数，以在各个候选问题中进一步确定各个目标候选问题。可基于预训练的BERT模型获得每个目标候选问题对应的句向量，和所述查询问题对应的句向量，以确定每个目标候选问题对应的第二相似性参数。对于每个目标候选问题，基于其对应的第一相似性参数和第二相似性参数，确定其对应的相似度，基于每个目标候选问题对应的相似度，确定问题集合，将问题集合中各个目标候选问题对应的答案作为查询问题对应的答案。应用本发明实施例提供的方法，在检索答案的过程中，基于BERT模型获得文本对应的句向量，而BERT模型是一个现有的预训练模型，本身具有良好的词表达能力，从模型的中间输出中，可获得输入文本对应的向量，无需对其进行预先训练，可减少系统设计过程的工作量，且在没有数据积累的新业务领域中，也能够实现良好的向量表达，有利于提高答案检索的准确度。另一方面，可通过倒排索引表和各类相似性参数，在问答库中匹配出各个目标候选问题，以检索出对应的答案向用户反馈，通过不同类型的筛选，有利于问题匹配的准确度，进一步可提高答案检索的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种答案检索方法的方法流程图；

图2为本发明实施例提供的一种答案检索方法的又一方法流程图；

图3为本发明实施例提供的一种答案检索装置的结构示意图；

图4为本发明实施例提供的一种答案检索装置的又一结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，在QA系统的检索过程中，通常需要将文本转换为向量。现有方法通常是基于Word2vec等模型，通过将词映射至实值向量空间的方式生成向量，它利用与问答库(也就是包含各类问题及其答案的知识库)相关的语料来产生向量空间，以生成词向量，在这个向量空间中，每个词对应一个点，语义上相近的词在向量空间上对应的点也相近，为了能更好地在约束性向量空间中表现相似点的相似度，需要根据具体且大量的问题，使用合适的语料进行模型训练，工作量较大，且训练效果严重依赖于训练数据，难以保证实现良好的文本转换效果。此外，当QA系统应用在没有数据积累的新业务领域时，难以获取训练数据，要训练可用的词表达模型亦是十分困难。

因此，本发明实施例提供了一种答案检索方法，基于BERT模型进行句向量的表达，无法依赖与问答库相关的语料对模型进行训练，可减少工作量，亦便于QA系统应用于无数据积累的新业务领域。

本发明实施例提供了一种答案检索方法，所述方法可应用于问答系统，其执行主体可以为系统的服务器，所述方法的方法流程图如图1所示，包括：

S101：当接收到对用户输入的查询问题进行答案检索的指令时，依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题；

本发明实施例提供的方法中，可预先设置与问答库相对应的倒排索引表，倒排索引表中的每一项包含一个属性值和具有该属性值的各记录的地址，本发明实施例提供的方法中，用于记录该问答库对应的各个关键词，与具有该关键词的问题的索引信息。

当服务器接收到用户所查询的问题时，可依据倒排索引表，在问答库中的各个预设问题中，确定用户查询的问题所对应的多个候选问题。

S102：确定每个所述候选问题对应的第一相似性参数，每个所述候选问题对应的所述第一相似性参数表征该候选问题与所述查询问题的相似程度；

本发明实施例提供的方法中，可以依据预设的文本相似度算法，计算每个候选问题与该查询问题的文本相似度参数。具体的文本相似度算法，可采用现有的语义相似度计算的算法，计算每个候选问题的文本与查询问题的文本的相似度，作为每个候选问题对应的第一相似性参数。

需要说明的是，在具体的应用场景中可根据实际需求采用不同的文本相似度算法，不影响本发明实施例提供的方法实现功能。

S103：基于各个所述候选问题对应的所述第一相似性参数，在各个所述候选问题中确定各个目标候选问题；

本发明实施例提供的方法中，可按照各个候选问题对应的第一相似性参数所表征的相似程度的高低，按照由高到低的顺序选取预定个数的候选问题，将已选取的每个候选问题作为目标候选问题。该预定个数可以为预先设置的具体数值，也可以是根据当前候选问题的总个数按预定比例确定的数值，可以根据实际的需求确定，不影响本发明实施例提供的方法实现功能。

S104：将每个所述目标候选问题和所述查询问题分别输入预训练的BERT模型，经所述BERT模型处理后，获得每个所述目标候选问题对应的句向量，以及所述查询问题对应的句向量；

本发明实施例提供的方法中，可将每个目标候选问题和该查询问题，分别输入BERT模型，对于每个输入的问题，经BERT模型处理后，获取BERT模型的表征层的输出，以获得当前输入的问题所对应的句向量。BERT模型是谷歌开源的一个预训练模型，BERT模型指的是Bidirectional Encoder Representations from Transformers，是基于变换器的双向编码器表示模型。该模型现有架构已经过大量数据训练，具有良好的自然语言处理能力。该模型中存在一个表征层，该表征层的输出为输入该模型的文本所对应的向量。在将目标候选问题或查询问题的文本输入BERT模型后，可获取BERT模型中表征层的输出，以获得每个目标候选问题对应的句向量，和用户输入的查询问题所对应的句向量。

S105：确定每个所述目标候选问题对应的第二相似性参数，每个所述目标候选问题对应的所述第二相似性参数表征，该目标候选问题对应的句向量与所述查询问题对应的句向量的相似程度；

本发明实施例提供的方法中，可以根据每个目标候选问题对应的句向量，以及查询问题对应的句向量，基于预设的向量相似性算法，确定每个目标候选问题对应的句向量与查询问题对应的句向量之间的相似度，以表征两者相似度的参数作为该目标候选问题对应的第二相似性参数。具体的向量相似性算法，可以采用现有的各类向量相似度算法，例如各类距离算法，如余弦距离、欧式距离等等。需要说明的是，具体的向量相似度算法可根据实际需求选择，不影响本发明实施例提供的方法实现功能。

S106：基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度；

本发明实施例提供的方法中，每个目标候选问题都是在各个候选问题中选取的，也就是每个目标候选问题在步骤S102的过程中确定过其对应的第一相似性参数。对于每个目标候选问题，结合该目标候选问题对应的第一相似性参数和其对应的第二相似性参数，确定该目标候选问题对应的相似度。也就是结合目标候选问题与查询问题之间的文本相似程度和向量相似程度，确定目标候选问题与查询问题之间的相似度。

S107：基于每个所述目标候选问题对应的所述相似度，确定问题集合，所述问题集合中包含至少一个目标候选问题；

本发明实施例提供的方法中，可以根据各个目标候选问题对应的相似度的高低情况，在各个目标候选问题中确定问题集合，也就是将各个目标候选问题中，对应的相似度相对较高的目标候选问题组成问题集合。问题集合中可以仅包含一个目标候选问题，也可以包含多个目标候选问题。问题集合中的目标候选问题的个数可以根据实际需求确定，不影响本发明实施例提供的方法实现功能。

S108：在所述预设的问答库中，获取所述问题集合中每个所述目标候选问题对应的答案，并将各个所述目标候选问题对应的所述答案，作为所述查询问题对应的答案。

本发明实施例提供的方法中，在预设的问答库中存储有各个问题及其对应的答案。可以将问题集合中每个目标候选问题对应的问题标识，与问答库中每个问题的问题标识进行比对。对于每个目标候选问题，可在预设的问答库中，获取问题标识与该目标候选问题对应的问题标识相匹配的问题所对应的答案，以得到该目标候选问题对应的答案。将各个目标候选问题对应的答案作为该查询问题对应的答案检索结果，向用户反馈。

基于本发明实施例提供的方法，在用户输入查询问题时，可根据倒排索引表在预设的问答库中，初步匹配与该查询问题对应的多个候选问题。然后确定每个候选问题对应的第一相似性参数，以在各个候选问题中进一步筛选出各个目标候选问题。通过BERT模型获得每个目标候选问题对应的句向量，以及查询问题对应的句向量，以确定每个目标候选问题对应的第二相似性参数。结合每个目标候选问题对应的第一相似性参数和第二相似性参数，确定每个目标候选问题对应的相似度。根据各个目标候选问题对应的相似度，在各个目标候选问题中确定问题集合。将问题集合中各个目标候选问题对应的答案作为答案检索结果。应用本发明实施例提供的方法，可分别根据倒排索引表和第一相似性参数对候选问题进行逐步筛选，对于筛选出的目标候选问题结合多个相似性参数确定每个目标候选问题的相似度。通过多级筛选，可提高问题匹配的准确性，结合多类相似性参数确定相似度，可进一步提高问题匹配的准确性，且仅对于目标候选问题确定第二相似性参数以及确定相似度，可减少数据处理的工作量。在此过程中，通过BERT模型获取各个问题对应的句向量，而BERT模型是一个现有的预训练模型，具有良好的词表达能力，无需对其进行预先训练，可减少系统设计过程的工作量，且在没有数据积累的新业务领域中，也能够实现良好的向量表达，有利于提高答案检索的准确度。

为了更好地说明本发明实施例提供的方法，在图1所示方法的基础上，结合图2所示流程图，本发明实施例提供了又一种答案检索方法，本发明实施例提供的方法中，步骤S101中所提及的倒排索引表的设置过程，包括：

S201：确定所述预设的问答库中包含的各个预设问题；

本发明实施例提供的方法中，预设的问答库是一个包含各个预设问题及其对应答案的知识库，可从问答库中读取所有预设问题的文本。

S202：基于各个所述预设问题，确定各个文本关键词；

本发明实施例提供的方法中，对于各个预设问题的文本可以进行分词处理，得到每个预设问题对应的各个词汇，并根据所有预设问题对应的各个词汇，统计各个预设问题中出现的词汇，将各个预设问题中出现的各个词汇确定为各个文本关键词。

S203：依据预设的筛选策略，在各个所述文本关键词中，确定各个索引关键词；

本发明实施例提供的方法中，可预先设置筛选策略，例如可以设定停用词汇或是筛除低频词汇等策略。依据预设筛选策略，对各个文本关键词进行筛选，将筛选出的各个文本关键词作为各个索引关键词。如以设定停用词汇及筛除低频词汇为筛选策略，则将各个文本关键词中的低频词汇和停用词汇筛除，将筛除后的各个文本关键词作为各个索引关键词。具体的，可以确定每个文本关键词对应的词频，并获取预先设定的词频阈值，以及预先设定的各个停用词汇。将每个文本关键词对应的词频与预设的词频阈值进行比对，将词频低于该词频阈值的文本关键词筛除，将经过筛除后剩余的各个文本关键词分别与各个停用词汇进行比对，并将剩余的各个文本关键词中与任意停用词汇相同的文本关键词筛除，将筛除后余下的各个文本关键词作为各个索引关键词。

需要说明的是，本发明实施例提供的停用词汇筛选和低频词汇筛选，仅为了更好地说明本发明实施例提供的方法所提供的一个实施例，在实际的应用过程中，具体的筛选策略可以根据实际需求设置，可以采用其他的筛选策略进行筛选，不影响本发明实施例提供的方法实现功能。

S204：确定每个所述索引关键词对应的问题索引信息，并基于各个所述索引关键词和每个所述索引关键词对应的问题索引信息，设置倒排索引表。

本发明实施例提供的方法中，对于每个索引关键词，可在各个预设问题中，确定出现该索引关键词的各个预设问题，将出现该索引关键词的各个预设问题对应的索引信息作为该索引关键词对应的问题索引信息，预设问题对应的索引信息可以是该预设问题的问题标识。对于每个索引关键词，还可以确定出现该索引关键词的预设问题中该索引关键词对应的词频，将该索引关键在对应的预设问题中词频亦作为问题索引信息。

本发明实施例提供的方法中，可将每个索引关键词作为倒排索引表中的属性值，将每个索引关键词对应的问题索引信息作为其对应属性值的值，以设置倒排索引表，通过该倒排索引表可获取每个索引关键词对应的问题标识等问题索引信息。

基于本发明实施例提供的方法，可通过问答库中的各个预设问题对应的关键词设置倒排索引表，可通过倒排索引表对各个预设问题进行筛选，减少后续处理过程中的相似性参数或相似度计算的工作量，提高处理效率。在设置倒排索引表的过程中，可基于预设的筛选策略对各个文本关键词进行筛选得到各个索引关键词，可避免将匹配效果较差的关键词设置在倒排索引表中，可提高后续确定候选问题过程中，倒排索引表的筛选匹配准确度。

进一步的，在上述实施例提供的方法的基础上，本发明实施例提供了另一种答案检索方法，本发明实施例提供的方法中，步骤S101中所提及的依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题的过程，包括：

本发明实施例提供的方法中，可对查询问题进行分词操作，获得该查询问题对应的各个关键词，将该查询问题对应的各个关键词，分别与倒排索引表中包含的各个索引关键词进行匹配，将各个索引关键词中，与该查询问题对应的任意一个关键词相匹配的每个索引关键词，作为该查询问题对应的目标关键词。

本发明实施例提供的方法中，倒排索引表中包含各个问题索引信息，每个问题索引信息与一个索引关键词相对应。可从倒排索引表中，获取目标关键词对应的问题索引信息。

本发明实施例提供的方法中，可从每个目标关键词对应的问题索引信息中，获取各个问题标识。也就是获取包含各个目标关键词的各个问题的问题标识。

本发明实施例提供的方法中，可根据每个问题标识，在预设的问答库包含的各个预设问题中，获取每个问题标识相对应的问题，将每个问题标识对应的问题作为候选问题。

需要说明的是，在实际的应用过程中，各个目标关键词对应的问题索引信息中包含的问题标识可能存在重复的问题标识，对于重复的问题标识可统一为一个问题标识，而不重复获取对应问题。例如目标关键词A对应的问题索引信息中包含问题标识Q1、Q2和Q3，目标关键词B对应的问题索引信息中包含问题标识Q2、Q3和Q4，则将Q1、Q2、Q3和Q4对应的四个问题作为候选问题即可。

基于本发明实施例提供的方法，可通过倒排索引表，基于查询问题对应的关键词，对问答库中包含的各个预设问题进行筛选，初步筛选出与查询问题相匹配的各个候选问题，对于筛选出的候选问题进行后续的相似性参数的计算，而无需对问答库中所有预设问题进行相似性的计算，可减少数据处理的工作量，进一步提高处理效率。

为了更好地说明本发明实施例提供的方法，在图1所示方法的基础上，本发明实施例提供了又一种答案检索方法，本发明实施例提供的方法中，步骤S102中所提及的确定每个所述候选问题对应的第一相似性参数，包括：

本发明实施例提供的方法中，可依据预设的动态规划算法(DynamicProgramming，DP)，确定每个候选问题与查询问题之间的最长匹配字符数，将该最长匹配字符数作为该候选问题对应的匹配字符数。根据DP算法确定两个文本的最长匹配字符数，是DP算法的现有常规应用之一，在此不作具体说明。需要说明的是，本发明实施例提供的方法中，所述最长匹配字符数可以是有间隔的序列匹配的字符数，不限于连续字符的匹配字符数，例如字符串“abdc”和字符串“abc”，除了两个字符串中的“ab”相匹配外，可认为“abc”与“abdc”中的“ab*c”相匹配，其最长匹配字符数为3。

确定每个所述候选问题对应的总字符数；

本发明实施例提供的方法中，可确定每个候选问题的文本中包含的字符数，作为每个候选问题对应的总字符数。

本发明实施例提供的方法中，对于每个候选问题，可将该候选问题对应的匹配字符数与该候选问题对应的总字符数相除，将两者的比值作为该候选问题对应的比值。将每个候选问题对应的比值作为其对应的第一相似性参数。

基于本发明实施例提供的方法，可将候选问题与查询问题的最长匹配字符数与候选问题的总字符数的比值作为第一相似性参数，在考虑相匹配的字符数的情况下，进一步结合候选问题的总字符数，能够更好地表征相似程度，避免匹配字符数较长，但实际候选问题的总字符数也很长，实际的相似程度不高而出现误判，可进一步提高确定相似性的准确度。

进一步的，在图1所示方法的基础上，本发明实施例提供了又一种答案检索方法，在步骤S105中所提及的确定每个所述目标候选问题对应的第二相似性参数的过程，包括：

本发明实施例提供的方法中，对于每个目标候选问题，可计算其对应的句向量与查询问题对应的句向量之间的夹角的余弦值，将该值作为该目标候选问题对应的夹角余弦值，也就是确定两个向量的余弦相似度。余弦相似度用向量空间中两个向量夹角的余弦值，作为衡量两个个体间差异的大小。夹角余弦值越接近1，余弦夹角就越接近0度，表征这两个向量越相似。夹角余弦值具体可采用下述公式进行计算：

cosθ＝(S1*S2)/(|S1|*|S2|) (公式1)

其中，cosθ表示S1与S2之间的夹角的余弦值，S1表示目标候选问题对应的句向量，S2表示查询问题对应的句向量。

本发明实施例提供的方法中，将每个目标候选问题对应的夹角余弦值作为该目标候选问题对应的第二相似性参数，也就是以余弦相似度确定第二相似性参数。

基于本发明实施例提供的方法，基于夹角余弦值确定第二相似性参数，计算过程较为简单，可进一步提高答案检索的处理效率。

为了更好地说明本发明实施例提供的方法，本发明实施例提供了又一种答案检索方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S106中所提及的基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度的过程，包括：

确定预设的第一权重和第二权重；

本发明实施例提供的方法中，可预先根据实际需求设置第一权重和第二权重，第一权重为第一相似性参数对应的权重，也就是在计算相似度时，第一相似性参数所占据的比重。第二权重为第二相似性参数对应的权重，也就是在计算相似度时，第二相似性参数所占据的比重。第一权重与第二权重的总和为1。而第一权重和第二权重的具体数值，可根据实际需求考量第一相似性参数与第二相似性参数的重要程度进行确定，不影响本发明实施例提供的方法实现功能。

本发明实施例提供的方法中，可根据预设的第一权重与第二权重，对每个目标候选问题对应的第一相似性参数和第二相似性参数进行加权求和，将求和结果作为每个目标候选问题对应的相似度。也就是对于每个目标候选问题，将其对应的第一相似性参数与第一权重相乘，将其对应的第二相似性参数与第二权重相乘，将这两个乘积相加，相加的结果则为该目标候选问题对应的相似度。

基于本发明实施例提供的方法，可结合预设的权重对第一相似性参数和第二相似性参数进行加权求和，以确定目标候选问题对应的相似度。可根据实际的考量需求，确定第一相似性参数和第二相似性参数的权重，有利于提高相似度的准确性。

进一步的，本发明实施例提供了又一种答案检索方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S107中所提及的基于每个所述目标候选问题对应的所述相似度，确定问题集合的过程，包括：

确定预设的匹配问题个数；

本发明实施例提供的方法中，可以预先设置最终与查询问题相匹配的匹配问题个数，也就会最终返回答案的个数。

本发明实施例提供的方法中，可以按照各个目标候选问题对应的相似度由高到低的顺序，对各个目标候选问题进行排序，按照该顺序由高到低选取预定个数的目标候选问题，预定个数即为预设的匹配问题个数。将选取到的各个目标候选问题组成问题集合，也就是最终与查询问题相匹配的问题集合。

需要说明的是，在实际的应用过程中，可能会出现目标候选问题的个数小于匹配问题个数的情况，在此情况下可以将所有目标候选问题组成问题集合，不影响本发明实施例提供的方法实现功能。

基于本发明实施例提供的方法，可根据预设的匹配问题个数，按照相似度由高到低的顺序选取目标候选问题组成问题集合。处理过程较为方便快捷，可进一步提高答案检索的处理效率。

与图1所示的答案检索方法相对应的，本发明实施例还提供了一种答案检索装置，用于对图1中所示方法的具体实现，其结构示意图如图3所示，包括：

第一确定单元301，用于当接收到对用户输入的查询问题进行答案检索的指令时，依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题；

第二确定单元302，用于确定每个所述候选问题对应的第一相似性参数，每个所述候选问题对应的所述第一相似性参数表征该候选问题与所述查询问题的相似程度；

第三确定单元303，用于基于各个所述候选问题对应的所述第一相似性参数，在各个所述候选问题中确定各个目标候选问题；

输入单元304，用于将每个所述目标候选问题和所述查询问题分别输入预训练的BERT模型，经所述BERT模型处理后，获得每个所述目标候选问题对应的句向量，以及所述查询问题对应的句向量；

第四确定单元305，用于确定每个所述目标候选问题对应的第二相似性参数，每个所述目标候选问题对应的所述第二相似性参数表征，该目标候选问题对应的句向量与所述查询问题对应的句向量的相似程度；

第五确定单元306，用于基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度；

第六确定单元307，用于基于每个所述目标候选问题对应的所述相似度，确定问题集合，所述问题集合中包含至少一个目标候选问题；

第七确定单元308，用于在所述预设的问答库中，获取所述问题集合中每个所述目标候选问题对应的答案，并将各个所述目标候选问题对应的所述答案，作为所述查询问题对应的答案。

基于本发明实施例提供的装置，在用户输入查询问题时，可根据倒排索引表在预设的问答库中，初步匹配与该查询问题对应的多个候选问题。然后确定每个候选问题对应的第一相似性参数，以在各个候选问题中进一步筛选出各个目标候选问题。通过BERT模型获得每个目标候选问题对应的句向量，以及查询问题对应的句向量，以确定每个目标候选问题对应的第二相似性参数。结合每个目标候选问题对应的第一相似性参数和第二相似性参数，确定每个目标候选问题对应的相似度。根据各个目标候选问题对应的相似度，在各个目标候选问题中确定问题集合。将问题集合中各个目标候选问题对应的答案作为答案检索结果。应用本发明实施例提供的装置，可分别根据倒排索引表和第一相似性参数对候选问题进行逐步筛选，对于筛选出的目标候选问题结合多个相似性参数确定每个目标候选问题的相似度。通过多级筛选，可提高问题匹配的准确性，结合多类相似性参数确定相似度，可进一步提高问题匹配的准确性，且仅对于目标候选问题确定第二相似性参数以及确定相似度，可减少数据处理的工作量。在此过程中，通过BERT模型获取各个问题对应的句向量，而BERT模型是一个现有的预训练模型，具有良好的词表达能力，无需对其进行预先训练，可减少系统设计过程的工作量，且在没有数据积累的新业务领域中，也能够实现良好的向量表达，有利于提高答案检索的准确度。

在图3所示装置的基础上，结合图4所示结构示意图，本发明实施例提供了又一种答案检索装置，本发明实施例提供的装置中，还包括：

第八确定单元309，用于确定所述预设的问答库中包含的各个预设问题；

第九确定单元310，用于基于各个所述预设问题，确定各个文本关键词；

第十确定单元311，用于依据预设的筛选策略，在各个所述文本关键词中，确定各个索引关键词；

第十一确定单元312，用于确定每个所述索引关键词对应的问题索引信息，并基于各个所述索引关键词和每个所述索引关键词对应的问题索引信息，设置倒排索引表。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第一确定单元301，包括：

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第二确定单元302，包括：

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第四确定单元305，包括：

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第五确定单元306，包括：

第十确定子单元，用于确定预设的第一权重和第二权重；

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第六确定单元307，包括：

第十一确定子单元，用于确定预设的匹配问题个数；

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的答案检索方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种答案检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述倒排索引表的设置过程，包括：

确定所述预设的问答库中包含的各个预设问题；

基于各个所述预设问题，确定各个文本关键词；

3.根据权利要求2所述的方法，其特征在于，所述依据预设的倒排索引表，在预设的问答库中确定所述查询问题对应的多个候选问题，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定每个所述候选问题对应的第一相似性参数，包括：

确定每个所述候选问题对应的总字符数；

5.根据权利要求1所述的方法，其特征在于，所述确定每个所述目标候选问题对应的第二相似性参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于每个所述目标候选问题对应的第一相似性参数和所述第二相似性参数，确定每个所述目标候选问题对应的相似度，包括：

确定预设的第一权重和第二权重；

7.根据权利要求1所述的方法，其特征在于，所述基于每个所述目标候选问题对应的所述相似度，确定问题集合，包括：

确定预设的匹配问题个数；

8.一种答案检索装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的答案检索方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～7任意一项所述的答案检索方法。