CN115794995A

CN115794995A - 目标答案获取方法及相关装置、电子设备和存储介质

Info

Publication number: CN115794995A
Application number: CN202211516608.0A
Authority: CN
Inventors: 朱前威; 谢春禾
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-14

Abstract

本申请公开了一种目标答案获取方法及相关装置、电子设备和存储介质，该方法包括：获得预先构建的文本库和查询文本；其中，所述文本库中包括多个基础文本；基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分；基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分；基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案。通过上述方式，本申请能够提高对目标答案检索的准确率，并减少计算成本。

Description

目标答案获取方法及相关装置、电子设备和存储介质

技术领域

本申请涉及自然语言理解技术领域，特别是涉及一种目标答案获取方法及相关装置、电子设备和存储介质。

背景技术

随着智能客服在各个行业的应用，根据人人对话过程中的问题从多源知识库中检索获得对应的答案成为高效的智能问答方式。然而，多源知识通常包括文档、网页和图片等格式的文件，如何从大量不同格式的文件中准确检索得到问题的答案成为智能问答方式所要解决的重点问题。

目前的智能问答方法通常仅依据问题的语义信息或关键词信息，从大量数据库中检索答案，该方式使得检索的计算量较大，且准确率较低。

发明内容

本申请主要解决的技术问题是提供一种目标答案获取方法及相关装置、电子设备和存储介质，能够提高对目标答案检索的准确率，并减少计算成本。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种目标答案获取方法，包括：获得预先构建的文本库和查询文本；其中，所述文本库中包括多个基础文本；基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分；基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分；基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种目标答案获取装置，包括：获得模块，用于获得预先构建的文本库和查询文本；其中，所述文本库中包括多个基础文本；检索模块，用于基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分；解析模块，用于基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分；处理模块，用于基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述技术方案中的目标答案获取方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述技术方案中的目标答案获取方法。

本申请的有益效果是：区别于现有技术的情况，本申请提出的目标答案的检索方法通过语义信息、关键词以及词句的词句类别来确定查询文本和基础文本之间的文本相似度，以从文本库中提取至少部分与查询文本相关度较高的候选文本。进而从候选文本中确定查询文本对应的目标答案，避免了直接从文本库中进行目标答案的检索，节省了计算成本。同时，利用与查询文本相关度较高的候选文本进行目标答案的检索，有助于提高检索的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请目标答案获取方法一实施方式的流程示意图；

图2是步骤S102之前对应一实施方式的示意图；

图3是步骤S102之前对应另一实施方式的流程示意图；

图4是步骤S102对应一实施方式的流程示意图；

图5是步骤S103对应另一实施方式的流程示意图；

图6是步骤S401对应一实施方式的流程示意图；

图7是步骤S402对应一实施方式的流程示意图；

图8是步骤S104对应一实施方式的示意图；

图9是本申请目标答案获取装置一实施方式的结构示意图；

图10是本申请电子设备一实施方式的结构示意图；

图11是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请目标答案获取方法一实施方式的流程示意图，该方法包括：

S101：获得预先构建的文本库和查询文本。其中，文本库中包括多个基础文本。

在一实施方式中，步骤S101包括：获得多个不同形式的初始文件，将至少部分初始文件转换成统一格式的基础文本并存储，以获得多个基础文本组成的文本库。响应于用户需要从构建的文本库中检索获得某个问题对应的答案时，获取用户输入的文本，并将该文本作为查询文本；或者，也可以通过语音识别技术，对用户的语音内容进行处理，以识别出用户的问题并将其转换为查询文本。

在另一实施方式中，文本库的构建过程包括：获得来自多种数据源的初始文件，基于与数据源相匹配的解析方式，从初始文件中提取文字信息。

具体地，获取多个包括word、pdf、图片文档或网页文档等形式的初始文件，并根据初始文件的文件形式确定相应的解析方式，以提取初始文件中的文字信息。

例如，当初始文件为word或文字版pdf等格式时，通过相应的文档读取工具提取初始文件中的文字信息、表格信息、图片信息以及部分元数据等，并将初始文件的文字信息以段落为单位、按照初始文件中的上下文顺序进行存储，同时保留文字的字号、字体、加黑等重要的格式信息。或者，也可以将word格式的初始文件转换为xml格式的文件，并从xml格式文件中获得相应的文字信息。其中，上述文档读取工具包括PyMuPDF解析工具或XML解析工具等。

另外，当初始文件为图片或图片版的pdf文档等时，通过OCR(Optical CharacterRecognition，光学字符识别)技术扫描对应的初始文件，以获得初始文件中的每个文字及其对应的坐标信息，从而根据上述坐标信息将文字拼接成行，进而将属于同一段落的行按照顺序拼接成段落，并将各个段落按照上下文顺序进行存储。当初始文件为网页文档时，将其转换为html格式，以提取网页文档中的文字信息。

进一步地，将提取的各个初始文件的内容按预设排版方式进行排版，并标注出对应的各层级标题以及段落等信息，以使得各个初始文件转换为统一结构化的基础文本。将所有结构化的基础文本进行存储得到文本库。其中，可以通过LayoutLM模型来对提取的初始文件的内容进行版面分析，以标注出相应的标题和段落。

S102：基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分。

在一实施方式中，步骤S102之前，还包括针对各个基础文本执行以下步骤：将基础文本中起始位置处的部分段落，以及基础文本中各层级的标题和标题之后的部分段落作为基础文本对应的待检索段落。

具体地，针对每个基础文本，获取前N个段落、以及各层级标题和标题之后的部分段落，以得到基础文本对应的多个待检索段落。其中，响应于获得的多个待检索段落中包含各层级标题，将每个标题与该标题下的首个段落进行融合，具体可以将标题作为语句添加到对应段落的开始位置。需要说明的是，上述前N个段落中的N可以为任意非零的自然数，具体可以根据实际需求而设置；另外，上述标题之后的部分段落可以是标题之后的首个段落，也可以是标题之后的两个段落或三个段落等。

在一具体实施方式中，请参阅图2，图2为步骤S102之前对应一实施方式的示意图。具体地，如图2所示，基础文本中包括标题A、标题B，且标题A之后依次设置有段落a、段落b和段落c，标题B之后依次设置有段落d和段落e。在步骤S102之前，将基础文本中起始位置处的两个段落，以及基础文本中各层级的标题和标题之后的首个段落作为基础文本对应的待检索段落。则将标题A与其之后的首个段落(即段落a)进行融合，将融合后的段落a和段落b作为基础文本对应的部分待检索段落；以及，将标题B与其之后的首个段落(段落d)进行融合，将融合后的段落d作为基础文本对应的其中一个待检索段落。

在本实施方式中，响应于不同基础文本的前N段内容会包含整篇文本的概括性表述信息，并且各级标题为对应段落内容的概括，因此通过获取基础文本的前N个段落以及各级标题和各级标题之后的部分段落，可以实现利用较少的文字内容来代表完整的基础文本，以降低后续计算的成本，提高目标答案检索的效率。

可选地，在其他实施方式中，在步骤S102之前也可以仅将基础文本的前N个段落和各级标题作为对应的待检索段落。具体地，响应于部分标题嵌入于于前N个段落中，将标题与该标题下的首个段落进行融合，并将融合后的前N个段落作为待检索段落；响应于部分标题位于前N个段落之后，将前N个段落之后的每个标题作为单独的待检索段落。

进一步地，请参阅图3，图3是步骤S102之前对应另一实施方式的流程示意图。具体地，步骤S102之前还包括：

S201：基于查询文本和待检索段落对应的语义信息，确定查询文本与基础文本之间的语义相似度。

在一实施方式中，将查询文本和待检索段落输入至语义分析模型，得到与查询文本的语义信息相匹配的查询向量、与待检索段落的语义信息相匹配的段落向量，以及与待检索段落中的词句的语义信息相匹配的词句向量。其中，上述语义分析模型包括依次级联的BERT模块、池化层和全连接层。

具体地，针对基础文本对应的多个待检索段落，将每个待检索段落中的内容以句号为单位进行分割，获得每个待检索段落对应的多个词句。将查询文本输入构建好的BERT模型中，以获得查询文本对应的查询向量；将待检索段落输入上述BERT模型，以获得待检索段落对应的段落向量；将待检索段落中的所有词句输入上述BERT模型，以获得每个词句对应的词句向量。将获得的查询向量、段落向量和词句向量输入语义分析模型中的池化层进行降采样处理，使查询向量、段落向量和词句向量具有相同维度。将相同维度下的查询向量、段落向量和词句向量输入全连接层以增加语义抽象能力，并使全连接层输出的查询向量包含更多关于对应查询文本的语义信息、段落向量包含更多关于对应待检索段落的语义信息、以及词句向量包含更多关于对应词句的语义信息。

进一步地，确定查询向量分别与段落向量和词句向量之间的向量相似度，将数值最大的向量相似度作为查询文本与基础文本之间的语义相似度。

具体地，获得查询向量与每个待检索段落对应的段落向量之间的第一余弦距离，并将该第一余弦距离作为对应查询向量与对应段落向量之间的向量相似度，以及获得查询向量与每个待检索段落中每个词句的词句向量之间的第二余弦距离，并将该第二余弦距离作为对应查询向量与对应词句向量之间的向量相似度。然后，针对每个基础文本，将查询向量与每个待检索段落的段落向量之间的向量相似度以及查询向量与每个词句的词句向量之间的向量相似度中的最大值，作为对应基础文本与查询文本之间的语义相似度。通过计算基础文本与查询文本之间的语义相似度，有助于根据语义相似度从文本库中筛选出部分与查询文本相关度较高的基础文本，以提高检索目标答案的准确性。

可选地，在本实施方式中，也可以通过计算查询向量分别与段落向量和词句向量之间的欧氏距离或曼哈顿距离等，以确定对应的向量相似度。

在另一实施方式中，针对每个基础文本，也可以仅获得查询向量与每个待检索段落对应的段落向量的向量相似度，并将所有待检索段落对应的向量相似度中的最大值作为对应基础文本与查询文本的语义相似度；或者，针对每个基础文本中的所有待检索段落，仅获得所有词句对应的词句向量与查询向量的向量相似度，并将所有词句对应的向量相似度中的最大值作为对应基础文本与查询文本的语义相似度。

S202：基于查询文本和待检索段落对应的关键词，确定查询文本与基础文本之间的关键词相似度。

在一实施方式中，步骤S202包括：分别提取查询文本和待检索段落中的关键词，将查询文本中的各个关键词分别与待检索段落中的所有关键词求取词间相似度。

具体地，首先对查询文本和基础文本中的待检索段落进行分词处理，以提取查询文本中的所有词语以及基础文本的待检索段落中的所有词语，将查询文本中的所有词语作为关键词。其中，当查询文本为中文时，可以利用jieba、SnowNLP等分词工具将查询文本切分为多个单独的词；当查询文本为英文时，可以利用Keras、Spacy等分词工具将查询文本切分为多个单独的词。

进一步地，将待检索段落代替对应的基础文本，利用BM25检索算法计算查询文本中各个关键词与基础文本中所有关键词的词间相似度，并计算查询文本对应的所有词间相似度之和，具体计算公式如下所示：

其中，RSV_d表示查询文本对应的所有词间相似度之和；q表示查询文本，t表示查询文本中的任一关键词，N表示文本库中基础文本的总数，d表示任一基础文本，df_t表示包含关键词t的基础文本的个数，

表示关键词t与基础文本的相似性。tf_td表示关键词t在基础文本d中出现的频率，L_d表示基础文本d的长度，L_ave表示所有基础文本的平均长度，变量k₁为可调正参数，b为大于0且小于1的可调参数。tf_tq表示关键词t在查询文本中出现的频率，k₃为可调正参数，

表示关键词t在查询文本中的权重。

进一步地，对查询文本对应的所有词间相似度之和进行归一化处理，得到查询文本与基础文本之间的关键词相似度。其中，可以通过softmax函数对上述获得的RSV_d进行处理，以得到查询文本q与基础文本d之间的关键词相似度。本实施方式通过获得查询文本与基础文本之间的关键词相似度来描述查询文本与基础文本的相关度，有助于从文本库中筛选出与查询文本相关度较高的基础文本，以提高目标文件检索的效率。

在另一实施方式中，步骤S202的实施过程也可以包括：求取查询文本中各个关键词与基础文本中的所有关键词的词间相似度，并对查询文本对应的所有词间相似度之和进行归一化处理，得到查询文本与基础文本之间的关键词相似度。即利用完整的基础文本与查询文本计算关键词相似度，而非利用基础文本对应的待检索段落来代替基础文本。通过利用完整的基础文本计算关键词相似度，使得获得的关键词相似度的准确性更高。

S203：基于查询文本和待检索段落中的词句对应的词句类别，确定查询文本与基础文本之间的词性相似度。

在一实施方式中，步骤S203的实施过程包括：分别提取查询文本和基础文本中的词句及其对应的词句类别，将查询文本和基础文本中均包括的词句类别作为第一类别，将只包括于查询文本的词句类别作为第二类别。其中，每个词句类别具有对应的类别权重。

具体地，利用分词工具对查询文本和基础文本进行分词处理，以提取查询文本中的所有词语，作为查询词语；以及提取基础文本中的所有词语，作为待检索词语。确定每个查询词语和每个待检索词语对应的词句类别。若查询文本中至少一个查询词语与基础文本中至少一个待检索词语属于同一词句类别，则对应的词句类别属于第一类别。若针对查询文本中至少一个查询词语所属的词句类别，在基础文本中不存在相应的待检索词语属于该词句类别，则该词句类别属于第二类别。

其中，确定每个查询词语和每个待检索词语对应的词句类别的过程包括：预先构建语料库，该语料库中包含多种词句类别，且每个词句类别下包含多个参考词语。通过将查询文本中的各个查询词语与构建的语料库中的参考词语进行比对，以确定查询词语对应的词句类别；以及将基础文本中的各个待检索词语与构建的语料库中的参考词语进行比对，以确定待检索词语对应的词句类别。

例如，构建语料库，该语料库中包含业务词类别、操作词类别、属性词类别、命令词类别和其他词类别，且每个词类别下设置有多个不同的参考词语，如业务词类别下包括“话费充值”、“存钱”等参考词语。其中，每个词类别设置有对应的类别权重，如业务词类别的类别权重为0.28，操作词类别的类别权重为0.2，属性词类别的类别权重为0.15，命令词类别的类别权重为0.06，其他词类别的类别权重为0.04。若查询文本中存在属于业务词类别和命令词类别的查询词语，且基础文本中也存在属于业务词类别和命令词类别的待查询词语，则业务词类别和命令词类别都属于第一类别；若查询文本中存在属于操作词类别的查询词语，但基础文本中不存在属于操作词类别的待查询词语，则操作词类别属于第二类别。

进一步地，基于所有属于第一类别的词句类别对应的类别权重之和，得到第一参考值，基于所有属于第二类别的词句类别对应的类别权重之和，得到第二参考值。即将第一类别下所有词句类别对应的类别权重进行相加，以得到第一参考值；以及，将第二类别下所有词句类别对应的类别权重进行相加，得到第二参考值。

进一步地，基于第一参考值和第二参考值之间的和值与差值，得到查询文本与基础文本之间的词性相似度。具体计算公式如下：

其中，score表示查询文本与基础文本之间的词性相似度，X表示第一参考值，Y表示第二参考值；m和n为可调正参数，并且m与n之和为1。在本实施方式中，m的数值为0.67，n的数值为0.33。当然，在其他实施方式中，也可以根据多次实验的实验结果对m和n的具体数值进行调整。

在另一实施方式中，步骤S203也可以通过分词工具仅提取查询文本和待检索段落中的实体词，并基于查询文本和待检索段落中的实体词和对应的词句类别，确定查询文本与对应基础文本之间的词性相似度。其中，实体词包括文本中的名词和代词。

进一步地，在获得查询文本与各个基础文本之间的语义相似度、关键词相似度以及词性相似度之后，步骤S102的实施过程包括：从文本库中获取至少部分基础文本，并根据获得的查询文本与基础文本之间的文本相似度，将文本库中的基础文本按照文本相似度从大到小的顺序进行排序，并将排在前一定数量的基础文本作为候选文本。

在一实施方式中，请参阅图4，图4为步骤S102对应一实施方式的流程示意图。具体地，步骤S102包括：

S301：基于文本库中语义相似度的数值排在第一比例的基础文本、关键词相似度的数值排在前第二比例的基础文本、以及词性相似度的数值排在前第三比例的基础文本之间的合集，得到目标候选文本集合。

具体地，响应于步骤S201中确定查询文本与每个基础文本之间的语义相似度，按照语义相似度的数值从大到小的顺序将文本库中的基础文本进行排序，并将排在前第一比例的基础文本提取出来，以获得与查询文本的语义信息相关度较高的多个基础文本。例如，文本库中包含10个基础文本，且第一比例为30％，将语义相似度的数值按照从大到小顺序进行排列，并将排在前三的语义相似度对应的基础文本提取出来。

同样的，响应于步骤S202中确定查询文本与基础文本之间的关键词相似度，按照关键词相似度的数值从大到小的顺序将文本库中的基础文本进行排序，将排在前第二比例的基础文本提取出来，以获得与查询文本的关键词相似度较高的多个基础文本。以及，响应于步骤S203中确定查询文本与基础文本之间的词性相似度，按照词性相似度的数值从大到小的顺序将文本库中的基础文本进行排序，将排在前第三比例的基础文本提取出来，以获得与查询文本的词性相似度较高的多个基础文本，具体方法如上所述。

在根据语义相似度、关键词相似度和词性相似度提取出多个基础文本后，将提取出来的基础文本的合集作为目标候选文本集合。其中，目标候选文本集合中的基础文本与查询文本的相关度较高，通过获得目标候选文本集合有助于提高目标答案检索的效率。另外，在本实施方式中，第一比例、第二比例和第三比例可以为相同比例，例如20％或30％等，具体可以根据实际需求而设置；或者，第一比例、第二比例和第三比例也可以为不同比例。

可选地，在其他实施方式中，步骤S301的实施过程包括：根据文本库中语义相似度的数值排在前第一数量的基础文本、关键词相似度的数值排在前第二数量的基础文本、以及词性相似度的数值排在前第三数量的基础文本之间的合集，得到目标候选文本集合。其中，第一数量、第二数量和第三数量可以为相同数量，例如5个或10个等；或者，第一数量、第二数量和第三数量也可以为不同数量。

S302：将目标候选文本集合中的基础文本作为候选文本，基于语义相似度、关键词相似度和词性相似度获得候选文本对应的检索得分。其中，检索得分与语义相似度、关键词相似度以及词性相似度呈正相关。

在本实施方式中，步骤S302的实施过程包括：将目标候选文本集合中的所有基础文本作为候选文本，并针对每个候选文本，将对应的语义相似度、关键词相似度和词性相似度的平均值作为对应候选文本的检索得分。或者，分别对语义相似度、关键词相似度和词性相似度设置相应的权重值，将语义相似度、关键词相似度和词性相似度分别与对应的权重相乘，并将获得的乘积的和值作为候选文本对应的检索得分。又或者，针对每个候选文本，将对应的语义相似度、关键词相似度和词性相似度中的最大值作为对应候选文本的检索得分。

本实施方式通过获得多个候选文本，以助于从多个候选文本中检索得到目标答案，从而避免从数据量较大的文本库中直接检索目标答案，节省了计算成本。另外，基于候选文本与查询文本的文本相似度，确定各个候选文本的检索得分，以助于后续结合检索得分对得到的答案进行筛选，从而提高获得目标答案的准确性。

可选地，在另一实施方式中，步骤S302中在将目标候选文本集合中的基础文本作为候选文本之前，还包括：获得文本库中除目标候选文本集合的剩余文本集合，将剩余文本集合中基础文本的语义相似度、关键词相似度和词性相似度中最大值作为筛选相似度，基于剩余文本集合中筛选相似度排在第四比例的基础文本，得到备选候选文本集合。其中，第四比例可以为20％或30％等。

进一步地，将备选候选文本集合中的基础文本添加至目标候选文本集合中，更新目标候选文本集合。

进一步地，在获得更新后的目标候选文本集合后，将更新后的目标候选文本集合中的所有基础文本作为候选文本。

S103：基于各个候选文本和查询文本各自对应的段落，从候选文本中获得候选答案并确定候选答案对应的解析得分。

在一实施方式中，步骤S103的实施过程包括：将查询文本和候选文本输入至阅读理解模型中，阅读理解模型对候选文本的每个段落以及查询文本进行分析，以从候选文本的每个段落中获得与查询文本对应的候选答案，以及各个候选答案对应的解析得分。

在另一实施方式中，请参阅图5，图5为步骤S103对应另一实施方式的流程示意图。具体地，本实施方式中步骤S103包括：

S401：基于查询文本和候选文本对应的语义信息和关键词，从候选文本中提取至少部分段落作为候选段落。

具体地，响应于候选文本中包含多个标题，在步骤S401之前，将标题与该标题下的首个段落进行融合。

进一步地，请参阅图6，图6为步骤S401对应一实施方式的流程示意图。步骤S401的实施过程包括：基于查询文本和候选文本各自对应的语义信息之间的相似度，确定查询文本与候选文本中的各个段落之间的第一得分，以及基于查询文本和候选文本各自对应的关键词之间的相似度，确定查询文本与候选文本中各个段落之间的第二得分。

具体地，首先将查询文本和候选文本的各个段落输入语义分析模型，得到与查询文本的语义信息相匹配的查询向量、以及得到与候选文本的各个段落的语义信息相匹配的段落向量。将查询向量与段落向量之间的向量相似度，作为对应的查询文本与对应的段落的第一得分。其中，语义分析模型的具体结构以及向量相似度的计算方法可参照上述实施方式中的步骤S201，在此不进行详细阐述。

然后，利用分词工具提取查询文本以及候选文本的各个段落中的关键词，将查询文本中的各个关键词分别与候选文本中各个段落中的所有关键词求取词间相似度，对查询文本对应的所有词间相似度之和进行归一化处理，得到查询文本与候选文本中各个段落的第二得分。其中，获得查询文本与对应段落的第二得分的具体过程可参照步骤S202中关键词相似度的获得过程，在此不再详细阐述。

需要说明的是，在其他实施方式中，也可以先获得查询文本与候选文本中段落的第二得分，再计算第一得分。

进一步地，基于第一得分和第二得分，确定候选文本中各个段落对应的第三得分，在候选文本中提取第三得分排在前第五比例的段落，作为候选段落。

具体地，如图6所示，针对每个候选文本，对候选文本中的每个段落的第一得分设置第一权重，以及对候选文本中每个段落的第二得分设置第二权重。将第一得分与第一权重相乘得到第一乘积、将第二得分与第二权重相乘得到第二乘积，将第一乘积与第二乘积的和作为对应段落的第三得分。按照第三得分数值从大到小的顺序将候选文本中的所有段落进行排序，将排在前第五比例的段落作为候选段落。通过结合语义相似度和关键词相似度获得候选文本中每个段落的第三得分，使得第三得分能更加全面的表示对应段落与查询文本的相似度，有助于提高获得目标答案的准确性。

另外，本实施方式中，上述第五比例可以为20％或30％等，具体可以根据实际需求而定；第一权重和第二权重的和为1，可以根据实际需求对第一权重和第二权重的具体数值进行调整。需要说明的是，当第一权重较大时，则第三得分主要依据语义相似度来表示查询文本与相应段落的相关性；当第二权重较大时，则第三得分主要依据关键词相似度来表示查询文本与相应段落的相关性。

可选地，在其他实施方式中，在获得各个候选文本中各个段落对应的第三得分后，也可以按照第三得分数值从大到小的顺序对所有候选文本中的段落进行排序，将排在前预设数值的段落作为候选段落。

S402：对候选段落进行语句解析，从候选段落中获得候选答案并确定候选答案对应的解析得分。

在一实施方式中，请参阅图7，图7为步骤S402对应一实施方式的流程示意图。如图7所示，将查询文本以及步骤S401中获得的候选段落输入至阅读理解模型中，以使得阅读理解模型根据输入的查询文本和候选段落输出对应的候选答案以及该候选答案的解析得分。其中，解析得分越高，则认为对应的候选答案的准确率越高。

另外，在对候选段落进行语句解析之前，可以通过预先构建阅读理解模型，并利用多个训练数据对构建的阅读理解模型进行训练，以得到训练后的阅读理解模型。其中，对阅读理解模型进行训练的过程可通过多种开源算法实现，在此不进行详细阐述。

可选地，在另一实施方式中，步骤S402还可以包括：将候选段落输入至阅读理解模型，以使阅读理解模型对候选段落按分隔符进行拆解，得到多个分隔语句，并基于查询文本对应的语义信息和各个分隔语句对应的语义信息，确定候选段落对应的解析得分。

具体地，阅读理解模型以句号为单位，将候选段落分割为多个分隔语句。针对每个候选段落，阅读理解模型获得与查询文本的语义信息相匹配的查询向量，以及获得与各个分隔语句的语义信息相匹配的分隔语句向量。确定查询向量与每个分隔语句向量之间的语义相似度，将候选段落中所有分隔语句对应的语义相似度的最大值作为该候选段落对应的解析得分，并将语义相似度最大值对应的分隔语句作为该候选段落对应的候选答案。

S104：基于检索得分和解析得分，从各个候选答案中确定目标答案。

在一实施方式中，请继续参阅图7，针对每个候选段落，对候选段落所在候选文本的检索得分设置对应的检索权重，对候选段落对应的候选答案的解析得分设置对应的解析权重。将检索得分与检索权重相乘，得到第三参考值，将解析得分与解析权重相乘得到第四参考值。将第三参考值与第四参考值的和值，作为对应的候选答案的综合得分。

进一步地，将数值最大的综合得分对应的候选答案作为查询文本对应的目标答案。通过设置检索权重和解析权重，将候选段落所在的候选文本的检索得分与对应候选答案的解析得分进行结合，使得到的综合得分可以更加准确的表示对应候选答案的准确性。

在本实施方式中，上述检索权重和解析权重之和为1。并且，响应于多个候选段落所在候选文本的检索得分较高，则以候选段落所在候选文本的检索得分为主来计算上述综合得分，即使得检索权重大于解析权重；响应于多个候选段落所在候选文本的检索得分较低，则以候选段落对应的候选答案的解析得分为主来计算目标得分，即使得解析权重大于检索权重。

在一实施场景中，针对所有候选段落，将所有候选段落对应的检索得分平均值与对应的候选答案的解析得分平均值进行对比。若检索得分平均值大于解析得分平均值，则使检索权重大于解析权重；若检索得分平均值小于解析得分平均值，则使检索权重小于解析权重。通过根据候选段落对应的检索得分和解析得分来确定相应的检索权重和解析权重，使得综合得分可以更好地表示对应候选答案的准确率，并极大的提高了目标答案获取的灵活性。

可选地，在其他实施场景中，上述检索权重和解析权重可以都为0.5；或者，由相关技术人员根据多个实验数据反推获得的。

在一具体实施方式中，请参阅图8，图8为步骤S104对应一实施方式的示意图。具体地，如图8所示，响应于查询文本为“人工审核转码要多久”，通过上述实施方式中提出的方法获得两个候选段落(检索1和检索2)以及两个候选段落对应的候选答案和对应的解析得分。其中，候选答案1为用户想要获得的正确答案。然而，候选答案1对应的解析得分为0.55，低于候选答案2对应的解析得分，若仅将解析得分最高的候选答案作为目标答案，则造成目标答案检索错误。若对检索得分和对应的解析得分都设置数值为0.5的权重，并基于检索得分、解析得分以及对应的权重得到对应候选答案的目标得分，即候选答案1的目标得分为0.722×0.5+0.55×0.5＝0.636，候选答案2的目标得分为0.51×0.5+0.65×0.5＝0.58。因此，数值最高的目标得分对应的候选答案为候选答案2，为正确答案。

本申请提出的目标答案获取方法通过语义信息、关键词以及词句的词句类别来确定查询文本和基础文本之间的文本相似度，以从文本库中提取至少部分与查询文本相关度较高的候选文本。进而从候选文本中确定查询文本对应的目标答案，避免了直接从文本库中进行目标答案的检索，节省了计算成本。同时，利用与查询文本相关度较高的候选文本进行目标答案的检索，有助于提高检索目标答案的准确性。

请参阅图9，图9是本申请目标答案获取装置一实施方式的结构示意图。该目标答案获取装置包括相互耦接的获得模块10、检索模块20、解析模块30和处理模块40。

具体而言，获得模块10，用于获得预先构建的文本库和查询文本。其中，文本库中包括多个基础文本。

检索模块20，用于基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分。

其中，基于至少部分基础文本和查询文本各自对应的文本，从基础文本中获得候选文本并确定候选文本对应的检索得分之前，还包括针对各个基础文本执行以下步骤：将基础文本中起始位置处的部分段落，以及基础文本中各层级的标题和标题之后的部分段落作为基础文本对应的待检索段落；基于查询文本和待检索段落对应的语义信息，确定查询文本与基础文本之间的语义相似度，基于查询文本和待检索段落对应的关键词，确定查询文本与基础文本之间的关键词相似度，基于查询文本和待检索段落中的词句对应的词句类别，确定查询文本与基础文本之间的词性相似度。

在一实施场景中，本申请提出的目标答案获取装置还包括与检索模块20耦接的语义相似度确定模块21、关键词相似度确定模块22和词性相似度确定模块23。

其中，语义相似度确定模块21用于将所述查询文本和待检索段落输入至语义分析模型，得到与查询文本的语义信息相匹配的查询向量、与待检索段落的语义信息相匹配的段落向量，以及与待检索段落中的词句的语义信息相匹配的词句向量；其中，语义分析模型包括依次级联的BERT模块、池化层和全连接层；确定查询向量分别与段落向量和词句向量之间的向量相似度，将数值最大的向量相似度作为查询文本与基础文本之间的语义相似度。

关键词相似度确定模块22用于分别提取查询文本和待检索段落中的关键词，将查询文本中的各个关键词分别与待检索段落中的所有关键词求取词间相似度；对查询文本对应的所有词间相似度之和进行归一化处理，得到查询文本与基础文本之间的关键词相似度。

词性相似度确定模块23用于分别提取查询文本和基础文本中的词句及其对应的词句类别，将查询文本和基础文本中均包括的词句类别作为第一类别，将只包括于查询文本的词句类别作为第二类别；其中，每个词句类别具有对应的类别权重；基于所有属于第一类别的词句类别对应的类别权重之和，得到第一参考值，基于所有属于第二类别的词句类别对应的类别权重之和，得到第二参考值；基于第一参考值和第二参考值之间的和值与差值，得到查询文本与基础文本之间的词性相似度。

进一步地，检索模块20基于文本库中语义相似度的数值排在前第一比例的基础文本、关键词相似度的数值排在前第二比例的基础文本、以及词性相似度的数值排在前第三比例的基础文本之间的合集，得到目标候选文本集合；将目标候选文本集合中的基础文本作为候选文本，基于语义相似度、关键词相似度和词性相似度获得候选文本对应的检索得分；其中，检索得分与语义相似度、关键词相似度以及词性相似度呈正相关。

在一实施场景中，检索模块20将目标候选文本集合中的基础文本作为候选文本之前，还包括：获得文本库中除目标候选文本集合的剩余文本集合，将剩余文本集合中基础文本的语义相似度、关键词相似度和词性相似度中的最大值作为筛选相似度，基于剩余文本集合中筛选相似度排在前第四比例的基础文本，得到备选候选文本集合；将备选候选文本集合中的基础文本添加至目标候选文本集合中，更新目标候选文本集合。

解析模块30，用于基于各个候选文本和查询文本各自对应的段落，从候选文本中获得候选答案并确定候选答案对应的解析得分。

具体地，解析模块30基于查询文本和候选文本对应的语义信息和关键词，从候选文本中提取至少部分段落作为候选段落；对候选段落进行语句解析，从候选段落中获得候选答案并确定候选答案对应的解析得分。

其中，解析模块30基于查询文本和候选文本对应的语义信息和关键词，从候选文本中提取至少部分候选段落，包括：基于查询文本和候选文本各自对应的语义信息之间的相似度，确定查询文本与候选文本中的各个段落之间的第一得分，基于查询文本和候选文本各自对应的关键词之间的相似度，确定查询文本与候选文本中各个段落之间的第二得分；基于第一得分和所述第二得分，确定候选文本中各个段落对应的第三得分，在候选文本中提取第三得分排在前第五比例的段落，作为候选段落并将候选段落对应的第三得分作为检索得分。

其中，解析模块30对候选段落进行语句解析，从候选段落中获得候选答案并确定候选答案对应的解析得分，包括：将候选段落输入至阅读理解模型，以使阅读理解模型对候选段落按分隔符进行拆解，得到多个分隔语句，并基于查询文本对应的语义信息和各个分隔语句对应的语义信息，确定候选段落对应的候选答案以及候选答案的解析得分。

处理模块40，用于基于检索得分和解析得分，从各个候选答案中确定目标答案。

在一实施场景中，处理模块40基于检索得分和解析得分，从各个候选答案中确定目标答案，包括：针对候选答案，对检索得分设置对应的检索权重，对解析得分设置对应的解析权重；将检索得分与对应的检索权重相乘，得到第三参考值；以及将解析得分与对应的解析权重相乘，得到第四参考值；将第三参考值与第四参考值的和值，作为候选答案的综合得分；将数值最大的综合得分对应的候选答案作为目标答案。

请参阅图10，图10为本申请电子设备一实施方式的结构示意图，该电子设备包括相互耦接的存储器50和处理器60，存储器50中存储有程序指令，处理器60用于执行程序指令以实现上述实施方式中的目标答案获取方法的步骤。具体地，电子设备包括但不限于：台式电脑、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器60还可以称为CPU(Center Processing Unit，中央处理单元)。处理器60可能是一种集成电路芯片，具有信号处理能力。处理器60还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)，或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器60可以由集成电路芯片共同实现。

请参阅图11，图11为本申请提出的计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质70存储有能够被处理器运行的程序指令80，程序指令80用于实现上述任一实施方式中的目标答案获取方法。

需要说明的是，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标答案获取方法，其特征在于，包括：

获得预先构建的文本库和查询文本；其中，所述文本库中包括多个基础文本；

基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分；

基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分；

基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案。

2.根据权利要求1所述的方法，其特征在于，所述基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分之前，还包括针对各个所述基础文本执行以下步骤：

将所述基础文本中起始位置处的部分段落，以及所述基础文本中各层级的标题和所述标题之后的部分段落作为所述基础文本对应的待检索段落；

基于所述查询文本和所述待检索段落对应的语义信息，确定所述查询文本与所述基础文本之间的语义相似度，基于所述查询文本和所述待检索段落对应的关键词，确定所述查询文本与所述基础文本之间的关键词相似度，基于所述查询文本和所述待检索段落中的词句对应的词句类别，确定所述查询文本与所述基础文本之间的词性相似度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述查询文本和所述待检索段落对应的语义信息，确定所述查询文本与所述基础文本之间的语义相似度，包括：

将所述查询文本和所述待检索段落输入至语义分析模型，得到与所述查询文本的语义信息相匹配的查询向量、与所述待检索段落的语义信息相匹配的段落向量，以及与所述待检索段落中的词句的语义信息相匹配的词句向量；其中，所述语义分析模型包括依次级联的BERT模块、池化层和全连接层；

确定所述查询向量分别与所述段落向量和所述词句向量之间的向量相似度，将数值最大的所述向量相似度作为所述查询文本与所述基础文本之间的语义相似度。

4.根据权利要求2所述的方法，其特征在于，所述基于所述查询文本和所述待检索段落对应的关键词，确定所述查询文本与所述基础文本之间的关键词相似度，包括：

分别提取所述查询文本和所述待检索段落中的关键词，将所述查询文本中的各个关键词分别与所述待检索段落中的所有关键词求取词间相似度；

对所述查询文本对应的所有所述词间相似度之和进行归一化处理，得到所述查询文本与所述基础文本之间的关键词相似度。

5.根据权利要求2所述的方法，其特征在于，所述基于所述查询文本和所述待检索段落中的词句对应的词句类别，确定所述查询文本与所述基础文本之间的词性相似度，包括：

分别提取所述查询文本和所述基础文本中的词句及其对应的词句类别，将所述查询文本和所述基础文本中均包括的词句类别作为第一类别，将只包括于所述查询文本的词句类别作为第二类别；其中，每个所述词句类别具有对应的类别权重；

基于所有属于所述第一类别的词句类别对应的所述类别权重之和，得到第一参考值，基于所有属于所述第二类别的词句类别对应的所述类别权重之和，得到第二参考值；

基于所述第一参考值和所述第二参考值之间的和值与差值，得到所述查询文本与所述基础文本之间的词性相似度。

6.根据权利要求2所述的方法，其特征在于，所述基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分，包括：

基于所述文本库中所述语义相似度的数值排在前第一比例的所述基础文本、所述关键词相似度的数值排在前第二比例的所述基础文本、以及所述词性相似度的数值排在前第三比例的所述基础文本之间的合集，得到目标候选文本集合；

将所述目标候选文本集合中的所述基础文本作为所述候选文本，基于所述语义相似度、所述关键词相似度和所述词性相似度获得所述候选文本对应的检索得分；其中，所述检索得分与所述语义相似度、所述关键词相似度以及所述词性相似度呈正相关。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标候选文本集合中的所述基础文本作为所述候选文本之前，还包括：

获得所述文本库中除所述目标候选文本集合的剩余文本集合，将所述剩余文本集合中所述基础文本的所述语义相似度、所述关键词相似度和所述词性相似度中的最大值作为筛选相似度，基于所述剩余文本集合中所述筛选相似度排在前第四比例的所述基础文本，得到备选候选文本集合；

将所述备选候选文本集合中的所述基础文本添加至所述目标候选文本集合中，更新所述目标候选文本集合。

8.根据权利要求1所述的方法，其特征在于，所述基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分，包括：

基于所述查询文本和所述候选文本对应的语义信息和关键词，从所述候选文本中提取至少部分段落作为所述候选段落；

对所述候选段落进行语句解析，从所述候选段落中获得候选答案并确定所述候选答案对应的解析得分。

9.根据权利要求8所述的方法，其特征在于，所述基于所述查询文本和所述候选文本对应的语义信息和关键词，从所述候选文本中提取至少部分段落作为所述候选段落，包括：

基于所述查询文本和所述候选文本各自对应的语义信息之间的相似度，确定所述查询文本与所述候选文本中的各个段落之间的第一得分，基于所述查询文本和所述候选文本各自对应的关键词之间的相似度，确定所述查询文本与所述候选文本中各个段落之间的第二得分；

基于所述第一得分和所述第二得分，确定所述候选文本中各个段落对应的第三得分，在所述候选文本中提取所述第三得分排在前第五比例的段落，作为所述候选段落。

10.根据权利要求8所述的方法，其特征在于，所述对所述候选段落进行语句解析，从所述候选段落中获得候选答案并确定所述候选答案对应的解析得分，包括：

将所述候选段落输入至阅读理解模型，以使所述阅读理解模型对所述候选段落按分隔符进行拆解，得到多个分隔语句，并基于所述查询文本对应的语义信息和各个所述分隔语句对应的语义信息，确定所述候选段落对应的所述候选答案以及所述候选答案的解析得分。

11.根据权利要求1所述的方法，其特征在于，所述基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案，包括：

针对所述候选答案，对所述检索得分设置对应的检索权重，对所述解析得分设置对应的解析权重；

将所述检索得分与对应的所述检索权重相乘，得到第三参考值；以及将所述解析得分与对应的所述解析权重相乘，得到第四参考值；

将所述第三参考值与所述第四参考值的和值，作为所述候选答案的综合得分；

将数值最大的所述综合得分对应的所述候选答案作为所述目标答案。

12.一种目标答案获取装置，其特征在于，包括：

获得模块，用于获得预先构建的文本库和查询文本；其中，所述文本库中包括多个基础文本；

检索模块，用于基于至少部分所述基础文本和所述查询文本各自对应的文本，从所述基础文本中获得候选文本并确定所述候选文本对应的检索得分；

解析模块，用于基于各个所述候选文本和所述查询文本各自对应的段落，从所述候选文本中获得候选答案并确定所述候选答案对应的解析得分；

处理模块，用于基于所述检索得分和所述解析得分，从各个所述候选答案中确定目标答案。

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1-11任一项所述的目标答案获取方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1-11任一项所述的目标答案获取方法。