CN117725189B

CN117725189B - 专业领域的生成式问答方法及电子设备

Info

Publication number: CN117725189B
Application number: CN202410179862.9A
Authority: CN
Inventors: 孟祥飞; 赵玮; 康波; 庞晓磊; 赵欣婷; 聂鹏飞; 吴玲; 傅浩
Original assignee: National Supercomputer Center In Tianjin
Current assignee: National Supercomputer Center In Tianjin
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-04-16
Anticipated expiration: 2044-02-18
Also published as: CN117725189A

Abstract

本发明涉及数据处理技术领域，公开了一种专业领域的生成式问答方法及电子设备，该方法包括：通过获取问题文本并确定对应的关键词向量，在对应的专业领域的主题库中，通过对各层级的节点依次进行标题向量与关键词向量之间的相似度匹配，得到目标节点，进而在对应的专业领域的内容库中，基于各目标节点的标识得到提示文本，结合提示文本与问题文本生成第一文本输入至预设语言模型，得到第一回答文本，实现了基于关键词抽取的多级相似度匹配，通过将关键词向量与各层级下的节点的标题向量依次进行匹配，极大提高匹配的精度，在专业领域相对复杂的多知识点聚合场景下，可以从更高的细粒度识别问题的意图，提高问答的准确性。

Description

专业领域的生成式问答方法及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种专业领域的生成式问答方法及电子设备。

背景技术

随着自然语言处理技术的快速发展，大规模语言模型在理解人类意图和快速响应等方面都取得了较为突出的表现。为不断推进大语言模型在实际场景中的落地，本地知识库被逐渐应用到生成式问答中。

然而，当前基于本地知识库的生成式问答，往往针对单一信息进行索引，搜索出与问题相关的答案，然而，这并不适用于某些领域下相对复杂的多知识点聚合场景，导致知识库检索问题相关信息的召回率精度较低，生成式问答结果往往答非所问。

有鉴于此，特提出本发明。

发明内容

为了解决上述技术问题，本发明提供了一种专业领域的生成式问答方法及电子设备，解决现有技术生成式问答结果精度差的问题。

本发明实施例提供了一种专业领域的生成式问答方法，该方法包括：

获取问题文本并确定对应的关键词向量；

在所述问题文本对应的专业领域的主题库中，确定各第一层级节点的标题向量与所述关键词向量之间的相似度，若存在相似度大于预设阈值的第一层级节点，则将所述第一层级节点下的所有子节点作为当前节点，若不存在相似度大于预设阈值的第一层级节点，则将下一层级下的所有节点作为当前节点；

从各当前节点开始向下确定各节点的标题向量与所述关键词向量之间的相似度，直至在所述主题库中确定目标节点；

在所述问题文本对应的专业领域的内容库中，基于各目标节点的标识获取各目标节点的文本向量，根据各目标节点的文本向量确定所述问题文本对应的提示文本；

基于所述问题文本与所述提示文本生成第一文本，将所述第一文本输入至预设语言模型中，得到所述问题文本对应的第一回答文本。

本发明实施例提供了一种电子设备，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行任一实施例所述的专业领域的生成式问答方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行任一实施例所述的专业领域的生成式问答方法的步骤。

本发明实施例具有以下技术效果：

通过获取问题文本并确定对应的关键词向量，在对应的专业领域的主题库中，确定各第一层级节点的标题向量与关键词向量之间的相似度，若存在相似度大于预设阈值的第一层级节点，则将其下的所有子节点作为当前节点，否则，将下一层级下的所有节点作为当前节点，进而从各当前节点开始向下确定各节点的标题向量与关键词向量之间的相似度，直至在主题库中确定目标节点，进而在对应的专业领域的内容库中，基于各目标节点的标识获取文本向量，得到问题文本对应的提示文本，结合提示文本与问题文本生成第一文本输入至预设语言模型，得到问题文本对应的第一回答文本，实现了基于关键词抽取的多级相似度匹配，通过将关键词向量与各层级下的节点的标题向量依次进行匹配，极大提高匹配的精度，在专业领域相对复杂的多知识点聚合场景下，可以从更高的细粒度识别问题的意图，提高问答的准确性，解决现有技术中单一信息索引导致的召回率精度较低的问题，并且，该方法适用于各种专业领域，无需针对每个专业领域单独训练模型，适用性强。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种专业领域的生成式问答方法的流程图；

图2是本发明实施例提供的一种相似度匹配过程示意图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本发明实施例提供的专业领域的生成式问答方法，主要适用于根据用户录入的问题文本，结合该问题文本所在的专业领域下的主题库和内容库，生成该问题文本对应的回答文本的情况。本发明实施例提供的专业领域的生成式问答方法可以由计算机、智能终端或服务器等电子设备执行。

图1是本发明实施例提供的一种专业领域的生成式问答方法的流程图。参见图1，该专业领域的生成式问答方法具体包括：

S110、获取问题文本并确定对应的关键词向量。

其中，问题文本可以是基于用户语音指令或界面操作指令生成的文本。具体的，在获取到问题文本后，可以确定问题文本中的各个关键词，如，可以通过KeyBert网络抽取问题文本中的各个关键词。

进一步的，可以对关键词进行词性标注和句法分析，以确定每个关键词的属性，如，名词、动词、形容词等，进而将处于不同属性的关键词进行级联，将相同属性的名词关键词与其他属性的关键词进行叉乘，从而获取最终的关键词向量。

如，将名词与动词级联： “我”-“咨询”；对相同属性的名词的关键词，与其他属性的关键词进行叉乘，得到关键词列表，如，将“我”以及“家人”，与“办理”进行叉乘，可以得到“我”-“咨询”，“家人”-“咨询”。进一步的，可以对关键词列表进行向量化处理，得到问题文本对应的关键词向量。

S120、在问题文本对应的专业领域的主题库中，确定各第一层级节点的标题向量与关键词向量之间的相似度，若存在相似度大于预设阈值的第一层级节点，则将第一层级节点下的所有子节点作为当前节点，若不存在相似度大于预设阈值的第一层级节点，则将下一层级下的所有节点作为当前节点。

其中，专业领域可以是任意问答领域，如，设备使用咨询、业务办理咨询、医疗信息咨询等。具体的，可以预先针对专业领域，获取专业领域下的多个关联文档，通过关联文档构建专业领域的主题库与内容库。

在本发明实施例中，专业领域的主题库包括各层级的节点对应的主题对象，主题对象由节点的标题向量、节点下各子节点的标题向量以及节点下各子节点的标识构成。专业领域的内容库包括各层级的节点对应的内容对象，内容对象由节点的文本向量、节点的标识以及节点的标题向量构成。

需要说明的是，构建专业领域的主题库与内容库的目的在于，主题库主要用于描述各节点的标题向量以及节点下各子节点的标题向量，内容库主要用于描述各节点的文本向量，其中节点与其下的子节点之间具备关联关系，具体为一个节点的文本拆分后可以得到各子节点的文本。

因此，在本发明实施例中，可以先通过标题向量与关键词向量之间的相似度计算，实现关键词与文本标题之间的快速匹配，在寻找到合适的节点之后，可以通过内容库查询到该节点对应的文本内容，进而再与问题文本作进一步的相似度计算，以实现问题文本与节点对应的文本之间的匹配，基于专业领域的主题库与内容库，可以实现在保证匹配精度的同时，极大提高了匹配效率，提高了对提示文本的搜索效率。

并且，在专业领域的主题库中，通过多层级节点的依次向下搜索，可以实现高细粒度的关键词匹配，保证匹配到的提示文本更加细致、全面，进而使得回答文本更贴合用户的提问需求。

在一种具体的实施方式中，专业领域的主题库与内容库的构建包括如下步骤：

步骤1、获取专业领域下的多个关联文档；

步骤2、基于关联文档中的各级段落标题，在关联文档中确定与各级段落标题对应的文本，并根据各级段落标题与对应的文本构建标题树，其中，标题树由多个节点构成，每个节点对应的节点信息包括标识、标题和文本；

步骤3、针对标题树中的最低层级节点，对最低层级节点对应的文本进行切割，并确定切割后的各文本的关键词列表，基于切割后的各文本以及切割后的各文本的关键词列表，得到最低层级节点的子节点的标识、标题和文本，以更新标题树中的节点；

步骤4、根据专业领域下各关联文档对应的标题树，构建专业领域的主题库与内容库。

在上述步骤1中，可以加载专业领域下的不同格式、不同类型的关联文档，将不同格式的关联文档转化为统一的document文档对象。示例性的，表1展示了支持处理的关联文档的格式。

表1 支持处理的关联文档的格式

加载器Loader	处理格式	功能
			UnstructuredFileLoader	txt,docx,pdf,md	多种基础非结构化关联文档加载集成类
CSVLoader	CSV	解析加载指定分割值的定界文本文件
			PyPDFLoader	PDF	将pdf加载到文档数组中，每个文档包括页面内容和元数据和page页数
RSSUrlloader	Html等网页数据	从网页数据中抽取内容，并将其网页名称、链接和信息内容写入到元数据中

在上述步骤2中，可以确定关联文档中的各级段落标题，如一级标题、二级标题、三级标题等，进而确定关联文档中每个段落标题所对应的文本。进一步的，可以根据各级段落标题与对应的文本构建标题树，标题树中每个节点用于描述文本所对应的段落标题，对应的节点信息包括标识（ID）、标题和文本。

示例性的，若关联文档中存在两级段落标题，一级段落标题1下分为二级段落标题1_1和1_2，一级段落标题2下分为二级段落标题2_1、2_2和2_3，则在生成的标题树中，第一层节点的数量为2个，分别对应2个一级段落标题，第二层节点的数量为5个，分别对应5个二级段落标题，其中，第二层中有2个节点是由第一层中1个节点扩展得到的，第二层中另外3个节点是由第一层中另外1个节点扩展得到的。

进一步的，在上述步骤3中，可以对标题树进行细粒度划分，以向下扩展标题树。具体的，可以对标题树中最低层级节点对应的文本进行切割，以将文本划分为细粒度更高的多个切片。进一步的，可以使用KeyBert网络抽取切割后得到的各文本的关键词列表（主要可以是名词），并将包含相同关键词或相似关键词的相邻文本进行合并（合并文本的同时合并其对应的关键词列表），将关键词列表作为文本对应的标题。将标题树的最低层级节点（即叶子节点）按照切割后的文本数量进行展开，得到最低层级节点下的子节点的标识、标题和文本，以更新标题树中的节点。

在更新后的标题树中，新的叶子节点的节点信息由标识、关键词列表（作为标题）和文本构成，除叶子节点之外的其他节点的节点信息由标识、标题和文本构成。示例性的，节点信息可以表示为：

；

其中，N为标题树中节点的数量，id为标识，title为标题，content为文本。标题树中各层级节点之间的关系可以表示为：

；

其中，R为关系集合，parent_id为节点的标识，child_id为该节点下的子节点的标识。

进一步的，在上述步骤4中，可以根据专业领域下各关联文档对应的标题树，建立专业领域的主题库与内容库。

针对上述步骤4，可选的，根据专业领域下各关联文档对应的标题树，构建专业领域的主题库与内容库，包括如下步骤：

步骤41、对标题树进行遍历，以获取各层级的节点下子节点的标识与标题；

步骤42、针对每一层级的各节点，对节点的标题进行向量化处理，得到节点的标题向量，基于节点的标题向量、节点下各子节点的标题向量以及节点下各子节点的标识，构建节点对应的主题对象；

步骤43、针对每一层级的各节点，对节点的文本进行向量化处理，得到节点的文本向量，基于节点的文本向量、节点的标识以及节点的标题向量，构建节点对应的内容对象；

步骤44、将各层级的节点对应的主题对象写入至专业领域的主题库，并将各层级的节点对应的内容对象写入至专业领域的内容库。

其中，可以先对标题树进行遍历，得到其中各层接的节点下子节点的标识与标题。进一步的，可以对各层级的节点的标题进行向量化处理，得到节点的标题向量。

具体的，可以根据节点的标题向量、该节点下各子节点的标题向量以及该节点下各子节点的标识，构建该节点对应的主题对象；主题对象中还可以包括该节点所在的层级。需要说明的是，对于标题树中的叶子节点，由于其为最低层级，不存在子节点，因此，其主题对象中子节点的标题向量以及子节点的标识可以为空。

示例性的，以标题树中的第一层级节点为例，其对应的主题对象可以表示为：

；

其中，title为该第一层级节点的标题，arg={nodes:{id₁,title₁},{id₂,title₂}…}表示将各个子节点的标识和标题作为该节点对应的主题对象中的参数，level表示层级。

此外，可以对各层级的节点的文本进行向量化处理，得到节点的文本向量。根据节点的文本向量、节点的标识以及节点的标题向量，构建节点对应的内容对象。示例性的，内容对象可以表示为：

；

其中，content为节点的文本向量，arg={id,title}表示将节点的标识和标题作为该节点对应的内容对象中的参数。

进一步的，可以根据所有层级的节点对应的主题对象构建专业领域的主题库，并根据所有层级的节点对应的内容对象构建专业领域的内容库。

其中，专业领域的主题库与内容库可以是FAISS向量库。专业领域的主题库可以存储从该专业领域下的所有关联文档中提取到的主题对象，内容库可以存储从该专业领域下的所有关联文档中提取到的内容对象。

通过上述方式，可以实现各个专业领域的主题库与内容库的构建，基于实际需要应用的专业领域，可以通过采集该专业领域下的各个关联文档，构建主题库和内容库，以便于后续使用主题库与内容库进行多级向量相似度匹配，适用于任意的专业领域，实现成本低，无需针对每一个专业领域单独训练模型，解决模型训练标注量大、训练成本高的问题。

具体的，在确定出问题文本对应的关键词向量之后，可以在其对应的专业领域的主题库中，先从所有第一层级节点的主题对象中获取所有第一层级节点的标题向量，计算第一层级节点的标题向量与关键词向量之间的相似度。

进一步的，如果存在相似度大于预设阈值的第一层级节点，则表示在第一层级节点中匹配到与问题文本存在一定相似性的标题，为了实现多级向量相似度匹配，以继续检索出与问题文本更相似的标题，即细粒度更高的标题，还可以将相似度大于预设阈值的第一层级节点下的所有子节点（即第二层级中与该第一层级节点具备关联性的节点）作为当前节点，以继续向下检索。

具体的，如果不存在相似度大于预设阈值的第一层级节点，则表示在第一层级节点中未匹配到与问题文本存在一定相似性的标题，考虑到可能存在标题未覆盖问题文本中的关键词的情况，此时可以将所有第一层级节点下的所有子节点，均作为当前节点，即，将下一层级下的所有节点作为当前节点，以对所有第二层级节点对应的标题向量进行相似度匹配。

在上述实施方式中，可以在第一层级节点的标题匹配失败的情况下，继续对所有第二层级节点的标题进行相似度匹配，以避免漏检的可能，提高与问题文本的匹配准确性。

S130、从各当前节点开始向下确定各节点的标题向量与关键词向量之间的相似度，直至在主题库中确定目标节点。

在一种具体的实施方式中，从各当前节点开始向下确定各节点的标题向量与关键词向量之间的相似度，直至在主题库中确定目标节点，包括：

确定各当前节点的标题向量与关键词向量之间的相似度，判断是否存在相似度大于预设阈值的当前节点；

若是，则将当前节点下的子节点作为新的当前节点，否则，判断当前节点的上一层级是否存在相似度大于预设阈值的节点，若不存在则在当前节点的层级为非最低层级的情况下，将当前节点的下一层级的所有节点作为新的当前节点，返回执行确定各当前节点的标题向量与关键词向量之间的相似度的步骤，若存在则输出当前节点的上一层级中满足相似度预设阈值的目标节点。

具体的，在确定出当前节点之后，可以进一步确定各当前节点的标题向量与关键词向量之间的相似度。

如果存在相似度大于预设阈值的当前节点，则可以当前节点下的子节点作为新的当前节点，进而返回执行确定新的当前节点的标题向量与关键词向量之间的相似度的步骤。

如果不存在相似度大于预设阈值的当前节点，则此时可以进一步判断当前节点的上一层级是否存在相似度大于预设阈值的节点，如果不存在，则可以在当前节点的层级为非最低层级的情况下，将当前节点的下一层级的所有节点作为新的当前节点进而返回执行确定新的当前节点的标题向量与关键词向量之间的相似度的步骤，如果存在，则输出当前节点的上一层级中满足相似度预设阈值的节点，作为目标节点。

在本发明实施例中，在确定出目标节点之后，可以返回目标节点的标识，以便于后续从内容库中查询对应的内容对象。

S140、在问题文本对应的专业领域的内容库中，基于各目标节点的标识获取各目标节点的文本向量，根据各目标节点的文本向量确定问题文本对应的提示文本。

具体的，在确定出目标节点后，可以从专业领域的内容库中，根据目标节点的标识获取该目标节点对应的内容对象，进而从内容对象中获取到该目标节点的文本向量。

在得到所有目标节点的文本向量之后，可以对所有目标节点的文本向量进行相似度匹配，即，计算所有目标节点的文本向量对应的文本与问题文本之间的相似度，从而根据计算的结果选出文本构建提示文本。其中，提示文本可以是与问题文本相关的解释文本。

在一种具体的实施方式中，根据各目标节点的文本向量确定问题文本对应的提示文本，包括：

确定每个目标节点的文本向量对应的文本与问题文本之间的相似度；按照相似度由大到小的顺序，从所有文本向量对应的文本中选取部分文本，基于选取的各文本得到问题文本对应的提示文本。

具体的，可以按照相似度由大到小的顺序，对所有文本进行排序，进一步的，可以选取前K个文本作为提示文本。通过该实施方式，可以得到与问题文本相关性强的多个细粒度更高的文本，将其作为提示文本用于生成回答文本，可以保证回答的精确度。

示例性的，图2是本发明实施例提供的一种相似度匹配过程示意图，如图2所示，首先，可以从k=1开始，判断k层级的所有节点中是否存在相似度超过阈值的节点，如果是，则可以筛选出相似度超过阈值的节点的子节点，并令k=k+1，返回重新进行关键词向量与主题库的k层级节点的相似度匹配，如果否，则可以在k不等于1且k-1层级中存在超过阈值的节点时，输出k-1层级中相似度大于阈值的节点，作为目标节点，进而进行主题库与内容库的映射，得到目标节点的文本向量，以便于后续提示文本构建，将提示文本用于进行大语言模型问答。

如果k-1层级不存在超过阈值的节点，那么可以判断k是否等于N（N为主题库的层级数量），如果k等于N，那么可以返回空文档切片，即在主题库和内容库中未搜索到与问题文本相关的文本，并可以通过搜索引擎进行实施检索，如果k不等于N，则可以继续筛选出下一层级的全部节点，返回重新进行关键词向量与主题库的k层级节点的相似度匹配。

S150、基于问题文本与提示文本生成第一文本，将第一文本输入至预设语言模型中，得到问题文本对应的第一回答文本。

具体的，可以将问题文本与提示文本输入至预先构建的模板中，得到第一文本。

示例性的，模板可以是：请根据已知信息（即提示文本），回答原始问题（即问题文本）；可以将问题文本与提示文本填入至模板中，得到第一文本。

在得到第一文本之后，可以将第一文本输入至预设语言模型中，其中，预设语言模型可以是预先训练的LLM（Large Language Model，大语言模型）。

需要说明的是，基于问题文本与提示文本生成第一文本的目的在于：提示文本可以作为预设语言模型的已知信息，使得预设语言模型根据提示文本对问题文本进行回答，输出第一回答文本。预设语言模型具备根据问题对应的已知信息对问题进行回答的能力，对于不同的专业领域来说，无需结合每个专业领域下的数据库对该预设语言模型进行重训练，也可以实现问答，可以适用于任意专业领域，实现成本低，解决模型训练的标注数据量大、获取样本集困难或训练时长较多的问题。

在本发明实施例中，考虑到可能存在用户的提问文本中有效信息较少，进而导致无法推测出用户意图给出明确回答的问题，还可以在提问文本中槽位不全的情况下，引导用户填充槽位，从而更准确预测出用户意图，保证回答的精准性。

可选的，在确定问题文本对应的关键词向量之后，本发明实施例提供的方法还包括如下步骤：

步骤111、在问题文本对应的专业领域的任务库中，确定各任务主题与关键词向量之间的相似度，若存在相似度大于预设阈值的任务主题，则从各任务主题中确定预测主题；

步骤112、在问题文本对应的专业领域的槽位库中，基于预测主题的标识获取预测主题对应的槽位信息；

步骤113、判断关键词向量是否满足槽位信息，若否，则于槽位信息中确定问题文本对应的待填充槽位；

步骤114、将待填充槽位输入至预设语言模型中，得到填充引导文本，并对填充引导文本进行展示；

步骤115、若检测到用户针对填充引导文本录入的补充文本，则将补充文本输入至预设语言模型，以得到待填充槽位的填充内容，并更新问题文本以及对应的关键词向量。

其中，专业领域的任务库可以包括各个任务主题，各任务主题之间也可以存在层级的关联性，即由一个任务主题关联多个细粒度更高的任务主题。专业领域的槽位库可以包括各任务主题对应的槽位信息。

具体的，可以先计算各任务主题与关键词向量之间的相似度，具体可以通过多级向量相似度匹配的方式确定。

即，先确定第一层级的任务主题与关键词向量之间的相似度，如果存在相似度大于预设阈值的任务主题，可以进一步计算该任务主题下的各子任务主题与关键词向量之间的相似度，直至相似度均不超过预设阈值，此时可以选取相似度前M个子任务主题作为预测主题。

进一步的，在问题文本对应的专业领域的槽位库中，根据预测主题的标识获取到预测主题对应的槽位信息。示例性的，槽位信息如下：

“出生户口办理”:{

“一级索引”：，

“二级索引”：}

具体的，可以判断问题文本对应的关键词向量是否满足槽位信息，即问题文本是否槽位填充完全，若否，则于槽位信息中确定问题文本对应的待填充槽位。

进一步的，可以将待填充槽位输入至预设语言模型中，得到预设语言模型输出的填充引导文本，并对填充引导文本进行展示。其中，预设语言模型还具备生成引导用户填充槽位的文本的能力，填充引导文本用于指示用户通过补充文本来补全槽位。

需要说明的是，预设语言模型在基于待填充槽位生成填充引导文本的过程中，由于待填充槽位的数量可能是多个，因此，预设语言模型可以根据所有待填充槽位生成填充引导文本，以通过用户响应的补充文本单次填充所有待填充槽位；或者，预设语言模型可以根据每个待填充槽位分别生成一个填充引导文本，并自动调整填充引导文本的展示顺序，以通过用户响应的补充文本多次填充所有待填充槽位。

在用户响应补充文本后，还可以将补充文本输入至预设语言模型，以使预设语言模型通过补充文本得到待填充槽位的填充内容，实现对待填充槽位的填充，完成填充之后可以更新问题文本以及对应的关键词向量，实现对用户提问的补全，基于填充的信息合并为完整信息，可以进一步提升问答命中精度。

在本发明实施例中，在对问题文本以及对应的关键词向量进行更新之后，可以基于更新后的问题文本以及关键词向量，在主题库进行多级相似度匹配，得到预设语言模型回答提问所需的提示文本，进而生成第一文本输入至模型中得到第一回答文本。

除此之外，还可以基于更新后的问题文本以及关键词向量，在槽位文本库中搜索预设语言模型回答提问所需的提示文本，进而生成第二文本输入至模型中得到第二回答文本。

在一种具体的实施方式中，在更新问题文本以及对应的关键词向量之后，还包括：

在槽位文本库中确定与各槽位的填充内容关联的文本；基于问题文本与关联的文本生成第二文本，将第二文本输入至预设语言模型中，得到问题文本对应的第二回答文本。

其中，槽位文本库用于存储与各槽位的填充内容关联的文本，即各槽位进行填充不同内容后的对应关联文本。

具体的，可以根据更新后的问题文本中各槽位的填充内容，在槽位文本库中查询与其关联的文本。进一步的，将关联的文本作为模型的已知信息，与问题文本一起输入至模板中，得到第二文本，进而将第二文本输入至预设语言模型中，以使预设语言模型将关联的文本作为已知信息，对问题文本进行回答，生成第二回答文本。

通过上述实施方式，可以基于槽位文本库，确定预设语言模型回答提问所需的已知信息，保证了对提问进行回答的准确性，提升问答命中精度。

需要说明的是，在本发明实施例中，还可以同时生成第一回答文本和第二回答文本，进而一并展示第一回答文本和第二回答文本。

或者，可以同时生成第一回答文本和第二回答文本，并且，确定第一回答文本与第二回答文本之间的相似度，如果相似度大于预设的相似度阈值，则可以展示第一回答文本或第二回答文本，如果相似度小于预设的相似度阈值，则表示两个回答文本之间的差距较大，此时可以重新进行相似度匹配，以重新生成第一回答文本和第二回答文本，进一步提高回答的准确性。

如果在设定次数后，第一回答文本与第二回答文本之间的相似度仍然小于预设的相似度阈值，则可以一并展示第一回答文本和第二回答文本。

在本发明实施例中，考虑到可能存在任务主题中未检索到相似度满足预设阈值的任务主题的情况，为了尽量避免回答失败的情况，还可以通过联网检索获取预设语言模型所需的已知信息。

在一种示例中，本发明实施例提供的方法还包括：

若不存在相似度大于预设阈值的任务主题，则通过搜索引擎，搜索与关键词向量之间的相似度满足预设阈值的参考文本；基于问题文本与参考文本生成第三文本，将第三文本输入至预设语言模型中，得到问题文本对应的第三回答文本。

即，如果在进行任务主题与关键词向量的相似度计算的过程中，未检索到相似度大于预设阈值的任务主题，则可以通过在线联网的搜索引擎的接口向搜索引擎发送关键词向量，并通过接口获取到搜索引擎返回的与关键词向量之间的相似度满足预设阈值的参考文本。

进一步的，可以将参考文本作为模型的已知信息，与问题文本一起输入至模板中，得到第三文本，进而将第三文本输入至预设语言模型中，以使预设语言模型将参考文本作为已知信息，对问题文本进行回答，生成第三回答文本。

除此之外，还可以在进行专业领域的主题库中的标题向量与关键词向量的相似度计算的过程中，如果未检索到相似度大于预设阈值的标题向量，则可以通过搜索引擎搜索与关键词向量之间的相似度满足预设阈值的参考文本。

在另一种示例中，本发明实施例提供的方法还包括：

若当前节点的上一层级不存在相似度大于预设阈值的节点，则在当前节点的层级为最低层级的情况下，通过搜索引擎，搜索与关键词向量之间的相似度满足预设阈值的参考文本；基于问题文本与参考文本生成第三文本，将第三文本输入至预设语言模型中，得到问题文本对应的第三回答文本。

具体的，如果当前节点的上一层级不存在相似度大于预设阈值的节点，并且，当前节点的层级为最低层级，则表示此时已经匹配到主题库中的最低层级，且未找到与问题文本相似的文本，此时可以通过搜索引擎搜索与关键词向量之间的相似度满足预设阈值的参考文本。

在上述实施方式中，通过搜索引擎可以获取模型回答问题文本所需的已知信息，尽量避免回答失败的情况，保证用户的问答体验。

本发明具有以下技术效果：通过获取问题文本并确定对应的关键词向量，在对应的专业领域的主题库中，确定各第一层级节点的标题向量与关键词向量之间的相似度，若存在相似度大于预设阈值的第一层级节点，则将其下的所有子节点作为当前节点，否则，将下一层级下的所有节点作为当前节点，进而从各当前节点开始向下确定各节点的标题向量与关键词向量之间的相似度，直至在主题库中确定目标节点，进而在对应的专业领域的内容库中，基于各目标节点的标识获取文本向量，得到问题文本对应的提示文本，结合提示文本与问题文本生成第一文本输入至预设语言模型，得到问题文本对应的第一回答文本，实现了基于关键词抽取的多级相似度匹配，通过将关键词向量与各层级下的节点的标题向量依次进行匹配，极大提高匹配的精度，在专业领域相对复杂的多知识点聚合场景下，可以从更高的细粒度识别问题的意图，提高问答的准确性，解决现有技术中单一信息索引导致的召回率精度较低的问题，并且，该方法适用于各种专业领域，无需针对每个专业领域单独训练模型，适用性强。

图3是本发明实施例提供的一种电子设备的结构示意图。如图3所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所说明的本发明任意实施例的专业领域的生成式问答方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备400中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的专业领域的生成式问答方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的专业领域的生成式问答方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种专业领域的生成式问答方法，其特征在于，包括：

获取问题文本并确定对应的关键词向量；

在所述问题文本对应的专业领域的任务库中，确定各任务主题与所述关键词向量之间的相似度，若存在相似度大于预设阈值的任务主题，则从各任务主题中确定预测主题；

在所述问题文本对应的专业领域的槽位库中，基于所述预测主题的标识获取所述预测主题对应的槽位信息；

判断所述关键词向量是否满足所述槽位信息，若否，则于所述槽位信息中确定所述问题文本对应的待填充槽位；

将所述待填充槽位输入至预设语言模型中，得到填充引导文本，并对所述填充引导文本进行展示；

若检测到用户针对所述填充引导文本录入的补充文本，则将所述补充文本输入至所述预设语言模型，以得到所述待填充槽位的填充内容，并更新所述问题文本以及对应的关键词向量；

基于所述问题文本与所述提示文本生成第一文本，将所述第一文本输入至所述预设语言模型中，得到所述问题文本对应的第一回答文本。

2.根据权利要求1所述的方法，其特征在于，所述专业领域的主题库与内容库的构建包括如下步骤：

获取所述专业领域下的多个关联文档；

基于所述关联文档中的各级段落标题，在所述关联文档中确定与各级段落标题对应的文本，并根据各级段落标题与对应的文本构建标题树，其中，所述标题树由多个节点构成，每个节点对应的节点信息包括标识、标题和文本；

针对所述标题树中的最低层级节点，对所述最低层级节点对应的文本进行切割，并确定切割后的各文本的关键词列表，基于切割后的各文本以及切割后的各文本的关键词列表，得到所述最低层级节点的子节点的标识、标题和文本，以更新所述标题树中的节点；

根据所述专业领域下各关联文档对应的标题树，构建所述专业领域的主题库与内容库。

3.根据权利要求2所述的方法，其特征在于，根据所述专业领域下各关联文档对应的标题树，构建所述专业领域的主题库与内容库，包括：

对所述标题树进行遍历，以获取各层级的节点下子节点的标识与标题；

针对每一层级的各节点，对节点的标题进行向量化处理，得到节点的标题向量，基于节点的标题向量、节点下各子节点的标题向量以及节点下各子节点的标识，构建节点对应的主题对象；

针对每一层级的各节点，对节点的文本进行向量化处理，得到节点的文本向量，基于节点的文本向量、节点的标识以及节点的标题向量，构建节点对应的内容对象；

将各层级的节点对应的主题对象写入至所述专业领域的主题库，并将各层级的节点对应的内容对象写入至所述专业领域的内容库。

4.根据权利要求1所述的方法，其特征在于，所述从各当前节点开始向下确定各节点的标题向量与所述关键词向量之间的相似度，直至在所述主题库中确定目标节点，包括：

确定各当前节点的标题向量与所述关键词向量之间的相似度，判断是否存在相似度大于预设阈值的当前节点；

若是，则将所述当前节点下的子节点作为新的当前节点，否则，判断所述当前节点的上一层级是否存在相似度大于预设阈值的节点，若不存在则在当前节点的层级为非最低层级的情况下，将当前节点的下一层级的所有节点作为新的当前节点，返回执行确定各当前节点的标题向量与所述关键词向量之间的相似度的步骤，若存在则输出当前节点的上一层级中满足相似度预设阈值的目标节点。

5.根据权利要求1所述的方法，其特征在于，所述根据各目标节点的文本向量确定所述问题文本对应的提示文本，包括：

确定每个目标节点的文本向量对应的文本与所述问题文本之间的相似度；

按照相似度由大到小的顺序，从所有文本向量对应的文本中选取部分文本，基于选取的各文本得到所述问题文本对应的提示文本。

6.根据权利要求1所述的方法，其特征在于，在更新所述问题文本以及对应的关键词向量之后，还包括：

在槽位文本库中确定与各槽位的填充内容关联的文本；

基于所述问题文本与关联的文本生成第二文本，将所述第二文本输入至预设语言模型中，得到所述问题文本对应的第二回答文本。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若不存在相似度大于预设阈值的任务主题，则通过搜索引擎，搜索与所述关键词向量之间的相似度满足预设阈值的参考文本；

基于所述问题文本与所述参考文本生成第三文本，将所述第三文本输入至预设语言模型中，得到所述问题文本对应的第三回答文本。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若当前节点的上一层级不存在相似度大于预设阈值的节点，则在当前节点的层级为最低层级的情况下，通过搜索引擎，搜索与所述关键词向量之间的相似度满足预设阈值的参考文本；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至8任一项所述的专业领域的生成式问答方法的步骤。