CN116756295A

CN116756295A - 知识库的检索方法、装置及存储介质

Info

Publication number: CN116756295A
Application number: CN202311030262.8A
Authority: CN
Inventors: 杨光; 王莎莎; 王亚威
Original assignee: Beijing Shengnotingxing Education Technology Group Co ltd
Current assignee: Beijing Shengnotingxing Education Technology Group Co ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-09-15
Anticipated expiration: 2043-08-16
Also published as: CN116756295B

Abstract

本发明公开了知识库的检索方法、装置及存储介质，包括：获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录。帮助理解用户的意图和提供更连贯的对话交互。

Description

知识库的检索方法、装置及存储介质

技术领域

本发明涉及数据库、数据处理技术领域，尤其涉及一种知识库的检索方法、装置及存储介质。

背景技术

随着互联网的发展，知识库已经成为企业和组织收集、整理和保存信息的重要手段；然而，建立一个知识库需要大量的工作，包括数据收集、预处理、知识抽取和存储等，这些工作都需要大量的人力和时间投入，而且知识库的格式也有特定的要求，这些都增加了知识库建立的难度和成本；传统的知识库检索方法主要依赖于倒排索引等技术来提升检索效率，这种方法虽然可以在一定程度上提高检索速度，但是其准确率却不尽如人意，因为这种方法主要依赖于关键词匹配，而忽视了词语之间的语义关系，因此，当用户输入的查询语句和知识库中的内容在语义上相近，但是在关键词上却没有直接匹配时，这种方法往往无法给出满意的检索结果；此外，传统的知识库检索方法通常只能提供静态的检索结果，而不能根据用户的查询历史和上下文信息来动态地调整检索结果。这就导致了检索结果的相关性和准确性无法得到保证。

申请号为：CN 202111266735 .5的发明公开了一种知识库检索方法、装置、设备及存储介质，对用户输入的问题文本进行分词，得到属于预设的行业词汇表中的问题词汇集合；通过预先构建的倒排索引字典查找与所述问题词汇集合中的词汇对应的知识点，并计算查找到的知识点的匹配得分；输出所述匹配得分大于等于预设阈值的知识点。在线更新所述倒排索引字典。存在缺陷包括：如果行业词汇表不够全面或者更新不及时，可能会导致一些新的或者非常规的问题无法得到有效的处理；倒排索引字典通常非常大，需要大量的存储空间和计算资源来维护，此外，随着知识库的不断增长，倒排索引字典的更新也会变得越来越复杂和耗时；匹配得分的计算通常依赖于一些预设的规则或者模型，这些规则或者模型可能无法完全准确地反映问题和知识点之间的匹配程度。

因此，如何提高知识库检索的准确性和相关性，降低知识库建立的难度和成本，是当前知识库检索技术面临的重要问题。

发明内容

本发明提供了一种知识库的检索方法、装置及存储介质，以解决现有技术中存在的上述问题。

为了达到上述目的，本发明提供如下技术方案：

知识库的检索方法，包括：

S101：获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；

S102：将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；

S103：将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；

S104：将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录，作为上下文依据。

其中，S101步骤包括：

S1011：通过用户交互界面获取用户的输入内容，其中，用户交互界面包括网页、应用程序和语音识别系统；

S1012：对获取的用户输入内容进行预处理，预处理包括去除停用词、标点符号和无关字符，将文本内容转化为标准化的文本格式；

S1013：使用词向量深度学习模型对预处理后的用户输入内容进行词嵌入，将文本内容转化为向量格式的问题，其中，词向量深度学习模型通过学习若干的文本数据，将每个词映射到对应高维空间的向量，实现词嵌入。

其中，S102步骤包括：

S1021：将本地知识库的内容进行切片处理，其中，切片处理包括将知识库的内容按照预设的规则和标准进行分割，得到若干个知识片段；

S1022：对切片后的知识片段进行预处理，预处理包括去除停用词、标点符号和无关字符，将知识片段转化为标准化的文本格式；

S1023：使用词嵌入模型对预处理后的知识片段进行词嵌入，将知识片段对应的本地知识库转化为向量格式的知识库。

其中，S103步骤包括：

S1031：通过相似性度量算法计算问题向量与知识库内容向量之间的相似度，将计算获取的相似度通过映射函数映射到预设的评分范围，获取问题与知识库内容的评分；

S1032：将评分结果进行排序，按照评分从高到低进行排名，得到排序后的评分结果；

S1033：根据设定的阈值，筛选出超过阈值的评分结果，将筛选出的评分结果中按照排名顺序排名为前若干名的内容作为最终检索结果。

其中，S104步骤包括：

S1041：将最终检索结果以提示词模板的格式传输至机器学习模型，其中，提示词模板包括预设的问题回答模板，用于引导机器学习模型生成符合人类语言习惯的回答；

S1042：机器学习模型根据接收到的提示词模板和检索结果，生成最终回答，其中，机器学习模型是基于深度学习的自然语言生成模型；

S1043：将最终回答和用户输入问题以对话的形式展示在项目网页中，其中，对话的形式包括聊天窗口、对话框和消息列表；

S1044：保存对话历史记录，作为后续对话的上下文依据，其中，对话历史记录保存在本地数据库、云存储服务或其它对应的存储设备中。

其中，S1012步骤包括：

根据预定义的停用词列表，将用户输入内容中的停用词去除；将用户输入内容中的标点符号去除；去除用户输入内容中的无关字符，无关字符包括特殊符号和数字；将预处理后的用户输入内容转化为统一的标准化文本格式，统一的标准化文本格式包括将所有字母转为小写以及去除多余的空格；

使用预训练的词向量模型或自行训练领域设定的词向量模型，将每个词转化为对应的词向量表示；将用户输入内容中的每个词的词向量进行平均或加权平均，得到整个用户输入内容的文本向量表示。

其中，S1041步骤包括：

获取预设的问题回答模板，其中，问题回答模板包括提示词或关键信息，用于引导生成最终回答；通过提取模板中的提示词或关键信息，将最终检索结果与模板进行匹配，确保生成的回答符合模板的格式要求，其中，最终检索结果包括知识库检索问答模块或生成式问答模块的输出结果；将匹配后的关键信息作为输入数据，传输至机器学习模型，其中，机器学习模型用于捕捉文本内容的深层语义信息；机器学习模型根据输入数据和预设的问题回答模板，生成符合人类语言习惯的回答，其中，生成的回答用于后续的对话生成、情感分析、主题分类的任务。

其中，S1042步骤包括：

获取接收到的提示词模板和知识库检索问答模块或生成式问答模块的最终结果，其中，提示词模板为预设的问题回答模板，用于引导生成最终回答；知识库检索问答模块的输出结果为匹配的三元组，生成式问答模块的输出结果是生成的文本；

根据提示词模板，提取关键词或关键信息，作为生成回答的基础，其中，关键词或关键信息包括问题的主题词、焦点词或设定相关信息；根据知识库检索问答模块的输出结果，获取匹配的三元组，若有匹配的三元组，则将答案实体作为生成回答的一部分，使用生成式问答模块，将生成式模型输出的文本作为生成回答的一部分；根据得到的关键词、三元组或生成式文本，结合逻辑和语法规则，生成最终的回答文本，其中，逻辑和语法规则包括机器学习模型学习得到的规则以及预设的规则；对生成的回答文本进行后处理，后处理包括去除多余的空格以及标点符号，确保回答文本的格式正确。

知识库的检索装置，包括：

输入内容获取单元，用于获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；

第一数据处理单元，用于将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；

第二数据处理单元，用于将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；

检索单元，用于将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录，作为上下文依据。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如权利要求1~8任一项所述的方法。

与现有技术相比，本发明具有以下优点：

一种知识库的检索方法，包括：获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录，作为上下文依据。帮助理解用户的意图和提供更连贯的对话交互。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种知识库的检索方法的流程图；

图2为本发明实施例中获取用户的输入内容的流程图；

图3为本发明实施例中将本地知识库的内容进行切片处理的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种知识库的检索方法，包括：

上述技术方案的工作原理为：首先，获取用户的输入内容，这可以是用户在项目网页中输入的问题，然后，将用户的输入内容进行向量化处理（将文本数据转换为数值向量的过程，即将文本数据表示为计算机可以理解和处理的形式），将其转化为向量格式的问题，这可以通过使用深度学习模型进行词嵌入来实现，将每个词转化为一个向量表示；本地知识库可能包含大量的文本内容，为了提高匹配效率，可以将知识库的内容进行切片处理，将每个切片转化为向量格式的知识库，这可以使用相同的深度学习模型进行词嵌入来实现；将向量格式的问题与向量格式的知识库内容进行相似性判断，可以使用余弦相似度等方法来衡量两个向量之间的相似程度，对判断结果进行评分，并设定一个阈值，将超过阈值的评分结果进行排名，选取排名前若干名的内容作为最终的检索结果；将最终的检索结果以提示词模板的格式传输至机器学习模型，该模型可以根据提示词生成最终的回答，将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录，以便后续的上下文理解和对话交互。

上述技术方案的有益效果为：通过将用户的输入内容转化为向量格式的问题，可以将问题表示为数值形式，方便后续的相似性判断和匹配操作，使用深度学习模型进行词嵌入可以捕捉词语之间的语义关系，提高问题的表示能力；通过将本地知识库的内容进行切片处理，并转化为向量格式的知识库，可以减少匹配的计算量，提高匹配的效率，同时，使用深度学习模型进行词嵌入可以捕捉知识库中的语义关系，提高匹配的准确性；通过相似性判断和评分，可以筛选出与用户问题最相关的知识库内容，提高检索的准确性和效果，设定阈值和排名可以进一步过滤和排序结果，确保返回的结果具有较高的相关性；通过将最终的检索结果传输至机器学习模型，可以生成更加准确和自然的回答，将回答和用户输入问题以对话的形式展示在项目网页中，可以提供更好的用户体验，保存对话历史记录可以作为上下文依据，帮助理解用户的意图和提供更连贯的对话交互。

在另一实施例中，S101步骤包括：

上述技术方案的工作原理为：用户可以通过网页、应用程序或语音识别系统与系统进行交互，提供问题或输入内容；对用户输入内容进行预处理，包括去除停用词（如"的"、"是"等常见词汇）、标点符号和无关字符，以及将文本内容转化为标准化的文本格式（如小写化、词形还原等）；使用预训练的词向量深度学习模型（如Word2Vec、GloVe等）对预处理后的用户输入内容进行词嵌入，将每个词转化为对应的向量表示。

上述技术方案的有益效果为：通过提供多种用户交互界面，可以方便用户根据自己的偏好和使用场景进行输入，提高用户的使用便利性和满意度；预处理可以去除无关的噪声和干扰，提取出关键信息，减少后续处理的复杂性和计算量，标准化文本格式可以统一问题的表示形式，提高匹配的准确性；通过词嵌入，可以将文本内容转化为数值形式的向量，方便后续的相似性判断和匹配操作；词向量深度学习模型通过学习大量的文本数据，可以捕捉词语之间的语义关系，提高问题的表示能力和匹配的准确性。

在另一实施例中，S102步骤包括：

上述技术方案的工作原理为：将本地知识库的内容按照预设的规则和标准进行分割，得到若干个知识片段，切片的规则可以根据具体需求进行设计，例如按照段落、句子或关键词进行切割；假设本地知识库是一篇长文本，我们可以按照段落为单位进行切割，首先，将长文本分割成多个段落，每个段落包含一组相关的信息，然后，将每个段落作为一个知识片段；对切片后的知识片段进行预处理，包括去除停用词、标点符号和无关字符，以及将知识片段转化为标准化的文本格式（如小写化、词形还原等）；对于每个知识片段，首先去除其中的停用词（如"的"、"是"等常见词汇）、标点符号和无关字符，然后，对剩余的文本进行标准化处理，如将文本转化为小写形式、进行词形还原等；使用词嵌入模型（如Word2Vec、GloVe等）对预处理后的知识片段进行词嵌入，将每个词转化为对应的向量表示；对于每个预处理后的知识片段，使用预训练的词嵌入模型将其中的每个词转化为对应的向量表示。

上述技术方案的有益效果为：通过切片处理，将长文本划分为多个独立的知识片段，可以提高匹配的效率和准确性；每个知识片段都包含特定的信息，可以更精确地匹配用户的问题；预处理可以去除无关的噪声和干扰，提取出关键信息，减少后续处理的复杂性和计算量；标准化文本格式可以统一知识片段的表示形式，提高匹配的准确性；通过词嵌入，可以将知识片段转化为数值形式的向量，方便后续的相似性判断和匹配操作；词嵌入模型通过学习大量的文本数据，可以捕捉词语之间的语义关系，提高匹配的准确性。

在另一实施例中，S103步骤包括：

上述技术方案的工作原理为：相似性度量算法包括使用深度学习模型进行特征提取，以提高相似度计算的准确性；映射函数根据知识库内容的特性和用户需求进行设定；设定的阈值根据知识库的规模、内容复杂度和检索精度要求进行调整；最终检索结果可以用于后续的知识推荐、知识对比、知识分析等任务；

获取问题向量和知识库内容向量；使用相似性度量算法（如余弦相似度）计算问题向量与知识库内容向量之间的相似度；将相似度通过映射函数映射到预设的评分范围，得到问题与知识库内容的评分；对评分结果进行排序，按照评分从高到低进行排名；根据设定的阈值，筛选出超过阈值的评分结果；将筛选出的评分结果按照排名顺序排列，得到最终检索结果。

假设问题向量与知识库内容向量的维度均为100，使用余弦相似度作为相似性度量算法，计算问题向量与知识库内容向量的相似度得到一个相似度值，如0.85，通过映射函数将相似度值映射到0-1的评分范围，得到问题与知识库内容的评分为0.85，对于其他的问题向量和知识库内容向量，重复上述操作，得到相应的评分，然后，对所有的评分结果进行排序，按照评分从高到低进行排名，根据设定的阈值，筛选出超过阈值的评分结果，如筛选出评分大于0.8的结果。最后，将筛选出的评分结果按照排名顺序排列，得到最终的检索结果。

上述技术方案的有益效果为：采用相似性度量算法计算问题向量与知识库内容向量之间的相似度，可以衡量它们之间的语义相似性，从而准确地判断问题与知识库内容的相关程度；通过评分和排名的方式，可以将相关度高的内容排在前面，提供更准确和有用的检索结果；设定阈值可以进一步筛选出更相关的内容，提高检索结果的质量；这种方式能够快速准确地找到与问题最相关的知识库内容，提高检索的效率和准确性。

在另一实施例中，S104步骤包括：

上述技术方案的工作原理为：将最终检索结果按照预设的问题回答模板的格式进行转换，形成提示词模板，例如，将检索结果中的关键信息填充到问题回答模板中的相应位置；将提示词模板传输至基于深度学习的自然语言生成模型；机器学习模型根据接收到的提示词模板和检索结果，生成最终回答，模型可以根据预设的问题回答模板和检索结果的上下文信息，生成符合人类语言习惯的回答；将最终回答和用户输入问题以对话的形式展示在项目网页中，可以使用聊天窗口、对话框或消息列表等形式展示；将对话历史记录保存在本地数据库、云存储服务或其他存储设备中，作为后续对话的上下文依据。

假设用户输入问题为"请问如何制作巧克力蛋糕？"，经过检索得到的最终检索结果为"巧克力蛋糕制作步骤：1. 准备材料；2. 烘焙蛋糕；3. 制作巧克力酱；4. 拼装蛋糕；5. 冷藏定型。"。将最终检索结果按照预设的问题回答模板的格式进行转换，形成提示词模板：“巧克力蛋糕制作步骤：1. 准备材料；2. 烘焙蛋糕；3. 制作巧克力酱；4. 拼装蛋糕；5.冷藏定型。”。将提示词模板传输至基于深度学习的自然语言生成模型，模型根据接收到的提示词模板和检索结果，生成最终回答：“巧克力蛋糕的制作步骤如下：1. 准备材料，包括巧克力、面粉、糖等；2. 烘焙蛋糕，将面糊倒入烤盘中，放入预热好的烤箱中烘焙；3. 制作巧克力酱，将巧克力融化后加入奶油搅拌均匀；4. 拼装蛋糕，将烘焙好的蛋糕切片，涂抹巧克力酱，逐层叠加；5. 冷藏定型，将蛋糕放入冰箱冷藏一段时间即可。”。最终回答和用户输入问题以对话的形式展示在项目网页中，同时将对话历史记录保存在本地数据库中。

上述技术方案的有益效果为：采用基于深度学习的自然语言生成模型，可以根据提示词模板和检索结果生成符合人类语言习惯的回答，提供更自然、流畅的回答体验；将最终回答以对话的形式展示在项目网页中，可以更好地与用户进行交互，提供更友好、直观的界面；保存对话历史记录可以保留用户与系统的交互历史，作为后续对话的上下文依据，提供更连贯、个性化的回答；这种方式能够提高用户满意度，提供更高质量的问答服务。

在另一实施例中，S1012步骤包括：

上述技术方案的工作原理为：根据预定义的停用词列表，遍历用户输入内容中的每个词，将停用词从用户输入内容中去除；遍历用户输入内容中的每个字符，将标点符号从用户输入内容中去除；遍历用户输入内容中的每个字符，将特殊符号和数字从用户输入内容中去除；将用户输入内容中的所有字母转为小写，去除多余的空格，得到标准化的文本格式；使用预训练的词向量模型或自行训练的领域特定词向量模型，将每个词转化为对应的词向量表示；将用户输入内容中的每个词的词向量进行平均或加权平均，得到整个用户输入内容的文本向量表示。

假设用户输入内容为"我想了解如何安装云ERP系统"，预定义的停用词列表包括"我"、“了解"等。首先，去除停用词后的用户输入内容为"想安装云ERP系统”。然后，去除标点符号后的用户输入内容仍为"想安装云ERP系统"。接下来，去除无关字符后的用户输入内容仍为"想安装云ERP系统"。最后，将用户输入内容转化为标准化文本格式后仍为"想安装云erp系统"。使用预训练的词向量模型或领域特定词向量模型，将每个词转化为对应的词向量表示。假设"想"的词向量表示为[0.2, 0.3, 0.1]，"安装"的词向量表示为[0.4, 0.5,0.6]，"云erp系统"的词向量表示为[0.7, 0.8, 0.9]。将用户输入内容中的每个词的词向量进行平均，得到整个用户输入内容的文本向量表示为[0.43, 0.53, 0.53]。

上述技术方案的有益效果为：采用预处理和文本向量化的方式可以提高智能问答系统的准确性和效果；预处理步骤去除停用词、标点符号和无关字符，以及转化为标准化文本格式，减少噪声和无关信息的干扰，提高用户输入内容的表达一致性；文本向量化将用户输入内容转化为文本向量表示，使计算机能够处理和理解文本形式的非结构化数据；这种方式可以更好地捕捉用户输入内容的语义信息，提高智能问答系统对用户问题的理解和回答的准确性。

在另一实施例中，S1041步骤包括：

上述技术方案的工作原理为：通过获取预设的问题回答模板，将最终检索结果与模板进行匹配，并将匹配后的关键信息作为输入数据传输至机器学习模型，生成符合人类语言习惯的回答。具体操作过程包括以下步骤：首先，获取预设的问题回答模板，模板中包含了提示词或关键信息，用于引导生成最终回答。然后，从最终检索结果中提取关键信息，与模板进行匹配，确保生成的回答符合模板的格式要求。接下来，将匹配后的关键信息作为输入数据传输至机器学习模型。机器学习模型能够捕捉文本内容的深层语义信息，根据输入数据和预设的问题回答模板，生成符合人类语言习惯的回答。生成的回答可以用于后续的对话生成、情感分析、主题分类等任务。

假设预设的问题回答模板为"请问如何[关键词]？"，最终检索结果为"安装云ERP系统的步骤"。首先，从最终检索结果中提取关键信息"安装云ERP系统的步骤"。然后，将关键信息与模板进行匹配，得到匹配后的关键信息"安装云ERP系统的步骤"。接下来，将匹配后的关键信息作为输入数据传输至机器学习模型。机器学习模型能够捕捉文本内容的深层语义信息，根据输入数据和预设的问题回答模板，生成符合人类语言习惯的回答。例如，机器学习模型生成的回答为"请按照以下步骤进行云ERP系统的安装：…"。

上述技术方案的有益效果为：通过预设的问题回答模板，可以引导生成最终回答，确保回答的格式符合人类语言习惯，提高回答的可读性和自然度；通过提取模板中的提示词或关键信息，将最终检索结果与模板进行匹配，确保生成的回答与最终检索结果相关，提高回答的准确性和相关性；传输匹配后的关键信息至机器学习模型，能够利用机器学习模型捕捉文本内容的深层语义信息，生成更加准确和语义丰富的回答；生成的回答可以用于后续的对话生成、情感分析、主题分类等任务，提供更全面的语义理解和应用能力；通过采用该方法，可以提高问答系统的智能化程度，提供更好的用户体验和服务质量。

在另一实施例中，S1042步骤包括：

上述技术方案的工作原理为：提示词模板可以根据问题的类型、知识库的内容特性和用户需求进行设定；生成最终回答的步骤通过深度学习模型进行，以捕捉文本内容的深层语义信息；后处理的步骤可以进一步包括进行文本纠错、文本优化等任务，以提高回答的质量；生成的最终回答文本可以用于后续的对话生成、情感分析、主题分类等任务。

通过获取提示词模板和知识库检索问答模块或生成式问答模块的输出结果，结合关键词提取、逻辑和语法规则，以及后处理的方式生成最终的回答文本；首先，根据提示词模板提取关键词或关键信息，作为生成回答的基础；然后，根据知识库检索问答模块的输出结果获取匹配的三元组，将答案实体作为生成回答的一部分；如果使用生成式问答模块，将生成式模型输出的文本作为生成回答的一部分；接下来，根据得到的关键词、三元组或生成式文本，结合逻辑和语法规则，生成最终的回答文本；最后，对生成的回答文本进行后处理，去除多余的空格和标点符号，确保回答文本的格式正确。

假设用户的问题是"请问如何安装云ERP系统？"，提示词模板为"请问如何安装[关键词]？"。知识库检索问答模块的输出结果为匹配的三元组：<问题实体，属性实体，答案实体>为：<云ERP系统，安装，步骤>。生成式问答模块的输出结果为生成的文本：“您可以按照以下步骤进行云ERP系统的安装：…”。根据提示词模板，提取关键词为"云ERP系统"。根据知识库检索问答模块的输出结果，获取答案实体为"步骤"。根据生成式问答模块的输出结果，获取生成的文本为"您可以按照以下步骤进行云ERP系统的安装：…"。根据关键词、三元组或生成式文本，结合逻辑和语法规则，生成最终的回答文本为"您可以按照以下步骤进行云ERP系统的安装：…"。最后，对生成的回答文本进行后处理，去除多余的空格和标点符号，确保回答文本的格式正确。

上述技术方案的有益效果为：根据用户的问题和知识库的内容，生成准确、连贯的回答；通过提取关键词或关键信息，结合知识库检索问答模块的输出结果和生成式问答模块的输出结果，可以充分利用知识库中的信息和生成式模型的能力，生成更加准确和丰富的回答；同时，结合逻辑和语法规则，可以保证生成的回答文本的逻辑性和语法正确性；后处理步骤可以进一步提升回答文本的质量，确保回答文本的格式正确；这种方法可以提高智能问答系统的回答质量和用户体验，使得系统能够更好地满足用户的需求。

在另一实施例中，知识库的检索装置，包括：

上述技术方案的工作原理为：通过输入内容获取单元、第一数据处理单元、第二数据处理单元和检索单元的协同工作，实现了从用户输入到最终回答的全流程。首先，输入内容获取单元将用户的输入内容进行向量化处理，将其转化为向量格式的问题。然后，第一数据处理单元对本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库。接下来，第二数据处理单元将向量格式的问题与向量格式的知识库内容进行相似性判断，并对判断结果进行评分。超过设定阈值的评分结果将被排名，作为最终检索结果。最后，检索单元将最终检索结果以提示词模板的格式传输至机器学习模型，生成最终回答，并将回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录作为上下文依据。

假设用户的输入内容是"请问如何安装云ERP系统？"。输入内容获取单元将该问题进行向量化处理，得到向量格式的问题。第一数据处理单元对本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库。第二数据处理单元将向量格式的问题与向量格式的知识库内容进行相似性判断，并对判断结果进行评分。假设判断结果中有一条与问题相似度较高，评分超过设定阈值，被排名为最终检索结果。检索单元将最终检索结果以提示词模板的格式传输至机器学习模型，生成最终回答。例如，模板为"请问如何安装[关键词]？"，最终检索结果为"云ERP系统安装步骤"，则生成的最终回答为"请按照以下步骤进行云ERP系统的安装：…"。最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录作为上下文依据。

上述技术方案的有益效果为：输入内容获取单元将用户的输入内容进行向量化处理，能够将自然语言问题转化为机器可处理的向量格式，方便后续处理和计算；第一数据处理单元对本地知识库的内容进行切片处理，将知识库转化为向量格式，提高了知识库的检索效率和准确性；第二数据处理单元通过相似性判断和评分，能够快速筛选出与问题相关的知识库内容，提高了检索的准确性和效率；检索单元将最终检索结果以提示词模板的格式传输至机器学习模型，能够生成符合人类语言习惯的回答，提高了回答的自然度和可读性；最终回答以对话的形式展示在项目网页中，并保存对话历史记录，能够提供更好的用户体验和上下文依据，使得系统能够更好地理解用户需求并提供准确的回答。

在另一实施例中，一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如权利要求1~8任一项所述的方法。

上述技术方案的工作原理为：假设用户的输入内容是"请问如何安装云ERP系统？"。输入内容获取单元将该问题进行向量化处理，得到向量格式的问题。第一数据处理单元对本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库。第二数据处理单元将向量格式的问题与向量格式的知识库内容进行相似性判断，并对判断结果进行评分。假设判断结果中有一条与问题相似度较高，评分超过设定阈值，被排名为最终检索结果。检索单元将最终检索结果以提示词模板的格式传输至机器学习模型，生成最终回答。例如，模板为"请问如何安装[关键词]？"，最终检索结果为"云ERP系统安装步骤"，则生成的最终回答为"请按照以下步骤进行云ERP系统的安装：…"。最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录作为上下文依据。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.知识库的检索方法，其特征在于，包括：

2.根据权利要求1所述的知识库的检索方法，其特征在于，S101步骤包括：

3.根据权利要求1所述的知识库的检索方法，其特征在于，S102步骤包括：

4.根据权利要求1所述的知识库的检索方法，其特征在于，S103步骤包括：

5.根据权利要求1所述的知识库的检索方法，其特征在于，S104步骤包括：

6.根据权利要求2所述的知识库的检索方法，其特征在于，S1012步骤包括：

7.根据权利要求5所述的知识库的检索方法，其特征在于，S1041步骤包括：

8.根据权利要求5所述的知识库的检索方法，其特征在于，S1042步骤包括：

9.知识库的检索装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如权利要求1~8任一项所述的方法。