CN118093788B

CN118093788B - 一种基于大模型的中小企业知识库的构建与搜索方法

Info

Publication number: CN118093788B
Application number: CN202410479309.7A
Authority: CN
Inventors: 孟胜; 崔娅玲; 代平; 岳宇豪; 杜德刚
Original assignee: Chengdu Synchronous Xinchuang Technology Co ltd
Current assignee: Chengdu Synchronous Xinchuang Technology Co ltd
Priority date: 2024-04-22
Filing date: 2024-04-22
Publication date: 2024-07-02
Anticipated expiration: 2044-04-22
Also published as: CN118093788A

Abstract

本发明公开了一种基于大模型的中小企业知识库的构建与搜索方法，属于企业管理领域，包括：构建企业知识向量树；知识切块；知识块内容提炼；构建知识关系链；用户问题理解与向量化；问题搜索与匹配；知识块评分排序；追踪关联引用知识块；构建预答案向量池；在多轮问答中获取最优答案；将预答案向量池中的引用知识块推荐给用户，协助用户进行知识搜索。本发明通过提高了搜索准确度；引入多维度打分机制，提升匹配精度；通过预答案池构建有效筛选机制，保证搜索结果完整性；增强了整体搜索精度，提高问题回复的准确度。

Description

一种基于大模型的中小企业知识库的构建与搜索方法

技术领域

本发明涉及企业管理领域，尤其涉及一种基于大模型的中小企业知识库的构建与搜索方法。

背景技术

当前在中小企业私有知识库搜索领域，存在着两种主要方法：传统搜索方式和基于大语言模型的问答搜索方式。

1，传统搜索方式：传统搜索方式主要依赖于关键词搜索以及上下文语义分析。这种方法通过调整关键词的权重、采用分词技巧等，将用户提出的查询与知识库中的文档内容进行匹配。然而，这种方法存在以下问题：

准确性不高：传统搜索方式在准确性方面存在挑战，难以精确地搜索出用户所需的内容，尤其是在处理长篇文本或多个文本之间存在关联性的情况下。

关联性问题：当知识库中的知识点具有相关性或连贯性时，传统搜索方式的匹配精度受限，难以在多个文档中匹配相关知识。

2，基于大语言模型的问答搜索方式：采用大语言模型对企业私有知识库进行问答搜索，通过建立知识向量库，将长篇企业知识文本进行拆分，并利用向量算法进行搜索。然而，这种方法也面临着一些挑战：

Token输入限制：大语言模型在处理大规模知识库时存在Token输入限制，当遇到长文本或关联的多个文本时，需要对长文本进行分割或（和）多个文本逐个处理，可能会将知识拆分到多个知识块，这会影响搜索结果的完整性。

知识关联性问题：在知识库文本内容具有关联性时，特别是在将文本切分为多个知识块后，实现多个知识块之间向量相似度的关联识别变得困难。这种情况会导致知识问答的完整性缺失以及知识点之间关联性的丧失，进而影响搜索结果的全面性和准确性。

以上两种搜索方式存在一些共同的问题：

1）精准性和完整性：无论是传统搜索方式还是基于大语言模型的方式，都存在精确匹配和全面搜索的问题，尤其在处理长文本或关联文本时表现不佳。

2）关联性和完整性：由于关联性和连贯性文本内容的存在，传统方式和大语言模型方式在有效识别文本之间关联性和完整性方面存在较大限制，从而导致搜索结果受到局限。

发明内容

本发明的目的在于克服现有技术的不足，从而提供一种基于大模型的中小企业知识库的构建与搜索方法。

本发明的目的是通过以下技术方案来实现的：

一种基于大模型的中小企业知识库的构建与搜索方法，包括以下步骤：

步骤1：构建企业知识向量树，对每个专业领域进行提炼；

步骤2：将每个专业领域下的知识拆分为知识块；

步骤3：对知识块内容进行提炼；

步骤4：构建知识关系链；

步骤5：利用大语言模型对用户问题进行理解和拆分，并进行向量化处理；

步骤6：对用户问题进行搜索与匹配，得到与用户问题关联的知识块；

步骤7：对关联的知识块进行评分排序；

步骤8：追踪相关联的引用知识块，利用大语言模型计算出知识块与引用知识块的关联值；

步骤9：构建预答案向量池；

步骤10：在多轮问答中获取最优答案；

步骤11：将预答案向量池中的引用知识块推荐给用户，协助用户进行知识搜索。

进一步的，所述步骤1包括以下子步骤：

步骤101：以企业涉及的各个专业领域为维度，对企业知识进行清洗、重构和向量化处理，建立纵向专业向量知识树；

步骤102：利用大语言模型对每个专业领域进行提炼，总结出专业领域摘要、核心内容和标签。

进一步的，所述步骤3中对知识块内容进行提炼具体为：借助大语言模型，对每个切块后的知识块进行提炼，生成知识块摘要；总结出核心内容，并提取描述知识块关键特征的相关标签。

进一步的，所述步骤4具体包括以下子步骤：

步骤401：通过入库遍历法，利用大语言模型的理解生成能力，新入库的知识需对已有的每个专业领域下所有知识块进行匹配解析，以构建知识块之间的知识关系链；

步骤402：通过计算相似度值，得出知识块之间的关系内容，知识块之间是多对多的网状关系，存在跨文件以及跨知识块；

步骤403：保留相似度值达到预设值以上的知识块的关系引用，以确保后期搜索时的准确度。

进一步的，所述步骤6具体包括以下子步骤：

步骤601：用户问题经过向量化后，与企业知识库中的专业领域进行匹配；

步骤602：根据匹配的专业领域，在该专业领域下通过摘要、核心内容和标签进行知识块与用户问题的搜索与匹配；

步骤603：找到与用户问题相关联的知识块后，利用大语言模型对知识块的内容、摘要、核心内容和标签进行多维度的相似度评分。

进一步的，所述步骤7中的评分排序具体为：根据加权求和评分公式对关联知识块进行评分，评分公式为：知识块评分=知识内容权重×知识内容相似度+知识块摘要权重×知识块摘要相似度+核心内容权重×核心内容相似度+标签权重×标签相似度，其中，知识内容、知识块摘要、核心内容和标签的权重之和为1。

进一步的，所述步骤9具体包括以下子步骤：

步骤901：根据大语言模型的Token数要求，建立预答案池，并设定知识块和引用知识块的占比；

步骤902：按照评分分值从高到低的顺序，将知识块放入预答案池；

步骤903：当引用知识块未达到设定的占比时，对预答案池进行动态调整，自动提高知识块的比重。

进一步的，所述步骤10中在多轮问答中获取最优答案具体为：在用户进行多轮问答过程中，根据大语言模型的Token数要求，将前一轮的问题及答案的Token数浓缩到预设值；然后，重复执行步骤6至步骤9，以获取最优答案。

本发明的有益效果：

1、本发明引入企业知识向量树，以专业领域为维度进行结构化，相较于现有方法，这种结构性的表达提高了搜索结果的准确性，让系统更好地理解不同专业领域之间的关联；

2、本发明通过知识切块，摘要、核心内容和标签的提炼，克服了大语言模型的Token输入限制，相较于现有技术，更为灵活高效，确保搜索结果的完整性和条理性，提升了搜索的全面性；

3、本发明通过知识关系链的建立，在搜索时能够深度挖掘知识块之间的关联，相较于现有技术，提高搜索结果的相关性，使得用户获得更有深度的知识信息；

4、本发明引入多维度的评分机制，综合考虑了知识块内容、摘要、核心内容和标签的相似度，相较于现有技术，提高了搜索结果的匹配精准度，更符合用户实际需求；

5、本发明通过关联知识块的加权求和评分和预答案池的构建，能够高效地过滤和排序知识块，相较于现有技术，提高了搜索的效率，使得用户更迅速获取所需信息，避免信息碎片化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的方法流程图；

图2是本发明的企业知识库向量树示意图；

图3是本发明的专业领域知识关系链示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中，如图1所示，一种基于大模型的中小企业知识库的构建与搜索方法，包括以下步骤：

步骤1：构建企业知识向量树，对每个专业领域进行提炼；

步骤2：将每个专业领域下的知识拆分为知识块；

步骤3：对知识块内容进行提炼；

步骤4：构建知识关系链；

步骤7：对关联的知识块进行评分排序；

步骤9：构建预答案向量池；

步骤10：在多轮问答中获取最优答案；

在本实施例中，步骤1，构建企业知识向量树：

以企业涉及的各个专业领域为维度，对企业知识进行清洗、重构和向量化处理，建立纵向专业向量知识树；利用大语言模型对每个专业领域进行提炼，总结出专业领域摘要、核心内容和标签。其中，摘要字数不超过300字，核心内容为1一条或多条，标签为一个或多个。

步骤2，知识切块：

将每个专业领域下的知识（长文本或知识内容）拆分为不超过2,000Token的1-n个知识块，同时确保章节段落的完整性。

步骤3，知识块内容提炼：

借助大语言模型，对每个切块后的知识块进行提炼，生成知识块摘要；总结出核心内容，并提取描述知识块关键特征的相关标签。其中，知识块摘要字数不超过300字，核心内容为一条或多条，每条内容不超过50字，提取多个相关标签以更全面地描述知识块的关键特征；构建完成的企业知识库向量树如图2所示。

步骤4，构建知识关系链：

通过入库遍历法，利用大语言模型的理解生成能力，新入库的知识需对已有的每个专业领域下所有知识块进行匹配解析，以构建知识块之间的知识关系链；

通过计算相似度值，得出知识块之间的关系内容，知识块之间是多对多的网状关系，存在跨文件以及跨知识块等；其中，相似度值以百分比表示；

过程中，保留相似度值达到65%以上的知识块的关系引用，以确保后期搜索时的准确度。构建的知识关系链如图3所示。

步骤5，用户问题理解与向量化：

用户提出问题后，利用大语言模型对问题进行理解、拆分，并将用户提的问题进行向量化处理。确保能够准确理解用户的需求，为后续的匹配和搜索提供准确的输入。

步骤6，问题搜索与匹配：

将用户问题经过向量化后，与企业知识库中的专业领域进行匹配；一旦确定了匹配的专业领域，将在该专业领域下的知识块通过摘要、核心内容和标签与用户问题进行搜索与匹配。找到与问题相关联的知识切块后，利用大语言模型对这些知识块的内容，加上摘要、核心内容和标签进行多个维度的相似度评分（相似度用百分比表示），4个维度的相似度加起来为100%。

步骤7，知识块评分排序：

根据加权求和评分公式对关联知识块进行评分，评分公式为：知识块评分=知识内容权重×知识内容相似度+知识块摘要权重×知识块摘要相似度+核心内容权重×核心内容相似度+标签权重×标签相似度，其中，知识内容、知识块摘要、核心内容和标签的权重之和为1。本实施例中，知识内容权重为0.5，知识切块的摘要权重为0.15，核心内容的权重为0.25，标签的权重为0.1。通过获取步骤6中知识块的内容、摘要、核心内容和标签的相似度，利用以上权重进行计算，从而得出知识块的最终评分。

步骤8，追踪关联引用知识块：

根据第7步得出的知识块，找到相关联的引用知识块，确保与用户问题相关的引用知识块被捕获。利用大语言模型计算出知识块与引用知识块的关联值（以百分比表示），保留关联值70%以上的引用知识块。

步骤9，构建预答案向量池：

根据大语言模型的Token数要求，建立预答案池，其中知识块占比80%，引用知识块占比20%。在第7步、第8步得出的知识块和引用知识块的基础上，按照分值从高到低的顺序，将这些知识块放入预答案池。并且当引用知识块未达到20%，对预答案池进行动态调整，自动提高知识块的比重。这一策略旨在确保每次匹配不超过大语言模型的Token处理能力，在保障答案的完整性和条理性前提下，避免信息碎片化和丢失。

步骤10，多轮问答获取最优答案：

在用户进行多轮问答过程中，根据大语言模型的Token数要求，将前一轮的问题及答案的Token数浓缩到500个；然后，重复执行步骤6至步骤9，以获取最优答案。

步骤11，推荐引用知识块：

在完成多轮问答后，将第9步中预答案向量池的引用知识块推荐给用户，以协助用户进行更全面的知识搜索，从而提高搜索的准确度。

本发明通过构建企业知识向量树，以专业领域为维度实现向量化；采用知识切块和摘要、核心内容、标签的提炼，克服大语言模型的Token限制；建立精准的知识关系链，提高搜索准确度；引入多维度打分机制，提升匹配精度；以及通过预答案池构建有效筛选机制，保证搜索结果完整性。用户问题理解与向量化、关联引用块追踪、多轮问答最优答案和引用知识块推荐等进一步增强了整体搜索精度，提高问题回复的准确度。

1）知识向量树和结构化：通过构建企业知识向量树，将企业知识结构化表示，以专业领域为维度，提高了搜索的精准性和全面性。

2）知识切块和关系链建立：通过将长文本进行切块，并利用精炼摘要和核心内容提炼的方法，克服大语言模型的Token输入限制，从而提高搜索结果的完整性。同时，通过遍历知识块，构建知识关系链，追踪知识之间的关系，以提高搜索结果的准确度。

3）多维度评分排序：利用多维度的评分公式对知识块进行评分排序，确保搜索结果的相关性和匹配精度。

4）预答案池的构建和动态调整：构建预答案池，有效筛选和排序知识块与引用知识块，最大限度的利用Token长度，将尽可能多的知识块原料提供给大语言模型，同时可动态调整知识的比重，让它更好的结合企业私有知识再理解，之后再生成符合客户预期的答案，从而提高搜索的效率和准确率。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于大模型的中小企业知识库的构建与搜索方法，其特征在于，包括以下步骤：

步骤1：构建企业知识向量树，对每个专业领域进行提炼；

步骤2：将每个专业领域下的知识拆分为知识块；

步骤3：对知识块内容进行提炼；

步骤4：构建知识关系链；

步骤4具体包括以下子步骤，

步骤403：保留相似度值达到预设值以上的知识块的关系引用，以确保后期搜索时的准确度；

步骤7：对关联的知识块进行评分排序；

步骤9：构建预答案向量池；

步骤9具体包括以下子步骤：

步骤903：当引用知识块未达到设定的占比时，对预答案池进行动态调整，自动提高知识块的比重；

步骤10：在多轮问答中获取最优答案，具体为：在用户进行多轮问答过程中，根据大语言模型的Token数要求，将前一轮的问题及答案的Token数浓缩到预设值；然后，重复执行步骤6至步骤9，以获取最优答案；

2.根据权利要求1所述的一种基于大模型的中小企业知识库的构建与搜索方法，其特征在于，所述步骤1包括以下子步骤：

3.根据权利要求1所述的一种基于大模型的中小企业知识库的构建与搜索方法，其特征在于，所述步骤3中对知识块内容进行提炼具体为：借助大语言模型，对每个切块后的知识块进行提炼，生成知识块摘要；总结出核心内容，并提取描述知识块关键特征的相关标签。

4.根据权利要求1所述的一种基于大模型的中小企业知识库的构建与搜索方法，其特征在于，所述步骤6具体包括以下子步骤：

5.根据权利要求1所述的一种基于大模型的中小企业知识库的构建与搜索方法，其特征在于，所述步骤7中的评分排序具体为：根据加权求和评分公式对关联知识块进行评分，评分公式为：知识块评分=知识内容权重×知识内容相似度+知识块摘要权重×知识块摘要相似度+核心内容权重×核心内容相似度+标签权重×标签相似度，其中，知识内容、知识块摘要、核心内容和标签的权重之和为1。