CN116775853A

CN116775853A - 一种基于大语言模型的企业内部搜索引擎方法

Info

Publication number: CN116775853A
Application number: CN202310781352.4A
Authority: CN
Inventors: 巫泽川; 马桂成; 郭锋; 郑文倩; 章石青; 黄小凤
Original assignee: Weisi E Commerce Shenzhen Co ltd
Current assignee: Weisi E Commerce Shenzhen Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-19

Abstract

本发明提供一种基于大语言模型的企业内部搜索引擎方法，涉及企业内部搜索引擎技术领域。该基于大语言模型的企业内部搜索引擎方法，首先加载知识库，把知识库所有文档加载进来；接着分割知识库为一个个独立文本态；然后知识库向量化，把文本映射为一个个向量数据，存放在向量数控；再将用户搜索向量化；根据搜索语句向量化匹配目标文本；根据提示词生成结果；最后流式响应返回结果；本发明基于大语言模型的企业内部搜索引擎，能够智能阅读理解文档内容，结合用户上下文，提升用户企业内部搜索的性能、效率和准确性，解决了不支持上下文、无法精确匹配用户需求、查询慢和人工回复重复性问答的问题。

Description

一种基于大语言模型的企业内部搜索引擎方法

技术领域

本发明涉及企业内部搜索引擎技术领域，具体为一种基于大语言模型的企业内部搜索引擎方法。

背景技术

大语言模型(LLM)，也称为大型语言模型，是一种基于机器学习和自然语言处理技术的模型，它通过对大量的文本数据进行训练，来学习服务人类语言理解和生成的能力。LLM的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构，这在一定程度上能够模拟人类的语言认知和生成过程。与传统的NLP模型相比，LLM能够更好地理解和生成自然文本，同时还能够表现出一定的逻辑思维和推理能力；随着企业内部搜索引擎领域的不断发展，结合大语言模型技术，可以使得企业内部搜索引擎变得更加智能化，可以快速满足用户对企业内部搜索引擎的需求。

现如今，直接使用企业内部搜索引擎这样会带来以下问题：一是大海捞针，无法精确匹配用户需求；二是查询比较慢，在海量文本搜索，耗费较多资源，并且性能满足不了用户需求；三是传统搜索引擎无法缺乏对文档的理解，无法代替智能的问答工作；四是不支持上下文理解。为此，提出了一种基于大语言模型的企业内部搜索引擎方法，以解决上述提及的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于大语言模型的企业内部搜索引擎方法，解决了传统企业内部搜索引擎无法精确匹配用户需求、查询慢和人工回复重复性问答的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于大语言模型的企业内部搜索引擎方法，具体包括如下步骤：

S1、加载知识库

从知识库加载全部文档，文档包括PDF、Word、Exec l、Eml、Tm l,PPT,MarkDown、Text、Tsv、Csv和Json格式文档，读取文档全部文本内容以及其链接地址；

S2、分割知识库

将所有文本按分割成文本，每个句子或一行独立数据作为一个文本；

S3、知识库向量化

通过文本查询对应的向量值，向量值是一种将离散变量表示为连续向量的方法，向量之间的距离即相似度衡量文本之间的相关性，相似度指偏差越少表示相关性越高，而相似度偏大表示相关性越低，并将文本和向量值保存到向量数据库，文本和文档链接地址关联关系保存到缓存；

S4、用户搜索向量化

根据用户提供的搜索语句作为一个文本A，读取缓存并访问最近2048个令牌，将文本A和2048个令牌并集作为新文本，通过新文本查询其向量值；

S5、匹配结果

根据新文本向量值，在向量数据库查询相似度低于0.3的结果文本以及归属文档链接；

S6、根据提示词生成结果

将结果清单按照企业内部搜索引擎的提示词生成回复文本，将本地用户搜索文本和结果缓存起来；

S7、返回结果

返回搜索结果给用户，并展示回复文本和文本链接，用户可通过浏览器打开文本链接查看详细内容。

优选的，所述步骤S1中的知识库，是一个存储文档的对象存储桶；所述步骤S1中文档链接地址，是指企业内部网络能够访问的文档地址，通过浏览器可呈现内容。

优选的，所述S4步骤中的令牌，是指一种非结构化文本单位，将文本分解成更小的、允许大语言模型处理的单位。

优选的，所述S6步骤中的提示词为输入给大语言模型的文字限制要求信息，大语言模型会根据这个提示词要求生成一段回应文本，根据文本需要文本限制包括但不限于中文内容、文字字数限制的提示词要求。

优选的，所述S5步骤归属文档链接，是指文本出自哪个文档的链接地址。

优选的，所述大语言模型，是指一类能够生成人类语言文本的人工智能模型，通过使用变换器架构并在大量文本数据上进行训练，预测在给定上下文后出现的下一个单词或字符，所述变换器架构，是指一种设计用于处理序列数据的深度学习模型的方法。

优选的，所述S6步骤中的结果清单是指相似度偏差在0.3以内的清单，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,1]，所述S6步骤中的生成回复文本，是指通过提示词和目标文本调用大语言模型的接口，将返回的文本、相似答案文本两者作为生成结果。

优选的，所述返回搜索结果给用户，是指通过流式响应给用户。

(三)有益效果

本发明提供了一种基于大语言模型的企业内部搜索引擎方法。具备以下

有益效果：

1、本发明提供了一种基于大语言模型的企业内部搜索引擎方法，本发明基于大语言模型，可以智能理解文档的内容，并根据用户文档生成智能的答复，包括解决专员引导、流程申请步骤详情和规章制度解读，主要解决人力资源、安全、财务、运维、研发、企业I T、行政等企业内部搜索问题；同时本方案支持多种文档格式，区别于一般只支持PDF的方法；本方案通过流式响应，可以快速提升响应性能，区别一般传统的搜索方法；本方案除了最佳答复，还提供三个相似答案作为参考，用户可快速获取相关问题的解决方案；本方案支持上下文的理解，区别于一般传统企业内部搜索引擎的解决方法。

附图说明

图1为本发明的流程图；

图2为本发明的S2分割知识库步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1-2所示，本发明实施例提供一种基于大语言模型的企业内部搜索引擎方法，包括如下步骤：

S1、加载知识库

S2、分割知识库

如文本分割所采用的：

得到数据集；

S4、用户搜索向量化

S5、匹配结果

S6、根据提示词生成结果

S7、返回结果

由图2可知，在本实施例步骤S2中，提示词为输入给大语言模型的文字限制要求信息，大语言模型会根据这个提示词要求生成一段回应文本，比如文本需要简洁、文本限制只包括中文内容。结果清单是相似度偏差在0.3以内的清单，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,1]。将结果清单按照企业内部搜索引擎的提示词生成回复文本，是指通过提示词和目标文本调用大语言模型的接口，将返回的文本、相似答案文本两者作为生成结果。搜索结果通过流式响应给用户，快速提升性能体验。

其次，通过建立企业内部搜索空间，对搜索空间进行空间分层划分，且每层空间包括多个单层空间领域、领域权限值和领域结构网层，其中各相同数据领域结构网层和各空间领域之间由超空间链接连接；

各个单层空间领域中富含各自的领域权限，且各个单层空间领域均包含开放存储入口，即每个空间中对应不同内容；而各空间内的存在的结构网层将空间再度进行分割，使其存储按序智能分类，从而保证搜索的最佳空间，能够快速完成空间资源搜索，快速进行多空间内的搜索和节点连接，快速搜索文本内容，从而大幅提升了实现企业搜索的准确度和全面性。

其中搜索引擎中预设搜索引擎函数进行智能AI搜索，其关键流程如下：

1.首先，函数会检查输入的向量参数是否合法，包括向量维度是否正确、向量数据类型是否为正确；

2.在调用搜索引擎函数时，函数会将查询参数和搜索结果的返回参数封装到结构体中，并将它们作为输入参数；

3.结构体将输入参数进行转换，将查询参数转换为搜索引擎所需的数据格式。在执行搜索之前，函数会先根据查询参数中指定的集合名称，从搜索引擎服务器上获取指定集合(表)的元信息，包括向量维度、索引类型、索引参数等；

然后，根据获取到的集合(表)元信息，函数会判断是否需要在搜索前对索引进行预处理。如果需要，函数会调用搜索引擎服务器上的索引预处理接口，对索引进行预处理；

4、在完成索引预处理后，函数会将查询参数和预处理结果封装到一个结构体中，并将其作为输入参数，调用搜索引擎服务器上的搜索引擎进行向量搜索。

5.在搜索引擎执行搜索过程中，函数会首先将查询向量和预处理结果通过网络传输到搜索引擎服务器上，并根据查询参数中指定的搜索参数，调用搜索引擎进行搜索。搜索引擎会根据预处理结果和搜索参数，快速地找到与查询向量最相似的向量数据，并返回相似的向量I D列表、相似度得分列表等结果。

6.当搜索引擎执行搜索完成后，函数会从返回结果中解析出相似的向量I D列表、相似度得分列表等信息，并封装到一个结构体中。

7.当搜索函数执行完成后，函数会从结构体中获取搜索结果，包括相似的向量I D列表、相似度得分列表等。然后，函数会遍历搜索结果，将每个相似向量的I D和相似度得分封装到数组中。

8.最后，函数会返回封装好的搜索结果，包括相似向量的I D列表、相似度得分列表等。在返回结果前，函数会对每个相似度得分进行归一化处理，确保它们的值在[0,1]范围内，以便于后续的处理和分析。

其中封装数组资源集包括所选索引或向量值的扩展、候选和延伸语义的资源文本，具体为基于训练搜索的索引和向量值分析解析出的语义信息，获取与内部搜索文本语义相同的字段，得到扩写字段，同时依据文本语义进行相邻字词句意的候选和字段延伸搜索。

综上所述：该基于大语言模型的企业内部搜索引擎方法，可以智能理解文档的内容，并根据用户文档生产智能的答复，比如解决什么事情找谁解决、如何走流程申请、规章制度解读，主要解决人力资源、安全、财务、运维、研发、企业I T、行政等企业内部搜索问题；本方案支持多种文档格式，区别于一般只支持PDF的方法；本方案通过流式响应，可以快速提升响应性能，区别一般传统的搜索方法；本方案除了最佳答复，还提供三个相似答案作为参考，用户可快速获取相关问题的解决方案；本方案支持上下文的理解，区别于一般传统企业内部搜索引擎的解决方法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大语言模型的企业内部搜索引擎方法，其特征在于，具体包括如下步骤：

S1、加载知识库

从知识库加载全部文档，文档包括PDF、Word、Execl、Eml、Tml,PPT,MarkDown、Text、Tsv、Csv和Json格式文档，读取文档全部文本内容以及其链接地址；

S2、分割知识库

S3、知识库向量化

S4、用户搜索向量化

S5、匹配结果

S6、根据提示词生成结果

S7、返回结果

2.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述步骤S1中的知识库，是一个存储文档的对象存储桶；所述步骤S1中文档链接地址，是指企业内部网络能够访问的文档地址，通过浏览器可呈现内容。

3.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述S4步骤中的令牌，是指一种非结构化文本单位，将文本分解成更小的、允许大语言模型处理的单位。

4.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述S6步骤中的提示词为输入给大语言模型的文字限制要求信息，大语言模型会根据这个提示词要求生成一段回应文本，根据文本需要文本限制包括但不限于中文内容、文字字数限制的提示词要求。

5.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述S5步骤归属文档链接，是指文本出自哪个文档的链接地址。

6.根据权利要求4所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述大语言模型，是指一类能够生成人类语言文本的人工智能模型，通过使用变换器架构并在大量文本数据上进行训练，预测在给定上下文后出现的下一个单词或字符，所述变换器架构，是指一种设计用于处理序列数据的深度学习模型的方法。

7.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述S6步骤中的结果清单是指相似度偏差在0.3以内的清单，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,1]，所述S6步骤中的生成回复文本，是指通过提示词和目标文本调用大语言模型的接口，将返回的文本、相似答案文本两者作为生成结果。

8.根据权利要求1所述的基于大语言模型的企业内部搜索引擎方法，其特征在于：所述返回搜索结果给用户，是指通过流式响应给用户。