CN117891838B - 一种大模型检索增强生成方法及装置 - Google Patents

一种大模型检索增强生成方法及装置 Download PDF

Info

Publication number
CN117891838B
CN117891838B CN202410282289.4A CN202410282289A CN117891838B CN 117891838 B CN117891838 B CN 117891838B CN 202410282289 A CN202410282289 A CN 202410282289A CN 117891838 B CN117891838 B CN 117891838B
Authority
CN
China
Prior art keywords
model
adopting
data
retrieval
data blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410282289.4A
Other languages
English (en)
Other versions
CN117891838A (zh
Inventor
王宾
王彦功
李照川
李捷明
张尧臣
王冠军
李会
常靓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Technology Co Ltd filed Critical Inspur Software Technology Co Ltd
Priority to CN202410282289.4A priority Critical patent/CN117891838B/zh
Publication of CN117891838A publication Critical patent/CN117891838A/zh
Application granted granted Critical
Publication of CN117891838B publication Critical patent/CN117891838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,具体提供了一种大模型检索增强生成方法及装置,首先进行分块算法设计,对目前向量分块策略进行改进,进行向量索引,构建两次索引,进行深入的搜索;然后进入后处理器的设计,采用交叉编码器对搜索结果进行重新排列,进行智能重新排名,最后,进行响应合成,得到的答案被整合或精炼概括形成最终答复。与现有技术相比,本发明能够为下游的各类任务提供了强大的指导性检索能力,进一步增强了信息检索的准确度和效率。

Description

一种大模型检索增强生成方法及装置
技术领域
本发明涉及数据处理领域,具体提供一种大模型检索增强生成方法及装置。
背景技术
行业组织数据覆盖众多领域,对公共管理和社会服务起着至关重要的作用。这些数据不仅来源广泛、形式多样,包括结构化和非结构化数据,而且还需要遵守特定的标准和格式,以确保其一致性和可比较性。因此,行业数据的完整性、多样性和结构性成为其显著特征。理解行业数据的正确方法成为一项挑战。
目前,处理行业数据的主流方法分为两类。第一类是传统数据库查询系统或特定的数据检索工具。这些工具通过关键词匹配、结构化查询语言(如SQL)或其他定制化查询方式来检索组织数据。虽然这种方法精确,但对于不熟悉查询语言的用户来说可能较为复杂。此外,基于关键词的搜索可能无法准确捕捉用户的查询意图,尤其是在关键词具有多重含义或在不同上下文中使用时。这类方法通常无法深入理解查询语义,难以处理隐含关系、同义词替换、概念扩展等复杂需求。
第二类方法利用大型语言模型或其他自然语言处理技术,依靠其内部知识库查找相关信息,生成答案或响应。这种技术克服了传统数据库查询的局限,但其缺陷也很明显。首先,这类方法可能无法处理超出模型训练范围的问题或专业主题,因为模型的知识库有限,可能不包含最新或特定领域的信息。其次,模型的知识库在训练期间是固定的,无法动态更新以反映新的变化或事件。最后,为适应新数据重新训练大型模型可能需要大量时间和计算资源。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的大模型检索增强生成方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的大模型检索增强生成装置。
本发明解决其技术问题所采用的技术方案是:
一种大模型检索增强生成方法,首先进行分块算法设计,对目前向量分块策略进行改进,进行向量索引,构建两次索引,进行深入的搜索;
然后进入后处理器的设计,采用交叉编码器对搜索结果进行重新排列,进行智能重新排名,最后,进行响应合成,得到的答案被整合或精炼概括形成最终答复。
进一步的,在进行分块算法设计中,具体包括:
A1、采用递归分块策略,利用一组分隔符,以分层和迭代的方式,将输入文本递归地划分成更小的数据块;
A2、采用含多个命名空间的单一索引结构或多个分立索引结构,在不同的数据管理环境下进行性能评估;
A3、将分块的模型进行向量化,采用基于弱监督预训练与对比学习的嵌入模型进行向量化。
进一步的,在步骤A1中,利用一组分隔符,以分层和迭代的方式,将输入文本递归地划分成更小的数据块,具体而言,如果首次分割文本未能产生满足预定大小或结构条件的数据块,会使用一个或多个不同的分隔符或分割准则,对已生成的数据块进行递归再处理,直至获得满足所需大小或结构特征的数据块为止。
进一步的,在步骤A2中,使用已选定的代表性数据集,针对待评估的特定大小的数据块创建嵌入向量,随后将这些嵌入保存在相应的向量索引里。
进一步的,在步骤A3中,经过两个阶段,第一阶段中,模型运用对比学习方法,并通过在模型结构中引入特定前缀来精准地处理和区分不同的数据类型;
随后,在第二阶段,模型转向使用规模小但标注精准的人工数据集进行精细化训练。
进一步的,在进行向量索引时,具体包括:
B1、采用分层索引结构,首先,构建第一个索引,包含所有文档的摘要信息,快速筛选出潜在相关的文档,随后,建立第二个索引,详细涵盖文档的各个具体部分,初步筛选出相关文档后,利用所述第二个索引进行更细致深入的搜索;
B2、在处理行业组织数据时,采用自动合并检索方法,优化信息检索和处理流程;
在提供给大型语言模型进行推理之前,对信息片段进行搜索并扩大语境窗口,首先涉及对小数据块的初步检索,在此基础上,若在最初检索到的前k个数据块中,发现超过n个数据块与同一父节点有直接关联,则进行上下文替换机制。
进一步的,在进入后处理器设计时,具体包括:
C1、采用交叉编码器对搜索结果进行重新排列,在这个过程中,两个句子被同时输入到一个基于Transformer架构的网络中,用于评估输入句子对的相关性,生成一个介于0到1之间的相似度分数,基于所述相似度分数;
C2、采用查询变换策略,具体来说,即将单一复杂查询分解为多个子查询,所述子查询将被并行执行,接下来,各个子查询所检索到的信息将被收集并融合成一个连贯的语句,这个经过整合的语句将被作为大型语言模型的输入数据,从而生成针对原始复杂查询问题的最终答复;
C3、所述大型语言模型一旦接收用户查询,即会启动,规划后续操作路径,操作内容包括对查询内容的提炼、直接搜索特定数据索引,或综合运用多种方法以获得最佳结果。
进一步的,在进行响应合成时,具体包括:
D1、将检索得到的上下文分块发送至大型语言模型,大型语言模型能够逐步分析和优化每一部分的上下文,从而逐渐提炼出更精确的答案;
D2、将检索到的上下文进行概括处理,使适应特定的提示条件;
D3、根据不同的上下文块,会生成多个针对性的答案,接着,所述答案将被整合或概括,最终形成一个最终答复。
一种大模型检索增强生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种大模型检索增强生成方法。
本发明的一种大模型检索增强生成方法及装置和现有技术相比,具有以下突出的有益效果:
首先,本发明的RAG方法区别于传统的仅依赖大型语言模型进行行业数据信息检索的方法,也不同于针对其他行业数据的RAG应用。它是专门为处理行业组织数据而设计的算法,其在语义理解和检索效率上远超传统基于知识图谱的自然语言处理模型。
这使得该方法能够更精准地理解和处理复杂的自然语言查询,尤其是那些高度抽象且含义多变的查询。通过这种先进的语义处理能力,组织知识库能够提供更精确、丰富和多元的信息。
本发明的应用场景包括行业组织的知识问答系统,它能够根据不同类型的知识库内容,生成精准且相关的回答。同时,该技术也为下游的各类任务提供了强大的指导性检索能力,进一步增强了信息检索的准确度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种大模型检索增强生成方法中框架示意图;
附图2是一种大模型检索增强生成方法中向量索引块中的分层索引结构示意图;
附图3是一种大模型检索增强生成方法中使用大语言模型的查询变换策略示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1-3所示,本实施例中的一种大模型检索增强生成方法,首先进行分块算法设计,对目前向量分块策略进行改进,进行向量索引,构建两次索引,进行深入的搜索;
然后进入后处理器的设计,采用交叉编码器对搜索结果进行重新排列,进行智能重新排名,最后,进行响应合成,得到的答案被整合或精炼概括形成最终答复。
其中,在进行分块算法设计中,具体包括:
A1、采用递归分块策略,利用一组分隔符,以分层和迭代的方式,将输入文本递归地划分成更小的数据块;
具体而言,如果首次分割文本未能产生满足预定大小或结构条件的数据块,系统将会使用一个或多个不同的分隔符或分割准则,对已生成的数据块进行递归再处理,直至获得满足所需大小或结构特征的数据块为止。
通过这种方式,虽然各数据块的大小可能不会完全一致,但可实现其大小的相对均衡,从而有效处理非结构化组织数据的特点。
A2、采用含多个命名空间的单一索引结构或多个分立索引结构,在不同的数据管理环境下进行性能评估;
使用已选定的代表性数据集,针对待评估的特定大小的数据块创建嵌入向量,随后将这些嵌入保存在相应的向量索引里。
此种方法不仅确保了测试的精确性和全面性,还为理解不同数据块大小如何影响查询效率和准确性提供了重要的实证依据。
A3、将分块的模型进行向量化,采用基于弱监督预训练与对比学习的嵌入模型进行向量化;
将经历两个阶段:
在第一阶段,模型运用对比学习方法,并通过在模型结构中引入特定前缀来精准地处理和区分不同的数据类型。
随后,在第二阶段,模型转向使用规模小但标注精准的人工数据集进行精细化训练,以确保模型的高质量和准确性。这两个阶段的结合使得E5模型在处理复杂数据类型时既全面又精准。此阶段的训练依然采用对比学习方法,但在处理负样本时采用了不同的策略,以进一步提升模型对复杂数据结构的理解和处理能力。
在进行向量索引时,具体包括:
B1、采用分层索引结构,首先,构建第一个索引,包含所有文档的摘要信息。这一步骤的目的是快速筛选出潜在相关的文档,从而减少后续搜索的范围和复杂度。
随后,我们创建了第二个索引,该索引详细涵盖了文档的各个具体部分,以便在初步筛选出相关文档后,能够利用这个索引进行更细致深入的搜索。这种分层的搜索方法不仅提升了检索的效率,还增强了搜索结果的相关性和准确性。
B2、在处理行业组织数据时,鉴于文档间存在大量关联性,采用自动合并检索方法,以优化信息检索和处理流程。
在提供给大型语言模型进行推理之前,对信息片段进行更精确的搜索并扩大语境窗口。
首先涉及对小数据块的初步检索。在此基础上,若在最初检索到的前k个数据块中,发现超过n个数据块与同一父节点(即更大的数据块)有直接关联,则进行上下文替换机制。具体来说,该机制会自动将这些小数据块与它们共同的父节点进行合并,并以此父节点作为提供给大型语言模型的上下文。
在进入后处理器设计时,具体包括:
C1、采用交叉编码器对搜索结果进行重新排列。在这个过程中,两个句子被同时输入到一个基于Transformer架构的网络中。该网络设计用于评估输入句子对的相关性,生成一个介于0到1之间的相似度分数。基于这个相似度分数,本发明实现了对搜索结果的智能重新排名。
通过这种方法,可以有效地过滤掉相似度较低的结果,确保最终呈现给用户的信息是最相关和最有价值的。这种技术的应用,大幅提升了组织数据检索的效率和准确性。
C2、在处理更为复杂的查询时,采用查询变换策略,具体来说,本方法即将单一复杂查询分解为多个子查询。这些子查询将被并行执行,以确保高效地检索信息。
接下来,各个子查询所检索到的信息将被收集并融合成一个连贯的语句。这个经过整合的语句将被作为大型语言模型的输入数据,从而生成针对原始复杂查询问题的最终答复。
C3、大型语言模型一旦接收用户查询,即会启动,精确规划后续操作路径。操作内容包括对查询内容的精准提炼、直接搜索特定数据索引,或综合运用多种方法以获得最佳结果。
查询路由的一项主要任务是,智能选择最优数据存储位置以处理查询,这些位置覆盖向量存储、图形数据库、关系型数据库以及各级索引系统。此选择过程由大型语言模型自动完成,严格按照预定义格式,将查询精准导向相应的索引或数据库,从而显著提升查询处理的效率和准确性。
进行响应合成时,具体包括:
D1、将检索得到的上下文分块发送至大型语言模型,大型语言模型能够逐步分析和优化每一部分的上下文,从而逐渐提炼出更精确的答案;
D2、将检索到的上下文进行概括处理,使适应特定的提示条件;这一过程有助于筛选并突出最关键的信息,为生成更为准确的答案奠定基础。
D3、根据不同的上下文块,会生成多个针对性的答案,接着,所述答案将被整合或概括,最终形成一个最终答复。
基于上述方法,本实施例中的一种大模型检索增强生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种大模型检索增强生成方法。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种大模型检索增强生成方法,其特征在于,首先进行分块算法设计,对目前向量分块策略进行改进,进行向量索引,构建两次索引,进行深入的搜索;
然后进入后处理器的设计,采用交叉编码器对搜索结果进行重新排列,进行智能重新排名,最后,进行响应合成,得到的答案被整合或精炼概括形成最终答复;
在进行分块算法设计中,具体包括:
A1、采用递归分块策略,利用一组分隔符,以分层和迭代的方式,将输入文本递归地划分成更小的数据块;
利用一组分隔符,以分层和迭代的方式,将输入文本递归地划分成更小的数据块,具体而言,如果首次分割文本未能产生满足预定大小或结构条件的数据块,会使用一个或多个不同的分隔符或分割准则,对已生成的数据块进行递归再处理,直至获得满足所需大小或结构特征的数据块为止;
A2、采用含多个命名空间的单一索引结构或多个分立索引结构,在不同的数据管理环境下进行性能评估;
使用已选定的代表性数据集,针对待评估的特定大小的数据块创建嵌入向量,随后将这些嵌入保存在相应的向量索引里;
A3、将分块的模型进行向量化,采用基于弱监督预训练与对比学习的嵌入模型进行向量化;
经过两个阶段,第一阶段中,模型运用对比学习方法,并通过在模型结构中引入特定前缀来精准地处理和区分不同的数据类型;
随后,在第二阶段,模型转向使用规模小但标注精准的人工数据集进行精细化训练;
在进行向量索引时,具体包括:
B1、采用分层索引结构,首先,构建第一个索引,包含所有文档的摘要信息,快速筛选出潜在相关的文档,随后,建立第二个索引,详细涵盖文档的各个具体部分,初步筛选出相关文档后,利用所述第二个索引进行更细致深入的搜索;
B2、在处理行业组织数据时,采用自动合并检索方法,优化信息检索和处理流程;
在提供给大型语言模型进行推理之前,对信息片段进行搜索并扩大语境窗口,首先涉及对小数据块的初步检索,在此基础上,若在最初检索到的前k个数据块中,发现超过n个数据块与同一父节点有直接关联,则进行上下文替换机制
在进入后处理器设计时,具体包括:
C1、采用交叉编码器对搜索结果进行重新排列,在这个过程中,两个句子被同时输入到一个基于Transformer架构的网络中,用于评估输入句子对的相关性,生成一个介于0到1之间的相似度分数,基于所述相似度分数;
C2、采用查询变换策略,具体来说,即将单一复杂查询分解为多个子查询,所述子查询将被并行执行,接下来,各个子查询所检索到的信息将被收集并融合成一个连贯的语句,这个经过整合的语句将被作为大型语言模型的输入数据,从而生成针对原始复杂查询问题的最终答复;
C3、所述大型语言模型一旦接收用户查询,即会启动,规划后续操作路径,操作内容包括对查询内容的提炼、直接搜索特定数据索引,或综合运用多种方法以获得最佳结果;
在进行响应合成时,具体包括:
D1、将检索得到的上下文分块发送至大型语言模型,大型语言模型能够逐步分析和优化每一部分的上下文,从而逐渐提炼出更精确的答案;
D2、将检索到的上下文进行概括处理,使适应特定的提示条件;
D3、根据不同的上下文块,会生成多个针对性的答案,接着,所述答案将被整合或概括,最终形成一个最终答复。
2.一种大模型检索增强生成装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1所述的方法。
CN202410282289.4A 2024-03-13 2024-03-13 一种大模型检索增强生成方法及装置 Active CN117891838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410282289.4A CN117891838B (zh) 2024-03-13 2024-03-13 一种大模型检索增强生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410282289.4A CN117891838B (zh) 2024-03-13 2024-03-13 一种大模型检索增强生成方法及装置

Publications (2)

Publication Number Publication Date
CN117891838A CN117891838A (zh) 2024-04-16
CN117891838B true CN117891838B (zh) 2024-05-28

Family

ID=90645915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410282289.4A Active CN117891838B (zh) 2024-03-13 2024-03-13 一种大模型检索增强生成方法及装置

Country Status (1)

Country Link
CN (1) CN117891838B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662502A (zh) * 2023-05-19 2023-08-29 上海电力大学 基于检索增强的金融问答文本生成方法、设备及存储介质
CN116860114A (zh) * 2023-09-04 2023-10-10 腾讯科技(深圳)有限公司 基于人工智能的扩展现实交互方法及相关装置
CN117688163A (zh) * 2024-01-29 2024-03-12 杭州有赞科技有限公司 基于指令微调和检索增强生成的在线智能问答方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892550B2 (en) * 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662502A (zh) * 2023-05-19 2023-08-29 上海电力大学 基于检索增强的金融问答文本生成方法、设备及存储介质
CN116860114A (zh) * 2023-09-04 2023-10-10 腾讯科技(深圳)有限公司 基于人工智能的扩展现实交互方法及相关装置
CN117688163A (zh) * 2024-01-29 2024-03-12 杭州有赞科技有限公司 基于指令微调和检索增强生成的在线智能问答方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enhancing Cloud-Based Large Language Model Processing with Elasticsearch and Transformer Models;Ni, Chunhe et al.;arxiv;20240224;第1-7页 *
基于Web的Lucene全文搜索排序算法的研究;沙阳阳;吴陈;;计算机与数字工程;20190520(05);第199-202+230页 *

Also Published As

Publication number Publication date
CN117891838A (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN102087669B (zh) 基于语义关联的智能搜索引擎系统
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
US20110208776A1 (en) Method and apparatus of semantic technological approach based on semantic relation in context and storage media having program source thereof
US20110022600A1 (en) Method of data retrieval, and search engine using such a method
EP1716511A1 (en) Intelligent search and retrieval system and method
Lin et al. ACIRD: intelligent Internet document organization and retrieval
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Jayaram et al. A review: Information extraction techniques from research papers
Omri et al. Towards an efficient big data indexing approach under an uncertain environment
WO2012091541A1 (en) A semantic web constructor system and a method thereof
CN117891838B (zh) 一种大模型检索增强生成方法及装置
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
Husain Critical concepts and techniques for information retrieval system
Liu et al. Modelling and implementation of a knowledge question-answering system for product quality problem based on knowledge graph
Gupta A Proposed Online Approach of English and Punjabi Question Answering
CN112199461A (zh) 基于块索引结构的文档检索方法、装置、介质和设备
Swe Concept Based Intelligent Information Retrieval within Digital Library
Xiaomeng Research and system implementation of automatic English synonymy selection in the Internet environment
CN118312579A (zh) 一种基于大模型的高级检索增强分块和向量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant