CN118036753A

CN118036753A - 一种基于多级知识检索增强的大语言模型推理方法及系统

Info

Publication number: CN118036753A
Application number: CN202410343664.1A
Authority: CN
Inventors: 陈杰; 陶冶; 尹雅博
Original assignee: Xingzhi Intelligent Beijing Technology Co ltd
Current assignee: Xingzhi Intelligent Beijing Technology Co ltd
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-05-14

Abstract

本发明公开一种基于多级知识检索增强的大语言模型推理方法，属于涉及AI领域、大语言模型领域以及信息检索领域；该方法包括：获取问题语句；获取运营知识库；所述运营知识库包含若干问答知识对；将问题语句与运营知识库中的问答知识对进行比对；若问题语句与运营知识库中的问答知识对的比对成功，则根据运营知识库中相应的问答知识对，得到输出答案。本发明还提供一种基于多级知识检索增强的大语言模型推理系统。本发明可以很好的缓解当前大模型出现“幻觉”问题，还可以解决Prompt learning过程中context window限制等问题，整体架构简明清晰，易于实现，可以广泛的应用。

Description

一种基于多级知识检索增强的大语言模型推理方法及系统

技术领域

本发明涉及AI领域、大语言模型领域以及信息检索领域，具体涉及一种基于多级知识检索增强的大语言模型推理方法及系统。

背景技术

随着使用生成式AI应用程序的大型语言模型(LLM)日趋复杂，人们愈发担心这些模型可能会产生不准确或具误导性的输出。该问题称之为“幻觉”，即AI模型会产生完全捏造的信息，既不准确也不真实。幻觉对各项应用均可能产生严重影响，包括客户服务、金融服务、法律决策和医疗诊断等。导致AI模型产生幻觉有若干因素，其中包括训练数据有偏见或训练数据不足、训练数据过度拟合、上下文理解有限、领域知识缺乏、模型架构。

(1)训练数据有偏见或训练数据不足：AI模型的好坏取决于训练所使用的数据。如果训练数据有偏见、不完整或不足，AI模型可能会基于其对所访问数据的有限理解而产生幻觉。在使用开放的互联网数据训练大型语言模型的情况下，这一点尤其令人担忧，因为互联网中有偏见和错误的信息泛滥。

(2)过度拟合：当AI模型与训练数据过度拟合时，它可能会开始生成对训练数据过于具体的输出，不能很好地推广到新数据。这可能导致模型生成幻觉或不相关的输出。

(3)上下文理解缺乏：缺乏上下文理解的AI模型可能会产生脱离上下文或不相关的输出。这可能导致模型生成幻觉或荒谬的输出。

(4)领域知识有限：为特定领域或任务设计的AI模型在接受其领域或任务之外的输入时可能会产生幻觉。这是因为它们可能缺乏生成相关输出所需的知识或背景。当模型对不同语言的理解有限时，就会出现这种情况。尽管一个模型可以在多种语言的大量词汇上进行训练，但它可能缺乏文化背景、历史和细微差别，无法正确地将概念串在一起。

(5)模型架构：AI模型架构也会影响幻觉产生的容易程度。由于复杂性增加，具有更多分层或更多参数的模型可能更容易产生幻觉。

通过解决这些产生幻觉的主要原因，可以设计和训练AI模型以产生更准确和相关的输出，从而最大限度地降低产生幻觉的风险。

总体而言有三种思路可以大模型缓解“幻觉”方法：微调大模型、调整prompt、用知识库进行知识增强。

第一种思路，用行业数据对大模型进行微调。首先，需要准备大量的行业数据用于训练，这就对数据提出了更高的要求，例如数据必须质量高，要进行数据清洗、数据要与训练适配等。此外，训练大模型对于资源的消耗堪称巨大，一般开发者很难承受背后的高昂费用，需要开发者准备多张硬件设备。

第二种思路，便是调整prompt，即修改提示词，例如，可以跟大模型说"当你不知道答案的时候，不要编造答案，直接回答不知道"。但是，如果大家尝试过就会发现，大模型也并不是完全地遵循此类指令，仍旧会出现编造答案的情况，需要进行prompt优化。

第三种思路，是通过建立行业知识库(Knowledge Base)的方式限制「AI幻觉」的“自由发挥”，对行业知识进行输入和增强。知识库，顾名思义是给大模型灌输一些额外的知识，为它提供更多的参考。一般情况下，开发者需要对知识库进行语义搜索或者说是初步筛选，以找出真正有用的知识。

目前，针对大模型幻觉(Large Language Model Hallucination)的技术主要集中在改进语言模型的生成和理解能力，以减少模型在生成文本时出现不准确或不合理信息的问题。以下是目前同类技术的状况：

模型微调与对抗性训练：一些研究着重于使用对抗性训练技术，通过引入对抗性样本，使模型更加健壮，减少模型对于误导性输入的敏感性。模型微调则是通过在特定任务上进一步训练语言模型，以提高其在特定领域的准确性。

知识融合技术：引入外部知识源，如知识图谱、领域专业知识等，与语言模型进行融合，以提高模型在特定领域的表现和理解能力。

生成模型改进：对生成模型进行改进，使其更好地理解上下文、语境和逻辑关系，以减少生成过程中的幻觉。这可能包括改进的注意力机制、更复杂的解码策略等。

现有技术存在的缺点和不足：

生成的非自洽性：大型语言模型有时候会生成与上下文不自洽或不符合逻辑的文本，这可能导致误导性的信息。

对于特定领域的过度泛化：一些大型语言模型可能过度泛化，对于特定领域的信息理解不足，导致生成的内容缺乏专业性。

对抗样本攻击敏感：部分大模型容易受到对抗性样本攻击，使其生成具有误导性的文本。

发明内容

本发明的目的在于提供一种高效的基于多级知识检索增强的大语言模型推理方法及系统，提供更准确、自洽和专业的生成文本，从而增强大型语言模型的实用性和可靠性。

为解决上述技术问题，本发明提供一种基于多级知识检索增强的大语言模型推理方法，包括以下步骤：

获取问题语句；

获取运营知识库；所述运营知识库包含若干问答知识对；

将问题语句与运营知识库中的问答知识对进行比对；

若问题语句与运营知识库中的问答知识对的比对成功，则根据运营知识库中相应的问答知识对，得到输出答案；

若问题语句与运营知识库中的问答知识对的比对不成功，则获取行业知识库；所述行业知识库包含文本格式数据；

将问题语句与行业知识库中的文本格式数据进行比对，得到行业信息；

将行业信息输入大模型中，得到输出答案。

优选地，将问题语句与运营知识库中的问答知识对进行比对，具体包括以下步骤：

通过bge算法，对运营知识库中的问答知识对进行向量化处理，得到运营向量数据库；

通过bge算法，对问题语句进行向量化，得到第一向量Vector1；

将第一向量Vector1与运营向量数据库进行匹配，从运营向量数据库中得到第二向量Vector2；

计算第一向量Vector1和第二向量Vector2之间的相关程度；

根据第一向量Vector1和第二向量Vector2之间的相关程度以及第一相关程度阈值，判断问题语句与运营知识库中的问答知识对是否比对成功。

优选地，所述第一向量Vector1和第二向量Vector2之间的相关程度为：第一向量Vector1和第二向量Vector2之间的余弦相似度。

优选地，问题语句与行业知识库中的文本格式数据进行比对，得到行业信息，具体包括以下步骤：

对行业知识库中的文本格式数据进行分割，得到若干片段trunk；

通过bge算法，对片段trunk进行向量化，得到行业向量数据库；

将第一向量Vector1与行业向量数据库进行匹配，从行业向量数据库中得到k个片段trunk向量作为高相关度片段向量；

计算第一向量Vector1和高相关度片段向量之间的相关程度；

计算第一向量Vector1和高相关度片段向量之间的相关程度和第二相关程度阈值，判断第一向量Vector1和高相关度片段向量是否对比成功；

若第一向量Vector1和高相关度片段向量对比成功，则将高相关度片段向量相对应的片段trunk加入到提示指令prompt，将提示指令prompt作为行业信息；若第一向量Vector1和高相关度片段向量对比不成功，则将问题语句作为行业信息。

优选地，所述第一向量Vector1和高相关度片段向量之间的相关程度为：第一向量Vector1和高相关度片段向量之间的余弦相似度。

优选地，所述文本格式数据的分割方式为固定文本长度或切分句子。

优选地，还包括以下步骤：

将问题语句输入预训练完成的意图理解模块中，得到用户意图；

根据用户意图，判断问题语句是否符合场景；

若问题语句不符合场景，则进行引导。

优选地，所述意图理解模块为bert模型。

本发明还提供一种基于多级知识检索增强的大语言模型推理系统，包括：

第一获取模块，用于获取问题语句；

第二获取模块，用于获取运营知识库；所述运营知识库包含若干问答知识对；

运营比对模块，用于将问题语句与运营知识库中的问答知识对进行比对；

问答知识对回答模块，用于根据运营知识库中相应的问答知识对，得到输出答案；

第三获取模块，用于获取行业知识库；所述行业知识库包含文本格式数据；

行业比对模块，用于将问题语句与行业知识库中的文本格式数据进行比对，得到行业信息；

大模型回答模块，用于将行业信息输入大模型中，得到输出答案。

与现有技术相比，本发明的有益效果为：

本发明旨在解决大模型在生成文本时出现的幻觉问题。具体来说，它可能专注于改进语言模型的推理和逻辑推断能力，以减少模型生成不准确、不合理或误导性信息的情况。通过引入先进的技术手段，本发明旨在提高大型语言模型的生成质量，使其更适用于各种应用场景。

本发明为了缓解大模型的“幻觉”，结合缓解的方式，提出了基于多级知识增强的大模型推理方案，即：微调大模型(SFT LLM)+运营知识库召回(Operational FAQRetrieval)+行业知识召回(Industry Knowledge Retrieval)的方式。

通过增加运营知识库，并且是跟大模型是解耦方式，给大模型增加行业知识，知识粒度是句子级别，主要是FAQ形式。可以很好的缓解当前大模型出现“幻觉”问题。

通过增加行业知识库，并且是跟大模型是解耦方式，主要是客户私有的行业文库，知识粒度是段落级别，主要是文本形式。可以很好的缓解当前大模型出现“幻觉”问题。

可以解决Prompt learning过程中context window限制等问题，整体架构简明清晰，易于实现，可以广泛的应用。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1是本发明一种基于多级知识检索增强的大语言模型推理方法的流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

术语解释：

检索增强:检索增强是指通过应用先进的信息检索技术和人工智能方法，提高信息检索系统的效率和准确性的过程。在这一领域，技术创新旨在使检索系统能够更好地理解用户查询的意图，通过自动学习、自然语言处理和数据挖掘等技术，对文本和多媒体内容进行更深入、精准的分析，以提供更相关、个性化的搜索结果。检索增强的目标是优化信息检索过程，使用户能够更快速、准确地获取所需信息，适用于各种应用场景，包括搜索引擎、文档管理系统和知识库检索等。

大语言模型:大语言模型指的是采用深度学习技术训练的规模庞大、参数众多的自然语言处理模型。这类模型通常基于神经网络架构，其中包括数十亿甚至数百亿的参数，使其能够学习并理解自然语言中的复杂结构和语义关系。大语言模型的训练通常依赖于大规模的文本语料库，以提高模型对语言的理解和生成能力。近年来，代表性的大语言模型如GPT(Generative Pre-trained Transformer)系列已经在各种自然语言处理任务中取得显著的成果，包括文本生成、机器翻译、问答系统等。这些模型的出现推动了自然语言处理领域的发展，并在实际应用中展现了强大的语言理解和生成能力。

行业知识库:行业知识库是指在人工智能领域中构建的、涵盖特定行业领域知识的数据仓库或知识图谱。这一概念涉及整合和组织大量关于特定行业的结构化和非结构化信息，包括但不限于技术标准、行业趋势、市场数据、专业术语以及相关实体之间的关系。通过利用自然语言处理、机器学习和知识图谱等技术，行业知识库有助于实现对大规模数据的智能搜索、理解和分析，从而为特定行业领域的决策支持、创新研发和信息发现提供有力的工具和资源。在实际应用中，行业知识库能够为企业、研究机构和相关领域的专业人士提供深度的行业洞察和知识服务。

运营知识库:运营知识库是指在业务运营过程中构建和维护的知识库，旨在集成和管理组织内关于运营活动的信息和最佳实践。这一概念包括整合各种数据源，如流程文档、操作手册、标准操作程序以及运营数据等，以建立一个全面的知识体系。通过采用人工智能技术，运营知识库可以实现对大量信息的智能化管理、搜索和推荐，为运营团队提供实时、准确的参考资源。这有助于提高运营效率、降低错误率，并为决策制定提供有力支持，从而在业务运营中实现更加智能化和优化的管理。在实际应用中，运营知识库为组织提供了一个有序、可访问的知识体系，有助于团队成员更好地理解和执行运营任务。

下面结合附图对本发明做进一步的详细描述：

本发明提供一种基于多级知识检索增强的大语言模型推理方法，包括以下步骤：

获取问题语句；

获取运营知识库；所述运营知识库包含若干问答知识对；

将问题语句与运营知识库中的问答知识对进行比对；

将行业信息输入大模型中，得到输出答案。

通过bge算法，对问题语句进行向量化，得到第一向量Vector1；

计算第一向量Vector1和第二向量Vector2之间的相关程度；

计算第一向量Vector1和高相关度片段向量之间的相关程度；

优选地，还包括以下步骤：

根据用户意图，判断问题语句是否符合场景；

若问题语句不符合场景，则进行引导。

优选地，所述意图理解模块为bert模型。

第一获取模块，用于获取问题语句；

本发明整套架构称之为多级检索增强的生成式回答(mRAG Answer，multi-Retrieval Augmented Generation Answer)。

本发明通过增加运营知识库，给大模型增加行业知识，知识粒度是句子级别，主要是FAQ形式。可以很好的缓解当前大模型出现“幻觉”问题。

本发明通过增加行业知识库，主要是客户私有的行业文库，知识粒度是段落级别，主要是文本形式。可以很好的缓解当前大模型出现“幻觉”问题。

本发明bge算法对文本进行向量化，然后通过多路召回的方式进行召回。然后对召回之后的结果进行精排序。

为了更好的说明本发明的技术效果，本发明提供如下具体实施例说明上述技术流程：

实施例1、一种基于多级知识检索增强的大语言模型推理系统，包含了四大模块：意图理解与扩展模块，运营知识库召回模块，行业知识库召回和大模型作答模块和纯大模型回答模块。具体模块说明如图1所示，包括以下步骤：

意图理解与扩展模块：该模块利用bert模型，结合历史语料训练一个意图理解模块。当用户输入一段话时，意图识别模型会优先识别出用户的意图，确认是否符合场景。如果符合则进行下一步，如果不符合，则进行友好引导；

运营知识库召回模块：运营知识库是指在业务运营过程中构建和维护的知识库，目的主要是集成和管理企业内关于业务相关的问答知识对，也被称为FAQ库。这部分问答对是企业所特有的，质量非常高，但数据量较少，不够大模型进行微调训练。因此，当用户询问一段话时，会将这段话与运营知识库中的问题进行召回，如果相关程度比较高的话，就将问题对应的答案返回给用户。

首先，为了保证召回的准确率，该模块会利用bge算法对FAQ库里面的所有问题进行向量化，并且存储在向量数据库中。

其次，当用户询问一段话query时，会利用bge算法将这段话转化成第一向量Vector1与向量数据库中的向量进行匹配，只返回top1的第二向量Vector2。向量Vector2与问题Q是一个一一映射关系，返回第二向量Vector2之后，通过映射关系就可以得到问题Q。同时，计算向量Vector1与向量Vector2之间的余弦相似度，也就是两者的相关程度。如果相关度超过了事先定义阈值，就将问题Q对应的答案A返回给用户。否则，就用户询问的query给到下一个模块。

行业知识库召回和大模型作答模块：行业知识库是指在企业中构建的、涵盖特定行业领域知识的数据仓库或知识图谱，存在形式主要是文本格式。该模块分为，文档分割，片段向量化，离线建向量库。

首先，纯文档经过切分逻辑进行分割，文档Doc得到多个片段trunk。其中，切分逻辑可以是固定文本长度，也可以是切分多个句子。具体切分逻辑结合实际场景进行选择。

其次，该模块会利用bge算法对多个片段trunk进行向量化，并且存储在向量数据库中。

然后，用户询问query，会经过bge算法将这段话转化成第三向量Vector3(其即为第一向量Vector1)。第三向量Vector3会去向量数据库中进行召回Top k个与之相关度较高的片段trunk1、trunk2、trunkk。将Top k个片段作为大模型的背景知识放入到提示指令prompt中，大模型将提示指令prompt作为输入进行知识回答。计算第三向量Vector3和高相关度片段向量之间的余弦相似度，如果召回Top k个片段trunk的相关度比较低，那说明召回的数据都是噪音，不能放入到提示指令prompt中。

纯大模型回答模块：该模块中的大模型已经是经过行业数据进行微调过。行业知识库召回片段trunk的相关度都比较低时，则直接将用户询问的query直接放入到prompt中，给到大模型进行回答。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、模组或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元、模组或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于多级知识检索增强的大语言模型推理方法，其特征在于，包括以下步骤：

获取问题语句；

获取运营知识库；所述运营知识库包含若干问答知识对；

将问题语句与运营知识库中的问答知识对进行比对；

将行业信息输入大模型中，得到输出答案。

2.根据权利要求1所述的基于多级知识检索增强的大语言模型推理方法，其特征在于，将问题语句与运营知识库中的问答知识对进行比对，具体包括以下步骤：

通过bge算法，对问题语句进行向量化，得到第一向量Vector1；

计算第一向量Vector1和第二向量Vector2之间的相关程度；

3.根据权利要求2所述的基于多级知识检索增强的大语言模型推理方法，其特征在于：

所述第一向量Vector1和第二向量Vector2之间的相关程度为：第一向量Vector1和第二向量Vector2之间的余弦相似度。

4.根据权利要求3所述的基于多级知识检索增强的大语言模型推理方法，其特征在于，问题语句与行业知识库中的文本格式数据进行比对，得到行业信息，具体包括以下步骤：

计算第一向量Vector1和高相关度片段向量之间的相关程度；

5.根据权利要求4所述的基于多级知识检索增强的大语言模型推理方法，其特征在于：

所述第一向量Vector1和高相关度片段向量之间的相关程度为：第一向量Vector1和高相关度片段向量之间的余弦相似度。

6.根据权利要求5所述的基于多级知识检索增强的大语言模型推理方法，其特征在于：

所述文本格式数据的分割方式为固定文本长度或切分句子。

7.根据权利要求1所述的基于多级知识检索增强的大语言模型推理方法，其特征在于，还包括以下步骤：

根据用户意图，判断问题语句是否符合场景；

若问题语句不符合场景，则进行引导。

8.根据权利要求1所述的基于多级知识检索增强的大语言模型推理方法，其特征在于：

所述意图理解模块为bert模型。

9.一种基于多级知识检索增强的大语言模型推理系统，用于实现如权利要求1-8任一所述的基于多级知识检索增强的大语言模型推理方法，其特征在于，包括：

第一获取模块，用于获取问题语句；