CN117688163A

CN117688163A - 基于指令微调和检索增强生成的在线智能问答方法及装置

Info

Publication number: CN117688163A
Application number: CN202410118530.XA
Authority: CN
Inventors: 刘纪稳; 王永想
Original assignee: Hangzhou Youzan Technology Co ltd
Current assignee: Hangzhou Youzan Technology Co ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-03-12
Anticipated expiration: 2044-01-29
Also published as: CN117688163B

Abstract

本发明公开了基于指令微调和检索增强生成的在线智能问答方法及装置，包括：获取用户在线提问信息，基于大语言模型对用户在线提问信息进行提炼，对经提炼的提问进行相似提问扩充；基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量；基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较得到相似数据后，基于相似数据和TopK策略从对应的缓存区域中召回与相似数据对应的多个目标文本块；基于重排序策略对召回文本块进行重排序，得到重排序文本块；基于大语言模型和提示词，对用户在线提问、召回文本块及重排序文本块进行润色归纳，得到在线回答结果。提升了智能问答准确率。

Description

基于指令微调和检索增强生成的在线智能问答方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及基于指令微调和检索增强生成的在线智能问答方法及装置。

背景技术

近几年来，随着人工智能的快速发展，在线智能问答在越来越多的电商企业中普及应用。客户在购买产品之前，会提出大量关于产品功能的问题咨询，因此，为了解决客户的海量咨询，需要将企业内部知识库，通过智能问答的形式反馈给客户，来精准回答客户提出的问题。

目前对于企业知识在线智能问答的现有技术，主要包括以下几种，第一种是基于规则模版的在线问答配置，通过配置人工编写的规则模版来回答用户问题。第二种是基于关键词的文本匹配问答，将客户提出的问题中全部或部分文本内容作为关键词，在企业知识库的文档知识内容中进行检索，获取包含这些关键词的内容返回给客户。第三种是基于语义相似的文档向量召回问答，对客户问题和知识库文档标题进行文本向量化处理，然后利用Query-Query语音相近算法计算向量间的相似度，得到相似度最高向量对应的文档内容返回给客户。第四种是基于大语言模型的知识微调训练智能问答，将企业知识作为语料来训练对应垂直领域的大语言模型，然后以通用大模型作为模型基础进行微调，让大语言模型围绕企业垂直业务的问题进行问答。

然而，上述方案虽然皆可用于企业知识智能问答，但是在实际应用中都存在不同程度的缺陷。对于第一种方案，需要人工设定编写大量的规则模版，面对复杂多样的用户提问和上下文理解，有着明显的局限性，并且人工成本较高。对于第二种方案，如果关键词不在知识库但语义相关，这种情况下就无法检索到用户问题对应的回答，同时采用关键词也很难准确完整的描述用户提问，这就会导致返回的回答也不够准确。对于第三种方案，将客户问题转为向量，这种方案虽然能有效理解文本语义，但通过相似向量计算匹配文档标题并不能精准定位和提取有效答案，会导致返回结果不够准确；同时客户提问一般是多轮对话场景，第三种方法会忽略多轮对话的上下文语境，导致回答的内容缺少润色归纳，使得交互体验效果较差。对于第四种方案，虽然可以内化企业领域内的垂直知识，但依然会产生大语言模型的“幻觉”问题，即生成与用户输入不符、与先前生成的内容矛盾或与已知世界知识不符的内容，从而导致回答不严谨产生事实性错误等问题；同时第四种方法微调训练大语言模型的成本较高，训练周期也较长，无法及时更新企业新增知识。

因此，针对现有技术中存在的无法保证企业知识在线问答准确性的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于指令微调和检索增强生成的在线智能问答方法及装置，旨在解决现有技术方法中所存在的无法保证企业知识在线问答准确性的问题。

第一方面，本发明实施例提供了一种基于指令微调和检索增强生成的在线智能问答方法，所述方法包括：

获取用户在线提问信息，基于大规模语言模型对所述用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于所述大规模语言模型对所述经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，所述用户在线提问信息包括用户在线提问、与所述用户在线提问相关的上下文语境信息；

基于已训练的语义向量模型对所述用户在线提问和所述扩充的相似提问进行向量化处理，得到在线提问文本向量；

基于两路检索召回策略将所述在线提问文本向量与预设知识库内的数据进行检索比较，从所述预设知识库中得到与所述在线提问文本向量相似的相似数据，并基于所述相似数据和TopK策略从对应的缓存区域中映射召回与所述相似数据对应的多个目标文本块；

基于交叉编码器对所述用户在线提问和召回的多个目标文本块分别进行相关性计算，得到所述用户在线提问与各目标文本块之间的相关性分数，并基于所述用户在线提问与各目标文本块之间的相关性分数对所述召回的多个目标文本块进行重排序，得到重排序文本块；

基于所述大规模语言模型和预设的提示词，对所述用户在线提问、所述召回的多个目标文本块及所述重排序文本块进行文字润色处理和词汇归纳处理，得到与所述用户在线提问相对应的在线回答结果。

第二方面，本发明实施例提供了一种基于指令微调和检索增强生成的在线智能问答装置，其包括：

获取模块，用于获取用户在线提问信息，基于大规模语言模型对所述用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于所述大规模语言模型对所述经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，所述用户在线提问信息包括用户在线提问、与所述用户在线提问相关的上下文语境信息；

向量化模块，用于基于已训练的语义向量模型对所述用户在线提问和所述扩充的相似提问进行向量化处理，得到在线提问文本向量；

召回模块，用于基于两路检索召回策略将所述在线提问文本向量与预设知识库内的数据进行检索比较，从所述预设知识库中得到与所述在线提问文本向量相似的相似数据，并基于所述相似数据和TopK策略从对应的缓存区域中映射召回与所述相似数据对应的多个目标文本块；

重排序模块，用于基于交叉编码器对所述用户在线提问和召回的多个目标文本块分别进行相关性计算，得到所述用户在线提问与各目标文本块之间的相关性分数，并基于所述用户在线提问与各目标文本块之间的相关性分数对所述召回的多个目标文本块进行重排序，得到重排序文本块；

润色归纳模块，用于基于所述大规模语言模型和预设的提示词，对所述用户在线提问、所述召回的多个目标文本块及所述重排序文本块进行文字润色处理和词汇归纳处理，得到与所述用户在线提问相对应的在线回答结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的方法。

本发明实施例提供了一种基于指令微调和检索增强生成的在线智能问答方法及装置。获取用户在线提问信息，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息；基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量；基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，并基于相似数据和TopK策略从对应的缓存区域中映射召回与相似数据对应的多个目标文本块；基于交叉编码器对用户在线提问和召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数，并基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块；基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，得到与用户在线提问相对应的在线回答结果。

上述方法设计了一种检索增强生成框架，即基于大规模语言模型对用户在线提问进行提炼和相似提问扩充，然后基于训练好的语义向量模型对获取的提问进行向量化，得到向量文本，并对向量文本进行相似检索和文本关键词两路召回后，通过TopK重排序模型策略对召回的与问题最相关的TopK文本块重排序，基于大规模语言模型和预设的提示词对TopK文本块和用户问题进行润色归纳和推理总结，得到与用户提问相对应的最优在线回答，避免了大语言模型的幻觉问题和无法实时扩展企业知识的问题，实现了准确定位客户问题、严谨回答企业知识、及时感知企业知识更新变化的目的，显著提升了企业垂直领域知识的智能问答效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于指令微调和检索增强生成的在线智能问答方法的流程示意图；

图2为本发明实施例提供的基于指令微调和检索增强生成的在线智能问答方法的另一流程示意图；

图3为本发明实施例提供的基于指令微调和检索增强生成的在线智能问答装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本实施例提供了一种基于指令微调和检索增强生成的在线智能问答方法，图1为本发明实施例提供的基于指令微调和检索增强生成的在线智能问答方法的流程示意图，如图1所示，该方法包括步骤S110~S150。

S110、获取用户在线提问信息，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息。

本实施例中，从客户端获取用户在线提问信息，其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息。

然后，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问。具体的，如果大规模语言模型未能通过用户在线提问理解用户意图，那么模型会通过用户上下文对话语境补充缺失信息，避免语义缺失。

接着基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问。

需要说明的是，大语言模型可选择如qwen-plus、ERNIE-Bot-turbo等闭源大语言模型，也可使用qwen-14b-chat、baichuan2-13b-chat、chatglm3-6b等开源大语言模型，本实施例中不做具体限定。

本实施例充分挖掘上下文语境，并通过大规模语言模型引导客户多轮对话明确客户意图，生成相近问题，使得智能问答具备历史记忆和精准定位客户意图的能力，有利于后续的问答准确度。

S120、基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量。

本实施例中，基于已训练的语义向量模型对用户在线提问和基于大语言模型扩充的相似提问进行向量化处理，得到在线提问文本向量。

优选的，如图2所示，在S120的步骤之前，还包括步骤S121-S124。

S121、获取用户提问和语料数据，其中，语料数据包括与用户提问相关的正样本文本信息，以及与用户提问不相关的负样本文本信息。

优选的，在获取用户提问和语料数据的步骤之前，子步骤还包括：

S1、获取原始语料数据；其中，原始语料数据包括知识问答对、案例知识文档、人工客服语音对话等来自各个业务单元的非结构化知识语料。

S2、基于文本转化策略对原始语料数据进行文本数据转化，得到对应的文本语料。

具体的，基于pyannote-audio工具对人工客服语音进行声纹识别，判断区分发言人的角色，然后基于Whisper框架将对应的语音数据进行相应的文本化转换，得到文本数据。对于采用PDF或EXCEL文件格式的知识问答对、案例知识文档，可通过文件转换策略将其转换成TXT文本格式，得到文本语料。

S3、基于文本块切分策略对文本语料进行文本块切分，得到若干个文本块，并基于不同的任务场景判定若干个文本块中需要设置标记的文本块。

具体的，对S1中处理后的文本语料进行文本块切分，用每个文本块表示一个可查询的上下文片段。本实施例中文本块切分策略是按512tokens一个文本块对文本语料进行切分，得到若干个文本块。其中，对于不足512tokens的文本语料不做切分，只切分超过512tokens的文本语料。此外，相邻的文本块之间重叠指定数量的tokens，如30tokens。通过重叠可保留上下文语境，有利于提高语义检索准确性。

然后，基于不同的任务场景判定若干个文本块中需要设置标记的文本块，以对需要设置标记的文本块进行标记。

S4、基于大规模语言模型和预设提示词对设置标记的文本块进行文本增强，生成得到与设置标记的文本块相似的文本数据。以增强知识语料，提高语义表征的泛化能力。

S5、以切分得到的若干个文本块和与设置标记的文本块相似的文本数据为语料数据，构建用以训练语义向量模型的基础语料数据库。

在一实施例中，在基于文本转化策略对原始语料数据进行文本数据转化，得到对应的文本语料的步骤之后，以及在基于文本块切分策略对文本语料进行文本块切分的步骤之前，基于筛选策略对文本语料进行过滤预处理，将文本语料中的敏感词、标签字符、数字、英文和富文本数据进行过滤剔除，并对高低重叠的文档数据进行模糊去重处理，得到预处理后的文本语料。

具体的，对于标签字符，采用正则算法对数据进行清洗替换，包括：清理特殊标志位字符、清理非可见字符、清理标签、繁简转换等；对于高度重叠文档，采用SimHash或MinHash算法计算文档间的近似相似度，并通过人工筛查删除高度重叠的文档。

经过上述处理后，最后得到用以训练语义向量模型的基础语料数据库，从该基础语料数据库中获取用户提问和语料数据，其中，语料数据包括与用户提问相关的正样本文本信息，以及与用户提问不相关的负样本文本信息。

在一实施例中，对于语料数据中的与用户提问相关的正样本文本信息，可从业务单元文档知识库中现有的大量知识问答对中获取，因此，其不需要采样。

对于语料数据中的与用户提问不相关的负样本文本信息的获取，包括：

（1）随机预定义采样，即从三元组结构的训练语料中随机采样获取不同任务场景下的一个或多个正样本文本信息作为当前任务场景下的第一负样本文本信息。

（2）批处理内负采样，即在当前任务场景下，对语义向量模型进行训练批处理内除用户提问和正样本文本信息之外的语料数据进行负样本采样，得到第二负样本文本信息。相比于随机预定义采样，批处理内随机采样可使得每轮模型训练时同一正例对应不同的负例，并且可以设置较大的负例个数，能更简单高效地利用数据。

（3）困难负样例采样，即将基于第一负样本文本信息和第二负样本文本信息对语义向量模型进行训练预测后理解错误的文本信息作为第三负样本文本信息，同时进行批处理内负采样，通过第三负样本文本信息可有效增强语义向量的判别能力。

最后，以上述三个途径分别获取的第一负样本文本信息、第二负样本文本信息和第三负样本文本信息作为语料数据中的与用户提问不相关的负样本文本信息。

S122、以用户提问、正样本文本信息和负样本文本信息为三元组构建语义向量模型的训练语料。

具体的，对用户提问、正样本文本信息和负样本文本信息采用句子三元组的监督学习结构，即(query, positive, negative)，构建得到语义向量模型的训练语料。

S123、基于与用户提问相关的场景，在用户提问中设置相应的任务指令。

本实施例中基于与用户提问相关的场景，在用户提问中设置相应的任务指令。例如，对于短Query长Doc的非对称语义任务，在用户提问编码中设置相应的任务指令，如“为这个句子生成表示以用于检索相关文章：商城电商版有几个版本？”。其中，用户查询Query为：“商城电商版有几个版本？”；引入的指令语句为：“为这个句子生成表示以用于检索相关文章：”。需要说明的是，短Query长Doc的非对称语义任务是指用户查询较短的Query和知识文档较长的答案内容Doc的非对称语义任务。

本实施例中引入指令编码，既能处理检索query长度相近的对称语义任务，也能兼容短query长doc的非对称语义任务，从而提供了可用于许多下游语言任务的表示，而无需任何额外的训练，使模型生成适合下游任务的句向量，提升了语义向量在多任务场景下的通用性，进一步提升了泛化能力。

S124、基于任务指令和训练语料对语义向量模型进行指令微调训练，得到已训练的语义向量模型。

具体的，假设x为客户提问，即query；y为与客户提问相关或不相关的文本信息，即正样例文本positive和负样例文本negative；训练样本对应元组为（x，I_x，y，I_y），其中，I_x和I_y分别是与x和y相关的任务指令。基于任务指令和训练语料对语义向量模型进行指令微调训练，其中，指令向量相似度计算如下式（1）所示：

其中，E_I（I_x，x）是对x的最后一个隐藏表征进行均值池化，生成的固定大小和特定任务的嵌入。

此外，基于指令向量相似度s（x，y），对正样本对和负样本对进行相似度处理，具体的，最大化正样本对（x，y⁺）之间的相似度，即设定s（x，y⁺）为1，最小化负样本对之间的相似度，即设定/>为-1。

通过上述指令微调训练使得损失函数值达到最小，得到已训练的语义向量模型。其中，损失函数计算如下式（2）所示：

其中，是softmax函数的温度，（x，y⁺）为正样本对，k表示每个正样本对的负样本对数量，β是正样本对（x，y⁺）和负样本对/>的并集。是正样本对和负样本对的并集。

在一实施例中，在得到已训练的语义向量模型的步骤之后，基于已训练的语义向量模型对基础语料数据库中的每个文本块进行向量转化，得到基本语料文本向量；将基本语料文本向量存储于预设知识库中，以用于后续与在线提问文本向量进行检索对比。通过本步骤可自动将企业新知识向量化后实时入库更新，及时感知企业知识的新增变化，以便在线服务实时调用。

本实施例在语义向量模型的训练中引入了指令微调和多阶段难负样例采样策略，使得训练后的语义向量模型比现有向量模型的准确率平均提升了45.65%，大幅增强了在企业垂直领域的相似语义判别能力和知识理解准确度。

S130、基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，并基于相似数据和TopK策略从对应的缓存区域中映射召回与相似数据对应的多个目标文本块。其中，预设知识库包括Milvus向量库和ES库。

优选的，本实施例中，基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，包括：

第一路是基于向量索引检索策略，计算在线提问文本向量与Milvus向量库中文本向量间的各内积相似度，基于内积相似度得到相似文本向量判定结果；若相似文本向量判定结果为相似，则从Milvus向量库中获取与在线提问文本向量相似的相似文本向量；

第二路是基于文本关键词检索策略，计算在线提问文本向量与ES库中文本数据间的各文本相似度，基于文本相似度得到相似文本判定结果；若相似文本判定结果为相似，则从ES库中获取与在线提问文本向量相似的相似文本。

通过上述两路检索召回策略得到与在线提问文本向量相似的相似文本向量和相似文本后，基于相似文本向量、相似文本和TopK策略从对应的缓存区域中映射召回与相似文本向量、相似文本最相关的多个目标文本块。

本实施采用向量召回和文本召回的两路召回方式，有效保证了客户完整问题描述和关键词输入的召回准确性。

S140、基于交叉编码器对用户在线提问和召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数，并基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块。

本实施例基于交叉编码器对用户在线提问和两路召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数。基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块。优选的，在进行重排序时，基于实际情况考虑，在基于相关性分数的情况下，还可以引入知识文档的搜索点击量、近期喜欢量、浏览量等因素对文本块进行重排序调整。

本实施例中通过重排序策略，对多路召回的目标知识文本块做重新排序，进一步提升了TopK文本块的语义相关性和知识准确率。

S150、基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，得到与用户在线提问相对应的在线回答结果。

本实施例基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，大幅减少大规模语言模型的“幻觉”现象，确保回答内容可控，输出严谨的与用户在线提问相对应的在线回答结果给用户。如果检索的上下文中没有可用数据，则回答未找到相关答案。

本实施例使用大规模语言模型进行归纳润色处理，确保大规模语言模型回答内容的严谨性和语义完整性。

在本发明实施例所提供的基于指令微调和检索增强生成的在线智能问答方法中，获取用户在线提问信息，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息；基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量；基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，并基于相似数据和TopK策略从对应的缓存区域中映射召回与相似数据对应的多个目标文本块；基于交叉编码器对用户在线提问和召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数，并基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块；基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，得到与用户在线提问相对应的在线回答结果。上述方法设计了一种检索增强生成框架，即基于大规模语言模型对用户在线提问进行提炼和相似提问扩充，然后基于训练好的语义向量模型对获取的提问进行向量化，得到向量文本，并对向量文本进行相似检索和文本关键词两路召回后，通过TopK重排序模型策略对召回的与问题最相关的TopK文本块重排序，基于大规模语言模型和预设的提示词对TopK文本块和用户问题进行润色归纳和推理总结，得到与用户提问相对应的最优在线回答，避免了大语言模型的幻觉问题和无法实时扩展企业知识的问题，实现了准确定位客户问题、严谨回答企业知识、及时感知企业知识更新变化的目的，显著提升了垂直领域企业知识的智能问答效果。

本发明实施例还提供一种基于指令微调和检索增强生成的在线智能问答装置，图3为本发明实施例提供的基于指令微调和检索增强生成的在线智能问答装置的示意性框图，如图3所示，该装置包括获取模块310、向量化模块320、召回模块330、重排序模块340和润色归纳模块350。

获取模块310，用于获取用户在线提问信息，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息。

向量化模块320，用于基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量。

优选的，在基于已训练的语义向量模型对用户在线提问和基于大语言模型扩充的相似提问进行向量化处理，得到在线提问文本向量之前，还包括如下：

获取用户提问和语料数据，其中，语料数据包括与用户提问相关的正样本文本信息，以及与用户提问不相关的负样本文本信息。

优选的，在获取用户提问和语料数据之前，还包括：

获取原始语料数据；其中，原始语料数据包括知识问答对、案例知识文档、人工客服语音对话等来自各个业务单元的非结构化知识语料。

基于文本转化策略对原始语料数据进行文本数据转化，得到对应的文本语料。

基于文本块切分策略对文本语料进行文本块切分，得到若干个文本块，并基于不同的任务场景判定若干个文本块中需要设置标记的文本块。

基于大规模语言模型和预设提示词对设置标记的文本块进行文本增强，生成得到与设置标记的文本块相似的文本数据。以增强知识语料，提高语义表征的泛化能力。

以切分得到的若干个文本块和与设置标记的文本块相似的文本数据为语料数据，构建用以训练语义向量模型的基础语料数据库。

以用户提问、正样本文本信息和负样本文本信息为三元组构建语义向量模型的训练语料。

基于与用户提问相关的场景，在用户提问中设置相应的任务指令。

基于任务指令和训练语料对语义向量模型进行指令微调训练，得到已训练的语义向量模型。

具体的，假设x为客户提问，即query；y为与客户提问相关或不相关的文本信息，即正样例文本positive和负样例文本negative；训练样本对应元组为（x，I_x，y，I_y），其中，I_x和I_y分别是与x和y相关的任务指令，基于任务指令和训练语料对语义向量模型进行指令微调训练，其中，指令向量相似度计算如上式（1）所示。

通过上述指令微调训练使得损失函数值达到最小，得到已训练的语义向量模型。其中，损失函数计算如上式（2）所示。

召回模块330，用于基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，并基于相似数据和TopK策略从对应的缓存区域中映射召回与相似数据对应的多个目标文本块。其中，预设知识库包括Milvus向量库和ES库。

重排序模块340，用于基于交叉编码器对用户在线提问和召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数，并基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块。

润色归纳模块350，用于基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，得到与用户在线提问相对应的在线回答结果。

在本发明实施例所提供的基于指令微调和检索增强生成的在线智能问答装置应用于上述基于指令微调和检索增强生成的在线智能问答方法中，获取用户在线提问信息，基于大规模语言模型对用户在线提问信息进行理解和提炼处理，得到经提炼理解的用户在线提问，并基于大规模语言模型对经提炼理解的用户在线提问进行相似提问扩充，得到扩充的相似提问；其中，用户在线提问信息包括用户在线提问、与用户在线提问相关的上下文语境信息；基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理，得到在线提问文本向量；基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较，从预设知识库中得到与在线提问文本向量相似的相似数据，并基于相似数据和TopK策略从对应的缓存区域中映射召回与相似数据对应的多个目标文本块；基于交叉编码器对用户在线提问和召回的多个目标文本块分别进行相关性计算，得到用户在线提问与各目标文本块之间的相关性分数，并基于用户在线提问与各目标文本块之间的相关性分数对召回的多个目标文本块进行重排序，得到重排序文本块；基于大规模语言模型和预设的提示词，对用户在线提问、召回的多个目标文本块及重排序文本块进行文字润色处理和词汇归纳处理，得到与用户在线提问相对应的在线回答结果。上述方法设计了一种检索增强生成框架，即基于大规模语言模型对用户在线提问进行提炼和相似提问扩充，然后基于训练好的语义向量模型对获取的提问进行向量化，得到向量文本，并对向量文本进行相似检索和文本关键词两路召回后，通过TopK重排序模型策略对召回的与问题最相关的TopK文本块重排序，基于大规模语言模型和预设的提示词对TopK文本块和用户问题进行润色归纳和推理总结，得到与用户提问相对应的最优在线回答，避免了大语言模型的幻觉问题和无法实时扩展企业知识的问题，实现了准确定位客户问题、严谨回答企业知识、及时感知企业知识更新变化的目的，显著提升了垂直领域企业知识的智能问答效果。

上述基于指令微调和检索增强生成的在线智能问答方法可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于指令微调和检索增强生成的在线智能问答方法。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于指令微调和检索增强生成的在线智能问答方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于指令微调和检索增强生成的在线智能问答方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于指令微调和检索增强生成的在线智能问答方法中对应的功能。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于指令微调和检索增强生成的在线智能问答方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于指令微调和检索增强生成的在线智能问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于两路检索召回策略将所述在线提问文本向量与预设知识库内的数据进行检索比较，从所述预设知识库中得到与所述在线提问文本向量相似的相似数据，包括：

第一路是基于向量索引检索策略，计算所述在线提问文本向量与Milvus向量库中文本向量间的各内积相似度，基于所述内积相似度得到相似文本向量判定结果；

若所述相似文本向量判定结果为相似，则从所述Milvus向量库中获取与所述在线提问文本向量相似的相似文本向量；

第二路是基于文本关键词检索策略，计算所述在线提问文本向量与ES库中文本数据间的各文本相似度，基于所述文本相似度得到相似文本判定结果；

若所述相似文本判定结果为相似，则从所述ES库中获取与所述在线提问文本向量相似的相似文本。

3.根据权利要求1所述的方法，其特征在于，在所述基于已训练的语义向量模型对所述用户在线提问和所述扩充的相似提问进行向量化处理的步骤之前，所述方法包括：

获取用户提问和语料数据，其中，所述语料数据包括与所述用户提问相关的正样本文本信息，以及与所述用户提问不相关的负样本文本信息；

以所述用户提问、所述正样本文本信息和所述负样本文本信息为三元组构建语义向量模型的训练语料；

基于与所述用户提问相关的场景，在所述用户提问中设置相应的任务指令；

基于所述任务指令和所述训练语料对语义向量模型进行指令微调训练，得到所述已训练的语义向量模型。

4.根据权利要求3所述的方法，其特征在于，所述获取语料数据中的与所述用户提问不相关的负样本文本信息，包括：

从三元组训练语料中随机采样获取不同任务场景下的一个或多个正样本文本信息作为当前任务场景下的第一负样本文本信息；

在当前任务场景下，对所述语义向量模型进行训练批处理内除所述用户提问和正样本文本信息之外的语料数据进行负样本采样，得到第二负样本文本信息；

将基于所述第一负样本文本信息和所述第二负样本文本信息对所述语义向量模型进行训练预测后理解错误的文本信息作为第三负样本文本信息；

以所述第一负样本文本信息、所述第二负样本文本信息和所述第三负样本文本信息作为所述语料数据中的与所述用户提问不相关的负样本文本信息。

5.根据权利要求3所述的方法，其特征在于，在所述获取用户提问和语料数据的步骤之前，所述方法包括：

获取原始语料数据；其中，所述原始语料数据包括知识问答对、案例知识文档、人工客服语音对话：

基于文本转化策略对所述原始语料数据进行文本数据转化，得到对应的文本语料；

基于文本块切分策略对所述文本语料进行文本块切分，得到若干个文本块，并基于不同的任务场景判定所述若干个文本块中需要设置标记的文本块，以对所述需要设置标记的文本块进行标记；

基于所述大规模语言模型和预设提示词对设置标记的文本块进行文本增强，生成得到与所述设置标记的文本块相似的文本数据；

以切分得到的若干个文本块和与所述设置标记的文本块相似的文本数据为语料数据，构建用以训练所述语义向量模型的基础语料数据库。

6.根据权利要求5所述的方法，其特征在于，在所述基于文本转化策略对所述原始语料数据进行文本数据转化，得到对应的文本语料的步骤之后，以及在基于文本块切分策略对所述文本语料进行文本块切分的步骤之前，所述方法还包括：

基于筛选策略对所述文本语料进行清洗过滤预处理，将所述文本语料中的敏感词、标签字符、数字、英文和富文本数据进行过滤剔除，并对高低重叠的文档数据进行模糊去重处理，得到预处理后的文本语料。

7.根据权利要求3-6任一项所述的方法，其特征在于，在得到已训练的语义向量模型的步骤之后，所述方法包括：

基于已训练的语义向量模型对基础语料数据库中的每个文本块进行向量转化，得到基本语料文本向量；

将所述基本语料文本向量存储于预设知识库中，以用于与在线提问文本向量进行检索对比。

8.一种基于指令微调和检索增强生成的在线智能问答装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。