CN117312372A

CN117312372A - 基于背景知识增强的sql生成方法、装置、设备及介质

Info

Publication number: CN117312372A
Application number: CN202311267512.XA
Authority: CN
Inventors: 范豪钧; 罗中岩; 黄珈菘; 夏正勋
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-29
Anticipated expiration: 2043-09-27
Also published as: CN117312372B

Abstract

本发明公开了一种基于背景知识增强的SQL生成方法、装置、设备及介质。该方法包括：获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本；根据初始背景知识和待回答问题生成第一提示信息；将第一提示信息输入背景知识提取大语言模型，获得目标背景知识；根据目标背景知识和待回答问题生成第二提示信息；第二提示信息输入语句生成大语言模型，获得SQL语句，能够对语句生成大语言模型进行精确的背景知识增强，降低了无关知识出现的可能性，同时帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，从而提高了NL2SQL大语言模型的任务解决准确率，并且流程简单易实现。

Description

基于背景知识增强的SQL生成方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于背景知识增强的SQL生成方法、装置、设备及介质。

背景技术

NL2SQL是一种将自然语言文本转换为结构化查询语言(Structured QueryLanguage，SQL)的技术，旨在使普通用户能够使用自然语言来查询数据库。随着人工智能和自然语言处理技术的不断发展，NL2SQL技术也得到快速发展。

为了提高NL2SQL大语言模型能力，使大模型技术在专业领域的应用效果得到有效提升，需要对NL2SQL大语言模型进行背景知识增强。目前，常用的背景知识增强方法主要有：(1)将知识图谱与模型结合，可以帮助模型更好地理解查询中的实体和它们之间的关系，但是知识图谱的实现门槛较高，流程复杂；(2)采用BERT、GPT等预训练模型在大量的文本数据上进行预训练。预训练模型通常需要大量计算资源，同时具有不透明性，其决策过程难以解释。(3)数据库的模式(如表名、列名等)是理解SQL查询的关键。通过将模式信息嵌入到模型中，帮助模型更好地理解和生成SQL查询。但是此方法较为复杂，需要为每个数据库设计特定的模式嵌入。

发明内容

本发明提供了一种基于背景知识增强的SQL生成方法、装置、设备及介质，以解决现有的对NL2SQL大语言模型进行背景知识增强的方法较为复杂，不易实现的问题。

根据本发明的一方面，提供了一种基于背景知识增强的SQL生成方法，包括：

获取待回答问题，并从背景知识库中匹配所述待回答问题对应的初始背景知识；所述待回答问题为自然语言文本；

根据所述初始背景知识和所述待回答问题生成第一提示信息；

将所述第一提示信息输入背景知识提取大语言模型，获得目标背景知识；

根据所述目标背景知识和所述待回答问题生成第二提示信息；

将所述第二提示信息输入语句生成大语言模型，获得SQL语句。

根据本发明的另一方面，提供了一种基于背景知识增强的SQL生成装置，包括：

知识匹配模块，用于获取待回答问题，并从背景知识库中匹配所述待回答问题对应的初始背景知识；所述待回答问题为自然语言文本；

第一提示生成模块，用于根据所述初始背景知识和所述待回答问题生成第一提示信息；

知识提取模块，用于将所述第一提示信息输入背景知识提取大语言模型，获得目标背景知识；

第二提示生成模块，用于根据所述目标背景知识和所述待回答问题生成第二提示信息；

语句生成模块，用于将所述第二提示信息输入语句生成大语言模型，获得SQL语句。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的基于背景知识增强的SQL生成方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于背景知识增强的SQL生成方法。

本发明实施例的技术方案，通过获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本；根据初始背景知识和待回答问题生成第一提示信息；将第一提示信息输入背景知识提取大语言模型，获得目标背景知识；引入背景知识提取大语言模型从背景知识库中的背景知识中精确匹配解决待回答问题需要使用的目标背景知识，降低了无关知识出现的可能性，从而提高了NL2SQL大语言模型的任务解决准确率。同时，根据目标背景知识和待回答问题生成第二提示信息；第二提示信息输入语句生成大语言模型，获得SQL语句，将目标背景知识写入第二提示信息中对语句生成大语言模型进行背景知识增强，从而帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，并且方法简单易实现，解决了现有的对NL2SQL大语言模型进行背景知识增强的方法较为复杂，不易实现的问题。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于背景知识增强的SQL生成方法的流程图；

图2是本发明实施例中的一种生成第二提示信息的方法的流程图；

图3是本发明实施例中的另一种生成第二提示信息的方法的流程图；

图4是本发明实施例提供的一种基于背景知识增强的SQL生成方法的流程图；

图5是本发明实施例提供的一种基于背景知识增强的SQL生成装置的结构示意图；

图6是实现本发明实施例的基于背景知识增强的SQL生成方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的一种基于背景知识增强的SQL生成方法的流程图，本实施例可适用于对将自然语言文本转换为结构化查询语言SQL的NL2SQL大语言模型进行背景知识增强情况，该方法可以由基于背景知识增强的SQL生成装置来执行，该基于背景知识增强的SQL生成装置可以采用硬件和/或软件的形式实现，该基于背景知识增强的SQL生成装置可配置于电子设备中。如图1所示，该方法包括：

S110、获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本。

其中，待回答问题是指等待回答问题，在本发明实施例中待回答问题可以是自然语言文本，并且通过本发明实施例提供的基于背景知识增强的SQL生成方法转化为结构化查询语言SQL，从而基于SQL语句查询问题的答案。

背景知识库是用于存储背景知识的数据库。在本发明实施例中，需要与预先基于背景知识创建背景知识库。可选的，背景知识库中存储的背景知识可以包括：表间知识、行业知识和经验知识。表间知识可以包括图式类语义信息、约定俗成类知识、字段名或值的等价表示。行业知识可以包括行业术语、行业规定(如行业标准或行业准则等)、专业知识等。经验知识可以包括：自定义逻辑(如表和字段的定义逻辑以及SQL编写逻辑等)、数据库的设计及使用指南、SQL开发指南和最佳实践方式等。可选的，所述背景知识库中存储的背景知识为元知识。元知识为“关于信息和知识的知识”，包括知识学习、利用、创造、存储、分享、评估等内容，可以起到减少搜索知识时间、确定知识使用的优先级、知识分类、知识项的宏观描述、控制知识的激发和运行等作用。

初始背景知识是与待回答问题匹配的背景知识。需要说明的是，在本实施例中，初始背景知识可以理解为与待回答问题模糊匹配(或者粗匹配)的背景知识，也即初始背景知识可能存在与待回答问题相关性不强的冗余背景知识。

在本实施例中，获取自然语言格式的待回答问题，将待回答问题输入预先创建的背景知识库中，查询背景知识库中与待回答问题粗匹配的背景知识作待回答问题的初始背景知识。

在本发明实施例的一个可选实施例中，所述背景知识库为向量数据库；所述从背景知识库中匹配所述待回答问题对应的初始背景知识，包括：

基于向量化模型对所述待回答问题进行文本向量化得到问题向量；

根据问题向量查询所述背景知识库，获得与所述问题向量匹配的初始背景知识。

其中，背景知识库是向量数据库，也可以理解为背景知识库中存储的背景知识为向量数据。因此，待回答问题也需要转化为向量数据。问题向量可以理解为待回答问题的向量化格式数据。

在本实施例中，向量化模型可以采用Embedding词向量模型。根据问题向量查询所述背景知识库，获得与所述问题向量匹配的初始背景知识的方式可以是采用模糊匹配算法查询与所述问题向量匹配的初始背景知识；或者可以是计算问题向量和背景知识库中的各背景知识之间的相似度，将相似度大于预设阈值的背景知识确定为待回答问题对应的初始背景知识。

S120、根据初始背景知识和待回答问题生成第一提示信息。

其中，第一提示信息可以理解为输入到背景知识提取大语言模型中的指令，用于指示背景知识提取大语言模型从初始背景知识中提取解决待回答问题需要使用到的背景知识。在自然语言处理领域，提示信息prompt是指系统向大型语言模型提供的输入文本或问题，用于引导模型生成相应的回答或输出。Prompt通常是一个问题、一段描述或一个完整的句子，可以由系统生成的。通过提供一个明确的prompt，可以引导模型在生成文本时遵循特定的语义和语境要求，从而更好地满足用户的需求。Prompt可以帮助模型理解任务的目标、上下文和约束，并在生成文本时保持一致性和可解释性。

在本实施例中，第一提示信息可以根据背景知识提取大语言模型在训练阶段所使用的提示信息所确定。第一提示信息包括待回答问题和初始背景知识。

S130、将第一提示信息输入背景知识提取大语言模型，获得目标背景知识。

其中，目标背景知识是指解决待回答问题所需要的背景知识。在本实施例中，目标背景知识相对于初始背景知识可以理解为与待回答问题精确匹配的背景知识。

背景知识提取大语言模型是用于从初始背景知识中提取目标背景知识的大语言模型。大型语言模型(Large Language Model，LLM)是一种基于神经网络的自然语言处理模型，旨在学习大规模文本数据的语言特征和概率分布。这些模型通过在大型语料库上进行预训练，学习到了丰富的语言知识，然后可以用于生成文本、完成文本任务或作为其他下游任务的基础模型。

在本实施例的一个可选实施例中，获得背景知识提取大语言模型的方式可以是：假设背景知识提取大语言模型为Query2bgKG LLM(全称为Query to BackgroundKnowledge Large Language Model)。获取训练集；训练集中的训练语料可以由提示信息[prompt_kg]和背景知识[kg_tag]组成。其中，[prompt_kg]是输入Query2bgKG LLM的提示信息，用于指示Query2bgKG LLM提取初始背景知识中解决用户问题需要用到的目标背景知识。[prompt_kg]由任务指令、待回答问题和元知识构成。示例性的，提示信息的格式可以为“请扮演知识专家角色，你需要从已知的知识中，根据用户问题输出解决问题所需要的背景知识和方法。已知知识的内容是：{初始背景知识B}，用户问题是{用户问题A}，根据上述已知知识及用户问题，解决问题所需的背景知识和方法是：”。[kg_tag]是解决待回答问题需要用到的目标背景知识，即背景知识提取大语言模型的期望生成结果。[kg_tag]可以由人工编写，也可以由问题模板生成。基于上述训练语料，对Query2bgKG LLM进行微调训练，使得其具备根据待回答问题，元知识和特定的提示信息prompt精确提取目标背景知识的能力。

在本实施例中，将待回答问题和对应的初始背景知识写成与训练过程中使用的训练语料具有一致格式的第一提示信息，将第一提示信息输入训练得到的Query2bgKG LLM，就可以精确提取解决待回答问题需要用到的目标背景知识。

本发明实施例在从背景知识库中的背景知识中粗匹配得到解决待回答问题可能需要的初始背景知识之后，再引入背景知识提取大语言模型从背景知识库中的背景知识中精确匹配解决待回答问题需要使用的目标背景知识，用于后续根据目标背景知识对NL2SQL大语言模型进行知识增强，降低了无关知识出现的可能性，确保提取出的知识是将用户查询问题转化为SQL所需的背景知识，从而提高了NL2SQL大语言模型的任务解决准确率。且本发明实施例引入背景知识提取大语言模型对NL2SQL大语言模型的背景知识增强方法，相对于现有的知识图谱增强方法、预训练增强方法和模式信息嵌入方法，简单易实现。

S140、根据目标背景知识和待回答问题生成第二提示信息。

其中，第二提示信息可以理解为输入到语句生成大语言模型中的指令，用于指示语句生成大语言模型将第二提示信息中的自然语言的待回答问题转化为可以解决待回答问题的SQL语句。第二提示信息包括：待回答问题以及解决待回答问题需要的目标背景知识。

示例性的，假设第二提示信息为Prompt_nl2sql。第二提示信息可以为“Prompt_nl2sql：你现在是一名数据分析专家，已知数据表{schema}，并且知道{目标背景知识}，请告诉我什么SQL语句可以回答问题{用户问题}”。

本发明实施例，通过将目标背景知识写入第二提示信息中可以对语句生成大语言模型进行背景知识增强，从而帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，提升SQL生成的准确率。

S150、将第二提示信息输入语句生成大语言模型，获得SQL语句。

在本实施例中，假设语句生成大语言模型为NL2SQL LLM，将构建完成的包含待查询问题和目标背景知识的第二提示信息Prompt_nl2sql输入NL2SQL LLM，获得NL2SQL LLM输出的待查询问题对应的SQL语句。

本发明实施例的技术方案，通过获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本；根据初始背景知识和待回答问题生成第一提示信息；将第一提示信息输入背景知识提取大语言模型，获得目标背景知识；根据目标背景知识和待回答问题生成第二提示信息；第二提示信息输入语句生成大语言模型，获得SQL语句，能够对语句生成大语言模型进行精确的背景知识增强，降低了无关知识出现的可能性，同时帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，从而提高了NL2SQL大语言模型的任务解决准确率，并且流程简单易实现。

在本发明实施例的一个可选实施例中，图2是本发明实施例中的一种生成第二提示信息的方法的流程图。如图2所示，根据所述目标背景知识和所述待回答问题生成第二提示信息；

S1411、根据待回答问题对应的问题向量查询历史问题数据库，获得与问题向量匹配的历史问题；历史问题数据库用于存储经过验证的历史问题；

S1412、基于预设提示模板，生成包含目标背景知识、待回答问题和历史问题的第二提示信息。

其中，历史问题数据库用于存储经过验证的历史问题，历史问题可以理解为历史时间上所接收到的待回答问题，经过验证可以指对历史问题和对应的SQL语句得到验证，该验证可以是用户的反馈或者系统的验证。预设提示模板是预先构建的用于规定提示信息格式的模板。

在本实施例中，除了构建背景知识库对语句生成大语言模型进行知识增强，还可以基于接收到的历史问题构建历史问题库。在从背景知识库中精确匹配到解决待回答问题所需要的目标背景知识之后，还可以进一步将问题向量输入历史问题数据库，获得与问题向量匹配的历史问题，也即表示在历史时间上语句生成大语言模型收到过相同或相似的问题；根据目标背景知识、待回答问题和历史问题生成第二提示信息，将第二提示信息输入语句生成大语言模型，能够帮助语句生成大语言模型参考对历史问题生成的SQL，利用目标背景知识生成待回答问题的SQL语句。

本实施例通过背景知识库和历史问题库对语句生成大语言模型进行知识增强，能够进一步基于解决待回答问题需要的背景知识和经过验证的历史问题对应的SQL语句，帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，从而进一步提升了SQL生成的准确率。

在本发明实施例的另一个可选实施例中，图3是本发明实施例中的另一种生成第二提示信息的方法的流程图。如图3所示，根据所述目标背景知识和所述待回答问题生成第二提示信息，包括：

S1421、根据目标背景知识中的同义词确定待回答问题对应的问题向量的等价问题向量；

S1422、基于预设提示模板，生成包含目标背景知识和等价问题向量的第二提示信息。

其中，等价问题向量是指与问题向量等价的向量。

在本实施例中，根据目标背景知识中的同义词确定待回答问题对应的问题向量的等价问题向量，实现基于背景知识中的同义词替换对待回答问题进行等价改写，例如将待回答问题中的专业术语更换为等价的名称，提升语句生成大语言模型对问题的理解。

图4是本发明实施例提供的另一种基于背景知识增强的SQL生成方法的流程图，本实施例在上述实施例的基础上，进一步限定在从背景知识库中匹配所述待回答问题对应的初始背景知识之前还包括：获取背景知识和所述背景知识的属性信息；对所述背景知识进行切分和向量化得到背景知识向量；按照所述属性信息将所述背景知识向量写入知识库文档；根据所述知识库文档构建背景知识库；其中，所述知识库文档用于存储具有对应属性信息的背景知识；所述属性信息包括：所述背景知识的使用条件和知识类型。

如图4所示，该方法包括：

S210、获取背景知识和背景知识的属性信息。

其中，背景知识的属性信息是用于描述背景知识的基本属性的信息，背景知识的属性信息可以包括：背景知识的使用条件condition和知识类型type。在本实施例中背景知识的属性信息可以预定义获得。

在本实施例中，背景知识的使用条件是指需要使用到背景知识解决问题的条件，也即如果待回答问题满足使用条件，那么解决待回答问题就需要用到此条背景知识。

可选的，所述知识类型包括：行动类型和非行动类型；非行动类型的背景知识用于解释所述待回答问题；行动类型的背景知识用于提示所述语句生成大语言模型对所述待回答问题执行预设操作。

其中，非行为动类型的背景知识用于对待回答问题中的某些部分进行解释说明的知识，例如行业术语，字段名或值的等价表达等。行动类型的背景知识通常需要大语言模型基于行动类型的背景知识执行对应的预设操作，例如逻辑细化、字段选择等等，具体可以包含约定俗成类知识、行业黑话、行业标准规定的行为描述、人工经验、关键词与表字段的匹配关系等。

S220、对背景知识进行切分和向量化得到背景知识向量。

其中，背景知识向量是对采用文本向量表示的背景知识。

在本实施例中，可以规定一条背景知识在知识描述中占一行，则只需要按换行符'\n'对背景知识进行切分。然后采用Embedding词向量模型对切分后的背景知识进行向量化得到背景知识向量。

S230、按照属性信息将背景知识向量写入背景知识库中的知识库文档。

其中，知识库文档用于存储具有对应属性信息的背景知识；

在本实施例中，按照属性信息将背景知识向量写入背景知识库中的知识库文档。如果需要对背景知识进行修改或添加，只需要先更改知识库文档，然后执行步骤S220和S230即可。

本实施例通过知识库文档对知识分类，能够避免语义混淆并保持向量数据库中知识的一致性，且既实现了背景抽取的可控，又可以轻松根据不同的业务场景修改知识库中的内容，易用性、实用性、可扩展性强。

S240、获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本。

S250、根据初始背景知识和待回答问题生成第一提示信息。

S260、将第一提示信息输入背景知识提取大语言模型，获得目标背景知识。

S270、根据目标背景知识和待回答问题生成第二提示信息。

S280、将第二提示信息输入语句生成大语言模型，获得SQL语句。

在本实施例中，S240至S280与上述实施例的S110至S150的执行过程相同，本实施例对此不再赘述。

本发明实施例的技术方案，通过获取背景知识和背景知识的属性信息；对背景知识进行切分和向量化得到背景知识向量；按照属性信息将所述背景知识向量写入背景知识库中的知识库文档；获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本根据初始背景知识和待回答问题生成第一提示信息；将第一提示信息输入背景知识提取大语言模型，获得目标背景知识；根据目标背景知识和待回答问题生成第二提示信息；将第二提示信息输入语句生成大语言模型，获得SQL语句；能够对语句生成大语言模型进行精确的背景知识增强，降低了无关知识出现的可能性，并且流程简单易实现，同时通过检索向量化的知识库提取生成SQL所需的知识，从而深化大模型对专业领域NL2SQL任务的理解，从而提高大模型NL2SQL任务准确率，提升SQL生成的准确率，并且具备通用性，不受限于特定的数据库、背景知识或特定模型结构，适用范围广。

在一个具体的实施例中，基于股权激励相关问题查询的NL2SQL应用场景描述本发明实施例提供的基于背景知识增强的SQL生成方法。在本实施例的应用场景中，通过知识库编写和背景知识提取的方法，实现根据自然语义问题准确地关联到知识库中的相关股权激励背景知识，从而增强NL2SQL LLM对用户问题的理解能力。以股权激励为背景的数据表名为t_inc_esop_info，其中包含有关不同公司股权激励实施的相关信息。基于本发明的背景知识增强及与NL2SQL的SQL生成方法的流程具体如下：

步骤1：构建背景知识库。对于基于股权激励的NL2SQL任务，编写生成SQL时需要参考的背景知识，编写的背景知识文档分成两类，如下所示：pre_define.txt背景知识文档保存[condition-nonaction kg]条件-非行动类知识。以下是一个[condition-nonactionkg]的例子：“如果用户问题中出现‘第一类限制性股票’，则第一类限制性股票是指在授予时即获得的股票，但在一定的限售期内，员工不能自由转让或处置这些股票。如果用户问题中出现‘回报系数’，则‘回报系数’是指‘支付回报系数’。”pre_action.txt背景知识文档保存[condition-action]条件-行动类知识。

以下是一个[condition-action]的例子：“当问题中出现连续数字，如：‘334’，由于在实际业务中可能不会完全按照标准写30:30:40，则需要自动转换为‘30:30:40’；如果比例写成‘1：1’，则需要自动转化为‘50：50’。当问题中出现日期，时间段或时间点信息，如：‘近半年’，但是没有指定日期类字段的时候，则使用‘草案公告日(preplan_ann_date)’，其中草案公告日的字段类型可以为字符串。”

步骤2：背景知识粗匹配。首先对背景知识根据换行符\n进行切分，并调用text2vec-large-chinese模型将其向量化。然后将用户问题(即待回答问题)进行向量化处理，输入背景知识库中进行相似度检索，粗略匹配相关的背景知识。

以下是用户问题粗略匹配背景知识的一个例子：

用户问题：“A省的外企有哪些做过员工持股计划”。

元知识(即初始背景知识)：“当问题中出现‘员工持股计划’，员工持股计划是一种机制，允许公司的员工购买或获得公司股票，从而成为公司的股东；这种计划旨在激励和奖励员工，增强他们的忠诚度和参与度，以及与公司的业绩和增长保持共同利益。当问题中出现‘外企’，WIND_SEC_CODE＝('外资企业')。当问题中出现‘员工持股计划’，则script_type＝('员工持股计划')。当问题中出现‘限售期’，则指的是‘锁定期(interval_months)’，script_type＝(‘第一类限制性股票’)。当问题中出现‘行权比例’，则指的是‘各期解锁比例(inc_execpct_set)’，script_type＝('股票期权')”。

步骤3：背景知识精确匹配。

步骤3.1Query2bgKG LLM学习。对于训练语料的生成，可以采用问题模板或人工编写的方法。以下是一种简单的根据问题模板生成语料的方法。首先，根据实际股权激励业务中从业人员需要查询的问题，编写泛化问题模板。示例：【s_info_province】的【wind_sec_code】有哪些做过【script_type】

其中【s_info_province】(省份)，【wind_sec_code】(企业性质)和【script_type】(股权激励种类)是股权激励数据表t_inc_esop_info中的字段名称。在生成具体问题时，将字段名称替换为具体的字段值即可。同时，根据替换的字段值涉及到的背景知识，生成[kg_tag](如果填入的字段值满足某条使用条件condition，那么生成的问题就涉及到使用条件condition对应的背景知识)。然后对生成的问题其进行步骤1中的操作，提取相关元知识，组合问题和元知识生成提示信息[prompt_kg](即第一提示信息)。

例如：问题模板：“【info_province】的【wind_sec_code】有哪些做过【script_type】”。

用户问题：“【B省】的【国企】有哪些做过【期权】”。

第一提示信息prompt_kg："请扮演知识专家角色，你需要从已知的知识中，根据用户问题输出解决问题所需要的背景知识和方法。已知知识的内容是：“当问题中出现“股票期权”，则股票期权是一种赋予持有人购买或出售公司股票的权利的金融工具。当问题中出现“国企”，则WIND_SEC_CODE in('国有企业')。当问题中出现“期权”，则script_type＝('股票期权')。当问题中出现“限售期”，则指的是“锁定期(interval_months)”，script_type＝('第一类限制性股票')。当问题中出现“行权比例”，则指的是“各期解锁比例(inc_execpct_set)”，script_type＝('股票期权')。”用户问题是：“B省的国有上市公司有哪些做过期权”。根据上述已知知识及用户问题，解决问题所需的背景知识和方法是：”

kg_tag：“当问题中出现‘股票期权’，则股票期权是一种赋予持有人购买或出售公司股票的权利的金融工具。当问题中出现‘国企’，则WIND_SEC_CODE＝(‘国有企业’)。当问题中出现‘期权’，则script_type＝('股票期权')”

步骤3.2Query2bgKG精确提取。当业务人员提出需要查询的问题时，首先进行背景知识粗匹配，提取相关元知识。然后将两者结合生成步骤3.1中prompt_kg格式的文本信息，并输入Query2bgKG LLM中。Query2bgKG LLM会输出用户问题涉及的精确背景知识。

示例：用户问题：“A省的外企有哪些做过员工持股计划”。

Query2bgKG输出结果：“当问题中出现‘员工持股计划’，则员工持股计划是一种机制，允许公司的员工购买或获得公司股票，从而成为公司的股东；这种计划旨在激励和奖励员工，增强他们的忠诚度和参与度，以及与公司的业绩和增长保持共同利益。当问题中出现‘外企’，WIND_SEC_CODE＝(‘外资企业')。当问题中出现‘员工持股计划’，则script_type＝('员工持股计划')。”

步骤4：NL2SQL生成。根据上述prompt，NL2SQL LLM生成的SQL如下：select*fromt_inc_esop_info where SCRIPT_TYPE＝‘员工持股计划’and WIND_SEC_CODE＝‘外资企业’and S_INFO_PROVINCE like‘A省’。

如上所示，在实际应用场景中，尤其是专业场景中，通过本发明提出的背景知识构建及SQL生成方法，可以给大模型提供NL2SQL任务所需的背景知识。从而深化大模型对NL2SQL任务的理解，提升SQL生成准确率。

图5是本发明实施例提供的一种基于背景知识增强的SQL生成装置的结构示意图。如图5所示，该装置包括：

知识匹配模块310，用于获取待回答问题，并从背景知识库中匹配所述待回答问题对应的初始背景知识；所述待回答问题为自然语言文本；

第一提示生成模块320，用于根据所述初始背景知识和所述待回答问题生成第一提示信息；

知识提取模块330，用于将所述第一提示信息输入背景知识提取大语言模型，获得目标背景知识；

第二提示生成模块340，用于根据所述目标背景知识和所述待回答问题生成第二提示信息；

语句生成模块350，用于将所述第二提示信息输入语句生成大语言模型，获得SQL语句。

本发明实施例的技术方案，通过获取待回答问题，并从背景知识库中匹配待回答问题对应的初始背景知识；待回答问题为自然语言文本；根据初始背景知识和待回答问题生成第一提示信息；将第一提示信息输入背景知识提取大语言模型，获得目标背景知识；根据目标背景知识和待回答问题生成第二提示信息；第二提示信息输入语句生成大语言模型，获得SQL语句，能够对语句生成大语言模型进行精确的背景知识增强，降低了无关知识出现的可能性，从而提高了NL2SQL大语言模型的任务解决准确，同时帮助语句生成大语言模型更好的理解任务需求以及解决问题的方法，提升了SQL生成的准确率，并且流程简单易实现。

可选的，所述知识匹配模块310，具体用于：

根据问题向量查询所述背景知识库，获得与所述问题向量匹配的初始背景知识；其中，所述背景知识库为向量数据库。

可选的，所述第二提示生成模块，包括：

历史问题匹配单元，用于根据所述待回答问题对应的问题向量查询历史问题数据库，获得与所述问题向量匹配的历史问题；所述历史问题数据库用于存储经过验证的历史问题；

第一信息生成单元，用于基于预设提示模板，生成包含所述目标背景知识、所述待回答问题和所述历史问题的第二提示信息。

可选的，所述第二提示生成模块，还用于：

等价确定单元，用于根据所述目标背景知识中的同义词确定所述待回答问题对应的问题向量的等价问题向量；

第二信息生成单元，用于基于预设提示模板，生成包含所述目标背景知识和所述等价问题向量的第二提示信息。

可选的，还包括：

知识获取模块，用于在从背景知识库中匹配所述待回答问题对应的初始背景知识之前，获取背景知识和所述背景知识的属性信息；

向量化模块，用于对所述背景知识进行切分和向量化得到背景知识向量；

向量写入模块，用于按照所述属性信息将所述背景知识向量写入背景知识库中的知识库文档。

可选的，所述属性信息包括：所述背景知识的使用条件和知识类型；所述知识类型包括：行动类型和非行动类型；

非行动类型的背景知识用于解释所述待回答问题；

行动类型的背景知识用于提示所述语句生成大语言模型对所述待回答问题执行预设操作。

可选的，所述背景知识库中存储的背景知识为元知识；所述背景知识包括：表间知识、行业知识和经验知识。

本发明实施例所提供的基于背景知识增强的SQL生成装置可执行本发明任意实施例所提供的基于背景知识增强的SQL生成方法，具备执行方法相应的功能模块和有益效果。

图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如基于背景知识增强的SQL生成方法。

在一些实施例中，基于背景知识增强的SQL生成方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的基于背景知识增强的SQL生成方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于背景知识增强的SQL生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于背景知识增强的SQL生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从背景知识库中匹配所述待回答问题对应的初始背景知识，包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述目标背景知识和所述待回答问题生成第二提示信息；

根据所述待回答问题对应的问题向量查询历史问题数据库，获得与所述问题向量匹配的历史问题；所述历史问题数据库用于存储经过验证的历史问题；

基于预设提示模板，生成包含所述目标背景知识、所述待回答问题和所述历史问题的第二提示信息。

4.根据权利要求1或2所述的方法，其特征在于，根据所述目标背景知识和所述待回答问题生成第二提示信息，包括：

根据所述目标背景知识中的同义词确定所述待回答问题对应的问题向量的等价问题向量；

基于预设提示模板，生成包含所述目标背景知识和所述等价问题向量的第二提示信息。

5.根据权利要求1所述的方法，其特征在于，在从背景知识库中匹配所述待回答问题对应的初始背景知识之前还包括：

获取背景知识和所述背景知识的属性信息；

对所述背景知识进行切分和向量化得到背景知识向量；

按照所述属性信息将所述背景知识向量写入背景知识库中的知识库文档。

6.根据权利要求5所述的方法，其特征在于，其中，所述属性信息包括：所述背景知识的使用条件和知识类型；所述知识类型包括：行动类型和非行动类型；非行动类型的背景知识用于解释所述待回答问题；行动类型的背景知识用于提示所述语句生成大语言模型对所述待回答问题执行预设操作。

7.根据权利要求1或5所述的方法，其特征在于，所述背景知识库中存储的背景知识为元知识；所述背景知识包括：表间知识、行业知识和经验知识。

8.一种基于背景知识增强的SQL生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的基于背景知识增强的SQL生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于背景知识增强的SQL生成方法。