CN117992791A

CN117992791A - 语句生成模型的训练方法、语句生成方法、系统以及设备

Info

Publication number: CN117992791A
Application number: CN202410396111.2A
Authority: CN
Inventors: 周扬; 王君吉; 李哲; 董元昊
Original assignee: Rajax Network Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Current assignee: Rajax Network Technology Co Ltd; Zhejiang Koubei Network Technology Co Ltd
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-07

Abstract

本申请公开了一种语句生成模型的训练方法、语句生成方法、系统、计算机设备以及存储介质，基于目标领域对应的目标数据库中的多个数据库表以及目标领域，生成各个数据库表的查询文本以及查询文本对应的参考SQL语句，其中，参考SQL语句会作为后续模型训练的标注。基于各个数据库表以及各个数据库表的查询文本，生成查询文本对应的样本提示文本，该样本提示文本会作为后续模型训练的样本数据。基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句来对语句生成模型进行训练，实现了样本数据和标注的自动生成，大大降低了训练语句生成模型的成本，提高了效率。

Description

语句生成模型的训练方法、语句生成方法、系统以及设备

技术领域

本申请涉及人工智能技术领域，并且更具体地，涉及人工智能技术领域中一种语句生成模型的训练方法、语句生成方法、系统、计算机设备以及存储介质。

背景技术

自然语言处理（Natural Language Processing，NLP）作为人工智能技术的一个重要分支，在很多场景中扮演的角色也越来越重要。在数据库查询场景中，利用自然语言转结构化查询语言（Natural Language To Structured Query Language，NL2SQL）的技术能够大大提高数据库查询的效率。

相关技术中，训练具有NL2SQL能力的模型需要使用大量的样本数据，而样本数据的获取往往依赖于人工标注。

但是，由于对样本数据进行人工标注的成本较高，导致训练具有NL2SQL能力的模型的成本居高不下。

发明内容

本申请实施例提供了语句生成模型的训练方法、语句生成方法、系统、计算机设备以及存储介质，能够降低训练具有NL2SQL能力的模型的成本，技术方案如下：

一方面，提供了一种语句生成模型的训练方法，所述方法包括：

基于多个数据库表以及目标领域，生成各个所述数据库表的查询文本以及所述查询文本对应的参考SQL语句，所述多个数据库表属于所述目标领域对应的目标数据库；

基于各个所述数据库表以及各个所述数据库表的查询文本，生成所述查询文本对应的样本提示文本，所述样本提示文本用于查询所述多个数据库表中的字段；

基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句，训练所述目标领域的语句生成模型，所述语句生成模型用于基于输入的提示文本生成对应的SQL语句。

一方面，提供了一种语句生成方法，所述方法包括：

获取目标提示文本；

将所述目标提示文本输入语句生成模型，通过所述语句生成模型对所述目标提示文本进行处理，得到所述目标提示文本的目标SQL语句，所述目标SQL语句用于查询目标领域对应的目标数据库；

其中，所述语句生成模型是基于所述目标数据库的多个数据库表以及所述目标领域训练得到。

一方面，提供了一种语句生成模型的训练系统，所述系统包括：

文本和语句生成模块，用于基于多个数据库表以及目标领域，生成各个所述数据库表的查询文本以及所述查询文本对应的参考SQL语句，所述多个数据库表属于所述目标领域对应的目标数据库；将各个所述数据库表的查询文本以及所述查询文本对应的参考SQL语句输入问题生成模块；

所述问题生成模块，用于基于各个所述数据库表以及各个所述数据库表的查询文本，生成所述查询文本对应的样本提示文本，所述样本提示文本用于查询所述多个数据库表中的字段；将所述查询文本对应的样本提示文本输入训练模块；

所述训练模块，用于基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句，训练语句生成模型，所述语句生成模型用于基于输入的问题生成所述目标领域对应的SQL语句。

在一种可能的实施方式中，所述文本和语句生成模块，用于确定所述目标领域对应的参考提示文本，所述参考提示文本用于提示生成所述目标领域对应的查询文本以及参考SQL语句的方式；将所述多个数据库表和所述参考提示文本输入大语言模型，通过所述大语言模型对所述多个数据库表和所述参考提示文本进行处理，得到各个所述数据库表的查询文本以及对应的参考SQL语句。

在一种可能的实施方式中，所述文本和语句生成模块，用于由所述大语言模型基于所述参考提示文本对各个所述数据库表进行处理，输出各个所述数据库表的初始查询文本以及所述初始查询文本对应的初始SQL语句；基于所述目标领域的SQL规则，对各个所述数据库表对应的初始SQL语句进行纠错，得到各个所述数据库表对应的参考SQL语句，所述SQL规则包括SQL语法和SQL结构；对各个所述数据库表的初始查询文本进行数据增强，得到各个所述数据库表的查询文本。

在一种可能的实施方式中，所述问题生成模块，用于对于所述多个数据库表中的任一数据库表，基于所述数据库表的查询文本在所述数据库表中进行召回，得到所述数据库表中的目标字段，所述目标字段为与所述数据库表的查询文本相关的字段；基于多个目标字段，生成所述数据库表的查询文本对应的样本提示文本。

在一种可能的实施方式中，所述问题生成模块，用于执行下述至少一项：

将所述数据库表的查询文本和所述数据库表的多个字段输入字段召回模型，通过所述字段召回模型在所述多个字段中召回目标字段；

对所述数据库表的查询文本进行文本扩展，得到所述数据库表的查询文本的多个扩展查询文本，所述多个扩展查询文本为与所述数据库表的查询文本语义相近的查询文本；基于所述数据库表的查询文本以及所述多个扩展查询文本，从所述数据库表的多个字段中确定目标字段。

在一种可能的实施方式中，所述问题生成模块，用于将所述数据库表的查询文本和所述数据库表的多个字段的字段向量输入字段召回模型，通过所述字段召回模型将所述查询文本映射为查询文本向量；通过所述字段召回模型，基于所述查询文本向量与所述多个字段的字段向量之间的相似度，从所述多个字段中召回目标字段，所述目标字段的字段向量与所述查询文本向量之间的相似度符合预设相似度条件，所述多个字段的字段向量是由所述字段召回模型映射得到的。

在一种可能的实施方式中，所述问题生成模块，用于基于所述数据库表的查询文本以及所述多个扩展查询文本中的词汇在所述目标领域中的重要程度对所述数据库表的查询文本以及所述多个扩展查询文本进行评分，得到所述数据库表的查询文本的分数以及所述多个扩展查询文本的分数；基于数据库表的查询文本的分数以及所述多个扩展查询文本的分数，从所述数据库表的查询文本以及所述多个扩展查询文本中确定多个目标查询文本，所述目标查询文本的分数符合预设分数条件；采用各个所述目标查询文本中的词汇与所述数据库表的多个字段进行文本匹配，得到目标字段，所述目标字段是与目标查询文本中词汇匹配成功的字段。

在一种可能的实施方式中，所述问题生成模块，还用于基于所述目标领域的领域规则，从所述数据库表的多个字段中召回目标字段，所述领域规则包括与所述目标领域匹配的字段类型。

在一种可能的实施方式中，所述问题生成模块，用于按照预设方式将所述多个目标字段进行组合，得到所述数据库表的查询文本对应的初始提示文本；对所述初始提示文本进行文本扩展得到所述数据库表的查询文本对应的样本提示文本。

在一种可能的实施方式中，所述训练模块，用于将所述多个样本提示文本分别输入所述语句生成模型，通过所述语句生成模型分别对所述多个样本提示文本分别进行处理，得到各个所述样本提示文本的预测SQL语句；基于各个所述样本提示文本的预测SQL语句与参考SQL语句之间的差异信息，对所述目标领域的语句生成模型进行训练。

在一种可能的实施方式中，所述训练模块，用于对于所述多个样本提示文本中的任一样本提示文本，通过所述语句生成模型对所述样本提示文本进行编码，得到所述样本提示文本的提示文本特征；通过所述语句生成模型，对所述样本提示文本的提示文本特征进行解码，得到所述样本提示文本对应的SQL语句框架和SQL语句字段；通过所述语句生成模型，将所述样本提示文本对应的SQL语句框架和SQL语句字段进行组合，输出所述样本提示文本的预测SQL语句。

一方面，提供了一种语句生成系统，所述系统包括：

问题获取模块，用于获取目标提示文本；将所述目标提示文本发送给处理模块；

所述处理模块，用于将所述目标提示文本输入语句生成模型，通过所述语句生成模型对所述目标提示文本进行处理，得到所述目标提示文本的目标SQL语句，所述目标SQL语句用于查询目标领域对应的目标数据库；

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述语句生成模型的训练方法或语句生成方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述语句生成模型的训练方法或语句生成方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述语句生成模型的训练方法或语句生成方法。

通过本申请实施例提供的技术方案，基于目标领域对应的目标数据库中的多个数据库表以及目标领域，生成各个数据库表的查询文本以及查询文本对应的参考SQL语句，其中，参考SQL语句会作为后续模型训练的标注。基于各个数据库表以及各个数据库表的查询文本，生成查询文本对应的样本提示文本，该样本提示文本会作为后续模型训练的样本数据。基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句来对语句生成模型进行训练，实现了样本数据和标注的自动生成，大大降低了训练语句生成模型的成本，提高了效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语句生成模型的训练方法的实施环境的示意图；

图2是本申请实施例提供的一种语句生成模型的训练方法的流程图；

图3是本申请实施例提供的另一种语句生成模型的训练方法的流程图；

图4是本申请实施例提供的一种获取初始样本的流程图；

图5是本申请实施例提供的一种召回目标字段的流程图；

图6是本申请实施例提供的一种生成预测SQL语句的流程图；

图7是本申请实施例提供的一种语句生成方法的流程图；

图8是本申请实施例提供的一种语句生成模型的训练系统的结构示意图；

图9是本申请实施例提供的一种语句生成系统的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B：文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。

为便于理解本申请实施例，下面对本申请实施例中涉及的专业术语进行解释：

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得较佳结果的理论、方法、技术及应用系统。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自然语言处理：自然语言处理是人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

结构化查询语言（Structured Query Language，SQL）：是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。

大语言模型（Large Language Model，LLM）：是使用大量文本训练的深度学习模型，可以生成语言提示词或理解语言文本的含义，从而处理多种自然语言任务，包括对话问答、信息抽取、文本分类等，并在多项任务上展现出了巨大的潜力。

提示词（Prompt）：指输入的文本段落或短语，加在待解决任务文本的前面，一起传递给LLM来实现预期任务，具有指令、提示的含义，通常为问题、对话、描述等形式，Prompt的输入使LLM具有适应各种下游应用的能力。

归一化：将取值范围不同的数列映射到（0，1）区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

学习率（Learning Rate）：用于控制模型的学习进度，学习率可以指导模型在梯度下降法中，如何使用损失函数的梯度调整网络权重。学习率如果过大，可能会使损失函数直接越过全局最优点，此时表现为损失过大；学习率如果过小，损失函数的变化速度很慢，会大大增加网络的收敛复杂度，并且很容易被困在局部最小值或者鞍点。

嵌入编码（Embedded Coding）：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系与映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

图1是本申请实施例提供的一种语句生成模型的训练方法的实施环境示意图，参见图1，该实施环境中可以包括训练终端110和服务器140。

训练终端110通过无线网络或有线网络与服务器140相连。可选的，训练终端110是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。训练终端110安装和运行有支持语句生成模型训练的应用程序。在本申请实施例中，技术人员能够通过训练终端110来配置语句生成模型的训练过程，比如，选择训练样本、调整超参数以及人工接入训练过程均能够通过训练终端110来实现。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务，

本领域技术人员可以知晓，上述训练终端的数量可以更多或更少。比如上述训练终端仅为一个，或者上述训练终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他训练终端。本申请实施例对训练终端的数量和设备类型不加以限定。

介绍完本申请实施例的实施环境之后，下面对本申请实施例的应用场景进行介绍。

本申请实施例提供的语句生成模型的训练方法能够应用在训练任一业务领域的语句生成模型的场景中，采用本申请实施例提供的技术方案之后，基于多个数据库表以及目标领域来生成各个数据库表的查询文本和对应的参考SQL语句，实现将数据库表转化为目标领域对应的查询文本和参考SQL语句的目的，参考SQL语句在后续作为标注（也即是Ground True）来参与模型训练。基于各个数据库表以及各个数据库表的查询文本，生成查询文本对应的样本提示文本，该样本提示文本是后续模型训练的样本数据，这样实现了样本数据的自动生成。基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句来训练语句生成模型，能够实现样本生成、标注以及模型训练的自动化，大大提高了语句生成模型训练的效率。

另外，本申请实施例还提供了一种语句生成方法，该语句生成方法使用上述语句生成模型的训练方法训练得到的语句生成模型来实现。也即是，将目标提示文本输入语句生成模型之后，该语句生成模型能够自动生成该目标提示文本对应的目标SQL语句。利用该目标SQL语句能够实现对目标数据库的查询。

在介绍完本申请实施例的应用场景之后，下面对本申请实施例提供的技术方案进行介绍。图2是本申请实施例提供的一种语句生成模型的训练方法的流程图，参见图2，以执行主体为服务器为例，方法包括下述步骤。

201、服务器基于多个数据库表以及目标领域，生成各个数据库表的查询文本以及该查询文本对应的参考SQL语句，该多个数据库表属于该目标领域对应的目标数据库。

其中，目标领域为任一业务领域，目标领域由技术人员根据实际情况进行设置，本申请实施例对此不作限定。目标领域对应的目标数据库为用于存储目标领域的相关数据的数据库。目标数据库以数据库表的形式来进行数据存储，不同数据库表用于存储目标领域下不同实体对应的数据。数据库表的查询文本用于查询数据库表中的数据，查询文本是自然语言。查询文本对应的参考SQL语句是指对查询文本进行自然语言转结构化查询语言后得到的SQL语句，利用参考SQL语句能够在数据库中查询该查询文本想要查找的数据。

202、服务器基于各个数据库表以及各个数据库表的查询文本，生成该查询文本对应的样本提示文本，该样本提示文本用于查询该多个数据库表中的字段。

其中，样本提示文本为自然语言，用于提示语句生成模型生成对应的SQL语句，也即是，样本提示文本是后续NL2SQL的目标。相较于查询文本，样本提示文本更加贴近用户的实际输入。数据库表中的字段也即是数据库表中存储的数据。

203、服务器基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句，训练该目标领域的语句生成模型，该语句生成模型用于基于输入的提示文本生成对应的SQL语句。

其中，该语句生成模型也即是具有NL2SQL能力的模型。对于多个样本提示文本中的任一样本提示文本，该样本提示文本对应的参考SQL也即是该样本提示文本对应的查询文本对应的参考SQL语句。在训练该语句生成模型的过程中，参考SQL语句会作为模型训练的标注。

上述步骤201-203是对本申请实施例提供的语句生成模型的训练方法的简单介绍，下面将结合一些例子，对本申请实施例提供的语句生成模型的训练方法进行更加详细地介绍，参见图3，以执行主体为服务器为例，方法包括下述步骤。

301、服务器获取目标领域对应的目标数据库的多个数据库表。

其中，目标领域为任一业务领域，比如，目标领域包括商品查询、景点查询、天气查询以及媒体查询等，目标领域由技术人员根据实际情况进行设置，本申请实施例对此不做限定。目标领域对应的目标数据库为用于存储目标领域的相关数据的数据库。目标数据库以数据库表的形式来进行数据存储，不同数据库表用于存储目标领域下不同实体对应的数据，比如，在目标领域为商品查询的情况下，目标数据库的不同数据库表中存储有不同类型商品的数据，这里的类型也即是实体。

在一种可能的实施方式中，响应于对目标领域的选择指令，服务器从该目标领域对应的目标数据库中获取该多个数据库表。

其中，该选择指令是训练终端发送给服务器的，在训练语句生成模型之前，技术人员能够通过训练终端来选择目标领域，训练终端能够将对该目标领域的选择指令发送给服务器，以使服务器确定待训练的语句生成模型属于目标领域。

举例来说，响应于对目标领域的选择指令，服务器确定该目标领域对应的目标数据库。服务器访问并登录该目标数据库，从该目标数据库中获取多个数据库表。在一些实施例中，在该多个数据库表占用的存储空间较大，比如占用的存储空间大于或等于预设存储空间的情况下，服务器分多个批次来从该目标数据库获取该多个数据库表，以保证服务器的稳定性。

302、服务器基于多个数据库表以及目标领域，生成各个数据库表的查询文本以及该查询文本对应的参考SQL语句。

其中，数据库表的查询文本用于查询数据库表中的数据，查询文本是自然语言。查询文本对应的参考SQL语句是指对查询文本进行自然语言转结构化查询语言后得到的SQL语句，利用参考SQL语句能够在数据库中查询该查询文本想要查找的数据。

在一种可能的实施方式中，服务器确定该目标领域对应的参考提示文本，该参考提示文本用于提示生成该目标领域对应的查询文本以及参考SQL语句的方式。服务器将该多个数据库表和该参考提示文本输入大语言模型，通过该大语言模型对该多个数据库表和该参考提示文本进行处理，得到各个数据库表的查询文本以及对应的参考SQL语句。

其中，目标领域对应的参考提示文本是指与目标领域匹配的提示文本，参考提示文本用于描述该目标领域的生成要求，也即是生成该目标领域对应的查询文本以及参考SQL语句的方式。在一些实施例中，该参考提示文本也被称为该目标领域的Prompt，使用目标领域的Prompt来生成查询文本以及参考SQL语句，使得生成查询文本以及参考SQL语句更加符合该目标领域的要求，也即是与该目标领域更加适配。该大语言模型能够执行提示文本指示的任务，在上述实施方式中，该大语言模型能够执行生成查询文本以及对应的参考SQL语句的任务。在一些实施例中，该大语言模型为任一结构的大语言模型，比如为ChatGPT系列的大语言模型，或者为其他厂商或团队开发的大语言模型，本申请实施例对此不做限定。

在这种实施方式下，确定该目标领域对应的参考提示文本，利用大语言模型的能力，基于多个数据库表以及该参考提示文本来生成各个数据库表的查询文本以及对应的参考SQL语句，查询文本和参考SQL语句的生成效率较高。

为了对上述实施方式进行更加清楚地说明，下面将分为几个部分对上述实施方式进行说明。

第一部分、服务器确定该目标领域对应的参考提示文本。

在一种可能的实施方式中，服务器基于目标领域进行查询，得到该目标领域对应的参考提示文本。

其中，该目标领域与该参考提示文本之间的对应关系由技术人员根据实际情况进行配置，本申请实施例对此不作限定。该参考提示文本的数量可以为一个，也可以为多个，本申请实施例对此不做限定。在该参考提示文本的数量为多个的情况下，每个参考提示文本均能够用于查询文本和参考SQL语句的生成。

在一些实施例中，服务器上提前配置有多个领域以及各个领域对应的参考提示文本，服务器根据领域与参考提示文本之间的对应关系，就能够从多个参考提示文本中确定与该目标领域对应的参考提示文本。比如，技术人员通过训练终端来配置领域与参考提示文本之间的对应关系，当然，技术人员也能够通过训练终端来调整领域与参考提示文本之间的对应关系。

第二部分、服务器将该多个数据库表和该参考提示文本输入大语言模型，通过该大语言模型对该多个数据库表和该参考提示文本进行处理，得到各个数据库表的查询文本以及对应的参考SQL语句。

在一种可能的实施方式中，服务器将该多个数据库表和该参考提示文本输入大语言模型，由该大语言模型基于该参考提示文本对各个数据库表进行处理，输出各个数据库表的初始查询文本以及该初始查询文本对应的初始SQL语句。服务器基于该目标领域的SQL规则，对各个数据库表对应的初始SQL语句进行纠错，得到各个数据库表对应的参考SQL语句，该SQL规则包括SQL语法和SQL结构。服务器对各个数据库表的初始查询文本进行数据增强，得到各个数据库表的查询文本。

其中，基于该参考提示文本对数据库表进行处理是指根据该参考提示文本的指示对数据库表中的信息进行处理，从而生成初始查询文本以及对应的SQL语句，该初始查询文本和该初始SQL语句均是大语言模型直接生成的。SQL规则包括的SQL语法以及SQL结构是目标领域对应的标准的SQL语法以及标准的SQL结构，使用该SQL规则能够对初始SQL语句进行纠错，从而得到参考SQL语句。目标领域的SQL规则由技术人员根据实际情况进行编写，本申请实施例对此不作限定。对初始查询文本进行数据增强是指将初始查询文本扩展至其他语义接近的查询文本，从而提高查询文本的多样性。

在这种实施方式下，利用大语言模型的能力来生成初始查询文本以及对应的初始SQL语句。后续基于目标领域的SQL规则对初始SQL语句进行纠错，以消除初始SQL语句中的错误，得到的参考SQL语句的准确性较高。对初始查询文本进行数据增强，从而得到更加多样的查询文本，有助于后续的模型训练。

为了对上述实施方式进行更加清楚地说明，下面将再分为几个部分对上述实施方式进行说明。

A、服务器将该多个数据库表和该参考提示文本输入大语言模型，由该大语言模型基于该参考提示文本对各个数据库表进行处理，输出各个数据库表的初始查询文本以及该初始查询文本对应的初始SQL语句。

在一种可能的实施方式中，对于该多个数据库表中的任一数据库表，服务器将该数据库表的表信息和该参考提示文本输入该大语言模型，该表信息包括表名、表描述、字段名、字段描述、维度列、字段枚举以及指标列等。由该大语言模型基于注意力机制对该表信息和该参考提示文本进行编码，得到第一输入编码。服务器通过该大语言模型，基于注意力机制对该第一输入编码进行多轮迭代解码，得到该数据库表的初始查询文本以及该初始查询文本对应的初始SQL语句。

其中，该数据库表的初始查询文本的数量为多个，不同初始查询文本用于查询该数据库表中的不同字段，相应地，初始SQL语句的数量也为多个。

下面对上述实施方式中基于注意力机制对该第一输入编码进行多轮迭代解码的过程进行说明。

在一些实施例中，服务器通过该大语言模型，基于注意力机制对该输入编码进行多轮迭代解码，得到该数据库表的多个初始查询文本。服务器通过该大语言模型，基于注意力机制对该多个初始查询文本、该数据库表的表信息和该参考提示文本进行编码，得到第二输入编码。服务器通过该大语言模型，基于注意力机制对该第二输入编码进行多轮迭代解码，得到各个初始查询文本对应的初始SQL语句。

B、服务器基于该目标领域的SQL规则，对各个数据库表对应的初始SQL语句进行纠错，得到各个数据库表对应的参考SQL语句。

在一种可能的实施方式中，服务器采用该目标领域的SQL规则对多个初始SQL语句进行校验，从多个初始SQL语句中确定存在错误的初始SQL语句。服务器采用SQL规则指示的方式对存在错误的初始SQL语句进行修正，得到各个数据库表对应的参考SQL语句。

其中，错误包括语法错误、字段错误、时间范围错误以及关键词错误等，本申请实施例对此不作限定。

在这种实施方式下，利用目标领域的SQL规则能够实现对初始SQL语句的校验和修正，效率较高。

举例来说，服务器基于该目标领域的SQL规则对多个初始SQL语句的语法和结构进行校验，从多个初始SQL语句中确定存在语法和/或结构错误的初始SQL语句。服务器采用SQL规则指示的方式对存在语法和/或结构错误的初始SQL语句进行修正，得到各个数据库表对应的参考SQL语句。

在一些实施例中，在采用SQL规则指示的方式无法修正错误的初始SQL语句的情况下，服务器将该初始SQL语句发送给训练终端，由技术人员使用训练终端对该初始SQL语句进行错误修正，从而得到参考SQL语句并发送给服务器。

本申请实施例还提供了另一种对初始SQL语句进行修正的方式。

在一种可能的实施方式中，服务器将多个初始SQL语句输入语句纠错模型，通过语句纠错模型对该多个初始SQL语句进行纠错，得到各个数据库表对应的参考SQL语句，该语句纠错模型是基于该目标领域的SQL规则训练得到的，具有纠正输入的SQL语句的语法和/或结构错误的能力。

C、服务器对各个数据库表的初始查询文本进行数据增强，得到各个数据库表的查询文本。

其中，数据增强是为了丰富训练样本，从而提高后续模型训练的效果。

在一种可能的实施方式中，对于多个初始查询文本中的任一初始查询文本，服务器对该初始查询文本进行近义改写、表名近义词替换、字段描述近义词替换以及中英文回译替换，得到该初始查询文本的查询文本，该查询文本也即是该初始查询文本对应的数据库表的查询文本。

其中，对初始查询文本进行近义改写是指将初始查询文本改写为语义相近的查询文本；对初始查询文本进行表名近义词替换是指将初始查询文本中的表名用近义词进行替换；对初始查询文本进行字段描述近义词替换是指将初始查询文本中的字段描述用近义词进行替换；对初始查询文本进行中英文回译替换是指将初始查询文本翻译成英文之后再翻译回中文。

需要说明的是，除了上述数据增强方式之外，服务器还能通过其他方式来进行数据增强，本申请实施例对此不作限定。

下面将结合图4对上述步骤302进行说明，参见图4，服务器获取目标领域对应的多个数据库表以及参考提示文本，各个数据库表包括表名、表描述、字段名、字段别名以及字段描述等；参考提示文本用于描述生成要求和目标领域的领域规则。服务器将多个数据库表以及参考提示文本输入大语言模型401，由该大语言模型401基于该参考提示文本对各个数据库表进行处理，输出各个数据库表的初始查询文本以及该初始查询文本对应的初始SQL语句。服务器对初始查询文本进行修正，得到查询文本。服务器对该初始查询文本对应的初始SQL语句进行语法修正、时间修正以及规则处理，得到参考SQL语句，该查询文本和该参考SQL语句组成训练语句生成模型的初始样本。

303、对于该多个数据库表中的任一数据库表，服务器基于该数据库表的查询文本在该数据库表中进行召回，得到该数据库表中的目标字段，该目标字段为与该数据库表的查询文本相关的字段。

其中，在该数据库表中进行召回是为找到与查询文本相关的字段，后续能够利用这些字段来进行样本生成。

在一种可能的实施方式中，服务器将该数据库表的查询文本和该数据库表的多个字段输入字段召回模型，通过该字段召回模型在该多个字段中召回目标字段。

其中，该字段召回模型具有从数据库表中召回目标字段的能力，在本申请实施例中，该字段召回模型利用查询文本和该数据库表中多个字段之间的相似度来从该多个字段中召回目标字段。

在这种实施方式下，利用字段召回模型能够从数据库表的多个字段中召回目标字段，目标字段的召回效率较高。

举例来说，服务器将该数据库表的查询文本和该数据库表的多个字段的字段向量输入字段召回模型，通过该字段召回模型将该查询文本映射为查询文本向量。服务器通过该字段召回模型，基于该查询文本向量与该多个字段的字段向量之间的相似度，从该多个字段中召回目标字段，该目标字段的字段向量与该查询文本向量之间的相似度符合预设相似度条件，该多个字段的字段向量是由该字段召回模型映射得到的。

比如，服务器将该数据库表的查询文本和该数据库表的多个字段的字段向量输入字段召回模型，通过该字段召回模型对该查询文本进行嵌入编码，得到该查询文本的嵌入向量。服务器通过该字段召回模型，对该查询文本的嵌入向量进行线性变换和非线性变换，得到该查询文本的查询文本向量。服务器通过该字段召回模型，确定该查询文本向量与各个字段的字段向量之间的相似度。服务器将多个字段中相似度最高的前N个字段确定为目标字段，N为正整数。

其中，N由技术人员根据实际情况进行设置，本申请实施例对此不作限定。字段的字段向量是该字段召回模型对该字段的字段描述进行映射得到的，映射方式与上述对查询文本进行映射的方式属于同一发明构思，实现过程不再赘述，字段的字段描述能够从数据库表中获取。

为了对上述实施方式进行更加清楚地说明，下面对上述实施方式中将查询文本映射为查询文本向量的方式进行说明。

在一些实施例中，服务器将该数据库表的查询文本和该数据库表的多个字段的字段向量输入字段召回模型，通过该字段召回模型对该查询文本的多个字符以及各个字符在该查询文本中的位置进行嵌入编码，得到各个字符的字符嵌入向量以及位置嵌入向量。服务器通过该字段召回模型，将各个字符的字符嵌入向量以及位置嵌入向量进行融合，得到各个字符的目标嵌入向量，多个字符的目标嵌入向量组成该查询文本的嵌入向量。服务器通过该字段召回模型，对各个字符的目标嵌入向量进行线性变换，得到各个字符的查询向量、键向量以及值向量。服务器通过该字段召回模型，基于该多个字符中每两个字符的查询向量以及键向量，确定该多个字符中每两个字符之间的注意力权重。服务器通过该字段召回模型，基于该多个字符中每两个字符之间的注意力权重，将该多个字符的值向量进行加权融合，得到该查询文本的查询文本向量。其中，该查询文本向量可以视作该查询文本的语义向量，也即是，该查询文本向量能够反映该查询文本的语义。

在一些实施例中，该字段召回模型为BGE（BAAI General Embedding）模型，当然，在其他实施例中，该字段召回模型也可以为其他类型的模型，本申请实施例对此不做限定。

为了对上述实施方式进行更加清楚地说明，下面对该字段召回模型的训练方式进行说明。

在一种可能的实施方式中，对该字段召回模型的训练包括两个阶段，第一个阶段是预训练阶段，第二个阶段是微调阶段，下面分别对这两个阶段进行说明。

预训练阶段：服务器获取多个样本查询文本以及多个样本字段描述。对于该多个样本查询文本中的任一样本查询文本，服务器在该样本查询文本中设置第一比例的掩码，得到第一样本输入文本，掩码用于替换样本查询文本中的字符。服务器在该样本查询文本中设置第二比例的掩码，得到第二样本输入文本，该第二比例高于该第一比例。服务器通过第一模型的编码器将该第一样本输入文本映射为第一样本向量，该第一模型为未完成预训练的字段召回模型，该编码器为使用字段召回模型时将输入的查询文本映射为查询文本向量的部分。服务器通过该第一模型的解码器，基于该第二样本输入文本以及该第一样本向量进行解码，得预测查询文本。服务器基于该预测查询文本与该样本查询文本之间的差异信息，对该第一模型进行训练，也即是对该第一模型的编码器和解码器的参数进行调整。

其中，第一比例和第二比例由技术人员根据实际情况进行设置，比如将第一比例设置为（15%-30%），将第二比例设置为（50%-70%），本申请实施例对此不做限定。该第一模型的编码器致力于编码出质量更高的第一样本向量，从而帮助解码器还原输入的样本查询文本。通过这种训练方式，能够提高第一模型的编码器的能力。另外，上述是以样本查询文本作为训练样本为例进行说明的，在训练该第一模型的过程中，还会采用样本字段描述来执行上述训练过程，实现过程与上述描述属于同一发明构思，实现过程不再赘述。

需要说明的是，上述是以对第一模型进行一轮训练为例进行说明，第一模型的预训练阶段需要经过多轮训练，每轮训练的过程与上述描述属于同一发明构思。

在一些实施例中，为了使得训练出的字段召回模型的能力与目标领域更加适配，在对第一模型进行预训练之前，服务器采用目标领域下的词汇替换样本查询文本以及样本字段描述中的同义词，从而实现对样本查询文本以及样本字段描述的数据增强。另外，也可以在对第一模型进行预训练的过程中引入R-Drop（Regularized Dropout），从而提高第一模型的稳定性。

在介绍完预训练阶段之后，对微调阶段进行说明，在后续说明过程中，将经过预训练的模型称为第二模型。

微调阶段：服务器获取各个样本查询文本的正负样本对，正负样本对包括正样本和负样本，正样本为与对应样本查询文本匹配的样本字段描述，负样本为与对应样本查询文本不匹配的样本字段描述。服务器将各个样本查询文本以及对应的正负样本对输入第二模型，通过第二模型将各个样本查询文本、对应的正样本和负样本分别映射为样本查询文本向量、正样本向量以及负样本向量。服务器基于样本查询文本向量分别与正样本向量以及负样本向量之间的相似度，对该第二模型进行训练。其中，训练的目的是使得样本查询文本向量与正样本向量之间的相似度提高，与负样本向量之间的相似度降低。经过多轮微调，得到最终的字段召回模型。

下面对上述步骤303的另一种实施方式进行说明。

在一种可能的实施方式中，服务器对该数据库表的查询文本进行文本扩展，得到该数据库表的查询文本的多个扩展查询文本，该多个扩展查询文本为与该数据库表的查询文本语义相近的查询文本。服务器基于该数据库表的查询文本以及该多个扩展查询文本，从该数据库表的多个字段中确定目标字段。

其中，文本扩展是指将查询文本扩展为语义相近的扩展查询文本的过程。

在这种实施方式下，利用文本扩展将查询文本扩展为多个扩展查询文本，利用查询文本和多个扩展查询文本从数据库表中召回目标字段，提高了目标字段的多样性。

第一部分、服务器对该数据库表的查询文本进行文本扩展，得到该数据库表的查询文本的多个扩展查询文本。

在一种可能的实施方式中，服务器将该查询文本中的词汇采用同义词进行替换，得到多个扩展查询文本。

在这种实施方式下，利用同义词替换就能实现对查询文本的文本扩展，效率较高。

在一种可能的实施方式中，服务器将该查询文本输入文本扩展模型，通过该文本扩展模型对该查询文本进行文本扩展，得到该查询文本的多个扩展查询文本。

在这种实施方式下，利用文本扩展模型来对查询文本进行文本扩展，能够高效地获取更具多样性的扩展查询文本。

举例来说，服务器将该查询文本输入文本扩展模型，通过该文本扩展模型将该查询文本编码为查询文本向量。服务器生成符合目标分布的多个随机向量。

服务器将查询文本向量分别与多个随机向量进行融合，得到待解码的多个扩展文本向量。服务器通过该文本扩展模型，分别对该多个扩展文本向量进行解码，得到该多个扩展查询文本。

其中，该目标分布为高斯分布。

第二部分、服务器基于该数据库表的查询文本以及该多个扩展查询文本，从该数据库表的多个字段中确定目标字段。

在一种可能的实施方式中，服务器基于该数据库表的查询文本以及该多个扩展查询文本中的词汇在该目标领域中的重要程度对该数据库表的查询文本以及该多个扩展查询文本进行评分，得到该数据库表的查询文本的分数以及该多个扩展查询文本的分数。服务器基于数据库表的查询文本的分数以及该多个扩展查询文本的分数，从该数据库表的查询文本以及该多个扩展查询文本中确定多个目标查询文本，该目标查询文本的分数符合预设分数条件。服务器采用各个目标查询文本中的词汇与该数据库表的多个字段进行文本匹配，得到目标字段，该目标字段是与目标查询文本中词汇匹配成功的字段。

其中，文本匹配是为了找到相同的词汇和字段，在数据库表的多个字段中存在任一与目标查询文本中的词汇相同的字段的情况下，该字段被获取为目标字段。在一些实施例中，词汇在目标领域中的重要程度可以通过词汇在目标领域的词频-逆文件频率（TermFrequency–Inverse Document Frequency，TF-IDF）来表示。分数符合预设分数条件是指分数最高的前M个，M为正整数，M由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

下面对本申请提供的另一种召回目标字段的方式进行说明。

在一种可能的实施方式中，服务器基于该目标领域的领域规则，从该数据库表的多个字段中召回目标字段，该领域规则包括与该目标领域匹配的字段类型。

其中，目标领域的领域规则由技术人员根据实际情况进行设置和调整，本申请实施例对此不作限定。

在这种实施方式下，利用目标领域的领域规则能够实现目标字段的召回，也即是利用目标领域的特点来实现目标字段的召回，实现对召回策略的兜底，提高目标字段召回的稳定性。

需要说明的是，服务器能够通过上述至少一种实施方式来召回目标字段，本申请实施例对此不作限定。

下面将结合图5对上述步骤303进行说明，参见图5，服务器将该数据库表的查询文本和该数据库表的多个字段的字段描述输入字段召回模型501，通过字段召回模型501将查询文本映射为查询文本向量（Query向量），将字段描述映射为字段向量。服务器基于该查询文本向量与该多个字段的字段向量之间的相似度，从该多个字段中召回目标字段，这一过程被称为向量召回。服务器基于该查询文本在该多个字段中进行文本匹配，得到目标字段，这一过程也被称为词匹配召回。服务器基于该目标领域的领域规则，从该数据库表的多个字段中召回目标字段，这一过程也被称为规则召回。服务器采用上述方式召回的目标字段来进行后续处理。

304、服务器基于多个目标字段，生成该数据库表的查询文本对应的样本提示文本。

在一种可能的实施方式中，服务器按照预设方式将该多个目标字段进行组合，得到该数据库表的查询文本对应的初始提示文本。服务器对该初始提示文本进行文本扩展得到该数据库表的查询文本对应的样本提示文本。

其中，该预设方式由技术人员根据实际情况进行设置和调整，本申请实施例对此不作限定。在一些实施例中，提示文本包括表描述、列维度、列指标、列枚举值以及查询时间等字段，按照预设方式组合目标字段是指根据目标字段的类型将目标字段进行组合，得到具有加高信噪比的初始提示文本（Prompt）。

在这种实施方式下，按照预设方式将多个目标字段进行组合，就能够得到初始提示文本，对初始提示文本进行文本扩展能够得到样本提示文本，样本提示文本的获取效率较高，多样性较好。

在一些实施例中，服务器在样本提示文本的目标词汇前后加入目标符号，以突出样本提示文本中的目标词汇。

其中，目标词汇是指与目标领域相关性（重要程度）较高的词汇，目标符号由技术人员根据实际情况进行设置，比如设置为#，本申请实施例对此不做限定。

在这种实施方式下，能够使模型在处理样本提示文本时更加关注目标词汇，提高处理结果与目标领域的适配性。

305、服务器基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句，训练该目标领域的语句生成模型，该语句生成模型用于基于输入的提示文本生成对应的SQL语句。

在一种可能的实施方式中，服务器将该多个样本提示文本分别输入该语句生成模型，通过该语句生成模型分别对该多个样本提示文本分别进行处理，得到各个样本提示文本的预测SQL语句。服务器将基于各个样本提示文本的预测SQL语句与参考SQL语句之间的差异信息，对该目标领域的语句生成模型进行训练。

其中，该语句生成模型为一个大语言模型，对该语句生成模型进行训练的目的是使得该语句生成模型生成的预测SQL语句与对应的参考SQL语句尽可能接近。

第一部分、服务器将该多个样本提示文本分别输入该语句生成模型，通过该语句生成模型分别对该多个样本提示文本分别进行处理，得到各个样本提示文本的预测SQL语句。

在一种可能的实施方式中，对于该多个样本提示文本中的任一样本提示文本，服务器通过该语句生成模型对该样本提示文本进行编码，得到该样本提示文本的提示文本特征。服务器通过该语句生成模型，对该样本提示文本的提示文本特征进行解码，得到该样本提示文本对应的SQL语句框架和SQL语句字段。服务器通过该语句生成模型，将该样本提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该样本提示文本的预测SQL语句。

其中，SQL语句框架是指SQL语句的骨架（Skteton），是SQL语句的形式。SQL语句字段是待填充到SQL语句框架中的字段，SQL语句字段的数量为多个。

在这种实施方式下，利用语句生成模型的两阶段SQL语句生成能力来生成预测SQL语句，能够提高预测SQL语句的准确性。

为了对上述实施方式进行说明，下面将再分为几个部分对上述实施方式进行说明。

A、服务器通过该语句生成模型对该样本提示文本进行编码，得到该样本提示文本的提示文本特征。

在一种可能的实施方式中，服务器通过该语句生成模型，对该样本提示文本进行嵌入编码，得到该样本提示文本的嵌入特征。服务器通过该语句生成模型，对该嵌入特征进行线性变换和非线性变换，得到该样本提示文本的提示文本特征。

举例来说，服务器通过该语句生成模型，对该样本提示文本的多个字符以及各个字符在该样本提示文本中的位置进行嵌入编码，得到各个字符的字符嵌入特征以及位置嵌入特征。服务器通过该语句生成模型，将各个字符的字符嵌入特征以及位置嵌入特征进行融合，得到各个字符的目标嵌入特征，多个字符的目标嵌入特征组成该样本提示文本的嵌入特征。服务器通过该语句生成模型，对各个字符的目标嵌入特征进行线性变换，得到各个字符的查询特征、键特征以及值特征。服务器通过该语句生成模型，基于该多个字符中每两个字符的查询特征以及键特征，确定该多个字符中每两个字符之间的注意力权重。服务器通过该语句生成模型，基于该多个字符中每两个字符之间的注意力权重，将该多个字符的值特征进行加权融合，得到该样本提示文本的提示文本特征。

B、服务器通过该语句生成模型，对该样本提示文本的提示文本特征进行解码，得到该样本提示文本对应的SQL语句框架和SQL语句字段。

在一种可能的实施方式中，服务器通过该语句生成模型，对该样本提示文本的提示文本特征进行多轮迭代解码，得到该样本提示文本对应的SQL语句框架以及SQL语句字段。

举例来说，在第一轮解码过程中，服务器通过该语句生成模型，对该提示文本特征和开始符号进行解码，得到SQL语句框架的第一个字符。在第二轮迭代解码过程中，服务器通过该语句生成模型，对该提示文本特征、开始符号以及该第一个字符进行解码，得到SQL语句框架的第二个字符，以此类推，直至解码出分隔符，表示SQL语句框架解码完毕，后续迭代解码会解码出SQL语句字段。在解码出结束符合的情况下，表示SQL语句字段也解码结束，此时能够得到SQL语句框架和SQL语句字段。

C、服务器通过该语句生成模型，将该样本提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该样本提示文本的预测SQL语句。

在一种可能的实施方式中，服务器通过该语句生成模型，根据SQL语句字段的字段类型，将SQL语句字段填充到SQL语句框架中，得到该预测SQL语句。

下面将结合图6对上述步骤A、步骤B和步骤C进行说明，参见图6，服务器通过该语句生成模型601对该样本提示文本进行编码，得到该样本提示文本的提示文本特征，其中，该样本提示文本包括表名、表描述、字段名、字段别名、字段描述、字段枚举、维度列、指标列以及时间等。服务器通过该语句生成模型601，对该样本提示文本的提示文本特征进行解码，得到该样本提示文本对应的SQL语句框架和SQL语句字段。服务器通过该语句生成模型，将该样本提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该样本提示文本的预测SQL语句。

第二部分、服务器将基于各个样本提示文本的预测SQL语句与参考SQL语句之间的差异信息，对该目标领域的语句生成模型进行训练。

在一种可能的实施方式中，服务器基于各个样本提示文本的预测SQL语句与参考SQL语句之间的差异信息，确定损失函数的梯度。服务器基于该损失函数的梯度，采用反向传播的方式来调整语句生成模型的模型参数，从而实现对语句生成模型的训练。

在一些实施例中，采用上述实施方式对语句生成模型进行训练之前，服务器还能够采用下述方式来对语句生成模型进行预训练。

在一种可能的实施方式中，服务器采用样本数据集对该语句生成模型进行预训练，该样本数据集包括多个样本文本以及各个样本文本对应的标注SQL语句。

其中，该样本数据集为开源NL2SQL数据集、NL2SQL相关比赛数据集、业务场景下沉淀的NL2SQL数据集等，本申请实施例对此不作限定。

在这种实施方式下，利用样本数据集对该语句生成模型进行预训练，能够使得语句生成模型具有一定的NL2SQL能力，有助于提高语句生成模型的训练效果。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

除了上述语句生成模型的训练方法之外，本申请实施例还提供了一种语句生成方法，参见图7，以执行主体为服务器为例，方法包括下述步骤。

701、服务器获取目标提示文本。

其中，目标提示文本为待转化为SQL语句的文本，目标提示文本为用户输入的文本。

702、服务器将该目标提示文本输入语句生成模型，通过该语句生成模型对该目标提示文本进行处理，得到该目标提示文本的目标SQL语句，该目标SQL语句用于查询目标领域对应的目标数据库。

其中，该语句生成模型是基于该目标数据库的多个数据库表以及该目标领域训练得到，也即是通过上述步骤201-201203或者上述步骤301-201305训练得到的。

在一种可能的实施方式中，服务器通过该语句生成模型对该目标提示文本进行编码，得到该目标提示文本的提示文本特征。服务器通过该语句生成模型，对该目标提示文本的提示文本特征进行解码，得到该目标提示文本对应的SQL语句框架和SQL语句字段。服务器通过该语句生成模型，将该目标提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该目标提示文本的预测SQL语句。

为了对上述实施方式进行说明，下面将分为几个部分对上述实施方式进行说明。

第一部分、服务器通过该语句生成模型对该目标提示文本进行编码，得到该目标提示文本的提示文本特征。

在一种可能的实施方式中，服务器通过该语句生成模型，对该目标提示文本进行嵌入编码，得到该目标提示文本的嵌入特征。服务器通过该语句生成模型，对该嵌入特征进行线性变换和非线性变换，得到该目标提示文本的提示文本特征。

举例来说，服务器通过该语句生成模型，对该目标提示文本的多个字符以及各个字符在该目标提示文本中的位置进行嵌入编码，得到各个字符的字符嵌入特征以及位置嵌入特征。服务器通过该语句生成模型，将各个字符的字符嵌入特征以及位置嵌入特征进行融合，得到各个字符的目标嵌入特征，多个字符的目标嵌入特征组成该目标提示文本的嵌入特征。服务器通过该语句生成模型，对各个字符的目标嵌入特征进行线性变换，得到各个字符的查询特征、键特征以及值特征。服务器通过该语句生成模型，基于该多个字符中每两个字符的查询特征以及键特征，确定该多个字符中每两个字符之间的注意力权重。服务器通过该语句生成模型，基于该多个字符中每两个字符之间的注意力权重，将该多个字符的值特征进行加权融合，得到该目标提示文本的提示文本特征。

第二部分、服务器通过该语句生成模型，对该目标提示文本的提示文本特征进行解码，得到该目标提示文本对应的SQL语句框架和SQL语句字段。

在一种可能的实施方式中，服务器通过该语句生成模型，对该目标提示文本的提示文本特征进行多轮迭代解码，得到该目标提示文本对应的SQL语句框架以及SQL语句字段。

下面将结合图6对上述步骤A和步骤B进行说明，参见图6，服务器通过该语句生成模型对该目标提示文本进行编码，得到该目标提示文本的提示文本特征，其中，该目标提示文本包括表名、表描述、字段名、字段别名、字段描述、字段枚举、维度列、指标列以及时间等。服务器通过该语句生成模型，对该目标提示文本的提示文本特征进行解码，得到该目标提示文本对应的SQL语句框架和SQL语句字段。

第三部分、服务器通过该语句生成模型，将该目标提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该目标提示文本的预测SQL语句。

图8是本申请实施例提供的一种语句生成模型的训练系统的结构示意图，参见图8，系统包括：文本和语句生成模块801、问题生成模块802以及训练模块803。

文本和语句生成模块801，用于基于多个数据库表以及目标领域，生成各个数据库表的查询文本以及该查询文本对应的参考SQL语句，该多个数据库表属于该目标领域对应的目标数据库。将各个数据库表的查询文本以及该查询文本对应的参考SQL语句输入问题生成模块802。

该问题生成模块802，用于基于各个数据库表以及各个数据库表的查询文本，生成该查询文本对应的样本提示文本，该样本提示文本用于查询该多个数据库表中的字段。将该查询文本对应的样本提示文本输入训练模块803。

该训练模块803，用于基于多个样本提示文本以及各个样本提示文本对应的参考SQL语句，训练语句生成模型，该语句生成模型用于基于输入的问题生成该目标领域对应的SQL语句。

在一种可能的实施方式中，该文本和语句生成模块801，用于确定该目标领域对应的参考提示文本，该参考提示文本用于提示生成该目标领域对应的查询文本以及参考SQL语句的方式。将该多个数据库表和该参考提示文本输入大语言模型，通过该大语言模型对该多个数据库表和该参考提示文本进行处理，得到各个数据库表的查询文本以及对应的参考SQL语句。

在一种可能的实施方式中，该文本和语句生成模块801，用于由该大语言模型基于该参考提示文本对各个数据库表进行处理，输出各个数据库表的初始查询文本以及该初始查询文本对应的初始SQL语句。基于该目标领域的SQL规则，对各个数据库表对应的初始SQL语句进行纠错，得到各个数据库表对应的参考SQL语句，该SQL规则包括SQL语法和SQL结构。对各个数据库表的初始查询文本进行数据增强，得到各个数据库表的查询文本。

在一种可能的实施方式中，该问题生成模块802，用于对于该多个数据库表中的任一数据库表，基于该数据库表的查询文本在该数据库表中进行召回，得到该数据库表中的目标字段，该目标字段为与该数据库表的查询文本相关的字段。基于多个目标字段，生成该数据库表的查询文本对应的样本提示文本。

在一种可能的实施方式中，该问题生成模块802，用于执行下述至少一项：

将该数据库表的查询文本和该数据库表的多个字段输入字段召回模型，通过该字段召回模型在该多个字段中召回目标字段。

对该数据库表的查询文本进行文本扩展，得到该数据库表的查询文本的多个扩展查询文本，该多个扩展查询文本为与该数据库表的查询文本语义相近的查询文本。基于该数据库表的查询文本以及该多个扩展查询文本，从该数据库表的多个字段中确定目标字段。

在一种可能的实施方式中，该问题生成模块802，用于将该数据库表的查询文本和该数据库表的多个字段的字段向量输入字段召回模型，通过该字段召回模型将该查询文本映射为查询文本向量。通过该字段召回模型，基于该查询文本向量与该多个字段的字段向量之间的相似度，从该多个字段中召回目标字段，该目标字段的字段向量与该查询文本向量之间的相似度符合预设相似度条件，该多个字段的字段向量是由该字段召回模型映射得到的。

在一种可能的实施方式中，该问题生成模块802，用于基于该数据库表的查询文本以及该多个扩展查询文本中的词汇在该目标领域中的重要程度对该数据库表的查询文本以及该多个扩展查询文本进行评分，得到该数据库表的查询文本的分数以及该多个扩展查询文本的分数。基于数据库表的查询文本的分数以及该多个扩展查询文本的分数，从该数据库表的查询文本以及该多个扩展查询文本中确定多个目标查询文本，该目标查询文本的分数符合预设分数条件。采用各个目标查询文本中的词汇与该数据库表的多个字段进行文本匹配，得到目标字段，该目标字段是与目标查询文本中词汇匹配成功的字段。

在一种可能的实施方式中，该问题生成模块802，还用于基于该目标领域的领域规则，从该数据库表的多个字段中召回目标字段，该领域规则包括与该目标领域匹配的字段类型。

在一种可能的实施方式中，该问题生成模块802，用于按照预设方式将该多个目标字段进行组合，得到该数据库表的查询文本对应的初始提示文本。对该初始提示文本进行文本扩展得到该数据库表的查询文本对应的样本提示文本。

在一种可能的实施方式中，该训练模块803，用于将该多个样本提示文本分别输入该语句生成模型，通过该语句生成模型分别对该多个样本提示文本分别进行处理，得到各个样本提示文本的预测SQL语句。基于各个样本提示文本的预测SQL语句与参考SQL语句之间的差异信息，对该目标领域的语句生成模型进行训练。

在一种可能的实施方式中，该训练模块803，用于对于该多个样本提示文本中的任一样本提示文本，通过该语句生成模型对该样本提示文本进行编码，得到该样本提示文本的提示文本特征。通过该语句生成模型，对该样本提示文本的提示文本特征进行解码，得到该样本提示文本对应的SQL语句框架和SQL语句字段。通过该语句生成模型，将该样本提示文本对应的SQL语句框架和SQL语句字段进行组合，输出该样本提示文本的预测SQL语句。

需要说明的是：上述实施例提供的语句生成模型的训练系统在训练语句生成模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语句生成模型的训练系统与语句生成模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种语句生成系统的结构示意图，参见图9，系统包括：问题获取模块901以及处理模块902。

问题获取模块901，用于获取目标提示文本。将该目标提示文本发送给处理模块902。

该处理模块902，用于将该目标提示文本输入语句生成模型，通过该语句生成模型对该目标提示文本进行处理，得到该目标提示文本的目标SQL语句，该目标SQL语句用于查询目标领域对应的目标数据库。

其中，该语句生成模型是基于该目标数据库的多个数据库表以及该目标领域训练得到。

需要说明的是：上述实施例提供的语句生成系统在语句生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语句生成系统与语句生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（CentralProcessing Units，CPU）1001和一个或多个的存储器1002，其中，所述一个或多个存储器1002中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备1000还可以具有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的语句生成模型的训练方法或语句生成方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘 (Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述语句生成模型的训练方法或语句生成方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语句生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于多个数据库表以及目标领域，生成各个所述数据库表的查询文本以及所述查询文本对应的参考SQL语句，包括：

确定所述目标领域对应的参考提示文本，所述参考提示文本用于提示生成所述目标领域对应的查询文本以及参考SQL语句的方式；

将所述多个数据库表和所述参考提示文本输入大语言模型，通过所述大语言模型对所述多个数据库表和所述参考提示文本进行处理，得到各个所述数据库表的查询文本以及对应的参考SQL语句。

3.根据权利要求2所述的方法，其特征在于，所述通过所述大语言模型对所述多个数据库表和所述参考提示文本进行处理，得到各个所述数据库表的查询文本以及对应的参考SQL语句，包括：

由所述大语言模型基于所述参考提示文本对各个所述数据库表进行处理，输出各个所述数据库表的初始查询文本以及所述初始查询文本对应的初始SQL语句；

基于所述目标领域的SQL规则，对各个所述数据库表对应的初始SQL语句进行纠错，得到各个所述数据库表对应的参考SQL语句，所述SQL规则包括SQL语法和SQL结构；

对各个所述数据库表的初始查询文本进行数据增强，得到各个所述数据库表的查询文本。

4.根据权利要求1所述的方法，其特征在于，所述基于各个所述数据库表以及各个所述数据库表的查询文本，生成所述查询文本对应的样本提示文本，包括：

对于所述多个数据库表中的任一数据库表，基于所述数据库表的查询文本在所述数据库表中进行召回，得到所述数据库表中的目标字段，所述目标字段为与所述数据库表的查询文本相关的字段；

基于多个目标字段，生成所述数据库表的查询文本对应的样本提示文本。

5.根据权利要求4所述的方法，其特征在于，所述基于所述数据库表的查询文本在所述数据库表中进行召回，得到所述数据库表中的目标字段，包括下述至少一项：

6.一种语句生成方法，其特征在于，所述方法包括：

获取目标提示文本；

7.一种语句生成模型的训练系统，其特征在于，所述系统包括：

8.一种语句生成系统，其特征在于，所述系统包括：

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的语句生成模型的训练方法，或实现如权利要求6所述的语句生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的语句生成模型的训练方法，或实现如权利要求6所述的语句生成方法。