CN116991869A

CN116991869A - 一种基于nlp语言模型自动生成数据库查询语句的方法

Info

Publication number: CN116991869A
Application number: CN202310909307.2A
Authority: CN
Inventors: 周训游; 江何; 史普力; 闫劲阳; 邹佳彬
Original assignee: Beijing Testor Technology Co ltd
Current assignee: Beijing Testor Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-03

Abstract

本发明公开了一种基于NLP语言模型自动生成数据库查询语句的方法，获取用户上传的文本查询请求数据，基于NLP语言模型，对该文本查询请求数据进行自然语言转换处理，抽取自然语言对应的参数数据，该参数数据包括自然语言中的实体、属性及隐含的关系；基于深度学习模型，对自然语言对应的参数数据进行查询语句关联分析，通过分析获取查询语句关联结果；基于查询语句关联结果，将自然语言中的参数数据进行查询转换处理，获取数据库查询语句。该方法提高了自动生成数据库查询语句的准确率，通过获取数据库查询语句使构成完整的SQL语句更可靠，避免查询语句匹配错误的问题，进一步提高了根据数据库查询语句查找数据的准确率。

Description

一种基于NLP语言模型自动生成数据库查询语句的方法

技术领域

本发明涉及自然语言生成技术领域，尤其涉及一种基于NLP语言模型自动生成数据库查询语句的方法。

背景技术

人们的自然语言问题通常有表达方式多样，用词较为口语化等特点，因此，自然语言查询技术逐渐兴起，目前在自然语言查询技术领域中，存在以下问题：受限于中文语料的缺失，目前自然语言查询的研究多集中在英文领域，在中文方面是个空白；目前的自然语言查询方案集中于从自然语言问句中提取SQL查询语句的关键字，忽略了真实场景中需要定位到目标关系数据库表的需求；在从自然语言问句中提取SQL查询语句的关键字的时候，存在多个条件提取不精确、提取出的条件值错误匹配等问题。

因此，现在急需一种基于NLP语言模型自动生成数据库查询语句的方法。

发明内容

本发明提供了一种基于NLP语言模型自动生成数据库查询语句的方法，以解决现有技术中存在的人们的自然语言问题通常有表达方式多样，用词较为口语化等特点，因此，自然语言查询技术逐渐兴起，目前在自然语言查询技术领域中，存在以下问题：受限于中文语料的缺失，目前自然语言查询的研究多集中在英文领域，在中文方面是个空白；目前的自然语言查询方案集中于从自然语言问句中提取SQL查询语句的关键字，忽略了真实场景中需要定位到目标关系数据库表的需求；在从自然语言问句中提取SQL查询语句的关键字的时候，存在多个条件提取不精确、提取出的条件值错误匹配等问题的上述问题。

为了达到上述目的，本发明提供如下技术方案：

一种基于NLP语言模型自动生成数据库查询语句的方法，包括：

S101：获取用户上传的文本查询请求数据，基于NLP语言模型，对该文本查询请求数据进行自然语言转换处理，抽取自然语言对应的参数数据，该参数数据包括自然语言中的实体、属性及隐含的关系；

S102：基于深度学习模型，对自然语言对应的参数数据进行查询语句关联分析，通过分析获取查询语句关联结果；

S103：基于查询语句关联结果，将自然语言中的参数数据进行查询转换处理，获取数据库查询语句。

其中，S101步骤包括：

S1011：基于近邻语义向量思想获取历史查询问题的目标数据库表，通过自然语言问句对目标数据库表进行定位训练和推理，构建NLP语言模型；

S1012：当获取用户的文本查询请求数据时，基于NLP语言模型，提取文本查询请求数据中的关键词，该关键词与目标数据库中自然语言对应的参数数据进行自动匹配；

S1013：自动匹配后对自然语言对应的参数数据进行提取操作，其中，在自动匹配中对关键词与目标数据库中自然语言进行相似度区分操作。

其中，S102步骤包括：

S1021：基于用户查询文本所处的真实场景，构建句向量空间，通过句向量空间存储训练语料中所有自然语言查询的语义向量；

S1022：从自然语言问句中提取SQL查询语句中的关键字时，将关键字划分为不同的子任务；

S1023：将不同子任务中的关键字作为训练集输入深度学习模型进行训练，将所有子任务的训练结果通过查询语句进行关联，通过深度学习模型输出查询语句关联结果。

其中，S103步骤包括：

S1031：将SQL查询关键字的生成字符划分为预测SQL子句的列数目、列、聚合符，再将划分的子任务的结果进行合并获取查询语句；

S1032：基于查询语句关联结果，将查询语句进行SQL查询转换，获取SQL查询语句；

S1033：管理端对SQL查询语句进行查询准确率评估，获取评估结果，基于评估结果对深度学习模型进行更新。

其中，S1011步骤包括：

在基于近邻语义向量思想获取历史查询问题的目标数据库表过程中，将所有的原始数据问题投影到句向量样本空间中，然后对于每一个新输入的自然语言问句，在经过编码获取自然语言问句向量后，将在句向量空间中找到与自然语言问句向量距离最近的句向量及数据库表ID，将数据库表ID作为新输入的自然语言问句的目标数据库表ID。

其中，S1023步骤包括：

在通过深度学习模型输出查询语句关联结果过程中，将自然语言问句与对应数据库表的表头各列进行拼接，拼接后输入到词向量预训练模型中进行编码，通过编码获取对应的输出结果，将该输出结果分别输入到不同的深度学习模型中进行预测，获取SQL查询语句中对应的各个关键字；本任务根据对应的关键字进行划分，获取不同的子任务，最后将不同的输出结果进行整合处理，获取所预测的SQL查询语句；

其中，本任务包括预测WHERE子句中的各条件之间的连接符、预测SELECT子句的列的数目、预测WHERE子句中的条件数目、预测SELECT子句的各列及对应的聚合符、预测WHERE子句中的各条件中的列、预测WHERE子句中各条件的比较符号、预测WHERE子句中的各条件中的条件值。

其中，S1013步骤包括：

S1013步骤包括：

在对关键词与目标数据库中自然语言进行相似度区分操作过程中，将自然语言输入相似度分析模型中，利用相似度分析模型分析出自然语句的整体句法结构以及自然语句对应的关键词所处应用场景，然后对自然语句进行分层，获取语句的有效成分序列，根据分层及语句的有效成分序列，确定语句在标签库中对应的标题字段，判断语句是否有相似词对，若有相似词对，则计算语句的相似度，若没有相似度词对，则重新输入下一个的自然语言，再次对新输入的自然语句进行相似度计算。

其中，S1032步骤包括：

在将划分的子任务的结果进行合并获取查询语句过程中，对局部语句中的上下文信息进行提取，基于卷积神经网络技术获取文本序列位置信息，通过池化层获取关键文本信息，根据时间序列逐词处理关键文本信息，通过隐藏节点来传递前文短期记忆，最后，采用双向卷积神经网络或双向长短期记忆网络结构，将关键文本信息划分为不同上下文对应结果。

其中，在通过深度学习模型对自然语句问句进行处理过程中，基于各自然语句问句中生成结果对应列表，选择对应列表与列表之间的关系和产生JOIN路径的条件来生成SQL查询语句中的来源子句；

选定来源子句中的一个节点作为基准点，通过在基准点上使用广度优先遍历算法来获取到其他节点的JOIN路径。

其中，在获取到其他节点的JOIN路径时，通过斯坦纳树生成算法获取最优的JOIN路径；

斯坦纳树生成算法包括通过列表集合和数据库模式图构建查询完整图，由查询完整图获取小于预设值的生成树，对生成树进行处理获取对应的最短路径，将最短路径中不必要的节点进行删除，获取斯坦纳树，基于斯坦纳树获取JOIN路径后，再根据JOIN路径表的关联关系产生JOIN条件，获取来源子句。

与现有技术相比，本发明具有以下优点：

一种基于NLP语言模型自动生成数据库查询语句的方法，包括：获取用户上传的文本查询请求数据，基于NLP语言模型，对该文本查询请求数据进行自然语言转换处理，抽取自然语言对应的参数数据，该参数数据包括自然语言中的实体、属性及隐含的关系；基于深度学习模型，对自然语言对应的参数数据进行查询语句关联分析，通过分析获取查询语句关联结果；基于查询语句关联结果，将自然语言中的参数数据进行查询转换处理，获取数据库查询语句。该方法提高了自动生成数据库查询语句的准确率，通过获取数据库查询语句使构成完整的SQL语句更可靠，避免查询语句匹配错误的问题，进一步提高了根据数据库查询语句查找数据的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于NLP语言模型自动生成数据库查询语句的方法的流程图；

图2为本发明实施例中获取用户上传的文本查询请求数据的流程图；

图3为本发明实施例中获取查询语句关联结果的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于NLP语言模型自动生成数据库查询语句的方法，包括：

上述技术方案的工作原理为：用户输入的自然语言查询请求将通过NLP语言模型进行自然语言转换处理，该模型抽取自然语言中的实体、属性及隐含关系，得到参数数据，这样做的原因在于将自然语言转化成结构化数据，便于后续处理，例如，用户输入“请告诉我最近一周内销售额最高的产品类型”，模型识别出实体为“产品类型”，属性为“销售额”，关系为“最近一周内”；

通过深度学习模型，将自然语言参数数据进行查询语句关联分析，这样做的目的是建立自然语言参数数据与后续生成的数据库查询语句之间的关联，例如，根据之前的例子，模型将属性“销售额”与实体“产品类型”进行关联，并识别出时间条件“最近一周内”；

根据查询语句关联结果，利用预设的转换规则将自然语言中的参数数据转换为数据库查询语句；例如，针对前面的例子，生成的数据库查询语句为“SELECT product_typeFROM sales_data WHERE date>＝curdate()-interval 7day ORDER BY sales DESCLIMIT 1”。

从而实现了从自然语言到数据库查询语句的自动转换，实现用户通过自然语言快速获取查询结果的需求。

上述技术方案的有益效果为：用户通过自然语言直接进行查询，无需专业编写数据库查询语句，极大地提高查询效率；降低了编写数据库查询语句的技能门槛，使得非专业人员也能进行数据库查询；可以广泛应用于各种自动化查询系统，如智能客服系统、智能语音助手等，拓展了数据库访问技术在实际场景中的应用范围。

在另一实施例中，S101步骤包括：

上述技术方案的工作原理为：在数据库数据样本空间足够大的情况下，用户所提出的问题大多数是类似的，集中于数据库表中的某一项或者某几项，在这种情况下，用户所提出的问题也大多具有相似的的语义，因此，对于同一个数据库表提出的自然语言查询问句具有相似的语义，需要对数据库中的语句构建对于的语义向量定位目标表；

对于一句自然语言问句，在数据库中的数据中找出与其语义最相近的自然语言问句，将找到的问句对应的数据库表分配到当前问句，作为当前问句的目标数据库表；基于近邻语义向量思想获取历史查询问题的目标数据库表，通过自然语言问句对目标数据库表进行定位训练和推理，构建NLP语言模型；当获取用户的文本查询请求数据时，基于NLP语言模型，提取文本查询请求数据中的关键词，该关键词与目标数据库中自然语言对应的参数数据进行自动匹配；自动匹配后对自然语言对应的参数数据进行提取操作，其中，在自动匹配中对关键词与目标数据库中自然语言进行相似度区分操作。

上述技术方案的有益效果为：基于近邻语义向量思想获取历史查询问题的目标数据库表，通过自然语言问句对目标数据库表进行定位训练和推理，构建NLP语言模型；当获取用户的文本查询请求数据时，基于NLP语言模型，提取文本查询请求数据中的关键词，该关键词与目标数据库中自然语言对应的参数数据进行自动匹配；自动匹配后对自然语言对应的参数数据进行提取操作，其中，在自动匹配中对关键词与目标数据库中自然语言进行相似度区分操作。自然语言查询技术将用户描述需求的自然语言转换为对应数据库上的查询语言，快速获得信息，而不需要用户掌握较为复杂的数据库概念模式以及SQL查询语言等技术。对于用户来说，减少了工作量，降低了门槛，只需要简洁明了的描述自己的查询需求即可。

在另一实施例中，S102步骤包括：

S1023：将不同子任务中的关键字作为训练集输入深度学习模型进行训练，将所有子任务的训练结果通过查询语句进行关联，通过深度学习模型输出查询语句关联结果，构建深度学习模型。

上述技术方案的工作原理为：基于用户查询文本所处的真实场景，构建句向量空间，通过句向量空间存储训练语料中所有自然语言查询的语义向量；从自然语言问句中提取SQL查询语句中的关键字时，将关键字划分为不同的子任务；将不同子任务中的关键字作为训练集输入深度学习模型进行训练，将所有子任务的训练结果通过查询语句进行关联，通过深度学习模型输出查询语句关联结果。其中，这个过程中，需要考虑到自然语言问句中的众多限制：多个查询条件、查询条件值的提取、条件列与条件值如何匹配等问题。

上述技术方案的有益效果为：基于用户查询文本所处的真实场景，构建句向量空间，通过句向量空间存储训练语料中所有自然语言查询的语义向量；从自然语言问句中提取SQL查询语句中的关键字时，将关键字划分为不同的子任务；将不同子任务中的关键字作为训练集输入深度学习模型进行训练，将所有子任务的训练结果通过查询语句进行关联，通过深度学习模型输出查询语句关联结果。减少了用户的工作量，降低了门槛，用户只需要简洁明了的描述自己的查询需求即可。

在另一实施例中，S103步骤包括：

上述技术方案的工作原理为：将SQL查询关键字的生成字符划分为预测SQL子句的列数目、列、聚合符；当用户输入自然语言查询时，系统使用NLP模型解析用户的意图，将用户输入的查询语句划分为预测SQL子句的列数目、列、聚合符；例如，用户输入“查询员工部门、性别、年龄的平均年龄”，NLP模型将其转换为三个列名：员工部门、性别、年龄和一个聚合符：平均年龄；

将划分的子任务的结果进行合并获取查询语句；将列和聚合符，以及预测的SQL子句的列数目进行合并，得到完整的查询语句；例如，根据用户的输入，系统可以生成查询语句：SELECT部门、性别、年龄、AVG(年龄)FROM员工表；

基于查询语句关联结果，将查询语句进行SQL查询转换，获取SQL查询语句；系统通过查询数据库中的元数据得知表名、列名、数据类型等信息，将生成的查询语句转换为SQL语句；例如，根据查询语句，系统将其转换为SELECT department,gender,age,AVG(age)FROM EmployeeTable；

管理端对SQL查询语句进行查询准确率评估，获取评估结果，基于评估结果对深度学习模型进行更新；系统对自动生成的SQL查询语句进行准确率评估，并将评估结果反馈给管理端；修改NLP模型的参数和优化算法，提高其准确率，并更新模型；

其中，在对SQL查询关键字的生成字符进行处理中，将自然语言问句与数据库表的表头拼接在一起输入到词向量中进行编码，根据编码所得的不同向量，分别输入到不同的网络结构中，在不同的网络中，分别对子任务进行预测输出。在当前模式下，所有子任务联合训练，最终将各子任务输出的结果整合到SQL查询语句中。将该问题划分成多个子任务分别解决具有的优点是便于观测不同子任务的分别表现，可以有针对性的进行改进提高。当前模式的自然语言查询模型具有转换准确的优点。

上述技术方案的有益效果为：通过自动生成SQL语句，简化了用户查询数据库的流程，提高了查询效率；使用自然语言进行查询，避免了用户对SQL语言的学习和掌握，降低了查询难度；通过NLP模型的优化和SQL查询语句准确度的评估，可以逐步提高自动生成SQL查询语句的准确性；减少了用户的工作量，降低了门槛，用户只需要简洁明了的描述自己的查询需求即可。

在另一实施例中，S1011步骤包括：

上述技术方案的工作原理为：将原始数据中的每一个自然语言问句都输入到句向量模型中，将输出的所有句向量存到集合中作为一个句向量空间。对于新输入的自然语言问句，将其输入到句向量模型中，得到该问句对应的句向量，将所得句向量与句向量空间中的每个句向量计算距离以寻得距离与当前句向量最为接近的样本句向量。需要注意的是，这里得到的距离指的是语义上的距离，它衡量的是两个问句在语义上的距离有多远，在该方法中，两个自然语言问句的距离越相近，就代表两者更有可能在同一个数据库表上执行SQL查询，考虑到在实际应用场景中，对模型的处理速度有较高要求，这里使用两个句向量的关联值来度量两个自然语言问句之间的距离。

在获取历史查询问题的目标数据库表过程中，将所有的原始数据问题投影到句向量样本空间中，使用聚类算法将相似的问题划分到同一个簇中，并将簇的质心作为代表性问题；对于每一个输入的自然语言问句，通过词嵌入模型将自然语言问句映射为句向量，根据句向量与历史问题质心的距离，选择距离最近的历史问题所对应的目标数据库表，将该数据库表ID作为新输入自然语言问句的目标数据库表ID；对于未能匹配成功的自然语言问句，采用基于近邻语义向量思想的学习模型，对历史问题和语义向量进行训练，学习到历史问题与目标数据库表的映射关系，并预测新输入自然语言问句的目标数据库表，同时，根据新输入自然语言问句与目标数据库表的关系，继续更新模型，提高预测的准确性；该方法创造性地利用聚类算法将历史问题聚类并提取出代表性问题，将问题的空间维度降低，减小了计算量；同时使用基于近邻的模型获取最优的目标数据库表，提高了查询的准确性和效率。通过对未匹配的自然语言问句的迭代训练，可以不断提高预测模型的准确性，避免对人工干预的依赖。

上述技术方案的有益效果为：在基于近邻语义向量思想获取历史查询问题的目标数据库表过程中，将所有的原始数据问题投影到句向量样本空间中，然后对于每一个新输入的自然语言问句，在经过编码获取自然语言问句向量后，将在句向量空间中找到与自然语言问句向量距离最近的句向量及数据库表ID，将数据库表ID作为新输入的自然语言问句的目标数据库表ID。从而通过近邻思想对自然语言问句寻得目标数据库表。

在另一实施例中，S1023步骤包括：

上述技术方案的工作原理为：在通过深度学习模型输出查询语句关联结果过程中，将自然语言问句与对应数据库表的表头各列进行拼接，拼接后输入到词向量预训练模型中进行编码，通过编码获取对应的输出结果，将该输出结果分别输入到不同的深度学习模型中进行预测，获取SQL查询语句中对应的各个关键字；本任务根据对应的关键字进行划分，获取不同的子任务，最后将不同的输出结果进行整合处理，获取所预测的SQL查询语句；其中，本任务包括预测WHERE子句中的各条件之间的连接符、预测SELECT子句的列的数目、预测WHERE子句中的条件数目、预测SELECT子句的各列及对应的聚合符、预测WHERE子句中的各条件中的列、预测WHERE子句中各条件的比较符号、预测WHERE子句中的各条件中的条件值。

上述技术方案的有益效果为：在通过深度学习模型输出查询语句关联结果过程中，将自然语言问句与对应数据库表的表头各列进行拼接，拼接后输入到词向量预训练模型中进行编码，通过编码获取对应的输出结果，将该输出结果分别输入到不同的深度学习模型中进行预测，获取SQL查询语句中对应的各个关键字；本任务根据对应的关键字进行划分，获取不同的子任务，最后将不同的输出结果进行整合处理，获取所预测的SQL查询语句；其中，本任务包括预测WHERE子句中的各条件之间的连接符、预测SELECT子句的列的数目、预测WHERE子句中的条件数目、预测SELECT子句的各列及对应的聚合符、预测WHERE子句中的各条件中的列、预测WHERE子句中各条件的比较符号、预测WHERE子句中的各条件中的条件值。实现了从自然语言问句到SQL查询语句的端到端的解决方案，弥补了目前的研究中少有“目标数据库表定位”的缺陷，同时考虑了应用到实际场景中，对模型的处理时间具有较高的要求。

在另一实施例中，S1013步骤包括：

S1013步骤包括：

上述技术方案的工作原理为：在对关键词与目标数据库中自然语言进行相似度区分操作过程中，将自然语言输入相似度分析模型中，利用相似度分析模型分析出自然语句的整体句法结构以及自然语句对应的关键词所处应用场景，然后对自然语句进行分层，获取语句的有效成分序列，根据分层及语句的有效成分序列，确定语句在标签库中对应的标题字段，判断语句是否有相似词对，若有相似词对，则计算语句的相似度，若没有相似度词对，则重新输入下一个的自然语言，再次对新输入的自然语句进行相似度计算。

在产生的新数据上会导致较严重的数据失衡问题。因此，需要解决数据失衡问题，在二次处理数据的时候需要遵循以下规则来限制新生成数据的分布：对于任意一个自然语言问句，从所属的数据库表和不同属一个表内的自然语言问句中分开选；对于任意一个自然语言问句，在选取对应pair内的另一个问句时，选取同一个表内的数目记作a，选取不在同一个表内的数目记作b，a和b满足a:b＝4:1的关系。

上述技术方案的有益效果为：S1013步骤包括：

在对关键词与目标数据库中自然语言进行相似度区分操作过程中，将自然语言输入相似度分析模型中，利用相似度分析模型分析出自然语句的整体句法结构以及自然语句对应的关键词所处应用场景，然后对自然语句进行分层，获取语句的有效成分序列，根据分层及语句的有效成分序列，确定语句在标签库中对应的标题字段，判断语句是否有相似词对，若有相似词对，则计算语句的相似度，若没有相似度词对，则重新输入下一个的自然语言，再次对新输入的自然语句进行相似度计算。避免查询语句匹配错误的问题，进一步提高了根据数据库查询语句查找数据的准确率。

在另一实施例中，S1032步骤包括：

上述技术方案的工作原理为：在将划分的子任务的结果进行合并获取查询语句过程中，对局部语句中的上下文信息进行提取，基于卷积神经网络技术获取文本序列位置信息，通过池化层获取关键文本信息，根据时间序列逐词处理关键文本信息，通过隐藏节点来传递前文短期记忆，最后，采用双向卷积神经网络或双向长短期记忆网络结构，将关键文本信息划分为不同上下文对应结果。

为捕获上下文信息，很多模型采用双向RNN或双向LSTM结构，最终合并为不同上下文对应结果。如ELMo使用两层双向LSTM用于编码上下文以捕获句法和语义特征，左侧双层LSTM表示前向编码器，按照从左至右的顺序输入上文预测下文；右侧双层LSTM代表逆向编码器，由右至左输入下文预测上文，以此获取上下文特征。预训练阶段，ELMo利用语言模型获得词向量表示；在下游任务中，根据不同的上下文语境调整先前获得的词向量，以提高其准确性和适应能力。通过将预训练技术运用于语言模型，有效地应对了同一词语在不同上下文场景中的一词多义问题。

上述技术方案的有益效果为：在将划分的子任务的结果进行合并获取查询语句过程中，对局部语句中的上下文信息进行提取，基于卷积神经网络技术获取文本序列位置信息，通过池化层获取关键文本信息，根据时间序列逐词处理关键文本信息，通过隐藏节点来传递前文短期记忆，最后，采用双向卷积神经网络或双向长短期记忆网络结构，将关键文本信息划分为不同上下文对应结果。有效地应对了同一词语在不同上下文场景中的一词多义问题。

在另一实施例中，在通过深度学习模型对自然语句问句进行处理过程中，基于各自然语句问句中生成结果对应列表，选择对应列表与列表之间的关系和产生JOIN路径的条件来生成SQL查询语句中的来源子句；

上述技术方案的工作原理为：根据自然语言查询解析出查询的表名、列名和关系，生成对应的结果列表；当用户输入自然语言查询时，系统使用NLP模型解析用户的意图，将用户输入的查询语句转换为结果列表，包括表名、列名和关系；例如，用户输入“查询出‘订单’表和‘客户’表中的所有订单、客户名称和订单日期”，结果列表为[订单,客户,订单日期,客户名称]；

根据结果列表之间的关系，选择对应列表与列表之间的JOIN路径条件，生成SQL查询语句中的来源子句；根据结果列表的关系，选择不同的JOIN条件，并根据条件生成SQL查询语句中的来源子句；例如，如果结果列表为[订单,客户,订单日期,客户名称]，生成的SQL查询语句中的来源子句为[FROM订单JOIN客户ON订单.客户ID＝客户.ID]；

选定来源子句中的一个节点作为基准点，通过在基准点上使用广度优先遍历算法来获取到其他节点的JOIN路径；在来源子句中选定一个节点作为基准点，使用广度优先遍历算法来获取到其他节点的JOIN路径；例如，对于SQL查询语句FROM订单JOIN客户ON订单.客户ID＝客户.ID，选择订单作为基准点，使用广度优先遍历算法获取客户节点。

将JOIN路径添加到SQL查询语句中，生成完整的SQL查询语句；将获取的JOIN路径添加到SQL查询语句中，得到完整的SQL查询语句；例如，对于SQL查询语句FROM订单JOIN客户ON订单.客户ID＝客户.ID，将获取到的JOIN路径客户添加到查询语句中，得到SELECT订单.订单日期,客户.客户名称FROM订单JOIN客户ON订单.客户ID＝客户.ID。

上述技术方案的有益效果为：通过自动化处理自然语句问句中的结果列表和条件，生成完整的SQL查询语句，无需用户手动编写，提高了查询的效率与准确性；使用深度学习模型处理自然语句问句，能减少人为的错误率，提高了SQL查询语句的准确性；自动识别关联关系和JOIN路径条件，能够避免用户疏漏和错误，提高查询效率。

在另一实施例中，在获取到其他节点的JOIN路径时，通过斯坦纳树生成算法获取最优的JOIN路径；

上述技术方案的工作原理为：当获取到其他节点的JOIN路径时，使用斯坦纳树生成算法获取最优的JOIN路径，包括：利用列表集合和数据库模式图构建查询完整图；获取小于预设值的生成树，该生成树是一个基本的连接图，节点代表数据库表或子查询，边代表连接；对生成树进行处理获取对应的最短路径，并删除最短路径中不必要的节点，以获取斯坦纳树；基于斯坦纳树获取JOIN路径，根据JOIN路径表的关联关系产生JOIN条件，并获取来源子句(FROM子句)；该方法采用斯坦纳树生成算法获取最优的JOIN路径，能够在保证精准度的前提下，尽可能地减少JOIN操作的数量，提高查询效率和速度。

该方法适用于那些需要查询大规模数据集、或数据之间复杂关联、表关系不明显的情况，并优化JOIN操作的查询操作。

例如对于一个自然语句问句：“找到销售额超过1000的销售数据，并将其按照产品分类和区域进行汇总统计”，该方法可以自动解析出相关的数据表和关联关系，并生成对应的SQL查询语句；针对自然语言问句进行解析，生成对应的SQL查询语句，其中包括需要连接的数据表和关联关系；根据上述方法，获取最优的JOIN路径；基于JOIN路径表的关联关系，生成JOIN条件，获取来源子句(FROM子句)；将条件子句(WHERE子句)中的条件与自然语言问句中的条件进行匹配，获取最终的SQL查询语句。

上述技术方案的有益效果为：通过斯坦纳树生成算法获取最优的JOIN路径，将JOIN操作的数量最小化，提高查询效率和速度；同时该方法能够自动解析自然语言问句，并转化为对应的SQL查询语句，解放了用户的重复操作，提高了用户的使用体验，也提高了数据查询的精准度和效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，包括：

2.根据权利要求1所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S101步骤包括：

3.根据权利要求1所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S102步骤包括：

4.根据权利要求1所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S103步骤包括：

5.根据权利要求2所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S1011步骤包括：

6.根据权利要求3所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S1023步骤包括：

在通过深度学习模型输出查询语句关联结果过程中，将自然语言问句与对应数据库表的表头各列进行拼接，拼接后输入到词向量预训练模型中进行编码，通过编码获取对应的输出结果，将该输出结果分别输入到不同的深度学习模型中进行预测，获取SQL查询语句中对应的各个关键字；本任务根据对应的关键字进行划分，获取不同的子任务，最后将不同的输出结果进行整合处理，获取所预测的SQL查询语句。

7.根据权利要求2所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S1013步骤包括：

在对关键词与目标数据库中自然语言进行相似度区分操作过程中，将自然语言输入相似度分析模型中，利用相似度分析模型分析出自然语句的整体句法结构以及自然语句对应的关键词所处应用场景，然后对自然语句进行分层，获取语句的有效成分序列，根据分层及语句的有效成分序列，确定语句在标签库中对应的关键词所属字段，判断语句是否有相似词对，若有相似词对，则计算语句的相似度，若没有相似度词对，则重新输入下一个的自然语言，再次对新输入的自然语句进行相似度计算。

8.根据权利要求4所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，S1032步骤包括：

9.根据权利要求6所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，在通过深度学习模型对自然语句问句进行处理过程中，基于各自然语句问句中生成结果对应列表，选择对应列表与列表之间的关系和产生JOIN路径的条件来生成SQL查询语句中的来源子句；

10.根据权利要求9所述的一种基于NLP语言模型自动生成数据库查询语句的方法，其特征在于，在获取到其他节点的JOIN路径时，通过斯坦纳树生成算法获取最优的JOIN路径；