CN116737759B

CN116737759B - 一种基于关系感知注意力的中文查询生成sql语句方法

Info

Publication number: CN116737759B
Application number: CN202311018828.5A
Authority: CN
Inventors: 张睿恒; 曹哲; 徐立新; 刘雨蒙; 赵怡婧; 徐帆江
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-08
Anticipated expiration: 2043-08-14
Also published as: CN116737759A

Abstract

本发明涉及一种基于关系感知注意力的中文查询生成SQL语句方法，属于计算机自然语言处理和数据库查询语句生成技术领域。本发明在生成SQL语句时引入了SAT‑SQL模型框架，并将其应用在复杂中文语境下，使得生成的SQL语句更加准确地反映用户查询的意图，能够更好地理解中文查询的含义。在生成SQL语句时，还引入了基于MacBERT模型的编码策略，利用MacBERT模型的嵌入能力，在编码查询语句时更全面地考虑了单词之间的语义关联。通过引入语法检查机制，确保生成的SQL语句不存在语法错误。对比现有技术，本发明能够更好地解决中文查询到SQL语句的转换问题，在复杂中文查询生成SQL语句的效率、准确性和可读性方面都具有明显优势。

Description

一种基于关系感知注意力的中文查询生成SQL语句方法

技术领域

本发明涉及一种基于关系感知注意力的中文查询生成SQL语句方法，属于计算机自然语言处理和数据库查询语句生成技术领域。

背景技术

数据库查询语句生成，是计算机数据库管理系统领域的一项重要研究内容。在日常的数据库应用中，用户通常使用结构化查询语言（Structured Query Language，简称SQL）来检索和操作数据库中的数据。然而，对于复杂查询需求或者普通用户而言，编写复杂的SQL查询语句是一项具有挑战性的任务，因为它需要对数据库结构和SQL语法有深入的了解，这使得在数据库查询领域寻找更为智能、高效的方法成为必然需求。

为了满足用户的便捷查询需求，特别是能够让普通用户轻松使用中文语言来生成复杂的SQL查询语句，需要借助自然语言处理技术对中文语言进行编码和处理。

自然语言处理（Natural Language Processing，简称NLP）技术是计算机科学与人工智能领域的重要研究方向之一，其目标是使计算机能够理解、处理和生成自然语言，从而实现计算机与人之间的自然交互。在人工智能和数据驱动决策的浪潮下，NLP技术在许多领域中扮演着至关重要的角色，其中包括数据库查询语句生成领域。RAT-SQL模型等语言模型通过将NLP技术与数据库查询相结合，可以使得计算机能够理解和解释用户用自然语言表达的查询意图，并将其转化为准确的SQL查询语句，从而为用户提供更加智能、高效的查询体验。

在中文环境下，复杂查询的编写更为复杂，这是因为中文表达的灵活性和多义性，令理解用户意图和准确翻译成SQL语句更具挑战性。现有的一些方法尝试通过基于模板匹配的方式来实现中文查询到SQL语句的转换，然而，这些方法面临着语义理解不准确、覆盖面不广、可扩展性差等一系列问题。为了克服这些困难，需要更加创新的方法，使数据库查询变得更加智能、高效，并为用户提供更为便捷的数据访问体验。

发明内容

本发明的目的是针对现有技术存在的缺点和不足，为了解决，提升模型对中文语境下自然语言指令的信息不失真提取能力和SQL语句的生成准确率，创造性地提出一种基于关系感知注意力的中文查询生成SQL语句方法。本方法采用SAT-SQL、MacBERT等先进技术，能够更好地解决中文查询到SQL语句的转换问题，为数据库查询语句生成领域带来重要的技术进步和应用价值，

本发明采取以下技术方案实现。

一种基于关系感知注意力的中文查询生成SQL语句方法，包括以下步骤：

步骤1：数据库结构编码。

对SQL语法进行详细分析，并针对数据库结构进行编码，包括数据库的表名、列名、列类型、主键、外键，得到一个包含表格格式的待匹配图结构。

图结构能够有效地反应数据库的格式，降低SQL语句解析的复杂度，从而便于后续匹配向量的准确解码。

步骤2：数据预处理，通过端口获取中文查询指令。

首先获取中文查询指令，然后预处理中文查询指令，对中文查询指令进行切片划分，之后对非中文字符替换为预定义词表中对应的中文词汇。

同时，本发明还设计了保存替换后的非中文字符的备查表，以备后续查询还原键值。这样的预处理操作为后续的向量化和编码提供了有力支持。

步骤3：构建编码器，进一步提高复杂中文查询指令的处理效率和准确性。

预处理后的自然语言文本被向量化并进行编码。为了提取复杂中文查询指令的语义信息，本发明采用transformer结构，从而获得指令的深度语义空间表示。

具体地，编码器使用的transformer结构构成的注意力机制，包含偏置项以获取提前定义的数据库结构，由此实现对指令的编码：

,

其中，表示注意力向量，/>表示加权系数，/>；Q、K、V分别为查询、键和值；/>、/>、/>、分别表示Q、K、V的权重参数；/>表示通过注意力层后的嵌入向量；/>表示归一化值；/>表示词向量通道维度；T表示转置；/>、/>为两输入元素/>和元素/>间的关系集，，右上角标表示通过不同的位置输入；H为transformer的head个数；

步骤4：构建基于语法树的SQL语句生成解码器。

利用深度嵌入的特征向量，解码器能够生成深度优先遍历顺序的抽象语法树；通过遍历语法树，能够根据解码输出的动作信号对应生成SQL语句，实现复杂SQL语句的多层嵌套：

，

其中，表示此时刻隐结点输出，/>、/>分别为上一时刻的隐结点输出和状态，/>为输入的嵌入向量，/>为解码器；

步骤5：利用语法鉴别器判断SQL语法。

引入语法鉴别器，如果符合语法和逻辑，则将查询结果按需输出给用户，或者直接进行数据库查询；

如果不符合语法和逻辑，则重新进行分词和编解码生成，确保生成的SQL语句符合规范。

优选地，结构编码中的结构为类似多叉树的多层图结构。

优选地，预处理过程中的中文查询指令划分，按照Jieba分词库进行划分。

优选地，编码器包括有基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块，其中，MacBERT只在本地数据集上做微调而不进行训练，特征感知模块参数参与训练。

优选地，解码器包括有语法树生成模块和动作输出模块。其中，语法树生成调整模块使用全连接层，动作输出模块使用长短时记忆网络LSTM，其动作来自于LSTM的状态量输出。

优选地，鉴别器使用多层线性层构成的分类头，对输入进行二分类。

有益效果

本发明，与现有技术相比，具有以下优点：

1.本方法建立了复杂中文环境下的语义解析机制。

相较于现有技术，本发明在生成SQL语句时引入了更先进的SAT-SQL模型框架，并将其应用在复杂中文语境下。这使得生成的SQL语句更加准确地反映用户查询的意图，从而避免了模糊或错误的查询结果。通过深度学习和自然语言理解技术，本发明能够更好地理解中文查询的含义，并将其转化为相应的SQL语句，提高了查询结果的准确性和可信度。

2.本发明引入更可靠的编码策略。

本发明在生成SQL语句时还引入了基于MacBERT模型的编码策略。在SQL语句生成过程中，本发明还引入了基于MacBERT模型的编码策略。MacBERT是一种基于中文语言环境的预训练自然语言处理模型，具备强大的语义理解和表征能力，弥补了使用BERT等模型在中英文理解方面存在的差距。通过利用MacBERT模型的嵌入能力，本发明在编码查询语句时更全面地考虑了单词之间的语义关联，从而生成更准确、更连贯的SQL语句，提高了查询结果的可读性和合理性。

3.本发明引入语法检查机制。

本发明通过引入语法检查机制，确保生成的SQL语句不存在语法错误。通过检查机制，用户提交的中文查询将被准确地翻译成合法的SQL语句，避免了因语法错误导致的查询失败或错误结果的问题。这对于普通用户而言尤为重要，因为他们通常不具备熟练的SQL语法知识，通过本发明可以更加高效地使用中文进行复杂查询。

综上所述，通过以上创新点的实现，本发明在复杂中文查询生成SQL语句的效率、准确性和可读性方面都具有明显的优势。它不仅提高了数据库查询的性能和用户体验，还降低了使用数据库的门槛，使得复杂查询变得更加智能化、便捷化，为自然语言处理和数据库查询语句生成领域带来了重要的技术进步和应用价值。

附图说明

图1是本发明方法的整体流程图；

图2是本发明的编码器模块框架图；

图3是基于注意力机制的特征关系感知模块流程图；

图4是SQL语法树生成查询流程图。

具体实施方式

下面结合附图对本发明方法的具体实施过程做进一步详细说明。

如图1所示，一种基于关系感知注意力的中文查询生成SQL语句方法，包括以下步骤：

步骤1：数据库结构编码。

通过对数据库结构进行编码，建立SQL和自然语言数据之间的连接，通过对编码结构树的查找，实现生成的伪SQL语句到真实SQL语句的转换。

具体地，首先，针对SQL语法进行详细分析。通过解析SQL语法，筛选其中的重要元素，包括关键词、操作符、函数，确保在后续处理中能够准确提取和操作这些信息。

然后，对数据库的结构进行编码，包括表名、列名、列类型、主键、外键等。为每个数据库元素分配唯一的标识符，目的是在向量化和编码过程中准确表示数据库结构。

之后，构建待匹配图结构。例如，可以将数据库结构信息组织成如表1所示的图结构，包含表格格式和元素之间的关联关系，便于后续匹配向量的准确解码。

表1 数据库待匹配图结构关系表

步骤2：数据预处理，通过端口获取中文查询指令。

首先，获取中文查询指令，通过端口/接口获取用户输入的中文查询指令S；

然后，预处理中文查询指令，对中文查询指令S进行切片划分，将其分解成词语或者字的序列S：

,

其中，表示第N个字；

最后，非中文字符处理，将中文查询指令中的非中文字符替换为预定义词表中对应的中文词汇；同时，保留替换前的非中文字符在备查表中，以备后续查询还原键值；即：

，

其中，表示转换后的查询；/>，表示从其他语言到中文的映射；/>表示转换字。

编码器将中文自然语言指令映射到深度语义空间，为SQL生成提供可用的潜在特征。编码器中包含基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块，如图2所示。

首先，向量化预处理后的自然语言文本。具体地，使用MacBERT预训练模型将预处理后的中文查询指令转换为向量表示，以便计算其语义信息。

然后，使用transformer结构构建注意力机制。具体地，通过注意力机制，提取查询指令的深度语义空间表示，用于后续编码和解码。如图3所示。

，

其中，表示注意力向量，/>表示加权系数，/>；Q、K、V分别为查询、键和值；/>、/>、/>、分别表示Q、K、V的权重参数；/>表示通过注意力层后的嵌入向量；/>表示归一化值；/>表示词向量通道维度；T表示转置；/>、/>为两输入元素/>和元素/>间的关系集，右上角标表示通过不同的位置输入；H为transformer的head个数；

之后，编码查询指令；利用上述构建的注意力机制对查询指令进行编码，得到指令的语义表示向量。进一步地，如图4所示，在编码过程中，引入偏置项，以获取提前定义的数据库编码结构，实现对指令间关系的精确编码：

，

其中，、/>为两输入元素/>和元素/>间的关系集，右上角标表示通过不同的位置输入；/>，通过预定义的边/>将包括表、列在内的结构联系起来；

最后，通过带有残差连接的结构进行编码输出：

，

其中，为最终输出的编码向量，/>为待输出变量，/>为层归一化，/>为线性层，/>为激活函数。

步骤4：构建基于语法树的SQL语句生成解码器。

解码器生成最终的SQL语句，由于transformer和LSTM的模型差异，直接对深度语义空间解析存在困难，本发明设计的解码器包括语法树生成调整模块和动作输出模块，以逐步生成可用的SQL语句。

首先，使用语法树生成调整模块重构特征。具体的，利用多层全连接层，重构由编码器得到的嵌入向量，以消除模型结构差异带来的语义间隙，即：，表示，/>表示多层全连接层，/>表示；

然后，使用动作输出模块基于语法树的SQL语句生成；利用生成调整模块得到的查询指令语义表示向量，构建解码器进行SQL语句生成；长短时记忆网络LSTM根据语义表示向量生成深度优先遍历顺序的抽象语法树，该树表示SQL语句的组成结构和操作过程，如图4所示，LSTM的功能如下式所示：

，

其中，表示当前结点输出，/>表示当前结点的父结点输出，/>表示当前结点类型，/>表示当前细胞状态，下标/>表示上一状态变量；

通过LSTM的持续输出在语法树进行遍历，生成最终的SQL语句。

步骤5：利用语法鉴别器判断SQL语法。

鉴别器作为最终输出规范性的保证，尽管通过生成树生成的SQL语句在格式上不会出现错误，但是逻辑和功能上有可能无法允许。为了避免错误情况的发生，引入语法鉴别器以保证输出的有效性。

首先，鉴别SQL语法和逻辑。具体地，为确保生成的SQL语句符合严格的SQL语法和处理逻辑，引入语法鉴别器D：

，

其中，表示/>函数输出；/>表示解码器生成的指令；

然后，判断是否符合查询SQL语句的语法与逻辑，其中：

符合规范的查询输出：如果生成的SQL语句符合语法和逻辑，即D=1，将查询结果按需输出给用户，或者直接进行数据库查询；

不符合规范的重新生成：如果生成的SQL语句不符合语法和逻辑，即D=0，则重新进行分词和编解码生成，直至生成符合规范的SQL语句。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，包括以下步骤：

步骤1：对数据库结构进行编码，建立SQL和自然语言数据之间的连接，通过对编码结构树的查找，实现生成的伪SQL语句到真实SQL语句的转换；

步骤2：数据预处理，通过端口获取中文查询指令；

首先获取中文查询指令，然后预处理中文查询指令，对其进行切片划分，之后对非中文字符替换为预定义词表中对应的中文词汇，同时，保存替换后的非中文字符的备查表，以备后续查询还原键值；

步骤3：构建编码器；

编码器使用的transformer结构构成的注意力机制，包含偏置项以获取提前定义的数据库结构，实现对指令的编码；

编码器包含基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块；

首先，向量化预处理后的自然语言文本，使用MacBERT预训练模型将预处理后的中文查询指令转换为向量表示；

然后，使用transformer结构构建注意力机制，通过注意力机制提取查询指令的深度语义空间表示，用于后续编码和解码：

，

其中，表示注意力向量，/>表示加权系数，/>；/>、/>、/>分别为查询、键和值；/>、/>、/>分别表示/>、/>、/>的权重参数；/>表示通过注意力层后的嵌入向量；/>表示归一化值；/>表示词向量通道维度；/>表示转置；/>为transformer的head个数；

之后，编码查询指令；利用上述构建的注意力机制对查询指令进行编码，得到指令的语义表示向量；

在编码过程中，引入偏置项，获取提前定义的数据库编码结构，实现对指令间关系的精确编码：

，

最后，通过带有残差连接的结构进行编码输出：

，

其中，为最终输出的编码向量，/>为待输出变量，/>为层归一化，为线性层，/>为激活函数；

步骤4：构建基于语法树的SQL语句生成解码器；

，

其中，表示此时刻隐结点输出，/>、/>分别为上一时刻的隐结点输出和状态，为输入的嵌入向量，/>为解码器；

步骤5：利用语法鉴别器判断SQL语法；

2.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，步骤1包括以下步骤：

首先针对SQL语法进行详细分析；解析SQL语法，筛选其中的重要元素，包括关键词、操作符、函数，确保在后续处理中能够准确提取和操作这些信息；

然后，对数据库的结构进行编码，包括表名、列名、列类型、主键、外键；为每个数据库元素分配唯一的标识符；

之后，构建待匹配图结构，包含表格格式和元素之间的关联关系。

3.如权利要求2所述的一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，结构编码中的结构为多层图结构。

4.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，步骤2包括以下步骤：

首先，获取中文查询指令，通过端口/接口获取用户输入的中文查询指令；

然后，预处理中文查询指令，对中文查询指令进行切片划分，将其分解成词语或者字的序列/>：

，

其中，表示第/>个字；

，

5.如权利要求4所述的一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，预处理过程中，中文查询指令划分，按照Jieba分词库进行划分。

6.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法，其特征在于，步骤5中，首先鉴别SQL语法和逻辑，引入语法鉴别器：

，

其中，表示/>函数输出；/>表示解码器生成的指令；

然后，判断是否符合查询SQL语句的语法与逻辑，其中：

符合规范的查询输出：如果生成的SQL语句符合语法和逻辑，即，将查询结果按需输出给用户，或者直接进行数据库查询；

不符合规范的重新生成：如果生成的SQL语句不符合语法和逻辑，即，则重新进行分词和编解码生成，直至生成符合规范的SQL语句。