CN117235108A

CN117235108A - 一种基于图神经网络的nl2sql生成方法

Info

Publication number: CN117235108A
Application number: CN202311509687.7A
Authority: CN
Inventors: 谷满昌
Original assignee: Yunzhu Information Technology Chengdu Co ltd
Current assignee: Yunzhu Information Technology Chengdu Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2023-12-15

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于图神经网络的NL2SQL生成方法，该方法包括：基于自然语言问题和数据库项得到输入序列，采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵；构建问题和数据库的交互规则，并基于自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合；根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量，将边关系向量作为相对位置进行编码，计算任一节点的向量表示；基于AST语法树和节点的向量表示，采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码，计算预测结果。本发明能更好地学习结构化查询语言的相关特征。

Description

一种基于图神经网络的NL2SQL生成方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于图神经网络的NL2SQL生成方法。

背景技术

在数字革命的时代，数据已经成为驱动几乎所有人类活动不可或缺的必需品，目前数据通常存储在关系数据库系统中，而要在数据库中的表中搜索信息则必须了解SQL，这对专业技能要求很高，普通用户很难做到，缺乏SQL知识的用户很难访问和搜索数据库中的信息。

近年来，基于自然语言到SQL(NL2SQL)的问答系统已成为一个研究热点。NL2SQL可以分为两个研究方向:(1)基于规则模板的方法，即根据常见的SQL语法对自然语言进行分类，并将不同的类别与之匹配SQL模板，该方法需要人工总结经验，并且时间成本高；此外，随着应用场景的切换，现有模板往往难以满足需求，移动性差；(2)基于深度学习的方法，采用神经网络进行端到端实现；该方法具有精度高、适应性强等优点，越来越受到工业界的重视。

然而与广泛开展的英语NL2SQL任务研究相比，中文NL2SQL任务的研究更为复杂，现有工作较少，而且大多集中在简单的SQL语句上。中文NL2SQL任务的难点在于中文问题中没有分词，因此歧义的概率很高。此外，汉语中同义词较多，表达方式也更加多样化，这进一步增加了机器理解的难度。在实践中，数据库中存储的表和列的名称通常是用英文存储的，这使得从中文自然语言表达式中推断它们所指的表和列变得更加困难。

因此，本发明提供了一种基于图神经网络的NL2SQL生成方法，以至少解决上述部分技术问题。

发明内容

本发明要解决的技术问题是：提供一种基于图神经网络的NL2SQL生成方法，以至少解决上述部分技术问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于图神经网络的NL2SQL生成方法，包括以下步骤：

步骤1、基于自然语言问题和数据库项得到输入序列，采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵；

步骤2、构建问题和数据库的交互规则，并基于自然语言问题中的单词、数据库项的数据列名和数据表名得到图的节点集合；

步骤3、根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量，将边关系向量作为相对位置进行编码，计算任一节点的向量表示；

步骤4、基于AST语法树和节点的向量表示，采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码，计算预测结果。

进一步地，所述步骤1包括：步骤11、将自然语言问题Q、包括数据列名和数据表名的数据库项S压缩成一个输入序列P，并且采用令牌表示序列开始、序列结束和序列间隔；步骤12、采用上下文编码器对输入序列P进行编码，上下文编码器使用mBART预训练语言模型作为主干网络，图网络中节点的输出向量矩阵X为：

；

，数据库项/>，C是数据列名合集，R是实数集合，，其中每个数据列名/>包括/>个中文字符/>；T是数据表名合集，/>，其中每个数据表名/>包括/>个中文字符，；d是图隐藏层的特征维度；|Q|表示自然语言问题Q中的单词数，/>代表自然语言问题Q中第i个单词的初始化图网络节点向量表示；|T|表示数据表的数量；/>表示第i个数据表名初始化图网络节点向量表示；/>表示第i个数据表中第j个数据列名图网络节点向量表示。

进一步地，在所述步骤2中，由自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合G = (V, Rel)，自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注得到V = Q∪T∪C，Q表示自然语言问题，T是数据表名合集，C是数据列名合集，Rel是问题和数据库的交互规则。

进一步地，在所述步骤2中，问题和数据库的交互规则包括任意两节点和两节点的关系，节点包括任一自然语言问题、数据列和数据表，关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。

进一步地，在所述步骤3中，图的任意节点i与另一节点j之间的边关系向量，其中/>是一个可训练向量，t表示节点i与节点j之间的第t种关系类型，/>是关系类型的总数。

进一步地，在所述步骤3中，采用图编码器对边关系向量进行编码，图编码器使用关系图注意力网络。

进一步地，关系图注意力网络的编码包括：步骤a、将边关系向量作为相对位置编码，得到节点i与节点j之间的相似度矩阵/>，/>，/>是图隐藏层的特征维度，是两个可训练的参数矩阵，/>与/>分别是步骤1中节点i和节点j的输出向量；步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>，/>；步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>，，/>是一个可训练的参数矩阵，n是节点i对应的邻居数。

进一步地，在所述步骤4中，解码器的LSTM细胞状态的更新为：，/>是LSTM网络的更新函数，concat是连接函数，/>是激活函数，/>是上一时刻的向量表示，Root是初始化动作，/>是LSTM在第t步的输出，/>是当前节点的向量表示，/>是当前节点的父亲节点的向量表示，/>是输出向量矩阵X的第t个行向量，/>是当前时刻的输出，/>是上一时刻的输出，/>是当前时刻的遗忘门的状态。

进一步地，在所述步骤4中，若当前时刻t的输出是语法树的非叶子节点，将当前节点扩展为语法规则，预测结果/>，A是语法树的语法规则集合，RELU是线性整流函数；若当前时刻t的输出/>是语法树的叶子节点，从数据库项中选择一个数据列名或数据表名，预测结果/>，/>是一个函数，N是当前节点的邻居数，/>是当前节点与节点j之间的边关系向量。

与现有技术相比，本发明具有以下有益效果：

本发明通过引入问题和数据库的交互规则进行建模，构建了图网络，同时采用基于关系的图编码器对交互规则进行注意力分配，从而更好地帮助模型学习结构化查询语言的相关特征。

附图说明

图1为本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种基于图神经网络的NL2SQL生成方法，包括以下步骤：

步骤2、构建问题和数据库的交互规则，并基于自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合；

上下文编码器使用mBART预训练语言模型作为主干网络，获取节点和边的语义向量表示。自然语言问题Q、包括数据表名和数据列名的数据库项S被压缩成一个序列P，并用作mBART的输入。为了匹配mBART的输入，本发明附加了令牌[/s]表示序列开始、序列结束、序列间隔，P。

图网络中节点的输出向量矩阵X为：

；

构建问题和数据库的交互规则，并基于自然语言问题中的单词、数据库项的数据列名和数据表名得到图的节点集合G = (V, Rel)，自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注V = Q∪T∪C，这使得图能有效地建立问题与数据库项之间的联系，Q表示自然语言问题，T是数据表名合集，C是数据列名合集，Rel是问题和数据库的交互规则。节点数|V| = |Q| + |T| + |C|，其中|T|和|C|分别为数据表和数据列的个数。

问题和数据库的交互规则是由数据库项预定义的。问题和数据库的交互规则一部分是通过数据库的唯一结构(如外键、主键等)得到的，另一部分是通过分析验证集中的错误案例并迭代总结得到的。问题和数据库的交互规则如表1所示，包括任意两节点和两节点的关系，节点包括任一自然语言问题、数据列和数据表，关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。

表1

为了使模型能够学习边缘特征，根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量，将边关系向量作为相对位置进行编码，计算任一节点的向量表示，将图的结构信息整合到模型中，使模型能够共同学习问题与数据库项之间的关系。

图的任意节点i与另一节点j之间的边关系向量，其中/>是一个可训练向量，t表示节点i与节点j之间的第t种关系类型，/>是关系类型的总数。然后采用图编码器对边关系向量进行编码，图编码器使用关系图注意力网络（RGAT，RelationalGraph Attention Networks），关系图注意力网络的编码包括：步骤a、将边关系向量/>作为相对位置编码，得到节点i与节点j之间的相似度矩阵/>，/>，/>是图隐藏层的特征维度，/>是两个可训练的参数矩阵，/>与/>分别是步骤1中节点i和节点j的输出向量；步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>，/>；步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>，/>，/>是一个可训练的参数矩阵，n是节点i对应的邻居数，即节点i在图中存在边关系数。

本发明解码器遵循基于语法的句法神经解码器，首先将SQL结构视作一棵抽象语法树(Abstract Syntax Tree，AST)，树中的各个节点是SQL的关键字（SELECT、IF, CASE,WHERE、COUNT、AND，OR...）或者数据表（table）和数据列（column）的候选值。

通过LSTM网络输出一系列动作，LSTM的输入为图网络中节点的输出向量矩阵，根据AST语法树，在语法树的每一层动作可分为以下两类:

1)生成节点不是叶子节点，然后将当前节点扩展为语法规则，称为RELU;

2)生成节点是叶子节点，从数据库项中选择一个数据列名或数据表名，称为SELECT。

解码器的LSTM细胞状态的更新为：/>，是LSTM网络的更新函数，concat是连接函数，/>是激活函数，/>是上一时刻的向量表示，Root是初始化动作，/>是LSTM在第t步的输出，/>是当前节点的向量表示，/>是当前节点的父亲节点的向量表示，/>是输出向量矩阵X的第t个行向量，/>是当前时刻的输出，/>是上一时刻的输出，/>是当前时刻的遗忘门的状态。

若当前时刻t的输出是语法树的非叶子节点，将当前节点扩展为语法规则，预测结果/>，A是语法树的规则集合，例如：“min”、“max”，“count”，“distinct”，“group by”，“order by”等，RELU是线性整流函数；若当前时刻t的输出/>是语法树的叶子节点，从数据库项中选择一个数据列名或数据表名，预测结果，/>是一个函数，N是当前节点的邻居数、即当前节点在图中存在的边关系数，/>是当前节点与节点j之间的边关系向量。

使用CSpider数据集验证了本发明的模型性能。CSpider是由Spider数据集翻译而来的中文大型复杂跨域SQL数据集，并保留了原英文数据库。它由166个数据库的9691个问题和5263个独特的复杂SQL查询组成。如表2所示，使用精确匹配(EM)准确性评估不同模型的效果，也就是在预测的SQL和真实标注SQL查询进行字符串比较。

表2

由表2可知，本发明在CSpider数据集上的结果表明均优于以往的NL2SQL模型。

最后应说明的是：以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案，而非对其限制，当然更不是限制本发明的专利范围；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围；也就是说，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内；另外，将本发明的技术方案直接或间接的运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图神经网络的NL2SQL生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，所述步骤1包括：步骤11、将自然语言问题Q、包括数据列名和数据表名的数据库项S压缩成一个输入序列P，并且采用令牌表示序列开始、序列结束和序列间隔；步骤12、采用上下文编码器对输入序列P进行编码，上下文编码器使用mBART预训练语言模型作为主干网络，图网络中节点的输出向量矩阵X为：

；

3.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤2中，由自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合G= (V, Rel)，自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注得到V = Q∪T∪C，Q表示自然语言问题，T是数据表名合集，C是数据列名合集，Rel是问题和数据库的交互规则。

4.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤2中，问题和数据库的交互规则包括任意两节点和两节点的关系，节点包括任一自然语言问题、数据列和数据表，关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。

5.根据权利要求4所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤3中，图的任意节点i与另一节点j之间的边关系向量，其中/>是一个可训练向量，t表示节点i与节点j之间的第t种关系类型，/>是关系类型的总数。

6.根据权利要求5所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤3中，采用图编码器对边关系向量进行编码，图编码器使用关系图注意力网络。

7.根据权利要求6所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，关系图注意力网络的编码包括：步骤a、将边关系向量作为相对位置编码，得到节点i与节点j之间的相似度矩阵/>，/>，/>是图隐藏层的特征维度，/>是两个可训练的参数矩阵，/>与/>分别是步骤1中节点i和节点j的输出向量；步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>，/>；步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>，/>，/>是一个可训练的参数矩阵，n是节点i对应的邻居数。

8.根据权利要求7所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤4中，解码器的LSTM细胞状态的更新为：/>，/>是LSTM网络的更新函数，concat是连接函数，/>是激活函数，/>是上一时刻的向量表示，Root是初始化动作，/>是LSTM在第t步的输出，/>是当前节点的向量表示，/>是当前节点的父亲节点的向量表示，/>是输出向量矩阵X的第t个行向量，/>是当前时刻的输出，/>是上一时刻的输出，/>是当前时刻的遗忘门的状态。

9.根据权利要求8所述的一种基于图神经网络的NL2SQL生成方法，其特征在于，在所述步骤4中，若当前时刻t的输出是语法树的非叶子节点，将当前节点扩展为语法规则，预测结果/>，A是语法树的语法规则集合，RELU是线性整流函数；若当前时刻t的输出/>是语法树的叶子节点，从数据库项中选择一个数据列名或数据表名，预测结果/>，/>是一个函数，N是当前节点的邻居数，/>是当前节点与节点j之间的边关系向量。