CN117235108A - 一种基于图神经网络的nl2sql生成方法 - Google Patents

一种基于图神经网络的nl2sql生成方法 Download PDF

Info

Publication number
CN117235108A
CN117235108A CN202311509687.7A CN202311509687A CN117235108A CN 117235108 A CN117235108 A CN 117235108A CN 202311509687 A CN202311509687 A CN 202311509687A CN 117235108 A CN117235108 A CN 117235108A
Authority
CN
China
Prior art keywords
node
graph
data
vector
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311509687.7A
Other languages
English (en)
Inventor
谷满昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunzhu Information Technology Chengdu Co ltd
Original Assignee
Yunzhu Information Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunzhu Information Technology Chengdu Co ltd filed Critical Yunzhu Information Technology Chengdu Co ltd
Priority to CN202311509687.7A priority Critical patent/CN117235108A/zh
Publication of CN117235108A publication Critical patent/CN117235108A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体涉及一种基于图神经网络的NL2SQL生成方法,该方法包括:基于自然语言问题和数据库项得到输入序列,采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵;构建问题和数据库的交互规则,并基于自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合;根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量,将边关系向量作为相对位置进行编码,计算任一节点的向量表示;基于AST语法树和节点的向量表示,采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码,计算预测结果。本发明能更好地学习结构化查询语言的相关特征。

Description

一种基于图神经网络的NL2SQL生成方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于图神经网络的NL2SQL生成方法。
背景技术
在数字革命的时代,数据已经成为驱动几乎所有人类活动不可或缺的必需品,目前数据通常存储在关系数据库系统中,而要在数据库中的表中搜索信息则必须了解SQL,这对专业技能要求很高,普通用户很难做到,缺乏SQL知识的用户很难访问和搜索数据库中的信息。
近年来,基于自然语言到SQL(NL2SQL)的问答系统已成为一个研究热点。NL2SQL可以分为两个研究方向:(1)基于规则模板的方法,即根据常见的SQL语法对自然语言进行分类,并将不同的类别与之匹配SQL模板,该方法需要人工总结经验,并且时间成本高;此外,随着应用场景的切换,现有模板往往难以满足需求,移动性差;(2)基于深度学习的方法,采用神经网络进行端到端实现;该方法具有精度高、适应性强等优点,越来越受到工业界的重视。
然而与广泛开展的英语NL2SQL任务研究相比,中文NL2SQL任务的研究更为复杂,现有工作较少,而且大多集中在简单的SQL语句上。中文NL2SQL任务的难点在于中文问题中没有分词,因此歧义的概率很高。此外,汉语中同义词较多,表达方式也更加多样化,这进一步增加了机器理解的难度。在实践中,数据库中存储的表和列的名称通常是用英文存储的,这使得从中文自然语言表达式中推断它们所指的表和列变得更加困难。
因此,本发明提供了一种基于图神经网络的NL2SQL生成方法,以至少解决上述部分技术问题。
发明内容
本发明要解决的技术问题是:提供一种基于图神经网络的NL2SQL生成方法,以至少解决上述部分技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于图神经网络的NL2SQL生成方法,包括以下步骤:
步骤1、基于自然语言问题和数据库项得到输入序列,采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵;
步骤2、构建问题和数据库的交互规则,并基于自然语言问题中的单词、数据库项的数据列名和数据表名得到图的节点集合;
步骤3、根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量,将边关系向量作为相对位置进行编码,计算任一节点的向量表示;
步骤4、基于AST语法树和节点的向量表示,采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码,计算预测结果。
进一步地,所述步骤1包括:步骤11、将自然语言问题Q、包括数据列名和数据表名的数据库项S压缩成一个输入序列P,并且采用令牌表示序列开始、序列结束和序列间隔;步骤12、采用上下文编码器对输入序列P进行编码,上下文编码器使用mBART预训练语言模型作为主干网络,图网络中节点的输出向量矩阵X为:
,数据库项/>,C是数据列名合集,R是实数集合,,其中每个数据列名/>包括/>个中文字符/>;T是数据表名合集,/>,其中每个数据表名/>包括/>个中文字符,;d是图隐藏层的特征维度;|Q|表示自然语言问题Q中的单词数,/>代表自然语言问题Q中第i个单词的初始化图网络节点向量表示;|T|表示数据表的数量;/>表示第i个数据表名初始化图网络节点向量表示;/>表示第i个数据表中第j个数据列名图网络节点向量表示。
进一步地,在所述步骤2中,由自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合G = (V, Rel),自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注得到V = Q∪T∪C,Q表示自然语言问题,T是数据表名合集,C是数据列名合集,Rel是问题和数据库的交互规则。
进一步地,在所述步骤2中,问题和数据库的交互规则包括任意两节点和两节点的关系,节点包括任一自然语言问题、数据列和数据表,关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。
进一步地,在所述步骤3中,图的任意节点i与另一节点j之间的边关系向量,其中/>是一个可训练向量,t表示节点i与节点j之间的第t种关系类型,/>是关系类型的总数。
进一步地,在所述步骤3中,采用图编码器对边关系向量进行编码,图编码器使用关系图注意力网络。
进一步地,关系图注意力网络的编码包括:步骤a、将边关系向量作为相对位置编码,得到节点i与节点j之间的相似度矩阵/>,/>,/>是图隐藏层的特征维度,是两个可训练的参数矩阵,/>与/>分别是步骤1中节点i和节点j的输出向量;步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>,/>;步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>,/>是一个可训练的参数矩阵,n是节点i对应的邻居数。
进一步地,在所述步骤4中,解码器的LSTM细胞状态的更新为:,/>是LSTM网络的更新函数,concat是连接函数,/>是激活函数,/>是上一时刻的向量表示,Root是初始化动作,/>是LSTM在第t步的输出,/>是当前节点的向量表示,/>是当前节点的父亲节点的向量表示,/>是输出向量矩阵X的第t个行向量,/>是当前时刻的输出,/>是上一时刻的输出,/>是当前时刻的遗忘门的状态。
进一步地,在所述步骤4中,若当前时刻t的输出是语法树的非叶子节点,将当前节点扩展为语法规则,预测结果/>,A是语法树的语法规则集合,RELU是线性整流函数;若当前时刻t的输出/>是语法树的叶子节点,从数据库项中选择一个数据列名或数据表名,预测结果/>,/>是一个函数,N是当前节点的邻居数,/>是当前节点与节点j之间的边关系向量。
与现有技术相比,本发明具有以下有益效果:
本发明通过引入问题和数据库的交互规则进行建模,构建了图网络,同时采用基于关系的图编码器对交互规则进行注意力分配,从而更好地帮助模型学习结构化查询语言的相关特征。
附图说明
图1为本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种基于图神经网络的NL2SQL生成方法,包括以下步骤:
步骤1、基于自然语言问题和数据库项得到输入序列,采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵;
步骤2、构建问题和数据库的交互规则,并基于自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合;
步骤3、根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量,将边关系向量作为相对位置进行编码,计算任一节点的向量表示;
步骤4、基于AST语法树和节点的向量表示,采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码,计算预测结果。
本发明通过引入问题和数据库的交互规则进行建模,构建了图网络,同时采用基于关系的图编码器对交互规则进行注意力分配,从而更好地帮助模型学习结构化查询语言的相关特征。
上下文编码器使用mBART预训练语言模型作为主干网络,获取节点和边的语义向量表示。自然语言问题Q、包括数据表名和数据列名的数据库项S被压缩成一个序列P,并用作mBART的输入。为了匹配mBART的输入,本发明附加了令牌[/s]表示序列开始、序列结束、序列间隔,P
图网络中节点的输出向量矩阵X为:
,数据库项/>,C是数据列名合集,R是实数集合,,其中每个数据列名/>包括/>个中文字符/>;T是数据表名合集,/>,其中每个数据表名/>包括/>个中文字符,;d是图隐藏层的特征维度;|Q|表示自然语言问题Q中的单词数,/>代表自然语言问题Q中第i个单词的初始化图网络节点向量表示;|T|表示数据表的数量;/>表示第i个数据表名初始化图网络节点向量表示;/>表示第i个数据表中第j个数据列名图网络节点向量表示。
构建问题和数据库的交互规则,并基于自然语言问题中的单词、数据库项的数据列名和数据表名得到图的节点集合G = (V, Rel),自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注V = Q∪T∪C,这使得图能有效地建立问题与数据库项之间的联系,Q表示自然语言问题,T是数据表名合集,C是数据列名合集,Rel是问题和数据库的交互规则。节点数|V| = |Q| + |T| + |C|,其中|T|和|C|分别为数据表和数据列的个数。
问题和数据库的交互规则是由数据库项预定义的。问题和数据库的交互规则一部分是通过数据库的唯一结构(如外键、主键等)得到的,另一部分是通过分析验证集中的错误案例并迭代总结得到的。问题和数据库的交互规则如表1所示,包括任意两节点和两节点的关系,节点包括任一自然语言问题、数据列和数据表,关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。
表1
为了使模型能够学习边缘特征,根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量,将边关系向量作为相对位置进行编码,计算任一节点的向量表示,将图的结构信息整合到模型中,使模型能够共同学习问题与数据库项之间的关系。
图的任意节点i与另一节点j之间的边关系向量,其中/>是一个可训练向量,t表示节点i与节点j之间的第t种关系类型,/>是关系类型的总数。然后采用图编码器对边关系向量进行编码,图编码器使用关系图注意力网络(RGAT,RelationalGraph Attention Networks),关系图注意力网络的编码包括:步骤a、将边关系向量/>作为相对位置编码,得到节点i与节点j之间的相似度矩阵/>,/>,/>是图隐藏层的特征维度,/>是两个可训练的参数矩阵,/>与/>分别是步骤1中节点i和节点j的输出向量;步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>,/>;步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>,/>,/>是一个可训练的参数矩阵,n是节点i对应的邻居数,即节点i在图中存在边关系数。
本发明解码器遵循基于语法的句法神经解码器,首先将SQL结构视作一棵抽象语法树(Abstract Syntax Tree,AST),树中的各个节点是SQL的关键字(SELECT、IF, CASE,WHERE、COUNT、AND,OR...)或者数据表(table)和数据列(column)的候选值。
通过LSTM网络输出一系列动作,LSTM的输入为图网络中节点的输出向量矩阵,根据AST语法树,在语法树的每一层动作可分为以下两类:
1)生成节点不是叶子节点,然后将当前节点扩展为语法规则,称为RELU;
2)生成节点是叶子节点,从数据库项中选择一个数据列名或数据表名,称为SELECT。
解码器的LSTM细胞状态的更新为:/>是LSTM网络的更新函数,concat是连接函数,/>是激活函数,/>是上一时刻的向量表示,Root是初始化动作,/>是LSTM在第t步的输出,/>是当前节点的向量表示,/>是当前节点的父亲节点的向量表示,/>是输出向量矩阵X的第t个行向量,/>是当前时刻的输出,/>是上一时刻的输出,/>是当前时刻的遗忘门的状态。
若当前时刻t的输出是语法树的非叶子节点,将当前节点扩展为语法规则,预测结果/>,A是语法树的规则集合,例如:“min”、“max”,“count”,“distinct”,“group by”,“order by”等,RELU是线性整流函数;若当前时刻t的输出/>是语法树的叶子节点,从数据库项中选择一个数据列名或数据表名,预测结果,/>是一个函数,N是当前节点的邻居数、即当前节点在图中存在的边关系数,/>是当前节点与节点j之间的边关系向量。
使用CSpider数据集验证了本发明的模型性能。CSpider是由Spider数据集翻译而来的中文大型复杂跨域SQL数据集,并保留了原英文数据库。它由166个数据库的9691个问题和5263个独特的复杂SQL查询组成。如表2所示,使用精确匹配(EM)准确性评估不同模型的效果,也就是在预测的SQL和真实标注SQL查询进行字符串比较。
表2
由表2可知,本发明在CSpider数据集上的结果表明均优于以往的NL2SQL模型。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于图神经网络的NL2SQL生成方法,其特征在于,包括以下步骤:
步骤1、基于自然语言问题和数据库项得到输入序列,采用上下文编码器对输入序列进行编码得到图网络中节点的输出向量矩阵;
步骤2、构建问题和数据库的交互规则,并基于自然语言问题中的单词、数据库项的数据列名和数据表名得到图的节点集合;
步骤3、根据问题和数据库的交互规则得到图的节点集合中任一节点与另一节点的边关系向量,将边关系向量作为相对位置进行编码,计算任一节点的向量表示;
步骤4、基于AST语法树和节点的向量表示,采用LSTM网络作为解码器对图网络中节点的输出向量矩阵进行解码,计算预测结果。
2.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,所述步骤1包括:步骤11、将自然语言问题Q、包括数据列名和数据表名的数据库项S压缩成一个输入序列P,并且采用令牌表示序列开始、序列结束和序列间隔;步骤12、采用上下文编码器对输入序列P进行编码,上下文编码器使用mBART预训练语言模型作为主干网络,图网络中节点的输出向量矩阵X为:
,数据库项/>,C是数据列名合集,R是实数集合,,其中每个数据列名/>包括/>个中文字符/>;T是数据表名合集,/>,其中每个数据表名/>包括/>个中文字符,;d是图隐藏层的特征维度;|Q|表示自然语言问题Q中的单词数,/>代表自然语言问题Q中第i个单词的初始化图网络节点向量表示;|T|表示数据表的数量;/>表示第i个数据表名初始化图网络节点向量表示;/>表示第i个数据表中第j个数据列名图网络节点向量表示。
3.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤2中,由自然语言问题中的单词和数据库项的数据列名和数据表名得到图的节点集合G= (V, Rel),自然语言问题中的单词和数据库项的数据列名和数据表名以字符的形式标注得到V = Q∪T∪C,Q表示自然语言问题,T是数据表名合集,C是数据列名合集,Rel是问题和数据库的交互规则。
4.根据权利要求1所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤2中,问题和数据库的交互规则包括任意两节点和两节点的关系,节点包括任一自然语言问题、数据列和数据表,关系类型包括两数据列是否同表、两数据表是否包含相同主键、数据列是否是数据表的主键、数据表是否包含数据列、自然语言问题是否与数据列或数据表有关联、两自然语言问题同义或独立。
5.根据权利要求4所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤3中,图的任意节点i与另一节点j之间的边关系向量,其中/>是一个可训练向量,t表示节点i与节点j之间的第t种关系类型,/>是关系类型的总数。
6.根据权利要求5所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤3中,采用图编码器对边关系向量进行编码,图编码器使用关系图注意力网络。
7.根据权利要求6所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,关系图注意力网络的编码包括:步骤a、将边关系向量作为相对位置编码,得到节点i与节点j之间的相似度矩阵/>,/>,/>是图隐藏层的特征维度,/>是两个可训练的参数矩阵,/>与/>分别是步骤1中节点i和节点j的输出向量;步骤b、将节点i与节点j之间的相似度矩阵/>归一化得到归一化后的相似度矩阵/>,/>;步骤c、基于归一化后的相似度矩阵/>得到节点i的向量表示/>,/>,/>是一个可训练的参数矩阵,n是节点i对应的邻居数。
8.根据权利要求7所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤4中,解码器的LSTM细胞状态的更新为:/>,/>是LSTM网络的更新函数,concat是连接函数,/>是激活函数,/>是上一时刻的向量表示,Root是初始化动作,/>是LSTM在第t步的输出,/>是当前节点的向量表示,/>是当前节点的父亲节点的向量表示,/>是输出向量矩阵X的第t个行向量,/>是当前时刻的输出,/>是上一时刻的输出,/>是当前时刻的遗忘门的状态。
9.根据权利要求8所述的一种基于图神经网络的NL2SQL生成方法,其特征在于,在所述步骤4中,若当前时刻t的输出是语法树的非叶子节点,将当前节点扩展为语法规则,预测结果/>,A是语法树的语法规则集合,RELU是线性整流函数;若当前时刻t的输出/>是语法树的叶子节点,从数据库项中选择一个数据列名或数据表名,预测结果/>,/>是一个函数,N是当前节点的邻居数,/>是当前节点与节点j之间的边关系向量。
CN202311509687.7A 2023-11-14 2023-11-14 一种基于图神经网络的nl2sql生成方法 Withdrawn CN117235108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311509687.7A CN117235108A (zh) 2023-11-14 2023-11-14 一种基于图神经网络的nl2sql生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311509687.7A CN117235108A (zh) 2023-11-14 2023-11-14 一种基于图神经网络的nl2sql生成方法

Publications (1)

Publication Number Publication Date
CN117235108A true CN117235108A (zh) 2023-12-15

Family

ID=89098810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311509687.7A Withdrawn CN117235108A (zh) 2023-11-14 2023-11-14 一种基于图神经网络的nl2sql生成方法

Country Status (1)

Country Link
CN (1) CN117235108A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200133952A1 (en) * 2018-10-31 2020-04-30 International Business Machines Corporation Natural language generation system using graph-to-sequence model
CN111865647A (zh) * 2019-04-30 2020-10-30 英特尔公司 使用分解的芯片粒进行边缘计算的模块化i/o配置
CN112069199A (zh) * 2020-08-20 2020-12-11 浙江大学 一种基于中间语法树的多轮自然语言转sql方法
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统
WO2021213160A1 (zh) * 2020-11-27 2021-10-28 平安科技(深圳)有限公司 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN114185931A (zh) * 2021-12-08 2022-03-15 中国人民银行清算总中心 一种基于神经网络模型的中文语言处理方法及装置
US20220129450A1 (en) * 2020-10-23 2022-04-28 Royal Bank Of Canada System and method for transferable natural language interface
CN114489669A (zh) * 2022-01-12 2022-05-13 南京大学 一种基于图学习的Python语言代码片段生成方法
CN114692155A (zh) * 2022-05-30 2022-07-01 中国海洋大学 基于知识图谱的漏洞代码图谱构建及代码漏洞检测方法
US20220292092A1 (en) * 2019-08-15 2022-09-15 Telepathy Labs, Inc. System and method for querying multiple data sources
CN115062052A (zh) * 2022-05-10 2022-09-16 电子科技大学 一种基于图谱的从自然语言问题到sql的翻译方法
CN115576984A (zh) * 2022-09-13 2023-01-06 粤港澳国际供应链(广州)有限公司 中文自然语言生成sql语句及跨数据库查询方法
CN115809314A (zh) * 2022-11-18 2023-03-17 东南大学 基于双层多门控专家混合模型(mmoe)的多任务nl2sql方法
CN116186216A (zh) * 2022-12-30 2023-05-30 福州大学 基于知识增强和双图交互的问题生成方法及系统
CN116342228A (zh) * 2023-05-18 2023-06-27 云筑信息科技(成都)有限公司 一种基于有向图神经网络的相关推荐的方法
CN116644158A (zh) * 2023-04-10 2023-08-25 东北大学 树形槽位式高速公路出行的智能问答方法
CN116991869A (zh) * 2023-07-24 2023-11-03 北京泰策科技有限公司 一种基于nlp语言模型自动生成数据库查询语句的方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200133952A1 (en) * 2018-10-31 2020-04-30 International Business Machines Corporation Natural language generation system using graph-to-sequence model
CN111865647A (zh) * 2019-04-30 2020-10-30 英特尔公司 使用分解的芯片粒进行边缘计算的模块化i/o配置
US20220292092A1 (en) * 2019-08-15 2022-09-15 Telepathy Labs, Inc. System and method for querying multiple data sources
CN112069199A (zh) * 2020-08-20 2020-12-11 浙江大学 一种基于中间语法树的多轮自然语言转sql方法
US20220129450A1 (en) * 2020-10-23 2022-04-28 Royal Bank Of Canada System and method for transferable natural language interface
WO2021213160A1 (zh) * 2020-11-27 2021-10-28 平安科技(深圳)有限公司 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN112487020A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 用于SQL to text的图到自然语言语句的转换方法及系统
CN114185931A (zh) * 2021-12-08 2022-03-15 中国人民银行清算总中心 一种基于神经网络模型的中文语言处理方法及装置
CN114489669A (zh) * 2022-01-12 2022-05-13 南京大学 一种基于图学习的Python语言代码片段生成方法
CN115062052A (zh) * 2022-05-10 2022-09-16 电子科技大学 一种基于图谱的从自然语言问题到sql的翻译方法
CN114692155A (zh) * 2022-05-30 2022-07-01 中国海洋大学 基于知识图谱的漏洞代码图谱构建及代码漏洞检测方法
CN115576984A (zh) * 2022-09-13 2023-01-06 粤港澳国际供应链(广州)有限公司 中文自然语言生成sql语句及跨数据库查询方法
CN115809314A (zh) * 2022-11-18 2023-03-17 东南大学 基于双层多门控专家混合模型(mmoe)的多任务nl2sql方法
CN116186216A (zh) * 2022-12-30 2023-05-30 福州大学 基于知识增强和双图交互的问题生成方法及系统
CN116644158A (zh) * 2023-04-10 2023-08-25 东北大学 树形槽位式高速公路出行的智能问答方法
CN116342228A (zh) * 2023-05-18 2023-06-27 云筑信息科技(成都)有限公司 一种基于有向图神经网络的相关推荐的方法
CN116991869A (zh) * 2023-07-24 2023-11-03 北京泰策科技有限公司 一种基于nlp语言模型自动生成数据库查询语句的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MA, CHANGZHE 等: ""Integrating Relational Structure to Heterogeneous Graph for Chinese NL2SQL Parsers"", 《HTTPS://DOI.ORG/10.3390/ELECTRONICS12092093》, pages 1 - 18 *
MIAN DU 等: ""High Value Payment System Data Inquiry Using a NL2SQL Framework"", 《2022 3RD INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE, PARALLEL AND DISTRIBUTED SYSTEMS (ISPDS)》, pages 17 - 20 *
郑耀东 等: ""基于中文自然语言的SQL生成综述"", 《计算机系统应用》, pages 32 - 42 *

Similar Documents

Publication Publication Date Title
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN110781306B (zh) 一种英文文本的方面层情感分类方法及系统
CN112487190B (zh) 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
CN111680494A (zh) 相似文本的生成方法及装置
CN107844608B (zh) 一种基于词向量的句子相似度比较方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN116737759B (zh) 一种基于关系感知注意力的中文查询生成sql语句方法
Perez-Cortes et al. Stochastic error-correcting parsing for OCR post-processing
CN112101009A (zh) 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
Lyu et al. Deep learning for textual entailment recognition
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN116561251A (zh) 一种自然语言处理方法
Han et al. Lexicalized neural unsupervised dependency parsing
Song et al. Hierarchical schema representation for text-to-SQL parsing with decomposing decoding
CN116483314A (zh) 一种自动化智能活动图生成方法
CN117235108A (zh) 一种基于图神经网络的nl2sql生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20231215