CN116737759B - 一种基于关系感知注意力的中文查询生成sql语句方法 - Google Patents
一种基于关系感知注意力的中文查询生成sql语句方法 Download PDFInfo
- Publication number
- CN116737759B CN116737759B CN202311018828.5A CN202311018828A CN116737759B CN 116737759 B CN116737759 B CN 116737759B CN 202311018828 A CN202311018828 A CN 202311018828A CN 116737759 B CN116737759 B CN 116737759B
- Authority
- CN
- China
- Prior art keywords
- chinese
- sql
- query
- grammar
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008447 perception Effects 0.000 title description 2
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008929 regeneration Effects 0.000 claims description 2
- 238000011069 regeneration method Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于关系感知注意力的中文查询生成SQL语句方法,属于计算机自然语言处理和数据库查询语句生成技术领域。本发明在生成SQL语句时引入了SAT‑SQL模型框架,并将其应用在复杂中文语境下,使得生成的SQL语句更加准确地反映用户查询的意图,能够更好地理解中文查询的含义。在生成SQL语句时,还引入了基于MacBERT模型的编码策略,利用MacBERT模型的嵌入能力,在编码查询语句时更全面地考虑了单词之间的语义关联。通过引入语法检查机制,确保生成的SQL语句不存在语法错误。对比现有技术,本发明能够更好地解决中文查询到SQL语句的转换问题,在复杂中文查询生成SQL语句的效率、准确性和可读性方面都具有明显优势。
Description
技术领域
本发明涉及一种基于关系感知注意力的中文查询生成SQL语句方法,属于计算机自然语言处理和数据库查询语句生成技术领域。
背景技术
数据库查询语句生成,是计算机数据库管理系统领域的一项重要研究内容。在日常的数据库应用中,用户通常使用结构化查询语言(Structured Query Language,简称SQL)来检索和操作数据库中的数据。然而,对于复杂查询需求或者普通用户而言,编写复杂的SQL查询语句是一项具有挑战性的任务,因为它需要对数据库结构和SQL语法有深入的了解,这使得在数据库查询领域寻找更为智能、高效的方法成为必然需求。
为了满足用户的便捷查询需求,特别是能够让普通用户轻松使用中文语言来生成复杂的SQL查询语句,需要借助自然语言处理技术对中文语言进行编码和处理。
自然语言处理(Natural Language Processing,简称NLP)技术是计算机科学与人工智能领域的重要研究方向之一,其目标是使计算机能够理解、处理和生成自然语言,从而实现计算机与人之间的自然交互。在人工智能和数据驱动决策的浪潮下,NLP技术在许多领域中扮演着至关重要的角色,其中包括数据库查询语句生成领域。RAT-SQL模型等语言模型通过将NLP技术与数据库查询相结合,可以使得计算机能够理解和解释用户用自然语言表达的查询意图,并将其转化为准确的SQL查询语句,从而为用户提供更加智能、高效的查询体验。
在中文环境下,复杂查询的编写更为复杂,这是因为中文表达的灵活性和多义性,令理解用户意图和准确翻译成SQL语句更具挑战性。现有的一些方法尝试通过基于模板匹配的方式来实现中文查询到SQL语句的转换,然而,这些方法面临着语义理解不准确、覆盖面不广、可扩展性差等一系列问题。为了克服这些困难,需要更加创新的方法,使数据库查询变得更加智能、高效,并为用户提供更为便捷的数据访问体验。
发明内容
本发明的目的是针对现有技术存在的缺点和不足,为了解决,提升模型对中文语境下自然语言指令的信息不失真提取能力和SQL语句的生成准确率,创造性地提出一种基于关系感知注意力的中文查询生成SQL语句方法。本方法采用SAT-SQL、MacBERT等先进技术,能够更好地解决中文查询到SQL语句的转换问题,为数据库查询语句生成领域带来重要的技术进步和应用价值,
本发明采取以下技术方案实现。
一种基于关系感知注意力的中文查询生成SQL语句方法,包括以下步骤:
步骤1:数据库结构编码。
对SQL语法进行详细分析,并针对数据库结构进行编码,包括数据库的表名、列名、列类型、主键、外键,得到一个包含表格格式的待匹配图结构。
图结构能够有效地反应数据库的格式,降低SQL语句解析的复杂度,从而便于后续匹配向量的准确解码。
步骤2:数据预处理,通过端口获取中文查询指令。
首先获取中文查询指令,然后预处理中文查询指令,对中文查询指令进行切片划分,之后对非中文字符替换为预定义词表中对应的中文词汇。
同时,本发明还设计了保存替换后的非中文字符的备查表,以备后续查询还原键值。这样的预处理操作为后续的向量化和编码提供了有力支持。
步骤3:构建编码器,进一步提高复杂中文查询指令的处理效率和准确性。
预处理后的自然语言文本被向量化并进行编码。为了提取复杂中文查询指令的语义信息,本发明采用transformer结构,从而获得指令的深度语义空间表示。
具体地,编码器使用的transformer结构构成的注意力机制,包含偏置项以获取提前定义的数据库结构,由此实现对指令的编码:
,
其中,表示注意力向量,/>表示加权系数,/>;Q、K、V分别为查询、键和值;/>、/>、/>、分别表示Q、K、V的权重参数;/>表示通过注意力层后的嵌入向量;/>表示归一化值;/>表示词向量通道维度;T表示转置;/>、/>为两输入元素/>和元素/>间的关系集,,右上角标表示通过不同的位置输入;H为transformer的head个数;
步骤4:构建基于语法树的SQL语句生成解码器。
利用深度嵌入的特征向量,解码器能够生成深度优先遍历顺序的抽象语法树;通过遍历语法树,能够根据解码输出的动作信号对应生成SQL语句,实现复杂SQL语句的多层嵌套:
,
其中,表示此时刻隐结点输出,/>、/>分别为上一时刻的隐结点输出和状态,/>为输入的嵌入向量,/>为解码器;
步骤5:利用语法鉴别器判断SQL语法。
引入语法鉴别器,如果符合语法和逻辑,则将查询结果按需输出给用户,或者直接进行数据库查询;
如果不符合语法和逻辑,则重新进行分词和编解码生成,确保生成的SQL语句符合规范。
优选地,结构编码中的结构为类似多叉树的多层图结构。
优选地,预处理过程中的中文查询指令划分,按照Jieba分词库进行划分。
优选地,编码器包括有基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块,其中,MacBERT只在本地数据集上做微调而不进行训练,特征感知模块参数参与训练。
优选地,解码器包括有语法树生成模块和动作输出模块。其中,语法树生成调整模块使用全连接层,动作输出模块使用长短时记忆网络LSTM,其动作来自于LSTM的状态量输出。
优选地,鉴别器使用多层线性层构成的分类头,对输入进行二分类。
有益效果
本发明,与现有技术相比,具有以下优点:
1.本方法建立了复杂中文环境下的语义解析机制。
相较于现有技术,本发明在生成SQL语句时引入了更先进的SAT-SQL模型框架,并将其应用在复杂中文语境下。这使得生成的SQL语句更加准确地反映用户查询的意图,从而避免了模糊或错误的查询结果。通过深度学习和自然语言理解技术,本发明能够更好地理解中文查询的含义,并将其转化为相应的SQL语句,提高了查询结果的准确性和可信度。
2.本发明引入更可靠的编码策略。
本发明在生成SQL语句时还引入了基于MacBERT模型的编码策略。在SQL语句生成过程中,本发明还引入了基于MacBERT模型的编码策略。MacBERT是一种基于中文语言环境的预训练自然语言处理模型,具备强大的语义理解和表征能力,弥补了使用BERT等模型在中英文理解方面存在的差距。通过利用MacBERT模型的嵌入能力,本发明在编码查询语句时更全面地考虑了单词之间的语义关联,从而生成更准确、更连贯的SQL语句,提高了查询结果的可读性和合理性。
3.本发明引入语法检查机制。
本发明通过引入语法检查机制,确保生成的SQL语句不存在语法错误。通过检查机制,用户提交的中文查询将被准确地翻译成合法的SQL语句,避免了因语法错误导致的查询失败或错误结果的问题。这对于普通用户而言尤为重要,因为他们通常不具备熟练的SQL语法知识,通过本发明可以更加高效地使用中文进行复杂查询。
综上所述,通过以上创新点的实现,本发明在复杂中文查询生成SQL语句的效率、准确性和可读性方面都具有明显的优势。它不仅提高了数据库查询的性能和用户体验,还降低了使用数据库的门槛,使得复杂查询变得更加智能化、便捷化,为自然语言处理和数据库查询语句生成领域带来了重要的技术进步和应用价值。
附图说明
图1是本发明方法的整体流程图;
图2是本发明的编码器模块框架图;
图3是基于注意力机制的特征关系感知模块流程图;
图4是SQL语法树生成查询流程图。
具体实施方式
下面结合附图对本发明方法的具体实施过程做进一步详细说明。
如图1所示,一种基于关系感知注意力的中文查询生成SQL语句方法,包括以下步骤:
步骤1:数据库结构编码。
通过对数据库结构进行编码,建立SQL和自然语言数据之间的连接,通过对编码结构树的查找,实现生成的伪SQL语句到真实SQL语句的转换。
具体地,首先,针对SQL语法进行详细分析。通过解析SQL语法,筛选其中的重要元素,包括关键词、操作符、函数,确保在后续处理中能够准确提取和操作这些信息。
然后,对数据库的结构进行编码,包括表名、列名、列类型、主键、外键等。为每个数据库元素分配唯一的标识符,目的是在向量化和编码过程中准确表示数据库结构。
之后,构建待匹配图结构。例如,可以将数据库结构信息组织成如表1所示的图结构,包含表格格式和元素之间的关联关系,便于后续匹配向量的准确解码。
表1 数据库待匹配图结构关系表
步骤2:数据预处理,通过端口获取中文查询指令。
首先,获取中文查询指令,通过端口/接口获取用户输入的中文查询指令S;
然后,预处理中文查询指令,对中文查询指令S进行切片划分,将其分解成词语或者字的序列S:
,
其中,表示第N个字;
最后,非中文字符处理,将中文查询指令中的非中文字符替换为预定义词表中对应的中文词汇;同时,保留替换前的非中文字符在备查表中,以备后续查询还原键值;即:
,
其中,表示转换后的查询;/>,表示从其他语言到中文的映射;/>表示转换字。
步骤3:构建编码器,进一步提高复杂中文查询指令的处理效率和准确性。
编码器将中文自然语言指令映射到深度语义空间,为SQL生成提供可用的潜在特征。编码器中包含基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块,如图2所示。
首先,向量化预处理后的自然语言文本。具体地,使用MacBERT预训练模型将预处理后的中文查询指令转换为向量表示,以便计算其语义信息。
然后,使用transformer结构构建注意力机制。具体地,通过注意力机制,提取查询指令的深度语义空间表示,用于后续编码和解码。如图3所示。
,
其中,表示注意力向量,/>表示加权系数,/>;Q、K、V分别为查询、键和值;/>、/>、/>、分别表示Q、K、V的权重参数;/>表示通过注意力层后的嵌入向量;/>表示归一化值;/>表示词向量通道维度;T表示转置;/>、/>为两输入元素/>和元素/>间的关系集,右上角标表示通过不同的位置输入;H为transformer的head个数;
之后,编码查询指令;利用上述构建的注意力机制对查询指令进行编码,得到指令的语义表示向量。进一步地,如图4所示,在编码过程中,引入偏置项,以获取提前定义的数据库编码结构,实现对指令间关系的精确编码:
,
其中,、/>为两输入元素/>和元素/>间的关系集,右上角标表示通过不同的位置输入;/>,通过预定义的边/>将包括表、列在内的结构联系起来;
最后,通过带有残差连接的结构进行编码输出:
,
其中,为最终输出的编码向量,/>为待输出变量,/>为层归一化,/>为线性层,/>为激活函数。
步骤4:构建基于语法树的SQL语句生成解码器。
解码器生成最终的SQL语句,由于transformer和LSTM的模型差异,直接对深度语义空间解析存在困难,本发明设计的解码器包括语法树生成调整模块和动作输出模块,以逐步生成可用的SQL语句。
首先,使用语法树生成调整模块重构特征。具体的,利用多层全连接层,重构由编码器得到的嵌入向量,以消除模型结构差异带来的语义间隙,即:,表示,/>表示多层全连接层,/>表示;
然后,使用动作输出模块基于语法树的SQL语句生成;利用生成调整模块得到的查询指令语义表示向量,构建解码器进行SQL语句生成;长短时记忆网络LSTM根据语义表示向量生成深度优先遍历顺序的抽象语法树,该树表示SQL语句的组成结构和操作过程,如图4所示,LSTM的功能如下式所示:
,
其中,表示当前结点输出,/>表示当前结点的父结点输出,/>表示当前结点类型,/>表示当前细胞状态,下标/>表示上一状态变量;
通过LSTM的持续输出在语法树进行遍历,生成最终的SQL语句。
步骤5:利用语法鉴别器判断SQL语法。
鉴别器作为最终输出规范性的保证,尽管通过生成树生成的SQL语句在格式上不会出现错误,但是逻辑和功能上有可能无法允许。为了避免错误情况的发生,引入语法鉴别器以保证输出的有效性。
首先,鉴别SQL语法和逻辑。具体地,为确保生成的SQL语句符合严格的SQL语法和处理逻辑,引入语法鉴别器D:
,
其中,表示/>函数输出;/>表示解码器生成的指令;
然后,判断是否符合查询SQL语句的语法与逻辑,其中:
符合规范的查询输出:如果生成的SQL语句符合语法和逻辑,即D=1,将查询结果按需输出给用户,或者直接进行数据库查询;
不符合规范的重新生成:如果生成的SQL语句不符合语法和逻辑,即D=0,则重新进行分词和编解码生成,直至生成符合规范的SQL语句。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
Claims (6)
1.一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,包括以下步骤:
步骤1:对数据库结构进行编码,建立SQL和自然语言数据之间的连接,通过对编码结构树的查找,实现生成的伪SQL语句到真实SQL语句的转换;
步骤2:数据预处理,通过端口获取中文查询指令;
首先获取中文查询指令,然后预处理中文查询指令,对其进行切片划分,之后对非中文字符替换为预定义词表中对应的中文词汇,同时,保存替换后的非中文字符的备查表,以备后续查询还原键值;
步骤3:构建编码器;
编码器使用的transformer结构构成的注意力机制,包含偏置项以获取提前定义的数据库结构,实现对指令的编码;
编码器包含基于MacBERT预训练模型的文本向量化模块和基于注意力机制的特征关系感知模块;
首先,向量化预处理后的自然语言文本,使用MacBERT预训练模型将预处理后的中文查询指令转换为向量表示;
然后,使用transformer结构构建注意力机制,通过注意力机制提取查询指令的深度语义空间表示,用于后续编码和解码:
,
其中,表示注意力向量,/>表示加权系数,/>;/>、/>、/>分别为查询、键和值;/>、/>、/>分别表示/>、/>、/>的权重参数;/>表示通过注意力层后的嵌入向量;/>表示归一化值;/>表示词向量通道维度;/>表示转置;/>为transformer的head个数;
之后,编码查询指令;利用上述构建的注意力机制对查询指令进行编码,得到指令的语义表示向量;
在编码过程中,引入偏置项,获取提前定义的数据库编码结构,实现对指令间关系的精确编码:
,
其中,、/>为两输入元素/>和元素/>间的关系集,右上角标表示通过不同的位置输入;/>,通过预定义的边/>将包括表、列在内的结构联系起来;
最后,通过带有残差连接的结构进行编码输出:
,
其中,为最终输出的编码向量,/>为待输出变量,/>为层归一化,为线性层,/>为激活函数;
步骤4:构建基于语法树的SQL语句生成解码器;
利用深度嵌入的特征向量,解码器能够生成深度优先遍历顺序的抽象语法树;通过遍历语法树,能够根据解码输出的动作信号对应生成SQL语句,实现复杂SQL语句的多层嵌套:
,
其中,表示此时刻隐结点输出,/>、/>分别为上一时刻的隐结点输出和状态,为输入的嵌入向量,/>为解码器;
步骤5:利用语法鉴别器判断SQL语法;
引入语法鉴别器,如果符合语法和逻辑,则将查询结果按需输出给用户,或者直接进行数据库查询;
如果不符合语法和逻辑,则重新进行分词和编解码生成,确保生成的SQL语句符合规范。
2.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,步骤1包括以下步骤:
首先针对SQL语法进行详细分析;解析SQL语法,筛选其中的重要元素,包括关键词、操作符、函数,确保在后续处理中能够准确提取和操作这些信息;
然后,对数据库的结构进行编码,包括表名、列名、列类型、主键、外键;为每个数据库元素分配唯一的标识符;
之后,构建待匹配图结构,包含表格格式和元素之间的关联关系。
3.如权利要求2所述的一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,结构编码中的结构为多层图结构。
4.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,步骤2包括以下步骤:
首先,获取中文查询指令,通过端口/接口获取用户输入的中文查询指令;
然后,预处理中文查询指令,对中文查询指令进行切片划分,将其分解成词语或者字的序列/>:
,
其中,表示第/>个字;
最后,非中文字符处理,将中文查询指令中的非中文字符替换为预定义词表中对应的中文词汇;同时,保留替换前的非中文字符在备查表中,以备后续查询还原键值;即:
,
其中,表示转换后的查询;/>,表示从其他语言到中文的映射;/>表示转换字。
5.如权利要求4所述的一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,预处理过程中,中文查询指令划分,按照Jieba分词库进行划分。
6.如权利要求1所述的一种基于关系感知注意力的中文查询生成SQL语句方法,其特征在于,步骤5中,首先鉴别SQL语法和逻辑,引入语法鉴别器:
,
其中,表示/>函数输出;/>表示解码器生成的指令;
然后,判断是否符合查询SQL语句的语法与逻辑,其中:
符合规范的查询输出:如果生成的SQL语句符合语法和逻辑,即,将查询结果按需输出给用户,或者直接进行数据库查询;
不符合规范的重新生成:如果生成的SQL语句不符合语法和逻辑,即,则重新进行分词和编解码生成,直至生成符合规范的SQL语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311018828.5A CN116737759B (zh) | 2023-08-14 | 2023-08-14 | 一种基于关系感知注意力的中文查询生成sql语句方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311018828.5A CN116737759B (zh) | 2023-08-14 | 2023-08-14 | 一种基于关系感知注意力的中文查询生成sql语句方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116737759A CN116737759A (zh) | 2023-09-12 |
CN116737759B true CN116737759B (zh) | 2023-12-08 |
Family
ID=87902971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311018828.5A Active CN116737759B (zh) | 2023-08-14 | 2023-08-14 | 一种基于关系感知注意力的中文查询生成sql语句方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737759B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667978A (zh) * | 2023-12-07 | 2024-03-08 | 上海迈伺通健康科技有限公司 | 一种使用中文指令操作数据库的计算机系统 |
CN117609281B (zh) * | 2024-01-18 | 2024-04-05 | 成都四方伟业软件股份有限公司 | 一种Text2Sql方法、系统、电子设备及存储介质 |
CN117591543B (zh) * | 2024-01-19 | 2024-04-02 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
CN117992068A (zh) * | 2024-04-02 | 2024-05-07 | 天津南大通用数据技术股份有限公司 | Lstm和trm组合的智能数据库语法解析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896275A (zh) * | 2022-04-15 | 2022-08-12 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种将自然语言文本转为sql语句的方法及系统 |
CN115114318A (zh) * | 2022-04-08 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种生成数据库查询语句的方法和相关装置 |
CN115497477A (zh) * | 2022-09-09 | 2022-12-20 | 平安科技(深圳)有限公司 | 语音交互方法、语音交互装置、电子设备、存储介质 |
CN115827819A (zh) * | 2022-10-12 | 2023-03-21 | 航天信息股份有限公司 | 一种智能问答处理方法、装置、电子设备及存储介质 |
CN116049380A (zh) * | 2023-02-16 | 2023-05-02 | 成都红云鼎科技有限公司 | 一种基于区块链的Text-To-SQL数据共享与推荐方法及系统 |
CN116434976A (zh) * | 2022-12-29 | 2023-07-14 | 之江实验室 | 一种融合多源知识图谱的药物重定位方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11921711B2 (en) * | 2020-03-06 | 2024-03-05 | Alibaba Group Holding Limited | Trained sequence-to-sequence conversion of database queries |
-
2023
- 2023-08-14 CN CN202311018828.5A patent/CN116737759B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114318A (zh) * | 2022-04-08 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种生成数据库查询语句的方法和相关装置 |
CN114896275A (zh) * | 2022-04-15 | 2022-08-12 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种将自然语言文本转为sql语句的方法及系统 |
CN115497477A (zh) * | 2022-09-09 | 2022-12-20 | 平安科技(深圳)有限公司 | 语音交互方法、语音交互装置、电子设备、存储介质 |
CN115827819A (zh) * | 2022-10-12 | 2023-03-21 | 航天信息股份有限公司 | 一种智能问答处理方法、装置、电子设备及存储介质 |
CN116434976A (zh) * | 2022-12-29 | 2023-07-14 | 之江实验室 | 一种融合多源知识图谱的药物重定位方法和系统 |
CN116049380A (zh) * | 2023-02-16 | 2023-05-02 | 成都红云鼎科技有限公司 | 一种基于区块链的Text-To-SQL数据共享与推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种依需聚合的语义解析图查询模型;李青;钟将;李立力;李琪;张淑芳;张剑;;电子学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116737759A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116737759B (zh) | 一种基于关系感知注意力的中文查询生成sql语句方法 | |
CN109492113B (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
Xiong et al. | Transferable natural language interface to structured queries aided by adversarial generation | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
CN116910086B (zh) | 一种基于自注意力句法感知的数据库查询方法和系统 | |
Wan et al. | Semantic role labeling integrated with multilevel linguistic cues and Bi-LSTM-CRF | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN114757181B (zh) | 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
Song et al. | Hierarchical schema representation for text-to-SQL parsing with decomposing decoding | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN113536797A (zh) | 一种切片文档关键信息单模型抽取方法及系统 | |
CN113536741B (zh) | 中文自然语言转数据库语言的方法及装置 | |
CN114398905A (zh) | 一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置 | |
CN113449038A (zh) | 一种基于自编码器的矿山智能问答系统及方法 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
Zhang et al. | ReFSQL: A Retrieval-Augmentation Framework for Text-to-SQL Generation | |
Ma et al. | An enhanced method for dialect transcription via error‐correcting thesaurus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |