CN114691716A - Sql语句转换方法、装置、设备及计算机可读存储介质 - Google Patents
Sql语句转换方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114691716A CN114691716A CN202210375774.7A CN202210375774A CN114691716A CN 114691716 A CN114691716 A CN 114691716A CN 202210375774 A CN202210375774 A CN 202210375774A CN 114691716 A CN114691716 A CN 114691716A
- Authority
- CN
- China
- Prior art keywords
- sql
- text
- converted
- preset
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 184
- 239000012634 fragment Substances 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理,提供一种SQL语句转换方法、装置、设备及计算机可读存储介质,该方法包括:获取待转换文本,并将待转换文本输入至预设的实体识别模型,得到待转换文本对应的实体标记位置信息;将实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句。本申请能够准确地得到待转换文本对应的SQL片段信息,并对SQL片段信息进行拼接得到SQL语句,极大地提高了SQL语句转换的效率和准确性。本申请还涉及区块链技术领域和人工智能技术领域,所述实体识别模型和bert模型可以存储至区块链。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种SQL语句转换方法、装置、设备及计算机可读存储介质。
背景技术
结构化查询语言(Structured Query Language,SQL)是一种数据库操作语言,由于其具有语法简单、非过程化、使用方式灵活等特点,因此被广泛应用于各类涉及数据库操作的应用程序开发中。此外,应用于分布式文件系统中的数据处理语言,例如Hive SQL、ODPSSQL等,也都采用了与SQL类似的语法。
但是,SQL的查询是很频繁的一项任务,SQL编写有一定的学习和使用门槛,尤其对于运营、销售或者公司高管等。即使对于熟练SQL的人员,也不能实时的相应各种SQL查询需求。因此,如何能自动的生成SQL语句是目前亟待解决的问题。
发明内容
本申请的主要目的在于提供一种SQL语句转换方法、装置、设备及计算机可读存储介质,旨在提高文本转换成SQL语句的准确性和效率。
第一方面,本申请提供一种SQL语句转换方法,所述SQL语句转换方法包括以下步骤:
获取待转换文本,并将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句。
第二方面,本申请还提供一种SQL语句转换装置,所述SQL语句转换装置包括获取模块、生成模块、匹配模块和拼接模块,其中:
所述获取模块,用于获取待转换文本;
所述生成模块,用于将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
所述生成模块,还用于将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
所述匹配模块,用于对多个所述特征向量进行相关性匹配,得到SQL片段信息;
所述拼接模块,用于对所述SQL片段信息进行拼接,得到SQL语句。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的SQL语句转换方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的SQL语句转换方法的步骤。
本申请提供一种SQL语句转换方法、装置、设备及计算机可读存储介质,本申请通过获取待转换文本,并将待转换文本输入至预设的实体识别模型,得到待转换文本对应的实体标记位置信息;然后将实体标记位置信息和待转换文本输入至预设的bert模型,得到多个特征向量;对多个特征向量进行相关性匹配,得到SQL片段信息,并对SQL片段信息进行拼接,得到SQL语句。本方案能够准确地得到待转换文本对应的SQL片段信息,并对SQL片段信息进行拼接能够准确地得到SQL语句,极大地提高了SQL语句转换的效率和准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种SQL语句转换方法的流程示意图;
图2为图1中的SQL语句转换方法的子步骤流程示意图;
图3为本申请实施例提供的一种SQL语句转换装置的示意性框图;
图4为图3中的SQL语句转换装置的子模块的示意性框图;
图5为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供一种SQL语句转换方法、装置、设备及计算机可读存储介质。其中,该SQL语句转换方法可应用于终端设备中,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
在一些实施例中,该SQL语句转换方法还可以应用在服务器中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
示例性的,该服务器为云服务器,云服务器获取待转换文本,并将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种SQL语句转换方法的流程示意图。
如图1所示,该SQL语句转换方法包括步骤S101至步骤S103。
步骤S101、获取待转换文本,并将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息。
其中,待转换文本为转换为SQL语句的原始文本,例如,该待转档文本为“查询公司第一季度的业绩总合报表”。该预设的实体识别模型为预先训练好的bert的实体识别模型,该实体识别模型的训练可以根据实际情况进行训练,本实施例对此不做具体限定。
示例性的,获取样本数据,该样本数据包括待转换文本和待转换文本对应的真实实体标记位置信息,将该待转换文本输入至该bert模型中,得到预测的实体标记位置信息,根据预测的实体标记位置信息和真实实体标记位置信息确定该bert模型是否收敛,若该bert模型未收敛则调整bert模型的模型参数,并继续输入待转换文本进行训练直到该bert模型收敛,得到实体识别模型。
在一实施例中,将待转换文本输入至训练收敛的实体识别模型中,得到该待转换文本对应的实体标记位置信息。通过该实体识别模型能够准确的确定待转换文本中的实体标记位置信息。
在一实施例中,对待转换文本进行预分词处理,以提取语料库特征词汇;从预设的各基本语料库中选择与语料库特征词汇匹配的目标语料库;基于目标语料库对待转档文本进行分词处理,以得到多个词汇作为分词的待转换文本。其中,该语料库为预选根据结合业务需求构建的专用语料库作为基本语料库,也可以是根据自身的需求对现有的专用语料库进行增加、删除和修改得到基本语料库。由于使用语料库来辅助识别,可以将用户在业务领域中的专有名词进行识别,识别效果更加精准。通过对待转换文本进行预分词处理,能够提高了SQL语句转换的效率和准确性。
示例性的,制作公司业绩报表和统计商品信息是不同的业务,对应的基本语料库不同。以待转换文本为“我想制作一个有关第一季度公司的业绩的总和的报表”为例,其中可以提取出“报表”为语料库特征词汇,根据这个特征词汇,可以选择业绩报表对应的基本语料库来进行分词处理。
在一实施例中,实体标记位置信息包括还时间实体标记位置信息,获取预设算法,基于预设算法对待转换文本中的时间实体进行识别,得到待转换文本中的时间实体标记位置信息;将实体标记位置信息和待转换文本输入至预设的bert模型,得到多个特征向量,包括:将时间实体标记位置信息和待转换文本输入至预设的bert模型,得到时间特征向量。其中,该预设算法可以根据实际情况进行选择,本实施例对此不做具体限定,例如,该预设算法可以是正则表达式。通过该预设算法可以准确的确定地得到待转换文本中时间实体标记位置信息,通过确定时间实体标记位置信息以便于后续对SQL语句进行时间类型的切换,提高了SQL语句生成的准确性。
步骤S102、将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量。
示例性的,获取样本数据,该样本数据包括实体标记位置信息、待转换文本和待转换文本对应的多个真实特征向量,将该实体标记位置信息和待转换文本输入至该bert模型中,得到多个预测预测特征向量,根据多个预测预测特征向量和多个真实特征向量,确定该bert模型是否收敛,若该bert模型未收敛则调整模型参数,并继续输入实体标记位置信息和待转换文本进行训练直到该bert模型收敛,得到收敛的bert模型。根据实体标记位置信息和待转换文本进行bert模型,能够准确地得到bert模型。
在一实施例中,在得到bert模型之后,将该实体标记位置信息和待转换文本输入至预设的bert模型,得到多个特征向量。当该实体标记位置信息包括时间实体标记位置信息时,得到的特征向量中包括时间特征向量。通过该bert模型能够准确地得到多个特征向量,提高了SQL语句转换的效率和准确性。
步骤S103、对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句。
其中,特征向量包括至少一个第一类特征向量、第二类特征向量和第三类特征向量。
在一实施例中,如图2所示,步骤S103包括子步骤S1031至子步骤S1032。
子步骤S1031、对至少一个所述第一类特征向量进行平均值运算,得到第一类特征向量平均值。
其中,该第一类特征向量的数量与实体标记位置信息中实体标记位置的数量有关,第一类特征向量的数量与实体标记位置的数量的对应关系可以根据实际情况进行设置,本实施例对此不做具体限定,例如,每个实体标记位置对应一个第一类特征向量,即存在5个实体标记位置对应5个第一类特征向量。
示例性的,特征向量包括第一类特征向量1、第一类特征向量2、第一类特征向量3、第一类特征向量4和第一类特征向量5,对第一类特征向量1、第一类特征向量2、第一类特征向量3、第一类特征向量4和第一类特征向量5进行叠加并除以5,得到第一类特征向量1、第一类特征向量2、第一类特征向量3、第一类特征向量4和第一类特征向量5的第一类特征向量平均值。
示例性的,特征向量包括只有第一类特征向量1,则该第一类特征向量1即为第一类特征向量平均值。
子步骤S1032、对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息。
在一实施例中,对第一类特性向量平均值和第二类特征向量进行拼接,得到目标特征向量;将目标特征向量分别与各列向量进行二分类,得到目标特征向量与各列向量的匹配分数;根据目标特征向量与各列向量的匹配分数,确定SQL片段信息。
在一实施例中,根据目标特征向量与各列向量的匹配分数,确定SQL片段信息的方式可以为:SQL片段信息包括列名称字段,获取匹配分数大于或等于预设阈值的列向量对应的列名称字段信息,得到所述SQL片段信息中的列名称字段。其中,该预设阈值可以根据实际情况进行设置,本实施例对此不做具体限定,例如,该预设阈值可以设置为0.5。
示例性的,第三类特征向量包括列向量1、列向量2、列向量3、列向量4和列向量5,目标特征向量分别与列向量1、列向量2、列向量3、列向量4和列向量5进行二分类运算,得到目标特征向量与列向量2的二分类概率值为0.6,目标特征向量与列向量3的二分类概率值为0.2,目标特征向量与列向量4的二分类概率值为0.6,目标特征向量与列向量5的二分类概率值为0.9,该预设阈值为0.5,则匹配分数大于或等于预设阈值的列向量为列向量2、列向量4和列向量5,获取列向量2、列向量4和列向量5分别对应的列名称字段信息,得到SQL片段信息中的列名称字段。
在一实施例中,SQL片段信息包括列名称字段、聚合字段、where字段和连接字段,获取预设的SQL语法,SQL语法至少包括:Mysql语法、Oracle语法和PostgreSql语法;基于预设的SQL语法对列名称字段、聚合字段、where字段和连接字段进行拼接,得到SQL语句。通过该SQL语法对SQL片段信息中包括的列名称字段、聚合字段、where字段和连接字段进行拼接,能够准确且快速地得到SQL语句。
上述实施例提供的SQL语句转换方法,通过获取待转换文本,并将待转换文本输入至预设的实体识别模型,得到待转换文本对应的实体标记位置信息;然后将实体标记位置信息和待转换文本输入至预设的bert模型,得到多个特征向量;对多个特征向量进行相关性匹配,得到SQL片段信息,并对SQL片段信息进行拼接,得到SQL语句。本方案能够准确地得到待转换文本对应的SQL片段信息,并对SQL片段信息进行拼接得到SQL语句,极大地提高了SQL语句的转换效率和准确性。
请参阅3,图3为本申请实施例提供的一种SQL语句转换装置的示意性框图。
如图3所示,所述SQL语句转换装置200包括获取模块210、生成模块220、匹配模块230和拼接模块240,其中:
所述获取模块210,用于获取待转换文本;
所述生成模块20,用于将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
所述生成模块220,还用于将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
所述匹配模块230,用于对多个所述特征向量进行相关性匹配,得到SQL片段信息;
所述拼接模块240,用于对所述SQL片段信息进行拼接,得到SQL语句。
在一实施例中,如图4所示,所述匹配模块230包括生成子模块231和匹配子模块232,其中:
所述特征向量包括至少一个第一类特征向量、第二类特征向量和第三类特征向量;
所述生成子模块231,用于对至少一个所述第一类特征向量进行平均值运算,得到第一类特征向量平均值;
所述匹配子模块232,用于对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息。
在一实施例中,所述第三类特征向量包括多个列向量,所述匹配子模块232,还用于:
对所述第一类特性向量平均值和所述第二类特征向量进行拼接,得到目标特征向量;
将所述目标特征向量分别与各所述列向量进行二分类,得到所述目标特征向量与各所述列向量的匹配分数;
根据所述目标特征向量与各所述列向量的匹配分数,确定SQL片段信息。
在一实施例中,所述SQL片段信息包括列名称字段,所述匹配子模块232,还用于:
获取所述匹配分数大于或等于预设阈值的所述列向量对应的列名称字段信息,得到所述SQL片段信息中的列名称字段。
在一实施例中,所述生成模块220,还用于:
获取预设算法,基于所述预设算法对所述待转换文本中的时间实体进行识别,得到所述待转换文本中的时间实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量,包括:
将所述时间实体标记位置信息和所述待转换文本输入至预设的bert模型,得到时间特征向量。
在一实施例中,所述SQL语句转换装置200,还用于:
对所述待转换文本进行预分词处理,以提取语料库特征词汇;
从预设的各基本语料库中选择与所述语料库特征词汇匹配的目标语料库;
基于所述目标语料库对所述待转档文本进行分词处理,以得到多个词汇作为分词的待转换文本。
在一实施例中,所述SQL片段信息包括列名称字段、聚合字段、where字段和连接字段,所述拼接模块240,还用于:
获取预设的SQL语法,所述SQL语法至少包括:Mysql语法、Oracle语法和PostgreSql语法;
基于所述预设的SQL语法对所述列名称字段、聚合字段、where字段和连接字段进行拼接,得到SQL语句。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述SQL语句转换装置的具体工作过程,可以参考前述SQL语句转换方法实施例中的对应过程,在此不再赘述。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。
如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种SQL语句转换方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种SQL语句转换方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待转换文本,并将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句,
在一个实施例中,所述特征向量包括至少一个第一类特征向量、第二类特征向量和第三类特征向量;所述处理器在实现所述对多个所述特征向量进行相关性匹配,得到SQL片段信息时,用于实现:
对至少一个所述第一类特征向量进行平均值运算,得到第一类特征向量平均值;
对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息。
在一个实施例中,所述第三类特征向量包括多个列向量;所述处理器在实现所述对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息时,用于实现:
对所述第一类特性向量平均值和所述第二类特征向量进行拼接,得到目标特征向量;
将所述目标特征向量分别与各所述列向量进行二分类,得到所述目标特征向量与各所述列向量的匹配分数;
根据所述目标特征向量与各所述列向量的匹配分数,确定SQL片段信息。
在一个实施例中,所述SQL片段信息包括列名称字段;所述处理器在实现时,用于实现:
获取所述匹配分数大于或等于预设阈值的所述列向量对应的列名称字段信息,得到所述SQL片段信息中的列名称字段。
在一个实施例中,所述处理器在实现所述实体标记位置信息包括时间实体标记位置信息;所述获取待转换文本之后,还用于实现:
获取预设算法,基于所述预设算法对所述待转换文本中的时间实体进行识别,得到所述待转换文本中的时间实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量,包括:
将所述时间实体标记位置信息和所述待转换文本输入至预设的bert模型,得到时间特征向量。
在一个实施例中,所述处理器在实现所述将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息之前,还用于实现:
对所述待转换文本进行预分词处理,以提取语料库特征词汇;
从预设的各基本语料库中选择与所述语料库特征词汇匹配的目标语料库;
基于所述目标语料库对所述待转档文本进行分词处理,以得到多个词汇作为分词的待转换文本。
在一个实施例中,所述SQL片段信息包括列名称字段、聚合字段、where字段和连接字段;所述处理器在实现所述对所述SQL片段信息进行拼接,得到SQL语句时,用于实现:
获取预设的SQL语法,所述SQL语法至少包括:Mysql语法、Oracle语法和PostgreSql语法;
基于所述预设的SQL语法对所述列名称字段、聚合字段、where字段和连接字段进行拼接,得到SQL语句。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述计算机设备的具体工作过程,可以参考前述SQL语句转换方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请SQL语句转换方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种SQL语句转换方法,其特征在于,包括:
获取待转换文本,并将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
对多个所述特征向量进行相关性匹配,得到SQL片段信息,并对所述SQL片段信息进行拼接,得到SQL语句。
2.如权利要求1所述的SQL语句转换方法,其特征在于,所述特征向量包括至少一个第一类特征向量、第二类特征向量和第三类特征向量;所述对多个所述特征向量进行相关性匹配,得到SQL片段信息,包括:
对至少一个所述第一类特征向量进行平均值运算,得到第一类特征向量平均值;
对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息。
3.如权利要求2所述的SQL语句转换方法,其特征在于,所述第三类特征向量包括多个列向量;所述对所述第一类特性向量平均值、第二类特征向量和第三类特征向量进行相关性匹配,得到SQL片段信息,包括:
对所述第一类特性向量平均值和所述第二类特征向量进行拼接,得到目标特征向量;
将所述目标特征向量分别与各所述列向量进行二分类,得到所述目标特征向量与各所述列向量的匹配分数;
根据所述目标特征向量与各所述列向量的匹配分数,确定SQL片段信息。
4.如权利要求3所述的SQL语句转换方法,其特征在于,所述SQL片段信息包括列名称字段,所述根据所述目标特征向量与各所述列向量的匹配分数,确定SQL片段信息,包括:
获取所述匹配分数大于或等于预设阈值的所述列向量对应的列名称字段信息,得到所述SQL片段信息中的列名称字段。
5.如权利要求1中任一项所述的SQL语句转换方法,其特征在于,所述实体标记位置信息包括时间实体标记位置信息;所述获取待转换文本之后,还包括:
获取预设算法,基于所述预设算法对所述待转换文本中的时间实体进行识别,得到所述待转换文本中的时间实体标记位置信息;
将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量,包括:
将所述时间实体标记位置信息和所述待转换文本输入至预设的bert模型,得到时间特征向量。
6.如权利要求1-5中任一项所述的SQL语句转换方法,其特征在于,所述将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息之前,还包括:
对所述待转换文本进行预分词处理,以提取语料库特征词汇;
从预设的各基本语料库中选择与所述语料库特征词汇匹配的目标语料库;
基于所述目标语料库对所述待转档文本进行分词处理,以得到多个词汇作为分词的待转换文本。
7.如权利要求1-5中任一项所述的SQL语句转换方法,其特征在于,所述SQL片段信息包括列名称字段、聚合字段、where字段和连接字段;所述对所述SQL片段信息进行拼接,得到SQL语句,包括:
获取预设的SQL语法,所述SQL语法至少包括:Mysql语法、Oracle语法和PostgreSql语法;
基于所述预设的SQL语法对所述列名称字段、聚合字段、where字段和连接字段进行拼接,得到SQL语句。
8.一种SQL语句转换装置,其特征在于,所述SQL语句转换装置包括获取模块、生成模块、匹配模块和拼接模块,其中:
所述获取模块,用于获取待转换文本;
所述生成模块,用于将所述待转换文本输入至预设的实体识别模型,得到所述待转换文本对应的实体标记位置信息;
所述生成模块,还用于将所述实体标记位置信息和所述待转换文本输入至预设的bert模型,得到多个特征向量;
所述匹配模块,用于对多个所述特征向量进行相关性匹配,得到SQL片段信息;
所述拼接模块,用于对所述SQL片段信息进行拼接,得到SQL语句。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的SQL语句转换方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的SQL语句转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375774.7A CN114691716A (zh) | 2022-04-11 | 2022-04-11 | Sql语句转换方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375774.7A CN114691716A (zh) | 2022-04-11 | 2022-04-11 | Sql语句转换方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114691716A true CN114691716A (zh) | 2022-07-01 |
Family
ID=82143727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210375774.7A Pending CN114691716A (zh) | 2022-04-11 | 2022-04-11 | Sql语句转换方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114691716A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992068A (zh) * | 2024-04-02 | 2024-05-07 | 天津南大通用数据技术股份有限公司 | Lstm和trm组合的智能数据库语法解析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414380A (zh) * | 2020-03-20 | 2020-07-14 | 华泰证券股份有限公司 | 一种中文数据库sql语句生成方法、设备及存储介质 |
CN111581229A (zh) * | 2020-03-25 | 2020-08-25 | 平安科技(深圳)有限公司 | Sql语句的生成方法、装置、计算机设备及存储介质 |
CN114281957A (zh) * | 2021-09-30 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 自然语言数据查询方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-11 CN CN202210375774.7A patent/CN114691716A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414380A (zh) * | 2020-03-20 | 2020-07-14 | 华泰证券股份有限公司 | 一种中文数据库sql语句生成方法、设备及存储介质 |
CN111581229A (zh) * | 2020-03-25 | 2020-08-25 | 平安科技(深圳)有限公司 | Sql语句的生成方法、装置、计算机设备及存储介质 |
CN114281957A (zh) * | 2021-09-30 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 自然语言数据查询方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992068A (zh) * | 2024-04-02 | 2024-05-07 | 天津南大通用数据技术股份有限公司 | Lstm和trm组合的智能数据库语法解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
US11210306B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
US11741109B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
US11948058B2 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
WO2022105122A1 (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
US20190065506A1 (en) | Search method and apparatus based on artificial intelligence | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
CN112287095A (zh) | 确定问题答案的方法、装置、计算机设备及存储介质 | |
CN113254613B (zh) | 对话问答方法、装置、设备及存储介质 | |
CN113010678B (zh) | 分类模型的训练方法、文本分类方法及装置 | |
CN111814482A (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112686049A (zh) | 文本审核方法、装置、设备及存储介质 | |
Moeng et al. | Canonical and surface morphological segmentation for nguni languages | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN114398902A (zh) | 基于人工智能的中文语义提取方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |