CN113051285B - Sql语句的转换方法、系统、设备及存储介质 - Google Patents
Sql语句的转换方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN113051285B CN113051285B CN202110324218.2A CN202110324218A CN113051285B CN 113051285 B CN113051285 B CN 113051285B CN 202110324218 A CN202110324218 A CN 202110324218A CN 113051285 B CN113051285 B CN 113051285B
- Authority
- CN
- China
- Prior art keywords
- sql
- converted
- database
- sentence
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 7
- 238000012367 process mapping Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000013519 translation Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/42—Syntactic analysis
- G06F8/427—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种SQL语句的转换方法、系统、设备及存储介质。所述方法包括以下步骤:对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树;根据转换后的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;其中,所述目标数据库与所述源数据库为异构的关系型数据库。上述方法、系统、存储介质可以简化异构的关系型数据库之间的SQL语句的相互转换。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及SQL语句的转换方法、系统、设备及存储介质。
背景技术
近年来,随着开源数据库的广泛应用和发展,商用数据库占据主流的时代逐渐退出舞台。许多业务场景针对如何去除Oracle数据库(甲骨文公司的一种商用数据库产品),更换成MySQL数据库(一种开源的数据库)是一种主流的数据库变更操作。但是Oracle数据库迁移至MySQL等开源数据库涉及到了大量繁杂、重复的人工转化操作,在一定程度上是十分耗时耗力的。
Oracle数据库的SQL(Structured Query Language,结构化查询语言)和MySQL数据库的SQL虽然都是目前数据库领域通用和常见的SQL数据库语言,但是Oracle数据库和MySQL数据库在函数实现、语句结构上有着不小的差别,因此在Oracle数据库的SQL转化为MySQL数据库的SQL的过程中面临着许多函数转换、语句结构转换等十分复杂和棘手的难题。
发明内容
本申请实施例通过提供一种SQL语句的转换方法、系统、设备及存储介质,解决了现有技术中SQL语句转换复杂的问题。
一种SQL语句的转换方法,所述方法包括:
对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;
对所述词素流进行语法分析得到SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换所述SQL语句的语法解析树;
根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;其中,所述目标数据库与所述源数据库为异构的关系型数据库。
在其中一个实施例中,所述源数据库为Oracle数据库,所述目标数据库为MySQL数据库;
若所述源数据库还采用Mybatis封装SQL语句,则在对来自于源数据库的待转换SQL语句进行词法分析,获得词素流的步骤之前,所述方法还包括:将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句;
所述待转换SQL语句来自所述还原成Oracle数据库的SQL语句。
在其中一个实施例中,所述将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句,包括:
从Mybatis封装的SQL语句中提取出带XML标签的SQL语句,并转化成为JSON格式;
从所述JSON格式的语句中提取出Oracle数据库的SQL语句。
在其中一个实施例中,所述将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句的步骤中,在从所述JSON格式的语句中提取出Oracle数据库的SQL语句的步骤之后,还包括:
对提取出的Oracle数据库的SQL语句进行语法校验,筛除不符合Oracle数据库的语法的SQL语句。
在其中一个实施例中,所述对来自于源数据库的待转换SQL语句进行词法分析,获得词素流,包括:
定义词素对象的数据结构;
对所述待转换SQL语句进行分词;
对所述分词按照关键词映射字典和存储过程映射字典进行关键词匹配,获得每个分词的各项属性信息,并构成词素;
按照分词处理的次序获得多个词素,形成词素流。
在其中一个实施例中,所述对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树,包括:
定义节点;所述节点用于连接其他节点并可形成层次关系,并包含词素流;
将词素流转换为节点,并建立节点之间的层次依赖关系;
根据节点之间的层次依赖关系及各节点包含的词素流构建所述待转换SQL语句的语法解析树;
根据源数据库和目标数据库之间的转换规则,将所述待转换SQL语句的语法解析树转换为结果SQL语句的语法解析树。
在其中一个实施例中,根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句的步骤之后,还包括:将所述结果SQL语句按照目标数据库的语法规则进行校验,筛除不符合语法规则的SQL语句。
一种SQL语句的转换设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的SQL语句的转换程序,所述处理器执行所述SQL语句的转换程序时实现上述的方法的步骤。
一种SQL语句的转换系统,包括:
词法分析模块,用于对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;
语法分析模块,用于对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树;
语句生成模块,用于根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;
其中,所述目标数据库与所述源数据库为异构的关系型数据库。
一种计算机可读存储介质,其上存储有SQL语句转换的程序,该SQL语句的转换程序被处理器执行时实现上述的方法。
上述SQL语句的转换方法、系统、设备及计算机可读存储介质,通过对SQL语句进行分析获得词素流,并基于词素流中词素的属性信息进行语法分析,构建出SQL语句的语法解析树,从而简化异构的关系型数据库之间的SQL语句的相互转换。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的SQL语句的转换设备结构示意图;
图2为一实施例的SQL语句的转换方法流程图;
图3为图2中步骤S202的其中一种实现方式的流程图;
图4a为图2中步骤S204的其中一种实现方式的流程图;
图4b为与通过SQL语句形成节点的示意图;
图4c为语法解析树;
图5为一实施例的SQL语句的转换系统模块图。
具体实施方式
本申请涉及一种SQL语句的转换方法,所述方法包括以下步骤:
对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树;根据转换后的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;其中,所述目标数据库与所述源数据库为异构的关系型数据库。
上述方法通过对SQL语句进行分析获得词素流,并基于词素流中词素的属性信息进行语法分析,构建出SQL语句的语法解析树,从而简化异构的关系型数据库之间的SQL语句的相互转换。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是本申请实施例方案涉及的硬件运行环境的SQL语句的转换设备100结构示意图。
本申请实施例的SQL语句的转换设备,可以是例如服务器、个人计算机,智能手机、平板电脑、便携计算机等。只要其具备一定的通用数据处理能力即可。
如图1所示,所述SQL语句的转换设备100包括:存储器104、处理器102及网络接口106。
处理器102在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器104中存储的程序代码或处理数据,例如执行程序等。
存储器104至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器104在一些实施例中可以是SQL语句的转换设备100的内部存储单元,例如该SQL语句的转换设备100的硬盘。存储器104在另一些实施例中也可以是SQL语句的转换设备100的外部存储设备,例如该SQL语句的转换设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器104还可以包括SQL语句的转换设备100的内部存储单元。存储器104不仅可以用于存储安装于SQL语句的转换设备100的应用软件及各类数据,例如人脸识别模型训练的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
网络接口106可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该SQL语句的转换设备100与其他电子设备之间建立通信连接。
网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个:传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(Blue Tooth)通信协议或其组合。
图1仅示出了具有组件102-106的SQL语句的转换设备100,本领域技术人员可以理解的是,图1示出的结构并不构成对SQL语句的转换设备100的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
如图2所示,为一实施例的SQL语句的转换方法流程图。所述方法用于在异构的源数据库和目标数据库之间转换SQL语句。异构是指不同服务商的数据库,例如Oracle、MySQL、SQL Server等。源数据库是指其SQL语句要被转换的数据库,目标数据库则是要转换成的SQL语句的数据库。上述方法应用于关系型数据库之间的SQL语句的转换。所述方法可以包括以下步骤:
步骤S202:对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息。
SQL语句是一串符合语法规则的词或符号的组合,例如:
SELECT*FROM PERSON WHERE姓名='张三'
在进行转换前,需要先对SQL语句进行词法分析,以获得该SQL语句具体包含哪些分词。这些分词在本申请中称为词素,并定义特定的数据结构来存储该分词的各类信息。例如SELECT、*、FROM、……等都分别可以提取为一个词素。多个词素统称为词素流。
步骤S204:对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树。
对SQL语句进行语法分析,以获得该SQL语句具体对应于数据库的哪些操作。例如,上述SQL语句是在数据库的PERSON表中查询所有姓名为张三的数据。
在进行语法分析时,可以将词素流转换为语法解析树。该语法解析树给出了词素之间的联系,体现出对数据库的具体操作。在语法解析树层面,基于不同数据库之间的差异,按照对应的规则对词素及联系进行对应的转换,即可获得目标数据库的SQL语法解析树。
步骤S206:根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句。
结果SQL语句将符合目标数据库的操作规则,可以适用于对目标数据库进行操作。可以理解,SQL语句在转换前后可能是完全一样的,因为大部分关系型数据库本质上还是基于SQL语言。
上述方法通过对SQL语句进行分析获得词素流,并基于词素流中词素的属性信息进行语法分析,构建出SQL语法解析树,从而简化异构的关系型数据库之间的SQL语句的相互转换。
在一个实施例中,所述源数据库为Oracle数据库,所述目标数据库为MySQL数据库。若所述源数据库还采用Mybatis封装SQL语句,则所述方法还包括:将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句;则所述待转换SQL语句来自所述还原成Oracle数据库的SQL语句。
MyBatis是一款优秀的持久层框架,它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。因此,Oracle数据库大多使用了MyBatis进行封装。
MyBatis使用XML映射语句。例如select标签映射查询语句:
<select id="selectPerson"parameterType="int"resultType="hashmap">
SELECT*FROM PERSON WHERE ID=#{id}
</select>
这个语句被称作selectPerson,接受一个int(或Integer)类型的参数,并返回一个HashMap类型的对象,其中的键是列名,值便是结果行中的对应值。
XML语句中,每个XML对象以尖括号对<></>标记,括号中的名称为对象的名称(例如select),尖括号对之间为对象的内容,在前面的尖括号中,还可以设置对象的属性(例如id/parameterType/resultType等)。
这与一般的SQL查询语句不同,例如“SELECT*FROM PERSON WHERE姓名=’张三’”,要先使用查询语句从数据库中取出数据,再存入对象实例中。因此,在进行异构的关系型数据库之间的转换时,需要对XML语句进行转换,得到纯正的SQL语句。
在一个实施例中,针对Oracle数据库使用MyBatis封装SQL语句的情况。转换大致包括:构建XML解析器,针对Mybatis中带有XML标签的Oracle数据库的SQL语句转化成为易于读取的JSON格式的数据;再构建SQL生成器,从JSON格式的数据中提取出SQL语句;最后构建Oracle语法校验器,针对Oracle数据库的SQL语句进行语法校验,过滤掉不符合Oracle数据库的语法的SQL语句。
具体地,可以包括:
步骤S208:从Mybatis封装的SQL语句中提取出带XML标签的SQL语句,并转化成为JSON格式。
递归定义XML-SQL解析树,根据数据属性遍历整棵树,遍历的方式是深度优先遍历,通过递归的方式获取子标签和内容。然后将Oracle数据库的SQL语句转化成为易于读取的JSON格式。
例如:
<select id="selectPerson"parameterType="int"resultType="hashmap">
SELECT*FROM PERSON WHERE ID=#{id}
</select>
转换为:
{select:SELECT*FROM PERSON WHERE ID=id}
步骤S210:从所述JSON格式的语句中提取出Oracle数据库的SQL语句。
例如:从{select:SELECT*FROM PERSON WHERE ID=id}中提取的SQL语句为:SELECT*FROM PERSON WHERE ID=id。
步骤S212:对提取出的Oracle数据库的SQL语句进行语法校验,筛除不符合Oracle数据库的语法的SQL语句。
从XML-SQL解析树获得的结果是按照递归解析并组装的,不一定完全满足Oracle数据库的语法要求,对不符合要求的要筛除。
上述方法,采用JSON格式作为中间存储结构,易于转换、存储和读取。可以理解,对于未采用Mybatis封装SQL语句的数据库,上述步骤S208~212不执行。需要说明的是,步骤的数字大小不代表执行顺序的先后。对于采用Mybatis封装SQL语句的Oracle数据库,上述步骤S208~212在步骤S202之前执行。
在其中一个实施例中,所述步骤S202:对来自于源数据库的待转换SQL语句进行词法分析,获得词素流,如图3所示可以包括:
步骤S302:定义词素对象的数据结构。
词素对象即SQL语句中的各个要素的统称,例如SELECT*FROM PERSON WHERE姓名='张三'中,包括关键字“SELECT”、“FROM”、“WHERE”,符号“*”、“=”,以及参数“PERSON”、“'张三'”。这些要素均采用词素对象进行存储。
本实施例中定义词素对象的数据结构如下:
token('type','value','lineno','index','xml_list','data_type')。通过token将词素的词类型、值、位置信息、索引信息、xml标签信息以及参数数据类型存储起来。
在此之前,需要定义type、value等基础类型,方便词素对象使用这些基础类型。根据Oracle数据库的特性,给SQL语句标注value、type等基础类型,在此基础上,再定义函数和语句结构,例如通过Python的装饰器功能,通过自定义Python函数实现Oracle数据库的SQL语句中的函数和语句结构;目前支持Oracle大部分的函数和语法。完成数据预处理操作。
此外,还需要自定义字符映射表。将Oracle关键字保存在关键词映射字典COMMON_KEYWORDS中,将存储过程关键词保存在映射字典STORED_PROCEDURE_KEYWORDS中,最终的字符映射表KEYWORDS由这两部分组成。字典是一种数据结构,其每项数据包括key和value,key为唯一值,用于在字典中索引,value则是与key对应对象。key一般可以用有意义的字符串表示,value则可以是字符串,也可以是复杂对象。
步骤S304:对所述待转换SQL语句进行分词。
构建词法转换处理器Lexer,其生成的文件被称作分词器tokenizer,它是一个实现SQL语句分词处理的函数。分词器输入为一串上下文无关的字符流,其从左至右逐个解析字符,即对字符采用正则匹配的方法得到字符流。可通过正则匹配的方式,从SQL语句中分离出关键词及符号。
步骤S306:对所述分词按照关键词映射字典和存储过程映射字典进行关键词匹配,获得每个分词的各项属性信息,并构成词素。
采用上述的关键词映射字典COMMON_KEYWORDS以及存储过程映射字典STORED_PROCEDURE_KEYWORDS对关键词进行类别归属操作。根据词的类别归属,获得每个分词的各项属性信息。每个词素都有对应的词类型(type)和值(value),通过上述字典可以匹配查询获得。对于SQL语句的Mybatis标签来源,使用xml_list属性进行保存;非SQL的保留关键字,例如查询参数的值的类型也采用data_type属性保存。经过上述处理,即可构成一个完整的词法单元token。其中,xml_list属性和data_type属性解决了SQL语句带标签的问题和函数传参导致的转换二义性问题。
步骤S308:按照分词处理的次序获得多个词素,形成词素流。
通过tokenizer把字符流按照单词和操作符序列化成为词素流tokens。使用移进/规约的规则来对字符流进行操作,最终结果形成词素流,使得无意义的字符流转换成为了有意义的词素流Tokens。
对于SQL语句:select*from person where age>18,本步骤处理后的数据可以表现为例如:
Token(type='SELECT',value='select',lineno=2,index=3,xml_list=[],data_type=None);
Token(type='TIMES',value='*',lineno=2,index=10,xml_list=[]);
Token(type='FROM',value='from',lineno=2,index=12,xml_list=[],data_type=None);
Token(type='NAME',value='person',lineno=2,index=17,xml_list=[],data_type=None);
Token(type='WHERE',value='where',lineno=2,index=24,xml_list=[],data_type=None);
Token(type='NAME',value='age',lineno=2,index=30,xml_list=[],data_type=None);
Token(type='>',value='>',lineno=2,index=33,xml_list=[]);
Token(type='NUMBER_INTEGER',value='18',lineno=2,index=34,xml_list=[],data_type=NUMBER)。
在其中一个实施例中,所述步骤S204:对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树,如图4a所示可以包括:
步骤S402:定义节点;所述节点用于连接其他节点并可形成层次关系,并包含词素流。
例如可以添加一个节点类,其包含父节点、自身属性以及词素流。
如图4b所示,每个节点可以由其他节点构成,例如Node(1),也可以由词素流构成例如Node(2),节点之间形成层次关系,包含其他节点的节点层次更高。
步骤S404:将词素流转换为节点、并建立节点之间的层次依赖关系。
节点的层次与SQL语句的层次相对应。如图4b所示,该SQL语句包括三个层次,第一层为SELECT查询语句,其从表CRS_INPUT_TEMPL_RESULTA和由第二层的SELECT子查询返回的表(这里可以称为表A)中联合查询。
第二层是SELECT子查询,其从表CRS_BU_LEVEL和由第三层SELECT子查询返回的表(这里可以称为表B)中联合查询。第三层的SELECT子查询还包括LEFT JOIN的SELECT子查询。
第一层中的词素包括Token(type='select',value='select')(其他属性省略表示)、Token(type='*',value='*')、Token(type='from',value='from'),作为节点Node(2)以及表CRS_INR_TEMPL_RESULTA和表A对应的Token流作为节点Node(3),其中的词素包括Token(type='name',value='CRS_INPUT_TEMPL_RESULTA')以及由第二层SELECT子查询所对应的词素流构成。
之后的词素流构成节点的方式以此类推,不再赘述。
步骤S406:根据节点之间的层次依赖关系及各节点包含的词素流构建所述待转换SQL语句的语法解析树。
每层获取得到的token词素流和node节点,结合Oracle语法规则,根据上下文信息构建LALR(1)状态机和分析栈,使用分析栈来保存文法符号,并用一个缓冲区来存放将要进行语法分析的其余符号。首先将输入的token词素流和node节点采用移进和归约的方式得到SQL语法解析树;其次在解析表达式的时候,状态机的状态和当前输入的token决定状态机何时采取移进操作和归约操作,移进操作将token(包含着终结符号和非终结符号)读取到分析栈中,当分析栈的栈顶的n个符号匹配某条规则的右端时,则该规则被左端的句柄代替;最后按照这个规律,逐条预读每个词素,就可以确定采取的是移进还是归约操作了,当状态机接受了全部输入时,就宣布语法分析过程成功完成。此外,可以增加一个错误处理模块,在发现语法错误的时候调用其中一个错误进行恢复操作。
如下所示,当输入例句为:
select user_name from user where user_age>=27;
语法解析器的每一步的操作处理步骤,内容分别是:存储SQL字符的符号栈、字符的词素Tokens以及Parser的移进/规约(shift/reduce)操作:
得到的语法解析树如图4c所示。
步骤S408:根据源数据库和目标数据库之间的转换规则,将所述待转换SQL语句的语法解析树转换为结果SQL语句的语法解析树。
如图4c所示,采用深度优先遍历的遍历方式递归遍历整棵SQL语法解析树,即可得到对应的Oracle数据库的SQL语句。
根据Oracle语法转换MySQL的转换规则得到语法解析树,即可根据该语法解析树还原出完整的符合MySQL语法的SQL语句。如下表所示,是Oracle转MySQL的例句,分别在函数和参数层面上完成了语法解析和语句转换。
Oracle的SQL语句:
to_date('2011-09-20 08:30:45','yyyy-MM-dd hh24:mi:ss')FROM dual;
对应的MySQL的SQL语句:
DATE_FORMAT('2011-09-20 08:30:45','%Y-%m-%d%H:%i:%S');
进一步地,将所述结果SQL语句按照目标数据库的语法规则进行校验,筛除不符合语法规则的SQL语句。
首先构建MySQL语法校验器,并检验出无效的MySQL数据库的SQL语句进行过滤,留下语法无误的MySQL数据库的SQL语句;然后构建XML生成器和JSON生成器,最后得到的MySQL数据库的SQL语句生成MySQL XML数据。
将得到的MySQL数据库的SQL语句进行语法校验,过滤掉语法不规范、不合格的SQL语句。将得到的规范的、合格的MySQL数据库的SQL语句写入JSON格式,得到结构化的SQL语句。
将得到的结构化的JSON格式的SQL语句,进行XML标签化处理,得到的JSON序列化的SQL代码,构建XML生成树,逐层将SQL语句建立层级关系,然后通过先序遍历的方式遍历整棵树,将JSON中上下文无关的SQL语句组装成符合XML结构化的逻辑完善、无语法错误的MySQL数据库的SQL语句。即对符合语法规则的结果SQL语句进行封装。
本申请的方法能够在不影响业务场景正常运行的情况下,把金融场景数据库的Oracle数据转换成MySQL数据,能够有助于数据库迁移的人力资源和机器资源的释放,实现O2M(Oracle to MySQL,Oracle到MySQL)的自动化。在IDE(Integrated DevelopmentEnvironment,集成式开发环境)插件中实现O2M工具后,实现了在Mybatis中带XML标签的SQL语句去除标签后,从JSON格式中提取出对应的SQL语句,然后对SQL语句进行解析,最终得到想要的MySQL数据。
如图5所示,还提供一种SQL语句的转换系统。该系统500可以包括:
词法分析模块502,用于对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;
语法分析模块504,用于对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树;
语句生成模块506,用于根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句。
进一步地,所述源数据库为Oracle数据库,所述目标数据库为MySQL数据库;若所述源数据库还采用Mybatis封装SQL语句,则所述系统500还包括:SQL语句还原模块508,用于将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句。所述待转换SQL语句来自所述还原成Oracle数据库的SQL语句。
所述SQL语句还原模块508具体用于:
从Mybatis封装的SQL语句中提取出带XML标签的SQL语句,并转化成为JSON格式;
从所述JSON格式的语句中提取出Oracle数据库的SQL语句。
所述SQL语句还原模块510具体还用于:
对提取出的Oracle数据库的SQL语句进行语法校验,筛除不符合Oracle数据库的语法的SQL语句。
所述词法分析模块502具体用于:
定义词素对象的数据结构;
对所述待转换SQL语句进行分词;
对所述分词按照关键词映射字典和存储过程映射字典进行关键词匹配,获得每个分词的各项属性信息,并构成词素;
按照分词处理的次序获得多个词素,形成词素流。
所述语法分析模块504具体用于:
定义节点;所述节点用于连接其他节点并可形成层次关系,并包含词素流;
将词素流转换为节点、并建立节点之间的层次依赖关系;
根据节点之间的层次依赖关系及各节点包含的词素流构建所述待转换SQL语句的语法解析树;
根据源数据库和目标数据库之间的转换规则,将所述待转换SQL语句的语法解析树转换为结果SQL语句的语法解析树。
所述系统500还包括筛除模块510,用于将所述结果SQL语句按照目标数据库的语法规则进行校验,筛除不符合语法规则的SQL语句。
所述系统500还包括封装模块512,用于对符合语法规则的结果SQL语句进行封装。
上述系统500为与方法一一对应的模块,模块的具体功能的实现方式已在方法实施例中具体阐述,此处不再赘述。应当理解,方法实施例的具体内容可以引入系统500以对系统实施例进行支持。
此外,本申请实施例还提出一种SQL语句的转换设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的SQL语句的转换程序,所述处理器执行所述SQL语句的转换程序时实现如上所述的SQL语句转换的方法的步骤。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有上述SQL语句转换的程序,所述SQL语句转换的程序被处理器执行时实现如上所述的SQL语句转换的方法的步骤。
本申请计算机可读存储介质具体实施方式与上述SQL语句转换的方法各实施例基本相同,在此不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种SQL语句的转换方法,其特征在于,所述方法包括:
对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;
对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树,包括:定义节点;所述节点用于连接其他节点并可形成层次关系,并包含词素流;将词素流转换为节点,并建立节点之间的层次依赖关系;根据节点之间的层次依赖关系及各节点包含的词素流构建所述待转换SQL语句的语法解析树;根据源数据库和目标数据库之间的转换规则,将所述待转换SQL语句的语法解析树转换为结果SQL语句的语法解析树;
根据转换后的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;其中,所述目标数据库与所述源数据库为异构的关系型数据库。
2.根据权利要求1所述方法,其特征在于,所述源数据库为Oracle数据库,所述目标数据库为MySQL数据库;
若所述源数据库还采用Mybatis封装SQL语句,则在对来自于源数据库的待转换SQL语句进行词法分析,获得词素流的步骤之前,所述方法还包括:将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句;
所述待转换SQL语句来自所述还原成Oracle数据库的SQL语句。
3.根据权利要求2所述方法,其特征在于,所述将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句,包括:
从Mybatis封装的SQL语句中提取出带XML标签的SQL语句,并转化成为JSON格式;
从所述JSON格式的语句中提取出Oracle数据库的SQL语句。
4.根据权利要求3所述方法,其特征在于,所述将采用Mybatis封装的SQL语句还原成Oracle数据库的SQL语句的步骤中,在从所述JSON格式的语句中提取出Oracle数据库的SQL语句的步骤之后,还包括:
对提取出的Oracle数据库的SQL语句进行语法校验,筛除不符合Oracle数据库的语法的SQL语句。
5.根据权利要求2所述方法,其特征在于,所述对来自于源数据库的待转换SQL语句进行词法分析,获得词素流,包括:
定义词素对象的数据结构;
对所述待转换SQL语句进行分词;
对所述分词按照关键词映射字典和存储过程映射字典进行关键词匹配,获得每个分词的各项属性信息,并构成词素;
按照分词处理的次序获得多个词素,形成词素流。
6.根据权利要求1所述方法,其特征在于,根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句的步骤之后,还包括:将所述结果SQL语句按照目标数据库的语法规则进行校验,筛除不符合语法规则的SQL语句。
7.一种SQL语句的转换设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的SQL语句的转换程序,所述处理器执行所述SQL语句的转换程序时实现权利要求1-6任一所述的方法的步骤。
8.一种SQL语句的转换系统,其特征在于,包括:
词法分析模块,用于对来自于源数据库的待转换SQL语句进行词法分析,获得词素流;其中,所述词素流中的词素包括所述待转换SQL语句中各分词的属性信息;
语法分析模块,用于对所述词素流进行语法分析得到待转换SQL语句的语法解析树,根据源数据库和目标数据库之间的转换规则转换得到转换后的语法解析树;
所述语法分析模块,还用于定义节点;所述节点用于连接其他节点并可形成层次关系,并包含词素流;将词素流转换为节点,并建立节点之间的层次依赖关系;根据节点之间的层次依赖关系及各节点包含的词素流构建所述待转换SQL语句的语法解析树;根据源数据库和目标数据库之间的转换规则,将所述待转换SQL语句的语法解析树转换为结果SQL语句的语法解析树;
语句生成模块,根据转换后的SQL语句的语法解析树生成与所述待转换SQL语句对应的、且用于目标数据库的结果SQL语句;
其中,所述目标数据库与所述源数据库为异构的关系型数据库。
9.一种计算机可读存储介质,其特征在于,其上存储有SQL语句转换的程序,其特征在于,该SQL语句的转换程序被处理器执行时实现权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324218.2A CN113051285B (zh) | 2021-03-25 | 2021-03-25 | Sql语句的转换方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324218.2A CN113051285B (zh) | 2021-03-25 | 2021-03-25 | Sql语句的转换方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051285A CN113051285A (zh) | 2021-06-29 |
CN113051285B true CN113051285B (zh) | 2024-04-02 |
Family
ID=76515465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110324218.2A Active CN113051285B (zh) | 2021-03-25 | 2021-03-25 | Sql语句的转换方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051285B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527815A (zh) * | 2020-12-02 | 2021-03-19 | 平安医疗健康管理股份有限公司 | 数据库的脚本迁移方法、装置、计算机设备和存储介质 |
CN113448944B (zh) * | 2021-06-30 | 2022-03-18 | 未鲲(上海)科技服务有限公司 | 数据库的数据评估方法、装置、计算机设备和存储介质 |
CN113535758B (zh) * | 2021-09-09 | 2021-12-24 | 浩鲸云计算科技股份有限公司 | 一种把传统数据库脚本批量转换上云的大数据系统和方法 |
CN113792066A (zh) * | 2021-09-23 | 2021-12-14 | 中国农业银行股份有限公司 | 一种批量sql的动态解析调度方法及装置 |
CN114168942A (zh) * | 2021-12-06 | 2022-03-11 | 北京天融信网络安全技术有限公司 | 语句提取方法、装置、电子设备和计算机可读存储介质 |
CN114047927B (zh) * | 2022-01-11 | 2022-04-29 | 山东捷瑞数字科技股份有限公司 | 一种数据库代码转换方法及系统 |
CN114386373A (zh) * | 2022-01-13 | 2022-04-22 | 未鲲(上海)科技服务有限公司 | 一种代码语句转换方法、装置、计算机设备及存储介质 |
CN116010438B (zh) * | 2022-12-22 | 2023-11-28 | 北京柏睿数据技术股份有限公司 | 一种数据库操作延迟计算的方法和系统 |
CN117290377A (zh) * | 2023-09-28 | 2023-12-26 | 北京领雁科技股份有限公司 | 一种关系型数据库间sql语句的转换方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992595A (zh) * | 2019-04-11 | 2019-07-09 | 北京启迪区块链科技发展有限公司 | 异构数据库转换方法、装置、设备和存储介质 |
CN110019291A (zh) * | 2017-09-04 | 2019-07-16 | 中国移动通信集团浙江有限公司 | 一种sql解析方法和sql解析器 |
WO2019237333A1 (en) * | 2018-06-15 | 2019-12-19 | Entit Software Llc | Converting database language statements between dialects |
CN111061757A (zh) * | 2019-12-19 | 2020-04-24 | 用友网络科技股份有限公司 | 数据库的语言转换方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093493B (zh) * | 2006-06-23 | 2011-08-31 | 国际商业机器公司 | 数据库查询语言转换方法、转换装置 |
-
2021
- 2021-03-25 CN CN202110324218.2A patent/CN113051285B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019291A (zh) * | 2017-09-04 | 2019-07-16 | 中国移动通信集团浙江有限公司 | 一种sql解析方法和sql解析器 |
WO2019237333A1 (en) * | 2018-06-15 | 2019-12-19 | Entit Software Llc | Converting database language statements between dialects |
CN109992595A (zh) * | 2019-04-11 | 2019-07-09 | 北京启迪区块链科技发展有限公司 | 异构数据库转换方法、装置、设备和存储介质 |
CN111061757A (zh) * | 2019-12-19 | 2020-04-24 | 用友网络科技股份有限公司 | 数据库的语言转换方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
异构数据库应用架构研究;崔智刚;申新鹏;魏向阳;赖碧云;;价值工程(第17期);全文 * |
面向数据库性能的SQL语句解析与翻译;崔娜;;现代电子技术(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113051285A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051285B (zh) | Sql语句的转换方法、系统、设备及存储介质 | |
CN107451153B (zh) | 输出结构化查询语句的方法和装置 | |
JP4427500B2 (ja) | 意味解析装置、意味解析方法および意味解析プログラム | |
CN113032362A (zh) | 数据血缘分析方法、装置、电子设备和存储介质 | |
US9311058B2 (en) | Jabba language | |
CN108563629B (zh) | 一种日志解析规则自动生成方法和装置 | |
CN113672628A (zh) | 数据血缘分析方法、终端设备及介质 | |
CN112988163B (zh) | 编程语言智能适配方法、装置、电子设备和介质 | |
CN110955714A (zh) | 一种将非结构化文本转化为结构化文本的方法及装置 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113742368A (zh) | 一种数据血缘关系分析方法 | |
CN107679055B (zh) | 信息检索方法、服务器及可读存储介质 | |
WO2021135103A1 (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN115080011B (zh) | 基于抽象语法树的代码生成方法及系统 | |
CN111078724A (zh) | 学习系统中的测试题检索方法、装置、设备及存储介质 | |
CN111046636A (zh) | 筛选pdf文件信息的方法、装置、计算机设备及存储介质 | |
CN114490709A (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN113987118A (zh) | 语料的获取方法、装置、设备及存储介质 | |
CN116451795B (zh) | 一种量子线路图处理方法、装置及电子设备和存储介质 | |
CN116089476B (zh) | 数据查询方法、装置及电子设备 | |
EP4421621A1 (en) | Method and system for matching source code and binary code | |
CN114185617B (zh) | 业务调用接口配置方法、装置、设备及存储介质 | |
CN114385664A (zh) | 一种单体项目微服务的拆分方法、系统、装置及存储介质 | |
CN111709250A (zh) | 用于信息处理的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |