CN109241104A

CN109241104A - 决策型分布式数据库系统中aisql的解析器及其实现方法

Info

Publication number: CN109241104A
Application number: CN201811191135.5A
Authority: CN
Inventors: 张德辉
Original assignee: Beijing Juyun Weizhi Information Technology Co Ltd
Current assignee: Beijing Aowei Technology Co.,Ltd.
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-01-18
Anticipated expiration: 2038-10-12
Also published as: CN109241104B

Abstract

本发明属于支持AI SQL的SQL解析器，特别涉及一种决策型分布式数据库系统中AI SQL的解析器及其实现方法。本发明提供一种新的决策型分布式数据库系统中AI SQL的解析器及其实现方法，该决策型分布式数据库系统中AI SQL的解析器及其实现方法采用AI SQL作为SQL 2011规范的扩展，和二次开发AI分析程序相比，由于SQL语言天生声明性的特征，这使得AI SQL远比其他如Python/Java/C/C++这些要更容易掌握和使用，一般熟练掌握SQL的数据分析师即能掌握，无需增加掌握Python/Java/C/C++这些AI编程开发人员。并且AI SQL使用决策型数据作为执行平台，和二次开发AI分析程序的过程相比，减少了编译、打包、部署的环节，测试工作也更简单，从而降低了AI分析项目的人员成本和实施周期。

Description

决策型分布式数据库系统中AISQL的解析器及其实现方法

技术领域

本发明属于支持AI SQL的SQL解析器，特别涉及一种决策型分布式数据库系统中AI SQL的解析器及其实现方法。

背景技术

现有的SQL解析器支持标准SQL核心语法并且有各自特定的扩展功能语法，但是缺少对AI模型管理和应用相关的操作的语法解析的支持。这使得用户不得不借助于AI开发工具包来弥补这个问题，但是AI工具包均为编程API方式提供给用户，这需要用户具备某种通用编程语言(如C/C++/Python/Java)的开发能力，这些语言学习曲线明显高于声明式查询语言SQL，这对于采用SQL作为主要分析手段的传统数据分析师而言要求过于苛刻。另外AI工具进行二次开发存在编译、打包、测试、部署的问题，其项目实施成本、风险和周期远远高于传统数据分析过程。

发明内容

针对上述问题，本发明提供一种新的决策型分布式数据库系统中AI SQL的解析器及其实现方法，该新的决策型分布式数据库系统中AI SQL的解析器及其实现方法采用新的语法定义来实现AI SQL并且对复杂的数据分析任务能够整体进行优化执行，从而节省了硬件成本。

本发明具体技术方案如下：

本发明提供一种决策型分布式数据库系统中AI SQL的解析器，所述支持AI SQL的SQL解析器包括：

语法定义模块，用于定义实现AI SQL的语法；

AI SQL解析模块，用于解析输入的AI SQL语句，得到一颗解析好的语法树；

逻辑执行计划生成模块，用于根据解析好的语法树新型创建逻辑执行计划。

本发明的有益效果如下：

本发明提供一种新的决策型分布式数据库系统中AI SQL的解析器及其实现方法，该决策型分布式数据库系统中AI SQL的解析器及其实现方法采用AI SQL作为SQL 2011规范的扩展，和二次开发AI分析程序相比，由于SQL语言天生声明性的特征，这使得AI SQL远比其他如Python/Java/C/C++这些要更容易掌握和使用，一般熟练掌握SQL的数据分析师即能掌握，无需增加掌握Python/Java/C/C++这些AI编程开发人员。并且AI SQL使用决策型数据作为执行平台，和二次开发AI分析程序的过程相比，减少了编译、打包、部署的环节，测试工作也更简单，从而降低了AI分析项目的人员成本和实施周期。

附图说明

图1为实施例1决策型分布式数据库系统中AI SQL的解析器的结

构框图；

图2为实施例2语法定义模块的结构框图；

图3为实施例2AI SQL解析模块的结构框图；

图4为实施例3逻辑执行计划生成模块的结构框图；

图5为实施例4AI SQL解析模块的结构框图；

图6为实施例5决策型分布式数据库的结构框图；

图7为实施例6决策型分布式数据库系统中AI SQL的解析器实现

方法的流程图；

图8为实施例7步骤S1的流程图；

图9为实施例7步骤S2的流程图；

图10为实施例8步骤S3的流程图。

具体实施方式

下面结合附图和以下实施例对本发明作进一步详细说明。

实施例1

本发明实施例1提供一种决策型分布式数据库系统中AI SQL的解析器，如图1所示，所述支持AI SQL的SQL解析器包括：

语法定义模块10，用于定义实现AI SQL的语法；

AI SQL解析模块20，用于解析输入的AI SQL语句，得到一颗解析好的语法树；

逻辑执行计划生成模块30，用于根据解析好的语法树新型创建逻辑执行计划。

本发明中采用新的语法定义来实现AI SQL并且AI SQL这种SQL2011标准的扩展SQL，减低了AI使用的门槛以及对AI编程开发人员的需求，节省了AI项目的成本，另外在充分利用整个集群整体资源(GPU，CPU和内存等等)的同时，对复杂的数据分析任务能够整体进行优化执行，相对于现有方案而言，消耗更少的硬件资源，从而节省了硬件成本。

实施例2

一种决策型分布式数据库系统中AI SQL的解析器，如图2所示，与实施例1不同的是：所述语法定义模块10包括：

AI模型创建的语法定义单元101，用于对AI模型创建的语法进行定义，

<model definition>::＝CREATE[<model scope>]MODEL<model name>

AS<model constructor name><SQL argument list>

<model scope>::＝<global or local>TEMPORARY

<global or local>::＝GLOBAL|LOCAL

<local or schema qualified name>::＝同SQL 2011规范中定义

<schema name>::＝同SQL 2011规范中定义

<period>::＝.

<qualified identifier>::＝同SQL 2011规范中定义

<SQL argument list>::＝同SQL 2011规范中定义；

AI模型更新的语法定义单元102，用于对AI模型更新的语法进行定义，

<update model definition>::＝UPDATE[<model scope>]MODEL<model name>

AS<model constructor name><SQL argument list>；

AI模型评估的语法定义单元103，用于对AI模型评估的语法进行定义，

<evaluate model definition>::＝SELECT<select list>FROM<modelevaluation function name><SQL argument list>

<select list>::＝同SQL 2011规范中定义

<model evaluation function name>::＝[<schema name><period>]

其中<SQL argument list>必须至少包含一个MODEL的直接名称或构造表达式(比如采用调用DECISION_TREE_TRAIN构造的一个临时匿名的MODEL)；

手动指令领域数据类型的语法定义单元104，用于对手动指令领域数据类型的语法进行定义，

<alter column AI-domain type definition>::＝ALTER[COLUMN]

<alter column AI-domain type clause>::＝SET AI DOMAIN TYPE

<AI-domain type>

<AI-domain type>::＝<basic AI-domain type>|<user defined AI-domaintype>

|<collection AI-domain type>

<array AI-domain type>::＝<AI-domain type>ARRAY

<multiset AI-domain type>::＝<AI-domain type>MULTISET

其中<basic AI-domain type>中均为系统内置在特征知识库中的领域数据类型，比如年龄、地址、邮箱、性别、手机号、身份证号、百分制评分、五分制评分、海拔等等。<userdefined AI-domain type>是用户扩展的领域数据类型；

AI模型应用的语法定义单元105，用于对AI模型应用的语法进行定义，其中AI模型的应用是预测函数根据用户输入的数据集合、选择的建好的模型生成预测结果，所述预测结果包括：分类结果、趋势、关联关系挖掘、推荐结果等等，这些结果也是一个集合，特殊情况下，这个集合可能只有一行数据，

<AI model apply definition>:＝SELECT<select list>FROM<model applyfunction name><SQL argument list>

<model apply function name>::＝[<schema name><period>]<qualifiedidentifier>；

AI SQL其他语法定义单元106，用于对AL SQL的其他语法进行定义，其他和SQL2011规范语法兼容保持一致。

如图3所示，本实施例中，所述AI SQL解析模块20包括：

词法分析单元201，用于将输入的AI SQL语句解析成令牌流；

语法分析单元202，用于将令牌流解析为语法树；

关系表解析单元203，用于将语法树中的关系表解析为具有存储位置等的元数据信息的关系表信息对象；

AI模型解析单元204，用于将语法树中AI模型解析为具有元数据信息的AI模型信息对象；

算法解析单元205，用于将语法树中函数的名称解析为具有完整类型信息的函数描述对象，所述函数包括AI计算函数；

解析完成单元206，用于根据上述解析得到解析好的语法树。

本发明中对AL SQL实现的语法进行具体的定义，并利用定义后的语法按照上述步骤解析输入的AI SQL语句。

实施例3

一种决策型分布式数据库系统中AI SQL的解析器，如图4所示，与实施例2不同的是：所述逻辑执行计划生成模块30包括：

连接运算步骤生成单元301，用于根据SQL的JOIN操作生成关系代数的连接运算步骤；

集合运算步骤生成单元302，用于根据SQL的并/交/差/除集合操作生成相应的关系代数并/交/差/除运算步骤；

特征工程计算步骤生成单元303，用于根据特征工程处理算法生成对应的特征工程计算步骤，其中，若是采用智能特征工程计算，则构造一通过与支持AI SQL的SQL解析器相通讯的特征工程知识库进行匹配的系列计算步骤；

AI计算步骤生成单元304，用于根据AI计算函数生成对应的AI计算步骤，包括参数的自动转换以及根据AI算法库构造逻辑执行计划的AI计算对象，其中AI算法函数为AI SQL解析模块20解析后得到的具有完整类型信息的函数描述对象；

选择运算生成单元305，用于根据SQL的条件过滤信息生成关系代数选择运算；

投影运算生成单元306，用于根据SQL的<select list>信息生成关系代数投影运算，包括表达式计算的生成；

逻辑执行计划单元307，用于根据上述运算得到一个根据语法树信息创建的逻辑执行计划，所述逻辑执行计划为一系列关系代数运算或AI运算。

本发明中按照上述步骤生成逻辑执行计划，其中对于特征工程计算步骤生成单元，如果里面包含特征工程计算则生成对应特征工程处理算法的运算步骤，其中采用智能特征工程计算的，还需构造一个通过特征知识库进行匹配的系列运算步骤。

实施例4

一种决策型分布式数据库系统中AI SQL的解析器，如图5所示，与实施例3不同的是：所述AI SQL解析模块20还包括：

验证及定位单元207，用于调取与支持AI SQL的SQL解析器相通讯的关系表及AI模型元数据库内存储的信息对AI SQL进行除了语法格式之外的正确性验证及资源对象定位；

重复性检查单元208，用于在创建关系表或AI模型时，进行重复性检查。

在AI SQL解析过程中AI SQL解析器会利用关系表及AI模型元数据库中的信息对AI SQL进行除了语法格式之外的正确性验证以及资源对象(比如某个关系表、某个AI模型、某个AI算法函数等等)定位，如果是创建表或AI模型操作，则AI SQL解析器还需进行重复性检查。

实施例5

一种决策型分布式数据库系统中AI SQL的解析器，如图6所示，与实施例4不同的是：所述支持AI SQL的SQL解析器还通讯连接有执行计划优化器1、支持AI计算的分布式执行器2、AI算法库5以及支持AI模型存储的分布式存储器6；

执行计划优化器1，用于将生成的逻辑执行计划进行优化，并生成执行代价较小的物理执行计划；

支持AI计算的分布式执行器2，用于将物理执行计划分解成多个步骤进行运行；

关系表及AI模型元数据库3，用于存储元数据表信息；

特征工程知识库4，用于存储系统内置的领域数据类型、与领域数据类型相匹配的特征处理算法的关联关系以及存储每个领域数据类型特征数据；

AI算法库5，用于集成多种AI算法以及分布式计算引擎，其中数据在不同编程语言或AI库间高效的转换传输采用Apache Arrow作为公共数据层；

支持AI模型存储的分布式存储器6，用于管理和存储关系表或AI模型的数据信息。

本发明由如上关键组件构成一个基于AI SQL和智能特征工程的决策型分布式数据库，从结构上看，一套决策型数据库就可以胜任了，这样数据不再需要从数据库导出来，也不存在数据导出的安全隐患；从功能上看，决策型数据库具备智能特征工程的能力，这是现有分析型数据库加上二次开发的AI分析程序的方案所不具备的；从成本看，决策型数据库提供AI SQL这种SQL 2011标准的扩展SQL，减低了AI使用的门槛以及对AI编程开发人员的需求，节省了AI项目的成本，另外决策型数据库功能上覆盖了完整的数据/AI模型管理、数据传统OLAP分析，AI复杂分析全过程，在充分利用整个集群整体资源(GPU，CPU和内存等等)的同时，对复杂的数据分析任务能够整体进行优化执行，相对于现有方案而言，消耗更少的硬件资源，从而节省了硬件成本；从效率看，决策型数据库的AI SQL更容易使用，智能特征工程提高了特征工程的效率，从而提高了整个AI项目实施的效率。

实施例6

一种决策型分布式数据库系统中AI SQL的解析器实现方法，如图7所示，所述方法包括：

S1：通过语法定义模块10定义实现AI SQL的语法；

S2：通过AI SQL解析模块20解析输入的AI SQL语句，得到一颗解析好的语法树；

S3：通过逻辑执行计划生成模块30根据解析好的语法树新型创建逻辑执行计划。

实施例7

一种决策型分布式数据库系统中AI SQL的解析器实现方法，如图8所示，与实施例6不同的是：步骤S1包括：

S11：通过AI模型创建的语法定义单元101对AI模型创建的语法进行定义；

S12：通过AI模型更新的语法定义单元102对AI模型更新的语法进行定义；

S13：通过AI模型评估的语法定义单元103对AI模型评估的语法进行定义；

S14：通过手动指令领域数据类型的语法定义单元104对手动指令领域数据类型的语法进行定义；

S15：通过AI模型应用的语法定义单元105对AI模型应用的语法进行定义；

S16：通过AI SQL其他语法定义单元106对AL SQL的其他语法进行定义。

如图9所示，本实施例中步骤S2包括：

S21：通过词法分析单元201将输入的AI SQL语句解析成令牌流；

S22：通过语法分析单元202将令牌流解析为语法树；

S23：通过关系表解析单元203将语法树中的关系表解析为具有元数据信息的关系表信息对象；

S24：通过AI模型解析单元204将语法树中AI模型解析为具有元数据信息的AI模型信息对象；

S25：通过算法解析单元205将语法树中函数的名称解析为具有完整类型信息的函数描述对象；

S26：通过解析完成单元206根据上述解析得到解析好的语法树。

实施例8

一种决策型分布式数据库系统中AI SQL的解析器实现方法，如图10所示，与实施例6不同的是：步骤S3包括：

S31：通过连接运算步骤生成单元301根据SQL的JOIN操作生成关系代数的连接运算步骤；

S32：通过集合运算步骤生成单元302根据SQL的并/交/差/除集合操作生成相应的关系代数并/交/差/除运算步骤；

S33：通过特征工程计算步骤生成单元303根据特征工程处理算法生成对应的特征工程计算步骤；

S34：通过AI计算步骤生成单元304根据AI计算函数生成对应的AI计算步骤；

S35：通过选择运算生成单元305根据SQL的条件过滤信息生成关系代数选择运算；

S36：通过投影运算生成单元306根据SQL的<select list>信息生成关系代数投影运算；

S37：通过逻辑执行计划单元307根据上述运算得到一个根据语法树信息创建的逻辑执行计划。

以上所述实施例仅仅是本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述支持AI SQL的SQL解析器包括：

语法定义模块(10)，用于定义实现AI SQL的语法；

AI SQL解析模块(20)，用于解析输入的AI SQL语句，得到一颗解析好的语法树；

逻辑执行计划生成模块(30)，用于根据解析好的语法树新型创建逻辑执行计划。

2.根据权利要求1所述的决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述语法定义模块(10)包括：

AI模型创建的语法定义单元(101)，用于对AI模型创建的语法进行定义；

AI模型更新的语法定义单元(102)，用于对AI模型更新的语法进行定义；

AI模型评估的语法定义单元(103)，用于对AI模型评估的语法进行定义；

手动指令领域数据类型的语法定义单元(104)，用于对手动指令领域数据类型的语法进行定义；

AI模型应用的语法定义单元(105)，用于对AI模型应用的语法进行定义，其中AI模型的应用是预测函数根据用户输入的数据集合、选择的建好的模型生成预测结果，所述预测结果包括：分类结果、趋势、关联关系挖掘以及推荐结果；

AI SQL其他语法定义单元(106)，用于对AL SQL的其他语法进行定义。

3.根据权利要求2所述的决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述AI SQL解析模块(20)包括：

词法分析单元(201)，用于将输入的AI SQL语句解析成令牌流；

语法分析单元(202)，用于将令牌流解析为语法树；

关系表解析单元(203)，用于将语法树中的关系表解析为具有元数据信息的关系表信息对象，所述元数据信息包括存储位置；

AI模型解析单元(204)，用于将语法树中AI模型解析为具有元数据信息的AI模型信息对象；

算法解析单元(205)，用于将语法树中函数的名称解析为具有完整类型信息的函数描述对象，所述函数包括AI计算函数；

解析完成单元(206)，用于根据上述解析得到解析好的语法树。

4.根据权利要求3所述的决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述逻辑执行计划生成模块(30)包括：

连接运算步骤生成单元(301)，用于根据SQL的JOIN操作生成关系代数的连接运算步骤；

集合运算步骤生成单元(302)，用于根据SQL的并/交/差/除集合操作生成相应的关系代数并/交/差/除运算步骤；

特征工程计算步骤生成单元(303)，用于根据特征工程处理算法生成对应的特征工程计算步骤，其中，若是采用智能特征工程计算，则构造一通过与支持AI SQL的SQL解析器相通讯的特征工程知识库进行匹配的系列计算步骤；

AI计算步骤生成单元(304)，用于根据AI计算函数生成对应的AI计算步骤，包括参数的自动转换以及根据AI算法库构造逻辑执行计划的AI计算对象，其中AI算法函数为AI SQL解析模块(20)解析后得到的具有完整类型信息的函数描述对象；

选择运算生成单元(305)，用于根据SQL的条件过滤信息生成关系代数选择运算；

投影运算生成单元(306)，用于根据SQL的<select list>信息生成关系代数投影运算，包括表达式计算的生成；

逻辑执行计划单元(307)，用于根据上述运算得到一个根据语法树信息创建的逻辑执行计划，所述逻辑执行计划为一系列关系代数运算或AI运算。

5.根据权利要求4所述的决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述AI SQL解析模块(20)还包括：

验证及定位单元(207)，用于调取与支持AI SQL的SQL解析器相通讯的关系表及AI模型元数据库内存储的信息对AI SQL进行除了语法格式之外的正确性验证及资源对象定位；

重复性检查单元(208)，用于在创建关系表或AI模型时，进行重复性检查。

6.根据权利要求5所述的决策型分布式数据库系统中AI SQL的解析器，其特征在于，所述支持AI SQL的SQL解析器还通讯连接有执行计划优化器(1)以及支持AI计算的分布式执行器(2)；

执行计划优化器(1)，用于将生成的逻辑执行计划进行优化，并生成执行代价较小的物理执行计划；

支持AI计算的分布式执行器(2)，用于将物理执行计划分解成多个步骤进行运行；

关系表及AI模型元数据库(3)，用于存储元数据表信息；

特征工程知识库(4)，用于存储系统内置的领域数据类型、与领域数据类型相匹配的特征处理算法的关联关系以及存储每个领域数据类型特征数据。

7.一种决策型分布式数据库系统中AI SQL的解析器实现方法，其特征在于，所述方法包括：

S1：通过语法定义模块(10)定义实现AI SQL的语法；

S2：通过AI SQL解析模块(20)解析输入的AI SQL语句，得到一颗解析好的语法树；

S3：通过逻辑执行计划生成模块(30)根据解析好的语法树新型创建逻辑执行计划。

8.根据权利要求7所述的决策型分布式数据库系统中AI SQL的解析器实现方法，其特征在于，步骤S1包括：

S11：通过AI模型创建的语法定义单元(101)对AI模型创建的语法进行定义；

S12：通过AI模型更新的语法定义单元(102)对AI模型更新的语法进行定义；

S13：通过AI模型评估的语法定义单元(103)对AI模型评估的语法进行定义；

S14：通过手动指令领域数据类型的语法定义单元(104)对手动指令领域数据类型的语法进行定义；

S15：通过AI模型应用的语法定义单元(105)对AI模型应用的语法进行定义；

S16：通过AI SQL其他语法定义单元(106)对AL SQL的其他语法进行定义。

9.根据权利要求7所述的决策型分布式数据库系统中AI SQL的解析器实现方法，其特征在于，步骤S2包括：

S21：通过词法分析单元(201)将输入的AI SQL语句解析成令牌流；

S22：通过语法分析单元(202)将令牌流解析为语法树；

S23：通过关系表解析单元(203)将语法树中的关系表解析为具有元数据信息的关系表信息对象；

S24：通过AI模型解析单元(204)将语法树中AI模型解析为具有元数据信息的AI模型信息对象；

S25：通过算法解析单元(205)将语法树中函数的名称解析为具有完整类型信息的函数描述对象；

S26：通过解析完成单元(206)根据上述解析得到解析好的语法树。

10.根据权利要求7所述的决策型分布式数据库系统中AI SQL的解析器实现方法，其特征在于，步骤S3包括：

S31：通过连接运算步骤生成单元(301)根据SQL的JOIN操作生成关系代数的连接运算步骤；

S32：通过集合运算步骤生成单元(302)根据SQL的并/交/差/除集合操作生成相应的关系代数并/交/差/除运算步骤；

S33：通过特征工程计算步骤生成单元(303)根据特征工程处理算法生成对应的特征工程计算步骤；

S34：通过AI计算步骤生成单元(304)根据AI计算函数生成对应的AI计算步骤；

S35：通过选择运算生成单元(305)根据SQL的条件过滤信息生成关系代数选择运算；

S36：通过投影运算生成单元(306)根据SQL的<select list>信息生成关系代数投影运算；

S37：通过逻辑执行计划单元(307)根据上述运算得到一个根据语法树信息创建的逻辑执行计划。