CN112988778A

CN112988778A - 一种处理数据库查询脚本的方法和装置

Info

Publication number: CN112988778A
Application number: CN201911282768.1A
Authority: CN
Inventors: 周默
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-06-18

Abstract

本发明公开了一种处理数据库查询脚本的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块；对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名；执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中；采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。该实施方式能够解决计算资源开销大的技术问题。

Description

一种处理数据库查询脚本的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种处理数据库查询脚本的方法和装置。

背景技术

Hive是当今主流的数据仓库工具，通过将SQL语法翻译成MapReduce任务进行批处理作业，在实际使用过程中，Hive SQL查询需要很大的计算资源开销。目前的Hive引擎对于查询性能做了很多优化，但大多集中在任务调度和IO(输入/输出)优化层面。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

目前，Hive引擎具备一定的SQL代码优化能力，但这些优化仅仅是面向单一SQL脚本，并没有考虑多个SQL脚本之间重复性代码块复用的场景。

通常情况下，识别SQL脚本的相似度需要先利用ANTLR等语法分析器将其解析成为抽象语法树AST，然后使用树相似性匹配算法进行处理，但这种方案存在两个明显缺点：(1)SQL语法相对比较灵活，每个人的编写风格都不尽相同，很难对逻辑相同但书写方式差异巨大的代码做相似性匹配；(2)识别出的相似代码不易提炼成公共代码块，有些代码看起来相似，但实际上却无法互相替换。

发明内容

有鉴于此，本发明实施例提供一种处理数据库查询脚本的方法和装置，以解决计算资源开销大的技术问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种处理数据库查询脚本的方法，包括：

将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块；

对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名；

执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中；

采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。

可选地，基于所述抽象语法树识别出各个原子代码块，包括：

对所述抽象语法树进行剪枝处理；

利用深度优先算法遍历剪枝处理后的所述抽象语法树中各层嵌套代码块，以识别出各个原子代码块。

可选地，对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名，包括：

对所述各个原子代码块进行字段补全，对补全字段后的各个原子代码块进行标准化，得到各个标准化的原子代码块；

对所述各个标准化的原子代码块进行聚合和/或分割，得到各个代码块；

计算所述各个代码块的签名。

可选地，对于每个补全字段后的原子代码块，采用如下方法进行标准化：

按照字母表的顺序，对所述补全字段后的原子代码块中的各个字段进行排序，从而得到标准化的原子代码块。

可选地，对所述各个标准化的原子代码块进行聚合，得到各个代码块，包括：

获取包含有连接操作语法的标准化的原子代码块；

基于各个标准化的原子代码块中的表名并按照字母表的顺序，对所述各个标准化的原子代码块进行排序；

穷举所述各个标准化的原子代码块的组合方式，分别对每个组合中的标准化的原子代码块进行聚合，得到各个聚合代码块。

可选地，对所述各个标准化的原子代码块进行聚合，得到各个代码块，还包括：

对于包含有子查询操作语法的标准化的原子代码块，将所述标准化的原子代码块转化为包含有连接操作语法的标准化的原子代码块。

可选地，对所述各个标准化的原子代码块进行分割，得到各个代码块，包括：

对于包含有集合操作语法的标准化的原子代码块，直接将所述标准化的原子代码块划分为两个分割代码块。

可选地，对于每个代码块，采用如下方法计算所述代码块的签名：

对所述代码块的抽象语法树进行前序遍历和中序遍历，将遍历结果拼接为字符串；

对所述字符串进行哈希运算，得到所述代码块的签名。

可选地，执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中，包括：

根据所述各个代码块的使用频率，将所述各个代码块至少分为第一代码块和第二代码块；其中，所述第一代码块的使用频率大于所述第二代码块的使用频率；

执行各个第一代码块，并将各个第一代码块的执行结果及其对应签名分别存储到缓存中；

执行各个第二代码块，将各个第二代码块的执行结果写入中间表，并以所述第二代码块的签名作为所述中间表的表名。

可选地，采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果，包括：

将当前的数据库查询脚本解析为抽象语法树，基于所述抽象语法树识别出所述当前的数据库查询脚本中的各个原子代码块；

对所述当前的数据库查询脚本中的各个原子代码块进行聚合和/或分割，得到所述当前的数据库查询脚本的各个代码块及其签名；

采用所述当前的数据库查询脚本的各个代码块的签名对所述当前的数据库查询脚本进行逻辑替换，以读取所述各个代码块的执行结果。

可选地，采用所述当前的数据库查询脚本的各个代码块的签名对所述当前的数据库查询脚本进行逻辑替换，以读取所述各个代码块的执行结果，包括：

若所述当前的数据库查询脚本的各个代码块中存在第一代码块，则将所述第一代码块的签名入参到用户定义表生成函数，通过所述用户定义表生成函数访问所述缓存，并将获取到的所述第一代码块的执行结果转换为逻辑表；

若所述当前的数据库查询脚本的各个代码块中存在第二代码块，则将所述第二代码块的签名入参到中间表的查询逻辑中，通过所述中间表的查询逻辑获取到所述第二代码块的执行结果。

另外，根据本发明实施例的另一个方面，提供了一种处理数据库查询脚本的装置，包括：

解析模块，用于将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块；

操作模块，用于对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名；

执行模块，用于执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中；

处理模块，用于采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。

可选地，所述解析模块还用于：

对所述抽象语法树进行剪枝处理；

可选地，所述操作模块还用于：

计算所述各个代码块的签名。

可选地，所述操作模块还用于：对于每个补全字段后的原子代码块，采用如下方法进行标准化：

可选地，所述操作模块还用于：

获取包含有连接操作语法的标准化的原子代码块；

可选地，所述操作模块还用于：

可选地，所述操作模块还用于：对于每个代码块，采用如下方法计算所述代码块的签名：

对所述字符串进行哈希运算，得到所述代码块的签名。

可选地，所述执行模块还用于：

可选地，所述处理模块还用于：

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用将各条历史的数据库查询脚本分别解析为抽象语法树并识别出各个原子代码块，对各个原子代码块进行聚合和/或分割，从而对当前的数据库查询脚本进行逻辑替换的技术手段，所以克服了现有技术中计算资源开销大的技术问题。本发明实施例架设在原始脚本和计算引擎之间，通过对原始脚本的标准化处理和逻辑替换实现相同查询逻辑的复用，从而得到逻辑语义相同的高性能脚本。本发明实施例能够达到资源复用和执行效率提升的目的，实现最大化的使用计算资源，显著地提升了计算速度，有效地节约了资源消耗。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例的技术方案的部署示意图；

图2是根据本发明实施例的处理数据库查询脚本的方法的主要流程的示意图；

图3是根据本发明实施例的抽象语法树的结构示意图；

图4是根据本发明实施例的代码块对应的抽象语法树的结构示意图；

图5是根据本发明一个可参考实施例的处理数据库查询脚本的主要流程示意图；

图6是根据本发明实施例的处理数据库查询脚本的装置的主要模块的示意图；

图7是本发明实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例的目的是解决多个Hive SQL脚本中相同查询逻辑复用的问题，如图1所示，本发明实施例的技术方案架设在原始Hive SQL脚本和Hive计算引擎之间，通过对原始SQL脚本的标准化处理和逻辑替换实现相同查询逻辑的复用，从而得到高性能SQL脚本。具体地，本发明实施例的技术方案主要包括：将各个历史的Hive SQL脚本解析成为标准化的抽象语法树，利用深度优先算法遍历各层嵌套代码块，识别出原子代码块；然后使用聚合策略或者分割策略将各个原子代码块合并或者分割为具备唯一性签名的代码块，将个性化的查询脚本转化成标准化的唯一性标识；接着，通过统计各个代码块的使用频率，将高频代码块的执行结果加入高速缓存，其他重复代码块的直接结果转化为中间表(中间表可以存储在HIVE中)；最后替换当前的Hive SQL脚本中的相应代码块，形成逻辑语义相同的高性能Hive SQL脚本，从而达到资源复用和执行效率提升的目的，实现最大化的使用计算资源，显著地提升了计算速度，有效地节约了资源消耗。

图2是根据本发明实施例的处理数据库查询脚本的方法的主要流程的示意图。作为本发明的一个实施例，如图2所示，所述处理数据库查询脚本的方法可以包括：

步骤201，将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块。

使用ANTLR(可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器)作为语法分析器，构建满足SQL规范的抽象语法树(AST)，AST中所有叶子节点对应于SQL脚本中的关键字、列名和物理表的表名，中间节点是相应的属性标签。抽象语法树(Abstract Syntax Tree，AST)：在计算机科学中，以树状的形式表现编程语言的语法结构，树上的每个节点都表示源代码中的一种结构。

以如下SQL语句为例：

SELECT*FROM(SELECT ID,SUM(GMV)FROM AAAA GROUP BY ID)AS A LEFT JOIN(SELECT*FROM BBBB)AS B ON A.ID＝B.ID

生成的AST如图3所示，其中AST中所有叶子节点对应于SQL脚本中的关键字，比如FROM、SELECT、ID和SUM等，以及列表和HIVE物理表的表名。

可选地，基于所述抽象语法树识别出各个原子代码块，包括：对所述抽象语法树进行剪枝处理；利用深度优先算法遍历剪枝处理后的所述抽象语法树中各层嵌套代码块，以识别出各个原子代码块。在本发明的实施例中，先对抽象语法树进行剪枝处理，移除queryOrganization标签节点，以及包括LIMIT、ORDER BY等关键字的节点。之所以这样处理，是因为决定一条SQL语句查询逻辑的是投影、关联和聚合操作，而分页和排序等操作通常不会影响查询逻辑。然后利用深度优先算法遍历剪枝处理后的抽象语法树，搜索定位fromClause标签节点，并判断其下面的strictIdentifier标签节点对应的叶子节点是否是Hive物理表，如果是Hive物理表，则将以querySpecification为根节点的那颗语法树划分为一个原子代码块。

步骤202，对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名。

在对步骤201得到的各个原子代码块进行聚合和/或分割处理之前，要先将各个原子代码块进行标准化处理，使得聚合和/或分割处理后的各个代码块的签名具有唯一性。可选地，步骤202可以包括：对所述各个原子代码块进行字段补全，对补全字段后的各个原子代码块进行标准化，得到各个标准化的原子代码块；对所述各个标准化的原子代码块进行聚合和/或分割，得到各个代码块；计算所述各个代码块的签名。可选地，字段可以包括实际字段和逻辑字段，例如：

如果原子代码块包含primaryExpression:star标签节点，即选用了SELECT*语法，则自动提取Hive表的DDL信息，采用DDL信息补全该原子代码块的所有字段。需要指出的是，DDL信息是从Hive元数据文件中提取，也就是数据定义语句，里面声明了所有实际字段的信息。

如果原子代码块包含aggregation标签节点，即选用了GROUP BY语法，则由aggregation节点向前搜索最先匹配的primaryExpression:functionCall标签节点，将qualifiedName标签节点下面的叶子节点作为前缀，将expression标签节点下面叶子节点作为后缀，拼接出一个逻辑字段名。例如上面的示例SQL语句，如图3所示，拼接出的逻辑字段名为SUM_GMV，而不能直接使用SUM(GMV)。

可选地，对于每个补全字段后的原子代码块，采用如下方法进行标准化：按照字母表的顺序，对所述补全字段后的原子代码块中的各个字段进行排序，从而得到标准化的原子代码块。各个原子代码块中的全部字段都按照字母表顺序进行排序，形成标准化的原子代码块语法树，按字母表排序是为了保证后续计算唯一性签名时的值是唯一的，否则不同的顺序会生成不同的哈希结果。

对标准化之后的原子代码块进行聚合操作和/或分割操作，得到可以复用的代码块。其中，聚合操作一般针对包含有连接操作语法(包括JOIN、INNER JOIN、LEFT JOIN、RIGHT JOIN、OUTER JOIN等)的标准化的原子代码块进行处理，分割操作一般针对包含有集合操作语法(包括UNION、UNIOIN ALL、EXCEPT等)的标准化的原子代码块进行处理。

可选地，对所述各个标准化的原子代码块进行聚合，得到各个代码块，包括：获取包含有连接操作语法的标准化的原子代码块；基于各个标准化的原子代码块中的表名并按照字母表的顺序，对所述各个标准化的原子代码块进行排序；穷举所述各个标准化的原子代码块的组合方式，分别对每个组合中的标准化的原子代码块进行聚合，得到各个聚合代码块。在本发明的实施例中，对于连接操作语法，使Hive物理表的表名按照字母表顺序进行排序，从而对各个标准化的原子代码块进行排序。如果排序中包含N个表的连接(N>2)，则穷举所有

种组合方式，然后对于每一个组合中的两个标准化的原子代码块进行聚合操作，得到一个聚合代码块。其中，N是指总共有多少个连接的HIVE物理表，从中两两组合形成聚合代码块。假如某个SQL脚本的写法是：C left join B left join D left join A，则需要先按照ABCD(A、B、C、D均为表名)对原子代码块进行排序，用于保证对原子代码块做两两组合聚合操作时不受顺序的干扰。在本发明的实施例中，为了便于对聚合代码块进行扩展，采用两两组合方式对原子代码块进行聚合，但是也可以对两个以上的原子代码块进行聚合，本发明实施例对此不作限制。

最后，对原子代码块聚合操作后，还需要将连接的表的字段对齐，例如表A和表B做连接，则需要在最外层包装如下代码块：

SELECT A.X,A.Y,B.Z…FROM(……)AS T

可选地，对所述各个标准化的原子代码块进行聚合，得到各个代码块，还包括：对于包含有子查询操作语法的标准化的原子代码块，将所述标准化的原子代码块转化为包含有连接操作语法的标准化的原子代码块。对于子查询操作语法(包括IN、EXISTS)，需要将其转化为连接操作语法，例如将以下代码：

…WHERE A IN(SELECT A FROM AAAA)…

转化为：

…AS X LEFT JOIN(SELECT A FROM AAAA)AS Y ON X.A＝Y.A WHERE Y.A IS NOTNULL…

转化完成后按照连接操作语法的处理方式进行聚合操作。

可选地，对所述各个标准化的原子代码块进行分割，得到各个代码块，包括：对于包含有集合操作语法的标准化的原子代码块，直接将所述标准化的原子代码块划分为两个分割代码块。在本发明的实施例中，对于集合操作语法，直接划分为两颗语法树，即UNION前和UNION后直接划分开，得到两个分割代码块，不再做进一步处理。

可选地，对于每个代码块，采用如下方法计算所述代码块的签名：对所述代码块的抽象语法树进行前序遍历和中序遍历，将遍历结果拼接为字符串；对所述字符串进行哈希运算，得到所述代码块的签名。在对原子代码块进行聚合和/或分割操作后，对代码块构建唯一性签名。由于前序遍历和中序遍历可以唯一确定一颗树的结构，因此可以将这两个遍历结构序列拼接形成唯一性标识，计算其哈希值，得到代码块的唯一性签名。如图4所示，对该代码块对应的抽象语法树进行前序遍历和中序遍历，其对应的前序遍历结果为ABDECF，中序遍历结果是DBEAFC，因此ABDECF+DBEAFC这个序列是唯一的。然后将遍历结果拼接为一个一维字符串，然后对该字符串做一次MD5哈希操作，生成该代码块对应的唯一性签名。

步骤203，执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中。

为了进一步节约计算资源，可以将使用频率较高的代码块的执行结果放入缓存，将使用频率次高的代码块的执行结果写入中间表。可选地，步骤203可以包括：根据所述各个代码块的使用频率，将所述各个代码块至少分为第一代码块和第二代码块；其中，所述第一代码块的使用频率大于所述第二代码块的使用频率；执行各个第一代码块，并将各个第一代码块的执行结果及其对应签名分别存储到缓存中；执行各个第二代码块，将各个第二代码块的执行结果写入中间表，并以所述第二代码块的签名作为所述中间表的表名。

具体地，将各个代码块的唯一性签名作为KEY，依次统计各个历史的Hive SQL脚本中各个代码块的在过去一段时间内的出现次数，将大于N次的KEY对应的代码块作为高频代码块(即第一代码块)，将大于M次且小于等于N次的KEY对应的代码块作为非高频代码块(即第二代码块)。其中，N和M是由人为定义的超参数。

对于每一个第一代码块，执行该第一代码块，将该第一代码块的执行结果存储于基于内存的数据库系统中(例如Redis)，并编写自定义的UDTF函数(用户定义表生成函数)，通过该函数访问缓存，从而获取该第一代码块的执行结果。

为了防止超参数N选取不当导致缓存被打满，在构建缓存数据之前增加一个缓冲队列，将KEY写入缓冲队列中，该缓存队列基于LRU原则(Least Recently Used，即最近最少使用)，会自动淘汰掉最久未被使用的KEY，并清空相对应的缓存数据。

对于每一个第二代码块，执行该第二代码块，将该第二代码块的执行结果写入中间表，并以该第二代码块的签名作为该中间表的表名，中间表中存储的是真实数据，中间表可以存储在HIVE中。

步骤204，采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。

接收当前的数据库查询脚本(也就是原始脚本)，采用与步骤201和步骤202类似的方法对所述当前的数据库查询脚本进行处理，然后采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，得到高性能SQL脚本，将高性能SQL脚本发送到HIVE计算引擎，以读取各个代码块的执行结果。需要指出的是，高性能SQL脚本是在发送到HIVE计算引擎之前自动生成的，每次执行高性能SQL脚本都需要从缓存或中间表中读取结果数据。

可选地，步骤204可以包括：将当前的数据库查询脚本解析为抽象语法树，基于所述抽象语法树识别出所述当前的数据库查询脚本中的各个原子代码块；对所述当前的数据库查询脚本中的各个原子代码块进行聚合和/或分割，得到所述当前的数据库查询脚本的各个代码块及其签名；采用所述当前的数据库查询脚本的各个代码块的签名对所述当前的数据库查询脚本进行逻辑替换，以读取所述各个代码块的执行结果。需要指出的是，对当前的数据库查询脚本解析、聚合、分割等操作与步骤201和步骤202类似，不再赘述。

可选地，采用所述当前的数据库查询脚本的各个代码块的签名对所述当前的数据库查询脚本进行逻辑替换，以读取所述各个代码块的执行结果，包括：若所述当前的数据库查询脚本的各个代码块中存在第一代码块，则将所述第一代码块的签名入参到用户定义表生成函数，通过所述用户定义表生成函数访问所述缓存，并将获取到的所述第一代码块的执行结果转换为逻辑表；若所述当前的数据库查询脚本的各个代码块中存在第二代码块，则将所述第二代码块的签名入参到中间表的查询逻辑中，通过所述中间表的查询逻辑获取到所述第二代码块的执行结果。

在计算出所述当前的数据库查询脚本的各个代码块的签名之后，对其进行匹配，确定各个代码块为第一代码块或者第二代码块。

如果所述当前的数据库查询脚本的某个代码块为第一代码块，则将该第一代码块的KEY入参到UDTF函数，然后使用UDTF函数替换当前的数据库查询脚本中相应的代码块，从而得到高性能SQL脚本。该函数通过接口方式访问缓存，并将获取到的数据转换为逻辑表。

如果所述当前的数据库查询脚本的某个代码块为第二代码块，则并将当前的数据库查询脚本中相应的代码块替换为中间表的查询逻辑，从而得到高性能SQL脚本。例如，当前的数据库查询脚本是一个比较复杂的查询语句，由于这个复杂查询的结果数据已经存储到一张以KEY为表名的中间表中，因此可以把复杂的查询语句替换成为SELECT*FROM KEY。

根据上面所述的各种实施例，可以看出本发明通过将各条历史的数据库查询脚本分别解析为抽象语法树并识别出各个原子代码块，对各个原子代码块进行聚合和/或分割，从而对当前的数据库查询脚本进行逻辑替换的技术手段，解决了现有技术中计算资源开销大的技术问题。本发明实施例架设在原始脚本和计算引擎之间，通过对原始脚本的标准化处理和逻辑替换实现相同查询逻辑的复用，从而得到逻辑语义相同的高性能脚本。本发明实施例能够达到资源复用和执行效率提升的目的，实现最大化的使用计算资源，显著地提升了计算速度，有效地节约了资源消耗。

图5是根据本发明一个可参考实施例的处理数据库查询脚本的方法的主要流程示意图。如图5所示，所述处理数据库查询脚本的方法可以包括以下步骤：

步骤1，构建抽象语法树

获取历史的数据库查询脚本，使用ANTLR语法分析器构建满足SQL规范的抽象语法树AST，AST中所有叶子节点对应于SQL脚本中的关键字、列名和物理表的表名，中间节点是相应的属性标签。

步骤2，语法树剪枝

先对抽象语法树进行剪枝处理，移除queryOrganization标签节点，以及包括LIMIT、ORDER BY等关键字的节点。

步骤3，划分原子代码块

利用深度优先算法遍历剪枝处理后的抽象语法树，搜索定位fromClause标签节点，并判断其下面的strictIdentifier标签节点对应的叶子节点是否是Hive物理表，如果是Hive物理表，则将以querySpecification为根节点的那颗语法树划分为一个原子代码块。

步骤4，字段补全与排序

如果原子代码块包含primaryExpression:star标签节点，即选用了SELECT*语法，则自动提取Hive表的DDL信息，采用DDL信息补全该原子代码块的所有字段。如果原子代码块包含aggregation标签节点，即选用了GROUP BY语法，则由aggregation节点向前搜索最先匹配的primaryExpression:functionCall标签节点，将qualifiedName标签节点下面的叶子节点作为前缀，将expression标签节点下面叶子节点作为后缀，拼接出一个逻辑字段名。

对于每个补全字段后的原子代码块，采用如下方法进行标准化：按照字母表的顺序，对所述补全字段后的原子代码块中的各个字段进行排序，从而得到标准化的原子代码块。

步骤5，代码块聚合和/或分割

聚合操作一般针对包含有连接操作语法(包括JOIN、INNER JOIN、LEFT JOIN、RIGHT JOIN、OUTER JOIN等)的标准化的原子代码块进行处理，分割操作一般针对包含有集合操作语法(包括UNION、UNIOIN ALL、EXCEPT等)的标准化的原子代码块进行处理。

可选地，获取包含有连接操作语法的标准化的原子代码块；基于各个标准化的原子代码块中的表名并按照字母表的顺序，对所述各个标准化的原子代码块进行排序；穷举所述各个标准化的原子代码块的组合方式，分别对每个组合中的标准化的原子代码块进行聚合，得到各个聚合代码块。

可选地，对于包含有子查询操作语法(包括IN、EXISTS)的标准化的原子代码块，将所述标准化的原子代码块转化为包含有连接操作语法的标准化的原子代码块。

可选地，对于包含有集合操作语法的标准化的原子代码块，直接将所述标准化的原子代码块划分为两个分割代码块。

步骤6，构建唯一性签名

对于每个代码块，采用如下方法计算所述代码块的签名：对所述代码块的抽象语法树进行前序遍历和中序遍历，将遍历结果拼接为字符串；对所述字符串进行哈希运算，得到所述代码块的签名。在对原子代码块进行聚合和/或分割操作后，对代码块构建唯一性签名。由于前序遍历和中序遍历可以唯一确定一颗树的结构，因此可以将这两个遍历结构序列拼接形成唯一性标识，计算其哈希值，得到代码块的唯一性签名。

步骤7，统计各个代码块的使用频率

可选地根据所述各个代码块的使用频率，将所述各个代码块至少分为第一代码块和第二代码块。其中，所述第一代码块的使用频率大于所述第二代码块的使用频率。具体地，将各个代码块的唯一性签名作为KEY，依次统计各个历史的Hive SQL脚本中各个代码块的在过去一段时间内的出现次数，将大于N次的KEY对应的代码块作为高频代码块(即第一代码块)，将大于M次且小于等于N次的KEY对应的代码块作为非高频代码块(即第二代码块)。其中，N和M是由人为定义的超参数。

步骤8，将代码块的执行结果写入缓存和/或中间表

为了进一步节约计算资源，可以将使用频率较高的代码块的执行结果放入缓存，将使用频率次高的代码块的执行结果写入中间表。

对于每一个第一代码块，执行该第一代码块，将该第一代码块的执行结果存储于基于内存的数据库系统中(例如Redis)，并编写自定义的UDTF函数(用户定义表生成函数)，通过该函数访问缓存，从而获取该第一代码块的执行结果。为了防止超参数N选取不当导致缓存被打满，在构建缓存数据之前增加一个缓冲队列，将KEY写入缓冲队列中，该缓存队列基于LRU原则(Least Recently Used，即最近最少使用)，会自动淘汰掉最久未被使用的KEY，并清空相对应的缓存数据。

步骤9，对当前的数据库查询脚本进行逻辑替换

接收当前的数据库查询脚本(也就是原始脚本)，采用于步骤1-步骤6类似对所述当前的数据库查询脚本进行处理，然后采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，得到高性能SQL脚本，将高性能SQL脚本发送到HIVE计算引擎，以读取各个代码块的执行结果。

可选地，若所述当前的数据库查询脚本的各个代码块中存在第一代码块，则将所述第一代码块的签名入参到用户定义表生成函数，通过所述用户定义表生成函数访问所述缓存，并将获取到的所述第一代码块的执行结果转换为逻辑表；若所述当前的数据库查询脚本的各个代码块中存在第二代码块，则将所述第二代码块的签名入参到中间表的查询逻辑中，通过所述中间表的查询逻辑获取到所述第二代码块的执行结果。

另外，在本发明一个可参考实施例中根据本发明一个可参考实施例的处理数据库查询脚本的方法的具体实施内容，在上面所述处理数据库查询脚本的方法中已经详细说明了，故在此重复内容不再说明。

图6是根据本发明实施例的处理数据库查询脚本的装置的主要模块的示意图，如图6所示，所述处理数据库查询脚本的装置600包括解析模块601、操作模块602、执行模块603和处理模块604。其中，解析模块601用于将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块；操作模块602用于对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名；执行模块603用于执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中；处理模块604用于采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。

可选地，所述解析模块601还用于：

对所述抽象语法树进行剪枝处理；

可选地，所述操作模块602还用于：

计算所述各个代码块的签名。

可选地，所述操作模块602还用于：对于每个补全字段后的原子代码块，采用如下方法进行标准化：

可选地，所述操作模块602还用于：

获取包含有连接操作语法的标准化的原子代码块；

可选地，所述操作模块602还用于：

可选地，所述操作模块602还用于：对于每个代码块，采用如下方法计算所述代码块的签名：

对所述字符串进行哈希运算，得到所述代码块的签名。

可选地，所述执行模块603还用于：

可选地，所述处理模块604还用于：

可选地，所述处理行模块604还用于：

需要说明的是，在本发明所述处理数据库查询脚本的装置的具体实施内容，在上面所述处理数据库查询脚本的方法中已经详细说明了，故在此重复内容不再说明。

图7示出了可以应用本发明实施例的处理数据库查询脚本的方法或处理数据库查询脚本的装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器705交互，以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的处理数据库查询脚本的方法一般由服务器705执行，相应地，所述处理数据库查询脚本的装置一般设置在服务器705中。本发明实施例所提供的处理数据库查询脚本的方法也可以由终端设备701、702、703执行，相应地，所述处理数据库查询脚本的装置可以设置在终端设备701、702、703中。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括解析模块、操作模块、执行模块和处理模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：将各条历史的数据库查询脚本分别解析为抽象语法树，基于所述抽象语法树识别出各个原子代码块；对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名；执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中；采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果。

根据本发明实施例的技术方案，因为采用将各条历史的数据库查询脚本分别解析为抽象语法树并识别出各个原子代码块，对各个原子代码块进行聚合和/或分割，从而对当前的数据库查询脚本进行逻辑替换的技术手段，所以克服了现有技术中计算资源开销大的技术问题。本发明实施例架设在原始脚本和计算引擎之间，通过对原始脚本的标准化处理和逻辑替换实现相同查询逻辑的复用，从而得到逻辑语义相同的高性能脚本。本发明实施例能够达到资源复用和执行效率提升的目的，实现最大化的使用计算资源，显著地提升了计算速度，有效地节约了资源消耗。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种处理数据库查询脚本的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述抽象语法树识别出各个原子代码块，包括：

对所述抽象语法树进行剪枝处理；

3.根据权利要求1所述的方法，其特征在于，对所述各个原子代码块进行聚合和/或分割，得到各个代码块及其签名，包括：

计算所述各个代码块的签名。

4.根据权利要求3所述的方法，其特征在于，对于每个补全字段后的原子代码块，采用如下方法进行标准化：

5.根据权利要求3所述的方法，其特征在于，对所述各个标准化的原子代码块进行聚合，得到各个代码块，包括：

获取包含有连接操作语法的标准化的原子代码块；

6.根据权利要求5所述的方法，其特征在于，对所述各个标准化的原子代码块进行聚合，得到各个代码块，还包括：

7.根据权利要求3所述的方法，其特征在于，对所述各个标准化的原子代码块进行分割，得到各个代码块，包括：

8.根据权利要求3所述的方法，其特征在于，对于每个代码块，采用如下方法计算所述代码块的签名：

对所述字符串进行哈希运算，得到所述代码块的签名。

9.根据权利要求1所述的方法，其特征在于，执行所述各个代码块，并将所述各个代码块的执行结果分别写入各个临时表中，包括：

10.根据权利要求9所述的方法，其特征在于，采用所述代码块的签名对当前的数据库查询脚本进行逻辑替换，以读取所述代码块的执行结果，包括：

11.根据权利要求10所述的方法，其特征在于，采用所述当前的数据库查询脚本的各个代码块的签名对所述当前的数据库查询脚本进行逻辑替换，以读取所述各个代码块的执行结果，包括：

12.一种处理数据库查询脚本的装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。