CN108491516B

CN108491516B - 基于混合整数线性规划的分布式多表连接选择方法及装置

Info

Publication number: CN108491516B
Application number: CN201810252356.2A
Authority: CN
Inventors: 王宏志; 赵志强
Original assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Current assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2021-09-14
Anticipated expiration: 2038-03-26
Also published as: CN108491516A

Abstract

本发明涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置，其中方法包括：函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数；约束条件设置步骤、对所述连接操作变量设置约束条件；代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序。本发明构建基于混合整数线性规划的连接操作代价函数，寻找使代价函数取值最小的并且满足约束条件的变量值，从而得到分布式多表连接最优连接顺序；进一步地，本发明充分考虑了本地连接次数和优化洗牌次数对分布式多表连接的影响，能够更好地适用于分布式多表连接问题。

Description

基于混合整数线性规划的分布式多表连接选择方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置。

背景技术

连接操作是数据库中的基本操作。通过连接操作可以得到多个关系表中存储的信息。而在海量数据分析中对于多表连接操作的应用更是非常普遍。多表连接涉及多个连接的连接顺序的选择问题，人们希望在参与连接的关系中找出某种连接顺序，使得连接代价最低。尤其对于并行分布式处理的海量数据而言，需要提供一种分布式多表连接的优化选择方法，找出最优连接顺序，以减小连接操作的代价。

发明内容

本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供一种基于混合整数线性规划的分布式多表连接选择方法及装置，通过线性规划模型解决连接顺序优化问题。

为了解决上述技术问题，本发明第一方面，提供了一种基于混合整数线性规划的分布式多表连接选择方法，包括以下步骤：

函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数；

约束条件设置步骤、对所述连接操作变量设置约束条件；

代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中，优选地，所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数，其中1≤j≤n_k，n_k为第k种连接顺序的连接操作总数；且所述约束条件包括：限定所述本地连接次数不小于预设的本地连接最少次数，以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中，优选地，所述连接操作变量包括基础变量和中间结果变量。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中，优选地，所述基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j、表t的外连接基数co_j、本地连接次数self_j和优化洗牌连接次数shuffle_j；所述中间结果变量包括：表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值pao_pj、第j次连接中外连接基数的对数lco_j、基数范围θ_r、第j次连接中外连接基数的标识值cto_rj、本地连接最少次数β和优化洗牌连接最大次数γ，其中r为基数的区间数。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中，优选地，所述函数构建步骤中构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j；

其中，Cost为当前连接顺序的总连接操作的总代价；cio_j为第j次连接操作的代价，且cio_j＝∑_tco_j+∑_tci_j；其中co_j为第j次连接中表t的外连接基数，ci_j为第j次连接中表t的内连接基数。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中，优选地，所述约束条件设置步骤中对所述连接操作变量设置的约束条件包括：

(1)

表示任意次连接中内连接有且只有1次；

(2)∑_ttio_t0＝1，表示第一次连接中外连接有且只有1次；

(3)

表示表t的每次连接只能是内连接或外连接；

(4)

表示第j次是否进行外连接取决于上一次的连接操作结果；

(5)

其中T₁和T₂分别为外连接中的两表；

(6)

(7)

其中r为基数的区间数；

(8)

(9)

(10)self_j≥β，表示限定本地连接次数不小于预设的本地连接最少次数；

(11)shuffle_j≤γ，表示限定优化洗牌连接次数不大于预设的优化洗牌连接最大次数。

本发明第二方面，提供了一种基于混合整数线性规划的分布式多表连接选择装置，包括：

函数构建单元，用于根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数；

约束条件设置单元，用于对所述连接操作变量设置约束条件；

代价估计单元，用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中，优选地，所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数，其中1≤j≤n_k，n_k为第k种连接顺序的连接操作总数；且所述约束条件包括：限定所述本地连接次数不小于预设的本地连接最少次数，以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中，优选地，所述连接操作变量包括基础变量和中间结果变量；所述基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j、表t的外连接基数co_j、本地连接次数self_j和优化洗牌连接次数shuffle_j；所述中间结果变量包括：表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值pao_pj、第j次连接中外连接基数的对数lco_j、基数范围θ_r、第j次连接中外连接基数的标志值cto_rj、本地连接最少次数β和优化洗牌连接最大次数γ，其中r为基数的区间数。

在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中，优选地，所述函数构建单元构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j；

实施本发明的基于混合整数线性规划的分布式多表连接选择方法及装置，具有以下有益效果：本发明将混合整数线性规划模型应用于分布式多表连接顺序优化问题上，用变量代表连接操作和中间结果，构建基于混合整数线性规划的连接操作代价函数，寻找使代价函数取值最小的并且满足约束条件的变量值，从而得到分布式多表连接最优连接顺序；进一步地，本发明充分考虑了本地连接次数和优化洗牌次数对分布式多表连接的影响，使该模型能够更好地适用于分布式多表连接问题。

附图说明

图1为根据本发明优选实施例的基于混合整数线性规划的分布式多表连接选择方法流程图；

图2为根据本发明的基于混合整数线性规划的分布式多表连接选择装置的模块框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于混合整数线性规划的分布式多表连接选择算法，将连接顺序问题转换为混合整数线性规划问题的方法，将连接操作和中间结果设为变量，利用线性规划模型来估计不同连接顺序的代价，从而得到优化的连接顺序。并且本发明使整数线性规划模型既能应用于单机多表连接优化问题，又能应用于并行分布式多表连接优化问题，最终实现通过整数线性规划寻找分布式多表连接最优连接顺序的目的。

请参阅图1，为根据本发明优选实施例的基于混合整数线性规划的分布式多表连接选择方法流程图。如图1所示，该实施例提供的基于混合整数线性规划的分布式多表连接选择方法包括以下步骤：

首先，在步骤S101中，执行函数构建步骤，根据定义的连接操作变量构建基于混合整数线性规划(MILP)的连接操作代价函数。优选地，该连接操作变量包括连接操作的基础变量和中间结果变量。

随后，在步骤S102中，执行约束条件设置步骤，对所述连接操作变量设置约束条件。

随后，在步骤S103中，执行代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序。

通过上述方法，本发明可以将混合整数线性规划模型应用于分布式多表连接顺序优化问题上，用变量代表连接操作和中间结果，构建基于混合整数线性规划的连接操作代价函数，寻找使代价函数取值最小的并且满足约束条件的变量值，从而得到分布式多表连接最优连接顺序。通过上述步骤可以将多年来人们对线性规划问题的研究成果应用于连接顺序优化上，使这种方法具有良好的适用性和可扩展性。

优选地，本发明中定义的基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j和表t的外连接基数co_j，其中1≤j≤n_k，n_k为第k种连接顺序的连接操作总数。

中间结果变量包括：表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值pao_pj、第j次连接中外连接基数的对数lco_j、基数范围θ_r、第j次连接中外连接基数的标识值cto_rj、本地连接最少次数β和优化洗牌连接最大次数γ，其中r为基数的区间数。基数范围包括多个区间，用r进行区分。此处的基数范围是为了保证基数和基数的对数在每一个小区间上近似为线性，以满足本方法线性规划的要求。

优选地，本发明在针对并行分布式多表连接优化问题时，充分考虑了本地连接次数和优化洗牌连接(shuffle join)次数对分布式多表连接的影响，将其作为约束条件加入混合整数线性规划模型中，因此，定义的基础变量中还包括第j次连接中的本地连接次数self_j和第j次连接中的优化洗牌连接次数shuffle_j；定义的中间结果变量中还包括本地连接最少次数β和优化洗牌连接最大次数γ，可依据要求事先设定。

本发明定义的基础变量和中间结果变量的具体含义和取值分别如表格1和表格2所示。

表格1

表格2

约束条件设置步骤S102中对连接操作变量设置的约束条件包括对基础变量的约束条件，以及对中间结果变量的约束条件，分别如表格3和表格4所示。其中表格3是以左深度处理树为例，依据其特点，可提出的约束条件。

表格3

上述表格3的约束条件基于左深度树连接，左深度树的结构决定了第一条和第二条约束条件。本领域基础技术人员根据上述左深度树的约束条件可以得出右深度树的约束条件，在此不再赘述。

表格4

上述表4中第一个约束条件是为了保证不存在T1或T2中至少有一个表不存在的情况。换言之，如果两个引用的表都在外部操作数中，则p为1。

函数构建步骤S101中构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j； (1)

其中，Cost为当前连接顺序的总连接操作的总代价；cio_j为第j次连接操作的代价，∑_jcio_j表示对于1≤j≤n_k对cio_j求和，即当前连接顺序中所有的连接操作的代价求和。并且cio_j＝∑_tco_j+∑_tci_j；其中co_j为第j次连接中表t的外连接基数，ci_j为第j次连接中表t的内连接基数。∑_tco_j表示第j次连接中所有表的外连接基数求和，∑_tci_j表示第j次连接中所有表的内连接基数求和。当Cost取最小值时且满足前述表格3和表格4的约束条件的变量值，即为选择出的最优连接顺序。

请参阅图2，为根据本发的基于混合整数线性规划的分布式多表连接选择装置的模块框图。如图2所示，该基于混合整数线性规划的分布式多表连接选择装置200包括：函数构建单元201、约束条件设置单元202和代价估计单元203。

其中，函数构建单元201，用于根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数。优选地，该连接操作变量包括连接操作的基础变量和中间结果变量。

约束条件设置单元202，用于对所述连接操作变量设置约束条件。

代价估计单元203，用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序。

优选地，本发明中定义的基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j和表t的外连接基数co_j。

优选地，本发明在针对并行分布式多表连接优化问题时，充分考虑了本地连接次数和优化洗牌连接(shuffle join)次数对分布式多表连接的影响，将其作为约束条件加入混合整数线性规划模型中，因此，定义的基础变量中还包括第j次连接中的本地连接次数self_j和第j次连接中的优化洗牌连接次数shuffle_j；定义的中间结果变量中还包括本地连接最少次数β和优化洗牌连接最大次数γ。基础变量和中间结果变量的具体含义和取值分别如前表格1和表格2所示。

约束条件设置单元202中对连接操作变量设置的约束条件包括对基础变量的约束条件，以及对中间结果变量的约束条件，分别如前述表格3和表格4所示。

函数构建单元201中构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j； (1)

本发明提出的技术方案充分考虑了本地连接次数和shuffle join次数对分布式多表连接的影响，将其作为约束条件加入混合整数线性规划模型中，使该模型能够更好地适用于分布式多表连接问题。

应该理解地是，本发明的基于混合整数线性规划的分布式多表连接选择方法与装置的原理和实现方式相同，因此对基于混合整数线性规划的分布式多表连接选择方法的具体实施例的阐述也适用于基于混合整数线性规划的分布式多表连接选择装置。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于混合整数线性规划的分布式多表连接选择方法，其特征在于，包括以下步骤：

约束条件设置步骤、对所述连接操作变量设置约束条件；

代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序；

所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数，其中1≤j≤n_k，n_k为第k种连接顺序的连接操作总数；且所述约束条件包括：限定所述本地连接次数不小于预设的本地连接最少次数，以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。

2.根据权利要求1所述的基于混合整数线性规划的分布式多表连接选择方法，其特征在于：所述连接操作变量包括基础变量和中间结果变量。

3.根据权利要求2所述的基于混合整数线性规划的分布式多表连接选择方法，所述基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j、表t的外连接基数co_j、本地连接次数self_j和优化洗牌连接次数shuffle_j；所述中间结果变量包括：表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值pao_pj、第j次连接中外连接基数的对数lco_j、基数范围θ_r、第j次连接中外连接基数的标识值cto_rj、本地连接最少次数β和优化洗牌连接最大次数γ，其中r为基数的区间数。

4.根据权利要求3所述的基于混合整数线性规划的分布式多表连接选择方法，其特征在于，所述函数构建步骤中构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j；

5.根据权利要求4所述的基于混合整数线性规划的分布式多表连接选择方法，其特征在于，所述约束条件设置步骤中对所述连接操作变量设置的约束条件包括：

(1)

∑_ttii_tj＝1，表示任意次连接中内连接有且只有1次；

(2)∑_ttio_t0＝1，表示第一次连接中外连接有且只有1次；

(3)

tio_tj+tii_tj≤1，表示表t的每次连接只能是内连接或外连接；

(4)

tio_tj＝tii_t(j-1)+tio_t(j-1)，表示第j次是否进行外连接取决于上一次的连接操作结果；

(5)

其中T₁和T₂分别为外连接中的两表；

(6)

ci_j＝∑_tCard(t)tii_tj；

(7)

co_j＝∑_rcto_rj(θ_r-θ_r-1)，其中r为基数的区间数；

(8)

lco_j＝∑_tlog(Card(t)·tio_tj)+∑_tlog(Sel(p)·pao_pj)；

(9)

lco_j-cto_rj·∞≤log(θ_r)；

6.一种基于混合整数线性规划的分布式多表连接选择装置，其特征在于，包括：

代价估计单元，用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值，得到分布式多表连接的最优连接顺序；

7.根据权利要求6所述的基于混合整数线性规划的分布式多表连接选择装置，其特征在于：所述连接操作变量包括基础变量和中间结果变量；所述基础变量包括当前连接顺序的第j次连接中的以下变量：表t的外连接标识值tio_tj、表t的内连接标识值tii_tj、表t的内连接基数ci_j、表t的外连接基数co_j、本地连接次数self_j和优化洗牌连接次数shuffle_j；所述中间结果变量包括：表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值pao_pj、第j次连接中外连接基数的对数lco_j、基数范围θ_r、第j次连接中外连接基数的标志值cto_rj、本地连接最少次数β和优化洗牌连接最大次数γ，其中r为基数的区间数。

8.根据权利要求7所述的基于混合整数线性规划的分布式多表连接选择装置，其特征在于，所述函数构建单元构建基于混合整数线性规划的连接操作代价函数为：

Cost＝∑_jcio_j；