CN108491516B - 基于混合整数线性规划的分布式多表连接选择方法及装置 - Google Patents
基于混合整数线性规划的分布式多表连接选择方法及装置 Download PDFInfo
- Publication number
- CN108491516B CN108491516B CN201810252356.2A CN201810252356A CN108491516B CN 108491516 B CN108491516 B CN 108491516B CN 201810252356 A CN201810252356 A CN 201810252356A CN 108491516 B CN108491516 B CN 108491516B
- Authority
- CN
- China
- Prior art keywords
- connection
- linear programming
- variables
- distributed multi
- mixed integer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置,其中方法包括:函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;约束条件设置步骤、对所述连接操作变量设置约束条件;代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。本发明构建基于混合整数线性规划的连接操作代价函数,寻找使代价函数取值最小的并且满足约束条件的变量值,从而得到分布式多表连接最优连接顺序;进一步地,本发明充分考虑了本地连接次数和优化洗牌次数对分布式多表连接的影响,能够更好地适用于分布式多表连接问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置。
背景技术
连接操作是数据库中的基本操作。通过连接操作可以得到多个关系表中存储的信息。而在海量数据分析中对于多表连接操作的应用更是非常普遍。多表连接涉及多个连接的连接顺序的选择问题,人们希望在参与连接的关系中找出某种连接顺序,使得连接代价最低。尤其对于并行分布式处理的海量数据而言,需要提供一种分布式多表连接的优化选择方法,找出最优连接顺序,以减小连接操作的代价。
发明内容
本发明要解决的技术问题在于,针对现有技术中的上述缺陷,提供一种基于混合整数线性规划的分布式多表连接选择方法及装置,通过线性规划模型解决连接顺序优化问题。
为了解决上述技术问题,本发明第一方面,提供了一种基于混合整数线性规划的分布式多表连接选择方法,包括以下步骤:
函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;
约束条件设置步骤、对所述连接操作变量设置约束条件;
代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中,优选地,所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数;且所述约束条件包括:限定所述本地连接次数不小于预设的本地连接最少次数,以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中,优选地,所述连接操作变量包括基础变量和中间结果变量。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中,优选地,所述基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij、表t的外连接基数coj、本地连接次数selfj和优化洗牌连接次数shufflej;所述中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标识值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中,优选地,所述函数构建步骤中构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj;
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择方法中,优选地,所述约束条件设置步骤中对所述连接操作变量设置的约束条件包括:
(2)∑ttiot0=1,表示第一次连接中外连接有且只有1次;
(10)selfj≥β,表示限定本地连接次数不小于预设的本地连接最少次数;
(11)shufflej≤γ,表示限定优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
本发明第二方面,提供了一种基于混合整数线性规划的分布式多表连接选择装置,包括:
函数构建单元,用于根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;
约束条件设置单元,用于对所述连接操作变量设置约束条件;
代价估计单元,用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中,优选地,所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数;且所述约束条件包括:限定所述本地连接次数不小于预设的本地连接最少次数,以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中,优选地,所述连接操作变量包括基础变量和中间结果变量;所述基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij、表t的外连接基数coj、本地连接次数selfj和优化洗牌连接次数shufflej;所述中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标志值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。
在根据本发明所述的基于混合整数线性规划的分布式多表连接选择装置中,优选地,所述函数构建单元构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj;
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。
实施本发明的基于混合整数线性规划的分布式多表连接选择方法及装置,具有以下有益效果:本发明将混合整数线性规划模型应用于分布式多表连接顺序优化问题上,用变量代表连接操作和中间结果,构建基于混合整数线性规划的连接操作代价函数,寻找使代价函数取值最小的并且满足约束条件的变量值,从而得到分布式多表连接最优连接顺序;进一步地,本发明充分考虑了本地连接次数和优化洗牌次数对分布式多表连接的影响,使该模型能够更好地适用于分布式多表连接问题。
附图说明
图1为根据本发明优选实施例的基于混合整数线性规划的分布式多表连接选择方法流程图;
图2为根据本发明的基于混合整数线性规划的分布式多表连接选择装置的模块框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于混合整数线性规划的分布式多表连接选择算法,将连接顺序问题转换为混合整数线性规划问题的方法,将连接操作和中间结果设为变量,利用线性规划模型来估计不同连接顺序的代价,从而得到优化的连接顺序。并且本发明使整数线性规划模型既能应用于单机多表连接优化问题,又能应用于并行分布式多表连接优化问题,最终实现通过整数线性规划寻找分布式多表连接最优连接顺序的目的。
请参阅图1,为根据本发明优选实施例的基于混合整数线性规划的分布式多表连接选择方法流程图。如图1所示,该实施例提供的基于混合整数线性规划的分布式多表连接选择方法包括以下步骤:
首先,在步骤S101中,执行函数构建步骤,根据定义的连接操作变量构建基于混合整数线性规划(MILP)的连接操作代价函数。优选地,该连接操作变量包括连接操作的基础变量和中间结果变量。
随后,在步骤S102中,执行约束条件设置步骤,对所述连接操作变量设置约束条件。
随后,在步骤S103中,执行代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。
通过上述方法,本发明可以将混合整数线性规划模型应用于分布式多表连接顺序优化问题上,用变量代表连接操作和中间结果,构建基于混合整数线性规划的连接操作代价函数,寻找使代价函数取值最小的并且满足约束条件的变量值,从而得到分布式多表连接最优连接顺序。通过上述步骤可以将多年来人们对线性规划问题的研究成果应用于连接顺序优化上,使这种方法具有良好的适用性和可扩展性。
优选地,本发明中定义的基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij和表t的外连接基数coj,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数。
中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标识值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。基数范围包括多个区间,用r进行区分。此处的基数范围是为了保证基数和基数的对数在每一个小区间上近似为线性,以满足本方法线性规划的要求。
优选地,本发明在针对并行分布式多表连接优化问题时,充分考虑了本地连接次数和优化洗牌连接(shuffle join)次数对分布式多表连接的影响,将其作为约束条件加入混合整数线性规划模型中,因此,定义的基础变量中还包括第j次连接中的本地连接次数selfj和第j次连接中的优化洗牌连接次数shufflej;定义的中间结果变量中还包括本地连接最少次数β和优化洗牌连接最大次数γ,可依据要求事先设定。
本发明定义的基础变量和中间结果变量的具体含义和取值分别如表格1和表格2所示。
表格1
表格2
约束条件设置步骤S102中对连接操作变量设置的约束条件包括对基础变量的约束条件,以及对中间结果变量的约束条件,分别如表格3和表格4所示。其中表格3是以左深度处理树为例,依据其特点,可提出的约束条件。
表格3
上述表格3的约束条件基于左深度树连接,左深度树的结构决定了第一条和第二条约束条件。本领域基础技术人员根据上述左深度树的约束条件可以得出右深度树的约束条件,在此不再赘述。
表格4
上述表4中第一个约束条件是为了保证不存在T1或T2中至少有一个表不存在的情况。换言之,如果两个引用的表都在外部操作数中,则p为1。
函数构建步骤S101中构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj; (1)
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,∑jcioj表示对于1≤j≤nk对cioj求和,即当前连接顺序中所有的连接操作的代价求和。并且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。∑tcoj表示第j次连接中所有表的外连接基数求和,∑tcij表示第j次连接中所有表的内连接基数求和。当Cost取最小值时且满足前述表格3和表格4的约束条件的变量值,即为选择出的最优连接顺序。
请参阅图2,为根据本发的基于混合整数线性规划的分布式多表连接选择装置的模块框图。如图2所示,该基于混合整数线性规划的分布式多表连接选择装置200包括:函数构建单元201、约束条件设置单元202和代价估计单元203。
其中,函数构建单元201,用于根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数。优选地,该连接操作变量包括连接操作的基础变量和中间结果变量。
约束条件设置单元202,用于对所述连接操作变量设置约束条件。
代价估计单元203,用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。
优选地,本发明中定义的基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij和表t的外连接基数coj。
中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标识值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。基数范围包括多个区间,用r进行区分。此处的基数范围是为了保证基数和基数的对数在每一个小区间上近似为线性,以满足本方法线性规划的要求。
优选地,本发明在针对并行分布式多表连接优化问题时,充分考虑了本地连接次数和优化洗牌连接(shuffle join)次数对分布式多表连接的影响,将其作为约束条件加入混合整数线性规划模型中,因此,定义的基础变量中还包括第j次连接中的本地连接次数selfj和第j次连接中的优化洗牌连接次数shufflej;定义的中间结果变量中还包括本地连接最少次数β和优化洗牌连接最大次数γ。基础变量和中间结果变量的具体含义和取值分别如前表格1和表格2所示。
约束条件设置单元202中对连接操作变量设置的约束条件包括对基础变量的约束条件,以及对中间结果变量的约束条件,分别如前述表格3和表格4所示。
函数构建单元201中构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj; (1)
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,∑jcioj表示对于1≤j≤nk对cioj求和,即当前连接顺序中所有的连接操作的代价求和。并且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。∑tcoj表示第j次连接中所有表的外连接基数求和,∑tcij表示第j次连接中所有表的内连接基数求和。当Cost取最小值时且满足前述表格3和表格4的约束条件的变量值,即为选择出的最优连接顺序。
本发明提出的技术方案充分考虑了本地连接次数和shuffle join次数对分布式多表连接的影响,将其作为约束条件加入混合整数线性规划模型中,使该模型能够更好地适用于分布式多表连接问题。
应该理解地是,本发明的基于混合整数线性规划的分布式多表连接选择方法与装置的原理和实现方式相同,因此对基于混合整数线性规划的分布式多表连接选择方法的具体实施例的阐述也适用于基于混合整数线性规划的分布式多表连接选择装置。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于混合整数线性规划的分布式多表连接选择方法,其特征在于,包括以下步骤:
函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;
约束条件设置步骤、对所述连接操作变量设置约束条件;
代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序;
所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数;且所述约束条件包括:限定所述本地连接次数不小于预设的本地连接最少次数,以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
2.根据权利要求1所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于:所述连接操作变量包括基础变量和中间结果变量。
3.根据权利要求2所述的基于混合整数线性规划的分布式多表连接选择方法,所述基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij、表t的外连接基数coj、本地连接次数selfj和优化洗牌连接次数shufflej;所述中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标识值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。
4.根据权利要求3所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于,所述函数构建步骤中构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj;
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。
5.根据权利要求4所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于,所述约束条件设置步骤中对所述连接操作变量设置的约束条件包括:
(2)∑ttiot0=1,表示第一次连接中外连接有且只有1次;
(10)selfj≥β,表示限定本地连接次数不小于预设的本地连接最少次数;
(11)shufflej≤γ,表示限定优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
6.一种基于混合整数线性规划的分布式多表连接选择装置,其特征在于,包括:
函数构建单元,用于根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;
约束条件设置单元,用于对所述连接操作变量设置约束条件;
代价估计单元,用于计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序;
所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数;且所述约束条件包括:限定所述本地连接次数不小于预设的本地连接最少次数,以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。
7.根据权利要求6所述的基于混合整数线性规划的分布式多表连接选择装置,其特征在于:所述连接操作变量包括基础变量和中间结果变量;所述基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij、表t的外连接基数coj、本地连接次数selfj和优化洗牌连接次数shufflej;所述中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标志值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。
8.根据权利要求7所述的基于混合整数线性规划的分布式多表连接选择装置,其特征在于,所述函数构建单元构建基于混合整数线性规划的连接操作代价函数为:
Cost=∑jcioj;
其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810252356.2A CN108491516B (zh) | 2018-03-26 | 2018-03-26 | 基于混合整数线性规划的分布式多表连接选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810252356.2A CN108491516B (zh) | 2018-03-26 | 2018-03-26 | 基于混合整数线性规划的分布式多表连接选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491516A CN108491516A (zh) | 2018-09-04 |
CN108491516B true CN108491516B (zh) | 2021-09-14 |
Family
ID=63337813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810252356.2A Active CN108491516B (zh) | 2018-03-26 | 2018-03-26 | 基于混合整数线性规划的分布式多表连接选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491516B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927346A (zh) * | 2014-03-28 | 2014-07-16 | 浙江大学 | 基于数据量的查询连接方法 |
CN104504018A (zh) * | 2014-12-11 | 2015-04-08 | 浙江大学 | 基于浓密树和自顶向下的大数据实时查询优化方法 |
CN106503827A (zh) * | 2016-09-21 | 2017-03-15 | 国网河北省电力公司 | 一种多时序混合整数规划问题的处理方法及装置 |
CN107193813A (zh) * | 2016-03-14 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 数据表连接方式处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055199A1 (en) * | 2009-08-25 | 2011-03-03 | Siddiqui Kashif A | Join order optimization in a query optimizer for queries with outer and/or semi joins |
US9934280B2 (en) * | 2011-05-13 | 2018-04-03 | Entit Software Llc | Join order restrictions |
US20160179890A1 (en) * | 2014-12-23 | 2016-06-23 | Teradata Us, Inc. | Methods and a system for hybrid large join query optimization |
US20160314170A1 (en) * | 2015-04-21 | 2016-10-27 | Dell Software, Inc. | SQL Join Plan Representation |
-
2018
- 2018-03-26 CN CN201810252356.2A patent/CN108491516B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927346A (zh) * | 2014-03-28 | 2014-07-16 | 浙江大学 | 基于数据量的查询连接方法 |
CN104504018A (zh) * | 2014-12-11 | 2015-04-08 | 浙江大学 | 基于浓密树和自顶向下的大数据实时查询优化方法 |
CN107193813A (zh) * | 2016-03-14 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 数据表连接方式处理方法及装置 |
CN106503827A (zh) * | 2016-09-21 | 2017-03-15 | 国网河北省电力公司 | 一种多时序混合整数规划问题的处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
实体数据库中多相似连接顺序选择策略;刘雪莉等;《计算机科学与探索》;20120813;第865-876页 * |
提升道路通行能力时空协同优化控制理论与方法;赵靖;《读秀》;20140531;第23-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108491516A (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lumley et al. | Package ‘survey’ | |
Kan | Machine learning applications in cell image analysis | |
WO2020232877A1 (zh) | 一种问题答案选取方法、装置、计算机设备及存储介质 | |
CN107704625A (zh) | 字段匹配方法和装置 | |
Chen et al. | Too many covariates and too few cases?–a comparative study | |
Shen et al. | A modified teaching–learning-based optimisation algorithm for bi-objective re-entrant hybrid flowshop scheduling | |
CN108256009B (zh) | 一种提高电力智能应答机器人回答准确率的方法 | |
US20160026917A1 (en) | Ranking of random batches to identify predictive features | |
KR20200050992A (ko) | 인간 집단의 관련성을 예측하기 위한 시스템 및 방법 | |
Dymkova | Prototype of the Information System for Promoting Publications of Scientific and Educational Organizations in the Field of Wave Electronics and its Applications | |
Zhou et al. | A two-step semiparametric method to accommodate sampling weights in multiple imputation | |
CN112396325B (zh) | 案件处理方法、装置、介质及电子设备 | |
Zhang et al. | Covariate adaptive false discovery rate control with applications to omics-wide multiple testing | |
CN109033428B (zh) | 一种智能客服方法及系统 | |
CN108733745A (zh) | 一种基于医学知识的查询扩展方法 | |
Martinez-de-Pison et al. | Searching parsimonious solutions with GA-PARSIMONY and XGBoost in high-dimensional databases | |
US10366333B2 (en) | Inference-based assignment of data type to data | |
CN108491516B (zh) | 基于混合整数线性规划的分布式多表连接选择方法及装置 | |
CN113034224A (zh) | 基于相似性的房源推荐方法、系统、设备及存储介质 | |
US11989199B2 (en) | Optimizing flow of data within ETL data processing pipeline | |
CN116522126A (zh) | 一种逻辑回归模型建立方法及装置 | |
US11645307B1 (en) | Method and apparatus for grouping records based upon a prediction of the content of the records | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
Şentürk et al. | Functional linear models for zero‐inflated count data with application to modeling hospitalizations in patients on dialysis | |
Borza et al. | A Representativeness-informed Model for Research Record Selection from Electronic Medical Record Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |