CN109308303B - 一种基于马尔可夫链的多表连接在线聚集方法 - Google Patents

一种基于马尔可夫链的多表连接在线聚集方法 Download PDF

Info

Publication number
CN109308303B
CN109308303B CN201811093837.XA CN201811093837A CN109308303B CN 109308303 B CN109308303 B CN 109308303B CN 201811093837 A CN201811093837 A CN 201811093837A CN 109308303 B CN109308303 B CN 109308303B
Authority
CN
China
Prior art keywords
connection
sample
walking
layer
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811093837.XA
Other languages
English (en)
Other versions
CN109308303A (zh
Inventor
史英杰
刘怡
郭飞
刘昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Clothing Technology
Original Assignee
Beijing Institute of Clothing Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Clothing Technology filed Critical Beijing Institute of Clothing Technology
Priority to CN201811093837.XA priority Critical patent/CN109308303B/zh
Publication of CN109308303A publication Critical patent/CN109308303A/zh
Application granted granted Critical
Publication of CN109308303B publication Critical patent/CN109308303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于马尔可夫链的多表连接在线聚集方法,包括样本创建和在线聚集两个阶段,在所述样本创建阶段中,结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大,基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,在马尔可夫链的游走起点创建分层样本;在所述在线聚集阶段中,对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,并确定从每个样本层中抽取样本的大小,进而估计查询结果及置信区间。

Description

一种基于马尔可夫链的多表连接在线聚集方法
技术领域
本发明涉及一种大数据分析方法,主要涉及一种基于马尔可夫链的多表连接在线聚集方法。
背景技术
社交媒体、移动设备及传感器以前所未有的速度持续产生着海量数据,探索这些数据背后蕴藏的价值已经成为目前工业界及学术界十分关注的问题,然而复杂的数据分析任务在海量数据上运行缓慢,使得分析结果的时效性和价值大打折扣,成为数据驱动任务发挥作用的瓶颈。即席交互式数据分析在决策支持、趋势分析及数据可视化等领域发挥重要的作用,成为目前大数据分析领域亟待解决的问题之一。在线聚集不断对部分样本数据进行处理,从而可以在较短时间内返回具有统计意义的估计结果,为即席交互式数据分析提供了一种全新的解决方案。在线聚集于上世纪90年代在关系数据库领域被首次提出,随后取得了一系列的研究成果,然而在关系数据库市场所带来的影响力十分有限。随着大数据与云计算平台的出现,新型的数据模式和数据管理方式为在线聚集带来了发展机会。然而目前在云计算平台的在线聚集研究大多关注单表上的操作,或者简单的两表连接,针对多表连接的研究工作还比较少。多表连接是决策支持、数据挖掘和分析中最重要的操作之一,在大数据决策支持应用的基准测试TPC-H中,22条查询语句中的17条是连接查询,最多涉及8表的连接。
相对于单表或两表连接在线聚集,针对多表连接的在线聚集处理方式更加复杂,已有的工作无法直接应用。首先,多表连接类型呈多样化,包括链式连接、非环型连接、环型连接等,不同连接类型的在线查询处理方法及结果估计方法均不相同;其次,多表连接的结果空间随着连接表数的增大呈指数级增长,而选择率通常较低,已有的采样方法将导致多表连接的结果产出率极低;第三,多表连接总体的数据分布不是由一个表简单决定,而是多个表相互影响的结果,已有的解决小分组等问题的算法无法应用。
Haas等人对该问题进行研究,并提出了ripple join算法。Ripple join从各连接表中轮流随机采样,并将样本数据放入内存。每当新的样本从其中一张表中读取出来,将会和其他表中已经读取到的所有数据进行连接,该过程反复执行,直至估计结果满足用户需求时停止。因为从各个表中抽取样本数据时并不考虑数据分布、查询负载等信息,所以当满足连接谓词的结果较少或者分组较多时,ripple join的估计结果产出率非常低。针对基本ripple join算法的不足,随后出现了对其扩展的研究工作,将ripple join算法进行了并行化处理,然而该方法并不具有扩展性,一旦内存无法再加载数据时,估计结果将不具有统计意义;现有技术其一将sort-merge思想应用到ripple join算法中,对内存换出到外存的数据进行随机化处理,从而保证估计结果的统计意义,并在引擎DBO上实现;现有技术其二对查询处理过程中的中间结果进行有效利用,从而进一步加快置信区间的收敛速度。总的来说,ripple join盲目的从各连接表中随机抽取数据,当连接谓词的选择率较低、或者连接结果的分组较多时,连接结果的产出率非常低,从而导致置信区间的收敛速度缓慢。现有技术其三的wander join算法,在连接数据表上进行随机游走,在游走过程中利用连接列上的索引确定游走方向,基于每次游走对结果进行估计。Wander join解决了ripple join在连接选择率较低时,估计结果产出率低的问题,然而当分组较多或数据倾斜出现时,仍然会出现置信区间收敛速度缓慢,甚至会出现小分组估计结果丢失的问题。
发明内容
针对上述问题,本发明提出一种基于马尔可夫链的多表连接在线聚集方法,将多表连接处理过程转化为马尔可夫链上的遍历游走过程,基于该模型在游走起点创建分层样本,并针对采样方法进行结果无偏估计和置信区间计算,有效解决了连接负载或数据倾斜导致的结果估计不准确及置信区间收敛速度缓慢的问题。
附图说明
图1为本发明从R1到R4的四表链式连接马尔可夫随机过程;
图2为本发明基于马尔可夫链的多表连接在线聚集流程图;
图3为本发明的四表连接类型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的一种基于马尔可夫链的多表连接在线聚集方法,采用四个表的自然连接说明其建模过程,设连接形式为:
SELECT op(exp(t1i,t2j,...,tkm))FROM R1,R2,R3,R4
WHERE R1.A=R2.B and R2.C=R3.D and R3.E=R4.F GROUP BY col;
在上述查询表达式中,op是具体的聚集操作,exp是对元组的代数操作,col是分组列集。假设连接的顺序是R1-R2-R3-R4,将连接过程转化为从R1到R4的马尔可夫随机过程,如图1所示。图中节点表示各表中的元组,若两个节点满足连接谓词,则在两点间存在一条边。例如,t21与t31间存在一条边,表示满足条件t21.C=t31.D。从t21还有可能游走到t32和t35,然而这种选择游走方向的概率和t21之前的路径无关,因此满足马尔可夫性质。从R1中某一元组开始游走到R4某一元组结束所形成的随机路径,即为一个连接结果。
本发明的基于马尔可夫链的多表连接在线聚集方法由样本创建和在线聚集两个阶段构成,如图2所示。样本创建阶段结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大。基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,进而在马尔可夫链的游走起点创建分层样本。在线聚集阶段对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,进而估计查询结果及置信区间。
本发明将连接过程在马尔可夫链上进行建模,总体被看做从起始表元组到终点表元组的随机游走路线,分层样本的创建通过遍历马尔可夫链实现。除了链式连接,多表连接还包括非环型连接和环型连接。用节点表示连接表,节点间的边表示两表间存在连接关系,则四表的连接类型如图3所示。给定一个多表连接的查询,其实现连接的顺序有很多种,而不同的连接顺序对采样和结果估计的准确性及收敛速度产生不同的影响。在创建分层样本之前,本发明首先根据负载特征和索引分布情况确定连接顺序。以图3(a)中的链式连接为例,R1-R2-R3-R4以及R3-R4-R2-R1均是合理的连接顺序,而R3-R1-R2-R4则不是正确的连接顺序。多表连接顺序的确定准则如下。
设查询语句中参与连接的表有m个,则连接顺序R1-R2-R3…Rm为合理连接顺序的充分必要条件为:对于连接顺序中的任意表Ri,排在Ri前面的表格中至少有一个与Ri有直接连接关系。
(1)当有两个表R1与R2进行连接时,连接顺序包括R1-R2或者R2-R1两种,显然满足条件。
(2)假设有k个表进行连接时,命题成立。
充分性:如果k个表的连接序列为R1-R2-R3…Rk,且满足“排在Ri前面的表格中至少有一个与Ri有直接的连接关系”条件,则当增加一个表Rk+1参与连接时,将Rk+1表放置在原连接序列中Ri和Ri+1之间,且满足R1-Ri的表中至少有一个与Rk+1有直接连接关系,则从R1到Rk+1可完成连接,连接后的结果与Ri+1到Rk的序列也可完成连接,因此连接顺序合理。
必要性:如果k个表的连接顺序为R1-R2-R3…Rk,且满足“排在Ri前面的表格中至少有一个与Ri有直接的连接关系”条件,则当增加一个表Rk+1参与连接时,将Rk+1表放置在原连接序列中Ri和Ri+1之间,且新的序列是合理的连接序列。则R1到Ri的序列中必定至少有一张表与Rk+1存在直接连接关系,因此新的合理连接序列仍然满足直接连接关系的条件。
首先确定多表的连接顺序,其包括以下步骤:1)根据索引情况为连接图添加方向,若Ri与Rj间存在一条连接边,且Rj在连接列上有索引,则添加方向为Ri到Rj,反之亦然;2)设分组列集属于表Ri,从Ri开始对有向图进行顶点遍历生成连接序列,产生的连接序列为连接图的生成树。对于环型连接,所生成的连接序列没有包含全部连接关系,可在游走完成后,利用剩余的连接关系对游走的连接结果进行进一步筛选。对图3(c)中的查询,若分组列集位于表R3,且生成的连接序列为:R3-R1-R2-R4,利用R3-R4的连接关系在游走完成后对连接结果进行筛选。
然后在游走起始点创建分层样本。本发明将分组列集所在表放置在马尔可夫链随机游走的起始端,基于起始端的数据表Rs创建分层样本的游走起始层。针对单表查询创建分层样本时,样本总体即为原始表数据,因此直接根据分组列集进行分层,各样本层中元组的个数即为层大小。在多表连接的在线聚集中,样本总体为多表连接的结果,无法通过单独扫描任何一个表格得到分层样本。针对Rs中的任一元组ti,基于马尔可夫链从ti进行游走,计算与该元组相关联的连接结果的个数,从而进一步确定ti所在起始层的大小。在游走起始点创建分层样本包括以下步骤:1)根据分组列集将游走起始表分成多个分区,每个分区即为分层样本的一层,每层的大小由以该层中所有元组开始游走的路径数决定;2)扫描每个分区内的各个元组,并计算各元组为游走起始点的连接结果数,从而创建分层样本起始层。
所述步骤2)中,游走起始点连接结果数的确定方法为getJoinSize,其具体实现包括以下步骤:(1)给定游走起始元组t,沿着t所在表的所有邻接表开始游走。若连接的邻接表R’在连接图中的连接度小于2,则说明R’是“边缘表”,调用游走分支路径条数确定算法getPathNum计算分支路径的条数;否则,说明R’还能沿着连接序列继续游走,递归调用算法getJoinSize获取连接结果条数。(2)将各个分支的连接结果相乘,得到以t为游走起始点的连接结果数。所述步骤(1)中的游走分支路径条数确定方法为,给定分支路径的起始元组t及游走方向上的邻接表R,根据R在连接列上的索引获取与t相连接的元组,对元组数进行累加获得分支路径的条数。
在图1的四表链式连接为例,若连接序列为R2-R1-R3-R4,则样本创建过程中以R2为起始端进行游走,并创建分层样本的游走起始层。假设游走的起始元组为t21,当游走至R1中的元组t11时,无法继续前进,因此跳转到t21后向R3方向继续游走,直至游走到R4中的元组t41。将连接图中度小于2的表定义为“边缘表”,包括R1这类游走过程中遇到后需要跳转方向的表,以及R4这类标志着游走结束的表。一旦游走过程中遇到“边缘表”,记录当前游走分支的路径条数并改变游走方向,最终的连接结果数为各个分支路径条数的乘积。
尽管创建样本需要扫描连接起始表,并且需要在多个表中进行游走,然而顺序扫描起始表数据的吞吐率要远远高于随机读取数据的吞吐率,并且沿着多表马尔可夫链的游走是依据索引进行的,因此创建样本的代价在可接受范围之内。
在线聚集阶段以固定的频率更新估计结果,其实现步骤包括:1)对用户提交的多表连接查询语句进行解析,并动态选择查询代价最小的样本进行分层采样;2)确定每次更新过程中从各个层中抽取样本的大小;3)估计查询结果及置信区间。
所述步骤2)中,依据估计结果更新频率计算出每次抽取的样本大小N,将N分配至各个分组的样本层。为了使估计结果的方差和最小,样本大小分配算法的步骤包括:(1)从N在L个样本层中的平均值和每个样本层剩余样本中选择最小值,作为从该层中抽取样本的大小;(2)若以步骤(1)抽取的总样本数量小于N,则将N扩大至N’后重复上述过程,直至找到使得总样本数量最接近N的N’。其中各层样本的剩余值是连接结果数,并非游走起始表的元组数。
所述步骤3)进行聚集结果及置信区间估计,确定好每层的采样数量后,从样本起始层开始进行随机游走,游走的次数为该层所分配的样本数。查询语句中聚集操作主要讨论SUM和COUNT的实现方法,其他的聚集操作如AVG、STD-DEV等可通过相应的扩展实现。采用图1所示的链式连接为例介绍各层连接结果的游走方法,设连接序列为R1-R2-R3-R4,游走起始表R1的数据被分为三个样本层,聚集结果及置信区间的估计在每个分组内分别进行。当对样本层S1进行随机游走时,首先从S1中随机等概率抽取一个起始元组。假设t11被抽取到,接下来根据R2在与R1连接键上的索引,从R2中与t11相邻的元组中随机抽取元组,依次沿着马尔可夫链继续向下游走,直至游走到R4结束,最终抽取出一条路径。根据多次游走抽取出的连接结果,对聚集结果和置信区间进行估计。在该例中样本层S1里含有6条路径,若抽取的路径为t11-t21-t32-t42,则被抽取到的概率为1/24,并非1/6。利用该方法抽取每条路径的概率不相同,所以连接结果的样本并不是统一随机抽样获得。
设起始层样本分别为S1,S2,…,Sm,给定样本Si,该层中每条路径λ被抽取的概率为:
Figure BDA0001805049710000071
其中B2(t1)为R2中与R1的元组t1满足连接关系的元组。op(exp(λj))为路径λj所对应的连接结果上的聚集操作,定义随机变量exppj)的取值为:若op为SUM操作,exppj)=exp(λj);若op为COUNT操作,exppj)=1。给定估计的分组,设该分组样本大小为n,对多表连接聚集结果的无偏估计为:
Figure BDA0001805049710000081
设估计结果的置信度为ρ,置信区间为
Figure BDA0001805049710000082
其中
Figure BDA0001805049710000083
每条路径被抽取的概率P(λi)不同,属于独立的有偏采样。根据Horvitz–Thompson有偏采样估计原理,
Figure BDA0001805049710000084
是对总体聚集值的无偏估计,而且n个游走路径是独立的,所以其均值仍然是对总体聚集值的无偏估计。构建随机变量
Figure BDA0001805049710000085
则对连接结果聚集值的估计转化为对新变量总体均值的估计,可得出总体均值近似服从正态分布:
Figure BDA0001805049710000086
对该正态分布进行标准化处理后可得:
Figure BDA0001805049710000087
给定置信度ρ,可得P{-Zρ≤Z≤Zρ}=ρ,使用样本方差
Figure BDA0001805049710000088
代替总体方差σ2,即可得:
Figure BDA0001805049710000089
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于马尔可夫链的多表连接在线聚集方法,其特征在于,包括样本创建和在线聚集两个阶段,在所述样本创建阶段中,结合负载特征为原始数据集创建分层样本,分层依据为查询负载中的分组列集,使得列集在负载中出现的概率以及负载中的分组列集被覆盖的概率达到最大,基于确定好的分组列集以及索引的分布情况,确定各表的连接顺序,在马尔可夫链的游走起点创建分层样本;在所述在线聚集阶段中,对用户提交的多表连接查询语句进行解析,动态选择查询代价最小的样本进行分层采样,并确定从每个样本层中抽取样本的大小,进而估计查询结果及置信区间。
2.如权利要求1所述的方法,其特征在于,在所述样本创建阶段中确定连接顺序方法为,查询语句中参与连接的表有m个,则连接顺序R1-R2-R3…Rm为合理连接顺序的充分必要条件为:对于连接顺序中的任意表Ri,排在Ri前面的表格中至少有一个与Ri有直接连接关系; 在确定连接顺序时,首先根据索引情况为连接图添加方向,若Ri与Rj间存在一条连接边,且Rj在连接列上有索引,则添加方向为Ri到Rj,接下来从Ri开始对有向图进行顶点遍历生成连接序列,产生的连接序列为连接图的生成树;对于环型连接,所生成的连接序列没有包含全部连接关系,在游走完成后,利用剩余的连接关系对游走的连接结果进行进一步筛选,所述m,i,j均为正整数。
3.如权利要求1所述的方法,其特征在于,所述创建分层样本的方法为,将分组列集所在表Rs放置在马尔可夫链随机游走的起始端,游走起始表Rs被分成L个不同的分区,每个分区即分层样本起始层的一层,每层的大小为以该层中所有元组为起点开始游走的路径数之和;扫描Rs各分区内的元组,并计算以任一元组ti为游走起始点的连接结果数,从而创建分层样本起始层,所述L为正整数。
4.如权利要求3所述的方法,其特征在于,所述游走起始点连接结果数的确定方法为,连接图中度为1的表为边缘表,一旦游走过程中遇到边缘表,记录当前游走分支路径条数并改变游走方向,最终的连接结果数为各个分支路径条数的乘积,具体为,给定游走起始元组t,沿着t所在表的所有邻接表开始游走,若连接的邻接表R’在连接图中的连接度小于2,则R’是边缘表,调用游走分支路径条数确定方法计算分支路径的条数;否则R’还能沿着连接序列继续游走,递归调用游走路径连接结果数的确定方法来获取连接结果数,最终将各个分支的连接结果相乘,得到以t为游走起始点的连接结果数。
5.如权利要求4所述的方法,其特征在于,所述的游走分支路径条数确定方法为,给定分支路径的起始元组t及游走方向上的邻接表R,根据R在连接列上的索引获取与t相连接的元组,对元组数进行累加获得分支路径的条数。
6.如权利要求1所述的方法,其特征在于,在所述在线聚集阶段中,样本大小分配算法为,从每个分层中抽取样本的大小为N在L个样本层中的平均值和剩余样本的最小值,若总的样本数量小于N,则将N扩大至N’后重复上述过程,直至找到使得总采样数量最接近N的N’。
7.如权利要求1所述的方法,其特征在于,估计查询结果及置信区间的方法为,起始层样本分别为S1,S2,…,Sm,给定样本Si,该层中每条路径λ被抽取的概率为:
Figure FDA0003127339530000021
其中B2(t1)为R2中与R1的元组t1满足连接关系的元组,设op(exp(λj))为路径λj所对应的连接结果上的聚集操作,随机变量exppj)的取值为:若op为求和操作,exppj)=exp(λj);若op为计数操作,exppj)=1,给定估计的分组,设该分组样本大小为n,对多表连接聚集结果的无偏估计为:
Figure FDA0003127339530000022
设估计结果的置信度为ρ,置信区间为
Figure FDA0003127339530000031
其中
Figure FDA0003127339530000032
其中Zρ为标准正态分布的ρ分位数。
CN201811093837.XA 2018-09-19 2018-09-19 一种基于马尔可夫链的多表连接在线聚集方法 Active CN109308303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811093837.XA CN109308303B (zh) 2018-09-19 2018-09-19 一种基于马尔可夫链的多表连接在线聚集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811093837.XA CN109308303B (zh) 2018-09-19 2018-09-19 一种基于马尔可夫链的多表连接在线聚集方法

Publications (2)

Publication Number Publication Date
CN109308303A CN109308303A (zh) 2019-02-05
CN109308303B true CN109308303B (zh) 2021-08-27

Family

ID=65224988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811093837.XA Active CN109308303B (zh) 2018-09-19 2018-09-19 一种基于马尔可夫链的多表连接在线聚集方法

Country Status (1)

Country Link
CN (1) CN109308303B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597857B (zh) * 2019-08-30 2023-03-24 南开大学 一种基于共享样本的在线聚集方法
CN113515920B (zh) * 2020-04-09 2024-06-21 北京庖丁科技有限公司 从表格中提取公式的方法、电子设备和计算机可读介质
CN113701822A (zh) * 2021-09-18 2021-11-26 大连交通大学 一种轨道车辆智能监测系统
CN114461677B (zh) * 2022-04-12 2022-07-26 天津南大通用数据技术股份有限公司 一种基于选择度传递调整连接顺序的方法
CN117149717A (zh) * 2023-08-31 2023-12-01 中电云计算技术有限公司 表连接处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203635B2 (en) * 2002-06-27 2007-04-10 Microsoft Corporation Layered models for context awareness
CN103699696A (zh) * 2014-01-13 2014-04-02 中国人民大学 一种云计算环境下的数据在线聚集方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089489B2 (en) * 2015-06-02 2018-10-02 ALTR Solutions, Inc. Transparent client application to arbitrate data storage between mutable and immutable data repositories

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203635B2 (en) * 2002-06-27 2007-04-10 Microsoft Corporation Layered models for context awareness
CN103699696A (zh) * 2014-01-13 2014-04-02 中国人民大学 一种云计算环境下的数据在线聚集方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
You can stop early with COLA: online processing of aggregate queries in the cloud;Shi Yingjie etc.;《Proc of the 21st ACM Conference on Information and Knowledge Man-agement》;20121231;全文 *
基于层次有序维的分组聚集算法;王生富;《小型微型计算机系统》;20100630;全文 *

Also Published As

Publication number Publication date
CN109308303A (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN109308303B (zh) 一种基于马尔可夫链的多表连接在线聚集方法
US11977541B2 (en) Systems and methods for rapid data analysis
Marcus et al. Plan-structured deep neural network models for query performance prediction
US9652497B2 (en) Processing queries using hybrid access paths
JP2004518226A (ja) データベースシステムおよびクエリオプティマイザ
US20190005092A1 (en) Query optimization using propagated data distinctness
US11573987B2 (en) System for detecting data relationships based on sample data
CN104504018A (zh) 基于浓密树和自顶向下的大数据实时查询优化方法
CN108073641B (zh) 查询数据表的方法和装置
CN105320700A (zh) 一种数据库动态查询表单的生成方法
CN110990423B (zh) Sql语句的执行方法、装置、设备和存储介质
CN107133281B (zh) 一种基于分组的全局多查询优化方法
US20070156769A1 (en) Partition elimination system for a database that uses a multi-level partitioning definition
Behr et al. Learn What Really Matters: A Learning-to-Rank Approach for ML-based Query Optimization
CN111221864B (zh) 一种基于mysql慢查询日志词频分析的索引智能推荐方法
CN111159178B (zh) 基于大数据sql解析的数据地图路径导航方法
Margoor et al. Improving join reordering for large scale distributed computing
CN112905591A (zh) 一种基于机器学习的数据表连接顺序选择方法
CN112860734A (zh) 地震数据多维度范围查询方法及装置
CN117290355B (zh) 一种元数据地图构建系统
CN112100199B (zh) 一种基于数据集分组的分析方法、装置、设备及介质
CN103577560A (zh) 一种输入数据库操作指令的方法和装置
CN117390064B (zh) 一种基于可嵌入子图的数据库查询优化方法
CN114706883A (zh) 一种基于摘要图垂直划分和预连接的复杂图查询优化方法
CN118503280A (zh) 基于物化视图选择和查询规划的正则路径查询方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant