CN110597857A - 一种基于共享样本的在线聚集方法 - Google Patents

一种基于共享样本的在线聚集方法 Download PDF

Info

Publication number
CN110597857A
CN110597857A CN201910811714.3A CN201910811714A CN110597857A CN 110597857 A CN110597857 A CN 110597857A CN 201910811714 A CN201910811714 A CN 201910811714A CN 110597857 A CN110597857 A CN 110597857A
Authority
CN
China
Prior art keywords
sample
query
samples
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910811714.3A
Other languages
English (en)
Other versions
CN110597857B (zh
Inventor
温延龙
李云
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201910811714.3A priority Critical patent/CN110597857B/zh
Publication of CN110597857A publication Critical patent/CN110597857A/zh
Application granted granted Critical
Publication of CN110597857B publication Critical patent/CN110597857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于共享样本的在线聚集方法,属于数据库技术应用领域。该方法包括:基于查询子句的特征和数据表特征,在线生成样本表;建立样本缓存池,将创建好的样本存储在样本缓存池中备用;指定共享样本的策略,当新的查询到来时,首先去样本缓存池中查询是否有需要的样本,如果没有的话再创建新的样本。相比于离线采样的方法来说,本发明在创建样本时考虑到了查询的特征,能够使查询所使用的样本更有效。同时,本发明适用于处理多条连续查询,通过样本缓存池存储样本和不同查询之间共享样本,避免重复创建样本,提高了连续查询的查询效率。

Description

一种基于共享样本的在线聚集方法
技术领域
本发明属于数据库技术领域,具体涉及一种基于共享样本的在线聚集技术。
背景技术
随着政府管理,医疗服务,零售,制造和定位服务领域数据的爆炸式增长,其带来的巨大社会价值,商业价值和科研价值也不容忽视。为了充分利用数据价值,需要获取大量的数据统计特征用于支持系统决策。大数据上的聚合查询操作是一种实用的统计手段,然而在海量数据上进行查询得到一个精确结果需要耗费大量的时间,这样的时间消耗对于用户来说是不可以接受的。在线聚集是一种基于采样的近似查询技术,能够在较短的时间内返回一个带有置信区间的估计结果,如果估计结果能够和精确结果带来相同的决策,那么利用在线聚集技术将会大大提高查询效率。然而现有的在线聚集技术通常在离线模式下预先创建样本表,这样创建的样本完全依赖于数据而无法捕捉到查询的特点,因此无法保证不同查询所用采样独立性。
为了解决离线采样所带来的问题,并同时保证在线聚集的查询效率,需要设计一种针对查询需求创建样本的采样策略。若能够针对查询需求创建样本,同时设计共享样本的策略以节省重复创建样本的时间,将会提高在线聚集查询的准确度和效率。
发明内容
本发明目的是解决离线采样的在线聚集技术无法捕获查询特点而带来的问题,提出了一种在线采样和共享样本的在线聚集方法。根据查询特点,结合底层数据分布,在线创建样本。建立样本缓存池,用于存储已经创建的样本。制定样本共享策略,不同的查询之间可以共享样本,以此节省创建样本的时间提高连续查询的效率。
本发明提供的基于共享样本的在线聚集方法的具体步骤如下:
第1、根据查询子句特征和数据表的数据特征,以在线的方式创建适合特定查询的有效样本;
第1.1、提取SQL聚集查询q的特征
定义1:聚集查询q是具有如下形式的一个查询SQL查询,
SELECT agg(ai)
FROM relationr
WHERE conditionc
GROUP BY groupbys
其中:
SELECT语句用于从数据表中选取数据,结果被存储在一个结果表中;
agg为查询的聚合类型,它可以是SUM、COUNT或AVG三种函数中的一种;SUM()函数返回数值列的总数(总额),COUNT()函数返回匹配指定条件的行数,AVG()函数返回数值列的平均值其中NULL值不包含在计算中;
ai为数据表中的某一列,该列必须是数值类型的;
FROM语句用于指定数据表;
relationr为数据库中的一张关系表,它是一个单独的事实表,或是两个或多个事实表经过连接操作得到的一张关系表;
WHERE语句用于有条件地从表中选取数据;
conditionc是WHERE语句后面的条件语句。每个条件可以用一个三元组attribute、operatot、value表示,其中attribute为列名称,operatot为运算符,value为值;
GROUP BY语句用于结合合计函数,根据一个或多个列对结果集进行分组;
groupbys为分组的列名称,可以是一列也可以是多个列;
第1.2、根据聚集查询q的特征和数据表的数据特征创建样本表Ts
定义2:样本表Ts是原始表T的一个子集,T中的元组用t表示,样本表有三种类型:均一样本、哈希样本和分层样本;
定义3:一个均一样本Ts,它是指以相同的概率p对原始数据表T进行采样,Ts={t|P(t)=p},其中
P(t)为元组t被采样的概率;
p为用户指定的采样概率,p∈[0,1];
定义4:一个基于C的哈希样本Ts,Ts={t|h(t.C)<p},其中:
C为数据表中的列集合,t.C为元组t上列C的取值;
h(·)是一个统一的哈希函数,它将C中的每个值映射为[0,1]上的实数;
定义5:一个基于C的分层样本Ts,列集合C的不同取值为Ts满足:
其中:
dC为列集合C的不同取值的个数;
是一个选择函数,将T中C取值为ci的元组选择出来;
第2、建立样本缓存池用于存储创建好的样本表;
第2.1、在底层数据库上创建新的模式用于存储样本表,在新的模式中创建两个表用于存储样本表的元数据信息,分别为meta_name和meta_size;
第2.2、将新创建的样本表存储在样本缓存池中,同时在meta_name和meta_size中插入该样本表的原始数据信息,样本表的命名规则如下:
原始数据表名称为table;
用户指定的采样概率为p;
指定的数据列为C;
一个均一样本命名为uf_table_p;
一个哈希样本命名为hs_table_p_C;
一个分层样本命名为st_table_p_C;
第3、当新的查询到来时,访问样本生成器,得到有效样本的样本名,如果样本缓存池中包含该样本则直接使用,否则按照步骤1创建新的样本表,将SQL查询重写以在样本表上执行该查询,重写的SQL查询提交到底层数据库执行并返回结果;
定义6:ts代表创建样本表的时间,它是指我们的系统为特定的查询创建一个新的样本所需的时间。
定义7:tp代表处理查询的时间,它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间。
定义8:tl代表查询延迟时间,它是指我们的系统为特定的查询提交后到返回估计结果所用时间,即tl=ts+tp
定义9:te代表查询在传统数据库的执行时间,它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间;
第3.1、当一条查询到来时,根据查询生成所需的样本表名称,如果在样本缓存池meta_name表中未找到该条数据项,则创建相应的样本表;如果在样本缓存池meta_name表中找到,则无需创建该样本表;
第3.2、当查询q0到来时,系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以与查询q0共享样本,它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时,平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小。
本发明的优点和有益效果:
本发明通过对当前国内外在线聚集技术的研究分析,提出一种基于共享样本的在线聚集方法,可以根据查询特征在线创建样本,并利用样本缓存池和共享样本策略提高多条连续查询的查询效率。相比于离线采样的方法来说,本发明在创建样本时考虑到了查询的特征,能够使查询所使用的样本更有效。同时,本发明适用于处理多条连续查询,通过样本缓存池存储样本和不同查询之间共享样本,避免重复创建样本,提高了连续查询的查询效率。
附图说明
图1方法总流程图;
图2为样本生成器内部流程示意图。
图3查询模板;
图4由T1和T3模板生成的两条查询;
图5meta_name表和meta_size表中的字段及其含义;
图6平均查询延迟与查询条数的关系;
图7创建样本所花费的时间代价。
图8创建样本所花费的空间代价。
具体实施方式
本发明方法的处理流程如图1和附图2所示。
下面结合实施例介绍本发明方法的具体实施方式,我们的方法用于解决面向多条连续查询的在线聚集问题,图3所示为四个查询模板,用于生成多条连续查询。我们利用T1、T2、T3和T4四个模板分别生成了200条随机查询。以下结合实施例介绍本发明方法的具体步骤:
步骤1:根据查询子句特征和数据表的数据特征,以在线的方式创建适合特定查询的有效样本。
第1.1、提取SQL聚集查询的特征
定义1:聚集查询q是具有如下形式的一个查询SQL查询,
SELECT agg(ai)
FROM relationr
WHERE conditionc
GROUP BY groupbys
其中:
SELECT语句用于从数据表中选取数据,结果被存储在一个结果表中;
agg为查询的聚合类型,它可以是SUM、COUNT和AVG三种函数中的一种。SUM()函数返回数值列的总数(总额),COUNT()函数返回匹配指定条件的行数,AVG()函数返回数值列的平均值(NULL值不包含在计算中);
ai为数据表中的某一列,该列必须是数值类型的;
FROM语句用于指定数据表;
relationr为数据库中的一张关系表,它可以是一个单独的事实表,也可以是两个或多个事实表经过连接操作得到的一张关系表;
WHERE语句用于有条件地从表中选取数据;
conditionc是WHERE语句后面的条件语句。每个条件可以用一个三元组(attribute,operator,value)表示,其中attribute为列名称,operatot为运算符,value为值;
GROUP BY语句用于结合合计函数,根据一个或多个列对结果集进行分组;
groupbys为分组的列名称,可以是一列也可以是多个列;
第1.2、根据聚集查询q的特征和数据表的数据特征创建样本表Ts
定义2:样本表Ts是原始表T的一个子集,T中的元组用t表示。样本表可以有三种类型:均一样本、哈希样本和分层样本;
定义3:一个均一样本Ts,它是指以相同的概率p对原始数据表T进行采样,Ts={t|P(t)=p}。其中
P(t)为元组t被采样的概率;
p为用户指定的采样概率,p∈[0,1];
定义4:一个基于C的哈希样本Ts,Ts={t|h(t.C)<p},其中:
C为数据表中的列集合,t.C为元组t上列C的取值;
h(·)是一个统一的哈希函数,它将C中的每个值映射为[0,1]上的实数;
定义5:一个基于C的分层样本Ts,列集合C的不同取值为Ts满足:
其中:
dC为列集合C的不同取值的个数;
是一个选择函数,将T中C取值为ci的元组选择出来。
本实施例中,我们以在线的模式生成查询样本,对于查询集合中的每一条查询,都要得到有效的查询样本。我们根据SQL查询的特点从查询中提取特征,获得查询涉及的表、WHERE语句后涉及的列和GROUP-BY涉及的分组列等特征。当查询在单表上进行时,如果该查询包含GROUP-BY语句,则根据GROUP-BY分组列创建该表的分层样本;如果不包含GROUP-BY语句,则生成一个随机样本或者基于WHERE属性的哈希样本。假设T1和T3模板分别生成的一条语句如图4所示,系统为其创建的样本分别为st_lineitem_0_7returnflag和uf_lineitem_0_7(hs_lineitem_0_7_quantity)。在线创建样本算法具体实现的伪代码如下:
算法1:在线创建样本算法
输入:SQL查询q
输出:针对查询q的样本表
步骤2:建立样本缓存池用于存储创建好的样本表。
在底层数据库上创建新的模式用于存储样本表,在新的模式中创建两个表用于存储样本表的元数据信息,分别为meta_name和meta_size,将新创建的样本表存储在样本缓存池中,同时在meta_name和meta_size中插入该样本表的原始数据信息,样本表的命名规则如下:a)原始数据表名称为table;b)用户指定的采样概率为p;c)指定的数据列为C;d)一个均一样本命名为uf_table_p;e)一个哈希样本命名为hs_table_p_C;f)一个分层样本命名为st_table_p_C。这两张表包含的字段及其含义如图5所示。以步骤1中生成的一张样本表st_lineitem_0_7_returnflag为例,原始数据库模式为tpch,原始表的大小为15000000,样本表所在的数据库模式为tpch_less,则在meta_name和meta_size中与该样本表相关的数据分别为(tpch,lineitem,tpch_less,st_lineitem_07returnflag,stratified,0.7,returnflag)和(tpch_less,st_lineitem_0_7_returnf2ag,stratified,0.7,returnflag)。
步骤3:利用共享样本策略在不同查询之间共享样本。
当新的查询到来时,访问样本生成器,根据算法1得到有效样本的样本名。如果样本缓存池中包含该样本则直接使用,否则按照步骤1创建新的样本表。将SQL查询重写以在样本表上执行该查询,重写的SQL查询提交到底层数据库执行并返回结果。本步骤中做如下定义:ts代表创建样本表的时间,它是指我们的系统为特定的查询创建一个新的样本所需的时间。tp代表处理查询的时间,它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间。tl代表查询延迟时间,它是指我们的系统为特定的查询提交后到返回估计结果所用时间,即tl=ts+tp;te代表查询在传统数据库的执行时间,它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间。第3.1、当一条查询到来时,根据查询生成所需的样本表名称,如果在样本缓存池meta_name表中未找到该条数据项,则创建相应的样本表;如果在样本缓存池meta_name表中找到,则无需创建该样本表;第3.2、当查询q0到来时,系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以用,它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时,平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小。
本实施例中,我们在PostgreSQL上执行了根据T1、T2、T3和T4这四个模板生成的查询集合,记录了每个查询集合的平均查询延迟。接着,我们利用共享样本的方法执行了上述插叙,记录它们的平均查询延迟,每个查询集合中的平均查询延迟与查询条数的关系如图6所示。针对数据库中常被访问的三张表lineitem、orders和partsupp,我们在这三张表上分别用不共享样本的方法和共享样本的方法执行查询,分别记录了在满足查询需求的情况下创建样本所花费的时间和空间,结果如图7和图8所示。

Claims (5)

1.一种基于共享样本的在线聚集方法,该方法以共享样本的思想为基础,以在线的方式为提交的查询创建有效的样本,同时通过样本缓存池和共享样本策略提高查询效率,在保证每条查询都能利用有效样本的基础上,降低了多条连续查询的平均查询延迟;该方法详细步骤如下:
第1、根据查询子句特征和数据表的数据特征,以在线的方式创建适合特定查询的有效样本;
第1.1、提取SQL聚集查询q的特征;
第1.2、根据聚集查询q的特征和数据表的数据特征创建样本表Ts
第2、建立样本缓存池用于存储创建好的样本表;
第2.1、在底层数据库上创建新的模式用于存储样本表,在新的模式中创建两个表用于存储样本表的元数据信息,分别为meta_name和meta_size;
第2.2、将新创建的样本表存储在样本缓存池中,同时在meta_name和meta_size中插入该样本表的原始数据信息;
第3、当新的查询到来时,访问样本生成器,得到有效样本的样本名,如果样本缓存池中包含该样本则直接使用,否则按照步骤1创建新的样本表,将SQL查询重写以在样本表上执行该查询,重写的SQL查询提交到底层数据库执行并返回结果。
2.根据权利要求1所述的基于共享样本的在线聚集方法,其特征是:
步骤第1.1中,聚集查询q是具有如下形式的一个查询SQL查询,
SELECT agg(ai)
FROM relationr
WHERE conditionc
GROUP BY groupdys
其中:
SELECT语句用于从数据表中选取数据,结果被存储在一个结果表中;
agg为查询的聚合类型,它可以是SUM、COUNT或AVG三种函数中的一种;SUM()函数返回数值列的总数(总额),COUNT()函数返回匹配指定条件的行数,AVG()函数返回数值列的平均值,其中NULL值不包含在计算中;
ai为数据表中的某一列,该列必须是数值类型的;
FROM语句用于指定数据表;
relationr为数据库中的一张关系表,它是一个单独的事实表,或是两个或多个事实表经过连接操作得到的一张关系表;
WHERE语句用于有条件地从表中选取数据;
conditionc是WHERE语句后面的条件语句,每个条件可以用一个三元组attribute、operatot、value表示,其中attribute为列名称,operatot为运算符,value为值;
GROUP BY语句用于结合合计函数,根据一个或多个列对结果集进行分组;
groupbys为分组的列名称,可以是一列也可以是多个列。
3.根据权利要求1所述的基于共享样本的在线聚集方法,其特征是:
步骤1.2中,样本表Ts是原始表T的一个子集,T中的元组用t表示,样本表有三种类型:均一样本、哈希样本和分层样本。
4.根据权利要求1所述的基于共享样本的在线聚集方法,其特征是步骤第3中包括:
第3.1、当一条查询到来时,根据查询生成所需的样本表名称,如果在样本缓存池meta_name表中未找到该条数据项,则创建相应的样本表;如果在样本缓存池meta_name表中找到,则无需创建该样本表;
第3.2、当查询q0到来时,系统会为其创建样本表创建该样本表的时间处理该查询的时间为因此的查询延迟时间为假设有r条之后到来的查询可以用,它们的查询处理时间分别为那么这r+1条查询的平均查询延迟为当r足够大时,平均查询延迟为即创建样本的时间平均分配到这r+1条查询时对查询延迟的影响就会变得很小;
ts代表创建样本表的时间,它是指我们的系统为特定的查询创建一个新的样本所需的时间;
tp代表处理查询的时间,它是指我们的系统为特定的查询找到有效的样本表并且在该样本表上执行该查询并返回估计结果所需的时间;
tl代表查询延迟时间,它是指我们的系统为特定的查询提交后到返回估计结果所用时间,即tl=ts+tp
te代表查询在传统数据库的执行时间,它是指在不借助在线聚集技术的传统数据库中执行特定查询并返回结果所需的时间。
5.根据权利要求3所述的基于共享样本的在线聚集方法,其特征是:
一个均一样本Ts,它是指以相同的概率p对原始数据表T进行采样,Ts={t|P(t)=p},其中
P(t)为元组t被采样的概率;
p为用户指定的采样概率,p∈[0,1];
一个基于C的哈希样本Ts,Ts={t|h(t.C)<p},其中:
C为数据表中的列集合,t.C为元组t上列C的取值;
h(·)是一个统一的哈希函数,它将C中的每个值映射为[0,1]上的实数;
一个基于C的分层样本Ts,列集合C的不同取值为Ts满足:
其中:
dC为列集合C的不同取值的个数;
是一个选择函数,将T中C取值为ci的元组选择出来。
CN201910811714.3A 2019-08-30 2019-08-30 一种基于共享样本的在线聚集方法 Active CN110597857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910811714.3A CN110597857B (zh) 2019-08-30 2019-08-30 一种基于共享样本的在线聚集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910811714.3A CN110597857B (zh) 2019-08-30 2019-08-30 一种基于共享样本的在线聚集方法

Publications (2)

Publication Number Publication Date
CN110597857A true CN110597857A (zh) 2019-12-20
CN110597857B CN110597857B (zh) 2023-03-24

Family

ID=68856719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910811714.3A Active CN110597857B (zh) 2019-08-30 2019-08-30 一种基于共享样本的在线聚集方法

Country Status (1)

Country Link
CN (1) CN110597857B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380250A (zh) * 2020-10-15 2021-02-19 复旦大学 近似查询处理中的样本调节系统
CN113064912A (zh) * 2021-03-24 2021-07-02 西安热工研究院有限公司 一种dcs后台快速查询历史告警信息的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663116A (zh) * 2012-04-11 2012-09-12 中国人民大学 面向列存储数据仓库的多维olap查询处理方法
CN105447021A (zh) * 2014-08-22 2016-03-30 国际商业机器公司 用于数据库查询的方法和系统
CN106372177A (zh) * 2016-08-30 2017-02-01 东华大学 支持混合数据类型的关联查询及模糊分组的查询扩展方法
WO2018157765A1 (zh) * 2017-03-02 2018-09-07 华为技术有限公司 数据库系统中对象的编码及运算方法与数据库服务器
CN108920543A (zh) * 2018-06-13 2018-11-30 珠海格力电器股份有限公司 查询和交互的方法及装置、计算机装置、存储介质
CN109308303A (zh) * 2018-09-19 2019-02-05 北京服装学院 一种基于马尔可夫链的多表连接在线聚集方法
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663116A (zh) * 2012-04-11 2012-09-12 中国人民大学 面向列存储数据仓库的多维olap查询处理方法
CN105447021A (zh) * 2014-08-22 2016-03-30 国际商业机器公司 用于数据库查询的方法和系统
CN106372177A (zh) * 2016-08-30 2017-02-01 东华大学 支持混合数据类型的关联查询及模糊分组的查询扩展方法
WO2018157765A1 (zh) * 2017-03-02 2018-09-07 华为技术有限公司 数据库系统中对象的编码及运算方法与数据库服务器
CN108920543A (zh) * 2018-06-13 2018-11-30 珠海格力电器股份有限公司 查询和交互的方法及装置、计算机装置、存储介质
CN109308303A (zh) * 2018-09-19 2019-02-05 北京服装学院 一种基于马尔可夫链的多表连接在线聚集方法
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
申金鑫: "面向空间在线分析的并行近似聚集查询", 《计算机科学与探索》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380250A (zh) * 2020-10-15 2021-02-19 复旦大学 近似查询处理中的样本调节系统
CN113064912A (zh) * 2021-03-24 2021-07-02 西安热工研究院有限公司 一种dcs后台快速查询历史告警信息的方法

Also Published As

Publication number Publication date
CN110597857B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN109669934B (zh) 一种切合电力客服业务的数据仓库系统及其构建方法
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
US7814091B2 (en) Multi-tiered query processing techniques for minus and intersect operators
US6947927B2 (en) Method and apparatus for exploiting statistics on query expressions for optimization
US20120117054A1 (en) Query Analysis in a Database
US20070233648A1 (en) Execution cost reduction of sampled queries in a database
US20080021868A1 (en) Apparatus and method for optimizing a computer database query that fetches n rows
US20080288444A1 (en) Evaluating Multi-Table Join Selectivity in a Computer Database
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN106599052B (zh) 一种基于Apache Kylin的数据查询系统及其方法
Wagner et al. Top-k linked data query processing
CN110597857B (zh) 一种基于共享样本的在线聚集方法
CN108536808A (zh) 一种基于Spark计算框架的数据获取方法和装置
JP6159908B1 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN110569289A (zh) 基于大数据的列数据处理方法、设备及介质
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
US20050021287A1 (en) Computing frequent value statistics in a partitioned relational database
CN110019380B (zh) 一种数据查询方法、装置、服务器及存储介质
WO2021232645A1 (zh) 一种提升聚合查询效率的聚合索引结构及聚合索引方法
US11625399B2 (en) Methods and devices for dynamic filter pushdown for massive parallel processing databases on cloud
US9378229B1 (en) Index selection based on a compressed workload
EP2082317A2 (en) System and method for distributing queries to a group of databases and expediting data access
CN110704515B (zh) 基于MapReduce模型的两阶段在线化采样方法
US6421657B1 (en) Method and system for determining the lowest cost permutation for joining relational database tables
Taniar et al. Performance analysis of “Groupby-After-Join” query processing in parallel database systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant