CN108304449A - 基于自适应数据集划分方式的大数据Top-k查询方法 - Google Patents

基于自适应数据集划分方式的大数据Top-k查询方法 Download PDF

Info

Publication number
CN108304449A
CN108304449A CN201711305053.4A CN201711305053A CN108304449A CN 108304449 A CN108304449 A CN 108304449A CN 201711305053 A CN201711305053 A CN 201711305053A CN 108304449 A CN108304449 A CN 108304449A
Authority
CN
China
Prior art keywords
data
data set
zone
hyperplane
cut points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711305053.4A
Other languages
English (en)
Other versions
CN108304449B (zh
Inventor
徐维祥
赵博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201711305053.4A priority Critical patent/CN108304449B/zh
Publication of CN108304449A publication Critical patent/CN108304449A/zh
Application granted granted Critical
Publication of CN108304449B publication Critical patent/CN108304449B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于自适应数据集划分方式的大数据Top‑k查询方法,包括以下步骤:对系统进行初始化操作,构建超平面簇及数据集;对数据集进行自适应划分,获得稳定的k‑切割点;对所述数据集进行Top‑k排序查询;自适应调整系统数据集并建立常用数据集。本发明中提供一种基于自适应数据集划分方式的大数据Top‑k查询方法,该方法适用于云环境下的大数据Top‑k查询,通过对数据集进行自适应划分,降低了查询的数据量,提高了查询速度,并对系统的数据集进行自适应调整,建立常用数据集,能够进一步减少数据集读取次数,提高查询效率。

Description

基于自适应数据集划分方式的大数据Top-k查询方法
技术领域
本发明涉及Top-k查询方法。更具体地,涉及一种基于自适应数据集划分方式的大数据Top-k查询方法。
背景技术
随着数据量的增大,分布式Top-k查询越来越受到关注。分布式Top-k(前k项)查询是由中心计算节点通过汇聚分布在不同地理位置的数据列表,计算出全局汇聚值最大的前k个对象及汇聚值。其中数据列表的每一项都是一个数据对<对象,对象值>,数据对中的对象和对象值都包含有数据提供方的敏感信息。分布式Top-k查询计算在网络和系统监控、信息采集、传感器网络、P2P系统以及数据流控制系统等技术领域都有广泛的应。
从数据划分的方式来看,分布式环境下的Top-k问题可以归纳为垂直划分和水平划分两大类。所谓的垂直划分是数据按属性进行划分,类似于关系数据库的列存储方式,早期的分布式Top-k查询研究多使用这种划分方式。围绕着Top-k查询问题,近些年来开展了很多有益的研究工作。但是关系数据库以及传统的分布式环境都很难有效应对大数据环境下的Top-k查询,主要原因在于数据对象及处理方法产生了很大的变化
目前,大数据环境主要涉及到云环境,云环境下数据划分的基本原则是:尽可能地将数据均匀地划分到各个服务器上。这种均匀不仅体现在数据量的均匀上,更重要的是面对特定应用时,这种划分能够尽可能地保证每个服务器上的数据对最后结果均有贡献。进一步地,在Top-k领域具有代表性的水平划分方式有如下几种:随机划分、基于网格、基于角度和基于超平面。云环境下的大数据Top-k查询面临着新的挑战。Top-k问题在MapReduce框架下有很直接的解决方案,即利用MapReduce进行数据排序再返回前k个值。这种方案既符合MapReduce批处理的特点,也容易实现,但其最大的缺点就是处理时间过长。每次到来一个新的查询,就要对全部数据进行一次处理,数据量巨大和查询频繁时该方法均不可取。
因此,需要提供一种基于自适应数据集划分方式的大数据Top-k查询方法。
发明内容
本发明的目的在于提供一种基于自适应数据集划分方式的大数据Top-k查询方法。
为达到上述目的,本发明采用下述技术方案:
一种基于自适应数据集划分方式的大数据Top-k查询方法,包括以下步骤:
S1:对系统进行初始化操作,构建超平面簇及数据集;
S2:对数据集进行自适应划分,获得稳定的k-切割点;
S3:对所述数据集进行Top-k排序查询;
S4:自适应调整系统数据集并建立常用数据集。
优选地,步骤S1包括:
S101:设用户查询请求中第j个元素分配的请求权重值为pj,各pj组合成的列向量为P,且
S102:设第j维属性变量为yj,各yj组合成的列向量为Y,且
YT=[y1,y2,y3,…];
S103:根据查询请求权重向量P构建超平面簇F,且
F=YT*P;
S104:确定数据集维度为N,数据集数据为xij
进一步优选地,步骤S2包括:
S201:获取数据集各维度的最大值为pjmax,确定数据集空间,并将各维度向固定区间[0,10]进行映射;其中,设最大值点为M0,且M0=(xmax,1,xmax,2,xmax,3,…)为初始点;
S202:建立虚拟坐标系,设坐标轴数量为N,将全部数据置于坐标系中;
S203:定义k-切割点M:设M=(m1,m2,m3,…,mj,…),在N维数据集中,k-切割点M是沿任一维度坐标轴作平行线,将数据集空间切割为2N个,且k-切割点M各维度坐标比例固定,被分割的数据集出现3种区域;
S204:使用变速步长搜索合适的M,使各维度直线切割组成的热区数据包含k个数据点,保证在任何查询请求权重值情况下,存在至少k个在超平面外数据;
S205:变速步长搜索法获得稳定的k-切割点。
进一步优选地,被分割的数据集出现3种区域包括:热区、冷区和其他区域,其中,
热区的任何数据点都在超平面簇与坐标轴正方向围成的空间外;
冷区的任何数据点都在超平面簇与坐标轴正方向围成的空间内;
其他区域为数据集中除去冷区和热区以外的区域。
优选地,pj的列向量形式为PT=[p1,p2,p3,…],对1,若用户输入权重不在(0,1)区间内,将其映射到(0,1)区间内。
优选地,变速步长搜索法包括:
(1)设置初始步长ho,步长变化率v,收敛强度s≥1,初始点为M0=(xmax,1,xmax,2,xmax,3,…),将各维度坐标映射到(0,100)范围内;
(2)令i=0,hi=h0,Mi+1=Mi-hi,数据集存在一个数据点,各项属性值均大于Mi+1,并存储该部分数据;
(3)若l>s*k,则执行步骤(4);若k<l<s*k,则计算结束,获得稳定的k-切割点;若l<k,则执行步骤(5);
(4)令i=i+1,hi=v*hi,Mi+1=Mi+hi,返回步骤(3);
(5)令i=i+1,hi=v*hi,Mi+1=Mi-hi,返回步骤(3)
优选地,初始步长ho=10,收敛强度s≥1。
优选地,步骤S3包括:
S301:接受查询请求信息,根据请求维度权重P,构建超平面簇:YT*P=F;带入k-切割点,确定对应该请求的超平面YT*P=Fi
S302:根据查询请求权重值向量,计算冷区数据以外的数据评价得分,使用Top-k查询算法进行排序查询。
进一步优选地,步骤S4包括:
S401:针对数据变动频繁的数据集,数据分割状态与k-切割点M根据数据集新数据的增加进行调整。
S402:创建输出结果的历史记录集,对每次被输出的数据点进行保存,并且记录其被输出次数,经过n次查询,结果接近收敛,此时历史记录集作为TOP-k常用数据集,减少使用次数;
S403:记录每次输出时的超平面系数向量与对应k-切割点。
进一步优选地,根据数据集新数据的增加进行调整包括:
(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较:
若该数据对都有pj-new≥pj-M,则该数据点落在热区数据范围内;
若该数据对都有pj-new≤pj-M,则该数据点落在冷区数据范围内;
否则,该数据点落在其他区域数据范围内;
(2)若热区数据数量增加超过该区数据总量的预定阈值,则返回步骤S205继续变速步长搜索直到满足其收敛条件。
本发明的有益效果如下:
本发明中提供一种基于自适应数据集划分方式的大数据Top-k查询方法,该方法适用于云环境下的大数据Top-k查询,通过对数据集进行自适应划分,降低了查询的数据量,提高了查询速度,并对系统的数据集进行自适应调整,建立常用数据集,能够进一步减少数据集读取次数,提高查询效率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1示出自适应数据集划分方式的top-k排序查询方法流程图。
图2示出二维条件下,K-切割点定义图示。
图3示出变步长搜索法流程图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
本发明提供一种基于自适应数据集划分方式的大数据Top-k查询方法,包括以下步骤:
S1:对系统进行初始化操作,构建超平面簇及数据集。
S101:设用户查询请求中第j个元素分配的请求权重值为pj,各pj组合成的列向量为P,且
S102:设第j维属性变量为yj,各yj组合成的列向量为Y,且
YT=[y1,y2,y3,…];
S103:根据查询请求权重向量P构建超平面簇F,且
F=YT*P;
S104:确定数据集维度为N,数据集数据为xij
S2:对数据集进行自适应划分,获得稳定的k-切割点。
S201:获取数据集各维度的最大值为pjmax,确定数据集空间,并将各维度向固定区间[0,10]进行映射;其中,设最大值点为M0,且M0=(xmax,1,xmax,2,xmax,3,…)为初始点;
S202:建立虚拟坐标系,设坐标轴数量为N,将全部数据置于坐标系中;
S203:定义k-切割点M:设M=(m1,m2,m3,…,mj,…),在N维数据集中,k-切割点M是沿任一维度坐标轴作平行线,将数据集空间切割为2N个,且k-切割点M各维度坐标比例固定,被分割的数据集出现3种区域;
S204:使用变速步长搜索合适的M,使各维度直线切割组成的热区数据包含k个数据点,保证在任何查询请求权重值情况下,存在至少k个在超平面外数据;
S205:变速步长搜索法获得稳定的k-切割点。
本发明中,被分割的数据集出现3种区域包括:热区、冷区和其他区域,其中,热区的任何数据点都在超平面簇与坐标轴正方向围成的空间外;冷区的任何数据点都在超平面簇与坐标轴正方向围成的空间内;其他区域为数据集中除去冷区和热区以外的区域。
pj的列向量形式为PT=[p1,p2,p3,…],对有pj∈(0,1),∑pj=1,若用户输入权重不在(0,1)区间内,将其映射到(0,1)区间内。
变速步长搜索法包括:
(1)设置初始步长ho,步长变化率v,收敛强度s≥1,初始点为M0=(xmax,1,xmax,2,xmax,3,…),将各维度坐标映射到(0,100)范围内;
(2)令i=0,hi=h0,Mi+1=Mi-hi,数据集存在一个数据点,各项属性值均大于Mi+1,并存储该部分数据;
(3)若l>s*k,则执行步骤(4);若k<l<s*k,则计算结束,获得稳定的k-切割点;若l<k,则执行步骤(5);
(4)令i=i+1,hi=v*hi,Mi+1=Mi+hi,返回步骤(3);
(5)令i=i+1,hi=v*hi,Mi+1=Mi-hi,返回步骤(3)
其中,初始步长ho=10,收敛强度s≥1。
S3:对所述数据集进行Top-k排序查询。
S301:接受查询请求信息,根据请求维度权重P,构建超平面簇:YT*P=F;带入k-切割点,确定对应该请求的超平面YT*P=Fi
S302:根据查询请求权重值向量,计算冷区数据以外的数据评价得分,使用Top-k查询算法进行排序查询。
S4:自适应调整系统数据集并建立常用数据集。
S401:针对数据变动频繁的数据集,数据分割状态与k-切割点M根据数据集新数据的增加进行调整。
S402:创建输出结果的历史记录集,对每次被输出的数据点进行保存,并且记录其被输出次数,经过n次查询,结果接近收敛,此时历史记录集作为TOP-k常用数据集,减少使用次数;
S403:记录每次输出时的超平面系数向量与对应k-切割点。
根据数据集新数据的增加进行调整包括:
(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较:
若该数据对都有pj-new≥pj-M,则该数据点落在热区数据范围内;
若该数据对都有pj-new≤pj-M,则该数据点落在冷区数据范围内;
否则,该数据点落在其他区域数据范围内;
(2)若热区数据数量增加超过该区数据总量的预定阈值,则返回步骤S205继续变速步长搜索直到满足其收敛条件。
下面结合一个具体实施例进行说明
针对大部分Top-k用户请求中请求权重值都大于0,数据集中的属性值为正值,因此本发明主要解决以上情况的Top-k大数据查询问题,存在负值情况可以通过特定方法进行转化。
1、设pj表示用户查询请求中第j个元素分配的请求权重值,pj的列向量形式为PT=[p1,p2,p3,…],对有pj∈(0,1),∑pj=1,实际应用中如果用户输入权重不在(0,1)区间内,需要先将其映射到[0,1]区间内;大部分Top-k用户请求中请求权重值都大于0。
2、设第j维属性变量为yj,Y为各yj组合成的列向量,YT=[y1,y2,y3,…]。
3、设超平面簇YT*P=F为根据查询请求权重向量P所构建的超平面簇,其中F为未知参量,将任意数据点带入,可求得F取值,并确定该查询请求下的超平面表达式YT*P=Frequest-i
4、确定数据集维度为N,设数据集数据为xij
5、如图2所示,获取数据集各维度的最大值pjmax,确定数据集空间(DataSetSpace),并将各维度向固定区间[0,10]映射;设M0=(xmax,1,xmax,2,xmax,3,…)最大值点,数据集中不一定存在最大值点,将最大值点M0=(xmax,1,xmax,2,xmax,3,…)作为初始点。
6、建立虚拟坐标系,坐标轴数量为N,将全部数据置于坐标系中。
7、定义k-切割点M:设M=(m1,m2,m3,…,mj,…),在N维数据集中,k-切割点M是沿任一维度坐标轴作平行线,将数据集空间切割为2N个,且k-切割点M各维度坐标比例固定,即可将k-切割点M视为原点O到最大值点M0连线上一点,在该连线上移动,任意穿过k-切割点的超平面组成的超平面簇,且受查询权重值的制约:对有pj∈(0,1),∑pj=1,会使被分割的数据集出现3种区域:
(1)任何数据点都在超平面簇与坐标轴正方向围成的空间外,该部分成为“热区”,热区数据在所有基于当下k-切割点M的Top-k查询中都有很大影响;
(2)任何数据点都在超平面簇与坐标轴正方向围成的空间外,该部分成为“冷区”,冷区数据在所有基于当下k-切割点M的Top-k查询中影响都很小,几乎不进入Top-k排序数据范围。
8、使用变速步长搜索合适的M,使各维度直线切割组成的热区数据包含k个数据点,保证在任何查询请求权重值情况下,存在至少k个在超平面外数据供Top-k查询方法使用。
9、如图3所示,变速步长搜索包括:
(1)设置初始步长ho,通常取10,步长变化率v,收敛强度s≥1,一般取值为在(1.5,2)区间上,初始点为M0=(xmax,1,xmax,2,xmax,3,…),将各维度坐标映射到(0,100)范围内,;
(2)i=0,hi=h0,Mi+1=Mi-hi,数据集存在l个数据点,各项属性值均大于Mi+1,并存储该部分数据;
(3)判定:若l>s*k,进入步骤(4),若k<l<s*k,算法结束,获得稳定的k-切割点,若l<k,则进入步骤(5);
(4)i=i+1,hi=v*hi,Mi+1=Mi+hi,返回步骤(3);
(5)i=i+1,hi=v*hi,Mi+1=Mi-hi,返回步骤(3)。
10、针对数据变动频繁的数据集,数据分割状态与k-切割点M需要根据数据集新数据的增加进行调整,过程如下:
(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较,
a.若该数据对都有pj-new≥pj-M,则该数据点落在“热区”数据范围内;
b.若该数据对都有pj-new≤pj-M,则该数据落在“冷区”数据范围内;
c.若不是以上两种情况,数据点成为其他数据区域;
(2)以上三种情况中,当情况热区数据数量增加超过该区数据总量的20%,则返回继续变速步长搜索知道满足条件。
11、对已划分的数据去除“冷区”数据后,进行Top-k排序。
12、接受查询请求信息,根据请求维度权重P,构建超平面簇:
YT*P=F。
13、带入k-切割点,确定对应该请求的超平面YT*P=Fi
14、创建k*N+1列表,N为维度总数,分别计算A区数据在权重向量P下的得分,每次计算之后,将数据逐一置入列表中,列表按照得分升序排列。当列表中数据超过k个时,每次计算得分与列表中第一位数据得分相比较,如果新得分高,按照顺序依次向后比较得分,直到遇到分数更高的数据或者到达列表最后一位停止;如果得分比第一位数据低,则抛弃该数据,继续计算到数据全部计算完毕,停止Top-k方法。
15、所有节点结果共同发送至汇总任务分配节点,将多个Top-k结果得分统一比较,得到最终的Top-k结果,发送至用户。
16、创建输出结果的历史记录集,对每次被输出的数据点进行保存,并且记录其被输出次数,经过n次查询,结果接近收敛,此时历史记录集作为TOP-k常用数据集,减少使用次数。
17、记录每次输出时的超平面系数向量与对应k-切割点。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.一种基于自适应数据集划分方式的大数据Top-k查询方法,其特征在于,包括以下步骤:
S1:对系统进行初始化操作,构建超平面簇及数据集;
S2:对数据集进行自适应划分,获得稳定的k-切割点;
S3:对所述数据集进行Top-k排序查询;
S4:自适应调整系统数据集并建立常用数据集。
2.根据权利要求1所述的大数据Top-k查询方法,其特征在于,所述步骤S1包括:
S101:设用户查询请求中第j个元素分配的请求权重值为pj,各pj组合成的列向量为P,且
S102:设第j维属性变量为yj,各yj组合成的列向量为Y,且
YT=[y1,y2,y3,…];
S103:根据查询请求权重向量P构建超平面簇F,且
F=YT*P;
S104:确定数据集维度为N,数据集数据为xij
3.根据权利要求2所述的大数据Top-k查询方法,其特征在于,所述步骤S2包括:
S201:获取数据集各维度的最大值为pjmax,确定数据集空间,并将各维度向固定区间[0,10]进行映射;其中,设最大值点为M0,且M0=(xmax,1,xmax,2,xmax,3,…)为初始点;
S202:建立虚拟坐标系,设坐标轴数量为N,将全部数据置于坐标系中;
S203:定义k-切割点M:设M=(m1,m2,m3,…,mj,…),在N维数据集中,k-切割点M是沿任一维度坐标轴作平行线,将数据集空间切割为2N个,且k-切割点M各维度坐标比例固定,被分割的数据集出现3种区域;
S204:使用变速步长搜索合适的M,使各维度直线切割组成的热区数据包含k个数据点,保证在任何查询请求权重值情况下,存在至少k个在超平面外数据;
S205:变速步长搜索法获得稳定的k-切割点。
4.根据权利要求3所述的大数据Top-k查询方法,其特征在于,所述被分割的数据集出现3种区域包括:热区、冷区和其他区域,其中,
热区的任何数据点都在超平面簇与坐标轴正方向围成的空间外;
冷区的任何数据点都在超平面簇与坐标轴正方向围成的空间内;
其他区域为数据集中除去冷区和热区以外的区域。
5.根据权利要求3所述的大数据Top-k查询方法,其特征在于,所述pj的列向量形式为PT=[p1,p2,p3,…],对有pj∈(0,1),∑pj=1,若用户输入权重不在(0,1)区间内,将其映射到(0,1)区间内。
6.根据权利要求3所述的大数据Top-k查询方法,其特征在于,所述变速步长搜索法包括:
(1)设置初始步长ho,步长变化率v,收敛强度s≥1,初始点为M0=(xmax,1,xmax,2,xmax,3,…),将各维度坐标映射到(0,100)范围内;
(2)令i=0,hi=h0,Mi+1=Mi-hi,数据集存在一个数据点,各项属性值均大于Mi+1,并存储该部分数据;
(3)若l>s*k,则执行步骤(4);若k<l<s*k,则计算结束,获得稳定的k-切割点;若l<k,则执行步骤(5);
(4)令i=i+1,hi=v*hi,Mi+1=Mi+hi,返回步骤(3);
(5)令i=i+1,hi=v*hi,Mi+1=Mi-hi,返回步骤(3)
7.根据权利要求6所述的大数据Top-k查询方法,其特征在于,所述初始步长ho=10,收敛强度s≥1。
8.根据权利要求4所述的大数据Top-k查询方法,其特征在于,所述步骤S3包括:
S301:接受查询请求信息,根据请求维度权重P,构建超平面簇:YT*P=F;带入k-切割点,确定对应该请求的超平面YT*P=Fi
S302:根据查询请求权重值向量,计算冷区数据以外的数据评价得分,使用Top-k查询算法进行排序查询。
9.根据权利要求8所述的大数据Top-k查询方法,其特征在于,所述步骤S4包括:
S401:针对数据变动频繁的数据集,数据分割状态与k-切割点M根据数据集新数据的增加进行调整。
S402:创建输出结果的历史记录集,对每次被输出的数据点进行保存,并且记录其被输出次数,经过n次查询,结果接近收敛,此时历史记录集作为TOP-k常用数据集,减少使用次数;
S403:记录每次输出时的超平面系数向量与对应k-切割点。
10.根据权利要求9所述的大数据Top-k查询方法,其特征在于,所述根据数据集新数据的增加进行调整包括:
(1)进入数据的各维度属性数据与k-切割点M的各维度属性数据比较:
若该数据对都有pj-new≥pj-M,则该数据点落在热区数据范围内;
若该数据对都有pj-new≤pj-M,则该数据点落在冷区数据范围内;
否则,该数据点落在其他区域数据范围内;
(2)若热区数据数量增加超过该区数据总量的预定阈值,则返回步骤S205继续变速步长搜索直到满足其收敛条件。
CN201711305053.4A 2017-12-11 2017-12-11 基于自适应数据集划分方式的大数据Top-k查询方法 Expired - Fee Related CN108304449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711305053.4A CN108304449B (zh) 2017-12-11 2017-12-11 基于自适应数据集划分方式的大数据Top-k查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711305053.4A CN108304449B (zh) 2017-12-11 2017-12-11 基于自适应数据集划分方式的大数据Top-k查询方法

Publications (2)

Publication Number Publication Date
CN108304449A true CN108304449A (zh) 2018-07-20
CN108304449B CN108304449B (zh) 2022-02-15

Family

ID=62870459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711305053.4A Expired - Fee Related CN108304449B (zh) 2017-12-11 2017-12-11 基于自适应数据集划分方式的大数据Top-k查询方法

Country Status (1)

Country Link
CN (1) CN108304449B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022011851A1 (zh) * 2020-07-16 2022-01-20 深圳计算科学研究院 度量空间划分方式评价方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1659509A2 (en) * 2004-11-22 2006-05-24 AT&T Corp. Adaptive processing of top-k queries in nested-structure arbitrary mark-up language such as XML
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1659509A2 (en) * 2004-11-22 2006-05-24 AT&T Corp. Adaptive processing of top-k queries in nested-structure arbitrary mark-up language such as XML
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOLIN DING等: "Efficient Keyword-Based Search for Top-K Cells in Text Cube", 《 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
慈祥等: "一种云环境下的大数据Top-K查询方法", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022011851A1 (zh) * 2020-07-16 2022-01-20 深圳计算科学研究院 度量空间划分方式评价方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108304449B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN108052514B (zh) 一种处理地理文本Skyline查询的混合空间索引方法
CN106796589B (zh) 空间数据对象的索引方法和系统
CN106503196B (zh) 云环境下可扩展存储索引结构的构建和查询方法
CN110119408A (zh) 地理空间实时流数据下移动对象连续查询方法
CN107656989B (zh) 云存储系统中基于数据分布感知的近邻查询方法
CN103336970B (zh) 基于多子树的分布式图像训练及检索方法
CN104809210B (zh) 一种基于分布式计算框架下海量数据加权top‑k查询方法
KR101255639B1 (ko) 컬럼 기반 데이터베이스 시스템 및 데이터베이스 시스템의 조인 인덱스를 이용한 조인 처리 방법
CN108304449A (zh) 基于自适应数据集划分方式的大数据Top-k查询方法
CN110334290A (zh) 一种基于MF-Octree的时空数据快速检索方法
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
Zhang et al. Maximizing range sum in trajectory data
Ding et al. Efficient probabilistic skyline query processing in mapreduce
KR20180077728A (ko) 쿼드 트리에 기반한 스카이라인 질의 방법
Fan et al. DEXIN: A fast content-based multi-attribute event matching algorithm using dynamic exclusive and inclusive methods
Gu et al. An Efficient Method for k Nearest Neighbor Searching in Obstructed Spatial Databases.
Arefin et al. A Spatial Skyline Query for a Group of Users.
Patel et al. Study and analysis of particle swarm optimization for improving partition clustering
CN108491541A (zh) 一种应用于分布式的多维数据库联合查询方法及系统
AbdulAzeem et al. A framework for ranking uncertain distributed database
US20210004378A1 (en) K-Nearest Neighbour Spatial Queries on a Spatial Database
CN103778195B (zh) 一种空间数据库中排序反向轮廓查询方法
CN104391866A (zh) 一种基于高维数据过滤器的近似成员查询方法
CN104951501A (zh) 一种基于粒子群算法的大数据智能搜索算法
Jin et al. An Improved Differentially Private DBScan Clustering Algorithm for Vehicular Crowdsensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220215