CN108959521A - 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统 - Google Patents

基于n-of-N流模型的不确定轮廓查询并行处理方法及系统 Download PDF

Info

Publication number
CN108959521A
CN108959521A CN201810688992.XA CN201810688992A CN108959521A CN 108959521 A CN108959521 A CN 108959521A CN 201810688992 A CN201810688992 A CN 201810688992A CN 108959521 A CN108959521 A CN 108959521A
Authority
CN
China
Prior art keywords
flow data
data tuple
new
tuple
calculate node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810688992.XA
Other languages
English (en)
Other versions
CN108959521B (zh
Inventor
李小勇
刘军
李小玲
任开军
邓科峰
任小丽
赵娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810688992.XA priority Critical patent/CN108959521B/zh
Publication of CN108959521A publication Critical patent/CN108959521A/zh
Application granted granted Critical
Publication of CN108959521B publication Critical patent/CN108959521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于n‑of‑N流模型的不确定轮廓查询并行处理方法及系统,本发明针对大规模不确定数据流的高效n‑of‑N轮廓查询,将对全局滑动窗口中的数据元组查询处理的任务,按一定的任务映射规则划分为多个本地局部滑动窗口,并且将本地局部滑动窗口的查询处理任务分散交付给多个计算节点,所有计算节点对各自局部滑动窗口进行并行查询处理,当完成对所有数据元组处理后返回查询结果。本发明能够实现计算节点间的负载均衡、最大化并行效率、支持大规模计算节点数目的并行查询、实现高效的n‑of‑N查询并行处理。

Description

基于n-of-N流模型的不确定轮廓查询并行处理方法及系统
技术领域
本发明涉及基于n-of-N流模型的轮廓查询并行处理技术,具体涉及一种基于n-of-N流模型的不确定轮廓查询并行处理方法及系统,适合于多目标决策制定、市场分析、数据挖掘、推荐系统、环境监控、计量经济学等应用领域。
背景技术
不确定流数据是指数值无法直接准确确定的一类流数据的总称,它存在于诸如基于位置的服务、无线射频识别(RFID)网络、商品交易网络、雷达监测系统等众多实际应用中,对不确定数据流进行高效复杂查询分析已成为当前大数据分析领域的重点研究方向,在现实生活中具有极其重要的意义。
轮廓查询(即Skyline查询)通常也被称为Pareto最优查询,其实质上是一个典型的多目标优化问题。轮廓查询是指从给定的一个d维空间的对象集合S中选择一个子集,该子集中的点均不能被S中的其他的点所支配,满足此条件的点称为SP(Skyline Point)。这里特别指出,对于两个拥有d维属性的数据元组P和Q,若元组P的每一维属性都不比Q差,则称P支配Q。Skyline查询作为解决多标准决策的一种有效方法,是不确定数据流上的一种重要查询操作,在诸如金融领域、传感器网络、Web事务日志分析和军事领域等众多现实应用中发挥着重要作用。目前不确定数据流查询研究主要采用滑动窗口模型,该模型主要关注于最近若干个数据对象上的查询。以基于计数的滑动窗口为例,通常查询主要关注于最近个元组的查询处理。然而,不同的用户可能同时对该数据流进行查询,且不同用户的查询需求往往不同,可能需要同时考察在不同滑动窗口范围内的Skyline查询结果。因此,为用户的Skyline查询提供高度的灵活性是必要的,在现实生活中具有重要的意义。
n-of-N流模型是一个能够在任意n(n<=N)个最近对象上进行查询操作的数据流模型,其中N表示包含最近N个对象的当前滑动窗口,n(n<=N)表示最近的n个对象(包含在有个对象的滑动窗口之内)。大小为N的滑动窗口只是n=N时的一个特例。基于n-of-N流模型的不确定数据流轮廓查询可支持用户对于不同数据流滑动窗口范围的查询,能够极大地提高轮廓查询的灵活性和实用性。然而,现有的不确定数据流n-of-N轮廓查询方法主要面向集中式处理环境设计实现,无法满足大规模不确定数据流的实时查询处理需求,迫切需要研究一种基于n-of-N流模型的高效不确定轮廓查询并行处理方法。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于n-of-N流模型的不确定轮廓查询并行处理方法及系统,本发明能够实现计算节点间的负载均衡、最大化并行效率、支持大规模计算节点数目的并行查询、实现高效的n-of-N查询并行处理。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于n-of-N流模型的不确定轮廓查询并行处理方法,实施步骤包括:
1)初始化全局滑动窗口DSN以及计算节点集合P中各个计算节点Pi对应的本地局部滑动窗口,判断是否有新的流数据元组到达,当有新的流数据元组到达时跳转执行步骤2);
2)根据W=W+enew-eold更新维护的全局滑动窗口DSN,其中W为全局滑动窗口DSN的大小,enew为新到达的流数据元组enew的大小,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold的大小;
3)将新到达的流数据元组enew映射至计算节点集合P中相应的计算节点Pi并告知已经确定的计算节点Pi
4)将新到达的流数据元组enew发送给计算节点集合P中除计算节点Pi以外的剩余计算节点Pj,各剩余计算节点Pj在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,并将它们发送至已经确定的计算节点Pi;其中支配的关系定义为:针对数据维度均为d的流数据元组s和流数据元组t而言,流数据元组s支配流数据元组t表示当且仅当流数据元组s的每一维属性值si都不大于流数据元组t中任意一维属性值ti,且至少存在一个小于或等于数据维度d的j使得流数据元组s的第j维属性值sj小于流数据元组t的第j维属性值tj
5)各个计算节点Pi分别根据Wi=Wi+enew-eold计算节点Pi更新本地局部滑动窗口,其中Wi为计算节点Pi的本地局部滑动窗口的大小,enew为新到达的流数据元组enew,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold
6)各个计算节点Pi对新到达的流数据元组enew进行n-of-N轮廓查询计算处理;
7)各个计算节点Pi更新本地候选集合,将本地候选集合中的任意流数据元组e进行映射,从而将n-of-N轮廓查询转化为刺探查询;
8)各个计算节点Pi针对转化得到的刺探查询,分别以红黑区间树RBI来组织刺探查询区间形成以刺探查询区间为节点的红黑树,单个刺探查询区间元素用结构体Inv包含三个属性:流数据元组Tuple、区间左端点Left以及区间右端点Right,且以M-n+1为刺入点在红黑区间树RBI上进行刺入查询,如果M-n+1∈(Left,Right],则刺探查询区间(Left,Right]的右端点对应的流数据元组即为n-of-N轮廓查询对象,最终得到各自的n-of-N轮廓查询对象集合,其中M为当前已到达的流数据元组数量,n为小于等于全局滑动窗口DSN的总长度N的待查询的最近数据元组数量;
9)各个计算节点Pi返回各自的n-of-N轮廓查询对象集合至查询结果收集节点。
优选地,步骤3)中将新到达的流数据元组enew映射至相应的计算节点Pi时,采用的映射函数如式(1)所示;
k(enew)%m=(i-1) (1)
式(1)中,k(enew)表示新到达的流数据元组enew的到达顺序编号,m为计算节点总数量,i为计算节点Pi的顺序编号。
优选地,步骤6)的详细步骤包括:各个计算节点Pi首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,然后将来自各剩余计算节点Pj发送的所有支配新到达的流数据元组enew的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组enew的流数据元组按到达的先后进行排序,最后利用排好序的流数据元组计算新到达的流数据元组enew的Skyline概率和刺探查询区间。
优选地,所述计算新到达的流数据元组enew的Skyline概率的函数表达式如式(2)所示;
式(2)中,Psky(e)为流数据元组e的Skyline概率,P(e)为流数据元组e的概率,a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e。
优选地,步骤7)的详细步骤包括:
7.1)各个计算节点Pi基于全局滑动窗口DSN生成初始的本地候选集合,各个计算节点Pi首先在本地候选集合中查找所有被流数据元组enew支配的流数据元组,所述本地候选集合初始为全局滑动窗口DSN的所有流数据元组,然后更新所有被流数据元组enew支配的流数据元组的刺探查询区间左端点,并将所有满足式(3)的流数据元组从本地候选集合中删除;
式(3)中,Pnew(e)为流数据元组e的Skyline概率中由全局滑动窗口DSN中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分,q为给定概率阈值且给定概率阈值q取值区间为[0,1],a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e,k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签;
7.2)各个计算节点Pi分别将本地候选集合中的任意流数据元组e映射到区间(k(a),k(e)],从而将n-of-N轮廓查询转化为刺探查询;其中k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签。
本发明还提供一种基于n-of-N流模型的不确定轮廓查询并行处理系统,包括计算机系统,其特征在于,所述计算机系统被编程以执行本发明基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。
本发明具有下述优点:本发明针对大规模不确定数据流的高效n-of-N轮廓查询,将对全局滑动窗口中的数据元组查询处理的任务,按一定的任务映射规则划分为多个本地局部滑动窗口,并且将本地局部滑动窗口的查询处理任务分散交付给多个计算节点,所有计算节点对各自局部滑动窗口进行并行查询处理,当完成对所有数据元组处理后返回查询结果,能达到以下有益效果:
1、负载均衡:本发明针对计算节点集合P中各个计算节点Pi设置的本地局部滑动窗口,每个计算节点可根据其综合计算能力处理相应的不确定数据元组数目,即滑动窗口划分的尺寸,有效地实现了计算节点间的负载均衡,提高了各计算节点的资源利用率。
2、最大化并行效率:本发明各个计算节点Pi对新到达的流数据元组enew进行n-of-N轮廓查询计算处理并独立更新所维护的局部候选集合,计算节点之间只有少量通信开销,因此本发明能实现最大化并行效率。
3)高效查询:本发明可支持大规模计算节点数目的并行查询,且查询时间随着计算节点数目的增加而显著减少,从而实现高效并行查询处理。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例采用的滑动窗口模型示意图。
图3为本发明实施例的并行查询节点拓扑结构示意图。
图4为本发明实施例方法针对不同计算节点数目的性能对比示意图。
图5为本发明实施例方法针对不同每次到达的元组数目的性能对比示意图。
图6为本发明实施例方法针对不同滑动窗口大小的性能对比示意图。
图7为本发明实施例方法针对不同数据维度的性能对比示意图。
图8为本发明实施例方法针对不同给定概率阈值的性能对比示意图。
具体实施方式
参见图1,本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的实施步骤包括:
1)初始化全局滑动窗口DSN以及计算节点集合P中各个计算节点Pi对应的本地局部滑动窗口,判断是否有新的流数据元组(不确定流数据的流数据元组)到达,当有新的流数据元组到达时跳转执行步骤2);
2)根据W=W+enew-eold更新维护的全局滑动窗口DSN,其中W为全局滑动窗口DSN的大小,enew为新到达的流数据元组enew的大小,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold的大小;
3)将新到达的流数据元组enew映射至计算节点集合P中相应的计算节点Pi并告知已经确定的计算节点Pi
4)将新到达的流数据元组enew发送给计算节点集合P中除计算节点Pi以外的剩余计算节点Pj,各剩余计算节点Pj在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,并将它们发送至已经确定的计算节点Pi;其中支配的关系定义为:针对数据维度均为d的流数据元组s和流数据元组t而言,流数据元组s支配流数据元组t表示当且仅当流数据元组s的每一维属性值si都不大于流数据元组t中任意一维属性值ti,且至少存在一个小于或等于数据维度d的j使得流数据元组s的第j维属性值sj小于流数据元组t的第j维属性值tj
5)各个计算节点Pi分别根据Wi=Wi+enew-eold计算节点Pi更新本地局部滑动窗口,其中Wi为计算节点Pi的本地局部滑动窗口的大小,enew为新到达的流数据元组enew,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold
6)各个计算节点Pi对新到达的流数据元组enew进行n-of-N轮廓查询计算处理;
7)各个计算节点Pi更新本地候选集合SN,q,将本地候选集合SN,q中的任意流数据元组e进行映射,从而将n-of-N轮廓查询转化为刺探查询;
8)各个计算节点Pi针对转化得到的刺探查询,分别以红黑区间树RBI来组织刺探查询区间形成以刺探查询区间为节点的红黑树,单个刺探查询区间元素用结构体Inv包含三个属性:流数据元组Tuple、区间左端点Left以及区间右端点Right,且以M-n+1为刺入点在红黑区间树RBI上进行刺入查询,如果M-n+1∈(Left,Right],则刺探查询区间(Left,Right]的右端点对应的流数据元组即为n-of-N轮廓查询对象,最终得到各自的n-of-N轮廓查询对象集合,其中M为当前已到达的流数据元组数量,n为小于等于全局滑动窗口DSN的总长度N的待查询的最近数据元组数量;
9)各个计算节点Pi返回各自的n-of-N轮廓查询对象集合至查询结果收集节点。
参见图2,本实施例中采用了滑动窗口模型,图中N=12的滑动窗口模型的原始对象为1~12,当新的流数据元组13到达后,则流数据元组1过期。全局滑动窗口DSN以及计算节点集合P中各个计算节点Pi对应的本地局部滑动窗口均为基于计数的滑动窗口,因而活跃的流数据数目是固定的,即当滑动窗口已满时,若有r个新的元组到达,则必有r个元组过期。此外,全局滑动窗口DSN、本地局部滑动窗口中的流数据元组按先到先服务的原则进行处理,即按照FIFO依次处理,并且先到达的数据元组最先处理和过期。
参见图3,本实施例的前述步骤1)~步骤9)中,步骤1)~步骤4)主要基于管理节点完成,步骤4)~步骤9)则为各个计算节点Pi的工作任务,最终由查询结果收集节点得到最终的基于n-of-N流模型的不确定轮廓查询结果。
本实施例中,步骤3)中将新到达的流数据元组enew映射至相应的计算节点Pi时,采用的映射函数如式(1)所示;
k(enew)%m=(i-1) (1)
式(1)中,k(enew)表示新到达的流数据元组enew的到达顺序编号,m为计算节点总数量,i为计算节点Pi的顺序编号。
针对数据维度均为d的流数据元组s和流数据元组t而言,假定它们在第i(i<=d)维的属性值为si和ti,参见步骤4)中针对流数据元组的支配关系定义,将流数据元组s支配流数据元组t记作s<t,则有:当且仅当流数据元组s的每一维属性值si都不大于流数据元组t中任意一维属性值ti,且至少存在一个小于或等于数据维度d的j(j<=d)使得流数据元组s的第j维属性值sj小于流数据元组t的第j维属性值tj
本实施例中,步骤6)的详细步骤包括:各个计算节点Pi首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,然后将来自各剩余计算节点Pj发送的所有支配新到达的流数据元组enew的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组enew的流数据元组按到达的先后进行排序,最后利用排好序的流数据元组计算新到达的流数据元组enew的Skyline概率和刺探查询区间。
新到达的流数据元组enew的Skyline概率,即为全局滑动窗口DSN中的流数据元组enew成为Skyline的概率。本实施例中,计算新到达的流数据元组enew的Skyline概率的函数表达式如式(2)所示;
式(2)中,Psky(e)为流数据元组e的Skyline概率,P(e)为流数据元组e的概率,a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e。
本实施例中,步骤7)的详细步骤包括:
7.1)各个计算节点Pi基于全局滑动窗口DSN生成初始的本地候选集合SN,q,各个计算节点Pi首先在本地候选集合SN,q中查找所有被流数据元组enew支配的流数据元组,本地候选集合初始为全局滑动窗口DSN的所有流数据元组,然后更新所有被流数据元组enew支配的流数据元组的刺探查询区间左端点,并将所有满足式(3)的流数据元组从本地候选集合中删除;
式(3)中,Pnew(e)为流数据元组e的Skyline概率中由全局滑动窗口DSN中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分,q为给定概率阈值且给定概率阈值q取值区间为[0,1],a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e,k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签;本实施例中,将全局滑动窗口DSN中所有Skyline概率大于等于给定概率阈值q的对象构成的集合称为q-Skyline,计算n-of-N流模型上不确定数据流的q-Skyline需要为每一个局部滑动窗口维护一个本地候选集合,然后将本地候选集合中的流数据元组e映射到区间(k(a),k(e)]上,从而将n-of-N轮廓查询转化为刺探查询;
7.2)各个计算节点Pi分别将本地候选集合SN,q中的任意流数据元组e映射到区间(k(a),k(e)],从而将n-of-N轮廓查询转化为刺探查询;其中k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签。通过上述方式更新本地候选集合SN,q,使得本地候选集合SN,q只包含Pnew(e)>=给定概率阈值q的数据元组,即满足式(4):
SN,q={e|e∈DSN∩Pnew(e)≥q} (4)
式(4)中,SN,q为本地候选集合,e为全局滑动窗口DSN中的流数据元组,且e满足Pnew(e)>=q条件,Pnew(e)为流数据元组e的Skyline概率中由全局滑动窗口DSN中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分,q为给定概率阈值且给定概率阈值q取值区间为[0,1]。通过上述处理,能够缩小轮廓查询的处理范围、提高查询效率。
在本地候选集合SN,q中,如果任意的流数据元组e′是早于流数据元组e到达并支配流数据元组e的到达最晚的对象,那么流数据元组e′支配流数据元组e就称作流数据元组e的关键支配关系。流数据元组e′称为流数据元组e的关键祖先,记作ae。对于流数据元组e而言,如果流数据元组e的关键祖先ae存在,那么关键祖先ae的时间标签k(ae)应当为满足流数据元组e′支配流数据元组e并且流数据元组e′的时间标签k(e′)小于流数据元组e的时间标签k(e)的最大的流数据元组e′的时间标签k(e′),即满足式(5):
k(ae)=max{k(e′)|e′<e∩k(e′)<k(e)} (5)
式(5)中,k(ae)为关键祖先ae的时间标签,k(e′)为流数据元组e′的时间标签,max为取最大值函数,e′<e表示流数据元组e′支配流数据元组e,k(e′)为流数据元组e′的时间标签,k(e)为流数据元组e的时间标签。如果流数据元组e的关键祖先ae不存在,则假定关键祖先ae的时间标签k(ae)为0。
当新的不确定数据元组(流数据元组enew)到达时,本实施例中通过管理节点按照轮转方式将其映射至相应的计算节点,各计算节点Pi协同对新的数据对象进行不确定Skyline概率计算,并更新各自维护的数据结构(本地局部滑动窗口以及本地候选集合SN,q),在数据结构更新工作完成后,各计算节点Pi以为刺入点进行刺入查询,得到n-of-N轮廓查询结果集并将其发送至结果收集节点。通过上述并行计算方法,即可对不确定n-of-N轮廓查询完成并行计算处理。上述并行计算方法可以实现任意数目计算节点的并行,极大地提高了n-of-N轮廓查询处理的效率。此外,本实施例还提供一种基于n-of-N流模型的不确定轮廓查询并行处理系统,包括计算机系统,其特征在于,计算机系统被编程以执行本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。
为了对本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法进行验证,将本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法部署在国防科技大学天河的2A计算机节点上,针对不确定数据流(流数据元组)的反相关数据(Anti-correlated)、真实数据(Read-data),独立型数据(Independent)三种数据类型,从计算节点数目、每次到达的元组数目、滑动窗口大小、数据维度、给定概率阈值五个方面验证并行算法的性能,其验证结果如图4至图8所示。图4为计算节点的数目分别取1、2、4、8、16、32时,本实施例方法关于每次更新的时间、每秒更新的元组数目的对比;图5为每次到达的流数据元组的数目分别取1、10、100、1000时,本实施例方法关于每次更新的时间、每秒更新的元组数目的对比;图6为全局滑动窗口DSN的滑动窗口大小N分别取0.1M、0.5M、1M、2M、3M、4M、5M时,本实施例方法关于每次更新的时间、每秒更新的元组数目的对比;图7为流数据元组的数据维度分别取2、3、4、5、6时,本实施例方法关于每次更新的时间、每秒更新的元组数目的对比;图8为给定概率阈值q分别取0.1、0.3、0.5、0.7、0.9时,本实施例方法关于每次更新的时间、每秒更新的元组数目的对比。结合图4~图8可知,无论合成数据(反相关数据、独立型数据)还是真实数据,本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的运行时间都随着计算节点数目的增加而逐渐下降,随着查询规模(每次到达的流数据元组的数目)的增大而逐渐增加,随着更新粒度(滑动窗口大小N)的增大而逐渐增加,随着流数据元组的数据维度的增大而缓慢增加,随着给定概率阈值q的增大而缓慢下降。因此,本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法能够同时支持对最近多个不同n(n<=N)值范围的流数据对象进行查询,提高了查询的灵活性。本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法能够最大限度实现各计算节点之间的负载均衡,最大化计算资源利用率;支持大规模数据查询,提高了查询效率和有效性。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于n-of-N流模型的不确定轮廓查询并行处理方法,其特征在于实施步骤包括:
1)初始化全局滑动窗口DSN以及计算节点集合P中各个计算节点Pi对应的本地局部滑动窗口,判断是否有新的流数据元组到达,当有新的流数据元组到达时跳转执行步骤2);
2)根据W=W+enew-eold更新维护的全局滑动窗口DSN,其中W为全局滑动窗口DSN的大小,enew为新到达的流数据元组enew的大小,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold的大小;
3)将新到达的流数据元组enew映射至计算节点集合P中相应的计算节点Pi并告知已经确定的计算节点Pi
4)将新到达的流数据元组enew发送给计算节点集合P中除计算节点Pi以外的剩余计算节点Pj,各剩余计算节点Pj在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,并将它们发送至已经确定的计算节点Pi;其中支配的关系定义为:针对数据维度均为d的流数据元组s和流数据元组t而言,流数据元组s支配流数据元组t表示当且仅当流数据元组s的每一维属性值si都不大于流数据元组t中任意一维属性值ti,且至少存在一个小于或等于数据维度d的j使得流数据元组s的第j维属性值sj小于流数据元组t的第j维属性值tj
5)各个计算节点Pi分别根据Wi=Wi+enew-eold计算节点Pi更新本地局部滑动窗口,其中Wi为计算节点Pi的本地局部滑动窗口的大小,enew为新到达的流数据元组enew,eold为全局滑动窗口DSN中因为新到达的流数据元组enew的到来而过期的流数据元组eold
6)各个计算节点Pi对新到达的流数据元组enew进行n-of-N轮廓查询计算处理;
7)各个计算节点Pi更新本地候选集合,将本地候选集合中的任意流数据元组e进行映射,从而将n-of-N轮廓查询转化为刺探查询;
8)各个计算节点Pi针对转化得到的刺探查询,分别以红黑区间树RBI来组织刺探查询区间形成以刺探查询区间为节点的红黑树,单个刺探查询区间元素用结构体Inv包含三个属性:流数据元组Tuple、区间左端点Left以及区间右端点Right,且以M-n+1为刺入点在红黑区间树RBI上进行刺入查询,如果M-n+1∈(Left,Right],则刺探查询区间(Left,Right]的右端点对应的流数据元组即为n-of-N轮廓查询对象,最终得到各自的n-of-N轮廓查询对象集合,其中M为当前已到达的流数据元组数量,n为小于等于全局滑动窗口DSN的总长度N的待查询的最近数据元组数量;
9)各个计算节点Pi返回各自的n-of-N轮廓查询对象集合至查询结果收集节点。
2.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法,其特征在于,步骤3)中将新到达的流数据元组enew映射至相应的计算节点Pi时,采用的映射函数如式(1)所示;
k(enew)%m=(i-1) (1)
式(1)中,k(enew)表示新到达的流数据元组enew的到达顺序编号,m为计算节点总数量,i为计算节点Pi的顺序编号。
3.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法,其特征在于,步骤6)的详细步骤包括:各个计算节点Pi首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组enew的流数据元组,然后将来自各剩余计算节点Pj发送的所有支配新到达的流数据元组enew的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组enew的流数据元组按到达的先后进行排序,最后利用排好序的流数据元组计算新到达的流数据元组enew的Skyline概率和刺探查询区间。
4.根据权利要求3所述的基于n-of-N流模型的不确定轮廓查询并行处理方法,其特征在于,所述计算新到达的流数据元组enew的Skyline概率的函数表达式如式(2)所示;
式(2)中,Psky(e)为流数据元组e的Skyline概率,P(e)为流数据元组e的概率,a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e。
5.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法,其特征在于,步骤7)的详细步骤包括:
7.1)各个计算节点Pi基于全局滑动窗口DSN生成初始的本地候选集合,各个计算节点Pi首先在本地候选集合中查找所有被流数据元组enew支配的流数据元组,所述本地候选集合初始为全局滑动窗口DSN的所有流数据元组,然后更新所有被流数据元组enew支配的流数据元组的刺探查询区间左端点,并将所有满足式(3)的流数据元组从本地候选集合中删除;
式(3)中,Pnew(e)为流数据元组e的Skyline概率中由全局滑动窗口DSN中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分,q为给定概率阈值且给定概率阈值q取值区间为[0,1],a为全局滑动窗口DSN中的流数据元组,P(a)为流数据元组a的概率,a<e表示流数据元组a支配流数据元组e,k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签;
7.2)各个计算节点Pi分别将本地候选集合中的任意流数据元组e映射到区间(k(a),k(e)],从而将n-of-N轮廓查询转化为刺探查询;其中k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签,k(e)为流数据元组e的时间标签。
6.一种基于n-of-N流模型的不确定轮廓查询并行处理系统,包括计算机系统,其特征在于,所述计算机系统被编程以执行权利要求1~5中任意一项所述基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。
CN201810688992.XA 2018-06-28 2018-06-28 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统 Active CN108959521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810688992.XA CN108959521B (zh) 2018-06-28 2018-06-28 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810688992.XA CN108959521B (zh) 2018-06-28 2018-06-28 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统

Publications (2)

Publication Number Publication Date
CN108959521A true CN108959521A (zh) 2018-12-07
CN108959521B CN108959521B (zh) 2021-07-16

Family

ID=64487648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810688992.XA Active CN108959521B (zh) 2018-06-28 2018-06-28 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统

Country Status (1)

Country Link
CN (1) CN108959521B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799954A (zh) * 2012-07-18 2012-11-28 中国信息安全测评中心 一种适用于风险评估的多目标优化方法及系统
US20130091482A1 (en) * 2010-04-09 2013-04-11 Nec Corporation Method and apparatus for design space exploration acceleration
CN103778195A (zh) * 2014-01-07 2014-05-07 浙江大学 一种空间数据库中排序反向轮廓查询方法
KR101543719B1 (ko) * 2015-04-10 2015-08-12 성결대학교 산학협력단 빅데이터에서의 향상된 역스카이라인 탐색 방법
CN106599190A (zh) * 2016-12-14 2017-04-26 大连交通大学 基于云计算的动态Skyline查询方法
CN106777093A (zh) * 2016-12-14 2017-05-31 大连大学 基于空间时序数据流应用的Skyline查询系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091482A1 (en) * 2010-04-09 2013-04-11 Nec Corporation Method and apparatus for design space exploration acceleration
CN102799954A (zh) * 2012-07-18 2012-11-28 中国信息安全测评中心 一种适用于风险评估的多目标优化方法及系统
CN103778195A (zh) * 2014-01-07 2014-05-07 浙江大学 一种空间数据库中排序反向轮廓查询方法
KR101543719B1 (ko) * 2015-04-10 2015-08-12 성결대학교 산학협력단 빅데이터에서의 향상된 역스카이라인 탐색 방법
CN106599190A (zh) * 2016-12-14 2017-04-26 大连交通大学 基于云计算的动态Skyline查询方法
CN106777093A (zh) * 2016-12-14 2017-05-31 大连大学 基于空间时序数据流应用的Skyline查询系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYONG LI等: "Parallelizing Probabilistic Streaming Skyline Operator in Cloud Computing Environments", 《IEEE》 *
李小勇: "《不确定数据的分布并行Skyline查询技术研究》", 《中国博士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN108959521B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN105069703B (zh) 一种电网海量数据管理方法
Chen et al. MapReduce skyline query processing with a new angular partitioning approach
CN103678671A (zh) 一种社交网络中的动态社区检测方法
Yang et al. HEPart: A balanced hypergraph partitioning algorithm for big data applications
Li et al. Research on QoS service composition based on coevolutionary genetic algorithm
Chen et al. Preference-aware edge server placement in the internet of things
CN106570145B (zh) 一种基于分层映射的分布式数据库结果缓存方法
Li et al. Two-sided online bipartite matching in spatial data: experiments and analysis
Yang et al. Application of information transmission control strategy based on incremental community division in IoT platform
CN112597477A (zh) 结合云计算和智能设备交互的信息处理方法及云端服务器
Zhou et al. Design of v-type warehouse layout and picking path model based on internet of things
Mao et al. A MapReduce-based K-means clustering algorithm
CN110059795A (zh) 一种融合地理位置与时间特征的移动用户节点组网方法
Li et al. Neighborhood search-based job scheduling for IoT big data real-time processing in distributed edge-cloud computing environment
Zhang et al. Logistics service supply chain order allocation mixed K-Means and Qos matching
Yang et al. Profile-free and real-time task recommendation in mobile crowdsensing
Li et al. HPFL-CN: Communication-efficient hierarchical personalized federated edge learning via complex network feature clustering
Zheng et al. Energy-efficient virtual network embedding in networks for cloud computing
Deng The Informatization of Small and Medium-Sized Enterprises Accounting System Based on Sensor Monitoring and Cloud Computing
CN108776814A (zh) 一种电力通信数据资源并行化聚类方法
CN108959521A (zh) 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统
CN110275885A (zh) 基于Hadoop的多层次轨迹数据存储装置
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Bai et al. An efficient skyline query algorithm in the distributed environment
Lan et al. Fatp: Fairness-aware task planning in spatial crowdsourcing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant