CN108959521A

CN108959521A - 基于n-of-N流模型的不确定轮廓查询并行处理方法及系统

Info

Publication number: CN108959521A
Application number: CN201810688992.XA
Authority: CN
Inventors: 李小勇; 刘军; 李小玲; 任开军; 邓科峰; 任小丽; 赵娟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-07
Anticipated expiration: 2038-06-28
Also published as: CN108959521B

Abstract

本发明公开了一种基于n‑of‑N流模型的不确定轮廓查询并行处理方法及系统，本发明针对大规模不确定数据流的高效n‑of‑N轮廓查询，将对全局滑动窗口中的数据元组查询处理的任务，按一定的任务映射规则划分为多个本地局部滑动窗口，并且将本地局部滑动窗口的查询处理任务分散交付给多个计算节点，所有计算节点对各自局部滑动窗口进行并行查询处理，当完成对所有数据元组处理后返回查询结果。本发明能够实现计算节点间的负载均衡、最大化并行效率、支持大规模计算节点数目的并行查询、实现高效的n‑of‑N查询并行处理。

Description

基于n-of-N流模型的不确定轮廓查询并行处理方法及系统

技术领域

本发明涉及基于n-of-N流模型的轮廓查询并行处理技术，具体涉及一种基于n-of-N流模型的不确定轮廓查询并行处理方法及系统，适合于多目标决策制定、市场分析、数据挖掘、推荐系统、环境监控、计量经济学等应用领域。

背景技术

不确定流数据是指数值无法直接准确确定的一类流数据的总称，它存在于诸如基于位置的服务、无线射频识别(RFID)网络、商品交易网络、雷达监测系统等众多实际应用中，对不确定数据流进行高效复杂查询分析已成为当前大数据分析领域的重点研究方向，在现实生活中具有极其重要的意义。

轮廓查询(即Skyline查询)通常也被称为Pareto最优查询，其实质上是一个典型的多目标优化问题。轮廓查询是指从给定的一个d维空间的对象集合S中选择一个子集，该子集中的点均不能被S中的其他的点所支配，满足此条件的点称为SP(Skyline Point)。这里特别指出，对于两个拥有d维属性的数据元组P和Q，若元组P的每一维属性都不比Q差，则称P支配Q。Skyline查询作为解决多标准决策的一种有效方法，是不确定数据流上的一种重要查询操作，在诸如金融领域、传感器网络、Web事务日志分析和军事领域等众多现实应用中发挥着重要作用。目前不确定数据流查询研究主要采用滑动窗口模型，该模型主要关注于最近若干个数据对象上的查询。以基于计数的滑动窗口为例，通常查询主要关注于最近个元组的查询处理。然而，不同的用户可能同时对该数据流进行查询，且不同用户的查询需求往往不同，可能需要同时考察在不同滑动窗口范围内的Skyline查询结果。因此，为用户的Skyline查询提供高度的灵活性是必要的，在现实生活中具有重要的意义。

n-of-N流模型是一个能够在任意n(n<＝N)个最近对象上进行查询操作的数据流模型，其中N表示包含最近N个对象的当前滑动窗口，n(n<＝N)表示最近的n个对象(包含在有个对象的滑动窗口之内)。大小为N的滑动窗口只是n＝N时的一个特例。基于n-of-N流模型的不确定数据流轮廓查询可支持用户对于不同数据流滑动窗口范围的查询，能够极大地提高轮廓查询的灵活性和实用性。然而，现有的不确定数据流n-of-N轮廓查询方法主要面向集中式处理环境设计实现，无法满足大规模不确定数据流的实时查询处理需求，迫切需要研究一种基于n-of-N流模型的高效不确定轮廓查询并行处理方法。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于n-of-N流模型的不确定轮廓查询并行处理方法及系统，本发明能够实现计算节点间的负载均衡、最大化并行效率、支持大规模计算节点数目的并行查询、实现高效的n-of-N查询并行处理。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于n-of-N流模型的不确定轮廓查询并行处理方法，实施步骤包括：

1)初始化全局滑动窗口DS_N以及计算节点集合P中各个计算节点P_i对应的本地局部滑动窗口，判断是否有新的流数据元组到达，当有新的流数据元组到达时跳转执行步骤2)；

2)根据W＝W+e_new-e_old更新维护的全局滑动窗口DS_N，其中W为全局滑动窗口DS_N的大小，e_new为新到达的流数据元组e_new的大小，e_old为全局滑动窗口DS_N中因为新到达的流数据元组e_new的到来而过期的流数据元组e_old的大小；

3)将新到达的流数据元组e_new映射至计算节点集合P中相应的计算节点P_i并告知已经确定的计算节点P_i；

4)将新到达的流数据元组e_new发送给计算节点集合P中除计算节点P_i以外的剩余计算节点P_j，各剩余计算节点P_j在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组e_new的流数据元组，并将它们发送至已经确定的计算节点P_i；其中支配的关系定义为：针对数据维度均为d的流数据元组s和流数据元组t而言，流数据元组s支配流数据元组t表示当且仅当流数据元组s的每一维属性值s_i都不大于流数据元组t中任意一维属性值t_i，且至少存在一个小于或等于数据维度d的j使得流数据元组s的第j维属性值s_j小于流数据元组t的第j维属性值t_j；

5)各个计算节点P_i分别根据W_i＝W_i+e_new-e_old计算节点P_i更新本地局部滑动窗口，其中W_i为计算节点P_i的本地局部滑动窗口的大小，e_new为新到达的流数据元组e_new，e_old为全局滑动窗口DS_N中因为新到达的流数据元组e_new的到来而过期的流数据元组e_old；

6)各个计算节点P_i对新到达的流数据元组e_new进行n-of-N轮廓查询计算处理；

7)各个计算节点P_i更新本地候选集合，将本地候选集合中的任意流数据元组e进行映射，从而将n-of-N轮廓查询转化为刺探查询；

8)各个计算节点P_i针对转化得到的刺探查询，分别以红黑区间树RBI来组织刺探查询区间形成以刺探查询区间为节点的红黑树，单个刺探查询区间元素用结构体Inv包含三个属性：流数据元组Tuple、区间左端点Left以及区间右端点Right，且以M-n+1为刺入点在红黑区间树RBI上进行刺入查询，如果M-n+1∈(Left,Right]，则刺探查询区间(Left,Right]的右端点对应的流数据元组即为n-of-N轮廓查询对象，最终得到各自的n-of-N轮廓查询对象集合，其中M为当前已到达的流数据元组数量，n为小于等于全局滑动窗口DS_N的总长度N的待查询的最近数据元组数量；

9)各个计算节点P_i返回各自的n-of-N轮廓查询对象集合至查询结果收集节点。

优选地，步骤3)中将新到达的流数据元组e_new映射至相应的计算节点P_i时，采用的映射函数如式(1)所示；

k(e_new)％m＝(i-1) (1)

式(1)中，k(e_new)表示新到达的流数据元组e_new的到达顺序编号，m为计算节点总数量，i为计算节点P_i的顺序编号。

优选地，步骤6)的详细步骤包括：各个计算节点P_i首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组e_new的流数据元组，然后将来自各剩余计算节点P_j发送的所有支配新到达的流数据元组e_new的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组e_new的流数据元组按到达的先后进行排序，最后利用排好序的流数据元组计算新到达的流数据元组e_new的Skyline概率和刺探查询区间。

优选地，所述计算新到达的流数据元组e_new的Skyline概率的函数表达式如式(2)所示；

式(2)中，P_sky(e)为流数据元组e的Skyline概率，P(e)为流数据元组e的概率，a为全局滑动窗口DS_N中的流数据元组，P(a)为流数据元组a的概率，a＜e表示流数据元组a支配流数据元组e。

优选地，步骤7)的详细步骤包括：

7.1)各个计算节点P_i基于全局滑动窗口DS_N生成初始的本地候选集合，各个计算节点P_i首先在本地候选集合中查找所有被流数据元组e_new支配的流数据元组，所述本地候选集合初始为全局滑动窗口DS_N的所有流数据元组，然后更新所有被流数据元组e_new支配的流数据元组的刺探查询区间左端点，并将所有满足式(3)的流数据元组从本地候选集合中删除；

式(3)中，P_new(e)为流数据元组e的Skyline概率中由全局滑动窗口DS_N中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分，q为给定概率阈值且给定概率阈值q取值区间为[0,1]，a为全局滑动窗口DS_N中的流数据元组，P(a)为流数据元组a的概率，a＜e表示流数据元组a支配流数据元组e，k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签，k(e)为流数据元组e的时间标签；

7.2)各个计算节点P_i分别将本地候选集合中的任意流数据元组e映射到区间(k(a),k(e)]，从而将n-of-N轮廓查询转化为刺探查询；其中k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签，k(e)为流数据元组e的时间标签。

本发明还提供一种基于n-of-N流模型的不确定轮廓查询并行处理系统，包括计算机系统，其特征在于，所述计算机系统被编程以执行本发明基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。

本发明具有下述优点：本发明针对大规模不确定数据流的高效n-of-N轮廓查询，将对全局滑动窗口中的数据元组查询处理的任务，按一定的任务映射规则划分为多个本地局部滑动窗口，并且将本地局部滑动窗口的查询处理任务分散交付给多个计算节点，所有计算节点对各自局部滑动窗口进行并行查询处理，当完成对所有数据元组处理后返回查询结果，能达到以下有益效果：

1、负载均衡：本发明针对计算节点集合P中各个计算节点P_i设置的本地局部滑动窗口，每个计算节点可根据其综合计算能力处理相应的不确定数据元组数目，即滑动窗口划分的尺寸，有效地实现了计算节点间的负载均衡，提高了各计算节点的资源利用率。

2、最大化并行效率：本发明各个计算节点P_i对新到达的流数据元组e_new进行n-of-N轮廓查询计算处理并独立更新所维护的局部候选集合，计算节点之间只有少量通信开销，因此本发明能实现最大化并行效率。

3)高效查询：本发明可支持大规模计算节点数目的并行查询，且查询时间随着计算节点数目的增加而显著减少，从而实现高效并行查询处理。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例采用的滑动窗口模型示意图。

图3为本发明实施例的并行查询节点拓扑结构示意图。

图4为本发明实施例方法针对不同计算节点数目的性能对比示意图。

图5为本发明实施例方法针对不同每次到达的元组数目的性能对比示意图。

图6为本发明实施例方法针对不同滑动窗口大小的性能对比示意图。

图7为本发明实施例方法针对不同数据维度的性能对比示意图。

图8为本发明实施例方法针对不同给定概率阈值的性能对比示意图。

具体实施方式

参见图1，本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的实施步骤包括：

1)初始化全局滑动窗口DS_N以及计算节点集合P中各个计算节点P_i对应的本地局部滑动窗口，判断是否有新的流数据元组(不确定流数据的流数据元组)到达，当有新的流数据元组到达时跳转执行步骤2)；

7)各个计算节点P_i更新本地候选集合S_N,q，将本地候选集合S_N,q中的任意流数据元组e进行映射，从而将n-of-N轮廓查询转化为刺探查询；

参见图2，本实施例中采用了滑动窗口模型，图中N＝12的滑动窗口模型的原始对象为1～12，当新的流数据元组13到达后，则流数据元组1过期。全局滑动窗口DS_N以及计算节点集合P中各个计算节点P_i对应的本地局部滑动窗口均为基于计数的滑动窗口，因而活跃的流数据数目是固定的，即当滑动窗口已满时，若有r个新的元组到达，则必有r个元组过期。此外，全局滑动窗口DS_N、本地局部滑动窗口中的流数据元组按先到先服务的原则进行处理，即按照FIFO依次处理，并且先到达的数据元组最先处理和过期。

参见图3，本实施例的前述步骤1)～步骤9)中，步骤1)～步骤4)主要基于管理节点完成，步骤4)～步骤9)则为各个计算节点P_i的工作任务，最终由查询结果收集节点得到最终的基于n-of-N流模型的不确定轮廓查询结果。

本实施例中，步骤3)中将新到达的流数据元组e_new映射至相应的计算节点P_i时，采用的映射函数如式(1)所示；

k(e_new)％m＝(i-1) (1)

针对数据维度均为d的流数据元组s和流数据元组t而言，假定它们在第i(i<＝d)维的属性值为s_i和t_i，参见步骤4)中针对流数据元组的支配关系定义，将流数据元组s支配流数据元组t记作s＜t，则有：当且仅当流数据元组s的每一维属性值s_i都不大于流数据元组t中任意一维属性值t_i，且至少存在一个小于或等于数据维度d的j(j<＝d)使得流数据元组s的第j维属性值s_j小于流数据元组t的第j维属性值t_j。

本实施例中，步骤6)的详细步骤包括：各个计算节点P_i首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组e_new的流数据元组，然后将来自各剩余计算节点P_j发送的所有支配新到达的流数据元组e_new的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组e_new的流数据元组按到达的先后进行排序，最后利用排好序的流数据元组计算新到达的流数据元组e_new的Skyline概率和刺探查询区间。

新到达的流数据元组e_new的Skyline概率，即为全局滑动窗口DS_N中的流数据元组e_new成为Skyline的概率。本实施例中，计算新到达的流数据元组e_new的Skyline概率的函数表达式如式(2)所示；

本实施例中，步骤7)的详细步骤包括：

7.1)各个计算节点P_i基于全局滑动窗口DS_N生成初始的本地候选集合S_N,q，各个计算节点P_i首先在本地候选集合S_N,q中查找所有被流数据元组e_new支配的流数据元组，本地候选集合初始为全局滑动窗口DS_N的所有流数据元组，然后更新所有被流数据元组e_new支配的流数据元组的刺探查询区间左端点，并将所有满足式(3)的流数据元组从本地候选集合中删除；

式(3)中，P_new(e)为流数据元组e的Skyline概率中由全局滑动窗口DS_N中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分，q为给定概率阈值且给定概率阈值q取值区间为[0,1]，a为全局滑动窗口DS_N中的流数据元组，P(a)为流数据元组a的概率，a＜e表示流数据元组a支配流数据元组e，k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签，k(e)为流数据元组e的时间标签；本实施例中，将全局滑动窗口DS_N中所有Skyline概率大于等于给定概率阈值q的对象构成的集合称为q-Skyline，计算n-of-N流模型上不确定数据流的q-Skyline需要为每一个局部滑动窗口维护一个本地候选集合，然后将本地候选集合中的流数据元组e映射到区间(k(a)，k(e)]上，从而将n-of-N轮廓查询转化为刺探查询；

7.2)各个计算节点P_i分别将本地候选集合S_N,q中的任意流数据元组e映射到区间(k(a),k(e)]，从而将n-of-N轮廓查询转化为刺探查询；其中k(a)为使得流数据元组e的Skyline概率大于等于给定概率阈值q且到达最早的流数据元组a的时间标签，k(e)为流数据元组e的时间标签。通过上述方式更新本地候选集合S_N,q，使得本地候选集合S_N,q只包含P_new(e)>＝给定概率阈值q的数据元组，即满足式(4)：

S_N,q＝{e|e∈DS_N∩P_new(e)≥q} (4)

式(4)中，S_N,q为本地候选集合，e为全局滑动窗口DS_N中的流数据元组，且e满足P_new(e)>＝q条件，P_new(e)为流数据元组e的Skyline概率中由全局滑动窗口DS_N中所有支配流数据元组e且晚于流数据元组e到达的流数据元组所组成的部分，q为给定概率阈值且给定概率阈值q取值区间为[0,1]。通过上述处理，能够缩小轮廓查询的处理范围、提高查询效率。

在本地候选集合S_N,q中，如果任意的流数据元组e′是早于流数据元组e到达并支配流数据元组e的到达最晚的对象，那么流数据元组e′支配流数据元组e就称作流数据元组e的关键支配关系。流数据元组e′称为流数据元组e的关键祖先，记作a_e。对于流数据元组e而言，如果流数据元组e的关键祖先a_e存在，那么关键祖先a_e的时间标签k(a_e)应当为满足流数据元组e′支配流数据元组e并且流数据元组e′的时间标签k(e′)小于流数据元组e的时间标签k(e)的最大的流数据元组e′的时间标签k(e′)，即满足式(5)：

k(a_e)＝max{k(e′)|e′＜e∩k(e′)<k(e)} (5)

式(5)中，k(a_e)为关键祖先a_e的时间标签，k(e′)为流数据元组e′的时间标签，max为取最大值函数，e′＜e表示流数据元组e′支配流数据元组e，k(e′)为流数据元组e′的时间标签，k(e)为流数据元组e的时间标签。如果流数据元组e的关键祖先a_e不存在，则假定关键祖先a_e的时间标签k(a_e)为0。

当新的不确定数据元组(流数据元组e_new)到达时，本实施例中通过管理节点按照轮转方式将其映射至相应的计算节点，各计算节点P_i协同对新的数据对象进行不确定Skyline概率计算，并更新各自维护的数据结构(本地局部滑动窗口以及本地候选集合S_N,q)，在数据结构更新工作完成后，各计算节点P_i以为刺入点进行刺入查询，得到n-of-N轮廓查询结果集并将其发送至结果收集节点。通过上述并行计算方法，即可对不确定n-of-N轮廓查询完成并行计算处理。上述并行计算方法可以实现任意数目计算节点的并行，极大地提高了n-of-N轮廓查询处理的效率。此外，本实施例还提供一种基于n-of-N流模型的不确定轮廓查询并行处理系统，包括计算机系统，其特征在于，计算机系统被编程以执行本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。

为了对本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法进行验证，将本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法部署在国防科技大学天河的2A计算机节点上，针对不确定数据流(流数据元组)的反相关数据(Anti-correlated)、真实数据(Read-data)，独立型数据(Independent)三种数据类型，从计算节点数目、每次到达的元组数目、滑动窗口大小、数据维度、给定概率阈值五个方面验证并行算法的性能，其验证结果如图4至图8所示。图4为计算节点的数目分别取1、2、4、8、16、32时，本实施例方法关于每次更新的时间、每秒更新的元组数目的对比；图5为每次到达的流数据元组的数目分别取1、10、100、1000时，本实施例方法关于每次更新的时间、每秒更新的元组数目的对比；图6为全局滑动窗口DS_N的滑动窗口大小N分别取0.1M、0.5M、1M、2M、3M、4M、5M时，本实施例方法关于每次更新的时间、每秒更新的元组数目的对比；图7为流数据元组的数据维度分别取2、3、4、5、6时，本实施例方法关于每次更新的时间、每秒更新的元组数目的对比；图8为给定概率阈值q分别取0.1、0.3、0.5、0.7、0.9时，本实施例方法关于每次更新的时间、每秒更新的元组数目的对比。结合图4～图8可知，无论合成数据(反相关数据、独立型数据)还是真实数据，本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法的运行时间都随着计算节点数目的增加而逐渐下降，随着查询规模(每次到达的流数据元组的数目)的增大而逐渐增加，随着更新粒度(滑动窗口大小N)的增大而逐渐增加，随着流数据元组的数据维度的增大而缓慢增加，随着给定概率阈值q的增大而缓慢下降。因此，本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法能够同时支持对最近多个不同n(n<＝N)值范围的流数据对象进行查询，提高了查询的灵活性。本实施例基于n-of-N流模型的不确定轮廓查询并行处理方法能够最大限度实现各计算节点之间的负载均衡，最大化计算资源利用率；支持大规模数据查询，提高了查询效率和有效性。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于n-of-N流模型的不确定轮廓查询并行处理方法，其特征在于实施步骤包括：

2.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法，其特征在于，步骤3)中将新到达的流数据元组e_new映射至相应的计算节点P_i时，采用的映射函数如式(1)所示；

k(e_new)％m＝(i-1) (1)

3.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法，其特征在于，步骤6)的详细步骤包括：各个计算节点P_i首先在其所维护的本地局部滑动窗口中查找所有支配新到达的流数据元组e_new的流数据元组，然后将来自各剩余计算节点P_j发送的所有支配新到达的流数据元组e_new的流数据元组、以及包含本次查找到的所有支配新到达的流数据元组e_new的流数据元组按到达的先后进行排序，最后利用排好序的流数据元组计算新到达的流数据元组e_new的Skyline概率和刺探查询区间。

4.根据权利要求3所述的基于n-of-N流模型的不确定轮廓查询并行处理方法，其特征在于，所述计算新到达的流数据元组e_new的Skyline概率的函数表达式如式(2)所示；

5.根据权利要求1所述的基于n-of-N流模型的不确定轮廓查询并行处理方法，其特征在于，步骤7)的详细步骤包括：

6.一种基于n-of-N流模型的不确定轮廓查询并行处理系统，包括计算机系统，其特征在于，所述计算机系统被编程以执行权利要求1～5中任意一项所述基于n-of-N流模型的不确定轮廓查询并行处理方法的步骤。