CN104715031A

CN104715031A - 一种海量数据近似聚集查询中的离群分治取样方法

Info

Publication number: CN104715031A
Application number: CN201510107578.1A
Authority: CN
Inventors: 胡文瑜; 刘建华; 唐郑熠; 刘垣
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2015-06-17

Abstract

本发明公开了一种海量数据近似聚集查询中的离群分治取样方法，将高偏斜关系R离群分离成两个子集R_o和R_{n_o}；近似聚集查询Q可以看成两个子查询的并，第一个子查询运行在离群值子集R_o上，第二个子查询则运行在R_{n_o}的均匀取样集上；具体来说，海量数据近似聚集查询中的离群分治取样方法包括两个步骤:离群分离+查询处理；从以上方法实现框架得出:查询误差只归结于非离群值子集R_{n_o}上的近似查询误差。本发明在海量数据集的聚集属性内部存在高方差分布时能克服随机均匀取样的不足，显著降低近似查询误差，适用于云计算环境，离群分治取样方法的离群分离步骤只需单遍扫描数据集、无需对整个聚集属性集进行排序，能自然的扩展应用于数据流的近似聚集查询。

Description

一种海量数据近似聚集查询中的离群分治取样方法

技术领域

本发明属于海量数据管理领域，特别涉及一种海量数据近似聚集查询中的离群分治取样方法。

背景技术

首先对本发明的技术术语进行如下解释：

离群点:如果一个数据样本与其他样本之间存在足以引起怀疑的差异，则称其为离群点；

标准差S:尺寸为N的数据集R，相应元组的值集为{x₁，x₂，…，x_N}，标准差S是方差S²的平方根，S被定义为:

S = \sqrt{\frac{Σ_{i = 1}^{N} {(x_{i} - \overset{&OverBar;}{X})}^{2}}{N - 1}} - - - (1)

其中，由式(1)可知，数据内部包含的少量离群值会导致高方差.

取样是最通用有效的近似技术，以其在处理海量数据集中表现出的良好性能而得到了广泛深入的研究与应用。利用取样技术快速和有效地给出近似查询结果并最小化近似查询误差是数据挖掘工具，决策支持系统或OLAP(onlineanalytical processing，联机分析处理)中查询处理的关键和目标.

根据各数据项被选中的概率是否相同，取样方法可以分成均匀取样和偏倚取样两种.顾名思义，在均匀取样中各数据项以相同的概率被选中；而在偏倚取样中，不同元素的入选几率可能不同.随机均匀取样为许多类型的近似查询处理提供了高正确率的解决方法，但在某些应用场景和特定的情形下，会突显出均匀取样算法的局限性.一般认为:均匀随机取样适用于数据呈均匀概率分布的情形，尤其是数据对用户的作用主要取决于取样能否反映数据分布情况的场合.当聚集属性列的数据分布是偏斜的(skewed)以及查询是低选择性(即，几乎没有元组或只有很少的元组满足查询谓词)时，使用简单随机取样技术进行近似聚集查询，会导致较大的查询误差.在聚集属性上存在数据偏斜(data skew)，意味着存在少数离群点或离群值，它们的属性值远远偏离其他参与聚集的元组属性的平均值.

Cochran在Sampling Techniques(取样技术)书中的以下定理1量化了使用均匀取样在高偏斜数据分布情况下聚集查询评估值的误差情况.

定理1数据集N的均匀随机取样集为k，标准差为S，其近似查询的标准差(standard error)定义为:

E (Q) = \frac{NS}{\sqrt{k}} \sqrt{1 - \frac{k}{N}} - - - (2)

由式(2)可知，近似查询的标准差与取样尺寸k的平方根成反比，还直接与数据集的标准差成正比.在高方差情况下，对给定的误差界，所需的取样尺寸k的值随着标准差的增加呈平方增长，从而丧失取样技术在近似查询中的存在价值.

迄今为止，近似聚集查询中取样技术的研究成果主要包括:(1)使用在线取样技术进行在线查询处理；(2)在聚集查询处理中使用预计算的取样集或概要结构；(3)在聚集查询处理中使用概要结构的快速增量维护技术；(4)加权取样框架的提出与应用；(5)在时序数据中侦测和移除离群点的概念.以上研究成果中；(4)项的加权取样技术利用了工作负载(workload)信息来最小化查询误差，Chaudhuri等将近似聚集查询问题看作是给定工作负载下最小化查询误差的一个优化问题。

一般来说，所谓离群点就是超乎人们预料的异常点，但由于它仅是一个定性的定义方法，因此缺乏发现离群点的可操作性。为此，研究者基于不同的思想对离群点加以定量的描述并构造了一系列离群点检测算法，就这些算法的思想基础而言，它们可被归结为以下几类检测方法:(1)基于统计学的检测方法.其检测方法的基本原理是，假设已知数据集符合某种概率分布，然后用不一致性检验确定离群数据，其中可能需要使用到数据集的分布模型(如正态分布)，统计量(如均值，标准差)和需要发现离群点的个数；(2)基于偏离的检测方法，其基本过程是：顺序扫描数据序列，当某一项数据与已读入数据所表达的模式显著不同时，即认为其为离群点，即使不清楚数据的规则；(3)基于距离的检测方法，是通过计算数据点之间的距离实现离群点的发现；(4)基于聚类的检测方法，这类算法的特征是首先考虑数据的聚类特征，将离群点检测视为聚类问题的逆问题加以处理；(5)基于规则的检测方法.这种方法可以从大量数据中产生用来判断离群点的规则。

在大数据与云计算框架中，MapReduce是主流的大数据处理技术，它采用分而治之的并行化处理思想来对付大数据或大数据中的动态数据流.对相互间不具有计算依赖关系的大数据，或者大量数据记录/元素需要进行重复处理的，均适合采用基于Map和Reduce的并行计算模型-MapReduce，MapReduce运用分而治之的并行处理策略。

基于Map和Reduce的并行计算模型包括以下步骤：1)各个map函数对所划分的数据并行处理，从不同的输入数据产生不同的中间结果输出；2)各个reduce也各自并行计算，各自负责处理不同的中间结果数据集合；3)进行reduce处理之前，必须等到所有的map函数做完，因此，在进入reduce前需要有一个同步障(barrier)，这个阶段也负责对map的中间结果数据进行收集整理处理，以便reduce更有效地计算最终结果；4)最终汇总所有reduce的输出结果即可获得最终结果。

现有技术中，从先前的近似聚集查询取样技术的研究成果中可以看出，研究者已经开始重视以前曾被忽视的聚焦属性数据方差问题，其中CongressionalSamples(国会取样)是一个有影响力的近似聚集查询方法，采用的是均匀取样和偏倚取样的综合，在大小组数据尺寸相差悬殊或低选择性Group-by聚集查询中能获取快速，高正确率的近似查询结果.但在对其深入研究的基础上，发现其存在不足和应用局限，如：国会取样对每个小组内的数据取样是均匀的，未处理聚焦属性列的数据方差问题，忽视各组内数据分布中的数据方差将导致聚集函数(如sum、count和avg等)的近似查询质量低下。Chaudhuri等人提出的克服均匀取样局限的Outlier-indexes方法有一定的特色，但其方法也存在三点不足：(1)需要多遍扫描数据集，无法将方法推广到大数据环境下的数据流查询分析与挖掘领域；(2)不适用于并行处理，不适用于海量大数据集处理，无法将方法扩展到能利用大数据的MapReduce技术，也就是方法无法利用当今日趋成熟的大数据技术与云计算能力；(3)算法需要事先对整个数据集的聚集属性进行完整的排序或索引，建立索引的时间导致了效率偏低。

在基于统计学的方法中，对检测离群点的长期研究积累了若干研究成果，其中Jagdish的研究与本发明方法子步骤中的离群点侦测的思路有类似之处，但他们探索的是时序数据库中异常点的侦测和移除问题，相对比较复杂而且不适用于大数据环境中数据流近似聚集查询的并行处理。而本案提出的离群分治检测方法，仅仅最小化离群数据集对查询质量的影响问题，较Jagdish相关可比方法更简单、高效且具备软件实用价值。

发明内容

本发明的目的：本发明就是克服现有技术的缺点，提出了一种可利用大数据技术，适用于云计算环境，能克服均匀取样局限、只需单遍扫描数据集、无需对整个聚集属性集进行排序就能进行离群值分离的分治取样方法，该方法在海量数据集的聚集属性内部存在高方差分布时能克服随机均匀取样的不足，显著降低近似查询误差。

本发明方法的设计思路是：1)由于存在少量离群值而导致了查询质量的降低，采用分而治之方法，先将离群值子集从关系R中先分离出来，然后再对R中余下的非离群值数据实施随机均匀取样：2)海量数据或大数据环境中动态数据流的在线高速流入均要求提高近似查询处理的速度，将数据集以窗口为单位划分为固定尺寸的小数据集分而治之的进行并行处理。

本发明的技术方案是：一种海量数据近似聚集查询中的离群分治取样方法，将高偏斜关系R分成两个子集R_o(outliers)和R_{n_o}(non-outliers)；查询Q可以看成两个子查询的并(union)，第一个子查询运行在R_o上，第二个子查询则运行在R_{n_o}上；具体来说，海量数据近似聚集查询中的离群分治取样方法包括两个步骤:离群分离步骤和查询处理步骤：

步骤1：离群分离

以下是适用于大数据并行处理技术的离群分离方法软件实现框架图，该方法将离群值从关系R中分离出来，形成一个离群值子集R_o和非离群子集R_{n_o}的均匀取样集T，包括如下步骤:

步骤1-1，分离R中的离群值并生成离群值子集R_o；

步骤1-1-1，定义输入参数:海量数据集的元组数N；均匀取样率f；离群值比率l，l>0，且离群点数lN<<n'，n'是取样集T的样本数，n'＝f*(N-lN)，|T|＝n'，l值借助工作负载信息或历史数据分布信息获取；

步骤1-1-2，将关系R的数据集划分为m个窗口，m＝clN，即要求窗口数超过离群点数；公式中的c为正整数常数，2≤c≤1/l，如果离群值分散或均匀分布，c取下界值，否则取上界值；方法的这个步骤利用大数据处理技术MapReduce，因为每个窗口的数据相互间不具有计算依赖关系.这里的每一个窗口划分是MapReduce的大数据任务划分；

步骤1-1-3，每个窗口的元组数

步骤1-1-4，对每个窗口i,i从1起算到第m个窗口止均重复以下计算过程，方法的这个步骤符合典型的流式大数据map处理的以下2个特征:

1)大量数据记录/元素需要进行重复处理；

2)对每个数据记录/元素作感兴趣的处理、获取感兴趣的中间结果信息.

因此，若简化处理，可以将每个窗口i的计算任务交给一个map节点，多个map节点并行计算；

步骤1-1-4-1，从第i个窗口中顺序取出w个元组的{C₁,…,C_N},并定义为{C₁′,…,C_w′},C是查询Q的聚集属性列{C₁,…,C_N}；

步骤1-1-4-2，如果从最后一个窗口中取出的元组数w’少于w，则直接取w的值为w’；

步骤1-1-4-3，对每个窗口i中的每个元组j均实施以下的计算过程；

步骤1-1-4-3-1，计算除元组j之外的标准差值E(j)，E(j)＝S({C₁′,…C_j-1′,C_j+1′,…_,C_w′})，S是C的子集的标准差，C₁′是低界值,C_w′是高界值；

步骤1-1-4-3-2，设E(j)取最小值时的j为j′，也就是说C_j′是候选离群点，将含C_j′的元组插入离群值子集R_o；

步骤1-1-5，合并与排序离群值子集R_o，只保留头lN个元组，lN是离群点数目；这个步骤的合并与排序任务符合典型的流式大数据Reduce处理的特征，即收集整理中间结果和产生最终结果输出；这个步骤的任务可以交由多个Reduce节点完成；

步骤1-1-6，Rn_o＝R-Ro，非离群子集Rn_o为数据集R与离群值子集Ro的差集；步骤1-2，根据取样率f对R中余下的非离群值Rn_o进行均匀取样，生成取样集T.步骤2：查询处理

步骤2-1，聚集离群值:在离群值子集Ro上运行聚集查询；

步骤2-2，聚集非离群值:在非离群值子集Rn_o的均匀取样集T上运行聚集查询并乘以取样率的倒数，从而推算出Rn_o的近似查询值；

步骤2-3，结合聚集值:结合Ro上的准确聚集值和Rn_o上的近似聚集值来得到R的近似聚集值；

从以上方法实现框架得出:查询误差只归结于非离群值子集Rn_o上的近似查询误差。

本发明的优点效果是：

(1)可用于海量数据集的近似聚集查询中的离群分治取样方法属于预计算取样集的近似查询处理方法，与其它的取样算法框架相同，他是一个查询误差确界方法，特定近似查询的标准差评估参见定理1的式(2)。

(2)本方法的有效性主要取决于方法软件实现框架图中的步骤[1-1-4-3-1]，即有效计算标准差S的能力。众所周知，对一个含插入/删除操作的动态数据集合来说，诸如总和，均值，方差和标准差这样的值是容易有效求出的.例如，E(j+1)能由E(j)开始,再插入C_j′和删除C_j+1′后，以O(1)时间算出。

(3)本方法的步骤[1-1-5]中需要对存放候选离群点的离群值子集进行排序，由于离群值子集的基数只有m个，m值取决于lN值，m<<N，所以确保了算法具有较低的时间复杂度.Chaudhuri的确定离群值子集的Outlier-indexes算法需要对聚集属性列的全部N个值进行排序，与本发明提出的方法相比效率偏低.Outlier-indexes算法需要多遍扫描数据集，而本方法子步骤1-1的离群分离方法的优势在于只需单遍扫描数据集，能自然的扩展应用于数据流的近似聚集查询中，甚至是基于滑动窗口模型的数据流查询与分析中，因为任何能采集和维护一个概要数据结构的单遍扫描算法均能用于数据流模型.。

(4)本方法背景的单selection查询和带sum聚集的Group-by单表查询可以扩展到其他的聚集查询函数(如:avg)和外码连接(join)查询。

(5)本案方法的思想与大数据MapReduce的分而治之并行化处理思想非常嵌合，可自然运用于云计算和大数据框架中，可以将本方法推广用于大数据环境中动态数据流近似聚集查询中。

附图说明

图1是本发明实施例的误差与取样率变化；

图2是本发明实施例的误差与离群率变化。

具体实施方式

下面结合实施例对本发明作进一步详细说明：

我们在Oracle上实验本案提出的离群分治取样方法(可命名为Outlier-DivideConquer，简称OTLDIC)，在TPC-H基准测试数据集的基础上改写数据生成程序来获得不同离群率的高方差数据测试集，在测试数据集中比较本案方法与传统经典的Reservoir水库均匀取样算法(USAMP)，Outlier-indexes(OTLIDX)方法的查询质量。其中，将离群值从关系R中分离出来并生成离群值子集R_o的实现步骤如下所示：

在以上程序实现的基础上，根据取样率f对R中余下的非离群值Rn_o进行均匀取样,获得取样集T；

然后对数据进行查询处理，步骤如下

1.聚集离群值:在离群值子集Ro上运行聚集查询；

2.聚集非离群值:在非离群值子集Rn_o的均匀取样集T上运行聚集查询并乘以取样率的倒数，推算出Rn_o的近似查询值；

3.结合聚集值:结合Ro上的准确聚集值和Rn_o上的近似聚集值来得到R的近似聚集值。

比较本实施例与传统经典的Reservoir水库均匀取样算法(USAMP)和Outlier-indexes(OTLIDX)方法的查询评估的正确率；实验基于近似sum()聚集查询，图1的实验中取c＝2，N＝200000，离群率l＝0.5％，取样率f的变化范围从0.1％到10％，实验中求出的查询相对误差L₁的值取10轮实验值的平均值。通过实验比较发现:查询质量上，新方法与OTLIDX相差无几，但与均匀取样相比，即使在取样率很低的情况下，新方法也显著减少了误差程度，最多可减少误差71.6％，平均可减少误差37％。图2的实验中取c＝2，N＝200000，取样率f＝1％，离群率l的变化范围从0.1％到5％，求出的查询相对误差L₁的值也取10轮实验值的平均值。本案方法不论离群率多少均明显改善了取样质量，离群率越低改善越明显，这也意味着算法对数据离群率预测值输入的正确与否并不敏感，确保了方法的健壮性.另外，本案方法对离群率变化而导致的取样误差波幅比均匀取样算法小，算法稳定性也较好。

Claims

1.一种海量数据近似聚集查询中的离群分治取样方法，其特征在于：包括离群分离步骤和查询处理步骤，其中:

步骤1，离群分离：

步骤1-1，分离R中的离群值并生成离群值子集R_o：

步骤1-1-2，将关系R的数据集划分为m个窗口，m＝clN，即要求窗口数超过离群点数；公式中的c为正整数常数，2≤c≤1/l，如果离群值分散或均匀分布，c取下界值，否则取上界值；

步骤1-1-3，每个窗口的元组数

步骤1-1-4，对每个窗口i,i从1起算到第m个窗口止均重复以下的计算过程：

步骤1-1-4-1，从第i个窗口中顺序取出w个元组的{C₁,…,C_N}，并定义为{C₁′,…,C_w′}，C是查询Q的聚集属性列{C₁,…,C_N}；

步骤1-1-4-3，对每个窗口i中的每个元组j均实施以下的计算过程：

步骤1-1-4-3-1，计算除元组j之外的标准差值E(j)，E(j)＝S({C₁′,…C_j-1′,C_j+1′,…,C_w′}),S是C的子集的标准差,C₁′是低界值,C_w′是高界值；

步骤1-1-4-3-2，设E(j)取最小值时的j为j′，C_j′是候选离群点，将含C_j′的元组插入离群值子集R_o；

步骤1-1-5，合并与排序离群值子集R_o，只保留头lN个元组，lN是离群点数目；

步骤1-1-6，Rn_o＝R-Ro，非离群子集Rn_o为数据集R与离群值子集Ro的差集；

步骤1-2，根据取样率f对R中余下的非离群值Rn_o进行均匀取样，生成取样集T；

步骤2，查询处理：

步骤2-1，聚集离群值:在离群值子集Ro上运行聚集查询；

步骤2-3，结合聚集值:结合Ro上的准确聚集值和Rn_o上的近似聚集值来得到R的近似聚集值。