CN107391560B

CN107391560B - 一种方差优化直方图的构建方法和装置

Info

Publication number: CN107391560B
Application number: CN201710428418.6A
Authority: CN
Inventors: 史亮; 王勇; 张鸿
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2022-12-30
Anticipated expiration: 2037-06-08
Also published as: CN107391560A

Abstract

本发明提供了一种方差优化直方图的构建方法和装置，该方法按内存大小和查询精度设定样本数目K和直方图桶的个数B，有新元素出现时，为使样本数目保持在K，以在线数据采样方法优化内存空间的数据样本；根据优化的内存空间数据样本，动态构建方差优化直方图；该装置包括优化单元和构建单元。本发明提供的技术方案降低了数据规模与分布特征的影响，能有效减少数据倾斜或数据分布的不均匀带来的区间检索误差。

Description

一种方差优化直方图的构建方法和装置

技术领域

本发明涉及大数据计算领域，具体讲涉及一种方差优化直方图的构建方法和装置。

背景技术

大数据时代以海量、高速为特点的流数据成为热门研究方向，同时实时处理和分析流数据的应用需求也呈爆炸式增长。例如，2015年天猫“双十一”峰值交易值达到了8.59万笔/秒，是2014年“双十一”峰值3.85万笔/秒的2.23倍，蚂蚁花呗在开售1分钟成功交易的订单总量达到了52万笔，飞行状态下的波音737的引擎每小时产生近20TB的数据，又如网络监测、网络流量分析、事务日志分析和股票行情、交易等，越来越多的应用需要对高速海量的流式数据进行高精度的实时分析。

作为大规模流数据计算的常用模型之一的数据概要结构，其可以通过单遍扫描数据，在远小于数据规模的内存空间里不断更新压缩数据，利用概要技术提取所有数据的概要信息，并快速获得数据的分布特征。典型的概要技术包括直方图法、小波法和抽样法等。

采用直方图表示的概要技术方法既可直观、简洁的描述大数据集的分布特征，又可以快速返回近似聚合计算结果，同时还可以极大的减少网络传输的数据量。按照直方图桶边界划分方法将直方图分为等宽直方图、等深直方图、压缩直方图、方差优化直方图等。在大规模数据的聚合计算中，方差优化直方图在构造过程中各桶的方差和最小，相较于其他直方图而言，聚合查询的结果更加精准。

传统方差优化直方图是采用动态规划算法对离线数据构建的直方图，需要O(B·n²)时间复杂度，其中n为当前数据的总数，B为直方图桶的总数。现有技术中，在流数据环境下构建方差优化直方图时，需要的时间复杂度为O(n·(B/∈)²logn)，每写入一个新元素的复杂度为O((B/∈)logn)，其适用于有序流数据，且受限于内存空间，只能对指定时间窗口内的数据进行构建。

现有技术中的动态调整的近似方差优化直方图法，每将出现的一个新元素插入于对应的桶中，再对桶分裂或合并使得直方图整体的方差之和近似最优，该方法大大降底了构建时间复杂度，但在对待分裂桶和待合并桶进行方差计算前需要保存所有的原始数据，因此不利于在流式大数据环境下动态构建方差优化直方图；

现有技术中用样本数据构建方差优化直方图的方法中构建的前提是知晓数据的分布，继而对连续出现的流数据进行随机采样，但不足之处是数据分析精确度较低。

综上所述，为满足大数据时代对流数据的高精度分析需求，需要提供一种新的快速构建方差优化直方图的方法。

发明内容

为满足现有技术发展的需要，本发明提供了一种流数据环境下方差优化直方图的构建方法。

本发明提供的方差优化直方图构建方法，所述方法包括：

按内存大小和查询精度设定样本数目K和直方图桶的个数B，有新元素出现时，对新出现的元素进行预处理，同时为使样本数目保持在K，以在线数据采样方法优化内存空间的数据样本；根据优化的内存空间数据样本，动态构建方差优化直方图。

进一步的，所述新元素为K+1个元素，对所述K+1个新元素进行方差优化处理时，按下式计算最小采样代价Cost：

式中，w_i和w_j：分别表示样本i、j的值，且w_i+w_j<τ且i<j；w_m：表示样本m的值；

若w_i<w_j，则将w_i累加到w_j上，同时删除样本i；

若w_i>w_j，则将w_j累加到w_i上，同时删除样本j；

进一步的，所述新元素为K+1个元素，对所述K+1个元素进行方差优化处理时，按下述方法选取满足min(w_i+w_j)的两个相邻样本i，j：

若w_i<w_j，则将w_i累加到w_j上，同时删除样本i；

若w_i>w_j，则将w_j累加到w_i上，同时删除样本j。

进一步的，还包括小顶堆H，当前抽样阈值τ，累计值L_sum，数据样本个数L_count；所述小顶堆H的最大值为K，所述抽样阈值τ、累计值L_sum，数据样本个数L_count的初始数据都为0；

对所述新出现的元素进行预处理包括:

1)若该新元素的值小于当前抽样阈值τ，则将该元素的值累加到L_sum，同时将L_count的值加1；

2)当新元素大于当前抽样阈值τ时，将该新元素存储到小顶堆H中：若小顶堆H中元素数目达到限定的最大数据样本数目K，或小顶堆H中的最小元素小于当前抽样阈值τ，则将小顶堆H中最小元素的值累加到L_sum中，同时将L_count的值加1，并删除小顶堆H中的最小元素，调整小顶堆H结构；

将抽样阈值τ更新为τ＝L_sum′/L_count′，其中，L_sum′：添加元素值后的样本；L_count′：添加新元素后的样本数据个数。

进一步的，所述动态构建方差优化直方图包括：

按序平均将K个样本数据存储在直方图的B个桶中，且计算直方图每个桶中数据的方差；

将存储样本的起始角标和结束角标作为桶的边界，记录桶中元素的方差，记录桶中元素的平均值和指向下一个桶的指针；

按桶的分裂合并代价，确定是否进行桶的分裂合并，使得所有桶的方差和最小。

进一步的，按下式计算所述分裂合并代价Δε：

式中，j：待合并的两个桶中所有的元素；

待合并的两个桶中元素的平均值；i：待分裂的桶中所有元素；

待分裂的桶中元素的平均值；ε_M和ε_S：分别表示待合并桶和待分裂桶中元素的方差；

当所述分裂合并代价Δε<0时将待合并的两个桶合并，将待分裂的桶分裂为两个等宽的桶，并同时更新合并和分裂后桶的边界、方差及指向下一个桶的指针；

反之，不分裂合并。

进一步的，所述待分裂桶包括当前方差最大的桶；所述待合并的两个桶包括当前方差最小的桶及其相邻的方差较小的一个桶。

本发明还提供一种方差优化直方图的构建装置，所述装置包括：

优化单元，按内存大小和查询精度设定样本数目K和直方图桶的个数B，有新元素出现时，对新出现的元素进行预处理，同时为使样本数目保持在K，以在线数据采样方法优化内存空间的数据样本；

构建单元，根据优化的内存空间数据样本，动态构建方差优化直方图。

进一步的，所述优化单元包括：

数据采样子单元，用于在线选取满足条件的采样数据，并对当前样本集中的K+1个元素进行方差优化处理，将K+1个样本数据删减到K个，使采样代价最小；

阈值计算子单元，用于在线数据采样过程中抽样阈值的实时计算；

参数设置子单元，用于根据内存限定和查询精度需求设定最大数据样本数目K和直方图桶的个数B；用于在抽样阈值计算时，初始化参数，并实时更新各参数；

进一步的，所述构建单元包括：

记录子单元，用于在动态构建过程中记录包括桶边界、桶中元素方差、桶中元素平均值和指向下一个桶的指针的参数，并根据分裂合并动作实时更新各参数；

判断子单元，用于根据桶的分裂合并代价，判断是否进行桶的分裂合并。

与最接近的现有技术比，本发明提供的技术方案具有以下有益效果：

1、本发明提供的技术方案根据进行方差优化的在线采样后的流数据以动态方式构建近似方差优化直方图，其动态构建过程以直方图的合并与分裂实现动态调整桶的边界，使直方图的整体方差最优，实现了海量流数据环境下动态构建方差优化直方图的方法，具有低延时高吞吐的特性，可以实现高精度的实时交互式区间的聚合查询。

2、本发明提供的技术方案对于数据的规模与分布特征不敏感，可以有效的降低数据倾斜或数据分布不均匀带来的区间检索误差；

3、本发明提供的技术方案在保证查询精度的情况下，有效提高了方差优化直方图构造效率，且能够在限定空间下进行构建，解决了流数据环境下传统构建方差优化直方图空间不足的问题，解决了传统方差优化直方图无法在限定空间内快速构建的问题。

附图说明

图1为本发明提供的方差优化直方图构建方法流程图；

图2为本发明提供的在线计算抽样阈值方法流程图；

图3为本发明提供的数据在线采样方法流程图。

具体实施方式

以下将结合说明书附图，以具体实施例的方式详细介绍本发明提供的技术方案。为使本发明实施例的目的、技术方案和有点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供的技术方案在限定空间内，以自适应的在线方差优化采样方法采样流数据，并利用样本数据动态构建近似方差优化直方图，流程图如图1所示，具体为：

(一)流数据环境下在线采样流数据的方法

根据限定的内存空间设定最大样本数目K，保存前K个到达的流数据，当第K+1个流数据到达时，对当前K+1个样本进行方差优化处理，使得样本数目维持在K个；

首先需要动态计算当前抽样阈值τ，抽样阈值的计算方法流程图如图2所示，在内存中维护一个用于存放大于抽样阈值τ的样本数据的小顶堆H和用于累计小于抽样阈值τ的样本数据和L_sum、用于累计小于抽样阈值τ的样本数据个数L_count的两个Long型变量，设抽样阈值τ的初始值为0,小顶堆H的最大个数为最大样本个数K，L_sum、L_count的初始值均为0。

当有新元素到达时，若该元素的值小于当前的抽样阈值τ，则将该元素的值累加到L_sum中，同时L_count的值增加1；

若该元素的值大于当前的抽样阈值τ，则将该元素存储到小顶堆H中，若小顶堆H中的元素已经达到了其限定的最大元素个数K，或小顶堆H中的最小元素，即堆顶元素的值小于当前的抽样阈值τ，将小顶堆H中堆顶元素的值累加到L_sum中，同时L_count的值增加1，并删除小顶堆H中该元素，并将当前抽样阈值τ更新为L_sum/L_count。

在流数据环境下，若当前样本数据的数目大于K个，即进行下述操作，实现在限定空间内的方差优化采样，本发明提供的技术方案将K+1个样本数据删减到K个且能保证方差优化，采样方法流程图如图3所示，具体设计了如下两种方案：

方案一：

对于当前样本集中K+1个元素，选取满足如下条件的两个样本i、j：

(i)w_i+w_j<τ且i<j；其中w_i、w_j分别为样本i、j的值

(ii)采样代价Cost最小，其中

对于满足条件的样本i、j，若w_i<w_j，则将w_i的值累加到w_j上，同时删除i元素；反之，若w_i>w_j，则将w_j的值累加到w_i上，同时删除j元素。

方案二：

对于当前的K+1个样本元素，选取相邻的两个元素i、j，这两个元素满足如下条件：min(w_i+w_j)。对于满足条件的样本i、j，若w_i<w_j，则将w_i的值累加到w_j上，同时删除i元素；反之，若w_i>w_j，则将w_j的值累加到w_i上，同时删除j元素。

通过实验发现，方案二在保证精度不损失的前提下，可以有效提高在线采样的效率，因此，在面向不同的业务需求时，可以选取不同的方案。

(二)在限定空间内动态构建方差优化直方图

首先，对直方图进行初始化，设定直方图桶的个数B，桶的个数B的大小与直方图区间查询精度成正比例关系，对K个样本数据构建等宽直方图，即每个桶中维护相同数量的样本，每个桶中记录存储样本的起始角标和结束角标作为桶的边界、该桶中元素的方差、该桶元素的平均值以及指向下一个桶的指针。随着样本数据的不断改变，通过桶的分裂合并调整桶的边界，使得所有桶的方差之和最小，实现近似方差优化直方图。

具体的动态维护过程为:

选择当前方差最大的桶作为待分裂桶，选择方差最小的桶及其相邻的方差较小的一个桶作为两个待合并桶，并按下式计算分裂合并代价Δε:

其中,j表示待合并的两个桶中所有的元素；

表示待合并的两个桶中元素的平均值；i表示待分裂桶中所有元素；

表示待分裂桶中元素的平均值；ε_M和ε_S：分别表示待合并桶和待分裂桶中元素的方差。

当分裂合并代价Δε为负数时，则执行桶的分裂合并操作，将待合并的两个桶合并为一个桶，更新桶的边界、方差以及指向下一个桶的指针，将待分裂的桶分裂为两个等宽的桶，即分裂为两个元素个数相同的桶，更新桶的边界、方差以及指向下一个桶的指针；

当分裂合并代价Δε为正数时，则不进行分裂合并操作。

(三)在限定空间下，面向流式大数据的动态构建方差优化直方图的实现方法。

用户根据具体的内存限定以及查询精度需求设定样本的最大个数K以及直方图桶的个数B，对于流数据中前K个到达的元素，全部按序存储到样本空间中，同时，每个桶中记录K/B个样本，并计算每个桶中数据的方差；

当有新的元素到达，按照(一)中提供的在线数据采样方法对样本进行处理，维护样本元素个数为K个，此时，重新计算有发生数据改变的直方图桶的方差，然后选取方差最小的桶及其相邻方差较小的一个同作为待合并的两个桶，选取方差最大的桶作为待分裂的桶，利用(二)中设计的分裂合并代价计算方法，判断是否要进行分裂合并操作，若进行了分裂合并操作，更新桶内维护的信息。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种流数据处理方法，包括：

输入流数据；

利用方差优化直方图提取所述流数据的概要信息；

构建所述方差优化直方图的步骤包括：

按内存大小和查询精度设定样本数目K和直方图桶的个数B，有新元素出现时，对新出现的元素进行预处理，同时为使样本数目保持在K，以在线数据采样方法优化内存空间的数据样本；根据优化的内存空间数据样本，动态构建方差优化直方图；

对所述新出现的元素进行预处理包括：

2)当新元素大于当前抽样阈值τ时，将该新元素存储到小顶堆H中：若小顶堆H中元素数目达到限定的最大数据样本数目K，或小顶堆H中的最小元素小于当前抽样阈值τ，则将小顶堆H中最小元素的值累加到L_sum中，同时将L_count的值加1，并删除小顶堆H中的最小元素，调整小顶堆H的结构；

将抽样阈值τ更新为τ＝L_sum′/L_count′，其中，L_sum′：添加元素值后的样本；L_count′：添加新元素后的样本数据个数；

其中，L_sum为累计值，L_count为数据样本个数，所述小顶堆H的最大值为K，所述抽样阈值τ、累计值L_sum，数据样本个数L_count的初始数据都为0；

所述动态构建方差优化直方图包括：

按桶的分裂合并代价，确定是否进行桶的分裂合并，使得所有桶的方差和最小；

按下式计算所述分裂合并代价Δε：

式中，j：待合并的两个桶中所有的元素；

当所述分裂合并代价Δε＜0时将待合并的两个桶合并，将待分裂的桶分裂为两个等宽的桶，并同时更新合并和分裂后桶的边界、方差及指向下一个桶的指针；

反之，不分裂合并。

2.如权利要求1所述的方法，其特征在于，所述新元素为K+1个元素，对所述K+1个新元素进行方差优化处理时，按下式计算最小采样代价Cost：

式中，w_i和w_j：分别表示样本i、j的值，且w_i+w_j＜τ且i＜j；w_m：表示样本m的值；

若w_i＜w_j，则将w_i累加到w_j上，同时删除样本i；

若w_i＞w_j，则将w_j累加到w_i上，同时删除样本j。

3.如权利要求1所述的方法，其特征在于，所述新元素为K+1个元素，对所述K+1个元素进行方差优化处理时，按下述方法选取满足min(w_i+w_j)的两个相邻样本i，j：

若w_i＜w_j，则将w_i累加到w_j上，同时删除样本i；

若w_i＞w_j，则将w_j累加到w_i上，同时删除样本j。

4.如权利要求1所述的方法，其特征在于，所述待分裂桶包括当前方差最大的桶；所述待合并的两个桶包括当前方差最小的桶及其相邻的方差较小的一个桶。

5.一种流数据处理装置，包括：

输入流数据的单元；

利用方差优化直方图提取所述流数据的概要信息的单元；

构建所述方差优化直方图包括：

构建单元，根据优化的内存空间数据样本，动态构建方差优化直方图；

对所述新出现的元素进行预处理包括：

所述动态构建方差优化直方图包括：

按下式计算所述分裂合并代价Δε：

式中，j：待合并的两个桶中所有的元素；

反之，不分裂合并。