CN110362600A

CN110362600A - 一种乱序数据流分布式聚合查询方法、系统及介质

Info

Publication number: CN110362600A
Application number: CN201910661427.9A
Authority: CN
Inventors: 许嘉; 吕品
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-10-22
Anticipated expiration: 2039-07-22
Also published as: CN110362600B

Abstract

本发明涉及计算机领域的流数据查询处理技术，具体涉及一种乱序数据流分布式聚合查询方法、系统及介质，为了解决现有乱序数据流聚合查询不能在降低查询处理延迟的同时保障聚合查询结果的最终正确性的问题，本发明一方面基于用户给定的结果质量限制来自适应地优化流处理模块所用的缓冲区大小，尽可能降低流处理模块的查询处理延迟，另一方面基于备份于分布式数据存储系统的历史流数据并由批处理模块以批处理的方式实现对晚到流元组的查询处理，从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集测试分析表明：本发明比目前最好的基于缓存的乱序数据流处理技术在平均查询处理时延、查询结果精度和系统可扩展性方面均具有显著优势。

Description

一种乱序数据流分布式聚合查询方法、系统及介质

技术领域

本发明涉及计算机领域的流数据查询处理技术，具体涉及一种乱序数据流分布式聚合查询方法、系统及介质。

背景技术

随着数据采集技术和网络通讯技术的不断发展和成熟应用，许多行业每时每刻都在产生大量流数据，因而如何对汹涌而至的流数据进行及时查询处理是当下亟待解决的研究问题，受到学术界和工业界的广泛关注。数据流上基于滑动窗口的连续聚合查询(后文简称为聚合查询)返回数据流上一定时间窗口内的流元组的聚合统计信息，支持包括事件跟踪、金融分析和网络监控在内的许多重要应用。然而，近年来分布式并行计算的引入在有效提高数据流查询处理效率的同时增加了查询处理系统的复杂性，导致数据流乱序现象越发突出，极大影响了数据流聚合查询结果的精度。

数据流乱序问题是数据流查询处理需要解决的首要基础性问题，国内外已有不少研究成果。按处理机理的不同，现有乱序数据流处理技术主要分为基于缓存的处理技术、基于标点的处理技术、基于推测执行的处理技术、近似处理技术和混合处理技术，并以基于缓存的处理技术为主流应用技术。基于缓存的处理技术通过构建缓冲区等待晚到的流元组，当缓冲区满载后基于流元组的时间戳对缓冲区内的流元组进行重排序，继而将有序的数据流片段发送至后端查询处理单元完成查询处理。K-slack技术是基于缓存的处理技术的典型代表，其中参数K是和缓冲区大小有关的松弛因子。具体而言，K-slack技术维护一个大小为K的缓冲区用于缓存已到达的流元组，缓冲区内的流元组在等待至多K个时间单位后会按其时间戳顺序被释放提交给查询处理单元完成查询处理。K-slack技术的设计难点在于如何确定K的大小，因为K的大小直接决定元组在缓冲区内的等待时间，从而影响对乱序数据流的查询处理效率。具体而言，K设置得越大，元组在缓冲区内的等待时间就越长，则有可能等到更多的晚到流元组一起进入下阶段的查询处理，从而提升查询结果质量。然而，等待时间的延长同时也会提高查询处理代价、增大查询处理延迟以及降低查询处理吞吐率。因而，不少相关研究工作专门针对K值的设定进行了研究和优化，以MP-K-slack技术和AQ-K-slack技术为代表。其中MP-K-slack技术基于流元组延迟的动态变化来不断调整K值，即用不断捕获的数据流上流元组的最大延迟值来更新K。可见，随着系统捕获的流元组的最大延迟值的不断增大，MP-K-slack技术设定的缓冲区也将不断变大，流元组在缓冲区内的等待时间也将不断增长，导致查询处理代价和查询处理延迟的上升以及查询处理吞吐率的下降。其后提出的AQ-K-slack技术则分别针对聚合查询和多流连接查询优化了K值的设定策略。特别地，在处理聚合查询时，AQ-K-slack技术以控制乱序数据流上聚合查询的结果精度为目标，实现了在保障一定结果精度的前提下，基于对较近历史流数据的延迟的统计信息动态优化K值，尽可能降低缓冲区大小。AQ-K-slack技术能够根据数据流上流元组延迟的动态变化自适应的增减K值，从而权衡了聚合查询的结果精度和查询处理延迟这两个重要指标，比MP-K-slack技术更具优越性。然而，由于内存大小的限制，基于缓存的处理策略只能忽略对延迟较大的流元组的查询处理，因而无论是MP-K-slack技术还是AQ-K-slack技术均不能保障聚合查询结果的最终正确性。可见，现有乱序数据流的查询处理技术通过牺牲查询处理结果质量换取了查询处理延迟的降低，从而保障对乱序数据流查询处理的及时性。然而，以用户点击数统计为代表的许多数据流查询分析应用，既要求系统能够对快速到达的乱序数据流进行及时的查询处理，又要求系统能够最终提供精确的查询结果，便于精准计费。因此，如何解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟的同时，保障聚合查询结果的最终正确性这个局限性问题，已经成为一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种乱序数据流分布式聚合查询方法、系统及介质，本发明一方面基于用户给定的结果质量限制自适应地优化流处理模块所用的缓冲区大小，尽可能降低流处理的查询处理延迟，另一方面基于备份于分布式数据存储系统的历史流数据并以批处理的方式实现对晚到流元组的查询处理，从而保障聚合查询结果的最终正确性，本发明比目前基于缓存的乱序数据流处理技术在平均查询处理时延、查询结果精度和系统可扩展性方面均具有显著优势。

为了解决上述技术问题，本发明采用的技术方案为：

一种乱序数据流分布式聚合查询方法，基于数据流分布式处理平台Apache Storm实现，所述数据流分布式处理平台Apache Storm的拓扑结构包括Kafka Spout及其下游多个并行执行的查询处理任务执行实例Squery Bolt Task构成的流处理模块、分布式数据存储模块以及批处理模块，所述乱序数据流分布式聚合查询方法的实施步骤包括：

1)向消息队列Kafka Spout输入流元组；

2)通过消息队列Kafka Spout向下游多个并行执行的查询处理任务执行实例Squery Bolt Task输入流元组，并同时将所有流元组存入分布式数据存储模块中的历史流数据表中，且通过批处理模块针对存入分布式数据存储模块中的历史流数据表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；

3)每个查询处理任务执行实例Squery Bolt Task基于输入参数和对输入流元组的统计信息计算缓冲区大小的最优值K^*，并将最优值K^*反馈给消息队列Kafka Spout；

4)消息队列Kafka Spout判断收到的元组时间戳ts∈[t_max-K^*-|W|,t_max]是否成立，其中，K^*为Squery Bolt Task上缓冲区大小的最优值，|W|为数据流聚合查询所涉及的滑动窗口大小，t_max为到达的流元组的最大时间戳；如果不成立则将该流元组信息存入分布式数据存储模块中的晚到流元组信息表中，且通过批处理模块针对存入分布式数据存储模块中的晚到流元组信息表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；否则，将该元组发送给流处理模块的一个查询处理任务执行实例Squery Bolt Task执行聚合查询处理，输出流处理模块的查询处理结果，将查询处理结果存入分布式数据存储模块中的查询结果表中。

优选地，步骤2)中通过消息队列Kafka Spout向下游多个并行执行的查询处理任务执行实例Squery Bolt Task输入流元组之前还包括通过消息队列Kafka Spout统计流元组的到达率N的步骤。

优选地，步骤3)中基于输入参数和对输入流元组的统计信息计算缓冲区大小的最优值K^*的详细步骤包括：

3.1)输入参数，包括用户聚合查询函数类型f(x)、用户给定误差阈值(ε_thr,δ)、流元组的到达率N、调整因子α、PD控制器的参数K_p和K_d；

3.2)根据用户聚合查询函数类型f(x)对应的“误差-窗口覆盖阈值”模型，根据流元组的到达率N和用户给定误差阈值(ε_thr,δ)、调整因子α、PD控制器的参数K_p和K_d计算满足用户给定误差阈值(ε_thr,δ)下的滑动窗口的窗口覆盖率阈值λ_thr；

3.3)计算系统运行时每个滑动窗口上的实际窗口覆盖率并记为序列{...，λ_i，...}，其中λ_i表示第i个滑动窗口的实际窗口覆盖率值，根据PD控制理论结合满足用户给定误差阈值(ε_thr，δ)时的窗口覆盖率阈值λ_thr计算调整因子α的调整量Δα，将调整因子α加上调整量Δα得到下阶段调整因子的优化值α^*；

3.4)计算缓冲区大小的基础值k，并结合所得到下阶段调整因子的优化值α^*计算K^*＝α*k得到缓冲区大小的最优值K^*。

优选地，步骤3.2)中计算满足用户给定误差阈值(ε_thr,δ)的窗口覆盖率阈值λ_thr具体是指计算满足用户给定误差阈值(ε_thr,δ)的滑动窗口内需要到达的流元组的比率作为窗口覆盖率阈值λ_thr，且窗口覆盖率阈值λ_thr满足λ_thr∈[0,1]。

优选地，步骤3.3)中计算系统运行时每个滑动窗口上的实际窗口覆盖率的函数表达式为λ_i＝n_rcv/(n_rcv+n_late)，其中λ_i表示第i个滑动窗口的实际窗口覆盖率值，n_rcv表示窗口闭合时Task所收到的窗口内流元组的个数，n_late则表示在窗口闭合后一段周期内才到达Task的本应落在该窗口内的流元组的个数。

优选地，步骤3.3)中根据PD控制理论计算本阶段调整因子α的调整量Δα的详细步骤包括：计算第i-1个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i-1)，计算第i个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i)，根据函数表达式Δα＝K_p*err(i)+K_d*(err(i)-err(i-1))计算本阶段调整因子α的调整量Δα，其中K_p和K_d为PD控制器的参数。

此外，本发明还提供一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台Apache Storm实现的计算机系统，该计算机系统被编程或配置以执行所述乱序数据流分布式聚合查询方法的步骤。

此外，本发明还提供一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台Apache Storm实现的计算机系统，该计算机系统的存储介质上存储有被编程或配置以执行所述乱序数据流分布式聚合查询方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述乱序数据流分布式聚合查询方法的计算机程序。

和现有技术相比，本发明具有下述优点：为了解决现有的乱序数据流聚合查询处理技术不能在降低查询处理延迟的同时保障聚合查询结果的最终正确性这个局限性问题，本发明一方面基于用户给定的结果质量限制自适应地优化流处理模块所用的缓冲区大小，尽可能降低流处理的查询处理延迟，另一方面基于备份于分布式数据存储系统的历史流数据并以批处理的方式实现对晚到流元组的查询处理，从而保障聚合查询结果的最终正确性。基于真实的乱序数据流数据集测试分析表明：本发明比目前最好的基于缓存的乱序数据流处理技术在平均查询处理时延、查询结果精度和系统可扩展性方面均具有显著优势。

附图说明

图1为本发明实施例方法中数据流分布式处理平台Apache Storm的结构示意图。

图2为本发明实施例方法的基本流程示意图。

图3为本发明实施例中生成最优值K^*的流程示意图。

图4为本发明实施例中数据流时间域划分的原理示意图。

图5为本发明实施例方法(HPM)和MP-K-slack技术的缓冲区大小对比。

图6为本发明实施例方法(HPM)和AQ-K-slack技术的查询处理时延比较。

图7为本发明实施例方法(HPM)和AQ-K-slack技术的累计查询结果精度对比。

图8为本发明实施例方法(HPM)在不同数据集上HPM的系统可扩展性测试。

具体实施方式

如图1所示，本实施例乱序数据流分布式聚合查询方法基于数据流分布式处理平台Apache Storm实现，数据流分布式处理平台Apache Storm包括Kafka Spout及其下游多个并行执行的查询处理任务执行实例Squery Bolt Task构成的流处理模块、分布式数据存储模块以及批处理模块。本实施例中，分布式数据存储模块基于Hbase实现，负责存储查询结果、晚到流元组信息以及历史流数据，此外也可以采用其他的分布式数据库。本实施例乱序数据流分布式聚合查询方法基于流行开源的数据流分布式处理平台Apache Storm设计与实现了分布式数据流查询处理的混合处理模型，用于在模型框架层面支持对乱序数据流聚合查询处理的及时性和查询结果最终的精确性。需要说明的是Apache Storm提供Spout和Bolt这两类分布式处理逻辑单元：其中Spout代表数据流的源头，负责生产和喷射流数据；Bolt代表消息处理者，负责处理流数据，既可执行过滤、聚合、查询等数据库操作，又能够通过将多个Bolt相连实现对数据流的逐级处理。本实施例乱序数据流分布式聚合查询方法在Apache Storm下的系统拓扑架构包括流处理模块、批处理模块和分布式数据存储模块。流处理模块包含Kafka Spout和SQuery Bolt这两个分布式处理单元。特别的，KafkaSpout实现了Kafka分布式消息队列的功能，能够将原始数据流转换成Storm下的流元组形式并喷射给下游分布式处理单元，与此同时将所有流数据备份存储至Hbase中。SQueryBolt有多个并行执行的Task，每个Task均负责完成3项任务：一是查询处理任务，即利用基于缓存的处理思想对从Kafka Bolt获取的乱序流数据执行基于滑动窗口语义的连续聚合查询处理，并将查询结果存储至Hbase中；二是晚到流元组信息的登记任务，即将那些无法被流处理模块处理的晚到流元组的时间戳信息写至Hbase中；三是缓冲区优化任务，即基于对流元组延迟信息的统计优化调整其缓冲区大小(即K值)。批处理模块则包含BQuery Bolt和Hbase Spout这两个分布式处理单元。具体而言，BQuery Bolt也拥有多个并行执行的Task，每个Task会基于一定的规则触发对晚到流元组的查询处理，并将基于晚到流元组得到的更精确查询结果写回Hbase中。Hbase Spout则负责向BQuery Bolt喷射其执行查询处理所需要的保存在Hbase中的晚到流元组信息以及处理晚到流元组所需的历史流数据信息。

鉴于现有研究工作不能很好地满足上述类型应用的实际需求，基于当下流行的开源数据流分布式处理平台Apache Storm，本实施例乱序数据流分布式聚合查询方法提出了分布式并行计算环境下基于混合处理模型(Hybrid Processing Model，HPM)的乱序数据流连续聚合查询处理技术。混合处理模型是分布式流处理模块和分布式批处理模块的混合。其中，分布式流处理模块(后文简称为流处理模块)利用基于缓存的处理思想并通过权衡聚合查询的结果精度和查询处理延迟来保障查询处理的及时性；分布式批处理模块(后文简称为批处理模块)则基于备份至分布式文件系统的历史流数据处理极其晚到的流元组，从而保障聚合查询结果的最终精准性。本实施例乱序数据流分布式聚合查询方法基于数据流分布式处理平台Apache Storm实现主要关注下述3个关键问题：1)如何在满足用户对流处理模块所提出的查询处理精度的前提下，尽可能缩减SQuery Bolt各个Task所使用的缓冲区大小(即优化其使用的K值)，从而尽可能减小流处理模块的查询处理延迟；2)如何确定哪些流元组进入流处理模块执行查询处理，而明确哪些流元组需要在批处理模块进行查询处理；3)需要优化和确定批处理模块执行查询处理的触发规则。

如图2所示，本实施例乱序数据流分布式聚合查询方法的实施步骤包括：

1)向消息队列Kafka Spout输入流元组；

需要说明的是，本实施例在输入流元组的同时还输入一系列的参数，但是，这些参数也可以通过设置的方式或者向特定的位置或者数据库读取的方式获取，并不限于在输入流元组的同时进行输入的这一特定实现方式。

4)消息队列Kafka Spout判断收到的元组时间戳ts∈[t_max-K^*-|W|,t_max]是否成立，其中，K^*为Squery Bolt Task上缓冲区大小的最优值，|W|为数据流聚合查询所涉及的滑动窗口大小，t_max为到达的流元组的最大时间戳；如果不成立则将该流元组信息存入分布式数据存储模块中的晚到流元组信息表中，且通过批处理模块针对存入分布式数据存储模块中的晚到流元组信息表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；否则，将该元组发送给流处理模块的一个查询处理任务执行实例Squery Bolt Task执行查询处理，输出流处理模块的查询处理结果，将查询处理结果存入分布式数据存储模块中的查询结果表中。

如图2所示，本实施例步骤2)中通过消息队列Kafka Spout向下游多个并行执行的查询处理任务执行实例Squery Bolt Task输入流元组之前还包括通过消息队列KafkaSpout统计流元组的到达率N的步骤。

如图3所示，本实施例步骤3)中基于输入参数和对输入流元组的统计信息计算缓冲区大小的最优值K^*的详细步骤包括：

3.2)根据用户聚合查询函数类型f(x)对应的“误差-窗口覆盖阈值”模型，根据流元组的到达率N、用户给定误差阈值(ε_thr,δ)、调整因子α、PD控制器的参数K_p和K_d计算满足用户给定误差阈值(ε_thr，δ)下的滑动窗口的窗口覆盖率阈值λ_thr；

3.3)计算系统运行时每个滑动窗口上的实际窗口覆盖率并记为序列{...,λ_i,...}，其中λ_i表示第i个滑动窗口的实际窗口覆盖率值，根据PD控制理论结合满足用户给定误差阈值(ε_thr，δ)时的窗口覆盖率阈值λ_thr计算调整因子α的调整量Δα，将调整因子α加上调整量Δα得到下阶段的调整因子的优化值α^*；

本实施例中，步骤3.2)中计算满足用户给定误差阈值(ε_thr,δ)的窗口覆盖率阈值λ_thr具体是指计算满足用户给定误差阈值(ε_thr，δ)的滑动窗口内需要到达的流元组的比率作为窗口覆盖率阈值λ_thr，且窗口覆盖率阈值λ_thr满足λ_thr∈[0,1]。用户给定的聚合查询结果质量要求形式为(ε_thr,δ)，其表示因数据流乱序而导致的聚合查询结果误差ε大于等于误差阈值ε_thr的概率不大于阈值δ，即prob(ε≥ε_thr)≤δ。考虑到数据流乱序导致聚合查询存在查询结果误差的原因，在于SQuery Bolt在执行查询处理时滑动窗口内部分流元组因晚到而缺失，这类似于滑动窗口内的抽样过程，正常到达的流元组相当于被抽样算法抽到的流元组，而晚到流元组相当于没被抽样算法选中的流元组，因而可以利用统计抽样理论确定满足用户指定的结果质量要求(ε_thr,δ)时，滑动窗口内需要到达的流元组的比率(即窗口覆盖率阈值λ_thr，λ_thr∈[0,1])。而窗口覆盖率阈值λ_thr与所需的缓冲区大小是正相关关系，因而可基于λ_thr值来进一步确定SQuery Bolt所需的缓冲区大小。基于统计抽样理论和特定聚合查询的查询语义，可以推导出使聚合查询的结果质量达到用户给定的结果质量要求(ε_thr,δ)所需的窗口覆盖率阈值。例如Ji等在基于事件的分布式系统国际会议(2015:68-79)上发表的《在乱序数据流上对滑动窗口聚合的质量驱动处理》给出了聚合查询SUM的窗口覆盖率阈值的推导过程，又如Law等在国际商业智能与数据挖掘杂志(2008,3(1):99.)发表的《提高骤降负荷下数据流连续聚集和挖掘查询的准确性》给出了聚合查询AVERAGE、COUNT、MEDIAN以及QUANTILE的窗口覆盖阈值的推导依据。

本实施例中，步骤3.3)中计算系统运行时每个滑动窗口上的实际窗口覆盖率的函数表达式为λ_i＝n_rcv/(n_rcv+n_late)，其中λ_i表示第i个滑动窗口的实际窗口覆盖率，n_rcv表示窗口闭合时Task所收到的窗口内流元组的个数，n_late则表示在窗口闭合后一段周期内才到达Task的本应落在该窗口内的流元组的个数。

本实施例中，步骤3.3)中根据PD控制理论计算本阶段调整因子α的调整量Δα的详细步骤包括：计算第i-1个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i-1)，计算第i个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i)，根据函数表达式Δα＝K_p*err(i)+K_d*(err(i)-err(i-1))计算本阶段调整因子α的调整量Δα，其中K_p和K_d为PD控制器的参数。为了使缓冲区大小的调整过程更具平稳性，本实施例中基于PD控制器确定SQuery Bolt Task上所用的缓冲区大小值。PD控制器的输入参数有两类，分别是推导所得的窗口覆盖率阈值λ_thr以及查询处理过程中SQuery Bolt Task统计得到的每个历史滑动窗口的实际窗口覆盖率值序列，表示为{...,λ_i,...}。其中，SQuery Bolt Task基于公式n_rcv/(n_rcv+n_late)计算滑动窗口的实际窗口覆盖率值，这里n_rcv表示窗口闭合时Task所收到的窗口内流元组的个数，n_late则表示在窗口闭合后一段周期内才到达Task的本应落在该窗口内的流元组的个数。此处设缓冲区大小K＝αk，其中k是缓冲区大小的基础值，等于当前到达系统的所有流元组的延迟值的最大值；α是调整因子，其值由PD控制器计算得到。因此，基于PD控制器优化α在下一阶段查询处理中的优化取值即可继而确定下一阶段缓冲区的大小的优化值K^*。给定基于用户给出的查询结果质量要求(ε_thr，δ)推导得到的窗口覆盖阈值λ_thr和SQuery Bolt Task计算得到每个历史滑动窗口的实际窗口覆盖率值序列{...，λ_i，...}，则基于PD控制器理论，下一查询处理阶段中调整因子α的优化值为α^*＝α+Δα。

如图4所示，基于优化的缓冲区大小值K^*和滑动窗口的大小|W|可以将流元组按时间域划分为3类。若用符号t_max表示到达查询处理系统的流元组的最大时间戳，则第一类流元组的时间戳落在区间(t_max-K^*,t_max]中，第二类流元组的时间戳落于区间[t_max-K^*-|W|,t_max-K^*]，第三类流元组的时间戳则小于t_max-K^*-|W|。由于数据流上窗口的闭合条件为窗口的最大时间戳小于等于值t_max-K^*，可见若当前到达的流元组属于第一类，则其所对应的滑动窗口还未闭合，此时应将其发送给流处理模块的SQuery Bolt并置于缓冲区内等待后续被查询处理。若当前到达的流元组属于第二类，则意味着SQuery Bolt正在对其所属的滑动窗口执行聚合查询处理，故应该将其发送给SQuery Bolt执行查询处理。若当前到达的流元组属于第三类，则说明其所对应的滑动窗口已经闭合且过期，即SQuery Bolt已删除了该滑动窗口的所有流元组，因而该流元组已无法被流处理模块进行查询处理，而由批处理模块负责后续完成对其的查询处理。

批处理模块一方面需要针对存入分布式数据存储模块中的历史流数据表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；另一方面，还需要针对存入分布式数据存储模块中的晚到流元组信息表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中。为了完成对晚到数据流元组的查询处理，保证聚合查询结果的最终正确性，本实施例中的批处理模块需要从Hbase中读取晚到流元组对应的滑动窗口内的所有历史流数据。然而，如果每收到一个晚到流元组都执行一次对Hbase的访问会降低批处理模块的查询执行效率，因为网络传输代价和异地磁盘访问的I/O代价都会影响查询执行的效率。故可以将一系列到达时间相近的晚到流元组作为一个批次来统一执行一次批查询处理。具体而言，批处理模块中的Hbase Spout会监控流处理模块中的Kafka Spout存入Hbase的晚到流元组信息，并依次计算当前Hbase中存储的所有晚到流元组中最大时间戳和最小时间戳的差值，当该差值大于某一特定时间间隔阈值Γ时，则将这些遍历过的晚到流元组打包为一个批次，并触发批处理模块中的BQuery Bolt对该批次的晚到流元组执行查询处理。

本实施例乱序数据流分布式聚合查询方法实际上是一种分布式并行计算环境下基于混合处理模型(Hybrid processing model，HPM)的乱序数据流连续聚合查询处理技术，故本实施例中将其简称为HPM，为了对本实施例乱序数据流分布式聚合查询方法(以下简称HPM)的性能进行评估，本实施例中使用的集群由3个计算节点构成，每个计算节点的配置是双核CPU、2GB内存，运行64位的Linux(Ubuntu 16.04)操作系统。参数设置方面，将HPM涉及的PD控制器的输入参数Kp和Kd的值分别设置为0.2和4；将HPM的批处理模块触发条件判定时用到的参数时间间隔阈值Γ设定为5s；将用户给定的查询结果质量要求设置为(0.05，0.05)；并将聚合查询的滑动窗口大小和滑动步长分别设置为0.5s和0.1s。在查询设置方面，以连续聚合查询SUM为测试对象。由于分布式计算环境下单机聚合查询的计算量不是主要代价，因而对聚合查询SUM的实验测试结论也同样适用于解释对其他聚合查询(例如COUNT、MEDIAN、QUANTILE和AVERAGE)的处理效果。实验数据方面，使用“德国纽伦堡体育馆足球比赛数据集(RTLS)”中两条真实的乱序数据流Game 1和Game 2进行，如表1所示，与Game 1相比，Game 2拥有更高的晚到流元组个数、流元组最大延迟值、流元组平均延迟值和晚到流元组比率值，因而乱序程度更高。

表1：“德国纽伦堡体育馆足球比赛数据集”数据流乱序情况统计。

图5和图6分别比较了本实施例乱序数据流分布式聚合查询方法(HPM)和现有的MP-K-slack技术在执行乱序数据流聚合查询处理过程中的缓冲区大小变化和平均查询处理时延(即流元组从进入系统到系统最终输出查询结果之间的平均时间间隔)。由于AQ-K-slack技术和HPM一样也是基于用户给定的结果质量要求来调整缓冲区设置大小，因而此处不针对AQ-K-slack技术进行横向比较。如图5所示，由于MP-K-slack技术不断用当前得到的流元组的最大延迟值来更新缓冲区大小K，因而其缓冲区大小随时间推移不断增大，前500s的处理过程中其缓冲区大小最后维持在17s左右。而HPM由于基于用户对查询质量的要求在数据流乱序程度不高时动态调减了缓冲区的设置大小，因而其平均缓冲区大小仅为2.7s，显著低于MP-K-slack技术的缓冲区大小。由于缓冲区大小值K决定了流元组的排队等待时间，结合图5的结论易理解在图6中MP-K-slack技术的平均查询处理时延显著高于HPM的平均查询处理时延。特别的，HPM在乱序程度最高的Game 2数据流上的平均查询处理时延仅为MP-K-slack技术的20％。

图7展示了本实施例乱序数据流分布式聚合查询方法(HPM)和AQ-K-slack技术在处理乱序数据流上连续聚合查询时的累计查询结果精度随系统运行时间的变化情况。HPM和AQ-K-slack技术都可以在流处理时保障用户指定的查询结果质量(即保障查询结果精度为95％)。由图5可见，随着晚到流元组的逐步到达，本实施例乱序数据流分布式聚合查询方法(HPM)能够基于Hbase中备份的历史流数据完成对晚到流元组的查询处理，并提供最终精确的查询结果，因而其累计查询结果精度随时间推移逐渐逼近于100％。而AQ-K-slack技术为了保障查询处理的及时性，在满足结果质量要求后会放弃对部分晚到流元组的查询处理，故该技术不能保障聚合查询结果的最终正确性。

由图8可见，不论在Game 1还是Game 2数据集上，随着本实施例乱序数据流分布式聚合查询方法(HPM)中SQuery Bolt的并行执行Task数目的增大，系统查询处理的吞吐率均呈线性递增的趋势，表明HPM具有良好的系统可扩展性。

综上所述，数据流上的连续聚合查询处理是分析和挖掘数据流的重要操作。分布式并行计算是提高数据流查询处理效率的有效手段，但同时带来了突出的数据流乱序问题，导致查询处理的延迟增大、查询结果的质量降低。现有的乱序数据流分布式聚合查询处理技术不能在降低查询处理延迟的同时，保障聚合查询结果的最终精确性，因此存在局限性。本实施例乱序数据流分布式聚合查询方法(HPM)一方面该技术基于用户给定的结果质量要求自适应地调整缓冲区大小，从而尽可能降低流处理端的查询处理延迟，另一方面该技术利用分布式数据存储系统备份历史流数据，并基于批处理模块实现对极其晚到流元组的查询处理，从而保障了聚合查询结果的最终正确性。基于真实的乱序数据流数据集对本实施例乱序数据流分布式聚合查询方法(HPM)进行测试分析证实：本实施例乱序数据流分布式聚合查询方法(HPM)比目前最好的基于缓存的乱序数据流处理技术在平均查询处理时延、查询结果精度和技术的系统可扩展性方面均具有显著优势。

此外，本实施例还提供一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台Apache Storm实现的计算机系统，该计算机系统被编程或配置以执行本实施例前述所述乱序数据流分布式聚合查询方法的步骤，

此外，本实施例还提供一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台Apache Storm实现的计算机系统，该计算机系统的存储介质上存储有被编程或配置以执行本实施例前述所述乱序数据流分布式聚合查询方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述所述乱序数据流分布式聚合查询方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种乱序数据流分布式聚合查询方法，基于数据流分布式处理平台Apache Storm实现，所述数据流分布式处理平台Apache Storm的拓扑结构包括Kafka Spout及其下游多个并行执行的查询处理任务执行实例Squery Bolt Task构成的流处理模块、分布式数据存储模块以及批处理模块，其特征在于，所述乱序数据流分布式聚合查询方法的实施步骤包括：

1)向消息队列Kafka Spout输入流元组；

2)通过消息队列Kafka Spout向下游多个并行执行的查询处理任务执行实例SqueryBolt Task输入流元组，并同时将所有流元组存入分布式数据存储模块中的历史流数据表中，且通过批处理模块针对存入分布式数据存储模块中的历史流数据表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；

4)消息队列Kafka Spout判断收到的元组时间戳ts∈[t_max-K^*-|W|,t_max]是否成立，其中，K^*为查询处理任务执行实例Squery Bolt Task上缓冲区大小的最优值，|W|为数据流聚合查询所涉及的滑动窗口大小，t_max为到达的流元组的最大时间戳；如果不成立则将该流元组信息存入分布式数据存储模块中的晚到流元组信息表中，且通过批处理模块针对存入分布式数据存储模块中的晚到流元组信息表中的流元组定期执行批处理查询处理，输出批处理模块的查询结果并将查询处理结果存入分布式数据存储模块中的查询结果表中；否则，将该元组发送给流处理模块的一个查询处理任务执行实例SQuery Bolt Task执行聚合查询处理，输出流处理模块的查询处理结果，将查询处理结果存入分布式数据存储模块中的查询结果表中。

2.根据权利要求1所述的乱序数据流分布式聚合查询方法，其特征在于，步骤2)中通过消息队列Kafka Spout向下游多个并行执行的查询处理任务执行实例Squery Bolt Task输入流元组之前还包括通过消息队列Kafka Spout统计流元组的到达率N的步骤。

3.根据权利要求2所述的乱序数据流分布式聚合查询方法，其特征在于，步骤3)中基于输入参数和对输入流元组的统计信息计算缓冲区大小的最优值K^*的详细步骤包括：

3.2)根据用户聚合查询函数类型f(x)对应的“误差-窗口覆盖阈值”模型，根据流元组的到达率N、用户给定误差阈值(ε_thr,δ)、调整因子α、PD控制器的参数K_p和K_d计算满足用户给定误差阈值(ε_thr,δ)下的滑动窗口的窗口覆盖率阈值λ_thr；

3.3)计算系统运行时每个滑动窗口上的实际窗口覆盖率并记为序列{...,λ_i,...}，其中λ_i表示第i个滑动窗口的窗口覆盖率值，根据PD控制理论结合满足用户给定误差阈值(ε_thr,δ)时的窗口覆盖率阈值λ_thr计算调整因子α的调整量Δα，将调整因子α加上调整量Δα得到下阶段调整因子的优化值α^*；

4.根据权利要求3所述的乱序数据流分布式聚合查询方法，其特征在于，步骤3.2)中计算满足用户给定误差阈值(ε_thr,δ)的窗口覆盖率阈值λ_thr具体是指计算满足用户给定误差阈值(ε_thr,δ)的滑动窗口内需要到达的流元组的比率作为窗口覆盖率阈值λ_thr，且窗口覆盖率阈值λ_thr满足λ_thr∈[0,1]。

5.根据权利要求3所述的乱序数据流分布式聚合查询方法，其特征在于，步骤3.3)中计算系统运行时每个滑动窗口上的实际窗口覆盖率的函数表达式为λ_i＝n_rcv/(n_rcv+n_late)，其中λ_i表示第i个滑动窗口的实际窗口覆盖率值，n_rcv表示窗口闭合时Task所收到的窗口内流元组的个数，n_late表示在窗口闭合后一段周期内才到达Task的本应落在该窗口内的流元组的个数。

6.根据权利要求3所述的乱序数据流分布式聚合查询方法，其特征在于，步骤3.3)中根据PD控制理论计算本阶段调整因子α的调整量Δα的详细步骤包括：计算第i-1个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i-1)，计算第i个滑动窗口的实际窗口覆盖率值相对于窗口覆盖率阈值λ_thr的误差，得到第i个滑动窗口的窗口覆盖率误差err(i)，根据函数表达式Δα＝K_p*err(i)+K_d*(err(i)-err(i-1))计算本阶段调整因子α的调整量Δα，其中K_p和K_d为PD控制器的参数。

7.一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台ApacheStorm实现的计算机系统，其特征在于，该计算机系统被编程或配置以执行权利要求1～6种任意一项所述乱序数据流分布式聚合查询方法的步骤。

8.一种乱序数据流分布式聚合查询系统，包括基于数据流分布式处理平台ApacheStorm实现的计算机系统，其特征在于，该计算机系统的存储介质上存储有被编程或配置以执行权利要求1～6种任意一项所述乱序数据流分布式聚合查询方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～6种任意一项所述乱序数据流分布式聚合查询方法的计算机程序。