CN104216887A - 用于对采样数据进行总结的方法和装置 - Google Patents

用于对采样数据进行总结的方法和装置 Download PDF

Info

Publication number
CN104216887A
CN104216887A CN201310207883.9A CN201310207883A CN104216887A CN 104216887 A CN104216887 A CN 104216887A CN 201310207883 A CN201310207883 A CN 201310207883A CN 104216887 A CN104216887 A CN 104216887A
Authority
CN
China
Prior art keywords
value
grouping
polymerizing
time
polymerizing value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310207883.9A
Other languages
English (en)
Other versions
CN104216887B (zh
Inventor
刘凯
黄胜
陈晓艳
陈垚亮
王晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201310207883.9A priority Critical patent/CN104216887B/zh
Publication of CN104216887A publication Critical patent/CN104216887A/zh
Application granted granted Critical
Publication of CN104216887B publication Critical patent/CN104216887B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本公开涉及用于对采样数据进行总结的方法和装置。该方法包括:根据下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述分量包含被聚合为该聚合值的采样数据的平均值;针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。从而,能够实现对采样数据的准确总结。

Description

用于对采样数据进行总结的方法和装置
技术领域
本发明涉及数据处理领域,并且更具体地,涉及数据处理领域中用于对采样数据进行总结的方法和装置。
背景技术
在物联网环境中,布置在不同位置处的传感器采集周围环境中的数据,并按照时间顺序将感测到的采样数据发送给处理装置,使得处理装置能够监控采样数据并由此进行不同的处理。以不同的时间分辨率(也可被称为时间粒度)监视时间顺序的采样数据并根据采样数据进行控制和操作已变得越来越重要。因此,需要一种方式来实时且准确地查询不同时间粒度下的采样数据的聚合值(也可以被称为总结值或者统计值),以便快速地帮助进行控制。
目前,存在如下两种查询大量采样数据的聚合值的方法。第一种方法是存储原始采样数据,并通过在线聚合提供用户查询结果。在该方法中,大量的时间顺序的采样数据被存储,并且响应于用户的查询时间粒度和查询时间范围,对每个查询时间粒度对应的时间窗口中的采样数据进行在线计算以聚合出用户感兴趣的聚合值,接着将计算出的聚合值呈现给用户。该方法由于需要进行在线计算,因此具有较高的时间代价,从而导致对于用户查询的处理延时过长。另外,如果不同的用户需要查询相同时间范围内的相同聚合值,那么该方法将重复读取相同的采样数据并重复计算相同的聚合值,这将导致系统资源的大量浪费。
第二种方法是预先以多个固定的时间粒度值对原始采样数据进行聚合,得到固定时间粒度值下的聚合值,并将得到的聚合值存储在数据库或文件中。然后,根据用户的查询请求从数据库或文件中读取相应的聚合值,并向用户输出查询结果。该方法由于是在固定的时间粒度值下对采样数据进行聚合,因此该方法不能有效地区分采样数据振荡剧烈的情况和采样数据几乎保持稳定的情况。然而,采样数据振荡剧烈与否往往携带了大量的有用信息。由于该方法在对采样数据进行聚合时忽略掉了采样数据本身的变化情况而对反映出不同特征的采样数据同等地处理,使得该方法聚合得到的聚合值并不准确。并且,由于在采样数据几乎保持稳定的情况下,该方法并没有用尽可能少的数据量表征这部分采样数据,因而得到的聚合值中存在一定的冗余,使得该方法得到的聚合值的存储量相对较大。
发明内容
本发明实施例提供了一种用于对采样数据进行总结的方法和装置,能够考虑到采样数据的变化情况来对采样数据进行准确地总结,从而有效地提供采样数据的聚合值。
根据本发明的一方面,提供了一种用于对采样数据进行总结的方法,包括:根据时间粒度范围比当前层的时间粒度范围大的下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
根据本发明的另一方面,提供了一种用于对采样数据进行总结的装置,包括:第一分组部件,被配置为根据时间粒度范围比当前层的时间粒度范围大的下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;第一计算部件,被配置为针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;第一合并部件,被配置为在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;第一确定部件,被配置为针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
根据上述技术方案,通过将分组平均值接近的分组进行合并以作为一个整体计算聚合值,使得能够在采样数据变化慢时使用较大的时间窗口进行数据聚合,在采样数据变化快时使用较小的时间窗口进行数据聚合,从而能够更有效地跟踪采样数据的变化,避免对表现出不同变化特性的采样数据同等地对待。因此,通过对不同分组的合并处理,能够更准确地表征采样数据的统计特性,得到更准确的聚合值。此外,由于对不同分组的合并处理,使得可以减少聚合值中的冗余,从而减小聚合值的存储量。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2示出了根据本发明实施例的能够对采样数据进行总结并能够使用户查询总结结果的系统的框图。
图3示出了根据本发明实施例的对采样数据进行总结的方法的流程图。
图4示出了根据本发明实施例的对采样数据进行总结得到的聚合值的存储结构的例子。
图5示出了根据本发明实施例的对采样数据进行总结的方法的流程图。
图6示出了根据本发明实施例的对采样数据或聚合值进行分组并合并的示意图。
图7示出了根据本发明实施例的对采样数据的总结结果进行查询的方法的流程图。
图8示出了根据本发明实施例的对采样数据的总结结果进行查询的方法的另一流程图。
图9A-9C示出了根据本发明实施例的对采样数据的总结结果进行查询得到的查询结果的例子。
图10示出了根据本发明实施例的用于对采样数据进行总结的装置的结构框图。
图11示出了根据本发明实施例的用于对采样数据进行总结的另一装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
首先参照图2,描述根据本发明实施例的能够对采样数据进行总结并能够使用户查询总结结果的系统的大体框图。
图2所示的系统包括用户侧部分210和网络侧部分220。用户侧部分210主要用于通过查询引擎API(应用程序编程接口)从用户接收参数设置和/或查询请求。来自用户的参数设置可以用于设置对采样数据进行总结处理所需的参数,例如每一层的时间粒度范围、对采样数据进行分组以总结得到最精细层所需的预定时间段、和/或总结的层数等。来自用户的查询请求可以包括用户希望的查询时间范围、查询时间粒度、查询的聚合值个数、查询的聚合值类型、和/或效率优先还是精度优先等。其中,参数设置也可以采用预先设置的缺省值,并且参数设置也可以由技术人员直接输入网络侧部分220而不经由用户侧部分。
网络侧部分220主要用于对采样数据进行总结并保存总结后得到的聚合值,并且还可以响应于用户的查询请求输出满足用户需求的聚合值。如图2所示,网络侧部分220包括总结构建器230、数据库270、查询引擎260、数据接收器接口280。
数据接收器接口280用于接收来自传感器的时间顺序的采样数据,并将采样数据输出给总结构建器230。
总结构建器230用于对采样数据进行总结。这里使用的术语“总结”可以表示计算某一时间段内的采样数据的统计特性,包括但不限于计算这些采样数据的平均值、最小值、最大值、个数、方差等。对采样数据进行总结得到的聚合值可以包括这些采样数据的平均值、最大值、最小值、个数、方差等。在进行总结的过程中,总结构建器230需要根据预定时间段(例如10分钟)将从数据接收器接口280接收的采样数据进行分段。然后,总结构建器230对于每个分段的采样数据总结得到最精细层的聚合值,再根据最精细层的聚合值总结得到时间粒度大于最精细层的时间粒度的下一层的聚合值,接着根据所述下一层的聚合值总结得到时间粒度更大的下一层的聚合值,以此类推。总结构建器230在将采样数据进行分段的同时,将这些原始的采样数据250与其时间戳对应地存储在可以是实时数据库RTDB或时间系列数据库TSDB的数据库270中,以使得能够查找原始的采样数据。此外,总结构建器230还将在不同时间粒度下总结得到的聚合值保存在总结结构240中。总结结构240可以通过指针等在数据库270中找到某聚合值对应的原始采样数据。总结结构240可以存储在数据库270中,也可以存储在其它的存储设备中。
查询引擎260接收用户从用户侧部分210中的查询引擎API输入的查询请求。该查询请求可以包括聚合时间窗口、查询的聚合值个数等。接着,查询引擎API可以根据查询请求从总结结构240中或数据库270中查找满足用户查询请求的聚合值或原始采样数据。
网络侧部分220中的上述部件可以是逻辑功能模块。这些部件可以与网络中的具体设备(例如,数据库、服务器、处理节点等)相对应,也就是说,这些部件中的每一个可以位于一个网络设备中。但是,这些部件也可以分布式部署在不同的网络设备中,或者部分位于一个网络设备中而另一部分位于另一网络设备中。此外,网络侧部分220中的部件也可以位于用户侧。本发明对此不作限制。
接下来,将详细描述图2所示的系统中的各部件的具体操作和细节。
在图3中示出了可以由总结构建器230执行的根据本发明实施例的对采样数据进行总结的方法300的流程图。
在S310中,总结构建器230根据预定时间段(例如10分钟)将从数据接收器接口280输入的时间顺序的原始采样数据进行分段。这样,可以将原始采样数据划分为多段的采样数据集合,每个集合包含预定时间段内的采样数据。
在S320中,这些原始采样数据可以如图4所示那样被存储在诸如RTDB或TSDB之类的数据库中。也就是说,这些原始采样数据可以与它们对应的时间戳相关联地存储。举例来说,在图4所示的数据库中,2013年5月3日14:01到14:10这一时间段内的原始采样数据可以依次存储在第一行中,2013年5月3日14:11到14:20这一时间段内的原始采样数据可以依次存储在第二行中,以此类推。通过时间戳可以确定每个采样数据的采样时间。例如,在等间隔采样中,每个采样数据的采样时间均分时间戳。再例如,在非等间隔采样中,可以将每个采样数据的采样时间保存在时间戳内。
在S330中,对于每一个采样数据集合,根据基本时间粒度将该集合中的按时间顺序排列的原始采样数据进行进一步的分组。该基本时间粒度可以是如图4所示的最精细层(第n层)的时间粒度范围的最小值或最小值能够整除的数。
这里,假设图4所示的最精细层的时间粒度范围为1分钟至8分钟,那么基本时间粒度可以被设置为1分钟。以1分钟的时间窗口对10分钟的原始采样数据集合进行分组,共分成10个分组。如果采样间隔为1秒钟,那么在一个分组中具有60个采样数据。
在S340中,对基于基本时间粒度划分得到的每个分组进行总结,即,计算每个分组的聚合值。聚合值也可以被称为总结值或统计值,用于表征所聚合的采样数据的统计特性,例如分组中的所有采样数据的平均值、最大值、最小值、个数等。这里,假设同时计算每个分组中的所有采样数据的平均值、最小值、最大值和个数,并将这四类数值作为每个分组的聚合值的四个分量。当然,也可以计算其它类型的聚合值分量,只要在聚合值中包括平均值即可,因为如下所述,平均值将被用于后续的合并处理。
在S350中,根据每个分组的聚合值中的平均值(也被称为分组平均值),对基于基本时间粒度划分得到的分组进行自适应地合并,并针对合并后得到的新分组重新计算该新分组的聚合值。
具体而言,在本发明的实施例中,能够被合并的分组是相邻分组,它们在时间上彼此连续,即,这些分组中的采样数据的采样时间在时间上是连续的。并且,能够被合并的分组的分组平均值相近。例如,能够被合并的分组的分组平均值之差在预定范围内,或者能够被合并的分组的分组平均值之差的绝对值小于预定阈值。
相邻分组合并后得到的新的分组代替被合并的相邻分组,作为一个分组再次参与到合并处理中,并且有可能与它的相邻分组再次进行合并。也就是说,可以不止一次地对分组进行合并,只要满足合并后的新的分组对应的时间长度仍然处于当前进行总结的层的时间粒度范围内即可。
举例来说,假设当前需要总结产生的层(例如最精细层)的时间粒度范围为1分钟至3分钟,5分钟的采样数据集合以1分钟为基本时间粒度被划分为5个连续的分组。每个分组的分组平均值可以通过该分组中的采样数据的采样值之和除以该分组中的采样数据的个数来求得。这里,假设5个分组的分组平均值分别为58、69、75、63、90。并且,假设当相邻分组的分组平均值之差的绝对值小于10时,这些分组可以合并。在该例子中,第2个分组和第3个分组首先合并(75-69<10),得到新的分组,并且该新分组的分组平均值为72。该新分组接着可与第4个分组合并(72-63<10),得到新的分组,并且该新的分组的分组平均值为67.5。虽然该新的分组的分组平均值与第1个分组的分组平均值之差的绝对值小于10(67.5-58<10),但是该新的分组并不能再与第1个分组相合并。这是因为,该新的分组由于已经包含了第2、3、4分组的采样数据而具有3分钟的时间长度,在1分钟至3分钟的时间粒度范围的约束下,其时间长度不能再被扩大,也就是说该新的分组不能再与其它分组进行合并。
这里所说的“自适应地合并”无需人为监控,而是根据分组平均值的大小关系在采样数据总结的时间粒度范围内进行分组的自动合并。从上述合并方式可以看出,分组平均值接近的相邻分组中的采样数据由于变化较小,因此可以用时间粒度范围内的较大时间窗口将这些采样数据作为一个整体进行聚合,从而可以用较少的数据量表示较大范围内的采样数据的统计特性,减小聚合值的数据冗余。不能被合并的分组由于用时间粒度范围内的较小时间窗口进行聚合,使得能够保留变化明显的这部分数据的统计特性,得到更准确的聚合值。
在S360中,在S350中合并得到的新分组的聚合值以及未在S350中合并的分组在S340中计算得到的聚合值被保存为图4所示的最精细层中的Si,每个Si表示一个分组(合并后的分组和未被合并的分组中的一个)的聚合值。并且,可以将Si与开始时间Ti相关联。开始时间Ti对应于聚合值Si所聚合的采样数据中的第一个采样数据的采样时间。通过当前聚合值Si的开始时间Ti和下一个聚合值Si+1的开始时间Ti+1,可以确定当前聚合值Si聚合了哪一时间段内的采样数据。此外,通过开始时间Ti,可以找到聚合值Si对应的原始数据。另外,聚合值Si和开始时间Ti可以成对对应地存储在图4所示的结构中的最精细层中。
在其它实施例中,与聚合值Si关联的时间参数也可以是结束时间Ei。结束时间Ei对应于被聚合为聚合值Si的采样数据中的最后一个采样数据的采样时间。通过当前聚合值Si的结束时间Si和下一个聚合值Si+1的结束时间Ei+1,可以确定下一个聚合值Si+1聚合了哪一时间段内的采样数据。此外,通过结束时间Ei,可以找到下一个聚合值Si+1对应的原始数据。当然,本领域技术人员可以容易地想到,与聚合值Si关联的时间参数还可以是聚合值Si所聚合的采样数据中任意预定位置处的采样数据的采样时间,例如,采样数据中位于这些采样数据总个数的1/4、1/3、1/2等位置处的采样数据的采样时间。通过相邻两个聚合值关联的时间参数,可以确定被聚合为这两个聚合值之一的采样数据的采样时间。
对于最精细层的每个聚合值,可以将其链接到相应的原始采样数据。例如,可以将聚合值Si与得到该聚合值Si的S310中划分的采样数据集合相链接。
这样,如图4所示的最精细层被构建。当然,最精细层也可以不包括聚合值与原始采样数据的链接。通过最精细层中的诸如开始时间的时间参数,可以从数据库中找到对应的原始采样数据。
最精细层(第n层)被构建之后,可以根据最精细层中的聚合值进一步总结出下一层(第n-1层)的聚合值。下一层的时间粒度范围大于最精细层的时间粒度范围,并且通常是最精细层的时间粒度范围的整数倍,这样每个在S310中划分得到的采样数据集合在进行粗粒度总结时,不会从中间被拆开。具体而言,第n-1层的时间粒度范围的最小值大于第n层的时间粒度范围的最大值,并且通常第n-1层的时间粒度范围的最小值是第n层的时间粒度范围的最小值的整数倍,第n-1层的时间粒度范围的最大值是第n层的时间粒度范围的最大值的整数倍。
在S370中,在总结下一层(第n-1层)的聚合值时,根据该层的时间粒度范围对最精细层的聚合值进行分组。举例来说,假设原始采样数据以预定10分钟的时间长度被划分为多个采样数据集合,每个10分钟的采样数据集合以1分钟至8分钟的时间粒度范围被总结得到最精细层的聚合值。当第n-1层的时间粒度范围为1小时至8小时时,可以用对于第n-1层来说为基本时间粒度的1小时对最精细层中的聚合值进行分组,依次将最精细层中的总共具有1小时时间长度的聚合值划分在不同的分组中。
在执行S370之后,针对第n-1层继续执行S340至S360。
在针对第n-1层进行总结的过程中,在S340中,对于在S370中得到的每个分组,将该分组中的每个聚合值视为如同采样数据那样的数据(不同之处在于,采样数据包含采样值,而聚合值包含总结得到的统计结果),计算它们的聚合值。这里,可以同时计算每个分组中的所有聚合值的平均值、最小值、最大值和个数,作为该分组的聚合值中的分量。具体而言,分组的聚合值中的平均值为该分组中的所有聚合值包含的平均值的算术平均(该算术平均的计算方式可以为对该分组中的所有聚合值包含的平均值求取算术平均,也可以为对与该分组中的所有聚合值相应的原始采样数据求取算术平均,两种方式得到的结果是相同的),分组的聚合值中的最小值为该分组中的所有聚合值包含的最小值中的最小值,分组的聚合值中的最大值为该分组中的所有聚合值包含的最大值中的最大值,分组的聚合值中的个数为该分组中的所有聚合值包含的个数之和。
在S350中,根据在S340中计算得到的每个分组的聚合值中的平均值(也就是,该分组的分组平均值,其等于分组中的所有聚合值中的平均值之和除以这些聚合值的个数),在第n-1层的时间粒度范围的约束下,对分组平均值之差在预定范围内的相邻分组进行合并,并针对合并后得到的新分组重新计算该新分组的聚合值。如上所示,可以进行多次合并,只要满足时间粒度范围和分组平均值大小关系的约束条件即可。
在S360中,将在S350中合并得到的新分组的聚合值以及未在S350中合并的分组在S340中计算得到的聚合值保存为图4所示的第n-1层中的Si’,每个Si’对应一个分组的聚合值。并且,可以将Si’与开始时间Ti’相关联。开始时间Ti’对应于Si’所聚合的最精细层中的第一个聚合值的开始时间。通过当前聚合值Si’的开始时间Ti’和下一个聚合值Si+1’的开始时间Ti+1’,可以确定当前聚合值Si’聚合了最精细层中的哪些聚合值,并可以确定聚合值Si’聚合了哪些时间段的采样数据。此外,聚合值Si’和开始时间Ti’可以成对对应地存储在图4所示的结构中的第n-1层中。如上所述,聚合值Si’也可以与结束时间E’或聚合采样数据的中间采样时间等相关联。
对于第n-1层中的每个聚合值Si’,可以为其关联一指针,以指向得到它的最精细层中的聚合值。例如,该指针可以指向得到Si’的最精细层中的第一个聚合值或者该聚合值所在的节点,或者指向得到Si’的最精细层中的所有聚合值或者这些聚合值所在的节点。本领域技术人员可以想到,也可以将第n-1层中的每个聚合值Si’链接到相应的原始采样数据。虽然在这种情况下会使存储结构复杂化,但可以更快速地根据聚合值检索到原始采样数据。
这样,如图4所示的第n-1层被构建。当然,第n-1层也可以不包括指针的生成。通过诸如开始时间的时间参数可以找到最精细层的聚合值,并可以找到相应的原始时间。
第n-1层被构造之后,可以进一步将时间粒度范围扩大,以进一步通过步骤S370、S340、S350和S360来生成第n-1层的下一层(第n-2层)的聚合值。通过第n-1层的聚合值生成第n-2层的聚合值的方式与通过最精细层的聚合值生成第n-1层的聚合值的方式类似。后续层中的各聚合值可能关联的指针可以指向得到该聚合值的处于该后续层的相邻子层中的聚合值,也可以指向得到该聚合值的原始采样数据。
具体而言,可以利用图5所示的方法500来根据当前层的聚合值生成下一层的聚合值。通过方法500,可以逐渐从最精细层依次生成时间粒度越来越粗糙的后续层,以便以越来越粗糙的时间粒度对采样数据在多粒度下分层次地进行准确的总结。
如图5所示,在S510中,根据下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;在S520中,针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;在S530中,在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;在S540中,针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
对于处于最精细层中的聚合值,聚合值中包含的平均值可以通过对被聚合为该聚合值的采样数据求平均得到,从而等于这些采样数据的平均值。对于处于时间粒度比最精细层粗糙的层(例如第n-1层、第n-2层等)中的聚合值,聚合值中包含的平均值可以通过对被聚合为该聚合值的相邻子层中的聚合值所包含的平均值求平均得到,从而等于这些平均值的平均值;也可以通过对被聚合为该聚合值的相邻子层中的聚合值所对应的原始采样数据求平均得到,从而等于这些原始采样数据的平均值。因此,对于处于时间粒度比最精细层粗糙的层中的聚合值,无论采用什么方式来计算该聚合值中包含的平均值,该平均值都等于被聚合为该聚合值的采样数据的平均值。
通过方法500,可以得到具有不同时间粒度范围的多层的聚合结果。通过对分组根据分组平均值进行合并,使得在采样数据变化慢时使用较大的时间窗口进行数据聚合,在采样数据变化快时使用较小的时间窗口进行数据聚合,从而能够有效地跟踪采样数据的变化,并能够得到更准确地表征采样数据的统计特性的聚合结果。
通过方法500得到的多层的聚合结果被存储为如图4所示那样的总结结构。要注意的是,图4只是本发明实施例的一个例子,用于表示不同粒度下的聚合值的逻辑存储形式。对于聚合值的存储方式不限于如图4所示那样的树结构,例如还可以采用文件形式存储不同粒度下的聚合值及其对应的时间参数。
在图4所示的总结结构的示意图中,如三角形所示,采用树形式存储有不同时间粒度范围下的聚合值。树结构的叶子节点层对应最精细层(第n层),非叶子节点层是从最精细层起以逐渐变粗糙的时间粒度范围依次生成的,最精细层是进行总结的时间粒度范围最小的层,其它层的时间粒度范围根据生成顺序逐渐增大。具体而言,第n-1层的时间粒度范围大于第n层的时间粒度范围,第n-2层的时间粒度范围大于第n-1层的时间粒度范围,以此类推。任意一层非叶子节点层的时间粒度范围是它相邻的子节点层的时间粒度范围的整数倍。不同的相邻两层的时间粒度范围之间的倍数可以不同。例如,第n层的时间粒度范围可以为20至23,第n-1层的时间粒度范围可以为26至29,第n-2层的时间粒度范围可以为210至213
在本发明的实施例中,为每一层指定时间粒度范围而不是如常规技术那样的固定的时间粒度值。这样做的好处可以包括,通过时间粒度范围可以更准确地反映采样数据的变化情况,从而更有效地针对不同变化情况的采样数据利用不同的时间窗口对不同时间长度内的采样数据进行总结,得到更准确的聚合值。具体而言,当以某层的时间粒度范围的量级对采样数据进行观察时,可以在采样数据变化快时使用较小的时间窗口进行数据聚合,在采样数据变化慢时使用较大的时间窗口进行数据聚合,从而可以与采样数据的变化情况相匹配地进行数据总结,更准确地表征采样数据的统计特性。并且,由于聚合所用的时间窗口可变,因此可以通过将长时间变化很小的采样数据包含在一个时间窗口中,来用较少的数据量表征这部分采样数据的统计特性,从而可以减少聚合值中的冗余由此减小聚合值的存储量。
图4中的总结结构的最精细层与存储在数据库(例如RTDB或TSDB)中的原始采样数据相链接。具体而言,将从数据接收器接口280输入的时间顺序的采样数据依次以预定时间段(例如10分钟)划分为不同的采样数据集合。每个采样数据集合在数据库中被示意性地表示为一行,并与相应的时间戳相关联。时间戳可以是一段时间也可以是多个时间点,可以是绝对时间也可以相对时间。通过时间戳可以确定每个采样数据的采样时间。
最精细层中的每一个叶子节点是从一个采样数据集合中总结得到的。也就是说,每一个叶子节点与数据库中的一行对应。在每个叶子节点中可以存储多个聚合值,并且还可以存储与聚合值对应的时间参数(在该例子中,为开始时间)。最精细层中的每个聚合值的产生可以参见上述步骤S310、S320、S330、S340、S350。聚合值至少包括平均值,并且还可以包括诸如个数、最小值、最大值之类的其它统计值。
例如,可以采用如下方式来获得最精细层中的各聚合值中包含的平均值。根据最精细层的时间粒度范围的最小值,对预定时间段(例如10分钟)内的采样数据进行分组;针对每个分组,对该分组中的所有采样数据的采样值求取平均,得到该分组的分组平均值;在最精细层的时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有采样数据求取平均以得到该新的分组的分组平均值;针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为最精细层的与该分组对应的聚合值中所包含的平均值。
对于最精细层中的聚合值中可能包含的其它聚合类型的数值(聚合值中的除平均值之外的其它分量),可以根据该聚合值对应的合并后分组或未合并分组所包含的采样数据来确定。
第n-1层中的每一个聚合值是通过将第n层中的多个节点的聚合值划分在同一个分组中而得到的。每个聚合值的产生可以参见上述步骤S370、S340、S350。具体而言,可以采用如下方式获得第n-1层中的各聚合值中包含的平均值。根据第n-1层的时间粒度范围的最小值,对第n层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;在第n-1层的时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为第n-1层的与该分组对应的聚合值中所包含的平均值。
对于第n-1层中的某聚合值中可能包含的其它类型的数值,可以根据该聚合值对应的合并后分组或未合并分组中所包含的第n层的聚合值来确定。
在第n-1层中的每个非叶子节点中可以存储多个聚合值,并且还可以存储与聚合值对应的诸如开始时间的时间参数。每个非叶子节点包含的聚合值的个数可以根据硬盘存取结构确定,使得每次从硬盘上读取第n-1层的数据时,可以完整地读取第n-1层的一个节点。
利用与从第n层生成第n-1层的方式相同的方式,可以从第n-1层生成第n-2层。以此类推,可以逐渐在时间粒度范围越来越粗糙的不同层中,生成不同时间分辨率下的聚合值。该树结构的最上一层可以是根节点。当然,具体的层数可以由用户设置,而不一定会生成根节点。
每个非叶子节点可以包含聚合值S’和对应的开始时间T’,如图4中的A部分所示。每个聚合值可以是一个向量,该向量至少包括平均值,还可以包括个数、最大值、最小值等。例如,聚合值S’可以是由(平均值,个数,最小值,最大值)构成的四维向量。每个非叶子节点中的聚合值S’可以指向树结构中的相邻子节点层中的某聚合值S,用于表示聚合值S’是从聚合值S起开始聚合的。非叶子节点还可以指向同一层中的下一个非叶子节点,用于表示这两个非叶子节点在时间上是连续的。
与每个非叶子节点类似,每个叶子节点可以包含聚合值S和对应的开始时间T,如图4中的B部分所示。聚合值S的构成可以与每个非叶子节点的聚合值的构成相同。每个叶子节点具有一个指针,用于指向数据库中与该叶子节点对应的时间段内的原始采样数据。叶子节点还可以指向同一层中的下一个叶子节点,用于表示这两个叶子节点在时间上是连续的。
在图6中示意性地示出了如何对采样数据或聚合值进行分组并合并的例子,以帮助更好地理解。
在610中,以波形形式示意性地示出了按照预定时间段(例如10分钟)对原始采样数据进行划分得到的一个采样数据集合,该集合包括时间顺序的采样数据。虽然610所示的波形被示为连续波形,但是该波形是由离散的采样数据构成的。
在620中,将610中的采样数据存储在数据库中,例如存储为图4所示的一行。
在630中,以最精细层的时间粒度范围(例如1分钟至8分钟)的最小值的约数(例如1分钟)对610中的采样数据集合进行分组,并计算每个分组中的所有采样数据的平均值。每个分组的平均值(分组平均值)用一个原点表示在630中。除了计算分组的平均值之外,还可以计算分组中的所有采样数据的其它统计特性,例如这些采样数据的个数、最大值、最小值等。
在640中,在时间粒度范围内,根据分组平均值对相邻分组进行自适应合并。自适应合并可以采用多种已有算法,例如基于优先权队列的贪婪算法、动态规划算法等。在640中示出了对630中的分组平均值对应的分组进行合并的结果。在合并过程中,对合并之后得到的新分组重新计算分组平均值,并可能再次将该新分组与相邻分组合并。如640所示,在两条虚线之间为最精细层(第n层)的一个分组,第n-1层的分组通过合并第n层的分组得到,第n-2层的分组通过合并第n-1层的分组得到。
在最精细层中,对于合并处理后存在的每个分组,计算各分组的聚合值,将聚合值存储在总结结构中的最精细层中,并可以指向数据库中的原始采样数据。此外,根据得到的聚合值,再次进行总结得到下一层的更粗粒度下的聚合值,并将这些聚合值存储在总结结构中的相应层中。通过这种方式,从最精细层的聚合值逐渐生成时间粒度越来越粗燥的后续层的聚合值,从而可以得到如图4所示那样的总结结构。在这样的总结结构中,每一层对应一个时间粒度范围。后续层的时间粒度范围大于当前层的时间粒度范围,例如为其整数倍。
通过本发明实施例的对采样数据进行总结的方法,假设最精细层的时间粒度范围为采样间隔的64倍至256倍,那么总结结构占用的存储空间仅仅为原始采样数据的约0.4%至1.6%。
在利用上述方法对采用数据进行了多粒度下的准确总结之后,可以采用图图7所示的根据本发明实施例的对总结结果进行查询的方法700来查询聚合值。方法700可以由图2中的查询引擎260执行。
在S710中,响应于用户查询请求,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值。
用户通过用户侧部分210的查询引擎API可以输入查询请求。查询请求可以包括与查询时间粒度、查询时间范围、查询的数值类型中的至少一个有关的信息。这些信息可以由用户输入,也可以采用预先设置的缺省值。当用户没有输入查询所需的信息时,可以利用缺省值,也可以利用上一次使用的相应值。例如,查询请求可以指示用户希望从总结结果中获取2012年第一季度的采样值的30分钟均值线,或者获取2012年全年采样值的每天最大值等。
查询时间粒度可以是任意的时间粒度。查询引擎260根据查询时间粒度,可以选择时间粒度范围不大于查询时间粒度的一层中的聚合值。例如,当查询时间粒度为30分钟时,由于最精细层的时间粒度范围为1分钟至8分钟,第n-1层的时间粒度范围为1小时至8小时,因此查询引擎260选择最精细层中的聚合值。如果查询时间粒度为2小时,则可以选择第n-1层中的聚合值。
查询时间范围是用户关注的时间段。根据与选取的层中的聚合值相关联的时间参数(例如开始时间),可以确定哪些聚合值是用户希望查找的聚合值。例如,当查询时间范围为2012年6月1日至2012年9月30日的时间段时,在该时间段内的开始时间对应的聚合值是处于该查询时间范围内的聚合值。当该时间段内的第一个开始时间在2012年6月1日之后时,该开始时间的前一个开始时间对应的聚合值也是处于该查询时间范围内的聚合值。当该时间段内的最后一个开始时间在2012年9月30日之前时,该开始之间的后一个开始时间对应的聚合值也是处于该查询时间范围内的聚合值。这些聚合值被选择用于向用户呈现查询结果。
根据本发明的一个实施例,还可以根据用户选择精度优先还是效率优先,来选择聚合值。具体而言,在精度优先的情况下,可以选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值;以及在效率优先的情况下,可以选择时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值。这样,在精度优先的情况下,可以用更细时间粒度或者与用户输入的时间粒度一致的时间粒度来呈现准确的查询结果。在效率优先的情况下,由于用更粗粒度下的聚合值来呈现查询结果,因此查找的数据量更少,速度更快,可以快速地向用户返回查询结果。
在S720中,将所选择的聚合值中包含的用户查询类型的数值输出给用户。
具体而言,根据查询请求中的用户查询类型,在S710中选择的聚合值中,将属于用户查询类型的数值向用户输出。例如,用户希望查询平均值,则将聚合值中包含的平均值分量输出给用户。
根据本发明的一个实施例,由于用户输入的查询时间粒度可能与选择的聚合值对应的时间粒度不同,因此可以利用插值或聚合将所选择的聚合值中包含的用户查询类型的数值调整到查询时间粒度下,并向用户输出调整后的结果,以使用户看到与其查询时间粒度相一致的总结结果。例如,如果查询时间粒度为5分钟,选择的聚合值对应的时间粒度在1分钟到8分钟之间,那么,对于间隔不到5分钟的聚合值进行聚合,对于间隔超过5分钟的聚合值进行插值,以使得准备向用户输出的聚合值之间的间隔被处理为5分钟,以满足查询时间粒度。
根据本发明的一个实施例,在S710之前,还可以将时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值中所包含的用户查询类型的数值向用户输出。例如,当用户查询类型为平均值时,将根节点或者时间粒度较粗糙一层中的处于查询时间范围内的聚合值中的平均值向用户输入,以首先给出用户提供一个大致草图,使得用户能够提前获知他所关心的总结数据的大致走势,从而增强用户体验。
在图8中,详细示出了根据本发明实施例的对总结结果进行查询的方法800的流程图。
在S810中,接收用户输入的查询请求。查询请求可以包括查询时间粒度、查询时间范围、查询类型等,还可以包括指示用户希望是精度优先还是效率优先的选项。当查询请求不包含上述信息时,可以使用预先设置的缺省值。
在S820中,如果用户需要的话,可以首先将较粗粒度层的聚合值中包含的属于用户查询类型并且落入查询时间范围的数据向用户输出,以使用户能够尽快地看到他所查询的数值的大致走势。在图9A中,示意性地示出了当用户希望查询平均值时向用户输出的平均值曲线的草图。
在S830中,确定用户输出的查询请求是包含查询时间粒度还是包含查询数值个数。如果查询请求包含查询时间粒度,则方法800前进到S850。如果查询请求包含用户希望查询的数值个数,则方法800前进到S840。
在S840中,根据用户希望查询的数值个数和查询时间范围,计算查询时间粒度。具体而言,查询时间粒度基本上等于查询时间范围的时间长度除以查询数值个数。
如果用户既没有指定查询时间粒度和查询数值个数,则可以采用预先设置的缺省查询时间粒度进行处理。
在S850中,确定用户在查询聚合值时是希望精度优先还是效率优先。如果确定是精度优先,则方法800前进到S860。如果确定是效率优先,则方法800前进到S880。当然,方法800也可以默认以精度优先进行查询,此时不执行S850、S880和S890。
在S860中,从如图4那样的总结结构中,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值。
在S870中,根据查询时间粒度,将所选择的聚合值中包含的用户查询类型的数值利用插值或聚合调整到查询时间粒度下,并向用户输出调整后的结果。为了进一步加快输出查询结果的速度,调整聚合值中的相应数值和输出调整后的结构可以以流水线形式执行。在图9B中示意性地示出了在精度优先的情况下对图9A的草图进行更新得到的平均值曲线。
在S880中,从如图4那样的总结结构中,选择时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值。例如,选择的一层可以是在大于查询时间粒度范围的时间粒度范围中与查询时间粒度范围最接近的一层。
在S890中,根据查询时间粒度,将所选择的聚合值中包含的用户查询类型的数值利用插值或聚合调整到查询时间粒度下,并向用户输出调整后的结果。为了进一步加快输出查询结果的速度,调整聚合值中的相应数值和输出调整后的结构可以以流水线形式执行。在图9C中示意性地示出了在效率优先的情况下对图9A的草图进行更新得到的平均值曲线。
根据本发明实施例提供的对采样数据进行总结的方法,能够在每一层利用时间粒度范围而不是固定的时间粒度值,根据采样数据的变化情况使用不同的时间粒度对采样数据进行自适应地总结。所建立的多粒度的总结结构不仅可以消除聚合值中的冗余而减小存储量,而且由于时间粒度范围的使用可以得到更准确的聚合值。此外,可以根据用户的查询请求对总结结果进行灵活且实时地查询。在精度优先的情况下,可以选择更细时间粒度的聚合值来生成查询结果,使得查询结果更加正确。在效率优先的情况下,可以选择更粗时间粒度下更少的聚合值来生成查询结果,使得查询速度更快。
上面,描述了根据本发明实施例的对采样数据进行总结的方法。接下来,参照图10和图11来描述根据本发明实施例的用于对采样数据进行总结的装置的结构框图。
如图10所示,装置1000包括第一分组部件1010、第一计算部件1020、第一合并部件1030和第一确定部件1040。第一分组部件1010可被配置为根据时间粒度范围比当前层的时间粒度范围大的下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值。第一计算部件1020可被配置为针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值。第一合并部件1030可被配置为在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值。第一确定部件1040可被配置为针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
第一分组部件1010、第一计算部件1020、第一合并部件1030和第一确定部件1040的上述和其它操作和/或功能可以参考上述结合图2至图6描述的相关内容,为了避免重复,在此不再赘述。
本发明实施例提供的上述装置通过将分组平均值接近的分组进行合并以作为一个整体计算聚合值,使得能够在采样数据变化慢时使用较大的时间窗口进行数据聚合,在采样数据变化快时使用较小的时间窗口进行数据聚合,从而能够更有效地跟踪采样数据的变化,避免对表现出不同变化特性的采样数据同等地对待。因此,通过对不同分组的合并处理,能够更准确地表征采样数据的统计特性,得到更准确的聚合值。此外,由于对不同分组的合并处理,使得可以减少聚合值中的冗余,从而减小聚合值的存储量。
如图11所示,装置1100中的第一分组部件1110、第一计算部件1120、第一合并部件1130和第一确定部件1140分别与装置1000中的第一分组部件1010、第一计算部件1020、第一合并部件1030和第一确定部件1040基本相同。
根据本发明的一个实施例,对于作为通过采样数据直接得到的层的最精细层,1100装置可以包括第二分组部件1150、第二计算部件1160、第二合并部件1170和第二确定部件1180。第二分组部件1150可被配置为根据最精细层的时间粒度范围的最小值,对预定时间段内的多个采样数据进行分组。第二计算部件1160可被配置为针对每个分组,对该分组中的所有采样数据的采样值求取平均,得到该分组的分组平均值。第二合并部件1170可被配置为在最精细层的时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有采样数据求取平均以得到该新的分组的分组平均值。第二确定部件1180可被配置为针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为最精细层的与该分组对应的聚合值中所包含的平均值。
第二分组部件1150、第二计算部件1160、第二合并部件1170和第二确定部件1180可以与第一分组部件1110、第一计算部件1120、第一合并部件1130和第一确定部件1140分别是相同的部件,也可以分别是不同的时间,还可以部分是相同的部件、部分是不同的部件。
根据本发明的一个实施例,可以将分组平均值之差在预定范围内的相邻分组进行合并。
根据本发明的一个实施例,各聚合值可以与时间参数相关联,同一层中的相邻两个聚合值各自关联的时间参数可以指示被聚合为这两个聚合值之一的采样数据的采样时间。
根据本发明的一个实施例,各聚合值可以与指针相关联,所述当前层和所述下一层可以以树结构存储。所述下一层的每个聚合值所关联的指针可以指向被聚合为该聚合值的所述当前层的聚合值。在所述当前层是叶子节点层的情况下,所述当前层的每个聚合值所关联的指针可以指向存储在数据库中的被聚合为该聚合值的采样数据。
根据本发明的一个实施例,所述下一层的时间粒度范围可以是所述当前层的时间粒度范围的整数倍。
根据本发明的一个实施例,所述至少一个分量还包含所述被聚合为该聚合值的采样数据的个数、最小值和最大值中的至少一个。
根据本发明的一个实施例,装置1100还可以包括选择部件1190和输出部件1195。选择部件1190可被配置为响应于用户查询请求,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值。输出部件1195可被配置为将所选择的聚合值中包含的用户查询类型的分量输出给用户。
根据本发明的一个实施例,选择部件1190可以包括第一选择子部件1191和第二选择子部件1192。第一选择子部件1191可被配置为在精度优先的情况下,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值。第二选择子部件1192可被配置为在效率优先的情况下,选择时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值。
根据本发明的一个实施例,输出部件1195可具体被配置为将所选择的聚合值中包含的用户查询类型的分量利用插值或聚合调整到查询时间粒度下,并向用户输出调整后的结果。
根据本发明的一个实施例,装置1100还可以包括预输出部件1198。与输出部件1198可被配置为在选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值之前,将时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值中所包含的用户查询类型的分量向用户输出。
第二分组部件1150、第二计算部件1160、第二合并部件1170和第二确定部件1180、选择部件1190、输出部件1195、第一选择子部件1191、第二选择子部件1192和预输出部件1198的上述和其它操作和/或功能可以参考上述结合图2至图9描述的相关内容,为了避免重复,在此不再赘述。
根据本发明实施例提供的用于对采样数据进行总结的装置,能够在每一层利用时间粒度范围而不是固定的时间粒度值,根据采样数据的变化情况使用不同的时间粒度对采样数据进行自适应地总结。所建立的多粒度的总结结构不仅可以消除聚合值中的冗余而减小存储量,而且由于时间粒度范围的使用可以得到更准确的聚合值。此外,上述装置可以根据用户的查询请求对总结结果进行灵活且实时地查询。在精度优先的情况下,可以选择更细时间粒度的聚合值来生成查询结果,使得查询结果更加正确。在效率优先的情况下,可以选择更粗时间粒度的数据量更少的聚合值来生成查询结果,使得查询速度更快。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种用于对采样数据进行总结的方法,包括:
根据时间粒度范围比当前层的时间粒度范围大的下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;
针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;
在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;
针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
2.根据权利要求1所述的方法,其中,对于作为通过采样数据直接得到的层的最精细层,所述方法还包括:
根据最精细层的时间粒度范围的最小值,对预定时间段内的多个采样数据进行分组;
针对每个分组,对该分组中的所有采样数据的采样值求取平均,得到该分组的分组平均值;
在最精细层的时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有采样数据求取平均以得到该新的分组的分组平均值;
针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为最精细层的与该分组对应的聚合值中所包含的平均值。
3.根据权利要求1或2所述的方法,其中,所述对分组平均值接近的相邻分组进行合并包括:
将分组平均值之差在预定范围内的相邻分组进行合并。
4.根据权利要求1所述的方法,其中,各聚合值与时间参数相关联,同一层中的相邻两个聚合值各自关联的时间参数指示被聚合为这两个聚合值之一的采样数据的采样时间。
5.根据权利要求1或4所述的方法,其中,
各聚合值与指针相关联,所述当前层和所述下一层以树结构存储,
所述下一层的每个聚合值所关联的指针指向被聚合为该聚合值的所述当前层的聚合值,以及
在所述当前层是叶子节点层的情况下,所述当前层的每个聚合值所关联的指针指向存储在数据库中的被聚合为该聚合值的采样数据。
6.根据权利要求1所述的方法,其中,所述下一层的时间粒度范围是所述当前层的时间粒度范围的整数倍。
7.根据权利要求1所述的方法,其中,所述至少一个分量还包含所述被聚合为该聚合值的采样数据的个数、最小值和最大值中的至少一个。
8.根据权利要求1所述的方法,还包括:
响应于用户查询请求,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值;
将所选择的聚合值中包含的用户查询类型的分量输出给用户。
9.根据权利要求8所述的方法,其中,所述选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值包括:
在精度优先的情况下,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值,以及
在效率优先的情况下,选择时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值。
10.根据权利要求8所述的方法,其中,所述将所选择的聚合值中包含的用户查询类型的分量输出给用户包括:
将所选择的聚合值中包含的用户查询类型的分量利用插值或聚合调整到查询时间粒度下,并向用户输出调整后的结果。
11.根据权利要求8所述的方法,其中,所述选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值之前,还包括:
将时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值中所包含的用户查询类型的分量向用户输出。
12.一种用于对采样数据进行总结的装置,包括:
第一分组部件,被配置为根据时间粒度范围比当前层的时间粒度范围大的下一层的时间粒度范围的最小值,对当前层的多个聚合值进行分组,各聚合值包含至少一个分量,所述至少一个分量包含被聚合为该聚合值的采样数据的平均值;
第一计算部件,被配置为针对每个分组,对该分组中的所有聚合值中包含的平均值求取平均,得到该分组的分组平均值;
第一合并部件,被配置为在所述时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有聚合值中包含的平均值求取平均以得到该新的分组的分组平均值;
第一确定部件,被配置为针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为所述下一层的与该分组对应的聚合值中所包含的平均值。
13.根据权利要求12所述的装置,其中,对于作为通过采样数据直接得到的层的最精细层,所述装置还包括:
第二分组部件,被配置为根据最精细层的时间粒度范围的最小值,对预定时间段内的多个采样数据进行分组;
第二计算部件,被配置为针对每个分组,对该分组中的所有采样数据的采样值求取平均,得到该分组的分组平均值;
第二合并部件,被配置为在最精细层的时间粒度范围内对分组平均值接近的相邻分组进行合并以得到新的分组,并对该新的分组中的所有采样数据求取平均以得到该新的分组的分组平均值;
第二确定部件,被配置为针对合并得到的新的分组和未被合并的分组中的每一个,将该分组的分组平均值确定为最精细层的与该分组对应的聚合值中所包含的平均值。
14.根据权利要求12或13所述的装置,其中,所述对分组平均值接近的相邻分组进行合并包括:
将分组平均值之差在预定范围内的相邻分组进行合并。
15.根据权利要求12所述的装置,其中,各聚合值与时间参数相关联,同一层中的相邻两个聚合值各自关联的时间参数指示被聚合为这两个聚合值之一的采样数据的采样时间。
16.根据权利要求12或15所述的装置,其中,
各聚合值与指针相关联,所述当前层和所述下一层以树结构存储,
所述下一层的每个聚合值所关联的指针指向被聚合为该聚合值的所述当前层的聚合值,以及
在所述当前层是叶子节点层的情况下,所述当前层的每个聚合值所关联的指针指向存储在数据库中的被聚合为该聚合值的采样数据。
17.根据权利要求12所述的装置,还包括:
选择部件,被配置为响应于用户查询请求,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值;
输出部件,被配置为将所选择的聚合值中包含的用户查询类型的分量输出给用户。
18.根据权利要求17所述的装置,其中,所述选择部件包括:
第一选择子部件,被配置为在精度优先的情况下,选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值,以及
第二选择子部件,被配置为在效率优先的情况下,选择时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值。
19.根据权利要求17所述的装置,其中,所述输出部件被配置为将所选择的聚合值中包含的用户查询类型的分量利用插值或聚合调整到查询时间粒度下,并向用户输出调整后的结果。
20.根据权利要求17所述的装置,还包括:
预输出部件,被配置为在选择时间粒度范围不大于查询时间粒度的一层的处于查询时间范围内的聚合值之前,将时间粒度范围大于查询时间粒度的一层的处于查询时间范围内的聚合值中所包含的用户查询类型的分量向用户输出。
CN201310207883.9A 2013-05-30 2013-05-30 用于对采样数据进行总结的方法和装置 Expired - Fee Related CN104216887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310207883.9A CN104216887B (zh) 2013-05-30 2013-05-30 用于对采样数据进行总结的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310207883.9A CN104216887B (zh) 2013-05-30 2013-05-30 用于对采样数据进行总结的方法和装置

Publications (2)

Publication Number Publication Date
CN104216887A true CN104216887A (zh) 2014-12-17
CN104216887B CN104216887B (zh) 2017-09-05

Family

ID=52098393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310207883.9A Expired - Fee Related CN104216887B (zh) 2013-05-30 2013-05-30 用于对采样数据进行总结的方法和装置

Country Status (1)

Country Link
CN (1) CN104216887B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346367A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 一种业务变量的数值的分段方法及装置
CN111125500A (zh) * 2018-10-31 2020-05-08 伊姆西Ip控股有限责任公司 用于选择样本的方法、电子设备和计算机程序产品
CN111552722A (zh) * 2020-05-06 2020-08-18 山东汇贸电子口岸有限公司 粒度数据的处理方法及装置
CN113033722A (zh) * 2021-05-31 2021-06-25 中铁第一勘察设计院集团有限公司 传感器数据融合方法、装置、存储介质及计算设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904444B1 (en) * 2006-04-26 2011-03-08 At&T Intellectual Property Ii, L.P. Method and system for performing queries on data streams
CN102456065A (zh) * 2011-07-01 2012-05-16 中国人民解放军国防科学技术大学 用于数据流的离线历史统计数据存储和查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904444B1 (en) * 2006-04-26 2011-03-08 At&T Intellectual Property Ii, L.P. Method and system for performing queries on data streams
CN102456065A (zh) * 2011-07-01 2012-05-16 中国人民解放军国防科学技术大学 用于数据流的离线历史统计数据存储和查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯东风 等: "一种基于多时间粒度的数据流建模方法", 《计算机工程与科学》 *
张建明 等: "传感网络中误差有界的分段逼近数据压缩算法", 《软件学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346367A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 一种业务变量的数值的分段方法及装置
CN107346367B (zh) * 2016-05-04 2020-09-18 阿里巴巴集团控股有限公司 一种业务变量的数值的分段方法及装置
CN111125500A (zh) * 2018-10-31 2020-05-08 伊姆西Ip控股有限责任公司 用于选择样本的方法、电子设备和计算机程序产品
US12032579B2 (en) 2018-10-31 2024-07-09 EMC IP Holding Company LLC Method, electronic device and computer program product for sample selection
CN111552722A (zh) * 2020-05-06 2020-08-18 山东汇贸电子口岸有限公司 粒度数据的处理方法及装置
CN113033722A (zh) * 2021-05-31 2021-06-25 中铁第一勘察设计院集团有限公司 传感器数据融合方法、装置、存储介质及计算设备
CN113033722B (zh) * 2021-05-31 2021-08-17 中铁第一勘察设计院集团有限公司 传感器数据融合方法、装置、存储介质及计算设备

Also Published As

Publication number Publication date
CN104216887B (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
JP6949878B2 (ja) 出現した関係におけるスタックセグメント強度の相関
US11093501B2 (en) Searching in a database
JP7171471B2 (ja) 学習モデル生成支援装置、及び学習モデル生成支援方法
JP5208585B2 (ja) 代表的なトレースを得るための命令を識別する方法、コンピュータ・プログラム及びシステム
US10366464B2 (en) Generating interpolated input data sets using reduced input source objects
CN115576502B (zh) 一种数据存储的方法、装置、电子设备以及存储介质
US20170068905A1 (en) Automated intelligent data navigation and prediction tool
CN104216887A (zh) 用于对采样数据进行总结的方法和装置
CN113557505A (zh) 用于具有不同结构的实体间可互操作通信的系统和方法
US20120136879A1 (en) Systems and methods for filtering interpolated input data based on user-supplied or other approximation constraints
CN103853752A (zh) 管理时间序列数据库的方法和装置
US11693858B2 (en) Access path optimization
CN113114540B (zh) 一种带宽预测器的设置、服务调整方法及相关装置
WO2014181495A1 (ja) 仮想マシン配置決定装置、仮想マシン配置決定方法および仮想マシン配置決定プログラム
US10353891B2 (en) Interpolating conformal input sets based on a target output
US20200152338A1 (en) Dynamically optimized inquiry process for intelligent health pre-diagnosis
EP3452927A1 (en) Feature-set augmentation using knowledge engine
US20070282888A1 (en) Dynamic data stream histograms for large ranges
US10460010B2 (en) Computing scenario forecasts using electronic inputs
US9734674B1 (en) Sonification of performance metrics
WO2017196748A1 (en) Compression techniques for encoding stack trace information
JP2023037568A (ja) コンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム製品(不均衡データセットに基づく分類)
US20220092437A1 (en) Efficient execution of a decision tree
US11204923B2 (en) Performance for query execution
JP2017167980A (ja) 特徴選択装置、特徴選択方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170905

Termination date: 20200530

CF01 Termination of patent right due to non-payment of annual fee