CN104951503B - 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 - Google Patents
一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 Download PDFInfo
- Publication number
- CN104951503B CN104951503B CN201510252988.5A CN201510252988A CN104951503B CN 104951503 B CN104951503 B CN 104951503B CN 201510252988 A CN201510252988 A CN 201510252988A CN 104951503 B CN104951503 B CN 104951503B
- Authority
- CN
- China
- Prior art keywords
- time
- data
- value
- tracker
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000000379 polymerizing effect Effects 0.000 title claims abstract description 34
- 239000000523 sample Substances 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 33
- 230000002123 temporal effect Effects 0.000 claims description 19
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 238000000205 computational method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- CZRCFAOMWRAFIC-UHFFFAOYSA-N 5-(tetradecyloxy)-2-furoic acid Chemical compound CCCCCCCCCCCCCCOC1=CC=C(C(O)=O)O1 CZRCFAOMWRAFIC-UHFFFAOYSA-N 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法。本方法为:1)对每个时间对象的时间对象数据建立一时间追踪器;2)对于待写入的时间对象数据,根据时间对象映射到对应的追踪器,然后追踪器将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;3)追踪器根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存对该时间追踪器对应的样本集合中。查询时首先根据时间对象的关键字key定位到对应的时间追踪器;然后追踪器根据查询时间信息查找该时间追踪器中的时间阶段,根据找到的时间阶段对应的样本返回查询值。本发明有效管理并查询时间对象数据,支持面向主题的更高层次的计算应用。
Description
技术领域
本发明属于信息技术领域,针对流式大数据的应用特点,结合大数据在生命周期内的数据特征,提出了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法,有效支持流式大数据在任意时间区间的高精度近似聚合统计查询,为其他流式大数据在线计算提供基础工具与平台。
背景技术
流式大数据是指同时具有高吞吐率和海量数据规模的一类应用产生的大数据源,也称为Fast Data。典型的应用包括:大型微博网站的微博数据、购物网站的点击流数据、交易日志流数据等。这类数据的一个共同特点是在数据记录中,有一个标记数据产生的时间属性(Ts)和用于统计的数值属性(Value),这类数据可以称为具有时间属性的数据对象,简称为时间对象数据(temporal data)。针对时间对象数据的一类重要应用是能够统计任意一个对象在任意时间区间内value的聚合值,在本发明中,称这类查询为TRAQ(Temporal-Range aggregate queries)。
在流式大数据环境中,实时响应TRAQ查询请求,可以支持实时情感计算(参考:H.Wang,D.Can,A.Kazemzadeh,F.Bar,and S.Narayanan,“A system for real-timetwitter sentiment analysis of 2012u.s.presidential election cycle,”inProceedings of the ACL2012System Demonstrations,ser.ACL’12.Stroudsburg,PA,USA:Association for Computational Linguistics,2012,pp.115–120.),经济数据预测(参考:T.Preis,H.S.Moat,and E.H.Stanley,“Quantifying trading behavior infinancial markets using Google trends,”Sci.Rep.,vol.3,p.1684,2013.)和实时入侵检测系统等(参考:X.Yun,Y.Wang,Y.Zhang,and Y.Zhou,“A semantics-aware approachto the automated network protocol identification,”Networking,IEEE/ACMTransactions on,vol.PP,no.99,pp.1–1,2015.)。例如:统计01/11/2013to 30/11/2013期间任意时间段内的关键字“Steven Jobs”出现的频率,可以跟踪公众对于社会人物和问题的实时态度与意见。目前的研究成果同时表明,聚合数值较低temporal data,同样具有重要的研究意义与价值。例如:一个查询频率较低的词可能在数天或者数周以后变为流行词(参考:J.Lin and G.Mishne,“A study of”churn”in tweets and real-time searchqueries(extended version),”CoRR,vol.abs/1205.6855,2012);一个出现频率较低的网络流,在较大的时间尺度范围内进行分析后,可以展现出攻击流的网络安全特性(参考:Z.Zhan,M.Xu,and S.Xu,“Characterizing honeypotcaptured cyber attacks:Statistical framework and case study,”Information Forensics and Security,IEEETransactions on,vol.8,no.11,pp.1775–1789,Nov 2013.)。因此,在流式大数据环境下,需要建立一种有效支持面向任意temporal data的,在任意时间范围内的实时聚合查询的方法与装置。
在fast data环境下,面向每一个时间对象temporal object建立实时概要信息,面临两个基本的问题:第一:如何实时接收并管理高速到达的流式大数据;目前的研究成果已经证明基于Hadoop的分析软件很难支持实时性较高的查询请求;尤其在流式大数据中很难对有严格时间限制的查询请求给出有意义的结果(参考:G.Mishne,J.Dalton,Z.Li,A.Sharma,and J.Lin,“Fast data in the era of big data:Twitter’s real-timerelated query suggestion architecture,”in Proceedings of the 2013ACM SIGMODInternational Conference on Management of Data,ser.SIGMOD’13.NewYork,NY,USA:ACM,2013,pp.1147–1158.)。第二:如何在海量数据集中实时查询任意一个object的在任意时间尺度内的聚合值。目前的研究成果可以快速获得大数据中进行top-k个object的聚合值,但是无法针对任意一个object获得其实时聚合统计结果(参考:F.Li,K.Yi,and W.Le,“Top-k queries on temporal data,”The VLDB Journal,vol.19,no.5,pp.715–733,Oct.2010)。针对temporal object的管理以及查询的优化技术研究已经存在多年(参考:I.F.Ilyas,G.Beskales,and M.A.Soliman,“A survey of topk query processingtechniques in relational database systems,”ACM Comput.Surv.,vol.40,no.4,2008),但是很多技术是基于MVB-Tree管理时间属性的,数据写入或者查询至少需要O(logBN)的时间复杂度,无法应对fast data环境下高速加载以及实时查询的计算需求,近似计算技术是一种有效处理和加速数据流计算的方法,例如针对range-sum近似求和的方法(参考:X.Yun,G.Wu,G.Zhang,K.Li,and S.Wang,“Fastraq:A fast approach to range-aggregate queries in big data environments,”Cloud Computing,IEEE Transactionson,vol.PP,no.99,pp.1–1,2014),有序集合采样方法(参考:E.Cohen,G.Cormode,andN.Duffield,“Structure-aware sampling:Flexible and accurate summarization,”Proceedings ofthe VLDB Endowment,vol.4,no.11,2011),以及滑动窗口技术(参考:M.Datar,A.Gionis,P.Indyk,and R.Motwani,“Maintaining stream statistics oversliding windows:(extended abstract),”in Proceedings of the Thirteenth AnnualACM-SIAM Symposium on Discrete Algorithms,ser.SODA’02,2002,pp.635–644)等。但是目前的近似计算方法没有考虑到temporal object时间敏感的特性,新老数据采用统一的误差标准,如果希望获得高精度的计算误差,则整个系统将设置较低的误差参数,就需要维护大量的样本数据。如果保存少量的样本数据,则无法提供高精度的近似计算。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种新鲜度敏感的大数据概要信息维护及聚合值查询方法,本发明所提出的概要数据称为FS-Sketch(FreshnessSensitive Sketch)。FS-Sketch设计了一种对称波采样技术,可以在高速流数据中,在O(1)时间完成数据采样并维护概要数据。FS-sketch进一步把样本数据组织成时间敏感的各个时间阶段(temporal phase),在每个阶段内可以设置不同的估算误差(ξ)。利用FS-Sketch可以支持任意object在时间段内的误差限定的近似聚合计算,计算复杂度可以控制为Log(NT),其中T是时间阶段的数量,N是每个时间阶段phase内流数据的聚合值。
本发明核心思想是利用基于采样的近似计算方法提供实时的TRAQ计算。方法同时结合流式大数据时间敏感的特性。这一时间敏感的特性可以概括为:流式大数据中的任意一个时间对象temporal object,在某一个时间点高速到达,然后开始在相关主题(topic)中传播,经过数天或者数周以后,逐渐衰减,最后消亡。一个主题是由多个时间对象数据,以及一个时间对象数据在不同的时间点产生的数据汇总在一起获得的。因此,本发明的主要目标是有效管理并查询时间对象数据,有效支持面向主题的更高层次的计算应用。根据时间对象的具有时间敏感的特点,设计对应的新鲜度敏感(freshness sensitive)的概要数据,在时间对象不同的时间阶段上,提供不同的误差参数,在解决高精度近似计算的同时,优化样本数据量,实现实时TRAQ计算的目标。
一种新鲜度敏感的大数据概要信息维护方法,其步骤为:
1)对每个时间对象O的时间对象数据建立一时间追踪器tracker;其中,时间对象数据的结构为:<key,value,Ts>,其中key是时间对象O的唯一标示符;value是需要统计的数值;Ts是数据项产生的时间戳;
2)对于待写入的时间对象数据,根据时间对象O映射到对应的时间追踪器tracker,然后时间追踪器tracker将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;
3)时间追踪器tracker根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存对该时间追踪器tracker对应的样本集合中;其中,采样方法为:
首先计算当前时间阶段写入数据的value聚合值,设为聚合值N,则n为同一时间阶段内的时间对象数据总数,然后利用对称波采样方法根据N和当前数据项的value值,确定样本数据分配的层数ln,然后在每个层ln内根据时间戳递增的顺序放置每个样本。
进一步的,样本被分配的所述层数ln的计算方法是:2ln为能够分割(N,N+value]之间某一整数的最大数。
进一步的,当一个层次的样本数目超过时,设置一个中间点位置mp,进一步写入m个样本时,如果还有新样本要写入该层次,则从mp位置淘汰掉一个旧的样本然后写入该新样本数据;其中ξ为误差参数。
进一步的,利用HashMap算法对时间对象与时间追踪器tracker建立映射,每个时间对象根据其关键字映射到对应的时间追踪器tracker。
一种大数据概要信息的聚合值查询方法,其步骤为:
1)对于收到的查询条件Q<key,[T1,T2]>,其中Q表示查询关键字为key的时间对象,在[T1,T2]时间段内的聚合统计值;首先根据时间对象的关键字key定位到对应的时间追踪器tracker;
2)该时间追踪器tracker中利用该时间信息[T1,T2]查找该时间追踪器tracker中的时间阶段,如果找到的时间阶段完全包含在[T1,T2]中,则直接返回该时间阶段内的聚合值N;如果[T1,T2]部分覆盖一聚合值为N的时间阶段[starTs,endTs],则分三种形式进行处理:
形式1:如果StartTS<T1<EndTs<T2,设返回的聚合值估算值为EL;则估算值EL从时间段[starTs,endTs]的对称波样本的左侧波样本集合LS中获得;
形式2:如果T1<StartTs<T2<EndTs,设返回的聚合值估算值为ER;则估算值ER从时间段[starTs,endTs]的对称波样本的右侧波样本集合RS中获得;
形式3:如果StartTs<T1<T2<EndTs,设返回的聚合值估算值为EM,则估算EM=N-EL-ER;
其中,starTs为时间阶段内最小时间戳,endTs为时间阶段内最大时间戳。
进一步的,如果有两个或多个时间阶段包含在[T1,T2]中,则累计加和对应时间阶段的聚合值作为返回结果。
本发明设计了一种时间敏感的概要信息组织以及维护方法——FS-Sketch,方法首先对所有的temporal object利用HashMap算法组织成一个映射,每个object根据其关键字可以映射到HashMap中的唯一的位置。然后针对映射中的每个temporal object在时间维度上产生的大量数据组织成时间敏感的不同时间阶段,每个阶段可以设置各自独立的估算误差,所有的新写入数据写入到第一个时间阶段中,多个时间阶段按照从新到旧的方式逐级变化。
在每个时间阶段内,设计一种对称波形采样技术。对称波采样技术是以传统的滑动窗口技术为基础改进而来。对称波采样技术在保持了原有滑动窗口高速数据处理的优点同时,进一步支持任意时间段内的时间区间聚合统计,且在每个时间阶段仅保存个样本数据,其中ξ表示相对误差;N表示在一个时间阶段内记录的所有输入数据value的加和值。
基于FS-Sketch,设计了一种支持任意时间区间聚合查询方法与装置。给出了方法的具体实现过程以及结构,方法可以在log(NT)时间内面向任意Object实时统计其在任意时间段内的统计值,其中N是每个时间阶段内的聚合统计值,T是时间阶段的个数。
与现有技术相比,本发明的有益效果如下:
1)提出的新鲜度敏感的概要数据组织方法,可以通过设置不同的时间阶段,每个时间段内根据流式大数据时间敏感的特点,配置不同的相对误差。最新的时间阶段设置较低的误差参数,较老的数据设置较低的误差参数,在兼顾了计算精度的同时也考虑了样本维护的开销。而传统的采样与近似计算技术仅能维护统一的误差参数;
2)所提出的采样处理技术,能够在O(1)时间内完成数据的采样、概要数据更新处理,与其他时间属性管理技术,例如基于MVB-Tree索引技术相比,显著提高了对流式大数据的实时处理性能,为fast data环境下各类实时计算提供基础;
3)提出一种支持任意temporal object在任意时间区间内的误差限定的近似聚合计算方法,方法返回的近似计算结果误差参数是可控的。进一步,FS-Sketch所需的查询开销为O(Log(TN)),通过表达式可以得出,本发明提出的查询方法与概要数据中保存的样本数据总量和原始加载数据量无关,因此有效提升在海量数据规模下面向任意一个object的实时查询效率。
附图说明
图1为FS-Sketch概要信息组织结构示意图;
图2为FS-Sektch结构写入流程图;
图3为对称波采样结构图;
图4为FS-Sketch具体应用部署案例图;
图5为FS-Sketch估算效果与其他近似计算采样算法比较图;
图6为FS-Sketch在流数据查询中与目前其他大数据分析系统效率比较图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的层次分段式的备份数据组织管理方法进一步详细说明。
主要从三个方面介绍本发明的具体实施方案。
(1)时间敏感的概要数据结构以及维护方法
首先设流式大数据中Temporal object为O,其基本结构为:<key,value,Ts>,其中key是O的唯一标示符;value是需要统计的数值;Ts是数据项产生的时间戳。本发明规定,Ts>0,且Ts是递增的。其他更复杂流式大数据项属性可以简化成上述三元组格式。
FS-Sketch是一种基于复合的概要数据提供查询的方法。具体来说,FS-Sketch是由多个temporal object的追踪器(tracker)构成。O与tracker之间是通过hash算法实现对应的映射关系的。
在追踪器内根据temporal object的时间敏感性,把整个时间维度划分为多个时间阶段,每个时间阶段涵盖一定长度的时间区间,设时间区间的长度为TL。在每个时间阶段内运用采样技术在海量输入的数据项集合中根据配置的估算误差参数(ξ)抽取一定量的样本数据。不同的phase可以设置不同的误差参数,一般而言,新到达的数据一般价值较高,而长期存在的数据经过一定的衰减周期以后,一般应用价值相对较低。在FS-Sketch根据temporal object价值随时间衰减的这一特性设置不同时间阶段数据的误差参数。例如第一个时间阶段设置最小的相对误差,其余的时间阶段按照误差递增的方式进行配置。利用这种配置方法,新到达的数据可以提供较为精确的近似计算结果,同时对长期存在且不经常使用的数据项则提供较大的估算误差,同时提高概要数据的存储空间利用率。FS-Sketch在流式大数据处理框架中的基本结构如图1所示。
基于上述基本结构。FS-Sketch概要数据的维护过程可以概述如下:当三元组表示的流式大数据高速到达以后,首先通过Hash Map函数对object的关键字key进行映射。Hash(key)把数据项写入到对应的tracker(hash(key))位置。新数据写入到第一个时间阶段中,当第一个时间阶段的时间范围达到TL以后,自动根据配置的误差参数创建一个新的时间阶段,作为第一个时间阶段接收写入的数据。而之前的时间阶段自动转变为第二个时间阶段,同时根据配置的误差参数决定是否删除部分样本数据,提高样本数据存储空间。数据的写入流程如图2所示。
(2)具有O(1)时间复杂度的对称波采样技术
对称波采样技术是基于流数据处理中的滑动窗口技术改进而来,与其相近的技术是确定波采样技术。确定波采样技术是应用在滑动窗口中,求解历史某一个时刻到当前时刻为止的时间段内的近似聚合值,但是对于超出时间窗口的数据,以及查询时间区间起点和终点都任意的时间段查询,则无法适应。对称波采样方法是基于确定波方法,在每个时间阶段内建立左右两个对称的波形结构,在保持了原始有方法存储和计算复杂度的条件下,支持任意时间区间内的近似聚合查询。
对称波采样(Symmetrical Waves Sampling)方法是对写入到第一个时间阶段内所有的数据项<value,TS>计算部分聚合值,根据聚合值进行采样。具体过程是首先计算所有写入数据的value的聚合值,设为聚合值N,则n为同一时间阶段内的时间对象数据总数,对称波采样方法根据N和当前数据项的value值,确定样本数据分配的层次数(level),设样本放置的层数level为ln。则ln的计算方法是:2ln是能够分割(N,N+value]之间某一整数的最大数。计算好ln以后,在每个层ln内进一步根据时间戳递增的顺序放置每个样本。当一个层次的样本数目超过时,设置一个中间点位置,设为mp。进一步写入数据,当数据项进一步写入个时,再有新数据项写入ln层次,从mp位置淘汰掉一个旧的样本数据项,然后写入新的数据。一个基本的对称波采样如图3所示。
图3同时给出了对称波与确定波之间的联系与区别。宏观上说,对称波是在确定波的基础上多保存了一些样本数据而形成的。由于不同level上的样本数据构成了一个波峰结构,对称波在时间阶段的左右两个时间端点上分别构成对称的两个波形结构,因此本发明称这一结构为对称波形采样技术。为了说明方面,本发明分别称两个波形为L-S和R-S。
(3)误差限定的近似聚合计算方法
FS-Sketch支持任意一个object在任意时间段内的区间查询。设TRAQ的查询条件表示为:Q<key,[T1,T2]>。Q表示查询关键字为key的temporal object,在[T1,T2]时间段内的聚合统计值。估算方法首先利用与数据写入时相同的hash函数,定位于具体的tracker,然后在tracker中利用[T1,T2]定位于tracker中具体的时间阶段,如果时间阶段完全包含在[T1,T2]中,则直接返回时间阶段内的N作为精确值,如果两个或多个时间段包含在[T1,T2]中,则累计加和对应时间阶段的聚合值;如果[T1,T2]部分覆盖某个时间阶段,则利用时间阶段中的对称波样本进行估算,假设一个时间阶段内最小和最大的时间戳分别为[starTs,endTs]估算的过程主要分为三种形式:
形式1:如果(StartTS<T1<EndTs<T2),设返回的估算值为EL;估算值EL从时间段[starTs,endTs]的对称波样本的左侧波样本集合LS中获得,表示为Query(left,T1);
形式2:如果(T1<StartTs<T2<EndTs),设返回的估算值为ER;估算值ER从时间段[starTs,endTs]的对称波样本的右侧波样本集合RS中获得,表示为Query(right,T2)
形式3:如果StartTs<T1<T2<EndTs,设返回的估算值为EM,则估算EM=N-EL-ER;N是一个当前phase的聚合值,即EM为形式1和形式2的补。
在LS和RS中的利用样本的估算方法是在所有的level中寻找两个样本设为S1和S2,使得查询的时间点T1或者T2位于两个样本的时间戳中间,利用S1和S2记录的聚合值的中间值作为聚合查询的近似值。这一查询方法的相对误差已经在滑动窗口中的确定波采样中进行证明,返回的估算值的相对误差小于时间阶段设定的误差参数(ξ)。
1.具体实施方案
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实例,对本发明做进一步说明。实例:流式大数据环境下的时间区间聚合查询。
本实例中FS-Sketch应用于流式大数据环境下,作为流数据的前端接收器,在O(1)时间内完成数据的接收,并维护概要数据。FS-Sketch可以有效支持本发明提出的TRAQ类型的统计查询。FS-Sketch一般部署于内存结构中,可以进一步把FS-Sketch中的数据序列化到文件进行持久化存储。基于FS-Sketch可以有效获得流式大数据的数据分布支持,为构建高层次的索引结构以及概要数据提供基础。
2.实验数据与结论
根据本发明的内容设计实验如下:对维基百科发布的网络网站访问日志pageview作为测试数据集,实验选择8天的网站访问日志,近90GB的原始数据量。实验中分析FS-Sketch与其他采样方法的估算误差效果,并把FS-Sketch技术运用在具体的流式大数据处理系统中,与目前的内存计算以及流计算系统进行比较,分析其流数据处理效率的提升效果。
图5给出了FS-Sketch在流式大数据近似估算的相对误差情况。其中Passion是常用的用于统计数据项加权聚合值的采样方法。VAROPT是最新的方差优化的大数据采样方法。FS-Sketch可以针对任意的object获得限定误差的近似计算结果,其近似计算效果在同等采样率的条件下,好于当前的采样算法。
图6进一步给出了FS-Sketch在不同数据规模条件下进行TRAQ查询时所用时间开销的比较。在90GB的原始数据规模下FS-Sketch在2ms左右可以获得误差效率1%的近似查询结果,基于内存计算的Spark以及流计算的Spark-Streaming则需要近20s的时间获得精确的计算结果;MR进一步需要300S左右的计算时间才能获得计算结果,因此FS-Sketch在流式大数据处理中,相比于目前的流计算系统,内存计算系统,可以提升近4个量级的查询效率。
上述说明仅是本发明技术方案的概述,但其并不能用以限定本发明。本发明所属技术领域中的普通技术人员,在不脱离本发明的精神和范围内,做些许的改动与修饰,都在本发明的保护范围内。因此本发明的保护范围当以权利要求所界定者为准。
Claims (6)
1.一种新鲜度敏感的大数据概要信息维护方法,其步骤为:
1)对每个时间对象O的时间对象数据建立一时间追踪器tracker;其中,时间对象数据的结构为:<key,value,Ts>,其中key是时间对象O的唯一标示符;value是需要统计的时间对象的数值;Ts是数据项产生的时间戳;
2)对于待写入的时间对象数据,根据时间对象O映射到对应的时间追踪器tracker,然后时间追踪器tracker将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;
3)时间追踪器tracker根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存至与该时间追踪器tracker对应的样本集合中;其中,采样方法为:
首先计算当前时间阶段写入数据的value聚合值,设为聚合值N,则n为同一时间阶段内的时间对象数据总数,然后利用对称波采样方法根据N和当前数据项的value值,确定样本数据分配的层数ln,然后在每个层ln内根据时间戳递增的顺序放置每个样本;所述对称波采样技术是以滑动窗口技术为基础,进一步支持任意时间段内的时间区间聚合统计,且在每个时间阶段仅保存个样本数据,其中ξ表示相对误差,N表示在一个时间阶段内记录的所有输入数据value的加和值。
2.如权利要求1所述的方法,其特征在于,样本被分配的所述层数ln的计算方法是:2ln为能够分割(N,N+value]范围内某一整数的最大数。
3.如权利要求1或2所述的方法,其特征在于,当一个层次的样本数目超过时,设置一个中间点位置mp,进一步写入m个新样本时,如果还有新样本要写入该层次,则从mp位置淘汰掉一个旧的样本然后写入该新样本数据;其中ξ为误差参数。
4.如权利要求3所述的方法,其特征在于,利用HashMap算法对时间对象与时间追踪器tracker建立映射,每个时间对象根据其关键字映射到对应的时间追踪器tracker。
5.一种基于权利要求1所述方法维护的大数据概要信息的聚合值查询方法,其步骤为:
1)对于收到的查询条件Q<key,[T1,T2]>,其中Q表示查询关键字为key的时间对象,在[T1,T2]时间段内的聚合统计值;首先根据时间对象的关键字key定位到对应的时间追踪器tracker;
2)在时间追踪器tracker中利用该时间信息[T1,T2]查找该时间追踪器tracker中的时间阶段,如果找到的时间阶段完全包含在[T1,T2]中,则直接返回该时间阶段内的聚合值N;
如果[T1,T2]部分覆盖一聚合值为N的时间阶段[starTs,endTs],则分三种形式进行处理:
形式1:如果StartTS<T1<EndTs<T2,设返回的聚合值估算值为EL;则估算值EL从时间段[starTs,endTs]的对称波样本的左侧波样本集合LS中获得;
形式2:如果T1<StartTs<T2<EndTs,设返回的聚合值估算值为ER;则估算值ER从时间段[starTs,endTs]的对称波样本的右侧波样本集合RS中获得;
形式3:如果StartTs<T1<T2<EndTs,设返回的聚合值估算值为EM,则估算EM=N-EL-ER;
其中,starTs为时间阶段内最小时间戳,endTs为时间阶段内最大时间戳。
6.如权利要求5所述的方法,其特征在于,如果有两个或更多个时间阶段包含在[T1,T2]中,则累计加和对应时间阶段的聚合值作为返回结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510252988.5A CN104951503B (zh) | 2015-05-18 | 2015-05-18 | 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510252988.5A CN104951503B (zh) | 2015-05-18 | 2015-05-18 | 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951503A CN104951503A (zh) | 2015-09-30 |
CN104951503B true CN104951503B (zh) | 2018-02-27 |
Family
ID=54166161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510252988.5A Expired - Fee Related CN104951503B (zh) | 2015-05-18 | 2015-05-18 | 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951503B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467433B2 (en) * | 2017-03-17 | 2019-11-05 | Mediasift Limited | Event processing system |
CN109871870B (zh) * | 2019-01-15 | 2021-05-25 | 中国科学院信息工程研究所 | 一种大数据流中的基于最近邻的时间敏感性异常检测方法 |
EP4030312A4 (en) | 2019-09-24 | 2022-11-02 | Huawei Cloud Computing Technologies Co., Ltd. | METHOD AND APPARATUS FOR QUERYING DATA, COMPUTER DEVICE AND STORAGE MEDIA |
CN111104091B (zh) * | 2019-12-12 | 2021-11-26 | 北京科技大学 | 一种动态浮点误差分析中精度特定计算的检测和转换方法 |
CN111241139B (zh) * | 2020-01-15 | 2022-09-30 | 深圳平安医疗健康科技服务有限公司 | 数据统计方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499097A (zh) * | 2009-03-16 | 2009-08-05 | 浙江工商大学 | 基于散列表的数据流频繁模式内存压缩存储方法 |
CN102567471A (zh) * | 2011-12-13 | 2012-07-11 | 华东师范大学 | 一种基于信息增益计算的海量数据异常侦测方法 |
-
2015
- 2015-05-18 CN CN201510252988.5A patent/CN104951503B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499097A (zh) * | 2009-03-16 | 2009-08-05 | 浙江工商大学 | 基于散列表的数据流频繁模式内存压缩存储方法 |
CN102567471A (zh) * | 2011-12-13 | 2012-07-11 | 华东师范大学 | 一种基于信息增益计算的海量数据异常侦测方法 |
Non-Patent Citations (4)
Title |
---|
A Time Based Analysis of Data Processing on Hadoop Cluster;Amrit Pal等;《2014 sixth International Conference on Computational Intelligence and Communication Networks》;20150326;第608-612页 * |
Efficient Computation of k-Medians over Data Streams Under Memory;崇志宏等;《计算机科学技术学报(英文版)》;20060331;第21卷(第2期);第284-296页 * |
一种基于可变滑动窗口的数据流;栗磊等;《科学技术与工程》;20140331;第14卷(第9期);第221-226页 * |
基于概要的数据流管理系统的研究与实现;刘畅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515(第5期);第1-53页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104951503A (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951503B (zh) | 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法 | |
US10346404B2 (en) | Efficient partitioned joins in a database with column-major layout | |
Park et al. | Parallel computation of skyline and reverse skyline queries using mapreduce | |
US10108622B2 (en) | Autonomic regulation of a volatile database table attribute | |
US20220353270A1 (en) | Data access authorization for dynamically generated database structures | |
Shao et al. | An efficient similarity search framework for SimRank over large dynamic graphs | |
US20140280280A1 (en) | Estimating error propagation for database optimizers | |
Zhou et al. | Ranking scientific publications with similarity-preferential mechanism | |
US11907220B2 (en) | Optimizing query processing and routing in a hybrid workload optimized database system | |
US8566308B2 (en) | Intelligent adaptive index density in a database management system | |
US8880511B2 (en) | Database query optimization and cost estimation | |
US9378235B2 (en) | Management of updates in a database system | |
WO2014067298A1 (zh) | 实时检索信息获取方法、装置及服务器 | |
Wang et al. | Accelerated butterfly counting with vertex priority on bipartite graphs | |
US10176231B2 (en) | Estimating most frequent values for a data set | |
US9069817B2 (en) | Database row access control | |
US9229968B2 (en) | Management of searches in a database system | |
US8548980B2 (en) | Accelerating queries based on exact knowledge of specific rows satisfying local conditions | |
US20180246987A1 (en) | Graph database management | |
US11645283B2 (en) | Predictive query processing | |
Kumar et al. | Cache based query optimization approach in distributed database | |
CN103678173B (zh) | 缓存失效方法和装置 | |
Chen et al. | Efficient and scalable graph similarity joins in mapreduce | |
Zhang et al. | Scalable Online Interval Join on Modern Multicore Processors in OpenMLDB | |
Wu et al. | The dynamically efficient mechanism of HDFS data prefetching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180227 |
|
CF01 | Termination of patent right due to non-payment of annual fee |