CN105335426A - 一种海量数据的热点数据的分析方法、系统及相关设备 - Google Patents

一种海量数据的热点数据的分析方法、系统及相关设备 Download PDF

Info

Publication number
CN105335426A
CN105335426A CN201410388012.6A CN201410388012A CN105335426A CN 105335426 A CN105335426 A CN 105335426A CN 201410388012 A CN201410388012 A CN 201410388012A CN 105335426 A CN105335426 A CN 105335426A
Authority
CN
China
Prior art keywords
time
logical time
multicycle
data
frequency list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410388012.6A
Other languages
English (en)
Other versions
CN105335426B (zh
Inventor
詹晓倩
谢建东
刘金明
黄耀龙
黄宏文
杜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410388012.6A priority Critical patent/CN105335426B/zh
Publication of CN105335426A publication Critical patent/CN105335426A/zh
Application granted granted Critical
Publication of CN105335426B publication Critical patent/CN105335426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例公开了一种海量数据的热点数据的分析方法、系统及相关设备,用于准确地从海量数据中分析出任意周期的热点数据。本发明实施例方法包括:计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。

Description

一种海量数据的热点数据的分析方法、系统及相关设备
技术领域
本发明涉及海量数据的处理技术领域,具体涉及一种海量数据的热点数据的分析方法、系统及相关设备。
背景技术
随着互联网的发展,各行业都面临着海量数据的处理。其中,如何实时、有效且低成本地分析出海量数据中的热点数据,对于进行海量数据分级存储、热点数据就近接入等都具有重大意义。
目前,海量数据中的热点数据的分析主要包括以下两种方法:
A1,根据数据被访问次数的宏观规律,预设数据被访问的阀值,在数据被访问的次数超过预设的阀值时,该数据作为热点数据;
A2,根据数据被访问时间的形态规律,将访问时间在某一时间后的数据作为热点数据。
发明人发现以上两种热点数据的分析方法分别存在如下技术问题:
对A1中的分析方法,没有考虑到数据被访问的时间局限性,大部分数据在某一历史时间段内被频繁访问,成为历史时间段内的热点数据,但是在历史时间段后不再被访问或访问较少,成为冷数据,但是仍然被作为热点数据;
对A2中的分析方法,没有考虑数据被访问的频率,对于某些新上传的文件中的数据,可能只被访问过一次,却被作为热点数据。
发明内容
针对上述存在的技术问题,本发明实施例提供了一种海量数据的热点数据的分析方法、系统及相关设备,能够准确地获得任意时间周期内的热点数据。
本发明第一方面提供了一种海量数据的热点数据的分析方法,包括:
计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
进一步地,所述计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间包括:获取第一当前时间;计算所述第一当前时间与格林威治标准时间的第一偏移量;根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
在一个可实施的方式中,所述方法还包括:当收到边缘节点的数据访问请求时,对所述多周期访问频度列表进行更新,所述数据访问请求中包括数据的特征信息。
进一步地,所述对所述多周期访问频度列表进行更新包括:计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;若相符,则更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;若不相符,则更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
进一步地,所述计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间包括:获取第二当前时间;计算所述第二当前时间与所述格林威治标准时间的第二偏移量;根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
优选地,所述多周期归档算法的计算公式为:
逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
进一步地,所述更新所述多周期访问频度列表中的目标参考逻辑时间中数据的访问次数包括:将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于1的正整数;
所述更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数包括:将T+1,并将所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重置0;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1的正整数。
本发明第二方面提供了一种中心节点设备,可包括:
计算模块,用于计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
时间确认模块,确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
热点确定模块,用于在所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
进一步地,所述计算模块包括:
第一获取模块,用于获取第一当前时间;
第一计算模块,用于计算所述第一当前时间与格林威治标准时间的第一偏移量,并根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
在一个可实施的方式中,所述装置还包括:
更新模块,当收到边缘节点的数据访问请求时,用于对所述多周期访问频度列表进行更新。
进一步地,所述更新模块包括:
第二计算模块,用于计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;
第二确认模块,用于确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;
第一更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;
第二更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间不相符时,更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
进一步地,所述第二计算模块包括:
第三获取模块,用于获取第二当前时间;
第三计算模块,用于计算所述第二当前时间与所述格林威治标准时间的第二偏移量,并根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
优选地,所述多周期归档算法的计算公式为:
逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
进一步地,所述不相符具体为:所述第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间。
进一步地,所述第一更新模块具体用于:将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于1的正整数;
所述第二更新模块具体用于:将T+1,并将所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重置0;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1的正整数。
本发明第三方面提供了一种海量数据的热点数据的分析系统,包括上述第二方面提供的中心节点设备,以及与上述中心节点设备连接的n个边缘节点设备;所述n为大于或等于1的正整数;
其中,所述边缘节点设备用于在收到客户端的业务请求后,对所述业务请求中的数据信息进行抽象得到数据的特征信息,并将所述特征信息携带在数据访问请求中发送给所述中心节点设备。
进一步地,所述边缘节点设备还用于在收到所述中心节点设备对所述数据访问请求的回复后,将所述业务请求转向给业务逻辑服务器,以便所述业务逻辑服务器执行所述业务请求对应的业务。
从以上技术方案可以看出,本发明实施例提供的海量数据的热点数据的分析方法具有以下优点:通过计算第一当前时间的第一偏移量,并根据第一偏移量计算得到第一逻辑时间,由于第一逻辑时间与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同,在确认第一逻辑时间与多周期访问频度列表中的目标参考逻辑时间相符时,将多周期访问频度列表中的目标参考逻辑时间中访问次数超过预设阀值的数据作为第一逻辑时间的时间粒度内的热点数据。与现有技术相比,本发明实施例能够准确地得到任意时间周期的热点数据,而且准确度较高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的全局数据管理模型的结构示意图;
图1b为本发明实施例提供的全局数据管理模型的应用示意图;
图2为本发明实施例提供的海量数据的热点数据的分析方法的流程示意图;
图3为本发明另一实施例提供海量数据的热点数据的分析方法的流程示意图;
图4为本发明实施例提供的中心节点设备的结构示意图;
图5为本发明另一实施例提供的中心节点设备的结构示意图;
图6为本发明实施例提供的海量数据的热点数据的分析系统的结构示意图。
具体实施方式
本发明实施例提供了一种海量数据的热点数据的分析方法、系统及相关设备,用于准确地得到任意时间周期内的热点数据。
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
海量数据的存储是分布式存储,数据量大且数据分布范围广,在本发明实施例中,采用全局数据管理模型采集海量数据中的数据特征信息,对数据特征信息进行统一维护和存储。具体请参阅图1a和图1b,其中,图1a为本发明实施例提供的全局数据管理模型的结构示意图;图1b为本发明实施例提供的全局数据管理模型的应用示意图。如图1a所示,全局数据管理模型主要包括两类角色:
中心节点:主要负载数据的集中式控制管理,存储数据的特征信息;
边缘节点:执行业务逻辑的节点子集,负责对业务逻辑进行抽象得到数据特征信息,将数据特征信息向中心节点上报。
其中,在中心节点可以用数据的key值表示该数据,因而中心节点中存储的数据的特征信息包括数据的key。边缘节点可以安装在海量数据的每个存储分布点上,具体如图1b所示,边缘节点在每个存储分布点上,具体位于客户端与业务逻辑服务器之间,并且连接到其中心节点上。如图1b所示中,边缘节点与中心节点的交互过程如下:
A1、边缘节点接收来自客户端的业务请求,包括数据的上传、下载和修改等请求;
A2、边缘节点根据业务请求,对该业务请求中的数据信息进行抽象,得到数据的特征信息,并向中心节点发送数据访问请求,该数据访问请求中包括数据的特征信息。
具体地,上述数据的特性信息如数据的key。
A3、边缘节点收到中心节点对数据访问请求的回复后,转向业务请求给业务逻辑服务器,以便所述业务逻辑服务器进行该业务请求中相应的业务。
其中,边缘节点收到中心节点对数据访问请求的回复,说明中心节点已对本次数据操作进行了记录,若是没有,则说明该次请求的操作没有被中心节点记录,该次操作失败,边缘节点也不能再向业务逻辑服务器转发业务请求。
在上述A2中,边缘节点向中心节点发送数据访问请求,而中心节点在接收到该数据访问请求后,需要对中心节点的数据被访问的多周期访问频度列表中进行更新,该多周期访问频度列表中至少主要包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数。当然,在该多周期访问频度列表中还包括数据的特征信息,并且以数据的特征信息为索引,例如,当数据的特征信息为数据的key时,可以以key作为索引。
举例来说,有数据1(特征信息为key1)、数据2(特征信息为key2),数据3(特征信息为key3),分别有以天、星期和月为时间粒度的参考逻辑时间,那么本发明实施例提供的多周期访问频度列表如下表1所示:
对多周期访问频度列表进行更新将在后续进行详细介绍,在此不再赘述。
可以理解的是,中心节点处理所有边缘节点发送的数据访问请求,面对的所海量数据,是整个框架的瓶颈,一个中心节点可以无法处理所有数据访问请求,因此,在实际应用中可以采用多个中心节点,在中心节点与边缘节点之间通过数据的特征信息建立对应关系,保证一个边缘节点只对应一个中心节点,从而同样的数据只能由一个中心节点进行处理。在中心节点中存储的数据的特征信息和多周期访问频度列表所占用的存储量较小,可以采用成本较高,性能较优的存储设备。
基于上述介绍,如图2所示,本发明实施例提供的一种海量数据的热点数据的分析方法包括:
S201、计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
步骤S201及后续步骤S202、S203的执行主体为中心节点。在中心节点中,可以利用多周期访问频度列表进行热点数据的分析。
具体地,在多周期访问频度列表中,一般包括多个不同时间粒度的参考逻辑时间,该参考逻辑时间一般满足对热点数据的分析周期的需求,例如,若需求中经常以天、星期、月、季度和年等作为分析周期来分析热点数据,那么参考逻辑时间中一般包括有以天、星期、月、季度和年等为时间粒度的参考逻辑时间。
可以理解的是,在本发明实施例中,所计算的第一逻辑时间的时间粒度需要满足多周期访问频度列表中的目标参考逻辑时间,也就是与多周期访问频度列表中的某一个参考逻辑时间的时间粒度相同。
S202、确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
可以理解的是,相符是指第一逻辑时间与目标参考逻辑时间相同。举例来说,若第一逻辑时间与目标参考逻辑时间以天为时间粒度,目标参考逻辑时间是第8天,而第一逻辑时间也为第8天,那么说明第一逻辑时间与目标参考逻辑时间相符,若是第一逻辑时间为第9天,那么说明第一逻辑时间与目标参考逻辑时间不相符。
在第一逻辑时间与目标参考逻辑时间相符时,转向步骤S203。
S203、将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
在第一逻辑时间与目标参考逻辑时间相符情况下,将多周期访问频度列表中的访问次数超过预设阀值的数据作为第一逻辑时间的时间粒度内的热点数据,也可以说是目标参考逻辑时间内的热点数据。
举例来说,第一逻辑时间与目标参考逻辑时间以月为时间粒度,那么可以将访问次数超过5W的数据作为热点数据,该热点数据是指在最近一个月内的热点数据。
在本发明实施例中,中心节点在分析热点数据时,计算第一当前时间的第一偏移量,由第一偏移量来计算得到第一逻辑时间,且所计算的第一逻辑时间与中心节点中所存储的多周期访问频度列表中的目标参考逻辑时间的时间粒度相同,进而通过确认第一逻辑时间与目标参考逻辑时间相符时,那么将多周期访问频度列表中访问次数超过预设阀值的数据作为第一逻辑时间的时间粒度内的热点数据。本发明实施例中,能够分析出任意周期内的热点数据,而且准确度较高。
在上述步骤S201中,计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间具体包括:
B1、获取第一当前时间;
B2、计算所述第一当前时间与格林威治标准时间的第一偏移量;
B3、根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
可以理解的是,第一当前时间是系统的当前时间,而第一偏移量是第一当前时间距离格林威治标准时间的偏移量(time_gap,以秒作为单位)。其中,在本发明实施例中,利用C语言编写的偏移量获取函数time_ttime(time_t*time)获取到系统的当前时间距离格林威治标准时间的偏移量time_gap。
其中,该多周期归档算法的计算公式为:
逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒度;
结合该计算公式,上述第一逻辑时间=第一偏移量/时间粒度,时间粒度为第一逻辑时间的时间粒度。
若以天为时间粒度,那么以天为时间粒度的逻辑时间=time_gap/86400;若以星期为时间粒度,那么以星期为时间粒度的逻辑时间=time_gap/(86400*7);若以月为时间粒度,那么以月为时间粒度的逻辑时间=time_gap/(86400*30)。
需要说明的是,由于本发明实施例提供的是逻辑时间,因此可以将每个月平均算做30天。
举例来说,当前时间为2014年6月25日12:17:17,time_gap的取值为1403669837,不同粒度的逻辑访问时间分别为:第16246天(1403669837/86400取整)、第2320周(1403669837/(86400*7)取整)等;6小时后18:17:17,time_gap的取值为1403691437,逻辑访问时间同样为:第16246天、第2320周。一天后2014年6月26日12:17:17,time_gap的取值为1403756237,逻辑访问时间分别为:第16247天、第2320周。
根据上述多周期归档算法的计算公式,可以根据需求计算不同时间粒度的第一逻辑时间,从而可以分析得到以不同时间粒度为周期的热点数据。
根据上述多周期归档算法的介绍,在中心节点收到边缘节点的数据访问请求时,对多周期访问频度列表进行更新主要包括如图3所示的步骤:
S301、计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;
本发明实施例中对多周期访问频度列表的更新是根据数据访问请求进行实时更新的。中心节点在收到边缘节点的数据访问请求时,通过计算第二当前时间的第二偏移量,然后根据第二偏移量计算得到第二逻辑时间。
与上述计算第一逻辑时间相同,计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间具体包括:
C1、获取第二当前时间;
C2、计算所述第二当前时间与所述格林威治标准时间的第二偏移量;
C3、根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
第二当前时间是在中心节点收到数据访问请求时,系统的当前时间。利用C语言提供的函数time_ttime(time_t*time)获取第二当前时间与格林威治标准时间的第二偏移量。然后,采用上述的多周期归档算法的计算公式转换得到:第二逻辑时间=第二偏移量/时间粒度,时间粒度为第二逻辑时间的时间粒度。
需要说明的是,第二逻辑时间可以有多个,其数量与多周期访问频度列表中的参考逻辑时间相同,且每一个第二逻辑时间与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同。
S302、确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;
其中,相符是指第二逻辑时间与目标参考逻辑时间的时间粒度相同,不相符是指第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间。在相符时,转向步骤S303,不相符时,转向步骤S304。
S303、更新所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数;
在第二逻辑时间与目标参考逻辑时间相同时,那么将在目标参考逻辑时间下找到数据访问请求中特征信息对应的数据的访问次数,然后将更新该访问次数。
具体地,是将目标参考逻辑时间中特征信息对应的数据的访问次数N增加1,也就是N+1,所述N为大于或等于1的正整数。而,该目标参考逻辑时间中的其它访问次数则保持原来的值不变。
S304、更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
具体地,在第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间时,将目标参考逻辑时间T增加1,也就是T+1,且同时将T+1的目标参考逻辑时间中数据访问请求中数据的访问次数N重置为1,而其它数据则重置为0,所述T为大于或等于1的正整数,N也为大于或等于1的正整数。
可以理解的是,本发明实施例中第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间作为不相符情况,几乎不会出现第二逻辑时间小于目标参考逻辑时间的情况。
边缘节点接收到的业务请求可以是数据的上传、下载和修改等,那么需要特别说明的是,若是上传的是一个新数据,那么边缘节点先对该数据进行抽象得到特征信息,该特征信息还没有被记录在多周期访问频度列表,那么在第二逻辑时间与多周期访问频度列表中的目标参考逻辑时间相同时,在该多周期访问频度列表中增加该特征信息,并在该目标参考逻辑时间中将其访问次数重置为1。在第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间时,将目标参考逻辑时间的值加上1,并且目标参考逻辑时间中将其访问次数重置为1,其它访问次数重置为0。
需要说明的是,本发明实施例涉及的第一当前时间和第二当前时间中的“第一”和“第二”用于区分不同的时间,不用于限定先后顺序。同样,第一偏移量和第二偏移量中的“第一”和“第二”用于区分不同的偏移量,不用于限定先后顺序。第一逻辑时间和第二逻辑时间中的“第一”和“第二”、用于区分不同的逻辑时间,不用于限定先后顺序。
另外,第一逻辑时间和第二逻辑的时间的数据都可以是多个,或者与多周期访问频度列表中的参考逻辑时间的数量相同,且第一逻辑时间与目标参考逻辑时间的时间粒度相同,第二逻辑时间与目标参考逻辑时间的时间粒度相同。
请参阅图4,图4为本发明实施例提供的中心节点设备的结构示意图;如图4所示,一种中心节点设备400包括:
计算模块410,用于计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
时间确认模块420,确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
热点确定模块430,用于在所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
可以理解的是,在本发明实施例中,所计算的第一逻辑时间的时间粒度需要满足多周期访问频度列表中的目标参考逻辑时间,也就是与多周期访问频度列表中的某一个参考逻辑时间的时间粒度相同。
其中,在需要分析海量数据的热点数据时,计算模块410将计算第一当前时间的第一偏移量,并根据第一便宜量计算得到第一逻辑时间,由于第一逻辑时间与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同,再时间确认模块420确认第一逻辑时间与目标参考逻辑时间相符时,热点确定模块430将可以将目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据,可以有效地分析出任意周期内的热点数据,效率和准确度都较高。
在一个优选的实施例中,上述计算模块410具体包括:
第一获取模块,用于获取第一当前时间;
第一计算模块,用于计算所述第一当前时间与格林威治标准时间的第一偏移量,并根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
可以理解的是,第一当前时间是系统的当前时间,而第一偏移量是第一当前时间距离格林威治标准时间的偏移量(time_gap,以秒作为单位)。其中,在本发明实施例中,利用C语言编写的偏移量获取函数time_ttime(time_t*time)获取到系统的当前时间距离格林威治标准时间的偏移量time_gap。
采用多周期归档算法的计算公式计算第一逻辑时间,具体参见上述方法实施例中的详细说明,在此不再赘述。
而多周期访问频度列表进行更新是在中心节点接收到边缘节点的数据访问请求时,因此,本发明实施例提供的中心节点设备400还包括:
更新模块,当收到边缘节点的数据访问请求时,用于对所述多周期访问频度列表进行更新。
请参阅图5,上述更新模块具体包括:
第二计算模块510,用于计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;
第二确认模块520,用于确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;
第一更新模块530,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;
第二更新模块540,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间不相符时,新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
与上述计算模块410相同,上述第二计算模块510具体包括:
第三获取模块,用于获取第二当前时间;
第三计算模块,用于计算所述第二当前时间与所述格林威治标准时间的第二偏移量,并根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
且上述第一更新模块具体用于:将目标参考逻辑时间中特征信息对应的数据的访问次数N增加1,也就是N+1,所述N为大于或等于1的正整数。而,该目标参考逻辑时间中的其它访问次数则保持原来的值不变;
上述第二更新模块具体用于:在第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间时,将目标参考逻辑时间T增加1,也就是T+1,且同时将T+1的目标参考逻辑时间中数据访问请求中数据的访问次数N重置为1,而其它数据则重置为0,所述T为大于或等于1的正整数,N也为大于或等于1的正整数。
请参阅图6,并结合图1a和图4,本发明实施例还提供了一种海量数据的热点数据的分析系统600,包括如图4所示的中心节点设备400,以及与该中心节点设备连接的n个边缘节点设备610,该n为大于或等于1的正整数;
其中,中心节点设备400的详细内容请参阅上述介绍,在此不再赘述;
边缘节点设备610用于在收到客户端的业务请求后,对所述业务请求中的数据信息进行抽象得到数据的特征信息,并将所述特征信息携带在数据访问请求中发送给所述中心节点设备400。
边缘节点设备610与中心节点设备400之间通过网络连接。
另外,上述边缘节点设备610还用于在收到所述中心节点设备对所述数据访问请求的回复后,将所述业务请求转向给业务逻辑服务器,以便所述业务逻辑服务器执行所述业务请求对应的业务。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种海量数据的热点数据分析的方法、系统及相关设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种海量数据的热点数据的分析方法,其特征在于,包括:
计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
2.根据权利要求1所述的分析方法,其特征在于,所述计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间包括:
获取第一当前时间;
计算所述第一当前时间与格林威治标准时间的第一偏移量;
根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
3.根据权利要求1所述的分析方法,其特征在于,所述方法还包括:
当收到边缘节点的数据访问请求时,对所述多周期访问频度列表进行更新,所述数据访问请求中包括数据的特征信息。
4.根据权利要求3所述的分析方法,其特征在于,所述对所述多周期访问频度列表进行更新包括:
计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;
确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;
若相符,则更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;
若不相符,则更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
5.根据权利要求4所述的分析方法,其特征在于,所述计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间包括:
获取第二当前时间;
计算所述第二当前时间与所述格林威治标准时间的第二偏移量;
根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
6.根据权利要求2或5所述的分析方法,其特征在于,所述多周期归档算法的计算公式为:
逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒度;
所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;
所述逻辑时间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
7.根据权利要求4所述的分析方法,其特征在于,
所述不相符具体为:所述第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间。
8.根据权利要求4或7所述的分析方法,其特征在于,
所述更新所述多周期访问频度列表中的目标参考逻辑时间中数据的访问次数包括:
将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于1的正整数;
所述更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数包括:
将T+1,并将所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重置0;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1的正整数。
9.一种中心节点设备,其特征在于,包括:
计算模块,用于计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
时间确认模块,确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;
热点确定模块,用于在所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
10.根据权利要求9所述的中心节点设备,其特征在于,所述计算模块包括:
第一获取模块,用于获取第一当前时间;
第一计算模块,用于计算所述第一当前时间与格林威治标准时间的第一偏移量,并根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
11.根据权利要求9所述的中心节点设备,其特征在于,所述装置还包括:
更新模块,当收到边缘节点的数据访问请求时,用于对所述多周期访问频度列表进行更新。
12.根据权利要求11所述的中心节点设备,其特征在于,所述更新模块包括:
第二计算模块,用于计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;
第二确认模块,用于确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;
第一更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间相符时,更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;
第二更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间不相符时,更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中目标参考逻辑时间中的数据的访问次数。
13.根据权利要求12所述的中心节点设备,其特征在于,所述第二计算模块包括:
第三获取模块,用于获取第二当前时间;
第三计算模块,用于计算所述第二当前时间与所述格林威治标准时间的第二偏移量,并根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
14.根据权利要求10或13所述的中心节点设备,其特征在于,
所述多周期归档算法的计算公式为:
逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒度;
所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;
所述逻辑时间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
15.根据权利要求12所述的中心节点设备,其特征在于,
所述不相符具体为:所述第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间。
16.根据权利要求12或15所述的中心节点设备,其特征在于,
所述第一更新模块具体用于:将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于1的正整数;
所述第二更新模块具体用于:将T+1,并将所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重置0;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1的正整数。
17.一种海量数据的热点数据的分析系统,其特征在于,包括如权利要求9至16中任意一项所述的中心节点设备,以及与所述中心节点设备连接的n个边缘节点设备;所述n为大于或等于1的正整数;
其中,所述边缘节点设备用于在收到客户端的业务请求后,对所述业务请求中的数据信息进行抽象得到数据的特征信息,并将所述特征信息携带在数据访问请求中发送给所述中心节点设备。
18.根据权利要求17所述的分析系统,其特征在于,
所述边缘节点设备还用于在收到所述中心节点设备对所述数据访问请求的回复后,将所述业务请求转向给业务逻辑服务器,以便所述业务逻辑服务器执行所述业务请求对应的业务。
CN201410388012.6A 2014-08-07 2014-08-07 一种海量数据的热点数据的分析方法、系统及相关设备 Active CN105335426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410388012.6A CN105335426B (zh) 2014-08-07 2014-08-07 一种海量数据的热点数据的分析方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410388012.6A CN105335426B (zh) 2014-08-07 2014-08-07 一种海量数据的热点数据的分析方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN105335426A true CN105335426A (zh) 2016-02-17
CN105335426B CN105335426B (zh) 2019-04-26

Family

ID=55285956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410388012.6A Active CN105335426B (zh) 2014-08-07 2014-08-07 一种海量数据的热点数据的分析方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN105335426B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291777A (zh) * 2016-04-11 2017-10-24 阿里巴巴集团控股有限公司 一种热点数据识别和处理的方法和装置
CN111309794A (zh) * 2020-01-17 2020-06-19 青梧桐有限责任公司 一种数据存储引擎

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102917047A (zh) * 2012-10-17 2013-02-06 成都索贝数码科技股份有限公司 一种在互联网环境中实现数字文件物流的系统及方法
CN102982166A (zh) * 2012-12-11 2013-03-20 南京邮电大学 基于时间分片的Web用户浏览访问矩阵的构造方法
CN103092867A (zh) * 2011-11-03 2013-05-08 中国移动通信集团甘肃有限公司 一种数据管理方法及系统、数据分析装置
CN103177005A (zh) * 2011-12-21 2013-06-26 深圳市腾讯计算机系统有限公司 一种数据访问的处理方法和系统
CN103186350A (zh) * 2011-12-31 2013-07-03 北京快网科技有限公司 混合存储系统及热点数据块的迁移方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092867A (zh) * 2011-11-03 2013-05-08 中国移动通信集团甘肃有限公司 一种数据管理方法及系统、数据分析装置
CN103177005A (zh) * 2011-12-21 2013-06-26 深圳市腾讯计算机系统有限公司 一种数据访问的处理方法和系统
CN103186350A (zh) * 2011-12-31 2013-07-03 北京快网科技有限公司 混合存储系统及热点数据块的迁移方法
CN102917047A (zh) * 2012-10-17 2013-02-06 成都索贝数码科技股份有限公司 一种在互联网环境中实现数字文件物流的系统及方法
CN102982166A (zh) * 2012-12-11 2013-03-20 南京邮电大学 基于时间分片的Web用户浏览访问矩阵的构造方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291777A (zh) * 2016-04-11 2017-10-24 阿里巴巴集团控股有限公司 一种热点数据识别和处理的方法和装置
CN111309794A (zh) * 2020-01-17 2020-06-19 青梧桐有限责任公司 一种数据存储引擎

Also Published As

Publication number Publication date
CN105335426B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
US10114845B2 (en) Efficiently estimating compression ratio in a deduplicating file system
US20170139934A1 (en) Grid-based geofence data indexing
CN109033360B (zh) 一种数据查询方法、装置、服务器及存储介质
CN113312361B (zh) 轨迹查询方法、装置、设备、存储介质及计算机程序产品
CN104809129A (zh) 一种分布式数据存储方法、装置和系统
CN110381151A (zh) 一种异常设备检测方法及装置
US11126506B2 (en) Systems and methods for predictive data protection
CN107818116B (zh) 用于确定用户行为区域位置信息的方法与设备
CN109583921A (zh) 广告预算获取方法、装置、存储介质及处理器
CN104462577A (zh) 一种数据存储方法及装置
CN104468330A (zh) 分布式消息队列系统的数据处理方法和装置
CN105335426A (zh) 一种海量数据的热点数据的分析方法、系统及相关设备
US10732589B2 (en) Method of controlling energy storage and apparatuses performing the same
CN104063377A (zh) 信息处理方法和使用其的电子设备
US20170344454A1 (en) Determining dynamic statistics based on key value patterns
CN104991964A (zh) 基于时间维度的同比环比计算方法
CN104657216A (zh) 一种资源池的资源分配方法及装置
CN105357100A (zh) 即时通信群组成员的优先级获取方法及装置
CN104506636A (zh) 一种数据同步方法及装置
CN105245624A (zh) 一种云存储文件系统
CN105338097A (zh) 基于终端屏幕大小的流量控制方法、终端及业务服务器
CN104573730A (zh) 一种基于决定路径权重的不确定图分割方法及系统
CN115688547A (zh) 模拟天气情景和极端天气预测
CN104111821A (zh) 一种数据处理的方法、装置及系统
CN104516952A (zh) 一种内存分区部署方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190731

Address after: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right