CN110795026A

CN110795026A - 热点数据的识别方法、装置、设备及存储介质

Info

Publication number: CN110795026A
Application number: CN201810876448.8A
Authority: CN
Inventors: 丁光凯; 王伟; 林起芊; 汪渭春
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-02-14
Anticipated expiration: 2038-08-03
Also published as: CN110795026B; WO2020024944A1

Abstract

本发明提供了一种热点数据的识别方法、装置、设备及存储介质，属于存储技术领域。本发明考虑到云存储系统的流式存储方式，提供了能够适用于云存储系统的热点数据识别方法，通过结合云存储系统当前的存储周期，来确定热点数据的统计周期，将统计周期划分为一个个时间分片，根据每个数据采集设备在每个时间分片的访问行为次数，来确定云存储系统在当前的统计周期的热点数据，令识别热点数据的过程也具有时间属性，成为一个动态的过程，由于热点数据的统计周期属于云存储系统的存储周期，可以保证统计范围的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据，极大地提高了云存储系统中识别热点数据的准确性。

Description

热点数据的识别方法、装置、设备及存储介质

技术领域

本发明涉及存储技术领域，特别涉及一种热点数据的识别方法、装置、设备及存储介质。

背景技术

热点数据是指存储系统中被频繁访问的数据，对于存储系统来说，如何从存储系统存储的大量数据中识别出热点数据，对于存储系统来说有着重要的影响。

在存储系统运行中，每当用户对任一存储空间的数据触发访问行为时，存储系统可以记录当前时间点，作为该存储空间的访问时间点，在识别热点数据的过程中，对于每个存储空间，可以根据该存储空间对应的访问时间点，确定该存储空间最近几次被访问的时间间隔，当该时间间隔小于时间间隔阈值时，会将该存储空间存储的数据，作为存储系统的热点数据。

上述方案仅适用于采用静态存储方式的存储系统来识别热点数据，而对于采用流式存储方式的云存储系统来说，云存储系统每经过当前的存储周期，就会在存储节点中已经存储的数据的基础上，覆盖写入新数据，由于每个存储节点存储的数据会随着时间的推移而动态刷新，导致云存储系统无法应用上述方案识别热点数据。

发明内容

本发明实施例提供了一种热点数据的识别方法、装置、设备及存储介质，能够解决相关技术中无法在云存储系统中识别热点数据的问题。所述技术方案如下：

一方面，提供了一种热点数据的识别方法，所述方法包括：

根据云存储系统当前的存储周期，确定热点数据的统计周期，所述统计周期属于所述存储周期；

将所述统计周期划分为至少一个时间分片；

根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数，所述至少一个数据采集设备采集的数据存储于所述云存储系统中，每条用户行为记录用于记录用户对任一数据采集设备在任一时间段的数据的一次访问行为；

当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

可选地，所述根据云存储系统当前的存储周期，确定热点数据的统计周期，包括：

根据当前时间点以及所述存储周期的时长，确定所述统计周期，所述统计周期包含所述当前时间点，且所述统计周期的时长小于或等于所述存储周期的时长。

可选地，所述根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数，包括：

对于任一条用户行为记录，确定所述用户行为记录对应的数据采集设备以及时间段；

当所述时间段属于一个时间分片时，对所述数据采集设备在所述时间分片的访问行为次数递增；或，当所述时间段跨越多个时间分片时，对所述数据采集设备在所述多个时间分片的访问行为次数均递增。

根据所述至少一条用户行为记录以及至少一种行为类型，获取至少一个数据采集设备在所述至少一个时间分片的至少一种行为类型对应的访问行为次数；

所述当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据，包括：

当任一数据采集设备在任一时间分片的所述至少一种行为类型对应的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

可选地，所述当任一数据采集设备在任一时间分片的所述至少一种行为类型对应的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据，包括：

根据所述至少一种行为类型对应的权重，对所述至少一种行为类型对应的访问行为次数加权求和，得到加权和值；

当所述加权和值大于或等于加权和值阈值时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

可选地，所述根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数之前，所述方法还包括：

接收所述云存储系统中至少一个存储节点的至少一条用户行为信息，每条用户行为信息携带用户行为标识，所述用户行为标识用于标识用户对任一数据采集设备在任一时间段的数据的一次访问行为；

将同一用户行为标识对应的至少一条用户行为信息，合并为一条用户行为记录。

可选地，所述接收所述云存储系统中至少一个存储节点的至少一条用户行为信息之前，所述方法还包括：

当检测到用户对任一数据采集设备在任一时间段的数据的一次访问行为时，生成用户行为标识；

根据所述数据划分的至少一个数据分片，确定所述云存储系统中存储了任一数据分片的存储节点，得到至少一个存储节点；

向所述至少一个存储节点，发送数据获取请求，所述数据获取请求携带所述用户行为标识，所述数据获取请求用于指示存储节点基于所述用户行为标识，生成用户行为信息；

接收所述至少一个存储节点的数据分片。

可选地，所述将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据之后，所述方法还包括：

将所述热点数据从所述云存储系统的至少一个存储节点，转存至加速服务节点中；

当检测到用户对所述热点数据的访问行为时，从所述加速服务节点提取所述热点数据。

另一方面，提供了一种热点数据的识别装置，用于执行第一方面或第一方面的任一种可能实现方式中的热点数据的识别方法。具体地，该热点数据的识别装置包括用于执行上述第一方面或第一方面的任一种可能实现中的方法的功能模块。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述热点数据的识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述热点数据的识别方法所执行的操作。

本发明实施例提供的方法、装置、设备及存储介质，考虑到云存储系统的流式存储方式，提供了一种能够适用于云存储系统的热点数据识别方法，通过结合云存储系统当前的存储周期，来确定热点数据的统计周期，并将统计周期划分为一个个时间分片，根据各个数据采集设备在各个时间分片的访问行为次数，来确定云存储系统在统计周期的热点数据，由于热点数据的统计周期属于云存储系统的存储周期，可以保证统计范围内的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据，也就避免了在存储节点已经在老数据上覆盖写入新数据，而仍根据老数据的访问时间点，对存储节点存储的新数据进行识别的异常情况，令热点数据的识别过程为一个具有时间属性的动态过程，极大地提高了云存储系统中识别热点数据的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种应用场景的示意图；

图3是本发明实施例提供的一种热点数据的识别方法的流程图；

图4是本发明实施例提供的一种热点数据的识别方法的流程图；

图5是本发明实施例提供的一种一次访问的数据分布在多个存储节点的示意图；

图6是本发明实施例提供的一种用户行为信息的记录方法的流程图；

图7是本发明实施例提供的一种用户行为记录的生成方法的流程图；

图8是本发明实施例提供的一种划分时间分片的示意图；

图9是本发明实施例提供的一种统计访问行为次数的示意图；

图10是本发明实施例提供的一种热点数据的识别方法的流程图；

图11是本发明实施例提供的一种热点数据的识别装置的结构示意图；

图12是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种实施环境的示意图，该实施环境包括：多个数据采集设备101以及云存储系统102。

数据采集设备101：可以为任一种前端设备，包括而不限于抓拍机、摄像机以及相机等，例如，数据采集设备101可以为网络摄像机(IP Camera，以下简称：IPC)。

云存储系统102包括多个存储节点，该多个存储节点用于存储数据采集设备101采集的数据。另外云存储系统还可以包括管理节点以及其他节点，在此不做赘述。

存储节点：可以称为云存储存储模块(英文简写为CVS)，用于提供视频数据存储服务、视频数据提取服务、用户行为记录服务等业务。存储节点102可以为任一种具有数据存储功能的设备，包括而不限于磁盘(DISK)、固态硬盘(Solid State Drives，以下简称：SSD)、磁盘阵列(Redundant Arrays of Independent Disks，以下简称：RAID)、存储区域网络(Storage Area Network，以下简称：SAN)、网络互连协议(Internet Protocol，以下简称：IP)SAN、光纤通道(Fiber Channel，以下简称：FC)SAN、网络附属存储(NetworkAttached Storage，以下简称：NAS)等。该多个存储节点102可以分布于不同的地点，彼此通过互联网或者光纤通道连接。

以下描述一个示例性应用场景：

在视频监控的业务中，多路前端设备可以实时采集视频数据，云存储系统可以连续地存储每路前端设备采集的视频数据。其中，每路前端设备在云存储中有一个唯一的编码器ID，云存储系统可以将视频数据与编码器ID对应存储。当用户对某一路前端设备在某个时间段的数据感兴趣，要回放该时间段的视频数据或者下载该时间段的视频数据时，可以输入编码器ID以及时间段等信息，从而访问云存储系统存储的该前端设备的该时间段的数据。

然而，对于任一路前端设备来说，用户访问该前端设备在哪个时间段采集的数据具有很大的随机性，例如请参见图2，云存储系统中任一路前端设备的视频数据的存储时间轴及用户的访问行为的时间轴可以如图2所示，在图2中，云存储系统的存储周期为0时0分至23时59分，在此期间，用户回放了前端设备在2018.01.01-09:43:20至2018.01.01-10:47:55期间的视频数据，又回放和下载了前端设备在2018.01.01-14:18:00至2018.01.01-14:39:50的视频数据，以及前端设备在2018.01.01-10:31:00～至2018.01.01-14:28:00期间的视频数据。

本发明实施例中，通过结合以下几个关键设计，能够从云存储系统流式、分布式存储的大量数据中，有效地识别出这类随机访问时间段的数据，作为热点数据：

第一，设计了统计周期：考虑到云存储系统采用了流式存储方式，具有一定的存储周期，每当经过存储周期，会删除存储节点上的旧数据，令存储节点存储新数据，本发明实施例中，统计用户行为记录以及识别热点周期的过程具有统计周期，只需考虑在该统计周期内存储的数据以及在统计周期的用户行为记录，而无需识别在统计周期之前存储的老数据。

第二，设计了时间分片：将统计周期内划分为一个个时间分片，将时间分片作为统计访问行为次数以及识别热点数据的基本单位。

第三，设计了访问行为次数的统计机制：在以时间分片为单位的基础上，可以统计每个时间分片内，用户的回放行为的次数以及下载行为的次数。

第四，设计了至少一种行为类型以及多种权重：考虑到用户可以触发回放视频数据、下载视频数据等不同类型的访问行为，而不同的访问行为的重要程度可以不同，为各种类型的访问行为设置了相应的权重，通过加权各种访问行为的访问行为次数，来确定任一路数据采集设备在任一时间分片采集的数据的热度，从而令热点数据的识别过程综合了多种访问行为的不同影响，极大地提高了识别热点数据的精确性和全面性。

以下通过图3实施例以及图4实施例，详细阐述这几个关键设计的实现方法。

图3是本发明实施例提供的一种热点数据的识别方法的流程图。参见图3，该方法包括：

301、根据云存储系统当前的存储周期，确定热点数据的统计周期，该统计周期属于该存储周期。

302、将该统计周期划分为至少一个时间分片。

303、根据至少一条用户行为记录，获取至少一个数据采集设备在该至少一个时间分片的访问行为次数，该至少一个数据采集设备采集的数据存储于该云存储系统中，每条用户行为记录用于记录用户对任一数据采集设备在任一时间段的数据的一次访问行为。

304、当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据。

本发明实施例提供的方法，考虑到云存储系统的流式存储方式，提供了一种能够适用于云存储系统的热点数据识别方法，通过结合云存储系统当前的存储周期，来确定热点数据的统计周期，并将统计周期划分为一个个时间分片，根据各个数据采集设备在各个时间分片的访问行为次数，来确定云存储系统在统计周期的热点数据，由于热点数据的统计周期属于云存储系统的存储周期，可以保证统计范围内的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据，也就避免了在存储节点已经在老数据上覆盖写入新数据，而仍根据老数据的访问时间点，对存储节点存储的新数据进行识别的异常情况，令热点数据的识别过程为一个具有时间属性的动态过程，极大地提高了云存储系统中识别热点数据的精确度。

可选地，该根据云存储系统当前的存储周期，确定热点数据的统计周期，包括：

根据当前时间点以及该存储周期的时长，确定该统计周期，该统计周期包含该当前时间点，且该统计周期的时长小于或等于该存储周期的时长。

可选地，该根据至少一条用户行为记录，获取至少一个数据采集设备在该至少一个时间分片的访问行为次数，包括：

对于任一条用户行为记录，确定该用户行为记录对应的数据采集设备以及时间段；

当该时间段属于一个时间分片时，对该数据采集设备在该时间分片的访问行为次数递增；或，当该时间段跨越多个时间分片时，对该数据采集设备在该多个时间分片的访问行为次数均递增。

根据该至少一条用户行为记录以及至少一种行为类型，获取至少一个数据采集设备在该至少一个时间分片的至少一种行为类型对应的访问行为次数；

该当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据，包括：

当任一数据采集设备在任一时间分片的该至少一种行为类型对应的访问行为次数满足预设条件时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据。

可选地，该当任一数据采集设备在任一时间分片的该至少一种行为类型对应的访问行为次数满足预设条件时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据，包括：

根据该至少一种行为类型对应的权重，对该至少一种行为类型对应的访问行为次数加权求和，得到加权和值；

当该加权和值大于或等于加权和值阈值时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据。

可选地，该根据至少一条用户行为记录，获取至少一个数据采集设备在该至少一个时间分片的访问行为次数之前，该方法还包括：

接收该云存储系统中至少一个存储节点的至少一条用户行为信息，每条用户行为信息携带用户行为标识，该用户行为标识用于标识用户对任一数据采集设备在任一时间段的数据的一次访问行为；

可选地，该接收该云存储系统中至少一个存储节点的至少一条用户行为信息之前，该方法还包括：

根据该数据划分的至少一个数据分片，确定该云存储系统中存储了任一数据分片的存储节点，得到至少一个存储节点；

向该至少一个存储节点，发送数据获取请求，该数据获取请求携带该用户行为标识，该数据获取请求用于指示存储节点基于该用户行为标识，生成用户行为信息；

接收该至少一个存储节点的数据分片。

可选地，该将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据之后，该方法还包括：

将该热点数据从该云存储系统的至少一个存储节点，转存至加速服务节点中；

当检测到用户对该热点数据的访问行为时，从该加速服务节点提取该热点数据。

图4是本发明实施例提供的一种热点数据的识别方法的流程图。该发明实施例的执行主体为节点设备，参见图4，该方法包括：

401、当检测到用户对数据采集设备在任一时间段采集的数据的一次访问行为时，节点设备生成用户行为标识。

节点设备：可以为云存储系统的任一节点，该节点设备可以为物理上的节点，例如为服务器、个人计算机或笔记本电脑，可以为一台设备或多台设备组成的集群。该节点设备也可以为逻辑上的节点，例如为一台设备上的进程或线程、一台虚拟机或运行态的容器。举例来说，节点设备可以为云存储审计模块(英文简写为CCA)，该云存储审计模块能够提供用户行为信息收集服务、行为信息统计服务、热点数据识别服务等业务。

数据采集设备采集的数据：可以为流媒体数据、图片数据等。该流媒体数据是指采用流式传输的方式在网络中传输的数据，流媒体数据可以包括音频数据、视频数据等。其中，流式传输是指：将数据通过压缩方式解析成一个个压缩包，由数据采集设备向云存储系统实时地或顺序地发送各个压缩包，云存储系统实时地或顺序地接收各个压缩包，从而传输数据的方式。

数据采集设备采集的数据可以通过分布式存储方式以及流式存储方式，在云存储系统中存储。该分布式存储是指，云存储系统可以包括部署于不同地点的多个存储节点，可以通过多个存储节点协同工作，完成存储数据的任务，任一路数据采集设备的数据，可以分布于云存储系统中的多个存储节点中。该流式存储方式是指，云存储系统具有一定大小的存储周期，每当经过存储周期后，云存储系统可以删除存储节点存储的老数据，释放存储节点的存储空间，以便通过存储节点存储新数据，或者，每当经过存储周期后，可以无需主动删除存储节点存储的老数据，当新数据需要写入云存储系统时，可以在存储节点存储的老数据的基础上，覆盖写入新数据，则存储节点存储的数据会从老数据刷新为新数据。基于流式存储方式，云存储系统的存储过程可以看作一个动态的过程，随着新数据的不断写入，老数据会被循环覆盖。

用户对数据的访问行为：包括而不限于下载行为和回放行为，当然也可以为其他提取数据采集设备采集的数据的行为。关于检测访问行为的过程，当用户要访问任一路数据采集设备在任一时间段采集的数据时，可以通过软件开发工具包(SoftwareDevelopment Kit，以下简称：SDK)触发输入操作，输入数据采集设备的标识、时间段以及数据的类型，SDK会根据数据采集设备的标识、时间段以及数据的类型，生成数据访问请求，该数据访问请求携带数据采集设备的标识、时间段以及数据的类型，SDK可以向节点设备发送数据访问请求，节点设备接收到数据访问请求后，可以根据数据访问请求，确定对应的数据采集设备、时间段、数据的类型以及访问行为的类型。

数据采集设备的标识：用于唯一标识对应的数据采集设备，可以为数据采集设备的身份标识号(Identification，以下简称：ID)，节点设备解析数据访问请求后，可以得到数据访问请求携带的数据采集设备的标识，根据数据采集设备的标识，可以确定对应的数据采集设备。

在一种可能的实现中，云存储系统可以通过各个编码器ID来唯一标识各个数据采集设备，则数据采集设备的标识可以为编码器ID。

时间段：可以称为访问时间段，用于指示用户需要访问的数据的起始时间点和结束时间点，也即是，数据采集设备采集该数据的起始时间点和结束时间点，例如假设用户要求回放，数据采集设备在2018.01.01-09:43:40至2018.01.01-10:47:55期间采集的视频数据，则数据访问请求携带的时间段为2018.01.01-09:43:40至2018.01.01-10:47:55，又如假设用户要求下载，数据采集设备在2018.01.01-14:18:00至2018.01.01-14:39:50期间采集的视频数据，则数据访问请求携带的时间段为2018.01.01-14:18:00至2018.01.01-14:39:50。节点设备解析数据访问请求后，可以得到数据访问请求携带的时间段，从而确定用户需要访问数据采集设备在哪个时间段的数据。

数据的类型：可以为视频、图片等，数据的类型可以与数据采集设备的物理形态匹配，例如数据采集设备为IPC，则数据的类型为视频，数据采集设备为抓拍机，则数据的类型为图片。节点设备解析数据访问请求后，可以得到数据访问请求携带的数据的类型，从而确定用户需要访问哪种类型的数据。

可选地，不同行为类型对应的数据访问请求可以不同，在一种可能的实现中，数据访问请求可以携带行为类型标识，可以根据数据访问请求携带的行为类型标识，确定访问行为的行为类型，例如回放行为的行为类型标识为1，下载行为的行为类型标识为2，则当数据访问请求中的行为类型标识为1时，可以确定用户触发了回放行为。在另一种可能的实现中，不同行为类型对应的数据访问请求可以具有不同的帧格式，节点设备可以接收到的数据访问请求的帧格式，区分不同行为类型的数据访问请求。

用户行为标识：用于标识用户对数据采集设备在任一时间段采集的数据的一次访问行为，用户行为标识与访问行为可以一一对应，即，每个用户行为标识可以唯一标识对应的访问行为，不同用户行为标识对应的访问行为不同。

针对生成用户行为标识的具体过程，在一种可能的实现中，节点设备接收到数据访问请求后，可以确定当前时间点对应的时间戳，根据该时间戳确定用户行为标识，例如将该时间戳作为用户行为标识。在另一种可能的实现中，节点设备接收到数据访问请求后，可以生成随机数，根据该随机数确定用户行为标识，例如将该随机数作为用户行为标识。在再一种可能的实现中，节点设备接收到数据访问请求后，可以确定当前时间点对应的时间戳，并生成随机数，根据该时间戳以及随机数确定用户行为标识，例如对时间戳和随机数进行排列组合，将排列组合的结果作为用户行为标识。

其中，时间戳的位数可以根据对精确度的需求确定，例如，时间戳可以为13位，从而精确到ms级别，随机数的位数也可以根据对精确度的需求确定，例如，当要求精确度越高时，随机数的位数越大。示例性地，可以生成13位时间戳以及5位随机数，将13位时间戳作为用户行为标识的前13位，将5位随机数戳作为用户行为标识的后5位，从而生成18位的用户行为标识。从数学公式的角度描述，用户行为标识＝13位时间戳+5位随机码。

402、节点设备向云存储系统中的至少一个存储节点，发送数据获取请求，数据获取请求携带用户行为标识。

本步骤402具体可以包括以下步骤一至步骤二：

步骤一、根据数据划分的至少一个数据分片，确定云存储系统中存储了任一数据分片的存储节点，得到至少一个存储节点。

对于任一路数据采集设备在任一时间段采集的数据来说，该数据可以划分为至少一个数据分片，每个存储节点可以存储一个或多个数据分片，从而将数据分布式存储于多个存储节点中。而云存储管理集群可以存储每个数据分片所在的存储节点的地址信息、每个数据分片的起始时间点和结束时间点。

因此，节点设备可以根据数据采集设备的标识以及数据的时间段，从云存储管理集群，根据该数据采集设备的标识以及时间段进行查询，得到该数据采集设备以及该时间段对应的所有元数据，根据所有元数据，确定数据所在的每个存储节点的地址信息、每个存储节点存储的数据分片的时间起始点以及时间结束点。

示例性地，请参见图5，数据采集设备在14时0分至15时0分采集的数据，可以分散在存储节点1、存储节点2……存储节点N上，当接收到对该数据的数据访问请求后，可以通过云存储管理集群，确定数据位于存储节点1、存储节点2至存储节点N上，并确定存储节点1、存储节点2至存储节点N的地址信息，并确定存储节点1存储的数据分片的时间段为14时0分至14时14分，存储节点2存储的数据分片的时间段为14时15分至14时29分，存储节点N存储的数据分片的时间段为14时45分至15时0分。

步骤二、向至少一个存储节点发送数据获取请求，数据获取请求携带了用户行为标识。

可以根据每个存储节点的地址信息，向每个存储节点发送数据获取请求，数据获取请求中携带数据采集设备的标识、用户行为标识以及数据分片的时间段，以便存储节点接收到数据获取请求后，可以基于数据获取请求携带的用户行为标识，生成用户行为信息，基于数据获取请求携带的数据采集设备的标识、以及数据分片的时间段，向节点设备返回数据分片。可选地，可以根据所有元数据的顺序，向至少一个存储节点依次发送数据获取请求。

403、当存储节点接收到数据获取请求时，生成用户行为信息，并向节点设备发送数据分片。

用户行为信息：用于记录用户对数据采集设备的数据的访问行为。用户行为信息可以包括数据采集设备的标识、数据的类型、行为类型、数据分片的时间段以及用户行为标识。举例来说，用户行为信息可以如下表1所示：

表1

关于生成用户行为信息的过程，对于至少一个存储节点中的每个存储节点，存储节点可以解析数据获取请求，得到数据获取请求携带的用户行为标识、数据分片的时间段以及数据采集设备的标识，可以将用户行为标识、数据分片的时间段以及数据采集设备的标识添加至用户行为信息中，从而生成用户行为信息。

关于发送数据分片的过程，存储节点可以根据数据分片的时间段以及数据采集设备的标识，查询存储的该时间段以及该数据采集设备的标识对应的数据，从而确定该数据分片，从存储介质中提取该数据分片，向节点设备发送数据分片，从而将用户需要访问的数据分片返回给节点设备。

本实施例中，通过为用户的每次访问行为，生成唯一对应的用户行为标识，将用户行为标识分发给至少一个存储节点，该至少一个存储节点会为用户的同一次访问行为，生成用户行为标识相同的用户行为信息，以便后续使用用户行为标识，可以对大量存储节点的用户行为信息进行整理与合并。

示例性地，请参见图5，当确定用户要访问数据采集设备在14时0分至15时0分采集的数据时，可以生成一个用户行为标识，将这一个用户行为标识携带在给存储节点1、存储节点2……存储节点N的数据获取请求中，向存储节点1、存储节点2……存储节点N依次发送数据获取请求，则存储节点1、存储节点2……存储节点N可以返回不同的数据分片，并生成包含同一用户行为标识的用户行为信息。

404、节点设备接收至少一个存储节点的数据分片。

节点设备接收到每个存储节点的数据分片后，可以将每个数据分片发送给SDK，SDK可以接收到每个数据分片，按照每个数据分片的时间段的先后顺序，对每个数据分片进行排序和整合，得到一段完整的、连续的数据，即用户要访问的数据，可以输出该数据，以便将数据返回给用户。

综上所述，上述步骤401至404可以作为用户行为的记录过程，示例性地，请参见图6，以节点设备提供为云存储系统的数据转发服务模块，存储节点为CVS为例，假设用户要访问的数据分布存储于CVS1和CVS2，请参见图6，一次用户行为的记录过程的流程图可以如图6所示，包括以下步骤一至步骤七：

步骤一、SDK生成数据回放请求或数据下载请求，向数据转发服务模块发送数据回放请求或数据下载请求。

步骤二、数据转发服务模块接收数据回放请求或数据下载请求，获取访问时间段对应的数据索引信息(元数据)，确定用户要访问的数据包括数据分片1和数据分片2，数据分片1存储于CVS1，数据分片2存储于CVS2。

步骤三、数据转发服务模块生成唯一的用户行为标识，向CVS1发送数据获取请求，请求得到CVS1存储的数据分片1，数据获取请求携带用户行为标识、编码器ID以及数据分片1对应的时间段1，并且，向CVS2发送数据获取请求，请求得到CVS2存储的数据分片2，数据获取请求携带用户行为标识、编码器ID以及数据分片2对应的时间段2。

步骤四、CVS1接收数据获取请求，提取数据分片1，并记录用户行为信息1，并向数据转发服务模块返回数据分片1。

步骤五、CVS2接收数据获取请求，提取数据分片2，并记录用户行为信息2，并向数据转发服务模块返回数据分片2。

其中，用户行为信息1和用户行为信息2中包括相同的用户行为标识。

步骤六、数据转发服务模块接收数据分片1和数据分片2，将数据分片1和数据分片2返回给SDK。

步骤七、SDK接收到数据分片1和数据分片2，完成一次回放数据或下载数据的任务。

405、节点设备向至少一个存储节点发送用户行为信息请求。

可以设置用户行为信息的获取时间周期，每当到达该获取时间周期时，节点设备可以向云存储系统中所有在线的存储节点，发送用户行为信息请求，从而定期地获取每个存储节点的用户行为信息。其中，该获取时间周期可以根据需求设置。

406、当至少一个存储节点接收到用户行为信息请求时，向节点设备发送用户行为信息。

当存储节点接收到用户行为信息请求后，响应该用户行为信息请求，可以获取本地存储的所有用户行为信息，将所有用户行为信息返回给节点设备。

可选地，如果存储节点成功将用户行为信息返回给节点设备，存储节点可以删除已经发送了的所有用户行为信息，以避免节点设备下次请求用户行为信息时，误将已经发送过的用户行为信息再次返回给节点设备，从而保证节点设备不会获取到重复的用户行为信息。相应地，如果存储节点未成功将用户行为信息返回给节点设备，例如由于网络抖动或其他因素导致返回失败，则存储节点可以暂不删除用户行为信息，当节点设备下次请求用户行为信息时，再将存储的所有用户行为信息返回给节点设备。

407、当节点设备接收到至少一个存储节点的用户行为信息时，将同一用户行为标识对应的至少一条用户行为信息，合并为一条用户行为记录。

通过上述步骤405至步骤406，节点设备可以接收到云存储系统中每个节点设备存储的每条用户行为信息，从而得到大量的用户行为信息，可以根据每条用户行为信息中的用户行为标识，确定多条用户行为信息是否由同一次访问行为触发，将同一次访问行为触发的多条用户行为信息，合并为一条用户行为记录，如此，每条用户行为记录，会记录用户对数据采集设备在任一时间段采集的数据的一次访问行为，不同用户行为记录对应的访问行为不同，从而将大量的用户行为信息按照对应的访问行为，整合为一条条完整的用户行为记录。

针对确定同一用户标识对应的用户行为信息的过程，在一种可能的实现方式中，可以根据每条用户行为信息中的用户行为标识，对大量的用户行为信息按照用户行为标识进行聚类，将同一用户行为标识对应的用户行为记录聚为一类，从而得到多个类，将每一类的用户行为记录，作为同一用户行为标识对应的至少一条用户行为信息。

针对合并出用户行为记录的过程，在一种可能的实现中，可以包括以下步骤一至步骤二：

步骤一、对于任一用户标识对应的至少一条用户行为信息，确定每条用户行为信息中的时间段，得到至少一个时间段。

其中，每条用户行为信息的时间段，是对应的数据分片的起始时间点以及结束时间点组成的时间段，可以看作一次访问行为中的一个时间碎片，例如在图5示出的一次访问行为后，存储节点1的用户行为信息的时间段可以为14时0分至14时14分，存储节点2的用户行为信息的时间段可以为14时15分至14时29分。

步骤二、将该至少一个时间段合并为一个连续的时间段，将合并后的时间段添加至用户行为记录中。

具体来说，可以根据该至少一个时间段的起始时间点和结束时间点，确定该至少一个时间段的起始时间点中最早的起始时间点，并确定该至少一个时间段的结束时间点中最晚的结束时间点，确定该最早的起始时间点至该最晚的结束时间点组成的时间段，作为至少一个时间段合并的时间段。

另外，对于任一用户标识对应的至少一条用户行为信息，由于该至少一条用户行为信息记录一次用户访问行为，则该至少一条用户行为信息中的数据采集设备的标识、数据的类型、行为类型会相同，可以确定任一条用户行为信息中的数据采集设备的标识、数据的类型以及行为类型，将数据采集设备的标识、数据的类型以及行为类型添加至用户行为记录中。

通过上述生成用户行为记录的过程，可以将同一个用户访问行为的大量用户行为信息整合为一条记录，并将各个存储节点上记录的访问行为的时间碎片整合为一个完整的访问行为时间段，因此，每条用户行为记录可以认为是对数据采集设备的一次访问行为。

可选地，当生成用户行为记录后，可以将用户行为记录存储至数据库中，每条用户行为记录的关键字(key)可以为用户行为标识，以便后续以用户行为标识为索引，可以从数据库中查询到对应的用户行为记录。

综上所述，上述步骤405至407可以作为用户行为的收集过程，示例性地，请参见图7，以节点设备提供为云存储系统的云存储审计模块(英文简写为CCA)，存储节点为CVS为例，假设用户要访问的数据分布存储于CVS1和CVS2，请参见图7，用户行为的收集过程的流程图可以如图7所示，包括以下步骤一至步骤四：

步骤一、CCA向CVS1和CVS2请求用户行为信息。

步骤二、CVS1获取本地存储的所有用户行为信息，向CCA返回用户行为信息，并删除已同步的用户行为信息。

步骤三、CVS2获取本地存储的所有用户行为信息，向CCA返回用户行为信息，并删除已同步的用户行为信息。

步骤四、CCA接收CVS1和CVS2的用户行为信息，整合各个编码器的用户行为信息，得到多条用户行为记录，并存储多条用户行为记录。

408、节点设备确定统计周期以及统计周期划分的至少一个时间分片。

本实施例中，考虑到云存储系统具有一定的存储周期，会根据云存储系统当前的存储周期，确定热点数据的统计周期，可以按照该统计周期，定期识别云存储系统的热点数据。

其中，热点数据的统计周期属于云存储系统当前的存储周期，即，在时间轴上，热点数据的统计周期会落入当前的存储周期，统计周期的时间起始点会等于或晚于存储周期的时间起始点，从而保证统计范围内的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据。也即是，识别热点数据的过程具有时效性，为一个动态的过程，只需从云存储系统在当前的统计周期中存储的数据，确定出热点数据，而无需考虑云存储系统在当前的统计周期之前存储的数据，也就避免了当存储节点已经在老数据上覆盖写入新数据，而仍根据老数据的访问时间点，对存储节点存储的新数据进行识别的异常情况。

针对确定统计周期的过程，在一种可能的实现中，可以根据当前时间点以及存储周期的时长，确定统计周期，该统计周期包含当前时间点，且统计周期的时长小于或等于存储周期的时长。例如，假设存储周期的时长为2天，当前时间点为8月15日16:00，可以设置统计周期的时长为一天，则将8月15日17:00至8月15日17:00作为统计周期。

在这种具有时效性的统计周期的基础上，本实施例中，采用时间分片作为统计热点数据的基本单位，将统计周期划分为至少一个时间分片，以便通过分别统计每个数据采集设备在每个时间分片的访问行为次数，确定云存储系统的热点数据所在的时间分片以及数据采集设备。

针对划分时间分片的过程，可以预先设置时间分片的长度，按照时间分片的长度，将统计周期分割为一个个时间分片。其中，时间分片的长度可以根据对精确度的要求确定，例如，当要求精确度较高时，可以适当缩短时间分片的长度，则按照较短的时间分片识别热点数据时，可使热点数据的识别更精细化。可选地，可以采用等分的方式，将统计周期划分为多个时长相等的时间分片。

例如，假设时间分片的时间长度为h小时，热点数据的统计周期为某一天的0点到这一天的24点，可以每隔h小时，划分出一个时间分片，则假设h取4，则可以将一天划分为6个时间分片，假设h取2，可以将一天划分为12个时间分片，依次类推，如果统计周期为最近3天，则h取4时，可以将3天划分为18个时间分片。

示例性地，请参见图8，假设统计周期为1天，时间分片的时间长度为4小时，则时间分片的划分可以如图8所示，会划分出“0：00—4：00”、“4：00—8：00”、“8：00—12：00”、“12：00—16：00”、“16：00—20：00”、“20：00—24：00”这6个时间分片。

结合统计周期以及时间分片的设计，在一种可能的实现中，可以根据当前时间点、时间分片的时长以及统计周期的时长，计算统计周期的开始时间点，从统计周期的开始时间点开始，每隔时间分片的时长，划分出一个时间分片，从而将统计周期分割出一个个时间分片。当得到各个时间分片后，可以计算每个时间分片的区间时间戳，以便在统计用户行为记录时，按照时间分片的起始时间点和结束时间点，对时间分片对应的访问行为次数进行累加。

其中，统计周期的开始时间点可以称为基准时间点，能够作为确定统计周期的基准。假设基准时间点表示为base_time(B)，则基准时间点可以通过以下公式计算得到：

base_time(B)＝当前时间(C)–(当前时间(C)％(时间分片长度(H)*3600))+时间分片长度(H)*3600–统计周期(S)*24*3600；

即：B＝C–(C％(H*3600))+H*3600–S*24*3600；

其中，C的单位是秒，H的单位是小时，S的单位是天，在计算时可以将单位统一为秒。

需要说明的是，本实施例提供的统计周期可以看作一个动态的时间窗口，能够随着时间的推移，不断向后滑动。具体地，在当前时间点在当前所处的时间分片中向后移动，而尚未离开当前所处的时间分片时，基准时间点会暂停，则统计周期会暂时不变，在当前时间点离开当前所处的时间分片，进入下一个时间分片时，基准时间点会向右滑动一个时间分片，相应的，则统计周期在时间轴上会向右滑动一个时间分片。

示例性地，请参见图9，图9为本实施例提供的一种时间分片的统计示意图，假设当前时间点为2016-08-31 13:15:00，时间戳为：1472640500，统计周期为1天，时间分片的时间长度为4小时，那么在08-31号当天的12:00:00至15:59:59之间，识别热点数据时，基准时间点都是2016-08-30 16:00:00(时间戳为：1472544000)，而在当前时间点到达或超过16:00:00时，则基准时间点更新为2016-08-30 40:00:00(时间戳为：1472544000)，统计周期向右滑动一个时间分片。

409、节点设备根据至少一条用户行为记录，获取至少一个数据采集设备在至少一个时间分片的访问行为次数。

访问行为次数：任一数据采集设备在任一时间分片的访问次数，即为用户对该数据采集设备采集的数据总共触发的访问行为的总次数。针对获取访问行为次数的过程，由于每条用户行为记录能够记录用户对一个数据采集设备的一次访问行为，则对于至少一个数据采集设备中的每个数据采集设备，根据该至少一条用户行为记录，可以确定该数据采集设备在各个时间分片采集的数据的访问行为次数。

具体来说，本步骤409可以通过以下步骤一至步骤三实现：

步骤一、对于任一条用户行为记录，确定用户行为记录对应的数据采集设备以及时间段。

用户行为记录中可以包括数据采集设备的标识以及时间段，可以从用户行为记录中提取数据采集设备的标识以及时间段，将数据采集设备的标识对应的数据采集设备，作为用户访问的数据采集设备，将用户行为记录中的时间段，作为用户访问的数据的时间段，从而确定出数据采集设备以及时间点。

步骤二、确定统计周期中与该时间段对应的一个或多个时间分片。

可以将用户行为记录对应的时间段与各个时间分片依次比对，如果用户行为记录对应的时间段属于任一时间分片，即，用户行为记录对应的时间段的时长小于或等于一个时间分片的时长，在时间轴上，用户行为记录对应的时间段正好落入一个时间分片中，则执行以下步骤三，如果用户行为记录对应的时间段跨越了多个时间分片，即，用户行为记录对应的时间段的时长大于一个时间分片的时长，在时间轴上，用户行为记录对应的时间段覆盖了至少一个时间分片，则执行以下步骤四。

示例性地，请参见图9，假设热点数据的统计周期以及时间分片的划分如图9所示，如果用户行为记录对应的时间段为08:00至08:30，可以确定该时间段落入时间分片08:00至12:00，如果用户行为记录对应的时间段为01:00至11:30，可以确定该时间段跨越了3个时间分片，分别为00:00至04:00、04:00至08:00、08:00至12:00。

步骤三、当时间段属于任一时间分片时，对该数据采集设备在该时间分片的访问行为次数递增。

本实施例中，访问行为次数的统计包括两个维度，一个是数据采集设备，另一个是时间分片，在统计过程中，每当根据任一条用户行为记录，确定了对应的数据采集设备以及时间分片后，即会对该数据采集设备在该时间分片的访问行为次数递增，从而通过遍历所有用户行为记录，累计各个数据采集设备在各个时间分片的访问行为次数。

在一种可能的实现中，在统计之前，可以记每个数据采集设备在每个时间分片的访问行为次数为0或其他初始值，当读取任一条用户行为记录，确定该用户行为记录对应的数据采集设备以及该用户行为记录对应的时间段所属的时间分片后，可以将该数据采集设备在该时间分片的访问行为次数加一，从而更新该数据采集设备在该时间分片的访问行为次数。

示例性地，假设用户行为记录中记录了：用户访问了数据采集设备A在时间段8:00至8:30中采集的数据，而8:00至8:30这一时间段属于统计周期中的时间分片08:00至12:00，则可以将数据采集设备A在时间分片08:00至12:00的访问行为次数加一。

步骤四、当时间段跨越多个时间分片时，对该数据采集设备在多个时间分片的访问行为次数均递增。

与上述步骤三相区别的是，当用户行为记录对应的时间段跨越了多个时间分片时，会对该数据采集设备在该多个时间分片的访问行为次数均递增，例如将该数据采集设备在该多个时间分片的访问行为次数均加一，从而更新该数据采集设备在每个时间分片的访问行为次数。

示例性地，假设用户行为记录中记录了：用户访问了数据采集设备A在时间段8:00至13:30中采集的数据，而8:00至13:30跨越了统计周期中的时间分片08:00至12:00、12:00至16:00，可以将数据采集设备A在时间分片08:00至12:00、12:00至16:00的访问行为次数均加一。

410、当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，节点设备将该数据采集设备的该时间分片的数据，作为云存储系统在该统计周期的热点数据。

预设条件：用于判断任一数据采集设备在任一时间分片的数据是否为热点数据，该预设条件可以预先在节点设备中配置，可以判断每个数据采集设备在每个时间分片的访问行为次数是否满足预设条件，当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，自动将数据采集设备在该时间分片内采集的数据，识别为云存储系统在统计周期的热点数据。

可选地，考虑到访问行为的多样性，可以结合各种行为类型对应的访问行为次数，识别热点数据。具体来说，在步骤409中统计访问行为次数的过程中，可以根据至少一条用户行为记录以及至少一种行为类型，获取至少一个数据采集设备在至少一个时间分片的至少一种行为类型对应的访问行为次数。

在一种可能的设计中，用户行为记录可以指示访问行为的行为类型，例如，可以为每种行为类型，设置对应的行为类型标识，用户行为记录可以包括行为类型标识，通过用户行为标识可以确定用户行为记录指示的行为类型。其中，行为类型标识用于指示对应的行为类型，可以通过数字、字母或字符串实现。举例来说，下载行为的行为类型标识可以为1，回放行为的行为类型标识可以为2，则当任一条用户行为记录中的行为类型标识为1时，可以确定该用户行为记录记录了一次下载行为。

结合通过用户行为记录指示行为类型的设计，针对获取至少一个数据采集设备在至少一个时间分片的至少一种行为类型对应的访问行为次数的具体过程，可以将行为类型也作为统计访问行为次数的维度，则在统计过程中，每当根据任一条用户行为记录，确定了对应的数据采集设备、时间分片以及行为类型后，即会对该数据采集设备在该时间分片的该行为类型的访问行为次数递增，从而通过遍历所有用户行为记录，累计各个数据采集设备在各个时间分片的各个行为类型的访问行为次数。

示例性地，假设用户行为记录中记录了：用户回放了数据采集设备A在时间段8:00至8:30中采集的数据，而8:00至8:30这一时间段属于统计周期中的时间分片08:00至12:00，则可以将数据采集设备A在时间分片08:00至12:00的回放行为对应的访问行为次数加一。假设用户行为记录中记录了：用户下载了数据采集设备A在时间段8:00至8:30中采集的数据，可以将数据采集设备A在时间分片08:00至12:00的下载行为对应的访问行为次数加一。

通过获取至少一个数据采集设备在至少一个时间分片的至少一种行为类型对应的访问行为次数，可以结合至少一种行为类型，设置识别热点数据的预设条件，当任一数据采集设备在任一时间分片的至少一种行为类型对应的访问行为次数满足预设条件时，则将数据采集设备的时间分片的数据，作为云存储系统在统计周期的热点数据。

在一种可能的实现中，可以为回放行为、下载行为等不同的访问行为设置对应的权重，根据各种行为类型对应的访问行为次数以及权重，通过以下步骤一至步骤三，来识别热点数据：

步骤一、确定至少一种行为类型对应的权重。

在一种可能的实现中，可以设置行为类型与权重之间的映射关系，该映射关系包括至少一种行为类型以及对应的至少一种权重，可以通过查询映射关系，确定任一种行为类型映射的权重。其中，每种行为类型的权重可以根据业务需求设置，例如当认为某种行为类型比较重要时，可以为该行为类型设置较大的权重。举例来说，行为类型与权重之间的映射关系可以如下表2所示：

表2

行为编号	行为类型	权重
			1	下载行为	1
2	回放行为	2
				……

步骤二、根据至少一种行为类型对应的权重，对至少一种访问行为的访问行为次数加权求和，得到加权和值。

其中，该加权和值可以看作时间分片的热度，能够反映用户访问该时间分片的数据的频繁程度，加权和值越大，可以认为数据采集设备在该时间分片采集的数据越热门，用户对数据采集设备在该时间分片采集的数据的需求越强烈。

示例性地，以热度表示为H为例，时间分片的热度可以通过以下公式计算：H＝W1*N1+W2*N2+W3*N3+……。其中，Wx表示行为类型对应的权重，Nx分别表示行为类型对应的访问行为次数。

步骤三、当加权和值大于或等于加权和值阈值时，确定访问行为次数满足预设条件。

对于任一数据采集设备在任一时间分片采集的数据，可以判断该数据采集设备以及该时间分片对应的加权和值是否大于或等于加权和值阈值，当加权和值大于或等于加权和值阈值时，则将数据采集设备的该时间分片的数据，作为云存储系统在统计周期的热点数据。也即是，识别热点数据的预设条件可以为：数据采集设备在时间分片的至少一种行为类型的访问行为次数的加权和值，大于或等于加权和值阈值。

其中，加权和值阈值可以称为时间分片的热度阈值，即，时间分片的热度如果已经达到热度阈值，则认为数据采集设备在该时间分片采集的数据达到了热带数据的程度。其中，加权和值阈值可以预先设置，具体数值可以根据实际需求确定。

举例来说，假设加权和值阈值为8，每种用户行为对应的权重如上表2所示，如果任一数据采集设备在任一时间分片中采集的数据被8次下载，则加权和值＝8*1＝8，则云存储系统会将该数据采集设备的该时间分片的数据，识别为热点数据。如果任一数据采集设备在任一时间分片中采集的数据被4次下载，并被2次回放，则加权和值＝4*1+2*2＝8，云存储系统会将该数据采集设备的该时间分片的数据，识别为热点数据。如果任一数据采集设备在任一时间分片中采集的数据被2次下载，3次回放，则加权和值＝2*1+3*2＝8，云存储系统会将该数据采集设备的该时间分片的数据，识别为热点数据，如果任一数据采集设备在任一时间分片中采集的数据被4次回放，则加权和值＝4*2＝8，云存储系统会将该数据采集设备的该时间分片的数据，识别为热点数据，依次类推。

可选地，当识别出任一数据采集设备的热点数据所在的时间分片后，可以将该热点数据从至少一个存储节点，转存至加速服务节点中，则后续检测到对该热点数据的访问行为时，可以直接从加速服务节点提取热点数据，从而由加速服务节点负担存储热点数据的任务，一方面，通过加速服务节点提取数据的速度较快，因此能够方便用户快速提取热点数据，另一方面，至少一个存储节点可以释放热点数据的存储空间，从而降低对云存储系统的存储压力。

加速服务节点：也称加速提取装置、加速服务模块、CSS模块，用于提供热点数据的存储服务、数据加速提取的服务、热点数据循环覆盖服务等业务，该加速服务节点可以包括存储介质，该存储介质可以为固态硬盘(Solid State Drives，以下简称：SSD)，可以将热点数据转存至加速服务节点的存储介质中。

其中，加速服务节点存储热点数据时，可以将热点数据、数据采集设备的标识以及时间段对应存储，以便在接收到数据访问请求时，如果解析数据访问请求，确定携带了该数据采集设备的标识以及时间段，则可以确定检测到了用户对热点数据的访问行为。

可选地，考虑到加速服务节点中存储节点的存储容量有限，在加速服务节点中，可以同样采用上述识别热点数据的方法，删除冷数据，释放存储空间。

综上所述，请参见图10，图10为本发明实施例提供的识别热点数据的流程图，可以通过依次执行图10中的每个步骤，完成识别热点数据的任务。

本发明实施例提供的方法，考虑到云存储系统的流式存储方式以及分布式存储方式，提供了一种能够适用于云存储系统的热点数据识别方法，通过结合云存储系统当前的存储周期，来确定热点数据的统计周期，并将统计周期划分为一个个时间分片，根据每个数据采集设备在每个时间分片的访问行为次数，来确定云存储系统在统计周期的热点数据，可以保证统计范围内的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据，也就避免了当存储节点已经在老数据上覆盖写入新数据，而仍根据老数据的访问时间点，对存储节点存储的新数据进行识别的异常情况，令热点数据的识别过程为一个具有时间属性的动态过程，极大地提高了云存储系统中识别热点数据的准确性。

图11是本发明实施例提供的一种热点数据的识别装置的结构示意图。参见图11，该装置包括：确定模块1101、划分模块1102、获取模块1103和识别模块1104。

确定模块1101，用于根据云存储系统当前的存储周期，确定热点数据的统计周期，该统计周期属于该存储周期；

划分模块1102，用于将该统计周期划分为至少一个时间分片；

获取模块1103，用于根据至少一条用户行为记录，获取至少一个数据采集设备在该至少一个时间分片的访问行为次数，该至少一个数据采集设备采集的数据存储于该云存储系统中，每条用户行为记录用于记录用户对任一数据采集设备在任一时间段的数据的一次访问行为；

识别模块1104，用于当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将该数据采集设备的该时间分片的数据，作为该云存储系统在该统计周期的热点数据。

本发明实施例提供的装置，考虑到云存储系统的流式存储方式以及分布式存储方式，提供了一种能够适用于云存储系统的热点数据识别方法，通过结合云存储系统当前的存储周期，来确定热点数据的统计周期，并将统计周期划分为一个个时间分片，根据每个数据采集设备在每个时间分片的访问行为次数，来确定云存储系统在统计周期的热点数据，可以保证统计范围内的所有数据均是云存储系统当前正在存储的数据，而不包含已被删除或已被覆盖写的老数据，也就避免了当存储节点已经在老数据上覆盖写入新数据，而仍根据老数据的访问时间点，对存储节点存储的新数据进行识别的异常情况，令热点数据的识别过程为一个具有时间属性的动态过程，极大地提高了云存储系统中识别热点数据的准确性。

可选地，该确定模块1101，用于：根据当前时间点以及该存储周期的时长，确定该统计周期，该统计周期包含该当前时间点，且该统计周期的时长小于或等于该存储周期的时长。

可选地，该获取模块1103，包括：

确定子模块，用于对于任一条用户行为记录，确定该用户行为记录对应的数据采集设备以及时间段；

递增子模块，用于当时间段属于一个时间分片时，对数据采集设备在时间分片的访问行为次数递增；或，当时间段跨越多个时间分片时，对数据采集设备在多个时间分片的访问行为次数均递增。

可选地，该获取模块1103，用于：根据至少一条用户行为记录以及至少一种行为类型，获取至少一个数据采集设备在至少一个时间分片的至少一种行为类型对应的访问行为次数；

该识别模块1104，用于：当任一数据采集设备在任一时间分片的至少一种行为类型对应的访问行为次数满足预设条件时，将数据采集设备的时间分片的数据，作为云存储系统在统计周期的热点数据。

可选地，该识别模块1104，包括：

计算子模块，用于根据至少一种行为类型对应的权重，对多种行为类型对应的访问行为次数加权求和，得到加权和值；

判断子模块，用于当加权和值大于或等于加权和值阈值时，将数据采集设备的时间分片的数据，作为云存储系统在统计周期的热点数据。

可选地，该装置还包括：

接收模块，用于接收该云存储系统中至少一个存储节点的至少一条用户行为信息，每条用户行为信息携带用户行为标识，该用户行为标识用于标识用户对任一数据采集设备在任一时间段的数据的一次访问行为；

合并模块，用于将同一用户行为标识对应的至少一条用户行为信息，合并为一条用户行为记录。

可选地，该装置还包括：

生成模块，用于当检测到用户对任一数据采集设备在任一时间段的数据的一次访问行为时，生成用户行为标识；

该确定模块1101，还用于根据数据划分的至少一个数据分片，确定云存储系统中存储了任一数据分片的存储节点，得到至少一个存储节点；

发送模块，用于向该至少一个存储节点，发送数据获取请求，该数据获取请求携带该用户行为标识，该数据获取请求用于指示存储节点基于该用户行为标识，生成用户行为信息；

接收模块，用于接收该至少一个存储节点的数据分片。

可选地，该装置还包括：

转存模块，用于将热点数据从云存储系统的至少一个存储节点，转存至加速服务节点中；

提取模块，用于当检测到用户对该热点数据的访问行为时，从该加速服务节点提取该热点数据。

需要说明的是：上述实施例提供的热点数据的识别装置在识别热点数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将节点设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的热点数据的识别装置与热点数据的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备可以提供为上述方法实施例中的节点设备，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条指令，该至少一条指令由该处理器1201加载并执行以实现上述各个方法实施例提供的热点数据的识别方法。当然，该计算机设备还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由计算机设备中的处理器执行以完成上述实施例中的热点数据的识别方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热点数据的识别方法，其特征在于，所述方法包括：

将所述统计周期划分为至少一个时间分片；

2.根据权利要求1所述的方法，其特征在于，所述根据云存储系统当前的存储周期，确定热点数据的统计周期，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数，包括：

5.根据权利要求4所述的方法，其特征在于，所述当任一数据采集设备在任一时间分片的所述至少一种行为类型对应的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述接收所述云存储系统中至少一个存储节点的至少一条用户行为信息之前，所述方法还包括：

接收所述至少一个存储节点的数据分片。

8.根据权利要求1所述的方法，其特征在于，所述将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据之后，所述方法还包括：

9.一种热点数据的识别装置，其特征在于，所述装置包括：

确定模块，用于根据云存储系统当前的存储周期，确定热点数据的统计周期，所述统计周期属于所述存储周期；

划分模块，用于将所述统计周期划分为至少一个时间分片；

获取模块，用于根据至少一条用户行为记录，获取至少一个数据采集设备在所述至少一个时间分片的访问行为次数，所述至少一个数据采集设备采集的数据存储于所述云存储系统中，每条用户行为记录用于记录用户对任一数据采集设备在任一时间段的数据的一次访问行为；

识别模块，用于当任一数据采集设备在任一时间分片的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

10.根据权利要求9所述的装置，其特征在于，所述确定模块，用于：根据当前时间点以及所述存储周期的时长，确定所述统计周期，所述统计周期包含所述当前时间点，且所述统计周期的时长小于或等于所述存储周期的时长。

11.根据权利要求9所述的装置，其特征在于，所述获取模块，包括：

确定子模块，用于对于任一条用户行为记录，确定所述用户行为记录对应的数据采集设备以及时间段；

递增子模块，用于当所述时间段属于一个时间分片时，对所述数据采集设备在所述时间分片的访问行为次数递增；或，当所述时间段跨越多个时间分片时，对所述数据采集设备在所述多个时间分片的访问行为次数均递增。

12.根据权利要求9所述的装置，其特征在于，所述获取模块，用于根据所述至少一条用户行为记录以及至少一种行为类型，获取至少一个数据采集设备在所述至少一个时间分片的至少一种行为类型对应的访问行为次数；

所述识别模块，用于当任一数据采集设备在任一时间分片的所述至少一种行为类型对应的访问行为次数满足预设条件时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

13.根据权利要求12所述的装置，其特征在于，所述识别模块，包括：

计算子模块，用于根据所述至少一种行为类型对应的权重，对所述多种行为类型对应的访问行为次数加权求和，得到加权和值；

判断子模块，用于当所述加权和值大于或等于加权和值阈值时，将所述数据采集设备的所述时间分片的数据，作为所述云存储系统在所述统计周期的热点数据。

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收所述云存储系统中至少一个存储节点的至少一条用户行为信息，每条用户行为信息携带用户行为标识，所述用户行为标识用于标识用户对任一数据采集设备在任一时间段的数据的一次访问行为；

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

所述确定模块，还用于根据所述数据划分的至少一个数据分片，确定所述云存储系统中存储了任一数据分片的存储节点，得到至少一个存储节点；

发送模块，用于向所述至少一个存储节点，发送数据获取请求，所述数据获取请求携带所述用户行为标识，所述数据获取请求用于指示存储节点基于所述用户行为标识，生成用户行为信息；

接收模块，用于接收所述至少一个存储节点的数据分片。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

转存模块，用于将所述热点数据从所述云存储系统的至少一个存储节点，转存至加速服务节点中；

提取模块，用于当检测到用户对所述热点数据的访问行为时，从所述加速服务节点提取所述热点数据。

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现权利要求1-8中任一项所述的方法步骤。

18.一种计算机可读存储介质，其特征在于，所述存储介质内存储有至少一条指令，所述至少一条指令被处理器执行以实现权利要求1-8中任一项所述的方法步骤。