CN111367992A

CN111367992A - 一种数据处理方法及装置，计算机存储介质和电子设备

Info

Publication number: CN111367992A
Application number: CN201811593588.0A
Authority: CN
Inventors: 孟嘉豪; 陈梁; 刘欢
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-03
Anticipated expiration: 2038-12-25
Also published as: CN111367992B

Abstract

本申请公开了一种数据处理方法及装置，一种分布式数据库中数据处理的方法以及计算机存储介质和电子设备，所述数据处理方法包括：获取需要统计的键值对；根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据；根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对；进而在整个统计过程中能够将未被访问过的键值对误判为访问过的键值对逐渐依次筛选出来，从而提高后续冷键值对识别的准确性。

Description

一种数据处理方法及装置，计算机存储介质和电子设备

技术领域

本申请涉及计算机应用技术领域，具体涉及一种数据处理方法及数据处理装置。本申请同时涉及一种分布式数据库中数据处理的方法和一种计算机存储介质和电子设备。

背景技术

分布式缓存系统tair是一个分布式key/value存储引擎，分布式缓存系统tair分为持久化和非持久化两种使用方式。非持久化的分布式缓存系统tair可以是一个分布式缓存；持久化的分布式缓存系统tair是将数据存放于磁盘中。为解决磁盘损坏导致数据丢失，分布式缓存系统tair可以配置数据的备份数目，分布式缓存系统tair自动将一份数据的不同备份放到不同的主机上，当有主机发生异常，无法正常提供服务的时候，其于的备份会继续提供服务。

然而，分布式缓存系统tair中，后端基于leveldb的ldb持久化存储引擎在硬盘上可以存储大量键值对。对于缓存系统中单机数据服务器上亿级别的键值对，若全部存储于分布式缓存系统tair中会占用大量硬盘空间。

现有技术中通过对存储键值对数据的冷热状态进行甄别，通过甄别结果以减小硬盘空间，然而仍然存在下述缺陷：

一、在通过访问次数来最终分类数据是否是冷热的方法中，由于降采样与估计算法精确度较差，进而不能识别出低频但是访问过的数据。

二、通过结合LRU与CountMin Sketch筛选数据，使用CountMin Sketch作为过滤器记录数据的频率，当新来的数据比要驱逐的数据高频时才加入到LRU中。此种方法同样由于记录大量数据的频率，进而会耗费大量内存空间。

发明内容

本申请提供一种数据处理方法及装置，以解决现有技术中存在的访问数据识别不准确，以及内存消耗较大的问题。本申请另外一种分布式数据库中数据处理的方法以及一种计算机存储介质以及电子设备。

本申请提供一种数据处理方法，包括：

获取需要统计的键值对；

根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据；

根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对。

在一些实施例中，还包括：

根据所述需要统计的键值对进行采样，获取已发生访问操作的键值对。

在一些实施例中，所述根据需要统计的对键值对进行采样，获取已发生访问操作的键值对，包括：

按照对键值对的访问操作，确定键值对采样的采样区域；

根据采样区域，对所述键值对进行采样。

在一些实施例中，所述按照对键值对的访问操作，确定键值对采样的采样区域，包括：

将所述键值对发生访问操作的访问操作路径，确定为键值对采样的采样区域。

在一些实施例中，还包括：

将所述统计数据进行转存，获得转存统计数据；

根据所述转存统计数据生成统计数据快照。

在一些实施例中，所述获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对，包括：

根据所述统计数据快照，确定所述冷键值对。

在一些实施例中，所述根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据，包括：

根据不同的统计周期内设定的相应的哈希算法，采用第一缓冲统计机制统计发生访问操作行为的键值对，获得所述统计数据。

在一些实施例中，还包括：

将所述第一缓冲统计机制切换到第二缓冲统计机制，所述第二缓冲统计机制记录所述统计数据；

所述将所述统计数据进行转存，获得转存统计数据，包括：

采用所述第二缓冲统计机制对所述统计数据进行转存，获得所述转存统计数据。

根据所述设定的统计周期，确定第一统计周期；

基于所述第一统计周期按照统计时间粒度进行划分，获得第一子统计周期，其中，所述第一子统计周期小于所述第一统计周期；

根据所述第一子统计周期，对所述获取已发生访问操作的键值对进行统计，获得第一子统计数据。

在一些实施例中，所述将所述统计数据进行转存，获得转存统计数据，包括：

将获得的所述第一子统计数据进行转存；

在所述第一统计周期的范围内，将转存的所述第一子统计周期对应第一子统计数据进行合并，获得合并统计数据；

将获得的所述合并统计数据确定为转存统计数据；

所述根据所述转存统计数据生成针对所述统计数据的数据快照，包括：

针对所述合并统计数据生成合并统计数据快照。

在一些实施例中，所述根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对包括：

扫描所述需要统计的键值对，获得待确定键值对；

在所述统计数据中查找是否有与所述待确定键值对相同的键值对，若无，则将所述待确定键值对确定为冷键值对。

在一些实施例中，还包括：

在所述统计数据中查找是否有与所述待确定键值对相同的键值对，若有，则返回未查找到所述冷键值对的信息。

在一些实施例中，还包括：

将确定的所述冷键值对进行转存。

在一些实施例中，所述将确定的所述冷键值对进行转存，包括：

将所述冷键值对转存至远端存储系统。

本申请还提供一种数据的处理装置，包括：

获取单元，用于获取已发生访问操作的键值对；

统计单元，用于根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据；

确定单元，用于根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对。

本申请还提供一种分布式数据库中数据处理的方法，包括：

获取分布式数据库中存储的键值对；

根据获得的所述统计数据，确定所述分布式数据库中存储的键值对中未发生访问操作行为的冷键值对。

本申请还提供一种计算机存储介质，用于存储网络平台产生数据，以及对应所述网络平台产生数据进行处理的程序；

所述程序在被所述处理器读取执行时，执行如下操作：

获取需要统计的键值对；

本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储对网络平台产生数据进行处理的程序，所述程序在被所述处理器读取执行时，执行如下操作：

获取需要统计的键值对；

与现有技术相比，本申请具有以下优点:

本申请提供一种数据处理方法，针对需要统计的键值对，在不同统计周期内设定的相应的哈希算法进行统计，获得相应统计周期内的发生访问操作行为的键值对作为统计数据，根据统计数据确定需要统计的键值对中未发生访问操作的冷键值对，由于每个统计周期采用相应的哈希算法，因此在整个统计过程中能够将未被访问过的键值对误判为访问过的键值对逐渐依次筛选出来，从而提高后续冷键值对识别的准确性；另外，由于每个统计周期对应的统计算法可以通过对哈希值的改变而实现算法变换，即周期性的改变哈希值，进而能够在不增加内存与哈希函数算法的情况下，保证在较低的时间与空间复杂度下完成数据的统计。

本申请提供的数据处理方法中，在根据统计数据确定冷键值对后，可以将冷冷键值对进行转存，转存在高压缩率、低成本介质的远端存储系统中，进而可以有效降低存储成本。

附图说明

图1是本申请提供的一种数据处理方法实施例的流程图；

图2是本申请提供的一种数据处理方法实施例的交互过程示意图；

图3是本申请提供的一种数据处理装置实施例的结构视图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请中使用的术语是仅仅出于对特定实施例描述的目的，而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如：“一种”、“第一”、和“第二”等，并非对数量上的限定或先后顺序上的限定，而是用来将同一类型的信息彼此区分。

请参考图1所示，图1是本申请提供的一种数据处理方法实施例的流程图，该方法包括：

步骤S101：获取需要统计的键值对。

所述步骤S101中所述键值对是以存储的编号为键，存储的数据为值的数据结构存储形式进行数据的存储，通常表示为key＝value的字符串。

所述需要统计的键值对中包括：发生访问操作行为的键值对和未发生访问操作行为的键值对。

所述访问操作可以包括：put、get、remove等对所述键值对的访问操作。

在本实施例中，还包括：

具体地，在对所述键值对进行采样时，是针对所有工作线程中产生的对所述分布式缓冲系统中存储的键值对的所有访问操作进行采样。

为提高所述键值对的采样的准确性，可以对所述键值对采样时，按照键值对的访问操作，确定键值对采样的采样区域，根据确定的采样区域对键值对进行采样，进而能够快速准确定采样到已发生访问操作的键值对。

在本实施例中，所述采样区域的确定可以通过下述方式进行确定，即：

将所述键值对发生访问操作的访问操作路径，确定为键值对采样的采样区域。所述访问操作路径的确定方式可以是在通过分布式缓冲系统中对存储引擎进行各个访问操作的访问操作路径；例如：发生读访问操作的路径和/或发生写访问的操作路径。

通过对确定的访问操作路径上的已发生访问操作的键值对进行采样后，需要对已采样获得的已发生访问操作的键值对进行统计，即执行步骤S102。

步骤S102：根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作的键值对，获得统计数据。

所述步骤S102中在对获取已发生访问操作的键值对进行统计时，是根据设定统计周期进行，换言之，在统计周期内采用与当前统计周期设定的当前统计算法，对所述已发生访问操作的键值对进行统计。因此，本实施例中，还可以包括：

根据设定的统计周期设定相应的哈希算法，其中，不同统计周期对应不同的哈希算法。

在本实施例中，对所述已发生访问操作的键值对进行统计可以采用周期性的变换布隆过滤器(bloom filter)中的哈希算法进行统计，即：不同的统计周期设定不同的哈希算法，对当前的统计周期中的已发生访问操作的键值对进行标记统计。其中，所述布隆过滤器(bloom filter)，是一种多哈希函数映射的快速查找算法，用于检索一个元素是否在一个集合中的概率数据结构，由一个二进制向量和一系列随机映射函数组成。由于bloomfilter是一个比特位空间，记录已发生访问操作过的键值对就是将键哈希到的比特位置标记为1，多线程访问时哈希冲突很小，且比特位置1可以用原子操作保证高并发下的正确性，其中，所谓原子操作是指不会被线程调度机制打断的操作。所述bloom filter可以保证能记录到所有已发生访问操作的键值对，但是会具有一定的误判率，会将未被发生访问操作的键值对视为已发生访问操作的键值对，进行统计。由于统计需求是针对设定的统计周期统计全部访问过的键值对，因此，在设定的统计周期内采用不同的哈希算法，即，在设定的每个统计周期内变换哈希算法，使得下一个统计周期内bloom filter的冲突域变化(将未被访问的键值对标记为访问的筛选出来)，进而在保证时间与空间复杂度不变的情况下，使得一直未被访问的冷键值对若在上一统计周期内被误判统计，能够在后续统计周期内中逐渐被筛选出来。本实施例中的冷键值对是指访问频次低于预定访问频次的键值对，预定访问频次的键值对可以根据实际统计需要进行设定，在该实施例中，冷键值对可以看做为访问频次为0的键值对，即未发生访问操作行为的键值对，而发生访问操作行为的键值对可以看做是访问频次为1的键值对。

在本实施例中，根据设定的统计周期内采用不同的哈希算法，可以是对每个统计周期变换哈希值实现，例如：改变哈希种子(hashSeed)的值，进而实现对键值对的标记统计。也就是说，不同的统计周期会对应不同的哈希算法，每个统计周期均采用当前统计周期内的相对应的哈希算法统计已发生访问操作的键值对。

根据获得的统计数据可以直接进行冷键值对的确定，即：根据获得的统计数据中的键值对信息，确定出冷键值对，也就是进入步骤S103。

为保持较低的时间与空间复杂度，可以将获得的统计数据进行转存，根据转存后的统计数据执行所述步骤S103，进而能够使得对已访问操作的键值对进行统计过程与后续冷键值对的确定过程分离。

因此，在基于获得的统计数据后，本实施例中还可以包括：

将所述统计数据进行转存，获得转存统计数据；

根据所述转存统计数据生成针对所述统计数据的数据快照。

为便于后续根据所述统计数据确定冷键值对，在本实施例中，根据设定的统计周期内相应的哈希算法，对所述获取已发生访问操作所的键值对进行统计时，可以采用第一缓冲统计机制统计发生访问操作的键值对，获得统计数据，即：通过第一布隆过滤器(前台布隆过滤器)对所述获取已发生访问操作的键值对进行统计。在对通过第一布隆过滤器统计的统计数据进行转存时，将第一布隆过滤器切换到第二布隆过滤器(后台布隆过滤器)，通过第二布隆过滤器对所述统计数据进行转存，因此，本实施例在转存统计数据时还可以包括：

所述将所述统计数据进行转存，获得转存统计数据，包括：

采用所述第二缓冲统计机制对所述统计数据进行转存，获得转存统计数据。

其中，所述第一缓冲统计机制可以采用第一布隆过滤器，第二缓冲统计机制可以采用第二布隆过滤器实现相应的统计操作和转存操作。在所述步骤S101中获取已发生访问操作的键值对是对多个工作线程中的访问操作获取键值对，在将统计数据进行转存时是通过转存线程进行，在本实施例中可以通过第一缓冲统计机制和第二缓冲统计机制采用rcu机制做到无锁切换，从而不影响工作线程的性能。所述rcu机制是一种用户态的无锁共享数据结构的机制。读取操作方不需要获得任何锁就可以访问数据结构，写操作方在访问时需要拷贝一个副本，然后对副本进行修改，最后在适当的时机把指向原来数据的指针重新指向新的被修改的数据即可，由于整个数据机构的访问过程中没有设置锁，进而在统计与存储过程中的切换，不影响工作线程的性能。

在获得转存统计数据后生成针对所述统计数据的数据快照可以理解为，针对转存的统计数据生成一种只读静态视图，进而在后续通过数据快照进行冷键值对的确定时能够提高确定冷键值对的速度。

在完成上述根据转存统计数据生成所述统计数据的数据快照后，可以进入步骤S103中执行。

在上述实施例实现过程中，还存在一种基于已设定的统计周期进一步划分周期的情况，即：通过设定的统计周期以及相对应的哈希算法，统计已发生访问操作键值对的统计数据时，存在针对已设定的统计周期进行更细粒度上的周期划分，所述针对已设定的统计周期进行更细粒度上的周期划分可以是针对已设定的某一个统计周期进行的周期内的再次划分，也可以是对多个设定的统计周期分别进行的周期内的再次划分，因此，需要统计更细粒度周期上已发生访问操作的键值对，获得统计数据。

本实施例中，所述根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据，包括：

根据所述设定的统计周期，确定第一统计周期；

基于所述第一统计周期按照统计时间粒度进行划分，获得第一子统计周期，其中，所述第一子统计周期小于所述第一统计周期；或者也可以理解为所述第一统计周期至少被划分为两个第一自统计周期。

基于上述，可以理解的是，针对第一统计周期划分的至少两个第一子统计周期，即：第一子统计周期A和第二子统计周期B，会分别产生针对两个第一子统计周期的统计数据，即：第一子统计数据A和第一子统计数据B。基于所述第一统计周期，当所述第一子统计周期A内统计完成获得所述第一子统计数据A后，所述第一统计周期的统计数据还尚未完成，因此，在针对第一子统计周期B统计第一子统计数据B时，所述第一子统计数据B相当于是第一统计周期的增量，需要将第一子统计数据A和第一子统计数据B合并后，确定为第一统计周期内的统计数据，因此，所述将所述统计数据进行转存，获得转存统计数据，包括：

将获得的所述第一子统计数据进行转存；

将获得的所述合并统计数据确定为转存统计数据；

针对所述合并统计数据生成合并统计数据快照。

进而，本实施例中，可以在设定的统计周期基础上，进行更细统计粒度的划分，该粒度的划分可以根据需要统计的时间进行确定，例如：最初已设定的统计周期可以为一个月或一个星期，在此基础上，针对所述统计周期可以进一步划分，例如：统计周期为一个月的子统计周期可以划分为一个星期，统计周期为一个星期的子统计周期可以划分为每天。具体统计周期的设定可以根据实际数据统计的需求进行设定。

以上是对步骤S102中的根据设定的统计周期内相应的哈希算法，对所述获取已发生访问操作的键值对进行统计，获得统计数据的具体过程进行的描述，上述统计数据的获得过程存在多种实现的方式，在一些实施例中，可以通过设定的统计周期内相应的哈希算法直接对已发生访问操作的键值对进行统计，也可以在设定好的统计周期上进一步进行更细粒度的时间划分，获得更细粒度周期上的统计数据。在获得统计数据后可以直接针对已获得的统计数据进行冷键值对的确定，在上述提供的实施例中，还可以通过将已获得的统计数据进行存储，实现线上统计操作与后续线下确定操作的分离。

在上述统计数据的统计完成后，可以进步根据统计数据确定冷键值对的步骤，即：步骤S103。

步骤S103：根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对。

所述冷键值对是指未发生访问的键值对，或者是对键值对没有被访问过的为冷键值对即冷键值对。

具体确定冷键值对的过程，在本实施例中可以采用如下方式，即：所述根据对所述获取已发生访问操作的键值对的统计数据，确定冷键值对，包括：

扫描所述需要统计的键值对，获得待确定键值对；

本实施例中，所述分布式缓存系统是一个分布式以键值对为主要存储对象的存储引擎，扫描所述存储的键值对是扫描存储引擎中的所有键值对。

需要说明的是，在本实施例中，所述分布式缓存系统中的数据信息可以基于leveldb的ldb持久化存储引擎存储大量键值对，其中，所述leveldb是Google开源的持久化键值对的单机存储引擎，具有很高的随机写，顺序读/写性能。为保证存储引擎的性能，在对存储引擎扫描后筛选出冷键值对，即：冷键值对。

所述判断统计数据中是否有与所述已存储键值对相同的键值对，可以是根据扫描获得的待确定键值对去所述统计数据中查找，若没有查找到，则说明分布式缓存系统中当前待确定键值对未被访问操作过(或者没有发生过访问操作行为)，进而属于冷键值对。若查找到，则说明分布式缓存系统中当前待确定键值对被访问过(或者发生过访问操作行为)，不属于冷键值对，，可以根据查找结果返回相应的未查找到冷键值对的信息或者不做任何处理或者再次进行查找。

在本实施例中，具体的查找方式可以是通过所述步骤S102中描述的生成数据快照查找，即：根据所述转存统计数据生成针对所述统计数据的数据快照查找所述待确定键值对，当然，可以理解的是，也可以直接通过第一缓冲机制中获得的转存统计数据进行查找，或者直接通过第一缓冲机制中获得的统计数据进行查找，可实现的方式有很多，根据不同的处理需求，采用需要的查找方式以确定冷键值对。

根据上述内容，对本申请实施例进行综述，即：在本实施例中，提供的方式是通过第一缓冲统计机制获得统计数据，将第一缓冲统计机制切换到第二缓冲统计机制获得转存后的转存统计数据，根据转存统计数据生成针对统计数据的数据快照，根据扫描分布式存储系统存储引擎中的键值对获得待确定键值对，将待确定键值对加载到所述数据快照中进行查找，所述数据快照中存在待确定键值对，则说明所述待确定键值对不属于冷键值对，若所述数据快照不存在待确定键值对，则说明所述待确定键值对属于冷键值对。

基于上述内容，为节省存储成本，在确定冷键值对后，还可以包括：

步骤S104：将确定的所述冷键值对进行转存。

基于上述步骤S103确定的冷键值对可以从所述分布式缓存系统中进行提取，将提取出的确定的冷键值对进行转存，转存至高压缩率、低成本介质的远端存储系统中，进而可以有效降低存储成本。

基于上述步骤S101-步骤S104，对本申请提供的一种冷键值对的处理方法实施例的过程进行概要总结，请参考图2所示，图2是本申请提供的一种数据处理方法实施例的交互过程示意图。

如图2所示，工作线程中的采样已发生访问操作的键值对，通过工作线程(WorkerThreads)中的第一缓冲统计机制(Front-end Bloom Filter)对采样(sampling)的键值对进行统计，获得统计数据，将第一缓冲统计机制切换到转存线程(Dump Thread)中的第二缓冲统计机制(Back-end Bloom Filter)，通过第二缓冲统计机制对所述统计数据进行转存，获得转存统计数据，根据所述转存统计数据生成针对统计数据的数据快照(SnapshotBloom Filter)，根据所述数据快照在提取线程(Extract Thread)中进行冷键值对的确定，最后将确定的冷键值对转存至远端存储系统中。其中，在所述统计数据转存过程中，如果接收的统计数据是基于已设定的统计周期上更细粒度周期的划分，则需要将设定的统计周期内划分的子统计周期内的各个子统计数据进行合并(merge)，在同一个已设定的统计周期内，后一个子统计周期的子统计数据相当于前一个子统计周期的子统计数据的增量(DeltaBloom Filter)具体内容可以参考步骤S103中的描述，此处仅为概述。

上述本申请提供的一种冷键值对的处理方法实施例通过设定统计周期内相应的哈希算法，进而使得不同的统计周期采用不同的哈希算法，因此，在整个统计过程中能够将未被访问过的键值对误判为访问过的键值对逐渐依次筛选出来(后期统计周期内获得的统计数据相比相邻前一统计周期内统计数据发生变化的部分相当于是统计数据的增量，即误判部分)，由于每个统计周期对应的哈希算法可以通过对哈希值的改变，即周期性的改变哈希值，进而能够在不增加内存与哈希函数算法的情况下，提高获得统计数据的准确性同时保证较低的时间与空间复杂度。

以上是对本申请提供的一种冷键值对的处理方法实施例的说明。与前述提供的一种冷键值对的处理方法实施例相对应，本申请还公开一种冷键值对的处理装置实施例，请参看图3，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图3所示，图3是本申请提供的一种数据处理装置实施例的结构视图，所述处理装置包括：

获取单元301，用于获取需要统计的键值对。

所述获取单元301中所述键值对是以存储的编号为键，存储的数据为值的数据结构存储形式进行数据的存储，通常表示为key＝value的字符串。

还包括：

采样单元，用于根据所述需要统计的键值对进行采样，获取已发生访问操作的键值对。

具体地，在对所述键值对进行采样时，是针对工作线程中产生的对所述分布式缓冲系统中存储的键值对的所有访问操作进行采样。

因此，在本实施例中，所述采样子单元包括：

采样区域确定子单元，用于按照键值对的访问操作，确定键值对采样的采样区域；

键值对采样子单元，用于根据采样区域，对所述键值对进行采样。

在本实施例中，所述采样区域确定子单元具体用于将所述键值对发生访问操作的访问操作路径，确定为键值对采样的采样区域。所述访问操作路径的确定方式可以在通过分布式缓冲系统中对存储引擎进行各个访问操作的访问操纵路径；例如：发生读访问操作的路径和/或发生写访问操作的路径。。

通过对确定的访问操作路径上的已发生访问操作的键值对进行采样后，需要对已采样获得的已发生访问操作的键值对进行统计，即进入统计单元302。

统计单元302，用于根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作的键值对，获得统计数据。

所述统计单元302在对获取已发生访问操作的键值对进行统计时，是根据设定统计周期进行，换言之，在统计周期内采用与当前统计周期设定的当前哈希算法，对所述已发生访问操作的键值对进行统计。因此，本实施例中，还可以包括：

设定单元，用于根据设定的统计周期设定相应的哈希算法，其中，不同统计周期对应不同的哈希算法。

在本实施例中，对所述已发生访问操作的键值对进行统计可以采用bloom filter算法进行统计，即：不同的统计周期设定不同的bloom filter算法，对当前的统计周期中的已发生访问操作的键值对进行统计。其中，所述bloom filter为布隆过滤器，是一种多哈希函数映射的快速查找算法，用于检索一个元素是否在一个集合中的概率数据结构，由一个二进制向量和一系列随机映射函数组成。由于bloom filter是一个比特位空间，记录已发生访问操作过的键值对就是将键哈希到的比特位置1，多线程访问时哈希冲突很小，且比特位置1可以用原子操作保证高并发下的正确性，其中，所谓原子操作是指不会被线程调度机制打断的操作。所述bloom filter可以保证能记录到所有已发生访问操作的键值对，但是会具有一定的误判率，会将未被发生访问操作的键值对视为已发生访问操作的键值对，进行统计。由于统计需求是针对设定的统计周期统计全部访问过的键值对，因此，在设定的统计周期内设定相应的哈希算法，即，在设定的每个统计周期内变换哈希算法，使得下一个统计周期内bloom filter的冲突域变化，进而在保证时间与空间复杂度不变的情况下，使得一直未被访问的冷键值对若在上一统计周期内被误判统计，能够在后续统计周期内中逐渐被筛选出来。

在本实施例中，根据设定的统计周期设定相应的哈希算法，可以是对每个统计周期变换哈希值，实现哈希算法的改变，例如：改变哈希种子(hashSeed)的值，进而实现哈希算法的改变。也就是说，不同的统计周期会对应不同的哈希算法，每个统计周期均采用当前统计周期内的相对应的哈希算法统计已发生访问操作的键值对。

根据获得的统计数据可以直接进行冷键值对的确定，即：根据获得的统计数据中的键值对信息，确定出冷键值对，也就是进入确定单元303。

为保持较低的时间与空间复杂度，可以将获得的统计数据进行转存，根据转存后的统计数据执行确定单元303中对冷键值对的确定，进而能够使得对已访问操作的键值对进行统计过程与后续冷键值对的确定过程分离。

因此，在基于获得的统计数据后，本实施例中还可以包括：

统计数据转存单元，用于将所述统计数据进行转存，获得转存统计数据；

生成单元，用于根据所述转存统计数据生成针对所述统计数据的数据快照。

为便于后续确定单元303根据所述统计数据确定冷键值对，在本实施例中，根据设定的统计周期内相应的哈希算法，对所述获取已发生访问操作所的键值对进行统计时，可以采用第一缓冲统计机制对所述获取已发生访问操作的键值对进行统计，获得统计数据，即：通过第一布隆过滤器(前台布隆过滤器)对所述获取已发生访问操作的键值对进行统计。在对通过第一布隆过滤器统计的统计数据进行转存时，将第一布隆过滤器切换到第二布隆过滤器(后台布隆过滤器)，通过第二布隆过滤器对所述统计数据进行转存，因此，本实施例在转存统计数据时还可以包括：

切换单元，用于将所述第一缓冲统计机制切换到第二缓冲统计机制，所述第二缓冲统计机制记录所述统计数据；

所述统计数据转存单元具体用于采用所述第二缓冲统计机制对所述统计数据进行转存，获得转存统计数据。

其中，所述第一缓冲统计机制可以采用第一布隆过滤器，第二缓冲统计机制可以采用第二布隆过滤器实现相应的统计操作和转存操作。在所述获取单元301中获取已发生访问操作的键值对是对多个工作线程中的访问操作获取键值对，在将统计数据进行转存时是通过转存线程进行，在本实施例中可以通过第一缓冲统计机制和第二缓冲统计机制采用rcu机制做到无锁切换，从而不影响工作线程的性能。所述rcu机制是一种用户态的无锁共享数据结构的机制。读取操作方不需要获得任何锁就可以访问数据结构，写操作方在访问时需要拷贝一个副本，然后对副本进行修改，最后在适当的时机把指向原来数据的指针重新指向新的被修改的数据即可，由于整个数据机构的访问过程中没有设置锁，进而在统计与存储过程中的切换，不影响工作线程的性能。

在通过所述转存数据统计单元获得转存统计数据后，可以根据转存统计数据生成针对所述统计数据的数据快照，可以理解为，针对转存的统计数据生成一种只读静态视图，进而在后续通过数据快照进行冷键值对的确定时能够提高确定冷键值对的速度。

在根据上述转存统计数据单元完成上述根据转存统计数据生成所述统计数据的数据快照后，可以进入确定单元303中执行。

本实施例中，所述统计单元302中根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据，包括：

第一统计周期确定子单元，用于根据所述设定的统计周期，确定第一统计周期；

子统计周期获得子单元，用于基于所述第一统计周期确定子单元中，确定的所述第一统计周期按照统计时间粒度进行划分，获得第一子统计周期，其中，所述第一子统计周期小于所述第一统计周期；或者也可以理解为所述第一统计周期至少被划分为两个第一自统计周期。

子统计子数据获得子单元，用于根据所述第一子统计周期，对所述获取已发生访问操作的键值对进行统计，获得第一子统计数据。

基于上述，可以理解的是，针对第一统计周期划分的至少两个第一子统计周期，即：第一子统计周期A和第二子统计周期B，会分别产生针对两个第一子统计周期的统计数据，即：第一子统计数据A和第一子统计数据B。基于所述第一统计周期，当所述第一子统计周期A内统计完成获得所述第一子统计数据A后，所述第一统计周期的统计数据还尚未完成，因此，在针对第一子统计周期B统计第一子统计数据B时，所述第一子统计数据B相当于是第一统计周期的增量，需要将第一子统计数据A和第一子统计数据B合并后，确定为第一统计周期内的统计数据，因此，所述统计数据转存单元，包括：

子统计数据转存子单元，用于将获得的所述第一子统计数据进行转存；

合并子单元，用于在所述第一统计周期的范围内，将转存的所述第一子统计周期对应第一子统计数据进行合并，获得合并统计数据；

转存统计数据确定子单元，用于将获得的所述合并统计数据确定为转存统计数据；

所述生成单元，包括：

合并生成子单元，用于针对所述合并统计数据生成合并统计数据快照。

以上是对所述统计单元302中的根据设定的统计周期内相应的哈希算法，对所述获取已发生访问操作的键值对进行统计，获得统计数据的具体过程进行的描述，上述统计数据的获得过程存在多种实现的方式，在一些实施例中，可以通过设定的统计周期内相应的哈希算法直接对已发生访问操作的键值对进行统计，也可以在设定好的统计周期上进一步进行更细粒度的时间划分，获得更细粒度周期上的统计数据。在获得统计数据后可以直接针对已获得的统计数据进行冷键值对的确定，在上述提供的实施例中，还可以通过将已获得的统计数据进行存储，实现线上统计操作与后续线下确定操作的分离。

在上述统计数据的统计完成后，可以进入所述确定单元303中进行根据统计数据确定冷键值对操作。

确定单元303，用于根据所述统计单元302中对所述获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对。

扫描子单元，用于扫描所述需要统计的键值对，获得待确定键值对；

查找子单元，用于在所述统计单元提供的统计数据中查找是否有与所述待确定键值对相同的键值对，若无，则将所述待确定键值对确定为冷键值对。

查找所述统计单元302提供的统计数据中是否有与所述已存储键值对相同的键值对，可以是根据扫描获得的待确定键值对去所述统计数据中查找，若没有查找到，则说明分布式缓存系统中当前待确定键值对未被访问操作过(或者没有发生过访问操作行为)，进而属于冷键值对，即冷键值对。若查找到，则说明分布式缓存系统中当前待确定键值对被访问过(或者发生过访问操作行为)，不属于冷键值对，即不属于冷键值对，可以根据查找结果返回相应的未查找到冷键值对的信息或者不做任何处理或者再次进行查找。

在本实施例中，具体的查找方式可以是通过上述生成单元中根据所述转存统计数据生成针对所述统计数据的数据快照查找所述待确定键值对，当然，可以理解的是，也可以直接通过第一缓冲统计机制中获得的转存统计数据进行查找，或者直接通过第一缓冲统计机制中获得的统计数据进行查找，可实现的方式有很多，根据不同的处理需求，采用需要的查找方式以确定冷键值对。

根据上述内容，对本申请冷键值对的处理装置实施例进行综述，即：在本实施例中，提供的方式是通过统计单元302中的第一缓冲机制获得统计数据，其中统计数据的基础是通过获取单元301中采样的已发生访问操作的键值对进行；将统计单元302中的第一缓冲统计机制切换到转存单元中的第二缓冲统计机制，进而在统计数据转存单元中获得转存后的转存统计数据；接着在生成单元中，根据转存统计数据生成针对统计数据的数据快照；在扫描子单元中，根据扫描分布式存储系统存储引擎中的键值对获得待确定键值对，将获得的待确定键值对在所述查找子单元中加载到所述数据快照中进行查找，所述数据快照中存在待确定键值对，则说明所述待确定键值对不属于冷键值对，若所述数据快照不存在待确定键值对，则说明所述待确定键值对属于冷键值对。

冷键值对转存单元304，用于将确定的所述冷键值对进行转存。

基于上述确定单元303中所确定的冷键值对，可以从所述分布式缓存系统中进行提取，将提取出的冷键值对进行转存，转存至高压缩率、低成本介质的远端存储系统中，进而可以有效降低存储成本。

基于上述获取单元301-冷键值对转存单元304，对本申请提供的一种冷键值对的处理装置实施例的过程进行概要总结，该部分内容可以参考图2进行了解。

以上是对本申请提供的一种数据处理装置实施例的介绍，基于上述本申请提供的一种数据的处理方法和装置，本申请还提供一种分布式数据库中数据处理的方法，该方法包括：

获取分布式数据库中存储的键值对；

根据获得的所述统计数据，确定所述分布式数据库中存储的键值对中未发生访问操作行为的冷键值对。具体地，将所述分布式数据库中的键值对与所述统计数据中的已发生访问操作行为的键值对进行比较，进而确定出未发生访问操作行为的冷键值对。

对所述冷键值对进行提取；将提取出的冷键值对转存至远端存储系统中，进而能够降低分布式数据库的存储成本。

本申请还提供一种计算机存储介质和电子设备，具体如下：

本申请提供一种计算机存储介质，用于存储网络平台产生数据，以及对应所述网络平台产生数据进行处理的程序；

所述程序在被所述处理器读取执行时，执行如下操作：

获取需要统计的键值对；

本申请还提供一种电子设备，包括：

处理器；

获取需要统计的键值对；

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取需要统计的键值对；

2.根据权利要求1所述的数据的处理方法，其特征在于，还包括：

3.根据权利要求2所述的数据的处理方法，其特征在于，所述根据需要统计的对键值对进行采样，获取已发生访问操作的键值对，包括：

按照对键值对的访问操作，确定键值对采样的采样区域；

根据采样区域，对所述键值对进行采样。

4.根据权利要求3所述的数据的处理方法，其特征在于，所述按照对键值对的访问操作，确定键值对采样的采样区域，包括：

5.根据权利要求1所述的数据的处理方法，其特征在于，还包括：

将所述统计数据进行转存，获得转存统计数据；

根据所述转存统计数据生成统计数据快照。

6.根据权利要求5所述的数据的处理方法，其特征在于，所述获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对，包括：

根据所述统计数据快照，确定所述冷键值对。

7.根据权利要求5所述的数据的处理方法，其特征在于，所述根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据，包括：

8.根据权利要求7所述的数据的处理方法，其特征在于，还包括：

所述将所述统计数据进行转存，获得转存统计数据，包括：

9.根据权利要求5所述的数据的处理方法，其特征在于，所述根据不同统计周期内设定的相应的哈希算法，统计所述统计周期内发生访问操作行为的键值对，获得统计数据，包括：

根据所述设定的统计周期，确定第一统计周期；

10.根据权利要求9所述的数据的处理方法，其特征在于，所述将所述统计数据进行转存，获得转存统计数据，包括：

将获得的所述第一子统计数据进行转存；

将获得的所述合并统计数据确定为转存统计数据；

针对所述合并统计数据生成合并统计数据快照。

11.根据权利要求1所述的数据的处理方法，其特征在于，所述根据获得的所述统计数据，确定所述需要统计的键值对中未发生访问操作行为的冷键值对包括：

扫描所述需要统计的键值对，获得待确定键值对；

12.根据权利要求11所述的数据的处理方法，其特征在于，还包括：

13.根据权利要求1或12所述的数据的处理方法，其特征在于，还包括：

将确定的所述冷键值对进行转存。

14.根据权利要求13所述的数据的处理方法，其特征在于，所述将确定的所述冷键值对进行转存，包括：

将所述冷键值对转存至远端存储系统。

15.一种数据的处理装置，其特征在于，包括：

获取单元，用于获取已发生访问操作的键值对；

16.一种分布式数据库中数据处理的方法，其特征在于，包括：

获取分布式数据库中存储的键值对；

17.一种计算机存储介质，用于存储网络平台产生数据，以及对应所述网络平台产生数据进行处理的程序；

所述程序在被所述处理器读取执行时，执行如下操作：

获取需要统计的键值对；

18.一种电子设备，包括：

处理器；

获取需要统计的键值对；