CN113282456A

CN113282456A - 一种数据处理方法和装置

Info

Publication number: CN113282456A
Application number: CN202110563576.9A
Authority: CN
Inventors: 樊宇
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-20
Anticipated expiration: 2041-05-24
Also published as: CN113282456B

Abstract

本发明公开了一种数据处理方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取待处理数据；基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到；存储所述树的所有叶子节点对应的数据，响应于针对所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。该实施方式降低了待处理数据的存储空间，提高了存储资源的利用率。

Description

一种数据处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法和装置。

背景技术

为及时识别、解决服务器出现的问题以保证服务器的正常运行，常需要对服务器进行监控，即通过各种方式记录或存储服务器的运行数据，以在需要时随时调用运行数据进行查看。

由于服务器运算速度较快，为对服务器进行全面、实时监控，常以秒等为间隔采集服务器的运行数据，如内存利用率、磁盘利用率等，因而随着监控时间的延长，所采集的运行数据的数量呈爆发式增长，需要占用巨大的存储空间，在一定程度上降低了服务器资源的利用率。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法和装置，能够对所采集的海量的服务器运行数据进行压缩，节约数据的存储空间。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理方法，包括：

获取待处理数据；

基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到；

存储所述树的所有叶子节点对应的数据；

响应于针对所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。

可选地，所述基于预设映射关系，生成所述待处理数据对应的树，包括：

基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据；

根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点；

对于指示了所述第一类数据的子节点，继续基于所述预设映射关系，迭代生成所述子节点对应的子节点。

可选地，所述基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据，包括：

按照所述待处理数据中原始数据的顺序，将所述原始数据划分为原始数据对；

计算所述原始数据对中两个原始数据的均和值，以生成所述第一类数据；

计算所述原始数据对中两个原始数据的均差值，以生成所述第二类数据。

可选地，所述根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点，包括：

根据所述待处理数据中原始数据的出现频率，构建所述待处理数据对应的频率直方图；

根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理；

根据所述第一类数据及处理后的所述第二类数据，分别生成所述根节点对应的子节点。

可选地，所述根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理，包括：

根据所述频率直方图确定所述第二类数据对应第一阈值、第二阈值；其中，所述第一阈值指示了原始数据最小值的一半，所述第二阈值指示了所述原始数据的出现频率的最小值；

在所述第二类数据小于所述第一阈值，且所述第二类数据的出现频率小于所述第二阈值的情况下，将所述第二类数据置换为零。

可选地，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，还包括：

获取所述树的当前树深度或所述第一类数据对应的数据量，以在所述当前树深度不大于阈值树深度或所述第一类数据对应的数据量大于阈值数量的情况下，继续基于所述预设映射关系，迭代生成所述子节点对应的子节点。

可选地，采用线性表分区存储所述树的所有叶子节点对应的数据。

可选地，在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。

可选地，所述待处理数据对应的树为不平衡二叉树。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理装置，包括：数据获取模块、树生成模块、数据存储模块、数据响应模块；其中，

所述的数据获取模块，用于获取待处理数据；

所述树生成模块，用于基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到；

所述数据存储模块，用于存储所述树的所有叶子节点对应的数据；

所述数据响应模块，用于响应于针对所述待处理数据的数据调用请求的情况下，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。

可选地，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，所述树生成模块，还用于：

可选地，所述数据存储模块，用于采用线性表分区存储所述树的所有叶子节点对应的数据。

可选地，所述数据存储模块，用于在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。

可选地，所述待处理数据对应的树为不平衡二叉树。

为实现上述目的，根据本发明实施例的一个方面，提供了一种用于数据处理的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的数据处理方法中任一所述的方法。

为实现上述目的，根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的数据处理方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过基于预设映射关系，生成待处理数据对应的树，并采用树的所有叶子节点对应的数据替代待处理数据进行存储，实现了对海量待处理数据的压缩，减少了待处理数据占用的存储空间；在此基础上，在接收到数据调用请求的情况下又可以通过所存储的叶子节点的数据生成待处理数据，实现对待处理数据的查看及调用，保证了服务器监控功能的正常进行。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据处理方法的主要流程的示意图；

图2是根据本发明实施例的另一数据处理方法的主要流程的示意图；

图3是根据本发明实施例的待处理数据的频率直方图的示意图；

图4是根据本发明实施例的待处理数据对应的树的示意图；

图5是根据本发明实施例的数据处理装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的数据处理方法的主要流程的示意图，如图1所示，该数据处理方法具体可以包括的步骤如下：

步骤S101，获取待处理数据。

其中，待处理数据是指对服务器进行监控时获取的指定时间段或者预设时间长度(比如1小时、30min、1天等)内服务器的运行数据，包括但不限于内存占用率、CPU占用率、磁盘使用量、I/O、网络速度、网络延时、响应时间、包丢失、进程等。

步骤S102，基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到。

其中，所述待处理数据对应的树为不平衡二叉树，也即是说，树中任意一个节点最多可有两个子节点。

在一种可选的实施方式中，所述基于预设映射关系，生成所述待处理数据对应的树，包括：基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据；根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点；对于指示了所述第一类数据的子节点，继续基于所述预设映射关系，迭代生成所述子节点对应的子节点。

其中，预设映射关系有两种，一种用于计算得到待处理数据对应的第一类数据、一种用于计算得到待处理数据对应的第二类数据，如以待处理数据为x、y为例进行说明，则预设映射关系示例如下：

f₁(x,y)＝(x+y)/2

f₂(x,y)＝(x-y)/2

在此基础上，可以基于第一种映射关系计算原始数据对应的第一类数据即均和数据，同时基于第二种映射关系计算原始数据对应的第二类数据即均差数据。可以理解的是，本发明实施例仅以上述求均和值和均差值的预设映射关系进行说明，在实际的执行中还可以采用其他任意可以由第一类数据、第二类数据反向推导得到待处理数据的映射关系，如f₁(x,y)＝x+y、f₂(x,y)＝x-y，或f₁(x,y)＝3x+y、f₂(x,y)＝3x-y等。更进一步地，预设关系还可以有三种或多种，以根据三种或多种映射关系计算得到待处理数据对应的三类或多类数据，以根据三类或多类数据反向推导出待处理数据。在实际的执行中可以根据待处理数据的量级或者待处理数据对应的监控指标设定对应的映射关系。

在一种可选的实施方式中，所述基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据，包括：按照所述待处理数据中原始数据的顺序，将所述原始数据划分为原始数据对；计算所述原始数据对中两个原始数据的均和值，以生成所述第一类数据；计算所述原始数据对中两个原始数据的均差值，以生成所述第二类数据。

具体地，以待处理数据共包括8个原始数据，且依次分别为x₁、x₂、x₃、x₄、x₅、x₆、x₇、x₈为例进行说明：先构建指示了待处理数据的根节点；按照原始数据的顺序依次将其划分为如下4组原始数据对，即(x₁、x₂)，(x₃、x₄)，(x₅、x₆)，(x₇、x₈)；基于此，通过计算原始数据对中两个原始数据的均和值获取的第一类数据，即一次均和数据如下：(x₁+x₂)/2、(x₃+x₄)/2、(x₅+x₆)/2、(x₇+x₈)/2；同时，通过计算原始数据对中两个原始数据的均差值获取的第二类数据，即一次均差数据如下：(x₂-x₁)/2、(x₄-x₃)/2、(x₆-x₅)/2、(x₈-x₇)/2；然后，分别构建根节点对应的两个子节点，即子节点1、子节点2，其中，子节点1指示了第一类数据即一次均和数据，子节点2指示了第二类数据即一次均差数据，且指示了第二类数据的子节点2为叶子节点或终端节点，即不再针对指示了均差数据的子节点2构建下一级子节点。

在此基础上，对于指示了第一类数据或一次均和数据的子节点1，继续基于预设映射关系，计算子节点1对应的一次均和数据(x₁+x₂)/2、(x₃+x₄)/2、(x₅+x₆)/2、(x₇+x₈)/2对应的第一类数据即二次均和数据和第二类数据即二次均差数据，如此，则可以分别得到子节点1对应的第一类数据和第二类数据，并基于此分别构建子节点1对应的下一级子节点11、子节点12，且节点11指示了第一类数据即一次均和对应的二次均和数据，子节点12为指示了第二类数据即一次均和数据的二次均和数据的叶子节点；基于此，可以针对指示了第一类数据的子节点11继续基于预设映射关系构建对应的下一级子节点，如此循环往复，直至生成完整的待处理数据对应的树。

值得注意的是，对于包含有2n个原始数据的待处理数据，基于预设映射关系所生成的第一类数据、第二类数据对应的数据量均为n个，其中n个第二类数据由于进行的均差运算，所得到的均差值远小于原始数据本身，故而所占用的存储空间小，在一定程度上实现了对待处理数据的压缩。如以原始数据为1000、1002为例，则对应的均和数据为10001，均差数据为2，而由于数值1的存储空间明显小于1000或1002，因此在采用均差数据2、均和数据1001代替原始数据1000、1002进行存储时，减少了原始数据所需要的存储空间。因此，通过基于预设映射关系不断迭代生成指示了第一类数据的子节点以及指示了第二类数据的叶子结点以构建待处理数据对应的树，并最终采用叶子节点对应的数据替代待处理数据进行存储的方式，减少了待处理数据需要的存储空间。此外，由于第一类数据中的均和值和第二类数据中的均差值，可以反向推导出均和值、均差值对应的原始数据对，如以均和值＝(x₁+x₂)/2、均差值＝(x₂-x₁)/2为例，则可以通过求解该两个二元一次方程的方式反向求解出x₁、x₂的值。因此，在使用叶子节点对应的数据代替待处理数据进行存储的情况下，仍可以通过叶子节点的数据反向推导待处理数据，以保证服务器监控功能的正常进行。

在一种可选的实施方式中，所述根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点，包括：根据所述待处理数据中原始数据的出现频率，构建所述待处理数据对应的频率直方图；根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理；根据所述第一类数据及处理后的所述第二类数据，分别生成所述根节点对应的子节点。具体地，以待处理数据为CPU占用率为例，则频率直方图的横坐标为指定时间段内，如16分钟内服务器的CPU占用率的实际值，而频率直方图的纵坐标则为16分钟内服务器的CPU占用率出现次数或者出现频率。

更进一步地，所述根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理，包括：根据所述频率直方图确定所述第二类数据对应第一阈值、第二阈值；其中，所述第一阈值指示了原始数据最小值的一半，所述第二阈值指示了所述原始数据的出现频率的最小值；在所述第二类数据小于所述第一阈值，且所述第二类数据的出现频率小于所述第二阈值的情况下，将所述第二类数据置换为零。如此，通过构建频率直方图确定阈值，并根据阈值将第二类数据置换为零的方式，可以大大增加第二类数据中数值零的出现频率，也即最终在存储叶子节点对应的数据时，采用更多的零替代了待处理数据中的原始数据进行存储，进一步压缩了原始数据的所需的存储空间；此外，在后期通过存储数值的连续出现次数以保存叶子节点对应的数据时，可以进一步提高数值零的连续出现次数，以大大降低数据所需的存储空间。

在一种可选的实施方式中，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，还包括：获取所述树的当前树深度或所述第一类数据对应的数据量，以在所述当前树深度不大于阈值树深度或所述第一类数据对应的数据量大于阈值数量的情况下，继续基于所述预设映射关系，迭代生成所述子节点对应的子节点。也即是说，在迭代生成树中指示了第一类数据的子节点对应的下一级子节点的过程中，为提高时效性避免因迭代时间过长而导致的数据处理效率降低的问题，可以通过预先设置阈值树深度或第一类数据的阈值数据量的方式，适时终止迭代过程以提高待处理数据对应的树的构建效率。

步骤S103，存储所述树的所有叶子节点对应的数据。

在一种可选的实施方式中，采用线性表分区存储所述树的所有叶子节点对应的数据。其中，线性表(linear list)是指一种数据结构，且一个线性表是多个具有相同特性的数据元素的有限序列，因而通过采用线性表分区存储叶子节点对应的数据，既便于区分不同叶子节点的数据，又可以保持叶子节点对应的数据的先后顺序，如此在接收到数据调用请求的情况下，可以基于叶子节点数据的先后顺序分别获取对应的均差数据、均和数据以反向推导上一层节点对应的数据或原始数据。具体地，如下表1所示，线性表中数据存储结构示例。

表1 线性表中数据存储结构示例

第一列	第二列	第三列	每四列
				三次均和数据	三次均差数据	二次均差数据	一次均差数据

在一种可选的实施方式中，在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。如以叶子节点对应的数据依次为1、1、2、0、0、0、0、3、5为例进行说明，则在线性表中实际存储的二元组示例如下：(1,2)、(2,1)、(0,4)、(3,1)、(5,1)，其中，二元组(0,4)即表示数值0在叶子节点对应的数据中连续出现的次数为4次。如此，通过在线性表中采用二元组存储叶子节点中数据出现次数的方式，进一步减少了所存储的数据量，尤其是在采用频率直方图对均差数据进行置零处理的情况下，可以大大提高数值0的连续出现次数，从而大大减少数据所需的存储空间。

步骤S104，响应于针对于所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。

基于上述步骤，在接收到数据调用请求的情况下，则可以直接从何线性表中获取三次均和数据和三次均差数据，并根据数据对应的顺序通过三次均和数据和三次均差数据反向推导二次均和数据；在此基础上，继续从线性表中获取二次均差数据，以二次均和数据和二次均差数据反向推导一次均和数据；最后，基于一次均和数据和线性表中的一次均差数据反向推导出包含有原始数据的待处理数据，并将待处理数据返回给调用方。可以理解的是，在实际的执行过程中，除却层层反向推导出待处理数据以返回给调用方以外，还可以根据调用方实际需求向调用方返回三次均和数据、三次均差数据或中间所推导出的二次均和数据、一次均和数据等。

基于上述实施例，通过基于预设映射关系不断迭代生成指示了第一类数据即均和数据的子节点以及指示了第二类数据即均差数据的叶子结点以构建待处理数据对应的树，并最终采用叶子节点对应的数据替代待处理数据进行存储的方式，实现了对待处理数据的压缩，减少了待处理数据需要的存储空间；在此基础上，在接收到数据调用请求的情况下又可以通过所存储的叶子节点的数据生成待处理数据，实现对待处理数据的查看及调用，保证了服务器监控功能的正常进行。

参见图2，在上述实施例的基础上，本发明实施例提供了另一种数据处理方法，该数据处理方法具体可以包括的步骤如下：

步骤S201，获取待处理数据，以构建树的根节点。

步骤S202，基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据。具体地，仍以所采用的预设映射关系为如下为例进行说明，即分别生成均和数据、均差数据：f₁(x,y)＝(x+y)/2、f₂(x,y)＝(x-y)/2。

具体地，以待处理数据共包括8个原始数据，且依次分别为x₁、x₂、x₃、x₄、x₅、x₆、x₇、x₈为例进行说明：先构建指示了待处理数据的根节点；按照原始数据的顺序依次将其划分为如下4组原始数据对，即(x₁、x₂)，(x₃、x₄)，(x₅、x₆)，(x₇、x₈)；基于此，通过计算原始数据对中两个原始数据的均和值获取的第一类数据，即一次均和数据如下：(x₁+x₂)/2、(x₃+x₄)/2、(x₅+x₆)/2、(x₇+x₈)/2；同时，通过计算原始数据对中两个原始数据的均差值获取的第二类数据，即一次均差数据如下：(x₂-x₁)/2、(x₄-x₃)/2、(x₆-x₅)/2、(x₈-x₇)/2。

步骤S203，根据所述待处理数据中原始数据的出现频率，构建所述待处理数据对应的频率直方图。

具体地，参见图3所示的频率直方图，以待处理数据为网络延迟时间为例进行说明，则可以通过统计预设时间段内网络延迟时间出现的次数，构建该网络延迟时间对应的频率直方图。

步骤S204，根据所述频率直方图确定所述第二类数据对应第一阈值、第二阈值；其中，所述第一阈值指示了原始数据最小值的一半，所述第二阈值指示了所述原始数据的出现频率的最小值。

具体地，仍参见图3，由于图中所示网络延迟时间对应的最小值为10，故而可确定第二类数据对应的第一阈值为5；同时，由于图中所示网络延迟时间出现频率对应的最小值为1，故而可确定第二类数据对应的第二阈值为1。可以理解的是，本实施例仅以确定两个阈值方式为例进行说明，在实际的执行过程中，可以只确定一个阈值，也可以确定多个阈值，且既可以根据频率直方图直接确定阈值，也可以采用其他方式或者直接根据经验值自行设定。

步骤S205，在所述第二类数据小于所述第一阈值，且所述第二类数据的出现频率小于所述第二阈值的情况下，将所述第二类数据置换为零。

具体地，以第一阈值为10、第二阈值为1，且待处理数据对应的一次均差数据分别依次分别为8、10、10、16、24、24、32、32为例进行说明，则由于其中的数值8小于第一阈值，且出现次数也小于第二阈值，故将数值8替换为0，则处理后的一次均差数据为0、10、10、16、24、24、32、32。

步骤S206，根据所述第一类数据及处理后的所述第二类数据，分别生成所述根节点对应的子节点。

具体地，以生成的子节点分别为子节点1、子节点2为例进行说明，则子节点1指示了第一类数据即一次均和数据，子节点2指示了第二类数据即一次均差数据，且指示了第二类数据的子节点2为叶子节点或终端节点，即不再针对指示了均差数据的子节点2构建下一级子节点。

步骤S207，对于指示了所述第一类数据的子节点，继续基于所述预设映射关系，生成所述子节点对应的子节点。

具体地，继续基于预设关系，即f₁(x,y)＝(x+y)/2、f₂(x,y)＝(x-y)/2，分别生成前述一次均和数据对应的第一类数据即二次均和数据、第二类数据即二次均差数据；在此基础上，统计一次均差数据中数值的出现频率以构建一次均差数据对应的频率直方图，并基于该频率直方图确定二次均差数据对应的第一阈值及第二阈值；基于此，根据第一阈值、第二阈值对二次均差数据中的数据置换为零，如此二次均差数据中数值0出现的次数将大幅增加。在此基础上，根据二次均和数据和经过置零处理的二次均差数据分别生成子节点1对应的下一级子节点11及子节点12；其中，子节点11指示了二次均和数据、子节点12指示了经过置零处理以后的二次均差数据，且子节点12为叶子节点。

由此可见，在构建子节点的过程中，不同层级均差数据对应的频率直方图不同，进而对应的阈值也不同，具体需要基于上一层均差数据构建频率直方图以确定当前均差数据对应的一个或多个阈值，以将均差数据中的数据置换为零。如此，在迭代构建子节点的过程中，通过不断基于预设映射关系生成均差数据、均和数据，以及构建频率直方图确定阈值对均差数据进行置零处理的方式，大大提高了每一层叶子节点对应的均差数据中数值0的出现次数，降低了其他数值的出现次数，进而在一定程度上提高了叶子节点对应的数据所需的存储空间。

步骤S208，判断当前树深度是否大于阈值树深度；若大于，则继续执行下述步骤S209；若不大于，则继续迭代执行前述步骤S207。

可以理解的是，本实施例仅以阈值树深度为迭代终止条件为例进行说明，在实际的实行过程中，可以设定其他一个或多个迭代终止条件，如迭代时长、节点所指示的均和均数据的数据量等。

步骤S209，存储所述树的所有叶子节点对应的数据，以在接收到数据调用请求的情况下，根据所存储的叶子节点的数据生成所述待处理数据或所述父节点的数据。

具体地，参见图4所示的树为例进行说明，则可以在线性表中分区存储树中叶子节点对应的四次均和数据、四次均差数据、三次均差数据、二次均差数据、一次均差数据，而不直接存储待处理数据。更具体地，在线性表中采用二元组存储四次均差数据、三次均差数据、二次均差数据、一次均差数据，且二元组中的第一个元素指示了均差值，二元组中的第二个元素指示了均差值在均差数据中连续出现的次数。可以理解的是，由于在构建树的过程中不断基于频率直方图对叶子节点对应的四次均差数据、三次均差数据、二次均差数据、一次均差数据进行了置零处理，因而均差数据中数值0连续出现的概率较大，从而大大减少数据所需的存储空间。

基于上述实施例，通过基于预设映射关系不断迭代生成指示了第一类数据即均和数据的子节点以及指示了第二类数据即均差数据的叶子结点以构建待处理数据对应的树，并最终采用叶子节点对应的数据替代待处理数据进行存储的方式，实现了对待处理数据的压缩，减少了待处理数据需要的存储空间；同时，在构建待处理数据对应树的过程中，通过不断基于频率直方图确定一个或多个阈值以对均差数据进行置零处理的方式使得在线性表中采用二元组存储叶子节点对应的均差数据，并使用数值连续出现的次数表示数据时，大大提高了数值0的连续出现次数，进一步减少了数据所需的存储空间。在此基础上，在接收到数据调用请求的情况下又可以通过所存储的叶子节点的数据生成待处理数据，实现对待处理数据的查看及调用，保证了服务器监控功能的正常进行。

参见图5，在上述实施例的基础上，本发明实施例提供了一种数据处理装置500，其特征在于，包括：数据获取模块501、树生成模块502、数据存储模块503、数据响应模块504；其中，

所述的数据获取模块501，用于获取待处理数据；

所述树生成模块502，用于基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到；

所述数据存储模块503，用于存储所述树的所有叶子节点对应的数据；

所述数据响应模块504，用于响应于针对所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。

在一种可选的实施方式中，所述根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点，包括：根据所述待处理数据中原始数据的出现频率，构建所述待处理数据对应的频率直方图；根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理；根据所述第一类数据及处理后的所述第二类数据，分别生成所述根节点对应的子节点。

在一种可选的实施方式中，所述根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理，包括：根据所述频率直方图确定所述第二类数据对应第一阈值、第二阈值；其中，所述第一阈值指示了原始数据最小值的一半，所述第二阈值指示了所述原始数据的出现频率的最小值；在所述第二类数据小于所述第一阈值，且所述第二类数据的出现频率小于所述第二阈值的情况下，将所述第二类数据置换为零。

在一种可选的实施方式中，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，所述树生成模块，还用于：获取所述树的当前树深度或所述第一类数据对应的数据量，以在所述当前树深度不大于阈值树深度或所述第一类数据对应的数据量大于阈值数量的情况下，继续基于所述预设映射关系，迭代生成所述子节点对应的子节点。

在一种可选的实施方式中，所述数据存储模块503，用于采用线性表分区存储所述树的所有叶子节点对应的数据。

在一种可选的实施方式中，所述数据存储模块503，用于在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。

在一种可选的实施方式中，所述待处理数据对应的树为不平衡二叉树。

图6示出了可以应用本发明实施例的数据处理方法或数据处理装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的服务器监控数据查询请求等数据进行分析等处理，并将处理结果如反向推导出的待处理数据反馈给终端设备。

需要说明的是，本发明实施例所提供的数据处理方法一般由服务器605执行，相应地，数据处理装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据获取模块、树生成模块、数据存储模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据获取模块还可以被描述为“用于获取待处理数据的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取待处理数据；基于预设映射关系，生成所述待处理数据对应的树，所述树的父节点对应的数据可由所述父节点的子节点对应的数据计算得到；存储所述树的所有叶子节点对应的数据，响应于针对所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据或所述父节点的数据。

根据本发明实施例的技术方案，通过基于预设映射关系，生成待处理数据对应的树，并采用树的所有叶子节点对应的数据替代待处理数据进行存储，实现了对海量待处理数据的压缩，减少了待处理数据占用的存储空间；在此基础上，在接收到数据调用请求的情况下又可以通过所存储的叶子节点的数据生成待处理数据，实现对待处理数据的查看及调用，保证了服务器监控功能的正常进行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理数据；

存储所述树的所有叶子节点对应的数据；

2.根据权利要求1所述的数据处理方法，其特征在于，所述基于预设映射关系，生成所述待处理数据对应的树，包括：

3.根据权利要求2所述的数据处理方法，其特征在于，所述基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据，包括：

4.根据权利要求3所述的数据处理方法，其特征在于，所述根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点，包括：

5.根据权利要求4所述的数据处理方法，其特征在于，所述根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理，包括：

6.根据权利要求2所述的数据处理方法，其特征在于，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，还包括：

7.根据权利要求1所述的数据处理方法，其特征在于，

采用线性表分区存储所述树的所有叶子节点对应的数据。

8.根据权利要求7所述的数据处理方法，其特征在于，

在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。

9.根据权利要求1所述的数据处理方法，其特征在于，所述待处理数据对应的树为不平衡二叉树。

10.一种数据处理装置，其特征在于，包括：数据获取模块、树生成模块、数据存储模块、数据响应模块；其中，

所述的数据获取模块，用于获取待处理数据；

所述数据响应模块，用于响应于针对所述待处理数据的数据调用请求，根据所存储的叶子节点的数据生成所述待处理数据和/或所述父节点的数据。

11.根据权利要求10所述的数据处理装置，其特征在于，所述基于预设映射关系，生成所述待处理数据对应的树，包括：

12.根据权利要求11所述的数据处理装置，其特征在于，所述基于预设映射关系，生成所述待处理数据对应的第一类数据、第二类数据，包括：

13.根据权利要求12所述的数据处理装置，其特征在于，所述根据所述第一类数据、所述第二类数据，为指示了所述待处理数据的根节点生成对应的子节点，包括：

14.根据权利要求13所述的数据处理装置，其特征在于，所述根据所述频率直方图确定所述第二类数据对应的一个或多个阈值，以根据所述一个或多个阈值对所述第二类数据进行处理，包括：

15.根据权利要求11所述的数据处理装置，其特征在于，在继续基于所述预设映射关系，迭代生成所述子节点对应的子节点之前，所述树生成模块，还用于：

16.根据权利要求10所述的数据处理装置，其特征在于，

所述数据存储模块，用于采用线性表分区存储所述树的所有叶子节点对应的数据。

17.根据权利要求16所述的数据处理装置，其特征在于，

所述数据存储模块，用于在所述线性表中采用二元组存储所述叶子结点对应的数据，且所述二元组中的第一个元素指示了在所述数据中出现的数值，所述二元组中的第二个元素指示了所述数值在所述数据中连续出现的次数。

18.根据权利要求10所述的数据处理装置，其特征在于，

所述待处理数据对应的树为不平衡二叉树。

19.一种用于数据处理的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。