CN109271097B

CN109271097B - 数据处理方法、数据处理装置和服务器

Info

Publication number: CN109271097B
Application number: CN201711461712.3A
Authority: CN
Inventors: 赵英超; 饶云
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2020-10-09
Anticipated expiration: 2037-12-28
Also published as: WO2019128936A1; CN109271097A

Abstract

本公开涉及一种数据处理方法、数据处理装置和服务器，该方法包括：接收已采集数据，并根据已采集数据的参数值计算已采集数据的数据摘要；在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要；以所述已采集数据的数据摘要作为行键在第二数据表中查询；所述第二数据表中的行键为数据摘要，所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储已采集数据的参数值的参数列；若在所述第二数据表中查询到所述已采集数据的数据摘要，则将对应的行数据中的所述计数值叠加固定值。由此，对于接收到的相同数据，在第二数据表中不重复存储该数据，仅通过计数值来标记该数据重复的次数，从而可以节省存储空间。

Description

数据处理方法、数据处理装置和服务器

技术领域

本公开涉及通信技术领域，尤其涉及一种数据处理方法、数据处理装置和服务器。

背景技术

HBase(Hadoop Database，Hadoop数据库)是一种面向列、可伸缩、实时读写的分布式存储数据库，能够实现复杂任务的并行和分布处理，具有很高的处理性能和可靠性。

然而，HBase可能存储了大量的重复数据，浪费了大量的存储空间。例如，针对用于进行用户行为分析的大数据分析软件，使用HBase存储AP(Access Point，接入点)在每个时刻上报的位置信息。如果AP的位置在一个时间段内没有发生改变，则该AP在该时间段内的每个时刻上报相同的位置信息，这导致HBase表中存储了大量的重复的位置信息。

因此，需要对存储在HBase表中的数据进行去重处理，以删除HBase表中的重复数据，从而节省存储空间。

发明内容

有鉴于此，本公开提出了一种数据处理方法、数据处理装置和服务器。

根据本公开的第一方面，提供了一种数据处理方法，该方法包括：

接收已采集数据，并根据所述已采集数据的参数值计算所述已采集数据的数据摘要；

在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要；

以所述已采集数据的数据摘要作为行键在第二数据表中查询；所述第二数据表中的行键为数据摘要，所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储所述已采集数据的参数值的参数列；

若在所述第二数据表中查询到所述已采集数据的数据摘要，则将对应的行数据中的所述计数值叠加固定值。

根据本公开的第二方面，提供了一种数据处理装置，该装置包括：

接收模块，用于接收已采集数据，并根据所述已采集数据的参数值计算所述已采集数据的数据摘要；

插入模块，用于在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要；

查询模块，用于以所述已采集数据的数据摘要作为行键在第二数据表中查询；所述第二数据表中的行键为数据摘要，所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储所述已采集数据的参数值的参数列；

处理模块，用于若在所述第二数据表中查询到所述已采集数据的数据摘要，则将对应的行数据中的所述计数值叠加固定值。

根据本公开的第三方面，提供了一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述的方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：对于接收到的相同数据，在第二数据表中不重复存储该数据，仅通过计数值来标记该数据重复的次数，从而可以节省存储空间。

并且，本公开的实施例提供的技术方案，可以通过HBase提供的协处理器机制实现，无需开发第三方应用程序。

另外，由于HBase协处理器的处理性能高效，因此通过HBase协处理器进行数据处理可以提高数据处理的性能。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的一种数据处理方法的流程图。

图2是根据一示例性实施例示出的一种数据处理方法的一个示例的流程图。

图3是根据一示例性实施例示出的一种数据处理方法的一个示例的流程图。

图4是根据一示例性实施例示出的一种数据处理装置的结构框图。

图5是根据一示例性实施例示出的一种服务器的硬件结构框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

为便于说明，以下首先对本公开涉及的部分概念进行解释说明。

在HBase中，以表(table)的形式存储数据，HBase表包括行键(Row key)、列簇(Column Family)和时间戳(Timestamp)。其中，行键用于标识HBase表的每一行数据。列簇是列(Column)的集合。时间戳用于标识数据的版本。可以使用{Row key,Column,TimeStamp}三元组来唯一标识HBase表中的一个单元格(cell)。

在一种方式中，第三方应用程序判断HBase表中是否存在重复数据；若判断为HBase表中存在重复数据，则删除HBase表中的重复数据，从而实现对存储在HBase表中的数据进行去重处理。

在另一种方式中，第三方应用程序判断HBase表中是否已存储了待写入的数据；若判断为HBase表中已存储了待写入的数据，则不在HBase表中插入待写入的数据；若判断为HBase表中没有存储待写入的数据，则在HBase表中插入待写入的数据，从而实现对存储在HBase表中的数据进行去重处理。

因此，需要开发第三方应用程序来对存储在HBase表中的数据进行去重处理。

为此，本公开提出了如下的实施例以解决上述的问题。

图1示出根据本公开一实施例的一种数据处理方法的流程图。该数据处理方法可以通过Hbase提供的协处理器(coprocessors)机制实现。

需要说明的是，HBase协处理器部署在服务器上，可以通过配置文件静态加载HBase协处理器，也可以在集群运行时动态加载HBase协处理器，在此不再赘述。

如图1所示，该数据处理方法可以包括如下步骤。

在步骤S120中，接收已采集数据，并根据已采集数据的参数值计算已采集数据的数据摘要(Data-digest)。

本实施例中，HBase的前端采集数据，并且将已采集数据发送至HBase协处理器。已采集数据包括行键、时间戳和参数值。若参数值是位置参数值，则参数值可以包括经度、纬度、接入设备标识(ID)、接入设备位置中的至少一项。可以根据已采集数据的参数值和预设的算法，计算已采集数据的数据摘要。预设的算法是根据已采集数据的参数值计算出唯一的数据摘要的算法。例如MD5(Message Digest Algorithm，消息摘要算法第五版)算法、SHA(Secure Hash Algorithm，安全哈希算法)等。

在步骤S140中，在第一数据表中插入已采集数据的行键、时间戳和数据摘要。

本实施例中，第一数据表的每行数据包括行键、时间戳和数据摘要列。可以在第一数据表的新的一行数据的行键中插入已采集数据的行键，在该新的一行数据的时间戳中插入已采集数据的时间戳，并且在该新的一行数据的数据摘要列中插入所计算的已采集数据的数据摘要。

由于数据摘要是根据已采集数据的参数值计算的，因此，如果接收到参数值相同的两组数据，即这两组数据为重复数据，那么这两组数据的数据摘要是相同的，但是两组数据的行键和/或时间戳不同，这两组数据可以称为一份数据的两个版本，为了真实的记录数据，需要在第一数据表中记录重复数据的各个版本，而数据的具体内容(即所有的参数值)可以记录在下述的第二数据表中。

需要指出的是，本实施例中，第一数据表和第二数据表通过数据摘要关联，对于HBase协处理器而言，当对数据表进行操作时，只要查询到第一数据表，就能够自动关联到第二数据表，无需再去查询第二数据表。

示例性的，下述表1为第一数据表的一个示例。

表1第一数据表

在步骤S160中，以已采集数据的数据摘要作为行键在第二数据表中查询；第二数据表中的行键为数据摘要，第二数据表包含一个用于存储计数值的计数列和至少一个用于存储已采集数据的参数值的参数列。

本实施例中，第二数据表的每行数据包括行键、计数列和参数列。第一数据表和第二数据表通过数据摘要关联。第二数据表的计数列是对第一数据表的数据摘要列中的重复值的计数。

示例性的，下述表2为第二数据表的一个示例。

表2第二数据表

在步骤S180中，若在第二数据表中查询到已采集数据的数据摘要，则将对应的行数据中的计数值叠加固定值。固定值是预设的任意值，例如固定值被预设为1。

在一种可能的实现方式中，上述数据处理方法还可以包括：

若在第二数据表中未查询到已采集数据的数据摘要，则在第二数据表中插入一行数据，该行数据的行键为已采集数据的数据摘要，该行数据对应的计数值为初始值，该行数据的各个参数列中记录对应的已采集数据的参数值。初始值是预设的任意值，例如初始值被预设为1。

本实施例中，根据第二数据表中的查询结果，确定是否需要在第二数据表中插入已采集数据。若查询结果为在第二数据表中查询到已采集数据的数据摘要，则表明已采集数据属于重复数据，因此不需要在第二数据表中新增一行来记录已采集数据，而仅将查询到的数据摘要对应的行数据的计数值叠加固定值，由此可以节省存储空间。

若查询结果为在第二数据表中未查询到已采集数据的数据摘要，则表明已采集数据属于非重复数据，因此需要在第二数据表中新增一行来记录已采集数据。

因此，本实施例中，对于接收到的相同数据，在第二数据表中不重复存储该数据，仅通过计数值来标记该数据重复的次数，从而可以节省存储空间；另外，本实施例还通过第一数据表反映出相同数据的不同版本，那么，通过将这两张表关联起来仍然可以真实的反映数据的情况。

并且，本实施例提供的数据处理方式，可以通过HBase提供的协处理器机制实现，无需开发第三方应用程序。

图2是根据一示例性实施例示出的一种数据处理方法的一个示例的流程图。该数据处理方法可以通过HBase提供的协处理器机制实现。HBase协处理器、第一数据表和第二数据表的说明具体可以参阅前文关于图1的描述，在此不再赘述。

如图2所示，该数据处理方法可以包括如下步骤。

在步骤S201中，获取待删除数据的行键和时间戳。

本实施例中，待删除数据的信息可以仅包括行键和时间戳、而不包括参数值。由于数据的参数值存储在第二数据表中，而只有根据数据摘要才能在第二数据表中唯一确定一行数据，因此为了确定待删除数据的参数值，需要知道待删除数据的数据摘要。由于第一数据表和第二数据表通过数据摘要相关联，因此可以从第一数据表中确定待删除数据的数据摘要。

在步骤S202中，在第一数据表中查询待删除数据的行键和时间戳。

本实施例中，由于根据行键和时间戳，在第一数据表中能够唯一确定一行数据，因此在第一数据表中查询待删除数据的行键和时间戳，并且将查询到的行数据中的数据摘要确定为待删除数据的数据摘要。

在步骤S203中，若在第一数据表中查询到待删除数据的行键和时间戳，则将对应的第一行数据的数据摘要作为行键在第二数据表中查询。

本实施例中，由于根据数据摘要，在第二数据表中能够唯一确定一行数据，因此在第二数据表中查询待删除数据的数据摘要。

在步骤S204中，若在第二数据表中查询到第一行数据的数据摘要，则判断对应的第二行数据中的计数值是大于初始值还是等于初始值。

在步骤S205中，若第二行数据中的计数值大于初始值，则将第二行数据中的计数值减少固定值。

在步骤S206中，若第二行数据中的计数值等于初始值，则在第一数据表中删除第一行数据，并且在第二数据表中删除第二行数据。

本实施例中，由于在第二数据表中仅用一行数据来记录不同版本的相同数据的具体内容，因此在确定出待删除数据的数据摘要之后，不能直接删除根据待删除数据的数据摘要所确定的行数据(即上述第二行数据)，否则，可能会出现如下情况：根据第一数据表的记录确定还存在该数据的其他版本，但是第二数据表中已经没有该数据的具体内容，导致数据不完整。

因此，本实施例中，根据第二行数据中的计数值是大于初始值还是等于初始值，确定待删除的数据是否为重复数据，如果不是，则在第一数据表中删除第一行数据且在第二数据表中删除第二行数据；如果是，则在第一数据表中删除第一行数据且将第二行数据的计数值减少固定值、例如1，由此可以避免导致所存储的数据不完整。

图3是根据一示例性实施例示出的一种数据处理方法的一个示例的流程图。该数据处理方法可以通过HBase提供的协处理器机制实现。HBase协处理器、第一数据表和第二数据表的说明具体可以参阅前文关于图1的描述，在此不再赘述。

如图3所示，该数据处理方法可以包括如下步骤。

在步骤S301中，获取待读取数据的行键和时间戳。

本实施例中，待读取数据的信息仅包括行键和时间戳、而不包括参数值。由于数据的参数值存储在第二数据表中，而只有根据数据摘要才能在第二数据表中唯一确定一行数据，因此为了确定待读取数据的参数值，需要知道待读取数据的数据摘要。由于第一数据表和第二数据表通过数据摘要相关联，因此可以从第一数据表中确定待读取数据的数据摘要。

在步骤S302中，在第一数据表中查询待读取数据的行键和时间戳。

本实施例中，由于根据行键和时间戳，在第一数据表中能够唯一确定一行数据，因此在第一数据表中查询待读取数据的行键和时间戳，并且将查询到的行数据中的数据摘要确定为待读取数据的数据摘要。

在步骤S303中，若在第一数据表中查询到待读取数据的行键和时间戳，则以对应的第三行数据的数据摘要作为行键在第二数据表中查询。

本实施例中，由于根据数据摘要在第二数据表中能够唯一确定一行数据，因此在第二数据表中查询确定出的待读取数据的数据摘要。

在步骤S304中，若在第二数据表中查询到第三行数据的数据摘要，则将对应的第四行数据中的参数列与第三行数据中的行键和时间戳确定为待读取数据并读取。

因此，本实施例中，可以根据第一数据表和第二数据表的关联性读取所存储的数据。

示例性的，假设第一数据表为上述表1所示的数据表，第二数据表为上述表2所示的数据表，并且待读取数据的行键和时间戳分别为rk_1和ts_1。通过图3所示的数据处理方法，可以在表1中查询到第三行数据是行键为rk_1、时间戳为ts_1、数据摘要为210235A1GUC157000621的行数据，并且在表2中查询到第四行数据是行键为210235A1GUC157000621、参数列包括经度116.3595230000、纬度39.9866240000、接入设备ID AP1和位置新主楼A座-201、数据摘要计数值3的行数据。

因此，可以确定出待读取数据的行键为rk_1、时间戳为ts_1、参数值包括：经度为116.3595230000、纬度为39.9866240000、接入设备ID为AP1和位置为新主楼A座-201。

图4是根据一示例性实施例示出的一种数据处理装置的结构框图。如图4所示，该数据处理装置400可以包括接收模块410、插入模块420、查询模块430和处理模块440。

接收模块410用于接收已采集数据，并根据已采集数据的参数值计算已采集数据的数据摘要。

插入模块420与接收模块410连接，用于在第一数据表中插入已采集数据的行键、时间戳和数据摘要。

查询模块430与接收模块410连接，用于以已采集数据的数据摘要作为行键在第二数据表中查询；第二数据表中的行键为数据摘要，第二数据表包含一个用于存储计数值的计数列和至少一个用于存储已采集数据的参数值的参数列。

处理模块440与查询模块430连接，用于若在第二数据表中查询到已采集数据的数据摘要，则将对应的行数据中的计数值叠加固定值。

在一种可能的实现方式中，插入模块420还用于：

若在第二数据表中未查询到已采集数据的数据摘要，则在第二数据表中插入一行数据，该行数据的行键为已采集数据的数据摘要，该行数据对应的计数值为初始值，该行数据的各个参数列中记录对应的已采集数据的参数值。

在一种可能的实现方式中，数据处理装置400还可以包括获取模块(未示出)和判断模块(未示出)，

获取模块用于：获取待删除数据的行键和时间戳；

查询模块430还用于：在第一数据表中查询待删除数据的行键和时间戳；若在第一数据表中查询到待删除数据的行键和时间戳，则将对应的第一行数据的数据摘要作为行键在第二数据表中查询；

判断模块用于：若在第二数据表中查询到第一行数据的数据摘要，则判断对应的第二行数据中的计数值是大于初始值还是等于初始值；

处理模块440还用于：若第二行数据中的计数值大于初始值，则将第二行数据中的计数值减少固定值。

在一种可能的实现方式中，处理模块440还用于：

若第二行数据中的计数值等于初始值，则在第一数据表中删除第一行数据，并且在第二数据表中删除第二行数据。

在一种可能的实现方式中，数据处理装置400还可以包括：

获取模块(未示出)，用于获取待读取数据的行键和时间戳，

查询模块430还用于：在第一数据表中查询待读取数据的行键和时间戳；若在第一数据表中查询到待读取数据的行键和时间戳，则以对应的第三行数据的数据摘要作为行键在第二数据表中查询；

处理模块440还用于：若在第二数据表中查询到第三行数据的数据摘要，则将对应的第四行数据中的参数列与第三行数据中的行键和时间戳确定为待读取数据并读取。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种服务器的硬件结构框图。参照图5，该服务器900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与数据处理逻辑对应的机器可执行指令以执行上文所述的数据处理方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于HBase数据库的协处理器，所述方法包括：

若在所述第二数据表中查询到所述已采集数据的数据摘要，则将对应的行数据中的所述计数值叠加固定值；

所述方法还包括：若在所述第二数据表中未查询到所述已采集数据的数据摘要，则在所述第二数据表中插入一行数据，该行数据的行键为所述已采集数据的数据摘要，该行数据对应的所述计数值为初始值，该行数据的各个参数列中记录对应的所述已采集数据的参数值。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取待删除数据的行键和时间戳；

在所述第一数据表中查询所述待删除数据的行键和时间戳；

若在所述第一数据表中查询到所述待删除数据的行键和时间戳，则将对应的第一行数据的数据摘要作为行键在所述第二数据表中查询；

若在所述第二数据表中查询到所述第一行数据的数据摘要，则判断对应的第二行数据中的所述计数值是大于所述初始值还是等于所述初始值；

若所述第二行数据中的所述计数值大于所述初始值，则将所述第二行数据中的所述计数值减少所述固定值。

3.根据权利要求2所述的方法，其特征在于，还包括：

若所述第二行数据中的所述计数值等于所述初始值，则在所述第一数据表中删除所述第一行数据，并且在所述第二数据表中删除所述第二行数据。

4.根据权利要求1所述的方法，其特征在于，还包括：

获取待读取数据的行键和时间戳；

在所述第一数据表中查询所述待读取数据的行键和时间戳；

若在所述第一数据表中查询到所述待读取数据的行键和时间戳，则以对应的第三行数据的数据摘要作为行键在所述第二数据表中查询；

若在所述第二数据表中查询到所述第三行数据的数据摘要，则将对应的第四行数据中的参数列与所述第三行数据中的行键和时间戳确定为所述待读取数据并读取。

5.一种数据处理装置，其特征在于，所述装置应用于HBase数据库的协处理器，所述装置包括：

处理模块，用于若在所述第二数据表中查询到所述已采集数据的数据摘要，则将对应的行数据中的所述计数值叠加固定值；

所述插入模块还用于：

若在所述第二数据表中未查询到所述已采集数据的数据摘要，则在所述第二数据表中插入一行数据，该行数据的行键为所述已采集数据的数据摘要，该行数据对应的所述计数值为初始值，该行数据的各个参数列中记录对应的所述已采集数据的参数值。

6.根据权利要求5所述的装置，其特征在于，还包括获取模块和判断模块，

所述获取模块用于：获取待删除数据的行键和时间戳；

所述查询模块还用于：在所述第一数据表中查询所述待删除数据的行键和时间戳；若在所述第一数据表中查询到所述待删除数据的行键和时间戳，则将对应的第一行数据的数据摘要作为行键在所述第二数据表中查询；

所述判断模块用于：若在所述第二数据表中查询到所述第一行数据的数据摘要，则判断对应的第二行数据中的所述计数值是大于所述初始值还是等于所述初始值；

所述处理模块还用于：若所述第二行数据中的所述计数值大于所述初始值，则将所述第二行数据中的所述计数值减少所述固定值。

7.根据权利要求6所述的装置，其特征在于，所述处理模块还用于：

8.根据权利要求5所述的装置，其特征在于，还包括：

获取模块，用于获取待读取数据的行键和时间戳，

所述查询模块还用于：在所述第一数据表中查询所述待读取数据的行键和时间戳；若在所述第一数据表中查询到所述待读取数据的行键和时间戳，则以对应的第三行数据的数据摘要作为行键在所述第二数据表中查询；

所述处理模块还用于：若在所述第二数据表中查询到所述第三行数据的数据摘要，则将对应的第四行数据中的参数列与所述第三行数据中的行键和时间戳确定为所述待读取数据并读取。

9.一种服务器，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至4中任一项所述的方法的步骤。