CN114328437B

CN114328437B - 一种历史数据快速删除方法、装置、设备及介质

Info

Publication number: CN114328437B
Application number: CN202111640055.5A
Authority: CN
Inventors: 段万存; 苏伟锋
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2024-01-12
Anticipated expiration: 2041-12-29
Also published as: CN114328437A

Abstract

本发明提出了一种历史数据快速删除方法，包括：获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；根据待删除历史数据对应的行标识确定对应的分区标识；根据确定的分区标识删除分区标识对应的目录以及元数据信息，本发明还提出了一种历史数据快速删除装置、设备及介质，有效地提高了Hbase历史数据删除的效率，避免了对Hbase集群节点或Hbase系统实际业务的影响。

Description

一种历史数据快速删除方法、装置、设备及介质

技术领域

本发明涉及数据存储领域，尤其是涉及一种历史数据快速删除方法、装置、设备及介质。

背景技术

Hadoop：Hadoop架构包含一个分布式文件系统HDFS（Hadoop Distributed FileSystem，分布式文件系统）和分布式计算框架MapReduce，目前是Apache社区的顶级项目。Hadoop具有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

HBase：Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是非常流行的一个分布式的、面向列的NoSQL数据库（非关系型的数据库），是Apache社区的顶级开源项目，其应用场景主要是PB级海量数据的存储和高并发条件下固定条件的检索。

HBase使用RowKey（行标识）来唯一的区分某一行的数据。HBase只支持3种查询方式，基于RowKey的单行查询、基于RowKey的范围扫描和全表扫描；同时，Hbase删除数据也只支持删除指定rowkey的数据。

在生产环境中，随着数据量的不断增大，在现有的硬件配置下，给服务器造成很大压力，往往造成Hbase系统状态异常，根据业务需要，需要适当删除一定时期之前的所有数据，比如删除过去3年的历史数据。

目前解决的方法有：一种是调用Hbase系统的接口用Delete函数方法删除，提前需要根据 Timestamp（时间戳）调用scan接口筛选出Rowkey集合，但是在海量数据的情况下，都需要消耗大量的CPU、内存和网络资源，严重影响实际业务；还有另外一种方式，根据Timestamp时间戳配置表的TTL（Time To Live，生存时间值），这种方式，需要短时间disable（不使能）表，在实时分析场景容易丢数据，数据不能立刻删除，region（分区）并没有实际删除，需要经过长时间的合并，大量数据的合并会消耗Hbase集群大量的CPU、内存和网络资源，效率非常低，同时也会影响Hbase集群节点的稳定性。

发明内容

本发明为了解决现有技术中存在的问题，创新提出了一种历史数据快速删除方法、装置、设备及介质，有效解决由于现有技术造成Hbase历史数据删除速度慢的问题，有效地提高了Hbase历史数据删除的效率，避免了对Hbase集群节点或Hbase系统实际业务的影响。

本发明第一方面提供了一种历史数据快速删除方法，包括：

获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；

根据待删除历史数据对应的行标识确定对应的分区标识；

根据确定的分区标识删除分区标识对应的目录以及元数据信息。

可选地，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识具体是：根据待删除历史数据的起始时间范围确定待删除历史数据对应的起始行标识，根据待删除历史数据的结束时间范围确定待删除历史数据对应的结束行标识。

进一步地，根据待删除历史数据对应的行标识确定对应的分区标识具体是：

根据待删除历史数据对应的起始行标识以及结束行标识确定待删除历史数据对应的行标识范围；

根据待删除历史数据对应的行标识范围确定对应隶属的分区名称；

根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识。

进一步地，根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识之前，还包括：

建立分区名称与分区标识的对应关系数据表。

可选地，根据确定的分区标识删除分区标识对应的目录以及元数据信息具体是：

根据分区标识，先删除存储历史数据的根目录下对应的分区目录以及分区目录的子目录，再删除对应分区的元数据信息；或，

根据分区标识，先删除对应分区的元数据信息，然后再删除存储历史数据的根目录下对应的分区目录以及分区目录的子目录；或，

根据分区标识，先删除存储历史数据的根目录下对应的分区目录以及分区目录的子目录，同时删除对应分区的元数据信息。

进一步地，历史数据为存储于Hbase集群上的Hbase数据，分区的元数据信息存储于Hbase集群上的META表中。

可选地，还包括：确认待删除的历史数据是否已被删除。

本发明第二方面提供了一种历史数据快速删除装置，包括：

获取模块，获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；

确定模块，根据待删除历史数据对应的行标识确定对应的分区标识；

删除模块，根据确定的分区标识删除分区标识对应的目录以及元数据信息。

本发明第三方面提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如本发明第一方面所述的一种历史数据快速删除方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的一种历史数据快速删除方法的步骤。

本发明采用的技术方案包括以下技术效果：

1、本发明根据待删除的历史数据对应的行标识确定的分区标识，删除分区标识对应的目录以及元数据信息，有效降低HBase集群中CPU、内存以及网络资源的消耗，并能够提高HBase数据删除过程的可靠性及效率，从而快速实现HBase海量历史数据的删除，有效解决由于现有技术造成Hbase历史数据删除速度慢的问题，有效地提高了Hbase历史数据删除的效率，避免了对Hbase集群节点或Hbase系统实际业务的影响。

2、本发明技术方案中根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识之前，建立分区名称与分区标识的对应关系数据表，可以根据分区名称直接确定对应的分区标识，进一步地提高了历史数据删除的效率。

3、本发明技术方案中，在删除分区标识对应的目录以及元数据信息后，确认待删除的历史数据是否已被删除，保证了待删除历史数据能够被正常删除，避免对Hbase系统（Hbase文件系统）的影响。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见的，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方案中实施例一方法的一流程示意图；

图2为本发明方案中实施例一方法中步骤S2的一流程示意图；

图3为本发明方案中实施例一方法中步骤S2的另一流程示意图；

图4为本发明方案中实施例一方法的另一流程示意图；

图5为本发明方案中实施例二装置的结构示意图；

图6为本发明方案中实施例三设备的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图1所示，本发明提供了一种历史数据快速删除方法，包括：

S1，获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；

S2，根据待删除历史数据对应的行标识确定对应的分区标识；

S3，根据确定的分区标识删除分区标识对应的目录以及元数据信息。

其中，在步骤S1中，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识具体是：根据待删除历史数据的起始时间范围确定待删除历史数据对应的起始行标识，根据待删除历史数据的结束时间范围确定待删除历史数据对应的结束行标识。

HBase文件系统存储数据其底层使用的是HDFS来作为存储介质，HBase文件系统中的每一张表对应的HDFS目录上的一个文件夹，文件夹名以HBase表进行命名(如果没有使用命名空间，则默认在default目录下)，在表文件夹下存放在若干个Region（分区）命名的文件夹，Region文件夹中的每个列簇也是用文件夹进行存储的，每个列簇中存储就是实际的数据，以HFile的形式存在，路径格式如下：

/HBase/data/default/<tbl_name>/<Region_id>/<cf>/<hfile_id>

本实施例中，以Hbase表data_kpi为例，随着业务的增长，数据量越来越大，增长到几十亿甚至上百亿条，数据库性能开始变差，但是数据库中旧的历史数据已经失效或者废弃，已经不再使用到，可以对失效数据进行清理，只保留需要使用的数据，保持HBase数据库高性能运行。根据业务规则，可将实收付日期大于3年的并且合同组号在2010年12月以前的数据进行删除。根据待删除历史数据的时间范围，筛选出基于包含日期字符串的RowKey（行标识）范围，例如： |200701......|200702.....|......|201011......|201012......|，即起始行标识以及结束行标识范围，即 {Start RowKey，End RowKey}记录。

如图2所示，在步骤S2具体包括：

S21，根据待删除历史数据对应的起始行标识以及结束行标识确定待删除历史数据对应的行标识范围；

S23，根据待删除历史数据对应的行标识范围确定对应隶属的分区名称；

S25，根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识。

在步骤S21中，根据待删除历史数据对应的起始行标识（Start RowKey）以及结束行标识（End RowKey）确定待删除历史数据对应的行标识范围，即 {Start RowKey，EndRowKey}记录。

在步骤S23中，根据待删除历史数据对应的行标识范围确定对应隶属的分区名称。本发明实施例中分区具体是指Region，Region的概念和关系型数据库的分区或者分片差不多，不同的是HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着向HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。HBase会将一个大表的数据基于RowKey的不同范围分配到不同的Region（分区）中，每个Region负责一定范围的数据访问和存储。这样即使是一张巨大的表，由于被切割到不同的Region，每个Region的大小可以在配置文件中找到，每个Region都会有一个起始标签（Start RegionKey）和结束标签（ End RegionKey），其中，每个Region的起始标签（Start RegionKey）和结束标签（ End RegionKey）均为行标识RowKey，我们可以根据这个范围去定位Region id。

RegionServer（分区服务器）为Region的管理者，其实现类为HRegionServer，主要作用如下:对于数据的操作，get（读取）、put（写入）和Delete（删除）；对于Region的操作，splitRegion（拆分）、compactRegion（合并）。

在Hbase文件系统的管理页面中，查看data_api表信息，根据 Start RowKey和EndRowKey能够查看到Hbase表中起始行标识以及结束行标识范围内的所有分区名称（Regionname）（即Start RowKey和End RowKey范围内行标识隶属的所有分区），格式如下：([table],[region start key],[region id])，可以提取出来对应的分区标识Region id。优选地，也可以预先建立行标识与分区名称之间的对应关系表，可以直接根据起始行标识以及结束行标识范围内的行标识确定对应的分区名称。

进一步地，如图3所示，步骤S2中，还包括：

S24，建立分区名称与分区标识的对应关系数据表。

优选地，也可以预先建立行标识、分区名称、分区标识之间的对应关系表，可以直接根据起始行标识以及结束行标识范围内的行标识确定对应的分区标识，更进一步地提高历史数据删除的效率。

其中，在步骤S3中，根据确定的分区标识删除分区标识对应的目录以及元数据信息，待删除分区标识对应的目录以及元数据信息之间的删除先后顺序，并不做限制，不分先后。即根据确定的分区标识删除分区标识对应的目录以及元数据信息具体是：

具体地，历史数据为存储于Hbase集群上的Hbase数据，分区的元数据信息存储于Hbase集群上的META表中。

根据Region id（分区标识），在Hbase集群上先删除Hadoop上存储Hbase数据的根目录下面对应的Region目录以及子目录，再在Hbase集群上删除Hbase集群上的META表中存储的对应Region的元信息数据；或在Hbase集群上删除Hbase集群上的META表中存储的对应Region的元信息数据，再在Hbase集群上先删除Hadoop上存储Hbase数据的根目录下面对应的Region目录以及子目录；或在Hbase集群上先删除Hadoop上存储Hbase数据的根目录下面对应的Region目录以及子目录，同时在Hbase集群上删除Hbase集群上的META表中存储的对应Region的元信息数据。

在HBase集群上删除Hadoop上存储HBase数据的根目录及根目录下包含的所有子目录的具体实现过程为：在HBase集群的配置文件hbase-site.xml的hbase.rootdir标签中找到Hadoop上存储HBase数据的根目录，找到后，在Hadoop上删除根目录及根目录下包含的所有子目录；在Hbase集群上删除Hbase集群上的META表中的对应Region的元信息数据具体实现过程：通过Hbase客户端通信连接Hbase集群，通过Connection.getTable()实例化，获取META表对象，构建delete删除对象，指定待删除分区对应的Region id，执行delete删除操作。

在上述查找删除中，可以采用手动的方式在HBase集群的配置文件hbase-site.xml进行查找并根据查找结果进行删除，即通过肉眼查看找到相应的内容并给出删除指令进行删除；也可以通过程序接收到查到指令后，自动在HBase集群的配置文件hbase-site.xml进行查找并根据查找结果进行删除。

其中，查找Hadoop上存储HBase数据的根目录的程序：编写XML解析程序(如调用DOM4J等常用的XML解析库)，从hbase-site.xml中找出<name＞hbase.rootdir</name>标记对应的<value＞...</value＞标记的值，然后执行该程序，进行查找；查找META元数据的主键，可通过Hbase管理平台，进入data_api表，能够查看到Region name，即主键；

删除的程序为：删除元数据信息可采用Hbase shell脚本，或者Hbase的删除数据的Java API（用户接口）或其他语言的API等；删除Hadoop上的目录可采用hdfs dfs –rm -r<目录＞或hadoop fs –rm -r<目录＞这两种hadoop自带的命令均可，或者使用Hadoop的删除目录的Java API或其他语言的API。

进一步地，如图4所示，本发明技术方案提供的一种历史数据快速删除方法，还包括：

S4，确认待删除的历史数据是否已被删除。

其中，在步骤S4中，可以通过重新获取待删除历史数据中的任意一项数据，查看是否能够获取，如果获取数据不为空，说明待删除历史数据未被成功删除，需要重新执行步骤S1-S3；如果获取数据为空，说明待删除历史数据被成功删除。

需要说明的是，本发明技术方案中步骤S1-S4均可以通过硬件、软件或软硬件结合的语言编程实现，编程实现的思路与步骤相对应，也可以通过其他方式实现，本发明在此不做限制。

本发明根据待删除的历史数据对应的行标识确定的分区标识，删除分区标识对应的目录以及元数据信息，有效降低HBase集群中CPU、内存以及网络资源的消耗，并能够提高HBase数据删除过程的可靠性及效率，从而快速实现HBase海量历史数据的删除，有效解决由于现有技术造成Hbase历史数据删除速度慢的问题，有效地提高了Hbase历史数据删除的效率，避免了对Hbase集群节点或Hbase系统实际业务的影响。

本发明技术方案中根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识之前，建立分区名称与分区标识的对应关系数据表，可以根据分区名称直接确定对应的分区标识，进一步地提高了历史数据删除的效率。

本发明技术方案中，在删除分区标识对应的目录以及元数据信息后，确认待删除的历史数据是否已被删除，保证了待删除历史数据能够被正常删除，避免对Hbase系统（Hbase文件系统）的影响。

实施例二

如图5所示，本发明技术方案还提供了一种历史数据快速删除装置，包括：

获取模块101，获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；

确定模块102，根据待删除历史数据对应的行标识确定对应的分区标识；

删除模块103，根据确定的分区标识删除分区标识对应的目录以及元数据信息。

实施例三

如图6所示，本发明技术方案还提供了一种电子设备，包括：存储器201，用于存储计算机程序；处理器202，用于执行所述计算机程序时实现如实施例一中的一种历史数据快速删除方法的步骤。

本申请实施例中的存储器201用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。可以理解，存储器201可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandom Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous DynamicRandom Access Memory)、增强型同步动态随机存取存储器(ESDRAM，EnhancedSynchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器201旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器202中，或者由处理器202实现。处理器202可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202可以是通用处理器、DSP（Digital Signal Processing，即指能够实现数字信号处理技术的芯片），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器202可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器201，处理器202读取存储器201中的程序，结合其硬件完成前述方法的步骤。处理器202执行所述程序时实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

实施例四

本发明技术方案还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一中的一种历史数据快速删除方法的步骤。

例如包括存储计算机程序的存储器201，上述计算机程序可由处理器202执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种历史数据快速删除方法，其特征是，包括：

获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；其中，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识具体是：根据待删除历史数据的起始时间范围确定待删除历史数据对应的起始行标识，根据待删除历史数据的结束时间范围确定待删除历史数据对应的结束行标识；

根据待删除历史数据对应的行标识确定对应的分区标识；其中，根据待删除历史数据对应的行标识确定对应的分区标识具体是：

根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识；

根据确定的分区标识删除分区标识对应的目录以及元数据信息；历史数据为存储于Hbase集群上的Hbase数据，分区的元数据信息存储于Hbase集群上的META表中。

2.根据权利要求1所述的一种历史数据快速删除方法，其特征是，根据确定的隶属的分区名称以及分区名称与分区标识的对应关系确定对应的分区标识之前，还包括：

建立分区名称与分区标识的对应关系数据表。

3.根据权利要求1所述的一种历史数据快速删除方法，其特征是，根据确定的分区标识删除分区标识对应的目录以及元数据信息具体是：

同时删除存储历史数据的根目录下对应的分区目录以及分区目录的子目录，以及对应分区的元数据信息。

4.根据权利要求1-3任意一项所述的一种历史数据快速删除方法，其特征是，还包括：确认待删除的历史数据是否已被删除。

5.一种历史数据快速删除装置，其特征是，包括：

获取模块，获取待删除历史数据的时间范围，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识；其中，根据待删除历史数据的时间范围确定待删除历史数据对应的行标识具体是：根据待删除历史数据的起始时间范围确定待删除历史数据对应的起始行标识，根据待删除历史数据的结束时间范围确定待删除历史数据对应的结束行标识；

确定模块，根据待删除历史数据对应的行标识确定对应的分区标识；其中，根据待删除历史数据对应的行标识确定对应的分区标识具体是：

删除模块，根据确定的分区标识删除分区标识对应的目录以及元数据信息；历史数据为存储于Hbase集群上的Hbase数据，分区的元数据信息存储于Hbase集群上的META表中。

6.一种电子设备，其特征是，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的一种历史数据快速删除方法的步骤。

7.一种计算机可读存储介质，其特征是，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的一种历史数据快速删除方法的步骤。