CN111177102A

CN111177102A - 一种实现hdfs启动加速的优化方法及系统

Info

Publication number: CN111177102A
Application number: CN201911358335.XA
Authority: CN
Inventors: 申晓青
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-19
Anticipated expiration: 2039-12-25
Also published as: CN111177102B

Abstract

本发明提供一种实现HDFS启动加速的优化方法及系统，方法包括如下步骤：S 1.获取业务运行场景及对应业务运行场景下的用户个性化设置；S2.根据业务运行场景及用户个性化设置，选择元数据信息划分标准，并按照对应元数据信息划分标准划分元数据存储文件，生成元数据信息文件；S3.根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件或非聚簇索引文件；S4.根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动。

Description

一种实现HDFS启动加速的优化方法及系统

技术领域

本发明属于大数据优化技术领域，具体涉及一种实现HDFS启动加速的优化方法及系统。

背景技术

HDFS是Hadoop分布式存储系统。随着大数据平台运行时间的推移及承载的文件数量趋于海量化，尤其是当文件元数据规模达到千万级别时，HDFS启动过程将会很缓慢，达到几十分钟甚至几小时。这就导致当系统因为异常退出、动态扩容或者配置参数变更时，再次启动HDFS服务至少要等1个小时以上，这在生产环境下，如移动业务运营中是不可接受的。

当前存在的优化方式主要采用多索引并行加载的方式。通过将元数据FSImage文件进行Section分区化，重新创建Sub_Section子索引，然后通过并行加载的方式，实现HDFS快速启动的目的。这种方式存在的问题在于，在文件元数据规模未达到一定量级或者机器所能承受级别时，重新创建子索引可能增加额外工作量，导致提前达到系统瓶颈；另外，文件元数据量级的不同，并行度则不同，若是设置固定的并行度，则可能会减缓HDFS启动速度，适得其反，若需通过手动配置的方式，则会增加HDFS重启的次数。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种实现HDFS启动加速的优化方法及系统，是非常有必要的。

发明内容

针对现有技术的上述现有分布式存储系统HDFS启动缓慢，而重建子索引的方式会增加额外工作量或者增加重启次数的缺陷，本发明提供一种实现HDFS启动加速的优化方法及系统，以解决上述技术问题。

第一方面，本发明提供一种实现HDFS启动加速的优化方法，包括如下步骤：

S1.获取业务运行场景及对应业务运行场景下的用户个性化设置；

S2.根据业务运行场景及用户个性化设置，选择元数据信息划分标准，并按照对应元数据信息划分标准划分元数据存储文件，生成元数据信息文件；

S3.根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件或非聚簇索引文件；

S4.根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动。

进一步地，步骤S1具体步骤如下：

S11.获取业务运行场景；

S12.获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征。HDFS启动时预分配堆内存，避免由于堆内存不足导致启动报错或失败。关注业务特征为元数据信息文件进行归类划分提供参考和设定。

进一步地，不同时间段设定不同的可承受HDFS启动耗时；

关注业务特征包括关注时效性和非时效性的业务场景。例如移动业务有其空闲时间段和忙碌时间段，则在忙碌时间段设置小的耗时阈值

进一步地，步骤S2具体步骤如下：

S21.获取用户设置的业务运行场景的关注业务特征；

S22.当关注业务特征为关注时效性时，将元数据存储为以不同时间为单位的元数据信息文件；

S23.当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件。HDFS服务启动缓慢最根本的原因为元数据信息过多导致的，因此以业务运行场景为根本，归类划分元数据存储文件，实现才能够源头加大启动的有效性。

进一步地，步骤S22中，将元数据存储为以年为单位的元数据信息文件、以月为单位的元数据信息文件、以周为单位的元数据信息文件、实时的元数据信息文件以及所有元数据信息文件；

步骤S23中，将元数据存储为热点元数据信息文件、关联元数据信息文件、关键元数据信息文件以及冷元数据信息文件。元数据分类方式包括但不限于时间和热点两种。

进一步地，步骤S3具体步骤如下：

S31.获取用户设置的业务运行场景的关注业务特征；

S32.当关注业务特征为关注时效性时，以时间为单位创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件；

S33.当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的元数据信息文件的非聚簇索引文件。索引文件独立于元数据信息文件之外，保留了原有元数据，避免了直接将索引添加在元数据汇总文件中进行并行操作，增大原有元数据汇总文件的不便利性。

进一步地，步骤S4具体步骤如下：

S41.获取业务运行场景下用户配置的可承受HDFS启动耗时，并根据可承受HDFS启动耗时设定HDFS启动优先级，根据HDFS启动优先级选择可用资源的占用比例作为启动任务所用；

S42.根据创建的聚集索引文件或非聚簇索引文件，将元数据信息文件进行分类统计；

对以时间为单位的元数据信息文件设置以多线程方向进行并行加载；

对关联元数据信息文件设置单独进程进行数据加载；

对热点元数据信息文件设置特定进程优先加载；

S43.按照设定的HDFS启动优先级及启动任务占用资源，对不同元数据信息文件按照设定的加载方式，进行多进程多线程快速启动。提取设定的耗时阈值为HDFS快速启动时进行可用资源优先级的分配，更精确评估最优进程和线程数。

第二方面，本发明提供一种实现HDFS启动加速的优化系统，包括：

场景及设置获取模块，用于获取业务运行场景及对应业务运行场景下的用户个性化设置；

元数据划分模块，用于根据业务运行场景及用户个性化设置，选择元数据信息划分标准，并按照对应元数据信息划分标准划分元数据存储文件，生成元数据信息文件；

索引创建模块，用于根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的非聚簇索引文件的聚集索引文件或非聚簇索引文件；

HDFS快速启动模块，用于根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动。

进一步地，场景及设置获取模块包括：

业务运行场景获取单元，用于获取业务运行场景；

用户设置获取单元，用于获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征；

元数据划分模块包括：

关注业务特征第一获取单元，用于获取用户设置的业务运行场景的关注业务特征；

元数据时间划分单元，用于当关注业务特征为关注时效性时，将元数据存储为以不同时间为单位的元数据信息文件；

元数据热度划分单元，用于当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件。

进一步地，索引创建模块包括：

关注业务特征第二获取单元，用于获取用户设置的业务运行场景的关注业务特征；

聚集索引文件创建单元，用于当关注业务特征为关注时效性时，以时间为单位创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件；

非聚簇索引文件创建单元，用于当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的元数据信息文件的非聚簇索引文件；

HDFS快速启动模块包括：

启动优先级设定单元，用于获取业务运行场景下用户配置的可承受HDFS启动耗时，并根据可承受HDFS启动耗时设定HDFS启动优先级，根据HDFS启动优先级选择可用资源的占用比例作为启动任务所用；

元数据分类统计单元，用于根据创建的聚集索引文件或非聚簇索引文件，将元数据信息文件进行分类统计；对以时间为单位的元数据信息文件以多线程方向进行并行加载；对关联元数据信息文件通过单独进程进行数据加载；对热点元数据信息文件设置特定进程优先加载；

HDFS快速启动单元，用于按照设定的HDFS启动优先级及启动任务占用资源，对不同元数据信息文件按照设定的加载方式，进行多进程多线程快速启动。

本发明的有益效果在于，

本发明提供的实现HDFS启动加速的优化方法及系统，适用于根据客户常用的业务运行场景，提前归类划分管理元数据信息，保证了HDFS加速启动的有效性，同时支持用户个性化设置忙时和闲时HDFS启动耗时阈值，实现突发状况下，业务运行场景的快速启动。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程示意图一；

图2是本发明的方法流程示意图二；

图3是本发明的系统示意图；

图中，1-场景及设置获取模块；1.1-业务运行场景获取单元；1.2-用户设置获取单元；2-元数据划分模块；2.1-关注业务特征第一获取单元；2.2-元数据时间划分单元；2.3-元数据热度划分单元；3-索引创建模块；3.1-关注业务特征第二获取单元；3.2-聚集索引文件创建单元；3.3-非聚簇索引文件创建单元；4-HDFS快速启动模块；4.1-启动优先级设定单元；4.2-元数据分类统计单元；4.3-HDFS快速启动单元。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本发明提供一种实现HDFS启动加速的优化方法，包括如下步骤：

实施例2：

如图1和图2所示，本发明提供一种实现HDFS启动加速的优化方法，包括如下步骤：

S1.获取业务运行场景及对应业务运行场景下的用户个性化设置；具体步骤如下：

S11.获取业务运行场景；

S12.获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征；

HDFS启动耗时阈值，可在不同时间段设定不同的可承受HDFS启动耗时，如移动业务有其空闲时间段和忙碌时间段，则在忙碌时间段则定义较小的耗时阈值；

HDFS启动时预分配堆内存，用于HDFS启动时预分配堆内存，避免由于堆内存不足导致启动报错或失败；

关注业务特征包括关注时效性和非时效性的业务场景，以为元数据归类划分提供参考和设定；

HDFS服务启动缓慢最根本的原因为元数据信息过多，因此以业务应用场景为根本，进行元数据存储文件的归类划分，可从源头加大HDFS服务启动的有效性；具体步骤如下：

S21.获取用户设置的业务运行场景的关注业务特征；

S22.当关注业务特征为关注时效性时，将元数据存储为以不同时间为单位的元数据信息文件；将元数据存储为以年为单位的元数据信息文件、以月为单位的元数据信息文件、以周为单位的元数据信息文件、实时的元数据信息文件以及所有元数据信息文件；

S23.当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件；将元数据存储为热点元数据信息文件、关联元数据信息文件、关键元数据信息文件以及冷元数据信息文件；

S3.根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件或非聚簇索引文件；具体步骤如下：

S31.获取用户设置的业务运行场景的关注业务特征；

S33.当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的非聚簇索引文件；

S31～S33步骤中的索引与传统的创建索引的方式不同，传统的方式是以相同字段创建索引，并将索引加入section中，增大了元数据文件；而上述步骤是根据元数据的关注业务特征针对性创建聚集索引与非聚簇索引，并且创建的索引为单独的索引文件，避免了直接将索引添加在元数据汇总文件中进行并行操作的不便利性，保留了原有元数据；

S4.根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动；具体步骤如下：

S41.获取业务运行场景下用户配置的可承受HDFS启动耗时，并根据可承受HDFS启动耗时设定HDFS启动优先级，根据HDFS启动优先级选择可用资源的占用比例作为启动任务所用，如所设定与忙碌时期，则将可用资源的80％的资源为HDFS启动任务所用；

对关联元数据信息文件设置单独进程进行数据加载；

对热点元数据信息文件设置特定进程优先加载；

S43.按照设定的HDFS启动优先级及启动任务占用资源，对不同元数据信息文件按照设定的加载方式，进行多进程多线程快速启动。

实施例3：

如图3所示，本发明提供一种实现HDFS启动加速的优化系统，包括：

场景及设置获取模块1，用于获取业务运行场景及对应业务运行场景下的用户个性化设置；场景及设置获取模块1包括：

业务运行场景获取单元1.1，用于获取业务运行场景；

用户设置获取单元1.2，用于获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征；

元数据划分模块2，用于根据业务运行场景及用户个性化设置，选择元数据信息划分标准，并按照对应元数据信息划分标准划分元数据存储文件，生成元数据信息文件；元数据划分模块2包括：

关注业务特征第一获取单元2.1，用于获取用户设置的业务运行场景的关注业务特征；

元数据时间划分单元2.2，用于当关注业务特征为关注时效性时，将元数据存储为以不同时间为单位的元数据信息文件；

元数据热度划分单元2.3，用于当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件；

索引创建模块3，用于根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的非聚簇索引文件的聚集索引文件或非聚簇索引文件；索引创建模块3包括：

关注业务特征第二获取单元3.1，用于获取用户设置的业务运行场景的关注业务特征；

聚集索引文件创建单元3.2，用于当关注业务特征为关注时效性时，以时间为单位创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件；

非聚簇索引文件创建单元3.3，用于当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的元数据信息文件的非聚簇索引文件；

HDFS快速启动模块4，用于根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动；HDFS快速启动模块4包括：

启动优先级设定单元4.1，用于获取业务运行场景下用户配置的可承受HDFS启动耗时，并根据可承受HDFS启动耗时设定HDFS启动优先级，根据HDFS启动优先级选择可用资源的占用比例作为启动任务所用；

元数据分类统计单元4.2，用于根据创建的聚集索引文件或非聚簇索引文件索引文件，将元数据信息文件进行分类统计；对以时间为单位的元数据信息文件以多线程方向进行并行加载；对关联元数据信息文件通过单独进程进行数据加载；对热点元数据信息文件设置特定进程优先加载；

HDFS快速启动单元4.3，用于按照设定的HDFS启动优先级及启动任务占用资源，对不同元数据信息文件按照设定的加载方式，进行多进程多线程快速启动。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种实现HDFS启动加速的优化方法，其特征在于，包括如下步骤：

2.如权利要求1所述的实现HDFS启动加速的优化方法，其特征在于，步骤S1具体步骤如下：

S11.获取业务运行场景；

S12.获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征。

3.如权利要求2所述的实现HDFS启动加速的优化方法，其特征在于，不同时间段设定不同的可承受HDFS启动耗时；

关注业务特征包括关注时效性和非时效性的业务场景。

4.如权利要求3所述的实现HDFS启动加速的优化方法，其特征在于，步骤S2具体步骤如下：

S21.获取用户设置的业务运行场景的关注业务特征；

S23.当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件。

5.如权利要求4所述的实现HDFS启动加速的优化方法，其特征在于，步骤S22中，将元数据存储为以年为单位的元数据信息文件、以月为单位的元数据信息文件、以周为单位的元数据信息文件、实时的元数据信息文件以及所有元数据信息文件；

步骤S23中，将元数据存储为热点元数据信息文件、关联元数据信息文件、关键元数据信息文件以及冷元数据信息文件。

6.如权利要求5所述的实现HDFS启动加速的优化方法，其特征在于，步骤S3具体步骤如下：

S31.获取用户设置的业务运行场景的关注业务特征；

S33.当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的元数据信息文件的非聚簇索引文件。

7.如权利要求6所述的实现HDFS启动加速的优化方法，其特征在于，步骤S4具体步骤如下：

对关联元数据信息文件设置单独进程进行数据加载；

对热点元数据信息文件设置特定进程优先加载；

8.一种实现HDFS启动加速的优化系统，其特征在于，包括：

场景及设置获取模块(1)，用于获取业务运行场景及对应业务运行场景下的用户个性化设置；

元数据划分模块(2)，用于根据业务运行场景及用户个性化设置，选择元数据信息划分标准，并按照对应元数据信息划分标准划分元数据存储文件，生成元数据信息文件；

索引创建模块(3)，用于根据元数据信息划分标准选择创建索引的种类，创建独立于元数据信息文件之外的非聚簇索引文件的聚集索引文件或非聚簇索引文件；

HDFS快速启动模块(4)，用于根据用户个性化设置以及元数据信息文件的聚集索引文件或非聚簇索引文件，为不同元数据信息划分标准的数据选择配置并行度的加载方式，触发HDFS在设定加载方式下快速启动。

9.如权利要求8所述的实现HDFS启动加速的优化系统，其特征在于，场景及设置获取模块(1)包括：

业务运行场景获取单元(1.1)，用于获取业务运行场景；

用户设置获取单元(1.2)，用于获取业务运行场景下用户配置的可承受HDFS启动耗时、HDFS启动时预分配堆内存以及关注业务特征；

元数据划分模块(2)包括：

关注业务特征第一获取单元(2.1)，用于获取用户设置的业务运行场景的关注业务特征；

元数据时间划分单元(2.2)，用于当关注业务特征为关注时效性时，将元数据存储为以不同时间为单位的元数据信息文件；

元数据热度划分单元(2.3)，用于当关注业务特征为非关注失效性时，将元数据存储为以不同热度为单位的元数据信息文件。

10.如权利要求8所述的实现HDFS启动加速的优化系统，其特征在于，索引创建模块(3)包括：

关注业务特征第二获取单元(3.1)，用于获取用户设置的业务运行场景的关注业务特征；

聚集索引文件创建单元(3.2)，用于当关注业务特征为关注时效性时，以时间为单位创建独立于元数据信息文件之外的元数据信息文件的聚集索引文件；

非聚簇索引文件创建单元(3.3)，用于当关注业务特征为非关注失效性时，以热点元数据信息文件的信息创建独立于元数据信息文件之外的元数据信息文件的非聚簇索引文件；

HDFS快速启动模块(4)包括：

启动优先级设定单元(4.1)，用于获取业务运行场景下用户配置的可承受HDFS启动耗时，并根据可承受HDFS启动耗时设定HDFS启动优先级，根据HDFS启动优先级选择可用资源的占用比例作为启动任务所用；

元数据分类统计单元(4.2)，用于根据创建的聚集索引文件或非聚簇索引文件，将元数据信息文件进行分类统计；对以时间为单位的元数据信息文件以多线程方向进行并行加载；对关联元数据信息文件通过单独进程进行数据加载；对热点元数据信息文件设置特定进程优先加载；

HDFS快速启动单元(4.3)，用于按照设定的HDFS启动优先级及启动任务占用资源，对不同元数据信息文件按照设定的加载方式，进行多进程多线程快速启动。