CN117493274A

CN117493274A - 一种冷目录查找方法、装置、电子设备及存储介质

Info

Publication number: CN117493274A
Application number: CN202311436474.6A
Authority: CN
Inventors: 穆纯进; 茅矛; 冯佳佳; 姜雨彤
Original assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-02

Abstract

本申请提供一种冷目录查找方法、装置、电子设备及存储介质。该方法包括：确定Hadoop分布式文件系统中主节点的目录文件；将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；接收转换节点发送的目标目录文件；根据目标目录文件，得到查找目录；根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息；根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。本申请的方法，可以实现无侵入快速查找冷目录的存储路径，为系统管理冷目录提供了查找功能，从而提高了文件处理效率以及Hadoop分布式文件系统的稳定性。

Description

一种冷目录查找方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据分布式存储技术领域，尤其涉及一种冷目录查找方法、装置、电子设备及存储介质。

背景技术

在Hadoop分布式文件系统中通常存储有大量的数据，其中可以包括隐私数据。通常，数据可以存储在文件目录下，目录可以有冷热之分，对于冷目录的不断堆积，会占用系统存储内存，导致Hadoop分布式文件系统的稳定性变差。

目前，对于冷目录的处理一般是通过使用更廉价的存储介质或者使用EC(ErasureCode)编码等方式来降低存储成本，同时释放了Hadoop分布式文件系统的内存空间，保证了系统稳定性。

然而，现有技术只能查找系统文件数、某个目录下的文件数、以及目录下的文件类型，还没有一种合理、可靠的方案，可以有助于快速查找Hadoop分布式文件系统中的冷目录。

发明内容

本申请提供一种冷目录查找方法、装置、电子设备及存储介质，用以解决在Hadoop分布式文件系统中查找冷目录的效率低、并且对系统业务数据具有侵入性的问题。

第一方面，本申请提供一种冷目录查找方法，包括：

确定Hadoop分布式文件系统中主节点的目录文件；

将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；

接收转换节点发送的目标目录文件；

根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；

根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。

在本申请实施例中，在将目录文件拷贝至转换节点，以使转换节点根据目录文件，向Hadoop分布式文件系统发送对应的目标目录文件之前，该方法还包括：

获取文件拷贝指令；

根据文件拷贝指令，确定转换节点的配置文件，配置文件为转换节点名称与IP地址之间的映射文件，配置文件用于转换节点与Hadoop分布式文件系统中主节点之间的通信连接；

将配置文件配置到Hadoop分布式文件系统中主节点，以完成将目录文件拷贝至转换节点，以使转换节点根据目录文件，向Hadoop分布式文件系统发送对应的目标目录文件的步骤。

在本申请实施例中，将目录文件拷贝至转换节点，以使转换节点根据目录文件，向Hadoop分布式文件系统发送对应的目标目录文件，包括：

根据文件拷贝指令，对目录文件进行拷贝，得到副本文件；

将副本文件传输至转换节点，以使转换节点根据副本文件，确定副本文件的基础信息，并根据文件反序列化指令，将副本文件的基础信息进行转换，得到目标目录文件，副本文件的基础信息包括文件修改日期、数据块大小、用户名称。

在本申请实施例中，根据目标目录文件，得到查找目录，包括：

遍历Hadoop分布式文件系统，确定Hadoop分布式文件系统中目标目录文件中的各个目录；

根据目标目录文件中的各个目录的名称，对目标目录文件中的各个目录进行聚合处理，得到查找目录。

在本申请实施例中，根据目标目录文件中的各个目录的名称，对目标目录文件中的各个目录进行聚合处理，得到查找目录，包括：

读取目标目录文件中各个目录下的分支目录，确定各个分支目录的目录名称、以及对应的文件数；

根据各个分支目录的目录名称，确定目标分支目录，目标分支目录为目录名称相同的分支目录；

根据目标分支目录的文件数，对目标分支目录进行合并，得到查找目录、以及查找目录对应的文件数。

在本申请实施例中，根据查找目录，构建目录查找文件，包括：

根据Hadoop分布式文件系统，构建数据仓库管理平台；

将查找目录、以及查找目录的基础信息写入数据仓库管理平台，得到目录查找文件。

在本申请实施例中，根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数，包括：

构建冷目录查找语句；

根据预设的冷目录确定要求和查找目录的基础信息，确定冷目录预设的冷目录确定要求中的冷目录最近被访问日期、以及查找目录中各个目录的目录访问日期；

根据冷目录查找语句，比对冷目录最近被访问日期和查找目录中各个目录的目录访问日期；

确定查找目录中目录访问日期小于冷目录最近被访问日期的目录，生成冷目录列表、以及冷目录列表基础信息；

根据冷目录列表和冷目录列表基础信息，确定冷目录的类型、以及冷目录的类型对应的冷目录数，冷目录的类型包括Hadoop分布式文件系统对应的冷目录、各用户名称对应的冷目录、冷目录列表中每个目录对应的历史冷目录；

接收用户查找指令，以使Hadoop分布式文件系统根据用户查找指令，从冷目录列表中确定目标冷目录、以及目标冷目录数。

第二方面，本申请提供一种冷目录查找装置，包括：

获取模块，用于确定Hadoop分布式文件系统中主节点的目录文件；

传输模块，用于将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；

接收模块，用于接收转换节点发送的目标目录文件；

聚合模块，用于根据目标目录文件，得到查找目录；

加载模块，用于根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；

确定模块，用于根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。

第三方面，本申请提供了一种电子设备，包括：处理器，以及与处理器通信连接的存储器；

存储器存储计算机执行指令；

处理器执行存储器存储的计算机执行指令，以实现本申请实施例的冷目录查找方法。

第四方面，一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现本申请实施例的冷目录查找方法。

本申请提供的一种冷目录查找方法、装置、电子设备及存储介质，通过确定Hadoop分布式文件系统中主节点的目录文件；将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；接收转换节点发送的目标目录文件；根据目标目录文件，得到查找目录；根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数的手段，利用转换节点进行获取目录文件后的格式信息转换操作，因此不会在转换过程中影响到系统正常数据业务数据的实施情况，从而在查找过程中保护了系统的存储数据不被损坏，同时，利用查找目录的基础信息，对目录进行分类，以实现根据查找条件快速定位对应类别冷目录的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种冷目录查找方法的流程示意图；

图2为本申请实施例提供的另一种冷目录查找方法的流程示意图；

图3为本申请实施例提供的另一种冷目录查找方法的具体流程示意图；

图4为本申请实施例提供的一种冷目录查找装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

现有技术中，对于冷目录的处理一般是通过使用更廉价的存储介质或者使用EC编码等方式进行存储，那么就需要先从存储的目录中查找并分离冷目录，然而，在冷目录查找过程中，可以递归遍历整个Hadoop分布式文件系统的目录结构树来获取所有的目录列表，从而确定冷目录在该系统中的存储位置并进行分离。然而，在需要查找冷目录的Hadoop分布式文件系统中直接遍历整个目录列表，会为该系统带来数据处理压力、消耗大量时间，并且在查找过程中会出现操作失误等情况，进而导致系统正在实施的业务数据丢失，无法做到准确、快速、精准的确定在整个Hadoop分布式文件系统中存在哪些冷目录，使得查找效率不高。

本申请可以利用一个与Hadoop分布式文件系统中节点不同的转换节点来执行冷目录格式解析与转换的相关命令，该转换节点与正在执行业务数据的Hadoop分布式文件系统中的节点没有企业生产环境上的关系，体现出了本方法的无侵入性，同时，利用查找目录的基础信息，对目录进行分类，以实现根据查找条件快速定位对应类别冷目录的效果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图对本申请的实施例进行描述。

本申请实施例提供了一种冷目录查找方法、装置、电子设备及存储介质，应用于Hadoop分布式文件系统中，这里的Hadoop分布式文件系统是拥有一个主节点和多个从节点的文件系统，所有节点的访问接口由Hadoop分布式文件系统统一提供，其中，主节点用于存储系统数据的元数据信息和数据的偏移量，从节点用于存储元数据至本地磁盘以及辅助系统完成检测记录数据的操作，元数据信息包括目录文件，即目录的描述信息，例如，文件所在路径、文件名称、文件类型。本实施例对Hadoop分布式文件系统的选择类型不做特别的限制，只要能够通过确定Hadoop分布式文件系统中主节点的目录文件；将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；接收转换节点发送的目标目录文件；根据目标目录文件，得到查找目录；根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数即可。

本申请实施例提供一种冷目录查找方法，该方法的执行主体可以为服务器，如图1所示，该冷目录查找方法可以包括以下步骤：

S101、确定Hadoop分布式文件系统中主节点的目录文件。

其中，Hadoop指的是数据存储与分析，它可以提供一个可靠的共享储存和分析系统，Hadoop的核心架构包括HDFS(Hadoop Distributed File System，分布式文件系统)和MapReduce，由HDFS实现数据的存储，MapReduce实现数据的分析和处理。

主节点可以指从Hadoop分布式文件系统中的元数据节点NameNode，目录文件可以是从主节点中提取的二进制的元数据文件。

其中，元数据从形式上可以分为内存元数据和元数据文件，其中，NameNode在内存中维护整个文件系统的元数据镜像，用于Hadoop分布式文件系统的文件管理，元数据文件则用于持久化存储数据。

HDFS可以包括NameNode、DataNode和block，其中NameNode作为主节点，负责整个分布式文件系统的元数据管理，也就是文件路径名，数据block的ID以及存储位置等信息，还要记录哪些节点是集群的一部分，某个block有几份副本；DataNode负责管理存储的数据，DataNodes作为从节点，每个节点位于一个集群中，并提供实际的存储空间，同时负责为客户读写请求服务；block可以是管理数据的数据块，用于根据分布式文件系统中文件的大小进行数据存储。

S102、将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中。

其中，转换节点可以是与企业生产环境无关的节点，企业生产环境可以指企业执行生产方案时启用的节点资源形成的环境，与企业生产环境无关的节点可以指该节点不在当前企业使用的节点资源池中，转换节点也可以是能执行转换指令的一台服务器。

转换指令可以是反序列化指令，反序列化指令指的是将二进制形式文件转换为对象的状态形式文件，便于文件的阅读，其中，二进制流形式以便于存储到磁盘、通过网络传输或在内存中进行持久化；而对象的状态形式可以在不同的计算机、进程或网络中传递对象，并在需要时重新还原。

其中，在本申请实施例中，在将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件之前，该冷目录查找方法还可以包括：

获取文件拷贝指令；

其中，文件拷贝指令可以指能够进行远程跨服务器进行文件或目录拷贝的指令，文件拷贝指令可以包括预设的传输协议指令(用于建立两个传输节点间的联系)，验证传输路径、配置信息的指令(用于监测传输过程是否出现问题)，是否保留原文件的修改时间、访问时间和访问权限的指令(用于限制传输文件的内容)，递归复制整个目录的指令(用于获取传输文件的内容)。

例如，已知一个转换节点基础信息包括节点A、服务器标识号为A1111，则可以利用拷贝指令设置语句，在主节点服务器端口中设置与A-A1111对应的连接信息，使得建立节点间的通信连接，将文件传输至节点A。

其中，在本申请实施例中，将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件的方法可以包括：

根据文件拷贝指令，对目录文件进行拷贝，得到副本文件；

其中，副本文件的基础信息可以是系统存储的二进制形式的数据信息，副本文件的基础信息还可以包括目录名称、目录路径、文件大小、创建时间、访问时间。

S103、接收转换节点发送的目标目录文件。

其中，经过反序列化之后得到的目标目录文件的文件格式可以包括HDFS_DIR：HDFS的文件路径和目录路径；REPLICATION：副本数；MODIFICATION_TIME：修改时间；ACCESS_TIME：访问时间。

其中，转换节点发送目标目录文件的方法可以是通过转换节点配置文件预先建立的网络连接，以使转换节点在文件传输时Hadoop分布式文件系统可以接收到目标目录文件。

S104、根据目标目录文件，得到查找目录。

其中，查找目录可以是通过Hadoop分布式文件系统中的分布式计算框对目标目录文件进行计算分析生成的目录。

分布式计算框可以指Hadoop中的MapReduce，MapReduce是一个适用于处理大量数据的编程模型，Hadoop可以运行用各种语言编写的MapReduce程序，例如Java、Ruby、Python和C++语言。

其中，在本申请实施例中，根据目标目录文件，得到查找目录的方法可以包括：

例如，利用MapReduce分布式引擎编写目录查找程序，遍历目标目录文件后确定有两个目录，分别为HDFS/a/c/d/1.txt、HDFS/a/c/2.txt，利用查找程序中预设的目录聚合程序，对相同目录进行聚合。

其中，在本申请实施例中，根据目标目录文件中的各个目录的名称，对目标目录文件中的各个目录进行聚合处理，得到查找目录的方法可以包括：

其中，分支目录可以用于表征目标目录文件中不同层级的次目录。

例如，计算得出HDFS/a/c/d/1.txt中/a目录的文件数为1，/a/c目录的文件数为1，a/c/d目录的文件数为1，而HDFS/a/c/2.txt中/a目录的文件数为1，/a/c目录的文件数为1，然后将相同的目录进行合并，可以得到查找目录以及对应的文件数为：/a目录、文件数为2，/a/c目录、文件数为2，/a/c/d目录、文件数为1。

S105、根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期。

其中，目录内容可以是用于表征各目录的存储路径和存储数据类型；文件数量可以是记录整个查找目录的数量，也可以是根据目录内容、用户名称、文件大小等其他基础信息进行分别计算得出的数量；用户名称可以是用于区别不同用户存储的目录信息。

其中，在本申请实施例中，根据查找目录，构建目录查找文件的方法可以包括：

根据Hadoop分布式文件系统，构建数据仓库管理平台；

其中，数据仓库管理平台可以是由hive数据仓库工具构建的平台，hive数据仓库工具可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，并且hive数据仓库工具定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据，因此学习成本低，可以快速实现记录与查找功能。

hive数据仓库工具可以将用户的HQL语句通过解释器转换为MapReduce作业并提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。

其中，将查找目录、以及查找目录的基础信息写入数据仓库管理平台的方法可以是将查找目录、以及查找目录的基础信息以load的方式加载到建立好的数据仓库管理平台中，load的方式可以是将数据复制或者移动到数据仓库管理平台中的hive表对应的位置，该位置可以通过URL进行记录。

S106、根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。

其中，预设的冷目录确定要求可以是用于识别冷目录的时间、类别，例如，设定某个时间点之前访问的目录都是冷目录，则根据这个时间点的确定要求即可在查找目录中筛选出哪些目录是冷目录。

其中，在本申请实施例中，根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数的方法可以包括：

构建冷目录查找语句；

其中，预设的冷目录确定要求可以是根据Hadoop分布式文件系统存储目录的历史使用次数、目录存储时间、访问时间等条件进行人为设置的。

其中，冷目录的查找语句可以是数据仓库管理平台提供的可编写的HQL语句，是一种接近SQL的查询语言，完整的HQL语句如下：

select/update/delete……

from……

where……

group by……

having……

order by……

asc/desc

例如，设定目录的最近被访问时间要求在T1之前以及最近被修改的时间要求在T2之前的都是冷目录，则查找语句可以包括where accesstime<T1，where modifytime<T2，则根据查找语句，即可在查找文件中找到对应的冷目录，然后生成冷目录列表，然后还可以根据某一类别的信息去查找对应类别的冷目录信息，比如，记录的类别是用户名称，包括用户甲、用户乙，那么可以将冷目录列表中的用户甲和用户乙对应的冷目录分别计算，得到用户甲/乙对应的冷目录数，以及这些冷目录的位置。

其中，接收用户查找指令，以使Hadoop分布式文件系统根据用户查找指令，从冷目录列表中确定目标冷目录、以及目标冷目录数的方法可以包括：

接收用户查找指令，用户查找指令包括用户查找冷目录的时间，时间区间包括用户提交的访问时间和修改时间；

根据用户查找指令，确定目标冷目录、以及目标冷目录数，目标冷目录为与用户查找冷目录的时间对应的所有类型的冷目录，目录冷目录数为与用户查找冷目录的时间对应的所有类型的冷目录数的集合。

其中，用户查找指令可以是用户提交的查找某一时间区间内冷目录的指令，用户查找指令和冷目录查询语句不同，通过用户查找指令中的访问时间和修改时间，可以在已经查询出的冷目录列表中找到与用户查找指令对应的冷目录类别。

例如，已经知道10月1日之前的目录均为冷目录，当用户想要查找访问时间为9月20日、修改时间为9月19日的冷目录时，根据用户查找指令，即可在冷目录列表中找到与访问时间为9月20日、修改时间为9月19日对应的所有冷目录，并根据冷目录类型以及对应冷目录数，向用户展示查找结果。

其中，若根据用户查找指令，未在冷目录列表中查到对应时间的冷目录，则根据用户查找指令中的访问时间，得到访问时间区间，然后通过这个访问时间区间，查找冷目录列表中对应的冷目录，并给用户发送冷目录查找结果以及冷目录对应的修改时间。例如，未找到与访问时间为9月20日、修改时间为9月19日对应的冷目录，则以9月20日为基础，扩大查找访问时间的区间，查找9月19日-9月21日之间是否存在冷目录，若存在，则将冷目录以及冷目录对应的修改时间一起发送给用户，以便于用户确定想要查找的目标冷目录；若不存在，则继续查找9月18日-9月22日之间是否存在冷目录，以此循环，直到查找到冷目录为止。

本申请实施例提供的冷目录查找方法，可以利用转换节点进行获取目录文件后的格式信息转换操作，因此不会在转换过程中影响到系统正常数据业务数据的实施情况，从而在查找过程中保护了系统的存储数据不被损坏；并且利用分布式文件系统中的MapReduce模块对文件目录进行聚合，可以减少服务器的计算压力，减少计算作业的时间，从而提高查找的效率；同时，利用查找目录的基础信息，对目录进行分类，以实现根据查找条件快速定位对应类别冷目录的效果；还可以通过用户查找指令，为用户提供个性化查找需求，满足不同用户对不同类别冷目录的处理需求。

图2为本申请实施例提供的另一种冷目录查找方法的流程示意图，如图2所示，该方法包括：

S201、获取元数据文件，并将元数据文件推送到与企业生产环境无关的集群上。

其中，元数据文件可以是NameNode中需要进行冷目录查找对应的存储文件，元数据从形式上可以分为内存元数据和元数据文件，其中，NameNode在内存中维护整个文件系统的元数据镜像，用于HDFS的管理，元数据文件则用于持久化存储数据。

分布式文件系统和集群通常一起使用来提供高可用性、高性能和可扩展性。具体来说，分布式文件系统是一种能够将文件数据分布在多个节点上的文件系统，它可以通过网络连接多个计算机，使得这些计算机上的文件系统看起来像是一个单一的文件系统。而集群则是一组相互连接的计算机，它们共享资源和工作负载，以实现高可用性和高性能。在一个集群中，分布式文件系统可以被用来存储和共享数据，以便所有节点都可以访问它们。

分布式文件系统可以由多个集群组成，每个集群可以包含多个节点。不同的集群可以分布在不同的地理位置，通过网络连接进行通信和协作。例如，HDFS就是由多个节点组成的集群，每个节点都可以存储和处理数据。

其中，与企业生产环境无关的集群可以是与需要获取元数据文件的集群没有共同业务关联并且处于空闲状态的集群，该集群不在当前企业生产方案所需的资源池中。

S202、对元数据文件进行格式结构进行转换。

其中，通过了解元数据的结构，通过编写Java程序反序列化程序将二进制的元数据文件进行反序列化为明文文件，格式如下：

HDFS_DIR：HDFS的文件路径和目录路径；REPLICATION：副本数；MODIFICATION_TIME：修改时间；ACCESS_TIME：访问时间；PREFERRED_BLOCK_SIZE：首选数据块大小；BLOCKS_COUNT：数据块数量；FILE_SIZE：文件大小；NSQUOTA：文件数目配额大小；DSQUOTA：内存占用空间配额大小；PERMISSION：权限；USER_NAME：用户名称；GROUP_NAME：组名。

其中，两个进程在远程通信时，可以发送多种数据，包括文本、图片、音频、视频等，这些数据都是以二进制序列的形式在网络上传输，而Java是面向对象的开发方式，一切都是Java对象，想要在网络中传输Java对象，可以使用序列化和反序列化去实现，发送方需要将Java对象转换为字节序列，然后在网络上传送，接收方收到字符序列后，会通过反序列化将字节序列恢复成Java对象。

将Java对象以一连串的字节保存在磁盘文件中的过程，也可以说是保存Java对象状态的过程称为序列化。序列化可以将数据永久保存在磁盘上(通常保存在文件中)，与本申请实施例中的元数据文件对应，即读取的元数据文件为序列化文件；将保存在磁盘文件中的Java字节码重新转换成Java对象称为反序列化。

S203、将格式转换之后的文件加载至HDFS中，以执行S204的步骤。

其中，将格式转换之后的文件加载至HDFS中的原因可以是该文件数据很大，可达到千万或者上亿级的数据量，利用分布式引擎进行处理可以加快处理效率，减少服务器的响应压力。

S204、利用HDFS上的MapReduce分布式引擎计算各目录对应的文件数，得到目录聚合文件。

其中，使用MapReduce分布式计算引擎从明文文件中计算出每个目录对应的文件数。

例如，有HDFS文件/d/g/f/1.txt和/d/g/2.txt两个文件和/a/e、/a/h两个文件夹，计算引擎会做如下操作，首先计算每个文件夹对应的文件数，如下所示：

/>

最后，由聚合结果形成目录聚合文件，该文件包括目录访问时间的画像。

S205、构建hive表并加载目录聚合文件。

其中，建立的hive表语句如下所示：

/>

其中，hive是一个建立在分布式文件系统上的开源数据仓库软件，可以将存储在分布式文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为hive查询语言HQL，用于访问和分析存储在分布式文件系统中的大型数据集，hive核心是将HQL转换为MapReduce程序，然后将程序提交到分布式集群进行执行。

S206、定义冷目录属性，使用HQL分布式作业计算冷目录列表。

例如，定义小于cold_time时间点访问的文件是冷目录，那么可以根据查询语句：

select hdfsdir

from hdfs_dir_table

where accesstime<cold_time

提交HQL分布式作业快速精准计算冷目录列表。

其中，在计算出冷目录列表之后，可以根据具体的明文文件格式类别，从多个维度计算冷目录数，然后根据计算的类别冷目录信息，对该类别冷目录进行删除及清理，从而有效保障HDFS的稳定性。

例如，计算整个集群的冷目录数的语句为：

select count(hdfsdir)

from hdfs_dir_table

where accesstime<cold_time

计算用户维度的冷目录数的语句为：

select username,count(hdfsdir)

from hdfs_dir_table

where accesstime<cold_time

group by username

select dirlevel,sum(hdfsdir)

from hdfs_dir_table

where accesstime<cold_time

group by dirlevel

本申请实施例提供的冷目录查找方法，将元数据文件拷贝至与HDFS无关的服务器集群来进行冷目录的查找操作，不会影响到HDFS正常数据业务的实施情况，从而在查找过程中保护了HDFS的存储数据不被损坏，体现了本方法的无侵入性，同时，通过冷目录的访问时间，直接在hive表中查找与访问时间对应的文件，即可生成冷目录列表，提高了冷目录的查找效率，与使用HDFS的接口进行扫描的方法相比较，本申请实施例提供的冷目录查找方法在分钟级就可以精准定位冷目录，快速处理冷目录列表，保障分布式文件系统的稳定性。

图3为本申请实施例提供的另一种冷目录查找方法的具体流程示意图。如图3所示，将HDFS系统中的元数据文件进行采集并上传至服务器中，其中该服务器与HDFS集群的服务器有所区别；在该服务器上对元数据文件进行反序列化，形成明文文件；然后将明文文件传输至HDFS中，即目录文件；利用MapReduce分布式计算目录文件得到目录画像，即目录聚合文件；构建hive表并将目录聚合文件按照hive表对应规则存入hive表，得到目录名称与文件数目具有一定映射关系的目录存储文件；定义冷目录的时间要求，并使用HQL分布式计算冷目录，即冷目录列表；计算得出冷目录列表中不同类别的冷目录数，从而对冷目录进行处理。

图4为本申请实施例提供的冷目录查找装置的结构示意图。如图4所示，该冷目录查找装置40包括：获取模块401、传输模块402、接收模块403、聚合模块404、加载模块405、确定模块406。其中：

获取模块401，用于确定Hadoop分布式文件系统中主节点的目录文件；

传输模块402，用于将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；

接收模块403，用于接收转换节点发送的目标目录文件；

聚合模块404，用于根据目标目录文件，得到查找目录；

加载模块405，用于根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；

确定模块406，用于根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。

在本申请实施例中，传输模块402还可以用于：

获取文件拷贝指令；

在本申请实施例中，传输模块402还可以用于：

根据文件拷贝指令，对目录文件进行拷贝，得到副本文件；

在本申请实施例中，聚合模块404还可以用于：

在本申请实施例中，加载模块405还可以用于：

根据Hadoop分布式文件系统，构建数据仓库管理平台；

在本申请实施例中，确定模块406还可以用于：

构建冷目录查找语句；

由上可知，本实施例的冷目录查找装置有获取模块401，用于确定Hadoop分布式文件系统中主节点的目录文件；传输模块402，用于将目录文件拷贝至转换节点，以使转换节点根据目录文件，得到目标目录文件，转换节点与Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；接收模块403，用于接收转换节点发送的目标目录文件；聚合模块404，用于根据目标目录文件，得到查找目录；加载模块405，用于根据查找目录，构建目录查找文件，目录查找文件用于存储查找目录的基础信息，查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；确定模块406，用于根据预设的冷目录确定要求和查找目录的基础信息，确定目录查找文件中的目标冷目录数。由此，本申请实施例可以根据冷目录查找装置，通过转换节点进行获取目录文件后的格式信息转换操作，因此不会在转换过程中影响到系统正常数据业务数据的实施情况，从而在查找过程中保护了系统的存储数据不被损坏，同时，利用查找目录的基础信息，对目录进行分类，以实现根据查找条件快速定位对应类别冷目录的效果。

图5为本申请实施例提供的电子设备的结构示意图。如图5所示，该电子设备50包括：

该电子设备50可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、网络接口503等部件。其中，处理器501、存储器502以及网络接口503通过总线504连接。

在具体实现过程中，至少一个处理器501执行存储器502存储的计算机执行指令，使得至少一个处理器501执行如上的冷目录查找方法。

处理器501的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图5所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-volatile Memory，NVM)，例如至少一个磁盘存储器。

网络接口可以是无线网络接口或有线网络接口，该网络接口通常用于在电子设备与其他电子设备之间建立通信连接。例如，网络接口用于通过网络将电子设备与外部终端相连，在电子设备与外部终端之间的建立数据传输通道和通信连接等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

在一些实施例中，还提出一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述任一种冷目录查找方法中的步骤。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于任一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种冷目录查找方法中的步骤。

其中，该存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种冷目录查找方法中的步骤，因此，可以实现本申请实施例所提供的任一种冷目录查找方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种冷目录查找方法，其特征在于，应用于Hadoop分布式文件系统，所述方法包括：

确定所述Hadoop分布式文件系统中主节点的目录文件；

将所述目录文件拷贝至转换节点，以使所述转换节点根据所述目录文件，得到目标目录文件，所述转换节点与所述Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；

接收所述转换节点发送的目标目录文件；

根据所述查找目录，构建目录查找文件，所述目录查找文件用于存储所述查找目录的基础信息，所述查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；

根据预设的冷目录确定要求和所述查找目录的基础信息，确定所述目录查找文件中的目标冷目录数。

2.根据权利要求1所述的方法，其特征在于，在所述将所述目录文件拷贝至转换节点，以使所述转换节点根据所述目录文件，向所述Hadoop分布式文件系统发送对应的目标目录文件之前，所述方法还包括：

获取文件拷贝指令；

根据所述文件拷贝指令，确定转换节点的配置文件，所述配置文件为所述转换节点名称与IP地址之间的映射文件，所述配置文件用于所述转换节点与所述Hadoop分布式文件系统中主节点之间的通信连接；

将所述配置文件配置到所述Hadoop分布式文件系统中主节点，以完成将所述目录文件拷贝至转换节点，以使所述转换节点根据所述目录文件，向所述Hadoop分布式文件系统发送对应的目标目录文件的步骤。

3.根据权利要求1所述的方法，其特征在于，所述将所述目录文件拷贝至转换节点，以使所述转换节点根据所述目录文件，向所述Hadoop分布式文件系统发送对应的目标目录文件，包括：

根据文件拷贝指令，对所述目录文件进行拷贝，得到副本文件；

将所述副本文件传输至所述转换节点，以使所述转换节点根据所述副本文件，确定所述副本文件的基础信息，并根据文件反序列化指令，将所述副本文件的基础信息进行转换，得到目标目录文件，所述副本文件的基础信息包括文件修改日期、数据块大小、用户名称。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标目录文件，得到查找目录，包括：

遍历所述Hadoop分布式文件系统，确定所述Hadoop分布式文件系统中目标目录文件中的各个目录；

根据所述目标目录文件中的各个目录的名称，对所述目标目录文件中的各个目录进行聚合处理，得到查找目录。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标目录文件中的各个目录的名称，对所述目标目录文件中的各个目录进行聚合处理，得到查找目录，包括：

读取所述目标目录文件中各个目录下的分支目录，确定各个分支目录的目录名称、以及对应的文件数；

根据各个分支目录的目录名称，确定目标分支目录，所述目标分支目录为目录名称相同的分支目录；

根据所述目标分支目录的文件数，对所述目标分支目录进行合并，得到查找目录、以及所述查找目录对应的文件数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述查找目录，构建目录查找文件，包括：

确定所述查找目录、以及所述查找目录的基础信息；

根据所述Hadoop分布式文件系统，构建数据仓库管理平台；

将所述查找目录、以及所述查找目录的基础信息写入所述数据仓库管理平台，得到所述目录查找文件。

7.根据权利要求1所述的方法，其特征在于，所述根据预设的冷目录确定要求和所述查找目录的基础信息，确定所述目录查找文件中的目标冷目录数，包括：

构建冷目录查找语句；

根据预设的冷目录确定要求和所述查找目录的基础信息，确定冷目录预设的冷目录确定要求中的冷目录最近被访问日期、以及所述查找目录中各个目录的目录访问日期；

根据所述冷目录查找语句，比对所述冷目录最近被访问日期和所述查找目录中各个目录的目录访问日期；

确定所述查找目录中目录访问日期小于所述冷目录最近被访问日期的目录，生成冷目录列表、以及冷目录列表基础信息；

根据所述冷目录列表和所述冷目录列表基础信息，确定冷目录的类型、以及所述冷目录的类型对应的冷目录数，所述冷目录的类型包括Hadoop分布式文件系统对应的冷目录、各用户名称对应的冷目录、冷目录列表中每个目录对应的历史冷目录；

接收用户查找指令，以使所述Hadoop分布式文件系统根据所述用户查找指令，从所述冷目录列表中确定目标冷目录、以及所述目标冷目录数。

8.一种冷目录查找装置，其特征在于，包括：

传输模块，用于将所述目录文件拷贝至转换节点，以使所述转换节点根据所述目录文件，得到目标目录文件，所述转换节点与所述Hadoop分布式文件系统中各节点不同、且不在Hadoop分布式文件系统中；

接收模块，用于接收所述转换节点发送的目标目录文件；

聚合模块，用于根据所述目标目录文件，得到查找目录；

加载模块，用于根据所述查找目录，构建目录查找文件，所述目录查找文件用于存储所述查找目录的基础信息，所述查找目录的基础信息包括目录内容、文件数量、文件大小、用户名称、目录访问日期、目录修改日期；

确定模块，用于根据预设的冷目录确定要求和所述查找目录的基础信息，确定所述目录查找文件中的目标冷目录数。

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至7中任一项所述的冷目录查找方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的冷目录查找方法。