CN110489125A

CN110489125A - 文件管理方法和计算机存储介质

Info

Publication number: CN110489125A
Application number: CN201910690276.XA
Authority: CN
Inventors: 侍小欣; 潘林圣
Original assignee: Enyike (beijing) Data Technology Co Ltd
Current assignee: Enyike (beijing) Data Technology Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-22
Anticipated expiration: 2039-07-29
Also published as: CN110489125B

Abstract

本申请实施例公开了一种文件管理方法和计算机存储介质。所述方法包括：获取文件系统中文件的目录信息；根据所述目录信息，获取所述每个目录下的文件的文件类型；按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式；利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理。

Description

文件管理方法和计算机存储介质

技术领域

本申请涉及信息处理领域，尤指一种文件管理方法和计算机存储介质。

背景技术

现今的互联网发展已趋于稳定，各企业的用户量经过了一段时间的累积，也已经维持在了一个比较高的数值。虽然人口红利逐渐退出了互联网的舞台，但相对稳定的活跃用户数量也带来了应用后台数据的指数级增长。基于大数据的用户行为分析和企业数据资产管理势必将成为互联网的下一个风口，针对大数据处理逻辑的准确性测试需求也日趋旺盛。

对于以大数据为基础的应用而言，企业数据除了会使用关系型数据库来进行存储之外，更多的原始数据会依赖非关系型数据库、或者分布式文件系统来进行持久化。Hadoop以其高可靠性、高扩展性和低成本等特点，成为了大数据时代下各个互联网企业的首选分布式文件处理框架。由于分布式文件系统具有高扩展性且没有固定的表结构，基于Hadoop文件的数据校验也相对比较困难，测试人员无法简单地通过SQL语句来完成数据准确性的验证，需要有一定的代码能力来编写测试代码，在Hadoop集群上运行来执行测试。Hadoop原生的MapReduce分布式计算框架，是面向大数据并行处理的计算模型、框架和平台。通过开发人员自行编写MapReduce代码，可定制各种输入、输出和数据处理的逻辑。数据处理的逻辑高度依赖开发人员的代码实现，并且没有一个相对通用的实现方法。每当有新的数据源接入，需要进行ETL(Extract-Transform-Load，萃取-转置-加载)或者数据准确性验证时，都需要开发和测试人员人工解析数据源的范式，并重新通过代码实现其处理逻辑。

此外，大数据应用通常都会频繁从不同渠道、以各种不同方式来接入不同范式的文件来进行逻辑处理，故针对一种类型编写的测试代码无法做到通用化，每次新的数据接入，测试人员都需要人工解析接入文件的范式，编写新的测试代码来执行数据校验，需要一定的工作量。

发明内容

为了解决上述技术问题，本申请提供了一种文件管理方法和计算机存储介质，能够减少测试的工作量。

为了达到本申请目的，本申请提供了一种文件管理方法，包括：

获取文件系统中文件的目录信息；

根据所述目录信息，获取所述每个目录下的文件的文件类型；

按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式；

利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理。

在一个示例性实施例中，所述根据所述目录信息，获取所述每个目录下的文件的文件类型，包括：

对所述目录信息进行逐层解析，在对某一层目录进行解析时，判断所述目录是否已经解析过，得到判断结果；

如果判断结果为未解析过，则将所述目录作为父目录，查询作为所述父目录的子目录的另一目录下是否有文件，如果有，对查找到的文件进行识别，得到文件的文件类型，并继续将所述另一目录作为父目录进行文件查找，直到所述目录下全部层级的目录查询完为止。

在一个示例性实施例中，所述目录是否已经解析过的操作是通过如下方式的，包括：

在对某一目录解析完成后，在获取的目录信息中增加已解析的标记信息；

在对目录进行解析时，根据所述目录是否配置有对应的已解析的标记信息，确定所述目录是否已经解析过。

在一个示例性实施例中，所述按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，包括：

从每个文件中抽取预设数量的数据，得到每个文件的样本数据；

利用预先设置的至少两个分隔符，分别对所述样本数据进行分割，得到每个分隔符对应的分割结果；

根据所述每个分隔符对应的分割结果，确定与所述文件匹配的文件范式。

在一个示例性实施例中，所述根据所述每个分隔符对应的分割结果，确定与所述文件匹配的文件范式，包括：

在使用每个分隔符分割样本数据后，获取每个分隔符分割后的样本数据的长度；

若所有样本数据能够被单个分隔符分割为相同的长度，则缓存此分隔符和分割后的样本数据长度；

比较所有缓存的分隔符所对应的分割后的样本数据的长度，将分割后的样本数据长度最大时所使用的分隔符和分割后的样本数据作为所述文件对应的文件范式进行保存。

一种计算机存储介质，包括处理器和存储器，其中存储器存储有计算机程序，所述处理器用以调用所述存储器中的计算机程序以实现如下操作，包括：

获取文件系统中文件的目录信息；

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述根据所述目录信息，获取所述每个目录下的文件的文件类型的操作，包括：

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述目录是否已经解析过的操作，包括：

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式的操作，包括：

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现根据所述每个分隔符对应的分割结果，确定与所述文件匹配的文件范式的操作，包括：

本申请提供的实施例，获取文件系统中文件的目录信息，根据所述目录信息，获取所述每个目录下的文件的文件类型，再按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理，实现自动解析文件范式的目的，减少了测试人员的工作量，节省时间，提高工作效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请提供的文件管理方法的流程图；

图2为本申请提供的HDFS目录信息的获取方法的流程图；

图3为本申请实施例提供的解析文件的方法的流程图；

图4为本申请实施例提供的文件抽样方法的示意图；

图5为本申请实施例提供的样本数据的解析方法的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请提供的文件管理方法的流程图。图1所示方法包括：

步骤101、获取文件系统中文件的目录信息；

在一个示例性实施例中，文件系统为集群中的文件系统，或者，为存储系统中文件系统；其中集群可以为Hadoop集群。

步骤102、根据所述目录信息，获取所述每个目录下的文件的文件类型；

在一个示例性实施例中，可以根据所述目录信息，对每层目录下的文件逐一进行文件类型的识别，避免文件遗漏的发生。

步骤103、按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式；

在一个示例性实施例中，在确定文件的类型后，通过识别该文件的文件范式，可以方便后续的文件的管理，利用预设的识别策略，对文件范式进行识别，可以有效提高识别的准确率。

步骤104、利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理。

在一个示例性实施例中，基于文件范式对文件进行测试管理，可以基于文件范式进行测试操作，减少测试前对文件的人工解析工作。

本申请提供的方法实施例，获取文件系统中文件的目录信息，根据所述目录信息，获取所述每个目录下的文件的文件类型，再按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理，实现自动解析文件范式的目的，减少了测试人员的工作量，节省时间，提高工作效率。

下面对本申请实施例提供的方法进行说明：

本申请实施例，通过自动解析Hadoop集群文件目录与内容结构，生成完整的文件范式和目录的映射关系。在面对大数据应用系统中频繁接入的新数据源时，可利用得到的映射关系进行测试，克服现有技术中测试人员人工解析文件范式以重新编写新的测试代码的问题，减少测试人员的工作量，并帮助没有相关代码编写能力的测试人员进行大数据准确性验证测试。

本申请利用使用Java语言，遍历指定HDFS目录下的所有子目录和文件，判断文件格式和分隔符，保存完整的文件范式和目录的映射关系，并可通过接口返回给前端界面，用于后续生成MapReduce测试任务。

图2为本申请提供的HDFS目录信息的获取方法的流程图。如图2所示，所述方法包括：

步骤201、按照预先获取的Base目录，读取目录信息；

步骤202、判断所述Base目录中所述目录是否已经解析过；

在一个示例性实施例中，可以通过在该目录上增加确认标志位用以确认是否已经解析过；

如果是，则跳过当前目录，继续解析下一个目录；否则，执行步骤203；

步骤203、判断所述目录下存储的数据是否为文件；

如果是，则执行步骤204；否则，继续解析下一层目录；

步骤204、解析当前文件，得到解析当前文件的文件配置信息；

步骤205、存储所述当前文件的文件配置信息；

步骤206、判断父目录存在其他待解析目录；

如果是，则进入待解析目录，并执行步骤202至步骤205；否则，执行步骤207；

步骤207、返回上一级目录；

步骤208、判断是否存在其他待解析的目录；

如果是，执行步骤202至步骤205；否则，流程结束。

在图2所示的方法，针对待解析的HDFS目录，遍历目录下的所有子目录和文件，判断文件格式和分隔符，保存完整的文件范式和目录的映射关系。

在获取的目录信息中，增加一个标志位用于记录该目录是否已经完成解析，标志位可以通过0或1来标记；例如，配置1表示已经解析过，0表示未解析过。在解析目录时，通过上述标志位记录的数值，确定该目录是否已经解析过，提高对目录的管理效率。

图3为本申请实施例提供的解析文件的方法的流程图。如图3所示，所示方法包括：

步骤301、获取当前目录下的第一个文件的前5行；

步骤302、判断文件内容是否为乱码；

如果是，则执行步骤303；否则，确定当前文件格式为TXT格式，流程结束；

步骤303、判断文件是否以ORC标记开头；

如果是，则确定该文件的格式为ORC格式；否则，执行步骤304；

步骤304、判断文件是否以SEQ标记开头；

如果是，则确定该文件的格式为SEQ格式，否则，确定该文件为其他类型的文件，流程结束。

在图3所示的方法中，在判断文件类型时，会依据文件内容中是否包含乱码以及乱码在文本中的占比，来判断文件是否为特殊的压缩格式。

在解析文件时，可以采用两种方式：快速解析和抽样解析。

图4为本申请实施例提供的文件抽样方法的示意图。如图4所示，快速解析的方式不执行MapReduce任务，直接读取文件的前10行作为样本来执行后续解析处理，此种方式适合需要在短时间内即可得到解析结果的情况。抽样解析则会执行MapReduce任务，读取完整的文件内容后，从文件的不同位置随机抽取部分样本数据来执行后续解析处理，此种方式的解析准确性比快速解析要高，但执行MapReduce任务需要一定时间。在一个示例性实施例中，所述按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，包括：

图5为本申请实施例提供的样本数据的解析方法的流程图。如图5所示，所示方法包括：

步骤501、读取下一个预设分隔符；

步骤502、使用分隔符分割下一条样本数据；

步骤503、判断分割后数据长度与前一条分割后的样本数据长度是否一致；

如果是，则执行步骤504；否则，执行步骤507；

步骤504、判断是否存在未处理样本数据；

如果是，则执行步骤502；否则，执行步骤505；

步骤505、判断当前分隔符分割的样本数据的长度是否大于上一个分隔符分割的样本数据的长度；

如果是，则执行步骤506，否则，执行步骤507；

步骤506、缓存此分隔符和样本数据范式；

步骤507、判断是否存在未处理的预设分隔符；

如果是，则执行步骤501；否则，执行步骤508；

步骤508、保存最终分隔符和样本数据范式。

在图5所示的方法中，判断文件分隔符时，会使用每一个预设的分隔符，尝试对样本数据进行分割并获取其分割后的长度，并返回最符合当前样本数据的分隔符以及分割后的样本数据范式。其中，预设的分隔符可以为“\u0001”、“,”、“\t”、“|”,“@”、“*”、“:”、“.”或者“^”。

本申请实施例提供的方法，测试人员无需再自行编写每个新数据源的文件内容解析代码，实现自动化解析指定HDFS目录下的所有文件结构范式，减少了测试人员工作量，节省时间，提高工作效率；另外。对于不会编写代码的测试人员，可以通过本方法来解析Hadoop集群文件的内容范式，使得基于大数据的准确性验证更为简单易懂。

本申请实施例提供一种计算机存储介质，包括处理器和存储器，其中存储器存储有计算机程序，所述处理器用以调用所述存储器中的计算机程序以实现如下操作，包括：

获取文件系统中文件的目录信息；

本申请实施例提供的计算机存储介质，获取文件系统中文件的目录信息，根据所述目录信息，获取所述每个目录下的文件的文件类型，再按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，利用所述每个文件的文件范式，对所述文件系统中的文件进行测试管理，实现自动解析文件范式的目的，减少了测试人员的工作量，节省时间，提高工作效率。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种文件管理方法，其特征在于，包括：

获取文件系统中文件的目录信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目录信息，获取所述每个目录下的文件的文件类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述目录是否已经解析过的操作是通过如下方式的，包括：

4.根据权利要求1所述的方法，其特征在于，所述按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个分隔符对应的分割结果，确定与所述文件匹配的文件范式，包括：

6.一种计算机存储介质，其特征在于，包括处理器和存储器，其中存储器存储有计算机程序，所述处理器用以调用所述存储器中的计算机程序以实现如下操作，包括：

获取文件系统中文件的目录信息；

7.根据权利要求6所述的计算机存储介质，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述根据所述目录信息，获取所述每个目录下的文件的文件类型的操作，包括：

8.根据权利要求7所述的计算机存储介质，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述目录是否已经解析过的操作，包括：

9.根据权利要求6所述的计算机存储介质，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述按照每个文件的文件类型，进行文件范式的识别，得到每个目录下每个文件的文件范式的操作，包括：

10.根据权利要求9所述的计算机存储介质，其特征在于，所述处理器调用所述存储器中的计算机程序以实现根据所述每个分隔符对应的分割结果，确定与所述文件匹配的文件范式的操作，包括：