CN104462349A

CN104462349A - 一种文件处理方法及装置

Info

Publication number: CN104462349A
Application number: CN201410738371.XA
Authority: CN
Inventors: 王少佳; 惠润海; 宋怀明
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd; Dawning Information Industry Co Ltd
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2015-03-25
Anticipated expiration: 2034-12-05
Also published as: CN104462349B

Abstract

本发明提供了一种文件处理方法及装置，方法包括：获取多个日志文件的配置信息，配置信息包括日志文件的存储位置和存储级别，存储级别为根据日志文件的生成时间确定；根据存储级别将多个日志文件映射成文件组；当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，并根据日志文件的存储位置获取待分析的日志文件。采用本发明所提供的技术方案，可以提高日志查找分析的速度，解决传统日志分析技术不能适应大数据日志文件处理的技术问题。

Description

一种文件处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文件处理方法及装置。

背景技术

随着大数据的蓬勃发展，各种大数据处理平台(如Hadoop、Xdata并行数据库系统等等)应运而生、各种大数据处理中心拔地而起。这些系统往往在复杂的集群环境中运行，这些运行中的系统都会生成日志信息，随着时间推移这些日志信息会堆积到一种难以想象的程度。

很多日志文件会存储在不同的节点、不同的文件系统，并在存储时部分日志文件会进行压缩。因此，由于这些日志文件是异构存储的，如何对这些日志文件进行快速统一的分析是迫切需要解决的问题。

而目前普通的日志分析技术往往是对某些日志文件进行文本过滤，这种分析方式存在如下问题：

1)对压缩过的文件，或存储在其它文件系统、其他节点的日志文件无能为力；

2)分析速度较慢，因为过滤过程要读取整个文件，这样也就不能处理较大较多的日志信息。

现有技术不足在于：

传统的日志分析技术不能适应大数据、异构存储的日志文件处理，导致很多有意义的日志信息不得不删除或存储起来但再也没有分析过。

发明内容

本发明实施例提出了一种文件处理方法及装置，解决了传统日志分析技术不能适应大数据日志文件处理的技术问题。

本发明实施例提供了一种文件处理方法，包括如下步骤：

获取多个日志文件的配置信息，该配置信息包括日志文件的存储位置和存储级别，存储级别为根据日志文件的生成时间确定；

根据存储级别将多个日志文件映射成文件组；

当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，根据日志文件的存储位置获取待分析的日志文件。

本发明实施例提供了一种文件处理装置，包括：

获取模块，用于获取多个日志文件的配置信息，该配置信息包括日志文件的存储位置和存储级别，存储级别为根据日志文件的生成时间确定；

文件组生成模块，用于根据存储级别将多个日志文件映射成文件组；

分析模块，用于当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，根据日志文件的存储位置获取待分析的日志文件。

本发明实施例所提供的技术方案，通过获取多个日志文件的配置信息并根据存储级别将这些日志文件映射成文件组，可以理解为将多个小文件映射成一个大文件，这样当需要对日志文件进行分析时，就可以根据预先设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，进而根据日志文件的存储位置获取待分析的日志文件，采用本发明实施例所提供的技术方案，在进行日志分析时，不需要读取所有日志文件，大大提高了分析速度。

附图说明

下面将参照附图描述本发明的具体实施例，其中：

图1示出了本发明实施例中文件处理方法实施的流程示意图；

图2示出了本发明实施例中日志文件查找分析的流程示意图；

图3示出了本发明实施例中文件处理装置的结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

本发明实施例提出了一种文件处理方法及装置。下面进行说明。

图1示出了本发明实施例中文件处理方法实施的流程示意图，该文件处理方法可以包括如下步骤：

步骤101、获取多个日志文件的配置信息，该配置信息包括日志文件的存储位置和存储级别，存储级别为根据日志文件的生成时间确定；

步骤102、根据存储级别将多个日志文件映射成文件组；

步骤103、当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，并根据日志文件的存储位置获取待分析的日志文件。

本发明实施例将这些日志文件映射成一个大文件(相比多个日志文件来说)之后，即可对这些日志文件进行查找分析；查找分析时，根据预设时间在不同存储级别的文件组中定位待分析的日志文件，并根据日志文件的存储位置获取待分析的日志文件，从而大大提高了日志分析速度。

实施中，多个日志文件可以为存在一定关系的日志文件，也可以为异构存储的日志文件。

本发明实施例首先获取多个日志文件的配置信息，这些日志文件可以是彼此相关的、或者是异构存储的。这里，异构存储是指一组相关的文件以不同的压缩方式、不同的文件系统、或者在不同的节点上进行存储。其中，相关可以是通过预先定义具有一定规则的文件名来确定，比如：warning(代表告警日志文件)、error(代表报错日志文件)等等，也可以通过判断日志文件是否在同一目录下来确定是否相关，本发明对于文件相关的具体定义不作限制。

下面以一具体实例(包括三个日志文件)进行说明，具体的日志文件的配置信息格式如下所示：

loga.db1.compres＝none

loga.db1.path＝/log/sdh/hdfs-namenode.log{，.[1-9]}

loga.db1.order＝opposite#上述文件路径扩展之后的多个文件的排列顺序

loga.db1.filesystem＝common

loga.db2.compres＝zip

loga.db2.path＝nodename：/bak/log/hdfs-namenode.log.1.zip

loga.db2.order＝opposite#zip文件中包含的多个文件的排列顺序

loga.db2.filesystem＝common

loga.db3.compres＝none

loga.db3.path＝/bak/log/hdfs-namenode.201401.log{，.[1-9]}

loga.db3.order＝opposite#上述文件路径扩展之后的多个文件的排列顺序

loga.db3.filesystem＝hdfs

上述内容表示一组名为loga的日志文件，它包含3个级别的存储，本发明实施例中可以认为级别越高(例如上述内容中db3为最高级别)日志文件中包含的日志越久，其访问花费的时间越长；相反的，级别越低(例如上述内容中db1为最低级别)的日志文件越是最近生成的日志。本发明实施例通过这样的规定方便读取和分析时的优化操作。

loga.db1.path所指为日志文件的路径，loga.db2.path所指的路径为远程节点上的文件；

loga.db1.filesystem表示使用本节点的文件系统，它可能是挂载在本地的网络文件系统(NFS，Network File System)或镜像文件(ISO，Isolation)；而loga.db3.filesystem表示文件存储在分布式文件系统(HDFS，Hadoop DistributeFile System)上，要通过HDFS的客户端库去访问，这个参数要求的内容是可扩充的，以适应支持新的文件系统；

文件路径path往往表示了一组文件，这些文件如何排列才能符合正确的时间顺序是由order参数来指示，例如：loga.db1.order表示的opposite(相反)，是相对于文件中存储的日志的顺序而言的；一般文件中日志的顺序是从小到大的，也即，从前向后阅读文件，时间逐渐增大；而path路径下的文件安装字母排序后时间是从大到小的。

实施中，将多个日志文件映射成文件组，可以包括：生成文件组对象，文件组对象包括所有文件的配置信息以及每个存储级别的配置信息的开始存储位置；利用该文件组对象根据每个存储级别的开始存储位置将不同存储级别的文件的配置信息映射成文件组。

具体实施中，本发明实施例可以生成类FileGroup的对象，利用类FileGroup对象将多个日志文件映射成文件组；

其中，类FileGroup对象可以包括：

fileinfos，用于记录文件组中包含的所有文件的配置信息；

dbLevel，用于记录每个存储级别在fileinfos中开始的存储位置；

presentLevel，用于记录当前使用的存储的最大级别；

files，用于记录所有文件并形成文件列表；

nextDBLevel函数，用于对fileinfos中不同级别的文件的配置信息创建成File对象并加入到files中；

isALLDB函数，用于指示已经加入到files中的文件的位置。

本发明实施例仅以上述类FileGroup对象作为示例，实际操作时本领域技术人员可以根据需要进行相应开发即可，本发明对文件组对象的具体生成方式不作限制。

本发明实施例中在获取到整个配置文件后，可以生成类FileGroup的一个对象，下面示出了类FileGroup的统一建模语言(UML，Unified ModelingLanguage)，如下表所示：

FileGroup继承于类File，File是标准的文件读写的类。

FileGroup中fileinfos记录文件组中包含的所有文件信息，有文件的路径和文件类型；其中，文件的类型用于指导文件的读写，对每个文件的读写也继承于类File。

dbLevel记录每个存储级别在fileinfos中开始的位置；

presentLevel记录当前使用的存储的最大级别，默认为0，表示没有读取任何文件；

nextDBLevel函数每次会把fileinfos中一个级别的文件信息创建成File对象并加入到files中。

本发明实施例在对FileGroup进行读取操作时，当上一个文件读取完时，可以自动到下一个文件中进行读取，并以同样的方式实现seek、tell等函数。

在将异构存储的日志文件映射为一个FileGroup之后，就可以对这个文件组进行分析了，分析方式可以采用现有的文件分析方式。

由于本发明实施例中的文件组有分级存储的概念，可以用来优化分析过程，只有在必要时才读取所有的日志信息。

实施中，可以进一步包括：

将文件组内的日志文件映射成由若干条日志记录组成的日志组；

在不同存储级别的日志组中定位设定的查找时间内的日志文件。

本发明实施例中，将文件组内的日志文件进一步映射成由一条条日志记录组成的日志组，采用这样的文件处理方式，查询效率更高。

实施中，将文件组内的日志文件映射成由若干条日志记录组成的日志组，可以包括：

根据seek函数来获取每条日志记录；

确定该日志记录的开始为时间字符串时，返回该日志记录的seek值。

其中，seek函数可以采用现有技术中的日志记录获取方式，也可以由本领域技术人员根据实际需要进行相应开发即可，比如：有的日志文件是一行一行的、而有的日志文件是一段一段的，本领域技术人员可以根据不同的日志格式进行相应开发，本发明对seek函数的具体内容不作限制。

图2示出了本发明实施例中日志文件查找分析的流程示意图，本发明实施例中具体的seek过程，可以包括如下步骤：

步骤201、开始查找(seek)；

步骤202、设置文件file的seek值，content＝getline()；

其中，getline()函数可以采用现有技术中的获取一行内容的实现方式。具体的，getline()函数可以用于生成一个包含一串从输入流读入的字符的字符串，直到遇到以下情况发生导致生成的此字符串结束：

1)到文件结束；2)遇到函数的定界符；3)输入达到最大限度。

步骤203、判断是否到达文件尾：

如果到达文件尾，则执行步骤206；

如果没有到达文件尾，则执行步骤204；

步骤204、判断内容content是否以时间字符串开头：

如果是以时间字符串开头，则执行步骤206；

如果不是以时间字符串开头，则执行步骤205；

步骤205、刷新变量seek的值，返回步骤202；

步骤206、返回查找结果，也即return seek。

对于每一条日志记录可能包含有多行，由于在实际使用中每条日志都是以时间开始的，因此，本发明实施例规定每条日志包含的多行文本中第一行的开始必须为时间字符串，这样，每条日志就可以以该时间字符串作为分割符。

实施中，配置信息中可以进一步包括日志文件的文件顺序，文件组中的多个日志文件可以为有序排序；定位设定的查找时间内的日志文件可以采用二分查找方式进行定位。

文件组中的日志文件可以按照时间正向排序、也可以按照时间反向排序。在按照时间反向排序时，由于日志文件内的日志记录是按时间由小到大排序的，所以在对文件组读取时就需要按照反向顺序进行。

具体实施中，可以在利用类FileGroup对象将多个日志文件映射成文件组时，fileinfos记录文件组中包含的所有文件的配置信息，并按照时间反向排序；nextDBLevel函数用于对fileinfos中不同存储级别的文件的配置信息创建成File对象并加入到files中，files中的文件顺序与fileinfos中的文件顺序相同。

实施中，二分查找算法可以具体包括：

获取初始的seek1和seek2；

计算中间的seek为getLogSeek((seek1+seek2)/2)；

根据seek所在日志的时间与设定的查找时间的比较结果，调整seek1和seek2；

重复上述步骤，确定大于等于设定的查找时间的日志seek值的位置。

本发明实施例中对于一个文件(组)而言，日志记录是按照时间顺序由小到大进行排列的，因此，在一个文件(组)中查找第一个大于等于某个时间点的日志，可以方便的使用二分查找算法。

二分查找算法首先获取文件开始的seek1(0)、文件结尾的seek2(文件的大小)，这两个参数都是函数的入口参数；然后，计算中间的seek，并获取对应日志的seek＝getLogSeek((seek1+seek2)/2)；进一步比较seek所在的日志的时间与输入的时间的大小。具体的二分查找过程可以参见现有技术中的二分查找算法，在此不作赘述。通过上述方式最终找到第一个大于等于该输入时间的日志seek的位置。

基于同一发明构思，本发明实施例中还提供了一种文件处理装置，由于这些设备解决问题的原理与一种文件处理方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

图3示出了本发明实施例中文件处理装置的结构示意图，如图所示，装置可以包括：

获取模块301，用于获取多个日志文件的配置信息，该配置信息包括日志文件的存储位置和存储级别，存储级别为根据日志文件的生成时间确定；

文件组生成模块302，用于根据存储级别将多个日志文件映射成文件组；

分析模块303，用于当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，根据日志文件的存储位置获取该待分析的日志文件。

实施中，文件组生成模块302可以用于生成包括所有文件的配置信息以及每个存储级别的配置信息的开始存储位置的文件组对象，利用文件组对象根据每个存储级别的开始存储位置将不同存储级别的文件的配置信息映射成文件组。

实施中，可以进一步包括：

日志组生成模块304，用于将文件组内的日志文件映射成由若干条日志记录组成的日志组；

分析模块303可以进一步用于在不同存储级别的日志组中定位设定的查找时间内的日志文件。

实施中，日志组生成模块304可以用于根据seek函数来获取每条日志记录；确定该日志记录的开始为时间字符串时，返回该日志记录的seek值。

实施中，获取模块301可以进一步用于获取包括日志文件的文件顺序的配置信息；文件组生成模块302可以用于将多个日至文件映射成有序排列的文件组；分析模块303可以用于采用二分查找方式定位设定的查找时间内的日志文件。

具体实施中，分析模块303可以用于获取初始的seek1和seek2；计算中间的seek为getLogSeek((seek1+seek2)/2)；根据seek所在日志的时间与设定的查找时间的比较结果，调整seek1和seek2；重复上述步骤，确定大于等于设定的查找时间的日志seek值的位置。

上述实施例中，均可以采用现有的功能元器件模块来实施。例如，获取模块可以是任意一个具备数据获取功能的设备都具备的元器件；至于文件组生成模块、日志组生成模块则可以是任意一个具备数据映射功能的设备都具备的元器件，本领域技术人员经过相应的设计开发即可实现；同时，分析模块进行的定位、获取日志文件等都可以采用现有的技术手段，本领域技术人员经过相应的设计开发即可实现。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本发明实施例可以实现对异构存储的日志文件进行快速分析，当这些日志文件以不同的压缩方式、不同的文件系统或者在不同的节点上进行存储时，本发明实施例可以根据配置信息将这些文件映射成一个大文件，实现对异构存储的日志文件的统一读取；并以类似二分查找的方式在多级存储上进行快速分析，找到一段时间内的日志信息。采用本发明实施例所提供的技术方案，可以提高现有技术中大数据的查询、分析等数据处理操作，提高数据处理效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种文件处理方法，其特征在于，包括如下步骤：

获取多个日志文件的配置信息，所述配置信息包括日志文件的存储位置和存储级别，所述存储级别为根据日志文件的生成时间确定；

根据所述存储级别将所述多个日志文件映射成文件组；

当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，并根据所述日志文件的存储位置获取所述待分析的日志文件。

2.如权利要求1所述的方法，其特征在于，所述将多个日志文件映射成文件组，具体包括：

生成文件组对象，所述文件组对象包括所有文件的配置信息以及每个存储级别的配置信息的开始存储位置；

利用所述文件组对象根据每个存储级别的开始存储位置将不同存储级别的文件的配置信息映射成文件组。

3.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

将所述文件组内的日志文件映射成由若干条日志记录组成的日志组；

4.如权利要求3所述的方法，其特征在于，所述将所述文件组内的日志文件映射成由若干条日志记录组成的日志组，包括：

根据seek函数来获取每条日志记录；

5.如权利要求1至4任一所述的方法，其特征在于，所述配置信息进一步包括日志文件的文件顺序，所述文件组中的多个日志文件为有序排序；所述定位设定的查找时间内的日志文件为采用二分查找方式进行定位。

6.一种文件处理装置，其特征在于，包括：

获取模块，用于获取多个日志文件的配置信息，所述配置信息包括日志文件的存储位置和存储级别，所述存储级别为根据日志文件的生成时间确定；

文件组生成模块，用于根据所述存储级别将所述多个日志文件映射成文件组；

分析模块，用于当需要对日志文件进行分析时，根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件，根据所述日志文件的存储位置获取所述待分析的日志文件。

7.如权利要求6所述的装置，其特征在于，所述文件组生成模块用于生成包括所有文件的配置信息以及每个存储级别的配置信息的开始存储位置的文件组对象，利用所述文件组对象根据每个存储级别的开始存储位置将不同存储级别的文件的配置信息映射成文件组。

8.如权利要求6所述的装置，其特征在于，进一步包括：

日志组生成模块，用于将所述文件组内的日志文件映射成由若干条日志记录组成的日志组；

所述分析模块进一步用于在不同存储级别的日志组中定位设定的查找时间内的日志文件。

9.如权利要求8所述的装置，其特征在于，所述日志组生成模块用于根据seek函数来获取每条日志记录；确定该日志记录的开始为时间字符串时，返回该日志记录的seek值。

10.如权利要求6至9任一所述的装置，其特征在于，所述获取模块进一步用于获取包括日志文件的文件顺序的配置信息；所述文件组生成模块用于将多个日志文件映射成有序排列的文件组；所述分析模块用于采用二分查找方式定位设定的查找时间内的日志文件。