CN107479994A

CN107479994A - 一种基于分布式软件系统的日志文件处理方法、装置

Info

Publication number: CN107479994A
Application number: CN201610399565.0A
Authority: CN
Inventors: 张鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2017-12-15

Abstract

本申请公开了一种基于分布式软件系统的日志文件处理方法、装置，包括：获取每个服务器当前输出的日志文件，得到日志文件列表；利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，所述过滤条件包括用以判断日志文件是否与异常事件相关的条件；输出与异常事件相关的故障日志以便进行故障分析和解决。解决现有的日志分析、问题定位和故障解决的难度大的问题。

Description

一种基于分布式软件系统的日志文件处理方法、装置

技术领域

本申请属于互联网技术领域，具体地说，涉及一种基于分布式软件系统的日志文件处理方法、装置。

背景技术

随着云计算的发展，分布式软件可以运行在不同的服务器上时，因此所面临的运行环境更加复杂，此时可能会出现各种各样的故障。

通常，分布式软件输出后,当软件出现故障时，软件开发人员由于不方便连接线上服务器,需要现场人员协助根据日志文件对软件故障进行定位,但是，现场人员不熟悉软件的情况下无法定位错误日志，通常是现场人员登录到各个服务器上收集所有的日志文件给软件开发人员,由软件开发人员进行远程定位故障。

但是，收集的日志文件中既含有正常情况的日志信息,又含有异常情况的日志信息且在分布式部署的软件中，日志文件分布在不同的服务器,日志文件的信息记录量级较重，增加了日志分析、问题定位和故障解决的难度。

发明内容

有鉴于此，本申请提供一种基于分布式软件系统的日志文件处理方法、装置，可以解决现有的日志分析、问题定位和故障解决的难度大的问题。

为了解决上述技术问题，本申请第一方面提供一种基于分布式软件系统的日志文件处理方法，包括：

获取每个服务器当前输出的日志文件，得到日志文件列表；

利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，所述过滤条件包括用以判断日志文件是否为异常日志的条件；

输出异常日志以便进行故障分析和解决。

可选地，所述预设的过滤条件包括第一过滤条件或第二过滤条件，则利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，包括：

利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表，所述第一过滤日志文件列表中的日志文件与异常事件相关；或者

利用第二过滤条件对所述日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第二过滤日志文件列表，所述第二过滤日志文件列表中的日志文件与异常事件相关。

可选地，所述预设的过滤条件包括第一过滤条件和第二过滤条件，则利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，包括：

利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表，所述第一日志文件列表中的日志文件与异常事件相关；

利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第三过滤日志文件列表，所述第三过滤日志文件列表中的日志文件与异常事件的相关度大于第一过滤日志文件列表中的日志文件与异常事件的相关度。

可选地，所述第一过滤条件包括预设的异常事件重复次数，则利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理包括：

根据所述日志文件列表中的日志文件，确定每个日志文件对应的异常事件；

根据每个日志文件对应的异常事件，若存在相同异常事件，且所述相同异常事件的次数大于等于预设的异常事件重复次数，则将所述相同异常事件对应的日志文件确定为与异常事件相关，并添加到所述第一过滤日志文件列表中，将不符合预设的异常事件重复次数的日志文件过滤掉。

可选地，所述第二过滤条件包括预设的日志频度阈值，则利用第二过滤条件对所述日志文件列表中的日志文件进行第二过滤处理包括：

计算所述日志文件列表中的每个日志文件的频度，若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关，并添加到所述第二过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

可选地，所述第二过滤条件包括预设的日志频度阈值，则利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理包括：

计算所述第一过滤日志文件列表中每个日志文件的频度，若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关较大，并添加到所述第三过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

可选地，所述预设的日志频度阈值包括根据所述日志文件列表中每个日志文件的频度计算的频度均值。

可选地，所述预设的日志频度阈值包括根据所述第一过滤日志文件列表中每个日志文件的频度计算的频度均值。

可选地，计算所述日志文件列表中每个日志文件的频度，包括：

根据预设日志文件相似度阈值，将所述日志文件列表中每个日志文件与日志文件数据库中的所有日志文件进行相似度比较；

根据所述日志文件数据库中存在与所述日志文件的相似度大于等于所述相似度阈值的日志文件的个数，确定所述日志文件的频度。

可选地，计算所述第一日志文件列表中每个日志文件的频度，包括：

根据预设日志文件相似度阈值，将所述第一日志文件列表中每个日志文件与日志文件数据库中的所有日志文件进行相似度比较；

可选地，所述的方法还包括：

根据日志文件数据库中的历史日志文件，将所述历史日志文件中与正常事件相关的日志文件添加到正常日志文件列表中，将与异常事件相关的日志文件添加到异常日志文件列表中；

确定正常日志文件列表中每个日志文件的特征点，得到正常日志文件特征点集合，确定异常日志文件列表中每个日志文件的特征点，得到异常日志文件特征点集合。

可选地，利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理包括：

确定所述日志文件列表中的每个日志文件的特征点；

与所述异常日志文件特征点集合进行匹配，若匹配一致，则将与所述异常日志文件特征点集合匹配一致的日志文件确定与异常事件相关的日志文件；

与所述正异常日志文件特征点集合进行匹配，若匹配一致，则将与所述正常日志文件特征点集合匹配一致的日志文件过滤掉。

本发明第二方面提供一种基于分布式软件系统的日志文件处理装置，包括：

获取模块，用于获取每个服务器当前输出的日志文件，得到日志文件列表；

过滤模块，用于利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，所述过滤条件包括用以判断日志文件是否为异常日志的条件；

输出模块，用于输出异常日志以便进行故障分析和解决。

可选地，所述预设的过滤条件包括第一过滤条件或第二过滤条件，则所述过滤模块具体用于：

可选地，所述预设的过滤条件包括第一过滤条件和第二过滤条件，则所述过滤模块具体用于：

可选地，所述第一过滤条件包括预设的异常事件重复次数，则所述过滤模块具体用于：

可选地，所述第二过滤条件包括预设的日志频度阈值，则所述过滤模块具体包括：

计算单元，用于计算所述日志文件列表中的每个日志文件的频度；

过滤单元，用于若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关，并添加到所述第二过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

可选地，所述第二过滤条件包括预设的日志频度阈值；

所述计算单元，还用于计算所述第一过滤日志文件列表中每个日志文件的频度；

所述过滤单元，还用于若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关较大，并添加到所述第三过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

可选地，所述计算单元具体用于：

本发明实施例中通过获取每个服务器当前输出的日志文件，得到日志文件列表；利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，所述过滤条件包括用以判断日志文件是否与异常事件相关的条件；输出与异常事件相关的故障日志以便进行故障分析和解决，可以快速定位故障日志，从而提高问题解决效率；而且不需要预先收集所有服务器的日志文件,降低了时间成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1-1是本申请实施例的一种基于分布式软件系统的日志文件处理方法的原理设计图；

图1是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图2是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图3是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图4是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图5是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图6是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；

图7是本申请实施例的一种基于分布式软件系统的日志文件处理装置的结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

通常，软件系统在运行时会将软件的运行状态信息输出到日志文件,在日志文件中记录软件的运行过程。软件系统在运行中会有各种的异常情况发生,通过分析后台的日志文件可以进行问题的定位、分析和解决。

但是，当软件发生问题时,一种解决方案是需要登录到各个服务器上查看日志文件,条目较多,时间成本较高,因为有时候只有一台服务器上的日志文件记录了问题发生时的过程信息；另一种较为通用的解决方案是各个服务器预先将日志文件输出到一个统一的日志收集系统,问题发生时可以在这个系统上统一查看日志文件。但是，若通过日志收集系统预先收集日志文件，通常日志文件中既含有正常情况的日记记录,又含有异常情况的日志记录,另外，在分布式部署的软件中，日志文件分布在不同的服务器,增加了日志分析、问题定位和解决的难度。

因此，现有技术的软件问题定位方法中存在时间成本较高和难度较大的问题，为了解决现有技术的问题，本发明的技术方案中不需要预先收集所有服务器的日志文件,降低时间成本；并且还可以对日志进行分类,过滤与异常事件不相关的日志文件，直接导出与异常事件相关的日志文件,即便对所运行的软件不熟悉,也可以通过该方法快速定位问题.提高问题解决效率。

需要说明的是，本发明下文中所述的日志文件具体可以等同于日志记录。

图1-1是本申请实施例的一种基于分布式软件系统的日志文件处理方法的原理设计图，图1是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图，如图1-1和图1所示，包括：

101、获取每个服务器当前输出的日志文件，得到日志文件列表；

本发明实施例中，可以根据各服务器上存储的日志文件大小，检测各个服务器上当前输出的的日志文件，具体实现时，可以根据文件指针的位置进行检测，例如初始时从文件尾输出，每次输出前记录当前文件位置(文件指针移动)，若输出出错，则回退文件指针，等待下一次输出；又例如在类unix操作系统中使用tail工具进行检测。

分布式环境下，通常同一软件部署在多台服务器，问题排查需要逐一排查各个服务器，过程繁琐效率低下。这里，可以利用ssh等同功能工具远程管理服务器，将多个服务器上的日志文件拉取到一个地方，归并后排查，提高效率，不需要远程登录到服务器上(注意，这里是要对多个服务器上的文件做合并和排序操作，原本需要登录3个服务器逐一排查，现在只要在本地看一份文件就好)。

具体地，日志文件的检测可以通过ssh远程命令执行。其中，ssh远程命令例如为如下：

102、利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理；

其中，所述过滤条件包括所有用以判断日志文件是否为异常日志的条件；

具体实现时，根据预设的过滤条件对日志文件列表中的每个日志文件进行过滤判断，若符合过滤条件，则将符合过滤条件的日志文件确定为与正常事件相关的日志文件予以过滤掉；若不符合过滤条件，则将不符合过滤条件的日志文件确定为与异常事件相关的日志文件不予以过滤。

103、输出异常日志以便进行故障分析和解决。

将不予过滤的与异常事件相关的日志文件确定为异常(故障)日志进行输出，以便进行故障分析和解决。

图2是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；如图2所示，包括：

201、获取每个服务器当前输出的日志文件，得到日志文件列表；

步骤201的具体实现可以参考图1所示实施例中的步骤101，具体不再赘述。

202、利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表；

其中，所述第一过滤日志文件列表中的日志文件与异常事件相关；

在一种可选的实施方式中，所述第一过滤条件包括预设的异常事件重复次数，则步骤202具体实现时包括：

举例来说，获取到指定服务器列表中的日志文件集后，要对这些日志文件进行合并操作，并且按照日志记录的时间顺序排序，这样分布式日志信息合并到一个文件中。第一过滤条件指的是异常(软件故障)事件的重复次数，可由操作人员在现场复现指定次数的故障事件。故障事件发生，相应的日志文件中会增加相关的日志记录，日志记录表明了事件发生过程。例如这里使故障重复发生三次，那么这些输出的日志文件中，重复三次的日志记录就是和这次事件相关的日志记录。此时捕捉到的日志记录中故障事件发生过程的相关信息；

注意这里是对若干服务器上的日志文件做了合并排序处理，此时拿到一个处理后的大文件，另外应该是根据事件的发生次数，确认文件中重复相同次数的日志记录。这些日志记录是和故障事件相关的，也就是根据重复发生的故障事件，定位到和该事件相关的日志文件。

根据每个日志文件对应的异常事件，若存在相同异常事件，且所述相同异常事件的次数大于等于预设的异常事件重复次数，则将所述相同异常事件对应的日志文件确定为与异常事件相关，并添加到所述第一过滤日志文件列表中，将不符合预设的异常事件重复次数的日志文件确定为不与异常事件相关而予以过滤掉。

203、输出与异常事件相关的第一过滤日志文件列表，以便进行故障分析和解决。

本发明实施例中通过获取每个服务器当前输出的日志文件，得到日志文件列表；利用预设的第一过滤条件，对所述日志文件列表中的日志文件进行过滤处理得到第一过滤日志文件列表；输出与异常事件相关的第一过滤日志文件列表，以便进行故障分析和解决，可以快速定位故障日志，从而提高问题解决效率；而且不需要预先收集所有服务器的日志文件,降低了时间成本。

需要说明的是，本发明实施例下文中所述的日志文件数据库是指从各服务器上获取的所有日志文件(全量日志文本)。

图3是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图；如图3所示，包括：

301、获取每个服务器当前输出的日志文件，得到日志文件列表；

步骤301的具体实现可以参考图1所示实施例中的步骤101，具体不再赘述。

302、利用第二过滤条件对所述日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第二过滤日志文件列表；

其中，所述第二过滤日志文件列表中的日志文件与异常事件相关

在一种可选的实施方式中，所述第二过滤条件包括预设的日志频度阈值，具体地，这里的日志频度阈值的设置例如可以为根据所述日志文件列表中每个日志文件的频度计算的频度均值，则步骤302具体实现时包括：

计算所述日志文件列表中的每个日志文件的频度，若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关，并添加到所述第二过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。需要说明的是，这里的日志文件的频度即是日志记录的频度，即某条日志记录重复出现的频度，具体计算时，首先计算日志记录的重复出现次数(不一定完全相同，可事先指定文本相似度，例如单词统计结果，即相似比较)，之后获取全文日志记录，计算全文日志记录中该日志记录重复出现次数，二者比值即为该条日志记录的频度。

具体地，上述计算所述日志文件列表中每个日志文件的频度包括：

根据预设日志文件相似度阈值(该阈值用于判定两条日志记录是否被认为是同一条，即指代两条文本的相似度，阀值使用时可以灵活设定)，将所述日志文件列表合并、排序后产生的日志集中的每条日志记录与日志文件数据库(该数据库可以是指定的多台服务器上，获取的日志文件全文中，日志记录的集合)中的所有日志文件进行相似度比较；根据所述日志文件数据库中存在与所述日志文件的相似度大于等于所述相似度阈值的日志文件的个数，确定所述日志文件的频度。

需要说明的是，在实际应用中，在计算开始前，上述的日志文件列表是从各个服务器上抓取的日志文件，且合并成为一个日志记录按时间排序的文件。

需要说明的是，上述日志文件的频度相当于日志记录的频度，其中日志文件相似度阈值的最大值例如可以设置为100，意思是两条日志记录完全相同，才认为该日志记录重复出现，若低于100，则容忍两条日志记录存在一定程度的差异，使用时可灵活设定。

举例来说，将日志文件与日志文件数据库中的每个日志文件一一进行相似度比较，若两条日志的相似度大于等于预设的相似度阈值，则确定该两条日志是相同或相似的，则该将该日志文件的频度加1，直到将该日志文件与日志文件数据库中的所有日志文件的相似度比较完毕时，将日志文件数据库中与日志文件相同或相似的日志文件的个数确定为该日志文件的频度flog，从而可以得到与日志文件列表对应的日志频度列表[flog n]，其中，日志频度列表[flog n]的大小是N。

这里，可以将频度均值(Σflogn/N)设置为日志频度阈值,从而将日志文件列表中的日志文件分为低于频度均值D_low的日志文件和高于频度均值的D_high的日志文件，其中，高于频度均值的D_high的日志文件就是异常事件相关的故障日志。

303、输出与异常事件相关的第二过滤日志文件列表，以便进行故障分析和解决。

其中，第二过滤日志文件列表中就是高于日志频度阈值(如频度均值)的D_high的日志文件，输出高于日志频度阈值(如频度均值)的D_high的日志文件就是输出异常事件相关的故障日志(错误log)。

本发明实施例中通过获取每个服务器当前输出的日志文件，得到日志文件列表；利用预设的第二过滤条件，对所述日志文件列表中的日志文件进行过滤处理得到第二过滤日志文件列表；输出与异常事件相关的第二过滤日志文件列表，以便进行故障分析和解决，可以快速定位故障日志，从而提高问题解决效率；而且不需要预先收集所有服务器的日志文件,降低了时间成本。

图4是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图，如图4所示，包括：

401、获取每个服务器当前输出的日志文件，得到日志文件列表；

步骤401具体实现时可以参考图1所示实施例中步骤101，此处不再赘述。

402、利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表；

其中，所述第一日志文件列表中的日志文件与异常事件相关；

步骤402在具体实现时可以参考图2所示实施例中步骤202，此处不再赘述。

403、利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第三过滤日志文件列表；

其中，所述第三过滤日志文件列表中的日志文件与异常事件的相关度大于第一过滤日志文件列表中的日志文件与异常事件的相关度。

在一种可选的实施方式中，所述第二过滤条件包括预设的日志频度阈值，具体地，这里的日志频度阈值的设置例如可以为根据所述第一过滤日志文件列表中每个日志文件的频度计算的频度均值，则步骤403具体实现时包括：

具体地，上述计算所述第一日志文件列表中每个日志文件的频度包括：

根据预设日志文件相似度阈值，将所述第一日志文件列表中每个日志文件与日志文件数据库中的所有日志文件进行相似度比较；根据所述日志文件数据库中存在与所述日志文件的相似度大于等于所述相似度阈值的日志文件的个数，确定所述日志文件的频度。

404、输出与异常事件相关的第三过滤日志文件列表，以便进行故障分析和解决。

其中，第三过滤日志文件列表中就是高于日志频度阈值(如频度均值)的D_high的日志文件，输出高于日志频度阈值(如频度均值)的D_high的日志文件就是输出异常事件相关的故障日志(错误log)。

本发明实施例中通过获取每个服务器当前输出的日志文件，得到日志文件列表；首先利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表，缩小了故障日志范围；其次再利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第三过滤日志文件列表，进一步缩小了故障日志范围；最后输出与异常事件相关的第三过滤日志文件列表，以便进行故障分析和解决，可以快速且精确地定位故障日志，从而提高问题解决效率；而且不需要预先收集所有服务器的日志文件,降低了时间成本。

图5是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图，如图5所示，包括：

501、获取每个服务器当前输出的日志文件，得到日志文件列表；

步骤501具体实现时可以参考图1所示实施例中步骤101，此处不再赘述。

502、确定所述日志文件列表中的每个日志文件的特征点；

503、判断是否与异常日志文件特征点集合匹配一致；若匹配一致，则执行步骤504，否则执行步骤505；

在可选的实施方式中，在步骤503之前包括：

根据日志文件数据库中的历史日志文件，将所述历史日志文件中与正常事件相关的日志文件添加到正常日志文件列表中，将与异常事件相关的日志文件添加到异常日志文件列表中；进一步地，确定正常日志文件列表中每个日志文件的特征点，得到正常日志文件特征点集合，确定异常日志文件列表中每个日志文件的特征点，得到异常日志文件特征点集合。其中，异常日志文件特征点例如可以是上述第一过滤条件的特征点，即利用故障事件的重复次数，寻找日志文件中有相同重复次数的日志记录。需要说明，在数据模块抓取各服务器的日志后，将这些日志文件合并、按时间排序后，得到一个日志记录按序的大日志文件，其中单一的日志记录表现形式可以为文件或者其他。

其中，判断是否与异常日志文件特征点集合匹配一致时，例如，根据日志文件的特征点，假设与异常日志文件特征点集合中相同或相似的特征点的个数大于等于预设的匹配一致的个数阈值，则确定与异常日志文件特征点集合匹配一致，否则确定匹配不一致。

504、将与所述异常日志文件特征点集合匹配一致的日志文件确定为与异常事件相关的故障日志进行输出；

505、判断是否与正常日志文件特征点集合匹配一致，若是，则执行步骤506，否则执行步骤507；

其中，判断是否与正异常日志文件特征点集合匹配一致，例如，根据日志文件的特征点，假设与正常日志文件特征点集合中相同或相似的特征点的个数大于等于预设的匹配一致的个数阈值，则确定与正常日志文件特征点集合匹配一致，否则确定匹配不一致。

506、将与所述正常日志文件特征点集合匹配一致的日志文件过滤掉。

需要说明的是，假设日志文件的特征点既不与异常日志文件特征点集合匹配一致，也不与正常日志文件特征点集合匹配一致时，在本发明实施例中，可以根据上文中图2-图4中任一实施例所述的过滤条件，对所述日志文件列表中的日志文件进行过滤处理。

假设本发明实施例中根据图4所示实施例所述的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，则本实施例还包括下述步骤：

507、利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表；

508、利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理，得到过滤后的第三过滤日志文件列表；

509、输出与异常事件相关的第三过滤日志文件列表，以便进行故障分析和解决。

其中，步骤507-509可以参考图4所示实施例中步骤402-404，此处不再赘述。

下面通过具体实现方式对本发明的技术方案的具体实现进行详细的说明。

图6是本申请实施例的一种基于分布式软件系统的日志文件处理方法的流程示意图，如图6所示，包括：

601、获取每台服务器上当前输出的的日志文件；

例如，根据指定服务器列表和日志路径，获取服务器列表中每台服务器上输出的的日志文件。

602、对获取的的日志文件根据日志时间信息进行排序合并得到日志文件列表；

603、根据事件重复次数是否过滤日志文件，若是则执行步骤步骤604，否则执行步骤605；

步骤603是第一次过滤处理，例如，在操作端(由现场人员复现故障事件，软件带有控制台，即在控制台界面中重复操作)复现n次故障(问题)事件，则count_int＝n，若步骤602中获取的日志文件列表(事件log集)中，单条日志文件重复出现的次数记作Clog，那么：

If Clog mod n！＝0:

Cont inue；

过滤掉模数不为0的日志文件。

当故障事件重复n次，合并排序后的日志文件中找到同样重复出现n次的日志记录，那么这里假定该日志文件和故障事件是相关的，可以通过该日志文件排查软件执行过程；日志记录重复次数和故障事件重复次数相同，即为故障事件相关日志，是需要收集的，即过滤掉模数不为0的日志记录。

604、将不符合重复次数的日志文件过滤掉；

根据故障事件的重复次数对日志文件进行分类，即将不符合重复次数的日志文件过滤掉。

605、是否将符合重复次数的日志文件进行第二次过滤处理，若是则执行步骤606，否则直接输出结果到操作终端；

假设将符合重复次数的日志文件不进行第二次过滤处理，则将没有过滤掉的、符合重复次数的日志文件直接输出到终端并结束流程。

606、获取服务器上指定日志全文；

如果是第一过滤条件，获取的日志是从原日志尾到全部事件结束后的这部分日志文件，即类unix操作系统tail–f的输出。如果是第二过滤条件，获取的日志是指服务器上存储的日志文件全文。

607、根据日志相似度阈值，计算每条日志文件的频度；

这里的每条日志是指上述步骤604没有过滤掉的、符合重复次数的日志文件(相当于上文实施例中所述的第一过滤的日志文件列表中的日志文件)。

要计算每条日志文件的频度flog，为此要获取获取服务器上的日志全文。另外，因为是根据日志文件的频度进行第二次过滤处理，所以判断日志是否是同一条日志并非是简单地进行字符串的相等比较，而是用相似度比较，其中，相似度比较例如可用单词重复率或者日志单词序列进行比较。例如，把一条日志记录看作字符串，比较两条记录间的单词集合，两个集合单词的比值就是相似度，或者可以考虑单词出现次数或单词顺序，从而可以得日志频度列表[flog n]，其中日志频度列表[flog n]的大小(s ize)是N。

608、根据频度均值将日志文件分为低频Dlow的日志文件和高频Dhigh的日志文件；

根据频度均值(Σflogn/N),将上述步骤604没有过滤掉的、符合重复次数的日志文件分成两类：低于频度均值的D_low和高于频度均值的D_high；

609、输出D_high下的日志文件到终端。

输出D_high下的日志文件即为异常事件相关的错误日志文件(log)，并结束。

图7是本申请实施例的一种基于分布式软件系统的日志文件处理装置的结构示意图，需要说明的是，为了不需要预先收集所有服务器的日志文件,降低了时间成本，本发明实施例所述的装置可以部署在每台服务器上执行，不需要依赖分布式软件系统中的其他模块，独立部署，或作为独立组建部署在云环境中，容易部署，可用脚本语言实现，不需要额外的容器支持，不需要预先收集日志记录，易操作，不需要逐个登录到服务器上排查问题，可以将问题集中处理，如图7所示，所述装置包括：

获取模块71，用于获取每个服务器当前输出的日志文件，得到日志文件列表；在实际应用中，此时单一日志文件中所记录内容是故障时间发生时间段内的日志记录，为此，获取模块取得日志文件列表后需要将其合并为一个大的日志，并且对其中日志记录按时间排序；

过滤模块72，用于利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，所述过滤条件包括用以判断日志文件是否与异常事件相关的条件；

输出模块73，用于输出与异常事件相关的异常日志以便进行故障分析和解决。

其中，所述预设的过滤条件包括第一过滤条件或第二过滤条件，则所述过滤模块72具体用于：

当所述预设的过滤条件包括第一过滤条件和第二过滤条件，则所述过滤模块72具体用于：

当所述第一过滤条件包括预设的异常事件重复次数，则所述过滤模块72具体用于：

当所述第二过滤条件包括预设的日志频度阈值，则所述过滤模块具体包括：

计算单元721，用于计算所述日志文件列表中的每个日志文件的频度；

过滤单元722，用于若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关，并添加到所述第二过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

其中，当所述第二过滤条件包括预设的日志频度阈值；

所述计算单元721，还用于计算所述第一过滤日志文件列表中每个日志文件的频度；

所述过滤单元722，还用于若所述计算的频度小于等于预设的日志频度阈值，则将频度小于等于所述日志频度阈值的日志文件确定为与异常事件相关较大，并添加到所述第三过滤日志文件列表中，将频度大于所述日志频度阈值的日志文件过滤掉。

可选地，所述预设的日志频度阈值包括根据所述日志文件列表中每个日志文件的频度计算的频度均值；或者

可选地，所述计算单元721具体用于：

图7所示装置可以执行图1-图6所示实施例所述的方法，实现原理和技术效果不再赘述，可以参考上述实施例中的相关描述。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于分布式软件系统的日志文件处理方法，其特征在于，包括：

获取每个服务器输出的日志文件，得到日志文件列表；

输出异常日志以便进行故障分析和解决。

2.根据权利要求1所述的方法，其特征在于，所述预设的过滤条件包括第一过滤条件或第二过滤条件，则利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述预设的过滤条件包括第一过滤条件和第二过滤条件，则利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理，包括：

利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理，得到过滤后的第一过滤日志文件列表，所述第一过滤日志文件列表中的日志文件与异常事件相关；

4.根据权利要求2或3所述的方法，其特征在于，所述第一过滤条件包括预设的异常事件重复次数，则利用第一过滤条件对所述日志文件列表中的日志文件进行第一过滤处理包括：

5.根据权利要求2所述的方法，其特征在于，所述第二过滤条件包括预设的日志频度阈值，则利用第二过滤条件对所述日志文件列表中的日志文件进行第二过滤处理包括：

6.根据权利要求3所述的方法，其特征在于，所述第二过滤条件包括预设的日志频度阈值，则利用第二过滤条件对第一过滤日志文件列表中的日志文件进行第二过滤处理包括：

7.根据权利要求5所述的方法，其特征在于，所述预设的日志频度阈值包括根据所述日志文件列表中每个日志文件的频度计算的频度均值。

8.根据权利要求6所述的方法，其特征在于，所述预设的日志频度阈值包括根据所述第一过滤日志文件列表中每个日志文件的频度计算的频度均值。

9.根据权利要求5或7所述的方法，其特征在于，计算所述日志文件列表中每个日志文件的频度，包括：

10.根据权利要求6或8所述的方法，其特征在于，计算所述第一日志文件列表中每个日志文件的频度，包括：

11.根据权利要求1所述的方法，其特征在于，还包括：

12.根据权利要求11所述的方法，其特征在于，利用预设的过滤条件，对所述日志文件列表中的日志文件进行过滤处理包括：

确定所述日志文件列表中的每个日志文件的特征点；

13.一种基于分布式软件系统的日志文件处理装置，其特征在于，包括：

输出模块，用于输出异常日志以便进行故障分析和解决。

14.根据权利要求13所述的装置，其特征在于，所述预设的过滤条件包括第一过滤条件或第二过滤条件，则所述过滤模块具体用于：

15.根据权利要求13所述的装置，其特征在于，所述预设的过滤条件包括第一过滤条件和第二过滤条件，则所述过滤模块具体用于：

16.根据权利要求14或15所述的装置，其特征在于，所述第一过滤条件包括预设的异常事件重复次数，则所述过滤模块具体用于：

17.根据权利要求14所述的装置，其特征在于，所述第二过滤条件包括预设的日志频度阈值，则所述过滤模块具体包括：

18.根据权利要求17所述的装置，其特征在于，所述第二过滤条件包括预设的日志频度阈值；

19.根据权利要求17所述的装置，其特征在于，所述预设的日志频度阈值包括根据所述日志文件列表中每个日志文件的频度计算的频度均值。

20.根据权利要求18所述的装置，其特征在于，所述预设的日志频度阈值包括根据所述第一过滤日志文件列表中每个日志文件的频度计算的频度均值。

21.根据权利要求17或19所述的装置，其特征在于，所述计算单元具体用于：

22.根据权利要求18或20所述的装置，其特征在于，所述计算单元具体用于：