CN110427298B

CN110427298B - 一种分布式日志的自动特征提取方法

Info

Publication number: CN110427298B
Application number: CN201910621475.5A
Authority: CN
Inventors: 玄跻峰; 张玉虎
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-07-16
Anticipated expiration: 2039-07-10
Also published as: CN110427298A

Abstract

本发明涉及软件工程及数据挖掘技术，具体涉及一种分布式日志的自动特征提取方法，包括以下步骤：步骤1、根据时序提取和划分日志数据；步骤2、根据划分日志数据，基于频繁序列挖掘序列规则，构建符合频繁要求的日志特征流；步骤3、将特征流中关键信息的字符串转换为正则表达式；步骤4、输出特征流。该方法简化了人工在日志中寻找程序执行的过程的特征项，实现了特征提取的自动化；基于海量日志数据，建立了软件运行中正确的特征流；JSON文件形式的输出和正则表达式生成便于维护人员的人工的检查和理解。减少人工特征定义的失误；降低频繁修改的人力和时间成本。

Description

一种分布式日志的自动特征提取方法

技术领域

本发明属于软件工程及数据挖掘技术领域，尤其涉及一种分布式日志的自动特征提取方法。

背景技术

现代软件日益复杂，规模日益庞大，导致软件维护成本攀升。分布式及异构软件系统的广泛使用，使得人工的监控软件运行状态和发现运行故障变得极为困难。日志是软件运行时不可或缺的输出形式。为了尽早发现分布式系统的故障所在，减少潜在的宕机风险，大量的分布式系统通过实时的日志输出保存运行时软件状态，为维护人员提供数据基础。

在现代分布式系统中，维护人员可以基于系统输出的日志，人工检查软件运行时状态，发现和分析故障所在。然而，大量的分布式系统保持全天候运行，每天输出海量的日志数据。这使得人工分析全部日志变为不可能。

为了通过日志发现软件运行中出现的故障及潜在风险，维护人员人工定义正确的日志所对应的特征流，并通过将特征流与日志自动匹配的方式，判定日志是否符合特征流。若不符合，则表明软件存在运行故障或潜在风险，可以据此进一步人工分析。然而，维护人员人工定义正确的日志特征是极为耗时和容易出错的，主要的原因是(1)日志本身复杂，人工定义日志特征流容易导致部分细节的丢失；(2)现代软件的持续集成等开发泛型，使得软件版本经常变更，特征流的定义需要频繁更改。基于上面两点原因，人工定义的特征流在实践中仍然会消耗大量的人力和时间成本。

发明内容

本发明拟解决的核心问题是如何自动化的提取日志特征流，降低人工特征提取造成的成本消耗，并避免人工提取造成的特征流的错误。提出的方法是基于海量的具备正确运行行为的日志，自动划分日志事件中的特征项和值，基于该划分提取频繁子序列，进而组合构建特征流。该方法通过频繁数据挖掘的智能技术，自动处理输入的日志，输出特征流；该方法预期降低人工提取的失误风险，并减低人工频繁修改的成本。本发明的方法具有自动化、高效率、高容错、低成本的特点。

本发明的目的是提供一种通过频繁数据挖掘，自动处理输入的日志，输出特征流的方法。

为实现上述目的，本发明采用的技术方案是：一种分布式日志的自动特征提取方法，包括以下步骤：

步骤1、根据时序提取和划分日志数据；

步骤2、根据划分日志数据，基于频繁序列挖掘序列规则，构建符合频繁要求的日志特征流；

步骤3、将特征流中关键信息的字符串转换为正则表达式；

步骤4、输出特征流。

在上述的分布式日志的自动特征提取方法中，步骤1具体实现包括，在原始的日志数据基础上，过滤掉输出程序中的格式化日志部分，并自动划分提取特征项和对应的状态信息，特征项用于后续的序列规则提取。

在上述的分布式日志的自动特征提取方法中，步骤2的实现包括，在序列生成阶段，首先挖掘并生成序列长度为1或2的特征流序列，然后根据序列长度为1或2的特征流序列拼接为更长的特征序列，直至无法找到更长的频繁序列。

在上述的分布式日志的自动特征提取方法中，步骤3的实现包括，将所有的字符串中的字符转换成正则表达式，所有的正则表达式转变成更短的正则表达式；使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。

在上述的分布式日志的自动特征提取方法中，步骤4的实现包括，将序列规则输出到JSON文件，JSON文件用于新的日志文件；如果当前的日志信息匹配JSON文件中的某一项，则日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

一种分布式日志的自动特征提取的系统，包括分布式系统，日志服务器，系统内的工作站；分布式系统将收集的日志文件利用脚本程序将整个日志文件目录打包成压缩文件发送至日志服务器；日志服务器分析日志数据构建日志特征流，并将特征流转换为正则表达式发送到系统内的工作站；系统内的工作站自动匹配和生成关键信息对应的正则表达式。

本发明的有益效果：是将原来的人工特征流提取转换为自动特征流提取，降低了人类提取的失误的风险，并减少了频繁修改的人工成本。关键技术点对应的有益效果描述如下：

(1)简化了人工在日志中寻找程序执行的过程的特征项，实现了特征提取的自动化；

(2)基于海量日志数据，建立了软件运行中正确的特征流；

(3)JSON文件形式的输出和正则表达式生成便于维护人员的人工的检查和理解。

(4)减少人工特征定义的失误；

(5)降低频繁修改的人力和时间成本。

附图说明

图1为本发明一个实施例分布式日志的自动特征提取方法的流程图；

图2为本发明一个实施例特征流提取方法的部署图；

图3为本发明一个实施例事件-特征流提取方法。

具体实施方式

下面结合附图对本发明的实施方式进行详细描述。

本实施例应用的系统架构或场景：

在分布式系统的工作环境下的软件每天会产生大量的日志数据。根据企业架构的不同，分布式系统上的软件产生的日志数据储存的位置也不相同。日志服务器上的日志数据存储着软件的运行状态信息，包括软件的出错信息，软件的正确运行信息，软件的交互信息等。

本方法的应用系统场景如图1所示，主要包括分布式系统1，日志服务器2，系统内的工作站3。在分布式数据存储的服务器的基础上，分析系统产生的数据，提取相应的软件工作的模型。维护人员基于本系统来判断之后程序输出的日志信息之中是否包含错误：若程序相应状态日志信息未包含在已经建立的程序的模型中，说明程序出现了运行时的异常。

在分布式系统中，分布的各个主机节点有主次之分，次节点(agent)实现具体的应用程序的运行。而主节点(master)的则是资源的统一规划和监控次节点，并且实现次节点程序运行时的资源分配和回收。在分布式系统次节点上，程序执行在一个分布式系统程序运行接口的框架上，并且在执行的过程中，框架上执行的程序会将程序的日志输出打印到为当前框架分配资源的主节点的配置的日志保存目录中的文件中。

在日志的收集过程，会利用脚本程序将整个日志文件目录打包成压缩文件，发送至图1中的日志服务器上。在日志服务器上的日志文件会被维护人员查询或处理。本发明的应用场景如图1所示，可以将基于本发明的软件实现配置在图1的系统中。

如图2所示，使用频繁序列挖掘算法对程序在运行时输出的日志进行分析。大致可以分为五个阶段：配置文件设置阶段、数据预处理阶段、序列初步生成阶段、迭代生成阶段、正则表达式转换阶段。

(1)配置文件设置阶段。

最小支持度和最大支持度：模型认为当特征出现频率大于或等于某个阈值时，特征有效；当出现频率过高时，被认为是多余的特征，并被过滤掉。

关键字划分规则：合适的关键字划分不仅可以提高计算速度的，而且不会遗失日志文件的信息。

最终序列的长度：程序输出的序列的长度小于等于这个值。

应用于模式匹配的正则表达式：包含了所有猜测的日志中可能出现的特定的字符串，及其正则表达式。

其它若干配置，在不同场景下优化程序性能的配置项。

(2)数据的预处理阶段是截取日志数据中能够表达程序状态信息的特征项。

模型对于该特征项的处理是根据日志数据的字符串中的特定符号进行特征项的划分，得到序列计算需要的特征项。

(3)序列初步生成阶段是1-频繁项集，2-频繁序列的生成阶段。

在此阶段，程序会直接抽取文件中的所有不同的特征项，在文件中出现的次数大于等于最小支持度的特征项作为一个1-频繁序列，1-频繁序列中不存在相同的两个特征项。在2-频繁序列的生成时，会将1-频繁序列进行全联接以生成2-频繁项集。2-频繁序列在文中出现的次数大于等于最小支持度即是当前的所有的2-频繁项集。

(4)迭代生成阶段是将2-频繁序列作为进行迭代的初始化数据集合生成最终的序列规则。

使用经过现有的方法推理得到的频繁序列的生成规则，利用1-频繁序列与现有的序列进行交叉处理，实现序列的增长。在目标序列的增长过程既可以人为控制迭代的次数，也可以按需自动增长至最长序列。本方法中默认使用的是自动增长到最长的序列。

这个过程的主要目的是根据不同日志序列之间的关联规则建立一个分布式平台的软件执行模型。

(5)正则表达式转换阶段是将日志中关键信息的字符串转换为正则表达式。

使用正则表达式转换所有的字符串中的字符，然后将所有的正则表达式转变成更短的正则表达式，最后使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。本方法将特征项的状态信息转换为正则表达式，以此输出完整通用性的程序状态模型。

本实施例是通过以下技术方案来实现的，一种分布式日志的自动特征提取方法，包括如下核心步骤：

一、自动根据时序提取和划分海量日志数据。

二、基于划分数据，自动执行日志流的频繁子序列挖掘，进而获得高频出现的特征流。

三、将特征流中的关键信息转换为正则表达式。

四、输出全部特征流，供自动使用或供维护人员挑选。

而且，在原始的日志数据基础上，过滤掉输出程序中的格式化日志部分，并自动划分提取特征项和及其对应的状态信息，其中特征项用于后续的序列规则的提取。

而且，在序列生成阶段，首先挖掘并生成序列长度为1或2的特征流序列，然后根据序列长度为1或2的特征流序列自动拼接为更长的特征序列，直至无法找到更长的频繁序列。

而且，使用正则式转换所有的字符串中的字符，然后将所有的正则式转变成更短的正则表达式，最后使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。本方法将特征项的状态信息转换为正则表达式，以此输出完整通用性的程序状态模型。

而且，将序列规则按照输出到JSON文件，该JSON文件将用于在新的日志文件，如果当前的日志信息匹配JSON文件中的某一项，则认为日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

以下是本实施例相对于现有技术的优势比较。

I.一种日志分析方法及系统(CN107564584A)，其核心技术是：在所有的日志数据中进行相应的日志数据分类，根据不同类型的建立一个专家库，专家库的建立根据是工具获得抽取的现象和专家对不同的现象设置不同的结论。其实施方案是：获取目标设备包含程序状态信息的日志文件；收集其中的现象信息(数据事件信息与相应的特征信息的组合)；根据现象信息得到相应的结论。与之对比本发明的优势是：A.自动的特征流提取；B.自动及精细的特征构建。

II.基于Apriori算法的安全日志分析方法(CN108255996A)其核心技术是：使用Apriori算法抽取安全的日志，如果新的日志数据未出现在专家预警库中，则进行预警处理。其实施方案是：使用Apriori算法分析安全日志。根据日志发生的时间、协议类型、攻击类型、端口信息作为算法输入；此方法根据制定的策略和工作经验，设置Apriori算法的最小支持度，并根据支持度和信任度找出满足目标的情况判断日志中的各项关联规则；最后将关联规则加入专家预警库。经对比，本发明的优势是：A.全自动的特征流提取；B.基于时间的智能特征序列构建。

III.基于时间序列的日志分析方法和日志分析装置(CN106407096A)其核心技术涉及两方面：采集策略和分析策略，在采集策略中采集不同类型的日志，在分析策略中获取各种类型的数据之间的关联规则。其实施方案是：配置时间模型(日志类型，不同日志之间基于时间序列的关联关系，关系的分配策略)；根据时间模型进行关联关系分析，得到具体的日志采集策略和日志分析策略；根据采集策略采集不同类型日志的信息，根据分析策略获取不同类型的日志信息的关联关系。经对比，本发明的优势是：A.不需要人工设计日志信息过滤方案，避免原始数据缺失的风险；B.不需要人工配置时间模型；C.具备自动的时序关系的提取功能。

IV.一种在web日志中挖掘攻击频繁项序列模式的方法(CN105721427A)其核心技术是：根据人工收集的网络日志和攻击特征码提取出攻击的日志，之后对攻击的日志人工区分是人为攻击会话还是漏洞扫描器会话存储到数据库中，最后将两个数据库使用prefixSpan算法进行序列模式挖掘与分析。其实施方案是：在数据收集阶段建立漏洞特征库和收集网络日志，即各种网络攻击的特征码(发送请求时包含在URL中的能够对某种特定的漏洞进行利用的字符串)及其对应的类型。预处理阶段根据日志结构解析日志文件，分析是出人为攻击会话还是漏洞扫描器攻击会话。首先将日志文件中的URL请求与收集到的攻击特征码进行匹配，对判定包含有攻击行为则将日志信息保存到新的文件中，同时过滤掉URL中的无效字符串，将被攻击的页面提取出来。根据IP地址和用户的信息提取出提交请求的用户。其次将每日志按照10作为默认时间访问时的阈值，分割会话并将其分别存储到人为攻击的会话数据库和漏洞扫描会话数据库。最后将会话数据库转换成序列数据库。经对比，本发明的优势是：A.场景不同，本发明为分布式特征提取，与上述专利的安全攻击场景完全不同；B.在数据预处理的时候能够充分利用所有日志的信息；C.无需映射数据库，具有高效提取特征流的特点。

V.一种网络安全日志模板抽取方法及装置(CN105049247A)其核心技术是：对所有过滤掉日志的时间信息和IP地址的日志使用DBSCAN和OPTICS算法聚类，之后使用LDAGipps sampling算法对每个类别的日志抽取模式的模板词。其实施方案是：首先是对日志文件利用正则表达式清洗掉时间信息和IP地址；其次对日志文件使用DBSCAN和OPTICS算法进行聚类；最后使用LDA Gipps sampling算法对聚类之后的信息中的每一类抽取描述日志格式的模板词。经对比，本发明的优势是：A.全面自动的特征提取，无需人工模板设置；B.具备应对频繁的软件变更的能力。

VI.一种日志关联分析系统与方法(CN101610174A)其核心技术是：根据正则表达式提取日志的特征数据并建立统一格式的日志事件，根据事件处理策略对事件进行交叉关联分析和事件逻辑关联分析。以达到事件的风险评估和自动响应的目的。其实施方案是：搜集日志数据；通过预设的正则表达式提取日志数据的特征数据；根据提取到的特征数据构建统一格式的日志事件；查询日志事件的处理策略；根据事件处理策略对事件进行交叉关联分析和事件逻辑关联分析；进行事件风险评估并自动响应。

经对比，本发明的优势是:A.通过自动特征提取构建规则，而不是人工定制正则表达式，因此不会因为人工差异丢失原始数据的主要信息；B.无需手动配置日志处理策略。

VII.在线日志分析方法(CN101888309A)其核心技术是：根据在分布式系统上统一格式、无重复、冗余的日志数据抽取预先定义的事件序列和事件关联规则。以此预测日志中的事件。其实施方案是：使用代理服务器收集分布式系统各个数据节点上的日志文件。使用日志服务器实现数据的预处理和关联规则的挖掘。使用主动管理服务器进行在线的失效预测。经对比，本发明的优势是:A.具备特征流提取功能；B.无需设置过滤规则，无需人员参与；C.具备自动提取时间序列的能力。

VIII.一种基于日志的计算机系统故障诊断方法及装置(CN103761173A)其核心技术是：抽取日志文件中的故障日志，对故障日志进行过滤，抽取模板词、按类型分类。之后关联分析再结合时间窗口分析故障原因。其实施方案是：故障日志分析：利用故障关键词矩阵量化人工学习的故障分类结果，以确定每条故障日志的故障类型；故障日志关联：使用故障分析结果和时间窗口进行故障分析，将同一个故障一起的所有的故障聚集为一类，找到故障根源。

经对比，本发明的优势是:A.无需人工实现故障关键词矩阵；B.无需构建聚类等带有多个人工设定参数的场景及技术。

综上所述：

在上述专利II、III、VI、VIII中使用的人工参与配置抽取策略，而本发明只要在获取了用户需求后，通过少量(或不需要)的人工参数配置，在模型的智能训练和应用过程中，不需要人工参与。

在III、IV、VI、VII中的模型按照策略过滤掉了很多的日志信息，导致丧失了很多的原始数据中的原始信息，本发明的模型中是对原始数据中的所有的数据进行直接处理。

在I、V、VII、VIII中只是对原始的数据进行聚类获得自己想要的结果，本发明的模型是根据时间序列获得了拥有前后关系的基于时间的执行模型。

在II、III、VII中虽然在基于时间上日志的前后关系做了频繁项集抽取，但这些频繁序列中包含了大量的没有时间前后关系的特征项存在，本发明的模型在抽取的频繁序列是一个仅含有明确的基于时间的前后关系的序列。

本实施例的方法能实现自动提取特征流。即自动提取原始数据中的特征项，基于时间序列自动划分和提取日志数据。并能进行序列的自动挖掘，基于频繁序列挖掘，自动构建符合频繁要求的日志特征流；该方法首先挖掘较短的日志特征项，并初步迭代组合成为较长的特征流，最终达到与人工定义的特征流一致的目的。构造基于正则表达式的关键日志信息，自动匹配和生成关键信息对应的正则表达式。

具体实施时，一种分布式日志的自动特征提取方法，包括以下步骤：

S1读取所有的日志文件直接并初始化本地变量。

S2将最终的数据输出到JSON文件中；该JSON文件实际上是若干可行的JSON文件的集合；维护人员可以在此基础上继续人工挑选。

S3日志服务器部署。工具根据JSON文件中的内容对程序输出的新的日志信息，(模型建立时训练数据最新时间点之后)做出判定，将正确的完整匹配的信息忽略，对那些新来的日志中对应特征项不能匹配的运行时错误的信息进行输出到指定的文件，以便工作人员查询程序运行时错误的状态信息。

本方案针对的目标是分布系统下的日志文件，并且分析的所有文件都集中存储。如图3是本实施例方案的流程图，其具体工作流程如下：

①设置配置文件

该步骤包括设置项如最小支持度、最大支持度、关键字划分准则、正则表达式等若干个项。

②运行自动的特征项提取功能

该步骤按照配置文件中的要求关键字划分准则抽取特征项，以特征项为频繁序列挖掘的对象根据最小支持度和最小支持度挖掘序列规则。

③运行自动的序列发掘

该步骤根据原始数据将序列规则中的特征项对应的状态信息，转换正则表达式，以达到具有一定通用性的正则表达式生成。

④自动输出

该步骤将序列规则输出到JSON文件，便于查阅和程序读取。

由于本实施例针对的对象是程序正常运行时生成的日志，所以最后的JSON文件将用于在新的日志文件，如果当前的日志信息匹配JSON文件中的某一项，则认为日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

本实施例能够按预期实现如下效果，

(1)有效的自动提取和分析日志数据中的日志信息；

(2)在无人参与的情况下自动提取日志中的特征流；

(3)输出所有符合需求的特征流，供维护人员选择或自动选择。

解决了特征提取技术由人工进行，容易出现疏漏，并难以应对频繁升级的软件系统。

本实施例的改进之处如下，

(1)自动的提取、分析、挖掘日志数据，输出日志特征流；

(2)基于海量真实日志数据，所提取的特征可供维护人员参考或进一步修改，具有较高容错性；

(3)自动的更新日志数据，可以在低运行成本的前提下，应对软件系统的频繁升级。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

虽然以上结合附图描述了本发明的具体实施方式，但是本领域普通技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出多种变形或修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims

1.一种分布式日志的自动特征提取方法，其特征是，包括以下步骤：

步骤1、根据时序提取和划分日志数据；

步骤3、将特征流中关键信息的字符串转换为正则表达式；

步骤4、输出特征流；供自动使用或供维护人员挑选；

步骤1具体实现包括，在原始的日志数据基础上，过滤掉输出程序中的格式化日志部分，并自动划分提取特征项和对应的状态信息，特征项用于后续的序列规则提取；

步骤2的实现包括，在序列生成阶段，首先挖掘并生成序列长度为1或2的特征流序列，然后根据序列长度为1或2的特征流序列拼接为更长的特征序列，直至无法找到更长的频繁序列；

步骤3的实现包括，将所有的字符串中的字符转换成正则表达式，所有的正则表达式转变成更短的正则表达式；使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式；将特征项的状态信息转换为正则表达式，以此输出完整通用性的程序状态模型；

步骤4的实现包括，将序列规则输出到JSON文件，JSON文件用于新的日志文件；如果当前的日志信息匹配JSON文件中的某一项，则日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

2.用于权利要求1所述分布式日志的自动特征提取方法的系统，其特征是，包括分布式系统，日志服务器，系统内的工作站；分布式系统将收集的日志文件利用脚本程序将整个日志文件目录打包成压缩文件发送至日志服务器；日志服务器分析日志数据构建日志特征流，并将特征流转换为正则表达式发送到系统内的工作站；系统内的工作站自动匹配和生成关键信息对应的正则表达式。