CN111538704A

CN111538704A - 日志优化方法、装置、设备及可读存储介质

Info

Publication number: CN111538704A
Application number: CN202010222199.8A
Authority: CN
Inventors: 成卓鸿
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-08-14
Anticipated expiration: 2040-03-26
Also published as: CN111538704B; WO2021189831A1

Abstract

本发明涉及数据处理技术领域，公开了一种日志优化方法、装置、设备及存储介质，该日志优化方法通过提取日志文件集中每条日志的属性特征和属性值，对其进行归类，得到属性集合，构建树状图，然后选取目标属性特征，根据预设的抽象摘要算法对目标属性特征下的属性值进行抽象处理，获得该日志文件集的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合，最后分析关键摘要可以提高异常诊断的效率。

Description

日志优化方法、装置、设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种日志优化方法、装置、设备及可读存储介质。

背景技术

日志文件是当前用于记录了系统运行情况和系统的操作事件的主要方式之一。例如，用户操作、系统运行状态和异常信息等，基于日志文件中的记录，可以有效地为开发者提供技术上的运行保障和改进依据。

然而，随着互联网技术和网络环境的不断发展，越来越多的终端接入互联网，因此绝大部分的网络服务系统都需要24小时无间断地运行，且系统在运行的过程中会生成大量的数据，其中，包括系统在运行过程中所生成的大量日志文件。由于日志文件的数量过大，不同日志文件之间会互相包含和影响，再加上日志文件中包含了很多无关的内容。

对此，当系统出现异常情况时，技术人员需要通过查阅日志文件中的记录来确定异常，而在目前的日志文件查阅分析过程中，主要通过人工查找的方式来逐一对日志文件中的异常日志进行筛选，而在完成大量的日志文件中异常的排查，则需要安排较多的人员和需要投入大量的时间和精力才能保证排查的效率，并且该种方式还是逐一排查的，可见其效率和是实现步骤的繁琐，更加无法满足人们日益增长的高效化、便捷化的日志文件的异常诊断需求，而且如果无法检测出异常问题所在，也将会造成巨大的经济损失。

发明内容

本发明的主要目的在于提供一种日志优化方法、装置、设备及可读存储介质，旨在解决由于日志文件数量的巨增，而导致日志的异常排查效率低的技术问题。

本发明第一方面提供了一种日志优化方法，所述日志优化方法包括：

根据日志优化请求，从日志数据库中获取当前系统在运行过程中所产生的所有日志文件，形成日志文件集合，其中，所述日志文件集合包括：当前系统的历史日志文件和当前系统在当前时刻产生的实时日志文件；

依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合，其中，所述第一属性集合包括至少一个第一属性值子集，每个第一属性值子集对应一类属性特征；

根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集；

将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，并根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

可选的，在本发明第一方面的第一种实现方式中，所述依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合包括：

根据特征提取算法，对所述日志文件集合中的日志文件逐一进行属性特征的提取，得到属性特征集合；

根据所述属性特征集合中的每个属性特征进行属性值的提取，形成数值集合，其中，所述数值集合为包含所述属性值与所述属性特征之间的对应关系的集合；

根据所述数值集合对所述属性特征集合中的属性特征进行分类处理，并基于预设的属性树状图构建原理将分类后的属性特征生成树形结构图，得到所述第一属性集合，其中所述属性结构图包括祖先节点和子节点，每个祖先节对应一个属性特征的类别，每个子节点对应一个属性特征。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述数值集合对所述属性特征集合中的属性特征进行分类处理，得到所述第一属性集合包括：

根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；确定所述频数的等级，并根据所述等级对所述属性特征进行分类，得到所述第一属性集合；

或者，

根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；根据预设的层次聚类算法和所述频数，对所述属性特征进行分类，得到所述第一属性集合。

可选的，在本发明第一方面的第三种实现方式中，在所述根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集之前，还包括：

统计所述第一属性值子集中的每个属性特征的属性值的最大频数；

根据所述最大频数，对所述第一属性值子集中的属性特征进行排序，得到属性特征序列；

根据所述属性特征序列，并选择序列中频数最低的属性特征作为目标属性特征。

可选的，在本发明第一方面的第四种实现方式中，若每个所述属性特征均设置至少两个对应的属性值时，所述根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集包括：

计算所述目标属性特征对应的每个属性值所包含的子节点的总数量，并判断计算的所述子节点的总数量是否为预设值；

若是，则设置所述总数量对应的属性值作为所述目标属性特征的目标属性值；

根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合包括:

计算所述目标属性值中每个子节点与其所连接的祖先节点之间的最短距离；

根据所述最短距离，计算抽象所述目标属性值的概念值的节点最小距离值，其中所述概念值为基于每个类别属性特征预先设定的属性特征的总称；

基于所述节点最小距离值，将所述目标属性值抽象为概念值，并计算所述概念值的计数，其中，所述概念值为所述祖先节点的属性值。

可选的，在本发明第一方面的第六种实现方式中，在所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合之后，还包括：

统计待抽象的对象中的属性值的个数，判断所述个数是否小于或者等于预设的期望阈值，其中，所述期望阈值为用户期望在最终输出的所述关键摘要中包含的属性值数目；

若所述个数大于所述期望阈值，则继续选取所述目标属性特征，并根据目标属性特征，对属性值进行抽象处理，直到所述个数小于或者等于所述预设的期望阈值。

若所述个数小于或者等于所述期望阈值，则停止抽象处理。

本发明第二方面提供了一种日志优化装置，所述日志优化装置包括：

日志采集模块，用于根据日志优化请求，从日志数据库中获取当前系统在运行过程中所产生的所有日志文件，形成日志文件集合，其中，所述日志文件集合包括：当前系统的历史日志文件和当前系统在当前时刻产生的实时日志文件；

分类模块，用于依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合，其中，所述第一属性集合包括至少一个第一属性值子集，每个第一属性值子集对应一类属性特征；

抽象模块，用于根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集；

合并模块，用于将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，并根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

可选的，在本发明第二方面的第一种实现方式中，所述分类模块包括：提取单元、分类单元和图形构建单元：

所述提取单元，用于根据特征提取算法，对所述日志文件集合中的日志文件逐一进行属性特征的提取，得到属性特征集合；以及根据所述属性特征集合中的每个属性特征进行属性值的提取，形成数值集合，其中，所述数值集合为包含所述属性值与所述属性特征之间的对应关系的集合；

所述分类单元，用于根据所述数值集合对所述属性特征集合中的属性特征进行分类处理；

所述图形构建单元，用于基于预设的属性树状图构建原理将分类后的属性特征生成树形结构图，得到所述第一属性集合，其中所述属性结构图包括祖先节点和子节点，每个祖先节对应一个属性特征的类别，每个子节点对应一个属性特征。

可选的，在本发明第二方面的第二种实现方式中，所述分类单元，用于根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；确定所述频数的等级，并根据所述等级对所述属性特征进行分类，得到所述第一属性集合；

或者，

所述分类单元，用于根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；根据预设的层次聚类算法和所述频数，对所述属性特征进行分类，得到所述第一属性集合。

可选的，在本发明第二方面的第三种实现方式中，所述日志优化装置还包括：序列处理单元，用于统计所述第一属性值子集中的每个属性特征的属性值的最大频数；根据所述最大频数，对所述第一属性值子集中的属性特征进行排序，得到属性特征序列，并选择序列中频数最低的属性特征作为目标属性特征。

可选的，在本发明第二方面的第四种实现方式中，若每个所述属性特征均设置至少两个对应的属性值时，所述抽象模块具体用于计算所述目标属性特征对应的每个属性值所包含的子节点的总数量，并判断计算的所述子节点的总数量是否为预设值；若是，则设置所述总数量对应的属性值作为所述目标属性特征的目标属性值；根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合。

可选的，在本发明第二方面的第五种实现方式中，所述抽象模块具体用于:

可选的，在本发明第二方面的第六种实现方式中，所述抽象模块还用于：

若所述个数小于或者等于所述期望阈值，则停止抽象处理。

本发明第三方面提供了一种日志优化设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述日志优化设备执行上述的日志优化方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的日志优化法。

本发明提供的技术方案中，通过获取日志数据库中的日志文件的关键摘要，以实现对大量的日志文件的合并优化，从而减少日志文件的实际存储量，而在查阅日志文件时，通过分析关键摘要来诊断系统在运行过程中所出现的异常问题，其日志优化方法的具体实现过程为：从系统的日志数据库中获取日志文件集，通过提取日志文件集中每条日志的属性特征，进而对不同的日志文件进行归类，得到属性集合，然后选取目标属性特征，根据预设的抽象摘要算法对目标属性特征下的属性值进行抽象处理，获得该日志文件集的关键摘要。

附图说明

图1为本发明实施例中日志优化方法的一个实施例示意图；

图2为本发明实施例中日志优化方法的另一个实施例示意图；

图3为本发明实施例中树形结构图的示意图；

图4为本发明实施例中子节点与祖先节点的一种关系示意图；

图5为本发明实施例中子节点与祖先节点的另一种关系示意图；

图6为本发明实施例中子节点与祖先节点的又一种关系示意图；

图7为本发明实施例中日志优化装置的一个实施例示意图；

图8为本发明实施例中日志优化设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种可以减少日志文件的实际存储量的日志优化方法，该方法是通过从系统的日志数据库中获取日志文件集，通过提取日志文件集中每条日志的属性特征，进而对不同的日志文件进行归类，得到属性集合，然后选取目标属性特征，根据预设的抽象摘要算法对目标属性特征下的属性值进行抽象处理，获得该日志文件集的关键摘要，实现对大量的日志文件的合并优化，从而减少日志文件的实际存储量，而在查阅日志文件时，通过分析关键摘要来诊断系统在运行过程中所出现的异常问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中日志优化方法的一个实施例包括：

101、根据日志优化请求，从日志数据库中获取当前系统在运行过程中所产生的所有日志文件，形成日志文件集合；

在该步骤中，所述日志文件集合包括：当前系统的历史日志文件和当前系统在当前时刻产生的实时日志文件，其中，这里的当前时刻应当理解为是相对于历史日志文件中的日志文件的产生时间来说的，例如历史日志文件中距离实时日志文件产生的时间最近的时间为12月7日15点，则这里的当前时刻应当理解为是12月7日15点之后的任何时刻。

在本实施例中，该日志优化请求指的是用于触发系统对其产生的所有日志文件进行合并的触发指令，该触发指令可以是由系统自动产生，也可以是有技术人员触发产生，而选择由技术人员触发产生时，其系统对于日志文件的存储可以是采用现有的零散存储方式，然后在产生日志优化请求后，获取存储的零散日志文件进行后续的优化/合并处理。

在实际应用中，对于日志优化请求由技术人员触发产生时，具体可以通过检测日志优化平台上的触控操作，然后判断该触控操作是否是触发日志优化的操作，若是，则根据该触控操作生成日志优化请求，优选的，该触控操作可以是特定形状轨迹的滑动操作，例如：“S”形滑动轨迹；进一步的，该触控操作还可以是一种手势操作，例如：“OK”手势，而该手势操作则需要通过终端的摄像单元来采集。

在本实施例中，对于获取日志优化请求的还可以是：开发者通过远程操作的方式获取日志优化请求，具体方式是：开发者通过使用移动终端，例如：智能手机、平板电脑和笔记本电脑等，在该平台的APP上先进行注册个人帐号，待注册完成后通过个人账号登录该平台的APP进行身份验证，待验证通过后则可以在该平台APP上进行触控操作，然后判断该触控操作来是否是触发日志优化的操作，若是，则根据触控该操作生成日志优化请求。

在实际应用中，若日志文件是存储于日志服务器中，则通过日志优化请求获取日志文件集的步骤具体可以为：根据日志优化请求，查找到与日志服务器对应的日志代理模块，通过控制日志代理模块发送网络连接请求至网络链接模块；当网络链接模块接收到网络链接请求时，通过网络协议，建立接收器，接收日志服务器发送的日志文件，并将日志文件存储至本地日志存储设备中；根据预设的上传时间，触发日志文件上传单元运行，将本地日志存储设备中的日志文件上传至日志数据库中，从而获取到日志服务器中的日志文件，并形成日志文件集合。

102、依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合；

在该步骤中，所述第一属性集合包括至少一个第一属性值子集，每个第一属性值子集对应一类属性特征。

在本实施例中，日志文件集合中包括至少一条日志文件，日志文件包括历史日志文件和实时日志文件，历史日志文件是基于某个时间之前系统在运行过程中生成且上传的日志文件，而实时日志文件是在该时间系统在运行过程中生成且上传的日志文件。

每条日志文件包括至少一个属性特征，也称其为类，例如：错误类、业务依赖类、修改类等。对于日志文件的属性特征的提取可以通过特征提取算法来提取关键词，该关键词也即是属性特征。一个属性特征，包括了多个属性值，比如：错误类包括了系统错误(RunTimeException、NullPointException、TimeOut、包冲突等)、其他错误等；业务依赖类包括公共服务(账号服务、评论服务、登录服务等)、某业务线(游戏业务、产品中心、交易平台、供应商信息等)等。

在实际应用中，对所述属性特征进行分类处理可以是根据属性特征的频数进行分类，也可以是根据属性特征的相似性来分类。

103、根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集；

在该步骤中，该预设的抽象摘要算法应当理解为基于一个最佳抽象/优化程度，对属性特征下的属性值进行抽象/优化。例如，有一个属性特征：车{跑车(法拉利、保时捷)、轿车(大轿车、小轿车)、货车(大型货车、小型货车)}，假设最佳抽象/优化程度是将叶子节点的属性值抽象成其父节点的属性值，则基于该最佳抽象/优化程度，对叶子节点的属性值抽象后的结果为：车{跑车、轿车、货车}。

104、将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，并根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

在该步骤中，所述第二属性集合是经过抽象处理后得到的新的属性特征下的属性值，根据新的属性集合更新原来的属性集合，就可以得到日志文件集的关键摘要。若涉及异常诊断场景，则可以通过分析关键摘要，快速诊断异常问题，及时修复异常。例如：原来的属性集合为：车{跑车(法拉利、保时捷)、轿车(大轿车、小轿车)、货车(大型货车、小型货车)}，以及形状{三角形(等边三角形、等腰三角形)、矩形(长方形、正方形)}，经过抽象处理后得到新的属性集合为：车{跑车、轿车、货车}，以及形状{三角形、矩形(长方形、正方形)}，将新的属性集合替换原来的属性集合得到关键摘要为【跑车、轿车、货车、三角形、矩形(长方形、正方形)】。

本发明实施例中，通过提取日志文件集中每条日志的属性特征和属性值，对其进行归类，得到属性集合，构建树状图，然后选取目标属性特征，根据预设的抽象摘要算法对目标属性特征下的属性值进行抽象处理，获得该日志文件集的关键摘要，最后分析关键摘要可以提高异常诊断的效率。

请参阅图2，本发明实施例中日志优化方法的另一个实施例包括：

201、根据日志优化请求，从日志数据库中获取当前系统在运行过程中所产生的所有日志文件，形成日志文件集合；

202、根据特征提取算法，对所述日志文件集合中的日志文件逐一进行属性特征的提取，得到属性特征集合；

203、根据所述属性特征集合中的每个属性特征进行属性值的提取，形成数值集合，其中，所述数值集合为包含所述属性值与所述属性特征之间的对应关系的集合；

204、根据所述数值集合对所述属性特征集合中的属性特征进行分类处理；

在该步骤，具体实现为：所述根据所述数值集合对所述属性特征集合中的属性特征进行分类处理包括：

根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；确定所述频数的等级，并根据所述等级对所述属性特征进行分类；

或者，

根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；根据预设的层次聚类算法和所述频数，对所述属性特征进行分类。

205、基于预设的属性树状图构建原理将分类后的属性特征生成树形结构图，得到所述第一属性集合；

其中，所述属性结构图包括祖先节点和子节点，每个祖先节对应一个属性特征的类别，每个子节点对应一个属性特征。

在实际应用中，上述步骤还可以通过以下方式实现：

根据特征提取算法，对所述日志文件集中的每条日志文件进行属性特征的提取，并根据所述属性特征，提取对应的属性值；

计算所述属性特征在所述日志文件集中的频数；

根据所述频数，对所述属性特征进行分类，得到所述属性集合；

根据预设的属性树状图构建原理，对所述属性集合构建所述日志文件集的树形结构图。

在本实施例中，特征提取算法可以是：无监督的TF-IDF算法，也即是不需要人工标注的语料，利用的TF-IDF算法发现日志文件中比较重要的词作为特征关键词，进行特征关键词提取，该特征关键词也即是属性特征。具体实现过程为：对日志文件集进行预处理，得到候选词；通过算法或者模型构建计算该候选词的权重，基于权重大小选取关键词；根据提取到的关键词，对系统的日志数据库中的日志文件集进行归类，将具有相似或者相同的关键词归为同一类别，例如：关键词分别是跑车、轿车、货车，则可以归为“车”类。

进一步的，特征提取算法还可以是：监督的关键词抽取算法，也即是根据已经标注好的训练语料，利用训练语料训练关键词提取模型，根据模型对需要抽取关键词的日志文件集进行关键词抽取；以及半监督的关键词抽取算法，也即是利用少量训练数据去构建关键词抽取模型，并使用模型对新的日志文件集进行关键词提取，将关键词进行人工过滤，并将过滤后的关键词加入训练集，重新训练模型。

在实际应用中，当涉及到异常诊断应用场景时，还可以根据属性特征重复出现的次数，进一步的对属性特征进行分类，若某类属性特征的频次低，则说明该属性特征的出现异常情况较少，若某类属性特征的频次高，则说明该属性特征的出现异常情况较多。

在本实施例中，对于计算属性特征的频数的具体过程为：在提取对属性特征之后，对每个属性特征进行标记，相同的属性特征使用同一个标记；根据标记来计算相同的标记的总数，得到各个不同属性特征在日志文件集中的频数。

对于根据属性特征的频次进行分类的方法可以为：设置至少一个属性特征频次阈值，根据属性特征频次阈值，对属性特征进行划分。例如：将属性特征频次为1-3的归为一类，4-7的归为一类，8-10的归为一类。

进一步的，根据属性特征的频次进行分类的方法还可以为：计算每个属性特征的频次与所有属性特征的频次之间的差值，根据预设的差值，对属性特征进行分类，其中，小于预设的差值归为一类，大于等于预设的差值归为一类。例如：A的频次为2，B的频次为5，C的频次为9，预设的差值为4，则A和B差值为3，A和C之间差值为7，故A和B为一类，C为一类。

在本实施例中，根据预设的属性树状图构建原理，在内存中建立属性集合的树状关系数据结构是为了便于对属性值进行抽取/优化。

在本实施例中，对于步骤202-205还可以通过层次聚类算法来实现：根据特征提取算法，对所述日志文件集中的每条日志文件进行属性特征的提取，并根据所述属性特征，提取对应的属性值；

根据层次聚类算法，对所述属性特征进行分类，得到所述属性集合，其中，所述属性集合为所述日志文件集的树状图。

在该步骤中，层次聚类算法可以是凝聚层次聚类算法，先将每个数据作为一个原子簇，根据某种准则进行合并，然后将这些原子簇合并成越来越大的类簇，直到所有的数据都在一个类簇中或达到某个终止条件。例如：子簇C1中的一个数据点A与子簇C2中的一个数据点B之间的距离是在所有不同子簇中的数据点之间距离最近的，则认为子簇C1与子簇C2是相似的，进而将数据点A和B进行合并成类簇C。其中，根据凝聚层次聚类算法，实现分类的具体过程可以为：

根据欧几里得距离公式，计算日志文件集中的每个属性值与所有属性值之间的距离，创建第一欧几里得距离矩阵，当距离越小时，属性值之间的相似度就越高；

根据第一欧几里得距离矩阵，将距离最近的两个属性值进行合并，得到第一组合属性值，并计算该组合属性值与所有属性值之间的距离；

重复上述步骤，直到所有属性值均为第一组合属性值，得到第二欧几里得距离矩阵；

根据第二欧几里得距离矩阵，将距离最近的两个第一组合属性值进行合并，得到第二组合属性值，并计算该组合属性值与所有第一组合属性值之间的距离；

重复上述步骤，直到所有属性值均为第二组合属性值，得到第三欧几里得距离矩阵；

重复合并属性值和计算距离，直到欧几里得矩阵仅有两个组合属性值；

根据之前的计算步骤，构建日志文件集的树状图。

进一步的，层次聚类算法还可以是分裂层次聚类算法，首先将所有数据置于同一个类簇中，根据某种准则进行分裂，然后逐渐细分为越来越小的类簇，直到每个文本自成一类簇或达到了某个终止条件。例如：类簇C中有两个数据点A和B，而数据点A和B之间的距离是类簇C中所有数据点间距离最远的一对数据点，则将数据点A和B分裂成两个类簇C1和C2，并且计算类簇C中其他数据点与数据点A的距离，以及类簇C中其他数据点与数据点B的距离，对比两者的距离，进而将其他数据点分别纳入到类簇C1和C2中，例如：类簇C中有一个数据点O，经计算得到O与A的距离为2，O与B的距离为4，则将O纳入到类簇C1中。对于凝聚层次聚类算法和分裂层次聚类算法得到的树形结构图，如图3所示。

206、统计所述第一属性值子集中的每个属性特征的属性值的最大频数；

207、根据所述最大频数，对所述第一属性值子集中的属性特征进行排序，得到属性特征序列；

208、根据所述属性特征序列，选择其中频数最低的属性特征作为目标属性特征；

在实际应用中，所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合具体实现为：

计算所述目标属性值通过祖先节点连接的最短距离d，其中，d的计算公式定义为d(b₁，b₂，…，b_n)：＝min d(b₁[B_x]，b₂[B_x]，…，b_n[B_x])，b_n(n为正整数)为所述目标属性值，B_X为所述目标属性值的祖先节点；

根据所述最短距离d，计算

得到D(r,E)最小值，E为目标属性值的个数，r为E的抽象表示；

基于所述D(r,E)最小值，将所述目标属性值抽象为概念值，并计算所述概念值的计数，其中，所述概念值为所述祖先节点的属性值。

在本实施例中，对于统计属性值的最大频数的具体实现过程可以为：

对属性子集中的每个属性特征下的属性值建立索引值，不同属性特征下的属性值使用不同的索引值，相同属性特征下的属性值使用相同的索引值；

根据索引值，计算相同的索引值的个数，得到每个属性特征下的属性值的总数，也即是最大频数。例如：属性集合中有两类属性特征“车类”和“人类”，其中车{跑车(法拉利、保时捷)、轿车(大轿车、小轿车)、货车(大型货车、小型货车)}，人(男人、女人)，那么“车类”的最大频数为9，而“人类”的最大频数为2。

根据属性值的最大频数的大小，对与其对应的属性子集中的属性特征进行排序，得到属性特征序列，并将该序列存储于属性特征序列表中，其中，排序的顺序可以是由小到大，还可以是由大到小，若是存在最大频数相等的情况，则将其并列。例如：属性集合中有两类属性特征“车类”、“人类”、“形状”，其中车{跑车(法拉利、保时捷)、轿车(大轿车、小轿车)、货车(大型货车、小型货车)}，人(男人、女人)，形状(三角形、正方形)，那么“车类”的最大频数为9，“人类”的最大频数为2，“形状”的最大频数为2，按照由小到大的顺序，则为“人类”和“形状”→“车类”。

选取目标属性特征的目的是根据该目标属性特征，对目标属性特征下的属性值进行抽象处理。每次在对属性值进行抽象处理之前均需调用属性特征序列表，根据属性特征序列，选取其中最小的属性特征作为目标属性特征，待在抽象处理后从属性特征序列中删除该属性特征。例如：先选取“人类”和“形状”作为目标属性特征，再选取“车类”作为目标属性特征。

209、根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集；

在本实施例中，若每个所述属性特征均设置至少两个对应的属性值时，该步骤具体还可以通过以下方式实现：

在实际应用中，具体是根据某个准则，选取目标属性特征下的某个或者某些属性值，并对该属性值进行抽象处理，其中，该准则可以是目标属性特征下的每个属性值所包含的子节点的总数目最大。其中，一般存在3种情况，下面以车为例说明：

情况1：只有一个包含子节点总数最大的属性值，则对其进行抽象处理。

如图4所示，以“车”为根节点，包含2个子节点；“货车”包含2个子节点；“跑车”包含3个子节点；剩下的属性值均为叶子节点，无子节点。由于3(跑车)>2(车)＝2(货车)，则根据抽象摘要算法，对“跑车”这个属性值进行过抽象处理。

情况2：存在两个及以上包含子节点总数最大的属性值，且其均为同等级，则对其进行抽象处理。

如图5所示，以“车”包含2个子节点；“货车”包含3个子节点；跑车包含3个子节点。由于3(货车)＝3(跑车)>2(车)，且“货车”和“跑车”为同等级，则对两者进行抽象处理。

情况3：存在两个及以上包含子节点总数最大的属性值，且其不是同等级，则先对等级低的属性值进行抽象处理，再对等级高的属性值进行抽象处理。

如图6所示，以“车”包含2个子节点；“货车”包含1个子节点；跑车包含2个子节点。由于2(车)＝2(跑车)>1(货车)，且“车”的等级>“跑车”的等级，则先对“跑车”进行抽象，在对“车”进行抽象，假设“车”还有祖先节点。

在本实施例中，对于根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合具体可以通过以下计算所述目标属性值中每个子节点与其所连接的祖先节点之间的最短距离；

基于所述节点最小距离值，将所述目标属性值抽象为概念值，并计算所述概念值的计数，其中，所述概念值为所述祖先节点的属性值，这里的概念值组成第二属性集合。

210、将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，并根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

在本实施例中，在所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合之后，还包括：

若所述个数小于或者等于所述期望阈值，则停止抽象处理。

在实际应用中，所述待抽象的对象为在属性子集中还未进行抽象处理的属性特征。所述预设的期望阈值是开发者期望在关键摘要中包含的属性值的数目，该数目可以是大于0的任意数值。

若属性子集中还未抽象的属性值数目大于期望阈值，则继续从属性特征序列表中选取最小的属性特征作为目标属性特征，进而根据目标属性特征，对目标属性特征下的某一个属性值进行抽象处理，直到未抽象的属性值数目下雨或者等于所述预设的期望阈值。例如：假设预设的期望阈值为5，若待抽象的对象中还有10个待抽象的属性值，则继续抽象；若待抽象的对象中还有5个待抽象的属性值，则停止抽象；若待抽象的对象中还有3个待抽象的属性值，则停止抽象。

对于预设的期望阈值，除了可以是开发者设置的，还可以是根据原始的日志文件集的数量进行设置，具体的期望阈值一般取：1/5*日志文件集中的日志数量，那么，抽象处理的停止条件是抽象处理后的属性值的计数大于或者等于期望阈值，或者若日志文件集中的日志数量太少，则不需要进行抽象处理，例如：日志文件集的日志数量小于15个，则期望阈值为3，那么就不需要进行抽象处理。如果在迭代抽象过程中发现，抽象处理后的属性值的计数始终无法大于或者等于期望阈值，也即是说明日志文件集的日志数量极大，存在最大迭代次数，该最大迭代次数小于期望阈值，那么抽象处理的停止条件是抽象处理后的属性值的计数大于或者等于最大迭代次数。

在本实施例中，该方法所优化的日志文件集可以是包括系统中的正常日志文件和异常日志文件，也可以是只包括异常日志文件，而对于包括正常和异常的日志文件时，在获取到日志文件集的步骤之后，还包括：

对每个日志文件的类型进行识别，以将异常和正常日志文件进行区分，并分别提取出异常和正常日志文件，以形成异常日志文件集和正常日志文件集，最后通过执行步骤S20-40分别对两种日志文件集进行优化处理，以减少系统中对于日志文件的储存量。

进一步的，该方法还可以是只对异日志文件进行优化处理，而该实现过程为：在获取日志文件集的步骤之前，还包括：

对每个日志文件的类型进行识别，以将异常和正常日志文件进行区分，并单独提取出异常，以形成异常日志文件集，最后通过执行步骤S20-40对异常日志文件集进行优化处理，以减少系统中对于日志文件的储存量。

本发明实施例中，通过提取日志文件的关键摘要来实现对大量的日志文件的合并优化，从而减少日志文件的实际存储量，而在查阅日志文件时，通过分析关键摘要来诊断系统在运行过程中所出现的异常问题，其日志优化方法的具体实现过程为：从系统的日志数据库中获取日志文件集，通过提取日志文件集中每条日志的属性特征，进而对不同的日志文件进行归类，得到属性集合，然后选取目标属性特征，根据预设的抽象摘要算法对目标属性特征下的属性值进行抽象处理，获得该日志文件集的关键摘要。

请参阅图7，本发明实施例中日志优化装置的另一个实施例包括：

日志采集模块701，用于根据日志优化请求，从日志数据库中获取当前系统在运行过程中所产生的所有日志文件，形成日志文件集合，其中，所述日志文件集合包括：当前系统的历史日志文件和当前系统在当前时刻产生的实时日志文件；

分类模块702，用于依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合，其中，所述第一属性集合包括至少一个第一属性值子集，每个第一属性值子集对应一类属性特征；

抽象模块703，用于根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集；

合并模块704，用于将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，并根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

可选的，所述分类模块包括：提取单元、分类单元和图形构建单元：

所述分类单元，用于根据所述数值集合对所述属性特征集合中的属性特征进行分类处理，得到所述第一属性集合；

可选的，所述分类单元，用于根据所述数值集合对所述属性特征集合进行去重处理，并计算去重后的每个所述属性特征在所述日志文件集合中的频数；确定所述频数的等级，并根据所述等级对所述属性特征进行分类，得到所述第一属性集合；

或者，

可选的，所述日志优化装置还包括：序列处理单元705，用于统计所述第一属性值子集中的每个属性特征的属性值的最大频数；根据所述最大频数，对所述第一属性值子集中的属性特征进行排序，得到属性特征序列，并选择序列中频数最低的属性特征作为目标属性特征。

可选的，若每个所述属性特征均设置至少两个对应的属性值时，所述抽象模块704具体用于计算所述目标属性特征对应的每个属性值所包含的子节点的总数量，并判断计算的所述子节点的总数量是否为预设值；若是，则设置所述总数量对应的属性值作为所述目标属性特征的目标属性值；根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合。

可选的，所述抽象模块704具体用于:

可选的，所述抽象模块704还用于：

若所述个数小于或者等于所述期望阈值，则停止抽象处理。

上面图7从模块化功能实体的角度对本发明实施例中的日志优化装置进行详细描述，下面从硬件处理的角度对本发明实施例中日志优化设备进行详细描述。

图8是本发明实施例提供的一种日志优化设备的结构示意图，该日志优化设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对日志优化设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在日志优化设备500上执行存储介质530中的一系列指令操作。

基于日志优化设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的日志优化设备结构并不构成对基于日志优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述日志优化方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种日志优化方法，其特征在于，所述日志优化方法包括：

将抽象处理得到的所有第二属性子集进行合并，得到第二属性集合，根据所述第二属性集合输出所述日志文件集合的关键摘要，并以所述关键摘要代替当前系统所存储的所述日志文件集合。

2.根据权利要求1所述的日志优化方法，其特征在于，所述依次提取所述日志文件集合中每条日志文件的属性特征，以及所述属性特征对应的属性值，并对所述属性特征进行分类处理，得到至少一个第一属性集合包括：

3.根据权利要求2所述的日志优化方法，其特征在于，所述根据所述数值集合对所述属性特征集合中的属性特征进行分类处理，得到所述第一属性集合包括：

或者，

4.根据权利要求3所述的日志优化方法，其特征在于，在所述根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集之前，还包括：

根据所述最大频数，对所述第一属性值子集中的属性特征进行排序，得到属性特征序列，并选择序列中频数最低的属性特征作为目标属性特征。

5.根据权利要求4所述的日志优化方法，其特征在于，若每个所述属性特征均设置至少两个对应的属性值时，所述根据预设的抽象摘要算法，分别对所述第一属性值子集中的属性值进行抽象处理，生成对应的第二属性子集包括：

6.根据权利要求5所述的日志优化方法，其特征在于，所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合包括:

7.根据权利要求6所述的日志优化方法，其特征在于，在所述根据所述抽象摘要算法，对所述目标属性值进行抽象处理，得到所述第二属性集合之后，还包括：

若所述个数小于或者等于所述期望阈值，则停止抽象处理。

8.一种日志优化装置，其特征在于，所述日志优化装置包括：

9.一种日志优化设备，其特征在于，所述日志优化设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的日志优化方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的日志优化方法的步骤。