CN111897788A

CN111897788A - 基于算法选择的日志检索分析及可视化挖掘方法

Info

Publication number: CN111897788A
Application number: CN202010672021.3A
Authority: CN
Inventors: 谢辉; 谢良汉; 易鹏程; 尤如飞
Original assignee: China Telecom Fufu Information Technology Co Ltd
Current assignee: China Telecom Fufu Information Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-06

Abstract

本发明公开基于算法选择的日志检索分析及可视化挖掘方法，基于算法的检索分析是在日志属性条件配置的基础上引入了算法相关信息的配置，通过对不同条件之间的测算完成日志的检索分析。通过仿真模型确定模型结构和各参数初始范围,挖掘现场运行的历史数据,利用智能优化算法对模型进行校正,得到系统的传递函数模型数据分析。建模需要先明确业务需求，然后选择是描述型分析还是预测型分析。如果分析的目的是描述客户行为模式，就采用描述型数据分析，描述型分析就考虑关联规则、序列规则、聚类等模型。本发明引入基于模型和可视化的挖掘分析，提高了用户对挖掘分析的整体流程的感知。

Description

基于算法选择的日志检索分析及可视化挖掘方法

技术领域

本发明涉及数据分析及挖掘技术领域，尤其涉及基于算法选择的日志检索分析及可视化挖掘方法。

背景技术

旧的检索分析基于检索条件生成规则，并不能直观的体现出系统在检索分析过程中使用了什么样的方式来进行，检索规则具体起了什么样的作用，通过对检索分析规则与算法配置关联关系，提高了规则的可读性。传统的挖掘分析基于规则和算法进行，用户配置后由后台挖掘引擎根据规则完成与大数据平台的对接和算法的处理，这些操作都在后台进行，用户无法进行感知。引入基于模型和可视化的挖掘分析，提高了用户对挖掘分析的整体流程的感知。

发明内容

本发明的目的在于提供基于算法选择的日志检索分析及可视化挖掘方法。

本发明采用的技术方案是：

基于算法选择的日志检索分析及可视化挖掘方法，其包括检索和挖掘两部分，具体步骤如下：

一、检索部分包括以下步骤：

步骤1-1，采集获取所有的日志数据，构建索引后存储于分布式文件系统中；

步骤1-2,根据自身检索的需求从多种候选测算方法中选取一个算法；

步骤1-3,根据选定的算法配置对应的算法参数信息；

步骤1-4,基于配置信息执行选定的算法流程以获取对应的测算结果；

步骤1-5，基于测试结果决定是否产生告警；

二、挖掘部分包括以下步骤：

步骤2-1，明确业务需求并基于业务需求从候选模型选择对应的模型；

步骤2-2，基于选定模型的特点设置对应的条件以配置挖掘数据的来源；

步骤2-3，针对确定的挖掘数据来源调整选定模型的算法参数信息；

步骤2-4，执行选定的模型得到模型运算结果；

步骤2-5，根据模型中的配置通过告警、报表、可视化的方式输出模型挖掘的分析结果。

进一步地，步骤1-2中候选算法包括容忍度测算方法、突变测算方法、峰值测算方法和差值测算方法。

进一步地，检索部分中当容忍度测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择容忍行为的属性条件；

步骤1-3-2，选择被容忍行为的属性条件；

步骤1-3-3，选择容忍度测算的关注点；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，提取容忍行为的数据；

步骤1-4-2，提取容忍行为的关注点；

步骤1-4-3，从单个关注点提取容忍和被容忍的占比；

步骤1-5的具体步骤为：判断算法获取同一关注点的占比是否超过容忍度阈值；是则，产生告警；否则，不告警并选定下个关注点执行步骤1-5。

进一步地，检索部分中当突变测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择突变测算的属性条件；

步骤1-3-2，选择突变测算的时间差；

步骤1-3-3，选择突变测算的关注点；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，提取当前时间内满足属性条件的数据按关注点汇总计数；当前时间内即表示(当前时间-突变测算的时间差)到当前时间的一段时间段。

步骤1-4-2，提取配置中上一个时间内满足属性条件的数据的同一关注点汇总计数；

步骤1-5的具体步骤为：判断算法获取的同一关注点的前后时间的计数变化趋势是否超过预设的趋势变化阈值；是则，产生告警；否则，不告警并选定下个关注点执行步骤1-5。

进一步地，检索部分中当峰值测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择峰值测算的属性条件；

步骤1-3-2，选择峰值测算的关注点；

步骤1-3-3，配置初始top的值；

步骤1-3-4，配置top测算的阈值；

步骤1-4的执行选定算法后具体流程步骤为：提取当前时间内满足条件的数据按关注点汇总并计数排名；

步骤1-5的具体步骤为：按排名从大到小判断算法获取的top的值是否超过峰值的阈值；是则，产生告警；否则，不告警定位下个关注点执行步骤1-5。

进一步地，检索部分中当差值测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，配置差值测算的关注点；

步骤1-3-2，配置差值前的属性条件；

步骤1-3-3，配置差值后的属性条件；

步骤1-3-4，配置差值比对的属性；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，根据差值前的属性条件提取数据；

步骤1-4-2，按关注点获取提取数据的差值前属性的值；

步骤1-4-3，根据差值后的属性条件提取数据；

步骤1-4-4，按关注点获取提取数据的差值后属性的值；

步骤1-4-5，比较同一关注点的差值前属性的值和差值后属性的值得到对比差值；

步骤1-5的具体步骤为：判断算法获取的同一关注点的对比差值是否超过预设阈值；是则，产生告警；否则，不告警定位下个关注点执行步骤1-4-5。

进一步地，候选模型包括描述型分析模型和预测型分析模型。

进一步地，步骤2-2中配置模型数据来源的具体方法为：

针对统计分析和回归分析，只需选择满足某个条件的日志参与分析；

针对关联分析，根据模型配置事件信息；事件的条件包括事件原始日志的条件(包含、不包含-这里是未产生意思)、用户名(等、不等、包含、不包含)、源地址(等、不等、包含、不包含)、目标地址(等、不等、包含、不包含)、源端口(等、不等、大于、小于)、目标端口(等、不等、大于、小于)。

进一步地，步骤2-3中算法参数配置的具体方法为：

不同的挖掘算法在模型建立、分析、结果生成过程中的参数并不完全相同，需要根据不同的算法进行不同参数的配置。

在关联分析中，主要参数为两个不同事件间的属性的关联关系，不同事件间的属性包括源地址、源端口、目的地址、目的端口和用户名；关联关系包括相等与不等；

在统计分析中，主要参数为统计的关注点、统计的维度、统计的方式和统计的时长；统计的方式包括属性和、计数和、属性最大值；统计的时长按天或者小时；

在回归分析中，主要参数为回归分析的关注点和回归分析基准值时长；回归分析的关注点包括用户、源地址、目标地址。

本发明采用以上技术方案，基于算法的检索分析是在日志属性条件配置的基础上引入了算法相关信息的配置，通过对不同条件之间的测算完成日志的检索分析。通过仿真模型确定模型结构和各参数初始范围,挖掘现场运行的历史数据,利用智能优化算法对模型进行校正,得到系统的传递函数模型数据分析。建模需要先明确业务需求，然后选择是描述型分析还是预测型分析。如果分析的目的是描述客户行为模式，就采用描述型数据分析，描述型分析就考虑关联规则、序列规则、聚类等模型。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于算法选择的日志检索分析及可视化挖掘方法的原理架构示意图；

图2为本发明基于算法选择的日志检索分析及可视化挖掘方法的检索部分流程示意图；

图3为本发明基于算法选择的日志检索分析及可视化挖掘方法的挖掘部分流程示意图；

图4为本发明检索部分的容忍度测算方法的流程示意图；

图5为本发明检索部分的突变测算方法的流程示意图；

图6为本发明检索部分的峰值测算方法的流程示意图；

图7为本发明检索部分的差值测算方法的流程示意图；

图8为本发明分析结果的图表输出示意图；

图9为办公可疑扫描行为侦测示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

本发明主要是改进原有检索分析和挖掘分析的设计思路，从算法的角度进行检索分析。从建模和可视化的角度进行挖掘分析。

如图1至8之一所示，本发明公开了基于算法选择的日志检索分析及可视化挖掘方法，其包括检索和挖掘两部分，具体步骤如下：

一、检索部分：如图2所示，检索部分包括以下步骤：

步骤1-3,根据选定的算法配置对应的算法参数信息；

步骤1-5，基于测试结果决定是否产生告警；

如图4所示，容忍度的测算主要是两个不同日志条件之间的相除而来，主要用于发现同一个用户、同一个源地址发起各类行为占比操作是否超标的情况，比如说当天内里同一用户对数据库中的导出操作是否占该用户当天所有数据库操作的一半以上，

按容忍度测算规则中配置的开始时间和周期决定本次分析相关事件的时间区间，即从开始时间减去周期到开始时间为止为本次分析的事件区间。

从事件区间和日志类型的组合依次查找事件条件1和事件条件2的数据，并把这两个数据按关注点进行汇总计数，提取两次汇总中相关的关注点，通过关注点的循环计算两个事件总数的占比，对占比超过阀值的情况进行告警。

如图5所示，突变测算主要是对同一个日志属性下不同时间段之间的数量的变化进行测算，出现变化明显的情况进行告警，例如对一个目标地址当前小时内事件量为前一个小时的5倍。

突变测算由规则的开始时间和规则的时间间隔进行处理，根据事件条件分别读取当时时间减去时间差到当时时间的事件量和当时时间减去两个时间差到当时时间减去时间差的事件量。通过关注点把这两个时段中关注点的事件量进行相除，如果结果大于规则给定的阀值，则对相关的关注点进行告警。

如图6所示，峰值测算主要是通过同一日志属性按关注点进行排序，对从高到低的topn进行告警。峰值测算根据规则中配置的时间启动，获取前一周期中所有满足条件数据并且按关注点进行从大到小的排序，对于前n位(n为规则中配置的top值)取值大于规则阀值的情况进行告警。

如图7所示，差值测算主要是对同一个关注点下不同时间的同一日志属性的矢量差进行分析，矢量差超过规则阀值产生告警，例如同一个用户登出和登录时间矢量差在3天以上的产生告警。差值测算根据规则中配置的时间启动，获取前一周期中所有满足条件2的数据和满足条件1的数据，通过对条件2和条件1同一关注点下相关属性的矢量差与规则阀值比对的情况，若出现超过阀值的情况则进行告警。

二、挖掘部分：如图3所示，挖掘部分包括以下步骤：

步骤2-4，执行选定的模型得到模型运算结果；

具体地，基于建模和可视化的挖掘分析可以分为三个部分，模型相关数据来源的配置，模型算法参数的配置，模型运算结果的可视化展示。

具体地，模型数据的来源主要配置模型相关的数据信息，非所有的数据都参与每个模型的建立和结果的可视化，对于统计和回归分析，只需要选择满足某个条件的日志参与分析，而对于关联分析，因为需要选择不同事件之间的关联关系，所以需要根据模型配置相关的事件信息。事件的条件主要包含事件原始日志的条件(包含、不包含-这里是未产生意思)、用户名(等、不等、包含、不包含)、源地址(等、不等、包含、不包含)、目标地址(等、不等、包含、不包含)、源端口(等、不等、大于、小于)、目标端口(等、不等、大于、小于)。

具体地，不同的挖掘算法在模型建立、分析、结果生成过程中的参数并不完全相同，需要根据不同的算法进行不同参数的配置。

在关联分析中，主要的参数为两个不同事件间的属性的关联关系，这些属性包括源地址、源端口、目的地址、目的端口、用户名。关联关系包括相等、不等。

在统计分析中，主要的参数为统计的关注点，统计的维度，统计的方式(包括属性和、计数和、属性最大值)，统计的时长(按天、小时)

在回归分析中，主要的参数为回归分析的关注点(用户、源地址、目标地址)，回归分析基准值时长。

步骤2-4，执行选定的模型得到模型运算结果；

具体地，结果的输出主要是根据模型中的配置输出相关分析的结果，输出支持通过告警、报表、可视化的方式进行。对于不同的算法，输出大同小异，只在输出告警的情况下，统计分析的回归分析需要在阀值来做为一个标准。

关联分析算法：模型建立完成后，对关联分析算法的启动，算法启动的通过关联关系，将不同事件关联关系生成HQL语句的条件，通过这些条件的与关系，最后查看是否有日志输出，如果存在日志则进行后续的输出处理。关联分析中加入两个属性的判断，一个为关联时长，一个为是否是空关联，如表1所示。

表1：关联分析表

其中，关联时长的意义为与前一个item的时间差，以天为单位；空关联的话意义是关联条件满足但上一个item的事件不存在，空关联的两个item都必需配置空关联

统计分析算法：模型建立完成后，对统计分析算法的启动，算法启动的通过将条件做为HQL语句的where后的过滤条件，将维度做为group by后的条件，将统计方式做为输出，完成HQL语句的组装，并将统计结果进行汇总，等待后续的输出处理。

回归分析算法：仍沿用现有的回归分析的模块进行，对于异常时刻的结果等待后续的输出处理。

告警输出：挖掘分析结果可以通过告警的方式进行输出。对于关联分析，出现事件即可告警。对于统计分析，统计的结果可以设定阀值，如果出现统计的维度超过阀值的情况，根据规则配置的告警情况进行输出。

关联分析结果需要报表输出时需要在结果执行后，继续将原来HQL根据报表的选择进行统计后生成报表的结果后根据对汇总条件的设置进行入库输出。统计分析结果的报表输出应该与统计的行为相同，无需另外配置报表的输出。回归分析根据分析的关注点按报表的条件进行重新汇总后根据汇总条件的设置进行报表结果入库和输出。

如图8所示，对于所有的分析结果，通过对横纵轴相关展示信息的配置(横轴为时间，纵轴也为时间)。若两轴都为时间，则需要两轴的时间不相同，并以分布的情况展示两个不同时间点上操作的分布情况。

如图9所示，如果纵轴为统计结果的汇总情况，则可视化为关注点按时间的变化的趋势情况。但因关注点在一个系统中比较多，需要列出所有的关注点相关的变化趋势，图表的可视化效果比较差，需要在生成图表的时候进行一次类似于分屏的操作，按数据库中的结果，可以选择多少个关注点为一屏的情况。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：其包括检索和挖掘两部分，具体步骤如下：

一、检索部分包括以下步骤：

步骤1-3,根据选定的算法配置对应的算法参数信息；

步骤1-5，基于测试结果决定是否产生告警；

二、挖掘部分包括以下步骤：

步骤2-4，执行选定的模型得到模型运算结果；

2.根据权利要求1所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：步骤1-2中候选算法包括容忍度测算方法、突变测算方法、峰值测算方法和差值测算方法。

3.根据权利要求2所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：检索部分中当容忍度测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择容忍行为的属性条件；

步骤1-3-2，选择被容忍行为的属性条件；

步骤1-3-3，选择容忍度测算的关注点；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，提取容忍行为的数据；

步骤1-4-2，提取容忍行为的关注点；

步骤1-4-3，从单个关注点提取容忍和被容忍的占比；

4.根据权利要求2所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：检索部分中当突变测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择突变测算的属性条件；

步骤1-3-2，选择突变测算的时间差；

步骤1-3-3，选择突变测算的关注点；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，提取当前时间内满足属性条件的数据按关注点汇总计数；当前时间内即表示（当前时间-突变测算的时间差）到当前时间的一段时间段；

5.根据权利要求2所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：检索部分中当峰值测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，选择峰值测算的属性条件；

步骤1-3-2，选择峰值测算的关注点；

步骤1-3-3，配置初始top的值；

步骤1-3-4，配置top测算的阈值；

6.根据权利要求2所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：检索部分中当差值测算方法为选定算法时，则：

步骤1-3的具体步骤为：

步骤1-3-1，配置差值测算的关注点；

步骤1-3-2，配置差值前的属性条件；

步骤1-3-3，配置差值后的属性条件；

步骤1-3-4，配置差值比对的属性；

步骤1-4的执行选定算法后具体流程步骤为：

步骤1-4-1，根据差值前的属性条件提取数据；

步骤1-4-2，按关注点获取提取数据的差值前属性的值；

步骤1-4-3，根据差值后的属性条件提取数据；

步骤1-4-4，按关注点获取提取数据的差值后属性的值；

7.根据权利要求1所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：步骤2-1中候选模型包括描述型分析模型和预测型分析模型。

8.根据权利要求1所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：步骤2-2中配置模型数据来源的具体方法为：

针对关联分析，根据模型配置事件信息；事件的条件包括事件原始日志的条件、用户名、源地址、目标地址、源端口、目标端口。

9.根据权利要求1所述的基于算法选择的日志检索分析及可视化挖掘方法，其特征在于：步骤2-3中算法参数配置的具体方法为：不同的挖掘算法在模型建立、分析、结果生成过程中的参数并不完全相同，需要根据不同的算法进行不同参数的配置；