CN112860648A

CN112860648A - 一种基于日志平台的智能分析方法

Info

Publication number: CN112860648A
Application number: CN202011598259.2A
Authority: CN
Inventors: 岳嘉明
Original assignee: Suning Consumer Finance Co ltd
Current assignee: Suning Consumer Finance Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-28

Abstract

本发明公开了一种基于日志平台的智能分析方法，包括如下步骤：第一步，获取Nginx服务器的日志数据；第二步，将正常日志和异常日志各自形成对应的簇，对系统日志及系统硬件数据进行实时收集；第三步，对日志信息进行正则处理，得到关键特征值，对日志文本进行向量化；第四步，针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化，得出多维矩阵；对向量化的日志进行降维处理；第五步，对降维后的矩阵进行聚类操作，将不同的攻击类型分类，形成多个簇；第六步，对构建的模型进行检验，分析检测效果。本发明对日志数据进行处理分析，考虑检测的实时性，同时考虑到最后检测的运算强度，能够准确检测系统攻击。

Description

一种基于日志平台的智能分析方法

技术领域

本发明属于日志分析技术领域，具体涉及一种基于日志平台的智能分析方法。

背景技术

随着计算机技术和网络技术的迅猛发展，通过对Web服务器日志的分析研究可以对网站的攻击事件进行检测，进而掌握Web服务器被攻击的来源和原因等，提高服务器的安全防护能力。现有技术仅限于已知的攻击类型，并且运算难度大，对于计算处理能力低或无计算能力的设备来说，现有方案不支持；不能检测未知的攻击，以及攻击检测需要计算能力。利用实时日志文本结合此过程中的硬件产生的特征值变化，来对攻击类型进行检测存在以下问题，日志数量巨大、日志种类多，格式多样、日志语义识别困难，日志不能直接用于研究。

发明内容

本发明的针对现有技术中的不足，提供一种基于日志平台的智能分析方法。

为实现上述目的，本发明采用以下技术方案：一种基于日志平台的智能分析方法，包括如下步骤：

第一步，获取Nginx服务器的日志数据，通过flume模块采集nginx服务器中的日志文件，并将所述日志文件转移并保存到 HDFS系统中；

第二步，将正常日志和异常日志各自形成对应的簇，对系统日志及系统硬件数据进行实时收集；

第三步，对日志信息进行正则处理，得到关键特征值，对日志文本进行向量化；

第四步，针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化，得出多维矩阵；对向量化的日志进行降维处理；

第五步，对降维后的矩阵进行聚类操作，将不同的攻击类型分类，形成多个簇，以备后续的检验操作；

第六步，对构建的模型进行检验，分析检测效果。

为优化上述技术方案，采取的具体措施还包括：

进一步地，第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息；其中，系统正常日志信息量多于异常日志信息量。

进一步地，向量化特征包括：日志条数、持续时间、平均间隔、nginx statusconnections active、nginxstatus connections reading、nginx status serverrequests、nginx statusconnections writing的14维特征值。

进一步地，所述基于日志平台的智能分析方法包括：

步骤一，通过信息采集模块在多域系统中得到正常状态以及系统遭受外部攻击时的日志信息；

步骤二，对正常日志进行处理；1)通过正则过滤日志文本；2)日志文本向量化，选取14维度特征值表示一个事件；3)利用PCA对矩阵进行降维；4)对降维后的矩阵进行聚类，得到多个簇；

步骤三，对异常入侵检测进行验证。

进一步地，所述步骤三进一步包括：1)将待验证的日志综合系统硬件的数据向量化，形成待检验矩阵；2)通过PCA降维将矩阵降成4维；3)先判断待检验矩阵是否为正常情况下的日志，即先通过计算得到距离正常簇的距离，若可以规划到正常簇，则认为是正常日志，如果是，则验证完毕；反之，执行4)；4)已验证待检测矩阵是系统处在非正常运行状态下，再次和异常簇进行聚类，计算矩阵到已知异常簇的距离，若存在，则将异常归结为该种类攻击，否则，将把该异常看做一种新的攻击种类，加入学习中。

进一步地，日志来源多个子域，其中包含着行为日志、运行日志。

本发明的有益效果是：本发明对Nginx服务器的日志数据进行处理分析，考虑检测的实时性，同时考虑到最后检测的运算强度，能够准确检测系统攻击。

附图说明

图1是本发明的方法流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

本发明提供了一种基于日志平台的智能分析方法，包括如下步骤：

第一步，获取Nginx服务器的日志数据，通过flume模块采集nginx服务器中的日志文件，并将所述日志文件转移并保存到 HDFS系统中。在数据层，Nginx服务器将Nginx进程的变化写进日志中，并将新增的日志数据实时同步到安全分析服务器。Nginx服务器实时监测日志的变化，在日志发生变化时，即产生新的日志数据时，将日志数据以日志数据流的形式发送到安全分析服务器，安全分析服务器接收到日志数据后，通过安全分析引擎对日志数据进行分析，以对站点进行安全防护，达到了近实时防护的效果。安全分析服务器还包括web管理界面，实现web层的安全分析报告、请求管理以及安全规则管理等。安全分析服务器中的安全分析引擎对内存中的日志数据流进行下述分析，具备快速分析的能力。

第二步，将正常日志和异常日志各自形成对应的簇，对系统日志及系统硬件数据进行实时收集；包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息；其中，系统正常日志信息量多于异常日志信息量。

第三步，对日志信息进行正则处理，得到关键特征值，对日志文本进行向量化；向量化特征包括：日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connections reading、nginx status server requests、nginxstatusconnections writing的14维特征值。

第四步，针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化，得出多维矩阵；对向量化的日志进行降维处理；由于系统每天会产生大量日志信息，为了后期运算方便将多为矩阵降到4维方便后续处理。

利用本发明的方法对异常入侵检测进行验证。经过前期的学习训练过程，本发明已经得到正常情况下系统被访问时的日志所聚类形成的簇以及在异常情况下系统日志聚类形成的簇。在已有簇的情况下进行入侵检测验证，利用KNN思想，所需步骤如下所示：

1)将待验证的日志综合系统硬件的数据向量化，形成待检验矩阵；2)通过PCA降维将矩阵降成4维；3)先判断待检验矩阵是否为正常情况下的日志，即先通过计算得到距离正常簇的距离，若可以规划到正常簇，则认为是正常日志，如果是，则验证完毕；反之，执行4)；4)已验证待检测矩阵是系统处在非正常运行状态下，再次和异常簇进行聚类，计算矩阵到已知异常簇的距离，若存在，则将异常归结为该种类攻击，否则，将把该异常看做一种新的攻击种类，加入学习中。

第六步，对构建的模型进行检验，分析检测效果。

本发明对Nginx服务器的日志数据进行处理分析，考虑检测的实时性，同时考虑到最后检测的运算强度，能够准确检测系统攻击。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于日志平台的智能分析方法，其特征在于，包括如下步骤：

第六步，对构建的模型进行检验，分析检测效果。

2.根据权利要求1所述的智能分析方法，其特征在于，第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息；其中，系统正常日志信息量多于异常日志信息量。

3.根据权利要求1所述的智能分析方法，其特征在于，向量化特征包括：日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connectionsreading、nginx status server requests、nginx statusconnections writing的14维特征值。

4.根据权利要求1所述的智能分析方法，其特征在于，所述基于日志平台的智能分析方法包括：

步骤三，对异常入侵检测进行验证。

5.根据权利要求4所述的智能分析方法，其特征在于，所述步骤三进一步包括：1)将待验证的日志综合系统硬件的数据向量化，形成待检验矩阵；2)通过PCA降维将矩阵降成4维；3)先判断待检验矩阵是否为正常情况下的日志，即先通过计算得到距离正常簇的距离，若可以规划到正常簇，则认为是正常日志，如果是，则验证完毕；反之，执行4)；4)已验证待检测矩阵是系统处在非正常运行状态下，再次和异常簇进行聚类，计算矩阵到已知异常簇的距离，若存在，则将异常归结为该种类攻击，否则，将把该异常看做一种新的攻击种类，加入学习中。

6.根据权利要求1所述的智能分析方法，其特征在于，日志来源多个子域，其中包含着行为日志、运行日志。