CN112860648A - 一种基于日志平台的智能分析方法 - Google Patents

一种基于日志平台的智能分析方法 Download PDF

Info

Publication number
CN112860648A
CN112860648A CN202011598259.2A CN202011598259A CN112860648A CN 112860648 A CN112860648 A CN 112860648A CN 202011598259 A CN202011598259 A CN 202011598259A CN 112860648 A CN112860648 A CN 112860648A
Authority
CN
China
Prior art keywords
log
matrix
normal
analysis method
intelligent analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011598259.2A
Other languages
English (en)
Inventor
岳嘉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Consumer Finance Co ltd
Original Assignee
Suning Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Consumer Finance Co ltd filed Critical Suning Consumer Finance Co ltd
Priority to CN202011598259.2A priority Critical patent/CN112860648A/zh
Publication of CN112860648A publication Critical patent/CN112860648A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于日志平台的智能分析方法,包括如下步骤:第一步,获取Nginx服务器的日志数据;第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇;第六步,对构建的模型进行检验,分析检测效果。本发明对日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。

Description

一种基于日志平台的智能分析方法
技术领域
本发明属于日志分析技术领域,具体涉及一种基于日志平台的智能分析方法。
背景技术
随着计算机技术和网络技术的迅猛发展,通过对Web服务器日志的分析研究可以对网站的攻击事件进行检测,进而掌握Web服务器被攻击的来源和原因等,提高服务器的安全防护能力。现有技术仅限于已知的攻击类型,并且运算难度大,对于计算处理能力低或无计算能力的设备来说,现有方案不支持;不能检测未知的攻击,以及攻击检测需要计算能力。利用实时日志文本结合此过程中的硬件产生的特征值变化,来对攻击类型进行检测存在以下问题,日志数量巨大、日志种类多,格式多样、日志语义识别困难,日志不能直接用于研究。
发明内容
本发明的针对现有技术中的不足,提供一种基于日志平台的智能分析方法。
为实现上述目的,本发明采用以下技术方案:一种基于日志平台的智能分析方法,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中;
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
为优化上述技术方案,采取的具体措施还包括:
进一步地,第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
进一步地,向量化特征包括:日志条数、持续时间、平均间隔、nginx statusconnections active、nginxstatus connections reading、nginx status serverrequests、nginx statusconnections writing的14维特征值。
进一步地,所述基于日志平台的智能分析方法包括:
步骤一,通过信息采集模块在多域系统中得到正常状态以及系统遭受外部攻击时的日志信息;
步骤二,对正常日志进行处理;1)通过正则过滤日志文本;2)日志文本向量化,选取14维度特征值表示一个事件;3)利用PCA对矩阵进行降维;4)对降维后的矩阵进行聚类,得到多个簇;
步骤三,对异常入侵检测进行验证。
进一步地,所述步骤三进一步包括:1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
进一步地,日志来源多个子域,其中包含着行为日志、运行日志。
本发明的有益效果是:本发明对Nginx服务器的日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。
附图说明
图1是本发明的方法流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明提供了一种基于日志平台的智能分析方法,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中。在数据层,Nginx服务器将Nginx进程的变化写进日志中,并将新增的日志数据实时同步到安全分析服务器。Nginx服务器实时监测日志的变化,在日志发生变化时,即产生新的日志数据时,将日志数据以日志数据流的形式发送到安全分析服务器,安全分析服务器接收到日志数据后,通过安全分析引擎对日志数据进行分析,以对站点进行安全防护,达到了近实时防护的效果。安全分析服务器还包括web管理界面,实现web层的安全分析报告、请求管理以及安全规则管理等。安全分析服务器中的安全分析引擎对内存中的日志数据流进行下述分析,具备快速分析的能力。
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;向量化特征包括:日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connections reading、nginx status server requests、nginxstatusconnections writing的14维特征值。
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;由于系统每天会产生大量日志信息,为了后期运算方便将多为矩阵降到4维方便后续处理。
利用本发明的方法对异常入侵检测进行验证。经过前期的学习训练过程,本发明已经得到正常情况下系统被访问时的日志所聚类形成的簇以及在异常情况下系统日志聚类形成的簇。在已有簇的情况下进行入侵检测验证,利用KNN思想,所需步骤如下所示:
1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
本发明对Nginx服务器的日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于日志平台的智能分析方法,其特征在于,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中;
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
2.根据权利要求1所述的智能分析方法,其特征在于,第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
3.根据权利要求1所述的智能分析方法,其特征在于,向量化特征包括:日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connectionsreading、nginx status server requests、nginx statusconnections writing的14维特征值。
4.根据权利要求1所述的智能分析方法,其特征在于,所述基于日志平台的智能分析方法包括:
步骤一,通过信息采集模块在多域系统中得到正常状态以及系统遭受外部攻击时的日志信息;
步骤二,对正常日志进行处理;1)通过正则过滤日志文本;2)日志文本向量化,选取14维度特征值表示一个事件;3)利用PCA对矩阵进行降维;4)对降维后的矩阵进行聚类,得到多个簇;
步骤三,对异常入侵检测进行验证。
5.根据权利要求4所述的智能分析方法,其特征在于,所述步骤三进一步包括:1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
6.根据权利要求1所述的智能分析方法,其特征在于,日志来源多个子域,其中包含着行为日志、运行日志。
CN202011598259.2A 2020-12-30 2020-12-30 一种基于日志平台的智能分析方法 Withdrawn CN112860648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011598259.2A CN112860648A (zh) 2020-12-30 2020-12-30 一种基于日志平台的智能分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011598259.2A CN112860648A (zh) 2020-12-30 2020-12-30 一种基于日志平台的智能分析方法

Publications (1)

Publication Number Publication Date
CN112860648A true CN112860648A (zh) 2021-05-28

Family

ID=75998215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011598259.2A Withdrawn CN112860648A (zh) 2020-12-30 2020-12-30 一种基于日志平台的智能分析方法

Country Status (1)

Country Link
CN (1) CN112860648A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473094A (zh) * 2023-12-27 2024-01-30 南京聚铭网络科技有限公司 日志分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473094A (zh) * 2023-12-27 2024-01-30 南京聚铭网络科技有限公司 日志分类方法及系统
CN117473094B (zh) * 2023-12-27 2024-03-22 南京聚铭网络科技有限公司 日志分类方法及系统

Similar Documents

Publication Publication Date Title
CN107070943B (zh) 基于流量特征图和感知哈希的工业互联网入侵检测方法
CN108427720B (zh) 系统日志分类方法
CN111901340B (zh) 一种面向能源互联网的入侵检测系统及其方法
CN112016602B (zh) 电网故障原因与状态量的关联分析方法,设备和存储介质
Liu et al. Web intrusion detection system combined with feature analysis and SVM optimization
CN112765603A (zh) 一种结合系统日志与起源图的异常溯源方法
Chang et al. Anomaly detection for industrial control systems using k-means and convolutional autoencoder
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN112637108B (zh) 一种基于异常检测和情感分析的内部威胁分析方法及系统
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN111598179A (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN109784668A (zh) 一种用于电力监控系统异常行为检测的样本特征降维处理方法
CN110022313B (zh) 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN110809009A (zh) 一种应用于工控网络的两级入侵检测系统
CN112860648A (zh) 一种基于日志平台的智能分析方法
CN111709021B (zh) 一种基于海量告警的攻击事件识别方法及电子装置
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN116074092B (zh) 一种基于异构图注意力网络的攻击场景重构系统
CN116563690A (zh) 一种无人机传感器类不平衡数据异常检测方法及检测系统
Li et al. Glad: Content-aware dynamic graphs for log anomaly detection
CN114969761A (zh) 一种基于lda主题特征的日志异常检测方法
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
Shao et al. Low-latency Dimensional Expansion and Anomaly Detection empowered Secure IoT Network
CN111475380A (zh) 一种日志分析方法和装置
CN115996133B (zh) 一种工业控制网络行为检测方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210528

WW01 Invention patent application withdrawn after publication