CN112860648A - 一种基于日志平台的智能分析方法 - Google Patents
一种基于日志平台的智能分析方法 Download PDFInfo
- Publication number
- CN112860648A CN112860648A CN202011598259.2A CN202011598259A CN112860648A CN 112860648 A CN112860648 A CN 112860648A CN 202011598259 A CN202011598259 A CN 202011598259A CN 112860648 A CN112860648 A CN 112860648A
- Authority
- CN
- China
- Prior art keywords
- log
- matrix
- normal
- analysis method
- intelligent analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于日志平台的智能分析方法,包括如下步骤:第一步,获取Nginx服务器的日志数据;第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇;第六步,对构建的模型进行检验,分析检测效果。本发明对日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。
Description
技术领域
本发明属于日志分析技术领域,具体涉及一种基于日志平台的智能分析方法。
背景技术
随着计算机技术和网络技术的迅猛发展,通过对Web服务器日志的分析研究可以对网站的攻击事件进行检测,进而掌握Web服务器被攻击的来源和原因等,提高服务器的安全防护能力。现有技术仅限于已知的攻击类型,并且运算难度大,对于计算处理能力低或无计算能力的设备来说,现有方案不支持;不能检测未知的攻击,以及攻击检测需要计算能力。利用实时日志文本结合此过程中的硬件产生的特征值变化,来对攻击类型进行检测存在以下问题,日志数量巨大、日志种类多,格式多样、日志语义识别困难,日志不能直接用于研究。
发明内容
本发明的针对现有技术中的不足,提供一种基于日志平台的智能分析方法。
为实现上述目的,本发明采用以下技术方案:一种基于日志平台的智能分析方法,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中;
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
为优化上述技术方案,采取的具体措施还包括:
进一步地,第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
进一步地,向量化特征包括:日志条数、持续时间、平均间隔、nginx statusconnections active、nginxstatus connections reading、nginx status serverrequests、nginx statusconnections writing的14维特征值。
进一步地,所述基于日志平台的智能分析方法包括:
步骤一,通过信息采集模块在多域系统中得到正常状态以及系统遭受外部攻击时的日志信息;
步骤二,对正常日志进行处理;1)通过正则过滤日志文本;2)日志文本向量化,选取14维度特征值表示一个事件;3)利用PCA对矩阵进行降维;4)对降维后的矩阵进行聚类,得到多个簇;
步骤三,对异常入侵检测进行验证。
进一步地,所述步骤三进一步包括:1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
进一步地,日志来源多个子域,其中包含着行为日志、运行日志。
本发明的有益效果是:本发明对Nginx服务器的日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。
附图说明
图1是本发明的方法流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明提供了一种基于日志平台的智能分析方法,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中。在数据层,Nginx服务器将Nginx进程的变化写进日志中,并将新增的日志数据实时同步到安全分析服务器。Nginx服务器实时监测日志的变化,在日志发生变化时,即产生新的日志数据时,将日志数据以日志数据流的形式发送到安全分析服务器,安全分析服务器接收到日志数据后,通过安全分析引擎对日志数据进行分析,以对站点进行安全防护,达到了近实时防护的效果。安全分析服务器还包括web管理界面,实现web层的安全分析报告、请求管理以及安全规则管理等。安全分析服务器中的安全分析引擎对内存中的日志数据流进行下述分析,具备快速分析的能力。
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;向量化特征包括:日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connections reading、nginx status server requests、nginxstatusconnections writing的14维特征值。
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;由于系统每天会产生大量日志信息,为了后期运算方便将多为矩阵降到4维方便后续处理。
利用本发明的方法对异常入侵检测进行验证。经过前期的学习训练过程,本发明已经得到正常情况下系统被访问时的日志所聚类形成的簇以及在异常情况下系统日志聚类形成的簇。在已有簇的情况下进行入侵检测验证,利用KNN思想,所需步骤如下所示:
1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
本发明对Nginx服务器的日志数据进行处理分析,考虑检测的实时性,同时考虑到最后检测的运算强度,能够准确检测系统攻击。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (6)
1.一种基于日志平台的智能分析方法,其特征在于,包括如下步骤:
第一步,获取Nginx服务器的日志数据,通过flume模块采集nginx服务器中的日志文件,并将所述日志文件转移并保存到 HDFS系统中;
第二步,将正常日志和异常日志各自形成对应的簇,对系统日志及系统硬件数据进行实时收集;
第三步,对日志信息进行正则处理,得到关键特征值,对日志文本进行向量化;
第四步,针对提取出的特征值对日志文本以及硬件方面产生的实时数据进行统一向量化,得出多维矩阵;对向量化的日志进行降维处理;
第五步,对降维后的矩阵进行聚类操作,将不同的攻击类型分类,形成多个簇,以备后续的检验操作;
第六步,对构建的模型进行检验,分析检测效果。
2.根据权利要求1所述的智能分析方法,其特征在于,第一步中包括系统正常状态下的日志信息和系统遭受外部攻击时所产生的日志信息;其中,系统正常日志信息量多于异常日志信息量。
3.根据权利要求1所述的智能分析方法,其特征在于,向量化特征包括:日志条数、持续时间、平均间隔、nginx status connections active、nginxstatus connectionsreading、nginx status server requests、nginx statusconnections writing的14维特征值。
4.根据权利要求1所述的智能分析方法,其特征在于,所述基于日志平台的智能分析方法包括:
步骤一,通过信息采集模块在多域系统中得到正常状态以及系统遭受外部攻击时的日志信息;
步骤二,对正常日志进行处理;1)通过正则过滤日志文本;2)日志文本向量化,选取14维度特征值表示一个事件;3)利用PCA对矩阵进行降维;4)对降维后的矩阵进行聚类,得到多个簇;
步骤三,对异常入侵检测进行验证。
5.根据权利要求4所述的智能分析方法,其特征在于,所述步骤三进一步包括:1)将待验证的日志综合系统硬件的数据向量化,形成待检验矩阵;2)通过PCA降维将矩阵降成4维;3)先判断待检验矩阵是否为正常情况下的日志,即先通过计算得到距离正常簇的距离,若可以规划到正常簇,则认为是正常日志,如果是,则验证完毕;反之,执行4);4)已验证待检测矩阵是系统处在非正常运行状态下,再次和异常簇进行聚类,计算矩阵到已知异常簇的距离,若存在,则将异常归结为该种类攻击,否则,将把该异常看做一种新的攻击种类,加入学习中。
6.根据权利要求1所述的智能分析方法,其特征在于,日志来源多个子域,其中包含着行为日志、运行日志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598259.2A CN112860648A (zh) | 2020-12-30 | 2020-12-30 | 一种基于日志平台的智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598259.2A CN112860648A (zh) | 2020-12-30 | 2020-12-30 | 一种基于日志平台的智能分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112860648A true CN112860648A (zh) | 2021-05-28 |
Family
ID=75998215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011598259.2A Withdrawn CN112860648A (zh) | 2020-12-30 | 2020-12-30 | 一种基于日志平台的智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473094A (zh) * | 2023-12-27 | 2024-01-30 | 南京聚铭网络科技有限公司 | 日志分类方法及系统 |
-
2020
- 2020-12-30 CN CN202011598259.2A patent/CN112860648A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473094A (zh) * | 2023-12-27 | 2024-01-30 | 南京聚铭网络科技有限公司 | 日志分类方法及系统 |
CN117473094B (zh) * | 2023-12-27 | 2024-03-22 | 南京聚铭网络科技有限公司 | 日志分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107070943B (zh) | 基于流量特征图和感知哈希的工业互联网入侵检测方法 | |
CN108427720B (zh) | 系统日志分类方法 | |
CN111901340B (zh) | 一种面向能源互联网的入侵检测系统及其方法 | |
CN112016602B (zh) | 电网故障原因与状态量的关联分析方法,设备和存储介质 | |
Liu et al. | Web intrusion detection system combined with feature analysis and SVM optimization | |
CN112765603A (zh) | 一种结合系统日志与起源图的异常溯源方法 | |
Chang et al. | Anomaly detection for industrial control systems using k-means and convolutional autoencoder | |
CN110855648B (zh) | 一种网络攻击的预警控制方法及装置 | |
CN112637108B (zh) | 一种基于异常检测和情感分析的内部威胁分析方法及系统 | |
CN109726737B (zh) | 基于轨迹的异常行为检测方法及装置 | |
CN111598179A (zh) | 电力监控系统用户异常行为分析方法、存储介质和设备 | |
CN109784668A (zh) | 一种用于电力监控系统异常行为检测的样本特征降维处理方法 | |
CN110022313B (zh) | 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法 | |
CN110809009A (zh) | 一种应用于工控网络的两级入侵检测系统 | |
CN112860648A (zh) | 一种基于日志平台的智能分析方法 | |
CN111709021B (zh) | 一种基于海量告警的攻击事件识别方法及电子装置 | |
CN112306820A (zh) | 一种日志运维根因分析方法、装置、电子设备及存储介质 | |
CN116074092B (zh) | 一种基于异构图注意力网络的攻击场景重构系统 | |
CN116563690A (zh) | 一种无人机传感器类不平衡数据异常检测方法及检测系统 | |
Li et al. | Glad: Content-aware dynamic graphs for log anomaly detection | |
CN114969761A (zh) | 一种基于lda主题特征的日志异常检测方法 | |
Zhu et al. | A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm. | |
Shao et al. | Low-latency Dimensional Expansion and Anomaly Detection empowered Secure IoT Network | |
CN111475380A (zh) | 一种日志分析方法和装置 | |
CN115996133B (zh) | 一种工业控制网络行为检测方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210528 |
|
WW01 | Invention patent application withdrawn after publication |