CN107707541A - 一种流式的基于机器学习的攻击行为日志实时检测方法 - Google Patents
一种流式的基于机器学习的攻击行为日志实时检测方法 Download PDFInfo
- Publication number
- CN107707541A CN107707541A CN201710896004.6A CN201710896004A CN107707541A CN 107707541 A CN107707541 A CN 107707541A CN 201710896004 A CN201710896004 A CN 201710896004A CN 107707541 A CN107707541 A CN 107707541A
- Authority
- CN
- China
- Prior art keywords
- attack
- module
- model
- machine learning
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种流式的基于机器学习的攻击行为日志实时检测方法,包括日志收集模块、日志处理模块、模型离线训练模块、行为识别模块;所述日志收集模块将服务器的日志文件收集、存储,所述日志处理模块利用流式处理工具分析服务器的日志文件,所述行为识别模块利用模型离线训练模块训练的机器学习检测模型对攻击行为与正常行为进行比对识别。本发明的攻击行为日志实时检测方法基于日志实时收集+流式处理+机器学习的架构,可实现实时的计算分析,达到了日志分析的实时性,有利于更早的发现攻击行为。
Description
技术领域
本发明涉及一种应用攻击行为检测方法,特别是涉及一种流式的基于机器学习的攻击行为日志实时检测方法。
背景技术
每个web服务都会存在一些攻击行为,常见的owasp top10攻击,如sql注入、xss、代码执行、远程命令执行等,每一种攻击行为都有其特点。
常见的攻击行为检测方法基于安全人员针对每一种攻击行为制定的大量检测规则,如果攻击者对攻击方式稍做变形,规则就很难匹配得到,很容易绕过检测。在面临未知的攻击方式时,这种检测方法一般也难以发挥关键作用,需要安全人员重新定制检测规则,不能保证实时性。由于每一个系统的访问请求都有一些自身的特征,而且开发人员的一些不规范的写法更是降低了检测的成功率,其单纯靠规则去匹配,误报率也会很高。
发明内容
本发明的目的是基于上述提出的常见攻击行为检测方法的缺陷,提出一种流式的基于机器学习的攻击行为实时检测方法,以避免上述的问题。本发明的目标是提供一个系统,通过训练好机器学习模型,使用流式处理工具对服务器的各类访问日志实时分析识别正常行为与异常行为,从而大幅提升攻击行为的检测成功率。
为实现上述目的,本发明提供了一种流式的基于机器学习的攻击行为日志实时检测方法,包括日志收集模块,用于收集服务器的日志文件,并放到数据流中供日志处理模块使用;
日志处理模块,用于从流式的数据流中读取数据,对日志文件实时分析;
模型离线训练模块,用于提取历史日志特征,训练机器学习检测模型;
行为识别模块,用于识别模型离线训练模块训练的机器学习检测模型收集的日志文件,并且识别攻击行为与正常行为;
所述日志收集模块将服务器的日志文件收集、存储,所述日志处理模块利用流式处理工具分析服务器的日志文件,所述行为识别模块利用模型离线训练模块训练的机器学习检测模型对攻击行为与正常行为进行比对识别。
优选地,所述日志收集模块包括如下收集步骤:
步骤201,通过程序实时监控、收集访问服务器的日志文件;
步骤202,对日志文件进行处理传输,将日志文件以消息的形式传递给消息队列,通过消息队列把数据传输到所有所需位置并用于流式处理工具消费。
优选地,所述日志处理模块包括如下处理步骤:
步骤301,流式处理工具实时消费消息队列中的日志文件;
步骤302,对取出的日志文件实时进行处理,访问日志中的每一个组成部分。
优选地,所述模型离线训练模块包括如下训练步骤:
步骤401,提取系统的历史访问日志文件中的每一个组成部分;
步骤402,安全人员对提取的每一个组成部分进行分类,分离出正常的访问行为集和异常的攻击行为集;
步骤403,使用机器学习算法对访问行为集合和异常的攻击行为集提取相应的特征,并使用所述特征训练机器学习检测模型。
优选地,所述行为识别模块包括如下识别步骤:
步骤501,数据通过日志处理模块提取特征源数据;
步骤502,使用模型离线训练模块离线训练的机器学习检测模型对攻击行为与正常行为进行比对识别;
步骤503,对当前行为记录预测是正常行为还是攻击行为。
优选地,步骤504,所述行为识别模块对当前行为识别结果产生错误时,将当前行为的特征添加到数据集中,并且所述模型离线训练模块利用当前行为的特征对机器学习检测模型进行训练。
基于上述技术方案,本发明的优点是:
本发明的流式的基于机器学习的攻击行为日志实时检测方法能够克服传统的基于规则识别攻击行为的缺点,如检测规则容易被绕过、检测误报率高等缺点,针对每一个系统训练出适用的检测模型,特征提取简单,在经过开始阶段的模型训练,模型逐渐稳定之后,可达到误报率低、检测率高的优势。本发明的攻击行为日志实时检测方法基于日志实时收集+流式处理+机器学习的架构,可实现实时的计算分析,达到了日志分析的实时性,有利于更早的发现攻击行为。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为攻击行为日志实时检测方法步骤图;
图2为日志收集模块收集步骤图;
图3为日志处理模块处理步骤图;
图4为模型离线训练模块训练步骤图;
图5为行为识别模块识别步骤图;
图6为模型离线训练模块训练流程示意图;
图7为行为识别模块识别流程示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供了一种流式的基于机器学习的攻击行为日志实时检测方法,如图1~图7所示,其中示出了本发明的一种优选实施方式。所述攻击行为日志实时检测方法包括日志收集模块,用于收集服务器的日志文件,并放到数据流中供日志处理模块使用;日志处理模块,用于从流式的数据流中读取数据,对日志文件实时分析;模型离线训练模块,用于提取历史日志特征,训练机器学习检测模型;行为识别模块,用于识别模型离线训练模块训练的机器学习检测模型收集的日志文件,并且识别攻击行为与正常行为。
如图1所示,所述日志收集模块将服务器的日志文件收集、存储,所述日志处理模块利用流式处理工具分析服务器的日志文件,所述行为识别模块利用模型离线训练模块训练的机器学习检测模型对攻击行为与正常行为进行比对识别。本发明能够通过训练好机器学习模型,使用流式处理工具对服务器的各类访问日志实时分析识别正常行为与异常行为,从而大幅提升攻击行为的检测成功率。
优选地,如图2所示,其示出了一种基于流式的日志实时收集方案,收集到的日志可被多个系统灵活取出分析,具体地,所述日志收集模块包括如下收集步骤:
步骤201,通过程序实时监控、收集访问服务器的日志文件,;
步骤202,对日志文件进行处理传输,将日志文件以消息的形式传递给消息队列,通过消息队列把数据传输到所有所需位置并用于流式处理工具消费。
优选地,如图3所示,所述日志处理模块包括如下处理步骤:
步骤301,流式处理工具实时消费消息队列中的日志文件;
步骤302,对取出的日志文件实时进行处理,访问日志中的每一个组成部分,如web访问日志中的url部分。
优选地,如图4所示,所述模型离线训练模块包括如下训练步骤:
步骤401,提取系统的历史访问日志文件中的每一个组成部分;
步骤402,安全人员对提取的每一个组成部分进行分类,分离出正常的访问行为集和异常的攻击行为集;
步骤403,使用机器学习算法对访问行为集合和异常的攻击行为集提取相应的特征,并使用所述特征训练机器学习检测模型。具体地,机器学习算法提取字符特征不仅可以提取到关键信息,而且非常简单便捷,并不需要人为去分析提取其他特征,具体流程可参见图6所示。
如图5所示,具体地,所述行为识别模块包括如下识别步骤:
步骤501,数据通过日志处理模块提取特征源数据;
步骤502,使用模型离线训练模块离线训练的机器学习检测模型对攻击行为与正常行为进行比对识别;
步骤503,对当前行为记录预测是正常行为还是攻击行为。
优选地,步骤504,所述行为识别模块对当前行为识别结果产生错误时,将当前行为的特征添加到数据集中,并且所述模型离线训练模块利用当前行为的特征对机器学习检测模型进行训练。上述步骤的具体流程参见图7所示。
本发明的流式的基于机器学习的攻击行为日志实时检测方法能够克服传统的基于规则识别攻击行为的缺点,如检测规则容易被绕过、检测误报率高等缺点,针对每一个系统训练出适用的检测模型,特征提取简单,在经过开始阶段的模型训练,模型逐渐稳定之后,可达到误报率低、检测率高的优势。本发明的攻击行为日志实时检测方法基于日志实时收集+流式处理+机器学习的架构,可实现实时的计算分析,达到了日志分析的实时性,有利于更早的发现攻击行为。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (6)
1.一种流式的基于机器学习的攻击行为日志实时检测方法,其特征在于:包括日志收集模块,用于收集服务器的日志文件,并放到数据流中供日志处理模块使用;
日志处理模块,用于从流式的数据流中读取数据,对日志文件实时分析;
模型离线训练模块,用于提取历史日志特征,训练机器学习检测模型;
行为识别模块,用于识别模型离线训练模块训练的机器学习检测模型收集的日志文件,并且识别攻击行为与正常行为;
所述日志收集模块将服务器的日志文件收集、存储,所述日志处理模块利用流式处理工具分析服务器的日志文件,所述行为识别模块利用模型离线训练模块训练的机器学习检测模型对攻击行为与正常行为进行比对识别。
2.根据权利要求1所述的攻击行为日志实时检测方法,其特征在于:所述日志收集模块包括如下收集步骤:
步骤201,通过程序实时监控、收集访问服务器的日志文件;
步骤202,对日志文件进行处理传输,将日志文件以消息的形式传递给消息队列,通过消息队列把数据传输到所有所需位置并用于流式处理工具消费。
3.根据权利要求1所述的攻击行为日志实时检测方法,其特征在于:所述日志处理模块包括如下处理步骤:
步骤301,流式处理工具实时消费消息队列中的日志文件;
步骤302,对取出的日志文件实时进行处理,访问日志中的每一个组成部分。
4.根据权利要求1所述的攻击行为日志实时检测方法,其特征在于:所述模型离线训练模块包括如下训练步骤:
步骤401,提取系统的历史访问日志文件中的每一个组成部分;
步骤402,安全人员对提取的每一个组成部分进行分类,分离出正常的访问行为集和异常的攻击行为集;
步骤403,使用机器学习算法对访问行为集合和异常的攻击行为集提取相应的特征,并使用所述特征训练机器学习检测模型。
5.根据权利要求1所述的攻击行为日志实时检测方法,其特征在于:所述行为识别模块包括如下识别步骤:
步骤501,数据通过日志处理模块提取特征源数据;
步骤502,使用模型离线训练模块离线训练的机器学习检测模型对攻击行为与正常行为进行比对识别;
步骤503,对当前行为记录预测是正常行为还是攻击行为。
6.根据权利要求5所述的攻击行为日志实时检测方法,其特征在于:步骤504,所述行为识别模块对当前行为识别结果产生错误时,将当前行为的特征添加到数据集中,并且所述模型离线训练模块利用当前行为的特征对机器学习检测模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710896004.6A CN107707541A (zh) | 2017-09-28 | 2017-09-28 | 一种流式的基于机器学习的攻击行为日志实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710896004.6A CN107707541A (zh) | 2017-09-28 | 2017-09-28 | 一种流式的基于机器学习的攻击行为日志实时检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107707541A true CN107707541A (zh) | 2018-02-16 |
Family
ID=61174534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710896004.6A Pending CN107707541A (zh) | 2017-09-28 | 2017-09-28 | 一种流式的基于机器学习的攻击行为日志实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107707541A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109039727A (zh) * | 2018-07-24 | 2018-12-18 | 中国银行股份有限公司 | 基于深度学习的消息队列监控方法及装置 |
CN109257393A (zh) * | 2018-12-05 | 2019-01-22 | 四川长虹电器股份有限公司 | 基于机器学习的xss攻击防御方法及装置 |
CN110912874A (zh) * | 2019-11-07 | 2020-03-24 | 苏宁云计算有限公司 | 有效识别机器访问行为的方法及系统 |
CN110909380A (zh) * | 2019-11-11 | 2020-03-24 | 西安交通大学 | 一种异常文件访问行为监控方法和装置 |
CN111371806A (zh) * | 2020-03-18 | 2020-07-03 | 北京邮电大学 | 一种Web攻击检测方法及装置 |
WO2020199743A1 (zh) * | 2019-03-29 | 2020-10-08 | 创新先进技术有限公司 | 用于训练学习模型的方法、装置和计算设备 |
CN111800412A (zh) * | 2020-07-01 | 2020-10-20 | 中国移动通信集团有限公司 | 高级可持续威胁溯源方法、系统、计算机设备及存储介质 |
CN112947853A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN113722479A (zh) * | 2021-08-10 | 2021-11-30 | 深圳开源互联网安全技术有限公司 | 一种日志的检测方法、装置及存储介质 |
US11321164B2 (en) | 2020-06-29 | 2022-05-03 | International Business Machines Corporation | Anomaly recognition in information technology environments |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
US9306962B1 (en) * | 2013-07-25 | 2016-04-05 | Niddel Corp | Systems and methods for classifying malicious network events |
CN106778259A (zh) * | 2016-12-28 | 2017-05-31 | 北京明朝万达科技股份有限公司 | 一种基于大数据机器学习的异常行为发现方法及系统 |
CN107154950A (zh) * | 2017-07-24 | 2017-09-12 | 深信服科技股份有限公司 | 一种日志流异常检测的方法及系统 |
-
2017
- 2017-09-28 CN CN201710896004.6A patent/CN107707541A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
US9306962B1 (en) * | 2013-07-25 | 2016-04-05 | Niddel Corp | Systems and methods for classifying malicious network events |
CN106778259A (zh) * | 2016-12-28 | 2017-05-31 | 北京明朝万达科技股份有限公司 | 一种基于大数据机器学习的异常行为发现方法及系统 |
CN107154950A (zh) * | 2017-07-24 | 2017-09-12 | 深信服科技股份有限公司 | 一种日志流异常检测的方法及系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109039727A (zh) * | 2018-07-24 | 2018-12-18 | 中国银行股份有限公司 | 基于深度学习的消息队列监控方法及装置 |
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109257393A (zh) * | 2018-12-05 | 2019-01-22 | 四川长虹电器股份有限公司 | 基于机器学习的xss攻击防御方法及装置 |
US11514368B2 (en) | 2019-03-29 | 2022-11-29 | Advanced New Technologies Co., Ltd. | Methods, apparatuses, and computing devices for trainings of learning models |
WO2020199743A1 (zh) * | 2019-03-29 | 2020-10-08 | 创新先进技术有限公司 | 用于训练学习模型的方法、装置和计算设备 |
CN110912874A (zh) * | 2019-11-07 | 2020-03-24 | 苏宁云计算有限公司 | 有效识别机器访问行为的方法及系统 |
CN110912874B (zh) * | 2019-11-07 | 2022-04-05 | 苏宁云计算有限公司 | 有效识别机器访问行为的方法及系统 |
CN110909380A (zh) * | 2019-11-11 | 2020-03-24 | 西安交通大学 | 一种异常文件访问行为监控方法和装置 |
CN111371806B (zh) * | 2020-03-18 | 2021-05-25 | 北京邮电大学 | 一种Web攻击检测方法及装置 |
CN111371806A (zh) * | 2020-03-18 | 2020-07-03 | 北京邮电大学 | 一种Web攻击检测方法及装置 |
US11321164B2 (en) | 2020-06-29 | 2022-05-03 | International Business Machines Corporation | Anomaly recognition in information technology environments |
CN111800412A (zh) * | 2020-07-01 | 2020-10-20 | 中国移动通信集团有限公司 | 高级可持续威胁溯源方法、系统、计算机设备及存储介质 |
CN111800412B (zh) * | 2020-07-01 | 2023-02-21 | 中国移动通信集团有限公司 | 高级可持续威胁溯源方法、系统、计算机设备及存储介质 |
CN112947853A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN112947853B (zh) * | 2021-01-28 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN113722479A (zh) * | 2021-08-10 | 2021-11-30 | 深圳开源互联网安全技术有限公司 | 一种日志的检测方法、装置及存储介质 |
CN113722479B (zh) * | 2021-08-10 | 2023-12-05 | 深圳开源互联网安全技术有限公司 | 一种日志的检测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107707541A (zh) | 一种流式的基于机器学习的攻击行为日志实时检测方法 | |
CN108881194B (zh) | 企业内部用户异常行为检测方法和装置 | |
CN109525595B (zh) | 一种基于时间流特征的黑产账号识别方法及设备 | |
CN110233849B (zh) | 网络安全态势分析的方法及系统 | |
Cao et al. | Machine learning to detect anomalies in web log analysis | |
CN102629904B (zh) | 一种网络水军的探测与判定方法 | |
CN107154950A (zh) | 一种日志流异常检测的方法及系统 | |
CN108512841B (zh) | 一种基于机器学习的智能防御系统及防御方法 | |
CN108965340B (zh) | 一种工业控制系统入侵检测方法及系统 | |
CN103905459A (zh) | 基于云端的智能安全防御系统及防御方法 | |
CN106685984A (zh) | 一种基于数据包捕获技术的网络威胁分析系统及方法 | |
CN114338195A (zh) | 基于改进孤立森林算法的web流量异常检测方法及装置 | |
CN109522421A (zh) | 一种网络设备的产品属性识别方法 | |
CN110869942A (zh) | 自馈深度学习方法和系统 | |
CN110704841A (zh) | 一种基于卷积神经网络的大规模安卓恶意应用检测系统及方法 | |
CN110908957A (zh) | 电力行业网络安全日志审计分析方法 | |
CN112532652A (zh) | 一种基于多源数据的攻击行为画像装置及方法 | |
CN108280021A (zh) | 一种基于机器学习的日志等级分析方法 | |
CN116248362A (zh) | 一种基于双层隐马尔可夫链的用户异常网络访问行为识别方法 | |
CN112395513A (zh) | 一种舆情传播力分析方法 | |
CN109660656A (zh) | 一种智能终端应用程序识别方法 | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN117992953A (zh) | 基于操作行为跟踪的异常用户行为识别方法 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN118101287A (zh) | 一种基于双向生成对抗网络的异常网络流量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |