CN106528619A - 一种基于关键字段的交换机日志快速聚合方法 - Google Patents
一种基于关键字段的交换机日志快速聚合方法 Download PDFInfo
- Publication number
- CN106528619A CN106528619A CN201610873944.9A CN201610873944A CN106528619A CN 106528619 A CN106528619 A CN 106528619A CN 201610873944 A CN201610873944 A CN 201610873944A CN 106528619 A CN106528619 A CN 106528619A
- Authority
- CN
- China
- Prior art keywords
- critical field
- log
- value
- primary key
- log recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于关键字段的交换机日志快速聚合方法。本发明包括:S1、建立交换机日志关键字段集合以及关键字段值提取方法;S2、日志聚合分析:建立聚类集合,所述聚类集合包括{关键字段、关键字段值集合};日志聚合分析模块初始化并以交换机为单位对单条日志记录进行处理得到分类集合;S3、日志聚合结果输出:日志输出模块对所述分类集合进行处理并对满足输出条件的日志记录进行输出。该日志快速聚合方法可以对包含相同事件信息或类似日志信息的日志记录进行聚合,降低了日志输出条目,便于网络运维人员的快速分析。
Description
技术领域
本发明属于电力信息网络领域,具体是涉及一种基于关键字段的交换机日志快速聚合方法。
背景技术
电力信息网络规模日渐扩大,网络中的交换机设备也不断增多,交换机在运行过程中会产生大量的事件信息,事件信息中包括了丰富的交换机运行状态、用户操作、潜在安全告警等数据,通过对交换机日志的及时有效分析可帮助网络运维人员及时掌握交换机运行状态、潜在的安全风险,并采用相应的处理措施。但交换机日志系统会针对同一事件或同一类事件在短时间内给出大量的类似日志,同时部分交换机操作或事件会在短时间内高频率的发生,例如短时间内大量的ssh尝试登录会形成多条交换机登录失败日志;针对大量的日志信息,如果依靠人工逐条分析,耗时耗力,同时不能掌握日志之间的关联信息。
发明内容
为了解决上述技术问题,本发明提供一种基于关键字段的交换机日志快速聚合方法。
为了实现本发明的目的,本发明采用了以下技术方案:
一种基于关键字段的交换机日志快速聚合方法,包括以下步骤:
S1、建立交换机日志关键字段集合,每个关键字段对应一个正则表达式,所述正则表达式用于获取单条日志记录中所述关键字段对应的关键字段值;
S2、日志聚合分析:建立聚类集合,所述聚类集合包括{关键字段、关键字段值集合};日志聚合分析模块初始化:以交换机为单位对单条日志记录进行处理,所述关键字段值集合为空;若所述单条日志记录中关键字段也均为空,则直接输出该日志记录对应的日志记录ID;
针对每条新增的日志记录,利用S1中定义的关键字段获取关键字段值,通过所述正则表达式没有获取到值的关键字段值记为空;对于关键字段值不为空的关键字段,则遍历该关键字段值集合,判断该关键字段值集合中是否已存在该值:
若该值不存在,创建一个分类集合,所述分类集合的定义:{关键字段、关键字段值、记录集合{关键字段值子集合、日志记录ID集合、日志记录时间集合}},并将该值添加到所述记录集合中的关键字段值子集合中;
若该值已经存在,则在匹配上的分类集合中的记录集合中增加该日志记录信息;
S3、日志聚合结果输出:针对单个分类集合的输出方式:统计所述关键字段值子集合中关键字段值的出现次数,并在该关键字段值的统计基础上再分别统计与该关键字段关联的另一关键字段值的出现次数;若每对关联的关键字段组合出现的次数超过设定的阈值,则以该对关键字段值的组合作为索引输出与该对关键字段值组合匹配的日志记录ID集合。
进一步的技术方案,所述关键字段为IP或MAC或VLAN或端口。
进一步的技术方案,所述分类集合的过期处理方式为:遍历所有分类集合,取出每个分类集合中记录集合中最后一条日志记录的日志记录时间,当该日志记录时间与当前时间的差已超出设定的过期时间时,将此分类集合进行输出,并从对应的聚类集合中的关键字段值集合中移除。
进一步的技术方案,步骤S3中所述设定的阈值为10。
进一步的技术方案,步骤S3中针对单个分类集合的另一种输出方式:以该分类集合对应的关键字段值为索引输出与所述关键字段值匹配的记录集合中的日志记录ID集合。
进一步的技术方案,所述过期时间为12小时。
本发明的有益效果在于:
(1)本发明预先设置关键字段集合,交换机每生成一条日志记录即可通过相应的正则表达式得到与所述关键字段对应的关键字段值,并形成一条完整的日志记录。所述关键字段为IP或MAC或VLAN或端口,那么相应关键字段值则为IP地址、MAC地址、VLAN号、端口名称,所述关键字段集合由IP、MAC、VLAN、端口组成。所述日志记录则包括所述IP地址、MAC地址、VLAN号、端口名称。
日志聚合分析模块初始化状态下,所述的关键字段值集合为空,当在获得的单条日志记录中没有提取到匹配的所述关键字段,则直接输出与该条日志记录对应的日志记录ID。针对关键字段不为空的日志记录,当获得的关键字段值在所述关键字段值集合中不存在时,则创建一个分类集合,该分类集合中所述记录集合中关键字段值子集合用于添加关键字段值相同的日志记录;当获得的关键字段值在所述关键字段值集合中存在时,则在匹配的分类集合中的记录集合中增加该条日志记录信息。
针对上述分类集合如何输出聚合结果则分为两种情况:
关键字段关联输出:当所述分类集合中关键字段值与另一个关键字段值关联出现,比如日志记录中既包含IP值,又包含MAC值,则首先对IP值相同的日志记录进行统计,并在该统计基础上进一步统计MAC值相同的日志记录,若所述IP值、MAC值组合出现的次数超过设定的阈值,即以IP值、MAC值的组合作为索引输出与IP值、MAC值的组合匹配的日志记录ID集合;
单个关键字段输出:在完成关联关键字段输出后,对单个分类集合,以分类集合对应的关键字段值为索引输出与所述关键字段值匹配的记录集合中的日志记录ID集合。比如单个关键字段为IP,则以该分类集合对应的IP值为索引输出记录集合中与该IP值匹配的日志记录ID集合。
该日志快速聚合方法可以对包含相同事件信息或类似日志信息的日志记录进行聚合,降低了日志输出条目,便于网络运维人员的快速分析。
(2)本发明单个所述分类集合中最后一条日志记录的日志记录时间与当前时间的差已超出设定的过期时间时,则判定为由该分类集合描述并确定的事件已经结束,输出后即可以进行删除处理。所述过期时间可以根据实际情况进行设定。
具体实施方式
下面结合实施例对本发明技术方案做出更为具体的说明:
1、建立交换机日志关键字段集合:根据CISCO、华为、H3C、DELL、锐捷等主流交换机厂家的日志规格文档,确定IP、MAC、端口、VLAN及数值式运行参数为交换机日志的关键字段;由于不同厂家、不同型号的交换机对关键字段的表达方式不一样,方法通过定义正则表达式来获取单条日志中的关键字段值。关键字段值的获取正则表达式定义如下:
2、搭建以centos为操作系统的第一主机,并在所述第一主机上利用mysql数据和syslogd日志服务器搭建的syslog日志服务器,所述syslog日志服务器用于接收交换机日志并将所述交换机日志生成的日志记录提交给所述日志聚合分析模块,所述交换机上配置有用于上传所述交换机日志且与所述syslog服务器对应的第二主机;所述syslogd日志服务器中的syslog表建立触发器,所述触发器在插入一条日志记录后将所述日志记录提交给所述日志聚合分析模块。
3、所述日志聚合分析模块建立4个聚类集合,分别为:{IP、IP地址集合}、{MAC、MAC地址集合}、{VLAN、VLAN号集合}、{端口、端口名称集合};所述日志聚合分析模块以交换机为单位对单条日志记录进行处理且在初始状态下所述IP地址集合、MAC地址集合、VLAN号集合、端口名称集合均为空,若所述单条日志记录中不包含所述IP、MAC、VLAN、端口信息,则直接输出该日志记录对应的日志记录ID;
针对每条新增的日志记录,利用关键字段获取关键字段值,通过所述正则表达式没有获取到值的关键字段值记为空;对于关键字段值不为空的关键字段,以IP作为关键字段为例,遍历IP地址集合,判断该IP地址集合中是否已存在该IP地址:
若该IP地址不存在,则创建一个分类集合,所述分类集合的定义:{IP、IP地址、记录集合{IP地址子集合、日志记录ID集合、日志记录时间集合}},并将该IP地址添加到所述记录集合中的IP地址子集合中;所述日志记录ID为单条日志记录对应的编码;
若该IP地址已经存在,则在匹配上的分类集合中的记录集合中增加该日志记录信息。
遍历所有分类集合,取出每个分类集合中记录集合中最后一条日志记录时间,当该日志记录时间与当前时间的差已超出设定的过期时间时,将此分类集合进行输出,并从对应的聚类集合中的关键字段值集合中移除。本实施例中所述过期时间定义为12小时。
4、聚合输出:日志输出模块处理所述分类集合或单条日志记录,日志输出模块输出内容为以关键字段值为索引的日志记录ID集合。
针对不包括任何关键字段的单条日志记录,输出为单条日志记录对应的日志记录ID。
针对分类集合,为表达关键字段之间的关联关系,输出分为两步,第一步输出关键字段间具有关联关系的日志记录,第二步输出以单个关键字段为索引的日志记录,具体步骤如下:
第一步,对单个分类集合,统计所述关键字段值子集合中关键字段值的出现次数,以分类集合中关键字段为IP为例,在同一IP地址的统计次数基础上再分别统计与所述IP地址关联的不同MAC地址的出现次数、VLAN号的出现次数、端口名称的出现次数,形成下表:
依据上表,若每对关联关键字段组合出现的次数超过设定的阈值(本方法中设置为10),则以该对关联关键字段值的组合作为索引输出与所述关联关键字段值匹配的记录集合中的日志记录ID集合。
第二步,在完成关联关键字段输出后,对单个分类集合,以分类集合对应的关键字段值为索引输出与所述关键字段值匹配的记录集合中的日志记录ID集合。
最终输出内容如下表所示:
Claims (6)
1.一种基于关键字段的交换机日志快速聚合方法,包括以下步骤:
S1、建立交换机日志关键字段集合,每个关键字段对应一个正则表达式,所述正则表达式用于获取单条日志记录中所述关键字段对应的关键字段值;
S2、日志聚合分析:建立聚类集合,所述聚类集合包括{关键字段、关键字段值集合};日志聚合分析模块初始化:以交换机为单位对单条日志记录进行处理,所述关键字段值集合为空;若所述单条日志记录中关键字段也均为空,则直接输出该日志记录对应的日志记录ID;
针对每条新增的日志记录,利用S1中定义的关键字段获取关键字段值,通过所述正则表达式没有获取到值的关键字段值记为空;对于关键字段值不为空的关键字段,则遍历该关键字段值集合,判断该关键字段值集合中是否已存在该值:
若该值不存在,创建一个分类集合,所述分类集合的定义:{关键字段、关键字段值、记录集合{关键字段值子集合、日志记录ID集合、日志记录时间集合}},并将该值添加到所述记录集合中的关键字段值子集合中;
若该值已经存在,则在匹配上的分类集合中的记录集合中增加该日志记录信息;
S3、日志聚合结果输出:针对单个分类集合的输出方式:统计所述关键字段值子集合中关键字段值的出现次数,并在该关键字段值的统计基础上再分别统计与该关键字段关联的另一关键字段值的出现次数;若每对关联的关键字段组合出现的次数超过设定的阈值,则以该对关键字段值的组合作为索引输出该对关键字段值组合匹配的日志记录ID集合。
2.如权利要求1所述的基于关键字段的交换机日志快速聚合方法,其特征在于:所述关键字段为IP或MAC或VLAN或端口。
3.如权利要求1所述的基于关键字段的交换机日志快速聚合方法,其特征在于:所述分类集合的过期处理方式为:遍历所有分类集合,取出每个分类集合中记录集合中最后一条日志记录的日志记录时间,当该日志记录时间与当前时间的差已超出设定的过期时间时,将此分类集合进行输出,并从对应的聚类集合中的关键字段值集合中移除。
4.如权利要求1所述的基于关键字段的交换机日志快速聚合方法,其特征在于:步骤S3中设定的阈值为10。
5.如权利要求1所述的基于关键字段的交换机日志快速聚合方法,其特征在于:步骤S3中针对单个分类集合的另一种输出方式:以该分类集合对应的关键字段值为索引输出与所述关键字段值匹配的记录集合中的日志记录ID集合。
6.如权利要求3所述的基于关键字段的交换机日志快速聚合方法,其特征在于:所述过期时间为12小时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610873944.9A CN106528619B (zh) | 2016-09-30 | 2016-09-30 | 一种基于关键字段的交换机日志快速聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610873944.9A CN106528619B (zh) | 2016-09-30 | 2016-09-30 | 一种基于关键字段的交换机日志快速聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106528619A true CN106528619A (zh) | 2017-03-22 |
CN106528619B CN106528619B (zh) | 2020-03-17 |
Family
ID=58332080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610873944.9A Active CN106528619B (zh) | 2016-09-30 | 2016-09-30 | 一种基于关键字段的交换机日志快速聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528619B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108055150A (zh) * | 2017-12-11 | 2018-05-18 | 中盈优创资讯科技有限公司 | 一种日志屏蔽方法及装置 |
CN108304566A (zh) * | 2018-02-09 | 2018-07-20 | 东莞嘉泰钟表有限公司 | 自定义的分类汇总方法 |
CN108712294A (zh) * | 2018-06-05 | 2018-10-26 | 陈艳 | 一种基于Syslog知识库实现网络设备监控告警的方法 |
CN109033404A (zh) * | 2018-08-03 | 2018-12-18 | 北京百度网讯科技有限公司 | 日志数据处理方法、装置和系统 |
CN109388623A (zh) * | 2018-11-02 | 2019-02-26 | 郑州云海信息技术有限公司 | 一种设备故障检测的方法、系统及相关组件 |
CN109684279A (zh) * | 2017-10-18 | 2019-04-26 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及系统 |
CN109947933A (zh) * | 2017-11-29 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 用于对日志进行分类的方法及装置 |
CN111324583A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团广西有限公司 | 一种业务日志的分类方法及装置 |
CN111800432A (zh) * | 2020-07-20 | 2020-10-20 | 博为科技有限公司 | 一种基于日志分析的防暴力破解方法及装置 |
CN111881153A (zh) * | 2020-07-24 | 2020-11-03 | 北京金山云网络技术有限公司 | 数据处理方法、装置、电子设备和机器可读存储介质 |
CN112655047A (zh) * | 2018-09-05 | 2021-04-13 | 皇家飞利浦有限公司 | 对医学记录分类的方法 |
CN113326243A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 分析日志数据的方法和装置 |
CN112655047B (zh) * | 2018-09-05 | 2024-05-28 | 皇家飞利浦有限公司 | 对医学记录分类的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析系统与方法 |
US20130054583A1 (en) * | 2011-08-25 | 2013-02-28 | Salesforce.Com, Inc. | Personalizing scoping and ordering of object types for search |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN105138593A (zh) * | 2015-07-31 | 2015-12-09 | 山东蚁巡网络科技有限公司 | 一种利用正则表达式自定义提取日志关键信息的方法 |
CN105975604A (zh) * | 2016-05-12 | 2016-09-28 | 清华大学 | 一种分布迭代式数据处理程序异常检测与诊断方法 |
-
2016
- 2016-09-30 CN CN201610873944.9A patent/CN106528619B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析系统与方法 |
US20130054583A1 (en) * | 2011-08-25 | 2013-02-28 | Salesforce.Com, Inc. | Personalizing scoping and ordering of object types for search |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN105138593A (zh) * | 2015-07-31 | 2015-12-09 | 山东蚁巡网络科技有限公司 | 一种利用正则表达式自定义提取日志关键信息的方法 |
CN105975604A (zh) * | 2016-05-12 | 2016-09-28 | 清华大学 | 一种分布迭代式数据处理程序异常检测与诊断方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684279B (zh) * | 2017-10-18 | 2020-12-08 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及系统 |
CN109684279A (zh) * | 2017-10-18 | 2019-04-26 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及系统 |
CN109947933B (zh) * | 2017-11-29 | 2023-07-04 | 阿里巴巴集团控股有限公司 | 用于对日志进行分类的方法及装置 |
CN109947933A (zh) * | 2017-11-29 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 用于对日志进行分类的方法及装置 |
CN108055150A (zh) * | 2017-12-11 | 2018-05-18 | 中盈优创资讯科技有限公司 | 一种日志屏蔽方法及装置 |
CN108304566A (zh) * | 2018-02-09 | 2018-07-20 | 东莞嘉泰钟表有限公司 | 自定义的分类汇总方法 |
CN108712294A (zh) * | 2018-06-05 | 2018-10-26 | 陈艳 | 一种基于Syslog知识库实现网络设备监控告警的方法 |
CN109033404A (zh) * | 2018-08-03 | 2018-12-18 | 北京百度网讯科技有限公司 | 日志数据处理方法、装置和系统 |
US11188443B2 (en) | 2018-08-03 | 2021-11-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus and system for processing log data |
CN112655047B (zh) * | 2018-09-05 | 2024-05-28 | 皇家飞利浦有限公司 | 对医学记录分类的方法 |
CN112655047A (zh) * | 2018-09-05 | 2021-04-13 | 皇家飞利浦有限公司 | 对医学记录分类的方法 |
CN109388623A (zh) * | 2018-11-02 | 2019-02-26 | 郑州云海信息技术有限公司 | 一种设备故障检测的方法、系统及相关组件 |
CN111324583A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团广西有限公司 | 一种业务日志的分类方法及装置 |
CN111324583B (zh) * | 2018-12-17 | 2023-10-27 | 中国移动通信集团广西有限公司 | 一种业务日志的分类方法及装置 |
CN111800432A (zh) * | 2020-07-20 | 2020-10-20 | 博为科技有限公司 | 一种基于日志分析的防暴力破解方法及装置 |
CN111881153A (zh) * | 2020-07-24 | 2020-11-03 | 北京金山云网络技术有限公司 | 数据处理方法、装置、电子设备和机器可读存储介质 |
CN113326243A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 分析日志数据的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106528619B (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528619A (zh) | 一种基于关键字段的交换机日志快速聚合方法 | |
US7690037B1 (en) | Filtering training data for machine learning | |
Gogoi et al. | Packet and flow based network intrusion dataset | |
CN104243236B (zh) | 一种监控系统运维告警数据分析的方法、系统及服务器 | |
WO2019205697A1 (zh) | 告警日志压缩方法、装置及系统、存储介质 | |
US20160359701A1 (en) | Parallel coordinate charts for flow exploration | |
CN107404400A (zh) | 一种网络态势感知实现方法及装置 | |
CN105721198B (zh) | 一种视频监控系统日志安全审计方法 | |
CN104917627B (zh) | 一种用于大型服务器集群的日志集群扫描与分析方法 | |
CN101242316A (zh) | 基于快速聚类算法的网络异常检测方法 | |
Barut et al. | Netml: A challenge for network traffic analytics | |
CN106055608A (zh) | 自动采集和分析交换机日志的方法和装置 | |
KR20210115991A (ko) | 시계열 데이터 분석을 이용한 네트워크 이상징후 탐지 방법 및 장치 | |
CN108833376A (zh) | 面向软件定义网络的DoS攻击检测方法 | |
Pekár et al. | Adaptive aggregation of flow records | |
CN114866485B (zh) | 一种基于聚合熵的网络流量分类方法及分类系统 | |
CN107404398A (zh) | 一种网络用户行为判别系统 | |
TWM594841U (zh) | 封包擷取分析裝置及具有該封包擷取分析裝置之網路資安系統 | |
Mahmood et al. | An efficient clustering scheme to exploit hierarchical data in network traffic analysis | |
Lan et al. | Some special issues of network security monitoring on big data environments | |
CN111291028A (zh) | 一种面向高速工业现场数据采集系统及方法 | |
CN106375295A (zh) | 数据存储监控方法 | |
CN104079452A (zh) | 一种数据监测技术和分类网络流量异常的方法 | |
Min et al. | Online Internet traffic identification algorithm based on multistage classifier | |
JP2014035749A (ja) | ログ生成則作成装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |