CN105069158B - 数据挖掘方法及系统 - Google Patents

数据挖掘方法及系统 Download PDF

Info

Publication number
CN105069158B
CN105069158B CN201510527951.9A CN201510527951A CN105069158B CN 105069158 B CN105069158 B CN 105069158B CN 201510527951 A CN201510527951 A CN 201510527951A CN 105069158 B CN105069158 B CN 105069158B
Authority
CN
China
Prior art keywords
data
data packets
raw data
raw
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510527951.9A
Other languages
English (en)
Other versions
CN105069158A (zh
Inventor
施坚松
朱志博
雷兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201510527951.9A priority Critical patent/CN105069158B/zh
Publication of CN105069158A publication Critical patent/CN105069158A/zh
Application granted granted Critical
Publication of CN105069158B publication Critical patent/CN105069158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/565Static detection by checking file integrity

Abstract

本发明公开了一种数据挖掘方法及系统。该数据挖掘方法包括以下步骤:从多个数据来源获取原始数据包,并将其放入不同的分布式消息队列中;从消息队列中提取原始数据包,对提取的数据进行预处理;根据数据类型创建不同的分布式处理任务,其中包括原始数据包任务,原始数据包任务为将原始数据包解析产生索引信息和描述信息;将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和搜索服务器,并将原始数据包中的数据及描述信息存储到数据库;从数据库中提取数据并进行数据挖掘。本发明的数据挖掘方法及系统基于网络数据能够高效地进行信息的收集、联动、汇聚、存储、挖掘,从而能够及时发现网络威胁,溯源攻击,保障网络数据安全。

Description

数据挖掘方法及系统
技术领域
本发明涉及网络数据,尤其涉及一种数据挖掘方法及系统。
背景技术
近年来,网络空间的安全形势发生了巨大改变,网络攻击增长趋势呈指数级发展,并逐渐演变成了各种社会工程学攻击与各类0day漏洞利用的综合攻击,成为最具威胁的网络攻击方式,新型安全威胁技术手段的先进性、复杂度、隐蔽性和持续性,已经超出了传统网络安全技术的应对能力。为了适应新的安全形势,就需要基于网络数据构建一个信息收集、联动、汇聚、存储、挖掘的系统,来及时发现网络威胁,溯源攻击,保障企业安全。
发明内容
本发明要解决的技术问题是为了克服现有技术中缺乏基于网络数据进行信息收集、关联、汇聚、存储、挖掘从而及时发现网络威胁并保障网络数据安全的高效手段的缺陷,提供一种数据挖掘方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
一种数据挖掘方法,其特点在于,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘。
其中,HBASE是一个分布式的、面向列的开源数据库,其可作为结构化数据的分布式存储系统,而elasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。NoSql是指非关系型的数据库,本领域技术人员可以根据实际需要选择现有的非关系型的数据库。
本发明中的原始数据包,包含服务器的日志、网络安全产品的日志、网络原始数据包。
较佳地,步骤二还包括:对提取的数据进行预处理后,从中找出需关联的数据并将其重新发回对应的消息队列中。
在此,对于不同类型、来源的数据,其是否需关联,可以是由用户预先设置好的关联关系。在本发明的方法的执行过程中,一旦发现符合预设的关联关系的数据,则将其视为需关联的数据,将其发挥对应的消息队列中等待提取和处理。
较佳地,所述步骤五中的数据挖掘包括信息聚合,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
上述的数据聚合可以采用一些本领域中采用的聚类算法进行。
较佳地,所述步骤五中的数据挖掘还包括基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测。
其中,木马心跳识别是指利用机器学习,挖掘NoSql中的数据,动态的识别已知和/或未知的木马心跳行为,当计算出可以行为后,产生报警并存储到elasticSearch中。
恶意域名识别是指利用数据挖掘手段,学习域名特征,从而对恶意域名与安全域名进行分类,动态的识别网络流量中的恶意域名的访问,发现可疑域名后产生报警并存储到elasticSearch中。
网络异常行为检测是指通过对提取的海量数据建模,建立行为基线,定期的对新产生的数据进行挖掘,发现异常行为进行报警。
较佳地于,该数据挖掘方法还包括一步骤六,该步骤六为:
查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
较佳地,该预设格式为JSON格式,即轻量级的数据交换格式JavaScript ObjectNotation。
本发明还提供了一种数据挖掘系统,其特点在于,包括:
分布式消息模块,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
分布式处理模块,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块,用于从NoSql中提取数据并进行数据挖掘。
上述预处理模块,举例来说,可以是将数据格式转换为JSON格式。
较佳地,预处理模块在对提取的数据进行预处理后,还用于从中找出需关联的数据并将其重新发回对应的消息队列中。
较佳地,数据挖掘模块包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
较佳地,数据挖掘模块还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元。
较佳地,该数据挖掘系统还包括数据包还原模块,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明的数据挖掘方法及系统基于网络数据能够高效地进行信息的收集、联动、汇聚、存储、挖掘,从而能够及时发现网络威胁,溯源攻击,保障网络数据安全。
附图说明
图1为本发明实施例1的数据挖掘方法的流程图。
图2为本发明实施例2的数据挖掘系统的示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
参考图1所示,本实施例的数据挖掘方法,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为JSON格式,并从中找出需关联的数据并将其重新发回对应的消息队列中;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘,包括信息聚合以及基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测;
步骤六、查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
其中,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
实施例2
参考图2所示,本实施例的数据挖掘系统,包括:
分布式消息模块1,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块2,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为JSON格式,并从中找出需关联的数据并将其重新发回对应的消息队列中;
分布式处理模块3,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块4,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块5,包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中,还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元。
数据包还原模块6,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (7)

1.一种数据挖掘方法,其特征在于,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘;
所述步骤五中的数据挖掘还包括基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测;
该数据挖掘方法还包括一步骤六,该步骤六为:
查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
2.如权利要求1所述的数据挖掘方法,其特征在于,步骤二还包括:对提取的数据进行预处理后,从中找出需关联的数据并将其重新发回对应的消息队列中。
3.如权利要求1所述的数据挖掘方法,其特征在于,所述步骤五中的数据挖掘包括信息聚合,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
4.如权利要求1所述的数据挖掘方法,其特征在于,该预设格式为JSON格式。
5.一种数据挖掘系统,其特征在于,包括:
分布式消息模块,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
分布式处理模块,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块,用于从NoSql中提取数据并进行数据挖掘;
数据挖掘模块还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元;
该数据挖掘系统还包括数据包还原模块,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
6.如权利要求5所述的数据挖掘系统,其特征在于,预处理模块在对提取的数据进行预处理后,还用于从中找出需关联的数据并将其重新发回对应的消息队列中。
7.如权利要求5所述的数据挖掘系统,其特征在于,数据挖掘模块包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
CN201510527951.9A 2015-08-25 2015-08-25 数据挖掘方法及系统 Active CN105069158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510527951.9A CN105069158B (zh) 2015-08-25 2015-08-25 数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510527951.9A CN105069158B (zh) 2015-08-25 2015-08-25 数据挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN105069158A CN105069158A (zh) 2015-11-18
CN105069158B true CN105069158B (zh) 2019-03-26

Family

ID=54498527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510527951.9A Active CN105069158B (zh) 2015-08-25 2015-08-25 数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN105069158B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095391B (zh) * 2016-05-31 2019-03-26 携程计算机技术(上海)有限公司 基于大数据平台和算法模型的计算方法及系统
CN108959337A (zh) * 2018-03-22 2018-12-07 中国平安人寿保险股份有限公司 大数据获取方法、装置、设备及存储介质
CN108900516B (zh) * 2018-07-09 2021-06-22 赖洪昌 一种网络空间漏洞归并平台分布服务系统
CN109889619B (zh) * 2019-01-28 2022-01-21 中国互联网络信息中心 基于区块链的异常域名监测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310375A (zh) * 2013-04-23 2013-09-18 四川天翼网络服务有限公司 智慧天网行为审计分析系统
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN104636494A (zh) * 2015-03-04 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Spark大数据平台的日志审计倒查系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505207B1 (en) * 2000-04-25 2003-01-07 International Business Machines Corporation Methods and apparatus for performing dimensionality reduction in a supervised application domain
CN101465760A (zh) * 2007-12-17 2009-06-24 北京启明星辰信息技术股份有限公司 一种检测拒绝服务攻击的方法和系统
CN101309269A (zh) * 2008-06-17 2008-11-19 北京锐安科技有限公司 一种静默隐蔽网络传输的方法及系统
CN104022999A (zh) * 2013-09-05 2014-09-03 北京科能腾达信息技术股份有限公司 基于协议分析的网络数据处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310375A (zh) * 2013-04-23 2013-09-18 四川天翼网络服务有限公司 智慧天网行为审计分析系统
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN104636494A (zh) * 2015-03-04 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Spark大数据平台的日志审计倒查系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于Web应用的安全日志审计系统研究与设计》;段娟等;《技术研究》;20141030;第2014年卷(第10期);第70-76页

Also Published As

Publication number Publication date
CN105069158A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
EP3651043B1 (en) Url attack detection method and apparatus, and electronic device
CN109347801B (zh) 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
CN108052543B (zh) 一种基于图分析聚类的微博相似账号检测方法
CN106790008B (zh) 用于在企业网络中检测异常主机的机器学习系统
CN108471429B (zh) 一种网络攻击告警方法及系统
US20220232040A1 (en) Advanced cybersecurity threat mitigation using software supply chain analysis
CN113486351A (zh) 一种民航空管网络安全检测预警平台
CN111885040A (zh) 分布式网络态势感知方法、系统、服务器及节点设备
CN105069158B (zh) 数据挖掘方法及系统
US10645100B1 (en) Systems and methods for attacker temporal behavior fingerprinting and grouping with spectrum interpretation and deep learning
CN108833185B (zh) 一种网络攻击路线还原方法及系统
CN114761953A (zh) 用于对抗网络攻击的攻击活动智能和可视化
Elshoush et al. An improved framework for intrusion alert correlation
CN108881263A (zh) 一种网络攻击结果检测方法及系统
CN104871171B (zh) 分布式模式发现
CN111953697A (zh) 一种apt攻击识别及防御方法
US20210406368A1 (en) Deep learning-based analysis of signals for threat detection
Hurst et al. Big data analysis techniques for cyber-threat detection in critical infrastructures
Gashi et al. An experimental study of diversity with off-the-shelf antivirus engines
Las-Casas et al. A big data architecture for security data and its application to phishing characterization
Muneer et al. Cyber Security event detection using machine learning technique
Choksi et al. Intrusion detection system using self organizing map: a survey
CN107302530A (zh) 一种基于白名单的工控系统攻击检测装置及其检测方法
Mohamed et al. Alert correlation using a novel clustering approach
Song et al. A comprehensive approach to detect unknown attacks via intrusion detection alerts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160206

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

GR01 Patent grant
GR01 Patent grant