CN105069158A - 数据挖掘方法及系统 - Google Patents
数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN105069158A CN105069158A CN201510527951.9A CN201510527951A CN105069158A CN 105069158 A CN105069158 A CN 105069158A CN 201510527951 A CN201510527951 A CN 201510527951A CN 105069158 A CN105069158 A CN 105069158A
- Authority
- CN
- China
- Prior art keywords
- data
- data packets
- raw data
- packets
- raw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/565—Static detection by checking file integrity
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据挖掘方法及系统。该数据挖掘方法包括以下步骤:从多个数据来源获取原始数据包,并将其放入不同的分布式消息队列中;从消息队列中提取原始数据包,对提取的数据进行预处理;根据数据类型创建不同的分布式处理任务,其中包括原始数据包任务,原始数据包任务为将原始数据包解析产生索引信息和描述信息;将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和搜索服务器,并将原始数据包中的数据及描述信息存储到数据库;从数据库中提取数据并进行数据挖掘。本发明的数据挖掘方法及系统基于网络数据能够高效地进行信息的收集、联动、汇聚、存储、挖掘,从而能够及时发现网络威胁,溯源攻击,保障网络数据安全。
Description
技术领域
本发明涉及网络数据,尤其涉及一种数据挖掘方法及系统。
背景技术
近年来,网络空间的安全形势发生了巨大改变,网络攻击增长趋势呈指数级发展,并逐渐演变成了各种社会工程学攻击与各类0day漏洞利用的综合攻击,成为最具威胁的网络攻击方式,新型安全威胁技术手段的先进性、复杂度、隐蔽性和持续性,已经超出了传统网络安全技术的应对能力。为了适应新的安全形势,就需要基于网络数据构建一个信息收集、联动、汇聚、存储、挖掘的系统,来及时发现网络威胁,溯源攻击,保障企业安全。
发明内容
本发明要解决的技术问题是为了克服现有技术中缺乏基于网络数据进行信息收集、关联、汇聚、存储、挖掘从而及时发现网络威胁并保障网络数据安全的高效手段的缺陷,提供一种数据挖掘方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
一种数据挖掘方法,其特点在于,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘。
其中,HBASE是一个分布式的、面向列的开源数据库,其可作为结构化数据的分布式存储系统,而elasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。NoSql是指非关系型的数据库,本领域技术人员可以根据实际需要选择现有的非关系型的数据库。
本发明中的原始数据包,包含服务器的日志、网络安全产品的日志、网络原始数据包。
较佳地,步骤二还包括:对提取的数据进行预处理后,从中找出需关联的数据并将其重新发回对应的消息队列中。
在此,对于不同类型、来源的数据,其是否需关联,可以是由用户预先设置好的关联关系。在本发明的方法的执行过程中,一旦发现符合预设的关联关系的数据,则将其视为需关联的数据,将其发挥对应的消息队列中等待提取和处理。
较佳地,所述步骤五中的数据挖掘包括信息聚合,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
上述的数据聚合可以采用一些本领域中采用的聚类算法进行。
较佳地,所述步骤五中的数据挖掘还包括基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测。
其中,木马心跳识别是指利用机器学习,挖掘NoSql中的数据,动态的识别已知和/或未知的木马心跳行为,当计算出可以行为后,产生报警并存储到elasticSearch中。
恶意域名识别是指利用数据挖掘手段,学习域名特征,从而对恶意域名与安全域名进行分类,动态的识别网络流量中的恶意域名的访问,发现可疑域名后产生报警并存储到elasticSearch中。
网络异常行为检测是指通过对提取的海量数据建模,建立行为基线,定期的对新产生的数据进行挖掘,发现异常行为进行报警。
较佳地于,该数据挖掘方法还包括一步骤六,该步骤六为:
查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
较佳地,该预设格式为JSON格式,即轻量级的数据交换格式JavaScriptObjectNotation。
本发明还提供了一种数据挖掘系统,其特点在于,包括:
分布式消息模块,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
分布式处理模块,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块,用于从NoSql中提取数据并进行数据挖掘。
上述预处理模块,举例来说,可以是将数据格式转换为JSON格式。
较佳地,预处理模块在对提取的数据进行预处理后,还用于从中找出需关联的数据并将其重新发回对应的消息队列中。
较佳地,数据挖掘模块包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
较佳地,数据挖掘模块还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元。
较佳地,该数据挖掘系统还包括数据包还原模块,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明的数据挖掘方法及系统基于网络数据能够高效地进行信息的收集、联动、汇聚、存储、挖掘,从而能够及时发现网络威胁,溯源攻击,保障网络数据安全。
附图说明
图1为本发明实施例1的数据挖掘方法的流程图。
图2为本发明实施例2的数据挖掘系统的示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
参考图1所示,本实施例的数据挖掘方法,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为JSON格式,并从中找出需关联的数据并将其重新发回对应的消息队列中;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘,包括信息聚合以及基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测;
步骤六、查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
其中,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
实施例2
参考图2所示,本实施例的数据挖掘系统,包括:
分布式消息模块1,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块2,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为JSON格式,并从中找出需关联的数据并将其重新发回对应的消息队列中;
分布式处理模块3,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块4,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块5,包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中,还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元。
数据包还原模块6,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (11)
1.一种数据挖掘方法,其特征在于,包括以下步骤:
步骤一、从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
步骤二、从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
步骤三、根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
步骤四、将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
步骤五、从NoSql中提取数据并进行数据挖掘。
2.如权利要求1所述的数据挖掘方法,其特征在于,步骤二还包括:对提取的数据进行预处理后,从中找出需关联的数据并将其重新发回对应的消息队列中。
3.如权利要求1所述的数据挖掘方法,其特征在于,所述步骤五中的数据挖掘包括信息聚合,信息聚合包括,对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
4.如权利要求1所述的数据挖掘方法,其特征在于,所述步骤五中的数据挖掘还包括基于提取的数据进行的木马心跳识别、恶意域名识别、网络异常行为检测。
5.如权利要求4所述的数据挖掘方法,其特征在于,该数据挖掘方法还包括一步骤六,该步骤六为:
查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
6.如权利要求1所述的数据挖掘方法,其特征在于,该预设格式为JSON格式。
7.一种数据挖掘系统,其特征在于,包括:
分布式消息模块,用于从多个网络数据的来源获取原始数据包,并将不同来源的原始数据包放入分布式消息队列中的不同消息队列;
预处理模块,用于从消息队列中提取原始数据包,对提取的数据进行预处理,以将数据格式转换为预设格式;
分布式处理模块,用于根据数据类型创建不同的分布式处理任务,其中包括packet原始数据包任务,packet原始数据包任务为将原始数据包解析产生索引信息和描述信息;
存储模块,用于将原始数据包中的数据与解析得到的索引信息分别存储到HBASE和elasticSearch,以备数据还原用,将原始数据包中的数据及描述信息存储到NoSql;
数据挖掘模块,用于从NoSql中提取数据并进行数据挖掘。
8.如权利要求7所述的数据挖掘系统,其特征在于,预处理模块在对提取的数据进行预处理后,还用于从中找出需关联的数据并将其重新发回对应的消息队列中。
9.如权利要求7所述的数据挖掘系统,其特征在于,数据挖掘模块包括信息聚合单元,用于对提取的数据进行聚合并做关联,并统计数据的流量排行,将统计得到的结果存储到elasticSearch中。
10.如权利要求7所述的数据挖掘系统,其特征在于,数据挖掘模块还包括分别用于基于提取的数据进行木马心跳识别、恶意域名识别、网络异常行为检测的数据分析单元。
11.如权利要求10所述的数据挖掘系统,其特征在于,该数据挖掘系统还包括数据包还原模块,用于查看由木马心跳识别、恶意域名识别、网络异常行为检测而产生的报警,并根据报警的信息以及相应的索引信息还原数据包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510527951.9A CN105069158B (zh) | 2015-08-25 | 2015-08-25 | 数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510527951.9A CN105069158B (zh) | 2015-08-25 | 2015-08-25 | 数据挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105069158A true CN105069158A (zh) | 2015-11-18 |
CN105069158B CN105069158B (zh) | 2019-03-26 |
Family
ID=54498527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510527951.9A Active CN105069158B (zh) | 2015-08-25 | 2015-08-25 | 数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105069158B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108900516A (zh) * | 2018-07-09 | 2018-11-27 | 赖洪昌 | 一种网络空间漏洞归并平台分布服务系统 |
CN108959337A (zh) * | 2018-03-22 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 大数据获取方法、装置、设备及存储介质 |
CN106095391B (zh) * | 2016-05-31 | 2019-03-26 | 携程计算机技术(上海)有限公司 | 基于大数据平台和算法模型的计算方法及系统 |
CN109889619A (zh) * | 2019-01-28 | 2019-06-14 | 中国互联网络信息中心 | 基于区块链的异常域名监测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6505207B1 (en) * | 2000-04-25 | 2003-01-07 | International Business Machines Corporation | Methods and apparatus for performing dimensionality reduction in a supervised application domain |
CN101309269A (zh) * | 2008-06-17 | 2008-11-19 | 北京锐安科技有限公司 | 一种静默隐蔽网络传输的方法及系统 |
CN101465760A (zh) * | 2007-12-17 | 2009-06-24 | 北京启明星辰信息技术股份有限公司 | 一种检测拒绝服务攻击的方法和系统 |
CN103310375A (zh) * | 2013-04-23 | 2013-09-18 | 四川天翼网络服务有限公司 | 智慧天网行为审计分析系统 |
CN104022999A (zh) * | 2013-09-05 | 2014-09-03 | 北京科能腾达信息技术股份有限公司 | 基于协议分析的网络数据处理方法及系统 |
CN104579823A (zh) * | 2014-12-12 | 2015-04-29 | 国家电网公司 | 一种基于大数据流的网络流量异常检测系统及方法 |
CN104636494A (zh) * | 2015-03-04 | 2015-05-20 | 浪潮电子信息产业股份有限公司 | 一种基于Spark大数据平台的日志审计倒查系统 |
-
2015
- 2015-08-25 CN CN201510527951.9A patent/CN105069158B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6505207B1 (en) * | 2000-04-25 | 2003-01-07 | International Business Machines Corporation | Methods and apparatus for performing dimensionality reduction in a supervised application domain |
CN101465760A (zh) * | 2007-12-17 | 2009-06-24 | 北京启明星辰信息技术股份有限公司 | 一种检测拒绝服务攻击的方法和系统 |
CN101309269A (zh) * | 2008-06-17 | 2008-11-19 | 北京锐安科技有限公司 | 一种静默隐蔽网络传输的方法及系统 |
CN103310375A (zh) * | 2013-04-23 | 2013-09-18 | 四川天翼网络服务有限公司 | 智慧天网行为审计分析系统 |
CN104022999A (zh) * | 2013-09-05 | 2014-09-03 | 北京科能腾达信息技术股份有限公司 | 基于协议分析的网络数据处理方法及系统 |
CN104579823A (zh) * | 2014-12-12 | 2015-04-29 | 国家电网公司 | 一种基于大数据流的网络流量异常检测系统及方法 |
CN104636494A (zh) * | 2015-03-04 | 2015-05-20 | 浪潮电子信息产业股份有限公司 | 一种基于Spark大数据平台的日志审计倒查系统 |
Non-Patent Citations (1)
Title |
---|
段娟等: "《基于Web应用的安全日志审计系统研究与设计》", 《技术研究》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095391B (zh) * | 2016-05-31 | 2019-03-26 | 携程计算机技术(上海)有限公司 | 基于大数据平台和算法模型的计算方法及系统 |
CN108959337A (zh) * | 2018-03-22 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 大数据获取方法、装置、设备及存储介质 |
CN108900516A (zh) * | 2018-07-09 | 2018-11-27 | 赖洪昌 | 一种网络空间漏洞归并平台分布服务系统 |
CN108900516B (zh) * | 2018-07-09 | 2021-06-22 | 赖洪昌 | 一种网络空间漏洞归并平台分布服务系统 |
CN109889619A (zh) * | 2019-01-28 | 2019-06-14 | 中国互联网络信息中心 | 基于区块链的异常域名监测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105069158B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220124108A1 (en) | System and method for monitoring security attack chains | |
EP3651043B1 (en) | Url attack detection method and apparatus, and electronic device | |
CN109347801B (zh) | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | |
US11218510B2 (en) | Advanced cybersecurity threat mitigation using software supply chain analysis | |
CN109816397B (zh) | 一种欺诈判别方法、装置及存储介质 | |
CN108471429B (zh) | 一种网络攻击告警方法及系统 | |
CN108683687B (zh) | 一种网络攻击识别方法及系统 | |
Gupta et al. | Towards detecting fake user accounts in facebook | |
EP3614645B1 (en) | Embedded dga representations for botnet analysis | |
CN111953697B (zh) | 一种apt攻击识别及防御方法 | |
US20200358795A1 (en) | Systems and methods of hierarchial behavior activity modeling and detection for systems-level security | |
CN104660594A (zh) | 一种面向社交网络的虚拟恶意节点及其网络识别方法 | |
US9563770B2 (en) | Spammer group extraction apparatus and method | |
US11159564B2 (en) | Detecting zero-day attacks with unknown signatures via mining correlation in behavioral change of entities over time | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
CN105069158A (zh) | 数据挖掘方法及系统 | |
Las-Casas et al. | A big data architecture for security data and its application to phishing characterization | |
Concone et al. | Assisted labeling for spam account detection on twitter | |
Abraham et al. | Approximate string matching algorithm for phishing detection | |
Choksi et al. | Intrusion detection system using self organizing map: a survey | |
CN110677271B (zh) | 基于elk的大数据告警方法、装置、设备及存储介质 | |
Shukla et al. | UInDeSI4. 0: An efficient Unsupervised Intrusion Detection System for network traffic flow in Industry 4.0 ecosystem | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 | |
Patel et al. | Hybrid relabeled model for network intrusion detection | |
Maharani et al. | The application of multi-class support vector machines on intrusion detection system with the feature selection using information gain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160206 Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD. Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building Applicant before: Ctrip computer technology (Shanghai) Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |