CN107566372B - 大数据环境下基于特征值反馈的安全数据采集优化方法 - Google Patents

大数据环境下基于特征值反馈的安全数据采集优化方法 Download PDF

Info

Publication number
CN107566372B
CN107566372B CN201710795153.3A CN201710795153A CN107566372B CN 107566372 B CN107566372 B CN 107566372B CN 201710795153 A CN201710795153 A CN 201710795153A CN 107566372 B CN107566372 B CN 107566372B
Authority
CN
China
Prior art keywords
data
network flow
special safety
value indicative
flow data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710795153.3A
Other languages
English (en)
Other versions
CN107566372A (zh
Inventor
俞皓
赵俊峰
夏元轶
贾雪
廖鹏
郭靓
于晓文
蒋甜
张路煜
姜帆
刘强
丁晓玉
曾锃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co, Nanjing NARI Group Corp, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Nari Information and Communication Technology Co
Priority to CN201710795153.3A priority Critical patent/CN107566372B/zh
Publication of CN107566372A publication Critical patent/CN107566372A/zh
Application granted granted Critical
Publication of CN107566372B publication Critical patent/CN107566372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种大数据环境下基于特征值反馈的安全数据采集优化方法,包括,将采集到的网络流量数据镜像为两部分,一部分离线存储,另一部分进行实时分析;对离线存储的网络流量数据进行安全特征分析,并将得到的安全特征值存入安全特征库;实时分析时,根据安全特征库中的安全特征值,对网络流量数据进行过滤,如果与安全特征值匹配,则网络流量数据为安全数据,对安全数据进行实时分析。本发明通过机器学习,提取安全特征值,并根据安全特征值对网络流量数据进行过滤,达到数据约减,减少冗余数据,提高实时分析效率的目的,实现了大数据环境下的安全数据采集优化。

Description

大数据环境下基于特征值反馈的安全数据采集优化方法
技术领域
本发明涉及一种大数据环境下基于特征值反馈的安全数据采集优化方法,属于数据包采集技术领域。
背景技术
为了不断应对新的安全挑战,企业和组织先后部署了防火墙、安全网关、入侵检测和防护系统、漏洞扫描系统、防病毒系统、终端管理系统等,构建起了一道道安全防线。然而,这些复杂的IT资源及其安全防御设施在运行过程中不断产生大量的安全日志和事件,致使安全数据呈指数级增长,安全数据呈现出大规模、高纬度、高噪声、高复杂度的特点,造成“维度灾难”现象。为传统的安全信息与事件管理平台(SIEM)的计算能力及实时性需求提出新的挑战。如何结合实际需求,提出可实用的符合现在大数据环境下的安全数据采集完善方案至关重要。
发明内容
为了解决上述技术问题,本发明提供了一种大数据环境下基于特征值反馈的安全数据采集优化方法。
为了达到上述目的,本发明所采用的技术方案是:
大数据环境下基于特征值反馈的安全数据采集优化方法,包括,
将采集到的网络流量数据镜像为两部分,一部分离线存储,另一部分进行实时分析;
对离线存储的网络流量数据进行安全特征分析,并将得到的安全特征值存入安全特征库;
实时分析时,根据安全特征库中的安全特征值,对网络流量数据进行过滤,如果与安全特征值匹配,则网络流量数据为安全数据,对安全数据进行实时分析。
周期性的进行安全特征分析,对最近一周期内离线存储的网络流量数据进行安全特征分析,得到新的安全特征值,更新安全特征库。
安全特征分析的过程为,将离线存储的网络流量数据重组还原为会话流,对会话流进行向量分割,作为安全特征分析的输入,选择适当的机器学习算法,调整向量参数,得到安全特征值。
在重组还原过程中,具有相同五元组的数据标记为一条会话流。
在过滤时,如果与安全特征值不匹配,则丢弃网络流量数据。
网络流量数据以报文形式进行传输,安全特征值包括正则表达式及指纹特征字;在过滤时,解析报文头部内容,分析报文头部内容与正则表达式是否匹配,不解析报文载荷部分的具体内容,通过其二进制流,判断与指纹特征字的符合度,当报文头部内容与正则表达式匹配,并且报文载荷部分的二进制流与指纹特征字符合,那么表示该报文与安全特征值匹配。
本发明所达到的有益效果:本发明通过机器学习,提取安全特征值,并根据安全特征值对网络流量数据进行过滤,达到数据约减,减少冗余数据,提高实时分析效率的目的,实现了大数据环境下的安全数据采集优化。
附图说明
图1为本发明的流程框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,大数据环境下基于特征值反馈的安全数据采集优化方法,包括以下步骤:
步骤1,将采集到的以报文形式进行传输的网络流量数据镜像为两部分,一部分离线存储,存储至离线数据库,另一部分进行实时分析。
步骤2,对离线存储的网络流量数据进行安全特征分析,并将得到的安全特征值存入安全特征库。
安全特征分析是周期性的进行,到达指定的时间后会对最近一周期内离线存储的网络流量数据进行安全特征分析,得到新的安全特征值,更新安全特征库。
安全特征分析的过程具体如下:
将离线存储的网络流量数据重组还原为会话流,其中,具有相同五元组(源IP、源端口、目的IP、目的端口、传输协议类型)的数据标记为一条会话流,对会话流进行向量分割,作为安全特征分析的输入,选择适当的机器学习算法,调整向量参数,得到安全特征值。
步骤3,实时分析时,根据安全特征库中的安全特征值,对网络流量数据进行过滤,如果与安全特征值匹配,则网络流量数据为安全数据,对安全数据进行实时分析;如果与安全特征值不匹配,则丢弃网络流量数据。
安全特征值包括正则表达式及指纹特征字;在过滤时,解析报文头部内容,分析报文头部内容与正则表达式是否匹配,不解析报文载荷部分的具体内容,通过其二进制流,判断与指纹特征字的符合度,当报文头部内容与正则表达式匹配,并且报文载荷部分的二进制流与指纹特征字符合,那么表示该报文与安全特征值匹配。
上述方法通过重组还原会话流,通过机器学习方法对网络流量数据进行分析得到安全特征值,然后通过安全特征过滤,得到安全数据,并对其进行实时分析,实现了对传统安全信息与事件管理平台在大数据环境下的安全数据采集策略的优化,达到数据约减,减少冗余数据,降低了数据复杂度,提升了平台对海量数据的实时分析的效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.大数据环境下基于特征值反馈的安全数据采集优化方法,其特征在于:包括,
将采集到的网络流量数据镜像为两部分,一部分离线存储,另一部分进行实时分析;
对离线存储的网络流量数据进行安全特征分析,并将得到的安全特征值存入安全特征库;
实时分析时,根据安全特征库中的安全特征值,对网络流量数据进行过滤,如果与安全特征值匹配,则网络流量数据为安全数据,对安全数据进行实时分析;
安全特征分析的过程为,
将离线存储的网络流量数据重组还原为会话流,对会话流进行向量分割,作为安全特征分析的输入,选择适当的机器学习算法,调整向量参数,得到安全特征值。
2.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法,其特征在于:周期性的进行安全特征分析,对最近一周期内离线存储的网络流量数据进行安全特征分析,得到新的安全特征值,更新安全特征库。
3.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法,其特征在于:在重组还原过程中,具有相同五元组的数据标记为一条会话流。
4.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法,其特征在于:在过滤时,如果与安全特征值不匹配,则丢弃网络流量数据。
5.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法,其特征在于:
网络流量数据以报文形式进行传输,安全特征值包括正则表达式及指纹特征字;
在过滤时,解析报文头部内容,分析报文头部内容与正则表达式是否匹配,不解析报文载荷部分的具体内容,通过其二进制流,判断与指纹特征字的符合度,当报文头部内容与正则表达式匹配,并且报文载荷部分的二进制流与指纹特征字符合,那么表示该报文与安全特征值匹配。
CN201710795153.3A 2017-09-06 2017-09-06 大数据环境下基于特征值反馈的安全数据采集优化方法 Active CN107566372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710795153.3A CN107566372B (zh) 2017-09-06 2017-09-06 大数据环境下基于特征值反馈的安全数据采集优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710795153.3A CN107566372B (zh) 2017-09-06 2017-09-06 大数据环境下基于特征值反馈的安全数据采集优化方法

Publications (2)

Publication Number Publication Date
CN107566372A CN107566372A (zh) 2018-01-09
CN107566372B true CN107566372B (zh) 2018-06-05

Family

ID=60979303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710795153.3A Active CN107566372B (zh) 2017-09-06 2017-09-06 大数据环境下基于特征值反馈的安全数据采集优化方法

Country Status (1)

Country Link
CN (1) CN107566372B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379390B (zh) * 2018-12-25 2021-04-27 中国电子科技网络信息安全有限公司 一种基于全流量的网络安全基线生成方法
CN112906051B (zh) * 2021-03-02 2022-09-20 上海蓝色帛缔智能工程有限公司 智慧医疗数据处理方法、系统及数据中心

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN105989150A (zh) * 2015-03-02 2016-10-05 中国移动通信集团四川有限公司 一种基于大数据环境的数据查询方法及装置
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8505092B2 (en) * 2007-01-05 2013-08-06 Trend Micro Incorporated Dynamic provisioning of protection software in a host intrusion prevention system
US9578008B2 (en) * 2015-05-11 2017-02-21 Intel Corporation Technologies for secure bootstrapping of virtual network functions
US10536357B2 (en) * 2015-06-05 2020-01-14 Cisco Technology, Inc. Late data detection in data center
CN106096406B (zh) * 2016-05-30 2019-01-25 北京启明星辰信息安全技术有限公司 一种安全漏洞回溯分析方法及装置
CN106375295B (zh) * 2016-08-30 2019-09-13 康剑兰 数据存储监控方法
CN106936667B (zh) * 2017-04-17 2020-08-11 东南大学 一种基于应用程序流量分布式分析的主机实时识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN105989150A (zh) * 2015-03-02 2016-10-05 中国移动通信集团四川有限公司 一种基于大数据环境的数据查询方法及装置
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法

Also Published As

Publication number Publication date
CN107566372A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
Wang The applications of deep learning on traffic identification
CN110011931B (zh) 一种加密流量类别检测方法及系统
CN110417729B (zh) 一种加密流量的服务与应用分类方法及系统
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN107172022A (zh) 基于入侵途径的apt威胁检测方法和系统
Yang et al. Research on network traffic identification based on machine learning and deep packet inspection
CN102158428B (zh) 快速高准确率的垃圾邮件过滤方法
CN107370752B (zh) 一种高效的远控木马检测方法
CN109768981B (zh) 一种在sdn架构下基于机器学习的网络攻击防御方法和系统
CN107566372B (zh) 大数据环境下基于特征值反馈的安全数据采集优化方法
CN109450721A (zh) 一种基于深度神经网络的网络异常行为识别方法
CN104618377A (zh) 基于NetFlow的僵尸网络检测系统与检测方法
CN109218321A (zh) 一种网络入侵检测方法及系统
CN101184000A (zh) 基于报文采样和应用签名的互联网应用流量识别方法
CN109495508A (zh) 基于服务访问数据的防火墙配置方法
Zhao Network intrusion detection system model based on data mining
CN105847250A (zh) VoIP流媒体多维度信息隐写实时检测方法
CN111222019A (zh) 特征提取的方法和装置
CN114598499A (zh) 结合业务应用的网络风险行为分析方法
CN108667804B (zh) 一种基于SDN架构的DDoS攻击检测及防护方法和系统
CN108566382B (zh) 基于规则生命周期检测的防火墙自适应能力提升方法
CN101072174A (zh) 基于净荷深度检测和会话关联技术的腾讯语音识别方法
CN105553787B (zh) 基于Hadoop的边缘网出口网络流量异常检测方法
CN102420830A (zh) 一种p2p协议类型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant