CN107566372B

CN107566372B - 大数据环境下基于特征值反馈的安全数据采集优化方法

Info

Publication number: CN107566372B
Application number: CN201710795153.3A
Authority: CN
Inventors: 俞皓; 赵俊峰; 夏元轶; 贾雪; 廖鹏; 郭靓; 于晓文; 蒋甜; 张路煜; 姜帆; 刘强; 丁晓玉; 曾锃
Original assignee: Nari Information and Communication Technology Co; Nanjing NARI Group Corp; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nari Information and Communication Technology Co; Nanjing NARI Group Corp; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2018-06-05
Anticipated expiration: 2037-09-06
Also published as: CN107566372A

Abstract

本发明公开了一种大数据环境下基于特征值反馈的安全数据采集优化方法，包括，将采集到的网络流量数据镜像为两部分，一部分离线存储，另一部分进行实时分析；对离线存储的网络流量数据进行安全特征分析，并将得到的安全特征值存入安全特征库；实时分析时，根据安全特征库中的安全特征值，对网络流量数据进行过滤，如果与安全特征值匹配，则网络流量数据为安全数据，对安全数据进行实时分析。本发明通过机器学习，提取安全特征值，并根据安全特征值对网络流量数据进行过滤，达到数据约减，减少冗余数据，提高实时分析效率的目的，实现了大数据环境下的安全数据采集优化。

Description

大数据环境下基于特征值反馈的安全数据采集优化方法

技术领域

本发明涉及一种大数据环境下基于特征值反馈的安全数据采集优化方法，属于数据包采集技术领域。

背景技术

为了不断应对新的安全挑战，企业和组织先后部署了防火墙、安全网关、入侵检测和防护系统、漏洞扫描系统、防病毒系统、终端管理系统等，构建起了一道道安全防线。然而，这些复杂的IT资源及其安全防御设施在运行过程中不断产生大量的安全日志和事件，致使安全数据呈指数级增长，安全数据呈现出大规模、高纬度、高噪声、高复杂度的特点，造成“维度灾难”现象。为传统的安全信息与事件管理平台(SIEM)的计算能力及实时性需求提出新的挑战。如何结合实际需求，提出可实用的符合现在大数据环境下的安全数据采集完善方案至关重要。

发明内容

为了解决上述技术问题，本发明提供了一种大数据环境下基于特征值反馈的安全数据采集优化方法。

为了达到上述目的，本发明所采用的技术方案是：

大数据环境下基于特征值反馈的安全数据采集优化方法，包括，

将采集到的网络流量数据镜像为两部分，一部分离线存储，另一部分进行实时分析；

对离线存储的网络流量数据进行安全特征分析，并将得到的安全特征值存入安全特征库；

实时分析时，根据安全特征库中的安全特征值，对网络流量数据进行过滤，如果与安全特征值匹配，则网络流量数据为安全数据，对安全数据进行实时分析。

周期性的进行安全特征分析，对最近一周期内离线存储的网络流量数据进行安全特征分析，得到新的安全特征值，更新安全特征库。

安全特征分析的过程为，将离线存储的网络流量数据重组还原为会话流，对会话流进行向量分割，作为安全特征分析的输入，选择适当的机器学习算法，调整向量参数，得到安全特征值。

在重组还原过程中，具有相同五元组的数据标记为一条会话流。

在过滤时，如果与安全特征值不匹配，则丢弃网络流量数据。

网络流量数据以报文形式进行传输，安全特征值包括正则表达式及指纹特征字；在过滤时，解析报文头部内容，分析报文头部内容与正则表达式是否匹配，不解析报文载荷部分的具体内容，通过其二进制流，判断与指纹特征字的符合度，当报文头部内容与正则表达式匹配，并且报文载荷部分的二进制流与指纹特征字符合，那么表示该报文与安全特征值匹配。

本发明所达到的有益效果：本发明通过机器学习，提取安全特征值，并根据安全特征值对网络流量数据进行过滤，达到数据约减，减少冗余数据，提高实时分析效率的目的，实现了大数据环境下的安全数据采集优化。

附图说明

图1为本发明的流程框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，大数据环境下基于特征值反馈的安全数据采集优化方法，包括以下步骤：

步骤1，将采集到的以报文形式进行传输的网络流量数据镜像为两部分，一部分离线存储，存储至离线数据库，另一部分进行实时分析。

步骤2，对离线存储的网络流量数据进行安全特征分析，并将得到的安全特征值存入安全特征库。

安全特征分析是周期性的进行，到达指定的时间后会对最近一周期内离线存储的网络流量数据进行安全特征分析，得到新的安全特征值，更新安全特征库。

安全特征分析的过程具体如下：

将离线存储的网络流量数据重组还原为会话流，其中，具有相同五元组（源IP、源端口、目的IP、目的端口、传输协议类型）的数据标记为一条会话流，对会话流进行向量分割，作为安全特征分析的输入，选择适当的机器学习算法，调整向量参数，得到安全特征值。

步骤3，实时分析时，根据安全特征库中的安全特征值，对网络流量数据进行过滤，如果与安全特征值匹配，则网络流量数据为安全数据，对安全数据进行实时分析；如果与安全特征值不匹配，则丢弃网络流量数据。

安全特征值包括正则表达式及指纹特征字；在过滤时，解析报文头部内容，分析报文头部内容与正则表达式是否匹配，不解析报文载荷部分的具体内容，通过其二进制流，判断与指纹特征字的符合度，当报文头部内容与正则表达式匹配，并且报文载荷部分的二进制流与指纹特征字符合，那么表示该报文与安全特征值匹配。

上述方法通过重组还原会话流，通过机器学习方法对网络流量数据进行分析得到安全特征值，然后通过安全特征过滤，得到安全数据，并对其进行实时分析，实现了对传统安全信息与事件管理平台在大数据环境下的安全数据采集策略的优化，达到数据约减，减少冗余数据，降低了数据复杂度，提升了平台对海量数据的实时分析的效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.大数据环境下基于特征值反馈的安全数据采集优化方法，其特征在于：包括，

实时分析时，根据安全特征库中的安全特征值，对网络流量数据进行过滤，如果与安全特征值匹配，则网络流量数据为安全数据，对安全数据进行实时分析；

安全特征分析的过程为，

将离线存储的网络流量数据重组还原为会话流，对会话流进行向量分割，作为安全特征分析的输入，选择适当的机器学习算法，调整向量参数，得到安全特征值。

2.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法，其特征在于：周期性的进行安全特征分析，对最近一周期内离线存储的网络流量数据进行安全特征分析，得到新的安全特征值，更新安全特征库。

3.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法，其特征在于：在重组还原过程中，具有相同五元组的数据标记为一条会话流。

4.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法，其特征在于：在过滤时，如果与安全特征值不匹配，则丢弃网络流量数据。

5.根据权利要求1所述的大数据环境下基于特征值反馈的安全数据采集优化方法，其特征在于：

网络流量数据以报文形式进行传输，安全特征值包括正则表达式及指纹特征字；

在过滤时，解析报文头部内容，分析报文头部内容与正则表达式是否匹配，不解析报文载荷部分的具体内容，通过其二进制流，判断与指纹特征字的符合度，当报文头部内容与正则表达式匹配，并且报文载荷部分的二进制流与指纹特征字符合，那么表示该报文与安全特征值匹配。