CN107070897B

CN107070897B - 入侵检测系统中基于多属性哈希去重的网络日志存储方法

Info

Publication number: CN107070897B
Application number: CN201710167463.0A
Authority: CN
Inventors: 范渊; 方黎明; 张小孟; 莫金友
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2019-11-12
Anticipated expiration: 2037-03-16
Also published as: CN107070897A

Abstract

本发明涉及网络安全和数据存储，旨在提供入侵检测系统中基于多属性哈希去重的网络日志存储方法。该入侵检测系统中基于多属性哈希去重的网络日志存储方法包括日志去重和日志存储，能入侵检测系统将网络日志去重后存储到本地服务器上，入侵检测系统包括一台数据采集服务器、若干台数据存储和分析服务器，且数据采集服务器、数据存储和分析服务器都与交换机连接。本发明利用多属性分段哈希方法，仅需一台服务器即可完成网络日志的采集和去重操作，计算复杂度和空间需求更小；日志去重更精确，不会错误丢失数据，重复日志漏报率更低；对于网路日志的存储采用与服务器性能成比例的存储方法，保证数据存储效率的同时提高后续的数据分析任务的性能。

Description

入侵检测系统中基于多属性哈希去重的网络日志存储方法

技术领域

本发明是关于网络安全和数据存储领域，特别涉及入侵检测系统中基于多属性哈希去重的网络日志存储方法。

背景技术

随着互联网的普及，各种网络攻击层出不穷，网络用户的安全受到严重威胁。入侵检测系统的目的是通过对网络数据的分析，发现可疑的攻击行为，通常采用基于贝叶斯网络的检测方法、基于模式预测的检测方法、基于机器学习的检测方法、基于数据挖掘的检测方法等。尽管检测方法不同，但其检测过程一般包括数据采集、数据存储、数据分析、系统响应等四个步骤。数据采集过程对网络数据，尤其是日志数据，进行采集或采样，数据存储过程将采集到的数据存储到本地系统中，数据分析过程对本地的日志数据进行统计、学习、挖掘等分析操作，当数据分析结果分析完成后系统响应过程对分析结果进行相应的决策和处理。

数据采集阶段通常每秒采集数十万条网络日志，而这些日志中含有大量的重复数据。因此数据采集阶段的主要困难在于如何快速准确地去除重复的网络日志。目前常用的日志去重方法分为直接比对和哈希过滤两类。直接比对的去重方法将每条日志的原始报文与其他日志比较，借助索引等常用的数据管理技术，时间复杂度和空间复杂度较高，不考虑实时性，去重操作一般与存储操作相结合。哈希过滤方法将报文看作是一个长字符串，利用一个或多个哈希函数进行哈希映射，降低时间复杂度和空间复杂度，由于网络日志字符串较长且部分属性对入侵检测结果无影响，而基于字符串的哈希一般只选择部分字符串进行计算，导致哈希冲突较高，重复数据的漏报率较高。

网络日志存储阶段通常使用多台服务器存储海量的日志信息。目前网络日志存储方法主要采用基于服务器可用资源的均衡存储方法提高存储性能。但该方法只考虑存储阶段的性能，未考虑后续的数据分析阶段的性能提升。而数据分析阶段常用的提升性能的方法是分析算法的优化和任务分配的负载均衡，前者与任务类型紧密耦合且难度较高。后者与数据存储紧密相关，但其实际操作与数据存储阶段人为分割。由于入侵检测系统的数据分析操作中包含大量的I/O操作，受限于数据存储方法。目前未有研究在日志存储过程中考虑如何存储才能提高后续的数据分析的性能。

综上所述，当前的入侵检测系统中网络日志去重方法要么缺乏实时性保证，要么重复日志的漏报率较高，因此有必要提出入侵检测系统中重复日志的低漏报率的实时去重方法。而现有的入侵检测系统中日志存储方法不为后续的数据分析操作提供性能优化策略，导致服务器存储和计算资源的浪费，限制数据分析性能的进可优化空间。

发明内容

本发明的主要目的在于克服现有技术中的不足，提供一种在入侵检测系统中能实时去重重复日志，并将去重后的日志信息合理存储到多台服务器上的方法。为解决上述技术问题，本发明的解决方案是：

提供入侵检测系统中基于多属性哈希去重的网络日志存储方法，用于入侵检测系统将网络日志去重后存储到本地服务器上，入侵检测系统包括一台数据采集服务器、若干台数据存储和分析服务器，且数据采集服务器、数据存储和分析服务器都与交换机连接；数据采集服务器只执行日志采集和去重操作，哈希表存储在数据采集服务器的内存中；数据存储和分析服务器负责网络日志的存储和分析；

所述入侵检测系统中基于多属性哈希去重的网络日志存储方法包括日志去重和日志存储；

所述日志去重是在日志采集过程中，采用基于多属性的分段哈希实时去除重复日志，且日志去重过程由数据采集服务器完成；具体包括下述步骤：

步骤A：抓取日志并解析日志，提取出用户IP、访问时间、目的IP、被访问域名这四个对入侵检测最重要的参数，并分别记为SourceIP、Time、DestinationIP、DomainName；

步骤B：为Time、SourceIP、DestinationIP、DomainName四个参数进行哈希操作，使用Hash1、Hash2、Hash3三个哈希函数将每条日志映射到哈希表上；

所述哈希操作的过程如下：

(1)将Time、SourceIP、DestinationIP、DomainName四个参数拼接成一个字符串“TimeSourceIPDestinationIPDomainName”，使用Hash1和Hash2对该字符串进行哈希，分别产生两个哈希值：

h₁＝Hash1(TimeSourceIPDestinationIPDomainName)；

h₂＝Hash2(TimeSourceIPDestinationIPDomainName)；

(2)使用TimeConvertor函数将Time参数转换成整数t，使用IPConvertor函数将SourceIP和DestinationIP参数转换成整数ip，分别使用Hash1和Hash2为DomainName参数计算哈希值d₁和d₂；：

d₁＝Hash1(DomainName)；

d₂＝Hash2(DomainName)；

(3)对Time、SourceIP、DestinationIP、DomainName四个参数转换后的数值使用哈希函数Hash3计算相应的哈希值，计算过程如下：

h₃＝Hash3(t,ip,d₁)＝(t x ip x d₁)mod HashSize；

h₄＝Hash3(t,ip,d₂)＝(t x ip x d₂)mod HashSize；

其中，所述mod为求余函数，HashSize为哈希表大小(或长度)；

步骤C：检测哈希表中h₁、h₂、h₃和h₄的位置是否全部为1，若四个位置全部为1，则认为该日志与已采集的某条日志重复，不再对该日志进行存储；若四个位置不是全部为1，则将该日志存储在缓冲区，并将哈希表中h₁、h₂、h₃和h₄的位置全部标记为1；

所述日志存储具体是指：日志实时去重后存储在缓冲区，当缓冲区大小超过预设的阈值时将缓冲区日志数据写入数据存储和分析服务器；在数据写入过程中，根据预计算得到的服务器性能数据、当前服务器的可用资源情况，保证每台服务器存储的数据量与服务器性能成比例；

服务器性能数据包括磁盘I/O性能和计算性能，磁盘I/O性能表示服务器磁盘读数据速度，计算性能表示为服务器CPU的处理速度。

在本发明中，所述函数Hash1()和Hash2()采用BKDRHash的思想，利用移位操作实现，具体为：

其中，所述str是指待哈希的字符串，hash和i为中间变量，str.Length是指字符串str的长度，<<符号是指向左以为操作，str[i]是指字符串中第i+1个字符，ToInteger(str[i])是指将字符str[i]转换成数字，mod为求余函数，HashSize为哈希表大小(或长度)。

在本发明中，所述哈希操作的过程(2)中，使用TimeConvertor函数将Time参数转换成整数t，使用IPConvertor函数将SourceIP和DestinationIP参数转换成整数ip，具体为：

t＝TimeConvertor(Time)＝(ToInteger(MM)x2678400+ToInteger(DD)x86400+ToInteger(hh)x3600+ToInteger(mm)x60+ToInteger(ss))mod HashSize；

ip＝IPConvertor(IP)＝(ToInteger(SourceIP)x ToInteger(DestinationIP))mode HashSize；

其中，所述ToInteger(MM)、ToInteger(DD)、ToInteger(hh)、ToInteger(mm)、ToInteger(ss)是指将参数Time中的月、日、时、分、秒由字符串转换成的数值，且参数Time格式为YYYY/MM/DD/hh:mm:ss，表示年/月/日/时:分:秒；所述ToInteger(SourceIP)和ToInteger(DestinationIP)是指将参数SourceIP和DestinationIP由字符串转换成的数值；所述mod为求余函数，所述HashSize为哈希表大小(或长度)。

在本发明中，对服务器性能数据进行计算具体为：

假设服务器S_i能同时读写N_d个磁盘，每个磁盘的读数据速度为P_d，能同时运行N_p个CPU，每个CPU的处理速度为P_p，则服务器S_i的性能计算如下：

其中，R_d和R_p分别表示服务I/O性能因子和计算性能因子，且R_d+R_p＝1(不同的应用中R_d和R_p取值不同；对于I/O操作较多的应用，R_d的值较高，对于计算较多的应用，R_p的值较高；极端情况R_d＝1,R_p＝0表示在服务器选择时只关注其I/O性能，R_d＝0,R_p＝1表示只关注服务器的计算性能；R_d和R_p的取值通过分析实际应用的I/O次数和计算复杂度设置，I/O次数越多R_d越大，计算复杂度越高R_p越大)；所述Performance(S_i)是指服务器S_i的性能，S_i.N_d和S_i.N_p是指服务器S_i可同时操作的磁盘个数和CPU个数，k和j是中间变量，P_d,k和P_p,j是指服务器S_i第k个磁盘的读数据速度和第j个CPU的处理速度。

在本发明中，对当前服务器的可用资源情况进行计算具体为：

假设数据总量为D，数据存储服务器数量为N_S，则服务器S_i存储的数据量D(S_i)的计算如下：

其中，所述j是中间变量，Performance(S_i)和Performance(S_j)是指服务器S_i和服务器S_j的性能。

与现有技术相比，本发明的有益效果是：

1、本发明利用多属性分段哈希方法，仅需一台服务器即可完成网络日志的采集和去重操作，计算复杂度和空间需求更小；

2、日志去重更精确，不会错误丢失数据，重复日志漏报率更低；

3、对于网路日志的存储采用与服务器性能成比例的存储方法，保证数据存储效率的同时提高后续的数据分析任务的性能。

附图说明

图1为基于多属性哈希的日志去重流程图。

图2为系统中服务器部署图。

图3为性能成比例的日志存储流程图。

图中的附图标记为：1交换机；2数据采集服务器；3数据存储和分析服务器。

具体实施方式

首先需要说明的是，本发明涉及网络安全和数据存储技术，是计算机技术在互联网技术领域的一种应用。在本发明的实现过程中，会涉及到多个软件功能模块的应用。申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的软件编程技能实现本发明，凡本发明申请文件提及的均属此范畴，申请人不再一一列举。

下面结合附图与具体实施方式对本发明作进一步详细描述：

入侵检测系统中基于多属性哈希去重的网络日志存储方法，旨在解决当入侵检测系统进行网络日志存储时，能够实时检测出重复记录，并根据应用需要将去重后的日志存储到本地系统中，根据本地系统中服务器性能差异，将日志按比例存储到各台服务器上。

总体方案分为日志去重和日志存储两个步骤。日志去重是在日志采集过程中实时去除重复日志，采用的主要方法是基于多属性的分段哈希；日志存储是将去重后的日志数据存储到本地服务器上，采用的主要方法是根据本地服务器性能按比例存储。日志去重过程由数据采集服务器2完成，该服务器只执行日志采集和去重操作，而日志存储过程由多台数据存储和分析服务器3完成。

日志去重过程如图1所示，首先抓取日志并解析日志，提取出用户IP(SourceIP)、访问时间(Time)、目的IP(DestinationIP)、被访问域名(DomainName)等对入侵检测最重要的四个参数。然后分别为四个参数选择哈希函数，进行哈希操作，将记录映射到不同的哈希表上。哈希函数的过程如下：

(1)将Time、SourceIP、DestinationIP、DomainName四个参数拼接成一个字符串“TimeSourceIPDestinationIPDomainName”，使用Hash1和Hash2对该字符串进行哈希，分别产生两个哈希值h₁＝Hash1(TimeSourceIPDestinationIPDomainName)和h₂＝Hash2(TimeSourceIPDestinationIPDomainName)。

其中，所述str是指待哈希的字符串，hash和i为中间变量，str.Length是指字符串str的长度，<<3是指向左移3位操作，<<7是指向左移7位操作，str[i]是指字符串中第i+1个字符，ToInteger(str[i])是指将字符str[i]转换成数字，mod为求余函数，HashSize为哈希表大小(或长度)。

(2)使用TimeConvertor函数将Time参数转换成整数t，使用IPConvertor函数将SourceIP和DestinationIP参数转换成整数ip，分别使用Hash1和Hash2为DomainName参数计算哈希值d₁和d₂。

ip＝IPConvertor(SourceIP,DestinationIP)＝(ToInteger(SourceIP)xToInteger(DestinationIP))mod HashSize；

d₁＝Hash1(DomainName)；

d₂＝Hash2(DomainName)；

其中，所述ToInteger(MM)、ToInteger(DD)、ToInteger(hh)、ToInteger(mm)、ToInteger(ss)是指将参数Time中的月、日、时、分、秒由字符串转换为数值，所述ToInteger(SourceIP)和ToInteger(DestinationIP)是指将参数SourceIP和DestinationIP由字符串转化为数值，mod为求余函数，HashSize为哈希表大小(或长度)。

(3)对Time、SourceIP、DestinationIP、DomainName四个参数转换后的数值使用哈希函数Hash3计算相应的哈希值：

h₃＝Hash3(t,ip,d₁)＝(t x ip x d₁)mod HashSize；

h₄＝Hash3(t,ip,d₂)＝(t x ip x d₂)mod HashSize。

其中，所述mod为求余函数，HashSize为哈希表大小(或长度)

所有哈希表初始值均为0，当采集日志后立即解析并计算h₁、h₂、h₃和h₄四个哈希值，当且仅当哈希表中h₁、h₂、h₃和h₄位置均为1时认为该日志与已采集的某条日志重复，不再对该日志进行存储；否则将相应的哈希位置为1。哈希表存储在数据采集服务器2的内存中，哈希表大小(或长度)为HashSize，当HashSize为100亿时哈希表占用内存空间为10¹⁰位二进制即1.16GB，且哈希函数的计算过程简单，因此一台数据采集服务器2即可满足日志实时采集去重的时间和空间需求。

入侵检测系统的服务器部署如图2所示，包含1台数据采集服务器2和若干台数据存储和分析服务器3，这些服务器由交换机1连接。数据采集服务器2负责日志采集和去重，数据存储和分析服务器3负责网络日志的存储和分析。

日志存储采用性能成比例的多服务器存储模式，处理流程如图3所示。日志实时去重后存储在缓冲区，当缓冲区大小超过预设的阈值时将缓冲区日志数据写入数据服务器。在数据写入过程中首先根据预计算得到的服务器性能数据以及当前服务器的可用资源情况，保证每台服务器存储的数据量与服务器性能成比例。

因为入侵检测系统中对日志数据的分析操作主要为磁盘I/O和计算，在不同的应用中磁盘I/O和计算所占比例不同，因此服务器的性能主要包括I/O性能和计算性能。磁盘I/O性能表示为服务器磁盘读数据速度，计算性能表示为服务器CPU的处理速度。假设服务器S_i可以同时读写N_d个磁盘，每个磁盘的读数据速度为P_d，可以同时运行N_p个CPU，每个CPU的处理速度为P_p，则服务器S_i的性能计算如下

其中R_d和R_p分别表示服务I/O性能因子和计算性能因子，R_d+R_p＝1，不同的应用中R_d和R_p取值不同。对于I/O操作较多的应用，R_d的值较高；对于计算较多的应用，R_p的值较高。极端情况R_d＝1,R_p＝0表示在服务器选择时只关注其I/O性能，R_d＝0,R_p＝1表示只关注服务器的计算性能。R_d和R_p的取值通过分析实际应用的I/O次数和计算复杂度设置，I/O次数越多R_d越大，计算复杂度越高R_p越大。其中，所述Performance(S_i)是指服务器S_i的性能，S_i.N_d和S_i.N_p是指服务器S_i可同时操作的磁盘个数和CPU个数，k和j是中间变量，P_d,k和P_p,j是指服务器S_i第k个磁盘的读数据速度和第j个CPU的处理速度。

数据由其存储服务器进行分析，因此在数据存储过程中保证每台服务器存储的数据量与服务器性能成比例，可以提高入侵检测系统中对日志数据的分析速度。若数据总量为D，数据存储服务器数量为N_S，则服务器S_i存储的数据量D(S_i)的计算如下：

其中，j是中间变量，Performance(S_i)和Performance(S_j)是指服务器S_i和服务器S_j的性能。

最后，需要注意的是，以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.入侵检测系统中基于多属性哈希去重的网络日志存储方法，用于入侵检测系统将网络日志去重后存储到本地服务器上，其特征在于，入侵检测系统包括一台数据采集服务器、若干台数据存储和分析服务器，且数据采集服务器、数据存储和分析服务器都与交换机连接；数据采集服务器只执行日志采集和去重操作，哈希表存储在数据采集服务器的内存中；数据存储和分析服务器负责网络日志的存储和分析；

所述哈希操作的过程如下：

h₁＝Hash1(TimeSourceIPDestinationIPDomainName)；

h₂＝Hash2(TimeSourceIPDestinationIPDomainName)；

(2)使用TimeConvertor函数将Time参数转换成整数t，使用IPConvertor函数将SourceIP和DestinationIP参数转换成整数ip，分别使用Hash1和Hash2为DomainName参数计算哈希值d₁和d₂；

d₁＝Hash1(DomainName)；

d₂＝Hash2(DomainName)；

h₃＝Hash3(t,ip,d₁)＝(t x ip x d₁)mod HashSize；

h₄＝Hash3(t,ip,d₂)＝(t x ip x d₂)mod HashSize；

其中，所述mod为求余函数，HashSize为哈希表大小；

2.根据权利要求1所述的入侵检测系统中基于多属性哈希去重的网络日志存储方法，其特征在于，所述函数Hash1()和Hash2()采用BKDRHash的思想，利用移位操作实现。

3.根据权利要求1所述的入侵检测系统中基于多属性哈希去重的网络日志存储方法，其特征在于，所述哈希操作的过程(2)中，使用TimeConvertor函数将Time参数转换成整数t，使用IPConvertor函数将SourceIP和DestinationIP参数转换成整数ip，具体为：

ip＝IPConvertor(IP)＝(ToInteger(SourceIP)x ToInteger(DestinationIP))modeHashSize；

其中，所述ToInteger(MM)、ToInteger(DD)、ToInteger(hh)、ToInteger(mm)、ToInteger(ss)是指将参数Time中的月、日、时、分、秒由字符串转换成的数值，且参数Time格式为YYYY/MM/DD/hh:mm:ss，表示年/月/日/时:分:秒；所述ToInteger(SourceIP)和ToInteger(DestinationIP)是指将参数SourceIP和DestinationIP由字符串转换成的数值；所述mod为求余函数，所述HashSize为哈希表大小。

4.根据权利要求1所述的入侵检测系统中基于多属性哈希去重的网络日志存储方法，其特征在于，对服务器性能数据进行计算具体为：

其中，R_d和R_p分别表示服务I/O性能因子和计算性能因子，且R_d+R_p＝1；所述Performance(S_i)是指服务器S_i的性能，S_i.N_d和S_i.N_p是指服务器S_i可同时操作的磁盘个数和CPU个数，k和j是中间变量，P_d,k和P_p,j是指服务器S_i第k个磁盘的读数据速度和第j个CPU的处理速度。

5.根据权利要求1所述的入侵检测系统中基于多属性哈希去重的网络日志存储方法，其特征在于，对当前服务器的可用资源情况进行计算具体为：