CN108494790B

CN108494790B - 一种在分布式网络中检测持续型网络攻击的方法

Info

Publication number: CN108494790B
Application number: CN201810305902.4A
Authority: CN
Inventors: 戴海鹏; 陈贵海; 李猛; 汪笑宇; 于楠; 刘向阳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2020-01-21
Anticipated expiration: 2038-04-08
Also published as: CN108494790A

Abstract

本发明公开了一种在分布式网络中检测持续型网络攻击的方法，首先提出分布式网络环境下检测持续型网络攻击系统模型，其次在数据预处理和传输阶段，提出利用编码技术来压缩每个分布式服务器记录的数据并优化存储空间，然后将压缩后的数据传输到指定的中央服务器；在数据恢复和检测阶段利用编码技术恢复上述的请求记录并检测攻击行为。同时，通过对上述检测方法给出了检测方法的理论性能保障。本发明首次提出在分布式网络中检测持续型网络攻击的方法，其有效地减少了在分布式环境下需要的数据传输量，并针对检测的准确度给出了有效的理论性能保障，可以用于分布式环境下检测持续型网络攻击，以保证网络安全。

Description

一种在分布式网络中检测持续型网络攻击的方法

技术领域

本发明涉及网络安全领域，具体涉及一种在分布式网络中检测持续型网络攻击的方法。

背景技术

近些年来随着网络攻击和欺诈行为的泛滥，使得现有系统被入侵的风险大大增加，大量财产遭受损失。例如，其中分布式拒绝服务(D-Dos)网络攻击最为被关注，在此类攻击中，攻击者将大量高频恶意请求伪装成正常请求发送给受害者机器，过量的服务负载会导致受害者服务器宕机。2016年俄罗斯五家银行遭受分布式拒绝服务攻击，直接导致服务下线；美国动态DNS解析服务商Dyn DNS 曾遭受攻击，导致半个美国互联网服务瘫痪。此外，还有网络广告服务中点击欺诈诈骗，攻击者将机器人伪装为正常用户大量点击付费广告，由于广告主需要根据点击量付费，此类欺诈点击行为会直接给广告主造成大量经济损失。

持续型网络攻击是指持续不断地攻击分布式网络中的服务器，其具有数量不大，但是持续不断发生的特点，此类攻击单次不致命，但是长期累积将直接拖垮受害者服务器或者欺诈用户，因此，相比于比较容易被检测出的短期高频类攻击的情况，这种长期潜伏的攻击则更加危险。此外，在分布式网络中，所有服务器是分布式部署，服务器接收到的请求也是分布式地被记录，我们就需要在分布式服务器中请求记录中检测出这些持续型网络攻击。

近些年来，已经有一些研究工作开始关注检测持续型网络攻击，但这些研究工作关注的重点在于以下两个方面：(1)在集中式数据集中(2)检测被攻击的总次数。考虑到现有的通用服务器部署方式都是分布式部署以及在实际中需要明确持续型攻击者具体是谁的要求，但已有的研究工作都具有一定局限性，例如， kBF、IBF比较算法，其检测出持续型攻击的准确度太低，不能直接用于在分布式网络中检测持续型网络攻击。因此，提供一种能在分布式网络中检测出持续型网络攻击的方法，并且能有效的降低分布式环境下需要传输的数据量，保证检测出的攻击的准确度，是本领域技术人员亟待解决的问题。

发明内容

为解决上述问题，本发明提出一种在分布式网络中检测持续型网络攻击的方法，其目的是：在保持低通信量的前提下，在分布网络中检测持续型网络攻击。

为实现上述目的，本发明公开一种在分布式网络中检测持续型网络攻击的方法，其包括：

数据预处理和传输阶段，即：将分布式服务器上的请求记录利用编码技术有损压缩成为字节编码，并计算各请求记录的指纹信息；将字节编码连同指纹信息存储到编码型布谷鸟过滤器；将存储有数据的编码型布谷鸟过滤器发送到指定的中央服务器；

数据恢复和检测阶段，即：根据各分布式服务器发送的编码型布谷鸟过滤器存储的指纹信息和编码信息，将属于同一个请求记录的编码信息拼合以恢复出原始数据，从而检测出对应的服务请求是否为持续型攻击；

其中，各分布式服务器中的布谷鸟过滤器均由m个数据桶组成，每个数据桶内又包含多个数据槽，每个数据槽内均包含用于存储指纹信息的区域和用于存储编码信息的区域。

作为一种优选方案，数据预处理和传输阶段，将各个分布式服务器上的请求记录利用Raptor码编码进行压缩。

作为一种优选方案，利用散列函数获取请求记录的指纹信息。

作为一种优选方案，在数据预处理和传输阶段，还包括：将存储空间优化问题转化为最小化最大代价二度二部图匹配问题，并采用半匹配算法对存储空间进行优化。

作为一种优选方案，数据恢复和检测阶段具体包括：

将获取到的各个分布式服务器发送的编码型布谷鸟过滤器排列对齐；

遍历所有编码型布谷鸟过滤器中的数据桶，选中当前的数据桶,并计算出与其相关的另一个备选数据桶的位置；

将这两个数据桶内含有相同指纹信息的数据槽取出以形成一个全局的数据槽群；

计算数据槽群内的编码信息：如果该全局数据槽群内的编码总长度小于原始数据ID的长度l，则丢弃这些数据；反之则求解出原始数据编号，并将其标记为持续型攻击。

本发明还可以从被成功恢复的概率的角度对检测结果的准确性进行验证，具体包括：

对于给定长度为r的编码，解码失败的概率P_df(r,l)为：

请求记录不会发生指纹冲突的概率为P_mf为：

指纹冲突后依旧能被恢复的概率为P_ms为：

出现次数为t的请求记录能被正确解码的概率为：

P_ds(t)＝1-P_df(r×t,l)

对于出现次数为t的请求记录能被正确恢复的概率记为P_sr(t)为：

P_sr(t)＝(P_mf+P_ms)×P_ds(t)

对于所有的持续型攻击的总体而言，请求记录能被成功恢复的概率P_sr为：

上式中，m表示给定编码型布谷鸟过滤器的数据桶数目，N表示总的不同的数据量，p为请求记录的指纹长度，t表示同一请求记录出现的次数，r表示Raptor 编码的长度，l表示原始数据ID的长度，w_t表示出现次数为t的请求记录的比例， T_th表示持续型攻击出现次数的阈值，T表示分布式服务器的数目。

本发明还可以从被错误恢复的概率的角度对检测结果的准确性进行验证，具体包括：

计算恢复出来的请求记录的指纹，然后将其与全局数据槽群内的指纹进行对比：如果不同就说明数据恢复有误,如果相同就进行下一步验证；

计算元素在编码型布谷鸟过滤器中的两个备选存储位置：如果备选相同，则认为功恢复成功，否则丢弃恢复的结果；

由此，得到请求记录被错误恢复的概率P_FP为：

式中，m表示给定编码型布谷鸟过滤器的数据桶数目，N表示不同的数据的总数，p为请求记录的指纹长度。

本发明所公开的在分布式网络中检测持续型网络攻击方法可应用于分布式环境下检测持续型攻击，以保证网络安全。

本发明具有的显著优点如下：

(1)提出使用编码技术压缩数据，有效地降低了分布式环境中需要传输的数据量。

(2)提出将编码后的数据存储进入编码型布谷鸟过滤器，而本发明设计的编码布谷鸟在存储数据的时间复杂度是常数级别，查询数据的时间也是常数级别，是目前最快的数据结构，因此能极大地加快数据处理的时间；且由于不存储原始数据，只存储原始数据的编码和指纹信息，有效地降低了编码型布谷鸟过滤器的数据存储量。

(3)对编码型布谷鸟过滤器需要的存储空间采用半匹配方式进行优化，有利于减少存储空间。

(4)推导出检测出持续型攻击准确度的理论保障，对该检测方法的设计、验证及优化具有指导意义。

(5)通过在真实数据集上的实验得出本发明的方法在性能上高于比较算法至少5倍以上。

附图说明

图1数据存储进入布谷鸟过滤器过程示意图；

图2数据获取和恢复过程示意图。

具体实施方式

本发明旨在提出在分布式网络中检测出持续型网络攻击的方法，过程包含：设计系统模型，提出利用编码技术(Raptor codes)压缩分布式环境下需要传输的数据量,以及提出利用编码型布谷鸟过滤器存储提高数据处理过程的速度并优化编码型布谷鸟过滤器存储空间，再将所有的编码布谷鸟传输以便集中处理。该方法主要包括数据预处理和传输阶段以及数据恢复和检测阶段两大阶段。

数据预处理阶段主要负责将分布式服务器上的请求记录压缩编码并传输至指定的中央处理器，其又可以细分为数据编码和指纹信息获取，数据存储，数据传输三个步骤，即：首先将各个服务器上每一条服务记录利用编码技术有损压缩成为较短的字节编码并利用散列函数获取每个元素的指纹信息；其次将字节编码连同指纹信息存储到编码型布谷鸟过滤器；最后发送到指定的中央服务器等待后续处理。

数据恢复和检测阶段可分为数据恢复和数据检测两个步骤，即：在各分布式服务器发送的编码型布谷鸟过滤器的基础上，根据存储在其中的指纹信息，将属于同一个请求记录的编码信息拼合并恢复出原始数据，以检测出持续型攻击。

需要说明的是，本文中所述的“元素”、“请求记录”、“服务记录”、“服务请求”指的同一个意思，分布式服务器接收到服务请求，会对其进行服务形成服务记录，抽象的可以看成元素。

下面给出一个在分布式网络中检测出持续型网络攻击的方法的具体实施例，具体如下：

阶段1.1：数据编码和指纹信息获取

在每一个分布式服务器上，每个请求记录都是独立地被收集并存储，因此各请求记录在空间上是相互隔离的，且每一条请求记录都有对应的编号(ID)。为了避免直接传输原始的ID，我们提出先对数据利用Raptor码编码以压缩需要传输的数据量，具体的过程如下：

给定分布式服务器i，并记录有请求记录e，i∈[1,T]，T表示分布式服务器的数目，长度为l比特的编号

其中，

表示服务请求e的ID 也即第n位I的值。Raptor码编码矩阵[a_ij]，1≤j≤l，则请求记录e对应长度为

比特的编码结果为计算过程如式(1)所示:

在获取了编码后，再计算每个元素的指纹信息，计算的过程如下：

给定请求记录e和哈希函数h_f(·),长度为p比特的指纹信息f的计算方式如式(2)所示：

f＝h_f(ID)％2^p. (2)

式中，％表示求余运算，且下述公式中均为此义，不再赘述。

阶段1.2：数据存储

在获取每个请求记录的编码信息和指纹信息之后，我们需要将其存入编码型布谷鸟过滤器。

布谷鸟过滤器本质上可以被看成是一个二维哈希表，由m个数据桶组成，每个桶内包含多个数据槽，每个数据槽可存储指纹信息，而对于每个插入其中的元素e，均有两个备选的数据桶，选择算法分别是式(3)和式(4)：

i₁＝h_c(e)％m, (3)

式中，c表示用于计算位置的哈希函数标号，m表示数据桶的总数。

这里，数据插入布谷鸟过滤器的过程包含了三步，即：(1)如果两个备选数据桶内有空的数据槽，直接插入空数据槽；(2)如果备选数据桶内没有空数据槽，则随机挑选一个槽，覆盖其中的数据；(3)重复上述操作，将被覆盖的数据重新插入，以此循环，直到循环次数达到预行设置的最大循环次数。循环次数后就停止，不再插入新元素。

如图1所示，实施例中我们给出了将数据插入包含5个数据桶且每个数据桶内包含3个数据槽的布谷鸟过滤器的示意，这里我们对现有的布谷鸟过滤器进行变种，得到一个新的编码型布谷鸟过滤器，它和传统的布谷鸟过滤器基本相同，唯一的区别在于其每个数据槽内都包含额外一个区域可以用来存储编码信息，即每个数据槽内有两个存储区域，分别用于存储具有一一对应关系的指纹信息和字节编码。并且，每个分布式服务器中的编码型布谷鸟过滤器数据桶数量相等，均有m个数据桶，只是根据数据量的大小，每个数据桶中数据槽的数量有所不同。

遵循上述数据插入过程，我们将所有请求记录的编码和指纹信息插入编码型布谷鸟过滤器中，然后我们还可以去优化整体的存储空间，即求解每个数据桶内最少需要多少数据槽。因为，在第一次在插入的时候，为了防止出现数据过多插入不下的情况，会预先分配较大的存储空间，通常这部分空间最后会有冗余，通过该优化的过程可以将冗余的空间压缩到最小。

根据存储优化的目标，我们将上述存储优化问题我们可以定义成最小化最大代价二度二部图匹配问题，问题定义如下：

其中，最小化最大代价二度二部图匹配问题，即：给定一个二部图 G＝(L∪R,E)，L是左子节点集合，R是右子节点集合，E是边集，每一个左子节点集合中的节点在右子节点集合中有且只有两个邻居。我们定义

是一个二度二部图匹配当且仅当L中的每一个节点在M中有且只有一条边。我们定义右子节点集中点v的代价为和其相邻的左子节点的数目，记为deg M(v)。我们目标是寻找一个最优的最小化最大代价二度二部图匹配使得右子节点代价最大的节点的代价最小。

我们现将存储优化问题抽象成一个二部图G＝(L∪R,E)上的优化问题。初始时，边集E为空，每一项待插入数据对应左子节点集合L中的一个节点，每一个数据桶对应右子节点集合R中一个点。如果待插入数据v_l∈L的两个备选数据桶为

我们就将添加两条边

添加到边集E中。这样我们就将原始的存储优化问题转换成图上的优化问题。

对于上述这个最小化最大代价二度二部图匹配问题，我们使用半匹配算法(Semi-matching)来解决，具体过程如下：

(1)我们在原有的二部图的基础上构建一个新图，在左子节点左边添加一个超级节点，其连向每一个左子节点，在右子节点的右边添加一个超级节点，每一个右节点都有边连向该点；

(2)设置这些新添加的边的权值；

(3)利用网络流算法求解出最优的半匹配。

阶段1.3：数据传输

在完成了上述数据编码和存储压缩之后，各个分布式服务器中将其存储有数据的编码型布谷鸟过滤器发送到指定的中央服务器等待后续处理。

阶段2.1：数据恢复

在所有数据发送到某个中央服务器之后，我们需要将来自不同服务器的编码型布谷鸟过滤器集中起来并恢复原始数据。

在获取到各个服务器发送过来的编码型布谷鸟过滤器后，我们将其排列对齐进行处理。对所有的编码型布谷鸟过滤器，从左往右遍历所有的数据桶，选中当前的数据桶,然后其算出另外一个相关的备选数据桶的位置，将所有编码型布谷鸟过滤器里这两个桶内含有相同指纹的数据槽取出形成一个全局的数据槽群，然后将数据槽群内的编码信息代入公式(1)中去恢复原始数据。

阶段2.2：数据检测

基于恢复后的数据，如果该全局数据槽群内的编码长度总和小于原始数据ID 的长度l,那么我们就丢弃这些数据；如果所有的编码长度大于或等于l，那么我们就求解出原有的数据编号，并将其标记为持续型攻击。

需要注意的是，这里的l是原始数据ID的长度，通常是固定的，r是收集到的编码长度，取决于元素的出现次数。在图2中，我们给出了从4个编码型布谷鸟过滤器提取出一个数据桶群的示意图,首先我们在第3列的数据桶内找到了两个指纹相同的数据槽；其次根据这两个数据槽内的指纹信息计算出备选数据桶的是第 7列的数据桶；紧接着将第7列数据内和指纹信息相同的数据槽全部提取出来，于是我们又找到了两个数据槽并组成一个全局群(全局组)；然后，我们将这4个数据槽内的编码提取出来，由于每个数据槽内的编码长度为r，我们找到的4个数据槽内编码总的长度也即4×r；最后我们比较4×r是否大于等于l，如果满足条件就将编码信息代入公式(1)解码，否则丢弃这些编码。

完成检测后，我们对该方法检测结果的准确性从被成功恢复的概率和被错误恢复的概率两个角度进行分析和验证。具体如下：

(1)被成功恢复的概率

解码的过程有失败的可能，给定长度为r的编码，其解码的失败率P_df(r,l)由式(5)给出：

下面我们计算被恢复出的请求记录的正确率，首先我们考虑数据混合因指纹信息相同而导致的恢复失败，这种情况我们称之为指纹冲突，其概率P_mf的计算方式如下：

给定编码型布谷鸟过滤器的数据桶数目为m,不同的数据的总数为N，数据的指纹长度为p的情况下，元素不会发生指纹冲突的概率为P_mf：

同时，我们还需要考虑到即使发生了指纹冲突，由于发生冲突的双方编码信息碰巧相同，该数据也会被正常恢复，其概率P_ms的计算方式如下：

给定编码型布谷鸟过滤器的数据桶数目为m,不同数据的总数为N、数据的指纹长度为p且Raptor编码长度为r的条件下，指纹冲突后依旧能被恢复的概率为P_ms：

数据如果能正确恢复，除了不能发生指纹冲突，还不能再解码过程中发生错误,而解码失败的概率为P_df,出现次数为t的请求记录能被正确的解码的概率计算方式如下：

P_ds(t)＝1-P_df(r×t,l) (8)。

那么，对于出现次数为t的请求记录，其能被正确恢复的概率记为P_sr(τ),正确解码的概率计算方式如下：

P_sr(t)＝(P_mf+P_ms)×P_ds(t) (9)

因此，我们可以计算出给定布谷鸟过滤器的数据桶数目为m,不同的数据的总数为N，数据的指纹长度为p，Raptor编码的长度为r，出现次数为t的元素比例为w_t，那么总体而言，请求记录能被成功恢复的概率P_sr计算公式如下：

式中，T_th表示持续型攻击出现次数的阈值。

(2)被错误恢复的概率

同时，对于每一个恢复出来的元素，我们需要对其正确性进行验证。验证的步骤分为两步：

(1)我们计算恢复出来的请求记录的指纹，然后对比全局数据槽群内的指纹：如果不同就说明恢复的数据有误,如果相同就进行下一步验证；

(2)计算元素在编码型布谷鸟过滤器中的两个备选存储位置：如果位置相同，我们就认为我们以极高的概率成功恢复了数据；如果不相同则丢弃恢复的结果。

当然有可能恢复的数据依旧有可能是错误的数据，我们给出数据错误概率 P_FP的计算方式如下：

给编码型定布谷鸟过滤器的数据桶数目为m,总的不同的数据量为N，数据的指纹长度为p，那么被恢复的元素错误的概率P_FP为：

可见，通过对解码失败和指纹冲突等情况的分析，我们成功给出了数据被成功恢复出来的概率；通过对数据冲突引发错误的过程的分析，我们得到了数据被错误恢复的概率。无论从哪个角度看，本方法的各个性能指标都能被清晰地分析，从而在理论上保证了我们设计的方法可靠性。

综上所述，本发明设计整体检测的系统模型(即在各个分布式服务器上记录，统一发送到中央服务器处理)；提出将分布式服务器的请求记录中的数据进行编码压缩后传输；提出将编码后的数据存储进入编码型布谷鸟过滤器加快数据处理速度并优化编码型布谷鸟过滤器的存储空间；对于方法的整体过程建模(即将整体处理的过程在数学上形式化成概率模型)，并在理论上分析检出持续型元素的准确度，验证其检测出的结果的可信度。本发明首次提出在分布式网络中检测持续型网络攻击的方法，其有效地减少了在分布式环境下需要的数据传输量，并针对检测的准确度给出了有效的理论性能保障，可以应用于虚拟点击欺诈、持续型 DDos网络攻击、持续端口扫描、反分布式网络爬虫等在涉及分布式环境下检测持续型攻击的应用，以保证网络安全。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。