CN106921661B

CN106921661B - 一种基于关联规则的IPv6地址扫描方法

Info

Publication number: CN106921661B
Application number: CN201710112951.1A
Authority: CN
Inventors: 葛连升; 刘林波; 郭晓东; 仇一泓; 刘琪; 秦丰林
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2020-05-05
Anticipated expiration: 2037-02-28
Also published as: CN106921661A

Abstract

本发明公开了一种基于关联规则的IPv6地址扫描方法，包括，在IPv6网络中进行子网内扫描，获取包含IPv6地址的数据集，将所有IPv6地址的接口标识符取出，并转换成二进制形式；将接口标识符的每一位看作一项，找出多项之间的关联规则，当一条关联规则中相关联的bit项数量大于等于阈值T时，对该条关联规则外的项进行顺序扫描；根据地址是否连续选择不同的方法进行发现。该方法可以显著缩小IPv6地址扫描空间，基于当前扫描能力范围之内。

Description

一种基于关联规则的IPv6地址扫描方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于关联规则的IPv6地址扫描方法。

背景技术

IP地址扫描广泛应用于漏洞扫描、蠕虫检测等领域，认知系统框架，发现主机漏洞，检测未知服务，在网络安全研究中具有重要意义。相比IPv4协议的32位地址，IPv6协议具有128位的巨大地址空间，传统的地址扫描技术在IPv6网络中无法应用，因此，研究适用于IPv6网络的地址扫描技术，对于防止新型的IPv6扫描攻击、部署安全策略具有重要意义。

地址扫描是网络安全扫描、漏洞扫描的前提，发送探测包到目标主机，如果收到回复，那么说明目标主机是开启的，可以确定目标网络上的主机是否可达，这是信息搜集的初始阶段，它将直接影响到后续的工作。蠕虫在利用漏洞进行传播之前，也需要先对目标节点进行扫描发现，地址扫描对于网络安全具有很重要的意义。

在IPv4网络中常用的基于网络层的顺序扫描、随机扫描。这些扫描策略大多需要对一定子网范围内IP地址全部进行扫描，一个典型的具有8位主机位的IPv4网络，远程攻击者最多只需要探测256个地址，按照每秒扫描一个地址，几分钟就可以完成，在64位的IPv6子网中，可以容纳1.844*10^19个主机比IPv4网络的主机密度更低，扫描一个子网的所有地址就需要数亿年才能完成，即使使用更快的扫描方法，仍然需要无限的时间，加上地址空间稀疏，顺序扫描、随机扫描等扫描方法不能有效的发现活动主机。

如何缩小地址扫描空间，是IPv6地址扫描面临的关键问题，目前已经有研究者在此方面开展了一些工作，文献“Network Reconnaissance in IPv6Networks”中列出了很多可以缩小IPv6地址扫描空间的方法，例如，按照人为配置地址，无状态地址自动配置的规律等等，但是这种方法也存在弊端，比如：受限于发现标准格式之内的地址，对于不符合标准特征的地址，随机地址无法进行有效的扫描；IPv6技术在不断发展，地址配置方式在不断更新，需要不断更新符合新标准的地址格式。利用组播和本地链路地址的本地网络IPv6地址扫描方式，仅能发现与本地网络相关的IPv6地址，不适合大范围的地址扫描应用。文献“IPv6环境下的蠕虫传播研究”中提出网内采用虚假RA探测和网间流量监听结合的方法，仅适用于局部，流量监听属于被动方式，而且扫描速度缓慢。文献“On Reconnaissance withIPv6:A Pattern-Based Scanning Approach”中的方法仅能生成一种模式，在挖掘速度和扫描效率低。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于关联规则的IPv6地址扫描方法，该方法可以显著缩小IPv6地址扫描空间，基于当前扫描能力范围之内。

为了实现上述目的，本发明采用如下技术方案：

一种基于关联规则的IPv6地址扫描方法，包括，

在IPv6网络中进行子网内扫描，获取包含IPv6地址的数据集，将所有IPv6地址的接口标识符取出，并转换成二进制形式；

将接口标识符的每一位看作一项，找出多项之间的关联规则，当一条关联规则中相关联的bit项数量大于等于阈值T时，对该条关联规则外的项进行顺序扫描；

根据地址是否连续选择不同的方法进行发现。

对于连续的地址采用相邻关联规则发现的方法；对于非连续的地址，去掉满足相邻关联规则的地址，对数据集中剩下的地址进行非相邻关联规则发现的方法。

相邻关联规则发现方法包括：

将接口标识符进行排序，输入阈值T；

设第j行为L_j，然后逐行与下一行L_j+1进行多项的关联规则发现，确定L_j和L_j+1之间的最长关联项；

当相关联的bit数量n大于等于阈值T时，则输出相应的关联规则；

按照上述方法遍历整个数据集合；

生成包含已知和未知bit项的基于关联规则的扫描表达式；

根据基于关联规则的扫描表达式在数据集中匹配到的地址数量进行排序，去掉重复、包含关系的选项。

所述最长关联项为在这两行中同时出现的所有项的关联规则。

生成包含已知和未知bit项的基于关联规则的扫描表达式的方法为：

将产生的关联规则中的bit项作为已知bit，在64位接口标识符中的剩余bit作为未知bit，生成包含已知和未知bit项的基于关联规则的扫描表达式。

非相邻关联规则发现的方法包括：

(1)输入阈值T；

(2)将64位接口标识符的每个bit项用X_i(i<＝64)表示，计算每个bit支持度sup(X_i)，选择支持度最高的bit项X₁；

(3)计算支持度

选择支持度最高的关联规则

(4)迭代计算

(5)当阈值T处的子数据集无法继续发现关联规则时，将子数据集从全部数据集中去除，重复(2)(3)(4)，直至无法发现新的关联规则；

(6)生成包含已知和未知bit项的基于关联规则的扫描表达式；

(7)根据基于关联规则的扫描表达式在数据集中匹配到的地址数量进行排序，去掉重复、包含关系的选项。

非相邻关联规则发现的方法中，将相邻关联规则发现方法中不满足正则表达式的接口标识符作为数据集。

所述步骤(4)迭代计算

的方法包括，每次迭代i加1，j加1，当符合关联规则的接口标识符数量小于设定的子数据集容量D时，设置D为迭代返回标记，下次迭代从返回点的子数据集开始计算，当相关联的bit项的总数大于等于T时，输出相应的关联规则

将与之匹配的接口标识符从返回标记D的子数据集中去除，然后循环进行迭代。

所述步骤(6)中，将产生的关联规则中的bit项作为已知bit，在64位接口标识符中的剩余bit作为未知bit。

在经过排序的基于关联规则的扫描表达式中，选取前N个表达式，将前缀与基于规则的接口标识符表达式结合，对未知的bit进行顺序扫描，如果发现活动的主机地址则添加到活动主机列表。

本发明的有益效果：

利用关联规则挖掘IPv6地址中接口标识符比特之间的关联关系，达到了缩小扫描空间的目的。

采用相邻与非相邻关联规则挖掘的方法，使用多种关联规则扫描的方法，适用于所有类型的IPv6地址扫描。

附图说明

图1为相邻关联规则发现流程图；

图2为非相邻规则发现流程图；

图3为基于规则扫描地址流程图；

图4为规则1，2，3，4扫描结果；

图5为规则1，2，3，4与其总和扫描结果对比；

图6为IPv6地址结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

IPv6介绍

IPv6是Internet Protocol Version 6的缩写，其中Internet Protocol译为“互联网协议”。IPv6是IETF(互联网工程任务组，Internet Engineering TaskForce)设计的用于替代现行版本IP协议(IPv4)的下一代IP协议。

IPv6地址

IPv6地址的基本表达方式是X:X:X:X:X:X:X:X，其中X是一个4位十六进制整数(16位)。每一个数字包含4位，每个整数包含4个数字，每个地址包括8个整数，共计128位(4×4×8＝128)，这些整数是十六进制整数。IPv6地址被分成两个部分:子网前缀(subnetprefix)和接口标识符(Interface Identifiers)。IPv6地址结构如图6所示。

IPv4与IPv6地址之间最明显的差别在于IP地址的长度：IPv4地址长度为32位，而IPv6地址长度为128位。IPv4地址可以被分为2至3个不同部分(网络标识符、节点标识符，有时还有子网标识符)，IPv6地址中拥有更大的地址空间，可以支持更多的字段。

关联规则

关联规则用于从大量数据中挖掘出有价值的数据项之间的相关关系。

假设I＝{I₁，I₂，...，I_m}是项的集合。给定一个数据库D＝{t₁，t₂，...，t_n}，其中每个事务(Transaction)t是I的非空子集，即

每一个交易都与一个唯一的标识符TID(Transaction ID)对应。定义关联规则表示为：

其中X，

且

X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。关联规则

在D中的支持度(support)是D中事务包含X∩Y的百分比，即概率P(X∩Y)，通常使用

表示。

如图3所示，一种基于关联规则的IPv6地址扫描方法，在IPv6网络中的扫描主要是子网内扫描，首先获取包含IPv6地址的数据集，将所有IPv6地址的接口标识符取出，并转换成二进制形式；

将64位接口标识符的每一位看作一项，通过发现多项之间的关联规则，当这条关联规则中相关联的bit项数量大于等于阈值T，表示在IPv6地址中这种关联关系是频繁出现的，那么可以对规则外的项(即未知bit)进行顺序扫描，可以达到缩小扫描空间的目的，此时未知bit数量小于(64-T)；

通过分析IPv6地址的特点，连续的地址有大量相同的bit，容易发现满足条件的关联规则，并且耗时少，采用相邻关联规则发现的方法；对于非连续的地址，特别是复杂的临时地址等，也可能存在大量相同的bit，去掉满足相邻关联规则的地址，对数据集中剩下的地址进行非相邻关联规则的发现。

具体实现方法如下：

如图1所示，相邻关联规则发现

(1)首先将接口标识符进行排序；

(2)输入阈值T；

(3)设第j行为L_j，然后逐行与下一行L_j+1进行多项的关联规则发现，确定L_j和L_j+1之间的最长关联项(即在这两行中同时出现的所有项的关联规则)；

(4)当相关联的bit数量n大于等于阈值T时，则输出相应的关联规则；

(5)循环进行(3)和(4)，遍历整个数据集合；

(6)将产生的关联规则中的bit项作为已知bit，在64位接口标识符中的剩余bit作为未知bit，生成包含已知和未知bit项的基于关联规则的扫描表达式；

如图2所示，非相邻关联规则发现

(1)将1、中不满足正则表达式的接口标识符作为数据集；

(2)输入阈值T；

(3)将64位接口标识符的每个bit项用(i<＝64)表示，计算每个bit支持度sup(X_i)，选择支持度最高的bit项X₁；

(4)然后计算支持度

选择支持度最高的关联规则

(5)迭代计算

每次迭代i加1，j加1，当符合关联规则的接口标识符数量小于设定的子数据集容量D时，设置D为迭代返回标记，下次迭代从返回点的子数据集开始计算，当相关联的bit项的总数大于等于T，输出相应的关联规则

将与之匹配的接口标识符从返回标记D的子数据集中去除，然后循环重复上述步骤；

(6)当阈值T处的子数据集无法继续发现关联规则时，将子数据集从全部数据集中去除，重复(3)(4)(5)，直至无法发现新的关联规则；

(7)将产生的关联规则中的bit项作为已知bit，在64位接口标识符中的剩余bit作为未知bit，那么可以生成包含已知和未知bit项的基于关联规则的扫描表达式；

(8)根据基于关联规则的扫描表达式可以在数据集中匹配到的地址数量进行排序，去掉重复、包含关系的选项。

在经过排序的基于关联规则的扫描表达式中，选取前N个表达式，将前缀与基于规则的接口标识符表达式结合，对未知的bit进行顺序扫描，如果发现活动的主机地址添加到活动主机列表。

实验以及结果：

通过实验对本方法进行验证，实验使用的数据集包含10000个IPv6地址，将接口标识符单独取出，打乱顺序，将其中70％作为训练集，剩下的30％作为测试集进行对比验证，阈值T设为40，对关联规则表达式的未知bit进行扫描，即是输出测试集中符合关联规则的接口标识符。

进行相邻关联规则发现，结果获得了144条关联规则，用时42s；对比测试集可以获得1998个地址。

进行非相邻关联规则发现，结果获得了901条关联规则，用时615s；对比测试集获得了43个地址。

获得的地址总和占测试集总数的66.8％。结果表明本方法可以缩小IPv6地址的扫描空间，高效的对IPv6地址进行扫描。

将生成的规则按照在训练集中的匹配地址数量排序，排在前面的规则包含的地址稠密，扫描效率高，排在后面的规则包含的地址稀疏，扫描效率低。这里取前4项规则进行对比扫描。图4以地址扫描的方式显示了前4条规则在测试集中匹配结果，图5以地址扫描的方式显示了4条规则扫描结果与其总和对比。

本发明提出一种基于关联规则的IPv6地址扫描方法，使用关联分析的方法，基于已有的IPv6地址集，挖掘IPv6地址中所包含的比特位(bit)之间潜在的关联关系，建立起关联关系规则集合，并将其应用于IPv6地址扫描。该方法可以显著缩小IPv6地址扫描空间，基于当前扫描能力范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于关联规则的IPv6地址扫描方法，其特征是，包括，

根据地址是否连续选择不同的方法进行发现；

2.如权利要求1所述一种基于关联规则的IPv6地址扫描方法，其特征是，相邻关联规则发现方法包括：

将接口标识符进行排序，输入阈值T；

遍历整个数据集合；

生成包含已知和未知bit项的基于关联规则的扫描表达式；

3.如权利要求2所述一种基于关联规则的IPv6地址扫描方法，其特征是，所述最长关联项为在这两行中同时出现的所有项的关联规则。

4.如权利要求2所述一种基于关联规则的IPv6地址扫描方法，其特征是，生成包含已知和未知bit项的基于关联规则的扫描表达式的方法为：

5.如权利要求1所述一种基于关联规则的IPv6地址扫描方法，其特征是，非相邻关联规则发现的方法包括：

(1)输入阈值T；

(2)将64位接口标识符的每个bit项用X_i表示，i<＝64；计算每个bit支持度sup(X_i)，选择支持度最高的bit项X₁；

(3)计算支持度

选择支持度最高的关联规则

(4)迭代计算sup

其中i<＝j<＝40；

(6)生成包含已知和未知bit项的基于关联规则的扫描表达式；

6.如权利要求5所述一种基于关联规则的IPv6地址扫描方法，其特征是，非相邻关联规则发现的方法中，将相邻关联规则发现方法中不满足正则表达式的接口标识符作为数据集。

7.如权利要求5所述一种基于关联规则的IPv6地址扫描方法，其特征是，所述(4)迭代计算sup

其中i<＝j<＝40的方法包括，每次迭代i加1，j加1，当符合关联规则的接口标识符数量小于设定的子数据集容量D时，设置D为迭代返回标记，下次迭代从返回点的子数据集开始计算，当相关联的bit项的总数大于等于T时，输出相应的关联规则

其中i<＝j<＝T，将与之匹配的接口标识符从返回标记D的子数据集中去除，然后循环进行迭代。

8.如权利要求5所述一种基于关联规则的IPv6地址扫描方法，其特征是，所述(6)中，将产生的关联规则中的bit项作为已知bit，在64位接口标识符中的剩余bit作为未知bit。

9.如权利要求5或2所述一种基于关联规则的IPv6地址扫描方法，其特征是，在经过排序的基于关联规则的扫描表达式中，选取前N个表达式，将前缀与基于规则的接口标识符表达式结合，对未知的bit进行顺序扫描，如果发现活动的主机地址则添加到活动主机列表。