CN111294318A

CN111294318A - 一种网络攻击的ip地址分析方法、装置和存储介质

Info

Publication number: CN111294318A
Application number: CN201811497388.5A
Authority: CN
Inventors: 张瑜; 康慧秦; 惠友为; 王创
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-06-16
Anticipated expiration: 2038-12-07
Also published as: CN111294318B

Abstract

本申请提供一种网络攻击的IP地址分析方法、装置和存储介质，涉及互联网技术领域，用以对IP地址进行有效的聚类。该方法中，收集多个数据包；获取每个数据包的源IP和目的IP；针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。在已知IP中，选取k个已知IP作为聚类中心；根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类；将所述k个类包含的IP确定为潜在风险IP。这样，将收集到的IP分为已知IP和未知IP，对未知IP进行带约束的聚类分析而并非是对所有的IP进行聚类，减少了需要聚类的IP数量。

Description

一种网络攻击的IP地址分析方法、装置和存储介质

技术领域

本申请涉及互联网技术领域，尤其是涉及一种网络攻击的IP地址分析方法、装置和存储介质。

背景技术

DDos(分布式拒绝服务)攻击者首先通过以下4个步骤获得尽可能多的攻击代理端并植入攻击程序：(1)扫描大量主机，从中寻找可入侵的主机；(2)入侵有安全漏洞的主机并获取控制权；(3)在被入侵主机中，按入侵主机的用途分别植入特定程序或攻击程序；(4)利用已入侵主机继续进行扫描和入侵，并在入侵主机中植入攻击程序。攻击者在控制了足够多的攻击代理端之后，建立如图1所示的DDos攻击网络；然后在适当的时候，通过攻击主控台发出攻击指令；攻击主控端将攻击程序运行所需参数，如攻击方法、攻击周期、攻击的目标主机IP等发布到各个攻击代理端；攻击代理端在接收到此类攻击参数后，就开始向目标主机发出大量假冒源IP的包，以消耗目标主机内存资源或消耗目标网络的网络带宽。成百上千达万台代理端同时向一个目标发起攻击，最终导致目标网络、目标网络的防火墙、路由器等网络设备拥塞或目标主机系统资源的耗尽，从而使该目标主机或目标网络不能为合法用户提供较好的服务或根本不能提供服务而产生DDos攻击。

现有的主要预防手段是通过聚类算法，对收集到的所有IP进行聚类，然后与已经发现的攻击者IP进行匹配，如果某个类的任一IP与已知的攻击者IP匹配，那么就将该类的IP作为潜在风险IP。这种聚类方法的计算量特别大，计算成本大，计算速度低。

发明内容

为了能够有效的对IP进行聚类，进而为预防网络攻击做准备，本申请实施例提供一种网络攻击的IP地址分析方法、装置和存储介质。

第一方面，本申请实施例提供了一种网络攻击的IP地址分析方法，该方法包括：收集多个数据包；获取每个数据包的源IP和目的IP；针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP；在已知IP中，选取k个已知IP作为聚类中心，k为正整数；根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类；将所述k个类包含的IP确定为潜在风险IP。

基于相同的发明构思，本申请实施例还提供一种网络攻击的IP地址分析装置，该装置包括：

收集模块，用于收集多个数据包。

获取模块，用于获取每个数据包的源IP和目的IP。

匹配模块，用于针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。

选取模块，用于在已知IP中，选取k个已知IP作为聚类中心，k为正整数。

聚类模块，用于根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类。

确定模块，用于将所述k个类包含的IP确定为潜在风险IP。

本申请另一实施例还提供了一种计算装置，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任一网络攻击的IP地址分析方法。

本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例中的任一网络攻击的IP地址分析方法。

本申请实施例提供的网络攻击的IP地址分析方法、装置、计算装置和存储介质，由于将收集到的数据包的IP地址分为已知IP和未知IP，并对未知IP进行聚类分析，减少了需要聚类的IP数量，减少计算时间，且对未知IP进行带约束的聚类分析，将不满足条件的IP放弃，进一步减少了需要聚类的IP数量，降低计算时间。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为DDos攻击网络；

图2为本申请实施例中网络攻击的IP地址分析方法流程示意图；

图3为本申请实施例中网络攻击的IP地址分析方法应用场景示意图；

图4为本申请实施例中网络攻击的IP地址分析方法另一流程示意图；

图5为本申请实施例中对未知IP执行带约束的聚类分析流程图；

图6为本申请实施例中带约束的聚类分析的应用场景示意图；

图7为本申请实施例中网络攻击的IP地址分析方法另一流程示意图；

图8为本申请实施例中网络攻击的IP地址分析装置示意图；

图9为根据本申请实施方式的计算装置的结构示意图。

具体实施方式

为了能够更有效的对IP进行聚类进而为预防网络攻击做准备，本申请实施例中提供一种网络攻击的IP地址分析方法、装置和存储介质。为了更好的理解本申请实施例提供的方案，下面对本申请实施例中的一些名词进行解释：

带约束的聚类方法：又称条件系统聚类法，该法基于系统聚类的思想，在聚类过程中按类与类相聚的条件进行聚类，不满足条件者不得相聚，具体的，不满足条件者将不会归为任何一个类别。

接下来对本申请实施例提供的方案的原理，进行说明：

DDos攻击者会利用成百上千达万台代理端同时向一个目标发起攻击，最终导致目标主机或目标网络不能为合法用户提供较好的服务。现有的预防方法中，通过对所有IP进行聚类分析，并分析出风险IP进行预防。而这种聚类方法，将每个IP都一视同仁，从而导致计算量特别大，计算成本大，计算速度低。本申请实施例提供的一种网络攻击的IP地址分析方法中，收集多个数据包；获取每个数据包的源IP和目的IP；针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。在已知IP中，选取k个已知IP作为聚类中心，k为正整数；根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类；将所述k个类包含的IP确定为潜在风险IP。

这样，将收集到的IP分为已知IP和未知IP，对未知IP进行聚类分析而并非是对所有的IP进行聚类，减少了需要聚类的IP数量，减少计算时间，且对未知IP进行带约束的聚类分析，将不满足条件的IP放弃，进一步减少了需要聚类的IP数量，降低计算时间。

下面结合附图对本申请实施例提供的方案，进行进一步说明：

如图2所示，其为本申请实施例中网络攻击的IP地址分析方法流程示意图。该方法包括以下步骤：

步骤201：收集多个数据包。

步骤202：获取每个数据包的源IP和目的IP。

步骤203：针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。

步骤204：在已知IP中，选取k个已知IP作为聚类中心，k为正整数。

步骤205：根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类。

步骤206：将所述k个类包含的IP确定为潜在风险IP。这样，将收集到的IP分为已知IP和未知IP，对未知IP进行聚类分析，减少了需要聚类的IP数量。并且将已知IP确定为聚类中心，避免了初始聚类中心难确定的问题，对未知IP进行带约束的聚类分析，将不满足条件的IP放弃聚类，进一步减少了需要聚类的IP数量，降低计算时间，提高计算效率。

为了进一步减少计算量，执行步骤步骤204之前，该方法还包括：

将每个IP映射到二维坐标系内；其中，二维坐标系内每个IP的横坐标表示该IP在单位时间内发送数据包的数量，纵坐标表示该IP在单位时间内接收数据包的数量。在所述二维坐标系上确定出N个区间，N为正整数且大于等于k；选择IP数量大于预设数量的k个区间。选取k个已知IP作为聚类中心，具体包括：在所述k个区间内，选取k个已知IP对应的点作为聚类中心。执行上述步骤205之前，将所述k个区间内的未知IP确定为最终进行聚类分析的未知IP。

需要说明的是，预设数量自行设置，本实施例不做限定。选取聚类中心时，聚类中心可能是一个区间一个聚类中心，也有可能某个区间内并无聚类中心，某个区间内有多个聚类中心。可以是随机选取，也可以是通过数学运算选取较为合适的聚类中心。

由DDos攻击的方法可知，攻击者会通过代理段端攻击周期内频繁的向目标主机进行攻击，所以，在攻击周期内会代理端会频繁的发送和接收数据包，以完成攻击。所以，将获取到的IP映射到二维坐标系上的时候，IP数量较多的区间内的IP很有可能就是这些代理端的IP。所以，选取的k个区间由于IP数量大于预设数量，这k个区间的IP很有可能就是潜在风险IP，对k个区间内的未知IP进行聚类，得到的结果也更为准确。由于不需要对二维坐标系上所有的未知IP进行聚类，仅聚类很大可能是潜在风险的IP，减少了计算量，提高了计算效率。

一种可能的实施方式中，可以通过如下方法选择IP数量大于预设数量的k个区间。在二维坐标系上，获取X轴的最大值、最小值和Y轴的最大值和最小值的点，并从最小值到最大值将X轴均分为k个第一区间，以及将Y轴均分为k个第二区间；针对第一、第二区间，获取每个区间的IP的数量；选取按照IP数量由多到少的顺序排序前k的区间。

如图3所示，其为本申请实施例中应用场景示意图。该场景中，将二维坐标系上的IP分为20个区间，并选取了按照IP数量由多到少的顺序排序前4的区间，分别为1、2、3、4。

需要说明的是，为了选取IP分布多的k个区间，不仅可以按照IP数量由多到少的顺序排序。也可以选取按照IP数量由少到多的排序后k的区间。

这样，这k个区域内的IP都是很大可能有潜在风险IP，不仅减少了计算量，聚类之后得到的结果也更加准确。

为了使聚类中心，能够很好的指引后续的聚类分析，上述步骤204可具体执行为如图4所示步骤，图4为本申请实施例中流程示意图，包括以下步骤：

步骤A1：随机选取一个已知IP作为聚类中心。

步骤A2：计算各已知IP到聚类中心的距离。

步骤A3：计算各已知IP到聚类中心的距离的均方根值。

这里说的各已知IP到聚类中心的距离的均方根值可以计算为

其中D表示所述均方根值，Di表示第i个已知IP到聚类中心的距离，n表示已知IP的数量。

步骤A4：确定所述距离大于所述均方根值的已知IP的集合，将所述已知IP的集合中，距离最小的已知IP作为新的聚类中心。

步骤A5：判断是否有k个聚类中心，若是则执行步骤A6，若否则返回执行步骤A2。

步骤A6：得到k个聚类中心。

通过上述步骤选取了如图3所示的4个已知IP作为聚类中心(黑色的点)。

这样，在选择聚类中心时，以各已知IP到聚类中心的距离的均方根值为参考，可以避免k个聚类中心过于密集，或者过于离散。

上述步骤205可以具体执行为如图5所示步骤，图5为本申请实施例中对未知IP执行带约束的聚类分析流程图。

步骤B1：针对任一未知IP，确定各聚类中心与该未知IP的距离。

步骤B2：针对任一未知IP执行：将该未知IP与其最近的聚类中心的距离与预设距离作比较，若该距离大于所述预设距离，则确定不对该未知IP进行聚类分析；若小于所述预设距离，则将该未知IP划分到与其最近的聚类中心的一类中。

步骤B3：针对得到的每个类，确定该类是否满足停止聚类分析的预设条件。若满足所述预设条件，则执行步骤2054，若不满足所述预设条件，则返回执行步骤B1。

步骤B4：结束聚类分析，得到k个类。

具体实施时，预设距离可以自行设置。具体的，获取X轴k个第一区间的第一间隔x1和Y轴k个区间的第二间隔y2；所述预设距离为x1+y1的预设倍数。预设倍数可以结合系统的处理能力设置，应设置为正整数，例如2、3、4等。较佳的，可以设置为4，如果系统的处理能力大，则可以将预设倍数放大，若系统的处理能力不足，则可以缩小预设倍数。

这样，针对任一未知IP，当该未知IP与其最近的聚类中心的距离大于预设距离时，则表示该IP地址属于风险IP的可能性很小，放弃该IP则可以减小计算量，提高计算效率。

如图6所示，其为本申请实施例中带约束的聚类分析的应用场景示意图。该场景中，进行带约束的聚类分析，放弃聚类与最近的聚类中心的距离大于预设距离的IP(用圆圈圈住的点)，最终得到10个类。

这样，对未知IP执行带约束的聚类分析，可以减少聚类的IP数量，从而减小计算量，降低计算时间，提高计算效率。

上述停止聚类分析的预设条件为K-Means聚类算法的收敛条件。所述预设条件包括以下的部分或全部：各类中包含的未知IP未发生变化；没有任一类的聚类中心发生变化；k个类的误差平方和最小，所述误差平方和

其中，SSE表示误差平方和，k表示k个聚类中心，C_i表示第i个聚类中心，dist表示欧几里得距离。

这样，当满足停止聚类分析的预设条件时，则停止聚类分析，得到k个类。k个类包含的IP则是潜在风险IP。

如图7所示，其为本申请实施例中一种网络攻击的IP地址分析方法流程图。该方法包括以下步骤：

步骤701：收集多个数据包:。

步骤702：获取每个数据包的源IP和目的IP。

步骤703：针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。

步骤704：将每个IP映射到二维坐标系内；其中，二维坐标系内每个IP的横坐标表示该IP在单位时间内发送数据包的数量，纵坐标表示该IP在单位时间内接收数据包的数量。

704中的IP包括从数据包中获取的所有IP。

步骤705：在二维坐标系上，获取X轴的最大值、最小值和Y轴的最大值和最小值的点，并从最小值到最大值将X轴均分为k个第一区间，以及将Y轴均分为k个第二区间。

步骤706：针对第一、第二区间，获取每个区间的IP的数量。

步骤707：选取按照IP数量由多到少的顺序排序前k的区间。

步骤708：在所述k个区间内，随机选取一个已知IP作为聚类中心。

步骤709：计算各已知IP到聚类中心的距离。

步骤710：计算各已知IP到聚类中心的距离的均方根值。

步骤711：确定所述距离大于所述均方根值的已知IP的集合，将所述已知IP的集合中，距离最小的已知IP作为新的聚类中心。

步骤712：判断是否有k个聚类中心，若是则执行步骤713，若否则返回执行步骤709。

步骤713：针对任一未知IP，确定各聚类中心与该未知IP的距离。

步骤714：针对任一未知IP执行：将该未知IP与其最近的聚类中心的距离与预设距离作比较，若该距离大于所述预设距离，则确定不对该未知IP进行聚类分析；若小于所述预设距离，则将该未知IP划分到与其最近的聚类中心的一类中。

步骤715：针对得到的每个类，确定该类是否满足停止聚类分析的预设条件，若满足预设条件则执行步骤716，若不满足预设条件则返回执行步骤713。

步骤716：计算每一类的中心，将该中心确定为新的聚类中心。

步骤717：结束聚类分析，得到k个类。

步骤7：将所述k个类包含的IP确定为潜在风险IP。

这样，将获取到的IP分为已知IP和未知IP，对未知IP进行聚类分析，减少了需要聚类的IP数量，减少计算时间，且对未知IP进行带约束的聚类分析，将不满足条件的IP放弃，进一步减少了需要聚类的IP数量，提高计算速度。

基于相同的发明构思，本申请实施例还提供一种网络攻击的IP地址分析装置，如图8所示，其为本申请实施例中的装置示意图。该装置包括：

收集模块801，用于收集多个数据包。

获取模块802，用于获取每个数据包的源IP和目的IP。

匹配模块803，用于针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP。

选取模块804，用于在已知IP中，选取k个已知IP作为聚类中心，k为正整数。

聚类模块805，用于根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类。

确定模块806，用于将所述k个类包含的IP确定为潜在风险IP。

进一步的，映射模块，用于在选取模块804选取k个已知IP作为聚类中心之前，将每个IP映射到二维坐标系内；其中，二维坐标系内每个IP的横坐标表示该IP在单位时间内发送数据包的数量，纵坐标表示该IP在单位时间内接收数据包的数量。

第二确定模块，用于在所述二维坐标系上确定出N个区间，N为正整数且大于等于k。

选择模块，用于选择IP数量大于预设数量的k个区间。

选取模块804具体包括：选取单元，用于在所述k个区间内，选取k个已知IP对应的点作为聚类中心。

第三确定模块，用于在聚类模块805根据聚类中心，对未知IP执行带约束的聚类分析之前，将所述k个区间内的未知IP确定为最终进行聚类分析的未知IP。

进一步的，选择模块具体包括：

获取单元，用于在二维坐标系上，获取X轴的最大值、最小值和Y轴的最大值和最小值的点，并从最小值到最大值将X轴均分为k个第一区间，以及将Y轴均分为k个第二区间。

第二获取单元，用于针对第一、第二区间，获取每个区间的IP的数量。

第二选取单元，用于选取按照IP数量由多到少的顺序排序前k的区间。

进一步的，选取模块804具体包括：

随机单元，用于随机选取一个已知IP作为聚类中心。

计算单元，用于计算各已知IP到聚类中心的距离。

第二计算单元，用于计算各已知IP到聚类中心的距离的均方根值。

循环单元，用于确定所述距离大于所述均方根值的已知IP的集合，将所述已知IP的集合中，距离最小的已知IP作为新的聚类中心，之后返回计算每个已知IP到聚类中心的距离步骤，直至得到k个聚类中心。

进一步的，聚类模块805具体包括：

第二确定单元，用于针对任一未知IP，确定各聚类中心与该未知IP的距离。

聚类单元，用于针对任一未知IP执行：将该未知IP与其最近的聚类中心的距离与预设距离作比较，若该距离大于所述预设距离，则确定不对该未知IP进行聚类分析；若小于所述预设距离，则将该未知IP划分到与其最近的聚类中心的一类中。

第二确定单元，用于针对得到的每个类，确定该类是否满足停止聚类分析的预设条件。

结束单元，用于若各个类均满足所述预设条件则结束聚类分析，得到k个类。

第二循环单元，用于若存在至少一个类不满足所述预设条件，则计算每一类的中心，将该中心确定为新的聚类中心，返回执行针对任一未知IP，确定各聚类中心与该未知IP的距离步骤。

该装置中，所述预设条件包括以下的部分或全部：各类中包含的未知IP未发生变化；没有任一类的聚类中心发生变化；k个类的误差平方和最小，所述误差平方和

该装置中，所述预设距离由以下方法确定：获取X轴k个第一区间的第一间隔x1和Y轴k个第二区间的第二间隔y2；所述预设距离为x1+y1的预设倍数。

在介绍了本申请示例性实施方式的一种网络攻击的IP地址分析方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的一种网络攻击的IP地址分析方法中的步骤。例如，处理器可以执行如图2中所示的步骤201-206或如图4所示的步骤A1-A6或如图5所示的步骤B1-B4或如图7所示的步骤701-718。

下面参照图9来描述根据本申请的这种实施方式的计算装置130。图9显示的计算装置130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算装置130以通用计算装置的形式表现。计算装置130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置130交互的设备通信，和/或与使得该计算装置130能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算装置130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算装置130的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种网络攻击的IP地址分析方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种网络攻击的IP地址分析方法中的步骤，例如，计算机设备可以执行如图2中所示的步骤201-206或如图4所示的步骤A1-A6或如图5所示的步骤B1-B4或如图7所示的步骤701-718。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于系统权限开启的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种网络攻击的IP地址分析方法，其特征在于，所述方法包括：

收集多个数据包；

获取每个数据包的源IP和目的IP；

针对每个IP执行：

将该IP与预先存储的网络攻击案例中的IP进行匹配；

若匹配到相同的IP，将该IP确定为已知IP；

若未匹配到相同的IP，将该IP确定为未知IP；

在已知IP中，选取k个已知IP作为聚类中心，k为正整数；

根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类；

将所述k个类包含的IP确定为潜在风险IP。

2.根据权利要求1所述的方法，其特征在于，选取k个已知IP作为聚类中心之前，还包括：

将每个IP映射到二维坐标系内；其中，二维坐标系内每个IP的横坐标表示该IP在单位时间内发送数据包的数量，纵坐标表示该IP在单位时间内接收数据包的数量；

在所述二维坐标系上确定出N个区间，N为正整数且大于等于k；

选择IP数量大于预设数量的k个区间；

选取k个已知IP作为聚类中心，具体包括：

在所述k个区间内，选取k个已知IP对应的点作为聚类中心；

根据聚类中心，对未知IP执行带约束的聚类分析之前，所述方法还包括：

将所述k个区间内的未知IP确定为最终进行聚类分析的未知IP。

3.根据权利要求2所述的方法，其特征在于，选择IP数量大于预设数量的k个区间具体包括：

在二维坐标系上，获取X轴的最大值、最小值和Y轴的最大值和最小值的点，并从最小值到最大值将X轴均分为k个第一区间，以及将Y轴均分为k个第二区间；

针对第一、第二区间，获取每个区间的IP的数量；

选取按照IP数量由多到少的顺序排序前k的区间。

4.根据权利要求1所述的方法，其特征在于，选取k个已知IP作为聚类中心具体包括：

随机选取一个已知IP作为聚类中心；

计算各已知IP到聚类中心的距离；

计算各已知IP到聚类中心的距离的均方根值；

确定所述距离大于所述均方根值的已知IP的集合，将所述已知IP的集合中，距离最小的已知IP作为新的聚类中心，之后返回计算各已知IP到聚类中心的距离步骤，直至得到k个聚类中心。

5.根据权利要求1所述的方法，其特征在于，对未知IP执行带约束的聚类分析，得到k个类具体包括：

针对任一未知IP，确定各聚类中心与该未知IP的距离；

针对任一未知IP执行：

将该未知IP与其最近的聚类中心的距离与预设距离作比较，若该距离大于所述预设距离，则确定不对该未知IP进行聚类分析；

若小于所述预设距离，则将该未知IP划分到与其最近的聚类中心的一类中；

针对得到的每个类，确定该类是否满足停止聚类分析的预设条件；

若各个类均满足所述预设条件则结束聚类分析，得到k个类；

若存在至少一个类不满足所述预设条件，则计算每一类的中心，将该中心确定为新的聚类中心，返回执行针对任一未知IP，确定各聚类中心与该未知IP的距离步骤。

6.根据权利要求5所述的方法，其特征在于，所述预设条件包括以下的部分或全部：

各类中包含的未知IP未发生变化；

没有任一类的聚类中心发生变化；

k个类的误差平方和最小，所述误差平方和

7.根据权利要求1-6任一所述的方法，其特征在于，所述预设距离由以下方法确定：

获取X轴k个第一区间的第一间隔x1和Y轴k个第二区间的第二间隔y2；

所述预设距离为x1+y1的预设倍数。

8.一种网络攻击的IP地址分析装置，其特征在于，所述装置包括：

收集模块，用于收集多个数据包；

获取模块，用于获取每个数据包的源IP和目的IP；

匹配模块，用于针对每个IP执行：将该IP与预先存储的网络攻击案例中的IP进行匹配；若匹配到相同的IP，将该IP确定为已知IP；若未匹配到相同的IP，将该IP确定为未知IP；

选取模块，用于在已知IP中，选取k个已知IP作为聚类中心，k为正整数；

聚类模块，用于根据聚类中心，对未知IP执行带约束的聚类分析，得到k个类；

确定模块，用于将所述k个类包含的IP确定为潜在风险IP。

9.一种计算机可读介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-7中任一权利要求所述的方法。

10.一种计算装置，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一权利要求所述的方法。