CN113612727B

CN113612727B - 攻击ip识别方法、装置、设备和计算机可读存储介质

Info

Publication number: CN113612727B
Application number: CN202110704188.8A
Authority: CN
Inventors: 郝伟; 刘加勇; 白兴伟; 沈传宝
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-04-18
Anticipated expiration: 2041-06-24
Also published as: CN113612727A

Abstract

本公开的实施例提供了攻击IP识别方法、装置、设备和计算机可读存储介质。所述方法包括：获取目标IP的一个或多个特征，以生成所述目标IP的特征集；调用预先训练好的目标识别模型；将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP。以此方式，可自动识别该目标IP是否为攻击IP，从而能够有效及时地发现攻击IP，从而有利于及时防御，以尽可能避免该攻击IP带来的网络攻击。

Description

攻击IP识别方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例一般涉及网络安全技术领域，并且更具体地，涉及攻击IP识别方法、装置、设备和计算机可读存储介质。

背景技术

随着网络环境的日益复杂化，网络节点为了保护其自身安全性，减少攻击对自身各类资源，如带宽、计算性能等的消耗，会使用主动或被动方式进行防御。然而，随着网络攻击手段越来越丰富和隐蔽，攻击次数也越来越频繁，自动化程序越来越高，现有的防御手段往往无法及时有效地发现并避免网络攻击带来的伤害，并且由于攻击访问通过自身的伪装，与普通访问在很多时候具有较高的相似性，同样也给识别带来了较大的困难。

发明内容

根据本公开的实施例，提供了一种攻击IP识别方案。

在本公开的第一方面，提供了一种攻击IP识别方法。该方法包括：获取目标IP的一个或多个特征，以生成所述目标IP的特征集；

调用预先训练好的目标识别模型；

将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述目标识别模型通过以下步骤训练得到：

获取训练样本IP的特征集以及所述训练样本IP是否为攻击IP的标注；

将所述训练样本IP的特征集以及所述标注输入至初始攻击IP识别模型，对所述初始攻击IP识别模型进行训练，以获得所述目标识别模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

当预设样本IP的特征集的数量超过第一预设数量或所述预设样本IP的数量超过第二预设数量时，将所述预设样本IP分为所述训练样本IP以及测试样本IP，所述测试样本IP用于测试所述目标识别模型的识别精准度，所述第一预设数量高于所述第二预设数量。

在对所述初始攻击IP识别模型进行训练之前，将所述训练样本IP的特征集进行标准化和/或归一化处理；

在生成所述目标IP的特征集之后，将所述目标IP的特征集进行标准化和/或归一化处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取目标IP的一个或多个特征，以生成所述目标IP的特征集，包括：

将所述目标IP与第一预设IP地址库中的各IP进行匹配，查找所述第一预设IP地址库中与所述目标IP相匹配的第一预设IP；

若查找到所述第一预设IP，则将所述第一预设IP地址库中存储的所述第一预设IP的一个或多个特征确定为所述目标IP的特征，以生成所述目标IP的特征集；

若未查找到所述第一预设IP，则将所述目标IP与第二预设IP地址库中各IP进行匹配，以查找所述第二预设IP地址库中与所述目标IP相匹配的第二预设IP；

将所述第二预设IP地址库中存储的所述第二预设IP的一个或多个特征确定为所述目标IP的特征，以生成所述目标IP的特征集，其中，所述第二预设IP与所述目标IP的匹配度小于所述第一预设IP与所述目标IP的匹配度。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第一预设IP地址库和所述第二预设IP地址库存储在本地、第三方设备或者云端；

所述第一预设IP地址库和所述第二预设IP地址库在满足预设更新条件时更新，所述预设更新条件包括至少一项：时间条件、位置条件、攻击IP黑白名单发生调整。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述目标IP的特征集包括以下至少一项：

所述目标IP是否为攻击IP白名单中的IP；

所述目标IP是否为攻击IP黑名单中的IP；

所述目标IP对预设网站的访问频率；所述预设网站包括一个或多个网站；所述访问频率的统计周期包括多个；

所述目标IP在所述预设网站的日平均访问次数；

所述目标IP对所述预设网站的高频访问时间段；所述高频访问时间段包括多个且可变；

所述目标IP的归属地；

所述目标IP的AS号码，不同AS号段的IP属于攻击IP的概率不同。

在本公开的第二方面，提供了一种攻击IP识别装置。该装置包括：

获取模块，用于获取目标IP的一个或多个特征，以生成所述目标IP的特征集；

调用模块，用于调用预先训练好的目标识别模型；

识别模块，用于将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的攻击IP识别方法的流程图；

图2示出了根据本公开的实施例的攻击IP识别装置的方框图；

图3示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，通过获取目标IP的至少一个特征，可生成该目标IP的特征集，然后将目标IP的特征集输入至目标识别模型，即可自动识别该目标IP是否为攻击IP，从而能够有效及时地发现攻击IP，如此有利于及时防御，以尽可能避免该攻击IP带来的网络攻击。

图1示出了根据本公开实施例的攻击IP识别方法100的流程图。方法100可以包括：

步骤110，获取目标IP的一个或多个特征，以生成所述目标IP的特征集；IP即Internet Protocol Address，指互联网协议地址。

步骤120，调用预先训练好的目标识别模型；

步骤130，将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP。

通过获取目标IP的至少一个特征，可生成该目标IP的特征集，然后将目标IP的特征集输入至目标识别模型，即可自动识别该目标IP是否为攻击IP，从而能够有效及时地发现攻击IP，如此，有利于及时防御，以尽可能避免该攻击IP带来的网络攻击。

另外，在确定目标IP为攻击IP之后，可对目标IP打上攻击标记，然后放入攻击IP黑名单中。

在一个实施例中，所述目标识别模型通过以下步骤训练得到：

通过获取训练样本IP的特征集以及该训练样本IP是否为攻击IP的标注，可将该训练样本IP的特征集以及所述标注自动输入至初始攻击IP识别模型，从而对所述初始攻击IP识别模型进行自动训练，得到识别精度较高的目标识别模型。

初始识别模型可以是SVM(support vector machines,支持向量机)模型。

在一个实施例中，所述方法还包括：

当预设样本IP的特征集的数量超过第一预设数量或所述预设样本IP的数量超过第二预设数量时，说明特征集的数量或预设样本IP的数量足够的多了，足以用来训练初始识别模型以得到识别精准度较高的目标识别模型，因而，可将预设样本IP自动划分为所述训练样本IP以及测试样本IP，从而利用训练样本IP的特征集对初始识别模型进行训练，饼利用测试样本IP的特征集来测试训练好的目标识别模型具体的识别精准度。

在一个实施例中，所述方法还包括：

在对所述初始攻击IP识别模型进行训练之前，可将所述训练样本IP的特征集进行标准化和/或归一化处理，从而使得训练样本IP的特征集更加规范，如此，有利于提高初始识别模型的训练效率和识别精准度。

在生成该目标IP的特征集之后，同样也可以对目标IP的特征集进行标准化和/或归一化处理，以便提高目标IP是否为攻击IP的识别精准度。

在一个实施例中，所述获取目标IP的一个或多个特征，以生成所述目标IP的特征集，包括：

通过将目标IP与第一预设IP地址库中的各IP进行匹配，可确定是否能够查找出第一预设IP地址库中与所述目标IP相匹配的第一预设IP，若可以，则将第一预设IP的特征确定为所述目标IP的特征，从而获得目标IP的特征集；否则，说明第一预设IP地址库中的IP均与目标IP不是太匹配，则从第二预设IP地址库中查找第二预设IP，以将第二预设IP的特征确定为所述目标IP的特征，从而获得目标IP的特征集。

另外，一个IP地址库中的IP可能数量不太够，有所缺失，容易找不到匹配IP，因而，通过两个IP地址库的查询，可相互补充，确保能够查找到匹配IP。

第一预设IP与目标IP的匹配度可以大于90％，第二预设IP与目标IP的匹配度低于第一预设IP与目标IP的匹配度，如可以是80％～85％。

在一个实施例中，所述第一预设IP地址库和所述第二预设IP地址库存储在本地、第三方设备或者云端；

第一预设IP地址库和第二预设IP地址库可以存储在执行主体本地，或者第三方设备或者云端，当然，第一预设IP地址库和第二预设IP地址库可以存储在同一个设备上也可以不在同一个设备上。

在一个实施例中，所述目标IP的特征集包括以下至少一项：

所述目标IP是否为攻击IP白名单中的IP；攻击IP白名单中的IP都不是攻击IP，不会进行网络攻击。

所述目标IP是否为攻击IP黑名单中的IP；攻击IP黑名单中的IP都是攻击IP，会进行网络攻击。

所述目标IP对预设网站的访问频率；所述预设网站包括一个或多个网站；所述访问频率的统计周期包括多个；统计周期可以有长有短，如可以分年度、月、周和日。

所述目标IP在所述预设网站的日平均访问次数；

所述目标IP对所述预设网站的高频访问时间段；所述高频访问时间段包括多个且可变；如高频访问时间段可以是最经常访问的三个时间段。

所述目标IP的归属地；

所述目标IP的AS号码，不同AS(Autonomous System，自治系统)号段的IP属于攻击IP的概率不同。

下面将结合其他实施例进一步详细说明本发明的技术方案：

一、特征定义

首先，对数据的特征进行相关的特征定义，以便于在机器学习时，能够有效地对机器学习进行定义。

1、白名单

利用已有的IP库，对目标IP地址进行标记，判断是否属于白名单列表，取值范围只有真或假。

2、黑名单

利用已有的IP库，对目标IP地址进行标记，判断是否属于黑名单列表，取值范围只有真或假。

3、访问频率(4个)

根据前一段周期的访问次数进行标记。根据周期的长短，分为年度、月、周和日均4种特征。

4、多网站联合访问频次

根据多个网站节点的同一目标IP的访问次数的统计。即一个IP地址在多个网络节点中有哪些访问过，统计其访问频次。

5、流量大小

可根据历史访问日志，也可采用第三方统计平台，统计目标IP在指定网站的平均访问流量大小。

6、访问时间段(3个)

将访问时间以小时为单位分为24个时间段，统计目标IP的主要访问时间段，取最经常访问的三个时间段为三个对应特征。

7、目标IP所属国家

利用现有的网络资产地图，对目标IP进行地域分析，确定目标IP的所属国家及具体地区。

8、根据AS信息分类

利用现有的AS自治系统信息，根据AS的编号范围对目标IP进行AS域区分。其编号范围为[1-65535]，前64511个编号是注册的因特网编号，而范围是[64512-65535]的则是专用的网络编号。

二、SVM机器学习方法

由于本问题对目标IP的判断只有是和否为恶意访问IP这两种情况，所以采用了针对二分类表现良好的支持向量机(Support Vector Machine，SVM)进行机器学习。具体过程包括如下三步：

1、特征数据收集

通过对13个维度的特征进行定义，进行相应的数据收集工作。可以通过多种方式获得这些数据，如：查找指定站点的公开在线IP黑白名单列表，其中包括IP访问站点的频次、开始和结束时间、归属地等信息。由于这些数据相对易于获得，特征数据收集的工作只需要进行数据提取、整理和归类即可。

2、数据集划分和处理

一般当特征集收集到一定规模以后，根据机器学习模型的实现步骤，首要的工作是划分数据集，原因在于模型是以数据为中心构建的，并且要保障模型的泛化性能。可将80％的数据样本用于SVM模型的训练，剩余数据集用于测试模型的精度。注意此过程必须是按照规定比例进行随机划分，不可人为地进行偏好划分，主观影响所构建模型的性能。

在训练模型之前，还需要对数据进一步清洗。针对数据集的处理方式有多种，可采用独热编码将原始特征映射为标准化数据(数据的格式标准化)，也可通过归一化进一步提升模型的精度。数据处理的方式众多，不限于标准化和归一化(0-1之间用百分比)，不在本公开中赘述。

3、SVM训练

SVM学习可以理解为数据集合X＝{X1,X2,...,Xn}，通过F函数到Y＝{-1，1}的映射，其中F(X)＝w^TX+b。在SVM学习中，此映射的要求在高维度变量中，找到一个超平面，使得：

w^TX_i+b≥0，y_i＝+1

w^TX_i+b＜0，y_i＝-1

此超平面的计算方法有很多，不在本公开范围内。

三、使用方法

当模型训练好以后，即可使用分类器对目标IP进行判断。分类器根据输入的13个特征和评判精度的指标公式，即可有效地判断目标IP是否属于恶意的IP地址。同时，通过新的数据的长期收集，能够对模型的识别精准程度进行进一步的优化。此外，可以辅以一定的人工参与，也能够在一定程度上提高其精准程度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的攻击IP识别装置200的方框图。如图2所示，装置200包括：

获取模块210，用于获取目标IP的一个或多个特征，以生成所述目标IP的特征集；

调用模块220，用于调用预先训练好的目标识别模型；

识别模块230，用于将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3示出了可以用来实施本公开的实施例的电子设备300的示意性框图。设备300可以用于实现图2的攻击IP识别装置200。如图3所示，设备300包括CPU301，其可以根据存储在ROM302中的计算机程序指令或者从存储单元308加载到RAM303中的计算机程序指令，来执行各种适当的动作和处理。在RAM 303中，还可以存储设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。I/O接口305也连接至总线304。

设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元301执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由CPU 301执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，CPU 301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法100。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM、光纤、CD-ROM、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种攻击IP识别方法，其特征在于，包括：

获取目标IP的一个或多个特征，以生成所述目标IP的特征集；

调用预先训练好的目标识别模型；

将所述目标IP的特征集输入至所述目标识别模型，以识别所述目标IP是否为攻击IP；

所述获取目标IP的一个或多个特征，以生成所述目标IP的特征集，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标识别模型通过以下步骤训练得到：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，

所述第一预设IP地址库和所述第二预设IP地址库存储在本地、第三方设备或者云端；

6.根据权利要求1至5中任一项所述的方法，其特征在于，

所述目标IP的特征集包括以下至少一项：

所述目标IP是否为攻击IP白名单中的IP；

所述目标IP是否为攻击IP黑名单中的IP；

所述目标IP在所述预设网站的日平均访问次数；

所述目标IP的归属地；

所述目标IP的AS号码，不同AS号段的IP属于攻击IP的概率不同。

7.一种攻击IP识别装置，其特征在于，包括：

将所述第二预设IP地址库中存储的所述第二预设IP的一个或多个特征确定为所述目标IP的特征，以生成所述目标IP的特征集，其中，所述第二预设IP与所述目标IP的匹配度小于所述第一预设IP与所述目标IP的匹配度；

调用模块，用于调用预先训练好的目标识别模型；

8.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。