CN112087450A

CN112087450A - 一种异常ip识别方法、系统及计算机设备

Info

Publication number: CN112087450A
Application number: CN202010939259.8A
Authority: CN
Inventors: 韩坤; 丁若谷; 田丹丹
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-15
Anticipated expiration: 2040-09-09
Also published as: CN112087450B

Abstract

本申请涉及一种异常IP识别方法、系统及计算机设备，其中，该异常IP识别方法包括：数据获取步骤，用于实时获取一服务端的流量数据并统计一间隔时间各IP的流量次数；数据量化步骤，用于将所述流量次数进行离散化处理后，计算并存储其不同时间段的信息熵为信息熵熵值的时间序列；异常IP识别步骤，用于获取一已知异常IP组并结合所述已知异常IP组对所述时间序列进行特征挖掘，识别得到异常IP。通过本申请，通过挖掘IP流量的时间相关性，可识别其他技术无法覆盖的、时间序列特征异常的IP，实现了适用于大规模网络通信的异常IP识别。

Description

一种异常IP识别方法、系统及计算机设备

技术领域

本申请涉及大数据领域，特别是涉及一种基于时间序列的异常IP识别方法及系统。

背景技术

随着网络技术的不断发展以及民众对网络服务需求的日益增多，每天都会生成海量的网络信息，其中有些信息是人们日常需求所产生的，有些信息则是“垃圾信息”。“垃圾信息”在网络流量中占着不少的比重，会导致流量异常，影响用户的使用体验，还会窃取用户的隐私信息。一般，我们将这些“垃圾信息”对应的流量统称为异常流量。异常流量具有极强的隐蔽性，由于用于流量分析的参数有限、网络攻击的手段变幻莫测，使得异常流量常混杂在正常流量中不易被识别出来。判断来源IP是否异常IP，是识别异常流量的重要手段之一。

现有的识别异常IP的手段包括以下几种：如使用源IP、目的IP、源端口、目的端口等特征，但是这样的异常IP识别技术只能抓取特定的异常流量；再如当主机持续发送了大量特别短的数据包时，使用统计包的长度为特征识别异常流量。还有一些异常流量检测通过统计数据包的比例和数量等。也有以特征匹配为基础的入侵检测系统将特定攻击会出现的数据包内容整理成为一个攻击特征，只要入侵检测系统匹配数据包内容是发现有相同特征，即判定为特定攻击。以特征匹配为基础的异常流量检测技术针对特定攻击生成的特征，确实可以有效的发现特定攻击，但是这种数据包信息的收集很难在大规模通信网络实施，数据的分析也十分困难。或者使用数据包内的字节数以及ASCII码分布情况作为特征区分正常流量和异常流量。

正常的IP产生的流量是在一段时间内会具有一定的时间序列特征，而现有的异常IP检测识别手段并没有考虑到流量的时间关联性，只能识别某些特定的异常流量。因此，需要一种技术手段，识别IP的时间序列特征。

发明内容

本申请实施例提供了一种异常IP识别方法、系统及计算机设备，通过挖掘IP流量的时间相关性，实现了适用于大规模网络通信的异常IP识别。

第一方面，本申请实施例提供了一种异常IP识别方法，包括：

数据获取步骤，用于实时获取一服务端的流量数据，并统计一间隔时间所述流量数据中各IP的流量次数；

数据量化步骤，用于将所述流量次数进行离散化处理后，计算并存储其不同时间段的信息熵为信息熵熵值的时间序列；

异常IP识别步骤，用于获取一已知异常IP组并结合所述已知异常IP组通过数据挖掘算法对所述时间序列进行特征挖掘，识别得到异常IP，

通过上述步骤，本申请实施例考虑IP流量的时间关联性，利用信息熵表示IP流量次数随时间的不确定性，并通过构建信息熵熵值的时间序列挖掘异常IP的时间序列特征，特征挖掘更加便利，可识别其他技术无法覆盖的、时间序列特征异常的IP。

在其中一些实施例中，所述数据量化步骤进一步包括：

数据离散化步骤，用于将所述各IP的流量次数进行离散化处理，得到离散化的流量次数；

信息熵序列化步骤，用于基于离散化的流量次数计算不同时间段流量次数的信息熵，存储所述信息熵熵值为所述时间序列，其中，所述时间序列包括多个时间段及每一所述时间段对应的信息熵熵值。

在其中一些实施例中，所述异常IP识别步骤进一步包括：

已知异常IP组获取步骤，用于获取一组已知异常IP；

数据挖掘步骤，用于通过K-Means算法对所述信息熵熵值的时间序列进行特征挖掘，得到多个类别及其聚类中心；

异常IP标注步骤，用于计算所述已知异常IP与每一类别的所述聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP，

通过上述步骤，解决了传统异常流量监测技术很难在大规模通信网络实施的问题，通过聚类算法扩展了特征挖掘的数据量级，适用于大规模网络通信。

在其中一些实施例中，所述数据挖掘步骤进一步包括：

聚类中心获取步骤，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心，具体的，所述聚类类别数k可通过交叉验证择优选取，k为正整数；

样本归类步骤，用于计算每一所述样本到所述k个聚类中心的距离，并将其分到距离最小聚类中心所对应的类中；

聚类中心更新步骤，用于重新计算每一类别的聚类中心，聚类中心为属于该类中样本的质心；

结果迭代步骤，用于重复所述样本归类步骤、聚类中心更新步骤，直至所有的聚类中心变化范围小于一设定阈值，具体的，所述阈值可通过交叉验证择优选择，通过结果迭代步骤减小误差。

在其中一些实施例中，所述数据离散化步骤的离散化采用但不限于等宽法。

第二方面，本申请实施例提供了一种异常IP识别系统，包括：

数据获取模块，用于实时获取一服务端的流量数据，并统计一间隔时间所述流量数据中各IP的流量次数；

数据量化模块，用于将所述流量次数进行离散化处理后，计算并存储其不同时间段的信息熵为信息熵熵值的时间序列；

异常IP识别模块，用于获取一已知异常IP组并结合所述已知异常IP组通过数据挖掘算法对所述时间序列进行特征挖掘，识别得到异常IP，

本申请实施例考虑IP流量的时间关联性，利用信息熵表示IP流量次数随时间的不确定性，并通过构建信息熵熵值的时间序列挖掘异常IP的时间序列特征，特征挖掘更加便利，可识别其他技术无法覆盖的、时间序列特征异常的IP。

在其中一些实施例中，所述数据量化模块进一步包括：

数据离散化模块，用于将所述各IP的流量次数进行离散化处理，得到离散化的流量次数；

信息熵序列化模块，用于基于离散化的流量次数计算不同时间段的流量次数的信息熵，存储所述信息熵熵值为所述时间序列，其中，所述时间序列包括多个时间段及每一所述时间段对应的信息熵熵值。

在其中一些实施例中，所述异常IP识别模块进一步包括：

已知异常IP组获取模块，用于获取一组已知异常IP；

数据挖掘模块，用于通过K-Means算法对所述信息熵熵值的时间序列进行特征挖掘，得到多个类别及其聚类中心；

异常IP标注模块，用于计算所述已知异常IP与每一类别的所述聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP，

通过上述异常IP识别模块，解决了传统异常流量监测技术很难在大规模通信网络实施的问题，通过聚类算法扩展了特征挖掘的数据量级，适用于大规模网络通信。

在其中一些实施例中，所述数据挖掘模块进一步包括：

聚类中心获取模块，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心，具体的，所述聚类类别数k可通过交叉验证择优选取，k为正整数；

样本归类模块，用于计算每一所述样本到所述k个聚类中心的距离，并将其分到距离最小聚类中心所对应的类中；

聚类中心更新模块，用于重新计算每一类别的聚类中心，聚类中心为属于该类中样本的质心；

结果迭代模块，用于重复所述样本归类模块、聚类中心更新模块的计算，直至所有的聚类中心变化范围小于一设定阈值，具体的，所述阈值可通过交叉验证择优选择，通过结果迭代模块减小误差。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的异常IP识别方法。

相比于相关技术，本申请实施例提供的异常IP识别方法、系统及计算机设备，考虑IP流量的时间关联性，利用信息熵表示IP流量次数随时间的不确定性，并通过构建信息熵熵值的时间序列挖掘异常IP的时间序列特征，相比于传统的IP流量异常检测技术所使用的特征，本申请实施例的异常IP识别不针对某些特定的IP或者端口，特征挖掘更加便利，可识别其他技术无法覆盖的、时间序列特征异常的IP；

本申请实施例解决了传统异常流量监测技术很难在大规模通信网络实施的问题，通过聚类算法扩展了特征挖掘的数据量级，可适用于大规模网络通信；

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的异常IP识别方法流程示意图；

图2是根据本申请实施例的异常IP识别方法中数据挖掘步骤流程示意图；

图3是根据本申请实施例的异常IP识别系统的结构示意框图。

附图说明：

1、数据获取模块；2、数据量化模块；3、异常IP识别模块；

21、数据离散化模块；22、信息熵序列化模块；

31、已知异常IP组获取模块；32、数据挖掘模块；33、异常IP标注模块；

321、聚类中心获取模块；322、样本归类模块；323、聚类中心更新模块；324、结果迭代模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

为了至少解决现有的异常IP检测识别手段没有考虑到流量的时间关联性，只能识别某些特定的异常流量的问题，本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

本实施例提供了一种异常IP识别方法，图1-2是根据本申请实施例的异常IP识别方法的流程示意图，参考图1-2所示，该流程包括如下步骤：

数据获取步骤S1，用于实时获取一服务端的流量数据并统计一间隔时间所述流量数据中各IP的流量次数；

数据量化步骤S2，用于将流量次数进行离散化处理后，计算并存储其不同时间段的信息熵为信息熵熵值的时间序列；

异常IP识别步骤S3，用于获取一已知异常IP组并结合已知异常IP组通过数据挖掘算法对时间序列进行特征挖掘，识别得到异常IP。

其中，数据量化步骤S2进一步包括：

数据离散化步骤S21，用于将各IP的流量次数进行离散化处理，得到离散化的流量次数；

信息熵序列化步骤S22，用于基于离散化的流量次数计算不同时间段流量次数的信息熵，存储所述信息熵熵值为所述时间序列，其中，所述时间序列包括多个时间段及每一所述时间段对应的信息熵熵值。

异常IP识别步骤S3进一步包括：

已知异常IP组获取步骤S31，用于获取一组已知异常IP；

数据挖掘步骤S32，用于通过K-Means算法对信息熵熵值的时间序列进行特征挖掘，得到多个类别及其聚类中心；

异常IP标注步骤S33，用于计算已知异常IP与每一类别的聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP。

在其中一些实施例中，数据挖掘步骤S32进一步包括：

聚类中心获取步骤S321，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心，具体的，聚类类别数k可通过交叉验证择优选取；

样本归类步骤S322，用于计算每一样本到k个聚类中心的距离，并将其分到距离最小聚类中心所对应的类中；

聚类中心更新步骤S323，用于重新计算每一类别的聚类中心，聚类中心为属于该类中样本的质心；

结果迭代步骤S324，用于重复样本归类步骤S322、聚类中心更新步骤S323，直至所有的聚类中心变化范围小于一设定阈值，具体的，阈值可通过交叉验证择优选择，通过结果迭代步骤减小误差。

在其中一些实施例中，数据离散化步骤的离散化采用但不限于等宽法。

下面通过优选实施例对本申请实施例进行描述和说明。

数据获取步骤S1：从服务端的流量数据中，间隔时间每5分钟统计各IP的流量次数；

数据量化步骤S2：执行数据离散化步骤S21使用等宽法对统计的各IP的流量次数进行离散化处理，离散化为多、中、少三类；然后执行信息熵序列化步骤S22，时间段长度为1小时可以得到12个离散化的流量次数，并计算12个流量次数的信息熵；调整时间段长度为2小时、3小时或任意设定时间段长度可以得到不同时间段的流量次数的信息熵，从而根据时间段及其信息熵熵值构建得到信息熵熵值的时间序列。

异常IP识别步骤S3：先通过步骤S31获取一组已知异常IP，该已知异常IP可以是通过传统技术手段识别的异常IP；然后执行数据挖掘步骤S32，使用K-Means算法对步骤S2得到的信息熵熵值的时间序列进行特征挖掘，具体如下：

聚类中心获取步骤S321，用于设定一聚类类别数k，k为正整数，并随机选取k个样本作为聚类中心；

聚类中心更新步骤S323，用于重新计算每一类别的聚类中心，即该类中样本的质心；

结果迭代步骤S324，用于重复样本归类步骤S322、聚类中心更新步骤S323，直至所有的聚类中心变化范围小于一设定阈值；

最后，通过异常IP标注步骤S33计算已知异常IP与每一类别的聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP。

上述步骤用于提取流量次数的时间序列特征并根据该时间序列特征将流量次数进行分类，分类后根据已知异常IP标注异常IP类别，实现了大规模数据特征挖掘工作，适用于大规模网络通信。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出的步骤。

本实施例还提供了一种异常IP识别系统。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管下述实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本申请实施例的异常IP识别系统的结构示意框图。如图3所示，该系统至少包括：数据获取模块1、数据量化模块2及异常IP识别模块3。本领域技术人员可以理解，图3中示出的用户终端结构并不构成对用户终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对异常IP识别系统的各个构成模块进行具体的介绍：

数据获取模块1，用于实时获取一服务端的流量数据并统计一间隔时间流量数据中各IP的流量次数；数据量化模块2，用于将数据获取模块1得到的流量次数进行离散化处理后，计算并存储其不同时间段的信息熵为信息熵熵值的时间序列；异常IP识别模块3，用于获取一已知异常IP组并结合已知异常IP组通过数据挖掘算法对时间序列进行特征挖掘，识别得到异常IP，本申请实施例考虑IP流量的时间关联性，利用信息熵表示IP流量次数随时间的不确定性，并通过构建信息熵熵值的时间序列挖掘异常IP的时间序列特征，特征挖掘更加便利，可识别其他技术无法覆盖的、时间序列特征异常的IP。

其中，数据量化模块2进一步包括：数据离散化模块21，用于将各IP的流量次数进行离散化处理，得到离散化的流量次数；信息熵序列化模块22，用于基于离散化的流量次数计算不同时间段的流量次数的信息熵，存储信息熵熵值为时间序列，其中，时间序列包括多个时间段及每一时间段对应的信息熵熵值。异常IP识别模块3进一步包括：已知异常IP组获取模块31，用于获取一组已知异常IP；数据挖掘模块32，用于通过K-Means算法对信息熵熵值的时间序列进行特征挖掘，得到多个类别及其聚类中心；异常IP标注模块33，用于计算已知异常IP与每一类别的聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP，通过上述异常IP识别模块，解决了传统异常流量监测技术很难在大规模通信网络实施的问题，通过聚类算法扩展了特征挖掘的数据量级，适用于大规模网络通信。

在其中一些实施例中，数据挖掘模块32进一步包括：

聚类中心获取模块321，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心，具体的，聚类类别数k可通过交叉验证择优选取，k为正整数；样本归类模块322，用于计算每一样本到k个聚类中心的距离，并将其分到距离最小聚类中心所对应的类中；聚类中心更新模块323，用于重新计算每一类别的聚类中心，聚类中心为属于该类中样本的质心；结果迭代模块324，用于重复样本归类模块、聚类中心更新模块的计算，直至所有的聚类中心变化范围小于一设定阈值，具体的，阈值可通过交叉验证择优选择，通过结果迭代模块减小误差。

需要说明的是，上述各个模块，对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合上述实施例中的异常IP识别方法，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的方法。

相比于相关技术，本申请实施例提供的异常IP识别方法、系统及计算机设备，考虑IP流量的时间关联性，利用信息熵表示IP流量次数随时间的不确定性，并通过构建信息熵熵值的时间序列挖掘异常IP的时间序列特征，相比于传统的IP流量异常检测技术所使用的特征，本申请实施例的异常IP识别不针对某些特定的IP或者端口，特征挖掘更加便利，可识别其他技术无法覆盖的、时间序列特征异常的IP；本申请实施例解决了传统异常流量监测技术很难在大规模通信网络实施的问题，通过聚类算法扩展了特征挖掘的数据量级，可适用于大规模网络通信。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种异常IP识别方法，其特征在于，包括：

异常IP识别步骤，用于获取一已知异常IP组并结合所述已知异常IP组通过数据挖掘算法对所述时间序列进行特征挖掘，识别得到异常IP。

2.如权利要求1所述的异常IP识别方法，其特征在于，所述数据量化步骤进一步包括：

信息熵序列化步骤，用于基于离散化的流量次数计算不同时间段流量次数的信息熵，存储所述信息熵熵值为所述时间序列。

3.如权利要求2所述的异常IP识别方法，其特征在于，所述异常IP识别步骤进一步包括：

已知异常IP组获取步骤，用于获取一组已知异常IP；

异常IP标注步骤，用于计算所述已知异常IP与每一类别的所述聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP。

4.如权利要求3所述的异常IP识别方法，其特征在于，所述数据挖掘步骤进一步包括：

聚类中心获取步骤，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心；

聚类中心更新步骤，用于重新计算每一类别的聚类中心；

结果迭代步骤，用于重复所述样本归类步骤、聚类中心更新步骤，直至所有的聚类中心变化范围小于一设定阈值。

5.如权利要求4所述的异常IP识别方法，其特征在于，所述数据离散化步骤的离散化采用但不限于等宽法。

6.一种异常IP识别系统，其特征在于，包括：

异常IP识别模块，用于获取一已知异常IP组并结合所述已知异常IP组通过数据挖掘算法对所述时间序列进行特征挖掘，识别得到异常IP。

7.如权利要求6所述的异常IP识别系统，其特征在于，所述数据量化模块进一步包括：

信息熵序列化模块，用于基于离散化的流量次数计算不同时间段的流量次数的信息熵，存储所述信息熵熵值为所述时间序列。

8.如权利要求7所述的异常IP识别系统，其特征在于，所述异常IP识别模块进一步包括：

已知异常IP组获取模块，用于获取一组已知异常IP；

异常IP标注模块，用于计算所述已知异常IP与每一类别的所述聚类中心的平均距离，并将平均距离最小的类别标注为异常IP类别，从而得到异常IP。

9.如权利要求8所述的异常IP识别系统，其特征在于，所述数据挖掘模块进一步包括：

聚类中心获取模块，用于设定一聚类类别数k，并随机选取k个样本作为聚类中心；

聚类中心更新模块，用于重新计算每一类别的聚类中心；

结果迭代模块，用于重复所述样本归类模块、聚类中心更新模块的计算，直至所有的聚类中心变化范围小于一设定阈值。

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的异常IP识别方法。