CN111737251A

CN111737251A - 一种ip数据识别方法、装置、计算机设备以及存储介质

Info

Publication number: CN111737251A
Application number: CN202010406211.0A
Authority: CN
Inventors: 高才旺
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-10-02

Abstract

本发明公开了一种IP数据识别方法、装置、计算机设备以及存储介质，该方法包括：将采集到的待识别IP数据拆分为五元组数据，并将五元组数据分发至消息系统；按照预设条件从消息系统中批量抽取多个五元组数据，分别将抽取出的多个五元组数据转换为数值型数据；将数值型数据作为预先训练的预测模型的输入，获取预测模型输出的预测结果；根据预测结果以及预设阈值确定待识别IP数据的标签，标签包括正常标签以及异常标签。本发明通过上述方法识别异常网络的IP数据时，能够在批量的待识别IP数据中快速识别出是否存在异常的IP数据，大大提高了识别效率。

Description

一种IP数据识别方法、装置、计算机设备以及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种IP数据识别方法、装置、计算机设备以及存储介质。

背景技术

在当前网络设施越来越发达，网络流量越来越大的情况下，在网络实时流量中，海量数据场景下，需要能够快速筛选识别出异常IP访问信息。经分析，正常访问的IP网段等特征信息比较类似，而异常IP网段特征信息与正常IP网段的特征信息差异比较大。

采用传统BS业务系统识别模式进行IP识别时，通常需要监控中心识别出个别与正常访问IP差异比较大的异常IP信息，再根据异常IP信息，获取五元组数据包分析网络攻击情况。由于待识别IP数据量较大，因此通常会存在识别效率低、识别速度慢、识别结果查询效率低等问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种IP数据识别方法、装置、计算机设备以及存储介质，以克服现有技术中存在的识别效率低、识别速度慢、以及识别结果查询效率低等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

第一方面，提供了一种IP数据识别方法，该方法包括如下步骤：

将采集到的待识别IP数据拆分为五元组数据，并将所述五元组数据分发至消息系统；

按照预设条件从所述消息系统中批量抽取多个所述五元组数据，分别将抽取出的多个所述五元组数据转换为数值型数据；

将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果；

根据所述预测结果以及预设阈值确定所述待识别IP数据的标签，所述标签包括正常标签以及异常标签。

进一步的，所述预测模型包括基于孤立森林算法的预测模型，所述将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果包括：

根据所述数值型数据计算每个所述待识别IP数据在预先训练的预测模型中的高度值；

对所述高度值进行归一化处理，获取每个所述待识别IP数据对应的预测结果。

进一步的，所述方法还包括预测模型的训练过程，包括：

利用预先准备的训练数据基于孤立森林算法递归构建多个二叉搜索树，直至所二叉搜索树达到限定高度；

根据多个所述二叉搜索树生成二叉树森林。

进一步的，所述方法还包括训练数据的获取过程，包括：

采用放回采样的方式从样本数据中获取多个样本数据作为训练数据，所述样本数据包括IP数据以及与所述IP数据对应的标签，所述标签包括正常标签或异常标签。

进一步的，所述根据所述预测结果以及预设阈值，确定所述待识别IP数据的标签包括：

将所述预测结果与预设阈值进行比较，若所述预测结果大于所述预设阈值，则确定所述待识别IP数据的标签为异常标签，否则，确定所述待识别IP数据的标签为正常标签。

进一步的，在根据所述预测结果以及预设阈值确定所述待识别IP数据的标签后，所述方法还包括：

将所述待识别IP数据以及所述待识别IP数据对应的标签导出至数据仓库中，以供查询。

第二方面，提供了一种IP数据识别装置，所述装置包括：

数据拆分模块，用于将采集到的待识别IP数据拆分为五元组数据，并将所述五元组数据分发至消息系统；

数据抽取模块，用于按照预设条件从所述消息系统中批量抽取多个所述五元组数据；

数据转换模块，用于分别将抽取出的多个所述五元组数据转换为数值型数据；

数据预测模块，用于将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果；

异常判断模块，用于根据所述预测结果以及预设阈值确定所述待识别IP数据的标签，所述标签包括正常标签以及异常标签。

进一步的，所述数据预测模块包括：

高度计算单元，用于根据所述数值型数据计算每个所述待识别IP数据在预先训练的预测模型中的高度值；

归一化处理单元，用于对所述高度值进行归一化处理，获取每个所述待识别IP数据对应的预测结果。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的IP数据识别方法、装置、计算机设备以及存储介质，方法包括将采集到的待识别IP数据拆分为五元组数据，并将所述五元组数据分发至消息系统；按照预设条件从所述消息系统中批量抽取多个所述五元组数据，分别将抽取出的多个所述五元组数据转换为数值型数据；将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果；根据所述预测结果以及预设阈值确定所述待识别IP数据的标签，所述标签包括正常标签以及异常标签，通过上述方法识别异常网络的IP数据时，能够在批量的待识别IP数据中快速识别出是否存在异常的IP数据，大大提高了识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的IP数据识别方法的流程图；

图2是根据一示例性实施例示出的方差和样本期望值的示意图；

图3是根据一示例性实施例示出的IP数据识别装置的结构示意图；

图4是根据一示例性实施例示出的计算机设备的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的IP数据识别方法的流程图，参照图1所示，该方法包括如下步骤：

S1：将采集到的待识别IP数据拆分为五元组数据，并将所述五元组数据分发至消息系统。

具体的，五元组数据是指由源IP地址、源端口、目的IP地址、目的端口和传输层协议这五个量组成的一个集合。例如：192.168.1.1、10000、TCP、121.14.88.76、80就构成了一个五元组。其意义是，一个IP地址为192.168.1.1的终端通过端口10000，利用TCP协议，和IP地址为121.14.88.76，端口为80的终端进行连接。五元组能够区分不同会话，并且对应的会话是唯一的。

本发明实施例中的待识别IP数据在获取时，可以在流量接入服务器中设置一网卡采集系统，通过该网卡采集系统采集实时流量数据(即待识别IP数据)，再将待识别IP数据拆分为五元组数据后，将五元组数据分发到消息系统(如kafka等)中，以便后续步骤五元组数据(即消息)进行处理。

S2：按照预设条件从所述消息系统中批量抽取多个所述五元组数据，分别将抽取出的多个所述五元组数据转换为数值型数据。

具体的，作为一种示例，本发明实施例中的预设条件可以是根据计算引擎的计算效率定时从消息系统中抽取批量的五元组数据，如每30秒从消息系统中抽取批量的五元组数据等，用户也可以根据实际需求设置预设条件，这里不做限制。然后将抽出的五元组数据通过生成列，将五元组数据转换为数值型数据，这里数值型数据包括但不限于long型新列。例如，可以通过Scala实现将五元组数据转换为long型新列数据，采用代码如下：

S3：将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果。

具体的，本发明实施例中，利用训练数据基于异常检测算法预先训练了一预测模型，然后通过该预测模型分别对待识别IP数据进行异常检测，获取对应的预测结果。其中异常检测算法包括但不限于孤立森林算法等。

为了提高算法的计算效率，本发明实施例中，分布式并行计算方式获取预测结果，如采用spark流式处理流程。具体实施时，启动spark流式，按照预设条件(如每30秒)从消息系统中批量抽取多个五元组数据，并将其分别转换为数值型数据。

S4：根据所述预测结果以及预设阈值确定所述待识别IP数据的标签，所述标签包括正常标签以及异常标签。

具体的，本发明实示例中，给识别出的异常的待识别IP数据打上异常标签，给识别出的正常的待识别IP数据打上正常标签，以便后续供查询识别结果以及进行异常分析等。

作为一种较优的实施方式，本发明实施例中，所述预测模型包括基于孤立森林算法的预测模型，所述将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果包括：

S301：根据所述数值型数据计算每个所述待识别IP数据在预先训练的预测模型中的高度值。

具体的，作为一种较优的示例，本发明实施例中的预测模型为基于孤立森林算法训练获取的模型。再将数值型数据输入到预测模型后，首先计算各个待识别IP数据在模型中的高度值，即计算各个待识别IP数据在二叉搜索树的高度值。

S302：对所述高度值进行归一化处理，获取每个所述待识别IP数据对应的预测结果。

具体的，在计算出待识别IP数据在模型中的高度值后，利用归一化算法以及高度值分别计算与各个高度值对应的待识别IP数据的预测结果。

作为一种较优的实施方式，本发明实施例中，所述方法还包括预测模型的训练过程，包括：

根据多个所述二叉搜索树生成二叉树森林。

具体的，作为一种较优的示例，本发明实施例中设置基于孤立森林算法训练获取预测模型。具体构建过程如下：

(1)构建二叉搜索树(iTree)。

具体实施时，首先从训练数据中随机选择若干个样本X，将小于当前根结点的样本放入左子结点，将大于当前根结点的样本放入右子结点，当二叉搜索树(iTree)达到限定高度或者仅剩一个样本时，则算法收敛，否则，继续递归构建二叉搜索树。

(2)构建二叉树森林(iForest)。

根据样本数据容量迭代重复上述二叉搜索树(iTree)构建过程重复创建多个二叉搜索树(iTree)，然后将生成的(iTree)组成二叉树森林。

(3)计算二叉树森林中二叉搜索树的路径长度。

具体的，当二叉搜索树森林构建完成后，就可以对样本进行预测了。预测过程就是对二叉搜索树进行递归中序遍历，记录从根结点到叶子结点的路径长度，记为h(x)。

(4)计算离群点偏离值。

当二叉搜索树森林中所有样本路径长度h(x)计算完毕后，通过运用统计学的方法计算得出所有数据样本期望值E(h(x))和方差S(h(x))，进而得到偏离期望和方差的异常数据点。

例如，假设样本X中有n个点，那这n个点如果用一个二分树来搜索，平均搜索不成功的路径就等于这n个点的平均路径长度，如下：

c(n)＝2H(n-1)-(2(n-1)/n)

然后用c(n)来归一化E(h(x))，如下：

图2是根据一示例性实施例示出的方差S和样本期望值E(h(x))的示意图，由图2可以得到以下结论：

1)、当E(h(x))→c(n)时，s→0.5，即样本x的路径平均长度与树的平均路径长度相近时，则不能区分是不是异常；

2)、当E(h(x))→0时，s→1，即x的异常分数接近1时，被判定为异常；

3)、当E(h(x))→n-1时，s→0，被判定为正常。

由以上内容可以看出，当其趋于0.5时，表示很可能是正常值，当其趋于1时，很可能是异常值。即如果某个点的平均路径和n个点(数据集中的点数)的平均路径趋于相同，则不太可能是异常点，只有当其大大小于n个点的平均路径时，才可能是异常值。此时，可以设置预设阈值为0.5。

作为一种较优的实施方式，本发明实施例中，所述方法还包括训练数据的获取过程，包括：

具体的，本发明实施例中，还提供一种用于训练预测模型的训练数据的获取过程。具体实施例，预先准备若干样本数据，然后在构建每一棵二叉搜索树时，采用放回采样的方式从样本数据中获取多个样本数据作为每一棵二叉搜索树训练数据。这里的样本数据包括IP数据以及与该IP数据对应的标签，如正常标签、异常标签等，正常标签表示对应的IP数据为正常数据，异常标签表示对应的IP数据为异常常数据。

例如，首先预先准备2万条样本数据(这里的2万只是一种示例，本发明实施例中不对样本数据的具体数量做限制)，然后采用放回采样方式，每次从样本数据中获取256条数据，默认二叉搜索树的高度为8，树的高度限制1与子样本数量ψ的关系为1＝ceiling(log2(ψ))，它近似等于树的平均高度，根据样本数据的特征值，进行二分法，生成一棵二叉搜索树。反复采样100次，组成一个100颗树的二叉树森林。保存该结构作为预测模型，供后续流式流程进行数据预测使用。

作为一种较优的实施方式，本发明实施例中，所述根据所述预测结果以及预设阈值，确定所述待识别IP数据的标签包括：

具体的，根据预测模型的对样本的预测情况，设置一预设阈值，当预测结果大于该预设阈值时，说明该预测结果可能是异常值，此时给待识别IP数据的打上异常标签，否则，说明该预测结果可能是正常值，此时给待识别IP数据打上正常标签。例如，假设预设阈值为0.7，将预测结果跟预设阈值0.7进行比较，当其大于0.7时给待识别IP数据打上异常标签1，当其小于或等于0.7时给待识别IP数据打上正常标签。

作为一种较优的实施方式，本发明实施例中，在根据所述预测结果以及预设阈值确定所述待识别IP数据的标签后，所述方法还包括：

具体的，为了便于后续业务查询待识别IP数据的异常情况，本发明实施例中，在给待识别IP数据打上标签后，还将该待识别IP数据以及对应的标签导出至数据仓库中进行存储。

作为一种较优的实施方式，为了减少查询文件命中数量，提高查询速度和效率，支持海量标签数据的快速查询，本发明实施例中，在向数据仓库查询待识别IP数据以及对应的标签时，使用Impala查询引擎，并且扩展Impala使用布隆过滤器建索引功能，优化Impala的查询功能。

图3是根据一示例性实施例示出的IP数据识别装置的结构示意图，参照图2所示，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述数据预测模块包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括：

模型训练模块，用于利用预先准备的训练数据基于孤立森林算法递归构建多个二叉搜索树，直至所二叉搜索树达到限定高度；根据多个所述二叉搜索树生成二叉树森林。

数据获取模块，用于采用放回采样的方式从样本数据中获取多个样本数据作为训练数据，所述样本数据包括IP数据以及与所述IP数据对应的标签，所述标签包括正常标签或异常标签。

作为一种较优的实施方式，本发明实施例中，所述异常判断模块具体用于：

数据存储模块，用于将所述待识别IP数据以及所述待识别IP数据对应的标签导出至数据仓库中，以供查询。

图4是根据一示例性实施例示出的计算机设备的内部结构示意图，参照图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

作为一种较优的实施方式，本发明实施例中，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

作为一种较优的实施方式，本发明实施例中，处理器执行计算机程序时还实现以下步骤：

根据多个所述二叉搜索树生成二叉树森林。

本发明实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

作为一种较优的实施方式，本发明实施例中，所述计算机程序被处理器执行时，还实现如下步骤：

根据多个所述二叉搜索树生成二叉树森林。

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的IP数据识别装置在触发数据识别业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的IP数据识别装置与IP数据识别方法实施例属于同一构思，即该装置是基于该IP数据识别方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种IP数据识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的IP数据识别方法，其特征在于，所述预测模型包括基于孤立森林算法的预测模型，所述将所述数值型数据作为预先训练的预测模型的输入，获取所述预测模型输出的预测结果包括：

3.根据权利要求1或2所述的IP数据识别方法，其特征在于，所述方法还包括预测模型的训练过程，包括：

根据多个所述二叉搜索树生成二叉树森林。

4.根据权利要求3所述的IP数据识别方法，其特征在于，所述方法还包括训练数据的获取过程，包括：

5.根据权利要求1或2所述的IP数据识别方法，其特征在于，所述根据所述预测结果以及预设阈值，确定所述待识别IP数据的标签包括：

6.根据权利要求1或2所述的IP数据识别方法，其特征在于，在根据所述预测结果以及预设阈值确定所述待识别IP数据的标签后，所述方法还包括：

7.一种IP数据识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的IP数据识别装置，其特征在于，所述数据预测模块包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。