CN114037009A

CN114037009A - 一种基于时空统计的ip地址画像方法

Info

Publication number: CN114037009A
Application number: CN202111308488.0A
Authority: CN
Inventors: 杨晓林; 张昊; 承昊新; 袁琪; 王数; 陆芸
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本发明公开了一种基于时空统计的IP地址画像方法，该方法包括：使用Count‑Min Sketch和最小堆这两种数据结构来保存网络中每个IP的访问与被访问情况；利用每个IP地址的Sketch生成一组时空矩阵，从而得到每个IP地址的特征信息；在此基础上对IP地址进行层次式聚类，并根据聚类结果为每个IP地址打上伪标签，形成群体IP地址画像，再根据同一标签下IP地址的频繁访问与被访问记录形成对该类IP地址的解析，完成个体IP地址画像。本发明方法使用基于Count‑Min Sketch与最小堆的概率数据结构，大大减少存储空间的同时，也能保证面对实时海量流数据时数据记录的准确性，并配合基于时空统计的IP地址画像算法，分别利用网络流全局信息和IP访问模式信息完成群体IP地址画像和个体IP地址画像。

Description

一种基于时空统计的IP地址画像方法

技术领域

本发明涉及关联数据挖掘与画像技术领域，具体涉及一种基于时空统计的IP地址画像方法。

背景技术

IP画像在现实的数据中心网络中很重要。面对海量的数据流，不仅需要正确统计每一个IP地址的访问与被访问次数，还需要根据其时空访问模式生成IP地址画像，以便于检测行为异常的IP地址，避免对网络内的其他服务功能造成不良影响。

相关技术主要聚焦于海量数据流的计数与关联数据挖掘上。每个IP地址访问其他IP地址和端口，都有时空模式与频次规律，希望通过提取IP地址的访问模式的特征信息，通过聚类形成IP地址画像，并自动打上伪标签。

然而在现实场景中网络数据流的规模是很大的，如何在花费尽可能少的空间开销情况下正确记录每一条数据流的信息，并在常数时间内完成流记录的查找，以及如何从存储的信息中提取出每个IP地址的时空模式与访问频次规律，这是需要思考和解决的问题。

发明内容

发明目的：针对上述问题，本发明提出一种基于时空统计的IP地址画像方法，能够从根本上解决现有画像算法无法对大规模网络流数据下IP地址的时空模式与访问频次规律进行细粒度刻画的问题。

技术方案：为了实现以上发明目的，本发明的技术方案如下：

一种基于时空统计的IP地址画像方法，包括以下步骤：

(1)为每个IP地址设置一个全局Count-Min Sketch(以下简称Sketch)，在接收到网络流数据报后，解析得到源IP地址、目的IP地址信息，将这些信息更新到每个IP地址对应的全局Sketch中；

(2)另外，将一天划分为若干个时间段，除了维护全局Sketch以外，每个时间段还需要为每个IP地址维护一个对应的局部Sketch，一个新时间段开始时，保存并清空前一个时间段的局部Sketch，这样一天下来，每个IP地址在每个时间段内的访问与被访问模式都被保存；

(3)根据得到的包含时空统计信息的全局Sketch与单个时间段Sketch，通过统计学方法与数据降维方法得到每个IP地址的特征信息；

(4)根据IP地址的特征信息，使用层次式聚类将IP地址进行分类，使每个IP地址得到对应的类别标签，完成IP地址群体画像；

(5)根据全局Sketch中记录的每个IP地址的频繁与被频繁访问对象，解析得到每个IP地址的活动模式、连接模式与语义模式，完成个体IP地址画像。

进一步地，所述步骤(1)中使用Count-Min Sketch数据结构根据哈希值的范围确定所需的存储空间，可以大大减少存储开销。

进一步地，Count-Min Sketch是一个w列d行的二维数组，参数w和d在创建时就已经确定，与查询的错误率有关，每一行与一个哈希函数相关联，共有d个相互独立的哈希函数。当新事件到来时，利用d个哈希函数获得d个对应的列索引，并且在每一行的对应位置上计数加一，查询阶段需要统计某个事件i的计数，可以类似地获得d个对应的列索引，然后取对应位置中的最小值。

进一步地，所述步骤(1)中为了方便对高频项进行记录与查询，为每个Sketch设计了一个对应的最小堆，在每次更新Sketch时一并更新最小堆，最后即可通过该最小堆获得流数据中的Top-K项。

进一步地，所述步骤(1)中为了更好地获取信息，将Sketch中的单元格设计为长度为4的向量，每一位分别存储当前记录的频次、流量、Session号与端口信息，以便后续对Sketch进行反查。

进一步地，所述步骤(1)中为了统计全局信息，构造五个Sketch：CS_SIP、CS_DIP、CS_DIP_Port、CS_IP_Pair、CS_DIP_Pair_Port，分别记录全部数据流中每个源IP发起访问总数，每个目的IP接受访问总数，每个目的IP端口接收访问总数，主机之间访问总数，每个源IP访问服务器应用的总数。

进一步地，所述步骤(2)中将数据流以每15分钟分割成一个Session，同时为每个IP地址创建两个Sketch，分别记录其发起访问与接受访问时的IP地址及其频次，每个新Session到来时，在全局信息统计的基础上，进一步记录当前时间段内每个IP的访问与被访问情况(对每个IP地址进一步划分为client与server进行记录)，并将其保存在该Session下每个IP地址对应的Sketch中。

进一步地，所述步骤(3)中使用步骤(2)中每个Session记录的Sketch构建高维时空矩阵，将一天以15分钟为间隔分为96个Session，每个IP地址在每个Session中都维护了一个Sketch，对于每个IP地址，提取其对应的96个Session中对应的Sketch，每个Sketch是一个w×d×4的矩阵，将这96个Sketch组合形成一个w×d×4×96的张量，即为该IP地址的原始特征向量，其中包含了时空模式与访问频次信息。

进一步地，所述步骤(3)中使用PCA降维方法对高维时空矩阵进行降维，得到每个IP地址的特征向量，其降维方法为：将原始数据按列组成矩阵X，求出协方差矩阵

求出C的特征值与特征向量，将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，令F＝PX即为降维后的数据。

进一步地，所述步骤(4)中使用K-Means聚类方法，依据每个IP地址的特征向量完成聚类，实现IP地址的群体画像。

进一步地，所述步骤(5)中根据全局记录信息，从多个角度(IP地址服务信息、时空访问习惯、访问频次时序)对单个IP地址进行画像分析，并对单个IP地址的连接模式、活动模式、语义模式进行画像。

有益效果：本发明首次提出使用改进过的Count-Min Sketch数据结构来进行网络流数据测量，并提出了一种全新的IP地址画像算法，用来提取IP地址活动的时空模式与访问频次时序特征，并通过层次式聚类方法为每个IP地址打上伪标签。其优点在于大大节省了空间开销，以及可以通过IP地址画像实时且直观地观察每个IP地址的连接模式、活动模式与语义模式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是基于时空统计的IP地址画像方法的流程图；

图2是基于时空统计的IP地址画像方法的框架示意图；

图3是根据本发明实施例的Count-Min Sketch数据结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。应当了解，以下提供的实施例仅是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的技术构思，本发明还可以用许多不同的形式来实施，并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

如图1-2所示，本发明提出了一种新的基于Count-Min Sketch(以下简称Sketch)的网络数据流统计与IP地址画像算法。整个模型框架由数据流统计模块、特征提取与聚类模块和画像模块三个部分组成。

数据流统计模块使用Count-Min Sketch记录网络中每条数据流的信息。当一条数据流到来时，首先提取其中的关键信息：源IP地址、目的IP地址、源端口、目的端口、协议类型、流量等。接着根据上述信息将该条数据流的记录更新到全局与单个时间段内的Sketch中。这样一来，每个Sketch都保存了IP地址的访问模式，并通过划分时间段的方法将时间这一属性也纳入了考虑范围内。

特征提取与聚类模块利用上一个模块得到的Sketch来构建IP地址的特征向量。由于将一天按照细粒度(15分钟为间隔)进行了划分，每个时间片内都维护了一个对应的Sketch，所以将这些Sketch堆叠后即可得到每个IP地址的高维特征向量。然而原始的特征张量维度过高，故还需进行PCA降维。利用降维后的特征向量进行层次式聚类，即可完成对IP地址的划分，这样就完成了IP地址的群体画像。

画像模块利用时空统计信息与聚类结果对IP地址进行综合画像。对于每个IP，通过全局Sketch与单个时间段内对应的Sketch可以刻画出其活动模式与连接模式，利用协议号信息可以分析出其语义模式，再结合IP地址群体画像即可单个IP地址的综合画像。

图3是根据本发明实施例的Count-Min Sketch数据结构示意图。Count-MinSketch是一个w列d行的二维数组，本发明中将w固定为100，d固定为10。每一行与一个哈希函数相关联，共有d个相互独立的哈希函数，本发明采用BKDRhash。当新事件到来时，利用d个哈希函数获得d个对应的列索引，并且在每一行的对应位置上计数加一。查询阶段需要统计某个事件i的计数，可以类似地获得d个对应的列索引，然后取对应位置中的最小值。本发明中，使用了全局Sketch与分时段Sketch。全局Sketch包括CS_SIP(Key＝源IP，Value＝总数)、CS_DIP(Key＝目的IP，Value＝总数)、CD_DIP_Port(Key＝源IP+端口，Value＝总数)、CS_IP_Pair(Key＝源IP，Value＝目的IP)、CS_IP_Pair_Port(Key＝源IP，Value＝目的IP+端口)，分别记录每个源IP发起访问总数、每个目的IP接受访问总数、每个目的IP端口接收访问总数、host间访问总数每个源IP访问服务器应用总数。同时对于每个IP地址，在每个时间段内需要维护四个Sketch：CS_DIP(Key＝目的IP，Value＝总数)、CS_DIP_Port(Key＝目的IP+端口，Value＝总数)、CS_SIP(Key＝源IP，Value＝总数)、CS_SIP_Port(Key＝源IP+端口，Value＝总数)，分别记录每个目的IP接受访问总数、每个目的IP端口接受访问总数、每个源IP访问总数、每个源IP到端口访问总数。

算法1是根据本发明实时例的网络数据流统计算法。对于每一条数据流，算法先分析其报头中的信息，根据其源IP地址等信息生成键值对并分别插入到全局Sketch和分时段Sketch中，然后更新每个Sketch对应的最小堆。当接受完所有数据流之后，可以通过Sketch查询每个IP地址的流量与频繁访问对象。

算法1：网络流数据统计算法

输入：N元组(源IP，源端口，目的IP，目的端口，协议类型，流量等)

初始化TotalInfo(包含5个全局Sketch)与SessionInfo(包含每个IP地址对应的4个Sketch)

保存统计结果

输出：全局统计结果TotalInfo和分时段统计结果SessionInfo0～n

算法2是根据本发明实施例的IP地址特征提取与聚类算法。对于每个IP地址，本发明选取其96个Session对应的Sketch。对于这96个Sketch中的每个元素，分别计算其对应位置上的均值、方差、最小值、最大值，从而生成四个新的二维矩阵，将这些新矩阵堆叠即可得到规模为(4，10，1000)的原始高维特征张量。接着使用PCA降维方法将原始特征张量降维至(1，10)，然后利用K-Means聚类方法完成对IP地址的聚类。最后根据聚类结果解析每一类IP地址的时空模式与语义信息，得到IP地址群体画像。

算法2：IP地址特征提取与聚类算法

输入：待分类的IP地址集合

遍历输入的IP地址集合：

初始化特征向量feature(4，10，1000)

遍历SessionInfo：

取出SessionInfo下对应IP名的Sketch

算出这组Sketch对应位置的平均值、方差、最小值和最大值

将结果存储到feature中

使用PCA降维feature得到new_feature

使用K-Means算法根据new_feature进行聚类

遍历每类IP集合：

随机取10个IP地址

获取其对应的feature[0,:,:]

对这10个矩阵求平均，并利用热力图可视化

计算10个IP地址的频繁访问对象

利用词云可视化

输出：每类IP地址集合，以及其对应的时空矩阵与词云

在本申请的一个实施例中，对于单个IP地址，通过全局Sketch可以刻画出其自我中心网络与访问频次随时间变化的趋势图，结合每个数据流对应的协议号和服务内容，将其语义信息以词云形式展现。

本发明方法使用Count-Min Sketch和最小堆这两种数据结构来保存网络中每个IP的访问与被访问情况，收到网络数据流时，获取该流的源IP地址、目的IP地址、源端口号、目的端口号、协议号等信息，并将上述信息更新到相应IP地址的Sketch中，当解析完所有网络流后，利用每个IP地址的Sketch生成一组时空矩阵，从而得到每个IP地址的特征信息，在此基础上对IP地址进行层次式聚类，并根据聚类结果为每个IP地址打上伪标签，形成群体IP地址画像，再根据同一标签下IP地址的频繁访问与被访问记录形成对该类IP地址的解析，完成个体IP地址画像。本发明使用基于Count-Min Sketch与最小堆的概率数据结构，大大减少存储空间的同时，也能保证面对实时海量流数据时数据记录的准确性，并配合基于时空统计的IP地址画像算法，分别利用网络流全局信息和IP访问模式信息完成群体IP地址画像和个体IP地址画像。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种基于时空统计的IP地址画像方法，其特征在于，该方法包括以下步骤：

(1)为每个IP地址设置一个全局Count-Min Sketch，在接收到网络流数据报后，解析得到源IP地址、目的IP地址信息，将这些信息更新到每个IP地址对应的全局Count-MinSketch中；

(2)将一天划分为若干个时间段，除了维护全局Count-Min Sketch以外，每个时间段还需要为每个IP地址维护一个对应的局部Count-Min Sketch，一个新时间段开始时，保存并清空前一个时间段的局部Count-Min Sketch，这样一天下来，每个IP地址在每个时间段内的访问与被访问模式都被保存；

(3)根据得到的包含时空统计信息的全局Count-Min Sketch与单个时间段Count-MinSketch，通过统计学方法与数据降维方法得到每个IP地址的特征信息；

(5)根据全局Count-Min Sketch中记录的每个IP地址的频繁与被频繁访问对象，结合局部Count-Min Sketch解析得到每个IP地址的活动模式、连接模式与语义模式，完成个体IP地址画像。

2.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，与传统数据库使用键值对的存储形式不同，Count-Min Sketch数据结构根据哈希值的范围确定所需的存储空间，可以大大减少存储开销。

3.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，Count-Min Sketch是一个w列d行的二维数组，参数w和d在创建时就已经确定，与查询的错误率有关，每一行与一个哈希函数相关联，共有d个相互独立的哈希函数，当新事件到来时，利用d个哈希函数获得d个对应的列索引，并且在每一行的对应位置上计数加一，查询阶段需要统计某个事件i的计数，可以获得d个对应的列索引，然后取对应位置中的最小值。

4.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，为了方便对高频项进行记录与查询，为每个Count-Min Sketch设计了一个对应的最小堆，在每次更新Count-Min Sketch时一并更新最小堆，最后即可通过该最小堆获得流数据中的TopK项。

5.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，基础的Count-Min Sketch每一个单元格仅存储当前记录的频次，为了更好地获取信息，将单元格设计为长度为4的向量，每一位分别存储当前记录的频次、流量、Session号与端口信息，以便后续对Count-Min Sketch进行反查。

6.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，在步骤(1)中为了统计全局信息，构造五个Count-Min Sketch：CS_SIP、CS_DIP、CS_DIP_Port、CS_IP_Pair、CS_DIP_Pair_Port，分别记录每个源IP发起访问总数，每个目的IP接受访问总数，每个目的IP端口接收访问总数，主机之间访问总数，每个源IP访问服务器应用的总数。

7.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，在步骤(2)中将数据流以每15分钟分割成一个Session，同时为每个IP地址创建两个Count-MinSketch，分别记录其发起访问与接受访问时的IP地址及其频次，每个新Session到来时，在全局信息统计的基础上，进一步记录当前时间段内每个IP的访问与被访问情况，对每个IP地址进一步划分为client与server进行记录，并将其保存在该Session下每个IP地址对应的Count-Min Sketch中。

8.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，使用每个Session记录的Count-Min Sketch构建高维时空矩阵，将一天以15分钟为间隔分为96个Session，每个IP地址在每个Session中都维护了一个Count-Min Sketch，对于每个IP地址，提取其对应的96个Session中对应的Count-Min Sketch，每个Count-Min Sketch是一个w×d×4的矩阵，将这96个Count-Min Sketch组合形成一个w×d×4×96的张量，即为该IP地址的原始特征向量，其中包含了时空模式与访问频次信息，接着使用PCA降维方法对高维时空矩阵进行降维，得到每个IP地址的特征向量，其降维方法为：将原始数据按列组成矩阵X，求出协方差矩阵C,求出C的特征值与特征向量，将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，令F＝PX即为降维后的数据。

9.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，在步骤(4)中使用K-Means聚类方法，依据每个IP地址的特征向量完成聚类，实现IP地址的群体画像。

10.根据权利要求1所述的一种基于时空统计的IP地址画像方法，其特征在于，在步骤(5)中根据全局记录信息，从多个角度对单个IP地址进行画像分析，并对单个IP地址的连接模式、活动模式、语义模式进行画像。