CN108924100B

CN108924100B - 一种异常用户识别方法

Info

Publication number: CN108924100B
Application number: CN201810638772.6A
Authority: CN
Inventors: 付博; 赵煜; 刘鹏; 舒放; 马捷; 刘奎麟; 曹凯; 纪欣
Original assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2020-12-01
Anticipated expiration: 2038-06-20
Also published as: CN108924100A

Abstract

本实施例提供了一种异常用户识别方法，包含以下步骤：（1）设定时间尺度，计算时间尺度内每个用户的通信量，记录同一网络前缀下每个用户的应用行为，为每个用户建立用户行为模型；（2）对两两用户的通信量差值进行离散化处理；（3）计算两两用户应用行为的比例差异；（4）计算两两用户间的行为相似性值；（5）根据聚类算法对网络中的用户进行聚类，分离出异常行为的用户分簇，克服了现有技术中异常行为特征提取困难，聚类维数过高、聚类结果准确性低等问题。

Description

一种异常用户识别方法

技术领域

本发明涉及网络安全领域，特别是一种异常用户识别方法。

背景技术

由于网络世界中不稳定因素较多，一些用户在使用过程中会存在诸如DDoS攻击、端口扫描，蠕虫病毒等行为异常，若不及时发现并阻止，异常行为将进一步扩大，使网络存在极大安全隐患，因此需要开发一种能够识别异常用户的方法，目前的异常用户识别方法存在预设规则困难、特征提取困难，聚类维数过高及不适用于网络汇聚节点上异常行为的分析等问题。

发明内容

本发明提供了一种异常用户识别方法，克服了现有技术中异常行为特征提取困难，聚类维数过高、聚类结果准确性低等问题，为克服上述问题，本发明提供了以下技术方案：

一种异常用户识别方法，其特征在于，包含以下步骤：

(1)设定时间尺度，计算时间尺度内每个用户的通信量，记录同一网络前缀下每个用户的应用行为，为每个用户建立用户行为模型；

(2)对两两用户的通信量差值进行离散化处理；

(3)计算两两用户应用行为的比例差异；

(4)计算两两用户间的行为相似性值；

(5)根据聚类算法对网络中的用户进行聚类，分离出异常行为的用户分簇。

本发明提出了一种基于行为相似性的异常用户识别方法，选择了时间、用户通信量以及用户的应用行为作为衡量用户行为相似性的指标，设定合理的时间尺度，记录每个用户在时间尺度内的通信量和一系列应用行为，然后计算用户间相似性值，通过聚类算法对用户进行聚类，分离出异常用户分簇，从而识别具有异常行为的用户，并且不存在特征提取困难，聚类维数低、识别准确率高。

进一步的，所述用户行为模型的建立方法如下：

(1)设定时间尺度为T，假设时间尺度T的某一网络前缀中共有N个活跃用户，其中存在异常用户，其集合为U＝{U₁,U₂,…,U_i,…,U_N}，其中U表示所有用户的集合，U_i表示集合中的一个网络用户；

(2)定义用户行为模型，即：U_i＝{C_i,F_i}，i＝1.2.3…n，其中，C_i为用户U_i的通信量，表示用户发送的流量数C_send,i和接收的流量数C_rece,i之和，即:C_i＝C_send,i+C_rece,i；F_i表示用户不同应用行为的集合，集合中的每个元素代表一种应用行为；

(3)设用户U_i的流量中用户端端口号和服务端端口号共有n种不同组合，即：F_i＝{ε_i,1,ε_i,2,…,ε_i,k,…,ε_i,n},其中ε_i,k表示用户U_i的一种应用行为，ε_i,k中包含用户U_i的用户端端口号port_i,c,k、服务端端口号port_i,s,k和具有该用户端端口号和该服务端端口号流量的数目ω_i,k，即：ε_i,_k＝{port_i,c,k,port_i,s,k,ω_i,k}。

本发明将流量按照网络前缀划分为不同的聚合流，对同一聚合流内的用户进行行为相似性分析。用户在网络中活动时产生的流量中包括用户发起会话行为分配的IP地址、目的IP地址、源端口、目的端口和会话的起止时间等信息，本发明以用户被分配的IP地址来区别不同用户，并将具有异常行为的用户简称为异常用户。本发明将用户行为定义为在一定的时间尺度内，用户在网络上发送和接收数据的通信量以及所进行的网络应用行为集合，比如：浏览网页、发送邮件、传输文件等。

端口号在一定程度上能够标识用户的应用行为，可分为公认端口、注册端口和私有端口，公认端口是为某些网络应用预留的静态端口，在无异常情况下，可以根据流量中的公认端口号标识用户的应用行为，而有些流量中不含有公认端口，注册端口和私有端口并不固定绑定于某一应用，不能准确标识用户的应用行为，此外，攻击者可以利用某些公认端口对目标主机进行攻击，所以仅从单个用户的角度分析使用的端口号无法准确判断用户的应用行为，也无法识别异常行为，但发生相同异常行为类型的用户间使用的端口号具有一定的关联性，通过分析用户间使用端口号的相似程度可以分离出异常用户。一条流量中含有源端口和目的端口两种端口，本发明使用源端口号和目的端口号共同标识用户的一种应用行为，流量中的一个端口号是为了区分网络中的用户端运行的不同应用而分配的端口号，称为用户端端口号，另一个是为提供应用服务，服务端使用的端口号，称为服务端端口号。因此，本发明选用用户端端口号、服务端端口号和端口号流量的数目来标识用户的应用行为。

进一步的，所述离散化处理采用如下公式：

其中，α_i,j表示离散化后的用户U_i和用户U_j的通信量差值，λ₁、λ₂、λ₃、λ₄、λ₅表示用户通信量差值进行离散化处理后的可选取值，β表示用户通信量差值梯度，ΔC_i,j表示离散化处理前用户U_i和用户U_j的通信量差值，即ΔC_i,j＝|C_i-C_j|。

本发明将通信量差值作为用户行为相似性的衡量指标之一，由于用户通信量为连续值，且差异可能较大，需要对用户通信量差值进行离散化处理。

进一步的，所述用户间应用行为的比例差异计算方法如下：

(1)设用户U_i应用行为的关系模式为R_i＝(T_i,S_i)，其中,T_i表示用户U_i使用的所有用户端端口号和服务端端口号的集合，T_i＝{port_i,c,1,port_i,s,1,…,port_i,c,k,port_i,s,k,…,port_i,c,n,port_i,s,n}，S_i表示端口号间的函数依赖集，S_i＝{port_i,c,1→port_i,s,1,port_i,s,1→port_i,c,1,…,port_i,c,n→port_i,s,n,port_i,s,n→port_i,c,n,…}；

(2)根据函数依赖集中端口号关系构造闭包集合，使每个闭包中只保留端口号形成一个集合η_i,l，将用户U_i所有端口号划分为集合ζ(U_i)，ζ(U_i)＝{η_i,1,η_i,2,…,η_i,l,…η_i,n}；

(3)根据用户间端口号使用的关联性和用户U_i端口号的划分集来划分用户U_j的端口集，将用户U_j中与用户U_i无关联的端口号舍弃，即：

ζ(U_j)＝{η_j,1,η_j,2,…,η_j,l,…η_i,n}

η_j,l的构造过程如下：

I.

II.

(4)计算用户U_i和U_j的端口划分集ζ(U_i)和ζ(U_j)中每个元素涉及的相关流量数量，公式为：

(5)计算用户U_i和U_j的每个端口集相关流量占总流量的比例，公式为：

(6)计算用户U_i和用户U_j间具有关联性的应用行为比例差异，公式为：

进一步的，所述用户行为相似性值的计算公式为：

其中，S_i,j表示用户U_i和用户U_j的行为相似性值。

进一步的，所述聚类算法为k-similarity算法，步骤如下:

(1)确定离群点：设定离群点阈值θ，如果用户U_i与同一网络前缀下的所有用户的行为相似性都小于阈值θ，则用户U_i与其他所有用户的行为都不相似，将其确定为离群点；

(2)选择初始质心：定义所有用户集合为U，初始质心集合为Z，Z中元素的个数为k，开始时初始质心集合Z为空，随机选取一个非离群点U_a作为第一个初始质心，将U_a加入集合Z，之后进行k-1次初始质心的选择，每次进行初始质心的选择时，计算每个非离群点用户与集合Z中每个初始质心对应行为相似性的平均值，选择最小平均值S_min对应的用户U_m作为初始质心加入到初始质心集合Z中；

(3)将样本点加入对应的分簇：定义分簇集合L＝{L₁,L₂,…,L_g,…,L_k}，离群点集合记为O，初始分簇集合即为初始质心集合，即L＝Z，首先判断需要加入分簇的用户U_i是否为离群点，若

那么U_i为离群点，加入离群点集合O，若

那么U_i为非离群点，然后计算用户U_i与分簇中的每一个用户的行为相似性，对所有相似性取平均值，比较每个分簇的平均值，将用户U_i加入平均值最大的分簇，公式如下：

其中，|L_g|表示集合L_g中元素的个数，S_max即为用户U_i与各分簇中的用户行为相似性平均值的最大值，如果S_max对应的分簇为L_h，那么将用户U_i加入分簇L_h，即：

L_h＝L_h∪U_i。

本发明基于行为相似性度量公式提出k-similarity聚类算法，该算法的关键在于初始质心选择过程和每次样本点加入分簇的选择过程，为了避免离群点对聚类结果产生不良影响，初始质心的选择过程和样本点加入分簇的选择过程都需对离群点加以考虑。

与现有技术相比，本发明具有以下有益效果：

本发明提供了一种基于行为相似性的异常用户识别方法，避免了使用现有方法聚类时特征提取困难和由于维数过高造成的维数灾难等问题，并且能够准确识别异常用户。

附图说明

图1为本发明方案流程图

具体实施方式

为使发明的目的、技术方案和优点更加清楚明了，下面通过附图中及实施例，对本发明技术方案进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明技术方案，并不用于限制本发明技术方案的范围。

参考图1，本实施例提供了一种异常用户识别方法，包含以下步骤：

(2)对两两用户的通信量差值进行离散化处理；

(3)计算两两用户应用行为的比例差异；

(4)计算两两用户间的行为相似性值；

具体的，所述用户行为模型的建立方法如下：

具体的，所述离散化处理采用如下公式：

具体的，所述用户间应用行为的比例差异计算方法如下：

ζ(U_j)＝{η_j,1,η_j,2,…,η_j,l,…η_i,n}

η_j,l的构造过程如下：

I.

II.

具体的，所述用户行为相似性值的计算公式为：

其中，S_i,j表示用户U_i和用户U_j的行为相似性值。

具体的，所述聚类算法为k-similarity算法，步骤如下:

那么U_i为离群点，加入离群点集合O，若

L_h＝L_h∪U_i。

本实施例提供了一种基于行为相似性的异常用户识别方法，避免了使用现有方法聚类时特征提取困难和由于维数过高造成的维数灾难等问题，并且能够准确识别异常用户。

如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。

Claims

1.一种异常用户识别方法，其特征在于，包含以下步骤：

(2)对两两用户的通信量差值进行离散化处理；

(3)计算两两用户应用行为的比例差异；

所述用户间应用行为的比例差异计算方法如下：

(31)设用户U_i应用行为的关系模式为R_i＝(T_i，S_i)，其中，T_i表示用户U_i使用的所有用户端端口号和服务端端口号的集合，T_i＝{port_i，c，1，port_i，s，1，...，port_i，c，k，port_i，s，k，...，port_i，c，n，port_i，s，n}，S_i表示端口号间的函数依赖集，S_i＝{port_i，c，1→port_i，s，1，port_i，s，1→port_i，c，1，...，port_i，c，n→port_i，s，n，port_i，s，n→port_i，c，n，...}；

(32)根据函数依赖集中端口号关系构造闭包集合，使每个闭包中只保留端口号形成一个集合η_i，l，将用户U_i所有端口号划分为集合ζ(U_i)，ζ(U_i)＝{η_i，1，η_i，2，...，η_i，l，...η_i，n}；

(33)根据用户间端口号使用的关联性和用户U_i端口号的划分集来划分用户U_j的端口集，将用户U_j中与用户U_i无关联的端口号舍弃，即：ζ(U_j)＝{η_j，1，η_j，2，...，η_j，l，...η_i，n}；

(34)计算用户U_i和U_j的端口划分集ζ(U_i)和ζ(U_j)中每个元素涉及的相关流量数量；

(35)计算用户U_i和U_j的每个端口集相关流量占总流量的比例；

(36)计算用户U_i和用户U_j间具有关联性的应用行为比例差异；

(4)计算两两用户间的行为相似性值；

所述用户行为相似性值的计算公式为：

其中，S_i，j表示用户U_i和用户U_j的行为相似性值，α_i，j表示离散化后的用户U_i和用户U_j的通信量差值，Q(η_i，l，η_j，l)表示用户U_i和用户U_j间具有的关联性的应用行为比例差异；

(5)根据聚类算法对网络中的用户进行聚类，分离出异常行为的用户分簇；

所述聚类算法为k-similarity算法，步骤如下：

(51)确定离群点；

(52)选择初始质心；

(53)将样本点加入对应的分簇。

2.根据权利要求1所述的异常用户识别方法，其特征在于，所述用户行为模型的建立方法如下：

(11)设定时间尺度为T，假设时间尺度T的某一网络前缀中共有N个活跃用户，其中存在异常用户，其集合为U＝{U₁，U₂，...，U_i，...，U_N}，其中U表示所有用户的集合，U_i表示集合中的一个网络用户；

(12)定义用户行为模型，即：U_i＝{C_i，F_i}，i＝1.2.3...n，其中，C_i为用户U_i的通信量，表示用户发送的流量数C_send，i和接收的流量数C_rece，i之和，即：C_i＝C_send，i+C_rece，i；F_i表示用户不同应用行为的集合，集合中的每个元素代表一种应用行为；

(13)设用户U_i的流量中用户端端口号和服务端端口号共有n种不同组合，即：F_i＝{ε_i，1，ε_i，2，...，ε_i，k，...，ε_i，n}，其中ε_i，k表示用户U_i的一种应用行为，ε_i，k中包含用户U_i的用户端端口号port_i，c，k、服务端端口号port_i，s，k和具有该用户端端口号和该服务端端口号流量的数目ω_i，k，即：ε_i，k＝{port_i，c，k，port_i，s，k，ω_i，k}。

3.根据权利要求2所述的异常用户识别方法，其特征在于，所述离散化处理采用如下公式：

其中，α_i，j表示离散化后的用户U_i和用户U_j的通信量差值，λ₁、λ₂、λ₃、λ₄、λ₅表示用户通信量差值进行离散化处理后的可选取值，β表示用户通信量差值梯度，ΔC_i，j表示离散化处理前用户U_i和用户U_j的通信量差值，即ΔC_i，j＝|C_i-C_j|。

4.根据权利要求3所述的异常用户识别方法，其特征在于，在步骤(33)中，η_j，l的构造过程如下：

I.

II.

在步骤(34)中，用户U_i和U_j的端口划分集ζ(U_i)和ζ(U_j)中每个元素涉及的相关流量数量的计算公式为：

在步骤(35)中，用户U_i和U_j的每个端口集相关流量占总流量的比例的计算公式为：

在步骤(36)中，用户U_i和用户U_j间具有关联性的应用行为比例差异的计算公式为：

5.根据权利要求4所述的异常用户识别方法，其特征在于，所述步骤(5)具体包括：

(51)确定离群点：设定离群点阈值θ，如果用户U_i与同一网络前缀下的所有用户的行为相似性都小于阈值θ，则用户U_i与其他所有用户的行为都不相似，将其确定为离群点；

(52)选择初始质心：定义所有用户集合为U，初始质心集合为Z，Z中元素的个数为k，开始时初始质心集合Z为空，随机选取一个非离群点U_a作为第一个初始质心，将U_a加入集合Z，之后进行k-1次初始质心的选择，每次进行初始质心的选择时，计算每个非离群点用户与集合Z中每个初始质心对应行为相似性的平均值，选择最小平均值S_min对应的用户U_m作为初始质心加入到初始质心集合Z中；

(53)将样本点加入对应的分簇：定义分簇集合L＝{L₁，L₂，...，L_g，...，L_k}，离群点集合记为O，初始分簇集合即为初始质心集合，即L＝Z，首先判断需要加入分簇的用户U_i是否为离群点，若

那么U_i为离群点，加入离群点集合O，若

上式中|L_g|表示集合L_g中元素的个数，S_max即为用户U_i与各分簇中的用户行为相似性平均值的最大值，如果S_max对应的分簇为L_h，那么将用户U_i加入分簇L_h，即：

L_h＝L_h∪U_i。