CN114553473A

CN114553473A - 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法

Info

Publication number: CN114553473A
Application number: CN202210011088.1A
Authority: CN
Inventors: 郭威; 罗震宇; 张振红; 何映军; 谢林江; 毛正雄; 杭菲璐; 陈何雄; 占梦来; 张军
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-05-27
Anticipated expiration: 2042-01-05
Also published as: CN114553473B

Abstract

本发明涉及一种基于登录IP和登陆时间的异常登陆行为检测系统和方法，该方法包括采用局部离群因子算法获取各登录时间数据值的异常得分，利用PCA降维将IP数据进行降维处理，利用GMM高斯混合模型获取各登陆IP数据的异常得分，然后利用Robust标准化消除量纲影响，保留离群点，通过加权平均获取总异常得分，通过总异常得分判断登陆行为的正确性。

Description

一种基于登录IP和登陆时间的异常登陆行为检测系统和方法

技术领域

本发明涉及网络安全领域，尤其是一种基于登录IP和登陆时间的异常登陆行为检测系统和方法。

背景技术

近年以来，计算机科学技术和网络技术高速发展，各式各样的互联网服务为人们提供了快速便捷的服务，提高了人们的生活质量和工作效率。其中许多的互联网服务都需要用户创建属于自己的账户来进行后续的使用，便于服务器提供不同的服务。而伴随着技术的进步，各种网络安全问题层出不穷。

在网络安全领域当中，异常登录检测是最基础的所有服务器都面临的一个网络安全场景，是确保网络安全，净化网络空间的重要环节，能否针对目前日益增长的恶意登陆的行为做出准确且快速的响应也成为了一个优秀服务提供商的评判标准。

登录行为异常涉及到用户和服务器两个紧密相连的参与实体，主要采用服务器上记录的用户的登录日志作为评测算法的输入，所能采用的特征较少，如何针对稀少的特征进行分析和提取是异常登陆行为检测的难题。

现有技术有以下分析方法：

1、基于最小二乘法的异常行为分析模型

简介：该方法提出基于一元线性回归的最小二乘法异常访问分析模型。通过获取用户登录时是否成功的数据日志，将登陆成功或失败的登陆行为作为模型的输入，通过使用最小二乘法创建回归模型，预测出时间内的登录次数值，通过预测值和实际值的残差来判断是否异常

缺点：首先，这一方法并不通用，局限性较大，该方法中采用的最小二乘法是属于线性估计，真实情况中的登陆情况并不是线性的。在非线性情况下用最小二乘法进行拟合得到的回归函数是不可信的，计算所得的预测值也是不可信的；此外，该方法只是为专家系统进行预处理。该方法只能在众多的登录事件中分离出最为明显的异常行为，通过系统的初筛来给后续工作人员提供可供量化分析能力。基于最小二乘法的异常行为分析的识别准确率和可靠性无法满足现在的网络服务提供者的需求。

2、基于登录行为时间序列的登陆异常行为分析方法

简介：基于异常登录次数的登陆异常行为分析方法通过确认每个所述待测业务账号的登录行为时间序列的周期，并基于所述周期对所述待测业务账号的登录行为时间序列进行划分，以得到每个所述待测业务账号的子行为时间序列。该方法通过计算所述待测业务账号的子行为时间序列间的相似度来判断登录行为是否异常

缺点：该方法主要是根据快速傅里叶变换来确定每个账号的登陆行为时间序列的周期，然后将待测账号的登陆时间与其历史进行相似度的比较。主要问题是采用的特征值较少，仅仅考虑了登陆时间上的异常。

3、基于历史偏离的异常登录行为分析方法

简介：基于历史偏离的异常登录行为分析方法通过获取当前登录地点与历史登录地数据的距离d1、当前登录时间与历史登录时间数据的距离d2和当前登录设备与历史登录设备数据的距离d3。然后采用综合这三种特征数据的方式来判断用户登录过程中的异常行为。

缺点：首先，该方法中的计算方法需要存储近期的用户登陆时间数据，用户登录地历史数据，用户登陆设备历史数据，在时间线一直往后推送时，该方法的处理开销和存储开销日益庞大；另外，在该方法中对用户的登陆设备作为一个关键特征处理方式欠佳——在该方法中，将浏览器指纹作为用户的登陆设备数据，针对登陆设备数据这个非数字量进行距离计算；另外，在进行综合三方面异常指数的时候，该方法认为三种特征的权重占比一样，所以单纯的将异常指数进行相加计算。

可见，当前异常登录行为检测技术存在问题如下：

(1)精确度判断问题。用户登录行为属于无标签数据，在进行异常登陆行为的识别的时候，主要根据各种登陆数据进行无监督学习来进行判定，从而导致在实际环境中实际精确度无法确认。同时，在测试训练情况中，用户登录数据中存在的某些较小的偏差是否被判断为异常需要通过综合漏报率FN(False-Negative)等多项指标进行综合分析判断。

(2)登陆数据所能提供的特征较少。当前某些检测技术将某些特征进行统计整合构成新特征。但新特征属性是否适用于当前场景，能发挥何种效能，能否提高准确率等都有待进一步的测试和研究。

(3)实时性较差。当前某些检测技术采用一段时间内的各项统计特征作为算法的输入。因此，在某些需要进行实时登陆行为检测的场景下并不适用。并且在实际场景下，对于一个大型服务提供者，用户的登陆行为是海量的，如何及时的处理，统计用户的登陆数据也是当前异常登陆行为检测系统存在的问题。

(4)泛用性问题。整个互联网中的服务提供者对于用户登陆行为可能会进行各自不同的拓展。在基础的四元组和时间等数据的基础上，某些服务提供者可能会记录连接设备信息，某些服务提供者可能会记录登录失败的次数。因此，异常登陆行为检测需要考虑到自身的泛用性，来确保自身的可移植性。

发明内容

本发明所要解决的技术问题是提供基于登录IP和登录时间的异常登录行为检测识别方法，解决现有的异常行为检测方法存在的泛用性不足、特征选择不合理的技术问题，能够快速有效的分析出异常的登陆行为。

本发明的技术方案具体如下：

一种基于登录IP和登陆时间的异常登陆行为检测系统，包括采集器和处理器；

采集器采集用户登录日志中的登录IP数据和登陆时间数据；

处理器采用局部离群因子算法获取各登录时间数据值的异常得分，利用PCA降维将IP数据进行降维处理，利用GMM高斯混合模型获取各登陆IP数据的异常得分，然后利用Robust标准化消除量纲影响，保留离群点，通过加权平均获取总异常得分，通过总异常得分判断登陆行为的正确性。

进一步地，对于给定登录日志数据，采集器截取登录IP数据和登录时间数据样本；样本数据较少时，基于样本数据包构造包含大量正样本和少量负样本的数据集。

进一步地，处理器对IP数据进行拆分，将点分十进制IP数据拆分为四个域；前8位提取为第一域，8-16位提取为第二域，16-24位提取为第三域，24-32提取为第四域，将拆分提取到的四维向量作为每一条用户登录数据的IP特征向量；然后，使用PCA对IP特征向量中的四个域进行降维处理，在保留原有信息的情况下将其由四维度重新组合为互相不相关的二维综合向量。

进一步地，采用了贝叶斯高斯混合模型进行训练分析，具体如下：

首先选取不同的组件作为集群参数，并且采用不同的协方差参数进行训练；利用贝叶斯信息量准则，计算出之前采用不同参数的模型的所有贝叶斯信息量值，采用贝叶斯信息量最小值所对应的参数作为模型最优参数，采用最优参数进行模型的训练，最后计算获取到每个数据的异常指数作为IP异常指数。

进一步地，处理器将提取登陆时间数据作为异常处理的输入，将标准形式登陆日期和时间格式数据进行处理，从中提取出小时数和分钟数进行组合，利用局部离群因子算法思想依次对数据进行处理；

根据时间数据的特征，定义新型距离函数来确定时间数据之间的时间距离，新型距离函数定义如下：

其中TimeA和TimeB分别代表两个时间点；

使用新型距离函数获取测试数据的可达距离，然后通过可达距离获取可达密度，从而计算得到测试时间点在当前测试集当中的异常得分。

进一步地，采用交叉验证法，针对当前的局部离群因子算法进行验证和优化；对之前获取到的登陆时间异常得分和登录IP异常得分Robust标准化。

本发明涉及一种基于登录IP和登陆时间的异常登陆行为检测系统，包括如下步骤：

步骤(1)对于给定登录日志数据，截取登录IP数据和登录时间数据样本；

步骤(2)对IP数据进行拆分，将点分十进制IP数据拆分为四个域；然后，使用主成分分析方法对IP特征向量中的四个域进行降维处理，在保留原有信息的情况下将其由四维度重新组合为互相不相关的二维综合向量；

步骤(3)对于使用主成分分析方法降维后的二维综合向量使用GMM高斯混合模型进行训练分析；

步骤(4)提取登陆时间数据作为异常处理的输入；将标准形式登陆日期和时间格式数据进行处理，从中提取出小时数和分钟数进行组合；利用局部离群因子算法思想依次对数据进行处理；根据时间数据的特征，定义距离函数来确定时间数据之间的时间距离，使用距离函数获取测试数据的可达距离与可达密度，从而计算得到测试时间点在当前测试集当中的异常得分；

步骤(5)对之前获取到的登陆时间异常得分和登录IP异常得分采用Robust标准化。

本发明基本思想是提取用户登录日志中的登录IP数据和登陆时间数据作为输入数据，然后对登陆时间数据采用局部离群因子算法获取各登录时间数据值的异常得分，利用PCA降维将IP数据进行降维处理，利用GMM高斯混合模型获取各登陆IP数据的异常得分，然后利用Robust标准化消除量纲影响，保留离群点，通过加权平均获取总异常得分，通过总异常得分判断登陆行为的正确性。本发明充分利用了登录日志中包含的特征，解决了单一特征分析和特征选择不合理的问题。

与现有技术相比，本发明的有益效果具体如下：

(1)本发明具有泛用性，只需要利用登陆日志中的基础数据—登录IP地址，登陆时间作为输入；

(2)本发明充分利用了登陆特征，并且采用了多特征方式，对登录日志中的特征进行了有效利用，避免使用了其他不具备登陆行为代表性的无效特征。

附图说明

图1是本实施例的系统框图；

图2是本实施例的检测方法的流程图；

图3是本实施例的LOF异常得分结果；

图4是本实施例的GMM异常得分结果；

图5是Robust标准化后结果。

具体实施方式

下面将结合本申请实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另外定义，本申请实施例中使用的技术术语或者科学术语应当为所属领域内具有一般技能的人士所理解的通常意义。本实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。“上”、“下”、“左”、“右”、“横”以及“竖”等仅用于相对于附图中的部件的方位而言的，这些方向性术语是相对的概念，它们用于相对于的描述和澄清，其可以根据附图中的部件所放置的方位的变化而相应地发生变化。

如图1、2所示，本实施例的基于登录IP和登陆时间的异常登陆行为检测系统，包括输入端、采集器、控制器、报警器和显示器。

采集器采集用户登录日志中的登录IP数据和登陆时间数据。

显示器显示采集器采集的信息、输入的信息以及最终判定结果；报警器接收处理器的报警信号进行报警。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application specific integrated circuit，ASIC)，或，一个或多个微处理器(Digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(Field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在可读存储介质中，或者从一个可读存储介质向另一个可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid state disk(SSD))等。

如图2所示，本实施例的基于登录IP和登陆时间的异常登陆行为检测系统，具体包括如下步骤：

步骤1：对于给定登录日志数据，截取登录IP数据和登录时间数据样本。

样本数据较少时，基于样本数据包构造包含大量正样本和少量负样本的数据集。

步骤2：对IP数据进行拆分，将点分十进制IP数据拆分为四个域。

前8位提取为第一域，8-16位提取为第二域，16-24位提取为第三域，24-32提取为第四域，将拆分提取到的四维向量作为每一条用户登录数据的IP特征向量。然后，使用PCA(主成分分析)方法对IP特征向量中的四个域进行降维处理，在保留原有信息的情况下将其由四维度重新组合为互相不相关的二维综合向量。

步骤3：对于使用PCA(主成分分析)方法降维后的二维综合向量使用GMM高斯混合模型进行训练分析。

本发明采用了贝叶斯高斯混合模型。首先选取不同的Component(组件)作为cluster(集群)参数，并且采用不同的covariance(协方差)参数去进行训练。

利用BIC(贝叶斯信息量)准则的思想，计算出之前采用不同参数的模型的所有BIC值，采用BIC最小值所对应的参数作为模型最优参数，采用最优参数进行模型的训练。最后计算获取到每个数据的异常指数作为IP异常指数。

步骤4：提取登陆时间数据作为异常处理的输入。

将标准形式登陆日期和时间格式数据进行处理，从中提取出小时数和分钟数进行组合。利用局部离群因子算法思想依次对数据进行处理。根据时间数据的特征，定义新型距离函数来确定时间数据之间的时间距离，使用新型距离函数获取测试数据的可达距离与可达密度，从而计算得到测试时间点在当前测试集当中的异常得分。

距离函数公式如下

其中TimeA和TimeB分别代表两个时间点，时间点单位为小时，类型为浮点类型。

采用交叉验证法，针对当前的局部离群因子算法进行验证和优化。

交叉验证法是主要用于估计一个预测模型在实际数据应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。其基本思想是首先在一个子集上做训练，而其它子集则用来做后续对此分析的确认及验证。

交叉验证将样本数据集分成两个互补的子集，一个子集用于训练分类器或模型；另一个子集用于验证训练出的分类器或模型是否有效。测试的结果作为分类器或模型的性能指标。通过交叉验证法，使用不同的邻域点数量和测试集作为局部离群因子算法的K值和输入数据，计算比较出最优的K值。

步骤5：对之前获取到的登陆时间异常得分和登录IP异常得分采用Robust标准化。标准化的基本思想是将数据按比例缩放，使其落入一个较小的特定区间，取出数据的单位限制，并且将其转化为无量纲的纯数值，以便于不同单位或量级的指标能够进行比较和加权平均。当数据集中存在离群点的情况下使用Robust标准化能保证数据集的离群特征不丢失，在数据集中有离群点的情况下对数据的缩放健壮性有更强的控制能力。对进行Robust标准化后的异常IP得分与异常时间得分进行加权平均。之后通过设置阈值来确定各个测试数据最终是否异常。

针对本方法进行了如下实验:

获取在服务器上收集到历史流量信息，辅以人工标记错误数据作为异常数据集的扩展。

实验步骤和结果如下：

首先对登录日志数据集提取登陆时间数据，除去日期数据保留时分秒精准时间数据，将其转化为浮点类型。对于时间数据使用LOF算法获取每个数据项的异常得分，如图3所示。然后采用交叉验证法进行验证和优化。

然后从登录日志数据集中提取登录IP数据，将点分十进制登录IP数据拆分成4个域。根据数点，将前8位，第8-16位，第16-24位，第24-32位分别作为第一域、第二域、第三域和第四域。拆分后对每一个数据项得到其4维IP向量。针对4维向量使用PCA方法将其降维为二维向量。然后针对降维后的二维综合向量进行GMM训练。训练过程中，使用BIC准则去针对不同的Component、不同的covariance进行比较分析，选择BIC最小的模型参数作为优选参数。通过此模型获取登录IP的异常得分信息，如图4所示。

最后将两者的得分结果通过Robust标准化来消除量纲影响进行数据混合，如图5所示。

根据实验结果和数据集中的预设数据标签等进行人工比对等方法可以证明通过本实验，本实施例能够有效地判断用户登录行为是否异常。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于登录IP和登陆时间的异常登陆行为检测系统，其特征在于：包括采集器和处理器；

采集器采集用户登录日志中的登录IP数据和登陆时间数据；

2.根据权利要求1所述的系统，其特征在于：对于给定登录日志数据，采集器截取登录IP数据和登录时间数据样本；样本数据较少时，基于样本数据包构造包含大量正样本和少量负样本的数据集。

3.根据权利要求1所述的系统，其特征在于：处理器对IP数据进行拆分，将点分十进制IP数据拆分为四个域；前8位提取为第一域，8-16位提取为第二域，16-24位提取为第三域，24-32提取为第四域，将拆分提取到的四维向量作为每一条用户登录数据的IP特征向量；然后，使用PCA对IP特征向量中的四个域进行降维处理，在保留原有信息的情况下将其由四维度重新组合为互相不相关的二维综合向量。

4.根据权利要求1所述的系统，其特征在于：采用了贝叶斯高斯混合模型进行训练分析，具体如下：

5.根据权利要求1所述的系统，其特征在于：处理器将提取登陆时间数据作为异常处理的输入，将标准形式登陆日期和时间格式数据进行处理，从中提取出小时数和分钟数进行组合，利用局部离群因子算法思想依次对数据进行处理；

其中TimeA和TimeB分别代表两个时间点；

6.根据权利要求5所述的系统，其特征在于：采用交叉验证法，针对当前的局部离群因子算法进行验证和优化；对之前获取到的登陆时间异常得分和登录IP异常得分Robust标准化。

7.一种基于登录IP和登陆时间的异常登陆行为检测系统，其特征在于：包括如下步骤：