CN107070940A

CN107070940A - 一种从流式登录日志中判断恶意登录ip地址的方法及装置

Info

Publication number: CN107070940A
Application number: CN201710303158.XA
Authority: CN
Inventors: 王嘉伟
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2017-08-18
Anticipated expiration: 2037-05-03
Also published as: CN107070940B

Abstract

本发明实施例提供一种从流式登录日志中判断恶意登录IP地址的方法及装置。方法包括：获取流式登录日志；对流式登录日志进行数据格式的处理；将已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，并将未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对未确认IP地址类型的流式数据的判断结果。本发明由于采用了有增量学习功能的逻辑回归的方法，找出恶意发出登陆请求的IP地址所需要的人工工作量大大的减少了，且没有阈值的设置，不易被外界猜中。并且，增量学习使得模型的实时性进一步增加，使用内存更少，且判断更加准确。

Description

一种从流式登录日志中判断恶意登录IP地址的方法及装置

技术领域

本发明涉及互联网数据的处理领域，尤其涉及一种从流式登录日志中判断恶意登录IP地址的方法及装置。

背景技术

在网站管理的过程中，日志管理员需要从日志文件中判断出哪些IP地址属于恶意发送登录请求。日志文件属于流式数据，量大且易流失。

通常，日志检查者通过统计IP地址发出的请求数量、登录帐号的个数和自身经验来人为判断出哪些IP地址属于恶意发送登录请求；而对于大型网站或者庞大的帐号系统，一般采用流式数据统计和固定规则的方法，即每小时统计一小时内各IP的请求数量，登录帐号数量等数据，依据一定的数学规则，对数据进行计算之后，根据阈值确定发出恶意登录请求的IP地址。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：人为判断的工作量极大，需要的人数和设备都比较多，并且属于重复性劳动，效果也并不好；采用流式数据统计和固定规则的方法十分依赖数学规则和固定的阈值，易被外部猜中从而使此规则失效，且此规则易误伤非恶意IP地址。

发明内容

本发明实施例提供一种从流式登录日志中判断恶意登录IP地址的方法及装置，以克服现有的判断方法效率低下且容易被破解的问题。

一方面，本发明实施例提供了一种从流式登录日志中判断恶意登录IP地址的方法，所述方法包括：

获取流式登录日志；

对所述流式登录日志进行数据格式的处理，数据格式处理后的流式登录日志中包括已确认IP地址类型的流式数据和未确认IP地址类型的流式数据；

将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，并将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果。

另一方面，本发明实施例提供了一种从流式登录日志中判断恶意登录IP地址的装置，所述装置包括：

流式日志获取单元，用于获取流式登录日志；

数据格式处理单元，用于对所述流式登录日志进行数据格式的处理，数据格式处理后的流式登录日志中包括已确认IP地址类型的流式数据和未确认IP地址类型的流式数据；

模型更新单元，用于将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型；

IP地址类型判断单元，用于将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果。

上述技术方案具有如下有益效果：由于采用了有增量学习功能的逻辑回归的方法，找出恶意发出登陆请求的IP地址所需要的人工工作量大大的减少了，且没有阈值的设置，不易被外界猜中。并且，随着处理的数据量的增大，逻辑回归的预测将会越来越准确。在有增量学习功能之后，逻辑回归模型能够处理流式数据，相对于普通逻辑回归模型来说，增量学习使得模型的实时性进一步增加，使用内存更少，且判断更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的从流式登录日志中判断恶意登录IP地址的方法流程图；

图2为本发明实施例的从流式登录日志中判断恶意登录IP地址的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所涉及的术语包括：

流式登陆日志：每个用户的实时登陆行为所产生的实时性较强的登陆日志，其特点是易流失，量大。

增量学习：每当新增数据时，并不需要重建所有的知识库，而是在原有知识库的基础上，仅做由于新增数据所引起的更新。

逻辑回归：一种回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。这种模型拥有学习能力，在用数据对逻辑回归模型进行训练之后，逻辑回归模型能够根据已有的数据进行概率预测或是非判断。

本发明利用增量学习逻辑回归功能来寻找分散在流式登陆日志文件中的关键信息---发出恶意登陆请求的IP地址。逻辑回归具有学习能力，输入的数据越多且时效性越强，最后结果越准确。本发明使用流式数据来训练一个增量学习逻辑回归模型，增量学习模型的一大特点是在任意时间均能对要测试的数据进行学习或判断。

如图1所示，为本发明实施例的从流式登录日志中判断恶意登录IP地址的方法流程图，所述方法包括：

步骤S101，获取流式登录日志；

步骤S102，对所述流式登录日志进行数据格式的处理，数据格式处理后的流式登录日志中包括已确认IP地址类型的流式数据和未确认IP地址类型的流式数据；

步骤S103，将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，并将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果。

具体实施时，在步骤S101中，获取流式登录日志即实时获取特定时间内的网站用户的登录记录。用户的每次登陆都会产生一条记录，所述登录记录中记录有登录时间、登录方式、登录设备、登录地址、登录浏览器、登录请求时长、登录结果、登录账号等信息。

具体实施时，在步骤S102中，对所述流式登录日志进行数据格式的处理，即对流式登录日志进行规范化处理，将日志数据变成后续的增量学习逻辑回归模型所能接受的数据格式。其中，规范化处理即意味着对每一条登陆纪录，以0或1代表登陆记录中的属性。例如，请求时长是否大于1秒，若是则这条属性以1表示，反之则用0表示。再例如，此次登录是否为iPhone登陆，1代表是，0代表不是。规范化处理的意义在于把日志文件数据转变成增量学习逻辑回归模型可接受的数字型数据，然后可以设定每秒请求当前的登陆日志。

具体实施时，在步骤S103中，所述将已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，包括：

采用梯度下降法对所述增量学习逻辑回归模型进行训练，采用的公式为：

其中，α为一常数，表示学习率；

为所述已确认IP地址类型的流式数据；

表示将已确认IP地址类型的流式数据x_i代入计算，所得到的对所述流式数据x_i的IP地址类型的估计值，数值范围为0到1；

y_i为所述已确认IP地址类型的流式数据x_i的IP地址的类型，1表示异常，0表示正常；

m为所述已确认IP地址类型的流式数据的条数，对每一条流式数据都执行一次上述公式的计算，得到更新后的一组参数θ，该组参数θ使得更新后的增量学习逻辑回归模型的判断结果符合训练数据的真实结果。

当然，在进行模型训练之前，需要建立一个初始的增量学习逻辑回归模型。在本发明一个实施例中，可以预先收集已经确定了IP地址类型的1000份流式日志，然后利用梯度下降法建立初始模型。在计算初始模型的梯度下降法中，采用的公式同样为式(1)，即：

但是，在计算初始模型的该式中，m的含义与式(1)中的m的含义是不同的，此式中的m表示预先收集的1000份流式日志中所有有结果的数据点数。然后，对每一个θ的分量不断执行该式，如此，所有的θ会收敛于全局最优解。也就是说，当训练完成后，得到的是最符合训练集的参数组θ，即建立了初始的增量学习逻辑回归模型。

在第一次获取特定时间内(例如1秒内)的流式登录日志时，利用该第一次获取的1秒内的流式登录日志中的已确定IP地址类型的数据对初始的增量学习逻辑回归模型进行训练，得到第一次更新后的增量学习逻辑回归模型；同样，如果需要判断第N次获取的1秒内的流式登录日志内的IP地址类型，则利用该第N次获取的1秒内的流式登录日志中的已确定IP地址类型的数据对第N-1次训练得到的增量学习逻辑回归模型进行训练，得到第N次更新后的增量学习逻辑回归模型。并且，在对增量学习逻辑回归模型进行训练后，可以将使用完的流式数据立即删除，故不占用内存空间。因此，可以看出，在有增量学习功能之后，逻辑回归模型能够处理流式数据；并且相对普通逻辑回归模型来说，增量学习使得模型的实时性进一步增加，使用内存更少，且更准确。

具体实施时，在步骤S103中，将未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果，即将所述未确认IP地址类型的流式数据放到所述增量学习逻辑回归模型的计算公式中进行计算，所述增量学习逻辑回归模型的计算公式为：

式(2)中，x表示所述未确认IP地址类型的流式数据；

h_θ(x)表示根据所述未确认IP地址类型的流式数据x，所得到的对所述流式数据x的IP地址类型的估计值；

θ表示训练所述增量学习逻辑回归模型得到的一组参数，该组参数使得模型的结果h_θ(x)尽量符合训练数据的结果。

将未确认IP地址类型的流式数据x带入h_θ(x)的表达式，即得到对该流式数据的判断结果，如果结果越接近0则越正常，越接近1则越异常。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

在介绍了本发明示例性实施方式的方法之后，接下来，参考图2对本发明示例性实施方式的从流式登录日志中判断恶意登录IP地址的装置进行介绍。该装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的术语“模块”和“单元”，可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2为本发明实施例的从流式登录日志中判断恶意登录IP地址的装置的结构示意图。如图2所示，包括：

流式日志获取单元201，用于获取流式登录日志；

数据格式处理单元202，用于对所述流式登录日志进行数据格式的处理，数据格式处理后的流式登录日志中包括已确认IP地址类型的流式数据和未确认IP地址类型的流式数据；

模型更新单元203，用于将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型；

IP地址类型判断单元204，用于将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果。

具体实施时，所述流式日志获取单元201用于获取流式登录日志，其具体包括：实时获取特定时间内的网站用户的流式登录日志，所述流式登录日志中记录的信息包括：登录时间、登录方式、登录设备、登录地址、登录浏览器、登录请求时长、登录结果、登录账号。

具体实施时，所述数据格式处理单元202用于对所述流式登录日志进行数据格式的处理，包括：将所述流式登录日志中记录的信息采用数值型数据进行表示。

具体实施时，所述模型更新单元203用于将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，其具体包括：

其中，α为一常数，表示学习率；

为所述已确认IP地址类型的流式数据；

具体实施时，所述IP地址类型判断单元204用于将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果，包括：

将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型的计算公式中进行计算，所述更新后的增量学习逻辑回归模型的计算公式为：

其中，x表示所述未确认IP地址类型的流式数据；

θ表示通过训练数据所得到的更新后的增量学习逻辑回归模型的一组参数。

下面用一个具体例子来说明上述技术方案。

每一条有结果的日志能产生的数据点维度数量为2，则可以用数据点(x1，x2)(y)来表示一条日志，(前方括号即向量x的各个分量，后方括号内即公式中的y，1表示异常，0表示正常)。又假设每份流式数据平均有4条有结果日志。比如说(1，0)(0)，(2，1)(1)，(0，1)(0)，(1，2)(1)是一份流式日志的数据点(4个数据点)。预构建模型步骤中，先收集1000份流式日志，再用上述格式表示这些日志中有结果的日志，所得结果数据点的总数量即为m(m约等于4000)。把这m个数据点代入式(1)中计算向量θ的各个分量。接下来不断执行代入式(1)的操作直到θ的每个分量都变化不大为止。此时得到的θ非常接近理论最优值θ(此例中，若1000份流式日志数据相同，θ应接近(1，1，2)，θ的维度数量为x维度数量+1)。

完成预构建模型步骤之后，对于之后每次的流式数据都用数据点来表示。每接一次流式日志，就把其中数据点代入式(1)，其中的m为本次流式日志中有效数据点的个数。这个代入式(1)的操作需进行的次数较少(一般为1次)，完成后便得到了更新之后的θ。

当有要判断的日志时，将其向量化为未知数据点(x1，x2)(？)，代入式(2)计算得到对该条日志的判断结果h_θ(x)。比如要判断(5，5)，代入式(2)，计算所得结果非常接近1(异常)。

本发明实施例的从流式登录日志中判断恶意登录IP地址的方法及装置，由于采用了有增量学习功能的逻辑回归的方法，找出恶意发出登陆请求的IP地址所需要的人工工作量大大的减少了，且没有阈值的设置，不易被外界猜中。并且，随着处理的数据量的增大，逻辑回归的预测将会越来越准确。在有增量学习功能之后，逻辑回归模型能够处理流式数据，相对于普通逻辑回归模型来说，增量学习使得模型的实时性进一步增加，使用内存更少，且判断更加准确。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从流式登录日志中判断恶意登录IP地址的方法，其特征在于，包括：

获取流式登录日志；

2.根据权利要求1所述的从流式登录日志中挖掘恶意登录IP地址的方法，其特征在于，所述获取流式登录日志，包括：

实时获取特定时间内的网站用户的流式登录日志，所述流式登录日志中记录的信息包括：登录时间、登录方式、登录设备、登录地址、登录浏览器、登录请求时长、登录结果、登录账号。

3.根据权利要求2所述的从流式登录日志中挖掘恶意登录IP地址的方法，其特征在于，所述对所述流式登录日志进行数据格式的处理，包括：

将所述流式登录日志中记录的信息采用数值型数据进行表示。

4.根据权利要求1所述的从流式登录日志中挖掘恶意登录IP地址的方法，其特征在于，所述将已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，包括：

其中，α为一常数，表示学习率；

为所述已确认IP地址类型的流式数据；

5.根据权利要求1所述的从流式登录日志中挖掘恶意登录IP地址的方法，其特征在于，所述将未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果，包括：

其中，x表示所述未确认IP地址类型的流式数据；

6.一种从流式登录日志中判断恶意登录IP地址的装置，其特征在于，包括：

流式日志获取单元，用于获取流式登录日志；

7.根据权利要求6所述的从流式登录日志中挖掘恶意登录IP地址的装置，其特征在于，所述流式日志获取单元用于获取流式登录日志，其具体包括：

8.根据权利要求7所述的从流式登录日志中挖掘恶意登录IP地址的方法，其特征在于，所述数据格式处理单元用于对所述流式登录日志进行数据格式的处理，包括：

9.根据权利要求6所述的从流式登录日志中挖掘恶意登录IP地址的装置，其特征在于，所述模型更新单元用于将所述已确认IP地址类型的流式数据作为训练数据发送到增量学习逻辑回归模型中进行训练，得到更新后的增量学习逻辑回归模型，其具体包括：

<mrow> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>:</mo> <mo>=</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>-</mo> <mi>&alpha;</mi> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>;</mo> </mrow>

其中，α为一常数，表示学习率；

为所述已确认IP地址类型的流式数据；

10.根据权利要求6所述的从流式登录日志中挖掘恶意登录IP地址的装置，其特征在于，所述IP地址类型判断单元用于将所述未确认IP地址类型的流式数据发送到更新后的增量学习逻辑回归模型中进行是否为恶意登录IP地址的判断，得到对所述未确认IP地址类型的流式数据的判断结果，包括：

其中，x表示所述未确认IP地址类型的流式数据；