CN112839014B

CN112839014B - 建立识别异常访问者模型的方法、系统、设备及介质

Info

Publication number: CN112839014B
Application number: CN201911159637.4A
Authority: CN
Inventors: 潘廷珅; 丛磊
Original assignee: Beijing Shuan Xinyun Information Technology Co ltd
Current assignee: Beijing Shuan Xinyun Information Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-09-22
Anticipated expiration: 2039-11-22
Also published as: CN112839014A

Abstract

本发明公开了一种建立识别异常访问者模型的方法、系统、设备及介质，方法包括建立通用识别模型的方法，建立通用识别模型的方法包括特征计算步骤，特征计算步骤包括以下获取特征值的方法中的至少一种：计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user‑agent的去重个数与该用户的全部页面浏览量的比值作为特征值，由于使用新的特征值建立识别异常访问者模型，提高了识别异常访问者模型的通用性和识别准确性，有效防止误判。

Description

建立识别异常访问者模型的方法、系统、设备及介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种建立识别异常访问者模型的方法、系统、设备及介质。

背景技术

随着网络应用的不断发展，互联网在人们的日常工作和生活中扮演着越来越重要的角色。互联网技术的不断发展，使得网络中的不安全因素也在不断增加，来自恶意IP地址的恶意访问容易造成网络服务器瘫痪，严重影响网络服务提供商的服务质量，进而影响用户使用。

为了阻止来自恶意IP地址的恶意访问，现有技术中采用网络异常访问者检测技术识别恶意IP地址。即，通过Web日志进行数据挖掘，使用用户历史访问的Web日志进行建模，构建用户的画像，运用机器学习算法，从Web日志中分析出异常用户行为，确定恶意IP地址。

在建立识别恶意IP地址模型的过程中，需要使用用户行为特征构建模型，现有的根据历史访问的Web日志，建立识别异常访问者模型的过程中用到的特征维度不够全面，造成建立的模型在识别用户使用多个IP进行恶意攻击行为、用户访问请求的时间规律、用户使用多个user-agent进行恶意访问等情况的准确率低，对多源低频的场景识别能力不足，进而导致识别异常IP的召回率不高，造成使用识别异常访问者模型对异常访问者进行识别过程中，存在一定的误判问题。

发明内容

为了解决上述技术问题，本发明提供了一种建立识别异常访问者模型的方法、系统、设备及介质。

本发明提供的建立识别异常访问者模型的方法，包括建立通用识别模型的方法，所述建立通用识别模型的方法包括特征计算步骤，所述特征计算步骤包括以下获取特征值的方法中的至少一种：

计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。

上述建立识别异常访问者模型的方法还具有以下特点：所述建立通用识别模型的方法还包括：

对所述特征值进行处理，依据用户行为特征构建特征向量；

对所述特征向量的数值特征进行0-1标准化数据处理，并传输给决策树分类器；

所述决策树分类器输出与所述特征值对应的判定值。

上述建立识别异常访问者模型的方法还具有以下特点：所述识别异常访问者模型包括以下识别方法中的至少一种：

方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值，则具有相同的所述预设字段的IP地址为异常IP；

方法二、预定时长内日志中记载的来自同一个IP地址的两次请求之间的时间方差小于或等于判定值，则该IP地址为异常IP；

方法三、预定时长内日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值大于或等于判定值，则该用户为异常用户。

上述建立识别异常访问者模型的方法还具有以下特点：所述建立识别异常访问者模型的方法还包括建立样本识别模型的方法，所述建立样本识别模型的方法包括标记样本的步骤，所述标记样本的步骤包括：

获取每个url_pattern在第一预设时间段内的页面浏览量，以及访问该url_pattern的去重后的IP地址数量；

根据每个所述url_pattern对应的页面浏览量和所述去重后的IP地址数量，确定危险url_pattern；

获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数；

根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数，确定出现异常访问的IP地址，将所述出现异常访问的IP地址标记为正样本。

上述建立识别异常访问者模型的方法还具有以下特点：所述建立样本识别模型的方法包括：

将负样本和所述正样本输入至决策树分类器中；

所述决策树分类器进行训练并输出结果；

选取所述输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。

本发明提供的建立识别异常访问者模型的系统，包括用于建立通用识别模型的第一子系统，所述第一子系统包括计算模块，

所述计算模块，用于执行以下获取特征值的方法中的至少一种：

上述系统还具有以下特点：所述第一子系统还包括：

转换模块，用于对所述特征值进行处理，依据用户行为特征构建特征向量；

标准化处理模块，对所述特征向量的数值特征进行0-1标准化数据处理，并传输给决策树分类器；

输出模块，用于输出与所述特征值对应的判定值。

上述系统还具有以下特点：所述建立异常识别访问者的模型的系统包括：

模型确定模块，用于确定所述识别异常访问者模型包括以下识别方法中的至少一种：

上述系统还具有以下特点：所述建立识别异常访问者模型的系统包括用于建立样本识别模型的第二子系统，所述第二子系统包括：

获取单元，用于获取每个url_pattern在第一预设时间段内的页面浏览量，以及访问该url_pattern的去重后的IP地址数量；

计算单元，用于根据每个所述url_pattern对应的所述页面浏览量和所述去重后的IP地址数量，确定危险url_pattern；

所述获取单元，还用于获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数；

所述计算单元，还用于根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数，确定出现异常访问的IP地址；

标记单元，用于将所述出现异常访问的IP地址标记为正样本。

上述系统还具有以下特点：所述第二子系统还包括：

输入单元，用于将负样本和所述正样本输入至决策树分类器中；

选取单元，用于选取所述决策树分类器的输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。

本发明提供的传输设备，所述传输设备包括：收发器、存储器、处理器；

所述收发器用于收发报文；

所述存储器用于存储指令和数据；

所述处理器用于读取所述存储器中存储的指令和数据，以执行如上所述的建立识别异常访问者模型的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述程序被处理器执行时实现如上所述的建立识别异常访问者模型的方法。

本发明中的建立识别异常访问者模型的方法中增加了获取新的特征值的方法，并使用新的特征值建立识别异常访问者模型，提高了识别异常访问者模型的通用性和识别准确性，有效防止误判。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是实施例中的建立通用识别模型的方法的特征计算步骤的流程示意图；

图2是实施例中的建立样本识别模型的方法的标记样本的步骤的流程示意图；

图3是实施例中的第一子系统的连接结构示意图；

图4是实施例中的第二子系统的连接结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本申请提供了一种建立识别异常访问者模型的方法，包括建立通用识别模型的方法，建立通用识别模型的方法相比现有技术的已经使用的特征值增加了新的特征值，进一步提高了识别异常访问者模型的通用性和识别准确性，有效防止误判。

本发明中的建立通用识别模型的方法包括特征计算步骤，如图1所示，特征计算步骤包括以下获取特征值的方法中的至少一种：

可以理解的是，在获取特征值时可以在现有特征值选取方法的基础上增加上述三个方法中的任意一个方法，也可以增加上述三个方法中的任意两个方法，还可以是在一个相关的建立通用识别模型的方法的基础上增加上述三个获取特征值的方法，以确保建立的通用识别模型具有较好的通用性，进一步降低误判率。其中，计算的具体方式没有限定，一种比较简单的计算方法是使用统计学方法对预设日志中记载的内容进行统计，预设日志是被异常用户或者异常IP地址攻击过的Web日志，当然也可以是比如服务器日志等其他有会受到攻击的设备的日志，。预设时间是指url或者服务器受到异常用户或者异常IP地址攻击的时间段，在该预设时间内Web日志或者服务器日志会记录被攻击的情况。本发明以Web日志为例，对建立识别异访问者模型的方法进行详细说明。

需要说明的是，上述建立通用识别模型的方法中选取的用于建立模型的特征值不仅限于上述三种特征值，还包括现有技术中已经存在的特征值，即，在相关的识别异常访问者模型中已经存在的特征值的基础上，增加上述三种获取特征值的方法中的至少一种，以获得用于建立通用识别模型的新特征值。现有技术中的已经被用于建立通用识别模型的特征值包括：用户的页面浏览量、非工作时间访问时长、错误编码占比、refer的占空比、Head请求数占比、请求不同url个数等。由于上述特征值已经被广泛应用，因此，上述特征值的获取方法，以及使用上述特征值进行异常访问者识别的方法也都是现有技术，在此不再赘述。

进一步地，建立通用识别模型的方法还包括：

对特征值进行处理，依据用户行为特征构建特征向量；

对特征向量的数值特征进行0-1标准化数据处理，并传输给决策树分类器；

决策树分类器输出与特征值对应的判定值。

本发明新增加的上述获取特征值的方法所获得的特征值均为数值型，即，特征值的计算结果为具体的数值。本申请中增加的特征值相当于增加了对异常访问用于进行识别的维度，在相关的识别模型汇的特征值的基础上增加本申请中新增的特征值，可以从更多的维度对异常访问进行识别。在对多个特征值进行组合时，对特征值进行处理，依据异常访问者的用户行为特征构建特征向量，在对特征值进行处理时，使用的是现有技术中常用的处理手段，均为现有技术，在此不再赘述。为了便于使用决策树分类器进行通用识别模型建立，需要对特征向量的数值特征值进行0-1标准化数据处理，并传输给决策树分类器，以适用于不同的web日志，增加建立出的通用识别模型的通用性。确定特征向量和对特征向量的数值特征进行0-1标准化数据处理是比较成熟的现有技术，在此不再赘述。优选地，在实施过程中使用Adaboost模型默认的决策树分类器，并且根据需要对建立模型过程中使用到的参数进行调节。Adaboost模型是一种现有的迭代算法模型，当特征向量的数值特征经过0-1标准化数据处理后，输入至模型中，该模型会自动进行迭代计算，最终输出与输入的特征值对应的判定值，输入的特征值不同，Adaboost模型的决策树分类器最终输出的对应的判定值也不同，判定值与特征值一一对应。特征值作为进行判定的参数，与特征值对应的判定值用于判定用户或者IP地址是否为异常用户或者异常IP。

在获得了判定值后，识别异常访问者模型包括以下识别方法中的至少一种：

方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值，则具有相同的预设字段的IP地址为异常IP；

由于特征值为数值型，因此获得的与特征值对应的判定值也为数值型，使用建立出的识别异常访问者模型进行异常访问者识别时，以上述特征值为参数与判定值进行数值大小的比较，并最终根据上述判定方法确定是否为异常用户或者异常IP。

其中，在方法一中，预设字段为IP地址的B段和C段，IP地址中预设字段相同是指IP地址的B段或C段相同。例如，IP地址为123.456.78.60，则该IP地址的A段为123，B段为123.456，C段为123.456.78。当B段或者C段相同时，均认为是具有预设字段相同的IP地址。当Web日志中记载的访问用户的IP地址中的B段或者C段相同的IP地址数量较多时，说明有可能是团伙使用连续的IP地址进行恶意攻击。在一个具体的实施例中，判定值为10，在1分钟内，日志中记载的100个IP地址中B段或C段相同的IP地址的数量为80个，80大于判定值10，因此，具有相同的B段或C段的IP地址均为异常IP。

在方法二中，由于一般的用户使用一个IP地址进行两次访问请求之间的间隔时间比较随机，而异常用户进行两次访问请求比较有规律，一般用户两个请求之间的时间方差比异常用户使用一个IP地址发出两次请求之间的时间方差要大，因此，当一个IP地址的两次请求之间的间隔时间的方差较小时，说明这个IP地址为异常IP地址，该方法通过充分利用时间间隔方差的维度数据，提高识别异常IP地址的准确率。在一个具体的实施例中，方法二中的判定值为2,1分钟内日志中记载的来自同一个IP地址的两次请求之间的时间方差为0.5，0.5小于判定值2，则该IP地址为异常IP。

在方法三中，用户的user-agent的去重个数是指，比如在10分钟内，用户使用了第一个user-agent的次数为10次，使用了第二个user-agent的次数为20次，则用户的user-agent的去重个数为2。该用户在10分钟内的全部页面浏览量可以包括重复的页面浏览次数。在一个具体的实施例中，该方法中的判定值为0.1，用户的user-agent的去重个数为10，该用户的全部页面浏览量为50，用户的user-agent的去重个数与该用户的全部页面浏览量的比值为0.2,0.2大于判定值0.1，说明该用户为异常用户，因为正常的用户不会大量使用user-agent进行访问，因此，当比值越大，说明是异常用户的可能性越大，通过统计用户使用多个user-agent进行恶意访问等情况，进一步提高识别一个用户使用多个user-agent进行的恶意行为的准确率。其中，上述特征值中涉及到的用户，可以理解为一个用户对应一个IP地址，其本质相当于是异常访问的IP地址的特征值。

通过上述方法建立的识别异常访问者模型在对异常访问者进行识别过程中，既能够识别出异常访问IP，又能够识别出异常访问用户。且由于在一个相关的用于进行异常访问者识别模型具有的特征值基础上，新增加了新的特征值，以从更多的维度对异常访问者进行识别，从而进一步提高了识别异常访问者模型的识别准确性，减少误判。

进一步地，建立识别异常访问者模型的方法还包括建立样本识别模型的方法，建立样本识别模型的方法包括标记样本的步骤，如图2所示，标记样本的步骤包括：

S1、获取每个url_pattern在第一预设时间段内的页面浏览量，以及访问该url_pattern的去重后的IP地址数量；

S2、根据每个url_pattern对应的页面浏览量和去重后的IP地址数量，确定危险url_pattern；

S3、获取第二预设时间段内访问每一个危险url_pattern的IP地址的时间参数和页面浏览参数；

S4、根据每一个危险url_pattern对应的时间参数和页面浏览参数，确定出现异常访问的IP地址，将出现异常访问的IP地址标记为正样本。

其中，步骤S1至S4均属于web安全领域机器学习模型中有监督学习模式下的预处理阶段中的步骤，使用上述方法在预处理阶段对web安全领域中机器学习模型需要使用的正样本进行标记，能够快速、准确地获得正样本。在此，需要说明的是，在web安全领域中机器学习模型的有监督学习模式下，需要使用到正样本和负样本。在一个应用场景下，比如在web安全领域中使用机器学习模型建立的模型去识别域名访问过程中的恶意IP地址，此时，在机器学习模型的有监督学习模式下，正样本就是已经被确定为恶意IP地址的样本，负样本就是正常IP地址。本发明中的标记样本的方法，就是在访问域名的众多的IP地址中准确判断出现异常行为的IP地址，也即恶意IP地址，将其作为正样本。

在步骤S1至S4中使用的url_pattern是指一系列具有通配符的一系列访问路径，也可以理解为用通配符来匹配相似的url。比如，www.hello/1.com，www.hello/2.com，这两个url可以使用www.hello/*来实现通配，那么在使用上述两个url访问域名时，都可以归为同一个url_pattern。

其中，访问url_pattern的去重后的IP地址数量是指，比如一个IP地址访问同一个url_pattern的次数为100次，去重后的IP地址数量为1。再比如，第一个IP地址访问了某一个域名20次，第二IP地址访问了同一个域名80次，去重后的IP地址数量为2。危险url_pattern可以理解为在现实中易受攻击的url_pattern，也即少部分人长时间大量访问的url_pattern，说明url_pattern存在被攻击的情况，能够更加准确地确定出恶意IP地址。

在步骤S1中，第一预设时间段的时长根据具体的需求进行设定，本实施例中没有具体限定，比如可以是1个小时，还可以是1天。在步骤S3中，第二预设时间段的时长也根据具体的需求进行设定，本实施例中没有具体设定，比如可以是10分钟，也可以是半个小时。

在步骤S3中，IP地址的时间参数为第二预设时间段内，该IP地址访问危险url_pattern的时长与该IP地址进行全部访问操作的时长之间的比值。比如，当第二预设时间段为24小时，则在24小时内，一个IP地址访问危险url_pattern的时长为100分钟，该IP地址执行的访问操作(包括访问危险url_pattern和其他全部url的访问操作)为400分钟，则该IP地址的时间参数为，100比上400，即0.25。IP地址的页面浏览参数为第二预设时间段内，该IP地址访问危险url_pattern的次数与该IP地址进行全部页面浏览的次数之间的比值。比如，当第二预设时间段为半个小时，则在半个小时内，一个IP地址访问危险url_pattern的次数为200次，该IP地址执行的访问操作(包括访问危险url_pattern和其他全部url的访问操作)为400次，则该IP地址的时间参数为，200比上400，即0.5。

进一步地，步骤S2中，根据每个url_pattern对应的页面浏览量和去重后的IP地址数量，确定危险url_pattern具体包括以下步骤：

S21、根据每个url_pattern对应的页面浏览量和去重后的IP地址数量，计算每个url_pattern的受攻击参数；

S22、根据url_pattern的受攻击参数，确定危险url_pattern。

其中，步骤S21中计算得到的url_pattern的受攻击参数是一个具体的数值，或者是其他的能够进行量化的数据。步骤S22中，通过能够进行量化的数据与用于进行评价的数值做对比，判断url_pattern是否能够被判定为危险url_pattern，也即判断url_pattern是否为易受攻击的url_pattern。

更进一步地，在一个具体的实施例中，步骤S21具体为：

S211、计算url_pattern对应的页面浏览量与该url_pattern对应的去重后的IP地址数量之间的比值，将比值作为url_pattern的受攻击参数。

步骤S22具体为：

S221、将计算出的全部url_pattern的受攻击参数，按照数值由大至小排序，将受攻击参数排在前N个的url_pattern，确定为危险url_pattern，或者，

S222、在计算出的全部url_pattern的受攻击参数中，将数值大于或者等于第一预设值的受攻击参数值对应的url_pattern，确定为危险url_pattern。

其中，在步骤S211中，在计算url_pattern的受攻击参数时，比如，url_pattern对应的页面浏览量为1000次，该url_pattern对应的去重后的IP地址数量为10，则url_pattern对应的页面浏览量与该url_pattern对应的去重后的IP地址数量的比值为，1000除以10，即100，也就是说url_pattern的受攻击参数为100。再比如，url_pattern对应的页面浏览量为1000次，该url_pattern对应的去重后的IP地址数量为500，则url_pattern对应的页面浏览量与该url_pattern对应的去重后的IP地址数量的比值为，1000除以500，即2，也就是说url_pattern的受攻击参数为2。

可以根据实际情况的需要采用不同的判定方式，根据受攻击参数进行判定，以确定出危险url_pattern。其中，本实施例中，步骤S221是将计算出的全部url_pattern的受攻击参数，按照数值由大至小排序，将受攻击参数排在前N个的url_pattern，确定为危险url_pattern。比如，当计算了10个url_pattern的受攻击参数，其受攻击参数分别为3、8、7、9、10、20、15、2、1、24。则这些url_pattern的受攻击参数按照由大至小的顺序排列后为24、20、15、10、9、8、7、3、2、1。N的数值由具体情况确定，比如N可以为5，也可以为8。当N为5时，则受攻击参数为24、20、15、10、9对应的url_pattern为危险url_pattern，也就是易受攻击的url_pattern。

在步骤S222中，在一个具体的实施过程中，当计算了10个url_pattern的受攻击参数，其受攻击参数分别为3、8、7、9、10、20、15、2、1、24，第一预设值可以根据具体情况进行设定，本实施例中没有具体限定，比如，第一预设值可以为10，也可以为6。当第一预设值为10时，受攻击参数为24、20、15、10时，其数值大于或等于第一预设值10。则这些受攻击参数对应的url_pattern被判定为危险url_pattern，也就是易受攻击的url_pattern。

进一步地，在步骤S4中，根据每一个危险url_pattern对应的时间参数和页面浏览参数，确定出现异常访问的IP地址，将出现异常访问的IP地址标记为正样本的具体方法为：

S41、将时间参数大于或等于第二预设值，且页面浏览参数大于或等于第三预设值的IP地址确定为出现异常访问的IP地址，将出现异常访问的IP地址标记为正样本。

在步骤S41中，第二预设值和第三预设值根据具体情况确定，本实施例中没有限定，比如第二预设值可以为0.9，第三预设值可以为0.8。则步骤S41中的方法，当一个危险url_pattern的IP地址的时间参数大于或等于0.9，且页面浏览参数大于或等于0.8时，该IP地址就是出现异常访问的IP地址，该IP地址就可以被标记为正样本，用于后续的机器学习模型中。

上述建立样本识别模型的方法中标记正样本的方法中涉及的机器学习模型也即Adaboost模型，在具体实施过程中，使用的是Adaboost模型默认的决策树分类器。在建立样本识别模型过程中，进一步包括以下方法：

将负样本和正样本输入至决策树分类器中；

决策树分类器进行训练并输出结果；

选取输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。

其中，正样本就是通过上述标记样本的步骤获得的正样本，也即异常IP，负样本是一般样本，即不存在异常访问的IP地址。决策树分类器利用正样本和负样本进行训练，也即在有监督模式下进行机器学习，选取输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型，该样本识别模型可以用于对异常访问者进行识别的过程中。由于采用了有监督学习模式，因此输出的样本识别模型更加准确，识别率高。在此，需要说明的是，使用Adaboost模型默认的决策树分类器进行学习，取Gini系数为零的叶子节点是由该决策树分类器自身的属性决定的，是本领域中的常规的处理方式，具体选择过程，在此不再赘述。

本发明中的建立识别异常访问者模型的方法包括建立通用识别模型的方法，以及建立样本识别模型的方法，也就是说，建立好的识别异常访问者模型中包含通用识别模型和样本识别模型，可以理解为包含有人为选取特征的通用模型和Adaboost模型自动生成的识别模型，从两方面共同对异常访问者进行识别，极大地提高了识别准确性，减少误判，增大召回，减少异常访问者遗漏的问题。

本发明还提供了一种建立识别异常访问者模型的系统，包括用于建立通用识别模型的第一子系统，如图3所示，第一子系统包括计算模块，

计算模块，用于执行以下获取特征值的方法中的至少一种：

依旧参照图3，第一子系统还包括：

转换模块，用于对特征值进行处理，依据用户行为特征构建特征向量；

标准化处理模块，对特征向量的数值特征进行0-1标准化数据处理，并传输给决策树分类器；

输出模块，用于输出与特征值对应的判定值。

建立异常识别访问者的模型的系统包括：

模型确定模块，用于确定识别异常访问者模型包括以下识别方法中的至少一种：

建立识别异常访问者模型的系统包括用于建立样本识别模型的第二子系统，如图4所示，第二子系统包括：

计算单元，用于根据每个url_pattern对应的页面浏览量和去重后的IP地址数量，确定危险url_pattern；

获取单元，还用于获取第二预设时间段内访问每一个危险url_pattern的IP地址的时间参数和页面浏览参数；

计算单元，还用于根据每一个危险url_pattern对应的时间参数和页面浏览参数，确定出现异常访问的IP地址；

标记单元，用于将出现异常访问的IP地址标记为正样本。

其中，在执行步骤S21和步骤S22时，计算单元还用于根据每个url_pattern对应的页面浏览量和去重后的IP地址数量，计算每个url_pattern的受攻击参数，进而根据url_pattern的受攻击参数，确定危险url_pattern。

本发明中的计算单元在执行S211和S221时，还用于计算url_pattern对应的页面浏览量与该url_pattern对应的去重后的IP地址数量之间的比值，将比值作为url_pattern的受攻击参数。同时，计算单元，还用于将计算出的全部url_pattern的受攻击参数，按照数值由大至小排序，将受攻击参数排在前N个的url_pattern，确定为危险url_pattern。

在执行方法步骤S222时，本发明中的计算单元，还用于在计算出的全部url_pattern的受攻击参数中，将数值大于或者等于第一预设值的受攻击参数值对应的url_pattern，确定为危险url_pattern。

在执行方法步骤S41时，本发明中的计算单元，还用于将时间参数大于或等于第二预设值，且页面浏览参数大于或等于第三预设值的IP地址确定为出现异常访问的IP地址。

依旧参照图4，第二子系统还包括：

输入单元，用于将负样本和正样本输入至决策树分类器中；

选取单元，用于选取决策树分类器的输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。

另外，本发明还公开了一种传输设备，传输设备包括：收发器、存储器、处理器；收发器用于收发报文；存储器用于存储指令和数据；处理器用于读取存储器中存储的指令和数据，以执行上述的建立识别异常访问者模型的方法。

本发明还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，程序被处理器执行时实现上述的建立识别异常访问者模型的方法。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种建立识别异常访问者模型的方法，其特征在于，包括建立通用识别模型的方法，所述建立通用识别模型的方法包括特征计算步骤，所述特征计算步骤包括以下获取特征值的方法中的至少一种：

计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值；

对所述特征值进行处理，依据用户行为特征构建特征向量；

所述决策树分类器输出与所述特征值对应的判定值；

将所述特征值与对应的判定值进行数值大小的比较，根据比较结果判断所述用户是否为异常用户或异常IP，其中所述特征值和所述判定值均为数值型。

2.如权利要求1所述的建立识别异常访问者模型的方法，其特征在于，所述识别异常访问者模型包括以下识别方法中的至少一种：

3.如权利要求1至2任一项所述的建立识别异常访问者模型的方法，其特征在于，所述建立识别异常访问者模型的方法还包括建立样本识别模型的方法，所述建立样本识别模型的方法包括标记样本的步骤，所述标记样本的步骤包括：

4.如权利要求3所述的建立识别异常访问者模型的方法，其特征在于，所述建立样本识别模型的方法包括：

将负样本和所述正样本输入至决策树分类器中；

所述决策树分类器进行训练并输出结果；

5.一种建立识别异常访问者模型的系统，其特征在于，包括用于建立通用识别模型的第一子系统，所述第一子系统包括计算模块，

所述第一子系统还包括：

输出模块，用于输出与所述特征值对应的判定值；将所述特征值与对应的判定值进行数值大小的比较，根据比较结果判断所述用户是否为异常用户或异常IP，其中所述特征值和所述判定值均为数值型。

6.如权利要求5所述的建立识别异常访问者模型的系统，其特征在于，所述建立异常识别访问者的模型的系统包括：

7.如权利要求5至6任一项所述的建立识别异常访问者模型的系统，其特征在于，所述建立识别异常访问者模型的系统包括用于建立样本识别模型的第二子系统，所述第二子系统包括：

8.如权利要求7所述的建立识别异常访问者模型的系统，其特征在于，所述第二子系统还包括：

9.一种传输设备，其特征在于，所述传输设备包括：收发器、存储器、处理器；

所述收发器用于收发报文；

所述存储器用于存储指令和数据；

所述处理器用于读取所述存储器中存储的指令和数据，以执行权利要求1至4任一项所述的建立识别异常访问者模型的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至4任一项所述的建立识别异常访问者模型的方法。