CN107707545B

CN107707545B - 一种异常网页访问片段检测方法、装置、设备及存储介质

Info

Publication number: CN107707545B
Application number: CN201710910924.9A
Authority: CN
Inventors: 章明星
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2021-06-04
Anticipated expiration: 2037-09-29
Also published as: CN107707545A

Abstract

本发明公开了一种异常网页访问片段检测方法，该方法包括以下步骤：获得待检测的目标访问日志片段，确定目标访问日志片段的第一访问特征，分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，根据计算得到的相似距离，确定目标访问日志片段的异常度，根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。应用本发明实施例所提供的技术方案，可以避免人为的规则定义，进一步提高对异常网页访问片段检测的准确性。本发明还公开了一种异常网页访问片段检测装置、一种异常网页访问片段检测设备及一种计算机可读存储介质，具有相应的技术效果。

Description

一种异常网页访问片段检测方法、装置、设备及存储介质

技术领域

本发明涉及网络安全技术领域，特别是涉及一种异常网页访问片段检测方法、装置、设备及存储介质。

背景技术

在对网站的维护工作中，检测异常网页访问片段，可以加强网站的安全性。

近年来，异常网页访问片段的检测往往基于预先制定的规则，或者，基于大量的统计数据而进行。常见的，如规定除特定IP用户外，不允许访问前缀为某一特定字符串的URL(Uniform Resource Locator，统一资源定位器)，若非特定IP用户成功访问了该URL，则判定该用户的对应此次访问的访问日志片段为异常网页访问片段，或者，规定特定IP用户在特定时间间隔内，访问某一个URL的次数应小于特定阈值，若该特定IP用户访问次数超过特定阈值，则判定该用户对应此次访问的访问日志片段为异常网页访问片段。

现有的异常网页访问片段的检测主要依赖安全专家的规则定义和阈值选择。在实际的应用中，可能需要针对不同的场景定义不同的规则和阈值，由于场景数量较多，可能会无法检测那些没有被定义的异常网页访问片段，检测准确性较低。

发明内容

本发明的目的是提供一种异常网页访问片段检测方法、装置、设备及存储介质，以提高对异常网页访问片段检测的准确性。

为解决上述技术问题，本发明提供如下技术方案：

一种异常网页访问片段检测方法，包括：

获得待检测的目标访问日志片段；

确定所述目标访问日志片段的第一访问特征；

分别计算所述第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离；

根据计算得到的相似距离，确定所述目标访问日志片段的异常度；

根据所述异常度的大小，确定所述目标访问日志片段是否为异常网页访问片段。

优选地，所述目标访问日志片段为对目标访问日志文件进行切片处理后得到的多个访问日志片段中的任意一个；针对每个访问日志片段，该访问日志片段包含的每条访问日志均对应于同一IP，该访问日志片段中相邻两条访问日志的访问时间间隔小于预设时长阈值，该访问日志片段对应的长度小于预设长度阈值。

优选地，所述确定所述目标访问日志片段的第一访问特征，包括：

针对所述目标访问日志片段包含的每条访问日志，获得该访问日志对应的日志特征，所述日志特征包括以下至少一条信息：返回状态码、返回包的大小、URL类别、访问方法、与上一次访问的间隔时间、是否在设定时间间隔内访问同一URL；

将所述目标访问日志片段包含的所有访问日志对应的日志特征构成的序列确定为所述目标访问日志片段的第一访问特征。

优选地，针对所述目标访问日志片段包含的每条访问日志，通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，通过以下步骤预先获得所述URL分类树：

统计预先获得的历史访问日志文件中记录的URL访问信息，所述URL访问信息至少包括URL地址及每个URL地址对应的访问次数；

根据所述URL访问信息，建立初始树形结构，所述初始树形结构的每个节点表示被设定符号分割开的URL类别及被访问次数；

在所述初始树形结构的叶节点个数大于预设个数阈值时，根据叶节点对应的访问次数，进行叶节点与对应父节点的合并操作，直至叶节点个数小于或等于所述个数阈值，获得所述URL分类树。

优选地，所述分别计算所述第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，包括：

根据所述第一访问特征，确定第一子串集合；

针对预先获得的日志片段库中每个历史访问日志片段，根据该历史访问日志片段的第二访问特征，确定第二子串集合；

根据所述第一子串集合与所述第二子串集合，确定子串总集合；

根据所述子串总集合中每个子串出现的次数，计算所述第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

优选地，所述根据所述子串总集合中每个子串出现的次数，计算所述第一访问特征与该历史访问日志片段的第二访问特征的相似距离，包括：

针对所述子串总集合中每个子串，基于与该子串长度相同的第一子串在所述第一子串集合中出现的第一总次数，确定该子串在所述第一子串集合中出现的第一出现比例；

基于与该子串长度相同的第二子串在所述第二子串集合中出现的第二总次数，确定该子串在所述第二子串集合中出现的第二出现比例；

根据所述子串总集合中每个子串对应的第一出现比例和第二出现比例，计算子串距离；

将所述子串距离确定为所述第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

优选地，所述根据计算得到的相似距离，确定所述目标访问日志片段的异常度，包括：

将计算得到的相似距离进行大小排序；

根据第K个相似距离，确定所述目标访问日志片段的异常度，所述K为预设值。

一种异常网页访问片段检测装置，包括：

目标访问日志片段获得模块，用于获得待检测的目标访问日志片段；

第一访问特征确定模块，用于确定所述目标访问日志片段的第一访问特征；

相似距离确定模块，用于分别计算所述第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离；

异常度确定模块，用于根据计算得到的相似距离，确定所述目标访问日志片段的异常度；

异常网页访问片段确定模块，用于根据所述异常度的大小，确定所述目标访问日志片段是否为异常网页访问片段。

优选地，所述第一访问特征确定模块，具体用于针对所述目标访问日志片段包含的每条访问日志，获得该访问日志对应的日志特征，所述日志特征包括以下至少一条信息：返回状态码、返回包的大小、URL类别、访问方法、与上一次访问的间隔时间、是否在设定时间间隔内访问同一URL；

优选地，还包括：URL类别确定模块，用于：

针对所述目标访问日志片段包含的每条访问日志，通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，通过以下步骤预先获得所述URL分类树：

优选地，所述相似距离确定模块，具体用于：

根据所述第一访问特征，确定第一子串集合；

优选地，所述相似距离确定模块，具体用于：

优选地，所述异常度确定模块，具体用于：

将计算得到的相似距离进行大小排序；

一种异常网页访问片段检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述异常网页访问片段检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述异常网页访问片段检测方法的步骤。

应用本发明实施例所提供的技术方案，获得待检测的目标访问日志片段，确定目标访问日志片段的第一访问特征，分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，根据计算得到的相似距离，确定目标访问日志片段的异常度，根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。因为正常的访问日志片段往往与大量的历史访问日志片段相似，所以可以通过分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，确定目标访问日志片段的异常度，根据异常度可以确定目标访问日志片段是否为异常网页访问片段，可以避免人为的规则定义，进一步提高对异常网页访问片段检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中异常网页访问片段检测方法的一种实施流程图；

图2为本发明实施例中异常网页访问片段检测方法的另一种实施流程图；

图3为本发明实施例中一种异常网页访问片段检测装置的结构示意图；

图4为本发明实施例中一种异常网页访问片段检测设备的结构示意图。

具体实施方式

本发明的核心是提供一种异常网页访问片段检测方法，该方法可以避免人为的规则定义，进一步提高对异常网页访问片段检测的准确性。本发明主要通过计算访问日志片段之间相似距离的方式，确定待检测的目标访问日志片段是否为异常网页访问片段。

需要说明的是，本发明实施例所提供的技术方案基于：一段正常的访问日志片段往往在日志片段库中有足够多的历史访问日志片段与其相似，因此若与该访问日志片段的历史访问日志片段的相似距离越小，或与该访问日志片段的历史访问日志片段数越少，则表明该访问日志片段的异常度就越高，极可能为异常网页访问片段。使用本发明实施例提供的技术方案，可以从历史访问日志片段中学习正常的访问日志片段的行为模式，因此可以避免人为的规则定义，可以提高异常网页访问片段检测的准确性和效率。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例中异常网页访问片段检测方法的一种实施流程图，包括以下步骤：

S101、获得待检测的目标访问日志片段。

在本实施例中，可以通过对网站服务器记录的目标访问文件，或，防火墙记录的目标访问文件进行切片处理，获得待检测的目标访问日志片段。

在本发明的一个实施例中，目标访问日志片段为对目标访问日志文件进行切片处理后得到的多个访问日志片段中的任意一个；针对每个访问日志片段，该访问日志片段包含的每条访问日志均对应于同一IP，该访问日志片段中相邻两条访问日志的访问时间间隔小于预设时长阈值，该访问日志片段对应的长度小于预设长度阈值。

在本实施例中，可以预先设置一个时长阈值和一个长度阈值，该时长阈值的大小可以预先设置，也可以根据实际情况进行确定和调整，本发明实施例对此并不限定，同样地，该长度阈值的具体长度可以预先设置，也可以根据实际情况进行确定和调整，本发明实施例对此同样不做限定。

具体的，可以通过以下方式对目标访问日志文件进行切片处理：

步骤一、将目标访问日志文件中的日志按照时间排序；

步骤二、将不同源的IP的访问日志切分到不同的访问日志片段中；

步骤三、针对同一IP相邻的两次访问数据库1(access1)和数据库2(access2)的时间间隔超过用户给定的时长阈值(max_{_}interval)时，时间间隔前后的日志可以切分到不同的访问日志片段中，如时长阈值可以设置为3分钟；

步骤四、若执行步骤一至步骤三的操作后，所得的访问日志片段大于或等于用户预设的长度阈值(max_snippet_len)，则可以将大于或等于用户预设的长度阈值的访问日志片段重复切分，直到切分后得到的访问日志片段长度小于用户预设的长度阈值，如长度阈值可以设置为100。

最终获得的目标访问日志片段可以为对目标访问日志文件进行上述切片处理后，得到的多个访问日志片段中的任意一个。针对切片后得到每个访问日志片段，也就是说，获得的目标访问日志片段具有如下特点：目标访问日志片段包含的每条访问日志均对应同一个IP，目标访问日志片段中相邻两条访问日志的访问时间间隔小于预设的时长阈值，目标访问日志片段的长度小于预设长度阈值。

得到目标访问日志片段后，可以执行步骤S102的操作。

S102、确定目标访问日志片段的第一访问特征。

针对目标访问日志片段，遍历目标访问日志片段中的每一条目标访问日志后，可以确定目标访问日志片段的第一访问特征。其中，第一访问特征可以是针对目标访问日志片段中每一条访问日志的关键信息，也可以是目标访问日志片段中的部分访问日志的关键信息，且，该关键信息是目标访问日志中记录的访问信息：包括图片、CSS、JS、FLASH、HTML、MP3等所有网页打开过程载入的资源、访问用户、访问方法、访问结果等，也可以是根据目标访问日志记录的访问内容经过处理后得到的，该关键信息的具体内容本发明实施例并不限定。

在本发明的一个实施例中，步骤S102可以执行以下操作：

步骤一、针对目标访问日志片段包含的每条访问日志，获得该访问日志对应的日志特征，日志特征包括以下至少一条信息：返回状态码、返回包的大小、URL类别、访问方法、与上一次访问的间隔时间、是否在设定时间间隔内访问同一URL；

步骤二、将目标访问日志片段包含的所有访问日志对应的日志特征构成的序列确定为目标访问日志片段的第一访问特征。

为了便于描述，下面将步骤一和步骤二结合起来进行说明。

在本实施例中，可以针对目标访问日志片段包含的每条访问日志，获取该访问日志对应的日志特征，日志特征可以为包括以下信息中的至少一条信息：返回状态码如200或404等、返回包的大小、URL类别、访问方法如GET或PUT、与上一次访问的间隔时间、是否在设定时间间隔内访问同一URL。得到目标访问日志片段包含的所有日志对应的日志特征后，可以将所有的日志特征构成的序列确定为目标访问日志片段的第一访问特征。

具体的，以第一访问特征为URL类别和返回的状态码为例，可以针对目标访问日志片段中的每一条访问日志的URL类别和返回状态码，构成一个元素组。例如，如果将URL类别定义为x，将返回状态码定义为y，那么每一条访问日志可以构成(x,y)的元素组，可以将每一条访问日志对应的元素组构成一个序列：{(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_L,y_L)}，其中，L为目标访问日志片段包含的日志条数，x、y具体可以用字母、数字、字和符号中的任意一种字符表示。得到的元素组构成的序列可以确定为目标访问日志片段的第一访问特征。

在本发明的一个具体实施方式中，针对目标访问日志片段包含的每条访问日志，可以通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，可以通过以下步骤预先获得URL分类树：

统计预先获得的历史访问日志文件中记录的URL访问信息，URL访问信息至少包括URL地址及每个URL地址对应的访问次数；

根据URL访问信息，建立初始树形结构，初始树形结构的每个节点表示被设定符号分割开的URL类别及被访问次数；

在初始树形结构的叶节点个数大于预设个数阈值时，根据叶节点对应的访问次数，进行叶节点与对应父节点的合并操作，直至叶节点个数小于或等于个数阈值，获得URL分类树。

在本实施例中，预先对URL进行分类处理，依次扫描预先获得的历史访问日志文件中，统计它们记录的URL地址及每个URL地址对应的访问次数的URL访问信息，根据URL访问信息，建立一个初始树形结构，该初始树形结构的每条边代表URL中被设定符号如“/”分割开的标记(token)，每个节点表示被设定符号分割开的URL类别及被访问次数。

在初始树形结构的叶节点个数大于预设的个数阈值时，可以根据叶节点对应的访问次数，对叶节点与对应父节点进行合并操作，具体的，当叶节点个数大于预设的个数阈值时，将访问经过的次数最小的叶节点与其对应的父节点进行合并，直到叶节点的个数小于或等于预设个数阈值，将最终得到的树形结构确定为URL分类树。即针对一条访问日志，将其对应的URL地址沿着URL分类树向下，直到不能继续向下为止，确定最后一个节点的标记为URL类别。

由于很多网站的URL的可能范围较大，而单个的URL地址被访问的次数可能不够多，若对某个URL地址都认为是不同的分类的话，可能导致数据过于稀疏，难以进行行为学习，导致获得的URL类别庞大，不利于后续计算。因此，本实施例将URL地址进行归类，使得最后确定的URL类别较为集中，便于后续计算。

确定第一访问特征之后，可以执行步骤S103的操作。

S103、分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离。

在本实施例中，使用相似距离来表示相似度，相似距离越大，相似度越小。

可以使用字符串相似度的计算方法，分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离。

在本发明的一个实施例中，步骤S103可以包括以下步骤：

步骤一、根据第一访问特征，确定第一子串集合；

步骤二、针对预先获得的日志片段库中每个历史访问日志片段，根据该历史访问日志片段的第二访问特征，确定第二子串集合；

步骤三、根据第一子串集合与第二子串集合，确定子串总集合；

步骤四、根据子串总集合中每个子串出现的次数，计算第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

为了便于描述，下面将上述四个步骤结合起来进行说明。

在本实施例中，可以根据第一访问特征，得到第一访问特征对应的元素组序列，把该元素组序列对应的小于子串长度阈值的所有第一子串，确定第一子串集合。同样的，针对预先获得的日志片段库中每个历史访问日志片段，得到该历史访问日志片段的第二访问特征，确定第二子串集合。针对第一子串集合和第二子串集合中的所有子串，确定子串总集合。根据子串集合中每个子串出现的次数，确定第一访问特征与第二访问特征之间的相似距离，也就是针对出现在第一子串集合或第二子串集合中的每个子串，计算第一访问特征与该第二访问日志片段的第二访问特征的相似距离。

在本发明的另一个实施例中，根据子串总集合中每个子串出现的次数，计算第一访问特征与该历史访问日志片段的第二访问特征的相似距离，具体可以为执行以下步骤的操作：

步骤一、针对子串总集合中每个子串，基于与该子串长度相同的第一子串在第一子串集合中出现的第一总次数，确定该子串在第一子串集合中出现的第一出现比例；

步骤二、基于与该子串长度相同的第二子串在第二子串集合中出现的第二总次数，确定该子串在第二子串集合中出现的第二出现比例；

步骤三、根据子串总集合中每个子串对应的第一出现比例和第二出现比例，计算子串距离；

步骤四、将子串距离确定为第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

为了便于描述，接下来将上述步骤一至步骤四结合起来进行说明。

在本实施例中，可以针对子串总集合中的每个子串，基于与该子串长度相同的第一子串在第一子串集合中出现的第一总次数，确定该子串在第一子串集合中出现的第一出现比例，同样的，基于与该子串长度相同的第二子串在第二子串集合中出现的第二总次数，确定该子串在第二子串集合中出现的第二出现比例。

根据子串总集合中的所有子串对应的上述第一出现比例和第二出现比例，计算子串距离，将得到的子串距离确定为第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

在本发明的一个具体实施方式中，可以通过以下公式(1)计算第一访问特征与该历史访问日志片段的第二访问特征的相似距离dis：

其中，p₁[g]＝cnt1[g]/∑_{g'∈G,len(g')＝＝g}cnt1[g']；p₂[g]＝cnt2[g]/∑_{g'∈G,len(g')＝＝} _gcnt2[g']；

p₁[g]、p₂[g]分别为子串总集合中的任意一个子串的第一比例、第二比例，g可以表示子串总集合中的任意一个子串，cnt1[g]、cnt2[g]分别表示子串g在第一子串集合中出现的第一总次数、在第二子串集合中出现的第二总次数，g'∈G,len(g')＝＝g表示在子串总集合中长度和子串g相同的子串，cnt1[g']、cnt2[g']分别表示长度和g相同的子串在第一子串集合中的第一子串数、在第二子串集合中的第二子串数，g∈G表示子串总集合中的任意一个子串g，G表示子串总集合。

在本发明的另一个具体实施方式中，针对上述公式(1)，还可以参照自然语言处理(Natural Language Processing，NLP)领域内的词频-逆向文件频率(Term Frequency–Inverse Document Frequency，TF-IDF)的原理添加逆向文档频率(Inverse DocumentFrequency，IDF)做如下修正，对于一个子串g(x_gram g)，在计算p₁[g]和p₂[g]时，可以进一步和“log(m/(1+n))”相乘得到：

p₁[g]＝cnt1[g]/∑_{g'∈G,len(g')＝＝g}cnt1[g']*log(m/(1+n))；

p₂[g]＝cnt2[g]/∑_{g'∈G,len(g')＝＝g}cnt1[g']*log(m/(1+n))。

其中，m为总片段数，即为历史访问日志片段和待检测的目标访问日志片段的总和，n为包含子串g的片段数，n为在历史访问日志片段中包含子串g的历史访问日志片段数。

计算第一出现比例和第二出现比例时，进一步和子串g在历史访问日志片段出现的次数进行加权计算，可以使得相似距离的误差较小，减少因历史访问日志片段较为独特而影响相似距离的计算这种偶然性事件的发生。

在本发明的一个具体实施方式中，可以通过以下公式(2)计算第一访问特征与该历史访问日志片段的第二访问特征的相似距离dis：

其中，g∈G表示子串总集合中的每一个子串，G表示子串总集合，g可以表示子串总集合中的任意一个子串，cnt1[g]、cnt2[g]分别表示子串g在第一子串集合中出现的第一总次数、在第二子串集合中出现的第二总次数。

通过公式(2)可以计算第一访问特征与该历史访问日志片段的第二访问日志特征的相似距离dis。

在本发明实施例中，将目标访问日志片段的访问特征称为第一访问特征，将日志片段库中每个历史访问日志片段的访问特征称为第二访问特征。

S104、根据计算得到的相似距离，确定目标访问日志片段的异常度。

根据计算得到的相似距离，确定目标访问日志片段的异常度，其中，相似距离越大，异常度越小。

由相似距离确定异常度，可以是对所有的相似距离进行求平均值的操作，可以使用常规的数据计算方法确定目标访问日志片段的异常度，具体的，可以是选择所有的相似距离中任意一个相似距离作为异常度，也可以是对相似距离进行加权计算得到异常度。

在本发明的一个实施例中，步骤S104可以包括以下步骤：

步骤一、将计算得到的相似距离进行大小排序；

步骤二、根据第K个相似距离，确定目标访问日志片段的异常度，K为预设值。

为了便于描述，下面将上述两个步骤结合起来进行说明。

在本实施例中，可以预先设置一个预设值K，其中K的大小可以预先设置，也可以根据实际情况进行确定和调整，本发明实施例对此并不限定。

针对计算得到的所有相似距离，以相似距离的大小进行排序后，选择第K个相似距离，并将该相似距离确定为目标访问日志片段的异常度，其中K为预设值，如设置为100。

S105、根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。

跟据异常度的大小，可以确定目标访问日志片段是否为异常网页访问片段，例如，可以预先设置一个异常度阈值，若异常度大于预设异常度阈值，则确定目标访问日志片段为异常网页访问片段。

应用本发明实施例所提供的方法，获得待检测的目标访问日志片段，确定目标访问日志片段的第一访问特征，分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，根据计算得到的相似距离，确定目标访问日志片段的异常度，根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。因为正常的访问日志片段往往与大量的历史访问日志片段相似，所以可以通过分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，确定目标访问日志片段的异常度，根据异常度可以确定目标访问日志片段是否为异常网页访问片段，可以避免人为的规则定义，进一步提高对异常网页访问片段检测的准确性。

为了便于理解本发明实施例提供的技术方案，下面请参考图2，以第一访问特征为返回状态码、URL类别为例，对本发明实施例提供的技术方案进行说明。

首先获取历史访问日志文件和目标访问日志文件，针对目标访问日志文件根据预设的时长阈值和长度阈值进行切片，获得目标访问日志片段，针对历史访问日志文件，确定URL分类树，得到URL分类。

针对目标访问日志片段提取第一访问特征，将得到的第一访问特征进行向量化，即用元素组序列表示，针对目标访问日志片段中的每一条访问日志，如果定义返回状态码为x，URL类别为y，针对该访问日志的日志特征可以用元素组(x,y)表示，那么第一访问特征可以用元素组序列{(a,b),(c,d),(a,b)}来表示。然后，枚举所有在{(a,b),(c,d),(a,b)}中出现过，且长度小于给定阈值max_gramg的子串并记录个数：1gram(a,b)2次，1gram(c,d)1次，2gram[(a,b),(c,d)]和[(c,d)，(a,b)]各1次，即对于{(a,b),(c,d),(a,b)}，注意每个元素组(x,y)被当成是一个特殊的字符，而不是拆分成两个不同的字符，也就是说，如果第一访问特征有三个，那么针对目标访问日志片段中的每一个访问日志特征可以用元素组(x,y,z)来表示，其中x、y、z可以根据访问日志得到。

得到第一子串集合后，可以根据公式(1)或公式(2)，以及预设值K，确定目标访问日志的异常度。确定目标访问日志片段是否为异常网页访问片段等操作，可以参照上文实施例中描述的具体操作，本发明实施例对此不再赘述。

需要说明的是，在本发明的部分实施例中，在借鉴传统字符串相似度计算方法的基础上，针对网页访问的特殊场景进行如下适配中的至少一种：URL自动归类，借鉴TF-IDF等自然语言处理技术的原理，处理访问日志片段之间长短不一的归一化问题。

相应于上面的方法实施例，本发明实施例还提供了一种异常网页访问片段检测装置，下文描述的一种异常网页访问片段检测装置与上文描述的一种异常网页访问片段检测方法可相互对应参照。

参见图3所示，该装置包括以下模块：

目标访问日志片段获得模块201，用于获得待检测的目标访问日志片段；

第一访问特征确定模块202，用于确定目标访问日志片段的第一访问特征；

相似距离确定模块203，用于分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离；

异常度确定模块204，用于根据计算得到的相似距离，确定目标访问日志片段的异常度；

异常网页访问片段确定模块205，用于根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。

应用本发明实施例所提供的装置，获得待检测的目标访问日志片段，确定目标访问日志片段的第一访问特征，分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，根据计算得到的相似距离，确定目标访问日志片段的异常度，根据异常度的大小，确定目标访问日志片段是否为异常网页访问片段。因为正常的访问日志片段往往与大量的历史访问日志片段相似，所以可以通过分别计算第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，确定目标访问日志片段的异常度，根据异常度可以确定目标访问日志片段是否为异常网页访问片段，可以避免人为的规则定义，进一步提高对异常网页访问片段检测的准确性。

在本发明的一种具体实施方式中，目标访问日志片段为对目标访问日志文件进行切片处理后得到的多个访问日志片段中的任意一个；针对每个访问日志片段，该访问日志片段包含的每条访问日志均对应于同一IP，该访问日志片段中相邻两条访问日志的访问时间间隔小于预设时长阈值，该访问日志片段对应的长度小于预设长度阈值。

在本发明的一种具体实施方式中，第一访问特征确定模块202，具体用于：

针对目标访问日志片段包含的每条访问日志，获得该访问日志对应的日志特征，日志特征包括以下至少一条信息：返回状态码、返回包的大小、URL类别、访问方法、与上一次访问的间隔时间、是否在设定时间间隔内访问同一URL；

将目标访问日志片段包含的所有访问日志对应的日志特征构成的序列确定为目标访问日志片段的第一访问特征。

在本发明的一种具体实施方式中，还包括：URL类别确定模块，用于针对目标访问日志片段包含的每条访问日志，通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，通过以下步骤预先获得URL分类树：

在本发明的一种具体实施方式中，相似距离确定模块203，具体用于：

根据第一访问特征，确定第一子串集合；

根据第一子串集合与第二子串集合，确定子串总集合；

根据子串总集合中每个子串出现的次数，计算第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

在本发明的一种具体实施方式中，相似距离确定模块203，具体用于针对子串总集合中每个子串，基于与该子串长度相同的第一子串在第一子串集合中出现的第一总次数，确定该子串在第一子串集合中出现的第一出现比例；

基于与该子串长度相同的第二子串在第二子串集合中出现的第二总次数，确定该子串在第二子串集合中出现的第二出现比例；

根据子串总集合中每个子串对应的第一出现比例和第二出现比例，计算子串距离；

将子串距离确定为第一访问特征与该历史访问日志片段的第二访问特征的相似距离。

在本发明的一种具体实施方式中，异常度确定模块204，具体用于：

将计算得到的相似距离进行大小排序；

根据第K个相似距离，确定目标访问日志片段的异常度，K为预设值。

相应于上面的方法实施例，本发明实施例还提供了一种异常网页访问片段检测设备，下文描述的一种异常网页访问片段检测设备与上文描述的一种异常网页访问片段检测方法可相互对应参照。

参见图4所示，该异常网页访问片段检测设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的异常网页访问片段检测方法的步骤。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，下文描述的一种计算机可读存储介质与上文描述的一种异常网页访问片段检测方法可相互对应参照。

一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的异常网页访问片段检测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种异常网页访问片段检测方法，其特征在于，包括：

获得待检测的目标访问日志片段；

确定所述目标访问日志片段的第一访问特征；

根据所述异常度的大小，确定所述目标访问日志片段是否为异常网页访问片段；

所述分别计算所述第一访问特征与预先获得的日志片段库中每个历史访问日志片段的第二访问特征的相似距离，包括：

根据所述第一访问特征，确定第一子串集合；

根据所述子串总集合中每个子串出现的次数，计算所述第一访问特征与该历史访问日志片段的第二访问特征的相似距离；

所述确定所述目标访问日志片段的第一访问特征，包括：

2.根据权利要求1所述的异常网页访问片段检测方法，其特征在于，所述目标访问日志片段为对目标访问日志文件进行切片处理后得到的多个访问日志片段中的任意一个；针对每个访问日志片段，该访问日志片段包含的每条访问日志均对应于同一IP，该访问日志片段中相邻两条访问日志的访问时间间隔小于预设时长阈值，该访问日志片段对应的长度小于预设长度阈值。

3.根据权利要求1所述的异常网页访问片段检测方法，其特征在于，针对所述目标访问日志片段包含的每条访问日志，通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，通过以下步骤预先获得所述URL分类树：

4.根据权利要求1所述的异常网页访问片段检测方法，其特征在于，所述根据所述子串总集合中每个子串出现的次数，计算所述第一访问特征与该历史访问日志片段的第二访问特征的相似距离，包括：

5.根据权利要求1至4之中任一项所述的异常网页访问片段检测方法，其特征在于，所述根据计算得到的相似距离，确定所述目标访问日志片段的异常度，包括：

将计算得到的相似距离进行大小排序；

6.一种异常网页访问片段检测装置，其特征在于，包括：

异常网页访问片段确定模块，用于根据所述异常度的大小，确定所述目标访问日志片段是否为异常网页访问片段；

所述相似距离确定模块，具体用于：

根据所述第一访问特征，确定第一子串集合；

所述第一访问特征确定模块，具体用于：

7.根据权利要求6所述的异常网页访问片段检测装置，其特征在于，所述目标访问日志片段为对目标访问日志文件进行切片处理后得到的多个访问日志片段中的任意一个；针对每个访问日志片段，该访问日志片段包含的每条访问日志均对应于同一IP，该访问日志片段中相邻两条访问日志的访问时间间隔小于预设时长阈值，该访问日志片段对应的长度小于预设长度阈值。

8.根据权利要求6所述的异常网页访问片段检测装置，其特征在于，还包括：URL类别确定模块，用于针对所述目标访问日志片段包含的每条访问日志，通过以下步骤确定该访问日志对应的URL类别：

基于预先获得的URL分类树，确定该访问日志对应的URL类别；

其中，通过以下步骤预先获得所述URL分类树：

9.根据权利要求6所述的异常网页访问片段检测装置，其特征在于，所述相似距离确定模块，具体用于：

10.根据权利要求6至9之中任一项所述的异常网页访问片段检测装置，其特征在于，所述异常度确定模块，具体用于：

将计算得到的相似距离进行大小排序；

11.一种异常网页访问片段检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述异常网页访问片段检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述异常网页访问片段检测方法的步骤。