CN107508789B

CN107508789B - 一种异常数据的识别方法和装置

Info

Publication number: CN107508789B
Application number: CN201710515872.5A
Authority: CN
Inventors: 薛岭; 刁志刚; 耿星
Original assignee: Linkdood Technologies SdnBhd
Current assignee: Linkdood Technologies SdnBhd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-04-07
Anticipated expiration: 2037-06-29
Also published as: CN107508789A

Abstract

本发明公开了一种异常数据的识别方法和装置，该识别方法包括：收集业务系统的全部数据，从全部数据中获取通过IP访问URL的起讫时间；获取每一等级PKI访问IP的起讫时间；根据通过IP访问URL的起讫时间和每一等级PKI访问IP的起讫时间，确定每一等级PKI通过IP访问URL的起讫时间；根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值；根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度。本发明能够识别对数据的异常访问行为，不仅解决了现在技术无法检查异常访问行为的问题，并且在检测用户访问URL的行为以及数据泄露问题上有着监控和预警功能。

Description

一种异常数据的识别方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种异常数据的识别方法和装置。

背景技术

随着云计算、大数据快速发展，以大数据的收集、处理与分析技术为驱动，帮助企业实时、自动侦测已经发生或即将发生的数据安全存在的内部与外部安全威胁，提高安全事件处理的效率，最大限度的保护企业信息资产安全是未来发展趋势。

目前，数据安全管控的方法是：根据数据类别和密级对数据进行划分；根据数据划分结果对数据的加密、身份认证、访问控制、安全审计以及跟踪与取证分配相应的安全防护工具并进行安全防护。

但是现有的数据安全管控方法，数据分类分级主要应用于数据的细粒度保护中，但是对数据的异常访问很难识别。

发明内容

本发明实施例提供了一种异常数据的识别方法和装置，能够识别对数据的异常访问。

第一方面，本发明实施例提供了一种异常数据的识别方法，该方法包括：

收集业务系统的全部数据，从全部数据中获取通过IP访问URL的起讫时间；

获取每一等级PKI访问IP的起讫时间；

根据通过IP访问URL的起讫时间和每一等级PKI访问IP的起讫时间，确定每一等级PKI通过IP访问URL的起讫时间；

根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；

统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值；

根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度。

优选地，确定每一等级PKI通过IP访问URL的起讫时间，包括：

针对每一等级PKI，

当IP访问URL的起始时间在PKI访问IP的起讫时间之间时，确定PKI通过IP访问URL的起讫时间为：[urlStartTime，min(urlEndtime，pkiEndTime)]；

当IP访问URL的终止时间在PKI访问IP的起讫时间之间时，确定PKI通过IP访问URL的起讫时间为：[max(urlStarTime，pkiStartTime)，urlEndtime]；

其中，urlStartTime用于表征IP访问URL的起始时间；urlEndtime用于表征IP访问URL的终止时间；pkiStartTime用于表征PKI访问IP的起始时间；pkiEndTime用于表征PKI访问IP的终止时间；min(urlEndtime，pkiEndTime)用于表征选取urlEndtime和pkiEndTime两者中早的时间；[max(urlStarTime，pkiStartTime)用于表征选取urlStarTime和pkiStartTime中晚的时间。

优选地，根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问，包括：

筛选出任意两个不同等级PKI通过同一IP访问同一URL的开始时间的时间差小于两个不同等级PKI中低等级PKI通过IP访问URL的单次访问的预设正常时间的情况，确认该低等级PKI通过IP访问URL为潜在的异常访问。

优选地，统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值，包括：

当根据累计次数计算高度异常值时，利用公式

计算访问次数异常值；

其中，p₁用于访问次数异常值；n用于表征预设时间段的总天数；x_i用于表征在预设时间段内第i天异常访问的累计次数；

用于表征预设时间段内每天异常访问的累计次数的平均次数；

根据访问次数异常值，确定在预设时间段内当天异常访问的累计次数处于

内的均为高度异常值；

当根据累计时间计算高度异常值时，利用公式

计算访问时间异常值；

其中，p₂用于表征访问时间异常值；n用于表征预设时间段的总天数；x_a用于表征在预设时间段内第a天异常访问的累计时间；

用于表征预设时间段内每天异常访问的累计时间的平均时间；

根据访问时间异常值，确定在预设时间段内当天异常访问的累计时间处于

内的均为高度异常值。

优选地，根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度，包括：

当根据累计次数计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的次数异常程度；

其中，D₁用于表征根据累计次数获得的次数异常程度；n用于表征预设时间段的总天数；m用于表征预设时间段内为高度异常值的天数；x_i用于表征在预设时间段内第i天异常访问的累计次数；

用于表征预设时间段内每天异常访问的累计次数的平均次数；l_z用于表征在高度异常值的天数中第z天异常访问的累计次数；

当根据累计时间计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的时间异常程度；

其中，D₂用于表征根据累计次数获得的时间异常程度；n用于表征预设时间段的总天数；t用于表征预设时间段内为高度异常值的天数；x_i用于表征在预设时间段内第i天异常访问的累计时间；

用于表征预设时间段内每天异常访问的累计时间的平均时间；y_c用于表征在高度异常值的天数中第c天异常访问的累计时间；

判断D₁和D₂的大小，将两者中数值大的作为预设时间段内PKI通过IP访问URL的异常程度。

第二方面，本发明实施例提供了一种异常数据的识别装置，该装置包括：采集单元、获取单元、对应单元、筛选单元、计算单元和确定单元，其中，

采集单元，用于收集业务系统的全部数据，从全部数据中获取通过IP访问URL的起讫时间；

获取单元，用于获取每一等级PKI访问IP的起讫时间；

对应单元，用于根据通过IP访问URL的起讫时间和每一等级PKI访问IP的起讫时间，确定每一等级PKI通过IP访问URL的起讫时间；

筛选单元，用于根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；

计算单元，用于统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值；

确定单元，用于根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度。

优选地，对应单元，具体用于针对每一等级PKI，

优选地，筛选单元，具体用于筛选出任意两个不同等级PKI通过同一IP访问同一URL的开始时间的时间差小于两个不同等级PKI中低等级PKI通过IP访问URL的单次访问的预设正常时间的情况，确认该低等级PKI通过IP访问URL为潜在的异常访问。

优选地，计算单元，包括：异常值子计算单元和高度异常值计算子单元，其中，

当根据累计次数计算高度异常值时，

异常值子计算单元，用于利用公式

计算访问次数异常值；

高度异常值计算子单元，用于根据访问次数异常值，确定在预设时间段内当天异常访问的累计次数处于

内的均为高度异常值；

当根据累计时间计算高度异常值时，

异常值子计算单元，用于利用公式

计算访问时间异常值；

高度异常值计算子单元，用于根据访问时间异常值，确定在预设时间段内当天异常访问的累计时间处于

内的均为高度异常值。

优选地，确定单元，包括：处理子单元和判断子单元，其中，

处理子单元，用于当根据累计次数计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的次数异常程度；

当根据累计时间计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的时间异常程度；

判断子单元，用于判断D₁和D₂的大小，将两者中数值大的作为预设时间段内PKI通过IP访问URL的异常程度。

本发明实施例提供了一种异常数据的识别方法和装置，通过确定每一等级PKI通过IP访问URL的起讫时间，根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问，并确定预设时间段内PKI通过IP访问URL的异常程度。由于在一段时间内两个及以上不同等级的PKI相继通过同一IP访问同一URL的强度是比较稳定的，存在较大的波动的可能性很低，如果出现多次且波动很大，则有理由认为存在数据异常的可能性高，现在技术无法检查出这种异常访问行为，而本发明能够识别对数据的异常访问。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种异常数据的识别方法的流程图；

图2是本发明一个实施例提供的一种异常数据的识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种异常数据的识别方法，该方法可以包括以下步骤：

步骤101：收集业务系统的全部数据，从全部数据中获取通过IP访问URL的起讫时间。

步骤102：获取每一等级PKI访问IP的起讫时间。

步骤103：根据通过IP访问URL的起讫时间和每一等级PKI访问IP的起讫时间，确定每一等级PKI通过IP访问URL的起讫时间。

步骤104：根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问。

步骤105：统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值。

步骤106：根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度。

在该实施例中，通过确定每一等级PKI通过IP访问URL的起讫时间，根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问，并确定预设时间段内PKI通过IP访问URL的异常程度。在较长一段时间内两个及以上不同等级的PKI相继通过同一IP访问同一URL的强度是比较稳定的，存在较大的波动的可能性很低，如果出现多次且波动很大，则有理由认为存在数据异常的可能性高，现在技术无法检查出这种异常访问行为，而本方法能够识别对数据的异常访问。

本发明实施例提供了一种异常数据的识别方法，该方法可以包括：

1)获取至少两个目标PKI的基础信息表。

2)获取PKI访问IP的使用明细数据，并且关联1，过滤出目标PKI的使用明细。

3)将目标PKI的使用明细关联PKI等级表，在目标PKI访问IP的使用明细记录中添加目标PKI的等级。

4)整理目标PKI访问IP的起讫时间。

5)获取IP访问URL明细，整理出IP访问URL的起讫时间。

在5中，可以将数据清理到URL只保留三级标题，并且过滤掉URL访问明细表中同一个终端与上一条访问记录时间间隔小于1S的记录，这样可以过滤掉同一个点击的多个后台操作记录，避免影响异常访问行为的识别。

6)将4和6通过IP关联，整理出目标PKI通过IP访问URL的起讫时间。

在6中，目标PKI通过IP访问URL的起讫时间计算方式：

如果IP访问URL的起始时间在目标PKI访问IP的起讫时间之间，则：目标PKI通过IP访问URL的起讫时间为：

[urlStartTime，min(urlEndtime，pkiEndTime)]

如果IP访问URL的终止时间在目标PKI访问IP的起讫时间之间，则：目标PKI通过IP访问URL的起讫时间为：

[max(urlStarTime，pkiStartTime)，urlEndtime]

其中：urlStartTime为IP访问URL的起始时间；urlEndtime为IP访问URL的终止时间；pkiStartTime为目标PKI访问IP的起始时间；pkiEndTime为目标PKI访问IP的终止时间。

7)通过IP关联，过滤出短时间内至少两个不同等级的目标PKI访问同一个URL的记录。

在7中，短时间的定义方式为：不同等级PKI通过同一个终端访问业务系统的开始时间之差小于低等级PKI单次访问业务系统的时间的一半。本实施例中，仅给出该定义方式，但不代表只有这一种。例如：短时间的定义方式还可以为：不同等级PKI通过同一个终端访问业务系统的开始时间之差小于低等级PKI单次访问业务系统的时间十分之四等其他定义方式。

8)计算符合7的低等级PKI每天通过IP访问URL的累计时间和累计次数。

在8中，仅在预设时间段内进行计算。例如：预设的时间段为2017年5月1日至2017年5月31日，则其他时间段不进行计算。

9)计算高度异常值。

在9中，计算过程为：

当根据累计次数计算高度异常值时，利用公式1计算访问次数异常值，其中，公式1为：

内的均为高度异常值；

当根据累计时间计算高度异常值时，利用公式2计算访问时间异常值，其中，公式2为：

内的均为高度异常值。

值得说明的是，还可以使用其他计算方法获得高度异常值。

10)分别带入公式计算累计的访问时间的异常程度和次数的异常程度，将两者中的大者用来描述PKI通过IP访问URL的异常程度

在10中的具体计算过程为：当根据累计次数计算异常程度时，利用公式3确定预设时间段内PKI通过IP访问URL的次数异常程度，其中，公式3为：

当根据累计时间计算异常程度时，利用公式4确定预设时间段内PKI通过IP访问URL的时间异常程度，其中，公式4为：

在该实施例中，PKI通过IP访问URL可以是系统中所有的IP，也可以是指定的特定IP；URL也可以是所有的URL，也可以是指定的特定URL。

如图2所示，本发明实施例提供了一种异常数据的识别装置，该装置可以包括：采集单元201、获取单元202、对应单元203、筛选单元204、计算单元205和确定单元206，其中，

采集单元201，用于收集业务系统的全部数据，从全部数据中获取通过IP访问URL的起讫时间；

获取单元202，用于获取每一等级PKI访问IP的起讫时间；

对应单元203，用于根据通过IP访问URL的起讫时间和每一等级PKI访问IP的起讫时间，确定每一等级PKI通过IP访问URL的起讫时间；

筛选单元204，用于根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；

计算单元205，用于统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值；

确定单元206，用于根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度。

在本发明一个实施例中，对应单元，具体用于针对每一等级PKI，

在本发明一个实施例中，筛选单元，具体用于筛选出任意两个不同等级PKI通过同一IP访问同一URL的开始时间的时间差小于两个不同等级PKI中低等级PKI通过IP访问URL的单次访问的预设正常时间的情况，确认该低等级PKI通过IP访问URL为潜在的异常访问。

在该实施例中，提供了一种确定潜在异常访问的方法，而不代表只有这一种方法。用户可通过系统需求自行设定其他方法。

在本发明一个实施例中，计算单元，包括：异常值子计算单元和高度异常值计算子单元，其中，

当根据累计次数计算高度异常值时，

异常值子计算单元，用于利用公式1计算访问次数异常值，其中，公式1为：

内的均为高度异常值；

当根据累计时间计算高度异常值时，

异常值子计算单元，用于利用公式2计算访问时间异常值，其中，公式2为：

内的均为高度异常值。

在本发明一个实施例中，确定单元，包括：处理子单元和判断子单元，其中，

处理子单元，用于当根据累计次数计算异常程度时，利用公式3确定预设时间段内PKI通过IP访问URL的次数异常程度，其中，公式3为：

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

综上，本发明的各实施例，至少具有如下有益效果：

1、在本发明的实施例中，通过确定每一等级PKI通过IP访问URL的起讫时间，根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问，并确定预设时间段内PKI通过IP访问URL的异常程度。由于在一段时间内两个及以上不同等级的PKI相继通过同一IP访问同一URL的强度是比较稳定的，存在较大的波动的可能性很低，如果出现多次且波动很大，则有理由认为存在数据异常的可能性高，现在技术无法检查出这种异常访问行为，而本发明能够识别对数据的异常访问。

2、在本发明的实施例中，在检测用户访问URL的行为以及数据泄露问题上有着监控和预警功能。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常数据的识别方法，其特征在于，该方法包括：

获取每一等级PKI访问IP的起讫时间；

根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；包括：筛选出任意两个不同等级PKI通过同一IP访问同一URL的开始时间的时间差小于两个不同等级PKI中低等级PKI通过IP访问URL的单次访问的预设正常时间的情况，确认该低等级PKI通过IP访问URL为潜在的异常访问；

2.根据权利要求1所述的异常数据的识别方法，其特征在于，确定每一等级PKI通过IP访问URL的起讫时间，包括：

针对每一等级PKI，

3.根据权利要求1所述的异常数据的识别方法，其特征在于，统计预设时间段内每天潜在的异常访问的累计次数和累计时间，并计算高度异常值，包括：

当根据累计次数计算高度异常值时，利用公式

计算访问次数异常值；

内的均为高度异常值；

当根据累计时间计算高度异常值时，利用公式

计算访问时间异常值；

内的均为高度异常值。

4.根据权利要求3所述的异常数据的识别方法，其特征在于，根据高度异常值，确定预设时间段内PKI通过IP访问URL的异常程度，包括：

当根据累计次数计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的次数异常程度；

当根据累计时间计算异常程度时，利用公式

确定预设时间段内PKI通过IP访问URL的时间异常程度；

5.一种异常数据的识别装置，其特征在于，该装置包括：采集单元、获取单元、对应单元、筛选单元、计算单元和确定单元，其中，

获取单元，用于获取每一等级PKI访问IP的起讫时间；

筛选单元，用于根据每一等级PKI通过IP访问URL的起讫时间，筛选出潜在的异常访问；包括：筛选出任意两个不同等级PKI通过同一IP访问同一URL的开始时间的时间差小于两个不同等级PKI中低等级PKI通过IP访问URL的单次访问的预设正常时间的情况，确认该低等级PKI通过IP访问URL为潜在的异常访问；

6.根据权利要求5所述的异常数据的识别装置，其特征在于，对应单元，具体用于针对每一等级PKI，

7.根据权利要求5所述的异常数据的识别装置，其特征在于，计算单元，包括：异常值子计算单元和高度异常值计算子单元，其中，

当根据累计次数计算高度异常值时，异常值子计算单元，用于利用公式