CN106570131A

CN106570131A - 一种基于聚类分析的敏感数据异常访问检测方法

Info

Publication number: CN106570131A
Application number: CN201610955916.1A
Authority: CN
Inventors: 刘亮; 王雷; 陈亮
Original assignee: Beijing Le-Tour Technology Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: Beijing Le-Tour Technology Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-04-19

Abstract

本发明公开了一种基于聚类分析的敏感数据异常访问检测方法，包含以下步骤：建立基础违规场景业务规则库；建立关联关系，用聚类分析算法进行统计分析，发现偏离数据，分析数据的业务含义；分析聚类分析算法的结果，验证业务合规性，形成新的违规场景业务规则库。通过建立违规场景业务规则的方式，将关键字、统计分析进行了重组，并利用聚类分析K‑means算法挖掘数据中有可能存在的违规访问，形成和完善违规业务场景规则。通过这种方式，不管敏感数据的访问方式发生任何变化，都可以通过算法新增违规场景业务规则，避免了规则更新的缓慢无法检测新的违规访问行为。

Description

一种基于聚类分析的敏感数据异常访问检测方法

技术领域

本发明属于计算机网络中的信息监控技术领域，具体地涉及一种基于聚类分析的敏感数据异常访问检测方法。

背景技术

随着企业的信息化发展，越来越多的业务可以通过互联网办理，每个业务都产生了大量数据。每个数据因为业务属性的不同，使得每个数据具有不同的价值。这些高价值的数据面临着众多威胁，对敏感数据的异常访问检测成为一种重要技术手段。

目前敏感数据的访问检测方法主要包括关键字分析和统计分析两种。

关键字分析：通常是多个关键字的组合，如非工作时间批量导出操作是时间和导出两个关键字的判断。

统计分析：通常是某个行为的基础统计，如某个帐号登录的IP大于3。

目前的检测方法存在如下缺陷：1、关键字的积累需要人工的经验，数据中存在大量类同数据，这是业务办理过程中产生的既定数据，无法确定关键字最大的覆盖了异常行为，存在漏报风险；2、关键字判断条件过于宽泛，在分析过程产生了大量误报；3、统计分析的方法简单，只是对帐号的基础行为进行了统计，威胁价值不高。如，某账号同时通过两个IP登录，只能说明帐号共用的问题，并未关联分析帐号登录后的操作所带来的威胁。

中国专利文献CN 103138986公开了一种基于可视分析的网站异常访问行为的检测方法，包括：（1）对网站服务器日志数据进行预处理，将访问数据和网站结构数据结合起来，将统计原始日志获得的节点及其子节点累加的出现与访问次数作为权值定义面积不同的可视化网站树图结构；（2）利用可视化方法展现经过预处理后的网站服务器日志数据的位置、时间、内容信息；（3）定义用户访问事件的动画方式，通过所述的三种视图以及在三个不同视图上采用的事件的动画方式来展示每一个访问地址在不同的时刻执行了不同的用户行为；（4）对访问用户进行聚类分析，在对用户访问行为重现的同时，增加对数据集进行聚类的功能，借助聚类结果发现其他的相似对象并进行索引，找出具有相似行为的同类用户；（5）对聚类的属性进行过滤和筛选，确定用来发现异常用户模式和与安全相关的行为所必须的用户的访问属性数据，检测聚类中的离群点，发现异常行为。该方法利用GPU 加速可视化处理，减轻CPU 的负担，能分析并显示网络数据，从而使用户能够发现DDoS 攻击前期所存在的主机扫描，端口扫描和正在进行的DDoS 攻击。但是该方法是利用已知的规则库对异常的访问进行识别，对规则库中不存在的异常访问无法识别，而且由于规则更新的缓慢，导致无法检测新的违规访问行为，存在着安全隐患。

发明内容

针对上述技术存在的不足，本发明旨在提供一种基于聚类分析的敏感数据异常访问检测方法，通过建立违规场景业务规则的方式，将关键字、统计分析进行了重组，并利用聚类分析K-means算法挖掘数据中有可能存在的违规访问，形成和完善违规业务场景规则。通过这种方式，不管敏感数据的访问方式发生任何变化，都可以通过算法新增违规场景业务规则，避免了规则更新的缓慢无法检测新的违规访问行为。

为达到上述目的，本发明的技术方案是：

一种基于聚类分析的敏感数据异常访问检测方法，其特征在于，包含以下步骤：

S01：建立基础违规场景业务规则库；

S02：建立关联关系，用聚类分析算法进行统计分析，发现偏离数据，分析数据的业务含义；

S03：分析聚类分析算法的结果，验证业务合规性，形成新的违规场景业务规则库。

优选的，所述步骤S01包括：

（1）对数据进行清洗，剔除没有意义的数据；

（2）根据4W-1H分析法，即who、when、where、what、how，非正确的人在非正确的时间通过非正常的源地址采取非正确的方式访问了非正确的对象，对每个元素进行细分，通过人工经验的方式建立违规场景业务规则库。

优选的，所述步骤（2）中对每个元素进行细分包括：将非正确的人分为：使用他人帐号、使用系统帐号、使用多个权限帐号；非正确的时间分为：非工单计划的工作时间；非正确的地址分为：使用他人地址、使用多个地址、使用明令禁止的地址；非正确的方式分为：一个工单多次使用、使用过期工单、数据复制到临时表；非正确的对象分为：其他帐号、其他系统的数据；how取决于具体业务的操作方法，其元素包括：动作和条件；动作包括：增、删、改、查；条件包括：单一条件、同类集合条件和条件组合。

优选的，所述步骤S02中建立关联关系为：以who为关键条件，建立与who相关的二阶关联关系和三阶关联关系。

优选的，所述步骤S03包括：

分析单一操作是否为确定业务，如果无法确定业务，需要分析其上、下操作语句，确定数据代表的业务；与具体的操作人员和工单确定其操作的合规性，明确是否符合业务要求，如果不符合，则形成新的违规场景业务规则库。

优选的，还包括对违规场景业务规则库进行质量评估的步骤，包括对新增违规场景业务规则的验证，检测是否能够发现新的异常访问行为；对已有的违规场景业务规则的适用性进行检测，对长期未检测出来的异常访问行为的规则库，延长其检测周期；对经常检测出来的异常访问行为规则库进行精准性分析，缩短检测周期。

优选的，所述聚类分析算法为K-means算法。

与现有技术相比，本发明的有益效果是：

通过建立违规场景业务规则的方式，将关键字、统计分析进行了重组，并利用聚类分析K-means算法挖掘数据中有可能存在的违规访问，形成和完善违规业务场景规则。通过这种方式，不管敏感数据的访问方式发生任何变化，都可以通过算法新增违规场景业务规则，避免了规则更新的缓慢无法检测新的违规访问行为。

附图说明

图1为本发明基于聚类分析的敏感数据异常访问检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式以及附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

如图1所示，一种基于聚类分析的敏感数据异常访问检测方法，包含以下步骤：

步骤一：建立基础违规场景业务规则库。具体地，包括以下两个步骤：（1）数据清洗，剔除没有意义的数据，如：不完整数据、错误数据、重复数据。（2）根据4W-1H分析法，通过人工经验的方式建立违规场景业务规则库。4W-1H分析法即who、when、where、what、how，非正确的人（帐号）在非正确的时间通过非正常的源地址采取非正确的方式访问了非正确的对象。对每个元素进行细分，如非正确的人，包括：使用他人帐号，使用系统帐号，使用多个权限帐号；非正确的时间，包括：非工单计划的工作时间；非正确的地址，包括：使用他人地址，使用多个地址，使用明令禁止的地址；非正确的方式，如：一个工单多次使用，使用过期工单，数据复制到临时表等；非正确的对象，如其他帐号、其他系统的数据等。how取决于具体业务的操作方法，其元素包括：动作和条件。动作包括：增、删、改、查；条件包括：单一条件，同类集合条件和条件组合。

步骤二：建立关联关系，用K-means算法进行统计分析。具体地，包括以下两个步骤：（1）建立关联关系，以who为关键条件，建立与who相关的二阶关联关系和三阶关联关系，建立每个元素的二阶关联关系，如who和where的关系、who和what的关系，who和how的关系；建立每个元素的三阶关联关系，如who、when和where的关系，who、when和what的关系，who、where和what的关系、who、when和how的关系，who、where和how的关系。（2）用K-means算法进行分析，发现偏离数据，分析数据的业务含义，排除数据干扰。

步骤三：分析K-means算法结果，验证业务合规性，形成新的违规场景业务规则库。具体地，主要是人工验证数据所反应业务的合规性。首先，分析单一操作是否为确定业务，如果无法确定业务，需要分析其上、下操作语句，确定这个数据代表了哪个业务；然后，跟具体的操作人员、工单一切确定其操作的合规性，明确是否符合业务要求，如果不符合，则形成新的违规场景业务规则库。如甲用户在三个月内就访问了一次敏感表使用了一次“改”的行为。人工验证这个行为的合规性，并形成违规场景业务规则：用户不得在三个月内访问同一张表的次数小于2，且使用“改”操作的次数小于2。

步骤四：对违规场景业务规则库进行质量评估。包括对新增违规场景业务规则的验证，检测是否能够发现新的异常访问行为；对已有的违规场景业务规则的适用性进行检测，对长期未检测出来的异常访问行为的规则库，延长其检测周期，如从一周一检延长为一月一检，避免规则库的增加影响检测的实效性；对经常检测出来的异常访问行为规则库进行精准性分析，提高精准度，缩短检测周期，如从一周一检缩短为一天一检，提高检测的实效性。

至此，敏感数据异常访问检测方法流程结束。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于聚类分析的敏感数据异常访问检测方法，其特征在于，包含以下步骤：

S01：建立基础违规场景业务规则库；

2.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，所述步骤S01包括：

（1）对数据进行清洗，剔除没有意义的数据；

3.根据权利要求2所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，所述步骤（2）中对每个元素进行细分包括：将非正确的人分为：使用他人帐号、使用系统帐号、使用多个权限帐号；非正确的时间分为：非工单计划的工作时间；非正确的地址分为：使用他人地址、使用多个地址、使用明令禁止的地址；非正确的方式分为：一个工单多次使用、使用过期工单、数据复制到临时表；非正确的对象分为：其他帐号、其他系统的数据；how取决于具体业务的操作方法，其元素包括：动作和条件；动作包括：增、删、改、查；条件包括：单一条件、同类集合条件和条件组合。

4.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，所述步骤S02中建立关联关系为：以who为关键条件，建立与who相关的二阶关联关系和三阶关联关系。

5.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，所述步骤S03包括：

6.根据权利要求1-5任一项所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，还包括对违规场景业务规则库进行质量评估的步骤，包括对新增违规场景业务规则的验证，检测是否能够发现新的异常访问行为；对已有的违规场景业务规则的适用性进行检测，对长期未检测出来的异常访问行为的规则库，延长其检测周期；对经常检测出来的异常访问行为规则库进行精准性分析，缩短检测周期。

7.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法，其特征在于，所述聚类分析算法为K-means算法。