CN106570131A - 一种基于聚类分析的敏感数据异常访问检测方法 - Google Patents

一种基于聚类分析的敏感数据异常访问检测方法 Download PDF

Info

Publication number
CN106570131A
CN106570131A CN201610955916.1A CN201610955916A CN106570131A CN 106570131 A CN106570131 A CN 106570131A CN 201610955916 A CN201610955916 A CN 201610955916A CN 106570131 A CN106570131 A CN 106570131A
Authority
CN
China
Prior art keywords
data
business
detection method
incorrect
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610955916.1A
Other languages
English (en)
Inventor
刘亮
王雷
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Le-Tour Technology Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
Beijing Le-Tour Technology Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Le-Tour Technology Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical Beijing Le-Tour Technology Co Ltd
Priority to CN201610955916.1A priority Critical patent/CN106570131A/zh
Publication of CN106570131A publication Critical patent/CN106570131A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Abstract

本发明公开了一种基于聚类分析的敏感数据异常访问检测方法,包含以下步骤:建立基础违规场景业务规则库;建立关联关系,用聚类分析算法进行统计分析,发现偏离数据,分析数据的业务含义;分析聚类分析算法的结果,验证业务合规性,形成新的违规场景业务规则库。通过建立违规场景业务规则的方式,将关键字、统计分析进行了重组,并利用聚类分析K‑means算法挖掘数据中有可能存在的违规访问,形成和完善违规业务场景规则。通过这种方式,不管敏感数据的访问方式发生任何变化,都可以通过算法新增违规场景业务规则,避免了规则更新的缓慢无法检测新的违规访问行为。

Description

一种基于聚类分析的敏感数据异常访问检测方法
技术领域
本发明属于计算机网络中的信息监控技术领域,具体地涉及一种基于聚类分析的敏感数据异常访问检测方法。
背景技术
随着企业的信息化发展,越来越多的业务可以通过互联网办理,每个业务都产生了大量数据。每个数据因为业务属性的不同,使得每个数据具有不同的价值。这些高价值的数据面临着众多威胁,对敏感数据的异常访问检测成为一种重要技术手段。
目前敏感数据的访问检测方法主要包括关键字分析和统计分析两种。
关键字分析:通常是多个关键字的组合,如非工作时间批量导出操作是时间和导出两个关键字的判断。
统计分析:通常是某个行为的基础统计,如某个帐号登录的IP大于3。
目前的检测方法存在如下缺陷:1、关键字的积累需要人工的经验,数据中存在大量类同数据,这是业务办理过程中产生的既定数据,无法确定关键字最大的覆盖了异常行为,存在漏报风险;2、关键字判断条件过于宽泛,在分析过程产生了大量误报;3、统计分析的方法简单,只是对帐号的基础行为进行了统计,威胁价值不高。如,某账号同时通过两个IP登录,只能说明帐号共用的问题,并未关联分析帐号登录后的操作所带来的威胁。
中国专利文献CN 103138986公开了一种基于可视分析的网站异常访问行为的检测方法,包括:(1)对网站服务器日志数据进行预处理,将访问数据和网站结构数据结合起来,将统计原始日志获得的节点及其子节点累加的出现与访问次数作为权值定义面积不同的可视化网站树图结构;(2)利用可视化方法展现经过预处理后的网站服务器日志数据的位置、时间、内容信息;(3)定义用户访问事件的动画方式,通过所述的三种视图以及在三个不同视图上采用的事件的动画方式来展示每一个访问地址在不同的时刻执行了不同的用户行为;(4)对访问用户进行聚类分析,在对用户访问行为重现的同时,增加对数据集进行聚类的功能,借助聚类结果发现其他的相似对象并进行索引,找出具有相似行为的同类用户;(5)对聚类的属性进行过滤和筛选,确定用来发现异常用户模式和与安全相关的行为所必须的用户的访问属性数据,检测聚类中的离群点,发现异常行为。该方法利用GPU 加速可视化处理,减轻CPU 的负担,能分析并显示网络数据,从而使用户能够发现DDoS 攻击前期所存在的主机扫描,端口扫描和正在进行的DDoS 攻击。但是该方法是利用已知的规则库对异常的访问进行识别,对规则库中不存在的异常访问无法识别,而且由于规则更新的缓慢,导致无法检测新的违规访问行为,存在着安全隐患。
发明内容
针对上述技术存在的不足,本发明旨在提供一种基于聚类分析的敏感数据异常访问检测方法,通过建立违规场景业务规则的方式,将关键字、统计分析进行了重组,并利用聚类分析K-means算法挖掘数据中有可能存在的违规访问,形成和完善违规业务场景规则。通过这种方式,不管敏感数据的访问方式发生任何变化,都可以通过算法新增违规场景业务规则,避免了规则更新的缓慢无法检测新的违规访问行为。
为达到上述目的,本发明的技术方案是:
一种基于聚类分析的敏感数据异常访问检测方法,其特征在于,包含以下步骤:
S01:建立基础违规场景业务规则库;
S02:建立关联关系,用聚类分析算法进行统计分析,发现偏离数据,分析数据的业务含义;
S03:分析聚类分析算法的结果,验证业务合规性,形成新的违规场景业务规则库。
优选的,所述步骤S01包括:
(1)对数据进行清洗,剔除没有意义的数据;
(2)根据4W-1H分析法,即who、when、where、what、how,非正确的人在非正确的时间通过非正常的源地址采取非正确的方式访问了非正确的对象,对每个元素进行细分,通过人工经验的方式建立违规场景业务规则库。
优选的,所述步骤(2)中对每个元素进行细分包括:将非正确的人分为:使用他人帐号、使用系统帐号、使用多个权限帐号;非正确的时间分为:非工单计划的工作时间;非正确的地址分为:使用他人地址、使用多个地址、使用明令禁止的地址;非正确的方式分为:一个工单多次使用、使用过期工单、数据复制到临时表;非正确的对象分为:其他帐号、其他系统的数据;how取决于具体业务的操作方法,其元素包括:动作和条件;动作包括:增、删、改、查;条件包括:单一条件、同类集合条件和条件组合。
优选的,所述步骤S02中建立关联关系为:以who为关键条件,建立与who相关的二阶关联关系和三阶关联关系。
优选的,所述步骤S03包括:
分析单一操作是否为确定业务,如果无法确定业务,需要分析其上、下操作语句,确定数据代表的业务;与具体的操作人员和工单确定其操作的合规性,明确是否符合业务要求,如果不符合,则形成新的违规场景业务规则库。
优选的,还包括对违规场景业务规则库进行质量评估的步骤,包括对新增违规场景业务规则的验证,检测是否能够发现新的异常访问行为;对已有的违规场景业务规则的适用性进行检测,对长期未检测出来的异常访问行为的规则库,延长其检测周期;对经常检测出来的异常访问行为规则库进行精准性分析,缩短检测周期。
优选的,所述聚类分析算法为K-means算法。
与现有技术相比,本发明的有益效果是:
通过建立违规场景业务规则的方式,将关键字、统计分析进行了重组,并利用聚类分析K-means算法挖掘数据中有可能存在的违规访问,形成和完善违规业务场景规则。通过这种方式,不管敏感数据的访问方式发生任何变化,都可以通过算法新增违规场景业务规则,避免了规则更新的缓慢无法检测新的违规访问行为。
附图说明
图1为本发明基于聚类分析的敏感数据异常访问检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式以及附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,一种基于聚类分析的敏感数据异常访问检测方法,包含以下步骤:
步骤一:建立基础违规场景业务规则库。具体地,包括以下两个步骤:(1)数据清洗,剔除没有意义的数据,如:不完整数据、错误数据、重复数据。(2)根据4W-1H分析法,通过人工经验的方式建立违规场景业务规则库。4W-1H分析法即who、when、where、what、how,非正确的人(帐号)在非正确的时间通过非正常的源地址采取非正确的方式访问了非正确的对象。对每个元素进行细分,如非正确的人,包括:使用他人帐号,使用系统帐号,使用多个权限帐号;非正确的时间,包括:非工单计划的工作时间;非正确的地址,包括:使用他人地址,使用多个地址,使用明令禁止的地址;非正确的方式,如:一个工单多次使用,使用过期工单,数据复制到临时表等;非正确的对象,如其他帐号、其他系统的数据等。how取决于具体业务的操作方法,其元素包括:动作和条件。动作包括:增、删、改、查;条件包括:单一条件,同类集合条件和条件组合。
步骤二:建立关联关系,用K-means算法进行统计分析。具体地,包括以下两个步骤:(1)建立关联关系,以who为关键条件,建立与who相关的二阶关联关系和三阶关联关系,建立每个元素的二阶关联关系,如who和where的关系、who和what的关系,who和how的关系;建立每个元素的三阶关联关系,如who、when和where的关系,who、when和what的关系,who、where和what的关系、who、when和how的关系,who、where和how的关系。(2)用K-means算法进行分析,发现偏离数据,分析数据的业务含义,排除数据干扰。
步骤三:分析K-means算法结果,验证业务合规性,形成新的违规场景业务规则库。具体地,主要是人工验证数据所反应业务的合规性。首先,分析单一操作是否为确定业务,如果无法确定业务,需要分析其上、下操作语句,确定这个数据代表了哪个业务;然后,跟具体的操作人员、工单一切确定其操作的合规性,明确是否符合业务要求,如果不符合,则形成新的违规场景业务规则库。如甲用户在三个月内就访问了一次敏感表使用了一次“改”的行为。人工验证这个行为的合规性,并形成违规场景业务规则:用户不得在三个月内访问同一张表的次数小于2,且使用“改”操作的次数小于2。
步骤四:对违规场景业务规则库进行质量评估。包括对新增违规场景业务规则的验证,检测是否能够发现新的异常访问行为;对已有的违规场景业务规则的适用性进行检测,对长期未检测出来的异常访问行为的规则库,延长其检测周期,如从一周一检延长为一月一检,避免规则库的增加影响检测的实效性;对经常检测出来的异常访问行为规则库进行精准性分析,提高精准度,缩短检测周期,如从一周一检缩短为一天一检,提高检测的实效性。
至此,敏感数据异常访问检测方法流程结束。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于聚类分析的敏感数据异常访问检测方法,其特征在于,包含以下步骤:
S01:建立基础违规场景业务规则库;
S02:建立关联关系,用聚类分析算法进行统计分析,发现偏离数据,分析数据的业务含义;
S03:分析聚类分析算法的结果,验证业务合规性,形成新的违规场景业务规则库。
2.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,所述步骤S01包括:
(1)对数据进行清洗,剔除没有意义的数据;
(2)根据4W-1H分析法,即who、when、where、what、how,非正确的人在非正确的时间通过非正常的源地址采取非正确的方式访问了非正确的对象,对每个元素进行细分,通过人工经验的方式建立违规场景业务规则库。
3.根据权利要求2所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,所述步骤(2)中对每个元素进行细分包括:将非正确的人分为:使用他人帐号、使用系统帐号、使用多个权限帐号;非正确的时间分为:非工单计划的工作时间;非正确的地址分为:使用他人地址、使用多个地址、使用明令禁止的地址;非正确的方式分为:一个工单多次使用、使用过期工单、数据复制到临时表;非正确的对象分为:其他帐号、其他系统的数据;how取决于具体业务的操作方法,其元素包括:动作和条件;动作包括:增、删、改、查;条件包括:单一条件、同类集合条件和条件组合。
4.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,所述步骤S02中建立关联关系为:以who为关键条件,建立与who相关的二阶关联关系和三阶关联关系。
5.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,所述步骤S03包括:
分析单一操作是否为确定业务,如果无法确定业务,需要分析其上、下操作语句,确定数据代表的业务;与具体的操作人员和工单确定其操作的合规性,明确是否符合业务要求,如果不符合,则形成新的违规场景业务规则库。
6.根据权利要求1-5任一项所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,还包括对违规场景业务规则库进行质量评估的步骤,包括对新增违规场景业务规则的验证,检测是否能够发现新的异常访问行为;对已有的违规场景业务规则的适用性进行检测,对长期未检测出来的异常访问行为的规则库,延长其检测周期;对经常检测出来的异常访问行为规则库进行精准性分析,缩短检测周期。
7.根据权利要求1所述的基于聚类分析的敏感数据异常访问检测方法,其特征在于,所述聚类分析算法为K-means算法。
CN201610955916.1A 2016-10-27 2016-10-27 一种基于聚类分析的敏感数据异常访问检测方法 Pending CN106570131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610955916.1A CN106570131A (zh) 2016-10-27 2016-10-27 一种基于聚类分析的敏感数据异常访问检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610955916.1A CN106570131A (zh) 2016-10-27 2016-10-27 一种基于聚类分析的敏感数据异常访问检测方法

Publications (1)

Publication Number Publication Date
CN106570131A true CN106570131A (zh) 2017-04-19

Family

ID=58535653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610955916.1A Pending CN106570131A (zh) 2016-10-27 2016-10-27 一种基于聚类分析的敏感数据异常访问检测方法

Country Status (1)

Country Link
CN (1) CN106570131A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911232A (zh) * 2017-10-27 2018-04-13 北京神州绿盟信息安全科技股份有限公司 一种确定业务操作规则的方法及装置
CN108427890A (zh) * 2018-03-02 2018-08-21 北京明朝万达科技股份有限公司 一种敏感数据动态检测方法及装置
CN110175113A (zh) * 2019-04-18 2019-08-27 阿里巴巴集团控股有限公司 业务场景确定方法和装置
CN110851414A (zh) * 2019-11-06 2020-02-28 云南艾拓信息技术有限公司 一种以聚类法进行边界数据分析的方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409885A (zh) * 2008-11-18 2009-04-15 中国移动通信集团福建有限公司 基于规则引擎的异常指标分析方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN105376193A (zh) * 2014-08-15 2016-03-02 中国电信股份有限公司 安全事件的智能关联分析方法与装置
CN106027577A (zh) * 2016-08-04 2016-10-12 四川无声信息技术有限公司 一种异常访问行为检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409885A (zh) * 2008-11-18 2009-04-15 中国移动通信集团福建有限公司 基于规则引擎的异常指标分析方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN105376193A (zh) * 2014-08-15 2016-03-02 中国电信股份有限公司 安全事件的智能关联分析方法与装置
CN106027577A (zh) * 2016-08-04 2016-10-12 四川无声信息技术有限公司 一种异常访问行为检测方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911232A (zh) * 2017-10-27 2018-04-13 北京神州绿盟信息安全科技股份有限公司 一种确定业务操作规则的方法及装置
CN107911232B (zh) * 2017-10-27 2021-04-30 绿盟科技集团股份有限公司 一种确定业务操作规则的方法及装置
CN108427890A (zh) * 2018-03-02 2018-08-21 北京明朝万达科技股份有限公司 一种敏感数据动态检测方法及装置
CN108427890B (zh) * 2018-03-02 2020-05-08 北京明朝万达科技股份有限公司 一种敏感数据动态检测方法及装置
CN110175113A (zh) * 2019-04-18 2019-08-27 阿里巴巴集团控股有限公司 业务场景确定方法和装置
CN110175113B (zh) * 2019-04-18 2023-07-14 创新先进技术有限公司 业务场景确定方法和装置
CN110851414A (zh) * 2019-11-06 2020-02-28 云南艾拓信息技术有限公司 一种以聚类法进行边界数据分析的方法及其系统
CN110851414B (zh) * 2019-11-06 2023-05-05 云南艾拓信息技术有限公司 一种以聚类法进行边界数据分析的方法及其系统

Similar Documents

Publication Publication Date Title
CN107888574B (zh) 检测数据库风险的方法、服务器及存储介质
da Silva et al. Heuristic-based strategy for Phishing prediction: A survey of URL-based approach
KR102138965B1 (ko) 계정 도난 위험 식별 방법, 식별 장치, 예방 및 통제 시스템
Manadhata et al. Measuring the attack surfaces of two FTP daemons
Geer et al. Information security: Why the future belongs to the quants
TW201629824A (zh) 使用適應性行爲輪廓之異常檢測技術
CN106570131A (zh) 一种基于聚类分析的敏感数据异常访问检测方法
CN113542279A (zh) 一种网络安全风险评估方法、系统及装置
Liu et al. Smartening the crowds: computational techniques for improving human verification to fight phishing scams
CN112115482A (zh) 一种基于大数据的用于保护数据的数据安全监控系统
CN107454096B (zh) 一种基于日志回放的误报消除方法
Wu et al. Alert correlation for cyber-manufacturing intrusion detection
CN108108624A (zh) 基于产品和服务的信息安全质量评估方法及装置
JP6419667B2 (ja) テストdbデータ生成方法及び装置
Xie et al. You can promote, but you can't hide: large-scale abused app detection in mobile app stores
Diesch et al. Prerequisite to measure information security
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN108683662B (zh) 单台在网设备风险评估方法及系统
CN114785710A (zh) 一种工业互联网标识解析二级节点服务能力的评估方法及系统
WO2022150513A1 (en) Systems, devices, and methods for observing and/or securing data access to a computer network
CN104486353B (zh) 一种基于流量的安全事件检测方法及装置
Petrenko et al. Methodological recommendations for the cyber risks management
US11575702B2 (en) Systems, devices, and methods for observing and/or securing data access to a computer network
CN115567241A (zh) 一种多站点网络感知检测系统
Bertino et al. Securing dbms: characterizing and detecting query floods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419

RJ01 Rejection of invention patent application after publication