CN110990867B - 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 - Google Patents

基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 Download PDF

Info

Publication number
CN110990867B
CN110990867B CN201911193700.6A CN201911193700A CN110990867B CN 110990867 B CN110990867 B CN 110990867B CN 201911193700 A CN201911193700 A CN 201911193700A CN 110990867 B CN110990867 B CN 110990867B
Authority
CN
China
Prior art keywords
data
user group
user
role
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911193700.6A
Other languages
English (en)
Other versions
CN110990867A (zh
Inventor
王启凡
梁淑云
刘胜
马影
陶景龙
魏国富
徐�明
殷钱安
余贤喆
周晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201911193700.6A priority Critical patent/CN110990867B/zh
Publication of CN110990867A publication Critical patent/CN110990867A/zh
Application granted granted Critical
Publication of CN110990867B publication Critical patent/CN110990867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统,包括以下步骤:A、角色和用户组关系的建立:S100.数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;S200.解析SQL语句,提取表名;S300.数据关联及特征加工;S400.用户组的建立,定义用户组;S500.建立角色和用户组的关系;B、OneClassSvm模型训练:S600.正样本特征加工,S700.正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界。本发明针基于数据库,对用户聚类出用户组,有别于提供的角色属性,这样可以保证用户的角色属性划分不合理的情况下,也可以科学的进行组内异常探索。

Description

基于数据库的数据泄露检测模型的建模方法、装置,泄露检测 方法、系统
技术领域
本发明涉及数据安全技术领域,具体来说是基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统。
背景技术
随着信息时代的到来,随着智能设备、软件应用的普及,我们产生的数据也以指数级增长。然而,数据泄露事件也越来越多,事件引发的后果也越来越大。从infowatch发布的2019年数据泄露报告中可以看出,数据泄露事件成倍数增长,光第二季度就有2.16亿用户数据被泄露,治理数据泄露问题变得刻不容缓。
现在治理数据泄露的方法和设备也非常多,大多是对数据进行加密、审计服务器文件传输日志、标记重要数据类的功能。如申请号为CN201110074937.X公开了一种数据加密方法和解密方法,方法主要为产生对应于该电子装置的一识别码;根据该识别码产生一临时金钥;利用该临时金钥以一第一加密机制对一第一数据进行加密以产生一第一密钥;利用一第二加密机制对该第一密钥加密以产生一加密金钥。虽然通过该方法,实现对数据的加密,但是数据加密只能起到防范数据泄露,无法追溯泄露源头;再如申请号为CN201810502740.3公开了一种应用操作日志审计系统,通过日志生成单元根据应用操作动作信息生成包括日志类型、安全等级、操作内容、操作IP和操作时间的操作日志数据,并对操作日志数据进行分析,审计单元自动判断应用操作是否合法,其具有设计科学、实用性强、使用方便、安全高效的优点。但是审计服务器文件传输日志只能审计服务器级别的数据泄露,无法结合数据库;标记重要数据类虽然理论上是可以应用到数据库中进行泄露检测,但是对数据库会进行修改,破坏原始数据,而且工作量大,泄露的结果也不好找寻。
发明内容
本发明所要解决的技术问题在于现有技术中的数据泄露治理方法或无法结合数据库使用,或即使结合数据库,但是会破坏原始数据的问题。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于数据库中敏感数据泄露检测用的模型建立方法,包括以下步骤:
A、角色和用户组关系的建立:
S100.数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
S200.解析SQL语句,提取表名;
S300.数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
S400.用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;
S500.建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
B、OneClassSvm模型训练:
S600.正样本特征加工,首先获取样本数据,结合S500中的角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;
S700.正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界。
本发明基于数据库中,根据数据库中已知的敏感数据,进行用户组和角色的定义以及二者关系的关联,作为模型的训练数据,基于模型训练出正边界常数据进行预测,对于未预测的数据,无需用模型再次学习,可以直接算出结果,适合实时分析。
针对用户聚类出用户组,有别于提供的角色属性,可以保证用户的角色属性划分不合理的情况下,也可以科学的进行组内异常探索。
优选的,所述步骤S200中提取表名具体方法为:
利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容,若没有下一个关键词,则截取到最后,截取的部分即为表名。
优选的,所述步骤S300中数据关联具体方法为:
根据用户ID将操作日志数据与用户角色数据进行关联,通过表名将操作日志数据与敏感数据列表进行关联;
所述步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。
优选的,所述步骤S400中采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类,并将最接近的群体定义为用户组。
优选的,所述步骤S500中角色和用户组的关系的建立方法为,根据用户的角色属性,得到角色-用户-用户组的关系,然后计算角色中的用户组占比,将每个角色中最大占比的用户组,组成角色和用户组的关系。
本发明还基于上述模型,提供一种基于数据库中敏感数据的泄露检测方法,包括以下步骤:
S800.待测数据加工,获取待验证数据,结合S500中的角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
S900.将第三宽表数据依据用户组分组信息代入S700中对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
本发明还提供一种基于数据库中敏感数据泄露检测用的模型建立装置,包括
角色和用户组关系的建立模块:用以
数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
解析SQL语句,提取表名;
数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;
建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
OneClassSvm模型训练模块:用以
正样本特征加工,首先获取样本数据,结合S500中的角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;
正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界。
优选的,所述角色和用户组关系的建立模块中提取表名具体方法为:
利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容,若没有下一个关键词,则截取到最后,截取的部分即为表名;
数据关联具体方法为:
根据用户ID将操作日志数据与用户角色数据进行关联,通过表名将操作日志数据与敏感数据列表进行关联;
所述步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。
优选的,所述用户组的建立具体采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类,并将最接近的群体定义为用户组;所述角色和用户组的关系的建立方法为,根据用户的角色属性,得到角色-用户-用户组的关系,然后计算角色中的用户组占比,将每个角色中最大占比的用户组,组成角色和用户组的关系。
本发明还提供一种基于数据库中敏感数据的泄露检测系统,包括:
待测数据加工模块,用以获取待验证数据,结合角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
检测模块,将第三宽表数据依据用户组分组信息代入对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
本发明的优点在于:本发明基于数据库中,根据数据库中已知的敏感数据,进行用户组和角色的定义以及二者关系的关联,作为模型的训练数据,基于模型训练出正边界常数据来预测,对于未预测的数据,无需用模型再次学习,可以直接算出结果,适合实时分析。
针对用户聚类出用户组,有别于提供的角色属性,可以保证用户的角色属性划分不合理的情况下,也可以科学的进行组内异常探索。
附图说明
图1为本发明实施例1和实施例2中的建模方法及模型应用时的检测方法流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种基于数据库中敏感数据泄露检测用的模型建立方法,具体包括以下步骤:
步骤1.数据采集
采集如下数据:
A,操作日志数据。主要内容如下:
Figure BDA0002294207810000051
B,用户角色数据。主要内容如下:
Figure BDA0002294207810000052
Figure BDA0002294207810000061
C,敏感数据列表。主要内容如下:
Figure BDA0002294207810000062
步骤2.解析SQL语句,提取表名。
基于操作日志数据中的SQL语句,解析出表名。解析方式如下:
A,利用python的sqlparse工具进行语句分析。sqlparse工具可以解析出单词的词性,词性包括:关键词、方法、符号等。
B,截取FROM关键词和下一个关键词中间的内容。(若没有下一个关键词,截取到最后)。其中,下一个关键词为'WHERE','FROM','AND','OR','LIKE','ON','IN','SET','BY','GROUP','ORDER','LEFT','OUTER','FULL','IF','END','THEN','LOOP','AS','ELSE','FOR','WHILE','CASE','WHEN','MIN','MAX','DISTINCT',本实施例中主要用到的是'WHERE','FROM','GROUP','ORDER'。
C,截取的部分就是表名。
步骤3.数据关联及特征加工
S03.1关联数据:
A,操作日志数据的[用户ID]关联用户角色数据的[用户ID]。
B,操作日志数据解析出来的[表名]关联敏感数据列表的[表名]。
S03.2构建的特征如下:
第一宽表
Figure BDA0002294207810000063
Figure BDA0002294207810000071
本实施中,当前特征值设计了2个特征维度,一个是行求和,一个是操作次数。除此以外,还可以有其他特征,比如平均数,众数,离散系数等等。建立宽表可以反应该用户在各种敏感级别表的操作情况。还能反应这个用户在工作时间和非工作时间的操作情况。经过我们之前的项目经验,在工作时间和非工作时间操作的区别很大,比较能反应异常结果。建立宽表的目的是,在业务范围内最大程度反应一个用户的状态。
步骤4.模型聚类
本实施例用的是Kmeans聚类。Kmeans聚类算法的作用是把数据按照距离分成若干类。
通过Kmeans聚类从第一宽表中找出最接近的群体,并将这些群体定义为用户组。
步骤5.制定角色和用户组的关系
S05.1通过聚类,我们可以找到用户和用户组之间多对一的关系。
S05.2根据用户的角色属性,可以得到角色-用户-用户组的关系。
如下表:
角色 用户 用户组
管理员 张三 A
管理员 李四 A
管理员 王五 B
运维人员 赵六 B
运维人员 孙七 B
S05.3计算角色中的用户组的占比。
如:
角色 用户组 占比
管理员 A 66%
管理员 B 33%
运维人员 B 100%
S05.4我们找到每个角色中最大占比的用户组,组成角色和用户组的关系。
如:
角色 用户组
管理员 A
运维人员 B
步骤6.正样本特征加工
S06.1关联用户组
将所有样本,结合S05的角色和用户组的关系,关联出用户组。
S06.2找出正样本
S06.2.1在用户组A中,随机抽取部分用户。
S06.2.2结合相关业务,分析抽取的用户的数据,是否符合正常的业务范围。S06.2.3找出在抽取用户中,所有数据都人工审核通过的用户,作为正样本。S06.3对正样本进行特征加工
构建如下特征:
第二宽表
Figure BDA0002294207810000081
Figure BDA0002294207810000091
步骤7.训练OneClassSvm模型
S07.1用用户组属性对正样本进行分组。每个用户组一个组。
S07.2每个用户组都对应一个OneClassSvm模型,并对组内的正样本宽表数据进行OneClassSvm模型训练,训练完后就能让模型学习出来该用户组下正常数据的边界。
至此,模型建立结束。相匹配的,本实施还提供一种上述模型建立的装置,包括:
角色和用户组关系的建立模块:用以数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
采集如下数据:
A,操作日志数据。主要内容如下:
Figure BDA0002294207810000092
B,用户角色数据。主要内容如下:
Figure BDA0002294207810000093
C,敏感数据列表。主要内容如下:
Figure BDA0002294207810000101
解析SQL语句,提取表名;
基于操作日志数据中的SQL语句,解析出表名。解析方式如下:
A,利用python的sqlparse工具进行语句分析。sqlparse工具可以解析出单词的词性,词性包括:关键词、方法、符号等。
B,截取FROM关键词和下一个关键词中间的内容。(若没有下一个关键词,截取到最后)。其中,下一个关键词为'WHERE','FROM','AND','OR','LIKE','ON','IN','SET','BY','GROUP','ORDER','LEFT','OUTER','FULL','IF','END','THEN','LOOP','AS','ELSE','FOR','WHILE','CASE','WHEN','MIN','MAX','DISTINCT',本实施例中主要用到的是'WHERE','FROM','GROUP','ORDER'。
C,截取的部分就是表名。
数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
S03.1关联数据:
A,操作日志数据的[用户ID]关联用户角色数据的[用户ID]。
B,操作日志数据解析出来的[表名]关联敏感数据列表的[表名]。
S03.2构建的特征如下:
第一宽表
Figure BDA0002294207810000102
Figure BDA0002294207810000111
本实施中,当前特征值设计了2个特征维度,一个是行求和,一个是操作次数。除此以外,还可以有其他特征,比如平均数,众数,离散系数等等。建立宽表可以反应该用户在各种敏感级别表的操作情况。还能反应这个用户在工作时间和非工作时间的操作情况。经过我们之前的项目经验,在工作时间和非工作时间操作的区别很大,比较能反应异常结果。建立宽表的目的是,在业务范围内最大程度反应一个用户的状态。
用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;本实施例用的是Kmeans聚类。Kmeans聚类算法的作用是把数据按照距离分成若干类。
通过Kmeans聚类从第一宽表中找出最接近的群体,并将这些群体定义为用户组。
建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
S05.1通过聚类,我们可以找到用户和用户组之间多对一的关系。
S05.2根据用户的角色属性,可以得到角色-用户-用户组的关系。
如下表:
角色 用户 用户组
管理员 张三 A
管理员 李四 A
管理员 王五 B
运维人员 赵六 B
运维人员 孙七 B
S05.3计算角色中的用户组的占比。
如:
角色 用户组 占比
管理员 A 66%
管理员 B 33%
运维人员 B 100%
S05.4我们找到每个角色中最大占比的用户组,组成角色和用户组的关系。
如:
角色 用户组
管理员 A
运维人员 B
OneClassSvm模型训练模块:用以
正样本特征加工,首先获取样本数据,结合角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;具体为:
S06.1关联用户组
将所有样本,结合S05的角色和用户组的关系,关联出用户组。
S06.2找出正样本
S06.2.1在用户组A中,随机抽取部分用户。
S06.2.2结合相关业务,分析抽取的用户的数据,是否符合正常的业务范围。
S06.2.3找出在抽取用户中,所有数据都人工审核通过的用户,作为正样本。
S06.3对正样本进行特征加工
构建如下特征:
第二宽表
Figure BDA0002294207810000121
Figure BDA0002294207810000131
正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界。
实施例2
本实施例提供一种基于数据库中敏感数据的泄露检测方法,应用实施例1中模型,具体包括以下步骤:
步骤8.待测数据加工,获取待验证数据,结合步骤5中的角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
步骤9.将第三宽表数据依据用户组分组信息代入步骤7中对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
相匹配的,本实施例还提供一种检测系统,包括:
待测数据加工模块,用以获取待验证数据,结合角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
检测模块,将第三宽表数据依据用户组分组信息代入对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于数据库中敏感数据泄露检测用的模型建立方法,其特征在于:包括以下步骤:
A、角色和用户组关系的建立:
S100.数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
S200.解析SQL语句,提取表名;
S300.数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
S400.用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;
S500.建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
B、OneClassSvm模型训练:
S600.正样本特征加工,首先获取样本数据,结合步骤S500中的角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;
S700.正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界;
C、敏感数据的泄露检测:
S800.待测数据加工,获取待验证数据,结合步骤S500中的角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
S900.将第三宽表数据依据用户组分组信息代入S700中对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
2.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法,其特征在于:所述步骤S200中提取表名具体方法为:
利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容,若没有下一个关键词,则截取到最后,截取的部分即为表名。
3.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法,其特征在于:步骤S300中数据关联具体方法为:
根据用户ID将操作日志数据与用户角色数据进行关联,通过表名将操作日志数据与敏感数据列表进行关联;
所述步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。
4.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法,其特征在于:步骤S400中采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类,并将最接近的群体定义为用户组。
5.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法,其特征在于:步骤S500中角色和用户组的关系的建立方法为,根据用户的角色属性,得到角色-用户-用户组的关系,然后计算角色中的用户组占比,将每个角色中最大占比的用户组,组成角色和用户组的关系。
6.一种基于数据库中敏感数据泄露检测用的模型建立装置,其特征在于:包括
角色和用户组关系的建立模块:用以
数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
解析SQL语句,提取表名;
数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;
建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
OneClassSvm模型训练模块:用以
正样本特征加工,首先获取样本数据,结合步骤S500中的角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;
正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界。
7.根据权利要求6所述的一种基于数据库中敏感数据泄露检测用的模型建立装置,其特征在于:所述角色和用户组关系的建立模块中提取表名具体方法为:
利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容,若没有下一个关键词,则截取到最后,截取的部分即为表名;
数据关联具体方法为:
根据用户ID将操作日志数据与用户角色数据进行关联,通过表名将操作日志数据与敏感数据列表进行关联;
步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。
8.根据权利要求6所述的一种基于数据库中敏感数据泄露检测用的模型建立装置,其特征在于:所述用户组的建立具体采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类,并将最接近的群体定义为用户组;所述角色和用户组的关系的建立方法为,根据用户的角色属性,得到角色-用户-用户组的关系,然后计算角色中的用户组占比,将每个角色中最大占比的用户组,组成角色和用户组的关系。
9.一种基于数据库中敏感数据的泄露检测系统,其特征在于:包括
待测数据加工模块,用以获取待验证数据,结合角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;具体方法如下:
A、角色和用户组关系的建立:
S100.数据采集,数据包括操作日志数据、用户角色数据、敏感数据列表;
S200.解析SQL语句,提取表名;
S300.数据关联及特征加工,具体为:
将操作日志数据、用户角色数据、敏感数据列表三者关联后,并进行特征加工,形成第一宽表;
S400.用户组的建立,根据特征对所述第一宽表内用户进行聚类,将最接近的群体定义为用户组;
S500.建立角色和用户组的关系,找到每个角色中最大占比的用户组,组成该角色和该用户组的关系;
B、OneClassSvm模型训练:
S600.正样本特征加工,首先获取样本数据,结合步骤S500中的角色和用户组关系,关联出用户组;然后从每个用户组中选出符合正常业务范围的用户作为正样本,再对正样本进行特征加工,形成第二宽表;
S700.正样本中每个用户组对应一个OneClassSvm模型,并对该用户组内的第二宽表数据进行OneClassSvm模型训练,从而获得该用户组下正常数据的边界;
C、敏感数据的泄露检测:
S800.待测数据加工,获取待验证数据,结合S500中的角色和用户组关系,关联出用户组,并对待验证数据进行特征加工,获得具有与第二宽表特征相同的第三宽表;
检测模块,将第三宽表数据依据用户组分组信息代入对应的OneClassSvm模型进行检测,若模型结果在正常数据边界内,则将目标用户的行表达为正常;若模型结果在正常数据边界外,则将目标用户的行为标定为异常。
CN201911193700.6A 2019-11-28 2019-11-28 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 Active CN110990867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911193700.6A CN110990867B (zh) 2019-11-28 2019-11-28 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911193700.6A CN110990867B (zh) 2019-11-28 2019-11-28 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统

Publications (2)

Publication Number Publication Date
CN110990867A CN110990867A (zh) 2020-04-10
CN110990867B true CN110990867B (zh) 2023-02-07

Family

ID=70087852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911193700.6A Active CN110990867B (zh) 2019-11-28 2019-11-28 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统

Country Status (1)

Country Link
CN (1) CN110990867B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032824B (zh) * 2021-03-01 2023-06-23 上海观安信息技术股份有限公司 基于数据库流量日志的低频数据泄漏检测方法及系统
CN113704752B (zh) * 2021-08-31 2024-01-26 上海观安信息技术股份有限公司 数据泄露行为的检测方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229849A (zh) * 2016-03-24 2017-10-03 全球能源互联网研究院 面向电力信息内外网边界的数据库用户行为安全审计方法
CN107276980A (zh) * 2017-05-02 2017-10-20 广东电网有限责任公司信息中心 一种基于关联分析的用户异常行为检测方法及系统
CN107402957A (zh) * 2017-06-09 2017-11-28 全球能源互联网研究院 用户行为模式库的构建及用户行为异常检测方法、系统
CN109936561A (zh) * 2019-01-08 2019-06-25 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109961086A (zh) * 2019-01-28 2019-07-02 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN110457405A (zh) * 2019-08-20 2019-11-15 上海观安信息技术股份有限公司 一种基于血缘关系的数据库审计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229849A (zh) * 2016-03-24 2017-10-03 全球能源互联网研究院 面向电力信息内外网边界的数据库用户行为安全审计方法
CN107276980A (zh) * 2017-05-02 2017-10-20 广东电网有限责任公司信息中心 一种基于关联分析的用户异常行为检测方法及系统
CN107402957A (zh) * 2017-06-09 2017-11-28 全球能源互联网研究院 用户行为模式库的构建及用户行为异常检测方法、系统
CN109936561A (zh) * 2019-01-08 2019-06-25 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109961086A (zh) * 2019-01-28 2019-07-02 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN110457405A (zh) * 2019-08-20 2019-11-15 上海观安信息技术股份有限公司 一种基于血缘关系的数据库审计方法

Also Published As

Publication number Publication date
CN110990867A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN108108902B (zh) 一种风险事件告警方法和装置
CN111639497B (zh) 一种基于大数据机器学习的异常行为发现方法
AU2008339587B2 (en) Data normalisation for investigative data mining
CN110990867B (zh) 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统
CN111159387A (zh) 基于多维度报警信息文本相似度分析的推荐方法
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN112417492A (zh) 基于数据分类分级的服务提供方法
CN114398665A (zh) 一种数据脱敏方法、装置、存储介质及终端
CN111782719B (zh) 数据处理方法及装置
CN107368592B (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
Torra Privacy in data mining
CN111598700A (zh) 一种金融风控系统及方法
CN111400448A (zh) 对象的关联关系分析方法及装置
CN114785710A (zh) 一种工业互联网标识解析二级节点服务能力的评估方法及系统
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN111460139B (zh) 一种基于智慧管理的工程监理知识服务系统及方法
CN112559776A (zh) 一种敏感信息的定位方法及系统
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
CN112349431A (zh) 药物警戒体系健康指数生成方法、系统和计算机可读介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN108874619B (zh) 一种信息监控方法、存储介质和服务器
CN116070263A (zh) 数据脱敏处理方法、网关及存储介质
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN113901075A (zh) 生成sql语句的方法、装置、计算机设备及存储介质
CN113807679A (zh) 一种面向园区执法的管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant