CN110990867B

CN110990867B - 基于数据库的数据泄露检测模型的建模方法、装置，泄露检测方法、系统

Info

Publication number: CN110990867B
Application number: CN201911193700.6A
Authority: CN
Inventors: 王启凡; 梁淑云; 刘胜; 马影; 陶景龙; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-02-07
Anticipated expiration: 2039-11-28
Also published as: CN110990867A

Abstract

本发明提供一种基于数据库的数据泄露检测模型的建模方法、装置，泄露检测方法、系统，包括以下步骤：A、角色和用户组关系的建立：S100.数据采集，数据包括操作日志数据、用户角色数据、敏感数据列表；S200.解析SQL语句，提取表名；S300.数据关联及特征加工；S400.用户组的建立，定义用户组；S500.建立角色和用户组的关系；B、OneClassSvm模型训练：S600.正样本特征加工，S700.正样本中每个用户组对应一个OneClassSvm模型，并对该用户组内的第二宽表数据进行OneClassSvm模型训练，从而获得该用户组下正常数据的边界。本发明针基于数据库，对用户聚类出用户组，有别于提供的角色属性，这样可以保证用户的角色属性划分不合理的情况下，也可以科学的进行组内异常探索。

Description

基于数据库的数据泄露检测模型的建模方法、装置，泄露检测方法、系统

技术领域

本发明涉及数据安全技术领域，具体来说是基于数据库的数据泄露检测模型的建模方法、装置，泄露检测方法、系统。

背景技术

随着信息时代的到来，随着智能设备、软件应用的普及，我们产生的数据也以指数级增长。然而，数据泄露事件也越来越多，事件引发的后果也越来越大。从infowatch发布的2019年数据泄露报告中可以看出，数据泄露事件成倍数增长，光第二季度就有2.16亿用户数据被泄露，治理数据泄露问题变得刻不容缓。

现在治理数据泄露的方法和设备也非常多，大多是对数据进行加密、审计服务器文件传输日志、标记重要数据类的功能。如申请号为CN201110074937.X公开了一种数据加密方法和解密方法，方法主要为产生对应于该电子装置的一识别码；根据该识别码产生一临时金钥；利用该临时金钥以一第一加密机制对一第一数据进行加密以产生一第一密钥；利用一第二加密机制对该第一密钥加密以产生一加密金钥。虽然通过该方法，实现对数据的加密，但是数据加密只能起到防范数据泄露，无法追溯泄露源头；再如申请号为CN201810502740.3公开了一种应用操作日志审计系统，通过日志生成单元根据应用操作动作信息生成包括日志类型、安全等级、操作内容、操作IP和操作时间的操作日志数据，并对操作日志数据进行分析，审计单元自动判断应用操作是否合法，其具有设计科学、实用性强、使用方便、安全高效的优点。但是审计服务器文件传输日志只能审计服务器级别的数据泄露，无法结合数据库；标记重要数据类虽然理论上是可以应用到数据库中进行泄露检测，但是对数据库会进行修改，破坏原始数据，而且工作量大，泄露的结果也不好找寻。

发明内容

本发明所要解决的技术问题在于现有技术中的数据泄露治理方法或无法结合数据库使用，或即使结合数据库，但是会破坏原始数据的问题。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于数据库中敏感数据泄露检测用的模型建立方法，包括以下步骤：

A、角色和用户组关系的建立：

S100.数据采集，数据包括操作日志数据、用户角色数据、敏感数据列表；

S200.解析SQL语句，提取表名；

S300.数据关联及特征加工，具体为：

将操作日志数据、用户角色数据、敏感数据列表三者关联后，并进行特征加工，形成第一宽表；

S400.用户组的建立，根据特征对所述第一宽表内用户进行聚类，将最接近的群体定义为用户组；

S500.建立角色和用户组的关系，找到每个角色中最大占比的用户组，组成该角色和该用户组的关系；

B、OneClassSvm模型训练：

S600.正样本特征加工，首先获取样本数据，结合S500中的角色和用户组关系，关联出用户组；然后从每个用户组中选出符合正常业务范围的用户作为正样本，再对正样本进行特征加工，形成第二宽表；

S700.正样本中每个用户组对应一个OneClassSvm模型，并对该用户组内的第二宽表数据进行OneClassSvm模型训练，从而获得该用户组下正常数据的边界。

本发明基于数据库中，根据数据库中已知的敏感数据，进行用户组和角色的定义以及二者关系的关联，作为模型的训练数据，基于模型训练出正边界常数据进行预测，对于未预测的数据，无需用模型再次学习，可以直接算出结果，适合实时分析。

针对用户聚类出用户组，有别于提供的角色属性，可以保证用户的角色属性划分不合理的情况下，也可以科学的进行组内异常探索。

优选的，所述步骤S200中提取表名具体方法为：

利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容，若没有下一个关键词，则截取到最后，截取的部分即为表名。

优选的，所述步骤S300中数据关联具体方法为：

根据用户ID将操作日志数据与用户角色数据进行关联，通过表名将操作日志数据与敏感数据列表进行关联；

所述步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。

优选的，所述步骤S400中采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类，并将最接近的群体定义为用户组。

优选的，所述步骤S500中角色和用户组的关系的建立方法为，根据用户的角色属性，得到角色-用户-用户组的关系，然后计算角色中的用户组占比，将每个角色中最大占比的用户组，组成角色和用户组的关系。

本发明还基于上述模型，提供一种基于数据库中敏感数据的泄露检测方法，包括以下步骤：

S800.待测数据加工，获取待验证数据，结合S500中的角色和用户组关系，关联出用户组，并对待验证数据进行特征加工，获得具有与第二宽表特征相同的第三宽表；

S900.将第三宽表数据依据用户组分组信息代入S700中对应的OneClassSvm模型进行检测，若模型结果在正常数据边界内，则将目标用户的行表达为正常；若模型结果在正常数据边界外，则将目标用户的行为标定为异常。

本发明还提供一种基于数据库中敏感数据泄露检测用的模型建立装置，包括

角色和用户组关系的建立模块：用以

数据采集，数据包括操作日志数据、用户角色数据、敏感数据列表；

解析SQL语句，提取表名；

数据关联及特征加工，具体为：

用户组的建立，根据特征对所述第一宽表内用户进行聚类，将最接近的群体定义为用户组；

建立角色和用户组的关系，找到每个角色中最大占比的用户组，组成该角色和该用户组的关系；

OneClassSvm模型训练模块：用以

正样本特征加工，首先获取样本数据，结合S500中的角色和用户组关系，关联出用户组；然后从每个用户组中选出符合正常业务范围的用户作为正样本，再对正样本进行特征加工，形成第二宽表；

正样本中每个用户组对应一个OneClassSvm模型，并对该用户组内的第二宽表数据进行OneClassSvm模型训练，从而获得该用户组下正常数据的边界。

优选的，所述角色和用户组关系的建立模块中提取表名具体方法为：

利用python的sqlparse工具截取FROM关键词和下一个关键词中间的内容，若没有下一个关键词，则截取到最后，截取的部分即为表名；

数据关联具体方法为：

优选的，所述用户组的建立具体采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类，并将最接近的群体定义为用户组；所述角色和用户组的关系的建立方法为，根据用户的角色属性，得到角色-用户-用户组的关系，然后计算角色中的用户组占比，将每个角色中最大占比的用户组，组成角色和用户组的关系。

本发明还提供一种基于数据库中敏感数据的泄露检测系统，包括:

待测数据加工模块，用以获取待验证数据，结合角色和用户组关系，关联出用户组，并对待验证数据进行特征加工，获得具有与第二宽表特征相同的第三宽表；

检测模块，将第三宽表数据依据用户组分组信息代入对应的OneClassSvm模型进行检测，若模型结果在正常数据边界内，则将目标用户的行表达为正常；若模型结果在正常数据边界外，则将目标用户的行为标定为异常。

本发明的优点在于：本发明基于数据库中，根据数据库中已知的敏感数据，进行用户组和角色的定义以及二者关系的关联，作为模型的训练数据，基于模型训练出正边界常数据来预测，对于未预测的数据，无需用模型再次学习，可以直接算出结果，适合实时分析。

附图说明

图1为本发明实施例1和实施例2中的建模方法及模型应用时的检测方法流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供一种基于数据库中敏感数据泄露检测用的模型建立方法，具体包括以下步骤：

步骤1.数据采集

采集如下数据：

A，操作日志数据。主要内容如下：

B，用户角色数据。主要内容如下：

C，敏感数据列表。主要内容如下：

步骤2.解析SQL语句，提取表名。

基于操作日志数据中的SQL语句，解析出表名。解析方式如下：

A,利用python的sqlparse工具进行语句分析。sqlparse工具可以解析出单词的词性，词性包括：关键词、方法、符号等。

B,截取FROM关键词和下一个关键词中间的内容。(若没有下一个关键词，截取到最后)。其中，下一个关键词为'WHERE','FROM','AND','OR','LIKE','ON','IN','SET','BY','GROUP','ORDER','LEFT','OUTER','FULL','IF','END','THEN','LOOP','AS','ELSE','FOR','WHILE','CASE','WHEN','MIN','MAX','DISTINCT',本实施例中主要用到的是'WHERE','FROM','GROUP','ORDER'。

C,截取的部分就是表名。

步骤3.数据关联及特征加工

S03.1关联数据：

A,操作日志数据的[用户ID]关联用户角色数据的[用户ID]。

B,操作日志数据解析出来的[表名]关联敏感数据列表的[表名]。

S03.2构建的特征如下：

第一宽表

本实施中，当前特征值设计了2个特征维度，一个是行求和，一个是操作次数。除此以外，还可以有其他特征，比如平均数，众数，离散系数等等。建立宽表可以反应该用户在各种敏感级别表的操作情况。还能反应这个用户在工作时间和非工作时间的操作情况。经过我们之前的项目经验，在工作时间和非工作时间操作的区别很大，比较能反应异常结果。建立宽表的目的是，在业务范围内最大程度反应一个用户的状态。

步骤4.模型聚类

本实施例用的是Kmeans聚类。Kmeans聚类算法的作用是把数据按照距离分成若干类。

通过Kmeans聚类从第一宽表中找出最接近的群体，并将这些群体定义为用户组。

步骤5.制定角色和用户组的关系

S05.1通过聚类，我们可以找到用户和用户组之间多对一的关系。

S05.2根据用户的角色属性，可以得到角色-用户-用户组的关系。

如下表：

角色	用户	用户组
			管理员	张三	A
管理员	李四	A
			管理员	王五	B
运维人员	赵六	B
			运维人员	孙七	B

S05.3计算角色中的用户组的占比。

如：

角色	用户组	占比
			管理员	A	66％
管理员	B	33％
			运维人员	B	100％

S05.4我们找到每个角色中最大占比的用户组，组成角色和用户组的关系。

如：

角色	用户组
		管理员	A
运维人员	B

步骤6.正样本特征加工

S06.1关联用户组

将所有样本，结合S05的角色和用户组的关系，关联出用户组。

S06.2找出正样本

S06.2.1在用户组A中，随机抽取部分用户。

S06.2.2结合相关业务，分析抽取的用户的数据，是否符合正常的业务范围。S06.2.3找出在抽取用户中，所有数据都人工审核通过的用户，作为正样本。S06.3对正样本进行特征加工

构建如下特征：

第二宽表

步骤7.训练OneClassSvm模型

S07.1用用户组属性对正样本进行分组。每个用户组一个组。

S07.2每个用户组都对应一个OneClassSvm模型，并对组内的正样本宽表数据进行OneClassSvm模型训练，训练完后就能让模型学习出来该用户组下正常数据的边界。

至此，模型建立结束。相匹配的，本实施还提供一种上述模型建立的装置，包括：

角色和用户组关系的建立模块：用以数据采集，数据包括操作日志数据、用户角色数据、敏感数据列表；

采集如下数据：

A，操作日志数据。主要内容如下：

B，用户角色数据。主要内容如下：

C，敏感数据列表。主要内容如下：

解析SQL语句，提取表名；

C,截取的部分就是表名。

数据关联及特征加工，具体为：

S03.1关联数据：

A,操作日志数据的[用户ID]关联用户角色数据的[用户ID]。

S03.2构建的特征如下：

第一宽表

用户组的建立，根据特征对所述第一宽表内用户进行聚类，将最接近的群体定义为用户组；本实施例用的是Kmeans聚类。Kmeans聚类算法的作用是把数据按照距离分成若干类。

如下表：

S05.3计算角色中的用户组的占比。

如：

角色	用户组
		管理员	A
运维人员	B

OneClassSvm模型训练模块：用以

正样本特征加工，首先获取样本数据，结合角色和用户组关系，关联出用户组；然后从每个用户组中选出符合正常业务范围的用户作为正样本，再对正样本进行特征加工，形成第二宽表；具体为:

S06.1关联用户组

S06.2找出正样本

S06.2.1在用户组A中，随机抽取部分用户。

S06.2.2结合相关业务，分析抽取的用户的数据，是否符合正常的业务范围。

S06.2.3找出在抽取用户中，所有数据都人工审核通过的用户，作为正样本。

S06.3对正样本进行特征加工

构建如下特征：

第二宽表

实施例2

本实施例提供一种基于数据库中敏感数据的泄露检测方法，应用实施例1中模型，具体包括以下步骤：

步骤8.待测数据加工，获取待验证数据，结合步骤5中的角色和用户组关系，关联出用户组，并对待验证数据进行特征加工，获得具有与第二宽表特征相同的第三宽表；

步骤9.将第三宽表数据依据用户组分组信息代入步骤7中对应的OneClassSvm模型进行检测，若模型结果在正常数据边界内，则将目标用户的行表达为正常；若模型结果在正常数据边界外，则将目标用户的行为标定为异常。

相匹配的，本实施例还提供一种检测系统，包括:

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于数据库中敏感数据泄露检测用的模型建立方法，其特征在于：包括以下步骤：

A、角色和用户组关系的建立：

S200.解析SQL语句，提取表名；

S300.数据关联及特征加工，具体为：

B、OneClassSvm模型训练：

S600.正样本特征加工，首先获取样本数据，结合步骤S500中的角色和用户组关系，关联出用户组；然后从每个用户组中选出符合正常业务范围的用户作为正样本，再对正样本进行特征加工，形成第二宽表；

S700.正样本中每个用户组对应一个OneClassSvm模型，并对该用户组内的第二宽表数据进行OneClassSvm模型训练，从而获得该用户组下正常数据的边界；

C、敏感数据的泄露检测：

S800.待测数据加工，获取待验证数据，结合步骤S500中的角色和用户组关系，关联出用户组，并对待验证数据进行特征加工，获得具有与第二宽表特征相同的第三宽表；

2.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法，其特征在于：所述步骤S200中提取表名具体方法为：

3.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法，其特征在于：步骤S300中数据关联具体方法为：

4.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法，其特征在于：步骤S400中采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类，并将最接近的群体定义为用户组。

5.根据权利要求1所述的一种基于数据库中敏感数据泄露检测用的模型建立方法，其特征在于：步骤S500中角色和用户组的关系的建立方法为，根据用户的角色属性，得到角色-用户-用户组的关系，然后计算角色中的用户组占比，将每个角色中最大占比的用户组，组成角色和用户组的关系。

6.一种基于数据库中敏感数据泄露检测用的模型建立装置，其特征在于：包括

角色和用户组关系的建立模块：用以

解析SQL语句，提取表名；

数据关联及特征加工，具体为：

OneClassSvm模型训练模块：用以

正样本特征加工，首先获取样本数据，结合步骤S500中的角色和用户组关系，关联出用户组；然后从每个用户组中选出符合正常业务范围的用户作为正样本，再对正样本进行特征加工，形成第二宽表；

7.根据权利要求6所述的一种基于数据库中敏感数据泄露检测用的模型建立装置，其特征在于：所述角色和用户组关系的建立模块中提取表名具体方法为：

数据关联具体方法为：

步骤S300中特征加工后形成的第一宽表中通过多个维度特征值体现当前特征。

8.根据权利要求6所述的一种基于数据库中敏感数据泄露检测用的模型建立装置，其特征在于：所述用户组的建立具体采用Kmeans聚类算法将第一宽表中的数据按照距离分成若干类，并将最接近的群体定义为用户组；所述角色和用户组的关系的建立方法为，根据用户的角色属性，得到角色-用户-用户组的关系，然后计算角色中的用户组占比，将每个角色中最大占比的用户组，组成角色和用户组的关系。

9.一种基于数据库中敏感数据的泄露检测系统，其特征在于：包括

待测数据加工模块，用以获取待验证数据，结合角色和用户组关系，关联出用户组，并对待验证数据进行特征加工，获得具有与第二宽表特征相同的第三宽表；具体方法如下：

A、角色和用户组关系的建立：

S200.解析SQL语句，提取表名；

S300.数据关联及特征加工，具体为：

B、OneClassSvm模型训练：

C、敏感数据的泄露检测：