CN113032824A

CN113032824A - 基于数据库流量日志的低频数据泄漏检测方法及系统

Info

Publication number: CN113032824A
Application number: CN202110224544.6A
Authority: CN
Inventors: 王启凡; 殷钱安; 刘胜; 马影; 梁淑云; 周晓勇; 余贤喆; 陶景龙
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-25
Anticipated expiration: 2041-03-01
Also published as: CN113032824B

Abstract

本发明提供一种基于数据库流量日志的低频数据泄漏检测方法及系统，将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为。本发明先通过行为数据进行聚类，并根据每个类的用户，学习他们的查询的表的特征，并且特征为非频率性特征，在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况，从而实现检测低频率的数据泄漏情况。

Description

基于数据库流量日志的低频数据泄漏检测方法及系统

技术领域

本发明及计算机数据安全，具体来说是一种基于数据库流量日志的低频数据泄漏检测方法及系统。

背景技术

本发明是基于数据库流量日志来进行数据分析的，数据库流量日志是通过获取数据库服务器和外部客户端之间进行网络通信产生的流量，并基于数据库的相关协议将流量包解析成可读的日志文件。这日志文件主要包含的信息有数据库的操作记录，以及操作数据库返回的结果日志。

现阶段针对于数据泄漏检测技术，主要有数据加密、权限控制、流量监控、行为基线等技术，这些技术可以防止绝大多数数据泄漏。但是针对于内部人员进行少量高信息量的低频数据泄漏是无法进行专项检测的。

如申请号为201911059550.x公开的数据泄露检测方法与装置，包括：根据历史操作行为数据，建立各用户的操作行为基线；任一用户为目标用户；历史操作行为数据包括历史网络流量和历史日志；对历史网络流量中的报文进行敏感数据检测，根据检测结果建立敏感数据操作基线；采集当前的操作行为数据；根据敏感数据操作基线，对当前操作行为数据进行分析，确定是否存在敏感数据泄露风险；若存在，执行相应的敏感数据防泄露控制策略；根据目标用户的操作行为基线，对当前操作行为数据进行分析，确定目标用户是否存在数据泄露风险，若存在，对目标用户执行相应的数据访问风险控制策略。该方法根据历史数据学习到行为的基线，超过行为基线就抛出异常，只要数据量大就出现异常，无法检测低频数据泄漏情况。

综上，现有技术中关于数据泄漏检测存在以下问题：

1、通过给数据加上水印的方法检测数据泄漏和溯源。这种方法需要对应用进行大量的改造和测试，容易对现有在运行的系统产生不良的影响。

2、基于流量监控执行行为基线的识别方法。这种方法是可以检测出高频的数据泄漏，但是对于低频的内部数据泄漏是无法检测的。

发明内容

本发明所要解决的技术问题在于如何提供一种能够检测出低频泄漏数据的检测方法。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于数据库流量日志的低频数据泄漏检测方法，将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为；方法包括以下步骤：

S1.采集数据库的流量数据，并进行解析，得到每个用户的基本信息，形成表1；

S2.进行敏感数据配置，基于表1，构建敏感字段标签，至少得到每个用户每次操作过程中的敏感行为特征，以及每个敏感行为特征对应的行为数据，形成表2；

S3.构建用户行为特征，基于表2，至少得到每个用户所有操作中每个行为特征下的行为数据总和，形成表3；

S4.利用Kmeans算法进行聚类，基于表3,采用Kmeans聚类算法，将行为数据一致的若干群体归为一类；

S5.构建用户操作表行为特征，根据表2，进行SQL数据解析，结合敏感行为特征，构建每个用户操作表行为特征，操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征，赋值1表示操作记录中发现敏感行为特征；

S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习，针对每个聚类类别均学习出一组行为序列树，结合行为序列树，计算每个用户的操作表行为特征的置信度和支持度；

S7.挖掘低频数据泄露数据，将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录，然后在异常记录中找出有敏感操作的记录，记为疑似低频的数据泄露数据。

本发明先通过行为数据进行聚类，并根据每个类的用户，学习他们的查询的表的特征，并且特征为非频率性特征，在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况，从而实现检测低频率的数据泄漏情况。

进一步的，所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。

进一步的，所述步骤S2中，通过正则表达式对敏感数据进行匹配，得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量，构成所述表2。

本发明还提供一种技术数据库流量日志的低频数据泄露检测系统，将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为；系统包括：

数据采集模块，采集数据库的流量数据，并进行解析，得到每个用户的基本信息，形成表1；

敏感数据配置模块，基于表1，构建敏感字段标签，至少得到每个用户每次操作过程中的敏感行为特征，以及每个敏感行为特征对应的行为数据，形成表2；

构建用户行为特征模块，基于表2，至少得到每个用户所有操作中每个行为特征下的行为数据总和，形成表3；

聚类模块，利用Kmeans算法进行聚类，基于表3,采用Kmeans聚类算法，将行为数据一致的若干群体归为一类；

构建用户操作表行为特征模块，根据表2，进行SQL数据解析，结合敏感行为特征，构建每个用户操作表行为特征，操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征，赋值1表示操作记录中发现敏感行为特征；

Fp_growth算法学习模块，将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习，针对每个聚类类别均学习出一组行为序列树，结合行为序列树，计算每个用户的操作表行为特征的置信度和支持度；

挖掘低频数据泄露数据模块，将Fp_growth算法学习模块中的置信度和支持度小于阈值的操作表行为特征定义为异常记录，然后在异常记录中找出有敏感操作的记录，记为疑似低频的数据泄露数据。

进一步的，所述敏感数据配置模块中，通过正则表达式对敏感数据进行匹配，得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量，构成所述表2。

本发明还提供一种处理设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的方法。

本发明的优点在于：

本发明基于用户操作的表名行为特征，并且本发明通过构建操作用户的操作行为，并且特征为非频率性特征，再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。本发明用了聚类和关联分析两个算法，大大提高了精准率

1、本发明基于数据库流量日志进行分析的，可以具有数据库的操作返回结果。分析的颗粒度更细。

2、本次无需提供完整的敏感数据表。(在实际环境中几乎没有完整的敏感数据表)

只需要提供敏感的规则(比如手机号、身份证)。更加方便和简单。

本实施例通过基于数据库流量记录，获取这些流量包几乎对系统没有任何的影响，并且本发明通过构建操作用户的操作行为，并且特征为非频率性特征，再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。

附图说明

图1为本发明实施例1基于数据库流量日志的低频数据泄漏检测方法的流程图；

图2为本发明实施例1使用基于数据库流量日志的低频数据泄漏检测方法得到的行为序列树。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供一种基于数据库流量日志的低频数据泄漏检测方法，本实施例将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为；方法包括以下步骤：

步骤S1.采集数据库的流量数据，并进行解析，得到每个用户的基本信息，形成表1。流量数据通过解析流量包和数据库的解析协议，可以解析出如下的内容：1、流量解析基本信息(源IP地址，源端口，目的IP地址，目的端口，和传输层协议，流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。

表1

步骤S2.进行敏感数据配置，基于表1，通过正则表达式对敏感数据进行匹配，构建敏感字段标签，至少得到每个用户每次操作过程中的敏感行为特征，以及每个敏感行为特征对应的行为数据，形成表2；敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。

表2

步骤S3.构建用户行为特征，基于表2，至少得到每个用户所有操作中每个行为特征下的行为数据总和，形成表3；

行为特征构建如下：

特征名称	备注
		操作数	操作记录数
敏感类型数	命中定义的敏感类型的数量
		敏感个数	命中定义的敏感个数
手机号个数	查询或者返回结果有多少个手机号
		邮箱个数	查询或者返回结果有多少个邮箱
身份证个数	查询或者返回结果有多少个身份证
		其他个数	查询或者返回结果有多少个非上述敏感的个数
操作表数	进行所有操作的表的个数
		查询表数	进行查询操作的表的个数
修改表数	进行修改操作的表的个数
		删除表数	进行删除操作的表的个数
工时操作个数	在工作时(8:00-19:00)操作的个数
		非工时操作个数	在非工时(19:00-8:00)操作的个数
目的ip和端口个数	目的ip和目的端口的个数
		流量最大值	流量的最大值
流量平均值	流量的平均值
		返回行数最大值	返回行数的最大值
返回行数平均值	返回行数的平均值
		操作天数	操作的天数
时长	第一次操作到最后一次操作的间隔(单位秒)

基于表2的数据，构架的数据结构表3如下：

表3

步骤S4.利用Kmeans算法进行聚类，基于表3,采用Kmeans聚类算法，将行为数据一致的若干群体归为一类，得到表4

表4

源ip地址	源端口	日期	聚类类别
				10.10.10.1	5812	20201224	1
10.10.10.5	2223	20211224	2
				10.10.0.5	481	20211224	2
10.10.0.6	536	20211224	2
				...

从步骤S5开始，所有的操作均在同一类中进行操作。

步骤S5.构建用户操作表行为特征，根据表2，进行SQL数据解析，结合敏感行为特征，构建每个用户操作表行为特征，操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征，赋值1表示操作记录中发现敏感行为特征，得到表5；

表5

源ip地址	源端口	日期	操作表行为特征	聚类类别
					10.10.10.5	2223	20201224	表C:1,表B:1	2
10.10.0.5	481	20201224	表A:1,表C:1，表D:0	2
					10.10.0.6	536	20201224	表A:1,表C:1，表D:1	2
...

注：表A:0,表B:1的意思是，第一个对象操作表A的记录中没有发现有敏感信息，操作表B的记录中有敏感信息。本次特征仅包含0(没有敏感信息)，1(有敏感信息)。不包含任何频率类等统计特征，这也是本发明可以有效的挖掘出低频异常的保证。

步骤S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习，针对每个聚类类别均学习出一组行为序列树，结合行为序列树，计算每个用户的操作表行为特征的置信度和支持度；

行为序列树如图2所示，保存了它在数据集中的出现次数，出现次数越多的元素越接近根。并结合行为序列树，计算每个表5每条记录的置信度和支持度。支持度为集合在总项集中出现的概率。如表5第一行的支持度为表A:0和表B：1同时出现的概率。置信度表示在表A:0出现后，表B:1出现的概率。计算的结果如表6

表6

其中对于每个操作步骤的执行度和支持度分析分析数据如表7：

表7

步骤S7.挖掘低频数据泄露数据，将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录，然后在异常记录中找出有敏感操作的记录，记为疑似低频的数据泄露数据。

设阈值为0.05，那么表7中异常记录为表8所示：

表8

在异常记录中，找出有敏感操作的记录，记为疑似低频的数据泄露数据。例如，在数据D08的第一行，新增了D:0的操作，这个操作没有进行敏感操作，所以不计入疑似低频的泄露记录中。而数据D08的第二行，新增操作中，操作了表D:1，进行了敏感数据操作，就标记为疑似低频的数据泄露数据。

本实施例还提供一种基于数据库流量日志的低频数据泄漏检测系统与上述方法匹配，包括：

数据采集模块，采集数据库的流量数据，并进行解析，得到每个用户的基本信息，形成表1。流量数据通过解析流量包和数据库的解析协议，可以解析出如下的内容：1、流量解析基本信息(源IP地址，源端口，目的IP地址，目的端口，和传输层协议，流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。

表1

敏感数据配置模块，基于表1，通过正则表达式对敏感数据进行匹配，构建敏感字段标签，至少得到每个用户每次操作过程中的敏感行为特征，以及每个敏感行为特征对应的行为数据，形成表2；敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。

表2

构建用户行为特征模块，构建用户行为特征，基于表2，至少得到每个用户所有操作中每个行为特征下的行为数据总和，形成表3；

行为特征构建如下：

基于表2的数据，构架的数据结构表3如下：

表3

聚类模块，利用Kmeans算法进行聚类，基于表3,采用Kmeans聚类算法，将行为数据一致的若干群体归为一类，得到表4

表4

构建用户操作表行为特征模块，根据表2，进行SQL数据解析，结合敏感行为特征，构建每个用户操作表行为特征，操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征，赋值1表示操作记录中发现敏感行为特征，得到表5；

表5

表6

表7

挖掘低频数据泄露数据模块，将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录，然后在异常记录中找出有敏感操作的记录，记为疑似低频的数据泄露数据。

设阈值为0.05，那么表7中异常记录为表8所示：

表8

实施例2

本实施例提供一种处理设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1的方法。

实施例3

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行实施例1的方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于数据库流量日志的低频数据泄漏检测方法，其特征在于，将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为；方法包括以下步骤：

2.根据权利要求1所述的一种基于数据库流量日志的低频数据泄漏检测方法，其特征在于，所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。

3.根据权利要求2所述的一种基于数据库流量日志的低频数据泄漏检测方法，其特征在于，所述步骤S2中，通过正则表达式对敏感数据进行匹配，得到敏感字段标签至少包括执行语句、返回结果、手机号数量、身份证数量，构成所述表2。

4.一种基于数据库流量日志的低频数据泄漏检测系统，其特征在于，将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为；系统包括：

5.根据权利要求4所述的一种基于数据库流量日志的低频数据泄漏检测系统，其特征在于，所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。

6.根据权利要求5所述的一种基于数据库流量日志的低频数据泄露检测系统，其特征在于，所述敏感数据配置模块中，通过正则表达式对敏感数据进行匹配，得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量，构成所述表2。

7.一种处理设备，其特征在于，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。