CN113032824B - 基于数据库流量日志的低频数据泄漏检测方法及系统 - Google Patents
基于数据库流量日志的低频数据泄漏检测方法及系统 Download PDFInfo
- Publication number
- CN113032824B CN113032824B CN202110224544.6A CN202110224544A CN113032824B CN 113032824 B CN113032824 B CN 113032824B CN 202110224544 A CN202110224544 A CN 202110224544A CN 113032824 B CN113032824 B CN 113032824B
- Authority
- CN
- China
- Prior art keywords
- behavior
- data
- sensitive
- user
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于数据库流量日志的低频数据泄漏检测方法及系统,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为。本发明先通过行为数据进行聚类,并根据每个类的用户,学习他们的查询的表的特征,并且特征为非频率性特征,在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况,从而实现检测低频率的数据泄漏情况。
Description
技术领域
本发明及计算机数据安全,具体来说是一种基于数据库流量日志的低频数据泄漏检测方法及系统。
背景技术
本发明是基于数据库流量日志来进行数据分析的,数据库流量日志是通过获取数据库服务器和外部客户端之间进行网络通信产生的流量,并基于数据库的相关协议将流量包解析成可读的日志文件。这日志文件主要包含的信息有数据库的操作记录,以及操作数据库返回的结果日志。
现阶段针对于数据泄漏检测技术,主要有数据加密、权限控制、流量监控、行为基线等技术,这些技术可以防止绝大多数数据泄漏。但是针对于内部人员进行少量高信息量的低频数据泄漏是无法进行专项检测的。
如申请号为201911059550.x公开的数据泄露检测方法与装置,包括:根据历史操作行为数据,建立各用户的操作行为基线;任一用户为目标用户;历史操作行为数据包括历史网络流量和历史日志;对历史网络流量中的报文进行敏感数据检测,根据检测结果建立敏感数据操作基线;采集当前的操作行为数据;根据敏感数据操作基线,对当前操作行为数据进行分析,确定是否存在敏感数据泄露风险;若存在,执行相应的敏感数据防泄露控制策略;根据目标用户的操作行为基线,对当前操作行为数据进行分析,确定目标用户是否存在数据泄露风险,若存在,对目标用户执行相应的数据访问风险控制策略。该方法根据历史数据学习到行为的基线,超过行为基线就抛出异常,只要数据量大就出现异常,无法检测低频数据泄漏情况。
综上,现有技术中关于数据泄漏检测存在以下问题:
1、通过给数据加上水印的方法检测数据泄漏和溯源。这种方法需要对应用进行大量的改造和测试,容易对现有在运行的系统产生不良的影响。
2、基于流量监控执行行为基线的识别方法。这种方法是可以检测出高频的数据泄漏,但是对于低频的内部数据泄漏是无法检测的。
发明内容
本发明所要解决的技术问题在于如何提供一种能够检测出低频泄漏数据的检测方法。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于数据库流量日志的低频数据泄漏检测方法,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
S2.进行敏感数据配置,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
本发明先通过行为数据进行聚类,并根据每个类的用户,学习他们的查询的表的特征,并且特征为非频率性特征,在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况,从而实现检测低频率的数据泄漏情况。
进一步的,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
进一步的,所述步骤S2中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
本发明还提供一种技术数据库流量日志的低频数据泄露检测系统,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;系统包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
敏感数据配置模块,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
构建用户行为特征模块,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
Fp_growth算法学习模块,将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
挖掘低频数据泄露数据模块,将Fp_growth算法学习模块中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
进一步的,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
进一步的,所述敏感数据配置模块中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
本发明还提供一种处理设备,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明的优点在于:
本发明基于用户操作的表名行为特征,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。本发明用了聚类和关联分析两个算法,大大提高了精准率
1、本发明基于数据库流量日志进行分析的,可以具有数据库的操作返回结果。分析的颗粒度更细。
2、本次无需提供完整的敏感数据表。(在实际环境中几乎没有完整的敏感数据表)
只需要提供敏感的规则(比如手机号、身份证)。更加方便和简单。
本实施例通过基于数据库流量记录,获取这些流量包几乎对系统没有任何的影响,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。
附图说明
图1为本发明实施例1基于数据库流量日志的低频数据泄漏检测方法的流程图;
图2为本发明实施例1使用基于数据库流量日志的低频数据泄漏检测方法得到的行为序列树。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种基于数据库流量日志的低频数据泄漏检测方法,本实施例将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
步骤S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1。流量数据通过解析流量包和数据库的解析协议,可以解析出如下的内容:1、流量解析基本信息(源IP地址,源端口,目的IP地址,目的端口,和传输层协议,流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。
表1
步骤S2.进行敏感数据配置,基于表1,通过正则表达式对敏感数据进行匹配,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。
表2
步骤S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
行为特征构建如下:
特征名称 | 备注 |
操作数 | 操作记录数 |
敏感类型数 | 命中定义的敏感类型的数量 |
敏感个数 | 命中定义的敏感个数 |
手机号个数 | 查询或者返回结果有多少个手机号 |
邮箱个数 | 查询或者返回结果有多少个邮箱 |
身份证个数 | 查询或者返回结果有多少个身份证 |
其他个数 | 查询或者返回结果有多少个非上述敏感的个数 |
操作表数 | 进行所有操作的表的个数 |
查询表数 | 进行查询操作的表的个数 |
修改表数 | 进行修改操作的表的个数 |
删除表数 | 进行删除操作的表的个数 |
工时操作个数 | 在工作时(8:00-19:00)操作的个数 |
非工时操作个数 | 在非工时(19:00-8:00)操作的个数 |
目的ip和端口个数 | 目的ip和目的端口的个数 |
流量最大值 | 流量的最大值 |
流量平均值 | 流量的平均值 |
返回行数最大值 | 返回行数的最大值 |
返回行数平均值 | 返回行数的平均值 |
操作天数 | 操作的天数 |
时长 | 第一次操作到最后一次操作的间隔(单位秒) |
基于表2的数据,构架的数据结构表3如下:
表3
步骤S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类,得到表4
表4
源ip地址 | 源端口 | 日期 | 聚类类别 |
10.10.10.1 | 5812 | 20201224 | 1 |
10.10.10.5 | 2223 | 20211224 | 2 |
10.10.0.5 | 481 | 20211224 | 2 |
10.10.0.6 | 536 | 20211224 | 2 |
... |
从步骤S5开始,所有的操作均在同一类中进行操作。
步骤S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征,得到表5;
表5
源ip地址 | 源端口 | 日期 | 操作表行为特征 | 聚类类别 |
10.10.10.5 | 2223 | 20201224 | 表C:1,表B:1 | 2 |
10.10.0.5 | 481 | 20201224 | 表A:1,表C:1,表D:0 | 2 |
10.10.0.6 | 536 | 20201224 | 表A:1,表C:1,表D:1 | 2 |
... |
注:表A:0,表B:1的意思是,第一个对象操作表A的记录中没有发现有敏感信息,操作表B的记录中有敏感信息。本次特征仅包含0(没有敏感信息),1(有敏感信息)。不包含任何频率类等统计特征,这也是本发明可以有效的挖掘出低频异常的保证。
步骤S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
行为序列树如图2所示,保存了它在数据集中的出现次数,出现次数越多的元素越接近根。并结合行为序列树,计算每个表5每条记录的置信度和支持度。支持度为集合在总项集中出现的概率。如表5第一行的支持度为表A:0和表B:1同时出现的概率。置信度表示在表A:0出现后,表B:1出现的概率。计算的结果如表6
表6
其中对于每个操作步骤的执行度和支持度分析分析数据如表7:
表7
步骤S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
设阈值为0.05,那么表7中异常记录为表8所示:
表8
在异常记录中,找出有敏感操作的记录,记为疑似低频的数据泄露数据。例如,在数据D08的第一行,新增了D:0的操作,这个操作没有进行敏感操作,所以不计入疑似低频的泄露记录中。而数据D08的第二行,新增操作中,操作了表D:1,进行了敏感数据操作,就标记为疑似低频的数据泄露数据。
本实施例通过基于数据库流量记录,获取这些流量包几乎对系统没有任何的影响,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。
本实施例还提供一种基于数据库流量日志的低频数据泄漏检测系统与上述方法匹配,包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1。流量数据通过解析流量包和数据库的解析协议,可以解析出如下的内容:1、流量解析基本信息(源IP地址,源端口,目的IP地址,目的端口,和传输层协议,流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。
表1
敏感数据配置模块,基于表1,通过正则表达式对敏感数据进行匹配,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。
表2
构建用户行为特征模块,构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
行为特征构建如下:
特征名称 | 备注 |
操作数 | 操作记录数 |
敏感类型数 | 命中定义的敏感类型的数量 |
敏感个数 | 命中定义的敏感个数 |
手机号个数 | 查询或者返回结果有多少个手机号 |
邮箱个数 | 查询或者返回结果有多少个邮箱 |
身份证个数 | 查询或者返回结果有多少个身份证 |
其他个数 | 查询或者返回结果有多少个非上述敏感的个数 |
操作表数 | 进行所有操作的表的个数 |
查询表数 | 进行查询操作的表的个数 |
修改表数 | 进行修改操作的表的个数 |
删除表数 | 进行删除操作的表的个数 |
工时操作个数 | 在工作时(8:00-19:00)操作的个数 |
非工时操作个数 | 在非工时(19:00-8:00)操作的个数 |
目的ip和端口个数 | 目的ip和目的端口的个数 |
流量最大值 | 流量的最大值 |
流量平均值 | 流量的平均值 |
返回行数最大值 | 返回行数的最大值 |
返回行数平均值 | 返回行数的平均值 |
操作天数 | 操作的天数 |
时长 | 第一次操作到最后一次操作的间隔(单位秒) |
基于表2的数据,构架的数据结构表3如下:
表3
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类,得到表4
表4
源ip地址 | 源端口 | 日期 | 聚类类别 |
10.10.10.1 | 5812 | 20201224 | 1 |
10.10.10.5 | 2223 | 20211224 | 2 |
10.10.0.5 | 481 | 20211224 | 2 |
10.10.0.6 | 536 | 20211224 | 2 |
... |
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征,得到表5;
表5
源ip地址 | 源端口 | 日期 | 操作表行为特征 | 聚类类别 |
10.10.10.5 | 2223 | 20201224 | 表C:1,表B:1 | 2 |
10.10.0.5 | 481 | 20201224 | 表A:1,表C:1,表D:0 | 2 |
10.10.0.6 | 536 | 20201224 | 表A:1,表C:1,表D:1 | 2 |
... |
注:表A:0,表B:1的意思是,第一个对象操作表A的记录中没有发现有敏感信息,操作表B的记录中有敏感信息。本次特征仅包含0(没有敏感信息),1(有敏感信息)。不包含任何频率类等统计特征,这也是本发明可以有效的挖掘出低频异常的保证。
Fp_growth算法学习模块,将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
行为序列树如图2所示,保存了它在数据集中的出现次数,出现次数越多的元素越接近根。并结合行为序列树,计算每个表5每条记录的置信度和支持度。支持度为集合在总项集中出现的概率。如表5第一行的支持度为表A:0和表B:1同时出现的概率。置信度表示在表A:0出现后,表B:1出现的概率。计算的结果如表6
表6
其中对于每个操作步骤的执行度和支持度分析分析数据如表7:
表7
挖掘低频数据泄露数据模块,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
设阈值为0.05,那么表7中异常记录为表8所示:
表8
在异常记录中,找出有敏感操作的记录,记为疑似低频的数据泄露数据。例如,在数据D08的第一行,新增了D:0的操作,这个操作没有进行敏感操作,所以不计入疑似低频的泄露记录中。而数据D08的第二行,新增操作中,操作了表D:1,进行了敏感数据操作,就标记为疑似低频的数据泄露数据。
实施例2
本实施例提供一种处理设备,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1的方法。
实施例3
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行实施例1的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
S2.进行敏感数据配置,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
S6.将所述操作表行为特征按照聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
2.根据权利要求1所述的一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
3.根据权利要求2所述的一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,所述步骤S2中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
4.一种基于数据库流量日志的低频数据泄漏检测系统,其特征在于,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;系统包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
敏感数据配置模块,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
构建用户行为特征模块,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
Fp_growth算法学习模块,将所述操作表行为特征按照聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
挖掘低频数据泄露数据模块,将Fp_growth算法学习模块中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
5.根据权利要求4所述的一种基于数据库流量日志的低频数据泄漏检测系统,其特征在于,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
6.根据权利要求5所述的一种基于数据库流量日志的低频数据泄漏检测系统,其特征在于,所述敏感数据配置模块中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
7.一种处理设备,其特征在于,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224544.6A CN113032824B (zh) | 2021-03-01 | 2021-03-01 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224544.6A CN113032824B (zh) | 2021-03-01 | 2021-03-01 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032824A CN113032824A (zh) | 2021-06-25 |
CN113032824B true CN113032824B (zh) | 2023-06-23 |
Family
ID=76465015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224544.6A Active CN113032824B (zh) | 2021-03-01 | 2021-03-01 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032824B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704752B (zh) * | 2021-08-31 | 2024-01-26 | 上海观安信息技术股份有限公司 | 数据泄露行为的检测方法、装置、计算机设备及存储介质 |
CN113705714B (zh) * | 2021-09-03 | 2024-06-11 | 上海观安信息技术股份有限公司 | 基于行为序列的配电物联网设备异常行为检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123504A (zh) * | 2014-06-27 | 2014-10-29 | 武汉理工大学 | 一种基于频繁项检索的云平台隐私保护方法 |
CN104123448A (zh) * | 2014-07-14 | 2014-10-29 | 南京理工大学 | 基于上下文的多数据流异常检测方法 |
CN110990867A (zh) * | 2019-11-28 | 2020-04-10 | 上海观安信息技术股份有限公司 | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 |
CN111159195A (zh) * | 2019-12-31 | 2020-05-15 | 余俊龙 | 区块链系统中的数据存储控制方法及设备 |
CN111835776A (zh) * | 2020-07-17 | 2020-10-27 | 汪金玲 | 一种网络流量数据隐私保护方法及系统 |
EP3731115A1 (en) * | 2019-04-26 | 2020-10-28 | Visa International Service Association | Distributed ledger data verification network |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7934253B2 (en) * | 2006-07-20 | 2011-04-26 | Trustwave Holdings, Inc. | System and method of securing web applications across an enterprise |
-
2021
- 2021-03-01 CN CN202110224544.6A patent/CN113032824B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123504A (zh) * | 2014-06-27 | 2014-10-29 | 武汉理工大学 | 一种基于频繁项检索的云平台隐私保护方法 |
CN104123448A (zh) * | 2014-07-14 | 2014-10-29 | 南京理工大学 | 基于上下文的多数据流异常检测方法 |
EP3731115A1 (en) * | 2019-04-26 | 2020-10-28 | Visa International Service Association | Distributed ledger data verification network |
CN110990867A (zh) * | 2019-11-28 | 2020-04-10 | 上海观安信息技术股份有限公司 | 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统 |
CN111159195A (zh) * | 2019-12-31 | 2020-05-15 | 余俊龙 | 区块链系统中的数据存储控制方法及设备 |
CN111835776A (zh) * | 2020-07-17 | 2020-10-27 | 汪金玲 | 一种网络流量数据隐私保护方法及系统 |
Non-Patent Citations (5)
Title |
---|
Identifying dynamic IP address blocks serendipitously through background scanning traffic;Yu Jin等;《CoNEXT "07: Proceedings of the 2007 ACM CoNEXT conference》;20071210;全文 * |
基于半监督学习的安卓恶意软件检测及其恶意行为分析;杜炜等;《信息安全研究》;20180305(第03期);全文 * |
基于流量的网络异常行为检测方法研究;薛少勃;《中国优秀硕士学位论文全文数据库》;20190815(第8期);全文 * |
数据挖掘在异常入侵检测系统中的应用;杨欣等;《计算机与现代化》;20060128(第01期);全文 * |
自然语言处理与图分析相融合的网络舆论安全分析;徐明等;《信息安全与通信保密》;20191010(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113032824A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106790256B (zh) | 用于危险主机监测的主动机器学习系统 | |
CN108471429B (zh) | 一种网络攻击告警方法及系统 | |
CN108683687B (zh) | 一种网络攻击识别方法及系统 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
CN107579956B (zh) | 一种用户行为的检测方法和装置 | |
US20130081065A1 (en) | Dynamic Multidimensional Schemas for Event Monitoring | |
CN113032824B (zh) | 基于数据库流量日志的低频数据泄漏检测方法及系统 | |
US20110119219A1 (en) | Method and apparatus for analyzing system events | |
CN106844143A (zh) | 一种日志去重处理方法及装置 | |
CN111953697B (zh) | 一种apt攻击识别及防御方法 | |
CN109347808B (zh) | 一种基于用户群行为活动的安全分析方法 | |
CN108833185B (zh) | 一种网络攻击路线还原方法及系统 | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
CN111723371A (zh) | 构建恶意文件的检测模型以及检测恶意文件的方法 | |
CN108234426B (zh) | Apt攻击告警方法和apt攻击告警装置 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN113051308A (zh) | 告警信息处理方法、设备、存储介质及装置 | |
CN106294406B (zh) | 一种用于处理应用访问数据的方法与设备 | |
US11157620B2 (en) | Classification of executable files using a digest of a call graph pattern | |
CN107920067A (zh) | 一种主动对象存储系统上的入侵检测方法 | |
CN117973347A (zh) | 基于自动化模板填充技术的溯源报告自动生成方法及系统 | |
CN116739605A (zh) | 交易数据检测方法、装置、设备及存储介质 | |
US20230098919A1 (en) | Malware attributes database and clustering | |
EP2571225A1 (en) | A method for detecting data misuse in an organization's network | |
CN114124586A (zh) | 一种网络威胁检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |