CN113032824A - 基于数据库流量日志的低频数据泄漏检测方法及系统 - Google Patents

基于数据库流量日志的低频数据泄漏检测方法及系统 Download PDF

Info

Publication number
CN113032824A
CN113032824A CN202110224544.6A CN202110224544A CN113032824A CN 113032824 A CN113032824 A CN 113032824A CN 202110224544 A CN202110224544 A CN 202110224544A CN 113032824 A CN113032824 A CN 113032824A
Authority
CN
China
Prior art keywords
behavior
data
sensitive
user
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110224544.6A
Other languages
English (en)
Other versions
CN113032824B (zh
Inventor
王启凡
殷钱安
刘胜
马影
梁淑云
周晓勇
余贤喆
陶景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN202110224544.6A priority Critical patent/CN113032824B/zh
Publication of CN113032824A publication Critical patent/CN113032824A/zh
Application granted granted Critical
Publication of CN113032824B publication Critical patent/CN113032824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于数据库流量日志的低频数据泄漏检测方法及系统,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为。本发明先通过行为数据进行聚类,并根据每个类的用户,学习他们的查询的表的特征,并且特征为非频率性特征,在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况,从而实现检测低频率的数据泄漏情况。

Description

基于数据库流量日志的低频数据泄漏检测方法及系统
技术领域
本发明及计算机数据安全,具体来说是一种基于数据库流量日志的低频数据泄漏检测方法及系统。
背景技术
本发明是基于数据库流量日志来进行数据分析的,数据库流量日志是通过获取数据库服务器和外部客户端之间进行网络通信产生的流量,并基于数据库的相关协议将流量包解析成可读的日志文件。这日志文件主要包含的信息有数据库的操作记录,以及操作数据库返回的结果日志。
现阶段针对于数据泄漏检测技术,主要有数据加密、权限控制、流量监控、行为基线等技术,这些技术可以防止绝大多数数据泄漏。但是针对于内部人员进行少量高信息量的低频数据泄漏是无法进行专项检测的。
如申请号为201911059550.x公开的数据泄露检测方法与装置,包括:根据历史操作行为数据,建立各用户的操作行为基线;任一用户为目标用户;历史操作行为数据包括历史网络流量和历史日志;对历史网络流量中的报文进行敏感数据检测,根据检测结果建立敏感数据操作基线;采集当前的操作行为数据;根据敏感数据操作基线,对当前操作行为数据进行分析,确定是否存在敏感数据泄露风险;若存在,执行相应的敏感数据防泄露控制策略;根据目标用户的操作行为基线,对当前操作行为数据进行分析,确定目标用户是否存在数据泄露风险,若存在,对目标用户执行相应的数据访问风险控制策略。该方法根据历史数据学习到行为的基线,超过行为基线就抛出异常,只要数据量大就出现异常,无法检测低频数据泄漏情况。
综上,现有技术中关于数据泄漏检测存在以下问题:
1、通过给数据加上水印的方法检测数据泄漏和溯源。这种方法需要对应用进行大量的改造和测试,容易对现有在运行的系统产生不良的影响。
2、基于流量监控执行行为基线的识别方法。这种方法是可以检测出高频的数据泄漏,但是对于低频的内部数据泄漏是无法检测的。
发明内容
本发明所要解决的技术问题在于如何提供一种能够检测出低频泄漏数据的检测方法。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于数据库流量日志的低频数据泄漏检测方法,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
S2.进行敏感数据配置,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
本发明先通过行为数据进行聚类,并根据每个类的用户,学习他们的查询的表的特征,并且特征为非频率性特征,在每个类中找到某个用户查询行为和其他用户查询行为不一致的情况,从而实现检测低频率的数据泄漏情况。
进一步的,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
进一步的,所述步骤S2中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
本发明还提供一种技术数据库流量日志的低频数据泄露检测系统,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;系统包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
敏感数据配置模块,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
构建用户行为特征模块,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
Fp_growth算法学习模块,将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
挖掘低频数据泄露数据模块,将Fp_growth算法学习模块中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
进一步的,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
进一步的,所述敏感数据配置模块中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
本发明还提供一种处理设备,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明的优点在于:
本发明基于用户操作的表名行为特征,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。本发明用了聚类和关联分析两个算法,大大提高了精准率
1、本发明基于数据库流量日志进行分析的,可以具有数据库的操作返回结果。分析的颗粒度更细。
2、本次无需提供完整的敏感数据表。(在实际环境中几乎没有完整的敏感数据表)
只需要提供敏感的规则(比如手机号、身份证)。更加方便和简单。
本实施例通过基于数据库流量记录,获取这些流量包几乎对系统没有任何的影响,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。
附图说明
图1为本发明实施例1基于数据库流量日志的低频数据泄漏检测方法的流程图;
图2为本发明实施例1使用基于数据库流量日志的低频数据泄漏检测方法得到的行为序列树。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种基于数据库流量日志的低频数据泄漏检测方法,本实施例将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
步骤S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1。流量数据通过解析流量包和数据库的解析协议,可以解析出如下的内容:1、流量解析基本信息(源IP地址,源端口,目的IP地址,目的端口,和传输层协议,流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。
表1
Figure BDA0002956608490000051
步骤S2.进行敏感数据配置,基于表1,通过正则表达式对敏感数据进行匹配,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。
表2
Figure BDA0002956608490000052
Figure BDA0002956608490000061
步骤S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
行为特征构建如下:
特征名称 备注
操作数 操作记录数
敏感类型数 命中定义的敏感类型的数量
敏感个数 命中定义的敏感个数
手机号个数 查询或者返回结果有多少个手机号
邮箱个数 查询或者返回结果有多少个邮箱
身份证个数 查询或者返回结果有多少个身份证
其他个数 查询或者返回结果有多少个非上述敏感的个数
操作表数 进行所有操作的表的个数
查询表数 进行查询操作的表的个数
修改表数 进行修改操作的表的个数
删除表数 进行删除操作的表的个数
工时操作个数 在工作时(8:00-19:00)操作的个数
非工时操作个数 在非工时(19:00-8:00)操作的个数
目的ip和端口个数 目的ip和目的端口的个数
流量最大值 流量的最大值
流量平均值 流量的平均值
返回行数最大值 返回行数的最大值
返回行数平均值 返回行数的平均值
操作天数 操作的天数
时长 第一次操作到最后一次操作的间隔(单位秒)
基于表2的数据,构架的数据结构表3如下:
表3
Figure BDA0002956608490000062
步骤S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类,得到表4
表4
源ip地址 源端口 日期 聚类类别
10.10.10.1 5812 20201224 1
10.10.10.5 2223 20211224 2
10.10.0.5 481 20211224 2
10.10.0.6 536 20211224 2
...
从步骤S5开始,所有的操作均在同一类中进行操作。
步骤S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征,得到表5;
表5
源ip地址 源端口 日期 操作表行为特征 聚类类别
10.10.10.5 2223 20201224 表C:1,表B:1 2
10.10.0.5 481 20201224 表A:1,表C:1,表D:0 2
10.10.0.6 536 20201224 表A:1,表C:1,表D:1 2
...
注:表A:0,表B:1的意思是,第一个对象操作表A的记录中没有发现有敏感信息,操作表B的记录中有敏感信息。本次特征仅包含0(没有敏感信息),1(有敏感信息)。不包含任何频率类等统计特征,这也是本发明可以有效的挖掘出低频异常的保证。
步骤S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
行为序列树如图2所示,保存了它在数据集中的出现次数,出现次数越多的元素越接近根。并结合行为序列树,计算每个表5每条记录的置信度和支持度。支持度为集合在总项集中出现的概率。如表5第一行的支持度为表A:0和表B:1同时出现的概率。置信度表示在表A:0出现后,表B:1出现的概率。计算的结果如表6
表6
Figure BDA0002956608490000071
Figure BDA0002956608490000081
其中对于每个操作步骤的执行度和支持度分析分析数据如表7:
表7
Figure BDA0002956608490000082
步骤S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
设阈值为0.05,那么表7中异常记录为表8所示:
表8
Figure BDA0002956608490000083
在异常记录中,找出有敏感操作的记录,记为疑似低频的数据泄露数据。例如,在数据D08的第一行,新增了D:0的操作,这个操作没有进行敏感操作,所以不计入疑似低频的泄露记录中。而数据D08的第二行,新增操作中,操作了表D:1,进行了敏感数据操作,就标记为疑似低频的数据泄露数据。
本实施例通过基于数据库流量记录,获取这些流量包几乎对系统没有任何的影响,并且本发明通过构建操作用户的操作行为,并且特征为非频率性特征,再通过基于关联规则的异常检测算法找出低频的内部数据泄漏的记录。
本实施例还提供一种基于数据库流量日志的低频数据泄漏检测系统与上述方法匹配,包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1。流量数据通过解析流量包和数据库的解析协议,可以解析出如下的内容:1、流量解析基本信息(源IP地址,源端口,目的IP地址,目的端口,和传输层协议,流量大小)。2、基于数据库协议解析的信息(执行语句、影响行数、返回结果)。
表1
Figure BDA0002956608490000091
敏感数据配置模块,基于表1,通过正则表达式对敏感数据进行匹配,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;敏感行为特征有执行语句、返回结果、手机号数量、身份证数量等等。
表2
Figure BDA0002956608490000092
Figure BDA0002956608490000101
构建用户行为特征模块,构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
行为特征构建如下:
特征名称 备注
操作数 操作记录数
敏感类型数 命中定义的敏感类型的数量
敏感个数 命中定义的敏感个数
手机号个数 查询或者返回结果有多少个手机号
邮箱个数 查询或者返回结果有多少个邮箱
身份证个数 查询或者返回结果有多少个身份证
其他个数 查询或者返回结果有多少个非上述敏感的个数
操作表数 进行所有操作的表的个数
查询表数 进行查询操作的表的个数
修改表数 进行修改操作的表的个数
删除表数 进行删除操作的表的个数
工时操作个数 在工作时(8:00-19:00)操作的个数
非工时操作个数 在非工时(19:00-8:00)操作的个数
目的ip和端口个数 目的ip和目的端口的个数
流量最大值 流量的最大值
流量平均值 流量的平均值
返回行数最大值 返回行数的最大值
返回行数平均值 返回行数的平均值
操作天数 操作的天数
时长 第一次操作到最后一次操作的间隔(单位秒)
基于表2的数据,构架的数据结构表3如下:
表3
Figure BDA0002956608490000102
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类,得到表4
表4
源ip地址 源端口 日期 聚类类别
10.10.10.1 5812 20201224 1
10.10.10.5 2223 20211224 2
10.10.0.5 481 20211224 2
10.10.0.6 536 20211224 2
...
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征,得到表5;
表5
源ip地址 源端口 日期 操作表行为特征 聚类类别
10.10.10.5 2223 20201224 表C:1,表B:1 2
10.10.0.5 481 20201224 表A:1,表C:1,表D:0 2
10.10.0.6 536 20201224 表A:1,表C:1,表D:1 2
...
注:表A:0,表B:1的意思是,第一个对象操作表A的记录中没有发现有敏感信息,操作表B的记录中有敏感信息。本次特征仅包含0(没有敏感信息),1(有敏感信息)。不包含任何频率类等统计特征,这也是本发明可以有效的挖掘出低频异常的保证。
Fp_growth算法学习模块,将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
行为序列树如图2所示,保存了它在数据集中的出现次数,出现次数越多的元素越接近根。并结合行为序列树,计算每个表5每条记录的置信度和支持度。支持度为集合在总项集中出现的概率。如表5第一行的支持度为表A:0和表B:1同时出现的概率。置信度表示在表A:0出现后,表B:1出现的概率。计算的结果如表6
表6
Figure BDA0002956608490000111
Figure BDA0002956608490000121
其中对于每个操作步骤的执行度和支持度分析分析数据如表7:
表7
Figure BDA0002956608490000122
挖掘低频数据泄露数据模块,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
设阈值为0.05,那么表7中异常记录为表8所示:
表8
Figure BDA0002956608490000123
在异常记录中,找出有敏感操作的记录,记为疑似低频的数据泄露数据。例如,在数据D08的第一行,新增了D:0的操作,这个操作没有进行敏感操作,所以不计入疑似低频的泄露记录中。而数据D08的第二行,新增操作中,操作了表D:1,进行了敏感数据操作,就标记为疑似低频的数据泄露数据。
实施例2
本实施例提供一种处理设备,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1的方法。
实施例3
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行实施例1的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;方法包括以下步骤:
S1.采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
S2.进行敏感数据配置,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
S3.构建用户行为特征,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
S4.利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
S5.构建用户操作表行为特征,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
S6.将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
S7.挖掘低频数据泄露数据,将步骤S6中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
2.根据权利要求1所述的一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
3.根据权利要求2所述的一种基于数据库流量日志的低频数据泄漏检测方法,其特征在于,所述步骤S2中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
4.一种基于数据库流量日志的低频数据泄漏检测系统,其特征在于,将同一源IP地址对应相同的源端口及相同时间所产生的操作行为定义为同一用户操作行为;系统包括:
数据采集模块,采集数据库的流量数据,并进行解析,得到每个用户的基本信息,形成表1;
敏感数据配置模块,基于表1,构建敏感字段标签,至少得到每个用户每次操作过程中的敏感行为特征,以及每个敏感行为特征对应的行为数据,形成表2;
构建用户行为特征模块,基于表2,至少得到每个用户所有操作中每个行为特征下的行为数据总和,形成表3;
聚类模块,利用Kmeans算法进行聚类,基于表3,采用Kmeans聚类算法,将行为数据一致的若干群体归为一类;
构建用户操作表行为特征模块,根据表2,进行SQL数据解析,结合敏感行为特征,构建每个用户操作表行为特征,操作表行为特征中赋值0表示操作记录中没有发现敏感行为特征,赋值1表示操作记录中发现敏感行为特征;
Fp_growth算法学习模块,将所述操作表行为特征按照所述聚类类别采用Fp_growth算法进行学习,针对每个聚类类别均学习出一组行为序列树,结合行为序列树,计算每个用户的操作表行为特征的置信度和支持度;
挖掘低频数据泄露数据模块,将Fp_growth算法学习模块中的置信度和支持度小于阈值的操作表行为特征定义为异常记录,然后在异常记录中找出有敏感操作的记录,记为疑似低频的数据泄露数据。
5.根据权利要求4所述的一种基于数据库流量日志的低频数据泄漏检测系统,其特征在于,所述表1中所包含的数据至少包括源IP地址、源端口、目的IP地址、目的端口、传输层协议、流量大小、执行语句、影响行数、返回结果。
6.根据权利要求5所述的一种基于数据库流量日志的低频数据泄露检测系统,其特征在于,所述敏感数据配置模块中,通过正则表达式对敏感数据进行匹配,得到敏感字段标签至少包括源IP地址、源端口、目的IP地址、执行语句、返回结果、手机号数量、身份证数量,构成所述表2。
7.一种处理设备,其特征在于,包括至少一个处理器,以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。
CN202110224544.6A 2021-03-01 2021-03-01 基于数据库流量日志的低频数据泄漏检测方法及系统 Active CN113032824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224544.6A CN113032824B (zh) 2021-03-01 2021-03-01 基于数据库流量日志的低频数据泄漏检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224544.6A CN113032824B (zh) 2021-03-01 2021-03-01 基于数据库流量日志的低频数据泄漏检测方法及系统

Publications (2)

Publication Number Publication Date
CN113032824A true CN113032824A (zh) 2021-06-25
CN113032824B CN113032824B (zh) 2023-06-23

Family

ID=76465015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224544.6A Active CN113032824B (zh) 2021-03-01 2021-03-01 基于数据库流量日志的低频数据泄漏检测方法及系统

Country Status (1)

Country Link
CN (1) CN113032824B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705714A (zh) * 2021-09-03 2021-11-26 上海观安信息技术股份有限公司 基于行为序列的配电物联网设备异常行为检测方法及装置
CN113704752A (zh) * 2021-08-31 2021-11-26 上海观安信息技术股份有限公司 数据泄露行为的检测方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080034425A1 (en) * 2006-07-20 2008-02-07 Kevin Overcash System and method of securing web applications across an enterprise
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
CN104123448A (zh) * 2014-07-14 2014-10-29 南京理工大学 基于上下文的多数据流异常检测方法
CN110990867A (zh) * 2019-11-28 2020-04-10 上海观安信息技术股份有限公司 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统
CN111159195A (zh) * 2019-12-31 2020-05-15 余俊龙 区块链系统中的数据存储控制方法及设备
CN111835776A (zh) * 2020-07-17 2020-10-27 汪金玲 一种网络流量数据隐私保护方法及系统
EP3731115A1 (en) * 2019-04-26 2020-10-28 Visa International Service Association Distributed ledger data verification network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080034425A1 (en) * 2006-07-20 2008-02-07 Kevin Overcash System and method of securing web applications across an enterprise
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
CN104123448A (zh) * 2014-07-14 2014-10-29 南京理工大学 基于上下文的多数据流异常检测方法
EP3731115A1 (en) * 2019-04-26 2020-10-28 Visa International Service Association Distributed ledger data verification network
CN110990867A (zh) * 2019-11-28 2020-04-10 上海观安信息技术股份有限公司 基于数据库的数据泄露检测模型的建模方法、装置,泄露检测方法、系统
CN111159195A (zh) * 2019-12-31 2020-05-15 余俊龙 区块链系统中的数据存储控制方法及设备
CN111835776A (zh) * 2020-07-17 2020-10-27 汪金玲 一种网络流量数据隐私保护方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YU JIN等: "Identifying dynamic IP address blocks serendipitously through background scanning traffic", 《CONEXT "07: PROCEEDINGS OF THE 2007 ACM CONEXT CONFERENCE》 *
徐明等: "自然语言处理与图分析相融合的网络舆论安全分析", 《信息安全与通信保密》 *
杜炜等: "基于半监督学习的安卓恶意软件检测及其恶意行为分析", 《信息安全研究》 *
杨欣等: "数据挖掘在异常入侵检测系统中的应用", 《计算机与现代化》 *
薛少勃: "基于流量的网络异常行为检测方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704752A (zh) * 2021-08-31 2021-11-26 上海观安信息技术股份有限公司 数据泄露行为的检测方法、装置、计算机设备及存储介质
CN113704752B (zh) * 2021-08-31 2024-01-26 上海观安信息技术股份有限公司 数据泄露行为的检测方法、装置、计算机设备及存储介质
CN113705714A (zh) * 2021-09-03 2021-11-26 上海观安信息技术股份有限公司 基于行为序列的配电物联网设备异常行为检测方法及装置

Also Published As

Publication number Publication date
CN113032824B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US20130081065A1 (en) Dynamic Multidimensional Schemas for Event Monitoring
CN108683687B (zh) 一种网络攻击识别方法及系统
WO2020000763A1 (zh) 网络风险监控方法、装置、计算机设备及存储介质
CN108881263B (zh) 一种网络攻击结果检测方法及系统
US20180234445A1 (en) Characterizing Behavior Anomaly Analysis Performance Based On Threat Intelligence
CN109889550B (zh) 一种DDoS攻击确定方法及装置
Xiao et al. From patching delays to infection symptoms: Using risk profiles for an early discovery of vulnerabilities exploited in the wild
CN109347808B (zh) 一种基于用户群行为活动的安全分析方法
CN114021040B (zh) 基于业务访问的恶意事件的告警及防护方法和系统
US11997122B2 (en) Systems and methods for analyzing cybersecurity events
CN111885033A (zh) 基于多源安全检测框架的机器学习场景检测方法及系统
EP3660719A1 (en) Method for detecting intrusions in an audit log
CN111740957A (zh) 一种FP-tree优化的XSS攻击自动检测方法
CN114003903A (zh) 一种网络攻击追踪溯源方法及装置
CN111371757A (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN113343228B (zh) 事件可信度分析方法、装置、电子设备及可读存储介质
CN113032824B (zh) 基于数据库流量日志的低频数据泄漏检测方法及系统
CN114579636A (zh) 数据安全风险预测方法、装置、计算机设备和介质
US11157620B2 (en) Classification of executable files using a digest of a call graph pattern
CN111865958A (zh) 基于多源安全检测框架的检测方法及系统
CN111865959A (zh) 基于多源安全检测框架的检测方法及装置
Boonyopakorn The optimization and enhancement of network intrusion detection through fuzzy association rules
EP2571225A1 (en) A method for detecting data misuse in an organization's network
CN116432208B (zh) 工业互联网数据的安全管理方法、装置、服务器及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant