CN115952067A - 一种数据库操作异常行为检测方法及可读存储介质 - Google Patents

一种数据库操作异常行为检测方法及可读存储介质 Download PDF

Info

Publication number
CN115952067A
CN115952067A CN202211640823.1A CN202211640823A CN115952067A CN 115952067 A CN115952067 A CN 115952067A CN 202211640823 A CN202211640823 A CN 202211640823A CN 115952067 A CN115952067 A CN 115952067A
Authority
CN
China
Prior art keywords
algorithm
database
abnormal
lof
quartile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211640823.1A
Other languages
English (en)
Inventor
冯骏
刘硕
周子尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Big Data Center
Original Assignee
Shanghai Big Data Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Big Data Center filed Critical Shanghai Big Data Center
Priority to CN202211640823.1A priority Critical patent/CN115952067A/zh
Publication of CN115952067A publication Critical patent/CN115952067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据库操作异常行为检测方法及可读存储介质,其中,所述检测方法包括如下步骤:S01)对数据库审计类日志数据进行解析、转换和采集;S02)使用LOF算法检测异常点;S03)采用四分位算法检测数据库操作异常行为;S04)结合LOF算法和四分位算法的异常检测结果,联合检测输出异常,得出最终的数据库操作异常行为检测结果。本发明提供的数据库操作异常行为检测方法及可读存储介质,能够很好地兼顾运行速度和准确性,提高高维大数据的检测效率。

Description

一种数据库操作异常行为检测方法及可读存储介质
技术领域
本发明涉及一种数据安全审计方法,尤其涉及一种数据库操作异常行为检测方法及可读存储介质。
背景技术
数据安全审计及数据泄露防护的重要性不言而喻。然而,黑客日益狡猾,所使用的攻击手段花样繁多,其攻击行为日益隐蔽且没有明显的规律性。
当前,数据库操作异常行为的检测手段按照数理逻辑大致分为三类:1)基于一定规则的统计方法,如分位数算法、HBOS(基于直方图的异常值得分)算法等;2)基于神经网络等有监督类的算法,如CNN(卷积神经网络)、LSTM(长短期记忆人工神经网络)等;3)基于类群算法或树形算法等无监督类的算法,如聚类算法、孤立森林算法、频繁模式树算法等。这三类方法各有优点:第一种方法灵活易用;第二种方法考虑因素周全,函数描述和表达能力强;第三种方法直观明了,可解释性强。但是这些算法在数据安全审计领域的应用都有其局限性,要么因为过于复杂检测效率低,要么因为检测结果可信度低无法满足数据安全防御和治理的需求。
发明内容
本发明所要解决的技术问题是提供一种数据库操作异常行为检测方法,能够很好地兼顾运行速度和准确性,提高高维大数据的检测效率。
本发明为解决上述技术问题而采用的技术方案是提供一种数据库操作异常行为检测方法,包括如下步骤:S01)对数据库审计类日志数据进行解析、转换和采集;S02)使用LOF算法检测异常点;S03)采用四分位算法检测数据库操作异常行为;S04)结合LOF算法和四分位算法的异常检测结果,联合检测输出异常,得出最终的数据库操作异常行为检测结果。
进一步地,所述步骤S01中的数据库审计类日志数据来源于堡垒机或数据库审计设备的SQL请求操作日志。
进一步地,所述步骤S2包括:步骤S021,针对不同的用户实体行为异常分析场景快速选取相应的多维特征;步骤S022,对选取的特征数据进行归一化处理;步骤S023,采用LOF算法识别异常点。
进一步地,所述步骤S021针对SQL请求日志用户实体,选取如下多维特征:操作频次、访问设备端口数、操作类型数、操作表数、数据库风险操作次数、sql返回的总行数、session数、访问主机的平均持续时间和session的平均持续时间。
进一步地,所述步骤S022对选取的特征数据采用如下的最小最大化方法处理过程:对每一个用户实体操作特征量,按照x′=(x-minA)/(maxA-minA)进行计算;其中,x为上一步骤中挑选的某个操作特征量,minA为该操作特征量的最小值,maxA为该操作特征量的最大值,x′为处理之后的特征量。
进一步地,所述步骤S023包括:S0231)用欧式距离计算待检测的特征数据集中数据点的第k距离;S0232)通过所求的第k距离确定该点第k可达距离;S0233)通过所求的第k距离确定该点第k距离邻域;S0234)通过可达距离和第k距离邻域计算该点局部可达密度;S0235)通过局部可达密度计算局部离群因子,获得异常程度得分。
进一步地,所述步骤S03包括获取与数据库敏感操作或者异常操作有关的关键特征值,并按如下算法检测异常:S0321)根据分位数算法计算四分位数值;S0322)根据四分位数计算异常边界阈值;S0323)根据异常边界阈值判定异常。
进一步地,所述步骤S03选取的单维度关键特征为数据库风险操作次数,用cnt表示,四分位算子用clickhouse或spark-sql的quartile()算子来实现,异常边界阈值计算公式如下:
outlier_value=Q3+γ(Q3-Q1);
Q1为四分之一分位数,Q3为四分之三分位数;Q1=quartile(cnt,0.25),Q3=quartile(cnt,
0.75),2≤γ≤8。
进一步地,所述步骤S04包括:S041)采用网格搜索算法对k进行寻优,选取合适的LOF算法的k值;S042)设定LOF算法检测异常的条件为LOFk(P)>2,只有LOF算法和四分位算法都判定为异常时,才将数据对象最终判定为异常;S043)用LOF算法中的LOFk(P)值来定量给出异常程度,LOFk(P)为点P的局部异常因子。
本发明为解决上述技术问题还提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现上述的数据库操作异常行为检测方法中的步骤。
本发明对比现有技术有如下的有益效果:本发明提供的数据库操作异常行为检测方法,将LOF(局部离群因子)算法和四分位算法结合起来共同检测数据库操作异常行为(离群点),具体如下创新点:1)对数据的分布几乎没有要求;2)选取特征充分利用了数据库审计安全领域的专家经验;3)检测速度快,能够对高维度大数据进行快速检测;4)准确度相比单一算法高;5)可以方便地通过参数(包括近邻参数和阈值参数)控制在算法运行速度和检测准确性之间取得平衡。
附图说明
图1为本发明数据库操作异常行为整体检测流程图;
图2为本发明LOF算法异常检测整体流程图;
图3为本发明LOF算法流程图;
图4为本发明四分位算法异常检测整体流程图;
图5为本发明四分位算法核心流程图;
图6为本发明联合检测输出异常流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明为数据库审计安全提供了一种数据库操作异常行为检测方法,创新性地将人的智能、特征挖掘、数据归一化、类群算法、密度算法、统计算法等手段或思想理念有机结合起来,产生了预期之外的加成效果,主要体现在四个方面:
1)以数据库审计安全领域专家经验知识充分挖掘特征,并且选取特征非常快捷。
2)最大最小化(MinMaxScaler)处理不仅提升了异常检测算法的运算性能,而且保证了数据的质量。
3)从特征空间去理解数据库操作异常行为,笃定异常行为一定是有数据“迹象”的,灵活地将多维度算法和单维度算法结合起来,把业务照进算法,让算法非常容易理解。
4)创造性将密度类群算法和统计算法有机结合起来,在异常行为检测速度和准确性之间取得了很好的平衡。
图1是本发明提供的一种数据库操作异常行为检测方法整体流程图,具体涉及以下步骤:
步骤S01,数据采集。通过本中心大数据分析系统的数据采集模块对数据库审计类日志数据进行解析、转换和采集。其中,数据库审计类日志来源于堡垒机、数据库审计等设备的sql请求操作日志。
步骤S02,使用LOF(Local Outlier Factor,局部异常因子)算法检测异常点,从而发现对应的数据库操作行为异常实体。LOF算法检测异常的流程如图2所示,包括以下步骤:
步骤S021,快速选取多维特征。以数据库审计安全领域专家经验知识去充分选取和挖掘用于算法分析的特征。以数据库审计SQL请求日志用户实体行为异常分析场景为例,在数据采集落库之后便可以根据专家经验知识去挑选可能会对异常检测结果产生影响的特征,选取的特征如表1所示。其中特征是针对对象而言的,这里的对象一般是指用户(dst_account),当然也有可能是其他的实体如源IP(src_device_ip)等。
表1
Figure SMS_1
其中,数据库风险操作指的是drop、alter、delete、truncate、insert、update、overwrite、outfile等敏感操作。
步骤S022,数据归一化处理。取一天的数据作为检测数据,对将要送入LOF算法进行异常检测的特征数据进行最小最大化(MinMaxScaler)处理,将所有的特征放在同一量纲上,规避特征绝对值大小的影响。该最小最大化方法处理数据过程如下:对每一个用户实体操作(特征量),按照x′=(x-minA)/(maxA-minA)进行计算;其中,x为上一步骤中挑选的某个操作特征量,minA为该操作特征量的最小值,maxA为该操作特征量的最大值,x′为处理之后的特征量。
步骤S023,LOF算法识别异常点。LOF算法是基于密度的异常数据检测方法,该算法的结构和流程如图3所示,它包括以下步骤:
S0231)计算检测数据集中数据点的第k距离;
假设待检测的数据集为D,共有n个样本点,本实施例中选取了9个特征,所以样本数据维度为9。
假设dk(O)为点O的第k距离,点P是距离O最近的第k个点,那么dk(O)=d(P,O),也即点O的第k距离就是距离O最近的第k个点P到O的距离。此处点P到O的距离,用欧式距离来计算,即:
Figure SMS_2
其中,xPi表示P点对应实体第i个归一化处理之后的特征值,xOi表示O点对应实体第i个归一化处理之后的特征值,i=1,2,3,...,9。
S0232)通过所求的第k距离确定该点第k可达距离;
第k可达距离,以O为中心,点P到点O的第k可达距离定义为:
dk(P,O)=max{dk(O),d(P,O))
S0233)通过所求的第k距离确定该点第k距离邻域;
点P的第k距离的邻域记作Nk(P):指对于已知的dk(P),所有与点P的距离小于等于dk(P)的点的集合,即:
Nk(P)={Q|d(Q,P)≤dk(P)}
S0234)通过可达距离和第k距离邻域计算该点局部可达密度;
点P的局部可达密度lrdk(P),定义为点P的第k距离邻域内近邻点平均可达距离的倒数,即:
Figure SMS_3
由于数据集中可能有重复点的存在,为了防止分母为0,ε为一个接近于0的正数,此处该值为10-n,2≤n≤8,且n取正整数为宜,如取0.01、0.001等,其中更优选取0.01。|Nk(P)|表示该集合的长度,也即点P的第k距离邻域内近邻点的个数。
S0235)通过局部可达密度计算局部离群因子,即异常程度(得分);
点P的局部异常因子LOFk(P),表示点P(对应某一实体对象)可能成为离群点的程度,定义为点P第k距离邻域内近邻点局部可达密度与lrdk(P)之比的平均数:
Figure SMS_4
如果LOFk(P)的值越接近1,说明P点和其邻域点密度差不多,P可能和邻域同属一簇;如果该值越小于1,说明P的密度高于其邻域点密度,P为密集点;如果该值越大于1,则表明P的密度小于其邻域点密度,P越可能是异常点。
步骤S03,四分位算法检测异常。四分位算法基于统计方法检测数据库操作异常行为,其整体流程图如图4所示,具体包括以下步骤:
步骤S031,提取关键特征值;
结合一定的数据库审计安全领域专家经验知识,提取与数据库敏感操作或者异常操作有关的关键特征值,如表1中数据库风险操作次数,该单维度特征值用x来表示,x对应的关键特征属于但不限于数据库风险操作次数、数据库特定风险操作次数(如执行outfile指令的次数)、操作敏感表的次数、访问敏感表的个数中的一种。
步骤S032,四分位算法检测异常(用户实体);
假设待检测的数据集为D,选取的单维度关键特征为数据库风险操作次数,用cnt表示。其核心流程图如图5所示,具体包括以下步骤:
S0321)根据分位数算法计算四分位数值;
四分位算子用clickhouse或spark-sql的quartile()算子来实现:
四分之一分位数:Q1=quartile(cnt,0.25);
四分之三分位数:Q3=quartile(cnt,0.75);
S0322)根据四分位数计算异常边界阈值;
异常边界阈值计算公式如下:
outlier_value=Q3+γ(Q3-Q1)
此处,2≤γ≤8,其中γ优选正整数,更优选取3。
S0323)根据异常边界阈值判定异常
如果某数据对象的特征值cnt大于outlier_value,那么四分位算法对该数据对象的检测结果即为异常;反之为正常。
步骤S04,联合检测输出异常。结合上述两个模型的异常检测结果,得出最终的数据库操作异常行为检测结果,其流程图如图6所示,具体步骤如下:
S041)选取合适的LOF算法的k值
一般来说,LOF算法选取的k值越大,LOF算法检测的速度就会越慢,但是可信度会增加;选取的k值越小,LOF算法检测的速度就会越快,但是可信度就会降低。综合考虑异常检测的效率和性能,加之考虑到LOF算法与四分位算法一起联合使用;5≤k≤20,且k必须为正整数,这里将k值优选定为10。当然,如果对检测结果的可信度有很高的要求,可以采用网格搜索算法对k进行寻优。
S042)联合判定异常
LOF算法检测异常的条件更严格地定为LOFk(P)>2,四分位算法不作其他要求;只有LOF算法和四分位算法都判定为异常,数据对象才被最终判定为异常,否则视为正常。
S043)定量给出异常程度
异常数据对象的异常程度或者说评分用LOF算法中的LOFk(P)值来表示,LOFk(P)值越大意味着联合算法对数据库操作异常行为的检测越可信。
综上所述,本发明创造性地将基于密度的类群算法LOF算法和基于统计的算法四分位算法有机结合起来,从而提供了一种数据库操作异常行为检测方法,具体优点如下:
1)充分了利用了数据库审计安全领域专家经验知识;
2)分别使用了多维度和单维度特征;
3)使用了近邻密度算法,从而规避了数据分布不均匀性的影响;
4)在LOF算法中考虑了重复点情况,弥补了LOF算法的漏洞,从而提高了LOF算法检测的可信度。
5)联合使用了LOF算法和四分位算法,综合提高了算法的效率和性能;
6)定量描述了数据库操作异常行为的异常程度,便于将算法和数据库操作行为通过异常程度以及维度特征联系起来,确保算法具有可解释性和说服力。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (10)

1.一种数据库操作异常行为检测方法,其特征在于,包括如下步骤:
S01)对数据库审计类日志数据进行解析、转换和采集;
S02)使用LOF算法检测异常点;
S03)采用四分位算法检测数据库操作异常行为;
S04)结合LOF算法和四分位算法的异常检测结果,联合检测输出异常,得出最终的数据库操作异常行为检测结果。
2.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S01中的数据库审计类日志数据来源于堡垒机或数据库审计设备的SQL请求操作日志。
3.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S2包括:
步骤S021,针对不同的用户实体行为异常分析场景快速选取相应的多维特征;
步骤S022,对选取的特征数据进行归一化处理;
步骤S023,采用LOF算法识别异常点。
4.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S021针对SQL请求日志用户实体,选取如下多维特征:操作频次、访问设备端口数、操作类型数、操作表数、数据库风险操作次数、sql返回的总行数、session数、访问主机的平均持续时间和session的平均持续时间。
5.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S022对选取的特征数据采用如下的最小最大化方法处理过程:对每一个用户实体操作特征量,按照x′=(x-minA)/(maxA-minA)进行计算;其中,x为上一步骤中挑选的某个操作特征量,minA为该操作特征量的最小值,maxA为该操作特征量的最大值,x′为处理之后的特征量。
6.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S023包括:
S0231)用欧式距离计算待检测的特征数据集中数据点的第k距离;
S0232)通过所求的第k距离确定该点第k可达距离;
S0233)通过所求的第k距离确定该点第k距离邻域;
S0234)通过可达距离和第k距离邻域计算该点局部可达密度;
S0235)通过局部可达密度计算局部离群因子,获得异常程度得分。
7.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S03包括获取与数据库敏感操作或者异常操作有关的关键特征值,并按如下算法检测异常:
S0321)根据分位数算法计算四分位数值;
S0322)根据四分位数计算异常边界阈值;
S0323)根据异常边界阈值判定异常。
8.如权利要求7所述的数据库操作异常行为检测方法,其特征在于,所述步骤S03选取的单维度关键特征为数据库风险操作次数,用cnt表示,四分位算子用clickhouse或spark-sql的quartile()算子来实现,异常边界阈值计算公式如下:
outlier_value=Q3+γ(Q3-Q1);
Q1为四分之一分位数,Q3为四分之三分位数;Q1=quartile(cnt,0.25),Q3=quartile(cnt,0.75),2≤γ≤8。
9.如权利要求1所述的数据库操作异常行为检测方法,其特征在于,所述步骤S04包括:
S041)采用网格搜索算法对k进行寻优,选取合适的LOF算法的k值;
S042)设定LOF算法检测异常的条件为LOFk(P)>2,只有LOF算法和四分位算法都判定为异常时,才将数据对象最终判定为异常;
S043)用LOF算法中的LOFk(P)值来定量给出异常程度,LOFk(P)为点P的局部异常因子。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至9中任一项所述的数据库操作异常行为检测方法中的步骤。
CN202211640823.1A 2022-12-20 2022-12-20 一种数据库操作异常行为检测方法及可读存储介质 Pending CN115952067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211640823.1A CN115952067A (zh) 2022-12-20 2022-12-20 一种数据库操作异常行为检测方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211640823.1A CN115952067A (zh) 2022-12-20 2022-12-20 一种数据库操作异常行为检测方法及可读存储介质

Publications (1)

Publication Number Publication Date
CN115952067A true CN115952067A (zh) 2023-04-11

Family

ID=87282072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211640823.1A Pending CN115952067A (zh) 2022-12-20 2022-12-20 一种数据库操作异常行为检测方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN115952067A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116660667A (zh) * 2023-07-26 2023-08-29 山东金科电气股份有限公司 一种变压器异常监控方法及系统
CN116859902A (zh) * 2023-09-04 2023-10-10 西安热工研究院有限公司 一种用于水电控制系统的数据库异常点检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116660667A (zh) * 2023-07-26 2023-08-29 山东金科电气股份有限公司 一种变压器异常监控方法及系统
CN116660667B (zh) * 2023-07-26 2023-10-24 山东金科电气股份有限公司 一种变压器异常监控方法及系统
CN116859902A (zh) * 2023-09-04 2023-10-10 西安热工研究院有限公司 一种用于水电控制系统的数据库异常点检测方法及系统

Similar Documents

Publication Publication Date Title
CN115952067A (zh) 一种数据库操作异常行为检测方法及可读存储介质
CN108874927B (zh) 基于超图和随机森林的入侵检测方法
Chen et al. Research on intrusion detection method based on Pearson correlation coefficient feature selection algorithm
Li Application of CART decision tree combined with PCA algorithm in intrusion detection
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
WO2023272851A1 (zh) 异常数据检测方法、装置、设备及存储介质
CN102045358A (zh) 一种基于整合相关性分析与分级聚类的入侵检测方法
CN107579846A (zh) 一种云计算故障数据检测方法及系统
CN111507385A (zh) 一种可扩展的网络攻击行为分类方法
CN113591465A (zh) 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN115567269A (zh) 基于联邦学习与深度学习的物联网异常检测方法及系统
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN117170979B (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN115982722B (zh) 一种基于决策树的漏洞分类检测方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN111639680A (zh) 一种基于专家反馈机制的身份识别方法
CN115659323A (zh) 一种基于信息熵理论结合卷积神经网络的入侵检测方法
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
Ren et al. Classification and prediction of network abnormal data based on machine learning
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN113419883A (zh) 基于互信息和特征分组策略的高维异常检测预处理方法
CN112818152A (zh) 一种深度聚类模型的数据增强方法和装置
CN117714215B (zh) 实时网络威胁检测方法及功能设备
Liu et al. An accurate method of determining attribute weights in distance-based classification algorithms
Xue et al. A stacking-based classification approach to android malware using host-level encrypted traffic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination