CN116804963A - 一种使数据库行为监测系统多样化的方法及系统 - Google Patents

一种使数据库行为监测系统多样化的方法及系统 Download PDF

Info

Publication number
CN116804963A
CN116804963A CN202311069030.3A CN202311069030A CN116804963A CN 116804963 A CN116804963 A CN 116804963A CN 202311069030 A CN202311069030 A CN 202311069030A CN 116804963 A CN116804963 A CN 116804963A
Authority
CN
China
Prior art keywords
transaction
user
risk
database
rewards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311069030.3A
Other languages
English (en)
Other versions
CN116804963B (zh
Inventor
刘雨蒙
王金雨
徐帆江
赵怡婧
苏毅
万梓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Remote Sensing Equipment
Original Assignee
Beijing Institute of Remote Sensing Equipment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Remote Sensing Equipment filed Critical Beijing Institute of Remote Sensing Equipment
Priority to CN202311069030.3A priority Critical patent/CN116804963B/zh
Publication of CN116804963A publication Critical patent/CN116804963A/zh
Application granted granted Critical
Publication of CN116804963B publication Critical patent/CN116804963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种使数据库行为监测系统多样化的方法及系统,所述方法包括:基于多臂赌博机问题为数据库行为监测系统建立数学模型,数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级;将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间确定系统的奖励函数;采样模块利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;状态空间中的数据库事务管理单元根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至采样模块,以使采样模块每个单位时间根据相应的奖励确定下次迭代的决策策略。提高了采集到高风险事务的准确率,提高了DAM系统的警报质量。

Description

一种使数据库行为监测系统多样化的方法及系统
技术领域
本发明属于数据库行为监测系统技术领域,具体涉及一种使数据库行为监测系统多样化的方法及系统。
背景技术
数据库是大型组织IT基础设施的核心,数据安全、隐私保护和数据泄漏预防是系统中的重要组成部分,大多数数据库系统都会使用数据库行为监测系统(DAM)。数据库行为监测系统被广泛应用于大型组织、国家机关等重要数据库系统当中,它在系统中主要有监控(记录)用户活动和对异常活动发出警报等作用。
由于在这些大型系统中的高流量和运营成本,每秒钟可能会有数十万次的事务申请到数据库系统中,系统仅能够监测和记录有限的用户活动样本。所以DAM系统不会记录所有的事务,而是使用策略来决定保存哪些事务,当前的样本采集策略算法主要由专家手动制订,来决定要监视和记录哪些用户的事务,这样就限制了数据收集的多样性。策略的更改需要大量的人工工作,这会导致一旦策略确定下来,就很少会有机会被更改。而且专家在制订策略时都会显现出一定的倾向性,这限制了系统应对用户和环境变化的能力。这种静态策略方法可能会导致“过滤气泡”现象,在这种现象中,DAM系统的用户被限制在与定义的风险概况过于相似的子空间中,从而失去探索超出其已知范围的能力。对于一个推荐系统来说,这是一个及其严重的缺陷。
发明内容
本发明针对现有技术中存在的上述不足,提供一种使数据库行为监测系统多样化的方法及系统。
第一方面,本发明实施例提供一种使数据库行为监测系统多样化的方法,包括:
基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
采样模块利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
所述状态空间中的数据库事务管理单元根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
在一些实施例中,基于多臂赌博机问题为数据库行为监测系统建立数学模型,包括:
设定一个连续的单位时间t∈{t1...tn},一个单位时间中有n个事务,在一个单位时间内用户事务样本集合U∈{U1...Un},,/>为第i个用户,它们在每个单位时间上的风险系数由r∈{r1...rn}给出,/>为第i个用户的风险系数;选择最好的决策策略pt,pt选定一个U的子集,来为当前单位时间获取最大化的风险评分,采样子集的容量为C;定义一个xjt={0,1}来表示用户事务uj是否被基于容量C的/>贪心算法选入到当前单位时间的策略pt中,定义一个zjt={0,1}来表示用户事务uj是否被原始的专家策略选入到当前单位时间的策略ot中,一次迭代中决策策略pt产生的奖励可以由下式得出:
其中,为当前单位时间t第j个事务的风险系数;
回报比例的表达式为:
全部单位时间获得的总奖励表示为:
其中,T为全部单位时间;
在整个模型中,使用奖励这一指标来从风险检测、覆盖率和检测到的恶意时间的角度来评估采样算法的性能,使用专家策略在时刻t检测给定容量的最大化风险为:
一个单位时间的奖励中检测到的风险占专家策略风险的回报比例为:
其中,为原始的专家策略得到的奖励;
根据以上定义,数据库行为监测中的多样化问题映射为获得给定容量C的最大化
在一些实施例中,在状态空间将每个事务根据其属性对应的将会产生的风险等级确定为系统的奖励函数,包括:
通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,包括:
记某个采样点的用户注册时间为ts,记数据库系统创建时间为tc,数据库系统最后一个注册的用户时间为te,此属性的风险等级评估可由下式得出:
其中,P为最高风险等级。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险系数,还包括:
统计数据库系统用户权限后用户所得风险等级点数记为,将系统用户加入信任度系统,记系统用户的信任度为T,信任度的值为0-1,信任度高的用户T值更加趋近于0,T将作为此风险属性的权重,最终的用户权限与信任度评估表达式为:
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
依据用户历史事务的种类、时间点、数值范围对事务相似度给予评估,若出现与用户历史事务的事务相似度小于预设阈值的事务则会提高风险等级点数。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
数据库行为监测系统中预设一系列用户及其事务操作的集合,当出现与预设一系列用户及其事务操作的集合中的类似特征时会增加额外的风险等级点数。
在一些实施例中,基于容量C的贪心算法,包括:
设定ε作为容量C中用于开发的比例,1-ε为容量C中用于探索的比例;
在一次迭代中依据样本C和比例ε确定用于开发和随机探索的样本数Cε和C1-ε,在分别获取每个探索样本的奖励ri以计算探索的奖励和
其中,为第i个用户/>的风险系数;
将所有探索得到的事务及其奖励添加到专家知识库中,并按奖励的降序重新排序:
再从专家知识库中贪心选取ε*C个样本,即选取前面一直获取奖励最多的几个样本,作为开发样本,并计算所得奖励
则次一轮迭代采样的总奖励为:
每一次迭代都会更改专家知识库中的sorted_users列表,通过ε参数来平衡开发与探索的比重。
在一些实施例中,通过调整ε的数值可以改变采样决策算法的特性,当ε=0时可以将其看成完全随机采样的策略,当ε=1时可以将其看成完全贪心的采样策略。
第二方面,本发明实施例还提供一种使数据库行为监测系统多样化的系统,其特征在于,包括:
模型建立模块,用于基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
定义模块,用于将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
采样模块,用于利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
所述状态空间中的数据库事务管理单元,用于根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
本发明中将DAM系统重新抽象为一种特殊的MAB问题,使用强化学习的理念为此问题进行数学建模,将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务根据其属性对应的将会产生的风险等级确定为系统的奖励函数,用户事务集合包括用户及其事务属性;最后给出了基于容量C的贪心算法作为模型的动作空间的决策策略,用作对单位时间内事务集合的采样算法,使系统在多次迭代中,获取更多的奖励,即收集到更多的风险事务。大大提高了采集到高风险事务的准确率,提高了DAM系统的警报质量,避免“过滤气泡”现象,能够应对丰富复杂的突发风险。
附图说明
图1为本发明实施例提供的一种使数据库行为监测系统多样化的方法的流程图;
图2为本发明实施例提供的数学模型的示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举规则的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
本发明提供一种使数据库行为监测系统多样化的方法及系统。以下分别结合本发明提供的实施例的附图逐一进行详细说明。
第一方面,如图1、图2所示,本发明实施例提供一种使数据库行为监测系统多样化的方法,包括:
步骤S101,基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
步骤S102,将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
步骤S103,采样模块利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
步骤S104,所述状态空间中的数据库事务管理单元根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
当系统管理员为用户事务定义风险程度时,会使用各种上下文信息,如时间戳、用户活动概况、用户位置、IP地址、事务的性质等。这些信息由系统管理员手动定义转换策略来确定风险程度,由事务的属性决定事务的风险程度。
数据库系统在持续运行的过程中,可以将运行过程分为多个单位时间,每个单位时间数据接受了来自不同用户的事务。每一个事务依据其所属用户的信息,事务的种类和操作等可以评估出对数据库系统的风险程度,但风险程度需要系统主动辨识才能够获取。大型数据库系统中,认为一个单位时间内的事务量巨大,无法全部监测和记录,一个单位时间内能够监测的事务总数被称为“监测容量”。设置合理的采样算法来使在监测容量内获取更多的风险事务,以发出更高质量的警报信息,是DAM系统的最终目的。
多臂赌博机(MAB)问题可以简述为:赌博机有K个摇臂,玩家投一个游戏币以后可以按下任意一个摇臂,每个摇臂以一定的概率吐出硬币作为回报,且每个摇臂的中奖概率不同。玩家的目标是通过一定的策略获得最大化的累积回报。
在本发明中将会把DAM系统数据采样问题抽象为一个多臂赌博机(MAB)问题的变体。将一个单位时间内的采集决策视为一次赌博机操作,一个单位时间内的所有事务可以看作是赌博机的K个摇臂,它们的奖励就是事务的风险程度。与MAB问题不同的是,每一轮需要拉动多个摇臂,且每个手臂的奖励可能会在下一个单位时间内改变(用户属性和事务会发生改变),摇动手臂的个数就是系统的监测容量。使用一种新的算法,作为每一轮选择摇臂的决策单元,目标是找到采样用户数据库事务的最优策略,利用可用资源,最大化风险监测。
与经典的MAB问题不同,在数据库场景下,用户事务的风险程度分布并不是静态的。当用户的属性状态或者提交的事务种类发生变化时,它对系统的风险程度会发生变化,且在每一轮中需要采集多个事务而不是一个。相当于是在MAB中,每一轮需要拉动多个摇臂,并且摇臂的奖励机率每一轮都会发生变化,相当于是一个动态的MAB问题。
因此,本发明基于多臂赌博机问题为数据库行为监测系统建立数学模型,相当于解决动态的MAB问题。数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择C个事务,每次迭代的奖励不同。
如图2所示的数学模型,数据库事务管理单元把上一轮计算的奖励和本轮的时间单位内的事务集合/>传给采样模块作为输入,采样模块根据上一轮计算的奖励确定下次迭代的决策策略输出选中事务集合/>,数据库事务管理单元根据选中事务集合/>和奖励函数计算得到下一轮的奖励。
本发明中将DAM系统重新抽象为一种特殊的MAB问题,使用强化学习的理念为此问题进行数学建模,将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务根据其属性对应的将会产生的风险等级确定为系统的奖励函数,用户事务集合包括用户及其事务属性;最后给出了基于容量C的贪心算法作为模型的动作空间的决策策略,用作对单位时间内事务集合的采样算法,使系统在多次迭代中,获取更多的奖励,即收集到更多的风险事务。大大提高了采集到高风险事务的准确率,提高了DAM系统的警报质量,避免“过滤气泡”现象,能够应对丰富复杂的突发风险。
下面论述本发明提供的数学模型:
多臂赌博机本质上是一类简化的强化学习问题,这类问题具有非关联的状态(每次只从一种情况输或赢中学习),而且只研究可评估的反馈。每次行动的结果只和当前的状态关联而不受历史行动的结果影响(每次拉摇臂的回报只和赌博机设置的概率相关,之前输赢的结果不会影响本次行动)。
强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。
将数据库每个单位时间中的用户及其事务属性作为其状态空间,每一个事务根据其属性的定义将会产生一个风险等级作为系统的奖励函数,每一个单位时间根据智能体做出的采样决策会得到相应的奖励用以影响下次的决策策略。整个模型的示意图如图2所示。
在一些实施例中,基于多臂赌博机问题为数据库行为监测系统建立数学模型,包括:
设定一个连续的单位时间t∈{t1...tn},一个单位时间中有n个事务,在一个单位时间内用户事务样本集合U∈{U1...Un},,/>为第i个用户,它们在每个单位时间上的风险系数由r∈{r1...rn}给出,/>为第i个用户的风险系数;选择最好的决策策略pt,pt选定一个U的子集,来为当前单位时间获取最大化的风险评分,采样子集(采样样本)的容量为C(单次迭代的采样个数);定义一个xjt={0,1}来表示用户事务uj是否被基于容量C的/>贪心算法选入到当前单位时间的策略pt中,定义一个zjt={0,1}来表示用户事务uj是否被原始的专家策略选入到当前单位时间的策略ot中,一次迭代中决策策略pt产生的奖励可以由下式得出:
其中,为当前单位时间t第j个事务的风险系数;
回报比例的表达式为:
全部单位时间获得的总奖励表示为:
其中,T为全部单位时间;
在整个模型中,使用奖励这一指标来从风险检测、覆盖率和检测到的恶意时间的角度来评估采样算法的性能,使用专家策略在时刻t检测给定容量的最大化风险为:
一个单位时间的奖励中检测到的风险占专家策略风险的回报比例为:
其中,为原始的专家策略得到的奖励;
根据以上定义,数据库行为监测中的多样化问题映射为获得给定容量C的最大化
需要说明的是,所述回报比例即为一个单位时间内数据库事务管理单元计算得到的相应的奖励。
本发明实施例中,基于上述抽象出的MAB模型,对模型中数据库活动监控过程进行数学建模,来模拟受存储和计算能力限制的风险“回报”最大化问题。数学模型的目标是选择最好的决策策略pt,pt选定一个U的子集,来为当前单位时间获取最大化的风险评分。
下面论述本发明中,将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间确定系统的奖励函数的过程。
为了给采样算法设定奖励函数,需要对用户及其事务的属性进行分类,并形成一个映射函数用来获得一个具体事务的风险等级。在一个单位时间内,每个用户发起的事务将被视作一个采样点,采样点有如下属性,依据其属性可以评估单个采样点的风险等级,为将风险等级(奖励函数)抽象化,每个属性均以0-P来评估其风险程度,值越大代表风险等级越高,P为最高风险等级。单个采样点的风险程度最终以多个属性的共同得点为结果。
在一些实施例中,在状态空间将每个事务根据其属性对应的将会产生的风险等级确定为系统的奖励函数,包括:
通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,包括:
记某个采样点的用户注册时间为ts,记数据库系统创建时间为tc,数据库系统最后一个注册的用户时间为te,此属性的风险等级评估可由下式得出:
在该步骤中,事务的属性为用户注册时间。需要说明的是 ,用户注册时间越早,则数据库系统更加信任此用户发起的事务。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险系数,还包括:
统计数据库系统用户权限后用户所得风险等级点数记为,将系统用户加入信任度系统,记系统用户的信任度为T,信任度的值为0-1,信任度高的用户T值更加趋近于0,T将作为此风险属性的权重,最终的用户权限与信任度评估表达式为:
在该步骤中,事务的属性为用户权限与信任度。
需要说明的是,数据库系统用户权限包括读取权限、删除权限、更新权限、写入权限、库表权限等多种,代表用户允许执行的数据库操作。DAM系统认为权限越高的用户风险等级越高,高权限的用户在此属性将的高更多的风险等级点数。更加受信任的用户会削减其事务的风险程度。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
依据用户历史事务的种类、时间点、数值范围对事务相似度给予评估,若出现与用户历史事务的事务相似度小于预设阈值的事务则会提高风险等级点数。该用户历史事务即用户发起的事务。事务相似度小于预设阈值即事务相似度较小,出现的该事务较反常。
在该步骤中,事务的属性为事务相似度。
需要说明的是,单个用户在使用数据库时,处理的业务往往极为相似,向数据库发起的事务也是类似的。
在一些实施例中,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
数据库行为监测系统中预设一系列用户及其事务操作的集合,当出现与预设一系列用户及其事务操作的集合中的类似特征时会增加额外的风险等级点数。
在该步骤中,事务的属性为特定风险。
下面论述本发明提供的基于容量C的贪心算法:
MAB问题的决策算法已经有多种解决方案,算法主要是解决探索与开发之间的权衡问题,现有的经典算法有贪心算法(ε-greedy)、Softmax-贪心算法(Softmax-greedy)、/>下降算法(ε-decreasing)、汤普森采样(Thompson sampling)等。
在权衡开发与探索二者之间,ε-greedy是一种常用的策略。其表示在智能体做决策时,有一很小的正数ε(ε<1)的概率非贪心地随机选择一个动作(包括所有动作),剩下的概率选择一个贪心策略。
具体操作就是,每次玩的时候就抽一个0到1的随机数,如果这个数大于ε,则玩你认为中奖概率(预估中奖概率)最大的那个拉杆。如果小于ε,则随机再选择一个拉杆(也包括中奖概率最大的那个拉杆),得到收益后,更新这个拉杆的预估中奖概率,以便于下次选择做参考。
MAB的贪心策略已经被证明在大多数情况下是优于其他算法的。在上述建模中,传统的贪心算法每一次迭代仅采样一个样本,ε作为探索或开发的概率存在。本发明提出了一种基于容量C的/>贪心算法(C-ε-greedy)作为数据库行为监测系统强化学习模型的决策算法。
在一些实施例中,基于容量C的贪心算法,包括:
设定ε作为容量C中用于开发的比例,1-ε为容量C中用于探索的比例;
在一次迭代中依据样本C和比例ε确定用于开发和随机探索的样本数和/>,在分别获取每个探索样本的奖励/>以计算探索的奖励和/>
其中,为第i个用户/>的风险系数;
将所有探索得到的事务及其奖励添加到专家知识库中,并按奖励的降序重新排序:
再从专家知识库中贪心选取ε*C个样本,即选取前面一直获取奖励最多的几个样本,作为开发样本,并计算所得奖励
则次一轮迭代采样的总奖励为:
每一次迭代都会更改专家知识库中的sorted_users列表,通过ε参数来平衡开发与探索的比重。
在一些实施例中,通过调整ε的数值可以改变采样决策算法的特性,当ε=0时可以将其看成完全随机采样的策略,当ε=1时可以将其看成完全贪心的采样策略,它们都将成为C-ε-greedy算法的一种特殊情况。
现有的DAM系统大都采用专家策略的方式来评估事务风险等级,这样的方案在长时间运行后会出现检测方式规律化、模式化,难以应对丰富复杂的突发风险。本发明将DAM系统重新抽象为一种特殊的MAB问题,使用强化学习的理念为此问题进行数学建模,为其状态空间(用户及事务属性)进行了详细定义,并设置了相应的奖励函数,将数据库系统中用户与事务的属性作为强化学习状态空间的基本参数,事务的风险程度作为奖励函数,最后给出了C-ε-greedy算法作为动作空间的决策策略,用作对单位时间内事务集合的采样算法,使系统在多次迭代中,获取更多的奖励(即收集到更多的风险事务)。大大提高了采集到高风险事务的准确率,提高了DAM系统的警报质量,可以应对丰富复杂的突发风险。
第二方面,本发明实施例还提供一种使数据库行为监测系统多样化的系统,其特征在于,包括:
模型建立模块,用于基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
定义模块,用于将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
采样模块,用于利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
所述状态空间中的数据库事务管理单元,用于根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种使数据库行为监测系统多样化的方法,其特征在于,包括:
基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
采样模块利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
所述状态空间中的数据库事务管理单元根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
2.根据权利要求1所述的使数据库行为监测系统多样化的方法,其特征在于,基于多臂赌博机问题为数据库行为监测系统建立数学模型,包括:
设定一个连续的单位时间t∈{t1...tn},一个单位时间中有n个事务,在一个单位时间内用户事务样本集合U∈{U1...Un},,/>为第i个用户,它们在每个单位时间上的风险系数由r∈{r1...rn}给出,/>为第i个用户的风险系数;选择最好的决策策略pt,pt选定一个U的子集,来为当前单位时间获取最大化的风险评分,采样子集的容量为C;定义一个xjt={0,1}来表示用户事务uj是否被基于容量C的/>贪心算法选入到当前单位时间的策略pt中,定义一个zjt={0,1}来表示用户事务uj是否被原始的专家策略选入到当前单位时间的策略ot中,一次迭代中决策策略pt产生的奖励可以由下式得出:/>
其中,为当前单位时间t第j个事务的风险系数;
回报比例的表达式为:
全部单位时间获得的总奖励表示为:
其中,T为全部单位时间;
在整个模型中,使用奖励这一指标来从风险检测、覆盖率和检测到的恶意时间的角度来评估采样算法的性能,使用专家策略在时刻t检测给定容量的最大化风险为:
一个单位时间中检测到的风险占专家策略风险的回报比例为:
其中,为原始的专家策略得到的奖励;
根据以上定义,数据库行为监测中的多样化问题映射为获得给定容量C的最大化
3.根据权利要求1所述的使数据库行为监测系统多样化的方法,其特征在于,在状态空间将每个事务对应将会产生的风险等级确定为系统的奖励函数,包括:
通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级。
4.根据权利要求3所述的使数据库行为监测系统多样化的方法,其特征在于,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,包括:
记某个采样点的用户注册时间为ts,记数据库系统创建时间为tc,数据库系统最后一个注册的用户时间为te,此属性的风险等级评估可由下式得出:
其中,P为最高风险等级。
5.根据权利要求4所述的使数据库行为监测系统多样化的方法,其特征在于,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险系数,还包括:
统计数据库系统用户权限后用户所得风险等级点数记为,将系统用户加入信任度系统,记系统用户的信任度为/>,信任度的值为0-1,信任度高的用户T值更加趋近于0,T将作为此风险属性的权重,最终的用户权限与信任度评估表达式为:
6.根据权利要求5所述的使数据库行为监测系统多样化的方法,其特征在于,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
依据用户历史事务的种类、时间点、数值范围对事务相似度给予评估,若出现与用户历史事务的事务相似度小于预设阈值的事务则会提高风险等级点数。
7.根据权利要求6所述的使数据库行为监测系统多样化的方法,其特征在于,通过每个事务对应的用户注册时间、用户权限与信任度、事务相似度、特定风险设定奖励函数,评价用户及其事务的风险等级,还包括:
数据库行为监测系统中预设一系列用户及其事务操作的集合,当出现与预设一系列用户及其事务操作的集合中的类似特征时会增加额外的风险等级点数。
8.根据权利要求2所述的使数据库行为监测系统多样化的方法,其特征在于,基于容量C的贪心算法,包括:
设定ε作为容量C中用于开发的比例,1-ε为容量C中用于探索的比例;
在一次迭代中依据样本C和比例ε确定用于开发和随机探索的样本数Cε和C1-ε,在分别获取每个探索样本的奖励ri以计算探索的奖励和
其中,为第i个用户/>的风险系数;
将所有探索得到的事务及其奖励添加到专家知识库中,并按奖励的降序重新排序:
再从专家知识库中贪心选取ε*C个样本,即选取前面一直获取奖励最多的几个样本,作为开发样本,并计算所得奖励
则次一轮迭代采样的总奖励为:/>
每一次迭代都会更改专家知识库中的sorted_users列表,通过ε参数来平衡开发与探索的比重。
9.根据权利要求8所述的使数据库行为监测系统多样化的方法,其特征在于,通过调整ε的数值可以改变采样决策算法的特性,当ε=0时可以将其看成完全随机采样的策略,当ε=1时可以将其看成完全贪心的采样策略。
10.一种使数据库行为监测系统多样化的系统,其特征在于,包括:
模型建立模块,用于基于多臂赌博机问题为数据库行为监测系统建立数学模型,所述数学模型用于选择最好的决策策略来为当前单位时间获取最大化的风险等级,其中,每单位时间迭代一次选择一个决策策略,所述决策策略用于在每次迭代中选择事务,每次迭代的奖励不同;
定义模块,用于将数据库每个单位时间的用户事务集合作为其状态空间,并在状态空间将每个事务将会产生的风险等级确定为系统的奖励函数,其中,所述每个事务将会产生的风险等级根据事务其属性对应确定;
采样模块,用于利用数学模型的基于容量C的贪心算法作为动作空间的决策策略,决策选择的事务;
所述状态空间中的数据库事务管理单元,用于根据选择的事务和数学模型的奖励函数计算得到相应的奖励,并将该相应的奖励反馈至所述采样模块,以使所述采样模块每个单位时间根据所述相应的奖励确定下次迭代的决策策略。
CN202311069030.3A 2023-08-24 2023-08-24 一种使数据库行为监测系统多样化的方法及系统 Active CN116804963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311069030.3A CN116804963B (zh) 2023-08-24 2023-08-24 一种使数据库行为监测系统多样化的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311069030.3A CN116804963B (zh) 2023-08-24 2023-08-24 一种使数据库行为监测系统多样化的方法及系统

Publications (2)

Publication Number Publication Date
CN116804963A true CN116804963A (zh) 2023-09-26
CN116804963B CN116804963B (zh) 2023-11-14

Family

ID=88079729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311069030.3A Active CN116804963B (zh) 2023-08-24 2023-08-24 一种使数据库行为监测系统多样化的方法及系统

Country Status (1)

Country Link
CN (1) CN116804963B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583650A (zh) * 2018-11-30 2019-04-05 浙江工商大学 一种电动车换电站选址和物流配送联合调度的方法
CN111313994A (zh) * 2019-12-30 2020-06-19 中国人民解放军军事科学院国防科技创新研究院 公平性原则下基于多臂赌博机模型的多用户频谱接入方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN114090226A (zh) * 2021-07-13 2022-02-25 中国科学院软件研究所 一种基于负载均衡的流式计算引擎调度方法及系统
CN114385272A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 面向海洋任务的在线自适应计算卸载方法及系统
US20220255817A1 (en) * 2021-02-09 2022-08-11 POSTECH Research and Business Development Foundation Machine learning-based vnf anomaly detection system and method for virtual network management
US20220343243A1 (en) * 2021-04-23 2022-10-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for resource allocation in ride-hailing platforms
US20230077948A1 (en) * 2021-09-14 2023-03-16 Dexcom, Inc. Machine learning techniques for optimized communication with users of a software application
CN116185584A (zh) * 2023-01-09 2023-05-30 西北工业大学 一种基于深度强化学习的多租户数据库资源规划与调度方法
CN116452329A (zh) * 2023-03-06 2023-07-18 中银金融科技有限公司 异常行为监测方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583650A (zh) * 2018-11-30 2019-04-05 浙江工商大学 一种电动车换电站选址和物流配送联合调度的方法
CN111313994A (zh) * 2019-12-30 2020-06-19 中国人民解放军军事科学院国防科技创新研究院 公平性原则下基于多臂赌博机模型的多用户频谱接入方法
US20220255817A1 (en) * 2021-02-09 2022-08-11 POSTECH Research and Business Development Foundation Machine learning-based vnf anomaly detection system and method for virtual network management
US20220343243A1 (en) * 2021-04-23 2022-10-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for resource allocation in ride-hailing platforms
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN114090226A (zh) * 2021-07-13 2022-02-25 中国科学院软件研究所 一种基于负载均衡的流式计算引擎调度方法及系统
US20230077948A1 (en) * 2021-09-14 2023-03-16 Dexcom, Inc. Machine learning techniques for optimized communication with users of a software application
CN114385272A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 面向海洋任务的在线自适应计算卸载方法及系统
CN116185584A (zh) * 2023-01-09 2023-05-30 西北工业大学 一种基于深度强化学习的多租户数据库资源规划与调度方法
CN116452329A (zh) * 2023-03-06 2023-07-18 中银金融科技有限公司 异常行为监测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何柳柳;杨羊;李征;赵瑞莲;: "面向持续集成测试优化的强化学习奖励机制", 软件学报, no. 05 *
黄科举;杨俊安;周继航;刘辉;: "基于多臂赌博机模型的IEEE 802.11 MAC协议认知干扰技术", 通信对抗, no. 02 *

Also Published As

Publication number Publication date
CN116804963B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN107395430B (zh) 一种云平台动态风险访问控制方法
Tsang et al. Genetic-fuzzy rule mining approach and evaluation of feature selection techniques for anomaly intrusion detection
CN107784312A (zh) 机器学习模型训练方法及装置
CN106897930A (zh) 一种信用评估的方法及装置
CN102075352A (zh) 一种网络用户行为预测的方法和装置
CN108076060A (zh) 基于动态k-means聚类的神经网络态势预测方法
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN111079860B (zh) 基于情景相似度的突发事件多粒度响应模型构建方法
CN105786711A (zh) 一种数据分析的方法及装置
Ajdani et al. Introduced a new method for enhancement of intrusion detection with random forest and PSO algorithm
CN112488716A (zh) 一种异常事件检测系统
CN107194721A (zh) 基于声誉记录分析的服务推荐者发现方法
Gajowniczek et al. Entropy based trees to support decision making for customer churn management
CN105933138B (zh) 一种时空维度相结合的云服务可信态势评估与预测方法
Petersen Data mining for network intrusion detection: A comparison of data mining algorithms and an analysis of relevant features for detecting cyber-attacks
Ligo et al. A controlled sensing approach to graph classification
CN113657536A (zh) 基于人工智能的对象分类方法、装置
CN116804963B (zh) 一种使数据库行为监测系统多样化的方法及系统
Erev et al. Generality, repetition, and the role of descriptive learning models
CN107908673A (zh) 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN113537461B (zh) 基于sir值学习的网络关键节点发现方法及系统
Mahbub et al. Implementing fuzzy analytical hierarchy process (FAHP) to measure malicious behaviour of codes in smart meter
CN114265954A (zh) 基于位置与结构信息的图表示学习方法
Yi Predicting potential customers of 5G services via ADTree
CN113190841A (zh) 一种使用差分隐私技术防御图数据攻击的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant