CN115618341A

CN115618341A - 一种基于大数据的数据库用户行为的分析方法及系统

Info

Publication number: CN115618341A
Application number: CN202211403121.1A
Authority: CN
Inventors: 周喜东; 郑敏波; 张文敏; 马天宁; 赵少川; 方莉莉
Original assignee: Beijing An Xin Tian Xing Technology Co ltd
Current assignee: Beijing An Xin Tian Xing Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-17

Abstract

本发明涉及一种基于大数据的数据库用户行为的分析方法及系统，包括：从用户数据库中获取用户的操作行为进行编码预处理，得编码事务组；对每一编码事务，根据用户名编码和操作行为编码构建多个项集；利用FP‑growth算法确定所有项集中的频繁项集；对每一频繁项集，根据频繁项集中的所有元素构建多个非空子集并任意选取两个互为补集的子集为一个子集组合；计算两个非空子集之间的置信度和提升度并构建用户典型正常行为规则库和用户非典型正常行为规则库；根据用户典型正常行为规则库和用户非典型正常行为规则库对数据库用户行为进行分析。本发明能够提高用户行为分析的效率和准确性。

Description

一种基于大数据的数据库用户行为的分析方法及系统

技术领域

本发明涉及大数据挖掘技术领域，特别是涉及一种基于大数据的数据库用户行为的分析方法及系统。

背景技术

随着信息技术日益发展，数据库得到了快速的发展和广泛的应用，信息量大，具有海量数据。数据库已经成为信息系统不可或缺的核心资产，其所承载的信息决定了保证数据库安全的必要性。近些年，数据安全事件层出不穷，数据库安全问题在所有安全问题中居于第一位，而防火墙/IDS等对数据库安全的保护效率不高，更多的安全威胁促使需要对数据库本身进行更高的安全防护。数据库安全威胁的一大半来自内部用户的误操作和恶意操作，因为内部人员对自己的数据库管理系统更加熟悉，而且有一定的授权，掌握一定的密码。因此，数据库用户行为直接影响了数据库的安全性。对此，本发明提出一种基于大数据的数据库用户行为的分析方法及系统。

发明内容

本发明的目的是提供一种基于大数据的数据库用户行为的分析方法及系统，利用大数据挖掘技术，对数据库用户行为进行关联分析，生成数据库用户行为规则库，从而更快速且更准确地分析用户行为，进而及时发现异常行为和可能的攻击行为，有效地保证数据库的安全。

为实现上述目的，本发明提供了如下方案：

一种基于大数据的数据库用户行为的分析方法，包括：

从用户数据库日常操作中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，所述编码事务组包括多个编码事务，每一所述编码事务包括一个用户名编码和完成一个独立会话所执行的多条操作行为编码；

对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集；所述项集至少包括一个元素，所述元素为所述用户名编码或所述操作行为编码；

利用FP-growth算法确定所有所述项集中的频繁项集，所述频繁项集的支持度大于最小支持度阈值；

对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建所述频繁项集的多个非空子集；将所述非空子集和所述非空子集对应的非空补集作为一个子集组合，得到多个子集组合；

对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的所述非空补集之间蕴含关系的置信度和提升度，根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库；

根据所述用户典型正常行为规则库和所述用户非典型正常行为规则库对数据库用户行为进行分析。

可选的，所述从用户数据库中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，具体包括：

收集所述用户操作所述用户数据库的所有SQL操作语句；

将每一所述用户完成一个独立会话所执行的所有所述SQL操作语句作为一个事务，得到所有所述用户对应的事务组；所述SQL操作语句包括操作信息、操作类型、数据库表和约束条件；

对各用户名、各所述操作信息、各所述操作类型、各所述数据库表和各所述约束条件进行编码；

根据编码信息对所述事务组中每一所述事务包括的所述用户和对应的所有所述SQL操作语句进行编码，得到多个编码事务；所述编码事务包括所述用户名编码和对应的完成一个独立会话所执行的SQL操作语句编码。

可选的，所述对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集，具体包括：

从所述用户名编码和多个所述操作行为编码任选一个，构建一项集；

从所述用户名编码和多个所述操作行为编码任选i个，构建i项集；i等于二、三，...，M；M为预设元素数；所述预设元素数的最大值为所述用户名编码和所述操作行为编码的总个数；所述项集包括一项集，二项集，...，N项集。

可选的，所述利用FP-growth算法确定所有所述项集中的频繁项集，具体包括：

从所述事务组中提取所有的所述一项集，并对每一所述一项集计算支持度，删除所述支持度小于所述最小支持度阈值的所述一项集，得到频繁一项集；

将所有所述频繁一项集放入项头表中，并将所述频繁一项集按照支持度大小进行降序排列；

将所述事务组中的非频繁一项集删除，并将剩余的所有所述项集按照支持度大小进行降序排列；

将降序排列后的所有剩余的所述项集插入FP树；

在FP树中找项头表中各项对应的条件模式基，根据条件模式基得到频繁二项集；

根据频繁i项集得到频繁i+1项集；i等于二、三，...，M；

判断i+1是否为M或频繁i+1项集为空集；

若i+1不为M或频繁i+1项集不为空集，则令i+1＝i，返回步骤“根据频繁i项集得到频繁i+1项集”，直至i+1为M或频繁i+1项集为空集；

若i+1为M或频繁i+1项集为空集，则得到所有频繁项集及对应的所述支持度，所述频繁项集包括所述频繁一项集，所述频繁二项集，...，频繁M项集。

可选的，所述方法还包括：

获取当前所述用户数据库的新操作行为，并对所述新操作行为和对应的所述用户名进行编码预处理，得新编码事务组；

对每一所述新编码事务，根据所述用户名编码和多个所述新操作行为编码构建多个新项集；

利用FP-growth算法确定所有所述新项集中的新频繁项集；

根据所述频繁项集和所述新频繁项集采用增量算法得到所述用户数据库的更新频繁项集；

令所述更新频繁项集为所述频繁项集，并返回步骤“对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建多个非空子集”。

可选的，所述根据所述频繁项集和所述新频繁项集采用增量算法得到所述用户数据库的更新频繁项集，具体包括：

对所述频繁项集和所述新频繁项集取交集，得到交集频繁项集；

在所述频繁项集和所述新频繁项集分别去除交集频繁项集，得到处理后的频繁项集和处理后的新频繁项集；

根据所述交集频繁项集、所述处理后的频繁项集和所述处理后的新频繁项集得到所述更新频繁项集。

可选的，所述对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的所述非空补集之间蕴含关系的置信度和提升度，具体包括：

对每一所述子集组合，计算

的第一置信度和第一提升度；

表示在执行所述非空补集的操作行为时，先执行所述非空子集的操作行为；

计算

的第二置信度和第二提升度；所述置信度包括第一置信度和第二置信度；所述提升度包括第一提升度和第二提升度。

可选的，所述根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库，具体包括：

当所述置信度大于最小置信度阈值时，且所述提升度大于预设值时，则确认所述子集组合中的所述非空子集和对应的所述非空补集之间存在强关联规则；

根据所有存在强关联规则的所述非空子集和对应的所述非空补集构建用户典型正常行为规则库；根据所有不存在强关联规则的所述非空子集和对应的所述非空补集构建用户非典型正常行为规则库。

本发明还提供一种基于大数据的数据库用户行为的分析系统，包括：

编码事务组构建模块，用于从用户数据库日常操作中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，所述编码事务组包括多个编码事务，每一所述编码事务包括一个用户名编码和完成一个独立会话所执行的多条操作行为编码；

项集构建模块，用于对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集；所述项集至少包括一个元素，所述元素为所述用户名编码或所述操作行为编码；

频繁项集确定模块，用于利用FP-growth算法确定所有所述项集中的频繁项集，所述频繁项集的支持度大于最小支持度阈值；

非空子集构建模块，用于对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建所述频繁项集的多个非空子集；将所述非空子集和所述非空子集对应的非空补集作为一个子集组合，得到多个子集组合；

规则库构建模块，用于对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的所述非空补集之间蕴含关系的置信度和提升度，根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库；

用户行为分析模块，用于根据所述用户典型正常行为规则库和所述用户非典型正常行为规则库对数据库用户行为进行分析。

可选的，所述编码事务组构建模块具体包括：

操作行为收集子模块，用于收集所述用户操作所述用户数据库的所有SQL 操作语句；

事务组构建子模块，用于将每一所述用户完成一个独立会话所执行的所有所述SQL操作语句作为一个事务，得到所有所述用户对应的事务组；所述SQL 操作语句包括操作信息、操作类型、数据库表和约束条件；

编码设置子模块，用于对各用户名、各所述操作信息、各所述操作类型、各所述数据库表和各所述约束条件进行编码；

事务编码子模块，用于根据编码信息对所述事务组中每一所述事务包括的所述用户和对应的所有所述SQL操作语句进行编码，得到多个编码事务；所述编码事务包括所述用户名编码和对应的完成一个独立会话所执行的SQL操作语句编码。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明涉及一种基于大数据的数据库用户行为的分析方法及系统，包括：从用户数据库中获取用户的操作行为进行编码预处理，得编码事务组；对每一编码事务，根据用户名编码和操作行为编码构建多个项集；利用FP-growth算法确定所有项集中的频繁项集；对每一频繁项集，根据频繁项集中的所有元素构建所述频繁项集的多个非空子集并将非空子集和非空子集对应的非空补集为一个子集组合；计算非空子集和对应的非空补集之间蕴含关系的置信度和提升度并构建用户典型正常行为规则库和用户非典型正常行为规则库；根据用户典型正常行为规则库和用户非典型正常行为规则库对数据库用户行为进行分析。本发明在分析数据库用户行为过程中应用大数据分析技术，并引入了 FP-growth算法，能够快速的确定频繁项集，提高了用户行为分析的效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供一种基于大数据的数据库用户行为的分析方法流程图；

图2为本发明实施例1提供的FP树的示例图；

图3为本发明实施例2提供一种基于大数据的数据库用户行为的分析系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

使用Apriori算法获取频繁项目集，需要多次扫描事务数据，效率较低；同时Apriori算法大都采用支持度-置信度联合度量过滤出强关联规则。但最小支持度阈值和最小置信度阈值是自己设定的，如果设定不当会影响规则的生成。阈值设置过低，会产生大量无用规则；阈值设置过高，会把有用的规则过滤掉。对于关联规则

置信度在统计意义上仅表示事项A发生时事项C发生的条件概率，没有全面反映事项A和C之间的统计概率关系，导致产生的强关联规则无用甚至是意义相反的。因此，支持度——置信度度量标准有一定的误差性和欺骗性，需要其他的度量标准辅助或替代来提高关联规则的度量正确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供一种基于大数据的数据库用户行为的分析方法，包括：

S1：从用户数据库日常操作中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，所述编码事务组包括多个编码事务，每一所述编码事务包括一个用户名编码和完成一个独立会话所执行的多条操作行为编码。

考虑一个典型的数据库应用系统：它为大量用户提供应用服务，不同的用户具有不同的角色，从而具有不同的操作权限，能够执行不同的功能。在权限范围内，无论是基于某个任务进行数据库操作，还是基于某种兴趣进行数据库操作，核心都反映了用户的某种需求，为了实现这种需求，不同的用户会有自己一定的操作流程，这就形成了某一用户正常的行为规则。当用户的操作行为偏离其正常历史行为轨迹时就是异常行为。例如一个常见的票务系统，消费者的合法操作就是登录系统，浏览全部活动，查看某项活动信息，然后购买某项活动的票等，并且只能在查看某活动信息之后才能购买该活动的票。消费者的操作最终都转换为对后台数据库管理系统的SQL请求，这些请求之间具有前后顺序。

具体的，步骤S1包括：

S11：收集所述用户操作所述用户数据库的所有SQL操作语句。

首先收集用户操作数据库的信息。一般一次会话包括登录用户ID、登录时间、从哪个IP登录、登录客户端类型、用户执行了哪些操作语句、在什么时间段执行，执行是否成功、返回了什么样的数据等等。这些信息从不同维度描述了用户的行为，但是对数据库来说，SQL语句是最本质的操作，SQL语句中存在多种和用户行为相关的因素，例如操作类型(增、删、改、查等)、操作对象(数据库、表、字段等)、是否有限制条件。因此要着重分析用户向数据库提交的SQL语句以及这些语句的执行顺序，才能从根本上分析用户对数据库的操作行为，全面地描述用户行为轮廓。

S12：将每一所述用户完成一个独立会话所执行的所有所述SQL操作语句作为一个事务，得到所有所述用户对应的事务组；所述SQL操作语句包括操作信息、操作类型、数据库表和约束条件。

数据库应用中，有些复杂的SQL语句可能会包含多种不同类型的操作，同一操作类型也可能涉及不同的数据库表。

一条查询语句或者一条删除语句，是否具有限制约束条件对返回结果的影响很大，对数据库的安全也有不可忽略的作用。

这里使用属性组{Oper_type，Oper_OB，constraint}来具体描述SQL操作， Oper_type是操作类型(如select、insert、delete、update、createtable等)；Oper_OB 是操作对象(数据库表)，constraint是约束条件。

一个用户在进行操作时，通常会连续执行多条语句完成一项任务，我们将执行操作的Userid(用户标识)和几条SQL操作一起作为一个事务。

例如，用户admin执行下列一组语句：

1select@@version；

2select*from studentwhere s_name＝’limei’；

3delelte from studentwhere s_name＝’limei’；

4insert into studentvalues(10，“zhangsan”，“男”，“1991-10-12”)；

将该序列组成一个事务，表示如下：

<admin,{select,dual,no},{select,Student,where},{delete,student,where},{inser t,student,no}>

S13：对各用户名、各所述操作信息、各所述操作类型、各所述数据库表和各所述约束条件进行编码。

系统在运行一段时间后就会产生大量的用户操作记录序列，我们可以用一些可枚举的代号对它们进行标记。用户可以用“U”加数字标记，如U1；操作类型用“P”加数字标记，如P10；操作对象用“O”加数字标记，如O1；约束条件用“C”加数字标记，如C3。一个SQL操作可以用形如{P1，O2， C1}的格式来表示。标记时要对用户、操作类型、操作对象、约束条件分别统计，然后赋予标记，确保标记唯一映射，避免出现重复。

S14：根据编码信息对所述事务组中每一所述事务包括的所述用户和对应的所有所述SQL操作语句进行编码，得到多个编码事务；所述编码事务包括所述用户名编码和对应的完成一个独立会话所执行的SQL操作语句编码。

例如，对于用户行为事务组：

<admin,{select,dual,no},{select,Student,where},{delete,student,where},

{insert,student,no}>；

<admin,{select,teacher,limit},{select,student,where},{select,score,where},

{insert,score,no}>；

<guest，{select,order,limit},{select,tickets,where},{insert,order,no},{select order,where}>；

<admin,{createtable,dept,no},{insert,dept,no},{select,student,where},{update student,where}>；

<zhangyi,{select,ticket,where}，{insert,order,no}，{select,order,limit}>。

编码预处理的过程如下：

先统计用户名的数量，将用户名映射为：

admin＝U1，guest＝U2，zhangyi＝U3；

接着规定操作类型的映射为：

select＝P1，insert＝P2，delete＝P3，update＝P4，createtable＝P5，droptable＝P6，.....；

统计涉及的数据库表，将其映射为：

dual＝O1，student＝O2，teacher＝O3，score＝O4，order＝O5，ticket＝O6， dept＝O7，.....；

对于约束条件，将其映射为：

no＝C0，where＝C1，limit＝C2，......；

SQL操作被映射为：

{select,dual,no}＝{P1,O1,C0}，{select,student,whrer}＝{P1,O2,C1}，{delete,student,where}＝{P3,O2,C1}，{insert,student,no}＝{P2,O2,C0}， {select,teacher,limit}＝{P1,O3}，{select,score,where}＝{P1,O4,C1}， {insert,score,no}＝{P2,O4,C0}，.....；

一一映射，完成事务组的编码预处理，如下表1所示。

表1编码事务组

表1中，U1、U2和U3表示的是用户名编码；{P1,O3,C2}表示的是一个操作行为编码；{}中的内容为一个操作语句，作为一个整体看待。

通过分析发现，在不同的时间段，例如上班时间和下班时间，首先是操作数据库的用户有很大不同，数据量的大小也有明显区别。其次同一用户对数据库的操作呈现出明显不同的规律。因此在预处理数据时，可以首先按照大的时间段将数据分割成两份，分别处理。

S2：对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集；所述项集至少包括一个元素，所述元素为所述用户名编码或所述操作行为编码。

具体的，步骤S2包括：

S21：从所述用户名编码和多个所述操作行为编码任选一个，构建一项集。

对应于表1中序号1对应的编码预处理结果来说，可以得到5个一项集。

S22：从所述用户名编码和多个所述操作行为编码任选i个，构建i项集。 i等于二、三，...，M；M为预设元素数；所述预设元素数的最大值为所述用户名编码和所述操作行为编码的总个数；所述项集包括一项集，二项集，...， M项集。

S3：利用FP-growth算法确定所有所述项集中的频繁项集，所述频繁项集的支持度大于最小支持度阈值。

采用FP_growth算法找到频繁项集，输入为编码事务组O和最小支持度 Min_sup，输出为频繁项集F。

步骤S3具体包括：

S31：从所述事务组中提取所有的所述一项集，并对每一所述一项集计算支持度，删除所述支持度小于所述最小支持度阈值的所述一项集，得到频繁一项集。

S32：将所有所述频繁一项集放入项头表中，并将所述频繁一项集按照支持度大小进行降序排列。

S33：将所述事务组中的非频繁一项集删除，并将剩余的所有所述项集按照支持度大小进行降序排列。

S34：将降序排列后的所有剩余的所述项集插入FP树。排序靠前的节点是父节点，而靠后的是子节点。如果有共用的父节点，则对应的公用父节点计数加1。插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后，FP树的建立完成。

S35：在FP树中找项头表中各项对应的条件模式基，根据条件模式基得到频繁二项集。

条件模式基是FP树的某几个分支。从项头表的底部项依次向上找到项头表项对应的条件模式基，从条件模式基得到频繁二项集。

S36：根据频繁i项集得到频繁i+1项集；i等于二、三，...，M。

S37：判断i+1是否为M或频繁i+1项集是否为空集。

若i+1不为M，或频繁i+1项集不为空集，则令i+1＝i，返回步骤“根据频繁i项集得到频繁i+1项集”，直至i+1为M或频繁i+1项集是否为空集。

为了便于本领域技术人员理解FP树的具体应用，下面举例说明：

例如：项m的条件模式基为fca:3，创建其FP树，如图2(a)所示，从如图2(a)所示的树中取第一项a和m组成一个二项集，即{a:3,m:3}，接着找a的条件模式基，即fc:3，组成FP树如图2(b)所示：

取其第一项c和之前的二项集{a:3,m:3}组成三项集{c:3,a:3,m:3}，接着找 c的条件模式基，即f:3，组成FP树为如图2(c)，取其第一项f和之前的三项集组成四项集{f:3,c:3,a:3,m:3}，接着找f的条件模式基，发现已经为空，则退回到如图2(b)所示树那层，取其第二项f和之前二项集{a:3,m:3}组成三项集{f:3,a:3,m:3}，接着找f的条件模式基，发现为空，同时如图2(b)所示树中的所有项已经遍历完，则退回如图2(a)所示树那层，接着取其第二项c 和m组成一个二项集，即{c:3,m:3}，以此类推，从一个二项基找到三项集，四项集等等。

S4：对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建所述频繁项集的多个非空子集；将所述非空子集和所述非空子集对应的非空补集作为一个子集组合，得到多个子集组合。

其中，步骤S4具体包括：

S41：对每一所述子集组合，计算

的第一置信度和第一提升度；

表示在执行所述非空补集的操作行为时，先执行所述非空子集的操作行为。

S42：计算

表示在执行所述非空子集的操作行为时，先执行所述非空补集的操作行为。

根据表1可以看出用户行为向量的各个元素之间有着很强的相关性。

首先，不同的用户在系统中具有不同的角色和工作任务，因而在操作数据库时会相对频繁地使用某类操作类型针对某些感兴数据库表进行操作。例如，数据库管理员和运维人员，数据库管理员可以创建用户，给其他用户赋权等，而运维人员更多的操作是对某张表进行查询操作或者进行数据备份维护。

其次，某些用户的操作权限被限制，所以只能执行部分操作类型，访问部分数据库表。例如系统仅赋予用户guest执行select操作，则在用户行为向量组中用户guest的出现必然会跟着操作类型select，这样用户名guest、操作类型select共同出现的概率就会增大；在一个系统管理员(sysadmin)、安全管理员(secadmin)和审计管理员(auditadmin)三权分立的系统中，sysadmin可以分配权限，所以可以对权限表进行修改(update)，而secadmin和auditadmin不能修改权限表，这样用户名为sysadmin，操作类型为update，操作对象为privs 表就会多次出现，而用户名为sysadmin，操作类型为update，操作对象为privs 表则不会出现。

另外，一个用户的操作行为也跟SQL语句的执行顺序相关，例如先查询然后删除某项数据是正常的操作，而直接不加限制条件的删除数据就是有一定风险的操作；例如某票务系统，消费者合法的操作行为就是登录系统，浏览某活动信息，购买某活动的票，并且是在查看了之后才能购买，这一系列操作都对应后台数据库的SQL操作，各操作之间具有前后关联关系，登录、查询、购买就是一个正常行为，而登录、查询、修改就是一个异常行为。

关联规则可以用蕴含式

来表示，含义为：ifAntecedent(前提A)； thenConsequent(结果C)。

数据库用户行为的相关规则可以描述为：

操作。本文将根据先验原理，使用 FP_growth算法，根据用户行为数据的特点选择最优的相关性度量标准，形成了用户正常行为规则的算法。

首先规定两个项集(或者非空子集)A和C，

项集A在事务中出现的概率和次数分别P(A)和|A|，项集C在事务中出现的概率和次数分别为 P(C)和|C|，项集A和C在事务中同时发生的概率和次数分为P(AC)和|AC|，事务总数为N。

支持度是项集在整个事务中出现的概率，描述了项集的重要性，大于支持度阈值的项集为频繁项集。

项集A的支持度为Support(A)＝P(A)＝|A|/N；关联规则

的支持度为

关联规则

的置信度是包含A和C的事务数与包含A的事务数之比，反映了出现A的事务中也出现C的概率，即条件概率：

规则的最小置信度记为Min_conf，用于衡量规则需要满足的最低可靠性。

规则

最大置信度用下式表示：

A与C是负相关和正相关时，最大置信度是值由P(A|C)和P(C|A)的大小决定；当A与C相互独立时，最大置信度的值由P(A)和P(C)的大小决定。

最大置信度具备对称性，当

为完全负相关时，则P(A|C)＝0， P(C|A)＝0，

当

为完全正相关时，则P(A|C)＝1， P(C|A)＝1，

因此最大置信度的取值范围为[0,1]，是对称的。

满足支持度和置信度框架可能会产生一些不完全符合实际的规则，为此引入提升度(Lift)，用以度量规则是否可用，有用的规则提升度大于1，计算方式为：

需要说明的是，对于一项集支持度根据上述支持度公式计算。对于二项集及多项集，通过构建FP树，则能够确定每一多项集的出现的次数，进而能够确定每一多项集的支持度。

S5：对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的所述非空补集之间蕴含关系的置信度和提升度，根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库。

所述用户典型正常行为规则库中的用户行为在所述用户数据库日常操作中出现的次数大于第一预设次数，所述用户非典型正常行为规则库中的用户行为在所述用户数据库日常操作中出现的次数小于第二预设次数。

步骤S5具体包括：

S51：当所述置信度大于最小置信度阈值时，且所述提升度大于预设值(该预设值可以为1)时，则确认所述子集组合中的所述非空子集和对应的所述非空补集之间存在强关联规则.

S52：根据所有存在强关联规则的两个所述非空子集构建用户典型正常行为规则库；根据所有不存在强关联规则的所述非空子集和对应的所述非空补集构建用户非典型正常行为规则库。

用户典型正常行为规则库可理解为在该规则库中的行为是用户在日常操作中频繁执行的正常动作，用户典型正常行为规则库可理解为在该规则库中的行为是用户在日常操作中不经常执行的正常动作。

初期数据量少的时候可以在输入中设置了最小支持度阈值min_sup＝0，这是因为算法中的训练集是用户正常行为数据，就算是其中的某些操作只出现过一次，也是用户的正常行为。大于最小相关度阈值(最小置信度阈值)且提升度大于1的规则为正关联规则，表示用户的典型正常操作行为，加入到用户典型正常行为规则库中；不大于最小相关度阈值但提升度大于1的规则为负关联规则，表示用户非典型的正常操作行为，加入到用户非典型正常行为规则库。

S6：根据所述用户典型正常行为规则库P和所述用户非典型正常行为规则库M对数据库用户行为进行分析。

例如，若分析数据库用户行为时，该行为既不属于用户典型正常行为规则库，也不属于用户非典型正常行为规则库，则该行为则大概率为异常行为。

积累一定的数据后根据上述步骤可以分别得到上班时段和下班时段的用户典型正常行为规则库和用户非典型正常行为规则库，在此基础上检测用户的异常行为，及时预警，保证数据库安全。用户异常行为分析方法如下：

(1)把一个用户一段时间内的数据库操作语句序列转化为一个事务向量，并记录事务向量对应的操作语句，检查每个向量，看是否能够匹配相应时间段的正常行为规则库中和该用户相关的规则，如果均匹配，则该用户在这一时间段内的操作都是正常行为，否则说明有异常操作。

(2)如果检测出是异常操作，则输出该异常向量及其对应的操作语句并预警，同时该异常操作可以交给资深安全人员做进一步地鉴别，如果认为其不是异常操作，则将该规则加入正常行为规则库中。这样使得规则库得到更新。

(3)随着时间推移，积累的数据量越来越大，可以使用前述步骤中的增量算法，得到新的频繁项集，生成更精确的正常行为规则库，检查是否包含了人工鉴别的规则，如果没有则添加。

本实施例中，用户行为数据的积累需要一个过程，有一定数据量时我们就可以使用FP_growth算法来找到频繁项集。再经历一段时间又会出现更多的数据，在这里采用增量算法来得整个数据集上频繁项集。假定前一次获取的所有数据用事务数据库DB表示，后续获取的数据用事务数据库db表示，F表示 DB中的频繁项集，F″表示db中的频繁项集，F′表示DB∪db的频繁项集。

如果将事务数据库划分为几部分，若一个项目集是频繁项集，则它至少在一个部分中是频繁的。

1)使用FP_growth算法得到db上的频繁项集F″；

2)F1＝F∩F″：DB和db中频繁项集的交集，在DB∪db中一定是频繁项集，每个项目集在DB∪db中出现的次数等于在DB中出先的次数和在的db中出现的次数之和，两者均已知，将F1加入集合F′；

3)F2＝F-F1：项目集在DB中频繁，在db中不频繁，在DB∪db中不一定频繁，在DB中出现的次数已知，所以需要扫描db，计算其在db中出现的次数，两者相加如果大于等于(|DB|+|db|)×min_sup，将符合条件的项目集加入集合F′；

4)F3＝F″-F1：项目集在DB中不频繁，在db中频繁，在DB∪db中不一定频繁，在db中出现的次数已知，所以需要扫描DB，计算其在DB中出现的次数，两者相加如果大于等于(|DB|+|db|)×min_sup，将符合条件的项目集加入集合F′；

输入F′，即为DB∪db上的频繁项集。

当数据库出现一批新的操作行为时，可以对新出现的操作行为确定频繁项集，再将新得到的频繁项集与之前已经获取的取并集，得到更新频繁项集。

所以，当步骤S3执行完一段时间后或者步骤S5执行一段时间后，所述方法还包括：

(1)获取当前所述用户数据库的新操作行为，并对所述新操作行为和对应的所述用户名进行编码预处理，得新编码事务组。

(2)对每一所述新编码事务，根据所述用户名编码和多个所述新操作行为编码构建多个新项集。

(3)利用FP-growth算法确定所有所述新项集中的新频繁项集；

(4)根据所述频繁项集和所述新频繁项集采用增量算法得到所述用户数据库的更新频繁项集。具体的：

(5)令所述更新频繁项集为所述频繁项集，并返回步骤“对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建多个非空子集”。从而对用户典型正常行为规则库和用户非典型正常行为规则库进行更新。

本实施例具有如下优点：

1)数据库用户行为规则描述的是用户的典型行为，规则的前提和结果应该满足强相关关系。最大置信度对强相关规则的识别和区分能力最强，相同条件下更容易过滤出强相关规则。提升度的引入可以进一步摒弃一些无用的规则，获取有用规则。

2)FP_growth算法改进了Apriori算法的瓶颈，巧妙地利用了树结构，对所有数据只需进行两次完全扫描，对不同数据长度都有很好的适应性，同时在效率上较之Aprior算法有巨大的提高。

3)随着时间推移和数据的积累，使用增量算法获得整个事务上的频繁集，可以利用前一次计算的结果，减少计算量，提高速度。

实施例2

如图3所示，本实施例提供一种基于大数据的数据库用户行为的分析系统，包括：

编码事务组构建模块T1，用于从用户数据库日常操作中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，所述编码事务组包括多个编码事务，每一所述编码事务包括一个用户名编码和完成一个独立会话所执行的多条操作行为编码。

项集构建模块T2，用于对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集；所述项集至少包括一个元素，所述元素为所述用户名编码或所述操作行为编码。

频繁项集确定模块T3，用于利用FP-growth算法确定所有所述项集中的频繁项集，所述频繁项集的支持度大于最小支持度阈值。

非空子集构建模块T4，用于对每一所述频繁项集，根据所述频繁项集包括的所有所述元素构建所述频繁项集的多个非空子集；将所述非空子集和所述非空子集对应的非空补集作为一个子集组合，得到多个子集组合。

规则库构建模块T5，用于对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的非空补集之间蕴含关系的置信度和提升度，根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库；所述用户典型正常行为规则库中的用户行为在所述用户数据库日常操作中出现的次数大于第一预设次数，所述用户非典型正常行为规则库中的用户行为在所述用户数据库日常操作中出现的次数小于第二预设次数。

用户行为分析模块T6，用于根据所述用户典型正常行为规则库和所述用户非典型正常行为规则库对数据库用户行为进行分析。

所述编码事务组构建模块T1具体包括：

操作行为收集子模块T11，用于收集所述用户操作所述用户数据库的所有 SQL操作语句；

事务组构建子模块T12，用于将每一所述用户完成一个独立会话所执行的所有所述SQL操作语句作为一个事务，得到所有所述用户对应的事务组；所述SQL操作语句包括操作信息、操作类型、数据库表和约束条件；

编码设置子模块T13，用于对各用户名、各所述操作信息、各所述操作类型、各所述数据库表和各所述约束条件进行编码；

事务编码子模块T14，用于根据编码信息对所述事务组中每一所述事务包括的所述用户和对应的所有所述SQL操作语句进行编码，得到多个编码事务；所述编码事务包括所述用户名编码和对应的完成一个独立会话所执行的SQL 操作语句编码。

本说明书中各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据的数据库用户行为的分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从用户数据库中获取用户的操作行为并对所述操作行为和用户名进行编码预处理，得编码事务组，具体包括：

收集所述用户操作所述用户数据库的所有SQL操作语句；

3.根据权利要求1所述的方法，其特征在于，所述对每一所述编码事务，根据所述用户名编码和多个所述操作行为编码构建多个项集，具体包括：

从所述用户名编码和多个所述操作行为编码任选i个，构建i项集；i等于二、三，...，M；M为预设元素数；所述预设元素数的最大值为所述用户名编码和所述操作行为编码的总个数；所述项集包括一项集，二项集，...，M项集。

4.根据权利要求3所述的方法，其特征在于，所述利用FP-growth算法确定所有所述项集中的频繁项集，具体包括：

将降序排列后的所有剩余的所述项集插入FP树；

在FP树中找所述项头表中各项对应的条件模式基，根据条件模式基得到频繁二项集；

根据频繁i项集得到频繁i+1项集；i等于二、三，...，M；

判断i+1是否为M或频繁i+1项集是否为空集；

若i+1不为M，或频繁i+1项集不为空集，则令i+1＝i，返回步骤“根据频繁i项集得到频繁i+1项集”，直至i+1为M或频繁i+1项集是否为空集；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用FP-growth算法确定所有所述新项集中的新频繁项集；

6.根据权利要求5所述的方法，其特征在于，所述根据所述频繁项集和所述新频繁项集采用增量算法得到所述用户数据库的更新频繁项集，具体包括：

7.根据权利要求6所述的方法，其特征在于，所述对每一所述子集组合，计算所述子集组合中的所述非空子集和对应的所述非空补集之间蕴含关系的置信度和提升度，具体包括：

对每一所述子集组合，计算所述非空子集

所述非空补集的第一置信度和第一提升度；所述非空子集

所述非空补集表示在执行所述非空补集的操作行为时，先执行所述非空子集的操作行为；

计算所述非空补集

所述非空子集的第二置信度和第二提升度；所述置信度包括所述第一置信度和所述第二置信度；所述提升度包括所述第一提升度和所述第二提升度。

8.根据权利要求7所述的方法，其特征在于，所述根据所述置信度和所述提升度构建用户典型正常行为规则库和用户非典型正常行为规则库，具体包括：

当所述置信度大于所述最小置信度阈值时，且所述提升度大于预设值时，则确认所述子集组合中的所述非空子集和对应的所述非空补集之间存在强关联规则；

9.一种基于大数据的数据库用户行为的分析系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述编码事务组构建模块具体包括：

操作行为收集子模块，用于收集所述用户操作所述用户数据库的所有SQL操作语句；

事务组构建子模块，用于将每一所述用户完成一个独立会话所执行的所有所述SQL操作语句作为一个事务，得到所有所述用户对应的事务组；所述SQL操作语句包括操作信息、操作类型、数据库表和约束条件；