CN114637826A - 用户行为分类审计方法、装置、设备及计算机存储介质 - Google Patents
用户行为分类审计方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114637826A CN114637826A CN202011491365.0A CN202011491365A CN114637826A CN 114637826 A CN114637826 A CN 114637826A CN 202011491365 A CN202011491365 A CN 202011491365A CN 114637826 A CN114637826 A CN 114637826A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- decision tree
- behavior information
- classification
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003066 decision tree Methods 0.000 claims abstract description 68
- 238000012550 audit Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013145 classification model Methods 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000002790 cross-validation Methods 0.000 claims abstract description 22
- 230000006399 behavior Effects 0.000 claims description 97
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种用户行为分类审计方法、装置、设备及计算机存储介质。该用户行为分类审计方法,包括:采集用户行为信息;在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;其中,决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;获取用户行为信息的类别对应的审计日志。根据本申请实施例,能够提高用户行为分类审计的准确率。
Description
技术领域
本申请属于用户行为分类审计技术领域,尤其涉及一种用户行为分类审计方法、装置、设备及计算机存储介质。
背景技术
通过对从各大数据平台组件采集到的原始日志进行解析、字段标准化映射、以及日志的操作类型和操作细项划分处理,可以实现来源、格式不一的大数据平台中各组件的初始日志进行标准化;然后,根据大数据安全管控的审计要求,采用相应的审计规则和分析策略,对大数据平台中各组件的标准化后的日志进行自动化审计分析,来确定大数据平台及组件的管理和数据访问操作是否符合安全技术规范和管理要求。
现有技术先对日志先做标准化处,然后根据审计规则构建算法模型,指定算法参数,训练模型,进行分析匹配。算法复杂且缺少灵活性,而单纯的使用多分类节点的决策树进行分类无法满足对于用户行为中出现用户灵活性操作的分类需求,审计准确率低。
因此,如何提高用户行为分类审计的准确率是本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例提供一种用户行为分类审计方法、装置、设备及计算机存储介质,能够提高用户行为分类审计的准确率。
第一方面,本申请实施例提供一种用户行为分类审计方法,包括:
采集用户行为信息;
在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;其中,决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;
获取用户行为信息的类别对应的审计日志。
可选的,关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
可选的,在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别之前,方法还包括:
获取审计集;
基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型。
可选的,在基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型之后,方法还包括:
利用审计集中的测试集,对决策树分类模型进行测试。
第二方面,本申请实施例提供了一种用户行为分类审计装置,包括:
采集模块,用于采集用户行为信息;
分类模块,用于在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;其中,决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;
第一获取模块,用于获取用户行为信息的类别对应的审计日志。
可选的,关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
可选的,装置还包括:
第二获取模块,用于获取审计集;
模型训练模块,用于基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型。
可选的,装置还包括:
测试模块,用于利用审计集中的测试集,对决策树分类模型进行测试。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面所示的用户行为分类审计方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的用户行为分类审计方法。
本申请实施例的用户行为分类审计方法、装置、设备及计算机存储介质,能够提高用户行为分类审计的准确率。该用户行为分类审计方法,采集用户行为信息;在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;获取用户行为信息的类别对应的审计日志。由于决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的,故能够提高用户行为分类审计的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的用户行为分类审计方法的流程示意图;
图2是本申请另一个实施例提供的用户行为分类审计方法的流程示意图;
图3是本申请一个实施例提供的用户行为分类审计装置的结构示意图;
图4是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种用户行为分类审计方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的用户行为分类审计方法进行介绍。
图1示出了本申请一个实施例提供的用户行为分类审计方法的流程示意图。如图1所示,该用户行为分类审计方法包括:
S101、采集用户行为信息。
S102、在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;其中,决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的。
在一个实施例中,关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
在一个实施例中,在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别之前,方法还包括:
获取审计集;
基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型。
在一个实施例中,在基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型之后,方法还包括:利用审计集中的测试集,对决策树分类模型进行测试。
S103、获取用户行为信息的类别对应的审计日志。
该用户行为分类审计方法,采集用户行为信息;在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;获取用户行为信息的类别对应的审计日志。由于决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的,故能够提高用户行为分类审计的准确率。
下面以一个具体实施例对上述技术方案进行说明。
本实施例基于用户行为和审计规则定义二叉树集模型,基于K折交叉验证改进梯度算法自动寻优二叉树集分类节点参数,达到对用户行为的最优分类,得到精确的异常行为操作集合。本实施例参数设定灵活,可自动寻优,对异常行为判定准确,结果集质量高。
如图2所示,本实施例提供的用户行为分类审计方法包括:先是采集用户行为,然后判断用户行为中的关键字是否触发决策分类,再利用训练好的决策树对用户行为进行分类,最后得到审计日志;其中,训练好的决策树是基于审计集,利用K折交叉验证及尼基指数改进梯度提升树算法决策树进行训练而得到。
本实施例的详细操作流程如下:
1、用户行为:日志数据中预先定义行为关键字,选取的日志文件中一条数据或者一行数据,判断是否存在关键字,关键字段包括但不限于:操作时间(t)、操作IP(p)、操作用户(u)、操作指令(c)、指令参数(v)等,然后定义各个特征参数的内容,当一条数据、或一行数据中匹配上关键字时,对此条数据或者一行数据进行统计,形成A,A[i]=(t,p,u,c,v),统计A的时间为生成审计日志的时间,具体的,A[i]中的t为操作时间出现在审计时间段内的次数,p为操作IP出现的次数,u为操作用户出现的次数,c为操作指令出现的次数,v为指令参数出现的次数。
2、基于改进的梯度提升决策树算法的审计分类构建。
利用改进的梯度提升决策树算法对A进行分类,由于对于审计的判断最关键的为:是否触发审计的判断,触发审计判断后,才需要分类触发哪种审计。因此,对于得到的分类结果包括触发审计,和不触发审计的分类决策树,需要利用改进的梯度提升决策树的构建。
1)首先,算法模型的构建。为了适用于审计的触发分类,使得触发审计的用户行为进一步进行审计内容的分类,在决策树进行分类训练时,利用一个二叉树-CART回归树构建审计触发的分类模型,
输入:训练数据集D={(x1,y1),(x2,y2),……,(xn,yn)};
假设已经将输入空间划分为3个单元R1,R2,R3,并且每个单元都有固定的输出值f,代表对应的分类结果,其中I为判别函数,即为分类特征,本申请中的分类特征包括:t>C,用平方误差来表示回归树在训练数据上的预测误差:单元Rm上的最优输出值就是Rm内所有样本xi对应yi的均值。
由于本申请中选取的为二叉树作为分类树,则定义目标函数为基尼指数Gini,表示在样本集合中一个随机选中的样本被分错的概率。
Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。即基尼指数(基尼不纯度)=样本被选中的概率*样本被分错的概率, pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk),样本集合中有K个类别,一个随机选中的样本可以属于这k个类别中的任意一个,因而对类别就加和。当为二分类时,Gini(P)=2p(1-p)。假设集合中有K个类别,样本集合D的Gini指数为:
基于特征A划分样本集合D之后的基尼指数:需要说明的是CART是个二叉树,也就是当使用某个特征划分样本集合只有两个集合:一个是等于给定的特征值的样本集合D1,另一个是不等于给定的特征值的样本集合D2,计算出基于划分特征=某个特征值将样本集合D划分为两个子集的纯度:
因而对于一个具有多个取值(超过2个)的特征,需要计算以每一个取值作为划分点,对样本D划分之后子集的纯度Gini(D,Ai),(其中Ai表示特征A的可能取值),然后从所有的可能划分的Gini(D,Ai)中找出Gini指数最小的划分,这个划分的划分点,便是使用特征A对样本集合D进行划分的最佳划分点。
选取目标函数后,通过遍历所有特征,选择最优的特征作为划分,具体的方法是选择第j个变量xj和它的取值s作为切分变量与切分点,并定义两个区域,R1={x|xj≤s}andR2={x|xj>s}。寻找最优的变量j和最优切分点s,具体的求解函数为:
所有j,s找到本次的最佳划分区域了,然后对每个区域递归这个划分过程,直到满足条件为止。
2)以上为一颗分类树的构建方法,用于对是否触发审计进行判断。而本申请中,当判断出触发审计时,则需要继续进行审计内容的分类。审计方法为当判断出A[i]为触发审计后,利用拆解的每一条和每一行的用户行为进行审计分类,例如,A[i]中包含有100条用户行为,则对A[1]A[2]A[3]...A[100],按照审计集中的审计特征进行分类。具体地构建每个或每多个审计特征的二叉树,与上面构建二叉树的方式相同,得到一个A[i]的多个二叉树的集合,进一步地利用集成模型GBDT模型进行多个CART树的线性相加。其中,审计集中的审计特征包括但不限定于Rule1={a1×A1|a2×A2|a3×A3}、Rule2={a1×A1&a2×A2&a3×A3}等。
GBDT模型可以表示为以下形式,定义ft(x)表示第t轮的模型,ht(x)表示第t颗决策树,模型定义如下:提升树采用前向分步算法,第t步的模型由第t-1步的模型形成,可以写成:ft(x)=ft-1(x)+ht(x)。损失函数定义为:L(ft(x),y)=L(ft-1(x)+ht(x),y)。每次需要拟合的是模型的负梯度。第t轮的第i个样本的损失函数的负梯度表示为:
rr,i=-[δL(yi,f(xi))δf(xi)]f(x)
rr,i=yi-fm-1(xi)
利用(xi,rt,i)(i=1,2,…,m),拟合一颗CART回归树,得到了第t颗回归树,其对应的叶节点区域Rt,j,j=1,2,…,J。其中J为叶子节点的个数。针对每一个叶子节点里的样本,我们求出使损失函数最小,也就是拟合叶子节点最好的输出值ct,j如下(注意这里的yi是真实值,不是残差): 此时本轮的决策树拟合函数得到了:本轮的强学习器得到了: 之后一直迭代下去,直到损失函数收敛。
3)另外,由于本申请中分类特征中的A、B、C为待求解的最优分类值,因此,为了对A、B、C进行寻优,引入K-折交叉验证及梯度下降原理求解A、B、C。
a、将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个子集有m/k个训练样例,相应的子集称作{s1,s2,…,sk}。每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集。
b、根据训练训练出模型或者假设函数,把这个模型放到测试集上,得到分类率。
c、计算k次求得的分类率的平均值q(A、B、C),根据此平均值的导数为0作为该模型或者假设函数的真实分类率,因此结合dq(A、B、C)=0得到A、B、C之间的多个关系解。
d、为了准确计算出A、B、C的具体分类特征阈值,进一步利用梯度下将原理计算出三元函数dq(A、B、C)=0的A、B、C解,从而得到最优的分类特征。
另外,对于二次分类中,对于梯度提升决策树集合各个二叉树时,对于审计集中的审计特征中的权重值,a1、a2、a3,可以同样利用k折交叉验证及梯度下降原理进行计算,在寻找最优的变量j和最优切分点s,利用具体的求解函数、以及上述方法求解a1、a2、a3。在进行本申请中审计集中的审计特征为任意3个用户行为与权重值对应的关系。
3、利用构建的决策树分类模型进行用户行为分类,得到异常操作的结果集。
本实施例通过构建不同分类特征的改进决策树进行二次分类,提高对于用户行为进行审计的准确性,解决了用户行为较为灵活而引起的分类模型固化问题,从而提高利用用户行为进行审计分类的效率。
图3是本申请一个实施例提供的用户行为分类审计装置的结构示意图,如图3所示,该用户行为分类审计装置包括:
采集模块301,用于采集用户行为信息;
分类模块302,用于在确定用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对用户行为信息进行分类,确定用户行为信息的类别;其中,决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;
第一获取模块303,用于获取用户行为信息的类别对应的审计日志。
在一个实施例中,关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
在一个实施例中,装置还包括:
第二获取模块,用于获取审计集;
模型训练模块,用于基于审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到决策树分类模型。
在一个实施例中,装置还包括:
测试模块,用于利用审计集中的测试集,对决策树分类模型进行测试。
图3所示装置中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图4示出了本申请实施例提供的电子设备的结构示意图。
电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在电子设备的内部或外部。在特定实施例中,存储器402可以是非易失性固态存储器。
在一个实例中,存储器402可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种用户行为分类审计方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户行为分类审计方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种用户行为分类审计方法,其特征在于,包括:
采集用户行为信息;
在确定所述用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对所述用户行为信息进行分类,确定所述用户行为信息的类别;其中,所述决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;
获取所述用户行为信息的类别对应的审计日志。
2.根据权利要求1所述的用户行为分类审计方法,其特征在于,所述关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
3.根据权利要求1所述的用户行为分类审计方法,其特征在于,所述在确定所述用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对所述用户行为信息进行分类,确定所述用户行为信息的类别之前,所述方法还包括:
获取审计集;
基于所述审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到所述决策树分类模型。
4.根据权利要求3所述的用户行为分类审计方法,其特征在于,在所述基于所述审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到所述决策树分类模型之后,所述方法还包括:
利用所述审计集中的测试集,对所述决策树分类模型进行测试。
5.一种用户行为分类审计装置,其特征在于,包括:
采集模块,用于采集用户行为信息;
分类模块,用于在确定所述用户行为信息中存在预设的关键字的情况下,利用预设的决策树分类模型对所述用户行为信息进行分类,确定所述用户行为信息的类别;其中,所述决策树分类模型是利用K折交叉验证及改进的梯度提升决策树算法进行模型训练得到的;
第一获取模块,用于获取所述用户行为信息的类别对应的审计日志。
6.根据权利要求5所述的用户行为分类审计装置,其特征在于,所述关键字包括操作时间、操作IP、操作用户、操作指令及指令参数。
7.根据权利要求5所述的用户行为分类审计装置,其特征在于,所述装置还包括:
第二获取模块,用于获取审计集;
模型训练模块,用于基于所述审计集中的训练集,利用K折交叉验证及改进的梯度提升决策树算法进行模型训练,得到所述决策树分类模型。
8.根据权利要求7所述的用户行为分类审计装置,其特征在于,所述装置还包括:
测试模块,用于利用所述审计集中的测试集,对所述决策树分类模型进行测试。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的用户行为分类审计方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的用户行为分类审计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011491365.0A CN114637826A (zh) | 2020-12-16 | 2020-12-16 | 用户行为分类审计方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011491365.0A CN114637826A (zh) | 2020-12-16 | 2020-12-16 | 用户行为分类审计方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114637826A true CN114637826A (zh) | 2022-06-17 |
Family
ID=81944653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011491365.0A Pending CN114637826A (zh) | 2020-12-16 | 2020-12-16 | 用户行为分类审计方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114637826A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082114A (zh) * | 2022-06-24 | 2022-09-20 | 北京星合之星网络科技有限公司 | 广告投放方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329884A (zh) * | 2017-06-30 | 2017-11-07 | 郑州云海信息技术有限公司 | 一种存储系统的访问审计方法和系统 |
CN108337250A (zh) * | 2018-01-24 | 2018-07-27 | 杭州迪普科技股份有限公司 | 一种会话关键字审计方法及装置 |
CN110222267A (zh) * | 2019-06-06 | 2019-09-10 | 中山大学 | 一种游戏平台信息推送方法、系统、存储介质及设备 |
CN111191712A (zh) * | 2019-12-27 | 2020-05-22 | 浙江工业大学 | 基于梯度提升决策树的印染定型机能耗分类预测方法 |
US20200293952A1 (en) * | 2019-03-15 | 2020-09-17 | Microsoft Technology Licensing, Llc | Categorical feature enhancement mechanism for gradient boosting decision tree |
-
2020
- 2020-12-16 CN CN202011491365.0A patent/CN114637826A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329884A (zh) * | 2017-06-30 | 2017-11-07 | 郑州云海信息技术有限公司 | 一种存储系统的访问审计方法和系统 |
CN108337250A (zh) * | 2018-01-24 | 2018-07-27 | 杭州迪普科技股份有限公司 | 一种会话关键字审计方法及装置 |
US20200293952A1 (en) * | 2019-03-15 | 2020-09-17 | Microsoft Technology Licensing, Llc | Categorical feature enhancement mechanism for gradient boosting decision tree |
CN110222267A (zh) * | 2019-06-06 | 2019-09-10 | 中山大学 | 一种游戏平台信息推送方法、系统、存储介质及设备 |
CN111191712A (zh) * | 2019-12-27 | 2020-05-22 | 浙江工业大学 | 基于梯度提升决策树的印染定型机能耗分类预测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082114A (zh) * | 2022-06-24 | 2022-09-20 | 北京星合之星网络科技有限公司 | 广告投放方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN112235327A (zh) | 异常日志检测方法、装置、设备和计算机可读存储介质 | |
CN113438114B (zh) | 互联网系统的运行状态监控方法、装置、设备及存储介质 | |
CN105279397A (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
CN111738520A (zh) | 一种融合孤立森林与长短期记忆网络的系统负载预测方法 | |
CN114254716B (zh) | 一种基于用户行为分析的高危操作识别方法及系统 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN109993183A (zh) | 网络故障评估方法、装置、计算设备及存储介质 | |
CN116628584A (zh) | 电力敏感数据处理方法、装置、电子设备及存储介质 | |
CN114637826A (zh) | 用户行为分类审计方法、装置、设备及计算机存储介质 | |
CN115859191A (zh) | 故障诊断方法、装置、计算机可读存储介质及计算机设备 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN117235137A (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN117454180A (zh) | 光伏发电功率预测模型构建方法及装置 | |
CN115718890A (zh) | 驾驶行为预测方法、装置、电子设备及存储介质 | |
CN108710912A (zh) | 基于二分类机器学习的时序逻辑近似模型检测方法及系统 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
CN113538029A (zh) | 用户行为数据预测方法、装置、设备及介质 | |
Gupta et al. | Exploratory Data Analysis of Titanic Survival Prediction using Machine Learning Techniques | |
Lefa et al. | Upgraded Very Fast Decision Tree: Energy Conservative Algorithm for Data Stream Classification | |
CN114339859B (zh) | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 | |
Ali | A New Intrusion Detection Strategy Based on Combined Feature Selection Methodology and Machine Learning Technique. | |
CN118897783A (zh) | 数据库异常操作检测方法、装置及相关设备 | |
CN118797460A (zh) | 识别非法指令的模型训练方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |