CN112800101A

CN112800101A - 一种基于FP-growth算法异常行为检测方法及应用该方法的模型

Info

Publication number: CN112800101A
Application number: CN201911106197.6A
Authority: CN
Inventors: 刘驰; 史相冬; 张昊容; 马颀颢; 赵锐; 刘思羽
Original assignee: China Trust Registration Co ltd
Current assignee: China Trust Registration Co ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-05-14

Abstract

本发明提供了一种基于FP‑growth算法异常行为检测方法及应用该方法的模型，所述异常行为检测模型包括基于FP‑growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型、异常概率计算模型；将基于FP‑growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型结合，实现用户正常行为模式挖掘，将用户当前操作与获得的正常行为模式库和用户行为序列模型库进行比对，得到双重校验，提高判断的准确性；同时根据基于泊松分布的发生次数异常概率计算模型计算当前用户行为组合的异常总分值，实现多维度对用户行为进行分析。

Description

一种基于FP-growth算法异常行为检测方法及应用该方法的模型

技术领域

本发明涉及一种检测模型，尤其是涉及一种基于FP-growth算法异常行为检测方法及应用该方法的模型。

背景技术

现有技术中主要是通过统计学方法和聚类方法实现检测，第一种通过统计学方法检测，偏离训练集统计分布的任何东西都被认为是异常。比如在控制图模型中计算出训练集每个特性的平均值和标准偏差，然后围绕平均值定义出阈值：k*标准偏差(k为通常在1.5到3.0之间的任意系数，取决于既定的算法保守程度)。在应用时，正向或负向超出阈值的点就是异常事件的可疑备选。第二种是通过聚类方法，算法在训练集上创建一些群集，应用时计算当前数据点和群集间的距离。如果距离高于给定阈值，该数据点即为异常事件的可疑备选。根据距离衡量方法和聚合规则，人们设计出了不同的聚合算法，创建了各种群集。

传统的异常行为检测算法的实现过程大多是离线的，它需要人工根据纯经验设置规则集，或者静态使用大量的历史数据进行数据建模，即定期将历史数据输入算法模型，经过运算后产生正常/异常的规则集。

不论是统计学方法还是聚类方法，模型都是相对固定的：用固定训练集算出平均值和标准偏差或群集，然后计算距离。上述的方法不适用于实际生产过程中快速异常反馈的需求，因为生产过程中为了提高准确度，降低误报率，需要极其频繁地更新数据模型，这是传统算法无法胜任的。而且传统基于数理统计的方法仅能从单一维度上对用户行为进行分析，无法较好的捕捉复杂的用户组合行为特征，导致检测结果不够智能。

发明内容

为了克服现有技术中目前检测算法存在的缺陷和不足，本发明提供了一种基于FP-growth 算法异常行为检测方法，从两个维度分别挖掘可定期更新的正常行为模式库以及用户行为序列模型库，将用户当前行为集合与获得的正常行为模式库和用户行为序列模型库进行比对，得到双重校验，提高判断的准确性；根据上述比对结果判断用户当前行为是否异常，若判断结果为异常情况，则计算当前用户行为集合的异常总分值。

本发明另外提供了一种基于FP-growth算法异常行为检测模型，所述异常行为检测模型包括基于FP-growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型、异常概率计算模型；将基于FP-growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型结合，实现用户正常行为模式挖掘，将用户当前操作与获得的正常行为模式库和用户行为序列模型库进行比对，得到双重校验，提高判断的准确性；同时根据基于泊松分布的发生次数异常概率计算模型计算当前用户行为组合的异常总分值，异常分值越高则说明该时刻的该用户行为异常程度越高，值得相关人员高优先级的关注。

对用户的组合行为进行分析，能在线高频运算更新正常/异常规则集，解决了传统算法中数据模型固定的问题。同时本发明在FP-growth算法挖掘频繁项集(即支持度大于等于人工预设阈值的操作行为集合)完成后结合数理统计方法和动态时间规划算法来进行多维度的分析，解决了传统算法中仅能从单一维度上对用户行为进行分析的问题。其中，实现用户正常行为模式挖掘以及异常行为检测包括以下步骤：

S1：历史数据的清洗及分组；

S2：挖掘用户正常行为模式；具体如下，

S21：基于FP-growth的用户正常行为模式挖掘，获得正常行为模式库，其中所述正常行为模式库包括用户正常行为模式集合和群组正常行为模式库，其中，正常行为模式挖掘包括：

S211：将用户的操作行为定义为项p，构建FP树，获得每个项p出现的概率和关联的项集，

S212：从FP树项中挖掘频繁项集，频繁项集的支持度超过预设的阈值即视为用户正常行为模式集合，并加入群组正常用户行为模式库；

S3：人工判断步骤S2中用户正常行为模式是否合理，保存判断合理的正常用户行为模式库；

S4：通过所述动态时间规划算法的用户行为序列聚类模型实现用户行为序列模型库的创建与更新；

将用户当前行为与步骤S3和步骤S4中得到的正常行为模式库和用户行为序列模型库进行对比；

S5：通过所述异常概率计算模型计算用户某一行为发生特定次数的概率；

S6：用户行为在线检测，包括行为对比和异常度计算；其中行为对比是将用户当前行为集合与S2中的正常行为模式库和步骤S4中挖掘得到的用户行为序列模型库进行对比，若用户当前行为集合不符合步骤S2和步骤S4中的正常模式，则根据步骤S5进行异常度计算，通过异常概率计算模型计算用户当前行为集合的异常总分值，若用户当前行为集合符合步骤S2和步骤S4中的正常模式，则判为正常行为，不进行后续处理。

进一步地，步骤S3获得正常用户行为模式库步骤如下：S31：将步骤S2中挖掘得到的用户正常行为模式集合及群组正常用户行为模式库进行人工判断，S32：保存步骤S31中人工判断后合理的模型，设置自动执行的任务，定期使用历史数据对该模型进行训练、挖掘(重复执行S1-S6)，在线更新正常/异常规则集，其中规则集是所述合理的用户正常行为模式集合和所述群组正常用户行为模式库。

更进一步地，所述的数据分组是指将原始数据分别按照用户名、用户所在群组名进行分组。

更进一步的，所述步骤S2101中构建FP树，又进一步包括：步骤S2111：扫描用户行为原始数据库，获得每个项p出现的概率和关联的项集，收集所述频繁项集合及其支持度；S2112：创建FP树根结点；S2113：从FP树中挖掘频繁项。

更进一步地，步骤S5中异常概率的计算公式如下：

其中，i代表用户行为元素，k代表发生次数。

更进一步地，实现用户行为序列模型库的步骤S4进一步包括如下过程：S41：定义初始的模版距离矩阵；S42：对历史数据中任两条模版时间序列进行距离计算；当距离在规定阈值内时，则以两条模版时间序列的公共部分作为用户行为序列模版，增添到用户行为序列模版库中；S43：重复S42过程直到模版库中的模版数量收敛；S44：统计当前的用户行为序列模版并定期更新维护。

一种应用异常行为检测方法的模型，包括基于FP-growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型、异常概率计算模型；其中，所述基于FP-growth的用户正常行为模式挖掘模型用于获得用户正常行为模式集合并创建群组正常用户行为模式库；所述基于动态时间规划的用户行为序列模型用于用户行为序列模型库的创建与更新；所述异常概率计算模型根据用户当前行为集合与所述正常行为模式库和所述用户行为序列模型库的比对结果，对当前用户行为集合进行异常度的计算。

本发明提出的基于FP-growth算法的用户异常行为检测方法及应用该方法的模型，将对用户的组合行为进行分析，能在线高频运算更新正常/异常规则集，解决了传统算法中数据模型固定的问题。同时本发明在FP-growth算法挖掘频繁项集完成后结合数理统计方法和动态时间规划算法来进行多维度的分析，解决了传统算法中仅能从单一维度上对用户行为进行分析的问题，实现多维度对用户行为进行分析。

附图说明

图1为本发明提供的用户正常行为模式挖掘流程图；

图2为本发明提供的用户异常检测流程图。

具体实施方式

下面结合附图详细说明本发明的具体实施例。然而，应当将本发明理解成并不局限于以下描述的这种实施方式，并且本发明的技术理念可以与其他公知技术或功能与那些公知技术相同的其他技术组合实施。

在以下具体实施例的说明中，为了清楚展示本发明的结构及工作方式，将借助诸多方向性词语进行描述，但是应当将“前”、“后”、“左”、“右”、“外”、“内”、“向外”、“向内”、“轴向”、“径向”等词语理解为方便用语，而不应当理解为限定性词语。

相关术语解释如下：

数据清洗：数据清洗(Data cleaning)–对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

频繁项集：支持度大于等于人工预设阈值的操作行为集合；

p是代表用户行为：其中元素可能的含义是用户登录、用户登出、用户查看明文信息等操作。

规则集：是指用户正常行为模式集合和群组正常用户行为模式库；

群组：可以根据用户的操作身份、或其他分类标准进行划分，例如，操作员可以划分为一个群组，技术人员也可以划分为一个群组等；

正常行为模式库：包含了用户(个人)正常行为模式集合以及群组正常行为模式库。

下面结合附图详细说明本发明的具体实施例。

参照图1，用户正常行为模式挖掘流程，包括步骤S1-S5具体如下：

1.步骤S1—历史数据清洗与分组

原始数据以用户的每条操作指令为最细颗粒度，如：“张三对身份证信息进行了解密查看”。为了挖掘每个用户自身的行为模式及用户所在群体的行为模式，需要将原始数据分别按照用户名、用户所在群组名进行分组，并进行存储以备后续挖掘备用。

2.步骤S2—基于FP-growth的用户正常行为模式挖掘

2.1构建FP树

(a)扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序，结果为频繁项表L。

(b)创建FP-树的根结点，以“null”标记它。对于D中每个事务Trans，执行：选择Trans中的频繁项，并按L中的次序排序。设排序后的频繁项表为[p|P]，其中，p是第一个元素，而 P是剩余元素的表。调用insert_tree([p|P],T)。该过程执行情况如下。如果T有子女N 使得N.item-name＝p.item-name，则N的计数增加1；否则创建一个新结点N将其计数设置为1，链接到它的父结点T，并且通过结点链结构将其链接到具有相同item-name的结点。如果P非空，递归地调用insert_tree(P,N)。

(c)从构建完成的FP-树中可以看到每个项p出现的频率和关联的项集，可用于下一步找到正常行为集合。

2.2从FP树中挖掘频繁项集

通过调用FP_growth(FP_tree,null)实现。该过程实现如下：

对于FP_growth(Tree,α)

(1)if Tree含单个路径P then

(2)for路径P中结点的每个组合(记作β)

(3)产生模式β∪α，其支持度support＝β中结点的最小支持度；

(4)else for each ai在Tree的头部(按照支持度由低到高顺序进行扫描){

(5)产生一个模式β＝ai∪α，其支持度support＝ai.support；

(6)构造β的条件模式基，然后构造β的条件FP-树Treeβ；

(7)

(8)调用FP_growth(Treeβ,β)；}end

通过上述构建FP树以及从FP树中挖掘频繁项集，得到最终结果为：通过输入每个用户的用户数据库，及其所在群组的群组数据库进行FP-growth频繁项集挖掘，我们最终可得到正常行为模式库，正常行为模式库包括相关的用户正常行为模式集合及群组正常行为模式库，以备后续判定，也即将挖掘出的正常模式进行人工判断是否合理。

3.步骤S3——将挖掘出的正常模式进行人工判断是否合理

3.1将上述基于FP-growth的用户正常行为模式挖掘得到的用户正常行为模式集合及群组正常行为模式进行人工判断。

3.2保存人工判断后合理的模型，然后自动定期使用历史数据进行训练挖掘，确保模型的时效性和准确性，通过此步骤持续在线更新正常/异常规则集。

4.步骤S4——基于动态时间规划算法的用户行为序列聚类模型

易知，单个用户在每次登录系统期间进行的操作可被描述为模版时间序列:S＝{a1,a2,…,an}；利用历史数据中每个用户一次登录系统期间的时间序列为输入集 S＝{S1,S2,..,Sm}，(m代表所有用户登录总次数)，通过DTW动态时间规划便可将输入集S 进行聚类，从而得到正常的用户行为序列集合，其中DTW动态时间规划在本文中的做法为：

(1)定义初始的模版距离矩阵distMatrix:

(2)对历史数据中任两条模版时间序列Si＝{a1,a2,…,an}，

Sj＝{a2,a1,…,a4}，进行距离计算；当距离在规定阈值内时，则以Si与Sj的公共部分作为用户行为序列模版，增添到用户行为序列模版库中；

(3)重复(2)过程直到模版库中的模版数量收敛；

(4)统计当前的用户行为序列模版并定期更新维护。

5.步骤S5——基于泊松分布的异常概率计算模型

易知用户的行为是有限集合A＝{a1,a2,…,aN}；则用户在某一时刻的行为随机变量必为A 中任一元素ai，且用户在某一时刻t的行为Action(t)符合多项分布，将用户历史数据中各项行为发生次数汇总，根据伯努利大数定律可知：随着用户行为总数n的增加，事件ai发生的频率sum(ai)/n稳定与其发生概率pi；便以此可统计得到每项行为A＝{a1,a2,…,aN}所对应的发生概率P＝{p1,p2,..,pN}。

以P＝{p1,p2,..,pN}为输入，我们便可构建泊松分布以计算任一用户在登录期间其每项行为 ai在当前时段内累计发生次数k的概率值，其泊松概率计算公式为：

其中λ可由历史数据得到：λ＝nP(n:历史数据数；P：ai发生概率)。

在此基础上，我们可以得到在当前时段内，用户进行操作ai的累积次数>k的概率计算公式为：

通过所述异常概率计算模型计算用户当前行为集合的异常总分值。

图2为本发明提供的用户异常检测流程图，其中详细描述了实时用户行为在线检测流程。

通过上述过程后，我们可以得到：基于FP-growth的正常行为模式库，基于泊松分布的发生次数异常概率计算模型，基于动态时间规划的挖掘得到的用户行为序列模型库，我们用这三个模型为基准对实时用户行为进行在线检测，在线检测分为行为对比与异常度计算过程。

其中异常检测流程中首先需要用户行为对比，判断是否符合已经建立的正常用户行为模式库或用户行为序列模型库，若两者均符合正常模式，则不对该用户行为做任何处理；若判断用户行为不符合正常模式，则需要对用户行为做出异常概率计算，计算用户行为的异常分值。

下面详细的对行为对比和异常度计算进行说明。行为对比：当用户登入时即进行行为监听和保存，当用户每执行一项操作时，将用户当前的操作集合与基于FP-growth的正常行为模式库进行对比，同时将用户当前的操作集合与基于动态时间规划的挖掘得到的用户行为序列模型库进行对比，通过双重校验提高准确度。当发现用户行为组合不在其个人正常行为频繁项集中且不在其群组正常行为频繁项集中时，即进入异常度计算过程。

异常度计算过程：根据用户身份、所在群组的不同，及其进行操作的类型不同，我们可以根据人为经验建立用户异常行为的异常度映射表，该表将根据用户身份、所在群组，及其操作类型设置不同的异常度，同时根据基于泊松分布的发生次数异常概率计算模型计算当前用户行为组合的异常总分值，异常分值越高则说明该时刻的该用户行为异常程度越高，值得相关人员高优先级的关注。能够更及时有效的实现技术人员对异常情况的处理。

一种应用异常行为检测方法的模型，包括基于FP-growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型、异常概率计算模型；其中，所述基于FP-growth的用户正常行为模式挖掘模型用于获得用户正常行为模式集合并创建群组正常用户行为模式库；所述基于动态时间规划的用户行为序列模型用于用户行为序列模型库的创建与更新；所述异常概率计算模型根据用户当前行为集合与所述正常用户行为模式库和所述用户行为序列模型库的比对结果，对当前用户行为集合进行异常度的计算。所述异常概率计算模型判断当前用户行为集合存在异常，所述异常概率计算模型会进一步计算用户当前行为集合的异常总分值。

不同行业和不同领域的公司业务系统中存储了大量敏感数据，默认加密存储，以掩码的形式展示给业务系统用户，只有必要的情况下，有权限的用户才能以明文形式查看敏感数据。为了智能分析业务系统用户访问敏感数据的动作，及时发现异常行为(如短期内大量查看明文敏感数据等)，公司使用基于FP-growth算法的用户异常行为检测模型，对用户操作日志 (也即用户行为集合)进行实时分析，全程监控其行为轨迹。该检测方法及模型能发掘正常行为模式，识别潜在的异常行为，解决了传统数据保护工作中一次性分配权限后无法动态跟踪有权限的用户是否存在违规行为的问题，有助于公司在数据使用环节更智能地进行数据保护。

相较于现有技术本发明实现如下效果：第一、基于FP-growth算法的用户异常行为检测模型结合，将对用户的组合行为进行分析，能在线高频运算更新正常/异常规则集，解决了传统算法中数据模型固定的问题；第二、在FP-growth算法挖掘频繁项集完成后结合数理统计方法和动态时间规划算法来进行多维度的分析，实现多维度上对用户行为进行分析。

Claims

1.一种基于FP-growth算法异常行为检测方法，其特征在于，所述异常行为检测方法实现用户正常行为模式挖掘以及用户异常行为检测包括以下步骤：

S1：历史数据的清洗及分组；

S2：挖掘用户正常行为模式；具体如下：

S21：基于FP-growth的用户正常行为模式挖掘，获得正常行为模式库，其中所述正常行为模式库包括用户正常行为模式集合和群组正常行为模式库；

S6：用户行为在线检测，包括异常度计算。

2.如权利要求1所述的用户异常行为检测方法，其特征在于：步骤S21中用户正常行为模式挖掘进一步包括：

S211：将用户的操作行为定义为项p，构建FP树，获得每个项p出现的概率和关联的项集；

S212：从FP树项中挖掘频繁项集，频繁项集的支持度超过预设的阈值即视为用户正常行为模式集合，并加入群组正常用户行为模式库。

3.如权利要求2所述的异常行为检测方法，其特征在于：所述用户异常行为检测方法步骤S4后还进一步包括：

将用户当前行为集合与步骤S2和步骤S4中得到的正常行为模式库和用户行为序列模型库进行对比；

其中，若用户当前行为集合不符合步骤S2和步骤S4中的正常模式，则根据步骤S5进行异常度计算，通过异常概率计算模型计算用户当前行为集合的异常总分值；若用户当前行为集合符合步骤S2和步骤S4中的正常模式，则判为正常行为，不进行步骤S5和步骤S6。

4.如权利要求1所述的异常行为检测方法，其特征在于：步骤S3中获得合理的正常用户行为模式包括如下步骤：

S31：将步骤S2中挖掘得到的用户正常行为模式集合及群组正常用户行为模式库进行人工判断，

S32：保存步骤S31中人工判断后合理的模型，设置自动执行的任务，定期使用历史数据对该模型进行训练、重复执行S1至S6，在线更新正常/异常规则集，其中规则集是所述用户正常行为模式集合和所述群组正常用户行为模式库。

5.如权利要求1所述的异常行为检测方法，其特征在于：所述数据分组是指将原始数据分别按照用户名、用户所在群组名进行分组。

6.如权利要求1所述的异常行为检测方法，其特征在于：步骤S211中构建FP树，又进一步包括：

S2111：扫描用户行为原始数据库，获得每个项p出现的概率和关联的项集；

S2112：创建FP树根结点；

S2113：从FP树中挖掘频繁项。

7.如权利要求1所述的异常行为检测方法，其特征在于：步骤S5中概率可通过如下公式计算：

其中，i代表用户行为元素，k代表发生次数。

8.如权利要求1所述的异常行为检测方法，其特征在于：实现用户行为序列模型库的步骤S4进一步可包括如下过程：

S41：定义初始的模版距离矩阵；

S42：对历史数据中任两条模版时间序列进行距离计算；当距离在规定阈值内时，则以两条模版时间序列的公共部分作为用户行为序列模版，增添到用户行为序列模版库中；

S43：重复S42过程直到模版库中的模版数量收敛；

S44：统计当前的用户行为序列模版并定期更新维护。

9.一种应用权利要求1-8任一项所述的异常行为检测方法的模型，其特征在于：所述异常行为检测模型包括基于FP-growth的用户正常行为模式挖掘模型、基于动态时间规划的用户行为序列模型、异常概率计算模型；

其中，所述基于FP-growth的用户正常行为模式挖掘模型用于获得用户正常行为模式集合并创建群组正常用户行为模式库；

所述基于动态时间规划的用户行为序列模型用于用户行为序列模型库的创建与更新；

所述异常概率计算模型根据用户当前行为集合与所述正常行为模式库和所述用户行为序列模型库的比对结果，计算当前用户行为的异常度。

10.如权利要求9所述的异常行为检测方法的模型，其特征在于：所述异常概率计算模型计算用户当前行为集合的异常总分值。