CN116187423A

CN116187423A - 一种基于无监督算法的行为序列异常检测方法及系统

Info

Publication number: CN116187423A
Application number: CN202310226595.1A
Authority: CN
Inventors: 梁淑云; 殷钱安; 王启凡; 陶景龙; 刘胜; 余贤喆; 徐�明; 魏国富
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-30

Abstract

本发明提供一种基于无监督算法的行为序列异常检测方法及系统，方法包括：本发明基于企业web系统操作数据，标准化处理成web用户操作表；通过用户操作的先后顺序，等时间间隔对用户行为序列进行分割，形成多个时间窗口的子序列；根据web用户操作表，再获取近4天的历史数据，对每天每个用户，按照操作顺序合并一天内的操作行为生成序列；进而计算每个子序列与其前后相邻窗口的子序列的相似度以及每个行为序列与其近3天内行为序列的相似度；将子序列间的相似度值以及序列间的相似度值作为特征即孤立森林模型的输入，根据模型输出结果确定用户是否异常。本发明解决了行为序列异常捕捉困难、误报、漏报率较高的技术问题。

Description

一种基于无监督算法的行为序列异常检测方法及系统

技术领域

本发明涉及信息安全业务技术领域，具体涉及一种基于无监督算法的行为序列异常检测方法及系统。

背景技术

近年来，伴随着计算机技术的发展及市场需求，各行各业的互联网系统飞速增长，伴随而来的网络攻击手段也更多元化、更具有隐蔽性。如何通过对用户的行为分析识别出存在网站攻击、“薅羊毛”、窃取企业内部数据等恶意行为的用户也成为企业面临的问题。因此需要一种能够快速处理海量数据，同时又能够及时准确的挖掘出异常用户的方法。

目前用户行为序列异常检测主要通过统计用户操作的频次、操作波动等统计特征，结合业务经验设置阈值，建立规则引擎，当用户操作频次等超过预设阈值时，则属于疑似异常行为，例如公布号为CN110149343A的现有发明专利文献《一种基于流的异常通联行为检测方法和系统》的检测系统包括：配置白名单IP、重点目标IP和一般目标IP的配置管理模块，获取和存储网络流数据信息的数据采集模块和存储模块，分别对重点目标和一般目标进行检测的重点目标异常检测模块和一般目标异常检测模块以及异常评估模块。本发明检测方法对重要网络节点和普通网络节点采用不同的方法进行流量模型构建，分别进行网络异常检测，再关联重要目标和普通目标的网络事件，挖掘出具备一定危害的网络入侵行为和异常通联行为。从该现有技术的具体实现内容可知，该现有技术的一般目标异常检测模块利用基于时间序列的流量变化模型进行检测，包括：对端口流量的时间序列，减去其中的趋势性分量和周期性分量，获得随机波动特征，随机波动特征符合正态分布的定义，根据置信度，应用正态分布假设检验计算随机波动特征偏离标准差的系数，找到流量突增点；利用流数据聚合模型进行检测，所述的流数据聚合模型从五元组中选取不同分组进行不同粒度的构建，根据所选粒度对流数据信息进行分组，再对字节数和包数进行聚合操作，通过排序找到异常行为。前述现有技术存在以下不足：通过统计用户操作频次、操作波动等统计特征，设置阈值，这类方法一般只能捕捉到用户行为统计特征上的信息如操作次数过高、波动较大，很难捕捉到行为序列中存在的异常。

现有技术中也存在通过训练历史行为模式构建Markov(马尔可夫)模型，利用模型计算用户的行为异常分值的方案；或者通过序列间的关系，利用关联规则计算用户行为序列的异常情况。例如公布号为CN103403463A的现有发明专利文献《故障检测和诊断算法》，该方法在故障条件下接收来自气候系统的当前参数，从基于当前数据的第一组转移概率和基于在正常条件下操作的气候系统的第二组转移概率计算针对气候系统的异常分数，以及当异常分数高于预定义阈值时自动生成引起故障条件的第一问题的诊断。由该现有技术更具体的技术方案中可知，该现有技术采用马尔可夫模型中的语义状态来采集系统故障演变的动态信息。使用如离散状态的特征构建一阶马尔可夫模型来识别每个等级之间的转移概率。但通过训练历史行为模式构建Markov(马尔可夫)模型，生成转移概率矩阵，计算用户的行为序列的概率，把该概率值作为判断用户行为是否异常的标准。通过该种方式虽然在一定程度上能捕捉到部分行为序列异常的用户，这种方法对序列中子序列是否异常并不敏感，同时可能会受到序列长度的影响，从而造成误报、漏报的问题。

通过计算用户间的相似度或者关联规则，计算量比较大，效率比较低。

综上，现有技术存在行为序列异常捕捉困难、误报、漏报率较高的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术中行为序列异常捕捉困难、误报、漏报率较高的技术问题。

本发明是采用以下技术方案解决上述技术问题的：一种基于无监督算法的行为序列异常检测方法包括：

S1、采集企业web系统操作数据，据以标准化处理成web用户操作表；

S2、通过用户操作的先后顺序，以等时间间隔对用户行为序列进行分割，形成多个时间窗口的子序列；

S3、根据web用户操作表，再获取近4天的历史数据，对用户按照操作顺序合并一天内的操作行为生成行为序列；

S4、利用simHash算法，计算每个子序列与其前后相邻窗口的子序列的相似度，以及每个所述行为序列与其在近3天行为序列的相似度，据以处理得到子序列特征及行为序列特征；

S5、将子序列特征与行为序列特征输入预置孤立森林模型，根据孤立森林模型的输出结果，确定当前用户是否出现异常。

本发明中，基于web系统操作日志数据，将用户行为序列异常的问题转化为行为相似度问题，从用户前后行为间存在极高的相似度，用户当前行为与历史行为间存在极高的相似度两方面的业务逻辑，通过构建用户前后行为以及历史行为的相似度的特征，建立无监督模型，判断用户行为是否存在异常的过程予以保护。本发明通过利用无监督算法simHash、孤立森林，将用户行为序列异常的问题转化为行为相似度问题。降低了序列长度的影响，减少了误报、漏报的发生。

在更具体的技术方案中，步骤S1中，web用户操作表包括：用户唯一标识、操作时间以及操作类型。

在更具体的技术方案中，步骤S2包括：

S21、根据web用户操作表获取当天的用户及操作时间，根据操作时间进行排序操作；

S22、按照等长时间间隔切割每个用户的操作记录，按照操作时间的顺序，合并同一时间窗口内的操作行为，以组成子序列；

S23、利用子序列生成每个用户的当天子序列集。

在更具体的技术方案中，步骤S21中，排序操作包括：升序排序。

在更具体的技术方案中，步骤S3包括：

S31、基于web用户操作表，获取近4天的历史数据；

S32、对每天每个用户，按照操作时间的先后顺序合并一天内的操作行为，据以生成序列opr_day_seq。

在更具体的技术方案中，步骤S4中，对于子序列集中的每个子序列，利用simHash算法逐一与其自身前方预置个数的子序列的相似度，以及子序列与其自身后方预置个数的子序列的相似度，据以生成相似度值，据以计算子序列的均值、最大值、最小值、标准差、峰度，以生成子序列特征。

在更具体的技术方案中，步骤S4中，取当天每个用户的行为序列，利用simHash算法，逐一计算行为序列与其自身之前预置天数的行为序列的相似度，以生成行为序列相似度值，据以行为序列的计算均值、最大值、最小值，据以生成操作序列特征。

本发明从业务逻辑的角度出发，利用用户前后行为间存在极高的相似度，同时用户当前行为与历史行为间存在极高的相似度的特点，通过构建用户前后行为以及历史行为的相似度的特征，建立无监督模型，判断用户行为是否存在异常。本发明采用simHash降低了用户行为相似度的计算量，提高了运行效率，同时在特征加工时，考虑到用户的历史行为以及每个时间窗口前后行为的相似度，相较于只考虑横向或者纵向的时间维度的方法，准确率得到了提升。

在更具体的技术方案中，步骤S5中,将子序列间的相似度值以及序列间的相似度值作为特征即孤立森林模型的输入，根据模型输出结果确定用户是否异常。

在更具体的技术方案中，一种基于无监督算法的行为序列异常检测系统包括：

用户操作表获取模块，用以采集企业web系统操作数据，据以标准化处理成web用户操作表；

子序列生成模块，用以通过用户操作的先后顺序，等时间间隔对用户行为序列进行分割，形成多个时间窗口的子序列，子序列生成模块与用户操作表获取模块连接；

行为序列生成模块，用以根据web用户操作表，再获取近4天的历史数据，对用户按照操作顺序合并一天内的操作行为生成行为序列，行为序列生成模块与子序列生成模块连接；

子序列及行为特征获取模块，用以利用simHash算法，计算每个子序列与其前后相邻窗口的子序列的相似度以最近5天内同时间窗口的子序列的相似度，据以处理得到子序列特征，并利用simHash算法计算行为序列的行为序列特征，子序列及行为特征获取模块与子序列生成模块及行为序列生成模块连接；

用户异常检测模块，用以将子序列特征与行为序列特征输入预置孤立森林模型，根据孤立森林模型的输出结果，确定当前用户是否出现异常，用户异常检测模块与子序列及行为特征获取模块连接。

本发明相比现有技术具有以下优点：本发明基于web系统操作日志数据，将用户行为序列异常的问题转化为行为相似度问题，从用户前后行为间存在极高的相似度，用户当前行为与历史行为间存在极高的相似度两方面的业务逻辑，通过构建用户前后行为以及历史行为的相似度的特征，建立无监督模型，判断用户行为是否存在异常的过程予以保护。本发明通过利用无监督算法simHash、孤立森林，将用户行为序列异常的问题转化为行为相似度问题。降低了序列长度的影响，减少了误报、漏报的发生。

本发明通过将用户的行为序列相似度，作为特征输入，通过孤立森林算法检测用户是否异常，不仅对整体序列异常检测有效，对局部序列异常同样敏感。提高了异常检测准确率。本发明解决了现有技术中存在的行为序列异常捕捉困难、误报、漏报率较高的技术问题。

附图说明

图1为本发明实施例1的一种基于无监督算法的行为序列异常检测方法基本步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供的一种基于无监督算法的行为序列异常检测方法包括以下基本步骤：

S1、本发明基于企业web系统操作数据，标准化处理成web用户操作表；

在本实施例中，采集企业web系统操作日志，标准化处理成web用户操作表T_opr，该表包含但不限于以下字段：用户唯一标识(USER_ID)，操作时间(OPR_DATE)、操作类型(OPERATION_TYPE)等，将每个操作类型对应到预设单字符编码集(a、b、c、d…)，如操作类型“whole_page_load”，在本实施例中，操作类型“whole_page_load”的操作类型名称：页面加载。对应到预设编码集中的编码“a”，操作类型“submit”，在本实施例中，操作类型“submit”的操作类型名称：提交。对应到预设编码集中的编码“b”，操作类型“down”，在本实施例中，操作类型“down”的操作类型名称：下载。对应到预设编码集中的编码“c”，从而使得操作类型对应到短编码(SHORT_OPR_TYPE)，减小内存占用同时方便相似性比较。

S2、通过用户操作的先后顺序，等时间间隔对用户行为序列进行分割，形成多个时间窗口的子序列；

在本实施例中，基于上述处理后的web用户操作表T_opr，获取当天数据，根据用户(USER_ID)，操作时间(OPR_DATE)、以每个用户的操作时间升序排序，等时间间隔切割每个用户的操作记录，在本实施例中，等时间间隔可采用例如：30分钟，按照操作时间的先后顺序合并同一时间窗口内的操作行为组成子序列，从而对于每个用户，各个时间窗口均有一个操作行为的子序列如00：00-00：29窗口内的操作合并生成一个子序列opr_seq1，00：30-00：59窗口内的操作合并生成一个子序列opr_seq2，以此递推，从而生成每个用户当天的子序列集。

S3、根据web用户操作表，再获取第一最近预设天数的历史数据，对每天每个用户，按照操作顺序合并一天内的操作行为生成序列，在本实施例中，第一最近预设天数可采用例如：4天；

在本实施例中，基于web用户操作表T_opr，再获取第二最近预设天数的历史数据，对每天每个用户，按照操作时间的先后顺序合并一天内的操作行为生成序列opr_day_seq。如用户“A01”在当天依次操作行为为“a”、“b”、“c”、“e”、“d”、“b”、“c”，则其当天的行为序列opr_day_seq为“abcedbc”。在本实施例中，第二最近预设天数可采用例如：3天。

S4、进而计算每个子序列与其前后相邻窗口的子序列的相似度以及每个行为序列与其近3天内行为序列的相似度；

在本实施例中，基于步骤S2中生成的每个子序列集，对于子序列集中的每个子序列，利用simHash算法逐一比较它与它前3个子序列的相似度，以及它与它后3个子序列的相似度，从而生成6个相似度值即sim1，sim2，sim3，sim4，sim5，sim6，对于前后3个子序列不存在的相似度，默认为空值，对每个用户的所有的相似度值计算均值、最大值、最小值、标准差、峰度，从而生成5个特征：

sim_mean,sim_max,sim_min,sim_std,sim_skew；

基于步骤S3中生成的行为序列opr_day_seq，取当天每个用户的操作行为序列opr_day_seq，利用simHash算法，逐一计算它与它前3天的行为序列的相似度，从而生成3个相似度值即sim7，sim8，sim9，如果前3天的历史行为序列不存在，则取默认值空值。对每个用户的sim7，sim8，sim9计算均值、最大值、最小值，从而生成3个特征sim_mean_day,sim_max_day,sim_min_day。

simHash是局部敏感哈希的一种，其主要思想就是降维，将高维的特征向量映射成低维的特征向量，进而通过计算两个向量的汉明距离判断两个对象是否相似。

S5、将子序列间的相似度值以及序列间的相似度值作为特征即孤立森林模型的输入，根据模型输出结果确定用户是否异常。

在本实施例中，基于步骤S4步骤中生成的特征：

sim_mean,sim_max,sim_min,sim_std,sim_skew，sim_mean_day,sim_max_day,sim_min_day

在本实施例中，利用该特征sim_mean,sim_max,sim_min,sim_std,sim_skew，sim_mean_day,sim_max_day,sim_min_day组成特征集，作为孤立森林算法的输入，从而计算每个用户的异常分值，输出异常用户即label为-1的记录，从而实现对用户行为序列的异常检测。

在本实施例中，孤立森林(iForest)算法属于无参数和无监督的算法，即不需要假设数据模型也不需要有label的训练模型，能够快速处理大规模的数据。

在本实施例中，根据模型输出结果确定用户是否异常的步骤还包括以下具体步骤：

在模型构建过程中，借助于二叉树，孤立森林用一个随机超平面来切割数据空间，切一次后生成两个子空间即左右孩子；

继续用随机一个超平面来切割每个子空间，循环下去，直到每个子空间没法再切为止；在本实施例中，密度很高的簇需要被切很多次才会停止切割，但那些密度很低的点就会很容易很早的停到一个子空间了。

通过计算叶子节点到根节点之间的路径长度得到每个点的异常分值。

在本实施例中，对于行为一致的点会被切分到一个子空间，它们到根节点的路径也是相同的即异常分值相同。

综上，本发明基于web系统操作日志数据，将用户行为序列异常的问题转化为行为相似度问题，从用户前后行为间存在极高的相似度，用户当前行为与历史行为间存在极高的相似度两方面的业务逻辑，通过构建用户前后行为以及历史行为的相似度的特征，建立无监督模型，判断用户行为是否存在异常的过程予以保护。本发明通过利用无监督算法simHash、孤立森林，将用户行为序列异常的问题转化为行为相似度问题。降低了序列长度的影响，减少了误报、漏报的发生。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于无监督算法的行为序列异常检测方法，其特征在于，所述方法包括：

S3、根据web用户操作表，再获取第一最近预设天数的历史数据，对用户按照操作顺序合并一天内的操作行为生成行为序列；

S4、利用simHash算法，计算每个子序列与其前后相邻窗口的子序列的相似度，以及每个所述行为序列与其在第二最近预设天数内行为序列的相似度，据以处理得到子序列特征及行为序列特征；

S5、将所述子序列特征与所述行为序列特征输入预置孤立森林模型，根据所述孤立森林模型的输出结果，确定当前用户是否出现异常。

2.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S1中，所述web用户操作表包括：用户唯一标识、操作时间以及操作类型。

3.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S2包括：

S21、根据所述web用户操作表获取当天的用户及操作时间，根据所述操作时间进行排序操作；

S22、按照等长时间间隔切割每个用户的操作记录，按照所述操作时间的顺序，合并同一时间窗口内的操作行为，以组成子序列；

S23、利用所述子序列生成每个所述用户的当天子序列集。

4.根据权利要求3所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S21中，所述排序操作包括：升序排序。

5.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S3包括：

S31、基于所述web用户操作表，获取所述近4天的历史数据；

S32、对每天每个用户，按照所述操作时间的先后顺序合并一天内的操作行为，据以生成序列opr_day_seq。

6.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S4中，对于子序列集中的每个所述子序列，利用simHash算法逐一与其自身前方预置个数的所述子序列的相似度，以及所述子序列与其自身后方预置个数的所述子序列的相似度，据以生成相似度值，据以计算所述子序列的均值、最大值、最小值、标准差、峰度，以生成所述子序列特征。

7.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S4中，取当天每个所述用户的所述行为序列，利用simHash算法，逐一计算所述行为序列与其自身之前预置天数的行为序列的相似度，以生成行为序列相似度值，据以所述行为序列的计算均值、最大值、最小值，据以生成所述操作序列特征。

8.根据权利要求1所述的一种基于无监督算法的行为序列异常检测方法，其特征在于，所述步骤S5中,将子序列间的相似度值以及序列间的相似度值作为特征即孤立森林模型的输入，根据模型输出结果确定用户是否异常。

9.一种基于无监督算法的行为序列异常检测系统，其特征在于，所述系统包括：

子序列生成模块，用以通过用户操作的先后顺序，等时间间隔对用户行为序列进行分割，形成多个时间窗口的子序列，所述子序列生成模块与所述用户操作表获取模块连接；

行为序列生成模块，用以根据web用户操作表，再获取第一最近预设天数的历史数据，对用户按照操作顺序合并一天内的操作行为生成行为序列，所述行为序列生成模块与所述子序列生成模块连接；

子序列及行为序列特征获取模块，用以利用simHash算法，计算每个子序列与其前后相邻窗口的子序列的相似度，以及每个行为序列与其在第二最近预设天数内行为序列的相似度，据以处理得到子序列特征及行为序列特征，所述子序列及行为序列特征获取模块与所述子序列生成模块及所述行为序列生成模块连接；

用户异常检测模块，用以将所述子序列特征与所述行为序列特征输入预置孤立森林模型，根据所述孤立森林模型的输出结果，确定当前用户是否出现异常，所述用户异常检测模块与所述子序列及行为序列特征获取模块连接。