CN114912109A - 一种基于图嵌入的异常行为序列识别方法及系统 - Google Patents

一种基于图嵌入的异常行为序列识别方法及系统 Download PDF

Info

Publication number
CN114912109A
CN114912109A CN202210844963.4A CN202210844963A CN114912109A CN 114912109 A CN114912109 A CN 114912109A CN 202210844963 A CN202210844963 A CN 202210844963A CN 114912109 A CN114912109 A CN 114912109A
Authority
CN
China
Prior art keywords
behavior
sequence
user
behavior sequence
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210844963.4A
Other languages
English (en)
Other versions
CN114912109B (zh
Inventor
唐上
刘洋洋
马衍硕
程海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongfu Safety Technology Co Ltd
Original Assignee
Zhongfu Safety Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongfu Safety Technology Co Ltd filed Critical Zhongfu Safety Technology Co Ltd
Priority to CN202210844963.4A priority Critical patent/CN114912109B/zh
Publication of CN114912109A publication Critical patent/CN114912109A/zh
Application granted granted Critical
Publication of CN114912109B publication Critical patent/CN114912109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种基于图嵌入的异常行为序列识别方法及系统,涉及网络安全技术领域,将采集到的多类别日志数据进行拼接,获得每个用户的行为序列;以行为序列中每个行为事件为实体,得到一个行为事件图;使用LINE算法,得到每个行为事件的低维向量表示;将用户的每个行为事件替换为向量表示,得到向量化的行为序列;将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出;对用户分组并在组内按照时间顺序排列,得到行为序列;将序列输入训练好的模型中,得到结果。通过LSTM自编码器提取向量化后的行为序列的潜在表征,不仅能满足训练模型对固定维度输入的要求,而且降低特征的维度,提升模型计算效率。

Description

一种基于图嵌入的异常行为序列识别方法及系统
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于图嵌入的异常行为序列识别方法及系统。
背景技术
在网络攻击手段日新月异的背景下,内网环境的安全极其重要。用户行为序列分析是捕捉内网实体是否异常一种常用方法,它是根据用户产生的历史行为序列为基线,计算出当前行为序列模式和基线模式的差异,当差异值超过阈值则视为异常行为。
目前很多研究将异常行为序列识别视为一二分类问题,先人工提取一些行为特征,然后使用提取的特征训练一个二分类器(随机森林、SVM),最后使用该分类器实现对正常行为序列和异常行为序列的分类。为了提高识别的精度以及减少特征提取时的人工干预,一些研究采用多源长短时记忆神经网络(M-LSTM)作为识别模型。该模型能自动学习到用户行为序列的潜在表征,将正负样本的表征作为模型的输入,完成模型的训练。
直接将用户的行为序列输入模型会忽略不同行为事件之间的关联,这会导致提取的相似性比较高的行为事件构成的行为序列的特征差异性很大。此外,监督分类模型需要同时具有正负样本,而现实网络安全环境中通常只有充足的正样本,负样本很少甚至没有,模型很难起作用。
发明内容
为了克服上述现有技术中的不足,本发明提供一种基于图嵌入的异常行为序列识别方法,方法通过LSTM自编码器提取向量化后的行为序列的潜在表征,不仅能满足训练模型对固定维度输入的要求,而且降低特征的维度,提升模型计算效率。
基于图嵌入的异常行为序列识别方法包括:
步骤一、将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;
步骤二、以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;
步骤三、使用LINE算法,得到每个行为事件的低维向量表示;
步骤四、将用户的每个行为事件替换为向量表示,得到向量化的行为序列;
步骤五、将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;
步骤六、将隐藏表征输入到单分类支持向量机中训练模型;
步骤七、获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;
步骤八、对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;
步骤九、将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
进一步需要说明的是,步骤一还包括:
从个人终端或服务器审计日志中采集身份认证日志、主机进程日志;
身份认证日志记录用户和服务器在网络中的访问关系,主机进程日志记录用户和主机在本地的操作关系,从每种日志提取的关键字段;
将多源日志数据按照用户名分组,并按照时间顺序对组内进行排序,得到由用户名、行为事件、时间三个字段构成的行为序列。
进一步需要说明的是,步骤二中:以单位时间为窗口,将行为事件按照时间顺序排列,得到所有用户对应的多个行为序列;
其中单个行为序列的长度取决于单位时间内行为事件的个数,单个用户的行为序列数量取决于采集日志的天数;
以行为事件为图节点,以行为事件链为边,生成一个有向行为事件图。
进一步需要说明的是,步骤三中,使用LINE方法实现节点的嵌入;
其中,对于有向边
Figure 100002_DEST_PATH_IMAGE001
,定义给定节点
Figure 466249DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
条件下,产生邻居节点
Figure 525734DEST_PATH_IMAGE004
的概率由公式(1)计算,其中
Figure 100002_DEST_PATH_IMAGE005
Figure 241886DEST_PATH_IMAGE006
分别为节点
Figure DEST_PATH_IMAGE007
Figure 201752DEST_PATH_IMAGE004
的低维向量表示,
Figure 446788DEST_PATH_IMAGE008
为邻居节点的个数;
Figure 100002_DEST_PATH_IMAGE009
(1)
LINE算法优化的目标函数由公式(2)计算得出,其中
Figure 55887DEST_PATH_IMAGE010
为控制节点重要性的因子,通过节点的度数或者PageRank等方法估计得到;
Figure 100002_DEST_PATH_IMAGE011
(2)
根据经验分布定义
Figure 513413DEST_PATH_IMAGE012
Figure 327785DEST_PATH_IMAGE013
,使用KL散度并设
Figure DEST_PATH_IMAGE014
,目标函数简化为公式(3)计算得出,其中
Figure 478144DEST_PATH_IMAGE015
是边
Figure DEST_PATH_IMAGE016
的权重值;
Figure 10756DEST_PATH_IMAGE017
(3)
通过训练,当目标函数满足阈值条件时,最后输出每个节点
Figure DEST_PATH_IMAGE018
Figure 773438DEST_PATH_IMAGE019
维向量。
进一步需要说明的是,步骤四还包括:
获取每个行为事件的
Figure DEST_PATH_IMAGE020
维向量表示,即用户i的一个行为序列可以表示为
Figure 239054DEST_PATH_IMAGE021
,其中
Figure DEST_PATH_IMAGE022
为该用户第t个行为事件对应的向量且
Figure 560314DEST_PATH_IMAGE023
进一步需要说明的是,步骤五中,
采用变长LSTM自编码器实现行为序列的表征提取;
LSTM自编码器分为编码器和解码器,编码器将输入的变长行为序列
Figure DEST_PATH_IMAGE024
编码,得到固定长度的行为表征
Figure 376961DEST_PATH_IMAGE025
,公式(4);
其中
Figure DEST_PATH_IMAGE026
分别表示第t个行为事件对应的向量和编码器第
Figure 671895DEST_PATH_IMAGE027
个隐藏向量,
Figure DEST_PATH_IMAGE028
表示编码器第t个隐藏向量,即用户
Figure 54335DEST_PATH_IMAGE029
一个行为序列的表征;
Figure DEST_PATH_IMAGE030
(4)
LSTM解码器将用户的表征
Figure 749758DEST_PATH_IMAGE031
作为输入,输出用户的行为序列
Figure DEST_PATH_IMAGE032
,公式(5),其中
Figure 53701DEST_PATH_IMAGE033
表示第 t个行为事件的重构向量,
Figure DEST_PATH_IMAGE034
表示多层感知机,
Figure 892606DEST_PATH_IMAGE035
表示用户
Figure DEST_PATH_IMAGE036
一个行为序列的表征,
Figure 863973DEST_PATH_IMAGE037
表示解码器的第
Figure 792615DEST_PATH_IMAGE038
个隐藏向量;
Figure DEST_PATH_IMAGE039
(5)
LSTM自编码器的目标函数如公式(6),其中
Figure 583853DEST_PATH_IMAGE033
表示用户第t个行为事件的重构向量,
Figure 131509DEST_PATH_IMAGE040
表示用户第t个行为事件的原始向量;通过训练,当重构误差满足阈值要求时,编码器的最后一个隐藏向量
Figure 724427DEST_PATH_IMAGE028
重构出用户的行为序列,即
Figure 699336DEST_PATH_IMAGE028
挖掘到用户行为序列的潜在信息;
Figure DEST_PATH_IMAGE041
(6)。
进一步需要说明的是,步骤六还包括:
采用单分类支持向量机构建分类器;
以支持向量域描述算法进行处理,找到一个中心为a,半径为R的最小球面,如公式(7)所示,其中C为惩罚项;
Figure 977871DEST_PATH_IMAGE042
(7)
球面满足公式(8)的条件限制,其中
Figure DEST_PATH_IMAGE043
为松弛变量;
Figure 250589DEST_PATH_IMAGE044
(8)
训练结束后,若满足公式(9)的条件,则判定为同类,输出1,否者为异类,输出0;
Figure DEST_PATH_IMAGE045
(9)。
本发明还提供一种基于图嵌入的异常行为序列识别系统,系统包括:图处理单元、模型训练单元以及异常检测单元;
图处理单元用于将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;再以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;使用LINE算法,得到每个行为事件的低维向量表示;
模型训练单元用于将用户的每个行为事件替换为向量表示,得到向量化的行为序列;将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;将隐藏表征输入到单分类支持向量机中训练模型;
异常检测单元用于获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的基于图嵌入的异常行为序列识别方法及系统将用户行为序列抽象为行为事件图,并通过图嵌入方法将获取的向量化的行为序列作为输入,提高异常行为序列的分类识别的精度。图嵌入技术能挖掘出不同行为事件之间的相似性和潜在关联,提高相似序列的关联度。
对于本发明涉及的方法及系统将用户的行为序列抽象为行为事件图表示。还引入图嵌入技术将用户行为序列向量化。使用LSTM自编码器抽取行为序列的潜在表征并实现降维。通过LSTM自编码器提取向量化后的行为序列的潜在表征,不仅能满足训练模型对固定维度输入的要求,而且极大降低特征的维度,提升模型计算效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为异常行为序列识别方法流程图;
图2为异常行为序列识别流程图;
图3为行为事件图的生成示意图;
图4为基于图嵌入的异常行为序列识别系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于图嵌入的异常行为序列识别方法是为了解决现实网络安全环境中在正样本充足,负样本没有的情况下,模型很难起作用的问题。基于这一问题本发明将用户行为序列抽象为行为事件图,并通过图嵌入方法将获取的向量化的行为序列作为输入,提高异常行为序列的分类识别的精度。图嵌入技术能挖掘出不同行为事件之间的相似性和潜在关联,提高相似序列的关联度。
而对于本发明涉及的异常行为序列识别方法可以通过个人终端来实现,比如计算机,终端机,笔记本电脑,智能平板等等。个人终端仅是一个示例,不应对本公开实施方式的功能和使用范围带来任何限制。
个人终端可以包括中央处理单元(CPU,Central Processing Unit),其可以根据存储在只读存储器(ROM,Read-Only Memory)中的程序或者从储存部分加载到随机访问存储器(RAM,Random Access Memory)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
本发明的相关技术中,例如可以采用机器学习方法、深度学习方法等执行异常行为序列识别方法,不同方法适用的范围不同。
图1和2示意性示出了根据本公开的一实施方式的异常行为序列识别方法的流程图。
本公开实施方式的方法步骤可以由个人终端执行,也可以由服务端执行,或者由个人终端和服务端交互执行,但本公开并不限定于此。
S101、将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;
S102、以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;
S103、使用LINE算法,得到每个行为事件的低维向量表示;
这里从个人终端或服务器审计日志中采集身份认证日志、主机进程日志。身份认证日志记录用户和服务器在网络中的访问关系,主机进程日志记录用户和主机在本地的操作关系,每种日志提取的关键字段如表1和表2所示。
Figure 166855DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
将多种拼接后的多源日志数据按照用户名分组,并按照时间顺序对组内进行排序,得到由用户名、行为事件、时间三个字段构成的表3。
Figure 843824DEST_PATH_IMAGE048
对于本发明的生成行为事件图方式来讲,以单位时间为窗口,将行为事件按照时间顺序排列,得到所有用户对应的多个行为序列,其中单个行为序列的长度取决于单位时间内行为事件的个数,单个用户的行为序列数量取决于采集日志的天数。
以行为事件为图节点,以行为事件链为边,生成一个有向行为事件图,如下图3所示。图中边的权重表示相邻行为事件连接次数。
本发明使用LINE方法实现节点的嵌入。LINE是一种基于领域相似假设的方法,它可以被应用在带权重的图中,这里采用2阶相似度,用于描述图中成对顶点之间的局部相似度。
对于有向边
Figure 78496DEST_PATH_IMAGE001
,定义给定节点
Figure DEST_PATH_IMAGE049
条件下,产生邻居节点
Figure 561430DEST_PATH_IMAGE050
的概率由公式(1)计算,其中
Figure 627475DEST_PATH_IMAGE005
Figure 944187DEST_PATH_IMAGE006
分别为节点
Figure DEST_PATH_IMAGE051
Figure 450777DEST_PATH_IMAGE052
的低维向量表示,
Figure DEST_PATH_IMAGE053
为邻居节点的个数。
Figure 737402DEST_PATH_IMAGE054
(1)
LINE算法优化的目标函数由公式(2)计算得出,其中
Figure 657953DEST_PATH_IMAGE010
为控制节点重要性的因子,通过节点的度数或者PageRank等方法估计得到;
Figure DEST_PATH_IMAGE055
(2)
根据经验分布定义
Figure 4621DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
,使用KL散度并设
Figure 980930DEST_PATH_IMAGE014
,目标函数简化为公式(3)计算得出,其中
Figure 212191DEST_PATH_IMAGE015
是边
Figure 987249DEST_PATH_IMAGE016
的权重值;
Figure 911343DEST_PATH_IMAGE058
(3)
通过训练,当目标函数满足阈值条件时,最后输出每个节点
Figure 404641DEST_PATH_IMAGE018
(行为事件)的
Figure 705172DEST_PATH_IMAGE020
维向量。
S104、将用户的每个行为事件替换为向量表示,得到向量化的行为序列;
S105、将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;
S106、将隐藏表征输入到单分类支持向量机中训练模型;
具体来讲,将用户的每个行为事件替换为向量表示,得到向量化的行为序列,然后将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征,最后将隐藏表征输入到单分类支持向量机中训练模型。
本发明中获取每个行为事件的
Figure 334737DEST_PATH_IMAGE020
维向量表示,即用户i的一个行为序列可以表示为
Figure 429731DEST_PATH_IMAGE059
,其中
Figure DEST_PATH_IMAGE060
为该用户第t个行为事件对应的向量且
Figure 380632DEST_PATH_IMAGE061
在本发明的行为序列的表征提取过程中,由于行为序列的长度不同,本发明采用变长LSTM自编码器实现行为序列的表征提取。LSTM自编码器分为编码器和解码器,编码器将输入的变长行为序列
Figure 78330DEST_PATH_IMAGE024
编码,得到固定长度的行为表征
Figure DEST_PATH_IMAGE062
,如公式(4)所示。其中
Figure 296822DEST_PATH_IMAGE063
分别表示第t个行为事件对应的向量和编码器第
Figure DEST_PATH_IMAGE064
个隐藏向量,
Figure 156193DEST_PATH_IMAGE028
表示编码器第t个隐藏向量,即用户
Figure 233871DEST_PATH_IMAGE029
一个行为序列的表征。
Figure 502303DEST_PATH_IMAGE065
(4)
LSTM解码器将用户的表征
Figure DEST_PATH_IMAGE066
作为输入,输出用户的行为序列
Figure 309722DEST_PATH_IMAGE032
,公式(5),其中
Figure 12099DEST_PATH_IMAGE033
表示第 t个行为事件的重构向量,
Figure 701706DEST_PATH_IMAGE034
表示多层感知机,
Figure 616573DEST_PATH_IMAGE067
表示用户
Figure 340815DEST_PATH_IMAGE036
一个行为序列的表征,
Figure 948514DEST_PATH_IMAGE037
表示解码器的第
Figure 621023DEST_PATH_IMAGE038
个隐藏向量;
Figure 339580DEST_PATH_IMAGE039
(5)
LSTM自编码器的目标函数如公式(6),其中
Figure 918329DEST_PATH_IMAGE033
表示用户第t个行为事件的重构向量,
Figure 696929DEST_PATH_IMAGE040
表示用户第t个行为事件的原始向量;通过训练,当重构误差满足阈值要求时,编码器的最后一个隐藏向量
Figure 361129DEST_PATH_IMAGE028
重构出用户的行为序列,即
Figure 883377DEST_PATH_IMAGE028
挖掘到用户行为序列的潜在信息;
Figure DEST_PATH_IMAGE068
(6)。
本发明还涉及跌了行为序列特征分类器。示例性的讲,在实际场景中,异常行为序列的样本很少甚至没有,所以训练模型不适用在监督分类中。在只有正常行为序列的样本下,我们采用单分类支持向量机(one-class SVM)构建分类器。该算法的思路是学习一个最小的超平面,落在超平面内的点都视为正样本,落在超平面外的点被视为负样本(异常样本)。
这里以支持向量域描述算法(SVDD)为例,其优化目标是找到一个中心为a,半径为R的最小球面,如公式(7)所示,其中C为惩罚项。
Figure 785474DEST_PATH_IMAGE042
(7)
球面满足公式(8)的条件限制,其中
Figure 564336DEST_PATH_IMAGE043
为松弛变量;
Figure 450253DEST_PATH_IMAGE069
(8)
训练结束后,若满足公式(9)的条件,则判定为同类,输出1,否者为异类,输出0;
Figure 776192DEST_PATH_IMAGE045
(9)。
S107、获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;
S108、对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;
S109、将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
对于本发明来讲,获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;然后对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;最后将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员做进一步调查。
在查找不同行为事件对应的向量时,可能存在查询为空的结果,比如用户触发新的进程或访问新的服务器。这里的处理办法是将查询为空的行为事件用d维0值填充,表示首次新增的行为事件。
基于上述基于图嵌入的异常行为序列识别方法,本发明还提供一种基于图嵌入的异常行为序列识别系统,如图4所示,系统包括:图处理单元、模型训练单元以及异常检测单元;
图处理单元用于将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;再以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;使用LINE算法,得到每个行为事件的低维向量表示;
模型训练单元用于将用户的每个行为事件替换为向量表示,得到向量化的行为序列;将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;将隐藏表征输入到单分类支持向量机中训练模型;
异常检测单元用于获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
本发明提供的基于图嵌入的异常行为序列识别系统将用户行为序列抽象为行为事件图,并通过图嵌入方法将获取的向量化的行为序列作为输入,提高异常行为序列的分类识别的精度。图嵌入技术能挖掘出不同行为事件之间的相似性和潜在关联,提高相似序列的关联度。
对于本发明涉及的系统将用户的行为序列抽象为行为事件图表示。还引入图嵌入技术将用户行为序列向量化。使用LSTM自编码器抽取行为序列的潜在表征并实现降维。通过LSTM自编码器提取向量化后的行为序列的潜在表征,不仅能满足训练模型对固定维度输入的要求,而且极大降低特征的维度,提升模型计算效率。
本发明提供的基于图嵌入的异常行为序列识别方法及系统中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明提供的基于图嵌入的异常行为序列识别系统的附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本发明提供的基于图嵌入的异常行为序列识别方法是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于图嵌入的异常行为序列识别方法,其特征在于,方法包括:
步骤一、将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;
步骤二、以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;
步骤三、使用LINE算法,得到每个行为事件的低维向量表示;
步骤四、将用户的每个行为事件替换为向量表示,得到向量化的行为序列;
步骤五、将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;
步骤六、将隐藏表征输入到单分类支持向量机中训练模型;
步骤七、获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;
步骤八、对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;
步骤九、将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
2.根据权利要求1所述的基于图嵌入的异常行为序列识别方法,其特征在于,步骤一还包括:
从个人终端或服务器审计日志中采集身份认证日志、主机进程日志;
身份认证日志记录用户和服务器在网络中的访问关系,主机进程日志记录用户和主机在本地的操作关系,从每种日志提取的关键字段;
将多源日志数据按照用户名分组,并按照时间顺序对组内进行排序,得到由用户名、行为事件、时间三个字段构成的行为序列。
3.根据权利要求1所述的基于图嵌入的异常行为序列识别方法,其特征在于,步骤二中:以单位时间为窗口,将行为事件按照时间顺序排列,得到所有用户对应的多个行为序列;
其中单个行为序列的长度取决于单位时间内行为事件的个数,单个用户的行为序列数量取决于采集日志的天数;
以行为事件为图节点,以行为事件链为边,生成一个有向行为事件图。
4.根据权利要求1所述的基于图嵌入的异常行为序列识别方法,其特征在于,
步骤三中,使用LINE方法实现节点的嵌入;
其中,对于有向边
Figure DEST_PATH_IMAGE001
,定义给定节点
Figure DEST_PATH_IMAGE003
条件下,产生邻居节点
Figure 260939DEST_PATH_IMAGE004
的概率由公式(1)计算,其中
Figure DEST_PATH_IMAGE005
Figure 832735DEST_PATH_IMAGE006
分别为节点
Figure 287987DEST_PATH_IMAGE008
Figure 656651DEST_PATH_IMAGE004
的低维向量表示,
Figure DEST_PATH_IMAGE009
为邻居节点的个数;
Figure 285079DEST_PATH_IMAGE010
(1)
LINE算法优化的目标函数由公式(2)计算得出,其中
Figure DEST_PATH_IMAGE011
为控制节点重要性的因子,通过节点的度数或者PageRank等方法估计得到;
Figure 150529DEST_PATH_IMAGE012
(2)
根据经验分布定义
Figure 307840DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
,使用KL散度并设
Figure 554014DEST_PATH_IMAGE016
,目标函数简化为公式(3)计算得出,其中
Figure DEST_PATH_IMAGE017
是边
Figure 189395DEST_PATH_IMAGE018
的权重值;
Figure DEST_PATH_IMAGE019
(3)
通过训练,当目标函数满足阈值条件时,最后输出每个节点
Figure 440510DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
维向量。
5.根据权利要求1所述的基于图嵌入的异常行为序列识别方法,其特征在于,步骤四还包括:
获取每个行为事件的
Figure 503144DEST_PATH_IMAGE022
维向量表示,即用户i的一个行为序列可以表示为
Figure DEST_PATH_IMAGE023
,其中
Figure DEST_PATH_IMAGE025
为该用户第t个行为事件对应的向量且
Figure 439876DEST_PATH_IMAGE026
6.根据权利要求5所述的基于图嵌入的异常行为序列识别方法,其特征在于,步骤五中,
采用变长LSTM自编码器实现行为序列的表征提取;
LSTM自编码器分为编码器和解码器,编码器将输入的变长行为序列
Figure DEST_PATH_IMAGE027
编码,得到固定长度的行为表征
Figure 675685DEST_PATH_IMAGE028
,公式(4);
其中
Figure DEST_PATH_IMAGE029
分别表示第t个行为事件对应的向量和编码器第
Figure 244289DEST_PATH_IMAGE030
个隐藏向量,
Figure DEST_PATH_IMAGE031
表示编码器第t个隐藏向量,即用户
Figure 274562DEST_PATH_IMAGE032
一个行为序列的表征;
Figure DEST_PATH_IMAGE033
(4)
LSTM解码器将用户的表征
Figure 433010DEST_PATH_IMAGE034
作为输入,输出用户的行为序列
Figure DEST_PATH_IMAGE035
,公式(5),其中
Figure 206931DEST_PATH_IMAGE036
表示第 t个行为事件的重构向量,
Figure 167059DEST_PATH_IMAGE037
表示多层感知机,
Figure DEST_PATH_IMAGE038
表示用户
Figure 571496DEST_PATH_IMAGE039
一个行为序列的表征,
Figure DEST_PATH_IMAGE040
表示解码器的第
Figure 217241DEST_PATH_IMAGE041
个隐藏向量;
Figure DEST_PATH_IMAGE042
(5)
LSTM自编码器的目标函数如公式(6),其中
Figure 529274DEST_PATH_IMAGE036
表示用户第t个行为事件的重构向量,
Figure 875066DEST_PATH_IMAGE043
表示用户第t个行为事件的原始向量;通过训练,当重构误差满足阈值要求时,编码器的最后一个隐藏向量
Figure 653667DEST_PATH_IMAGE031
重构出用户的行为序列,即
Figure 317866DEST_PATH_IMAGE031
挖掘到用户行为序列的潜在信息;
Figure DEST_PATH_IMAGE044
(6)。
7.根据权利要求6所述的基于图嵌入的异常行为序列识别方法,其特征在于,
步骤六还包括:
采用单分类支持向量机构建分类器;
以支持向量域描述算法进行处理,找到一个中心为a,半径为R的最小球面,如公式(7)所示,其中C为惩罚项;
Figure 168010DEST_PATH_IMAGE045
(7)
球面满足公式(8)的条件限制,其中
Figure DEST_PATH_IMAGE046
为松弛变量;
Figure 335687DEST_PATH_IMAGE047
(8)
训练结束后,若满足公式(9)的条件,则判定为同类,输出1,否者为异类,输出0;
Figure DEST_PATH_IMAGE048
(9)。
8.一种基于图嵌入的异常行为序列识别系统,其特征在于,系统采用如权利要求1至7任意一项所述的基于图嵌入的异常行为序列识别方法,系统包括:图处理单元、模型训练单元以及异常检测单元;
图处理单元用于将采集到的多类别日志数据进行拼接,以单位小时为聚合窗口,获得每个用户的行为序列;再以行为序列中每个行为事件为实体,事件先后连接关系为连边,得到一个行为事件图;使用LINE算法,得到每个行为事件的低维向量表示;
模型训练单元用于将用户的每个行为事件替换为向量表示,得到向量化的行为序列;将向量化的行为序列输入到变长LSTM自编码器中,得到每个行为序列的固定维度输出,即行为序列的隐藏表征;将隐藏表征输入到单分类支持向量机中训练模型;
异常检测单元用于获取单位小时内所有用户的行为事件,查找不同行为事件对应的向量表示;对用户分组并在组内按照时间顺序排列,得到每个用户向量化的行为序列;将向量化的行为序列输入训练好的模型中,正常行为序列输出1,异常行为序列输出0,并将结果反馈给安全管理员。
CN202210844963.4A 2022-07-19 2022-07-19 一种基于图嵌入的异常行为序列识别方法及系统 Active CN114912109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210844963.4A CN114912109B (zh) 2022-07-19 2022-07-19 一种基于图嵌入的异常行为序列识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844963.4A CN114912109B (zh) 2022-07-19 2022-07-19 一种基于图嵌入的异常行为序列识别方法及系统

Publications (2)

Publication Number Publication Date
CN114912109A true CN114912109A (zh) 2022-08-16
CN114912109B CN114912109B (zh) 2022-12-06

Family

ID=82771778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844963.4A Active CN114912109B (zh) 2022-07-19 2022-07-19 一种基于图嵌入的异常行为序列识别方法及系统

Country Status (1)

Country Link
CN (1) CN114912109B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738445A (zh) * 2023-08-16 2023-09-12 中国信息通信研究院 数据安全事件检测模型的构建方法及检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180316704A1 (en) * 2017-04-29 2018-11-01 Splunk Inc. Lateral movement detection through graph-based candidate selection
CN109949176A (zh) * 2019-03-28 2019-06-28 南京邮电大学 一种基于图嵌入的社交网络中异常用户检测方法
CN110381079A (zh) * 2019-07-31 2019-10-25 福建师范大学 结合gru和svdd进行网络日志异常检测方法
CN110519276A (zh) * 2019-08-29 2019-11-29 中国科学院信息工程研究所 一种检测内网横向移动攻击的方法
CN111049680A (zh) * 2019-12-05 2020-04-21 中国科学院信息工程研究所 一种基于图表示学习的内网横向移动检测系统及方法
CN111552609A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 一种异常状态检测方法、系统、存储介质、程序、服务器
CN112765896A (zh) * 2021-01-29 2021-05-07 湖南大学 一种基于lstm的水处理时序数据异常检测方法
CN113326244A (zh) * 2021-05-28 2021-08-31 中国科学技术大学 一种基于日志事件图和关联关系挖掘的异常检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180316704A1 (en) * 2017-04-29 2018-11-01 Splunk Inc. Lateral movement detection through graph-based candidate selection
CN109949176A (zh) * 2019-03-28 2019-06-28 南京邮电大学 一种基于图嵌入的社交网络中异常用户检测方法
CN110381079A (zh) * 2019-07-31 2019-10-25 福建师范大学 结合gru和svdd进行网络日志异常检测方法
CN110519276A (zh) * 2019-08-29 2019-11-29 中国科学院信息工程研究所 一种检测内网横向移动攻击的方法
CN111049680A (zh) * 2019-12-05 2020-04-21 中国科学院信息工程研究所 一种基于图表示学习的内网横向移动检测系统及方法
CN111552609A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 一种异常状态检测方法、系统、存储介质、程序、服务器
CN112765896A (zh) * 2021-01-29 2021-05-07 湖南大学 一种基于lstm的水处理时序数据异常检测方法
CN113326244A (zh) * 2021-05-28 2021-08-31 中国科学技术大学 一种基于日志事件图和关联关系挖掘的异常检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738445A (zh) * 2023-08-16 2023-09-12 中国信息通信研究院 数据安全事件检测模型的构建方法及检测方法
CN116738445B (zh) * 2023-08-16 2023-10-31 中国信息通信研究院 数据安全事件检测模型的构建方法及检测方法

Also Published As

Publication number Publication date
CN114912109B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
Alom et al. Network intrusion detection for cyber security using unsupervised deep learning approaches
Nicolau et al. Learning neural representations for network anomaly detection
CN110929029A (zh) 一种基于图卷积神经网络的文本分类方法及系统
Yang et al. Skeletonnet: A hybrid network with a skeleton-embedding process for multi-view image representation learning
CN111143838B (zh) 数据库用户异常行为检测方法
CN111222638B (zh) 一种基于神经网络的网络异常检测方法及装置
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN109886334A (zh) 一种隐私保护的共享近邻密度峰聚类方法
Ding et al. Novelty detection using level set methods
Sikkandar et al. Soft biometrics‐based face image retrieval using improved grey wolf optimisation
Zheng et al. Multimodal deep network embedding with integrated structure and attribute information
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
Mao et al. CBFS: a clustering-based feature selection mechanism for network anomaly detection
CN114912109B (zh) 一种基于图嵌入的异常行为序列识别方法及系统
CN112214570A (zh) 一种基于对抗投影学习哈希的跨模态检索方法及装置
Hu et al. An efficient Long Short-Term Memory model based on Laplacian Eigenmap in artificial neural networks
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
Wang et al. An improved deep learning based intrusion detection method
CN111401440B (zh) 目标分类识别方法、装置、计算机设备及存储介质
CN117272204A (zh) 异常数据检测方法、装置、存储介质和电子设备
Saha et al. Topomorphological approach to automatic posture recognition in ballet dance
Xie et al. Graph‐based Bayesian network conditional normalizing flows for multiple time series anomaly detection
Yap et al. Neural information processing
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN111107082A (zh) 一种基于深度信念网络的免疫入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant