CN110781930A - 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统 - Google Patents

一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统 Download PDF

Info

Publication number
CN110781930A
CN110781930A CN201910971176.4A CN201910971176A CN110781930A CN 110781930 A CN110781930 A CN 110781930A CN 201910971176 A CN201910971176 A CN 201910971176A CN 110781930 A CN110781930 A CN 110781930A
Authority
CN
China
Prior art keywords
user
log data
data
portrait
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910971176.4A
Other languages
English (en)
Inventor
周亚东
胡博文
朱星宇
管晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910971176.4A priority Critical patent/CN110781930A/zh
Publication of CN110781930A publication Critical patent/CN110781930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明公开了一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统,主要步骤为:1)从网络安全设备用户日志等数据中提取特征;2)对特征进行预处理和数据分析,获得特征之间以及特征与用户行为之间的关系;3)根据用户特征构建用户分组的聚类模型;4)根据聚类模型建立用户画像,并根据用户特征和用户画像的匹配结果决定用户是否存在行为异常;本发明实现简单、计算复杂度低,可以有效减少用户日志中行为分析的计算资源开销,不需要任何额外标记,仅需要网络安全设备自动记录的数据,具有实际应用的优势,提供了具有不同行为模式的用户分组方法和画像匹配方法,同时对用户行为是否存在异常进行了决策性判断。

Description

一种基于网络安全设备日志数据的用户画像分组及行为分析 方法和系统
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统。
背景技术
由于企业云平台的重要性,各企业在搭建云平台时都会选择将其部署在安全设备之后从而保障其不受到来自外网的攻击。但安全设备对于已获准进入的内部用户的异常访问行为并不能很好的检查出来,比如用户账户滥用、用户越权访问,以及用户私自获取、修改重要数据等行为。这些异常行为对于企业云平台而言具有极高的风险,一旦发生就会给企业带来不可估量的严重后果和经济损失。
虽然网络安全设备无法检测到内部用户的行为异常,但可以较为全面的记录所有云平台用户的操作信息与账户信息。通过这些数据我们可以利用技术手段提取出用户的行为特征,从而尝试对用户进行行为分析并实现对异常用户的识别预警。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统,从网络安全设备用户权限数据中提取用户权限信息,然后通过统计海量用户日志数据获得用户的操作频次、账号设备使用、指令操作、越权行为等特征;使用聚类方法获取用户分组标记,并通过绘制各特征维度的用户特征值累计分布图分析各用户组典型行为特征,从而构建各组用户画像;通过用户画像匹配用户特征,并根据匹配结果对异常用户作出预警,从而达到准确预警并节省人力和财力的目的。本发明不仅考虑了用户的历史日志数据,同时也考虑了用户的实时数据,具有获取成本低、信息内容丰富、覆盖用户广、针对用户的行为分析更全面等优点,使得本申请与传统的方法和系统相比,具有明显优势。
为了实现上述目的,本发明采用的技术方案是:
一种基于网络安全设备日志数据的用户画像分组及行为分析方法,包括:
步骤1,以网络安全设备用户权限数据为数据源,从用户权限数据中提取所有用户的权限信息,包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID。
步骤2,以网络安全设备一段时间(例如一个月)内的用户日志数据为数据源,从用户操作日志的有效字段中提取30个用户特征,包括操作频次特征、账号与设备使用特征、操作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特征,具体可采取:
步骤2.1,依据历史日志数据中的“操作时间”字段提取操作频次类特征:将单日内的24小时划分为0点~8点、8点~12点、12点~14点、14点~18点、18点~24点五个时段,8点~12点和14点~18点这两个时段上记作“工作时间”进行后序统计,0点~8点、12点~14点、18点~24点这三个时段记作“休息时间”进行后序统计。然后,通过统计历史日志中,每个用户每日工作时间、休息时间的操作次数,分别对其求取平均值,可以获得工作时间日均操作次数、休息时间日均操作次数两个用户特征。相似地,将周一至周五记作“工作日”进行后序统计,将周六与周日的用户操作作为“休息日”进行后序统计。通过统计历史日志中,每个用户每个工作日、休息日的操作次数,分别对其求取平均值,又可以得到工作日均操作次数、休息日日均操作次数两个用户特征;
步骤2.2,依据历史日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征:通过统计历史日志中,每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目,分别对其按日求取平均值,可以得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征;
步骤2.3,依据历史日志数据中的“命令指令部分”有效字段提取操作指令使用类特征:通过识别历史日志中每个用户的指令类别,统计每个用户在各类指令下的操作频次,并计算出各类指令在用户使用过的全部指令中的占比,从而得到使用的各类指令占比,指令类别包括:Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比,使用的Hadoop指令中用户命令、管理命令的占比,使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比,以及未识别指令的占比,最后可获得共18个用户特征;
步骤2.4,依据历史日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段以及用户权限数据中提取所有用户的权限信息,提取越权操作类特征:通过提取历史日志中每个用户登录其他系统账号、使用高级权限(“root”权限)、远程登录其他服务器的行为信息,并将其与该用户的权限数据进行对照,统计每个用户越权登录他人账号、服务器,以及私自提权为“root”的次数,从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征。
步骤3,根据步骤2中提取到的用户特征,使用特征标准化预处理方法对用户特征进行标准化处理,得到标准化后的用户特征,并记录所有的标准化时用到的信息,即所有特征的平均值与标准差,具体可采取:
步骤3.1,针对全部用户的每一个特征维度,计算并记录每一个特征值的均值μ与方差σ2
步骤3.2,对每个用户的每个特征x使用公式
Figure BDA0002232127780000031
进行换算,并用所得的x*进行步骤4中模型构建运算。
步骤4,使用聚类方法,对步骤3中得到的全部用户特征进行聚类,获得聚类模型,并得到具有不同行为特点的用户分组,具体可采取:
步骤4.1,使用K-means聚类算法,选取不同的分组数K,对得到的用户特征集进行聚类,然后计算所有特征向量到其所属类的类中心的欧式距离之和θ,使用所有K值与其对应θ值绘制横轴为K、纵轴为θ的曲线,选取曲线斜率绝对值变化程度最大的一点,该点对应的K*值即为应选择的分组数;
步骤4.2,步骤4.2,确定分组数K*后,使用K-means聚类算法对从用户历史日志数据中提取到并进行标准化处理后的用户特征集进行聚类,得到用户的K*个分组。并按照每个用户特征向量的类标记将其分入各个特征向量组,从而得到分组后的用户画像特征库,并保留该K-means聚类算法模型。
步骤5,根据步骤4中的用户分组结果,绘制用户特征在每个特征维度上的累计分布图,并根据累计分布图对每个用户分组的典型特点进行分析,从而产生各个用户分组的用户画像,并将违规特征显著的用户组标记为高危用户组,具体可采取:
步骤5.1,根据用户特征集的聚类分组结果,绘制每个特征维度上每个用户组特征值的累计分布图,具体方法是:针对每个特征维度构建累积分布图,累计分布图的横坐标X代表了一个阈值,并根据该维度上全部特征值的具体大小选择合适的横轴取值范围;纵坐标y(X)代表累计分布值,记录了所有用户中该特征下取值小于阈值X的用户占比。设此时有K个用户分组,将这K个用户组在该特征下可能的取值标记为x1,x2,…,xK,并且设各分组内用户个数为Ω12,…,ΩK,那么该累计分布图中第k组的累计分布曲线纵坐标为
Figure BDA0002232127780000041
Figure BDA0002232127780000042
其中X为横坐标的取值;num(xk<X)表示的是第k组用户中,在该特征下,取值小于X的用户数目;因此yk(X)代表了第k组用户中,在该特征下,取值小于取值小于X的用户在第k组用户中的占比。由此得到不同分组用户特征在该维度上的累计分布曲线y1,y2,…,yk
步骤5.2,根据各特征维度的累计分布图,获得各组用户的典型用户画像,具体方法为:首先将步骤2和步骤6中提到的30个特征进行划分,将这30个特征映射至8个用户画像维度,每个特征属于某一个用户画像维度,分别为:工作时间活跃度、休息时间活跃度、工作复杂度、Linux指令使用偏好、Hadoop命令使用偏好、SQL指令使用偏好、账号越权频繁度、服务器越权频繁度;通过分析步骤5.1中获得的各个特征的累积分布图,将每个用户画像维度的分布划分为低、较低、中、较高、高5个等级,表示为L={low,medium low,medium,mediumhigh,high},并简化为L={0,1,2,3,4,5},用以描述各组用户在这8个用户画像维度上的行为特点,进而第k个分组的用户的画像表示成UPk={L1,L2,…,L8},其中Li代表该分组在第i个用户画像维度的等级;
步骤5.3,将在账号越权频繁度、服务器越权频繁度这两个画像特征上具有“高”或“较高”数值水平的用户画像标记为高危用户画像,符合该画像的用户组即为高危用户组。
步骤6,获取网络安全设备的近期用户日志数据,从其中的用户操作日志有效字段中提取用户实时行为特征,根据步骤4中得到的聚类模型以及各个用户的当前实时特征,对每个用户进行分组匹配,然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度,对是否发出用户异常警告做出决策,具体可采取:
步骤6.1,获取网络安全设备最近N周内的用户日志数据,以“周”为单位提取用户特征,并同样利用步骤3中获得的各个特征的平均值和标准差,对这些特征进行标准化处理;
步骤6.2,使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配,确定每个用户特征的分组标记;
步骤6.3,将每位用户最近一周的用户组标记与N周内的历史标记进行对比,其中被标记为高危用户组的次数与周数N的比值为违规度I,N周内用户组标记的变化次数(相邻两周的用户标记不同即为一次变化)与N-1的比值为跳变度H;
步骤6.4,基于每位用户的跳变度H与违规度I,设置综合预警阈值,对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。
进一步,本发明中网络安全设备用户权限数据是指网络安全设备上的包含所有用户的服务器登录权限、系统账号授权以及权限有效期信息在内的数据。
进一步,本发明中网络安全设备日志数据是指,例如云平台堡垒机等安全设备记录下的包含用户每日操作的具体信息如时间、服务器IP、使用指令、系统账号等内容的大量相关数据。
进一步,本发明中网络安全设备一段时间内的用户日志数据是指150天内的历史日志数据,所述步骤6中近期用户日志数据是指最近一周内的用户日志数据,均为网络安全设备上包含用户操作时的操作时间、所在服务器、所用账号以及操作指令在内的有效字段的日志数据,有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个字段,包括:操作时间、进程ID、系统账号ID、真实姓名即堡垒机账号ID、通过堡垒机连接的服务器IP、完整命令字符串、命令参数部分、命令指令部分、命令中出现的远程连接地址。
进一步,本发明中所提到的用户画像是指对现实世界中用户的一种数据化建模的方法。在步骤5.2中使用UPk={L1,L2,…,L8}来表示,使用一组八维的数字来描述用户在活跃度、工作复杂度、指令使用偏好等八个特征维度上的典型特点。
进一步,步骤6中提到的跳变度H是用来衡量用户一段时间内分组匹配结果的变化频繁程度;违规度I则用来衡量用户被匹配为高危用户组的频繁程度。这两个值越高,用户发生异常的可能性越大。
进一步,分析所用用户日志数据的周数N以及预警的概率阈值由人工设定,也可通过机器学习模型得到。
本发明还提供了一种基于网络安全设备日志数据的用户画像分组及行为分析系统,包括数据获取模块、特征提取模块、分析模块、警告和可视化模块四个模块,可分析出云平台用户的行为特征与用户画像,通过警告决策和可视化展示对高危用户发出警告,其特征在于,包括:
数据获取模块,从网络安全设备获取用户权限数据与用户日志数据;
特征提取模块,从用户权限数据中提取与用户权限相关的服务器权限、系统账号权限,从用户日志数据中提取与用户行为相关的操作频次特征、账号与设备使用特征、操作指令使用特征、越权操作特征;
分析模块,基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签,并根据类标签建立各组用户画像特征库,绘制各个特征维度上的累计分布图,根据图中各组的特征值数值分布特点获得各组的用户画像,并对高危用户画像进行标记;
警告和可视化模块,根据分析模块中获得的用户画像,对最近数周的用户特征进行匹配,并计算用户跳变度和违规度,从而对是否发出高危用户预警做出自动决策,并且对各用户分组匹配结果与用户危险程度进行可视化呈现。
与现有技术相比,本发明的有益效果是:
1.在用户行为分析过程中,只需要网络安全设备上自动记录的用户权限数据和日志数据,不需要其他专门产生的数据,也不需要具体的人工标记,从而该方法具有很低的人力和财力的花销。
2.使用的聚类算法的本身结构决定该算法简单容易实现,同时具有低的时间复杂度,降低了计算开销。
3.在对异常用户作出预警决策时采用了违规度和跳变度双度量的方法,既提高了结果的可靠性,也实现了对用户异常程度的定量化描述。
附图说明
图1是本发明的基于网络安全设备日志数据的用户画像分组及行为分析方法框图。
图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架图。
图3是网络安全设备用户权限数据实例。
图4是网络安全设备日志数据实例。
图5是累计分布图在一个特征维度上的示例。
图6是实时分析的可视化结果。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明中的方法将分为离线建模和在线分析两部分说明,具体包括数据获取过程、特征提取过程、聚类模型建立过程,在线用户行为分析过程。图1是本发明的基于网络安全设备日志数据的用户画像分组及行为分析方法框图。本发明中的系统以框图形式予以说明。图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架图。
数据获取过程
图3是网络安全设备用户权限数据实例。图4是网络安全设备用户日志数据实例。数据获取具体过程如下:
(1)通过Linux下载指令,以固定格式从数据源下载所需用户权限数据;
(2)通过Linux下载指令,以固定格式从数据源下载用户日志数据中的所需字段。
特征提取过程
通过批量数据处理和文本挖掘等技术,参考网络安全设备用户权限信息对网络安全设备日志数据中有效字段进行特征提取。具体特征提取过程如下:
(1)如图4中用户日志数据所示,依据日志数据中的“操作时间”字段提取操作频次类特征:依据历史日志数据中的“操作时间”字段提取操作频次类特征:将单日内的24小时划分为0点~8点、8点~12点、12点~14点、14点~18点、18点~24点五个时段,8点~12点和14点~18点这两个时段上记作“工作时间”进行后序统计,0点~8点、12点~14点、18点~24点这三个时段记作“休息时间”进行后序统计。然后,通过统计历史日志中,每个用户每日工作时间、休息时间的操作次数,分别对其求取平均值,可以获得工作时间日均操作次数、休息时间日均操作次数两个用户特征。相似地,将周一至周五记作“工作日”进行后序统计,将周六与周日的用户操作作为“休息日”进行后序统计。通过统计历史日志中,每个用户每个工作日、休息日的操作次数,分别对其求取平均值,又可以得到工作日均操作次数、休息日日均操作次数两个用户特征;
(2)依据历史日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征:对通过统计历史日志中,每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目,分别对其按日求取平均值,可以得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征;
(3)依据历史日志数据中的“命令指令部分”有效字段提取操作指令使用类特征:通过识别历史日志中每个用户的指令类别,统计每个用户在各类指令下的操作频次,并计算出各类指令在用户使用过的全部指令中的占比,从而得到使用的各类指令占比,指令类别包括:Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比,使用的Hadoop指令中用户命令、管理命令的占比,使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比,以及未识别指令的占比,最后可获得共18个用户特征;
(4)依据历史日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段提取越权操作类特征:通过提取历史日志中每个用户登录其他系统账号、使用高级权限(“root”权限)、远程登录其他服务器的行为信息,并将其与该用户的权限数据进行对照,统计每个用户越权登录他人账号、服务器,以及私自提权为“root”的次数,从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征;
聚类模型建立过程
具体建立过程如下:
(1)根据用户特征集的聚类分组结果,绘制每个特征维度上每个用户组特征值的累计分布图,选取其中一个特征维度上的累计分布图为例,如图5所示;
(2)根据各特征维度的累计分布图,获得各组用户的典型用户画像。典型行为分析表如表1所示,最终获得的各组用户画像如表2所示。
表1
行为特征 第一类 第二类 第三类 第四类 第五类 第六类 第七类
工作时间活跃度
休息时间活跃度
工作复杂度
Linux指令使用偏好
Hadoop命令使用偏好 较低
SQL指令使用偏好
越权登录他人账号频繁度 较高
越权登录其他服务器频繁度 较高
表2
用户类群 用户画像描述
第一类 UP<sub>1</sub>={3,1,1,1,0,1,4,5}
第二类 UP<sub>2</sub>={1,1,1,1,1,1,1,1}
第三类 UP<sub>3</sub>={3,1,3,5,2,1,1,1}
第四类 UP<sub>4</sub>={3,1,5,1,1,1,5,4}
第五类 UP<sub>5</sub>={5,5,3,1,1,1,1,1}
第六类 UP<sub>6</sub>={1,1,1,1,5,1,1,1}
第七类 UP<sub>7</sub>={1,1,1,1,0,5,1,1}
在线用户行为分析过程
获取网络安全设备的近期用户日志数据,从其中的用户操作日志有效字段中提取用户实时行为特征,根据用户画像对各个用户的当前特征进行分组匹配,然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度,对是否发出用户异常警告做出决策,具体过程如下:
(1)获取网络安全设备最近N周内的用户日志数据,以“周”为单位提取用户特征;
(2)使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配,确定每个用户特征的分组标记;
(3)将每位用户最近一周的用户组标记与N周内的历史标记进行对比,其中被标记为高危用户组的次数与周数N的比值为违规度I,N周内用户组标记的变化次数(相邻两周的用户标记不同即为一次变化)与N-1的比值为跳变度H;
(4)基于每位用户的跳变度H与违规度I,设置综合预警阈值,对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。
图6是用户分组匹配结果在服务器上在线运行的可视化结果(用户真实姓名不予展示),每个被标记为“1”(label字段,即每行的倒数第二列)的用户都是具有较高风险的异常用户。
综上,本发明从网络安全设备用户日志等数据中提取特征,对特征进行预处理和数据分析,获得特征之间以及特征与用户行为之间的关系,根据用户特征构建用户分组的聚类模型,根据聚类模型建立用户画像,并根据用户特征和用户画像的匹配结果决定用户是否存在行为异常;本发明用户画像分组及行为分析方法和系统,实现简单、计算复杂度低,可以有效减少用户日志中行为分析的计算资源开销,不需要任何额外标记,仅需要网络安全设备自动记录的数据,具有实际应用的优势,提供了具有不同行为模式的用户分组方法和画像匹配方法,同时对用户行为是否存在异常进行了决策性判断。

Claims (10)

1.一种基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,包括:
步骤1,以网络安全设备用户权限数据为数据源,从用户权限数据中提取所有用户的权限信息,包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID;
步骤2,以网络安全设备一段时间内的用户日志数据为数据源,从用户操作日志的有效字段中提取30个用户特征,包括操作频次特征、账号与设备使用特征、操作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特征;
步骤3,根据步骤2中提取到的用户特征,使用特征标准化预处理方法对用户特征进行标准化处理,得到标准化后的用户特征,并记录所有的标准化时用到的信息,即所有特征的平均值与标准差;
步骤4,使用聚类方法,对步骤3中得到的全部用户特征进行聚类,获得聚类模型,并得到具有不同行为特点的用户分组;
步骤5,根据步骤4中的用户分组结果,绘制用户特征在每个特征维度上的累计分布图,并根据累计分布图对每个用户分组的典型特点进行分析,从而产生各个用户分组的用户画像,并将违规特征显著的用户组标记为高危用户组;
步骤6,获取网络安全设备的近期用户日志数据,从其中的用户操作日志有效字段中提取用户实时行为特征,根据步骤4中得到的聚类模型以及各个用户的当前实时特征,对每个用户进行分组匹配,然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度,对是否发出用户异常警告做出决策。
2.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤1中,网络安全设备用户权限数据是指网络安全设备上的包含所有用户的服务器登录权限、系统账号授权以及权限有效期信息在内的数据。
3.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤2中网络安全设备一段时间内的用户日志数据是指150天内的历史日志数据,所述步骤6中近期用户日志数据是指最近一周内的用户日志数据,均为网络安全设备上包含用户操作时的操作时间、所在服务器、所用账号以及操作指令在内的有效字段的日志数据,有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个字段,包括:操作时间、进程ID、系统账号ID、真实姓名即堡垒机账号ID、通过堡垒机连接的服务器IP、完整命令字符串、命令参数部分、命令指令部分、命令中出现的远程连接地址。
4.根据权利要求1或3所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤2和步骤6中,特征提取包括:
(1)依据用户日志数据中的“操作时间”字段提取操作频次类特征:将单日内的24小时划分为0点~8点、8点~12点、12点~14点、14点~18点、18点~24点五个时段,8点~12点和14点~18点这两个时段上记作“工作时间”进行后序统计,0点~8点、12点~14点、18点~24点这三个时段记作“休息时间”进行后序统计;然后,通过统计历史日志中,每个用户每日工作时间、休息时间的操作次数,分别对其求取平均值,获得工作时间日均操作次数、休息时间日均操作次数两个用户特征;采取同样方法,将周一至周五记作“工作日”进行后序统计,将周六与周日的用户操作作为“休息日”进行后序统计;通过统计历史日志中,每个用户每个工作日、休息日的操作次数,分别对其求取平均值,得到工作日均操作次数、休息日日均操作次数两个用户特征;
(2)依据用户日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征:通过统计历史日志中,每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目,分别对其按日求取平均值,得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征;
(3)依据用户日志数据中的“命令指令部分”有效字段提取操作指令使用类特征:通过识别历史日志中每个用户的指令类别,统计每个用户在各类指令下的操作频次,并计算出各类指令在用户使用过的全部指令中的占比,从而得到使用的各类指令占比,指令类别包括:Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比,使用的Hadoop指令中用户命令、管理命令的占比,使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比以及未识别指令的占比,最后获得共18个用户特征;
(4)依据用户日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段以及用户权限数据中提取所有用户的权限信息,提取越权操作类特征:通过提取历史日志中每个用户登录其他系统账号、使用高级权限即“root”权限、远程登录其他服务器的行为信息,并将其与该用户的权限数据进行对照,统计每个用户越权登录他人账号、服务器,以及私自提权为“root”的次数,从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征。
5.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤3中,特征标准化具体包括:
步骤3.1,针对全部用户的每一个特征维度,计算并记录每一个特征值的均值μ与方差σ2
步骤3.2,对每个用户的每个特征x使用公式
Figure FDA0002232127770000031
进行换算,并用所得的x*进行步骤4中模型构建运算。
6.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤4具体包括:
步骤4.1,使用K-means聚类算法,选取不同的分组数K,对得到的用户特征集进行聚类,然后计算所有特征向量到其所属类的类中心的欧式距离之和θ,使用所有K值与其对应θ值绘制横轴为K、纵轴为θ的曲线,选取曲线斜率绝对值变化程度最大的一点,该点对应的K*值即为应选择的分组数;
步骤4.2,确定分组数K*后,使用K-means聚类算法对从用户历史日志数据中提取到并进行标准化处理后的用户特征集进行聚类,得到用户的K*个分组,并按照每个用户特征向量的类标记将其分入各个特征向量组,从而得到分组后的用户画像特征库,并保留该K-means聚类算法模型。
7.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤5具体包括:
步骤5.1,根据用户特征集的聚类分组结果,绘制每个特征维度上每个用户组特征值的累计分布图,具体方法是:针对每个特征维度构建累积分布图,累计分布图的横坐标X代表了一个阈值,并根据该维度上全部特征值的具体大小选择合适的横轴取值范围;纵坐标y(X)代表累计分布值,记录了所有用户中该特征下取值小于阈值X的用户占比;设此时有K个用户分组,将这K个用户组在该特征下可能的取值标记为x1,x2,…,xK,并且设各分组内用户个数为Ω12,…,ΩK,那么该累计分布图中第k组的累计分布曲线纵坐标为
Figure FDA0002232127770000041
其中X为横坐标的取值;num(xk<X)表示的是第k组用户中,在该特征下,取值小于X的用户数目;因此yk(X)代表了第k组用户中,在该特征下,取值小于取值小于X的用户在第k组用户中的占比,由此得到不同分组用户特征在该维度上的累计分布曲线y1,y2,…,yk
步骤5.2,根据各特征维度的累计分布图,获得各组用户的典型用户画像,具体方法为:首先将步骤2和步骤6中提到的30个特征进行划分,将这30个特征映射至8个用户画像维度,每个特征属于某一个用户画像维度,分别为:工作时间活跃度、休息时间活跃度、工作复杂度、Linux指令使用偏好、Hadoop命令使用偏好、SQL指令使用偏好、账号越权频繁度、服务器越权频繁度;通过分析步骤5.1中获得的各个特征的累积分布图,将每个用户画像维度的分布划分为低、较低、中、较高、高5个等级,表示为L={low,medium low,medium,mediumhigh,high},并简化为L={0,1,2,3,4,5},用以描述各组用户在这8个用户画像维度上的行为特点,进而第k个分组的用户的画像表示成UPk={L1,L2,…,L8},其中Li代表该分组在第i个用户画像维度的等级;
步骤5.3,将在账号越权频繁度、服务器越权频繁度这两个画像特征上具有“高”或“较高”数值水平的用户画像标记为高危用户画像,符合该画像的用户组即为高危用户组。
8.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤6具体包括:
步骤6.1,获取网络安全设备最近N周内的用户日志数据,以“周”为单位提取用户特征,并同样利用步骤3中获得的各个特征的平均值和标准差,按相同方法对这些特征进行标准化处理;
步骤6.2,使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配,确定每个用户特征的分组标记;
步骤6.3,将每位用户最近一周的用户组标记与N周内的历史标记进行对比,其中被标记为高危用户组的次数与周数N的比值为违规度I,N周内用户组标记的变化次数与N-1的比值为跳变度H,用户在相邻两周的用户组标记不同即为一次变化;
步骤6.4,基于每位用户的跳变度H与违规度I,设置综合预警阈值,对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。
9.根据权利要求8所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,分析所用用户日志数据的周数N以及预警的概率阈值由人工设定,或通过机器学习模型得到。
10.一种基于网络安全设备日志数据的用户画像分组及行为分析系统,包括数据获取模块、特征提取模块、分析模块、警告和可视化模块四个模块,可分析出云平台用户的行为特征与用户画像,通过警告决策和可视化展示对高危用户发出警告,其特征在于:
数据获取模块,从网络安全设备获取用户权限数据与用户日志数据;
特征提取模块,从用户权限数据中提取与用户权限相关的服务器权限、系统账号权限,从用户日志数据中提取与用户行为相关的操作频次特征、账号与设备使用特征、操作指令使用特征、越权操作特征;
分析模块,基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签,并根据类标签建立各组用户画像特征库,绘制各个特征维度上的累计分布图,根据图中各组的特征值数值分布特点获得各组的用户画像,并对高危用户画像进行标记;
警告和可视化模块,根据分析模块中获得的用户画像,对最近数周的用户特征进行匹配,并计算用户跳变度和违规度,从而对是否发出高危用户预警做出自动决策,并且对各用户分组匹配结果进行可视化呈现。
CN201910971176.4A 2019-10-14 2019-10-14 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统 Pending CN110781930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910971176.4A CN110781930A (zh) 2019-10-14 2019-10-14 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910971176.4A CN110781930A (zh) 2019-10-14 2019-10-14 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统

Publications (1)

Publication Number Publication Date
CN110781930A true CN110781930A (zh) 2020-02-11

Family

ID=69386170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910971176.4A Pending CN110781930A (zh) 2019-10-14 2019-10-14 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统

Country Status (1)

Country Link
CN (1) CN110781930A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400764A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 个人信息保护的风控模型训练方法、风险识别方法及硬件
CN111507878A (zh) * 2020-04-08 2020-08-07 北京信息科技大学 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN111597549A (zh) * 2020-04-17 2020-08-28 国网浙江省电力有限公司湖州供电公司 一种基于大数据的网络安全行为识别方法及系统
CN111737688A (zh) * 2020-06-08 2020-10-02 上海交通大学 基于用户画像的攻击防御系统
CN111784069A (zh) * 2020-07-09 2020-10-16 平安国际智慧城市科技股份有限公司 用户偏好预测方法、装置、设备及存储介质
CN111815375A (zh) * 2020-09-04 2020-10-23 北京悠易网际科技发展有限公司 广告投放中的用户画像方法及装置
CN111861545A (zh) * 2020-06-22 2020-10-30 国家计算机网络与信息安全管理中心 用户行为画像的构建方法、装置、设备及存储介质
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN111966995A (zh) * 2020-08-17 2020-11-20 福建工程学院 一种基于用户行为的用户权限动态管控方法和装置以及设备
CN112087448A (zh) * 2020-09-08 2020-12-15 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112306982A (zh) * 2020-11-16 2021-02-02 杭州海康威视数字技术股份有限公司 异常用户检测方法、装置、计算设备及存储介质
CN112559479A (zh) * 2020-12-23 2021-03-26 北京明朝万达科技股份有限公司 日志数据处理方法及装置
CN112804196A (zh) * 2020-12-25 2021-05-14 北京明朝万达科技股份有限公司 日志数据的处理方法及装置
CN112990323A (zh) * 2021-03-23 2021-06-18 李光伟 基于大数据线上模式的用户画像挖掘方法及机器学习系统
CN113377718A (zh) * 2021-05-24 2021-09-10 石化盈科信息技术有限责任公司 日志信息处理方法、装置、计算机设备及存储介质
CN114024734A (zh) * 2021-11-01 2022-02-08 中国华电集团有限公司 基于ueba的智能网络安全检测分析系统
CN114254716A (zh) * 2022-03-02 2022-03-29 浙江鹏信信息科技股份有限公司 一种基于用户行为分析的高危操作识别方法及系统
CN114466009A (zh) * 2021-12-22 2022-05-10 天翼云科技有限公司 数据处理方法、边缘超融合端、云端及可读存储介质
CN114866351A (zh) * 2022-07-06 2022-08-05 湖南创星科技股份有限公司 一种基于区块链的区域医疗处方监管方法及平台
CN115174226A (zh) * 2022-07-05 2022-10-11 常州信安网络科技有限公司 基于人工智能和大数据的用户行为预测方法、设备、介质及产品
CN115604000A (zh) * 2022-10-12 2023-01-13 中国电信股份有限公司(Cn) 一种越权检测方法、装置、设备及存储介质
CN116647836A (zh) * 2023-07-27 2023-08-25 深圳市芯保迪电子科技有限公司 一种基于5g通信技术的网络安全智能监控系统及方法
CN116980239A (zh) * 2023-09-25 2023-10-31 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119326A (zh) * 2006-08-04 2008-02-06 腾讯科技(深圳)有限公司 一种即时通信会话记录的管理方法及装置
CN102325062A (zh) * 2011-09-20 2012-01-18 北京神州绿盟信息安全科技股份有限公司 异常登录检测方法及装置
US20160034558A1 (en) * 2014-07-31 2016-02-04 International Business Machines Corporation Generating a clustering model and clustering based on the clustering model
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN107229849A (zh) * 2016-03-24 2017-10-03 全球能源互联网研究院 面向电力信息内外网边界的数据库用户行为安全审计方法
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN109471846A (zh) * 2018-11-02 2019-03-15 中国电子科技网络信息安全有限公司 一种基于云日志分析的云上用户行为审计系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119326A (zh) * 2006-08-04 2008-02-06 腾讯科技(深圳)有限公司 一种即时通信会话记录的管理方法及装置
CN102325062A (zh) * 2011-09-20 2012-01-18 北京神州绿盟信息安全科技股份有限公司 异常登录检测方法及装置
US20160034558A1 (en) * 2014-07-31 2016-02-04 International Business Machines Corporation Generating a clustering model and clustering based on the clustering model
CN105450497A (zh) * 2014-07-31 2016-03-30 国际商业机器公司 生成聚类模型以及基于该聚类模型进行聚类的方法和装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN107229849A (zh) * 2016-03-24 2017-10-03 全球能源互联网研究院 面向电力信息内外网边界的数据库用户行为安全审计方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN109471846A (zh) * 2018-11-02 2019-03-15 中国电子科技网络信息安全有限公司 一种基于云日志分析的云上用户行为审计系统及方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400764A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 个人信息保护的风控模型训练方法、风险识别方法及硬件
CN111507878A (zh) * 2020-04-08 2020-08-07 北京信息科技大学 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN111507878B (zh) * 2020-04-08 2023-06-02 北京信息科技大学 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN111597549A (zh) * 2020-04-17 2020-08-28 国网浙江省电力有限公司湖州供电公司 一种基于大数据的网络安全行为识别方法及系统
CN111737688A (zh) * 2020-06-08 2020-10-02 上海交通大学 基于用户画像的攻击防御系统
CN111737688B (zh) * 2020-06-08 2023-10-20 上海交通大学 基于用户画像的攻击防御系统
CN111861545B (zh) * 2020-06-22 2022-10-18 国家计算机网络与信息安全管理中心 用户行为画像的构建方法、装置、设备及存储介质
CN111861545A (zh) * 2020-06-22 2020-10-30 国家计算机网络与信息安全管理中心 用户行为画像的构建方法、装置、设备及存储介质
CN111784069A (zh) * 2020-07-09 2020-10-16 平安国际智慧城市科技股份有限公司 用户偏好预测方法、装置、设备及存储介质
CN111784069B (zh) * 2020-07-09 2023-11-14 平安国际智慧城市科技股份有限公司 用户偏好预测方法、装置、设备及存储介质
CN111898031B (zh) * 2020-08-14 2024-04-05 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN111966995A (zh) * 2020-08-17 2020-11-20 福建工程学院 一种基于用户行为的用户权限动态管控方法和装置以及设备
CN111815375A (zh) * 2020-09-04 2020-10-23 北京悠易网际科技发展有限公司 广告投放中的用户画像方法及装置
CN112087448B (zh) * 2020-09-08 2023-04-14 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112087448A (zh) * 2020-09-08 2020-12-15 南方电网科学研究院有限责任公司 安全日志提取方法、装置和计算机设备
CN112306982A (zh) * 2020-11-16 2021-02-02 杭州海康威视数字技术股份有限公司 异常用户检测方法、装置、计算设备及存储介质
CN112559479A (zh) * 2020-12-23 2021-03-26 北京明朝万达科技股份有限公司 日志数据处理方法及装置
CN112804196A (zh) * 2020-12-25 2021-05-14 北京明朝万达科技股份有限公司 日志数据的处理方法及装置
CN112990323A (zh) * 2021-03-23 2021-06-18 李光伟 基于大数据线上模式的用户画像挖掘方法及机器学习系统
CN113377718A (zh) * 2021-05-24 2021-09-10 石化盈科信息技术有限责任公司 日志信息处理方法、装置、计算机设备及存储介质
CN114024734A (zh) * 2021-11-01 2022-02-08 中国华电集团有限公司 基于ueba的智能网络安全检测分析系统
CN114466009A (zh) * 2021-12-22 2022-05-10 天翼云科技有限公司 数据处理方法、边缘超融合端、云端及可读存储介质
CN114254716B (zh) * 2022-03-02 2022-05-27 浙江鹏信信息科技股份有限公司 一种基于用户行为分析的高危操作识别方法及系统
CN114254716A (zh) * 2022-03-02 2022-03-29 浙江鹏信信息科技股份有限公司 一种基于用户行为分析的高危操作识别方法及系统
CN115174226A (zh) * 2022-07-05 2022-10-11 常州信安网络科技有限公司 基于人工智能和大数据的用户行为预测方法、设备、介质及产品
CN115174226B (zh) * 2022-07-05 2024-05-03 北京鉴微知著智能科技有限公司 基于人工智能和大数据的用户行为预测方法、设备、介质及产品
CN114866351A (zh) * 2022-07-06 2022-08-05 湖南创星科技股份有限公司 一种基于区块链的区域医疗处方监管方法及平台
CN115604000A (zh) * 2022-10-12 2023-01-13 中国电信股份有限公司(Cn) 一种越权检测方法、装置、设备及存储介质
CN115604000B (zh) * 2022-10-12 2023-11-21 中国电信股份有限公司 一种越权检测方法、装置、设备及存储介质
CN116647836A (zh) * 2023-07-27 2023-08-25 深圳市芯保迪电子科技有限公司 一种基于5g通信技术的网络安全智能监控系统及方法
CN116647836B (zh) * 2023-07-27 2023-10-03 深圳市芯保迪电子科技有限公司 一种基于5g通信技术的网络安全智能监控系统及方法
CN116980239A (zh) * 2023-09-25 2023-10-31 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统
CN116980239B (zh) * 2023-09-25 2023-11-24 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统

Similar Documents

Publication Publication Date Title
CN110781930A (zh) 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN106778259B (zh) 一种基于大数据机器学习的异常行为发现方法及系统
CN110677430B (zh) 基于网络安全设备日志数据的用户风险度评估方法和系统
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与系统
CN107516282A (zh) 三查合一的土地变更调查信息管理系统
CN110765087A (zh) 一种基于网络安全设备日志数据的用户账户滥用审计方法和系统
CN109525595A (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN105204922B (zh) 一种数据采集平台客户端采集方法
CN115150589A (zh) 一种用于煤矿企业的视频监控运维管理系统
CN111127689A (zh) 一种用于对无人机巡检业务进行管控的系统及方法
CN107844914B (zh) 基于集团管理的风险管控系统和实现方法
CN115080546B (zh) 一种基于大数据的企业数据诊断系统
CN111222784A (zh) 一种基于人口大数据的安防监控方法和系统
CN113868509A (zh) 基于云计算的科技政策数据信息咨询服务系统
CN113988573A (zh) 基于电力系统巡检无人机的风险判断方法、系统和介质
CN113159517B (zh) 一种三维可视化电网运行数据分析系统
CN116720174B (zh) 一种基于oa办公系统的账户生成权限智能分类监管方法
CN113176968A (zh) 基于接口参数分类的安全测试方法、装置及存储介质
CN112883380A (zh) 智慧教育平台的大数据组件安全风险分析方法及系统
CN111831817A (zh) 问卷生成分析方法、装置、计算机设备及可读存储介质
CN116070193A (zh) 一种运维人员权限审计方法、系统及存储介质
CN115174205A (zh) 一种网络空间安全实时监测方法、系统及计算机存储介质
CN113486115A (zh) 一种基于大数据的人才信息管理系统
CN108666928B (zh) 一种电力通信站巡视优化方法
CN112785425A (zh) 一种分布式的智能经济管理系统及管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200211