CN117909912B - 一种两阶段异常用户行为分析的检测方法及系统 - Google Patents

一种两阶段异常用户行为分析的检测方法及系统 Download PDF

Info

Publication number
CN117909912B
CN117909912B CN202410312729.6A CN202410312729A CN117909912B CN 117909912 B CN117909912 B CN 117909912B CN 202410312729 A CN202410312729 A CN 202410312729A CN 117909912 B CN117909912 B CN 117909912B
Authority
CN
China
Prior art keywords
user
data
behavior
abnormal
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410312729.6A
Other languages
English (en)
Other versions
CN117909912A (zh
Inventor
顾钊铨
曹钰
陈翊璐
贾焰
廖清
王昊
杜磊
张明瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202410312729.6A priority Critical patent/CN117909912B/zh
Publication of CN117909912A publication Critical patent/CN117909912A/zh
Application granted granted Critical
Publication of CN117909912B publication Critical patent/CN117909912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及计算机与人工智能技术领域,特别涉及一种两阶段异常用户行为分析的检测方法及系统。其方法包括步骤:S1.数据特征处理:在获取用户行为信息及用户身份信息后将数据进行特征处理;S2.建立基准模型:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;S3.细粒度检测:对基准模型找出的存在异常用户进行细粒度的第二阶段检测。本发明在第一阶段的基准模型实现行为级异常的检测,并能按时间顺序依次检测每周用户的行为情况,在第二阶段进行细粒度的用户级异常的检测,找出异常行为与用户的对应关系,更准确、更高比例地找出异常行为和用户并减少误报。

Description

一种两阶段异常用户行为分析的检测方法及系统
技术领域
本发明涉及计算机与人工智能技术领域,特别涉及一种两阶段异常用户行为分析的检测方法及系统。
背景技术
互联网的发展使得企业数据激增,伴随而来的是新兴重大安全挑战。企业外部攻击者劫持员工身份或盗取用户账户密码展开攻击行为,内部员工疏忽大意造成企业信息泄露,安全人员人力不足以防范内外部攻击等等问题都使得传统安全技术受到巨大挑战。传统安全技术以“特征”为核心进行检测分析,基于已知的特征和规则进行匹配,这种方式存在滞后性,因此用户实体行为分析应运而生。用户实体行为分析指通过基本分析方法和高级分析方法,从用户的行为出发,挖掘与用户标准行为或画像相异的潜在事件,其中基本分析方法包括基于签名的规则、模式匹配、简单统计、阈值等,高级分析方法包括监督和无监督的机器学习等。用户实体行为分析研究可帮助企业减少内部威胁,及早发现异常用户,识别与正常用户行为不符的异常行为,预防源自企业内部的人员造成的数据泄露,防止未经授权的访问和权限滥用情况,还可以帮助员工进行安全评估,可以帮助企业更好地发现安全问题,降低安全风险,提高整体安全性。
在用户实体行为分析中,现有技术集中于关注对异常行为的识别分析,考虑对异常行为的检测准确性,但少数未被检出的异常行为可能对应多个异常用户未被检测到。现实的情况是企业不仅关注行为级的异常检测,更关注产生异常行为的用户,并关注该用户相关的所有异常行为。
在现有的用户实体行为分析技术中,公开号为CN116070206B的专利提供了一种异常行为检测方法,提取行为会话特征数据训练行为序列算法模型,并结合统计算法进行异常检测,考虑的是追踪异常行为轨迹、抓取异常行为统计特征。
公开号为CN117057929A的专利提供了一种异常用户行为检测方法、装置、设备及存储介质,该方法将前后端数据分别输入预设的二部图推理模型,从而实现了在端侧识别异常用户行为。
公开号为CN112989332A的专利提供了一种异常用户行为检测方法和装置,该方法根据用户历史数据中各软件使用次数判断用户角色类型是否变化,根据用户行为数据判断待检测用户的行为类型是否发生变化,进而检测异常用户。
现有技术有单独考虑异常行为检测的,也有单独考虑异常用户检测的,但鲜有将异常行为与异常用户结合起来进行检测分析的。不将异常行为与异常用户结合起来共同分析将导致少数漏检的异常行为对应大量异常用户漏检、异常用户检出但其具体各项行为检测效率低等问题。
发明内容
本发明提供一种两阶段异常用户行为分析的检测方法及系统,旨在解决异常行为检测情况无法与异常用户相对应的问题。
本发明提供一种两阶段异常用户行为分析的检测方法,包括步骤:
S1.数据特征处理:在获取用户行为信息及用户身份信息后将数据进行特征处理;
S2.建立基准模型:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;
S3.细粒度检测:对基准模型找出的存在异常用户进行细粒度的第二阶段检测。
作为本发明的进一步改进,所述步骤S1中,数据特征处理过程包括:
S11.将所有用户的所有行为数据合并为一个统一的文件,以统一的属性进行记录;
S12.根据用户不同行为进行特征构造;
S13.根据用户身份信息和工作时间进行数据特征构造;
S14.完成所有特征构造后,对数据进行自然数编码,将文本属性映射为数字,并根据行为时间提取时间特征记录行为发生所处的时间段;
S15.编码后的数据按照不同时间段拆分为时间段数据子集,把同一时间段的用户行为数据放同一个以时间段命名的文件;编码后的数据按不同用户拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测。
作为本发明的进一步改进,所述步骤S12中,根据用户不同行为进行特征构造的过程,包括以下情形:
对于用户发送电子邮件的行为,统计收件人数量、密送人数量、邮件内容长度、邮件内容单词数量,并分析是否为外部邮件以及是否为外部密送邮件,并设置相应标签;
对于用户将文件拷贝到可移动媒体设备的行为,统计文件大小、单词数量、文件地址深度信息,并记录文件类型、是否为附件以及附件类型信息;
对于用户上网行为涉及的HTTP行为数据,记录URL长度、URL深度、内容长度、内容单词数量,并根据域名进行网站分析,设置标签记录用户HTTP行为所访问的网站类别。
作为本发明的进一步改进,所述步骤S13中,根据用户身份信息进行数据特征构造,包括以下情形:
对操作设备的使用情况进行统计,并根据用户身份信息中的职位信息识别用户与操作设备的对应关系,识别用户行为时的操作设备来源。
作为本发明的进一步改进,所述步骤S13中,根据用户工作时间进行数据特征构造,具体包括:
根据用户行为的发生时间是否为正常工作时间提取工作时间危险性评级特征。
作为本发明的进一步改进,所述步骤S2中,建立基准模型过程包括:
S21.分析所有用户的行为开始的时间段和结束的时间段,以统一标准选取时间段区间内的数据输入基准模型;
S22.组成基准模型训练集数据的时间段需低于最早结束所有行为的用户的时间段,对训练集数据进行数据过拟合与欠拟合结合处理,处理后的数据作为训练集输入随机森林模型训练检测异常用户行为的基准模型;
S23.按时间段顺序依次输入剩余数据作为测试集,模拟按时间段对用户行为进行检测;
S24.若在某一时间段内检测出用户行为存在问题,则在该时间段内对该异常行为对应的用户进行第二阶段的细粒度检测。
作为本发明的进一步改进,所述步骤S3中,细粒度检测包括:
S31.对存在异常用户数据进行训练集和测试集划分,划分后对训练集进行数据过拟合处理,若训练集中没有标签为异常行为则对数据不进行数据过拟合处理;
S32.处理后使用随机森林模型进行训练,搭建以该用户自身数据训练的用户级行为模型,最后以该用户的测试数据测试模型性能,通过多个性能指标评估模型的检测情况。
本发明还提供一种两阶段异常用户行为分析的检测系统,包括:
数据特征处理模块:在获取用户行为信息及用户身份信息后将数据进行特征处理;
基准模型建立模块:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;
细粒度检测模块:对基准模型找出的存在异常用户进行细粒度的第二阶段检测。
本发明还提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述两阶段异常用户行为分析的检测方法。
本发明还提供一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述两阶段异常用户行为分析的检测方法。
本发明的有益效果是:现有用户实体行为分析技术集中于检测行为级异常,但行为级检测的高准确性不代表用户级异常检测的高准确性。本发明能通过两阶段的异常用户行为分析的检测,在第一阶段的基准模型实现行为级异常的检测,并能按时间顺序依次检测每周用户的行为情况,在第二阶段进行细粒度的用户级异常的检测,找出异常行为与用户的对应关系,更准确、更高比例地找出异常行为和用户并减少误报。
附图说明
图1是本发明两阶段异常用户行为分析的检测方法的流程图;
图2是本发明两阶段异常用户行为分析的检测系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明的一种两阶段异常用户行为分析的检测方法及系统,可应用于辅助企业检测异常用户与行为、分析内部用户行为、预警内部威胁。
具体的,本发明基于随机森林算法,提出一种两阶段的异常用户行为分析的检测方法及系统,在获取用户行为信息及用户身份信息后将数据进行特征处理,之后分析用户行为的时间分布情况选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,根据找出的异常行为提取对应的用户进行第二阶段细粒度的检测。
在两阶段的异常用户行为分析的检测方法及系统中,本发明充分考虑用户行为数据普遍存在的数据不平衡的问题,通过分析后采取一定比例的过拟合与欠拟合结合的方式对数据进行处理,以平衡正负样本比例,提高模型检测准确性。
本发明通过两阶段的结合检测,解决了异常行为检测情况无法与异常用户相对应的问题,不仅能分析所有异常行为的检测情况,还能分析每个异常用户的正常行为与异常行为的检测情况。同时,通过两阶段的结合检测,大大减少了正常用户、正常行为的误检情况。
实施例一:
如图1所示,本发明实施例提供一种两阶段异常用户行为分析的检测方法,其特征在于,包括步骤:
S1.数据特征处理:在获取用户行为信息及用户身份信息后将数据进行特征处理。
在步骤S1中,数据特征处理部分包括统一集成用户不同行为数据、根据用户不同行为进行特征构造、根据用户身份信息和工作时间进行数据特征构造、数据拆分四个部分。数据特征处理过程如下:
S11.将所有用户的所有行为的数据合并为一个统一的文件,以统一的属性进行记录。
S12.根据用户行为的不同构造不同的特征,如对涉及邮件发送的行为可统计收件人数量、邮件长度、是否为外部邮件等信息。
S13.根据用户身份信息和工作时间也可构造数据特征,如对PC的使用情况进行统计,并根据用户身份信息中的职位信息可识别用户与PC的对应关系,从而识别用户行为时的PC来源。根据用户行为的发生时间是否为正常工作时间提取工作时间危险性评级特征。
S14.完成所有特征构造后,对数据进行自然数编码,将文本属性映射为数字,并根据行为时间提取日、周等时间特征记录行为发生所处的日数、周数。
S15.编码后的数据按照不同周数拆分为周数据子集,把同一周的用户行为数据放同一个以周数命名的文件。编码后的数据还按不同用户拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测。
S2.建立基准模型:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户。
在步骤S2中,需要建立基准模型并按周为时间粒度对行为数据进行检测分析,找出存在异常用户。这个过程包括分析用户行为时间、根据分析选取部分数据作为历史数据训练基准模型、测试数据按周输入、存在异常用户传给细粒度模型进行第二阶段检测。过程如下:
S21.分析所有用户的行为开始的周数和结束的周数,以统一标准选取数据输入基准模型。
S22.组成基准模型训练集数据的周数需低于最早结束所有行为的用户的周数,由此可确保第一阶段的检测不会有用户因为行为结束早不存在于测试集中而不被检测。同时,选取时间在前周数的数据组成训练集以代表用户过去的历史数据训练模型,更符合现实的情况。对训练集数据进行数据过拟合与欠拟合结合处理,处理后的数据作为训练集输入随机森林模型训练检测异常用户行为的基准模型。
S23.按周依次输入剩余数据作为测试集,模拟按周对用户行为进行检测。
S24.在某一周检测出用户行为存在问题,则在当周使用细粒度模型对该用户进行用户级异常行为分析检测,即对该异常行为对应的用户进行第二阶段的细粒度检测。
S3.细粒度检测:对基准模型找出的存在异常用户进行细粒度的第二阶段检测。
在步骤S3中,需要对基准模型找出的存在异常用户进行细粒度的第二阶段检测。这个过程包括数据过拟合、用户级异常行为检测两个部分。过程如下:
S31.对该用户数据进行训练集和测试集划分,划分后对训练集进行数据过拟合处理,若训练集中没有标签为异常行为对数据则不进行数据过拟合处理;
S32.处理后使用随机森林模型进行训练,搭建以该用户自身数据训练的用户级行为模型,最后以该用户的测试数据测试模型性能,通过多个性能指标评估模型的检测情况。
实施例二:
结合实际操作,对本发明一种两阶段异常用户行为分析的检测方法的实施流程进行详细说明。
步骤S1.数据特征处理。
101.获取异常用户数据,将其中包含的行为数据文件集成,集成后以统一的属性描述所有行为。
102.针对不同的行为进行不同的特征处理,如对于用户发送电子邮件的行为,可以统计收件人数量、密送人数量、邮件内容长度、邮件内容单词数量,并分析是否为外部邮件以及是否为外部密送邮件,并设置相应标签。对于用户将文件拷贝到可移动媒体设备的行为,统计文件大小、单词数量、文件地址深度信息,并记录文件类型、是否为附件以及附件类型信息。对于用户上网行为涉及的HTTP行为数据,记录URL长度、URL深度、内容长度、内容单词数量,并根据域名进行网站分析,设置标签记录用户HTTP行为所访问的网站类别。
103.根据用户身份信息和工作时间构造数据特征,以数组记录每个用户与其个人PC的对应,以及公共PC。可根据PC对应关系提取特征PC记录行为使用的PC归属。根据用户行为的发生时间是否为周末及是否在正常工作时间点内进行评级,记录为特征act_time。
104.完成特征构造后,对数据进行类型转换,转换为int类型的数据,如对行为、用户进行自然数编码等。根据行为时间提取日、周等时间特征记录行为发生所处的日数、周数。
105.编码后的数据按照周数不同拆分为周数据子集,把同一周的用户行为数据放同一个以周数命名的文件。编码后的数据还按用户不同拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测。
步骤S2.建立基准模型。
201.统计所有用户的行为最早的周数和最晚的周数,共k周数据,所有用户最早结束行为的是在第m周,因此选取前n(n<m)周的数据用于基准模型训练。
202.通过对数据集中正负样本量的统计,发现数据不平衡情况极其严重,经过实验发现数据不平衡情况会严重影响模型的性能。因此,对选取的前n周数据进行数据过拟合,过拟合程度不宜过高,过高会偏离现实情况。
203.过拟合后的前n周数据构成训练集,输入随机森林模型中训练基准模型,随机森林模型对数据不平衡问题具有健壮性,不易受影响。
204.将第n+1~k周的用户行为数据一周一周地输入训练好的基准模型进行检测。
205.若检测出异常行为,则对该异常行为对应的用户进行第二阶段的细粒度检测。
步骤S3.细粒度检测。
301.将基准模型检测出异常的用户的用户名加入用户名列表,记录该用户已被检测过。
302.将用户数据进行分层7:3划分,将用户数据中70%的异常数据及70%的正常数据加入训练集中,由此避免训练集中没有异常数据的情况,剩余数据作为测试集。
303.对训练集中数据进行过拟合处理,或进行更低比例的数据过拟合与一定比例的数据欠拟合处理结合,以实现类似过拟合所达到的效果。
过拟合处理和欠拟合处理的结合是,先划分数据的训练集和测试集,对训练集中的数据进行指定比例(指定比例可以为0.1)的SMOTE算法过拟合处理或随机过拟合处理,使得训练集中的负样本比例能够达到0.1。欠拟合则是在负样本过少的情况下,通过随机选取一定比例的正样本删除,以平衡正负样本的比例。
304.将训练集输入随机森林模型,训练出用户级行为模型,该模型以该用户部分数据训练得到,因此模型更拟合该用户的行为习惯,对于检测该用户的异常行为、区分该用户的正常行为具有更高的准确性。
305.将测试集输入训练后的用户级行为模型进行测试,以准确率、精度、召回率、假阳性率、F1-Score(F1分数)等多个参数对模型检测情况进行评估。
实施例三:
如图2所示,本发明实施例还提供的一种两阶段异常用户行为分析的检测系统,包括:
数据特征处理模块1:在获取用户行为信息及用户身份信息后将数据进行特征处理;
基准模型建立模块2:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;
细粒度检测模块3:对基准模型找出的存在异常用户进行细粒度的第二阶段检测。
具体的,数据特征处理模块1包括用户行为数据记录单元11、行为特征构造单元12、身份和时间信息构造单元13、数据编码记录单元14、数据子集存放单元15。
用户行为数据记录单元11:用于将所有用户的所有行为的数据合并为一个统一的文件,以统一的属性进行记录。
行为特征构造单元12:用于根据用户行为的不同构造不同的特征,如对涉及邮件发送的行为可统计收件人数量、邮件长度、是否为外部邮件等信息。
身份和时间信息构造单元13:用于根据用户身份信息和工作时间也可构造数据特征,如对PC的使用情况进行统计,并根据用户身份信息中的职位信息可识别用户与PC的对应关系,从而识别用户行为时的PC来源。根据用户行为的发生时间是否为正常工作时间提取工作时间危险性评级特征。
数据编码记录单元14:用于完成所有特征构造后,对数据进行自然数编码,将文本属性映射为数字,并根据行为时间提取日、周等时间特征记录行为发生所处的日数、周数。
数据子集存放单元15:用于编码后的数据按照不同周数拆分为周数据子集,把同一周的用户行为数据放同一个以周数命名的文件。编码后的数据还按不同用户拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测。
基准模型建立模块2包括用户行为数据输入单元21、训练集数据选取单元22、测试集数据选取单元23、异常行为检测单元24。
用户行为数据输入单元21:用于分析所有用户的行为开始的周数和结束的周数,以统一标准选取数据输入基准模型。
训练集数据选取单元22:用于组成基准模型训练集的数据的周数需低于最早结束所有行为的用户的周数,由此可确保第一阶段的检测不会有用户因为行为结束早不存在于测试集中而不被检测。同时,选取时间在前周数的数据组成训练集以代表用户过去的历史数据训练模型,更符合现实的情况。对训练集数据进行数据过拟合与欠拟合结合处理,处理后的数据作为训练集输入随机森林模型训练检测异常用户行为的基准模型。
测试集数据选取单元23:用于按周依次输入剩余数据作为测试集,模拟按周对用户行为进行检测。
异常行为检测单元24:用于在某一周检测出用户行为存在问题,则在当周使用细粒度模型对该用户进行用户级异常行为分析检测,即对该异常行为对应的用户进行第二阶段的细粒度检测。
细粒度检测模块3包括数据划分处理模块31、模型训练检测模块32。
数据划分处理模块31:用于对异常用户数据进行训练集和测试集划分,划分后对训练集进行数据过拟合处理,若训练集中没有标签为异常行为对数据则不进行数据过拟合处理;
模型训练检测模块32:用于处理后使用随机森林模型进行训练,搭建以该用户自身数据训练的用户级行为模型,最后以该用户的测试数据测试模型性能,通过多个性能指标评估模型的检测情况。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的两阶段异常用户行为分析的检测方法。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
实施例五:
本发明实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述实施例中的两阶段异常用户行为分析的检测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏、输入单元比如键盘等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明将用户实体行为分析中的异常行为检测和异常用户检测联系起来能从两个角度检测异常,而已有的方法都是进行异常行为检测,不单独考虑异常用户的检测情况。本发明既考虑了要实现现有方法已有的异常行为检测,又考虑了现实情况企业更需要检测出异常用户的情况,将异常用户也进行检测并将行为与用户对应起来。
本发明考虑用户实体行为分析时数据集通常都存在严重数据不平衡问题,提出使用数据过拟合或欠拟合的方式平衡数据集以提升模型效果,并使用随机森林算法搭建模型,以减少数据不平衡问题所带来的影响。本发明更全面地考虑现实情况数据不平衡问题为既定事实,因此过拟合或欠拟合后,异常样本的比例仍不宜太高,而通过本发明的两阶段检测,进行数据过拟合时,较小的比例已足够识别异常行为。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种两阶段异常用户行为分析的检测方法,其特征在于,包括步骤:
S1.数据特征处理:在获取用户行为信息及用户身份信息后将数据进行特征处理;
S2.建立基准模型:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;
S3.细粒度检测:对基准模型找出的存在异常用户进行细粒度的第二阶段检测;
所述S1中,数据特征处理过程包括:
S11.将所有用户的所有行为数据合并为一个统一的文件,以统一的属性进行记录;
S12.根据用户不同行为进行特征构造;
S13.根据用户身份信息和工作时间进行数据特征构造;
S14.完成所有特征构造后,对数据进行自然数编码,将文本属性映射为数字,并根据行为时间提取时间特征记录行为发生所处的时间段;
S15.编码后的数据按照不同时间段拆分为时间段数据子集,把同一时间段的用户行为数据放同一个以时间段命名的文件;编码后的数据按不同用户拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测;
所述S2中,建立基准模型过程包括:
S21.分析所有用户的行为开始的时间段和结束的时间段,以统一标准选取时间段区间内的数据输入基准模型;
S22.组成基准模型训练集数据的时间段需低于最早结束所有行为的用户的时间段,对训练集数据进行数据过拟合与欠拟合结合处理,处理后的数据作为训练集输入随机森林模型训练检测异常用户行为的基准模型;
S23.按时间段顺序依次输入剩余数据作为测试集,模拟按时间段对用户行为进行检测;
S24.若在某一时间段内检测出用户行为存在问题,则在该时间段内对异常行为对应的用户进行第二阶段的细粒度检测;
所述S3中,细粒度检测包括:
S31.对存在异常用户数据进行训练集和测试集划分,划分后对训练集进行数据过拟合处理,若训练集中没有标签为异常行为则对数据不进行数据过拟合处理;
S32.处理后使用随机森林模型进行训练,搭建以该用户自身数据训练的用户级行为模型,最后以该用户的测试数据测试模型性能,通过多个性能指标评估模型的检测情况。
2.根据权利要求1所述两阶段异常用户行为分析的检测方法,其特征在于,所述S12中,根据用户不同行为进行特征构造的过程,包括以下情形:
对于用户发送电子邮件的行为,统计收件人数量、密送人数量、邮件内容长度、邮件内容单词数量,并分析是否为外部邮件以及是否为外部密送邮件,并设置相应标签;
对于用户将文件拷贝到可移动媒体设备的行为,统计文件大小、单词数量、文件地址深度信息,并记录文件类型、是否为附件以及附件类型信息;
对于用户上网行为涉及的HTTP行为数据,记录URL长度、URL深度、内容长度、内容单词数量,并根据域名进行网站分析,设置标签记录用户HTTP行为所访问的网站类别。
3.根据权利要求1所述两阶段异常用户行为分析的检测方法,其特征在于,所述S13中,根据用户身份信息进行数据特征构造,包括以下情形:
对操作设备的使用情况进行统计,并根据用户身份信息中的职位信息识别用户与操作设备的对应关系,识别用户行为时的操作设备来源。
4.根据权利要求1所述两阶段异常用户行为分析的检测方法,其特征在于,所述S13中,根据用户工作时间进行数据特征构造,具体包括:
根据用户行为的发生时间是否为正常工作时间提取工作时间危险性评级特征。
5.一种两阶段异常用户行为分析的检测系统,其特征在于,包括:
数据特征处理模块:在获取用户行为信息及用户身份信息后将数据进行特征处理;
基准模型建立模块:分析用户行为的时间分布情况,选取部分特征数据建立基准模型,利用基准模型进行粗粒度的用户行为检测,找出存在异常用户;
细粒度检测模块:对基准模型找出的存在异常用户进行细粒度的第二阶段检测;
数据特征处理模块包括:
S11.将所有用户的所有行为数据合并为一个统一的文件,以统一的属性进行记录;
S12.根据用户不同行为进行特征构造;
S13.根据用户身份信息和工作时间进行数据特征构造;
S14.完成所有特征构造后,对数据进行自然数编码,将文本属性映射为数字,并根据行为时间提取时间特征记录行为发生所处的时间段;
S15.编码后的数据按照不同时间段拆分为时间段数据子集,把同一时间段的用户行为数据放同一个以时间段命名的文件;编码后的数据按不同用户拆分为用户数据子集,把同一用户的所有行为特征数据存放以用户名命名的文件,以备第二阶段的细粒度检测;
基准模型建立模块包括:
S21.分析所有用户的行为开始的时间段和结束的时间段,以统一标准选取时间段区间内的数据输入基准模型;
S22.组成基准模型训练集数据的时间段需低于最早结束所有行为的用户的时间段,对训练集数据进行数据过拟合与欠拟合结合处理,处理后的数据作为训练集输入随机森林模型训练检测异常用户行为的基准模型;
S23.按时间段顺序依次输入剩余数据作为测试集,模拟按时间段对用户行为进行检测;
S24.若在某一时间段内检测出用户行为存在问题,则在该时间段内对异常行为对应的用户进行第二阶段的细粒度检测;
细粒度检测模块包括:
S31.对存在异常用户数据进行训练集和测试集划分,划分后对训练集进行数据过拟合处理,若训练集中没有标签为异常行为则对数据不进行数据过拟合处理;
S32.处理后使用随机森林模型进行训练,搭建以该用户自身数据训练的用户级行为模型,最后以该用户的测试数据测试模型性能,通过多个性能指标评估模型的检测情况。
6.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述两阶段异常用户行为分析的检测方法。
7.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述两阶段异常用户行为分析的检测方法。
CN202410312729.6A 2024-03-19 一种两阶段异常用户行为分析的检测方法及系统 Active CN117909912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410312729.6A CN117909912B (zh) 2024-03-19 一种两阶段异常用户行为分析的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410312729.6A CN117909912B (zh) 2024-03-19 一种两阶段异常用户行为分析的检测方法及系统

Publications (2)

Publication Number Publication Date
CN117909912A CN117909912A (zh) 2024-04-19
CN117909912B true CN117909912B (zh) 2024-07-02

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034286A (zh) * 2022-04-24 2022-09-09 国家计算机网络与信息安全管理中心 一种基于自适应损失函数的异常用户识别方法和装置
CN116346418A (zh) * 2023-02-13 2023-06-27 北京邮电大学 基于联邦学习的DDoS检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034286A (zh) * 2022-04-24 2022-09-09 国家计算机网络与信息安全管理中心 一种基于自适应损失函数的异常用户识别方法和装置
CN116346418A (zh) * 2023-02-13 2023-06-27 北京邮电大学 基于联邦学习的DDoS检测方法及装置

Similar Documents

Publication Publication Date Title
CN108471429B (zh) 一种网络攻击告警方法及系统
CN108833186B (zh) 一种网络攻击预测方法及装置
CN108881263B (zh) 一种网络攻击结果检测方法及系统
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN108833185B (zh) 一种网络攻击路线还原方法及系统
CN110909348B (zh) 一种内部威胁检测方法及装置
CN111400357A (zh) 一种识别异常登录的方法和装置
CN112637108B (zh) 一种基于异常检测和情感分析的内部威胁分析方法及系统
CN111931189B (zh) Api接口转用风险检测方法、装置和api服务系统
CN111600905A (zh) 一种基于物联网异常检测方法
White et al. A method for the automated detection phishing websites through both site characteristics and image analysis
CN111783073A (zh) 黑产识别方法、装置及可读存储介质
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
Kamble et al. Digital forensic tools: A comparative approach
CN111931186B (zh) 软件风险识别方法及装置
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN117909912B (zh) 一种两阶段异常用户行为分析的检测方法及系统
CN112016088A (zh) 生成文件检测模型的方法、装置、检测文件的方法及装置
CN117909912A (zh) 一种两阶段异常用户行为分析的检测方法及系统
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
Mihailescu et al. Unveiling Threats: Leveraging User Behavior Analysis for Enhanced Cybersecurity
CN112073362B (zh) 一种基于流量特征的apt组织流量识别方法
CN114996708A (zh) 涉诈手机应用研判方法、装置、电子设备及存储介质
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant