CN112364285B - 基于ueba建立异常侦测模型的方法、装置及相关产品 - Google Patents
基于ueba建立异常侦测模型的方法、装置及相关产品 Download PDFInfo
- Publication number
- CN112364285B CN112364285B CN202011325549.XA CN202011325549A CN112364285B CN 112364285 B CN112364285 B CN 112364285B CN 202011325549 A CN202011325549 A CN 202011325549A CN 112364285 B CN112364285 B CN 112364285B
- Authority
- CN
- China
- Prior art keywords
- sample data
- system operation
- log
- operation log
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005856 abnormality Effects 0.000 title claims abstract description 8
- 230000006399 behavior Effects 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004806 packaging method and process Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000003993 interaction Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000002547 anomalous effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供了一种基于UEBA建立异常侦测模型的方法、装置及相关产品。基于UEBA建立异常侦测模型的方法包括:获取关联于用户实体行为的系统操作日志源样本数据;根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。本申请实施例可通过该异常侦测模型进行异常侦测,从而对用户的行为建立有效的监控。
Description
技术领域
本申请涉及安全分析技术领域,特别是涉及一种基于UEBA建立异常侦测模型的方法、装置及相关产品。
背景技术
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据,海量的数据隐含着巨大的信息。
数据是信息的载体,一旦遭遇数据灾难,可能给用户造成不可估量的损失。因此,提供一种有效的异常侦测模型,从而对用户的行为建立有效的监控。
发明内容
基于上述问题,本申请实施例提供了一种基于UEBA建立异常侦测模型的方法、装置及相关产品。
本申请实施例公开了如下技术方案:
一种基于UEBA建立异常侦测模型的方法,其包括:
获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本申请一实施例中,所述获取关联于用户实体行为的系统操作日志源样本数据,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中,所述以事件的方式获取关联于用户实体行为的系统操作日志源样本数据,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中,所述根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据,包括:根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,本申请一实施例中,所述根据所述系统操作日志源样本数据的消息类型,建立多个日志模板,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
可选地,本申请一实施例中,所述按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,本申请一实施例中,所述按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,之前包括:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
一种基于UEBA建立异常侦测模型的装置,其包括:
样本数据获取单元,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本申请一实施例中,所述样本数据获取单元进一步用于以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中,所述样本数据获取单元进一步用于对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中,所述样本数据解析单元进一步用于根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,本申请一实施例中,所述样本数据解析单元进一步用于根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型,以及根据确定出的所述消息类型,建立多个日志模板。
可选地,本申请一实施例中,所述样本数据分类单元进一步用于按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,本申请一实施例中,所述样本数据分类单元进一步用于根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
一种电子设备,其包括:存储器以及处理器,所述存储器上存储有计算机可执行指令,所述处理器用于执行所述计算机可执行指令以执行如下步骤:
获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本申请一实施例中所述处理器在执行获取关联于用户实体行为的系统操作日志源样本数据时,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中所述处理器在以事件的方式获取关联于用户实体行为的系统操作日志源样本数据时,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本申请一实施例中所述处理器在根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据时,包括:根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,本申请一实施例中,所述处理器在根据所述系统操作日志源样本数据的消息类型,建立多个日志模板时,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
可选地,本申请一实施例中,所述处理器在按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据时,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,本申请一实施例中,所述处理器在按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,之前执行步骤:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被执行时实施本申请任一实施例所述基于UEBA建立异常侦测模型的方法。
本申请实施例的技术方案中,通过获取关联于用户实体行为的系统操作日志源样本数据;根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型,从而提供了一种有效的异常侦测模型进行异常侦测,从而对用户的行为建立有效的监控。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一中基于UEBA建立异常侦测模型的方法流程示意图;
图2为本申请实施例二中基于UEBA建立异常侦测模型的方法流程示意图;
图3为本申请实施例三中基于UEBA建立异常侦测模型的方法流程示意图;
图4为本申请实施例四中基于UEBA建立异常侦测模型的方法流程示意图;
图5为本申请实施例五中基于UEBA建立异常侦测模型的装置结构示意图;
图6为本申请实施例六中基于UEBA建立异常侦测模型的装置结构示意图;
图7为本申请实施例七中基于UEBA建立异常侦测模型的装置结构示意图;
图8为本申请实施例八中基于UEBA建立异常侦测模型的装置结构示意图;
图9为本申请实施例九中电子设备的结构示意图;
图10为本申请实施例十中计算机存储介质示意图;
图11为本申请实施例十一中电子设备的硬件结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例一中基于UEBA建立异常侦测模型的方法流程示意图;如图1所示,其包括:
S101、获取关联于用户实体行为的系统操作日志源样本数据;
本实施例中,UEBA又称之为用户及实体行为分析,所述系统操作日志源样本数据直接关联于所述用户实体行为,换言之,通过系统操作日志源样本数据可以间接反映出所述用户实体行为。
本实施例中,所述用户实体行为可以包括:时间、地点、人物、交互、交互的内容。比如用户搜索:在什么时间、什么平台上、哪一个ID、做了搜索、搜索的内容是什么。
本实施例中,可以通过在样本数据源上加载监测代码(或者又称之为埋点),通过该监测代码监测用户是否点击了注册按钮、用户下了什么订单。
本实施例中,系统操作日志源样本数据的存在形式不做任何限定,比如为txt文档,或者列表方式。
本实施例中,所述系统操作日志源样本数据存储在用户所使用的各种终端上。
本实施例中,考虑到所述系统操作日志源样本数据可能是大量的非结构化样本数据,直接使用会导致样本数据处理的效率低下,消耗大量的算力,为此,本实施例中,在获取到所述系统操作日志源样本数据进行预处理或者预分析,从而实现结构化的目的,后续步骤直接使用结构化的所述系统操作日志源样本数据,从而提高样本数据处理的效率,节省算力。
S102、根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
本实施中,所述日志模板中定义了一系列的解析规则比如解析的日志关键词、解析的样本数据步长、样本数据的格式或者结构,以对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。或者,所述日志模板又可以称之为样本数据解析模型。
本实施例中,由于用户所使用的终端从产品形态上千差万别,或者所述终端的操作系统也各不相同,为此,对应每一类产品形态,或者每一类操作系统,分别配置一种日志模板。
S103、按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
本实施例中,如前所述,用户实体行为导致的所述用户实体行为通常包括如下五个维度:时间、地点、人物、交互、交互的内容,由此导致关键日志样本数据实际上也可以包括该五个维度。
另外,如前所述,用户实体行为发生的终端具有各种产品形态,或者其具有不同的操作系统,从而导致关键日志样本数据实际上也具有这些方面的维度。
因此,本实施例中,为了有效地反映用户实体行为,可以通过步骤S103的多个样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,关键日志有效样本数据比如又称之为Log Key。
S104、根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
本实施例中,可以通过根据所述若干类关键日志有效样本数据对神经网络模型(作为机器学习训练模型)训练从而建立异常监测模型。具体地,所述神经网络模型不做特别限定,比如可以为LSTM。该异常侦测模型在进行异常侦测时,可以基于密度的方法或者基于距离的方法。
可选地,在基于密度的方法中,定义:正常样本数据点的密度与其近邻的密度相近,异常点的密度与其近邻的密度相差较大,因此,在异常侦测时,将某一样本数据点周围的密度与其局部相邻样本数据点周围的密度进行比较,该样本数据点与其邻相邻点的相对密度计为异常得分,该异常得分超过设定的阈值,则表明该样本数据点为异常,表明用户实体行为异常行为。
可选地,在基于距离的方法中,定义:正常样本数据点具有密集的邻域,异常点则远离其相邻点,即具有较为稀疏的邻域。在进行异常侦测时,根据样本数据点与相邻点的距离来判断一个样本数据点是否为异常,比如计算每对样本数据点间的距离。如果在给定距离D之内相邻点少于p个的样本数据点为异常样本数据,或者,与第k个相邻点的距离最大的前n个样本数据点为异常样本数据,或者与k个最邻近样本数据点的平均距离最大的样本数据点为异常样本数据。在具体实施时,D、n、p、k可以根据精度的要求灵活调整。
可选地,由于有若干类关键日志有效样本数据,因此,在建立异常侦测模型时,可以基于每一类关键日志有效样本数据建立一个异常侦测模型,以可从多个维度对系统操作日志源样本数据是否异常进行判断,进而侦测用户实体行为的异常情况。
图2为本申请实施例二中基于UEBA建立异常侦测模型的方法流程示意图;如图2所示,在本实施例中,与上述实施例不同的是,所述获取关联于用户实体行为的系统操作日志源样本数据,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。具体地,本实施例中,基于UEBA建立异常侦测模型的方法包括如下步骤:
S201、以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据;
可选地,本实施例中,所述以事件的方式获取关联于用户实体行为的系统操作日志源样本数据,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
具体地,本实施例中,在进行封装时,配置可选的header以及样本数据位阵列,所述样本数据位阵列中存储系统操作日志源样本数据,所述header主要用于系统操作日志源样本数据的上下文扩展。通过这种结构的事件,从而有效地实现了系统操作日志源样本数据的传输,提高了样本数据传输的效率。
S202、根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
S203、按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
S204、根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
本实施例中,步骤分别类似上述实施例一中的步骤S102-S104。当然,在其他是实施例中,也可以采取不同于上述实施例一中的步骤S102-S104来实现步骤S202-S204。
图3为本申请实施例三中基于UEBA建立异常侦测模型的方法流程示意图;如图3所示,在本实施例中,与上述实施例一不同的是,所述根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据,包括:根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。具体地,本实施例中,基于UEBA建立异常侦测模型的方法包括如下步骤:
S301、获取关联于用户实体行为的系统操作日志源样本数据;
S312、根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;
S322、根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,本实施例中,步骤S322中根据所述系统操作日志源样本数据的消息类型,建立多个日志模板,可以包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
具体地,本实施例中,消息类型可以理解为一组消息特征相近的系统操作日志源样本数据,根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型,原理简单且易于实现。由于可能存在海量的所述系统操作日志源样本数据,通过模板词和参数词这种方式来确定消息类型,可以有效地建立多个日志模板,便于对海量的所述系统操作日志源样本数据进行解析处理从而快速、准确地得到关键日志样本数据。所述模板词和参数词可以预先收集。
S303、按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
S304、根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
本实施例中,步骤S301、步骤S303-S304可分别参见上述图1实施例的步骤S101、步骤S103-S104。
图4为本申请实施例四中基于UEBA建立异常侦测模型的方法流程示意图;如图4所示,在本实施例中,与上述实施例一不同的是,所述按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。具体地,本实施例中,基于UEBA建立异常侦测模型的方法包括如下步骤:
S401、获取关联于用户实体行为的系统操作日志源样本数据;
S402、根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
S403、按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度;
S404、根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,在一实施例中,所述按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,在一实施例中,所述按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,之前包括:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
本实施例中,比如如地区、性别都是定性维度;如收入、年龄、消费等都是定量维度。本实施例中,通过样本数据定量维度和定性维度,可以有效地对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,从而使得若干类关键日志有效样本数据的规律更加明显,便于建立准确地异常侦测模型。
图5为本申请实施例五中基于UEBA建立异常侦测模型的装置结构示意图;如图5所示,其包括:
样本数据获取单元501,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元502,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元503,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元504,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
本实施例中,所述系统操作日志源样本数据直接关联于所述用户实体行为,换言之,通过系统操作日志源样本数据可以间接反映出所述用户实体行为。
本实施例中,所述用户实体行为可以包括:时间、地点、人物、交互、交互的内容。比如用户搜索:在什么时间、什么平台上、哪一个ID、做了搜索、搜索的内容是什么。
本实施例中,可以通过在样本数据源上加载监测代码(或者又称之为埋点),通过该监测代码监测用户是否点击了注册按钮、用户下了什么订单。
本实施例中,系统操作日志源样本数据的存在形式不做任何限定,比如为txt文档,或者列表方式。
本实施例中,所述系统操作日志源样本数据存储在用户所使用的各种终端上。
本实施例中,考虑到所述系统操作日志源样本数据可能是大量的非结构化样本数据,直接使用会导致样本数据处理的效率低下,消耗大量的算力,为此,本实施例中,在获取到所述系统操作日志源样本数据进行预处理或者预分析,从而实现结构化的目的,后续步骤直接使用结构化的所述系统操作日志源样本数据,从而提高样本数据处理的效率,节省算力。
本实施中,所述日志模板中定义了一系列的解析规则比如解析的日志关键词、解析的样本数据步长、样本数据的格式或者结构,以对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。或者,所述日志模板又可以称之为样本数据解析模型。
本实施例中,由于用户所使用的终端从产品形态上千差万别,或者所述终端的操作系统也各不相同,为此,对应每一类产品形态,或者每一类操作系统,分别配置一种日志模板。
本实施例中,如前所述,用户实体行为导致的所述用户实体行为通常包括如下五个维度:时间、地点、人物、交互、交互的内容,由此导致关键日志样本数据实际上也可以包括该五个维度。
另外,如前所述,用户实体行为发生的终端具有各种产品形态,或者其具有不同的操作系统,从而导致关键日志样本数据实际上也具有这些方面的维度。
因此,本实施例中,为了有效地反映用户实体行为,可以通过步骤S103的多个样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,关键日志有效样本数据比如又称之为Log Key。
本实施例中,可以通过根据所述若干类关键日志有效样本数据对神经网络模型训练从而建立异常监测模型。具体地,所述神经网络模型不做特别限定,比如可以为LSTM。该异常侦测模型在进行异常侦测时,可以基于密度的方法或者基于距离的方法。
可选地,在基于密度的方法中,定义:正常样本数据点的密度与其近邻的密度相近,异常点的密度与其近邻的密度相差较大,因此,在异常侦测时,将某一样本数据点周围的密度与其局部相邻样本数据点周围的密度进行比较,该样本数据点与其邻相邻点的相对密度计为异常得分,该异常得分超过设定的阈值,则表明该样本数据点为异常,表明用户实体行为异常行为。
可选地,在基于距离的方法中,定义:正常样本数据点具有密集的邻域,异常点则远离其相邻点,即具有较为稀疏的邻域。在进行异常侦测时,根据样本数据点与相邻点的距离来判断一个样本数据点是否为异常,比如计算每对样本数据点间的距离。如果在给定距离D之内相邻点少于p个的样本数据点为异常样本数据,或者,与第k个相邻点的距离最大的前n个样本数据点为异常样本数据,或者与k个最邻近样本数据点的平均距离最大的样本数据点为异常样本数据。在具体实施时,D、n、p、k可以根据精度的要求灵活调整。
可选地,由于有若干类关键日志有效样本数据,因此,在建立异常侦测模型时,可以基于每一类关键日志有效样本数据建立一个异常侦测模型,以可从多个维度对系统操作日志源样本数据是否异常进行判断,进而侦测用户实体行为的异常情况。
图6为本申请实施例六中基于UEBA建立异常侦测模型的装置结构示意图;如图6所示,其包括:
样本数据获取单元501,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元502,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元503,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元504,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本实施例中,所述样本数据获取单元501进一步用于以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,本实施例中,所述样本数据获取单元501进一步用于对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
具体地,所述样本数据获取单元501包括封装子单元511,所述封装子单元511用于对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
具体地,本实施例中,在进行封装时,配置可选的header以及样本数据位阵列,所述样本数据位阵列中存储系统操作日志源样本数据,所述header主要用于系统操作日志源样本数据的上下文扩展。通过这种结构的事件,从而有效地实现了系统操作日志源样本数据的传输,提高了样本数据传输的效率。
图7为本申请实施例七中基于UEBA建立异常侦测模型的装置结构示意图;如图7所示,其包括:
样本数据获取单元501,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元502,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元503,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元504,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本实施例中,所述样本数据解析单元502进一步用于根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,本实施例中,所述样本数据解析单元502进一步用于根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型,以及根据确定出的所述消息类型,建立多个日志模板。
具体地,所述样本数据解析单元502包括消息类型确定子单元512,以及日志模板建立子单元522,所述用于根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型,所述日志模板建立子单元522用于根据确定出的所述消息类型,建立多个日志模板。
具体地,本实施例中,消息类型可以理解为一组消息特征相近的系统操作日志源样本数据,所述系统操作日志源样本数据中的模板词和参数词消息类型其原理简单且易于实现。由于可能存在海量的所述系统操作日志源样本数据,通过模板词和参数词这种方式来确定消息类型,可以有效地建立多个日志模板,便于对海量的所述系统操作日志源样本数据进行解析处理从而快速、准确地得到关键日志样本数据。
图8为本申请实施例八中基于UEBA建立异常侦测模型的装置结构示意图;如图8所示,其包括:
样本数据获取单元501,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元502,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元503,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元504,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,本实施例中,所述样本数据分类单元503进一步用于按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,本实施例中,所述样本数据分类单元503进一步用于根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
具体地,所述样本数据分类单元503包括维度确定子单元513以及样本数据分类子单元523,所述维度确定子单元513用于根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据分类子单元523用于按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据。
本实施例中,比如如地区、性别都是定性维度;如收入、年龄、消费等都是定量维度。本实施例中,通过样本数据定量维度和定性维度,可以有效地对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,从而使得若干类关键日志有效样本数据的规律更加明显,便于建立准确地异常侦测模型。
图9为本申请实施例九中电子设备的结构示意图;如图9所示,所述电子设备包括:存储器901以及处理器902,所述存储器上存储有计算机可执行指令,所述处理器用于执行所述计算机可执行指令以执行如下步骤:
获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,在本申请一实施例中,所述处理器在执行获取关联于用户实体行为的系统操作日志源样本数据时,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,在本申请一实施例中,所述处理器在以事件的方式获取关联于用户实体行为的系统操作日志源样本数据时,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
可选地,在本申请一实施例中,所述处理器在根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据时,包括:根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,在本申请一实施例中,所述处理器在根据所述系统操作日志源样本数据的消息类型,建立多个日志模板时,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
可选地,在本申请一实施例中,所述处理器在按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据时,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,在本申请一实施例中,所述处理器在按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,之前执行步骤:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
图10为本申请实施例十中计算机存储介质示意图,所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被执行时实施如下步骤:
获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施获取关联于用户实体行为的系统操作日志源样本数据的步骤包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施以事件的方式获取关联于用户实体行为的系统操作日志源样本数据的步骤,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施所述根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据的步骤,包括:根据所述系统操作日志源样本数据的消息类型,建立多个日志模板;根据建立的多个日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施所述根据所述系统操作日志源样本数据的消息类型,建立多个日志模板的步骤,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施所述按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据的步骤,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
可选地,在本申请一实施例中,所述计算机可执行指令被执行时实施所述按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据的步骤,之前包括:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
图11为本申请实施例十一中电子设备的硬件结构示意图;如图11所示,该电子设备的硬件结构可以包括:处理器1101,通信接口1102,计算机可读介质1103和通信总线1104;
其中,处理器1101、通信接口1102、计算机可读介质1103通过通信总线1104完成相互间的通信;
可选的,通信接口1102可以为通信模块的接口,如GSM模块的接口;
其中,处理器1101具体可以配置为运行存储器上存储的可执行程序,从而执行上述任一方法实施例的所有处理步骤或者其中部分处理步骤。
处理器1101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、样本数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器710、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有样本数据交互功能的电子装置。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块提示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于UEBA建立异常侦测模型的方法,其特征在于,包括:
获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型;
所述获取关联于用户实体行为的系统操作日志源样本数据,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据;
所述以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据;
所述日志模板中定义了一系列的解析规则,包括,解析的日志关键词、解析的样本数据步长、样本数据的格式或者结构,以对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
在进行封装时,配置header以及样本数据位阵列,所述样本数据位阵列中存储系统操作日志源样本数据,所述header用于系统操作日志源样本数据的上下文扩展;通过这种结构的事件,有效地实现了系统操作日志源样本数据的传输,提高了系统操作日志源样本数据传输的效率;
所述UEBA为用户及实体行为分析;
根据所述系统操作日志源样本数据的消息类型,建立多个日志模板,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
2.根据权利要求1所述基于UEBA建立异常侦测模型的方法,其特征在于,所述按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,包括:按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
3.根据权利要求2所述基于UEBA建立异常侦测模型的方法,其特征在于,所述按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,之前包括:根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
4.一种基于UEBA建立异常侦测模型的装置,其特征在于,包括:
样本数据获取单元,用于获取关联于用户实体行为的系统操作日志源样本数据;
样本数据解析单元,用于根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
样本数据分类单元,用于按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
模型建立单元,用于根据所述若干类关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型;
所述样本数据获取单元进一步用于以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据;
所述样本数据获取单元包括封装子单元,所述封装子单元用于对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据;
所述日志模板中定义了一系列的解析规则,包括,解析的日志关键词、解析的样本数据步长、样本数据的格式或者结构,以对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
在进行封装时,配置header以及样本数据位阵列,所述样本数据位阵列中存储系统操作日志源样本数据,所述header用于系统操作日志源样本数据的上下文扩展;通过这种结构的事件,有效地实现了系统操作日志源样本数据的传输,提高了系统操作日志源样本数据传输的效率;
所述UEBA为用户及实体行为分析;
根据所述系统操作日志源样本数据的消息类型,建立多个日志模板,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
5.根据权利要求4所述基于UEBA建立异常侦测模型的装置,其特征在于,所述样本数据分类单元进一步用于按照建立的样本数据定量维度以及定性维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据,所述样本数据分类维度包括所述定量维度以及所述定性维度。
6.根据权利要求5所述基于UEBA建立异常侦测模型的装置,其特征在于,所述样本数据分类单元进一步用于根据系统操作日志源样本数据的样本数据类型,建立样本数据定量维度以及定性维度,所述样本数据类型为字符型和数值型。
7.一种电子设备,其特征在于,包括:存储器以及处理器,所述存储器上存储有计算机可执行指令,所述处理器用于执行所述计算机可执行指令以执行如下步骤:获取关联于用户实体行为的系统操作日志源样本数据;
根据建立的日志模板,对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
按照建立的样本数据分类维度,对所述关键日志样本数据进行分类处理得到若干类关键日志有效样本数据;
根据关键日志有效样本数据以及机器学习训练模型,建立异常侦测模型;
所述获取关联于用户实体行为的系统操作日志源样本数据,包括:以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据;
所述以事件的方式从样本数据源获取关联于用户实体行为的系统操作日志源样本数据,包括:对从样本数据源获取到的关联于用户实体行为的系统操作日志源样本数据进行封装处理得到事件,以所述事件为样本数据单元获取关联于用户实体行为的系统操作日志源样本数据;
所述日志模板中定义了一系列的解析规则,包括,解析的日志关键词、解析的样本数据步长、样本数据的格式或者结构,以对所述系统操作日志源样本数据进行解析处理得到关键日志样本数据;
在进行封装时,配置header以及样本数据位阵列,所述样本数据位阵列中存储系统操作日志源样本数据,所述header用于系统操作日志源样本数据的上下文扩展;通过这种结构的事件,有效地实现了系统操作日志源样本数据的传输,提高了系统操作日志源样本数据传输的效率;
根据所述系统操作日志源样本数据的消息类型,建立多个日志模板,包括:
根据所述系统操作日志源样本数据中的模板词和参数词确定消息类型;
根据确定出的所述消息类型,建立多个日志模板。
8.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被执行时实施权利要求1-3任一项所述基于UEBA建立异常侦测模型的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011325549.XA CN112364285B (zh) | 2020-11-23 | 2020-11-23 | 基于ueba建立异常侦测模型的方法、装置及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011325549.XA CN112364285B (zh) | 2020-11-23 | 2020-11-23 | 基于ueba建立异常侦测模型的方法、装置及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364285A CN112364285A (zh) | 2021-02-12 |
CN112364285B true CN112364285B (zh) | 2024-02-02 |
Family
ID=74533847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011325549.XA Active CN112364285B (zh) | 2020-11-23 | 2020-11-23 | 基于ueba建立异常侦测模型的方法、装置及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364285B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905417A (zh) * | 2021-09-29 | 2023-04-04 | 中兴通讯股份有限公司 | 一种系统异常检测处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005549A (zh) * | 2015-07-31 | 2015-10-28 | 山东蚁巡网络科技有限公司 | 一种自定义链式日志解析装置及方法 |
CN108170578A (zh) * | 2018-01-08 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 日志收集方法及装置 |
-
2020
- 2020-11-23 CN CN202011325549.XA patent/CN112364285B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005549A (zh) * | 2015-07-31 | 2015-10-28 | 山东蚁巡网络科技有限公司 | 一种自定义链式日志解析装置及方法 |
CN108170578A (zh) * | 2018-01-08 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 日志收集方法及装置 |
Non-Patent Citations (3)
Title |
---|
一种基于机器学习的安全威胁分析系统;司德睿等;《网络与信息安全》;第38卷(第4期);第[37]-[41]页 * |
基于大规模网络日志的模板提取研究;崔元等;《计算机科学》;第44卷(第11A期);第[448]-[452]页 * |
基于日志分析的物联网平台异常检测方法及系统;常二慧;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》(第02期);第[一]-[五]章 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364285A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10412185B2 (en) | Event information system classifying messages using machine learning classification model and pushing selected messages to user | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN111914569A (zh) | 基于融合图谱的预测方法、装置、电子设备及存储介质 | |
CN108090567A (zh) | 电力通信系统故障诊断方法及装置 | |
CN107545451B (zh) | 一种广告推送方法及装置 | |
CN108491720B (zh) | 一种应用识别方法、系统以及相关设备 | |
CN111371767B (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN108829769B (zh) | 一种可疑群组发现方法和装置 | |
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
CN112801719A (zh) | 用户行为预测方法、用户行为预测装置、存储介质及设备 | |
CN112104642A (zh) | 一种异常账号确定方法和相关装置 | |
CN112364286A (zh) | 基于ueba进行异常侦测的方法、装置及相关产品 | |
CN112364285B (zh) | 基于ueba建立异常侦测模型的方法、装置及相关产品 | |
CN112395391A (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN112507265B (zh) | 基于树结构进行异常侦测的方法、装置及相关产品 | |
CN114564947A (zh) | 轨道交通信号故障运维方法、装置及电子设备 | |
CN110599278B (zh) | 聚合设备标识符的方法、装置和计算机存储介质 | |
CN115204889A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN112434245A (zh) | 基于ueba进行异常行为事件的判断方法、装置及相关产品 | |
Wu et al. | A dynamic information dissemination model based on implicit link and social influence | |
CN115374793B (zh) | 基于服务场景识别的语音数据处理方法及相关装置 | |
CN112948341A (zh) | 用于识别异常的网络设备日志的方法和装置 | |
CN111241277A (zh) | 一种基于稀疏图的用户身份识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |