CN114254716A - 一种基于用户行为分析的高危操作识别方法及系统 - Google Patents

一种基于用户行为分析的高危操作识别方法及系统 Download PDF

Info

Publication number
CN114254716A
CN114254716A CN202210195033.0A CN202210195033A CN114254716A CN 114254716 A CN114254716 A CN 114254716A CN 202210195033 A CN202210195033 A CN 202210195033A CN 114254716 A CN114254716 A CN 114254716A
Authority
CN
China
Prior art keywords
risk
instruction
user behavior
log information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210195033.0A
Other languages
English (en)
Other versions
CN114254716B (zh
Inventor
林建洪
陈晓莉
张晶晶
赵祥廷
魏亚洁
章亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Ponshine Information Technology Co ltd
Original Assignee
Zhejiang Ponshine Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Ponshine Information Technology Co ltd filed Critical Zhejiang Ponshine Information Technology Co ltd
Priority to CN202210195033.0A priority Critical patent/CN114254716B/zh
Publication of CN114254716A publication Critical patent/CN114254716A/zh
Application granted granted Critical
Publication of CN114254716B publication Critical patent/CN114254716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明具体涉及一种基于用户行为分析的高危操作识别方法及系统,其高危操作识别方法,包括以下步骤:采集目标网络内对应用户行为的历史日志信息,并对历史日志信息进行数据标准化处理,得到目标信息;根据目标信息获取服务器操作习惯特征和操作指令习惯特征;基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离和最长公共子序列均超过相应阈值的指令数量特征;高危操作识别模型的训练;采集对应用户行为的待测日志信息,并输入高危操作识别模型,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。本发明后续用户行为研判提供多维特征依据,提升用户行为分析的准确度。

Description

一种基于用户行为分析的高危操作识别方法及系统
技术领域
本发明属于网络安全以及深度学习技术领域,具体涉及一种基于用户行为分析的高危操作识别方法及系统。
背景技术
随着电信及互联网企业总体网络规模不断扩大,多层面的网络安全威胁和安全风险也在不断增加,网络攻击行为向着分布化、规模化、复杂化的趋势发展,仅仅靠单一的网络设备监测处置已不能满足网络安全的需求。
针对用户行为分析方向,迫切需要新的技术,及时发现用户异常行为,实时掌握网络安全状况,将之前亡羊补牢式的事中、事后处理,逐步转向事前自动分析预测,事中动态处置,降低网络安全风险。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的是提供一种基于用户行为分析的高危操作识别方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
一种基于用户行为分析的高危操作识别方法,包括以下步骤:
S1、采集目标网络内对应用户行为的历史日志信息,并对历史日志信息进行数据标准化处理,得到目标信息;
S2、根据目标信息获取服务器操作习惯特征和操作指令习惯特征;
基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离和最长公共子序列均超过相应阈值的指令数量特征;
S3、对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;
对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;
对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
S4、根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵、观测概率分布矩阵和初始概率分布矩阵并进行隐马尔可夫模型的训练,得到高危操作识别模型;
S5、采集对应用户行为的待测日志信息,并输入高危操作识别模型以执行上述步骤S1-S4,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。
作为优选方案,所述目标信息包括操作时间、用户IP、用户名、操作内容、登录状态、操作结果。
作为优选方案,所述服务器操作习惯特征包括统计8点到22点内的操作次数、统计24点到8点内的操作次数、单用户单日操作总次数、用户操作的服务器数量、用户的上线次数;服务器操作习惯特征还包括是否有未操作的服务器,若有,则取值为1;若无,则取值为0。
作为优选方案,所述操作指令习惯特征包括每个用户的每日指令记录中各linux指令开头的指令数量,其余指令作为其他指令;
操作指令习惯特征还包括其他指令的数量。
作为优选方案,所述步骤S3中,粒子群算法优化的自编码器采用皮尔逊相关性和均方误差进行训练,并利用粒子群算法优化自编码器的网络权重,优化完成将权重回传至自编码器内;
其中,所述粒子群算法采用多目标优化的粒子群算法。
作为优选方案,所述历史日志信息及待测日志信息包括访问日志信息、登录日志信息和操作日志信息。
作为优选方案,所述步骤S5中,根据高危操作识别模型输出的状态值将用户行为划分为高危、中危、低危和无异常四个状态,根据不同的状态执行不同的处理策略。
作为优选方案,基于用户行为分析的高危操作识别方法,还包括:
每日输出一次异常的三个指标的输出和状态值,每周进行七天观测序列的状态值的预测,以对每日的输出结果进行校准研判。
本发明还提供一种基于用户行为分析的高危操作识别系统,应用如上任一项方案所述的高危操作识别方法,所述高危操作识别系统包括:
采集模块,用于采集目标网络内对应用户行为的历史日志信息以及待测日志信息;
数据标准化处理模块,用于对相应的日志信息进行数据标准化处理,以得到目标信息;
特征提取模块,用于根据目标信息获取服务器操作习惯特征和操作指令习惯特征;还用于基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离和最长公共子序列均超过相应阈值的指令数量特征;
训练模块,用于对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;还用于对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;还用于对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
阈值设置模块,用于分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
所述训练模块还用于根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵、观测概率分布矩阵和初始概率分布矩阵并进行隐马尔可夫模型的训练,得到高危操作识别模型;
预测模块,用于将待测日志信息输入高危操作识别模型,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。
本发明与现有技术相比,有益效果是:
(1)本发明的服务器操作习惯特征、操作指令习惯特征及指令数量特征,为后续用户行为研判提供多维特征依据,提升用户行为分析的准确度;
(2)本发明采用粒子群算法优化的自编码器,避免自编码器利用反向传播进行网络训练,会有网络不收敛的情况,且易陷入局部最优解;而本发明采用两种loss(即皮尔逊相关性和均方误差)进行训练,并用粒子群算法优化网络的权重,优化完成将权重传回自编码器内,能够防止过拟合,且得到的是全局最优解;
(3)本发明根据高危操作识别模型输出的状态值将用户行为划分为高危、中危、低危和无异常四个状态,根据不同的状态执行不同的处理策略,实现自动分类处置。。
附图说明
图1是本发明实施例1的基于用户行为分析的高危操作识别方法的流程图;
图2是本发明实施例1的现有的粒子群算法优化自编码器的构架图;
图3是本发明实施例1的现有的隐马尔可夫模型的构架图;
图4是本发明实施例1的基于用户行为分析的高危操作识别系统的模块组成图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本实施例的基于用户行为分析的高危操作识别方法,包括以下步骤:
(1)数据采集
采集目标网络内对应用户行为的待测日志信息。
具体地,依托日志采集探针和大数据架构,完成目标网络内的主机、应用等不同类型的访问日志、登录日志、操作日志的采集,采集的日志信息作为数据标准化处理的输入;主要涉及系统登录日志、WEB访问日志、运维操作日志等类型,相关设备包括网络设备、主机、应用系统等不同数据源,采用大数据流计算架构实现数据的实时采集,后续对日志信息进行标准化、元数据提取,作为后续数据标准化处理的输入。
(2)数据标准化
数据标准化主要用于各日志信息的标准化处理,提取日志的元数据信息,并形成标准化的数据格式,用于后续高危操作识别模型的训练,标准化后的日志需包含模型分析所需要的目标信息,包括操作时间、操作对象IP(即用户IP)、用户名、操作内容、登录状态、操作结果等。
(3)异常分析
本实施例基于用户行为的高危操作识别模型进行用户行为的异常分析。
具体地,高危操作识别模型的训练过程,包括以下步骤:
S1、采集目标网络内对应用户行为的历史日志信息,并对历史日志信息进行数据标准化处理,得到目标信息;如上所述,目标信息,包括操作时间、操作对象IP(即用户IP)、用户名、操作内容、登录状态、操作结果等。
S2、根据目标信息获取服务器操作习惯特征和操作指令习惯特征;
其中,服务器操作习惯特征包括统计8点到22点内的操作次数、统计24点到8点内的操作次数、单用户单日操作总次数、用户操作的服务器数量、用户的上线次数(上升沿触发);
另外,服务器操作习惯特征还包括是否有未操作的服务器,若有,则取值为1;若无,则取值为0。
本实施例的操作指令习惯特征包括每个用户的每日指令记录中各linux指令开头的指令数量,其余指令作为其他指令;
操作指令习惯特征还包括其他指令的数量。
本实施例还基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离(Levenshtein distance)和最长公共子序列(LCS)均超过相应阈值的指令数量,作为指令数量特征;
其中,莱文斯坦距离是一种描述编辑最低频次的距离,由一个字符串通过替换、插入、删除三种方式转换为另一个字符的最小操作次数即为莱文斯坦距离。
最长公共子序列是描述字符串重合度的一种方式,其代表两个字符串共同拥有的最长的子字符串的长度。
S3、对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;
后续异常分析时,根据待测日志信息对应的服务器操作习惯特征输入训练后的One-class SVM,会得到相应的服务器操作异常指标。
其中,One-class SVM是一种利用单类样本进行异常检测的方法,其原理较为简单,通过对单类样本进行超平面的划分,来新的样本时会对其进行判断,其核函数的计算比较耗时,因此适合小数据的异常检测,同时适用于异常样本极少的异常检测场景中。
只有一个类别的数据,所以要训练出一个最小的超球面,把这些数据全都包起来,识别一个新的数据点时,判断数据点是否落在超球面内,来判断是否为异常点。
本实施例对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;
后续异常分析时,根据待测日志信息对应的操作指令习惯特征输入训练后的自编码器,会得到相应的操作指令异常指标。
其中,粒子群算法是一种启发式的优化算法,它旨在模拟种群中个体认知对集体认知的影响以及集体认知对个体认知的指引,进行全局的最优化处理,其优势在于收敛速度快,参数得当模型易寻找到全局最优解,其还可以进行多目标的优化,依托于pareto最优解的思想。
自编码器是由神经网络衍生出的一种可以应用于无监督学习的算法,它由编码器和解码器组成,通过保证输入输出一致来对数据进行特征的解析或者异常的检测。
在传统预测类的算法中,可以用自编码器实现降维与升维的操作,也可用于数据的降噪。由于训练样本的输入与输出具有高度一致性,因此在对输入输出进行相似度计算或者计算输出均方误差等loss,可以进行异常点的检测。
如图2所示,本实施例采用粒子群算法优化自编码器,由于自编码器的loss一般采用均方误差,平均绝对误差等回归类常规的单个loss,利用反向传播进行网络的训练,会有网络不收敛的情况,且易陷入局部最优解。本实施例使用两种loss进行训练:皮尔逊相关性和均方误差,并用粒子群算法优化网络的权重(即利用粒子群算法替代反向传播),优化完成后将权重传回自编码器内。粒子群算法以及自编码器可以参考现有技术,在此不赘述。
由于需要优化两种loss,所以需要采用多目标优化的粒子群算法。其中,均方误差是望小的指标,而皮尔逊相关性是望大的,因此对均方误差取负值使得双方皆为望大指标,便于进行适应度的计算以及个体最优和pareto最优解集的更新。
本实施例还对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
其中,GMM聚类计算采用混合高斯模型,其是一种生成式的算法,其利用概率密度函数,通过em算法进行迭代优化,将数据分为若干个高斯模型,可应用于数据的聚类操作。
分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
S4、根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵A0、观测概率分布矩阵B0和初始概率分布矩阵pi0并进行隐马尔可夫模型的训练,通过不断进行观测序列的输入,得到模型的参数,即得到高危操作识别模型;其中,观测序列由以日为单位的观测值组成,例如,7日的观测值组成的观测序列。
本实施例的上述三个指标分别代表用户的服务器操作习惯异常程度、用户的操作指令习惯异常程度和习惯稳定性。
其中,隐马尔可夫算法是一种对事物隐藏状态的规律进行挖掘的算法,其与传统的马尔可夫链的概念不同,认为观测的事情发生不取决于其之前发生的情况,而是取决于其背后的状态。而背后的状态却满足马尔可夫链的规律。本实施例利用隐马尔可夫算法进行人员隐藏状态的挖掘,因此需要准备模型需要的条件,首先要确定观测值的数量和状态的数量。
如图3所示,现有的隐马尔可夫的定义和三个矩阵有关:状态转移矩阵、观测概率分布矩阵和初始概率分布矩阵,分别为A、B、pi。
其主要解决三个问题:
(a)概率计算问题
(b)学习问题
(c)预测问题
其中,概率计算问题,通过前向算法和后向算法实现;学习问题可通过监督学习进行极大似然估计,或者通过Baum-Welch 算法利用em算法进行迭代,本实施例采用后者;预测问题通过viterbi算法进行最短状态路径的计算。
本实施例根据待测日志信息输入高危操作识别模型,执行上述步骤S1-S4,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。本实施例的状态值代表用户行为的高危程度。
(4)事件处置
本实施例根据高危操作识别模型输出的状态值将用户行为划分为高危、中危、低危和无异常四个状态,根据不同的状态执行不同的处理策略。
具体地,当状态值对应高危状态时,对事件内用户账号进行永久禁用;
当状态值对应中危状态时,对事件内用户账号进行固定时段禁用;
当状态值对应低危状态时,对事件进行邮件/短信通知;
当状态值对应无异常状态时,对事件默认忽略。
对应于本实施例上述的高危操作识别方法,如图4所示,本实施例还提供一种基于用户行为分析的高危操作识别系统,包括采集模块、数据标准化处理模块、特征提取模块、训练模块、阈值设置模块、预测模块和处置模块。
具体地,采集模块用于采集目标网络内对应用户行为的历史日志信息以及待测日志信息。可依托日志采集探针和大数据架构,完成目标网络内的主机、应用等不同类型的访问日志、登录日志、操作日志的采集,采集的日志信息作为数据标准化处理模块的输入;主要涉及系统登录日志、WEB访问日志、运维操作日志等类型,相关设备包括网络设备、主机、应用系统等不同数据源,采用大数据流计算架构实现数据的实时采集,后续对日志信息进行标准化、元数据提取,作为后续数据标准化处理模块的输入。
本实施例的数据标准化处理模块用于对相应的日志信息进行数据标准化处理,以得到目标信息。具体地,数据标准化模块主要用于各日志信息的标准化处理,提取日志的元数据信息,并形成标准化的数据格式,用于后续高危操作识别模型的训练,标准化后的日志需包含模型分析所需要的目标信息,包括操作时间、操作对象IP(即用户IP)、用户名、操作内容、登录状态、操作结果等。
本实施例的特征提取模块,用于根据目标信息获取服务器操作习惯特征和操作指令习惯特征;
其中,服务器操作习惯特征包括统计8点到22点内的操作次数、统计24点到8点内的操作次数、单用户单日操作总次数、用户操作的服务器数量、用户的上线次数(上升沿触发);
另外,服务器操作习惯特征还包括是否有未操作的服务器,若有,则取值为1;若无,则取值为0。
本实施例的操作指令习惯特征包括每个用户的每日指令记录中各linux指令开头的指令数量,其余指令作为其他指令;
操作指令习惯特征还包括其他指令的数量。
本实施例还基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离(Levenshtein distance)和最长公共子序列(LCS)均超过相应阈值的指令数量,作为指令数量特征;
其中,莱文斯坦距离是一种描述编辑最低频次的距离,由一个字符串通过替换、插入、删除三种方式转换为另一个字符的最小操作次数即为莱文斯坦距离。
最长公共子序列是描述字符串重合度的一种方式,其代表两个字符串共同拥有的最长的子字符串的长度。
本实施例的训练模块用于对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;
后续异常分析时,根据待测日志信息对应的服务器操作习惯特征输入训练后的One-class SVM,会得到相应的服务器操作异常指标。
本实施例的训练模块还用于对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;
后续异常分析时,根据待测日志信息对应的操作指令习惯特征输入训练后的自编码器,会得到相应的操作指令异常指标。
其中,本实施例采用粒子群算法优化自编码器,由于自编码器的loss一般采用均方误差,平均绝对误差等回归类常规的单个loss,利用反向传播进行网络的训练,会有网络不收敛的情况,且易陷入局部最优解。本实施例使用两种loss进行训练:皮尔逊相关性和均方误差,并用粒子群算法优化网络的权重,优化完成后将权重传回自编码器内。
由于需要优化两种loss,所以需要采用多目标优化的粒子群算法。其中,均方误差是望小的指标,而皮尔逊相关性是望大的,因此对均方误差取负值使得双方皆为望大指标,便于进行适应度的计算以及个体最优和pareto最优解集的更新。
本实施例的训练模块还用于对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
本实施例的阈值设置模块用于分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
本实施例的训练模块还用于根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵A0、观测概率分布矩阵B0和初始概率分布矩阵pi0并进行隐马尔可夫模型的训练,通过不断进行观测序列的输入,得到模型的参数,即得到高危操作识别模型;其中,观测序列由以日为单位的观测值组成,例如,7日的观测值组成的观测序列。
本实施例的预测模块用于将待测日志信息输入高危操作识别模型,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。
本实施例的预测模块根据高危操作识别模型输出的状态值将用户行为划分为高危、中危、低危和无异常四个状态。
相应地,本实施例的处置模块根据不同的状态执行不同的处理策略。
具体地,当状态值对应高危状态时,对事件内用户账号进行永久禁用;
当状态值对应中危状态时,对事件内用户账号进行固定时段禁用;
当状态值对应低危状态时,对事件进行邮件/短信通知;其中,“/”代表“或”。
当状态值对应无异常状态时,对事件默认忽略。
实施例2:
本实施例的基于用户行为分析的高危操作识别方法与实施例1的不同之处在于:
基于用户行为分析的高危操作识别方法,还包括:
在后续的预测过程中,每日输出一次异常的三个指标的输出和状态值,每周进行七天观测序列的状态值的预测,以对每日的输出结果进行校准研判,进一步提升识别的精度;
其他步骤可以参考实施例1;
本实施例的基于用户行为分析的高危操作识别系统与实施例1的不同之处在于:
还包括校准模块,用于在后续的预测过程中,每日输出一次异常的三个指标的输出和状态值,每周进行七天观测序列的状态值的预测,以对每日的输出结果进行校准研判,进一步提升识别的精度;
其他构架可以参考实施例1。
实施例3:
本实施例的基于用户行为分析的高危操作识别系统与实施例1的不同之处在于:
与4A等账号管理平台联动,对接账号封堵能力,实现用户账号的启用/禁用、用户的下线及会话注销等操作;
其他构架可以参考实施例1。
实施例4:
本实施例的基于用户行为分析的高危操作识别方法与实施例1的不同之处在于:
还记录事件处置日志,包含任务ID、事件名称、账号名称、调用接口、操作类型、操作结果、操作时间、操作用户等信息,以便进行事件处置溯源;
其他步骤可以参考实施例1。
本实施例的基于用户行为分析的高危操作识别系统与实施例1的不同之处在于:
还包括事件处置日志模块,用于记录事件处置日志,包含任务ID、事件名称、账号名称、调用接口、操作类型、操作结果、操作时间、操作用户等信息,以便进行事件处置溯源;
其他构架可以参考实施例1。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (9)

1.一种基于用户行为分析的高危操作识别方法,其特征在于,包括以下步骤:
S1、采集目标网络内对应用户行为的历史日志信息,并对历史日志信息进行数据标准化处理,得到目标信息;
S2、根据目标信息获取服务器操作习惯特征和操作指令习惯特征;
基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离和最长公共子序列均超过相应阈值的指令数量特征;
S3、对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;
对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;
对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
S4、根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵、观测概率分布矩阵和初始概率分布矩阵并进行隐马尔可夫模型的训练,得到高危操作识别模型;
S5、采集对应用户行为的待测日志信息,并输入高危操作识别模型以执行上述步骤S1-S4,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。
2.根据权利要求1所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述目标信息包括操作时间、用户IP、用户名、操作内容、登录状态、操作结果。
3.根据权利要求2所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述服务器操作习惯特征包括统计8点到22点内的操作次数、统计24点到8点内的操作次数、单用户单日操作总次数、用户操作的服务器数量、用户的上线次数;服务器操作习惯特征还包括是否有未操作的服务器,若有,则取值为1;若无,则取值为0。
4.根据权利要求2所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述操作指令习惯特征包括每个用户的每日指令记录中各linux指令开头的指令数量,其余指令作为其他指令;
操作指令习惯特征还包括其他指令的数量。
5.根据权利要求1-4任一项所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述步骤S3中,粒子群算法优化的自编码器采用皮尔逊相关性和均方误差进行训练,并利用粒子群算法优化自编码器的网络权重,优化完成将权重回传至自编码器内;
其中,所述粒子群算法采用多目标优化的粒子群算法。
6.根据权利要求1-4任一项所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述历史日志信息及待测日志信息包括访问日志信息、登录日志信息和操作日志信息。
7.根据权利要求1-4任一项所述的一种基于用户行为分析的高危操作识别方法,其特征在于,所述步骤S5中,根据高危操作识别模型输出的状态值将用户行为划分为高危、中危、低危和无异常四个状态,根据不同的状态执行不同的处理策略。
8.根据权利要求1-4任一项所述的一种基于用户行为分析的高危操作识别方法,其特征在于,还包括:
每日输出一次异常的三个指标的输出和状态值,每周进行七天观测序列的状态值的预测,以对每日的输出结果进行校准研判。
9.一种基于用户行为分析的高危操作识别系统,应用如权利要求1-8任一项所述的高危操作识别方法,其特征在于,所述高危操作识别系统包括:
采集模块,用于采集目标网络内对应用户行为的历史日志信息以及待测日志信息;
数据标准化处理模块,用于对相应的日志信息进行数据标准化处理,以得到目标信息;
特征提取模块,用于根据目标信息获取服务器操作习惯特征和操作指令习惯特征;还用于基于目标信息,对操作指令进行去重处理并进行莱文斯坦距离和最长公共子序列的计算,得到莱文斯坦距离和最长公共子序列均超过相应阈值的指令数量特征;
训练模块,用于对服务器操作习惯特征进行One-class SVM异常检测训练,得到训练后的One-class SVM以及对应的服务器操作异常指标;还用于对操作指令习惯特征进行粒子群算法优化的自编码器的训练,得到训练后的自编码器以及对应的操作指令异常指标;还用于对服务器操作习惯特征、操作指令习惯特征和指令数量特征进行GMM聚类计算,得到每个用户每日的聚类标签,并统计一周内聚类标签的变更次数作为标签异常指标;
阈值设置模块,用于分别对服务器操作异常指标、操作指令异常指标和标签异常指标设置阈值,以输出0或1;0代表正常,1代表异常;
所述训练模块还用于根据服务器操作异常指标、操作指令异常指标、标签异常指标三个指标的输出确定八种观测值,初始化状态转移矩阵、观测概率分布矩阵和初始概率分布矩阵并进行隐马尔可夫模型的训练,得到高危操作识别模型;
预测模块,用于将待测日志信息输入高危操作识别模型,得到高危操作识别模型输出的状态值,并根据状态值对用户行为状态进行预测。
CN202210195033.0A 2022-03-02 2022-03-02 一种基于用户行为分析的高危操作识别方法及系统 Active CN114254716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210195033.0A CN114254716B (zh) 2022-03-02 2022-03-02 一种基于用户行为分析的高危操作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210195033.0A CN114254716B (zh) 2022-03-02 2022-03-02 一种基于用户行为分析的高危操作识别方法及系统

Publications (2)

Publication Number Publication Date
CN114254716A true CN114254716A (zh) 2022-03-29
CN114254716B CN114254716B (zh) 2022-05-27

Family

ID=80797229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210195033.0A Active CN114254716B (zh) 2022-03-02 2022-03-02 一种基于用户行为分析的高危操作识别方法及系统

Country Status (1)

Country Link
CN (1) CN114254716B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001814A (zh) * 2022-05-31 2022-09-02 山西西电信息技术研究院有限公司 一种基于机器学习的安全审计方法及系统
CN116595425A (zh) * 2023-07-13 2023-08-15 浙江大有实业有限公司杭州科技发展分公司 一种基于电网调度多源数据融合的缺陷识别方法
CN116720753A (zh) * 2023-08-07 2023-09-08 浙江鹏信信息科技股份有限公司 水文数据的处理方法、系统及可读存储介质
CN117220992A (zh) * 2023-10-12 2023-12-12 上海佑瞻智能科技有限公司 一种支持商用密码算法的云安全管理监控方法及系统

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067845A1 (en) * 2013-08-27 2015-03-05 International Business Machines Corporation Detecting Anomalous User Behavior Using Generative Models of User Actions
CN106936781A (zh) * 2015-12-29 2017-07-07 亿阳安全技术有限公司 一种用户操作行为的判定方法及装置
CN107241215A (zh) * 2017-05-10 2017-10-10 百度在线网络技术(北京)有限公司 用户行为预测方法和装置
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108509793A (zh) * 2018-04-08 2018-09-07 北京明朝万达科技股份有限公司 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN109344195A (zh) * 2018-10-25 2019-02-15 电子科技大学 基于hmm模型的管道安全事件识别及知识挖掘方法
CN109359242A (zh) * 2018-09-25 2019-02-19 潍坊工程职业学院 一种数据推送方法和装置
CN109687991A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 用户行为识别方法、装置、设备及存储介质
CN109992666A (zh) * 2019-03-22 2019-07-09 阿里巴巴集团控股有限公司 用于处理特征库的方法、装置和非暂时性机器可读介质
CN110224850A (zh) * 2019-04-19 2019-09-10 北京亿阳信通科技有限公司 电信网络故障预警方法、装置及终端设备
CN110677430A (zh) * 2019-10-14 2020-01-10 西安交通大学 一种基于网络安全设备日志数据的用户风险度评估方法和系统
CN110753038A (zh) * 2019-09-29 2020-02-04 武汉大学 一种异常检测自适应权限控制系统及方法
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN110909811A (zh) * 2019-11-28 2020-03-24 国网湖南省电力有限公司 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法
CN110956188A (zh) * 2018-09-26 2020-04-03 北京融信数联科技有限公司 基于移动通信信令数据的人口行为轨迹数字化编码方法
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
KR20200088194A (ko) * 2019-01-14 2020-07-22 펜타시큐리티시스템 주식회사 그룹웨어 사용자의 이상 행위 탐지 방법 및 장치
CN111582341A (zh) * 2020-04-29 2020-08-25 中国工商银行股份有限公司 用户异常操作预测方法及装置
CN111598179A (zh) * 2020-05-21 2020-08-28 国网电力科学研究院有限公司 电力监控系统用户异常行为分析方法、存储介质和设备
CN111738243A (zh) * 2020-08-25 2020-10-02 腾讯科技(深圳)有限公司 人脸图像的选择方法、装置、设备及存储介质
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN113660236A (zh) * 2021-08-10 2021-11-16 和安科技创新有限公司 一种基于优化堆叠降噪卷积自编码网络的异常流量检测方法、存储器和处理器
CN113918941A (zh) * 2020-07-07 2022-01-11 华为技术有限公司 异常行为检测的方法、装置、计算设备和存储介质

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067845A1 (en) * 2013-08-27 2015-03-05 International Business Machines Corporation Detecting Anomalous User Behavior Using Generative Models of User Actions
CN106936781A (zh) * 2015-12-29 2017-07-07 亿阳安全技术有限公司 一种用户操作行为的判定方法及装置
CN107241215A (zh) * 2017-05-10 2017-10-10 百度在线网络技术(北京)有限公司 用户行为预测方法和装置
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108509793A (zh) * 2018-04-08 2018-09-07 北京明朝万达科技股份有限公司 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN109687991A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 用户行为识别方法、装置、设备及存储介质
CN109359242A (zh) * 2018-09-25 2019-02-19 潍坊工程职业学院 一种数据推送方法和装置
CN110956188A (zh) * 2018-09-26 2020-04-03 北京融信数联科技有限公司 基于移动通信信令数据的人口行为轨迹数字化编码方法
CN109344195A (zh) * 2018-10-25 2019-02-15 电子科技大学 基于hmm模型的管道安全事件识别及知识挖掘方法
KR20200088194A (ko) * 2019-01-14 2020-07-22 펜타시큐리티시스템 주식회사 그룹웨어 사용자의 이상 행위 탐지 방법 및 장치
CN109992666A (zh) * 2019-03-22 2019-07-09 阿里巴巴集团控股有限公司 用于处理特征库的方法、装置和非暂时性机器可读介质
CN110224850A (zh) * 2019-04-19 2019-09-10 北京亿阳信通科技有限公司 电信网络故障预警方法、装置及终端设备
CN110753038A (zh) * 2019-09-29 2020-02-04 武汉大学 一种异常检测自适应权限控制系统及方法
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN110677430A (zh) * 2019-10-14 2020-01-10 西安交通大学 一种基于网络安全设备日志数据的用户风险度评估方法和系统
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法
CN110909811A (zh) * 2019-11-28 2020-03-24 国网湖南省电力有限公司 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111582341A (zh) * 2020-04-29 2020-08-25 中国工商银行股份有限公司 用户异常操作预测方法及装置
CN111598179A (zh) * 2020-05-21 2020-08-28 国网电力科学研究院有限公司 电力监控系统用户异常行为分析方法、存储介质和设备
CN113918941A (zh) * 2020-07-07 2022-01-11 华为技术有限公司 异常行为检测的方法、装置、计算设备和存储介质
CN111738243A (zh) * 2020-08-25 2020-10-02 腾讯科技(深圳)有限公司 人脸图像的选择方法、装置、设备及存储介质
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN113660236A (zh) * 2021-08-10 2021-11-16 和安科技创新有限公司 一种基于优化堆叠降噪卷积自编码网络的异常流量检测方法、存储器和处理器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIYE WANG ET AL: "Network Behavior Abnormal Detection for Electricity Management System based on Long Short-Term Memory", 《2018 IEEE INTERNATIONAL CONFERENCE ON ENERGY INTERNET》 *
TOYA ACHARYA ET AL: "Efficacy of Machine Learning-Based Classifiers for Binary and Multi-Class Network Intrusion Detection", 《I2CACIS》 *
明泽等: "基于深度学习的网络恶意登录异常检测方法研究", 《中北大学学报(自然科学版)》 *
李志强: "基于网络日志的用户行为分析", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001814A (zh) * 2022-05-31 2022-09-02 山西西电信息技术研究院有限公司 一种基于机器学习的安全审计方法及系统
CN116595425A (zh) * 2023-07-13 2023-08-15 浙江大有实业有限公司杭州科技发展分公司 一种基于电网调度多源数据融合的缺陷识别方法
CN116595425B (zh) * 2023-07-13 2023-11-10 浙江大有实业有限公司杭州科技发展分公司 一种基于电网调度多源数据融合的缺陷识别方法
CN116720753A (zh) * 2023-08-07 2023-09-08 浙江鹏信信息科技股份有限公司 水文数据的处理方法、系统及可读存储介质
CN116720753B (zh) * 2023-08-07 2023-10-31 浙江鹏信信息科技股份有限公司 水文数据的处理方法、系统及可读存储介质
CN117220992A (zh) * 2023-10-12 2023-12-12 上海佑瞻智能科技有限公司 一种支持商用密码算法的云安全管理监控方法及系统
CN117220992B (zh) * 2023-10-12 2024-05-10 上海佑瞻智能科技有限公司 一种支持商用密码算法的云安全管理监控方法及系统

Also Published As

Publication number Publication date
CN114254716B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114254716B (zh) 一种基于用户行为分析的高危操作识别方法及系统
CN111914873B (zh) 一种两阶段云服务器无监督异常预测方法
CN111314331B (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN113434357B (zh) 基于序列预测的日志异常检测方法及装置
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN111859010B (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN117041017B (zh) 数据中心的智能运维管理方法及系统
CN117421684A (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN117593101B (zh) 基于多维数据的金融风险数据处理分析方法及系统
CN113918367A (zh) 一种基于注意力机制的大规模系统日志异常检测方法
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN113438114A (zh) 互联网系统的运行状态监控方法、装置、设备及存储介质
Wang et al. Failure prediction of hard disk drives based on adaptive Rao–Blackwellized particle filter error tracking method
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN113469247B (zh) 网络资产异常检测方法
CN113553577B (zh) 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统
CN117634643A (zh) 基于机器学习的网络行为风险性判断方法、系统及介质
CN117254980A (zh) 一种基于注意力机制的工业网络安全风险评估方法及系统
CN117349697A (zh) 业务流程异常检测方法、计算机设备以及可读存储介质
CN117370548A (zh) 用户行为风险识别方法、装置、电子设备及介质
CN113935023A (zh) 一种数据库异常行为检测方法及装置
CN115438885A (zh) 业务异常波动的检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant