CN114218998A - 一种基于隐马尔可夫模型的电力系统异常行为分析方法 - Google Patents

一种基于隐马尔可夫模型的电力系统异常行为分析方法 Download PDF

Info

Publication number
CN114218998A
CN114218998A CN202111286050.7A CN202111286050A CN114218998A CN 114218998 A CN114218998 A CN 114218998A CN 202111286050 A CN202111286050 A CN 202111286050A CN 114218998 A CN114218998 A CN 114218998A
Authority
CN
China
Prior art keywords
sequence
model
command
length
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111286050.7A
Other languages
English (en)
Inventor
张相依
陈亮
高雅弟
乐欣怡
梁洋洋
解鹏飞
张涵
郑启薇
赵圆圆
董子奇
黄俊桦
林通
杨雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202111286050.7A priority Critical patent/CN114218998A/zh
Publication of CN114218998A publication Critical patent/CN114218998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明公开了一种基于隐马尔可夫模型的电力系统异常行为分析方法,该方法使用隐马尔可夫判别模型对电力内网系统中的主机的操作命令序列进行分析,识别其中可能存在的异常行为序列,将其判定为疑似异常行为,并获取执行该操作的用户。疑似异常行为与其相应的用户等信息将以告警的形式被传达至态势感知平台管理员,由平台管理员对告警内容进行核对与判定,对于被确定为异常行为的告警将由平台管理员进行后续的应对与处置操作,对于被认定为误判的告警将由管理员根据判定结果对模型的参数进行修正,修改之后的模型将会被应用于下一轮的行为判定。测试表明,该方法可以协助态势感知平台管理员对电力系统内网主机的操作行为进行管理与监控。

Description

一种基于隐马尔可夫模型的电力系统异常行为分析方法
技术领域
本发明涉及电力系统技术领域,具体是一种基于隐马尔可夫模型的电力系统异常行为 分析方法。
背景技术
随着信息化与智能化相关技术的发展,中国电网发展正逐步迈入进入“电力流、信息 流、业务流”高度融合的智能电网阶段。与此同时,与传统电网不同的问题与安全威胁也随之出现,网络空间的信息安全风险对智能电网实体构成新的威胁。伴随着电网信息化的发展与进步,信息系统的扰动导致物理电网的事故成为可能,电力系统的信息安全问题已成为不容忽视的新型安全问题。
网络攻击的形式是多种多样的,其中就包括异常操作行为,攻击者在渗透进入网络系 统之后,通过远程执行相关操作进行攻击行为,具有攻击性的操作往往与系统中的正常用 户的正常操作行为不同,除此之外,系统中的正常用户也可能会出现不符合安全规范的违 规操作,这类操作同样具有风险。通过对系统中用户对主机的操作行为进行分析,是检测 安全威胁的有效方法之一。异常检测是目前入侵检测系统(IDS,intrusiondetection system)研究的重要方向,这种检测技术通过将用户行为模式与正常模式之间的比较与匹 配来检测入侵,具有较强的适应性。近年来,基于shell操作命令进行的异常行为检测得 到了较多的研究与应用。
HMM模型是一种双重随机过程,其中包括用于描述状态转移的隐含的马尔可夫链,以 及描述状态与观测值之间的对应统计关系的随机过程。HMM模型的基础是三个假设,即:当前状态只与上一个状态相关,与其他状态无关;不同状态之间的转移概率与当前状态所处的时间无关;当前的观测值仅与当前的状态有关,而与其他状态无关。这三个假设降低了模型推导与计算过程的难度与复杂度,在实际该模型时使用时,须保证应用场景是满足或近似满足这三个基本假设的。
在实际应用中,隐马尔可夫模型适合于处理序列型数据,例如,在生物学领域该模型 被用于分析基因序列,对染色体与蛋白质等大分子结构进行分析以及对特定分子团进行定 位等。除此之外,在视频会议,人机交互,智能监控以及行为分析与检索等领域亦有应用。 根据实际应用需求,基于现有的隐马尔科夫模型也发展出了新的随机模型,例如包含可见 变量的半隐马尔科夫模型(HSMM)。
在传统观念中,电力系统与外界互联网是相互隔绝的,因此不容易受到通常意义上的 网络安全威胁。但近年来,随着网络化,信息化的发展,这一情况已发生了改变。面对层 出不穷的网络安全威胁,电力系统也无法置身事外。相应的安全防护措施需要考虑两个方 面,一方面是防止恶意软件与攻击者侵入系统,另一方面也应考虑当系统遭到入侵时能够 及时发现,这就需要从系统的操作行为中识别出异常行为。
隐马尔可夫模型的特性是可以根据观测到的序列,揭示出隐含的状态序列,因此也可 以被应用于异常检测领域。利用隐马尔可夫模型进行异常检测的主要思想是根据正常序列 训练出一个隐马尔可夫模型,利用该模型对未知序列进行计算,得出的结果如果小于指定 阈值,则认定在正常状态下该序列出现的概率很低,从而将输入序列判定为异常序列。
发明内容
本发明的目的在于提供一种基于隐马尔可夫模型的电力系统异常行为分析方法,以解 决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于隐马尔可夫模型的电力系统异常行为分析方法,包含以下步骤:
步骤1、数据的描述与预处理:对用户在shell会话中输入的操作命令序列数据进行 预处理,需要将原始的操作命令数据转化为HMM模型可以识别与分析的数据,首先需要提 取出对应的shell命令名称与相关的命令选项,将这些信息组合成命令标识符,每一条命 令均可生成对应的命令标识,之后将提取出的命令标识符按照时间顺序排列成序列;
步骤2、建模:利用已有的数据,建立HMM模型,用于描述用户的正常操作行为的轮廓,模型的观测值与输入的操作数据相对应,模型的状态值对应于用户的行为模式;完成训练样本的筛选,获取以及预处理之后,下一步是完成HMM判别模型的训练过程,HMM模 型的完整参数包括:观测结果集合X={1,2,……,N},表示实际的可观测结果;隐含状态集 合Z={1,2,……,M},表示不可见的隐含状态;初始状态概率向量Π,表示初始时刻各隐含 状态所对应的出现概率;隐含状态转移矩阵A,表示不同的隐含状态之间互相转移的概率; 观测状态转移概率矩阵B,表示每个隐含状态生成各个观测结果的概率,其中,初始状态 概率向量Π、隐含状态转移矩阵A、观测状态转移概率矩阵B也被称为HMM模型的三要素, 通常记为θ=(Π,A,B),如果确定了全部的上述三要素,HMM模型就能够被准确描述,对 于新的输入序列就能够得出对应的输出,即该序列在当前HMM模型下的出现概率;
步骤3、HMM训练:使用Baum-Welch算法进行HMM训练,使用观测结果集X={x(1), x(2),…,x(d)}作为输入,X中的每一个元素xi均为长度为T的观测序列,每一轮计算 都会根据X对当前的模型参数进行更新,直到模型参数收敛于给定的阈值或是达到指定的 迭代次数,此时算法结束,并输出最终的模型参数作为结果;
步骤4、序列检测:首先需要得到检测数据集,并对数据集进行相应的预处理,与训练数据集的预处理规则相同,检测数据集的最终处理结果也是一个由固定长度的命令序列组成的集合,命令序列的长度也与训练数据集中的序列一致。
作为本发明的进一步技术方案,步骤1还需要对训练样本数据进一步处理,通过选择 合适的子序列长度,使用该指定长度作为窗口,通过使用该窗口在超过该指定长度的命令 序列上移动,得到命令序列的多个长度相同的子序列,对于长度过短的序列,则从样本中 舍弃,从而生成供HMM模型分析的输入数据。
作为本发明的进一步技术方案,将窗口长度设置为4,最终将得到长度均为4的子序 列组成的集合作为模型的训练数据,完成模型训练之后,模型的输入数据也采取与训练数 据相同的处理方法进行预处理,提取操作命令的命令名称与命令选项,组合为命令的标识 符,同时使用窗口将命令序列转化为多个长度相同的子序列。
作为本发明的进一步技术方案,所述Baum-Welch算法包括2个步骤:①计算xx公式: Q(θ,θs)=∑z∈Zlog[P(X,z;θ)]P(z|X;θs),②更新模型参数θs+1=argmaxθQ(θ,θs),重复上述的两个步骤,进行迭代运算,直到第s+1次计算得出的模型参数θs+1收敛于指定阈值,或者迭代次数达到指定次数时,算法结束,此时,最后一轮迭代的结果θs+1为最终输 出的模型参数,HMM模型以此确定,训练过程完成。
作为本发明的进一步技术方案,训练数据集与检测数据集的命令序列长度均固定为4, 对于长度超过4的命令序列,将会被划分为若干的长度为4的子序列,对于长度不足4的 命令序列,则作为无效数据将其丢弃,不予判定。
作为本发明的进一步技术方案,动态阈值的生成方式为,在HMM模型完成训练之后, 使用新生成的HMM模型计算出训练数据集中每条命令序列对应的出现概率,并按大小排序, 之后取最小概率的100倍为判定阈值,若输入序列的出现概率小于该阈值,则判定为不合 规,若输入序列的出现概率大于该阈值,则判定为合规,若待检测序列的长度超过4,则 该序列经过预处理之后会得到若干条长度为4的子序列,对于原序列的判定规则如下:若 待检测序列的所有子序列都为正常,则原序列的判定结果为正常,若原序列中包含判定结 果为异常的子序列,则原序列被判定为异常。
与现有技术相比,本发明的有益效果是:本设计使用隐马尔可夫判别模型对电力内网 系统中的主机的操作命令序列进行分析,识别其中可能存在的异常行为序列,将其判定为 疑似异常行为,并获取执行该操作的用户。疑似异常行为与其相应的用户等信息将以告警 的形式被传达至态势感知平台管理员,由平台管理员对告警内容进行核对与判定,对于被 确定为异常行为的告警将由平台管理员进行后续的应对与处置操作,对于被认定为误判的 告警将由管理员根据判定结果对模型的参数进行修正,修改之后的模型将会被应用于下一 轮的行为判定。测试表明,该方法可以协助态势感知平台管理员对电力系统内网主机的操 作行为进行管理与监控。
附图说明
图1是HMM模型训练过程的详细说明将由如下的流程图。
图2是序列判定的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
请参阅图1和2所示,一种基于隐马尔可夫模型的电力系统异常行为分析方法,包含 以下步骤:
步骤1、数据的描述与预处理:对用户在shell会话中输入的操作命令序列数据进行 预处理,需要将原始的操作命令数据转化为HMM模型可以识别与分析的数据,首先需要提 取出对应的shell命令名称与相关的命令选项,将这些信息组合成命令标识符,每一条命 令均可生成对应的命令标识,之后将提取出的命令标识符按照时间顺序排列成序列;除此 之外,训练样本中还存在命令序列长度不一致的问题,由于HMM模型的输入命令序列必须 长度一致,所以还需要对训练样本数据进一步处理。通过选择合适的子序列长度,使用该 指定长度作为窗口,通过使用该窗口在超过该指定长度的命令序列上移动,得到命令序列 的多个长度相同的子序列,对于长度过短的序列,则从样本中舍弃,从而生成供HMM模型分析的输入数据。窗口的长度也是需要考虑的问题,长度过长会导致大量训练样本被丢弃,长度过短又无法很好地描述序列的性质,在本文中,将窗口长度设置为4,最终将得到长 度均为4的子序列组成的集合作为模型的训练数据。完成模型训练之后,模型的输入数据 也采取与训练数据相同的处理方法进行预处理,提取操作命令的命令名称与命令选项,组 合为命令的标识符,同时使用窗口将命令序列转化为多个长度相同的子序列。
步骤2、建模:利用已有的数据,建立HMM模型,用于描述用户的正常操作行为的轮廓,模型的观测值与输入的操作数据相对应,模型的状态值对应于用户的行为模式;
由于在实际情况中,用户的行为模式是非显性的属性,而且在人为判定指定的操作序 列是否为异常行为也存在诸多困难与不确定性,因此本文中的建模与学习过程属于无监督 学习,建模过程中所需的训练样本无需划分为正常集合与异常集合,而是作为一种实际情 况的近似,使用训练集的目的也是使模型能够较好地贴合实际情况。为了让训练得出的模 型更好地描述实际情况,训练模型必须包含数量足够多的样本。
完成训练样本的筛选,获取以及预处理之后,下一步是完成HMM判别模型的训练过程, HMM模型的完整参数包括:观测结果集合X={1,2,……,N},表示实际的可观测结果;隐含 状态集合Z={1,2,……,M},表示不可见的隐含状态;初始状态概率向量Π,表示初始时刻 各隐含状态所对应的出现概率;隐含状态转移矩阵A,表示不同的隐含状态之间互相转移 的概率;观测状态转移概率矩阵B,表示每个隐含状态生成各个观测结果的概率,其中,初始状态概率向量Π、隐含状态转移矩阵A、观测状态转移概率矩阵B也被称为HMM模型 的三要素,通常记为θ=(Π,A,B),如果确定了全部的上述三要素,HMM模型就能够被准 确描述,对于新的输入序列就能够得出对应的输出,即该序列在当前HMM模型下的出现概 率;
在实际应用中,人们总结出了HMM模型的所谓三个基本问题[11],分别是评估问题, 学习问题和预测问题。评估问题,即已知隐马尔可夫模型的所有三个参数θ=(Π,A,B)以及观测序列X={x1,x2,……,xt},计算该模型下的观测序列X出现的概率P(X|θ)。学 习问题,即已知观测序列X={x1,x2,……,xt},但模型参数未知,需要估计模型参数θ=(Π,A,B)使得该模型下的观测概率P(X|θ)达到最大,即根据已知的观测序列求出最有可能产生该序列的模型。预测问题,即已知模型参数θ=(Π,A,B)和观测序列X={x1,x2,……,xt}, 求出对应的状态序列,使得条件概率P(I|,θ)达到最大值,即更具已知的模型参数和观 测序列,求出最可能的隐含状态序列。在本文的应用背景中,训练建模阶段对应于隐马尔 可夫第二类问题,也就是学习问题,将经过数据处理之后获得的训练样本作为观测序列, 推导出满足该观测结果的最有可能的模型参数。完成模型构建之后,下一步的判别过程则 对应于第一类问题,即评估问题,根据已得到的模型参数,计算输入操作序列的出现概率, 进而对该操作序列的合规性进行判断。
步骤3、HMM训练:使用Baum-Welch算法进行HMM训练,使用观测结果集X={x(1), x(2),…,x(d)}作为输入,X中的每一个元素xi均为长度为T的观测序列,每一轮计算 都会根据X对当前的模型参数进行更新,直到模型参数收敛于给定的阈值或是达到指定的 迭代次数,此时算法结束,并输出最终的模型参数作为结果;
算法流程可简要概括为以下两个步骤:
1.计算xx公式,
Figure BDA0003332848860000081
2.更新模型参数
θs+1=argmaxθQ(θ,θs)。
重复上述的两个步骤,进行迭代运算,直到第s+1次计算得出的模型参数θs+1收敛于 指定阈值,或者迭代次数达到指定次数时,算法结束。此时,最后一轮迭代的结果θs+1为最终输出的模型参数,HMM模型以此确定,训练过程完成。关于HMM模型训练过程的详细 说明将由如下的流程图(图1)进行详Baum-Welch算法的详细步骤如下所述。根据概率论 的条件概率贝叶斯定理,有P(z,X)=P(X)P(z|X),由此可得:
Figure BDA0003332848860000082
根据隐马尔可夫模型的性质,可以得出:
Figure BDA0003332848860000083
。之后对上式两端取对数,可将其变换为:
Figure BDA0003332848860000084
将取对数之后的结果logP(z,X;θ)代入等式Q(θ,θs)=
z∈Zlog[P(X,z;θ)]P(z|X;θs)
之中,可以得出:
Figure BDA0003332848860000091
下一步需要计算argmaxθQ^(θ,θs),因此需要求出Q^(θ,θs)的极大值。对于此类 多元函数的极值问题,本文中使用拉格朗日乘数法,首先根据已知的原函数与约束条件构 造目标函数,目标函数可以表示为原函数与约束方程的线性组合,此处为:
Figure BDA0003332848860000092
完成目标函数的构造之后,函数L^(θ,θs)的极值在其对各自变量的偏导数为0时取 得,因此有:
Figure BDA0003332848860000093
以及
Figure BDA0003332848860000094
Figure BDA0003332848860000095
Figure BDA0003332848860000096
将上述结论运用到整个训练集上,可以将初始状态概率向量Π中的第i个元素πi的值 求出,如下:
Figure BDA0003332848860000101
其中,D为训练集中的观测序列总数,即用于训练的样本总数;x(d)示训练集中的第d 个观测序列x(d),
Figure BDA0003332848860000102
表示训练集中的第d个观测序列x(d)中的第t个观测值所对应的隐含状态。对于其余两个参数隐含状态转移矩阵A和观测状态转移概率矩阵B,也可以使用 相同的方法推导,得出A,B矩阵满足以下两式:
Figure BDA0003332848860000103
以及
Figure BDA0003332848860000104
将上述结果推广至整个训练集,可以得出矩阵A的元素满足:
Figure BDA0003332848860000105
矩阵B的元素满足:
Figure BDA0003332848860000106
其中T为训练样本中观测序列的长度。
整理可得,第s+1次迭代计算得出的模型参数为:
θs+1=(π(s+1),A(s+1),B(s+1))
Figure BDA0003332848860000111
Figure BDA0003332848860000112
Figure BDA0003332848860000113
上式中,θs为第s次迭代算出的模型参数,当且仅当训练集中的第d个观测序列x(d) 中的第t个观测值为j时,
Figure BDA0003332848860000114
为1,否则该项为0。对于式中出现的条件概率,可以进行如下变换
Figure BDA0003332848860000115
Figure BDA0003332848860000116
通过使用上述算法进行迭代运算,最终得出隐马尔可夫模型三个基本参数。在实际应 用中,为了防止出现死循环或长时间运算导致占用大量主机资源,Baum-Welch算法的实现 一般采用固定迭代次数,本文中的算法迭代次数选取为15次,当运算次数达到指定次数 之后,算法结束,选取最后一次运算得出的三大参数的结果作为模型参数的最终结果,完 成模型的训练。此外,在程序实际运行过程中,参数值往往十分接近于零,容易引发程序出现数据下溢,进而导致错误的结果,因此在实际编程时需要上述式子进行对数化处理,从而排除接近于0的微小数值所造成的不利影响。
步骤4、序列检测:首先需要得到检测数据集,并对数据集进行相应的预处理,与训练数据集的预处理规则相同,检测数据集的最终处理结果也是一个由固定长度的命令序列组成的集合,命令序列的长度也与训练数据集中的序列一致。本文中,训练数据集与检测数据集的命令序列长度均固定为4。对于长度超过4的命令序列,将会被划分为若干的长 度为4的子序列,对于长度不足4的命令序列,则作为无效数据将其丢弃,不予判定。序 列判定的流程图二所示。
对于操作序列的出现概率即运算结果,需要借助阈值进行判断。如果采用固定阈值, 则灵活性较差,由于在本文中,训练数据集默认为合规数据,而判定结果本质上是判定待 检测序列的出现概率是否过度偏离训练数据集中的序列所对应的出现概率,因此,本文提 出一种基于训练数据集的动态阈值。动态阈值的生成方式为,在HMM模型完成训练之后,使用新生成的HMM模型计算出训练数据集中每条命令序列对应的出现概率,并按大小排序。之后取最小概率的100倍为判定阈值。若输入序列的出现概率小于该阈值,则判定为不合规,
若输入序列的出现概率大于该阈值,则判定为合规。根据前文所述,若待检测序列的 长度超过4,则该序列经过预处理之后会得到若干条长度为4的子序列,对于原序列的判定规则如下:若待检测序列的所有子序列都为正常,则原序列的判定结果为正常,若原序列中包含判定结果为异常的子序列,则原序列被判定为异常。
4.结论与展望
本文提出了一种基于HMM模型的异常操作序列检测的方法。作为电力内网系统的一种 异常检测的设想与尝试,本方法目前已在现场应用与测试。异常行为检测是一项复杂且有 挑战性的课题,最大的难点在于异常操作行为的不确定性,无论是研发人员,现场运维人 员或是系统管理人员,对于用户操作行为中的异常行为都还缺乏清晰的认识。因此,目前 机器学习方法仅仅是作为一种尝试性的辅助手段引入,希望能够协助运维与管理人员对异 常行为进行发现与分析,解决完全由人工进行统计与分析带来的巨大工作量。
目前,这套基于HMM模型的异常行为判定方法属于无监督学习,其结果必然会存在差 错与误判,事实上,即便是采用有监督学习,人工智能算法的判定结果也无法做到百分百 准确。因此,需要相关人员对算法的分析结果进行人工再次分析,得出操作行为的最终判 定结果,并制定相应的黑名单/白名单,对算法判定结果进行修正。这一点与计算机辅助诊断(CAD)相类似,引入算法的目的是为了辅助人员进行相关的工作,减轻人员的工作 量,提高工作效率,而非完全取代人员。
未来,异常行为的判定的重点应该围绕对于异常行为的更精确的定义与更细化的描述, 进而建立更合适的模型对用户操作行为进行描述与分析。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背 离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从 哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含 一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将 说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可 以理解的其他实施方式。

Claims (6)

1.一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,包含以下步骤:
步骤1、数据的描述与预处理:对用户在shell会话中输入的操作命令序列数据进行预处理,需要将原始的操作命令数据转化为HMM模型可以识别与分析的数据,首先需要提取出对应的shell命令名称与相关的命令选项,将这些信息组合成命令标识符,每一条命令均可生成对应的命令标识,之后将提取出的命令标识符按照时间顺序排列成序列;
步骤2、建模:利用已有的数据,建立HMM模型,用于描述用户的正常操作行为的轮廓,模型的观测值与输入的操作数据相对应,模型的状态值对应于用户的行为模式;完成训练样本的筛选,获取以及预处理之后,下一步是完成HMM判别模型的训练过程,HMM模型的完整参数包括:观测结果集合X={1,2,……,N},表示实际的可观测结果;隐含状态集合Z={1,2,……,M},表示不可见的隐含状态;初始状态概率向量Π,表示初始时刻各隐含状态所对应的出现概率;隐含状态转移矩阵A,表示不同的隐含状态之间互相转移的概率;观测状态转移概率矩阵B,表示每个隐含状态生成各个观测结果的概率,其中,初始状态概率向量Π、隐含状态转移矩阵A、观测状态转移概率矩阵B也被称为HMM模型的三要素,通常记为θ=(Π,A,B),如果确定了全部的上述三要素,HMM模型就能够被准确描述,对于新的输入序列就能够得出对应的输出,即该序列在当前HMM模型下的出现概率;
步骤3、HMM训练:使用Baum-Welch算法进行HMM训练,使用观测结果集X={x(1),x(2),…,x(d)}作为输入,X中的每一个元素xi均为长度为T的观测序列,每一轮计算都会根据X对当前的模型参数进行更新,直到模型参数收敛于给定的阈值或是达到指定的迭代次数,此时算法结束,并输出最终的模型参数作为结果;
步骤4、序列检测:首先需要得到检测数据集,并对数据集进行相应的预处理,与训练数据集的预处理规则相同,检测数据集的最终处理结果也是一个由固定长度的命令序列组成的集合,命令序列的长度也与训练数据集中的序列一致。
2.根据权利要求1所述的一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,步骤1还需要对训练样本数据进一步处理,通过选择合适的子序列长度,使用该指定长度作为窗口,通过使用该窗口在超过该指定长度的命令序列上移动,得到命令序列的多个长度相同的子序列,对于长度过短的序列,则从样本中舍弃,从而生成供HMM模型分析的输入数据。
3.根据权利要求2所述的一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,将窗口长度设置为4,最终将得到长度均为4的子序列组成的集合作为模型的训练数据,完成模型训练之后,模型的输入数据也采取与训练数据相同的处理方法进行预处理,提取操作命令的命令名称与命令选项,组合为命令的标识符,同时使用窗口将命令序列转化为多个长度相同的子序列。
4.根据权利要求3所述的一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,所述Baum-Welch算法包括2个步骤:①计算xx公式:Q(θ,θs)=∑z∈Zlog[P(X,z;θ)]P(z|X;θs),②更新模型参数θs+1=argmaxθQ(θ,θs),重复上述的两个步骤,进行迭代运算,直到第s+1次计算得出的模型参数θs+1收敛于指定阈值,或者迭代次数达到指定次数时,算法结束,此时,最后一轮迭代的结果θs+1为最终输出的模型参数,HMM模型以此确定,训练过程完成。
5.根据权利要求1所述的一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,训练数据集与检测数据集的命令序列长度均固定为4,对于长度超过4的命令序列,将会被划分为若干的长度为4的子序列,对于长度不足4的命令序列,则作为无效数据将其丢弃,不予判定。
6.根据权利要求1所述的一种基于隐马尔可夫模型的电力系统异常行为分析方法,其特征在于,动态阈值的生成方式为,在HMM模型完成训练之后,使用新生成的HMM模型计算出训练数据集中每条命令序列对应的出现概率,并按大小排序,之后取最小概率的100倍为判定阈值,若输入序列的出现概率小于该阈值,则判定为不合规,若输入序列的出现概率大于该阈值,则判定为合规,若待检测序列的长度超过4,则该序列经过预处理之后会得到若干条长度为4的子序列,对于原序列的判定规则如下:若待检测序列的所有子序列都为正常,则原序列的判定结果为正常,若原序列中包含判定结果为异常的子序列,则原序列被判定为异常。
CN202111286050.7A 2021-11-02 2021-11-02 一种基于隐马尔可夫模型的电力系统异常行为分析方法 Pending CN114218998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111286050.7A CN114218998A (zh) 2021-11-02 2021-11-02 一种基于隐马尔可夫模型的电力系统异常行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111286050.7A CN114218998A (zh) 2021-11-02 2021-11-02 一种基于隐马尔可夫模型的电力系统异常行为分析方法

Publications (1)

Publication Number Publication Date
CN114218998A true CN114218998A (zh) 2022-03-22

Family

ID=80696415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111286050.7A Pending CN114218998A (zh) 2021-11-02 2021-11-02 一种基于隐马尔可夫模型的电力系统异常行为分析方法

Country Status (1)

Country Link
CN (1) CN114218998A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131874A (zh) * 2022-06-29 2022-09-30 深圳市神州云海智能科技有限公司 一种用户行为识别预测方法、系统及智能安全帽
CN117633787A (zh) * 2024-01-25 2024-03-01 北京安领可信网络科技有限公司 一种基于用户行为数据的安全分析方法及系统
CN117896181A (zh) * 2024-03-14 2024-04-16 山东云天安全技术有限公司 基于hmm模型的异常数据确定方法、装置、介质和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131874A (zh) * 2022-06-29 2022-09-30 深圳市神州云海智能科技有限公司 一种用户行为识别预测方法、系统及智能安全帽
CN115131874B (zh) * 2022-06-29 2023-10-17 深圳市神州云海智能科技有限公司 一种用户行为识别预测方法、系统及智能安全帽
CN117633787A (zh) * 2024-01-25 2024-03-01 北京安领可信网络科技有限公司 一种基于用户行为数据的安全分析方法及系统
CN117896181A (zh) * 2024-03-14 2024-04-16 山东云天安全技术有限公司 基于hmm模型的异常数据确定方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
Khan et al. Malicious insider attack detection in IoTs using data analytics
CN111163057B (zh) 一种基于异构信息网络嵌入算法的用户识别系统及方法
CN108718310B (zh) 基于深度学习的多层次攻击特征提取及恶意行为识别方法
CN114218998A (zh) 一种基于隐马尔可夫模型的电力系统异常行为分析方法
CN103870751B (zh) 入侵检测方法及系统
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN113312447B (zh) 基于概率标签估计的半监督日志异常检测方法
CN108462708B (zh) 一种基于hdp-hmm的行为序列的检测方法
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN112910859A (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
Bateni et al. Using Artificial Immune System and Fuzzy Logic for Alert Correlation.
CN114328106A (zh) 日志数据处理方法、装置、设备及存储介质
CN113269228A (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
Zhang et al. The classification and detection of malware using soft relevance evaluation
CN115859305B (zh) 一种基于知识图谱的工控安全态势感知方法及系统
CN116467720A (zh) 一种基于图神经网络的智能合约漏洞检测方法及电子设备
CN115643153A (zh) 基于图神经网络的报警关联分析方法
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
CN115085948A (zh) 基于改进d-s证据理论的网络安全态势评估方法
CN113468540A (zh) 基于网络安全大数据的安全画像处理方法及网络安全系统
Setitra et al. Combination of Hybrid Feature Selection and LSTM-AE Neural Network for Enhancing DDOS Detection in SDN
CN117407733B (zh) 一种基于对抗生成shapelet的流量异常检测方法及系统
CN115865458B (zh) 基于lstm和gat算法的网络攻击行为检测方法、系统及终端
Bunke et al. Classification and detection of abnormal events in time series of graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination