CN111611774B

CN111611774B - 一种运维操作指令安全分析方法、系统及存储介质

Info

Publication number: CN111611774B
Application number: CN202010355896.0A
Authority: CN
Inventors: 梁野; 管荑; 高明慧; 王文婷; 张志军; 蒋正威; 高英健; 金学奇; 王昊; 刘勇; 王春艳; 刘新; 林琳; 马雷; 肖艳炜
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Beijing Kedong Electric Power Control System Co Ltd; NARI Group Corp; State Grid Electric Power Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Beijing Kedong Electric Power Control System Co Ltd; NARI Group Corp; State Grid Electric Power Research Institute
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-08-18
Anticipated expiration: 2040-04-29
Also published as: CN111611774A

Abstract

本发明公开了一种运维操作指令安全分析方法、系统及存储介质，方法包括以下步骤：一)读取历史操作指令数据，对历史操作指令数据的字符集进行字符向量化处理；二)将向量化后的操作指令数据作为输入，建立神经网络模型，形成操作指令数据的网状关系图；三)对网状关系图中的操作指令字符数据进行数据降维处理；四)数据降维处理完毕后进行数据聚类处理；五)根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据，将所有黑白灰名单输出数据写入指定数据库中。本发明解决了运维操作指令安全分析过程中难以人工标注类别且标注过于繁琐等问题，提高了运维操作指令安全分析自动化程度。

Description

一种运维操作指令安全分析方法、系统及存储介质

技术领域

本发明涉及一种运维操作指令安全分析方法，属于电力系统运维操作的过程中操作指令安全性分析技术领域。

背景技术

近年来，随着中国制造2025国家新型战略转型提出的“智能制造”，数据信息的智慧化、智能化处理成为目前主流的研究方向。在国家电网公司电力系统的实际运营过程中，以及其营销策略更加系统性，科学性和可操作性的背景之下。企业运营在电子商务和实际操作信息采集等方面加强了大数据的研究，各大主流网络平台，电子商务对用户行为的大数据研究尤为显著，例如应用K-means的方法，展开对用户行为的单因素活多因素概率分析和属性分析，同机器学习的方法横向对比，选择其中最合适的数据处理方法。另外随着智能手机的普及，移动APP已经成为日常生活中必不可少的一部分，大数据分析可以对提升用户服务质量，分析用户需求和行为特征分析等，成为处理用户特征的另一种可行的方法。在处理IPTV视频用户行为的过程中，机器学习中的DNN深度学习方法可以更好的处理复杂性和多样性的大数据信息，并且达到数据收敛快，分类准确度高等优点。同时，网络教育平台在课程资源推送上，利用互联网和信息化的机器学习技术，建立用户画像，分析用户，并且提供用户提供合适的课程资源。随着机器学习中自然语言处理(NLP)及其工具包的应用，及数据挖掘，尤其是对于文字或操作代码指令的大数据挖掘方式能够得到较好的结果。人工智能与自然语言处理(NLP)的结合可以有效的实现语音控制智能家居，同时也可以将用户分类，对安全操作等进行有效的数据分析。

在以上技术及方法的背景之下，有关运维操作指令的采集和录用，实现用户行为特征提取及安全预警建模成为可能,特别是对其中的用户异常行为的感知和预警，对于提升整个系统的安全防护等级具有十分关键的作用和积极的意义。而在云计算和大数据平台的环境下，用户实体行为分析(UEBA)可以分析大量日志并加强用户的异常行为安全审计。讨论运维操作来确定用户行为和系统安全，主要需分析安全事件从传统攻防转向侧重于数据泄露、数据篡改等事件的外部威胁检测。UEBA技术与解决方案的比较，也充分考虑了多种场景下的用户异常和安全处理方法。

运维操作指令是操作Linux系统的用户实体行为分析的核心部分，在电力系统运维操作的过程中操作指令安全性分析的过程中，存在操作指令安全性分析难以人工标注类别且人工标注类别过于繁琐等方面的问题，虽然许多行业专家与学者们都曾按照实际项目的经验及不同技术层面来定义和分析在不同环境下的运维操作指令，但目前没有一种通用并且完善的方法来处理和定义诸多指令集，运维操作指令安全分析技术仍有待长期的探索、深化研究。

发明内容

本发明所要解决的技术问题是：运维操作指令安全分析过程中难以人工标注类别且标注过于繁琐。

为解决上述技术特征，本发明提供一种的运维操作指令安全分析方法，包括以下步骤：

步骤一，读取历史操作指令数据，对历史操作指令数据的字符集进行字符向量化处理；

步骤二，将向量化后的操作指令数据作为输入，建立神经网络模型，形成操作指令数据的网状关系图；

步骤三，对网状关系图中的操作指令字符数据进行数据降维处理；

步骤四，数据降维处理完毕后进行数据聚类处理；

步骤五,输出数据：根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据。

一种运维操作指令安全分析系统，包括以下程序模块：

向量化程序模块:读取历史操作指令数据，对历史操作指令数据的字符集进行字符向量化处理；

神经网络模型程序模块:将向量化后的操作指令数据作为输入，建立神经网络模型，形成操作指令数据的网状关系图；

降维程序模块:对网状关系图中的操作指令字符数据进行数据降维处理；

聚类程序模块:数据降维处理完毕后进行数据聚类处理；

输出程序模块:根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据。

一种运维操作指令安全分析系统的存储介质，运行以下程序模块：

聚类程序模块:数据降维处理完毕后进行数据聚类处理；

本发明所达到的有益效果：本发明的方法及装置实现了对运维操作指令的安全分析、聚类及黑白灰名单分类，解决了运维操作指令安全分析过程中难以人工标注类别且标注过于繁琐等问题，提高了运维操作指令安全分析自动化程度，帮助电力监控系统识别非法操作，及时发现隐藏风险。

本发明的运维操作指令安全分析方法在电力监控系统运维操作的场景下，以Linux系统运维操作指令为主的数据集为属性特征，运用主流网络平台对字符的大数据研究方法，利用机器学习中的无监督学习将运维操作指令与自然语言处理相结合，最终实现较好的分辨异常用户操作指令集和正常用户操作指令集的结果，建立运维操作指令相关的黑白名单，进而增强了系统安全。

附图说明

图1为用户运维操作令安全分析模型总体框架示意图；

图2为自然语言处理(NLP)流程图；

图3线性神经网络结构示意图；

图4为t-SNE降维Local本地带参数操作指令数据结果示意图；

图5为t-SNE降维SSH远程带参数操作指令数据示意图；

图6为t-SNE降维Local本地带参数操作指令数据示意图；

图7为t-SNE降维SSH远程带参数操作指令数据示意图；

图8为PCA降维Local本地纯操作指令数据示意图。

具体实施方式

实施例1

图1用户运维操作令安全分析模型总体框架示意图，在理论基础和设备运维操作的场景基础之上，构建用户运维操作指令安全分析模型，本发明的一种运维操作指令安全分析方法，包括下以步骤：

1)从指定数据库读取历史数据，分别为SSH(Secure Shell的缩写，由IETF的网络工作小组(Network Working Group)所制定，SSH为建立在应用层和传输层基础上的安全协议。)远程操作指令集(133142组指令数据)和Local本地操作指令集(8526组操作指令数据)，所述操作指令数据为Linux系统正常操作的常用指令，如：ls,rm,vim等；

2)在读入数据之后，对操作指令数据的字符集进行字符数据向量化处理，利用自然语言处理(NLP)中的独热编码(one-hot representation)以及词向量(Word Embedding)方法将字符数据数字化、向量化。

自然语言处理(NLP)过程如图2所示，整个自然语言处理算法对字符文本的处理目的就是将字符文本进行有效的注释，因此处理过程中依次包括将指令字符集进行下述操作：

符号化；

句子和词的切词分割；

针对词性的标注；

字符和词的形态分析注释；

字符命名实体识别；

词相关的语法解析；

共指消解(coreference resolution)来识别不同关联字符文本中；

相同字符实体的不同标识符；

以及字符文本注释器。

步骤二，将向量化后的操作指令数据作为输入，建立神经网络模型，形成操作指令数据的网状关系图；神经网络模型包括网络拓扑、节点特点和学习规则等要素。图3线性神经网络结构示意图。

本发明选择并应用word2vec模型产生与词向量相关的双层浅神经网络模型，因为word2vec模型在文字处理过程中可以更容易再次构建与语言学相关的词向量，而机器指令也同样是一种人类发明的语言，只是其沟通对象为电脑和机器；

在word2vec模型的应有过程中，采用两个模型：词袋模型(word embedding)和跳词模型(Skip-gram)。

步骤三，对网状关系图中的操作指令字符数据进行数据降维处理，由于要缓解与防止数据的维度灾难，因此采用积极的降维处理。降维方法为主成分分析(PCA)。

步骤四，数据降维处理完毕后进行数据聚类处理，选择k均值(k-means)的聚类方法，该方法是一种应用较为广泛的聚类方法，属于标准的无监督学习；该方法通过计算数据之间的欧式距离来确定与相似数据相同欧式距离的质心，从而寻找到数据内在的分布结构，如此即可对未知标签的数据进行数据分类和实现异常数据检测。

步骤五,输出数据：根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据，将所有黑白灰名单输出数据写入指定数据库中。

形成输出数据后,可选地,也可以进行专家导向的二次筛选：判断形成的输出数据分类是否正确，如果某一操作命令数据类型与建立知识库中黑白灰名单设定的操作命令数据类型不一致，由认为输出数据分类是错误的，否则为正确的；对机器分类正确的数据留存在数据库中，对机器分类错误的数据进行二次筛选、分类，移至正确的黑白灰名单中，并且再次存入指定数据库的输入端，作为用户运维操作指令安全分析模型的新学习数据，从而在每一次模型重新训练的过程中，通过更加准确的数据来不断优化模型。

实施例2

在步骤三中，降维方法为t-分布领域嵌入算法(t-SNE)，与主成分分析(PCA)方法相比，两种降维处理的方法各自有各自的优缺点，然而在对于当前场景下的实际数据，两种方法分别能够对比着输出数据。

其它技术特征与实施例1相同。

实施例3

在步骤四中，聚类处理方法还可以选择K-中心点算法、CURE，Chameleon和BIRCH算法等。

其它技术特征与实施例1相同。

实验分析过程

分析过程运用上述的运维操作指令安全分析方法实施如下的实验分析。

1)数据提取:

数据提取完全来自于电力监控系统内部服务器上的历史数据，从2017年12月至2018年9月。所有在此服务器上登录的用户所操作过的指令完全被服务器记录和保存下来，以达梦数据库为数据存储工具，所提取的数据为达梦数据库的历史操作指令数据Operation列，表1为数据简析表。

表1

共有四个分组实验，每个实验包含两种降维方法，通过调整PCA和t-SNE进行降维，再通过K-means进行聚类，最后对聚类结果进行评价，在此使用轮廓系数(silhouettecoefficient)。

2)聚类结果分析

在经过四组数据的计算分析后，得到了四组不同的聚类数据，并且可视化，选取其中聚合度，收敛度较好的两组展示和分析如图4和图5。

如图4所示，可以看到t-SNE降维Local本地带参数操作指令数据在k-means聚类后的结果示意图，其中三类分别用绿色，蓝色和黄色来分别表示白名单，黑名单和灰名单，因为数据量较少(8526组数据)，得到的可视化图像并不是很明显，只是能简略的看出白名单的数据(绿色)和黑名单的数据(蓝色)分别聚在了一起，而无法判断类别的数据离散得分布在整个数据集的周围，则作为灰名单的数据(黄色)。

如图5所示，可以看到t-SNE降维SSH远程带参数操作指令数据在k-means聚类后的结果图，其中三类分别用绿色，蓝色和黄色来分别表示白名单，黑名单和灰名单，因为数据量更多(133142组数据)，得到的可视化图像变得更加明显，可以直观的看出白名单的数据(绿色)和黑名单的数据(蓝色)分别聚在了一起，而无法判断类别的数据也形成了外环的聚类，与黑白名单的数据很明显的分开，而自成一类，形成更具形象的灰名单。三个类别的聚合度与收敛度可以清晰的在图中所见，并且不同的聚类效果明显，可以人为识别出其属性之间的关联性。

3)数据分析结果的可视化展示

增加文本可视化可以让聚类更加准确清晰的表达在图中，尤其是其中最常出现的字符文本。在训练模型应用word2vec的过程中，模型将自动在学习过程中创建数据词典，此词典包含了只针对此字符文本数据集的关键词，常用词，以及相关度最大，最常用的字段或词组。在此本文展示三个实验中的增加文本可视化后的数据图像。

定义操作指令黑白灰名单，白名单是指读取，查询，对系统无任何修改的操作指令如LS这类的无危害指令。黑名单则是删除，修改，存储等指令，这类指令虽然也为Linux系统常用指令，但此类指令会对系统造成修改，而对系统本身文件有潜在的威胁，一旦操作失误或被非法人员操作，则会对整个电力系统造成危害，如RM，Chmod等。而灰名单则是处于两者之间的指令。在数据处理过程中，本文保留了用户操作过程中所有键盘输入的指令，包括键入错误的非Linux系统正常操作的指令，以此来增加用户的惯用键入方式的属性关联。在输出数据中也很明显的观察到了这些指令多于可以识别到的Linux系统正常操作指令，输入错误指令多于输入正确指令，这更加符合人为的操作习惯。

如图6所示，t-SNE降维Local本地带参数操作指令数据在清除噪音后的可视化的文本标识聚类图，在此图中可以在右上角和右下角较为清楚的看到两个主要类别的数据，由于本地数据较少，黑白名单其实并不明显，而且如果从人的角度来观察机器分类，依然缺少许多相关判别异常指令的依据，但也能观察到右下角的聚类数据如LS与BIN分在了一类，这一类较为接近白名单操作，只是读取和查阅系统文件，并没有更改，删除系统文件。

如图7所示，t-SNE降维SSH远程带参数操作指令数据在清除噪音后的可视化的文本标识聚类图，在此图形中，由于远程操作拥有更多的数据量，所得的文本可视化聚类变得更加明显和贴近事实，可见右上角的数据更接近于白名单，如：LS，Pwd，CD，CAT，Desktop等。而左下角的数据更加接近黑名单的操作指令，如：RM，Chmod，Chown，Chgrp。右下角的数据较为贴近灰名单，因为在人为操作过程中，键入错误或者键入一些相关的文件名等操作并不能传统的归类于黑白名单，因此更大量的数据则被定义为无法判断的灰名单，再由专业人员筛选其中有用的信息，放入正确的黑白名单之中，或留于灰名单。

同样在建模过程中，应用PCA降维，由于主成分分析法本身的线性限制，导致了聚类的离散性增强，收敛度不如t-SNE的聚类方法，且时间较长，如图8所示，PCA降维Local本地纯操作指令数据在清除噪音后的可视化的文本标识聚类图，在该图中很明显的观察出所有指令信息几乎无法聚类，而且零散的分布在整张图像的随机位置。只能观察到某些指令相似度较为接近，某些指令相似度较为远离。外加本地操作指令数据量较少，更增加了其离散度。因此利用PCA降维在此场景条件下并不合适。

4)安全分析模型评价方法

将原始符合向量化后的数据聚类，对于每个向量对应的数据组，可以分别计算其轮廓系数，设数据集中的一点为n，len(n)表示向量n到它所在的cluster中其它点的距离，对于向量n到它所在的cluster中其它点的距离总和，设为x(n)，再应用平均值的方法进行计算；对于向量n到它相邻距离最近的cluster中其它点的平均距离，设为y(n),再应用最小值进行计算，

因此可得：

x(n)＝average(∑len(n)) (1)

y(n)＝min∑(average(len(n))) (2)

则向量n的轮廓系数为：

轮廓系数的结果介于[-100％,100％]之间，趋近于100％代表收敛度，聚合度都相对较优。

技术效果：

四组实验对比的结果是应用t-SNE降维SSH远程操作指令带参数数据为其中最优。

1)首先对比t-SNE降维和PCA降维的实验结果，表2为实验结果对比表，在表2中分析得出：在模型数据分析中，数据应用t-SNE降维会略优于PCA，且运算时间和计算速度上，t-SNE也明显高于PCA。因为PCA降维算法有线性的限制，但t-SNE降维算法没有线性限制。

2)操作指令带参数要比纯操作指令得到更优的结果，因为在自然语言处理中，更多的上下文特征和更符合用户习惯输入的结构属性影响了最终的聚类结果，纯操作指令相比于带参数的操作指令缺乏一定的属性信息，所以分析得出在运维操作指令符号集进行无监督学习的神经网络训练时，越多的用户运维操作信息则越有利于得到更加接近真实的聚类效果。

3)数据量的大小直接影响了最后聚类的结果，可以通过表2观察得出数据量的差异影响最终轮廓系数的变化，因SSH远程操作数据量大大多于Local本地操作数据量，则轮廓系数越接近于100％，聚类效果更加明显。

表2

本发明针对电力监控系统运维操作指令安全性分析过程中，难以人工标注类别且标注过于繁琐等问题提出了解决方案，设计了一套基于无监督学习及自然语言处理算法的运维操作指令安全分析模型及针对此安全分析模型的评价算法，该安全分析模型实现了对运维操作指令的安全分析和聚类处理、运维操作指令的黑白灰名单分类，该模型可以通过实际运营过程中的人工修正，可以达到更好的适应性和鲁棒性，并通过实例分析，例证了本文提出安全性分析方法的有效。

根据实验结果分析，提出安全分析结果受影响因素及采用降维算法的影响，实现了对实验结果的剖析，通过实验数据计算与分析，分析得出如何输入更优的数据类型及更优的降维方法，解决了运维操作指令安全分析各关联要素的有效挖掘，提高了安全分析方法的可操作性和安全分析结果的精确性，帮助系统运维管理人员及时发现危险操作，定位非法用户，排除隐藏威胁，提升电力监控系统安全防护能力。

本发明的运维操作指令安全分析系统，包括以下程序模块：

聚类程序模块:数据降维处理完毕后进行数据聚类处理；

以上已以较佳实施例公开了本发明，然其并非用以限制本发明，凡采用等同替换或者等效变换方式所获得的技术方案，均落在本发明的保护范围之内。

Claims

1.一种运维操作指令安全分析方法，其特征在于，包括以下步骤：

步骤四，数据降维处理完毕后进行数据聚类处理；

步骤五,根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据,包括以下步骤：

将所有黑白灰名单输出数据写入指定数据库中；

判断形成的输出数据分类是否正确，如果某一操作命令数据类型与建立的安全知识库中黑白名单对应操作命令数据分类不一致，则认为输出的数据分类是错误的，否则为正确的；

对分类正确的数据留存在指定数据库中，对分类错误的数据进行二次筛选、分类，移至正确的黑白灰名单中，并且再次存入数据库的输入端，作为用户运维操作指令安全分析模型的新学习数据。

2.根据权利要求1所述的运维操作指令安全分析方法，其特征在于：在所述步骤一中，历史操作指令数据包括SSH远程操作指令集和Local本地操作指令集。

3.根据权利要求1所述的运维操作指令安全分析方法，其特征在于：在所述步骤一中，利用自然语言处理中的独热编码以及词向量方法将字符数据向量化。

4.根据权利要求3所述的运维操作指令安全分析方法，其特征在于：在字符数据向量化处理过程中，依次包括下述操作：

符号化；

句子和词的切词分割；

针对词性的标注；

字符和词的形态分析注释；

字符命名实体识别；

词相关的语法解析；

共指消解来识别不同关联字符文本中；

相同字符实体的不同标识符；

以及字符文本注释器。

5.根据权利要求1所述的运维操作指令安全分析方法，其特征在于：在步骤二中，选择并应用word2vec模型产生与词向量相关的双层浅神经网络模型。

6.根据权利要求5所述的运维操作指令安全分析方法，其特征在于：在word2vec模型的应有过程中，采用两个模型：词袋模型和跳词模型。

7.根据权利要求5所述的运维操作指令安全分析方法，其特征在于：在步骤三中，降维方法为主成分分析或t-分布领域嵌入算法。

8.根据权利要求1所述的运维操作指令安全分析方法，其特征在于：在步骤四中，聚类处理方法为：选择k均值的聚类方法、K-中心点算法、CURE、Chameleon或BIRCH算法。

9.一种运维操作指令安全分析系统，其特征在于，包括以下程序模块：

聚类程序模块:数据降维处理完毕后进行数据聚类处理；

输出程序模块:根据实际的业务场景对步骤四聚类后的运维指令数据集进行黑白灰名单的定义和整理，形成输出数据，执行以下步骤：

将所有黑白灰名单输出数据写入指定数据库中；

10.一种运维操作指令安全分析系统的存储介质，其特征在于，运行以下程序模块：

聚类程序模块:数据降维处理完毕后进行数据聚类处理；

将所有黑白灰名单输出数据写入指定数据库中；