CN111680856A

CN111680856A - 电力监控系统用户行为安全预警方法和系统

Info

Publication number: CN111680856A
Application number: CN202010037288.5A
Authority: CN
Inventors: 管荑; 王文婷; 刘新; 刘勇; 林琳; 马雷; 李勃; 梁野; 马力; 何纪成; 王昊; 赵航; 蒋正威; 金学奇; 肖艳炜; 孔飘红
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Beijing Kedong Electric Power Control System Co Ltd; NARI Group Corp; State Grid Electric Power Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd; Beijing Kedong Electric Power Control System Co Ltd; NARI Group Corp; State Grid Electric Power Research Institute
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-09-18
Anticipated expiration: 2040-01-14
Also published as: CN111680856B

Abstract

本发明公开了电力监控系统用户行为安全预警方法和系统，方法包括：采集电力监控系统的安全监控日志；基于采集到的安全监控日志提取用户操作信息，对用户操作信息进行用户行为数据特征化处理；将得到的用户行为特征数据输入预先训练完成的机器学习模型中最终得到基于用户行为安全等级的预警提示信息。本发明提出了基于用户行为安全风险等级划分的安全预警方法，为提高电力监控系统数据关联分析的有效性和准确性；本发明提出了基于用户行为安全等级划分方法，实现对用户行为风险水平的判断，在电力监控系统上给出相应的警报，及时提醒现场监控人员及时进行警报操作，保障了电力监控系统的安全性和电力安全监控功能实现。

Description

电力监控系统用户行为安全预警方法和系统

技术领域

本发明属于电力系统安全监控技术领域，具体涉及电力监控系统用户行为安全预警方法和系统。

背景技术

在传统的危害网络安全的行为如黑客攻击、病毒入侵之外，由内部用户异常操作引起的违反安全策略的行为也对系统安全运行构成了极大的威胁。对这些异常或违规操作，使用传统的安全防范措施例如防火墙等检测效果都不理想。

电力系统每天都会生成大量数据。安全评估是电力系统二次系统安全与保护的重要组成部分。然而，目前电力监控系统安全防护产品形成了安全孤岛，产品之间无法做到有效的串联，针对安全风险做出的安全防护措施也无法告知全网。无法有效的针对已知风险进行有效预防；当前电力监控系统安全防护手段均是基于规则以及历史数据的，数据之间的关联度比较低，无法对大量的实时数据进行有效分析，预警结果极大程度的依赖于各自安全产品的规则，针对未知威胁缺乏有效的分析手段；当前电力监控系统无法根据告警结果实时联动安全策略，无法根据当前存在的安全风险下发具有针对性的安全策略，安全防护存在滞后性；当前电力监控系统缺乏有效的安全评价体系，安全防护工作没有进入一个良性的循环，只针对安全防护问题进行被动的防御。

综上，为解决当前安全防护工作中存在的一系列管理方面造成的风险，有必要针对上述问题集中进行技术攻关，从而降低电力监控系统存在的一系列问题，进而保障电力监控系统的稳定运行。

发明内容

为解决上述现有技术中存在的问题，即当前电力监控系统安全防护手段均是基于规则以及历史数据的，数据之间的关联度比较低，无法对大量的实时数据进行有效关联分析，识别存在安全风险用户。本发明提供了电力监控系统用户行为安全预警方法，包括：

采集电力监控系统的安全监控日志；

基于采集到的安全监控日志提取用户操作信息，对用户操作信息进行用户行为数据特征化处理，得到处理后的用户行为特征数据；将得到的用户行为特征数据输入训练完成的机器学习模型中得到基于用户行为安全等级的预警提示。

进一步地，用户行为数据特征化处理包括对用户操作信息进行数字转化获得用户行为数据特征。

再进一步地，提取用户操作信息之后还包括根据用户操作信息确定用户操作路径和操作指令；根据用户操作路径和操作指令划分用户行为安全等级，并将表示用户行为安全等级的安全标签作为用户行为数据特征。

再进一步地，用户行为数据特征化处理还包括基于已获得的用户行为数据特征利用偏最小二乘回归获得计算结果，将其作为扩展的用户行为特征，计算方法包括：

PLR模型输入为p个因变量y₁,y₂,y₃…y_p与m个自变量x₁,x₂,x₃…x_m，所述因变量和自变量都从已经获得的用户行为数据特征中选定，其中因变量包括安全标签，因变量组和自变量组的n次标准化观测数据阵分别记为：

建立PLR模型如下：

其中λ_1k表示自变量集中所提取的r个成分中选取的成分t₁所对应的回归系数，λ_2k表示自变量集中所提取的r个成分中选取的成分t₂所对应的回归系数，w_h表示矩阵E₀ ^TF₀F₀ ^TE₀的特征值对应的特征向量，

表示特征向量w_h的变换矩阵，对应的特征向量的变化矩阵

中的值分别为

h是从提取的r个成分中随机抽取的成分，

分别表示从因变量y_j中随机抽取的g个因变量y₁,y₂,…y_g对应的预测值，j＝1,2,…,p。

进一步优选地，h取值范围为小于等于r数值的五分之一的整数，表达式如：h＝[r/5]；g取值范围为小于等于自变量个数m数值的三分之一的整数，表达式如：g＝[m/3]。

再进一步地，其中“用户行为数据特征化处理包括对已获得的用户行为数据标定时间序列点t，基于已获得的用户行为数据特征利用时间序列分析算法获得预测结果，将其作为扩展的用户行为特征，其中时间序列分析算法公式，如下：

其中“m”表示时间序列数据的总数，“n”表示当前数据序列的数量，“x_t”表示对应时间序列点上的数据特征化处理后的安全标签，“SE₁”是指预测的标准误差。

再进一步地，基于表示用户行为安全等级的安全标签利用模糊数学模型产生结果，将其作为扩展的用户行为特征，模糊数学算法模型算法公式如下：

y＝15*x (1)

Z＝FM₃(FM₁,FM₂)*4+1 (5)

其中，“x”表示用户行为安全等级的标签，表示已获得的用户行为数据特征，作为方程的输入，FM1(x)、FM2(x)、和FM3(x)取决于为模糊数学的标准方程式，其中FM1(x)在技术上称之为输入用户行为数据特征的偏小型模糊化处理、FM2(x)在技术上称之为输入用户行为数据特征的偏大型模糊化处理、和FM3(x)在技术上称之为输入用户行为数据特征的综合型模糊化处理，将偏小和偏大值做综合性比对，得到合适的安全类别。“y”表示扩展中间变量应适当扩展输入数据，“z”表示此方法的最终结果。

进一步地，训练机器学习模型的方法包括：

基于采集到的电力监控系统存储的安全监控日志，基于提取的用户操作信息进行用户行为安全等级划分与用户行为数据特征化处理；将获得的用户行为特征数据分为训练集和测试集；

将训练集输入预先构建的机器学习模型进行训练，得到训练后的机器学习模型；

利用测试集验证机器学习模型正确率，并调整机器学习模型参数，最终确定最优机器学习模型。

进一步地，采用主成分分析或线性判别分析方法对用户行为特征数据进行降维。

进一步地，采用大数据分析的Hadoop架构；将采集到的安全监控日志存储到大数据分析系统的分布式搜索和数据分析引擎Elasticsearch和分布式文件系统HDFS中。

另一方面，本发明提供了电力监控系统基于大数据分析技术处理系统，其特征在于，包括物理层、网络层、数据层和人工智能层；

所述物理层包括服务器和安全设备；

所述网路层，包括分布式系统基础架构Hadoop搜索引擎Elasticsearch模块以及分布式计算系统Mapreduce；

所述物理层通过网络层提取所述数据层的数据，所述数据包括电力监控系统实时产生的安全监控日志；

所述人工智能层，用于采集物理层的安全监控日志并基于采集到的安全监控日志提取用户操作信息，提取用户操作信息进行用户行为特征数据特征化处理，得到处理后的用户行为特征数据；将得到的用户行为特征数据输入训练完成的机器学习模型中得到基于用户行为安全等级的预警提示。

本发明所取得有益技术效果：

本发明基于电力监控系统日志数据特征化处理方法，提高电力监控系统数据关联分析的有效性和准确性，提高机器学习方法的应用和准确度；在电力监控系统上给出相应的警报，及时提醒现场监控人员及时进行警报操作，保障了电力监控系统的安全性和电力安全监控功能实现；

本发明基于采集到的安全监控日志对用户行为进行了数字转化获得用户行为数据特征，在此基础上提出了有效的数据扩展，即将三种数学建模的原型构造，便于解读的特征向量，合乎原理的权重分配等数学建模的优势结合到特征提取这一步来，从而能够将数据特征有效的扩展开来，进而增加新的数据特征，为机器学习模型提供了更高的准确率上限，使原始数据之间展现出了更多的关联性，同时也为进一步使数据分类增加解读性提供了便利；本发明从应用实际出发，选择模糊数学、时间序列分析和偏最小二乘回归三种数学方法进行电力监控系统日志数据扩展，实现机器学习过程中对用户行为特征数据的特征提取，提升了用户行为特征数据扩展方法的有效性。

本发明提出了基于用户行为安全等级划分方法，实现对用户行为风险水平的判断，保障了电力监控系统的安全性和电力安全监控功能实现。

说明书附图

图1是本发明具体实施例提供地用户行为分析方法流程；

图2是本发明具体实施大数据分析处理的层次关系图；

图3是本发明具体实施提供的UBNN₄神经网络方法本地数据测试结果；

图4是本发明具体实施提供的UBNN₄神经网络方法远程数据测试结果；

图5是本发明具体实施提供UBNN₃神经网络方法本地数据测试结果；

图6是本发明具体实施UBNN₃神经网络方法远程数据测试结果。

具体实施例

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例一、图1是本发明具体实施例提供地用户行为分析方法流程；图1示出了电力监控系统用户行为安全预警方法，包括：

采集电力监控系统的安全监控日志；

优选地，本实施例采用的大数据分析系统采用分布式系统基础架构Hadoop。

其中大数据分析系统Hadoop将采集得到的安全监控日志发送到所述大数据分析系统的Elasticsearch模块，大数据分析系统将所有安全监控日志发送到大数据分析系统的分布式文件系统HDFS。

本实施例采用基于大数据分析的Hadoop框架，进行用户行为安全预警方法的研究，包括用户行为级别定义、数据特征化处理与机器学习模型训练三个部分，具体实施例的处理流程图如图1所示。

一、用户行为级别定义，包括以下内容：

提取分析数据：

使用大数据分析的Elasticsearch模块进行系统监控和大数据分析。

将采集的实时或近乎实时数据保存到大数据分析平台内的HDFS和ElasticSearch索引中。分析数据取自电力监控系统某地区近一年的系统操作数据，包括SSH访问数据(133142组)和本地访问数据(8526组)，涉及大数据分析处理层包括人工智能层、数据层、网络层和物理层。

定义用户行为级别

将用户行为分析4个级别，风险级别从低到高，级别数越大，风险值越高，详细分类情况如下：

(1)1级用户行为(即1级户行为安全等级)：(无风险行为，绿色警报)

在“/home”目录下操作的检索指令划分为1级用户行为。在本实施例中，仅将“/home”目录下“ls，cd，ifconfig，netstat，ping”定义为1级用户行为；在其他实施例中可以根据实际情况定义具体“/home”目录下的用户操作指令作为1级用户行为。

以上指令中，ls命令用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。

cd命令用于切换当前工作目录至dirName(目录参数)，其中dirName表示法可为绝对路径或相对路径。若目录名称省略，则变换至使用者的home目录(也就是刚login时所在的目录)。

另外，"～"也表示为home目录的意思，"."则是表示目前所在的目录，".."则表示目前目录位置的上一层目录。

ifconfig是linux中用于显示或配置网络设备(网络接口卡)的命令；

netstat命令用于显示网络状态；

ping测试网络连接操作。

(2)2级用户行为(即2级户行为安全等级)：(低风险行为，黄色警报)

在“/opt或/usr或/etc或/var或/proc或/tmp”目录下的操作；做任何操作命令，包括检索指令和修改指令，在具体实施例中可以根据实际情况定义具体“/opt或/usr或/etc或/var或/proc或/tmp”目录下的用户操作指令作为2级用户行为。

(3)3级用户行为(即3级户行为安全等级)：(中等风险，橙色警报)本实施例中将在“/home”目录下的操作命令“rm，cp，su，passwd，chown”命令划分为3级用户行为。在其它实施例中，可以根据实际情况定义具体“/home”目录下的其它修改指令也划分为3级用户行为。

本实施例中也将在“/root”目录下的操作和“/”操作命令“ls，cd，ifconfig，netstat，ping”划分为3级用户行为。在其它实施例中，可以根据实际情况定义具体“/root”目录下的操作和“/”操作命令目录下的其它检索指令也划分为3级用户行为。

(4)4级用户行为(即4级户行为安全等级)：(高风险行为和异常行为，红色警报)

本实施例中将在“/root”目录下输入的指令包括命令“rm，pwd，reboot，pkill，su，chown”划分为4级用户行为；将“/”输入命令“rm，pwd，reboot，pkill，su，chown”也划分为4级用户行为。在其它实施例中，可以根据实际情况定义具体“/root”目录或“/”目录下的其它修改指令也划分为4级用户行为，和/或将没有匹配历史数据的用户操作指令划分为4级用户行为。

举例说明：修改指令包括但不限于删除文件，更改密码，重新启动系统，终止进程，修改权限和其他操作；不符合任何历史数据，历史操作目录；实施高权限指令操作。以上给出的指令定义为本领域公知常识，在此不一一说明。

二、数据特征化处理

数据特征化的详细处理过程，则可称为，首先进行有效的特征构造和特征提取，分析数据采集后，大量繁杂的数据集中，分析和筛选出真正影响到安全分类的数据。

在经过数据特征提取和特征构造之后，下一步就可以进行特征转换的步骤了。特征转换详细而言是指将不同类别的变量与数据进行有效并合理化的转换与组合，而所谓不同类别的变量可以细分为类别型变量，连续值变量，时间型变量，值缺失变量，组合型变量等，其中连续值变量类的数据转换，直接进行数据变量标准化，数据特征转换，数据变量离散化处理等一系列的处理方法。

在特征转换完毕后，为了便于扩展数据的进一步计算处理和导入模型的换算速度，考虑到多数CPU效能，内存，进程数以及现场未翻新设备的性能等复杂因素，而需要将扩展后的数据进行降维处理，降维处理实质上是为了能够将多维度数据在低维度上的投影提取出来，以作为多维度特征在低维度特征的展现，虽然在过程中会损失一部分高维度特征的有效信息，但低维度特征可以在保障一部分有效特征信息的同时，大幅提高数据的计算率，如此取舍才能够使模型效能最大化。

降维处理完成后，最后的步骤就是特征筛选与特征评估，数据特征经过一系列的提取，构造，转换，降维处理之后，杂讯和真正有效信息的区别变得越来越清晰和明显，因此在这一步，每一项特征的重要性需要进行评估，依据就是本身产生数据方的相关技术经验和数据处理过程中每一步受多数人认可的技术方法和论文等的技术支持。特征筛选可细分为单一特征重要性评估与基于模型的特征重要性评估，在此再一次强调数据之间的关联性，有效性，防止过多杂讯和不相关的数据混入机器学习模型导致整体效能下降。本实施例中对用户行为特征数据特征化处理包括以下内容：

首先，用户行为数据特征化处理包括对用户操作信息进行数字转化获得用户行为数据特征。

用户操作信息包括将携带有大量字符，符号的Linux系统操作路径和操作指令提取其有效信息和筛选，最终转变为数字和向量，在处理过程在进行归类，分级。先将整个将表示Linux系统操作路径和操作指令的2列字符转化为16列数字化过程如下：

①存在home的路径字符串记为数字1，否则记为0；

②存在root的路径字符串记为数字1，否则记为0；

③除了home和root之外的路径字符串记为数字1，否则记为0；

④上述①②③所述之外其它的路径和指令字符串记为数字1，否则记为0；

⑤存在ls的指令字符串记为数字1，否则记为0；

⑥存在rm的指令字符串记为数字1，否则记为0；

⑦同时存在home，rm，root，ls路径及指令的字符串记为2并定义为一级安全等级，仅存在前述1种条件的记为1，都不符合条件的情况记为0

⑧同时存在home，rm的路径字符串记为数字1，否则记为0；

⑨同时存在rm，ls的路径字符串记为数字1，否则记为0；

⑩同时存在/opt或/usr或/etc或/var或/proc或/tmp路径及任意指令操作的字符串记为2，分别出现则记为1，此两种情况都定义为二级安全等级，只有都不符合条件记为0，也不属于二级安全等级。

同时存在home路径“rm，cp，su，passwd，chown”指令记为1，否则记为0；；同时存在“/root”和“/”路径和“ls，cd，ifconfig，netstat，ping”指令记为1。同时存在上述两种情况记为2，并定义为三级安全等级。

一级安全等级记为1

二级安全等级记为2

三级安全等级记为3

四级安全等级记为4

总类别计数以上第12列～第15列及采用以上用户行为级别定义方法确定，总类别计数为第12列～第15列的和。

需要说明的是本实施例将整个将表示Linux系统操作路径和操作指令的2列字符转化为16列数字化特征，在其它实施例中，可以根据实际需要，设定转化的特征数量及表示方式获得用户行为数据特征，不赘述。

三、机器学习模型训练

优选地，基于主成分分析(PCA)和线性判别分析(LDA)模糊神经网络(FNN)实现数据分类。在其它实施例中，也可采用其它方式构建机器学习模型，此为现有技术，不详细说明。

机器学习模型训练的方法包括：基于采集到的电力监控系统存储的安全监控日志，基于提取的用户操作信息进行用户行为安全等级划分(如上述方法所示)与用户行为数据特征化(如上述方法所示)处理；将获得的用户行为特征数据分为训练集和测试集；

将训练集输入预先构建的机器学习模型进行训练，得到训练后的机器学习模型；利用测试集验证机器学习模型正确率，并调整机器学习模型参数，最终确定最优机器学习模型。

实施例二、本实施例提供了电力监控系统用户行为安全预警方法，包括：

采集电力监控系统的安全监控日志；

具体包括：

一、用户行为级别定义，方法如实施例一所述，不过多介绍。

二、用户行为数据特征化处理

在实施例一的基础上，本实施例提出了有效的数据扩展，即将三种数学建模的原型构造，便于解读的特征向量，合乎原理的权重分配等数学建模的优势结合到特征提取这一步来，从而能够将数据特征有效的扩展开来，进而增加新的数据特征，为机器学习模型提供了更高的准确率上限，使原始数据之间展现出了更多的关联性，同时也为进一步使数据分类增加解读性提供了便利，模糊数学模型可以在四个层次上确定灰色区域的百分比；时间序列模型可以根据历史数据的长期趋势变化，周期性变化和规则变化来预测当前数据类别；

当存在许多具有多重相关性的变量且观测数据(样本)的定量特征较少时，可以应用PLR分析模型。

数据特征化处理结果作为并行扩展数据集添加到原始数据输入集中。数据扩展表如图1所示。

表1数据扩展表

特征与标签	目录
		特征1	Linux操作路径
特征2	Linux操作指令
		特征3	模糊数学结果
特征4	时序分析结果
		特征5	偏最小二乘回归结果
标签	安全行为等级

其中特征1和特征2可参照实施例一中的数字转化方法Linux操作路径和Linux操作指令将2列转为多列用户行为特征。本实施例也采用如实施例一所示的将整个将表示Linux系统操作路径的特征1和操作指令的特征2这两列字符转化为如上所示的16列数字化用户行为特征。特征3、特征4、特征5是分别采用模糊数学方法、时序分析方法和偏最小二乘回归方法获得的结果，作为扩展特征。

1)模糊数学模型

基于已获得的用户行为特征中表示用户行为安全等级的安全标签利用模糊数学模型产生结果，将其作为扩展的用户行为特征。

模糊数学算法模型算法公式，如下：

y＝15*x (1)

Z＝FM₃(FM₁,FM₂)*4+1 (5)

其中，“x”表示用户行为安全等级的标签，表示已获得的用户行为数据特征，作为方程的输入，FM1(x)、FM2(x)、和FM3(x)取决于为模糊数学的标准方程式，其中FM1(x)在技术上称之为输入用户行为数据特征的偏小型模糊化处理、FM2(x)在技术上称之为输入用户行为数据特征的偏大型模糊化处理、和FM3(x)在技术上称之为输入用户行为数据特征的综合型模糊化处理，将偏小和偏大值做综合性比对，得到合适的安全类别。“y”表示扩展中间变量应适当扩展输入数据，“z”表示此方法的最终结果。这里作为输入的安全行为等级的标签采用实施例一中的安全行为等级划分的方法获得，本实施例不再过多说明。

2)时间序列分析算法模型

用户行为数据特征化处理包括对已获得的用户行为数据标定时间序列点t利用已经获得的用户行为数据特征(如表2所示最左列表示时间序列点)，利用时间序列分析获得预测结果，并将该预测结果做为扩展用户行为特征。

时间序列分析算法公式，如下：

“m”表示时间序列数据的总数，“n”表示当前数据序列的数量，

“x”表示安全级别的标签，作为方程的输入，其中“x_t”表示对应时间序列点上的数据特征化处理后的安全标签，每一个新的时间点，例如：对应原始数据与数据特征处理前后的数据对比表2中t₄，都是由时间总数的前一个时间点m-1，到当前时间点的时间序列的数量n，推导出来的，例如t₃ t₂ t₁，

表示t时间点的下一个时间点t+1位置上的最终输出值(表2从右至左第三列)，因为按照公式(6)，需要至少三个以上的时间点对应的安全级别数据才可以带入公式计算，因此t₁ t₂ t₃的安全级别标签与定义标签数值相同(根据定义得到的安全标签为表2从右至左第五列)“SE₁”是指预测的标准误差，用来判定模型的准确性。

1)偏最小二乘回归(PLR)模型

本发明使用偏最小二乘回归(PLR)计算安全级别的标签以预测结果，输入为16列数字特征(表2除去第一列表示时间序列其余共20列)，可代表特征1-5主要特征。输出为安全级别的标签。其中自变量定义为前11列的数字变量(表2第一列表示时间序列之后的第1列至第11列)，因变量定义为分级别的5列(表2第一列表示时间序列之后的第12列至第16列)。具体数据处理过程如下：

可以计算出它需要排除两个分量t₁和t₂(见上述(1)部分的定义)，w_h表示矩阵E₀ ^TF₀F₀ ^TE₀的特征值对应的特征向量，

表示特征向量w_h的变换矩阵，(见上述(1)部分和(4)部分的定义)，关于成分t₁和t₂的回归模型，其中标准化变量模型输出

如下：

由于成分越多模型越精准，但计算量也同时增大，在考虑实际情况允许的情况下，本实施例在解决此问题的条件下，选取两个成分t₁和t₂。

中自变量11列x₁,x₂,x₃…x_m(m＝11)因变量5列y₁,y₂,y₃…y_p(p＝5),根据上述(1)(2)部分得出t₁和t₂和对应的r个成分的回归系数中的值λ_1k，λ_2k。

其中λ_1k，λ_2k表示自变量集中所提取的r个成分中选取的成分t₁,t₂所对应的回归系数(见上述(1)部分的定义)。由于分量t_h可以根据原始变量的标准化变量

的函数得到，

其中w_h表示矩阵E₀ ^TF₀F₀ ^TE₀的特征值对应的特征向量，

表示特征向量w_h的变换矩阵，因此对应的向量的变化矩阵中的值分别为

可以由组件t₁和t₂建立如下PLR模型，并可以通过以下方式获得计算结果：

本实施例中示例m值选取为11，实际推导出的通用方法m可以为任意常数，定义g＝[m/3]，即g为m数值的三分之一并取其小于等于整数，定义h＝[r/5]即h为r数值的五分之一并取其小于等于整数。本实施例中PLR模型如下：

型输入为p个因变量y₁,y₂,y₃…y_p与m个自变量x₁,x₂,x₃…x_m，模型输出

因变量组和自变量组的n次标准化观测数据阵分别记为

分别提取两变量组的第一对成分，并使之相关性达最大。

t₁,t₂是直接在E₀,…,E_r-1矩阵中提取成分t₁,t₂,t₃…t_r(r≤m)

其中r代表所提取的成分数，由于提取的成分不能超过总共的自变量个数m，因此(r≤m)

t₁是自变量集X＝(x₁,...,x_m)^T的线性组合：

t₂也是自变量集X＝(x₁,...,x_m)^T的线性组合：

根据线性代数的基本定义，线性组合是包含m个实数权重集合。其中w_ij(i,j是常数)是权重，在本公式中w_ij是通过计算所得的最大特征值所对应的特征向量。

具体来讲，先解释w₁，w₂…w_r…w_m，其中r同样代表所提取的成分数

(1)求矩阵E₀ ^TF₀F₀ ^TE₀最大特征值所对应的特征向量w₁，求得成分得分向量

和残差矩阵

其中

(2)求矩阵E₁ ^TF₀F₀ ^TE₁最大特征值所对应的特征向量w₂，求得成分得分向量

和残差矩阵

其中

(r)至第r步，求矩阵E_r-1 ^TF₀F₀ ^TE_r-1最大特征值所对应的特征向量w_r

再解释w₁₁...w_1m，它们是w₁特征向量展开式中与每一个特征值一一对应的向量元素。

首先可参考表2中的数据，由于自变量总数为m为横列中的11个因变量，而数据的纵列为数据的数目n，因此根据刚刚已经推导过的，由两组变量集的标准化观测数据阵E₀和F₀，可以计算成分的得分向量，记为

如果要解释w₁₁...w_1m，首先要从上述矩阵E_r-1 ^TF₀F₀ ^TE_r-1中提取特征值和特征向量，具体来讲就是通过提出上述矩阵的对角线元素，即提出特征值，然后再提出最大特征值对应的特征向量，即得到w_r，至此w₁，w₂…w_r…w_m特征向量以求得。再通过与长度为1×m的标准化后的单位矩阵的乘积，得到特征向量的变换矩阵

解释变换矩阵的计算，在基础的线性代数定义中，如果有一个函数形式的线性变换T(x)那么通过T对w的每个标准基进行变换，并将变换结果依次插入矩阵的列，这样就可以确定变换矩阵w*，如

在此发明中，将T函数关系定义为标准化后的单位矩阵，再具体来讲，T函数关系就是计算的过程中使用向量w₁中每个元素的均值及标准差，使用的是每一列的均值与方差。这个是此专利所使用的标准化单位矩阵。

于是可知如下定义：

其中w₁₁...w_1m，代表第一行数据中矩阵E₀ ^TF₀F₀ ^TE₀，E₁ ^TF₀F₀ ^TE₁，…，E_m-1 ^TF₀F₀ ^TE_m-1最大特征值所对应的特征向量元素。

其中w₁₁...w_1m，代表第二行数据中矩阵E₀ ^TF₀F₀ ^TE₀，E₁ ^TF₀F₀ ^TE₁，…，E_m-1 ^TF₀F₀ ^TE_m-1最大特征值所对应的特征向量元素。

...

其中w_n1...w_nm，代表第n行数据中矩阵E₀ ^TF₀F₀ ^TE₀，E₁ ^TF₀F₀ ^TE₁，…，E_m-1 ^TF₀F₀ ^TE_m-1最大特征值所对应的特征向量元素。

其中

代表特征向量的转置。

其中

代表特征向量的变换矩阵

其中

代表第一行数据的变换矩阵所对应的特征向量元素

其中

代表第二行数据的变换矩阵所对应的特征向量元素

...

其中

代表第n行数据的变换矩阵所对应的特征向量元素

提示：本实施例在这里定义g＝[m/3]，即g为m数值的三分之一并取其小于等于整数，定义h＝[r/5]即h为r数值的五分之一并取其小于等于整数h是从自变量成分1,2,…,r中随机抽取的h个成分，可理解为1,2,…,h,…,r，另外注意，h不是成分1,2,…,r的顺序抽取，而是从中随机抽取的成分。

在这里定义k，k为成分r的计数，表示为k＝1,2,3，…g

因此

既可以通过上述得到解释与推导。

下一步，解释本实施例中

在公式(10)中，

首先要了解的是交叉有效性检验。

一般情况下，偏最小二乘法并不需要选用存在的r个成分t₁,t₂,t₃…t_r来建立回归式，而像主成分分析一样，只选用前l个成分(l≤r)，即可得到预测能力较好的回归模型。对于建模所需提取的成分个数l，可以通过交叉有效性检验来确定。

每次舍去第i个观测(i＝1,2,…,n)，对余下的n-1个观测值用偏最小二乘回归方法建模，并考虑抽取h个成分后拟合的回归式，然后把舍去的第i个观测点代入所拟合的回归方程式，得到y_j(j＝1,2,…,p)在第i个观测点上的预测值

对i＝1,2,…,n重复以上的验证，即得抽取h个成分时第j个因变量y_j(j＝1,2,…,p)的预测误差平方和为

Y＝(y₁,y₂,y₃…y_p)^T的预测误差平方和为

另外，再采用所有的样本点，拟合含h个成分的回归方程。这时，记第i个样本点的预测值为

则可以定义y_j的误差平方和为

定义Y的误差平方和为

当PRESS(h)达到最小值时，对应的h即为所求的成分个数。通常，总有PRESS(h)大于SS(h)，而SS(h)则小于SS(h-1)。因此，在提取成分时，总希望比值PRESS(h)/SS(h)越小越好；一般可设定限制值为0.05，即当PRESS(h)/SS(h-1)≤(1-0.05)²＝0.95²时，增加成分t_h有利于模型精度的提高。或者反过来说，当PRESS(h)/SS(h-1)＞0.95²时，就认为增加新的成分t_h，对减少方程的预测误差无明显的改善作用。

为此，定义交叉有效性为

这样，在建模的每一步计算结束前，均进行交叉有效性检验，如果在第h步有

则模型达到精度要求，可停止提取成分；若

表示第h步提取的t_h成分的边际贡献显著，应继续第h+1步计算。

因此上述计数可以定义预测值为

指的是抽取的第h个成分的预测值，同样

指的是所有成分的预测值，因此本实施例中

表示第j个因变量y_j(j＝1,2,3)对应的预测值，其中y_j(j＝1,2,…,p)是因变量。

最后解释λ_1k,λ_2k，

称之为最小二乘法的回归系数的最小二乘估算，其中两个下角标1k分别代表：1对应的成分t₁，k对应的成分r的计数，表示为k＝1,2,…,r；分别代表：2对应的成分t₂，k对应的成分r的计数，表示为k＝1,2,…,r；是作为参数估算中的一种基础方法。根据其定义，在线性回归模型中，未知参数λ的最小二乘估算满足公式

中的λ，其中X＝(x₁,x₂,x₃…x_m)^T；Y＝(y₁,y₂,y₃…y_p)^T。可知λ是方程(X^TX)λ＝X^TY的解。此方程称为正规方程。由于线性回归模型中，X矩阵列满秩，故λ可解除，记为λ＝(X^TX)^-1X^TY。中为λ_1k则定义为对应成分t₁下的第k个成分计数回归方程的解；为λ_2k则定义为对应成分t₂下的第k个成分计数回归方程的解；上述则解释了λ_1k,λ_2k，即回归系数。

计算过程可简述为如下过程：

①首先标准化自变量和因变量数据，求得样本点的个数

②w_h到

变换矩阵的初始化，以计算w_h，

和t的得分向量，并求得特征值和特征向量。

③提出对角线元素，即提出特征值，提出最大特征值对应的特征向量

④计算

的取值，计算成分t_i的得分，计算α_i，计算w_h到

的变换矩阵，计算残差矩阵。

⑤计算SS_j的值，求回归方程的系数，数据标准化，无常数项求残差矩阵，求误差平方和以下计算PRESS_j,把舍去的第j个样本点保存起来，删除第j个观测值,求回归分析的系数,这里带有常数项,求残差向量,求误差平方和,求r关于t的回归系数,求(y₁,y₂,y₃…y_p)*关于(x₁,x₂,x₃…x_m)*的回归系数，其中(y₁,y₂,y₃…y_p)*和(x₁,x₂,x₃…x_m)*分别为(y₁,y₂,y₃…y_p)和(x₁,x₂,x₃…x_m)标准化后的结果，每一列是一个回归方程,提出自变量和因变量的标准差。

⑥计算原始数据回归方程的常数项，计算原始数据回归方程的系数，显示回归方程的系数，每一列是一个方程，每一列的第一个数是常数项，称之为预测值。

⑦求预测值的最大值，求观测值的最大值，求预测值和观测值的最大值，计算残差。(观测值和预测值定义见上述(5)交叉有效性检验)

⑧得到PLR偏最小二乘法回归分析的安全级别分类值，模型输出

该实施例通过对用户行为特征数据特征化处理之后获得了以下用户行为特征数据(如表2所示)：

①存在home的路径字符串记为数字1，否则记为0；

②存在root的路径字符串记为数字1，否则记为0；

③除了home和root之外的路径字符串记为数字1，否则记为0；

⑤存在ls的指令字符串记为数字1，否则记为0；

⑥存在rm的指令字符串记为数字1，否则记为0；

⑧同时存在home，rm的路径字符串记为数字1，否则记为0；

⑨同时存在rm，ls的路径字符串记为数字1，否则记为0；

同时存在home路径“rm，cp，su，passwd，chown”指令记为1，否则记为0；同时存在“/root”和“/”路径和“ls，cd，ifconfig，netstat，ping”指令记为1。同时存在上述两种情况记为2，并定义为三级安全等级。

一级安全等级记为1

二级安全等级记为2

三级安全等级记为3

四级安全等级记为4

总类别计数

通过模糊数学的数学建模算法计算结果

通过时间序列分析的数学建模算法计算结果

通过偏最小二乘回归(PLR)的数学建模算法计算结果

标签定义的总类别

表2原始数据与数据特征处理前后的数据对比

通过以上用户行为数据特征化处理获得了如下有益技术效果：

效果一：数据数字化

效果二：特征扩大化

特征从数据采集最为朴素的用户输入指令和输入指令所在的目录这两大类特征，扩展为附加3种数学建模方法的五大类数据特征，而在数据集上来看，数据从2列不便于集中处理的散乱字符数据，扩展为20列的有序可视化的数字化数据。数学建模所用的三种模型，分别为模糊数学，时序分析和偏最小二乘回归的方法，每一种都具有对数据和用户行为分析的代表性，模糊数学可以定义和关联用户行为分级过程中的中间模糊部分，填补分级过程中的空白；时序分析可以对用户操作的顺序进行有效的统计，因为用户行为多于时间有关，不同行为根据操作时间的不同能够更加清晰化，透明化；偏最小二乘回归是对用户行为特征数据，尤其是用户行为在数字化后所形成的波形图进行标准化计算，将其主要特征突出化，明显化。

效果三：数据关联化

数据之间如果仅仅只是通过特征提取，人为认知和经验下进行数据采集和分类，就会充满主观观念而缺乏关联性，本发明中提出的数据扩展与三种合理化适应性数学建模的结合就是处理，客观上增强了数据之间的关联性，因为每一种数学建模都运用到了前述数字化的数据部分，并将这些数据进行不同重要性，不同方向的计算，所得结果也填补了简单分类，类别与类别之间的空白部分。

增加特征属性的同时也增加了机器学习模型建立的准确性，为后续解释数据的输出做了更多的贡献。

数据特征化是机器学习模型建立的基础和关键部分，是所有数据在做机器学习与人工智能方面必要的前提，也是诸多当前解决实际问题过程中影响模型最终结果的核心所在，因此运用数据特征化处理。未特征化处理前的原始数据与处理后的数据对比可见其详细处理过程(见表2)，数字化的特征就是机器学习模型的输入，而真正能够代表原始数据的特征才能够得到准确的分类。

综上所述，本发明技术方案通过三大数据特征化处理之后效果充分展示了本发明的创新之处(效果一：数据数字化；效果二：特征扩大化；效果三：数据关联化)。有效的验证，过程展示及实际结果，则证明了所提出理论的可行性。

三、机器学习模型训练

监督学习是机器的主要方法，本发明选择python，进行模型的训练。首先实现降维。

在机器学习的方法中，具体实施例比较基于主成分分析(PCA)和线性判别分析(LDA)方法。其次，在监督学习下进行数据分类，比较和选择k最近邻(k-NN)方法和支持向量机(SVM)方法以获得结果和分析结论。SSH访问数据具有133142组数据，本地访问数据具有8526个，较大的SSH访问数据作为训练数据，形成“训练集”，较小的本地访问数据作为测试数据，形成“测试集”；最后，定义用户行为神经网络(UBNN)，将PCA、LDA与k-NN、SVM方法进行两两结合使用，比较和验证四种方法，获得最适合的方法。结果见附图

实验结果，如下表3所示：

表3 UBNN神经网络模型预测准确率表

实验结果表明：

1)实验使用神经网络方法对实验分析结果准确性有影响。LDA和KNN结合的UBNN3表现最佳，随后是基于LDA和SVM结合的UBNN4。得出结论，PCA更适合于非线性特征处理，对于线性度更高的数据，LDA的性能优于PCA，KNN比SVM更擅长更多纯类别的处理。

2)参与学习的数据量也是影响模型准确性的关键因素。训练数据的准确性高于测试数据，验证了在实际神经网络模型的性能中，新生成数据的准确性低于原始数据的准确性。

如图3～图6所示，图3是本发明具体实施提供的UBNN₄神经网络方法本地数据测试结果；图4是本发明具体实施提供的UBNN₄神经网络方法远程数据测试结果；图5是本发明具体实施提供UBNN₃神经网络方法本地数据测试结果；图6是本发明具体实施UBNN₃神经网络方法远程数据测试结果。从图中可看出纵坐标表示用户行为安全等级的标签有1、2、3、4。这里，我们给出实验分析结果较佳的四组训练/测试结果展示包括UBNN3训练数据、UBNN3测试数据、UBNN4训练数据和UBNN4测试数据。所示，其中“o”代表原始数据的标签结果，“*”代表标签结果训练模型所产生的效果。

本发明适用于电力监控系统业务特点、业务场景的数据关联分析机器学习方法。以上实验在应用机器学习方法的过程中，采用PCA、LDA、KNN、SVM归约和分类方式，构建神经网络，提取用户行为特征，预测用户行为风险水平。通过实验结果的分析比较，提出了适用于电力监控系统业务特点与业务场景的数据关联分析机器学习方法，提高了用户行为安全威胁的预测精度。

PCA(PrincipalComponents Analysis)即主成分分析，又称主分量分析。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

LDA是隐含狄利克雷分布(Latent Dirichlet Allocation，简称LDA)，LDA是一种监督学习的降维技术。

K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalized linearclassifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。

实施例三、提供了：电力监控系统用户行为安全预警方法和系统，包括物理层、网络层、数据层和人工智能层(如图2所示)；

所述物理层包括服务器和安全设备；

所述网路层，为部署在物理层上的大数据分析系统，该系统采用分布式基础架构Hadoop；

所述人工智能层，用于采集物理层的安全监控日志并基于采集到的安全监控日志提取用户操作信息，对取用户操作信息进行用户行为特征数据特征化处理，得到处理后的用户行为特征数据；将得到的用户行为特征数据输入训练完成的机器学习模型中得到基于用户行为安全等级的预警提示。

首先，选择包括一台主服务器和两台从属服务器的作为硬件作为物理层，选择Hadoop、MapReduce和Elasticsearch作为网络层软件方法，从DM7数据库中收集初步数据并对其进行过滤，并使用IntelliJ IDEA导出csv文档，对所有数据进行编程以设置文本标签的矢量化和数字化。人工智能层具体实施方式如以上实施例所述，再此不赘述。

本发明通过对用户行为特征数据进行特征化处理，提高电力监控系统数据关联分析的有效性和准确性；本发明提出了基于机器学习的电力监控系统日志数据特征扩展方法，提高了机器学习方法的应用和准确性；

本发明基于用户行为安全等级划分方法，实现对用户行为风险水平的判断，在电力监控系统上给出相应的警报，及时提醒现场监控人员及时进行警报操作，保障了电力监控系统的安全性和电力安全监控功能实现。

本发明从应用实际出发，选择模糊数学、时间序列分析和偏最小二乘回归三种数学方法进行电力监控系统日志数据扩展，实现机器学习过程中对用户行为特征数据的特征提取，提升了用户行为特征数据扩展方法的有效性。

本发明具体实施例在应用机器学习方法的过程中，采用PCA、LDA、KNN、SVM归约和分类方式，构建神经网络，提取用户行为特征，预测用户行为风险水平。通过实验结果的分析比较，提出了适用于电力监控系统业务特点与业务场景的数据关联分析机器学习方法，提高了用户行为安全威胁的预测精度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.电力监控系统用户行为安全预警方法，其特征在于，包括：

采集电力监控系统的安全监控日志；

2.如权利要求1所述的电力监控系统用户行为安全预警方法，其特征在于，用户行为数据特征化处理包括对用户操作信息进行数字转化获得用户行为数据特征。

3.如权利要求2所述的电力监控系统用户行为安全预警方法，其特征在于，提取用户操作信息之后还包括根据用户操作信息确定用户操作路径和操作指令；根据用户操作路径和操作指令划分用户行为安全等级，并将表示用户行为安全等级的安全标签作为用户行为数据特征。

4.如权利要求3所述的电力监控系统用户行为安全预警方法，其特征在于，用户行为数据特征化处理还包括基于已获得的用户行为数据特征利用偏最小二乘回归获得计算结果，将其作为扩展的用户行为特征，计算方法包括：

建立PLR模型如下：

表示特征向量w_h的变换矩阵，对应的特征向量的变化矩阵

中的值分别为

h是从提取的r个成分中随机抽取的成分，

5.根据权利要求4所述的电力监控系统用户行为安全预警方法，其特征在于，h取值范围为小于等于r数值的五分之一的整数，表达式如：h＝[r/5]；g取值范围为小于等于自变量个数m数值的三分之一的整数，表达式如：g＝m/3。

6.根据权利要求3所述的电力监控系统用户行为安全预警方法，其特征在于，用户行为数据特征化处理包括对已获得的用户行为数据标定时间序列点t，基于已获得的用户行为数据特征利用时间序列分析算法获得预测结果，将其作为扩展的用户行为特征，其中时间序列分析算法公式，如下：

7.根据权利要求3所述的电力监控系统用户行为安全预警方法，其特征在于，基于表示用户行为安全等级的安全标签利用模糊数学模型产生结果，将其作为扩展的用户行为特征，模糊数学算法模型算法公式如下：

y＝15*x (1)

Z＝FM₃(FM₁,FM₂)*4+1 (5)

其中，“x”表示用户行为安全等级的标签，表示已获得的用户行为数据特征，作为方程的输入，FM₁(x)、FM₂(x)和FM₃(x)为模糊数学的标准方程式，其中FM1(x)在技术上称之为输入用户行为数据特征的偏小型模糊化处理、FM2(x)在技术上称之为输入用户行为数据特征的偏大型模糊化处理、和FM3(x)为输入用户行为数据特征的综合型模糊化处理，将偏小和偏大值做综合性比对，得到计算后的安全类别；“y”表示扩展中间变量，“z”表示此方法的最终结果。

8.如权利要求1所述的电力监控系统用户行为安全预警方法，其特征在于，训练机器学习模型的方法包括：

9.如权利要求1所述的电力监控系统用户行为安全预警方法，其特征在于，采用大数据分析的Hadoop架构；将采集到的安全监控日志存储到大数据分析系统的分布式搜索和数据分析引擎Elasticsearch和分布式文件系统HDFS中。

10.电力监控系统基于大数据分析技术处理系统，其特征在于，包括物理层、网络层、数据层和人工智能层；

所述物理层包括服务器和安全设备；

所述人工智能层，用于采集物理层的安全监控日志并基于采集到的安全监控日志提取用户操作信息，对用户操作信息进行用户行为特征数据特征化处理，得到处理后的用户行为特征数据；将得到的用户行为特征数据输入训练完成的机器学习模型中得到基于用户行为安全等级的预警提示。