CN107730040B

CN107730040B - 基于rbm的电力信息系统日志信息综合特征提取方法和装置

Info

Publication number: CN107730040B
Application number: CN201710941519.3A
Authority: CN
Inventors: 刘冬兰; 李冬; 马雷; 刘新; 常英贤; 于灏; 石鑫磊; 陈剑飞; 王文婷; 赵晓红; 赵洋; 谭虎
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; State Grid Shandong Electric Power Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2021-03-16
Anticipated expiration: 2037-09-30
Also published as: CN107730040A

Abstract

本发明公开了一种基于RBM的电力信息系统日志信息综合特征提取方法和装置，所述方法包括：获取当前系统中各个设备的日志信息；对于每类日志r，构建初始化受限波尔兹曼机神经网络RBMr并进行训练，输入数据为日志r的数据，根据对比散度快速学习方法优化网络权值，得到稳定的RBMr；构建用于提取综合特征的受限玻尔兹曼机神经网络RBM_com，初始化RBM_com，将RBMr隐藏层输出的数据进行拼接组成数据序列，对RBM_com进行训练，得到稳定的RBM_com；基于训练好的受限玻尔兹曼机神经网络集合，将各类日志数据输入，获得维度为C的综合特征数据。本发明可以解决日志数据异构性带来的问题，实现降维并得到融合后的综合特征，有效的提高电力信息系统安全态势预测的速度和预测精度。

Description

基于RBM的电力信息系统日志信息综合特征提取方法和装置

技术领域

本发明涉及电力信息系统安全态势感知(多源日志融合)领域，尤其涉及一种基于RBM的电力信息系统日志信息综合特征提取方法和装置。

背景技术

电力系统企事业单位为了保障自身网络的安全，通常在网络出入口处安装了多种安全防护设备，如防火墙、IDS、IPS、防病毒软件等，这些设备共同为单位内部网络构建安全防护圈。这些设备在运行过程中都会产生大量日志来记录自身行为，这能够有效地监视网络运行状况。各类网络安全设备产生的日志信息重复率高，网络管理人员很难发现其中隐藏的关联性，这不利于对网络态势进行分析。但是，防火墙、IDS和IPS等设备日志间缺乏协同机制，其语义级别低，且具有结构多样和分散独立的特点，其中包含的安全信息相互隔离，形成“信息孤岛”，从而使管理人员无法做出正确的安全决策和应急响应。需要有一种方法来从各类日志信息中提取综合特征，从而帮助管理人员从总体上把握信息系统的安全态势，例如，基于这些特征可以在宏观层面进行未知威胁检测等工作。

目前，在网络设备日志融合方面主要有基于逻辑关系的算法和基于规则推理的算法等。基于逻辑关系的算法根据日志信息内在的逻辑关系进行数据融合，根据人基于经验的思维方式设计逻辑规则。基于规则推理的算法将多源日志信息的不确定性进行模糊量化处理，然后采用基于规则推理的方法来实现网络安全态势的评估。这些算法都需要一定程度的先验知识和领域专家知识。在面向大量异构设备和不断演化的网络环境时，适配性问题较为突出。

因此，如何快速有效的实现电力信息系统中多源异构设备日志信息的融合，是本领域技术人员目前迫切解决的技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于RBM的电力信息系统日志信息综合特征提取方法和装置，人工神经网络具有较强的非线性映射能力，尤其是受限玻尔兹曼机神经网络，具有较强的自编码能力。本发明基于多源异构电力设备日志信息，采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码，有助于解决日志数据异构性带来的问题；进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理，可以实现降维并得到融合后的综合特征。这些综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析，从而在宏观层面感知安全态势和未知威胁，可以有效的提高电力信息系统安全态势预测的速度和预测精度。

为实现上述目的，本发明采用如下技术方案：

一种基于RBM的电力信息系统日志信息综合特征提取方法，包括以下步骤：

步骤1：电力信息系统数据采集，采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息；

步骤2：对于每类日志信息r，构建初始化受限波尔兹曼机神经网络RBMr，其中r为1与t之间的正整数，t为日志信息的类数；所述初始化受限波尔兹曼机神经网络，可见层节点数与输入日志信息的维度相对应，隐藏层节点数为N个，随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值；

步骤3：对于每类日志信息r，训练相应的受限玻尔兹曼机神经网络RBMr，并根据对比散度快速学习方法优化网络权值，得到稳定的网络RBMr；

步骤4：构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化，RBM_com为两层网络，可见层节点数为t*N，隐藏层节点数为C，随机产生[0,1]之间的随机数作为神经网络的连接权值；

步骤5：对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列，将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBM_com进行训练，并根据对比散度快速学习方法优化网络权值，得到稳定的RBM_com；

步骤6：基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBM_com}，构建多源日志综合特征提取系统；

步骤7：将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络，获得维度为C的综合特征数据。

进一步地，所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息。

进一步地，所述步骤1采集日志信息后，还对日志信息进行去重和去噪预处理。

进一步地，所述步骤2中N小于日志信息维度的二分之一。

进一步地，其中所述对比散度快速学习方法优化网络权值的过程为：

设n和m分别是可见层v和隐藏层h的神经元数目，a和b分别为可见层和隐藏层的偏置向量，W为v和h之间的权值矩阵；对于可见层v和隐藏层h，v_i表示第i个可见单元的状态，h_j表示第j个隐藏单元的状态；从受限玻尔兹曼机神经网络可见层神经元输入数据，根据神经元v_i更新隐藏层神经元h_j的状态；再由隐藏层神经元h_j重构出可见层神经元v_i的状态，接着再由重构出的可见层神经元v_i的状态再重构隐藏层神经元h_j的状态，完成一次受限玻尔兹曼机神经网络训练学习过程，重复执行上述过程，直到神经网络具有最小的能量值。

进一步地，对于给定的状态(v,h)，RBM具备的能量用函数表示为：

其中θ＝{W_ij,a_i,b_j}是RBM的参数，均为实数，为把W，a，b的所有分量拼起来得到的长向量，W_ij是可见单元i与隐藏单元j之间的连接权重，a_i是可见单元i的偏置，b_j是隐藏单元j的偏置。

进一步地，基于能量函数可以得到(v,h)的联合概率分布：

其中

为归一化因子，第j个隐藏单元的激活概率为：

当给定隐藏单元的状态时，各可见单元的激活状态之间也是条件独立的，则第i个可见单元的激活概率为：

其中

是sigmoid激活函数。

进一步地，参数θ可以通过最大化RBM在训练集上的对数似然函数学习得到：

其中T为包含的样本数，使用随机梯度上升法计算θ^*的最大值

进一步地，其中可见层和隐藏层的权重调整方式及噪声控制参数a_i、b_j的调整方式为：

ΔW_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon)

Δa_i＝ε(<v_i>_data-<v_i>_recon)

Δb_j＝ε(<h_j>_data-<h_j>_recon)

其中ε是学习率，<·>_recon是表示进一步重构后模型定义的分布上的数学期望，<·>_data是训练数据集所定义的分布上的数学期望，<v_ih_j>_data是可见层神经元与隐藏层神经元在输入数据下的二进制状态乘积，〈v_ih_j>_recon是可见层神经元与隐藏层神经元在重构数据下的二进制状态乘积。

根据本发明的第二方面，本发明还提供了一种基于RBM的电力信息系统日志信息综合特征提取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

根据本发明的第三方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，用于电力信息系统日志信息的综合特征提取，该程序被处理器执行时执行以下步骤：

本发明的有益效果

1、本发明采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码，有助于解决日志数据异构性带来的问题；进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理，可以实现降维并得到融合后的综合特征，可以有效的提高电力信息系统安全态势预测的速度和预测精度。

2、本发明得到的综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析，从而在宏观层面感知安全态势和未知威胁。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的多源日志信息综合特征提取方法示意框图；

图2为本发明多源日志信息综合特征提取系统示意；

图3为本发明多源日志信息综合特征提取方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步地说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于RBM的电力信息系统日志信息综合特征提取方法，包括：

步骤1：电力信息系统数据采集，采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息，日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息；

首先获取电力信息系统中各类设备，例如安全设备、网络设备、主机及其他安全防护系统产生的日志信息，并对采集到的原始数据进行实时的预处理和分析，对原始数据的预处理包括数据去重、数据噪声去除等。数据去重是确保所采集的数据是可信数据，将源数据中的噪声数据和无关数据去除，去除空白数据域等。经过预处理的数据进行分布式存储，对所有存储的数据创建数据索引，以便后续查询追溯使用。假设日志信息共有t类，记为{日志1,日志,…,日志t}，其数据维度分别为{M1,M2,…,Mt}。

步骤2：对于每类日志信息r，构建初始化受限波尔兹曼机神经网络RBMr，其中r为1与t之间的正整数；t为日志信息的类数，记为{日志1,日志2,…,日志t}，其数据维度分别为{M1,M2,…,Mt}；其中，日志信息的类别是按照设备划分的，不同的设备是不同的类别；维度表示日志数据的字段数。

如图1所示，所述初始化受限波尔兹曼机神经网络RMBr为具有可见层和隐藏层的两层网络，将不同长度的日志信息数据输入后将其编码为长度为N的数据并输出，可见层节点数与输入数据的维度相对应为Mr个，隐藏层节点数为N个，随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值；

RBM是一种由可见层神经元和隐藏层神经元组成的两层结构的生成式随机神经网络。在RBM中可见单元数一般等于训练数据的特征维数，而隐藏单元数需要事先给定。隐藏单元数目的设定，一般先估算描述一个数据所需要的比特数，用其乘上训练集容量，基于所得的数，选择比其低一个数量级的值作为隐藏单元的数量，由于电力信息系统中数据是高度冗余的，即数据集容量非常大，因此可以使用更少一些的隐藏单元。在当前方案中，N小于Mi的二分之一。N的大小上限是与数据维度相关，本实施例设定N的取值小于所有M的一半。

步骤3：对于每类日志r，训练相应的受限玻尔兹曼机神经网络RBMr；

训练的输入数据为日志r的数据，从受限玻尔兹曼机神经网络RBMr的可见层神经元输入数据，根据对比散度快速学习方法优化网络权值，由此得到稳定的RBMr。

神经网络系统越有序或者概率分布越集中，系统的能量越小，能量函数的最小值，对应于系统的最稳定状态。通过调整网络的权值和偏置值使得网络对该输入数据的能量最低。稳定状态是指当前的神经网络具有最小的能量。

设n和m分别是可见层v和隐藏层h的神经元数目，a和b分别为可见层和隐藏层的偏置向量，W为v和h之间的权值矩阵。RBM对应的图是一个二分图，即层内各神经元之间无连接，层间全连接。底层神经元接收输入的原始特征向量，通过该神经网络向上传递，将具体的采集到的特征向量转化为神经元更少的抽象的特征向量并对数据进行降维。

对于可见层v和隐藏层h，v_i表示第i个可见单元的状态，h_j表示第j个隐藏单元的状态。从受限玻尔兹曼机神经网络可见层神经元输入数据，根据神经元v_i更新隐藏层神经元h_j的状态；再由隐藏层神经元h_j重构出可见层神经元v_i的状态，接着再由重构出的可见层神经元v_i的状态再重构出隐藏层神经元h_j的状态，完成一次受限玻尔兹曼机神经网络训练学习过程，直到神经网络具有最小的能量值。

对于给定的状态(v,h)，RBM具备的能量为：

其中θ＝{W_ij,a_i,b_j}是RBM的参数，均为实数，可将其视为把W，a，b的所有分量拼起来得到的长向量。W_ij是可见单元i与隐藏单元j之间的连接权重，a_i是可见单元i的偏置，b_j是隐藏单元j的偏置，基于能量函数可以得到(v,h)的联合概率分布：

其中

为归一化因子。

由于RBM不同层的单元之间有连接，而层内单元之间无连接，当给定可见单元的状态时，各隐藏单元的激活状态之间是条件独立的，因此第j个隐藏单元的激活概率为：

其中

是sigmoid激活函数。

训练学习RBM的任务是求出参数θ的值，以便拟合给定的训练数据，保持能量E(v,h|θ)守恒。参数θ可以通过最大化RBM在训练集上的对数似然函数学习得到，

其中T为包含的样本数。

为获得最优参数，使用随机梯度上升法计算θ^*的最大值

由于电力信息系统获得的观测数据(即训练样本数据)的特征维度通常较高，因此对RBM的训练效率有更高的要求。对比散度方法是一种快速学习方法，方法处理开始时，可见单元的状态被设置为一个训练样本，根据

计算所有隐藏单元的二值状态，在所有的隐藏单元的状态确定后，根据

计算第i个可见单元v_i取值为1的概率，生成可见层的重构。此时使用随机梯度上升法最大化对数似然函数在训练数据上的值时，可见层和隐藏层的权重调整方式及噪声控制参数a_i、b_j的调整方式为：

ΔW_ij＝ε(〈v_ih_j>_data-〈v_ih_j>_recon)

Δa_i＝ε(〈v_i>_data-〈v_i>_recon)

Δb_j＝ε(<h_j>_data-<h_j>_recon)

其中ε是学习率，<·>_recon是表示进一步重构后模型定义的分布上的数学期望，<·>_data是训练数据集所定义的分布上的数学期望，<v_ih_j>_data是可见层神经元与隐藏层神经元在输入数据下的二进制状态乘积，<v_ih_j>_recon是可见层神经元与隐藏层神经元在重构数据下的二进制状态乘积。

当输入v的时候，通过p(h|v)可以得到隐藏层h，而得到隐藏层h之后，通过p(v|h)又能得到可视层，通过调整参数，我们就是要使得从隐藏层得到的可视层v1与原来的可视层v如果一样，那么得到的隐藏层就是可视层另外一种表达，因此隐藏层可以作为可视层输入数据的特征。

步骤4：构建用于提取综合特征的受限玻尔兹曼机神经网络RBM_com，RBM_com为两层网络，可见层节点数为t*N，隐藏层节点数为C，随机产生[0,1]之间的随机数作为神经网络的连接权值，初始化RBM_com；

步骤5：对第一层受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列，将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBM_com进行训练，所述数据序列的维度为t*N，根据对比散度快速学习方法优化网络权值，由此得到稳定的RBM_com；

步骤6：基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMt,RBM_com}，构建多源日志综合特征提取系统；

实施例二

本实施例的目的是提供一种计算装置。

一种基于RBM的电力信息系统日志信息综合特征提取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，用于电力信息系统日志信息的综合特征提取，该程序被处理器执行时执行以下步骤：

以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明基于多源异构电力设备日志信息，采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码，有助于解决日志数据异构性带来的问题；进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理，可以实现降维并得到融合后的综合特征。这些综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析，从而在宏观层面感知安全态势和未知威胁，可以有效的提高电力信息系统安全态势预测的速度和预测精度。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于RBM的电力信息系统日志信息综合特征提取方法，其特征在于，包括以下步骤：

所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息；

其中所述对比散度快速学习方法优化网络权值的过程为：

设n和m分别是可见层v和隐藏层h的神经元数目，a和b分别为可见层和隐藏层的偏置向量，W为v和h之间的权值矩阵；对于可见层v和隐藏层h，v_i表示第i个可见单元的状态，h_j表示第j个隐藏单元的状态；从受限玻尔兹曼机神经网络可见层神经元输入数据，根据神经元v_i更新隐藏层神经元h_j的状态；再由隐藏层神经元h_j重构出可见层神经元v_i的状态，接着再由重构出的可见层神经元v_i的状态再重构隐藏层神经元h_j的状态，完成一次受限玻尔兹曼机神经网络训练学习过程，重复执行上述过程，直到神经网络具有最小的能量值；

2.如权利要求1所述的基于RBM的电力信息系统日志信息综合特征提取方法，其特征在于，所述步骤1采集日志信息后，还对日志信息进行去重和去噪预处理。

3.如权利要求1所述的基于RBM的电力信息系统日志信息综合特征提取方法，其特征在于，所述步骤2中N小于日志信息维度的二分之一。

4.如权利要求1所述的基于RBM的电力信息系统日志信息综合特征提取方法，其特征在于，对于给定的状态(v,h)，RBM具备的能量用函数表示为：