CN107730040B - 基于rbm的电力信息系统日志信息综合特征提取方法和装置 - Google Patents
基于rbm的电力信息系统日志信息综合特征提取方法和装置 Download PDFInfo
- Publication number
- CN107730040B CN107730040B CN201710941519.3A CN201710941519A CN107730040B CN 107730040 B CN107730040 B CN 107730040B CN 201710941519 A CN201710941519 A CN 201710941519A CN 107730040 B CN107730040 B CN 107730040B
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- rbm
- log information
- boltzmann machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 48
- 210000002569 neuron Anatomy 0.000 claims description 57
- 101000742844 Homo sapiens RNA-binding motif protein, Y chromosome, family 1 member A1 Proteins 0.000 claims description 18
- 102100038040 RNA-binding motif protein, Y chromosome, family 1 member A1 Human genes 0.000 claims description 18
- 210000004027 cell Anatomy 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 101001046999 Homo sapiens Kynurenine-oxoglutarate transaminase 3 Proteins 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于RBM的电力信息系统日志信息综合特征提取方法和装置,所述方法包括:获取当前系统中各个设备的日志信息;对于每类日志r,构建初始化受限波尔兹曼机神经网络RBMr并进行训练,输入数据为日志r的数据,根据对比散度快速学习方法优化网络权值,得到稳定的RBMr;构建用于提取综合特征的受限玻尔兹曼机神经网络RBMcom,初始化RBMcom,将RBMr隐藏层输出的数据进行拼接组成数据序列,对RBMcom进行训练,得到稳定的RBMcom;基于训练好的受限玻尔兹曼机神经网络集合,将各类日志数据输入,获得维度为C的综合特征数据。本发明可以解决日志数据异构性带来的问题,实现降维并得到融合后的综合特征,有效的提高电力信息系统安全态势预测的速度和预测精度。
Description
技术领域
本发明涉及电力信息系统安全态势感知(多源日志融合)领域,尤其涉及一种基于RBM的电力信息系统日志信息综合特征提取方法和装置。
背景技术
电力系统企事业单位为了保障自身网络的安全,通常在网络出入口处安装了多种安全防护设备,如防火墙、IDS、IPS、防病毒软件等,这些设备共同为单位内部网络构建安全防护圈。这些设备在运行过程中都会产生大量日志来记录自身行为,这能够有效地监视网络运行状况。各类网络安全设备产生的日志信息重复率高,网络管理人员很难发现其中隐藏的关联性,这不利于对网络态势进行分析。但是,防火墙、IDS和IPS等设备日志间缺乏协同机制,其语义级别低,且具有结构多样和分散独立的特点,其中包含的安全信息相互隔离,形成“信息孤岛”,从而使管理人员无法做出正确的安全决策和应急响应。需要有一种方法来从各类日志信息中提取综合特征,从而帮助管理人员从总体上把握信息系统的安全态势,例如,基于这些特征可以在宏观层面进行未知威胁检测等工作。
目前,在网络设备日志融合方面主要有基于逻辑关系的算法和基于规则推理的算法等。基于逻辑关系的算法根据日志信息内在的逻辑关系进行数据融合,根据人基于经验的思维方式设计逻辑规则。基于规则推理的算法将多源日志信息的不确定性进行模糊量化处理,然后采用基于规则推理的方法来实现网络安全态势的评估。这些算法都需要一定程度的先验知识和领域专家知识。在面向大量异构设备和不断演化的网络环境时,适配性问题较为突出。
因此,如何快速有效的实现电力信息系统中多源异构设备日志信息的融合,是本领域技术人员目前迫切解决的技术问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于RBM的电力信息系统日志信息综合特征提取方法和装置,人工神经网络具有较强的非线性映射能力,尤其是受限玻尔兹曼机神经网络,具有较强的自编码能力。本发明基于多源异构电力设备日志信息,采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码,有助于解决日志数据异构性带来的问题;进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理,可以实现降维并得到融合后的综合特征。这些综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析,从而在宏观层面感知安全态势和未知威胁,可以有效的提高电力信息系统安全态势预测的速度和预测精度。
为实现上述目的,本发明采用如下技术方案:
一种基于RBM的电力信息系统日志信息综合特征提取方法,包括以下步骤:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
进一步地,所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息。
进一步地,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
进一步地,所述步骤2中N小于日志信息维度的二分之一。
进一步地,其中所述对比散度快速学习方法优化网络权值的过程为:
设n和m分别是可见层v和隐藏层h的神经元数目,a和b分别为可见层和隐藏层的偏置向量,W为v和h之间的权值矩阵;对于可见层v和隐藏层h,vi表示第i个可见单元的状态,hj表示第j个隐藏单元的状态;从受限玻尔兹曼机神经网络可见层神经元输入数据,根据神经元vi更新隐藏层神经元hj的状态;再由隐藏层神经元hj重构出可见层神经元vi的状态,接着再由重构出的可见层神经元vi的状态再重构隐藏层神经元hj的状态,完成一次受限玻尔兹曼机神经网络训练学习过程,重复执行上述过程,直到神经网络具有最小的能量值。
进一步地,对于给定的状态(v,h),RBM具备的能量用函数表示为:
其中θ={Wij,ai,bj}是RBM的参数,均为实数,为把W,a,b的所有分量拼起来得到的长向量,Wij是可见单元i与隐藏单元j之间的连接权重,ai是可见单元i的偏置,bj是隐藏单元j的偏置。
进一步地,基于能量函数可以得到(v,h)的联合概率分布:
当给定隐藏单元的状态时,各可见单元的激活状态之间也是条件独立的,则第i个可见单元的激活概率为:
进一步地,参数θ可以通过最大化RBM在训练集上的对数似然函数学习得到:
进一步地,其中可见层和隐藏层的权重调整方式及噪声控制参数ai、bj的调整方式为:
ΔWij=ε(<vihj>data-<vihj>recon)
Δai=ε(<vi>data-<vi>recon)
Δbj=ε(<hj>data-<hj>recon)
其中ε是学习率,<·>recon是表示进一步重构后模型定义的分布上的数学期望,<·>data是训练数据集所定义的分布上的数学期望,<vihj>data是可见层神经元与隐藏层神经元在输入数据下的二进制状态乘积,〈vihj>recon是可见层神经元与隐藏层神经元在重构数据下的二进制状态乘积。
根据本发明的第二方面,本发明还提供了一种基于RBM的电力信息系统日志信息综合特征提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
进一步地,所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息。
进一步地,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
根据本发明的第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,用于电力信息系统日志信息的综合特征提取,该程序被处理器执行时执行以下步骤:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
进一步地,所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息。
进一步地,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
本发明的有益效果
1、本发明采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码,有助于解决日志数据异构性带来的问题;进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理,可以实现降维并得到融合后的综合特征,可以有效的提高电力信息系统安全态势预测的速度和预测精度。
2、本发明得到的综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析,从而在宏观层面感知安全态势和未知威胁。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的多源日志信息综合特征提取方法示意框图;
图2为本发明多源日志信息综合特征提取系统示意;
图3为本发明多源日志信息综合特征提取方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步地说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种基于RBM的电力信息系统日志信息综合特征提取方法,包括:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息,日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息;
首先获取电力信息系统中各类设备,例如安全设备、网络设备、主机及其他安全防护系统产生的日志信息,并对采集到的原始数据进行实时的预处理和分析,对原始数据的预处理包括数据去重、数据噪声去除等。数据去重是确保所采集的数据是可信数据,将源数据中的噪声数据和无关数据去除,去除空白数据域等。经过预处理的数据进行分布式存储,对所有存储的数据创建数据索引,以便后续查询追溯使用。假设日志信息共有t类,记为{日志1,日志,…,日志t},其数据维度分别为{M1,M2,…,Mt}。
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数;t为日志信息的类数,记为{日志1,日志2,…,日志t},其数据维度分别为{M1,M2,…,Mt};其中,日志信息的类别是按照设备划分的,不同的设备是不同的类别;维度表示日志数据的字段数。
如图1所示,所述初始化受限波尔兹曼机神经网络RMBr为具有可见层和隐藏层的两层网络,将不同长度的日志信息数据输入后将其编码为长度为N的数据并输出,可见层节点数与输入数据的维度相对应为Mr个,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
RBM是一种由可见层神经元和隐藏层神经元组成的两层结构的生成式随机神经网络。在RBM中可见单元数一般等于训练数据的特征维数,而隐藏单元数需要事先给定。隐藏单元数目的设定,一般先估算描述一个数据所需要的比特数,用其乘上训练集容量,基于所得的数,选择比其低一个数量级的值作为隐藏单元的数量,由于电力信息系统中数据是高度冗余的,即数据集容量非常大,因此可以使用更少一些的隐藏单元。在当前方案中,N小于Mi的二分之一。N的大小上限是与数据维度相关,本实施例设定N的取值小于所有M的一半。
步骤3:对于每类日志r,训练相应的受限玻尔兹曼机神经网络RBMr;
训练的输入数据为日志r的数据,从受限玻尔兹曼机神经网络RBMr的可见层神经元输入数据,根据对比散度快速学习方法优化网络权值,由此得到稳定的RBMr。
神经网络系统越有序或者概率分布越集中,系统的能量越小,能量函数的最小值,对应于系统的最稳定状态。通过调整网络的权值和偏置值使得网络对该输入数据的能量最低。稳定状态是指当前的神经网络具有最小的能量。
设n和m分别是可见层v和隐藏层h的神经元数目,a和b分别为可见层和隐藏层的偏置向量,W为v和h之间的权值矩阵。RBM对应的图是一个二分图,即层内各神经元之间无连接,层间全连接。底层神经元接收输入的原始特征向量,通过该神经网络向上传递,将具体的采集到的特征向量转化为神经元更少的抽象的特征向量并对数据进行降维。
对于可见层v和隐藏层h,vi表示第i个可见单元的状态,hj表示第j个隐藏单元的状态。从受限玻尔兹曼机神经网络可见层神经元输入数据,根据神经元vi更新隐藏层神经元hj的状态;再由隐藏层神经元hj重构出可见层神经元vi的状态,接着再由重构出的可见层神经元vi的状态再重构出隐藏层神经元hj的状态,完成一次受限玻尔兹曼机神经网络训练学习过程,直到神经网络具有最小的能量值。
对于给定的状态(v,h),RBM具备的能量为:
其中θ={Wij,ai,bj}是RBM的参数,均为实数,可将其视为把W,a,b的所有分量拼起来得到的长向量。Wij是可见单元i与隐藏单元j之间的连接权重,ai是可见单元i的偏置,bj是隐藏单元j的偏置,基于能量函数可以得到(v,h)的联合概率分布:其中为归一化因子。
由于RBM不同层的单元之间有连接,而层内单元之间无连接,当给定可见单元的状态时,各隐藏单元的激活状态之间是条件独立的,因此第j个隐藏单元的激活概率为:当给定隐藏单元的状态时,各可见单元的激活状态之间也是条件独立的,则第i个可见单元的激活概率为:
由于电力信息系统获得的观测数据(即训练样本数据)的特征维度通常较高,因此对RBM的训练效率有更高的要求。对比散度方法是一种快速学习方法,方法处理开始时,可见单元的状态被设置为一个训练样本,根据计算所有隐藏单元的二值状态,在所有的隐藏单元的状态确定后,根据计算第i个可见单元vi取值为1的概率,生成可见层的重构。此时使用随机梯度上升法最大化对数似然函数在训练数据上的值时,可见层和隐藏层的权重调整方式及噪声控制参数ai、bj的调整方式为:
ΔWij=ε(〈vihj>data-〈vihj>recon)
Δai=ε(〈vi>data-〈vi>recon)
Δbj=ε(<hj>data-<hj>recon)
其中ε是学习率,<·>recon是表示进一步重构后模型定义的分布上的数学期望,<·>data是训练数据集所定义的分布上的数学期望,<vihj>data是可见层神经元与隐藏层神经元在输入数据下的二进制状态乘积,<vihj>recon是可见层神经元与隐藏层神经元在重构数据下的二进制状态乘积。
当输入v的时候,通过p(h|v)可以得到隐藏层h,而得到隐藏层h之后,通过p(v|h)又能得到可视层,通过调整参数,我们就是要使得从隐藏层得到的可视层v1与原来的可视层v如果一样,那么得到的隐藏层就是可视层另外一种表达,因此隐藏层可以作为可视层输入数据的特征。
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络RBMcom,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值,初始化RBMcom;
步骤5:对第一层受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,所述数据序列的维度为t*N,根据对比散度快速学习方法优化网络权值,由此得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
实施例二
本实施例的目的是提供一种计算装置。
一种基于RBM的电力信息系统日志信息综合特征提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,用于电力信息系统日志信息的综合特征提取,该程序被处理器执行时执行以下步骤:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本发明基于多源异构电力设备日志信息,采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码,有助于解决日志数据异构性带来的问题;进而再用受限玻尔兹曼机神经网络对规范化编码后的日志信息进行处理,可以实现降维并得到融合后的综合特征。这些综合特征可以被安全管理人员用于进行聚类分析、异常检测等各类分析,从而在宏观层面感知安全态势和未知威胁,可以有效的提高电力信息系统安全态势预测的速度和预测精度。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (11)
1.一种基于RBM的电力信息系统日志信息综合特征提取方法,其特征在于,包括以下步骤:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
其中所述对比散度快速学习方法优化网络权值的过程为:
设n和m分别是可见层v和隐藏层h的神经元数目,a和b分别为可见层和隐藏层的偏置向量,W为v和h之间的权值矩阵;对于可见层v和隐藏层h,vi表示第i个可见单元的状态,hj表示第j个隐藏单元的状态;从受限玻尔兹曼机神经网络可见层神经元输入数据,根据神经元vi更新隐藏层神经元hj的状态;再由隐藏层神经元hj重构出可见层神经元vi的状态,接着再由重构出的可见层神经元vi的状态再重构隐藏层神经元hj的状态,完成一次受限玻尔兹曼机神经网络训练学习过程,重复执行上述过程,直到神经网络具有最小的能量值;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
2.如权利要求1所述的基于RBM的电力信息系统日志信息综合特征提取方法,其特征在于,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
3.如权利要求1所述的基于RBM的电力信息系统日志信息综合特征提取方法,其特征在于,所述步骤2中N小于日志信息维度的二分之一。
7.如权利要求1、4-5任一项所述的基于RBM的电力信息系统日志信息综合特征提取方法,其特征在于,其中可见层和隐藏层的权重调整方式及噪声控制参数ai、bj的调整方式为:
ΔWij=ε(<vihj>data-<vihj>recon)
Δai=ε(<vi>data-<vi>recon)
Δbj=ε(<hj>data-<hj>recon)
其中ε是学习率,<·>recon是表示进一步重构后模型定义的分布上的数学期望,<·>data是训练数据集所定义的分布上的数学期望,<vihj>data是可见层神经元与隐藏层神经元在输入数据下的二进制状态乘积,<vihj>recon是可见层神经元与隐藏层神经元在重构数据下的二进制状态乘积。
8.一种基于RBM的电力信息系统日志信息综合特征提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤,包括:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
其中所述对比散度快速学习方法优化网络权值的过程为:
设n和m分别是可见层v和隐藏层h的神经元数目,a和b分别为可见层和隐藏层的偏置向量,W为v和h之间的权值矩阵;对于可见层v和隐藏层h,vi表示第i个可见单元的状态,hj表示第j个隐藏单元的状态;从受限玻尔兹曼机神经网络可见层神经元输入数据,根据神经元vi更新隐藏层神经元hj的状态;再由隐藏层神经元hj重构出可见层神经元vi的状态,接着再由重构出的可见层神经元vi的状态再重构隐藏层神经元hj的状态,完成一次受限玻尔兹曼机神经网络训练学习过程,重复执行上述过程,直到神经网络具有最小的能量值;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
9.如权利要求8所述的基于RBM的电力信息系统日志信息综合特征提取装置,其特征在于,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
10.一种计算机可读存储介质,其上存储有计算机程序,用于电力信息系统日志信息的综合特征提取,其特征在于,该程序被处理器执行时执行以下步骤:
步骤1:电力信息系统数据采集,采集电力信息系统中各个设备的包含历史数据和实时数据的日志信息;
所述日志信息中包括设备状态信息、动态传输数据信息、防护安全信息及故障信息;
步骤2:对于每类日志信息r,构建初始化受限波尔兹曼机神经网络RBMr,其中r为1与t之间的正整数,t为日志信息的类数;所述初始化受限波尔兹曼机神经网络,可见层节点数与输入日志信息的维度相对应,隐藏层节点数为N个,随机产生[0,1]之间的随机数作为神经网络可见层节点和隐藏层节点之间的连接权值;
步骤3:对于每类日志信息r,训练相应的受限玻尔兹曼机神经网络RBMr,并根据对比散度快速学习方法优化网络权值,得到稳定的网络RBMr;
其中所述对比散度快速学习方法优化网络权值的过程为:
设n和m分别是可见层v和隐藏层h的神经元数目,a和b分别为可见层和隐藏层的偏置向量,W为v和h之间的权值矩阵;对于可见层v和隐藏层h,vi表示第i个可见单元的状态,hj表示第j个隐藏单元的状态;从受限玻尔兹曼机神经网络可见层神经元输入数据,根据神经元vi更新隐藏层神经元hj的状态;再由隐藏层神经元hj重构出可见层神经元vi的状态,接着再由重构出的可见层神经元vi的状态再重构隐藏层神经元hj的状态,完成一次受限玻尔兹曼机神经网络训练学习过程,重复执行上述过程,直到神经网络具有最小的能量值;
步骤4:构建用于提取综合特征的受限玻尔兹曼机神经网络并进行初始化,RBMcom为两层网络,可见层节点数为t*N,隐藏层节点数为C,随机产生[0,1]之间的随机数作为神经网络的连接权值;
步骤5:对所有受限玻尔兹曼机神经网络RBMr隐藏层输出的数据进行拼接组成数据序列,将所述数据序列作为训练输入数据对受限玻尔兹曼机神经网络RBMcom进行训练,并根据对比散度快速学习方法优化网络权值,得到稳定的RBMcom;
步骤6:基于训练好的受限玻尔兹曼机神经网络集合{RBM1,RBM2,…,RBMr…,RBMt,RBMcom},构建多源日志综合特征提取系统;
步骤7:将从电力信息系统采集的各类日志数据输入相应的受限玻尔兹曼机神经网络,获得维度为C的综合特征数据。
11.如权利要求10所述的计算机可读存储介质,其特征在于,所述步骤1采集日志信息后,还对日志信息进行去重和去噪预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710941519.3A CN107730040B (zh) | 2017-09-30 | 2017-09-30 | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710941519.3A CN107730040B (zh) | 2017-09-30 | 2017-09-30 | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107730040A CN107730040A (zh) | 2018-02-23 |
CN107730040B true CN107730040B (zh) | 2021-03-16 |
Family
ID=61210755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710941519.3A Active CN107730040B (zh) | 2017-09-30 | 2017-09-30 | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107730040B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847279B (zh) * | 2018-04-27 | 2022-04-01 | 吉林大学 | 一种基于脉搏波数据的睡眠呼吸状态自动判别方法及系统 |
CN108960321B (zh) * | 2018-07-02 | 2021-10-22 | 国电南瑞科技股份有限公司 | 一种大型锂电池储能电站电池故障预测方法 |
CN109615109A (zh) * | 2018-12-29 | 2019-04-12 | 大唐河南清洁能源有限责任公司 | 基于小样本数据的深度学习风电告警信息分析方法 |
CN109857906B (zh) * | 2019-01-10 | 2023-04-07 | 天津大学 | 基于查询的无监督深度学习的多视频摘要方法 |
CN111931798B (zh) * | 2019-05-13 | 2023-05-23 | 北京绪水互联科技有限公司 | 进行冷头状态分类检测和寿命预测的方法 |
CN110321371B (zh) * | 2019-07-01 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 日志数据异常检测方法、装置、终端及介质 |
CN111199361A (zh) * | 2020-01-13 | 2020-05-26 | 国网福建省电力有限公司信息通信分公司 | 基于模糊推理理论的电力信息系统健康评估方法及系统 |
CN111191742B (zh) * | 2020-02-11 | 2024-05-31 | 天津师范大学 | 一种用于多源异构数据流的滑动窗口长度自适应调整方法 |
CN112016799A (zh) * | 2020-07-15 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 资源配额分配方法、装置及电子设备 |
CN112907222B (zh) * | 2021-03-25 | 2022-07-08 | 清华大学 | 一种多源异构电网运监业务数据融合方法 |
CN116471198B (zh) * | 2023-06-19 | 2023-10-03 | 南京典格通信科技有限公司 | 一种基于受限玻尔兹曼机的功放故障预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107036816A (zh) * | 2016-11-17 | 2017-08-11 | 重庆工商大学 | 一种航空发动机轴承故障诊断方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9361586B2 (en) * | 2009-12-07 | 2016-06-07 | Yahoo! Inc. | Method and system for invariant pattern recognition |
KR20160112186A (ko) * | 2015-03-18 | 2016-09-28 | 삼성전자주식회사 | 뉴럴 네트워크에서 이벤트에 기반한 학습 방법 및 장치 |
CN104915654B (zh) * | 2015-06-11 | 2018-06-01 | 浙江工业大学 | 一种基于受限玻尔兹曼机的路径点数据行为识别方法 |
CN105959131A (zh) * | 2016-04-15 | 2016-09-21 | 贵州电网有限责任公司信息中心 | 一种基于安全日志数据挖掘的电力信息网络安全度量方法 |
CN106325252A (zh) * | 2016-09-28 | 2017-01-11 | 华北电力大学 | 多层大跨度面向大数据的电力设备状态监测与评估系统 |
CN106779069A (zh) * | 2016-12-08 | 2017-05-31 | 国家电网公司 | 一种基于神经网络的异常用电检测方法 |
CN106777141B (zh) * | 2016-12-19 | 2019-07-12 | 国网山东省电力公司电力科学研究院 | 一种融合多源异构电网数据的获取和分布式存储方法 |
-
2017
- 2017-09-30 CN CN201710941519.3A patent/CN107730040B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107036816A (zh) * | 2016-11-17 | 2017-08-11 | 重庆工商大学 | 一种航空发动机轴承故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107730040A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107730040B (zh) | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 | |
Malhotra et al. | TimeNet: Pre-trained deep recurrent neural network for time series classification | |
CN114297936A (zh) | 一种数据异常检测方法及装置 | |
Gomes et al. | BERT-and TF-IDF-based feature extraction for long-lived bug prediction in FLOSS: a comparative study | |
Zhang et al. | A novel data-driven method based on sample reliability assessment and improved CNN for machinery fault diagnosis with non-ideal data | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN111091278A (zh) | 机械设备异常检测的边缘检测模型构建方法及装置 | |
Challu et al. | Deep generative model with hierarchical latent factors for time series anomaly detection | |
CN115225516B (zh) | 基于改进abc-vmd的lssvm网络流量预测方法 | |
Jiang et al. | Distributed deep learning optimized system over the cloud and smart phone devices | |
Nasser et al. | A hybrid of convolutional neural network and long short-term memory network approach to predictive maintenance | |
Wadekar et al. | Hybrid CAE-VAE for unsupervised anomaly detection in log file systems | |
CN108604313A (zh) | 自动化的预测性建模与框架 | |
Yang et al. | A new intelligent fault diagnosis framework for rotating machinery based on deep transfer reinforcement learning | |
Siang et al. | Anomaly detection based on tiny machine learning: A review | |
CN113743461B (zh) | 无人机集群健康度评估方法及装置 | |
US20230024884A1 (en) | Balancing feature distributions using an importance factor | |
Ayodeji et al. | An empirical evaluation of attention-based multi-head models for improved turbofan engine remaining useful life prediction | |
CN116756881B (zh) | 一种轴承剩余使用寿命预测方法、装置及存储介质 | |
Xu et al. | Bearing Fault Diagnosis in the Mixed Domain Based on Crossover‐Mutation Chaotic Particle Swarm | |
CN111831955B (zh) | 一种锂离子电池剩余寿命预测方法及系统 | |
CN117592595A (zh) | 一种配电网负荷预测模型建立、预测方法及装置 | |
Gaykar et al. | Faulty Node Detection in HDFS Using Machine Learning Techniques. | |
CN113240425A (zh) | 基于深度学习的金融反洗钱交易方法、设备及存储介质 | |
CN111402042A (zh) | 一种用于股市大盘形态分析的数据分析与显示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |