CN112508363A - 基于深度学习的电力信息系统状态分析方法及装置 - Google Patents

基于深度学习的电力信息系统状态分析方法及装置 Download PDF

Info

Publication number
CN112508363A
CN112508363A CN202011338528.1A CN202011338528A CN112508363A CN 112508363 A CN112508363 A CN 112508363A CN 202011338528 A CN202011338528 A CN 202011338528A CN 112508363 A CN112508363 A CN 112508363A
Authority
CN
China
Prior art keywords
information system
state analysis
training
training samples
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011338528.1A
Other languages
English (en)
Other versions
CN112508363B (zh
Inventor
何东
毛冬
饶涵宇
王红凯
张辰
徐海青
陈是同
陶俊
吴小华
毛舒乐
浦正国
梁翀
胡心颖
郭庆
张天奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011338528.1A priority Critical patent/CN112508363B/zh
Publication of CN112508363A publication Critical patent/CN112508363A/zh
Application granted granted Critical
Publication of CN112508363B publication Critical patent/CN112508363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习的电力信息系统状态分析方法及装置,包括:获取训练样本;根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;基于训练完成的信息系统状态分析模型进行信息系统状态分析。本发明通过在标注数据时,对特征相似的训练样本采用相同标注,实现只需将所有训练样本进行特征相似性衡量,然后将特征相似的划分为一类进行相同标注,提高训练样本标注效率,同时采用深度置信网络提高了状态分析的客观性,避免了采用主客观指标权重赋权进行状态分析造成的主客观性不平衡。

Description

基于深度学习的电力信息系统状态分析方法及装置
技术领域
本发明涉及电力系统管理技术领域,具体涉及基于深度学习的电力信息系统状态分析方法及装置。
背景技术
电力能源作为保障国民经济高效运行的重要基础,随着云计算、大数据、物联网等新兴信息技术的飞速发展和日趋成熟,信息技术、网络技术和通讯技术与电力企业生产、运行和管理等各个环节的融合更为紧密,电力系统的信息化程度也在不断提升,由此也产生了大量包含了系统网络连接状态、数据库状态等系统运行日志以及设备运行参数等相关日志信息。此外,随着我国电力体制改革的不断深入,电力市场化交易正逐步有序放开,电力企业业务信息系统的复杂性也显著增强。充分利用系统运行过程中累积的海量信息,对电力业务信息系统的运行健康状况进行准确有效的分析,进而确保系统的安全、可靠、经济运行正日益成为一个学术界关注的热点问题。
与其他领域的信息系统健康状态分析类似,电力业务信息系统状态分析需要对系统硬件、系统软件以及网络组成等系统构成单元进行系统性和综合性分析。现有的信息系统健康状态分析方法主要有主观评价方法和客观评价方法两大类。其中主观评价方法需要构建相应的评价指标体系,进而根据专家打分确定评价体系中各个不同指标对应的权重,从而进行综合评判。
现有信息系统状态分析的研究主要集中于评价过程的客观性和科学性。然而,无论是主观性评价方法,还是客观性评价方法,其评价指标权重的构造问题仍然是急待解决的核心问题。
发明内容
针对上述现有技术存在的问题,本发明提供了基于深度学习的电力信息系统状态分析方法,包括如下步骤:
获取训练样本,所述一个训练样本包括同一时间的多个状态分析参数的数据;
根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;
以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;
基于训练完成的信息系统状态分析模型进行信息系统状态分析。
作为上述方案的进一步优化,所述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,包括:
将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中,形成多个类别;
将多个训练样本类别与多个数据标注种类映射对应,进行每一类别训练样本的标注。
作为上述方案的进一步优化,所述将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中,形成多个类别,包括如下步骤:
(1)初始建立两个集合,并且将距离最远的两个训练样本X1、X2分别放入两个集合中并作为集合中心;
(2)计算已有集合的集合中心的平均距离P1;
(3)新建一个集合存入一个新的训练样本Xi(i>2),计算新建集合后所有集合的中心的平均距离P2,若P2>P1,则新建集合保留且存放新加训练样本Xi,否则,删除新建集合并将Xi放入距离最近的已有集合中;
(4)基于新加训练样本和新建集合后的结果,进行集合中心重置;
(5)基于集合中心重置后,重复步骤(2)到(4),直至所有训练样本均已放入集合中。
作为上述方案的进一步优化,所述基于新加训练样本和新建集合后的结果,进行集合中心重置,是将每个集合中的所有训练样本的中值作为新的集合中心。
作为上述方案的进一步优化,所述将多个训练样本类别与多个数据标注种类映射对应,包括:
计算同一类的训练样本的均值,将多个训练样本类别根据其均值从高到低排序;
将信息系统状态分析结果种类的等级从高到低依次排序;
训练样本类别序列和状态分析结果种类等级序列按顺序映射对应。
作为上述方案的进一步优化,所述计算同一类的训练样本的均值,采用加权均值计算,通过熵权法对不同训练样本分配权重,包括:
计算一个的训练样本中一个参数数据在所有训练样本中同类参数中的比重
Figure RE-GDA0002933100200000031
其中i表示第i个训练样本,j表示训练样本中第j个参数;
计算一个参数的信息熵,
Figure RE-GDA0002933100200000032
计算一个参数的权重,
Figure RE-GDA0002933100200000033
其中,
Figure RE-GDA0002933100200000034
ek≠1表示参数的信息熵不为1,
Figure RE-GDA0002933100200000035
表示信息熵不为1的参数个数。
作为上述方案的进一步优化,所述进行信息系统状态分析模型训练的深度学习网络采用深度置信网络模型。
本发明还提供了基于深度学习的电力信息系统状态分析装置,包括:
训练样本获取单元,用于获取训练样本,所述一个训练样本包括同一时间的多个状态分析参数的数据;
训练样本标注单元,用于根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;
模型训练单元,用于以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;
信息系统状态分析单元,基于训练完成的信息系统状态分析模型进行信息系统状态分析。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的信息系统状态分析方法的步骤。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的信息系统状态分析方法的步骤。
本发明的基于深度学习的电力信息系统状态分析方法及装置,具备如下有益效果:
1、通过在标注数据时,对特征相似的训练样本采用相同标注,实现只需将所有训练样本进行特征相似性衡量,然后将特征相似的划分为一类,进行每一类训练样本的批量标注即可,提高训练样本标注效率,同时基于多个用于分析电力信息系统状态的参数,通过采用深度置信网络,进行多个参数与电力信息系统状态之间的关系拟合,提高了状态分析的客观性,避免了采用主客观指标权重赋权进行状态分析造成的主客观性不平衡。
2、通过熵权法进行多个参数的权重分配,同时通过采用聚类算法将特征相似的训练样本划分为一类,基于权重分配的基础上计算一类训练样本的均值一以此来根据均值大小确定每类训练样本应该标注的数据,提高了数据标注的准确性。
3、聚类算法中通过改进初始聚类集合中心和聚类集合个数的确定方法,避免了聚类过程陷入局部最优解以及聚类结果不稳定的问题,同时减少聚类过程的迭代次数。
附图说明
图1是本发明的基于深度学习的电力信息系统状态分析方法的整理流程框图;
图2是本发明的基于深度学习的电力信息系统状态分析装置的结构框图;
图3是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标AUC下的对比结果图;
图4是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标F1下的对比结果图;
图5是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标Precision下的对比结果图;
图6是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标Recall下的对比结果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参见图1,本实施例提供的基于深度学习的电力信息系统状态分析方法,包括如下步骤:
获取训练样本,一个训练样本包括同一时间的多个状态分析参数的数据,其中多个状态分析参数可以包括:CPU总核数、内存剩余量、内存利用率、物理内存总量、内存大小、IOWAIT、内存分配率、CPU平均使用率、存储介质利用率、内存占用量、PING 丢包率、连续运行时间等;
根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注,具体的,信息系统状态分析结果种类可以包括良好、一般、较差等,在该步骤中,考虑到训练样本标注工作的费时费力,对特征相似的训练样本采用相同标注,基于该思路,只需将所有训练样本进行特征相似性衡量,然后将特征相似的划分为一类,进行每一类训练样本的批量标注即可,提高训练样本标注效率。
以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练,基于训练完成的信息系统状态分析模型进行信息系统状态分析。
在本实施例中,信息系统状态分析模型的训练网络采用深度置信网络模型,该网络模型中若干个RBM(受限玻尔兹曼机)和一个分类层(BP神经网络)栈式叠加,输入层有q个单元,表示训练样本有q个参数,输出层有p个神经元,表示有p个信息系统状态分析结果种类,RBM主要用于基于输入数据进行特征提取,而分类层将特征概率分布映射到相应的信息系统状态分析结果种类上。
在训练过程中,包括无监督的逐层预训练和有监督的微调。在DBN训练期间,无监督的逐层预训练,首先在第一个RBM的可视层中生成矢量,并将该值通过RBM网络传递到隐藏层。反过来,隐藏层用于重建可视层。根据重构层和可见层之间的差异,更新隐藏层和可见层之间的权重,直到达到最大迭代次数。完成层与层之间的无监督训练后,将DBN自动学习的特征输入到分类层中,最后在BP层上执行微调。DBN的无监督的逐层预训练过程是DBN模型与其他模型之间的主要区别,这种训练模式通过无监督训练有效地缩小参数寻优的空间,大大减少了有监督训练的时间。
上述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,考虑到目前训练数据主要来自于手工标注,手工标注需要耗费巨大的人力物力,本实施例中对训练样本的标注方法,是先将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中,形成多个类别,将同一种类的训练数据标注同样数据,而对于同一种类的训练数据该标注哪种标注数据,本实施例中通过将多个训练样本类别与多个数据标注种类映射对应,进行每一类别训练样本的标注。其中,本实施例通过将标注数据进行排序,同时不同训练样本种类进行排序,从而达到序列的映射对应,具体的,该映射对应方法为:
计算同一类的训练样本的均值,将多个训练样本类别根据其均值从高到低排序;
将信息系统状态分析结果种类的等级从高到低依次排序;
训练样本类别序列和状态分析结果种类等级序列按顺序映射对应。
显然,在标注数据为良好、一般、较差等等时,标注数据可以是从优到差排序,而对于计算同一类的训练样本的均值进行均值排序,本实施例中,采用赋权方式进行均值计算。
对于聚类算法的步骤,由于现有技术中聚类算法通过随机选取初始聚类中心点会很容易导致算法陷入局部最优解,聚类结果不稳定,而通过预设聚类类别个数n,然后比较在不同n下的聚类结果,择优确定n值,导致聚类费时费力而且聚类不准确。
所以本实施例中的聚类算法,采用聚类类别个数不唯一和初始聚类中心唯一可选的方法,具体包括如下步骤:
(1)初始建立两个集合,并且将距离最远的两个训练样本X1、X2分别放入两个集合中并作为集合中心;
(2)计算已有集合的中心的平均距离P1;
(3)新建一个集合存入一个新的训练样本Xi(i>2),计算新建集合后所有集合的中心的平均距离P2,若P2>P1,则新建集合保留且存放新加训练样本Xi,否则,删除新建集合并将Xi放入距离最近的已有集合中;
(4)基于新加训练样本和新建集合后的结果,进行集合中心重置,该步骤中采用将每个集合中的所有训练样本的中值作为新的集合中心;
(5)基于集合中心重置后,重复步骤(2)到(4),直至所有训练样本均已放入集合中。
上述聚类算法,先以距离最远的两个训练样本确定两个集合,以保证这两个训练样本不属于一个聚类集合,从而减少聚类过程的迭代次数,然后两个训练样本作为两个集合的集合中心,保证了初始聚类中心的唯一性,改善聚类结果的稳定性,接着通过对于新加入的训练样本进行分散性检测,如果新加入的训练样本使得集合间的平均距离增大了,即变得更加分散,则将新加入的训练样本分到一个新的集合中,否则,则确定新加入的训练样本属于已有集合,上述初始聚类集合的确定和中间迭代过程中新增聚类集合的确定方法都依据分散性最大原则,使得聚类结果中不用集合的训练样本的差异性尽可能大同时同一集合内训练样本的相似性尽可能大。同时,聚类算法中,采用将每个集合中的所有训练样本的中值作为新的集合中心进行集合中心重置,避免了离群点对于确定集合中心的影响。
上述计算同一类的训练样本的均值,采用加权均值计算,包括如下步骤:
对不同训练样本分配权重,该步骤中采用熵权法;
基于权重分配结果计算同一类的训练样本均值。
本实施例中采用熵权法对不同训练样本分配权重的步骤,具体包括:
计算一个的训练样本中一个参数数据在所有训练样本中同类参数中的比重
Figure RE-GDA0002933100200000071
其中i表示第i个训练样本,j表示训练样本中第j个参数;
计算一个参数的信息熵,
Figure RE-GDA0002933100200000072
计算一个参数的权重,
Figure RE-GDA0002933100200000073
其中,
Figure RE-GDA0002933100200000074
ek≠1表示参数的信息熵不为1,
Figure RE-GDA0002933100200000075
表示信息熵不为1的参数个数,
Figure RE-GDA0002933100200000076
表示信息熵不为1的参数的平均熵值,上述参数的权重Wj的计算中保证了熵值接近的两个参数的权重也接近,从而保证权重分配的合理性。
本实施例中,对于信息系统状态的分析,对原始多个不同训练样本通过聚类算法划分到不同集合中,同时结合熵权法对不同聚合中的多个训练样本进行客观化权重赋值,由此给出不同集合类别所对应的训练样本均值并对应映射到系统状态分析结果等级,实现了不同训练样本的客观性且高效标注。在此基础上,运用深度置信网络对电力业务信息系统的健康状况进行分析。实验结果表明,所提出的评价模型能够有效的克服传统方法依赖专家经验打分的不足,此外相较于传统的机器学习方法,本文所提出的方法可以有效的提高电力业务信息系统运行状况的分类识别准确率。
参见图2,基于上述信息系统状态分析方法,本实施例还提供了一种基于深度学习的电力信息系统状态分析装置,包括:
训练样本获取单元,用于获取训练样本,所述一个训练样本包括同一时间的多个状态分析参数的数据;
训练样本标注单元,用于根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;
模型训练单元,用于以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;
信息系统状态分析单元,基于训练完成的信息系统状态分析模型进行信息系统状态分析。
本实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的信息系统状态分析方法的步骤。
本实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的信息系统状态分析方法的步骤。
基于本实施例提供的信息系统状态分析方法,下面结合具体实验过程进行说明。
将本实施例提供的方法分别与支持向量机(SVM)、决策树(RT)、k近邻(KNN)、长短期记忆人工神经网络(LSTM)算法进行比较分析。实验环境为Win10系统,共用 3.2GHz CPU,编译环境为Python3.6、Tensorflow2.0.0和Keras2.3.1。
实验基于电力公司电力信息系统的日志信息数据进行分析,首先对原始日志信息进行处理,得到以时间为主键,用于分析信息系统状态的多个参数为属性的数据集。接下来对数据集进行清洗,删除指标值为空的数据,最终有效数据为1195条作为训练样本集,该训练样本集中的每个训练样本包括了电力信息系统中各个参数在不同时间的值,具体每个训练样本包括的参数如下表1所示:
表1训练样本中包括的参数
Figure RE-GDA0002933100200000081
Figure RE-GDA0002933100200000091
本实验中深度置信网络模型中的RBM采用3层隐含层,神经元数目为64,RBM的学习率为0.05,BP的学习率为0.1,Dropout值设为0.2。除此之外,对比模型SVM、 RT、KNN采用网格搜索的方法来找到模型的最佳参数,本文训练集和测试集划分为9:1。
基于本实施例提供的训练样本标注方法,即通过聚类算法和熵权法进行标注,基于采集的日志数据,通过聚类算法将所有训练样本分为3类,采用熵权法对每个训练样本分配权重后,计算每类的训练样本均值,根据均值大小排序后对应进行标注,标注结果如下表2所示:
表2聚类结果表
Figure RE-GDA0002933100200000092
在进行数据标注后,进行信息系统状态分析模型的训练,训练完成后基于AUC(曲线下面积)、F1、Precision(精度)、和Recall(召回率)四个指标对本实施例的模型以及SVM、RT、KNN、LSTM模型进行分析。
精确率:
Figure RE-GDA0002933100200000093
召回率:
Figure RE-GDA0002933100200000094
F1-Score:
Figure RE-GDA0002933100200000095
ROC曲线下面积:
Figure RE-GDA0002933100200000096
其中,TP表示样本的真实类别是正,并且模型预测的结果也是正;TN表示样本的真实类别是负,并且模型将其预测成为负;FP表示样本的真实类别是负例,但是模型将其预测成为正例;FN表示样本的真实类别是正,但是模型将其预测成为负。
本实施例提出的信息系统状态分析方法与SVM、RT、KNN、LSTM算法的对比结果如下表3表示:
表3本实施例方法与其他算法对比结果
Figure RE-GDA0002933100200000101
本实施例提供的系统状态分析模型和对比模型SVM、RT、KNN、LSTM在指标AUC、 F1、Precision和Recall上对比结果参见图3到图6,图中横坐标为类别,纵坐标为准确度。从表3和图3-6中可以看出,深度置信网络明显优越于其他对比模型,其次为SVM。
从AUC值来看,LSTM在第一类的预测上与深度置信网络的值相同,优于其他对比模型,但LSTM在第二类和第三类上的AUC值低于深度置信网络。从图3中可以看出在各分类模型对于第二类的AUC值最高,而第二类的F1值较低。从表3中的Precision 和Recall两个指标结果可以看出,第二类的F1值较低是因为Precision值较低,即真正预测正确第二类的占所有预测为第二类的比例较低。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (10)

1.基于深度学习的电力信息系统状态分析方法,其特征在于,包括如下步骤:
获取训练样本,所述一个训练样本包括同一时间的多个状态分析参数的数据;
根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;
以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;
基于训练完成的信息系统状态分析模型进行信息系统状态分析。
2.根据权利要求1所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,包括:
将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中,形成多个类别;
将多个训练样本类别与多个数据标注种类映射对应,进行每一类别训练样本的标注。
3.根据权利要求2所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中,形成多个类别,包括如下步骤:
(1)初始建立两个集合,并且将距离最远的两个训练样本X1、X2分别放入两个集合中并作为集合中心;
(2)计算已有集合的集合中心的平均距离P1;
(3)新建一个集合存入一个新的训练样本Xi(i>2),计算新建集合后所有集合的中心的平均距离P2,若P2>P1,则新建集合保留且存放新加训练样本Xi,否则,删除新建集合并将Xi放入距离最近的已有集合中;
(4)基于新加训练样本和新建集合后的结果,进行集合中心重置;
(5)基于集合中心重置后,重复步骤(2)到(4),直至所有训练样本均已放入集合中。
4.根据权利要求3所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述基于新加训练样本和新建集合后的结果,进行集合中心重置,是将每个集合中的所有训练样本的中值作为新的集合中心。
5.根据权利要求2所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述将多个训练样本类别与多个数据标注种类映射对应,包括:
计算同一类的训练样本的均值,将多个训练样本类别根据其均值从高到低排序;
将信息系统状态分析结果种类的等级从高到低依次排序;
训练样本类别序列和状态分析结果种类等级序列按顺序映射对应。
6.根据权利要求5所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述计算同一类的训练样本的均值,采用加权均值计算,通过熵权法对不同训练样本分配权重,包括:
计算一个的训练样本中一个参数数据在所有训练样本中同类参数中的比重
Figure FDA0002797900500000021
其中i表示第i个训练样本,j表示训练样本中第j个参数;
计算一个参数的信息熵,
Figure FDA0002797900500000022
计算一个参数的权重,
Figure FDA0002797900500000023
其中,
Figure FDA0002797900500000024
ek≠1表示参数的信息熵不为1,
Figure FDA0002797900500000025
表示信息熵不为1的参数个数。
7.根据权利要求1所述的基于深度学习的电力信息系统状态分析方法,其特征在于,所述进行信息系统状态分析模型训练的深度学习网络采用深度置信网络模型。
8.基于深度学习的电力信息系统状态分析装置,其特征在于,包括:
训练样本获取单元,用于获取训练样本,所述一个训练样本包括同一时间的多个状态分析参数的数据;
训练样本标注单元,用于根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注,其中特征相似的训练样本采用相同标注;
模型训练单元,用于以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练;
信息系统状态分析单元,基于训练完成的信息系统状态分析模型进行信息系统状态分析。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的信息系统状态分析方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的信息系统状态分析方法的步骤。
CN202011338528.1A 2020-11-25 2020-11-25 基于深度学习的电力信息系统状态分析方法及装置 Active CN112508363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011338528.1A CN112508363B (zh) 2020-11-25 2020-11-25 基于深度学习的电力信息系统状态分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011338528.1A CN112508363B (zh) 2020-11-25 2020-11-25 基于深度学习的电力信息系统状态分析方法及装置

Publications (2)

Publication Number Publication Date
CN112508363A true CN112508363A (zh) 2021-03-16
CN112508363B CN112508363B (zh) 2024-08-27

Family

ID=74958575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011338528.1A Active CN112508363B (zh) 2020-11-25 2020-11-25 基于深度学习的电力信息系统状态分析方法及装置

Country Status (1)

Country Link
CN (1) CN112508363B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177597A (zh) * 2021-04-30 2021-07-27 平安国际融资租赁有限公司 模型训练数据确定方法、检测模型训练方法、装置及设备
CN115169234A (zh) * 2022-07-17 2022-10-11 无锡格策电气有限公司 一种基于大数据分析的电力网络可靠性评估方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213615A1 (en) * 2008-09-05 2011-09-01 Auraya Pty Ltd Voice authentication system and methods
CN107480856A (zh) * 2017-07-06 2017-12-15 浙江大学 基于改进逼近理想解排序法的售电公司电力客户评估方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备
CN108199891A (zh) * 2018-01-12 2018-06-22 东北大学 一种基于人工神经网络多角度综合决策的cps网络攻击辨识方法
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法
CN110276200A (zh) * 2019-06-27 2019-09-24 南京邮电大学 一种电力信息系统状态转移概率的确定方法
CN110877400A (zh) * 2019-11-06 2020-03-13 长安大学 一种水泥混凝土构件喷淋养生系统的控制方法及控制系统
CN110929399A (zh) * 2019-11-21 2020-03-27 国网江苏省电力有限公司南通供电分公司 基于BIRCH聚类和Wasserstein距离的风电出力典型场景生成方法
CN111191732A (zh) * 2020-01-03 2020-05-22 天津大学 一种基于全自动学习的目标检测方法
CN111242165A (zh) * 2019-12-30 2020-06-05 北京顺达同行科技有限公司 商户聚类方法、装置、计算机设备和存储介质
CN111684762A (zh) * 2018-03-28 2020-09-18 华为技术有限公司 管理终端设备方法和终端设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213615A1 (en) * 2008-09-05 2011-09-01 Auraya Pty Ltd Voice authentication system and methods
CN107480856A (zh) * 2017-07-06 2017-12-15 浙江大学 基于改进逼近理想解排序法的售电公司电力客户评估方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备
CN108199891A (zh) * 2018-01-12 2018-06-22 东北大学 一种基于人工神经网络多角度综合决策的cps网络攻击辨识方法
CN111684762A (zh) * 2018-03-28 2020-09-18 华为技术有限公司 管理终端设备方法和终端设备
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法
CN110276200A (zh) * 2019-06-27 2019-09-24 南京邮电大学 一种电力信息系统状态转移概率的确定方法
CN110877400A (zh) * 2019-11-06 2020-03-13 长安大学 一种水泥混凝土构件喷淋养生系统的控制方法及控制系统
CN110929399A (zh) * 2019-11-21 2020-03-27 国网江苏省电力有限公司南通供电分公司 基于BIRCH聚类和Wasserstein距离的风电出力典型场景生成方法
CN111242165A (zh) * 2019-12-30 2020-06-05 北京顺达同行科技有限公司 商户聚类方法、装置、计算机设备和存储介质
CN111191732A (zh) * 2020-01-03 2020-05-22 天津大学 一种基于全自动学习的目标检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
OU QING-HAI 等: "Status monitoring and early warning system for power distribution network based on IoT technology", 《PROCEEDINGS OF 2013 3RD INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》, pages 641 - 645 *
TAO LEI 等: "Significantly Fast and Robust Fuzzy C-Means Clustering Algorithm Based on Morphological Reconstruction and Membership Filtering", 《IEEE TRANSACTIONS ON FUZZY SYSTE》, vol. 26, no. 5, pages 3027 - 3041 *
何云峰 等: "面向可变权值的多特征索引结构", 《武汉大学学报(信息科学版)》, vol. 35, no. 8, pages 920 - 924 *
周开乐 等: "一种考虑数据类大小和密度差异的模糊聚类有效性指标", 《情报学报》, vol. 32, no. 3, pages 306 - 313 *
曹清山 等: "新电改背景下基于多属性决策的电力客户评估和选择研究", 《电网技术》, vol. 42, no. 1, pages 117 - 125 *
王丹: "基于无监督与半监督框架的医学图像分类关键技术研究", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 8, pages 060 - 1 *
高柏臣 等: "一种改进的混合量测电力系统状态估计算法", 《工业仪表与自动化装置》, no. 6, pages 6 - 11 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177597A (zh) * 2021-04-30 2021-07-27 平安国际融资租赁有限公司 模型训练数据确定方法、检测模型训练方法、装置及设备
CN115169234A (zh) * 2022-07-17 2022-10-11 无锡格策电气有限公司 一种基于大数据分析的电力网络可靠性评估方法
CN115169234B (zh) * 2022-07-17 2023-09-15 无锡格策电气有限公司 一种基于大数据分析的电力网络可靠性评估方法

Also Published As

Publication number Publication date
CN112508363B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
Xu et al. An improved random forest classifier for image classification
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN113326377B (zh) 一种基于企业关联关系的人名消歧方法及系统
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN112508363B (zh) 基于深度学习的电力信息系统状态分析方法及装置
CN111815054A (zh) 基于大数据的工业蒸汽热网短期负荷预测方法
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114549897A (zh) 一种分类模型的训练方法、装置及存储介质
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN117609818A (zh) 基于聚类与信息熵的电网关联关系发现方法
CN117556339A (zh) 一种网络违法行为风险危险等级评估方法
Gavagsaz Efficient parallel processing of k-nearest neighbor queries by using a centroid-based and hierarchical clustering algorithm
Singh et al. Multiclass imbalanced big data classification utilizing spark cluster
Gonzales et al. Distance Metric Recommendation for k-Means Clustering: A Meta-Learning Approach
CN115660730A (zh) 基于分类算法的流失用户分析方法及系统
CN115221955A (zh) 基于样本差异分析的多深度神经网络参数融合系统及方法
CN113705920A (zh) 火电厂用水数据样本集的生成方法和终端设备
CN112613562A (zh) 基于多中心云计算的数据分析系统及方法
Sari et al. Combining the active learning algorithm based on the silhouette coefficient with pckmeans algorithm
Chen et al. Optimization Simulation of Big Data Analysis Model Based on K-means Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant