CN116405368B - 一种高维不平衡数据条件下的网络故障诊断方法、系统 - Google Patents

一种高维不平衡数据条件下的网络故障诊断方法、系统 Download PDF

Info

Publication number
CN116405368B
CN116405368B CN202310645229.XA CN202310645229A CN116405368B CN 116405368 B CN116405368 B CN 116405368B CN 202310645229 A CN202310645229 A CN 202310645229A CN 116405368 B CN116405368 B CN 116405368B
Authority
CN
China
Prior art keywords
network fault
data
samples
neural network
wolves
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310645229.XA
Other languages
English (en)
Other versions
CN116405368A (zh
Inventor
潘成胜
蔡凌云
杨雯升
李志祥
金爱鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310645229.XA priority Critical patent/CN116405368B/zh
Publication of CN116405368A publication Critical patent/CN116405368A/zh
Application granted granted Critical
Publication of CN116405368B publication Critical patent/CN116405368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种高维不平衡数据条件下的网络故障诊断方法、系统,该方法包括:对网络故障数据进行数值化与归一化;采用随机森林算法评估网络特征的特征重要度并排序,进行网络特征选择;采用IKSMOTE算法对少数类网络故障样本进行过采样,以平衡多数类和少数类样本数量;根据小波神经网络结构创建一个三层小波神经网络故障诊断模型;使用IGWO对小波神经网络的参数进行优化;得到的最优参数作为小波神经网络的初始值,输入网络故障数据,完成小波神经网络模型的训练。本发明有效降低了数据的采集和存储压力,解决了网络故障数据极端不平衡导致地少数类故障诊断准确率低的问题,提高了诊断模型的局部寻优能力。

Description

一种高维不平衡数据条件下的网络故障诊断方法、系统
技术领域
本发明属于通讯、电子与信息工程类技术领域,特别涉及一种高维不平衡数据条件下的网络故障诊断方法、系统。
背景技术
近年来,移动通信网络经历了数次变革和创新,从数据无法传输的1G系统到数据可传输的2G系统和数据可高速传输的3G系统,再到普及的4G网络以及日益成熟且先进的5G网络。随着网络技术的快速发展,现代计算机网络规模越来越庞大,网络结构和功能日益复杂。随之而来的是网络的管理和维护难度成倍增加。相较于物理损坏引发的网络故障,网络故障事件越来越多,造成的破坏力和影响力也更大。因此,通过有效的故障检测和诊断技术能快速精确地发现网络系统中的各种异常,定位故障,恢复故障,对维护网络系统的健康运行具有重要的意义。
目前,故障诊断技术主要分为定性分析方法与定量分析方法。其中,定性分析方法又包括符号有向图、故障树、专家系统等。然而在复杂的网络系统中,这类方法存在诊断准确率不高、推理速度慢、效率低下等问题。定量分析方法分为基于解析模型的方法和基于数据驱动的方法。基于解析模型的故障诊断方法主要是利用系统精确的数学模型和可观测输入输出信号来反映系统期望行为,并与实际运行模式进行对比,从而实现故障诊断。然而实际的网络故障诊断中,很难通过网络系统建立精确地数学模型,导致解析模型方法的应用范围非常受限。基于数据驱动的故障诊断技术主要通过大量的网络历史数据,使用人工智能技术,提取隐含表示系统变量相关性的基础知识,通过检测所获得的基础知识与在线监测数据中提取的实时系统特征的一致性来实现网络故障诊断。这种方法不需要建立精确地解析模型,而是完全从系统历史数据出发,进行故障诊断,因此在故障诊断领域得到了广泛的应用。
在基于数据驱动的故障诊断技术中,人工神经网络是目前最受欢迎的网络故障诊断方法之一。WNN(Wavelet Neural Network, 小波神经网络)是神经网络的一种,由BP神经网络改进而来,通过小波基函数替换神经网络的隐藏层激活函数,加快了函数收敛。WNN兼具BP神经网络强大的自学习能力、泛化能力、非线性映射能力以及小波函数良好的时频特性,在处理复杂非线性故障诊断问题中取得了较好的效果。然而传统的小波神经网络方法的初始参数选取具有随机性,而选取不同的初始参数可能会导致模型训练陷入局部最优或者不收敛,导致网络故障的诊断结果呈现波动,在诊断稳定性方面欠佳。同时,网络故障数据的高维和极端不平衡特性使得神经网络模型训练时间长且更加倾向多数类样本,导致少数类故障的诊断准确性差。
发明内容
本发明所要解决的技术问题:使用随机森林算法对网络故障特征进行选择,再提出一种改进的SMOTE算法平衡多数类故障和少数类故障样本数目,使用改进灰狼算法优化神经网络初始参数,并在神经网络误差反向传播过程中引入了动量因子,减少模型训练时长,避免网络故障数据不平衡和诊断模型训练陷入局部最优对网络故障诊断的影响,进一步提高诊断的准确性与稳定性。
本发明为解决以上技术问题而采用以下技术方案:
本发明提出的一种高维不平衡数据条件下的网络故障诊断方法,具体步骤如下:
S1、为了更好的训练网络故障诊断模型,对网络故障数据进行数值化与归一化。将非数值型数据转化为数值型数据,并将不同特征的数据范围全部归一至0到1之间。
S2、使用随机森林算法进行特征选择。网络故障数据维度较高,造成模型训练时间较长,因此在尽量保留较完整故障数据信息的前提下,采用随机森林算法评估网络特征的特征重要度,并根据特征重要度排序进行网络特征选择,去除数据中的冗余特征。
S3、采用IKSMOTE(Improved K-means Synthetic Minority OversamplingTechnique,改进的K均值合成少数类过采样方法)算法对少数类网络故障样本进行过采样,以平衡多数类和少数类样本数量,提高少数类网络故障的诊断准确性。若对噪声样本进行过采样,则将产生大量的失真样本,进而严重影响故障样本的过采样效果。因此,在进行网络故障数据采样前,先使用K近邻的方法剔除少数类故障样本中的噪声样本,再使用K-means算法对少数类故障样本进行聚类分析,根据聚类分析结果自适应地分配每个簇和簇中每个少数类样本的采样个数,最后结合多个样本信息对每个少数类故障的样本进行分别过采样。
S4、创建小波神经网络故障诊断模型。根据小波神经网络结构创建一个n-s-m三层小波神经网络故障诊断模型。其中n为经过随机森林算法特征选择后的网络故障数据特征个数,隐藏层神经元个数s由公式,/>确定,m为网络故障类别数。
S5、使用IGWO(Improved Grey Wolf Optimizer, 改进的灰狼优化器)对小波神经网络故障诊断模型的参数进行优化。为需要优化的小波神经网络故障诊断模型参数赋一组初始值并确定适应度计算函数,依据每个灰狼个体的适应度值来确定狼群等级 α、β、δ和ω。 对于每个灰狼个体,根据α、β、δ狼更新灰狼个体的位置,并将新位置的适应度值与头狼位置适应度值比较,若新位置更好,则保留新位置及其适应度值。不断迭代更新个体,达到预设的最大迭代次数后,停止更新,头狼α的位置,即优化的小波神经网络故障诊断模型权值、尺度因子、位移因子。
S6、将IGWO优化得到的最优参数作为小波神经网络故障诊断模型的连接权重值、小波尺度a k (t)以及位移因子,并输入网络故障数据,完成小波神经网络故障诊断模型的训练。
进一步的,步骤S3中,IKSMOTE数据平衡的具体步骤为:
S301、计算每个少数类样本与其附近样本的欧氏距离,得到距离最近的K个近邻样本。若该少数类样本的K个近邻样本均为其他类样本,则认为该少数类样本为噪声样本,将其从数据集中剔除。
S302、使用K-means算法对每个少数类进行单独聚类,计算每个少数类簇样本间的距离之和,得到每个簇的稀疏系数sp,具体公式如下:
其中,N min为簇中少数类网络故障样本数量,dist(x i ,x j )表示簇中第i个样本到第j个样本的欧氏距离。
S303、根据稀疏系数计算每个簇需要合成的新样本数目g,具体公式如下:
其中,G为待合成的少数类样本数,sp i 表示第i个簇的稀疏度,g i 表示第i个簇需要合成的少数类样本数,c为该少数类的聚簇数量。簇的稀疏度越大,表示该簇具有更大的插值空间,则合成新样本越多。
S304、计算每个少数类样本与所属簇中心O的欧氏距离,并根据距离计算每个样本需要合成新样本的数量r,具体公式如下:
其中,r j 表示第i个簇中第j个少数类样本需要合成的样本数,n表示该簇中的少数类样本数量。
S305、在该少数类样本的K个同类近邻样本中随机选择n次最近邻样本,并对每一个维度进行单独地随机插值,以合成新样本。同时,引入sigmoid函数平滑样本分布,防止过拟合问题。每个维度的插值计算公式如下:
其中,dim new 为新样本的维度值,dim为少数类样本的维度值,dim k 为近邻样本的维度值,w为[-5,5]之间的随机实数。
进一步的,步骤S4中,创建小波神经网络故障诊断模型的具体内容为:
假设有P个训练样本,N个输入层神经元数,M个输出层神经元数,则第p个样本输入为,输出为/>,期望输出为/>,其中p、n、m为整数,/>,/>
第k个隐含层的输出为
其中,h()为morlet小波函数,W kn 为输入层和第k个隐藏层之间的连接权重,a k 为小波的尺度因子,b k 为小波的位移因子。
小波神经网络输出层的输出表达式为:
其中,V mk 为输出层和隐藏层之间的连接权。
小波神经网络故障诊断模型输出的标准误差函数为:
进一步的,步骤S5中,IGWO优化参数的具体步骤为:
S501、需要优化的参数个数Q满足如下条件:
其中,N inN hidN out分别是神经网络的输入层、隐含层和输出层的神经元个数。
S502、计算适应度,具体公式如下:
其中,obse表示实际样本类别值,pred表示代入狼群位置后小波神经网络故障诊断模型的计算值。
S503、灰狼个体将α、β、δ狼的位置假想为猎物的位置,并分别根据α、β、δ狼的位置更新自己的位置,具体公式为:
其中,D α D β D δ 是α、β、δ狼与灰狼个体之间的距离;X 1X 2X 3为灰狼个体分别根据α狼、β狼、δ狼的位置更新的位置;X α (m)、X β (m)、X δ (m)为第 m 次迭代后α狼、β狼、δ狼的位置,X(m)是第m代灰狼个体的位置。
S504、C1、C2、C3、A1、A2、A3为协同系数,协同系数C和A的计算公式分别为:
其中,r 1r 2为区间[0,1]的随机数;s是随迭代次数增加从2非线性递减到0的常数;m max为优化算法的最大迭代次数;c为常数,c越大,收敛因子曲线越凸。
S505、通过α、β、δ 的位置来确定猎物的位置,ω狼根据最佳搜索单位α、β、δ来更新自己的位置,并再次重新定位猎物的位置。
其中,X α X β X δ 为α、β、δ狼的位置坐标,σ1、σ2、σ3为α、β、δ狼位置与X α X β X δ 三点重心之间的空间距离,W 1W 2W 3为α、β、δ狼的第一次更新权重。
S506、根据α、β、δ的适应度值进行第二次权重计算,具体公式如下:
其中,W 11W 22W 33为α、β、δ狼的第二次更新的权重;MSE α MSE β MSE δ 为α、β以及δ的适应度值,且MSE α MSE β MSE δ
S507、灰狼位置的更新公式如下:
其中,X(m+1)是m次迭代后灰狼的更新位置,即第m+1代灰狼的位置坐标。
S508、根据权值更新公式不断迭代,直到达到预先设置的最大迭代次数,则最终的α狼的位置坐标即优化后的参数。
进一步的,训练小波神经网络故障诊断模型具体内容为:
将IGWO优化得到的最优灰狼个体位置坐标作为小波神经网络故障诊断模型的连接权重值、小波尺度a k (t)以及位移因子。输入经过预处理后的网络故障数据,通过小波神经网络故障诊断模型计算估计值和误差,并根据估计值与实际值间的误差以及权值修正公式,反向调整连接权重值、小波尺度a k (t)以及位移因子/>。增加了动量因子/>后的权值修正公式为:
其中,η为网络训练的学习率,V mk (t)、W kn (t)、a k (t)、分别代表第t次迭代时神经网络的V mk W kn a k b k
不断迭代更新参数直至达到终止条件,输出并保存训练完成的模型。
进一步的,本发明还提出了一种高维不平衡数据条件下的网络故障诊断系统包括:
网络故障数据获取模块,用于获取网络故障及正常状态下的数据信息。
数据预处理模块,用于对原始网络故障数据进行数值化、压缩和过滤,统一数据类型,去除故障数据中存在的的大量冗余信息,并针对少数类样本进行数据过采样平衡多数类故障样本与少数类故障样本的数目。
参数优化模块,用于优化小波神经网络故障诊断模型中的参数。
训练模块,用于小波神经网络故障诊断模型的训练。
诊断模块,用于实时网络故障数据的诊断,输出诊断结果。
进一步的,本发明还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前文所述的高维不平衡数据条件下的网络故障诊断方法的步骤。
进一步的,本发明还提出了一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,所述计算机程序被处理器运行时执行前文所述的高维不平衡数据条件下的网络故障诊断方法。
本发明采用以上技术方案,与现有技术相比,其显著技术效果如下:
本发明重点考虑神经网络在网络故障诊断中高维不平衡数据导致的训练时间长、少数类故障诊断准确率低以及模型初始参数选取随机导致模型稳定性差的问题,主要从四个方面进行改进,提升网络故障诊断的性能:
(1)增加了特征选择操作。针对网络故障数据海量、高维的特点,在故障诊断前,使用随机森林算法进行特征选择,有效降低数据的采集和存储压力,以便后续进行更高效地故障诊断。
(2)增加了数据平衡操作。采用K近邻去噪、少数类单独聚类以及多信息融合策略,改进传统的SMOTE算法,增加合成样本的多样性,以平衡多数类与少数类样本数目,缓解解决网络故障数据极端不平衡导致地少数类故障诊断准确率低的问题。
(3)增加了参数优化模块。采用非线性收敛因子及二次权重更新策略,通过平衡局部与全局搜索能力和加强α狼领导地位的方式改进传统GWO算法,并以此优化WNN故障诊断模型的初始参数,避免初始参数选取的随机性。
(4)在小波神经网络误差反向传播过程中,引入动量因子,通过引入前一时刻的修正量,从而传递每一次的参数变化,促使权值、尺度因子、位移因子的调节向着误差曲面底部的平均方向变化,提高诊断模型的局部寻优能力。
利用本发明提供的方法进行网络故障诊断实验,使用三种故障诊断中常用的评估指标对网络故障诊断结果进行评估。实验结果表明,相较于传统的WNN故障诊断模型,本发明提出的网络故障诊断方法在诊断准确率以及稳定性上均有明显提升。
附图说明
图1是本实施例整体流程图。
图2 是本实施例故障诊断模型图。
图3 是本实施例数据数值化和归一化示意图。
图4是本实施例IKSMOTE对少数类故障数据采样流程图。
图5是本实施例IGWO对网络故障模型参数优化流程图。
图6是本实施例在一定的迭代次数和学习率下,使用IKSMOTE进行数据过采样前后网络故障诊断TPR、精确率以及F1值的对比图。
图7是本实施例各个测试函数的三维图和对应的各优化算法的参数优化效果比较图。
图8是本实施例在一定的迭代次数和学习率下,使用IGWO算法进行参数优化前后网络故障诊断TPR、精确率以及F1值的对比图。
图9是本实施例网络故障诊断设备软件模块示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
为实现上述目的,本发明提出一种高维不平衡数据条件下的网络故障诊断方法,整体流程图如图1所示,模型图如图2所示,具体步骤为:
S1、对网络故障数据进行数值化与归一化。
本实施例的网络故障数据采集自某网络系统中正常与故障状态下的网络连接数据,数据包含Dos、Probe、R2L以及U2L四种故障类别。实验从中随机选取10万条数据构成实验数据集,其中70%的数据用于小波神经网络故障诊断模型训练,其余的数据用于测试。数据集标签及数据分布如表1所示。
表1 数据集标签及数据分布
数据标签1代表无故障、标签2、3、4、5代表系统发生不同故障。
图3为数据数值化和归一化示意图。进行模型训练和测试之前,首先需要对数据进行数值化操作,将非数值型数据转化为数值型数据,然后对每个特征进行归一化操作,将特征的数据范围集中到0到1之间。
S2、采用有放回采样的随机森林算法对步骤S1中网络故障数据的特征进行重要度评估,决策树数量为100,树最大深度为10,叶子结点最大数量为50。根据重要度排名进行特征选择。特征选择重要度评估如表2所示。
表2 随机森林前十个重要特征的重要度
在本实施例中,选择重要度超过3%的八个特征进行后续实验。
S3、在本实施例中,使用IKSMOTE方法对网络故障数据中的少数类Probe、R2L以及U2R进行去噪处理和聚类分析,根据聚类分析结果自适应地分配每个簇和簇中每个少数类网络故障样本的采样数,结合多个样本信息合成新样本,将其加入到原数据集中,平衡多数类故障样本与少数类故障样本的数目,如图4所示,具体步骤为:
根据原数据集中各类样本数量关系将Probe、R2L以及U2R类的过采样数目分别设置为3000、2000、1000,每个少数类的聚簇个数均设置为4个。
S301、计算每个少数类网络故障样本与其附近样本的欧氏距离,得到距离最近的K个近邻样本。
S302、使用K-means算法对每种少数类网络故障样本进行单独聚类,计算每个少数类簇样本间的距离之和,得到每个簇的稀疏系数sp,具体公式如下:
其中,N min为簇中少数类网络故障样本数量,dist(x i ,x j )表示簇中第i个样本到第j个样本的欧氏距离。
S303、根据稀疏系数计算每个簇需要合成的新样本数目g,具体公式如下:
其中,G为待合成的少数类网络故障样本数,sp i 表示第i个簇的稀疏度,g i 表示第i个簇需要合成的少数类网络故障样本数,c为该少数类的聚簇数量。
S304、计算每个少数类网络故障样本与所属簇中心O的欧氏距离,并根据距离计算每个样本需要合成新样本的数量r,具体公式如下:
其中,r j 表示第i个簇中第j个少数类样本需要合成的样本数,n为该簇中少数类样本数目。
S305、引入sigmoid函数平滑样本分布,每个维度的插值计算公式如下:
其中,dim new 为新样本的维度值,dim为少数类样本的维度值,dim k 为近邻样本的维度值,w为[-5,5]之间的随机实数。
S4、创建小波神经网络故障诊断模型。
设定有P个训练样本、N个输入层神经元数、M个输出层神经元数,第p个样本输入为、输出为/>、期望输出为/>,其中p、n、m为整数,/>,/>
第k个隐含层的输出为。其中,h()为morlet小波函数,W kn 为输入层和第k个隐藏层之间的连接权重,a k 为小波的尺度因子,b k 为小波的位移因子。
输出层的输出表达式为:
其中,V mk 为输出层和隐藏层之间的连接权。神经网络输出的标准误差函数为:
在本发明实施例中,小波神经网络故障诊断模型输入层、隐藏层以及输出层神经元数目分别为8、14、1。
S5、使用IGWO算法优化小波神经网络故障诊断模型中的连接权值、尺度因子和位移因子,具体步骤如图5所示:
S501、需要优化的参数个数Q满足如下条件:
其中,N inN hidN out分别是神经网络的输入层、隐含层和输出层的神经元个数。
S502、计算适应度,具体公式如下:
其中,obse表示实际样本类别值,pred表示代入狼群位置后小波神经网络故障诊断模型的计算值。
S503、灰狼个体将α、β、δ狼的位置假想为猎物的位置,并分别根据α、β、δ狼的位置更新自己的位置,具体公式为:
其中,D α D β D δ 是α、β、δ狼与灰狼个体之间的距离;X 1X 2X 3为灰狼个体分别根据α狼、β狼、δ狼的位置更新的位置;X α (m)、X β (m)、X δ (m)为第 m 次迭代后α狼、β狼、δ狼的位置,X(m)是第m代灰狼个体的位置。
S504、C1、C2、C3、A1、A2、A3为协同系数,协同系数C和A的计算公式分别为:
其中,r 1r 2为区间[0,1]的随机数,s 是随迭代次数增加从2非线性递减到0的常数,m max为优化算法的最大迭代次数,c为常数,c越大,收敛因子曲线越凸。
S505、通过α、β、δ 的位置来确定猎物的位置,ω狼根据最佳搜索单位α、β、δ来更新自己的位置,并再次重新定位猎物的位置:
其中,X α X β X δ 为α、β、δ狼的位置坐标,σ1、σ2、σ3为α、β、δ狼位置与X α X β X δ 三点重心之间的空间距离,W 1W 2W 3为α、β、δ狼的第一次更新权重。
S506、根据α、β、δ的适应度值进行第二次权重计算,具体计算公式如下:
;/>
其中,W 11W 22W 33为α、β、δ狼的第二次更新的权重;MSE α MSE β MSE δ 为α、β以及δ的适应度值,且MSE α MSE β MSE δ
S507、灰狼位置的更新公式如下:
其中,X(m+1)是m次迭代后灰狼的更新位置,即第m+1代灰狼的位置坐标。
S508、根据权值更新公式不断迭代,直到达到预先设置的最大迭代次数,则最终的α狼的位置坐标即为优化后的参数。
S6、将步骤S5中优化的参数作为小波神经网络故障诊断模型的初始值,输入步骤S3中去除噪声样本和合成少数类样本后的训练数据,完成小波神经网络故障诊断模型的训练,具体内容为:
将IGWO优化得到的最优灰狼个体位置坐标作为小波神经网络故障诊断模型的连接权重值、小波尺度a k (t)以及位移因子。输入经过预处理后的网络故障数据,通过小波神经网络故障诊断模型计算估计值和误差,并根据估计值与实际值间的误差以及权值修正公式,反向调整连接权重值、小波尺度a k (t)以及位移因子/>。增加了动量因子/>后的权值修正公式为:
其中,η为网络训练的学习率,V mk (t)、W kn (t)、a k (t)、分别代表第t次迭代时神经网络的V mk W kn a k b k
不断迭代更新参数直至达到终止条件,输出并保存训练模型。
S7、将实时网络状态特征数据输入步骤S6中训练完成的小波神经网络故障诊断模型,实现网络故障诊断,并输出诊断结果。
图6的(A)到图6的(C)分别表示WNN模型在IKSMOTE算法进行数据平衡前后的网络故障诊断TPR、精确率以及F1值的结果对比。在该实施例中,WNN模型的迭代次数设置为50次,学习率设置为0.01。由图中可以看出,Probe、R2L和U2R三个少数类在各项指标上均有明显提高,尤其是在数据集中占比最小的U2R类的诊断准确率方面提升最为显著。这是因为通过IKSMOTE过采样的方式对少数类样本进行扩充后,模型学习到的少数类信息更多,在一定程度上减弱了对多数类样本的倾向性,并且这种提升在数量越少的类别上体现的越明显。综合而言,对数据进行平衡处理后,模型可以在保持对多数类诊断性能的同时,有效提高少数类的诊断准确率。
图7的(A-1)、(B-1)、(C-1)、(D-1)分别表示单峰测试函数Sphere、单峰测试函数Schwefel's problem 22、多峰测试函数Rastrigin以及多峰测试函数Griewank的三维图。图7的(A-2)、(B-2)、(C-2)、(D-2)为本发明采用的参数优化方法(IGWO)与GWO方法在四种测试函数下的收敛曲线图。在该实验中,狼群数量设置为30,迭代次数设置为500,收敛因子中的c值设置为1。由图7可知,本发明提出的IGWO算法无论是在单峰测试函数还是在多峰测试函数上的寻优精度均为最优的。IGWO算法采用了非线性收敛因子策略,增加了迭代过程中全局优化的比例,增强了算法的全局优化能力,虽然该策略在迭代早期损失了一定的收敛速度,但是提高了算法的寻优精度。此外,IGWO算法采用的权重更新策略综合考虑了灰狼的适应度和空间位置关系,并在迭代过程中根据具体情况进行两次动态权重更新。在每次迭代中,这种权重更新策略计算出来的权重更加具有自适应性,α、β和δ狼的领导力分布也更加合理,可以提高算法收敛速度和收敛精度。
图8的(A)-图8的(C)分别表示WNN模型在IGWO算法进行参数优化前后的网络故障诊断TPR、精确率以及F1值的结果对比。在该实施例中,训练数据使用上述步骤处理后的数据,IGWO算法的狼群数量设置为30,迭代次数设置为500,收敛因子中的c值设置为1,WNN模型的迭代次数设置为50次,学习率设置为0.01。由图8可知,经过参数优化后,虽然U2R类的TPR指标没有变动,但是其他指标均有不同程度的提升。这是因为IGWO算法优化初始参数的过程,本质上就是WNN模型的训练过程,其区别在于参数更新迭代的方式不一样。IGWO的前期寻优性能更好,以IGWO算法替代WNN模型前期训练可以有效避免模型训练陷入局部最优,自然可以提高模型的诊断准确率和稳定性。
图9为本发明实例提供的网络故障诊断系统模块示意图,包括网络故障数据获取模块、数据预处理模块、参数优化模块、训练模块、诊断模块及可在处理器上运行的计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
发明实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例还提出一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种高维不平衡数据条件下的网络故障诊断方法,其特征在于,包括以下步骤:
S1、对网络故障数据进行数值化与归一化;
S2、采用随机森林算法对步骤S1中网络故障数据的特征进行重要度评估,并根据重要度排名进行特征选择;
S3、使用IKSMOTE方法对步骤S2中特征选择后的少数类网络故障数据进行去噪处理和聚类分析,根据聚类分析结果自适应地分配每个簇和簇中每个少数类网络故障样本的采样数,结合多个样本信息合成新样本,将其加入到原数据集中,平衡多数类故障样本与少数类故障样本的数目;
S4、创建小波神经网络故障诊断模型;
S5、使用IGWO算法优化小波神经网络故障诊断模型中的连接权值、尺度因子和位移因子;
S6、将步骤S5中优化的参数作为小波神经网络故障诊断模型的初始值,输入步骤S3中去除噪声样本和合成少数类样本后的训练数据,完成小波神经网络故障诊断模型的训练;
其中,步骤S3中,IKSMOTE数据平衡的具体步骤为:
S301、计算每个少数类网络故障样本与其附近样本的欧氏距离,得到距离最近的K个近邻样本;
S302、使用K-means算法对每种少数类网络故障样本进行单独聚类,计算每个少数类簇样本间的距离之和,得到每个簇的稀疏系数sp,具体公式如下:
其中,Nmin为簇中少数类网络故障样本数量,dist(xi,xj)表示簇中第i个样本到第j个样本的欧氏距离;
S303、根据稀疏系数计算每个簇需要合成的新样本数目g,具体公式如下:
其中,G为待合成的少数类网络故障样本数,spi表示第i个簇的稀疏度,gi表示第i个簇需要合成的少数类网络故障样本数,c为该少数类的聚簇数量;
S304、计算每个少数类网络故障样本与所属簇中心O的欧氏距离,并根据距离计算每个样本需要合成新样本的数量r,具体公式如下:
其中,rj表示第i个簇中第j个少数类样本需要合成的样本数,n为该簇中少数类样本数目;
S305、引入sigmoid函数平滑样本分布,每个维度的插值计算公式如下:
其中,dimnew为新样本的维度值,dim为少数类样本的维度值,dimk为近邻样本的维度值,w为[-5,5]之间的随机实数。
2.根据权利要求1所述的高维不平衡数据条件下的网络故障诊断方法,其特征在于,步骤S4中,创建小波神经网络故障诊断模型的具体内容为:
设定有P个训练样本、N个输入层神经元数、M个输出层神经元数,第p个样本输入为输出为/>期望输出为/>其中p、n、m为整数,p∈[1,P],n∈[1,N],m∈[1,M];
小波神经网络第k个隐含层的输出为
其中,h()为morlet小波函数,Wkn为输入层和第k个隐藏层之间的连接权重,ak为小波的尺度因子,bk为小波的位移因子;
小波神经网络输出层的输出表达式为:
其中,Vmk为输出层和隐藏层之间的连接权;
小波神经网络输出的标准误差函数为:
3.根据权利要求1所述的高维不平衡数据条件下的网络故障诊断方法,其特征在于,步骤S5中,IGWO优化参数的具体步骤为:
S501、需要优化的参数个数Q满足如下条件:
Q=Nin·Nhid+Nhid·Nout+2Nhid+2Nout
其中,Nin、Nhid、Nout分别是神经网络的输入层、隐含层和输出层的神经元个数;
S502、计算适应度,具体公式如下:
其中,obse表示实际样本类别值,pred表示代入狼群位置后小波神经网络故障诊断模型的计算值;
S503、灰狼个体将α、β、δ狼的位置假想为猎物的位置,并分别根据α、β、δ狼的位置更新自己的位置,具体公式为:
Dα=|C1Xα(m)-X(m)|
Dβ=|C2Xβ(m)-X(m)|
Dδ=|C3Xδ(m)-X(m)|
X1=Xα(m)-A1Dα
X2=Xβ(m)-A2Dβ
X3=Xδ(m)-A3Dδ
其中,Dα、Dβ、Dδ是α、β、δ狼与灰狼个体之间的距离;X1、X2、X3为灰狼个体分别根据α狼、β狼、δ狼的位置更新的位置;Xα(m)、Xβ(m)、Xδ(m)为第m次迭代后α狼、β狼、δ狼的位置,X(m)是第m代灰狼个体的位置;
S504、C1、C2、C3、A1、A2、A3为协同系数,协同系数C和A的计算公式分别为:
C=2·r1
A=2s·r2-s
其中,r1和r2为区间[0,1]的随机数,s是随迭代次数增加从2非线性递减到0的常数,mmax为优化算法的最大迭代次数,c为一个常数;
S505、通过α、β、δ的位置来确定猎物的位置,ω狼根据最佳搜索单位α、β、δ来更新自己的位置,并再次重新定位猎物的位置:
其中,Xα、Xβ、Xδ为α、β、δ狼的位置坐标,σ1、σ2、σ3为α、β、δ狼位置与Xα、Xβ、Xδ三点重心之间的空间距离,W1、W2、W 3为α、β、δ狼的第一次更新权重;
S506、根据α、β、δ的适应度值进行第二次权重计算,具体公式如下:
其中,W11、W22、W 33为α、β、δ狼的第二次更新的权重,MSEα、MSEβ、MSEδ为α、β以及δ的适应度值;
S507、灰狼位置的更新公式如下:
X(m+1)=W11[0.5X1+0.5(W1X1+W2X2+W3X3)]+W22[0.5X2+0.5(W1X1+W2X2+W3X3)]+W33[0.5X3+0.5(W1X1+W2X2+W3X3)]
=0.5(W1+W11)X1+0.5(W2+W22)X2+0.5(W3+W33)X3
其中,X(m+1)是m次迭代后灰狼的更新位置,即第m+1代灰狼的位置坐标;
S508、根据权值更新公式不断迭代,直到达到预先设置的最大迭代次数,则最终的α狼的位置坐标即为优化后的参数。
4.根据权利要求1所述的高维不平衡数据条件下的网络故障诊断方法,其特征在于,步骤S6中,训练小波神经网络故障诊断模型的具体内容为:
将IGWO优化得到的最优灰狼个体位置坐标作为小波神经网络故障诊断模型的连接权重值、小波尺度ak(t)以及位移因子bk(t);输入网络故障数据,通过小波神经网络故障诊断模型计算估计值和误差,并根据估计值与实际值间的误差和权值修正公式,反向调整连接权重值、小波尺度ak(t)以及位移因子bk(t);增加了动量因子ma后的权值修正公式为:
其中,η为网络训练的学习率,Vmk(t)、Wkn(t)、ak(t)、bk(t)分别代表第t次迭代时神经网络的Vmk、Wkn、ak、bk
不断迭代更新参数直至达到预先设置的最大迭代次数,输出并保存训练模型。
5.根据权利要求1所述的高维不平衡数据条件下的网络故障诊断方法,其特征在于,还包括步骤S7:将实时网络状态特征数据输入步骤S6中训练完成的小波神经网络故障诊断模型,实现网络故障诊断,并输出诊断结果。
6.一种高维不平衡数据条件下的网络故障诊断系统,其特征在于,包括:
网络故障数据获取模块,用于获取网络故障及正常状态下的数据信息;
数据预处理模块,用于对原始网络故障数据进行数值化、压缩和过滤,统一数据类型,去除故障数据中存在的的大量冗余信息,并针对少数类样本进行数据过采样平衡多数类故障样本与少数类故障样本的数目;
参数优化模块,用于优化小波神经网络故障诊断模型中的参数;
训练模块,用于小波神经网络故障诊断模型的训练;
诊断模块,用于实时网络故障数据的诊断,输出诊断结果。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至5中任一项所述的方法。
CN202310645229.XA 2023-06-02 2023-06-02 一种高维不平衡数据条件下的网络故障诊断方法、系统 Active CN116405368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310645229.XA CN116405368B (zh) 2023-06-02 2023-06-02 一种高维不平衡数据条件下的网络故障诊断方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310645229.XA CN116405368B (zh) 2023-06-02 2023-06-02 一种高维不平衡数据条件下的网络故障诊断方法、系统

Publications (2)

Publication Number Publication Date
CN116405368A CN116405368A (zh) 2023-07-07
CN116405368B true CN116405368B (zh) 2023-08-22

Family

ID=87018311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310645229.XA Active CN116405368B (zh) 2023-06-02 2023-06-02 一种高维不平衡数据条件下的网络故障诊断方法、系统

Country Status (1)

Country Link
CN (1) CN116405368B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN109490704A (zh) * 2018-10-16 2019-03-19 河海大学 一种基于随机森林算法的配电网故障区段定位方法
CN111950645A (zh) * 2020-08-20 2020-11-17 青岛科技大学 一种通过改进随机森林提高类不平衡分类性能的方法
CN113923104A (zh) * 2021-12-07 2022-01-11 南京信息工程大学 基于小波神经网络的网络故障诊断方法、设备及存储介质
CN115510965A (zh) * 2022-09-22 2022-12-23 同济大学 一种基于生成数据融合的轴承不平衡故障诊断方法
CN115828140A (zh) * 2022-12-13 2023-03-21 中国民航大学 邻域互信息与随机森林相融合故障检测方法、系统及应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126984A2 (zh) * 2017-01-06 2018-07-12 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN109490704A (zh) * 2018-10-16 2019-03-19 河海大学 一种基于随机森林算法的配电网故障区段定位方法
CN111950645A (zh) * 2020-08-20 2020-11-17 青岛科技大学 一种通过改进随机森林提高类不平衡分类性能的方法
CN113923104A (zh) * 2021-12-07 2022-01-11 南京信息工程大学 基于小波神经网络的网络故障诊断方法、设备及存储介质
CN115510965A (zh) * 2022-09-22 2022-12-23 同济大学 一种基于生成数据融合的轴承不平衡故障诊断方法
CN115828140A (zh) * 2022-12-13 2023-03-21 中国民航大学 邻域互信息与随机森林相融合故障检测方法、系统及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SVM SMOTE的电力变压器故障样本均衡化方法;刘云鹏;和家慧;许自强;王权;李哲;高树国;;高电压技术(第07期);304-311 *

Also Published As

Publication number Publication date
CN116405368A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN110361778B (zh) 一种基于生成对抗网络的地震数据重建方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN110212528B (zh) 一种配电网量测数据缺失重构方法
CN113923104B (zh) 基于小波神经网络的网络故障诊断方法、设备及存储介质
CN112733447B (zh) 一种基于域自适应网络的水下声源定位方法及系统
CN113705396B (zh) 一种电机故障诊断方法、系统及设备
CN110766060B (zh) 基于深度学习的时间序列相似度的计算方法、系统及介质
CN115758212A (zh) 一种基于并行网络和迁移学习的机械设备故障诊断方法
CN113591553B (zh) 一种基于小样本权值优化的涡轮泵迁移学习故障智能判定方法
CN111222689A (zh) 基于多尺度时间特征的lstm负荷预测方法、介质及电子装置
CN115290326A (zh) 一种滚动轴承故障智能诊断方法
CN114548591A (zh) 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
CN115575125A (zh) 基于gadf-gan-avoa-cnn的轴承故障诊断方法
CN113539386A (zh) 基于clmvo-elm的溶解氧浓度预测方法、装置、设备及存储介质
CN117271979A (zh) 一种基于深度学习的赤道印度洋表层海流流速预测方法
CN116405368B (zh) 一种高维不平衡数据条件下的网络故障诊断方法、系统
CN116776209A (zh) 一种关口计量装置运行状态辨识方法、系统、设备及介质
CN115345207B (zh) 一种自适应的多气象要素预测方法
CN116595465A (zh) 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
CN114048837A (zh) 一种基于分布式类脑图的深度神经网络模型加固方法
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
CN113051809A (zh) 一种基于改进受限玻尔兹曼机的虚拟健康因子构建方法
CN112749807A (zh) 一种基于生成模型的量子态层析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant