CN114881077A - 一种基于时序轨迹特征的电压暂降源分类方法及系统 - Google Patents

一种基于时序轨迹特征的电压暂降源分类方法及系统 Download PDF

Info

Publication number
CN114881077A
CN114881077A CN202210482248.0A CN202210482248A CN114881077A CN 114881077 A CN114881077 A CN 114881077A CN 202210482248 A CN202210482248 A CN 202210482248A CN 114881077 A CN114881077 A CN 114881077A
Authority
CN
China
Prior art keywords
voltage sag
shape
classification
time sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210482248.0A
Other languages
English (en)
Inventor
何英杰
张义坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210482248.0A priority Critical patent/CN114881077A/zh
Publication of CN114881077A publication Critical patent/CN114881077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时序轨迹特征的电压暂降源分类方法及系统,方法具体为:对原始数据集预处理后,从中随机采样取出部分电压暂降有效值作为数据集X,其余作为数据集Y;利用FLAG算法从带标签暂降数据中提取最具有类别辨识能力的若干段特殊子序列shapelet,构成shapelet集合
Figure DDA0003628302800000011
基于学习出的shapelets,对数据集X和Y进行shapelet转换以获得训练集X'和测试集Y';采用训练集X'训练随机森林,获得良好分类性能的“白盒”电压暂降分类模型;利用训练好的随机森林分类器对测试集Y'进行分类,获得分类结果;充分考虑时序轨迹特征,提升分类质量和分类模型可解释性,能够准确识别电力系统中各种电压暂降源,同时提供可解释的分类依据,弥补了电压暂降源识别相关研究中“黑盒”分类模型的缺陷。

Description

一种基于时序轨迹特征的电压暂降源分类方法及系统
技术领域
本发明属于电气工程领域,具体涉及一种基于时序轨迹特征的电压暂降源分类方法及系统。
背景技术
随着智能电网的不断建设和发展,各类电力电子设备以及非线性负载的广泛应用,对供电系统中的电能质量提出了更高的要求。其中,电压暂降作为发生频次最高、影响最为严重的一类电能质量问题,成为工业界和学术界研究的热点。电压暂降是电压方均根值瞬时跌落至额定电压幅值的90%~10%,并在持续0.5~30个周波后恢复正常的一种暂态扰动现象。系统短路故障、变压器投切、电机启动等都是引起电压暂降的扰动源。暂降源的精准辨识有助于合理制定区域配电网系统对于电压暂降的预防与治理措施,为事故双方的责任界定提供依据,协调用户与电力系统之间的纠纷。
电压暂降扰动源的分类识别是预防和治理电压暂降问题的重要前提,常通过特征提取和模式识别两个环节进行电压暂降源的辨识。特征提取是通过信号处理和数理统计对电压暂降信号进行变换和重构,并从中提取时域、频域和时频域上的有效特征,常用方法包括小波变换、傅里叶变换、Hilbert-Huang变换、S变换等。然而电压暂降信号作为时间序列数据,其时序轨迹特征对于分类起着至关重要的作用。传统电压暂降源分类方法未考虑暂降数据的时序演变特征,从孤立的时间断面研究输入特征之间的相互关系,存在分类精度不理想以及分类结果可解释性弱等问题,在界定事故双方责任时,无法为用户和企业提供可靠且便于理解的电压暂降分类依据,分类结果可信度较低。学者Ye和Keogh提出了shapelet的概念,它是时间序列中可用来决定类别归属的特殊子序列,充分考虑了时序轨迹对分类性能的影响,具有较强的可靠性和可解释性。有科研人员利用时间序列shapelet相关方法,研究基于大数据的暂态电压稳定评估,从高维序列中提取shapelet特征,并将其用于在线监测及失稳判定。基于时间序列shapelet的分类方法在步态识别、恶意软件检测等领域表现优良,具有分类准确性高、可解释性强等优点。由于目前电压暂降源辨识相关研究中仅关注分类精度,所搭建的“黑盒”分类模型无法提供分类依据,导致分类结果可信度较低,针对电压暂降白盒分类模型仍未展开相关研究。
模式识别是利用分类算法设计分类器,用于确定扰动信号所属的电压暂降源类别。主要方法包括神经网络、支持向量机、贝叶斯网络、决策树等。然而以上方法都采用分类算法构造强分类器用于电压暂降源识别,片面追求分类精度,无法有效继承shapelet的可解释性,进而搭建电压暂降“白盒”分类模型。Muniz等人的研究表明,与单个强分类器相比,弱分类器集群具有更好的分类性能。随机森林(Random Forest,RF)是一种基于决策树弱分类集群的集成机器学习算法,具有对异常值不敏感、避免过拟合、分类结果可解释以及分类性能强等优点。其在众多分类和回归分析备受关注,被广泛应用于故障诊断,模式识别,用电量预测等领域。在电能质量扰动分析中也得到了初步应用,实现了电压扰动源的精准识别。但以上研究中由于随机森林的输入特征不具备直观的可解释性,导致最终分类模型输出的识别结果可信度较低。
发明内容
为了进一步提升电压暂降源辨识的有效性和可解释性,本发明充分考虑时序轨迹特征,提出了一种基于时序轨迹特征学习的“白盒”电压暂降源辨识方法。
为了实现上述目的,本发明采用的技术方案是:一种基于时序轨迹特征的电压暂降源分类方法,包括以下步骤:
对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
提取所述电压暂降信号数据中的shapelet集合;
利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别电压暂降源。
提取所述第一带标签数据集中的shapelet集合包括以下步骤:
基于所述第一带标签数据集,构建shapelet指针向量;
构建TV-LAsso正则器,利用所述TV-LAsso正则器,稀疏模块化所述shapelet指针向量,获取稀疏块化指针向量;
利用所述稀疏块化指针向量确定所述shapelet集合。
利用所述稀疏块化指针向量确定所述shapelet集合包括以下步骤:
利用所述稀疏块化指针向量提取每一类别所述shapelet集合,计算相同时段的每一类别所述shapelet集合的平均值,
由所述每一类别shapelet集合的平均值构成的集合,即为所述Shapelet集合。
利用所述Shapelet集合对所述第二无标签数据集进行Shapelet转换获得时序轨迹特征矩阵包括以下步骤:
按照最小距离准则计算第一带标签子序列和第二无标签子序列之间的欧氏距离,所述第一子序列为长度为l的所述Shapelet集合中子序列,所述第二无标签子序列为长度为l的所述训练集的电压暂降信号子序列:
基于所述欧氏距离,将所述第二无标签数据集中的所有子序列通过所述Shapelet集合转换获取所述第二无标签数据集中的所有子序列的时序轨迹特征;
所述第二数据集中的所有子序列的时序轨迹特征构成所述时序轨迹特征矩阵。
所述随机森林分类器训练过程包括以下步骤:
对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
提取所述电压暂降信号数据中的shapelet集合;
利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
将所述第一带标签时序轨迹特征矩阵作为训练集,将第二时序轨迹特征矩阵作为测试集;
利用所述训练集构建并训练随机森林分类器;
从所述shapelet集合中进行m次抽样,生成m个子样本集,其中,所述m个子样本集包含的样本数量相同;
利用所述子样本集训练CART决策树组合生成随机森林分类模型;
对所述随机森林分类模型中的每棵决策树的节点进行分裂,获得最终的每棵决策树,并计算每棵所述决策树的袋外数据误差;
保留每棵所述决策树的完整性,利用所述模式识别测试集对所有所述决策树进行测试,获得预测分类结果类别;
对所述预测类别分类结果进行投票,选出票数最多的类别作为所述测试集的所属类别。
基于Bagging算法的分类方式,利用Bootstrap法在Shapelet集合中随机有放回地进行m次抽样,形成m个样本子集用于训练基分类器,且保证每个子集的样本数量相同,在进行Bootstrap抽样时,未被抽中的样本数据为袋外数据,在生成每一棵决策树时,同时计算得到一个袋外数据误差估计,将森林中所有决策树的袋外数据误差估计取平均值,得到RF的泛化误差估计,即单棵决策树的分类强度以及决策树之间的关联性对RF分类模型的分类准确度的影响程度。
利用随机子空间思想对随机森林中每棵决策树的节点进行分裂:随机等概率地从KBk个特征变量中抽取
Figure BDA0003628302780000051
个子变量组成该节点的分裂特征变量子集,并利用CART算法中基尼系数值最小原则选出一个最优的分裂特征变量和最优分裂值对该节点进行分裂,直到每个特征变量作为分裂节点,Gini系数为:
Figure BDA0003628302780000052
其中,ti表示当前某一所选特征变量;K表示特征ti对应的类别数;pk表示样本点属于第k类的概率,在确定最优分裂特征变量ti的基础上,设某子集Qr根据ti分裂为两个子集Qr1和Qr2,则最优分裂值a由下式计算得到:
Figure BDA0003628302780000053
式中,|Qr|,|Qr1|和|Qr2|分别是样本集Qr,Qr1和Qr2的样本个数。
另一方面,本发明提供一种基于时序轨迹特征的电压暂降源分类系统,包括:数据处理模块,用于对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
shapelet集合提取模块,用于提取所述电压暂降信号数据中的shapelet集合;
特征矩阵获取模块,利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
识别模块,用于利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别电压暂降源。
本发明也提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于时序轨迹特征的电压暂降源分类方法。
同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时序轨迹特征的电压暂降源分类方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明主要包含shapelet快速学习和基于时序轨迹特征的随机森林优化电压暂降源辨识两个部分;首先,基于shapelet快速学习算法,充分考虑电压暂降信号的时序变化趋势,提取得到最能表征原始电压暂降信号的shapelet集合。与传统电压暂降识别过程中直接将全局特征作为分类器输入相比,shapelet作为一种最能表征电压暂降信号主要特征信息的子序列,可以更直观的体现分类依据,揭示类别信息与与信号局部特征的关系,弥补了现有电压暂降特征可解释性弱的缺点。然后基于上述shapelet集合,通过shapelet转换技术从原始暂降信号中提取时序轨迹特征作为分类器的输入,为分类结果提供了较强的可解释性。此外,时序轨迹特征数目与shapelet子序列条数相同,而shapelet子序列条数一般远小于原始数据维度,因此通过shapelet对原始数据重表达得到时序轨迹特征的过程中也间接的实现了数据降维,有效提升了运算效率。最后,将时序轨迹特征作为随机森林的输入,搭建电压暂降源“白盒”分类模型,在保证分类精度的同时,有效继承了shapelet的可解释性。本发明能够快速准确识别电力系统中各种电压暂降源,同时提供可解释的分类依据,弥补了电压暂降源识别相关研究中“黑盒”分类模型的缺陷,更适用于实际工程问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为电压暂降源分类流程图。
图2为电压暂降源仿真系统模型。
图3为六种电压暂降有效值曲线及其shapelets。
图4为决策树数目与OOB误差的关系。
图5为算法的分类稳定性对比。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
精准的电压暂降源识别有利于界定事故双方责任,合理制定电压暂降的预防和治理措施。从提升分类精度以及可解释性的角度出发,本发明提出了一种基于时序轨迹特征和随机森林的电压暂降分类方法。具体流程如图1所示。
1.通过MATLAB Simulink仿真获得原始电压暂降数据集Z预处理后,从中随机采样30%电压暂降有效值作为数据集X,其余70%作为数据集Y;具体包括以下步骤:
本发明在simulink环境下搭建如图2所示的电压暂降仿真系统模型,分别表示短路故障、变压器投切和感应电动机启动三种电压暂降源的仿真系统模型,其中短路故障包括单相接地短路,两相短路,两相接地短路和三相短路,上述三种仿真系统共生成6种电压暂降类型。其中电源电压的基波幅值取11kV,频率为50Hz;变压器的变比为11kV/0.4kV,接线方式为D1/Yg型。
系统频率50Hz,采样频率12.8kHz,通过改变负荷大小、故障位置、变压器及感应电动机容量等参数,每种电压暂降类型包含200个样本,共计1200个具有标签的暂降样本,其中每个样本取包含整个暂降过程的20个周波的有效值,因此各相暂降数据可分别表示为1200×256阶矩阵。
考虑到三相电压暂降数据属于多元时间序列,因此将三相电压有效值划分为三个独立的数据集,即三相样本集,分别从每相样本集中提取得到shapelets,利用所有shapeles对原始电压暂降信号进行转换,然后按照ABC的固定顺序合并以获得时序轨迹特征向量,作为随机森林有监督分类模型的输入。
利用FLAG算法从带标签暂降数据中提取最具有类别辨识能力的若干段特殊子序列shapelet,构成shapelet集合
Figure BDA0003628302780000081
具体包括以下步骤:
(1)广义特征向量法
广义特征向量法(Generalized Eigenvector Method,GEM)是一种先进的特征提取方法。与主成分分析法(Principal Component Analysis,PCA)本质的区别是后者寻找使得整体样本映射数据方差较大的若干正交基向量。但是面向多类别数据时,PCA方法基于所有类别数据寻找的正交基向量并不具有类别间的辨识性。GEM在PCA的基础上,寻找使得类别p和类别q的映射数据方差之比最大的正交基向量:
Figure BDA0003628302780000082
式中,Covmp和Covmq分别是类别p和类别q的协方差矩阵,式(1)可进一步表示为:
Figure BDA0003628302780000083
与传统PCA方法对单一数据集进行映射不同,GEM方法基于两种不同类别的数据集,以其中一类作为参照,在其信息被最大程度保留的前提下,另一类数据被最大化压缩,因此所获取的特征向量v具有判别特性,由于shapelet是时间序列中最能表征样本类别的连续子序列,所以为了区分shapelets与可忽略子序列,同时保证shapelet的连续性,将特征向量v稀疏模块化。
(2)稀疏模块化指针向量v
Lasso回归是一种常用的稀疏建模算法,使用L1范数将变量的系数进行压缩并使某些回归系数变为0,表示该项特征在全局中的作用可以忽略不计,从而达到选取重要shapelets子序列的作用。然而暂降数据是按时间排列的序列,主要特征体现在连续的时间序列中,而不是某个时间节点,传统Lasso回归未考虑时序轨迹连续性。为了获得连续shapelet指针向量,突出显示重要特征所处范围,构建TV-Lasso正则化器:
Figure BDA0003628302780000091
式中,α1,α2是正则化参数,第一项
Figure BDA0003628302780000092
为全变分模型(TV),可实现连续特征处的参数估计相似,第二项||v||1是特征向量v的L1范数。
TV-Lasso正则化器可以进一步简化为:
α1||Dv||12||v||1 (4)
式中,矩阵D取值为Di,i=1,Di,i+1=-1,Di,j=0,由于同时使用TV模型和L1正则化,所以TV-Lasso解决方案同时实现模块化和稀疏化。
每一类中的shapelets是最能区分所属类别与其他类别不同的子序列。面对多分类问题,本发明采用一对剩余的思想,将其中一类作为主导类q,其余类别的集合视作类别p。通过特征向量v选取的shapelets可以最大程度的表征所属类别的主要特征,但是对于其他类别主要特征的表征能力却很弱,因此具有极强的辨别性。
通过在GEM公式上添加一个TV-Lasso正则化函数并进行求解,可以获得针对shapelet位置的稀疏模块化指针向量v。优化问题变为:
Figure BDA0003628302780000093
需要注意的是,仅使用||v||1正则化器会生成具有较弱块结构的特征向量,无法从中选取子序列片段。而仅使用||Dv||1会生成模块化但不稀疏的特征向量,无法区分主要特征和可忽略特征。本发明使用ADMM求解器对上述目标函数进行优化求解。
(3)利用指针向量v确定shapelet集
当使用类别k作为主导类别时,设获得的shapelet指针向量v中有Bk个非零块,第t个非零块从时刻st开始到et结束,可表示为
Figure BDA0003628302780000101
将第k类中Nk个样本的集合表示为
Figure BDA0003628302780000102
则按照指针向量v所构造的shapelet集为:
Figure BDA0003628302780000103
其中第t个模块所指示的shapelet为:
Figure BDA0003628302780000104
式中,
Figure BDA0003628302780000105
是第k类别中第i条暂降信号
Figure BDA0003628302780000106
从时刻st到时刻et的子序列,第k类暂降信号共产生Ak=NkBk个shapelets。同理,其余各类别分别作为主导类时,可按照上述方法求解得到该类别的shapelets。此时,基于数据集X'可得
Figure BDA0003628302780000107
个shapelets。另外,从同类别暂降信号中获取的shapelet相似度高且均局限于已有暂降信号,导致整体解释性降低且分类速度下降。针对该问题,本发明对基于相同时段提取得到的shapelets取平均值作为最终shapelet:
Figure BDA0003628302780000108
通过均值处理后,可从第k类暂降信号中学习获得Bk条shapelets:
Figure BDA0003628302780000109
从标签暂降信号中学习到的shapelets为各类别shapelet的集合:
Figure BDA00036283027800001010
3.基于学习出的shapelets,对暂降数据集X和Y进行shapelet转换以获得训练集X'和测试集Y'。具体包括以下步骤:
完成所有shapelets的提取后,按照最小距离准则计算长度为l的shapelet子序列
Figure BDA00036283027800001011
与暂降数据中相同长度子序列
Figure BDA00036283027800001012
之间的欧氏距离:
Figure BDA00036283027800001013
暂降数据
Figure BDA0003628302780000111
通过shapelet转换获取时序轨迹特征:
Figure BDA0003628302780000112
通过这种以shapelet子序列为基准的距离度量方式,原始暂降有效值数据集被转换为时序轨迹特征矩阵:
X'={X1',…,Xj',…,Xm′′} (13)
首先,从暂降数据集Y中随机抽取70%样本作为Shapelet学习样本,另外30%样本作为测试集。然后,依据FLAG算法从带标签数据学习得到Shapelets子序列集,如图3(a)、(b)、(c)、(d)、(e)和(f)所示,实线为三相电压有效值,虚线为Shapelet。从六类电压暂降数据中提取出共36条可以最大程度表征电压暂降特征的Shapelets,并去除对称暂降中相似度较高的Shapelets,最终获得26条有效的Shapelets。依据式(11)-(13),计算每个暂降样本与各Shapelet之间的最小欧氏距离,从而得到时序轨迹特征矩阵X',用于后续随机森林分类器的训练和测试。
4.采用训练集X'训练随机森林,获得良好分类性能的“白盒”电压暂降分类模型,具体包括以下步骤:
基于以上学习到的shapelets,将原始暂降信号通过shapelet变换转换为低维时序轨迹特征数据,其后续分类学习可采用支持向量机、神经网络、随机森林等各种成熟的机器学习方法来构建暂降源辨识模型。在这些学习方法中,随机森林算法的实施过程相对简单、高效,其分类模型和学习结果以自顶向下的树状结构呈现,具有良好的可解释性和可理解性,非常适合用于电压暂降数据的规律挖掘和识别分析。为充分继承shapelet的可解释性,本发明采用随机森林算法对shapelet转换后得到的时序轨迹特征矩阵X'进行挖掘学习。
随机森林使用分类回归树(classification and regression tree,CART)生成的决策树作为基分类器,采用与Bagging算法类似的分类方式训练多个基分类器,通过对基分类器的分类结果进行简单投票得到最终的分类结果。由于构成随机森林分类模型的基分类器是由CART算法生成的决策树,那么单棵决策树的分类强度以及决策树之间的关联性必然对RF分类模型的分类准确度有着重要影响,可由RF算法的泛化误差界表征,如下所示:
Figure BDA0003628302780000121
式中,s代表每棵决策树的分类能力,ρ表示不同决策树之间的关联性。由式可知,泛化误差界与s成负相关,与ρ成正相关,当s越大,ρ越小时,泛化误差界越小,相应的分类准确度越高。
RF分类模型具体构建过程如下:
1)基于Bagging算法的分类方式,利用Bootstrap法在原始训练样本集X'中随机有放回地进行R次抽样,形成R个样本子集用于训练基分类器,且保证每个子集的样本数量相同,表示为:{Q1,…,Qr,…,QR}。在进行Bootstrap抽样时,未被抽中的约37%的样本数据被称为袋外数据(out of bag,OOB)。在生成每一棵决策树时,都可以同时计算得到一个OOB误差估计,将森林中所有决策树的OOB误差估计取平均值,即可得到RF的泛化误差估计,参考图4。
2)对所有的样本子集,利用CART算法建树思想构建相应的决策树并组合形成随机森林,表示为{T1,…,Tr,…,TR}。
3)利用随机子空间思想对步骤2)中生成的随机森林中每棵决策树的节点进行分裂。随机等概率地从KBk个特征变量中抽取
Figure BDA0003628302780000122
个子变量组成该节点的分裂特征变量子集,并利用CART算法中基尼系数(Gini index)值最小原则选出一个最优的分裂特征变量和最优分裂值对该节点进行分裂,直到每个特征变量被用作分裂节点。Gini系数可定义为:
Figure BDA0003628302780000123
式中,ti表示当前某一所选特征变量;K表示特征ti对应的类别数;pk表示样本点属于第k类的概率。进一步,在确定最优分裂特征变量ti的基础上,假设某子集Qr根据ti分裂为两个子集Qr1和Qr2,则最优分裂值a可由下式计算得到:
Figure BDA0003628302780000131
式中,|Qr|,|Qr1|和|Qr2|分别是样本集Qr,Qr1和Qr2的样本个数。
4)在每棵决策树都自上而下构建好之后,保留树的完整性不对其进行剪枝处理,利用测试集Y'对所有决策树进行测试,得到预测类别T1(Y'),…,Tr(Y'),…,TR(Y');
5)对测试得到的分类结果进行投票,选出票数最多的类别作为测试集最后的所属类别。投票思想可表示为:
Figure BDA0003628302780000132
式中,fRF(y')表示RF对测试集样本y'的分类结果,I(·)表示满足括号中表达式的决策树个数,
Figure BDA0003628302780000133
表示第r棵决策树的输出结果为k。
基于时序轨迹特征的随机森林算法在进行分类时,有着较好的容噪能力和较强的泛化能力,相较于其他强分类器具有更好的准确性。同时继承了shapelet的低维特性和可解释性,分类过程耗时较短且分类结果可解释性强。
5.利用训练好的随机森林分类器对测试集Y'进行分类,获得分类结果。
为验证本发明选取随机森林作为分类器具有优秀的分类性能,选取BP神经网络(BPNN)、支持向量机(SVM)以及决策树(C4.5)三种不同分类器的分类结果对比,不同分类器对分类效果的影响如表1所示。通过对50次试验所得分类准确率平均值对比分析,本发明所提方法在分类准确性方面表现远优于其他三种分类器,能够更好的区分不同类别电压暂降数据,具有明显的优异性。
为测试所提方法的分类稳定性,比较四种分类方法在10次实验中各类暂降样本数目的标准差,如图5所示。可知本发明方法的标准差均值最小,算法的稳定性较好。
为此,本发明创新性地采用shapelet提取和转换技术获得较强可解释性的时序轨迹特征对于电压暂降识别,本发明从提高电压暂降源分类质量,同时使分类结果具有较强可解释性的角度出发,首次提出一种基于时序轨迹特征学习的电压暂降源“白盒”识别模型,通过shapelet提取和转换方法从带标签的原始电压暂降信号中提取时序轨迹特征,将时序轨迹特征向量作为随机森林的输入,搭建电压暂降分类模型,该分类模型利用随机森林继承shapelet可解释性的同时,并基于带标签时序轨迹特征数据,训练随机森林得到分类器模型,实现电压暂降数据的有监督分类,提实现电压暂降源的精准高效辨识,在电压暂降源辨识的精度以及可解释性等方面具有较大优势。
本发明还提供一种基于时序轨迹特征的电压暂降源分类系统,包括:数据处理模块,用于对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
shapelet集合提取模块,用于提取所述电压暂降信号数据中的shapelet集合;
特征矩阵获取模块,利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
识别模块,用于利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别电压暂降源。
可选的,本发明还提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述的基于时序轨迹特征的电压暂降源分类方法。
以及一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时序轨迹特征的电压暂降源分类方法。
可以采用计算机程序设计语言编写能用于执行本申请所述方法的程序,所述计算机程序可以为源代码形式、对象代码形式、可执行文件或某些中间形式,计算机程序设计语言可以是C++、Java、Fortran、C#或Python。
所述基于组合式剪枝的深度神经网络模型压缩的设备可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站。
处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance)。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于时序轨迹特征的电压暂降源分类方法,其特征在于,包括以下步骤:
对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
提取所述电压暂降信号数据中的shapelet集合;
利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别电压暂降源。
2.根据权利要求1所述的电压暂降源分类方法,其特征在于,提取所述第一带标签数据集中的shapelet集合包括以下步骤:
基于所述第一带标签数据集,构建shapelet指针向量;
构建TV-LAsso正则器,利用所述TV-LAsso正则器,稀疏模块化所述shapelet指针向量,获取稀疏块化指针向量;
利用所述稀疏块化指针向量确定所述shapelet集合。
3.根据权利要求2所述的电压暂降源分类方法,其特征在于,利用所述稀疏块化指针向量确定所述shapelet集合包括以下步骤:
利用所述稀疏块化指针向量提取每一类别所述shapelet集合,计算相同时段的每一类别所述shapelet集合的平均值,
由所述每一类别shapelet集合的平均值构成的集合,即为所述Shapelet集合。
4.根据权利要求1所述的电压暂降源分类方法,其特征在于,利用所述Shapelet集合对所述第二无标签数据集进行Shapelet转换获得时序轨迹特征矩阵包括以下步骤:
按照最小距离准则计算第一带标签子序列和第二无标签子序列之间的欧氏距离,所述第一子序列为长度为l的所述Shapelet集合中子序列,所述第二无标签子序列为长度为l的所述训练集的电压暂降信号子序列:
基于所述欧氏距离,将所述第二无标签数据集中的所有子序列通过所述Shapelet集合转换获取所述第二无标签数据集中的所有子序列的时序轨迹特征;
所述第二数据集中的所有子序列的时序轨迹特征构成所述时序轨迹特征矩阵。
5.根据权利要求1所述的电压暂降源分类方法,其特征在于,所述随机森林分类器训练过程包括以下步骤:
对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
提取所述电压暂降信号数据中的shapelet集合;
利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
将所述第一带标签时序轨迹特征矩阵作为训练集,将第二时序轨迹特征矩阵作为测试集;
利用所述训练集构建并训练随机森林分类器;
从所述shapelet集合中进行m次抽样,生成m个子样本集,其中,所述m个子样本集包含的样本数量相同;
利用所述子样本集训练CART决策树组合生成随机森林分类模型;
对所述随机森林分类模型中的每棵决策树的节点进行分裂,获得最终的每棵决策树,并计算每棵所述决策树的袋外数据误差;
保留每棵所述决策树的完整性,利用所述模式识别测试集对所有所述决策树进行测试,获得预测分类结果类别;
对所述预测类别分类结果进行投票,选出票数最多的类别作为所述测试集的所属类别。
6.根据权利要求5所述的电压暂降源分类方法,其特征在于,基于Bagging算法的分类方式,利用Bootstrap法在Shapelet集合中随机有放回地进行m次抽样,形成m个样本子集用于训练基分类器,且保证每个子集的样本数量相同,在进行Bootstrap抽样时,未被抽中的样本数据为袋外数据,在生成每一棵决策树时,同时计算得到一个袋外数据误差估计,将森林中所有决策树的袋外数据误差估计取平均值,得到RF的泛化误差估计,即单棵决策树的分类强度以及决策树之间的关联性对RF分类模型的分类准确度的影响程度。
7.根据权利要求5所述的电压暂降源分类方法,其特征在于,利用随机子空间思想对随机森林中每棵决策树的节点进行分裂:随机等概率地从KBk个特征变量中抽取
Figure FDA0003628302770000031
个子变量组成该节点的分裂特征变量子集,并利用CART算法中基尼系数值最小原则选出一个最优的分裂特征变量和最优分裂值对该节点进行分裂,直到每个特征变量作为分裂节点,Gini系数为:
Figure FDA0003628302770000032
其中,ti表示当前某一所选特征变量;K表示特征ti对应的类别数;pk表示样本点属于第k类的概率,在确定最优分裂特征变量ti的基础上,设某子集Qr根据ti分裂为两个子集Qr1和Qr2,则最优分裂值a由下式计算得到:
Figure FDA0003628302770000033
式中,|Qr|,|Qr1|和|Qr2|分别是样本集Qr,Qr1和Qr2的样本个数。
8.一种基于时序轨迹特征的电压暂降源分类系统,其特征在于,包括:数据处理模块,用于对原始电压暂降信号数据进行预处理,随机划分为第一带标签数据集和第二无标签数据集,所述第一带标签数据集用于shapelet学习;
shapelet集合提取模块,用于提取所述电压暂降信号数据中的shapelet集合;
特征矩阵获取模块,利用所述shapelet集合对第一带标签数据集和第二无标签数据集分别进行shapelet转换获得第一带标签时序轨迹特征矩阵和第二时序轨迹特征矩阵;
识别模块,用于利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别电压暂降源。
9.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现权利要求1~7中任一项所述基于时序轨迹特征的电压暂降源分类方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现权利要求1~7中所述的基于时序轨迹特征的电压暂降源分类方法。
CN202210482248.0A 2022-05-05 2022-05-05 一种基于时序轨迹特征的电压暂降源分类方法及系统 Pending CN114881077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210482248.0A CN114881077A (zh) 2022-05-05 2022-05-05 一种基于时序轨迹特征的电压暂降源分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210482248.0A CN114881077A (zh) 2022-05-05 2022-05-05 一种基于时序轨迹特征的电压暂降源分类方法及系统

Publications (1)

Publication Number Publication Date
CN114881077A true CN114881077A (zh) 2022-08-09

Family

ID=82673976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210482248.0A Pending CN114881077A (zh) 2022-05-05 2022-05-05 一种基于时序轨迹特征的电压暂降源分类方法及系统

Country Status (1)

Country Link
CN (1) CN114881077A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713158A (zh) * 2022-11-23 2023-02-24 贵州电网有限责任公司信息中心 配电网稳定性预测方法、装置、设备及存储介质
CN116231631A (zh) * 2023-01-06 2023-06-06 四川大学 一种数据驱动的电压暂降下用户生产场景辨识方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713158A (zh) * 2022-11-23 2023-02-24 贵州电网有限责任公司信息中心 配电网稳定性预测方法、装置、设备及存储介质
CN115713158B (zh) * 2022-11-23 2023-06-06 贵州电网有限责任公司信息中心 配电网稳定性预测方法、装置、设备及存储介质
CN116231631A (zh) * 2023-01-06 2023-06-06 四川大学 一种数据驱动的电压暂降下用户生产场景辨识方法
CN116231631B (zh) * 2023-01-06 2024-03-12 四川大学 一种数据驱动的电压暂降下用户生产场景辨识方法

Similar Documents

Publication Publication Date Title
Veerasamy et al. LSTM recurrent neural network classifier for high impedance fault detection in solar PV integrated power system
He et al. Generative adversarial networks with comprehensive wavelet feature for fault diagnosis of analog circuits
Cai et al. Classification of power quality disturbances using Wigner-Ville distribution and deep convolutional neural networks
Zhao et al. Novel method based on variational mode decomposition and a random discriminative projection extreme learning machine for multiple power quality disturbance recognition
US20210117770A1 (en) Power electronic circuit troubleshoot method based on beetle antennae optimized deep belief network algorithm
Wang et al. Power grid online surveillance through PMU-embedded convolutional neural networks
CN114881077A (zh) 一种基于时序轨迹特征的电压暂降源分类方法及系统
CN110068776B (zh) 基于优化支持向量机的三电平逆变器开路故障诊断方法
CN113408341B (zh) 负荷识别方法、装置、计算机设备和存储介质
Pinto et al. Short-term wind speed forecasting using support vector machines
Xiao et al. Multi-label classification for power quality disturbances by integrated deep learning
CN111553112A (zh) 一种基于深度置信网络的电力系统故障辨识方法及装置
Panapakidis et al. A missing data treatment method for photovoltaic installations
Liu et al. A novel dual-attention optimization model for points classification of power quality disturbances
Sun et al. Fault diagnosis of conventional circuit breaker accessories based on grayscale image of current signal and improved ZFNet-DRN
CN110866840A (zh) 基于知识图谱的电力负荷特征量训练的数据库建模方法
Cui et al. T-type inverter fault diagnosis based on GASF and improved AlexNet
CN117669656A (zh) 基于TCN-Semi PN的直流微电网稳定性实时监测方法及装置
CN113988161B (zh) 一种用户用电行为模式识别方法
Elgamal et al. Seamless Machine Learning Models to Detect Faulty Solar Panels
CN114841266A (zh) 一种小样本下基于三元组原型网络的电压暂降识别方法
Zaman et al. Graph-based semi-supervised learning for induction motors Single-and multi-fault diagnosis using stator current signal
CN114530847A (zh) 非活性电流谐波结合XGBoost的非侵入式负荷辨识方法
Zhang et al. Unsupervised and supervised learning combined power load curve classification based on sequential trajectory feature extraction algorithm
De Aguiar et al. ST-NILM: A Wavelet Scattering-Based Architecture for Feature Extraction and Multi-Label Classification in NILM Signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination