CN111830347B

CN111830347B - 一种基于事件的两阶段非侵入式负荷监测方法

Info

Publication number: CN111830347B
Application number: CN202010689821.6A
Authority: CN
Inventors: 汪颖; 杨维; 肖先勇; 郑子萱
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2021-03-19
Anticipated expiration: 2040-07-17
Also published as: CN111830347A

Abstract

本发明公开了一种基于事件的两阶段非侵入式负荷监测方法，首先提取的特征均来自低频有功数据，各个特征选自不同维度。具体包括有单双相、功变化量、是否存在尖峰、开事件最大峰值、开事件的暂态持续时间、功率波动方差、状态持续时间与开关事件功率差百分比(ΔP_on‑off)；再进行两阶段识别过程；在第一阶段，对所选特征进行分类和聚类，计算简单，可以有效地识别出特征不重叠的电器；第二阶段采用弱分类器，以较少的计算量对第一阶段后未识别的群体进行精细分类。

Description

一种基于事件的两阶段非侵入式负荷监测方法

技术领域

本发明涉及用电负荷监测技术领域，特别是一种基于事件的两阶段非侵入式负荷监测方法。

背景技术

非侵入式负荷监测技术(Non-intrusive load monitoring，NILM)，通过用户电表关口处的功率、电流、电压信号还原出用户各用电设备用电模式与功耗状况，相区别于侵入式的分解技术。现在大量安装的智能电表仅仅采集用户有功与无功信号，作为电费考核依据，但其采样周期是几分钟至几十分钟之间，在现有技术下要通过这样的采样频率实现准确负荷分解是不可行的，故一般需要在用户计量关口处加装专门的电信号采集装置采集所需信号，用户关口处用电信息通常采集的信号包括有功(Real Power)、无功(ReactivePower)、电流(Current)、电压(Voltage)。

不同的用电设备，其用电模式、用电逻辑、负载类型等都存在较大差异，按照用电器用电状态来划分，可以将用电设备划分为单状态设备(Single State)、有限多状态设备(Finite Multi-State)、连续状态设备(Continuously State)以及永久运行设备(Permanent Operating)，按照负荷性质划分电阻类、感性负荷、容性负荷，因而对于用电模式日趋复杂的用电器，传统的负荷分解技术已经不能满足要求。

非侵入式负荷监测与分解典型框架包括了数据处理、事件检测、特征提取、特征库的建立/特征识别、拓展应用等基本步骤,每个步骤都有各类的处理方法。经典框架如图1所示。

非侵入式负荷分解技术发展至今，分解算法层出不穷，按照是否基于事件可以将分解算法划分为基于事件(event-based)与不基于事件两大类。基于事件型的算法认为用电事件存在可加性，通过对用电事件的检测与分解实现负荷分解，可加性可以由以下公式表达：

公式表示关口功率等于各用电器的功率的线性叠加，其中P_i(t)代表单个用电器，有n个用电器。值得注意的是功率可加性是指稳态时刻，暂态时间段的暂态过程不满足可加性。不基于事件型是指分解算法流程中最大的特征是没有事件探测步骤，无需对开启关断等状态变换进行确定，即简化了设备标签标记过程，但是在建立用电器模型的过程仍需要利用变点检测技术确定用电器状态，基于事件与不基于事件的分解算法与监督和非监督算法相对应。近年也有提出混合分解分解算法弥补两种类型方法的不足。

事件型与不基于事件的分解算法利用常规的负荷稳态与暂态特征作为用电器的识别特征，其中稳态特征包括有功、无功、电流电压轨迹、电流电压波形(指标计算，如均方根等)、电压噪声(快速傅里叶变换得到,FFT)、电流谐波(FFT)等，暂态特征包括瞬时功率、瞬时电流、电压噪声(频谱分析)等。负荷识别的算法可以被归类成数学优化方法与模式识别，其中模式识别的算法则可以分为监督算法与非监督算法。最后在得到用户用电器的分解信息针对用户与电网进行不同的拓展应用，对于用户可进行能耗管理方案设计、设备异常检测、设备实时在线监测等。对于电网来说可用来分析用户用用电特性，制定更为合理的需求响应的相关技术方案；辅助负荷预测、负荷建模等等。

非侵入式负荷分解概念自从1982年由麻省理工大学教授Hart提出以来，至今已有三十余年，Hart教授当时采用用电器稳态的有功无功变化量，将其绘制成有功无功平面，通过计算用电器距离原点的距离，对用电器进行识别，但这种方法不适用于多状态、负荷特征相似的用电器，且暂态性能不佳。此后学者们将机器学习、模式识别、信号处理等诸多领域的方法与技术引入非侵入式负荷分解，取得不错的效果。下面是对NILM部分关键技术现有的方法与技术的简单总结。

数据采集，NILM所需要的数据分为两类，一类是低频功率信号，另外一类是高频的电压电流信号，其中低频的有功、无功时间序列，一般用于研究的数据采样频率要求在秒至几分钟之内，而智能电表功率采集频率在几十分钟级，达不到算法要求，故往往需要在计量关口处加装专门的数据采集装置，同理，利用电压、电流信号编写的算法，如做傅里叶变换、小波变换等，需要很高的数据采样频率，故需要加装单独的采样装置采集电信号。国外专门用于NILM研究的公开的标准数据集较多，国内尚未建立标准数据集，在一定程度上阻碍了NILM在国内的发展，国外公开的标准数据集包括了REDD(2011)、BLUED(2012)、Smart(2012)、UK-DALE(2014)、AMPDs(2013)、iAWE(2013)、ECO、DRED等，不同数据集具有不同的特点，其中以REDD为代表的数据集分为高频数据与低频数据两部分，高频数据是采样频率为16kHz的电压电流信号，低频为有功时间数据；BLUED数据集对用电事件进行详细标签，可作为事件监测算法准确度的参考数据集。除了利用公共数据集以外，许多学者自行采集用电数据，进行相关算法研究，但自行采集数据，负荷种类较少与周期较短，对算法的准确性评估缺乏有效依据。

数据预处理，在电力系统中的谐波是时刻存在的，电网侧由于新能源的并网(电力变流设备，如整流器、逆变器等)、变压器、电抗器、发电机等，电网中很大一部分谐波是由于用户的非线性负荷引起的，开关电源、变频器驱动、电力电子设备、相控调速调压装置等，因而在用户的电流与电压信号中往往包含谐波分量：

式中V₀与I₀代表直流分量，即平均值，V_k与I_k代表k次电压电流谐波的幅值。则瞬时功率可以表示为p(t)＝v(t)·i(t)，平均功率可以按照一个周期内计算：

平均的基频功率可表达为：

近似的，可认为P_ave(t)≈P₁(t)，所得到的信号除了各频次信号还包括随机噪声，电流信号的随机噪声高斯分布，即正太分布，功率与电压信号也是同理，高斯噪声在信号中是稳定存在的，其功率谱密度(单位频率携带功率大小)分布均匀，可以认为是高斯白噪声，故在负荷正常工作情况下，经过测量的功率、电流与电压的模型可以统一表达为：

X(t)＝E(t)+n(t)±e(t) (1.6)

其中E(t)代表以基波为主的各频次信号，n(t)代表高斯白噪声，e(t)代表测量误差大小。有功信号作为事件探测的主要数据，如果需要捕捉用电器的开启关断暂态过程则需要用到动态性能好的探测技术，也可认为是突变点检测技术，但是由于用电器在暂态与稳态用电时间段功率存在脉动与尖峰，对暂态事件探测算法的精确性存在影响，故常利用一定数据处理技术对功率信号进行滤波降噪，常用的手段有小波去噪、均值滤波等，提高事件探测的准确率。

事件探测，事件探测技术可以被看成突变点检测问题，其基本原理即是认为在发生数据突变前，信号被认为符合假设H₀，其模型可以被定义为F(x)，符合模型G(x)，当出现突变点时，当前模型不在满足模型G(x)，可认为出现突变点：

目前用于事件检测的理论技术包括拟合优度检验(Goodness Of Fit,GOF)、广义似然比(Generalized Likelihood Ratio,GLR)、序贯概率比(sequential probabilityratio test)、小波变换等，这些检测方法由于其动态性能不佳，故许多研究者对于参数的设置上引入自适应手段,提高检测算法的准确性，此外图像边缘检测技术也被应用于事件探测。事件检测技术要求检测延迟小、动态性能好，其参数的设置与选择需要通常利用参数训练等手段达到最优。

特征提取，特征提取即是从电信号(电流、电压、功率)中提取可以代表该类用电器的特征参数，描述用电器的特征大致可以分为三类，即稳态特征、暂态特征以及非传统特征。通常描述用电器用单一特征描述电器往往存在误差，首先一个原因是存在用电器特征类似的情况，比如传统特征中功率变化量(△P与△Q)、电流谐波分量(FFT变换)等，值得注意的是电流谐波分量往往要求较高的采样频率，并且电流互感器的截止频率有关，比如BLUED数据集所用电流互感器的截止频率为300Hz,即使电流信号的采样频率高达12kHz谐波的有效频次为5次(注：BLUED来源美国，美国功频频率为60Hz)，故在没有区分能力强的特征时，往往采用多指标特征评价体系或者辅助特征来提高算法的识别能力与功耗统计的准确度。各类特征其特点总结如下表1.1。

表1.1负荷特征类型

负荷识别，负荷识别是利用上一步提取到的负荷特征，对负荷进行识别最终完成能耗分解。识别算法大致可以划分为监督算法与非监督两类，基于监督的NILM分解数学优化算法与模式识别算法，由于基于监督的分解算法需要事先对事件进行大量标记过程，即建立特征库的过程，而建立特征库的过程需要大量数据，且受研究人员处理误差影响，故近年有较多的研究转向无监督以及半监督算法，希望利用先验信息来化简特征库建立过程。基于监督的数学优化方法首先利用负荷特征建立特征向量，利用实测特征与负荷特征向量的几何距离最小对用电事件进行识别与分解，其数学表达可大致表示如下：

其中

代表数据库中特征向量，y_i代表事件探测出当前事件特征向量，采用了不同的数学优化算法，包括了遗传优化、粒子群算法、整数规划等。而基于监督的模式识别算法则包括K最邻近值(K-Nearest neighbors,KNN)、神经网络、支持向量机、隐马尔可夫法(Hidden Markov method,HMM)、朴素贝叶斯等，但是基于监督需要人工参与，实用性不是很高，故有许多研究学者注意非监督算法以及半监督算法，阶乘隐马尔可夫模型(FactorialHidden Markov Models,FHMM)及其改进算法、主旨挖掘等算法等利用用电器的先验信息，比如用电场景、周期、时刻、用电模式等信息生成用电器的用电模型，再进行负荷识别与分离。

NILM可分为非基于事件的算法(基于学习模型的方法)和基于事件的算法(基于签名的方法)。前者采用了一些时态图模型和变异隐马尔可夫模型，FHMM方法利用马尔可夫过程提出了家电用电状态转移的概率模型，并用Viterbi算法求解了能量分解问题。然而，随着设备数量的增加，算法求解的复杂度也在增加。另外，这类方法对相似电器的判别精度较低，这也是学者们正在研究的领域。

对于基于事件的NILM算法，主要步骤包括数据预处理、事件检测、特征提取、模式识别。特征有效性是影响这类方法准确性的一个重要因素。从低频数据和高频数据中提取特征，分为稳态特征、瞬态特征和非传统特征。有相关研究用有功功率和无功功率作为分类特征来识别电器，但该方法的主要分析对象是开关型电器，不适用于具有相似特性或具有多种状态的电器。也有部分学者提取高频特征例V-I轨迹(电流电压轨迹)特征作为电器识别特征，V-I轨迹包含谐波、功率因数等信息，具有良好的识别精度。然而，从高频采样数据中提取的特征，如谐波、波形和V-I特征，由于存储和处理速度的原因，在实际应用中成本较高。另一个重要因素是分类器的性能，多分类器的组合性能优于单个分类器，部分学者研究了组合分类器的分类性能，包括支持向量机(Support vector machine，SVM)、K最邻近和随机森林组合。但是，这会增加算法的复杂度。近年来，深度学习方法在NILM中得到了广泛的应用，它具有很高的识别精度，但是需要大量的历史样本数据来提高其泛化能力。

人们进行了大量的NILM研究工作，但是目前大部分NILM算法的复杂性高、对相似特征的用电设备存在识别盲区、高频特征提取采样率要求高以及对训练样本的需求量大等缺点阻碍了NILM在实际中的应用。

总的来说，当前算法都会存在算法复杂大、相似设备存在识别盲区、特征提取频率高、训练样本量大等缺点，难以在实际工程中推广与应用。

发明内容

本发明所要解决的技术问题是提供一种基于事件的两阶段非侵入式负荷监测方法，通过两阶段分步辨识与计算，可以降低计算复杂度。在第一阶段，对所选特征进行分类和聚类，计算简单，可以有效地识别出特征不重叠的电器；第二阶段采用弱分类器，以较少的计算量对第一阶段后未识别的群体进行精细分类。

为解决上述技术问题，本发明采用的技术方案是：

一种基于事件的两阶段非侵入式负荷监测方法，包括以下步骤：

步骤1：事件检测

计量关口被测功率是各电器功率、干扰和测量误差的叠加，如公式(1)所示；

X(t)＝E(t)+n(t)±e(t) (1)

式中，E(t)表示以基波为主的各频率功率信号；n(t)表示信号测量中假设为高斯白噪声的干扰，e(t)为测量误差；

在事件检测中，利用拟合优度检验捕捉功率变点，当发现数据段不满足(大于参考统计量

)已知分布时(高斯分布)，则表示事件被检测到；已知待测数据为x₁，x₂，…，数据通过滑动窗口检测计算出的测试统计量表示如下；

其中，x_b为检测窗口数据，x_p为前窗口数据，m是检测窗口和预窗口的大小；l_GOF是当前数据段的检测到的统计量大小，

参考统计量，参数α和n分别代表显著性水平和整个滑动窗口的大小。

步骤2：特征提取

提取的特征包括两类，一类是事件特征，另一类是根据用电器的工作过程特征，所有特征均从低频有功数据中获得；

对于事件特征，提取单双相、ΔP、是否存在尖峰、开事件最大峰值、开事件的暂态持续时间与功率波动方差(Power Fluctuation Variance,PFV)；其中：

1)ΔP为稳态功率变化量；

2)功率波动方差

用功率波动的方差来描述功率波动的程度；PFV具有叠加性，取事件检测前后数据段方差的差值作为PFV特征；对于功率数据x₁，x₂，…，x_m，PFV根据(3)计算，其中

是数据段的平均功率；

3)尖峰、开事件最大峰值与开事件暂态持续时间

峰值信息是通过峰值检测算法检测变化点的邻域数据得到的，定义如下；

P(i)是功率数据采样点；当S(i)>P(i+1)和S(i)>P(i+2)以及S(i)>P(i+7)和S(i)>P(i+8)时，认为P(i)是峰值上升的起始位置，称为P_start，P_tail为峰尾点，峰值是暂态过程的最大值，当最大值超过稳态功率变化量ΔP时则存在尖峰；暂态持续时间是峰尾与峰起始时刻的差值；

事件特征提取完成后，利用ΔP完成开关事件配对；配对过程如下；

当窗口在集群中滑动时，每次迭代都会改变窗口大小；首先找到开事件(onevent)并将其与窗口中的所有关事件(off event)进行比较；在窗口内查找开事件和检测到的关事件之间是否满足功率相当距离最近的条件，当检测到的关事件满足条件时完成配对；

完成开关事件配对后，计算过程特征，包括状态持续时间与开关事件功率差百分比(ΔP_on-off)。

1)状态持续事件持续时间。利用匹配后的开关事件的时刻差计算。

2)定义ΔP_on-off的特征来作为识别特征，计算方式如式(5)；

步骤3：两阶段模式识别

1)第一阶段，利用单双相、稳态功率变化量与是否存在尖峰三个特征将具有相似特征的电器归为同类；

当设备投切或设备状态更改时，捕获事件并提取事件的特征；每个事件由以下三个主要步骤进行大类划分；

1.1)事件分类的第一个特征是电源的相数，单相或者双相；在步骤1之后，事件被分成两组，一组是单相供电的设备，另一组是具有两相供电的设备；针对具有单相电源设备，执行后续步骤1.2)和步骤1.3)；

1.2)分类的特征是稳态功率变化量ΔP，事件按ΔP的级别分为若干组，ΔP的中心和范围依赖于历史事件的聚类，聚类时要考虑随机误差，保证所有事件都能正确分类，聚类数一般设置在1/2或者2/3的用电器的状态种类总数；采用一维K-Means方法得到ΔP聚类中心；

1.3)功率峰值是判断电器是否有电动机的标准；峰值的幅值范围不稳定，存在功率峰值的波动，有峰值和无峰值的事件分为不同的组；

2)第二阶段，采用支持向量机作为分类器，第一阶段识别后的各组采用“一对多”支持向量机模型进行识别；

支持向量机的非线性分类就是通过寻找最优超平面进行分类；通过核函数的非线性映射，表示特征向量的超平面表示为式(6)；

f(x)＝ωφ(x)+b (6)

其中，Φ(x)表示特征x到一个新的特征空间再到一个新的向量，参数ω和b分别是法向量和超平面截距，非线性支持向量机的优化问题如下；

s.t.y_i[ω^Tφ(X_i)+b]≥1-ξ_i,ξ_i≥0 (8)

式(7)为超平面的最优目标，其中常数C为正则化系数，ξ_i为松弛变量处理的铰链损失函数的分段值；式(8)是约束条件，其中X_i是输入数据；核方法用来定义映射函数Φ(x)的内积，即核函数；

κ(X₁,X₂)＝φ(X₁)^Tφ(X₂) (9)

采用二阶段选取sigmoid核函数的SVM作为核函数来实现非线性分类器，其解析式如(10)所示；

其中，a和b是sigmoid函数的参数。

进一步地，还包括步骤4：对模式识别的结果进行评估；

利用机器学习中的评价指标来评价分类的效果；定义四个指标：准确度Accuracy、精确率Precision、召回率Recall和平衡F分数F₁：

TP表示实值为正类，FP表示实值为负类，TN表示实值为负类，FN表示实值为正类和负类，F₁是精确率和召回率的调和平均数。

与现有技术相比，本发明的有益效果是：

1、虽然高频特征(提取于高频的电压电流采样数据)具有较好的识别效果，例如V-I轨迹、谐波水平、小波特征等，但是在实际工程中，这些特征依赖于高频采样数据，高频数据有着较大的存储要求。本发明选用低频数据提取特征，但是低频数据的特征重叠性较高，故本文选取多维度低频特征进行模式识别。

2、对于模式识别而言，强分类器的性能要优于弱分类器，例如组合的分类器、深度神经网络等，但是这些分类器不适合于工程应用，算法较为复杂，并且部分强分类器需要较大的样本提高自身的泛化能力。本发明将模式识别分为两个阶段，一阶段的初步分类将特征易于区分的设备分开，二阶段从其他维度特征入手对一阶段未完成识别的大类进行精细化识别。整个识别流程较为简单，一阶段的识别减轻二阶段的学习要求，提升了识别精度，并且二阶段选用的SVM分类器对样本依赖小，且模型范化能力强。

附图说明

图1是NILM经典框架。

图2是本发明方法流程图。

图3是设备的事件完整工作过程。

图4是为不同设备开事件的稳态功率变化量统计分布。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明方法流程图如图2所示，图2显示了本发明提出的方法的流程图，包括两条主线。左一个是训练模型线，它是在事件检测后分析每个设备的特征，即获得第一阶段的参考特征，第二阶段训练分类器。右侧为测试流程，包括事件检测、事件特征提取、开关事件配对、持续时间计算和ΔP_on-off计算，然后采用两级识别实现分级分类。模式识别中第一阶段会完成部分电器进行识别。下面具体阐述各步骤的技术内容。

事件检测：计量关口被测功率是各电器功率、干扰和测量误差的叠加，如公式(1)所示。

X(t)＝E(t)+n(t)±e(t) (1)

式中，E(t)表示以基波为主的各频率功率信号；n(t)表示信号测量中假设为高斯白噪声的干扰，e(t)为测量误差。拟合优度检验(Goodness of fitness,GOF)是一种统计假设检验，用于检验根据某一假设或分布模型计算出的观察数与理论数的一致性，从而判断假设或模型是否与实际观测数一致。在变点检测中，G₀(x)是一个已知的分布函数，GOF通过统计比较来检验是否有满足G₀(x)分布函数的数据段。事件是一种不满足分布的数据段，GOF可以检测到变化点。

常用的统计量有t统计量、F统计量和Z统计量等，Pearson提出了x²(加权平方和)作为统计量的GOF。在事件检测中，当发现数据段(x₁，x₂，…)不满足分布函数(高斯分布)时，可以认为事件被检测到。通过滑动窗口检测计算出的测试统计量可以表示如下。

其中，x_b为检测窗口数据，x_p为预窗口数据，参数α和n分别代表显著性水平和窗口大小，取0.05和5。m是检测窗口和预窗口的大小(n的一半大小)。当没有事件发生时，数据序列服从高斯分布，这意味着它符合最初的假设；反之则认为出现用电事件。

特征提取：本发明提取的特征包括事件特征与过程特征。事件被定义为设备的状态变化，例如开关打开/关闭或从工作状态1到工作状态2。例如，设备A在t1打开或在t3关闭是图3中的事件完整工作过程(Complete working process,CWP)是设备从接通到关闭的工作过程，示例是图3中的设备A在t1打开到t3关闭。值得注意的是，可以存在两个或更多个CWP的组合，即两个或更多个设备可以同时工作，图3所示的典型示例是，当a在t1处打开并且在t3处关闭时，设备B在t2处打开，在t4处关闭，开启时间存在重叠，本发明利用事件匹配的方法将组合事件分离，并提取过程特征。

本发明所提取的特征包括两类，一类是事件特征，另一类是根据用电器的工作过程特征，所有特征均从低频有功数据中获得。事件特征即图3中所示的变点(圆圈)附近的特征，而过程特征是通过开关事件配对之后完成的。本发明方法的识别对象只针开事件(onevent)，关事件(off event)通过与开事件配对的方式。对于事件特征，本发明方法提取ΔP、是否存在尖峰(power peak)、开事件最大峰值(peak value)、开事件的暂态持续时间(peak time)与功率波动方差(PFV)5个特征。

其中，ΔP为稳态功率变化量。对于功率大的电器来说，功率是一个具有很好区分性的特征。然而，对于功率相近的电器来说，存在一个盲区。

单相或双相：我国居民用电为单相220V供电为主，在北美欧洲等地，单相三线制(±110V交流电源)是常见的供电形式，通常为功率较大的电器供电，如烤箱、烘干机等。由于开源数据集中大多数来自国外，因而单相或双相供电特征也是电器分类的有效参考。

功率波动方差(Power-Fluctuation Variance，PFV)：当电器正常工作时，内部电路会有轻微的周期性变化或波动，导致功率信号波动很小。不同的设备具有不同的功率波动程度，功率波动可以作为事件分类的特征。简化了提取过程，用功率波动的方差来描述功率波动的程度。PFV叠加，取事件检测前后数据段的方差作为差值。对于功率数据x₁，x₂，…，x_m，PFV根据(3)计算，其中

是数据段的平均功率。

尖峰、开事件最大峰值与开事件的暂态持续时间：任何用电器的开启都存在一个暂态过程，有些带电机的电器在启动时会出现短时过电流现象，这是导致瞬时功率峰值的主要原因，因此峰值信息是电机识别设备的有效特征。峰值信息是通过峰值检测算法检测变化点的邻域数据得到的，定义如下。

P(i)是功率数据采样点。当S(i)>P(i+1)和S(i)>P(i+2)以及S(i)>P(i+7)和S(i)>P(i+8)时，认为P(i)是峰值上升的起始位置，称为P_start(峰值起始点)，P_tail(峰尾点)的定义则相反，峰值是暂态过程的最大值，当最大值超过稳态功率变化量ΔP50W时认为存在尖峰。在功率采样数据中，并非每个电机电器的开事件都出现峰值，这与功率水平和采样频率有关，例如冰箱(200W)的开事件有时峰值为1500W，有时峰值为几百瓦，甚至没有峰值出现。一般来说，大功率电器的峰值出现在电机启动时，因为这些电器的峰值时间较长。

事件特征提取完成后，对利用ΔP完成开关事件配对。配对过程如下。

开关配对的目的是检测设备的实际激活及其持续时间。当窗口在集群中滑动时，每次迭代都会改变窗口大小。首先找到开事件并将其与窗口中的所有事件进行比较。在窗口内查找打开事件和检测到的事件之间的是否满足条件(符号相反％功率相对差在5％以内&距离最近)。窗口中第一个检测到的事件只有在它是关闭事件并且符合条件，满足条件时才用于配对。完成开关事件配对后，再提状态取持续时间(on duration time)计算和ΔP_on-off特征，特征描述如下。

状态持续时间：状态持续时间不同于CWP时间，后者是设备的使用时间，CWP中可能包含多个成对的开关事件；但是，导通持续时间是根据一个成对事件来计算的。单状态设备的CWP时间和持续时间相等。在实际功率数据中，由于事件的组合，只能得到状态持续时间。如果CWP是固定的，一些电器的持续时间是稳定的，即使其他电器的事件不是固定的，它们的持续时间范围是稳定的，除了灯等具有高度随机性的电器。

ΔP_on-off:开事件与关事件之间的功率并不相同，这个现象有助于识别。以带电机的电器为例，开事件的功率比关事件的功率高出一定的比例，例如冰箱状态1的开事件的ΔP比关事件的ΔP大10～30W。本发明定义了一个称为ΔP_on-off的特征来作为识别特征,计算方式如式(5)。

特征提取总共包括8个特征，分别是有单双相、稳态功率变化量ΔP、是否存在尖峰(power peak)、开事件最大峰值(peak value)、开事件的暂态持续时间(peak time)、功率波动方差(PFV)、状态持续时间以及ΔP_on-off。其中功率波动方差(PFV)与ΔP_on-off为本发明首次提出。

两阶段模式识别：本发明提出了两个阶段的模式识别方法。在第一阶段，利用第部分特征将具有相似特征的电器归为一类；第二阶段，将支持向量机以“一对多”的形式训练成每个大类的分类器，实现识别。这种思想类似于层次分类的解决方案，基本思路是将容易混淆的样本分类为同一类，然后对每一类进行精细分类。

每类特征的有效性是不同的。对于分类器来说，如果这些特征与事件有很大的不同，则某些特征可以很好地对事件进行分类。然而，当特征相似时，分类器不能正常工作，甚至会误导结果。例如，功率电平的特征可以区分不同功率等级的电器，但是当功率电平接近时，存在识别盲区。事实上，也有一些电器具有类似的电信号特性，包括功率电平、功率因数、谐波电平等，甚至V-I轨迹。在图4中，纵坐标是事件的频率，横坐标是事件的ΔP的大小。对于同一类事件，同一特征可能存在微小差异，例如，在图4中很明显ΔP不是固定值，而是一个区间范围。根据ΔP的统计结果，选取Beta分布，得到各类事件的分布范围和分布概率。Beta分布是伯努利分布和二项式分布的共轭先验分布的密度函数，α和β是该分布参数，如图4所示，具体分布参数见表1。

表1 REDD房间1的稳态功率变化量的Beta分布参数

图4中共有11个标签(从0到10)代表REDD数据集House1中不同的电器和不同的状态。图4显示了不同设备的on事件的统计分布，很明显，对于不同功率级别的事件，ΔP是一个很好的分类特征。大约有5组，标签3、4、7分别属于一组，与另两组有很大不同(标签1、2、5、10在一组中称为组1，标签0、6、8、9在另一组称为组2)。然而，第1组和第2组分别存在重叠，因为每组中4个事件的ΔP相似。在组1中，标签0、6、8和9分别是烤箱(1640-1690W)、微波炉(1305-1600W)、浴室插座(1580-1690W)和炉灶(1400-1480W)，这四种电器的稳态功率事件范围集中在1400-1700w之间，因此下一阶段应根据其他功能进行分类，以区分每组的4个事件。

本发明方法在第一阶段利用一些较强的特征将事件分成若干组，包括相位、ΔP和峰值(Y/N)。然后利用峰值功率、峰值时间、通断时间、PFV和ΔP_on-off等第二阶段特征来实现分类。

第一阶段：当设备切换或设备状态更改时，捕获事件并提取事件的特征。每个事件由以下三个主要步骤确定。

第一步：事件分类的第一个特征是电源的相数，可以是单相还是双相。双相供电的电器较少，一个典型的住宅大约有1到3种电器。在步骤1之后，事件被分成两组，一组是单相供电的设备，另一组是具有两相供电的设备。由于后一组中的电器较少，对于后者不需要执行步骤二和步骤三，只针对具有单相电源设备。

第二步：分类的特征是稳态功率变化量ΔP，在第二步中，事件按ΔP的级别分为若干组，ΔP的中心和范围依赖于历史事件的聚类，聚类时要考虑随机误差，以保证所有事件都能正确分类。本发明所提方法采用一维K-Means方法得到ΔP聚类中心。假设有n个电器工作状态。为了将ΔP重叠的事件集合为一组，最好将聚类中心设置得更小，一般建议将其设置在n/2到2*n/3之间。表2显示了REDD的House1ΔP的K-Means聚类结果。House1有11种电器工作状态，聚类中心数设为6个。

表2 REDD的House1ΔP的K-Means聚类结果

第三步：功率峰值是判断电器是否有电动机的标准。峰值的幅值范围不稳定，存在功率峰值的波动，峰值检测方法见特征提取部分。每个事件可能有或没有功率峰值，有峰值和无峰值的事件分为不同的组。以表1的C4为例，步骤2后有4台电器，只有浴室插座有功率峰值，通过步骤3可以识别。

第一阶段所用特征为ΔP与是否存在功率尖峰(是否为马达启动类设备)，将用电器分为几个大类。通常，一阶段可识别出至少一般以上的用电器，但存在特征重叠时，就需要二阶段对为完成识别的组进行精细化识别。

二阶段识别：第二阶段利用分类器进行进一步的识别，分类器的输入是由多维特征构成的特征向量。第二阶段的特征提取自有功功率时间序列。对完成开关事件匹配的开事件进行识别，一阶段所用的稳态功率与是否存在尖峰，二阶段识别将丢弃这两个特征，选用其他维度的特征，具体包括ΔP_on-off、状态持续时间、开事件最大峰值、开事件的暂态持续时间和PFV，这些特征选自不同维度，相互关联度小。

通过历史样本数据建立特征库后，对二阶段特征进行归一化处理，将特征转换为同一尺度。特征缩放后，梯度下降过程更为平直，收敛速度更快，有利于分类。第二阶段采用支持向量机作为分类器，第一阶段识别后的各组采用“一对多”支持向量机模型进行识别。

支持向量机(Support vector machine,SVM)是一种用于数据二分类的线性分类器，是一种有监督的学习方法。支持向量机可以通过核方法进行非线性分类。另外，支持向量机比人工神经网络(Artificial Neural Network,ANN)的深度学习更适合小样本学习，在一定的训练样本条件下，支持向量机的运算量小于反向传播人工神经网络(BackPropagation Artificial Neural Network，BP-ANN)，建模精度更高。支持向量机的非线性分类就是通过寻找最优超平面进行分类。通过核函数的非线性映射，表示特征向量的超平面可以表示为式(6)。

f(x)＝ωφ(x)+b (6)

其中Φ(x)表示特征x到一个新的特征空间再到一个新的向量，参数ω和b分别是法向量和超平面截距，非线性支持向量机的优化问题如下。

s.t.y_i[ω^Tφ(X_i)+b]≥1-ξ_i,ξ_i≥0 (8)

式(7)为超平面的最优目标，其中常数C为正则化系数，ξ_i为松弛变量处理的铰链损失函数的分段值。(8)是约束条件，其中X_i是输入数据。核方法通常用来定义映射函数Φ(x)的内积，即核函数。

κ(X₁,X₂)＝φ(X₁)^Tφ(X₂) (9)

本发明所提方法二阶段选取sigmoid核函数的SVM作为核函数来实现非线性分类器，其解析式如(10)所示。

其中a和b是sigmoid函数的参数。

算法评估指标。模式识别的结果也需要评估。本方法利用机器学习中的评价指标来评价分类的效果。根据定义，有四个指标：准确度(Accuracy)、精确率(Precision)、召回率(Recall)和平衡F分数F₁：

TP(真正数)表示实值为正类，FP(假阳性)表示实值为负类，TN(真负)表示实值为负类，FN(假阴性)表示实值为正类和负类，F₁是精确率和召回率的调和平均数。

下面利用标准开源数据Reference Energy Disaggregation Dataset(REDD)数据集检验方法的有效性。

算例验证：用于非侵入式负荷分解算法验证的开源数据集较多，例如REDD、UK-DALE、iAWE等数据集，然而这些开源的标准数据集均来自国外，国内尚无建立类似的开源数据集。本算例应用的REDD数据集记录了美国6个家庭的用电数据，包括高频数据和低频数据两部分。低频数据包括主配电板处的视在功率(步长为1秒)和各支路的有功功率数据(步长为3s)，用以验证本发明提出的两阶段识别方法的准确性。本算例对房子1进行案例研究。取部分历史数据训练模型，取部分数据进行测试，测试样本共有379个样本事件。

房间1：房子1包含十多种电器，如冰箱、洗碗机、微波炉等。表2列出了部分电器的四个特征，这些特征来自历史样本数据。某些设备的某些功能的值重叠，从表3可以看出，微波炉、炉灶和浴室插座的ΔP非常接近，因此很难根据一个或两个低频特性实现识别。

表3房间1部分电器的特征

表4为第一阶段分类结果。经过第一阶段特征识别，房间1的电器主要可分为四类，两相供电的电器为A组；功率电平较低的为B组；功率电平较大且无功率峰值的为C组；其余为功率电平较大且有功率峰值的电器，通过第一阶段的特征识别，如洗碗机状态2，对D组电器进行识别，包括D组在内其余用电器可被一阶段识别识。

表3 REDD房间1一阶段识别结果

本发明采用十折交叉验证来验证识别的准确性。表5是所提出的方法(Hierarchical Classification,HC)与直接对所有事件进行分类的方法(NoHierarchical Classification,Non-HC)的结果比较。从表5中可以看出虽然Non-HC的准确度(Accuracy)指标较高，但精度(Precision)、召回率(Recall)和F_1score三个指标都较低。这可能是由于一些设备的样本数量太多，容易识别，但对于具有类似特征的事件，存在许多错误分类。相比较而言，本发明所提方法显示了更好的性能。

表5房间1的辨识结果

表6不同分类器的效果对比

表6比较了不同分类器下非HC和HC的分类效果，包括支持向量机(本方法选用)、K最邻近、贝叶斯网络和神经网络。结果表明，不同分类器的分类效果差别不大，K最邻近对non-HC的分类效果最好，而支持向量机更适合小样本分类，不需要太多的事件训练参数。

Claims

1.一种基于事件的两阶段非侵入式负荷监测方法，其特征在于，包括以下步骤：

步骤1：事件检测

X(t)＝E(t)+n(t)±e(t) (1)

在事件检测中，利用拟合优度检验捕捉功率变点，当发现数据段大于参考统计量

不满足已知的高斯分布时，则表示事件被检测到；已知待测数据为x₁，x₂，…，数据通过滑动窗口检测计算出的测试统计量表示如下；

为参考统计量，参数α和n分别代表显著性水平和整个滑动窗口的大小；

步骤2：特征提取

对于事件特征，提取单双相、ΔP、是否存在尖峰、开事件最大峰值、开事件的暂态持续时间与功率波动方差PFV；其中：

1)ΔP为稳态功率变化量；

2)功率波动方差

是数据段的平均功率；

3)尖峰、开事件最大峰值与开事件暂态持续时间

P(i)是功率数据采样点；当S(i)>P(i+1)和S(i)>P(i+2)以及S(i)>P(i+7)和S(i)>P(i+8)时，认为P(i)是峰值上升的起始位置，称为P_start，P_tail为峰尾点，峰值是暂态过程的最大值，当最大值超过稳态功率变化量ΔP50W时则存在尖峰；暂态持续时间是峰尾与峰起始时刻的差值；

当窗口在集群中滑动时，每次迭代都会改变窗口大小；首先找到开事件并将其与窗口中的所有关事件进行比较；在窗口内查找开事件和检测到的关事件之间是否满足功率相当距离最近的条件，当检测到的关事件满足条件时完成配对；

完成开关事件配对后，计算过程特征，包括状态持续时间与开关事件功率差百分比ΔP_on-off；

1)状态持续事件持续时间；利用匹配后的开关事件的时刻差计算；

2)定义ΔP_on-off的特征来作为识别特征，计算方式如式(5)；