CN109829487A

CN109829487A - 一种基于分段统计特征距离的聚类方法

Info

Publication number: CN109829487A
Application number: CN201910039709.5A
Authority: CN
Inventors: 何光宇; 郏琨琪; 郭歌; 何果红
Original assignee: Shanghai Shangta Software Development Co Ltd
Current assignee: Shanghai Shangta Software Development Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-31
Anticipated expiration: 2039-01-16
Also published as: CN109829487B

Abstract

本发明公开了数据压缩领域的一种基于分段统计特征距离的聚类方法，步骤一：将分段统计距离作为相似性度量；步骤二：通过k‑中心点聚类算法生成模式模板；步骤三：从聚类结果的性能中提取学习最优权重向量W^opt，并引入宏‑FI指标作为聚类一个性能度量指标，将最优的决定权重值的问题转化为有约束的最优化问题。本发明提供的一种基于分段统计特征距离的聚类方法能可以用于提升聚类的效果，使得反映电器相似工作状态的子序列可以被聚类到一起。并且，相比于基于DTW和DDTW的相似性度量，基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。

Description

一种基于分段统计特征距离的聚类方法

技术领域

本发明涉及数据压缩领域，具体涉及一种基于分段统计特征距离的聚类方法。

背景技术

在智能用电网络中，对于用电数据时间序列的压缩表示是一个关键的问题。在线基于模式的近似表示是一种有效的解决方法，其中模式发现考虑到模式发现在很大程度上取决于相似性度量。具体来说，模式发现的目的是找到合适的模式模板来进行时间序列的近似表示，而选择合适的相似性度量对于模式发现具有重要的意义。

Lp-范数距离和动态时间规整(DTW)是两种常用的度量时间序列相似性的方法。

Lp-范数距离分别是曼哈顿距离、欧几里得距离和最大距离p＝1、p＝2、p→∞，并要求两个时间序列的维数相等。然而，实际的时间序列往往不能满足这个要求。

与Lp-范数距离不同，动态时间规整基于动态规划，通过对时间序列指标的重新调整来计算距离，已经在许多领域得到成功应用。动态时间规整对时变和相移不敏感，但计算量大(O(n²))，难以处理高维时间序列和高速数据流。此外，表现为一个时间序列上的单个点映射到另一个时间序列的大部分的不希望看到的行为″奇点″也困扰着动态时间规整。为了解决这个问题，文献″roceedings of the 2001 SIAM International Conference onData Mining″(Keogh E J，Pazzani M J.Derivative dynamic time warping[C]，Societyfor IndustriaI and Applied Mathematics，2001-1-11)提出了导数动态时间规整(DDTW)，但是它仅考虑数据的局部导数而不考虑原始数据，以找到正确的规整。

技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于分段统计特征距离的聚类方法，包括

步骤一：将分段统计距离作为相似性度量；基于电器功率数据时间序列被分割得到的子序列中提取均值、线性拟合斜率和持续时间作为特征向量，通过加权欧几里德距离对提取的不同特征向量进行相似度匹配，并通过权重向量区别不同特征向量的表现度，使分段统计距离对有效信息敏感；

步骤二：通过k-中心点聚类算法生成模式模板；给定分段时间序列以及少量标记的子序列并将子序列作为标记样本，通过聚类算法利用标记样本初始化聚类中心

从而输出预测的聚类分区

以及最终相应的聚类中心cc；

步骤三：从聚类结果的性能中提取学习最优权重向量W^opt，并引入宏-FI指标作为聚类一个性能度量指标，将最优的决定权重值的问题转化为有约束的最优化问题。

进一步地，其中，步骤一包括：

S1：给定两个子序列S_[i，j]、S_{[i′，j′]}和一个映射函数F(·)，从子序列中S_[i，j]，S_{[i′，j′]}分别提取功率均值线性拟合斜率slope_[i，j]、slope_{[i′，j′]}持续时间τ_[i，j]、τ_{[i′，j′]}，并生成特征向量V_[i，j]与V_{[i′，j′]}；

其中，

S2：根据特征向量生成权重向量并通过公式计算S_[i，j]与S_{[i′，j′]}之间的分段统计距离；

其中为特征向量的第i个元素的权重。

进一步地，步骤三包括，最优的决定权重值的问题转化为有约束的最优化问题的公式为：

进一步地，步骤三中，通过标记样本初始化聚类中心时，在迭代期间不改变聚类和这些标记样本之间的关系。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

本发明提出分段统计距离(PSD)作为模式发现和子序列分类的相似性度量指标。相比于基于DTW和DDTW的相似性度量，基于分段统计距离的相似性度量在模式发现方面有显著的效果提升，还可以用于提升聚类的效果，

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明为基于分段统计距离的约束k-中心点种子算法代码图；

图2为图1中代码符号说明图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

一种基于分段统计特征距离的聚类方法，包括

步骤一：将分段统计距离作为相似性度量；基于电器功率数据时间序列被分割得到子序列，考虑到均值、线性拟合斜率和持续时间是能够区分电器各种工作状态的三个最重要和最基本的特征，选择这三个特征作为特征向量的组成部分，即：因此，从子序列中提取均值、线性拟合斜率和持续时间等多个统计特征作为特征向量，通过加权欧几里德距离对提取的不同特征向量进行相似度匹配，并通过权重向量区别不同特征向量的表现度，使分段统计距离对有效信息敏感。

模式发现是对于时间序列的在线基于模板的近似表示的准备。前者可以为后者提供适当的模式模板，从而可以将在线子序列分类为正确的模式模板。

对于模式模板的生成，通常的想法是利用基于距离的聚类技术，如k-means或k-中心点法，并选择聚类中心作为模式模板。另外，在大多数情况下，半监督聚类方法比无监督聚类方法更加鲁棒和准确，因此可以利用标记数据等额外信息来提高聚类性能。

对于功率曲线等电器时间序列，基于分段统计距离的聚类算法的理想性能是：反映电器相似的工作状态，例如设备开启、设备关闭以及各种工作状态的相似的子序列可以被聚类在一起。

聚类和分类的有效性都取决于距离测度，本专利中的分段统计距离便是距离测量的一种。由于分段统计距离是基于加权欧氏距离的，其性能会受到权值的显著影响，因此权值的训练是关键步骤。

步骤二：结合图1-2，将基于分段统计距离的约束种子k-中心点法作为模式模板生成的聚类方法。给定分段时间序列以及少量标记的子序列并将子序列作为标记样本，其中是被标注为类i^c的子序列。通过聚类算法利用标记样本初始化n^c聚类中心在迭代期间不改变聚类和这些标记样本之间的关系。从而输出预测的聚类分区以及最终相应的聚类中心cc。

使用k-中心点法代替其他集群方法(如k-means)的主要原因是：由k-中心点法创建的集群中心将被严格地从集群成员中选择出来。这一性质为根据相应的模式模板来重构近似子序列带来了方便。

步骤三：最优权重向量W^opt可以从聚类结果的性能中学习。因此为了介绍相应的最优化方法，引入了机器学习中的宏-FI指标(macro-FI)作为聚类一个性能度量指标，将最优的决定权重值的问题转化为有约束的最优化问题。

进一步地，其中，步骤一包括：

其中，

其中为特征向量的第i个元素的权重，可以从训练数据集的子序列匹配的反馈中学习到。

进一步地，步骤三包括，最优的决定权重值的问题转化为有约束的最优化问题的公式为：便可以通过一些常用的有约束的最优化策略来解决。

本发明提出将分段统计距离(PSD)作为相似性度量以及基于分段统计距离特征的聚类方法，可以用于提升聚类的效果，使得反映电器相似工作状态的子序列可以被聚类到一起。并且，相比于基于DTW和DDTW的相似性度量，基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。

在本说明书的描述中，参考术语″一个实施例″、″示例″、″具体示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于分段统计特征距离的聚类方法，其特征在于：包括

步骤一：将分段统计距离作为相似性度量；从子序列中提取均值、线性拟合斜率和持续时间作为特征向量，通过加权欧几里德距离对提取的不同特征向量进行相似度匹配，并通过权重向量区别不同特征向量的表现度，使分段统计距离对有效信息敏感；

步骤二：通过k-中心点聚类算法生成模式模板；给定分段时间序列以及少量标记的子序列并将子序列作为标记样本，通过聚类算法利用标记样本初始化聚类中心从而输出预测的聚类分区以及最终相应的聚类中心cc；

2.根据权利要求1所述的一种基于分段统计特征距离的聚类方法，其特征在于：其中，步骤一包括：

S1：给定两个子序列S_[i，j]、S_[i′j′]和一个映射函数F(·)，从子序列中S_[i，j]，S_{[i′，j′]}分别提取功率均值线性拟合斜率slope_[i，j]、slope_{[i′，j′]}持续时间τ_[i，j]、τ_{[i′，j′]}，并生成特征向量V_[i，j]与V_{[i′，j′]}；

其中，

其中为特征向量的第i个元素的权重。

3.根据权利要求1所述的一种基于分段统计特征距离的聚类方法，其特征在于：步骤三包括，最优的决定权重值的问题转化为有约束的最优化问题的公式为：

4.根据权利要求1所述的一种基于分段统计特征距离的聚类方法，其特征在于：步骤三中，通过标记样本初始化聚类中心时，在迭代期间不改变聚类和这些标记样本之间的关系。