CN109829487A - 一种基于分段统计特征距离的聚类方法 - Google Patents

一种基于分段统计特征距离的聚类方法 Download PDF

Info

Publication number
CN109829487A
CN109829487A CN201910039709.5A CN201910039709A CN109829487A CN 109829487 A CN109829487 A CN 109829487A CN 201910039709 A CN201910039709 A CN 201910039709A CN 109829487 A CN109829487 A CN 109829487A
Authority
CN
China
Prior art keywords
distance
cluster
segmentation statistical
subsequence
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910039709.5A
Other languages
English (en)
Other versions
CN109829487B (zh
Inventor
何光宇
郏琨琪
郭歌
何果红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shangta Software Development Co Ltd
Original Assignee
Shanghai Shangta Software Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shangta Software Development Co Ltd filed Critical Shanghai Shangta Software Development Co Ltd
Priority to CN201910039709.5A priority Critical patent/CN109829487B/zh
Publication of CN109829487A publication Critical patent/CN109829487A/zh
Application granted granted Critical
Publication of CN109829487B publication Critical patent/CN109829487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了数据压缩领域的一种基于分段统计特征距离的聚类方法,步骤一:将分段统计距离作为相似性度量;步骤二:通过k‑中心点聚类算法生成模式模板;步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏‑FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。本发明提供的一种基于分段统计特征距离的聚类方法能可以用于提升聚类的效果,使得反映电器相似工作状态的子序列可以被聚类到一起。并且,相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。

Description

一种基于分段统计特征距离的聚类方法
技术领域
本发明涉及数据压缩领域,具体涉及一种基于分段统计特征距离的聚类方法。
背景技术
在智能用电网络中,对于用电数据时间序列的压缩表示是一个关键的问题。在线基于模式的近似表示是一种有效的解决方法,其中模式发现考虑到模式发现在很大程度上取决于相似性度量。具体来说,模式发现的目的是找到合适的模式模板来进行时间序列的近似表示,而选择合适的相似性度量对于模式发现具有重要的意义。
Lp-范数距离和动态时间规整(DTW)是两种常用的度量时间序列相似性的方法。
Lp-范数距离分别是曼哈顿距离、欧几里得距离和最大距离p=1、p=2、p→∞,并要求两个时间序列的维数相等。然而,实际的时间序列往往不能满足这个要求。
与Lp-范数距离不同,动态时间规整基于动态规划,通过对时间序列指标的重新调整来计算距离,已经在许多领域得到成功应用。动态时间规整对时变和相移不敏感,但计算量大(O(n2)),难以处理高维时间序列和高速数据流。此外,表现为一个时间序列上的单个点映射到另一个时间序列的大部分的不希望看到的行为″奇点″也困扰着动态时间规整。为了解决这个问题,文献″roceedings of the 2001 SIAM International Conference onData Mining″(Keogh E J,Pazzani M J.Derivative dynamic time warping[C],Societyfor IndustriaI and Applied Mathematics,2001-1-11)提出了导数动态时间规整(DDTW),但是它仅考虑数据的局部导数而不考虑原始数据,以找到正确的规整。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于分段统计特征距离的聚类方法,包括
步骤一:将分段统计距离作为相似性度量;基于电器功率数据时间序列被分割得到的子序列中提取均值、线性拟合斜率和持续时间作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感;
步骤二:通过k-中心点聚类算法生成模式模板;给定分段时间序列以及少量标记的子序列并将子序列作为标记样本,通过聚类算法利用标记样本初始化聚类中心
从而输出预测的聚类分区
以及最终相应的聚类中心cc;
步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏-FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
进一步地,其中,步骤一包括:
S1:给定两个子序列S[i,j]、S[i′,j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′]
其中,
S2:根据特征向量生成权重向量并通过公式计算S[i,j]与S[i′,j′]之间的分段统计距离;
其中为特征向量的第i个元素的权重。
进一步地,步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为:
进一步地,步骤三中,通过标记样本初始化聚类中心时,在迭代期间不改变聚类和这些标记样本之间的关系。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明提出分段统计距离(PSD)作为模式发现和子序列分类的相似性度量指标。相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升,还可以用于提升聚类的效果,
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明为基于分段统计距离的约束k-中心点种子算法代码图;
图2为图1中代码符号说明图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
一种基于分段统计特征距离的聚类方法,包括
步骤一:将分段统计距离作为相似性度量;基于电器功率数据时间序列被分割得到子序列,考虑到均值、线性拟合斜率和持续时间是能够区分电器各种工作状态的三个最重要和最基本的特征,选择这三个特征作为特征向量的组成部分,即:因此,从子序列中提取均值、线性拟合斜率和持续时间等多个统计特征作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感。
模式发现是对于时间序列的在线基于模板的近似表示的准备。前者可以为后者提供适当的模式模板,从而可以将在线子序列分类为正确的模式模板。
对于模式模板的生成,通常的想法是利用基于距离的聚类技术,如k-means或k-中心点法,并选择聚类中心作为模式模板。另外,在大多数情况下,半监督聚类方法比无监督聚类方法更加鲁棒和准确,因此可以利用标记数据等额外信息来提高聚类性能。
对于功率曲线等电器时间序列,基于分段统计距离的聚类算法的理想性能是:反映电器相似的工作状态,例如设备开启、设备关闭以及各种工作状态的相似的子序列可以被聚类在一起。
聚类和分类的有效性都取决于距离测度,本专利中的分段统计距离便是距离测量的一种。由于分段统计距离是基于加权欧氏距离的,其性能会受到权值的显著影响,因此权值的训练是关键步骤。
步骤二:结合图1-2,将基于分段统计距离的约束种子k-中心点法作为模式模板生成的聚类方法。给定分段时间序列以及少量标记的子序列并将子序列作为标记样本,其中是被标注为类ic的子序列。通过聚类算法利用标记样本初始化nc聚类中心在迭代期间不改变聚类和这些标记样本之间的关系。从而输出预测的聚类分区以及最终相应的聚类中心cc。
使用k-中心点法代替其他集群方法(如k-means)的主要原因是:由k-中心点法创建的集群中心将被严格地从集群成员中选择出来。这一性质为根据相应的模式模板来重构近似子序列带来了方便。
步骤三:最优权重向量Wopt可以从聚类结果的性能中学习。因此为了介绍相应的最优化方法,引入了机器学习中的宏-FI指标(macro-FI)作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
进一步地,其中,步骤一包括:
S1:给定两个子序列S[i,j]、S[i′,j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′]
其中,
S2:根据特征向量生成权重向量并通过公式计算S[i,j]与S[i′,j′]之间的分段统计距离;
其中为特征向量的第i个元素的权重,可以从训练数据集的子序列匹配的反馈中学习到。
进一步地,步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为:便可以通过一些常用的有约束的最优化策略来解决。
本发明提出将分段统计距离(PSD)作为相似性度量以及基于分段统计距离特征的聚类方法,可以用于提升聚类的效果,使得反映电器相似工作状态的子序列可以被聚类到一起。并且,相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。
在本说明书的描述中,参考术语″一个实施例″、″示例″、″具体示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种基于分段统计特征距离的聚类方法,其特征在于:包括
步骤一:将分段统计距离作为相似性度量;从子序列中提取均值、线性拟合斜率和持续时间作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感;
步骤二:通过k-中心点聚类算法生成模式模板;给定分段时间序列以及少量标记的子序列并将子序列作为标记样本,通过聚类算法利用标记样本初始化聚类中心从而输出预测的聚类分区以及最终相应的聚类中心cc;
步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏-FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
2.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:其中,步骤一包括:
S1:给定两个子序列S[i,j]、S[i′j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′]
其中,
S2:根据特征向量生成权重向量并通过公式计算S[i,j]与S[i′,j′]之间的分段统计距离;
其中为特征向量的第i个元素的权重。
3.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为:
4.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:步骤三中,通过标记样本初始化聚类中心时,在迭代期间不改变聚类和这些标记样本之间的关系。
CN201910039709.5A 2019-01-16 2019-01-16 一种基于分段统计特征距离的聚类方法 Active CN109829487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039709.5A CN109829487B (zh) 2019-01-16 2019-01-16 一种基于分段统计特征距离的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910039709.5A CN109829487B (zh) 2019-01-16 2019-01-16 一种基于分段统计特征距离的聚类方法

Publications (2)

Publication Number Publication Date
CN109829487A true CN109829487A (zh) 2019-05-31
CN109829487B CN109829487B (zh) 2021-05-14

Family

ID=66860303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910039709.5A Active CN109829487B (zh) 2019-01-16 2019-01-16 一种基于分段统计特征距离的聚类方法

Country Status (1)

Country Link
CN (1) CN109829487B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392874A (zh) * 2021-05-13 2021-09-14 中车唐山机车车辆有限公司 轨道车辆异常状态诊断方法、装置及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法
CN107169511A (zh) * 2017-04-27 2017-09-15 华南理工大学 基于混合聚类集成选择策略的聚类集成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法
CN107169511A (zh) * 2017-04-27 2017-09-15 华南理工大学 基于混合聚类集成选择策略的聚类集成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392874A (zh) * 2021-05-13 2021-09-14 中车唐山机车车辆有限公司 轨道车辆异常状态诊断方法、装置及终端设备

Also Published As

Publication number Publication date
CN109829487B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Chen et al. Model Metric Co-Learning for Time Series Classification.
Wu Efficient HIK SVM learning for image classification
CN111985581B (zh) 一种基于样本级注意力网络的少样本学习方法
CN105095494B (zh) 一种对分类数据集进行测试的方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN104112018A (zh) 一种大规模图像检索方法
CN109492589A (zh) 通过二进制特征与联合层叠结构融合的人脸识别工作方法以及智能芯片
Li et al. Improving image classification accuracy with ELM and CSIFT
Irie et al. A bayesian approach to multimodal visual dictionary learning
CN109829487A (zh) 一种基于分段统计特征距离的聚类方法
CN109919320B (zh) 基于语义层次结构的Triplet网络学习方法
Guo et al. Dual-view ranking with hardness assessment for zero-shot learning
Sun et al. Action disambiguation analysis using normalized google-like distance correlogram
CN104809468A (zh) 一种基于不定核的多视图分类方法
CN112560949B (zh) 基于多级统计学特征提取的高光谱分类方法
CN105205487B (zh) 一种图片处理方法及装置
CN108491865A (zh) 一种基于度量学习的多示例多标记分类方法
CN116124448A (zh) 用于风电齿轮箱的故障诊断系统及其方法
CN109615002A (zh) 基于pso的决策树svm大学生消费行为评价方法
Janani et al. Feature fusion for efficient object classification using deep and shallow learning
CN105825205A (zh) 一种协作稀疏表示自适应的快速人脸识别方法
CN108805162A (zh) 一种基于粒子群优化的酵母菌多标记特征选择方法及装置
CN114117040A (zh) 基于标签特定特征和相关性的文本数据多标签分类方法
Yıldız et al. Automatic Turkish image captioning: the impact of deep machine translation
Beuria Intrinsic geometry of collider events and nearest neighbour based weighted filtration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant