CN117555888A

CN117555888A - 一种基于ap聚类算法的终端历史数据维护方法

Info

Publication number: CN117555888A
Application number: CN202311578137.0A
Authority: CN
Inventors: 赵四海; 党政军; 李晓雄; 韩杰; 史斌; 马鑫; 董一新; 王海翔; 王统; 余波; 常乐
Original assignee: Ningxia LGG Instrument Co Ltd
Current assignee: Ningxia LGG Instrument Co Ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-13
Anticipated expiration: 2043-11-23

Abstract

本发明公开了一种基于AP聚类算法的终端历史数据维护方法，属于电力设备终端数据维护技术领域，获取终端历史数据；通过遍历查找的方式删除终端历史数据中的重复数据，得到无重复数据的终端历史数据；根据AP聚类算法对无重复数据的终端历史数据进行聚合分类，得到分类结果和异常数据；删除异常数据，并将分类结果作为无异常终端历史数据分类结果；对无异常终端历史数据分类结果中的重合数据进行离散化去重处理，得到待时间处理历史数据；对待时间处理历史数据进行时间线剔除处理，并将时间线剔除处理结果和待存储冻结数据存入数据服务中心。本发明实现了优先剔除错误数据和信息重合度高的数据，解决了现有终端历史数据维护效果不足的问题。

Description

一种基于AP聚类算法的终端历史数据维护方法

技术领域

本发明属于电力设备终端数据维护技术领域，尤其涉及一种基于AP聚类算法的终端历史数据维护方法。

背景技术

随着我国智能化要求的不断提高，在深化电力体制改革和互联网时代背景下，智能电表及终端全覆盖是打造智能电网、实现营销精益管理，以及支撑电网企业向综合能源服务公司转型的必然要求。终端是远程抄表系统的中心管理设备和控制设备，能同时挂载多个电表完成通信抄表、数据收集、数据管理存储、情况监测与警报、安全工作和用户权限、防窃电监测等作用。终端抄表数据存储到采集记录表中形成冻结记录时，数据量较大。在终端存储容量不足时，需要维护过期历史数据，确保新采集数据的正确存储。目前采用较多方法的是通过删除最早保存历史数据进行维护，确保新采集数据的存储。然而，这种方法会造成存储数据信息量减少，错误数据及信息重合度高数据留存，导致资源浪费及数据利用率低的问题。

目前针对历史数据维护主要涉及两方面。在数据存储方面，把在服务器上的历史数据备份后删除，通过减小存储压力提升服务器处理能力，但历史数据无法得到利用，如现有技术提出了一种基于重复数据删除的备份系统，在备份时对数据做了去重复处理；在数据处理方面，把需要存储的数据分析、处理后，动态操作服务器，通过数据动态操作提升服务器存储能力，如现有技术提出了基于聚类和关联规则的确缺失数据处理新方法，以及申请号为CN201910012095.1的专利中提出的，使用DBSCAN聚类算法进行缺失值填充完成数据清洗及关联规则的异常数据清理方法，在电力设备在线监测异常数据的处理中取得了不错的效果。但上述方案都仅单一关注了数据剔除重复或分类算法剔除异常，只能保障提高少量数据的正常存储。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于AP聚类算法的终端历史数据维护方法，先通过删除重复数据，再通过AP聚类算法进行聚合分类以得到分类结果和异常数据，将异常数据删除后，对分类结果中的重合数据进行了离散化去重处理，最终根据待存储冻结数据需求的存储空间数据条数进行时间线剔除处理，实现了优先剔除错误数据和信息重合度高的数据，解决了现有终端历史数据维护效果不足的问题。

为了达到上述发明目的，本发明采用的技术方案为：

本发明提供的一种基于AP聚类算法的终端历史数据维护方法，包括如下步骤：

S1、获取终端历史数据；

S2、通过遍历查找的方式删除终端历史数据中的重复数据，得到无重复数据的终端历史数据；

S3、根据AP聚类算法对无重复数据的终端历史数据进行聚合分类，得到分类结果和异常数据；

S4、删除异常数据，并将分类结果作为无异常终端历史数据分类结果；

S5、对无异常终端历史数据分类结果中的重合数据进行离散化去重处理，得到待时间处理历史数据；

S6、对待时间处理历史数据进行时间线剔除处理，并将时间线剔除处理结果和待存储冻结数据存入数据服务中心。

本发明的有益效果为：本发明提供的一种基于AP聚类算法的终端历史数据维护方法，不仅剔除了存储的终端历史数据中的重复数据和异常数据，还对存储的高信息重合度数据进行了离散化去重处理，最终根据待存储冻结数据需求的存储空间数据条数进行时间线剔除处理，基于本发明提供的终端历史数据维护方，不仅能够有效提高实时数据存储能力，也显著提高了对过期历史数据的维护效果。

进一步地，所述S2包括如下步骤：

S21、获取终端历史数据中的历史冻结数据；

S22、根据冻结时间先后顺序，对历史冻结数据进行排序，得到重复数据相邻排序的排序冻结数据；

S23、获取排序冻结数据中的第一条数据，并作为目标数据；

S24、遍历目标数据后依次相邻的预设遍历条数的数据，并逐条判断是否与目标数据相重复，若是则进入S25，否则进入S26；

S25、将与目标数据相重复的数据依次删除，并更新排序冻结数据，进入S26；

S26、将目标数据的下一条数据作为新的目标数据；

S27、重复S24-S26，直至冻结数据中的最后一条数据均作为目标数据，进入S28，其中，针对目标数据后依次相邻的数据条数不足预设遍历条数时，则将目标数据后依次相邻的数据条数作为预设遍历条数；

S28、将排序冻结数据作为无重复数据的终端历史数据。

采用上述进一步方案的有益效果为：本发明提供了通过遍历查找的方式删除终端历史数据中的重复数据的方法，通过遍历时间排序依次相邻的有限条数据，对历史冻结数据实现了去重处理。

进一步地，所述S3包括如下步骤：

S31、根据AP聚类算法，将无重复数据的终端历史数据中的所有冻结数据均作为候选聚类中心，并基于候选聚类中心构成全连接图；

S32、基于全连接图，初始化相似度矩阵、归属信息矩阵和吸引信息矩阵；

S33、设置迭代更新次数阈值和衰减系数；

S34、基于衰减系数、相似度矩阵和归属信息矩阵构建吸引信息迭代模型，并基于衰减系数和吸引信息矩阵构建归属信息迭代模型；

S35、基于吸引信息迭代模型和归属信息迭代模型分别对吸引度值和归属度值对应进行若干次迭代更新，得到候选聚类中心的累计吸引度和累计归属度；

S36、判断当前迭代次数是否达到迭代更新次数阈值，若是则进入S37，否则返回S35；

S37、对每次迭代更新后的候选聚类中心的累计吸引度和累计归属度求和，并将求和结果作为候选聚类比重，得到若干候选聚类中心的若干候选聚类比重；

S38、基于各候选聚类中心的各候选聚类比重进行聚合分类，得到分类结果和异常数据。

采用上述进一步方案的有益效果为：本发明提供了根据AP聚类算法对重复数据的终端历史数据进行聚合分类的方法，通过将无重复数据的终端历史数据中的所有冻结数据都作为候选聚类中心，并构建全连接图，对各数据点间的相似度、归属度和吸引度进行迭代更新，实现了数据聚合分类，并筛选出了异常数据。

进一步地，所述S35中吸引信息迭代模型的计算表达式如下：

r_t+1(i,k)＝s(i,k)-max{a_t(i,k′)+s(i,k′)}

r_t+1(i,k)←(1-λ)*r_t+1(i,k)+λr_t(i,k)

其中，r_t+1(i,k)表示第t+1次迭代更新时第i个数据点发送给作为候选聚类中心的第k个数据点的吸引度值，s(i,k)表示第i个数据点和第k个数据点间的相似度，max{}表示取最大值，a_t(i,k′)表示第t次迭代更新时除作为候选聚类中心的第k个数据点外的其他候选聚类中心数据点发送给第i个数据点的归属度值，s(i,k′)表示除第k个数据点外的其他数据点与第i个数据点间的相似度，其中，a_t(i,k′)的初始值为0，λ表示衰减系数，r_t(i,k)表示第t次迭代更新时第i个数据点发送给作为候选聚类中心的第k个数据点的吸引度值，←表示赋值。

采用上述进一步方案的有益效果为：本发明提供吸引信息迭代模型的计算方法，通过吸引信息迭代模型对每一次数据点间的吸引度迭代更新提供计算方法，且为累计吸引度和侯勋聚类比重的求取提供基础。

进一步地，所述S35中归属信息迭代模型的计算表达式如下：

a_t+1(i,k)←(1-λ)*a_t+1(i,k)+λa_t(i,k)

其中，a_t+1(i,k)表示第t+1次迭代更新时作为候选聚类中心的第k个数据点发送给第i个数据点的归属度值，min{}表示取最小值，r_t(k,k)表示第t次迭代更新时第k个数据点发送给作为候选聚类中心的第k个数据点的吸引度值，表示对不属于第i个数据点和第k个数据点构成的集合内的数据点的运算结果求和，r_t(i′,k)表示第t次迭代更新时作为候选聚类中心的第k个数据点发送给除第i个数据点外的其他数据点的吸引度值，a_t+1(k,k)表示第t+1次迭代更新时作为候选聚类中心的第k个数据点发送给第k个数据点的归属度值，a_t(i,k)表示第t次迭代更新时作为候选聚类中心的第k个数据点发送给第i个数据点的归属度值。

采用上述进一步方案的有益效果为：本发明提供归属信息迭代模型的计算方法，通过归属信息迭代模型对每一次数据点间的归属度迭代更新提供计算方法，且为累计吸引度和侯勋聚类比重的求取提供基础。

进一步地，所述S38包括如下步骤：

S381、基于各候选聚类中心的各候选聚类比重，分别获取各候选聚类中心的候选聚类比重最大值；

S382、将候选聚类中心的候选聚类比重最大值大于预设聚类阈值的数据点作为聚类中心；

S383、获取聚类中心得到候选聚类比重最大值时对应的数据点，并对获取的数据点和聚类中心进行聚合分类，得到分类结果；

S384、将候选聚类中心的候选聚类比重最大值小于预设聚类比重阈值的数据点作为异常数据点，并将异常数据点对应的终端历史数据中的冻结数据作为异常数据。

采用上述进一步方案的有益效果为：本发明提供各候选聚类中心的各候选聚类比重进行聚合分类的方法，通过候选聚类比重最大值与预设聚类阈值间的比较，确定出异常数据，并基于迭代更新过程中的候选聚类比重最大值，保障数据点间相似度最高的数据点间进行聚合分类，得到分类结果，有效筛选处理原终端历史数据中的错误数据或噪声数据。

进一步地，所述S381中各候选聚类中心的候选聚类比重最大值的计算表达式如下：

其中，表示作为候选聚类中心的第k个数据点的候选聚类比重最大值，表示对作为候选聚类中心的第k个数据点的运算结果取最大值，/>表示作为候选聚类中心的第k个数据点的累计归属度，/>表示作为候选聚类中心的第k个数据点的累计吸引度。

采用上述进一步方案的有益效果为：本发明提供各候选聚类中心的候选聚类比重最大值的计算方法，为数据点作为聚类中心的能力进行了量化，保障了数据的有效聚合分类，也为通过量化聚合能力筛选出异常数据提供了基础。

进一步地，所述S5包括如下步骤：

S51、根据无异常终端历史数据分类结果，从第一个数据类别开始，依次查找与相邻数据类别的重合区域，其中，重合区域内的数据为重合数据；

S52、针对与下一相邻数据类别存在重合区域时，则根据依次删除一个数据再保留一个数据的处理方式，对重合区域内的重合数据进行离散化处理，得到第一离散化数据；

S53、针对与下一相邻数据类别不存在重合区域时，则连接相邻数据类别的聚类中心，并根据依次删除一个数据再保留一个数据的处理方式，对该聚类中心连接线上或两侧周围的数据进行离散化处理，得到第二离散化数据，其中，删除的数据作为重合数据；

S54、针对所有数据类别都通过离散化处理时，则基于第一离散化数据和第二离散化数据，得到待时间处理历史数据。

采用上述进一步方案的有益效果为：本发明提供了对无异常终端历史数据分类结果中的重合数据进行离散化去重处理的方法，实现了对聚合分类的分类结果中重合度高的数据有效剔除，为待存储冻结数据有效存入和有效提高实时数据存储能力提供了基础，也实现了对过期历史数据的进一步有效维护。

进一步地，所述S6包括如下步骤：

S61、获取待存储冻结数据的数据条数；

S62、获取重复数据、异常数据和重合数据的总条数，并作为维护处理数据条数；

S63、判断待存储冻结数据的数据条数是否大于维护处理数据条数，若是则进入S64，否则进入S66；

S64、将待存储冻结数据的数据条数减去维护处理数据条数，得到需求数据存储空间条数α；

S65、根据存储时间先后顺序，将待时间处理历史数据进行排序，并将排序结果的前α条数据删除，得到时间线剔除处理结果，并进入S67；

S66、将待时间处理历史数据直接作为时间线剔除处理结果；

S67、将时间线剔除处理结果和待存储冻结数据存入数据服务中心。

采用上述进一步方案的有益效果为：本发明提供了对待时间处理历史数据进行时间线剔除处理的方法，实现了根据待存储冻结数据需求的存储空间数据条数，有选择性的进行时间线剔除处理，保障了终端历史数据维护的效果，提升了终端历史数据的可利用率和存有率。

针对于本发明还具有的其他优势将在后续的实施例中进行更细致的分析。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中一种基于AP聚类算法的终端历史数据维护方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

终端在正常工作状态下，冻结抄表各关联项数据时，会持续产生分钟冻结、小时冻结、日冻结、月冻结、年冻结数据，由于长时间工作，数据量会以指数级增长，对数据存储中心造成了巨大压力，因此需要对集中的终端历史数据进行删除维护，保证最新数据的正常存储，而历史数据如何删除维护在此过程中也显得尤为重要。

如图1所示，在本发明的一个实施例中，本发明提供一种基于AP聚类算法的终端历史数据维护方法，包括如下步骤：

S1、获取终端历史数据；本实施例中的终端历史数据为计量数据

所述S2包括如下步骤：

S21、获取终端历史数据中的历史冻结数据；

S23、获取排序冻结数据中的第一条数据，并作为目标数据；

S24、遍历目标数据后依次相邻的预设遍历条数的数据，并逐条判断是否与目标数据相重复，若是则进入S25，否则进入S26；本实施例中，遍历数据的预设条数为10条；

S26、将目标数据的下一条数据作为新的目标数据；

S28、将排序冻结数据作为无重复数据的终端历史数据。

AP聚类算法通过迭代更新不断进行消息的搜索和传递，逐渐产生高质量的聚类中心集合，然后根据各个数据点分配最近的聚类中心，形成最终的聚类结果。同一个分类结果内的冻结数据对象相似性尽可能大，不在同一类中的数据对象的差异性尽可能地大。聚类处理后若存在不属于任何一个类的数据，此数据为异常点，需进行剔除操作，增加数据准确性及存储空间。另外，聚类处理后，各个相邻类会存在重合部分或距离靠近部分，若存在重合部分，对重合区域数据离散化剔除，若无重合区域，对距离靠近的类中数据做离散化剔除处理。

所述S3包括如下步骤：

S33、设置迭代更新次数阈值和衰减系数；本实施例中，迭代更新次数阈值可根据实际情况进行设置，衰减系数通常取0.5；

所述S35中吸引信息迭代模型的计算表达式如下：

r_t+1(i,k)＝s(i,k)-max{a_t(i,k′)+s(i,k′)}

r_t+1(i,k)←(1-λ)*r_t+1(i,k)+λr_t(i,k)

其中，r_t+1(i,k)表示第t+1次迭代更新时第i个数据点发送给作为候选聚类中心的第k个数据点的吸引度值，s(i,k)表示第i个数据点和第k个数据点间的相似度，max{}表示取最大值，a_t(i,k′)表示第t次迭代更新时除作为候选聚类中心的第k个数据点外的其他候选聚类中心数据点发送给第i个数据点的归属度值，s(i,k′)表示除第k个数据点外的其他数据点与第i个数据点间的相似度，其中，a_t(i,k′)的初始值为0，λ表示衰减系数，r_t(i,k)表示第t次迭代更新时第i个数据点发送给作为候选聚类中心的第k个数据点的吸引度值，←表示赋值；

所述S35中归属信息迭代模型的计算表达式如下：

a_t+1(i,k)←(1-λ)*a_t+1(i,k)+λa_t(i,k)

S38、基于各候选聚类中心的各候选聚类比重进行聚合分类，得到分类结果和异常数据；

所述S38包括如下步骤：

所述S381中各候选聚类中心的候选聚类比重最大值的计算表达式如下：

达到迭代次数后，已完成分类处理，此时，大部分数据点已找到聚类中心，但也存在极少数数据点未找到，未找到归属类别的数据点，泽为噪声数据点或异常数据点，本实施例中将异常数据作删除处理，保证了数据的存储空间。

所述S5包括如下步骤：

所述S6包括如下步骤：

S61、获取待存储冻结数据的数据条数；

S66、将待时间处理历史数据直接作为时间线剔除处理结果；

本发明优先剔除错误数据及信息度重合高数据，保证数据存储的高利用率，能够提高终端数据交互、处理信息效率，本发明实现的高信息度数据存储能够用于电能质量统计分析及其他业务统计的需求，做到数据的物尽其用。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于AP聚类算法的终端历史数据维护方法，其特征在于，包括如下步骤：

S1、获取终端历史数据；

2.根据权利要求1所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S2包括如下步骤：

S21、获取终端历史数据中的历史冻结数据；

S23、获取排序冻结数据中的第一条数据，并作为目标数据；

S26、将目标数据的下一条数据作为新的目标数据；

S28、将排序冻结数据作为无重复数据的终端历史数据。

3.根据权利要求1所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S3包括如下步骤：

S33、设置迭代更新次数阈值和衰减系数；

4.根据权利要求3所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S35中吸引信息迭代模型的计算表达式如下：

r_t+1(i,k)＝s(i,k)-max{a_t(i,k′)+s(i,k′)}

r_t+1(i,k)←(1-λ)*r_t+1(i,k)+λr_t(i,k)

5.根据权利要求4所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S35中归属信息迭代模型的计算表达式如下：

a_t+1(i,k)←(1-λ)*a_t+1(i,k)+λa_t(i,k)

6.根据权利要求3所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S38包括如下步骤：

7.根据权利要求6所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S381中各候选聚类中心的候选聚类比重最大值的计算表达式如下：

其中，表示作为候选聚类中心的第k个数据点的候选聚类比重最大值，/>表示对作为候选聚类中心的第k个数据点的运算结果取最大值，/>表示作为候选聚类中心的第k个数据点的累计归属度，/>表示作为候选聚类中心的第k个数据点的累计吸引度。

8.根据权利要求6所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S5包括如下步骤：

9.根据权利要求5所述的基于AP聚类算法的终端历史数据维护方法，其特征在于，所述S6包括如下步骤：

S61、获取待存储冻结数据的数据条数；

S66、将待时间处理历史数据直接作为时间线剔除处理结果；