CN109376944A

CN109376944A - 智能电表预测模型的构建方法及装置

Info

Publication number: CN109376944A
Application number: CN201811344624.XA
Authority: CN
Inventors: 樊博; 黄吉涛; 梁飞; 周媛奉; 胡婷婷
Original assignee: Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-02-22

Abstract

本发明提供了一种智能电表预测模型的构建方法及装置，涉及智能电表的技术领域，能够获取表征智能电表特征的特征数据集，以及，统计该特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；并在待预测特征类型对应的数据量与预先设置的样本数不一致时，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；进而利用训练数据集对智能电表预测模型进行训练，以实现对待预测特征类型进行预测，有效缓解了人工分析数据的过程中，操作复杂，费时费力且效率低的问题。

Description

智能电表预测模型的构建方法及装置

技术领域

本发明涉及智能电表技术领域，尤其是涉及一种智能电表预测模型的构建方法及装置。

背景技术

近年来，各大电力公司已逐步建成省级计量自动化系统，而截至2014年，已累积安装智能电表2.2亿只。如此庞大数量的智能电表一旦出现故障，直接影响到用户的切身利益和社会的安全稳定，因此及时预测出智能电表故障和使用寿命对其维修或更换是十分重要的。

随着智能电表在我国的普及，其所记载的数据量也呈爆发式增长，由于智能电表特征的特征数据集存在复杂性，非结构化以及数据样本不均衡的问题，目前大多数是基于人工对采集到的数据进行分析预测智能电表的故障和使用寿命，在整个人工分析数据的过程中，不仅操作复杂、费时费力而且效率极低。

发明内容

有鉴于此，本发明的目的在于提供一种智能电表预测模型的构建方法及装置，以缓解上述技术问题。

第一方面，本发明实施例提供了一种智能电表预测模型的构建方法，其中，该方法包括：获取表征智能电表特征的特征数据集；其中，特征数据集包括故障特征数据集和/或寿命特征数据集，故障特征数据集包括多个智能电表的故障特征数据，寿命特征数据集包括多个智能电表的寿命特征数据；统计特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；判断待预测特征类型对应的数据量是否与预先设置的样本数一致；如果否，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，判断待预测特征类型对应的数据量是否与预先设置的样本数一致的步骤包括：如果判断出待预测特征类型对应的数据量大于预先设置的第一样本阈值，或者待预测特征类型对应的数据量小于预先设置的第二样本阈值，确定待预测特征类型对应的数据量与预先设置的样本数不一致，其中，第一样本阈值大于第二样本阈值。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，如果判断出待预测特征类型对应的数据量大于预先设置的第一样本阈值，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理的步骤包括：采用欠采样算法对待预测特征类型对应的数据量进行采样处理，以对待预测特征类型对应的数据量进行减缩。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，欠采样算法为K均值聚类欠采样算法，该欠采样算法包括：随机选取待预测特征类型对应的数据量中的K个点作为聚类中心点，计算待预测特征类型对应的数据量中每个样本到各个聚类中心点的欧式距离，欧式距离表示为：

其中，i＝[1,2...P]，j＝[1,2...K]，i≠j，P为待预测特征类型对应的数据量，C为每个样本的特征数量，MD_i(n_i,n_j)表示第i样本n_i和第j聚类中心点间的欧式距离；n_i,k表示第i样本的第k个特征，n_j,k表示第j聚类中心点的第k个特征；

将每个样本划分至欧氏距离最近的聚类中心点所在的类；分别迭代计算每个聚类中心点所在的类的中心点，查找每个类的代表样本，以获取K个样本，对待预测特征类型对应的数据量进行减缩。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，如果判断出待预测特征类型对应的数据量小于预先设置的第二样本阈值，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理的步骤包括：采用过采样算法对待预测特征类型对应的数据量进行采样处理，以对待预测特征类型对应的数据量进行扩展。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，过采样算法为加权SMOTE采样算法，过采样算法包括：计算待预测特征类型对应的数据量中任意两个样本之间的欧式距离，任意两个样本之间的欧式距离为；

其中，i＝[1,2...T]，j＝[1,2...T]，i≠j；T为待预测特征类型对应的数据量，C为每个样本的特征数量；ED_i(m_i,m_j)表示第i样本m_i和第j样本m_j的欧式距离；

计算待预测特征类型对应的数据量中任意样本到其它样本间的欧式距离之和ED_i，并得到矩阵ED；

对矩阵ED进行归一化，得到归一化的矩阵NED；

其中，ED_min表示ED中的最小值，ED_max表示ED中的最大值；

对归一化的矩阵NED进行重构，得到矩阵RNED；

RNED＝[RNED]_T×1＝abs(Mean(NED)-[NED]_T×1)；

其中，Mean()表示求平均值；abs()表示求绝对值；

计算待预测特征类型对应的数据量中每个样本的权重，得到权重矩阵WM；

其中，sum()表示求和；

根据计算预测特征类型对应的数据量中任意两个样本之间的欧式距离，得到预测特征类型对应的数据量中每个样本的k近邻，从k近邻中随机选取N个样本，计算新的生成样本为；

m_new＝m+rand(0,1)*|m-m_n|；

其中，m_n表示从k近邻中随机选取N个样本中的一个样本，rand(0,1)表示是0和1之间的随机数；

待预测特征类型对应的数据量扩展的数量为；

L＝N×T；

计算待预测特征类型对应的数据量中每个样本的扩展样本数量为V；

V＝[V]_T×1＝Round(WM×L,0)；

其中，Round()表示求四舍五入。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述方法还包括：如果判断待预测特征类型对应的数据量与预先设置的样本数一致，将待预测特征类型对应的数据量作为训练数据集，利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，在利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测之后，该方法还包括：从待预测特征类型对应的数据量中选取部分样本作为测试样本，利用测试样本对智能电表预测模型进行评价。

结合第一方面的第七种可能的实施方式，本发明实施例提供了第一方面的第八种可能的实施方式，其中，利用测试样本对智能电表预测模型进行评价的步骤包括：将测试样本输入智能电表预测模型中，得到待预测特征类型的预测结果；将预测结果与测试样本中对应的待预测特征类型标记数据进行计算，得到预测正确率的比值；通过预测正确率的比值对智能电表预测模型进行评价。

第二方面，本发明实施例还提供了一种智能电表预测模型的构建装置，其中，该装置包括：获取模块，用于获取表征智能电表特征的特征数据集；其中，特征数据集包括故障特征数据集和/或寿命特征数据集，故障特征数据集包括多个智能电表的故障特征数据，寿命特征数据集包括多个智能电表的寿命特征数据；统计模块，用于统计特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；判断模块，用于判断待预测特征类型对应的数据量是否与预先设置的样本数一致；采样处理模块，用于如果待预测特征类型对应的数据量与预先设置的样本数不一致，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；训练模块，用于利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种智能电表预测模型的构建方法及装置，能够获取表征智能电表特征的特征数据集，以及，统计该特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；并在待预测特征类型对应的数据量与预先设置的样本数不一致时，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；进而利用训练数据集对智能电表预测模型进行训练，以实现对待预测特征类型进行预测，有效缓解了人工分析数据的过程中，操作复杂，费时费力且效率低的问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种智能电表预测模型的构建方法的流程图；

图2为本发明实施例提供的一种加权SMOTE过采样算法计算结果示意图；

图3为本发明实施例提供的一种构建智能电表预测模型流程示意图；

图4为本发明实施例提供的一种智能电表预测模型的构建装置的结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着国家电网建设的深入推进，“大营销”推广的用电信息采集系统建设已具规模，特别是智能电表已获得大范围的推广应用。智能电网已经成为世界各国能源发展战略，而智能电表是建设智能电网中必要设备之一，随着科技的发展，智能电表在增加电子元器件使其更加智能、更加便捷的同时，也导致智能电表结构更加复杂，引发的故障也随之增加。目前，在智能电表故障和使用寿命研究方面，多基于人工对采集到的数据进行分析进而预测智能电表在使用过程中的故障和使用寿命，在整个人工分析数据的过程中，不仅操作复杂、费时费力而且效率极低。基于此，本发明实施例提供的一种智能电表预测模型的构建方法及装置，可以实现对智能电表故障和使用寿命的快速预测，有效缓解了上述技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种智能电表预测模型的构建方法进行详细介绍。

实施例一：

本发明实施例提供了一种智能电表预测模型的构建方法，如图1所示的一种智能电表预测模型的构建方法的流程图，该方法包括以下步骤：

步骤S102，获取表征智能电表特征的特征数据集；其中，特征数据集包括故障特征数据集和/或寿命特征数据集，故障特征数据集包括多个智能电表的故障特征数据，寿命特征数据集包括多个智能电表的寿命特征数据。

通常，故障特征数据中可以包括多个表征智能电表的特征数据，如，智能电表的属性和参数，以及存在的故障等，具体地，可以包括：一级供电单位名称、二级供电单位名称、到货批次、电能表的接线方式、电压、厂家、标定电流、有功准确度等级、脉冲常数、接入方式、继电器接点、电测量显示、失压判断、失流判断、逆相序判断、超功率、负荷曲线、停电抄表、红外抄表、电表波特率、卡表跳闸方式、计度器方式以及智能电表使用时间等特征属性；而表征智能电表寿命的特征包括上述表征智能电表的特征数据中除了智能电表使用时间这一特征属性之外的其它特征属性。

步骤S104，统计特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量。

具体实现时，为了能够更好的训练模型得到更准确的预测结果，首先需要对特征数据集中待预测特征类型和每个待预测特征类型对应的数据量进行统计，以预测智能电表的故障类型为例进行说明，通过对7036只电表进行统计，可以得到智能电表发生时钟单元故障的数据量是6554，而发生通信单元故障的数据量是482，根据智能电表故障样本的数据量可以将智能电表发生时钟单元故障这一故障类型归为多数类，而将发生通信单元故障这一故障类型归为少数类。各取两类数据量的80％作为训练模型的数据，其中时钟单元故障的数据量为5243，通信单元故障的数据量为385。

同时，将每个样本进行故障标记，例如，智能电表发生时钟单元故障的样本用1进行标记，智能电表发生通信单元故障的样本用0进行标记。

步骤S106，判断待预测特征类型对应的数据量是否与预先设置的样本数一致。

步骤S108，如果否，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集。

通常，在对待预测特征类型对应的数据量进行统计之后，需要判断待预测特征类型对应的数据量与之前预先设置的样本数是否一致，如果判断出待预测特征类型对应的数据量大于预先设置的第一样本阈值，或者待预测特征类型对应的数据量小于预先设置的第二样本阈值，确定待预测特征类型对应的数据量与预先设置的样本数不一致，其中，第一样本阈值大于第二样本阈值。这时，第一样本阈值和第二样本阈值构成一个范围，当待预测特征类型对应的数据量在这个范围内，则确定待预测特征类型对应的数据量与预先设置的样本数一致。有时也设置成第一样本阈值等于第二样本阈值，这时如果待预测特征类型对应的数据量大于或者小于预先设置的阈值，都可以确定待预测特征类型对应的数据量与预先设置的样本数不一致。例如，预先设置两类故障的样本数为2500时，而统计出的智能电表发生时钟单元故障的数据量为5243，发生通信单元故障的数据量为385，因此待预测特征类型对应的数据量与预先设置的样本数不一致，需要按照预先设置的样本数对发生时钟单元故障和发生通信单元故障的数据量进行采样处理，生成与预先设置的2500个样本数一致的训练数据集。在对样本进行采样处理之前，需要对样本数据进行数字化和归一化的处理，例如，在统计厂家这一特征属性中共有3个不同的厂家，把这3个不同的厂家分别标志成1、2、3，在利用归一化方法进行归一化处理，用同样的方法对其它特征属性数据进行处理，但是对特征属性数据是数值型的不在进行数字化处理，只进行归一化处理。具体对样本数据进行数字化和归一化的处理的方法，本发明实施例对此不进行限制。

步骤S110，利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

其中，该智能电表预测模型通常是通过随机森林算法构建的智能电表预测模型，可以利用上述经过采样处理之后的训练数据集对该智能电表预测模型进行训练，以实现对智能电表故障的准确预测。

具体地，随机森林是利用多棵决策树对样本进行训练并预测的一种分类器，首先，从训练数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和训练数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果输入新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。具体构建智能电表预测模型的分类算法可以由用户进行灵活选择，本发明实施例对此不进行限制。

本发明实施例提供的一种智能电表预测模型的构建方法，能够获取表征智能电表特征的特征数据集，以及，统计该特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；并在待预测特征类型对应的数据量与预先设置的样本数不一致时，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；进而利用训练数据集对智能电表预测模型进行训练，以实现对待预测特征类型进行预测，有效缓解了人工分析数据的过程中，操作复杂，费时费力且效率低的问题。

通常，在分类学习方法中如果不同类别的训练样本数量稍有差别，则对于分类的影响不大，如果不同类别的训练样本数量差别很大，则会对学习带来影响，使得测试结果非常差，例如，二分类问题中有998个反例，正例有2个，那么学习方法只需返回一个永远将新样本预测为反例的分类器，就能达到99.8％的精度，然而这样的分类器没有价值。为了避免上述类别不平衡问题，对于数据量较多的数据可以采用欠采样的方式进行采样，达到减少数据量的目的。

因此，对于上述步骤S106，如果判断出待预测特征类型对应的数据量大于预先设置的第一样本阈值，则按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理的步骤包括：采用欠采样算法对待预测特征类型对应的数据量进行采样处理，以对待预测特征类型对应的数据量进行减缩。

进一步，欠采样算法为K均值聚类欠采样算法，该欠采样算法包括：随机选取待预测特征类型对应的数据量中的K个点作为聚类中心点，计算待预测特征类型对应的数据量中每个样本到各个聚类中心点的欧式距离，欧式距离表示为：

具体地，计算待预测特征类型对应的数据量中每个样本到选取出来的各个聚类中心点的欧式距离，把距离聚类中心点的欧式距离最近的样本归为那一类；之后需重新计算每一类的聚类中心点，即重新计算每一类聚类中心点的特征值其中，M_k表示聚类中心点样本的第k个特征，Mean()表示求平均值，n_j,k表示第j聚类中心点的第k个特征；再迭代计算待预测特征类型对应的数据量中每个样本到新的聚类中心点的欧式距离和重新聚类之后的聚类中心点，直至新的聚类中心点和上一次迭代的聚类中心点的距离在预先设置的距离范围内，完成聚类计算，再计算每一类中各样本到该类中心点的欧式距离，选择距离该类聚类中心点最近的一个样本代表该类，这样就能够将多的样本数减缩到与预先设置的样本数相同的数量。利用K均值聚类欠采样算法可以将智能电表发生时钟单元故障的5243个样本减缩到预先设置的2500个样本。

同样地，如果少数类的样本数量很少，那么这个类别所提供的“信息”很少，对于模型的训练来说，没有充分利用该类的样本数据进行训练学习，容易造成测试的结果非常不好。为了解决类别不平衡中少数类的数据量少的问题，可以采用过采样的方式进行采样，达到扩展数据量的目的。

因此，在上述步骤S106中，如果判断出待预测特征类型对应的数据量小于预先设置的第二样本阈值，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理的步骤包括：采用过采样算法对待预测特征类型对应的数据量进行采样处理，以对待预测特征类型对应的数据量进行扩展。

具体地，上述过采样算法为加权SMOTE采样算法，其中，加权SMOTE采样算法为SMOTE采样算法的一种改进。其中，SMOTE采样算法是基于“插值”的思想为少数类合成新的样本，是解决分类问题中的类别不平衡的常用方法。基于加权SMOTE采样算法，本发明实施例提供的过采样算法包括：计算待预测特征类型对应的数据量中任意两个样本之间的欧式距离，任意两个样本之间的欧式距离为；

对矩阵ED进行归一化，得到归一化的矩阵NED；

其中，ED_min表示ED中的最小值，ED_max表示ED中的最大值；

对归一化的矩阵NED进行重构，得到矩阵RNED；

RNED＝[RNED]_T×1＝abs(Mean(NED)-[NED]_T×1)；

其中，Mean()表示求平均值；abs()表示求绝对值；

其中，sum()表示求和；

m_new＝m+rand(0,1)*|m-m_n|；

待预测特征类型对应的数据量扩展的数量为；

L＝N×T；

V＝[V]_T×1＝Round(WM×L,0)；

其中，Round()表示求四舍五入。

具体实现时，基于SMOTE过采样算法使每个样本产生相同数量的新样本，而不能根据每个样本的重要性或者比重产生相应的数据样本，而加权SMOTE过采样算法能够根据计算出的每个样本的权重，使得每个样本可以生成不同数量的新样本，这样产生的新样本能够更好的代表这一类的特征。例如，样本数为5，从每个样本的k近邻中随机选取6个样本，即生成30个新样本，为了便于理解，图2示出了一种加权SMOTE过采样算法计算结果示意图，从图2可知，这5个样本中每个样本到其它样本的欧式距离分别为：2、1、5、3、4，利用加权SMOTE过采样算法计算每个样本的权重分别为：0.167、0.333、0.333、0、0.167，则每个样本生成的新的样本数分别为：5、10、10、0、5。同样地，利用加权SMOTE过采样算法能够根据每个样本的权重产生相应的样本数量，将智能电表发生通信单元故障的385个样本扩展到预先设置的2500个样本。

具体地，如果判断待预测特征类型对应的数据量与预先设置的样本数一致，将待预测特征类型对应的数据量作为训练数据集，利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

通常，在利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测之后，还包括：从待预测特征类型对应的数据量中选取部分样本作为测试样本，利用测试样本对智能电表预测模型进行评价。

进一步，利用测试样本对智能电表预测模型进行评价的步骤包括：将测试样本输入智能电表预测模型中，得到待预测特征类型的预测结果；将预测结果与测试样本中对应的待预测特征类型标记数据进行计算，得到预测正确率的比值；通过预测正确率的比值对智能电表预测模型进行评价。

具体地，当模型训练完成后，为了验证模型的预测准确率需要对该模型进行评价；将模型预测后的故障预测结果和/或寿命预测结果同在测试数据集中标记的数据进行计算，得到模型预测结果的正确率比值，该正确率比值与预先设置的模型正确率阈值相比较，如果正确率比值不低于预先设置的模型正确率阈值，则表示模型的预测准确率较高可直接应用该模型对智能电表的故障和/或寿命进行预测；如果正确率比值低于预先设置的模型正确率阈值，则表示模型的预测准确率较低不能直接应用，需要重新训练模型，直至模型的正确率比值不低于预先设置的模型正确率阈值时，才停止模型训练并应用该模型对智能电表的故障和/或寿命进行预测。例如，在5个故障测试集中标记的结果分别是1、0、0、1、0，预先设置的模型正确率阈值为75％，由训练好的模型预测的故障结果分别是0、0、0、1、0；那么，正确率的比值为4/5(100％)＝80％，由于正确率比值80％要高于预先设置的模型正确率阈值75％，所以该模型可以直接应用于对智能电表的故障进行预测。

在实际使用时，上述智能电表预测模型可以包括故障预测模型和/或寿命预测模型，如果特征数据集包括故障特征数据集时，可以通过故障预测模型预测智能电表的故障，如果特征数据集包括寿命特征数据集时，可以通过寿命预测模型预测智能电表的寿命，而实际使用时，上述特征数据集通常包括故障特征数据集和寿命特征数据集，因此，可以通过该特征数据集中包含的数据预测智能电表的寿命和故障。具体地，如图3示出的一种构建智能电表预测模型流程示意图，以该智能电表特征的特征数据集包括故障特征数据集和寿命特征数据集为例进行说明。

如图3所示，可以从智能电表特征数据集中随机抽取80％的数据量作为训练模型的训练数据集，其中20％的数据量作为测试模型的测试数据集；将训练数据集中的多数类的数据量通过K均值聚类欠采样算法进行减缩，而将训练数据集中的少数类的数据量通过加权SMOTE过采样算法进行扩张，使得多数类和少数类的数据量能够均衡，达到预先设置的样本数；然后，利用采样处理之后的训练样本集基于随机森林算法构建智能电表故障预测模型和寿命预测模型；之后，在利用测试数据集对构建完成的故障预测模型和寿命预测模型进行故障预测和寿命预测，能够得到故障预测结果和寿命预测结果。

实施例二：

在上述实施例的基础上，本发明实施例还提供了一种智能电表预测模型的构建装置，如图4所示的一种智能电表预测模型的构建装置的结构示意图，该装置包括：

获取模块402，用于获取表征智能电表特征的特征数据集；其中，特征数据集包括故障特征数据集和/或寿命特征数据集，故障特征数据集包括多个智能电表的故障特征数据，寿命特征数据集包括多个智能电表的寿命特征数据；

统计模块404，用于统计特征数据集中包含的待预测特征类型，以及每个待预测特征类型对应的数据量；

判断模块406，用于判断待预测特征类型对应的数据量是否与预先设置的样本数一致；

采样处理模块408，用于如果待预测特征类型对应的数据量与预先设置的样本数不一致，按照预先设置的样本数对待预测特征类型对应的数据量进行采样处理，生成与预先设置的样本数一致的训练数据集；

训练模块410，用于利用训练数据集对智能电表预测模型进行训练，以对待预测特征类型进行预测。

本发明实施例提供的智能电表预测模型的构建装置，与上述实施例提供的智能电表预测模型的构建方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应方法，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能电表预测模型的构建方法，其特征在于，所述方法包括：

获取表征智能电表特征的特征数据集；其中，所述特征数据集包括故障特征数据集和/或寿命特征数据集，所述故障特征数据集包括多个智能电表的故障特征数据，所述寿命特征数据集包括多个智能电表的寿命特征数据；

统计所述特征数据集中包含的待预测特征类型，以及每个所述待预测特征类型对应的数据量；

判断所述待预测特征类型对应的数据量是否与预先设置的样本数一致；

如果否，按照所述预先设置的样本数对所述待预测特征类型对应的数据量进行采样处理，生成与所述预先设置的样本数一致的训练数据集；

利用所述训练数据集对智能电表预测模型进行训练，以对所述待预测特征类型进行预测。

2.根据权利要求1所述的方法，其特征在于，所述判断所述待预测特征类型对应的数据量是否与预先设置的样本数一致的步骤包括：

如果判断出所述待预测特征类型对应的数据量大于预先设置的第一样本阈值，或者所述待预测特征类型对应的数据量小于预先设置的第二样本阈值，确定所述待预测特征类型对应的数据量与预先设置的样本数不一致，其中，所述第一样本阈值大于所述第二样本阈值。

3.根据权利要求2所述的方法，其特征在于，如果判断出所述待预测特征类型对应的数据量大于预先设置的第一样本阈值，所述按照所述预先设置的样本数对所述待预测特征类型对应的数据量进行采样处理的步骤包括：

采用欠采样算法对所述待预测特征类型对应的数据量进行采样处理，以对所述待预测特征类型对应的数据量进行减缩。

4.根据权利要求3所述的方法，其特征在于，所述欠采样算法为K均值聚类欠采样算法，所述欠采样算法包括：

随机选取所述待预测特征类型对应的数据量中的K个点作为聚类中心点，计算所述待预测特征类型对应的数据量中每个样本到各个所述聚类中心点的欧式距离，所述欧式距离表示为：

其中，i＝[1,2...P]，j＝[1,2...K]，i≠j，P为所述待预测特征类型对应的数据量，C为每个所述样本的特征数量，MD_i(n_i,n_j)表示第i样本n_i和第j聚类中心点间的欧式距离；n_i,k表示第i样本的第k个特征，n_j,k表示第j聚类中心点的第k个特征；

将每个所述样本划分至所述欧氏距离最近的所述聚类中心点所在的类；

分别迭代计算每个所述聚类中心点所在的类的中心点，查找每个所述类的代表样本，以获取K个所述样本，对所述待预测特征类型对应的数据量进行减缩。

5.根据权利要求2所述的方法，其特征在于，如果判断出所述待预测特征类型对应的数据量小于预先设置的第二样本阈值，所述按照所述预先设置的样本数对所述待预测特征类型对应的数据量进行采样处理的步骤包括：

采用过采样算法对所述待预测特征类型对应的数据量进行采样处理，以对所述待预测特征类型对应的数据量进行扩展。

6.根据权利要求5所述的方法，其特征在于，所述过采样算法为加权SMOTE采样算法，所述过采样算法包括：

计算所述待预测特征类型对应的数据量中任意两个样本之间的欧式距离，所述任意两个样本之间的欧式距离为；

其中，i＝[1,2...T]，j＝[1,2...T]，i≠j；T为所述待预测特征类型对应的数据量，C为每个所述样本的特征数量；ED_i(m_i,m_j)表示第i样本m_i和第j样本m_j的欧式距离；

计算所述待预测特征类型对应的数据量中任意样本到其它样本间的欧式距离之和ED_i，并得到矩阵ED；

对所述矩阵ED进行归一化，得到归一化的矩阵NED；

其中，ED_min表示ED中的最小值，ED_max表示ED中的最大值；

对所述归一化的矩阵NED进行重构，得到矩阵RNED；

RNED＝[RNED]_T×1＝abs(Mean(NED)-[NED]_T×1)；

其中，Mean()表示求平均值；abs()表示求绝对值；

计算所述待预测特征类型对应的数据量中每个样本的权重，得到权重矩阵WM；

其中，sum()表示求和；

根据计算所述预测特征类型对应的数据量中任意两个样本之间的欧式距离，得到所述预测特征类型对应的数据量中每个样本的k近邻，从所述k近邻中随机选取N个样本，计算新的生成样本为；

m_new＝m+rand(0,1)*|m-m_n|；

其中，m_n表示从所述k近邻中随机选取N个样本中的一个样本，rand(0,1)表示是0和1之间的随机数；

所述待预测特征类型对应的数据量扩展的数量为；

L＝N×T；

计算所述待预测特征类型对应的数据量中每个样本的扩展样本数量为V；

V＝[V]_T×1＝Round(WM×L,0)；

其中，Round()表示求四舍五入。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果判断所述待预测特征类型对应的数据量与预先设置的样本数一致，将所述待预测特征类型对应的数据量作为训练数据集，利用所述训练数据集对智能电表预测模型进行训练，以对所述待预测特征类型进行预测。

8.根据权利要求1所述的方法，特征在于，在所述利用所述训练数据集对智能电表预测模型进行训练，以对所述待预测特征类型进行预测之后，所述方法还包括：

从所述待预测特征类型对应的数据量中选取部分样本作为测试样本，利用所述测试样本对所述智能电表预测模型进行评价。

9.根据权利要求8所述的方法，其特征在于，所述利用所述测试样本对所述智能电表预测模型进行评价的步骤包括：

将所述测试样本输入所述智能电表预测模型中，得到所述待预测特征类型的预测结果；

将所述预测结果与所述测试样本中对应的待预测特征类型标记数据进行计算，得到预测正确率的比值；

通过所述预测正确率的比值对所述智能电表预测模型进行评价。

10.一种智能电表预测模型的构建装置，其特征在于，所述装置包括：

获取模块，用于获取表征智能电表特征的特征数据集；其中，所述特征数据集包括故障特征数据集和/或寿命特征数据集，所述故障特征数据集包括多个智能电表的故障特征数据，所述寿命特征数据集包括多个智能电表的寿命特征数据；

统计模块，用于统计所述特征数据集中包含的待预测特征类型，以及每个所述待预测特征类型对应的数据量；

判断模块，用于判断所述待预测特征类型对应的数据量是否与预先设置的样本数一致；

采样处理模块，用于如果所述待预测特征类型对应的数据量与预先设置的样本数不一致，按照所述预先设置的样本数对所述待预测特征类型对应的数据量进行采样处理，生成与所述预先设置的样本数一致的训练数据集；

训练模块，用于利用所述训练数据集对智能电表预测模型进行训练，以对所述待预测特征类型进行预测。