CN111597510B

CN111597510B - 一种输变电运检数据质量评估方法及系统

Info

Publication number: CN111597510B
Application number: CN202010429698.4A
Authority: CN
Inventors: 秦佳峰; 杨祎; 辜超; 白德盟; 崔其会; 郑文杰; 林颖; 李程启; 刘萌; 吕学宾; 黄锐; 吕俊涛; 陈令英; 周超; 李龙龙; 孙景文; 李�杰; 高建峰
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-04-21
Anticipated expiration: 2040-05-20
Also published as: CN111597510A

Abstract

本发明为了现有技术中存在的问题，创新提出了一种输变电运检数据质量评估方法，从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型，用于评价输变电设备运检数据质量；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性评估模型，本发明还提出了一种输变电运检数据质量评估系统，有效解决由于现有数据质量评价单一、不够全面的问题，有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。

Description

一种输变电运检数据质量评估方法及系统

技术领域

本发明涉及数据质量评估领域，尤其是涉及一种输变电运检数据质量评估方法及系统。

背景技术

随着电网规模快速发展，电网容量正在持续扩大，输变电设备运检数据量呈指数级增长，庞大的设备数量和有限的人力之间的矛盾会越来越大，传统的以人工获取信息为主的工作方式已不能适应电网设备智能化运检的发展要求，亟需智能感知技术手段提高保证数据准确性、完整性以及工作效率。

在大数据时代下，输变电设备运检数据具有多样性、丰富性的特点，海量的数据为输变电设备状态评估提供了数据支撑，但同时也对传统的数据管理、数据质量模式提出了更高的要求。如何建立数据质量评估模型，提高输变电设备运检数据的质量，对设备状态评估意义重大。

现有技术中的数据质量评估模型一方面，对于数据质量的评价指标较为单一，无法从多个方面进行数据质量的评价；另一方面，数据质量评价指标并不能反映数据的信息量、完整性以及准确性，对于数据质量的评价，不够全面，不利于输变电设备运检数据质量的综合评估。

发明内容

本发明为了解决现有技术中存在的问题，创新提出了一种输变电运检数据质量评估方法及系统，有效解决由于现有数据质量评价单一、不够全面的问题，有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。

本发明第一方面提供了一种输变电运检数据质量评估方法，包括：

获取输变电设备运检数据；

针对获取的输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估；

其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性评估模型。

结合第一方面，在第一方面第一种可能的实现方式中，基于无效比建立数据有效性评估模型具体是：

基于无效比建立数据有效性评估模型：

其中，Score1为数据有效性得分，α_inv为数据无效比，表达式为：

无效点为输变电设备监测数据中某项记录数据中全部为0或者某项记录数据中存在小于0的数据，有效点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据，θ₁为第一曲线斜率参数。

结合第一方面，在第一方面第二种可能的实现方式中，基于重复率建立数据冗余度评估模型具体是：

基于重复率建立数据冗余度评估模型：

其中，Score2为数据冗余度得分，α_ry为数据重复率，表达式为：

重复记录为输变电设备监测数据中多项连续记录数据完全相同或者多项记录数据中记录时间完全相同，有效记录为为输变电设备监测数据中多项连续记录数据不完全相同或者多项记录数据中记录时间不完全相同，θ₂为第二曲线斜率参数。

结合第一方面，在第一方面第三种可能的实现方式中，基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括：

基于逻辑斯蒂增长模型建立数据信息量评估模型：

其中，Score3为数据信息量得分，c为第三曲线第一斜率参数，r₁为第三曲线第二斜率参数，avgI为平均信息量，表达式为：

其中，V为第一数据集，I(x)为数据点x的信息量。

进一步地，所述I(x)表达式具体为：I(x)＝-log₂p(x)，其中，p(x)为监测时间天数t对应的数据点x出现的概率，表达式为：

数据点x_i对应于归一化处理后的数据点x，u_i为正态分布的监测时间天数为t_i对应的数据点x_i的均值，σ_i为正态分布的监测时间天数为t_i对应的数据点x_i的标准差，

，

(x_i-1,t_i-1)和(x_i+1,t_i+1)分别为距离(x_i,t_i)最近的前后两个有效监测点，neighbor(x_i)表示[t_i-3,t_i+3]时间段内有效监测点的集合，μ_nei为neighbor(x_i)中所有数据点的均值，m_i为[t_i-3,t_i+3]时间段内没有有效监测点的天数，表达式为m_i＝7-|neighbor(x_i)|，validdata表示所有有效监测点的集合，其中，有效监测点为所在数据点没有重复监测记录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。

进一步地，基于相对缺失信息量建立数据完整性评估模型具体包括：

基于相对缺失信息量建立数据完整性评估模型：

其中，Score4为数据完整性评估得分，r₂为第四曲线斜率参数，relI为相对缺失信息量，表达式为，

I(x_i)为数据点x_i的信息量，miss为数据缺失点的集合，validdata表示所有有效监测点的集合，I(T_i)为T_i时刻的信息量。

进一步地，T_i时刻的信息量I(T_i)表达式为：I(T_i)＝-log₂p(T_i)，其中，p(T_i)为T_i时刻对应的数据点x_i出现的概率，其表达式为：

u_i为正态分布的T_i时刻对应的数据点x_i的均值，σ_i为正态分布的T_i时刻对应的数据点x_i的标准差，

，

，(x_i-1，Ti_-1)和(x_i+1，T_i+1)分别为距离(x_i，T_i)最近的前后两个有效监测点，neighbor(T_i)表示

时间段内有效监测点的集合，μ_nei为neighbor(T_i)中所有数据点的均值或所有有效监测点的均值，m_i为

时间段内没有有效监测点的天数，表达式为m_i＝7-|neighbor(x_i)|。

结合第一方面，在第一方面第四种可能的实现方式中，基于加权局部因子算法以及异常度建立准确性评估模型具体包括：

基于异常度建立准确性评估模型：

Score5＝max(0，5-abn(D))，

其中，abn(D)为异常度，公式为：

D为第二数据集，n为第二数据集D中有效数据点的数量，有效数据点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据，l_i为通过加权局部异常因子算法识别的错误数据分别对应的wolf值。

进一步地，通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为：

构建第一距离公式：k-dist(p)＝max{d(p,o)|o∈k-neighbor_p}，

其中，p的k-距离表示k-neighbor_p中的数据点到p的最大距离，d(p,o)为数据点p到数据点o的欧式距离，k-neighbor_p为距离数据点p最近的k个数据点的集合，数据点p与数据点o均同属于第二数据集D；

根据第一距离公式构建集合公式：

Nei_k(p)＝{o∈D\{p}d(p,o)≤k-dist(p)}；

其中，Nei_k(p)为数据点p的k-邻域，具体为除数据点p外所有到数据点o的距离小于等于k-dist(p)的数据点的集合；

根据第一距离公式构建第二距离公式：

reach-dist(p,o)＝max{d(p,o),k-dist(o)}；

其中，reach-dist(p,o)为数据点p到数据点o的k-可达距离；

根据第一距离公式、第二距离公式、集合公式构建密度公式：

其中，wlrd_k(p)为数据点p的k-局部可达密度，w(o)表示Nei_k(p)中数据点o的所有重复数据点的个数，将数据点p的k-局部可达密度变换为：

基于k-局部可达密度，数据点p的wlof值是：

其中|Nei_k(p)|表示集合Nei_k(p)中点的个数。

本发明第二方面提供了一种输变电运检数据质量评估系统，包括：

获取模块，获取输变电设备运检数据；

评估模型建立模块，针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估，其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性模型。

本发明采用的技术方案包括以下技术效果：

1、本发明有效解决由于现有数据质量评价单一、不够全面的问题，有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。

2、本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型，用于评价输变电设备运检数据质量，提高了评估的可靠性以及全面性。

3、本发明技术方案一方面可以为数据清洗前后进行比较评估，可以得到数据质量得分平均提升率，另一方面也可以方便发现数据采集过程中存在的问题。

4、本发明可以基于Hadoop平台实现自动化、可配置数据质量评估，在数据清洗和预处理之后，针对原数据和预处理后数据，进行自动化的数据质量评估，可以通过软件进行一键式操作，可以得到详细的质量评估五维指标得分，为输变电运检数据质量评估提供可靠、全面的参考。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见的，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方案中实施例一方法的流程示意图；

图2为本发明方案中实施例一中无效数据示例图；

图3为本发明方案中实施例一中无效比和有效性得分的关系示意图；

图4为本发明方案中实施例一中重复记录一示意图；

图5为本发明方案中实施例一中重复记录另一示意图；

图6为本发明方案中实施例一中重复率与冗余度得分的关系示意图；

图7为本发明方案中实施例一中C2H6含量示意图；

图8为本发明方案中实施例一中平均信息量与信息量得分的关系示意图；

图9为本发明方案中实施例一中相对缺失信息量与完整性得分的关系示意图；

图10为本发明方案中实施例一中异常度与准确性得分的关系示意图；

图11为本发明方案中实施例一中输变电设备运检数据质量评估示意图；

图12为本发明方案中实施例一中数据质量评估雷达示意图；

图13为本发明方案中实施例一中某主变设备在线监测数据质量评估结果示意图；

图14为本发明方案中实施例一中某主变设备运行数据质量评估结果示意图；

图15为本发明方案中实施例二系统的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图1所示，本发明提供了一种输变电运检数据质量评估方法，包括：

S1，获取输变电设备运检数据；

S2，针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估。

其中，在步骤S1中，本发明中输变电设备运检数据可以是通过计算机软件获取，也可以是通过其他方式获取，本发明在此不做限制。本发明中输变电设备运检数据主要是针对输变电设备中的运行以及监测数据进行质量评估，对于其他数据也具有一定的参考意义。

在步骤S2中，其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性评估模型。

基于无效比建立数据有效性评估模型具体是：

基于无效比建立数据有效性评估模型：

数据集中常存在一些无效数据，对于变电设备的在线监测数据而言，一条记录中所有气体的数据全为零，如图2所示，那么该条记录就是无效的，或者对于其中某一类气体，当其数值小于0或出现-9999时，也可认为是无效数据。这些无效数据的存在会对数据分析产生干扰，因此对数据有效性的评估是一个重要的质量评估指标。

本发明实施例中有效性这项指标上的总分是5，也可以根据实际情况进行灵活调整总分以及指标参数即可，本发明在此不做限制。第一曲线斜率参数θ₁和曲线斜率有关。θ₁越大，随着无效比的增大，得分下降得越快。因此θ₁的选择方式可以是通过专家打分，给出几组关于(无效比，得分)的数据点(α_inv1，Score1₁)，(α_inv2，Score1₂)，……，(α_invk，Score1_k)，再用最小二乘拟合的方法找到θ₁数值。一般的，对于变压器在线监测数据而言，取θ₁＝1即可。无效比和有效性得分的关系如图3所示。

在步骤S2中，基于重复率建立数据冗余度评估模型具体是：

基于重复率建立数据冗余度评估模型：

冗余指的是数据中包含一些重复记录，如图4所示，某设备的在线监测数据的各种气体含量在连续的几条记录上完全相同，或者如图5所示，各条记录的时间完全相同。这些重复记录浪费了大量的存储空间，也会干扰后续的数据分析，因此数据的冗余度也是质量评估的一个重要指标。

同有效性类似，冗余度的得分也应该与重复率成反比。重复率越高，表明数据质量越差，冗余度的得分也越低；反之，重复率越低，数据质量越高，冗余度的得分也越高。本发明实施例中冗余度这项指标上的总分是5，也可以根据实际情况进行灵活调整总分以及指标参数即可，本发明在此不做限制。第一曲线斜率参数θ₂和曲线斜率有关。θ₂越大，随着无效比的增大，得分下降得越快。

因此θ₂的选择方式可以是通过专家打分，给出几组关于(重复率，得分)的数据点(α_ry1，Score2₁)，(α_ry2，Score2₂)，……，(α_ryk，Score2_k)，再用最小二乘拟合的方法找到θ₂数值。一般的，对于变压器在线监测数据而言，取θ₂＝0.2即可。重复率和冗余度得分的关系如下图6所示。

基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括：

由于信息增长效应与人口增长效应类似，因此可用逻辑斯蒂增长模型来描述平均信息量与得分的关系：基于逻辑斯蒂增长模型建立数据信息量评估模型：

其中，V为第一数据集，I(x)为数据点x的信息量。本发明实施例中信息量这项指标上的总分是5，也可以根据实际情况进行灵活调整总分以及指标参数即可，本发明在此不做限制。其中c和r₁均为参数，因此c的选择方式可以是通过专家打分，给出几组关于(平均信息量，得分)的数据点(c₁，Score3₁)，(c₂，Score3₂)，……，(c_k，Score3_k)，再用最小二乘拟合的方法找到c数值；r₁的选择方式可以是通过专家打分，给出几组关于(平均信息量，得分)的数据点(r₁₁，Score3₁)，(r₁₂，Score3₂)，……，(r_1k，Score3_k)，再用最小二乘拟合的方法找到r₁数值。一般的，对于在线监测数据，可令c＝0.5，r₁＝1.5，则平均信息量与信息量得分的关系大致符合下图7中的曲线。

I(x)表达式具体为：I(x)＝-log₂p(x)，其中，p(x)为监测时间天数t对应的数据点x出现的概率，表达式为：

，

数据是信息的一种表现形式，每一个数据点中都蕴含着一定的信息。以图7中C2H6数据为例，在大部分时间里C2H6的含量都是0，仅在少数几天中，C2H6的含量大于0。数值为0的点虽然也表达了C2H6的状态，但是蕴含的信息较少，而那些非0的数据点则蕴含着较多的信息。更极端的，如果C2H6的含量全为0，那么数据集中包含的信息就更加有限。

信息奠基人香农(Shannon)认为，“信息是用来消除随机不确定性的东西”，这也就是说数据消除的不确定性越大，其包含的信息就越多。在图7中C2H6数据的例子中，由于0频繁且连续出现，因此C2H6含量为0是一个大概率事件，那么根据香农的理论，数据0消除的不确定性就较少，其包含的信息也较少。另一方面，由于出现这些非零值的概率较小，这些非零值的出现就消除了很大的不确定性，因此其中包含着较多的信息。

一个全为0的数据集由于包含较少的信息，对后续的数据分析几乎没有帮助，但如果我们对一个上下波动的数据集做分析就可能得到有用的结论。因此，一个数据集包含的信息的多少也是衡量数据质量的重要标准。我们希望找到一个对信息的度量，以表征数据集所含信息的多少，从而给予信息量大的数据集一个更高的评分。

首先，基于香农的理论，可以给出信息量I(x)的一个量化公式：

I(x)＝-log₂p(x)

其中，p(x)为点x出现的概率。对于无效数据点，直接将I(x)置为0，因此我们只需对每个有效数据点x估计p(x)。

先对有效数据点x进行归一化处理，即令

其中μ_valid为所有有效数据的均值。

基于本发明实施例得到的信息量I(x)具有如下几条性质：

(i)I(x)≥0，即信息量不会出现负值。

(ii)I(x_i)＝0当且仅当[t_i-3,t_i+3]时间段内的有效观测点数量大于等于4，且这些有效观测点数值都相等。也就是说，如果在x_i的最近一周内，超过4天都有记录，且这些记录都等于x_i，则认为x_i的信息量为0.

(iii)一般的，若x_i与x_j波动程度类似，x_i的最近一周内存在缺失点，x_j的最近一周内没有缺失点，则I(x_i)＞I(x_j)。直观上，由于可通过x_i估计缺失点的值，因此x_i中包含着部分缺失点的信息，所以在波动程度类似的情况下，x_i处的信息量应当要大于x_j处的信息量。

(iv)I(x)与数据集的波动程度有很大的关系，一般而言，波动越剧烈的数据集，I(x)越大。

在步骤S2中，基于相对缺失信息量建立数据完整性评估模型具体包括：

基于相对缺失信息量建立数据完整性评估模型：

I(x_i)为数据点x_i的信息量，miss为数据缺失点的集合，validdata表示所有有效监测点的集合，I(T_i)为T_i时刻的信息量。本发明实施例中完整性这项指标上的总分是5，也可以根据实际情况进行灵活调整总分以及指标参数即可，本发明在此不做限制。因此r₂的选择方式可以是通过专家打分，给出几组关于(相对缺失信息量，得分)的数据点(r₂₁，Score4₁)，(r₂₂，Score4₂)，……，(r_2k，Score4_k)，再用最小二乘拟合的方法找到r₂数值。一般的，对于在线监测数据，可令r₂＝10，相应的相对缺失信息量与完整性得分的关系如图9所示。

T_i时刻的信息量I(T_i)表达式为：I(T_i)＝-log₂p(T_i)，其中，p(T_i)为T_i时刻对应的数据点x_i出现的概率，其表达式为：

，

，(x_i-1，T_i-1)和(x_i+1，T_i+1)分别为距离(x_i，T_i)最近的前后两个有效监测点，neighbor(T_i)表示

完整性指的是数据中是否存在缺失的情况，这也是数据质量评估的一个重要指标。评价完整性的一个比较简单的指标是：

但是缺失率无法很好的区分连续分布的缺失点和零散分布的缺失点对数据质量的影响。实际上，零散分布的缺失点用插值方法就能得到很好的修复效果，但是对于连续分布的缺失点，修复的难度就要大得多，因此在缺失点数量相同的情况下，缺失点连续分布的数据集的数据质量要低于缺失点零散分布的数据集。

基于这种考虑，可以利用上面对信息量的定义，估计缺失点本该具有的信息量，这个值越大，就表明缺失对于数据质量的影响越大。

基于本发明实施例得到的信息量I(T_i)具有如下几条性质：

(i)I(T_i)≥0，即缺失点的信息量不会出现负值。

(ii)I(T_i)＝0当且仅当

时间段内的有效观测点数量大于等于4，且这些有效观测点数值都相等。也就是说，如果以T_i为中心的一周内，超过4天有有效观测点，且观测值都等于某一数值v，那么认为缺失时间处的数据也是数值v，由于这个数据的信息量为0，因此该缺失点没有损失信息量。

(iii)若

时间段内无有效观测点，即数据连续缺失一周，

时间段内只有T_j时刻的数据缺失，则有I(T_i)＞I(T_j)，即连续缺失时缺失点损失的信息量要大于单个缺失时缺失点损失的信息量。

在步骤S2中，基于加权局部因子算法以及异常度建立准确性评估模型具体包括：

基于异常度建立准确性评估模型：

Score5＝max(0，5-abn(D))，

其中，abn(D)为异常度，公式为：

D为第二数据集，n为第二数据集D中有效数据点的数量，有效数据点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据，l_i为通过加权局部异常因子算法识别的错误数据分别对应的wolf值。在异常度的定义中，分子是对min(50,l_i)求和而不是对l_i求和，这样做是为了避免极端异常值对异常度的贡献过大。

由于错误数据的wlof值与其偏离正常数据的程度正相关，因此对一个有效数据点数量不变的数据集来说，这样定义的异常度会随着错误数据的数量以及偏离正常数据程度的增大而增大。

一般的，可认为异常度与准确性得分线性相关，异常度越大，准确性得分越低，具体关系如图10所示。

通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为：

构建第一距离公式：k-dist(p)＝max{d(p,o)|o∈k-neighbor_p}，

根据第一距离公式构建集合公式：

Nei_k(p)＝{o∈D\{p}d(p,o)≤k_-dist(p)}；

根据第一距离公式构建第二距离公式：

reach-dist(p,o)＝max{d(p,o),k-dist(o)}；

其中，reach-dist(p,o)为数据点p到数据点o的k-可达距离；为了使相似局部密度的点拥有相似的局部异常因子，减小随机性的影响，我们引入了k-可达距离的概念。

分母是点p到其k-邻域中点o的k-可达距离的加权平均，用这个加权平均后的距离的倒数表示点p的局部密度。

基于k-局部可达密度，数据点p的wlof值是：

其中|Nei_k(p)|表示集合Nei_k(p)中点的个数，可以得出，点p的wlof值是Nei_k(p)中点的k-局部可达密度与点o的k-局部可达密度的比值的平均。

加权局部异常因子算法(Weighted Local Outlier Factor,WLOF)是基于局部异常因子(Local OutlierFactor,LOF)的思想给出的。实际获得的数据由于测量精度有限等问题，常存在同一数据点多次出现的情况。经典的LOF算法处理这类问题时可能会导致计算出错，因此考虑引入权重因子，利用加权局部异常因子来识别数据中的异常点，从而适应数据中可能存在重复点的情况。

综合上述五个评价指标，构建数据质量评估工具，用于评价输变电设备运检数据质量。同时分别对经过清洗后的数据和原始数据进行质量评估，对在线监测数据清洗前后的整体数据质量评估结果如下表1，对气象数据清洗前后的整体数据质量数据质量评估结果如下表2，对运行数据清洗前后的整体数据质量评估结果如下表3。

表1在线监测数据整体质量评估结果

表2气象数据整体质量评估结果

表3运行数据整体质量评估结果

上述三个表格分别统计了原始数据五个评价指标的平均得分，以及经过清洗后的数据五个评价指标的平均得分，并计算了数据质量得分平均提升率。具体的输变电设备运检数据预处理及质量评估流程图如图11所示。

根据质量评估五维指标，可以构建自动化的运检数据质量评估，在对原始数据完成清洗预处理后，将清洗前和清洗后的数据可以分别读入软件中，只需要单击运行按钮，便能实现一键式操作，得到详细的质量评估五维指标得分。

下面将清洗完毕的数据并进行数据质量评估，将清洗前的数据和清洗完毕的数据分别读入软件中，并单击运行，软件将自动评估数据质量，按照“有效性、冗余度、信息量、完整性、准确性”五维指标评价数据质量，最后结果以雷达图的形式呈现，如图12所示。

以某主变设备的在线监测油色谱数据为例，通过数据质量评估软件得到质量评估五维指标，如图13；某主变设备的运行数据，各项数据质量指标如图14。

本发明有效解决由于现有数据质量评价单一、不够全面的问题，有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。

本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型，用于评价输变电设备运检数据质量，提高了评估的可靠性以及全面性。

本发明技术方案一方面可以为数据清洗前后进行比较评估，可以得到数据质量得分平均提升率，另一方面也可以方便发现数据采集过程中存在的问题。

本发明可以基于Hadoop平台实现自动化、可配置数据质量评估，在数据清洗和预处理之后，针对原数据和预处理后数据，进行自动化的数据质量评估，可以通过软件进行一键式操作，可以得到详细的质量评估五维指标得分，为输变电运检数据质量评估提供可靠、全面的参考。

实施例二

如图15所示，本发明技术方案还提供了一种输变电运检数据质量评估系统，包括：

获取模块101，获取输变电设备运检数据；

评估模型建立模块102，针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估，其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种输变电运检数据质量评估方法，其特征是，包括：

获取输变电设备运检数据；

其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括：

基于逻辑斯蒂增长模型建立数据信息量评估模型：

其中，V为第一数据集，I(x)为数据点x的信息量；

所述I(x)表达式具体为：I(x)＝-log₂p(x)，其中，p(x)为监测时间天数t对应的数据点x出现的概率，表达式为：

‘

，

2.根据权利要求1所述的输变电运检数据质量评估方法，其特征是，基于无效比建立数据有效性评估模型具体是：

基于无效比建立数据有效性评估模型：

3.根据权利要求1所述的输变电运检数据质量评估方法，其特征是，基于重复率建立数据冗余度评估模型具体是：

基于重复率建立数据冗余度评估模型：

4.根据权利要求1所述的输变电运检数据质量评估方法，其特征是，基于相对缺失信息量建立数据完整性评估模型具体包括：

基于相对缺失信息量建立数据完整性评估模型：

5.根据权利要求4所述的输变电运检数据质量评估方法，其特征是，T_i时刻的信息量I(T_i)表达式为：I(T_i)＝-log₂p(T_i)，其中，p(T_i)为T_i时刻对应的数据点x_i出现的概率，其表达式为：

，

(x_i-1，T_i-1)和(x_i+1，T_i+1)分别为距离(x_i，T_i)最近的前后两个有效监测点，neighbor(T_i)表示[T_i-3，T_i+3]时间段内有效监测点的集合，μ_nei为neighbor(T_i)中所有数据点的均值或所有有效监测点的均值，m_i为[T_i-3，T_i+3]时间段内没有有效监测点的天数，表达式为m_i＝7-|neighbor(x_i)|。

6.根据权利要求1所述的输变电运检数据质量评估方法，其特征是，基于加权局部因子算法以及异常度建立准确性评估模型具体包括：

基于异常度建立准确性评估模型：

Score5＝max(0，5-abn(D))，

其中，abn(D)为异常度，公式为：

7.根据权利要求6所述的输变电运检数据质量评估方法，其特征是，通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为：

构建第一距离公式：

，

根据第一距离公式构建集合公式：

Nei_k(p)＝{o∈D\{p}|d(p,o)≤k-dist(p)}；

根据第一距离公式构建第二距离公式：

reach-dist(p,o)＝max{d(p,o),k-dist(o)}；

其中，reach-dist(p,o)为数据点p到数据点o的k-可达距离；

基于k-局部可达密度，数据点p的wlof值是：

其中|Nei_k(p)|表示集合Nei_k(p)中点的个数。

8.一种输变电运检数据质量评估系统，其特征是，包括：

获取模块，获取输变电设备运检数据；

评估模型建立模块，针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估，其中，维度包括有效性、冗余度、信息量、完整性以及准确性；基于无效比建立数据有效性评估模型；基于重复率建立数据冗余度评估模型；基于逻辑斯蒂增长模型建立数据信息量评估模型；基于相对缺失信息量建立数据完整性评估模型；基于加权局部因子算法以及异常度建立准确性模型；基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括：

基于逻辑斯蒂增长模型建立数据信息量评估模型：

其中，V为第一数据集，I(x)为数据点x的信息量；

，

，