CN111597510B - 一种输变电运检数据质量评估方法及系统 - Google Patents

一种输变电运检数据质量评估方法及系统 Download PDF

Info

Publication number
CN111597510B
CN111597510B CN202010429698.4A CN202010429698A CN111597510B CN 111597510 B CN111597510 B CN 111597510B CN 202010429698 A CN202010429698 A CN 202010429698A CN 111597510 B CN111597510 B CN 111597510B
Authority
CN
China
Prior art keywords
data
monitoring
establishing
points
power transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010429698.4A
Other languages
English (en)
Other versions
CN111597510A (zh
Inventor
秦佳峰
杨祎
辜超
白德盟
崔其会
郑文杰
林颖
李程启
刘萌
吕学宾
黄锐
吕俊涛
陈令英
周超
李龙龙
孙景文
李�杰
高建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010429698.4A priority Critical patent/CN111597510B/zh
Publication of CN111597510A publication Critical patent/CN111597510A/zh
Application granted granted Critical
Publication of CN111597510B publication Critical patent/CN111597510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Optimization (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Mathematics (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明为了现有技术中存在的问题,创新提出了一种输变电运检数据质量评估方法,从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型,用于评价输变电设备运检数据质量;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性评估模型,本发明还提出了一种输变电运检数据质量评估系统,有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。

Description

一种输变电运检数据质量评估方法及系统
技术领域
本发明涉及数据质量评估领域,尤其是涉及一种输变电运检数据质量评估方法及系统。
背景技术
随着电网规模快速发展,电网容量正在持续扩大,输变电设备运检数据量呈指数级增长,庞大的设备数量和有限的人力之间的矛盾会越来越大,传统的以人工获取信息为主的工作方式已不能适应电网设备智能化运检的发展要求,亟需智能感知技术手段提高保证数据准确性、完整性以及工作效率。
在大数据时代下,输变电设备运检数据具有多样性、丰富性的特点,海量的数据为输变电设备状态评估提供了数据支撑,但同时也对传统的数据管理、数据质量模式提出了更高的要求。如何建立数据质量评估模型,提高输变电设备运检数据的质量,对设备状态评估意义重大。
现有技术中的数据质量评估模型一方面,对于数据质量的评价指标较为单一,无法从多个方面进行数据质量的评价;另一方面,数据质量评价指标并不能反映数据的信息量、完整性以及准确性,对于数据质量的评价,不够全面,不利于输变电设备运检数据质量的综合评估。
发明内容
本发明为了解决现有技术中存在的问题,创新提出了一种输变电运检数据质量评估方法及系统,有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。
本发明第一方面提供了一种输变电运检数据质量评估方法,包括:
获取输变电设备运检数据;
针对获取的输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估;
其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性评估模型。
结合第一方面,在第一方面第一种可能的实现方式中,基于无效比建立数据有效性评估模型具体是:
基于无效比建立数据有效性评估模型:
Figure BDA0002500082150000021
其中,Score1为数据有效性得分,αinv为数据无效比,表达式为:
Figure BDA0002500082150000022
无效点为输变电设备监测数据中某项记录数据中全部为0或者某项记录数据中存在小于0的数据,有效点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,θ1为第一曲线斜率参数。
结合第一方面,在第一方面第二种可能的实现方式中,基于重复率建立数据冗余度评估模型具体是:
基于重复率建立数据冗余度评估模型:
Figure BDA0002500082150000031
其中,Score2为数据冗余度得分,αry为数据重复率,表达式为:
Figure BDA0002500082150000032
重复记录为输变电设备监测数据中多项连续记录数据完全相同或者多项记录数据中记录时间完全相同,有效记录为为输变电设备监测数据中多项连续记录数据不完全相同或者多项记录数据中记录时间不完全相同,θ2为第二曲线斜率参数。
结合第一方面,在第一方面第三种可能的实现方式中,基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括:
基于逻辑斯蒂增长模型建立数据信息量评估模型:
Figure BDA0002500082150000033
其中,Score3为数据信息量得分,c为第三曲线第一斜率参数,r1为第三曲线第二斜率参数,avgI为平均信息量,表达式为:
Figure BDA0002500082150000034
其中,V为第一数据集,I(x)为数据点x的信息量。
进一步地,所述I(x)表达式具体为:I(x)=-log2p(x),其中,p(x)为监测时间天数t对应的数据点x出现的概率,表达式为:
Figure BDA0002500082150000035
数据点xi对应于归一化处理后的数据点x,ui为正态分布的监测时间天数为ti对应的数据点xi的均值,σi为正态分布的监测时间天数为ti对应的数据点xi的标准差,
Figure BDA0002500082150000041
Figure BDA0002500082150000042
(xi-1,ti-1)和(xi+1,ti+1)分别为距离(xi,ti)最近的前后两个有效监测点,neighbor(xi)表示[ti-3,ti+3]时间段内有效监测点的集合,μnei为neighbor(xi)中所有数据点的均值,mi为[ti-3,ti+3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|,validdata表示所有有效监测点的集合,其中,有效监测点为所在数据点没有重复监测记录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。
进一步地,基于相对缺失信息量建立数据完整性评估模型具体包括:
基于相对缺失信息量建立数据完整性评估模型:
Figure BDA0002500082150000043
其中,Score4为数据完整性评估得分,r2为第四曲线斜率参数,relI为相对缺失信息量,表达式为,
Figure BDA0002500082150000051
I(xi)为数据点xi的信息量,miss为数据缺失点的集合,validdata表示所有有效监测点的集合,I(Ti)为Ti时刻的信息量。
进一步地,Ti时刻的信息量I(Ti)表达式为:I(Ti)=-log2p(Ti),其中,p(Ti)为Ti时刻对应的数据点xi出现的概率,其表达式为:
Figure BDA0002500082150000052
ui为正态分布的Ti时刻对应的数据点xi的均值,σi为正态分布的Ti时刻对应的数据点xi的标准差,
Figure BDA0002500082150000053
Figure BDA0002500082150000054
,(xi-1,Ti-1)和(xi+1,Ti+1)分别为距离(xi,Ti)最近的前后两个有效监测点,neighbor(Ti)表示
Figure BDA0002500082150000055
时间段内有效监测点的集合,μnei为neighbor(Ti)中所有数据点的均值或所有有效监测点的均值,mi
Figure BDA0002500082150000056
时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|。
结合第一方面,在第一方面第四种可能的实现方式中,基于加权局部因子算法以及异常度建立准确性评估模型具体包括:
基于异常度建立准确性评估模型:
Score5=max(0,5-abn(D)),
其中,abn(D)为异常度,公式为:
Figure BDA0002500082150000061
D为第二数据集,n为第二数据集D中有效数据点的数量,有效数据点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,li为通过加权局部异常因子算法识别的错误数据分别对应的wolf值。
进一步地,通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为:
构建第一距离公式:k-dist(p)=max{d(p,o)|o∈k-neighborp},
其中,p的k-距离表示k-neighborp中的数据点到p的最大距离,d(p,o)为数据点p到数据点o的欧式距离,k-neighborp为距离数据点p最近的k个数据点的集合,数据点p与数据点o均同属于第二数据集D;
根据第一距离公式构建集合公式:
Neik(p)={o∈D\{p}d(p,o)≤k-dist(p)};
其中,Neik(p)为数据点p的k-邻域,具体为除数据点p外所有到数据点o的距离小于等于k-dist(p)的数据点的集合;
根据第一距离公式构建第二距离公式:
reach-dist(p,o)=max{d(p,o),k-dist(o)};
其中,reach-dist(p,o)为数据点p到数据点o的k-可达距离;
根据第一距离公式、第二距离公式、集合公式构建密度公式:
Figure BDA0002500082150000071
其中,wlrdk(p)为数据点p的k-局部可达密度,w(o)表示Neik(p)中数据点o的所有重复数据点的个数,将数据点p的k-局部可达密度变换为:
Figure BDA0002500082150000072
基于k-局部可达密度,数据点p的wlof值是:
Figure BDA0002500082150000073
其中|Neik(p)|表示集合Neik(p)中点的个数。
本发明第二方面提供了一种输变电运检数据质量评估系统,包括:
获取模块,获取输变电设备运检数据;
评估模型建立模块,针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估,其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性模型。
本发明采用的技术方案包括以下技术效果:
1、本发明有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。
2、本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型,用于评价输变电设备运检数据质量,提高了评估的可靠性以及全面性。
3、本发明技术方案一方面可以为数据清洗前后进行比较评估,可以得到数据质量得分平均提升率,另一方面也可以方便发现数据采集过程中存在的问题。
4、本发明可以基于Hadoop平台实现自动化、可配置数据质量评估,在数据清洗和预处理之后,针对原数据和预处理后数据,进行自动化的数据质量评估,可以通过软件进行一键式操作,可以得到详细的质量评估五维指标得分,为输变电运检数据质量评估提供可靠、全面的参考。
应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方案中实施例一方法的流程示意图;
图2为本发明方案中实施例一中无效数据示例图;
图3为本发明方案中实施例一中无效比和有效性得分的关系示意图;
图4为本发明方案中实施例一中重复记录一示意图;
图5为本发明方案中实施例一中重复记录另一示意图;
图6为本发明方案中实施例一中重复率与冗余度得分的关系示意图;
图7为本发明方案中实施例一中C2H6含量示意图;
图8为本发明方案中实施例一中平均信息量与信息量得分的关系示意图;
图9为本发明方案中实施例一中相对缺失信息量与完整性得分的关系示意图;
图10为本发明方案中实施例一中异常度与准确性得分的关系示意图;
图11为本发明方案中实施例一中输变电设备运检数据质量评估示意图;
图12为本发明方案中实施例一中数据质量评估雷达示意图;
图13为本发明方案中实施例一中某主变设备在线监测数据质量评估结果示意图;
图14为本发明方案中实施例一中某主变设备运行数据质量评估结果示意图;
图15为本发明方案中实施例二系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例一
如图1所示,本发明提供了一种输变电运检数据质量评估方法,包括:
S1,获取输变电设备运检数据;
S2,针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估。
其中,在步骤S1中,本发明中输变电设备运检数据可以是通过计算机软件获取,也可以是通过其他方式获取,本发明在此不做限制。本发明中输变电设备运检数据主要是针对输变电设备中的运行以及监测数据进行质量评估,对于其他数据也具有一定的参考意义。
在步骤S2中,其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性评估模型。
基于无效比建立数据有效性评估模型具体是:
基于无效比建立数据有效性评估模型:
Figure BDA0002500082150000111
其中,Score1为数据有效性得分,αinv为数据无效比,表达式为:
Figure BDA0002500082150000112
无效点为输变电设备监测数据中某项记录数据中全部为0或者某项记录数据中存在小于0的数据,有效点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,θ1为第一曲线斜率参数。
数据集中常存在一些无效数据,对于变电设备的在线监测数据而言,一条记录中所有气体的数据全为零,如图2所示,那么该条记录就是无效的,或者对于其中某一类气体,当其数值小于0或出现-9999时,也可认为是无效数据。这些无效数据的存在会对数据分析产生干扰,因此对数据有效性的评估是一个重要的质量评估指标。
本发明实施例中有效性这项指标上的总分是5,也可以根据实际情况进行灵活调整总分以及指标参数即可,本发明在此不做限制。第一曲线斜率参数θ1和曲线斜率有关。θ1越大,随着无效比的增大,得分下降得越快。因此θ1的选择方式可以是通过专家打分,给出几组关于(无效比,得分)的数据点(αinv1,Score11),(αinv2,Score12),……,(αinvk,Score1k),再用最小二乘拟合的方法找到θ1数值。一般的,对于变压器在线监测数据而言,取θ1=1即可。无效比和有效性得分的关系如图3所示。
在步骤S2中,基于重复率建立数据冗余度评估模型具体是:
基于重复率建立数据冗余度评估模型:
Figure BDA0002500082150000121
其中,Score2为数据冗余度得分,αry为数据重复率,表达式为:
Figure BDA0002500082150000122
重复记录为输变电设备监测数据中多项连续记录数据完全相同或者多项记录数据中记录时间完全相同,有效记录为为输变电设备监测数据中多项连续记录数据不完全相同或者多项记录数据中记录时间不完全相同,θ2为第二曲线斜率参数。
冗余指的是数据中包含一些重复记录,如图4所示,某设备的在线监测数据的各种气体含量在连续的几条记录上完全相同,或者如图5所示,各条记录的时间完全相同。这些重复记录浪费了大量的存储空间,也会干扰后续的数据分析,因此数据的冗余度也是质量评估的一个重要指标。
同有效性类似,冗余度的得分也应该与重复率成反比。重复率越高,表明数据质量越差,冗余度的得分也越低;反之,重复率越低,数据质量越高,冗余度的得分也越高。本发明实施例中冗余度这项指标上的总分是5,也可以根据实际情况进行灵活调整总分以及指标参数即可,本发明在此不做限制。第一曲线斜率参数θ2和曲线斜率有关。θ2越大,随着无效比的增大,得分下降得越快。
因此θ2的选择方式可以是通过专家打分,给出几组关于(重复率,得分)的数据点(αry1,Score21),(αry2,Score22),……,(αryk,Score2k),再用最小二乘拟合的方法找到θ2数值。一般的,对于变压器在线监测数据而言,取θ2=0.2即可。重复率和冗余度得分的关系如下图6所示。
基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括:
由于信息增长效应与人口增长效应类似,因此可用逻辑斯蒂增长模型来描述平均信息量与得分的关系:基于逻辑斯蒂增长模型建立数据信息量评估模型:
Figure BDA0002500082150000131
其中,Score3为数据信息量得分,c为第三曲线第一斜率参数,r1为第三曲线第二斜率参数,avgI为平均信息量,表达式为:
Figure BDA0002500082150000132
其中,V为第一数据集,I(x)为数据点x的信息量。本发明实施例中信息量这项指标上的总分是5,也可以根据实际情况进行灵活调整总分以及指标参数即可,本发明在此不做限制。其中c和r1均为参数,因此c的选择方式可以是通过专家打分,给出几组关于(平均信息量,得分)的数据点(c1,Score31),(c2,Score32),……,(ck,Score3k),再用最小二乘拟合的方法找到c数值;r1的选择方式可以是通过专家打分,给出几组关于(平均信息量,得分)的数据点(r11,Score31),(r12,Score32),……,(r1k,Score3k),再用最小二乘拟合的方法找到r1数值。一般的,对于在线监测数据,可令c=0.5,r1=1.5,则平均信息量与信息量得分的关系大致符合下图7中的曲线。
I(x)表达式具体为:I(x)=-log2p(x),其中,p(x)为监测时间天数t对应的数据点x出现的概率,表达式为:
Figure BDA0002500082150000141
数据点xi对应于归一化处理后的数据点x,ui为正态分布的监测时间天数为ti对应的数据点xi的均值,σi为正态分布的监测时间天数为ti对应的数据点xi的标准差,
Figure BDA0002500082150000142
Figure BDA0002500082150000143
(xi-1,ti-1)和(xi+1,ti+1)分别为距离(xi,ti)最近的前后两个有效监测点,neighbor(xi)表示[ti-3,ti+3]时间段内有效监测点的集合,μnei为neighbor(xi)中所有数据点的均值,mi为[ti-3,ti+3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|,validdata表示所有有效监测点的集合,其中,有效监测点为所在数据点没有重复监测记录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。
数据是信息的一种表现形式,每一个数据点中都蕴含着一定的信息。以图7中C2H6数据为例,在大部分时间里C2H6的含量都是0,仅在少数几天中,C2H6的含量大于0。数值为0的点虽然也表达了C2H6的状态,但是蕴含的信息较少,而那些非0的数据点则蕴含着较多的信息。更极端的,如果C2H6的含量全为0,那么数据集中包含的信息就更加有限。
信息奠基人香农(Shannon)认为,“信息是用来消除随机不确定性的东西”,这也就是说数据消除的不确定性越大,其包含的信息就越多。在图7中C2H6数据的例子中,由于0频繁且连续出现,因此C2H6含量为0是一个大概率事件,那么根据香农的理论,数据0消除的不确定性就较少,其包含的信息也较少。另一方面,由于出现这些非零值的概率较小,这些非零值的出现就消除了很大的不确定性,因此其中包含着较多的信息。
一个全为0的数据集由于包含较少的信息,对后续的数据分析几乎没有帮助,但如果我们对一个上下波动的数据集做分析就可能得到有用的结论。因此,一个数据集包含的信息的多少也是衡量数据质量的重要标准。我们希望找到一个对信息的度量,以表征数据集所含信息的多少,从而给予信息量大的数据集一个更高的评分。
首先,基于香农的理论,可以给出信息量I(x)的一个量化公式:
I(x)=-log2p(x)
其中,p(x)为点x出现的概率。对于无效数据点,直接将I(x)置为0,因此我们只需对每个有效数据点x估计p(x)。
先对有效数据点x进行归一化处理,即令
Figure BDA0002500082150000151
其中μvalid为所有有效数据的均值。
基于本发明实施例得到的信息量I(x)具有如下几条性质:
(i)I(x)≥0,即信息量不会出现负值。
(ii)I(xi)=0当且仅当[ti-3,ti+3]时间段内的有效观测点数量大于等于4,且这些有效观测点数值都相等。也就是说,如果在xi的最近一周内,超过4天都有记录,且这些记录都等于xi,则认为xi的信息量为0.
(iii)一般的,若xi与xj波动程度类似,xi的最近一周内存在缺失点,xj的最近一周内没有缺失点,则I(xi)>I(xj)。直观上,由于可通过xi估计缺失点的值,因此xi中包含着部分缺失点的信息,所以在波动程度类似的情况下,xi处的信息量应当要大于xj处的信息量。
(iv)I(x)与数据集的波动程度有很大的关系,一般而言,波动越剧烈的数据集,I(x)越大。
在步骤S2中,基于相对缺失信息量建立数据完整性评估模型具体包括:
基于相对缺失信息量建立数据完整性评估模型:
Figure BDA0002500082150000161
其中,Score4为数据完整性评估得分,r2为第四曲线斜率参数,relI为相对缺失信息量,表达式为,
Figure BDA0002500082150000162
I(xi)为数据点xi的信息量,miss为数据缺失点的集合,validdata表示所有有效监测点的集合,I(Ti)为Ti时刻的信息量。本发明实施例中完整性这项指标上的总分是5,也可以根据实际情况进行灵活调整总分以及指标参数即可,本发明在此不做限制。因此r2的选择方式可以是通过专家打分,给出几组关于(相对缺失信息量,得分)的数据点(r21,Score41),(r22,Score42),……,(r2k,Score4k),再用最小二乘拟合的方法找到r2数值。一般的,对于在线监测数据,可令r2=10,相应的相对缺失信息量与完整性得分的关系如图9所示。
Ti时刻的信息量I(Ti)表达式为:I(Ti)=-log2p(Ti),其中,p(Ti)为Ti时刻对应的数据点xi出现的概率,其表达式为:
Figure BDA0002500082150000171
ui为正态分布的Ti时刻对应的数据点xi的均值,σi为正态分布的Ti时刻对应的数据点xi的标准差,
Figure BDA0002500082150000172
Figure BDA0002500082150000173
,(xi-1,Ti-1)和(xi+1,Ti+1)分别为距离(xi,Ti)最近的前后两个有效监测点,neighbor(Ti)表示
Figure BDA0002500082150000174
时间段内有效监测点的集合,μnei为neighbor(Ti)中所有数据点的均值或所有有效监测点的均值,mi
Figure BDA0002500082150000175
时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|。
完整性指的是数据中是否存在缺失的情况,这也是数据质量评估的一个重要指标。评价完整性的一个比较简单的指标是:
Figure BDA0002500082150000181
但是缺失率无法很好的区分连续分布的缺失点和零散分布的缺失点对数据质量的影响。实际上,零散分布的缺失点用插值方法就能得到很好的修复效果,但是对于连续分布的缺失点,修复的难度就要大得多,因此在缺失点数量相同的情况下,缺失点连续分布的数据集的数据质量要低于缺失点零散分布的数据集。
基于这种考虑,可以利用上面对信息量的定义,估计缺失点本该具有的信息量,这个值越大,就表明缺失对于数据质量的影响越大。
基于本发明实施例得到的信息量I(Ti)具有如下几条性质:
(i)I(Ti)≥0,即缺失点的信息量不会出现负值。
(ii)I(Ti)=0当且仅当
Figure BDA0002500082150000182
时间段内的有效观测点数量大于等于4,且这些有效观测点数值都相等。也就是说,如果以Ti为中心的一周内,超过4天有有效观测点,且观测值都等于某一数值v,那么认为缺失时间处的数据也是数值v,由于这个数据的信息量为0,因此该缺失点没有损失信息量。
(iii)若
Figure BDA0002500082150000183
时间段内无有效观测点,即数据连续缺失一周,
Figure BDA0002500082150000184
时间段内只有Tj时刻的数据缺失,则有I(Ti)>I(Tj),即连续缺失时缺失点损失的信息量要大于单个缺失时缺失点损失的信息量。
在步骤S2中,基于加权局部因子算法以及异常度建立准确性评估模型具体包括:
基于异常度建立准确性评估模型:
Score5=max(0,5-abn(D)),
其中,abn(D)为异常度,公式为:
Figure BDA0002500082150000191
D为第二数据集,n为第二数据集D中有效数据点的数量,有效数据点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,li为通过加权局部异常因子算法识别的错误数据分别对应的wolf值。在异常度的定义中,分子是对min(50,li)求和而不是对li求和,这样做是为了避免极端异常值对异常度的贡献过大。
由于错误数据的wlof值与其偏离正常数据的程度正相关,因此对一个有效数据点数量不变的数据集来说,这样定义的异常度会随着错误数据的数量以及偏离正常数据程度的增大而增大。
一般的,可认为异常度与准确性得分线性相关,异常度越大,准确性得分越低,具体关系如图10所示。
通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为:
构建第一距离公式:k-dist(p)=max{d(p,o)|o∈k-neighborp},
其中,p的k-距离表示k-neighborp中的数据点到p的最大距离,d(p,o)为数据点p到数据点o的欧式距离,k-neighborp为距离数据点p最近的k个数据点的集合,数据点p与数据点o均同属于第二数据集D;
根据第一距离公式构建集合公式:
Neik(p)={o∈D\{p}d(p,o)≤k-dist(p)};
其中,Neik(p)为数据点p的k-邻域,具体为除数据点p外所有到数据点o的距离小于等于k-dist(p)的数据点的集合;
根据第一距离公式构建第二距离公式:
reach-dist(p,o)=max{d(p,o),k-dist(o)};
其中,reach-dist(p,o)为数据点p到数据点o的k-可达距离;为了使相似局部密度的点拥有相似的局部异常因子,减小随机性的影响,我们引入了k-可达距离的概念。
根据第一距离公式、第二距离公式、集合公式构建密度公式:
Figure BDA0002500082150000201
其中,wlrdk(p)为数据点p的k-局部可达密度,w(o)表示Neik(p)中数据点o的所有重复数据点的个数,将数据点p的k-局部可达密度变换为:
Figure BDA0002500082150000202
分母是点p到其k-邻域中点o的k-可达距离的加权平均,用这个加权平均后的距离的倒数表示点p的局部密度。
基于k-局部可达密度,数据点p的wlof值是:
Figure BDA0002500082150000211
其中|Neik(p)|表示集合Neik(p)中点的个数,可以得出,点p的wlof值是Neik(p)中点的k-局部可达密度与点o的k-局部可达密度的比值的平均。
加权局部异常因子算法(Weighted Local Outlier Factor,WLOF)是基于局部异常因子(Local OutlierFactor,LOF)的思想给出的。实际获得的数据由于测量精度有限等问题,常存在同一数据点多次出现的情况。经典的LOF算法处理这类问题时可能会导致计算出错,因此考虑引入权重因子,利用加权局部异常因子来识别数据中的异常点,从而适应数据中可能存在重复点的情况。
综合上述五个评价指标,构建数据质量评估工具,用于评价输变电设备运检数据质量。同时分别对经过清洗后的数据和原始数据进行质量评估,对在线监测数据清洗前后的整体数据质量评估结果如下表1,对气象数据清洗前后的整体数据质量数据质量评估结果如下表2,对运行数据清洗前后的整体数据质量评估结果如下表3。
表1在线监测数据整体质量评估结果
Figure BDA0002500082150000212
Figure BDA0002500082150000221
表2气象数据整体质量评估结果
Figure BDA0002500082150000222
表3运行数据整体质量评估结果
Figure BDA0002500082150000223
上述三个表格分别统计了原始数据五个评价指标的平均得分,以及经过清洗后的数据五个评价指标的平均得分,并计算了数据质量得分平均提升率。具体的输变电设备运检数据预处理及质量评估流程图如图11所示。
根据质量评估五维指标,可以构建自动化的运检数据质量评估,在对原始数据完成清洗预处理后,将清洗前和清洗后的数据可以分别读入软件中,只需要单击运行按钮,便能实现一键式操作,得到详细的质量评估五维指标得分。
下面将清洗完毕的数据并进行数据质量评估,将清洗前的数据和清洗完毕的数据分别读入软件中,并单击运行,软件将自动评估数据质量,按照“有效性、冗余度、信息量、完整性、准确性”五维指标评价数据质量,最后结果以雷达图的形式呈现,如图12所示。
以某主变设备的在线监测油色谱数据为例,通过数据质量评估软件得到质量评估五维指标,如图13;某主变设备的运行数据,各项数据质量指标如图14。
本发明有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。
本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型,用于评价输变电设备运检数据质量,提高了评估的可靠性以及全面性。
本发明技术方案一方面可以为数据清洗前后进行比较评估,可以得到数据质量得分平均提升率,另一方面也可以方便发现数据采集过程中存在的问题。
本发明可以基于Hadoop平台实现自动化、可配置数据质量评估,在数据清洗和预处理之后,针对原数据和预处理后数据,进行自动化的数据质量评估,可以通过软件进行一键式操作,可以得到详细的质量评估五维指标得分,为输变电运检数据质量评估提供可靠、全面的参考。
实施例二
如图15所示,本发明技术方案还提供了一种输变电运检数据质量评估系统,包括:
获取模块101,获取输变电设备运检数据;
评估模型建立模块102,针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估,其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性模型。
本发明有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变电设备运检数据质量的综合评估效果以及评估可靠性。
本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型,用于评价输变电设备运检数据质量,提高了评估的可靠性以及全面性。
本发明技术方案一方面可以为数据清洗前后进行比较评估,可以得到数据质量得分平均提升率,另一方面也可以方便发现数据采集过程中存在的问题。
本发明可以基于Hadoop平台实现自动化、可配置数据质量评估,在数据清洗和预处理之后,针对原数据和预处理后数据,进行自动化的数据质量评估,可以通过软件进行一键式操作,可以得到详细的质量评估五维指标得分,为输变电运检数据质量评估提供可靠、全面的参考。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种输变电运检数据质量评估方法,其特征是,包括:
获取输变电设备运检数据;
针对获取的输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估;
其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括:
基于逻辑斯蒂增长模型建立数据信息量评估模型:
Figure FDA0004069772920000011
其中,Score3为数据信息量得分,c为第三曲线第一斜率参数,r1为第三曲线第二斜率参数,avgI为平均信息量,表达式为:
Figure FDA0004069772920000012
其中,V为第一数据集,I(x)为数据点x的信息量;
所述I(x)表达式具体为:I(x)=-log2p(x),其中,p(x)为监测时间天数t对应的数据点x出现的概率,表达式为:
Figure FDA0004069772920000013
数据点xi对应于归一化处理后的数据点x,ui为正态分布的监测时间天数为ti对应的数据点xi的均值,σi为正态分布的监测时间天数为ti对应的数据点xi的标准差,
Figure FDA0004069772920000021
Figure FDA0004069772920000022
(xi-1,ti-1)和(xi+1,ti+1)分别为距离(xi,ti)最近的前后两个有效监测点,neighbor(xi)表示[ti-3,ti+3]时间段内有效监测点的集合,μnei为neighbor(xi)中所有数据点的均值,mi为[ti-3,ti+3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|,validdata表示所有有效监测点的集合,其中,有效监测点为所在数据点没有重复监测记录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。
2.根据权利要求1所述的输变电运检数据质量评估方法,其特征是,基于无效比建立数据有效性评估模型具体是:
基于无效比建立数据有效性评估模型:
Figure FDA0004069772920000023
其中,Score1为数据有效性得分,αinv为数据无效比,表达式为:
Figure FDA0004069772920000024
无效点为输变电设备监测数据中某项记录数据中全部为0或者某项记录数据中存在小于0的数据,有效点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,θ1为第一曲线斜率参数。
3.根据权利要求1所述的输变电运检数据质量评估方法,其特征是,基于重复率建立数据冗余度评估模型具体是:
基于重复率建立数据冗余度评估模型:
Figure FDA0004069772920000031
其中,Score2为数据冗余度得分,αry为数据重复率,表达式为:
Figure FDA0004069772920000032
重复记录为输变电设备监测数据中多项连续记录数据完全相同或者多项记录数据中记录时间完全相同,有效记录为为输变电设备监测数据中多项连续记录数据不完全相同或者多项记录数据中记录时间不完全相同,θ2为第二曲线斜率参数。
4.根据权利要求1所述的输变电运检数据质量评估方法,其特征是,基于相对缺失信息量建立数据完整性评估模型具体包括:
基于相对缺失信息量建立数据完整性评估模型:
Figure FDA0004069772920000033
其中,Score4为数据完整性评估得分,r2为第四曲线斜率参数,relI为相对缺失信息量,表达式为,
Figure FDA0004069772920000034
I(xi)为数据点xi的信息量,miss为数据缺失点的集合,validdata表示所有有效监测点的集合,I(Ti)为Ti时刻的信息量。
5.根据权利要求4所述的输变电运检数据质量评估方法,其特征是,Ti时刻的信息量I(Ti)表达式为:I(Ti)=-log2p(Ti),其中,p(Ti)为Ti时刻对应的数据点xi出现的概率,其表达式为:
Figure FDA0004069772920000041
ui为正态分布的Ti时刻对应的数据点xi的均值,σi为正态分布的Ti时刻对应的数据点xi的标准差,
Figure FDA0004069772920000042
Figure FDA0004069772920000043
(xi-1,Ti-1)和(xi+1,Ti+1)分别为距离(xi,Ti)最近的前后两个有效监测点,neighbor(Ti)表示[Ti-3,Ti+3]时间段内有效监测点的集合,μnei为neighbor(Ti)中所有数据点的均值或所有有效监测点的均值,mi为[Ti-3,Ti+3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|。
6.根据权利要求1所述的输变电运检数据质量评估方法,其特征是,基于加权局部因子算法以及异常度建立准确性评估模型具体包括:
基于异常度建立准确性评估模型:
Score5=max(0,5-abn(D)),
其中,abn(D)为异常度,公式为:
Figure FDA0004069772920000051
D为第二数据集,n为第二数据集D中有效数据点的数量,有效数据点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,li为通过加权局部异常因子算法识别的错误数据分别对应的wolf值。
7.根据权利要求6所述的输变电运检数据质量评估方法,其特征是,通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体为:
构建第一距离公式:
Figure FDA0004069772920000052
其中,p的k-距离表示k-neighborp中的数据点到p的最大距离,d(p,o)为数据点p到数据点o的欧式距离,k-neighborp为距离数据点p最近的k个数据点的集合,数据点p与数据点o均同属于第二数据集D;
根据第一距离公式构建集合公式:
Neik(p)={o∈D\{p}|d(p,o)≤k-dist(p)};
其中,Neik(p)为数据点p的k-邻域,具体为除数据点p外所有到数据点o的距离小于等于k-dist(p)的数据点的集合;
根据第一距离公式构建第二距离公式:
reach-dist(p,o)=max{d(p,o),k-dist(o)};
其中,reach-dist(p,o)为数据点p到数据点o的k-可达距离;
根据第一距离公式、第二距离公式、集合公式构建密度公式:
Figure FDA0004069772920000061
其中,wlrdk(p)为数据点p的k-局部可达密度,w(o)表示Neik(p)中数据点o的所有重复数据点的个数,将数据点p的k-局部可达密度变换为:
Figure FDA0004069772920000062
基于k-局部可达密度,数据点p的wlof值是:
Figure FDA0004069772920000063
其中|Neik(p)|表示集合Neik(p)中点的个数。
8.一种输变电运检数据质量评估系统,其特征是,包括:
获取模块,获取输变电设备运检数据;
评估模型建立模块,针对获取输变电设备运检数据分别从多个维度建立评估模型进行数据质量的评估,其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法以及异常度建立准确性模型;基于逻辑斯蒂增长模型建立数据信息量评估模型具体包括:
基于逻辑斯蒂增长模型建立数据信息量评估模型:
Figure FDA0004069772920000071
其中,Score3为数据信息量得分,c为第三曲线第一斜率参数,r1为第三曲线第二斜率参数,avgI为平均信息量,表达式为:
Figure FDA0004069772920000072
其中,V为第一数据集,I(x)为数据点x的信息量;
所述I(x)表达式具体为:I(x)=-log2p(x),其中,p(x)为监测时间天数t对应的数据点x出现的概率,表达式为:
Figure FDA0004069772920000073
数据点xi对应于归一化处理后的数据点x,ui为正态分布的监测时间天数为ti对应的数据点xi的均值,σi为正态分布的监测时间天数为ti对应的数据点xi的标准差,
Figure FDA0004069772920000074
Figure FDA0004069772920000075
(xi-1,ti-1)和(xi+1,ti+1)分别为距离(xi,ti)最近的前后两个有效监测点,neighbor(xi)表示[ti-3,ti+3]时间段内有效监测点的集合,μnei为neighbor(xi)中所有数据点的均值,mi为[ti-3,ti+3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|,validdata表示所有有效监测点的集合,其中,有效监测点为所在数据点没有重复监测记录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。
CN202010429698.4A 2020-05-20 2020-05-20 一种输变电运检数据质量评估方法及系统 Active CN111597510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010429698.4A CN111597510B (zh) 2020-05-20 2020-05-20 一种输变电运检数据质量评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010429698.4A CN111597510B (zh) 2020-05-20 2020-05-20 一种输变电运检数据质量评估方法及系统

Publications (2)

Publication Number Publication Date
CN111597510A CN111597510A (zh) 2020-08-28
CN111597510B true CN111597510B (zh) 2023-04-21

Family

ID=72187511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429698.4A Active CN111597510B (zh) 2020-05-20 2020-05-20 一种输变电运检数据质量评估方法及系统

Country Status (1)

Country Link
CN (1) CN111597510B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056576B (zh) * 2023-10-13 2024-04-05 太极计算机股份有限公司 一种基于大数据平台的数据质量灵活验证方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135390A (zh) * 2014-08-15 2014-11-05 华中电网有限公司 一种新的电力通信系统可靠性分析算法
CN107368957A (zh) * 2017-07-04 2017-11-21 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测体系的构建方法
CN107491381A (zh) * 2017-07-04 2017-12-19 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测系统
CN108229784A (zh) * 2017-11-09 2018-06-29 中国电力科学研究院有限公司 一种智能配电网的多维数据质量评价方法及系统
CN110363829A (zh) * 2019-07-16 2019-10-22 中国人民解放军66389部队 光缆线路数据的雷达图模型构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135390A (zh) * 2014-08-15 2014-11-05 华中电网有限公司 一种新的电力通信系统可靠性分析算法
CN107368957A (zh) * 2017-07-04 2017-11-21 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测体系的构建方法
CN107491381A (zh) * 2017-07-04 2017-12-19 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测系统
CN108229784A (zh) * 2017-11-09 2018-06-29 中国电力科学研究院有限公司 一种智能配电网的多维数据质量评价方法及系统
CN110363829A (zh) * 2019-07-16 2019-10-22 中国人民解放军66389部队 光缆线路数据的雷达图模型构建方法

Also Published As

Publication number Publication date
CN111597510A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111080502B (zh) 一种区域企业数据异常行为的大数据识别方法
US9921936B2 (en) Method and system for IT resources performance analysis
Lu et al. An MDL approach to the climate segmentation problem
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN110990393A (zh) 一种行业企业数据异常行为的大数据识别方法
CN117235649A (zh) 一种基于大数据的工业设备状态智能监测系统及方法
CN108306997B (zh) 域名解析监控方法及装置
CN116862081B (zh) 一种污染治理设备运维方法及系统
CN111597510B (zh) 一种输变电运检数据质量评估方法及系统
Gursel et al. Using artificial intelligence to detect human errors in nuclear power plants: A case in operation and maintenance
CN114648235A (zh) 一种基于数据画像的工业数据质量量化分析报告生成方法
CN112882898B (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN116860562B (zh) 一种用于数据中台数据质量的监控方法及系统
CN116862109A (zh) 一种区域碳排放态势感知预警方法
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN116166927A (zh) 一种在线人数异常检测方法、装置及存储介质
CN114518988B (zh) 资源容量系统及其控制方法和计算机可读存储介质
CN116224950A (zh) 面向无人生产线自组织重构的智能故障诊断方法和系统
CN111445132B (zh) 数据处理方法、数据处理系统及计算机存储介质
CN111612302A (zh) 一种集团级数据管理方法和设备
CN117932520B (zh) 基于数据识别的固体生物废物处理设备监测方法
CN117574180B (zh) 燃料生产排放系统数据关联性控制管理系统
CN114912846B (zh) 在线学习的综合能源客户价值挖掘能效评估方法和装置
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant