CN113065764A - 一种电网技改项目造价异常数据筛选方法 - Google Patents

一种电网技改项目造价异常数据筛选方法 Download PDF

Info

Publication number
CN113065764A
CN113065764A CN202110356932.XA CN202110356932A CN113065764A CN 113065764 A CN113065764 A CN 113065764A CN 202110356932 A CN202110356932 A CN 202110356932A CN 113065764 A CN113065764 A CN 113065764A
Authority
CN
China
Prior art keywords
data
screening
technical improvement
sample
improvement project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110356932.XA
Other languages
English (en)
Inventor
王巍
马莉
李智威
苏敏
孙利平
熊川羽
高晓晶
张雪霏
贺兰菲
柯方超
周秋鹏
廖晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Economic and Technological Research Institute of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Economic and Technological Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Economic and Technological Research Institute of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110356932.XA priority Critical patent/CN113065764A/zh
Publication of CN113065764A publication Critical patent/CN113065764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种电网技改项目造价异常数据筛选方法,该方法先收集技改项目造价基础数据样本,再对样本数据进行统计分析以确定其基本分布,然后对统计分析后的样本数据采用T检验筛选出异常数据。本设计采用T检验法在六个维度分析前将技改项目造价异常数据筛选出来,不仅有效提高了后期造价数据分析的效率和质量,而且相较于其它数据筛选方法具有更高的筛选效率以及准确度。

Description

一种电网技改项目造价异常数据筛选方法
技术领域
本发明属于数据处理领域,具体涉及一种电网技改项目造价异常数据筛选方法。
背景技术
随着电网的不断完善,其安全可靠性要求也日益提升,为此,需要推进电网技术改造项目。电网技改项目造价数据分析作为电网运行维护的重要环节,对电网的安全可靠性起着非常重要的作用,其分析的效率和质量会直接影响到技改项目的开展,而电网技改项目工程类别多、造价基础数据量大且可比性小,因此,筛选出异常数据、保留合适的样本数据对于技改造价数据的分析很关键。
目前,对于技改项目造价异常数据的筛选往往是将整体基础数据汇总分析成六个维度后通过异常原因排查来实现,这种方法需要依靠人工使用电子表格进行处理,不仅耗时耗力、导致造价数据分析效率低下,而且分析质量也存在一定偏差,容易出现错漏。
发明内容
本发明的目的是针对现有技术存在的上述问题,提供一种能够提高技改造价数据分析效率和质量的电网技改项目造价异常数据筛选方法。
为实现以上目的,本发明的技术方案如下:
一种电网技改项目造价异常数据筛选方法,依次包括以下步骤:
步骤一、先收集技改项目造价基础数据样本,再对样本数据进行统计分析以确定其基本分布;
步骤二、对统计分析后的样本数据采用T检验筛选出异常数据。
所述步骤二依次包括以下步骤:
S1、抽取某一样本数据作为可疑数据,计算除去该可疑数据后所有样本数据的均值以及标准差;
S2、确定置信概率为0.99的置信区间[u-K(n,α)δ,u+K(n,α)δ],其中,u为均值,δ为标准差,n为样本数据的数量,α为显著性水平,K(n,α)通过查表得到;
S3、判定所述可疑数据是否超过置信区间的上限,若是,则将其作为异常数据筛选出来;
S4、循环重复步骤S1-S3,直至完成所有数据样本的筛选。
步骤S1中,所述均值、标准差根据下列公式计算得到:
Figure BDA0003003703320000021
Figure BDA0003003703320000022
上式中,Xi为第i个样本数据,第a个样本数据为可疑数据。
步骤一中,所述统计分析包括样本数据的描述统计、样本数据的正态性验证。
所述样本数据的描述统计包括统计样本数据的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度以及绘制样本数据的分布散点图。
所述样本数据的正态性验证采用Kolmogorov-Smirnov检验。
步骤一中,所述技改项目造价基础数据样本包括交流变配电工程、交流输电工程造价基础数据中的至少一种。
与现有技术相比,本发明的有益效果为:
本发明一种电网技改项目造价异常数据筛选方法先收集技改项目造价基础数据样本,再对样本数据进行统计分析以确定其基本分布,然后对统计分析后的样本数据采用T检验筛选出异常数据,该方法采用T检验法在六个维度分析前将技改项目造价异常数据筛选出来,不仅有效提高了后期造价数据分析的效率和质量,而且相较于其它数据筛选方法具有更高的筛选效率以及准确度。因此,本发明不仅提高了后期造价数据分析的效率和质量,而且具有更高的筛选效率以及准确度。
附图说明
图1为本发明实施例1中35kV塔杆基础单位造价样本数据散点图。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明。
一种电网技改项目造价异常数据筛选方法,依次包括以下步骤:
步骤一、先收集技改项目造价基础数据样本,再对样本数据进行统计分析以确定其基本分布;
步骤二、对统计分析后的样本数据采用T检验筛选出异常数据。
所述步骤二依次包括以下步骤:
S1、抽取某一样本数据作为可疑数据,计算除去该可疑数据后所有样本数据的均值以及标准差;
S2、确定置信概率为0.99的置信区间[u-K(n,α)δ,u+K(n,α)δ],其中,u为均值,δ为标准差,n为样本数据的数量,α为显著性水平,K(n,α)通过查表得到;
S3、判定所述可疑数据是否超过置信区间的上限,若是,则将其作为异常数据筛选出来;
S4、循环重复步骤S1-S3,直至完成所有数据样本的筛选。
步骤S1中,所述均值、标准差根据下列公式计算得到:
Figure BDA0003003703320000031
Figure BDA0003003703320000032
上式中,Xi为第i个样本数据,第a个样本数据为可疑数据。
步骤一中,所述统计分析包括样本数据的描述统计、样本数据的正态性验证。
所述样本数据的描述统计包括统计样本数据的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度以及绘制样本数据的分布散点图。
所述样本数据的正态性验证采用Kolmogorov-Smirnov检验。
步骤一中,所述技改项目造价基础数据样本包括交流变配电工程、交流输电工程造价基础数据中的至少一种。
实施例1:
一种电网技改项目造价异常数据筛选方法,依次按照以下步骤进行:
1、收集技改项目造价基础数据样本,其中,所述技改项目造价基础数据样本为2019年某省公司电网交流变配电工程35kV塔杆基础造价数据,共53个样本数据;
2、对收集的样本数据进行描述统计,并运用SPSS软件、采用Kolmogorov-Smirnov检验对这些样本数据进行正态性验证(结果见表2),其中,所述描述统计包括统计样本数据的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度(参见表1)以及绘制样本数据的分布散点图(参见图1):
表1 35kV塔杆基础单位造价描述统计表
35kV塔杆基础 统计量 标准误差
平均值 7.65 0.406
中值 8.44 -
方差 8.746 -
标准差 2.957 -
极小值 2.32 -
极大值 13.15 -
范围 10.83 -
四分位距 6 -
偏度 -0.171 0.327
峰度 -1.316 0.644
表2 35kV塔杆基础单位造价正态性检验结果
Figure BDA0003003703320000041
根据表2所示结果可以看到,Z=1.021>0.05,35kV塔杆基础单位造价样本数据呈正态分布;
3、对统计分析后的样本数据采用T检验筛选出异常数据,具体为:
(1)抽取某一样本数据作为可疑数据,计算除去该可疑数据后所有样本数据的均值以及标准差,其中,所述均值、标准差根据下列公式计算得到:
Figure BDA0003003703320000042
Figure BDA0003003703320000043
上式中,Xi为第i个样本数据,第a个样本数据为可疑数据;
(2)确定置信概率为0.99的置信区间[u-K(n,α)δ,u+K(n,α)δ],其中,u为均值,δ为标准差,n为样本数据的数量,α为显著性水平,K(n,α)通过查表得到;
(3)判定所述可疑数据是否超过置信区间的上限,若是,则将其作为异常数据筛选出来;
(4)循环重复步骤(1)-(3),直至完成所有数据样本的筛选。
为考察本申请所述方法的有效性以及优势,选取3个样本数量大于30的工程类型以及5个样本数量小于30的工程类型(统计学上将样本数量30作为大样本和小样本的分界线,本申请将基础数据分为样本数量30以上的和样本数量10~30之间这两种情况),对这些工程技改造价基础数据分别采用T检验、箱型图、3δ原则检验三种方法进行异常数据的筛选,并从筛选出的异常数据数量、剔除异常数据后的样本均值与样本区间、置信区间大小三方面进行对比,结果如下:
一、异常数据量和异常率
表3三种检验方法检测的异常数据数量
Figure BDA0003003703320000051
从表3所示的三种方法检验出的异常数据数量和异常率来看,无论是小样本还是大样本,本申请所采用的T检验法最为严格,检验出来的异常数据数量合计高达57个,异常率平均为27.14%;而箱型图检验和3δ原则检验结果保持一致,只检测出了2个异常数据,异常率均为0.95%。
二、剔除异常数据后的样本均值与样本区间
表4三种检验方法剔除异常数据后的样本情况
Figure BDA0003003703320000061
通过表4所示结果可以看出,无论是小样本还是大样本,剔除异常数据后,本申请采用的T检验法的样本均值和样本区间均最小。
三、置信区间
表5三种检验方法的置信区间统计表
Figure BDA0003003703320000071
从表5所示的置信区间来看,本申请采用的T检验法的置信区间最小。
综上,无论是对于样本数量大于30的基础数据,还是样本数量10~30的基础数据,本申请采用的T检验法筛选出的异常数据最多,剔除异常数据后的样本均值和样本区间最小,置信区间也比箱型图和3δ原则检验小很对,该方法在电网技改项目造价数据的筛选上体现出了明显的优势。

Claims (7)

1.一种电网技改项目造价异常数据筛选方法,其特征在于:
所述筛选方法依次包括以下步骤:
步骤一、先收集技改项目造价基础数据样本,再对样本数据进行统计分析以确定其基本分布;
步骤二、对统计分析后的样本数据采用T检验筛选出异常数据。
2.根据权利要求1所述的一种电网技改项目造价异常数据筛选方法,其特征在于:
所述步骤二依次包括以下步骤:
S1、抽取某一样本数据作为可疑数据,计算除去该可疑数据后所有样本数据的均值以及标准差;
S2、确定置信概率为0.99的置信区间[u-K(n,α)δ,u+K(n,α)δ],其中,u为均值,δ为标准差,n为样本数据的数量,α为显著性水平,K(n,α)通过查表得到;
S3、判定所述可疑数据是否超过置信区间的上限,若是,则将其作为异常数据筛选出来;
S4、循环重复步骤S1-S3,直至完成所有数据样本的筛选。
3.根据权利要求2所述的一种电网技改项目造价异常数据筛选方法,其特征在于:
步骤S1中,所述均值、标准差根据下列公式计算得到:
Figure FDA0003003703310000011
Figure FDA0003003703310000012
上式中,Xi为第i个样本数据,第a个样本数据为可疑数据。
4.根据权利要求1-3中任一项所述的一种电网技改项目造价异常数据筛选方法,其特征在于:步骤一中,所述统计分析包括样本数据的描述统计、样本数据的正态性验证。
5.根据权利要求4所述的一种电网技改项目造价异常数据筛选方法,其特征在于:所述样本数据的描述统计包括统计样本数据的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度以及绘制样本数据的分布散点图。
6.根据权利要求4所述的一种电网技改项目造价异常数据筛选方法,其特征在于:所述样本数据的正态性验证采用Kolmogorov-Smirnov检验。
7.根据权利要求1-3中任一项所述的一种电网技改项目造价异常数据筛选方法,其特征在于:步骤一中,所述技改项目造价基础数据样本包括交流变配电工程、交流输电工程造价基础数据中的至少一种。
CN202110356932.XA 2021-04-01 2021-04-01 一种电网技改项目造价异常数据筛选方法 Pending CN113065764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110356932.XA CN113065764A (zh) 2021-04-01 2021-04-01 一种电网技改项目造价异常数据筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110356932.XA CN113065764A (zh) 2021-04-01 2021-04-01 一种电网技改项目造价异常数据筛选方法

Publications (1)

Publication Number Publication Date
CN113065764A true CN113065764A (zh) 2021-07-02

Family

ID=76565430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110356932.XA Pending CN113065764A (zh) 2021-04-01 2021-04-01 一种电网技改项目造价异常数据筛选方法

Country Status (1)

Country Link
CN (1) CN113065764A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412941A (zh) * 2013-08-22 2013-11-27 国家电网公司 一种数据校正方法及装置
CN106776480A (zh) * 2015-11-25 2017-05-31 中国电力科学研究院 一种无线电干扰现场测量异常值的剔除方法
CN107092654A (zh) * 2017-03-20 2017-08-25 山东科技大学 基于均值变化检测的报警正常与异常数据检测方法和装置
CN110895526A (zh) * 2019-11-29 2020-03-20 南京信息工程大学 一种大气监测系统中数据异常的修正方法
CN111832452A (zh) * 2020-06-30 2020-10-27 杭州电子科技大学 基于脑电的特殊手势指令的特征优化与识别方法
CN112394320A (zh) * 2020-04-26 2021-02-23 南京邮电大学 基于支持向量机的室内高精度质心定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412941A (zh) * 2013-08-22 2013-11-27 国家电网公司 一种数据校正方法及装置
CN106776480A (zh) * 2015-11-25 2017-05-31 中国电力科学研究院 一种无线电干扰现场测量异常值的剔除方法
CN107092654A (zh) * 2017-03-20 2017-08-25 山东科技大学 基于均值变化检测的报警正常与异常数据检测方法和装置
CN110895526A (zh) * 2019-11-29 2020-03-20 南京信息工程大学 一种大气监测系统中数据异常的修正方法
CN112394320A (zh) * 2020-04-26 2021-02-23 南京邮电大学 基于支持向量机的室内高精度质心定位方法
CN111832452A (zh) * 2020-06-30 2020-10-27 杭州电子科技大学 基于脑电的特殊手势指令的特征优化与识别方法

Similar Documents

Publication Publication Date Title
CN114911209B (zh) 一种基于数据分析的大蒜加工废水处理管理系统
CN108898311A (zh) 一种面向智能配电网抢修调度平台的数据质量检测方法
CN111210075B (zh) 一种基于组合分类器的雷击输电线路故障概率分析方法
CN110930057A (zh) 基于lof算法的配电变压器检验结果可信度的量化评判方法
CN112001511A (zh) 基于数据挖掘的设备可靠性及动态风险评价方法、系统和设备
CN112053073A (zh) 基于大数据的建筑工程质量监理验收智能检测管理平台
CN112612824A (zh) 基于大数据的供水管网异常数据检测方法
CN113030633B (zh) 基于ga-bp神经网络的配电网故障大数据分析方法和系统
CN113065764A (zh) 一种电网技改项目造价异常数据筛选方法
CN111695543B (zh) 一种基于行波时频特性的输电线路隐患放电类型辨识方法
CN113484817A (zh) 基于tsvm模型的智能电能表自动化检定系统异常检测方法
CN111737993A (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN116089843A (zh) 一种基于数据聚类的新能源结算数据异常检测与预警方法
CN115879726A (zh) 一种企业用电量与排放量数据相互优化筛选方法
CN115115470A (zh) 一种基于排放因子法的绿色数据中心碳排放管理方法
CN111767181B (zh) 一种led显示屏用大规模集群管理系统
CN114662589A (zh) 一种电表故障研判方法、装置、设备和可读存储介质
CN108761175B (zh) 一种地电位升检测系统及输电线路雷击情况确定方法
CN110703183A (zh) 一种智能电能表故障数据分析方法及系统
CN112116014A (zh) 一种配电自动化设备测试数据离群值检测方法
CN114334194B (zh) 高温气冷堆氦气泄漏预警方法、装置、设备及存储介质
CN112541833A (zh) 基于特征匹配知识库的电力系统远动数据质量治理方法及其系统
CN113779109B (zh) 一种基于上下文环境的电力数据预处理方法
CN112070352B (zh) 基于改进主成分-灰色关联的大用户落户因素分析方法
CN116256691B (zh) 一种电能表失准在线监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination