CN112948367A - 一种电力物资配置需求测算的数据清洗系统 - Google Patents
一种电力物资配置需求测算的数据清洗系统 Download PDFInfo
- Publication number
- CN112948367A CN112948367A CN202110314350.5A CN202110314350A CN112948367A CN 112948367 A CN112948367 A CN 112948367A CN 202110314350 A CN202110314350 A CN 202110314350A CN 112948367 A CN112948367 A CN 112948367A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- punching
- canceling
- abnormal value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 title abstract description 9
- 238000005259 measurement Methods 0.000 title description 5
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 24
- 238000004080 punching Methods 0.000 claims abstract description 17
- 230000008676 import Effects 0.000 claims abstract description 14
- 230000010354 integration Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及信息计算信息系统领域,具体涉及一种电力物资配置需求测算的数据清洗系统。本发明通过以下技术方案得以实现的:一种电力物资配置需求测算的数据清洗系统,包含数据导入模块,所述数据导入模块用于将物资历史消耗数据从总数据库中导入到物资消耗数据库,其特征在于,该种数据清洗系统还包含:冲销处理模块,所述冲销处理模块包含冲销识别模块和在所述物资消耗数据库中将冲销数据添加识别标签的冲销标注模块;异常值处理模块,所述异常值处理模块包含异常值查找模块和用于修正异常值的编辑模块;本发明的目的是提供一种电力物资配置需求测算的数据清洗系统,通过对输入数据的处理,提升数据的正确性,为需求测算系统提供良好的计算基础。
Description
技术领域
本发明涉及信息计算信息系统领域,具体涉及一种电力物资配置需求测算的数据清洗系统。
背景技术
电力系统主要负责电力设施的运营和建设,在运营和建设过程中,降低运营成本、提高经济效率、提升物资使用效率是电力系统运营主体关注的问题。
在电力设施建设之前,需要对配网的项目的物资进行筹备,而这往往由物资计划专职对配网物资需求进行预测,与项目关联性较强的物资经过与地市局的协同确认后形成最终的采购需求计划结果,而这一过程仅依赖于人的经验进行预测,容易造成框架协议执行周期长或者引起物资断档问题。
由此,如公开号为CN103903070B的中国专利文件公开了一种应用系统资源需求测算系统,能使用大数据平台对项目的物资需求进行智能数据收集和智能分析,并预测出项目对于物资的需求。然而,配网项目种类多且变化快,而与之相关且作为预测结果的基础输入数据种类繁多,数目海量,情形复杂。数据数量多,则数据的正确性和适用性就会受到影响,与之对应的,其计算后的物资需求结果也会在准确度方面下降。
发明内容
本发明的目的是提供一种电力物资配置需求测算的数据清洗系统,通过对输入数据的处理,提升数据的正确性和适用性,从而为需求测算系统提供良好的计算基础。
本发明通过以下技术方案得以实现的:一种电力物资配置需求测算的数据清洗系统,包含数据导入模块,所述数据导入模块用于将物资历史消耗数据从总数据库中导入到物资消耗数据库,其特征在于,该种数据清洗系统还包含:
冲销处理模块,所述冲销处理模块包含冲销识别模块和在所述物资消耗数据库中将冲销数据添加识别标签的冲销标注模块;
异常值处理模块,所述异常值处理模块包含异常值查找模块和用于修正异常值的编辑模块;
去负值处理模块,所述去负值处理模块包含用于查找在预设阶段中消耗量为负数的阶段负值识别模块。
作为本发明的优选,所述异常值识别模块对数据的查找范围包含冲销数据和非冲销数据。
作为本发明的优选,所述异常值识别模块包含阈值外识别模块,所述阈值外识别模块用于识别出物资消耗量超出系统预设的消耗阈值的数据。
作为本发明的优选,所述异常值识别模块包含单位错误识别模块。
作为本发明的优选,所述去负值处理模块包含用于将识别为负值的阶段数据与相邻阶段进行自动数据整合的相邻阶段整合模块。
作为本发明的优选,所述数据导入模块导入数据的方式为通过定时脚本自动同步T+1的业务数据的导入模式。
作为本发明的优选,还包含重大数据处理模块,所述重大数据处理模块包含用于支持用户自定义标识重大数据的自定义编辑模块。
综上所述,本发明具备如下有益效果:
1.数据通过定时脚本自动同步T+1的业务数据,运行效率高。
2.使用冲销处理模块、异常值处理模块、去负值处理模块和重大数据处理模块四大模块对数据库数据进行清洗操作,保证数据的客观性和准确性,为后续测算系统的物资需求计算提供基础。
3.冲销处理模块能自动识别出数据库中的正反冲销数据。
4.异常值处理模块能判断出数据库中的错误数据且进行更正。
5.重大数据处理模块支持操作用户对于阶段性重大工程,具备偶然性的数据进行标出,从而提升物资需求计算的客观性。
附图说明
图1为实施例一的总体架构示意图;
图2为异常值识别模块的架构示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
实施例1,一种电力物资配置需求测算的数据清洗系统,如图1所示,包含数据导入模块,导入模块将数据中心中的总数据表中关于物资消耗的数据定期导入到物资消耗数据库中。由于数据量庞大,故较佳的,并不是采用实时导入实时更新的方式,而是通过定时脚本自动同步T+1的业务数据,优化导入流程。
在电力系统中,物资往往为线缆、电柜、开关柜等物件,这些历史数据都以项目形式和时间形式存储在物资消耗数据库中,作为需求测算系统进行需求测算的数据来源和数据基础,在本技术方案中,主要对这部分数据进行清洗操作,提升数据的正确性和适用性。
物资消耗数据导入到物资消耗数据库中,冲销处理模块中的冲销识别模块对于所有的数据进行扫描鉴别,判断是否存在正向反向冲销数据。例如,某月电柜出库200台,而在下一月又退回电柜200台,则这两条数据就构成了正向反向的冲销数据,冲销标注模块自动将这两条信息标注供系统使用者查看。该识别查找功能通过软件实现,具体的编写代码方式为软件领域从业人员的现有技术,这里不做限定和赘述。冲销标注模块仅仅是将冲销数据做标注,标注后的具体操作,例如删除、合并、重置等,在不同的物资项目中操作方式不同,由操作人员根据具体的应用场景自主选择自主操作。
异常值处理模块与冲销处理模块不同,其识别和处理的是表格中的异常值。异常值的形成原因很多,有可能是人为输入错误,有可能是数据系统存储错误,有可能是异常阶段的消耗数据,而这些数据的存在同样会为之后的数据测算带来误差。如图1和图2所示,在本案中,异常值处理模块包含异常值识别模块和编辑模块。异常值识别模块可以包含单位错误识别模块和阈值外识别模块。两者存在区别,前者的形成原因往往是由于录入人员将数据单位弄错使得输入的数据错误。例如3千米,单位为千米,非米,录入人员输入数据为3000,造成的数据错误。而阈值外识别模块是系统操作人员预设一段正常合理的数据范围,例如2千米-8千米,超出这个数值范围的往往与现实真实情况不符合,存在数据错误的可能。这两个查找功能同样为软件编程实现,具体编程方式为现有技术内容,这里不再赘述。
异常值处理模块中包含编辑模块,编辑模块支持用户将识别出的异常值进行自动或手动更正。异常值处理模块遍历的数据为所有数据,即不论是否是冲销处理模块识别出的冲销数据,均进行异常值的识别遍历。
去负值处理模块同样对数据进行遍历查找,需要说明的是,去负值的遍历是以“阶段”为单位的。例如一周之内的物资消耗量或一月之内的物资消耗量,物资消耗量是不应该为负值,而在数据系统录入过程中,由于种种原因,可能在数据库中存在负值。例如4月出库电柜20台,5月退回10台,系统录入中有可能录入成为了4月20,5月-10这样格式的数据。在本案中负值识别出后可以采用多种方式进行处理,例如相邻阶段整合模块对数据进行合并整合,平滑处理。具体的,该模块对4月和5月进行合并计算,合并后该两条数据修改为4月为10,5月为0。
重大数据处理模块包含自定义编辑模块,是指在历史阶段中出现了某一个已知的阶段性的重大工程,由于该工程的存在,使得这个阶段的物资消耗量极大,这个数据具有偶然性,会影响预测结果的客观性。在本案中,操作用户使用自定义编辑模块将这些重大工程对应的数据进行标注标识,而对于这些数据是在运算时做平滑处理还是删除则不作限制。
Claims (5)
1.一种电力物资配置需求测算的数据清洗系统,包含数据导入模块,所述数据导入模块用于将物资历史消耗数据从总数据库中导入到物资消耗数据库,其特征在于,该种数据清洗系统还包含: 冲销处理模块,所述冲销处理模块包含冲销识别模块和在所述物资消耗数据库中将冲销数据添加识别标签的冲销标注模块; 异常值处理模块,所述异常值处理模块包含异常值查找模块和用于修正异常值的编辑模块; 去负值处理模块,所述去负值处理模块包含用于查找在预设阶段中消耗量为负数的阶段负值识别模块,所述异常值识别模块对数据的查找范围包含冲销数据和非冲销数据,所述异常值识别模块包含阈值外识别模块,所述阈值外识别模块用于识别出物资消耗量超出系统预设的消耗阈值的数据。
2.根据权利要求1所述的一种电力物资配置需求测算的数据清洗系统,其特征在于:所述异常值识别模块包含单位错误识别模块。
3.根据权利要求1所述的一种电力物资配置需求测算的数据清洗系统,其特征在于:所述去负值处理模块包含用于将识别为负值的阶段数据与相邻阶段进行自动数据整合的相邻阶段整合模块。
4.根据权利要求1所述的一种电力物资配置需求测算的数据清洗系统,其特征在于:所述数据导入模块导入数据的方式为通过定时脚本自动同步T+1的业务数据的导入模式。
5.根据权利要求1-4任意一项所述的一种电力物资配置需求测算的数据清洗系统,其特征在于:还包含重大数据处理模块,所述重大数据处理模块包含用于支持用户自定义标识重大数据的自定义编辑模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314350.5A CN112948367A (zh) | 2021-03-24 | 2021-03-24 | 一种电力物资配置需求测算的数据清洗系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314350.5A CN112948367A (zh) | 2021-03-24 | 2021-03-24 | 一种电力物资配置需求测算的数据清洗系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948367A true CN112948367A (zh) | 2021-06-11 |
Family
ID=76228137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110314350.5A Pending CN112948367A (zh) | 2021-03-24 | 2021-03-24 | 一种电力物资配置需求测算的数据清洗系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948367A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919570A (zh) * | 2021-10-13 | 2022-01-11 | 广东电网有限责任公司 | 一种电力物资需求管控方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278775A1 (en) * | 2013-03-14 | 2014-09-18 | Teradata Corporation | Method and system for data cleansing to improve product demand forecasting |
CN107292429A (zh) * | 2017-06-07 | 2017-10-24 | 上海欧睿供应链管理有限公司 | 一种基于需求特性分析的需求预测模型选择方法 |
CN107292428A (zh) * | 2017-06-07 | 2017-10-24 | 国网浙江省电力公司物资分公司 | 一种配网电力物资采购需求预测系统 |
CN109739850A (zh) * | 2019-01-11 | 2019-05-10 | 安徽爱吉泰克科技有限公司 | 一种档案大数据智能分析清洗挖掘系统 |
CN110210686A (zh) * | 2019-06-13 | 2019-09-06 | 郑州轻工业学院 | 一种电力大数据的电费风险模型构建方法 |
CN111581194A (zh) * | 2020-04-29 | 2020-08-25 | 上海市特种设备监督检验技术研究院 | 基于电梯大数据的预处理和清洗方法 |
-
2021
- 2021-03-24 CN CN202110314350.5A patent/CN112948367A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278775A1 (en) * | 2013-03-14 | 2014-09-18 | Teradata Corporation | Method and system for data cleansing to improve product demand forecasting |
CN107292429A (zh) * | 2017-06-07 | 2017-10-24 | 上海欧睿供应链管理有限公司 | 一种基于需求特性分析的需求预测模型选择方法 |
CN107292428A (zh) * | 2017-06-07 | 2017-10-24 | 国网浙江省电力公司物资分公司 | 一种配网电力物资采购需求预测系统 |
CN109739850A (zh) * | 2019-01-11 | 2019-05-10 | 安徽爱吉泰克科技有限公司 | 一种档案大数据智能分析清洗挖掘系统 |
CN110210686A (zh) * | 2019-06-13 | 2019-09-06 | 郑州轻工业学院 | 一种电力大数据的电费风险模型构建方法 |
CN111581194A (zh) * | 2020-04-29 | 2020-08-25 | 上海市特种设备监督检验技术研究院 | 基于电梯大数据的预处理和清洗方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919570A (zh) * | 2021-10-13 | 2022-01-11 | 广东电网有限责任公司 | 一种电力物资需求管控方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109636345B (zh) | 一种业务办理工作流的智能管理方法及系统 | |
CN108681866B (zh) | 运单的处理方法、系统、设备和存储介质 | |
CN109272273A (zh) | 一种继电保护备品备件管理系统及管理方法 | |
CN104571016A (zh) | 核电站dcs可视化运维操作方法和系统 | |
CN111861328B (zh) | 建立物流识别库的方法、物流轨迹查询更新方法及设备 | |
CN112686418A (zh) | 一种履约时效预测方法和装置 | |
CN112948367A (zh) | 一种电力物资配置需求测算的数据清洗系统 | |
CN110781235A (zh) | 基于大数据的采购数据处理方法、装置、终端及存储介质 | |
CN107480824B (zh) | 城市轨道交通站点短时客流预测系统及方法 | |
CN111027803A (zh) | 施工管理方法及施工管理系统 | |
CN115169658B (zh) | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 | |
CN108879661B (zh) | 通过关联历史票校核倒闸操作的方法及设备 | |
CN113077107A (zh) | 一种电力物资配置需求预测系统 | |
CN114877943B (zh) | 一种基于区块链的生态环境监测装置 | |
CN113052417A (zh) | 一种资源配置方法以及装置 | |
CN113592384B (zh) | 实现电商快速配送的方法、电子设备以及存储介质 | |
CN111784277B (zh) | 一种it客服工单质检分析方法 | |
CN103699968A (zh) | 核电厂紧缺备件的计算机管理分析系统及管理处理方法 | |
CN112184529A (zh) | 一种垃圾回收方法及系统 | |
KR101860598B1 (ko) | 이기종 시스템의 데이터 통합 장치 | |
CN111353751B (zh) | 批量补卡的还原方法和装置 | |
CN108932612B (zh) | 一种应用于企业年金的数据处理方法、装置及电子设备 | |
CN108920749B (zh) | 管线二三维数据更新方法、装置与计算机可读存储介质 | |
CN107016044B (zh) | 一种数据可视化处理的方法及装置 | |
CN111126652B (zh) | 一种酒店尾房智能预测分销系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |