CN109726238B - 区域不同行业用电量数据的清洗方法及系统 - Google Patents
区域不同行业用电量数据的清洗方法及系统 Download PDFInfo
- Publication number
- CN109726238B CN109726238B CN201811536155.1A CN201811536155A CN109726238B CN 109726238 B CN109726238 B CN 109726238B CN 201811536155 A CN201811536155 A CN 201811536155A CN 109726238 B CN109726238 B CN 109726238B
- Authority
- CN
- China
- Prior art keywords
- data
- economic
- electric power
- power consumption
- mechanisms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims description 31
- 230000005611 electricity Effects 0.000 title claims description 13
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000002596 correlated effect Effects 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims description 162
- 238000004458 analytical method Methods 0.000 claims description 55
- 238000012886 linear function Methods 0.000 claims description 24
- 230000005587 bubbling Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 230000008520 organization Effects 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种区域不同行业用电量数据的清洗系统,包括调取装置、分析装置、比对装置以及判断装置,用于对电力数据和经济数据进行分析和处理。通过以上系统处理后的经济数据和电力数据,可任意加载区域经济数据集和电力数据集,能对复杂数据进行快速处理,解决多元异构数据的交互融合问题,能更好地将经济数据和电力数据清洗后的数据进行关联,输出结果具备更好的数据准确性和实时性。并且提高了经济数据和电力数据的准确性。
Description
技术领域
本发明涉及电力数据技术领域,特别涉及一种区域不同行业用电量数据的清洗方法及系统。
背景技术
目前,将电力数据用于区域经济结构的实时监控与经济发展的预测,通过用电量的变动反应各县市的经济结构调整,并揭示各行业的关联关系,相比宏观区域经济统计数据更具有实时性和直接性,为区域经济发展相关政策的制定提供决策支持的依据。从数据科学的理论出发,针对电力数据的特征,通过构建区域经济数据和用电量数据的清洗、补齐方法,作为经济科学与数据科学的交叉清洗方法,都在原有理论方法的基础上有所创新。
现有技术中相近清洗技术主要针对异常点、非高杠杆点、强影响点进行处理,主要方法如下:
1、简单的统计量分析对变量做一个描述性统计,进而查看哪些数据是不合理的,最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如:客户年龄的最大值为199岁,则该变量存在异常。
2、3σ原则,若数据服从正态分布,在3σ原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003属于极个别小概率事件。
4、箱型图分析异常值定义:
小于QL-0.5IQR或大于QU+1.5IQR的值。
QL:下四分位数
QU:上四分位数
IQR=QU-QL:四分位数间距,上下四分位数之差,其间包含全部观测值的一半。
现有数据清洗方法主要是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
因为经济数据和电力数据是面向特定主题的数据的集合,这些数据从多个行业的系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。主要处理方法如下:
(1)残缺数据:这一类数据主要是一些应该有的信息缺失,如经济数据、供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同文件,要求在规定的时间内补全。
(2)错误数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。
(3)重复数据:对于重复数据情况的处理,特别是维表中会出现这种情况,将重复数据记录的所有字段导出来,需要确认和整理。
总结以上内容,针对区域经济数据和分行业用电量数据,通过现有方法清洗后的数据,质量存在以下方面的缺点:即不能实时找到用电量数据和县城经济数据的相关性。
发明内容
本发明提供一种区域不同行业用电量数据的清洗方法及系统,使得清洗后的电力数据准确性高并且能够找到电量数据和县城经济数据的相关性。
一种区域不同行业用电量数据的清洗方法,包括以下步骤:
从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种;
对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据;
所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,将每个节点的电力数据和经济数据进行比对并生成关联数据;
分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关。
进一步的,
所述电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种;
所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
进一步的,
所述对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据的步骤还包括:
统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种;
统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。
进一步的,
所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,将每个节点的电力数据和经济数据进行比对并生成关联数据的步骤还包括:
统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联;
统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。
进一步的,
所述分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关的步骤包括:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
一种区域不同行业用电量数据的清洗系统,包括以下装置:
调取装置:用于从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种;
分析装置:用于对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据;
比对装置:所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,用于将每个节点的电力数据和经济数据进行比对并生成关联数据;
判断装置:用于分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关。
进一步的,
所述电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种;
所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
进一步的,
所述分析装置包括统计模块,所述统计模块:
用于统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种;
用于统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。
进一步的,
所述比对装置还包括关联模块,所述关联模块:
用于统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联;
用于统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。
进一步的,
所述判断装置包括显著性判断模块:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为区域不同行业用电量数据的清洗方法的流程图;
图2为分析步骤的流程图;
图3为比对步骤的流程图;
图4为区域不同行业用电量数据的清洗系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种区域不同行业用电量数据的清洗方法,如图1所示,包括以下步骤:
S1、调取步骤:从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种。其中电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种。通过步骤S1调取电力数据以及经济数据。所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
S2、分析步骤:对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据。如图2所示,在步骤S2后还包括:
A1、电力数据特定值计算步骤:统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。通过以上方式进行计算,方便使用者更方便的统计各个机构使用电力数据的分布。
A1、经济数据特定值计算步骤:统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。通过以上方式进行计算,方便使用者更方便的统计各个机构使用经济数据的分布。上述特定值还可以通过以下方式进行筛选,先筛选出最高频,然后从最高频本征模函数中筛选出次高频,具体步骤如下:
(1)确定电力数据或经济数据原序列X(t)的所有极值点。
(2)产生X(t)的上下包络,并将其平均值记做m(t),可以采用插值法。
(3)从原序列将m(t)减去,得到C(t)。
(4)若C(t)是本征模函数,则将其记为第i个函数,定义残差r(t)代替X(t);若C(t)不是本征模函数,则用C(t)代替X(t)。
重复步骤(1)~(4)直到残差满足停止条件。这样原序列即为:X(t)=∑_(i=0)^n〖C_i(t)〗+r_n(t)。
S3、比对步骤:所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,将每个节点的电力数据和经济数据进行比对并生成关联数据。如图3所示,在步骤S3后还包括:
B1、电力数据差值计算步骤:统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联。通过以上步骤能够将多个具有使用近似电力数据的机构进行关联,方便工作人员进行统计。电力数据可以包括用电量等等。
B2、经济数据差值计算步骤:统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。通过以上步骤能够将多个具有近似经济数据的机构进行关联,方便工作人员进行统计。经济数据可以包括生产总值等等。
S4、判断步骤:分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关,可以通过聚类分类,多元回归模型,随机森林预测模型,神经网络预测模型,支持向量机,序列分解模型中的任意一个模型计算。在步骤S4后还包括:
所述分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关的步骤包括:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
通过以上方式能够计算两个机构关于电量数据以及经济数据的关联性,例如说A机构当年电量数据的用电量为Q1,上一年度电量数据的用电量为Q2,A机构当年经济数据的生产总值为P1,上一年度经济数据的生产总值为P2,则K1=(Q1-Q2)/(P1-P2)。B机构当年电量数据的用电量为Q3,上一年度电量数据的用电量为Q4,B机构当年经济数据的生产总值为P3,上一年度经济数据的生产总值为P4,则K2=(Q3-Q4)/(P3-P4),机构A与机构B的比对值则为r=K1/K2。
通过以上方法处理后的经济数据和电力数据,可任意加载区域经济数据集和电力数据集,能对复杂数据进行快速处理,解决多元异构数据的交互融合问题,能更好地将经济数据和电力数据清洗后的数据进行关联,输出结果具备更好的数据准确性和实时性。并且提高了经济数据和电力数据的准确性。
一种区域不同行业用电量数据的清洗系统,如图4所示,包括以下装置:
调取装置:用于从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种;
分析装置:用于对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据;
比对装置:所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,用于将每个节点的电力数据和经济数据进行比对并生成关联数据;
判断装置:用于分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关。
在一个实施例中,
所述电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种;
所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
在一个实施例中,
所述分析装置包括统计模块,所述统计模块:
用于统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种;
用于统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。
在一个实施例中,
所述比对装置还包括关联模块,所述关联模块:
用于统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联;
用于统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。
在一个实施例中,
所述判断装置包括显著性判断模块:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种区域不同行业用电量数据的清洗方法,其特征在于,包括以下步骤:
从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种;
对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据;
所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,将每个节点的电力数据和经济数据进行比对并生成关联数据;
分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关;
所述分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关的步骤包括:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
2.根据权利要求1所述的清洗方法,其特征在于,
所述电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种;
所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
3.根据权利要求1所述的清洗方法,其特征在于,
所述对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据的步骤还包括:
统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种;
统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。
4.根据权利要求1所述的清洗方法,其特征在于,
所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,将每个节点的电力数据和经济数据进行比对并生成关联数据的步骤还包括:
统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联;
统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。
5.一种区域不同行业用电量数据的清洗系统,其特征在于,包括以下装置:
调取装置:用于从数据库内获取至少一类分析数据,所述分析数据为电力数据以及经济数据中的任意一种;
分析装置:用于对分析数据进行处理,获取分析数据的特定值,并根据特定值得出分析结果数据;
比对装置:所述分析数据包括若干机构,每个机构存在其唯一对应的电力数据以及经济数据,用于将每个节点的电力数据和经济数据进行比对并生成关联数据;
判断装置:用于分别对任意两个机构的电力数据以及经济数据进行比对并生成比对值,如果比对值大于第一预设值,则所述两个机构为显著性相关;
所述判断装置包括显著性判断模块:
任意获取一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K1;
获取另一个机构的电力数据以及经济数据,并获得该机构上一年度的电力数据以及经济数据,并形成一次函数并获得其斜率K2;
其中相关性r=K1/K2;
若|r|>0.95,则两个机构之间存在显著性相关;
若|r|≥0.8,则两个机构之间高度相关;
若0.5≤|r|<0.8,则两个机构之间中度相关;
若0.3≤|r|<0.5,则两个机构之间低度相关;
若|r|<0.3,则两个机构之间不相关。
6.根据权利要求5所述的清洗系统,其特征在于,
所述电力数据包括农业用电量数据、林业用电量数据、牧业用电量数据、渔业用电量数据、工业用电量数据、建筑业用电量数据、交通运输业、仓储、邮政业用电量数据、信息传输用电量数据、计算机服务用电量数据、软件用电量数据、商业用电量数据、住宿用电量数据、餐饮业用电量数据、金融用电量数据、房地产用电量数据、商务用电量数据、居民服用电量数据、公共事业用电量数据及管理组织用电量数据中的任意一种或多种;
所述经济数据包括宏观经济-生产类经济数据、宏观经济-生活类、县市财政经济数据、景气指数经济数据、气象经济数据。
7.根据权利要求5所述的清洗系统,其特征在于,
所述分析装置包括统计模块,所述统计模块:
用于统计每个机构的电力数据,并将每个机构的电力数据量根据冒泡算法进行排序,并对所有机构的电力数据进行计算,得到电力数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种;
用于统计每个机构的经济数据,并将每个机构的经济数据量根据冒泡算法进行排序,并对所有机构的经济数据进行计算,得到经济数据的均值、极值、众位数、中位数、四分位数;期望、方差、偏度以及峰度中的任意一种或多种。
8.根据权利要求5所述的清洗系统,其特征在于,
所述比对装置还包括关联模块,所述关联模块:
用于统计任意两个机构的电力数据,如果任意两个或多个的电力数据相差值低于一预设值则将该两个或多个电力数据的机构进行关联;
用于统计任意两个机构的经济数据,如果任意两个或多个的经济数据相差值低于一预设值则将该两个或多个经济数据的机构进行关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536155.1A CN109726238B (zh) | 2018-12-14 | 2018-12-14 | 区域不同行业用电量数据的清洗方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536155.1A CN109726238B (zh) | 2018-12-14 | 2018-12-14 | 区域不同行业用电量数据的清洗方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726238A CN109726238A (zh) | 2019-05-07 |
CN109726238B true CN109726238B (zh) | 2021-10-29 |
Family
ID=66297609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536155.1A Expired - Fee Related CN109726238B (zh) | 2018-12-14 | 2018-12-14 | 区域不同行业用电量数据的清洗方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726238B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226736A (zh) * | 2013-03-27 | 2013-07-31 | 东北电力大学 | 基于聚类分析与灰靶理论的中长期电力负荷预测方法 |
CN106485367A (zh) * | 2016-10-26 | 2017-03-08 | 贵州电网有限责任公司电力科学研究院 | 一种基于多企业用电数据耦合的经济分析平台及预测方法 |
-
2018
- 2018-12-14 CN CN201811536155.1A patent/CN109726238B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226736A (zh) * | 2013-03-27 | 2013-07-31 | 东北电力大学 | 基于聚类分析与灰靶理论的中长期电力负荷预测方法 |
CN106485367A (zh) * | 2016-10-26 | 2017-03-08 | 贵州电网有限责任公司电力科学研究院 | 一种基于多企业用电数据耦合的经济分析平台及预测方法 |
Non-Patent Citations (1)
Title |
---|
地市经济增长的σ趋同评价分析;胡斌等;《吉首大学学报(自然科学版)》;20150925(第05期);第82-87页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109726238A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868373B (zh) | 电力业务信息系统关键数据处理方法及装置 | |
US20110098846A1 (en) | Synthesis of mail management information from physical mail data | |
Hamad et al. | An enhanced technique to clean data in the data warehouse | |
CN115423289A (zh) | 智能板材加工车间数据处理方法及终端 | |
CN111428095B (zh) | 图数据质量验证方法及图数据质量验证装置 | |
CN113434487B (zh) | 基于企业数据的数据资产统一管理系统 | |
CN115456745A (zh) | 小微企业画像构建方法及装置 | |
Pandey et al. | Association rules network: Definition and applications | |
CN101676900A (zh) | 提高目标数据准确性的数据清洗方法及清洗系统 | |
CN113742315A (zh) | 一种制造大数据处理平台及方法 | |
US20240176768A1 (en) | Method and device for detecting and correcting abnormal scoring of peer reviews | |
CN109726238B (zh) | 区域不同行业用电量数据的清洗方法及系统 | |
CN117171145B (zh) | 一种企业管理系统数据的分析处理方法、设备及存储介质 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
CN116757402A (zh) | 服务策略的确定方法及装置、存储介质及电子装置 | |
CN115526431A (zh) | 基于工业互联网的数据分析方法及相关装置 | |
CN115016902A (zh) | 工业流程数字化管理系统及方法 | |
CN115269570A (zh) | 一种基于零缺陷工程大数据的质量分析方法及系统 | |
CN115129356A (zh) | 目标事件看板生成方法、存储介质及电子装置 | |
CN111199419B (zh) | 股票异常交易的识别方法及系统 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
Hochkamp et al. | Outlier detection in data mining: Exclusion of errors or loss of information? | |
CN112330182A (zh) | 一种经济运行状况量化分析方法及装置 | |
CN110737700A (zh) | 一种基于贝叶斯算法的进销存用户分类方法及系统 | |
CN116126975B (zh) | 一种基于商业区块链技术的多属性数字积分流通系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211029 |
|
CF01 | Termination of patent right due to non-payment of annual fee |