CN111861206A - 一种基于企业电力大数据的工业行业景气指数获取方法 - Google Patents

一种基于企业电力大数据的工业行业景气指数获取方法 Download PDF

Info

Publication number
CN111861206A
CN111861206A CN202010700143.9A CN202010700143A CN111861206A CN 111861206 A CN111861206 A CN 111861206A CN 202010700143 A CN202010700143 A CN 202010700143A CN 111861206 A CN111861206 A CN 111861206A
Authority
CN
China
Prior art keywords
industry
industries
data
power
power consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010700143.9A
Other languages
English (en)
Inventor
王俊
田英杰
吴力波
贾放
张帅帅
周阳
郭乃网
苏运
吴裔
李凡
施正昱
马戎
黄之豪
瞿海妮
时志雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Original Assignee
Fudan University
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, State Grid Shanghai Electric Power Co Ltd, East China Power Test and Research Institute Co Ltd filed Critical Fudan University
Priority to CN202010700143.9A priority Critical patent/CN111861206A/zh
Publication of CN111861206A publication Critical patent/CN111861206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于企业电力大数据的工业行业景气指数获取方法,包括以下步骤:1)获取行业内企业的用电信息,并进行清洗和修正;2)根据中类行业的用电量数据构建不同时期的复杂网络模型,用以描述行业间相互影响、相互传导的上下游关联关系;3)提取复杂网络模型的网络指标并采用隐马尔可夫状态转移模型进行工业行业景气指数预测。与现有技术相比,本发明具有有效整合企业耗电量高频数据、明确行业间的上下游产业结构、排除非生产性因素的干扰、构建细分行业的工业行业景气指数等优点。

Description

一种基于企业电力大数据的工业行业景气指数获取方法
技术领域
本发明涉及,尤其是涉及一种基于企业电力大数据的工业行业景气指数获取 方法。
背景技术
电力作为工业企业的一种重要的能源要素投入,被视为预经济运行的先行指 标,相比其他先行指标,电力数据在获取上更具及时性和真实性,特别是在国民经 济核算极易受人为因素干扰的情况下,电力数据的客观性显得尤为重要。当前,随 着智能电表逐步完成换装,用电信息地采集变得更加便捷,企业和居民的电力消费 可以及时获取,极大方便了电力大数据价值的挖掘。在利用电力数据预测经济运行 的算法中,一类算法研究将耗电量与其他经济变量结合,利用因子分析、主成分分 析、神经网络模型、合成指数等方法分析宏观经济趋势。另一类是对耗电量进行一 定处理,通过季节调整模型实现从电力视角看经济的目标。然而这些算法所用数据 频度往往限于月度或者年度,并未发挥电力数据实时性的优势。虽然已有不少使用 耗电量反映经济运行的先例,但其大都利用未经调整的耗电量,这在一定程度上给 监测经济运行带来很多偏误,例如节假日企业耗电量的减少或者温度升高带来的企 业空调用电的增多,而这些变化不能反映经济运行的趋势。
景气指数是反映各行业运行状况的定量指标,用来反映行业的经济景气变化 状况,准确预测行业景气指数对生产活动的开展以及宏观经济调控有着重要的意义。 国际上流行的衡量经济景气情况的方法为合成指数法(Composite Index),即以一个 国家的工业增长水平作为参考,选取一些宏观统计数据,划分为先行指标组、一致 指标组和滞后指标组,以构建经济景气分析指标体系,分析和预测经济周期波动和 景气变动的转折点。但是这些指标往往是月度或季度数据,且非常宏观,无法反映 经济景气指数变动背后的原因,也无法反映产业结构调整带来的变化,更不能进行 短期及时的预测。很多研究分别采用状态空间模型、贝叶斯混频模型和因子模型分 析预测了德国、美国和欧盟的GDP。但将GDP作为反映一个国家繁荣程度的指标 还是比较片面的,因为它无法捕捉影响景气变化的重要因素,如健康、个人自由、 安全保障等。许多新的指标,如伦敦Legatum研究所发布的景气指数、2017经济 自由度指数、2015全球创新指数,均结合了多个维度指标来衡量一个国家的景气 状况及排名,包括经济增长、商业环境、教育、健康、安全保障、个人福利、自然 环境等,弥补了GDP的不足。随着机器学习和大数据技术的兴起以及高频全样本 数据采集的成本降低,许多机器学习的方法被应用到指数构建中。如人工神经网络 和非线性函数、广义最优小波分解算法、支持向量机模型等,这些机器学习方法的 应用极大提高了预测精度,弥补了小样本、低频数据建模的不足。
随着更多用户逐步完成智能电表的换装,智能电表可以获取日度甚至更高频 的数据,这些数据的获取为日度经济景气状况预测提供了可能,然后利用这些高频 数据构造高频景气指数的算法并未进行开发。此外,由于影响综合经济景气状况的 因素很多,每个微观行业的用电量增速变化、产业结构调整都会导致景气状况的改 变。因此使用电量能反映工商业生产景气状况面临一个重要问题,即对于每个工商 业用户,影响其用电量变化的因素很多,包括天气、节假日、行业特征、上下游行 业的用电量变化等。因此,使用用电量构建经济景气指数有赖于行业间的相关关系 和产业结构,而基于行业间投入产出关联关系的预测方法高度依赖于行业投入产出 关联系数,由于时间滞后性高、模型误差大却无法用于短期预测。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于企业电 力大数据的工业行业景气指数获取方法。
本发明的目的可以通过以下技术方案来实现:
一种基于企业电力大数据的工业行业景气指数获取方法,包括以下步骤:
1)获取行业内企业的用电信息,并进行清洗和修正;
2)根据中类行业的用电量数据构建不同时期的复杂网络模型,用以描述行业 间相互影响、相互传导的上下游关联关系;
3)提取复杂网络模型的网络指标并采用隐马尔可夫状态转移模型进行工业行 业景气指数预测。
所述的步骤1)具体包括以下步骤:
11)利用数据异常识别方法识别出电量为负和电量异常大的值后剔除;
12)按照总体有效数据的10%的剔除标准,剔除有效数据较少的企业用电信 息;
13)使用样条插值和线性插值相结合的方法进行数据补全和修正,得到所有企 业完整的用电时间序列数据,将同一行业内的企业用电信息汇总得到所有行业的用 电量数据;
14)根据所有行业的用电量数据获取所有行业用电增长率的时间序列数据,并 通过单位根进行平稳性检验。
所述的步骤2)中,复杂网络模型中的每个节点代表一个行业,节点的大小采 用行业的平均日冻结电量的增长率表示,复杂网络模型中的边采用各个行业间的影 响程度表示,每两个行业间的影响程度通过皮尔森相关系数rxy衡量,并剔除皮尔 森相关系数低于设定阈值的边,复杂网络模型中的方向采用每两个行业之间的驱动 关系表示,具体采用自回归的格兰杰因果检验模型来检验驱动关系是否存在,并通 过最小化Akaike信息量准则判断行业之间相互影响行为发生的期数。
皮尔森相关系数的表达式为:
Figure BDA0002592714850000031
其中xt、yt分别为两个行业的时间序列数据,
Figure BDA0002592714850000032
分别为两个行业的时间序列 数据的平均值,T为数据长度。
所述的步骤2)中,采用最小生成树和平面最大滤波图对原始的复杂网络模型 进行修剪去除网络中的冗余信息
在复杂网络模型中,在保留先导行业的基础上进行去除相关行业多重共线性, 具体为:
如果两个先导行业同时与中心行业存在强相关关系,且这先导两个行业之间也存在强相关关系,则将与中心行业相关联程度较小的先导行业剔除。
所述的步骤3)中,设定中心行业受到其他因素的影响为线性,在此条件下建 立隐马尔可夫模型,其中,状态S的响应函数为:
Figure BDA0002592714850000033
其中,dyt为中心行业的用电量增长率时间序列,xw,t为第w个先导行业的变 量,包括相关行业数Nrela、用电量增长率的加权平均值
Figure BDA0002592714850000034
入度强度加权平均 值
Figure BDA0002592714850000041
以及出度强度加权平均值
Figure BDA0002592714850000042
其中,相关行业的权重为与目标行业 的相关系数,m为先导行业的变量总数,t表示时间,Outk,t表示第k个外部影响 因子,包括温度、温度平方、降雨、风速、气压、湿度、休息日和周末影响,n为 外部因素总数,ciiwik均为在状态i下的估计参数,εt(i)为均值为0、方差为
Figure BDA0002592714850000043
的 正态分布。
所述的步骤3)中,在采用隐马尔可夫模型进行预测时,当前值为各个状态值 的叠加,根据EM算法求解隐马尔可夫模型的所有参数系数、转移矩阵和状态概率, 进而预测下一时刻的电力增长率,则有:
Figure BDA0002592714850000044
Figure BDA0002592714850000045
其中,dy′t+1为下一时刻所有状态经济增长率加权之和,用以确定下一时刻的 电力增长率,
Figure BDA0002592714850000046
为t时刻所有状态的概率向量,Γ为转移矩阵,
Figure BDA0002592714850000047
为每个状 态的电力增长率向量,γij表示从一个状态i转移到另一个状态j的概率,Ns为状 态总数。
所述的步骤3)中,来自行业自身发展和相关行业发展导致的用电量增长率等 于总用电增长率扣除外生因素的影响,则调整与该行业生产景气状况有关的电量变 化,通过对调整后电力增长率赋予不同的权重计算中类行业v的生产景气指数PIT, 则有:
Figure BDA0002592714850000048
其中,W(x)为赋值函数,该函数用以将调整后不同状态下的电量增长率标准 化为通用的指数,t1、t2为时间区间上下限,PITv为在[t1,t2]时间范围内的行业生产 景气指数,其大小位于[0,200]之间,且设定100为是否景气的判断临界点,具体 划分标准为:
175以上代表“非常景气”区间;
[175,125)代表“较为景气”区间;
[125,100)代表“微弱景气”区间;
(100,75)代表“微弱不景气”区间;
(75,50]代表“相对不景气”区间;
(50,25]代表“较为不景气”区间;
(25,0)代表“非常不景气”区间。
在得到当前中类行业的生产景气指数后,计算得到大类行业的景气指数,则有:
Figure BDA0002592714850000051
其中,V为该大类行业包含的中类行业总数,Ele为该大类行业样本期内的平 均用电量,Elev为第v个中类行业样本期内的平均用电量,PITv为第v个中类行业 的景气状况。
与现有技术相比,本发明具有以下优点:
一、大数据处理算法能够有效整合企业耗电量的高频数据。受各种非人因素的 干扰,智能电表获取的耗电量数据带有较多异常值,通过借助大数据处理技术和算 法,对上海市规模以上企业的耗电量数据进行清洗和修正,识别其中的异常数据, 并通过算法补全缺失的耗电量数据,从而得到高频细分行业的耗电量数据,解决当 前耗电量统计过于宏观、频次低、更新慢的难点。
二、挖掘行业间的上下游产业链,实时掌握错综复杂的产业结构。行业的发展 除了受自身内部因素的影响,也将受到上下游产业链上其他行业的影响,而高频的 行业耗电量数据可被用于挖掘行业间的上下游产业链关系,通过借助复杂网络算法 刻画行业间相互影响、相互传导的上下游关联关系网络,并及时进行更新,识别产 业结构的动态变化,从而实时掌握产业结构动态调整的过程,理清行业间错综复 杂的产业链条。
三、排除非生产性因素的干扰,使耗电量更准确地反映行业生产强度的变化。 行业生产的扩张与收缩会受到生产性因素和非生产性因素两方面的影响,而行业生 产是否景气只与生产性因素有关,因此通过控制行业自身及上下游行业对生产的影 响,扣除耗电量中非生产性因素造成的干扰,使其更精准地反映各行业生产强度的 变化,从而更加真实客观地监测经济运行,评估各行业经济发展趋势。
四、构建细分行业的工业行业景气指数,满足及时预测预警经济运行趋势的需要。利用去除非生产性因素干扰的行业耗电量数据,分行业构建基于电力运行数据 的工业行业景气指数指数,各行业的工业行业景气指数都被标准化到0—200的区 间内,克服了各行业之间经济运行指标不可比的困境,指数的大小将反映各个细分 行业当前的生产强度,因此可借助指数变动及时预警各行业经济运行的趋势,满足 宏观调控及稳定经济运行的需要。
附图说明
图1为电表数据的清洗流程。
图2为电表的有效数据的分布图,其中,图(2a)为所有电表的有效数据的 分布图,图(2b)为剩余电表的有效数据的分布图。
图3为去除相关行业多重共线性图示。
图4为影响行业生产的因素示意图。
图5为指数强度划分示意图。
图6为本发明的整体方法原理图。
图7为中类行业的企业数目及比例统计图。
图8为最小生成树(MST)算法的网络图。
图9为极大平面过滤图(PMFG)的网络图。
图10为铸造及其他金属制品制造行业最优拟合结果图。
图11为铸造及其他金属制品制造行业月度生产景气指数。
图12为铸造及其他金属制品制造行业季度生产景气指数。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明提供一种基于企业电力大数据的工业行业景气指数获取方法,以格兰杰因果关系的分析方法为基础,建立工商业复杂网络模型,寻找和挖掘行业间显性、 隐性相关关系,构建了新的反映宏观经济状况的高频景气指数,从微观行业着手, 充分挖掘了影响宏观经济景气的各种不同因素、分析产业结构特征和变化的影响, 实现对宏观经济现状的精确描述和短期趋势预测,将为宏观调控和经济政策制定提 供理论依据,为投资和工商业生产发展提供决策依据。
如图6所示,通过将电力数据与企业信息数据及外部数据融合,利用大数据分 析的手段和方法,对数据进行筛选、清洗,识别异常数据,并对数据的缺失使用相 关算法进行插值,修正和补全数据。按国民经济行业分类的中类行业标准,对原 始企业的电力数据分行业进行汇总,以得到结构化、可分析的高频数据。随后利用 相关算法对行业的电力增长率进行时间序列分析,包括利用单位根检验以判断电力 增长率数据是否为平稳序列,使用格兰杰因果检验判别两个序列之间是否具有因果 关系,运用AIC信息准则判别行业影响的传递周期等,通过以上算法挖掘行业间 的潜在关系,识别行业间的上下游关系,在此基础上构造行业间的复杂网络。对于 动态产业结构,通过设定一定长度的窗口和滚动长度,选取该窗口长度内的数据构 建当期复杂网络模型,将窗口向后平移相应的滚动长度,获取新的窗口内数据构建 新一期的复杂网络模型,重复该过程得到不同时期行业间的动态复杂网络。通过对 网络性质进行分析以判断网络的好坏,如是否满足无标度网络特征等,并利用QAP 检验将该网络与行业间的投入产出表进行对比,以确保构建网络的合理性和可靠性。 再次,在确保复杂网络可靠和稳健的条件下,通过提取相关网络指标,如出度、入 度、相关行业数、相关行业数的变化、各个行业间的关联等等,结合外部数据如温 度、风速、降水、气压、湿度、节假日等数据,利用隐马尔可夫状态转移模型对行 业的用电增长率进行建模,通过对数据进行训练并使用EM算法求解,得到状态转 移概率矩阵、各个时点的状态分布以及各个变量的系数等指标,使用训练的参数对 不同行业未来所处状态的概率进行预测,得到未来时期不同行业的状态分布。最后 在得到每一个中类行业的隐马尔可夫状态分布概率的基础上,通过对调整后的电力 增长赋予不同的权重得到日频指数,通过平均的方法将日频的指数汇总平均到月, 得到该行业月度生产强度指数,使用同样的方法汇总到季,得到季度生产强度指数。 最后,以各行业平均用电量为权重,将中类行业的生产强度指数进行加权平均,得 到大类行业的生产强度指数,并与统计局公布的规模以上企业的产值增速进行对比, 由于统计口径上的差异,两者之间存在一定偏差,但电力作为生产要素中的一种重 要投入,其数据不仅客观真实,而且相比滞后的产值数据通过电量更能提前得知当 前行业的生产状况,因而可以对行业生产的景气状况起到预测预警的作用。
本发明的总体技术构思如下:
基于企业电力大数据构造景气指数的算法内容包括四部分,从数据清洗修正、 建立行业间的复杂网络模型,到建立隐马尔可夫预测模型,最后分行业构建生产强 度景气指数,具体而言,首先利用多家企业的用电量,通过对数据进行清洗处理得 到日频的用电量数据;其次,运用复杂网络模型构造行业间的上下游关联关系,并 将该关联关系与统计局公布的投入产出表进行对比,以确保行业间关联关系的可靠 性和合理性;再次,结合外部数据建立隐马尔科夫模型实现对行业用电量增速的预 测和相关因素的扣除。最后,利用模型的结果将用电量增速进行调整,扣除与该行 业发展无关的外部因素,并将其标准化形成分行业的工业生产强度指数,以期该指 数能及时抓住行业的生产动态,为政府制定相关行业政策提供支持,这几个部分相 互衔接形成一个完整的电力大数据分析研究到建模的过程。
1)企业用电信息的清洗和修正
利用大数据分析的手段和方法,对企业的电表数据进行筛选、清洗,识别异常 数据,并对数据的缺失使用相关算法进行插值,修正和补全数据。按国民经济行业 分类的中类行业标准,对原始企业的电力数据分行业进行汇总,以得到结构化、 可分析的高频数据。
2)构建不同时期的复杂网络并对网络进行分析
利用相关算法对行业的电力增长率进行时间序列分析,包括利用单位根检验以判断电力增长率数据是否为平稳序列,使用格兰杰因果检验判别两个序列之间是否 具有因果关系,运用AIC信息准则判别行业影响的传递周期等,通过以上算法挖 掘行业间的潜在关系,识别行业间的上下游关系,在此基础上构造行业间的复杂网 络。对于动态产业结构,通过设定一定长度的窗口和滚动长度,选取该窗口长度内 的数据构建当期复杂网络模型,将窗口向后平移相应的滚动长度,获取新的窗口内 数据构建新一期的复杂网络模型,重复该过程得到不同时期行业间的动态复杂网络。 通过对网络性质进行分析以判断网络的好坏,如是否满足无标度网络特征等,并利 用QAP检验将该网络与行业间的投入产出表进行对比,以确保构建网络的合理性 和可靠性。
3)提取网络指标并运用隐马尔可夫状态转移模型进行预测
在确保复杂网络可靠和稳健的条件下,通过提取相关网络指标,如出度、入度、 相关行业数、相关行业数的变化、各个行业间的关联等等,结合外部数据如温度、 风速、降水、气压、湿度、节假日等数据,利用隐马尔可夫状态转移模型对行业的 用电增长率进行建模,通过对数据进行训练并使用EM算法求解,得到状态转移概 率矩阵、各个时点的状态分布以及各个变量的系数等指标,使用训练的参数对不同 行业未来所处状态的概率进行预测,得到未来时期不同行业的状态分布。
4)分行业构建基于电力运行数据的生产强度景气指数并与产值增速进行对比
在得到每一个中类行业的隐马尔可夫状态分布概率的基础上,通过对调整后的电力增长赋予不同的权重得到日频指数,通过平均的方法将日频的指数汇总平均到 月,得到该行业月度生产强度指数,使用同样的方法汇总到季,得到季度生产强度 指数。最后,以各行业平均用电量为权重,将中类行业的生产强度指数进行加权平 均,得到大类行业的生产强度指数,并与统计局公布的规模以上企业的产值增速进 行对比,由于统计口径上的差异,两者之间存在一定偏差,但电力作为生产要素中 的一种重要投入,其数据不仅客观真实,而且相比滞后的产值数据通过电量更能提 前得知当前行业的生产状况,因而可以对行业生产的景气状况起到预测预警的作用。
各步骤的具体阐述如下:
步骤1)企业用电信息的清洗和修正:
通过对所有用户的电力数据进行清洗,识别每个用户数据中的异常值、缺失值,并采取样条插值和线性插值相结合的方法进行数据补全和修正,得到满足分析需求 的用户完整的时间序列数据,并将同一个行业的企业电量进行汇总,从而得到该行 业的总用电量的时间序列数据。如图1所示,具体数据清洗分为三步。
由于智能电表传输过程中的问题,存在一些缺失值和异常值较多的电表,对此 的处理方式是首先利用数据异常值识别的相关方法,识别电量为负和电量异常大的 值。然后计算所有用户的有效数据,剔除有效数据较少的用户,具体剔除标准为总 体有效数据的10%,图2为所有电表的有效数据的分布情况,可以看到有二千多 个电表的异常数据和缺失数据较多,有效数据仅有100个左右,对此剔除有效数据 较少的用户,保留有效数据较多的用户,图2显示了未剔除前的有效数据分布和剔 除后的有效数据分布,异常数据的主要原因是用户的智能电表存在故障、捕获智能 电表信息的设备出现故障及信息传递故障、用户换电表等,以上种种原因导致通过 智能电表获取的企业电力信息存在较多异常值或缺失值,些硬件上的问题会造成的 数据质量差的问题也会直接影响到研究的精确程度。
最后,使用样条插值和线性插值相结合的方法进行数据补全和修正,最终得到 所有用户完整的时间序列数据,并将同一个行业的企业电量进行汇总,得到完整的 中类行业的用电量数据,将企业用电量汇总到行业后,由于行业用电量绝对值主要 和行业性质、行业规模有关,并不能直接反映一个行业的生产强度的景气状况,与 行业景气状况最直接相关的更多的是行业的用电增长率,传统景气指数常用的增长 率为对称增长率,其公式如下:
Figure BDA0002592714850000091
其中,yt表示行业用电量,虽然传统的景气指数多采用对称增长率,是增长 率的定义有多种,本发明分析比较了绝对增长、对称增长率、简单增长率、对数增 长率等几种常用的增长(率),根据四种增长率和原始数据的相关系数来看,四种增 长(率)之间相似性很高,几乎等效,但与原始的用电量数据的差别均很大,经过周 期性调整之后四种增长率(量)相关性依然很高。通过比较,对称增长率可以反映 真实的用电增长情况,与其他增长率模式无差别,因此,本例中使用对称增长率来 计算经济景气状况具有一定代表性和合理性。由于对称增长率存在明显的7天的周 期性,为了去掉周期,利用自回归积分滑动平均模型arima(7,1,7)模型进行调整, 则有:
Figure BDA0002592714850000101
其中,L为滞后算子,at为残差序列,φi,Φ,θi分别为滞后期系数,其模均小 于1,调整后7天的周期被消除,且一阶截尾,说明调整后的时间序列数据变为弱 平稳序列,满足景气状况指数的分析要求。
由于用电增长率不仅仅和自身所处行业内部的发展有关,还和产业结构、上下 游行业发展、外部气候等有关,因此,需要在控制这些因素的基础上分析用电增长 率。为了刻画行业上下游发展因素的影响,本发明建立复杂网络模型捕获这一因素, 对于外部气候数据,通过控制包括平均温度、降雨、风速、气压、湿度等外部因素, 由于最高温和最低温存在强相关性,因此选取高温进行分析。此外,由于工商业生 产和工作日、节假日存在关联,通过查找法定假日设定了两个虚拟变量,分别表示 休息日、法定假日,其中变量取10表示法定假日、11表示双休日、00表示工作日。
步骤2)构建不同时期的复杂网络并对网络进行分析:
行业的发展除了受自身内部因素的影响,也将受到上下游产业链上其他行业的影响,而高频的行业耗电量数据可被用于挖掘行业间的上下游产业链关系,通过借 助复杂网络算法刻画行业间相互影响、相互传导的上下游关联关系网络,复杂网络 模型来描述行业间的相关联关系和演化的网络关系,其可以识别行业与行业之间的 上下游关系,从而挖掘行业间的上下游产业链,实时掌握错综复杂的产业结构。
对于动态产业结构,设定一定长度的窗口和滚动长度,选取该窗口长度内的数 据构建当期复杂网络模型,并通过将数据窗口向后平移相应的滚动长度获取新的窗 口内数据构建新一期的复杂网络模型,重复该过程得到动态复杂网络结果,通过动 态调整并及时进行更新,可以识别产业结构的动态变化,从而实时掌握产业结构动 态调整的过程,理清行业间错综复杂的产业链条。在复杂网络模型中,有向复杂网 络模型主要包含三个组成部分,分别是网络中的节点、边、方向,下面将介绍构建 复杂网络模型使用的模型和算法。
复杂网络模型中的每个节点表示一个行业,节点的大小用行业的平均日冻结电量的增长率来表示。对于每一个行业生产景气状况指数,必须是一个没有工作日周 期、季节周期切平稳的时间序列数据,按照时间序列数据弱平稳的要求,该序列须 为均值为常数且任意阶的自相关系数趋于零,也即是逐渐趋于一个白噪声序列,本 发明使用单位根检验的方法检验序列的平稳性:
(1-ρL)xt=εt (3)
E[ε]=0,V(ε)=σ<∞,Cov(ε,ε)=μ<∞ (4)
其中L为滞后算子,εt为一个白噪声序列。如果|ρ|<1时间序列为平稳序 列,利用该方法对所有行业用电增长率的时间序列数据进行单位根检验。
对于各个行业间的影响程度,使用皮尔森相关系数衡量。一般而言,皮尔森相 关性可以用来计算两个序列的相似程度(一阶相似),其公式如下:
Figure BDA0002592714850000111
其中,xt,yt分别为两个行业的时间序列数据,
Figure BDA0002592714850000112
分别为两个行业的时间序 列数据的平均值,T为数据长度。如果相似程度rxy在95%的置信水平非零,则记为 两个节点之间连线的权重(边)。由于行业间即使没有相关关系,其相关系数也可 能是一个绝对值较小不为零的值,因此,相关系数必须大于设定的阈值才算作存在 行业间的关联,由此可以排除那些关联性微弱甚至没有关联的行业,通过对所有行 业进行两两相关性分析,即可得到所有行业之间的相互关联程度。
在确定了行业与行业的相关关系之后,还需要确定两两行业之间的驱动关系是否存在以及影响传递所需要的时间,本发明利用最小化Akaike信息量准则(AIC) 判断行业之间相互影响行为发生的期数,即先导行业的景气状况发生变化,该变化 经过多少期滞后将会传导到受影响行业,其公式如下:
Figure BDA0002592714850000113
其中,k为回归变量的个数,n为样本的规模,
Figure BDA0002592714850000114
SSE为回归的残 差平方和,同时基于自回归的格兰杰因果检验模型来检验驱动关系是否存在,即两 两行业之间的驱动关系是否在统计关系上有以下关系,表达式为:
Figure BDA0002592714850000121
Figure BDA0002592714850000122
其中,残差μtt是平均值为0、方差为常数的正态分布,p、q为滞后阶数, t表示目标行业,xt表示先导行业,这里q已由上面AIC最小化信息量准则得出。 备择假设为系数βj不全为零,如果假设成立则xt是yt发生变化的原因,由F检 验确定。本发明进行了所有行业两两间滞后期数判断和格兰杰因果关系检验,确定 了所有行业两两间的驱动关系、传递期数以及相关联程度。为了去除网络中的冗余 信息,使用最小生成树(MST)和平面最大滤波图(PMFG)对原始网络进行修剪,以 保留网络中最重要的信息。
在复杂网络中,反映网络中点重要性的变量是点的度和强度,与一个点连接的 其他点的个数称为该点的度,对该节点连接的边的权重求和得到该点的强度,朝向 该点的边数为入度,反之为出度,加权后的出度可以反映该节点能够影响的其他行 业的程度,可以用来表示该行业在网络中的重要性并进行排序。
对于最重要的行业,复杂网络结果往往同时给出很高的入度和加权入度,即与 该行业强相关的其他行业数较多,这些行业的发展或多或少都会影响中心行业的发 展,但这些行业相互之间也可能存在非常强的相关关系。如果把所有的相关性较强 的行业都当作影响中心行业用电的因素来对中心行业进行预测,则可能导致多重共 线性问题,可能使最终的预测结果不准确或不显著。因此,在进行预测之前需要在 保留先导行业的基础上去除多重共线性,本发明使用的方法是如果两个先导行业同 时和中心行业存在强相关关系,且这两个行业之间存在强相关关系,则将与中心行 业相关联程度较小的行业去掉,如图3所示。
通过对每个行业进行阈值的筛选,加权入度计算和排序,将行业按重要性排序,通过复杂网络模型,清楚地发现了行业之间的上下游关联关系和内部运作的社团结 构,本发明将利用这种上下游关系寻找影响某个中心行业用电的各种因素,即与其 相关性最强的相互独立的行业,并用来对用电增长进行预测。在相关影响行业的选 取方面,通过对所有相关行业的相关系数排序和多重共线性分析之后,可以得到每 个行业对应的影响其发展的相互独立的行业。
步骤3)提取网络指标并运用隐马尔可夫状态转移模型进行预测:
行业生产的扩张与收缩会受到生产性因素和非生产性因素的影响,而行业生产是否景气只与生产性因素有关,因此通过控制行业自身及上下游行业对生产的影响, 扣除耗电量中非生产性因素造成的干扰,将使耗电量更能精准地反映各行业生产强 度的变化,从而更加真实客观地监测经济运行,评估各行业经济发展趋势。一般而 言,行业的生产受三类因素的影响,第一类为行业本身因素的影响,包括该行业需 求端、供给端等各类因素。第二类为该行业上下游产业的发展,这类因素将通过产 业链的传导影响该行业发展。第三类为纯粹的外部因素,如天气、节假日等因素。 前两类即为影响行业发展的生产性因素,第三类为影响行业生产的非生产性因素, 而行业的生产景气程度是由该行业本身以及上下游产业链传导等内部因素决定,与 外部因素无关,因此,必须排除非生产性因素的干扰,使耗电量更准确地反映行业 生产强度的变化。因此,定义行业的生产景气程度为扣除外部因素后,纯粹由行业 自身及产业结构等内部因素导致的生产的扩张或缩减,行业扩张或缩减的示意图如 图4所示。
用电量作为企业生产要素的一种投入,在短期内其变化可以代表该企业这段时间内生产的扩张或缩减,由于用电量的变化受三类因素的影响,即不仅仅和行业自 身的发展相关,还和先导行业的用电量变化、先导行业在网络中状态相关,此外, 也会受到外部天气情况、节假日等外部因素的影响,因此,通过结合复杂网络模型, 控制产业结构因素的影响,并结合天气等纯粹的外部因素,建立隐马尔科夫模型进 行预测。假设中心行业受到其他因素的影响是线性的,在此条件下建立隐马尔可夫 模型,其中,状态S的响应函数为:
Figure BDA0002592714850000131
Figure BDA0002592714850000132
其中,dyt表示中心行业的用电量增长率,xj表示先导行业的变量,包括Nrela相关行业数、
Figure BDA0002592714850000133
用电量增长率的加权平均值、
Figure BDA0002592714850000134
入度强度加权平均值、
Figure BDA0002592714850000135
出度强度加权平均值,其中,相关行业的权重为与目标行业的相关系数, 加权用电量中考虑先导行业的行为到中心行业的传导期数。当该行业的产业结构上 下游关系发生变化时,复杂网络模型给出的各个行业的相关系数以及相关的行业也 会发生变化,此时产业结构的动态特征则反映在了该指数中。Outk,t表示所有外 部影响因子,包括温度、温度平方、降雨、风速、气压、湿度、休息日、周末等, n为外部因素个数。ciijij都是将要估计的参数。隐马尔可夫模型的状态不能 直接观察到,但可以通过观测向量序列观察,每个观测向量都是通过某些概率密度 分布表现为各种状态,设εt(i)为均值为0、方差为
Figure BDA0002592714850000141
的正态分布,以此表示该状 态的条件概率分布,公式为:
Figure BDA0002592714850000142
隐马尔可夫模型进行预测的核心是认为当前值为各个状态值的叠加,因此,进 行预测之前需要确定各个状态之间的转移概率,如果总状态数为Ns,则转移矩阵为:
Figure BDA0002592714850000143
其中,γij=p(St=i,St+1=j)是系统从一个状态i转移到另一个状态j的 概率,是时间相关的。由于马尔可夫模型的假设是下一时刻所有状态发生的概率只 与当前状况有关,与历史情况无关,则如果已知初始时刻所有状态的概率和状态转 移矩阵,则可以求出每个时刻的状态概率。任意时刻所有状态概率之和为1,所以 总的独立参数包括所有状态初始概率、转移矩阵、各个状态线性回归系数和方差, 因此总自由度为:
Figure BDA0002592714850000144
利用隐马尔科夫状态转移模型,不仅可以利用不同状态的叠加预测未来一段时间内各行业耗电量的增长情况,还可以将与行业生产景气无关的因素进行剔除。例 如因节假日休息导致的耗电量的减少,天气炎热使用空调造成的耗电量的增多等等, 这些与生产无关的因素导致的用电量增减和真实的经济运行无关,如果不加以修正 或剔除与生产无关的因素导致地电量增减,以掺杂“杂质”的耗电量反映经济运行将 存在很大的偏误,通过利用隐马尔科夫模型,本发明成功实现上述两个目标。
步骤4)分行业构建基于电力运行数据的生产强度景气指数并与产值增速进行 对比:
在确定隐马尔可夫模型的各个因素后,通过EM算法求解出隐马尔可夫模型 (HMM模型)所有参数系数、转移矩阵和状态概率,则下一刻的电力增长率可以 预测为:
Figure BDA0002592714850000145
其中,
Figure BDA0002592714850000146
是t时刻所有状态的概率向量,Γ为转移矩阵,
Figure BDA0002592714850000147
是系统 每个状态的经济发展增长率向量。dy′t+1是下一时刻所有状态经济增长率加权之 和,用来确定下一时刻的电力增长率。而纯粹来自行业自身发展和相关行业发展导 致的用电量增长率等于总用电增长率扣除天气、节假日等外生因素的影响,因此与 该行业生产景气状况有关的电量变化为:
Figure BDA0002592714850000151
对于不同状态,外生因素的系数明显不同。调整后的增长率即该行业的生产景 气状况,一般而言,如果该值大于零则该行业生产景气的可能性较大,该值小于零 则该行业生产不景气可能性较大,对于景气和不景气,以100为临界值进行划分, 通过对不同的调整后电力增长率赋予不同的权重构建行业生产景气指数,定义公式 如下:
Figure BDA0002592714850000152
其中,W(x)为赋值函数,该函数的主要将调整后不同状态下的耗电量增长率 标准化为通用的指数,其中t1、t2为时间区间,PIT表示在[t1,t2]时间范围内的生产 景气指数,其大小位于[0,200]之间,具体划分标准为:175以上为“非常景气”区 间,[175,125)为“较为景气”区间,[125,100)为“微弱景气”区间,100为景气临 界点,(100,75)为“微弱不景气”区间,(75,50]为“相对不景气”区间,(50,25]为“较 为不景气”区间。(25,0)非常不景气,具体图示如图5所示。
对于大类行业的景气状况,以中类行业的平均用电量为权重,将该大类行业所 涵盖的中类行业进行加权平均,从而得到大类行业的景气状况,其生产景气指数的 公式为:
Figure BDA0002592714850000153
其中,n为该大类行业包含的中类行业数,Ele为该大类行业样本期内的平均 用电量,Elei为第i个中类行业样本期内的平均用电量、PITi为中类行业的景气状 况
本发明基于企业电力大数据构建行业景气指数,由于采用了高密度的实时电力数据,对于政府精细化监控经济运行趋势具有重要意义,一方面它解决了现行耗电 量统计集中于宏观层面且频次低的难题。当前,政府统计部门的数据无论是分地区 还是分行业,乃至诸多具体产品的数据已经实现了定期公布,而耗电量数据却只有 全国或省一级的数据,各省分行业层面的耗电量数据则是更少,而且数据往往按月 公布,频次低,更新速度慢,不能实现实时更新,在当前形势多变的经济背景下, 这将不利于及时监测经济运行,及时进行宏观调控以稳定经济运行。另一方面,上 述技术方案克服了以后分析中受非生产性因素的干扰,原始耗电量反映经济运行能 力弱的问题。企业的耗电量不仅会受到与生产相关因素的影响,也会受到与生产无 关因素的影响,例如因节假日休息导致的耗电量的减少,天气炎热使用空调造成的 耗电量的增多等等,而这些与生产无关的因素导致的用电量增减和真实的经济运行 无关,对原始耗电量如果不加以修正或剔除与生产无关的因素导致地电量增减,以 掺杂“杂质”的耗电量反映经济运行将存在很大的偏误。
实施例
(1)企业电力数据获取与识别
上海市统计局2018年初根据企业的主营业务收入年主营业务收入2000万元及 以上的法人工业企业)确立了8100多家规模以上的工业企业,为了得到以上规模 以上的企业的用电量数据,通过利用企业的户号、名称、地址与在国网上海营销部 数据库进行匹配,实际共得到5917家规上企业的日冻结用电量数据,由于部分规 模以上企业其电量缴费是通过所在产业园区的物业进行同一缴纳,因此无法在国网 上海营销部数据库中得到,也有一部分企业其实际生产地址并不在上海市内,而是 在其他省份,因此在也无法得到这一部分企业的用电量数据,此外,由于企业名称 变更、电费缴纳信息不全的等原因也有部分企业未匹配上相关电力信息。通过根据 8100多家规模以上企业的名称、地址等信息匹配其电力数据,共计匹配到5917家 企业电力信息,包含9576个户号;时间跨度为2015年8月1日至2019年1月31 日,共计1280天。
通过对实际匹配到的企业进行统计,发现大部分中类行业其匹配到的企业数都达到规模以上企业总数的75%以上,少部分行业由于行业包含的企业数较少,因 而比例较低,但上海市的重点行业如汽车零部件及制造行业(行业代码:3670)、塑 料制品业(行业代码:2910)包含规模以上企业达到500多家,匹配到的企业数占 该行业规模以上企业总数的比例均在75%以上,匹配比率较低的行业,其包含的 样本数本身较少,且不是上海市支柱型产业,因而未匹配上的企业不会对关注的重 点行业产生较大影响
相关气象数据统计描述如表1所示,所利用的温度是指一天中的最高气温,降 水是指降水没有蒸、渗透和损失,在一定的时间内平均每小时降水,相对湿度是用 来测量空气中水蒸气的量,其数值为一个百分比,通过从气象数据中选取上述5个 指标,并结合节假日作为需要控制的非生产性因素,将其加入后面所要建立的隐马 尔科夫预测模型中,以便排除非生产性因素的干扰,使耗电量更准确地反映行业生 产强度的变化,因为行业生产的扩张与收缩会受到生产性因素和非生产性因素两方 面的影响,而行业生产是否景气只与生产性因素有关,因此通过控制行业自身及上 下游行业对生产的影响,扣除耗电量中非生产性因素造成的干扰,将使耗电量更能 精准地反映各行业生产强度的变化,从而更加真实客观地监测经济运行,评估各行 业经济发展趋势。一般而言,当用电增长率为正时,该行业生产景气的可能性更大, 用电增长率为负,行业生产不景气的可能性更大。
表1气象数据得描述统计
变量(单位) 均值 标准差 中值 最大值 最小值 观测数
温度(℃) 21.55 9.03 22.40 40.00 -4.10 1279
降水(mm/h) 0.12 0.35 0.00 7.00 0.00 1279
风速(m/s) 2.17 0.90 2.11 6.58 0.03 1279
气压(hpa) 1016.45 8.84 1016.74 1039.45 994.69 1279
湿度(%) 74.92 13.14 76.27 99.74 22.39 1279
(2)基于规模以上企业电力数据构建行业间复杂网络
通过复杂网络模型,非常清楚地发现了行业之间的上下游关联关系和内部运作的社团结构,将利用这种上下游关系寻找影响某个中心行业用电的各种因素,即与 其相关性最强的相互独立的行业,并用来对用电增长进行预测。在相关影响行业的 选取方面,通过对所有相关行业的相关系数排序和多重共线性分析之后,可以得到 每个行业对应的影响其发展的相互独立的行业。
如图8和9所示,利用最小生成树(MST)算法和极大平面过滤图(PMFG) 对行业间的关系网络进行处理,最小生成树可以发现一个行业对另外一个行业产生 影响的最短路径,极大平面过滤图可以实现网络裁剪,保留行业间的关系网络最有 效的信息,图8和图9为处理后的42期期网络图,其各自的时间跨度为2018年1 月—2018年12月和2018年2月到2019年1月。
MST的网络图直接显示了行业之前的信息传输路径。处于中部的行业的影响 可以在很短的时间内通过各种途径传输到整个网络,而边缘行业既需要较长的时间 将信息传输出去,其传递又需要中心产业的连接和转移。MST的最大距离为18.7, 平均距离为7.6。当边缘行业受到攻击并改变其经济行为时,只有与其直接相关的 部门立即受到影响;该行业可以将攻击传播到其他相关行业,在传播过程中影响的 效果会发生变化和降低。向整个网络传输攻击最多需要18.7个单位,平均需要7.6 个单位的距离。如果第一个行业中心受到影响,所有与其相关的行业会立即将受到 影响,将影响迅速蔓延整个网络。因此,复杂网络模型非常适合描述“牵一发而动全 身”的情况,特别是在经济变化或政策出台时,其将对通过网络传导刻画各个行业 受到的影响,从而捕获行业上下游因素的影响。PMFG的网络可以对原始的网络进 行简化,在保留关键行业信息的基础上,剔除不重要的行业关联,从而对网络进行 裁剪,抓住主要上下游行业对目标行业的影响,从而利用网络描述整个产业链的传 导。
(3)利用隐马尔可夫模型构建生产景气指数
这里以铸造及其他金属制品制造行业为例估计隐马尔可夫模型,经过复杂网络的筛选,可以获取与中心行业用电相关且相互独立的一些行业,结合气象数据对核 心行业利用隐马尔可夫模型估计其完全由于行业发展带来的用电增长状况。这里没 有考虑其他的因素,如宏观经济状况、价格指数等,认为这些因素已经包含在所考 虑的相关的行业中,不需要单独进行分析,如果引入这些因素同样有可能导致多重 共线性。
由上述复杂网络模型的筛选方法给出影响铸造及其他金属制品制造行业用电 行为且相互独立的行业,用行业代码表示各个行业,从2015年8月的时间开始, 假设系统存在景气和不景气两种状态,每个状态的残差为正态分布。结合复杂网络 模型给出的相关行业加权入度、加权出度,以及相关行业用电量对称增长率,外部 天气和节假日等因素,建立隐马尔可夫模型对目标行业的经济景气状况进行分解。
以铸造及其他金属制品制造行业(行业代码:3390)为例,在拟合过程中,由 于天气的数据较大,为了模型预测结果的可读性,对所有数值除以100,最终的拟 合结果如图10所示。
图10可以看出,原始的用电增长率数据涨落很大,而隐马尔可夫模型可以成 功拟合数据的变化规律,说明利用隐马尔科夫预测耗电量得增长是有效的,该模型 成功拟合了行业耗电量增长的趋势和周期性。通过设定两种状态,即景气状态和不 景气状态,而任何一个时间段的状态是由两个状态相互叠加决定的,每个状态的残 差都服从正态分布。
通过隐马尔科夫预测模型可以分离出景气状态与不景气状态,一般而言当调整后的用电增长率大于0时经济更多处于景气状态,而小于0时经济更多处于不景气 状态,将利用隐马尔科夫的这两种状态所反映出来的耗电量增长率构造生产景气指 数。经过调整后的用电增长率可以反映该行业当前的景气状况,其中在状态转移模 型中,通过第二节定义的赋值函数,对调整后的用电量进行标准化,对大于0的状 态定义为景气状态,赋值为大于100的指数,对于小于0的状态定义为不景气状态, 赋值为小于100的指数。
在利用景气状态概率构建日度生产景气指数基础上,可以看到景气与不景气状态互相转换,在一定时间内景气状态占据主导,下一个时间段则会切换不景气状态。 由于景气是一定时间范围内经济运行的状况,因此分别以月、季度为时间段,将日 度的景气状态加总,加总到月即可得到月度景气指数,加总到季度得到季度景气指 数。铸造及其他金属制品制造行业月度和季度生产景气指数结果图11和图12所示。

Claims (10)

1.一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,包括以下步骤:
1)获取行业内企业的用电信息,并进行清洗和修正;
2)根据中类行业的用电量数据构建不同时期的复杂网络模型,用以描述行业间相互影响、相互传导的上下游关联关系;
3)提取复杂网络模型的网络指标并采用隐马尔可夫状态转移模型进行工业行业景气指数预测。
2.根据权利要求1所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤1)具体包括以下步骤:
11)利用数据异常识别方法识别出电量为负和电量异常大的值后剔除;
12)按照总体有效数据的10%的剔除标准,剔除有效数据较少的企业用电信息;
13)使用样条插值和线性插值相结合的方法进行数据补全和修正,得到所有企业完整的用电时间序列数据,将同一行业内的企业用电信息汇总得到所有行业的用电量数据;
14)根据所有行业的用电量数据获取所有行业用电增长率的时间序列数据,并通过单位根进行平稳性检验。
3.根据权利要求1所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤2)中,复杂网络模型中的每个节点代表一个行业,节点的大小采用行业的平均日冻结电量的增长率表示,复杂网络模型中的边采用各个行业间的影响程度表示,每两个行业间的影响程度通过皮尔森相关系数rxy衡量,并剔除皮尔森相关系数低于设定阈值的边,复杂网络模型中的方向采用每两个行业之间的驱动关系表示,具体采用自回归的格兰杰因果检验模型来检验驱动关系是否存在,并通过最小化Akaike信息量准则判断行业之间相互影响行为发生的期数。
4.根据权利要求3所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,皮尔森相关系数的表达式为:
Figure FDA0002592714840000011
其中xt、yt分别为两个行业的时间序列数据,
Figure FDA0002592714840000021
分别为两个行业的时间序列数据的平均值,T为数据长度。
5.根据权利要求4所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤2)中,采用最小生成树和平面最大滤波图对原始的复杂网络模型进行修剪去除网络中的冗余信息。
6.根据权利要求4所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,在复杂网络模型中,在保留先导行业的基础上进行去除相关行业多重共线性,具体为:
如果两个先导行业同时与中心行业存在强相关关系,且这先导两个行业之间也存在强相关关系,则将与中心行业相关联程度较小的先导行业剔除。
7.根据权利要求1所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤3)中,设定中心行业受到其他因素的影响为线性,在此条件下建立隐马尔可夫模型,其中,状态S=i的响应函数为:
Figure FDA0002592714840000022
其中,dyt为中心行业的用电量增长率时间序列,xw,t为第w个先导行业的变量,包括相关行业数Nrela、用电量增长率的加权平均值
Figure FDA0002592714840000023
入度强度加权平均值
Figure FDA0002592714840000024
以及出度强度加权平均值
Figure FDA0002592714840000025
其中,相关行业的权重为与目标行业的相关系数,m为先导行业的变量总数,t表示时间,Outk,t表示第k个外部影响因子,包括温度、温度平方、降雨、风速、气压、湿度、休息日和周末影响,n为外部因素总数,ciiwik均为在状态i下的估计参数,εt(i)为均值为0、方差为
Figure FDA0002592714840000026
的正态分布。
8.根据权利要求7所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤3)中,在采用隐马尔可夫模型进行预测时,当前值为各个状态值的叠加,根据EM算法求解隐马尔可夫模型的所有参数系数、转移矩阵和状态概率,进而预测下一时刻的电力增长率,则有:
Figure FDA0002592714840000027
Figure FDA0002592714840000028
其中,dy′t+1为下一时刻所有状态经济增长率加权之和,用以确定下一时刻的电力增长率,
Figure FDA0002592714840000029
为t时刻所有状态的概率向量,Γ为转移矩阵,
Figure FDA00025927148400000210
为每个状态的电力增长率向量,γij表示从一个状态i转移到另一个状态j的概率,Ns为状态总数。
9.根据权利要求8所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,所述的步骤3)中,来自行业自身发展和相关行业发展导致的用电量增长率等于总用电增长率扣除外生因素的影响,则调整与该行业生产景气状况有关的电量变化,通过对调整后电力增长率赋予不同的权重计算中类行业v的生产景气指数PIT,则有:
Figure FDA0002592714840000031
其中,W(x)为赋值函数,该函数用以将调整后不同状态下的电量增长率标准化为通用的指数,t1、t2为时间区间上下限,PITv为在[t1,t2]时间范围内的行业生产景气指数,其大小位于[0,200]之间,且设定100为是否景气的判断临界点,具体划分标准为:
175以上代表“非常景气”区间;
[175,125)代表“较为景气”区间;
[125,100)代表“微弱景气”区间;
(100,75)代表“微弱不景气”区间;
(75,50]代表“相对不景气”区间;
(50,25]代表“较为不景气”区间;
(25,0)代表“非常不景气”区间。
10.根据权利要求9所述的一种基于企业电力大数据的工业行业景气指数获取方法,其特征在于,在得到当前中类行业的生产景气指数后,计算得到大类行业的景气指数,则有:
Figure FDA0002592714840000032
其中,V为该大类行业包含的中类行业总数,Ele为该大类行业样本期内的平均用电量,Elev为第v个中类行业样本期内的平均用电量,PITv为第v个中类行业的景气状况。
CN202010700143.9A 2020-07-20 2020-07-20 一种基于企业电力大数据的工业行业景气指数获取方法 Pending CN111861206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010700143.9A CN111861206A (zh) 2020-07-20 2020-07-20 一种基于企业电力大数据的工业行业景气指数获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700143.9A CN111861206A (zh) 2020-07-20 2020-07-20 一种基于企业电力大数据的工业行业景气指数获取方法

Publications (1)

Publication Number Publication Date
CN111861206A true CN111861206A (zh) 2020-10-30

Family

ID=73001589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700143.9A Pending CN111861206A (zh) 2020-07-20 2020-07-20 一种基于企业电力大数据的工业行业景气指数获取方法

Country Status (1)

Country Link
CN (1) CN111861206A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348281A (zh) * 2020-11-23 2021-02-09 国网北京市电力公司 电力数据的处理方法和装置
CN114756605A (zh) * 2022-06-14 2022-07-15 之江实验室 一种基于时间序列数据的混频预测方法及系统
WO2023028842A1 (zh) * 2021-08-31 2023-03-09 西门子股份公司 工厂运营的预测方法、装置及计算机可读存储介质
CN116358107A (zh) * 2023-05-10 2023-06-30 南京群顶科技股份有限公司 一种基于预调控的温感空调权重关系计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701729A (zh) * 2016-01-29 2016-06-22 江苏省电力公司电力经济技术研究院 一种基于电力景气指数的电量预测方法
CN110084398A (zh) * 2019-03-15 2019-08-02 国网上海市电力公司 一种基于企业电力大数据的行业景气自适应检测方法
CN111191962A (zh) * 2020-01-10 2020-05-22 国网江苏省电力有限公司 全方位电力经济景气指数的分析系统及其分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701729A (zh) * 2016-01-29 2016-06-22 江苏省电力公司电力经济技术研究院 一种基于电力景气指数的电量预测方法
CN110084398A (zh) * 2019-03-15 2019-08-02 国网上海市电力公司 一种基于企业电力大数据的行业景气自适应检测方法
CN111191962A (zh) * 2020-01-10 2020-05-22 国网江苏省电力有限公司 全方位电力经济景气指数的分析系统及其分析方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348281A (zh) * 2020-11-23 2021-02-09 国网北京市电力公司 电力数据的处理方法和装置
WO2023028842A1 (zh) * 2021-08-31 2023-03-09 西门子股份公司 工厂运营的预测方法、装置及计算机可读存储介质
CN114756605A (zh) * 2022-06-14 2022-07-15 之江实验室 一种基于时间序列数据的混频预测方法及系统
CN114756605B (zh) * 2022-06-14 2022-09-16 之江实验室 一种基于时间序列数据的混频预测方法及系统
CN116358107A (zh) * 2023-05-10 2023-06-30 南京群顶科技股份有限公司 一种基于预调控的温感空调权重关系计算方法
CN116358107B (zh) * 2023-05-10 2023-09-12 南京群顶科技股份有限公司 一种基于预调控的温感空调权重关系计算方法

Similar Documents

Publication Publication Date Title
CN111861206A (zh) 一种基于企业电力大数据的工业行业景气指数获取方法
CN111222290A (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
CN108053110B (zh) 一种基于pmu数据的变压器状态在线诊断方法
CN111639823B (zh) 一种基于特征集构建的建筑冷热负荷预测方法
CN111665575B (zh) 一种基于统计动力的中长期降雨分级耦合预报方法及系统
CN113496314B (zh) 一种神经网络模型预测道路交通流量的方法
CN111401599A (zh) 一种基于相似性搜索和lstm神经网络的水位预测方法
CN114676822B (zh) 一种基于深度学习的多属性融合空气质量预报方法
CN110084398A (zh) 一种基于企业电力大数据的行业景气自适应检测方法
CN106600037B (zh) 一种基于主成分分析的多参量辅助负荷预测方法
CN108415884B (zh) 一种结构模态参数实时追踪方法
CN111784023A (zh) 一种短时邻近雾能见度预测方法
CN105184388A (zh) 一种城市电力负荷短期预测的非线性回归方法
Silalahi Forecasting of Poverty Data Using Seasonal ARIMA Modeling in West Java Province
CN110196456A (zh) 一种基于相似年灰色关联分析的中长期降雨径流预报方法
CN111723085B (zh) 公共建筑空调用电能耗数据清洗方法及系统
CN113537336A (zh) 基于XGBoost的短临雷雨大风的预测方法
CN112686442A (zh) 基于运行多样性空调末端能耗预测方法和系统
CN107977727B (zh) 一种基于社会发展和气候因素预测光缆网阻断概率的方法
CN115796915A (zh) 一种面向电力交易市场的电价预测方法及系统
CN115860797A (zh) 一种适应新电价改革形势的电量需求预测方法
CN114564487A (zh) 预报预测相结合的气象栅格数据更新方法
CN112380778A (zh) 一种基于海温的气象干旱预报方法
CN117670000B (zh) 基于组合预测模型的泵站供水量预测方法
CN116703657B (zh) 一种基于bim模型的房建工程施工管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination