CN110110737A - 基于用电数据的企业生命周期阶段识别方法及识别系统 - Google Patents
基于用电数据的企业生命周期阶段识别方法及识别系统 Download PDFInfo
- Publication number
- CN110110737A CN110110737A CN201910204451.XA CN201910204451A CN110110737A CN 110110737 A CN110110737 A CN 110110737A CN 201910204451 A CN201910204451 A CN 201910204451A CN 110110737 A CN110110737 A CN 110110737A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- electricity consumption
- life cycle
- consumption data
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000007423 decrease Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000003066 decision tree Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 230000012010 growth Effects 0.000 claims description 62
- 230000008859 change Effects 0.000 claims description 16
- 238000003064 k means clustering Methods 0.000 claims description 9
- ONUFESLQCSAYKA-UHFFFAOYSA-N iprodione Chemical compound O=C1N(C(=O)NC(C)C)CC(=O)N1C1=CC(Cl)=CC(Cl)=C1 ONUFESLQCSAYKA-UHFFFAOYSA-N 0.000 claims description 4
- 230000001737 promoting effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000035800 maturation Effects 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- CWYNVVGOOAEACU-UHFFFAOYSA-N Fe2+ Chemical compound [Fe+2] CWYNVVGOOAEACU-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003723 Smelting Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及企业运营技术领域,尤其涉及一种基于用电数据的企业生命周期阶段识别方法及识别系统。该方法包括以下步骤:步骤S1、采集目标行业的用电量数据及该目标行业内多个企业的用电数据;步骤S2、确定企业的生命周期类型;步骤S3、构建企业特征;步骤S4、对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;步骤S5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。本发明以目标行业及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有易于实现和准确率高的优点。
Description
技术领域
本发明涉及企业运营技术领域,尤其涉及一种基于用电数据的企业生命周期阶段识别方法及识别系统。
背景技术
企业生命周期理论是企业管理研究的重要理论之一。该理论认为企业的发展过程如同生物体全生命过程一样,存在着从出生、成长、成熟、衰老到死亡的周期性。研究成果达成的一致性观点包括不同的生命周期理论根据划分依据或者判定方法不同给企业划分了不同的发展阶段,处于不同发展阶段的企业可能面临不同的陷阱且有必要据此制定适应性的权变发展策略。如果不能明确地判定企业所处的生命周期发展阶段,则无法准确地为企业把脉,无法采取有效的措施来规避企业可能面临的发展陷阱。因此,站在企业生命周期管理的视角上看,识别企业所处的发展阶段是首要任务。
目前,有关企业生命周期的实证研究还比较少,这主要是因为比较难拿到高质量的企业数据。尤其当研究对象是很少对外披露信息的中小企业时,这个困难尤甚。
因此,急需一种基于用电数据的企业生命周期阶段识别方法及识别系统。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于用电数据的企业生命周期阶段识别方法及识别系统。
本发明的一个方面,提供了一种基于用电数据的企业生命周期阶段识别方法,包括以下步骤:
步骤S1、采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,n为大于等于4的偶数;
步骤S2、将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型;
步骤S3、根据企业的用电数据构建各企业的企业特征;
步骤S4、根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;
步骤S5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
进一步地,步骤S2具体包括以下步骤:
步骤S21、将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据;
步骤S22、将各企业的用电量数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
步骤S23、将目标行业连续n个季度的用电量数据分别代入公式:
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,An为目标行业在第n个季度的用电量;
步骤S24、将R1与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期。
进一步地,步骤S3中采用K-means聚类算法构建各企业的企业特征。
进一步地,步骤S4中采用SMOTE方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
进一步地,步骤S5中利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
本发明的第二个方面,提供了一种实现上述中所述方法的基于用电数据的企业生命周期阶段识别系统,包括:
用电数据采集模块,用于采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,并发送至生命周期类型确定模块和企业特征构建模块,n为大于等于4的偶数;
生命周期类型确定模块,用于将各企业用电数据中的用电量数据与目标行业的用电数据进行对比,得到各企业的生命周期类型,并发送至企业训练样本集计算模块;
企业特征构建模块,用于根据企业的用电数据构建各企业的企业特征,并发送至企业训练样本集计算模块;
企业训练样本集计算模块,用于根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,将得到的企业训练样本集发送至企业生命周期阶段识别模型计算模块;
企业生命周期阶段识别模型计算模块,用于根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
进一步地,生命周期类型确定模块包括:
用电数据划分单元,用于将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据,发送至企业用电量平均增长率计算单元和目标行业用电量平均增长率计算单元;
企业用电量平均增长率计算单元,用于将各企业的用电量数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
目标行业用电量平均增长率计算单元,用于将目标行业连续n个季度的用电量数据分别代入公式
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,An为目标行业在第n个季度的用电量;
对比单元,用于将R1与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期,将各企业的生命周期类型发送至企业训练样本集计算模块。
进一步地,企业特征构建模块采用K-means聚类算法构建各企业的企业特征。
进一步地,企业训练样本集计算模块采用SMOTE方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
进一步地,企业生命周期阶段识别模型计算模块利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
本发明提供的基于用电数据的企业生命周期阶段识别方法及识别系统,与现有技术相比具有以下进步:本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有易于实现、系统结构和方法操作简单和准确率高的优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例中基于用电数据的企业生命周期阶段识别方法的步骤图;
图2为本发明方法实施例中步骤2具体实施时的步骤图;
图3为本发明实施例中基于用电数据的企业生命周期阶段识别系统的器件连接框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例提供了一种基于用电数据的企业生命周期阶段识别方法及识别系统。
如图1,本实施例的基于用电数据的企业生命周期阶段识别方法,包括以下步骤:
步骤S1、采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,n为大于等于4的偶数;
步骤S2、将各企业的用电量数据与目标行业用电数据中的用电量数据进行对比,得到各企业的生命周期类型;
步骤S3、根据企业的用电数据构建各企业的企业特征;
步骤S4、根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;
步骤S5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有方法易于实现、操作步骤简单和企业生命周期阶段识别的优点。
步骤S1中,目标行业连续n个季度的用电量数据以及该目标行业内多个企业的连续n个季度用电数据中的用电量数据均可以通过电网公司每季度都对外公布的,比如冀北地区建筑行业、交通运输行业、黑色金属加工及冶炼行业等行业用电数据获得。其中,用电数据包括用电量数据、负荷曲线数据功率曲线、合同容量数据等。
如图2,具体实施时,步骤S2具体包括以下步骤:
步骤S21、将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据;
步骤S22、将各企业的用电量数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
步骤S23、将目标行业连续n个季度的用电量数据分别代入公式:
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,A.为目标行业在第n个季度的用电量;
步骤S24、将Rx与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期。该步骤可以用下述表格表示:
企业的生命周期类型判断表格
上述方法步骤的操作比较简单、易于实现,且计算结果准确度较高。
具体实施时,步骤S3中采用K-means聚类算法构建各企业的企业特征。各企业的企业特征分别为开户时长、季度用电量曲线模式、用电行为模式、用电量的季平均变化率、负荷波动的月平均变化率、设备利用小时数的季平均变化率、合同容量的季平均变化率。其中,所用到的企业用电数据包括每15分钟采样一次的准实时的电压、电流和负荷曲线数据,动态的日用电量、运行容量、线路线损水平数据,静态的企业电力档案数据。这些数据主要来自于电网的用电信息采集系统和营销业务应用系统。具体实施时,构建各企业的企业特征还可以使用其他算法,本实施例只是作为举例进行说明。
具体实施时,步骤S4中采用SMOTE方法(Synthetic Minority OversamplingTechnique,合成少数类过采样方法)对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
具体实施时,步骤S5中利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
本实施例的基于用电数据的企业生命周期阶段识别方法的一个工作流程是:根据用电数据计算得到各企业的企业特征为:
(1)开户时长,表征的是企业经营年限。由数据截止时间点减去企业的电网立户日期得到,以月为单位;
(2)季度用电量曲线模式,表征的是企业用电量变化轮廓。基于企业连续n个季度的用电量曲线数据,先根据公式做min-max归一化处理以消除不同规模企业用电量级别不同的影响,再利用K-means聚类方法对曲线数据进行聚类。
其中,代表归一化之后第m个企业第i个季度的用电量,表示第m个企业第i个季度的用电量,和分别表示第m个企业对应季度用电量序列中的最小值和最大值。
K-means算法是一种适用于凸分布数据集的基准聚类技术。其用空间点之间的距离作为样本相异性度量,采用期望最大(EM)原理迭代优化直至K个簇收敛,过程中控制让簇内的样本点尽量内聚以及簇间尽量分离。在E步,已知簇j的聚类中心坐标μj,根据如下公式更新样本点x(i)所属的簇标c(i),
在M步,已知c(i),依据极大似然估计原理根据如下公式来更新μj,
其中m为样本个数,I{c(i)=j}为判断簇标c(i)是否为j的指示函数,非0即1。
(3)用电行为模式,表征的是企业经营模式。同样利用min-max归一化和K-means聚类技术。针对准实时的负荷曲线数据(每15分钟采样一次),每日形成96点日曲线数据,通过对日曲线数据进行均值化处理得到企业的典型日用电行为曲线。均值化处理,比如观察某个企业365天的用电行为数据,因为每天都有96点数据(15分钟一个点数据,24小时有96个点),总共有365*96个点数据。但是为了刻画该企业的“日”用电行为,所以也最好用i=1,…,96个点的数据Qi’刻画“365天的平均效应”,计算Qi’的方式就是所谓的“均值化处理”,即把第1天、第2天、…、第365天的共365天对应的当天的第i点数据Qi(i=1,2,…,96)累加起来除以365天求平均。
(4)用电量的季平均变化率,就是企业n个季度用电量对应的n-1个变化率的平均值。此特征的引入是为了弥补季度用电量曲线模式特征中K-means聚类技术只能定性刻画轮廓而无法定量描述细节的不足。
(5)负荷波动的月平均变化率,反映了企业用电负荷控制的管理水平,从侧面表征了企业生产管理的规范程度。计算方式为先定义月负荷波动率Pi,
其中和分别是某企业第i个月内的最大和最小负荷;再计算两两月负荷波动率的变化率的平均值,该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。
(6)设备利用小时数的季平均变化率,反映了企业生产资料的投产情况,在一定程度上表征了企业生产的景气指数。先得到n个季度的设备平均利用小时数,其等于企业季度用电量除以该季度内的折算运行容量,如某企业在2018年第3季度的前50天的运行容量为D1,后40天的运行容量调整为D2,则该季度的折算运行容量为(D1*50+D2*40)/(50+40);再计算n-1个两两比较的变化率的平均值,该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。
(7)合同容量的季平均变化率,通过企业用电规模预期的自发调整反映了管理者对企业发展经营态势的展望和信心。从用户用电档案数据中提取n个季度内企业合同容量的调整记录,计算n-1个两两变化率的平均值。该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。
得到用电数据和企业的企业特征之后,先对m个企业样本进行分层随机抽样得到p个样本作为训练集种子样本;再计算这p个样本对应企业的5项定距特征值、n个季度的用电量曲线数据和日负荷曲线数据,且一并对其进行SMOTE过采样处理,这样形成了类别平衡的q个样本数据;最后基于上步过采样后的季度用电量曲线数据和日负荷曲线数据利用K-means聚类技术完成另外2项定类特征(季度用电量曲线模式和用电行为模式)的生成。
SMOTE过采样算法的执行流程如下:
Step1:对于失衡类别样本集中的每一个样本x,以空间欧式距离为度量方式确定x的K近邻;
Step2:根据样本类别不平衡情况,确定过采样倍率Q,从x的K近邻中随机选择Q个近邻;
Step3:对于每一个x和xn,根据如下公式线性插值出新样本xnew,
xnew=x+rand(0,1)*(xn-x),n=1,2,...,Q,其中rand(0,1)表示0到1之间的随机数。
采用MetaCost元代价敏感算法对梯度提升决策树模型预测出错的代价矩阵做偏置化处理,即如果把更关心的类别样本预测成其它类别则接受更高的惩罚。MetaCost算法是基于贝叶斯最优预测理论以较小成本将分类器改造成代价敏感模型的算法。MetaCost算法的执行流程如下:
Step1:用M表示原先使用的分类器模型,针对原训练集以Bagging集成学习的方式训练出N个分类器Mn,n=1,2,...,N;
Step2:针对训练集中的每一个样本x,由N个分类器Mn的预测结果计算把x预测成类别j的概率P(j|x),j遍历所有类别;
Step3:根据预定义的代价矩阵元素C(i,j),利用如下公式计算把真实类别为j的样本x预测成类别i的条件风险值,
R(i|x)=∑jP(j|x)C(i,j),
并根据贝叶斯理论的最小化原则,如有必要把样本x的类标签修正为i*;
Step4:依据样本类标签修正后的新训练集,重新训练一个分类器M′,M′即为M的代价敏感改造模型。
分类器M和M′都采用了梯度提升决策树(GBDT)模型框架。
M′模型的最重要调参量为MetaCost算法中的代价矩阵C|i,j。经网格搜索调参,M′模型的查准率和查全率无法同时达到最优。对于处在成熟期和衰退期的失衡企业样本,当C|i,j为如下公式所示时查准率达到最优的83.3%,
而当C|i,j为如下公式所示时查全率达到最优的88.9%
得到企业生命周期阶段识别模型之后,将属于目标行业的任一企业的7个特征输入该模型,就等得到该企业的生命周期阶段。
如图3,本实施例的实现上述实施例中所述方法的基于用电数据的企业生命周期阶段识别系统,包括:
用电数据采集模块,用于采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,并发送至生命周期类型确定模块和企业特征构建模块,n为大于等于4的偶数;
生命周期类型确定模块,用于将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型,并发送至企业训练样本集计算模块;
企业特征构建模块,用于根据企业的用电数据构建各企业的企业特征,并发送至企业训练样本集计算模块;
企业训练样本集计算模块,用于根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,将得到的企业训练样本集发送至企业生命周期阶段识别模型计算模块;
企业生命周期阶段识别模型计算模块,用于根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有系统结构易于实现、系统结构简单和企业生命周期阶段识别准确率高的优点。
如图3,具体实施时,生命周期类型确定模块包括:
用电数据划分单元,用于将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据,发送至企业用电量平均增长率计算单元和目标行业用电量平均增长率计算单元;
企业用电量平均增长率计算单元,用于将各企业的用电量数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
目标行业用电量平均增长率计算单元,用于将目标行业连续n个季度的用电量数据分别代入公式
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,An为目标行业在第n个季度的用电量;
对比单元,用于将R1与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期,将各企业的生命周期类型发送至企业训练样本集计算模块。
具体实施时,企业特征构建模块采用K-means聚类算法构建各企业的企业特征。
具体实施时,企业训练样本集计算模块采用SMOTE方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
具体实施时,企业生命周期阶段识别模型计算模块利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
上述方法实施例改进的内容,也属于系统实施例改进的内容,在系统实施例中不再赘述。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于用电数据的企业生命周期阶段识别方法,其特征在于,包括以下步骤:
步骤S1、采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,n为大于等于4的偶数;
步骤S2、将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型;
步骤S3、根据企业的用电数据构建各企业的企业特征;
步骤S4、根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;
步骤S5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
2.根据权利要求1所述的基于用电数据的企业生命周期阶段识别方法,其特征在于,步骤S2具体包括以下步骤:
步骤S21、将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电量数据分为前n/2、后n/2两个阶段的用电量数据;
步骤S22、将各企业的用电量数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
步骤S23、将目标行业连续n个季度的用电量数据分别代入公式:
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,An为目标行业在第n个季度的用电量;
步骤S24、将R1与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期。
3.根据权利要求2所述的基于用电数据的企业生命周期阶段识别方法,其特征在于,步骤S3中采用K-means聚类算法构建各企业的企业特征。
4.根据权利要求3所述的基于用电数据的企业生命周期阶段识别方法,其特征在于,步骤S4中采用SMOTE方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
5.根据权利要求4所述的基于用电数据的企业生命周期阶段识别方法,其特征在于,步骤S5中利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
6.一种实现权利要求1所述方法的基于用电数据的企业生命周期阶段识别系统,其特征在于,包括:
用电数据采集模块,用于采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,并发送至生命周期类型确定模块和企业特征构建模块,n为大于等于4的偶数;
生命周期类型确定模块,用于将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型,并发送至企业训练样本集计算模块;
企业特征构建模块,用于根据企业的用电数据构建各企业的企业特征,并发送至企业训练样本集计算模块;
企业训练样本集计算模块,用于根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,将得到的企业训练样本集发送至企业生命周期阶段识别模型计算模块;
企业生命周期阶段识别模型计算模块,用于根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
7.根据权利要求6所述的基于用电数据的企业生命周期阶段识别系统,其特征在于,生命周期类型确定模块包括:
用电数据划分单元,用于将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电量数据分为前n/2、后n/2两个阶段的用电量数据,发送至企业用电量平均增长率计算单元和目标行业用电量平均增长率计算单元;
企业用电量平均增长率计算单元,用于将各企业的用电数据分别代入公式:
计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,R1为各企业对应于前n/2阶段的用电量平均增长率,R2为各企业对应于后n/2阶段的用电量平均增长率,Qn为各企业在第n个季度的用电量;
目标行业用电量平均增长率计算单元,用于将目标行业连续n个季度的用电数据分别代入公式
计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,An为目标行业在第n个季度的用电量;
对比单元,用于将R1与R2与进行对比,若R1大于且R2大于则企业的生命周期类型为成长期;若R1小于且R2大于则企业的生命周期类型为成长期;若R1大于且R2小于则企业的生命周期类型为成熟期;若R1小于且R2小于则企业的生命周期类型为衰退期,将各企业的生命周期类型发送至企业训练样本集计算模块。
8.根据权利要求7所述的基于用电数据的企业生命周期阶段识别系统,其特征在于,企业特征构建模块采用K-means聚类算法构建各企业的企业特征。
9.根据权利要求8所述的基于用电数据的企业生命周期阶段识别系统,其特征在于,企业训练样本集计算模块采用SMOTE方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。
10.根据权利要求9所述的基于用电数据的企业生命周期阶段识别系统,其特征在于,企业生命周期阶段识别模型计算模块利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204451.XA CN110110737A (zh) | 2019-03-18 | 2019-03-18 | 基于用电数据的企业生命周期阶段识别方法及识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204451.XA CN110110737A (zh) | 2019-03-18 | 2019-03-18 | 基于用电数据的企业生命周期阶段识别方法及识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110737A true CN110110737A (zh) | 2019-08-09 |
Family
ID=67484386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910204451.XA Pending CN110110737A (zh) | 2019-03-18 | 2019-03-18 | 基于用电数据的企业生命周期阶段识别方法及识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110737A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163781A (zh) * | 2020-10-15 | 2021-01-01 | 国网冀北电力有限公司智能配电网中心 | 基于多维度指标聚类的园区用电群体生命周期评价方法 |
CN115760432A (zh) * | 2022-11-22 | 2023-03-07 | 东方微银科技股份有限公司 | 一种科技企业生命周期的精准定位方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160136950A (ko) * | 2015-05-21 | 2016-11-30 | 한국해양과학기술원 | 선박해양 생애주기의 정보 분류체계 및 기술문서의 구성방법 |
CN106408217A (zh) * | 2016-11-10 | 2017-02-15 | 北京京东金融科技控股有限公司 | 一种产品生命周期的识别方法和装置 |
CN107844917A (zh) * | 2017-12-04 | 2018-03-27 | 杭州云算信达数据技术有限公司 | 一种基于大数据的企业生命周期分析方法和系统 |
CN109359806A (zh) * | 2018-08-29 | 2019-02-19 | 广州巨时信息科技有限公司 | 一种基于大数据的行业生命周期分析方法和系统 |
-
2019
- 2019-03-18 CN CN201910204451.XA patent/CN110110737A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160136950A (ko) * | 2015-05-21 | 2016-11-30 | 한국해양과학기술원 | 선박해양 생애주기의 정보 분류체계 및 기술문서의 구성방법 |
CN106408217A (zh) * | 2016-11-10 | 2017-02-15 | 北京京东金融科技控股有限公司 | 一种产品生命周期的识别方法和装置 |
CN107844917A (zh) * | 2017-12-04 | 2018-03-27 | 杭州云算信达数据技术有限公司 | 一种基于大数据的企业生命周期分析方法和系统 |
CN109359806A (zh) * | 2018-08-29 | 2019-02-19 | 广州巨时信息科技有限公司 | 一种基于大数据的行业生命周期分析方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163781A (zh) * | 2020-10-15 | 2021-01-01 | 国网冀北电力有限公司智能配电网中心 | 基于多维度指标聚类的园区用电群体生命周期评价方法 |
CN115760432A (zh) * | 2022-11-22 | 2023-03-07 | 东方微银科技股份有限公司 | 一种科技企业生命周期的精准定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Multiobjective evolutionary algorithms: A survey of the state of the art | |
CN108229754A (zh) | 基于相似日分段和lm-bp网络的短期负荷预测方法 | |
CN111541237B (zh) | 基于机会约束极限学习机的风电功率非参数区间预测方法 | |
EP3104323A1 (en) | Electric power business profit and loss calculation system and electric power business profit and loss calculation method | |
CN109214449A (zh) | 一种电网投资需求预测方法 | |
CN115422788B (zh) | 一种配电网线损分析管理方法、装置、存储介质及系统 | |
CN110298552B (zh) | 一种结合历史用电特征的配电网个体功率异常检测方法 | |
CN103559303A (zh) | 一种对数据挖掘算法的评估与选择方法 | |
CN113837488B (zh) | 能源消耗数据预测方法、系统、设备 | |
CN109523057A (zh) | 一种考虑经济转型背景的区域电网电力负荷预测方法 | |
CN113255900A (zh) | 一种考虑改进谱聚类与Bi-LSTM神经网络的冲击性负荷预测方法 | |
CN110110737A (zh) | 基于用电数据的企业生命周期阶段识别方法及识别系统 | |
CN106251260A (zh) | 一种考生志愿填报模拟系统及方法 | |
CN112258337A (zh) | 一种自我补全修正的基站能耗模型预测方法 | |
CN115099511A (zh) | 基于优化copula的光伏功率概率估计方法及系统 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN110807490A (zh) | 一种基于单基塔的输电线路工程造价智能预测方法 | |
CN108268979A (zh) | 一种基于演化模糊关联规则的中厚板质量预测方法 | |
CN115759393A (zh) | 基于集成学习的累积负荷基线预测方法 | |
CN110298765B (zh) | 一种基于客观关联因素的配电网用电功率异常检测方法 | |
Chen et al. | MOEA/D with an improved multi-dimensional mapping coding scheme for constrained multi-objective portfolio optimization | |
Wibawa et al. | Deep Learning Approaches with Optimum Alpha for Energy Usage Forecasting. | |
CN113591322A (zh) | 一种基于极端梯度提升决策树的低压台区线损率预测方法 | |
CN109034552A (zh) | 面向供需不确定的社群化制造服务匹配方法及系统 | |
CN115994784A (zh) | 一种价格确定模型及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |
|
RJ01 | Rejection of invention patent application after publication |