CN113762600B - 一种基于LightGBM的月用气量预测方法及装置 - Google Patents

一种基于LightGBM的月用气量预测方法及装置 Download PDF

Info

Publication number
CN113762600B
CN113762600B CN202110924542.8A CN202110924542A CN113762600B CN 113762600 B CN113762600 B CN 113762600B CN 202110924542 A CN202110924542 A CN 202110924542A CN 113762600 B CN113762600 B CN 113762600B
Authority
CN
China
Prior art keywords
gas
gas consumption
monthly
consumption
lightgbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110924542.8A
Other languages
English (en)
Other versions
CN113762600A (zh
Inventor
王广清
张耀辉
张大兵
赵宝全
武强
赵开一
赵新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gas Group Co Ltd
Original Assignee
Beijing Gas Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gas Group Co Ltd filed Critical Beijing Gas Group Co Ltd
Priority to CN202110924542.8A priority Critical patent/CN113762600B/zh
Publication of CN113762600A publication Critical patent/CN113762600A/zh
Application granted granted Critical
Publication of CN113762600B publication Critical patent/CN113762600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于LightGBM的月用气量预测方法及装置。所述方法包括:初步确定与燃气用户月用气量有关的特征;基于相关性对所述特征进行筛选;以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。本发明通过基于相关性对与用气量有关的特征进行筛选,并分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,建立预测模型,提高了预测模型的精度;本发明通过构建基于LightGBM的预测模型,可提高模型的训练速度,进一步提高预测模型精度。

Description

一种基于LightGBM的月用气量预测方法及装置
技术领域
本发明属于燃气用气量预测技术领域,具体涉及一种基于LightGBM的月用气量预测方法及装置。
背景技术
在燃气业务经营中,用户的购气和缴费行为不定期(一个月或数月)发生,同时燃气公司查表和生成账单的行为周期不完全固定,而财务收入确认以自然月为统计周期,需根据用户的购气数据和查表数据,结合外部数据,对每月每个用户的用气量和金额进行估计。传统方案是对销售数据使用统计分析法进行人工核算得到每个用户当月的用气量和金额。该方法存在以下缺陷:时间周期较长,人力负担较大;且由于燃气查表数据中存在较多的缺失和异常的情况,传统统计分析法很难保证其科学性,估计误差较高。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于LightGBM的月用气量预测方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种基于LightGBM的月用气量预测方法,包括以下步骤:
初步确定与燃气用户月用气量有关的特征;
基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选;
以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
进一步地,所述方法还包括:以同一特征的不同统计量以及不同统计量的组合作为新的特征,与其它特征一起进行筛选,所述统计量包括最大值、最小值、中值和平均值。
进一步地,对初步确定的特征进行筛选的方法包括:
计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;
删除相关系数小于第一阈值的特征;
计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征。
进一步地,所述方法还包括对历史数据进行重构的步骤:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
进一步地,所述方法还包括对历史数据的缺失值进行补全的步骤:
获取查表数据缺失月份前一次和后一次的查表时间和燃气表读数;
计算两次燃气表读数的差值得到查表期间的用气量;
根据两次的查表时间和查表期间的用气量,按比例将所述用气量分配到缺失月份,从而得到缺失月份的用气量;可根据历史年份12个月用气量的比例进行分配,也可以按平均比例进行分配。
进一步地,所述方法还包括对历史用气量数据标准化的步骤,按下式计算每个用气量的标准化值:
Figure BDA0003208680560000031
式中,
Figure BDA0003208680560000032
为第i个用气量xi的标准化值,i=1,2,…,n,n为用气量的数量。
第二方面,本发明提供一种基于LightGBM的月用气量预测装置,包括:
特征确定模块,用于初步确定与燃气用户月用气量有关的特征;
特征筛选模块,用于基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选;
模型构建模块,用于以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
用气量预测模块,用于获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
进一步地,所述装置还包括特征扩展模块,用于以同一特征的不同统计量以及不同统计量的组合作为新的特征,与其它特征一起进行筛选,所述统计量包括最大值、最小值、中值和平均值。
进一步地,对初步确定的特征进行筛选的方法包括:
计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;
删除相关系数小于第一阈值的特征;
计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征。
进一步地,所述装置还包括数据重构模块,用于:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
与现有技术相比,本发明具有以下有益效果。
本发明通过初步确定与燃气用户月用气量有关的特征,基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选,以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型,获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测,实现了燃气用户月用气量的自动预测。本发明通过基于相关性对与用气量有关的特征进行筛选,并分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,建立预测模型,提高了预测模型的精度;通过构建基于LightGBM的预测模型,可提高模型的训练速度,进一步提高预测模型精度。
附图说明
图1为本发明实施例一种基于LightGBM的月用气量预测方法的流程图。
图2为本发明实施例一种基于LightGBM的月用气量预测装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种基于LightGBM的月用气量预测方法的流程图,包括以下步骤:
步骤101,初步确定与燃气用户月用气量有关的特征;
步骤102,基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选;
步骤103,以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
步骤104,获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
本实施例中,步骤101主要用于初步确定与燃气用户月用气量有关的特征。要构建用气量的预测模型,须选取对用气量有影响的特征作为输入变量。为了不遗漏对用气量影响较大的特征,最初选取特征时,应尽量多地选取所有可能对用气量有影响的特征,比如当地气象(环境)因素、消费水平、居民生活习惯、用气类别、节假日和能源价格变化等。其中气象对用气量的影响最为明显,比如在冬季用气高峰期间气温的变化幅度。
本实施例中,步骤102主要用于对初步确定的与用气量有关的特征进行筛选。由于与用气量有关的特征很多,不可能将所有特征都作为模型的输入变量,如果将对用气量影响不大的特征作为输入变量,不仅会使模型结构变得更加复杂,而且还会降低预测精度,因此需要进行特征筛选,删除大量影响不大的特征,只保留少数影响明显的特征。可通过计算各种特征与用气量的相关系数衡量它们对用气量的影响程度,相关系数的绝对值越大,表示相关程度越高;相关系数为负数时,表示该特征值的变化可能引起用气量相反方向的变化,这种关系叫做负相关。相关系数的绝对值与影响程度关系为:0.8-1.0为极强相关,0.6-0.8为强相关,0.4-0.6为中等程度相关,0.2-0.4为弱相关,0.0-0.2为极弱相关或无相关。另外,还要考察各个特征之间的相关性,如果存在两个或多个特征的相关性较大,可只保留其中一个特征,删除其它几个特征。现有技术在进行特征筛选时,一般只考虑模型输入变量与输出变量的相关性,没有考虑输入变量之间的相关性,使最后构建的模型不能达到最简、最有效。
本实施例中,步骤103主要用于构建预测模型。经过上一步的特征筛选后,就得到了预测模型的输入变量,即以筛选后剩余的每个特征作为一个输入变量。预测模型的输出变量自然是用户的月用气量,由于不同类别用户用气规律有明显区别,如果对用户类别不加区分,只构建一个模型来预测所有用户的用气量,势必会造成很大的预测误差。为此,应先按照用气规律对用户进行分类,然后针对每个类别的用户分别构建预测模型。本实施例将用户分为壁挂炉用户和非壁挂炉用,分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出构建预测模型。另外,要获得高精度的预测模型,需要海量的数据和标签对模型进行训练,耗时很大。为了提高模型的训练速度,减小训练耗时,本实施例基于LightGBM(Light Gradient Boosting Machine)构建预测模。LightGBM是由微软亚洲研究院在2017年1月提出的,LightGBM是一个实现GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型的优化框架。GBDT在每一次迭代过程中均需将全部数据遍历多次,实际使用过程中,电脑内存会限制每次读写数据的规模。LightGBM算法的应用确保了GBDT可以对大规模数据进行快速训练,从而大大扩大了GBDT的实际应用范围和应用领域。相较于传统的GBDT模型,LightGBM模型在以下两个方面作了较大改进:一是在划分点搜索上,选用直方图算法;二是在树木生长算法上,选用带深度限制的leaf-wise策略。LightGBM模型具有以下优点:内存占用低;预测精度更高;运行速度快;支持并行化学习;可处理大规模数据。因此,本实施例基于LightGBM构建预测模型,可提高模型训练速度,进一步提高预测精度。
本实施例中,步骤104主要用于对用户的月用气量进行预测。本实施例通过获取历史数据构建训练数据集,利用训练数据集对预测模型进行训练,用训练好的模型对用户的月用气量进行预测。
作为一可选实施例,所述方法还包括:以同一特征的不同统计量以及不同统计量的组合作为新的特征,与其它特征一起进行筛选,所述统计量包括最大值、最小值、中值和平均值。
本实施例给出了对特征进行特征扩展的一种技术方案。实践表明,采用同一特征不同的统计量作为输入变量得到的预测模型的效果并不一样,比如气温,它的统计量可以是日最高温度、日最低温度和日平均温度,这3个统计量与用气量的相关程度并不一致。更有趣儿的是,将这3个统计量中的2个或3个进行组合,将组合后的量作为模型的输入变量比将单个统计量作为输入变量效果更佳。为了得到最有效的输入变量,本实施例对特征进行扩展,将同一特征的不同统计量,以及不同统计量的组合作为新的特征,然后将它们与其它特征一起进行筛选,确定模型最后的输入变量。
作为一可选实施例,对初步确定的特征进行筛选的方法包括:
计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;
删除相关系数小于第一阈值的特征;
计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征。
本实施例给出了特征筛选的一种技术方案。如前述,本实施例基于相关性进行特征筛选。本实施例涉及的相关性有两种:一种是待筛选特征与用气量的相关性;另一种是待筛选特征之间的相关性。首先,根据待筛选特征与用气量的相关性大小,删除相关性较小的特征,理由是这些特征对用气量的影响较小;然后,根据任意两个筛选后的特征之间的相关性,删除相关性较大的两个特征中的一个特征,因为相关性较大的两个特征是重复的,只保留其中一个即可。本实施例删除的是与用气量相关性较小的一个特征。
作为一可选实施例,所述方法还包括对历史数据进行重构的步骤:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
本实施例给出了对历史数据进行重构的一种技术方案。由于用户的缴费时间不固定,而预测模型需要对每个自然月(从月初到月末)的用气量进行预测,因此需要对缴费数据进行重构,得到每个自然月的用气量。本实施例是根据用户每次的购气量,并假设每次购气时前一次购气用已用完,计算每次购气时间对应的累计用气量。有了每次购气时间对应的累计用气量,采用线性插值法就可以计算月末的累计用气量,公式如下:
Figure BDA0003208680560000081
式中,Y为相邻两次购气期间的一个月末的累计用气量,A、B分别为相邻两次购气时间对应的累计用气量,ΔC为所述月末与前面一次购气时间的时间差,为ΔD相邻两次购气的时间差。
有了每个月末的累计用气量,计算每相邻两个月末的累计用气量的差,就可以得到每个自然月的用气量。
作为一可选实施例,所述方法还包括对历史数据的缺失值进行补全的步骤:
获取查表数据缺失月份前一次和后一次的查表时间和燃气表读数;
计算两次燃气表读数的差值得到查表期间的用气量;
根据两次的查表时间和查表期间的用气量,按比例将所述用气量分配到缺失月份,从而得到缺失月份的用气量;可根据历史年份12个月用气量的比例进行分配,也可以按平均比例进行分配。
本实施例给出了缺失数据补全的一种技术方案。由于部分燃气表依赖于人工查表,因各种情况导致抄表员个别月份无法进行查表,造成数据缺失,故需要对这些月份用户的用气量进行缺失值补全。本实施例采取的方法是:针对查表数据缺失的月份,获取缺失月份前的最后一次查表和缺失月份后的第一次查表数据(查表时间和燃气表读数);然后计算两次燃气表读数的差值得到查表期间的用气量;最后所述用气量按比例分配至缺失月份。如果该用户该用气性质下有完整的12个月的分配比例,则用该用户的比例进行缺失补全;否则,利用该用气性质下的平均比例,对缺失月份的耗气量进行补全。
作为一可选实施例,所述方法还包括对历史用气量数据标准化的步骤,按下式计算每个用气量的标准化值:
Figure BDA0003208680560000082
式中,
Figure BDA0003208680560000091
为第i个用气量xi的标准化值,i=1,2,…,n,n为用气量的数量。
本实施例给出了对历史用气量数据进行标准化的一种技术方案。本实施例采用z-score标准化方法,公式如上式,分子是标准化前的单个用气量与平均用气量的差,分母是用气量的标准差。如果采用标准化后的数据进行训练或预测,还要对预测结果进行逆变换。
图2为本发明实施例一种基于LightGBM的月用气量预测装置的组成示意图,所述装置包括:
特征确定模块11,用于初步确定与燃气用户月用气量有关的特征;
特征筛选模块12,用于基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选;
模型构建模块13,用于以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
用气量预测模块14,用于获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,所述装置还包括特征扩展模块,用于以同一特征的不同统计量以及不同统计量的组合作为新的特征,与其它特征一起进行筛选,所述统计量包括最大值、最小值、中值和平均值。
作为一可选实施例,对初步确定的特征进行筛选的方法包括:
计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;
删除相关系数小于第一阈值的特征;
计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征。
作为一可选实施例,所述装置还包括数据重构模块,用于:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于LightGBM的月用气量预测方法,其特征在于,包括以下步骤:
初步确定与燃气用户月用气量有关的特征,并以同一特征的不同统计量以及不同统计量的组合作为新的特征,所述统计量包括最大值、最小值、中值和平均值;
基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选:计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;删除相关系数小于第一阈值的特征;计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征;
以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
2.根据权利要求1所述的基于LightGBM的月用气量预测方法,其特征在于,所述方法还包括对历史数据进行重构的步骤:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
3.根据权利要求1所述的基于LightGBM的月用气量预测方法,其特征在于,所述方法还包括对历史数据的缺失值进行补全的步骤:
获取查表数据缺失月份前一次和后一次的查表时间和燃气表读数;
计算两次燃气表读数的差值得到查表期间的用气量;
根据两次的查表时间和查表期间的用气量,按比例将所述用气量分配到缺失月份,从而得到缺失月份的用气量;可根据历史年份12个月用气量的比例进行分配,也可以按平均比例进行分配。
4.根据权利要求1所述的基于LightGBM的月用气量预测方法,其特征在于,所述方法还包括对历史用气量数据标准化的步骤,按下式计算每个用气量的标准化值:
Figure FDA0003536203970000021
式中,
Figure FDA0003536203970000022
为第i个用气量xi的标准化值,i=1,2,…,n,n为用气量的数量。
5.一种基于LightGBM的月用气量预测装置,其特征在于,包括:
特征确定模块,用于初步确定与燃气用户月用气量有关的特征,并以同一特征的不同统计量以及不同统计量的组合作为新的特征,所述统计量包括最大值、最小值、中值和平均值;
特征筛选模块,用于基于所述特征之间的相关性及所述特征与用户月用气量的相关性对所述特征进行筛选:计算任意一个特征与用户月用气量的相关系数,并按照相关系数从大到小的顺序排序;删除相关系数小于第一阈值的特征;计算剩余特征中任意两个特征之间的相关系数,对于相关系数大于第二阈值的两个特征,删除排序靠后的一个特征;
模型构建模块,用于以筛选后的特征为输入、分别以壁挂炉用户月用气量和非壁挂炉用户月用气量为输出,构建基于LightGBM的预测模型;
用气量预测模块,用于获取历史数据,构建训练数据集,用训练好的模型对用户的月用气量进行预测。
6.根据权利要求5所述的基于LightGBM的月用气量预测装置,其特征在于,所述装置还包括数据重构模块,用于:
根据用户每次购气的时间和购气量,计算每次购气时间对应的累计购气量;
默认每次购气时前一次购气用已用完,得到每次购气时间对应的累计用气量;
根据每次购气时间对应的累计用气量,采用插值法计算每月月末的累计用气量;
计算每相邻两个月末累计用气量的差,得到用户每个自然月的用气量。
CN202110924542.8A 2021-08-12 2021-08-12 一种基于LightGBM的月用气量预测方法及装置 Active CN113762600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110924542.8A CN113762600B (zh) 2021-08-12 2021-08-12 一种基于LightGBM的月用气量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110924542.8A CN113762600B (zh) 2021-08-12 2021-08-12 一种基于LightGBM的月用气量预测方法及装置

Publications (2)

Publication Number Publication Date
CN113762600A CN113762600A (zh) 2021-12-07
CN113762600B true CN113762600B (zh) 2022-07-12

Family

ID=78789136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110924542.8A Active CN113762600B (zh) 2021-08-12 2021-08-12 一种基于LightGBM的月用气量预测方法及装置

Country Status (1)

Country Link
CN (1) CN113762600B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766950B (zh) * 2019-01-18 2023-07-14 东北大学 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法
IL264581A (en) * 2019-01-31 2020-08-31 Segal Eran Predicting blood metabolites
CN111506618B (zh) * 2019-12-11 2023-09-01 国网重庆市电力公司北碚供电分公司 一种结合lightgbm-stacking算法的异常用电行为分析方法
CN112397176A (zh) * 2020-10-16 2021-02-23 温州医科大学 基于宫缩信号和LightGBM的缩宫素剂量智能调控方法及系统
CN112712194A (zh) * 2020-12-16 2021-04-27 广西电网有限责任公司梧州供电局 一种用电成本智能优化分析的电量预测方法及装置

Also Published As

Publication number Publication date
CN113762600A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN112446534B (zh) 一种输变电工程的建设工期预测方法和装置
Owusu-Ansah A review of hedonic pricing models in housing research
CN108388974A (zh) 基于随机森林和决策树的优质客户优化识别方法及装置
CN101398919A (zh) 利用模式分析的电力需求信息分析系统及其方法
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
CN109993370A (zh) 一种基于非平稳时间序列的电力销售日现金流预测方法
CN111126696A (zh) 一种计及多影响因素的电量预测方法
CN112884590A (zh) 基于机器学习算法的电网企业融资决策方法
CN114792169A (zh) 基于MIC-XGBoost算法的居民用水量预测方法
CN114357737B (zh) 针对大尺度水文模型时变参数的代理优化率定方法
Brent Estimating water demand elasticity at the intensive and extensive margin
CN113222261A (zh) 一种基于灰色预测和bp-arima的科创板企业估值系统
CN113762600B (zh) 一种基于LightGBM的月用气量预测方法及装置
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
Brzezicka et al. The applicability of the speculative frame method for detecting disturbances on the real estate market: evidence from Poland
Ignatiadis et al. Forecasting residential monthly electricity consumption using smart meter data
CN111797924B (zh) 一种基于聚类算法的三维度园区画像方法及系统
CN113627682A (zh) 一种非居民用户日电量波动的预测方法及系统
Syahputra et al. The Impact of Local Taxes, Regional Retributions, and Other Legitimate Original Local Government Revenues on The Financial Performance of Local Government With Economic Growth as a Moderating Variable in The Government of North Sumatera Province
Davarzani et al. Study of missing meter data impact on domestic load profiles clustering and characterization
CN115829144B (zh) 电网业务优化模型的建立方法及电子设备
CN113361960B (zh) 一种大规模需求响应能力量化方法、介质、装置及设备
Ko et al. The Crossroads of Fama-French Three Factor and Black-Litterman Portfolio Models: Centered on the Novel View Distribution Structured by Asset Pricing Implications
CN112001552B (zh) 一种基于用电量序列的月度售电量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant