CN113128128A - 一种结合深度学习和集成学习的工业经济运行指标预测模型 - Google Patents
一种结合深度学习和集成学习的工业经济运行指标预测模型 Download PDFInfo
- Publication number
- CN113128128A CN113128128A CN202110468270.5A CN202110468270A CN113128128A CN 113128128 A CN113128128 A CN 113128128A CN 202110468270 A CN202110468270 A CN 202110468270A CN 113128128 A CN113128128 A CN 113128128A
- Authority
- CN
- China
- Prior art keywords
- abv
- model
- same
- increase
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种结合深度学习和集成学习的工业经济运行指标预测模型,具体包括以下建模步骤:步骤一、入模特征的准备;步骤二、建立子模型:步骤三、均值求取,本发明涉及人工智能技术领域。该结合深度学习和集成学习的工业经济运行指标预测模型,通过收集大量的数据样本,对模型进行有效的训练,且对相关数据指标进行变换和衍生,并确定出最终入模的特征,不需要进行更多特征增强的工作,有效地降低了工作量,并且在指标值出现较大波动时,保证近期预测结果的精准度,从而实现对未来趋势进行明确的判断和预测,为指标的准确预测提供基础,进而为工业经济实施调控提供数据及理论依据,使得工业经济保持持续稳步健康发展。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种结合深度学习和集成学习的工业经济运行指标预测模型。
背景技术
作为一个工业大国,工业是拉动我国经济发展的主导力量。近年来,由于市场竞争的日趋激烈,工业成本的飞速增长,尤其近期的疫情影响,工业经济运行出现了新问题,面临着新的情况,工业经济指标的监测,为相关部门对工业经济的发展趋势提供了研判依据,从而精确地把握过去与现状。工业经济指标的提前预测,对未来趋势做出明确判断和预测,为工业经济实施调控提供数据及理论依据,根据预测结果,可以及时制定调整发展战略,使工业经济保持持续稳步健康发展,以机器学习和深度学习为代表的人工智能技术的发展,为工业经济指标的准确预测,提供了坚实的基础。
然而,工业指标的预测面临着如下挑战:数据样本较少,一般的模型算法很难有效训练,预测目标相关的部分特征,在进行工业运行指标预测时,不能获取到对应的值,在建模时,需要做更多特征增强的工作,此外,新冠疫情的出现,经济运行的指标值出现了很大的波动,对近期的预测结果造成比较很大的影响。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种结合深度学习和集成学习的工业经济运行指标预测模型,解决了数据样本较少,一般的模型算法很难有效训练,且在建模时,需要做更多特征增强工作的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种结合深度学习和集成学习的工业经济运行指标预测模型,具体包括以下建模步骤:
步骤一、入模特征的准备:基于预测目标,对于月度和季度中的现有特征进行变换和衍生,并确定出最终入模的特征,准备建立集成学习模型和深度学习模型这两个子模型;
步骤二、建立子模型:步骤一中准备建立的集成学习模型和深度学习模型两个子模型是独立的,模型的建立都经过相同的过程,即均包括:
a.训练与验证、
按照时间序列处理的方式,划分训练集合测试集,模型基于5折交叉验证的网格搜索方法,选出最好的模型,并在测试集上进行验证,确定最终的模型;
b.重新训练、
将训练集合测试集进行合并,作为训练集,对模型进行重新训练;
步骤三、均值求取:将目标输入到步骤二中得到的两个子模型中,一个子模型输出一个预测结果,对两个模型的预测结果进行求取,所得的均值作为最终的预测结果。
需要预测的结果是一个和时间相关的连续值,因此这是一个多维时间序列的回归问题,使用强学习器的融合方式来预测目标值,具体地,我们结合集成学习和深度学习模型,来建立最终的模型;对两个模型的预测结果进行平均,作为最终的预测结果。
确定主要的模型参数:指定学习任务及相应的学习目标objective为regression,即使用L2正则项的回归模型;弱学习器的类型boosting_type为gbdt,即使用梯度提升树,其余参数基于网格搜索的方法来确定,这些参数包括:num_leaves、learning_rate、feature_fraction、bagging_fraction、bagging_freq、min_data_in_leaf等。
基于深度学习的时间序列预测模型,使用LSTM模型,与集成学习相一致,只预测一步,建立的LSTM模型,包含两个LSTM隐层和一个全连接层,结点数分别为128,64和1,损失函数为均方误差。
优选的,所述步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在月度级别上,预测目标为:工业增加值本月比上年同期增长%,标记为TM,并且对于数据指标依次标记为FM01、FM02以及FMn,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TM_abv,最终的预测结果再反变换回同比;
b、时间特征,对于月度上的预测,从时间中提取出月份、季度,分别作为新的特征列FM01_month、FM01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为3,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要划分为统计类和趋势类两大类。
优选的,所述统计类包括:均值、方差、标准差、最大值和最小值,对应的特征标记为:TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TM_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为3和6。
优选的,对于月度、CPI、PPI、PMI、亏损单位数_同比增长(%)、应收账款同比增长%、产成品存货同比增长%、主营业务收入同比增长%、利润总额同比增长%、工业增加值累计比上年同期增长、工业用电量_本月比上年同期增幅(%)、工业单位数_同比增长%、工业产品产销率-本月比上年同期增长(%)、工业固定资产投资完成额_比上年同期增幅%、国家_工业增加值本月比上年同比增长%、全国PMI(%)、企业景气指数(工业)、企业家信心指数(工业)、亏损企业亏损总额累计增长(%)、限额以上企业(单位)消费品零售额同比(%)、货物进出口同比(%)、外商直接投资同比(%)和社会消费品零售总额同比增长(%)这些数据指标依次标记为FM01、FM02、FM03、FM04、FM05、FM06、FM07、FM08、FM09、FM10、FM11、FM12、FM13、FM14、FM15、FM16、FM17、FM18、FM19、FM20、FM21、FM22和FM23。
优选的,最终进入集成学习子模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM01、FM01_month、FM01_quarter、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv、TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min、TM_Wn_slope。
优选的,所述步骤一中深度学习子模型使用LSTM模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在季度级别上,预测目标为:工业增加值_本季度止累计_同比(%),标记为TQ,并且对于数据指标依次标记为FQ01、FQ02以及FQn,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TQ_abv,最终的预测结果再反变换回同比;
b、时间特征,对于季度级别上的预测,从时间中提取出季度,作为新的特征列FQ01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为2,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要为统计类和趋势类两大类。
优选的,所述统计类包括:均值、方差、标准差、最大值、最小值,对应的特征标记为:TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TQ_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为2和4。
优选的,对于季度、CPI、PPI、PMI、亏损单位数_本季度止累计同比增长(%)、应收账款季度止累计同比增长%、产成品存货季度止累计同比增长%、主营业务收入季度止累计同比增长%、利润总额季度止累计同比增长%、利税总额季度止累计同比增长%、工业增加值_本季度_同比(%)(取本月)、工业用电_本季度止累计—同比增长(%)、工业单位数_本季度止累计_同比增长(%)、工业产品产销率-本季度止累计_同比增长(%)、全国_工业GDP同比增长%、直接从事生产经营活动的平均人数_累计值(万人)、按总产值计算的劳动生产率_累计值(万元/人)和劳动生产价值(百万元)FQ18这些数据指标依次标记为FQ01、FQ02、FQ03、FQ04、FQ05、FQ06、FQ07、FQ08、FQ09、FQ10、FQ11、FQ12、FQ13、FQ14、FQ15、FQ16、FQ17和FQ18。
优选的,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ01、FQ01_quarter、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv、TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min、TQ_Wn_slope。
优选的,所述步骤一中深度学习子模型使用LSTM模型,仅将同比转为绝对量,对于采集不到当前值的指标,用指数移动均值代替,具体同上,对于月度级别的预测,最终进入模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv;对于季度级别的预测,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv。
(三)有益效果
本发明提供了一种结合深度学习和集成学习的工业经济运行指标预测模型。具备以下有益效果:
该结合深度学习和集成学习的工业经济运行指标预测模型,通过收集大量的数据样本,对模型进行有效的训练,且对相关数据指标进行变换和衍生,并确定出最终入模的特征,不需要进行更多特征增强的工作,有效地降低了工作量,并且在指标值出现较大波动时,保证近期预测结果的精准度,从而实现对未来趋势进行明确判断和预测的目的,为经济指标的准确预测提供坚实的基础,进而为工业经济实施调控提供数据及理论依据,使得工业经济保持持续稳步健康发展。
附图说明
图1为本发明模型的框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种技术方案:一种结合深度学习和集成学习的工业经济运行指标预测模型,具体包括以下建模步骤:
步骤一、入模特征的准备:基于预测目标,对于月度和季度中的现有特征进行变换和衍生,并确定出最终入模的特征,准备建立集成学习模型和深度学习模型这两个子模型;
步骤二、建立子模型:步骤一中准备建立的集成学习模型和深度学习模型两个子模型是独立的,模型的建立都经过相同的过程,即均包括:
a.训练与验证、
按照时间序列处理的方式,划分训练集合测试集,模型基于5折交叉验证的网格搜索方法,选出最好的模型,并在测试集上进行验证,确定最终的模型;
b.重新训练、
将训练集合测试集进行合并,作为训练集,对模型进行重新训练;
步骤三、均值求取:将目标输入到步骤二中得到的两个子模型中,一个子模型输出一个预测结果,对两个模型的预测结果进行求取,所得的均值作为最终的预测结果。
作为优选方案,步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在月度级别上,预测目标为:工业增加值本月比上年同期增长%,标记为TM,并且对于月度、CPI、PPI、PMI、亏损单位数_同比增长(%)、应收账款同比增长%、产成品存货同比增长%、主营业务收入同比增长%、利润总额同比增长%、工业增加值累计比上年同期增长、工业用电量_本月比上年同期增幅(%)、工业单位数_同比增长%、工业产品产销率-本月比上年同期增长(%)、工业固定资产投资完成额_比上年同期增幅%、国家_工业增加值本月比上年同比增长%、全国PMI(%)、企业景气指数(工业)、企业家信心指数(工业)、亏损企业亏损总额累计增长(%)、限额以上企业(单位)消费品零售额同比(%)、货物进出口同比(%)、外商直接投资同比(%)和社会消费品零售总额同比增长(%)这些数据指标依次标记为FM01、FM02、FM03、FM04、FM05、FM06、FM07、FM08、FM09、FM10、FM11、FM12、FM13、FM14、FM15、FM16、FM17、FM18、FM19、FM20、FM21、FM22和FM23,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TM_abv,最终的预测结果再反变换回同比;
b、时间特征,对于月度上的预测,从时间中提取出月份、季度,分别作为新的特征列FM01_month、FM01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为3,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要划分为以下两类、统计类:均值、方差、标准差、最大值和最小值,对应的特征标记为:TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min,趋势类:斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TM_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为3和6。
作为优选方案,最终进入集成学习子模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM01、FM01_month、FM01_quarter、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv、TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min、TM_Wn_slope。
作为优选方案,步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在季度级别上,预测目标为:工业增加值_本季度止累计_同比(%),标记为TQ,并且对于季度、CPI、PPI、PMI、亏损单位数_本季度止累计同比增长(%)、应收账款季度止累计同比增长%、产成品存货季度止累计同比增长%、主营业务收入季度止累计同比增长%、利润总额季度止累计同比增长%、利税总额季度止累计同比增长%、工业增加值_本季度_同比(%)(取本月)、工业用电_本季度止累计—同比增长(%)、工业单位数_本季度止累计_同比增长(%)、工业产品产销率-本季度止累计_同比增长(%)、全国_工业GDP同比增长%、直接从事生产经营活动的平均人数_累计值(万人)、按总产值计算的劳动生产率_累计值(万元/人)和劳动生产价值(百万元)FQ18这些数据指标依次标记为FQ01、FQ02、FQ03、FQ04、FQ05、FQ06、FQ07、FQ08、FQ09、FQ10、FQ11、FQ12、FQ13、FQ14、FQ15、FQ16、FQ17和FQ18,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TQ_abv,最终的预测结果再反变换回同比;
b、时间特征,对于季度级别上的预测,从时间中提取出季度,作为新的特征列FQ01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为2,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要包括以下两类:1统计类:均值、方差、标准差、最大值、最小值,对应的特征标记为:TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min,趋势类:斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TQ_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为2和4。
作为优选方案,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ01、FQ01_quarter、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv、TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min、TQ_Wn_slope。
作为优选方案,步骤一中深度学习子模型使用LSTM模型,仅将同比转为绝对量,对于采集不到当前值的指标,用指数移动均值代替,具体同上,对于月度级别的预测,最终进入模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv;对于季度级别的预测,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:具体包括以下建模步骤:
步骤一、入模特征的准备:基于预测目标,对于月度和季度中的现有特征进行变换和衍生,并确定出最终入模的特征,准备建立集成学习模型和深度学习模型这两个子模型;
步骤二、建立子模型:步骤一中准备建立的集成学习模型和深度学习模型两个子模型是独立的,模型的建立都经过相同的过程,即均包括:
a.训练与验证、
按照时间序列处理的方式,划分训练集合测试集,模型基于5折交叉验证的网格搜索方法,选出最好的模型,并在测试集上进行验证,确定最终的模型;
b.重新训练、
将训练集合测试集进行合并,作为训练集,对模型进行重新训练;
步骤三、均值求取:将目标输入到步骤二中得到的两个子模型中,一个子模型输出一个预测结果,对两个模型的预测结果进行求取,所得的均值作为最终的预测结果。
2.根据权利要求1所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:所述步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在月度级别上,预测目标为:工业增加值本月比上年同期增长%,标记为TM,并且对于数据指标依次标记为FM01、FM02以及FMn,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TM_abv,最终的预测结果再反变换回同比;
b、时间特征,对于月度上的预测,从时间中提取出月份、季度,分别作为新的特征列FM01_month、FM01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为3,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要划分为统计类和趋势类两大类。
3.根据权利要求2所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:所述统计类包括:均值、方差、标准差、最大值和最小值,对应的特征标记为:TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TM_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为3和6。
4.根据权利要求3所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:对于月度、CPI、PPI、PMI、亏损单位数_同比增长(%)、应收账款同比增长%、产成品存货同比增长%、主营业务收入同比增长%、利润总额同比增长%、工业增加值累计比上年同期增长、工业用电量_本月比上年同期增幅(%)、工业单位数_同比增长%、工业产品产销率-本月比上年同期增长(%)、工业固定资产投资完成额_比上年同期增幅%、国家_工业增加值本月比上年同比增长%、全国PMI(%)、企业景气指数(工业)、企业家信心指数(工业)、亏损企业亏损总额累计增长(%)、限额以上企业(单位)消费品零售额同比(%)、货物进出口同比(%)、外商直接投资同比(%)和社会消费品零售总额同比增长(%)这些数据指标依次标记为FM01、FM02、FM03、FM04、FM05、FM06、FM07、FM08、FM09、FM10、FM11、FM12、FM13、FM14、FM15、FM16、FM17、FM18、FM19、FM20、FM21、FM22和FM23。
5.根据权利要求4所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:最终进入集成学习子模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM01、FM01_month、FM01_quarter、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv、TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min、TM_Wn_slope。
6.根据权利要求5所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:所述步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在季度级别上,预测目标为:工业增加值_本季度止累计_同比(%),标记为TQ,并且对于数据指标依次标记为FQ01、FQ02以及FQn,具体包括以下步骤:
a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TQ_abv,最终的预测结果再反变换回同比;
b、时间特征,对于季度级别上的预测,从时间中提取出季度,作为新的特征列FQ01_quarter;
c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为2,因子0.9;
d、目标变量基于历史时间窗口上的衍生特征,主要为统计类和趋势类两大类。
7.根据权利要求6所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:所述统计类包括:均值、方差、标准差、最大值、最小值,对应的特征标记为:TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TQ_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为2和4。
8.根据权利要求7所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:对于季度、CPI、PPI、PMI、亏损单位数_本季度止累计同比增长(%)、应收账款季度止累计同比增长%、产成品存货季度止累计同比增长%、主营业务收入季度止累计同比增长%、利润总额季度止累计同比增长%、利税总额季度止累计同比增长%、工业增加值_本季度_同比(%)(取本月)、工业用电_本季度止累计—同比增长(%)、工业单位数_本季度止累计_同比增长(%)、工业产品产销率-本季度止累计_同比增长(%)、全国_工业GDP同比增长%、直接从事生产经营活动的平均人数_累计值(万人)、按总产值计算的劳动生产率_累计值(万元/人)和劳动生产价值(百万元)FQ18这些数据指标依次标记为FQ01、FQ02、FQ03、FQ04、FQ05、FQ06、FQ07、FQ08、FQ09、FQ10、FQ11、FQ12、FQ13、FQ14、FQ15、FQ16、FQ17和FQ18。
9.根据权利要求8所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:最终进入模型的特征为:FQ02、FQ03、FQ04、FQ01、FQ01_quarter、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv、TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min、TQ_Wn_slope。
10.根据权利要求9所述的一种结合深度学习和集成学习的工业经济运行指标预测模型,其特征在于:所述步骤一中深度学习子模型使用LSTM模型,仅将同比转为绝对量,对于采集不到当前值的指标,用指数移动均值代替,具体同上,对于月度级别的预测,最终进入模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv;对于季度级别的预测,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468270.5A CN113128128A (zh) | 2021-04-28 | 2021-04-28 | 一种结合深度学习和集成学习的工业经济运行指标预测模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468270.5A CN113128128A (zh) | 2021-04-28 | 2021-04-28 | 一种结合深度学习和集成学习的工业经济运行指标预测模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128128A true CN113128128A (zh) | 2021-07-16 |
Family
ID=76780655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110468270.5A Pending CN113128128A (zh) | 2021-04-28 | 2021-04-28 | 一种结合深度学习和集成学习的工业经济运行指标预测模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128128A (zh) |
-
2021
- 2021-04-28 CN CN202110468270.5A patent/CN113128128A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785003A (zh) | 一种药品零售行业药品销售预测系统及方法 | |
Qonita et al. | Prediction of rupiah against US dollar by using ARIMA | |
KR102628559B1 (ko) | 부동산 담보대출 자동심사 플랫폼 제공방법 및 제공장치 | |
CN112884590A (zh) | 基于机器学习算法的电网企业融资决策方法 | |
CN107609784A (zh) | 利用大数据量化分析外汇投资风险的系统及方法 | |
CN111340236A (zh) | 一种基于债券估值数据与集成机器学习的债券违约预测方法 | |
CN117893047A (zh) | 一种基于销售数据的竞争分析方法 | |
Salma et al. | A regression model-based approach to identifying determining factors for GDP growth in Bangladesh | |
CN112862182A (zh) | 一种投资预测方法、装置、电子设备及存储介质 | |
CN110390426A (zh) | 区域工业经济增速的预测方法、系统和存储介质 | |
CN112330030B (zh) | 业扩物资需求预测系统及方法 | |
CN114331523A (zh) | 一种知识产权价值评估系统及价值评估方法 | |
CN117592856A (zh) | 基于石化企业产出量预测的算法流程 | |
CN113506173A (zh) | 一种信用风险评估方法及其相关设备 | |
CN113128128A (zh) | 一种结合深度学习和集成学习的工业经济运行指标预测模型 | |
US20170004521A1 (en) | Systems and methods for generating industry outlook scores | |
CN111292188A (zh) | 配对交易智能一体化回测系统 | |
Mukhamediyev | Estimated DSGE model for oil producing economy of Kazakhstan | |
Tan et al. | Indonesian crude palm oil export performance during the period (1990q1-2015q4) | |
WO2018005708A1 (en) | Systems and methods for generating industry outlook scores | |
CN113011779A (zh) | 一种基于模糊综合评价的能源消费价格补偿方法及装置 | |
Dudu et al. | The Practical Use of The Linear Multiple Regression in The Complex GDP Analysis | |
CN112633660A (zh) | 一种多角度的失业风险预警装置及方法 | |
Zadeh | A New Sales Forecasting method for industrial supply chain | |
Kunasekaran | Research on E-commerce Customer Loyalty under Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |