CN110264251A - 表征现金流的数据组织形式与基于多任务学习的预测方法 - Google Patents
表征现金流的数据组织形式与基于多任务学习的预测方法 Download PDFInfo
- Publication number
- CN110264251A CN110264251A CN201910466692.1A CN201910466692A CN110264251A CN 110264251 A CN110264251 A CN 110264251A CN 201910466692 A CN201910466692 A CN 201910466692A CN 110264251 A CN110264251 A CN 110264251A
- Authority
- CN
- China
- Prior art keywords
- day
- data
- account
- money
- payment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000008520 organization Effects 0.000 title claims abstract description 17
- 230000005611 electricity Effects 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000000306 recurrent effect Effects 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000000611 regression analysis Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 7
- 238000007619 statistical method Methods 0.000 claims abstract description 6
- 230000002123 temporal effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 2
- 239000010931 gold Substances 0.000 claims description 2
- 229910052737 gold Inorganic materials 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000006978 adaptation Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据处理技术,旨在提供一种表征现金流的数据组织形式与基于多任务学习的预测方法。包括:对电力部门销售流水和用电量的历史数据进行信息挖掘和统计分析;建立与回归分析有关的多个任务,建立多维数据标签;按时间序列进行交叉检验,利用深度卷积神经网络或者递归神经网络进行多任务学习,对模型进行性能测试;采用网格法得到神经网络的最佳超参数,最终确定神经网络模型的配置,并将该神经网络模型用于电力销售金额的预测。本发明构建了联合这些信息的新的数据组织形式,能够刻画日现金流来源。通过本发明构建的多任务学习相比传统统计模型有较少的人工干预,结果更加鲁棒,更适应大数据。
Description
技术领域
本发明涉及大数据处理,特别涉及一种表征现金流的数据组织形式与基于多任务学习的预测方法。
背景技术
销售金额预测是指对未来特定时间内,全部产品或特定产品的销售数量与销售金额的估计。销售预测旨在充分考虑未来各种影响因素的基础上,通过一定的分析方法提出切实可行的销售目标,以及帮助企业做好财务预算,其结果对企业的发展规划、战略部署有着十分重要的意义。
尽管如此,进行高质量消费预测绝非易事。目前可用于现金流预测的数据挖掘工具主要是一些统计分析方法,如时间序列分析、线性/非线性回归模型、灰色系统模型、最大熵马尔可夫模型等。虽然已有众多的成熟模型,而且这些模型已被广泛应用于经济预测领域,但是从以下两方面原因导致了电力销售金额预测的不准确性,也就限制了上述统计分析方法的实际应用。一方面电网销售金额数据名目众多,数量庞大,有必要先将这些数据按照一定的方式组织在一起,筛选出对现金流预测有帮助的信息,进而提供一种系统有效的,综合多模态、多时期、多用户,以及结合数据分布特征的数据组织形式。传统方法要么是选取其中少量数据维度,要么忽略已有数据之间的总体关联性质,这都导致了数据的信息缺失,使得进一步的建模受到先验限制;另一方面,基于能获取的所有数据维度,传统方法无法有效提取出其中利于预测的高维的、相互作用的有效特征。
基于上述原因,对大数据处理和挖掘的需求也应运而生,其中代表性的方法就是神经网络。但是,目前尚未见到关于神经网络以及多任务学习在电网销售金额预测方面的运用的报道。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种表征现金流的数据组织形式与基于多任务学习的预测方法。
为解决技术问题,本发明的解决方案是:
本发明提供了一种表征现金流的数据组织形式与基于多任务学习的预测方法,包括以下步骤:
(1)读取电力部门销售流水和用电量的历史数据;
(2)对历史数据进行信息挖掘和统计分析,评估金额到账时间与用户支付时间的关系,得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息;按照设定的数据结构形式进行数据组织,然后按照分位数统计量对现金流数据进行分类;
(3)建立与回归分析有关的多个任务,分类任务及匹配组成当日现金流的用户支付金额分布的任务,以此建立多维数据标签;
(4)对历史数据按时间序列均分为k个时间段,每个时间段包含多天数据;
(5)进行k次交叉检验:每次取步骤(4)中的k-1组作为训练集,利用深度卷积神经网络或者递归神经网络进行多任务学习;通过回归分析给出未来定期金额的预测,并将剩下的一组作为检验集,对模型进行性能测试;
(6)重复步骤(5),采用网格法得到神经网络的最佳超参数,最终确定神经网络模型的配置,并将该神经网络模型用于电力销售金额的预测。
本发明中,所述步骤(1)中,所述电力部门销售流水的历史数据包括:用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额;所述用电量的历史数据是指每位用户的每月实际用电量。
本发明中,所述步骤(1)中,还包括对历史数据进行数据去噪和时间序列平稳化的预处理。
本发明中,所述步骤(2)中对历史数据进行信息挖掘和分析,具体包括以下步骤:
(2.1)统计历年所有用户的用电量水平,根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间;将使用电量超过设定值的用户作为最后1/4分位,对其用电量等级再进行细分,最后按用电量将所有用户分成M个等级;
(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计,构成输入特征的一个维度;以20%、40%、60%、80%这几个分位数以及假设的现金流最大值1×10^9作为间断点,将加总现金流数据分为5类,其类标分别为0、1、2、3、4;
(2.3)设定用户缴费到账日期的区间,将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日;通过缴费时间与到账区间的关系,评估用户所缴纳金额对最小到账日现金流的影响;
(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日,并记作预计到账日,这个日期下的用户组记为S;在这个日期下:
(2.41)对当日缴费用户的行业分布进行划分;
(2.42)统计缴费用户的上月用电量水平在M个等级中的分布,若上月用电量数据缺省,说明该用户是隔月或者当月缴费,另计入第M+1等级;
(2.43)对往年所有用户的日缴费金额进行分析,先用1/4分位数进行等级粗分,对缴费金额大于设定值的再进行细分,最后形成M+1个每日用户缴费金额的等级;实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布,作为数据结构的M+1个维度;
(2.44)因节假日、工作日的信息会影响到到账情况,故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度。
本发明中,所述步骤(3)中,构建多维数据标签时,第一个维度是经过线性变换归一化的日现金流未来期数据;第二个维度是对应日期现金流数据的分类标签见(2.2);之后的M+1个维度是日现金流数据的分布。
本发明中,所述步骤(4)中,按照天为单位,对数据进行整理排布,每日数据均有多维特征,涵盖:总缴费金额、到账评估的分布,预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布,以及当日的日期信息。
本发明中,所述步骤(5)中,利用深度卷积神经网络或者递归神经网络进行多任务学习的内容包括:
按照设定的数据结构形式组织数据,取线性变换归一化后的31天数据作为输入;使用多层卷积神经网络或者递归神经网络学习高维特征得到瓶颈向量,输入进多个任务子网络,均为全连接层的架构;通过回归分析输出对第31天的现金流的预测,进行回归任务训练;所述递归神经网络是基于GRU或者LSTM的递归结构的,且含多个隐藏单元;
训练初始时,设置下述两个任务的任务的权重设为0,即不参与训练:分类任务与匹配组成当日现金流的用户支付金额分布;当出现过拟合时,再将这两个任务加入全局训练;其中,使用多层卷积神经网络时,卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数;使用递归神经网络时,使用的递归结构(GRU、LSTM)种类和以及隐藏单元数量是超参数。
本发明中,所述步骤(6)中,用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历,多次实验后记录最佳的超参数,构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。
本发明中,所述步骤(6)中,在利用神经网络模型对电力销售金额进行预测时,其预测结果中包括预测金额落在不同金额区间中的概率。
本发明的原理描述:
为了辅助电力部门统计每日全市销售金额并对未来收费趋势及金额范围做预测,本发明针对电力部门销售数据的特点,提取了往期的用户信息、时间序列特征、支付时间的到账评估、行业信息、用电量信息、销售金额分布的特征,将其作为输入的数据组织形式,输入神经网络模型(如深度卷积神经网络),以此提取高维的、相互作用的有效特征,构建与现金流预测有关联的多个任务,进行有效的多任务学习,减少网络泛化误差,从而得到根据往期数据预测未来销售金额以及相关信息的模型。该技术的提出能够解决多渠道信息的整合与归纳,解决传统统计分析模型中模型复杂度不足很难拟合多因素相互作用、不适合处理大数据的问题。
与现有技术相比,本发明的有益效果是:
1、本发明基于电力部门用户的数据,综合用电量与销售金额的信息,构建了联合这些信息的新的数据组织形式,能够刻画日现金流来源。
2、本发明的预测方法,通过提出了与现金流预测有关联的多个任务,进行有效的多任务学习,减少现金流预测的回归分析网络的泛化误差,分类任务务给出的预测结果能作为回归分析任务得到的预测值的补充信息;
3、通过本发明构建的基于卷积神经网络或者递归神经网络等神经网络架构的多任务学习相比传统统计模型有较少的人工干预,结果更加鲁棒,更适应大数据,并可以自动学习出、提取出有价值的特征组合,有利于找到销售市场的规律。
附图说明
图1为本发明预测技术的流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
表征现金流的数据组织形式与基于多任务学习的预测方法,包括以下步骤:
(1)读取电力部门销售流水和用电量的历史数据;对历史数据进行数据去噪和时间序列平稳化的预处理。
电力部门销售流水的历史数据包括:用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额;所述用电量的历史数据是指每位用户的每月实际用电量。
(2)对历史数据进行信息挖掘和统计分析,评估金额到账时间与用户支付时间的关系,得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息;按照设定的数据结构形式进行数据组织,然后按照分位数统计量对现金流数据进行分类;
表1为根据历史数据进行用户挖掘所设计的联合了用电量与销售金额等信息的数据组织形式。
其中,对历史数据进行信息挖掘和分析,具体包括以下步骤:
(2.1)统计历年所有用户的用电量水平,根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间;将使用电量超过设定值的用户作为最后1/4分位,对其用电量等级再进行细分,最后按用电量将所有用户分成M个等级;
(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计,构成输入特征的一个维度;以20%、40%、60%、80%这几个分位数以及假设的现金流最大值1×10^9作为间断点,将加总现金流数据分为5类,其类标分别为0、1、2、3、4;
(2.3)设定用户缴费到账日期的区间,将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日;通过缴费时间与到账区间的关系,评估用户所缴纳金额对最小到账日现金流的影响;
(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日,并记作预计到账日,这个日期下的用户组记为S;在这个日期下:
(2.41)对当日缴费用户的行业分布进行划分;
(2.42)统计缴费用户的上月用电量水平在M个等级中的分布,若上月用电量数据缺省,说明该用户是隔月或者当月缴费,另计入第M+1等级;
(2.43)对往年所有用户的日缴费金额进行分析,先用1/4分位数进行等级粗分,对缴费金额大于设定值的再进行细分,最后形成M+1个每日用户缴费金额的等级;实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布,作为数据结构的M+1个维度;
(2.44)因节假日、工作日的信息会影响到到账情况,故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度。
(3)建立与回归分析有关的多个任务,分类任务与匹配组成当日现金流的用户支付金额分布的任务,以此建立多维数据标签;
构建多维数据标签时,第一个维度是经过线性变换归一化的日现金流未来期数据;第二个维度是对应日期现金流数据的分类标签见(2.2);之后的M+1个维度是日现金流数据的分布,具体参照步骤(2.43)。
表2为要进行多任务学习所需的多维数据标签。
(4)对历史数据按时间序列均分为k个时间段,每个时间段包含多天数据;
按照天为单位,对数据进行整理排布,每日数据均有多维特征,涵盖:总缴费金额、到账评估的分布,预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布,以及当日的日期信息。
(5)进行k次交叉检验:每次取步骤(4)中的k-1组作为训练集,利用深度卷积神经网络或者递归神经网络进行多任务学习;通过回归分析给出未来定期金额的预测,并将剩下的一组作为检验集,对模型进行性能测试;
其中,利用深度卷积神经网络或者递归神经网络进行多任务学习的内容包括:
按照设定的数据结构形式组织数据,取线性变换归一化后的31天数据作为输入;使用多层卷积神经网络或者递归神经网络学习高维特征得到瓶颈向量,输入进多个任务子网络,均为全连接层的架构;通过回归分析输出对第31天的现金流的预测,进行回归任务训练;所述递归神经网络是基于GRU或者LSTM的递归结构的,且含多个隐藏单元;
训练初始时,设置下述两个任务的任务的权重设为0,即不参与训练:分类任务与匹配组成当日现金流的用户支付金额分布;当出现过拟合时,再将这两个任务加入全局训练;其中,使用多层卷积神经网络时,卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数;使用递归神经网络时,使用的递归结构(GRU、LSTM)种类,以及隐藏单元数量是超参数。
(6)重复步骤(5),采用网格法得到神经网络的最佳超参数,最终确定神经网络模型的配置,并将该神经网络模型用于电力销售金额的预测。
用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历,多次实验后记录最佳的超参数,构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。
在利用神经网络模型对电力销售金额进行预测时,其预测结果中包括预测金额落在不同金额区间中的概率。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (9)
1.一种表征现金流的数据组织形式与基于多任务学习的预测方法,其特征在于,包括以下步骤:
(1)读取电力部门销售流水和用电量的历史数据;
(2)对历史数据进行信息挖掘和统计分析,评估金额到账时间与用户支付时间的关系,得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息;按照设定的数据结构形式进行数据组织,然后按照分位数统计量对现金流数据进行分类;
(3)建立与回归分析有关的多个任务,分类任务及匹配组成当日现金流的用户支付金额分布的任务,以此建立多维数据标签;
(4)对历史数据按时间序列均分为k个时间段,每个时间段包含多天数据;
(5)进行k次交叉检验:每次取步骤(4)中的k-1组作为训练集,利用深度卷积神经网络或者递归神经网络进行多任务学习;通过回归分析给出未来定期金额的预测,并将剩下的一组作为检验集,对模型进行性能测试;
(6)重复步骤(5),采用网格法得到神经网络的最佳超参数,最终确定神经网络模型的配置,并将该神经网络模型用于电力销售金额的预测。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,所述电力部门销售流水的历史数据包括:用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额;所述用电量的历史数据是指每位用户的每月实际用电量。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,还包括对历史数据进行数据去噪和时间序列平稳化的预处理。
4.根据权利要求1所述的方法,其特征在于,所述步骤(2)中对历史数据进行信息挖掘和分析,具体包括以下步骤:
(2.1)统计历年所有用户的用电量水平,根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间;将使用电量超过设定值的用户作为最后1/4分位,对其用电量等级再进行细分,最后按用电量将所有用户分成M个等级;
(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计,构成输入特征的一个维度;以20%、40%、60%、80%这几个分位数以及假设的现金流最大值1×10^9作为间断点,将加总现金流数据分为5类,其类标分别为0、1、2、3、4;
(2.3)设定用户缴费到账日期的区间,将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日;通过缴费时间与到账区间的关系,评估用户所缴纳金额对最小到账日现金流的影响;
(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日,并记作预计到账日,这个日期下的用户组记为S;在这个日期下:
(2.41)对当日缴费用户的行业分布进行划分;
(2.42)统计缴费用户的上月用电量水平在M个等级中的分布,若上月用电量数据缺省,说明该用户是隔月或者当月缴费,另计入第M+1等级;
(2.43)对往年所有用户的日缴费金额进行分析,先用1/4分位数进行等级粗分,对缴费金额大于设定值的再进行细分,最后形成M+1个每日用户缴费金额的等级;实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布,作为数据结构的M+1个维度;
(2.44)因节假日、工作日的信息会影响到到账情况,故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度。
5.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,构建多维数据标签时,第一个维度是经过线性变换归一化的日现金流未来期数据;第二个维度是对应日期现金流数据的分类标签见(2.2);之后的M+1个维度是日现金流数据的分布。
6.根据权利要求1所述的方法,其特征在于,所述步骤(4)中,按照天为单位,对数据进行整理排布,每日数据均有多维特征,涵盖:总缴费金额、到账评估的分布,预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布,以及当日的日期信息。
7.根据权利要求1所述的方法,其特征在于,所述步骤(5)中,利用深度卷积神经网络或者递归神经网络进行多任务学习的内容包括:
按照设定的数据结构形式组织数据,取线性变换归一化后的31天数据作为输入;使用多层卷积神经网络或者递归神经网络学习高维特征得到瓶颈向量,输入进多个任务子网络,均为全连接层的架构;通过回归分析输出对第31天的现金流的预测,进行回归任务训练;所述递归神经网络是基于GRU或者LSTM的递归结构的,且含多个隐藏单元;
训练初始时,设置下述两个任务的任务的权重设为0,即不参与训练:分类任务与匹配组成当日现金流的用户支付金额分布;当出现过拟合时,再将这两个任务加入全局训练;其中,使用多层卷积神经网络时,卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数;使用递归神经网络时,使用的递归结构种类和以及隐藏单元数量是超参数。
8.根据权利要求1所述的方法,其特征在于,所述步骤(6)中,用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历,多次实验后记录最佳的超参数,构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。
9.根据权利要求1所述的方法,其特征在于,所述步骤(6)中,在利用神经网络模型对电力销售金额进行预测时,其预测结果中包括预测金额落在不同金额区间中的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910466692.1A CN110264251B (zh) | 2019-05-31 | 2019-05-31 | 表征现金流的数据组织形式与基于多任务学习的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910466692.1A CN110264251B (zh) | 2019-05-31 | 2019-05-31 | 表征现金流的数据组织形式与基于多任务学习的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110264251A true CN110264251A (zh) | 2019-09-20 |
CN110264251B CN110264251B (zh) | 2021-08-10 |
Family
ID=67916099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910466692.1A Active CN110264251B (zh) | 2019-05-31 | 2019-05-31 | 表征现金流的数据组织形式与基于多任务学习的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110264251B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910241A (zh) * | 2019-11-28 | 2020-03-24 | 中国建设银行股份有限公司 | 现金流评估方法、装置、服务器设备及存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226645A1 (en) * | 2011-03-04 | 2012-09-06 | UltraTick | Predicting the Performance of a Financial Instrument |
EP3115959A1 (en) * | 2014-03-07 | 2017-01-11 | Hitachi, Ltd. | Data analysis system and method |
CN106934497A (zh) * | 2017-03-08 | 2017-07-07 | 青岛卓迅电子科技有限公司 | 基于深度学习的智慧小区用电量实时预测方法及装置 |
CN107145586A (zh) * | 2017-05-10 | 2017-09-08 | 中国电力科学研究院 | 一种基于电力营销数据的标签产出方法和装置 |
CN107292513A (zh) * | 2017-06-21 | 2017-10-24 | 国网辽宁省电力有限公司 | 一种基于svm分类算法实现电力客户管理的方法 |
CN107480829A (zh) * | 2017-08-25 | 2017-12-15 | 广东工业大学 | 一种短期电价预测方法、装置及系统 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN107909288A (zh) * | 2017-12-05 | 2018-04-13 | 国网内蒙古东部电力有限公司电力科学研究院 | 基于som神经网络聚类算法的缴费行为分析方法 |
CN108446794A (zh) * | 2018-02-25 | 2018-08-24 | 西安电子科技大学 | 一种基于多个卷积神经网络结合架构深度学习预测方法 |
CN108832619A (zh) * | 2018-05-29 | 2018-11-16 | 北京交通大学 | 基于卷积神经网络的电力系统暂态稳定评估方法 |
CN109086930A (zh) * | 2018-07-27 | 2018-12-25 | 广东电网有限责任公司 | 一种基于电力k线图及深度网络的用户用电行为分析方法 |
CN109522372A (zh) * | 2018-11-21 | 2019-03-26 | 北京交通大学 | 民航领域旅客价值的预测方法 |
CN109559163A (zh) * | 2018-11-16 | 2019-04-02 | 广州麦优网络科技有限公司 | 一种基于机器学习的模型构建方法及销售预测方法 |
CN109685290A (zh) * | 2019-02-11 | 2019-04-26 | 南方电网科学研究院有限责任公司 | 一种基于深度学习的用电量预测方法、装置及设备 |
CN109784979A (zh) * | 2018-12-19 | 2019-05-21 | 重庆邮电大学 | 一种大数据驱动的供应链需求预测方法 |
CN109978230A (zh) * | 2019-02-15 | 2019-07-05 | 杭州博钊科技有限公司 | 一种基于深度卷积神经网络的电力销售金额智能预测方法 |
CN110009427A (zh) * | 2019-04-10 | 2019-07-12 | 国网浙江省电力有限公司 | 一种基于深度循环神经网络的电力销售金额智能预测方法 |
-
2019
- 2019-05-31 CN CN201910466692.1A patent/CN110264251B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226645A1 (en) * | 2011-03-04 | 2012-09-06 | UltraTick | Predicting the Performance of a Financial Instrument |
EP3115959A1 (en) * | 2014-03-07 | 2017-01-11 | Hitachi, Ltd. | Data analysis system and method |
CN106934497A (zh) * | 2017-03-08 | 2017-07-07 | 青岛卓迅电子科技有限公司 | 基于深度学习的智慧小区用电量实时预测方法及装置 |
CN107145586A (zh) * | 2017-05-10 | 2017-09-08 | 中国电力科学研究院 | 一种基于电力营销数据的标签产出方法和装置 |
CN107292513A (zh) * | 2017-06-21 | 2017-10-24 | 国网辽宁省电力有限公司 | 一种基于svm分类算法实现电力客户管理的方法 |
CN107480829A (zh) * | 2017-08-25 | 2017-12-15 | 广东工业大学 | 一种短期电价预测方法、装置及系统 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN107909288A (zh) * | 2017-12-05 | 2018-04-13 | 国网内蒙古东部电力有限公司电力科学研究院 | 基于som神经网络聚类算法的缴费行为分析方法 |
CN108446794A (zh) * | 2018-02-25 | 2018-08-24 | 西安电子科技大学 | 一种基于多个卷积神经网络结合架构深度学习预测方法 |
CN108832619A (zh) * | 2018-05-29 | 2018-11-16 | 北京交通大学 | 基于卷积神经网络的电力系统暂态稳定评估方法 |
CN109086930A (zh) * | 2018-07-27 | 2018-12-25 | 广东电网有限责任公司 | 一种基于电力k线图及深度网络的用户用电行为分析方法 |
CN109559163A (zh) * | 2018-11-16 | 2019-04-02 | 广州麦优网络科技有限公司 | 一种基于机器学习的模型构建方法及销售预测方法 |
CN109522372A (zh) * | 2018-11-21 | 2019-03-26 | 北京交通大学 | 民航领域旅客价值的预测方法 |
CN109784979A (zh) * | 2018-12-19 | 2019-05-21 | 重庆邮电大学 | 一种大数据驱动的供应链需求预测方法 |
CN109685290A (zh) * | 2019-02-11 | 2019-04-26 | 南方电网科学研究院有限责任公司 | 一种基于深度学习的用电量预测方法、装置及设备 |
CN109978230A (zh) * | 2019-02-15 | 2019-07-05 | 杭州博钊科技有限公司 | 一种基于深度卷积神经网络的电力销售金额智能预测方法 |
CN110009427A (zh) * | 2019-04-10 | 2019-07-12 | 国网浙江省电力有限公司 | 一种基于深度循环神经网络的电力销售金额智能预测方法 |
Non-Patent Citations (5)
Title |
---|
AI SONGPU 等: "Domestic Load Forecasting Using Neural Network and Its Use for Missing Data Analysis", 《THE 9TH INTERNATIONAL SYMPOSIUM ON ADVANCED TOPICS IN ELECTRICAL ENGINEERING》 * |
吕旭明 等: "基于大数据技术的用电信息分析方法研究与应用", 《电气应用》 * |
张文雅,等.: "基于交叉验证网格寻优支持向量机的产品销售预测", 《计算机系统应用》 * |
张旭东 等: "一种基于LSTM与LGBM的电力负荷预测算法", 《系统工程》 * |
徐尧强 等: "基于LSTM神经网络的用电量预测", 《电力大数据》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910241A (zh) * | 2019-11-28 | 2020-03-24 | 中国建设银行股份有限公司 | 现金流评估方法、装置、服务器设备及存储介质 |
CN110910241B (zh) * | 2019-11-28 | 2023-01-17 | 中国建设银行股份有限公司 | 现金流评估方法、装置、服务器设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110264251B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamao et al. | Correlations in price changes and volatility across international stock markets | |
Banker et al. | The use of categorical variables in data envelopment analysis | |
Van de Walle et al. | Is the emerging non‐farm market economy the route out of poverty in Vietnam? | |
Magerman et al. | Heterogeneous firms and the micro origins of aggregate fluctuations | |
Cocco et al. | Aging in place, housing maintenance, and reverse mortgages | |
Guo et al. | Quantitative trading: algorithms, analytics, data, models, optimization | |
CN109978230A (zh) | 一种基于深度卷积神经网络的电力销售金额智能预测方法 | |
Lin et al. | Tourism demand forecasting: Econometric model based on multivariate adaptive regression splines, artificial neural network and support vector regression | |
Butler et al. | On the role of inexperienced venture capitalists in taking companies public | |
Tamini et al. | Trade liberalisation effects on agricultural goods at different processing stages | |
Hoxhaj et al. | FDI and migration of skilled workers towards developing countries: firm-level evidence from Sub-Saharan Africa | |
Zhou et al. | Quantitative efficiency assessment based on the dynamic slack-based network data envelopment analysis for commercial banks in Ghana | |
Proietti et al. | Nowcasting GDP and its components in a data-rich environment: The merits of the indirect approach | |
CN112634048A (zh) | 一种反洗钱模型的训练方法及装置 | |
Magnani et al. | Efficiency of dynamic portfolio choices: An experiment | |
Legeida et al. | Modeling value added tax (VAT) revenues in a transition economy: Case of Ukraine | |
Wen et al. | Identification, structure and dynamic characteristics of the Beijing–Tianjin–Hebei mega-city region | |
Khumpaisal | A classification of risks in real estate development business | |
CN110264251A (zh) | 表征现金流的数据组织形式与基于多任务学习的预测方法 | |
Rau et al. | Heterogeneous firms and homogenising standards in agri-food trade: the Polish meat case | |
CN113240192A (zh) | 模型训练及预测方法、装置、计算机设备及存储介质 | |
CN113343681A (zh) | 企业金融服务推送方法及装置 | |
Fantaye | Macroeconomic Determinants of Foreign Direct Investment in Ethiopia:(A Time Series Analysis) | |
Singh et al. | Financial and Management Accounting: The Analysis of Financial Models for comparison | |
Aucamp | The estimation of export potential values in international market selection methods: a comparative analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |