CN111898800A - 公积金缴存数据预测方法、装置及电子设备 - Google Patents
公积金缴存数据预测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111898800A CN111898800A CN202010597245.2A CN202010597245A CN111898800A CN 111898800 A CN111898800 A CN 111898800A CN 202010597245 A CN202010597245 A CN 202010597245A CN 111898800 A CN111898800 A CN 111898800A
- Authority
- CN
- China
- Prior art keywords
- payment data
- holt
- accumulation fund
- public
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009825 accumulation Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1057—Benefits or employee welfare, e.g. insurance, holiday or retirement packages
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供了一种公积金缴存数据预测方法、装置及电子设备,应用于计算机技术领域,其中该方法包括:先通过预训练的Holt‑Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt‑Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种公积金缴存数据预测方法、装置及电子设备。
背景技术
公积金业务的信息化已成为一种必然的趋势,公积金相关数据的预测对公积金管理部门至关重要。
目前,市面上已存在的FineBI、Office Excel都具备数据分析插件,可直接将数据导入,运用已有的时间序列模型,如ARIMA等对业务数据进行预测。然而,该相关预测方法存在预测的准确性较差的问题,为此,如何利用公积金的相关滞后期指标数据准确预测未来时间段内公积金的缴存数据成为了一个问题问题。
发明内容
本申请提供了一种公积金缴存数据预测方法、装置及电子设备,用于提升公积金相关数据预测的准确性。本申请采用的技术方案如下:
第一方面,提供了一种公积金缴存数据预测方法,该方法包括,
接收公积金相关滞后期指标信息;
基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,预训练的Holt-Winters模型基于Python语言框架实现;
基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
对第一公积金缴存数据与第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
可选地,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
基于预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;
所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、PredictMethod。
可选地,所述Fit Method包括优化方法和目标函数;所述优化方法使用Scipy.Optimize框架,并约束Holt-Winter模型的参数的取值范围。
可选地,该方法还包括:
对所述预训练的Holt-Winters模型的测试集进行去异常值处理,以避免未来函数问题;
所述去异常值处理包括:将各期测试集与原始训练集拼接,得到拼接后的测试集;
基于拼接后测试集进行去异常值处理。
可选地,所述第一公积金缴存数据与所述第二公积金缴存数据的权重值基于所述预训练的Holt-Winters模型与预训练的Lasso模型的预测误差值确定。
可选地,所述基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据,包括:
基于接收到的公积金相关滞后期指标信息的Correlation Score对于接收到的公积金相关滞后期指标信息进行筛选,确定输入所述预训练的Lasso模型的指标信息。
第二方面,提供了一种公积金缴存数据预测装置,该装置包括,
接收模块,用于接收公积金相关滞后期指标信息;
第一确定模块,用于基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;
第二确定模块,用于基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
加权处理模块,用于对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
可选地,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、Predict Method。
可选地,所述Fit Method包括优化方法和目标函数;所述优化方法使用Scipy.Optimize框架,并约束Holt-Winter模型的参数的取值范围。
可选地,该方法还包括:
去除模块,用于对所述预训练的Holt-Winters模型的测试集进行去异常值处理,以避免未来函数问题;
所述去异常值处理包括:将各期测试集与原始训练集拼接,得到拼接后的测试集;
基于拼接后测试集进行去异常值处理。
可选地,该装置还包括:
权重确定模块,用于基于所述预训练的Holt-Winters模型与预训练的Lasso模型的预测误差值确定所述第一公积金缴存数据与所述第二公积金缴存数据的权重值。
可选地,所述基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据,包括:
筛选单元,用于基于接收到的公积金相关滞后期指标信息的Correlation Score对于接收到的公积金相关滞后期指标信息进行筛选,确定输入所述预训练的Lasso模型的指标信息。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的公积金缴存数据预测方法。
第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的公积金缴存数据预测方法。
本申请提供了一种公积金缴存数据预测方法、装置及电子设备,接收公积金相关滞后期指标信息;基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。即先通过预训练的Holt-Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt-Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种公积金缴存数据预测方法的流程示意图;
图2为本申请实施例的一种公积金缴存数据预测装置的结构示意图;
图3为Holt-Winters模型以及lasso模型的训练及预测处理过程;
图4为本申请实施例的一种电子设备的结构示意图;
图5示出了Holt-Winters API的模块示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种公积金缴存数据预测方法,如图1所示,该方法可以包括以下步骤:
步骤S101,接收公积金相关滞后期指标信息;
其中,在时间序列分析中,如果需要预测当期数据,那么上期、上几期等等被称为滞后期指标(即滞后期指标信息),例如预测第三季度缴存额,第二季度、第一季度以及所有历史缴存额指标就是滞后期指标。
其中,滞后期指标信息可以包括源数据和衍生指标信息。源数据包括新增开户数、缴存额、贷款回收资金、贷款发放金额、销户人数、实缴人数、贷款笔数和提取额。使用这些指标的理由是和缴存业务高度相关,这是本发明预测任务的原始的指标集合,其中还可以对这些指标再创造新指标以及删除无用的指标。衍生指标信息包括但不限于缴存额累计额、贷款发放累计额、实缴人数等。相关衍生指标的确定方式如下
(1)计算资金净流入指标
资金净流入=缴存额+贷款回售资金–提取额公式1)
(3)将所有指标滚动三个月加总(如果预测目标区间是一个季度);
(4)对缴存额取log再做差分,然后再生成滞后期指标8期或者更多期(两年(每三个月一期));
(5)计算差分指标,对8个基础指标求差分(当期减去上期);
(6)生成时间类指标;
时间类指标包括:月份、年份、公积金年度(公积金中心一般在每年6月30号调整缴存基础等政策)、时间、时间的平方及立方(缴存金额的增长随着时间增长而增长,而且增长速率可能不是线性的)。
其中,当期减去上期数据(也可减去上上期等),被称作一阶差分;当期一阶差分减去上期一阶差分,被称作二阶差分,以此类推。
步骤S102,基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;
步骤S103,基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
步骤S104,对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
示例性地,图3示出了Holt-Winters模型以及lasso模型的训练及预测处理过程。
1、源数据声明:源数据可以是某公积金中心公积金业务日度数据,一般业务数据历史长度要保持在5年以上,如果没有充足的数据量不能保证模型预测的准确性和稳定性。源数据包括新增开户数、缴存额、贷款回收资金、贷款发放金额、销户人数、实缴人数、贷款笔数和提取额。使用这些指标的理由是和缴存业务高度相关,这是本发明预测任务的原始的指标集合,以下会对这些指标再创造新指标以及删除无用的指标。
2、数据清洗
首先按照每个指标的记账日期的年、月份分组加总,生成月度指标集,如果某指标某天数据缺失,按零补足。然后根据以下规则对数据进行清洗填充:
(1)以缴存额指标为准,如果某条记录为0,删除该条记录
(2)某条记录指标为空的数量超过过1/3,删除该条记录
(3)某一指标所有月份数据全部为空或者为0,删除该指标
(4)根据单指标初步分析,异常大或者异常小的值,由历史滚动均值填充
3、衍生指标计算
(1)根据需要计算累计额的指标列表,生成累计额(从数据样本的起点开始累加,例如2005年)的衍生指标,包括缴存额累计额、贷款发放累计额、实缴人数等多个指标
(2)计算资金净流入指标
资金净流入=缴存额+贷款回售资金–提取额
(3)将所有指标滚动三个月加总(我们的预测目标区间是一个季度)
(4)对缴存额取log再做差分,然后再生成滞后期指标8期或者更多期(两年(每三个月一期))
(5)计算差分指标,对8个基础指标求差分(当期减去上期)
(6)生成时间类指标
时间类指标包括:月份、年份、公积金年度(公积金中心一般在每年6月30号调整缴存基础等政策)、时间、时间的平方及立方(缴存金额的增长随着时间增长而增长,而且增长速率可能不是线性的)。
4、确定回归因变量及自变量
(1)截取样本
由于每个公积金中心自身业务有差异,所以样本数量不同,截取的时间会不同,这里仅以某中心的数据为例:2006年01月到2017年3月为训练样本,即训练集;2017年6月到2019年10月为测试样本,即测试集。(为保证测试集和训练集数据没有重叠的部分,所以2017年3月到6月之间的数据不要,因为由于滚动三月加总的算法,会使得这几个月数据有重叠)
(2)下一期缴存额为回归因变量
(3)将其他指标向前推三个月作为自变量
5、去异常值、标准化
(1)去异常值
在训练集中按逐个指标统计,将超过2%或98%分位点的数值由2%,98%分位点替代。
在测试集中,每一期测试集和整个原始训练集拼接,用上述方法去除测试集的异常值,其中保证每一期测试集都不会和比其时间靠后的测试集样本合并在一起统计(避免未来函数)。
(2)标准化
在训练集中,用以下公式对逐个指标进行标准化。测试集的标准化方法与训练集相同,但样本拼接按照去异常值中的方法进行处理。
6、指标集筛选
其中,目前指标集中基础指标加上衍生指标的数量有多个,在输入的模型之前我们首先进行一次筛选,主要是根据模型的需要和单个指标对于缴存额的预测能力。单因子测算的方法有多种,这里介绍跟缴存额相关的方法,其他不再赘述。
(1)只取滞后期指标
以上提到的Holt-Winters模型只需要使用到滞后期的指标,而且在每一期做拟合的时候,会用到时间靠前的所有期数据。
(2)Correlation Score
(3)计算Correlation Score(相关性分数),越高说明预测能力越强
这种方法在使用Lasso模型时,会被采用首先进行预筛选,correlation score的基本逻辑就是希望筛选出的指标在整个指标体系中和其他的指标相关性很低,但与因变量Y的相关性很高。
7、模型筛选、训练
本发明将使用Holt-Winters和Lasso两个模型;,将训练集中已筛选过的指标和缴存额Y值输入到模型中进行拟合训练。主要逻辑是在回归问题中,通过调节参数,实现目标最小化真实的Y值和拟合出的Y值之间的误差。
(1)Holt-Winters模型
模型所需参数如下:模型参数初始alpha:0.5;模型参数初始beta:0.05*(1–alpha);模型参数初始gamma:0.1*alpha;模型参数周期:12;模型初始damped m:0.9。将以上参数初始化进模型,然后模型会根据最小化loss函数的目标,在初始值附近进行调整,求得能使loss函数最小化的最优参数。
(2)Lasso模型
该模型所需参数只有一个,惩罚项系数α。该模型的实现是直接使用的sklearnAPI。
(3)模型交叉验证
本发明采用的交叉验证方法是按照时间序列分割,用时间靠前的训练集训练,时间靠后的测试集测试;并且多次调整分割的时间点,但需保证足够的训练集样本数量,再次进行训练验证,统计出误差值进行比较评估。
具体地,以上模型训练之后,将测试集指标输入到最优参数的模型中,预测出拟合的测试集的Y值,再由业务需要的评估方法计算出误差值,有以下方法:
根据误差最小和稳定性最高来选出最优的模型和最优的参数,保存模型文件。
其中,最后固定的模型参数是:
Holt-Winters:alpha=0.4554;beta=0.0157;gamma=0.0266;damped m=0.8962;p=12
Lasso:α=0.025
(4)模型合并
考虑到稳健性,根据两个模型在测试集中的误差值进行加权合并,即将两个模型预测出来的值,按照(1-loss)的值加权平均,得到最后的预测值。
本申请实施例提供了一种公积金缴存数据预测方法,包括接收公积金相关滞后期指标信息;基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。即先通过预训练的Holt-Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt-Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
本申请实施例提供了一种可能的实现方式,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
基于预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;
所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、PredictMethod。
其中,所述Fit Method包括优化方法和目标函数;所述优化方法使用Scipy.Optimize框架,并约束Holt-Winter模型的参数的取值范围。
示例性地,图5示出了Holt-Winters API的模块示意图。
由于现有的holt-Winters模型框架不能完全满足要求,而且需要更完美兼容发明所需的模型训练流程,本发明编写了一套Holt-Winters API,其包括基础算法函数、Fit方法、Predict方法。
其中,基础算法函数是根据Holt-Winters数学模型递推公式实现。
Fit方法由优化方法和目标函数两部分组成,优化方法使用Scipy.Optimize框架,并约束α,β,γ,m的取值范围。目标函数由具体业务需求而定,本发明改进的框架实现以下几种:
Predict Method则是输入新的自变量,就根据目前存入的参数、模型,使用基础算法函数计算出新的拟合Y值。
本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:
对所述预训练的Holt-Winters模型的测试集进行去异常值处理,以避免未来函数问题;
所述去异常值处理包括:将各期测试集与原始训练集拼接,得到拼接后的测试集;
基于拼接后测试集进行去异常值处理。
本申请实施例提供了一种可能的实现方式,所述第一公积金缴存数据与所述第二公积金缴存数据的权重值基于所述预训练的Holt-Winters模型与预训练的Lasso模型的预测误差值确定。
其中,未来函数就是可能会引用到未来数据的函数。在预测类问题中,这一概念一定要避免,因为如果在训练中使用到未来的量,可能会使训练时的预测效果非常好,但是实际应用的效果就无法掌控了。
其中,在训练集中按逐个指标统计,将超过2%或98%分位点的数值由2%,98%分位点替代。
在测试集中,每一期测试集和整个原始训练集拼接,用上述方法去除测试集的异常值,其中保证每一期测试集都不会和比其时间靠后的测试集样本合并在一起统计,从而能够避免未来函数。
本申请实施例提供了一种可能的实现方式,具体地,所述基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据,包括:
基于接收到的公积金相关滞后期指标信息的Correlation Score对于接收到的公积金相关滞后期指标信息进行筛选,确定输入所述预训练的Lasso模型的指标信息。
其中,筛选过程可以包括:
(3)计算Correlation Score(相关性分数),越高说明预测能力越强
这种方法在使用Lasso模型时,会被采用首先进行预筛选,correlationscore的基本逻辑就是希望筛选出的指标在整个指标体系中和其他的指标相关性很低,但与因变量Y的相关性很高。
图2为本申请实施例提供的一种公积金缴存数据预测装置,该装置20包括:接收模块201、第一确定模块202、第二确定模块203、加权处理模块204,其中,
接收模块201,用于接收公积金相关滞后期指标信息;
第一确定模块202,用于基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;
第二确定模块203,用于基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
加权处理模块204,用于对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
本申请实施例提供了一种公积金缴存数据预测装置,包括接收公积金相关滞后期指标信息;基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。即先通过预训练的Holt-Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt-Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
可选地,,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、Predict Method。
可选地,所述Fit Method包括优化方法和目标函数;所述优化方法使用Scipy.Optimize框架,并约束Holt-Winter模型的参数的取值范围。
进一步地,该方法还包括:
去除模块,用于对所述预训练的Holt-Winters模型的测试集进行去异常值处理,以避免未来函数问题;
所述去异常值处理包括:将各期测试集与原始训练集拼接,得到拼接后的测试集;
基于拼接后测试集进行去异常值处理。
进一步地,该装置还包括:
权重确定模块,用于基于所述预训练的Holt-Winters模型与预训练的Lasso模型的预测误差值确定所述第一公积金缴存数据与所述第二公积金缴存数据的权重值。
所述第二确定模块包括:筛选单元,用于基于接收到的公积金相关滞后期指标信息的Correlation Score对于接收到的公积金相关滞后期指标信息进行筛选,确定输入所述预训练的Lasso模型的指标信息。
本实施例的公积金缴存数据预测装置可执行本申请上述实施例中提供的一种公积金缴存数据预测方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种公积金缴存数据预测装置,适用于上述实施例所示的方法,在此不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2所示模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图2所示实施例提供的公积金缴存数据预测装置的功能。
本申请实施例提供了一种电子设备,包括接收公积金相关滞后期指标信息;基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。即先通过预训练的Holt-Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt-Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,接收公积金相关滞后期指标信息;基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。即先通过预训练的Holt-Winters模型与预训练的Lasso模型分别确定预测的第一公积金缴存数据与第二公积金缴存数据,然后对第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据,从而能够提升预测的公积金缴存数据的准确性。此外,本申请基于Python语言框架实现了Holt-Winters模型对公积金缴存数据的预测,与使用FineBI和Excel插件提供的已经封装好模型相比,能够避免如果出现重大预测偏差,无法灵活地进行维护调试的问题。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种公积金缴存数据预测方法,其特征在于,包括:
接收公积金相关滞后期指标信息;
基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;
基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
2.根据权利要求1所述的方法,其特征在于,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
基于预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;
所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、PredictMethod。
3.根据权利要求2所述的方法,其特征在于,所述Fit Method包括优化方法和目标函数;所述优化方法使用Scipy.Optimize框架,并约束Holt-Winter模型的参数的取值范围。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:
对所述预训练的Holt-Winters模型的测试集进行去异常值处理,以避免未来函数问题;
所述去异常值处理包括:将各期测试集与原始训练集拼接,得到拼接后的测试集;
基于拼接后测试集进行去异常值处理。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述第一公积金缴存数据与所述第二公积金缴存数据的权重值基于所述预训练的Holt-Winters模型与预训练的Lasso模型的预测误差值确定。
6.根据权利要求1所述的方法,其特征在于,所述基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据,包括:
基于接收到的公积金相关滞后期指标信息的Correlation Score对于接收到的公积金相关滞后期指标信息进行筛选,确定输入所述预训练的Lasso模型的指标信息。
7.一种公积金缴存数据预测装置,其特征在于,包括:
接收模块,用于接收公积金相关滞后期指标信息;
第一确定模块,用于基于接收到的公积金相关滞后期指标信息通过预训练的Holt-Winters模型确定第一公积金缴存数据,所述预训练的Holt-Winters模型基于Python语言框架实现;
第二确定模块,用于基于接收到的公积金相关滞后期指标信息通过预训练的Lasso模型确定第二公积金缴存数据;
加权处理模块,用于对所述第一公积金缴存数据与所述第二公积金缴存数据进行加权处理,得到预测的公积金缴存数据。
8.根据权利要求7所述的方法,其特征在于,所述预训练的Holt-Winters模型基于Python语言框架实现,包括:
预编写Holt-Winter API使得Holt-Winters模型基于Python语言框架实现;所述预编写Holt-Winter API包括Holt-Winters算法函数、Fit Method、Predict Method。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至6任一项所述的公积金缴存数据预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至6中任一项所述的公积金缴存数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010597245.2A CN111898800A (zh) | 2020-06-28 | 2020-06-28 | 公积金缴存数据预测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010597245.2A CN111898800A (zh) | 2020-06-28 | 2020-06-28 | 公积金缴存数据预测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898800A true CN111898800A (zh) | 2020-11-06 |
Family
ID=73206433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010597245.2A Pending CN111898800A (zh) | 2020-06-28 | 2020-06-28 | 公积金缴存数据预测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898800A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871246A (zh) * | 2014-02-10 | 2014-06-18 | 南京大学 | 基于路网空间关系约束Lasso的短时交通流预测方法 |
US20150317449A1 (en) * | 2013-01-24 | 2015-11-05 | Kantrack Llc | Medication Delivery System |
CN105825339A (zh) * | 2016-03-18 | 2016-08-03 | 广州铭诚计算机科技有限公司 | 一种基于大数据的人力资源管理方法 |
US20170169446A1 (en) * | 2015-12-09 | 2017-06-15 | Wal-Mart Stores, Inc. | Systems and methods of utilizing multiple forecast models in forecasting customer demands for products at retail facilities |
CN109034505A (zh) * | 2018-09-14 | 2018-12-18 | 国网河北省电力有限公司电力科学研究院 | 计量用表需求量在线预测方法及终端设备 |
CN109933834A (zh) * | 2018-12-26 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种时序数据预测的模型创建方法及装置 |
CN110175905A (zh) * | 2019-04-17 | 2019-08-27 | 深圳壹账通智能科技有限公司 | 贷款风险评估方法及装置、终端和计算机可读存储介质 |
CN111176953A (zh) * | 2020-01-02 | 2020-05-19 | 广州虎牙科技有限公司 | 一种异常检测及其模型训练方法、计算机设备和存储介质 |
-
2020
- 2020-06-28 CN CN202010597245.2A patent/CN111898800A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150317449A1 (en) * | 2013-01-24 | 2015-11-05 | Kantrack Llc | Medication Delivery System |
CN103871246A (zh) * | 2014-02-10 | 2014-06-18 | 南京大学 | 基于路网空间关系约束Lasso的短时交通流预测方法 |
US20170169446A1 (en) * | 2015-12-09 | 2017-06-15 | Wal-Mart Stores, Inc. | Systems and methods of utilizing multiple forecast models in forecasting customer demands for products at retail facilities |
CN105825339A (zh) * | 2016-03-18 | 2016-08-03 | 广州铭诚计算机科技有限公司 | 一种基于大数据的人力资源管理方法 |
CN109034505A (zh) * | 2018-09-14 | 2018-12-18 | 国网河北省电力有限公司电力科学研究院 | 计量用表需求量在线预测方法及终端设备 |
CN109933834A (zh) * | 2018-12-26 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种时序数据预测的模型创建方法及装置 |
CN110175905A (zh) * | 2019-04-17 | 2019-08-27 | 深圳壹账通智能科技有限公司 | 贷款风险评估方法及装置、终端和计算机可读存储介质 |
CN111176953A (zh) * | 2020-01-02 | 2020-05-19 | 广州虎牙科技有限公司 | 一种异常检测及其模型训练方法、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
王为光: "在医疗保险信息化建设中应用大数据分析的研究", 《计算机测量与控制》, vol. 28, no. 5, pages 160 - 164 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2003096237A2 (en) | Electronic data processing system and method of using an electronic data processing system for automatically determining a risk indicator value | |
US10268996B1 (en) | Customized payment management | |
US20210034712A1 (en) | Diagnostics framework for large scale hierarchical time-series forecasting models | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN109086954B (zh) | 基于资金流预测收益率的预测方法、装置、设备及介质 | |
CN117575776A (zh) | 一种借贷风控模型训练方法、设备以及可读存储介质 | |
CN111754329A (zh) | 一种贷款利息结算方法、装置、电子设备和存储介质 | |
CN116542760A (zh) | 一种用于评估数据的方法和装置 | |
CN111898800A (zh) | 公积金缴存数据预测方法、装置及电子设备 | |
CN117252677A (zh) | 信贷额度确定方法和装置、电子设备及存储介质 | |
CN115731026A (zh) | 一种客户运营策略生成方法、装置及电子设备 | |
CN111899093B (zh) | 一种违约损失率的预测方法及装置 | |
EP4248292A1 (en) | Systems and methods for confidence interval transaction settlement range predictions | |
CN113129127A (zh) | 预警方法和装置 | |
US20230394069A1 (en) | Method and apparatus for measuring material risk in a data set | |
KR102420952B1 (ko) | 인공지능을 이용한 대출 확대 가설 검정 시스템 및 이를 이용한 방법 | |
CN115577846A (zh) | 一种现金流的预测方法及装置、电子设备、存储介质 | |
CN116629919A (zh) | 行业收益预测方法及相关装置 | |
CN113723672A (zh) | 基于时序特征分解的资金流动性预测方法、装置和电子设备 | |
CN114897381A (zh) | 一种账务评价方法、装置、设备、介质及产品 | |
CN115271927A (zh) | 不良贷款回收预测方法、装置、设备、介质和程序产品 | |
CN114862291A (zh) | 一种数据资产价值评估系统及方法及装置及介质 | |
CN114091715A (zh) | 一种预测应收账款未来回款的方法及系统 | |
CN115330453A (zh) | 一种对象评估方法、装置、电子设备及存储介质 | |
CN113011986A (zh) | 一种保险计算的抽象方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220909 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |