CN110147388A - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN110147388A
CN110147388A CN201710909728.XA CN201710909728A CN110147388A CN 110147388 A CN110147388 A CN 110147388A CN 201710909728 A CN201710909728 A CN 201710909728A CN 110147388 A CN110147388 A CN 110147388A
Authority
CN
China
Prior art keywords
dependent variable
lag
retarding characteristic
rank
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710909728.XA
Other languages
English (en)
Inventor
倪鑫
张明仕
胡康兴
曾嘉
陈新杰
王子钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710909728.XA priority Critical patent/CN110147388A/zh
Publication of CN110147388A publication Critical patent/CN110147388A/zh
Pending legal-status Critical Current

Links

Classifications

    • G06F19/00

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据处理的方法及装置,所述方法包括:从数据库获取因变量集和N个按照时间分布的第一变量集;对每个初始自变量进行滞后处理,得到N个第二变量集,第二变量集包括多个滞后自变量,以及获取每个滞后初始自变量的滞后时间点对应的因变量,对N个第二变量集和j个因变量进行重编码,得到j个滞后特征集,滞后特征集包括多个滞后特征,滞后特征包括滞后自变量与因变量之间的映射关系;对j个滞后特征集中的滞后特征进行回归处理,建立回归模型;根据回归模型和因变量的预测值,预测因变量的真实值,根据预测出的因变量的真实值预测预定义时间内的因变量取值。通过采用本方案,能够突出时间因素在预测中的作用,提高预测结果的全面性和准确性。

Description

一种数据处理的方法及装置
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种数据处理的方法及装置。
背景技术
传统财务预测大多依赖专家判断法或者基于业务管道数据做简单汇总/转化,受限于业务数据现状,在企业经营性现金流预测领域,一般是基于已有的业务数据去预测,考虑到年度内新业务、关键时点业务等复杂因素,为避免这些因素导致预测遗漏,目前采用连续数值预测技术、使用回归分析或时间序列分析等方式完成现金流预测。在回归分析中,需要基于业务数据中已有的特征变量来建立模型,还需要通过相关性从业务数据中识别出相关特征,以及对识别出的相关特征数据变换为新的特征,并计算每个特征与相应变量的相关性,然后分别构建每个特征的模型,通过模型的准确性对这些特征进行排序,以选择特征。但是,这种机制最终输出的模型容易出现过拟合,从而导致模型的使用受到限制。
目前提供一种基于回归分析和时间序列预测的方式来构建数值预测模型,但是,目前的回归分析依赖已有的数据,若未提前获取自变量的预测值,就无法直接预测因变量的未来值。并且该时间序列预测是通过对预测对象自身时间序列的处理,以研究其变化趋势,但对历史数据规律的依赖性很强,虽然也能突出时间因素在预测中的作用,但并未分析探讨预测对象和影响因素之间的因果关系,最终的预测结果较为片面,导致预测结果无法准确反映复杂多变的环境因素。
发明内容
本申请提供了一种数据处理的方法及装置,能够解决现有技术中预测结果不全面的问题。
本申请第一方面提供一种数据处理的方法,所述方法包括:
从数据库获取或接收因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数。在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。所述因变量集同理。
对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数。
在得到j个因变量和N个第二变量集后,对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,以及根据所述回归模型和因变量的预测值,预测所述因变量的真实值。在预测出因变量的真实值后,根据预测出的所述因变量的真实值预测预定义时间内的因变量取值。
相较于现有技术,本申请提供的方案中,在获取到待处理的初始自变量和初始因变量后,先对这些初始自变量和初始因变量分别进行滞后处理和重编码,然后基于重编码得到的滞后特征集建立回归模型,再根据所述回归模型和因变量的预测值去预测所述因变量的真实值。本申请不需要依赖自变量的预测值,仅基于因变量的预测值,就能够准确地预测因变量的真实值,并且由于滞后特征集是基于时间变化衍生得到的映射关系,所以突出了时间因素在预测中的作用,最终预测的结果比较全面和准确。
在一些可能的设计中,所述对所述N个第二变量集和所述j个因变量进行重编码之后,所述对所述j个滞后特征集中的滞后特征进行回归处理之前,还可以基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。具体来说,通过随机森林法可计算出各滞后特征的权重值,然后就可以根据权重值大小筛选出重要性较高的滞后特征。
可选的,所述基于随机森林法从j个滞后特征集中筛选出目标特征集,包括:
从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
可见,本申请通过随机森林法可以准确地筛选出重要性高、具有预测代表性的滞后特征,进而缩小滞后特征的范围,降低后期建立回归模型中的运算量,提高运算效率和准确度。
在一些可能的设计中,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。
在一些可能的设计中,所述初始自变量用x表示,所述对每个所述初始自变量进行滞后处理,得到N个第二变量集,包括下述操作:
根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;
根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
一些实施方式中,除了根据滞后初始自变量的滞后时间点去获取滞后时间点对应的j个因变量,还可以先选定要处理的初始自变量和初始因变量,然后分别对初始自变量和初始因变量进行滞后处理,且对同一时间点的初始自变量和初始因变量滞后的时间点相同。具体来说,根据所述初始因变量y预测第i个时间点的因变量时,对所述初始因变量y进行滞后i阶至j阶,得到所述初始因变量y的一个因变量;
根据所述初始因变量y预测第i+1个时间点的因变量时,对所述初始因变量y进行滞后i+1阶至j阶,得到所述初始因变量y的一个滞后变量,得到所述初始因变量y的因变量。
在一些可能的设计中,所述滞后特征集包括t*N*j个滞后特征,所述对所述N个第二变量集和所述j个因变量进行重编码,得到滞后特征集,包括以下操作:
将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;
将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。其中,每个所述滞后特征包括滞后自变量与因变量之间的映射关系,便于后期利用该x与y之间的映射关系去预测y的预测值。
在一些可能的设计中,所述j个滞后特征集中筛选出目标特征集之后,所述方法还包括:
从所述目标特征集中选择重要性排前a的候选特征集;
对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。通过多次k折交叉验证,使得最终筛选出的滞后特征的重要性排序较为稳定,波动范围较小,能够减少后期建立回归模型的运算量,以及提高回归模型的预测精准度,也能够得到预测精度稳定性较高的预测模型。
在一些可能的设计中,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,包括:
基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;
将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值,回归模型的自变量权重值可用于后期建立组合模型时,按照回归模型的自变量权重值进行组合,以得到准确度较高、能够真实反映出自变量与因变量的映射关系的组合模型,以及提高预测因变量真实值的精度。
根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。
相应的,所述根据所述回归模型和因变量的预测值,预测所述因变量的真实值,包括:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。可见,按照回归模型的自变量权重值进行组合各回归模型,能够得到准确度较高、能够真实反映出自变量与因变量的映射关系的组合模型,以及提高预测因变量真实值的精度。
在一些可能的设计中,所述建立多个回归模型之后,所述方法还包括:
根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型;
拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值;
根据所述权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,得到所述组合模型。
可见,通过结合每个被选中的预测模型的权重值去形成组合模型,能够提高组合模型预测的准确性。
可选的,所述组合策略包括惩罚系数,所述惩罚系数包括平均绝对偏差率的倒数。
可选的,在一些可能的设计中,在选择出权重值组合后,还可以对选择的权重值组合所对应的预测模型进行评分。然后根据模型评分的大小选择出模型评分较高的预测模型,再结合选择出的预测模型形成一个组合模型。通过筛选模型评分较高的预测模型去形成组合模型,能够从中剔除不精准的预测模型。
本申请第二方面提供一种数据处理的装置,具有实现对应于上述第一方面提供的数据处理的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述数据处理的装置包括:
收发模块,用于从数据库获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
处理模块,用于对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;
根据所述回归模型和因变量的预测值,预测所述因变量的真实值;根据预测出的所述因变量的真实值预测预定义时间内的因变量取值。
一些实施方式中,所述处理模块在对所述N个第二变量集和所述j个因变量进行重编码之后,对所述j个滞后特征集中的滞后特征进行回归处理之前,还用于:
基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。
一些实施方式中,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。
一些实施方式中,所述初始自变量用x表示,所述处理模块具体用于:
根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;
根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
一些实施方式中,所述滞后特征集包括t*N*j个滞后特征,所述处理模块具体用于:
将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;
将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。
一些实施方式中,所述处理模块具体用于:
从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
一些实施方式中,所述处理模块基于随机森林法从j个滞后特征集中筛选出目标特征集之后,还用于:
从所述目标特征集中选择重要性排前a的候选特征集;
对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。
一些实施方式中,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述处理模块具体用于:
基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;
将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值;
根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。
一些实施方式中,所述处理模块具体用于:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。
一些实施方式中,所述处理模块建立多个回归模型之后,还用于:
根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型;
拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值;
根据所述权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,得到所述组合模型。
本申请又一方面提供了一种数据处理的装置,其包括至少一个连接的处理器、存储器、发射器和接收器,其中,所述存储器用于存储程序代码(或称计算机可读指令),所述处理器用于调用所述存储器中的程序代码来执行上述任意一方面所述的方法。
本申请又一方面提供了一种计算机存储介质,可以是非易失性的存储介质,该存储介质中包含计算机可读指令,当该计算机可读指令在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请又一方面提供了一种包含计算机可读指令的计算机程序产品,当该计算机可读指令在计算机上运行时,使得计算机执行上述各方面所述的方法。
附图说明
图1为本申请实施例中预测系统的一种架构示意图;
图2为本申请实施例中数据处理的方法的一种流程示意图;
图3为本申请实施例中输入预测系统的初始数据的一种示意图;
图4为本申请实施例中对初始数据进行滞后处理后的部分数据示意图;
图5为本申请实施例中生成滞后特征的示意图;
图6为本申请实施例中5折交叉验证的一种示意图;
图7-1为本申请实施例中生成组合模型的一种流程示意图;
图7-2为本申请实施例中对预测模型进行评分的策略示意图;
图7-3为本申请实施例中权重与评分度量指标的一种映射关系示意图;
图8为本申请实施例中数据处理的装置的一种结构示意图;
图9为本申请实施例中数据处理的装置的另一种结构示意图;
图10为本申请实施例中服务器的一种结构示意图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
本申请供了一种数据处理的方法及装置,可用于企业资金流连续型数值的预测。以下进行详细说明。
为解决上述技术问题,本申请主要提供以下技术方案:
如图1所示,预测系统包括如图1所示数据平台和分析平台。在使用预测系统对企业现金流连续型数值预测时,数据平台获取输入的数据源(包括自变量和因变量),然后基于时间的变化,利用该数据源衍生出自变量和因变量的滞后变量,这些滞后变量能够支撑预测。数据平台将这些衍生的滞后变量输入分析平台,分析平台通过随机森林法从滞后变量中筛选重要性较高的滞后变量,即完成特征工程的建立。再基于时间序列的预测系统、筛选出的滞后变量建立回归模型,即完成特征工程的建立。在建立回归模型后,基于对建立的回归模型进行综合评分,创建组合模型,最后可基于组合模型去预测因变量的预测结果。
请参照图2,以下对本申请提供一种数据处理的方法进行举例说明,所述方法主要包括:
201、从数据库获取因变量集和N个按照时间分布的第一变量集。
其中,所述因变量集包括多个初始因变量,所述第一变量集包括多个初始自变量。为便于后续计算,可以分别从所述因变量集取t个初始因变量,从所述第一变量集取t个初始自变量,N和t均为正整数。因变量集和第一变量集的来源本申请不作限定。
该数据库可以是财务数据库或业务数据库,例如财务数据库可记录企业的现金流出/流入的数据。自变量可包括订货信息、出货信息、应收货信息等,因变量可包括企业资金流出(例如采购支出、员工支出、税金支出等企业支出)、资金流入和资金流入流出净值。
在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。同理,在所述因变量集中,所述t个初始因变量分别对应不同的预测时间点,第m个初始因变量表示根据预测时间点m的数据预测初始因变量得到的预测版本。
一些实施方式中,如图3所示的初始数据中包括初始自变量和初始因变量,N个第一变量集可采用表示,可按照时间分布,每个第一变量集中包括的初始自变量的数目可相同或不同,为便于针对计算过程的描述,后续均以数目相同为例。每个第一变量集对应的时间段都不同,从左至右,可降序或升序,具体本申请不作限定。
例如包括t个初始自变量,初始自变量x可用x1,1,x1,2,…,x1,t表示,例如其中x1,t表示第t个变量,该第t个初始自变量则表示根据预测时间点t的数据预测初始自变量得到的预测版本,其他类似,不作赘述。
包括t个初始自变量,初始自变量x可用x21,x2,2,…,x2t表示,例如 依此类推。
其中,t是指预测时间点,x1,t指第t个预测时间点对x1预测得到的预测版本。每个预测版本可以理解为一个预测时间点,比如预测10月的自变量,可以包括使用9月的自变量对10月的预测版本,使用8月的自变量对10月的预测版本,使用7月的自变量对10月的预测版本,最终可以形成3个针对10月的预测版本。
换句话说,若想要预测则需要先按照t个预测时间点去分别预测出对应的t个初始自变量。举例来说,可从lag1-lagj变量集合、lag2-lagj变量集合、…lagj-lagj变量集合中筛选出目标特征集。每个预测版本预测第1个月时,采用lag1-lagj变量集合;每个预测版本预测第2个月时,则采用lag2-lagj变量集合,以此类推,每个预测版本预测第j个月时,则采用lagj-lagj变量集合。比如:
针对2017年9月(为便于表述,简称为201709,其他类似,不作赘述)的预测值,以j=12为例:
若要对201709的预测版本进行第一个月的预测,则需要使用201708的数据去预测,那么需要使用lag1-lagj变量集合预测201709的预测值;
若要对201709的预测版本进行第一个月的预测,则需要使用201707的数据去预测,那么需要使用lag2-lagj变量集合预测201709的预测值;
依此类推,要对201709的预测版本进行第12个月的预测,则需要使用201608的数据去预测,那么需要使用lag12变量集合尝试预测。最后会得到201709的j-1=11个预测版本。
202、对每个所述初始自变量和每个所述初始因变量进行滞后处理,得到N个第二变量集,以及获取滞后初始自变量的滞后时间点对应的j个因变量。
其中,因变量是指对初始因变量在时间上滞后得到的因变量,其能够体现因变量在时间上的变化趋势。
所述第二变量集包括j个滞后自变量,滞后自变量是指对初始自变量在时间上滞后得到的自变量,其能够体现自变量在时间上的变化趋势。
例如,在获取滞后时间点j-1的滞后自变量后,可根据滞后时间点从初始数据中获取该滞后时间点j-1对应的因变量。
在一些实施方式中,滞后处理的过程可包括对初始自变量x和初始因变量y的滞后处理过程:
针对初始自变量x的滞后处理:
(a1)根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数,其中,j的取值可预定义,每次预测时可动态设置,取值大小本申请不作限定。
(b1)根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
根据步骤(a1)和(b1)可知,需要分别针对每个第一变量集中的每个初始自变量进行滞后处理。
具体来说,当根据所述初始自变量x1,1预测第1个时间点的自变量时,可对所述初始自变量x1,1进行滞后1阶至j阶,得到。
当根据所述初始自变量x1,1预测第2个时间点的自变量时,可对所述初始自变量x1,1进行滞后2阶至j阶,得到。
当根据所述初始自变量x1,1预测第3个时间点的自变量时,可对所述初始自变量x1,1进行滞后3阶至j阶,得到。
依此类推,当根据所述初始自变量x1,1预测第j个时间点的自变量时,可对所述初始自变量x1,1进行滞后j阶至j阶,得到,最终得到的滞后自变量
依此类推,分别对x12,…,x1t进行滞后处理,对于而言,最终得到的滞后自变量集,包括其他的均同理,不再赘述。
由于滞后处理后,滞后自变量和因变量数目较多,图4取中间变化的自变量和因变量进行举例说明。如图4所示,取滞后k阶至k+4阶的自变量和因变量,每一行表示滞后相同阶,例如第一行表示滞后k阶,第二行则表示滞后k+1阶,依此类推。
本申请中,可以根据针对初始自变量的滞后时间点去获取每个滞后时间点对应的因变量(即初始因变量y)。也可以先选定某个时间点的初始自变量和初始因变量,然后分别对该时间点的初始自变量和初始因变量分别jin型滞后处理,对于初始因变量y的滞后处理也可参考针对初始因变量x的表述,例如可包括a2和b2步骤。
(a2)根据所述初始因变量y预测第i个时间点的因变量时,对所述初始因变量y进行滞后i阶至j阶,得到所述初始因变量y的一个因变量。
(b2)根据所述初始因变量y预测第i+1个时间点的因变量时,对所述初始因变量y进行滞后i+1阶至j阶,得到所述初始因变量y的一个滞后变量,得到所述初始因变量y的因变量,最终可得到如图4所示的一种结果。
203、对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集。
具体来说,重编码是分别对每个所述滞后自变量和每个所述因变量进行编码,参与同一次重编码的滞后自变量和因变量均对应相同的滞后时间点。一些实施方式中,可以分别将滞后相同阶的滞后自变量与因变量进行重编码,得到一个滞后特征z。例如,将滞后1阶的x与滞后1阶的y进行重编码,其中滞后1阶的x可以是N个滞后1阶的x中的任一一个x,可以将每个滞后1阶的x分别与滞后1阶的y进行重编码,也可以仅重编码部分滞后1阶的x,具体本申请不限定。
本申请实施例中,所述滞后特征集可包括t*N*j个滞后特征。每个所述滞后特征包括滞后自变量与因变量之间的映射关系,j为正整数。例如滞后特征包括x与y之间的映射关系,即通过滞后自变量、以及对滞后自变量进行变换,最终可以找到x与y之间的映射关系,这样便于后期利用该x与y之间的映射关系去预测y的预测值。
一些实施方式中,通过重编码得到滞后特征集的过程如下:
(a3)将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征。
(b3)将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。
如图4所示,对于图4所示的数据而言,图4中的每一行都是进行相同的滞后i阶至j阶处理的变量。例如,第一行表示初始自变量均执行1阶至j阶滞后处理后的结果,第二行表示初始自变量均执行2阶至j阶滞后处理后的结果,依此类推。
在重编码时,可分别将图4中的每一行中的滞后自变量作为输入,分别与因变量进行特征重排,最后得到对应每一行的滞后特征。
例如,可将图4中的第一行中的每个滞后自变量作为输入,分别单独与图4中的第一行中的因变量进行特征重排,最后得到滞后特征集合 包括N个滞后特征,例如将进行重编码,得到一个滞后特征,将进行重编码,得到一个滞后特征,依此类推,将进行重编码,得到一个滞后特征,最后得到如图5中所示的滞后特征集其他类似,不作赘述。
为便于理解,可以将根据参与相同的滞后i阶至j阶处理后的初始自变量得到的滞后特征集设为滞后(lag)i-lagj变量集合,例如将根据参与相同的滞后1阶至j阶处理后的初始自变量得到的滞后特征集设为lag1-lagj变量集合,将根据参与相同的滞后2阶至j阶处理后的初始自变量得到的滞后特征集设为lag2-lagj变量集合,依此类推,将根据参与相同的滞后j阶至j阶处理后的初始自变量得到的滞后特征集设为lagj-lagj变量集合。
可选的,在一些发明实施例中,在对所述N个第二变量集和所述j个因变量进行重编码之后,对所述j个滞后特征集中的滞后特征进行回归处理之前,还可以基于随机森林法从所述j个滞后特征集中筛选出目标特征集,旨在筛选出重要性较高的滞后特征。所述目标特征集包括多个滞后特征。每一个滞后特征对应一个预测模型。
其中,随机森林法是指一个包含多个决策树的分类器,并且其输出的类别是由个别输出的类别的总数而定,旨在计算出不同属性的数据的权重值。相较于现有机制中利用相关性筛选自变量与因变量之间简单的关系,并不能判断出关系的强弱、因此无法准确的筛选出重要性较强的自变量与因变量映射的组合。而本申请通过随机森林法可以准确地筛选出重要性高、具有预测代表性的滞后特征,能够缩小滞后特征的范围,降低后期建立回归模型中的运算量,提高运算效率和准确度。
可选的,在一些实施方式中,所述基于随机森林法从j个滞后特征集中筛选出目标特征集,包括:
(1)从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
举例来说,可从lag1-lagj变量集合、lag2-lagj变量集合、…lagj-lagj变量集合中筛选出目标特征集。每个预测版本预测第1个月时,从lag1-lagj变量集合中筛选;每个预测版本预测第2个月时,则从lag2-lagj变量集合中筛选,以此类推,每个预测版本预测第j个月时,则从采用lagj-lagj变量集合中筛选。
(2)在从j个滞后特征集中筛选出目标特征集之后,为了减少后期建立回归模型的运算量,以及提高回归模型的预测精准度,还可以对各滞后特征集中的滞后特征进行筛选,以筛选出重要性较高的自变量和因变量。
具体来说,可以从所述目标特征集中选择重要性排前a的候选特征集。然后,对所述候选特征集进行多次k折交叉验证(英文全称:K-fold cross-validation,英文简称:k-CV),直至所述候选特征集中各滞后特征的重要性排序收敛。通过k折交叉验证,使得最终筛选出的滞后特征的重要性排序较为稳定,波动范围较小,能够减少后期建立回归模型的运算量,以及提高回归模型的预测精准度,也能够得到预测精度稳定性较高的预测模型。
其中,k折交叉验证是测试算法准确性的方法,将数据集分成k份特征样本,将其中的一个特征样本作为验证模型的数据,其他k-1份特征样本用来训练,如图6,为5折交叉验证的一种示意图,从5份数据中随机提取一份测试集,剩余4份作为训练集进行多次训练,得到拟合模型,计算针对训练集和测试集的偏差。然后,轮流将其中k-1份特征样本做训练1份做测试,交叉验证重复K次,对每个特征样本验证一次,最后取k次的平均结果或者使用其它结合方式得到一个估计,得到拟合模型,这样能够减少过拟合,从而得到稳定性较高的预测模型。
204、对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型。
所创建的回归模型包括多个预测模型,预测模型也可以称之为回归模型,本申请不对此进行区分。
回归模型的建立主要包括建立季节性差分自回归滑动平均(英文全称:SeasonalAutoregressive Integrated Moving Average,英文简称:SARIMA)模型和建立多元线性回归(英文全称:multi-linear regression,英文简称:MLR)模型。其中,SARIMA模型用于时间序列的预测。MLR模型用于将至少两个主要影响因素作为自变量来解释因变量的变化。
可选的,在一些实施方式中,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,包括:
(1)基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4,T3和T4均为预测时间段。本申请不对T1、T2、T3和T4的取值进行限定,T3和T4均是指进行滚动预测的时间序列,可以有多个取值。
(2)将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值。
其中,回归模型的自变量权重值可用于后期建立组合模型时生成组合模型。
(3)根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。一些实施方式中,可通过下述操作预测所述因变量的真实值:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,从而建立所述T3至T4的一个预测模型。每个预测模型都会有多个预测版本,一个预测模型对应一个时间序列预测的数据,每个预测版本都是基于已有的历史数据预测得到。可见,按照回归模型的自变量权重值进行组合各回归模型,能够得到准确度较高、能够真实反映出自变量与因变量的映射关系的组合模型,以及提高预测因变量真实值的精度。
举例来说,表1为基于时间序列的多个特征样本(即经过滞后处理、重编码后的滞后特征样本),每个特征样本包括时间段、该时间段对应的因变量Y的预测值、该时间段对应的因变量Y的真实值和该时间段对应的3个预测模型。表1所示的多个特征样本的时间跨度区间为201201~201506(即T1至T2),即特征的获取是从201201开始,到201506结束。下面以表1所示的特征样本为基础,进行时间跨度为2或3个月的滚动预测,以预测出因变量Y的预测值。
其中,滚动预测是指在编制预算时,将预算期与会计年度脱离开,随着预算的执行不断延伸补充预算,逐期向后滚动,使预算期始终保持为一个固定期间的一种预算编制方法,最终可实现不断的修改预测的结果。
表1
按照滚动的时间单位不同,可以分为逐月滚动、逐季滚动和混合滚动。
一、SARIMA过程:
基于表1所示的特征样本,若是建立下2个月的预测模型,则基于201201~201506对应的特征样本进行预测,预测得到时间序列为201203~201508(即T3至T4的一个时间区间取值)的因变量y的预测值,也可以称为SARIMA预测值。最后可得到下2个月的预测模型1,如表2所示。
表2
若是建立下3个月的预测模型,基于201201~201506对应的特征样本进行预测,预测得到时间序列为201204~201509(即T3至T4的一个时间区间取值)的因变量y的预测值,也可以称为SARIMA预测值,得到下3个月的预测模型2,如表3所示。
表3
二、MLR过程:
回归类方法构建的预测模型和组合模型,包括逐步回归、基于筛选变量配置回归及将步骤二中的预测结果作为X纳入变量的回归。
(1)对于建立下2个月的预测模型的过程,则选择表3中的时间段为201303~201506年的数据作训练集,然后利用该201303~201506年的数据进行对步骤一中的预测模型1进行线性回归的训练,最终训练得出预测模型1的自变量权重值。
其中,该训练集包括SARIMA预测值、特征1、特征2和特征3为自变量、因变量的真实值(如表2中的y1-yn)。
再利用201507~201508的SARIMA预测值、特征1、特征2、特征3的值分别对201507~201508的真实值进行预测。
(2)对于建立下3个月的预测模型,同理,选择表3中的时间段为201204~201509的数据作为训练集,然后利用该201204~201509的数据进行对步骤一中的预测模型2进行线性回归的训练,最终训练得出预测模型2的自变量权重值。
需要说明的是,训练集要根据要建立的预测模型的时间跨度去选择,并且去掉该时间跨度去掉最早的时间序列对应的数据,表2和表3最末端的数据是基于预测模型预测得到,用于预测因变量y的真实值。
在完成SARIMA过程和MLR过程后,可基于SARIMA预测值、特征1、特征2和特征3、以及自变量权重值建立用于预测的回归模型。
本申请实施例中,不需要计算自变量X的预测值,而是将因变量的预测值引入MLR中去预测因变量的真实值,由于因变量的预测值可以代表因变量本身的波动趋势,所以引入因变量的预测值去预测Y的真实值后,可以有效的从因变量的本身波动趋势去反映出因变量的真实值,准确性更高,稳定性也更高。相当于从因变量本身去变换。
205、根据所述回归模型和因变量的预测值,预测所述因变量的真实值。
一些实施方式中,可预测所述因变量的真实值包括:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。T3和T4是指基于T1和T2的数据预测的时间序列。
206、根据预测出的所述因变量的真实值预测预定义时间内的因变量取值。
具体来说,在预测出因变量的真实值后,可以基于预测的到的真实值对一段时间内的因变量的变化趋势进行预测,例如本申请实施例应用在企业资金流的预测时,该因变量的真实值可以用于支撑季度内、年度内的资金流预测,在每个月的资金流预测过程中,都可以将该因变量的真实值作为当月的参考,从而得到相应的每个月的资金流预测报表,以便于资金分析和资金管理。
预测出的因变量的真实值还可以用于短期内的资金压力测试,例如采用预测出的最高值去预测未来3个月以及3个月之后的资金存量的最优状态,或者采用预测出的最低值去预测未来3个月以及3个月之后的资金存量的最差状态,进而对企业的投资或融资等业务进行风险管理和预算管理,能够完善企业的资金流管理。
本申请实施例中,在获取到待处理的初始自变量和初始因变量后,先对这些初始自变量和初始因变量分别进行滞后处理和重编码,然后基于重编码得到的滞后特征集建立回归模型,再根据所述回归模型和因变量的预测值去预测所述因变量的真实值。本申请不需要依赖自变量的预测值,仅基于因变量的预测值,就能够准确地预测因变量的真实值,并且由于滞后特征集是基于时间变化衍生得到的映射关系,所以突出了时间因素在预测中的作用,最终预测的结果比较全面和准确,进而提高对未来一段时间内的预测的准确度。
一方面中,由于初始自变量和初始因变量经过滞后处理可以得到指定的未来时间区间的自变量和因变量,那么,就无需再获取这些未来时间区间的自变量和因变量,就能利用这些滞后得到的滞后自变量和因变量去支撑因变量的预测值的生成,相较于现有机制中,只能基于已经获取到的指定时间区间内的自变量和因变量去支撑因变量预测值的生成,本申请无需额外的未来时间区间的自变量和因变量,就能够支撑因变量预测值的生成。
另一方面中,由于初始自变量和初始因变量经过滞后处理和重编码,最后得到滞后特征这样的衍生变量,所以能够在输入预测系统的初始数据中的自变量和/或因变量不足的情况,或者在初始数据中已有的自变量和/或因变量不足以充分表征初始数据的特征的情况下,本申请可以利用衍生出来的滞后特征去填补这些空缺,并且依然能很好的支撑整个预测。
可选的,在一些发明实施例中,在建立对应预测时间点的多个预测模型(即回归模型)后,还可以根据每个预测模型对应的k折交叉验证后的数据,基于模型测评条件、预测精度和平均绝对偏差率,选择预测精度越高且偏差越大的权重值组合,从而确定这些权重值组合对应的预测模型。相应的,在对选择的权重值组合所对应的预测模型进行评分时,会得到较高的评分。具体实施如下:
首先,根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型,也可以认为是选择出一个权重值组合,该权重值组合中的权重值对应的预测模型预测精度较高且偏差较大,权重值越高,相应的偏差率越大,则预测精度越高。
可见,在形成组合模型时,还可以结合每个被选中的预测模型的权重值去形成组合模型,这样可以提高组合模型预测的准确性。
在选择出权重值高于预设权重值的回归模型后,拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,从而得到多个模型拟合因变量预测值。
最后,根据这些权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,形成上述组合模型。可选的,在一些实施方式中,所述组合策略包括惩罚系数,所述惩罚系数包括平均绝对偏差率的倒数。
可选的,在一些实施方式中,在选择出权重值组合后,还可以对选择的权重值组合所对应的预测模型进行评分。然后根据模型评分的大小选择出模型评分较高的预测模型,再结合选择出的预测模型形成一个组合模型。通过筛选模型评分较高的预测模型去形成组合模型,能够从中剔除不精准的预测模型。
可以理解的是,组合模型也是一种回归模型。
举例来说,如图7-1所示的形成组合模型的一种流程示意图,如表4所示的一种表示模型测评条件的初始测评指标体系。
表4
图7-1所示的流程中,从建立的预测模型中选择预测模型1、预测模型2、…预测模型M作为本次评分的输入。以及选择每个预测模型的前12个版本,结合表1和选中的各预测模型,对这些预测模型的每个版本的预测效果分别进行评分。评分的策略可以参考图7-2所示的策略,对每个预测模型对应的版本的预测效果都可以采用如图7-2所示的策略进行评分。
在对每个预测模型对应的版本的预测效果的评分完成后,可以计算出每个预测模型的综合评分,即如图7-1中所示的预测模型1-预测模型M的综合评分。下面介绍针对每个预测模型的综合评分计算过程:
(1)计算预测模型的前12个版本测评指标:针对回归/时序预测模型拟合预测值,计算预测模型前12个版本预测效果测评指标,分别为:FCST_MAPE、FCST_MAX_AER、FCST_MED_AER、FIT_MAPE、FIT_MAX_AER、FIT_MED_AER。
(2)计算预测模型预测效果综合测评指标:
分别取前12个版本预测模型对应测评指标的平均值、最大值和中位数,作为此预测模型当期版本的6个综合测评指标。
(3)根据步骤(2)中得到的6个综合测评指标计算对应的评分度量指标。
(4)结合评分度量指标对应的权重值,计算预测模型的综合评分:
可结合图7-3中所示的权重与评分度量指标的一种映射关系,查询到各评分度量指标对应的权重值,然后可根据下述等式计算出预测模型综合评分。
预测模型综合评分=0.4*(1-AVG(FCST_MAPE))+0.1*(1-MAX(FCST_MAX_AER))+0.25*(1-MEDIAN(FCST_MED_AER))+0.1*(1-ABS(AVG(FCST_MAPE)-AVG(FIT_MAPE)))+0.05*(1-ABS(MAX(FCST_MAX_AER)-MAX(FIT_MAX_AER)))+0.1*(1-ABS(MEDIAN(FCST_MED_AER)-MEDIAN(FIT_MED_AER)))。
(4)如图7-1所示,在计算出每个预测模型的综合评分后,可以分别计算出综合评分排前三的预测模型的拟合预测值。
然后,结合综合评分排前三的预测模型的权重值、以及综合评分排前三的预测模型的拟合预测值,生成所述组合模型的拟合预测值。然后可根据下述等式计算出组合模型的拟合预测值。
组合模型的拟合预测值=综合评分第一的预测模型的拟合预测值*评分综合评分第一的预测模型的权重+综合评分第二的预测模型的拟合预测值*综合评分第二的预测模型的权重+综合评分第三的预测模型的拟合预测值*评分综合评分第三的预测模型的权重。
上述因变量集、第一变量集、初始自变量、滞后自变量、初始因变量、滞后特征集、滞后特征、滞后特征集、重编码、预测值、回归模型等技术特征也同样适用于本申请中的图8-图10所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种数据处理的方法进行说明,以下对执行上述数据处理的方法的装置进行描述。该装置可以是终端设备或服务器,也可以是安装了数据处理的装置的终端设备或服务器。本申请实施例所提供的数据处理的装置,具有实现对应于上述图1-图7-3任意所对应的实施例中所提供的数据处理的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一些实施方式中,如图8所示,所述数据处理的装置包括:
收发模块,用于从数据库获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
处理模块,用于对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
所述处理模块对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;根据所述回归模型和因变量的预测值,预测所述因变量的真实值;
所述处理模块在预测出因变量的真实值后,根据预测出的所述因变量的真实值预测预定义时间内的因变量取值。
本申请实施例中,处理模块在获取到待处理的初始自变量和初始因变量后,先对这些初始自变量和初始因变量分别进行滞后处理和重编码,然后基于重编码得到的滞后特征集建立回归模型,再根据所述回归模型和因变量的预测值去预测所述因变量的真实值。本申请不需要依赖自变量的预测值,仅基于因变量的预测值,就能够准确地预测因变量的真实值,并且由于滞后特征集是基于时间变化衍生得到的映射关系,所以突出了时间因素在预测中的作用,最终预测的结果比较全面和准确,进而支撑未来一段时间内的预测。
可选的,在本申请的一些发明实施例中,所述处理模块在对所述N个第二变量集和所述j个因变量进行重编码之后,对所述j个滞后特征集中的滞后特征进行回归处理之前,还用于:
基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。
可选的,在本申请的一些发明实施例中,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。
可选的,在本申请的一些发明实施例中,所述初始自变量用x表示,所述处理模块具体用于:
根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数。
根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
可选的,在本申请的一些发明实施例中,所述滞后特征集包括t*N*j个滞后特征,所述处理模块具体用于:
将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;
将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。
可选的,在本申请的一些发明实施例中,所述处理模块具体用于:
从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
可选的,在本申请的一些发明实施例中,所述处理模块基于随机森林法从j个滞后特征集中筛选出目标特征集之后,还用于:
从所述目标特征集中选择重要性排前a的候选特征集。
对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。
可选的,在本申请的一些发明实施例中,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2。所述处理模块具体用于:
基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4。
将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值。
根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。
可选的,在本申请的一些发明实施例中,所述处理模块具体用于:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。
可选的,在本申请的一些发明实施例中,所述处理模块建立多个回归模型之后,还用于:
根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型。
拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值。
根据所述权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,得到所述组合模型。
上面从模块化化功能实体的角度对本申请实施例中的数据处理的装置进行了介绍,下面从硬件处理的角度分别对本申请实施例中的数据处理的装置进行介绍。本申请实施例还提供一种数据处理的装置(如图9所示的结构),其包括至少一个处理器、至少一个网络接口或者其它通信接口、存储器、至少一个通信总线、至少一个收发器用于实现这些装置之间的连接通信,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述实施例中由数据处理的装置所执行的上述数据处理的方法中的部分或者全部步骤。上述处理器用于执行上述存储器中存储的可执行模块,例如计算机程序。上述存储器可能包含高速随机存取存储器(英文全称:Random Access Memory,英文简称:RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。如图8所示,在一些实施方式中,上述存储器中存储了程序指令,上述程序指令可以被上述处理器执行。图9所示的装置可用于实现本申请中图8所示的数据处理的装置的功能,其能够执行由图8所示的数据处理的装置在本申请实施例中执行的所有操作。图9中所述处理器可通过调用存储器存储的程序指令,执行以下操作:
通过所述收发器获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;
根据所述回归模型和因变量的预测值,预测所述因变量的真实值。
需要说明的是,在本申请各实施例(包括图8所示的各实施例)中所有的收发模块对应的实体设备可以为收发器,所有的处理模块对应的实体设备可以为处理器。图8所示的各装置均可以具有如图9所示的结构,当其中一种装置具有如图9所示的结构时,图9中的处理器和收发器实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能,图9中的存储器存储处理器执行上述数据处理的方法时需要调用的程序代码。
图10是本申请实施例提供的一种服务器结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessing units,英文简称:CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由数据处理的装置所执行的步骤可以基于该图10所示的服务器结构。
例如,图10所示的服务器用于实现本申请实施例中数据处理的装置的功能时,图10中的所述中央处理器1022可用于执行以下操作:
通过所述输入输出接口1058获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;
根据所述回归模型和因变量的预测值,预测所述因变量的真实值。
本申请实施例还提供一种计算机存储介质,该介质存储有程序,该程序执行包括上述数据处理的装置或终端设备或服务器执行的上述数据处理的方法中的部分或者全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种数据处理的方法,其特征在于,所述方法由计算机系统执行,包括:
获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;
根据所述回归模型和因变量的预测值,预测所述因变量的真实值。
2.根据权利要求1所述的方法,其特征在于,所述对所述N个第二变量集和所述j个因变量进行重编码之后,所述对所述j个滞后特征集中的滞后特征进行回归处理之前,所述方法还包括:
基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。
3.根据权利要求1或2所述的方法,其特征在于,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。
4.根据权利要求3所述的方法,其特征在于,所述初始自变量用x表示,所述对每个所述初始自变量进行滞后处理,得到N个第二变量集,包括下述操作:
根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;
根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
5.根据权利要求4所述的方法,其特征在于,所述滞后特征集包括t*N*j个滞后特征,所述对所述N个第二变量集和所述j个因变量进行重编码,得到滞后特征集,包括以下操作:
将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;
将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。
6.根据权利要求2-5中任一所述的方法,其特征在于,所述基于随机森林法从j个滞后特征集中筛选出目标特征集,包括:
从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
7.根据权利要求6所述的方法,其特征在于,所述j个滞后特征集中筛选出目标特征集之后,所述方法还包括:
从所述目标特征集中选择重要性排前a的候选特征集;
对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。
8.根据权利要求3-7中任一所述的方法,其特征在于,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,包括:
基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;
将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值;
根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。
9.根据权利要求8所述的方法,其特征在于,所述根据所述回归模型和因变量的预测值,预测所述因变量的真实值,包括:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。
10.根据权利要求8或9所述的方法,其特征在于,所述建立多个回归模型之后,所述方法还包括:
根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型;
拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值;
根据所述权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,得到所述组合模型。
11.一种数据处理的装置,其特征在于,所述装置包括:
收发模块,用于获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;
处理模块,用于对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;
对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;
对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;
根据所述回归模型和因变量的预测值,预测所述因变量的真实值。
12.根据权利要求11所述的装置,其特征在于,所述处理模块在对所述N个第二变量集和所述j个因变量进行重编码之后,对所述j个滞后特征集中的滞后特征进行回归处理之前,还用于:
基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。
13.根据权利要求11或12所述的装置,其特征在于,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。
14.根据权利要求13所述的装置,其特征在于,所述初始自变量用x表示,所述处理模块具体用于:
根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;
根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。
15.根据权利要求14所述的装置,其特征在于,所述滞后特征集包括t*N*j个滞后特征,所述处理模块具体用于:
将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;
将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。
16.根据权利要求12-15中任一所述的装置,其特征在于,所述处理模块具体用于:
从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。
17.根据权利要求16所述的装置,其特征在于,所述处理模块基于随机森林法从j个滞后特征集中筛选出目标特征集之后,还用于:
从所述目标特征集中选择重要性排前a的候选特征集;
对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。
18.根据权利要求13-17中任一所述的装置,其特征在于,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述处理模块具体用于:
基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;
将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值;
根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。
19.根据权利要求18所述的装置,其特征在于,所述处理模块具体用于:
基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。
20.根据权利要求18或19所述的装置,其特征在于,所述处理模块建立多个回归模型之后,还用于:
根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型;
拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值;
根据所述权重值高于预设权重值的回归模型、回归模型的权重值、模型拟合因变量预测值、以及组合策略,得到所述组合模型。
CN201710909728.XA 2017-09-29 2017-09-29 一种数据处理的方法及装置 Pending CN110147388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710909728.XA CN110147388A (zh) 2017-09-29 2017-09-29 一种数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710909728.XA CN110147388A (zh) 2017-09-29 2017-09-29 一种数据处理的方法及装置

Publications (1)

Publication Number Publication Date
CN110147388A true CN110147388A (zh) 2019-08-20

Family

ID=67588030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710909728.XA Pending CN110147388A (zh) 2017-09-29 2017-09-29 一种数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN110147388A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110595944A (zh) * 2019-08-21 2019-12-20 山东中烟工业有限责任公司 一种爆珠滤棒端部密度数据修正方法及系统
CN112199449A (zh) * 2020-09-23 2021-01-08 况客科技(北京)有限公司 数据处理系统
CN112286933A (zh) * 2020-10-28 2021-01-29 况客科技(北京)有限公司 数据处理系统
WO2022237284A1 (zh) * 2021-05-12 2022-11-17 华为技术有限公司 一种工程化预测分析的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110595944A (zh) * 2019-08-21 2019-12-20 山东中烟工业有限责任公司 一种爆珠滤棒端部密度数据修正方法及系统
CN112199449A (zh) * 2020-09-23 2021-01-08 况客科技(北京)有限公司 数据处理系统
CN112286933A (zh) * 2020-10-28 2021-01-29 况客科技(北京)有限公司 数据处理系统
WO2022237284A1 (zh) * 2021-05-12 2022-11-17 华为技术有限公司 一种工程化预测分析的方法

Similar Documents

Publication Publication Date Title
Bernard et al. Two-sided heterogeneity and trade
Izadikhah et al. Ranking sustainable suppliers by context-dependent data envelopment analysis
CN110147388A (zh) 一种数据处理的方法及装置
CN108921702A (zh) 基于大数据的园区招商方法及装置
CN102411735A (zh) 可重构装配系统重构规划方案评价方法
CN101697141A (zh) 网格中基于历史数据建模的作业性能预测方法
CN109767032A (zh) 一种基于数据分析的企业财务运营数字化管理优化系统
Alamsyah et al. Artificial neural network for Indonesian tourism demand forecasting
CN103942283B (zh) 基于Web服务的制造资源推荐方法及系统
JP7304698B2 (ja) 水需要予測方法およびシステム
CN109102142A (zh) 一种基于评价标准树的人才评价方法和系统
Elanchezhian et al. Vendor evaluation using multi criteria decision making
CN108241900A (zh) 工程项目建设周期预测方法、装置和系统
CN108596765A (zh) 一种金融电子资源推荐方法和装置
WO2021126012A1 (ru) Система для матрично-цифрового преобразования переменного множества данных
Sahoo et al. Nexus between export, productivity, and competitiveness in the Indian manufacturing sector
CN108985595A (zh) 基于交易方互评的移动交易服务评价方法及装置
Darko et al. Using machine learning to improve cost and duration prediction accuracy in green building projects
Lee et al. Software architecture evaluation methods based on cost benefit analysis and quantitative decision making
Goh A preliminary requirement of decision support system for Building Information Modelling software selection
Gattermann-Itschert et al. Using Machine Learning to Include Planners’ Preferences in Railway Crew Scheduling Optimization
Freire Economic Complexity Perspectives
Casault et al. Selection of a portfolio of R & D projects
CN103810642B (zh) 基于Web服务的协同制造控制方法及控制系统
Kludacz-Alessandri The relationship between cost system functionality, management accounting practices, and hospital performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820