具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,如图1所示,本说明书实施例提供一种对象类目周期判断的模型训练方法,包括:
S102、对已标注周期性的对象类目数据进行时序分解,得到时序分解曲线,其中,所述时序分解曲线包括趋势曲线、残差曲线和表征周期性变化的周期性曲线;
S104、根据所述时序分解曲线,衍生出周期性变量,其中,所述周期性变量包括周期性变化与趋势的第三相对强度,周期性变化与残差的第四相对强度,和所述第三相对强度与所述第四相对强度的乘积中的至少一个变量;
S106、对已标注周期性的对象类目数据进行分析,得到基础变量;
S108、使用决策树对所述周期性变量和所述基础变量进行模型训练,得到目标决策树模型。
本说明书实施例中,所述周期性可以包括间隔设定周期一个循环,所述设定周期根据实际情况进行设定,所述周期性可以包括季节性、间隔一周循环一次、间隔一个或多个月循环一次和间隔一年或多年循环一次等,本说明书不作具体限制。
其中,在步骤S102中,首先获取周期性的对象类目数据,然后对周期性的对象类目数据进行打标,得到已标注周期性的对象类目数据,其中,在进行打标时可以采用人工打标和机器打标等打标方式中的一种或多种,本说明书不作具体限制。
本说明书实施例,所述已标注周期性的对象类目数据可以包括标注类目周期性和淡旺季的对象类目数据,还可以仅包括标注类目周期性的对象类目数据,本说明书不作具体限制。
具体来讲,在获取周期性的对象类目数据时,可以从历史对象类目数据中选取设定周期内的具有周期性的对象类目数据,将选取的数据作为所述周期性的对象类目数据;其中,所述周期性的对象类目数据对应的对象类目为所述历史对象类目数据对应的对象类目中的一部分。
例如,所述历史对象类目数据包括a1、a2、a3、a4、a5和a6对象类目数据,从所述历史对象类目数据中选取具有周期性的a1和a2进行打标,得到已标注的a1和a2,其中,a1、a2、a4和a6均为具有周期性的对象类目数据;a3和a5为弱周期性的对象类目数据。
具体来讲,在获取到已标注周期性的对象类目数据之后,对已标注周期性的对象类目数据进行时序分解,得到所述时序分解曲线;其中,所述时序分解曲线包括趋势曲线、残差曲线和表征周期性变化的周期性曲线。
具体地,在进行时序分解时,可以首先对已标注周期性的对象类目数据进行分析,得到对应的交易曲线;然后对所述交易曲线进行时序分解,得到所述时序分解曲线。
具体来讲,在对所述交易曲线进行时序分解时,可以采用乘法方式或对数方式等方式进行时序分解,具体如下述公式所示:
其中,在采用乘法方式进行时序分解时,具体如下述公式:
yt=Tt×Ct×Rt 公式(1)
其中,在采用对数方式进行时序分解时,具体如下述公式:
logyt=logTt+logCt+logRt 公式(2)
公式(1)和公式(2)中,Tt为趋势项,Ct为周期项,Rt为残差项。
具体来讲,在所述周期性具体为季节性时,上述公式(1)和公式(2)依次变为下述公式(3)和公式(4)。
其中,公式(1)变换为公式(3)之后,具体如下述公式:
yt=Tt×St×Rt 公式(3)
其中,公式(2)变换为公式(4)之后,具体如下述公式:
logyt=logTt+logSt+logRt 公式(4)
公式(3)和公式(4)中,Tt为趋势项,St为季节项,Rt为残差项。
接下来执行步骤S104,将所述周期性曲线的幅值与所述趋势曲线的趋势均值进行比对,得到所述第三相对强度;
将所述周期性曲线的幅值与所述残差曲线的残差均值进行比对,得到所述第四相对强度;以及
获取所述第三相对强度与所述第四相对强度的乘积;
根据所述第三相对强度、所述第四相对强度、和所述第三相对强度与所述第四相对强度的乘积,确定所述周期性变量,如此,使得所述周期性变量可以包括所述第三相对强度、所述第四相对强度、和所述第三相对强度与所述第四相对强度的乘积中的一种或多种组合。
本说明书实施例中,所述周期性变量可以包括所述第三相对强度和所述第四相对强度、和所述第三相对强度与所述第四相对强度的乘积。
其中,所述目标对象类目具有周期性时,具体可以通过公式(1)和公式(2)进行计算出所述周期性变量,公式具体如下:
str1=st1×sr1
其中,A(Cycle)表示周期性曲线的幅值,Mean(Trend)表示趋势曲线的均值,A(Residual)表示残差曲线的幅值,st1表示所述第三相对强度,sr1表示所述第四相对强度,str1表示st1和sr1之间的乘积。
当然,所述周期性具体为季节性时,可以通过公式(3)和公式(4)进行计算出所述周期性变量,公式具体如下:
str2=st2×sr2
其中,A(Seasonal)表示周期性曲线的幅值,Mean(Trend)表示趋势曲线的均值,A(Residual)表示残差曲线的幅值,st2表示所述第三相对强度,sr2表示所述第四相对强度,str2表示st2和sr2之间的乘积。
接下来执行步骤S106,可以对已标注周期性的对象类目数据进行分析,得到对应的交易曲线;然后对所述交易曲线进行分析,对所述交易曲线进行分析,衍生出交易性变量,其中,所述交易性变量包括总交易额、平均交易额、交易额缺失月份数量和淡旺季月份数量等变量中的至少一种;根据所述交易性变量,确定所述基础变量,其中,所述基础变量包括所述交易性变量中的一个或多个变量。
本说明书实施例中,在对所述交易曲线进行分析是,可以通过交易额和已标注的淡忘季对所述交易曲线进行分析,进而得到所述交易性变量。
本说明书实施例中,步骤S106可以与步骤S102或步骤S104同步执行,也可以在步骤S102或步骤S104之后执行,还可以在步骤S102或步骤S104之前执行,本说明书不作具体限制。
具体来讲,所述基础变量包括总交易额、平均交易额、交易额缺失月份数量以及淡旺季月份数量等交易性变量中的一个或多个,即所述基础变量可以包括所述交易性变量中的部分或全部变量。
本说明书实施例中,在衍生出所述基础变量时,还可以对所述交易曲线进行快速傅里叶变换(fast Fourier transform,简称FFT),得到傅里叶分析幅值,此时,可以根据所述交易性变量和所述傅里叶分析幅值,确定所述基础变量,其中,所述基础变量包括所述交易性变量和所述傅里叶分析幅值。
本说明书实施例中,在衍生出所述基础变量时,还可以根据已标注周期性的对象类目数据,获取对应的交易曲线,对所述交易曲线进行平稳性判断,得到所述交易曲线的平稳系数;根据所述交易性变量、所述傅里叶分析幅值和所述平稳系数,确定所述基础变量,其中,所述基础变量包括所述交易性变量、所述傅里叶分析幅值和所述平稳系数。
具体来讲,FFT是对离散傅里叶变换(DFT)进行加速的一种方法。有限长离散信号x(n),n=0,1,…,N-1的DFT的定义是
其中,DFT需要计算大约N2次乘法和N2次加法。当N较大时,这个计算量是很大的。利用WN的对称性和周期性,将N点DFT分解为两个N/2点的DFT,这样两个N/2点DFT总的计算量只是原来的一半,即(N/2)2+(N/2)2=N2/2,这样可以继续分解下去,将N/2再分解为N/4点的DFT等。对于N=2m点的DFT都可以分解为2点的DFT,这样其计算量可以减少为(N/2)log2N次乘法和N log2N次加法。
将x(n)分解为偶数与奇数的两个序列之和,即
x(n)=x1(n)+x2(n)
x1(n)和x2(n)的长度都是N/2,x1(n)是偶数数列,x2(n)是奇数数列,再利用周期性,可得到
其中X1(k)和X2(k)分别为x1(n)和x2(n)的N/2点DFT的值。
FFT算法的原理是通过许多小的更加容易进行的变换去实现大规模的变换,降低了运算要求,提高了运算速度,如此,在对所述交易曲线进行快速傅里叶变换得到所述傅里叶分析幅值过程中,能够有效提高处理效率。
本说明书实施例中,在对所述交易曲线进行平稳性判断,得到所述交易曲线的平稳系数时,可以获取判断所述交易曲线是否平稳的假设机率(P-value),并将P-value作为所述平稳系数。
具体来讲,P-value是给定原假设为真时样本结果出现的概率,即其体现了假设的显著性程度;左侧检验的P值为检验统计量X小于样本统计值C的概率,即:P=P{X<C}右侧检验的P值为检验统计量X大于样本统计值C的概率:P=P{X>C};计算出P值后,将给定的显著性水平α与P值比较,就可作出检验的结论:如果α>P值,则在显著性水平α下拒绝原假设。如果α≤P值,则在显著性水平α下不拒绝原假设。在实践中,当α=P值时,也即统计量的值C刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
本说明书另一实施例中,在衍生出所述基础变量时,可以对所述交易曲线进行分析,获取在设定周期内交易额下降率大于预设阈值的个性化变量,其中,所述基础变量包括所述个性化变量。
此时,还可以根据所述交易性变量、所述傅里叶分析幅值、所述平稳系数和所述个性化变量,确定所述基础变量,其中,所述基础变量包括所述交易性变量、所述傅里叶分析幅、所述平稳系数和所述个性化变量。
具体来讲,在对所述交易曲线进行分析之后,可以发现有交易额整体呈现上升或者下降趋势,但是会发现每年过年月份附近出现迅速下降这种特殊情况,因此,针对每年过年月份附近出现迅速下降这种特殊情况,会衍生出所述个性化变量;如此,使得所述基础变量还可以包括所述个性化变量,所述个性化变量可以添加到所述淡旺季月份数量这个变量中,也可以单独作为一个变量,本申请不作具体限制。
具体地,为了抓取每年过年月份附近出现迅速下降这种特殊情况,可以首先设定所述设定周期,使得所述设定周期可以为每年的一月和二月,然后根据每年过年月份附近出现迅速下降的历史记录,获取在所述设定周期内的历史交易额下降率集合,根据所述历史交易额下降率集合,确定所述预设阈值。例如,可以所述预设阈值可以为所述历史交易额下降率集合的均值,也可以所述历史交易额下降率集合中的最小下降率等,本说明书不作具体限制。
本说明书实施例中,所述对象类目可以为服装类目、电子产品类目和玩具类目等商品类目,具有周期性的对象类目可以包括毛衣、羽绒服、圣诞树和裙子等,不具有周期性的对象类目可以包括手机、玩具、吸尘器和电视机等。
例如,如图2所示,在已标注周期的对象类目数据为毛衣类目数据,则可以根据所述毛衣类目数据,得到毛衣交易曲线20,然后对毛衣交易曲线20进行时序分解,得到包括毛衣趋势曲线21、毛衣周期性曲线22和毛衣残差曲线23的毛衣时序分解曲线200;再根据毛衣趋势曲线21、毛衣周期性曲线22和毛衣残差曲线23,衍生出包括毛衣周期性变化与毛衣趋势的第三相对强度,毛衣周期性变化与毛衣残差的第四相对强度,和所述第三相对强度与所述第四相对强度的乘积的周期性变量。
进一步,还可以对毛衣类目数据进行分析,得到毛衣总交易额、毛衣平均交易额、毛衣交易额缺失月份数量以及毛衣淡旺季月份数量等毛衣交易性变量;当然还可以对所述毛衣交易数据进行FFT,得到毛衣傅里叶分析幅值;以及还可以对毛衣时序分解曲线20进行平稳性判断,得到毛衣时序分解曲线20的毛衣平稳系数;以及还可以对所述毛衣交易曲线进行分析,获取在所述设定周期内交易额下降率大于所述预设阈值的毛衣个性化变量,如此,使得毛衣类目数据的基础变量包括毛衣交易性变量、毛衣傅里叶分析幅值、毛衣平稳系数和毛衣个性化变量。
接下来执行步骤S108,可以将所述基础变量和所述周期性变量放入决策树中进行训练,得到所述基础变量和所述周期性变量中的每个变量的划分阈值;根据每个变量的划分阈值,得到所述目标决策树模型;其中,所述决策树可以是交互式的决策树。
具体来讲,将通过步骤S102-步骤S106衍生的所有变量放入交互式的决策树中进行训练,从而得到每个变量的划分阈值,再根据每个变量的划分阈值,得到所述目标决策树模型。
具体来讲,若所述基础变量包括总交易额(Gross Merchandise Volume,简称GMV)、平均交易额(on balance volume,简写obv)、交易额缺失月份数量用S1表示,以及淡旺季月份数量用S2表示、傅里叶分析幅值用FFT1表示、平稳系数用P1表示和个性化变量用P2表示,且所述周期性变量包括所述第三相对强度st、所述第四相对强度sr、和所述第三相对强度与所述第四相对强度的乘积str,则将GMV、obv、S1、S2、FFT1、P1、P2、st、sr和str每个变量输入到决策树中的对应节点中,然后使用已标注周期的对象类目数据对输入变量的决策树进行训练,得到每个变量的划分阈值,根据每个变量的划分阈值,得到所述目标决策树模型。其中,所述目标决策树模型例如可以如图3所示,具体如下:
其中,参见图3,sr1表示sr的实际值,Dsr表示sr的划分阈值,GMV1表示GMV的实际值,DGMV表示GMV的划分阈值,FFT11表示FFT1的实际值,DFFT1表示FFT1的划分阈值,st1表示st的实际值,Dst表示st的划分阈值,obv1表示obv的实际值,Dobv表示obv的划分阈值,str1表示str的实际值,Dstr表示str的划分阈值,s11表示s1的实际值,Ds1表示s1的划分阈值,s21表示s2的实际值,Ds2表示s2的划分阈值,P11表示P1的实际值,DP1表示P1的划分阈值,P21表示P2的实际值,DP2表示P2的划分阈值,类别1表示周期性类目,类别2表示无周期性类目;如此,将已标注周期的类目数据作为训练样本输入到图3中的决策树中进行训练,在进行模型训练时可以采用梯度下降法和损失函数等约束条件进行约束,进而得到每个变量的划分阈值,即可以得到Dsr、DGMV、DFFT1、Dst、Dobv、Dstr、Ds1、Ds2、DP1和DP2的值。
进一步地,如图3所示,根据sr1≤Dsr,sr1>Dsr,GMV1≤DGMV,GMV1>DGMV,st1≤Dst,st1>Dst,FFT11≤DFFT1,FFT11>DFFT1,obv1≤Dobv,obv1>Dobv,str1≤Dstr,str1>Dstr,s11≤Ds1,s11>Ds1,s21≤Ds2,s21>Ds2,P11≤DP1,P11>DP1,P21≤DP2,P21>DP2这些条件来进行训练,训练出所述目标决策树。
本说明书实施例中,为了进一步提高所述目标决策树模型预测出周期性类目的准确度,所述使用决策树对所述周期性变量和所述基础变量进行模型训练,得到目标决策树模型,具体包括:使用决策树对所述周期性变量和所述基础变量进行模型训练,得到训练决策树模型;使用评估指标对所述训练决策树模型进行评估,得到评估结果;若所述评估结果满足进行模型改进的设定条件,则对所述训练决策树模型进行改进,得到改进后的所述训练决策树模型,并将改进后的所述训练决策树模型作为所述目标决策树模型,其中,改进后的所述训练决策树模型的评估结果未满足所述设定条件;若所述评价结果未满足所述设定条件,则将所述训练决策树模型作为所述目标决策树模型。
本说明书实施例中,在所述评估指标包括召回率和精确率时,可以使用召回率和精确率对所述训练决策树模型进行评估,得到所述评估结果,其中,所述评估结果包括评估召回率和评估精确率。
具体来讲,在根据所述评估结果对所述目标决策树模型进行改进,得到改进后的所述目标决策树模型时,首先判断所述评估结果是否满足所述设定条件,若所述评估结果满足所述设定条件,则对所述目标决策树模型进行改进,得到改进后的所述训练决策树模型并将其作为所述目标决策树模型;若所述评估结果未满足所述设定条件,则直接将所述训练决策模型作为所述目标决策树模型。
具体地,所述设定条件可以包括预设召回阈值和预设精确阈值,此时,可以判断所述评估结果中包含的评估召回率是否大于所述预设召回阈值,以及判断所述评估结果中包含的评估精确率是否大于所述预设精确阈值;若所述评估召回率大于所述预设召回阈值且所述评估精确率大于所述预设精确阈值,则确定所述评估结果未满足所述设定条件;否则,则确定所述评估结果满足所述设定条件。
例如,若所述训练决策树模型为A1且所述设定条件中预设召回阈值为85%和预设精确阈值为92%,此时,所述评估结果中的评估召回率和评估精确率依次为89%和93%,由于89%>85%且93%>92%,则可以确定所述评估结果未满足所述设定条件,则将A1作为所述目标决策树模型;若所述评估结果中的评估召回率和评估精确率依次为89%和91%,由于91%<92%,则可以确定所述评估结果满足所述设定条件,则对A1进行改进,得到改进后的A11,若改进后的A11的评估结果满足所述设定条件,则继续改进,直至确定改进后的A1n的评估结果满足所述设定条件时,则将改进后的A1n作为所述目标决策树模型,其中,n为大于1的整数。
本说明书实施例中,由于在根据所述交易曲线衍生出所述周期性变量之后,还获取根据所述交易曲线衍生出的所述基础变量,从而在多个维度衍生出进行模型训练的变量,且所述周期性变量与周期性相关度较高,在所述周期性变量与周期性相关度高的情况下,使得训练出的所述目标决策树模型预测出周期性类目的准确度更高。
进一步地,由于本申请实施例中使用所述周期性变量和所述基础变量进行模型训练,以得到所述目标决策树模型;而所述周期性变量是根据已标注周期性的对象类目数据对应的时序分解曲线衍生出的,使得训练出的所述目标决策树模型能够更准确的预测出具有周期性的类目,即使得所述目标决策树模型预测出周期性类目的准确度更高。
另外,在预测出周期性类目之后,会针对性对周期性类目进行数据分析,而在预测出周期性类目的准确度更高的基础上进行后续数据分析过程中,其预测错误的周期性类目需要重新挑选出来再次进行数据分析的数量更少,能够更节省计算机资源,缩短后期进行数据分析的时间,提高后期进行数据数据分析的效率。
第二方面,基于与第一方面的相似的发明构思,本说明书实施例提供一种对象类目的周期判断方法,如图4所示,包括以下步骤:
S402、对目标对象类目数据进行时序分解,得到目标时序分解曲线,其中,所述目标时序分解曲线包括目标趋势曲线、目标残差曲线和表征目标周期性变化的目标周期性曲线;
S404、根据所述目标时序分解曲线,衍生出目标周期性变量,其中,所述目标周期性变量包括目标周期性变化与目标趋势的第一相对强度,目标周期性变化与目标残差的第二相对强度,和所述第一相对强度与所述第二相对强度的乘积中的至少一个变量;
S406、对所述目标对象类目数据进行分析,得到目标基础变量;
S408、通过已训练的目标决策树模型对所述目标周期性变量和所述目标基础变量进行处理,预测出所述目标对象类目是否为周期性对象类目的预测结果。
本说明书实施例中,所述目标决策树模型可以通过步骤S102-S108创建出,其创建过程具体参考第一方面中的叙述,为了说明书的简洁,在此就不再赘述了。
其中,在步骤S402中,在获取所述目标对象类目数据时,可以从多个对象类目数据中随机选取一个对象类目数据作为所述目标对象类目数据;也可以从所述多个对象类目数据中按照预设规则选取一个对象类目数据作为所述目标对象类目数据,本说明书不作具体限制。
本说明书实施例中,所述预设规则可以是按照数据量进行选取,也可以按照对象类目类别进行选取等,例如可以选取一个数据量最小的对象类目数据作为目标对象类目数据。
具体来讲,可以对所述目标对象类目数据进行分析,得到对应的目标交易曲线;然后对所述目标交易曲线进行时序分解,得到所述目标时序分解曲线。
本说明书实施例中,步骤S402的具体实施过程可以参考步骤S102的叙述,为了说明书的简洁,在此就不再赘述了。
在执行完步骤S402之后,接下来执行步骤S404,可以根据所述目标时序分解曲线,可以将所述目标周期性曲线的幅值与所述目标趋势曲线的趋势均值进行比对,得到所述第一相对强度;还可以将所述目标周期性曲线的幅值与所述目标残差曲线的残差均值进行比对,得到所述第二相对强度;还可以获取所述第一相对强度与所述第二相对强度的乘积;再根据所述第一相对强度、所述第二相对强度、和所述第一相对强度与所述第二相对强度的乘积,确定所述目标周期性变量;如此,使得所述目标周期性变量可以包括所述第一相对强度、所述第二相对强度、和所述第一相对强度与所述第二相对强度的乘积中的一种或多种组合。
本说明书实施例中,步骤S404的具体实施过程可以参考步骤S104的叙述,为了说明书的简洁,在此就不再赘述了。
接下来执行步骤S406,可以对所述目标对象类目数据进行分析,得到对应的目标交易曲线;然后对所述目标交易曲线进行分析,衍生出目标总交易额、目标平均交易额、目标交易额缺失月份数量以及目标淡旺季月份数量等目标交易性变量;根据所述目标交易性变量,确定所述目标基础变量,其中,所述目标基础变量包括所述目标交易性变量中的一个或多个变量。
本说明书实施例中,步骤S406可以与步骤S402或步骤S404同步执行,也可以在步骤S402或步骤S404之后执行,还可以在步骤S402或步骤S404之前执行,本说明书不作具体限制。
具体来讲,所述目标基础变量包括目标总交易额、目标平均交易额、目标交易额缺失月份数量以及目标淡旺季月份数量等目标交易性变量中的一个或多个,即所述目标基础变量可以包括所述目标交易性变量中的部分或全部变量。
本说明书实施例中,在衍生出所述目标基础变量时,还可以对所述目标交易曲线进行快速傅里叶变换,得到目标傅里叶分析幅值;此时,根据所述目标交易性变量和所述目标傅里叶分析幅值,确定所述目标基础变量,其中,所述目标基础变量包括所述目标交易性变量和所述目标傅里叶分析幅值。
本说明书实施例中,在衍生出所述目标基础变量时,还可以根据所述目标对象类目数据,获取对应的目标交易曲线,对所述目标交易曲线进行平稳性判断,得到所述目标交易曲线的目标平稳系数;根据所述目标交易性变量、所述目标傅里叶分析幅值和所述目标平稳系数,确定所述目标基础变量,其中,所述目标基础变量包括所述目标交易性变量、所述目标傅里叶分析幅值和所述目标平稳系数。
本说明书实施例中,在对所述目标交易曲线进行平稳性判断,得到所述目标交易曲线的目标平稳系数时,可以获取判断所述目标交易曲线是否平稳的假设机率(P-value),并将P-value作为所述目标平稳系数。
本说明书另一实施例中,在衍生出所述基础变量时,可以对所述目标交易曲线进行分析,获取在所述设定周期内交易额下降率大于所述预设阈值的目标个性化变量,其中,所述目标基础变量包括所述目标个性化变量。
此时,还可以根据所述目标交易性变量、所述目标傅里叶分析幅值、所述目标平稳系数和所述目标个性化变量,确定所述目标基础变量,其中,所述目标基础变量包括所述目标交易性变量、所述目标傅里叶分析幅、所述目标平稳系数和所述目标个性化变量。
本说明书实施例中,步骤S406的具体实施过程可以参考步骤S106的叙述,为了说明书的简洁,在此就不再赘述了。
接下来执行步骤S408,可以将所述目标基础变量和所述目标周期性变量输入到所述目标决策树模型中进行计算,预测出所述预测结果;根据所述预测结果,确定出所述目标对象类目是否为周期性类目。
本说明书实施例中,在使用信息息熵方法、无监督方法和所述目标决策树模型的预测方法这三种方法来进行性能测试,在进行性能测试时可以使用5000个人工打标样本进行测试,使用召回率进行性能测试的结果具体如图5所示,在使用精确率进行性能测试的结构具体如图6所示。其中,所述信息熵方法是对交易曲线的信息熵划分阈值进而判断对象类目的周期性;无监督方法指的是通过衍生周期性变量无监督划分阈值进而判断对象类目的周期性。
具体地,参见图5和图6,使用召回率进行性能测试的结果具体为:所述信息熵方法针对无周期性的对象类目的召回率为66%,针对有周期性的对象类目的召回率为80%,所述无监督方法针对无周期性的对象类目的召回率为90%,针对有周期性的对象类目的召回率为68%;所述目标决策树模型的预测方法针对无周期性的对象类目的召回率为84%,针对有周期性的对象类目的召回率为86%。使用精确率进行性能测试的结果具体为:所述信息熵方法针对无周期性的对象类目的精确率为71%,针对有周期性的对象类目的精确率为77%,所述无监督方法针对无周期性的对象类目的精确率为69%,针对有周期性的对象类目的精确率为89%;所述目标决策树模型的预测方法针对无周期性的对象类目的精确率为83%,针对有周期性的对象类目的精确率为87%。
如此,可知采用所述目标决策树模型的预测方法进行测试得到的召回率为86%和精确率为87%,与其他方法相比,可以确定采用所述目标决策树模型的预测方法能够在确保精确率的前提下极大地提升有周期性对象类目的召回率,即使得采用所述目标决策树模型的预测方法预测出周期性类目的准确度更高。
本说明书实施例中,在通过所述目标决策树模型预测出所述预测结果之后,还可以根据所述预测结果,确定出所述目标对象类目是否为周期性类目,由于所述预测结果的准确度较高,使得确定出所述目标对象类目是否为周期性类目的准确度也随之提高。
进一步地,在确定出所述目标对象类目为周期性类目之后,还可以对所述目标对象类目进行采购预测分析或销售分析或数据建模等后续数据分析,此时,由于所述目标对象类目为周期性类目且准确性较高,使得在后续数据分析过程中可以直接对所述目标对象类目的周期性销售数据进行分析,从而提取出对应的周期性变量,而无需对所述目标对象类目的历史销售数据进行整体分析才会提取出对应的周期性变量,使得在提取出对应的周期性变量过程中,所需进行数据分析的数据量变小,在数据量变小的情况下能够更节省计算机资源,并有效缩短提取出对应的周期性变量的时间,使得数据分析的时间也随之缩短,从而提高数据分析的分析效率。
其次,在确定出所述目标对象类目为非周期性类目之后,还可以对所述目标对象类目进行采购预测分析或销售分析或数据建模等后续数据分析,此时,由于所述目标对象类目为非周期性类目且准确性较高,使得在后续数据分析过程中不会提取对应的周期性变量,减少了后续数据分析过程中变量的数量,在变量减少的情况下其运算量也会随之降低,在运算量降低的情况下能够有效降低占据的计算机资源,而且能够缩短数据分析的时间,进而提高数据分析的分析效率。
进一步地,在所述预测结果更准确的情况下,使得确定出所述目标对象类目是否为周期性类目的准确度也随之提高;在确定出所述目标对象类目是否为周期性类目之后,会针对性对所述目标对象类目进行后续数据分析;在预测出所述目标对象类目为周期性类目的准确度更高的基础上进行后续数据分析过程中,其预测错误的周期性类目需要重新挑选出来再次进行数据分析的数量更少,能够更节省计算机资源,缩短后续进行数据分析的时间,提高后续进行数据分析的效率;同理,在预测出所述目标对象类目为非周期性类目的准确度更高的基础上进行后续数据分析过程中,其预测错误的非周期性类目需要重新挑选出来再次进行数据分析的数量更少,也能够更节省计算机资源,缩短后续进行数据分析的时间,提高后续进行数据分析的效率。
第三方面,基于与第一方面的相同的发明构思,本说明书实施例提供一种对象类目周期判断的模型训练方法,如图7所示,包括:
时序分解单元701,用于对已标注周期性的对象类目数据进行时序分解,得到时序分解曲线,其中,所述时序分解曲线包括趋势曲线、残差曲线和表征周期性变化的周期性曲线;
周期性变量衍生单元702,用于根据所述时序分解曲线,衍生出周期性变量,其中,所述周期性变量包括周期性变化与趋势的第三相对强度,周期性变化与残差的第四相对强度,和所述第三相对强度与所述第四相对强度的乘积中的至少一个变量;
基础变量获取单元703,用于对已标注周期性的对象类目数据进行分析,得到基础变量;
模型训练单元704,用于使用决策树对所述周期性变量和所述基础变量进行模型训练,得到目标决策树模型。
在一种可选方式中,时序分解单元701,具体用于对已标注周期性的对象类目数据进行分析,得到对应的交易曲线,其中,所述已标注周期性的对象类目数据包括标注类目周期性和淡旺季的对象类目数据;对所述交易曲线进行时序分解,得到所述时序分解曲线。
在一种可选方式中,周期性变量衍生单元702,具体用于将所述周期性曲线的幅值与所述趋势曲线的趋势均值进行比对,得到所述第三相对强度;将所述周期性曲线的幅值与所述残差曲线的残差均值进行比对,得到所述第四相对强度;以及获取所述第三相对强度与所述第四相对强度的乘积;根据所述第三相对强度、所述第四相对强度、和所述第三相对强度与所述第四相对强度的乘积,确定所述周期性变量。
在一种可选方式中,基础变量获取单元703,用于对已标注周期性的对象类目数据进行分析,得到对应的交易曲线;对所述交易曲线进行分析,衍生出交易性变量,其中,所述交易性变量包括总交易额、平均交易额、交易额缺失月份数量和淡旺季月份数量;根据所述交易性变量,确定所述基础变量,其中,所述基础变量包括所述交易性变量中的一个或多个变量。
在一种可选方式中,基础变量获取单元703,用于对所述交易曲线进行快速傅里叶变换,得到傅里叶分析幅值;根据所述交易性变量和所述傅里叶分析幅值,确定所述基础变量。
在一种可选方式中,基础变量获取单元703,用于对所述交易曲线进行平稳性判断,得到所述交易曲线的平稳系数;根据所述交易性变量、所述傅里叶分析幅值和所述平稳系数,确定所述基础变量。
在一种可选方式中,基础变量获取单元703,用于对所述交易曲线进行分析,获取在设定周期内交易额下降率大于预设阈值的个性化变量;根据所述交易性变量、所述傅里叶分析幅值、所述平稳系数和所述个性化变量,确定所述基础变量。
在一种可选方式中,模型训练单元704,用于使用决策树对所述周期性变量和所述基础变量进行模型训练,得到训练决策树模型;使用评估指标对所述训练决策树模型进行评估,得到评估结果;若所述评估结果满足进行模型改进的设定条件,则对所述训练决策树模型进行改进,得到改进后的所述训练决策树模型并将其作为所述目标决策树模型,其中,改进后的所述训练决策树模型的评估结果未满足所述设定条件;若所述评价结果未满足所述设定条件,则将所述训练决策树模型作为所述目标决策树模型。
第四方面,基于与第二方面的相同的发明构思,本说明书实施例提供一种对象类目的周期判断装置,如图8所示,包括:
目标时序分解单元801,用于对目标对象类目数据进行时序分解,得到目标时序分解曲线,其中,所述目标时序分解曲线包括目标趋势曲线、目标残差曲线和和表征目标周期性变化的目标周期性曲线;
目标周期性变量衍生单元802,用于根据所述目标时序分解曲线,衍生出目标周期性变量,其中,所述目标周期性变量包括目标周期性变化与目标趋势的第一相对强度,目标周期性变化与目标残差的第二相对强度,和所述第一相对强度与所述第二相对强度的乘积中的至少一个变量;
目标基础变量获取单元803,用于对所述目标对象类目数据进行分析,得到目标基础变量;
模型预测单元804,用于通过已训练的目标决策树模型对所述目标周期性变量和所述目标基础变量进行处理,预测出所述目标对象类目是否为周期性对象类目的预测结果。
在一种可选方式中,目标时序分解单元801,用于对所述目标对象类目数据进行分析,得到对应的目标交易曲线;对所述目标交易曲线进行时序分解,得到所述目标时序分解曲线。
在一种可选方式中,目标周期性变量衍生单元802,具体用于将所述目标周期性曲线的幅值与所述目标趋势曲线的趋势均值进行比对,得到所述第一相对强度;将所述目标周期性曲线的幅值与所述目标残差曲线的残差均值进行比对,得到所述第二相对强度;以及获取所述第一相对强度与所述第二相对强度的乘积;根据所述第一相对强度、所述第二相对强度、和所述第一相对强度与所述第二相对强度的乘积,确定所述目标周期性变量。
在一种可选方式中,目标基础变量获取单元803,具体用于对所述目标对象类目数据进行分析,得到对应的目标交易曲线;对所述目标交易曲线进行分析,衍生出目标交易性变量,其中,所述目标交易性变量包括目标总交易额、目标平均交易额、目标交易额缺失月份数量和目标淡旺季月份数量;根据所述目标交易性变量,确定所述目标基础变量,其中,所述目标基础变量包括所述目标交易性变量中的一个或多个变量。
在一种可选方式中,目标基础变量获取单元803,具体用于对所述目标交易曲线进行快速傅里叶变换,得到目标傅里叶分析幅值;根据所述目标交易性变量和所述目标傅里叶分析幅值,确定所述目标基础变量。
在一种可选方式中,目标基础变量获取单元803,具体用于对所述目标交易曲线进行平稳性判断,得到所述目标交易曲线的目标平稳系数;
根据所述目标交易性变量、所述目标傅里叶分析幅值和所述目标平稳系数,确定所述目标基础变量。
在一种可选方式中,目标基础变量获取单元803,具体用于对所述目标交易曲线进行分析,获取在设定周期内交易额下降率大于预设阈值的个性化变量;根据所述目标交易性变量、所述目标傅里叶分析幅值、所述目标平稳系数和所述目标个性化变量,确定所述目标基础变量。
在一种可选方式中,所述判断装置,还包括:
模型训练单元,用于对已标注周期性的对象类目数据进行时序分解,得到时序分解曲线,其中,所述时序分解曲线包括趋势曲线、残差曲线和表征周期性变化的周期性曲线;根据所述时序分解曲线,衍生出周期性变量,其中,所述周期性变量包括周期性变化与趋势的第三相对强度,周期性变化与残差的第四相对强度,和所述第三相对强度与所述第四相对强度的乘积中的至少一个变量;对已标注周期性的对象类目数据进行分析,得到基础变量;使用决策树对所述周期性变量和所述基础变量进行模型训练,得到目标决策树模型。
第五方面,基于与前述实施例中模型训练方法和周期判断方法同样的发明构思,本说明书实施例还提供一种服务器,如图9所示,包括存储器904、处理器902及存储在存储器904上并可在处理器902上运行的计算机程序,所述处理器902执行所述程序时实现前文所述模型训练方法和周期判断方法的任一方法的步骤。
其中,在图9中,总线架构(用总线900来代表),总线900可以包括任意数量的互联的总线和桥,总线900将包括由处理器902代表的一个或多个处理器和存储器904代表的存储器的各种电路链接在一起。总线900还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口905在总线900和接收器901和发送器903之间提供接口。接收器901和发送器903可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器902负责管理总线900和通常的处理,而存储器904可以被用于存储处理器902在执行操作时所使用的数据。
第六方面,基于与前述实施例中模型训练方法和周期判断方法的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述模型训练方法和周期判断方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。