一种时序数据预测的模型创建方法及装置
技术领域
本说明书属于计算机技术领域,尤其涉及一种时序数据预测的模型创建方法及装置。
背景技术
随着互联网和计算机技术的发展,通过创建模型进行数据分析、预测等的应用场景越来越多。不同的数据,可能需要创建不同的模型,对于时序数据预测的场景越来越多,比如外汇、流动性等。时序数据的预测通常涉及到的数据比较多,现有技术中,对于时序数据预测的模型创建,通常需要人工参与,往往需要庞大的算法人群,并且许多解决方案可能都无法沉淀。
发明内容
本说明书目的在于提供一种时序数据预测的模型创建方法及装置,实现了时序数据将预测的模型自动化构建。
一方面本说明书实施例提供了一种时序数据预测的模型创建方法,包括:
根据获取到的待预测的时序数据生成模型特征;
利用所述模型特征对构建的模型库中的待选模型进行模型训练,其中,模型训练包括:进行多轮模型训练,根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,模型训练结果不同的待选模型的时间资源不同;
将模型训练结果符合预设要求的待选模型,作为所述待预测的时序数据的预测模型。
另一方面,本说明书提供了一种时序数据预测的模型创建装置,包括:
特征生成模块,用于根据获取到的待预测的时序数据生成模型特征;
模型筛选模块,用于利用所述模型特征对构建的模型库中的待选模型进行模型训练,其中,模型训练包括:进行多轮模型训练,根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,模型训练结果不同的待选模型的时间资源不同;
模型确定模块,用于将模型训练结果符合预设要求的待选模型,作为所述待预测的时序数据的预测模型。
还一方面,本说明书提供了时序数据预测的模型创建处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中的时序数据预测的模型创建方法。
再一方面,本说明书提供了一种时序数据预测的模型创建系统,包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中的时序数据预测的模型创建方法。
本说明书提供的时序数据预测的模型创建方法、装置、处理设备、系统,基于待预测的时序数据对应的特征数据对模型库中的待选模型进行模型训练,在进行模型训练时为不同的待选模型分配不同的时间资源,为模型训练结果比较好的模型提供较多的时间资源,可以加速模型调参,缩短模型训练的时间。实现了时序数据模型的自动化建立,提高了时序数据预测的模型建立的效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中时序数据预测的模型创建方法的流程示意图;
图2是现有技术中贝叶斯优化法进行参数调优的流程示意图;
图3是本说明书实施例中分布式贝叶斯优化法进行参数调优的流程示意图;
图4是本说明书又一实施例中时序数据预测的模型创建方法的流程示意图;
图5是本说明书提供的时序数据预测的模型创建装置一个实施例的模块结构示意图;
图6是本说明书又一实施例中时序数据预测的模型创建装置的结构示意图;
图7是本说明书又一实施例中时序数据预测的模型创建装置的结构示意图;
图8是本说明书实施例中时序数据预测的模型创建服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
随着计算机技术的不断发展,用户可以基于样本数据进行模型训练,进一步利用训练的模型进行数据预测,基于数据预测结果进行项目评估或项目规划等。时序数据是模型预测中一种比较常见的数据类型,时序数据是指时间序列数据,时间序列数据是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,构建时间序列模型,进行样本外预测,即构建时序数据的预测模型,进行数据预测。
本说明书实施例中提供了一种时序数据预测的模型创建方法,针对时序数据建模的特点,进行模型特征的自动生成,并利用生成的模型特征对模型库中的待选模型进行模型训练。在进行模型训练时为不同的待选模型分配不同的时间资源,可以加速模型调参,缩短模型训练的时间,提高时序数据模型建立的效率,实现了时序数据模型的自动化建立和模型建立的速度。
本说明书中时序数据预测的模型创建方法可以应用在客户端或服务器中,客户端可以是智能手机、平板电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)、智能车载设备等电子设备。
具体的,图1是本说明书一个实施例中时序数据预测的模型创建方法的流程示意图,如图1所示,本说明书一个实施例中提供的时序数据预测的模型创建方法的整体过程可以包括:
步骤102、根据获取到的待预测的时序数据生成模型特征。
在具体的实施过程中,可以将待预测的时序数据作为预测数据,本说明实施例中的时序数据可以是金融数据(如:交易数据、外汇数据等)或其他类型的时序数据,本说明书实施例不作具体限定。本说明书实施例中,可以将待预测的时序数据进行特征转换,生成用于模型训练的模型特征。如:可以将获取到的待预测的时序数据进行归一化处理,再进行向量变换等数据处理,生成模型特征。当然,根据实际应用,还可以对待预测的时序数据进行其他的数据处理,将时序数据转换成能够进行模型训练的模型特征,本说明书实施例不作具体限定。
步骤104、利用所述模型特征对构建的模型库中的待选模型进行模型训练,其中,模型训练包括:进行多轮模型训练,根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,模型训练结果不同的待选模型的时间资源不同;
在具体的实施过程中,可以预先构建模型库,模型库中可以包括不同的待选模型如:线性模型、决策树模型、多层感知器模型等。将待预测的时序数据对应的模型特征输入到模型库中的待选模型中,对待选模型进行模型训练。本说明书实施例中在对待选模型进行模型训练时,可以对待选模型进行多轮模型训练,根据上一轮的模型训练结果,为下一轮模型训练的待选模型设置时间资源,可以为模型训练结果较好的待选模型分配较多的时间资源。
例如:可以利用bandit算法,对待选模型进行多轮的模型训练,根据每一轮模型训练的结果为表现较好即模型训练结果比较好的模型分配较多的时间资源,进行下一轮模型训练,直至模型符合要求。这样合理的分配时间资源,可以加速模型参数调优,缩短模型训练时间。
此外,在进行模型训练时,可以选择模型库中所有的待选模型进行模型训练,也可以选择指定的待选模型进行模型训练,本说明书实施例不做具体限定。
步骤106、将模型训练结果符合预设要求的待选模型,作为所述待预测的时序数据的预测模型。
在具体的实施过程中,利用待预测的时序数据对应的模型特征对待选模型进行模型训练后,可以对模型训练结果进行评估,如:可以根据模型训练的预测结果于实际数据进行对比,对不同的待选模型进行效果评估,选择模型训练结果符合预设要求的待选模型作为待预测的时序数据的预测模型,进行后续的模型预测。如:可以将模型训练结果与实际数据之间的差值小于预设阈值的待选模型作为预测模型,具体可以选择以下任意一种模型评价方法:Expected Improvement(预期改进)、upper confidence bound(置信上限区间,就是以均值的置信上限来代表它的预估值)等,通过计算各待选模型的评价指标,选择评价指标符合预设要求的待选模型作为预测模型。
本说明书实施例提供的时序数据预测的模型创建方法,基于待预测的时序数据对应的特征数据对模型库中的待选模型进行模型训练,在进行模型训练时为不同的待选模型分配不同的时间资源,为模型训练结果比较好的模型提供较多的时间资源,可以加速模型调参,缩短模型训练的时间。实现了时序数据模型的自动化建立,提高了时序数据预测的模型建立的效率。
在上述实施例的基础上,本说明书一个实施例中,所述根据获取到的待预测的时序数据生成模型特征,包括:
在建立的特征指标数据库中搜索与所述待预测的时序数据相关联的特征指标数据,将所述相关联的特征指标数据作为所述模型特征。
在具体的实施过程中,可以根据进行时序数据预测的业务类型,预先建立相关的特征指标数据库,特征指标数据库中可以包括进行时序数据预测业务的特征指标数据。如:若进行金融数据的预测,可以建立金融特征指标数据库,其中可以包括于金融相关的特征指标数据如:外汇交易数据、外汇利率、支付数据、交易金额数据、交易量数据、影响金融经济的新闻事件或政府政策等等。并且基于时序数据的特征,特征指标数据库中的数据可以每天进行更新。获取到待预测的时序数据后,可以在特征指标数据库中搜索与待预测的时序数据相关联的特征指标数据作为模型特征。
例如:若需要进行某国家的外汇交易量的预测,则可以在特征指标数据库中搜索与外汇交易量相关的特征指标数据如:进行外汇交易量的预测前的该国家的外汇利率、天气、旅游人数、是否有影响外汇交易量的政策等等。可以根据待预测的时序数据对应的时间,从特征指标数据库中获取相关联的特征数据,生成对应的模型特征。
相关联的特征数据的搜索可以基于先验经验,预先设置关联规则,或设置关键词或关联词等方法进行搜索,或者采用其他的搜索方法进行,本说明书实施例不作具体限定。
本说明书实施例,根据待预测的时序数据,从建立的特征数据库中可以自动搜索出相关联的特征数据,生成对应的模型特征,为后续模型训练、筛选提供了数据基础,实现了时序数据预测模型的自动化构建。
在上述实施例的基础上,本说明书一个实施例中,所述根据获取到的待预测的时序数据生成模型特征,包括:
根据所述待预测的时序数据的日期特征生成对应的日期模型特征,将所述日期模型特征作为所述模型特征;
和/或,根据所述待预测的时序数据的预测周期,利用滑动窗口,获得滑动窗口内的数据的统计特征,将所述统计特征作为所述模型特征。
在具体的实施过程中,基于待预测的时序数据的日期特征生成对应的日期模型特征,如:待预测的时序数据是否是周末、是否是节假日等。还可以根据待预测时序数据的预测周期,如:若预测周期为10天,可以利用滑动窗口获取当前时间之前10天的数据,获取这10天的数据的统计值如:方差、均值等,将滑动窗口内的统计值即统计特征作为模型特征。当然,滑动窗口可以获取多个预测周期内的数据的统计特征,如:从当前时间开始,滑动窗口依次向前滑动,获取指定数量个预测周期的数据的统计特征。
本说明书实施例提供的时序数据预测的模型创建方法,针对时序数据的特征利用滑动窗口以及时序数据的日期特征,自动生成模型特征,实现了时序数据的特征功能,为后续模型的训练和筛选提供的数据基础,实现了时序数的预测模型的自动化建立。
在上述实施例的基础上,本说明书一个实施例中,还可以对生成的模型特征进行特征筛选,选取出比较优的模型组合,提高模型训练的效率和准确性。如:可以采用模型筛选方法或统计筛选方法,模型筛选方法可以理解为利用模型对生成的模型特征进行筛选如:树模型特征筛选、lasso回归的特征筛选(也可以理解为基于线性回归的L1正则化的特征筛选)。统计筛选方法可以理解为基于数学统计的方法进行特征筛选,如:方差法特征筛选、单变量法特征筛选等。
本说明书实施例通过对生成的模型特征进行特征筛选,使得筛选出的模型特征能够更好的反映待预测的时序数据的特征,提高模型训练的效率以及模型构建的准确性。
在上述实施例的基础上,本说明书一个实施例中,所述根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,包括:
选择上一轮模型训练结果排在前预设名次的待选模型进行下一轮的模型训练;
设置进入下一轮模型训练的所述待选模型的时间资源,利用所述模型特征按照所述时间资源对所述待选模型进行模型训练,直至进行模型训练的待选模型的数量符合预设的数量要求,或模型训练的次数符合预设次数要求。
在具体的实施过程中,本说明书实施例中可以利用bandit算法对待选模型进行多轮的模型训练。在进行模型训练之前可以预先设置各个待选模型的模型训练的时间资源,如:可以将每个待选模型的模型训练的时间资源为5分钟。将生成的模型特征输入到各个待选模型中进行模型训练,每个待选模型的模型训练时间为5分钟。模型训练时间到达后,可以根据模型训练的结果,对各个待选模型进行效果评估,根据评估结果,对待选模型进行排序筛选,选择排在前预设名次的待选模型进行下一轮的模型训练。再根据下一轮模型训练结果进行模型排序和模型筛选,选出进入下一轮模型训练的待选模型,直至进行模型训练的待选模型的数量符合预设的数量要求,或模型训练的次数符合预设次数要求。
其中,每一轮模型训练待选模型的时间资源可以相同也可以不同,如:预先设置每一轮模型训练的时间资源为5分钟,也可以设置第一轮模型训练的时间资源为5分钟,第二轮为3分钟,第三轮为1分钟,具体可以根据实际需要进行设置,本说明书实施例不做具体限定。每一轮筛选出的模型数量可以根据实际需要进行设置,如:每一轮均筛选一半的待选模型进行下一轮的模型训练。
例如:模型库中有10个待选模型,设置每一轮的模型训练待选模型的时间资源均为5分钟,最终选择的待选模型的数量为2个,模型训练的次数为10次。将待预测的时序数据对应的模型特征输入到10个待选模型中,进行模型训练,每一个待选模型运行5分钟。训练时间结束后,根据模型训练结果选择模型训练结果较好的前5个待选模型进入下一轮模型训练,每一个进入下一轮模型训练的待选模型运行5分钟,根据下一轮模型训练的结果,选择模型训练结果在前3名的待选模型再进行下一轮的模型训练。每一个进入下一轮模型训练的待选模型运行5分钟,根据下一轮模型训练的结果,选择模型训练结果在前2名的待选模型,筛选出的待选模型的数量符合预设的数量要求,模型训练结束。可以将筛选出的2个待选模型作为预测模型,进行后续的时序数据的模型预测。
本说明书实施例,通过多轮的模型训练,每一轮筛选出指定数量的待选模型进行下一轮的模型训练,有些模型只能得到一次模型训练机会,有些模型可以获得多次模型训练机会,模型库中不同的模型根据模型训练的结果拥有不同的时间资源,模型训练结果好的模型拥有更多的时间资源,使得资源被充分利用,提高了模型训练的效率,缩短了模型训练的时间。
在上述实施例的基础上,本说明书一个实施例中,所述根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,包括:
根据上一轮模型训练结果对所述待选模型分组,为不同组别的待选模型设置不同的时间资源;
利用所述模型特征按照对应的时间资源,分别对不同组别的待选模型进行下一轮的模型训练,直至模型训练的次数符合预设次数要求。
在具体的实施过程中,可以先设置第一轮模型训练的时间资源,如:每个待选模型的时间资源为10分钟,将待预测的时序数据对应的模型特征输入到待选模型中,进行模型训练,每个待选模型运行10分钟。模型训练时间到达后,根据模型训练结果,对待选模型进行分组,如:可以将待选模型分为好、中、差三组,即根据模型训练结果选择模型训练结果排在前预设名次的作为第一组,第一组之后预设名次的作为第二组,剩下的作为第三组。为不同组别的待选模型设置不同的时间资源,其中,模型训练结果好的组别时间资源比较多。根据对应的时间资源对不同组别的待选模型进行模型训练,再根据模型训练结果进行模型分组,再为不同组别的待选模型设置不同的时间资源,进行下一次的模型训练,循环执行上述过程,直至模型训练的次数达到预设要求,结束模型训练。模型训练结果的评估可以参考上述实施例的记载,此处不再赘述。
例如:模型库中有10个待选模型,设置第一轮模型训练的时间资源为10分钟,将待预测的时序数据对应的模型特征输入到10个待选模型中,进行模型训练,每一个待选模型运行10分钟。根据第一轮模型训练的结果,将模型训练结果排在前5名的作为第一组,第6-8名的作为第二组,第9-10的作为第三组。设置第一组待选模型的第二轮模型训练的时间资源为10分钟,第二组待选模型的时间资源为5分钟,第三组待选模型的时间资源为3分钟,按照对应的时间资源对各组待选模型进行模型训练。根据第二组模型训练的结果,对待选模型进行分组,分组的方式可以与上一次分组方法相同,再为不同组别的模型设置时间资源,进行再一次的模型训练,重复上述操作,直至模型训练次数达到预设次数要求。根据最后一轮的模型训练结果,选择模型训练结果符合预设要求的待选模型作为预测模型。
其中模型分组的具体方式可以根据实际需要进行选择,可以根据模型训练结果的好坏,将待选模型分为2组、3组或更多组,每一轮的分组方式可以相同也可以不同,本说明书实施例不作具体限定。
本说明书实施例,通过多轮的模型训练,根据上一轮模型训练的结果对模型进行分组,对不同组别的待选模型设置不同的时间资源,进行下一轮的模型训练,模型库中不同的模型根据模型训练的结果拥有不同的时间资源,模型训练结果好的模型拥有更多的时间资源,使得资源被充分利用,提高了模型训练的效率,缩短了模型训练的时间。
在上述实施例的基础上,本说明书一个实施例中,在对待选模型进行训练时,可以利用分布式贝叶斯优化法对所述待选模型进行参数调优,调整所述待选模型的超参数,其中,所述分布式贝叶斯优化法包括多个计算资源,利用不同的计算资源分别对所述待选模型进行模型训练。
图2是现有技术中贝叶斯优化法进行参数调优的流程示意图,如图2所示,现有技术中的贝叶斯优化方法可以理解为一种序列类型的优化方法,需要推荐一组超参数x*,然后训练模型,得到新的精度y*,之后用x*、y*来训练代理函数,用代理函数来推荐新的超参数,如此迭代。现有技术中的贝叶斯优化法的优化速度比较慢,一次只能训练一个模型。图3是本说明书实施例中分布式贝叶斯优化法进行参数调优的流程示意图,如图3所示,本说明书实施例中的贝叶斯优化法可以提供多个计算资源,每一个计算资源可以接收代理函数推荐的超参数x*,进行单独的模型训练,得到精度y*,模型训练结束后,不需要等待,直接更新代理函数,获取新的参数组合,进行迭代。
本说明书实施例利用分布式贝叶斯优化法在模型训练时,进行参数调优,通过多个计算资源进行模型训练,提高了模型训练的速度,进一步提高了时序数据的模型创建速度。
此外,根据实际需要,本说明书实施例还可以采用其他的方式进行参数调优如:随机搜索、网格搜索等,本说明书实施例不作具体限定。
在上述实施例的基础上,本说明书一个实施例中,经过模型训练、选择后,可以对筛选出的预测模型进行模型融合,如:可以采用boosting(提升法)、bagging(套袋法)、stacking(是一种集成学习技术,通过元分类器或元回归聚合多个分类或回归模型),将筛选出的预测模型的预测结果进行融合,提高模型预测的精度。
图4是本说明书又一实施例中时序数据预测的模型创建方法的流程示意图,下面结合图4,具体介绍本说明书实施例中时序数据预测的模型创建方法的流程:
1.时序数据的额外特征生成。将需要预测的时序数据称为预测数据,本说明书一些实施例中时序数据可以为金融数据,可以在预先建立的金融指标数据库中,针对预测数据进行搜索,寻找与其有关的金融指标数据,然后将其作为额外特征输入。即基于特征指标数据库,选择于待预测的时序数据相关联的特征数据作为模型特征。
2.自动特征生成预筛选。根据待预测的时序数据的日期特征(比如是否周末,是否是假期)、滑动窗口内的统计值(比如方差、均值等)等多种角度进行自动特征生成。本说明书实施例中可生产800+特征,实现了时序数据特征的自动生成。
此外,本说明书实施例还可以利用模型筛选和/或统计筛选的方法进行特征的筛选,输出最优特征组合。
3.自动模型选择。将最优特征组合输入自动模型选择。自动模型选择模块主要可以包括两部分内容:模型选择和参数调优这两部分。如图4所示,本说明书实施例中可以构建模型库,模型库中可以包括多种模型如:Ridge(线性模型)、Decision Tree(决策树模型)、MLP(Multilayer Perceptron,多层感知器模型)、GBDT(Gradient Boosted DecisionTree,梯度提升决策树模型)、SVR(Support Vector Regression,支持向量回归模型)、AR/MA(Autoregressive Integrated Moving Average model,差分整合移动平均自回归模型)、Holt-winters(指数平滑模型)、XGB(extreme gradient boosting,极端梯度增强模型),根据实际需要还可以在模型库中加入其他的模型,本说明书实施例不作具体限定。
1)模型选择:模型选择的功能是在总资源一定的情况下,如何分配不同的资源给不同的模型,让其进行参数调优,使得资源被充分利用。举例来说,当我们在进行5分钟级预测时,可能我们只有100秒的时间,而每次进行1次参数调优需要1秒,那么我们就有100次参数调优的机会,这时就面临着如何将这100次机会分给不同的模型了。本说明书实施例可以利用自研的bandit算法,在每轮开始时,给每个模型很少的一些时间资源,然后根据它们的结果,赋予表现好的模型更多的时间资源,并且可以抛弃表现不好的模型,直至最后将机会分配完。通过这种方式,我们可以将资源更合理的分配给模型,从而实现模型选择的能力。
2)参数调优:参数调优是指在模型选定的情况下,自动调节模型的超参数,比如选定随机森林算法,那么树的深度、树的棵数等都是可以通过参数调优模块来自动调节的超参数。本说明书实施例可以通过随机搜索、网格搜索、贝叶斯优化方法来实现。其中,本说明书实施例对贝叶斯优化进行了分布式扩展,可以包括多个计算资源,每个计算资源接收到代理函数推荐的超参,然后自己去训练模型,训练完成后,无需等待,直接更新代理函数,获取新的参数组合,进行迭代。通过这种方式,可以成倍提高建模速度。
4.经过模型选择之后,可以在所有训练过的模型中,挑选表现最好的k个模型,然后用模型融合的方式即图4中的模型集成。如图4所示,可以采用boosting、bagging、stacking等方法,将模型的预测结果融合,使得精度更进一步提高。
如图4所示,可以利用选择出的模型进行预测,基于时序数据的特征,可以进行T+d预测,即预测当前时间T未来d时间的数据,d的具体取值可以根据实际需要进行选择。
本说明书实施例,可以针对金融时序数据,联立金融相关特征,针对日期特征、时间窗口构建自动特征生成,通过自研bandit算法,动态分配资源给不同模型,结合分布式贝叶斯优化来自动调参,完成整个建模的自动化,实现了时序数据预测的模型自动构建。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参加即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参加方法实施例的部分说明即可。
基于上述所述的时序数据预测的模型创建方法,本说明书一个或多个实施例还提供一种时序数据预测的模型创建装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参加前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图5是本说明书提供的时序数据预测的模型创建装置一个实施例的模块结构示意图,如图5所示,本说明书中提供的时序数据预测的模型创建装置包括:特征生成模块51、模型筛选模块52、模型确定模块53,其中:
特征生成模块51,可以用于根据获取到的待预测的时序数据生成模型特征;
模型筛选模块52,可以用于利用所述模型特征对构建的模型库中的待选模型进行模型训练,其中,模型训练包括:进行多轮模型训练,根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,模型训练结果不同的待选模型的时间资源不同;
模型确定模块53,可以用于将模型训练结果符合预设要求的待选模型,作为所述待预测的时序数据的预测模型。
本说明书实施例提供的时序数据预测的模型创建装置,基于待预测的时序数据对应的特征数据对模型库中的待选模型进行模型训练,在进行模型训练时为不同的待选模型分配不同的时间资源,可以加速模型调参,缩短模型训练的时间。实现了时序数据模型的自动化建立,提高了时序数据模型建立的效率。
在上述实施例的基础上,所述特征生成模块具体用于:
在建立的特征指标数据库中搜索与所述待预测的时序数据相关联的特征指标数据,将所述相关联的特征指标数据作为所述模型特征。
本说明书实施例提供的时序数据预测的模型创建装置,根据待预测的时序数据,从建立的特征数据库中可以自动搜索出相关联的特征数据,生成对应的模型特征,为后续模型训练、筛选提供了数据基础,实现了时序数据预测模型的自动构建。
在上述实施例的基础上,所述特征生成模块具体用于:
根据所述待预测的时序数据的日期特征生成对应的日期模型特征,将所述日期模型特征作为所述模型特征;
和/或,根据所述待预测的时序数据的预测周期,利用滑动窗口,获得滑动窗口内的数据的统计特征,将所述统计特征作为所述模型特征。
本说明书实施例,针对时序数据的特征利用滑动窗口以及时序数据的日期特征,自动生成模型特征,实现了时序数据的特征功能,为后续模型的训练和筛选提供的数据基础,实现了时序数的预测模型的自动化建立。
在上述实施例的基础上,所述模型筛选模块具体用于:
选择上一轮模型训练结果排在前预设名次的待选模型进行下一轮的模型训练;
设置进入下一轮模型训练的所述待选模型的时间资源,利用所述模型特征按照所述时间资源对所述待选模型进行模型训练,直至进行模型训练的待选模型的数量符合预设的数量要求,或模型训练的次数符合预设次数要求。
本说明书实施例,通过多轮的模型训练,每一轮筛选出指定数量的待选模型进行下一轮的模型训练,模型库中不同的模型根据模型训练的结果拥有不同的时间资源,模型训练结果好的模型拥有更多的时间资源,使得资源被充分利用,提高了模型训练的效率,缩短了模型训练的时间。
在上述实施例的基础上,所述模型筛选模块具体用于:
根据上一轮模型训练结果对所述待选模型分组,为不同组别的待选模型设置不同的时间资源;
利用所述模型特征按照对应的时间资源,分别对不同组别的待选模型进行下一轮的模型训练,直至模型训练的次数符合预设次数要求。
本说明书实施例,通过多轮的模型训练,根据上一轮模型训练的结果对模型进行分组,对不同组别的待选模型设置不同的时间资源,进行下一轮的模型训练,模型库中不同的模型根据模型训练的结果拥有不同的时间资源,模型训练结果好的模型拥有更多的时间资源,使得资源被充分利用,提高了模型训练的效率,缩短了模型训练的时间。
在上述实施例的基础上,所述模型筛选模块包括参数调优单元用于:
在模型训练时,利用分布式贝叶斯优化法对所述待选模型进行参数调优,调整所述待选模型的超参数,其中,所述分布式贝叶斯优化法包括多个计算资源,利用不同的计算资源分别对所述待选模型进行模型训练。
本说明书实施例,利用分布式贝叶斯优化法在模型训练时,进行参数调优,通过多个计算资源进行模型训练,提高了模型训练的速度,进一步提高了时序数据的模型创建速度。
图6是本说明书又一实施例中时序数据预测的模型创建装置的结构示意图,如图6所示,在上述实施例的基础上,所述装置还包括模型融合模块61用于:
将所述预测模型进行模型融合,获得所述待预测的时序数据的预测结果。
本说明书实施例,可以对筛选出的预测模型进行模型融合,将筛选出的预测模型的预测结果进行融合,提高模型预测的精度。
图7是本说明书又一实施例中时序数据预测的模型创建装置的结构示意图,如图7所示,在上述实施例的基础上,所述装置还包括特征筛选模块71用于:
采用模型筛选法或统计筛选法对生成的所述模型特征进行特征筛选,所述模型筛选模块利用筛选后的模型特征对所述待选模型进行模型训练。
本说明书实施例,通过对生成的模型特征进行特征筛选,使得筛选出的模型特征能够更好的反映待预测的时序数据的特征,提高模型训练的效率以及模型构建的准确性。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种时序数据预测的模型创建处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例的时序数据预测的模型创建方法,如:
根据获取到的待预测的时序数据生成模型特征;
利用所述模型特征对构建的模型库中的待选模型进行模型训练,其中,模型训练包括:进行多轮模型训练,根据上一轮模型训练结果,设置下一轮模型训练的待选模型的时间资源,模型训练结果不同的待选模型的时间资源不同;
将模型训练结果符合预设要求的待选模型,作为所述待预测的时序数据的预测模型。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的,上述所述的处理设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书提供的时序数据预测的模型创建系统可以为单独的时序数据预测的模型创建系统,也可以应用在多种数据分析处理系统中。所述系统可以包括上述实施例中任意一个时序数据预测的模型创建装置。所述的系统可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图8是本说明书实施例中时序数据预测的模型创建服务器的硬件结构框图。如图8所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图8中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图8所示不同的配置。
存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的时序数据预测的模型创建方法对应的程序指令/模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。
本说明书实施例提供的上述时序数据预测的模型创建方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参加即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参加方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参加即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参加方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。