CN112200389A - 数据预测方法、装置、设备及存储介质 - Google Patents

数据预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112200389A
CN112200389A CN202011255194.1A CN202011255194A CN112200389A CN 112200389 A CN112200389 A CN 112200389A CN 202011255194 A CN202011255194 A CN 202011255194A CN 112200389 A CN112200389 A CN 112200389A
Authority
CN
China
Prior art keywords
data
data prediction
prediction model
training
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011255194.1A
Other languages
English (en)
Inventor
黄安埠
刘洋
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011255194.1A priority Critical patent/CN112200389A/zh
Publication of CN112200389A publication Critical patent/CN112200389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种数据预测方法、装置、设备及存储介质,该方法包括:通过获取k个业务数据,k个业务数据为连续k个时段的业务对象的参数指标,将k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据,最后推送第k+1个业务数据。其中,第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个第二数据预测模型是分别对N个训练样本集合训练得到的,N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数。基于第一数据预测模型的训练方式,可以快速学习到最新的业务数据,因此得到的预测数据更加准确。

Description

数据预测方法、装置、设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据预测方法、装置、设备及存储介质。
背景技术
时间序列数据(简称时序数据)预测问题,通常是指利用过去一段时间的历史数据来预测下一时段的数据结果。以银行理财类产品为例,银行类应用程序(Application,简称APP)可基于某理财类产品的历史数据,例如收益率,预测下一时段该理财类产品的收益情况。
目前,处理上述时序数据预测问题的一种方式是采用训练好的数据预测模型进行数据预测。现有的数据预测模型通常采用单个模型对历史数据进行训练,由于模型训练存在大量重复数据,模型更新不及时,导致数据预测效果不佳。
发明内容
本公开提供一种数据预测方法、装置、设备及存储介质,提升数据预测的准确率。
第一方面,本公开提供一种数据预测方法,该方法包括:
获取k个业务数据,所述k个业务数据为连续k个时段的业务对象的参数指标,k为大于或等于2的正整数;
将所述k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据;所述第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个所述第二数据预测模型是分别对N个训练样本集合训练得到的,所述N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数;
推送所述第k+1个业务数据。
在本公开的一个实施例中,所述第一数据预测模型的训练过程,包括:
获取目标时刻之前的连续N个时段对应的N个训练样本集合以及N个初始数据预测模型;
根据各时段对应的训练样本集合,对各初始数据预测模型进行训练,得到训练好的N个第二数据预测模型;
对所述训练好的N个第二数据预测模型进行聚合,得到所述第一数据预测模型。
在本公开的一个实施例中,所述获取目标时刻之前的连续N个时段对应的N个训练样本集合,包括:
获取目标时刻之前的连续N个时段中的业务数据,所述N个时段中的每个时段的业务数据包括M个业务数据,所述M个业务数据为连续M个时段的业务对象的参数指标;
针对所述N个时段中的每个时段,根据所述M个业务数据获取所述每个时段对应的训练样本集合,M为大于或等于4的正整数。
在本公开的一个实施例中,所述根据所述M个业务数据获取所述时段对应的训练样本集合,包括:
采用滑动窗口的方式从所述M个业务数据中提取M-k个训练样本,所述滑动窗口的大小为k+1,所述训练样本包括k+1段业务数据;
将所述M-k个训练样本作为一个训练样本集合。
在本公开的一个实施例中,所述第一数据预测模型的更新过程,包括:
获取新的M个业务数据;
根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
将所述N个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
在本公开的一个实施例中,获取训练好的多个第二数据预测模型,包括:
获取新的M个业务数据;
根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
去除所述N个第二数据预测模型中采用时间最早的业务数据训练得到的第二数据预测模型,得到N-1个第二数据预测模型;
将所述N-1个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
在本公开的一个实施例中,所述训练样本集合包括多个训练样本,所述训练样本包括k个业务数据样本以及第k+1个业务数据样本,所述第二数据预测模型的训练过程,包括:
将所述k个业务数据样本作为所述第二数据预测模型的输入,将所述第k+1个业务数据样本作为所述第二数据预测模型的输出,对所述第二数据预测模型进行训练,得到训练好的一个第二数据预测模型。
在本公开的一个实施例中,所述方法还包括:
根据所述k个业务数据以及所述第k+1个业务数据,生成业务数据随时间变化的图表信息;
在图像用户界面上展示所述图表信息。
第二方面,本公开提供一种数据预测装置,包括:。
获取模块,用于获取k个业务数据,所述k个业务数据为连续k个时段的业务对象的参数指标,k为大于或等于2的正整数;
处理模块,用于将所述k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据;所述第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个所述第二数据预测模型是分别对N个训练样本集合训练得到的,所述N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数;
发送模块,用于推送所述第k+1个业务数据
第三方面,本公开提供一种电子设备,该设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面以及第一方面各种可能的设计所述的数据预测方法。
第四方面,本公开提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面以及第一方面各种可能的设计所述的数据预测方法。
本公开实施例提供一种数据预测方法、装置、设备及存储介质,该方法包括:通过获取k个业务数据,k个业务数据为连续k个时段的业务对象的参数指标,将k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据,最后推送第k+1个业务数据。其中,第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个第二数据预测模型是分别对N个训练样本集合训练得到的,N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数。基于第一数据预测模型的训练方式,可以快速学习到最新的业务数据,因此得到的预测数据更加准确。
附图说明
图1为本公开实施例提供的一种数据预测模型训练的示意图;
图2为图1所示的业务数据在时间轴上的示意图;
图3为本公开实施例提供的数据预测的场景示意图;
图4为本公开实施例提供的数据预测方法的流程示意图;
图5为本公开实施例提供的训练第一数据预测模型的示意图;
图6为本公开实施例提供的第一数据预测模型的训练方法的流程示意图;
图7为本公开实施例提供的第一数据预测模型的更新方法的流程示意图;
图8为本公开实施例提供的更新第一数据预测模型的示意图;
图9为本公开实施例提供的第一数据预测模型的更新方法的流程示意图;
图10为本公开实施例提供的更新第一数据预测模型的示意图;
图11为本公开实施例提供的数据预测装置的结构框图一;
图12为本公开实施例提供的数据预测装置的结构框图二;
图13为本公开实施例提供的电子设备的结构框图。
本公开目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
时序数据是在不同时段上收集的数据,用于描述现象随时间变化的情况,这类数据反映了某一事物、现象等随时间的变化状态或程度。例如,某银行理财产品的收益率,收益率随时间的变化而上下浮动。又例如,电商平台提供的某物品的销售量,销售量随季节的变化而上下浮动。
时序数据的预测问题,通常是指利用过去一段时间的历史数据来预测下一时段的数据。例如,基于某银行产品在过去3个月每日的收益率,预测未来一天或未来几天的收益率,以便用户根据预测收益选择理财产品。又例如,基于某物品在过去6个月每月的销售量,预测未来一个月或几个月的销售量,以便商家根据预测销售量备货。
处理上述时序数据预测问题的一种方式是采用训练好的数据预测模型进行数据预测。其中,数据预测模型可采用递归神经网络RNN进行训练得到。
示例性的,图1为本公开实施例提供的一种数据预测模型训练的示意图,如图1所示,将包括k个时段的业务数据(图1中的xi-k,xi-k+1,…,xi-1)作为数据预测模型的输入,将第k+1个时段的业务数据(图1中的xi)作为数据预测模型的输出,对数据预测模型进行训练,在满足模型参数的收敛条件时,得到训练好的数据预测模型。其中,k为大于或等于2的正整数。业务数据可以是金融产品的参数指标,例如银行理财产品的收益率。当然,业务数据还可以是其他领域的任意一种指标参数,对此本实施例不作任何限制。
图2为图1所示的业务数据在时间轴上的示意图,如图2所示,上述数据预测模型的一个训练样本包括连续k+1个时段的业务数据,k+1个时段的业务数据中前k个时段的业务数据作为数据预测模型的输入x,最后1个时段的业务数据作为数据预测模型的输出y。其中,x=(xi-k,xi-k+1,...,xi-1),y=xi。具体的,可通过预设的滑动窗口(图2中滑动窗口的大小为k+1)在图2所示的业务数据的时间轴上提取多个训练样本,基于多个训练样本对数据预测模型进行训练。
在实际应用中,可采用上述数据预测模型,将过去一段时间的历史业务数据输入至该模型中,得到下一时段的业务数据的预测值。然而,随着时间的变化,产生新的业务数据,通过上述训练方式,在构建训练样本时,存在大量重复数据,重复数据在模型更新过程中会被重复计算,将消耗很多资源,导致模型更新较慢,影响模型的数据预测效果。
另外,通过上述训练方法得到的数据预测模型,学习的业务数据包含较早的业务数据,对于较早的业务数据,其数据的参考价值并不高,也会导致数据预测效果不佳。
针对上述问题,本公开实施例提供一种数据预测方法,获取连续的多个时段的业务数据,将多个时段的业务数据输入到第一数据预测模型中,得到下一时段的业务数据,推送预测的下一时段的业务数据。本实施例的第一数据预测模型不同与图1所示的数据预测模型,该第一数据预测模型是根据N个第二数据预测模型聚合得到的,其中每个第二数据预测模型的训练样本集合不同,即各第二数据预测模型训练的数据不重复,且N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的。基于上述训练方式,新产生的业务数据可以训练得到一个新的第二数据预测模型,之前的第二数据预测模型保持不变,通过聚合可以得到新的第一数据预测模型,该新的第一数据预测模型可快速学习到最新的业务数据,从而提升模型输出的预测数据的准确率。
在介绍本公开实施例提供的技术方案之前,首先对本公开实施例提供的数据预测的应用场景进行简要说明。示例性的,图3为本公开实施例提供的数据预测的场景示意图,如图3所示,该场景包括业务平台11、数据预测装置12以及多个终端设备(图3中的终端设备13以及终端设备14)。其中,业务平台11与数据预测装置12通信连接,业务平台11为数据预测装置12提供业务数据。数据预测装置12还与多个终端设备通信连接,数据预测装置12可将预测的业务数据推送至终端设备13或终端设备14。具体的,业务平台11向数据预测装置12发送多个业务数据,数据预测装置12将多个业务数据输入至预先训练好的数据预测模型中,得到下一时段的业务数据,将该业务数据作为预测业务数据,推送给终端设备13或终端设备14,用户可在任意终端设备上查询业务平台11的多个业务数据以及对应的预测数据。
在本公开的一个实施例中,图3所示的数据预测装置12可以集成到业务平台11上,使得业务平台11具备对业务数据的预测功能。
示例性的,上述业务平台可以是银行业务平台,用户可通过终端设备上手机银行APP或网页登录银行业务平台,查询购买的某理财产品的每日收益率以及预测收益率。数据预测装置可集成在银行业务平台中,银行业务平台具备数据预测功能。用户可在终端设备上选择一定时段的某理财产品的收益率,终端设备向银行业务平台发送数据查询请求,数据查询请求中包括一定时段的某理财产品的收益率,银行业务平台根据数据查询请求,将一定时段的某理财产品的收益率输入到数据预测装置,得到下一时段或未来多个时段的收益率。银行业务平台可将用户选择的收益率数据以及预测的收益率数据绘制成表格或图形等形式,在用户图形界面上展示表格或图形。
示例性的,上述业务平台可以是电商平台,商户可通过终端设备上电商平台APP或网页登录电商平台,查询销售某物品的销售量以及预测的销售量。数据预测装置可集成在电商平台中,电商平台具备数据预测功能。商户可在终端设备上选择某物品在1年内的销售量,终端设备向电商平台发送数据查询请求,数据查询请求中包括该物品在1年内每个月的销售量,电商平台根据数据查询请求,将一定时段,例如最近6个月的销售量输入到数据预测装置,得到下一个月或未来3个月该物品的销售量预测值。电商平台可将商户选择的销售量数据以及预测的销售量数据绘制成表格或图形,在用户图形界面上展示表格或图形。
下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4为本公开实施例提供的数据预测方法的流程示意图,如图4所示,本实施例提供的数据预测方法可应用于图3所示的数据预测装置,该方法包括如下几个步骤:
步骤101、获取k个业务数据,k个业务数据为连续k个时段的业务对象的参数指标。其中,k为大于或等于2的正整数。
本实施例中的业务对象包括银行提供的理财产品、基金产品等金融产品,不同金融产品需要关注的参数指标可能不同。
示例性的,业务对象为理财产品,理财产品的参数指标可以是收益率,例如每日的七日年化收益率等。业务对象为基金产品,基金产品的参数指标包括收益率、单位净值等,例如每日收益率、每日单位净值等。
步骤102、将k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据。
其中,第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个第二数据预测模型是分别对N个训练样本集合训练得到的。换言之,每个第二数据预测模型分别采用N个训练样本集合的其中一个,任意两个第二数据预测模型采用的训练样本集合不同。其中,N为大于或等于2的正整数。
可选的,第二数据预测模型均采用递归神经网络RNN训练得到的。
示例性的,图5为本公开实施例提供的训练第一数据预测模型的示意图,如图5所示,将历史业务数据样本(M×N个业务数据)平均地切分为N段,每一段包括M个业务数据,基于每一段的M个业务数据构建训练样本集合,采用构建的训练样本集合训练初始数据预测模型,得到一个第二数据预测模型,图5中有N段业务数据,则训练出N个第二数据预测模型。随后,将训练好的N个第二数据预测模型进行聚合,得到第一数据预测模型。基于第一数据预测模型的训练方式,可以快速学习到最新的业务数据,该模型的数据预测的准确性较高。对于第一数据预测模型训练的具体过程参见下文实施例。
本实施例的第一数据预测模型设定输入k个时段的历史业务数据,模型用于预测第k+1个时段的业务数据,例如输入理财产品前5天每天的七日年化收益率,模型用于预测当天的七日年化收益。可选的,通过第一数据预测模型还可以预测第k+2、k+3、k+4个时段的业务数据,例如还可以根据前4天每天的七日年化收益率以及预测的当天的七日年化收益率,预测第二天(即明天)的七日年化收益率,以此类推,用户可得到未来多个时段的业务数据。
步骤103、推送第k+1个业务数据。
本实施例提供的数据预测方法,通过获取k个业务数据,k个业务数据为连续k个时段的业务对象的参数指标,将k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据,最后推送第k+1个业务数据。其中,第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个第二数据预测模型是分别对N个训练样本集合训练得到的,N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,其中N为大于或等于2的正整数。采用上述数据预测方法得到预测数据更加准确。
需要说明的是,上述实施例提供的数据预测方法除了用于预测业务对象的指标参数之外,还可用于预测其他任意时间序列数据,例如上文提到的电商平台中某物品的销售量等。对于业务数据,本公开实施例不作任何限制。
可选的,在一些实施例中,在将k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据之后,数据预测方法还可以包括如下步骤:
根据k个业务数据以及第k+1个业务数据,生成业务数据随时间变化的图表信息,在图像用户界面上展示图表信息。上述实例可直观地向用户展示业务数据随时间的变化趋势,便于用户根据该变化趋势作进一步操作。例如用户可根据业务数据随时间变化的图标信息,选择某理财产品或者转让某理财产品等。
基于上述实施例,下面对上述实施例中第一数据预测模型的训练过程进行详细说明。示例性的,图6为本公开实施例提供的第一数据预测模型的训练方法的流程示意图,如图6所示,本实施例的第一数据预测模型的训练过程,包括如下几个步骤:
步骤201、获取目标时刻之前的连续N个时段对应的N个训练样本集合以及N个初始数据预测模型。
在本公开的一个实施例中,本步骤中,获取目标时刻之前的连续N个时段对应的N个训练样本集合,具体包括如下几个步骤:
步骤2011、获取目标时刻之前的连续N个时段中的业务数据。
其中,N个时段中的每个时段的业务数据包括M个业务数据,M个业务数据为连续M个时段的业务对象的参数指标。
步骤2012、针对N个时段中的每个时段,根据M个业务数据获取每个时段对应的训练样本集合,M为大于或等于4的正整数。
该步骤可参见图5,如图5所示,N个时段中的每个时段的业务数据包括M个业务数据,针对每个时段,根据每一段的M个业务数据构建一个训练样本集合,构建的训练样本集合用于图5所示的一个第二数据预测模型进行训练使用。
在本公开的一个实施例中,步骤2012可通过如下方式实现:
采用滑动窗口的方式从连续M个业务数据中提取M-k个训练样本,滑动窗口的大小为k+1,训练样本包括k+1段业务数据;将M-k个训练样本作为一个训练样本集合。
上述构建训练样本集合的方式同图2所示实施例,滑动窗口从连续M个业务数据的最左端开始滑动,滑动窗口内的业务数据作为一个训练样本,训练样本可以表示为{xi-k,xi-k+1,...,xi-1,xi},一个训练样本中包括k+1个业务数据。每次向右滑动一个时段,得到一个新的训练样本,通过上述方式可构建M-k个训练样本,这M-k个训练样本构成一个第二数据预测模型的训练样本集合。
步骤202、根据各时段对应的训练样本集合,对各初始数据预测模型进行训练,得到训练好的N个第二数据预测模型。
步骤203、对训练好的N个第二数据预测模型进行聚合,得到第一数据预测模型。
本步骤中,对训练好的N个第二数据预测模型进行聚合是指对N个第二数据预测模型中的模型参数进行加权求和,若模型参数最终收敛,则停止模型训练,将当前训练的模型作为第一数据预测模型。
在本公开的一个实施例中,对于N个第二数据预测模型中的模型参数的权重值,可以根据实际需求进行设置。
示例性的,如图5所示,第二数据预测模型N对应的M个业务数据是更接近目标时刻的业务数据,因此可以将第二数据预测模型N的模型参数的权重值设置得大一些。示例性的,第二数据预测模型1的模型参数的权重值设置为0.1,第二数据预测模型2的模型参数的权重值设置为0.2,…,第二数据预测模型N的模型参数的权重值设置为0.5,图5中N个第二数据预测模型的模型参数的权重值之和为1。
本实施例训练的第一数据预测模型用于解决对时间序列数据的预测问题,采用基于联邦学习的方法对第一数据预测模型进行建模训练,首先获取目标时刻之前的连续N个时段的业务数据(即历史业务数据),将每段业务数据看作是一个客户端的本地数据。针对其中一个客户端,根据每段业务数据构建训练样本集合,训练样本集合中包括多个训练样本,每个客户端利用多个训练样本在本地训练初始数据预测模型,得到本地的一个第二数据预测模型。然后将N个第二数据预测模型进行聚合,得到第一数据预测模型。上述训练过程,各第二数据预测模型采用的业务数据不重复,避免历史业务数据被重复训练,提升了模型训练的效率。
在上述实施例中,训练样本集合包括多个训练样本,每个训练样本包括k个业务数据样本以及第k+1个业务数据样本。具体的,第二数据预测模型的训练过程,包括:
将k个业务数据样本作为第二数据预测模型的输入,将第k+1个业务数据样本作为第二数据预测模型的输出,对第二数据预测模型进行训练,得到训练好的一个第二数据预测模型。
上述实施例示出了第一数据预测模型的训练过程,然而,随着时间的推移,业务数据处于不断变化中,对于新的业务数据,下面一个实施例对如何进行模型再训练(或者说模型更新)进行详细说明。
示例性的,图7为本公开实施例提供的第一数据预测模型的更新方法的流程示意图,如图7所示,本实施例的第一数据预测模型的更新过程,包括如下几个步骤:
步骤301、获取新的M个业务数据。新的M个业务数据为连续M个时段的业务对象的参数指标。
步骤302、根据新的M个业务数据,构建一个新的训练样本集合。
步骤303、根据新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型。
步骤304、将N个第二数据预测模型以及新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
示例性的,图8为本公开实施例提供的更新第一数据预测模型的示意图,如图8所示,第二数据预测模型N+1即步骤303中的新的第二数据预测模型,对于新增的M个业务数据,可采用同上述实施例相同的方式,构建M-k个训练样本,根据构建的M-k个训练样本对初始数据预测模型进行训练,得到新的第二数据预测模型N+1。随后,将N+1个第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
可选的,第二数据预测模型N+1的模型参数的权重值大于其他第二数据预测模型的模型参数的权重值。
上述更新过程中,产生新的业务数据可以看作一个新的客户端的本地数据,根据新的业务数据构建一个新的训练样本集合,训练初始数据预测模型,得到一个新的第二数据预测模型。基于历史业务数据训练的模型保持不变,然后将之前的N个第二数据预测模型以及新的第二数据预测模型进行模型聚合,得到新的第一数据预测模型。与现有方案相比,重复数据不会重复训练,可提升模型更新的效率。
示例性的,图9为本公开实施例提供的第一数据预测模型的更新方法的流程示意图,如图8所示,本实施例的第一数据预测模型的更新过程,包括如下几个步骤:
步骤401、获取新的M个业务数据。
步骤402、根据新的M个业务数据,构建一个新的训练样本集合。
步骤403、根据新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型。
步骤404、去除N个第二数据预测模型中采用时间最早的业务数据训练得到的第二数据预测模型,得到N-1个第二数据预测模型。
步骤405、将N-1个第二数据预测模型以及新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
示例性的,图10为本公开实施例提供的更新第一数据预测模型的示意图,如图10所示,第二数据预测模型N+1即步骤403中新的第二数据预测模型,对于新增的M个业务数据,可采用同上述实施例相同的方式,构建M-k个训练样本,根据构建的M-k个训练样本对初始数据预测模型进行训练,得到新的第二数据预测模型N+1。与图7或图8所示实施例不同的是,在进行模型聚合时,去除训练好的第二数据预测模型1,即第二数据预测模型1不参与模型聚合。将第二数据预测模型2,…,第二数据预测模型N以及新训练的第二数据预测模型N+1进行聚合,得到更新后的第一数据预测模型。
可选的,第二数据预测模型N+1的模型参数的权重值大于其他第二数据预测模型的模型参数的权重值。
上述更新过程中,产生新的业务数据可以看作一个新的客户端的本地数据,根据新的业务数据构建一个新的训练样本集合,训练初始数据预测模型,得到一个新的第二数据预测模型。从基于历史业务数据训练的模型中,剔除采用时间最早的业务数据训练得到的第二数据预测模型。然后将之前的N-1个第二数据预测模型以及新的第二数据预测模型进行模型聚合。与现有方案相比,重复数据不会重复训练,可提升模型更新的效率。进一步的,与图7或图8所示实施例相比,第一数据预测模型更多考虑最新数据的分布规律,即第一数据预测模型学习的业务数据比较新,因此数据预测效果会更好。
从上述描述可知,考虑到较早的历史业务数据对数据预测的参考价值不高,上述实例去除了采用较早的业务数据训练得到的第二数据预测模型,从而提高更新后的第一数据预测模型的数据预测效果。另外,上述实例中,对于产生的新的业务数据,只需将新的业务数据看作一个新客户端上的本地数据,对这些本地数据进行本地训练,得到新构建的一个模型,然后进行聚合处理。采用上述方案不需要对全部历史数据重新采样,避免了构建大量重复数据,使得训练中数据被重复计算,消耗较多资源的问题,提高了数据预测模型的更新效率。
对应于上文实施例的数据预测方法,图11为本公开实施例提供的数据预测装置的结构框图一。为了便于说明,仅示出了与本公开实施例相关的部分。如图11所示,本实施例提供的数据预测设备500包括:
获取模块501,用于获取k个业务数据,所述k个业务数据为连续k个时段的业务对象的参数指标,k为大于或等于2的正整数;
处理模块502,用于将所述k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据;所述第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个所述第二数据预测模型是分别对N个训练样本集合训练得到的,所述N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数;
发送模块503,用于推送所述第k+1个业务数据。
在本公开的一个实施例中,获取模块501,还用于:
获取目标时刻之前的连续N个时段对应的N个训练样本集合以及N个初始数据预测模型;
处理模块502,还用于根据各时段对应的训练样本集合,对各初始数据预测模型进行训练,得到训练好的N个第二数据预测模型;
对所述训练好的N个第二数据预测模型进行聚合,得到所述第一数据预测模型。
在本公开的一个实施例中,获取模块501,具体用于:
获取目标时刻之前的连续N个时段中的业务数据,所述N个时段中的每个时段的业务数据包括M个业务数据,所述M个业务数据为连续M个时段的业务对象的参数指标;
针对所述N个时段中的每个时段,根据所述M个业务数据获取所述每个时段对应的训练样本集合,M为大于或等于4的正整数。
在本公开的一个实施例中,获取模块501,具体用于:
采用滑动窗口的方式从所述M个业务数据中提取M-k个训练样本,所述滑动窗口的大小为k+1,所述训练样本包括k+1段业务数据;
将所述M-k个训练样本作为一个训练样本集合。
在本公开的一个实施例中,获取模块501,还用于:
获取新的M个业务数据;
处理模块502,还用于根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
将所述N个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
在本公开的一个实施例中,获取模块501,具体用于:
获取新的M个业务数据;
处理模块502,具体用于:
根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
去除所述N个第二数据预测模型中采用时间最早的业务数据训练得到的第二数据预测模型,得到N-1个第二数据预测模型;
将所述N-1个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
在本公开的一个实施例中,所述训练样本集合包括多个训练样本,所述训练样本包括k个业务数据样本以及第k+1个业务数据样本;
处理模块502,具体用于:
将所述k个业务数据样本作为所述第二数据预测模型的输入,将所述第k+1个业务数据样本作为所述第二数据预测模型的输出,对所述第二数据预测模型进行训练,得到训练好的一个第二数据预测模型。
图12为本公开实施例提供的数据预测装置的结构框图二,如图12所示,数据预测装置500包括:图11所示实施例的获取模块501、处理模块502,以及显示模块504。
处理模块502,还用于根据所述k个业务数据以及所述第k+1个业务数据,生成业务数据随时间变化的图表信息;
显示模块504,用于在图像用户界面上展示所述图表信息。
本公开实施例提供的数据预测装置,用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图13为本公开实施例提供的电子设备的结构框图。如图13所示,本实施例的电子设备600可以包括:
至少一个处理器601(图13中仅示出了一个处理器);以及
与所述至少一个处理器通信连接的存储器602;其中,
所述存储器602存储有可被所述至少一个处理器601执行的计算机程序,所述计算机程序被所述至少一个处理器601执行,以使电子设备600能够执行前述任一方法实施例中的技术方案。
可选的,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602是独立于处理器601之外的器件时,电子设备600还包括:总线603,用于连接存储器602和处理器601。
本公开实施例提供的电子设备可以执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器执行时用于实现前述任一方法实施例中的技术方案。
本公开实施例还提供了一种芯片,包括:处理模块与通信接口,该处理模块能执行前述任一方法实施例中的技术方案。
进一步地,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例中的技术方案。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本公开附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备中。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (11)

1.一种数据预测方法,其特征在于,包括:
获取k个业务数据,所述k个业务数据为连续k个时段的业务对象的参数指标,k为大于或等于2的正整数;
将所述k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据;所述第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个所述第二数据预测模型是分别对N个训练样本集合训练得到的,所述N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数;
推送所述第k+1个业务数据。
2.根据权利要求1所述的方法,其特征在于,所述第一数据预测模型的训练过程,包括:
获取目标时刻之前的连续N个时段对应的N个训练样本集合以及N个初始数据预测模型;
根据各时段对应的训练样本集合,对各初始数据预测模型进行训练,得到训练好的N个第二数据预测模型;
对所述训练好的N个第二数据预测模型进行聚合,得到所述第一数据预测模型。
3.根据权利要求2所述的方法,其特征在于,所述获取目标时刻之前的连续N个时段对应的N个训练样本集合,包括:
获取目标时刻之前的连续N个时段中的业务数据,所述N个时段中的每个时段的业务数据包括M个业务数据,所述M个业务数据为连续M个时段的业务对象的参数指标;
针对所述N个时段中的每个时段,根据所述M个业务数据获取所述每个时段对应的训练样本集合,M为大于或等于4的正整数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述M个业务数据获取所述时段对应的训练样本集合,包括:
采用滑动窗口的方式从所述M个业务数据中提取M-k个训练样本,所述滑动窗口的大小为k+1,所述训练样本包括k+1段业务数据;
将所述M-k个训练样本作为一个训练样本集合。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述第一数据预测模型的更新过程,包括:
获取新的M个业务数据;
根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
将所述N个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
6.根据权利要求1-4中任一项所述的方法,其特征在于,获取训练好的多个第二数据预测模型,包括:
获取新的M个业务数据;
根据所述新的M个业务数据,构建一个新的训练样本集合;
根据所述新的训练样本集合,对初始数据预测模型进行训练,得到新的第二数据预测模型;
去除所述N个第二数据预测模型中采用时间最早的业务数据训练得到的第二数据预测模型,得到N-1个第二数据预测模型;
将所述N-1个第二数据预测模型以及所述新的第二数据预测模型进行聚合,得到更新后的第一数据预测模型。
7.根据权利要求1所述的方法,其特征在于,所述训练样本集合包括多个训练样本,所述训练样本包括k个业务数据样本以及第k+1个业务数据样本,所述第二数据预测模型的训练过程,包括:
将所述k个业务数据样本作为所述第二数据预测模型的输入,将所述第k+1个业务数据样本作为所述第二数据预测模型的输出,对所述第二数据预测模型进行训练,得到训练好的一个第二数据预测模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述k个业务数据以及所述第k+1个业务数据,生成业务数据随时间变化的图表信息;
在图像用户界面上展示所述图表信息。
9.一种数据预测装置,其特征在于,包括:
获取模块,用于获取k个业务数据,所述k个业务数据为连续k个时段的业务对象的参数指标,k为大于或等于2的正整数;
处理模块,用于将所述k个业务数据输入到第一数据预测模型中,得到第k+1个业务数据;所述第一数据预测模型是根据N个第二数据预测模型聚合得到的,N个所述第二数据预测模型是分别对N个训练样本集合训练得到的,所述N个训练样本集合是根据目标时刻之前连续的N个时段的业务数据得到的,N为大于或等于2的正整数;
发送模块,用于推送所述第k+1个业务数据。
10.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-8中任一项所述的数据预测方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的数据预测方法的步骤。
CN202011255194.1A 2020-11-11 2020-11-11 数据预测方法、装置、设备及存储介质 Pending CN112200389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011255194.1A CN112200389A (zh) 2020-11-11 2020-11-11 数据预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011255194.1A CN112200389A (zh) 2020-11-11 2020-11-11 数据预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112200389A true CN112200389A (zh) 2021-01-08

Family

ID=74033376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011255194.1A Pending CN112200389A (zh) 2020-11-11 2020-11-11 数据预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112200389A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866638A (zh) * 2021-08-24 2021-12-31 陈九廷 一种电池参数推测方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626879A (zh) * 2020-05-28 2020-09-04 泰康保险集团股份有限公司 数据预测方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626879A (zh) * 2020-05-28 2020-09-04 泰康保险集团股份有限公司 数据预测方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866638A (zh) * 2021-08-24 2021-12-31 陈九廷 一种电池参数推测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Hewamalage et al. Forecast evaluation for data scientists: common pitfalls and best practices
CA3092306C (en) Method and system of dynamic model selection for time series forecasting
CN111401777B (zh) 企业风险的评估方法、装置、终端设备及存储介质
CN112148973B (zh) 一种信息推送的数据处理方法及装置
WO2019080662A1 (zh) 信息推荐方法及装置、设备
WO2019072128A1 (zh) 对象识别方法及其系统
US20220027993A1 (en) System and method for facilitating social trading
CN111861605B (zh) 业务对象推荐方法
CN113744017A (zh) 电商搜索的推荐方法及装置、设备、存储介质
TW202020781A (zh) 外匯交易量預測方法和裝置
CN111242356A (zh) 一种财富走势预测方法、装置、设备及存储介质
CN112785057A (zh) 基于指数平滑的件量预测方法、装置、设备及存储介质
CN112445996A (zh) 内容发布方法、计算设备及计算机存储介质
CN114943582A (zh) 一种信息推荐方法、系统及推荐服务器
CN111798261A (zh) 信息更新的方法和装置
US20170345096A1 (en) Method and system for providing a dashboard for determining resource allocation for marketing
Quirini et al. Creditworthiness dynamics and hidden Markov models
CN111091218A (zh) 竞价预测模型的生成以及广告投放自动出价方法和装置
CN112200389A (zh) 数据预测方法、装置、设备及存储介质
CN117172825A (zh) 基于大数据的电商数据分析方法、装置及计算设备
CN109741172B (zh) 信贷预警方法、装置、系统及存储介质
CN110717653A (zh) 风险识别方法及装置和电子设备
US20210397993A1 (en) Generalized machine learning application to estimate wholesale refined product price semi-elasticities
JP6971501B2 (ja) Aiを使用したソースコード売買システム
CN111882339B (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination