CN106971348B - 一种基于时间序列的数据预测方法和装置 - Google Patents

一种基于时间序列的数据预测方法和装置 Download PDF

Info

Publication number
CN106971348B
CN106971348B CN201610024102.6A CN201610024102A CN106971348B CN 106971348 B CN106971348 B CN 106971348B CN 201610024102 A CN201610024102 A CN 201610024102A CN 106971348 B CN106971348 B CN 106971348B
Authority
CN
China
Prior art keywords
data
category
historical
objects
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610024102.6A
Other languages
English (en)
Other versions
CN106971348A (zh
Inventor
王瑜
叶舟
王吉能
杨洋
董昭萍
陈凡
钱倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610024102.6A priority Critical patent/CN106971348B/zh
Priority to JP2018536870A priority patent/JP2019502213A/ja
Priority to PCT/CN2017/070356 priority patent/WO2017121285A1/zh
Priority to TW106101434A priority patent/TWI729058B/zh
Publication of CN106971348A publication Critical patent/CN106971348A/zh
Priority to US16/034,281 priority patent/US20180322404A1/en
Application granted granted Critical
Publication of CN106971348B publication Critical patent/CN106971348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Mining & Mineral Resources (AREA)
  • Animal Husbandry (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Human Resources & Organizations (AREA)
  • Agronomy & Crop Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种基于时间序列的数据预测方法和装置,其中所述方法包括:获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。本申请可以根据时间序列数据的原理,预测出近期具有爆发力的目标数据对象,使得预测结果与实际更加吻合,准确率更高。

Description

一种基于时间序列的数据预测方法和装置
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于时间序列的数据预测方法和一种基于时间序列的数据预测装置。
背景技术
随着信息科技的发展,农村布局成为了越来越多电子商务平台战略布局的一个非常重要的方面:让商品通过电商平台走出去和让外面的商品走进农村去。在农村产品中,很大的部分是一些时效性或者季节性要求较高的商品,甚至于保质期也相当地短暂,如海鲜、河鲜以及新鲜蔬菜水果等。这类商品可以称为时效性商品,时效性商品是指具有一定消费时效特性,且保质期非常短暂的商品。
在实际中,时效性商品的需求虽然庞大,但是对于电商平台及其物流系统的挑战也是巨大的,这体现在两个方面:
(1)如果仓储过多,则会造成物流压力过大、也因本类商品的保质期短,容易造成巨大的浪费;
(2)如果错误估计造成仓储不足,则会使得巨大的市场浪费。
因此,对时效性商品等时效性数据对象的识别和预测显得尤其重要。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于时间序列的数据预测方法和相应的一种基于时间序列的数据预测装置。
为了解决上述问题,本申请公开了一种基于时间序列的数据预测方法,所述的方法包括:
获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;
从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;
基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
优选地,所述方法还包括:
预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
优选地,所述获取多个类目对象的历史时间序列数据的步骤包括:
针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
优选地,所述从所述多个类目对象中筛选出特征类目对象的步骤包括:
基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
获取预设的第二特征类目对象;
将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
优选地,所述基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象的步骤包括:
计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
优选地,所述基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象的步骤包括:
基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
从所述类簇对象中预测出目标类簇对象;
将所述目标类簇对象中包含的数据对象,作为目标数据对象。
优选地,所述从所述类簇对象中预测出目标类簇对象的步骤包括:
基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
将指标数据大于预设阈值的类簇对象作为目标类簇对象。
优选地,所述预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据的步骤包括:
对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
优选地,所述数据对象为商品数据,所述类目对象为商品类目,所述特征类目对象为时效性商品类目,所述生命周期为商品的时效,所述时间序列数据为所述商品的日销量。
本申请还公开了一种基于时间序列的数据预测装置,所述的装置包括:
历史时序数据获取模块,用于获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;
特征类目对象筛选模块,用于从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;
目标数据对象预测模块,用于基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
优选地,所述装置还包括:
未来时序数据预测模块,用于预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
优选地,所述历史时序数据获取模块包括:
历史特征数据计算子模块,用于针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
历史特征数据组织子模块,用于组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
历史特征数据统计子模块,用于按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
历史时序数据组织子模块,用于将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
优选地,所述特征类目对象筛选模块包括:
第一特征类目对象筛选子模块,用于基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
第二特征类目对象获取子模块,用于获取预设的第二特征类目对象;
组织子模块,用于将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
优选地,所述第一特征类目对象筛选子模块还用于:
计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
优选地,所述目标数据对象预测模块包括:
归一化子模块,用于基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
聚类子模块,用于将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
预测子模块,用于从所述类簇对象中预测出目标类簇对象;
目标数据对象获取子模块,用于将所述目标类簇对象中包含的数据对象,作为目标数据对象。
优选地,所述预测子模块还用于:
基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
将指标数据大于预设阈值的类簇对象作为目标类簇对象。
优选地,所述未来时序数据预测模块包括:
基准数据获取子模块,用于对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
修正子模块,用于对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
优选地,所述数据对象为商品数据,所述类目对象为商品类目,所述特征类目对象为时效性商品类目,所述生命周期为商品的时效,所述时间序列数据为所述商品的日销量。
本申请实施例包括以下优点:
在本申请实施例中,能够从多个类目对象中筛选出具有时效特性以及季节特性的特征类目对象,并基于该特征类目对象的历史时间序列数据,从特征类目对象包含的数据对象中预测出近期将要产生的未来时间序列数据满足预设增长趋势的数据对象,即近期将要爆发的目标数据对象,本申请实施例根据时间序列数据的原理,预测出近期具有爆发力的目标数据对象,使得预测结果与实际更加吻合,准确率更高。
附图说明
图1是本申请的一种基于时间序列的数据预测方法实施例一的步骤流程图;
图2是本申请的一种基于时间序列的数据预测方法实施例一中的类目树示意图;
图3是本申请的一种基于时间序列的数据预测方法实施例二的步骤流程图;
图4是本申请的一种基于时间序列的数据预测装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种基于时间序列的数据预测方法实施例一的步骤流程图,本申请实施例可以应用于电商平台等具有树形类目体系的平台中,树形类目体系可以为按照树状分类法对数据进行分类,得到类目的方法,其中,树状分类法是一种形象的分类法,按照层次,一层一层来分,就像一棵大树,有叶、枝、杆、根。
例如,在电商平台中,为适应当今时代的消费人群在网上商店有针对性的选购各种各样的商品,可以采用树状分类法对商品做出的归类,得到商品类目,例如,服装、配饰、美容、数码、家居、母婴、食品、文体、服务和保险等。
如图1所示,本申请实施例可以包括如下步骤:
步骤101,获取多个类目对象的历史时间序列数据;
应用于本申请实施例,一个类目对象可以包括一个或多个数据对象,例如,在电商平台中,如图2的类目树示意图所示,在商品类目如“海鲜”类目下,可以包括“大闸蟹”、“八爪鱼”、“瑶柱”等商品数据。
进一步地,每个数据对象具有对应的多个指定特征数据,所述指定特征数据为在先生成的,检测到对所述数据对象发生指定行为时生成的记录。例如,在电商平台中,所述指定行为可以包括销售行为,所述指定特征数据为对某个商品产生销售行为时生成的销售记录。
在具体实现中,数据对象的指定特征数据可以从预设数据库中获取,该预设数据库可以为预先生成的数据库。例如,该预设数据库可以为商品数据库,该商品数据库中存储有多条针对一个或多个商品的销售记录。
在实际中,预设数据库中还可以存储数据对象的数据属性信息,作为一种示例,该数据属性信息可以包括时间属性信息、标识属性信息、特征属性信息等。例如,在商品数据库中,还可以存储每个商品的商品属性信息,该商品属性信息可以包括商品的基本属性、时间属性、交易属性、信用属性及营销属性等。其中,该商品的基本属性可以包括商品的名称、所属商家ID、价格、上架时长、所属类目等;时间属性可以包括发生购买行为、评论行为、上架行为等行为的时间信息;该商品的交易属性可以包括商品收藏、加购、购买等;该商品的信用属性可以包括商家星级、差评数、差评率、物流评分等;该商品的营销属性可以包括是否为抢购商品、是否为促销商品等。
在本申请实施例的一种优选实施例中,步骤101可以包括如下子步骤:
子步骤S11,针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
在具体实现中,时间区间可以为按照时间间隔设定的区间,例如,该时间间隔可以为一天、半天、一周、一个月等,若时间间隔为一天,则时间区间可以为每天的[00:00,23:59],当然该时间区间还可以添加日期信息,例如2015年11月18日的时间区间为[2015-11-18-00:00,2015-11-18-23:59]。该预设的时间区间可以为开发人员预先设定的时间区间。
获得多个预设的时间区间以后,可以进一步计算该数据对象在每个时间区间内(例如每天)的指定特征数据的数量,得到该时间区间的历史特征数据。例如,计算某一商品每一天的销售记录的数量,得到日销量。
子步骤S12,组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
得到数据对象在每个时间区间中的历史特征数据以后,组织所有时间区间的历史特征数据,可以得到该数据对象的历史时间序列数据。其中,时间序列数据是指不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。时间序列数据是数据存在的特殊形式,序列的过去值会影响到将来值,这种影响的大小以及影响的方式可由时间序列数据中的趋势周期及非平稳等行为来刻画。时间序列挖掘其本质是根据数据随时间变化的趋势预测将来的值。重点要考虑的是时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。
例如,得到一个商品的日销量以后,组织每天的日销量,得到该商品的历史销量。
一个数据对象的历史时间序列数据可以反映该数据对象在过去某个时间段中的走势。
子步骤S13,按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
由于一个类目对象可以包括一个或多个数据对象,当得到该类目对象下每个数据对象的历史特征数据以后,可以以时间区间为单位,计算该类目对象下所有数据对象在该时间区间的历史特征数据总和。
例如,在某一天中,在“海鲜”类目下,“大闸蟹”的日销量为1000斤、“八爪鱼”的日销量为500斤、“瑶柱”的日销量为300斤,则该“海鲜”类目下在该日期中日销量总和为1800斤。
子步骤S14,将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
组织所有时间区间的历史特征数据的总和,可以得到该类目对象的历史时间序列数据。
例如,计算“海鲜”类目在近一个月内每天的日销量总和以后,将该一个月的所有天数的日销量总和组织起来,可以得到“海鲜”类目在该月的历史时间序列数据。
一个类目对象的历史时间序列数据可以反映该类目对象在过去某个时间段中的走势。
在具体实现中,步骤101可以通过一类目数据生成器完成,该生成器根据当前平台的树形类目体系,生成各类目对象的历史时间序列数据,经过步骤101以后,原来海量的数据对象的历史时间序列数据可以归并为各个类目对象的历史时间序列数据,为后续操作提供了有力的数据支撑。
步骤102,从所述多个类目对象中筛选出特征类目对象;
在本申请实施例中,当获得每个类目对象的历史时间序列数据以后,可以进一步从多个类目对象中筛选出特征类目对象,其中,特征类目对象可以为包含特征数据对象的类目对象,而特征数据对象可以为生命周期小于预设时间阈值的数据对象,即具有时效性的数据对象。例如,当类目对象为商品类目时,该特征类目对象可以为时效性商品类目,时效性商品类目可以为具有时效性商品的类目对象,时效性商品是指具有一定消费时效特性,且保质期非常短暂的商品,例如:月饼、大闸蟹等,而时效性商品类目可以包括蔬菜、水果、海鲜、生肉、熟食等生鲜类目。
在本申请实施例的一种优选实施例中,步骤102可以包括如下子步骤:
子步骤S21,基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
获得当前平台的所有类目对象的历史时间序列数据以后,可以进一步基于类目对象的历史时间序列数据,从多个类目对象中自动筛选出第一特征类目对象。
在本申请实施例的一种优选实施例中,子步骤S21进一步可以包括如下子步骤:
子步骤S211,计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
具体来说,中值也称中位数,是在一组数据中居于中间的数(特别注意的地方是:这组数据之前已经经过升序或者降序排列),即在这组数据中,有一半的数据比它大,有一半的数据比它小。如果这组数据包含偶数个数字,中值是位于中间的两个数的平均值,假如有n个数据,当n为偶数时,中位数为第n/2位数和第(n+2)/2位数的平均数;如果n为奇数,那么中位数为第(n+1)/2位数的值。
在具体实现中,可以将每个类目对象的历史时间序列数据的时间范围定义为过去第一预设时间段,例如,可以将过去第一时间段设定为过去一年。针对每个类目对象,可以将其历史时间序列数据按照升序或降序排序,即将过去一年内该类目对象中所有时间区间对应的历史时间序列数据的总和进行排序,排序后获得该类目对象的中值M,如将过去一年中每个商品类目的每天的日销量总和进行排序后,获得排序在中间的日销量总和作为该商品类目在过去一年中的中值M。
需要说明的是,此处计算中值而不是计算平均值,是由于在一组数据中,平均值易受极端值的影响,而中值则不会受到极端值的影响,从而作出与实际情况更吻合的预测。
子步骤S212,计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
得到中值M以后,可以将M放大n倍,例如1.5倍(可以表示为1.5M),并将该类目对象在每个时间区间的历史特征数据的总和与1.5M比较,获得历史特征数据的总和大于1.5M的时间区间的数量。例如,计算商品类目中日销量总和大于1.5M的天数。
子步骤S213,若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
若M放大1.5倍时,该类目对象的历史特征数据的总和大于1.5M的时间区间的数量在预设范围内时,可以判定该类目对象为第一特征类目对象。
例如,将预设范围取值为10-45,若商品类目中日销量总和大于1.5M的天数在这个范围内,则可以判定该商品类目为时效性商品类目。
子步骤S22,获取预设的第二特征类目对象;
应用于本申请实施例,预设的第二特征类目对象可以为白名单中的类目对象,该白名单可以通过人工的方式预先选定,例如,时效性商品类目可以为运营预先选出的商品类目,并将该选出的商品类目加入白名单中。
子步骤S23,将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
得到第一特征类目对象以及第二特征类目对象以后,可以将第一特征类目对象以及第二特征类目对象组织成特征类目对象,其中,组织的方式可以包括去重方式,即将第一特征类目对象以及第二特征类目对象中重复的特征类目对象去除,最后输出所有的特征类目对象。
在本申请实施例中,可以通过自动和人工的方式进行特征类目对象的筛选,使得筛选结果更加符合用户需求,也更加完善,智能化程度高。
步骤103,基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象。
确定特征类目对象以后,可以从特征类目对象包含的数据对象中筛选出目标数据对象,其中,该目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象,即近期将要产生数量爆发的数据对象。
在具体实现中,为了提高预测结果的可靠性,未来第一预设时间段可以为近期的一个时间段,例如可以包括未来的一中期时间段或者一短期时间段。作为一种示例,该中期时间段可以为一个月的时间,即未来第一预设时间段为从当前时间开始接下来的一个月时间;该短期时间段可以为半个月、一周等短期内的时间,即未来第一预设时间段为从当前时间开始接下来的半个月时间或一周时间等。
该目标数据对象可以为未来第一预设时间段内,将要产生的未来时间序列数据满足预设增长趋势的数据对象,即产生的数量具有异常点或爆发点的数据对象。例如,在中秋节前,月饼的销售数量将会爆发性增长,则月饼可以为目标数据对象。
应用于本申请实施例,确定特征类目对象以后,可以从特征类目对象中包含的数据对象中进一步筛选出目标数据对象。例如,确定时效性商品类目以后,可以进一步从该时效性商品类目中包含的时效性商品中筛选出近期将会热卖(产生爆发点或异常点)的目标时效性商品。
在本申请实施例的一种优选实施例中,步骤103可以包括如下子步骤:
子步骤S31,基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
确定特征类目对象以后,为了消除特征类目对象中各个数据对象之间的差别,得到更准确的预测结果,可以对该特征类目对象进行归一化处理。其中,归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。
在一种实施方式中,可以采用如下方式对特征类目对象进行归一化处理:
根据上述子步骤S211获得的在过去第一预设时间段内特征类目对象的历史时间序列数据的中值M;分别计算该历史时间序列数据中的每个历史特征数据的总和与中值M的比值,得到归一化后的历史特征数据的总和,将所有归一化后的历史特征数据的总和组织成该特征类目对象的归一化的历史时间序列数据。
当然,本申请实施例并不限于上述归一化的方式,本领域技术人员采用其他归一化的方式均是可以的。
子步骤S32,将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
应用于本申请实施例,将特征类目对象的历史时间序列数据进行归一化处理以后,进一步可以将所有特征类目对象进行聚类,在实际中,该聚类可以为将所有特征类目对象中包含的所有的数据对象进行聚类,将历史时间序列数据具有类似趋势的数据对象(例如,具有类似爆发力的数据对象)聚合在一起,得到一个或多个类簇对象。
具体的,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类,由聚类所生成的类簇是一组对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在具体实现中,可以采用多种聚类方式进行聚类,例如层次聚类、划分聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类等,本申请实施例对具体的聚类方法不作限制。
例如,得到的特征类目对象为水果类目、海鲜类目、熟食类目等,可以将这三个类目对象分别进行归一化处理,并将归一化处理后的类目对象中包含的商品进行聚类,把有类似爆发力的商品聚合在一起,得到一个或多个类簇,例如,大闸蟹由于在中秋期间到了多膏美味的顶峰,可以与月饼一起在中秋时节期间同时迎来爆发高峰,两者的历史时间序列数据的走势类似,则可以将大闸蟹与月饼放入同一类簇中。
子步骤S33,从所述类簇对象中预测出目标类簇对象;
得到类簇对象以后,可以从该类簇对象中筛选出近期(未来第一预设时间段内)将要爆发的类簇对象,作为目标类簇对象。例如,从多个类簇对象中筛选出将要热卖的类簇对象作为目标类簇对象。
在本申请实施例的一种优选实施例中,子步骤S33进一步可以包括如下子步骤:
子步骤S331,基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
在具体实现中,可以根据类簇对象中每个数据对象的在过去一个月内(最近一个月)的归一化后的历史时间序列数据,计算该类簇下所有数据对象的历史时间序列数据的平均值,即以时间区间为单位(例如以天为单位),计算该类簇下该时间区间所有数据对象的归一化后的历史特征数据之和除以该时间区间下所有数据对象的数量,得到该时间区间下的平均值;所有时间区间的平均值组成该类簇的第一平均历史时间序列数据。
子步骤S332,基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
在具体实现中,可以根据类簇对象中每个数据对象的在过去第十三个月(最近一个月对应的去年的日期)的归一化后的历史时间序列数据,计算该类簇下所有数据对象的历史时间序列数据的平均值,即以时间区间为单位(例如以天为单位),计算该类簇下该时间区间所有数据对象的归一化后的历史特征数据之和除以该时间区间下所有数据对象的数量,得到该时间区间下的平均值;所有时间区间的平均值组成所述类簇的第二平均历史时间序列数据。
子步骤S333,基于所述类簇对象中的目标数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
采用与上述子步骤S332的方法,计算类簇对象的第三平均历史时间序列数据,即计算去年当前日期的平均归一化数据。
子步骤S334,根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
在具体实现中,得到第一平均历史时间序列数据以后,可以进一步计算该第一平均历史时间序列数据的第一平均值(类簇的每个时间区间下的平均值之和除以时间区间的数量),以及,得到第二平均历史时间序列数据以后,可以进一步计算该第二平均历史时间序列数据的第二平均值(类簇的每个时间区间下的平均值之和除以时间区间的数量)。
然后计算第一平均值与第二平均值的比值,得到比值A。
然后将第三平均历史时间序列数据分别乘以比值A,得到所述特征类目对象在未来第一预设时间段内的未来平均时间序列数据。
需要说明的是,该未来第一预设时间段可以为农历基准的时间段,若在该第一预设时间段内若某个时间区间内出现重大公历节日(如国庆,元旦等),则进行公历日假期的相应修正,即在该节假日中,将农历基准变成对应的公历基准,其他非重大公历节日不变。
子步骤S335,计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
得到未来第一预设时间段内的未来平均时间序列数据以后,可以进一步计算所述未来平均时间序列数据的第一总和(每个时间区间下类簇的平均值之和),以及,所述第一平均历史时间序列数据的第二总和。
然后计算第一总和所述第二总和的差值,可以得到该类簇对象的指标数据。
子步骤S336,将指标数据大于预设阈值的类簇对象作为目标类簇对象。
获得类簇对象的指标数据以后,可以筛选出指标数据较大的类簇对象作为目标类簇对象,在一种实施方式中,可以筛选出指标数据大于预设阈值的类簇对象作为目标类簇对象。
例如,得到的两个类簇的指标数据分别如下(M为归一化前的历史序列数据的中值):
大闸蟹+月饼(第一类簇):1.1M
八爪鱼(第二类簇):-0.01M
经过排序之后,可以很容易判定未来半个月之内第一类簇,即大闸蟹和月饼的销量将会爆发,而八爪鱼则会趋于平稳。
在本申请实施例中,可以根据类簇的爆发力指标数据判定其短期和中期爆发的可能性。
子步骤S34,将所述目标类簇中包含的数据对象,作为目标数据对象。
确定目标类簇对象以后,可以将该目标类簇对象中包含的数据对象,作为目标数据对象。
在本申请实施例中,能够从多个类目对象中筛选出具有时效特性以及季节特性的特征类目对象,并基于该特征类目对象的历史时间序列数据,从特征类目对象包含的数据对象中预测出近期将要爆发的目标数据对象,本申请实施例根据时间序列数据的原理,预测出近期具有爆发力的目标数据对象,使得预测结果与实际更加吻合,准确率更高。
参照图3,示出了本申请的一种基于时间序列的数据预测方法实施例二的步骤流程图,可以包括如下步骤:
步骤301,获取多个类目对象的历史时间序列数据;
应用于本申请实施例,一个类目对象可以包括一个或多个数据对象。
在本申请实施例的一种优选实施例中,步骤301可以包括如下子步骤:
子步骤S41,针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
子步骤S42,组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
子步骤S43,按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
子步骤S44,将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
步骤302,从所述多个类目对象中筛选出特征类目对象;
在本申请实施例中,当获得每个类目对象的历史时间序列数据以后,可以进一步从多个类目对象中筛选出特征类目对象,其中,特征类目对象可以为包含特征数据对象的类目对象,而特征数据对象可以为生命周期小于预设时间阈值的数据对象,即具有时效性的数据对象。
在本申请实施例的一种优选实施例中,步骤302可以包括如下子步骤:
子步骤S51,基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
在本申请实施例的一种优选实施例中,子步骤S51进一步可以包括如下子步骤:
子步骤S511,计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
子步骤S512,计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
子步骤S513,若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
子步骤S52,获取预设的第二特征类目对象;
子步骤S53,将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
步骤303,基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象;
确定特征类目对象以后,可以从特征类目对象包含的数据对象中筛选出目标数据对象,其中,该目标数据对象可以为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
在本申请实施例的一种优选实施例中,步骤303可以包括如下子步骤:
子步骤S61,基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
子步骤S62,将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
子步骤S63,从所述类簇对象中预测出目标类簇对象;
在本申请实施例的一种优选实施例中,子步骤S63进一步可以包括如下子步骤:
子步骤S631,基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
子步骤S632,基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
子步骤S633,基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
子步骤S634,根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
子步骤S635,计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
子步骤S636,将指标数据大于预设阈值的类簇对象作为目标类簇对象。
子步骤S64,将所述目标类簇对象中包含的数据对象,作为目标数据对象。
步骤304,预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
在本申请实施例的一种优选实施例中,步骤304可以包括如下子步骤:
子步骤S71,对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
由于根据子步骤S634预估的所述类簇对象的未来平均时间序列数据是一种归一化后的值,因此可以首先对该归一化后的值进行反归一化处理,即将该未来平均时间序列数据乘以中值M,可以得到该类簇对象中每个数据对象的基准平均时间序列数据。
子步骤S72,对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
获得每个数据对象的基准平均时间序列数据以后,可以对该基准平均时间序列数据进行修正,得到该数据对象在未来第一预设时间段内的未来时间序列数据。在一种实施方式中,所述修正可以包括依据预设参考参数进行放大或缩小的补偿修正。
预设参考参数可以为其他数据库中的补偿参数,例如,在电商平台中,为了对抗平台商家数量变化带来的影响,该预设参考参数可以为商家数据库中的数据,该商家数据库记录了平台的各个商家及其主要的特征,包括商家的基本属性、交易属性及信用属性等特征。可以以当前商家数和去年对应时期商家数相比进行基准平均时间序列数据的放大(或缩小)等修正,得到该商品类目的未来时间序列数据。
例如,去年与今年同期相比,商家数据库中保存的商家数量从100家增加到1000家,商家数量增加了10倍,而销量增加了20倍,则可以将基准平均时间序列数据放大两倍,得到未来时间序列数据。
作为本申请实施例的一种优选示例,若将本申请实施例应用于电商平台中,则所述数据对象可以为商品数据,所述类目对象可以为商品类目,所述特征类目对象可以为时效性商品类目,所述生命周期可以为商品的时效,所述时间序列数据可以为所述商品的日销量。
在本申请实施例中,能够从多个类目对象中筛选出具有时效特性以及季节特性的特征类目对象,并基于该特征类目对象的历史时间序列数据,从特征类目对象包含的数据对象中预测出近期将要爆发的目标数据对象,并预测该目标数据对象近期的未来时间序列数据,本申请实施例根据时间序列数据的原理,预测出近期具有爆发力的目标数据对象以及该目标数据对象的未来时间序列数据,使得预测结果与实际更加吻合,准确率更高。
对于图3的方法实施例而言,由于其与图1的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图4,示出了本申请的一种基于时间序列的数据预测装置实施例的结构框图,具体可以包括如下模块:
历史时序数据获取模块401,用于获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;
特征类目对象筛选模块402,用于从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;
目标数据对象预测模块403,用于基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
在本申请实施例的一种优选实施例中,所述装置还可以包括:
未来时序数据预测模块,用于预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
在本申请实施例的一种优选实施例中,所述历史时序数据获取模块401包括:
历史特征数据计算子模块,用于针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
历史特征数据组织子模块,用于组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
历史特征数据统计子模块,用于按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
历史时序数据组织子模块,用于将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
在本申请实施例的一种优选实施例中,所述特征类目对象筛选模块402包括:
第一特征类目对象筛选子模块,用于基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
第二特征类目对象获取子模块,用于获取预设的第二特征类目对象;
组织子模块,用于将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
在本申请实施例的一种优选实施例中,所述第一特征类目对象筛选子模块还用于:
计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
在本申请实施例的一种优选实施例中,所述目标数据对象预测模块403包括:
归一化子模块,用于基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
聚类子模块,用于将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
预测子模块,用于从所述类簇对象中预测出目标类簇对象;
目标数据对象获取子模块,用于将所述目标类簇对象中包含的数据对象,作为目标数据对象。
在本申请实施例的一种优选实施例中,所述预测子模块还用于:
基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
将指标数据大于预设阈值的类簇对象作为目标类簇对象。
在本申请实施例的一种优选实施例中,所述未来时序数据预测模块包括:
基准数据获取子模块,用于对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
修正子模块,用于对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
在本申请实施例的一种优选实施例中,所述数据对象为商品数据,所述类目对象为商品类目,所述特征类目对象为时效性商品类目,所述生命周期为商品的时效,所述时间序列数据为所述商品的日销量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于时间序列的数据预测方法和一种基于时间序列的数据预测装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种基于时间序列的数据预测方法,其特征在于,所述的方法包括:
获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;
从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;
基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
2.根据权利要求1所述的方法,其特征在于,还包括:
预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
3.根据权利要求1或2所述的方法,其特征在于,所述获取多个类目对象的历史时间序列数据的步骤包括:
针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
4.根据权利要求3所述的方法,其特征在于,所述从所述多个类目对象中筛选出特征类目对象的步骤包括:
基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
获取预设的第二特征类目对象;
将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
5.根据权利要求4所述的方法,其特征在于,所述基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象的步骤包括:
计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
针对所述类目对象在每个时间区间的历史特征数据,计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
6.根据权利要求2所述的方法,其特征在于,所述基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象的步骤包括:
基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
从所述类簇对象中预测出目标类簇对象;
将所述目标类簇对象中包含的数据对象,作为目标数据对象。
7.根据权利要求6所述的方法,其特征在于,所述从所述类簇对象中预测出目标类簇对象的步骤包括:
基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
将指标数据大于预设阈值的类簇对象作为目标类簇对象。
8.根据权利要求7所述的方法,其特征在于,所述预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据的步骤包括:
对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
9.根据权利要求1或2或4或5或7或8所述的方法,其特征在于,所述数据对象为商品数据,所述类目对象为商品类目,所述特征类目对象为时效性商品类目,所述生命周期为商品的时效,所述时间序列数据为所述商品的日销量。
10.一种基于时间序列的数据预测装置,其特征在于,所述的装置包括:
历史时序数据获取模块,用于获取多个类目对象的历史时间序列数据,其中,所述类目对象包括一个或多个数据对象;
特征类目对象筛选模块,用于从所述多个类目对象中筛选出特征类目对象,其中,所述特征类目对象为包含特征数据对象的类目对象,所述特征数据对象为生命周期小于预设时间阈值的数据对象;
目标数据对象预测模块,用于基于所述特征类目对象对应的历史时间序列数据,从所述特征类目对象包含的数据对象中预测出目标数据对象,所述目标数据对象为未来第一预设时间段内将要产生的未来时间序列数据满足预设增长趋势的数据对象。
11.根据权利要求10所述的装置,其特征在于,还包括:
未来时序数据预测模块,用于预测所述目标数据对象在所述未来第一预设时间段内的未来时间序列数据。
12.根据权利要求10或11所述的装置,其特征在于,所述历史时序数据获取模块包括:
历史特征数据计算子模块,用于针对预设的多个时间区间,计算每个时间区间内预设数据库中存储的,所述数据对象对应的指定特征数据的数量,作为所述数据对象在所述时间区间内的历史特征数据;
历史特征数据组织子模块,用于组织所述数据对象在所有时间区间的历史特征数据,得到所述数据对象的历史时间序列数据;
历史特征数据统计子模块,用于按照所述时间区间,统计每个类目对象中包含的数据对象在所述时间区间的历史特征数据的总和;
历史时序数据组织子模块,用于将所有时间区间的历史特征数据的总和组织成所述类目对象的历史时间序列数据。
13.根据权利要求12所述的装置,其特征在于,所述特征类目对象筛选模块包括:
第一特征类目对象筛选子模块,用于基于所述类目对象的历史时间序列数据,从所述多个类目对象中筛选出第一特征类目对象;
第二特征类目对象获取子模块,用于获取预设的第二特征类目对象;
组织子模块,用于将所述第一特征类目对象以及所述第二特征类目对象组织成特征类目对象。
14.根据权利要求13所述的装置,其特征在于,所述第一特征类目对象筛选子模块还用于:
计算在过去第一预设时间段内每个类目对象的历史时间序列数据的中值M;
针对所述类目对象在每个时间区间的历史特征数据,计算历史特征数据的总和大于所述M的预设倍数的时间区间的数量;
若所述历史特征数据的总和大于所述M的预设倍数的时间区间的数量在预设范围内,则判定所述类目对象为第一特征类目对象。
15.根据权利要求11所述的装置,其特征在于,所述目标数据对象预测模块包括:
归一化子模块,用于基于所述特征类目对象对应的历史时间序列数据,对所述特征类目对象进行归一化处理;
聚类子模块,用于将所有归一化处理后的特征类目对象中包含的数据对象进行聚类,得到类簇对象;
预测子模块,用于从所述类簇对象中预测出目标类簇对象;
目标数据对象获取子模块,用于将所述目标类簇对象中包含的数据对象,作为目标数据对象。
16.根据权利要求15所述的装置,其特征在于,所述预测子模块还用于:
基于所述类簇对象中的数据对象在过去一个月内的历史时间序列数据,计算所述类簇对象的第一平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十三个月的历史时间序列数据,计算所述类簇对象的第二平均历史时间序列数据;
基于所述类簇对象中的数据对象在过去第十二个月的历史时间序列数据,计算所述类簇对象的第三平均历史时间序列数据;
根据所述第一平均历史时间序列数据、所述第二平均历史时间序列数据以及所述第三平均历史时间序列数据,预估所述类簇对象在未来第一预设时间段内的未来平均时间序列数据;
计算所述未来平均时间序列数据与所述第一平均历史时间序列数据的差值,得到所述类簇对象的指标数据;
将指标数据大于预设阈值的类簇对象作为目标类簇对象。
17.根据权利要求16所述的装置,其特征在于,所述未来时序数据预测模块包括:
基准数据获取子模块,用于对所述类簇对象在未来第一预设时间段内的未来平均时间序列数据进行反归一化处理,得到所述类簇对象中每个数据对象的基准平均时间序列数据;
修正子模块,用于对所述每个数据对象的基准平均时间序列数据进行修正,得到对应数据对象在未来第一预设时间段内的未来时间序列数据。
18.根据权利要求10或11或13或14或16或17所述的装置,其特征在于,所述数据对象为商品数据,所述类目对象为商品类目,所述特征类目对象为时效性商品类目,所述生命周期为商品的时效,所述时间序列数据为所述商品的日销量。
CN201610024102.6A 2016-01-14 2016-01-14 一种基于时间序列的数据预测方法和装置 Active CN106971348B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610024102.6A CN106971348B (zh) 2016-01-14 2016-01-14 一种基于时间序列的数据预测方法和装置
JP2018536870A JP2019502213A (ja) 2016-01-14 2017-01-06 時系列に基づいたデータ予測方法及び装置
PCT/CN2017/070356 WO2017121285A1 (zh) 2016-01-14 2017-01-06 一种基于时间序列的数据预测方法和装置
TW106101434A TWI729058B (zh) 2016-01-14 2017-01-16 基於時間序列的資料預測方法和裝置
US16/034,281 US20180322404A1 (en) 2016-01-14 2018-07-12 Time Series Based Data Prediction Method and Apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610024102.6A CN106971348B (zh) 2016-01-14 2016-01-14 一种基于时间序列的数据预测方法和装置

Publications (2)

Publication Number Publication Date
CN106971348A CN106971348A (zh) 2017-07-21
CN106971348B true CN106971348B (zh) 2021-04-30

Family

ID=59310795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610024102.6A Active CN106971348B (zh) 2016-01-14 2016-01-14 一种基于时间序列的数据预测方法和装置

Country Status (5)

Country Link
US (1) US20180322404A1 (zh)
JP (1) JP2019502213A (zh)
CN (1) CN106971348B (zh)
TW (1) TWI729058B (zh)
WO (1) WO2017121285A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934604B (zh) * 2017-12-15 2021-09-07 北京京东尚科信息技术有限公司 销量数据的处理方法、系统、存储介质及电子设备
CN108133391A (zh) * 2017-12-22 2018-06-08 联想(北京)有限公司 销量预测方法以及服务器
CN108829343B (zh) * 2018-05-10 2020-08-04 中国科学院软件研究所 一种基于人工智能的缓存优化方法
CN109255645B (zh) * 2018-07-20 2021-09-14 创新先进技术有限公司 一种消费预测方法、装置及电子设备
CN110858346B (zh) * 2018-08-22 2023-05-02 阿里巴巴集团控股有限公司 数据处理方法、装置和机器可读介质
CN111104627B (zh) * 2018-10-29 2023-04-07 北京国双科技有限公司 一种热点事件的预测方法及装置
CN111260384B (zh) * 2018-11-30 2023-09-15 北京嘀嘀无限科技发展有限公司 服务订单处理方法、装置、电子设备及存储介质
CN111260427B (zh) * 2018-11-30 2023-07-18 北京嘀嘀无限科技发展有限公司 服务订单处理方法、装置、电子设备及存储介质
CN110298690B (zh) * 2019-05-31 2023-07-18 创新先进技术有限公司 对象类目的周期判断方法、装置、服务器及可读存储介质
CN112149458A (zh) * 2019-06-27 2020-12-29 商汤集团有限公司 障碍物检测方法、智能驾驶控制方法、装置、介质及设备
CN110689170A (zh) * 2019-09-04 2020-01-14 北京三快在线科技有限公司 对象参量的确定方法、装置、电子设备及存储介质
CN112862137A (zh) * 2019-11-27 2021-05-28 顺丰科技有限公司 件量预测方法、装置、计算机设备和计算机可读存储介质
CN113010500B (zh) * 2019-12-18 2024-06-14 天翼云科技有限公司 用于dpi数据的处理方法和处理系统
CN111008749B (zh) * 2019-12-19 2023-06-30 北京顺丰同城科技有限公司 一种需求预测的方法及装置
CN111210071B (zh) * 2020-01-03 2023-11-24 深圳前海微众银行股份有限公司 业务对象预测方法、装置、设备及可读存储介质
CN113269575B (zh) * 2020-02-14 2024-07-19 北京沃东天骏信息技术有限公司 计算时序队列的方法和装置
CN111833110A (zh) * 2020-07-23 2020-10-27 北京思特奇信息技术股份有限公司 客户生命周期定位方法、装置、电子设备及存储介质
CN112053004A (zh) * 2020-09-14 2020-12-08 胜斗士(上海)科技技术发展有限公司 用于时间序列预测的方法和装置
CN112988521B (zh) * 2021-02-09 2023-09-05 北京奇艺世纪科技有限公司 一种告警方法、装置、设备及存储介质
CN113506138B (zh) * 2021-07-16 2024-06-07 瑞幸咖啡信息技术(厦门)有限公司 业务对象的数据预估方法、装置、设备及存储介质
CN113469461B (zh) * 2021-07-26 2024-07-19 北京沃东天骏信息技术有限公司 生成信息的方法和装置
CN113657667A (zh) * 2021-08-17 2021-11-16 北京沃东天骏信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN117474587A (zh) * 2023-11-16 2024-01-30 小数汇智(杭州)科技有限公司 基于大类排名与评论率的电商平台商品销量估算方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346894A (zh) * 2010-08-03 2012-02-08 阿里巴巴集团控股有限公司 推荐信息的输出方法、系统及服务器
JP4987499B2 (ja) * 2007-01-31 2012-07-25 株式会社エヌ・ティ・ティ・データ 需要予測装置、需要予測方法、及び、需要予測プログラム
CN102938124A (zh) * 2012-10-29 2013-02-20 北京京东世纪贸易有限公司 确定节日热销商品的方法和装置
CN103136683A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 计算产品参考价格的方法、装置及产品搜索方法、系统
CN103617548A (zh) * 2013-12-06 2014-03-05 李敬泉 一种趋势性、周期性商品的中长期需求预测方法
CN103870453A (zh) * 2012-12-07 2014-06-18 盛乐信息技术(上海)有限公司 数据推荐方法及系统
CN104517224A (zh) * 2014-12-22 2015-04-15 浙江工业大学 一种网络热销商品的预测方法及系统
CN105184618A (zh) * 2015-10-20 2015-12-23 广州唯品会信息科技有限公司 新用户的商品个性化推荐方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306267A (ja) * 1998-04-24 1999-11-05 Moteibea:Kk 見込み売上推定システム及び方法並びに見込み売上 推定プログラムを記録した記録媒体
JP2009205365A (ja) * 2008-02-27 2009-09-10 Nec Corp 商品の在庫管理および販売の最適化システム、その最適化方法、及びその最適化プログラム
US20100088153A1 (en) * 2008-04-08 2010-04-08 Plan4Demand Solutions, Inc. Demand curve analysis method for demand planning
JP2010003112A (ja) * 2008-06-20 2010-01-07 Univ Of Tokyo 経営支援装置及び経営支援方法
US20140122155A1 (en) * 2012-10-29 2014-05-01 Wal-Mart Stores, Inc. Workforce scheduling system and method
JP5847137B2 (ja) * 2013-08-06 2016-01-20 東芝テック株式会社 需要予測装置及びプログラム
CN103984998A (zh) * 2014-05-30 2014-08-13 成都德迈安科技有限公司 基于云服务平台大数据挖掘的销售预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4987499B2 (ja) * 2007-01-31 2012-07-25 株式会社エヌ・ティ・ティ・データ 需要予測装置、需要予測方法、及び、需要予測プログラム
CN102346894A (zh) * 2010-08-03 2012-02-08 阿里巴巴集团控股有限公司 推荐信息的输出方法、系统及服务器
CN103136683A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 计算产品参考价格的方法、装置及产品搜索方法、系统
CN102938124A (zh) * 2012-10-29 2013-02-20 北京京东世纪贸易有限公司 确定节日热销商品的方法和装置
CN103870453A (zh) * 2012-12-07 2014-06-18 盛乐信息技术(上海)有限公司 数据推荐方法及系统
CN103617548A (zh) * 2013-12-06 2014-03-05 李敬泉 一种趋势性、周期性商品的中长期需求预测方法
CN104517224A (zh) * 2014-12-22 2015-04-15 浙江工业大学 一种网络热销商品的预测方法及系统
CN105184618A (zh) * 2015-10-20 2015-12-23 广州唯品会信息科技有限公司 新用户的商品个性化推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《固有模态SVM预测模型在》;刘俊娥;《物流技术》;20131130;第32卷(第11期);第76-78、97页 *

Also Published As

Publication number Publication date
JP2019502213A (ja) 2019-01-24
TWI729058B (zh) 2021-06-01
WO2017121285A1 (zh) 2017-07-20
CN106971348A (zh) 2017-07-21
US20180322404A1 (en) 2018-11-08
TW201730787A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN106971348B (zh) 一种基于时间序列的数据预测方法和装置
CN109741082A (zh) 一种基于时间序列分解的季节性商品需求预测方法
CN110728458B (zh) 一种目标对象的风险监测方法、装置及电子设备
CN107563705A (zh) 利用大数据分析家电产品安全库存及再订货的系统和方法
KR20140056731A (ko) 구매추천 시스템 및 방법
CN111652654A (zh) 销量预测及神经网络构建的方法、装置、设备、存储介质
CN113723985A (zh) 销量预测模型的训练方法、装置及电子设备、存储介质
JP2015528170A (ja) 祭日用売れ筋商品を決定するための方法及びデバイス
JP5753217B2 (ja) 商品コード分析システム及び商品コード分析プログラム
WO2020033410A1 (en) Artificial intelligence system and method for generating a hierarchical data structure
US20220277331A1 (en) Systems and methods for procurement cost forecasting
RU2016128715A (ru) Обнаружение сети деловых отношений и оценивание релевантности отношения
CN112330358A (zh) 产品销量预测的方法和装置、存储介质和电子设备
CN111260388B (zh) 一种商品生命周期的确定、展示方法和装置
WO2020024718A1 (zh) 外汇交易量预测方法和装置
CN111144950A (zh) 模型筛选方法、装置、电子设备及存储介质
CN114820039A (zh) 商业门店选址方法及装置
CN117391807A (zh) 一种基于贸易大数据的风险决策方法、装置、设备及介质
KR102599136B1 (ko) 트랜스포머 모델을 이용한 농산물 가격예측 방법 및 시스템
CN107194190B (zh) 医药费用数据库中识别服务对象对费用影响的方法及装置
CN114092151A (zh) 一种基于电商平台的商品销量统计方法、设备及介质
CN114298818A (zh) 一种针对控制货物贷款的风险评估方法及装置
WO2013055257A1 (ru) Способ прогноза целевого показателя событий по неограниченному количеству характеристик
CN111369315A (zh) 资源对象推荐方法及装置,数据预测模型训练方法及装置
CN112749269A (zh) 实体舆情计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1239918

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211110

Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170721

Assignee: Hangzhou Jinyong Technology Co.,Ltd.

Assignor: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Contract record no.: X2024980001317

Denomination of invention: A time series based data prediction method and device

Granted publication date: 20210430

License type: Common License

Record date: 20240123

Application publication date: 20170721

Assignee: Golden Wheat Brand Management (Hangzhou) Co.,Ltd.

Assignor: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Contract record no.: X2024980001316

Denomination of invention: A time series based data prediction method and device

Granted publication date: 20210430

License type: Common License

Record date: 20240123

Application publication date: 20170721

Assignee: Hangzhou Xinlong Huazhi Trademark Agency Co.,Ltd.

Assignor: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Contract record no.: X2024980001315

Denomination of invention: A time series based data prediction method and device

Granted publication date: 20210430

License type: Common License

Record date: 20240123

EE01 Entry into force of recordation of patent licensing contract