CN114077912A - 数据预测方法以及数据预测装置 - Google Patents

数据预测方法以及数据预测装置 Download PDF

Info

Publication number
CN114077912A
CN114077912A CN202010817375.2A CN202010817375A CN114077912A CN 114077912 A CN114077912 A CN 114077912A CN 202010817375 A CN202010817375 A CN 202010817375A CN 114077912 A CN114077912 A CN 114077912A
Authority
CN
China
Prior art keywords
target
model
prediction
time information
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010817375.2A
Other languages
English (en)
Inventor
徐灏
刘鑫
陈旭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010817375.2A priority Critical patent/CN114077912A/zh
Publication of CN114077912A publication Critical patent/CN114077912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种数据预测方法以及装置,包括:获取目标时间信息,目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;将目标时间信息输入至预先训练的第一模型,得到预测项目的初始预测值,第一模型用于在输入时间信息的情况下,预测所述时间信息对应的预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到预测项目的偏差值,第二模型用于在输入时间标识的情况下,预测时间标识对应的预测项目的偏差值,第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的;根据预测项目的初始预测值与预测项目的偏差值得到预测项目的预测结果。基于本申请的方案能够提高预测结果的准确性。

Description

数据预测方法以及数据预测装置
技术领域
本申请涉及机器学习及大数据结合的领域,具体地,涉及一种数据预测方法以及数据预测装置。
背景技术
随着移动通信技术不断发展,通信网络的应用日益增多,通信网络流量的需求也越来越大。运营商的新业务不断发展和市场推广对移动网络体验带来巨大挑战,网络流量的预测是解决网络拥塞提升用户体验以及合理分配利用网络资源提高网络带宽利用率的基础。比如,通过预测未来的业务流量增长或变化,支撑各专业进行决策、评估、扩容、新建和网络保障。其中,中长周期流量预测是指预测未来三个月,或者未来更久时间用户对网络流量的使用趋势,主要应用于运营商敏捷扩容,节假日保障以及年度规划等场景中。
目前,对于中长期的网络流量进行预测得到的预测结果的准确性较低,从而导致无法有效地对网络资源进行合理规划;因此,如何提高数据预测方法的准确性成为一个亟需解决的问题。
发明内容
本申请提供一种数据预测方法以及数据预测装置,通过本申请实施例提供的数据预测方法在中长期数据预测场景中,提高预测结果的准确性。
第一方面,提供了一种数据预测方法,包括:获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测的时间信息;将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
应理解,预先训练的第一模型可以是指不同目标对象的个体模型,即可以通过一个目标对象的预测项目的历史数据以及历史数据对应的历史时间信息训练得到第一模型。第二模型可以是针对一类目标对象训练的群体模型,即第二模型指根据一类目标对象学习一个统一的趋势因子,认为一类目标对象有更强的关联关系,拥有相对统一的变化趋势,从而建立针对一类目标对象的群体模型;通过第二模型可以预测出一类目标对象在对预测项目进行预测时的偏差值,该偏差值可以是指理论上对目标对象的预测项目进行预测时,得到的预测值与目标对象的预测项目的未来真实值之间的差异。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的网络流量。
例如,以目标对象的预测目标为目标基站小区的网络流量进行举例说明;第一模型可以根据该目标基站小区的多个样本数据训练得到的,多个样本数据中的一个样本数据可以包括目标基站小区的历史时间信息的以及与该历史时间信息对应的目标基站小区的网络流量。
假设,目标基站小区所属的目标分类即与目标基站小区具有相同属性的同一类基站小区中包括目标基站小区、基站小区A以及基站小区B;则获取历史时间信息A,将历史时间信息A输入至目标基站小区的第一模型,得到目标基站小区的第一模型输出的历史时间信息A对应的网络流量的初始预测值A;同理,将历史信息A分别输入至基站小区A的第一模型,得到基站小区A的第一模型输出的历史时间信息A对应的网络流量的初始预测值B;以及将历史信息A输入至基站小区B的第一模型,得到基站小区B的第一模型输出的历史时间信息A对应的网络流量的初始预测值C;同时,还可以获取目标基站小区在历史时间信息A对应的历史网络流量的真实值A,基站小区A在历史时间信息A对应的历史网络流量的真实值B,以及基站小区B在历史时间信息A对应的历史网络流量的真实值C;进一步能够得到3个残差值,即网络流量的初始预测值A与网络流量的真实值A之间的残差值、网络流量的初始预测值B与网络流量的真实值B之间的残差值以及网络流量的初始预测值C与网络流量的真实值C之间的残差值;训练第二模型的一个训练样本可以包括历史时间标识A与上述三个残差值。
其中,历史时间标识A可以是根据历史时间信息A得到的;比如,历史时间标识A可以是指时间序号,比如,假设用于训练第二模型的数据集中的第一天时间标识可以为0,则可以历史时间信息A与时间基准确定历史时间标识A。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的物理资源块利用率。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的用户数量。
在一种可能的实现方式中,目标对象的预测项目可以是指目标门店的商品销售量。
在一种可能的实现方式中,目标对象的预测项目可以是指目标网站的网页流量。
在本申请的实施例中,在对目标对象的预测项目进行预测时,可以根据预先训练的第一模型输出的初始预测值;通过预先训练的第二模型可以在一定程度对第一模型输出的初始预测值进行修正,即输出偏差值;通过目标对象的预测项目的初始预测值与偏差值得到的预测结果可以同时满足目标对象的个体特性以及目标对象所属目标分类的群体特性,从而提高预测项目的预测结果的准确性。
在一种可能的实现方式中,预测项目的预测结果可以通过以下公式表达:
f(t)=C(t)+S(t);
其中,f(t)表示预测结果,C(t)表示群体趋势项,S(t)表示个体规律项。其中,个体规律项是根据目标对象的第一模型得到的,即根据目标对象的历史时间序列通过机器学习算子拟合得到,群体趋势项是根据目标对象对应的目标分类的第二模型得到的,即对于同一类对象通过机器学习算法或者统计算法根据预测值与真实值的差值随时间的变化拟合而成。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的网络流量,目标时间信息可以是指待预测时间序列的时间特征,其中,待预测时间序列可以是指未来一段时间目标基站小区的网络流量;比如,以日为粒度的情况下,预测未来某一天目标基站小区的网络流量输入特征为与这一天对应的时间特征。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的物理资源块利用率,目标时间信息可以是指待预测时间序列的时间特征,其中,待预测时间序列可以是指未来一段时间目标基站小区的物理资源块利用率;比如,以日为粒度的情况下,预测未来某一天目标基站小区的物理资源块利用率输入特征为与这一天对应的时间特征。
需要说明是,目标时间信息中包括的一项或者多项可以与训练第一模型的训练数据中历史时间信息对应的时间特征张量相对应的。
示例性地,历史时间特征中可以包括但不限于以下中的一项或者多项:
festival:是否为节日,是1,否0;
holiday:是否为假日,是1,否0(包括节日放假和普通周末);
vacation:是否为寒暑假,是1,否0(可选);
time_corr:天序号(无限往后加),从1开始不断往后加,1,2,3...;
week_idx:周序号(无限往后加),从1开始不断往后加,1,2,3...;
day_in_holiday:假日的第几天;
day_in_workday:工作日的第几天;
days_to_next_workday:到下一个工作日的天数;
days_to_next_day_off:到下一个休息日的天数;
length_holiday:假日长度;
week_of_month:从每月1号开始算该月第几周,即1~7第一周,8~14第二周,...取值范围1~5。
在一种可能的实现方式中,第一模型可以是通过得基于树形集成模型的机器学习模型;比如,第一模型可以是指极限梯度提升树模型;分类梯度提升树模型;轻量梯度提升器等。
在一种可能的实现方式中,第二模型可以是指线性模型,也可以是指简单的神经网络,或者其它模型。
结合第一方面,在第一方面的某些实现方式中,还包括:
对所述目标对象进行分类,得到所述目标分类;根据所述目标分类中包括的多个对象对应的所述预测项目的历史数据进行训练,得到所述第二模型。
在本申请的实施例中,可以对目标对象进行分类从而得到目标对象所属的目标分类;通常情况下一类的对象具有更强的关联关系,通过目标分类中的多个对象的历史数据可以学习一类对象的统一的趋势因子;从而在对目标对象的预测项目进行预测时可以根据趋势因子调整初始预测值,从而提高预测项目的预测结果的准确性。
结合第一方面,在第一方面的某些实现方式中,所述对所述目标对象进行分类,得到所述目标分类,包括:
根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
例如,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性从而确定目标对象的目标分类;其中,时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。比如,时间序列之间的相似性可以是指将其它对象的预测项目随时间信息的变化趋势与目标对象的预测项目随时间信息的变化趋势相同或者相近的多个对象确定与目标对象属于同一目标分类。
在一种可能的实现方式中,可以通过多个对象的时间序列的相似性度量去分类,时间序列的相似性度的度量方式包括但不限于:皮尔森相关性,简单欧式距离,动态时间规整度量等。
在本申请的实施例中,通常对于时间序列具有相似性的目标对象所处的场景也类似,预测项目的特征规律也类似;通过对目标对象进行分类,便于后续学习一类目标对象的预测项目的趋势因子。
结合第一方面,在第一方面的某些实现方式中,所述根据所述目标对象的时间序列,得到所述目标分类,包括:
根据所述目标对象的所述时间序列与所述目标对象的空间特征,得到所述目标分类,其中,所述空间特征包括所述目标对象的空间坐标、所述目标对象的所在位置的功能区类型以及空间相似性。
例如,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性,以及目标对象的空间特征与其它多个对象的空间特征之间的相似性,从而确定目标对象的目标分类。
在一种可能的实现方式中,空间特征可以包括但不限于:空间坐标、所在位置的功能区类型以及空间相似性;比如,可以将其它对象与目标对象的土地利用率相同或者相近的多个对象划分为同一目标分类;或者,可以将其它对象与目标对象的地理位置相接近的多个对象划分为同一目标分类;或者,可以将其它对象与目标对象的所在地理位置的功能区类型相接近的多个对象划分为同一目标分类;或者,可以将其它对象与目标对象的所在地理位置的具有空间相似性的多个对象划分为同一目标分类。
在本申请的实施例中,通常对于时间序列具有相似性以及空间特征具有相似性的目标对象所处的场景也类似,预测项目的特征规律也类似;通过对目标对象进行分类,便于后续学习一类目标对象的预测项目的趋势因子。
结合第一方面,在第一方面的某些实现方式中,所述第一模型是通过多个样本数据训练得到的,其中,所述多个样本训练数据中的一个样本训练数据包括所述历史时间信息以及与所述历史时间信息对应的所述目标对象的预测项目的历史数据。
结合第一方面,在第一方面的某些实现方式中,所述第一模型是通过超参数优化处理后得到的模型,所述超参数优化处理中的超参数是根据所述目标分类确定的。
在本申请的实施例中,为了提升目标对象的第一模型的精度可以对第一模型进行模型的超参数优化。
在一种可能的实现方式中,对于每一类基站小区流量数据分布是相近的,为了进一步优化个体模型的精度,同时兼顾模型性能;本申请实施例中通过超参数优化的方式对同一类基站小区中每个基站小区对应的第一模型进行优化,即同一类基站小区最终的模型最终共享超参数,但各个基站小区的个体模型拥有各自独立的内部参数。
结合第一方面,在第一方面的某些实现方式中,所述第一模型与所述第二模型是指同一分层模型中包括的不同层的模型。
需要说明的是,第一模型可以是指个体模型;第二模型可以是指群体模型;其中,个体学习与群体学习两个层之间相互耦合;对于不同目标对象而言,个体模型是相互独立的;对于不同分类的目标对象而言,群体模型是相互独立的。
结合第一方面,在第一方面的某些实现方式中,所述目标对象的预测项目包括以下中的任意一项:
目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的商品销售量以及目标网站的网页流量。
第二方面,提供了一种数据预测装置,包括:
获取单元,用于获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;处理单元,用于将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
需要说明的是,在本申请的实施例中数据预测装置可以是指可以是计算设备,也可以是配置于云端的计算设备中的芯片。
其中,计算设备可以为具有数据预测功能的设备,例如,可以包括当前技术已知的任何计算功能的设备,例如,服务器、计算机等等;或者,计算设备还可以是指具有计算功能的芯片;比如,配置于服务器中的芯片、计算机中的芯片。计算设备中可以包括存储器和处理器;存储器可以用于存储程序代码,处理器可以用于调用存储器存储的程序代码,以实现计算设备的相应功能。计算设备中包括的处理器和存储器可以通过芯片实现,此处不作具体的限定。
应理解,预先训练的第一模型可以是指不同目标对象的个体模型,即可以通过一个目标对象的预测项目的历史数据以及历史数据对应的时间特征训练得到第一模型。第二模型可以是针对一类目标对象训练的群体模型,即第二模型指根据一类目标对象学习一个统一的趋势因子,认为一类目标对象有更强的关联关系,拥有相对统一的变化趋势,从而建立针对一类目标对象的群体模型;通过第二模型可以预测出一类目标对象在对预测项目进行预测时的偏差值,该偏差值可以是指目标对象的预测项目的初始预测值与目标对象的预测项目的真实值之间的差异。
在本申请的实施例中,在对目标对象的预测项目进行预测时,可以根据预先训练的第一模型输出的初始预测值;通过预先训练的第二模型可以在一定程度对第一模型输出的初始预测值进行修正,即输出偏差值;通过目标对象的预测项目的初始预测值与偏差值得到的预测结果可以同时满足目标对象的个体特性以及目标对象所属目标分类的群体特性,从而提高预测项目的预测结果的准确性。
在一种可能的实现方式中,预测项目的预测结果可由以下式子表达:
f(t)=C(t)+S(t);
其中,f(t)表示最终的预测结果,C(t)表示群体趋势项,S(t)表示个体规律项。其中,个体规律项是根据目标对象的第一模型得到的,即根据目标对象的历史时间序列通过机器学习算子拟合得到,群体趋势项是根据目标对象对应的目标分类的第二模型得到的,即对于同一类对象通过机器学习算法或者统计算法根据预测值与真实值的差值随时间的变化拟合而成。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的网络流量,目标时间信息可以是指待预测时间序列的时间特征;待预测时间序列可以是指未来一段时间目标基站小区的网络流量;比如,以日为粒度的情况下,预测未来某一天目标基站小区的网络流量输入特征为与这一天对应的时间特征。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的物理资源块利用率,目标时间信息可以是指待预测时间序列的时间特征;待预测时间序列可以是指未来一段时间目标基站小区的物理资源块利用率;比如,以日为粒度的情况下,预测未来某一天目标基站小区的物理资源块利用率输入特征为与这一天对应的时间特征。
需要说明的是,训练第一模型时使用历史时间信息为训练数据,历史时间信息可以是指时间序列各历史时间点对应的时间特征张量;待预测时间序列的时间特征即上述目标时间信息可以与历史时间信息中包括相同的张量。
示例性地,待预测时间序列的时间特征即上述目标时间信息中可以包括以下中的一项或者多项:日期标识(比如,待预测时刻是一年的第几天,每月的第几天,每月第几周,星期几等),日顺序索引特征(比如0,1,2,3…),周顺序索引特征(比如0,1,2,3…),节假日特征(比如,待预测时刻是否为节假日,处于节假日的第几天,节假日长度等信息),寒暑假特征(比如,待预测时刻是否处于寒暑假)等。
在一种可能的实现方式中,第一模型可以是通过得基于树形集成模型的机器学习模型;比如,第一模型可以是指极限梯度提升树模型;分类梯度提升树模型;轻量梯度提升器等。
在一种可能的实现方式中,第二模型可以是指线性模型,也可以是指简单的神经网络,或者其它模型。
结合第二方面,在第二方面的某些实现方式中,所述处理单元还用于:
对所述目标对象进行分类,得到所述目标分类;
根据所述目标分类中包括的多个对象对应的所述预测项目的历史数据进行训练,得到所述第二模型。
在本申请的实施例中,可以对目标对象进行分类从而得到目标对象所属的目标分类;通常情况下一类的对象具有更强的关联关系,通过目标分类中的多个对象的历史数据可以学习一类对象的统一的趋势因子;从而在对目标对象的预测项目进行预测时可以根据趋势因子调整初始预测值,从而提高预测项目的预测结果的准确性。
结合第二方面,在第二方面的某些实现方式中,所述处理单元具体用于:
根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
在一种可能的实现方式中,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性从而确定目标对象的目标分类,即确定多个对象中与目标对象属于同一目标分类的对象;其中,时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。
在本申请的实施例中,通常对于时间序列具有相似性的目标对象所处的场景也类似,预测项目的特征规律也类似;通过对目标对象进行分类,便于后续学习一类目标对象的预测项目的趋势因子。
结合第二方面,在第二方面的某些实现方式中,所述处理单元具体用于:
根据所述目标对象的所述时间序列与所述目标对象的空间特征,得到所述目标分类,其中,所述空间特征包括所述目标对象的空间坐标、所述目标对象的所在位置的功能区类型以及空间相似性。
在一种可能的实现方式中,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性,以及目标对象的空间特征与其它多个对象的空间特征之间的相似性,从而确定目标对象的目标分类。
在本申请的实施例中,通常对于时间序列具有相似性以及空间特征具有相似性的目标对象所处的场景也类似,预测项目的特征规律也类似;通过对目标对象进行分类,便于后续学习一类目标对象的预测项目的趋势因子。
结合第二方面,在第二方面的某些实现方式中,所述第一模型是通过多个样本数据训练得到的,其中,所述多个样本训练数据中的一个样本训练数据包括所述历史时间信息以及与所述历史时间信息对应的所述目标对象的预测项目的历史数据。
结合第二方面,在第二方面的某些实现方式中,所述第一模型是通过超参数优化处理后得到的模型,所述超参数优化处理中的超参数是根据所述目标分类确定的。
在本申请的实施例中,为了提升目标对象的第一模型的精度可以对第一模型进行模型的超参数优化。
在一种可能的实现方式中,对于每一类基站小区流量数据时序模式是相近的,为了进一步优化个体模型的精度,同时兼顾模型性能,本申请实施例中通过超参优化的方式对同一类基站小区中每个基站小区对应的第一模型进行优化,即同一类基站小区对应的第一模型最终共享超参数,但各个基站小区的个体模型拥有各自独立的内部参数。
结合第二方面,在第二方面的某些实现方式中,所述第一模型与所述第二模型是指同一分层模型中包括的不同层的模型。
需要说明的是,第一模型可以是指个体模型;第二模型可以是指群体模型;其中,个体学习与群体学习两个层之间相互耦合;对于不同目标对象而言,个体模型是相互独立的;对于不同分类的目标对象而言,群体模型是相互独立的。
结合第二方面,在第二方面的某些实现方式中,所述目标对象的预测项目包括以下中的任意一项:
目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的商品销售量以及目标网站的网页流量。
第三方面,提供一种数据预测装置,包括:存储器,用于存储程序;处理器,用于执行该存储器存储的程序,当该存储器存储的程序被执行时,该处理器用于执行:获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测与所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
在一种可能的实现方式中,上述装置中包括的处理器还用于执行第一方面的任意一种实现方式中的数据预测方法。
应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第三方面中相同的内容。
第四方面,提供了一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行上述第一方面以及第一方面的任意一种实现方式中的数据预测方法。
第五方面,提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面以及第一方面中的任意一种实现方式中的数据预测方法。
第六方面,提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面以及第一方面的任意一种实现方式中的数据预测方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行上述第一方面以及第一方面的任意一种实现方式中的数据预测方法。
附图说明
图1是本申请实施例提供的数据预测方法的系统架构的示意图;
图2是本申请实施例提供的一种系统架构的示意图;
图3是本申请实施例提供的一种芯片的硬件结构的示意图;
图4是应用本申请实施例的数据预测方法的系统架构的示意图;
图5是本申请实施例提供的数据预测方法的示意性流程图;
图6是本申请实施例提供的网络流量预测模型的训练方法的示意性流程图;
图7是本申请实施例提供的网络流量预测模型的训练方法的示意图;
图8是本申请实施例提供的网络流量预测方法的示意图;
图9是本申请提供的数据预测装置的示意性框图;
图10是本申请实施例提供的数据预测装置的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性地,图1是本申请实施例提供的系统架构的示意图。
如图1所示,系统100中包括分类模块110、分层建模模块120以及预测模块130。
其中,分类模块110用于对多个对象(例如,基站小区、门店或者网站)进行分类处理。
在一个示例中,以对基站小区进行分类举例说明,可以基于多个基站小区的时间序列的相似性对多个基站小区进行分类;其中,时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列;时间序列的相似性可以是指同一统计指标的数值随时间变化趋势的相似性。
示例性地,可以通过多个对象的时间序列的相似性度量去分类,时间序列的相似性度的度量方式包括但不限于:皮尔森相关性,简单欧式距离,动态时间规整度量等。
在另一个示例中,以对基站小区进行分类举例说明,可以基于多个基站小区的时间序列的相似性以及空间特征的相似性对基站小区进行分类处理;其中,空间特征可以包括基站小区的空间坐标、基站小区的所在位置的功能区类型以及某一个基站小区与其它基站小区空间相似性。
应理解,上述对多个对象的分类处理可以采用无监督分类的方式,目标是将特征相似的对象划分在一类中,后续进一步学习一类对象的趋势因子。示例性地,分层建模模块120用于分别学习进行个体规律的学习与群体趋势的学习;其中,个体规律的学习是指根据一个基站小区的历史流量数据与时序的关联关系建立该小区的个体模型;群体趋势的学习是指根据一类基站小区学习一个统一的趋势因子,认为一类的小区有更强的关联关系,拥有相对统一的变化趋势,从而建立针对一类小区的群体模型。
需要说明的是,分层建模模块120中可以包括个体学习与群体学习两个层次;其中,个体学习可以是指针对某一个目标对象的样本时间特征学习该目标对象的预测项目随时间特征的变化趋势;群体学习可以是指学习一类目标对象在评估集中的预测值与真实值的偏差;个体学习与群体学习两个层之间相互耦合,比如,通过一类目标对象的各个个体模型输出的预测值与真值之间的差异可以进行群体模型的学习。每一个层次内部相对独立,比如,对于不同目标对象而言,个体模型是相互独立的;对于不同分类的目标对象而言,群体模型是相互独立的。
例如,以目标对象为基站小区进行举例说明,一个基站小区的个体模型可以根据该基站小区的多个样本数据训练得到的,多个样本数据中的一个样本数据可以包括该基站小区某一历史时刻的预测项目的样本值以及某一历史时刻对应的时间特征。
示例性地,一个基站小区的时间特征又可以称为时间特征张量,可以包括但不限于以下特征:
日期标识(比如,一年的第几天,每月的第几天,每月第几周,星期几等),日顺序索引特征(比如0,1,2,3…),周顺序索引特征(比如0,1,2,3…),节假日特征(比如:是否为节假日,处于节假日的第几天,节假日长度等信息),寒暑假特征(比如,是否处于寒暑假)。
示例性地,在本申请的实施例中,个体模型可以通过机器学习得到的树形集成模型;比如,个体模型可以是指极限梯度提升树模型(extreme gradient boosting,XGBoost);分类梯度提升树模型(categorical boosting,CatBoost);轻量梯度提升器(light gradient boosting machine,LightGBM)等。
应理解,对于多个基站小区中的每个基站小区可以通过使用机器学习算子进行每个基站小区的个体建模,各个基站小区的模型可以根据训练数据拟合出各自模型的内部参数。例如,对于一类基站小区的群体模型可以是指通过学习一类基站小区的在评估集中的预测值与真实值的差值,并建立该差值与时间关联关系的模型。其中,群体趋势模型可以用于表示差值与时间的线性趋势,也可以用更复杂的方式拟合出非线性变化趋势。
示例性地,在本申请的实施例中,群体模型可以使用线性模型,也可以使用简单的神经网络,或者其它模型。进一步地,在本申请的实施例中,为了提升各个基站小区的个体模型的精度可以对个体模型进行模型的超参数优化。
示例性地,对于每一类基站小区流量数据时序模式是相近的,为了进一步优化个体模型的精度,同时兼顾模型性能,本申请实施例中通过超参数优化的方式对同一类基站小区中每个基站小区对应的第一模型进行优化,即同一类基站小区对应的第一模型最终共享超参数,但各个基站小区的个体模型拥有各自独立的内部参数。
需要说明的是,与个体模型的内部参数相比,超参数可以是在机器学习训练之前设置的;例如,极限梯度提升树模型中的树数量可以是超参数,而个体模型的内部参数是训练期间学习的模型参数。
例如,在进行超参数优化时,可以采用时间跨度为至少一个月的评估数据集,以周平均流量的平均绝对百分比误差(mean absolute percentage error,MAPE)小于20%的小区占比最大作为优化目标(20%为典型值,亦可根据业务目标设置为15%,或者其他值);超参数优化的方法可以选择贝叶斯超参优化方法,或者,网格超参优化方法等。
示例性地,预测模块130用于基于基站小区的时间特征对目标对象的预测项目进行预测。
例如,目标对象的预测项目包括以下中的任意一项:目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的销售流量以及目标网站的网络流量。
应理解,上述为对目标对象的预测项目进行举例说明,本申请实施例提供的数据预测方法适用于各种中长期数据预测场景,本申请对目标对象的预测项目不作任何具体的限定。
图2示出了本申请实施例提供的一种系统架构200。
在图2中,数据采集设备260用于采集训练数据。针对本申请实施例的预先训练的第一模型来说,可以通过数据采集设备260采集的训练数据对第一模型进行训练。
示例性地,在本申请的实施例中对于第一模型来说,训练数据可以包括历史时间序列以及与历史时间序列对应的目标对象的预测项目的历史值。
示例性地,在本申请的实施例中对于第二模型来说,训练数据可以包括多个残差值以及与多个残差值对应的历史时间标识,其中,多个残差值是指与目标对象为相同目标分类的多个对象输出的残差值,多个残差值包括第一残差值,第一残差值是指在第一模型中输入历史时间标识得到的目标对象的预测项目的初始预测值与目标对象的预测项目的真值之间的偏差。
在采集到训练数据之后,数据采集设备260将这些训练数据存入数据库230,训练设备220基于数据库230中维护的训练数据训练得到目标模型/规则201。
下面对训练设备220基于训练数据得到目标模型/规则201进行描述。
例如,训练设备220对输入的第一模型训练数据进行处理,将第一模型输出的目标对象的预测项目的预测初始值与目标对象的预测项目的真值进行对比,直到训练设备220输出的预测初始值与真值的差值小于一定的阈值,从而完成第一模型的训练。
需要说明的是,在实际的应用中,所述数据库230中维护的训练数据不一定都来自于数据采集设备260的采集,也有可能是从其他设备接收得到的。
另外需要说明的是,训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或设备中,如应用于图2所示的执行设备210,所述执行设备210可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR),车载终端等,还可以是服务器,或者,云端服务器等。在图2中,执行设备210配置输入/输出(input/output,I/O)接口212,用于与外部设备进行数据交互,用户可以通过客户设备240向I/O接口212输入数据,所述输入数据在本申请实施例中可以包括:客户设备输入的训练样本。
预处理模块213和预处理模块214用于根据I/O接口212接收到的输入数据进行预处理;在本申请实施例中,也可以没有预处理模块213和预处理模块214(也可以只有其中的一个预处理模块),而直接采用计算模块211对输入数据进行处理。
在执行设备210对输入数据进行预处理,或者在执行设备210的计算模块211执行计算等相关的处理过程中,执行设备210可以调用数据存储系统250中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统250中。
最后,I/O接口212将处理结果,比如,得到的目标对象的预测项目的预测结果返回给客户设备240,从而提供给用户。
值得说明的是,训练设备220可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则201,该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图2中所示情况下,在一种情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口212提供的界面进行操作。
另一种情况下,客户设备240可以自动地向I/O接口212发送输入数据,如果要求客户设备240自动发送输入数据需要获得用户的授权,则用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端,采集如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果作为新的样本数据,并存入数据库230。当然,也可以不经过客户设备240进行采集,而是由I/O接口212直接将如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果,作为新的样本数据存入数据库230。
值得注意的是,图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在图2中,数据存储系统250相对执行设备210是外部存储器;在其它情况下,也可以将数据存储系统250置于执行设备210中。
示例性地,本申请中的第一模型可以是指图1所示的个体模型;比如,第一模型可以是指树形集成模型;第二模型可以是指图1所示的群体模型;比如,第二模型可以是线性模型,或者神经网络模型。
图3是本申请实施例提供的一种芯片的硬件结构的示意图。
如图3所示,该芯片包括神经网络处理器300(neural-network processing unit,NPU);该芯片可以被设置在如图2所示的执行设备210中,用以完成计算模块211的计算工作。该芯片也可以被设置在如图2所示的训练设备220中,用以完成训练设备220的训练工作并输出目标模型/规则201。
神经网络处理器300作为协处理器挂载到主中央处理器(central processingunit,CPU)上,由主CPU分配任务;NPU300的核心部分为运算电路303,控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路303内部包括多个处理单元(process engine,PE)。
在一些实现中,运算电路303是二维脉动阵列;运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。
在一些实现中,运算电路303是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路303从权重存储器302中取矩阵B相应的数据,并缓存在运算电路303中每一个PE上。运算电路303从输入存储器301中获取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器308(accumulator)中。向量计算单元307可以对运算电路303的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。
例如,向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local responsenormalization)等。
在一些实现中,向量计算单元能307将经处理的输出的向量存储到统一存储器306。例如,向量计算单元307可以将非线性函数应用到运算电路303的输出;例如,累加值的向量,用以生成激活值。
在一些实现中,向量计算单元307生成归一化的值、合并值,或二者均有。
在一些实现中,处理过的输出的向量能够用作到运算电路303的激活输入,例如用于在神经网络中的后续层中的使用。
示例性地,统一存储器306可以用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器305(direct memory access controller,DMAC)将外部存储器中的输入数据存入至输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302,以及将统一存储器306中的数据存入外部存储器。
示例性地,总线接口单元310(bus interface unit,BIU)可以用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。
示例性地,与控制器304连接的取指存储器309(instruction fetch buffer)可以用于存储控制器304使用的指令。控制器304可以用于调用取指存储器309中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器306,输入存储器301,权重存储器302以及取指存储器309均可以为片上(On-Chip)存储器;外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
需要说明的是,本申请实施例中的第一模型与第二模型中的运算可以由运算电路303或向量计算单元307执行。
目前,对中长期网络流量预测得到的网络流量预测值的准确性较低,从而导致无法有效地对网络资源进行合理规划。
有鉴于此,本申请提出了一种数据预测方法,在对目标对象的预测项目进行预测时,可以根据预先训练的第一模型输出的初始预测值;通过预先训练的第二模型可以在一定程度对第一模型输出的初始预测值进行修正,即输出偏差值;通过目标对象的预测项目的初始预测值与偏差值得到的预测结果可以同时满足目标对象的个体特性以及目标对象所属目标分类的群体特性,从而提升预测项目对象的预测项目的准确性。
图4是应用本申请实施例的数据预测方法的系统架构。该系统架构400可以包括本地设备420、本地设备430以及执行设备410和数据存储系统450,其中,本地设备420和本地设备430可以通过通信网络与执行设备410连接。
其中,执行设备410可以由一个或多个服务器实现。可选的,执行设备410可以与其它计算设备配合使用;例如:数据存储器、路由器、负载均衡器等设备。执行设备410可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备410可以使用数据存储系统450中的数据,或者,调用数据存储系统450中的程序代码来实现本申请实施例的数据预测方法。
示例性地,数据存储系统450可以部署于本地设备420或者本地设备430中;例如,数据存储系统450可以用于存储用户的行为日志。
需要说明的是,上述执行设备410也可以称为云端设备,此时执行设备410可以部署在云端。
具体地,执行设备410可以执行以下过程:获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测与所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
通过上述过程执行设备410能够通过训练得到预先训练的第一模型与预先训练的第二模型,得到目标对象的预测项目的预测结果。
在一种可能的实现方式中,上述执行设备410方法可以是在云端执行的离线方法。
例如,用户可以操作各自的用户设备(例如,本地设备420和本地设备430)后可以将操作日志存储至数据存储系统450中,执行设备410可以调用数据存储系统450中的数据进行完成第一模型与第二模型的训练过程。其中,每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备410进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现方式中,本地设备420、本地设备430可以从执行设备410获取到预先训练的第一模型与预先训练的第二模型的相关参数,将预先训练的第一模型与预先训练的第二模型在本地设备420、本地设备430上,利用预先训练的第一模型与预先训练的第二模型对目标对象的预测项目进行预测,得到预测结果。
在另一种实现中,执行设备410上可以直接部署预先训练的第一模型与预先训练的第二模型,执行设备410通过从本地设备420和本地设备430获取目标时间信息,并根据预先训练的第一模型与第二模型得到目标对象的预测项目的预测结果。
示例性地,数据存储系统450可以是部署在本地设备420或者本地设备430中,用于存储本地设备的用户行为日志。
示例性地,数据存储系统450可以独立于本地设备420或本地设备430,单独部署在存储设备上,存储设备可以与本地设备进行交互,获取本地设备中用户的行为日志,并存入存储设备中。
下面结合图5至图8对本申请的实施例进行详细的描述。
图5是本申请实施例提供的数据预测方法的示意性流程图。图5所示的方法500包括步骤S510至步骤S540,下面分别对步骤S510至步骤S540进行详细的描述。
S510、获取目标时间信息。
其中,目标时间信息可以用于表示对目标对象的预测项目进行预测的时间信息。
应理解,上述目标时间信息可以是指待预测时间序列的时间特征,即预测项目对象的预测项目对应的时间点对应的时间特征张量。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的网络流量,目标时间信息可以是指待预测时间序列的时间特征;待预测时间序列可以是指未来一段时间目标基站小区的网络流量;比如,以日为粒度的情况下,预测未来某一天目标基站小区的网络流量输入特征为与这一天对应的时间特征。
在一种可能的实现方式中,目标对象的预测项目可以是指目标基站小区的物理资源块利用率,目标时间信息可以是指待预测时间序列的时间特征;待预测时间序列可以是指未来一段时间目标基站小区的物理资源块利用率;比如,以日为粒度的情况下,预测未来某一天目标基站小区的物理资源块利用率输入特征为与这一天对应的时间特征。
可选地,在一种可能的实现方式中,目标对象的预测项目可以包括以下中的任意一项:目标基站小区的网络流量、目标基站小区的物理资源块(physical resource block,PRB)利用率、目标基站小区的用户数量,或者也可以是目标门店的商品销售量以及目标网站的网页流量等。
应理解,上述为对目标对象的预测项目进行举例说明,本申请实施例提供的数据预测方法适用于各种中长期数据预测场景,本申请对目标对象的预测项目不作任何具体的限定。
示例性地,目标时间信息中包括的一项或者多项特征是与训练第一模型时使用的训练数据中历史时间信息对应的时间特征相对应的;也就是说,训练第一模型使用的历史时间信息可以是指时间序列中各历史时间点对应的时间特征张量;目标时间信息可以与历史时间信息中包括相同的张量。
示例性地,历史时间信息中可以包括但不限于以下中的一项或者多项:
festival:是否为节日,是1,否0;
holiday:是否为假日,是1,否0(包括节日放假和普通周末);
vacation:是否为寒暑假,是1,否0(可选);
time_corr:天序号(无限往后加),从1开始不断往后加,1,2,3...;
week_idx:周序号(无限往后加),从1开始不断往后加,1,2,3...;
day_in_holiday:假日的第几天;
day_in_workday:工作日的第几天;
days_to_next_workday:到下一个工作日的天数;
days_to_next_day_off:到下一个休息日的天数;
length_holiday:假日长度;
week_of_month:从每月1号开始算该月第几周,即1~7第一周,8~14第二周,...取值范围1~5。
S520、将目标时间信息输入至预先训练的第一模型,得到预测项目的初始预测值。
其中,第一模型用于在输入时间信息的情况下,预测时间信息对应的预测项目的初始预测值。
需要说明的是,预先训练的第一模型可以是指不同目标对象的个体模型,即可以通过一个目标对象的预测项目的历史数据以及历史数据对应的历史时间信息训练得到第一模型,第一模型可以用于表示预测项目的初始预测值与对应时间特征的关联关系。
可选地,在一种可能的实现方式中,第一模型是通过多个样本数据训练得到的,其中,多个样本训练数据中的一个样本训练数据包括某一历史时间信息的预测项目的样本值以及与该历史时间信息对应的样本时间特征,该历史时间信息对应的样本时间特征又可以称为样本时间特征张量。
例如,以目标对象的目标基站小区进行举例说明,可以是以某日的时间特征作为输入数据(即训练输入特征X),该日的目标基站小区的下行流量值(或者,PRB利用率,用户数等指标)作为输出数据(即训练标签y),以此构成一条训练样本。
S530、将目标时间标识输入至预先训练的第二模型,得到预测项目的偏差值。
其中,目标时间标识是根据目标时间信息得到的,第二模型用于在输入时间标识的情况下,预测时间标识对应的所述预测项目的偏差值,第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,多个残差值是指与目标对象为相同目标分类的多个对象输出的残差值,多个残差值包括第一残差值,第一残差值是指在第一模型中输入历史时间信息得到的预测项目的初始预测值与历史时间信息对应的预测项目的真值之间的差异,历史时间标识是根据历史时间信息得到的。
应理解,通过第二模型可以预测出一类目标对象在对预测项目进行预测时的偏差值,该偏差值可以是指理论上对目标对象的预测项目进行预测时,得到的初始预测值与目标对象的预测项目的未来真实值之间的差异。
示例性地,对训练第二模型的过程进行举例描述。假设,目标基站小区所属的目标分类即与目标基站小区具有相同属性的同一类基站小区中包括目标基站小区、基站小区A以及基站小区B;则获取历史时间信息A,将历史时间信息A输入至目标基站小区的第一模型,得到目标基站小区的第一模型输出的历史时间信息A对应的网络流量的初始预测值A;同理,将历史信息A分别输入至基站小区A的第一模型,得到基站小区A的第一模型输出的历史时间信息A对应的网络流量的初始预测值B;以及将历史信息A输入至基站小区B的第一模型,得到基站小区B的第一模型输出的历史时间信息A对应的网络流量的初始预测值C;同时,还可以获取目标基站小区在历史时间信息A对应的历史网络流量的真实值A,基站小区A在历史时间信息A对应的历史网络流量的真实值B,以及基站小区B在历史时间信息A对应的历史网络流量的真实值C;进一步能够得到3个残差值,即网络流量的初始预测值A与网络流量的真实值A之间的残差值、网络流量的初始预测值B与网络流量的真实值B之间的残差值以及网络流量的初始预测值C与网络流量的真实值C之间的残差值;训练第二模型的一个训练样本可以包括历史时间标识A与上述三个残差值。
其中,历史时间标识A可以是根据历史时间信息A得到的;比如,历史时间标识A可以是时间序号,比如,用于训练第二模型的数据集中的第一天时间标识可以为0,则可以历史时间信息A与时间基准确定历史时间标识A。
需要说明的是,第二模型的训练过程的具体步骤可以参见后续图6中的步骤S630,此处不再赘述。
应理解,第二模型可以是针对一类目标对象(例如,基站小区)训练的模型,即第二模型指根据一类目标对象学习一个统一的趋势因子,认为一类目标对象有更强的关联关系,拥有相对统一的变化趋势,从而建立针对一类目标对象的群体模型;通过第二模型可以预测出一类目标对象在对预测项目进行预测时的偏差值,该偏差值可以是指目标对象的预测项目的初始预测值与目标对象的预测项目的真实值之间的差异。
示例性地,目标时间标识可以是时间序号,比如,用于训练第二模型的评估数据集中的第一天时间标识可以为0,则可以待测目标的时间序列中的时间相对于评估集中的时间基准确定时间标识。
例如,评估集中第一天时间为6月1号对应的时间标识为0;可以从目标时间信息获取到时间为6月10号,则目标时间标识可以为9,即6月10号相对于时间基准6月1号的时间标识。
可选地,在一种可能的实现方式中,上述方法包括:对目标对象进行分类,得到目标分类;根据目标分类中包括的多个对象对应的预测项目的历史数据进行训练,得到第二模型。
示例性地,以第二模型为一类基站小区对应的群体模型进行举例说明;对于同一类基站小区的群体模型可以通过学习同一类小区的在评估集中的预测值与真实值的差值进行训练,得到差值与时间关联关系;真实值可以是指获取的评估集中样本基站小区的历史网络流量使用值;预测值可以是指将真实值对应的时间序列输入至基站小区的第一模型得到的预测流量值。
可选地,在一种可能的实现方式中,对目标对象进行分类,得到目标分类,包括:根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
例如,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性从而确定目标对象的目标分类,即确定多个对象中与目标对象属于同一目标分类的对象;其中,时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。
示例性地,目标对象可以是指目标基站小区,可以通过基于动态时间规整的kmeans算法对多个基站小区中各个基站小区的流量趋势,即根据各个基站小区的时间序列的相似性进行聚类,从而将多个基站小区分成若干类基站小区;即通过目标基站小区的时间序列可以确定目标基站小区所述的目标分类。
可选地,在一种可能的实现方式中,除上述通过时间序列进行分类之外,还可以加入目标对象的空间特征,即可以根据目标对象的时间序列以及空间特征确定目标对象的目标分类,其中,空间特征可以包括目标对象的空间坐标、目标对象的所在位置的功能区类型以及空间相似性等。
例如,可以根据目标对象的时间序列与其它多个对象的时间序列之间的相似性,以及目标对象的空间特征与其它多个对象的空间特征之间的相似性,从而确定目标对象的目标分类。
具体地,分类处理步骤可以参见后续图6中的步骤S620,此处不再赘述。
进一步地,在本申请的实施例中,为了提升各个第一模型的精度可以对第一模型进行模型的超参数优化。
可选地,在一种可能的实现方式中,第一模型是通过超参数优化处理后得到的模型。
示例性地,对于每一类目标对象而言预测项目的数据分布是相近的,为了进一步优化第一模型的精度,同时兼顾模型性能;本申请实施例中通过采用分类超参数优化的方式对目标对象的第一模型进行优化,即相同目标分类包括的多个对象对应的模型可以共享超参数,但各个对象对应的模型拥有各自独立的内部参数。
需要说明的是,与模型的内部参数相比,超参数是在机器学习训练之前设置的;极限梯度提升树模型的树数量是超参数,而神经网络中的权重是训练期间学习的模型参数。
可选地,在一种可能的实现方式中,第一模型与第二模型是指同一分层模型中包括的不同层次的模型。
在本申请的实施例中,第一模型与第二模型可以是指两个独立的模型,或者第一模型与第二模型也可以是指两个强耦合的模型;如图1所示,第一模型可以是指个体模型;第二模型可以是指群体模型;其中,个体学习与群体学习两个层之间相互耦合;对于不同目标对象而言,个体模型是相互独立的;对于不同分类的目标对象而言,群体模型是相互独立的。
S540、根据预测项目的初始预测值与预测项目的偏差值得到预测项目的预测结果。
应理解,在对目标对象的预测项目进行预测时,可以根据上述根据预先训练的第一模型输出的初始预测值;通过预先训练的第二模型可以在一定程度对第一模型输出的初始预测值进行修正即输出偏差值,通过目标对象的预测项目的初始预测值与偏差值得到的预测结果可以同时满足目标对象的个体特性以及目标对象所属目标分类的群体特性,从而提升预测项目对象的预测项目的准确性。
本申请实施例提供的数据预测方法可以包括模型训练阶段与模型在线预测阶段,下面分别结合图6至图8对两个阶段进行详细的说明。
训练阶段:
图6是本申请实施例提供的网络流量预测模型的训练方法的示意性流程图。该训练方法600可以由训练装置执行;例如,该训练方法可以由图2中的执行设备210执行,或者,图4中的执行设备410执行,或者,也可以由本地设备执行。包括步骤S610至步骤S640,下面分别对这些步骤进行详细的描述。
S610、获取训练数据。
示例性地,训练数据可以是指样本目标的历史数据;比如,样本目标可以是指指基站小区的网络流量、物理资源块(physical resource block,PRB)利用率、用户数等。
需要说明的是,图6是以样本目标为网络流量预测场景进行举例说明,本申请实施例的训练方法还可以应用于其它的中长期预测场景的模型,包括但不限于:销量预测模型,网站流量预测模型等多时序中长期预测场景。
在一个示例中,对于网络流量预测场景中,获取的训练数据可以包括:多个样本基站小区的历史流量值以及历史流量值对应的时间特征。
在一个示例中,对于门店的销量预测的场景中,获取的训练数据可以包括:多个样本门店的历史销量值以及与历史销量值对应的时间特征。
示例性地,以获取的历史流量值为某一天一个样本基站小区的历史网络流量使用量为例进行说明,则时间特征中可以包括但不限于以下中的一项或者多项:
festival:是否为节日,是1,否0;
holiday:是否为假日,是1,否0(包括节日放假和普通周末);
vacation:是否为寒暑假,是1,否0(可选);
time_corr:天序号(无限往后加),从1开始不断往后加,1,2,3...;
week_idx:周序号(无限往后加),从1开始不断往后加,1,2,3...;
day_in_holiday:假日的第几天;
day_in_workday:假日的第几天;
days_to_next_workday:假日的第几天;
days_to_next_day_off:假日的第几天;
length_holiday:假日长度;
week_of_month:从每月1号开始算该月第几周,即1~7第一周,8~14第二周,...取值范围1~5。
例如,如图7所示,可以根据获取的训练数据即输入数据生成样本时间特征组合张量;其中,样本时间特征组合张量可以包括上述一项或者多项时间维度特征;此外,组合张量中还可以包括空间维度特征,比如,空间维度特征可以包括:土地利用、灯光以及信息点(point of information,POI)等,每个POI可以包含四方面信息,名称、类别、坐标、分类,全面的POI讯息能提醒用户路况的分支及周边建筑的详尽信息。
应理解,对于销售预测的场景中,历史销量值对应的时间序列也可以包括以上一项或者多项特征。
进一步地,可以根据各个样本基站小区的样本时间特征组合张量以及样本时间特征组合张量对应的历史流量值可以得到多个小区中每个样本基站小区的历史流量值与时间特征的关联关系,该关联关系可以用于表示一个样本基站小区的网络流量使用量随时间的变换趋势。
步骤620、分类处理。
其中,分类处理是指对多个样本基站小区进行聚类。
在一个示例中,可以根据目标基站小区的时间序列与其它多个样本基站小区的时间序列之间的相似性从而确定目标基站小区所属的分类,即确定多个样本基站小区中与目标基站小区属于同一目标分类的样本基站小区;其中,时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。
应理解,对于时间序列具有相似性的基站小区通常所处的场景也类似,网络流量使用值的特征规律也类似;通过对多个样本基站小区进行聚类,便于后续学习一类样本基站小区的流量趋势因子;通常情况下对于同一类的样本基站小区具有更强的关联关系,拥有相对统一的网络流量变化趋势;因此,分类处理的目标在于将时间序列相似的样本基站小区划分在同一类。
在另一个示例中,可以根据时间序列的相似性以及空间特征的相似性进行多个样本基站小区的分类;即可以根据目标基站小区的时间序列与其它多个样本基站小区的时间序列之间的相似性,以及目标基站小区的空间特征与其它多个样本基站小区的空间特征之间的相似性,从而确定目标基站小区所属的分类;其中,空间特征可以包括目标基站小区的空间坐标、目标基站小区的所在位置的功能区类型以及目标基站小区与其它基站小区空间相似性。
示例性地,可以通过基于动态时间规整(dynamic time warping,DTW)的kmeans算法对多个样本基站小区中各个样本基站小区的流量趋势,即根据各个样本基站小区的历史流量值以及历史流量值对应的时间特征的关联关系进行聚类,从而将多个样本基站小区分成若干类基站小区。
为确定最优的类别数量,可使用k取n时和k取(n+1)时kmeans各类别数据的误差平方和变化率小于某一阈值为指标获取最优的k值(n>1,阈值可以为10%)。此处亦可使用地理探测器的q值的变化率替代误差平方和变化率。此外,聚类算法也可以采用k-shape算法以提升计算效率。
需要说明的是,在分类处理过程中加入空间特征时,k-shape算法可能不再适用;可以选用其他非监督分类方法,比如,kmeans算法,或者具有噪声的基于密度的聚类方法(density-based spatial custering of applications with noise,DBSCAN)等。
S630、分层模型训练。
需要说明的是,分层模型训练包括训练每个样本基站小区的个体模型以及训练同一类小区的群体模型;其中,个体模型用于表示一个样本基站小区的网络流量值与对应时间特征的关联关系;群体模型用于表示一类小区的网络流量趋势与时间的关联关系,群体模型是根据同一类基站小区学习一个统一的趋势因子,认为同一类的小区有更强的关联关系,拥有相对统一的变化趋势,从而建立针对同一类小区的群体模型。
应理解,目标基站小区的个体模型可以是指图5中所示的第一模型;目标基站所述目标分类对应的群体模型可以是指图5所示的第二模型。
示例性地,对于各个样本基站小区的个体模型可以通过一个样本基站小区的历史流量值以及与历史流量值对应的时间序列进行训练,得到时间序列与网络流量的关联关系。
例如,每个样本基站小区对应的个体模型,可以是以某日的时间特征作为输入数据(即训练输入特征X),该日的下行流量值(或PRB利用率,用户数等指标)作为输出数据(即训练标签y),以此构成一条训练样本。
如图7所示,对于基站小区C1通过训练可以得到个体模型1、对于基站小区C2通过训练可以得到个体模型2;类似地,对于基站小区Cm通过训练可以得到个体模型m。
示例性地,对于同一类基站小区的群体模型可以通过学习同一类小区的在评估集中的预测值与真实值的差值进行训练,得到差值与时间关联关系;真实值可以是指获取的评估集中样本基站小区的历史网络流量使用值;预测值可以是指将真实值对应的时间序列输入至基站小区的个体模型得到的预测流量值。
例如,群体模型可以用于表示差值与时间的线性趋势,也可以用更复杂的方式拟合出非线性变化趋势。
例如,群体模型可以用于表示无截距项的时间的函数关系,可以表示为s*f(t),s为系数,t为以评估集为起始(即评估集第一天t=0)的时间序号(粒度与原始数据相同,即如果原始数据为天粒度,则此处为天序号),f(t)可以为线性形式,也可以为对数形式等。参数s可通过拟合得到的,或者,通过网格搜索使群体模型达到优化目标得到的。
进一步地,在本申请的实施例中,为了提升各个基站小区的个体模型的精度可以对个体模型进行模型的超参数优化。
示例性地,对于每一类目标对象而言预测项目的数据分布是相近的,为了进一步优化第一模型的精度,同时兼顾模型性能;本申请实施例中通过采用分类超数参优化的方式对目标对象的第一模型进行优化,即相同目标分类包括的多个对象对应的模型可以共享超参数,但各个对象对应的模型拥有各自独立的内部参数。
应理解,与个体模型的内部参数相比,超参数可以是在机器学习训练之前设置的;例如,极限梯度提升树模型中的树数量可以是超参数,而个体模型的内部参数是训练期间学习的模型参数。
例如,在进行分类超参优化时,可以采用时间跨度为至少一个月的评估数据集,以周平均流量的平均绝对百分比误差(mean absolute percentage error,MAPE)小于20%的小区占比最大作为优化目标(20%为典型值,亦可根据业务目标设置为15%,或者其他值);超参数优化的方法可以选择贝叶斯超参优化方法,或者,网格超参优化方法等。
在一种可能的实现方式中,若基站小区的网络流量的计算效率要求较高,也可以不对个体模型进行超参优化;比如,个体模型可以采用类似catboost的机器学习算子时默认参数已经可以实现较好地预测效果。
S640、模型训练完成。
在本申请的实施例中,通过上述训练方法可以得到预先训练的个体模型以及预先训练的群体模型;在对目标基站小区的网络流量进行预测时,可以根据上述目标基站小区对应的预先训练的个体模型以及目标基站小区所属分类对应的预先训练的群体模型得到目标基站小区网络流量的预测值,目标基站小区的网络流量预测值是根据预先训练的个体模型输出的个体预测值与预先训练的群体模型输出的群体趋势值得到的;通过群体趋势项可以在一定程度对个体模型输出的个体预测值进行修正,即通过分层学习的方式使目标基站小区的网络流量预测结果同时满足个体特性和群体特性,从而提升网络流量预测的准确性。
预测阶段:
图8是本申请实施例提供的网络流量预测方法的示意图。该训练方法700可以由预测装置执行;例如,该方法可以由图2中的执行设备210执行,或者,图4中的执行设备410执行,或者,也可以由本地设备420执行。包括步骤S710至步骤S740,下面分别对这些步骤进行详细的描述。
S710、获取待预测时间序列的时间特征,即获取目标时间信息。
示例性地,目标对象的预测项目可以是指目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数;或者也可以是目标门店的商品销售量以及目标网站的网页流量等。
需要说明的是,图8是以网络流量预测场景进行举例说明,本申请实施例的预测方法还可以应用于其它的中长期预测场景,包括但不限于:销量预测,网站流量预测等多时序中长期预测场景。
在一个示例中,对目标门店的商品销量,可以根据目标门店的时间序列以及目标门店的空间特征对目标门店进行分类,再进行分层预测得到预测结果。
在一个示例中,对于目标网站的网页流量进行预测,虽然一般而言没有空间特征,但可以直接使用历史时间序列进行分类,然后进行分层预测。
示例性地,待预测时间序列的时间特征中包括的一项或者多项特征是与训练个体模型时使用的训练数据中历史时刻对应的时间特征相对应的;因此,预测时间特征中可以包括但不限于以下中的一项或者多项:
festival:是否为节日,是1,否0;
holiday:是否为假日,是1,否0(包括节日放假和普通周末);
vacation:是否为寒暑假,是1,否0(可选);
time_corr:天序号(无限往后加),从1开始不断往后加,1,2,3...;
week_idx:周序号(无限往后加),从1开始不断往后加,1,2,3...;
day_in_holiday:假日的第几天;
day_in_workday:工作日的第几天;
days_to_next_workday:到下一个工作日的天数;
days_to_next_day_off:到下一个休息日的天数;
length_holiday:假日长度;
week_of_month:从每月1号开始算该月第几周,即1~7第一周,8~14第二周,...取值范围1~5。
换而言之,可以根据需要预测网络流量的未来的某一天是否为节日、是否为假日、是否为寒暑假、天序号、周序号、假日的第几天、假日的第几天、假日的第几天、假日的第几天、假日长度以及当月第几周中的一项或者多项生成该目标基站小区的时间特征组合张量。
S720、目标个体模型处理。
例如,通过目标基站小区可以确定目标基站小区对应的预先训练的个体模型;可以将获取的待预测时间序列的时间特征输入至目标个体模型中,从而得到预测项目的初始预测值即个体项预测值;个体项预测值可以用于表示基于目标基站小区的历史时间特征与历史时间特征对应的历史流量值通过机器学习算子拟合得到流量趋势输出的未来时间该目标基站小区的预测流量值。
S730、目标群体模型处理。
例如,根据该目标基站小区可以确定该目标基站小区对应的目标群体模型;比如,在训练阶段对多个基站小区进行分类,进而得到的同一类基站小区对应的预先训练的群体模型。
示例性地,可以是根据目标基站小区的标识信息确定目标基站小区所属的分类;进而根据目标基站小区所属的分类确定目标群体模型。
进一步,可以根据待预测时间序列的时间特征确定目标时间标识,可以将目标时间标识输入至预先训练的目标群体模型,得到预测项目的偏差值即群体趋势预测值;群体趋势预测值可以用于表示目标个体模型输出的预测值与目标基站小区的真实流量使用值的差异,群体趋势预测值是通过某一类基站小区机器学习算子预测值与真实值的差值随时间的变化拟合而成的。
应理解,目标群体模型用于表示时间标识与偏差值之间的关联关系,其中,偏差值是指个体模型对于基站小区的网络流量预测值与基站小区的网络真值之间的差异;因此,时间标识可以是时间序号,比如,用于训练群体模型的评估数据集中的第一天时间标识可以为0,则可以待测目标的时间序列中的时间相对于评估集中的时间基准确定时间标识。
例如,评估集中第一天时间为6月1号对应的时间标识为0;根据待预测时间序列的时间特征获取到时间为6月10号,则目标时间标识可以为9,即6月10号相对于时间基准6月1号的时间标识。
需要说明的是,S730与S740可以是同时执行,或者,也可以是先执行S740再执行S730,本申请对S730与S740的先后顺序不作任何限定。
S740、输出预测结果。
示例性地,每个目标基站小区的待预测时间序列的时间特征对应的网络流量由该目标基站小区规律项预测值和目标基站小区所在类别的趋势项预测值相加得到。
例如,目标基站小区的预测结果可由以下式子表达:
f(t)=C(t)+S(t);
其中,f(t)表示最终的流量预测值,C(t)表示群体趋势项,S(t)表示个体规律项。其中,个体规律项由目标基站小区的根据时间序列通过机器学习算子拟合得到,群体趋势项利用根据同一类小区机器学习算子预测值与真实值的差值随时间的变化拟合而成。
在本申请的实施例中,在对目标基站小区的网络流量进行预测时,目标基站小区的网络流量预测值是根据预先训练的个体模型输出的个体预测值与预先训练的群体模型输出的群体趋势值得到的;通过群体趋势项可以在一定程度对个体模型输出的个体预测值进行修正,即通过分层学习的方式使目标基站小区的网络流量预测结果同时满足个体特性和群体特性,从而提升网络流量预测的准确性。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
上文结合图1至图8,详细描述了本申请实施例提供的数据预测方法;下面将结合图9至图10,详细描述本申请的装置实施例。应理解,本申请实施例中的数据预测装置可以执行前述本申请实施例的各种数据预测方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图9是本申请提供的数据预测装置的示意性框图。
应理解,数据预测装置800可以执行图5至图8所示的方法。该数据预测装置800包括:获取单元810和处理单元820。
其中,获取单元810用于获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;处理单元820用于将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
可选地,作为一个实施例,所述处理单元820还用于:
对所述目标对象进行分类,得到所述目标分类;
根据所述目标分类中包括的多个对象对应的所述预测项目的历史数据进行训练,得到所述第二模型。
可选地,作为一个实施例,所述处理单元820具体用于:
根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
可选地,作为一个实施例,所述处理单元820具体用于:
根据所述目标对象的所述时间序列与所述目标对象的空间特征,得到所述目标分类,其中,所述空间特征包括所述目标对象的空间坐标、所述目标对象的所在位置的功能区类型以及空间相似性。
可选地,作为一个实施例,所述第一模型是通过多个样本数据训练得到的,其中,所述多个样本训练数据中的一个样本训练数据包括所述历史时间信息以及与所述历史时间信息对应的所述目标对象的预测项目的历史数据。
可选地,作为一个实施例,所述第一模型是通过超参数优化处理后得到的模型,所述超参数优化处理中的超参数是根据所述目标分类确定的。
可选地,作为一个实施例,所述第一模型与所述第二模型是指同一分层模型中包括的不同层的模型。
可选地,作为一个实施例,所述目标对象的预测项目包括以下中的任意一项:
目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的商品销售量以及目标网站的网页流量。
需要说明的是,上述处理装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图10是本申请实施例提供的数据预测装置的硬件结构示意图。
图10所示的数据预测装置900(该数据预测装置900具体可以是一种计算机设备)包括存储器910、处理器920、通信接口930以及总线940。其中,存储器910、处理器920、通信接口930通过总线940实现彼此之间的通信连接。
存储器910可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器910可以存储程序,当存储器910中存储的程序被处理器920执行时,处理器920用于执行本申请实施例的数据预测方法的各个步骤;例如,执行图5至图8所示的各个步骤。
应理解,本申请实施例所示的数据预测装置可以是计算设备,也可以是配置于云端的计算设备中的芯片。
其中,计算设备可以为具有数据预测功能的设备,例如,可以包括当前技术已知的任何计算功能的设备,例如,服务器、计算机等等;或者,计算设备还可以是指具有计算功能的芯片;比如,配置于服务器中的芯片、计算机中的芯片。计算设备中可以包括存储器和处理器;存储器可以用于存储程序代码,处理器可以用于调用存储器存储的程序代码,以实现计算设备的相应功能。计算设备中包括的处理器和存储器可以通过芯片实现,此处不作具体的限定。
例如,存储器可以用于存储本申请实施例中提供的数据预测方法的相关程序指令,处理器可以用于调用存储器中存储的数据预测方法的相关程序指令。
处理器920可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序以实现本申请方法实施例的数据预测方法。
处理器920还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的数据预测方法的各个步骤可以通过处理器920中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器920还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器910,处理器920读取存储器910中的信息,结合其硬件完成本申请实施中图9所示的数据预测装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图5至图8所示的数据预测方法。
通信接口930使用例如但不限于收发器一类的收发装置,来实现数据预测装置900与其他设备或通信网络之间的通信。
总线940可包括在数据预测装置900各个部件(例如,存储器910、处理器920、通信接口930)之间传送信息的通路。
应注意,尽管上述数据预测装置900仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,数据预测装置900还可以包括实现正常运行所必须的其他器件。同时,根据具体需要本领域的技术人员应当理解,上述数据预测装置900还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,上述数据预测装置900也可仅仅包括实现本申请实施例所必须的器件,而不必包括图10中所示的全部器件。
示例性地,本申请实施例还提供一种芯片,该芯片包括收发单元和处理单元。其中,收发单元可以是输入输出电路、通信接口;处理单元为该芯片上集成的处理器或者微处理器或者集成电路;该芯片可以执行上述方法实施例中的数据预测方法。
示例性地,本申请实施例还提供一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中的数据预测方法。
示例性地,本申请实施例还提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中的数据预测方法。
应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种数据预测方法,其特征在于,包括:
获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;
将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测与所述时间信息对应的所述预测项目的初始预测值;
将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;
根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
2.如权利要求1所述的方法,其特征在于,还包括:
对所述目标对象进行分类,得到所述目标分类;
根据所述目标分类中包括的多个对象对应的所述预测项目的历史数据进行训练,得到所述第二模型。
3.如权利要求2所述的方法,其特征在于,所述对所述目标对象进行分类,得到所述目标分类,包括:
根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
4.如权利要求3所述的方法,其特征在于,所述根据所述目标对象的时间序列,得到所述目标分类,包括:
根据所述目标对象的所述时间序列与所述目标对象的空间特征,得到所述目标分类,其中,所述空间特征包括所述目标对象的空间坐标、所述目标对象的所在位置的功能区类型以及空间相似性。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述第一模型是通过多个样本数据训练得到的,其中,所述多个样本训练数据中的一个样本训练数据包括所述历史时间信息以及与所述历史时间信息对应的所述预测项目的历史数据。
6.如权利要求1至5中任一项所述的方法,其特征在于,所述第一模型是通过超参数优化处理后得到的模型,所述超参数优化处理中的超参数是根据所述目标分类确定的。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述第一模型与所述第二模型是指同一分层模型中包括的不同层的模型。
8.如权利要求1至7中任一项所述的方法,其特征在于,所述目标对象的预测项目包括以下中的任意一项:
目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的商品销售量以及目标网站的网页流量。
9.一种数据预测装置,其特征在于,包括:
获取单元,用于获取目标时间信息,所述目标时间信息用于表示对目标对象的预测项目进行预测对应的时间信息;
处理单元,用于将所述目标时间信息输入至预先训练的第一模型,得到所述预测项目的初始预测值,其中,所述第一模型用于在输入时间信息的情况下,预测所述时间信息对应的所述预测项目的初始预测值;将目标时间标识输入至预先训练的第二模型,得到所述预测项目的偏差值,其中,所述目标时间标识是根据所述目标时间信息得到的,所述第二模型用于在输入时间标识的情况下,预测所述时间标识对应的所述预测项目的偏差值,所述第二模型是通过机器学习算法或者统计算法学习多个残差值与历史时间标识的关联关系得到的,所述多个残差值是指与所述目标对象为相同目标分类的多个对象输出的残差值,所述多个残差值包括第一残差值,所述第一残差值是指在所述第一模型中输入历史时间信息得到的所述预测项目的初始预测值与所述历史时间信息对应的所述预测项目的真值之间的差异,所述历史时间标识是根据所述历史时间信息得到的;根据所述预测项目的初始预测值与所述预测项目的偏差值得到所述预测项目的预测结果。
10.如权利要求9所述的装置,其特征在于,所述处理单元还用于:
对所述目标对象进行分类,得到所述目标分类;
根据所述目标分类中包括的多个对象对应的所述预测项目的历史数据进行训练,得到所述第二模型。
11.如权利要求10所述的装置,其特征在于,所述处理单元具体用于:
根据所述目标对象的时间序列,得到所述目标分类,所述时间序列用于表示所述目标对象的预测项目的历史数据随时间的变化趋势。
12.如权利要求11所述的装置,其特征在于,所述处理单元具体用于:
根据所述目标对象的所述时间序列与所述目标对象的空间特征,得到所述目标分类,其中,所述空间特征包括所述目标对象的空间坐标、所述目标对象的所在位置的功能区类型以及空间相似性。
13.如权利要求9至12中任一项所述的装置,其特征在于,所述第一模型是通过多个样本数据训练得到的,其中,所述多个样本训练数据中的一个样本训练数据包括所述历史时间信息以及与所述历史时间信息对应的所述预测项目的历史数据。
14.如权利要求9至13中任一项所述的装置,其特征在于,所述第一模型是通过超参数优化处理后得到的模型,所述超参数优化处理中的超参数是根据所述目标分类确定的。
15.如权利要求9至14中任一项所述的装置,其特征在于,所述第一模型与所述第二模型是指同一分层模型中包括的不同层的模型。
16.如权利要求9至15中任一项所述的装置,其特征在于,所述目标对象的预测项目包括以下中的任意一项:
目标基站小区的网络流量、目标基站小区的物理资源块利用率、目标基站小区的用户数量、目标门店的商品销售量以及目标网站的网页流量。
17.一种数据预测装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器与所述存储器耦合,用于读取并执行所述存储器中的指令,以执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读介质,其特征在于,所述计算机可读介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
CN202010817375.2A 2020-08-14 2020-08-14 数据预测方法以及数据预测装置 Pending CN114077912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010817375.2A CN114077912A (zh) 2020-08-14 2020-08-14 数据预测方法以及数据预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010817375.2A CN114077912A (zh) 2020-08-14 2020-08-14 数据预测方法以及数据预测装置

Publications (1)

Publication Number Publication Date
CN114077912A true CN114077912A (zh) 2022-02-22

Family

ID=80280571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010817375.2A Pending CN114077912A (zh) 2020-08-14 2020-08-14 数据预测方法以及数据预测装置

Country Status (1)

Country Link
CN (1) CN114077912A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693371A (zh) * 2022-05-31 2022-07-01 深圳星坊科技有限公司 门店数据分析方法、装置、计算机设备和存储介质
CN116595102A (zh) * 2023-07-17 2023-08-15 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统
CN116709356A (zh) * 2022-09-05 2023-09-05 荣耀终端有限公司 一种流量预测方法、装置及系统
WO2024208167A1 (zh) * 2023-04-07 2024-10-10 维沃移动通信有限公司 信息处理方法、信息处理装置、终端及网络侧设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548016A (zh) * 2016-10-24 2017-03-29 天津大学 基于张量时域相关性分解模型的时间序列分析方法
CN107426759A (zh) * 2017-08-09 2017-12-01 广州杰赛科技股份有限公司 新增基站数据业务量的预测方法和系统
CN111030869A (zh) * 2019-12-20 2020-04-17 锐捷网络股份有限公司 一种网络流量的预测方法及预测装置
CN111047425A (zh) * 2019-11-25 2020-04-21 中国联合网络通信集团有限公司 一种行为预测方法及装置
CN111340554A (zh) * 2020-02-28 2020-06-26 上海明略人工智能(集团)有限公司 一种菜品定价处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548016A (zh) * 2016-10-24 2017-03-29 天津大学 基于张量时域相关性分解模型的时间序列分析方法
CN107426759A (zh) * 2017-08-09 2017-12-01 广州杰赛科技股份有限公司 新增基站数据业务量的预测方法和系统
CN111047425A (zh) * 2019-11-25 2020-04-21 中国联合网络通信集团有限公司 一种行为预测方法及装置
CN111030869A (zh) * 2019-12-20 2020-04-17 锐捷网络股份有限公司 一种网络流量的预测方法及预测装置
CN111340554A (zh) * 2020-02-28 2020-06-26 上海明略人工智能(集团)有限公司 一种菜品定价处理方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693371A (zh) * 2022-05-31 2022-07-01 深圳星坊科技有限公司 门店数据分析方法、装置、计算机设备和存储介质
CN116709356A (zh) * 2022-09-05 2023-09-05 荣耀终端有限公司 一种流量预测方法、装置及系统
CN116709356B (zh) * 2022-09-05 2024-07-26 荣耀终端有限公司 一种流量预测方法、装置及系统
WO2024208167A1 (zh) * 2023-04-07 2024-10-10 维沃移动通信有限公司 信息处理方法、信息处理装置、终端及网络侧设备
CN116595102A (zh) * 2023-07-17 2023-08-15 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统
CN116595102B (zh) * 2023-07-17 2023-10-17 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统

Similar Documents

Publication Publication Date Title
CN110363449B (zh) 一种风险识别方法、装置及系统
CN114077912A (zh) 数据预测方法以及数据预测装置
CN107358247B (zh) 一种确定流失用户的方法及装置
Alsolami et al. Hybrid statistical and machine learning methods for road traffic prediction: A review and tutorial
CN111091196B (zh) 客流数据确定方法、装置、计算机设备和存储介质
Peng et al. Lifelong property price prediction: A case study for the toronto real estate market
Bin et al. Attention-based multi-modal fusion for improved real estate appraisal: a case study in Los Angeles
CN116186548B (zh) 电力负荷预测模型训练方法及电力负荷预测方法
Wang et al. On prediction of traffic flows in smart cities: a multitask deep learning based approach
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
Belhadi et al. SS-ITS: Secure scalable intelligent transportation systems
Alkan et al. Using machine learning algorithms for predicting real estate values in tourism centers
CN117077928A (zh) 网约车需求预测方法、装置、设备及存储介质
CN114118410A (zh) 图结构的节点特征提取方法、设备及存储介质
CN114254762A (zh) 可解释性机器学习模型构建方法、装置和计算机设备
Sun et al. Big data trip classification on the New York City taxi and Uber sensor network
CN116894721A (zh) 一种指标预测方法、装置、计算机设备
CN116681470A (zh) 门店选址方法、装置、计算机设备、存储介质和产品
Zhang et al. Optimization and application of clustering algorithm in community discovery
Ma et al. An equidistance index intuitionistic fuzzy c-means clustering algorithm based on local density and membership degree boundary
Xue et al. Urban population density estimation based on spatio‐temporal trajectories
Filali et al. Real-time parking availability classification on a large-area scale
Chandrayan et al. Atmospheric weather fluctuation prediction using machine learning
KR20190117857A (ko) 신뢰 지수의 시간 의존 특징을 이용한 신뢰지수 예측 방법 및 시스템
CN105868435B (zh) 一种基于线性相关性分析实现光网络建设的高效控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination