CN108960431A - 指标的预测、模型的训练方法及装置 - Google Patents

指标的预测、模型的训练方法及装置 Download PDF

Info

Publication number
CN108960431A
CN108960431A CN201710378094.XA CN201710378094A CN108960431A CN 108960431 A CN108960431 A CN 108960431A CN 201710378094 A CN201710378094 A CN 201710378094A CN 108960431 A CN108960431 A CN 108960431A
Authority
CN
China
Prior art keywords
object element
element region
data
unit area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710378094.XA
Other languages
English (en)
Inventor
付俊强
李佩
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201710378094.XA priority Critical patent/CN108960431A/zh
Priority to PCT/CN2017/104129 priority patent/WO2018214361A1/en
Publication of CN108960431A publication Critical patent/CN108960431A/zh
Priority to US16/658,587 priority patent/US20200050938A1/en
Pending legal-status Critical Current

Links

Classifications

    • G06Q50/40
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本公开实施例提供一种指标的预测、模型的训练方法及装置,涉及机器学习技术领域,所述方法的一具体实施方式包括:确定多个目标单元区域;获取目标模型;基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据,以得到预测集合。从而可以对预测集合进行预设的统计分析,得到目标指标的统计结果。该实施方式无需人为划分管理区域,也无需计算每个管理区域在一定历史时段指标数据的均值,从而提高了指标的预测和统计结果的可靠性以及准确度。

Description

指标的预测、模型的训练方法及装置
技术领域
本公开实施例涉及机器学习技术领域,特别涉及一种指标的预测、模型的训练方法及装置。
背景技术
随着大数据以及互联网应用技术的不断发展,使人们的生活愈加便利,某些时候需要对一个指标进行区域性预测和统计。以O2O(Online To Offline,在线离线/线上到线下)服务为例,经常需要对诸如服务需求、服务供给等指标进行区域性预测和统计。目前,一般由人为划分一些管理区域,然后针对人为划分的每个管理区域,获取相应的历史数据,并基于该历史数据计算出每个管理区域在一定历史时段的均值,将该均值作为管理区域相应的预测和统计指标数据。但是,上述预测和统计的方式具有一定的局限性,使得指标的预测和统计结果的可靠性以及准确度较低。
发明内容
为了解决上述技术问题,本公开实施例提供了一种指标的预测、模型的训练方法及装置。
根据本公开实施例的第一方面,提供一种指标的预测方法,包括:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
根据本公开实施例的第二方面,提供一种指标预测模型的训练方法,包括:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
根据本公开实施例的第三方面,提供一种指标的预测装置,包括:
确定单元,被配置为确定多个目标单元区域;
获取单元,被配置为获取目标模型;
预测单元,被配置为基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
根据本公开实施例的第四方面,提供一种指标预测模型的训练装置,包括:
选取单元,被配置为从预先划分的单元区域中选取目标单元区域;
获取单元,被配置为获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
训练单元,被配置为采用所述样本信息训练出目标模型。
根据本公开实施例的第五方面,提供一种计算机存储介质,所述存储介质中存储有程序指令,所述指令包括:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
根据本公开实施例的第六方面,提供一种计算机存储介质,所述存储介质中存储有程序指令,所述指令包括:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
根据本公开实施例的第七方面,提供一种电子设备,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
根据本公开实施例的第八方面,提供一种电子设备,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例提供的指标的预测方法和装置,通过确定多个目标单元区域,获取目标模型,基于目标模型预测每个目标单元区域在指定时段对应的目标指标数据,以得到预测集合。从而可以对预测集合进行预设的统计分析,得到目标指标的统计结果,无需人为划分管理区域,也无需计算每个管理区域在一定历史时段指标数据的均值,从而提高了指标的预测和统计结果的可靠性以及准确度。
本公开的实施例提供的指标预测模型的训练方法和装置,通过从预先划分的单元区域中选取目标单元区域,获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息,并采用样本信息训练出目标模型。从而得到了可以用于预测单元区域的指标的模型,由于无需人为划分管理区域,并将实时的影响因素考虑在内,因此,提高了指标的预测和统计结果的可靠性以及准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种指标的预测方法的流程图;
图2是本公开根据一示例性实施例示出的另一种指标的预测方法的流程图;
图3是本公开根据一示例性实施例示出的一种指标预测模型的训练方法的流程图;
图4是本公开根据一示例性实施例示出的另一种指标预测模型的训练方法的流程图;
图5是本公开根据一示例性实施例示出的一种指标的预测的装置框图;
图6是本公开根据一示例性实施例示出的一种指标预测模型的训练装置框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,图1是根据一示例性实施例示出的一种指标的预测方法的流程图,该方法可以应用于终端设备中,也可以应用于服务器中。该方法包括以下步骤:
在步骤101中,确定多个目标单元区域。
在本实施例中,可以预先将待统计区域划分为多个紧密相连的正多边形区域,形成正多边形网状结构,每个正多边形区域作为一个单元区域。该正多边形区域可以是正六边形区域(如蜂窝状),也可以是正三角形区域,还可以是正四角形区域。可以理解,还可以通过其它任意合理的方式划分单元区域,本公开对此方面不限定。其中,待统计区域可以是任意合理的行政区域(例如,全国,省,市,或者区等),或者地理区域等等,本公开对待统计区域具体类别和属性方面不限定。
在本实施例中,目标单元区域为从预先划分的单元区域中选取的满足预设条件的单元区域。具体来说,在一种实现方式中,满足预设条件的单元区域可以包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。其中,预设历史时间段可以是当前之前的预设时间段,例如,前一周,或者前一个月,或者前一年等等。本公开对预设历史时间段的具体设置方面不限定。指定统计数据可以是任意合理的统计数据,例如,针对某些O2O服务,某个单元区域在预设历史时间段内对应的指定统计数据可以是该单元区域在预设历史时间段内所产生的订单总数量。可以理解,本公开对指定统计数据的具体类型方面不限定。
在本实施例中,目标阈值为针对一个单元区域在预设历史时间段内对应的指定统计数据得到的一个阈值。例如,可以预先根据经验针对一个单元区域在预设历史时间段内对应的指定统计数据设定一个固定的阈值作为目标阈值。
又例如,还可以首先统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,可以根据经验设定一个比例阈值,将该总和与该比例阈值的乘积作为目标阈值。如,假设将待统计区域划分为100个单位区域,预先设定一个比例阈值为2%,统计在前一个月所有单元区域对应的订单总数为1000,计算出1000*2%=20,可以将20作为目标阈值。
可以理解,还可以通过其它方式确定目标阈值,本公开对目标阈值的具体取值方面不限定。
在另一种实现方式中,满足预设条件的单元区域还可以包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
例如,可以统计每个单元区域在预设历史时间段内对应的指定统计数据,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,并设定一个比例阈值,计算该总和与该比例阈值的乘积作为参考值。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者接近该参考值。则排在单元区域N之前的单元区域为满足预设条件的单元区域。如,假设将待统计区域划分为100个单位区域,预先设定一个比例阈值为90%,统计在前一个月所有单元区域对应的订单总数为1000,计算出1000*90%=900。统计在前一个月每个单元区域对应的订单数,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者大于900。则排在单元区域N之前的单元区域为满足预设条件的单元区域。
在本实施例中,可以直接按照上述原则从预先划分的单元区域中选取目标单元区域,从而确定目标单元区域。还可以从预先存储的数据中取出目标单元区域的标识信息,从而确定目标单元区域(预先按照上述原则从预先划分的单元区域中选取目标单元区域,并将目标单元区域的标识信息存储下来)。可以理解,本公开对确定目标单元区域的具体方式方面不限定。
在步骤102中,获取目标模型。
在本实施例中,可以预先采用历史数据训练得到一个目标模型,该目标模型可以是任意合理的决策模型,可选地,该目标模型可以包括GBDT(Gradient Boosting DecisonTree,梯度提升决策树)模型。可以理解,本公开对目标模型的具体形式方面不限定。
在步骤103中,基于该目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
在本实施例中,可以预先将一天的时间均匀划分成多个单位时段,每个单位时段的时长相等,例如,每个单位时段的时长可以是5分钟,或者10分钟,或者15分钟等等。然后,对每个单位时段设定一个唯一性标识,以对不同的单位时段进行标记,从而区分不同的单位时段。本实施例中的指定时段为当天未来的某个单位时段,一般为当前所处时段或者当前时段的下一个时段,可以采用时段标识标记指定时段。
在本实施例中,目标模型可以对每个目标单元区域进行预测,具体来说,针对任意目标单元区域,可以通过如下方式预测在指定时段对应的目标指标数据:首先,获取该目标单元区域在上述指定时段对应的目标特征信息,接着,将该目标特征信息输入到目标模型中,以从目标模型的输出结果中得到目标指标数据。
在本实施例中,目标指标可以是针对指定O2O(Online To Offline,在线离线/线上到线下)服务的指标。其中,指定O2O服务可以是请求交通工具的服务(例如,快车服务,或者专车服务,或者顺风车服务,或者代驾服务,或者共享车辆服务等等),还可以是外卖配送服务等等。可以理解,指定O2O服务可以是其它类型的服务,本公开对指定O2O服务的具体类型方面不限定。
在本实施例中,目标指标数据可以包括以下一项或多项:指定O2O服务的服务资源供给数据;指定O2O服务的服务资源需求数据;指定O2O服务的服务资源供给缺口数据;其中,供给缺口数据为上述需求数据与上述供给数据的差值。例如,以请求交通工具的服务为例,目标指标数据可以包括以下一项或多项:运力数据;订单发单的数量;以及运力缺口数据,运力缺口数据为订单发单的数量减去运力数据之差。
在本实施例中,目标单元区域在指定时段对应的目标特征信息可以包括:指定时段对应的时间特征信息;目标单元区域对应的位置特征信息;以及对应于该目标单元区域以及该指定时段,并对目标指标产生影响的实时特征信息。
例如,以请求交通工具的服务为例,具体地,指定时段对应的时间特征信息可以包括以下一项或多项:指定时段对应的星期特征;指定时段对应的时段标识特征;指定时段对应的节日特征;指定时段对应的日期(包括公历日期以及农历日期)特征等等,可以理解,指定时段对应的时间特征信息还可以包括其它合理的时间特征信息,本公开对时间特征信息的具体内容方面不限定。
目标单元区域对应的位置特征信息可以包括以下一项或多项:目标单元区域的中心对应的经纬度特征;目标单元区域中的兴趣点的类别(例如,地铁站,居民区,写字楼,火车站,商场等等)特征;目标单元区域对应的指定指标数据的历史排名特征(例如,将所有目标单元区域前一个月的订单数进行排序,该目标单元区域所处的排名位置,或者将所有目标单元区域前一个月的运力数进行排序,该目标单元区域所处的排名位置等等)。
对应于目标单元区域以及指定时段,并对目标指标产生影响的实时特征信息可以包括以下一项或多项:该目标单元区域在当前对应的交通特征信息(例如,该目标单元区域在当前对应的交通拥堵等级,当前流入该目标单元区域的车速,当前流出该目标单元区域的车速等等);该目标单元区域在当前对应的天气特征信息(例如,当前该目标单元区域对应的雨量,当前该目标单元区域对应的风速,当前该目标单元区域对应的雾霾状态,当前该目标单元区域对应的温度等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务订单特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务订单特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的订单产生数量、订单应答数量、订单取消数量、订单完成数量、订单应答率、订单取消率、平均应答时长、平均接驾距离等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务请求方的特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务请求方的特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的乘客冒泡数量、乘客去重冒泡数量等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务提供方的特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务提供方的特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的已载客司机数量、等待乘客的司机数量、空闲司机数量、不同类型的司机数量等等)。
可选地,可以对预测集合进行预设的统计分析,以得到目标指标的统计结果。
在本实施例中,可以预测每个目标单元区域在指定时段对应的目标指标数据,以形成预测集合,然后对预测集合进行预设的统计分析,以得到目标指标的统计结果。其中,预设的统计分析可以是满足需要的任意合理的统计分析,例如,可以是聚类计算,也可以是均值计算等等,本公开对预设的统计分析的具体形式方面不限定。
本公开的上述实施例提供的指标的预测方法,通过确定多个目标单元区域,获取目标模型,基于目标模型预测每个目标单元区域在指定时段对应的目标指标数据,以得到预测集合。从而可以对预测集合进行预设的统计分析,得到目标指标的统计结果,无需人为划分管理区域,也无需计算每个管理区域在一定历史时段指标数据的均值,从而提高了指标的预测和统计结果的可靠性以及准确度。
图2是根据一示例性实施例示出的另一种指标的预测方法的流程图,该实施例详细描述了基于目标模型预测每个目标单元区域在指定时段对应的目标指标数据的过程,该方法可以应用于终端设备中,也可以应用于服务器中。该方法可以包括以下步骤:
在步骤201中,确定多个目标单元区域。
在步骤202中,获取目标模型。
在步骤203中,获取每个目标单元区域在指定时段对应的目标特征信息。
在步骤204中,将每个目标特征信息分别输入到目标模型中,以从目标模型的输出结果中得到每个目标单元区域在指定时段对应的目标指标数据。
需要说明的是,对于与图1实施例中相同的步骤,在上述图2实施例中不再进行赘述,相关内容可参见图1实施例。
本公开的上述实施例提供的指标的预测方法,通过确定多个目标单元区域,获取目标模型,获取每个目标单元区域在指定时段对应的目标特征信息。将每个目标特征信息分别输入到目标模型中,以从目标模型的输出结果中得到每个目标指标数据,生成预测集合。从而可以对预测集合进行预设的统计分析,得到目标指标的统计结果,无需人为划分管理区域,也无需计算每个管理区域在一定历史时段指标数据的均值,从而有助于提高指标的预测和统计结果的可靠性以及准确度。
如图3所示,图3是根据一示例性实施例示出的一种指标预测模型的训练方法的流程图,该方法可以应用于终端设备中,也可以应用于服务器中。该方法包括以下步骤:
在步骤301中,从预先划分的单元区域中选取目标单元区域。
在本实施例中,可以预先将待统计区域划分为多个紧密相连的正多边形区域,形成正多边形网状结构,每个正多边形区域作为一个单元区域。该正多边形区域可以是正六边形区域(如蜂窝状),也可以是正三角形区域,还可以是正四角形区域。可以理解,还可以通过其它任意合理的方式划分单元区域,本公开对此方面不限定。其中,待统计区域可以是任意合理的行政区域(例如,全国,省,市,或者区等),或者地理区域等等,本公开对待统计区域具体类别和属性方面不限定。
具体来说,可以通过如下方式从预先划分的单元区域中选取目标单元区域:首先,获取预设历史时间段内每个预先划分的单元区域对应的指定统计数据,然后基于该指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。在一种实现方式中,可以将指定统计数据超过目标阈值的单元区域确定为目标单元区域。其中,预设历史时间段可以是当前之前的预设时间段,例如,前一周,或者前一个月,或者前一年等等。本公开对预设历史时间段的具体设置方面不限定。指定统计数据可以是任意合理的统计数据,例如,针对某些O2O服务,某个单元区域在预设历史时间段内对应的指定统计数据可以是该单元区域在预设时间段内所产生的订单总数量。可以理解,本公开对指定统计数据的具体类型方面不限定。
在本实施例中,目标阈值为针对一个单元区域在预设历史时间段内对应的指定统计数据得到的一个阈值。例如,可以预先根据经验针对一个单元区域在预设历史时间段内对应的指定统计数据设定一个固定的阈值作为目标阈值。
又例如,可以首先统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,可以根据经验设定一个比例阈值,将该总和与该比例阈值的乘积作为目标阈值。
在又一种实现方式中,还可以将在对单元区域进行的目标排序中的前多个单元区域确定为目标单元区域,所述目标排序中的前多个单元区域可以是对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。例如,可以统计每个单元区域在预设历史时间段内对应的指定统计数据,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,并设定一个比例阈值,计算该总和与该比例阈值的乘积作为参考值。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者接近该参考值。则可以将排在单元区域N之前的单元区域确定为目标单元区域。可以理解,还可以通过其它方式选取目标单元区域,本公开对选取目标单元区域的具体方式方面不限定。
在步骤302中,获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息。
在本实施例中,可以预先将一天的时间均匀划分成多个单位时段,每个单位时段的时长相等,例如,每个单位时段的时长可以是5分钟,或者10分钟,或者15分钟等等。
在本实施例中,历史指标数据可以是针对指定O2O服务的历史指标数据,例如,可以包括以下一项或多项:指定O2O服务的服务资源供给历史数据;指定O2O服务的服务资源需求历史数据;指定O2O服务的服务资源供给缺口历史数据;其中,供给缺口历史数据为上述需求历史数据减去上述供给历史数据之差。
在本实施例中,历史特征信息可以包括:每个历史时段对应的时间特征信息;每个目标单元区域对应的位置特征信息;以及对应于目标单元区域以及历史时段,并对历史指标产生影响的实时特征信息。
在步骤303中,采用上述样本信息训练出目标模型。
在本实施例中,可以通过如下方式训练出目标模型:首先,可以将上述样本信息分为两部分,一部分作为训练集,一部分作为验证集。采用训练集的样本信息对当前待训练模型的参数进行调整。采用验证集的样本信息对经过训练的模型进行验证。直到验证结果满足要求,将验证结果满足要求的经过训练的模型作为训练好的目标模型。
具体来说,其中,采用训练集的样本信息对当前待训练模型的参数进行调整可以包括:将训练集中针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到当前待训练模型中,得到相应的特征值。将得到的特征值与训练集中与上述历史特征信息相应的历史指标数据的特征值进行比较,以得到差值函数,并对待训练模型的参数进行调整。再重复上述训练过程,直至得到的差值函数收敛为止。
其中,采用验证集的样本信息对经过训练的模型进行验证可以包括:将训练集中的针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到经过训练的模型中,得到对应的第一AUC值。将验证集中的针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到经过训练的模型中,得到对应的第二AUC值。用第一AUC值减去第二AUC值获得一个差值,如果这个差值的绝对值大于预设阈值,重复训练过程。如果这个差值的绝对值小于预设阈值,说明验证结果满足要求。
本公开的上述实施例提供的指标预测模型的训练方法,通过从预先划分的单元区域中选取目标单元区域,获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息,并采用样本信息训练出目标模型。从而得到了可以用于预测单元区域的指标的模型,由于无需人为划分管理区域,并将实时的影响因素考虑在内,因此,提高了指标的预测和统计结果的可靠性以及准确度。
图4是根据一示例性实施例示出的另一种指标预测模型的训练方法的流程图,该实施例详细描述了从预先划分的单元区域中选取目标单元区域的过程,该方法可以应用于终端设备中,也可以应用于服务器中。该方法可以包括以下步骤:
在步骤401中,获取预设历史时间段内每个预先划分的单元区域对应的指定统计数据。
在步骤402中,基于所述指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。
在步骤403中,获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息。
在步骤404中,采用上述样本信息训练出目标模型。
需要说明的是,对于与图3实施例中相同的步骤,在上述图4实施例中不再进行赘述,相关内容可参见图3实施例。
本公开的上述实施例提供的指标预测模型的训练方法,通过获取预设历史时间段内每个预先划分的单元区域对应的指定统计数据。基于上述指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息,并采用样本信息训练出目标模型。从而得到了可以用于预测单元区域的指标的模型,由于无需人为划分管理区域,并将实时的影响因素考虑在内,因此,有助于提高指标的预测和统计结果的可靠性以及准确度。
应当注意,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
与前述指标的预测、模型的训练方法实施例相对应,本公开还提供了指标的预测、模型的训练装置的实施例。
如图5所示,图5是本公开根据一示例性实施例示出的一种指标的预测的装置框图,该装置包括:确定单元501,获取单元502,预测单元503。
其中,确定单元501,被配置为确定多个目标单元区域。
在本实施例中,可以预先将待统计区域划分为多个紧密相连的正多边形区域,形成正多边形网状结构,每个正多边形区域作为一个单元区域。该正多边形区域可以是正六边形区域(如蜂窝状),也可以是正三角形区域,还可以是正四角形区域。可以理解,还可以通过其它任意合理的方式划分单元区域,本公开对此方面不限定。其中,待统计区域可以是任意合理的行政区域(例如,全国,省,市,或者区等),或者地理区域等等,本公开对待统计区域具体类别和属性方面不限定。
在本实施例中,目标单元区域为从预先划分的单元区域中选取的满足预设条件的单元区域。具体来说,在一种实现方式中,满足预设条件的单元区域可以包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。其中,预设历史时间段可以是当前之前的预设时间段,例如,前一周,或者前一个月,或者前一年等等。本公开对预设历史时间段的具体设置方面不限定。指定统计数据可以是任意合理的统计数据,例如,针对某些O2O服务,某个单元区域在预设历史时间段内对应的指定统计数据可以是该单元区域在预设历史时间段内所产生的订单总数量。可以理解,本公开对指定统计数据的具体类型方面不限定。
在本实施例中,目标阈值为针对一个单元区域在预设历史时间段内对应的指定统计数据得到的一个阈值。例如,可以预先根据经验针对一个单元区域在预设历史时间段内对应的指定统计数据设定一个固定的阈值作为目标阈值。
又例如,还可以首先统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,可以根据经验设定一个比例阈值,将该总和与该比例阈值的乘积作为目标阈值。例如,假设将待统计区域划分为100个单位区域,预先设定一个比例阈值为2%,统计在前一个月所有单元区域对应的订单总数为1000,计算出1000*2%=20,可以将20作为目标阈值。
可以理解,还可以通过其它方式确定目标阈值,本公开对目标阈值的具体取值方面不限定。
在另一种实现方式中,满足预设条件的单元区域还可以包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
例如,可以统计每个单元区域在预设历史时间段内对应的指定统计数据,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,并设定一个比例阈值,计算该总和与该比例阈值的乘积作为参考值。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者接近该参考值。则排在单元区域N之前的单元区域为满足预设条件的单元区域。如,假设将待统计区域划分为100个单位区域,预先设定一个比例阈值为90%,统计在前一个月所有单元区域对应的订单总数为1000,计算出1000*90%=900。统计在前一个月每个单元区域对应的订单数,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者接近900。则排在单元区域N之前的单元区域为满足预设条件的单元区域。
在本实施例中,可以直接按照上述原则从预先划分的单元区域中选取目标单元区域,从而确定目标单元区域。还可以从预先存储的数据中取出目标单元区域的标识信息,从而确定目标单元区域(预先按照上述原则从预先划分的单元区域中选取目标单元区域,并将目标单元区域的标识信息存储下来)。可以理解,本公开对确定目标单元区域的具体方式方面不限定。
获取单元502,被配置为获取目标模型。
在本实施例中,可以预先采用历史数据训练得到一个目标模型,该目标模型可以是任意合理的决策模型,可选地,该目标模型可以包括GBDT(Gradient Boosting DecisonTree,梯度提升决策树)。可以理解,本公开对目标模型的具体形式方面不限定。
预测单元503,被配置为基于目标模型预测每个目标单元区域在指定时段对应的目标指标数据,以得到预测集合。
在本实施例中,可以预先将一天的时间均匀划分成多个单位时段,每个单位时段的时长相等,例如,每个单位时段的时长可以是5分钟,或者10分钟,或者15分钟等等。然后,对每个单位时段设定一个唯一性标识,以对不同的单位时段进行标记,从而区分不同的单位时段。本实施例中的指定时段为当天未来的某个单位时段,一般为当前所处时段或者当前时段的下一个时段,可以采用时段标识标记指定时段。
在本实施例中,目标模型可以对每个目标单元区域进行预测,具体来说,针对任意目标单元区域,可以通过如下方式预测在指定时段对应的目标指标数据:首先,获取该目标单元区域在上述指定时段对应的目标特征信息,接着,将该目标特征信息输入到目标模型中,以从目标模型的输出结果中得到目标指标数据。
在本实施例中,目标指标可以是针对指定O2O(Online To Offline,在线离线/线上到线下)服务的指标。其中,指定O2O服务可以是请求交通工具的服务(例如,快车服务,或者专车服务,或者顺风车服务,或者代驾服务,或者共享车辆服务等等),还可以是外卖配送服务等等。可以理解,指定O2O服务可以是其它类型的服务,本公开对指定O2O服务的具体类型方面不限定。
在本实施例中,目标指标数据可以包括以下一项或多项:指定O2O服务的服务资源供给数据;指定O2O服务的服务资源需求数据;指定O2O服务的服务资源供给缺口数据;其中,供给缺口数据为上述需求数据与上述供给数据的差值。例如,以请求交通工具的服务为例,目标指标数据可以包括以下一项或多项:运力数据;订单发单的数量;以及运力缺口数据,运力缺口数据为订单发单的数量减去运力数据之差。
在本实施例中,目标单元区域在指定时段对应的目标特征信息可以包括:指定时段对应的时间特征信息;目标单元区域对应的位置特征信息;以及对应于该目标单元区域以及该指定时段,并对目标指标产生影响的实时特征信息。
例如,以请求交通工具的服务为例,具体地,指定时段对应的时间特征信息可以包括以下一项或多项:指定时段对应的星期特征;指定时段对应的时段标识特征;指定时段对应的节日特征;指定时段对应的日期(包括公历日期以及农历日期)特征等等,可以理解,指定时段对应的时间特征信息还可以包括其它合理的时间特征信息,本公开对时间特征信息的具体内容方面不限定。
目标单元区域对应的位置特征信息可以包括以下一项或多项:目标单元区域的中心对应的经纬度特征;目标单元区域中的兴趣点的类别(例如,地铁站,居民区,写字楼,火车站,商场等等)特征;目标单元区域对应的指定指标数据的历史排名特征(例如,将所有目标单元区域前一个月的订单数进行排序,该目标单元区域所处的排名位置,或者将所有目标单元区域前一个月的运力数进行排序,该目标单元区域所处的排名位置等等)。
对应于目标单元区域以及指定时段,并对目标指标产生影响的实时特征信息可以包括以下一项或多项:该目标单元区域在当前对应的交通特征信息(例如,该目标单元区域在当前对应的交通拥堵等级,当前流入该目标单元区域的车速,当前流出该目标单元区域的车速等等);该目标单元区域在当前对应的天气特征信息(例如,当前该目标单元区域对应的雨量,当前该目标单元区域对应的风速,当前该目标单元区域对应的雾霾状态,当前该目标单元区域对应的温度等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务订单特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务订单特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的订单产生数量、订单应答数量、订单取消数量、订单完成数量、订单应答率、订单取消率、平均应答时长、平均接驾距离等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务请求方的特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务请求方的特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的乘客冒泡数量、乘客去重冒泡数量等等);目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务提供方的特征信息(例如,假设当前时段为t,指定时段为t+1,则上述服务提供方的特征信息可以是该目标单元区域在t-1、t-2、t-3、t-4这四个时段内对应的已载客司机数量、等待乘客的司机数量、空闲司机数量、不同类型的司机数量等等)。
可选地,该装置还可以进一步包括统计单元(图中未示出),该统计单元被配置为对预测集合进行预设的统计分析,以得到目标指标的统计结果。
在本实施例中,可以预测每个目标单元区域在指定时段对应的目标指标数据,以形成预测集合,然后对预测集合进行预设的统计分析,以得到目标指标的统计结果。其中,预设的统计分析可以是满足需要的任意合理的统计分析,例如,可以是聚类计算,也可以是均值计算等等,本公开对预设的统计分析的具体形式方面不限定。
本公开的上述实施例提供的指标的预测装置,通过确定多个目标单元区域,获取目标模型,基于目标模型预测每个目标单元区域在指定时段对应的目标指标数据,以得到预测集合。从而可以对预测集合进行预设的统计分析,得到目标指标的统计结果,无需人为划分管理区域,也无需计算每个管理区域在一定历史时段指标数据的均值,从而提高了指标的预测和统计结果的可靠性以及准确度。
在一些可选实施方式中,上述目标单元区域为从预先划分的单元区域中选取的满足预设条件的单元区域。
在另一些可选实施方式中,上述满足预设条件的单元区域可以包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
在另一些可选实施方式中,上述满足预设条件的单元区域可以包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
在另一些可选实施方式中,针对任意目标单元区域,预测单元503可以通过如下方式预测在指定时段对应的目标指标数据:获取目标单元区域在指定时段对应的目标特征信息,将目标特征信息输入到所述目标模型中,以从目标模型的输出结果中得到对应的目标指标数据。
在另一些可选实施方式中,上述目标特征信息可以包括:指定时段对应的时间特征信息;目标单元区域对应的位置特征信息;对应于目标单元区域以及指定时段,并对目标指标产生影响的实时特征信息。
在另一些可选实施方式中,目标指标为针对指定线上到线下O2O服务的指标。
在另一些可选实施方式中,目标指标数据可以包括以下一项或多项:指定O2O服务的服务资源供给数据;指定O2O服务的服务资源需求数据;指定O2O服务的服务资源供给缺口数据;其中,供给缺口数据为上述需求数据与上述供给数据的差值。
在另一些可选实施方式中,上述实时特征信息可以包括以下一项或多项:目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务订单特征信息;目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务请求方的特征信息;目标单元区域在指定时段之前的一个或多个时段中每个时段对应的服务提供方的特征信息;目标单元区域在当前对应的交通特征信息;目标单元区域在当前对应的天气特征信息。
在另一些可选实施方式中,指定O2O服务可以为请求交通工具的服务。
在另一些可选实施方式中,目标模型可以包括:梯度提升决策树GBDT模型。
应当理解,上述装置可以预先设置在终端设备或者服务器中,也可以通过下载等方式而加载到终端设备或者服务器中。上述装置中的相应单元可以与终端设备或者服务器中的单元相互配合以实现指标的预测方案。
如图6所示,图6是本公开根据一示例性实施例示出的一种指标预测模型的训练装置框图,该装置包括:选取单元601,获取单元602以及训练单元603。
其中,选取单元601,被配置为从预先划分的单元区域中选取目标单元区域。
在本实施例中,可以预先将待统计区域划分为多个紧密相连的正多边形区域,形成正多边形网状结构,每个正多边形区域作为一个单元区域。该正多边形区域可以是正六边形区域(如蜂窝状),也可以是正三角形区域,还可以是正四角形区域。可以理解,还可以通过其它任意合理的方式划分单元区域,本公开对此方面不限定。其中,待统计区域可以是任意合理的行政区域(例如,全国,省,市,或者区等),或者地理区域等等,本公开对待统计区域具体类别和属性方面不限定。
具体来说,可以通过如下方式从预先划分的单元区域中选取目标单元区域:首先,获取预设历史时间段内每个预先划分的单元区域对应的指定统计数据,然后基于该指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。在一种实现方式中,可以将指定统计数据超过目标阈值的单元区域确定为目标单元区域。其中,预设历史时间段可以是当前之前的预设时间段,例如,前一周,或者前一个月,或者前一年等等。本公开对预设历史时间段的具体设置方面不限定。指定统计数据可以是任意合理的统计数据,例如,针对某些O2O服务,某个单元区域在预设历史时间段内对应的指定统计数据可以是该单元区域在预设时间段内所产生的订单总数量。可以理解,本公开对指定统计数据的具体类型方面不限定。
在本实施例中,目标阈值为针对一个单元区域在预设历史时间段内对应的指定统计数据得到的一个阈值。例如,可以预先根据经验针对一个单元区域在预设历史时间段内对应的指定统计数据设定一个固定的阈值作为目标阈值。
又例如,还可以首先统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,可以根据经验设定一个比例阈值,将该总和与该比例阈值的乘积作为目标阈值。
在又一种实现方式中,还可以将在对单元区域进行的目标排序中的前多个单元区域确定为目标单元区域,所述目标排序中的前多个单元区域可以是对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。例如,可以统计每个单元区域在预设历史时间段内对应的指定统计数据,并按照对应的指定统计数据从大到小的顺序对单元区域进行排序。统计所有单元区域在预设历史时间段内对应的指定统计数据的总和,并设定一个比例阈值,计算该总和与该比例阈值的乘积作为参考值。找到单元区域N,使得排在单元区域N之前的单元区域在预设历史时间段内对应的指定统计数据的和,等于或者接近该参考值。则可以将排在单元区域N之前的单元区域确定为目标单元区域。可以理解,还可以通过其它方式选取目标单元区域,本公开对选取目标单元区域的具体方式方面不限定。
获取单元602,被配置为获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息。
在本实施例中,可以预先将一天的时间均匀划分成多个单位时段,每个单位时段的时长相等,例如,每个单位时段的时长可以是5分钟,或者10分钟,或者15分钟等等。
在本实施例中,历史指标数据可以是针对指定O2O服务的历史指标数据,例如,可以包括以下一项或多项:指定O2O服务的服务资源供给历史数据;指定O2O服务的服务资源需求历史数据;指定O2O服务的服务资源供给缺口历史数据;其中,供给缺口历史数据为上述需求历史数据减去上述供给历史数据之差。
在本实施例中,历史特征信息可以包括:每个历史时段对应的时间特征信息;每个目标单元区域对应的位置特征信息;以及对应于目标单元区域以及历史时段,并对历史指标产生影响的实时特征信息。
训练单元603,被配置为采用样本信息训练出目标模型。
在本实施例中,可以通过如下方式训练出目标模型:首先,可以将上述样本信息分为两部分,一部分作为训练集,一部分作为验证集。采用训练集的样本信息对当前待训练模型的参数进行调整。采用验证集的样本信息对经过训练的模型进行验证。直到验证结果满足要求,将验证结果满足要求的经过训练的模型作为训练好的目标模型。
具体来说,其中,采用训练集的样本信息对当前待训练模型的参数进行调整可以包括:将训练集中针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到当前待训练模型中,得到相应的特征值。将得到的特征值与训练集中与上述历史特征信息相应的历史指标数据的特征值进行比较,以得到差值函数,并对待训练模型的参数进行调整。再重复上述训练过程,直至得到的差值函数收敛为止。
其中,采用验证集的样本信息对经过训练的模型进行验证可以包括:将训练集中的针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到经过训练的模型中,得到对应的第一AUC值。将验证集中的针对每个目标单元区域以及每个历史时段的历史特征信息分别输入到经过训练的模型中,得到对应的第二AUC值。用第一AUC值减去第二AUC值获得一个差值,如果这个差值的绝对值大于预设阈值,重复训练过程。如果这个差值的绝对值小于预设阈值,说明验证结果满足要求。
本公开的上述实施例提供的指标预测模型的训练装置,通过从预先划分的单元区域中选取目标单元区域,获取每个目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息,并采用样本信息训练出目标模型。从而得到了可以用于预测单元区域的指标的模型,由于无需人为划分管理区域,并将实时的影响因素考虑在内,因此,提高了指标的预测和统计结果的可靠性以及准确度。
在一些可选实施方式中,获取单元602可以包括:获取子单元和选取子单元(未示出)。
其中,获取子单元,被配置为获取预设历史时间段内每个预先划分的单元区域对应的指定统计数据。
选取子单元,被配置为基于指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。
在另一些可选实施方式中,满足预设条件的单元区域可以包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
在另一些可选实施方式中,上述满足预设条件的单元区域可以包括:目标排序中的前多个单元区域。
应当理解,上述装置可以预先设置在终端设备或者服务器中,也可以通过下载等方式而加载到终端设备或者服务器中。上述装置中的相应单元可以与终端设备或者服务器中的单元相互配合以实现模型的训练方案。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
相应的,本公开实施例还提供一种计算机存储介质,该存储介质中存储有程序指令,该指令包括:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
相应的,本公开实施例还提供另一种计算机存储介质,该存储介质中存储有程序指令,该指令包括:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
描述于本公开实施例中所涉及到的单元模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元模块也可以设置在处理器中,例如,可以描述为:一种处理器包括选取单元,获取单元以及训练单元。其中,这些单元模块的名称在某种情况下并不构成对该单元模块本身的限定,例如,选取单元还可以被描述为“用于从预先划分的单元区域中选取目标单元区域的单元”。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端或服务器中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本公开的指标的预测、模型的训练方法。
计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (34)

1.一种指标的预测方法,其特征在于,所述方法包括:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
2.根据权利要求1所述的方法,其特征在于,所述目标单元区域为从预先划分的单元区域中选取的满足预设条件的单元区域。
3.根据权利要求2所述的方法,其特征在于,所述满足预设条件的单元区域包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
4.根据权利要求2所述的方法,其特征在于,所述满足预设条件的单元区域包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
5.根据权利要求1所述的方法,其特征在于,针对任意目标单元区域,通过如下方式预测在指定时段对应的目标指标数据:
获取所述目标单元区域在所述指定时段对应的目标特征信息;
将所述目标特征信息输入到所述目标模型中,以从所述目标模型的输出结果中得到所述目标指标数据。
6.根据权利要求5所述的方法,其特征在于,所述目标特征信息包括:
所述指定时段对应的时间特征信息;
所述目标单元区域对应的位置特征信息;
对应于所述目标单元区域以及所述指定时段,并对所述目标指标产生影响的实时特征信息。
7.根据权利要求6所述的方法,其特征在于,所述目标指标为针对指定线上到线下服务的指标。
8.根据权利要求7所述的方法,其特征在于,所述目标指标数据包括以下一项或多项:
所述指定线上到线下服务的服务资源供给数据;
所述指定线上到线下服务的服务资源需求数据;
所述指定线上到线下服务的服务资源供给缺口数据;其中,所述供给缺口数据为所述需求数据与所述供给数据的差值。
9.根据权利要求7所述的方法,其特征在于,所述实时特征信息包括以下一项或多项:
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务订单特征信息;
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务请求方的特征信息;
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务提供方的特征信息;
所述目标单元区域在当前对应的交通特征信息;
所述目标单元区域在当前对应的天气特征信息。
10.根据权利要求7-9中任一所述的方法,其特征在于,所述指定线上到线下服务为请求交通工具的服务。
11.根据权利要求1-9中任一所述的方法,其特征在于,所述目标模型包括:梯度提升决策树GBDT模型。
12.一种指标预测模型的训练方法,其特征在于,所述方法包括:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
13.根据权利要求12所述的方法,其特征在于,所述从预先划分的单元区域中选取目标单元区域,包括:
获取所述预设历史时间段内每个预先划分的单元区域对应的指定统计数据;
基于所述指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。
14.根据权利要求13所述的方法,其特征在于,满足预设条件的单元区域包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
15.根据权利要求13所述的方法,其特征在于,所述满足预设条件的单元区域包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
16.一种指标的预测装置,其特征在于,所述装置包括:
确定单元,被配置为确定多个目标单元区域;
获取单元,被配置为获取目标模型;
预测单元,被配置为基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
17.根据权利要求16所述的装置,其特征在于,所述目标单元区域为从预先划分的单元区域中选取的满足预设条件的单元区域。
18.根据权利要求17所述的装置,其特征在于,所述满足预设条件的单元区域包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
19.根据权利要求17所述的装置,其特征在于,所述满足预设条件的单元区域包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
20.根据权利要求16所述的装置,其特征在于,针对任意目标单元区域,所述预测单元通过如下方式预测在指定时段对应的目标指标数据:
获取所述目标单元区域在所述指定时段对应的目标特征信息;
将所述目标特征信息输入到所述目标模型中,以从所述目标模型的输出结果中得到所述目标指标数据。
21.根据权利要求20所述的装置,其特征在于,所述目标特征信息包括:
所述指定时段对应的时间特征信息;
所述目标单元区域对应的位置特征信息;
对应于所述目标单元区域以及所述指定时段,并对所述目标指标产生影响的实时特征信息。
22.根据权利要求21所述的装置,其特征在于,所述目标指标为针对指定线上到线下服务的指标。
23.根据权利要求22所述的装置,其特征在于,所述目标指标数据包括以下一项或多项:
所述指定线上到线下服务的服务资源供给数据;
所述指定线上到线下服务的服务资源需求数据;
所述指定线上到线下服务的服务资源供给缺口数据;其中,所述供给缺口数据为所述需求数据与所述供给数据的差值。
24.根据权利要求22所述的装置,其特征在于,所述实时特征信息包括以下一项或多项:
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务订单特征信息;
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务请求方的特征信息;
所述目标单元区域在所述指定时段之前的一个或多个时段中每个时段对应的服务提供方的特征信息;
所述目标单元区域在当前对应的交通特征信息;
所述目标单元区域在当前对应的天气特征信息。
25.根据权利要求22-24中任一所述的装置,其特征在于,所述指定线上到线下服务为请求交通工具的服务。
26.根据权利要求16-24中任一所述的装置,其特征在于,所述目标模型包括:梯度提升决策树GBDT模型。
27.一种指标预测模型的训练装置,其特征在于,所述装置包括:
选取单元,被配置为从预先划分的单元区域中选取目标单元区域;
获取单元,被配置为获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
训练单元,被配置为采用所述样本信息训练出目标模型。
28.根据权利要求27所述的装置,其特征在于,所述选取单元包括:
获取子单元,被配置为获取所述预设历史时间段内每个预先划分的单元区域对应的指定统计数据;
选取子单元,被配置为基于所述指定统计数据选取单元区域中满足预设条件的单元区域作为目标单元区域。
29.根据权利要求28所述的装置,其特征在于,满足预设条件的单元区域包括:在预设历史时间段内对应的指定统计数据超过目标阈值的单元区域。
30.根据权利要求28所述的装置,其特征在于,所述满足预设条件的单元区域包括:对所述预先划分的单元区域中的每个单元区域在预设历史时间段内对应的指定统计数据进行排序后靠前的多个单元区域;其中,所述靠前的多个单元区域的所述指定统计数据之和与所有单元区域的所述指定统计数据总和的比例达到预设比例。
31.一种计算机存储介质,所述存储介质中存储有程序指令,其特征在于,所述指令包括:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
32.一种计算机存储介质,所述存储介质中存储有程序指令,其特征在于,所述指令包括:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
33.一种电子设备,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:
确定多个目标单元区域;
获取目标模型;
基于所述目标模型预测每个目标单元区域在指定时段对应的目标指标数据。
34.一种电子设备,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:
从预先划分的单元区域中选取目标单元区域;
获取每个所述目标单元区域在预设历史时间段内的每个单位时段所对应的历史指标数据以及历史特征信息作为样本信息;
采用所述样本信息训练出目标模型。
CN201710378094.XA 2017-05-25 2017-05-25 指标的预测、模型的训练方法及装置 Pending CN108960431A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710378094.XA CN108960431A (zh) 2017-05-25 2017-05-25 指标的预测、模型的训练方法及装置
PCT/CN2017/104129 WO2018214361A1 (en) 2017-05-25 2017-09-28 Systems and methods for improvement of index prediction and model building
US16/658,587 US20200050938A1 (en) 2017-05-25 2019-10-21 Systems and methods for improvement of index prediction and model building

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378094.XA CN108960431A (zh) 2017-05-25 2017-05-25 指标的预测、模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN108960431A true CN108960431A (zh) 2018-12-07

Family

ID=64395103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378094.XA Pending CN108960431A (zh) 2017-05-25 2017-05-25 指标的预测、模型的训练方法及装置

Country Status (3)

Country Link
US (1) US20200050938A1 (zh)
CN (1) CN108960431A (zh)
WO (1) WO2018214361A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109826626A (zh) * 2019-01-08 2019-05-31 浙江大学 一种智能的采煤机切割模式识别系统
CN110309948A (zh) * 2019-05-09 2019-10-08 上汽安吉物流股份有限公司 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN110309947A (zh) * 2019-05-09 2019-10-08 上汽安吉物流股份有限公司 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN113537671A (zh) * 2020-04-17 2021-10-22 北京京东振世信息技术有限公司 分拣时效预测方法及装置、存储介质、电子设备
CN113781077A (zh) * 2020-07-06 2021-12-10 京东城市(北京)数字科技有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN115440038A (zh) * 2022-08-31 2022-12-06 青岛海信网络科技股份有限公司 一种交通信息确定方法以及电子设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501200B2 (en) * 2016-07-02 2022-11-15 Hcl Technologies Limited Generate alerts while monitoring a machine learning model in real time
CN111915877A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 一种车流路径分布信息的处理方法、装置及电子设备
JP7303333B2 (ja) * 2019-05-16 2023-07-04 グラブタクシー ホールディングス プライベート リミテッド 輸送関連サービスのための量子修飾子を得るための通信サーバ装置および方法
CN110866696B (zh) * 2019-11-15 2023-05-26 成都数联铭品科技有限公司 商铺掉铺风险评估模型训练方法及装置
CN111401960B (zh) * 2020-03-19 2023-08-04 深圳市丰巢科技有限公司 智能柜的规格推荐方法、装置、服务器及存储介质
CN111832876A (zh) * 2020-03-30 2020-10-27 北京骑胜科技有限公司 车辆调度方法、可读存储介质和电子设备
CN111950928B (zh) * 2020-08-24 2024-02-06 国网冀北电力有限公司 配电网降损方法、装置、存储介质及计算设备
CN113255833B (zh) * 2021-06-24 2021-10-12 平安科技(深圳)有限公司 车辆定损方法、装置、设备及存储介质
CN113850565B (zh) * 2021-09-24 2022-06-07 广东诚誉工程咨询监理有限公司 一种基于成熟度模型的全过程咨询项目管理监测系统及方法
CN116151600B (zh) * 2023-04-24 2023-07-21 北京阿帕科蓝科技有限公司 共享车辆的维护方法、装置、计算机设备和存储介质
CN116668023B (zh) * 2023-07-25 2023-09-26 北京建工环境修复股份有限公司 一种土壤和地下水环境大数据分析方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617136B1 (en) * 2003-07-15 2009-11-10 Teradata Us, Inc. System and method for capturing, storing and analyzing revenue management information for the travel and transportation industries
CN103985247A (zh) * 2014-04-24 2014-08-13 北京嘀嘀无限科技发展有限公司 基于城市叫车需求分布密度的出租车运力调度系统
CN104077915A (zh) * 2014-03-27 2014-10-01 中华电信股份有限公司 乘车趋势预测装置及其方法
CN104408908A (zh) * 2014-11-05 2015-03-11 东南大学 公交车辆越站调度方法及系统
CN104899443A (zh) * 2015-06-05 2015-09-09 陆化普 用于评估当前出行需求及预测未来出行需求的方法及系统
CN105139089A (zh) * 2015-08-20 2015-12-09 北京嘀嘀无限科技发展有限公司 一种平衡出行供需的方法及设备
CN105389975A (zh) * 2015-12-11 2016-03-09 北京航空航天大学 专车调度方法和装置
CN105608886A (zh) * 2016-01-21 2016-05-25 滴滴出行科技有限公司 用于调度交通工具的方法和设备
CN106127329A (zh) * 2016-06-16 2016-11-16 北京航空航天大学 订单预测方法与装置
US20170109764A1 (en) * 2015-10-19 2017-04-20 Xerox Corporation System and method for mobility demand modeling using geographical data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10666696B2 (en) * 2014-09-05 2020-05-26 Minerva Project, Inc. System and method for a virtual conference interactive timeline
RU2635905C2 (ru) * 2015-09-23 2017-11-16 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер прогнозирования популярности элемента содержимого
CN105373840B (zh) * 2015-10-14 2018-12-11 深圳市天行家科技有限公司 代驾订单预测方法和代驾运力调度方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617136B1 (en) * 2003-07-15 2009-11-10 Teradata Us, Inc. System and method for capturing, storing and analyzing revenue management information for the travel and transportation industries
CN104077915A (zh) * 2014-03-27 2014-10-01 中华电信股份有限公司 乘车趋势预测装置及其方法
CN103985247A (zh) * 2014-04-24 2014-08-13 北京嘀嘀无限科技发展有限公司 基于城市叫车需求分布密度的出租车运力调度系统
CN104408908A (zh) * 2014-11-05 2015-03-11 东南大学 公交车辆越站调度方法及系统
CN104899443A (zh) * 2015-06-05 2015-09-09 陆化普 用于评估当前出行需求及预测未来出行需求的方法及系统
CN105139089A (zh) * 2015-08-20 2015-12-09 北京嘀嘀无限科技发展有限公司 一种平衡出行供需的方法及设备
US20170109764A1 (en) * 2015-10-19 2017-04-20 Xerox Corporation System and method for mobility demand modeling using geographical data
CN105389975A (zh) * 2015-12-11 2016-03-09 北京航空航天大学 专车调度方法和装置
CN105608886A (zh) * 2016-01-21 2016-05-25 滴滴出行科技有限公司 用于调度交通工具的方法和设备
CN106127329A (zh) * 2016-06-16 2016-11-16 北京航空航天大学 订单预测方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范若愚,王金陵,赵丽丽,范承懿: "《大数据时代的商业建模》", 31 July 2013 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109826626A (zh) * 2019-01-08 2019-05-31 浙江大学 一种智能的采煤机切割模式识别系统
CN110309948A (zh) * 2019-05-09 2019-10-08 上汽安吉物流股份有限公司 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN110309947A (zh) * 2019-05-09 2019-10-08 上汽安吉物流股份有限公司 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN113537671A (zh) * 2020-04-17 2021-10-22 北京京东振世信息技术有限公司 分拣时效预测方法及装置、存储介质、电子设备
CN113781077A (zh) * 2020-07-06 2021-12-10 京东城市(北京)数字科技有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN115440038A (zh) * 2022-08-31 2022-12-06 青岛海信网络科技股份有限公司 一种交通信息确定方法以及电子设备
CN115440038B (zh) * 2022-08-31 2023-11-03 青岛海信网络科技股份有限公司 一种交通信息确定方法以及电子设备

Also Published As

Publication number Publication date
WO2018214361A1 (en) 2018-11-29
US20200050938A1 (en) 2020-02-13

Similar Documents

Publication Publication Date Title
CN108960431A (zh) 指标的预测、模型的训练方法及装置
CN109872535B (zh) 一种智慧交通通行预测方法、装置及服务器
CN110517479B (zh) 一种城市道路交通预测方法、装置及电子设备
CN106530188A (zh) 在线叫车服务平台中司机的接单意愿评价方法和装置
US20170068755A1 (en) Transportation schedule evaluation
KR20180008388A (ko) 주문들을 푸싱하기 위한 방법들 및 시스템들
WO2015177644A1 (en) Method and system for balancing rental fleet of movable assets
CN106156965B (zh) 一种物流服务调度方法与设备
Dunnett et al. Optimising police dispatch for incident response in real time
US11429987B2 (en) Data-driven method and system to forecast demand for mobility units in a predetermined area based on user group preferences
Fabusuyi et al. Decision analytics for parking availability in downtown Pittsburgh
CN110009429A (zh) 一种预测流量数据的方法、装置和计算机设备
Tan et al. Development of an inexact fuzzy robust programming model for integrated evacuation management under uncertainty
CN110020215A (zh) 找单推荐信息的推送方法及装置、电子设备
Yan et al. Stochastic fleet deployment models for public bicycle rental systems
CN108986512A (zh) 一种公交车到站时间查询方法及装置
JP2021047194A (ja) 到着時間を推定するためのシステムおよび方法
CN104657457A (zh) 一种用户评价视频的数据处理方法、视频推荐方法及装置
CN108875032B (zh) 区域类型确定方法及装置
Büchel et al. What do we know when? modeling predictability of transit operations
CN112129303A (zh) 观影日程安排方法、安排系统、存储介质、及电子设备
CN111753386B (zh) 一种数据处理方法及装置
CN111008729A (zh) 一种迁移预测的方法和装置
KR20160115838A (ko) 사용자의 행위들의 시간 시퀀스를 생성하기 위한 장치, 방법 및 컴퓨터 프로그램
CN109146109B (zh) 订单的分配、模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207