CN111476421B - 订单预测方法、装置、存储介质及设备 - Google Patents

订单预测方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111476421B
CN111476421B CN202010278311.XA CN202010278311A CN111476421B CN 111476421 B CN111476421 B CN 111476421B CN 202010278311 A CN202010278311 A CN 202010278311A CN 111476421 B CN111476421 B CN 111476421B
Authority
CN
China
Prior art keywords
order
data
time
uploading
uploaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010278311.XA
Other languages
English (en)
Other versions
CN111476421A (zh
Inventor
杨旭光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euler Information Services Co ltd
Original Assignee
Euler Information Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Euler Information Services Co ltd filed Critical Euler Information Services Co ltd
Priority to CN202010278311.XA priority Critical patent/CN111476421B/zh
Publication of CN111476421A publication Critical patent/CN111476421A/zh
Application granted granted Critical
Publication of CN111476421B publication Critical patent/CN111476421B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Remote Sensing (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明实施例提供一种订单预测方法、装置、存储介质及设备,属于数据处理技术领域,解决了现有技术中不完整的数据信息无法预测预设区域内的网约车订单情况的问题。所述方法包括:获取预设区域内的网约车的上传数据,包括车辆标识、上传时间以及位置信息;利用具有相同车辆标识的上传数据建立上传数据集合;判断上传数据集合中每两个相邻上传数据是否满足订单基本规则;当上传数据集合中每两个相邻上传数据满足订单基本规则时,根据每两个相邻上传数据以及与每两个相邻上传数据相邻的上传数据,评估上传数据集合中的订单数据,以确定预设区域内的网约车的订单数据。本发明实施例适用于预测网约车的订单情况。

Description

订单预测方法、装置、存储介质及设备
技术领域
本发明涉及数据处理技术领域,具体地涉及一种订单预测方法、装置、存储介质及设备。
背景技术
随着城市交通的日益拥堵,网约车等共享出行方式大行其道。提供网约车服务的公司当决定在某个地区开展业务前,需要充分了解该地区现有的市场情况,比如该地区人们的出行需求(订单)情况,当前车辆投放情况等等,据此分析介入该地区市场的盈利预期,及车辆投放数量等。这就需要基于该地区交通出行大数据进行分析。但是对于已有出行服务提供商的订单信息中由于涉及司机的隐私和乘客出行信息,因此政府交管部门或专业数据公司只能提供不涉及上述隐私或机密的部分信息,例如,只能提供该地区每天所有提供出行服务的车辆定时上传(如每两分钟)的位置信息,包括车辆id、经纬度信息及上传时间。而且,当提供出行服务的车辆司机在线且空载的情况下,才能获取到位置信息,当司机下线后(避免泄露司机住址或活动场所)或载客时(避免泄露乘客出行信息)时,是不能获取车辆位置信息的。因此,基于现有的政府交管部门或专业数据公司提供的不完整的数据信息,无法准确预测该地区的车辆订单情况。
发明内容
本发明实施例的目的是提供一种订单预测方法、装置、存储介质及设备,解决了现有技术中基于政府交管部门或专业数据公司提供的不完整的数据信息,无法预测预设区域内的网约车订单情况的问题,通过获取预设区域内网约车的上传数据,根据订单基本规则、每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述预设区域内的网约车的订单数据,节约了需要调研或聘请专业咨询公司产生的人工成本,预测了预设区域内的网约车的供需情况。
为了实现上述目的,本发明实施例提供一种订单预测方法,包括:获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据。
进一步地,所述利用具有相同车辆标识的上传数据建立上传数据集合包括:将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合,其中,所述预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
进一步地,所述对所述上传数据进行去重处理包括:将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除。
进一步地,所述对所述上传数据进行异常值处理包括:提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据。
进一步地,所述对所述上传数据进行异常值处理包括:提取预设时间段内具有相同车辆标识的所述上传数据中的位置信息;分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间;根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度;当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据。
进一步地,所述对所述上传数据进行缺失值处理包括:查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息;删除缺失车辆标识的上传数据以及缺失上传时间的上传数据;针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息;将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。
进一步地,所述判断所述上传数据集合中每两个相邻上传数据的间隔时间是否满足订单基本规则包括:提取所述上传数据集合中每两个相邻上传数据的上传时间;判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期;当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则;当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则。
进一步地,所述根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据包括:将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据;根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:所述订单原始数据的订单预测时长在预设时长范围内;所述订单原始数据的订单预测里程在预设里程范围内;所述订单原始数据的订单预测平均速度在预设速度范围内;当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
进一步地,所述订单原始数据的订单预测时长通过下述方式确定:将所述订单起始数据的上传时间确定为第一时间点,所述订单结束数据的上传时间确定为第二时间点;将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间;将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间;将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
进一步地,所述订单原始数据的订单预测里程通过下述方式确定:将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据;根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地;根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地;根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
进一步地,所述根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地包括:根据
Figure BDA0002445583400000041
Figure BDA0002445583400000042
得到所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin),其中,所述订单预测出发地的经度为longorigin,纬度为latorigin,所述订单起始数据中的上传时间为t2,所述第一参考数据中的上传时间为t1,所述订单起始数据中的位置信息为loc2(long2,lat2),所述第一参考数据中的位置信息为loc1(long1,lat1),所述订单预测开始时间为ts,其中t1<t2<ts
进一步地,所述根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地包括:根据
Figure BDA0002445583400000051
Figure BDA0002445583400000052
得到所述订单原始数据的订单预测目的地locdst(longdst,latdst),其中,所述订单预测目的地的经度为longdst,纬度为latdst,所述订单结束数据中的上传时间为t3,所述第二参考数据中的上传时间为t4,所述订单结束数据中的位置信息为loc3(long3,lat3),所述第二参考数据中的位置信息为loc4(long4,lat4),所述订单预测结束时间为te,其中te<t3<t4
进一步地,所述根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程包括:根据d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*cos(latdst)*cos(longdst-longorigin))))*R,得到所述订单原始数据的订单预测里程d,其中,所述订单预测出发地为locorigin(longorigin,latorigin),所述订单预测目的地为locdst(longdst,latdst)arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
进一步地,在所述确定所述预设区域内的网约车的订单数据之后,所述方法还包括:统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量;按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。
相应地,本发明实施例还提供一种订单预测装置,包括:获取单元,用于获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;集合确定单元,用于利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;判断单元,用于判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;处理单元,用于当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据。
进一步地,所述集合确定单元还用于将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合,其中,所述预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
进一步地,所述集合确定单元还用于将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除。
进一步地,所述集合确定单元还用于提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据。
进一步地,所述集合确定单元还用于提取预设时间段内具有相同车辆标识的所述上传数据中的位置信息;分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间;根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度;当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据。
进一步地,所述集合确定单元还用于查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息;删除缺失车辆标识的上传数据以及缺失上传时间的上传数据;针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息;将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。
进一步地,所述判断单元还用于提取所述上传数据集合中每两个相邻上传数据的上传时间;判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期;当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则;当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则。
进一步地,所述处理单元还用于将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据;根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:所述订单原始数据的订单预测时长在预设时长范围内;所述订单原始数据的订单预测里程在预设里程范围内;所述订单原始数据的订单预测平均速度在预设速度范围内;当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
进一步地,所述订单原始数据的订单预测时长通过下述方式确定:将所述订单起始数据的上传时间确定为第一时间点,所述订单结束数据的上传时间确定为第二时间点;将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间;将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间;将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
进一步地,所述订单原始数据的订单预测里程通过下述方式确定:将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据;根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地;根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地;根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
进一步地,所述根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地包括:根据
Figure BDA0002445583400000081
Figure BDA0002445583400000082
得到所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin)其中,所述订单预测出发地的经度为longorigin,纬度为latorigin,所述订单起始数据中的上传时间为t2,所述第一参考数据中的上传时间为t1,所述订单起始数据中的位置信息为loc2(long2,lat2),所述第一参考数据中的位置信息为loc1(long1,lat1),所述订单预测开始时间为ts,其中t1<t2<ts
进一步地,所述根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地包括:根据
Figure BDA0002445583400000083
Figure BDA0002445583400000084
得到所述订单原始数据的订单预测目的地locdst(longdst,latast)其中,所述订单预测目的地的经度为longdst,纬度为latdst,所述订单结束数据中的上传时间为t3,所述第二参考数据中的上传时间为t4,所述订单结束数据中的位置信息为loc3(long3,lat3),所述第二参考数据中的位置信息为loc4(long4,lat4),所述订单预测结束时间为te,其中te<t3<t4
进一步地,所述根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程包括:根据d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*cos(latdst)*cos(longdst-longorigin))))*R,得到所述订单原始数据的订单预测里程d,其中,所述订单预测出发地为locorigin(longorigin,latorigin),所述订单预测目的地为locdst(longdst,latdst)arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
进一步地,所述装置还包括:统计单元,用于统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量;按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上所述的订单预测方法。
相应地,本发明实施例还提供一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上所述的订单预测方法。
本发明实施例通过获取预设区域内的网约车的上传数据,然后利用具有相同车辆标识的上传数据建立上传数据集合,并判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则,当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据。本发明实施例解决了现有技术中基于政府交管部门或专业数据公司提供的不完整的数据信息,无法预测预设区域内的网约车订单情况的问题,节约了需要调研或聘请专业咨询公司产生的人工成本,预测了预设区域内的网约车的供需情况。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的一种订单预测方法的流程示意图;
图2是本发明实施例提供的一种订单预测装置的结构示意图;
图3是本发明实施例提供的另一种订单预测装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1是本发明实施例提供的一种订单预测方法的流程示意图。如图1所示,所述方法可应用于服务平台,包括如下步骤:
步骤101,获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;
步骤102,利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;
步骤103,判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;
步骤104,当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据。
其中,所述服务平台可通过与第三方约定的接口获取指定的上传数据,即获取预设区域内的网约车的上传数据。为了预测该预设区域内的网约车的供需情况更加准确,所述上传数据包括历史数据和实时数据。其中,对于历史数据,可以通过离线批处理的方式一次性或定期(例如当天获取前一天的数据)获取后,永久保存到HDFS(Hadoop DistributedFile System,分布式文件系统)、MySQL等存储系统中。而对于实时数据,获取后可以先保存到Redis等缓存系统中,然后定期(例如每天或每隔几小时)写入HDFS、MySQL等存储系统中,永久保存。另外,第三方提供数据一般为结构化数据,所述上传数据包括车辆标识、上传时间以及位置信息,其中每一辆网约车均有唯一对应的车辆标识。对于上传时间,由于考虑到网约车的司机在线且未载客的情况下,才会获取到上传数据,而司机下线或者载客时不会获取到上传数据,因此,上传数据中的上传时间并不一定是网约车的订单开始时间。所述位置信息包括网约车的经度和纬度。
另外,在服务平台从第三方获取上传数据时的预设采集周期,需要根据业务需求,确定合理的数据采集周期。预设采集周期设置太短,则数据量会很大,由此造成的从第三方购买、存储、处理数据的成本会很大;设置太长,则由于车辆速度会很快,相邻的两个上传时间点之间可能会跑很远,无法有效跟踪车辆位置,影响预测效果,所以确定预设采集周期需要权衡这两种因素。在本发明实施例中,预设采集周期一般为几分钟,例如,2分钟、5分钟等。
另外,由于从第三方获取的上传数据会存在许多噪声,不能直接使用,需要对数据进行清洗,因此在步骤102中将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合。其中,将所述上传数据进行预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
其中,对所述上传数据进行去重处理时,将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除,即对于上传数据中的各个字段均相同则确定为重复数据,只保留一个即可。而对于上传数据中部分字段重复则不需要处理,例如,获取的同一辆网约车的上传数据中的位置信息均相同,则视为不同数据,予以保留。另外,由于GPS信号可能产生漂移或由于其他因素,导致上传的位置信息异常,所以需要对异常值进行检测并剔除。例如,提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据,即上传数据中的位置信息已经超出了该预设区域,则所述上传数据不作为预测订单数据的数据基础。另外,可根据行驶速度判断位置信息是否合理,例如,提取预设时间段(例如,为多个连续预设采集周期)内具有相同车辆标识的所述上传数据中的位置信息,并分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间,根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度。当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据,当所述行驶速度超过预设速度阈值时,删除后一个位置信息的上传数据。
另外,对所述上传数据进行缺失值处理时,查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息。对于不同的缺失字段采取不同的措施。其中,对于缺失车辆标识的上传数据以及缺失上传时间的上传数据,由于该上传数据对于订单数据的评估没有用处,可直接删除。针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息,并将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。例如,当上传时间t的位置信息中的经度和/或纬度缺失,则可以获取上传时间t-1对应的位置信息(longt-1,latt-1)与上传时间t+1对应的位置信息(longt+1,latt+1),然后,根据下述公式long=(longt-1+longt+1)/2,以及lat=(latt-1+latt+1)/2,得到上传时间t对应的位置信息(long,lat)。需要说明的是,虽然推算出来的位置信息可能是一个不可抵达点,不过由于我们只是想评估订单数据中大致的出发地和目的地,并不需要准确到具体的地址,所以是否可达并不重要。
通过上述预处理之后,就可以得到具有相同车辆标识的预处理后的上传数据建立的上传数据集合,即每个上传数据集合均有唯一对应的车辆标识,每一个车辆标识对应的网约车均有对应的上传数据集合。
在步骤103中,在判断所述上传数据集合中每两个相邻上传数据的间隔时间是否满足订单基本规则之前,可预先设定每天网约车司机的上线时间点,即车辆每天第一次出现,开始上传位置信息,以及下线时间点,即车辆每天最后一次出现,最后一次上传位置信息。需要说明的是,在以上每天司机出车上线和司机收车下线的判断中,考虑到跨零点订单的存在,一天的起止时间不取零点,通过分析实际数据,99%以上的司机在凌晨三点之前收车,凌晨5点后才又陆续出现,所以每天的起止时间取凌晨4点整。如,车辆在凌晨四点前最后一次出现,算作前一天收车下线,凌晨4点后,首次出现,则算作当天出车上线。
然后,提取所述上传数据集合中每两个相邻上传数据的上传时间,其中所述每两个相邻上传数据必须为同一天的上传数据。由于网约车在接单后直到订单结束,期间不再上传位置信息,因此如果某辆车消失(不再上传位置信息)至少一个预设采集周期后,然后又出现(又开始上传位置信息),则可以初步判断该辆网约车接了一个订单,即判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期,当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则,而当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则,对于不满足订单基本规则的每两个相邻上传数据可不再进行下面步骤的判断。
另外,对于网约车中途有一段时间没有上传位置信息的情况,可能是中途下线了一段时间(例如,司机吃饭、休息),也可能是由于当时所处的区域,定位信号弱,无法获取位置信息(例如在隧道内等),所以还需要采用订单附加规则做进一步判断。
在步骤104中,将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据。然后,根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:所述订单原始数据的订单预测时长在预设时长范围内;所述订单原始数据的订单预测里程在预设里程范围内;所述订单原始数据的订单预测平均速度在预设速度范围内。当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
下面将分别描述所述订单附加规则。
1)在判断所述订单原始数据的订单预测时长是否在预设时长范围内时,需要先确定所述订单原始数据的订单预测时长,即确定订单预测开始时间和订单预测结束时间,然后将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
对于所述订单预测开始时间的评估,设某辆网约车消失前最后上传位置信息的上传时间为t1,紧邻的下一个应该上传位置信息的上传时间为t2,但是由于网约车已经接单,该时刻该辆车不能上传位置信息,则订单实际开始时间为介于t1~t2(t1<t2)的一个随机变量。由于没有证据表明,该时间间隔内的任一时间点的接单情况跟其他时间点相比有明显不同,因此,订单实际开始时间的概率分布可以建模为在区间(t1,t2)上的均匀分布,其概率密度函数如下:
Figure BDA0002445583400000151
那么所述订单预测开始时间可取该随机变量的数学期望:
Figure BDA0002445583400000152
不难发现,所述订单预测开始时间为车辆消失前后的两个位置上传时间的中点,这符合常识。而且由于预设采集周期很短(例如取2分钟),即便在极端情况下(如车辆在前一个预设采集周期刚过或下一个预设采集周期即将到来之际,接单),订单预测开始时间和实际开始时间之间的最大误差也仅为半个周期(例如1分钟),完全可以满足业务需求。所以将所述订单起始数据的上传时间确定为第一时间点,将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间。
对于所述订单预测结束时间的评估,设某辆网约车重新出现后,第一次上传位置信息的上传时间为t4,紧邻的上一个应该上传位置信息的上传时间为t3,但是由于网约车正在接单,该时刻该辆车不能上传位置信息,则订单预测结束时间为介于t3~t4(t3<t4)的一个随机变量。由于没有证据表明,该时间间隔内的任一时间点的订单分布情况跟其他时间点相比有明显不同,因此,订单预测结束时间的概率分布可以建模为在区间(t3,t4)上的均匀分布,其概率密度函数如下:
Figure BDA0002445583400000161
订单预测结束时间可取该随机变量的数学期望:
Figure BDA0002445583400000162
不难发现,订单预测结束时间为车辆重新出现前后的两个位置上传时间的中点,这符合常识。而且由于预设采集周期很短(例如取2分钟),即便在极端情况下(如车辆在前一个预设采集周期刚过或下一个预设采集周期即将到来之际,结束订单),订单预测结束时间和实际结束时间之间的最大误差也仅为半个预设采集周期(例如1分钟),完全可以满足业务需求。所以将所述订单结束数据的上传时间确定为第二时间点,并将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间。
在确定了所述订单预测结束时间与所述订单预测开始时间之后,将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。订单预测时长需处于合理范围,如果过短或过长,明显不合理,则不能判定所述订单原始数据满足该条订单附加规则。如果订单预测时长在预设时长范围内,则判定所述订单原始数据满足该条订单附加规则。其中,所述预设时长范围可以根据实际情况,灵活调整,如不同地区,不同时段可以取不同值,例如,所述预设时长范围可为5分钟至120分钟。
其中,在预测所述订单预测结束时间与所述订单预测开始时间时,采用均匀分布去拟合,而不是简单采用消失前最后一个上传位置信息的上传时间,或重新出现后的第一个上传位置信息的上传时间,进一步提高了预测准确性。
2)在判断所述订单原始数据的订单预测里程是否在预设里程范围内时,需要先确定所述订单原始数据的订单预测里程,即确定订单预测出发地和订单预测目的地,然后根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
对于订单预测出发地的评估,首先将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,然后根据所述订单起始数据中的上传时间t2与位置信息loc2(long2,lat2)、所述第一参考数据中的上传时间t1与位置信息loc1(long1,lat1),以及所述订单预测开始时间ts,确定所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin),其中,long2、long1、longorigin均为经度,lat2、lat1、latorigin为纬度,且t1<t2<ts,然后根据下述公式得到所述订单原始数据的订单预测出发地:
Figure BDA0002445583400000171
Figure BDA0002445583400000172
不难发现,所述订单预测出发地在车辆消失前最后两次上传的位置信息的连线的延长线上。虽然车辆未必是匀速前进,也未必是走直线,但由于预设采集周期很短(例如,2分钟),即便在极端情况下(例如,车辆在前一个预设采集周期刚过或下一个预设采集周期即将到来之际,接单),订单预测出发地和实际出发地最大误差也仅为半个预设采集周期(例如,1分钟)内车辆行驶的距离,完全可以满足业务需求。
对于订单预测目的地的评估,首先将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据,然后根据所述订单结束数据中的上传时间t3与位置信息loc3(long3,lat3)、所述第二参考数据中的上传时间t4与位置信息loc4(long4,lat4),以及所述订单预测结束时间te,确定所述订单原始数据的订单预测目的地locdst(longdst,latdst)。其中,long3、long4、longdst均为经度,lat3、lat4、latdst均为纬度,且te<t3<t4。之后,根据下述公式得到所述订单原始数据的订单预测目的地:
Figure BDA0002445583400000181
Figure BDA0002445583400000182
不难发现,订单预测目的地在车辆重新出现后紧接着两次上传的位置信息的连线的延长线(反向)上。虽然车辆未必是匀速前进,也未必是走直线,但由于预设采集周期很短(例如,2分钟),即便在极端情况下(如车辆在前一个预设采集周期刚过或下一个预设采集周期即将到来之际,结束订单),订单预测目的地和实际目的地最大误差也仅为半个预设采集周期(例如1分钟)内车辆行驶的距离,完全可以满足业务需求。
在得到所述订单预测目的地与所述订单预测出发地之后,就可以根据如下公式得到所述订单原始数据的订单预测里程d:
d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*cos(latdst)*cos(longdst-longorigin))))*R,
其中,所述订单预测出发地为locorigin(longorigin,latorigin)所述订单预测目的地为locdst(longdst,latdst)arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
另外,订单预测里程需要处于合理范围,如果过近或过远,明显不合理,则不能判定所述订单原始数据满足该条订单附加规则。如果订单预测里程在预设里程范围内,则判定所述订单原始数据满足该条订单附加规则。其中,所述预设里程范围可以根据实际情况,灵活调整,如不同地区,不同时段可以取不同值,例如,所述预设里程范围为0.5公里至100公里。
其中,在所述订单预测目的地与所述订单预测出发地时,采用网约车消失前(即,开始载客,订单开始)最后两次上传的位置信息及上传时间和网约车重新出现后(即,结束载客,订单结束)紧接着两次上传的位置信息及上传时间进行预测,而不是简单采用消失前最后一个上传的位置信息,或重新出现后的第一个上传的位置信息,进一步提高了预测准确性。
3)在判断所述订单原始数据的订单预测平均速度是否在预设速度范围内时,首先,通过上述1)和2)中的方式获取订单预测里程和订单预测时长,然后将订单预测里程与订单预测时长的比值确定为订单预测平均速度。订单预测平均速度需要处于合理范围,如果过快或过慢,明显不合理,则不能判定所述订单原始数据满足该条订单附加规则。如果所述订单原始数据的订单预测平均速度在预设速度范围内,则判定所述订单原始数据满足该条订单附加规则。其中,所述预设速度范围可以根据实际情况,灵活调整,如不同地区,不同时段可以取不同值。例如,所述预设速度范围可为5公里/小时至150公里/小时。
上述三条订单附加规则必须同时满足,因为即使时长(如6分钟)和里程(如90公里)都在对应范围内,但速度(如900公里/小时)也明显是不合理的。
在根据上述订单基本规则和订单附加规则可以确定每个车辆标识对应的上传数据集合中的订单数据之后,即也就得到了上述预设区域内的所有网约车的订单数据。
在本发明实施例的一种实施方式中,在确定了所述预设区域内的所有网约车的订单数据之后,统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量,然后按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。例如,将所述订单数据的数量按照从大到小的顺序进行排序,然后按照从大到小的网约车投放数量对应投放到所述订单预测出发地。另外,可选的,还可以根据从大到小排序后的订单预测出发地对应的订单预测开始时间调配对应时间投放的网约车投放数量。
在本发明实施例的另一种实施方式中,由于不时有旧的网约车退出和新的网约车加入,所以某个地区的网约车投放总数是动态变化的。所以通过获取上传数据中的车辆标识,统计在设定时间内的出现过的车辆标识,从而得到所述设定时间内的网约车投放总数,例如,取近两个月内曾经在线的网约车的上传数据,按照车辆标识去重(即同一辆网约车在两个月内,多次出现,只算一个)后,然后得到的网约车投放总数作为投放网约车总数的预测值。
在本发明实施例的另一种实施方式中,还可以预测每天在线网约车数量,例如,前一天曾经在线过(上传过位置信息)的网约车,先按照车辆标识去重后,得到前一天网约车总数,作为第二天投放网约车总数的预测值。
当然,通过所述预设区域内的网约车的订单数据,还可以统计订单的数量,每天的交易费用等等。
通过本发明实施例,就可以解决了现有技术中基于政府交管部门或专业数据公司提供的不完整的数据信息,无法预测预设区域内的网约车订单情况的问题,通过获取预设区域内网约车的上传数据,根据订单基本规则以及订单附加规则,评估所述预设区域内的网约车的订单数据,节约了需要调研或聘请专业咨询公司产生的人工成本,预测了预设区域内的网约车的供需情况。其中,
相应地,图2是本发明实施例提供的一种订单预测装置的结构示意图。如图2所示,所述装置可应用于服务平台上,所述装置20包括:获取单元21,用于获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;集合确定单元22,用于利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;判断单元23,用于判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;处理单元24,用于当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据。
其中,所述上传数据包括所述历史数据和实时数据。
进一步地,所述集合确定单元还用于将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合,其中,所述预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
进一步地,所述集合确定单元还用于将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除。
进一步地,所述集合确定单元还用于提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据。
进一步地,所述集合确定单元还用于提取预设时间段内具有相同车辆标识的所述上传数据中的位置信息;分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间;根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度;当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据。
进一步地,所述集合确定单元还用于查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息;删除缺失车辆标识的上传数据以及缺失上传时间的上传数据;针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息;将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。
进一步地,所述判断单元还用于提取所述上传数据集合中每两个相邻上传数据的上传时间;判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期;当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则;当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则。
进一步地,所述处理单元还用于将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据;根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:所述订单原始数据的订单预测时长在预设时长范围内;所述订单原始数据的订单预测里程在预设里程范围内;所述订单原始数据的订单预测平均速度在预设速度范围内;当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
进一步地,所述订单原始数据的订单预测时长通过下述方式确定:将所述订单起始数据的上传时间确定为第一时间点,所述订单结束数据的上传时间确定为第二时间点;将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间;将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间;将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
进一步地,所述订单原始数据的订单预测里程通过下述方式确定:将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据;根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地;根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地;根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
进一步地,所述根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地包括:根据
Figure BDA0002445583400000231
Figure BDA0002445583400000232
得到所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin)其中,所述订单预测出发地的经度为longorigin,纬度为latorigin,所述订单起始数据中的上传时间为t2,所述第一参考数据中的上传时间为t1,所述订单起始数据中的位置信息为loc2(long2,lat2),所述第一参考数据中的位置信息为loc1(long1,lat1),所述订单预测开始时间为ts,其中t1<t2<ts
进一步地,所述根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地包括:根据
Figure BDA0002445583400000233
Figure BDA0002445583400000234
得到所述订单原始数据的订单预测目的地locdst(longdst,latdst)其中,所述订单预测目的地的经度为longdst,纬度为latdst,所述订单结束数据中的上传时间为t3,所述第二参考数据中的上传时间为t4,所述订单结束数据中的位置信息为loc3(long3,lat3),所述第二参考数据中的位置信息为loc4(long4,lat4),所述订单预测结束时间为te,其中te<t3<t4
进一步地,所述根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程包括:根据d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*cos(latdst)*cos(longdst-longorigin))))*R,得到所述订单原始数据的订单预测里程d,其中,所述订单预测出发地为locorigin(longorigin,latorigin),所述订单预测目的地为locdst(longdst,latdst)arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
进一步地,如图3所示,所述装置还包括:统计单元25,用于统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量;按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。
本装置的操作过程,参见上述订单预测方法的实现过程。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上述实施例所述的订单预测方法。
相应地,本发明实施例还提供一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述实施例所述的订单预测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (26)

1.一种订单预测方法,其特征在于,包括:
获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;
利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;
判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;
当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据;
其中,所述判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则,包括:
提取所述上传数据集合中每两个相邻上传数据的上传时间;
判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期;
当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则;
当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则,所述订单基本规则表示每两个相邻上传数据的上传时间的间隔时间超过所述预设采集周期;
所述评估所述上传数据集合中的订单数据,包括:
将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据;
根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:
所述订单原始数据的订单预测时长在预设时长范围内;
所述订单原始数据的订单预测里程在预设里程范围内;
所述订单原始数据的订单预测平均速度在预设速度范围内;
当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
2.根据权利要求1所述的订单预测方法,其特征在于,所述利用具有相同车辆标识的上传数据建立上传数据集合包括:
将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合,其中,所述预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
3.根据权利要求2所述的订单预测方法,其特征在于,所述对所述上传数据进行去重处理包括:
将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除。
4.根据权利要求2所述的订单预测方法,其特征在于,所述对所述上传数据进行异常值处理包括:
提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据。
5.根据权利要求2所述的订单预测方法,其特征在于,所述对所述上传数据进行异常值处理包括:
提取预设时间段内具有相同车辆标识的所述上传数据中的位置信息;
分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间;
根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度;
当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据。
6.根据权利要求2所述的订单预测方法,其特征在于,所述对所述上传数据进行缺失值处理包括:
查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息;
删除缺失车辆标识的上传数据以及缺失上传时间的上传数据;
针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息;
将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。
7.根据权利要求1所述的订单预测方法,其特征在于,所述订单原始数据的订单预测时长通过下述方式确定:
将所述订单起始数据的上传时间确定为第一时间点,所述订单结束数据的上传时间确定为第二时间点;
将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间;
将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间;
将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
8.根据权利要求7所述的订单预测方法,其特征在于,所述订单原始数据的订单预测里程通过下述方式确定:
将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据;
根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地;
根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地;
根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
9.根据权利要求8所述的订单预测方法,其特征在于,所述根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地包括:
根据
Figure FDA0003736734330000041
Figure FDA0003736734330000042
得到所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin),其中,所述订单预测出发地的经度为longorigin,纬度为latorigin,所述订单起始数据中的上传时间为t2,所述第一参考数据中的上传时间为t1,所述订单起始数据中的位置信息为loc2(long2,lat2),所述第一参考数据中的位置信息为loc1(long1,lat1),所述订单预测开始时间为ts,其中t1<t2<ts
10.根据权利要求8所述的订单预测方法,其特征在于,所述根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地包括:
根据
Figure FDA0003736734330000051
Figure FDA0003736734330000052
得到所述订单原始数据的订单预测目的地locdst(longdst,latdst),其中,所述订单预测目的地的经度为longdst,纬度为latdst,所述订单结束数据中的上传时间为t3,所述第二参考数据中的上传时间为t4,所述订单结束数据中的位置信息为loc3(long3,lat3),所述第二参考数据中的位置信息为loc4(long4,lat4),所述订单预测结束时间为te,其中te<t3<t4
11.根据权利要求8所述的订单预测方法,其特征在于,所述根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程包括:
根据
d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*cos(latdst)*cos(longdst-longorigin))))*R,
得到所述订单原始数据的订单预测里程d,其中,所述订单预测出发地为locorigin(longorigin,latorigin),所述订单预测目的地为locdst(longdst,latdst),arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
12.根据权利要求8所述的订单预测方法,其特征在于,在所述确定所述预设区域内的网约车的订单数据之后,所述方法还包括:
统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量;
按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。
13.一种订单预测装置,其特征在于,包括:
获取单元,用于获取预设区域内的网约车的上传数据,所述上传数据包括车辆标识、上传时间以及位置信息;
集合确定单元,用于利用具有相同车辆标识的上传数据建立上传数据集合,且所述上传数据集合通过所述车辆标识进行标记;
判断单元,用于判断所述上传数据集合中每两个相邻上传数据是否满足订单基本规则;
处理单元,用于当所述上传数据集合中每两个相邻上传数据满足所述订单基本规则时,根据所述每两个相邻上传数据以及与所述每两个相邻上传数据相邻的上传数据,评估所述上传数据集合中的订单数据,以确定所述预设区域内的网约车的订单数据;
其中,所述判断单元还用于提取所述上传数据集合中每两个相邻上传数据的上传时间;判断所述每两个相邻上传数据的上传时间的间隔时间是否超过预设采集周期;当所述间隔时间超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据满足所述订单基本规则;当所述间隔时间未超过所述预设采集周期时,确定所述上传数据集合中每两个相邻上传数据不满足订单基本规则,所述订单基本规则表示每两个相邻上传数据的上传时间的间隔时间超过所述预设采集周期;
所述处理单元还用于将满足所述订单基本规则的所述上传数据集合中所述每两个相邻上传数据确定为订单原始数据,所述订单原始数据对应的每两个相邻上传数据分别为订单起始数据和订单结束数据;根据所述订单原始数据以及与所述订单起始数据和订单结束数据相邻的上传数据,确定所述订单原始数据是否同时满足下述订单附加规则:所述订单原始数据的订单预测时长在预设时长范围内;所述订单原始数据的订单预测里程在预设里程范围内;所述订单原始数据的订单预测平均速度在预设速度范围内;当所述订单原始数据同时满足上述订单附加规则时,将所述订单原始数据评估为所述上传数据集合中的订单数据。
14.根据权利要求13所述的订单预测装置,其特征在于,所述集合确定单元还用于将所述上传数据进行预处理,并利用具有相同车辆标识的预处理后的上传数据建立上传数据集合,其中,所述预处理包括对所述上传数据进行去重处理、异常值处理或缺失值处理中的至少一个。
15.根据权利要求14所述的订单预测装置,其特征在于,所述集合确定单元还用于将与所述上传数据中的车辆标识、上传时间以及位置信息同时对应相同的上传数据删除。
16.根据权利要求14所述的订单预测装置,其特征在于,所述集合确定单元还用于提取所述上传数据中的位置信息,删除所述位置信息超出所述预设区域对应的电子围栏范围的上传数据。
17.根据权利要求14所述的订单预测装置,其特征在于,所述集合确定单元还用于提取预设时间段内具有相同车辆标识的所述上传数据中的位置信息;分别计算当前位置信息与前后两个位置信息之间的行驶距离以及行驶时间;根据所述行驶距离与所述行驶时间的比值,得到所述当前位置信息与前后两个位置信息之间的两个行驶速度;当所述两个行驶速度均超过预设速度阈值时,删除所述当前位置信息对应的上传数据。
18.根据权利要求14所述的订单预测装置,其特征在于,所述集合确定单元还用于查找所述上传数据中是否缺失车辆标识、上传时间以及位置信息;删除缺失车辆标识的上传数据以及缺失上传时间的上传数据;针对包含车辆标识和上传时间,但缺失位置信息的上传数据,提取与该上传数据具有相同车辆标识,且在该上传数据对应的上传时间的前一个上传时间与后一个上传时间对应的上传数据中的位置信息;将所述前一个上传时间对应的上传数据中的位置信息与所述后一个上传时间对应的上传数据中的位置信息的中点,确定为缺失位置信息的上传数据中的位置信息。
19.根据权利要求13所述的订单预测装置,其特征在于,所述订单原始数据的订单预测时长通过下述方式确定:
将所述订单起始数据的上传时间确定为第一时间点,所述订单结束数据的上传时间确定为第二时间点;将二分之一的所述预设采集周期与所述第一时间点之和确定为订单预测开始时间;将所述第二时间点与二分之一的所述预设采集周期的差值确定为订单预测结束时间;将所述订单预测结束时间与所述订单预测开始时间的差值确定所述订单原始数据的订单预测时长。
20.根据权利要求19所述的订单预测装置,其特征在于,所述订单原始数据的订单预测里程通过下述方式确定:
将所述订单起始数据对应的上传时间的前一个上传时间对应的上传数据确定为第一参考数据,将所述订单结束数据对应的上传时间的后一个上传时间对应的上传数据确定为第二参考数据;根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地;根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地;根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程。
21.根据权利要求20所述的订单预测装置,其特征在于,所述根据所述订单起始数据中的上传时间与位置信息、所述第一参考数据中的上传时间与位置信息,以及所述订单预测开始时间,确定所述订单原始数据的订单预测出发地包括:
根据
Figure FDA0003736734330000091
Figure FDA0003736734330000092
得到所述订单原始数据的订单预测出发地locorigin(longorigin,latorigin),其中,所述订单预测出发地的经度为longorigin,纬度为latorigin,所述订单起始数据中的上传时间为t2,所述第一参考数据中的上传时间为t1,所述订单起始数据中的位置信息为loc2(long2,lat2),所述第一参考数据中的位置信息为loc1(long1,lat1),所述订单预测开始时间为ts,其中t1<t2<ts
22.根据权利要求20所述的订单预测装置,其特征在于,所述根据所述订单结束数据中的上传时间与位置信息、所述第二参考数据中的上传时间与位置信息,以及所述订单预测结束时间,确定所述订单原始数据的订单预测目的地包括:
根据
Figure FDA0003736734330000101
Figure FDA0003736734330000102
得到所述订单原始数据的订单预测目的地locdst(longdst,latdst),其中,所述订单预测目的地的经度为longdst,纬度为latdst,所述订单结束数据中的上传时间为t3,所述第二参考数据中的上传时间为t4,所述订单结束数据中的位置信息为loc3(long3,lat3),所述第二参考数据中的位置信息为loc4(long4,lat4),所述订单预测结束时间为te,其中te<t3<t4
23.根据权利要求20所述的订单预测装置,其特征在于,所述根据所述订单预测目的地与所述订单预测出发地,得到所述订单原始数据的订单预测里程包括:
根据
d=arccos(min(1,(sin(latorigin)*sin(latdst)+cos(latorigin)*coslatdst*coslongdst-longorigin*R,
得到所述订单原始数据的订单预测里程d,其中,所述订单预测出发地为locorigin(longorigin,latorigin),所述订单预测目的地为locdst(longdst,latdst),arccos()的单位为弧度,R为地球半径,单位为千米,所述订单预测里程的单位为千米。
24.根据权利要求20所述的订单预测装置,其特征在于,所述装置还包括:统计单元,用于统计所述订单数据中的订单预测出发地,得到所述订单预测出发地对应的订单数据的数量;按照所述订单预测出发地对应的订单数据的数量,确定所述订单预测出发地的网约车投放数量。
25.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述权利要求1-12任一项所述的订单预测方法。
26.一种设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述权利要求1-12中任一项所述的订单预测方法。
CN202010278311.XA 2020-04-10 2020-04-10 订单预测方法、装置、存储介质及设备 Expired - Fee Related CN111476421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010278311.XA CN111476421B (zh) 2020-04-10 2020-04-10 订单预测方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010278311.XA CN111476421B (zh) 2020-04-10 2020-04-10 订单预测方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111476421A CN111476421A (zh) 2020-07-31
CN111476421B true CN111476421B (zh) 2022-11-08

Family

ID=71752144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010278311.XA Expired - Fee Related CN111476421B (zh) 2020-04-10 2020-04-10 订单预测方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111476421B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538067B (zh) * 2021-08-17 2023-05-05 华侨大学 一种基于机器学习的城际网约车需求预测方法及系统
CN114817767A (zh) * 2022-03-31 2022-07-29 阿里巴巴(中国)有限公司 位置确定方法、派单方法、服务器、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816128A (zh) * 2019-01-30 2019-05-28 杭州飞步科技有限公司 网约车订单的处理方法、装置、设备及可读存储介质
CN110555536A (zh) * 2019-09-06 2019-12-10 南京领行科技股份有限公司 一种网约车订单的安全性预测方法、装置、设备和存储介质
CN110889738A (zh) * 2019-10-29 2020-03-17 南京领行科技股份有限公司 一种订单派发方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127519B2 (en) * 2015-10-23 2018-11-13 Prahfit, Inc. Apparatus and method for predictive dispatch for geographically distributed, on-demand services
CN109146217A (zh) * 2017-06-19 2019-01-04 北京嘀嘀无限科技发展有限公司 行程安全评估方法、装置、服务器、计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816128A (zh) * 2019-01-30 2019-05-28 杭州飞步科技有限公司 网约车订单的处理方法、装置、设备及可读存储介质
CN110555536A (zh) * 2019-09-06 2019-12-10 南京领行科技股份有限公司 一种网约车订单的安全性预测方法、装置、设备和存储介质
CN110889738A (zh) * 2019-10-29 2020-03-17 南京领行科技股份有限公司 一种订单派发方法及装置

Also Published As

Publication number Publication date
CN111476421A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111966729B (zh) 一种车辆轨迹数据处理方法、装置、设备及存储介质
CN108346292B (zh) 基于卡口数据的城市快速路实时交通指数计算方法
Hans et al. Real-time bus route state forecasting using particle filter and mesoscopic modeling
Barabino et al. Rethinking bus punctuality by integrating Automatic Vehicle Location data and passenger patterns
CN111476421B (zh) 订单预测方法、装置、存储介质及设备
US20150339595A1 (en) Method and system for balancing rental fleet of movable asset
Xinghao et al. Predicting bus real-time travel time basing on both GPS and RFID data
CN109493449B (zh) 一种基于货车gps轨迹数据和高速交易数据的货车载货状态估计方法
CN104700630A (zh) 一种高速公路车流量的监测方法及系统
Oskarbski et al. Potential for ITS/ICT solutions in urban freight management
Zhang et al. Demand, supply, and performance of street-hail taxi
CN111476501A (zh) 装卸工程车的工作量计量方法、装置、设备及介质
CN115655301A (zh) 车辆导航路线的选取方法、装置、电子设备及介质
CN106251628A (zh) 一种确定机动车的交通出行量的方法及装置
Horbury Using non-real-time automatic vehicle location data to improve bus services
Sandim et al. Using GPS-based AVL data to calculate and predict traffic network performance metrics: A systematic review
CN113808414B (zh) 道路荷载确定方法、装置及存储介质
CN116862573B (zh) 基于增量训练的城际网约车短期出行需求预测方法及系统
Wu et al. Monitoring multimodal travel environment using automated fare collection data: data processing and reliability analysis
Brusselaers et al. A GPS-based approach to measure the environmental impact of construction-related HGV traffic on city level
Kho et al. A development of punctuality index for bus operation
Kaltsidis et al. A decision support system for taxi drivers
US20220262126A1 (en) Method, Computer Program, and Device for Processing Data Recorded by a Motor Vehicle
Papanikolaou Computing and Visualizing Taxi Cab Dynamics as Proxies for Autonomous Mobility on Demand Systems: The Case of the Chicago Taxi Cab System
Oleyaei-Motlagh et al. Inferring demand from partially observed data to address the mismatch between demand and supply of taxis in the presence of rain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221108