CN109583611B - 基于网约车数据的定制公交站点选址方法 - Google Patents
基于网约车数据的定制公交站点选址方法 Download PDFInfo
- Publication number
- CN109583611B CN109583611B CN201811377219.8A CN201811377219A CN109583611B CN 109583611 B CN109583611 B CN 109583611B CN 201811377219 A CN201811377219 A CN 201811377219A CN 109583611 B CN109583611 B CN 109583611B
- Authority
- CN
- China
- Prior art keywords
- travel
- data
- order
- time
- network appointment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000009412 basement excavation Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000238097 Callinectes sapidus Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004452 microanalysis Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网约车数据的定制公交站点选址方法,根据网约车数据提取了大量的出行信息,补充了定制公交公司的乘客出行需求收集方式;并创新地提出了交通出行小区概念,并将交通出行小区作为链接定制公交站点与网约车数据的桥梁,将体量较大的网约车数据简化为区域间流动与区域内部流动的概念,从而让定制公交站点选址精度大幅提升。
Description
技术领域
本发明涉及公共交通信息处理技术领域,更具体的说是涉及一种基于网约车数据的定制公交站点选址方法。
背景技术
在当今社会,环境问题和拥堵问题成为大型城市发展中亟待解决的两大问题。我国飞速发展带来的私家车保有量急剧上升为引发两大问题首要原因。各市虽依据实际情况采取了多样化的扩大公共交通资源方法,但市民的多元化出行需求同运行固定的传统公共交通方式产生了与日俱增的矛盾,出现了较多市民不能享受合适的公共交通资源等问题。
定制公交作为一种“专人专座,应需而生,准时高效,价格亲民”的出行新概念,一经提出以来,获得了飞速发展,仅北京市在2016年就开通了177条定制公交线路,完成了2年内累计运送200万人次的指标。定制公交需求收集工作主要通过手机APP、官网等渠道收集市民出行需求并以此作为站点及线路的制定基础,这种方法忽略了不了解定制公交但有需求的市民的出行需要,阻碍了定制公交的进一步发展。
网约车作为公共出行方式的补充,无论是提升调查精确度还是揭示出行需求集聚点,其乘客量和起讫信息都可为定制公交站点选址做出可靠的指导,故研究基于网约车数据的定制公交站点选址具有较强的现实意义,具体体现为:网约车数据可以用来有针对性的筛选定制公交服务调查的受众、网约车数据可为定制公交站点选址提供指导、网约车数据可发掘定制公交隐性需求者、网约车数据可作为定制公交开行计划的全局指导方针。
近年来,以滴滴为首的网约车平台获得了快速发展,快速的发展带来了大量的用户数据,而这些用户数据多保留了类似起点经纬度、讫点经纬度、起点时间、终点时间、车辆类型等数据。这些数据揭示了用户出行的OD分布的同时,也揭示了基础公共交通与人们日新月异的出行需求之间的矛盾,若能合理运用,便能为定制公交乃至传统公交提供较好的支持作用,故依托于网约车数据的定制公交站点选址发掘势在必行。
因此,如何依托于网约车数据进行定制公交站点的选址是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于网约车数据的定制公交站点选址方法,根据网约车数据提取了大量的出行信息,补充了定制公交公司的乘客出行需求收集方式;并创新地提出了交通出行小区概念,并将交通出行小区作为链接定制公交站点与网约车数据的桥梁,将体量较大的网约车数据简化为区域间流动与区域内部流动的概念,从而让定制公交站点选址精度大幅提升。
为了实现上述目的,本发明采用如下技术方案:
一种基于网约车数据的定制公交站点选址方法,包括:
第一步:采集网约车订单数据样本集和地图数据集:从原始出行数据中提取各订单ID、订单起点及终点的经纬度和订单起止时间作为网约车订单数据样本集;提取目标城市空间数据作为地图数据集;
第二步:数据拓展:计算各订单的起止时间差、以各订单的出行时刻计算日期标志和时辰标志、以各订单的起止GPS坐标计算地球表面距离作为出行距离,并为网约车订单数据样本集中的每条数据加上以上四个特征值;
第三步:对数据进行清洗;
第四步:出行高峰期的时间段发掘:以时辰标志为单位,统计每个时辰标志中的订单数量;以日期标志为单位,对不同时辰标志下的订单量数量进行环比分析,发掘出行高峰期在不同日期中的分布特点;之后分析订单在一天24小时内的分布特征,发掘出行高峰期在小时上的分布特点;通过分析一周数据间的差异寻找规划日期,并通过比较所有规划日期内的24个时辰标志内订单分布共性,发掘高峰期时间段;
第五步:出行高峰期的空间发掘:依据空间的经、纬度,分析第四步分析出的高峰期的出行方向及出行OD分布特征;
第六步:网约车数据的离群点判别:依据基于局部密度的空间离群点算法,寻找在定制公交站点选址当中产生较大误差的订单点,并删除该离群点;
第七步:交通出行小区的划分及分析:依据最大期望法对目标城市的交通出行小区数量进行拟合,并采取改进的聚类算法,以订单起点和订单终点分别初步划分出出行交通小区;统计各订单在同一交通出行小区内部的流动比与不同交通出行小区间的流动比,确定进行起、讫点选址的两个交通出行小区;
第八步:定制公交选址:设置站间距与线路运行长度,确定定制公交站点数量;以交通出行小区为单位,基于局部密度的空间离群点算法删除第七步所述的两个交通出行小区内的离群点;最后利用改进的聚类算法,对定制公交交通站点进行选址。
优选的,第三步对数据进行清洗,具体包括:剔除出行时间错误的记录,剔除出行起讫点为空值或0的记录,剔除出行时间为0的记录,剔除出行距离为0的记录,剔除起讫点不在目标城市内的记录。
优选的,在第一步采集网约车订单数据样本集和地图数据集之后以及第二步数据拓展之前,还包括:将目标城市的矢量地图与网约车订单数据样本集的空间坐标系统进行统一。
优选的,所述改进的聚类算法为改进的Kmeans算法,具体包括:
S1:从网约车数据样本集合中任意选取一个样本作为初始均值向量μ1;
S2:计算网约车订单数据样本集中每个样本与当前已有均值向量μ1的距离,按样本为单元,用D(x)表示最短距离,即样本与最近的一个均值向量的距离;
S3:重复步骤S2,直至找出k个均值向量。
优选的,第四步所述的平均每小时行驶距离为某一时辰标志下全部车辆的平均行驶距离与平均行驶时间之比,单位为公里每小时。
优选的,交通出行小区内部的流动比与不同交通出行小区间的流动比是根据起讫点是否在同一个交通小区内确定的。
优选的,在第四步出行高峰期的时间段发掘中,还包括:引入单位时间行驶距离概念,统计不同时辰标志下的平均每小时行驶距离,作为高峰期发掘的辅助方式。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于网约车数据的定制公交站点选址方法,具有如下优点:
(1)本发明结合网约车数据,针对海量订单,提取大量的出行信息,其数据的获取不需要大量的人工进行收集,方便快捷,降低了应用成本;
(2)本发明补充了定制公交公司的乘客出行需求收集方式,弥补了仅有的调查问卷、开发APP等收集方式的局限性,让乘客的出行需求能够得到合理体现,从而促进适合自己的定制公交线路实施,让公交公司的出行需求和挖掘需求得到满足,从而发掘出更多的潜在定制公交站点;
(3)本发明中间变量仅为订单起止时间差、订单日期标志、订单时辰标志、订单行驶距离,数据处理简单,成本低,并具有较高的准确度。
因此,综上所述,本发明提供的基于网约车数据的定制公交站点选址方法能够减低公交公司的收集成本,还能够充分利用网约车数据发掘出更多的潜在定制公交站点,从而达到公交公司和乘客的双赢。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的基于网约车数据的定制公交站点选址方法的流程图;
图2为本发明提供的快车及出租车产品线的每日订单情况图;
图3为本发明提供的快车产品线的每日通勤高峰期分析图;
图4为本发明提供的目标城市早高峰订单起点的离群点判别图;
图5为本发明提供的目标城市早高峰起点交通出行小区数量评价图;
图6为本发明提供的目标城市早高峰起点交通出行小区划分情况图;
图7为本发明提供的某交通小区定制公交起点及终点选址结果图;
图8为本发明提供的改进Kmeans算法和原Kmeans算法的聚类效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,本发明实施例公开了一种基于网约车数据的定制公交站点选址方法,具体包括如下步骤:
第一步,网约车数据采集及辅助信息采集:从原始出行数据中提取订单ID、订单起点及终点的经纬度、订单起止时间作为网约车订单数据样本集,所在城市的矢量地图作为辅助信息集。
第二步,数据预处理与数据拓展:在进行数据拓展前,首先要将城市的矢量地图与网约车订单数据样本集的空间坐标系统进行统一,常用的城市矢量地图为基于WGS84的地理数据,而网约车数据的地理坐标系常为火星坐标系,需要完成二者的统一,这里统一为WGS84坐标系。后以四舍五入的方式计算各订单的起止时刻差、以各订单的出行时刻计算日期标志和时辰标志、以各订单的起止GPS坐标计算的地球表面距离作为出行距离,并为每条数据增加上述四个特征值。
所述的日期标志是指一周内的哪一天(0,1,2,3,4,5,6分别代表周日、周一、……、周六)。
所述的时辰标志是指一天内的哪一个时辰(1,2,3,……,24分别代表1时、2时、3时、……、24时)。
所述的地球球面距离是指订单起点和订单终点之间的真实直线距离,用作衡量出行距离。
第三步,数据清洗:剔除出行时间错误的记录,剔除出行起讫点为空值或0的记录,剔除出行时间为0的记录,剔除出行距离为0的记录,剔除起讫点不在分析城市内的记录。
第四步,出行高峰期时间段的发掘:以时辰标志为单位,统计每个时辰标志中的订单数量,首先以日期标志为单位,对不同时辰标志下的订单量数量进行环比分析,发掘出行高峰期在不同日期中的分布特点。之后分析订单在一天24小时内的分布特征,发掘出行高峰期在小时上的分布特点;通过分析一周数据间的差异寻找规划日期,并通过比较所有规划日期内的24个时辰标志内订单分布共性,寻找高峰期时间段。之后,再引入单位时间行驶距离概念,统计不同时辰标志下的平均每小时行驶距离,作为高峰期发掘的辅助方式。
第五步:出行高峰期的空间发掘:依据空间的经、纬度,分析上述高峰期的出行方向及出行OD分布特征;
第六步,网约车数据的离群点判别:通过使用基于局部密度的空间离群点算法LOF异常点算法,对网约车数据的起讫点进行离群点判别,由于LOF算法的参数较数据的鲁棒性较好,故经过多次对比调参,可达到较好的离群点删除作用。
第七步,交通出行小区的划分及分析:依据最大期望法(EM)对分析城市的交通出行小区合理数量进行拟合,并采用改进的聚类算法,以订单起点和订单终点分别初步划分出出行交通小区。统计订单在交通出行小区内部的流动比与不同交通出行小区间的流动比,确定进行起、讫点选址的两个交通出行小区。
交通出行小区定义为,在早晚高峰等以通勤为主的时间段内,将整个城市的出行数据按起讫点分开,通过改进的聚类算法等方式进行划分而形成的需求点集聚群,其划分边界为点集中最外部点的平滑连线。
交通出行小区内(外)部的流动比是根据起讫点是否都在同一交通小区来确定。
改进的聚类算法为改进的Kmeans算法,在保留原始Kmeans算法特点上,将初始簇中心初始化工作改进为引入轮盘赌的方式选定初始特征向量,从而得到更合理分布的分类,具体流程如下:
S1:从网约车订单数据样本集中任意选取一个样本作为初始均值向量μ1;
S2:计算网约车订单数据样本集中每个样本与当前已有均值向量μ1的距离,按样本为单元,用D(x)表示最短距离,即样本与最近的一个均值向量的距离;
S3:重复步骤S2,直至找出k个均值向量。
由于在初始均值向量选取时打破了传统Kmeans算法的贪婪性,Kmeans++算法具备了对于不同数据更好的鲁棒性,从而在聚类结果上具备了更高的可行性,如图8所示,改进Kmeans算法对比Kmeans算法而言较大的提升了聚类结果的科学性。
第八步,定制公交站点选址:通过设置合理的站间距与线路运行长度,确定合理的定制公交站点数量。后利用局部密度的空间离群点算法判别,以交通出行小区为单位,删除(两个)交通出行小区内的离群点。最终利用改进的聚类算法,对定制公交交通站点进行选址。
下面结合具体实例来进一步说明本发明提供的基于网约车数据的定制公交站点的选址方法。
在本实施例中,为了方便本发明的参数理解及算法体现,对各个步骤中的具体基础数据进行具体说明。
网约车数据由北京市滴滴公司提供,包括订单ID、司机ID、车辆ID、城市名称、订单起点经度、订单起点纬度、订单终点经度、订单终点纬度、司机点击‘开始计费’的时间、订单完成时间和产品线。本实例提取2016年12月22日到2016年12月24日的产品线为出租车及快车数据,一个订单ID对应一组数据,其涉及到的基础数据格式如表一所示。北京市地理信息数据由北京市滴滴公司提供,主要涉及到北京市的已建成区域分布、区划分布及道路网结构等空间地理数据。网约车数据的数据结构请参见表1。
表1网约车订单数据样本集中数据结构
数据处理主要包括以下几步:
1、数据预处理与数据拓展。
数据的预处理是将滴滴公司提供的网约车起讫点的经纬度转化为北京市地理信息数据使用的坐标系下的值。由于本案例中滴滴公司使用的经纬度投影体系为火星坐标系,而北京市地理信息数据使用的坐标系为全球通用的WGS84坐标系,故选取精度高的转化算法,将滴滴公司提供订单的起讫点重新利用WGS84坐标系进行投影,从而完成两者坐标系的统一化。
数据的拓展是以每个出行订单为单位进行拓展计算。例如根据“网约车订单数据样本集”中的司机点击‘开始计费’的时间和订单完成时间两个数据以四舍五入的方式计算各订单的起止时刻差作为出行时间;根据“网约车订单数据样本集”中的司机点击‘开始计费’的时间计算日期标志和时辰标志;根据“网约车订单数据样本集”中订单起点经度、订单起点纬度、订单终点经度、订单终点纬度以地球球面距离公式计算订单的行驶距离。
2、数据清洗
在数据预处理与数据拓展后得到的数据集的基础上,剔除出行时间错误的记录、出行起讫点为空值或0的记录、出行时间为0的记录、出行距离为0的记录及起讫点不在分析城市内的记录。
3、出行高峰期的发掘
首先,这三天的日期标志涵盖了工作日及休息日,遂首先从比较不同日期标志下,订单量在不同时辰标志的分布确定开通定制公交的日期。关于滴滴公司提供的数据在不同日期上的各时辰订单总量分布图如图2所示,两个工作日展现了相同的时辰订单总量分布特征,而休息日则展示了截然不同的分布特征,故选择规划定制公交站点的日期为工作日。
其次,对于每天中24个时辰标志下出行订单的平均出行距离、平均出行时间进行统计,并使用平均单位时间出行距离作为佐证,将两个工作日的分步进行对比论证。两个工作日表现出了高度吻合的趋势,并且平均单位时间出行距离佐证了这一结论,从而最终将高峰期的时间定义在早6点到10点和晚15点到17点。其分布趋势如图3所示。
网约车数据的离群点判别工作利用基于空间局部密度的LOF算法,该算法迭代的对数据集中每一个点进行筛查,通过对比其与周围K个点的密度关系计算出它的离群因子值,从而判断是否将对应点视为离群点。该算法基于表征某个点为离群点所需的比较某点周围点个数K以及将某点视为为局部离群点的局部离群因子lof分界值,对不同体量的数据达到了良好的鲁棒性,并可通过对比论证得到较精确的取值。
以北京市早高峰起点的坐标分布为例,首先对K值和离群因子值各选定六个可选参数,后通过对不同参数结合时的对比论证,可发现良好的离群点判别参数组合,最终得到如图4的离群点分析图,其中红色圈为离群点,蓝色点为正常订单点,其去除率仅为全部初始订单的4%,但较为精确地删除了对于后续交通出行小区划分,尽可能多的保留了对于后续交通出行小区划分的样本点。
经过离群点划分后,交通出行小区的划分工作基于改进后的聚类算法。该算法对比一般的聚类算法,创新性的在初始中心点选择上引入了轮盘赌法,从而尽可能避免陷入局部最优解,保障了交通出行小区划分的精确度。
首先,以北京市经过离群点分析后的早高峰起点的坐标分布为例,首先根据空间聚集特征,利用最大期望算法对交通小区的个数进行估计,其结果图如图5所示,得到最优的交通小区个数为20个。
参见附图5,本方法主要使用了R语言的mclust包进行分析,其中BIC值是包作者重新定义的,其认为聚类分析中簇的划分问题可以转化为,将簇视为一个高斯模型且每一个高斯模型都有其自己的分布参数θk和该模型在整体数据模型中的比重πk,并将要划分的簇个数视为高斯模型的个数G,最终共同组成整体数据的模型M。作者通过引入高斯混合模型,利用极大似然估计,寻找最优参数集合{M,G},其中M为整体数据的模型,包含最优参数在选择最优参数集合{M,G}上,该作者给出了重新定义的信息标准评价值BICM,G,其公式如下所示:
θk为第k个高斯模型的分布参数,πk为第k个高斯模型的比重;
G为整体中包含的高斯模型个数,即簇个数;
v为高斯模型中待估参数的数目;
n为样本值的数量,在此为网约车订单数据样本集的数据样本数目;
在R语言的mclust包中,其对于BIC的定义与传统BIC定义方向是相反的,故BICM,G值越大越好,其值也对应着图示中的纵坐标BICM,G值。
同时,规定的14个指标分别对应于不同簇特征的合理组合,如在描述簇中样本的分布特性中有“椭圆分布”、“圆形分布”等、描述簇的大小上有“每个簇大小都相同”、“每个粗大小各自不同”等,分别从簇的形状、样本分布特征、簇斜对角线特征,簇间的大小关系四个方面,通过组合特征,从多个不同情况下的簇来进行评价。
之后,改进后的聚类算法参数值便得到了确定,后对于北京市经过离群点分析后的早高峰起点的坐标使用,并将每个点集中最外部点的平滑连线,得到了交通小区分布如图6所示,可以看到,其分布与城市的建成区精确地吻合,也反馈出本专利设计的精确性。
最后,统计订单在交通出行小区内部的流动比与不同交通出行小区的流动比,指定进行选址的交通出行小区(对)。通过对于北京市交通出行小区划分结果及其订单出行OD统计,本实施例选择某个交通出行小区的区域内流动比达93%的交通出行小区,进行区域内部出行的定制公交站点选址示例。
5、交通出行小区的划分及分析
以北京市为例,经过交通出行小区的划分及分析后,选择交通出行小区内部流动比达93%的交通出行小区进行划分示例。通过再次使用最大期望算法,并结合公交线路及站点距要求,将定制公交的站点划分为14个,各含起点8个,终点4个,并通过改进后的聚类算法,得到最终站点选址如图7。其中,图7的定制公交线路满足了20名居民的出行需求,且运行轨迹长度合理,乘客行走距离低于300米,利于定制公交公司合理派车。
本发明为基于网约车数据的定制公交站点选址方法,其具有易实施性、高拓展性及较高准确度。本发明中引入的空间离群点判别保障了交通出行小区划分的较高精确度,同时交通出行小区又作为数据体量巨大时微观分析与宏观分析的桥梁,快速的基于网约车数据完成指定区域内(间)的定制公交站点选址工作。需要指出的是,实施例中选择的交通出行小区订单量仅在全部交通出行小区数量中位居后位,并且数据集中仅包括滴滴公司一家数据,收集日期处在网约车大幅发展前的时期,若应用在交通出行需求数据量日益剧增的今日,该专利具有更为广阔的前景。该专利可以作为定制公交公司乃至传统公交公司对于站点选择及线路拓展的辅助功能,能够让乘客的出行需求能够得到合理体现从而促进适合自己的定制公交线路实施,并让公交公司的出行需求挖掘需求得到满足从而发掘出更多的潜在定制公交站点,达到双赢的目的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于网约车数据的定制公交站点选址方法,其特征在于,包括:
第一步:采集网约车订单数据样本集和地图数据集:从原始出行数据中提取各订单ID、订单起点及终点的经纬度和订单起止时间作为网约车订单数据样本集;提取目标城市空间数据作为地图数据集;
第二步:数据拓展:计算各订单的起止时间差、以各订单的出行时刻计算日期标志和时辰标志、以各订单的起止GPS坐标计算地球表面距离作为出行距离,并为网约车订单数据样本集中的每条数据加上以上四个特征值;
第三步:对数据进行清洗;
第四步:出行高峰期的时间段发掘:以时辰标志为单位,统计每个时辰标志中的订单数量;以日期标志为单位,对不同时辰标志下的订单量数量进行环比分析,发掘出行高峰期在不同日期中的分布特点;之后分析订单在一天24小时内的分布特征,发掘出行高峰期在小时上的分布特点;通过分析一周数据间的差异寻找规划日期,并通过比较所有规划日期内的24个时辰标志内订单分布共性,发掘高峰期时间段;
第五步:出行高峰期的空间发掘:依据空间的经、纬度,分析第四步分析出的高峰期的出行方向及出行OD分布特征;
第六步:网约车数据的离群点判别:依据基于局部密度的空间离群点算法,寻找在定制公交站点选址当中产生较大误差的订单点,并删除该离群点;
第七步:交通出行小区的划分及分析:依据最大期望法对目标城市的交通出行小区数量进行拟合,并采取改进的聚类算法,以订单起点和订单终点分别初步划分出出行交通小区;统计各订单在同一交通出行小区内部的流动比与不同交通出行小区间的流动比,确定进行起、讫点选址的两个交通出行小区;
其中,交通出行小区定义为,在早晚高峰通勤的时间段内,将整个城市的出行数据按起讫点分开,通过改进的聚类算法进行划分而形成的需求点集聚群,其划分边界为点集中最外部点的平滑连线;
交通出行小区内外部的流动比是根据起讫点是否都在同一交通小区来确定;
第八步:定制公交选址:设置站间距与线路运行长度,确定定制公交站点数量;以交通出行小区为单位,基于局部密度的空间离群点算法删除第七步所述的两个交通出行小区内的离群点;最后利用改进的聚类算法,对定制公交交通站点进行选址;
所述改进的聚类算法为改进的Kmeans算法,具体包括:
S1:从网约车订单数据样本集中任意选取一个订单样本作为初始均值向量μ1;
S2:计算网约车订单数据样本集中每个样本与当前已有均值向量μ1的距离,按样本为单元,用D(x)表示最短距离,即样本与最近的一个均值向量的距离;
S3:重复步骤S2,直至找出k个均值向量。
2.根据权利要求1所述的基于网约车数据的定制公交站点选址方法,其特征在于,第三步对数据进行清洗,具体包括:剔除出行时间错误的记录,剔除出行起讫点为空值或0的记录,剔除出行时间为0的记录,剔除出行距离为0的记录,剔除起讫点不在目标城市内的记录。
3.根据权利要求1所述的基于网约车数据的定制公交站点选址方法,其特征在于,在第一步采集网约车订单数据样本集和地图数据集之后以及第二步数据拓展之前,还包括:将目标城市的矢量地图与网约车订单数据样本集的空间坐标系统进行统一。
4.根据权利要求1所述的基于网约车数据的定制公交站点选址方法,其特征在于,交通出行小区内部的流动比与不同交通出行小区间的流动比是根据起讫点是否在同一个交通小区内确定的。
5.根据权利要求1所述的基于网约车数据的定制公交站点选址方法,其特征在于,其特征在于,在第四步出行高峰期的时间段发掘中,还包括:引入单位时间行驶距离概念,统计不同时辰标志下的平均每小时行驶距离,作为高峰期发掘的辅助方式。
6.根据权利要求5所述的基于网约车数据的定制公交站点选址方法,其特征在于,第四步所述的平均每小时行驶距离为某一时辰标志下全部车辆的平均行驶距离与平均行驶时间之比,单位为公里每小时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377219.8A CN109583611B (zh) | 2018-11-19 | 2018-11-19 | 基于网约车数据的定制公交站点选址方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377219.8A CN109583611B (zh) | 2018-11-19 | 2018-11-19 | 基于网约车数据的定制公交站点选址方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109583611A CN109583611A (zh) | 2019-04-05 |
CN109583611B true CN109583611B (zh) | 2021-06-01 |
Family
ID=65922895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811377219.8A Active CN109583611B (zh) | 2018-11-19 | 2018-11-19 | 基于网约车数据的定制公交站点选址方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583611B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543535B (zh) * | 2019-08-13 | 2023-05-23 | 东南大学 | 一种基于网约车检索请求数据的交通小区划分方法 |
CN110689804B (zh) * | 2019-10-10 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN112883126A (zh) * | 2019-11-29 | 2021-06-01 | 京东安联财产保险有限公司 | 社区中心的选择方法及相关设备 |
WO2022174434A1 (zh) * | 2021-02-22 | 2022-08-25 | 长安大学 | 基于lstm的滴滴订单需求预测方法及装置 |
CN113139030B (zh) * | 2021-04-27 | 2022-01-25 | 北京交通发展研究院 | 公交微循环线路确定方法、装置、计算机设备及存储介质 |
CN113283754A (zh) * | 2021-05-27 | 2021-08-20 | 哈尔滨工业大学(深圳) | 一种车站选址方法、装置、计算设备和存储介质 |
CN114186146B (zh) * | 2021-12-14 | 2023-06-30 | 武汉理工大学 | 带容量限制的网约车服务网点选址方法及系统 |
CN114626682A (zh) * | 2022-02-17 | 2022-06-14 | 华录智达科技股份有限公司 | 一种考虑聚集区域的城市公交线网规划方法 |
CN118211742B (zh) * | 2024-05-20 | 2024-08-20 | 北京市交通运输综合执法总队执法保障中心 | 接驳轨道交通的绿色出行方式规划方法、装置和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810270A (zh) * | 2014-01-28 | 2014-05-21 | 广东省电信规划设计院有限公司 | 跟踪区优化划分方法和装置 |
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN107609677A (zh) * | 2017-08-17 | 2018-01-19 | 华侨大学 | 一种基于出租车gps大数据的定制公交线路规划方法 |
CN108053062A (zh) * | 2017-12-11 | 2018-05-18 | 北京航空航天大学 | 一种基于多源数据的定制公交线路生成方法 |
CN108831149A (zh) * | 2018-06-14 | 2018-11-16 | 重庆同济同枥信息技术有限公司 | 一种基于历史od信息定制公交线路开行方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122190A1 (en) * | 2012-10-31 | 2014-05-01 | Ouri Wolfson | System and methods for detection and selection of a resource among available resources |
-
2018
- 2018-11-19 CN CN201811377219.8A patent/CN109583611B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810270A (zh) * | 2014-01-28 | 2014-05-21 | 广东省电信规划设计院有限公司 | 跟踪区优化划分方法和装置 |
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN107609677A (zh) * | 2017-08-17 | 2018-01-19 | 华侨大学 | 一种基于出租车gps大数据的定制公交线路规划方法 |
CN108053062A (zh) * | 2017-12-11 | 2018-05-18 | 北京航空航天大学 | 一种基于多源数据的定制公交线路生成方法 |
CN108831149A (zh) * | 2018-06-14 | 2018-11-16 | 重庆同济同枥信息技术有限公司 | 一种基于历史od信息定制公交线路开行方法及系统 |
Non-Patent Citations (4)
Title |
---|
Urban night bus routes planning with taxi traces;Yang Ling; Jia Zong-fu; Jiang Shou-xu; Ren Xiang-min; Zhang Fu-s;《2017 12th International Conference on Computer Science and Education (ICCSE)》;20171030;全文 * |
基于GPS数据的出租车通勤识别及时空特征分析;付鑫 等;《中国公路学报》;20170731;全文 * |
基于网约车数据的定制公交站点选址研究;霍恩泽 等;《2019世界交通运输大会论文集(上)》;20190613;全文 * |
定制公交线路和站点规划研究;王飞;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109583611A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583611B (zh) | 基于网约车数据的定制公交站点选址方法 | |
Kong et al. | Mobility dataset generation for vehicular social networks based on floating car data | |
CN102595323B (zh) | 基于手机定位数据的居民出行特征参数的获取方法 | |
CN108053240B (zh) | 生成车载广告投放公交线路方案的方法及装置 | |
WO2015096400A1 (zh) | 一种利用移动通信数据挖掘进行公交规划的方法 | |
Kong et al. | RMGen: A tri-layer vehicular trajectory data generation model exploring urban region division and mobility pattern | |
CN113554353B (zh) | 一种避免空间淤积的公共自行车空间调度优化方法 | |
Huang | Data integration for urban transport planning | |
Ji et al. | A spatial-temporal model for locating electric vehicle charging stations | |
Yun et al. | Taxi cab service optimization using spatio-temporal implementation to hot-spot analysis with taxi trajectories: a case study in Seoul, Korea | |
Tian et al. | Identifying residential and workplace locations from transit smart card data | |
Schüßler et al. | Model-based estimation of private charging demand at public charging stations | |
Vitale et al. | A smartphone based DSS platform for assessing transit service attributes | |
Tica et al. | Analytics Use Cases for Landside Traffic Optimization in the Catchment Area of the Airport: Case Study of Zagreb Airport | |
Saibene et al. | Bike usage in public bike-sharing: An analysis of the “BikeMi” system in Milan | |
Banet | Using data on bike-sharing system user stopovers in smart tourism: A case study | |
Qin et al. | A Spatio-Temporal Perspective on Commercial Vehicle Travel Patterns in Urban Environments | |
Zhengdong | Data integration for urban transport planning | |
Zhu et al. | Development of destination choice model for taxi passengers in Shanghai, China | |
Rančić et al. | Online and post-processing of AVL data in public bus transportation system | |
Barahona | Assessing the Impact of Ridesourcing Transportation Services on Mobility and the Taxi Industry in Global Cities by Leveraging Big Data | |
Orvin | Bicyclists’ travel behavior analysis: modeling bicycling demand, speed choice, destination choice, and usage of shared mobility services | |
Albustanji et al. | A GIS Approach for Revealing Urban Mobility Hotspots: A Case Study of Amman City in Jordan | |
Sarıyüz | Deriving public transit (PT) reliability measures using smart card data: 2 case study PT lines from Konya city | |
Caros | Leveraging spatial relationships and visualization to improve public transit performance analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |