CN106910103A - 一种公共自行车系统租赁点功能聚类方法 - Google Patents
一种公共自行车系统租赁点功能聚类方法 Download PDFInfo
- Publication number
- CN106910103A CN106910103A CN201710013892.2A CN201710013892A CN106910103A CN 106910103 A CN106910103 A CN 106910103A CN 201710013892 A CN201710013892 A CN 201710013892A CN 106910103 A CN106910103 A CN 106910103A
- Authority
- CN
- China
- Prior art keywords
- rental
- point
- points
- leasing
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005065 mining Methods 0.000 claims abstract 2
- 238000009826 distribution Methods 0.000 claims description 74
- 230000000694 effects Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002902 bimodal effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000008092 positive effect Effects 0.000 abstract 1
- 230000002123 temporal effect Effects 0.000 abstract 1
- 238000007418 data mining Methods 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种公共自行车系统租赁点功能聚类方法。本发明包含以下步骤:步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。步骤3、使用LDA算法和K‑means算法对租赁点进行租赁点功能识别。步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。本发明的积极效果是:为公共自行车未来的规划提出依据;指导用户使用公共自行车;可以指导商业和广告的建立,具有较好的行业应用前景。
Description
技术领域
本发明属于交通规划中公共自行车系统规划领域,尤其涉及一种公共自行车系统租赁点功能聚类方法。
背景技术
城区的功能识别是指利用城市运行数据和动态特征,对于城市的各个不同区域按照其在城市中所承担的功能进行识别和标注。它是城市规划的主要组成部分,可以帮助人们了解城市内在的发展规律,开展城市规划,指导城市建设发展。但是,城市功能区域发现这类研究是十分困难的:城市居民活动复杂,城市功能区域并不单一,所以很难准确定义一块区域的具体功能;传统的方法多为用户调研,实地统计,这无疑是非常耗时、耗力;而最近采用的研究对象——城市数据的种类繁多、规模庞大、多粒度、多维度等特征,想要从中发现规律是非常困难的;由于城市功能区域本身不能直接观测,所以很难去验证算法的有效性和正确性。
随着公共自行车系统的普及和发展,积累了越来越多的使用数据,公共自行车系统的使用记录数据蕴含着丰富的人群移动信息:不仅蕴含了用户的移动,而且它反应出了用户在不同的时间不同的地点的社会经济活动。租赁点所具有的功能和城市的区域功能具有相似性,都是用户为了满足一定的目的,在空间和时间上进行聚集。开展城市区域功能发现是一项繁重的任务,公共自行车系统的使用用户只是城市中的一小部分居民,通过这些数据去进行城市功能区域发现无疑是不准确的,但是本发明提出了的方法不是去进行城市功能区域发现,而是根据使用数据去对租赁点进行功能聚类,识别租赁点的使用模式,进而以便于系统管理者进行车站平衡调度和新租赁点的部署等。
区别于其它文献的公共自行车聚类算法,本发明提出的算法充分考虑到用户的使用模式反应了租赁点的功能特征,从用户积累的使用数据角度对租赁点进行聚类。LDA(Latent Dirichlet Allocation)模型作为一种机器学习技术,可以挖掘出文本中潜在的隐含信息,本发明将每个租赁点作为一个文本,用户在租赁点发生的借/还车行为作为文本的单词,文本的主题作为租赁点所具有的功能。同时,为了进一步得出聚类结果,利用k-means算法对LDA模型产生的主题分布概率进行聚类。
总的说来,现有的公共自行车聚类方法只是利用租赁点的位置属性和单个站点的使用数据进行聚类,但公共自行车系统是为用户服务并且各个租赁点和其它租赁点间具有相关性,应充分利用租赁点之间的联系,采用数据挖掘算法可进一步提高聚类的有效性。结合LDA模型和k-means算法可以有效解决公共自行车系统租赁点功能聚类问题。
发明内容
本发明的目的是针对现有技术的不足,为了充分融合LDA与k-means的优点,提高公共自行车功能聚类的有效性,本发明提出了一种公共自行车系统租赁点功能聚类方法。
本发明解决其技术问题所采的技术方案包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别。
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS)。
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
生成文档的长度Ns,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
生成该主题对应的单词
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数;代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;代表编号为k的主题之上的词分布;代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;代表每个主题的词分布的先验分布Dirichlet分布的参数;为通过租赁点的使用模式转化租赁点所具有的单词。
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下φ概率排序从高到底top n特征词:.twords。
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn;
3-2-2.对于每一个文档i,计算该文档应该属于的类:
C(i)=arg minj||x(i)-μj||2
对于每一个类j,重新计算该类的质心点:
3-2-3.重复步骤3-2-2,直到该类的质心点收敛。
步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point ofInterest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、、居住、旅游等,具体的实现步骤如下:
4-1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
4-2-2.公共租赁点一共有S个,计算任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the p-thPOI∈Si||为第p类POI出现在不同租赁点的数量。为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
本发明有益效果如下:
本发明利用了LDA模型与k-means这两个经典数据挖掘方法,并且公共自行车系统与LDA模型的适用条件能够很好的契合,因而能够运用LDA来科学地租赁点进行功能聚类。该发明可以实现各种各样的应用:用户可以快速地了解分布在一个城市中不同租赁点的功能,(公共自行车是一种绿色的、有趣的交通工具,在旅游区使用公共自行车可以给人们带来舒适的旅行体验);为公共自行车未来的规划提出依据(建设新的租赁点,扩充/减少租赁点容量等);指导用户使用公共自行车(每个租赁点所代表的功能区域可以指出租赁点的“潮汐”状态);可以指导商业和广告的建立(具有“旅游”功能的租赁点可以增加广告摊位或者在附近建设商店等设施)。
附图说明
图1为公共自行车系统功能聚类方法图。
图2为使用吉布斯采样估计LDA分布过程。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,一种公共自行车系统租赁点功能聚类方法,包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别。
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.sD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XsD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS)。
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
生成文档的长度Ns,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
生成该主题对应的单词
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数;代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;代表编号为k的主题之上的词分布;代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;代表每个主题的词分布的先验分布Dirichlet分布的参数;为通过租赁点的使用模式转化租赁点所具有的单词。
本发明使用吉布斯采样估计LDA分布,如图2所示流程,初始时随机给文本中的每个单词分配主题z(0),然后统计每个主题z下出现的词t数,每个文档s下出现的主题z中的词的数量,每一轮计算即根据其他词的主题分布和观察到的单词来计算当前词主题的概率:
其中,是词汇t被赋予主题k的次数,βt每个主题的词分布的先验分布Dirichlet分布的参数,是语料库中的所有词汇被主题k的次数,是文档s中的所有词汇被赋予主题k的总次数。
当得到当前词属于所有主题z的概率分布后,根据这个概率再分配一个新的主题z(1)。然后循环直到发现每个文档下的代表编号为K的主题之上的词分布,代表第s篇文档的主题分布。
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布中:.phi;每个主题下中概率排序从高到底top n特征词:.twords。
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn;
3-2-2.对于每一个文档i,计算该文档应该属于的类
C(i)=arg minj||x(i)-μj||2.
对于每一个类j,重新计算该类的质心点:
3-2-3.重复步骤3-2-2,直到该类的质心点收敛。
步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point ofInterest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、居住、旅游等。具体的实现步骤如下:
4-1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
4-2-2.本发明所研究的公共租赁点一共有S个,所以,可以求得任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the p-thPOI∈Si||为第p类POI出现在不同租赁点的数量。为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
Claims (4)
1.一种公共自行车系统租赁点功能聚类方法,其特征在于包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析;
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”;
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别;
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
2.根据权利要求1所述的一种公共自行车系统租赁点功能聚类方法,其特征在于步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻;
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD);
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD;根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS);
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=‖{MO={x,y,z}|x=s,y=i,z=k‖,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=‖{MD={x,y,z}|x=i,y=s,z=k‖,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量;
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词;
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇;根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs);以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi;在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
3.根据权利要求1所述的一种公共自行车系统租赁点功能聚类方法,其特征在于步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
生成文档的长度NS,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
生成该主题对应的单词
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数;代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;代表编号为k的主题之上的词分布;代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;代表每个主题的词分布的先验分布Dirichlet分布的参数;为通过租赁点的使用模式转化租赁点所具有的单词;所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:
每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下φ概率排序从高到底top n特征词:.twords;
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,…,μk∈Rn;
3-2-2.对于每一个文档i,计算该文档应该属于的类
C(i)=argminj||x(i)-μj||2.
对于每一个类j,重新计算该类的质心点:
3-2-3.重复步骤3-2-2,直到该类的质心点收敛。
4.根据权利要求1所述的一种公共自行车系统租赁点功能聚类方法,其特征在于步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI数据,以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:通勤、娱乐、就餐、居住、旅游;具体的实现步骤如下:
4-1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态;
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点;对于一个城市来说:商业区、住宅区和文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能;
4-2-2.本公共租赁点一共有S个,计算得出任意一个租赁点(1…i…S)所具有的POI分布统计,对于任意租赁点Si,我们能够求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,‖Si|the p-thPOI∈Si‖为第p类POI出现在不同租赁点的数量;为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710013892.2A CN106910103B (zh) | 2017-01-09 | 2017-01-09 | 一种公共自行车系统租赁点功能聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710013892.2A CN106910103B (zh) | 2017-01-09 | 2017-01-09 | 一种公共自行车系统租赁点功能聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106910103A true CN106910103A (zh) | 2017-06-30 |
CN106910103B CN106910103B (zh) | 2021-06-01 |
Family
ID=59207450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710013892.2A Active CN106910103B (zh) | 2017-01-09 | 2017-01-09 | 一种公共自行车系统租赁点功能聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106910103B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256101A (zh) * | 2018-01-31 | 2018-07-06 | 东南大学 | 一种基于公共自行车刷卡数据和poi数据识别租赁者通勤od的方法 |
CN108664995A (zh) * | 2018-04-18 | 2018-10-16 | 宁波工程学院 | 基于DBScan的多粒度城市公共自行车调度方法及系统 |
CN109034628A (zh) * | 2018-08-01 | 2018-12-18 | 长兴华阁耐物流装备有限公司 | 一种城市公共自行车系统的过载判断方法 |
CN110378519A (zh) * | 2019-06-26 | 2019-10-25 | 北京物资学院 | 一种公共自行车站点车辆数量的配置方法及装置 |
CN110929783A (zh) * | 2019-11-21 | 2020-03-27 | 同济大学 | 基于共享对象的租还数据的用地属性分类方法 |
CN112035707A (zh) * | 2020-08-17 | 2020-12-04 | 深圳市中盛瑞达科技有限公司 | 一种作业转换方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637358A (zh) * | 2012-04-19 | 2012-08-15 | 浙江大学 | 立足市民满意度的公共自行车服务系统及调度配送方法 |
KR20120107703A (ko) * | 2011-03-22 | 2012-10-04 | 아이온텍주식회사 | 공공자전거 관리방법 및 시스템 |
JP5299828B2 (ja) * | 2000-08-18 | 2013-09-25 | 清昭 河西 | 自転車レンタルシステム |
KR20130121408A (ko) * | 2012-04-27 | 2013-11-06 | 주식회사 빅텍 | 공공 자전거의 대중교통 환승 서비스 방법 |
CN104318081A (zh) * | 2014-10-10 | 2015-01-28 | 东南大学 | 一种城市重需求性公共自行车租赁点车辆配置方法 |
CN104376327A (zh) * | 2014-11-05 | 2015-02-25 | 南京师范大学 | 一种公共自行车租赁点的聚类方法 |
CN105205623A (zh) * | 2015-10-29 | 2015-12-30 | 杭州电子科技大学 | 基于区间弱耦合度的公共自行车站点调度区域划分方法 |
CN106127231A (zh) * | 2016-06-16 | 2016-11-16 | 中国人民解放军国防科学技术大学 | 一种基于信息交互网络的犯罪个体识别方法 |
-
2017
- 2017-01-09 CN CN201710013892.2A patent/CN106910103B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5299828B2 (ja) * | 2000-08-18 | 2013-09-25 | 清昭 河西 | 自転車レンタルシステム |
KR20120107703A (ko) * | 2011-03-22 | 2012-10-04 | 아이온텍주식회사 | 공공자전거 관리방법 및 시스템 |
CN102637358A (zh) * | 2012-04-19 | 2012-08-15 | 浙江大学 | 立足市民满意度的公共自行车服务系统及调度配送方法 |
KR20130121408A (ko) * | 2012-04-27 | 2013-11-06 | 주식회사 빅텍 | 공공 자전거의 대중교통 환승 서비스 방법 |
CN104318081A (zh) * | 2014-10-10 | 2015-01-28 | 东南大学 | 一种城市重需求性公共自行车租赁点车辆配置方法 |
CN104376327A (zh) * | 2014-11-05 | 2015-02-25 | 南京师范大学 | 一种公共自行车租赁点的聚类方法 |
CN105205623A (zh) * | 2015-10-29 | 2015-12-30 | 杭州电子科技大学 | 基于区间弱耦合度的公共自行车站点调度区域划分方法 |
CN106127231A (zh) * | 2016-06-16 | 2016-11-16 | 中国人民解放军国防科学技术大学 | 一种基于信息交互网络的犯罪个体识别方法 |
Non-Patent Citations (2)
Title |
---|
周素静: "基于聚类分析法的公共自行车服务系统研究", 《郑州铁路职业技术学院学报》 * |
董红召: "基于关联规则的公共自行车调度区域聚类划分", 《科技通报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256101A (zh) * | 2018-01-31 | 2018-07-06 | 东南大学 | 一种基于公共自行车刷卡数据和poi数据识别租赁者通勤od的方法 |
CN108256101B (zh) * | 2018-01-31 | 2020-07-28 | 东南大学 | 基于公共自行车刷卡数据和poi识别通勤od的方法 |
CN108664995A (zh) * | 2018-04-18 | 2018-10-16 | 宁波工程学院 | 基于DBScan的多粒度城市公共自行车调度方法及系统 |
CN109034628A (zh) * | 2018-08-01 | 2018-12-18 | 长兴华阁耐物流装备有限公司 | 一种城市公共自行车系统的过载判断方法 |
CN109034628B (zh) * | 2018-08-01 | 2022-10-25 | 长兴华阁耐物流装备有限公司 | 一种城市公共自行车系统的过载判断方法 |
CN110378519A (zh) * | 2019-06-26 | 2019-10-25 | 北京物资学院 | 一种公共自行车站点车辆数量的配置方法及装置 |
CN110929783A (zh) * | 2019-11-21 | 2020-03-27 | 同济大学 | 基于共享对象的租还数据的用地属性分类方法 |
CN110929783B (zh) * | 2019-11-21 | 2023-04-07 | 同济大学 | 基于共享对象的租还数据的用地属性分类方法 |
CN112035707A (zh) * | 2020-08-17 | 2020-12-04 | 深圳市中盛瑞达科技有限公司 | 一种作业转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106910103B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106910103B (zh) | 一种公共自行车系统租赁点功能聚类方法 | |
Etienne et al. | Model-based count series clustering for bike sharing system usage mining: a case study with the Vélib’system of Paris | |
Yuan et al. | Discovering urban functional zones using latent activity trajectories | |
Yuan et al. | Discovering regions of different functions in a city using human mobility and POIs | |
Du et al. | Catch me if you can: Detecting pickpocket suspects from large-scale transit records | |
Gao et al. | Understanding urban traffic-flow characteristics: a rethinking of betweenness centrality | |
US20140089036A1 (en) | Dynamic city zoning for understanding passenger travel demand | |
CN107656987B (zh) | 一种基于lda模型的地铁站点功能挖掘方法 | |
CN114897444B (zh) | 一种城市分区域内服务设施需求识别方法及系统 | |
CN106952105A (zh) | 一种基于迁移学习的商铺最优化选址方法 | |
Meng et al. | Influence of socio-demography and operating streetscape on last-mile mode choice | |
Zhang et al. | iBike: Intelligent public bicycle services assisted by data analytics | |
Zhu et al. | Inferring travel purpose from crowd-augmented human mobility data | |
Li et al. | A top–bottom clustering algorithm based on crowd trajectories for small group classification | |
Fu et al. | Integration of dockless bike-sharing and metro: Prediction and explanation at origin-destination level | |
CN115796331A (zh) | 基于多模态城市知识图谱的城市资源预测方法及系统 | |
Li et al. | Factors affecting bike-sharing behaviour in Beijing: price, traffic congestion, and supply chain | |
Li et al. | GACNet: A Generative Adversarial Capsule Network for Regional Epitaxial Traffic Flow Prediction. | |
Jiao et al. | Understanding the land use function of station areas based on spatiotemporal similarity in rail transit ridership: A case study in Shanghai, China | |
Liu et al. | Concordance between regional functions and mobility features using bike-sharing and land-use data near metro stations | |
Zhang et al. | Detecting hotspots of urban residents’ behaviours based on spatio-temporal clustering techniques | |
Ceccarelli et al. | Deep learning video analytics for the assessment of street experiments: The case of bologna | |
Schoier et al. | Individual movements and geographical data mining. Clustering algorithms for highlighting hotspots in personal navigation routes | |
Wei et al. | Data-driven energy and population estimation for real-time city-wide energy footprinting | |
Wang et al. | A graph-based visual query method for massive human trajectory data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |