CN106910103B - 一种公共自行车系统租赁点功能聚类方法 - Google Patents

一种公共自行车系统租赁点功能聚类方法 Download PDF

Info

Publication number
CN106910103B
CN106910103B CN201710013892.2A CN201710013892A CN106910103B CN 106910103 B CN106910103 B CN 106910103B CN 201710013892 A CN201710013892 A CN 201710013892A CN 106910103 B CN106910103 B CN 106910103B
Authority
CN
China
Prior art keywords
rental
point
points
leasing
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710013892.2A
Other languages
English (en)
Other versions
CN106910103A (zh
Inventor
王兰迪
申兴发
姚霞文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710013892.2A priority Critical patent/CN106910103B/zh
Publication of CN106910103A publication Critical patent/CN106910103A/zh
Application granted granted Critical
Publication of CN106910103B publication Critical patent/CN106910103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种公共自行车系统租赁点功能聚类方法。本发明包含以下步骤:步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。步骤3、使用LDA算法和K‑means算法对租赁点进行租赁点功能识别。步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。本发明的积极效果是:为公共自行车未来的规划提出依据;指导用户使用公共自行车;可以指导商业和广告的建立,具有较好的行业应用前景。

Description

一种公共自行车系统租赁点功能聚类方法
技术领域
本发明属于交通规划中公共自行车系统规划领域,尤其涉及一种公共自行车系统租赁点功能聚类方法。
背景技术
城区的功能识别是指利用城市运行数据和动态特征,对于城市的各个不同区域按照其在城市中所承担的功能进行识别和标注。它是城市规划的主要组成部分,可以帮助人们了解城市内在的发展规律,开展城市规划,指导城市建设发展。但是,城市功能区域发现这类研究是十分困难的:城市居民活动复杂,城市功能区域并不单一,所以很难准确定义一块区域的具体功能;传统的方法多为用户调研,实地统计,这无疑是非常耗时、耗力;而最近采用的研究对象——城市数据的种类繁多、规模庞大、多粒度、多维度等特征,想要从中发现规律是非常困难的;由于城市功能区域本身不能直接观测,所以很难去验证算法的有效性和正确性。
随着公共自行车系统的普及和发展,积累了越来越多的使用数据,公共自行车系统的使用记录数据蕴含着丰富的人群移动信息:不仅蕴含了用户的移动,而且它反应出了用户在不同的时间不同的地点的社会经济活动。租赁点所具有的功能和城市的区域功能具有相似性,都是用户为了满足一定的目的,在空间和时间上进行聚集。开展城市区域功能发现是一项繁重的任务,公共自行车系统的使用用户只是城市中的一小部分居民,通过这些数据去进行城市功能区域发现无疑是不准确的,但是本发明提出了的方法不是去进行城市功能区域发现,而是根据使用数据去对租赁点进行功能聚类,识别租赁点的使用模式,进而以便于系统管理者进行车站平衡调度和新租赁点的部署等。
区别于其它文献的公共自行车聚类算法,本发明提出的算法充分考虑到用户的使用模式反应了租赁点的功能特征,从用户积累的使用数据角度对租赁点进行聚类。LDA(Latent Dirichlet Allocation)模型作为一种机器学习技术,可以挖掘出文本中潜在的隐含信息,本发明将每个租赁点作为一个文本,用户在租赁点发生的借/还车行为作为文本的单词,文本的主题作为租赁点所具有的功能。同时,为了进一步得出聚类结果,利用k-means算法对LDA模型产生的主题分布概率进行聚类。
总的说来,现有的公共自行车聚类方法只是利用租赁点的位置属性和单个站点的使用数据进行聚类,但公共自行车系统是为用户服务并且各个租赁点和其它租赁点间具有相关性,应充分利用租赁点之间的联系,采用数据挖掘算法可进一步提高聚类的有效性。结合LDA模型和k-means算法可以有效解决公共自行车系统租赁点功能聚类问题。
发明内容
本发明的目的是针对现有技术的不足,为了充分融合LDA与k-means的优点,提高公共自行车功能聚类的有效性,本发明提出了一种公共自行车系统租赁点功能聚类方法。
本发明解决其技术问题所采的技术方案包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别。
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS)。
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
Figure BDA0001205396990000041
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
Figure BDA0001205396990000042
生成文档的长度Ns,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
Figure BDA0001205396990000043
生成该主题对应的单词
Figure BDA0001205396990000044
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数;
Figure BDA0001205396990000045
代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;
Figure BDA0001205396990000046
代表编号为k的主题之上的词分布;
Figure BDA0001205396990000047
代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;
Figure BDA0001205396990000048
代表每个主题的词分布的先验分布Dirichlet分布的参数;
Figure BDA0001205396990000049
为通过租赁点的使用模式转化租赁点所具有的单词。
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下φ概率排序从高到底top n特征词:.twords。
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn
3-2-2.对于每一个文档i,计算该文档应该属于的类:
C(i)=arg minj||x(i)j||2
对于每一个类j,重新计算该类的质心点:
Figure BDA0001205396990000051
3-2-3.重复步骤3-2-2,直到该类的质心点收敛。
步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point ofInterest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、、居住、旅游等,具体的实现步骤如下:
4-1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
4-2-2.公共租赁点一共有S个,计算任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
Figure BDA0001205396990000061
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the p-thPOI∈Si||为第p类POI出现在不同租赁点的数量。
Figure BDA0001205396990000063
为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
Figure BDA0001205396990000062
本发明有益效果如下:
本发明利用了LDA模型与k-means这两个经典数据挖掘方法,并且公共自行车系统与LDA模型的适用条件能够很好的契合,因而能够运用LDA来科学地租赁点进行功能聚类。该发明可以实现各种各样的应用:用户可以快速地了解分布在一个城市中不同租赁点的功能,(公共自行车是一种绿色的、有趣的交通工具,在旅游区使用公共自行车可以给人们带来舒适的旅行体验);为公共自行车未来的规划提出依据(建设新的租赁点,扩充/减少租赁点容量等);指导用户使用公共自行车(每个租赁点所代表的功能区域可以指出租赁点的“潮汐”状态);可以指导商业和广告的建立(具有“旅游”功能的租赁点可以增加广告摊位或者在附近建设商店等设施)。
附图说明
图1为公共自行车系统功能聚类方法图。
图2为使用吉布斯采样估计LDA分布过程。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,一种公共自行车系统租赁点功能聚类方法,包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别。
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.sD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XsD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS)。
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
Figure BDA0001205396990000091
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
Figure BDA0001205396990000092
生成文档的长度Ns,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
Figure BDA0001205396990000093
生成该主题对应的单词
Figure BDA0001205396990000094
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数;
Figure BDA0001205396990000095
代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;
Figure BDA0001205396990000096
代表编号为k的主题之上的词分布;
Figure BDA0001205396990000097
代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;
Figure BDA0001205396990000098
代表每个主题的词分布的先验分布Dirichlet分布的参数;
Figure BDA0001205396990000099
为通过租赁点的使用模式转化租赁点所具有的单词。
本发明使用吉布斯采样估计LDA分布,如图2所示流程,初始时随机给文本中的每个单词分配主题z(0),然后统计每个主题z下出现的词t数,每个文档s下出现的主题z中的词的数量,每一轮计算
Figure BDA00012053969900000910
即根据其他词的主题分布和观察到的单词来计算当前词主题的概率:
Figure BDA0001205396990000101
Figure BDA0001205396990000102
其中,
Figure BDA0001205396990000103
是词汇t被赋予主题k的次数,βt每个主题的词分布的先验分布Dirichlet分布的参数,
Figure BDA0001205396990000104
是语料库中的所有词汇被主题k的次数,
Figure BDA0001205396990000105
是文档s中的所有词汇被赋予主题k的总次数。
当得到当前词属于所有主题z的概率分布后,根据这个概率再分配一个新的主题z(1)。然后循环直到发现每个文档下的
Figure BDA0001205396990000106
代表编号为K的主题之上的词分布,
Figure BDA0001205396990000107
代表第s篇文档的主题分布。
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布中:.phi;每个主题下中概率排序从高到底top n特征词:.twords。
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn
3-2-2.对于每一个文档i,计算该文档应该属于的类
C(i)=arg minj||x(i)j||2.
对于每一个类j,重新计算该类的质心点:
Figure BDA0001205396990000108
3-2-3.重复步骤3-2-2,直到该类的质心点收敛。
步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point ofInterest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、居住、旅游等。具体的实现步骤如下:
4-1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
4-2-2.本发明所研究的公共租赁点一共有S个,所以,可以求得任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
Figure BDA0001205396990000111
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the p-thPOI∈Si||为第p类POI出现在不同租赁点的数量。
Figure BDA0001205396990000122
为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
Figure BDA0001205396990000121

Claims (1)

1.一种公共自行车系统租赁点功能聚类方法,其特征在于包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析;
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”;
步骤3、使用LDA模型和K-means算法对租赁点进行租赁点功能识别;
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能;
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2-1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻;
2-2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD);
2-3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD;根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS);
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z)|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量;
2-4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词;
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇;根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs);以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=Coi,WDi=CDi;在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词;
步骤3所述的使用LDA算法和K-means算法对租赁点进行租赁点功能识别具体如下:
3-1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3-1-1.对于所有的主题k∈[1,K]:生成
Figure FDA0003007931970000021
3-1-2.对于所有的文档s∈[1,S]:
生成文档-主题分布
Figure FDA0003007931970000022
生成文档的长度Ns,Ns~Poiss(ξ);
3-1-3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
Figure FDA0003007931970000031
生成该主题对应的单词
Figure FDA0003007931970000032
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数即主题数;Ns为编号为s的租赁点中单词的总数;
Figure FDA0003007931970000033
代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能;
Figure FDA0003007931970000034
代表编号为k的主题之上的词分布;
Figure FDA0003007931970000035
代表每个租赁点的主题分布的先验分布Dirichlet分布的参数;
Figure FDA0003007931970000036
代表每个主题的词分布的先验分布Dirichlet分布的参数;
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,得到每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下词概率分布φ排序从高到低的top n特征词:.twords;将得到的文档在每个主题上的概率分布φ作为文档的特征值;
3-2.采用k-means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
3-2-1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn
3-2-2.对于每一个文档x(i),计算该文档应该属于的类
C(i)=arg minj||x(i)j||2.
对于每一个类j,重新计算该类的质心点:
Figure FDA0003007931970000037
3-2-3.重复步骤3-2-2,直到该类的质心点收敛;
步骤4所述的对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI数据,以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,租赁点的功能包括:工作、娱乐、就餐、居住和旅游;具体的实现步骤如下:
4-1.根据公共自行车系统的使用历史记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;旅游功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作功能的租赁点则呈现相反状态;
4-2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4-2-1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点;对于一个城市来说:商业区、住宅区和文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住和娱乐功能;
4-2-2.本公共租赁点一共有S个,计算得出任意一个租赁点(1…i…S)所具有的POI分布统计,对于任意租赁点Si,我们能够求出POI分布向量POI-Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF-IDF值:
Figure FDA0003007931970000051
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the p-thPOIeSi||为第p类POI出现在不同租赁点的数量;
Figure FDA0003007931970000052
为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中不同集群之间的POI分布POI-Ci(P1,P2,…Pp,…Pn):
Figure FDA0003007931970000053
CN201710013892.2A 2017-01-09 2017-01-09 一种公共自行车系统租赁点功能聚类方法 Active CN106910103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710013892.2A CN106910103B (zh) 2017-01-09 2017-01-09 一种公共自行车系统租赁点功能聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710013892.2A CN106910103B (zh) 2017-01-09 2017-01-09 一种公共自行车系统租赁点功能聚类方法

Publications (2)

Publication Number Publication Date
CN106910103A CN106910103A (zh) 2017-06-30
CN106910103B true CN106910103B (zh) 2021-06-01

Family

ID=59207450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710013892.2A Active CN106910103B (zh) 2017-01-09 2017-01-09 一种公共自行车系统租赁点功能聚类方法

Country Status (1)

Country Link
CN (1) CN106910103B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256101B (zh) * 2018-01-31 2020-07-28 东南大学 基于公共自行车刷卡数据和poi识别通勤od的方法
CN108664995A (zh) * 2018-04-18 2018-10-16 宁波工程学院 基于DBScan的多粒度城市公共自行车调度方法及系统
CN109034628B (zh) * 2018-08-01 2022-10-25 长兴华阁耐物流装备有限公司 一种城市公共自行车系统的过载判断方法
CN110378519B (zh) * 2019-06-26 2021-12-14 北京物资学院 一种公共自行车站点车辆数量的配置方法及装置
CN110929783B (zh) * 2019-11-21 2023-04-07 同济大学 基于共享对象的租还数据的用地属性分类方法
CN112035707B (zh) * 2020-08-17 2021-03-30 深圳市中盛瑞达科技有限公司 一种作业转换方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637358A (zh) * 2012-04-19 2012-08-15 浙江大学 立足市民满意度的公共自行车服务系统及调度配送方法
KR20120107703A (ko) * 2011-03-22 2012-10-04 아이온텍주식회사 공공자전거 관리방법 및 시스템
JP5299828B2 (ja) * 2000-08-18 2013-09-25 清昭 河西 自転車レンタルシステム
KR20130121408A (ko) * 2012-04-27 2013-11-06 주식회사 빅텍 공공 자전거의 대중교통 환승 서비스 방법
CN104318081A (zh) * 2014-10-10 2015-01-28 东南大学 一种城市重需求性公共自行车租赁点车辆配置方法
CN104376327A (zh) * 2014-11-05 2015-02-25 南京师范大学 一种公共自行车租赁点的聚类方法
CN105205623A (zh) * 2015-10-29 2015-12-30 杭州电子科技大学 基于区间弱耦合度的公共自行车站点调度区域划分方法
CN106127231A (zh) * 2016-06-16 2016-11-16 中国人民解放军国防科学技术大学 一种基于信息交互网络的犯罪个体识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299828B2 (ja) * 2000-08-18 2013-09-25 清昭 河西 自転車レンタルシステム
KR20120107703A (ko) * 2011-03-22 2012-10-04 아이온텍주식회사 공공자전거 관리방법 및 시스템
CN102637358A (zh) * 2012-04-19 2012-08-15 浙江大学 立足市民满意度的公共自行车服务系统及调度配送方法
KR20130121408A (ko) * 2012-04-27 2013-11-06 주식회사 빅텍 공공 자전거의 대중교통 환승 서비스 방법
CN104318081A (zh) * 2014-10-10 2015-01-28 东南大学 一种城市重需求性公共自行车租赁点车辆配置方法
CN104376327A (zh) * 2014-11-05 2015-02-25 南京师范大学 一种公共自行车租赁点的聚类方法
CN105205623A (zh) * 2015-10-29 2015-12-30 杭州电子科技大学 基于区间弱耦合度的公共自行车站点调度区域划分方法
CN106127231A (zh) * 2016-06-16 2016-11-16 中国人民解放军国防科学技术大学 一种基于信息交互网络的犯罪个体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于关联规则的公共自行车调度区域聚类划分;董红召;《科技通报》;20130930;第29卷(第9期);全文 *
基于聚类分析法的公共自行车服务系统研究;周素静;《郑州铁路职业技术学院学报》;20150330;全文 *

Also Published As

Publication number Publication date
CN106910103A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106910103B (zh) 一种公共自行车系统租赁点功能聚类方法
Wang et al. Human mobility synchronization and trip purpose detection with mixture of hawkes processes
Etienne et al. Model-based count series clustering for bike sharing system usage mining: a case study with the Vélib’system of Paris
Ceccato et al. Exploring offence statistics in Stockholm City using spatial analysis tools
Gao et al. Understanding urban traffic-flow characteristics: a rethinking of betweenness centrality
US20140089036A1 (en) Dynamic city zoning for understanding passenger travel demand
CN107656987B (zh) 一种基于lda模型的地铁站点功能挖掘方法
Zheng Urban computing
CN105183870A (zh) 一种利用微博位置信息的城市功能区探测方法及系统
Zhang et al. iBike: Intelligent public bicycle services assisted by data analytics
CN107657215B (zh) 基于被动红外传感器的室内行为轨迹运动语义解析方法
CN114897444B (zh) 一种城市分区域内服务设施需求识别方法及系统
Zhu et al. Inferring travel purpose from crowd-augmented human mobility data
Li et al. A top–bottom clustering algorithm based on crowd trajectories for small group classification
CN110019402A (zh) 数据分析方法、装置及可读存储介质
Montoliu Discovering mobility patterns on bicycle-based public transportation system by using probabilistic topic models
Jiao et al. Understanding the land use function of station areas based on spatiotemporal similarity in rail transit ridership: A case study in Shanghai, China
Zhang et al. Detecting hotspots of urban residents’ behaviours based on spatio-temporal clustering techniques
Schoier et al. Individual movements and geographical data mining. Clustering algorithms for highlighting hotspots in personal navigation routes
Xu et al. Automated pedestrian safety analysis using data from traffic monitoring cameras
Wang et al. A graph-based visual query method for massive human trajectory data
Jacques et al. Does travel behavior matter in defining urban form? A quantitative analysis characterizing distinct areas within a region
Guo et al. Station function discovery: Exploring trip records in urban public bike-sharing system
Tao Big spatial flow data analytics
CN113220675A (zh) 一种基于WiFi定位数据的高校学生行为分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant