CN114530038A - 一种基于时空数据聚类的出行兴趣区域提取方法及系统 - Google Patents

一种基于时空数据聚类的出行兴趣区域提取方法及系统 Download PDF

Info

Publication number
CN114530038A
CN114530038A CN202210027136.6A CN202210027136A CN114530038A CN 114530038 A CN114530038 A CN 114530038A CN 202210027136 A CN202210027136 A CN 202210027136A CN 114530038 A CN114530038 A CN 114530038A
Authority
CN
China
Prior art keywords
data
time
clustering
interest
license plate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210027136.6A
Other languages
English (en)
Other versions
CN114530038B (zh
Inventor
王成鹏
李星毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210027136.6A priority Critical patent/CN114530038B/zh
Publication of CN114530038A publication Critical patent/CN114530038A/zh
Application granted granted Critical
Publication of CN114530038B publication Critical patent/CN114530038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于时空数据聚类的出行兴趣区域提取方法及系统,包括以下步骤:步骤S1.原始车牌识别与数据预处理;步骤S2.通过预处理后的车牌识别数据提取车辆行驶轨迹;步骤S3.提取OD数据集;步骤S4.提取空间兴趣点区域;步骤S5.提取时空兴趣点区域;步骤S6.提取所述时空兴趣点区域的经纬度。本发明结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用HDBSCAN算法和时间特性相结合,相比较DBSCAN算法降低了对参数的依赖,同时发现了更多的聚类,使时空挖掘结果更加精确。

Description

一种基于时空数据聚类的出行兴趣区域提取方法及系统
技术领域
本发明属于交通运输技术领域,尤其涉及一种基于时空数据聚类的车辆出行兴趣区域提取方法和系统。
背景技术
城市交通的兴趣区域是指居民出行量较大,停留时间较长,商业较发达的区域,因此其交通状态相对复杂,对该区域的研究对城市交通管理和城市规划具有指导性的意义。传统的数据大多采用的是出租车GPS数据,采用DBSCAN算法,对参数的依赖大,传统的方法大多只注重空间上的聚集性而忽略了时间序列的偏好性,只能反映出城市居民出行的特定空间地理区域,而无法挖掘特定时间上居民喜欢访问的地方,在特定区域居民停留行为的长短同样一定程度反映了兴趣区域的偏好性,如何结合空间聚集性,时间偏好性,停留时间等维度来挖掘城市出行兴趣区域是当前亟待解决的问题。
发明内容
针对上述技术问题,本发明提供了一种基于时空数据聚类的出行兴趣区域提取方法和系统,使用层次密度聚类的HDBSCAN算法,相比较传统的DBSCAN算法,降低了对参数的依赖。本发明注重空间上的聚集性和时间序列的偏好性,反映出城市居民出行的特定空间地理区域,并挖掘出特定时间上居民喜欢访问的区域,以及在特定区域居民停留行为的长短,结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用HDBSCAN算法和时间特性相结合,发现了更多的聚类,降低了对DBSCAN算法对参数的依赖,使时空挖掘结果更加精确。
本发明的技术方案是:一种基于时空数据聚类的出行兴趣区域提取方法,包括以下步骤:
步骤S1.原始车牌识别与数据预处理:识别原始车牌号码作为区分不同车辆的标识,对车牌识别数据进行预处理,剔除不合理数据;
步骤S2.通过预处理后的车牌识别数据提取车辆行驶轨迹;
步骤S3.提取OD数据集:根据时间阈值,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点O到目的地点D的OD数据集;
步骤S4.提取空间兴趣点区域:基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
步骤S5.提取时空兴趣点区域:对所述空间兴趣点区域进行时间序列上的聚类得到时空兴趣点区域;
步骤S6.提取所述时空兴趣点区域的经纬度。
上述方案中,所述步骤S1中识别车牌号码具体为:
识别的车牌号码LPN作为区分不同车辆的标识,车辆Vehiclei经过路口,卡口系统会对车辆记录一条数据,包括车牌号码,行驶方向Drection,点位经纬度(Lng,Lat),过车时间Ti的字段,原始车牌识别过车数据结构如下:
Vehiclei=(LPN,Drection,Lng,Lat,Ti)
上述方案中,所述步骤S1对车牌识别数据进行预处理具体为:
对所述原始车牌识别数据中的异常数据、冗余数据或不完整的数据进行删除处理;
所述异常数据为原始车牌识别数据中经纬度坐标不在预设范围内的车牌识别数据;
所述冗余数据为当车牌号码、检测点编号属性都一致的情况下,且这些记录的相邻时间差小于该路口的最小红绿灯时间时,将这些数据视为冗余数据;
所述不完整数据为当实验数据中存在车牌号码、检查点编号、检测时间任何一个不完整时,需将记录从数据库中删除。
上述方案中,所述步骤S2具体为:
将车辆经过各个卡口点位的过车数据按时间序列线性排列,即可构成该车辆行驶轨迹Tracki
Figure BDA0003465113930000021
其中,k表示车辆轨迹序列的索引号,n为分析周期内车辆轨迹k的总长度,
Figure BDA0003465113930000022
表示车辆在
Figure BDA0003465113930000023
时刻下的时空特性,
Figure BDA0003465113930000024
Figure BDA0003465113930000025
表示车辆在
Figure BDA0003465113930000026
时刻的经度和纬度。
上述方案中,所述步骤S3中轨迹截断具体为:
车辆出行的轨迹是由多个子轨迹组成,通过时间阈值对轨迹截断,在所有的轨迹数据遍历中,当且仅当数据之间的时间间隔超过设计的阈值时,才会将该点视为车辆的停留点,作为上段轨迹的终点和下个轨迹的起点,提取出所有的OD数据对,构成车辆轨迹k的OD数据集Sk
Figure BDA0003465113930000027
其中,j代表车辆轨迹k的不同子轨迹,m为子轨迹的总个数,
Figure BDA0003465113930000028
Figure BDA0003465113930000029
分别表示不同轨迹的起点和终点。
上述方案中,所述步骤S4中层次密度聚类算法:
所述层次密度聚类算法只需要设置一个参数,即簇中的最小点数min_cluster_size,该算法计算数据集中各个点的可达性距离:
dmreach-k(a,b)=max{corek(a),corek(b),d(a,b)}
其中,corek(a)表示采样点a到核心的距离,corek(b)表示采样点b到核心的距离,d(a,b)是采样点a和采样点b之间的原始度量距离;
以样本点之间的相互可达距离为边,建立最小生成树,并将树转化为层次结构,设置聚类参数min_cluster_size(最小簇包含点个数),使用输入参数min_cluster_size查找压缩的簇树,通过稳定性函数得到密度自适应的聚类结果。
上述方案中,所述步骤S4提取空间兴趣点区域具体为:
调用ArcGis工具中基于密度的聚类算法,选择自调整(hdbscan),设置聚类的主要参数min_cluster_size,输入车辆目的地D点数据集进行聚类,得到聚类ID,表示各个点所属的簇,提取出各个簇,形成空间兴趣点区域。
上述方案中,所述步骤S5具体为:
基于空间兴趣点区域对时间轴二度聚类,在空间兴趣点区域单一簇内部进行基于时间轴的密度聚类,从而对用户是否在特定时间内访问特定兴趣区域进行挖掘,获得综合了时间、空间两个维度的兴趣区域,即时空兴趣点区域。
一种实现所述基于时空数据聚类的出行兴趣区域提取方法的系统,包括原始车牌识别模块、数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块:
所述原始车牌识别模块用于识别原始车牌号码作为区分不同车辆的标识,并传递给数据预处理模块,数据预处理模块用于对车牌识别数据进行预处理,剔除不合理数据;
所述车辆行驶轨迹提取模块用于通过预处理后的车牌识别数据提取车辆行驶轨迹;
所述OD数据集提取模块用于根据时间阈值,识别车辆停留点,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点到目的地点的OD数据集;
所述空间兴趣点区域提取模块用于基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
所述时空兴趣点区域提取模块用于对所述空间兴趣点区域进行时间序列上的二次聚类得到时空兴趣点区域;
所述兴趣点区域经纬度提取模块用于提取时空兴趣点区域的经纬度。
上述方案中,所述原始车牌识别模块为路网上的卡口系统,所述数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块均集成在计算机中。
与现有技术相比,本发明的有益效果是:本发明结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用HDBSCAN算法和时间特性相结合,发现了更多的聚类,降低了对DBSCAN算法对参数的依赖,使时空挖掘结果更加精确。
附图说明
图1是本发明一总体流程图;
图2是本发明一实施方式的DBSCAN聚类结果;
图3是本发明一实施方式的HDBSCAN聚类结果;
图4是本发明一实施方式的对时间约束的层次密度聚类结果,其中,图4(a)为聚类ID为1的簇,图4(b)为聚类ID为1的簇,图4(c)为聚类ID为1的簇,图4(d)为聚类ID为1的簇,图4(e)为聚类ID为1的簇,图4(f)为聚类ID为1的簇;
图5是本发明一实施方式的结合时间空间聚类提取出的兴趣点分布经纬度情况。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
一种基于时空数据聚类的出行兴趣区域提取方法,包括以下步骤:
步骤S1.原始车牌识别与数据预处理:识别原始车牌号码作为区分不同车辆的标识,对车牌识别数据进行预处理,剔除不合理数据,提高数据质量;
步骤S2.通过预处理后的车牌识别数据提取车辆行驶轨迹;
步骤S3.提取OD数据集:根据时间阈值,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点O到目的地点D的OD数据集;
步骤S4.提取空间兴趣点区域:基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
步骤S5.提取时空兴趣点区域:对所述空间兴趣点区域进行时间序列上的聚类得到时空兴趣点区域;
步骤S6.提取所述时空兴趣点区域的经纬度。
本实施例,优选的,运行环境是Window10操作系统,硬件配置是AMD Ryzen 75800H with Radeon Graphics的CPU,内存为8GB;算法的编写使用python3.7语言,结果可视化主要通过ArcGis工具实现。
本实施例使用的数据集是深圳市630个卡口系统的摄像头采集到的数据,记录了357辆车同一天的行程轨迹,包含14819条数据。
根据本实施例,优选的,所述步骤S1中识别车牌号码具体为:
通过路网上摄像头识别的车牌号码LPN(License Plate Number)作为区分不同车辆的标识,车辆Vehiclei经过路口,卡口系统会对车辆记录一条数据,包括车牌号码,行驶方向Drection,点位经纬度(Lng,Lat),过车时间Ti的字段,原始车牌识别过车数据结构如下:
Vehiclei=(LPN,Drection,Lng,Lat,Ti)
根据本实施例,优选的,所述步骤S1对车牌识别数据进行预处理具体为:
对所述原始车牌识别数据中的异常数据、冗余数据或不完整的数据进行删除处理,提高数据分析和应用的准确度;
所述异常数据为原始车牌识别数据中经纬度坐标不在预设范围内的车牌识别数据;本实施例的研究数据是深圳市车牌识别数据,坐标系采用WGS 1984 WorldMercator,研究区域范围为经度为113.67至114.50,纬度为22.46至22.97,因此剔除原始数据中经纬度坐标不在该范围的数据。
所述冗余数据为当车牌号码、检测点编号属性都一致的情况下,且这些记录的相邻时间差小于该路口的最小红绿灯时间时,将这些数据视为冗余数据,做删除处理;
所述不完整数据为当实验数据中存在车牌号码、检查点编号、检测时间任何一个不完整时,需将记录从数据库中删除。
根据本实施例,优选的,所述步骤S2具体为:
将车辆经过各个卡口点位的过车数据按时间序列线性排列,即可构成该车辆行驶轨迹Tracki
Figure BDA0003465113930000051
其中,k表示车辆轨迹序列的索引号,n为分析周期内车辆轨迹k的总长度,
Figure BDA0003465113930000052
表示车辆在
Figure BDA0003465113930000053
时刻下的时空特性,
Figure BDA0003465113930000054
Figure BDA0003465113930000055
表示车辆在
Figure BDA0003465113930000056
时刻的经度和纬度。
根据本实施例,优选的,所述步骤S3中轨迹截断具体为:
车辆出行的轨迹是由多个子轨迹组成,通过时间阈值对轨迹截断,在所有的轨迹数据遍历中,当且仅当数据之间的时间间隔超过设计的阈值时,才会将该点是为车辆的停留点,作为上段轨迹的终点和下个轨迹的起点,提取出所有的OD数据对,构成车辆轨迹k的OD数据集Sk
Figure BDA0003465113930000061
其中,j代表车辆轨迹k的不同子轨迹,m为子轨迹的总个数,
Figure BDA0003465113930000062
Figure BDA0003465113930000063
分别表示不同轨迹的起点和终点。
根据本实施例,优选的,所述步骤S4中层次密度聚类算法:
相比较传统的基于密度的聚类算法DBSCAN,基于分层密度的空间聚类算法在检测随机形状区域的方面十分有效,如对兴趣点区域的检测,可以发现更多的密度区域,并可以有效的将噪声点从聚类区域分散开来,DBSCAN算法需要两个初始参数,各个点之间的最大距离即邻域半径,和聚类中的最小点数即密度阈值,DBSCAN算法对参数的选择十分敏感,初始参数选择不佳可能会导致灾难性的聚类效果,并对聚类的大小和数量产生影响,而层次密度聚类算法HDBSCAN是对DBSCAN的增强,是以数据为驱动的算法,只需要设置一个参数,即簇中的最小点数min_cluster_size,降低了聚类结果对初始参数选择的依赖,该算法计算数据集中各个点的可达性距离:
dmreach-k(a,b)=max{corek(a),corek(b),d(a,b)}
其中,corek(a)表示采样点a到核心的距离,用欧几里得距离表示,corek(b)表示采样点b到核心的距离,d(a,b)是采样点a和采样点b之间的原始度量距离;在此度量下,密集区域的采样距离不受影响,而稀疏区域的采样点与其他采样点之间的距离增大,增强了算法对噪声点的鲁棒性。
以样本点之间的相互可达距离为边,建立最小生成树,并将树转化为层次结构,设置聚类参数min_cluster_size(最小簇包含点个数),使用输入参数min_cluster_size查找压缩的簇树,通过稳定性函数得到密度自适应的聚类结果
根据本实施例,优选的,所述步骤S4提取空间兴趣点区域具体为:
调用ArcGis工具中基于密度的聚类算法,选择自调整(hdbscan),设置聚类的主要参数min_cluster_size,输入车辆目的地点数据集进行聚类,得到聚类ID,表示各个点所属的簇,提取出各个簇,形成空间兴趣点区域。
根据本实施例,优选的,所述步骤S5具体为:
基于空间兴趣点区域对时间轴二度聚类,在空间兴趣点区域单一簇内部进行二度的基于时间轴的密度聚类,从而对用户是否在特定时间内访问特定兴趣区域进行挖掘,获得综合了时间、空间两个维度的兴趣区域,即时空兴趣点区域。
如图2和3所示,可以看出,HDBSCAN算法在设置了更少的参数的情况,其自适应的特性可以发现更多的聚类,并且每个聚类中样本点的个数要多于DBSCAN,验证了HDBSCAN算法对发现在兴趣点聚集区域更有效。
对时间约束的层次密度聚类结果如图4(a)-(f)所示,最终有六个簇,其中聚类ID为1的簇,居民访问的时间段集中在10点到14点;聚类ID为2,3,4的簇,居民访问的时间段集中在5点到9点之间,呈现出早高峰的态势,聚类ID为6的簇,居民访问的时间段集中在14点到17点,聚类ID为5的簇,居民访问的时间段集中在21点半到23点,一般为夜间活动频繁的区域。
提取兴趣区域经纬度结果如图5所示,从图5可以看出车辆目的地兴趣区域分布,其中聚类ID为1和6的簇分布在深圳站附近,可见居民大多会选择早上九点到下午18点乘坐火车,聚类ID为5的簇分布在商场,酒店,餐厅附近,是夜间较活跃的区域,聚类ID为2的簇分布在宝安机场,聚类ID为3的簇分布在学校,写字楼附近,呈现早高峰的态势,聚类ID为4的簇分布在罗田区,在地铁7号线和4号线交界处,附近具有时代广场,福田口岸商业广场商圈,是人流量较多,商业较繁华的地段。
本发明注重空间上的聚集性和时间序列的偏好性,反映出城市居民出行的特定空间地理区域,并挖掘出特定时间上居民喜欢访问的区域,以及在特定区域居民停留行为的长短,结合了空间聚集性、时间偏好性和停留时间的维度来挖掘城市出行兴趣区域,使用HDBSCAN算法和时间特性相结合,发现了更多的聚类,降低了对DBSCAN算法对参数的依赖,使时空挖掘结果更加精确。
一种实现所述基于时空数据聚类的出行兴趣区域提取方法的系统,包括原始车牌识别模块、数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块:
所述原始车牌识别模块用于识别原始车牌号码作为区分不同车辆的标识,并传递给数据预处理模块,数据预处理模块用于对车牌识别数据进行预处理,剔除不合理数据;
所述车辆行驶轨迹提取模块用于通过预处理后的车牌识别数据提取车辆行驶轨迹;
所述OD数据集提取模块用于根据时间阈值,识别车辆停留点,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点到目的地点的OD数据集;
所述空间兴趣点区域提取模块用于基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
所述时空兴趣点区域提取模块用于对所述空间兴趣点区域进行时间序列上的二次聚类得到时空兴趣点区域;
所述兴趣点区域经纬度提取模块用于提取时空兴趣点区域的经纬度。
优选的,所述原始车牌识别模块为路网上的摄像头,通过路口摄像头使得路网上的车辆的地理位置信息和车辆经过路口的过程能够以时空数据的形式被记录下来,海量连续型的车辆时空轨迹数据为识别城市兴趣区域进而挖掘居民出行时空特征提供了数据支撑和保障。
所述数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块均集成在计算机中。
本发明采用的卡口车牌识别数据扩大了样本,结果更加能反映城市居民出行特征,使用层次密度聚类的HDBSCAN算法,相比较传统的DBSCAN算法,降低了对参数的依赖。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于时空数据聚类的出行兴趣区域提取方法,其特征在于,包括以下步骤:
步骤S1.原始车牌识别与数据预处理:识别原始车牌号码作为区分不同车辆的标识,对车牌识别数据进行预处理,剔除不合理数据;
步骤S2.通过预处理后的车牌识别数据提取车辆行驶轨迹;
步骤S3.提取OD数据集:根据时间阈值,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点O到目的地点D的OD数据集;
步骤S4.提取空间兴趣点区域:基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
步骤S5.提取时空兴趣点区域:对所述空间兴趣点区域进行时间序列上的聚类得到时空兴趣点区域;
步骤S6.提取所述时空兴趣点区域的经纬度。
2.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S1中识别车牌号码具体为:
识别的车牌号码LPN作为区分不同车辆的标识,车辆Vehiclei经过路口,卡口系统会对车辆记录一条数据,包括车牌号码,行驶方向Drection,点位经纬度(Lng,Lat),过车时间Ti的字段,原始车牌识别过车数据结构如下:
Vehiclei=(LPN,Drection,Lng,Lat,Ti)。
3.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S1对车牌识别数据进行预处理具体为:
对所述原始车牌识别数据中的异常数据、冗余数据或不完整的数据进行删除处理;
所述异常数据为原始车牌识别数据中经纬度坐标不在预设范围内的车牌识别数据;
所述冗余数据为当车牌号码、检测点编号属性都一致的情况下,且这些记录的相邻时间差小于该路口的最小红绿灯时间时,将这些数据视为冗余数据;
所述不完整数据为当实验数据中存在车牌号码、检查点编号、检测时间任何一个不完整时,需将记录从数据库中删除。
4.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S2具体为:
将车辆经过各个卡口点位的过车数据按时间序列线性排列,即可构成该车辆行驶轨迹Tracki
Figure FDA0003465113920000011
其中,k表示车辆轨迹序列的索引号,n为分析周期内车辆轨迹k的总长度,
Figure FDA0003465113920000021
表示车辆在
Figure FDA0003465113920000022
时刻下的时空特性,
Figure FDA0003465113920000023
Figure FDA0003465113920000024
表示车辆在
Figure FDA0003465113920000025
时刻的经度和纬度。
5.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S3中轨迹截断具体为:
车辆出行的轨迹是由多个子轨迹组成,通过时间阈值对轨迹截断,在所有的轨迹数据遍历中,当且仅当数据之间的时间间隔超过设计的阈值时,才会将该点视为车辆的停留点,作为上段轨迹的终点和下个轨迹的起点,提取出所有的OD数据对,构成车辆轨迹k的OD数据集Sk
Figure FDA0003465113920000026
其中,j代表车辆轨迹k的不同子轨迹,m为子轨迹的总个数,
Figure FDA0003465113920000027
Figure FDA0003465113920000028
分别表示不同轨迹的起点和终点。
6.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S4中层次密度聚类算法:
所述层次密度聚类算法只需要设置一个参数,即簇中的最小点数min_cluster_size,该算法计算数据集中各个点的可达性距离:
dmreach-k(a,b)=max{corek(a),corek(b),d(a,b)}
其中,corek(a)表示采样点a到核心的距离,corek(b)表示采样点b到核心的距离,d(a,b)是采样点a和采样点b之间的原始度量距离;
以样本点之间的相互可达距离为边,建立最小生成树,并将树转化为层次结构,设置聚类参数min_cluster_size,使用输入参数min_cluster_size查找压缩的簇树,通过稳定性函数得到密度自适应的聚类结果。
7.根据权利要求6所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S4提取空间兴趣点区域具体为:
调用ArcGis工具中基于密度的聚类算法,选择自调整,设置聚类的主要参数min_cluster_size,输入车辆目的地D点数据集进行聚类,得到聚类ID,表示各个点所属的簇,提取出各个簇,形成空间兴趣点区域。
8.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法,其特征在于,所述步骤S5具体为:
基于空间兴趣点区域对时间轴二度聚类,在空间兴趣点区域单一簇内部进行基于时间轴的密度聚类,从而对用户是否在特定时间内访问特定兴趣区域进行挖掘,获得综合了时间、空间两个维度的兴趣区域,即时空兴趣点区域。
9.一种实现权利要求1-8任意一项所述基于时空数据聚类的出行兴趣区域提取方法的系统,其特征在于,包括原始车牌识别模块、数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块:
所述原始车牌识别模块用于识别原始车牌号码作为区分不同车辆的标识,并传递给数据预处理模块,数据预处理模块用于对车牌识别数据进行预处理,剔除不合理数据;
所述车辆行驶轨迹提取模块用于通过预处理后的车牌识别数据提取车辆行驶轨迹;
所述OD数据集提取模块用于根据时间阈值,识别车辆停留点,对提取的车辆行驶轨迹截断,提取出车辆行驶出发点到目的地点的OD数据集;
所述空间兴趣点区域提取模块用于基于层次密度聚类算法对所述OD数据集聚类得到空间聚集区域,发现空间兴趣点区域;
所述时空兴趣点区域提取模块用于对所述空间兴趣点区域进行时间序列上的二次聚类得到时空兴趣点区域;
所述兴趣点区域经纬度提取模块用于提取时空兴趣点区域的经纬度。
10.根据权利要求1所述的基于时空数据聚类的出行兴趣区域提取方法的系统,其特征在于,所述原始车牌识别模块为路网上的卡口系统,所述数据预处理模块、车辆行驶轨迹提取模块、OD数据集提取模块、空间兴趣点区域提取模块、时空兴趣点区域提取模块、兴趣点区域经纬度提取模块均集成在计算机中。
CN202210027136.6A 2022-01-11 2022-01-11 一种基于时空数据聚类的出行兴趣区域提取方法及系统 Active CN114530038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210027136.6A CN114530038B (zh) 2022-01-11 2022-01-11 一种基于时空数据聚类的出行兴趣区域提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210027136.6A CN114530038B (zh) 2022-01-11 2022-01-11 一种基于时空数据聚类的出行兴趣区域提取方法及系统

Publications (2)

Publication Number Publication Date
CN114530038A true CN114530038A (zh) 2022-05-24
CN114530038B CN114530038B (zh) 2023-05-09

Family

ID=81621619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210027136.6A Active CN114530038B (zh) 2022-01-11 2022-01-11 一种基于时空数据聚类的出行兴趣区域提取方法及系统

Country Status (1)

Country Link
CN (1) CN114530038B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830901A (zh) * 2023-02-17 2023-03-21 交通运输部规划研究院 一种货车停留点的确定方法及装置
CN116842211A (zh) * 2023-07-05 2023-10-03 北京能量时光教育科技有限公司 基于直播大数据的用户分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095481A (zh) * 2015-08-13 2015-11-25 浙江工业大学 大规模出租车od数据可视分析方法
US20160180705A1 (en) * 2014-12-18 2016-06-23 Jing Liu Origin destination estimation based on vehicle trajectory data
US20180350237A1 (en) * 2016-10-08 2018-12-06 Dalian University Of Technology Method for estimating distribution of urban road travel time in considering operation state of taxi
CN109359682A (zh) * 2018-10-11 2019-02-19 北京市交通信息中心 一种基于f-dbscan迭代聚类的机场巴士候选站点筛选方法
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
CN110888979A (zh) * 2018-09-10 2020-03-17 中国移动通信集团有限公司 一种兴趣区域提取方法、装置及计算机存储介质
WO2021237812A1 (zh) * 2020-05-29 2021-12-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180705A1 (en) * 2014-12-18 2016-06-23 Jing Liu Origin destination estimation based on vehicle trajectory data
CN105095481A (zh) * 2015-08-13 2015-11-25 浙江工业大学 大规模出租车od数据可视分析方法
US20180350237A1 (en) * 2016-10-08 2018-12-06 Dalian University Of Technology Method for estimating distribution of urban road travel time in considering operation state of taxi
CN110888979A (zh) * 2018-09-10 2020-03-17 中国移动通信集团有限公司 一种兴趣区域提取方法、装置及计算机存储介质
CN109359682A (zh) * 2018-10-11 2019-02-19 北京市交通信息中心 一种基于f-dbscan迭代聚类的机场巴士候选站点筛选方法
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
WO2021237812A1 (zh) * 2020-05-29 2021-12-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张芳 等: "基于兴趣点聚类的无桩共享单车时空模式分析", 《系统仿真学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830901A (zh) * 2023-02-17 2023-03-21 交通运输部规划研究院 一种货车停留点的确定方法及装置
CN115830901B (zh) * 2023-02-17 2023-05-02 交通运输部规划研究院 一种货车停留点的确定方法及装置
CN116842211A (zh) * 2023-07-05 2023-10-03 北京能量时光教育科技有限公司 基于直播大数据的用户分析方法及系统
CN116842211B (zh) * 2023-07-05 2024-03-15 北京能量时光教育科技有限公司 基于直播大数据的用户分析方法及系统

Also Published As

Publication number Publication date
CN114530038B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Zheng Trajectory data mining: an overview
Deng et al. Generating urban road intersection models from low-frequency GPS trajectory data
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
CN107241512B (zh) 基于手机数据的城际交通出行方式判断方法和设备
CN108320501B (zh) 基于用户手机信令的公交线路识别方法
Jeung et al. Trajectory pattern mining
CN112182410B (zh) 基于时空轨迹知识图谱的用户出行模式挖掘方法
CN105608505B (zh) 一种基于手机信令数据的居民轨道交通出行方式识别方法
Fu et al. Finding abnormal vessel trajectories using feature learning
CN114530038A (zh) 一种基于时空数据聚类的出行兴趣区域提取方法及系统
CN107167136B (zh) 一种面向电子地图的位置推荐方法及系统
US20200286388A1 (en) Method and apparatus for visualizing risk levels associated with aerial vehicle flights
CN110555544B (zh) 一种基于gps导航数据的交通需求估计方法
CN113112790B (zh) 一种结合知识图谱的城市道路运行态势监测方法
WO2021082464A1 (zh) 预测车辆的目的地的方法和装置
CN105261212A (zh) 一种基于出租车gps数据地图匹配的出行时空分析方法
CN103954278A (zh) 一种基于多数据融合的应急逃离引导方法和系统
CN105509758A (zh) 一种基于移动终端的线路规划方法、系统及移动终端
CN113259900B (zh) 一种分布式多源异构交通数据融合方法及装置
Garg et al. Mining bus stops from raw GPS data of bus trajectories
WO2021114615A1 (zh) 行为风险识别的可视化方法、装置、设备及存储介质
Wu et al. GLUE: a parameter-tuning-free map updating system
CN112052405B (zh) 一种基于司机经验的寻客区域推荐方法
CN110909037B (zh) 一种频繁轨迹模式的挖掘方法及装置
Hu et al. A comprehensive survey of recommendation system based on taxi GPS trajectory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant