CN117407387B - 一种基于线路匹配和词聚类的公交站点数据清洗方法 - Google Patents
一种基于线路匹配和词聚类的公交站点数据清洗方法 Download PDFInfo
- Publication number
- CN117407387B CN117407387B CN202311703893.1A CN202311703893A CN117407387B CN 117407387 B CN117407387 B CN 117407387B CN 202311703893 A CN202311703893 A CN 202311703893A CN 117407387 B CN117407387 B CN 117407387B
- Authority
- CN
- China
- Prior art keywords
- bus
- station
- road
- road network
- stations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004140 cleaning Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000011144 upstream manufacturing Methods 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 206010034701 Peroneal nerve palsy Diseases 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于线路匹配和词聚类的公交站点数据清洗方法,属于公交站点冗余数据清洗技术领域。解决了现有技术中传统的公交站点数据清洗方法难以对站点位置偏移和站点命名偏差的站点数据采集情况进行精确化数据清洗的问题;本发明基于采集得到的公交线路基础数据,结合城市路网基础数据,将公交线路基础数据与路网基础数据进行匹配,获取线路、站点与路网的关联关系,根据路网匹配结果结合词聚类识别重复采集的公交站点,根据分组后的公交站点名称合并公交站点位置并修正公交站点位置,数据更新后得到清洗后的公交站点数据。本发明实现了公交站点冗余数据的精准化清洗,有效提升了公交运行监控准确性,可以应用于大型城市公交系统数据处理。
Description
技术领域
本发明涉及一种公交站点数据清洗方法,尤其涉及一种基于线路匹配和词聚类的公交站点数据清洗方法,属于公交站点冗余数据清洗技术领域。
背景技术
目前公交系统已成为城市交通系统的重要组成部分,同时,为了追踪公交系统的运行、客流状态,合理地调整公交运行班次、线路配置,许多城市均在推进公交运行监控系统的建设。公交站点是组成公交系统的重要基础设施,在公交系统的运行监控过程中,公交站点的位置信息既作为公交车到站时间判断的基础数据,也作为乘客上车站点推算等后续计算的基础。在实际的公交站点位置信息采集过程中,往往由于多次基于不同公交线路采集时的GPS定位偏移,导致同一实际站点被多次记录于不同位置,同时,由于道路对侧通常存在不同方向上的同名公交站点,在采集定位偏移的情况下往往不能判断其具体位于道路的哪一侧上,因此直接简单合并同名站点或是依据站点和道路中心线的相对位置的方法,均不能合理地处理得到较为准确的站点位置信息。在大型城市中,公交站点的数量庞大,人工校核的工作量也较大。在此背景下,亟需设计一种能够高效准确合并站点冗余数据的技术,使公交运行监控更为准确有效。
现有技术中,公开(公告)号为CN115019538A的专利文件公开了一种交通线路信息的生成方法、装置、设备及存储介质,包括:获取交通线路内采集点的信息,根据采集点的信息得到线路点位库,其中,线路点位库包括至少一个目标点位,相邻目标点位之间满足预设条件,预设条件至少包括第一距离条件,将交通线路内的至少一个站点的信息更新到线路点位库内,生成交通线路信息;通过该交通线路信息,在进行公交站点的实时预报时,更加精确地确定公交车处在交通线路的位置,从而使得预报公交车到站信息更准确;公开(公告)号为CN111210612B的专利文件公开了一种基于公交GPS数据与站点信息提取公交线路轨迹的方法,包括如下步骤:获取某市所有公交线路的站点数据,对站点数据进行预处理;对站点数据进行归一化处理,对所有站点的站点经纬度进行分析,若站点的站点经纬度存在2个以上,则采用改进的kmeans聚类算法对站点经纬度进行聚类,得到新的站点经纬度。现有技术存在的问题如下:1.现有的公交线路站点数据往往基于人工手持GPS采集器乘坐公交并在到站时采集站点信息或结合车辆GPS司机人工标记开关门状态采集站点信息,在不同线路途径同一站点时,经由多个工作人员或多辆车采集得到的数据会形成多个坐标位置不同的站点,不符合公交系统实际情况;2.当前的公交线路站点客流等运行指标的计算方法及相应的大数据分析系统,均需要依赖基础的公交线路站点信息,当站点被多次采集并关联至不同的地理位置时,客流计算就会将一个实际站点的客流分开统计至若干站点,导致对站点客流、断面客流等指标的分析不准确,影响调度决策,当前的此类系统均没有考虑到这一因素;3.当前多数线路站点数据处理方法通常默认已有的站点数据较为准确,或简单地通过聚类合并同名站点的方法对站点进行预处理,但由于公交线路多数具有上下行两个方向,公交线网大量存在路段两侧不同方向上具有相同或相似名字的不同站点,且往往距离较近,同时由于全球定位系统的精确度有限,采集到的站点位置可能落在道路中间或道路对侧,因此简单地根据名称或地理位置的聚合不能正确识别冗余站点,脱离路网数据仅依赖聚类不能获得准确的站点位置。
综上所述,需要一种可以对路段两侧不同方向上具有相同或相似名字的不同站点进行识别区分归类、对多次采集同一站点关联的不同地理位置进行数据筛选的公交站点数据清洗方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中传统的公交站点数据清洗方法难以对站点位置偏移和站点偏差的站点数据采集情况进行精确化数据清洗的问题,本发明提供一种基于线路匹配和词聚类的公交站点数据清洗方法。
技术方案如下:一种基于线路匹配和词聚类的公交站点数据清洗方法,包括以下步骤:
S1.获取公交线路基础数据和路网基础数据;
具体的:整合地图服务商提供的城市路网信息,采用人工采集或提取公交车辆GPS及开关门信息的方式,获取公交线路的GPS轨迹和线路途径站点及采集得到的对应站点地理坐标,公交线路基础数据包括公交线路的GPS轨迹和途径站点,路网基础数据为公交线路的对应站点地理坐标;
S2.进行公交站点路网匹配,得到最终的站点路网匹配结果;
S21.采用隐马尔可夫状态转移方法将公交线路途径站点匹配至路网基础数据;
S22.根据路段长度进行路段消除,整理路网得到基础路网;
S23.根据基础路网更新公交站点路网匹配,得到最终的站点路网匹配结果;S3.基于最终的站点路网匹配结果进行站点筛选及分组,得到初步的公交站点分组;
S4.基于词聚类优化公交站点分组,得到最终的公交站点分组及其对应的有效站点位置信息;
S41.采用TF-IDF方法进行公交站点名称向量化,得到公交站点名称向量组;
S42.基于公交站点名称向量组,采用聚类方法对初步的公交站点分组进行进一步下级分组处理,得到最终的公交站点分组;
S43.采用DBSCAN算法对公交站点位置进行聚类,清洗异常数据,得到有效站点位置信息;
S5.基于最终的公交站点名称向量组,对公交站点位置进行合并和修正;
S51.进行公交站点位置合并;
S52.进行公交站点位置修正;
S6.根据合并和修正后的公交站点位置,更新公交线路途径站点,得到数据清洗后的公交站点数据。
进一步地,所述S21中,采用开源地图匹配工具包,基于公交线路的GPS轨迹得到公交线网,采用隐马尔可夫状态转移方法将公交线网匹配至路网基础数据,获取路网中每条公交线路途径的所有路段编号,对于每条公交线路途径的每一站点,筛选所有途径路段中距离站点最近的路段,设定站点在距离站点最近的路段的垂直投影作为路网匹配节点中站点的潜在匹配点,并在潜在匹配点进行路段打断处理,更新路网匹配的节点编号和路段编号,记录各公交线路途径站点对应的拟定路网匹配节点编号,同时记录区分上下行的线路途径站点前的上游路段编号以标记车辆途径站点时的行驶方向;
所述S22中,设定指定长度范围,将路网中长度小于指定长度范围的路段起终点进行融合,生成新节点并更新与其相接的其他路段的起终点信息,消除路网中长度小于指定长度范围的路段,并记录路段起终点融合前后的节点映射关系,整合后得到基础路网。
所述S23中,根据路段起终点融合前后节点映射关系,处理更新各公交线路途径站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号,得到最终的站点路网匹配结果。
进一步地,所述S3中,将公交站点名称中含有“场站”和“总站”的站点标记为场站类公交站点信息,并将其他公交站点标记为普通站,对于普通站点,基于更新后的各站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号对公交站点进行分组;对于场站类公交站点,仅基于各站点拟定的路网匹配节点编号对公交站点进行分组,得到初步的公交站点分组。
进一步地,所述S41中,对于初步的站点分组后获得的每一组公交站点信息,判断公交站点名称是否完全一致,若完全一致,则维持站点分组不变,若公交站点名称不完全一致,则采用TF-IDF方法根据字符出现频率对公交站点名称进行批量向量化,将其转化为TF-IDF特征矩阵,获取代表每一公交站点名称的向量,整合得到公交站点名称向量组;
所述S42中,针对站点子分组对应的公交站点名称向量组,采用聚类方法,对组内的公交站点名称向量进行进一步分组,获取聚类后各组别的向量标签,根据向量标签对站点子分组进行下级组别分类,得到最终的公交站点分组;
所述S43中,采用DBSCAN算法对最终的公交站点分组各子分组内的站点地理位置进行聚类,留取聚类获得的规模最大的站点位置集群作为子分组对应的有效站点位置信息。
进一步地,所述S51中,基于最终的公交站点分组及各子分组对应的有效站点位置信息,获取子分组有效站点位置信息的中心位置作为子分组内站点合并后的新站点位置坐标,记录最终的公交站点名称向量组中旧站点与合并后新站点间位置坐标的映射关系;
所述S52中,对于最终的公交站点分组中的各子分组,提取所有途径子分组的公交线路站点路网匹配结果,整合为路网路段集,获取不同公交线路途径路网路段集的路段交集,在路段交集中选择距离中心位置最近的路段作中心位置的垂足,获得的垂足点即为修正后的站点位置。
进一步地,所述S6中,在路网中所有修正后的站点位置处对路段进行路段打断处理,记录打断处理后新生成的节点编号作为对应公交站点的节点编号,记录被打断处理前后路段编号的映射信息,并对应更新得到打断处理后路网版本的公交线路途径路段列表,基于旧站点与合并后新站点间位置坐标的映射关系,更新公交线路站点间的关联关系,将涉及合并的旧站点替换为对应的合并后的新站点,整理得到数据清洗后的公交站点数据。
本发明的有益效果如下:本发明基于采集得到的公交线路基础数据,结合城市路网基础数据,将公交线路基础数据与路网基础数据进行匹配,获取线路、站点与路网的关联关系,根据路网匹配结果结合词聚类识别重复采集的公交站点,合并根据分组后的公交站点名称合并公交站点位置并修正公交站点位置,数据更新后得到清洗完成的公交站点数据,其结果准确、运行高效且适用于大型城市公交系统,具有广泛的适用性,提高了公交运行监控准确性,普适性的数据处理方法能够同时适应单一线路站点数据源、多个线路站点数据源的数据整合处理;本发明具有鲁棒性,能够应对位置偏移、站点命名偏差等多种情况下的站点整合处理;本发明可同时得到整合后的线路站点与路网的映射关系,便于分析公交在路网中不同路段上的运行状态,不依赖于外部人工校核和人工采集信息,自动化程度高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为一种基于线路匹配和词聚类的公交站点数据清洗方法的流程示意图。
具体实施方式
为了使本发明实施例中的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
参考图1详细说明本实施例,一种基于线路匹配和词聚类的公交站点数据清洗方法,具体包括以下步骤:
S1.获取公交线路基础数据和路网基础数据;
具体的:整合地图服务商提供的城市路网信息,采用人工采集或提取公交车辆GPS及开关门信息的方式,获取公交线路的GPS轨迹和线路途径站点及采集得到的对应站点地理坐标,公交线路基础数据包括公交线路的GPS轨迹和途径站点,路网基础数据为公交线路的对应站点地理坐标;
S2.进行公交站点路网匹配,得到最终的站点路网匹配结果;
S21.采用隐马尔可夫状态转移方法将公交线路途径站点匹配至路网基础数据;
S22.根据路段长度进行路段消除,整理路网得到基础路网;
S23.根据基础路网更新公交站点路网匹配,得到最终的站点路网匹配结果;
S3.基于最终的站点路网匹配结果进行站点筛选及分组,得到初步的公交站点分组;
S4.基于词聚类优化公交站点分组,得到最终的公交站点分组及其对应的有效站点位置信息;
S41.采用TF-IDF方法进行公交站点名称向量化,得到公交站点名称向量组;
S42.基于公交站点名称向量组,采用聚类方法对初步的公交站点分组进行进一步下级分组处理,得到最终的公交站点分组;S43.采用DBSCAN算法对公交站点位置进行聚类,清洗异常数据,得到有效站点位置信息;
S5.基于最终的公交站点名称向量组,对公交站点位置进行合并和修正;
S51.进行公交站点位置合并;
S52.进行公交站点位置修正;
S6.根据合并和修正后的公交站点位置,更新公交线路途径站点,得到数据清洗后的公交站点数据。
进一步地,所述S21中,采用开源地图匹配工具包,基于公交线路的GPS轨迹得到公交线网,采用隐马尔可夫状态转移方法将公交线网匹配至路网基础数据,获取路网中每条公交线路途径的所有路段编号,对于每条公交线路途径的每一站点,筛选所有途径路段中距离站点最近的路段,设定站点在距离站点最近的路段的垂直投影作为路网匹配节点中站点的潜在匹配点,并在潜在匹配点进行路段打断处理,更新路网匹配的节点编号和路段编号,记录各公交线路途径站点对应的拟定路网匹配节点编号,同时记录区分上下行的线路途径站点前的上游路段编号以标记车辆途径站点时的行驶方向;
所述S22中,设定指定长度范围,将路网中长度小于指定长度范围的路段起终点进行融合,生成新节点并更新与其相接的其他路段的起终点信息,消除路网中长度小于指定长度范围的路段,并记录路段起终点融合前后的节点映射关系,整合后得到基础路网;
所述S23中,根据路段起终点融合前后节点映射关系,处理更新各公交线路途径站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号,得到最终的站点路网匹配结果;
具体的,地图匹配是指将轨迹定位坐标点匹配到路网中道路上的过程,由于定位系统或数据采集过程中的偏差,实际采集得到的坐标点往往在道路附近,为了判断对应定位坐标点的车辆实际行驶在哪条道路上,通常需要进行地图匹配的操作,本实施例中,开源地图匹配工具包可以采用Barefoot地图匹配工具包;针对路网较密集的区域同一站点不同采集数据点可能存在多个拟定路网潜在匹配点的情况及打断后路网较为零碎的情况,进行路段起终点融合。
进一步地,所述S3中,将公交站点名称中含有“场站”和“总站”的站点标记为场站类公交站点信息,并将其他公交站点标记为普通站,对于普通站点,基于更新后的各站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号对公交站点进行分组;对于场站类公交站点,仅基于各站点拟定的路网匹配节点编号对公交站点进行分组,得到初步的公交站点分组;
具体的,由于场站类公交站点具有唯一性,而普通公交站点往往在路两侧皆有同名站点,两类站点需要通过筛选进行区分处理,考虑上游途径路段编号的分组方式能够有效将落在路段两侧的上下行同名站点进行区分,避免误将不同侧同名站点合并至同一侧。
进一步地,所述S41中,对于初步站点分组后获得的每一组公交站点信息,判断公交站点名称是否完全一致,若完全一致,则维持站点分组不变,若公交站点名称不完全一致,为避免公交站点名称中常出现的高频且无显著意义的字符造成的干扰,则采用TF-IDF方法根据字符出现频率对公交站点名称进行批量向量化,将其转化为TF-IDF特征矩阵,获取代表每一公交站点名称的向量,整合得到公交站点名称向量组;
所述S42中,针对站点子分组对应的公交站点名称向量组,采用聚类方法,对组内的公交站点名称向量进行进一步分组,获取聚类后各组别的向量标签,根据向量标签对站点子分组进行下级组别分类,得到最终的公交站点站点分组;
所述S43中,采用DBSCAN算法对最终的公交站点分组各子分组内的站点地理位置进行聚类,留取聚类获得的规模最大的站点位置集群作为子分组对应的有效站点位置信息;所述S43中,采用DBSCAN算法对最终的公交站点分组/>各子分组内的站点地理位置进行聚类,留取聚类获得的规模最大的站点位置集群作为子分组对应的有效站点位置信息;具体的,考虑到数据采集时由于采集者操作的差别,同一实际站点可能被赋予不同站点名,比如“白芒村站”、“白芒站”及“白芒村”,而在路网不全或公交线网与路网匹配不准确等情况下也可能出现不同实际站点匹配到同一路网节点并因此被分到同一组中,为了进一步区分组内站点是否确实为同一实际站点,需要使用词聚类对该站点组进行进一步分组处理;TF-IDF方法是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度,一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比,其可以有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性,本实施例中,针对公交站点名称中出现的高频且无显著意义的“站”和“村”等字符,根据字符出现次数对公交站点名称进行批量向量化;步骤S42中,可以采用DBSCAN算法或K-Means等聚类方法对公交站点名称向量组进行聚类;DBSCAN算法是一种基于密度的无监督聚类算法,其对噪声较为鲁棒,算法访问所有数据集中的点,检查该点周围是否有足够的相邻点组构建新的集群,若有,则创建该集群并递归遍历该集群内的所有其他点并执行上述检查;若无,则标记其为噪声点,当已访问完所有数据集中的点后算法终止,所获得的集群即为聚类算法的结果,因此,聚类获得的规模最大的集群即最终的公交站点名称向量组的有效站点位置信息组。
进一步地,所述S51中,基于最终的公交站点分组及各子分组对应的有效站点位置信息,获取子分组有效站点位置信息的中心位置作为子分组内站点合并后的新站点位置坐标,记录最终的公交站点名称向量组中旧站点与合并后新站点间位置坐标的映射关系;所述S52中,对于最终的公交站点分组/>中的各子分组,提取所有途径子分组的公交线路站点路网匹配结果,整合为路网路段集,获取不同公交线路途径路网路段集的路段交集,在路段交集中选择距离中心位置最近的路段作中心位置的垂足,获得的垂足点即为修正后的站点位置。
进一步地,所述S6中,在路网中所有修正后的站点位置处对路段进行路段打断处理,记录打断处理后新生成的节点编号作为对应公交站点的节点编号,记录被打断处理前后路段编号的映射信息,并对应更新得到打断处理后路网版本的公交线路途径路段列表,基于旧站点与合并后新站点间位置坐标的映射关系,更新公交线路站点间的关联关系,将涉及合并的旧站点替换为对应的合并后的新站点,整理得到数据清洗后的公交站点数据。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (6)
1.一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,包括以下步骤:
S1.获取公交线路基础数据和路网基础数据;
具体的:整合地图服务商提供的城市路网信息,采用人工采集或提取公交车辆GPS及开关门信息的方式,获取公交线路的GPS轨迹和线路途径站点及采集得到的对应站点地理坐标,公交线路基础数据包括公交线路的GPS轨迹和途径站点,路网基础数据为公交线路的对应站点地理坐标;
S2.进行公交站点路网匹配,得到最终的站点路网匹配结果;
S21.采用隐马尔可夫状态转移方法将公交线路途径站点匹配至路网基础数据;
S22.根据路段长度进行路段消除,整理路网得到基础路网;
S23.根据基础路网更新公交站点路网匹配,得到最终的站点路网匹配结果;
S3.基于最终的站点路网匹配结果进行站点筛选及分组,得到初步的公交站点分组;
S4.基于词聚类优化公交站点分组,得到最终的公交站点分组及其对应的有效站点位置信息;
S41.采用TF-IDF方法进行公交站点名称向量化,得到公交站点名称向量组;
S42.基于公交站点名称向量组,采用聚类方法对初步的公交站点分组进行进一步下级分组处理,得到最终的公交站点分组;
S43.采用DBSCAN算法对公交站点位置进行聚类,清洗异常数据,得到有效站点位置信息;
S5.基于最终的公交站点分组,对公交站点位置进行合并和修正;
S51.进行公交站点位置合并;
S52.进行公交站点位置修正;
S6.根据合并和修正后的公交站点位置,更新公交线路途径站点,得到数据清洗后的公交站点数据。
2.根据权利要求1所述的一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,所述S21中,采用开源地图匹配工具包,基于公交线路的GPS轨迹得到公交线网,采用隐马尔可夫状态转移方法将公交线网匹配至路网基础数据,获取路网中每条公交线路途径的所有路段编号,对于每条公交线路途径的每一站点,筛选所有途径路段中距离站点最近的路段,设定站点在距离站点最近的路段的垂直投影作为路网匹配节点中站点的潜在匹配点,并在潜在匹配点进行路段打断处理,更新路网匹配的节点编号和路段编号,记录各公交线路途径站点对应的拟定路网匹配节点编号,同时记录区分上下行的线路途径站点前的上游路段编号以标记车辆途径站点时的行驶方向;
所述S22中,设定指定长度范围,将路网中长度小于指定长度范围的路段起终点进行融合,生成新节点并更新与其相接的其他路段的起终点信息,消除路网中长度小于指定长度范围的路段,记录路段起终点融合前后的节点映射关系,整合后得到基础路网;
所述S23中,根据路段起终点融合前后节点映射关系,处理更新各公交线路途径站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号,得到最终的站点路网匹配结果。
3.根据权利要求2所述的一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,所述S3中,将公交站点名称中含有“场站”和“总站”的站点标记为场站类公交站点信息,并将其他公交站点标记为普通站,对于普通站点,基于更新后的各站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号对公交站点进行分组;对于场站类公交站点,仅基于各站点拟定的路网匹配节点编号对公交站点进行分组,得到初步的公交站点分组。
4.根据权利要求3所述的一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,所述S41中,对于初步的站点分组后获得的每一组公交站点信息,判断公交站点名称是否完全一致,若完全一致,则维持站点分组不变,若公交站点名称不完全一致,则采用TF-IDF方法根据字符出现频率对公交站点名称进行批量向量化,将其转化为TF-IDF特征矩阵,获取代表每一公交站点名称的向量,整合得到公交站点名称向量组;
所述S42中,针对站点子分组对应的公交站点名称向量组,采用聚类方法,对组内的公交站点名称向量进行进一步分组,获取聚类后各组别的向量标签,根据向量标签对站点子分组进行下级组别分类,得到最终的公交站点分组;
所述S43中,采用DBSCAN算法对最终的公交站点分组各子分组内的站点地理位置进行聚类,留取聚类获得的规模最大的站点位置集群作为子分组对应的有效站点位置信息。
5.根据权利要求4所述的一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,所述S51中,基于最终的公交站点分组及各子分组对应的有效站点位置信息,获取子分组有效站点位置信息的中心位置作为子分组内站点合并后的新站点位置坐标,记录最终的公交站点名称向量组中旧站点与合并后新站点间位置坐标的映射关系;
所述S52中,对于最终的公交站点分组中的各子分组,提取所有途径子分组的公交线路站点路网匹配结果,整合为路网路段集,获取不同公交线路途径路网路段集的路段交集,在路段交集中选择距离中心位置最近的路段作中心位置的垂足,获得的垂足点即为修正后的站点位置。
6.根据权利要求5所述的一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,所述S6中,在路网中所有修正后的站点位置处对路段进行路段打断处理,记录打断处理后新生成的节点编号作为对应公交站点的节点编号,记录被打断处理前后路段编号的映射信息,并对应更新得到打断处理后路网版本的公交线路途径路段列表,基于旧站点与合并后新站点间位置坐标的映射关系,更新公交线路站点间的关联关系,将涉及合并的旧站点替换为对应的合并后的新站点,整理得到数据清洗后的公交站点数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311703893.1A CN117407387B (zh) | 2023-12-13 | 2023-12-13 | 一种基于线路匹配和词聚类的公交站点数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311703893.1A CN117407387B (zh) | 2023-12-13 | 2023-12-13 | 一种基于线路匹配和词聚类的公交站点数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117407387A CN117407387A (zh) | 2024-01-16 |
CN117407387B true CN117407387B (zh) | 2024-03-26 |
Family
ID=89496516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311703893.1A Active CN117407387B (zh) | 2023-12-13 | 2023-12-13 | 一种基于线路匹配和词聚类的公交站点数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407387B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106781506A (zh) * | 2017-02-21 | 2017-05-31 | 济南全通信息科技有限公司 | 基于公交车gps数据的大范围城市公交线网实时运行水平评价方法 |
CN113723715A (zh) * | 2021-11-01 | 2021-11-30 | 深圳市城市交通规划设计研究中心股份有限公司 | 公交线网自动匹配道路网络方法、系统、设备及存储介质 |
WO2022161144A1 (zh) * | 2021-01-28 | 2022-08-04 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种公交线网的备选线路集生成、线路规划方法及装置 |
-
2023
- 2023-12-13 CN CN202311703893.1A patent/CN117407387B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106781506A (zh) * | 2017-02-21 | 2017-05-31 | 济南全通信息科技有限公司 | 基于公交车gps数据的大范围城市公交线网实时运行水平评价方法 |
WO2022161144A1 (zh) * | 2021-01-28 | 2022-08-04 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种公交线网的备选线路集生成、线路规划方法及装置 |
CN113723715A (zh) * | 2021-11-01 | 2021-11-30 | 深圳市城市交通规划设计研究中心股份有限公司 | 公交线网自动匹配道路网络方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于GIS路网的公交路线轨迹算法;钟会玲 等;计算机系统应用;20171115(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117407387A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112557598B (zh) | 一种基于物联网的城市空气质量监控管理方法 | |
CN110555544B (zh) | 一种基于gps导航数据的交通需求估计方法 | |
WO2022152026A1 (zh) | 交通拥堵检测方法、装置、电子设备及存储介质 | |
Liu et al. | Exploiting heterogeneous human mobility patterns for intelligent bus routing | |
US11085791B2 (en) | Method, apparatus, and computer program product for on-street parking localization | |
CN111653096A (zh) | 一种基于手机信令数据的城市出行方式识别方法 | |
CN111581325B (zh) | 一种基于时空影响距离的K-means站点区域划分方法 | |
CN113205700B (zh) | 一种基于手机信令路网匹配的高速车辆位置识别方法 | |
CN112036757A (zh) | 基于手机信令和浮动车数据的停车换乘停车场的选址方法 | |
CN111191817B (zh) | 一种基于换乘客流量的公交线网拓扑划分方法 | |
CN115862331A (zh) | 考虑卡口网络拓扑结构的车辆出行轨迹重构方法 | |
Li et al. | An automatic extraction method of coach operation information from historical trajectory data | |
El Faouzi et al. | Classifiers and distance-based evidential fusion for road travel time estimation | |
CN117407387B (zh) | 一种基于线路匹配和词聚类的公交站点数据清洗方法 | |
CN114723596A (zh) | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 | |
CN110675631A (zh) | 一种交通流溯源分析方法及系统 | |
CN107038857A (zh) | 一种公交数据获取方法及公交数据平台 | |
CN110610446A (zh) | 一种基于两步聚类思路的县域城镇分类方法 | |
CN113313963B (zh) | 基于多源线路数据的公交可通行网络构建方法 | |
Xi et al. | Improved dynamic time warping algorithm for bus route trajectory curve fitting | |
CN111275482B (zh) | 基于机器学习的轨道交通实时动态清分方法 | |
Xu et al. | An assistant decision-supporting method for urban transportation planning over big traffic data | |
León et al. | Improvements of a topological map-matching algorithm in post-processing mode | |
CN113724494B (zh) | 一种定制公交需求区域识别方法 | |
CN111787490A (zh) | 伪基站轨迹识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |