CN116933096A - 基于大数据的相似路线识别方法及装置 - Google Patents
基于大数据的相似路线识别方法及装置 Download PDFInfo
- Publication number
- CN116933096A CN116933096A CN202310727710.3A CN202310727710A CN116933096A CN 116933096 A CN116933096 A CN 116933096A CN 202310727710 A CN202310727710 A CN 202310727710A CN 116933096 A CN116933096 A CN 116933096A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- route
- information
- vehicle driving
- routes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 69
- 238000005070 sampling Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000010365 information processing Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 231100001263 laboratory chemical safety summary Toxicity 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006855 networking Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001244708 Moroccan pepper virus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Navigation (AREA)
Abstract
本申请涉及路线识别技术领域,涉及一种基于大数据的相似路线识别方法及装置。方法包括:获取联合数据集;根据联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;根据车辆运行信息,切分车辆行驶路线,得到至少一条车辆行驶子路线;分别提取至少一条车辆行驶子路线的轨迹关键特征;根据至少一条车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;根据路线相似度计算结果,得到相似路线组。采用本方法能够在保证相似路线识别精度的基础上,减少计算量并提升计算速度。
Description
技术领域
本申请涉及路线识别技术领域,特别是涉及一种基于大数据的相似路线识别方法及装置。
背景技术
随着全球定位系统的广泛应用和车联网终端Tbox的全面覆盖,每时每刻都有海量的车联网数据被收集和存储,其中车辆的经纬度信息能够有效地描述车辆的行驶轨迹,这些轨迹数据具有极高的数据挖掘价值。通过识别车辆的路线相似性,能够有效支撑群体路径偏好、运输路线优化和路网预测等应用场景。
目前,相似路线识别的判定有多种形式,包括基于点的方法、基于形状的方法、基于分段的方法、基于特定任务的方法等。而轨迹信息在多车辆长时间的运输下,会产生大量级的数据,通过全量的经纬度数据识别相似路线,这对于目前的计算方式中服务器和集群的计算能力和计算速度是巨大的考验,容易出现内存溢出的情况。
因此,如何在保证相似路线识别精度的基础上,减少计算量并提升计算速度,是有待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在保证相似路线识别精度的基础上,减少计算量并提升计算速度的基于大数据的相似路线识别方法及装置。
第一方面,本申请提供了一种基于大数据的相似路线识别方法。所述方法包括:
获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
根据所述路线相似度计算结果,得到相似路线组。
在其中一个实施例中,所述根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线,包括:
根据所述车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息,所述车辆类型信息至少分为乘用车类型和商用车类型;
若所述当前车辆的车辆类型属于乘用车类型,则根据所述车辆GPS时间戳信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线。
在其中一个实施例中,所述根据所述车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息之后,还包括:
若所述当前车辆的车辆类型不属于乘用车类型,则根据车辆运行信息,分析得到当前车辆的载货信息和poi信息;
根据所述车辆GPS时间戳信息、载货信息和poi信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线。
在其中一个实施例中,所述分别提取至少一条所述车辆行驶子路线的轨迹关键特征,包括:
根据所述车辆运行信息,获取当前车辆的1hz定位数据;
根据所述当前车辆的1hz定位数据,分别对至少一条所述车辆行驶子路线进行等距采样,获得等距采样结果;
根据所述等距采样结果,采用最小描述长度算法计算采样点间增益,生成采样点间增益的计算结果;
根据所述采样点间增益的计算结果,分别提取至少一条所述车辆行驶子路线的轨迹关键特征。
在其中一个实施例中,所述根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果,包括:
根据至少一条所述车辆行驶子路线的轨迹关键特征,采用Quick bundles算法分别对每条车辆行驶路线的路线轨迹进行聚类,在列表中生成多车辆的车辆行驶路线的轨迹聚类结果。
在其中一个实施例中,所述方法还包括,
根据多车辆的车辆行驶路线的轨迹聚类结果,采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,得到路线相似度。
第二方面,本申请还提供了一种基于大数据的相似路线识别装置。所述装置包括:
信息获取模块,用于获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
信息处理模块,用于根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
信息处理模块,还用于根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
信息处理模块,还用于分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
信息处理模块,还用于根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
信息处理模块,还用于根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
信息处理模块,还用于根据所述路线相似度计算结果,得到相似路线组。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
根据所述路线相似度计算结果,得到相似路线组。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
根据所述路线相似度计算结果,得到相似路线组。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
根据所述路线相似度计算结果,得到相似路线组。
上述基于大数据的相似路线识别方法和装置,具有以下技术效果:
1.基于车辆行驶过程中的车联网信息以及路网信息,对车辆行驶轨迹进行关键行驶特征提取,然后通过聚类算法实现轨迹聚类,再通过分布式计算方法,将不同聚类的路线分散到不同执行器进行计算。结合几种算法简化手段,极大地减少了计算量,提升计算效率,实现基于大数据的相似路线识别。
2.通过等距采样的方式将数据从密集变成稀疏,接着基于最小描述长度算法计算数据点间的增益,有效提取路线的关键特征点,使后续计算的样本量能减少数百倍。
3.采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,对于轨迹的相似性度量更具有鲁棒性。
附图说明
图1为一个实施例中基于大数据的相似路线识别方法的应用环境图;
图2为一个实施例中基于大数据的相似路线识别方法的流程示意图;
图3为另一个实施例中步骤S206的展开流程示意图;
图4为另一个实施例中步骤S208的展开流程示意图;
图5为一个实施例中基于大数据的相似路线识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
首先,对本申请实施例中涉及到的名词进行简要解释说明:
乘用车类型:包括轿车、微型客车以及不超过9座的轻型客车。乘用车细分为基本型乘用车(轿车)、多用途车(MPV)、运动型多用途车(SUV)、专用乘用车和交叉型乘用车。
商用车类型:所有的载货汽车和9座以上的客车,分为货车、半挂牵引车、客车非完整车辆和货车非完整车辆,共五类。
1hz定位数据:指每秒钟收集一次位置信息的数据,通常用于一些低速运动的应用场景,精度一般在10米左右。
路线等距采样:指在地理信息系统(GIS)中,对路线进行等距离采样,将路线上的点均匀分布在路线上,以便于后续的空间分析和处理。这种采样方法可以通过计算路线长度和采样间隔来确定采样点的数量和位置,从而实现对路线的等距采样。
最小描述长度算法:指一种通用的数据压缩算法,可以用来计算采样点间增益。其基本思想是利用编码来描述数据的特征,从而实现对数据的压缩。具体实现过程如下:1.对采样点坐标进行编码,生成编码序列。2.利用编码序列计算编码长度,即描述数据所需的最小位数。3.计算采样点间增益,即相邻采样点间编码长度的差值。
本申请实施例提供的基于大数据的相似路线识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的联合数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
以服务器104单独执行本申请实施例提供的方法流程为例,具体地,服务器104可以获取联合数据集,联合数据集包括多车辆的车联网信息和路网信息。并根据联合数据集,得到多车辆的车辆运行信息和车辆行驶路线。然后根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;服务器104还分别提取至少一条所述车辆行驶子路线的轨迹关键特征;然后根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;最后服务器104根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;根据所述路线相似度计算结果,得到相似路线组。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,结合上述名词简介以及实施环境说明,如图2所示,提供了一种基于大数据的相似路线识别方法,该方法应用于服务器,包括以下步骤:
步骤S202,获取联合数据集,联合数据集包括多车辆的车联网信息和路网信息。
其中,联合数据集主要有两类,一是通过TBox传回的车联网信息,具体包括:车辆vin、GPS时间戳、仪表车速、GPS车速、发动机转速、瞬时燃油消耗率、经度、纬度。二是路网信息,具体包括:经度、纬度、省份名称、城市名称、区域编码。通过经纬度信息将两类数据关联合并,形成完整的联合数据集。然后对联合数据集进行预处理,首先对数据集中数据进行空值填充并依据GPS时间戳排序,其次进行格式转化,从字符串转换成数值类型,最后对仪表车速、GPS车速、发动机转速进行数据修正。
步骤S204,根据联合数据集,得到多车辆的车辆运行信息和车辆行驶路线。
其中,车辆运行信息包括车辆的运行距离(例如起点A至终点B之间的距离)和中间停留地点(例如A1、A2、A3、B1、B2和B3),车辆行驶路线包括从起点A至终点B的路线情况。
步骤S206,根据车辆运行信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
其中,在本申请实施例中默认根据中间停留地点切分成多条车辆行驶子路线,每个车辆行驶子路线包括多个经纬点。
步骤S208,分别提取至少一条车辆行驶子路线的轨迹关键特征。
其中,轨迹关键特征具体包括轨迹密度特征、轨迹曲率特征、轨迹速度特征和轨迹停留特征。
步骤S210,根据至少一条车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果。
其中,将提取到路线的典型经纬度特征点流数据作为Quick bundles算法的输入,将每一条路线定义成固定长度的有序点,通过计算最小平均直接翻转距离来判断是否加入当前路线与当前存在的路线集群。Quick bundles在运算过程中不会进行重新分配和更新,因此计算速度和效率极高。当所有路线都被聚类完成后,会形成一个列表。通过聚类能够将一组多路线变成多组少路线,能够有效减少后续进行详细相似度对比的计算量。
步骤S212,根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果。
其中,根据轨迹聚类结果,对在同一类别中的路线进行两两相似度对比,若某一类中包含n条路线,那么两两对比的次数为((n)×(n-1))/2。由于不同类别间的路线不进行比较,因此可以进行分布式计算,将不同类别的相似度计算放在不同的执行器中实现高效的并行运算以获取两条路线间的相似度。
步骤S214,根据路线相似度计算结果,得到相似路线组。
其中,由于计算相似度时是两两路线间进行对比的,因此识别出的相似路线会成对出现。但存在一条路线同时与多条路线相似的情况,因此需要进行进一步处理。从第一对相似路线开始,新建相似路线组,并进行相似路线组标号。如果下一对路线中任意一条出现在之前出现的组内,将该对相似路线添加到该组,若未出现,则继续新建相似路线组并标号,直到所有的成对相似路线都出现在相似路线组。
综上,以上实施例中,基于车辆行驶过程中的车联网信息以及路网信息,对车辆行驶轨迹进行关键行驶特征提取,然后通过聚类算法实现轨迹聚类,再通过分布式计算方法,将不同聚类的路线分散到不同执行器进行计算得到相似路线组。结合几种算法简化手段,极大地减少了计算量,提升计算效率,实现基于大数据的相似路线识别。
在一个实施例中,如图3所示,步骤S206包括步骤S302-步骤S306。
步骤S302,根据车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息,车辆类型信息至少分为乘用车类型和商用车类型。
步骤S304,判断当前车辆的车辆类型是否属于乘用车类型。
步骤S306,若当前车辆的车辆类型属于乘用车类型,则根据车辆GPS时间戳信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
若当前车辆的车辆类型不属于乘用车类型,则根据车辆运行信息,分析得到当前车辆的载货信息和poi信息;根据车辆GPS时间戳信息、载货信息和poi信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
具体地,车辆GPS时间戳指的是由GPS系统确定的行程开始和结束时间。根据车辆GPS时间戳信息,例如路线(A1-A2)的结束时间戳和路线(A2-A3)的开始时间戳之间大于5分钟,则说明当前车辆在地点A2至少停留5分钟。若车辆类型为乘用车,则路线(A1-A2)的结束时间戳和路线(A2-A3)能够划分为两条单独的子路线;否则,不划分为两条单独的车辆行驶子路线。在优选方案中,5分钟可作为时间阈值,作为划分两条相邻子路线的依据。若车辆类型不为乘用车(例如商用车),需要考虑载货信息、poi信息,结合车辆GPS时间戳,采用预设的权重比例(例如车辆GPS时间戳信息、载货信息和poi信息分别占比0.6、0.3和0.1)进行确定两条相邻的车辆行驶子路线。
综上,此种划分方式能够节省车辆行驶子路线的数量,减少后期计算量。
在一个实施例中,如图4所示,步骤S208中包括步骤S402-步骤S408。
步骤S402,根据车辆运行信息,获取当前车辆的1hz定位数据。
步骤S404,根据当前车辆的1hz定位数据,分别对至少一条车辆行驶子路线进行等距采样,获得等距采样结果。
步骤S406,根据等距采样结果,采用最小描述长度算法计算采样点间增益,生成采样点间增益的计算结果。
步骤S408,根据采样点间增益的计算结果,分别提取至少一条车辆行驶子路线的轨迹关键特征。
其中,由于1hz定位数据指每秒钟收集一次位置信息的数据,通常用于一些低速运动的应用场景,读取车辆行驶子路线的1hz定位数据,包括经度、纬度、时间戳等信息。然后计算相邻两个定位点之间的距离,根据要求的等距采样间隔,计算需要保留的定位点的个数。再根据计算出的定位点个数,按照等距采样间隔,在车辆行驶子路线上选取相应的定位点,得到等距采样结果。将等距采样结果进行存储和处理,例如可以将结果保存为CSV文件或数据库中的表格数据,以便于后续的车辆轨迹分析和可视化展示。
采样点间增益还反映了车辆在相邻两个采样点之间的转弯情况,因此可以通过采样点间增益的变化来计算路线的曲率变化。具体实现过程如下:对于相邻的两个采样点间增益,如果它们的差值超过一个阈值,则说明车辆在这两个采样点之间有转弯,可以将这个转弯的位置作为路线的曲率变化点。通过计算相邻的曲率变化点之间的距离,可以得到路线的曲率变化程度,即路线的曲率变化。通过曲率变化,能反映不同的轨迹关键特征,具体如下:
轨迹密度特征:采样点间增益为0的区间表示车辆行驶方向相对稳定,轨迹密度较高,这些区间可以用于提取车辆行驶的主要行驶路线。
轨迹曲率特征:采样点间增益较大的区间表示车辆行驶方向变化较大,轨迹曲率较大,这些区间可以用于提取车辆行驶的弯道和拐角。
轨迹速度特征:采样点间增益较小的区间表示车辆行驶速度相对稳定,这些区间可以用于提取车辆行驶的高速公路或市区快速路等路段。
轨迹停留特征:采样点间增益为0的区间中,如果存在较长的时间间隔,表示车辆停留在该位置,这些区间可以用于提取车辆的停留点信息。
综上,采样点间增益的计算结果可以提供多种轨迹关键特征,有助于对车辆行驶轨迹进行分析和处理。为了简化计算,首先对行驶路线中的1hz数据进行等距采样,然后通过信息压缩方法中广泛使用的最小描述长度算法计算点间增益,保证提取到的特征点的简洁性和准确性。通过等距采样的方式将数据从密集变成稀疏,接着基于最小描述长度算法计算数据点间的增益,有效提取路线的关键特征点,使后续计算的样本量能减少数百倍。
在一个实施例中,步骤S210具体包括:根据至少一条车辆行驶子路线的轨迹关键特征,采用Quick bundles算法分别对每条车辆行驶路线的路线轨迹进行聚类,在列表中生成多车辆的车辆行驶路线的轨迹聚类结果。
具体地,提取每条车辆行驶路线的轨迹关键特征,如轨迹密度、轨迹曲率、轨迹速度和轨迹停留特征等;将每条车辆行驶路线的轨迹数据按照一定的分辨率进行采样,得到每条路线的点云数据;将所有路线的点云数据进行Quick bundles算法的处理,再将点云数据分为若干个局部区域,对每个局部区域进行配准,得到该区域内点云数据的旋转矩阵和平移向量;根据所有局部区域的旋转矩阵和平移向量,计算整个点云数据的最终旋转矩阵和平移向量;将所有路线的点云数据按照计算得到的旋转矩阵和平移向量进行配准,得到整个点云数据的配准结果;对配准结果进行聚类,可以得到多车辆的车辆行驶路线的轨迹聚类结果,每个聚类代表一种车辆行驶路线的模式;将每个聚类中的轨迹数据进行分析和处理,可以得到该类车辆行驶路线的相关特征和规律。当所有路线都被聚类完成后,会形成一个列表。通过聚类能够将一组多路线变成多组少路线,能够有效减少后续进行详细相似度对比的计算量。
综上,采用Quick bundles算法对车辆行驶路线进行聚类,可以有效地分析和处理车辆行驶数据,为交通管理、路网规划和城市规划等领域提供有价值的参考信息。
在一个实施例中,步骤S212具体包括:根据多车辆的车辆行驶路线的轨迹聚类结果,采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,得到路线相似度。
具体地,基于聚类结果,对在同一类别中的路线进行两两相似度对比,若某一类中包含n条路线,那么两两对比的次数为((n)×(n-1))/2。由于不同类别间的路线不进行比较,因此可以利用spark进行分布式计算,将不同类别的相似度计算放在不同的执行器Executor中,实现高效的并行运算。在两两对比过程中,采用通过LCSS算法查找两条路线之间的最大公共子序列,计算最大公共子序列的长度并进行归一化处理,获取两条路线间的相似度。接着,自定义相似度阈值,相似度超过该阈值(例如90%)的两条路线被识别。
综上,采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,对于轨迹的相似性度量更具有鲁棒性。
在一个实施例中,步骤S214具体包括:对相似路线组进行去重处理后,进行可视化展示。
由于计算相似度的时候是两两间进行对比的,因此识别出的相似路线成对出现。但存在一条路线同时与多条路线相似的情况,因此需要进行进一步处理。而相似度具有传递性,当A路线同时与B路线和C路线都相似时,认为B路线与C路线也相似。基于此种理论,从第一对相似路线开始,新建相似路线组,并进行相似路线组标号。如果下一对路线中任意一条出现在之前出现的组后,将该对相似路线添加到该组,若未出现,则继续新建相似路线组并标号,直到所有的成对相似路线都出现在相似路线组。每一组相似路线由于是成对添加的,因此还需要对每一组中相似路线标号进行去重。
相似路线识别可视化展示。具体为,针对识别好的车辆相似路线组,通过表格形式实现可视化输出。对每组相似路线内的每条路线,输出相似路线组号、每条路线的车辆vin,开始时间、结束时间、平均车速、百公里油耗、起止位置等关键信息。至此,完成整个相似路线自动识别方法。
综上,对相似路线组进行去重处理后,可视化展示的技术效果可以帮助用户更好地理解和分析车辆行驶数据,从而为交通管理、路网规划和城市规划等领域提供有价值的参考信息。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于大数据的相似路线识别方法的基于大数据的相似路线识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于大数据的相似路线识别装置实施例中的具体限定可以参见上文中对于基于大数据的相似路线识别方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种基于大数据的相似路线识别装置,包括:
信息获取模块502,用于获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息。
信息处理模块504,用于对以上的联合数据集进行预处理,根据处理后的所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线。
信息处理模块504,还用于根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线。
信息处理模块504,还用于分别提取至少一条所述车辆行驶子路线的轨迹关键特征。
信息处理模块504,还用于根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果。
信息处理模块504,还用于根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果。
信息处理模块504,还用于根据所述路线相似度计算结果,得到相似路线组。
在其他实施例中,信息获取模块502,还用于根据车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息,车辆类型信息至少分为乘用车类型和商用车类型。
该装置还包括判断模块,用于判断当前车辆的车辆类型是否属于乘用车类型。
信息处理模块504,还用于若当前车辆的车辆类型属于乘用车类型,则根据车辆GPS时间戳信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
若当前车辆的车辆类型不属于乘用车类型,则根据车辆运行信息,分析得到当前车辆的载货信息和poi信息;根据车辆GPS时间戳信息、载货信息和poi信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
在其他实施例中,信息获取模块502,还用于根据车辆运行信息,获取当前车辆的1hz定位数据。
信息处理模块504,还用于根据当前车辆的1hz定位数据,分别对至少一条车辆行驶子路线进行等距采样,获得等距采样结果。
信息处理模块504,还用于根据等距采样结果,采用最小描述长度算法计算采样点间增益,生成采样点间增益的计算结果。
信息处理模块504,还用于根据采样点间增益的计算结果,分别提取至少一条车辆行驶子路线的轨迹关键特征。
在其他实施例中,信息处理模块504,还用于根据至少一条车辆行驶子路线的轨迹关键特征,采用Quick bundles算法分别对每条车辆行驶路线的路线轨迹进行聚类,在列表中生成多车辆的车辆行驶路线的轨迹聚类结果。
在其他实施例中,信息处理模块504,还用于根据多车辆的车辆行驶路线的轨迹聚类结果,采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,得到路线相似度。
在其他实施例中,信息处理模块504,还用于对相似路线组进行去重处理后,可视化展示。
上述基于大数据的相似路线识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于大数据的相似路线识别方法的相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的相似路线识别方法。
在一个实施例中,提供了一种计算机可读存储介质。其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤S202,获取联合数据集,联合数据集包括多车辆的车联网信息和路网信息。
步骤S204,根据联合数据集,得到多车辆的车辆运行信息和车辆行驶路线。
步骤S206,根据车辆运行信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
步骤S208,分别提取至少一条车辆行驶子路线的轨迹关键特征。
步骤S210,根据至少一条车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果。
步骤S212,根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果。
步骤S214,根据路线相似度计算结果,得到相似路线组。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
步骤S202,获取联合数据集,联合数据集包括多车辆的车联网信息和路网信息。
步骤S204,根据联合数据集,得到多车辆的车辆运行信息和车辆行驶路线。
步骤S206,根据车辆运行信息,切分车辆行驶路线,得到至少一条车辆行驶子路线。
步骤S208,分别提取至少一条车辆行驶子路线的轨迹关键特征。
步骤S210,根据至少一条车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果。
步骤S212,根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果。
步骤S214,根据路线相似度计算结果,得到相似路线组。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于大数据的相似路线识别方法,其特征在于,所述方法包括:
获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
根据所述路线相似度计算结果,得到相似路线组。
2.根据权利要求1所述的方法,其特征在于,所述根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线,包括:
根据所述车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息,所述车辆类型信息至少分为乘用车类型和商用车类型;
若所述当前车辆的车辆类型属于乘用车类型,则根据所述车辆GPS时间戳信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线。
3.根据权利要求2所述的方法,其特征在于,所述根据所述车辆运行信息,获取当前车辆的车辆类型信息和车辆GPS时间戳信息之后,还包括:
若所述当前车辆的车辆类型不属于乘用车类型,则根据车辆运行信息,分析得到当前车辆的载货信息和poi信息;
根据所述车辆GPS时间戳信息、载货信息和poi信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线。
4.根据权利要求1所述的方法,其特征在于,所述分别提取至少一条所述车辆行驶子路线的轨迹关键特征,包括:
根据所述车辆运行信息,获取当前车辆的1hz定位数据;
根据所述当前车辆的1hz定位数据,分别对至少一条所述车辆行驶子路线进行等距采样,获得等距采样结果;
根据所述等距采样结果,采用最小描述长度算法计算采样点间增益,生成采样点间增益的计算结果;
根据所述采样点间增益的计算结果,分别提取至少一条所述车辆行驶子路线的轨迹关键特征。
5.根据权利要求1所述的方法,其特征在于,所述根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果,包括:
根据至少一条所述车辆行驶子路线的轨迹关键特征,采用Quick bundles算法分别对每条车辆行驶路线的路线轨迹进行聚类,在列表中生成多车辆的车辆行驶路线的轨迹聚类结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括,
根据多车辆的车辆行驶路线的轨迹聚类结果,采用LCSS算法计算相同聚类的任意两条车辆行驶路线的最大公共子序列长度,进行归一化处理,得到路线相似度。
7.一种基于大数据的相似路线识别装置,其特征在于,所述装置包括:
信息获取模块,用于获取联合数据集,所述联合数据集包括多车辆的车联网信息和路网信息;
信息处理模块,用于根据所述联合数据集,得到多车辆的车辆运行信息和车辆行驶路线;
信息处理模块,还用于根据所述车辆运行信息,切分所述车辆行驶路线,得到至少一条车辆行驶子路线;
信息处理模块,还用于分别提取至少一条所述车辆行驶子路线的轨迹关键特征;
信息处理模块,还用于根据至少一条所述车辆行驶子路线的轨迹关键特征,获取多车辆的车辆行驶路线的轨迹聚类结果;
信息处理模块,还用于根据多车辆的车辆行驶路线的轨迹聚类结果,分别对不同聚类的所述车辆行驶路线进行分布式计算路线相似度,获得路线相似度计算结果;
信息处理模块,还用于根据所述路线相似度计算结果,得到相似路线组。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727710.3A CN116933096A (zh) | 2023-06-19 | 2023-06-19 | 基于大数据的相似路线识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727710.3A CN116933096A (zh) | 2023-06-19 | 2023-06-19 | 基于大数据的相似路线识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933096A true CN116933096A (zh) | 2023-10-24 |
Family
ID=88379694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310727710.3A Pending CN116933096A (zh) | 2023-06-19 | 2023-06-19 | 基于大数据的相似路线识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933096A (zh) |
-
2023
- 2023-06-19 CN CN202310727710.3A patent/CN116933096A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110264709B (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
US8554473B2 (en) | Energy efficient routing using an impedance factor | |
CN111612670B (zh) | 一种构建机动车排放清单的方法、装置和计算机设备 | |
US11335191B2 (en) | Intelligent telematics system for defining road networks | |
US11341846B2 (en) | Traffic analytics system for defining road networks | |
CN113763712B (zh) | 基于出行事件知识图谱的区域交通拥堵溯因方法 | |
US11335189B2 (en) | Method for defining road networks | |
CN111189459A (zh) | 一种定位信息与道路匹配的方法和装置 | |
US11408746B2 (en) | Systems and methods for generating attributes-based recommendations | |
Wu et al. | Exploring key spatio-temporal features of crash risk hot spots on urban road network: A machine learning approach | |
CN111444286B (zh) | 一种基于轨迹数据的远距离交通节点关联性挖掘方法 | |
CN116664025A (zh) | 装卸货位置点生成方法、装置及设备 | |
CN116933096A (zh) | 基于大数据的相似路线识别方法及装置 | |
EP3922947A2 (en) | Traffic analytics system for defining road networks | |
CN115423841A (zh) | 一种面向大宗物流的运输终点校准方法及系统 | |
CN114169247A (zh) | 仿真交通流的生成方法、装置、设备和计算机可读存储介质 | |
CN114216467A (zh) | 道路定位方法、装置、计算机设备和存储介质 | |
Xu et al. | An assistant decision-supporting method for urban transportation planning over big traffic data | |
Wu et al. | Excavation of Attractive Areas for Car-Share Travel and Prediction of Car-Share Usage | |
Cheng et al. | Prediction of the shortest travel time based on intersection delay | |
EP3919860A1 (en) | Intelligent telematics system for defining road networks | |
EP3913551A1 (en) | Method for defining road networks | |
CN116029624B (zh) | 一种融合货车轨迹和poi数据的货源地识别方法 | |
Shamohammadi et al. | Comparison of the performance of gradient boosting, logistic regression, and linear Support Vector Classifier algorithms in classifying travel modes based on GNSS data | |
CN117744907B (zh) | 一种货源路线规划方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |