CN117591904B

CN117591904B - 一种基于密度聚类的货车聚类方法

Info

Publication number: CN117591904B
Application number: CN202410072493.3A
Authority: CN
Inventors: 朱民健; 梁世挺; 王昆; 苏胜林; 马军亮
Original assignee: Zhongruixin Digital Technology Co ltd
Current assignee: Zhongruixin Digital Technology Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-16
Anticipated expiration: 2044-01-18
Also published as: CN117591904A

Abstract

本发明公开一种基于密度聚类的货车聚类方法，涉及交通管理数据分析技术领域，包括以下步骤：OD分析，将货车实时GPS数据源转为OD点，并计算GeoHash值；聚类分析，采用改进的DBSCAN算法，初步计算出货车的聚类情况，得到初步货车聚类区域；区域合并，对初步货车聚类区域进行基于词向量的相似度分析，并进行空间合并，得到最终聚类区域。本发明引入采用的是货车的实时点位数据，从根源上解决数据准确性；通过构建GeoHash结构来优化查找邻居点的过程，缩短DBSCAN的计算时间；聚类算法中利用词向量相似度的分析方法，降低因密度聚类领域半径设置过小，导致的聚类区域结果过于小且离散，提高数据的可用性和鲁棒性。

Description

一种基于密度聚类的货车聚类方法

技术领域

本发明涉及交通管理数据智能分析技术领域，尤其是涉及一种基于密度聚类的货车聚类方法。

背景技术

交通管理领域，特别是对于货车的管理领域，经常采用货车聚类分析，货车的聚类分析是一种将货车根据其特征参数分类的方法，目的是更好地理解货车的不同类型，优化货车管理，或是为了设计更加精确的物流方案。聚类分析在这里是一个无监督学习的过程，它不需要预先定义货车类型的标签，而是通过分析货车的一些关键特性自行确定类别。

目前，在交通管理领域对货车聚类区域，主要两种方案：

第一种方案：交通管理人员根据业务管理经验，筛选出平时重点管理的区域

第二种方案：利用电子警察和车辆卡口等设备，获得黄牌货车的过车数据，通过设备点位来构建货车的OD点来分析货车的聚类情况。

两种现有方案分别存在以下问题

第一种方案采用的人工经验，会有如下问题：

1）局限性强：对交通管理人员的经验依赖极大，无法全局掌握货车的聚类情况；

2）时效性差：货车聚类的更新，依赖于交通管理人员日常工作的频率更新或范围的扩大。

第二种方案采用的策略依赖于电子警察和车辆卡口等设备数据源进行分析，会有如下问题：

1）设备布置限制目的地追踪：由于设备主要部署在路口或特定路段，导致无法精准追踪货车的最终目的地。实际上，货车的起点和终点被限制在了设备的起点和终点，从而无法得到真实目的地的信息。

2）聚类计算方法简单：目前所使用的货车聚类计算方法较为简单，主要是以设备的起点和终点为基础进行合并统计。这种方法导致了信息丢失，未能充分反映货车的真实行动轨迹和目的地。

3）聚类结果难落实：由于分析结果只能呈现为热力图分布或相对较高粒度的数据，无法与具体的主体企业关联起来。这限制了数据分析的深度和广度，也降低了对交通管理的实际支持。

因此货车管理领域亟需解决以下问题：

1）选择合适数据源：选择更为合适的数据源，提高最后结果的有效性。

2）增强系统性：引入机器学习的方法，降低对交通管理人员经验的依赖。

3）优化聚类算法，采用更复杂、高效的聚类算法，并考虑时空因素，以保留更多货车的真实行动轨迹和目的地信息。

发明内容

为了解决上述技术问题，本发明提供一种基于密度聚类的货车聚类方法。采用如下的技术方案：

一种基于密度聚类的货车聚类方法，包括以下步骤：

步骤1，OD分析，获取货车实时GPS数据源，将货车实时GPS数据源转为OD点，并计算GeoHash值；

步骤2，聚类分析，采用改进的DBSCAN算法，初步计算出货车的聚类情况，得到初步货车聚类区域；

步骤3，区域合并，对初步货车聚类区域进行基于词向量的相似度分析，并进行空间合并，得到最终聚类区域。

通过采用上述技术方案，相对于传统的方式，引入采用的是货车的实时点位数据，从根源上解决数据准确性；

采用了密度聚类的机器学习算法，无需事先设定区域或区域数量，即可计算出货车聚类区域的货车数量、面积及中心点等信息；

通过构建GeoHash结构来优化查找邻居点的过程，缩短DBSCAN的计算时间；

聚类算法中利用词向量相似度的分析方法，合并聚类分析出来的聚类区域结果，降低因密度聚类领域半径设置过小，导致的聚类区域结果过于小且离散，提高数据的可用性。

可选的，步骤1包括以下子步骤：

步骤11，从货车实时GPS数据源队列中获取货车的主要参数，主要参数是唯一识别码数据、经纬度定位数据和定位时间点数据；

步骤12，根据同一辆货车定位的后先顺序对OD点进行更新，同时根据前后两个时间点区间的时间差，判断是否产生新的OD点；

步骤13，计算OD点的GeoHash的值。

可选的，在步骤11后，分别对货车定位唯一识别码数据、经纬度定位数据和定位时间点数据三个参数进行非空、时间异常、空间异常的数据校验和清洗。

通过采用上述技术方案，货车聚类的OD（Origin-Destination）分析是从收集到的货车行驶轨迹数据中提取并分析货车出行的出发地与目的地信息。这些OD信息对于理解和优化城市内的货物运输流动至关重要。

在进行货车聚类的OD分析时，首先需要收集货车实时GPS数据源队列中获取货车的主要参数，主要参数是唯一识别码数据、经纬度定位数据和定位时间点数据，这三个数据是与聚类分析关联度最大的三个数据，更新计算OD点的GeoHash的值为后续的聚类分析提供更加准确的数据。

可选的，步骤2包括以下子步骤：

步骤21，清洗掉OD轨迹过短或静止不动的OD数据，形成有效OD数据集；

步骤22，初始化DBSCAN的算法参数领域半径和密度阈值；

步骤23，遍历有效OD数据集，找到任意一个核心点，对核心点进行扩充；

步骤24，取出核心点的GeoHash九宫格内的所有点；

步骤25，寻找从核心点出发GeoHash九宫格内的所有密度相连的点；

步骤26，遍历核心点的邻域内的所有核心点，寻找与这些数据点密度相连的点，直到没有可以扩充的点为止；

步骤27，重新扫描有效OD数据集，寻找没有被聚类的核心点，再重复上述步骤23到步骤26对核心点进行扩充，直到有效OD数据集中没有新的核心点为止；

步骤28，计算聚类区的边界和中心点，并通过GIS地理信息系统得到中心点的AOI，形成初步货车聚类区域。

可选的，领域半径应小于GeoHash的km误差。

可选的，步骤24的具体方法是：获取核心点的自身的GeoHash值，加上其八邻域GeoHash组成九宫格，取出九宫格所有的点。

通过采用上述技术方案，构建GeoHash结构来优化查找邻居点的过程，缩短DBSCAN的计算时间，提高方法的可用性。

可选的，步骤3包括以下子步骤：

步骤31，遍历基本的货车聚类区域数据集，去掉AOI区域为空的数据，并提取货车聚类区域AOI值；

步骤32，对聚类区域中心点的距离进行比较，选出小于1km的中心点，称为相近的中心点；

步骤33，对相近的两个的中心点地址进行分词，每个分词代表空间的一个维度，将文本转化为多维空间的向量；

步骤34，根据词向量余弦的公式计算出相似度值；

步骤35，合并相似度高于设定相似度阈值的区域，重新计算区域的边界和中心点；

步骤36，直到货车聚类区域数据集都完成中心点地址两两比较，形成最终聚类区域。

可选的，步骤34中词向量余弦的公式如下：

其中是词向量余弦；/>是其中一个中心点地址A的词向量；/>是另一个中心点地址B的词向量；/>是词向量A的模长；/>是词向量B的模长；/>是词向量A在第i维的坐标值；/>是向量B在第i维的坐标值。

通过采用上述技术方案，聚类算法中利用词向量相似度的分析方法，合并聚类分析出来的聚类区域结果，降低因密度聚类领域半径设置过小，导致的聚类区域结果过于小且离散，提高数据的可用性和鲁棒性。

可选的，步骤35中，相似度阈值是0.85。

综上所述，本发明包括以下至少有益技术效果：

本发明能提供一种基于密度聚类的货车聚类方法，引入采用的是货车的实时点位数据，从根源上解决数据准确性；采用了密度聚类的机器学习算法，无需事先设定区域或区域数量，即可计算出货车聚类区域的货车数量、面积及中心点等信息；通过构建GeoHash结构来优化查找邻居点的过程，缩短DBSCAN的计算时间；聚类算法中利用词向量相似度的分析方法，合并聚类分析出来的聚类区域结果，降低因密度聚类领域半径设置过小，导致的聚类区域结果过于小且离散，提高数据的可用性和鲁棒性。

附图说明

图1是本发明一种基于密度聚类的货车聚类方法的流程示意图；

图2是本发明一种基于密度聚类的货车聚类方法步骤1的子步骤流程示意图；

图3是本发明一种基于密度聚类的货车聚类方法步骤2的子步骤流程示意图；

图4是本发明一种基于密度聚类的货车聚类方法步骤3的子步骤流程示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明实施例公开一种基于密度聚类的货车聚类方法。

参照图1-图4，实施例1，一种基于密度聚类的货车聚类方法，包括以下步骤：

相对于传统的方式，引入采用的是货车的实时点位数据，从根源上解决数据准确性；

参照图2，实施例2，步骤1包括以下子步骤：

步骤13，计算OD点的GeoHash的值。

实施实例3，步骤12的具体的方法是，货车W实时位置数据队列如表1，唯一识别码脱敏处理，仅为符号代替，时间差的阈值为30分钟；

表1

货车W某次行程O点为P₁，并将D点也赋值为P₁，当获取P₂时，计算P₂与P₁的时间差为30秒，小于30分钟，更新D点的值为P₂，当获取P₂点时，再次计算P₂与P₃的时间差为30秒，少于30分钟，再次更新D点的值为P₃，当获取P₄时，计算P₃与P₄的时间差为39分钟，大于30分钟。此时货车某次行程的OD点为（P₁,P₃），P₄为下次行程的0点；

步骤12的具体的方法是， GeoHash长度取6位，km误差在0.6km，如将货车W行程中的O点和D点经纬度分别计算出6位GeoHash值，如表2：

表2

在步骤11后，分别对货车定位唯一识别码数据、经纬度定位数据和定位时间点数据三个参数进行非空、时间异常、空间异常的数据校验和清洗。

货车聚类的OD（Origin-Destination）分析是从收集到的货车行驶轨迹数据中提取并分析货车出行的出发地与目的地信息。这些OD信息对于理解和优化城市内的货物运输流动至关重要。

参照图3，实施例4，步骤2包括以下子步骤：

步骤22，初始化DBSCAN的算法参数领域半径和密度阈值；

步骤24，取出核心点的GeoHash九宫格内的所有点；

实施例5，步骤22中，领域半径应小于GeoHash的km误差，GeoHash取6位，km误差为0.6km。领域半径取0.5km

步骤24的具体方法是：如核心点的自身的GeoHash值为wx4ey6，加上八邻域GeoHash组成九宫格，取出GeoHash等于wx4ey6,wx4ey5，wx4ey7，wx4ey4，wx4ey1，wx4ey3，wx4ey9，wx4eyd,wx4eye的所有点。

构建GeoHash结构来优化查找邻居点的过程，缩短DBSCAN的计算时间，提高方法的可用性，对于既具有离散性，又具有一定的集中趋势的数据集效果更佳。

参照图4，实施例6，步骤3包括以下子步骤：

步骤32，对聚类区域中心点的距离进行比较，选出相近的中心点；

步骤34，根据词向量余弦的公式计算出相似度值；

实施例7，步骤34中词向量余弦的公式如下：

其中是词向量余弦；/>是其中一个中心点地址A的词向量；/>是另一个中心点地址B的词向量；/>是词向量A的模长；/>是词向量B的模长；/>是词向量A在第i维的坐标值；/>是词向量B在第i维的坐标值。

步骤35中，相似度阈值是0.85。

具体实施例：步骤33中，如两个中心点AOI地址“卡萨布兰尼物流园一区”，“卡萨布兰尼流园二区”，分词分成T1={卡，萨，布，兰，尼，物，流，园，一，区}，T2={卡，萨，布，兰，尼，物，流，园，二，区}，转化出T1词向量A={1,1,1,1,1,1,1,1,0,1,1}，T2的词向量B={1,1,1,1,1,1,1,1,1,0,1}。

根据词向量余弦的公式计算出相似度值，上述词向量参数代入到，计算的余弦相似度为0.9大于相似度阈值0.85，合并区域，重新计算区域的边界和中心点。

以上均为本发明的较佳实施例，并非以此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种基于密度聚类的货车聚类方法，其特征在于，包括以下步骤：

步骤3，区域合并，对初步货车聚类区域进行基于词向量的相似度分析，并进行空间合并，得到最终聚类区域；

步骤2包括以下子步骤：

步骤22，初始化DBSCAN的算法参数领域半径和密度阈值；

步骤24，取出核心点的GeoHash九宫格内的所有点；

步骤28，计算聚类区的边界和中心点，并通过GIS地理信息系统得到中心点的AOI，形成初步货车聚类区域；

步骤3包括以下子步骤：

步骤31，遍历初步的货车聚类区域数据集，去掉AOI区域为空的数据，并提取货车聚类区域AOI值；

步骤34，根据词向量余弦的公式计算出相似度值；

2.根据权利要求1所述的一种基于密度聚类的货车聚类方法，其特征在于，步骤1包括以下子步骤：

步骤13，计算OD点的GeoHash的值。

3.根据权利要求2所述的一种基于密度聚类的货车聚类方法，其特征在于，在步骤11后，分别对货车定位唯一识别码数据、经纬度定位数据和定位时间点数据三个参数进行非空、时间异常、空间异常的数据校验和清洗。

4.根据权利要求1所述的一种基于密度聚类的货车聚类方法，其特征在于，步骤22中，领域半径应小于GeoHash的km误差。

5.根据权利要求1所述的一种基于密度聚类的货车聚类方法，其特征在于，步骤24的具体方法是：获取核心的自身的GeoHash值，加上其八邻域GeoHash组成九宫格，取出九宫格所有的点。

6.根据权利要求1所述的一种基于密度聚类的货车聚类方法，其特征在于，步骤34中词向量余弦的公式如下：

，

7.根据权利要求1所述的一种基于密度聚类的货车聚类方法，其特征在于，步骤35中，相似度阈值是0.85。