CN117975178B

CN117975178B - 一种基于大数据分析的出租车轨迹数据分析方法

Info

Publication number: CN117975178B
Application number: CN202410393715.1A
Authority: CN
Inventors: 邬洋; 张琳; 韩超; 刘嘉靖; 戴金洲; 吕庆斌; 陈孟达; 郭子君; 钟颖; 许�鹏; 王雪; 刘晨鹤
Original assignee: BEIJING INSTITUTE OF METROLOGY
Current assignee: BEIJING INSTITUTE OF METROLOGY
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-28
Anticipated expiration: 2044-04-02
Also published as: CN117975178A

Abstract

本发明公开了一种基于大数据分析的出租车轨迹数据分析方法，涉及大数据分析技术领域，包括收集出租车的轨迹数据，并将轨迹点映射到二维平面上，形成轨迹图像；应用改进的卷积网络处理轨迹图像，提取轨迹的空间特征，并基于LSTM网络提取轨迹的时间特征；融合所述空间特征和所述时间特征，并建立目的地预测模型；对训练完成的目的地预测模型进行评估和优化，并基于优化后的目的地预测模型对出租车的目的地进行预测。本发明通过准确预测出租车的目的地，能够帮助出租车公司和司机更有效地进行车辆调度，降低空驶率，有助于实时调整交通信号灯、规划绕行路线，以及在需要时调整交通管制措施，从而有效缓解交通拥堵。

Description

一种基于大数据分析的出租车轨迹数据分析方法

技术领域

本发明涉及大数据分析技术领域，特别是一种基于大数据分析的出租车轨迹数据分析方法。

背景技术

在当前城市交通管理和出租车行业的背景下，有效分析和预测出租车轨迹数据成为了一个重要且挑战性的任务。出租车作为城市交通系统的重要组成部分，其运行数据蕴含着丰富的城市动态信息，如交通流量分布、拥堵状况和出行需求等。然而，由于城市环境的复杂性以及出租车运行轨迹数据的高维度和大规模特性，传统的数据分析方法难以有效处理这些数据，更无法根据这些轨迹数据很好的预测出租车的目的地，从而影响出租车调度效率和城市交通规划的优化。

发明内容

鉴于上述现有技术中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种基于大数据分析的出租车轨迹数据分析方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于大数据分析的出租车轨迹数据分析方法，其包括：收集出租车的轨迹数据，并将轨迹点映射到二维平面上，形成轨迹图像；应用改进的卷积网络处理轨迹图像，提取轨迹的空间特征，并基于LSTM网络提取轨迹的时间特征；融合所述空间特征和所述时间特征，并建立目的地预测模型；对训练完成的目的地预测模型进行评估和优化，并基于优化后的目的地预测模型对出租车的目的地进行预测；

将轨迹点映射到二维平面上形成轨迹图像包括如下步骤，将所有轨迹点的经纬度坐标转换为统一的坐标系统并进行标准化处理；将城市划分为等大小的网格单元；对于每个轨迹点，根据其经纬度坐标确定其所属的网格单元；对每个网格单元，计算其中包含的轨迹点数量，并转换为该网格单元在轨迹图像上的像素值，公式如下，

式中，I(x,y)是轨迹图像上点(x,y)的像素值，T_i是第i个轨迹点，Cell(x,y)表示点(x,y)所在的网格单元，δ是指示函数，当轨迹点T_i在单元Cell(x,y)内时取值为1，否则为0，N是轨迹点的总数；

对所有网格单元的像素值进行归一化处理，使得像素值分布在预定的范围内；根据每个网格单元的像素值，生成轨迹图像；

所述提取轨迹的空间特征包括如下步骤，

配置多个卷积层，每层使用不同大小的卷积核来提取图像的不同尺度特征；

对于每个卷积层，应用卷积操作以提取图像特征，卷积操作的公式为，

式中，是第l层的特征图在位置(i,j)的特征值，/>是第l层卷积核的权重，/>是第l-1层特征图在位置(i+m,j+n)的值，σ表示激活函数，/>是偏置项，a和b分别代表卷积核在垂直方向和水平方向的半径范围；

对于卷积层的输出的图像特征，进行全局平均池化和全局最大池化操作，分别得到全局平均池化特征图和最大池化特征图；

将全局平均池化特征图和最大池化特征图通过一个1×1卷积层进行处理，然后应用sigmoid激活函数生成注意力图，表示为，

式中，A(x,y)是生成的注意力图，σ表示sigmoid激活函数，W_a和b_a分别是卷积层的权重和偏置项，GAP(I)是全局平均池化特征图，GMP(I)是最大池化特征图；

将注意力图与原始的卷积层输出特征图进行逐元素乘法操作表示为，

式中，Fatt(x,y)是加权后的特征图，F(x,y)是原始的卷积层输出特征图；

将加权后的特征图转换为固定长度的特征向量，形成轨迹的空间特征。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：所述基于LSTM网络提取轨迹的时间特征包括如下步骤，从所述轨迹数据中提取关键的时间信息；将提取的时间信息转换为数值形式的时间序列向量；将编码后的时间序列向量输入到LSTM网络中，形成时间特征。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：通过如下公式融合所述空间特征和所述时间特征，

式中，V_f表示融合后的特征向量，F_cnn是提取的空间特征，F_lstm是提取的时间特征，W_s和W_t分别是空间特征和时间特征的权重矩阵，用于调整两种特征在融合过程中的贡献程度，α是正则化参数。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：建立目的地预测模型包括如下步骤，使用深度神经网络对融合后的特征向量进行处理；构建多层全连接网络作为预测模型，以融合特征向量V_f作为输入；最终输出层使用线性激活函数，以预测目的地的经纬度坐标。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：所述目的地预测模型表示为，

式中，P表示预测的目的地坐标，V_f是融合后的特征向量，β₁、β2、……、β_n是各层全连接网络的权重矩阵，γ₁、γ₂、…、γ_n是各层全连接网络的偏置项，tanh是双曲正切激活函数，σ表示激活函数。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：所述对训练完成的目的地预测模型进行评估和优化包括如下步骤，计算目的地预测模型预测的目的地与实际目的地匹配的准确率；并基于均方根误差衡量目的地预测模型预测的目的地坐标与实际坐标之间的偏差；基于评估结果调整CNN和LSTM的参数。

作为本发明所述基于大数据分析的出租车轨迹数据分析方法的一种优选方案，其中：所述轨迹数据包括轨迹点的时间戳、经纬度，以及乘客上下车状态。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述无人驾驶车辆车路协同应用场景测试方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述无人驾驶车辆车路协同应用场景测试方法的步骤。

本发明有益效果为：通过准确预测出租车的目的地，本方案能够帮助出租车公司和司机更有效地进行车辆调度，降低空驶率，利用出租车轨迹数据分析出的拥堵模式可以为城市交通管理部门提供重要参考，有助于实时调整交通信号灯、规划绕行路线，以及在需要时调整交通管制措施，从而有效缓解交通拥堵。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明第一个实施例，该实施例提供了一种基于大数据分析的出租车轨迹数据分析方法，包括以下步骤：

S1：收集出租车的轨迹数据，并将轨迹点映射到二维平面上，形成轨迹图像；

S2：应用改进的卷积网络处理轨迹图像，提取轨迹的空间特征，并基于LSTM网络提取轨迹的时间特征；

S3：融合所述空间特征和所述时间特征，并建立目的地预测模型；

S4：对训练完成的目的地预测模型进行评估和优化，并基于优化后的目的地预测模型对出租车的目的地进行预测。

在步骤S1中，轨迹数据包括轨迹点的时间戳、经纬度，以及乘客上下车状态，其中时间戳和经纬度用于轨迹重建，乘客状态用于区分行程。在收集好轨迹数据后，对数据进行数据清洗，去除数据中的异常值和噪声。

进一步的，将轨迹点映射到二维平面上形成轨迹图像包括如下步骤，

S11：将所有轨迹点的经纬度坐标转换为统一的坐标系统并进行标准化处理，以确保数据的一致性和可比性；

S12：将城市划分为等大小的网格单元，每个网格单元的大小可以根据实际需求调整，以平衡分析的精度和计算的复杂度；

S13：对于每个轨迹点，根据其经纬度坐标确定其所属的网格单元，这一过程需要将经纬度坐标转换为网格坐标，即确定轨迹点位于哪一个网格单元内；

S14：对每个网格单元，计算其中包含的轨迹点数量，并转换为该网格单元在轨迹图像上的像素值，公式如下，

S15：对所有网格单元的像素值进行归一化处理，使得像素值分布在预定的范围内，以便于后续分析和可视化；

S16：根据每个网格单元的像素值，生成轨迹图像。

进一步的，在步骤S2中，所述提取轨迹的空间特征包括如下步骤，

S21：配置多个卷积层，每层使用不同大小的卷积核来提取图像的不同尺度特征，每个卷积层由若干个卷积核组成，每个卷积核负责提取图像中的一种特征；

S22：对于每个卷积层，应用卷积操作以提取图像特征，卷积操作的公式为，

S23：对于卷积层的输出的图像特征，进行全局平均池化和全局最大池化操作，分别得到全局平均池化特征图和最大池化特征图，这一步旨在捕获全局的空间信息；

S24：将全局平均池化特征图和最大池化特征图通过一个1×1卷积层进行处理，然后应用sigmoid激活函数生成注意力图，表示为，

S25：将注意力图与原始的卷积层输出特征图进行逐元素乘法操作，以便动态调整不同空间位置上特征的重要性，表示为，

S26：将加权后的特征图转换为固定长度的特征向量，形成轨迹的空间特征。

需要说明的是，在同一卷积层内部署不同大小的卷积核，能够捕捉从细节到全局的不同尺度空间特征，本发明采用的方案可以同时提取轨迹图像中的局部细节和更广泛区域的特征，增强模型对复杂空间信息的理解能力，之后利用空间注意力机制动态调整不同区域特征的重要性，使网络更加关注于图像中关键的部分，例如轨迹密集区域，这能够让模型在进行特征提取时自动侧重于更为重要的空间信息。

优选的，在步骤S2中，所述基于LSTM网络提取轨迹的时间特征包括如下步骤，

S27：从所述轨迹数据中提取关键的时间信息，包括行程的开始时间、结束时间和行程持续时间等；

S28：将提取的时间信息转换为数值形式的时间序列向量；

S29：将编码后的时间序列向量输入到LSTM网络中，形成时间特征。

进一步的，在步骤S3中，通过如下公式融合所述空间特征和所述时间特征，

式中，V_f表示融合后的特征向量，用于目的地预测，F_cnn是提取的空间特征，F_lstm是提取的时间特征，W_s和W_t分别是空间特征和时间特征的权重矩阵，用于调整两种特征在融合过程中的贡献程度，是采用指数函数形式对空间特征进行非线性转换，以增强模型对空间特征的表达能力，/>是通过对时间特征应用对数函数进行变换，以平滑时间特征的影响，并提高模型对时间变化的敏感性，/>是一个归一化项，用于保证融合向量的稳定性和可解释性，其值通过计算sin函数在0到1区间的积分得到，确保融合向量值在一个合理的范围内，α是正则化参数，用于防止分母为零的情况，并进一步调整特征融合的细节，以优化预测性能。

更进一步的，建立目的地预测模型包括如下步骤，

S31：使用深度神经网络对融合后的特征向量进行处理；

S32：构建多层全连接网络作为预测模型，以融合特征向量Vf作为输入；

S33：最终输出层使用线性激活函数，以预测目的地的经纬度坐标。

所述目的地预测模型表示为，

式中，P表示预测的目的地坐标，是一个包含经度和纬度的二维向量，V_f是融合后的特征向量，作为DNN模型的输入，β₁、β2、……、β_n是各层全连接网络的权重矩阵，γ₁、γ₂、…、γ_n是各层全连接网络的偏置项，tanh是双曲正切激活函数，用于引入非线性并帮助模型捕捉复杂关系，σ表示激活函数。

在目的地预测模型中，通过深度神经网络的多层非线性变换，能够从融合特征向量V_f中提取出与出租车目的地相关的复杂模式和关系。模型的每一层都通过权重矩阵和偏置项对输入数据进行变换，并通过激活函数引入非线性，以增强模型的表达能力。

需要说明的是，目的地预测模型建立后，需要对其进行训练，可以将收集的轨迹数据划分一部分作为训练集数据，用训练集数据训练目的地预测模型。在步骤S4中，所述对训练完成的目的地预测模型进行评估和优化包括如下步骤，

S41：计算目的地预测模型预测的目的地与实际目的地匹配的准确率；

S42：并基于均方根误差衡量目的地预测模型预测的目的地坐标与实际坐标之间的偏差，公式为，

式中，N是测试样本的数量，P_i是模型预测的目的地坐标，Y_i是实际的目的地坐标。

S43：基于评估结果调整CNN和LSTM的参数，具体为根据结果分析导致误差的原因，例如可能是特征提取不够充分，或是模型结构需要调整，此时调整CNN和LSTM的参数，如层数、神经元数量，以及学习率等超参数，之后再次训练模型，并评估其性能，重复此过程直至满足预设的性能指标。

综上所述，本发明通过准确预测出租车的目的地，本方案能够帮助出租车公司和司机更有效地进行车辆调度，降低空驶率，利用出租车轨迹数据分析出的拥堵模式可以为城市交通管理部门提供重要参考，有助于实时调整交通信号灯、规划绕行路线，以及在需要时调整交通管制措施，从而有效缓解交通拥堵。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置）、便携式计算机盘盒（磁装置）、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编辑只读存储器（EPROM或闪速存储器）、光纤装置以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据分析的出租车轨迹数据分析方法，其特征在于：包括：

收集出租车的轨迹数据，并将轨迹点映射到二维平面上，形成轨迹图像；

应用改进的卷积网络处理轨迹图像，提取轨迹的空间特征，并基于LSTM网络提取轨迹的时间特征；

融合所述空间特征和所述时间特征，并建立目的地预测模型；

对训练完成的目的地预测模型进行评估和优化，并基于优化后的目的地预测模型对出租车的目的地进行预测；

将轨迹点映射到二维平面上形成轨迹图像包括如下步骤，

将所有轨迹点的经纬度坐标转换为统一的坐标系统并进行标准化处理；

将城市划分为等大小的网格单元；

对于每个轨迹点，根据其经纬度坐标确定其所属的网格单元；

对每个网格单元，计算其中包含的轨迹点数量，并转换为该网格单元在轨迹图像上的像素值，公式如下，

对所有网格单元的像素值进行归一化处理，使得像素值分布在预定的范围内；

根据每个网格单元的像素值，生成轨迹图像；

所述提取轨迹的空间特征包括如下步骤，

式中，是第l层的特征图在位置(i,j)的特征值，/>是第l层卷积核的权重，是第l-1层特征图在位置(i+m,j+n)的值，σ表示激活函数，/>是偏置项，a和b分别代表卷积核在垂直方向和水平方向的半径范围；

式中，A(x,y)是生成的注意力图，σ表示激活函数，W_a和b_a分别是卷积层的权重和偏置项，GAP(I)是全局平均池化特征图，GMP(I)是最大池化特征图；

2.如权利要求1所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：所述基于LSTM网络提取轨迹的时间特征包括如下步骤，

从所述轨迹数据中提取关键的时间信息；

将提取的时间信息转换为数值形式的时间序列向量；

将编码后的时间序列向量输入到LSTM网络中，形成时间特征。

3.如权利要求2所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：通过如下公式融合所述空间特征和所述时间特征，

4.如权利要求3所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：建立目的地预测模型包括如下步骤，

使用深度神经网络对融合后的特征向量进行处理；

构建多层全连接网络作为预测模型，以融合特征向量V_f作为输入；

最终输出层使用线性激活函数，以预测目的地的经纬度坐标。

5.如权利要求4所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：所述目的地预测模型表示为，

6.如权利要求5所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：所述对训练完成的目的地预测模型进行评估和优化包括如下步骤，

计算目的地预测模型预测的目的地与实际目的地匹配的准确率；

并基于均方根误差衡量目的地预测模型预测的目的地坐标与实际坐标之间的偏差；

基于评估结果调整CNN和LSTM的参数。

7.如权利要求6所述的基于大数据分析的出租车轨迹数据分析方法，其特征在于：所述轨迹数据包括轨迹点的时间戳、经纬度，以及乘客上下车状态。