CN111932010B

CN111932010B - 一种基于骑行上下文信息的共享单车流量预测方法

Info

Publication number: CN111932010B
Application number: CN202010795874.6A
Authority: CN
Inventors: 曾骏; 何欣; 姚娟; 于扬; 文俊浩
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-09-22
Anticipated expiration: 2040-08-10
Also published as: CN111932010A

Abstract

本发明涉及一种基于骑行上下文信息的共享单车流量预测方法，包括如下步骤：S100引入的上下文特征，将共享单车流量预测转化为求T时刻对应的流量的问题；S200使用LSTM网络作为编码器，计算得到隐藏层向量；S300计算每一个隐藏层向量与s_t‑1的注意力得分，对所有注意力得分使用激活函数softmax得到注意力权重；使用LSTM网络作为解码器进行解码，在解码时根据输出对应的语义向量C_t进行解码；S400中LSTM网络作为解码器，对得到的语义向量序列进行解码，得到最终的预测结果。该方法同时考虑到气象特征进行单车流量预测，流量预测的效果准确性高。

Description

一种基于骑行上下文信息的共享单车流量预测方法

技术领域

本发明涉及单车流量预测方法，特别涉及一种基于骑行上下文信息的共享单车流量预测方法。

背景技术

共享单车流量预测问题是利用用户的历史骑行数据，对未来一段时间内各个单车站点的流量进行预测。由于深度学习的成熟发展及其良好的特征提取能力和鲁棒性，研究学者们普遍使用深度学习方法进行共享单车流量预测问题研究^[16][17]。部分研究学者利用堆叠的自编码器模型对数据降维，完成特征提取工作。

该方法利用深度学习去找到用户骑行历史数据中存在的特征，相比于传统的机器学习方法，预测精度有所提升。但是，与传统的方法一样，它也只考虑到了数据中原有的时序特征。然而，共享单车用户的骑行行为除了与时间相关之外，与气象特征也是密切相关的。后来，有研究学者利用卷积神经网络提取网格中的时序和空间特征，同时对任何两个区域间存在的时间依赖性进行建模。并且，引入了额外的气象特征，与时空特征合并，预测每个区域的最终流量。此外，也有学者提出可将交通的关联模式抽象成图结构。利用图的顶点表示地图上的点，边则表示两个地点之间的关联。建模时空相关性对流量预测的影响，利用模型学习点和边的特性，从而完成流量预测。

但是，上述方法仍然存在如下问题：

①在考虑特征的时候，大多数研究仅利用数据本身包含的时间特性，但对于所研究问题而言，除了单纯考虑时间特征，还应该引入与骑行数据相关的上下文特征。并且，不同的群体对出行需求是不同的，这需要根据数据集反映出的用户特性添加相应的特征。此外，特征筛选是有必要的，若存在冗余特征，会降低最终的流量预测精度；

②用户的骑行偏好会随着时间变化。虽然机器学习方法或者神经网络模型能够捕捉到时序特征，但往往缺乏动态提取特征的能力。因此，可以考虑如何能够构建动态的时序模型，从历史数据中捕捉到对预测结果来说更为重要的特征，而选择性的忽略不重要的特征。

针对上述问题，本章从对用户骑行历史数据的详细分析入手，进行特征的构建与筛选，利用长短期记忆网络能够较好捕捉时间序列数据之间的依赖关系，结合注意力机制构建动态的流量预测模型。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：针对有桩的共享单车站点的流量预测，每辆自行车对应一个停车位，每个站点的停车位数量由运营公司预先规定。

为解决上述技术问题，本发明采用如下技术方案：一种基于骑行上下文信息的共享单车流量预测方法，其包括如下步骤：

S100:引入的上下文特征，将共享单车流量预测转化为求T时刻对应的流量的问题；

S200:输入信息使用LSTM网络作为编码器，计算得到隐藏层向量{h₁,h₂...h_T}；

S300:计算每一个隐藏层向量与s_t-1的注意力得分，对所有注意力得分使用激活函数softmax得到注意力权重，所有注意力权重的总和为1；

使用LSTM网络作为解码器进行解码，在解码时根据输出对应的语义向量C_t进行解码；

S400:LSTM网络作为解码器，通过对得到的语义向量序列{C₁,C₂…C_T}进行解码，得到最终的预测结果。

作为改进，所述S100中问题转化的过程为：

S110：将所有的历史观测值分为3个部分：S_hour，S_day，S_week；

当特征窗口w为1hour时，时间步长T＝3时，即以w为单位，T为长度进行采样，获得历史数据作为特征；

当特征窗口w为24hour时，时间步长T＝3时，即获取要预测时段的前3天的历史流量数据作为特征；

当特征窗口为148hour时，时间步长T＝3时，即获取要预测时段的前3周的历史流量数据作为特征；

公式(1)表示如下：

S＝[X_t-Tw,X_t-(Tw-1)…X_t-1] (1)；

当w取值为1小时、24小时、148小时时，S分别记为S_hour，S_day，S_week；

S120：引入的上下文特征，上下文特征用E表示，如(2)所示：

E＝{weather,windspeed,pressure,dayofweek,hourofday} (2)；

则t时刻所对应的输入特征为

S130：共享单车流量预测问题定义为：输入时间步长T内的所有输入和部分观测序列{y₁,y₂…y_T-1}，求T时刻对应的流量/>公式如(3)所示：

作为改进，所述S200使用LSTM网络作为编码器，计算得到隐藏层向量{h₁,h₂...h_T}的具体步骤包括：

设编码器的输入为在LSTM网络中，当前时间t的隐藏状态是由上一时间的状态h_t-1和当前时间的输入x_t共同决定的，则根据公式(4)可以得到编码器中的隐藏状态：

h_t＝f₁(h_t-1,X_t) (4)；

编码器逐个读入输入的历史流量观测数据将其编码为一个隐藏状态序列{h₁,h₂…h_T}，这些隐藏状态中包含了原始输入数据的特征信息，通过规则q共同构成语义向量C，供解码器使用。

作为改进，所述S200使用LSTM网络作为编码器时加入了注意力机制，将所述隐藏向量序列{h₁,h₂…h_T}以加权的形式累加，如公式(7)所示：

此时的编码器会将输入信息编码成一个语义向量序列{C₁,C₂…C_T}，每一个语义向量都包含对该时刻流量预测结果更为重要的特征信息。

作为改进，所述S300计算注意力得分的步骤如下：

其中，表示每一个隐藏层向量与s_t-1计算得到注意力得分，W表示权重矩阵。

作为改进，所述S300中对所有注意力得分使用激活函数softmax得到注意力权重的过程如下：

其中，表示t时刻输入隐藏层状态中的注意力权重。

作为改进，所述S400中LSTM作为解码对得到的语义向量序列{C₁,C2…C_T}进行解码的过程如下：

s_t＝f₂(s_t-1,U[y_t-1；C_t-1]+b) (10)；

其中，y_t-1是t-1时刻对应的观测值，即t-1时刻对应的共享单车流量，C_t-1是t-1时刻对应的语义向量，包含与t-1时刻流量预测值最为相关的输入特征信息；[y_t-1；C_t-1]表示将二者进行拼接，同t-1时刻对应的隐藏层状态一起作为LSTM网络的输入，f₂即表示通过LSTM模型进行计算，U和b是网络中需要学习到的参数；

利用公式(11)可以得到最终的预测结果，是T时刻所对应的流量预测值，V、W、b_w和b_v都是网络中需要学习到的参数，s_T对应T时刻解码器的隐藏层状态，C_T为T时刻对应的编码得到的语义向量。

相对于现有技术，本发明至少具有如下优点：

该方法能够构建动态的时序模型，解决了无法区分输入特征重要性的问题，同时考虑到了气象特征。实验表明本发明方法单车流量预测的效果好。

附图说明

图1为本发明方法的流程示意图。

图2为本发明S200中的编码器解码器过程示意图。

图3为试验验证中16站点Avenue D&E 3(ID＝302)未来一天内的流量预测结果。

图4为试验验证中17站点Avenue D&E 3(ID＝302)未来一周的流量预测结果。

具体实施方式

下面对本发明作进一步详细说明。

对于任意一个站点，将x_t称之为t时刻所对应的观测值，而流量预测问题就是根据历史观测序列X＝{x₁,x₂…x_T}以及目标流量序列Y＝{y₁,y₂…y_T-1}预测T为时间步长大小，即用前T小时的观测数据去预测后1小时的流量值。其中，其中y₁表示历史观测序值x₁所对应的站点流量。

一种基于骑行上下文信息的共享单车流量预测方法，包括如下步骤：

S100：引入的上下文特征，将共享单车流量预测转化为：输入时间步长T内的所有输入和部分观测序列{y₁,y₂…y_T-1}，求T时刻对应的流量/>的问题。具体方法如下：

本发明将所有的历史观测值分为3个部分：S_hour，S_day，S_week，这三部分的区别在于取值的特征窗口w不同。当特征窗口w为1hour时，时间步长T＝3时，即以w为单位，T为长度进行采样，获得历史数据作为特征；当特征窗口w为24hour时，时间步长T＝3时，即获取要预测时段的前3天的历史流量数据作为特征；当特征窗口为148hour时，时间步长T＝3时，即获取要预测时段的前3周的历史流量数据作为特征。

公式(1)表示如下：

S＝[X_t-Tw,X_t-(Tw-1)…X_t-1] (1)；

当w取值为1小时、24小时、148小时时，S分别记为S_hour，S_day，S_week。

本发明引入的上下文特征包含时刻、气象数据、周末/非周末、预测时段位于一天中的哪一个时间段以及其处于一周中的周几。上下文特征本发明用E表示，如(2)所示。

E＝{weather,windspeed,pressure,dayofweek,hourofday} (2)；

则t时刻所对应的输入特征为最终共享单车流量预测问题定义为：输入时间步长T内的所有输入/>和部分观测序列{y₁,y₂…y_T-1}，求T时刻对应的流量/>公式如(3)所示。

其中，E_t是t时刻对应的上下文特征，F是需要学习到的一种非线性映射关系。

S200：输入信息通过LSTM网络计算得到隐藏层向量{h₁,h₂...h_T}。具体步骤如下：

在本发明中，编码器负责将输入的共享单车历史流量序列及相应特征转化为一个固定长度的语义向量C，而解码器负责将编码器生成的语义向量C再转化为流量预测结果输出，如图2。

本发明在编码器和解码器的选择上采用LSTM模型，该模型对每个神经元都采用了经典的三层门结构，即遗忘门、输入门和输出门。设编码器的输入为在LSTM中，当前时间t的隐藏状态是由上一时间的状态h_t-1和当前时间的输入x_t共同决定的，则根据公式(4)可以得到编码器中的隐藏状态。

h_t＝f₁(h_t-1,x_t) (4)

解码器可以看作是编码器的逆过程。在解码器阶段，根据给定的语义向量C和部分观测序列{y₁,y₂…y_T-1}，来共同预测下一个输出的流量值在解码器部分，仍然使用LSTM，预测/>的公式为6。

其中，s_t是LSTM中t时刻对应的隐藏层状态。语义向量C为编码器的输出，它包含了编码后的输入信息。y_T-1是T-1时刻的输出，反过来作为T时刻的输入，g是解码器中的LSTM网络。

注意力机制是一种能让模型对重要信息重点关注并充分学习吸收的技术。在产生输出的时候，还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据重点关注的部分来产生下一个输出。这样能够在产生输出的时候关注到与其最为相关的部分信息，而忽略掉重要程度较低的信息。

在共享单车流量预测中，将作为输入，但这部分输入并不是全部都对t时刻的结果产生重要意义，其中有的部分对预测结果的作用是微弱的，有的是相对重要的。为了对这种重要性进行区分，使得编码器中的语义向量C能够更有效、更完整的获取输入序列的特征信息，本发明在编码器结构中引入了注意力机制。

在编码器部分添加注意力机制，使得在编码的时候能够保留与预测结果更为相关的特征，而忽略掉相对不重要的特征，具体步骤如下：

所述S200使用LSTM网络作为编码器时加入了注意力机制，使得在编码的时候能够保留与预测结果更为相关的特征，而忽略掉相对不重要的特征：

将所述隐藏向量序列{h₁,h₂…h_T}以加权的形式累加，如公式(7)所示：

由于编码器的限制，语义向量C未能获得输入序列足够的有用信息。注意力机制能够让模型对重要信息重点关注并充分学习吸收，不再局限于将所有的输入信息都编码为一个固定长度的语义向量C，而是将输入信息编码成语义向量序列{C₁,C₂…C_T}，每一个语义向量都包含对该时刻流量预测结果更为重要的特征信息。

S300：使用LSTM网络作为解码器进行解码，在解码时根据输出对应的语义向量C_t进行解码；

计算每一个隐藏层向量与s_t-1的注意力得分，对所有注意力得分使用激活函数softmax得到注意力权重，所有注意力权重的总和为1，注意力权重表示在计算某时刻流量输出时，对应的输入序列各自的重要性；使用LSTM网络作为解码器进行解码，在解码时根据输出对应的语义向量C_t进行解码。

在解码的时候，每一步都会选择性的从语义向量序列中挑选一个子集进行进一步的处理。在解码器产生输出的时候，就能够做到充分利用输入序列所携带的特征信息，并且保证这些信息是对预测结果更为重要的部分。

由于本发明在编码的时候使用了LSTM模型，因此可以认为h_i包含了输入的流量特征序列中第i个输入序列及其前面一些序列的信息。将隐藏层向量按照权重相加，表示在生成t时刻输出的时候的注意力分配是不同的。的值越大，表示t时刻对应的输出在第i个输入序列上分配的注意力越多，也就是说第i个输入序列所对应的特征对t时刻来说更为重要，在生成t时刻输出的时候受第i个输入序列的影响也就越大。/>是由t-1时刻对应的输出隐藏状态s_t-1和输入中各隐藏层状态共同决定的，为了区分编码器与解码其中的隐藏层状态，令t时刻编码器中的隐藏层状态为h_t，解码器中的隐藏层状态为s_t。

所述S300计算注意力得分的步骤如下：

其中，表示每一个隐藏层向量与s_t-1计算得到注意力得分。

所述S300中对所有注意力得分使用激活函数softmax得到注意力权重的过程如下：

其中，Score是st-1与每一个输入特征向量对应的隐藏层状态hi计算得到的分数，W是权重矩阵，目然后使用softmax得到t时刻的流量预测输出在各输入隐藏层状态中的注意力权重，即为每个影响因子赋予了一定的权重，用以表示输入特征的重要性。在解码的时候可以根据输出对应的语义向量C_t进行解码，C_t包含了对该预测时候最重要的那部分信息，而忽略了不重要的特征信息，使得预测结果可以更加准确，表示t时刻输入隐藏层状态中的注意力权重。

在解码的时候可以根据输出对应的语义向量C_t进行解码，C_t包含了对该预测时候最重要的那部分信息，而忽略了不重要的特征信息，使得预测结果可以更加准确。

S400:LSTM网络作为解码器，通过对得到的语义向量序列{C₁,C₂…C_T}进行解码，得到最终的预测结果。对语义向量序列{C₁,C₂…C_T}进行解码的过程如下：

s_t＝f₂(s_t-1,U[y_t-1；C_t-1]+b) (10)；

验证试验

一下试验主要围绕如下几个方面展开了实验：

①以站点预测结果为据，验证本发明方法的有效性。

②与其它共享单车流量预测算法比较，验证本发明方法的准确性。

1.实验数据集

实验所用数据集来自花旗自行车数据，它收集了自2013年以来的用户骑行历史数据。实验中采用2017年3月至10月份的用户历史骑行数据，共计11942180条。本发明添加了同时段的气象数据，最终实验数据集详情(包括上下文特征数据)如表1所示。实验时按照时间选择全部数据的70％作为训练集，余下的30％作为测试集。

表1数据集详情

2.评价指标

本发明采用了平均绝对误差(Mean Absolute Error，MAE)和均方根误差(RootMean Squared Error，RMSE)作为评价指标。平均绝对误差能够反映出模型的拟合效果，公式如(12)所示，MAE累积了每一个预测值与真实值之间的误差，MAE越大说明预测误差越大，故一个预测能力较好的模型应该保证MAE越小越好。均方根误差能够对模型预测误差较大的值进行放大，能够较好地对比不同模型之间的鲁棒性，其公式如(13)所示，一个较好地模型也应该保证RMSE越小越好。

其中，n为测试样本个数，y_i为真实值，为预测值。

3.实验结果分析

①流量预测方法有效性验证

以站点Avenue D&E 3(ID＝302)为例，按照小时为预测单位，图3和图4展示了该站点在未来一天以及一周当中的流量预测结果。对比真实值和预测值可以发现，本发明所提的模型能够较好地拟合出序列的变化趋势。特别地，如图3所示，7-8时许和17-19时许出现了波峰和波谷，说明本发明在时间维度上所提取的特征是有效果的，模型较好地对高峰情况进行了学习。

图4是该站点一周的流量预测结果。2017年9月1日为星期五，图4从周五开始，展示了未来一周的共享单车流量预测结果。从图中可以看出，9月2日与3日的数据与其它5天的数据有所不同，差异在于波峰和波谷并未有其余几天明显，说明周末和非周末用户的出行规律和用车需求是不同的，同时说明了本发明方法较好地捕捉到了周末与非周末这一时间层面的特性。

②和其它流量预测方法进行对比

为了更好验证模型的有效性，将本发明与现有方法做如下对比：

HA：利用历史所有观测值的平均值来预测未来值。

ARIMA：通过发现时序数据之间的相关性来预测未来值。

RNN：利用循环神经网络捕捉时序数据之间的相关性来预测未来值。

ST-RNN：将时空特性融合到带有时间转移矩阵和距离转移矩阵的RNN模型中预测未来值。

表2模型误差分析表-1

对比结果如表2所示。从表中可以看出本发明方法LSTM+Attention相对于其他方法，在评价指标MAE和RMSE上均有所提升。本发明方法LSTM+Attention在两种指标上均远超HA算法，这说明采用历史平均值对流量进行预测误差很大，需要从历史流量数据中提取出时间相关的特征，也说明了本发明从特征入手进行考虑的合理性与有效性。本发明方法LSTM+Attention相比于ARIMA和RNN在预测能力上都有明显提升。这说明本发明方法LSTM+Attention引入RNN能够较好地对时间序列模型进行处理。由于ARIMA仅考虑了目标序列{y₁,y₂…y_t}，而忽略了驱动序列{x₁,x₂…x_t}，所以预测效果不佳，也说明了本发明方法输入序列特征的有效性。对于ST-RNN，虽然其对输入的历史流量数据进行了时间上的建模，但相比本发明方法，未能捕获到对于预测结果来说更为重要的特征信息，说明了本发明方法对引入气象数据，以及利用注意力机制捕获对预测结果来说更为重要的特征的有效性。

③气象数据取舍的合理性验证

表3模型误差分析表-2

本发明通过实验对包含湿度和温度的LSTM+Attention-HT模型和LSTM+Attention模型进行了对比，结果如表3所示。从表中可以看出，LSTM+Attention模型在两个评价指标上都要优于LSTM+Attention-HT模型，这说明温度、湿度与天气三者之间确实存在特征冗余，而特征冗余会影响模型的预测能力，删除冗余的特征可以帮助提升模型性能。

综上所述，本发明方法LSTM+Attention能够构建动态的时序模型，解决了无法区分输入特征重要性的问题，同时考虑到了大部分研究工作所忽略的气象特征。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于骑行上下文信息的共享单车流量预测方法，其特征在于：包括如下步骤：

S100：引入的上下文特征，将共享单车流量预测转化为求T时刻对应的流量的问题，问题转化的过程为：

S110：将所有的历史观测值分为3个部分：S_hour，S_day，S_week；

公式(1)表示如下：

S＝[X_t-Tw，X_t-(Tw-1)...X_t-1] (1)；

S120：引入的上下文特征，上下文特征用E表示，如(2)所示：

E＝{weather，windspeed，pressure，day of week，hour of day} (2)；

则t时刻所对应的输入特征为

S130：共享单车流量预测问题定义为：输入时间步长T内的所有输入和部分观测序列{y₁，y₂...y_T-1}，求T时刻对应的流量/>公式如(3)所示：

S200：输入信息使用LSTM网络作为编码器，计算得到隐藏层向量{h₁，h₂...h_T}，具体步骤包括：

设编码器的输入为在LSTM网络中，当前时间t的隐藏状态是由上一时间的状态h_t-1和当前时间的输入x_t共同决定的，则根据公式(4)得到编码器中的隐藏状态：

h_t＝f₁(h_t-1，x_t) (4)；

编码器逐个读入输入的历史流量观测数据将其编码为一个隐藏状态序列{h₁，h₂...h_T}，这些隐藏状态中包含了原始输入数据的特征信息，通过规则q共同构成语义向量C，供解码器使用；

所述S200使用LSTM网络作为编码器时加入了注意力机制，将隐藏向量序列{h₁，h₂...h_T}以加权的形式累加，如公式(7)所示：

此时的编码器会将输入信息编码成一个语义向量序列{C₁，C₂...C_T}，每一个语义向量都包含对该时刻流量预测结果更为重要的特征信息；

S300：计算每一个隐藏层向量与s_t-1的注意力得分，对所有注意力得分使用激活函数softmax得到注意力权重，所有注意力权重的总和为1；

计算注意力得分的步骤如下：

其中，表示每一个隐藏层向量与s_t-1计算得到注意力得分，W表示权重矩阵；

对所有注意力得分使用激活函数softmax得到注意力权重的过程如下：

其中，表示t时刻输入隐藏层状态中的注意力权重；

S400：LSTM网络作为解码器，通过对得到的语义向量序列{C₁，C₂...C_T}进行解码，得到最终的预测结果，LSTM作为解码对得到的语义向量序列{C₁，C₂...C_T}进行解码的过程如下：

s_t＝f₂(s_t-1，U[y_t-1；C_t-1]+b) (10)；

利用公式(11)得到最终的预测结果，是T时刻所对应的流量预测值，V、W、b_w和b_v都是网络中需要学习到的参数，s_T对应T时刻解码器的隐藏层状态，C_T为T时刻对应的编码得到的语义向量。