CN110889546B

CN110889546B - 一种基于注意力机制的交通流量模型训练方法

Info

Publication number: CN110889546B
Application number: CN201911141780.0A
Authority: CN
Inventors: 吴德兴; 阮涛; 徐雷; 金苍宏; 俞佳成
Original assignee: Zhejiang Provincial Institute of Communications Planning Design and Research Co Ltd
Current assignee: Zhejiang Shuzhijiaoyuan Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-08-18
Anticipated expiration: 2039-11-20
Also published as: CN110889546A

Abstract

本发明公开了一种基于注意力机制的交通流量模型训练方法，将预训练和融合模型应用为深度架构模型的构建块，以测量用于预测的交通数据，提出了一个具有多个融合层架构的预训练站模型，该模型考虑了交通网络结构和各个站点的交通状态，以预测网络范围的交通速度。本发明利用多个融合层从历史数据中捕获空间特征和时间依赖性，所提出的模型可以通过使用掩蔽机制来处理输入数据中的缺失值。在真实数据集中建立实验，与其他经典和最先进的模型进行比较，结果表明，本发明模型在准确性和鲁棒性方面都优于其他模型。

Description

一种基于注意力机制的交通流量模型训练方法

技术领域

本发明属于数据分析技术领域，具体涉及一种基于注意力机制的交通流量模型训练方法。

背景技术

过去十年来经济飞速发展，机动车保有量也急速增长，截止2017年底，全国机动车保有量已超过2亿辆，预计在2020年，机动车保有量将达3亿辆，数量庞大的机动车和通行需求带来了交通拥堵和停车困难等一系列问题。目前道路和交通管理部门主要采取如下几种办法来解决交通拥堵问题：(1)加强道路基础设施建设，如加宽道路、修建新道路等；(2)开发智慧交通系统实施智慧化管理。

智慧交通系统是将先进的信息技术、通讯技术、传感技术、控制技术、人工智能和大数据技术等有效率地集成运用于整个交通运输管理体系，而创建起的一种在大范围内及全方位发挥作用的，短时延、高精准度及高效率的综合的运输和管理系统。智能交通系统的科技应用及其广泛，从基本的管理系统，例如汽车导航系统、交通信号控制系统、自动车牌识别技术，到监控系统如安全监控系统，到更高级的创建在集成现有数据和其他信息来源的反馈基础上的应用，如停车诱导系统、公路气象信息系统、道路除冰系统；此外预测科技的发展将使得在历史基准数据的基础上的先进的建模和比对成为可能。

交通流量预测是智能交通系统最重要的任务之一；一般情况下，长时交通流量的预测指的就是在某一个地点通过监测一个月或者一年的时间来计算该段时间内的交通流量值。但是由于交通具有时变性的特点，使得对预测这么长时间的交通流，在实际生活应用中并不突出，而对预测较短时间内的交通流量有非常重要的价值，所以本发明旨在提高短时交通流量的预测可靠性。

虽然交通速度预测具有数十年的历史，但基于统计模型或传统特征回归模型的传统预测方法(例如auto regressive integrated moving average，ARIMA和supportvectorregression，SVR)，由于缺乏计算能力或数据量，流量的高维和非线性特征而无法准确预测。近年来，基于深度学习的模型在图像识别和自然语言等许多领域取得了巨大成功，因此通过深度学习模型进行预测是一种新趋势。长短期记忆神经网络(longshort-term memory，LSTM)应用在交通速度预测中，一种基于聚类方法的进化模糊神经网络(evolving fuzzy neural network，EFNN)被提出了来预测前进多步的行进速度，流量图卷积长短期记忆神经网络(Traffic Graph Convolutional Long Short-TermMemoryNeural Network，TGC-LSTM)基于物理网络拓扑创建流量图卷积，并与LSTM结合以提高预测性能。

尽管在交通预测问题中存在各种可用的深度学习解决方案，但现有方法仍然存在先前方法的一些缺陷，之前的方法只是针对时间序列的数据建立模型，而不考虑这些空间关系；另一方面先前的预测方法对交通流的特征的选取界限难以决断，导致信息量不足或存在误导，显著制约了交通流预测的精准度。一些方法基于历史数据来预测速度，但历史数据仅关注段本身，这些方法根据时间序列值预测交通速度，忽略了该段的特征以及附近的段对其的影响。

发明内容

鉴于上述，本发明提供了一种基于注意力机制的交通流量模型训练方法(即Station-Fusionbased Deep Forecasting，SFDF)，通过附近的段和相似的段来呈现段特征，然后将段矢量融合到时间序列值中，它既考虑历史交通状态，又考虑真实的交通结构网络。本发明设计了两种选择策略来建立所有段之间的联系，包括基于位置的选择和序列相似的选择，这些选择涉及物理交通和历史交通特征，基于上述策略的所有段都在预测过程中进行预训练和融合。

一种基于注意力机制的交通流量模型训练方法，包括如下步骤：

(1)在高速公路上布置多个测点，采集一定时长内通过测点断面所有车辆的速度信息，通过数据预处理建立各测点的速度序列；

(2)根据物理位置关系以及流量趋势关系建立测点的网络拓扑异构图；

(3)利用graph2vec模型对异构图中的每个节点进行编码，得到每个节点的特征向量；

(4)通过BERT(Bidirectional Encoder Representations from Transformers)预训练模型改善每个节点的特征向量；

(5)将节点的速度序列归一化后与改善后的特征向量拼接组合作为输入向量，进而通过训练LSTM(Long Short-Term Memory，长短期记忆网络)以预测节点下一时间片段的车速指标并转换成车流量指标。

进一步地，所述步骤(1)中的每个测点设置有地磁测速系统，即利用地磁探头和图像处理技术实现对车辆的速度检测。

进一步地，所述步骤(1)中数据预处理的具体实现过程为：对于任一测点，采集完成一定时长内通过该测点断面所有车辆的速度信息，将整个时长分成多个时间片段；对于任一时间片段，将该片段内通过该测点断面所有车辆的速度过滤掉过异常值后从小到大排序并取中位数作为该片段的车速指标，进而将所有片段的车速值依次排列并打上时间标签，从而得到测点的速度序列。

进一步地，所述网络拓扑异构图中的节点即对应各个测点，具有相邻位置关系以及相似流量趋势的节点存在有连接关系。

进一步地，遍历所有两两节点组合：对于任一对组合，利用DTW(Dynamic TimeWarping，动态时间规整)算法计算该组合两个节点之间速度序列的相似度，若相似度高于阈值，则判定这两个节点具有相似流量趋势。

进一步地，所述步骤(3)的具体实现方法为：采用Graph Embedding(图嵌入)方法中的DeepWalk(是一种用来学习图(网络)中顶点的潜在表示的一种基于简单神经网络的算法,其主要思想类似word2vec)根据异构图中节点之间的共现关系来学习节点的特征向量表示；图中节点之间的共现关系通过Random Walk(随机游走)的方式在图中进行节点采样，即给定当前访问起始节点，从其邻居中随机采样节点作为下一个访问节点，重复此过程，直到访问序列长度满足预设条件；当获取足够数量的节点访问序列后，使用skip-gram model进行向量学习，使得向量中包含节点的地理和交通趋势特征。

进一步地，所述步骤(4)的具体实现方法为：将节点的速度序列归一化后与特征向量连接起来得到输入向量，遍历异构图中所有相连的节点组合；对于任一组合，若该组合由m个节点依次连接，则屏蔽其中若干节点输入向量中的特征部分，利用其余节点的输入向量数据通过BERT预训练方法来预测屏蔽部分的向量数据，并用预测得到的向量数据替换节点原有的特征向量数据。

本发明考虑不同站点在日常交通趋势变化中的特征并建立潜在的相关性，并基于邻近度和时间序列的维度生成各种片段之间的异构图，实现了graph2vec模型来编码图中的每个站，将异构图中的每一个站点转换为一个个向量，其中包含每个点的地理和交通趋势特征。此外，本发明利用BERT对数据进行进行预训练，得到预训练后的向量，与站点速度向量相关联，作为长期短期记忆神经网络的输入来预测下一个点的速度。

本发明利用多个融合层从历史数据中捕获空间特征和时间依赖性，所提出的模型可以通过使用掩蔽机制来处理输入数据中的缺失值，在真实数据集中建立实验，并与其他经典和最先进的模型进行比较；结果表明，本发明模型在准确性和鲁棒性方面都优于其他模型。

附图说明

图1为本发明利用现实交通网络和站点的交通流量特征建立的站点异构图。

图2为本发明基于注意力机制的预训练流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于注意力机制的交通流量模型训练方法，包括如下步骤：

(1)在高速公路上布置多个测点，采集一定时长内通过测点断面所有车辆的速度信息，通过数据预处理建立各测点的速度序列。

在高速公路上布置多个监测点(地磁线圈)采集一定时间段内通过测点断面所有车辆的速度，固定点地磁测速系统是一种利用地磁探头和图象处理技术实现对交通目标检测和识别的计算机处理系统，通过对道路交通状况信息与交通目标的各种行为(如违法超速，停车，超车等等)的实时检测，实现自动统计交通路段上行驶的机动车的数量、计算行驶车辆的速度以及识别划分行驶车辆的类别等各种有关交通参数，达到监测道路交通状况信息的作用；同时，将检测和识别到的交通信息存储起来，为分析和交通管理提供依据。

得到的速度数据上限与下限差距很大，从一般性出发，我们选择过滤掉过大和过小的速度值，将速度从小到大排列取中位数，并打上时间标签，结果如图1右上表格第二列所示，代表着不同时间片上的站点流量信息。

(2)根据物理位置关系以及流量趋势关系建立测点的网络拓扑异构图。

本发明提出了两种策略来建立交通网络图中车站之间的连接：第一个是交通网络中的真实相邻站，通过获取测点的邻居节点信息，根据物理位置关系构建节点拓扑，将站点直接连接，因为物理上的相邻意味着它们自身的时间特征与空间特征对彼此具有很强的影响力；第二个是交通相似站，我们发现每个站具有独特的流量变化特性，利用此特性可以帮助我们找到一些物理上并不直接相连但时间与空间特征相似的站。

本发明选择动态时间规整(dynamic time warping，DTW)方法来评估两个站点的相似性，DTW是一种用于测量两个时间序列之间相似性的算法，给定两个序列X＝(x₁,x₂,…,x_N)和Y＝(y₁,y₂,…,y_M)，序列中的每个点的值为时间序列中每一个时间片的流量特征值，例如序列X共有N个时间片，第i个时间片的特征值就是是x_i；如果N＝M，直接计算两个序列的距离就好了，但如果N不等于M我们就需要对齐这两个序列。我们需要构造一个N×M的矩阵P，矩阵元素(i,j)表示x_i和y_j两个点的距离d(x_i,y_j)(也就是序列X的每一个点和Y的每一个点之间的相似度，距离越小则相似度越高)，一般采用欧式距离d(x_i,y_j)＝(x_i-y_j)²，最终得到DTW(X,Y)＝min{d(X,Y),p∈P^N*M}。

本发明设定了一个阈值，DTW计算出的相似性高于阈值我们就认为这两个站的时间特征与空间特征相似，属于交通相似站，将这两个站也在图上连接起来，这就得到了基于邻近度和时间序列维度上的异构图。

在以下算法中给出了构建异构站点图的详细过程：

(3)利用graph2vec模型对异构图中的每个节点进行编码，得到每个节点的特征向量。

本发明采用的graph embedding方法是著名的的DeepWalk，它的主要思想类似word2vec，使用图中节点与节点的共现关系来学习节点的向量表示。那么关键的问题就是如何来描述节点与节点的共现关系，DeepWalk给出的方法是使用随机游走(RandomWalk)的方式在图中进行节点采样。

RandomWalk是一种可重复访问已访问节点的深度优先遍历算法，即给定当前访问起始节点，从其邻居中随机采样节点作为下一个访问节点，重复此过程，直到访问序列长度满足预设条件；获取足够数量的节点访问序列后，使用skip-gram model进行向量学习。

Deep Walk算法核心代码如下：

(4)通过BERT预训练模型改善每个节点的特征向量。

BERT实质上就是利用基于self-attention的Transformer结构构造了一个预训练模型，图2中的AttentionbasedModel就是Transformer的架构，Transformer总体上由Encoder和Decoder组成：

Encoder由6个相同的layers组成，每一层包含两个sub-layers，第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层，其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。

Attention机制采用的是Scaled dot-product attention，其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成，所有键计算查询的点积，并应用softmax函数获得值的权重，具体的操作有三个步骤：

①每个query-key会做出一个点乘的运算过程，同时为了防止值过大除以维度的常数；

②使用softmax把他们归一化；

③最后会乘以V用来当做attentionvector。

公式如下：

Decoder由6个相同的Layer组成，但这里的layer和encoder不一样，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoder attentionlayer最后是一个全连接层，前两个sub-layer都是基于multi-head attention layer。这里有个特别点就是masking，masking的作用就是防止在训练的时候使用未来的输出的单词。

图2中S表示Graph Embedding后的向量，T表示站点的交通流量特征。我们选择站m的k长度部分作为输入向量T_m，因此矩阵[T₁，T₂，…，T_m]示出了实际网络中站1到m的速度特征值。然后，我们将速度矩阵与graph embedding得到的矩阵矩阵[S₁，S₂，…，S_m]相连接得到最终的输入矩阵。对于训练中的每次迭代，我们屏蔽(MASK)输入向量中的一部分，并通过数据的其余部分预测被屏蔽的值；在训练过程之后，可以获得相关的站向量作为输出。

本发明设置一个参数δ来决定该站是否需要屏蔽；对于每个时间序列，如果生成随机值大于δ，我们用[MASK]标记替换第i个标记；给出对齐序列{e₁，…，e_m}到令牌序列{w₁，…，w_n}，我们选择相关的站点并将向量集成到交通速度序列中。为了反映数学概念与数学问题中重复实体之间的相关性，我们同时用[MASK]掩盖这些实体，并通过相应的隐藏向量预测这些被掩盖的单词。

在训练过程中，令牌替换的策略与BERT模型相同，按照以下规则替换所选择的站：80％的时间是令牌[MASK]，10％的时间是随机实体；然后预测具有交叉熵损失的原始速度或站。

(5)将节点的速度序列归一化后与改善后的特征向量拼接组合作为输入向量，进而通过训练LSTM模型以预测节点下一时间片段的车速指标并转换成车流量指标。

LSTM模型是循环神经网络(Recurrent Neural Network，RNN)的一种，具体是由t时刻的输入词X_t、细胞状态C_t、临时细胞状态

隐藏层状态h_t、遗忘门f_t、记忆门i_t、输出门o_t组成。LSTM的计算过程可以概括为：通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中遗忘、记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门、记忆门、输出门来控制。

首先，我们将t时刻的输入X_t和隐藏层的输出h_t-1复制四份，并为它们随机初始化不同的权重，计算出遗忘门、输入门和输出门以及通过变换后的新信息，它们的计算公式如下所示，其中W是输入层到隐藏层的参数矩阵，U是隐藏层到隐藏层的自循环参数矩阵，b为偏置参数矩阵，σ为sigmoid函数，使得三个门的输出保持0～1之间。

f_t＝σ(W_fX_t+U_fh_t-1+b_f)

i_t＝σ(W_iX_t+U_ih_t-1+b_i)

o_t＝σ(W_oX_t+U_oh_t-1+b_o)

然后，我们使用遗忘门f_t、记忆门i_t来控制忘记多少历史信息C_t-1和保存多少新信息

从而更新内部记忆细胞状态C_t，其计算公式如下所示：

最后，我们使用输出门o_t来控制输出多少内部记忆单元C_t的信息到隐状态h_t，其计算公式如下所示：

h_t＝o_t⊙tanh(C_t)

本发明使用平均绝对误差(Mean Absolute Error，MAE)作为训练模型时的损失函数，定义如下：

其中：y_i是真实值，y′_i是预测值。

模型的比较结果如表1所示，本发明模型SFDF在MAE上的值最小，模型预测准确性最高。

表1

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于注意力机制的交通流量模型训练方法，包括如下步骤：

(2)根据物理位置关系以及流量趋势关系建立测点的网络拓扑异构图；所述网络拓扑异构图中的节点即对应各个测点，具有相邻位置关系以及相似流量趋势的节点存在有连接关系；遍历图中所有两两节点组合：对于任一对组合，利用DTW算法计算该组合两个节点之间速度序列的相似度，若相似度高于阈值，则判定这两个节点具有相似流量趋势；

(4)通过BERT预训练模型改善每个节点的特征向量；

2.根据权利要求1所述的交通流量模型训练方法，其特征在于：所述步骤(1)中的每个测点设置有地磁测速系统，即利用地磁探头和图像处理技术实现对车辆的速度检测。

3.根据权利要求1所述的交通流量模型训练方法，其特征在于：所述步骤(1)中数据预处理的具体实现过程为：对于任一测点，采集完成一定时长内通过该测点断面所有车辆的速度信息，将整个时长分成多个时间片段；对于任一时间片段，将该片段内通过该测点断面所有车辆的速度过滤掉异常值后从小到大排序并取中位数作为该片段的车速指标，进而将所有片段的车速值依次排列并打上时间标签，从而得到测点的速度序列。

4.根据权利要求1所述的交通流量模型训练方法，其特征在于：所述步骤(3)的具体实现方法为：采用Graph Embedding方法中的DeepWalk根据异构图中节点之间的共现关系来学习节点的特征向量表示；图中节点之间的共现关系通过Random Walk的方式在图中进行节点采样，即给定当前访问起始节点，从其邻居中随机采样节点作为下一个访问节点，重复此过程，直到访问序列长度满足预设条件；当获取足够数量的节点访问序列后，使用skip-gram model进行向量学习，使得向量中包含节点的地理和交通趋势特征。

5.根据权利要求1所述的交通流量模型训练方法，其特征在于：所述步骤(4)的具体实现方法为：将节点的速度序列归一化后与特征向量连接起来得到输入向量，遍历异构图中所有相连的节点组合；对于任一组合，若该组合由m个节点依次连接，则屏蔽其中若干节点输入向量中的特征部分，利用其余节点的输入向量数据通过BERT预训练方法来预测屏蔽部分的向量数据，并用预测得到的向量数据替换节点原有的特征向量数据。