CN114495486A

CN114495486A - 一种基于层次强化学习的微观交通流预测系统及方法

Info

Publication number: CN114495486A
Application number: CN202111622593.1A
Authority: CN
Inventors: 郑龙; 张雅婷; 凃浩; 杜丛晋
Original assignee: Jiangsu Titan Intelligent Technology Co ltd
Current assignee: Jiangsu Titan Intelligent Technology Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-13
Anticipated expiration: 2041-12-28
Also published as: CN114495486B

Abstract

本发明公开了一种基于层次强化学习的微观交通流预测系统，其包括：车辆行驶风格层次预测模块，用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格，获得车辆的行驶风格属性，所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度；车辆驾驶行为层次预测模块，用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息，采用强化学习模型，预测特定车辆的加速比、以及变道到各车道的变道概率。本发明将复杂的交通流预测问题分解为对驾驶员及车辆特性分布的预测及对车辆行为的预测这两个层次，实现精准预测特定路段和时段的交通流预测。

Description

一种基于层次强化学习的微观交通流预测系统及方法

技术领域

本发明属于智能交通领域，更具体地，涉及一种基于层次强化学习的微观交通流预测方法及系统。

背景技术

交通流预测，通常可以分为宏观和微观两种类型。宏观模型将交通流视为由大量车构成的连续流体，研究车辆集体的综合平均行为如流量、流速等，其单个车辆的个体特性并不显式出现。微观方法则是集中于单个车辆在相互作用下的个体行为描述，通过跟车模型、变道模型等预测车辆行为，给出随时间变化的车辆在行驶道路中的位置等信息。随着自动驾驶、智能信号灯决策等应用场景的快速发展，对交通流预测的精准程度提出了更高的要求。微观模型相对宏观模型能够给出更丰富的信息，有利于智能交通和自动驾驶等应用更准确的判断交通路况。

然而，传统微观交通流预测方法通过对车辆行为进行动力学建模，往往不考虑车辆行驶风格的差异，或简单的设定车辆行驶风格为某种预定分布，通过调整模型公式的参数拟合真实路况。但不同国家和城市，乃至不同街区的车辆和驾驶员加速风格都存在差异，难以用统一的分布或参数精准预测。

人工智能和基于数据驱动的机器学习方法的进展，为更精准的微观交通流预测提供了新的可能。通过深度强化学习，使用本地真实交通流数据在模拟器中进行训练，得到模型可用来进行更符合真实交通流的预测。但现有深度强化学习方法通常简化了问题，一方面，使用单一模型，既要模拟车辆运动行为(如跟车、变道)，又要体现不同车辆行驶风格(如驾驶风格激进的车辆会更多的变道超车、车辆性能好的车辆会更快的加减速等)，这增大了机器学习算法训练难度，难以准确预测车辆行为；另一方面，模拟器简化了车辆运动行为模拟，如对于加减速或变道只是瞬间修改车辆速度或移动位置，而不考虑加减速和变道的过程，因而也难以准确还原实际路况。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于层次强化学习的微观交通流预测系统，其目的在于基于数据驱动机器学习的方法，将复杂的交通流预测问题分解为(1)车辆行驶风格的学习及(2)车辆安全驾驶行为的学习这两个不同层次，使用多种来源的真实路况数据预处理后，初始化交通模拟器，基于交通模拟器训练车辆行驶风格模型以及车辆安全驾驶行为模型，通过上述两个层次模型的结合，使得车辆安全驾驶能够更好的学习到车辆真实的跟车和变道等安全驾驶行为，同时，使得路口的车辆流出符合真实交通流，从而实现精准预测特定路段和时段的交通流，由此解决交通流精准预测的问题的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于层次强化学习的微观交通流预测系统，其包括：车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块；

车辆行驶风格层次预测模块，用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格，获得车辆的行驶风格属性，所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度；

车辆驾驶行为层次预测模块，用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息，采用强化学习模型，预测特定车辆的加速比、以及变道到各车道的变道概率。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述车辆行驶风格层次预测模块采用的强化学习模型和所述辆驾驶行为模块采用的强化学习模型分别为DQN模型、DDPG模型、或A3C模型。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述目标范围内每辆车辆的行驶状况信息集合表示为目标范围内车辆位置矩阵W_v×L_v×C_v；所述车辆位置矩阵W_v×L_v×C_v，用于存储车辆位置及车辆属性信息，其中W_v表示车道，L_v表示车道内的位置单元，C_v为车辆属性向量，车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列，例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述车辆行驶风格层次预测模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量，状态定义为车辆位置矩阵；

动作空间定义为车辆行驶风格属性n，n为从1到N的离散值，用来描述车辆行驶的平稳程度；

输出为车辆位置矩阵，其车辆属性向量含有为当前时刻的路上车辆对应的车辆行驶风格属性n。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述含有车辆的行驶风格属性的结构化车辆信息，可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息，亦可表示为待预测范围内车辆位置矩阵W_v×L_v×C_v ^’；所述车辆位置矩阵W_v×L_v×C_v ^’，用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息，可表示为W_v×L_v×C_v ^’，其中W_v表示车道，L_v表示车道内的位置单元，C_v ^’为车辆属性向量，车辆属性向量包括车辆的行驶风格属性。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述辆驾驶行为模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量；优选以特定车辆为中心，取其周围预设范围内的结构化车辆信息定义为状态；

动作空间为加速比和变道概率组成的二元组。

优选地，所述基于层次强化学习的微观交通流预测系统，其按照如下方法训练：重复以下步骤(1)和(2)直至微观交通流预测系统收敛；

(1)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型，对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块，进行训练直至收敛；

(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型，对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块，进行训练直至收敛。

优选地，所述基于层次强化学习的微观交通流预测系统，其所述系统训练采用奖励函数为每一观察时刻离开目标范围的车辆数量的预测值与真实值的累计误差。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

通过数据驱动机器学习的方法，将复杂的交通流预测问题分解为对驾驶员及车辆特性分布的预测及对车辆行为的预测这两个层次，使用多种来源的真实路况数据联合训练两个模型，实现精准预测特定路段和时段的交通流预测，可支持实时交通决策和自动驾驶等需要精准预测的应用场景。本发明将复杂微观交通流预测问题解分解为不同层次的两个相对单一问题即车辆行驶风格判断和车辆驾驶行为预测的组合，解决了微观交通流预测复杂导致动作空间大、状态稀疏等影响深度强化学习取得良好训练效果的问题，从而实现更快的训练速度和更好的训练效果。

附图说明

图1是本发明提供的基于层次强化学习的微观交通流预测系统结构示意图；

图2是本发明实施例提供的结构化

图3是本发明实施例2提供的基于层次强化学习的微观交通流预测系统预测范围示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于层次强化学习的微观交通流预测系统，如图1所示，包括：车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块；

所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据，可表示为目标范围内车辆位置矩阵W_v×L_v×C_v；所述车辆位置矩阵W_v×L_v×C_v，用于存储车辆位置及车辆属性信息，其中W_v表示车道，L_v表示车道内的位置单元，C_v为车辆属性向量，车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列，例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。

所述车辆行驶风格层次预测模块采用的强化学习模型，可采用DQN模型、DDPG模型、或A3C模型等。

其中，状态空间为结构化车辆路况信息构成的张量(Tensor)，状态定义为车辆位置矩阵。

动作空间定义为车辆行驶风格属性n，n为从1到N的离散值，用来描述车辆行驶的平稳程度。

模型输出也是一个车辆位置矩阵，其车辆属性向量含有为当前时刻的路上车辆对应的车辆行驶风格属性n。

车辆驾驶行为层次预测模块，用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息，采用强化学习模型，预测特定车辆的加速比、以及变道到各车道的变道概率；

所述含有车辆的行驶风格属性的结构化车辆信息，可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息，亦可表示为带预测范围内车辆位置矩阵W_v×L_v×C_v ^’；所述车辆位置矩阵W_v×L_v×C_v ^’，用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息，可表示为W_v×L_v×C_v ^’，其中W_v表示车道，L_v表示车道内的位置单元，C_v ^’为车辆属性向量，车辆属性向量包括车辆的行驶风格属性，优选包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、历史位置信息序列。

加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势；可采用正负号表示趋势，取值为负值时表示车辆减速，如-5％即车辆减速到当前车速的95％。

所述辆驾驶行为模块采用的强化学习模型，可采用DQN模型、DDP、或A3C模型等。

其中，状态空间为结构化车辆路况信息构成的张量；为降低算法处理所需数据，可缩小观察范围，从路况矩阵中获取的特定车辆周围的数据，即以特定车辆为中心，取其周围预设范围内的结构化车辆信息定义为状态。

动作空间为加速比和变道概率组成的二元组。

所述基于层次强化学习的微观交通流预测系统的训练数据，按照以下方法之一或组合获取：

1)观察获取的目标范围内一段时间的结构化车辆信息训练数据；

2)采集模拟器中根据动作不断产生的模拟结果的结构化车辆信息训练数据。

方法1)获取的真实采集的车辆结构化信息作为正确标注数据(Ground Truth)，用于计算奖励(Reward)；所有训练用的状态(State)都是不断根据动作(Action)从模拟器中获取。

所述基于层次强化学习的微观交通流预测系统按照如下方法训练：重复以下步骤(1)和(2)直至微观交通流预测系统收敛；

(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型，对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块，进行训练直至收敛；

采用奖励函数为每一观察时刻离开目标范围的车辆数量累计误差，采用此奖励函数即目标是希望在每一时刻，与正确标注数据的离开目标范围车辆数保持一致。这里的算法预测的离开目标范围车辆数可通过车辆安全驾驶行为模型调用交通模拟器返回的路况信息统计获得，正确标注数据的离开目标范围车辆数由采集数据获取。

可采用ε-greedy法、梯度下降法加速训练使强化学习模型收敛。

车辆安全驾驶行为模型学习相对通用的车辆如何与路网、信号灯及其它车辆进行安全的互动，包括加减速或变道等，而车辆行驶风格模型则负责观察车辆的历史行为并给出车辆行驶风格评级，从而使得车辆安全驾驶行为能够根据不同车辆的评级调整行驶行为，实现对由各种不同的车辆和驾驶员构成的复杂真实交通流的更准确模拟。通过上述两个层次模型的结合，使得车辆安全驾驶能够更好的学习到车辆真实的跟车和变道等安全驾驶行为，同时，使得路口的车辆流出符合真实交通流，从而实现精准预测特定路段和时段的交通流。这里基于已有模拟器特点将交通流预测问题分为车辆行驶风格、以及车辆安全驾驶行为这两个层次，但不妨碍根据模拟器特点将交通流预测问题进行其它不同层次的划分。

以下为实施例：

实施例1

一种基于层次强化学习的微观交通流预测系统，包括：车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块；

所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据，表示为目标范围内车辆位置矩阵W_v×L_v×C_v；所述车辆位置矩阵W_v×L_v×C_v，用于存储车辆位置及车辆属性信息，其中W_v表示车道，L_v表示车道内的位置单元，C_v为车辆属性向量，车辆属性向量包括车辆速度。

结构化车辆信息，如图2所示可以采用路口摄像头、毫米波雷达、地磁以及浮动车等设备采集预取区域内的实时机动车和非机动车等路况信息经过智能分析和数据融合后输出为结构化的路况信息获取。所述预测区域内的实时机动车和非机动车等路况信息包括结构非结构化数据和非结构化数据；所述结构化数据包括机动车、非机动车和行人的位置、速度、通过数量；所述非结构化数据包括道路摄像头、雷达、地磁和浮动车信息等获取视频流等。对非结构化数据需要采用智能分析方法整理为结构化数据后使用，所述智能分析方法包括：深度目标检测、分类、追踪等算法，获得赋予用于唯一识别的车辆标识作为机动车、非机动车标识；所述数据融合，即将所述预测区域内的实时机动车和非机动车等路况信息中的结构化信息和采用智能分析方法获取的结构化数据，基于时间和空间关联关系，融合输出为沙盘系统可用的结构化数据。

为准确预测交通流，训练模型时需要尽可能获取车辆的连续位置信息。目前常用的交通采集设备中，可使用的采集途径包括但不限于路口摄像头、毫米波雷达、地磁以及浮动车等，采集到的数据有不同优缺点，例如，摄像头可通过视觉特征更准确的采集机动车与非机动车及行人信息，但观察范围相对较小，主要在路口区域；毫米波雷达可实现路段中的较远距离追踪，但缺乏视觉信息精度相对略低且通常难以准确检测非机动车及行人；地磁覆盖区域最小，覆盖一个车道的某个点位，实现对车辆计数与车辆速度的测量，作为道路车辆情况的基础数据；浮动车可全程持续追踪车辆，但往往数量和采样频率不足。

通过不同的传感器采集尽可能全面准确的路况数据，不同的传感器的感知范围和适用场景不同，将不同来源的数据通过时空关系融合，即通过提前标定等方法，将不同传感器的空间对齐，在特定时间范围内出现在相同区域内的车辆被认为是同一车辆，考虑到传感器可能有误差，如漏报或误报，因此，通过多个传感器的数据和地磁计数等交叉比对，降低误差，以进一步提高训练和测试数据的质量。最终生成特定格式的、适合训练和测试的数据。

沙盘系统应具备静态环境模拟和动态交通模拟功能，复现现实世界中的路网、红绿灯等，对路网中的机动车、非机动车和行人行为进行模拟，还原真实世界中的交通状况，作为训练和分析的环境支撑。这里，可以自行开发交通模拟器，也可使用已有的交通模拟器，包括但不限于SUMO，AIMSUN，VISSIM，TRANSIMS等。

所述车辆行驶风格层次预测模块采用的强化学习模型，可采用DQN模型、DDPG模型、A3C模型等。

通常可以用W_v×L_v×C_v表示，其中W_v×L_v的2维空间用于映射真实道路上的车辆位置，例如，考虑计算量及聚焦在包含交叉口各车道上车辆的位置信息，对交叉口各车道停车线以外x米内每隔y米进行离散化处理，得到x/y个元胞，如果元胞内有车，对应位置值为1，如果元胞内没有车，对应位置值为0，这样就得到车辆位置信息；C_v维度用于保存车辆结构化信息包括如车辆速度等，或历史信息如连续多个时间间隔的车辆结构化信息。例如，可在每个有车位置信息上扩展更多信息如车辆平均行驶速度、加速度、减速度、跟车距离等。矩阵维数越大，交通信息刻画就越准确；再将连续T个时刻获取的当前车辆位置矩阵作为当前状态s，采用滑动窗口方式，每次取连续T_windows个状态，其中不仅包含了车辆位置静态信息，而且还包含了交通动态变化的信息，从而更加准确刻画出交通状态。

动作空间定义为车辆行驶风格属性n，n为从1到N的离散值。模型输出也是一个车辆矩阵W_v×L_v×C_v ^’，C_v ^’为当前时刻的路上车辆行驶风格属性的车辆结构信息，用来描述车辆行驶的平稳程度。

车辆驾驶行为层次预测模块，用于根据含有车辆的行驶风格属性的结构化车辆信息，采用强化学习模型，预测特定车辆的加速比、以及变道到各车道的变道概率；

所述含有车辆的行驶风格属性的结构化车辆信息，可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息，亦可表示为带预测范围内车辆位置矩阵W_v×L_v×C_v ^’；所述车辆位置矩阵W_v×L_v×C_v ^’，用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息，可表示为W_v×L_v×C_v ^’，其中W_v表示车道，L_v表示车道内的位置单元，C_v ^’为车辆属性向量，车辆属性向量包括用于历史位置信息序列、以及车辆的行驶风格属性。

所述辆驾驶行为模块采用的强化学习模型，可采用DQN模型、A3C模型等。

其中，状态空间为结构化车辆路况信息构成的张量；为降低算法处理所需数据，可缩小观察范围，从路况矩阵中获取的特定车辆周围的数据，即以特定车辆为中心，取其周围预设范围内的结构化车辆信息定义为状态。本实施例给出其前后左右space_length/2范围内的车辆位置，形成一个space_length*space_length*info的状态矩阵。如处于边界位置，例如在最右或最左车道，将旁边车道补全为全1，表示不可变换到该车道。

动作空间为加速比和变道概率组成的二元组。本实施例加速比才用1至M的离散值表征车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度；具体为：输出是预先分级分为10级的加速比，每级为1*M％，范围为[-5*M％,5*M％]。本实施例采用变道概率为3个1到L的离散值，分别表示保持车道、左转或右转的分级概率，具体为：取范围为(0,1)，每级0.1，共分10级，每级分别为[保持概率*(15-L)/10，变道概率*(L+5)/10]，然后取3个概率中最大概率作为行动值来执行。

首先，城市交通沙盘完成静态环境模拟，包括通过高精度地图、实地测量、调研等方法，生成配置信息，从而在城市交通沙盘中构建真实世界中的路网、红绿灯设置、相位、周期、基本交通规则等，实现静态环境的现实再现，满足在其中进行动态交通模拟的需求，这些功能在已有交通模拟器中可通过用户界面或配置文件实现。

然后，动态交通模拟输入结构化路况信息作为初始信息，提供用户编程接口供外部模块调用，在静态环境的约束下(在路网区域内，符合交通规则和信号灯规则)，可模拟车辆在道路中的位置变化，实现对交通动态路况变化的模拟。这里的动态模拟可以按照固定时间间隔进行步进，从而可以通过模拟器模拟指定时间范围的连续路况变化，为训练和分析提供基础环境和数据。

经过上述处理，训练代码就可以通过调用用户编程接口，以步进的方式实现模拟的路况变化，从而完成后续的训练和评测。

方法1)获取的真实采集的车辆结构化信息作为正确标注数据(GroundTruth)，用于计算奖励(Reward)；所有训练用的状态(State)都是不断根据动作(Action)从模拟器中获取。

上述训练过程中，在车辆行驶风格层次预测模块训练的时候需要使用车辆驾驶行为层次预测模块完成优化，同样，车辆驾驶行为层次预测模块训练时也需要使用车辆行驶风格层次预测模块的输出。因此，采用交替训练方法，即首先随机分配车辆行驶风格属性n，完成随机情况下的车辆行驶风格层次预测模块的训练，然后使用这个训练好的车辆行驶风格层次预测模块，完成车辆驾驶行为层次预测模块的训练；之后，再用车辆驾驶行为层次预测模块输出的结果，进一步训练车辆行驶风格层次预测模块，得到更好的车辆行驶风格层次预测模块，再用于车辆驾驶行为层次预测模块的进一步训练。如此交替训练车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块，完成模型优化。每个模型训练时，都以该模型自身收敛为目标，反复训练到整体的奖励值变化趋于稳定的收敛。

基于上述城市交通沙盘，通过层次深度强化学习，可训练车辆特性和驾驶风格网络和车辆安全驾驶网络，在每一次迭代中，从模拟器中获取路况信息，预处理为两种网络所需的不同输入数据，首先，完成车辆特性和驾驶风格网络的计算，将车辆特性和驾驶风格网络的输出作为车辆安全驾驶行为网络输出的超参数，完成车辆特性和驾驶风格的设置；而在特定路况中，已经设置好车辆特性和驾驶风格参数后，安全驾驶行为网络完成车辆行为意图的输出，通过模拟器接口调整模拟器中车辆的位置，从而模拟车辆的移动，更新模拟器中的路况。路况信息可以用于计算损失函数和奖励，从而根据优化目标进行优化。优化目标是使得车辆安全驾驶网络能够真实学习到车辆真实的跟车和变道等安全驾驶行为，同时，使得路口的车辆流出符合真实交通流。完成上述过程并更新网络参数，开始下一次迭代，不断重复上述过程，直到完成两个网络的训练。

具体训练步骤如下：

A.对于辆行驶风格模块：

输入连续的完整路况信息，应包括某车辆一段时间在路上的状态，如同算法观察一段时间车辆的行为，可以以较高可能得到由于车辆特性不同和驾驶风格不同而使得车辆加速更快或变道更频繁的可能性，即车辆行驶风格属性,表征这种可能。

i.这里，连续完整的路况信息是指一段连续时间内，观察到特定观察范围的道路上的车辆，能区分不同车辆以实现连续的车辆行驶信息。采用车辆位置矩阵W_v×L_v×C_v来表示，其中道路格式化为长宽的矩阵，存在车辆的位置置位1，同时，也可通过C_v扩展为车速等其它属性；也可以通过C_v扩展历史信息，本实施例同时使用连续8个路况信息来体现一段时间，这取决于后续训练用的神经网络对输入数据形式的要求。输出结果为道路上车辆的分级。模型输出也是一个矩阵，为当前时刻的路上车辆对应的分级N，表示不同车辆具有的不同特性和驾驶风格。

ii.基本思路，通过深度学习和强化学习，构建基于CNN\RNN的神经网络，通过输入数据，提取有效特征，这里，可以使用多层CNN，通过上面channel形式将历史数据的连续路况信息，也可以CNN+LSTM来读取连续多个时刻的多个车辆位置矩阵；其次，训练需要确定优化目标，这里，优化目标可以是流出车流速与真实历史数据接近；其中，需要使用车辆安全驾驶模型完成车辆在模拟器中的行驶。该输出结果会传递给车辆安全驾驶模型，在模拟器中基于车辆安全驾驶行为模型不断步进，模拟继续行驶出该道路，统计流出车速，以与真实流出进行比对，反复进行，完成优化。

B.对于车辆驾驶行为层次预测模块：

输入车辆周围的路况信息，输出车辆根据周围的路况决定保持或变道的可能性。这里，车辆安全驾驶模型还有一个输入，即某辆车的车辆行驶风格属性n，通过n来调节其加速或变道等的可能性。

i.将交通路况作为输入数据，并从路况数据提取每辆车周围一定范围的路况信息作为车辆安全驾驶行为网络输入数据，输入数据可使用历史路况数据，也可使用按特定分布指定达到的模拟路况数据，如指定车辆达到上游路口符合泊松分布或二项分布。给出特定车辆周围的数据，以特定车辆为中心，给出其前后左右space_length/2范围内的车辆位置，形成一个space_length*space_length*info的状态矩阵，方法同上。如处于边界位置，例如在最右或最左车道，将旁边车道补全为全1，表示不可变换到该车道。训练车辆在不同车辆行驶风格下的车辆驾驶行为层次预测模块，实现将特定车辆周围路况信息输入模型后，模型能输出该车辆后续的安全的驾驶行为意图，包括加减速的目标速度、保持车道或向左、向右变道等，对于当时道路上每辆车辆，按车辆特性和驾驶风格输出的级别作为车辆安全驾驶行为模型输出的超参数相乘，得到加减速或变道的值，由模拟器根据驾驶行为意图完成最终的车辆行为，更新路况数据，从而支持训练和预测。

ii.通过深度学习和强化学习，构建基于CNN\RNN的神经网络，通过输入数据，提取有效特征，这里，可以使用多层CNN，通过上面channel历史数据方式输入连续路况信息，也可以CNN+LSTM来读取连续多个时刻的多个矩阵；其次，训练需要确定优化目标，这里的优化目标是使得车辆行为与真实车辆行为尽可能一致，这个优化目标可根据采集数据情况设置，考虑真实场景中可能监测范围有限，存在无法采集到实际路况的区域，因此，可采用优化目标为车辆安全通过用时最短，以简化对中间过程groundtruth的要求；如采集范围足够，也可采用车辆位置差异最小等优化目标。其中，需要使用车辆特性及驾驶风格模型给定每辆车的归一化分级N，并通过模拟器完成。

这里，可以看到，在辆行驶风格模块训练的时候需要使用车辆驾驶行为层次预测模块完成优化，同样，在车辆驾驶行为层次预测模块训练时也需要辆行驶风格模块的输出作为输入。因此，训练时，采用交替训练方法，即首先随机分配N，完成各种情况下的车辆驾驶行为层次预测模块的训练，然后使用这个训练好的车辆驾驶行为层次预测模块，完成辆行驶风格模块的训练；之后，再用辆行驶风格模块输出的n，进一步训练车辆驾驶行为层次预测模块，得到更好的车辆驾驶行为层次预测模块，再用于辆行驶风格模块的进一步训练。

得到两个模型后，即可将格式化路况信息输入，通过辆行驶风格模块获得当前道路上所有车辆的不同分级n，每辆车的安全驾驶模型通过n来调节不同车辆行为。首先，短时连续的特定路段路况信息通过相同的预处理，作为车辆特性和驾驶风格模型的输入，辆行驶风格模块输出当前时刻当前路段中车辆特性和驾驶风格的分布；车辆特性和驾驶风格的分布作为超参数，完成对当前时刻当前路段中车辆特性和驾驶风格的设置；安全驾驶行为模型根据每辆车周围路况的数据，生成每辆车的驾驶行为意愿(如加减速的目标速度和向左、向右或保持)，由模拟器完成车辆的实际运动和位置变化。通过初始状态输入，获得下一步的路况状态，然后将下一步的路况状态作为输入，再获得更下一步的路况状态，如此反复循环，可预测此后一段时间的路况。

实施例2应用实施例1提供的基于层次强化学习的微观交通流预测系统进行沙盘模拟

步骤1：首通过交通沙盘复现静态信息。调度路口及其所有相关联路口的路网结构，可采取已有地图、施工工程图或现场测量的方式获取，路网结构包括如各路口的车道宽度、路口长度、停车线位置、扩口长度等参数，如通过OpenStreetMap选择地图上需要的特定区域，将该区域的地图数据导出到文件中，为JOSM格式，可在OpenStreetMap地图编辑器中结合施工工程图或现场测量结果对地图数据进行调整，同时，获取每个交叉口的id。将调整过的地图数据文件用SUMO提供的工具转换为SUMO可用的路网数据，并设定交叉口信号灯相位设置，以及每条道路的车辆限速等交通控制相关信息，完成SUMO中静态信息的复现。

步骤2：获取包括待调度路口的实时路况信息。路况数据采集分析子系统负责采集交叉口的实时机动车和非机动车等路况信息，经过智能分析和数据融合后输出为结构化的路况信息供沙盘建立训练和评测环境。为满足智能分析和数据融合研发验证需求，在试点区域部署时，会采用部分冗余采集方式，以便评估不同采集方式数据融合效果及对训练和评测的影响。本实施例采用雷达和视频等多种来源数据。调控路口周围的边界路口也需采集，以如图3所示，4个调控路口和8个关联的边界路口为例，应分别从调控路口、边界路口和道路安装的相应的采集设备采集相关信息。

结构化车辆信息，采用路口摄像头和毫米波雷达采集预取区域内的实时机动车和非机动车等路况信息经过智能分析和数据融合后输出为结构化的路况信息获取，所述预测区域内的实时机动车和非机动车等路况信息包括结构非结构化数据和非结构化数据；所述结构化数据包括机动车、非机动车和行人的位置、速度、通过数量；所述非结构化数据包括道路摄像头、雷达、地磁和浮动车信息等获取视频流等；对非结构化数据采用智能分析方法整理为结构化数据，所述智能分析方法包括：深度目标检测、分类、追踪等算法，获得赋予用于唯一识别的车辆标识作为机动车、非机动车标识；所述数据融合，即将所述预测区域内的实时机动车和非机动车等路况信息中的结构化信息和采用智能分析方法获取的结构化数据，基于时间和空间关联关系，融合输出为模型训练可用的结构化数据。

步骤3：根据步骤2中获取的实时路况信息对模拟沙盘进行初始化；根据步骤2可获得车辆在某个具体时刻在沙盘中的位置的结构化信息，可通过SUMO配置文件或用户编程接口将结构化数据中车辆信息设置到模拟器中，从而完成车辆在沙盘中的初始化。

步骤4：基于建立的模拟沙盘，按照实施例1提供的基于层次强化学习的围观交通流预测系统，训练车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块。部分交通模拟器本身提供跟车、变道模型(传统方法)，也可用于模拟车辆行为，但因其不够精准，这里，不使用交通模拟器提供的跟车、变道模型，而只是用交通模拟器SUMO提供的路网、交通状态模拟功能，以及通过接口设定路网中的车辆位置等功能。

步骤5：通过步骤4训练好的基于层次强化学习的围观交通流预测系统实现对交通流的预测。首先，短时连续的特定路段路况信息通过相同的预处理，作为车辆行驶风格层次预测模块的输入，车辆行驶风格层次预测模块输出当前时刻当前路段中车辆特性和驾驶风格的分布；车辆行驶风格层次预测模块分布完成对当前时刻当前路段中车辆特性和驾驶风格的设置；车辆驾驶行为层次预测模块根据每辆车周围路况的数据，生成每辆车的驾驶行为意愿(如加减速的目标速度和向左、向右或保持)，结合车辆特性和驾驶风格参数的调整，由模拟器完成车辆的实际位置变化。通过初始状态输入，可以获得下一步的路况状态，然后将下一步的路况状态作为输入，再获得更下一步的路况状态，如此反复循环，可不断步进的给出车辆在模拟器中的位置，从而实现预测此后一段时间的路况。

实施例3应用实施例1提供的基于层次强化学习的微观交通流预测系统进行沙盘模拟

本实施例与实施例2的区别仅在于：

步骤2考虑部分道路或区域雷达设备难以安装，可考虑使用无人机航拍方法进行数据采集一定时间范围内的连续数据，此时需考虑多架无人机分别在调控路口和边界路口进行车辆数据采集，同时考虑时间同步问题。

结构化信息时，需针对无人机俯拍视角重新训练智能方法实现非结构化数据的结构化。

基于层次强化学习的微观交通流预测系统，采用奖励函数为每一观察时刻离开目标范围的车辆数量累计误差，采用此奖励函数即目标是希望在每一时刻，与正确标注数据的离开目标范围车辆数保持一致。因无人机俯拍数据采集范围较大，可在观察区域设置多个离开线进行统计，进一步增强算法准确性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于层次强化学习的微观交通流预测系统，其特征在于，包括：车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块；

2.如权利要求1所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势。

3.如权利要求1所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据。

4.如权利要求1所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述车辆行驶风格层次预测模块采用的强化学习模型和所述辆驾驶行为模块采用的强化学习模型分别为DQN模型、DDPG模型、或A3C模型。

5.如权利要求1所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述目标范围内每辆车辆的行驶状况信息集合表示为目标范围内车辆位置矩阵W_v×L_v×C_v；所述车辆位置矩阵W_v×L_v×C_v，用于存储车辆位置及车辆属性信息，其中W_v表示车道，L_v表示车道内的位置单元，C_v为车辆属性向量，车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列，例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。

6.如权利要求5所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述车辆行驶风格层次预测模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量，状态定义为车辆位置矩阵；

7.如权利要求6所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述含有车辆的行驶风格属性的结构化车辆信息，可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息，亦可表示为待预测范围内车辆位置矩阵W_v×L_v×C_v’；所述车辆位置矩阵W_v×L_v×C_v’，用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息，可表示为W_v×L_v×C_v’，其中W_v表示车道，L_v表示车道内的位置单元，C_v’为车辆属性向量，车辆属性向量包括车辆的行驶风格属性。

8.如权利要求4所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述辆驾驶行为模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量；优选以特定车辆为中心，取其周围预设范围内的结构化车辆信息定义为状态；

动作空间为加速比和变道概率组成的二元组。

9.如权利要求1所述的基于层次强化学习的微观交通流预测系统，其特征在于，按照如下方法训练：重复以下步骤(1)和(2)直至微观交通流预测系统收敛；

10.如权利要求9所述的基于层次强化学习的微观交通流预测系统，其特征在于，所述系统训练采用奖励函数为每一观察时刻离开目标范围的车辆数量的预测值与真实值的累计误差。