CN104881992A

CN104881992A - 基于多智能体仿真的城市公共交通政策分析平台

Info

Publication number: CN104881992A
Application number: CN201510325510.0A
Authority: CN
Inventors: 凌帅; 马寿峰; 贾宁; 李庚�; 谢沁木; 吴学新
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2015-09-02
Anticipated expiration: 2035-06-12
Also published as: CN104881992B

Abstract

城市公共交通管理，为政策的制定、交通管理效率的提高提供技术支持。为此，本发明采取的技术方案是，基于多智能体仿真的城市公共交通政策分析平台，由大规模自治Agent松散藕合所构成，形成多Agent系统(Multi-Agent System，MAS，)，通勤者Agent代表在早高峰有出勤需求的居民，其基本行为模式为在每个仿真天内乘坐公交车至工作区上班，结束通勤后衡量此次通勤的成本，更新经验库和知识。本发明主要应用于公共交通管理。

Description

基于多智能体仿真的城市公共交通政策分析平台

技术领域

城市公共交通管理。具体讲，涉及基于多智能体仿真的城市公共交通政策分析平台。

背景技术

Agent技术是人工智能研究领域的热点，由面向对象技术发展而来。由异构、分布、动态、大规模自治Agent松散藕合所构成的系统，称之为多Agent系统(Multi-Agent System，MAS)，也可泛指所有由多个自治或半自治模块组成的系统。在交通领域，利用多Agent技术解决复杂交通问题的研究也正在日益增多。多Agent仿真技术为解决早高峰通勤现有研究的局限性提供了新的方法。多Agent系统中的每个Agent都有其不同的行为动机和行为机制，并具有在不完全信息下求解问题的能力，Agent所具备的知识和获取的数据是相互独立的，系统不具备全局控制机制。每个Agent的行为都将对环境造成影响，而环境所包含的信息又通过反馈机制传递给Agent，从而影响其行为。

多Agent技术在交通相关领域得到了广泛的运用。在交通控制和管理领域，Fei-Yue Wang设计了将Agent技术运用于现实城市交通控制的硬件及系统实现。Van Katwijk等提供了一个能在动态交通管理中实验不同策略的多Agent系统，以研究不同策略的适用性。在交通信号灯控制领域，Choy等建立一个具有在线学习能力的分层式多Agent构架，运用模糊神经决策控制交通信号灯。Chen等设计了带适应和合作的信号灯Agent用于分散式的交通灯控制。Kosonen设计一个基于多Agent的信号灯控制系统，其利用实时检测器数据对路网情况进行在线仿真。

值得一提的是，多Agent系统所具备的Agent的异构性、自治性等特点，使其尤为适合在交通仿真领域中使用，不论是行人流的仿真、驾驶行为的仿真，甚至在道路交叉口仿真或者空中交通流量仿真方面也都得到了较好的应用。Burmeister等利用多Agent技术实现了一个微观交通仿真模型，在其模型中将驾驶员及其所驾驶车辆视为一个智能Agent，由传感器、效应器、通讯机制、动机、认知等模块组成，结果表明新模型更为契合实际，并且克服了传统仿真模型中的诸多不足。Joachim Wahle等利用基于Agent的方法对两路径情况进行仿真，研究了实时信息影响下的驾驶员行为。Salim等提出了一个基于Agent的模型用于仿真道路交叉口的安全状况，在其模型中，Agent利用数据流挖掘的方法用于侦测交叉口路况、碰撞提示和回避等方面。Rossetti等利用带有信念(beliefs)、愿望(desires)、意图(intentions)的BDI Agent研究驾驶员的决策行为。在Li等的工作中，多Agent的协同机制和网格计算方法结合起来被用于空中交通流的仿真，提高了传统空中交通流仿真中的计算效率。Da Silva等^[46]开发了能够仿真驾驶员行为、交通灯、交通拥堵预测的多Agent仿真平台。Kukla建立了一个基于多Agent的行人仿真模型。

发明内容

为克服技术的不足，为政策的制定、交通管理效率的提高提供技术支持。为此，本发明采取的技术方案是，基于多智能体仿真的城市公共交通政策分析平台，由大规模自治Agent松散藕合所构成，形成多Agent系统(Multi-Agent System，MAS，)，通勤者Agent代表在早高峰有出勤需求的居民，其基本行为模式为在每个仿真天内乘坐公交车至工作区上班，结束通勤后衡量此次通勤的成本，更新经验库和知识；系统包括如下几个主要模块：

环境感知模块：用于感知环境中的拥挤、早到或迟到的延误惩罚等因素；

记忆存储模块：用于保存和提取历史通勤信息；

成本衡量模块：结合环境感知模块计算通勤成本；

经验库：随着系统的演化Agent会不断更新自己的经验，其内容体现了Agent对记忆中整个高峰通勤状况的感受和评价；

学习机制：采用基于Agent的Bush-Mosteller算法；

决策控制模块：结合经验库和通勤者记忆的信息，对下一个仿真天选乘的班次进行决策。基于Bush-Mosteller的通勤者学习机制包括：

1)采用Bush-Mosteller强化学习模型；

2)策略学习机制；

将BM模型应用到早高峰通勤情境下，通勤者的可选策略集即为早高峰所有班车集合，记为T，每一辆公交车代表一个选择策略，每个策略对应一个选择概率从而整个策略集对应了一个概率向量，由随机决策准则决定每仿真天内通勤者所选策略。通勤者单次通勤效用由成本衡量模块计算；

3)刺激计算规则

在BM标准模型中，刺激s_a的计算方式公式如下：

s_{a} = \frac{c_{a} - A}{s u p [| c_{m a x} - A |, | c_{\min} - A |]}

公式(1)

其中

c_a—策略a相对应的平均通勤

A—通勤者对此次通勤成本的期望

c_max—该通勤者的历史最高通勤成本

c_min—该通勤者的历史最低通勤成本

式(1)的分母表示该通勤者历史任意一次成本与期望之差的绝对值的上确界；

4)概率更新过程

把A取为该通勤者的历史平均通勤成本。在一次通勤中采用策略a之后，其对应概率p_a更新规则如下：

p_{a, t + 1} = \{\begin{matrix} p_{a, t} + (1 - p_{a, t}) {ls}_{a, t} & s_{a, t} &GreaterEqual; 0 \\ p_{a, t} + p_{a, t} {ls}_{a, t} & s_{a, t} < 0 \end{matrix}, a &Element; T

公式(2)

在式(2)中，p_a,t代表t时刻策略a对应的选择概率，l表示学习率(0＜l＜1)，其体现了通勤者学习的速度，s_a,t是在t时刻选择策略a后计算得到的刺激；

对于未被选择的策略，其对应的概率更新规则如下：

p_{o t h e r, t + 1} = \{\begin{matrix} p_{o t h e r, t} (1 - {ls}_{a, t}) & s_{a, t} &GreaterEqual; 0 \\ p_{o t h e r, t} (1 - \frac{p_{a, t} {ls}_{a, t}}{1 - p_{a, t}}) & s_{a, t} < 0 \end{matrix}, o t h e r &Element; T a n d o t h e r &NotEqual; a

公式(3)

采用在参数一致的情况下对比经典解析结果的方法，检验多Agent系统模型的正确性：采用Tian模型作为验证多Agent方法适用性的基准模型，在Tian的模型中，通勤者被假定为是同质的，并且对整个早高峰通勤状况具有完备信息，首先采用与其一致的假定条件和参数设置进行实验，从H_i站出发，选择乘坐班车j的通勤者的总成本用如下公式计算：

{TC}_{j}^{i} = p_{i} + C_{j}^{i} + {αT}^{i} + δ (j)

公式(4)

其中，p_i表示从H_i站出发到工作地W的票价，假定p_i是恒定的并不随时间变化，表示通勤者从H_i出发乘坐班车j到达W过程中的总拥挤成本，拥挤成本的计算用一个包含车内拥挤水平和站间行驶时间的函数表示，如式(5)：

C_{j}^{i} = Σ_{s = i}^{K} g (Σ_{m = 1}^{s} n_{j}^{m}) τ_{s}

公式(5)

其中，是从站H_m上车乘坐班车j的通勤者数量，显然有τ_s表示从站H_s到站H_s+1的行驶时间，拥挤函数g(n)代表通勤者对拥挤水平的感知，当车厢内没有人的时候，拥挤成本为0，即g(0)＝0；g(n)取线性函数；

式(4)中的第四项δ(j)表示通勤者乘坐班车j所获得的延误惩罚成本，这里延误惩罚成本的定义与Vickrey的瓶颈模型一致，模型中用T＝{ξ,...,2,1,0,-1,-2,...,-ζ}表示所有公交车的集合，ξ和ζ取足够大以确保所有通勤者均能在整个交通高峰阶段完成通勤，假定只有一辆公交车是在上班时间时刻准时到达工作区W的，用0表示，由此，j＞0表示在上班时间之前就到达W的公交班次，早到的时间即j×t，其中t为公交车发车间隔，j＜0表示在上班时间点之后到达W的公交班次，迟到时间为-j×t_，δ(j)的计算如式(6)：

δ (j) = \{\begin{matrix} β j t, & j > 0 \\ 0, & j = 0 \\ - γ j t, & j < 0 \end{matrix}

公式(6)

其中，β和γ均为正数，分别代表早到、迟到情况下每单位时间所带来的延误惩罚成本；

在计算等价问题时假定p_i+αTⁱ＝0，最终通过求解凸函数最小化问题得到通勤者出发时间的均衡状态分布：

达到均衡时通勤者出发时间分布满足满足四点性质：

(1)对于非起始站点H_i，如果某班车j上在该站载客人数则上游站台中一定也有人乘坐该车；

(2)对于非起始站点H_i，如果某班车j上在该站载客人数则上一站台H_i-1一定有人乘坐该车；

(3)对于非起始站点H_i，如果某班车j上在该站载客人数则该车所搭载的上游所有站台的总人数是一个独立于j的常量；更进一步说，上游每一站的上车人数均是独立于j的常量nⁱ；

除了最后一个上车站即非H_k的H_i，对于所有班车j属于T，所有在H_i站上j车的人数均小于等于nⁱ。

与已有技术相比，本发明的技术特点与效果：

本发明通过agent建模及分析，可获取高峰前免费乘车、公交提速等各项交通管理政策能够取得的效果预计，为政策的制定、交通管理效率的提高提供技术支持。

附图说明

图1通勤者Agent模块。

图2BM模型中的认知结构改变过程。

图3策略a更新过程。

图4典型算例。

图5通勤者班次选择分布。

图6“峰前免费”政策仿真实验结果。a通勤者收敛程度；b各站通勤者平均通勤成本(均衡时)；c通勤者班次选择分布。

图7“峰前免费”政策组与理想组实验对比。

图8各班次所载乘客的平均通勤成本。

图9“分时折扣”政策组仿真结果。图中，a通勤者班次选择分布；b与理想组实验对比；c各班次所载乘客的平均通勤成本。

图10“公交提速”政策组仿真结果。

图11“公交提速”仿真实验的平均通勤成本。a基准组；b实验组。

图12Agent的标准强化学习框架。

具体实施方式

在早高峰通勤问题中，对通勤者的行为模式进行建模是研究的关键。大多数现有的出发时间选择模型是解析模型，而通过利用多Agent方法，可以更加直观地、方便地描述多种多样的个体行为假说。作为一种“自底向上”的建模方法，多Agent方法在描述个体行为及其与系统的互动方面有天然的优势。并且，多Agent方法更加适用于刻画系统的非线性，譬如拥挤的产生。多Agent方法的另一个优点在于其能够灵活地引入诸如在心理学、行为学或者经济学领域新的理论或者行为准则来替代传统解析模型中一直使用的效益最大化原则，从而使我们的研究更加贴近现实。

社会经济的发展使得居民生活用地和工作用地的空间布局与联系产生了质的变化，在世界各诸多大城市，有越来越多的人口在城市的外围生活和居住，但其工作地点仍然在城市内部，由此导致了日常出行中较大规模的集聚现象。以北京为例，自2013年7月以来，北京地铁路网工作日客运量突破1000万人次大关，最大日客流量已达1105万人次，乘客的潮汐性出行行为明显，早晚高峰进站量达到当天的47.46％，部分线路满载率达到144％。除公共交通客流拥挤外，我国各大城市的机动车保有量和道路交通量也都在急剧增加，导致了以交通拥堵严重、环境污染突出、道路事故频发为主要特征的“城市病”在一些大城市蔓延，对城市功能的正常发挥和可持续发展均起到了严重的负面作用。其实早在“城市病”出现之前，一些大型城市就有相关的措施和手段用以缓解或者预防城市的交通拥堵问题，但其中心思想在于加大交通基础设施建设。这种做法在一定程度上可以改善局部地区的交通状况，但这是属于“增加供给”的方法，其结果必然会刺激城市交通需求的增长。所以城市交通问题不能单纯地依靠加大交通投入、加快交通基础设施建设来解决。进入20世纪70年代以来，交通需求管理(Transportation Demand Management，TDM)在一些资源相对短缺的国家的地区如新加坡和香港等地得到了应用并取得了不错的成效，通过实施TDM，道路交通系统的运行效率得到了提高，拥堵状况也得到一定改善。TDM主要通过交通政策的引导作用，诱导和促进交通参与者对交通出行决策过程的变更，以达到缓解城市拥堵的目的。其中，出行者的出发时间偏好是TDM试图引导或改变的重要方面，充分的理解决定出行者出发时间选择的影响因素和行为机制，是设计和评估交通政策的先决条件。

在考虑交通堵塞的情境下，通勤者的通勤时间不仅仅由居住地点决定，还需考虑通勤者的出发时间。从个体层面来说，适宜的出发时间可以减少在路途中拥堵的可能，提高舒适性。从整个交通系统的角度看，通勤者的出发时空分布决定了路网的运行状态，良好的通勤者出发时间分布有助于减缓路网的拥堵问题，使交通系统达到较高的效率。作为通勤者最基本的选择行为之一，早高峰的出发时间选择直接影响了城市路网早高峰的交通流量。对早高峰通勤出发时间选择行为进行研究，有助于为拥挤收费、错时上班等交通管理措施提供重要参考依据，是缓解城市拥堵问题的重要手段。

“走廊问题”(The corridor problem)是关于通勤者出发时间研究的重要内容。“走廊问题”研究的核心内容是何种出发时间选择机理能够满足均衡，即没有任何一个通勤者可以通过改变自己的出发时间降低自身的旅行成本。Vickrey是首先刻画类似问题的理论先驱。在Vickrey的模型中，一条通行能力有限的公路连接生活区和工作区，通勤者每日从生活区驾车到工作区上班，不同的出发时间可能会带来不同的通勤成本，该成本包含行驶时间成本、延误惩罚成本和排队时间成本三部分。所有通勤者均试图通过选择合适的出发时间来最小化自身的通勤成本，在达到均衡时，所有人的通勤成本相等。该模型简单、直接地透析了通勤者的出发时间选择机理，后人将此模型称作瓶颈模型。在接下来的几十年里，瓶颈模型被广泛地研究，这些研究包括：考虑不同上班时间的，考虑弹性交通需求的，等等。Ramadurai等综述了相关工作。

但是在研究现实交通高峰的空间分布问题上，瓶颈模型却遇到了障碍。一部分原因在于瓶颈模型及以上提到的扩展模型均假设通勤者在选择出发时间时拥有连续的决策空间，而在现实情况下其是离散的。另外，将瓶颈模型引入现实城市模型会导致问题的复杂度骤增，这在Arnott的文章中得到了印证。Ross and Yinger证明，在研究高峰拥堵的空间分配条件下，除非交通高峰不会停止，否则没有简单的出发模式可以满足均衡条件。

另外，“走廊问题”中假设通勤者均是驾车出行的，然而城市中心空间有限，驾车通勤的方式不仅给城市路网带来了严重的拥堵，伴随的污染排放及停车用地匮乏等问题也大大影响了城市交通环境质量，交通压力过大造成的功能性缺陷已造成了严重的外部不经济，优先发展公共交通能够较好地缓解上述问题，从而成为解决城市交通问题的重要手段。进入90年代，越来越多的研究者开始研究高峰时期公共交通通勤者的出发时间选择问题(称为“公交走廊问题”)。与“走廊问题”相比，“公交走廊问题”中假设通勤者的选择空间是离散的，交通需求产生于公共交通路网沿线各站点，出行时间由公共交通运输工具时刻表决定，行驶线路固定。考虑到我国人口密度高，公共交通运输量大，对“公交走廊问题”的研究有助于更好地刻画大城市早高峰路网交通状况和探索通勤者早高峰出行模式，从而为减缓城市早高峰路网拥堵问题提供重要参考依据。

“公交走廊问题”通常被视为“走廊问题”的一个变体，在其情景中通勤者利用连接生活区和工作区的公共路线上班。然而，有几点差异需要注意：首先，在“公交走廊问题”中，通勤者是在一个离散的选择空间中做出决策，而非“走廊问题“中的连续选择空间，也是由此原因，Arnott&DePalma虽提出了一个可能满足均衡的出发模式猜想，并且其数值算例结果与“走廊问题”的均衡算例结果在形式上具有一致性，但却未能证明其猜测；其次，公共交通工具(公交，地铁)上多一名乘客，并不会影响该车的速度，也不会对对别的车产生影响。而根据“走廊问题”中的驾车出行方式，道路上多出的一个通勤者有可能导致道路的车辆行进速度减慢，给后方车辆带来时间损失。从问题意义上说，在北京、香港、伦敦、纽约等国际大都市，有大量的居民通过公交方式通勤，“公交走廊问题”更具有现实意义，诸如票价制定、线路频率、服务水平等相关交通政策或措施均可在“公交走廊问题”的情景中进行研究。

在探索“走廊问题”及“公交走廊问题”的过程中，为了模型更好地求解，传统解析方法一般需要借助一些假设，譬如通勤者对拥挤有同样的敏感程度、相同的延误惩罚成本计算等。并且模型中的通勤者被视为拥有完备信息和绝对理性，经过长期的实践和感知，对其他通勤者和高峰拥堵状况也有充分的认识。这样就难以刻画以下两个现实情况中的基本条件，一是通勤者是异质而非同质的，不同通勤者对整个通勤过程中的成本有不同的感知敏感系数。二是通勤者是有限理性且有限记忆的，其关于出发时间选择的经验是来自于自身的学习过程，而不是默认地拥有完备信息，这两个条件主要着眼于通勤者个体的特质和出发时间均衡达到的过程，如果考虑这些因素的话，传统解析方法的难度和复杂度就会大大增加。

1 多Agent建模

每一个通勤者均被认为是一个Agent，通勤者Agent代表在早高峰有出勤需求的居民，其基本行为模式为在每个仿真天内乘坐公交车至工作区上班，结束通勤后衡量此次通勤的成本，更新经验库和知识。通勤者Agent功能较为复杂，它也是早高峰通勤系统中最主要的部分，该Agent包含图1所示几个主要模块：

环境感知模块：用于感知环境中的拥挤、早到或迟到的延误惩罚等因素。

记忆存储模块：用于保存和提取历史通勤信息。

成本衡量模块：结合环境感知模块计算通勤成本。

经验库：随着系统的演化Agent会不断更新自己的经验，其内容体现了Agent对记忆中整个高峰通勤状况的感受和评价。

学习机制：采用基于Agent的Bush-Mosteller算法，后文会详细讲到。

决策控制模块：结合经验库和通勤者记忆的信息，对下一个仿真天选乘的班次进行决策。

2 基于Bush-Mosteller的通勤者学习机制

通勤者Agent的主要任务就是需要根据环境的变化得到适应性知识，并由其指导自己的出发时间选择，从而达到降低出行成本的目的。这个学习的过程是通勤者Agent的关键特征之一。在机器学习范畴，根据反馈的不同，学习技术可分为监督学习(supervised learning)，非监督学习(unsupervised learning)和强化学习(reinforcement learning)三大类。而这里面强化学习方法是一种利用环境的反馈评价作为学习的输入，学习主体拥有较强的环境适应能力的机器学习方法，适用于本文的场景。

2.1 Bush-Mosteller强化学习模型

Bush-Mosteller(BM)学习模型是一个较早的经典的强化学习模型，最先由Bush和Mosteller提出，其被广泛运用于各类研究领域。Macy将其运用于三种“社会两难”问题中，以探究演化博弈中合作的均衡。Zhou设计了一个基于BM模型的功率控制算法，用于解决认知无线电网络问题。而在Wynne的心理学研究中，BM学习模型被用于解释非言语传递性推理能力。和许多经典强化模型一样，在BM模型中，学习的过程被假设为一种带有马尔可夫链性质的过程，即学习主体在本期选择中决定某种策略的概率由上期行动的反馈所决定。其基本思想为：在一期决策中，学习主体依照某种策略行动，其行为结果获得了环境的正向评价(奖励)，则该策略在下一期被选择的概率增大；相反地，若学习主体的行为结果导致了环境的负面评价(惩罚)，则在下一期中，相应策略被选择的概率会降低。

从皮亚杰的认知理论角度出发，BM学习模型中的认知过程如图2所示：

图2中，学习主体第t期的认知结构来自于t期以前的行动经历，反映到BM模型中即是Agent在第t期对各个策略的选择概率。若对某Agent而言，p_a,t代表了策略a在第t期的选择概率，研究者认为这种概率p_a,t在在真实人脑的认知结构中并不以数值形式存在，所有策略的概率系列是以一种类似于排序结构的存在。即如果p_a,t＞p_b,t，则学习主体会认为策略a带来的效用会比策略b好，但并没有量化的关系。认知结构的改变来自于外界的刺激，也是强化信号的来源，在BM模型中，外部刺激即是某次行动之后的结果(奖励或是惩罚)。

标准形式的BM模型主要由学习算法和随机决策准则构成。在学习算法中，一次决策的结果会产生正向或反向刺激(奖励或惩罚)，而刺激会更新该决策在未来的决策中可能被重复的概率。具体来说，若本次决策选择的策略带来的结果令人满意(相当于甚至优于预期结果)，则会产生正向刺激，使得参与者倾向于在未来的决策中再次选择该策略，反之，则产生反向刺激，参与者将倾向于避免再次选择该策略。如上所述，模型中的学习算法在每次决策后对参与者的经验库进行更新，而随机决策准则则决定了参与者将如何进行决策。该准则的具体含义为，每次决策中，决策者按照可选策略各自的概率随机选择下一步执行的策略。参与者只利用自身的历史选择及其感知的效用进行决策，整个过程与其他参与者的选择和效用无关。也就是说，BM模型是一个完全分布式强化学习模型。

在BM模型中，存在“效用”和“期望”等概念，它们是为了计算刺激的中间量。从知识的角度出发，所有参与者只需了解其可选策略集，并且知道所有可能效用与期望之差中最大差的绝对值，参与者并不从别的参与者那里获取信息。从要求参与者的计算能力看，每一个参与者需要具有进行数学运算的能力。

2.2 策略学习机制

将BM模型应用到早高峰通勤情境下，通勤者的可选策略集即为早高峰所有班车集合，记为T，每一辆公交车代表一个选择策略，每个策略对应一个选择概率从而整个策略集对应了一个概率向量，由随机决策准则决定每仿真天内通勤者所选策略。通勤者单次通勤效用由成本衡量模块计算，图3说明了策略a对应的概率被更新的过程。

模型中强化学习的结果表现为概率向量的不断更新，此概率向量代表了通勤者对各个公交班次的选择偏好，若某班次车辆的对应概率越大，则通勤者越倾向于选择该班次。随机决策准则使得通勤者Agent“依概率行动”，所有通勤者的班次选择构成了当日的高峰通勤状况，这也是强化学习主体(通勤者Agent)的学习环境。在每日通勤结束后，通勤者Agent依照自身成本计算模块得到本次通勤成本，并结合自身的期望水平算出强化信号(即刺激)，若是正向刺激则加大本次通勤班次被选择的概率，若是反向刺激则降低本次通勤班次被选择的概率。

2.3 刺激计算规则

在BM标准模型中，计算s_a需要用到的一个前提是参与者知道所有的可能效用，以此计算所有可能效用与期望之差的最大差的绝对值。举例来说，在Macy对关于“社会两难”问题的研究中，刺激s_a由下式决定

s_{a} = \frac{π_{a} - A}{s u p [| T - A |, | R - A |, | P - A |, | S - A |]}

公式(7)

其中π_a代表选择策略a的支付，T,R,P,S分别是“社会两难”问题博弈矩阵中的可能支付。但在早高峰通勤情景下，知道所有的可能支付是不合理的，即通勤者不可能事前知晓所有可能的通勤成本。由是，本文修改了刺激s_a的计算方式，其公式如下：

s_{a} = \frac{c_{a} - A}{s u p [| c_{m a x} - A |, | c_{\min} - A |]}

公式(8)

其中

c_a—策略a相对应的平均通勤

A—通勤者对此次通勤成本的期望

c_max—该通勤者的历史最高通勤成本

c_min—该通勤者的历史最低通勤成本

式(8)的分母表示该通勤者历史任意一次成本与期望之差的绝对值的上确界，这样既保证了不论策略所对应的成本是多少，刺激s_a的绝对值总小于或等于1，由于每个通勤者的刺激计算与自身的最高、最低通勤成本相关，这也体现了分布式自主学习的思想。

2.4 概率更新过程

通勤者的期望A为s_a的计算提供了一个参照点，当本次通勤成本优于期望时，s_a为正，代表本次决策令人满意(正向刺激)，反之则不满意(反向刺激)，从而决定了策略a所对应的选择概率是增加还是减少。在我们的模型中，把A取为该通勤者的历史平均通勤成本。在一次通勤中采用策略a之后，其对应概率p_a更新规则如下：

p_{a, t + 1} = \{\begin{matrix} p_{a, t} + (1 - p_{a, t}) {ls}_{a, t} & s_{a, t} &GreaterEqual; 0 \\ p_{a, t} + p_{a, t} {ls}_{a, t} & s_{a, t} < 0 \end{matrix}, a &Element; T

公式(9)

在式(9)中，p_a,t代表t时刻策略a对应的选择概率，l表示学习率(0＜l＜1)，其体现了通勤者学习的速度，s_a,t是在t时刻选择策略a后计算得到的刺激。式(9)表明，对于被选择的策略，若本次行动带来的刺激为正值，即通勤者对于此次选择的班次感到满意，则该公交班次在下一次通勤中被该通勤者选择的概率相应增加，增加的幅度为其余策略概率总和的ls_a,t倍；若本次行动带来负的刺激，则对应公交班次下次被选择的概率减少，减少幅度为原概率的-ls_a,t(s_a,t为负)倍。

对于未被选择的策略，其对应的概率更新规则如下：

p_{o t h e r, t + 1} = \{\begin{matrix} p_{o t h e r, t} (1 - {ls}_{a, t}) & s_{a, t} &GreaterEqual; 0 \\ p_{o t h e r, t} (1 - \frac{p_{a, t} {ls}_{a, t}}{1 - p_{a, t}}) & s_{a, t} < 0 \end{matrix}, o t h e r &Element; T a n d o t h e r &NotEqual; a

公式(10)

式5-4表明，对于其他策略，当本次行动带来满意效果或者不满意效果时候，其概率会在原概率基础上相应地缩小或者扩大。式(9)和式(10)共同保证了对于某一通勤者而言，其各策略的概率总和为1。并且由于式(10)中其他策略的概率缩小或扩大时所乘系数均相同，这也保证了原有概率较大的策略扩大(缩小)得多，原有概率较小的扩大(缩小)得少。

由于实测数据获取困难，本文采用在参数一致的情况下对比经典解析结果的方法，检验模型的正确性。在“公交走廊问题”的相关研究中，Tian考虑了一个多起点单讫点公交线路上的通勤者出发时间选择均衡问题。在Tian提出的模型中，通勤者的成本包含车内拥挤成本(in-vehicle crowding)和早/迟到延误成本(schedule delay)，车内拥挤成本由车厢内人数的多少及车内旅行时间的长短所决定，早/迟到延误成本则是指所乘坐车辆到达上班地点的时间与上班时间之差所带来的负效用(所有通勤者都愿意准时到达)。Tian研究了该模型下的通勤者出发时间均衡的性质，这为我们提供了一个良好的参照点，因此，本文采用其模型作为验证多Agent方法适用性的基准模型。

3 经典解析模型及均衡性质

在Tian的模型中，通勤者被假定为是同质的，并且对整个早高峰通勤状况具有完备信息，本文首先采用与其一致的假定条件和参数设置进行实验。从H_i站出发，选择乘坐班车j的通勤者的总成本用如下公式计算：

{TC}_{j}^{i} = p_{i} + C_{j}^{i} + {αT}^{i} + δ (j)

公式(11)

其中，p_i表示从H_i站出发到工作地W的票价，假定p_i是恒定的并不随时间变化。表示通勤者从H_i出发乘坐班车j到达W过程中的总拥挤成本。拥挤成本的计算用一个包含车内拥挤水平和站间行驶时间的函数表示，如式(12)：

C_{j}^{i} = Σ_{s = i}^{K} g (Σ_{m = 1}^{s} n_{j}^{m}) τ_{s}

公式(12)

其中，是从站H_m上车乘坐班车j的通勤者数量，显然有τ_s表示从站H_s到站H_s+1的行驶时间，拥挤函数g(n)代表通勤者对拥挤水平的感知。当车厢内没有人的时候，拥挤成本为0，即g(0)＝0。g(n)一般可取简单的线性函数即可。

式(11)中的第三项αTⁱ代表了车内旅行时间所带来的成本，其中α是单位时间成本，Tⁱ表示从H_i站出发到工作地W总的车内旅行时间。由前文所述，公交车的行驶速度被认为是不变的，因此，从H₁到W之间各两站间公交行驶时间τ₁,τ₂,...,τ_K是恒定的，所以车内旅行时间

T^{i} = Σ_{m = i}^{K} τ_{m}

也是恒定的。

式(11)中的第四项δ(j)表示通勤者乘坐班车j所获得的延误惩罚成本。这里延误惩罚成本的定义与Vickrey^[2]的瓶颈模型一致。模型中用T＝{ξ,...,2,1,0,-1,-2,...,-ζ}表示所有公交车的集合，ξ和ζ取足够大以确保所有通勤者均能在整个交通高峰阶段完成通勤。假定只有一辆公交车是在上班时间时刻准时到达工作区W的，用0表示。由此，j＞0表示在上班时间之前就到达W的公交班次，早到的时间即j×t，其中t为公交车发车间隔，j＜0表示在上班时间点之后到达W的公交班次，迟到时间为-j×t。δ(j)的计算如式(13)：

δ (j) = \{\begin{matrix} β j t, & j > 0 \\ 0, & j = 0 \\ - γ j t, & j < 0 \end{matrix}

公式(13)

其中，β和γ均为正数，分别代表早到、迟到情况下每单位时间所带来的延误惩罚成本。

Tian的研究中，同质前提下，所有通勤者关于车内旅行时间的单位成本α是相同的。所以对于同一站H_i出发的通勤者，其拥有相等的车内旅行时间成本，同样，他们的票价成本也是相等的，因此这两个因素并不会影响通勤者的出发时间选择行为，在计算等价问题时可以不失一般性地假定p_i+αTⁱ＝0，最终通过求解凸函数最小化问题得到通勤者出发时间的均衡状态分布。

根据Tian的研究，达到均衡时通勤者出发时间分布满足满足四点性质：

(4)除了最后一个上车站(即非H_k)H_i，对于所有班车j属于T，所有在H_i站上j车的人数均小于等于nⁱ。Tian文章中的一例数值算例结果如图4：

4 理想组实验-仿真经典解析模型

为检验模型，考虑一条包含四个居住区H₁,H₂,H₃,H₄和一个工作区W的公交线路，仿真参数设置为：t＝0.05(h)，(β,γ)＝(10,30)(RMB/h)，τ₁＝0.2，τ₂＝0.2，τ₃＝0.3，τ₄＝0.1(h)，N₁＝100，N₂＝160，N₃＝180，N₄＝100(persons)，g(n)＝0.5n(RMB/h)，参数选取依据参照Tian的算例(如图12)但为了提高仿真程序的速度将人数规模按比例进行缩小。强化学习算法中的学习率l＝0.2，通勤者期望水平A取为历史平均成本，仿真开始时通勤者对所有班次有同样的选择概率。图5显示了系统演化1500个仿真天之后通勤者出发时间分布(班次选择分布)。

对比Tian的研究中均衡的性质，理想组实验的结果严格满足性质1和性质2。对于性质3、4，考虑到理想组实验人数规模较小，而计算机仿真实验不同于解析求解方法，存在随机扰动等因素，我们认为仿真结果满足均衡性质，重现了解析方法的结果。

有益效果

影响早高峰通勤者出发时间的因素众多，通勤者的个体因素仅是其中的一部分，环境政策因素(诸如票价、服务水平等)的影响也不容小觑。越来越严重的城市交通拥堵问题催生了多种多样的治堵政策：尾号限行、车牌分配摇号、征收拥堵费等，每一条政策的出台都会引起社会的广泛关注。这些政策的制定不仅需要考虑平衡社会各阶层的利益，还有可能需要相关部门的强制监督，但最关键的问题仍然在于其对交通拥堵能起多少缓解的作用。

1 “高峰前免费乘车”政策影响

如何平衡好通勤者的出发时间分布，让通勤者“错峰出行”，是治堵的重要方面。在公共交通领域，新加坡地铁于2013年6月推行早高峰峰前地铁票价折扣政策，7时45分之前从位于市区的16个主要地铁站出站无需付费，若通勤这是在7时45分至8时之间从这些地铁口出站则可享受0.5新元折扣(1新元约合人民币5元)，其余时间按全价收费^[53]。与此类似的，我国四川省成都市也于2013年7月推行了早高峰前免费乘公交的政策，市民凭公交卡可在每天5时到7时免费乘坐所有中心市区的公交线路。此类政策的核心在于降低非高峰时段通勤者的通勤成本，从而达到鼓励通勤者错峰出行的目的。借助多Agent技术，我们可以修改通勤者Agent的成本计算模块使其适于仿真此类政策的效果从而为政策的制定和改进提供依据。

在理想组试验中，票价p_i代表从H_i站出发到达工作地W的票价并且p_i被假定为不随时间变化的，并且有p_i+αTⁱ＝0。由于“高峰前免费乘车”的政策涉及到公交票价，不同班次由于其出发时间的不同，其票价也不同，可知在理想组实验的假定已不再适用。本实验中，通勤者成本不仅由拥挤成本及早/迟到延误惩罚决定，还考虑各班次的票价，其计算公式如下：

{TC}_{j}^{i} = p_{j} + C_{j}^{i} + δ (j)

公式(14)

其中p_j代表班车j的票价，假设公交路线为全程通票，即票价不随上车站的不同而变化，这种情况在现实中是常见的。对于“高峰前免费乘车”政策，其最简单的实施方案即为指定某一时刻为分界时刻，在此时刻之前出发(或到达)的班次可供市民免费乘坐，其余车次收取全额票价，即：

p_{j} = \{\begin{matrix} 0 & j > j^{*} \\ p_{f u l l} & j \leq j^{*} \end{matrix}

公式(15)

其中j^*为分界班次，在其之前的班次早于j^*出发，乘客乘坐这些班次可享受“峰前免费”的政策，乘坐j^*及之后的班次则需支付全额票价p_full。虽然Tian的研究中拥挤函数g(n)的单位为RMB/h，早/迟到延误的系数β，γ的单位也为RMB/h，即已将拥挤因素和早/迟到延误因素折算为货币成本。但由于其成本的计算中并未真正计入实际货币成本(票价)，本文认为其参数大小的选择仅能体现拥挤和早/迟到延误这两种因素之间的相对大小关系，而并不能体现与真实货币成本的比例关系，这也是导致在理想组实验中，通勤者成本过高(上百数量级)的原因。在本实验中，各参数取如下值：t＝0.05(h)，(β,γ)＝(0.1,0.3)(RMB/h)，τ₁＝0.2，τ₂＝0.2，τ₃＝0.3，τ₄＝0.1(h)，N₁＝100，N₂＝160，N₃＝180，N₄＝100(persons)，g(n)＝0.005n(RMB/h)，j^*＝7，p_full＝3(RMB)，实验结果(1500仿真天)如图6所示：可以看出，在“峰前免费”政策下，通勤者的班次选择分布不再是理想组中的单个高峰，而呈现出两个峰状分布。第一个峰值位于分界班次j^*+1，此班次是享受“峰前免费”政策的最后一个班次，乘坐此班次可以相对较晚起床并且不用支付公交费用；第二个峰值在上班点(班次0)附近，这与理想组实验是一致的。观察各站通勤者分布，可知下游站台的通勤者受此政策影响较大，站三及站四的通勤者已不满足性质3、4，而呈现出与总体相一致的两个峰状分布；而对于上游通勤者的影响主要是使其分布的班次范围变广，选择各班次的人数相应降低。此外，各站通勤者的收敛次序与理想实验组无明显差别，但由于实验参数发生变化，通勤者的平均通勤成本明显降低，但各站之间的相对大小仍与理想组一致。

从总体来看，“峰前免费”政策缓解高峰压力的效果较为明显(图2)。本组实验中，享受免费政策班次的载客人数较理想组实验均有增加，其增加数目随着班次到达时间与上班点靠近呈增加的趋势。而对于收取全额票价的班次，其载客人数较之于理想组实验有所减少(班次0除外)，其中，班次[7,2]载客人数的减少量较为明显。可以看出，“峰前免费”政策起到了分散高峰客流的作用，即能够吸引一部分理想组实验中高峰附近的通勤者来乘坐免费的公交。分析整个演化过程中，各车次各站通勤者的平均通勤成本(图3)，可知第四站通勤者的平均成本已不是理想组实验中“U”字形图线。对于分界班次j^*之前的班次，其所载乘客的平均通勤成本随着班次时间的靠后呈降低趋势，在班次j^*+1达到最低值；但乘坐班次j^*及之后的班次由于需要收取全额票价，导致通勤者平均成本有一个急剧的增加，随着班次到达时间靠近上班点，早到延误越来越小，通勤者的平均成本逐渐降低，在班次0处达到最小。结合均衡时的通勤者班次选择分布(图6(c))可以看出，虽然第一个高峰班次(班次8)与第二个高峰班次(班次0)虽然在载客人数上有一定差距，但其所载乘客的平均通勤成本是几乎相等的。

除了最简单的设置分界时刻，使得公交车票价处于“非免费即全额”的状态外，另一种可能的方式是实施一个分时折扣收费政策(类似于新加坡地铁的折扣政策)，通常这种系统需要便捷的支付(公交卡、城市一卡通之类)，所以其在一般公交上实施类似系统的难度较大，但若是在专线、快速公交或者地铁等公共交通系统中，类似政策可以更为方便地实施。此类政策的仿真实验结果如图9所示，该实验中各班次票价为：

p_{j} = \{\begin{matrix} 0 & j > 13 \\ \frac{13 - j}{2} & 13 &GreaterEqual; j &GreaterEqual; 7 \\ 3 & j < 7 \end{matrix}

公式(16)

即相对于“峰前免费”的实验而言，班次13及之前班次均免费，班次[8,12]由原来的票价免费变更为随着班次的靠后而逐渐线性增加，在班次7增加到全额票价(p_full＝3)，之后班次收取全额票价。

“分时折扣”政策是“峰前免费”政策的一种扩展，在此政策环境下，通勤者的客流高峰压力同样得到的分散。与“峰前免费”政策相比，其优势主要体现在政策优惠情况下的通勤者的出行时间分布不会形成新的高峰，而会呈现一个相对平缓且均匀的分布，这样的出行分布不会形成拥堵，从而有利于公共交通系统有序高效地运行。由图9(c)可知，相对于“峰前免费”政策，“分时折扣”同样是对下游通勤者的成本影响较大，其中第四站通勤者在班次[8,12]的平均通勤成本基本一致并且明显高于班次0及附近班次的通勤成本，这也是在此实验中高峰时候的第四站通勤者并未被政策吸引而去乘坐班次[8,12]的原因。

由以上分析，“峰前免费”及“分时折扣”政策对于分散早高峰通勤客流有一定积极作用，原理想组实验中处于客流高峰的班次载客人数有所下降，享受免费政策的公交班次载客人数有明显增加。

2 公交提速政策影响

据统计，我国人口数量超过150万的城市中公交的平均速度约为10km/h，而道路交通系统较发达的国家这一数据则为约30km/h。可见，我国的城市公交运营速度与发达国家相比存在很大的差距。公交车速的过慢导致了人们通勤时间的增加，进而可能造成通勤者的负面情绪，影响了公共交通系统的高效运行。为此，我国各大城市推行了多种加快公交运行速度的政策或措施，其中典型的有北京在各主干道设置的公交优先信号控制点，优先信号控制点由信号控制系统控制，信号控制系统会采集道路上公交车辆的运行信息，每个公交优先信号控制点会结合系统反馈的信息及当前路口的流量状况，通过缩短另一方绿灯放行时间或是延长本方向绿灯放行时间的方法以减少公交车辆在路口的延误时间，从而达到优先放行的目的。此外，杭州、成都、广州等地大力推行的公交专用道建设，也是为提高城市公交运行速度的重要措施。

城市公交运行速度的提升毋容置疑地节约了公交乘坐者的通勤时间，提升了通勤者的满意程度，进而可能吸引更多的人从别的出行方式转化为公交出行，这对提升城市道路系统性能及改善城市空气质量都有十分重要的意义。但此类政策对高峰时通勤者的出行时间选择有何影响甚至有无影响，在目前的研究中对此问题还鲜有涉及，以下实验即为探究此问题而进行。

公交提速政策涉及到通勤者旅行时间的降低，因此，在考虑通勤者成本时需计入此因素。在本实验中，从H_i站出发，选择乘坐班车j的通勤者的总成本用如下公式计算：

{TC}_{j}^{i} = {αT}^{i} + C_{j}^{i} + δ (j)

公式(17)

其中αTⁱ代表了车内旅行时间所带来的成本，其中α是单位时间成本。在基准组(未提速)中各参数取如下值：t＝0.05(h)，(β,γ)＝(0.1,0.3)(RMB/h)，α＝0.1(RMB/h)，τ₁＝0.2，τ₂＝0.2，τ₃＝0.3，τ₄＝0.1(h)，N₁＝100，N₂＝160，N₃＝180，N₄＝100(persons)，g(n)＝0.005n(RMB/h)，而在实验组(公交提速政策下)中，假定城市公交车运行速度的提升50％，则各站站间行驶时间变为τ₁＝0.13，τ₂＝0.13，τ₃＝0.2，τ₄＝0.7(h)。实验结果如图10。

可以看出，在公交提速的条件下，通勤者的出发时间分布更为集中，也就是说，从时间维度上看，公交提速政策让早高峰通勤更加“拥挤”了。在公交提速的条件下，班次[7，-1]的载客人数均大于或等于不提速条件下的载客人数，而其余班次的载客人数较不提速条件下有所减少。这似乎有悖于常理，公交提速政策旨在提高公交运行效率，诸多城市如北京、广州、深圳、济南也实施各种交通措施或建设公交专用道用以提高高峰时城市公交车的运行速度，以期达到缓解高峰拥堵的目的。但本文的实验结果显示，当公交车运行速度提升后，通勤者的出发时间选择更为集中，更容易造成拥堵。从各车次所载乘客的平均通勤成本(如图11所示)来看，公交提速政策降低了乘客的通勤成本，其中越是上游的乘客受到的影响越大。显然，公交提速确实达到了降低通勤者成本的作用，这与我们的预期一致，那又是为何在公交提速的条件下，通勤者的出发时间更为集中呢？

要解释此现象，需从通勤成本的构成角度入手，由公式(17)，通勤者每次通勤成本的计算由旅行时间成本αTⁱ、拥挤成本早/迟到延误成本δ(j)三部分组成。当公交提速之后，站间行车时间得到缩短，由此通勤者的旅行时间成本得到降低，同理，由式(6)可知计算过程中，在载客人数相同的前提下，站间行车时间越短，则拥挤成本也越小。这样相当于降低了这两方面成本对均衡的影响，而早/迟到延误成本并不直接受到提速政策的影响，从而使得通勤者没那么在意拥挤，而会更加在意选择合适的班次以减少早/迟到延误，即尽量准时地到达上班地点，从而导致通勤者的出发时间分布更为集中。这样的现象给我们带来关于公交提速政策的新的思考，无疑地，在高峰时段让公交车运行速度提升起来能节约公交出行者的出行时间，这既能提高公交通勤者的满意度，从宏观层面而言也体现了“公交优先”的发展战略。但它对通勤者出发时间分布并不具有“错峰”或者“平峰”等正面作用，相反，公交提速会让通勤者的出发时间更为集中，从而可能会对公交系统的运能造成更大的冲击，这种影响是交通政策制定者需要关注和思考的。

Claims

1.一种基于多智能体仿真的城市公共交通政策分析平台，其特征是，由大规模自治Agent松散藕合所构成，形成多Agent系统(Multi-Agent System，MAS，)，通勤者Agent代表在早高峰有出勤需求的居民，其基本行为模式为在每个仿真天内乘坐公交车至工作区上班，结束通勤后衡量此次通勤的成本，更新经验库和知识；系统包括如下几个主要模块：

记忆存储模块：用于保存和提取历史通勤信息；

成本衡量模块：结合环境感知模块计算通勤成本；

学习机制：采用基于Agent的Bush-Mosteller算法；

2.如权利要求1所述的基于多智能体仿真的城市公共交通政策分析平台，其特征是，基于Bush-Mosteller的通勤者学习机制包括：

1)采用Bush-Mosteller强化学习模型；

2)策略学习机制

3)刺激计算规则

在BM标准模型中，刺激s_a的计算方式公式如下：

s_{a} = \frac{c_{a} - A}{s u p [| c_{m a x} - A |, | c_{\min} - A |]}

公式(1)

其中

c_a—策略a相对应的平均通勤

A—通勤者对此次通勤成本的期望

c_max—该通勤者的历史最高通勤成本

c_min—该通勤者的历史最低通勤成本

4)概率更新过程

p_{a, t + 1} = \{\begin{matrix} p_{a, t} + (1 - p_{a, t}) {ls}_{a, t} & s_{a, t} &GreaterEqual; 0 \\ p_{a, t} + p_{a, t} {ls}_{a, t} & s_{a, t} < 0 \end{matrix} a &Element; T

公式(2)

对于未被选择的策略，其对应的概率更新规则如下：

p_{o t h e r, t + 1} = \{\begin{matrix} p_{o t h e r, t} (1 - {ls}_{a, t}) & s_{a, t} &GreaterEqual; 0 \\ p_{o t h e r, t} (1 - \frac{p_{a, t} {ls}_{a, t}}{1 - p_{a, t}}) & s_{a, t} < 0 \end{matrix} o t h e r &Element; T and o t h e r &NotEqual; a

公式(3)。

3.如权利要求1所述的基于多智能体仿真的城市公共交通政策分析平台，其特征是，采用在参数一致的情况下对比经典解析结果的方法，检验多Agent系统模型的正确性：采用Tian模型作为验证多Agent方法适用性的基准模型，在Tian的模型中，通勤者被假定为是同质的，并且对整个早高峰通勤状况具有完备信息，首先采用与其一致的假定条件和参数设置进行实验，从H_i站出发，选择乘坐班车j的通勤者的总成本用如下公式计算：

{TC}_{j}^{i} = p_{i} + C_{j}^{i} + {αT}^{i} + δ (j)

公式(4)

C_{j}^{i} = Σ_{s = i}^{K} g (Σ_{m = 1}^{s} n_{j}^{m}) τ_{s}

公式(5)

式(4)中的第四项δ(j)表示通勤者乘坐班车j所获得的延误惩罚成本，这里延误惩罚成本的定义与Vickrey的瓶颈模型一致，模型中用T＝{ξ,...,2,1,0,-1,-2,...,-ζ}表示所有公交车的集合，ξ和ζ取足够大以确保所有通勤者均能在整个交通高峰阶段完成通勤，假定只有一辆公交车是在上班时间时刻准时到达工作区W的，用0表示，由此，j＞0表示在上班时间之前就到达W的公交班次，早到的时间即j×t，其中t为公交车发车间隔，j＜0表示在上班时间点之后到达W的公交班次，迟到时间为-j×t，δ(j)的计算如式(6)：

δ (j) = \{\begin{matrix} β j t, & j > 0 \\ 0, & j = 0 \\ - γ j t, & j < 0 \end{matrix}

公式(6)

达到均衡时通勤者出发时间分布满足满足四点性质：