CN113377030B

CN113377030B - 一种路口信号控制模型的确定方法和相关装置

Info

Publication number: CN113377030B
Application number: CN202110922454.4A
Authority: CN
Inventors: 由长喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-10-29
Anticipated expiration: 2041-08-12
Also published as: CN113377030A

Abstract

本申请实施例公开了一种路口信号控制模型的确定方法和相关装置，通过确定出的路口信号控制模型可以应用于智慧交通、车路协同、地图等领域，以提供实际路网中路口信号灯的自动化控制。针对需要进行自动化信号灯控制的目标路网区域，可以基于该目标路网区域封装成n个仿真器，分别独立的通过信号灯控制指令集进行目标路网区域中的交通仿真，实现m个路口进行同步仿真，提高了单个仿真器的交通仿真效率，而且可以消除各路口异步决策带来的干扰。由于不同的仿真器都是独立进行交通仿真的，相当于并行了n次交通仿真，加快了仿真数据的生成，可以快速得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程。

Description

一种路口信号控制模型的确定方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种路口信号控制方法和相关装置。

背景技术

交通路口的信号灯的信号控制是实现交通路网通畅的要素之一。使用人工智能来实现合理的路口信号控制是目前一大难题，尤其是当城市规模越来越大，城市人口车辆保有率的不断提高的现实情况，对路口的信号控制要求也越来越高。

一些相关技术中，主要通过简单规则所搭建的控制模型来实现路口的信号控制。

然而，由于人为设置规则上的局限，相关技术中的控制模型精度不足，导致对路口的信号控制效率并不理想。

发明内容

为了解决上述技术问题，本申请提供了一种路口信号控制模型的确定方法和相关装置，可以在较短的时间内得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种路口信号控制模型的确定方法，所述方法包括：

确定目标路网区域，所述目标路网区域包括m个路口，所述目标路网区域被配置有分别对所述目标路网区域进行交通仿真的n个仿真器，n>1，m>1；

获取分别对应所述n个仿真器的信号灯控制指令集，所述信号灯控制指令集包括分别对应所述m个路口的信号灯控制指令；

通过所述n个仿真器，分别根据对应的信号灯控制指令集生成对所述目标路网区域的n组仿真交通数据和n组奖励参数，所述仿真交通数据和所述奖励参数分别用于标识所对应仿真器在通过所述信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数和路口车辆等待参数；

根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型。

另一方面，本申请实施例提供了一种路口信号控制模型的确定装置，所述装置包括确定单元、获取单元、生成单元和训练单元：

所述确定单元，用于确定目标路网区域，所述目标路网区域包括m个路口，所述目标路网区域被配置有分别对所述目标路网区域进行交通仿真的n个仿真器，n>1，m>1；

所述获取单元，用于获取分别对应所述n个仿真器的信号灯控制指令集，所述信号灯控制指令集包括分别对应所述m个路口的信号灯控制指令；

所述生成单元，用于通过所述n个仿真器，分别根据对应的信号灯控制指令集生成对所述目标路网区域的n组仿真交通数据和n组奖励参数，所述仿真交通数据和所述奖励参数分别用于标识所对应仿真器在通过所述信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数和路口车辆等待参数；

所述训练单元，用于根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型。

另一方面，本申请实施例提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面中所述的路口信号控制模型的确定方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面中所述的路口信号控制模型的确定方法。

由上述技术方案可以看出，针对需要进行自动化信号灯控制的目标路网区域，可以基于该目标路网区域封装成n个仿真器，分别独立的进行目标路网区域中的交通仿真。交通仿真过程中，获取分别对应n个仿真器的信号灯控制指令集，针对一个仿真器所对应的信号灯控制指令集中包括分别对应目标路网区域的m个路口的信号灯控制指令，这种指令集可以在整个目标路网区域的m个路口进行同步仿真，提高了单个仿真器的交通仿真效率，而且可以消除各路口异步决策带来的干扰，保障多个路口协同控制算法的模型训练。通过n个仿真器分别在各自的交通仿真场景中，基于对应的信号灯控制指令集对m个路口进行信号灯控制，并根据控制后的路口交通情况，n个仿真器分别生成n组仿真交通数据和n组奖励参数。由于不同的仿真器都是独立进行交通仿真的，相当于在目标路网区域中并行了n次交通仿真，加快了仿真数据的生成，即使目标路网区域中的路口较多，也能在较短时间内收集到足量的用于强化学习的仿真数据。根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，可以在较短的时间内得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种路口信号控制模型的确定场景示意图；

图2为本申请实施例提供的一种路口信号控制模型的确定方法的方法流程图；

图3为本申请实施例提供的一种路网子区域的划分示意图；

图4为本申请实施例提供的一种路口信号灯相位示意图；

图5为本申请实施例提供的一种基于相邻路口确定路口集合的示意图；

图6为本申请实施例提供的一种指令生成模型的结构示意图；

图7为本申请实施例提供的一种路口信号控制模型的确定系统示意图；

图8为本申请实施例提供的一种路口信号控制模型的确定装置的装置结构图；

图9为本申请实施例提供的一种终端设备的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

针对路网区域中路口的信号灯的自动化控制一直是相关技术中亟需解决的技术问题，目前所了解到的相关技术均难以合理的控制路网区域的信号灯，使得路网区域，尤其大路网区域的信号灯控制一直没有妥善的解决方案。

为此，本申请实施例提供了一种路口信号控制模型的确定方法，提高了单个仿真器的交通仿真效率，可以在较短的时间内得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程，可以快速的应用到智能交通领域中。

本申请实施例可以通过具有模型训练的计算机设备执行，该计算机设备可以是终端设备、服务器等。其中，终端设备具体可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例还涉及人工智能（Artificial Intelligence, AI），AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。在本申请中，主要涉及机器学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习（ReinforcementLearning，RL）、迁移学习、归纳学习、式教学习等技术。

例如，在本申请实施例中涉及了强化学习的方式。利用n个仿真器产生的n组仿真交通数据和n组奖励参数对初始模型进行强化学习，得到用于对目标路网区域进行实际信号灯控制的网络模型。

如图1所示的应用场景中，为了便于说明，目标路网区域简化的如图1所示，该目标路网区域包括了m=16个路口，其中一个路口例如图1所示。并示例性将服务器100作为前述的计算机设备进行说明。

针对该目标路网区域，为其配置了n个仿真器，每个仿真器中独立用于对目标路网区域进行交通仿真，以便快速获取足够强化学习的仿真数据（例如仿真交通数据和奖励参数等）。该n个仿真器可以由服务器100配置，也可以由其他设备配置。

将每个仿真器分别作为一个服务器（server），部署在一台或多台服务器中。仿真器可以基于获取的信号灯控制指令集，控制仿真环境中目标路网区域的m个路口的信号灯状态，并基于信号灯状态对目标路网区域中的仿真车辆进行行驶控制，例如红灯时停止，绿灯时行驶，黄灯时缓行等。针对一个仿真器所对应的信号灯控制指令集中包括分别对应目标路网区域的m个路口的信号灯控制指令，这种指令集可以在整个目标路网区域的m个路口进行同步仿真，提高了单个仿真器的交通仿真效率。

由于每个仿真器都是独立进行仿真的，故虽然n个仿真器均是针对同一个区域，即目标路网区域的交通仿真，但是随着仿真进程或者仿真环境中车辆的初始位置的不同，每个仿真器中对目标路网区域的仿真交通情况可能不尽相同，甚至大相径庭。由此n个仿真器在基于对应的信号灯控制指令集（例如图1中仿真器2对应的是信号灯控制指令集2）进行信号灯控制后，不同仿真器生成的仿真交通数据和奖励参数可能不同，也可能完全不同，相当于n个仿真器在目标路网区域中并行了n次交通仿真，加快了仿真数据的生成，即使目标路网区域中的路口较多，也能在较短时间内收集到足量的用于强化学习的仿真数据。

根据n个仿真器根据信号灯控制指令集1~n分别生成的仿真交通数据1~n和奖励参数1~n，为初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型。快速、并行生成的仿真交通数据和奖励参数将会大大提升该网络模型的强化学习速度，可以在较短时间内得到能够有效控制目标路网区域的网络模型，加速智慧交通的覆盖面。

接下来，以服务器作为前述计算机设备，对本申请实施例进行说明。图2为本申请实施例提供的一种路口信号控制模型的确定方法的方法流程图，所述方法包括：

S201：确定目标路网区域，所述目标路网区域包括m个路口。

其中，所述目标路网区域被配置有分别对所述目标路网区域进行交通仿真的n个仿真器，n>1，m>1。

目标路网区域是具有通过网络模型进行自动化信号灯控制的区域，以实现信号灯控制的智慧交通。该目标路网区域可以是一个完整的路网范围，也可以是从一个大路网区域中划分出的一部分，本申请对此不做限定。

在一种可能的实现方式中，服务器确定待控制的大路网区域。根据划分规则对所述大路网区域进行子区域划分得到多个路网子区域，并将所述多个路网子区域中的任意一个作为所述目标路网区域。

该大路网区域可以包括大量路口的大型路网，例如区域级、城市级的路网区域。

对大路网区域进行路网切割或划分的目的是降低仿真难度。作为一个事实，模型的训练需要依赖足够的仿真车流（i.e.,模拟拥堵工况），当仿真路口和仿真车辆增多时，仿真复杂度和耗时往往呈非线性增长。因此，一个有效的解决办法是针对交通仿真问题，将大路网拆解成一系列局部区域，以路网子区域（目标路网区域）为单位进行模型强化学习。

在本申请中，路网子区域划分依据可以包括路口几何关系（比如距离），信号灯控制周期，交通流特征（i.e.,车辆OD分布）等。在一种可能的实现方式中，本申请实施例还提供了一种划分规则，即通过仿真器的加速性能对大路网进行路网子区域的划分。该加速性能具体视仿真软件和训练时间成本而定，例如15-30倍的加速能力，保证仿真过程的足够平顺高效。

由于采用多智能体协同控制的强化学习方法，路口协同能力主要通过模型训练自动实现，故路网子区域划分不要求特别精细，路网子区域的范围也允许更大（i.e.,50-100个路口划为一个路网子区域）。比如，可以按行政区域将地理上相邻的50-100个路口划分为一个路网子区域。例如图3所示的路网子区域的划分方式，将大路网区域中每100个路口划分为一个路网子区域，图3示出了路网子区域1~3。

服务器针对确定出的目标路网区域，可以分别配置n个仿真器。本申请不限定仿真器的类型，例如本申请实施例提供了基于谷歌远端程序调用系统（google remoteprocedure calls，gRPC）将仿真器包装成仿真服务器，以实现仿真器的多机并行远程调用。

应用于强化学习的仿真器一般需要实现3个主要函数，即 init, reset 和step,其中init用于仿真环境的初始化，reset用于仿真环境的重启/重置，step为仿真器的主体函数，定义仿真器的单步仿真调用，一般用来接收外部的command/action进行单步仿真并返回必要的环境测量值。

在仿真器（server）内部可以使用SUMO（Simulation of Urban Mobility，一款开源微观交通流仿真软件）来构建交通流仿真平台以及模拟目标路网区域中的车辆行为，通过SUMO提供的交通接口（Traci API）来控制交通仿真环境的信号灯状态并访问路口交通仿真数据。

可选的，可以设计信号灯单步决策时间为T=15秒，仿真过程中如果涉及绿灯向红灯转换，则首先保持黄灯时间为5秒。每个仿真周期（episode）持续时间为3600秒。当一个server进行持续仿真时间达到一个episode时，将执行reset函数重置SUMO的交通仿真环境并重新开始交通仿真的计时。

gRPC server与客户端（client）的连接方式既支持unix域套接字（unix domainsocket，UDS）形式，也支持TCP/IP形式。例如采用IP：port的格式指定server的连接通道，其中IP为server所在IP地址， port为指定端口，便于跨机器启动和访问不同的server。

由于不同的仿真器都是独立进行交通仿真的，相当于在目标路网区域中并行了n次交通仿真，加快了仿真数据的生成，即使目标路网区域中的路口较多，也能在较短时间内收集到足量的用于强化学习的仿真数据。

S202：获取分别对应所述n个仿真器的信号灯控制指令集。

其中，所述信号灯控制指令集包括分别对应所述m个路口的信号灯控制指令。

由于目标路网区域包含多个作为被控对象的信号灯，服务器为了提高仿真器的效率，将目标路网区域内所有信号灯控制指令进行联合，得到信号灯控制指令集，或者称为联合指令（joint-action）作为仿真服务器的step函数的输入，使用所有路口的n组仿真交通数据，或者称为联合状态（joint-state）和n组奖励参数，或者称为联合奖励（joint-reward）等作为step/reset函数的输出。可以基于Protocol Buffers将joint-action，joint-state和joint-reward定义成嵌套数组（nested array）类消息，便于多路口不同数据的传输和表达。

也就是说，对应一个仿真器有一个信号灯控制指令集，该信号灯控制指令集中包括m个信号灯控制指令，分别与该仿真器的仿真交通环境中的m个路口一一对应。由于仿真器的仿真交通环境有所不同，故n个仿真器的信号灯控制指令集中对应同一个路口的信号灯控制指令有可能相同，也可能不同。

信号灯控制指令用于指示该仿真器对该信号灯控制指令所对应路口的信号灯进行信号灯状态的控制，该信号灯状态可以包括信号灯相位的切换、保持等，还可以包括信号灯的颜色等。

一个路口的信号灯相位可以标识该路口中信号灯亮红绿黄中哪一个灯，也可以标识在该路口处信号灯所亮灯的通行规则下，该路口在哪些方向上是允许通行的。

例如，本申请实施例可以将一个路口的信号灯相位序列（action set）定义为

, keep表示继续维持当前相位，next表示采取相位序列中当前相位的下一个相位作为下一时刻的目标相位。信号灯的相位序列可以预先定义，例如一个经典的四相位信控方案可按如下相位序列进行相位循环变换：①→②→③→④，其中，①②③④的含义可以参见图4：①东西直行，②东西左转，③南北直行，④南北左转，⑤由西向东全部放行，⑥由东向西全部放行，⑦由南向北全部放行，⑧由北向南全部放行。

除了上述循环变换，还可以从图4示出的八种相位中选择更多、更丰富的相位序列，本申请对此不做限定。而且，除了上述预设相位序列的方式外，本申请实施例还提供了其他可以考虑的设计思路，例如采用分层强化学习的方法定义多种相位时序方案进行分层模型优化，融合多套预设信控时序方案。又例如目标子集法，定义目标行为子集作为下一时刻可以选择的目标相位，增加相位切换时序的多样性。更多设计方法不一一赘述。

S203：通过所述n个仿真器，分别根据对应的信号灯控制指令集生成对所述目标路网区域的n组仿真交通数据和n组奖励参数。

其中，一个仿真器生成对所述目标路网区域的一组仿真交通数据和一组奖励参数。所述仿真交通数据和所述奖励参数分别用于标识所对应仿真器在通过所述信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数和路口车辆等待参数。

由于通过信号灯控制指令可以控制仿真交通环境中路口的信号灯相位，使得仿真交通环境中的车辆可以在信号灯相位允许的行驶方向上通行，从而得到m个路口的路口车辆状态参数和路口车辆等待参数。

在一种可能的实现方式中，以所述m个路口中的第i个路口为单位，对任意一个仿真器输出的仿真交通数据和奖励参数进行说明。

在仿真器通过所述信号灯控制指令集中对应所述第i个路口的信号灯控制指令的仿真控制后，所述方法还包括：

根据所述第i个路口的信号灯状态，以及根据处于所述第i个路口的车队长度、车辆等待时间或平均车速中的至少一项确定所述第i个路口在所述仿真交通数据中对应的子仿真数据。

根据处于所述第i个路口的车队长度或车辆等待时间中的至少一项确定所述第i个路口在所述奖励参数中对应的子参数。

首先针对子仿真数据进行说明：

在本申请实施例中，第i个路口的信号灯状态，或者说在对应信号灯控制指令的控制后，当前的信号灯相位作为描述路口状态的必要特征，比如在图4示出的可选相位范围，

表示路口k（例如第i个路口）当前信号灯相位是前述的相位④。

除此之外，还可以考虑用于描述一个路口的交通状态（state）的一系列特征（feature）。对于路口k，使用路口k每个驶入车道的排队长度、平均车速、最大等待时间来描述路口k的特征。假如用

表示路口k所有驶入车道的集合，则路口k的交通状态

, 其中

分别表示车道

的车队长度，首车等待时间和平均车速。

当第i个路口（例如前述路口k）的子仿真数据考虑到了处于所述第i个路口的车队长度、车辆等待时间和平均车速，则描述路口k完整状态的子仿真数据可以用

表示。

首先针对子参数进行说明：

对于第i个路口例如路口k，我们关心的是路口k的整体排队长度和延误时间，则路口k在奖励参数中的子参数可以定义为

,其中α是等待时间的权重系数。

需要指出的是，目标路网区域的不同路口均可采用不同的奖励参数优化指标，甚至在不同的仿真器中，同一个路口也可以设定不同的奖励参数优化指标。

为了实现在目标路网区域的各个路口间的协同控制作用，针对m个路口中的每一个路口，除了需要考虑本路口的相关交通特征，还需要考虑附近相邻路口的交通特征，从而才能更好的在目标路网区域中进行信号灯的协同控制。

在一种可能的实现方式中，所述方法还包括：

根据所述目标路网区域的路网拓扑，确定所述第i个路口的相邻路口，并将所述第i个路口和所述相邻路口确定为第i个路口集合；

所述根据所述第i个路口的信号灯状态，以及根据处于所述第i个路口的车队长度、车辆等待时间或平均车速中的至少一项确定所述第i个路口在所述仿真交通数据中对应的子仿真数据，包括：

根据所述第i个路口的信号灯状态，以及根据所述第i个路口集合的车队长度、车辆等待时间或平均车速中的至少一项确定所述第i个路口的所述子仿真数据。

所述根据处于所述第i个路口的车队长度或车辆等待时间中的至少一项确定所述第i个路口在所述奖励参数中对应的子参数，包括：

根据处于所述第i个路口集合的车队长度或车辆等待时间中的至少一项确定所述第i个路口在所述奖励参数中对应的子参数。

首先基于图5说明第i个路口的相邻路口的含义。

路口A为第i个路口时，与其路网直接相连，且距离较近的路口B、路口C、路口D和路口E可以作为路口A的相邻路口。可以将路口A、路口B、路口C、路口D和路口E确定为第i个路口集合，即路口A的路口集合。

那么在考虑到第i个路口的相邻路口后，第i个路口在所述仿真交通数据中对应的子仿真数据可以记为V_k，用N_k表示第i个路口集合，则：

相应的，第i个路口在所述奖励参数中对应的子参数可以记为R_k，则：

其中，β为距离系数，d(k,j)为路口j到路口k（第i个路口）的距离（graphdistance）。为了简化计算量，d(k,j)可以为：

在明确了上述提及的信号灯指令集、仿真交通数据和奖励参数后，结合前述任意一个仿真服务器的step函数的输入：信号灯控制指令集，或者称为联合指令（joint-action），仿真服务器的输出：仿真交通数据，或者称为联合状态（joint-state）和奖励参数，或者称为联合奖励（joint-reward）进行说明。

将目标路网区域的仿真器内全部信号灯路口的输入、输出包装成一个嵌套数组（nested array），分别定义joint-action，joint-state和joint-reward如下：

其中K_z表示目标路网区域中所有路口的集合。作为目标路网区域对应的仿真器的主体功能，其在每个仿真步骤（step）接收外部客户端（client）传来的信号灯控制指令集

，并返回目标路网区域的联合状态和联合奖励：

和

。需要指出的是，仿真器的返回值不局限于

和

，可以根据需求、场景设计更多的返回值，此处不再展开。

S204：根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型。

本申请实施例不限定通过强化学习所得到网络模型的数量，该网络模型的数量可以与路口类型（例如十字路口、丁字路口等）具有对应关系，从而可以在同类型的路口使用同一个网络模型进行信号灯控制。

或者网络模型也可以与目标路网区域中的路口一一对应。在一种可能的实现方式中，所述网络模型具有m个，与所述m个路口为一一对应关系。

这种一一对应的方式的好处在于，由于目标路网区域中不同路口的路况、车流量等可能有很大差别，甚至同一类型的路况在不同地理位置也会有迥然不同的车流量。故为了进一步提高信号灯控制精度，可以在训练时就配置于m个路口一一对应的m个初始模型，在训练第i个路口对应的初始模型时，可以将n个仿真器中与第i个路口相关的仿真交通数据和奖励参数作为该初始模型的强化学习依据，从而得到适配与第i个路口的网络模型。

在确定出该网络模型后，将该网络模型应用于目标路网区域的路口信号灯控制。由于通过前述的交通仿真和迭代训练，使得该网络模型能够有效的应对目标路网区域中可能出现的各种交通场景，并在不同交通场景下合理的控制目标路网区域中m个路口的信号灯相位，实现在目标路网区域中的高效交通流转。

由此可见，针对需要进行自动化信号灯控制的目标路网区域，可以基于该目标路网区域封装成n个仿真器，分别独立的进行目标路网区域中的交通仿真。交通仿真过程中，获取分别对应n个仿真器的信号灯控制指令集，针对一个仿真器所对应的信号灯控制指令集中包括分别对应目标路网区域的m个路口的信号灯控制指令，这种指令集可以在整个目标路网区域的m个路口进行同步仿真，提高了单个仿真器的交通仿真效率。通过n个仿真器分别在各自的交通仿真场景中，基于对应的信号灯控制指令集对m个路口进行信号灯控制，并根据控制后的路口交通情况，n个仿真器分别生成n组仿真交通数据和n组奖励参数。由于不同的仿真器都是独立进行交通仿真的，相当于在目标路网区域中并行了n次交通仿真，加快了仿真数据的生成，即使目标路网区域中的路口较多，也能在较短时间内收集到足量的用于强化学习的仿真数据。根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，可以在较短的时间内得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程。

接下来结合强化学习的多个强化学习阶段，进一步说明如何强化学习和信号灯控制指令集的生成。

在一种可能的实现方式中，所述方法还包括：

基于所述初始模型，通过所述多个强化学习阶段的前j个强化学习阶段得到第一中间模型，并将所述第一中间模型作为指令生成模型（actor model）。

也就是说，服务器需要通过多个强化学习阶段才能完成将初始模型训练到网络模型。通过一个强化学习阶段的强化学习，可以在上一个强化学习阶段得到的中间模型的参数基础上，通过调整模型参数得到完成本次强化学习阶段对应的中间模型。

第一中间模型为第j个强化学习阶段完成后得到的中间模型，j≥1。每经过一个强化学习阶段，相当于对中间模型的模型参数更新了一个版本。

在第j个强化学习阶段完成后，将得到的第一中间模型作为指令生成模型，用于在第j+1个强化学习阶段完成前，为n个仿真器持续提供所需的信号灯控制指令集。

在强化学习过程中，可以参照如下公式在每一个强化学习阶段进行模型训练：

其中，

为期望，s_t描述t时刻仿真器的状态，π为policy函数（i.e.,一个神经网络），R为仿真器执行行为π(s_t)获得的收益，0<γ<1是折扣系数，当仿真器运行的时间越长，收益对结果的影响越小。

针对所述交通仿真中的第k次信号灯控制指令集，在一种可能的实现方式中，针对S202，包括：

根据所述n个仿真器第k-1次生成的n组仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集。

其中，第k-1次生成的n组仿真交通数据用于标识所述n个仿真器在通过第k-1次信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数。

也就是说，在每一次生成的信号灯控制指令集的仿真控制下，n个仿真器都会生成对应该次信号灯控制指令集的n组仿真交通数据。在第k次信号灯控制指令集生成后，可以对n个仿真器继续进行仿真控制，得到第k次生成的n组仿真交通数据，以此类推。

例如，每一个路口的控制器视为一个agent, agent的控制器输出为一个定义在控制序列（action set）上的概率分布，即控制策略（policy）。为方便起见，本本申请实施例将action set定义为

, keep表示继续维持当前相位，next表示采取相位序列中当前相位的下一个相位作为下一时刻的目标相位。

用π_k表示路口k当前输出的信号灯状态，路口k下一时刻采取的信号灯状态或者信号灯相位服从分布：

，

指令生成模型的结构例如可以参见图6，其中作为模型输入的是第k-1次生成仿真交通数据，图示中包括了车队长度（queues）、首车等待时间（waits）、平均车速（speeds）和信号灯相位（phases）。通过全连接层（fully connected layers，FC）和长短期记忆（LSTM，Long Short-Term Memory）网络层，可以输出actor和critic，其中，对于actor 分支，输出层使用softmax激活函数获取目标policy，即信号灯控制指令；对于critic 分支，则是单点输出作为value估计，可以用于模型训练。

针对所述m个路口中的第i个路口，在一种可能的实现方式中，针对S202，包括：

S2021：根据所述第i个路口在所述n个仿真器第k-1次生成的n组仿真交通数据中分别标识的信号灯状态，通过所述指令生成模型得到在信号灯相位序列中的概率分布。

需要注意的是，所述信号灯相位序列包括根据所述第i个路口的路口类型确定的多个信号灯相位。该多个信号灯相位可以是预先设置的，也可以是基于其他方式确定的。具体可以参见图4对应的实施例，而且，除了上述预设相位序列的方式外，本申请实施例还提供了其他可以考虑的设计思路，例如采用分层强化学习的方法定义多种相位时序方案进行分层模型优化，融合多套预设信控时序方案。又例如目标子集法，定义目标行为子集作为下一时刻可以选择的目标相位，增加相位切换时序的多样性。

S2022：根据所述概率分布，从所述多个信号灯相位中确定目标信号灯相位，并基于所述目标信号灯相位生成所述第k次信号灯控制指令集中对应所述第i个路口的信号灯控制指令。

接下来说明本申请实施例提供的基于中间模型对指令生成模型的更新过程。

在一种可能的实现方式中，所述方法还包括：

通过第j+1个强化学习阶段，对所述第一中间模型进行参数调整得到第二中间模型，将所述第二中间模型更新为所述指令生成模型。

也就是说，每过一个强化学习阶段（未得到网络模型前），服务器都会基于上一阶段的中间模型更新得到本阶段的中间模型，例如将第j个强化学习阶段得到的第一中间模型，通过第j+1个强化学习阶段更新第一中间模型的模型参数，得到第二中间模型。

在确定出新的中间模型后，服务器可以将其进行备份为指令生成模型，从而实现对指令生成模型的更新，例如从第一中间模型更新为第二中间模型。使得在交通仿真过程中，n个仿真器得到的信号灯控制指令集随着指令生成模型的更新而越来越准确。

接下来通过对基于第j+1个强化学习阶段，将第一中间模型更新为第二中间模型的方式说明，以此为例说明每个强化学习阶段的训练方式。

在一种可能的实现方式中：

在第j+1个强化学习阶段，根据在目标时间周期内所述n个仿真器生成的仿真交通数据和奖励参数生成经验数据包。

通过所述经验数据包对所述第一中间模型进行强化学习，得到所述第二中间模型。

需要注意的是，n个仿真器会基于持续获取的信号灯控制指令集不断的生成仿真交通数据和奖励参数。为了提高强化学习的效率，可以基于目标时间周期U，将在第j+1个强化学习阶段内，处于同一个目标时间周期的仿真交通数据和奖励参数打包生成一个经验数据包（batch）。该目标时间周期可以是预先设置的，所标识的时长内，每个仿真器可以接收多次信号灯控制指令集，并生成多次仿真交通数据和奖励参数，本申请不限定该目标时间周期的大小。

该经验数据包中包括了n个仿真器中在目标时间周期内生成的多次仿真交通数据和奖励参数，不仅涵盖了目标路网区域的不同仿真交通环境，而且针对每个仿真交通环境的仿真交通数据和奖励参数还能额外体现出时序性的变化特征，使得经验数据更为完整，有利于推进强化学习的进度。

为了进一步丰富经验数据包中经验数据，在一种可能的实现方式中，在第j+1个强化学习阶段，根据在目标时间周期内所述n个仿真器生成的仿真交通数据和奖励参数，以及所述第一中间模型生成的信号灯控制指令集生成所述经验数据包。

也就是说，还可以将指令生成模型在目标时间周期内生成的信号灯控制指令集也加入到经验数据包中，这样做的好处在于，加入的信号灯控制指令集可以将仿真交通数据和奖励参数之间能建立起关联，例如在目标时间周期内，指令生成模型第k次生成的信号灯控制指令集是基于n个仿真器在第k+1次生成的信号灯控制指令集的仿真控制下生成的仿真交通数据得到的，而n个仿真器将会在第k词生成的信号灯控制指令集的仿真控制下继续生成对应的仿真交通数据。

由此通过信号灯控制指令集将n个仿真器前后两次生成的仿真交通数据建立起关联，同理，也可以基于信号灯控制指令集建立起前后两次生成的奖励参数间的关联。

在对初始模型进行强化学习和通过指令生成模型生成信号灯控制指令集的过程中，可以通过队列和线程的方式提高效率。

在前述实施例的基础上，在一种可能的实现方式中，所述方法还包括：

将所述经验数据包放入用于排列经验数据包的学习队列中；相应的，将所述n个仿真器生成的所述n组仿真交通数据和所述n组奖励参数加入到推断队列中。

也就是说，为了便于缓存n个仿真器的输出数据，以及为了便于强化学习和信号灯控制指令的生成，本申请实施例提供了两种队列，一种是用于缓存仿真交通数据和奖励参数的推断队列（inference queue），一种是用于缓存经验数据包的学习队列（learnerqueue）。

为了提高效率，通过推断线程（inference thread）从推断队列中提取仿真交通数据，控制指令生成模型基于提取的仿真交通数据生成信号灯控制指令集，并通过学习线程（learner thread）从学习队列中提取经验数据包，基于经验数据包对中间模型进行强化学习。

在一种可能的实现方式中，前述通过所述经验数据包对所述第一中间模型进行强化学习，得到所述第二中间模型，包括：

基于多个学习线程从所述学习队列中提取经验数据包，通过所述经验数据包对所述第一中间模型进行强化学习，得到所述第二中间模型。

在一种可能的实现方式中，前述根据所述n个仿真器第k-1次生成的n组仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集，包括：

基于多个推断线程从所述推断队列中提取所述n个仿真器第k-1次生成的n仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集。

其中，学习线程和推断线程的数量，以及仿真器的数量n均可以基于系统资源和问题规模进行适应性的设计，本申请对此不进行限定。

接下来，通过实际应用场景继续说明本申请实施例提供的路口信号控制模型的确定方法，具体请参见图7。

在本实施例中，以IMPALA（Importance Weighted Actor-Learner Architecture,一种分布式强化学习方法）为强化学习的方式进行示例介绍。IMPALA可以用于分布式训练，通过定义/启动多个仿真服务器（server，也记为仿真器）实现并行的交通仿真，增加仿真交通数据的获取效率。为实现多线程并行训练，往往需要进行线程间的内存/变量共享。

首先，基于图7示出的内容进行以下定义：

1）中间模型（Learner models）: 针对目标路网区域，将所有的模型存为一个全局可访问的列表。Learner models 将在模型训练过程中得到参数优化，最终从初始模型训练得到网络模型。

2）指令生成模型（Actor models）: 针对目标路网区域，对每次强化学习阶段更新得到的learner models进行备份，Actor models将用来处理仿真服务器返回的仿真环境数据（例如仿真交通数据）并进行推理，计算下一时刻n个仿真服务器的仿真交通环境将要采取的信号灯控制指令集（目标action）。只有当Learner models被更新时，Actor models将同步更新，否则参数不变。

3）学习队列（learner queue）: 针对目标路网区域，维护一个全局的队列，用来存放完整的经验数据（经验数据包，batch），模型训练时不同学习线程将访问learner queue提取经验数据，据此计算模型参数梯度。

4）推断队列（inference queue）: 针对目标路网区域，维护一个全局的队列，用来存放从仿真服务器中获取的各类仿真数据（仿真交通数据和奖励参数）。仿真过程中，不同推断线程访问inference queue并控制指令生成模型进行推断，获得对应的信号灯控制指令集后传送给对应的仿真服务器进行下一步仿真。

5）学习线程（learner thread）: 用于处理3）的数据的线程，并控制对Learnermodels的强化学习，以优化模型参数。同时将更新得到的中间模型的模型参数同步给Actormodels。

6）推断线程（inference thread）：用于处理4）的数据的线程，控制Actor models进行推断。

7）客户端线程（client thread）: 与远程的仿真服务器一一对应进行交互，将从仿真服务器中获取的仿真数据存放到inference queue并等待inference thread进行推断，推断完毕后再将多个包含信号灯控制指令集的经验数据打包成一个经验数据包（batch），存入learner queue。

在图7示出的应用场景中，针对目标路网区域配置了n个远程仿真服务器，n个client thread，m个inference thread以及p个learner thread。其中m、n和p的取值可以根据系统资源与问题规模进行设计。

在图7中，当p个learner thread访问learner queue进行模型训练时，还需要设计相应的损失（loss）函数。以路口k为例，以learner queue中一个batch的经验数据包为单位，用于表示t时刻一个长度为U 的batch的经验数据为：

S_τ为τ时刻路口及其邻域的状态，u_τ为action，R_τ为执行u_τ获得的reward。本实施例设计U=80。IMPALA训练learner models神经网络首先需要计算V-trace，由下式给出：

其中，

分别表示learner model 的critic 分支和actor 分支的输出，θ表示神经网络模型参数,

，

,

为与

对应的actor model的actor分支输出，

为常数。则loss函数可以由下式给出：

其中

为value loss的权重系数。

本申请实施例可以应用于大规模城市路网（比如超过1000个路口）协同控制场景，采用并行训练的模式可以有效地加速数据的获取和训练过程。同时gRPC的使用允许向多机分布式训练进行进一步扩展，适合处理大规模问题。本申请实施例的执行效果可以有效的缓解区域内交通拥堵，减少车辆的停车次数，提高路口车辆通过率和车辆平均通行速度。

需要注意的是，本申请实施例不限定模型的结构等，包括状态定义，reward设计等均可以基于性能优化的目的涉及不同的实现方案。同时，对于目标路网区域中路口，为了便于说明，本申请实施例中仅举例展示一种固定时序的信控算法，着重介绍分布式训练的整体结构和线程设计，实际上路口的神经网络模型可进行更精细的设计，比如使用分层强化学习实现多方案的融合等，本申请在此不做限定。

图8为本申请实施例提供的一种路口信号控制模型的确定装置的装置结构图，所述确定装置800包括确定单元801、获取单元802、生成单元803和训练单元804：

所述确定单元801，用于确定目标路网区域，所述目标路网区域包括m个路口，所述目标路网区域被配置有分别对所述目标路网区域进行交通仿真的n个仿真器，n>1，m>1；

所述获取单元802，用于获取分别对应所述n个仿真器的信号灯控制指令集，所述信号灯控制指令集包括分别对应所述m个路口的信号灯控制指令；

所述生成单元803，用于通过所述n个仿真器，分别根据对应的信号灯控制指令集生成对所述目标路网区域的n组仿真交通数据和n组奖励参数，所述仿真交通数据和所述奖励参数分别用于标识所对应仿真器在通过所述信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数和路口车辆等待参数；

所述训练单元804，用于根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型。

在一种可能的实现方式中，所述强化学习包括多个强化学习阶段，所述训练单元还用于：

基于所述初始模型，通过所述多个强化学习阶段的前j个强化学习阶段得到第一中间模型，并将所述第一中间模型作为指令生成模型，j≥1；

针对所述交通仿真中的第k次信号灯控制指令集，所述获取分别对应所述n个仿真器的信号灯控制指令集，包括：

根据所述n个仿真器第k-1次生成的n组仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集，所述第k-1次生成的n组仿真交通数据用于标识所述n个仿真器在通过第k-1次信号灯控制指令集的仿真控制后，所述m个路口的路口车辆状态参数。

在一种可能的实现方式中，针对所述m个路口中的第i个路口，所述训练单元还用于：

根据所述第i个路口在所述n个仿真器第k-1次生成的n组仿真交通数据中分别标识的信号灯状态，通过所述指令生成模型得到在信号灯相位序列中的概率分布，所述信号灯相位序列包括根据所述第i个路口的路口类型确定的多个信号灯相位；

根据所述概率分布，从所述多个信号灯相位中确定目标信号灯相位，并基于所述目标信号灯相位生成所述第k次信号灯控制指令集中对应所述第i个路口的信号灯控制指令。

在一种可能的实现方式中，所述训练单元还用于：

通过第j+1个强化学习阶段，对所述第一中间模型进行参数调整得到第二中间模型；

将所述第二中间模型更新为所述指令生成模型。

在一种可能的实现方式中，所述训练单元还用于：

在第j+1个强化学习阶段，根据在目标时间周期内所述n个仿真器生成的仿真交通数据和奖励参数生成经验数据包；

在一种可能的实现方式中，所述训练单元还用于：

在第j+1个强化学习阶段，根据在目标时间周期内所述n个仿真器生成的仿真交通数据和奖励参数，以及所述第一中间模型生成的信号灯控制指令集生成所述经验数据包。

在一种可能的实现方式中，所述装置还包括排列单元：

所述排列单元，用于将所述经验数据包放入用于排列经验数据包的学习队列中；

所述训练单元还用于：

基于多个学习线程从所述学习队列中提取经验数据包，通过所述经验数据包对所述第一中间模型进行强化学习，得到所述第二中间模型；

所述方法还包括：

将所述n个仿真器生成的所述n组仿真交通数据和所述n组奖励参数加入到推断队列中；

在一种可能的实现方式中，针对所述m个路口中的第i个路口，在仿真器通过所述信号灯控制指令集中对应所述第i个路口的信号灯控制指令的仿真控制后，所述确定单元还用于：

根据所述第i个路口的信号灯状态，以及根据处于所述第i个路口的车队长度、车辆等待时间或平均车速中的至少一项确定所述第i个路口在所述仿真交通数据中对应的子仿真数据；

在一种可能的实现方式中，所述确定单元还用于：

根据所述第i个路口的信号灯状态，以及根据所述第i个路口集合的车队长度、车辆等待时间或平均车速中的至少一项确定所述第i个路口的所述子仿真数据；

在一种可能的实现方式中，所述确定单元还用于：

确定待控制的大路网区域；

根据划分规则对所述大路网区域进行子区域划分得到多个路网子区域，并将所述多个路网子区域中的任意一个作为所述目标路网区域。

在一种可能的实现方式中，所述网络模型具有m个，与所述m个路口为一一对应关系。

由此可见，针对需要进行自动化信号灯控制的目标路网区域，可以基于该目标路网区域封装成n个仿真器，分别独立的进行目标路网区域中的交通仿真。交通仿真过程中，获取分别对应n个仿真器的信号灯控制指令集，针对一个仿真器所对应的信号灯控制指令集中包括分别对应目标路网区域的m个路口的信号灯控制指令，这种指令集可以在整个目标路网区域的m个路口进行同步仿真，提高了单个仿真器的交通仿真效率，而且可以消除各路口异步决策带来的干扰，保障多个路口协同控制算法的模型训练。通过n个仿真器分别在各自的交通仿真场景中，基于对应的信号灯控制指令集对m个路口进行信号灯控制，并根据控制后的路口交通情况，n个仿真器分别生成n组仿真交通数据和n组奖励参数。由于不同的仿真器都是独立进行交通仿真的，相当于在目标路网区域中并行了n次交通仿真，加快了仿真数据的生成，即使目标路网区域中的路口较多，也能在较短时间内收集到足量的用于强化学习的仿真数据。根据所述n组仿真交通数据和所述n组奖励参数对初始模型进行强化学习，可以在较短的时间内得到用于对所述目标路网区域进行实际信号灯控制的网络模型，提高了对目标路网区域的自动化控制进程。

本申请实施例还提供了一种计算机设备，该计算机设备可以包括终端设备或者服务器，本申请实施例提供的路口信号控制模型的确定装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍，请参见图9所示的终端设备，并以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频（Radio Frequency，简称RF）电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真（Wireless Fidelity，简称WiFi）模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，简称LNA）、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，简称GSM）、通用分组无线服务（GeneralPacket Radio Service，简称GPRS）、码分多址（Code Division Multiple Access，简称CDMA）、宽带码分多址（Wideband Code Division Multiple Access，简称WCDMA）、长期演进（Long Term Evolution，简称LTE）、电子邮件、短消息服务（Short Messaging Service，简称SMS）等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图9中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490（比如电池），优选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

本申请实施例还提供一种服务器，请参见图10所示，图10为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，简称CPU）1522（例如，一个或一个以上处理器）和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530（例如一个或一个以上海量存储设备）。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图10所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器（英文：Read-only Memory，缩写：ROM）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种路口信号控制模型的确定方法，其特征在于，所述方法包括：

根据所述n组仿真交通数据和所述n组奖励参数对所述路口对应的初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型，所述初始模型用于根据输入的所述仿真交通数据和奖励参数得到对应的信号灯控制指令集。

2.根据权利要求1所述的方法，其特征在于，所述强化学习包括多个强化学习阶段，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，针对所述m个路口中的第i个路口，所述根据所述n个仿真器第k-1次生成的n组仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述第二中间模型更新为所述指令生成模型。

5.根据权利要求4所述的方法，其特征在于，所述通过第j+1个强化学习阶段，对所述第一中间模型进行参数调整得到第二中间模型包括：

6.根据权利要求5所述的方法，其特征在于，所述在第j+1个强化学习阶段，根据在目标时间周期内所述n个仿真器生成的仿真交通数据和奖励参数生成经验数据包，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述经验数据包放入用于排列经验数据包的学习队列中；

所述通过所述经验数据包对所述第一中间模型进行强化学习，得到所述第二中间模型，包括：

所述方法还包括：

所述根据所述n个仿真器第k-1次生成的n组仿真交通数据，通过所述指令生成模型得到第k次信号灯控制指令集，包括：

8.根据权利要求1-7任意一项所述的方法，其特征在于，针对所述m个路口中的第i个路口，在仿真器通过所述信号灯控制指令集中对应所述第i个路口的信号灯控制指令的仿真控制后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1-7任意一项所述的方法，其特征在于，所述确定目标路网区域，包括：

确定待控制的大路网区域；

11.根据权利要求1-7任意一项所述的方法，其特征在于，所述网络模型具有m个，与所述m个路口为一一对应关系。

12.一种路口信号控制模型的确定装置，其特征在于，所述装置包括确定单元、获取单元、生成单元和训练单元：

所述训练单元，用于根据所述n组仿真交通数据和所述n组奖励参数对所述路口对应的初始模型进行强化学习，得到用于对所述目标路网区域进行实际信号灯控制的网络模型，所述初始模型用于根据输入的所述仿真交通数据和奖励参数得到对应的信号灯控制指令集。

13.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-11中任意一项所述的路口信号控制模型的确定方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-11中任意一项所述的路口信号控制模型的确定方法。