CN114973698B

CN114973698B - 控制信息的生成方法和机器学习模型的训练方法、装置

Info

Publication number: CN114973698B
Application number: CN202210511715.8A
Authority: CN
Inventors: 王童; 肖骁; 田楚杰; 窦晓钦; 杨凡
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-04-16
Anticipated expiration: 2042-05-10
Also published as: CN114973698A

Abstract

本公开提供了一种控制信息的生成方法和机器学习模型的训练方法、装置，涉及人工智能领域，具体涉及智能交通、强化学习和深度学习技术领域。控制信息的生成方法的具体实现方案为：采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值；以及采用交通信号控制模型来根据目标参数的取值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的控制信息，其中，目标参数为交通信号控制模型中的超参数。

Description

控制信息的生成方法和机器学习模型的训练方法、装置

技术领域

本公开涉及人工智能领域，具体涉及智能交通、强化学习和深度学习技术领域，尤其涉及一种控制信息的生成方法和机器学习模型的训练方法、装置、电子设备、存储介质。

背景技术

交通在经济和社会发展中起着重要的作用。交通信号的控制是交通控制的重要手段之一。合理的交通信号控制可以将路网中有限的时间和空间资源有效地分配给各个走向的交通流，利于提高路网的使用效率。

发明内容

本公开旨在提供一种控制信息的生成方法和机器学习模型的训练方法、装置、电子设备和存储介质，以提高交通信号控制的精准度并降低车均延误时长。

根据本公开的一个方面，提供了一种控制信息的生成方法，包括：采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值；采用交通信号控制模型来根据目标参数的取值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的控制信息，其中，目标参数为交通信号控制模型中的超参数。

根据本公开的一个方面，提供了一种机器学习模型的训练方法，包括：采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型的目标参数的第一预测值；采用交通信号控制模型来根据目标参数的预测值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的第一预测控制信息；以及根据车辆针对第一预测控制信息的第一行驶数据，对机器学习模型进行训练，其中，目标参数为交通信号控制模型中的超参数。

根据本公开的一个方面，提供了一种控制信息的生成装置，包括：参数取值获得模块，用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值；以及控制信息获得模块，用于采用交通信号控制模型来根据目标参数的取值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的控制信息，其中，目标参数为交通信号控制模型中的超参数。

根据本公开的一个方面，提供了一种机器学习模型的训练装置，包括：第一取值获得模块，用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型的目标参数的第一预测值；第一控制信息获得模块，用于采用交通信号控制模型来根据目标参数的预测值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的第一预测控制信息；以及模型训练模块，用于根据车辆针对第一预测控制信息的第一行驶数据，对机器学习模型进行训练，其中，目标参数为交通信号控制模型中的超参数。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的控制信息的生成方法或机器学习模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的控制信息的生成方法或机器学习模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的控制信息的生成方法或机器学习模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的控制信息的生成方法和机器学习模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的控制信息的生成方法的流程示意图；

图3是根据本公开实施例的机器学习模型的训练方法的流程示意图；

图4是根据本公开实施例的机器学习模型的训练方法的原理示意图；

图5是根据本公开另一实施例的机器学习模型的训练方法的原理示意图；

图6是根据本公开实施例的控制信息的生成装置的结构框图；

图7是根据本公开实施例的机器学习模型的训练装置的结构框图；以及

图8是用来实施本公开实施例的控制信息的生成方法或机器学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种控制信息的生成方法，该方法包括参数取值获得阶段和控制信号获得阶段。在参数取值获得阶段中，采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值。在控制信号获得阶段中，采用所述交通信号控制模型来根据所述目标参数的取值对所述道路交叉口的第二交通状态信息进行处理，得到与所述道路交叉口对应的交通信号的控制信息。其中，目标参数为交通信号控制模型中的超参数。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的控制信息的生成方法和机器学习模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括路网及位于路网中的路侧设备120、交通信号灯130等。路网包括有道路和道路相交形成的道路交叉口110。路侧设备120可以设置于路侧的任意位置，交通信号灯130可以设置在路侧且靠近道路交叉口110的位置处。

其中，路侧设备120可以包括路侧计算单元(Road Side Computing Unit，RSCU)、路侧通信设施和/或路侧感知设施等。该路侧设备120例如可以感知道路的环境数据，并通过对环境数据分析而得到道路的交通状态信息。将该路侧设备120设置在靠近道路交叉口附近，则该路侧设备120可以通过对环境数据分析而得到道路交叉口的交通状态信息。交通状态信息例如可以包括以下信息中的至少之一：交通流量、交通参与者的行驶速度、交通参与者的停止时长和交通参与者的排队长度等。

在一实施例中，如图1所示，该应用场景100还可以包括电子设备140，该电子设备140可以通过网络与路侧设备120及交通信号灯130通信连接，网络可以包括有线或无线通信链路。

例如，路侧设备120可以将其感知的道路的环境数据发送给电子设备140，由电子设备对该道路的环境数据进行分析，从而得到交通状态信息。或者，路侧设备120可以将其分析环境数据所得到的交通状态信息发送给电子设备140。电子设备140例如可以根据得到的交通状态信息来确定针对交通信号灯130的控制策略，以使得交通信号灯130根据该确定的控制策略运行后，道路交叉口的通行顺畅度得到提升，提高道路的使用效率。

在一实施例中，电子设备140可以为膝上型便携计算机、台式计算机和服务器等等。例如，该电子设备140可以作为路网的云端控制平台。

根据本公开的实施例，电子设备140可以采用交通信号控制模型来确定控制策略。例如，该电子设备140可以将交通状态信息作为交通信号控制模型的输入，经由该交通信号控制模型处理后输出控制信息。经由交通信号灯根据该控制信息的运行，可以实现对交通信号灯所生成的交通信号的控制，完成控制策略的实施。

需要说明的是，本公开提供的控制信息的生成方法可以由电子设备140执行。相应地，本公开提供的控制信息的生成装置可以设置在电子设备140中。本公开提供的机器学习模型的训练方法可以由与电子设备140通信连接的服务器执行。相应地，本公开提供的机器学习模型的训练装置可以设置在与电子设备140通信连接的服务器中。

应该理解，图1中的路侧设备120、交通信号灯130和电子设备140的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的路侧设备120、交通信号灯130和电子设备140。

以下将结合图2对本公开提供的控制信息的生成方法进行详细描述。

图2是根据本公开实施例的控制信息的生成方法的流程示意图。

如图2所示，控制信息的生成方法200可以包括操作S210～操作S220。

在操作S210，采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值。

在操作S220，采用交通信号控制模型来根据目标参数的取值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的控制信息。

根据本公开的实施例，机器学习模型可以包括任意类型的神经网络模型，例如可以包括反向传播神经网络模型，具体可以包括图神经网络模型(Graph Neural Network)、深度学习模型等，本公开对此不做限定。以图神经网络模型为例，图神经网络所采用的计算图中的节点例如可以为卷积、全连接、求和等算子，计算图中的边表示算子之间的关联关系。

根据本公开的实施例，第一交通状态信息可以包括排队长度和/或交通流量等。该实施例可以将第一交通状态信息作为机器学习模型的输入，由机器学习模型对该第一交通状态信息进行处理后输出目标参数的取值。例如，机器学习模型可以对第一交通状态信息进行非线性处理。

根据实际需求，交通信号控制模型可以为单点自适应控制模型，交通信号控制模型还可以包括干道协调控制模型。其中，单点自适应控制模型例如可以包括线性回归模型或时间延迟神经网络模型等。其中，干道协调控制模型例如可以包括混合整数规划滤波带优化模型(MAXBAND)、MULTIBAND模型等。

其中，单点自适应控制模型用于根据采集到的交通状态信息来优化交通信号的控制信息，以在线实时地自动调整单个交通信号灯的控制信号，建立最优的信号配时。干道协调控制模型用于确定主干道上连续的多个路口的交通信号的联动控制信息，以使得车流连续不停车的通过该主干道。

在一实施例中，目标参数可以为交通信号控制模型中的任意一个超参数。交通信号控制模型中通常包含大量的超参数，其中一部分超参数的取值可以采用操作S210来预测得到，其中另一部分超参数例如可以根据实际需求标定得到。其中一部分超参数例如可以包括对交通信号控制模型得到的控制信息影响较大的超参数，也可以为取值与交通状态信息相关的超参数，本公开对此不做限定。

可以理解的是，第一交通状态信息的类型可以根据目标参数来确定，第二交通状态信息的类型例如可以根据交通信号控制模型的类型来确定。例如，第一交通状态信息中可以包括影响目标参数取值的全量的交通状态信息。例如，对于MAXBAND模型，目标参数可以为上行滤波带宽权重和下行滤波带宽权重，第一交通状态信息可以包括排队长度和交通流量，第二交通状态信息可以包括道路交叉口的交通流量、主干道两个行驶方向的流量比和主次道路的流量比等。需要说明的是，对于单点自适应控制模型，第一交通状态信息和第二交通状态信息可以仅包括需要控制的单个道路交叉口的交通状态信息。而对于主干道协调控制模型，第一交通状态信息和第二交通状态信息可以包括主干道上多个道路交叉口的交通状态信息。根据实现需要，第一交通状态信息和第二交通状态信息可以相同或不同。

根据本公开的实施例，在操作S220中，可以先将目标参数的取值赋值给交通信号控制模型中的目标参数。随后将第二交通状态信息输入交通信号控制模型，由交通信号控制模型对该第二交通状态信息处理后输出控制信息。

根据本公开的实施例，控制信息例如可以包括信号配时参数，该信号配时参数可以包括信号周期长度和绿信比等。对于主干道协调控制模型，得到的控制信息例如还可以包括相位差。该相位差可以指示相邻两个交通指示灯的相位的差值。

相较于根据经验来标定超参数的取值的方案，本公开实施例的交通信号的控制方法通过采用机器学习的方法来确定交通信号控制模型中超参数的取值，可以使得交通信号控制模型灵活地适配不同交叉口处交通状态变化的需求。因此，采用本公开实施例提供的交通信号的控制方法，可以提高确定的控制信息的精准度，利于降低车辆的延误时长，提高道路的使用率。

根据本公开的实施例，机器学习模型例如可以基于强化学习算法构建。具体地，机器学习模型可以包括基于强化学习算法构建的神经网络模型。例如，该实施例可以将输入机器学习模型的第一交通状态信息作为强化学习算法中的状态(state)，将前述控制信息作为动作(action)，将机器学习模型作为智能体(Agent)，将依据控制信息运行的交通信号的指示下，道路上车辆的行驶数据作为反馈的奖励(reward)来调整机器学习模型中的模型参数。如此，机器学习模型可以学习到交通的动态变化信息，提高交通信号控制模型对不同交叉口处交通状态变化的需求的适配度。

为了便于控制信息的生成方法的执行，本公开还提供了一种机器学习模型的训练方法，以下将结合图3～图5对该机器学习模型的训练方法进行详细描述。

图3是根据本公开实施例的机器学习模型的训练方法的流程示意图。

如图3所示，该实施例的机器学习模型的训练方法300可以包括操作S310～操作S330。

在操作S310，采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的第一预测值。

在操作S320，采用交通信号控制模型来根据第一预测值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的第一预测控制信息。

根据本公开的实施例，操作S310与操作S320的实现原理分别与上文记载的操作S210～操作S220的实现原理类似。区别在于，该实施例中，第一交通状态信息和第二交通状态信息为道路交叉口在相同环境下的历史交通状态信息。上文记载的操作S210～操作S220中，第一交通状态信息和第二交通状态信息可以为道路交叉口在相同环境下的实时交通状态信息。

在操作S330，根据车辆针对第一预测控制信息的第一行驶数据，对机器学习模型进行训练。

根据本公开的实施例，第一行驶数据可以是数字孪生仿真平台根据第一预测控制信息仿真得到的。其中，数字孪生仿真平台可以基于真实路网信息和车辆轨迹信息所搭建。第一行驶数据例如可以包括车辆的行驶速度、车辆的平均延误时长和/或停车次数等。可以理解的是，该第一行驶数据可以根据实际需求进行设定，本公开对此不做限定。

其中，车辆的延误时长可以为车辆在受阻情况下通过交叉口所需时长与正常行驶同样距离所需的时长之差。其中，同样距离是指车辆通过交叉口所驶过的距离。

其中，停车次数指车辆在通过交叉路口时受交通信号控制的影响而停车的次数。该停车次数可以采用所有车辆在交叉口处停车的总次数与所有车辆的总量之间的比值来表示，即该停车次数实质上可以由停车率来表示。

该实施例可以以最小化车辆的延误时长和/或最小化停车次数为目标，来调整机器学习模型的网络参数，从而实现对机器学习模型的训练。例如，针对机器学习模型中的每一个网络参数，可以先增大该每一个网络参数的取值。随后通过得到该每一个网络参数的取值增加后所仿真得到的行驶数据，根据该行驶数据与每一个网络参数的取值增加前仿真得到的行驶数据的对比结果，确定针对该每一个网络参数的调整方向和调整力度。

在一实施例中，还可以设定有行驶数据的目标取值，以最小化第一行驶数据与目标取值之间的差异为目标，对机器学习模型进行训练。

本公开通过训练根据交通状态信息得到目标参数取值的机器学习模型，可以提高机器学习模型预测得到的目标参数的精度，并因此利于提高交通信号控制模型预测得到的控制信号的精准度，利于降低车辆的延误时长，提高道路的使用率。

在一实施例中，如上文记载的内容所述，机器学习模型可以包括基于强化学习算法构建的神经网络模型。如此，可以采用强化学习算法来训练机器学习模型。以下将结合图4对机器学习模型的训练原理进行详细描述。

图4是根据本公开实施例的机器学习模型的训练方法的原理示意图。

在该实施例400中，机器学习模型的训练方法可以依赖于根据路网信息和历史交通数据401构建的仿真平台410来实现。该实施例中，可以将根据交通数据得到的交通状态信息402中的部分或全部信息作为强化学习算法中的状态而输入机器学习模型420中，由机器学习模型420输出交通信号控制模型430中目标参数的预测值。将该预测值赋值给交通信号控制模型430后，交通信号控制模型可以对交通状态信息402中的部分或全部信息进行处理，输出作为动作的控制信息。将该控制信息传入仿真平台410，仿真平台410即可根据控制信息生成模拟的交通信号，并模拟车辆根据模拟的交通信号在路网中道路上的行驶，从而得到模拟的交通数据。根据该模拟的交通数据可以得到行驶数据403和交通状态信息402。交通数据可以包括模拟的多个车辆的行驶速度、行驶距离和车辆在各个时间点的位置等。通过统计该些交通数据，可以得到前述的第一行驶数据、第一交通状态信息和第二交通状态信息。

随后，该实施例可以根据第一行驶数据确定针对机器学习模型的第一奖励值。第一行驶数据可以包括以下至少之一：延误时长和停车次数等。该实施例可以以最大化第一奖励值为目标，训练机器学习模型。例如，该实施例可以先对延误时长和停车次数分别进行无量纲化处理，将无量纲化处理后所得到的两个数值的加权和的负数作为第一奖励值。可以理解的是，上述得到第一奖励值的方法仅作为示例以利于理解本公开，本公开对此不做限定，只要第一奖励值与延误时长负相关，且第一奖励值与停车次数负相关即可。

该实施例通过迭代地训练机器学习模型，可以得到机器学习模型的最优网络参数。具有最优网络参数的机器学习模型可以应用于上文记载的控制信息的生成方法中。其中，迭代训练的停止条件可以包括以下至少之一：相邻两次的迭代训练过程中所得到的第一奖励值的差值小于阈值；机器学习模型中网络参数的取值达到临界值，网络参数在取小于临界值和大于临界值的任意值时，所得到的第一奖励值均会减小。

该实施例400训练得到的机器学习模型可以学习到交通的动态变化信息，利于提高交通信号控制模型对不同交叉口处交通状态变化的需求的适配度。

在一实施例中，可以融合进化学习算法来对机器学习模型进行训练。以此可以提高机器学习模型的训练效率。以下将结合图5对机器学习模型的训练原理进行详细描述。

图5是根据本公开另一实施例的机器学习模型的训练方法的原理示意图。

如图5所示，该实施例500在训练机器学习模型时，可以为机器学习模型510添加随机噪声，从而得到至少一个噪声模型。例如，可以随机地调整机器学习模型510中的网络参数，从而得到第一噪声模型511、第二噪声模型512和第N噪声模型513共计N个噪声模型。N的取值为自然数。

随后，该实施例可以采用该N个噪声模型并行地对第一交通状态信息501进行处理，由每个噪声模型输出一个目标参数的第二预测值，总计得到目标参数的N个第二预测值。该实施例可以借由N个计算单元，采用交通信号控制模型520来并行地根据N个第二预测值对第二交通状态信息502进行处理，由每个计算单元上所运行的交通信号控制模型520得到一个第二预测控制信息，总计得到N个第二预测控制信息。该N个计算单元还可以采用仿真平台530来根据各自得到的第二预测控制信息生成模拟的交通信号，并模拟车辆根据各自模拟的交通信号在路网中道路上的行驶，得到一个第二行驶数据。总计可以得到车辆分别针对N个第二预测控制信息的N个第二行驶数据。

可以理解的是，在得到第二行驶数据的同时，该实施例可以采用与上文记载的操作S310～操作S320类似的方法，采用机器学习模型510得到第一预测值，并经由交通信号控制模型520和仿真平台530得到第一行驶数据。

该实施例可以根据第一行驶数据和N个第二行驶数据，对所述机器学习模型进行训练。例如，该实施例可以从机器学习模型和N个噪声模型构成的模型组中，筛选出对应的延误时长最短的模型，作为下一次迭代中的机器学习模型510。随后迭代地调整机器学习模型510的参数，直至延误时长达到最小值。

可以理解的是，N个计算单元例如可以对应电子设备中设置的N个线程，也可以指电子设备中设置的N个处理器，还可以指由N个电子设备构成的N个计算节点，本公开对此不作限定。

根据本公开的实施例，在机器学习模型510为基于强化学习算法构建的神经网络模型的情况下，该实施例可以在得到第一行驶数据和N个第二行驶数据后，根据第一行驶数据来确定针对机器学习模型510的第一奖励值503。同时，可以分别根据N个第二行驶数据，来确定分别针对N个噪声模型的N个第二奖励值504。随后，该实施例可以根据添加的随机噪声、第一奖励值和N个第二奖励值，来调整机器学习模型510的网络参数。

例如，该实施例可以先从第一奖励值和N个第二奖励值中筛选出取值最大的奖励值。根据该最大奖励值对应的模型(可以为某个噪声模型，也可以为机器学习模型)所添加的随机噪声，来调整机器学习模型的网络参数。可以理解的是，在最大奖励值对应的模型为机器学习模型时，添加的随机噪声为零。或者，该实施例还可以根据为最大奖励值对应的模型所添加的随机噪声，来确定机器学习模型的网络参数的调整方向，并根据该确定的调整方向以固定步长调整网络参数。

例如，该实施例还可以从第一奖励值和N个第二奖励值中筛选出取值较大的M个奖励值，根据该M个奖励值对应的M个模型所添加的M个随机噪声的平均值，来调整机器学习模型的网络参数。

可以理解的是，上述调整网络参数的方式仅作为示例以利于理解本公开，本公开对此不做限定。

本公开例如可以使用1000个CPU来对机器学习模型进行并行地训练，以在一个小时完成相当于真实一整年的交通仿真。该实施例可以采用基于Paddle Paddle的强化学习框架来实现对机器学习模型的并行训练。

为了验证本公开提供的控制信息的生成方法对道路使用情况的提升效果，可以根据经验标定的目标参数生成的控制信息来生成控制信号(称为第一控制信号)，并采用本公开提供的控制信息的生成方法生成的控制信息来生成控制信号(称为第二控制信号)。随后将两种方式生成的控制信号应用于实际路网中，通过采集两种方式生成的控制信号的控制下的行驶数据，可以得到下表所示的对照结果。根据下表可知，采用本公开提供的控制信息的生成方法，可以有效降低延误时长，提高道路的使用率。

评估指标	第一控制信号	第二控制信号	提升比例
				全天平均延误时长(s)	43.79	39.49	9.83％
早高峰平均延误时长(s)	51.49	48.64	5.54％
				平峰平均延误时长(s)	45.85	40.97	10.64％

基于本公开提供的控制信息的生成方法，本公开还提供了一种控制信息的生成装置。以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的控制信息的生成装置的结构框图。

如图6所示，该实施例的控制信息的生成装置600包括参数取值获得模块610和控制信息获得模块620。

参数取值获得模块610用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值。其中，目标参数为交通信号控制模型中的超参数。在一实施例中，参数取值获得模块610可以用于执行上文记载的操作S210，在此不再赘述。

控制信息获得模块620用于采用交通信号控制模型来根据目标参数的取值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的控制信息。在一实施例中，控制信息获得模块620可以用于执行上文记载的操作S220，在此不再赘述。

根据本公开的实施例，机器学习模型包括基于强化学习算法构建的神经网络模型。第一交通状态信息包括以下至少之一：道路交叉口的排队长度和道路交叉口的交通流量。交通信号控制模型包括以下模型中的至少之一：单点自适应控制模型和干道协调控制模型。

基于本公开提供的机器学习模型的训练方法，本公开还提供了一种机器学习模型的训练装置。以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的机器学习模型的训练装置的结构框图。

如图7所示，该实施例的机器学习模型的训练装置700可以包括第一取值获得模块710、第一控制信息获得模块720和模型训练模块730。

第一取值获得模块710用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型的目标参数的第一预测值。其中，目标参数为交通信号控制模型中的超参数。在一实施例中，第一取值获得模块710可以用于执行上文记载的操作S310，在此不再赘述。

第一控制信息获得模块720用于采用交通信号控制模型来根据目标参数的预测值对道路交叉口的第二交通状态信息进行处理，得到与道路交叉口对应的交通信号的第一预测控制信息。在一实施例中，第一控制信息获得模块720可以用于执行上文记载的操作S320，在此不再赘述。

模型训练模块730用于根据车辆针对第一预测控制信息的第一行驶数据，对机器学习模型进行训练。在一实施例中，模型训练模块730可以用于执行上文记载的操作S330，在此不再赘述。

根据本公开的实施例，机器学习模型包括基于强化学习方法构建的神经网络模型。上述模型训练模块730可以包括奖励值确定子模块和第一训练子模块。奖励值确定子模块用于根据第一行驶数据，确定针对机器学习模型的第一奖励值。第一训练子模块用于以最大化第一奖励值为目标，训练机器学习模型。其中，第一行驶数据包括以下至少之一：延误时长和停车次数。

根据本公开的实施例，上述机器学习模型的训练装置700还可以包括噪声添加模块、第二取值获得模块、第二控制信息获得模块和第二训练子模块。噪声添加模块用于为机器学习模型添加随机噪声，得到至少一个噪声模型。第二取值获得模块用于采用至少一个噪声模型并行地对第一交通状态信息进行处理，得到目标参数的至少一个第二预测值。第二控制信息获得模块用于采用交通信号控制模型来并行地根据至少一个第二预测值对第二交通状态信息进行处理，得到交通信号的至少一个第二预测控制信息。第二训练子模块用于根据第一行驶数据和车辆分别针对至少一个第二预测控制信息的至少一个第二行驶数据，对机器学习模型进行训练。其中，第一行驶数据和至少一个第二行驶数据中的每个行驶数据包括以下至少之一：延误时长和停车次数。

根据本公开的实施例，上述第二训练子模块可以包括第一奖励值确定单元、第二奖励值确定单元和训练单元。第一奖励值确定单元用于根据第一行驶数据，确定针对机器学习模型的第一奖励值。第二奖励值确定单元用于分别根据至少一个第二行驶数据，确定分别针对至少一个噪声模型的至少一个第二奖励值。训练单元用于根据随机噪声、第一奖励值和至少一个第二奖励值，调整机器学习模型的网络参数。

根据本公开的实施例，第一交通状态信息包括以下至少之一：道路交叉口的排队长度和道路交叉口的交通流量。交通信号控制模型包括以下模型中的至少之一：单点自适应控制模型和干道协调控制模型。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开实施例的控制信息的生成方法或机器学习模型的训练方法的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如控制信息的生成方法或机器学习模型的训练方法。例如，在一些实施例中，控制信息的生成方法或机器学习模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的控制信息的生成方法或机器学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行控制信息的生成方法或机器学习模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种机器学习模型的训练方法，包括：

采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型的目标参数的第一预测值；

为所述机器学习模型添加随机噪声，得到至少一个噪声模型；

采用所述至少一个噪声模型并行地对所述第一交通状态信息进行处理，得到所述目标参数的至少一个第二预测值；采用所述交通信号控制模型来根据所述第一预测值对所述道路交叉口的第二交通状态信息进行处理，得到与所述道路交叉口对应的交通信号的第一预测控制信息；

采用所述交通信号控制模型来并行地根据所述至少一个第二预测值对所述第二交通状态信息进行处理，得到所述交通信号的至少一个第二预测控制信息；以及

根据车辆针对所述第一预测控制信息的第一行驶数据和所述车辆分别针对所述至少一个第二预测控制信息的至少一个第二行驶数据，对所述机器学习模型进行训练，

其中，所述目标参数为所述交通信号控制模型中的超参数；所述第一行驶数据和所述至少一个第二行驶数据中的每个行驶数据包括以下至少之一：延误时长和停车次数。

2.根据权利要求1所述的方法，其中，所述根据所述第一行驶数据和所述车辆分别针对所述至少一个第二预测控制信息的至少一个第二行驶数据，对所述机器学习模型进行训练包括：

根据所述第一行驶数据，确定针对所述机器学习模型的第一奖励值；

分别根据所述至少一个第二行驶数据，确定分别针对所述至少一个噪声模型的至少一个第二奖励值；以及

根据所述随机噪声、所述第一奖励值和所述至少一个第二奖励值，调整所述机器学习模型的网络参数。

3.根据权利要求2所述的方法，其中：

所述第一交通状态信息包括以下至少之一：所述道路交叉口的排队长度和所述道路交叉口的交通流量；

所述交通信号控制模型包括以下模型中的至少之一：单点自适应控制模型和干道协调控制模型。

4.一种控制信息的生成方法，包括：

采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值；以及

采用所述交通信号控制模型来根据所述目标参数的取值对所述道路交叉口的第二交通状态信息进行处理，得到与所述道路交叉口对应的交通信号的控制信息，

其中，所述目标参数为所述交通信号控制模型中的超参数；其中，所述机器学习模型是利用权利要求1-3任一种训练方法训练得到的。

5.根据权利要求4所述的方法，其中：

所述机器学习模型包括基于强化学习算法构建的神经网络模型；

所述第一交通状态信息包括以下至少之一：所述道路交叉口的排队长度和所述道路交叉口的交通流量；以及

6.一种机器学习模型的训练装置，包括：

第一取值获得模块，用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型的目标参数的第一预测值；

第一控制信息获得模块，用于采用所述交通信号控制模型来根据所述目标参数的预测值对所述道路交叉口的第二交通状态信息进行处理，得到与所述道路交叉口对应的交通信号的第一预测控制信息；

噪声添加模块，用于为所述机器学习模型添加随机噪声，得到至少一个噪声模型；

第二取值获得模块，用于采用所述至少一个噪声模型并行地对所述第一交通状态信息进行处理，得到所述目标参数的至少一个第二预测值；

第二控制信息获得模块，用于采用所述交通信号控制模型来并行地根据所述至少一个第二预测值对所述第二交通状态信息进行处理，得到所述交通信号的至少一个第二预测控制信息；以及

模型训练模块，用于根据车辆针对所述第一预测控制信息的第一行驶数据和所述车辆分别针对所述至少一个第二预测控制信息的至少一个第二行驶数据，对所述机器学习模型进行训练；

其中，所述目标参数为所述交通信号控制模型中的超参数，所述机器学习模型是利用权利要求1-3任一种训练方法训练得到的；所述第一行驶数据和所述至少一个第二行驶数据中的每个行驶数据包括以下至少之一：延误时长和停车次数。

7.根据权利要求6所述的装置，其中，所述模型训练模块包括：

第一奖励值确定单元，用于根据所述第一行驶数据，确定针对所述机器学习模型的第一奖励值；

第二奖励值确定单元，用于分别根据所述至少一个第二行驶数据，确定分别针对所述至少一个噪声模型的至少一个第二奖励值；以及

训练单元，用于根据所述随机噪声、所述第一奖励值和所述至少一个第二奖励值，调整所述机器学习模型的网络参数。

8.根据权利要求7所述的方法，其中：

9.一种控制信息的生成装置，包括：

参数取值获得模块，用于采用机器学习模型对道路交叉口的第一交通状态信息进行处理，得到交通信号控制模型中目标参数的取值；以及

控制信息获得模块，用于采用所述交通信号控制模型来根据所述目标参数的取值对所述道路交叉口的第二交通状态信息进行处理，得到与所述道路交叉口对应的交通信号的控制信息，

其中，所述目标参数为所述交通信号控制模型中的超参数；所述机器学习模型是利用权利要求1-3任一种训练方法训练得到的。

10.根据权利要求9所述的装置，其中：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1～5中任一项所述方法的步骤。