CN115933390A

CN115933390A - 路口控制策略的确定方法及装置、处理器以及电子设备

Info

Publication number: CN115933390A
Application number: CN202211497248.4A
Authority: CN
Inventors: 陈湘源; 杨聪明; 高启业; 解鑫; 杨进; 胡比洋; 袁晓敏; 李建永; 石珂; 李星
Original assignee: Guoneng Yulin Energy Co ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Guoneng Yulin Energy Co ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-07

Abstract

本申请提供了一种路口控制策略的确定方法及装置、处理器以及电子设备，通过获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络，解决了现有技术中井下路口交通信号灯主要通过人工手动控制，导致交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题。

Description

路口控制策略的确定方法及装置、处理器以及电子设备

技术领域

本申请涉及井下煤矿运输领域，具体而言，涉及一种路口控制策略的确定方法及装置、处理器以及电子设备。

背景技术

相关技术中，在煤矿传统井下运输的过程中，煤矿道路复杂且多变，在每日的运输作业调度中，要求道路尽可能通畅，确保每项运输任务都可以畅通无阻进行，按时完成，保障工作的进行。

针对井下煤矿运输系统中信号灯控制系统中繁多且复杂的井下运输道路，在每日的运输作业调度中，信号灯调度规则要求尽可能满足运输过程中的道路通畅，确保每项运输任务都可以畅通无阻，但是现有的信号灯控制逻辑采用固定的放行和停等策略，不会随着任务的变化而变化，随着任务的增多与多变，越来越难以满足需求这一痛点。传统的井下路口交通灯控制逻辑采用固定的放行和停等策略，这样会降低道路资源的使用效率。降低井下煤矿物料或作业工人运输车辆的运行效率，造成不必要的时间浪费、影响既有运输计划的实施、提高井下运输的成本。

发明内容

本申请的主要目的在于提供一种路口控制策略的确定方法及装置、处理器以及电子设备，以解决现有技术中井下路口交通信号灯主要通过人工手动控制，导致交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题。

根据本发明实施例的一个方面，提供了一种路口控制策略的确定方法，预设交通区域包括有多个路口，每个路口处设置有一个智能单体，每个智能单体对应有一个值网络，该方法包括：获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

进一步地，在控制交通数据输入至目标值网络，并控制目标值网络输出路口对应的目标控制策略之前，该方法包括：确定用于训练目标值网络对应的多个训练样本；控制多个训练样本输入至目标值网络，并得到目标值网络输出多个控制策略；确定多个控制策略对应的多个价值，并确定多个价值中的最大价值，将最大价值对应的控制策略确定为目标值网络的目标输出值；控制目标输出值反馈至目标值网络，并依据目标输出值更新目标值网络。

进一步地，确定用于训练目标值网络对应的多个训练样本，包括：确定预设交通区域包括的多个路口，并确定多个路口对应的多个智能单体；确定多个智能单体对应的多个值网络，控制多个值网络构成混合网络；依据混合网络，确定多个训练样本。

进一步地，依据混合网络，确定多个训练样本，包括：确定目标智能单体在历史时间段内接收的目标交通数据；确定其余多个智能单体在历史时间段内接收的多组交通数据，其中，其余多个智能单体为混合网络中除目标智能单体外的所有智能单体；确定目标交通数据与多组交通数据之间对应的多个互信息；依据目标交通数据以及多个互信息，确定训练样本。

进一步地，确定目标交通数据与多组交通数据之间对应的多个互信息，包括：确定目标交通数据，以及多组交通数据；确定预设损失函数；获取循环神经网络；通过预设损失函数更新循环神经网络，以得到目标循环神经网络；控制目标交通数据以及多组交通数据输入至目标循环神经网络，以得到多个互信息。

进一步地，通过预设公式表示互信息，预设公式为：

其中，I(X；Y)为目标交通数据与第一交通数据之间的互信息，第一交通数据为多组交通数据中的任意一组交通数据，p(x,y)为目标交通数据与第一交通数据之间的联合分布，p(x)为目标交通数据对应的边缘分布，p(y)为第一交通数据对应的边缘分布。

根据本发明实施例的另一方面，还提供了一种路口控制策略的确定装置，预设交通区域包括有多个路口，每个路口处设置有一个智能单体，每个智能单体对应有一个值网络，该装置包括：第一获取单元，用于获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；第一控制单元，用于控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行一种路口控制策略的确定方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行一种路口控制策略的确定方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序包括用于执行一种路口控制策略的确定方法。

在本发明实施例中，通过获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络，解决了现有技术中井下路口交通信号灯主要通过人工手动控制，导致交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题，进而达到了提高了井下路口的控制效率的技术效果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的一种路口控制策略的确定方法的流程图；以及

图2示出了多智能体值分解网络算法的基础VDN网络框架的示意图；

图3是根据本申请实施例提供的一种路口控制策略的确定装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

智能体，由智能交互、智能联接、智能中枢、智慧应用四层组成，有机构成云网边端协同的一体化智能系统。

正如背景技术中所说的，现有技术中井下路口交通信号灯主要通过人工手动控制，导致交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种路口控制策略的确定方法及装置、处理器以及电子设备。

根据本申请的实施例，提供了一种路口控制策略的确定方法。

图1是根据本申请实施例提供的一种路口控制策略的确定方法的流程图，在本申请提供的应用场景中，预设交通区域包括有多个路口，每个路口处设置有一个智能单体，每个智能单体对应有一个值网络，如图1所示，该方法包括以下步骤：

步骤S101，获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据。

步骤S102，控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

本申请提出了一种多智能体的概念，在某一交通区域内包含有多个路口，每个路口对应设置一个智能体，多个路口对应的多个智能体构成多智能体结构，本申请中每个智能体接收对应的路口的交通数据，并通过智能体自身的值网络输出该交通路口的控制策略，其中，控制策略至少包括该交通路口的交通灯的点亮情况以及点亮的交通灯的点亮时长以及熄灭交通灯的熄灭时长。

上述地，本申请中的智能体为强化学习智能体，在单智能体场景下，MDP由一个五元组<S,A,P,R,γ>来定义，其中，S和A分别表示任务场景定义的状态空间和动作空间，即智能体在该任务场景中所包含的全部状态信息和所有可选的动作；P:S×A→S表示任务场景的状态转移函数，通过接收当前的状态和动作信息来表示下一个时刻的状态转移分布；R:S×A→R表示任务场景的奖励值函数，通过接受当前的状态和动作信息返回相应的环境奖励值用以评估智能体在当前状态下所执行动作的好坏程度。R表示一维空间维度；γ∈(0,1]表示奖励折扣因子，由于长期利益存在不确定性，故折扣因子被引入用来评估智能体对未来所获奖励值的重视程度。强化学习智能体的目标最优策略可以表示为：

其中，π:S×A→R表示强化学习智能体通过学习得到的状态到动作映射的策略函数，而目标则是最大化智能体与环境交互获得的最大累计奖励回报。

在多智能体场景下，智能体无法观测到环境中的全部状态值，仅能观测到某一特定范围或与自己相关的局部状态值，故多智能体强化学习可被建模为一个部分可观测的马尔可夫决策过程(Partially Observable Markov Decision Process，POMDP)。不同于单智能体场景，多智能体POMDP通常需要包含更多的局部观测信息，由一个七元组<N,S,A,P,R,O,γ>来定义，其中，N表示一个包含n个智能体的有限集合；S表示任务场景定义的全局状态空间；O表示智能体的局部观测状态空间，即智能体在POMDP下基于自身观测的部分状态信息。多智能体场景中，每一个智能体的目标都是通过学习自身局部状态观测值到动作映射的策略函数；π:S×A→R来最大化自身的折扣累计奖励回报。

本申请提出的算法是多智能体值分解网络(Value Decomposition Network，VDN)算法，每一个智能体拥有独立的值网络(Critic Network)，通过一个混合网络(MixNetwork)将多个智能体之间的Q值进行线性加和，得到整体的Q值并在整体Q网络的基础上进行时间差分(Temporal Difference，TD)迭代更新，以此来最大化累计奖励回报。多智能体值分解网络算法的基础VDN网络框架如图2所示，在图2中，φⁱ表示每一个智能体的值网络的参数，(0,a)表示所有智能体的联合局部观测值和动作。在此基础上，智能体值网络的更新公式可以表示为：Q_tot(o,a)←Q_tot(o,a)+α[r(o,a)+γmaxQ_tot(o′,a′)-Q_tot(o,a)]，其中，o′表示下一时刻的所有智能体的联合局部观测值，a′表示在o′状态下使得Q_tot(o′,a′)值最大的动作。

上述地，与具体的交通灯控制问题相结合，煤矿井下由不同的路口组成，每一个智能体接受到当前时刻的路口交通数据(交通数据包括路口的通行情况、路口流量等)，并决定当前时刻的交通信号灯相位控制动作，比如改变交通信号灯的红绿灯阶段或者红绿灯时长等操作；然后环境会根据当前时刻所有路口的交通运行效率、车辆通行情况计算相应的奖励值，并反馈给每一个强化学习智能体；在我们的方法中，奖励值设置与路口的队列长度、车辆的等待时间、路口的吞吐量相关；智能体在获得相应的奖励值后，根据上述公式对自身的值网络进行更新，以此来迭代进行交通信号灯控制决策优化。

通过本申请提供的多智能体以及每个路口对应的单智能体，可以通过智能体的深度学习算法来接管控制井下路口交通信号灯，避免人工手动设计制定的交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题，增强路口交通信号灯对于动态变化的通行情况和实时流量的控制策略适应性。

在一种可选的实施例中，在控制交通数据输入至目标值网络，并控制目标值网络输出路口对应的目标控制策略之前，该方法包括：确定用于训练目标值网络对应的多个训练样本；控制多个训练样本输入至目标值网络，并得到目标值网络输出多个控制策略；确定多个控制策略对应的多个价值，并确定多个价值中的最大价值，将最大价值对应的控制策略确定为目标值网络的目标输出值；控制目标输出值反馈至目标值网络，并依据目标输出值更新目标值网络。其中，控制策略对应的价值可以理解为上述智能体输出的控制策略对应的奖励值，通过奖励值，依据上述智能体值网络的更新公式更新智能体对应的值网络，以此来迭代进行交通信号灯控制决策优化，

在一种可选的实施例中，确定用于训练目标值网络对应的多个训练样本，包括：确定预设交通区域包括的多个路口，并确定多个路口对应的多个智能单体；确定多个智能单体对应的多个值网络，控制多个值网络构成混合网络；依据混合网络，确定多个训练样本。依据混合网络，确定多个训练样本，包括：确定目标智能单体在历史时间段内接收的目标交通数据；确定其余多个智能单体在历史时间段内接收的多组交通数据，其中，其余多个智能单体为混合网络中除目标智能单体外的所有智能单体；确定目标交通数据与多组交通数据之间对应的多个互信息；依据目标交通数据以及多个互信息，确定训练样本。

上述地，为了更高效地评估多个路口的交通信号灯控制智能体对整体道路交通系统进行调度控制过程中的相互关系和影响程度，我们采用了互信息的方式来衡量两个随机变量之间的相互依赖程度，其中H(X)表示信息熵，用以衡量随机分布X下所有可能发生的事件所带来的信息量的期望。设两个随机变量(X,Y)的联合分布为p(X,Y)，边缘分布分别为p(x)和p(y)，那么互信息I(X；Y)则表示联合分布p(x,y)与边缘分布p(x)p(y)的相对熵，即

在此基础上，我们采用了基于互信息的值分解(Mutual Value Decomposition Network，MVDN)多智能体强化学习算法，其中，我们采用了基于循环神经网络(Recurrent Neural Network，RNN)的门控循环单元(Gate RecurrentUnit，GRU)来编码历史的局部观测值信息，即τ_i＝GRU_i(o_i)；中央部分的信息生成器(Knowledge Generator)收集所有智能体的历史编码信息τ_i来产生代表当前智能体i与其他交互智能体之间相互关系的信息msg_i(用m_i简略表示)；路口交通信号灯控制智能体在进行动作决策时，不仅需要考虑自身的局部观测值(历史编码信息)，还需要额外考虑其他智能体与自身的关系，用以输出当前时刻每一个可选动作的价值Q_i(τ_i,a_i,msg_i)；互信息的表示形式为I(A_i；M_i|T_i)，a_i∈A_i表示智能体i的决策动作，m_i∈M_i表示由信息生成器输出的多个智能体之间的共有信息，τ_i∈T_i表示智能体i的历史编码状态信息。因此，本申请中对每个智能体对应的值网络进行训练通过包含有路口交通数据以及每个智能体与其他智能体之间的互信息构成的样本进行训练，其中，互信息包括每个智能体与其他多智能体结构中的每个智能体之间生成的互信息。

在一种可选的实施例中，确定目标交通数据与多组交通数据之间对应的多个互信息，包括：确定目标交通数据，以及多组交通数据；确定预设损失函数；获取循环神经网络；通过预设损失函数更新循环神经网络，以得到目标循环神经网络；控制目标交通数据以及多组交通数据输入至目标循环神经网络，以得到多个互信息。

上述地，本申请中，通过值网络得到路口的控制策略，其中，核心算法为值网络中中央的信息生成器的更新方式，也即值网络的损失函数的计算方式，器理论推导过程如下：

在一种可选的实施例中，通过预设公式表示互信息，预设公式为：

引入q_ε(a_i|m_i,τ_i)作为对p(a_i|τ_i,m_i)的变分近似(Variational Approximation)可得：

D_KL(p(a_i|τ_i,m_i)||q_ε(a_i,τ_i,m_i)l≥0

∫p(a_i|τ_i,m_i)logp(a_i|τ_i,m_i)da_i≥∫p(a_i|τ_i,m_i)logq_ε(a_i|τ_i,m_i)da_i

通过积分变换引入变量τ_-i，并考虑联合概率分布p(X,Y,Z)＝p(Z|X,Y)p(Z|X)p(X,Y)p(X)对上式的第一项进行变换可得：

对前式的第二项进行变换可得：

通过上述两项的变形，可以得到关于互信息计算方式的最小下界，即：

通过上述的一系列推导可以得到中央的信息生成器更新的损失函数为：

因此，通过上述损失函数循环神经网络，其中，循环神经网络为互信息对应的神经网络，因此，互信息也是在更新中的，通过更新后的互信息以及交通数据再去更新智能体的值网络，构成动态的闭环动作，使得值网络输出的控制策略为更为高效的控制策略。

上述地，通过多智能体强化学习算法来决策信号灯控制动作，采用多个智能体独立的控制各自的信号灯，但为了相互协同，引入互信息来考虑他们之间的联系。多个路口的灯协同控制，可以提高整个井下整体的通行效率。

本申请提出的一种路口控制策略的确定方法，将多智能体强化学习方法应用到复杂的特殊工况运输场景中，并考虑对同一运输系统中的多个路口交通信号灯进行协同控制，在此基础上采用互信息的方式进一步衡量多个路口调度控制过程中的相互依赖和影响关系。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种路口控制策略的确定装置，需要说明的是，本申请实施例的一种路口控制策略的确定装置可以用于执行本申请实施例所提供的用于一种路口控制策略的确定方法。以下对本申请实施例提供的一种路口控制策略的确定装置进行介绍。

图3是根据本申请实施例提供的一种路口控制策略的确定装置的示意图。如图3所示，预设交通区域包括有多个路口，每个路口处设置有一个智能单体，每个智能单体对应有一个值网络，该装置包括：第一获取单元301，用于获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；第一控制单元302，用于控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

在一种可选的实施例中，该装置包括：第一确定单元，用于在控制交通数据输入至目标值网络，并控制目标值网络输出路口对应的目标控制策略之前，确定用于训练目标值网络对应的多个训练样本；第二控制单元，用于控制多个训练样本输入至目标值网络，并得到目标值网络输出多个控制策略；第三控制单元，用于确定多个控制策略对应的多个价值，并确定多个价值中的最大价值，将最大价值对应的控制策略确定为目标值网络的目标输出值；第四控制单元，用于控制目标输出值反馈至目标值网络，并依据目标输出值更新目标值网络。

在一种可选的实施例中，第一确定单元包括：第一确定子单元，用于确定预设交通区域包括的多个路口，并确定多个路口对应的多个智能单体；第二确定子单元，用于确定多个智能单体对应的多个值网络，控制多个值网络构成混合网络；第三确定子单元，用于依据混合网络，确定多个训练样本。

在一种可选的实施例中，第三确定子单元包括：第一确定模块，用于确定目标智能单体在历史时间段内接收的目标交通数据；第二确定模块，用于确定其余多个智能单体在历史时间段内接收的多组交通数据，其中，其余多个智能单体为混合网络中除目标智能单体外的所有智能单体；第三确定模块，用于确定目标交通数据与多组交通数据之间对应的多个互信息；第四确定模块，用于依据目标交通数据以及多个互信息，确定训练样本。

在一种可选的实施例中，第三确定模块包括：第一确定子模块，用于确定目标交通数据，以及多组交通数据；第二确定子模块，用于确定预设损失函数；第一获取子模块，用于获取循环神经网络；第二获取子模块，用于通过预设损失函数更新循环神经网络，以得到目标循环神经网络；第三获取子模块，用于控制目标交通数据以及多组交通数据输入至目标循环神经网络，以得到多个互信息。

一种路口控制策略的确定装置包括处理器和存储器，上述第一获取单元301等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中井下路口交通信号灯主要通过人工手动控制，导致交通信号灯规则在面对灵活多变的井下运输情况时过于死板、僵硬的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现的一种路口控制策略的确定方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行的一种路口控制策略的确定方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

可选地，在控制交通数据输入至目标值网络，并控制目标值网络输出路口对应的目标控制策略之前，该方法包括：确定用于训练目标值网络对应的多个训练样本；控制多个训练样本输入至目标值网络，并得到目标值网络输出多个控制策略；确定多个控制策略对应的多个价值，并确定多个价值中的最大价值，将最大价值对应的控制策略确定为目标值网络的目标输出值；控制目标输出值反馈至目标值网络，并依据目标输出值更新目标值网络。

可选地，确定用于训练目标值网络对应的多个训练样本，包括：确定预设交通区域包括的多个路口，并确定多个路口对应的多个智能单体；确定多个智能单体对应的多个值网络，控制多个值网络构成混合网络；依据混合网络，确定多个训练样本。

可选地，依据混合网络，确定多个训练样本，包括：确定目标智能单体在历史时间段内接收的目标交通数据；确定其余多个智能单体在历史时间段内接收的多组交通数据，其中，其余多个智能单体为混合网络中除目标智能单体外的所有智能单体；确定目标交通数据与多组交通数据之间对应的多个互信息；依据目标交通数据以及多个互信息，确定训练样本。

可选地，确定目标交通数据与多组交通数据之间对应的多个互信息，包括：确定目标交通数据，以及多组交通数据；确定预设损失函数；获取循环神经网络；通过预设损失函数更新循环神经网络，以得到目标循环神经网络；控制目标交通数据以及多组交通数据输入至目标循环神经网络，以得到多个互信息。

可选地，通过预设公式表示互信息，预设公式为：

其中，I(X；Y)为目标交通数据与第一交通数据之间的互信息，第一交通数据为多组交通数据中的任意一组交通数据，p(x,y)为目标交通数据与第一交通数据之间的联合分布，p(x)为目标交通数据对应的边缘分布，p(y)为第一交通数据对应的边缘分布。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

可选地，通过预设公式表示互信息，预设公式为：

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现获取目标路口预设时间段内的交通数据，其中，交通数据至少包括目标路口的通行数据以及路口流量数据；控制交通数据输入至目标值网络，以得到目标值网络输出路口对应的目标控制策略，其中，目标控制策略至少包括目标路口的交通信号灯的控制动作，目标值网络为目标路口设置的目标智能单体对应的值网络。

进一步地，通过预设公式表示互信息，预设公式为：

其中，I(X；Y)为目标交通数据与第一交通数据之间的互信息，第一交通数据为多组交通数据中的任意一组交通数据，p(x,y)为目标交通数据与第一交通数据之间的联合分布，p(x)为目标交通数据对应的边缘分布，p(y)为第一交通数据对应的边缘分布。时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、通过多智能体强化学习算法来决策信号灯控制动作，采用多个智能体独立的控制各自的信号灯。

2)在多智能体中，为了每个智能体之间的相互协同，引入互信息来考虑他们之间的联系。多个路口的灯协同控制，可以提高整个井下整体的通行效率。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种路口控制策略的确定方法，其特征在于，预设交通区域包括有多个路口，每个所述路口处设置有一个智能单体，每个所述智能单体对应有一个值网络，所述方法包括：

获取目标路口预设时间段内的交通数据，其中，所述交通数据至少包括所述目标路口的通行数据以及路口流量数据；

控制所述交通数据输入至目标值网络，以得到所述目标值网络输出所述路口对应的目标控制策略，其中，所述目标控制策略至少包括所述目标路口的交通信号灯的控制动作，所述目标值网络为所述目标路口设置的目标智能单体对应的所述值网络。

2.根据权利要求1所述的方法，其特征在于，在控制所述交通数据输入至目标值网络，并控制所述目标值网络输出所述路口对应的目标控制策略之前，所述方法包括：

确定用于训练所述目标值网络对应的多个训练样本；

控制多个所述训练样本输入至所述目标值网络，并得到所述目标值网络输出多个控制策略；

确定多个所述控制策略对应的多个价值，并确定多个所述价值中的最大价值，将所述最大价值对应的所述控制策略确定为所述目标值网络的目标输出值；

控制所述目标输出值反馈至所述目标值网络，并依据所述目标输出值更新所述目标值网络。

3.根据权利要求2所述的方法，其特征在于，确定用于训练所述目标值网络对应的多个训练样本，包括：

确定所述预设交通区域包括的多个所述路口，并确定多个所述路口对应的多个智能单体；

确定多个所述智能单体对应的多个所述值网络，控制多个所述值网络构成混合网络；

依据所述混合网络，确定多个所述训练样本。

4.根据权利要求3所述的方法，其特征在于，依据所述混合网络，确定多个所述训练样本，

包括：

确定所述目标智能单体在历史时间段内接收的目标交通数据；

确定其余多个所述智能单体在所述历史时间段内接收的多组交通数据，其中，其余多个所述智能单体为所述混合网络中除所述目标智能单体外的所有所述智能单体；

确定所述目标交通数据与多组所述交通数据之间对应的多个互信息；

依据所述目标交通数据以及多个所述互信息，确定所述训练样本。

5.根据权利要求4所述的方法，其特征在于，确定所述目标交通数据与多组所述交通数据之间对应的多个互信息，包括：

确定所述目标交通数据，以及多组所述交通数据；

确定预设损失函数；

获取循环神经网络；

通过所述预设损失函数更新所述循环神经网络，以得到目标循环神经网络；

控制所述目标交通数据以及多组所述交通数据输入至所述目标循环神经网络，以得到多个所述互信息。

6.根据权利要求5所述的方法，其特征在于，通过预设公式表示所述互信息，所述预设公式为：

其中，I(X；Y)为所述目标交通数据与第一交通数据之间的互信息，所述第一交通数据为多组所述交通数据中的任意一组交通数据，p(x,y)为所述目标交通数据与所述第一交通数据之间的联合分布，p(x)为所述目标交通数据对应的边缘分布，p(y)为所述第一交通数据对应的边缘分布。

7.一种路口控制策略的确定装置，其特征在于，预设交通区域包括有多个路口，每个所述路口处设置有一个智能单体，每个所述智能单体对应有一个值网络，所述装置包括：

第一获取单元，用于获取目标路口预设时间段内的交通数据，其中，所述交通数据至少包括所述目标路口的通行数据以及路口流量数据；

第一控制单元，用于控制所述交通数据输入至目标值网络，以得到所述目标值网络输出所述路口对应的目标控制策略，其中，所述目标控制策略至少包括所述目标路口的交通信号灯的控制动作，所述目标值网络为所述目标路口设置的目标智能单体对应的所述值网络。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的一种路口控制策略的确定方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的一种路口控制策略的确定方法。

10.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至6中任意一项所述的一种路口控制策略的确定方法。