CN113287156B

CN113287156B - 基于强化学习的信号控制装置及信号控制方法

Info

Publication number: CN113287156B
Application number: CN202080008478.2A
Authority: CN
Inventors: 崔兑旭
Original assignee: Lelu Co ltd
Current assignee: Lelu Co ltd
Priority date: 2019-10-28
Filing date: 2020-09-14
Publication date: 2023-08-18
Anticipated expiration: 2040-09-14
Also published as: US11823573B2; KR102155055B1; WO2021085848A1; CN113287156A; US20220076571A1

Abstract

提供基于强化学习的信号控制装置和信号控制方法，信号控制装置可包括：拍摄部，通过拍摄交叉路的影像来获取交叉路图像，控制部，对所述拍摄部获取的交叉路图像进行分析以算出所述交叉路的拥堵程度信息，利用强化学习模型和所述拥堵程度信息算出针对下一个信号的控制信息，所述强化学习模型通过使用基于交叉路的拥堵程度而计算的状态信息和奖励信息作为输入值而被训练，以及驱动部，根据由所述控制部算出的针对下一个信号的控制信息而驱动信号灯。

Description

基于强化学习的信号控制装置及信号控制方法

技术领域

在本说明书中公开的实施例涉及基于强化学习的信号控制装置及信号控制方法，更详细地，涉及一种利用以改善交叉路的拥堵程度的方式学习的强化学习网络来控制交叉路的信号的基于强化学习的信号控制装置及信号控制方法。

背景技术

信号灯对于维持道路秩序是必须的，但因信号灯造成交通堵塞的情况较多。尤其，在对于拥堵严重的车道的行进方向的信号的持续时间短的情况下，其余方向行进的道路也会趋于拥堵。

因此，最近，越来越多的交叉路设置了通过考虑实时交通量来进行控制的感应型信号灯，如增加对拥堵严重的行进方向的信号维持时间，以及减少对其余方向的信号维持时间。

尤其，在与其他交叉路不进行信号联动控制的独立交叉路中，根据该交叉路的当前状态而单独控制交叉路信号，在这种情况下，通过利用环形探测器或影像探测器等来掌握该交叉路的状态，并创建以适合根据交叉路的当前状态控制交通信号的独立环境。

但是，在这种环境下，基于根据当前信号的交叉路的状态决定合适的下一个信号是难以通过利用常规的监督学习或非监督学习模型来执行的问题。由于基于复杂多样的交叉路环境和交通信号体系的数据组合数量非常多，因此为了算出有意义的学习结果而需要过多的学习数据。并且，当考虑给定的环境和当前的信号时，几乎不可能区分哪个信号适合作为下一个信号，哪个信号不适合，因此难以将以往的监督或非监督学习模型应用于交叉路信号控制。

韩国公开专利第10-2009-0116172号“人工智能车辆信号灯控制装置”中记载了分析通过利用影像探测器拍摄的影像来控制交通信号灯的方法。但是，在上述的现有技术中，只是将人工智能模型用作通过简单的影像分析来检测特定车道上是否存在车辆等的手段，基于检测的信息决定下一个信号是通过现有的碎片化运算来实现，因此存在难以提升信号体系的效率性的问题。

像这样，以往没有提出可通过在影像分析和确定具体显示信号的运算本身应用机械学习模型来整体改善交叉路中的车道的拥堵程度的方法。

因此，需要为了解决如上所述的问题点的技术。

另一方面，前述的背景技术是发明人为推导本发明而拥有的，或者是推导本发明的过程中学到的技术信息，不能说一定是在申请本发明前向公众公开的公知技术。

发明内容

发明要解决的问题

在本说明书中公开的实施例的目的在于，提供一种基于强化学习的信号控制装置和信号控制方法。

在本说明书中公开的实施例的目的在于，提供一种基于强化学习的信号控制装置和信号控制方法，其能够通过将机械学习模型不仅应用于检测交叉路的状态，还应用于根据交叉路的当前状态来控制下一个信号的具体运算，来改善整体信号效率。

在本说明书中公开的实施例的目的在于，提供一种基于强化学习的信号控制装置和信号控制方法，其能够通过在独立交叉路的信号控制中使用基于拥堵程度的强化学习模型，而实现有效的学习和根据学习的信号控制。

用于解决问题的手段

作为解决所述技术问题的技术手段，根据一实施例，一种信号控制装置，可包括：拍摄部，通过拍摄交叉路的影像来获取交叉路图像，控制部，对所述拍摄部获取的交叉路图像进行分析以算出所述交叉路的拥堵程度信息，利用强化学习模型和所述拥堵程度信息算出针对下一个信号的控制信息，所述强化学习模型通过使用基于交叉路的拥堵程度而计算的状态信息和奖励信息作为输入值而被训练，以及驱动部，根据由所述控制部算出的针对下一个信号的控制信息而驱动信号灯。

根据再一实施例，通过信号控制装置执行的信号控制方法，可包括如下步骤：基于虚拟的学习对象交叉路的拥堵程度或真实的学习对象交叉路的拥堵程度而训练强化学习模型，拍摄控制对象交叉路以获取交叉路图像，对所述交叉路图像进行分析以算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，基于所述拥堵程度信息计算所述控制对象交叉路的当前状态信息，利用所述强化学习模型，根据所述当前状态信息和当前信号算出针对下一个信号的控制信息，以及根据算出的控制信息驱动所述控制对象交叉路的信号灯。

根据另一实施例，在记录有执行信号控制方法的计算机可读记录介质中，信号控制方法可包括如下步骤：基于虚拟的学习对象交叉路的拥堵程度或真实的学习对象交叉路的拥堵程度而训练强化学习模型，拍摄控制对象交叉路以获取交叉路图像，对所述交叉路图像进行分析以算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，基于所述拥堵程度信息计算所述控制对象交叉路的当前状态信息，利用所述强化学习模型，根据所述当前状态信息和当前信号算出针对下一个信号的控制信息，以及根据算出的控制信息驱动所述控制对象交叉路的信号灯。

进而，根据还有一实施例，在由信号控制装置执行并且存储在介质中以执行信号控制方法的计算机程序中，信号控制方法可包括如下步骤：基于虚拟的学习对象交叉路的拥堵程度或真实的学习对象交叉路的拥堵程度而训练强化学习模型，拍摄控制对象交叉路以获取交叉路图像，对所述交叉路图像进行分析以算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，基于所述拥堵程度信息计算所述控制对象交叉路的当前状态信息，利用所述强化学习模型，根据所述当前状态信息和当前信号算出针对下一个信号的控制信息，以及根据算出的控制信息驱动所述控制对象交叉路的信号灯。

发明的效果

根据前述的任一问题解决手段，能够提供一种基于强化学习的信号控制装置和信号控制方法。

在本说明书中公开的实施例能够提供一种基于强化学习的信号控制装置和信号控制方法。

在本说明书中公开的实施例能够提供一种基于强化学习的信号控制装置和信号控制方法，其能够通过将机械学习模型不仅应用于检测交叉路的状态，还应用于根据交叉路的当前状态来控制下一个信号的具体运算，来改善整体信号效率。

在本说明书中公开的实施例能够提供一种基于强化学习的信号控制装置和信号控制方法，其能够通过在独立交叉路的信号控制中使用基于拥堵程度的强化学习模型，而实现有效的学习和根据学习的信号控制。

可从公开的实施例中获得的效果不限于在以上提及的效果，公开的实施例所属技术领域的普通技术人员可以从以下描述明确理解未提及的其他效果。

附图说明

图1为示出根据一实施例的信号控制装置的框图。

图2及图3是示意性地示出包括根据一实施例的信号控制装置的系统的结构图。

图4为示出一般强化学习模型的图。

图5为用于描述根据一实施例的信号控制装置的强化学习及信号控制过程的图。

图6为例示根据一实施例的信号控制装置的学习数据的图。

图7为分步示出根据一实施例的信号控制方法的强化学习过程的流程图。

图8为分步示出根据一实施例的信号控制方法的利用强化学习的模型来控制信号灯的过程的流程图。

图9及图10为分步示出根据一实施例的信号控制方法的拥堵程度算出过程的流程图。

具体实施方式

下面，参照附图详细描述各种实施例。下面描述的实施例还可以以各种不同的形式修改并实施。为了更清楚地描述实施例的特征，以下实施例所属的本领域普通技术人员公知的事项的详细描述将被省略。而且，在附图中，省略了与实施例的描述无关的部分，并且在整个说明书中对于相似的部分赋予相似的附图标记。

在整个说明书中，当描述一个组件与另一个组件“连接”时，它不仅包括“直接连接”的情况，还包括“其中间隔着其他组件而连接”的情况。并且，当描述一个组件“包括”另一个组件时，除非另有说明，否则意味着还可以包括其他组件，而不是排除其他组件。

参照以下附图详细描述实施例。

图1为示出根据一实施例的信号控制装置100的结构的框图，图2和图3为示出包括根据一实施例的信号控制装置100的信号控制系统的示意性结构的图。

信号控制装置100是设置在交叉路的装置，用于拍摄并分析交叉路的进入车道或交叉路的退出车道等的图像。在下文中，将设置在交叉路的信号控制装置100拍摄的图像称为“交叉路图像”。

如图1所示，信号控制装置100包括用于拍摄交叉路图像的拍摄部110和用于分析交叉路图像的控制部120。

拍摄部110可包括用于拍摄交叉路图像的相机，并且可包括能够拍摄可见光或红外线等特定范围的波长的影像的相机。由此，拍摄部110也可以通过在白天、晚上或根据当前情况拍摄不同波长区域的影像来获取交叉路图像。此时，拍摄部110可以按预设周期获取交叉路图像。

而且，控制部120对通过拍摄部110获取的交叉路图像进行分析来生成拥堵程度信息。此时，控制部120可将交叉路图像加工成能够进行分析，并在加工的交叉路图像中识别对应于车辆的物体或像素。而且，为此，控制部120可通过利用人工神经网络来在交叉路图像中识别对应于车辆的物体，或者判断每个像素是否为对应于车辆的位置。

此时，信号控制装置100可配置成包括两个以上的硬件装置，使得用于拍摄交叉路图像的拍摄部110与对拍摄部110拍摄的交叉路图像进行分析的控制部120彼此通信但彼此物理间隔开。即，信号控制装置100可配置成彼此间隔开的硬件装置区分执行交叉路图像的拍摄和分析。此时，包括控制部120的结构的硬件装置还可从不同的多个拍摄部110接收各个交叉路图像，对分别从多个拍摄部110获取的交叉路图像进行分析。

并且，控制部120可以基于通过分析交叉路图像而获取的拥堵程度信息，来生成针对交叉路的控制信号。此时，控制部120可通过利用强化学习模型来算出交叉路的当前信号和对应于当前状态的下一个信号。为此，可预先学习强化学习模型。

并且，信号控制装置100可以包括存储部130。存储部130可以存储拍摄或分析交叉路图像所需的程序或数据、文件、操作体系等，并且至少临时存储交叉路图像或者交叉路图像的分析结果。控制部120可以访问并使用存储在存储部130中的数据，或者还可将新数据存储在存储部130中。并且，控制部120还可执行设置于存储部130的程序。

进而，信号控制装置100可包括驱动部140。驱动部140可以向信号灯S施加驱动信号，使得设置于交叉路的信号灯S根据控制部120运算的控制信号而被驱动。

如上所述，这种信号控制装置100的拍摄部110设置在交叉路，根据设置高度或位置，在一个交叉路仅设置一个，或者可设置与交叉路进出口数量相对应的数量。例如，在4条道路交叉路的情况下，信号控制装置100可以包括通过分别拍摄4个进出口中的每一者来获得交叉路图像的4个拍摄部110。

这种信号控制装置100可以配置成包括一个以上的硬件部件，或者可以被配置为在后述的信号控制系统中所含的硬件部件的组合。

具体而言，如图2及图3所示，信号控制装置100可以形成为信号控制系统的至少一部分。此时，信号控制系统可包括用于拍摄上述交叉路图像的影像检测装置10、连接到信号灯S并施加驱动信号的交通信号控制器20以及通过与交通信号控制器20进行远程通信来管制交通信号的中央中心30。

其中，如图3所示，交通信号控制器20可配置成包括主控制部、信号驱动部及其他装置部。此时，主控制部可以配置成使得电源装置、主板、操作员输入装置、调制解调器、检测器板、选项板等连接到一个总线。信号驱动部可以配置成包括控制板、点灭器、同步驱动装置、扩展板等。除此之外，还可设有其他装置部，用于控制如用于检测是否违反信号的影像拍摄装置等的其他装置。

交通信号控制器20的信号驱动部可以从主板接收控制信号，根据所述控制信号生成信号灯的驱动信号，并将生成的驱动信号施加到信号灯。

而且，中央中心30可以以对多个交叉路的交通信号控制器20进行相互关联控制的方式进行中央控制，或者也可以根据每个交叉路的情况对每个交通信号控制器20进行局部控制。中央中心30可以管制每个交叉路的情况，以选择合适的控制方式或生成具体控制信号时进行参考，也可以直接接收由影像检测装置10拍摄的交叉路图像或接收由信号控制装置100生成的拥堵程度信息。稍后将描述拥堵程度信息。

信号控制装置100可以配置成形成上述信号控制系统的至少一部分，也可以是上述信号控制系统本身。

例如，信号控制装置100的控制部120设于中央中心30，拍摄部110设置在影像检测装置10中，驱动部140可设置在交通信号控制器20中。

以下，更详细地观察信号控制装置100的控制部120的操作，控制部120可以对拍摄部110获取的交叉路图像进行分析来算出交叉路的拥堵程度信息。

为此，控制部120可以利用人工神经网络获取被估计为交叉路图像中所含的车辆的各物体的位置坐标，并且根据获取的各物体的位置坐标的分布算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，所述人工神经网络将交叉路图像作为输入来识别所述物体，并输出关于所识别的物体的位置的信息。

具体而言，控制部120所利用的人工神经网络的输入值为交叉路图像，输出值可以被设置为由估计为汽车的物体的位置信息和物体的尺寸信息组成。其中，物体的位置信息是物体的中心点P的坐标(x，y)，尺寸信息是关于物体的宽度和高度(w，h)的信息，人工神经网络的输出值可对每个物体O以(x、y、w、h)的形式算出。控制部120可以从输出值以二维坐标获得每个车辆的图像的中心点P的坐标(x，y)。由此，可算出预设的各车道区域或各行驶方向的车道区域中的物体的分布。接着，控制部120可根据各车道区域或各行驶方向的车道区域中的物体的中心点分布算出拥堵程度。

此时，拥堵程度是按车道区域或行驶方向进行数值化而算出的信息，并且可以对应于每个区域中包括的中心点的数量来算出。例如，如果在西南方向的左转车道上共分布30个中心点，则相应行驶方向的拥堵程度设置为100，根据通过人工神经网络算出的中心点的分布，可以给出0至100的拥堵程度中一定数值的拥堵程度。即，当每个车道区域或行驶方向的车辆处于饱和水平时，将拥堵程度设置为100，并将在每个车道区域或行驶方向中不存在车辆的状态设置为0时，可根据物体的数量或像素数量将剩余状态设置为0到100之间的值。

此时，控制部120可利用有关预设的车道区域或各行驶方向的车道区域的信息，这种车道区域可以在交叉路图像中被控制部120识别，或者可以在拍摄部110的拍摄角度不变的情况下被预设为交叉路图像中的特定区域。

此时可使用的人工神经网络可列举YOLO、SSD、Faster R-CNN、Pelee等，这些人工神经网络可以被训练成能够在交叉路图像中识别对应于车辆的物体。

并且，作为另一例，控制部120可利用执行分段(Segmentation)分析的人工神经网络来获取交叉路的拥堵程度信息。控制部120可通过使用人工神经网络来提取与车辆对应的像素，将提取的每个像素转换为交叉路平面上的像素后，根据包括在各车道区域或各行驶方向的车道区域中的已转换的像素的数量算出各车道区域或各行驶方向的拥堵程度，其中所述人工神经网络将交叉路图像作为输入而输出表示交叉路图像中包括的各像素对应于车辆的概率的概率图。

具体而言，控制部120所利用的人工神经网络的输入值为交叉路图像，输出值可以是各像素为汽车的概率图。而且，控制部120可以基于作为人工神经网络的输出值的各像素为汽车的概率图来提取构成对应于车辆的物体的像素。由此，仅提取与其他像素区分的交叉路图像中对应于物体的部分的像素，控制部120可以确认各像素在车道区域或各行驶方向的车道区域中的分布。接着，控制部120可根据预设的区域中的像素的数量计算各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息。

此时可使用的人工神经网络可列举全卷积神经网络(FCN)、逆卷积网络(Deconvolutional Network)、扩张卷积(Dilated Convolution)、DeepLab等，可以将这些人工神经网络训练成通过算出交叉路图像中所含的各像素对应于特定物体，尤其车辆的概率来制成概率图。

接着，控制部120可参考拥堵程度信息和有关当前时间点的信号模式的信息，即，有关显示的信息来算出有关下一显示的控制信息。

其中，显示是指通过信号灯S示出的信号模式，例如，在东西南北方向的每个信号灯同时出现的信号组合，一般设置为依次进行不同的显示。

此时，控制部120可利用强化学习模型，以基于拥堵程度信息和显示信息生成控制信息。

图4为示出一般强化学习模型的图，图5为用于描述根据一实施例的信号控制装置的强化学习及信号控制过程的图。

如图4所示，强化学习模型可包括代理和环境。其中，代理可以配置成包括通常通过人工神经网络或查找表等组成的“策略”，以及对通过参考从环境给出的状态信息和奖励信息来确定动作A_t的策略进行优化的“强化学习算法”。此时，强化学习算法通过参考观察环境来获取的状态信息S_t、当状态向所需方向改进时给予的奖励R_t以及通过参考根据策略输出的动作A_t来改善策略。

而且，在每个步骤中重复执行这些过程，下面，对应于当前的步骤为t、下一个步骤为t+1等来进行区分。

在一实施例中，信号控制装置100可以配置成以交叉路作为环境，交叉路的拥堵程度作为状态信息，预设的多个不同显示的模式作为动作，并在拥堵程度得到改善时提供奖励。

如图5所示，可以根据上述方法从拍摄交叉路的影像中算出拥堵程度C_t。而且，可通过利用拥堵程度C_t来构成状态信息S_t。

具体而言，状态信息S_t可以定义如下。

S_t＝[C_t1，C_t，...，C_tk]

其中，C_t为拥堵程度，k为预区分的车道区域或行驶方向的数量。

而且，可基于拥堵程度C_t如下计算奖励R_t。

首先，计算当前的拥堵程度总和L_t。可以如下算出拥堵程度总和。

其中，L_t为在每个车道或行驶方向上发生的拥堵程度的总和，k为总车道或行驶方向的数量，C_ti为当前的每个车道区域或行驶方向的拥堵程度。

而且，基于如上计算的拥堵程度总和确定奖励R_t。

R_t＝L_t-L_t+1

根据一实施例，根据上述等式确定奖励R_t。由此，若在t+1步骤中拥堵程度减少，则奖励R_t为正值，因此对强化学习模型给予更大的奖励。

根据另一实施例，可以根据t步骤和t-1步骤的拥堵程度来确定奖励R_t，若t步骤的拥堵程度比t-1步骤的拥堵程度降低，则奖励R_t为正值，因此对强化学习模型给予更大的奖励。

此时，上述强化学习模型可以配置成包括Q网络(Q-network)或在Q网络上结合另一种人工神经网络的DQN。由此，策略π被学习以选择动作A_t来优化策略π，即，最大化针对在每个训练步骤中累积的未来奖励的期望值。

即，定义如下函数。

其中，在状态s_t下，进行训练以导出针对动作a_t的最佳Q函数，Q*。并且，γ作为贴现因子(Discount Factor)，是为了在期望值计算中较小地反映对未来步骤的奖励，从而选择在增加当前奖励的方向上的动作A_t。

而且，此时Q函数实际上配置为表格形式，因此利用函数近似器(FunctionApproximator)将其函数化成具有新参数的相似函数。

Q(s，a；θ)≈Q^*(s，a)

此时，可利用深度学习(Deep-Learning)人工神经网络，由此，如上所述，强化学习模型可以配置成包括DQN。

这样训练出来的强化学习模型基于状态信息S_t和奖励R_t确定下一个信号作为动作A_t，确定的下一个信号再次反映在信号灯S中，从而影响环境，即，交叉路的拥堵程度。

通过重复进行如上所述的过程来优化强化学习模型的策略。

另一方面，图5中示出的图，不仅可以在学习强化学习模型时使用，也可以在使用已确定的模型确定下一个信号时使用，在此情况下，可以不使用强化学习模型所含的强化学习算法，仅使用策略。当然，也可以持续使用强化学习算法，来同时进行学习和信号确定。

具体而言，控制部120可以在利用强化学习模型的策略确定下一个信号，并且生成对应于所确定的下一个信号的控制信号来控制信号灯S之前，预先学习强化学习模型。

此时，控制部120可以区分学习对象环境以及控制对象环境。例如，控制部120可以利用虚拟或真实的学习对象交叉路来学习强化学习模型后，仅将学习到的强化学习模型的策略应用于控制对象环境。此时，学习对象环境和控制对象环境也可以是同一环境，即，同一真实交叉路。

另一方面，在控制部120将虚拟的交通模拟环境用作学习对象环境的情况下，例如，交通模拟环境可利用如图6所示的环境。图6示出用于配置根据一实施例的信号控制装置的学习数据的各种设置值和交通模式。

如图6的上端所示，为了配置虚拟环境，在模拟器中具体设置车速、车辆的加速或减速性能、算出拥堵程度的对象车道长度、车道数量、车辆长度、信号的长度等。

而且，尤其，在一实施例中，为了配置交叉路的各种环境，通过配置各种各样的交叉路的交通量模式P1、P2、P3、P4来控制驶入车辆的数量，实现类似于真实的虚拟环境。

而且，控制部120可以通过从这样的虚拟的交通模拟环境接收有关每个车辆物体的每一步的位置等的信息来算出拥堵程度，或者通过分析从交通模拟环境中获取的交叉路图像来算出拥堵程度。

接着，控制部120基于如上所述的从交通模拟环境中提取的拥堵程度来训练强化学习模型，通过再次向交通模拟环境施加信号控制信号，在控制部120的控制下根据环境的变化进行训练。

另一方面，控制部120可以通过使用如上所述学习到的强化学习模型来进行改善真实交通环境，即，真实交叉路的拥堵程度的信号灯控制，下面将更详细地描述这种控制部120的信号控制方法。

下面描述的信号控制方法包括由参照图1至图6描述的信号控制装置100按时间序列处理的步骤。因此，即使是在下文中省略的内容，参照图1至图6所描述的内容也可应用于根据图7至图10所示实施例的信号控制方法。

图7为分步示出根据一实施例的信号控制方法的强化学习过程的流程图，图8为分步示出根据一实施例的信号控制方法的利用强化学习的模型来控制信号灯的过程的流程图，图9及图10为分步示出根据一实施例的信号控制方法的拥堵程度算出过程的流程图。

如图7所示，信号控制装置100基于交叉路的拥堵程度计算状态信息和奖励信息S710。交叉路的拥堵程度可以是学习对象交叉路的拥堵程度，或者是与真实控制对象相同的交叉路的拥堵程度。

其中，如上所述，状态信息可以是表示当前步骤的各车道区域或各行驶方向的拥堵程度的向量值，奖励可以是从当前的各车道区域或各行驶方向的拥堵程度的总和中减去先前的当前的各车道区域或各行驶方向的拥堵程度的总和的值。

而且，信号控制装置100将计算出的状态信息和奖励信息作为输入值输入至强化学习模型的代理S720，被代理选择后接收作为输出值的显示来生成控制信息S730。而且，信号控制装置100根据控制信息控制学习对象交叉路的信号S740。

此时，重复执行上述步骤S710至步骤S740，可在这种过程中算出最佳的Q函数。

另一方面，参照图8，观察利用重复步骤S710至步骤S740学习的强化学习模型来控制信号灯的过程，首先，信号控制装置100可获取拍摄真实交叉路的交叉路图像S810。

而且，可通过分析交叉路图像来算出拥堵程度S820。此时，可按车道区域或行驶方向算出拥堵程度。

其中，参照图9和图10，简单观察算出拥堵程度的过程，根据一实施例，信号控制装置100可以在交叉路图像中识别对应于车辆的物体，并获取每个物体的位置坐标S910。可以使用如上所述执行检测(Detection)的人工神经网络来执行该步骤。

而且，信号控制装置100可基于物体的位置坐标的分布算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息S920。

另一方面，如图10所示，在另一实施例中，信号控制装置100可在交叉路图像中提取对应于车辆的像素S1010，基于提取的像素的分布算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息S1020。

其中，信号控制装置100可利用执行分段的人工神经网络。

接着，在图8中，信号控制装置100可通过利用步骤S820中算出的拥堵程度信息来计算当前状态信息S830。

而且，接着，信号控制装置100可根据当前状态信息和当前步骤的显示算出针对下一个显示的控制信息S840。此时，在步骤S840中可利用经如图7所示的步骤训练的强化学习模型，在步骤S840中仅使用代理中的策略部分而不是使用整个该强化学习模型来算出下一个显示。

接着，信号控制装置100可根据算出的控制信息向信号灯S施加驱动信号。

当然，如上所述，此时信号控制装置100可以在执行图8所示的过程的同时执行对强化学习模型的额外的训练。

在上述实施例中使用的术语“～部”是指软件或现场可编程门阵列(fieldprogrammable gate array，FPGA)或专用集成电路(ASIC)等硬件组件，“～部”可执行某种角色。但是“～部”并不限定于软件或硬件。“～部”可以配置成驻留在可寻址的存储介质，还可以配置成运行一个或多个处理器。因此，作为一例，“～部”包括：如软件组件、面向对象的软件组件、类组件及任务组件的组件；进程；函数；属性；程序；子程序；程序专有代码段；驱动程序；固件；微代码；电路；数据；数据库；数据结构；表；数组；以及变量。

组件和“～部”中提供的功能可以组合成较少数量的构成要素和“～部”，或者与附加组件和“～部”分开。

不仅如此，组件和“～部”也可以被实现为运行装置或安全多媒体卡中的一个或多个中央处理器。

根据通过图7至图10描述的实施例的信号控制方法还可以以存储可由计算机执行的指令和数据的计算机可读介质的形式来实现。此时，指令和数据可以以程序代码的形式存储，在被处理器执行时，可以生成预定的程序模块来执行预定的操作。并且，计算机可读介质可以是可由计算机访问的任何可用介质，包括易失性和非易失性介质、可移动和不可移动介质。并且，计算机可读介质可以是计算机记录介质，计算机记录介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如，计算机记录介质可以是磁存储介质，如硬盘驱动器(HDD)及固态硬盘(SSD)；光记录介质，如光盘(CD)、数字化视频光盘(DVD)及蓝光光盘；或包括在可通过网络访问的服务器中的存储器。

此外，根据通过图7至图10描述的实施例中的信号控制方法也可以被实现为包括可通过计算机执行的指令的计算机程序(或计算机程序产品)。计算机程序包括由处理器处理的可编程机械指令，并且可以用高级编程语言(High-level Programming Language)、面向对象的编程语言(Object-oriented Programming Language)、汇编语言或机器语言来实现。此外，计算机程序可以记录在有形的计算机可读记录介质(例如，存储器、硬盘、磁/光介质或固态驱动器(Solid-State Drive，SSD)等)。

因此，根据通过图7至图10描述的实施例中的信号控制方法可通过由计算装置执行如上所述的计算机程序来实现。计算装置还可包括处理器、存储器、存储装置、连接到存储器和高速扩展端口的高速接口以及连接到低速总线和存储装置的低速接口中的至少一部分。这些组件中的每一个都使用各种总线相互连接，可以安装在共同主板上或以任何其他合适的方式安装。

其中，处理器可以在计算装置中处理指令，这些指令可包括存储在存储器或存储装置中以在外部输入或输出装置(例如连接到高速接口的显示器)上显示用于提供图形用户接口(Graphic User Interface，GUI)的图形信息的指令。例如，作为另一实施例，多个处理器和(或)多个总线可以与多个存储器和存储器形态一起适当地使用。并且，处理器可以实现为由包括多个独立模拟和(或)数字处理器的芯片组成的芯片组。

并且，存储器在计算装置中存储信息。作为一例，存储器可以配置为易失性存储器单元或其集合。作为另一例，存储器可以配置为非易失性存储器单元或其集合。并且，存储器也可以是另一种形式的计算机可读介质，例如磁盘或光盘。

而且，存储装置可以为计算装置提供大容量的存储空间。存储装置可以是计算机可读介质或包含这种介质的组件，例如，也可包括存储区域网络(Storage Area Network，SAN)中的装置或其他组件，可以是软盘装置、硬盘装置、光盘装置或磁带装置、闪存或其他类似的半导体存储装置或装置阵列。

上述实施例是用于例示，上述实施例所属领域的普通技术人员可以理解，在不改变上述实施例的技术构思或必要特征的情况下，可以很容易地将其修改为其他具体形式。因此，应当理解，上述实施例在所有方面都是示例性的而不是限制性的。例如，描述为单一型的每个组件可以以分散的形式实现，同样描述为分布式的组件可以以组合的形式实现。

想要通过本说明书保护的范围由所附权利要求而不是以上详细说明来表示，应理解为包括从权利要求的含义和范围及其等同物而衍生的所有变化或修改。

Claims

1.一种信号控制装置，基于强化学习而控制交通信号，其中，

所述信号控制装置包括：

拍摄部，通过拍摄交叉路的影像来获取交叉路图像，

控制部，对所述拍摄部获取的交叉路图像进行分析以数值化并算出所述交叉路的各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，利用强化学习模型和所述拥堵程度信息算出针对下一个信号的控制信息，所述强化学习模型通过使用基于交叉路的拥堵程度而计算的状态信息和奖励信息作为输入值而被训练，以及

驱动部，根据由所述控制部算出的针对下一个信号的控制信息而驱动信号灯，

所述控制部，利用人工神经网络提取对应于车辆的概率为规定值以上的像素，并根据提取的像素的数量算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，并算出0至100的拥堵程度中规定数值的拥堵程度，所述人工神经网络将所述交叉路图像作为输入而输出表示关于所述交叉路图像中所含的各像素是否为对应于车辆的位置的像素的概率分布的概率图，

所述控制部，算出当前的各车道区域或各行驶方向的拥堵程度的总和与先前的各车道区域或各行驶方向的拥堵程度的总和的差值作为奖励。

2.根据权利要求1所述的信号控制装置，其中，

所述强化学习模型以如下方式被训练：重复通过接收当前状态信息和奖励信息来输出下一个信号的过程，以优化对应于当前信号和当前状态信息而选择下一个信号的策略，所述当前状态信息基于交叉路的各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息而生成，所述奖励信息基于当前拥堵程度的总和与先前拥堵程度的总和而生成。

3.根据权利要求2所述的信号控制装置，其中，

所述强化学习模型通过利用从根据预设变量值和交通量模式而配置的交通模拟环境中获取的交叉路图像或拥堵程度信息而被训练。

4.根据权利要求2所述的信号控制装置，其中，

所述控制部通过反复进行以下过程来对所述强化学习模型进行训练：利用对所述交叉路图像进行分析而获取的当前拥堵程度信息来算出当前状态信息，基于所述当前拥堵程度的总和与先前拥堵程度的总和算出当前奖励信息，并且将控制信息传输给所述驱动部，所述控制信息是将所述当前状态信息和所述当前奖励信息输入所述强化学习模型而输出的针对下一个信号的控制信息。

5.根据权利要求1所述的信号控制装置，其中，

所述强化学习模型配置成包括Q网络和深度Q网络中的一者。

6.一种信号控制方法，由信号控制装置执行，其中，

所述信号控制方法包括如下步骤：

基于虚拟的学习对象交叉路的拥堵程度或真实的学习对象交叉路的拥堵程度而训练强化学习模型，

拍摄控制对象交叉路以获取交叉路图像，

对所述交叉路图像进行分析以数值化并算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，

基于所述拥堵程度信息计算所述控制对象交叉路的当前状态信息，

利用所述强化学习模型，根据所述当前状态信息和当前信号算出针对下一个信号的控制信息，以及

根据算出的控制信息驱动所述控制对象交叉路的信号灯；

在算出所述拥堵程度信息的步骤中，

利用人工神经网络提取对应于车辆的概率为规定值以上的像素，并根据提取的像素的数量算出各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息，并算出0至100的拥堵程度中规定数值的拥堵程度，所述人工神经网络将所述交叉路图像作为输入而输出表示关于所述交叉路图像中所含的各像素是否为对应于车辆的位置的像素的概率分布的概率图；

在训练所述强化学习模型的步骤中，

算出当前的各车道区域或各行驶方向的拥堵程度的总和与先前的各车道区域或各行驶方向的拥堵程度的总和的差值作为奖励。

7.根据权利要求6所述的信号控制方法，其中，

训练所述强化学习模型的步骤包括重复执行如下过程以优化对应于当前信号和当前状态信息而选择下一个信号的策略的步骤：基于所述学习对象交叉路的各车道区域的拥堵程度信息或各行驶方向的拥堵程度信息而计算状态信息和奖励信息，通过利用将计算的状态信息和奖励信息输入所述强化学习模型而输出的下一个信号来生成针对所述学习对象交叉路的控制信息，根据生成的控制信息控制所述学习对象交叉路的信号。

8.根据权利要求6所述的信号控制方法，其中，

每当重复执行获取所述交叉路图像的步骤至驱动所述信号灯的步骤时附加地执行训练所述强化学习模型的步骤。

9.一种计算机可读记录介质，其中，记录有用于执行根据权利要求6所述的信号控制方法的程序。