CN113741412B

CN113741412B - 自动驾驶设备的控制方法、装置及存储介质

Info

Publication number: CN113741412B
Application number: CN202010477609.3A
Authority: CN
Inventors: 熊江; 浦世亮; 黄萱昆; 谢迪
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-09-01
Anticipated expiration: 2040-05-29
Also published as: CN113741412A; WO2021238723A1

Abstract

本申请公开了一种自动驾驶设备的控制方法、装置及存储介质，属于智能设备技术领域。所述方法包括：基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息；根据所述决策信息，确定目标决策区域，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域；基于所述目标决策区域，控制所述自动驾驶设备行驶；并将自动驾驶设备形式过程中所得到状态数据，决策信息，决策区域用于强化学习算法训练学习，逐步提升策略模型性能，高效完成其路径规划任务。

Description

自动驾驶设备的控制方法、装置及存储介质

技术领域

本申请涉及智能设备技术领域，特别涉及一种自动驾驶设备的控制方法、装置及存储介质。

背景技术

目前，诸如AGV(Automated Guided Vehicle，自动引导车)之类的自动驾驶设备在一些场景中得到广泛的应用，譬如，在自动化仓库系统中，AGV可以用于自动搬运货物，无需人工控制。

通常情况下，自动驾驶设备可以根据最短路径算法生成相应的规划路径，然后可以基于该规划路径进行行驶。在实施中，如果运行的自动驾驶设备发生轨迹冲突，则需要根据人工经验或预设规则，对规划路径进行调整。

然而，上述实现方式中，随着地图环境的复杂，自动驾驶设备的数量增加，自动驾驶设备之间的相互交互更加频繁和复杂，如何控制自动驾驶设备在复杂环境下高效的完成任务成为目前领域研究的热点。

发明内容

本申请提供了一种自动驾驶设备的控制方法、装置及存储介质，可以解决相关技术的减小碰撞概率的问题。所述技术方案如下：

一方面，提供了一种自动驾驶设备的控制方法，所述方法包括：

基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息；

根据所述决策信息，确定目标决策区域，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域；

基于所述目标决策区域，控制所述自动驾驶设备行驶。

在本申请一种可能的实现方式中，所述根据所述决策信息，确定目标决策区域，包括：

获取所述自动驾驶设备当前所在位置的位置信息，得到第一位置信息；

根据所述自动驾驶设备的尺寸信息、所述第一位置信息以及所述决策信息，确定第一决策区域；

若不存在与所述第一决策区域重叠的锁定区域，将所述第一决策区域确定为所述目标决策区域，所述锁定区域是指当前已被占用的区域。

在本申请一种可能的实现方式中，所述决策信息包括第一指示信息和第二位置信息，所述第一指示信息用于指示非原地旋转，所述第二位置信息用于指示下一次需要到达的目标位置；

所述方法还包括：

若存在与所述第一决策区域重叠的锁定区域，确定第二决策区域，所述第二决策区域包含在所述第一决策区域内且不包含所述锁定区域；

将所述第二决策区域确定为所述目标决策区域。

在本申请一种可能的实现方式中，所述确定第二决策区域，包括：

在所述第一决策区域内确定不包括所述锁定区域的最大内接矩形区域；

将所述最大内接矩形区域确定为所述第二决策区域。

在本申请一种可能的实现方式中，所述第一位置信息包括第一横坐标和第一纵坐标，所述尺寸信息包括长度和宽度；所述决策信息包括第一指示信息和第二位置信息，所述第一指示信息用于指示非原地旋转，所述第二位置信息用于指示下一次需要到达的目标位置，该第二位置信息包括第二横坐标和第二纵坐标；

所述根据所述自动驾驶设备的尺寸信息、所述第一位置信息以及所述决策信息，确定第一决策区域，包括：

将所述第一横坐标与所述长度的二分之一相减，以及将所述第一纵坐标与所述宽度的二分之一相减，将相减后得到的坐标对应的位置点确定为第一位置点；

将所述第二横坐标与所述长度的二分之一相加，以及将所述第二纵坐标与所述宽度的二分之一相加，将相加后得到的坐标对应的位置点确定为第二位置点；

以所述第一位置点为第一顶点，以及以所述第二位置点为第二顶点，确定包括所述第一顶点和所述第二顶点的矩形区域，得到所述第一决策区域。

在本申请一种可能的实现方式中，所述尺寸信息包括长度和宽度；

若所述决策信息包括第二指示信息，所述第二指示信息用于指示原地旋转，根据长度和所述宽度，确定第一数值；

确定以所述第一位置信息指示的位置为原点、以及以所述第一数值为半径的圆所在的区域，得到所述第一决策区域。

在本申请一种可能的实现方式中，所述若不存在与所述第一决策区域重叠的锁定区域，将所述第一决策区域确定为所述目标决策区域之前，还包括：

接收中央管理系统发送的其他自动驾驶设备的锁定区域的区域指示信息；或者，

接收所述其他自动驾驶设备发送的锁定区域的区域指示信息。

在本申请一种可能的实现方式中，所述方法包括：

获取所述目标决策区域的区域指示信息；

将所述决策信息、所述区域指示信息和所述状态数据作为一组训练样本存储至训练样本集中，所述训练样本集用于对所述策略决策模型进行训练。

另一方面，提供了一种自动驾驶设备的控制装置，所述装置包括：

第一确定模块，用于基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息；

第二确定模块，用于根据所述决策信息，确定目标决策区域，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域；

控制模块，用于基于所述目标决策区域，控制所述自动驾驶设备行驶。

在本申请一种可能的实现方式中，所述第二确定模块用于：

所述第二确定模块还用于：

将所述第二决策区域确定为所述目标决策区域。

在本申请一种可能的实现方式中，所述第二确定模块用于：

将所述最大内接矩形区域确定为所述第二决策区域。

所述第二确定模块用于：

在本申请一种可能的实现方式中，所述尺寸信息包括长度和宽度；所述第二确定模块用于：

在本申请一种可能的实现方式中，所述第二确定模块还用于：

在本申请一种可能的实现方式中，所述装置还包括训练模块，所述训练模块用于：

获取所述目标决策区域的区域指示信息；

另一方面，提供了一种自动驾驶设备的控制系统，所述控制系统包括多个自动驾驶设备，每个自动驾驶设备包括处理器和行进部件：

所述处理器用于基于在当前状态下获取的状态数据，通过策略决策模型确定决策信息，根据所述决策信息，确定目标决策区域，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域，并根据所确定的目标决策区域控制所述行进部件行驶。

在本申请一种可能的实现方式中，所述自动驾驶设备还包括收发器，所述收发器用于向其他设备发送信息，所述收发器还用于接收其他设备发送的信息。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述自动驾驶设备的控制方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的自动驾驶设备的控制方法的步骤。

本申请提供的技术方案至少可以带来以下有益效果：

基于在当前状态下获取的状态数据，通过策略决策模型确定决策信息。根据该决策信息确定执行该决策信息对应的决策所需占用的目标决策区域，且该目标决策区域与其他已被占用区域不重叠。也即是，本申请不是直接基于决策信息执行对应的动作，而是进一步确定了一个不易发生碰撞的目标决策区域，如此，在基于该目标决策区域控制该自动驾驶设备行驶的过程中，可以改善碰撞问题，从而在复杂环境下高效的完成任务。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种深度强化学习的框架的示意图；

图2是本申请实施例提供的一种实施环境的示意图；

图3是本申请实施例提供的一种自动驾驶设备的控制方法的流程图；

图4是本申请实施例提供的一种第一决策区域的示意图；

图5是本申请实施例提供的一种目标决策区域的示意图；

图6是本申请实施例提供的另一种目标决策区域的示意图；

图7是本申请实施例提供的一种自动驾驶设备的控制装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的自动驾驶设备的控制方法进行详细的解释说明之前，先对本申请实施例提供的应用场景和实施环境进行介绍。

首先，对本申请实施例提供的应用场景进行简单举例介绍。

目前，自动驾驶设备在自动化仓储系统中得到广泛应用，自动驾驶设备可以在不需要人工控制的情况下进行规划路径，以基于规划的路径自动完成快递包裹分拣、仓库货架搬运等任务，如此可以大幅度降低人力成本。近年来，随着人工智能技术的快速发展，深度强化学习作为人工智能领域内最受关注的研究方向之一，已经在游戏、机器人控制等领域取得了不错的结果。在深度强化学习中，可以使用神经网络模型对环境建模，获取状态数据(又称为状态空间)，基于状态数据确定动作空间，执行该动作空间指示的动作，其中，该状态数据可以包括环境信息和/或智能体(如本申请中的自动驾驶设备)的状态信息。同时，环境会对智能体的每个动作进行反馈，通过设置累积奖励的回报函数，来最大化智能体在当前状态下所能取得的未来期望收获，以辅助智能体在每一个状态采取更优的行为和动作。

譬如，请参考图1，该图1是根据一示例性实施例示出的一种深度强化学习的框架，该框架为MDP(Markov Decision Process，马尔科夫决策过程)。马尔科夫决策过程可以由元组(s,a,r,p,γ)进行描述，其中：s为有限的状态空间，a为有限的动作空间，p为状态转移概率，r为回报函数，γ为折扣因子，用来计算累积奖励。在规划过程中，，通过p(s_t+1,r_t|s_t,a_t)＝p(s_t+1,r_t|s_t,a_t,s_t-1,a_t-1,...,s₀,a₀)确定环境的状态转移概率，面对复杂的环境时，状态转移概率一般是不可知的,但是状态转移概率是环境的固有属性，不再发生改变。深度强化学习的目标是给定一个MDP寻找最优的策略，该策略是指从状态空间到动作空间的映射。作为一种示例，假设将当前状态s下执行动作a的概率记为π(a|s)，若智能体采用策略π，累积奖励在状态处的期望值为：V(s_t)＝E(r_t+γr_t+1+γ²t_t+2+...|s_t)，状态-动作的值函数为Q(s_t,a_t)＝E(r_t+γr_t+1+γ²t_t+2+...|s_t,a_t)，基于此，强化学习的目标是智能体通过和环境的交互学习到合适决策使得累积奖励的期望值最大。

在多智能体相互交互过程中，深度强化学习方法通常会通过增加碰撞惩罚的方式，使得深度强化学习算法在学习过程中，逐渐学习到减少相互之间的碰撞发生，然而这种方式无法保证学习到的策略一定不发生碰撞。为此，本申请实施例提供了一种自动驾驶设备的控制方法，可以解决该问题，其具体实现可以参见如下实施例。本申请实施例中将自动驾驶设备形式过程中所得到状态数据，决策信息，决策区域用于强化学习算法训练学习，逐步提升策略模型性能，高效完成其路径规划任务，避免碰撞。例如，通过强化学习算法训练得到策略决策模型的过程中，强化学习算法可以但不限于采用DQN、AC、TRPO、PPO等算法中的一种或多种。

其次，对本申请实施例涉及的实施环境举例进行简单介绍。

本申请实施例涉及的实施环境中可以包括多个自动驾驶设备，该方法可以由该多个自动驾驶设备中的任一自动驾驶设备来执行，作为一种示例，该多个自动驾驶设备之间可以相互通信。在一些实施例中，该自动驾驶设备可以包括无人搬运车，可以简称为AGV，或者，该自动驾驶设备还可以包括全自动驾驶汽车之类的设备。在一些实施例中，该自动驾驶设备还可能被称为智能移动设备等，譬如，还可以为智能机器人。

作为一种示例，请参考图2，每个自动驾驶设备上可以配置有诸如激光雷达、毫米波雷达、红外传感器之类的探测传感器210，以通过该探测传感器来获取周围的环境信息。另外，每个自动驾驶设备还包括行进部件220和处理器230，该行进部件220可以为车轮等，该处理器230用于根据探测传感器210探测得到的环境信息确定需要执行的动作，并根据该动作控制该行进部件220移动。进一步地，每个自动驾驶设备还可以包括收发器240，该收发器240可以用于向其他设备发送信息，如发送自己的位置信息等，该收发器240还可以用于接收其它设备发送的信息，如接收其它自动驾驶设备发送的位置信息等。并且，该每个自动驾驶设备还可以包括角度传感器、速度传感器，自动导引搬运车可以通过角度传感器探测当前的角度，以及通过速度传感器探测当前的速度。

进一步地，该实施环境还可以包括中央管理系统，该中央管理系统可以分别与该多个自动驾驶设备进行通信，能够用于调度该多个自动驾驶设备，示例性地，对于该多个自动驾驶设备中的每个自动驾驶设备，可以将自己当前的状态数据上报给该中央管理系统，以便于该中央管理系统下发给该多个自动驾驶设备中的其他自动驾驶设备。

在对本申请涉及的应用场景和实施环境举例介绍完之后，接下来将结合附图对本申请实施例提供的自动驾驶设备的控制方法进行详细的解释说明。

图3是本申请实施例提供的一种自动驾驶设备的控制方法的流程图，该方法可以应用于上述图2所示的实施环境中，由自动驾驶设备来执行。请参考图3，该方法包括如下步骤。

步骤301：基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息。

其中，状态数据可以包括该自动驾驶设备当前的状态信息和/或周围的环境信息。该状态信息可以包括但不限于该自动驾驶设备的旋转角度、速度、移动方向中的一项或多项，本申请对此不作限定。

其中，该环境信息可以包括但不限于障碍物的位置信息、环境中的各个自动驾驶设备当前的位置信息。作为一种示例，该环境信息可以通过探测传感器探测得到，或者，该环境信息还可以由该中央管理系统下发给该自动驾驶设备。

其中，该决策信息可以用于指示自动驾驶设备接下来需要执行什么动作。

作为一种示例，该决策信息可以包括第一指示信息和第二位置信息，该第一指示信息用于指示非原地旋转，该第二位置信息用于指示下一次需要达到的目标位置。即该第一指示信息用于指示该自动驾驶设备需要执行移动操作，进一步地，该移动操作可以直线移动和/或曲线移动，具体可以由该自动驾驶设备根据一定的策略进行决策。示例性的，该第二位置信息可以包括目标位置的坐标，譬如，假设该自动驾驶设备当前所在位置为X0，该第二位置信息为X1的坐标，说明该自动驾驶设备接下来从X0位置移动至X1位置处。

作为另一种示例，该决策信息可以包括第二指示信息，该第二指示信息用于指示原地旋转。也即是，该决策信息还可以指示该自动驾驶设备在原地旋转，在该种情况下，该决策信息可以不包括任何位置信息。

在实施中，该自动驾驶设备可以获取当前状态下的状态数据，然后可以将该状态数据输入至该策略决策模型中，该策略决策模型输出该决策信息。

其中，该策略决策模型可以用于基于任一状态数据确定对应的决策信息。该策略决策模型可以是基于训练样本集对待训练的神经网络模型进行训练得到的，其中，该训练样本集中包括多个训练样本，示例性地，该自动驾驶设备可以通过深度强化学的得到该策略决策模型。

步骤302：根据该决策信息，确定目标决策区域，该目标决策区域为执行该决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域。

在本申请实施例中，得到决策信息后，该自动驾驶设备不是直接基于该决策信息执行相应的动作，而是根据该决策信息，确定一个目标决策区域，所确定的目标决策区域是执行该决策信息对应的决策所需占用的区域，并且，该目标决策区域不与被其他已被占用区域重叠，如此，可以保证该自动驾驶设备在行驶过程中不会与其他自动驾驶设备发生碰撞。

作为一种示例，根据该决策信息，确定目标决策区域的实现可以包括：获取该自动驾驶设备当前所在位置的位置信息，得到第一位置信息，根据该自动驾驶设备的尺寸信息、该第一位置信息以及该决策信息，确定第一决策区域。若不存在与该第一决策区域重叠的锁定区域，将该第一决策区域确定为该目标决策区域，该锁定区域是指当前已被占用的区域。

作为一种示例，该第一位置信息可以是通过自身的定位设备获取得到，或者，该第一位置信息还可以是由中央管理系统下发后得到。该第一位置信息可以用于指示该自动驾驶设备在该环境中的位置，示例性的，该第一位置信息可以包括第一横坐标和第一纵坐标。

作为一种示例，该尺寸信息可以包括该自动驾驶设备的长度和宽度，该长度和宽度可以预先存储在该自动驾驶设备中。示例性的，假设该自动驾驶设备不是规则形状的智能体，则该长度可以是指该自动驾驶设备的最大长度，同理，该宽度可以是指该自动驾驶设备的最大宽度。

作为一种示例，该锁定区域可以是指当前已被其他自动驾驶设备占用的区域，该已被占用的区域实际上是其他自动驾驶设备在执行相应的决策所需占用的区域。不难理解，相对于其他自动驾驶设备来说，该目标决策区域也是已被占用区域。

在一种可能的实现方式中，接收中央管理系统发送的其他自动驾驶设备的锁定区域的区域指示信息。

也即是，该锁定区域可以是由中央管理系统通知给该自动驾驶设备的，示例性地，各个自动驾驶设备在确定自己的目标决策区域后，可以将目标决策区域上报给中央管理系统，该中央管理系统将各个自动驾驶设备的目标决策区域确定为锁定区域，并将下发给各个自动驾驶设备，如此，该自动驾驶设备可以获知其他自动驾驶设备已占用的区域，即锁定区域。其中，该锁定区域的数量可以为一个，也可以为多个，在该锁定区域的数量为多个的情况下，各个锁定区域的形状可以相同，也可以不同。

在另一种可能的实现方式中，接收其他自动驾驶设备发送的锁定区域的区域指示信息。

也即是，该锁定区域可以是由其他自动驾驶设备直接发送当前的自动驾驶设备的。示例性的，其他自动驾驶设备可以广播自己的锁定区域的区域指示信息，如此，当前的自动驾驶设备可以接收到附近的其他自动驾驶设备广播的锁定区域的区域指示信息。再或者，当前的自动驾驶设备与其他自动驾驶设备建立有通信连接，如此，其他自动驾驶设备可以通过该通信连接来发送锁定区域的区域指示信息。示例性的，该通信连接可以包括但不限于蓝牙连接、无线连接等。

该自动驾驶设备根据该自动驾驶设备的尺寸信息、该第一位置信息以及该决策信息，确定第一决策区域，然后判断该第一决策区域与当前的锁定区域是否有重叠，不难理解，如果没有重叠，说明该第一决策区域未被其他自动驾驶设备占用，在该种情况下，可以确定该第一决策区域为目标决策区域。

作为一种示例，根据该自动驾驶设备的尺寸信息、该第一位置信息以及该决策信息，确定第一决策区域的实现可以包括如下两种可能的实现方式：

第一种实现方式：该第一位置信息包括第一横坐标和第一纵坐标，该尺寸信息包括长度和宽度，该决策信息包括第一指示信息和第二位置信息，该第二位置信息包括第二横坐标和第二纵坐标。将该第一横坐标与该长度的二分之一相减，以及将该第一纵坐标与该宽度的二分之一相减，将相减后得到的坐标对应的位置点确定为第一位置点；将该第二横坐标与该长度的二分之一相加，以及将该第二纵坐标与该宽度的二分之一相加，将相加后得到的坐标对应的位置点确定为第二位置点。以该第一位置点为第一顶点，以及以该第二位置点为第二顶点，确定包括该第一顶点和该第二顶点的矩形区域，得到该第一决策区域。

作为一种示例，该第一位置信息可以包括该自动驾驶设备的质心的坐标。

也即是，该自动驾驶设备可以根据该第一位置信息、第二位置信息和尺寸信息，确定一个矩形区域，并将该矩形区域确定为该第一决策区域。不难理解，若确定了矩形区域的左下顶点和右上顶点，就可以唯一地确定一个矩形区域，因此，在实施例中，该自动驾驶设备基于第一位置信息包括的第一横坐标、第一纵坐标、以及该自动驾驶设备的长度和宽度，确定左下顶点。并基于第二位置信息包括的第二横坐标、第二纵坐标、以及该自动驾驶设备的长度和宽度，确定右上顶点，之后，即可以基于所确定的两个顶点，确定矩形区域，得到该第一决策区域。

譬如，请参考图4，假设该第一位置信息对应的位置为X0，该第二位置信息对应的目标位置为X1，该自动驾驶设备的长度为L，宽度为W。则按照上述确定方式，可以确定该第一位置点的坐标为(X0-L/2，Y0-W/2)，并且可以确定该第二位置点的坐标为(X1+L/2，Y1+W/2)。之后，以第一位置点为第一顶点，以及以第二位置点为第二顶点，可以确定包括该第一顶点和第二顶点的矩形区域为ABCD，将该矩形区域ABCD确定为该第一决策区域。

需要说明的是，上述确定第一决策区域的具体实现是示例性的，在另一实施例中，该可以采用其他方式来确定，譬如，可以确定出多个顶点，之后，根据所确定的多个顶点，确定矩形区域，得到第一决策区域。

第二种实现方式：该尺寸信息包括长度和宽度。若该决策信息包括第二指示信息，该第二指示信息用于指示原地旋转，根据长度和该宽度，确定第一数值，确定以该第一位置信息指示的位置为原点、以及以该第一数值为半径的圆所在的区域，得到该第一决策区域。

在该种实现方式中，若该决策信息包括用于指示原地旋转的第二指示信息，说明该自动驾驶设备需要占用的区域仅是自身所在区域，因此，可以确定以该第一位置信息为原点，以一定尺寸为半径的圆所在的区域，将所确定的区域确定为第一决策区域。譬如，可以根据三角形的勾股定理确定该第一数值，即通过公式r²＝(L/2)²+(W/2)²来确定第一数值，其中，该r表示第一数值，该L表示长度，该W表示宽度。

进一步地，由于自动驾驶设备在原地旋转过程中可能会有偏移，所以，为了保证该自动驾驶设备不与其他物体(如其他自动驾驶设备)发生碰撞，上述第一数值可以大于上述r，譬如，根据长度和宽度确定一个数值之后，可以将该数值增加指定阈值，得到该第一数值，其中，该指定阈值可以根据实际需求进行设置。

作为另一种示例，该决策信息包括第一指示信息和第二位置信息。在该种情况下，该方法还包括：若存在与该第一决策区域重叠的锁定区域，确定第二决策区域，该第二决策区域包含在该第一决策区域内且不包含该锁定区域；将该第二决策区域确定为该目标决策区域。

不难理解，若该决策信息包括第一指示信息和第二位置信息，说明需要自动驾驶设备从当前的位置移动至目标位置。在该种场景中，若存在与该第一决策区域重叠的锁定区域，说明所确定的第一决策区域可能已经预先被其他自动驾驶设备占用，如果此时将该第一决策区域确定为目标决策区域，后续在基于目标决策区域行驶的过程中，就容易发生碰撞。

为此，如果存在与该第一决策区域重叠的锁定区域，该自动驾驶设备可以确定包含在第一决策区域内但不包括该锁定区域的第二决策区域，以使得该第二决策区域未被其他自动驾驶设备占用，或者说，以使得该第二决策区域未被其他自动驾驶设备锁定，如此，即可将所确定的第二决策区域确定为该目标决策区域。

根据上文描述可知，该自动驾驶设备确定出的目标决策区域可能为矩形区域，也可能为圆形区域。在环境中包括多个自动驾驶设备的情况下，每个自动驾驶设备均可以确定出一个目标决策区域，譬如，如图5所示，该图5示出了了多个自动驾驶设备中各个自动驾驶设备所确定的目标决策区域的示意图，包括矩形区域和圆形区域，其中，一个区域对应一个自动驾驶设备。

作为一种示例，确定第二决策区域的实现可以包括：在该第一决策区域内确定不包括该锁定区域的最大内接矩形区域，将该最大内接矩形区域确定为该第二决策区域。

示例性的，该第二决策区域可以通过out1＝Fun1(RectA，RegionB)来确定，其中，该out1表示第二决策区域，该Fun1函数的功能是确定包含于第一决策区域但不包括该锁定区域的最大内接矩形区域，其中，该RectA表示第一决策区域，该RegionB表示锁定区域。

譬如，请参考图6，假设第一决策区域为AEKM，与该第一决策区域重叠的锁定区域包括两个，分别为BCD对应的圆形区域和LGHI对应的矩形区域，在该种情况下，可以在该第一决策区域AEKM内确定最大内接矩形区域，该最大内接矩形区域不包括的BCD和LGHI的任何区域，可以得到最大内接矩形区域为ANJM，将该ANJM可以确定为该第二决策区域。

作为另一种示例，若该决策信息包括第二指示信息，即在该决策信息用于指示该自动驾驶设备原地旋转的情况下，该自动驾驶设备如果确定存在与该第一决策区域重叠的锁定区域，则确定目标决策区域为空。

示例性的，若该决策信息包括第二指示信息，该目标决策区域可以通过out 2＝Fun2(CircleA,RegionB)来确定，其中，out 2表示目标决策区域，该CircleA表示第一决策区域，该RegionB表示锁定区域，该Fun2的功能是：判断CircleA和RegionB是否有重叠，若无重叠，则确定out 2为CircleA，若存在重叠，则返回为空。

进一步地，如前文所述，该自动驾驶设备确定该目标决策区域后，可以上报给中央管理系统，譬如，可以将用于指示该目标决策区域的区域指示信息上报给该中央管理系统，另外，在上报的同时还可以上报自己的设备标识，以便于中央管理系统可以获知该目标决策区域是哪个自动驾驶设备的。

步骤303：基于该目标决策区域，控制该自动驾驶设备行驶。

示例性地，该自动驾驶设备在该目标决策区域内行驶，以移动至决策信息指示的目标位置处。

作为一种示例，在该决策信息包括第二指示信息的情况下，若确定该目标决策区域为空，则基于该目标决策区域，控制该自动驾驶设备行驶的具体实现为：控制该自动驾驶设备原地不动。

也就是说，如果该决策信息用于指示该自动驾驶设备原地旋转，并且，存在与上述第一决策区域重叠的锁定区域，如果在该第一决策区域内原地旋转就可能会发生碰撞，所以在该种情况下，可以保持原地不动，即控制该自动驾驶设备不旋转。

进一步地，该自动驾驶设备在基于该目标决策区域行驶的过程中，可以对行驶过的区域进行释放，以便于其他自动驾驶设备能够继续使用所释放的区域。在释放过程中，该自动驾驶设备可以确定行驶过的区域，并上报给中央管理系统，如此，中央管理系统即可将释放的区域下发给各个自动驾驶设备。

进一步地，获取该目标决策区域的区域指示信息，将该决策信息、该区域指示信息和该状态数据作为一组训练样本存储至训练样本集中，该训练样本集用于对该策略决策模型进行训练。

其中，区域指示信息可以用于确定该目标决策区域，譬如，在该目标决策区域为矩形区域的情况下，该区域指示信息可以包括该矩形区域的四个顶点的坐标，再如，在该目标决策区域为圆形区域的情况下，该区域指示信息可以包括该圆形区域的原点坐标和半径。

该训练样本集中可以存储有多组训练样本，每组训练样本可以是在历史的决策过程中确定的，如可以包括历史决策信息、历史区域指示信息和历史状态数据。

在本申请中，根据通过策略决策模型确定的决策信息和状态数据，并结合目标决策区域的区域指示信息，对策略决策模型进行进一步地训练，如此得到的策略决策模型更加安全、快速。

另外，在自动驾驶设备交互和学习的循环过程中，样本的质量将影响训练后的策略决策模型的决策性能，在本申请实施例中，能够生成不碰撞的多自动驾驶设备的交互样本，同时很好的和常规强化学习算法配合，探索并生成高效完成任务的样本，通过这些高质量的样本，强化学习算法能够学习到性能较好的策略决策模型。

需要说明的是，上述实现是一个循环的学习过程，也即是，每次循环执行的步骤包括基于策略决策模型确定决策信息，基于决策信息确定目标决策区域，并基于此确定下一次的训练样本，从而基于训练样本继续对策略决策模型进行训练更新，如此，可以学习到更好的策略决策模型，使得该策略决策模型能够学习到避免多自动驾驶设备碰撞的情况下，高效地完成路径规划任务。

在本申请实施例中，基于在当前状态下获取的状态数据，通过策略决策模型确定决策信息。根据该决策信息确定执行该决策信息对应的决策所需占用的目标决策区域，且该目标决策区域与其他已被占用区域不重叠。也即是，本申请不是直接基于决策信息执行对应的动作，而是进一步确定了一个不易发生碰撞的目标决策区域，如此，在基于该目标决策区域控制该自动驾驶设备行驶的过程中，可以改善碰撞问题，从而在复杂环境下高效的完成任务。

图7是本申请实施例提供的一种自动驾驶设备的控制装置的结构示意图，该自动驾驶设备的控制装置可以由软件、硬件或者两者的结合实现成为自动驾驶设备的部分或者全部，请参考图7，该装置包括：

第一确定模块710，用于基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息；

第二确定模块720，用于根据所述决策信息，确定目标决策区域，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域；

控制模块730，用于基于所述目标决策区域，控制所述自动驾驶设备行驶。

在本申请一种可能的实现方式中，所述第二确定模块720用于：

所述第二确定模块720还用于：

将所述第二决策区域确定为所述目标决策区域。

将所述最大内接矩形区域确定为所述第二决策区域。

所述第二确定模块720用于：

在本申请一种可能的实现方式中，所述尺寸信息包括长度和宽度；所述第二确定模块720用于：

在本申请一种可能的实现方式中，所述第二确定模块720还用于：

获取所述目标决策区域的区域指示信息；

需要说明的是：上述实施例提供的自动驾驶设备的控制装置在实现自动驾驶设备的控制方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的自动驾驶设备的控制装置与自动驾驶设备的控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中自动驾驶设备的控制方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的自动驾驶设备的控制方法的步骤。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自动驾驶设备的控制方法，其特征在于，应用于自动驾驶设备中，所述方法包括：

基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息，所述决策信息用于指示所述自动驾驶设备待执行的动作；

基于所述目标决策区域，控制所述自动驾驶设备行驶；

所述决策信息包括第一指示信息和第二位置信息，所述第一指示信息用于指示非原地旋转，所述第二位置信息用于指示下一次需要到达的目标位置，所述第二位置信息包括第二横坐标和第二纵坐标；所述根据所述决策信息，确定目标决策区域，包括：

获取所述自动驾驶设备当前所在位置的位置信息，得到第一位置信息，所述第一位置信息包括第一横坐标和第一纵坐标；根据所述自动驾驶设备的尺寸信息、所述第一位置信息以及所述决策信息，确定第一决策区域，所述尺寸信息包括长度和宽度；

若不存在与所述第一决策区域重叠的锁定区域，将所述第一决策区域确定为所述目标决策区域，所述锁定区域是指当前已被占用的区域；

若存在与所述第一决策区域重叠的锁定区域，确定第二决策区域，所述第二决策区域包含在所述第一决策区域内且不包含所述锁定区域；将所述第二决策区域确定为所述目标决策区域；

将所述第一横坐标与所述长度的二分之一相减，以及将所述第一纵坐标与所述宽度的二分之一相减，将相减后得到的坐标对应的位置点确定为第一位置点；将所述第二横坐标与所述长度的二分之一相加，以及将所述第二纵坐标与所述宽度的二分之一相加，将相加后得到的坐标对应的位置点确定为第二位置点；以所述第一位置点为第一顶点，以及以所述第二位置点为第二顶点，确定包括所述第一顶点和所述第二顶点的矩形区域，得到所述第一决策区域。

2.如权利要求1所述的方法，其特征在于，所述确定第二决策区域，包括：

将所述最大内接矩形区域确定为所述第二决策区域。

3.如权利要求1所述的方法，其特征在于，所述尺寸信息包括长度和宽度；

4.如权利要求1所述的方法，其特征在于，所述若不存在与所述第一决策区域重叠的锁定区域，将所述第一决策区域确定为所述目标决策区域之前，还包括：

5.如权利要求1所述的方法，其特征在于，所述方法包括：

获取所述目标决策区域的区域指示信息；

6.一种自动驾驶设备的控制装置，其特征在于，配置于自动驾驶设备中，所述装置包括：

第一确定模块，用于基于在当前状态下获取的状态数据，通过策略决策模型，确定决策信息，所述决策信息用于指示所述自动驾驶设备待执行的动作；

控制模块，用于基于所述目标决策区域，控制所述自动驾驶设备行驶；

所述决策信息包括第一指示信息和第二位置信息，所述第一指示信息用于指示非原地旋转，所述第二位置信息用于指示下一次需要到达的目标位置，所述第二位置信息包括第二横坐标和第二纵坐标；所述第二确定模块用于：

7.一种自动驾驶设备的控制系统，其特征在于，所述控制系统包括多个自动驾驶设备，每个自动驾驶设备包括处理器和行进部件：

所述处理器用于基于在当前状态下获取的状态数据，通过策略决策模型确定决策信息，根据所述决策信息，确定目标决策区域；所述决策信息用于指示所述自动驾驶设备待执行的动作，所述目标决策区域为执行所述决策信息对应的决策所需占用的且与其他已被占用区域不重叠的区域，并根据所确定的目标决策区域控制所述行进部件行驶；