CN112346457A

CN112346457A - 用于避障的控制方法、装置、电子设备及可读存储介质

Info

Publication number: CN112346457A
Application number: CN202011209780.2A
Authority: CN
Inventors: 王鲁晗; 邓家寅; 初星河; 王刚; 傅彬
Original assignee: Zhiyou Open Source Communication Research Institute Beijing Co ltd
Current assignee: Zhiyou Open Source Communication Research Institute Beijing Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-09

Abstract

本公开实施例公开了一种用于避障的控制方法、装置、电子设备及可读存储介质，该方法包括：获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；获取当前阶段的观察状态；基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作，通过保持对过去观察状态和控制动作的记忆，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

Description

用于避障的控制方法、装置、电子设备及可读存储介质

技术领域

本公开涉及自动驾驶技术领域，具体涉及一种用于避障的控制方法、装置、电子设备及可读存储介质。

背景技术

最近十年自动驾驶的发展突飞猛进。在自动驾驶中，首先需要考虑的就是安全问题，无需人工干预即可在不发生碰撞的条件下到达目的地。

现有自动驾驶避障技术主要包括非学习的传统避障方法和基于学习的避障方法。然而本发明人发现，传统避障方法通常是为解决稀疏障碍环境中的导航问题而设计的，因此在复杂环境它们的效率较低；基于监督学习的方法需要大量人工标注的数据集来训练，成本过高；现有强化学习方法容易陷入局部最优。因此，现有自动驾驶避障技术都不能很好地解决大型复杂环境自动驾驶中面临的诸如无法构建环境地图、环境障碍物复杂、环境动态变化等问题。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种用于避障的控制方法、装置、电子设备及可读存储介质。

第一方面，本公开实施例中提供了一种用于避障的控制方法。

具体地，所述用于避障的控制方法，包括：

获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；

获取当前阶段的观察状态；

基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作。

结合第一方面，本公开在第一方面的第一种实现方式中：

所述控制动作包括加速度和速度方向的角加速度；

所述目标对象状态信息包括目标对象位置、目标对象速度和速度方向；

所述目标对象与周围环境的距离信息包括通过传感器在不同方向上采集的与障碍物之间的距离；

所述目标对象与目的地的相对位置信息包括目标对象与目的地之间的距离和角度。

结合第一方面，本公开在第一方面的第二种实现方式中，所述基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作包括：

将所述当前阶段的观察状态输入至预测模型，与存储在所述预测模型的隐藏层的所述观察状态和控制动作的历史记录共同作用，以获取当前阶段的控制动作，

其中，所述预测模型为循环确定性策略梯度模型，包括当前Actor网络、目标Actor网络、当前Critic网络和目标Critic网络。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，该方法还包括：

将执行所述控制动作得到的奖励和下一阶段的观察状态，以及所述观察状态和控制动作的历史记录组成经验回放数据；

基于所述经验回放数据更新所述预测模型的参数。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述奖励基于以下一种或多种确定：

当前位置与目的地之间的距离减小值；

目标对象与障碍物之间的最小距离；

目标对象视角是否指向无障碍区域；

恒定惩罚。

结合第一方面的第三种实现方式，本公开在第一方面的第五种实现方式中，所述基于所述经验回放数据更新所述预测模型的参数包括：

基于所述当前阶段的观察状态确定当前阶段的控制动作；

确定所述当前阶段的控制动作产生的奖励以及下一阶段的观察状态；

基于所述下一阶段的观察状态确定下一阶段的控制动作；

确定所述当前阶段的控制动作的第一得分和所述下一阶段的控制动作的第二得分；

基于所述第一得分和第二得分，更新所述预测模型的参数。

结合第一方面、第一方面的第一种至第五种实现方式中的任一项，本公开在第一方面的第六种实现方式中，所述目标对象包括自动驾驶车辆、无人机、机器人中的任意一种。

第二方面，本公开实施例中提供了一种用于避障的控制装置。

具体地，所述用于避障的控制装置，包括：

第一获取模块，被配置为获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；

第二获取模块，被配置为获取当前阶段的观察状态；

确定模块，被配置为基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第六种实现方式中任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第六种实现方式中任一项所述的方法。

根据本公开实施例提供的技术方案，通过获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；获取当前阶段的观察状态；基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作，通过保持对过去观察状态和控制动作的记忆，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的用于避障的控制方法的流程图；

图2示出根据本公开实施例的获得目标对象与周围环境的距离信息的示意图；

图3示出根据本公开实施例的用于避障的控制方法的示意图；

图4示出根据本公开实施例的预测模型的结构示意图；

图5示出根据本公开实施例的更新模型参数的流程图；

图6示出根据本公开另一实施例的用于避障的控制方法的流程图；

图7示出根据本公开实施例的用于避障的控制装置的框图；

图8示出根据本公开实施例的电子设备的框图；

图9示出适于实现本公开实施例的用于避障的控制方法和装置的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本发明人发现，传统避障方法通常是为解决稀疏障碍环境中的导航问题而设计的，因此在复杂环境它们的效率较低；基于监督学习的方法需要大量人工标注的数据集来训练，成本过高；现有强化学习方法容易陷入局部最优。因此，现有自动驾驶避障技术都不能很好地解决大型复杂环境自动驾驶中面临的诸如无法构建环境地图、环境障碍物复杂、环境动态变化等问题。

本发明人认为，现有强化学习方法容易陷入局部最优的原因是没有考虑传感器误差的影响，将避障问题建模为马尔可夫决策过程(Markov decision process，简称MDP)，即根据当前状态决定当前动作。当无法观察到某一时刻t的状态s_t而是接收到具有分布p(o_t|s_t)的观察值o_t时，立即观察序列不再满足马尔可夫性质。

为了解决上述问题，自动驾驶避障需要依赖历史轨迹h_t＝(o_t,a_t-1,o_t-1,...,o₀)推断当前状态并据此做出决策。在这方面，决策过程符合部分可观测马尔可夫决策过程(partially observable Markov decision process，POMDP)的框架，该过程表征了处于某个隐藏状态的智能体获得对该状态的观察，采取行动并转移到另一个隐藏状态同时获得奖励的过程。

图1示出根据本公开实施例的用于避障的控制方法的流程图。

如图1所示，该方法包括操作S110～S130。

在操作S110，获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；

在操作S120，获取当前阶段的观察状态；

在操作S130，基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作。

根据本公开实施例，所述控制动作包括加速度α和速度方向的角加速度β，通过加速度和速度方向的角加速度，可以方便地实现端到端的自动驾驶控制方案，例如可以方便地根据加速度和速度方向的角加速度对自动驾驶汽车的油门、刹车和方向盘进行控制。

根据本公开实施例，所述目标对象状态信息包括目标对象位置、目标对象速度和速度方向。例如，可以通过GPS和惯导设备进行测量，得到车辆在地图上的横坐标x、纵坐标y、速度大小v和速度方向θ。

根据本公开实施例提供的技术方案，通过目标对象位置、目标对象速度和速度方向，可以使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述目标对象与周围环境的距离信息包括通过传感器在不同方向上采集的与障碍物之间的距离。例如，可以通过雷达返回的雷达信号或测距仪返回的距离来表征。例如可以使用9个测距仪朝向不同的方向采集与障碍物之间的距离，表示为ψ＝[d₀,...,d₈]，如图2所示。

根据本公开实施例提供的技术方案，通过传感器在不同方向上采集的与障碍物之间的距离，可以获得更加全面的障碍物信息，进一步降低碰撞发生的概率。

根据本公开实施例，所述目标对象与目的地的相对位置信息包括目标对象与目的地之间的距离和角度，可以表示为

该信息可以根据当前位置和目的地位置直接计算得到。

根据本公开实施例提供的技术方案，通过目标对象与目的地之间的距离和角度，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，降低崩溃和迷路的概率。

根据本公开实施例，在操作S130，基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作可以包括：

将所述当前阶段的观察状态输入至预测模型，与存储在所述预测模型的隐藏层的所述观察状态和控制动作的历史记录共同作用，以获取当前阶段的控制动作。

根据本公开实施例，预测模型可以是基于深度强化学习的神经网络模型，即决策网络。如图3所示，在输入车辆状态信息x,y,v,θ、车辆与周围环境的距离信息ψ＝[d₀,...,d₈]以及车辆与目的地的相对位置信息

的情况下，决策网络可以输出动作向量a＝[α,β]，用于车辆控制，在下一周期，基于车辆控制将产生新的车辆状态信息、车辆与周围环境的距离信息以及车辆与目的地的相对位置信息，再次输入到决策网络中，如此反复直至车辆到达目的地。

根据本公开实施例，该预测模型例如可以实现为循环确定性策略梯度(Recurrentdeterministic policy gradient，RDPG)网络，由critic网络Q_w(a,h)和actor网络μ_θ(h)组成，其网络参数分别为w和θ。除此之外，critic网络和actor网络分别有一个目标网络，为Q_w′(a,h)和μ_θ′(h)，其网络参数分别为w′和θ′，且目标网络的网络结构与当前网络相同。

图4示出根据本公开实施例的预测模型的结构示意图。

如图4所示，actor网络和critic网络的网络结构可以采用完全相同的形式，例如可以采用如下设置：

输入：15维张量，1×15

全连接层1：11个神经元

全连接层2：400个神经元

全连接层3：300个神经元

LSTM层：300个神经元

输出层：2维张量，1×2,分别为为纵向加速度、速度方向的角加速度。

根据本公开实施例提供的技术方案，通过将所述当前阶段的观察状态输入至预测模型，与存储在所述预测模型的隐藏层的所述观察状态和控制动作的历史记录共同作用，以获取当前阶段的控制动作，可以保持对过去观察状态和控制动作的记忆，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，该方法还包括：

基于所述经验回放数据更新所述预测模型的参数。

根据本公开实施例提供的技术方案，通过将执行所述控制动作得到的奖励和下一阶段的观察状态，以及所述观察状态和控制动作的历史记录组成经验回放数据；基于所述经验回放数据更新所述预测模型的参数，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述奖励基于以下一种或多种确定：

当前位置与目的地之间的距离减小值，可称为行进奖励，以激励对象向目的地移动，例如可以表示为r_trans＝σd_dist，其中，σ是一个正常数，d_dist是单步行进后车辆的当前位置和目的地之间的距离的减小值；

目标对象与障碍物之间的最小距离，可称为障碍惩罚，以防止对象过于靠近任何障碍物，例如可以表示为

式中α和β是两个正常数，而d_min是车辆与障碍物之间的最小距离；

目标对象视角是否指向无障碍区域，可称为自由空间奖励，该奖励可进一步使对象躲避障碍，如果对象的第一视角指向无障碍区域，将获得恒定的自由空间奖励r_free；

恒定惩罚，可称为单步惩罚，即每一步将获得恒定的惩罚r_step，可以促进对象尽快到达目的地。

最终的奖励可以表示为以下形式：

r_final＝r_trans+r_bar+r_free+r_step

该奖励是一种非稀疏的奖励，不只是在完成期望目标才给出奖励，在行进过程中也给出奖励引导智能体完成目标。根据本公开实施例提供的技术方案，通过以上四种方式确定的奖励，可以训练得到更好的强化学习模型，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

图5示出根据本公开实施例的更新模型参数的流程图。

如图5所示，该方法包括操作S510～S550。

在操作S510，基于所述当前阶段的观察状态确定当前阶段的控制动作；

在操作S520，确定所述当前阶段的控制动作产生的奖励以及下一阶段的观察状态；

在操作S530，基于所述下一阶段的观察状态确定下一阶段的控制动作；

在操作S540，确定所述当前阶段的控制动作的第一得分和所述下一阶段的控制动作的第二得分；

在操作S550，基于所述第一得分和第二得分，更新所述预测模型的参数。

根据本公开实施例，第一得分和第二得分可以是Q值，即动作的价值。通过第一得分和第二得分可以得到一个对不同时间的状态的估计的差异td-error，从而可以根据td-error更新预测模型的参数。

根据本公开实施例提供的技术方案，通过基于所述当前阶段的观察状态确定当前阶段的控制动作；确定所述当前阶段的控制动作产生的奖励以及下一阶段的观察状态；基于所述下一阶段的观察状态确定下一阶段的控制动作；确定所述当前阶段的控制动作的第一得分和所述下一阶段的控制动作的第二得分；基于所述第一得分和第二得分，更新所述预测模型的参数，可以使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述目标对象可以包括自动驾驶车辆、无人机、机器人中的任意一种。

以下结合一具体实施例对本公开的用于避障的控制方法进行说明。

算法设定：

1)对车辆运动模型建模

本公开实施例采用完整约束的车辆运动学模型。对于车辆的状态信息包括横坐标x和纵坐标y、速度大小v和速度方向θ。对车辆的控制量为纵向加速度α和速度方向的角加速度β。假设转向动作立即生效，则自动驾驶车辆的动力学公式为：

v_t+1＝v_t+αΔT

θ_t+1＝θ_t+βΔT

x_t+1＝x_t+v_t+1ΔTcos(θ_t+1)

y_t+1＝y_t+v_t+1ΔTsin(θ_t+1)

其中，t和t+1表示相邻的两个时间周期，ΔT表示两次控制操作的时间间隔。

2)对车辆观测及运动控制建模

假设车辆当前状态为s，执行的控制操作为a，获得奖励为r。考虑具有连续状态和动作空间的MDP和POMDP。如果决策过程为MDP且为确定性策略，则可以将决策过程表示为μ(s_t):s_t→a_t，即根据当前状态决定当前动作。当无法观察到某一时刻t的状态s_t而是接收到具有分布p(o_t|s_t)的观察值o_t时，MDP成为POMDP。立即观察序列不再满足马尔可夫性质：p(o_t+1|a_t,o_t,a_t-1,o_t-1,...,o₀)≠p(o_t+1|o_t,a_t)。因此，需要根据整个历史轨迹h_t＝(o_t,a_t-1,o_t-1,...,o₀)来推断当前状态s_t并据此做出决策。在部分可观察的环境中最佳控制策略，通过最大化下式将历史轨迹投影到动作。

其中，γ为取值在[0,1]之间的参数。

3)预测模型的输入、输出以及学习奖励设置参见上文的说明。

4)RDPG强化学习网络训练

RDPG通过使用以下策略梯度更新策略参数将深度确定性策略梯度(DDPG，DeepDeterministic Policy Gradient)的框架扩展到POMDP：

DDPG策略更新：

RDPG策略更新：

式中

代表动作值函数。

在学习过程中，RDPG智能体使用其当前学习的策略与环境进行交互，并且在一个训练轮次结束时，该智能体将整个训练过程缓存到回放内存中，并从回放内存中随机采样一些轮次进行参数优化。具体实施步骤参见图6。

图6示出根据本公开另一实施例的用于避障的控制方法的流程图。

如图6所示，该方法包括操作S601～S612。

在操作S601，构建并初始化RDPG神经网络。随机初始化critic网络的actor网络的网络参数w和θ，并将目标网络的网络参数设置为与当前网络一致，w′←w,θ′←θ。初始化回放数组R为空。设置训练轮数。设置最大训练轮数M为1000轮，并设置每一轮最大时间步为100步。初始化随机噪声N用于探索。

在操作S602，获得初始观测值h₀。

在操作S603，选择并执行操作，将得到的奖励和下一状态连同之前的状态和动作，一起存进经验回放数组。根据本公开实施例，可以输入当前观测值h_t到网络，并输出动作a_t＝μ_θ(h_t)+N_t，执行动作a_t，获得奖励r_t和下一时刻观测值o_t。其中，r_t中涉及的系数和奖励值例如可以设置为：σ＝2.0,α＝8.0,β＝25.0,r_free＝0.1,r_step＝-0.6。存储当前状态转移(h_t,a_t,o_t,r_t)到回放数组R中，并更新历史轨迹h_t+1＝[h_t,a_t,o_t]。

在操作S604，从回放数组采样L组训练数据

本发明中L＝64，针对每一个数据，设置y_i＝r_i+γQ_w′([h_i,a_i,o_i],μ_θ′([h_i,a_i,o_i]))，用于更新网络，其中γ＝0.99。

在操作S605，使用Adam优化器更新critic网络和actor网络，

其中，actor网络的学习率为10^-4，critic网络的学习率为10^-3。

在操作S606，更新目标网络。w′←εw+(1-ε)w′，θ′←εθ+(1-ε)θ′，其中ε＝0.001。

在操作S607，判断是否发生状态异常，如果异常则返回操作S602重新训练，否则执行操作S608。

在操作S608，确定模型是否训练完毕，若训练完毕则继续执行操作S609，否则返回S603继续训练。例如，可以通过是否完成预先设置的训练轮数，确定模型是否训练完毕。

在操作S609，将训练好的critic网络模型和actor网络模型存储到装配有相应传感设备的汽车上。

在操作S610和S611，通过传感器获得车辆状态信息[x,y,v,θ]、车辆与周围环境的距离信息[d₀,d₁,...,d₈]、车辆与目的地的相对位置信息

将上述信息合并为一个向量

输入到决策网络中，输出车辆控制信息a＝[α,β]。

在操作S612，如果没有到达目的地则反复执行操作S610和S611直至到达目的地，流程结束。

本公开实施例提出了一种基于人工智能的避障方法。将自动驾驶车辆建模为完整约束的运动模型，通过观测车辆的坐标、航向角等信息，使用循环神经网络对车辆的运动方向和运动速度进行控制。借助仿真环境利用RDPG算法训练智能体，使得该智能体学习到一种端到端POMDP避障问题的控制策略。在使用神经网络对车辆控制时，充分考虑车辆的历史轨迹以及观测误差，将该避障问题建模为POMDP问题进行求解，通过保持对过去观察状态和控制动作的记忆，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

图7示出根据本公开实施例的用于避障的控制装置700的框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图7所示，所述用于避障的控制装置700包括第一获取模块710、第二获取模块720和确定模块730。

第一获取模块710，被配置为获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；

第二获取模块720，被配置为获取当前阶段的观察状态；

确定模块730，被配置为基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作。

根据本公开实施例提供的技术方案，通过第一获取模块，被配置为获取观察状态和控制动作的历史记录，所述观察状态包括目标对象状态信息、目标对象与周围环境的距离信息以及目标对象与目的地的相对位置信息；第二获取模块，被配置为获取当前阶段的观察状态；确定模块，被配置为基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作，通过保持对过去观察状态和控制动作的记忆，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述控制动作包括加速度和速度方向的角加速度，可以方便地实现端到端的自动驾驶控制方案。

根据本公开实施例，所述目标对象状态信息包括目标对象位置、目标对象速度和速度方向，可以使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述目标对象与周围环境的距离信息包括通过传感器在不同方向上采集的与障碍物之间的距离，可以获得更加全面的障碍物信息，进一步降低碰撞发生的概率。

根据本公开实施例，所述目标对象与目的地的相对位置信息包括目标对象与目的地之间的距离和角度，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，降低崩溃和迷路的概率。

根据本公开实施例，所述基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作包括：

根据本公开实施例，该装置还可以包括更新模块，被配置为执行如下操作：

基于所述经验回放数据更新所述预测模型的参数。

根据本公开实施例，所述奖励基于以下一种或多种确定：

当前位置与目的地之间的距离减小值；

目标对象与障碍物之间的最小距离；

目标对象视角是否指向无障碍区域；

恒定惩罚。

根据本公开实施例提供的技术方案，通过以上四种方式确定的奖励，可以训练得到更好的强化学习模型，使自动驾驶车辆可以更好地适应大型复杂环境中的自动导航，能够提高避障成功率，降低崩溃和迷路的概率。

根据本公开实施例，所述基于所述经验回放数据更新所述预测模型的参数包括：

基于所述当前阶段的观察状态确定当前阶段的控制动作；

基于所述下一阶段的观察状态确定下一阶段的控制动作；

基于所述第一得分和第二得分，更新所述预测模型的参数。

根据本公开实施例，所述目标对象包括自动驾驶车辆、无人机、机器人中的任意一种。

本公开还公开了一种电子设备，图8示出根据本公开实施例的电子设备的框图。

如图8所示，所述电子设备800包括存储器801和处理器802，其中，存储器801用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器802执行以实现如下操作：

获取当前阶段的观察状态；

根据本公开实施例，所述控制动作包括加速度和速度方向的角加速度。

根据本公开实施例，所述目标对象状态信息包括目标对象位置、目标对象速度和速度方向。

根据本公开实施例，所述目标对象与周围环境的距离信息包括通过传感器在不同方向上采集的与障碍物之间的距离。

根据本公开实施例，所述目标对象与目的地的相对位置信息包括目标对象与目的地之间的距离和角度。

根据本公开实施例，处理器802还用于执行：

基于所述经验回放数据更新所述预测模型的参数。

根据本公开实施例，所述奖励基于以下一种或多种确定：

当前位置与目的地之间的距离减小值；

目标对象与障碍物之间的最小距离；

目标对象视角是否指向无障碍区域；

恒定惩罚。

基于所述当前阶段的观察状态确定当前阶段的控制动作；

基于所述下一阶段的观察状态确定下一阶段的控制动作；

基于所述第一得分和第二得分，更新所述预测模型的参数。

如图9所示，计算机系统900包括处理单元901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行上述实施例中的各种处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。处理单元901、ROM902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。其中，所述处理单元901可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于避障的控制方法，包括：

获取当前阶段的观察状态；

2.根据权利要求1所述的方法，其中：

所述控制动作包括加速度和速度方向的角加速度；

3.根据权利要求1所述的方法，其中，所述基于所述观察状态和控制动作的历史记录以及所述当前阶段的观察状态确定当前阶段的控制动作包括：

4.根据权利要求3所述的方法，还包括：

基于所述经验回放数据更新所述预测模型的参数。

5.根据权利要求4所述的方法，其中，所述奖励基于以下一种或多种确定：

当前位置与目的地之间的距离减小值；

目标对象与障碍物之间的最小距离；

目标对象视角是否指向无障碍区域；

恒定惩罚。

6.根据权利要求4所述的方法，其中，所述基于所述经验回放数据更新所述预测模型的参数包括：

基于所述当前阶段的观察状态确定当前阶段的控制动作；

基于所述下一阶段的观察状态确定下一阶段的控制动作；

基于所述第一得分和第二得分，更新所述预测模型的参数。

7.根据权利要求1～6任一项所述的方法，其中，所述目标对象包括自动驾驶车辆、无人机、机器人中的任意一种。

8.一种用于避障的控制装置，包括：

第二获取模块，被配置为获取当前阶段的观察状态；

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1～7任一项所述的方法步骤。

10.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1～7任一项所述的方法步骤。