CN110941268A

CN110941268A - 一种基于Sarsa安全模型的无人自动小车的控制方法

Info

Publication number: CN110941268A
Application number: CN201911139128.5A
Authority: CN
Inventors: 朱斐; 葛洋洋; 凌兴宏
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-31
Anticipated expiration: 2039-11-20
Also published as: CN110941268B

Abstract

本发明公开了一种基于Sarsa安全模型的无人自动小车的控制方法，包括如下步骤：初始化，选择初始状态和初始动作；将初始状态置为当前状态，将初始动作置为当前动作；执行当前动作，无人自动小车进入下一状态并获得回报值；对约束函数进行线性处理；用拉格朗日乘数法求解无人自动小车处于下一状态时可执行的下一安全最优动作；完成Q值函数、状态空间和动作空间的更新。本发明将多维约束进行线性化，可以保证状态‑动作值函数和约束函数可求导，并且避免在求解过程中无人自动小车无法获得最佳动作，然后采用拉格朗日乘数法进行求解，提高了无人自动小车在当前状态下选择安全最优动作的效率和精确度。

Description

一种基于Sarsa安全模型的无人自动小车的控制方法

技术领域

本发明涉及人工智能及控制技术领域，具体涉及一种基于Sars a安全模型的无人自动小车的控制方法。

背景技术

无人自动小车可以应用于工厂中重物的搬运、餐厅送菜以及解决快递最后一公里的配送问题等。无人自动小车在工厂中可以用于搬运危险易碎、重量或体积较大的物品，这不仅可以提高工厂的运作效率，也减轻了员工的劳动强度。无人自动小车在餐厅送菜和快递配送行业中的应用可以降低工作人员的工作强度，提高作业的效率，提高客户的满意度。然而实际应用中对无人自动小车在复杂任务场景中的安全要求越来越高。在实际应用中，无人自动小车需要躲避出现在任务路径上的障碍物。如何保证无人自动小车在完成复杂环境中任务的同时，合理规避路径上的障碍物以及突然出现的障碍物是问题研究的重点。

强化学习是智能体通过与环境进行交互，获得最大化的回报值及完成其他特定目标的一种方法。随着对强化学习的不断研究，强化学习逐渐应用在自动控制领域并取得了一定的成果，然而在基于强化学习的无人自动小车的应用中，保证无人自动小车的安全是一个关键问题。安全强化学习方法(safe reinforcement learning，简称SRL)是在强化学习方法的基础上进行设计的，可以用来解决无人自动小车的安全问题，该方法在无人自动小车学习决策的过程中最大化相关问题的期望回报值，并在无人自动小车的整个学习或调度的过程中确保合理的系统性能及满足安全约束。现有的安全强化学习方法在前期探索阶段需要无人自动小车不断的进入危险状态进行“试错式学习”，或者需要收集大量额外的环境信息以及专家指导。这不仅增加了无人自动小车的学习成本，并且在实际应用中，无人自动小车的很多损害是不可逆的，以往的方法没有彻底解决无人自动小车的安全问题，且表现难以令人满意。

发明内容

本发明的目的是提供一种基于Sarsa安全模型的无人自动小车的控制方法，可以确保无人自动小车在移动过程中躲避障碍物。

为实现上述发明目的，本发明提供以下的技术方案：一种基于Sarsa安全模型的无人自动小车的控制方法，包括如下步骤：

S1、初始化状态-动作值函数Q(x，u)，其中，

u∈U(x)，获取步长α、回报值R、折扣因子γ、策略参数ε、权重参数β，初始化状态空间X和动作空间U，选择初始状态和初始动作；

S2将初始状态置为当前状态x，将初始动作置为当前动作u；

S3、执行当前动作u，无人自动小车进入下一状态x并获得回报值R；

S4、对约束函数

进行线性处理；

S5、用拉格朗日乘数法求解无人自动小车处于下一状态x′时可执行的下一安全最优动作u^*；

S6、完成Q值函数、状态空间X和动作空间U的更新；

S7、判断下状态是否为目标状态，如是，则结束本次控制，如否，则进入步骤S8；

S8、将下一状态x置为当前状态x，将下一安全最优动作u^*置为当前动作u，回到步骤S3。

进一步的，Sarsa安全模型满足如下公式：

x′＝f(x，u)，表示无人自动小车处于当前状态x执行动作u后进入下一状态x′的概率。

进一步的，Sarsa安全模型满足如下公式：

表示下一状态x′是否满足安全约束，可以由当前状态x和执行的当前动作u决定，即下一状态x是安全的是因为无人自动小车所处的当前状态x是安全的，当前动作u是安全动作；

符号

指符号左边的内容被定义为右边的内容。

进一步的，采用如下公式对约束函数进行线性处理：

其中，符号≈表示左边由右边近似得到；

下标t表示无人自动小车运动的时间；

上标T表示对向量或矩阵做转置运算；

g(x_t；ω_i)表示以x_t作为输入，输出和u_t有相同维数的一个向量。

进一步的，采用如下公式计算ω_i：

D＝{(x_t，u_t，x′_t)}，表示集合D由三元组(x_t，u_t，x′_t)组成，表示智能体在当前状态x_t，执行当前动作u_t进入下一状态x_t，目标函数的最优解在集合D中找到。

进一步的，Sarsa安全模型满足如下条件：

其中：

为目标函数；

为约束函数；

S.t.表示满足，即目标函数在优化的过程中满足约束函数；

下标t和t+1表示无人自动小车运动的时间；

i表示第i个约束；

C_i为一个常量值。

进一步的，采用如下公式计算下一安全最优动作：

其中，满足

的当前状态x_t和当前动作u_t是局部最优解，该局部最优解用梯度下降法求得，局部最优解是全局最优解；

λ_i是拉格朗日不定乘子，代表约束函数变化时，目标函数的变动。

由于上述技术方案运用，本发明与现有技术相比具有以下优点：本发明公开的基于Sarsa安全模型的无人自动小车的控制方法，目的在于克服现有安全强化学习方法的不足，提供一种更智能、更精确的安全强化学习方法，并将该方法应用在无人自动小车的障碍规避问题上。安全Sarsa方法是在Sarsa方法的基础上进行设计的，Sarsa方法是基于马尔可夫决策过程的一种强化学习方法。无人自动小车用安全Sarsa方法求解在当前状态下可以执行的最优动作的过程中不仅要得到最大的状态-动作值，同时也要满足安全约束的要求，从而获得安全的最优动作，避免碰到障碍物进入危险状态而遭受危害。为求解得到无人自动小车的安全最优动作，本发明将多维约束进行线性化，可以保证状态-动作值函数和约束函数可求导，并且避免在求解过程中无人自动小车无法获得最佳动作，然后采用拉格朗日乘数法进行求解，提高了无人自动小车在当前状态下选择安全最优动作的效率和精确度。

附图说明

图1为本发明中控制方法的示意图；

图2为本发明中的无人自动小车运行示意图。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述。

参见图1和图2，如其中的图例所示，图2中，自动小车1沿路径运行，需要躲避静态障碍物2、躲避行人3、躲避向任意方向运动的动态障碍物4，基于Sarsa安全模型的无人自动小车的控制方法包括如下步骤：

S1、初始化状态-动作值函数Q(x，u)，其中，

S2将初始状态置为当前状态x，将初始动作置为当前动作u；

S4、对约束函数

进行线性处理；

S6、完成Q值函数、状态空间X和动作空间U的更新；

本实施例中优选的实施方式，Sarsa安全模型满足如下公式：

表示下一状态x′是否满足安全约束，可以由当前状态x和执行的当前动作u决定，即下一状态x′是安全的是因为无人自动小车所处的当前状态x是安全的，当前动作u是安全动作；

符号

脂符号左边的内容被定义为右边的内容。

本实施例中优选的实施方式，采用如下公式对约束函数进行线性处理：

其中，符号≈表示左边由右边近似得到；

下标t表示无人自动小车运动的时间；

上标T表示对向量或矩阵做转置运算；

本实施例中优选的实施方式，采用如下公式计算ω_i：

表示集合D由三元组(x_t，u_t，x′_t)组成，表示智能体在当前状态x_t，执行当前动作u_t进入下一状态x_t，目标函数的最优解在集合D中找到。

进一步的，Sarsa安全模型满足如下条件：

其中：

为目标函数；

为约束函数；

S.t.表示满足，即目标函数在优化的过程中满足约束函数；

下标t和t+1表示无人自动小车运动的时间；

i表示第i个约束；

C_i为一个常量值。

本实施例中优选的实施方式，采用如下公式计算下一安全最优动作：

其中，满足

具体的：安全Sarsa方法包括多个步骤，初始化状态-动作值Q(x，u)，

u∈U(x)和获取步长α、回报值r、折扣因子γ、策略参数ε、权重参数β等环境信息；在外层循环执行时首先需要初始化状态空间X和动作空间U并选择初始安全动作u；内层循环的每个时间步内需要细分步骤，首先执行动作u，无人自动小车进入下一状态x’并获得回报值r，然后对约束函数进行线性近似处理，再用拉格朗日乘数法求解无人自动小车处于状态x’时可执行的安全最优动作u*，最后完成Q值函数、状态和动作的更新。详细步骤如下：

步骤一：初始化环境信息

初始化状态-动作值函数Q(x，u)，

u∈U(x)和获取步长α、回报值r、折扣因子γ、策略参数ε、权重参数β等环境信息，为无人自动小车在环境中进行探索学习和状态-动作值Q(x，u)的迭代做好准备。

步骤二：外层循环开始前的初始化操作

在该循环开始时首先需要初始化状态空间X和动作空间U并选择初始安全动作u。

步骤三：无人自动小车与环境交互，在受限的情况下进行学习并获得长期累积回报最大值

3.1.执行动作u，无人自动小车进入下一状态x’并获得回报值r

3.2.对约束函数进行线性近似处理

安全Sarsa方法是在Sarsa方法的基础上增加多维安全约束来保证无人自动小车的安全的，为了高效准确的求解无人自动小车每一步的安全最优动作，本发明提出用拉格朗日乘数法求解安全Sarsa方法，拉格朗日乘数法求解最优化问题的要求是目标函数和约束函数一阶连续可导，目标函数在时间连续的情况下是一阶连续可导的，但是约束函数在构造的过程中不一定可以保证一阶连续可导，解决方法是通过对约束函数线性化实现约束函数的可导性。由于无人自动小车的下一状态是由当前状态和当前采取的动作决定的，可得：

x′＝f(x，u) (1)

上述公式(1)表示无人自动小车处于当前状态x执行动作u后进入下一状态x’的概率，公式(2)表示状态x’是否满足安全约束，可以由上一状态x和执行的动作u决定，即状态x’是安全的是因为智能体所处的上一状态是安全的，并执行了安全动作u。符号

指符号左边的内容被定义为右边的内容。在求解过程中，为使求解得到的结果是全局最优解，这就需要目标函数和约束函数是凸函数，根据Sarsa方法中状态-动作值函数的定义可知，目标函数是凸函数，但是约束函数可能不是凸函数，如果将约束函数进行线性近似，由于线性函数一定是凸函数，故由此得到的约束函数是凸函数。此时用安全Sarsa方法一定可以得到无人自动小车当前状态下的全局最优安全动作。对约束函数进行线性近似有：

上式中符号≈表示左边由右边近似得到，下标t表示无人自动小车运动的时间，上标T表示对向量或矩阵做转置运算。其中g(xt；ωi)以xt作为输入，输出和ut有相同维数的一个向量，而ωi可通过求解函数(4)得到：

上述公式中，集合D由三元组(xt，ut，xt’)组成，(xt，ut，xt’)表示智能体在当前状态xt，执行动作ut进入下一状态xt’，目标函数的最优解在集合D中找到。

3.3.用拉格朗日乘数法求解无人自动小车处于状态x’时可执行的安全最优动作u*

故对约束函数进行线性近似后可以得到如下的求解公式：

根据拉格朗日乘数法将上述求解公式转化为如下形式：

公式(6)中，满足

和

的当前状态xt和动作ut是局部最优解，该局部最优解用梯度下降法求得，当公式(6)为凸函数时，局部最优解是全局最优解。λi是拉格朗日不定乘子，代表约束函数变化时，目标函数的变动，由于最优解满足约束c_i(x_t，u_t)-C_i＝0，所以λi的取值不会影响最优化问题的求解。

3.4.完成Q值函数、状态和动作的更新，本次时间步执行结束。

安全Sarsa方法将约束函数线性化，使目标函数和约束函数转化为凸函数，所以，由拉格朗日乘数法求解得到的最优解是全局最优解。该方法使无人自动小车在运行过程中的动作满足约束条件，避免无人自动小车执行危险动作进入危险状态造成不必要的损害。安全Sarsa方法不仅可以应用在状态空间和动作空间是离散的情况下，也很好的解决了在状态空间和动作空间是连续情况下的问题求解。

所述状态为位置，所述动作为向某个方向移动，所述无人自动小车包括控制装置、转向驱动装置以及移动驱动装置，所述控制装置为所述Sarsa安全模型，所述转向驱动装置和所述移动驱动装置均为伺服电机。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。