CN113359744B

CN113359744B - 一种基于安全强化学习及视觉传感器的机器人避障系统

Info

Publication number: CN113359744B
Application number: CN202110684879.6A
Authority: CN
Inventors: 郭洪飞; 陈世帆; 曾云辉; 何睿潼; 姜涛; 廖丁为; 何智慧; 任亚平; 张锐
Original assignee: Jinan University
Current assignee: Inner Mongolia North Hauler JSCL
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-03-01
Anticipated expiration: 2041-06-21
Also published as: CN113359744A

Abstract

本发明公开了一种基于安全强化学习及视觉传感器的机器人避障系统，包括卷积神经模块，所述卷积神经网络模块包括长短期记忆单元；还包括加入LSTM单元、第一卷积层、第二卷积层、第一全连接层、第二全连接层、输出层。本发明采用强化学习算法的增强，使多维，连续，多约束问题能够较好的收敛于信任域内，解决了以往带约束的强化学习算法的诸多问题。可以大幅提高生产安全，普适地应用在不同场合的危险工作上，在解放劳动力的同时，提高了操作安全性、精准性。

Description

一种基于安全强化学习及视觉传感器的机器人避障系统

技术领域

本发明涉及人工智能领域，主要关于人工智能中安全强化学习算法在机器人避障问题中的应用，特别是涉及一种基于安全强化学习及视觉传感器的机器人避障系统。

背景技术

年来，随着科学技术的不断发展，智能机器人已应用于多个领域，包括工业生产、军事、灾难救援等方面，其中涉及了环境感知、动态决策与规划、自动控制等多种技术。同时，近年来也出现了各种社会问题，如劳动力数量下降、生产成本上升、自动化生产效率较低，产业转型未完成、社会老龄化程度日益严重等问题。机器人在市场中的应用能够有效缓解上述问题，因此，深入研究机器人技术的相关难点并进一步开拓机器人应用市场是十分必要的。并且，机器人技术更是衡量国家科技水平和工业自动化水平的重要指标。

其中，自主避障是智能机器人技术中重要组成部分，是智能机器人的核心技术之一。机器人自主躲避障碍可以极大促进相关智能产品的使用率，减小人力成本，使智能机器人能够更好地代替人类完成部分难度大且危险的工作，例如灾区救援、疫区消毒等。但与此同时，训练避障机器人的过程中，不可避免地会出现相关的安全问题，因此，进一步优化智能机器人避障训练过程中存在的安全隐患能够进一步推进机器人在社会中的应用。

目前，智能机器人要想实现自主避障，需要通过测距传感器以及许多避障算法来实现。典型的测距传感器包括激光传感器、超声波传感器、视觉传感器等，然而这些传感器都存在各自的局限性。在常用的避障算法中，主要有模拟退火法、人工势场法和模糊逻辑方法，这类方法易于实现，但求解时容易陷入局部最优解。A*(A-star)算法、栅格法等方法解决了建模难的问题，但由于其搜索效率较低，使得其难以应用到实际中。遗传算法、人工神经网络算法等智能仿生学方法效率更高，但这类方法在应用中存在易陷入局部最优解及收敛速度较慢。

与此同时，深度学习中的强化学习技术在近年来得到了迅猛的发展，将强化学习技术应用于机器人避障领域已有不少相关研究。主要包括基于值的方法、基于策略的方法以及值与策略相结合的方法。基于值的方法主要适用于离散动作空间，其目标是通过最大化每个状态的值函数来得到最优策略，而值函数则是用来衡量当前状态下机器人选择策略优劣程度，主要有时序差分(TemporalDifference,TD)算法、Q-Learning算法、SARSA(State-Action-Reward-State-Action)算法以及Dyna算法等；基于策略的方法通过直接优化策略得到最优策略，应用于机器人避障中则主要有策略梯度法(Policy Gradient,PG)和模仿学习(ImitationLearning,IL)等；值和策略相结合的方法则主要为Actor-Critic算法。

现有的强化学习技术在机器人避障的研究中，基于DoubleDQN网络和深度强化学习的移动机器人避障方法(专利号：CN201811562344.6)，一种基于虚拟场景训练的机器人避障方法(专利号：CN201911183320.4)，前者解决了现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题，后者以构建虚拟环境的方式，结合基于Sarsa-lamda强化学习模型，实现机械臂轨迹重构以及有效避障，两者均未对动态、连续、高维的控制模型进行分析和建模，同时也未涉及对机器人避障的安全问题进行限制和考量。

总体来说，将强化学习应用于机器人避障的研究取得了一定的成效，但缺少关于安全强化学习(CPO)方面的相关研究，其在安全领域方面的研究仍十分匮乏。在深度RL中的工作任务中，智能体在学习过程中以提高性能的目的自由地探索任何行为。然而，在许多现实领域，给予智能体完全的自由可能是不可接受的。例如，当机器人从A点移动到B点时，我们不仅希望其能够自主避障，选择最短路径，我们还需要其能够在选择最短路径的同时不会对周围环境造成危险。近年来，机器人误伤人类的新闻层出不穷，从这一角度出发，对机器人自主避障过程中实施安全性的约束是具有现实意义的。

发明内容

为了弥补上述现有技术的不足，本发明提出一种基于安全强化学习及视觉传感器的机器人避障系统，对机器人自主避障过程中实施安全性的约束。

本发明的技术问题通过以下的技术方案予以解决：一种基于安全强化学习及视觉传感器的机器人避障系统，包括卷积神经模块，所述卷积神经网络模块包括长短期记忆单元，用于对激光雷达的输入进行编码；包括加入LSTM单元，用于记忆模型学习过程中的信息；还包括第一卷积层，其使用一维卷积核来对LSTM单元编码的结果进行特征提取；还包括第二卷积层，其使用一维卷积核来进行进一步的特征提取；还包括第一全连接层，信息特征输入到所述第一全连接层；还包括第二全连接层，所述第一全连接层的输出连同机器人的目标点的相对坐标和机器人的速度一起输入第二全连接层，最终输出机器人线速度的平均值和角速度的平均值；还包括输出层。

在一些实施例中，还包括如下技术特征：

所述第一卷积层层使用ReLU作为激活函数；所述第一、二全连接层使用的激活函数也是ReLU；所述输出层针对移动机器人的线速度和角速度分别使用sigmoid和tanh作为激活函数。

还包括单目视觉传感器和双目视觉传感器，用于完成对图像信息的收集；所述单目视觉系统只使用一个视觉传感器，所述双目立体视觉系统由两个摄像机组成，利用三角测量原理获得场景的深度信息，并且可以重建周围景物的三维形状和位置；所述双目视觉系统通过匹配准确得到立体视觉系统能够比较准确地恢复视觉场景的三维信息。

包括训练模型，所述训练模型中，对于移动机器人i在t时刻的奖赏函数设计如下:

其中r^reached表示移动机器人到达设定目的地基时给予的奖励:

r^approaching表示机器人接近目的地的奖赏：

r^collision表示机器人发生碰撞时的奖赏:

r^deviation表示机器人运动方向与目的地连线夹角过大时的奖赏:

其中

表示当前移动机器人的坐标，gⁱ是该机器人的目标点坐标，r_a＝30,r_b＝2。r^deviation中的角度为弧度制，0.785弧度是角度制的45度。

是当前机器人线速度方向与机器人及目标点连线夹角。

还包括CPO误差模块，用于对收集到的数据进行误差分析，在安全约束条件内更新卷积神经网络模型和目标模型，利用所述CPO误差模块来确保卷积神经网络模型和目标模型的更新都在安全约束条件内。

还包括云服务器及储存器，实时采集的实时环境图像信息预处理后结果发送到所述云服务器及储存器中。

还包括CPU处理器，用于将预处理后的图像信息发送到CPU处理器中进行运算，其中CPU处理器通过实时与模型训练模块中的目标模型模块进行交互实现对结果的运算。

还包括机器人决策模块，用于将所述CPU处理器运算所得出的结果交由此机器人决策模块进行执行并将执行结果发送到云服务器及储存器中。

还包括仿真平台，用于根据机器人所处的环境进行所述仿真平台上的建模，构成障碍物仿真环境。

本发明采用强化学习算法的增强，使多维，连续，多约束问题能够较好的收敛于信任域内，解决了以往带约束的强化学习算法的诸多问题。可以大幅提高生产安全，普适地应用在不同场合的危险工作上，在解放劳动力的同时，提高了操作安全性、精准性。

附图说明

图1是本发明实施例的模型训练模块框图。

图2是本发明实施例的模型应用模块流程图。

图3是本发明实施例的卷积神经网络模块的网络结构图。

图4是本发明实施例的模型应用模块中的主要流程图。

图5是本发明实施例的模型训练模块中的主要流程图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

本发明下述实施例涉及一种基于安全强化学习及视觉传感器的机器人避障系统，该系统主要包括两个模块，分别为模型训练模块和模型应用模块。在模型训练模块中，主要包括数据存储单元、障碍物仿真环境、目标模型、CPO误差模块、卷积神经网络模型；在模型应用模块中，主要包括单目视觉传器、双目视觉传感器、预处理模块、图像存储模块、CPU处理器、机器人决策模块，其中目标模型为模型训练模块中训练好的目标模型，预处理模块为模型训练模块中的卷积神经网络模块；其中，模型应用模块中，利用机器人决策模块和图像存储模块两个单元进行处理后得到的信息将发送到云服务器及储存器进行存储。在模型应用模块中，系统实现的主要流程为：利用单目视觉传感器和双目视觉传感器采集实时环境的图像信息并进行预处理，并将结果存储到图像存储模块中，再发送到云服务器及储存器中；将预处理后的图像信息发送到CPU处理器中进行运算，其中CPU处理器通过实时与模型训练模块中的目标模型模块进行交互实现对结果的运算；将CPU处理器运算所得出的结果交由机器人决策模块执行并将执行结果发送到模型训练模块的数据存储单元以及云服务器及储存器中。在模型训练模块中，系统实现的主要流程为：对障碍物仿真环境收集到的信息利用卷积神经网络模型进行预处理，并将处理后的信息储存到数据存储单元中，再通过CPO误差模块对收集到的数据进行误差分析，在安全约束条件内更新卷积神经网络模型和目标模型。

本发明实施例分层次介绍如下：

1、参见模型训练模块框图(图1)，使用了卷积神经模块，在卷积神经网络模块，我们首先使用一个长短期记忆单元(Long Short Term Memory,LSTM)来对激光雷达的输入进行编码，加入LSTM单元来记忆模型学习过程中的信息可以在一定程度上提升深度强化训练的效果。对于移动机器人来说，除了当前时刻的视觉传感器数据外，历史的视觉传感器数据也很有可能提供关于环境中障碍物的有效信息。使用LSTM对视觉传感器进行编码可以将历史帧的信息同当前帧一同编码。之后的第一个卷积层使用了32个大小为5步长为2的一维卷积核来对LSTM单元编码的结果进行特征提取，这一层使用了ReLU作为激活函数。其后的第二个卷积层使用了16个大小为3步长为2的一维卷积核来进行进一步的特征提取。然后，信息特征输入到一个由256个单元的全连接层。本层的输出连同机器人的目标点的相对坐标和机器人的速度一起输入最后一个有128单元的全连接层，最终输出机器人线速度的平均值和角速度的平均值。两个全连接层使用的激活函数也是ReLU，最后的输出层针对移动机器人的线速度和角速度分别使用了sigmoid和tanh作为激活函数。

2、参见模型应用模块框图(图2)，结合了单目视觉传感器和双目视觉传感器完成对图像信息的收集。单目视觉系统只使用一个视觉传感器。单目视觉系统在成像过程中由于从三维客观世界投影到N维图像上，在自主移动机器人中已得到广泛应用。而双目立体视觉系统由两个摄像机组成，利用三角测量原理获得场景的深度信息，并且可以重建周围景物的三维形状和位置，类似人眼的体视功能，原理简单。双目视觉系统需要精确地知道两个摄像机之间的空间位置关系，而且场景环境的3D信息需要两个摄像机从不同角度，同时拍摄同一场景的两幅图像，并进行复杂的匹配，才能准确得到立体视觉系统能够比较准确地恢复视觉场景的三维信息。

3、训练模型中的奖励函数的设定，设定奖赏函数的目的是引导机器人进行学习，使之按照研究者预期的目标进行动作的选择。本文的预期是机器人在移动时可以在避免碰撞的情况卜，以尽可能短的时间抵达目的地。对于移动机器人i在t时刻的奖赏函数设计如下:

该奖赏函数由四项组成，其中r^reached表示移动机器人到达设定目的地基时给予的奖励:

其中，r^approaching表示机器人接近目的地的奖赏：

r^collision表示机器人发生碰撞时的奖赏:

其中

是当前机器人线速度方向与机器人及目标点连线夹角。

4、参见模型训练模块中的主要流程(图4)，通过CPO误差模块对收集到的数据进行误差分析，在安全约束条件内更新卷积神经网络模型和目标模型，利用CPO误差模块来确保卷积神经网络模型和目标模型的更新都在安全约束条件内。该过程实现了的多次更新，确保获得稳定、高效的模型。

其中，CPO是基于RL理论的一种进阶策略算法，这一理论限制了政策的奖励和成本之间的差异，收紧了信任区域进行政策搜索的已知界限，并在寻找深度RL的政策搜索理论和实践之间提供了紧密的联系，在保证奖励增加的前提下，满足其他根本约束条件。该方法并不是直接求解目标函数，而是运用了近似替代的方法，根据信息论、概率论等理论，引入代理函数，使用代理函数将更容易从实验集中获得样本估计，并且得到目标和约束的较优的局部近似，该算法将更新的坏情况性能和最坏情况约束违反与依赖于算法超参数的值进行约束。具体算法步骤为：

受信任区域方法的启发提出的CPO，使用信任区域策略，而非对政策分歧的惩罚，以实现更大的步长：

CPO理论中的目标函数和约束条件为：

其中：

d^π＝(1-γ)(I-γP_π)^-1表示未来折扣后的价值函数

γ折扣因子τ＝(s₀,a₀,s₁,…)

S表示一系列的(state)状态

A表示action(动作)

R：S×A×S→R'奖励函数

P：S×A×S→[0,1]转移概率函数

C_i表示转移状态，D表示距离函数

平稳策略π：S→P(A)表示从状态到动作上的概率分布的映射

π(a|s)表示从状态s中选择动作a的概率

g表示目标的梯度，约束的梯度i作为b_i，H表示KL的散度

B＝[b₁,…,b_m]

c＝[c₁,…,c_m]^T

r＝g^TH^-1B,S＝B^TH^-1B

u＝Δu_tR_t+1P_t

对于目标函数来说，我们只需要推高公式的下界就行了，对于策略的约束来说，只需要保证新策略依然满足约束条件，即：

假设费雪信息矩阵H总是正半定的，这个优化问题是凸的，在可行的时候，可以利用对偶性有效地求解：

其中：

λ,θ在police更新后成为λ^*,θ^*用D表示

r＝g^TH^-1B

S＝B^TH^-1B

由于近似误差，CPO可能会采取一个错误的步骤，并产生一个不可行的迭代π_k。我们通过提出一个更新来纯粹降低约束式(7)来恢复：

具体的算法步骤：

5、参见模型应用模块中的主要流程(图5)，实时采集实时环境的图像信息并进行预处理，并将结果发送到云服务器及储存器中。该过程主要结合了单目视觉传感器和双目视觉传感器进行实时环境的信息采集，并利用预处理模块对所收集到的图像进行灰度化、几何变换、图形增强等预处理操作，对预处理后的图像信息利用图像存储模块进行储存，并发送至云服务器及储存器进行进一步的存储。

6、根据模型应用模块中的主要流程，将预处理后的图像信息发送到CPU处理器中进行运算，其中CPU处理器通过实时与模型训练模块中的目标模型模块进行交互实现对结果的运算。该过程实现了机器人在避障过程中的对每一时间节点上的路径规划的运算，利用实时更新的目标模型来进行机器人的避障。

7、根据模型应用模块中的主要流程，将CPU处理器运算所得出的结果交由机器人决策模块进行执行并将执行结果发送到云服务器及储存器中。该过程实现了模型运行结果及环境信息的实时反馈，利用所反馈的信息，可以实现目标模型的不断更新。

8、根据模型训练模块中的主要流程，利用数据存储单元中的信息实现与预先建立好的障碍物仿真环境的交互，从而不断训练。首先根据机器人所处的环境进行仿真平台上的建模，构成障碍物仿真环境；并预先定义好贴合机器人避障要求的states、actions和rewards函数模型。利用数据存储单元中的信息，结合states、actions和rewards函数与仿真平台进行交互，不断优化自身参数，实现的实时更新。在机器人避障中，states可理解为history的函数，即用以决定机器人下一步操作的相关信息，而这些信息则是从history中提取得出,其中，history可理解为在该时刻前，机器人所采取的一系列动作(action)中，每个动作对机器人路径规划所造成的影响；actions可理解为机器人在每一时刻所采取的动作，如向前走、向左(右)转等行为；rewards可理解为机器人从起点移动到终点的时间。其中：

history:H_t＝A₁,O₁,R₁,…,A_t,O_t,R_t

state:S_t＝f(H_t),A_t＝h(S_t)

Reward：r(x,u)＝max(-ε²-|u|,κ)κ为特定常数

实例分析：如：要完成智能扫地机器人回座充电这一过程：在模型训练模块的构建中，我们首先可以在gym上搭建虚拟的障碍物仿真环境，即配置好过程中可能出现的障碍，如客厅中随机摆放的椅子、桌子；设置好初始的卷积神经网络模型，其中，第一个卷积层使用了32个大小为5步长为2的一维卷积核，这一层使用了ReLU作为激活函数。第二个卷积层使用16个大小为3步长为2的一维卷积核来进行进一步的特征提取，使用两个全连接层，分别具有256个单元和128个单元。两个全连接层使用的激活函数也是ReLU，最后的输出层针对移动机器人的线速度和角速度分别使用了sigmoid和tanh作为激活函数；设置好目标模型，即states、actions和rewards函数模型，其中，我们可将action定义为左转、右转、直行，state定义为：前方有障碍物、前方无障碍物，其中的奖励(reward)函数如权利要求3进行设置；将对仿真环境中的信息进行预处理(灰度化、几何变换、图形增强)后输入到数据储存单元中进行储存，再将这些数据作为输入，输入进卷积神经网络模型及目标模型，对两者进行训练，从而得到最优的模型参数，其中，使用CPO误差模块保证这两个模型的训练是在安全约束条件内的，经过足够多次训练后，得到较好的目标模型和卷积神经网络模型。

在模型应用模块中，我们使用LXPS-HS0222-B/C型号的双目视觉传感器和CMV400型号的图像传感器(单目视觉传感器)进行对真实环境中图像信息的采集，并将所采集到的信息进行预处理，之后储存在图像存储模块中，并发送到云服务器与储存器中，若对收集到的信息进行预处理后，得到的环境信息为：机器人前方有障碍物，则利用i5-9400的CPU处理器，将该信息输入进预先训练好的目标模型中进行运算，目标模型将返回一个输出(action)，如：右转的指令；CPU将该指令发送至机器人决策模块，该模块将执行该右转指令，从而实现机器人在障碍物面前的右转，完成一次机器人避障。

本发明实施你还具有如下创新点：

1、提出利用安全强化学习的方法解决现阶段应用于多个领域中的可自主避障机器人在训练过程中的可能出现的安全问题。

2、设计出能保障机器人在移动过程中的安全的奖励函数。

3、采用了单目视觉传感器与双目视觉传感器结合的视觉捕捉方式，在保证视觉传感器能提取充分的信息的同时大大提升了算法的运行速度。

4、设计了一种基于卷积神经网络的图像预处理模型。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：包括卷积神经模块，所述卷积神经网络模块包括长短期记忆单元，用于对激光雷达的输入进行编码；包括加入LSTM单元，用于记忆模型学习过程中的信息；还包括第一卷积层，其使用一维卷积核来对LSTM单元编码的结果进行特征提取；还包括第二卷积层，其使用一维卷积核来进行进一步的特征提取；还包括第一全连接层，信息特征输入到所述第一全连接层；还包括第二全连接层，所述第一全连接层的输出连同机器人的目标点的相对坐标和机器人的速度一起输入第二全连接层，最终输出机器人线速度的平均值和角速度的平均值；还包括输出层；还包括训练模型，所述训练模型中，对于移动机器人i在t时刻的奖赏函数设计如下:

其中r^reached表示移动机器人到达设定目的地基时给予的奖励:

r^approaching表示机器人接近目的地的奖赏：

r^collision表示机器人发生碰撞时的奖赏:

其中

表示当前移动机器人的坐标，gⁱ是该机器人的目标点坐标，r_a＝30，r_b＝2，r^deviation中的角度为弧度制，0.785弧度是角度制的45度，

是当前机器人线速度方向与机器人及目标点连线夹角。

2.如权利要求1所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：所述第一卷积层层使用ReLU作为激活函数；所述第一、二全连接层使用的激活函数也是ReLU；所述输出层针对移动机器人的线速度和角速度分别使用sigmoid和tanh作为激活函数。

3.如权利要求1所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：包括单目视觉传感器和双目视觉传感器，用于完成对图像信息的收集；所述单目视觉系统只使用一个视觉传感器，所述双目立体视觉系统由两个摄像机组成，利用三角测量原理获得场景的深度信息，并且可以重建周围景物的三维形状和位置；所述双目视觉系统通过匹配准确得到立体视觉系统能够比较准确地恢复视觉场景的三维信息。

4.如权利要求1所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：还包括CPO误差模块，用于对收集到的数据进行误差分析，在安全约束条件内更新卷积神经网络模型和目标模型，利用所述CPO误差模块来确保卷积神经网络模型和目标模型的更新都在安全约束条件内。

5.如权利要求1所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：还包括云服务器及储存器，实时采集的实时环境图像信息预处理后结果发送到所述云服务器及储存器中。

6.如权利要求5所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：还包括CPU处理器，用于将预处理后的图像信息发送到CPU处理器中进行运算，其中CPU处理器通过实时与模型训练模块中的目标模型模块进行交互实现对结果的运算。

7.如权利要求6所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：还包括机器人决策模块，用于将所述CPU处理器运算所得出的结果交由此机器人决策模块进行执行并将执行结果发送到云服务器及储存器中。

8.如权利要求6所述的基于安全强化学习及视觉传感器的机器人避障系统，其特征在于：还包括仿真平台，用于根据机器人所处的环境进行所述仿真平台上的建模，构成障碍物仿真环境。