CN113031437B

CN113031437B - 一种基于动态模型强化学习的倒水服务机器人控制方法

Info

Publication number: CN113031437B
Application number: CN202110217090.XA
Authority: CN
Inventors: 尤鸣宇; 苏志成; 周洪钧
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-10-25
Anticipated expiration: 2041-02-26
Also published as: CN113031437A

Abstract

本发明涉及一种基于动态模型强化学习的倒水服务机器人控制方法，包括：步骤1：基于深度相机获取三维空间的视觉信息；步骤2：利用深度神经网络完成对机器人、源容器和目标容器的识别，同时获得源容器、目标容器之间的相对位置信息、液体类型以及液位高度信息，完成状态信息的获取；步骤3：根据步骤2获取的信息建立动态模型模拟当前环境，并利用动态模型对策略网络进行训练；步骤4：待策略网络收敛后，将机器人的位姿信息和状态信息输入至策略网络，输出机器人动作策略；步骤5：使用步骤4预测出的机器人动作策略驱动机器人完成倒水动作。与现有技术相比，本发明具有对环境的泛化适应能力强、部署复杂度低等优点。

Description

一种基于动态模型强化学习的倒水服务机器人控制方法

技术领域

本发明涉及倒水服务机器人控制方法技术领域，尤其是涉及一种基于动态模型强化学习的倒水服务机器人控制方法。

背景技术

解决机器人倒水任务对机器人实现其他复杂高精度任务的具有重要的意义，相较于机器人抓取、放置等简单任务，机器人进行倒水时动作更加复杂、动作所带来的不确定性更大、对精度的更高、实现更加困难。在传统的机器人控制领域，用机器人做各种任务大多以编程手段为主，即在特定场景下先设定一个目标，通过规划编程实现机器人的某一项功能，这样的方法的泛化能力很弱，环境产生的噪声可能会严重影响，或者当场景发生变化时，就需要针对新场景重新进行规划或编程，这样大大加重了人工劳动，效率非常低。

在人工智能机器人控制领域，强化学习算法已经表现出很强的性能，但是因为强化学习算法是一种基于探索和试错的算法，需要巨量的交互数据对策略进行训练，将其直接运用到真实环境从技术上来说是行痛的，所以目前的将强化学习算法应用于机器人控制绝大多数都是在模拟环境中进行的，而如果将在模拟环境中学习得到的策略直接迁移到真实环境中，策略在真实环境中的表现又不尽如人意。

人在学习某项任务时，其实并不是纯粹的与环境进行大量交互而进行学习的，其实在与真实环境交互的同时人也在脑中对环境进行了建模，以打游戏为例，人在进行少量的几次游戏后，便可以通过“想象”进行自我训练，这个“想象”的过程其实就是用脑中构建的虚拟环境对行为决策进行训练的过程。

例如中国专利CN108762101A中公开了一种基于传感监测的倒水服务机器人调控系统，通过水位传感监测和水温传感监测，对人们正在使用的水杯内的水量和水温进行实时监测；通过语音确认控制方式，经过人体语音确认后进行相应的倒水操作，虽然可以驱动机器人实现倒水服务，但是需要部署水位传感器、水温传感器等多种传感器，只能在部署了传感器之后才能使用，限制因素较多，泛化能力弱，数据收集比较困难，并且不够智能，环境的复杂程度对任务完成具有较大的影响，无法适应较为复杂的环境。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种对环境的泛化适应能力强、部署复杂度低的基于动态模型强化学习的倒水服务机器人控制方法。

本发明的目的可以通过以下技术方案来实现：

一种基于动态模型强化学习的倒水服务机器人控制方法，所述的控制方法包括：

步骤1：基于深度相机获取三维空间的视觉信息；

步骤2：利用深度神经网络完成对机器人、源容器和目标容器的识别，同时获得源容器、目标容器之间的相对位置信息、液体类型以及液位高度信息，完成状态信息的获取；

步骤3：根据步骤2获取的信息建立动态模型模拟当前环境，并利用动态模型对策略网络进行训练；

步骤4：待策略网络收敛后，将机器人的位姿信息和状态信息输入至策略网络，输出机器人动作策略；

步骤5：使用步骤4预测出的机器人动作策略驱动机器人完成倒水动作。

优选地，所述的步骤2具体为：

基于深度相机获取空间中的图像后，通过深度卷积神经网络提取图像中各个目标物体的空间信息，经过处理后得到该空间下以机器人为原点的相对坐标信息(Δx,Δy)、源容器和目标容器的相对倾斜角α，同时判断液体类型n和检测液位高度h_r，并根据液体类型对检测出来的液位高度进行修正得到最终的估计液位h，最后将上述信息合并获得状态向量s，即(Δx,Δy,h,α)。

更加优选地，所述的液位高度修正方法为：

其中，θ是摄像机相对于目标容器的角度，C为超参数。

优选地，所述的步骤3具体为：

驱动机器人与当前环境进行随机交互，并收集数据，建立动态模型

来模拟当前真实环境，利用收集的数据训练动态模型来拟合当前的真实环境，训练方法采用共轭梯度下降法，损失函数具体为：

然后利用动态模型对策略网络进行训练。

更加优选地，所述步骤3中建立动态模型的方法为：

通过对多个全连接神经网络进行模型集成对动态环境进行建模，建立的动态模型中的每个全连接神经网络结构相同，都由两个隐藏层构成，每个隐藏层包括20个神经元；

动态模型是一个高斯神经网络，网络的输入是上一时刻的状态和动作，网络输出是一个高斯分布的均值和方差，从输出的高斯分布中进行采样即可以得到下一时刻的预测状态；

高斯神经网络的表达式具体为：

其中，μ为下一时刻状态的均值，σ为下一时刻状态的方差，θ为网络参数。

更加优选地，所述的利用动态模型对策略网络进行训练的方法具体为：

策略网络与动态模型进行交互获得模拟数据，利用模拟数据对策略网络的参数进行更新，完成策略网络的训练。

更加优选地，所述的策略网络与动态模型进行交互的步长范围为[3,6]步，每一步交互均是从动态模型中采样一个高斯神经网络，通过若干次交互得到充足的模拟数据。

更加优选地，所述的策略网络具体为：

包括动作评估模块和动作选择模块，使用确定性策略方法对策略进行表示；

采用与真实环境的交互数据对策略网络进行预训练，训练时采用梯度下降法进行策略网络的参数更新；

策略网络的损失函数包括动作评估网络损失函数和动作选择网络损失函数；

所述的动作选择网络损失函数为：

Loss₁＝-Q(s,μ_θ(s))

其中，Q为动作评估网络的输出，θ为动作选择网络的网络参数，μ为动作选择网络的输出；

所述的动作评估网络损失函数为：

Loss₂＝(r+γQ(s',a'；w)-Q(s,a；w))²

其中，w是动作选择网络的网络参数，r为环境的单步奖励，γ为折扣因子，s为当前时刻的状态，a为根据当前时刻状态所采取的动作，s'为下一时刻的状态，a'为下一时刻的预测动作。

优选地，所述的步骤4具体为：

待策略网络收敛后，将源容器和目标容器的相对坐标信息(Δx,Δy)、相对倾斜角α、修正后的目标容器的液位高度h输入策略网络，策略网络输出机器人的动作控制向量a，并传递给机器人，使机器人做出相应的动作。

更加优选地，所述的步骤5具体为：

设置机器人动作持续最小时间阈值ε，机器人根据接收到的动作控制向量a，持续进行倒水动作，持续时间t不小于动作持续最小时间阈值ε，完成当前动作后等待新的动作控制向量，直到完成倒水任务。

与现有技术相比，本发明具有以下有益效果：

一、对环境的泛化适应能力强：本发明中的倒水服务机器人控制方法基于构建动态模型，用其取代真实环境与强化学习策略进行交互，以使机器人学习到如何在任意环境下执行倒水任务，只需要在真实环境中收集少量数据，就可以在不同场景下，高精度、流畅地将不同的源容器的液体倒入不同的目标容器，解决了真实环境中收集数据困难、将模拟环境下的机器人倒水算法向真实环境迁移的困境，提升了不同场景下倒水算法对环境的泛化适应能力。

二、部署复杂度低：本发明中的倒水服务机器人不需要人为的对机器人动作进行规划，也无需对周围环境进行建模，更不需要除摄像头以外的传感器，即可在复杂环境中自我学习场景动态以及如何实现高精度倒水这样的复杂任务，大大降低了部署的复杂度。

附图说明

图1为本发明中倒水服务机器人控制方法的流程示意图；

图2为本发明实施例中倒水服务机器人倒水时的场景示意图；

图3为本发明实施例中使用动态模型训练策略网络时的流程示意图；

图4为本发明实施例中训练动态模型时的流程示意图；

图5为本发明实施例中策略网络的结构示意图；

图6为本发明实施例中WR-VAE网络的结构示意图；

图7为本发明实施例中WR-VAE网络中残差块stage的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于动态模型强化学习的倒水服务机器人控制方法，其流程如图1所示，包括：

步骤1：基于深度相机获取三维空间的视觉信息，具体为：

步骤2：利用深度神经网络完成对机器人、源容器和目标容器的识别，同时获得源容器、目标容器之间的相对位置信息、液体类型以及液位高度信息，完成状态信息的获取，具体为：

基于深度相机获取空间中的图像后，通过深度卷积神经网络提取图像中各个目标物体的质心、边缘和偏角等空间信息，经过处理后得到该空间下以机器人为原点的相对坐标信息(Δx,Δy)、源容器和目标容器的相对倾斜角α，同时判断液体类型n和检测液位高度h_r，将液体类型n编码为独热向量，并根据液体类型对检测出来的液位高度进行修正得到最终的估计液位h，最后将上述信息合并获得状态向量s，即(Δx,Δy,h,α)。

液位高度修正方法为：

其中，θ是摄像机相对于目标容器的角度，C为超参数。

本实施例使用变分编码深度神经网络(下称WR-VAE网络)获取源容器的位置和旋转角度、目标容器的位置、目标容器中液位高度、容器中的液体类型，网络的输入为深度摄像机获取的包含源容器和目标容器的深度图片以及先验假设的随机噪声，输出为源容器的位置和旋转角度、目标容器的位置、目标容器中液位高度和容器中的液体类型。该网络分为两个阶段，第一个阶段利用编码器对图片进行编码生成特征映射，第二个阶段通过卷积和池化进行下采样，回归出源、目标容器的质心和边缘信息以及目标容器中的液位高度、目标容器中液位高度和容器中的液体类型。相较于其他方法，基于WR-VAE网络的场景特征提取能够容忍噪声的能力强，并得到了多维度场景信息。

深度相机的安装位置、角度不需要严格固定，其可装在机器人上，也可以用固定支架安装在第三视角，只需调整摄像机至视野内包含所有相关物体即可。对于倒水任务，需要摄像机具有相对较高的帧率，以保证对场景状态特别是目标容器液位高度等信息的感知速度，以保证后续控制的实时性。

由于使用了深度摄像机，源、目标容器的位姿信息以及目标容器的液位通过点云获取，根据视觉传感器获取的点云图，抽象出两容器所在的立体空间，在三维坐标系中计算他们的相对距离和相对倾角；对于目标容器中的液位，因为液位将目标容器分为两个部分，所以可以利用目标容器点云图的靠近桌面的部分来提取液位高度。

步骤3：根据步骤2获取的信息建立动态模型模拟当前环境，并利用动态模型对策略网络进行训练，具体为：

算法无需对当前场景进行人为建模，只需要驱动机器人与当前环境进行随机交互，并收集数据，建立动态模型

这样，算法本身对环境就具有预测能力，学习得到动态模型后，策略网络就不需要再和真实环境进行交互，而可以通过与动态模型的交互实现策略网络的更新，这会大大加速学习和训练过程。

然后利用动态模型对策略网络进行训练。

建立动态模型的方法为：

高斯神经网络的表达式具体为：

利用动态模型对策略网络进行训练的方法具体为：

策略网络不与真实环境交互产生真实数据，而是与动态模型进行交互获得模拟数据，利用模拟数据对策略网络的参数进行更新，完成策略网络的训练。

本实施例中训练动态模型和训练策略网络是交替进行的。随着训练的进行，动态模型越来越接近真实环境，即变得越来越可靠，此时可以适当增多策略网络的训练，减少动态模型的训练。训练动态模型的方法采用监督学习的方式，建模用多个高斯神经网络进行集成，每一个高斯神经网络的输出是以前一时刻的状态和当前动作为条件的状态和奖励的概率分布的均值和方差。当训练策略网络时，给定起始状态S_t和动作A_t，通过对其中一个高斯神经网络输出下一状态和奖励联合分布的均值和方差，通过采样得到下一时刻的状态S_t+1和回报R_t+1，将S_t、A_t、S_t+1、R_t+1加入动态模型经验池，重复以上过程k步，则得到策略和动态模型的一次前向推演，经过多次前向推演，即可用收集到的模拟数据训练策略网络。

策略网络与动态模型进行交互的步长范围为[3,6]步，每一步交互均是从动态模型中采样一个高斯神经网络，而不是取动态模型的集成平均，以抵消模型的认知不准确性和偶然不确定性，通过若干次足够次数的交互得到充足的模拟数据。

本实施例中的策略网络具体为：

包括动作评估模块和动作选择模块，并且为了使数据效率更高，选择使用确定性策略方法对策略进行表示；策略网络的训练主要集中在与动态模型的交互过程中，只利用少量与真实环境的交互数据对策略网络进行预训练，训练时采用梯度下降法进行策略网络的参数更新；

所述的动作选择网络损失函数为：

Loss₁＝-Q(s,μ_θ(s))

动作评估网络损失函数为：

Loss₂＝(r+γQ(s',a'；w)-Q(s,a；w))²

其中，w是动作选择网络的网络参数，r为环境的单步奖励，γ为折扣因子，设置为0.98，s为当前时刻的状态，a为根据当前时刻状态所采取的动作，s'为下一时刻的状态，a'为下一时刻的预测动作。

步骤4：待策略网络收敛后，将机器人的位姿信息和状态信息输入至策略网络，输出机器人动作策略，具体为：

步骤5：使用步骤4预测出的机器人动作策略驱动机器人完成倒水动作，机器人设置有动作持续最小时间阈值ε，机器人根据接收到的动作控制向量a，持续进行倒水动作，持续时间t不小于动作持续最小时间阈值ε，完成当前动作后等待新的动作控制向量，直到完成倒水任务。

下面提供一种具体的实施方式：

本实施例将深度摄像机放置于第三方视角，摄像头对准操作台，场景如图2所示，机械臂紧握装有不同类型液体的源容器，操作平台上有待装水的目标容器。深度摄像机获取当前场景的深度图，输入WR-VAE网络得到特征向量，这些特征向量包含了当前场景的各种信息。训练时会在特征向量中加入噪声，保证测试时信息提取的稳定性和泛化性。特征向量经过回归提取得到源容器和目标容器的坐标、角度信息、目标容器内液体的液体高度、所倾倒的液体类型。由于摄像机放置于第三视角，所以在对场景空间信息的感知完成后，需要将源容器和目标容器的坐标、角度信息转换到以机械臂底座为坐标原点的坐标系下。因为液体类型的不同，检测到的液位高度与实际液位会有一定的偏差，将液体类型作为参数来修正液位高度。

修正方法为：

其中，θ是摄像机相对于目标容器的角度，C为超参数。

为了打破数据间的相关性，本实施例设置有两个经验回放池，策略与真实环境交互得到的真实数据、策略与动态模型互得到的模拟数据样本会分别放入两个经验池，当样本数量足够大时即可开始动态模型和策略的训练。只用真实数据训练动态模型，将真实数据与模拟数据按N：M的比例来训练强化学习模型，随着训练的进行，动态模型越来越接近真实环境，此时逐渐减小N：M的大小，加快模型的训练。

为了使策略网络的训练更加稳定，策略的改进更新和环境交互是分别独立的。设置独立的目标网络，目标网络的结构与交互网络完全相同，当交互网络用收集到的数据用梯度下降法进行更新时，目标网络并不是每次都更新，而是每更新交互网络X次，才更新目标网络1次。

对于机械臂执行动作，策略网络将输出对于当前位置和旋转角的偏移量Δx、Δy、Δθ，而不是输出位置和旋转角目标值，使状态和动作的区分度更高，以便模型更容易学习。

本实施例中强化学习奖励函数的设计，遵循以下原则：

1、既不希望整个倒水过程步数走得太多(瞎摸索)，也不希望因为走的步数多而给负太多的奖励函数reward(每次走一小步不是错)；

2、到达目标范围内时，希望越接近目标越好；

3、在目标范围内时，希望尽量不改变角度(即执行动作的时间约少越好)；

4、如果倒出了目标范围，希望及时停止倒水(即希望使水位保持的同时，尽量少改变角度)。

所以本实施例中的强化学习不同于一般的强化学习，本实施例中强化学习的奖励函数不只和状态、动作有关，还与时间成负相关，并且设置为线性负相关相关，相关系数取5。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的控制方法包括：

步骤1：基于深度相机获取三维空间的视觉信息；

所述的步骤3具体为：

然后利用动态模型对策略网络进行训练；

建立动态模型的方法为：

高斯神经网络的表达式具体为：

其中，μ为下一时刻状态的均值，σ为下一时刻状态的方差，θ为网络参数；

2.根据权利要求1所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的步骤2具体为：

3.根据权利要求2所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的液位高度修正方法为：

其中，θ是摄像机相对于目标容器的角度，C为超参数。

4.根据权利要求1所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的利用动态模型对策略网络进行训练的方法具体为：

5.根据权利要求4所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的策略网络与动态模型进行交互的步长范围为[3,6]步，每一步交互均是从动态模型中采样一个高斯神经网络，通过若干次交互得到充足的模拟数据。

6.根据权利要求1所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的策略网络具体为：

所述的动作选择网络损失函数为：

Loss₁＝-Q(s,μ_θ(s))

所述的动作评估网络损失函数为：

Loss₂＝(r+γQ(s',a'；w)-Q(s,a；w))²

7.根据权利要求1所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的步骤4具体为：

8.根据权利要求7所述的一种基于动态模型强化学习的倒水服务机器人控制方法，其特征在于，所述的步骤5具体为：