CN111421538B

CN111421538B - 一种基于优先级经验回放的深度强化学习机器人控制方法

Info

Publication number: CN111421538B
Application number: CN202010247274.6A
Authority: CN
Inventors: 田智强; 李�根; 杨洋; 王丛; 司翔宇
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-05-20
Anticipated expiration: 2040-03-31
Also published as: CN111421538A

Abstract

本发明公开一种基于优先级经验回放机制的深度强化学习控制算法，利用机器人操作的物体的状态信息计算出优先级，并利用深度强化学习方法完成端到端的机器人控制模型，本发明让深度强化学习智能体在环境中自主学习并完成指定的任务。训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级，然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。本发明在保证深度强化学习算法的鲁棒性的前提下，最大限度利用了环境信息，提升了控制模型的效果并加快了学习收敛的速度。

Description

一种基于优先级经验回放的深度强化学习机器人控制方法

技术领域

本发明属于机器人控制领域，具体涉及一种基于虚拟环境、深度强化学习和基于物体位置变化的优先级经验回放算法的机器人控制方法。

背景技术

目前，多数机器人空间抓取技术主要是对机器人可能执行的行为进行预先设定或是基于传统3D视觉算法，但是随着机器人应用领域的不断拓展，机器人所面临的任务越来越复杂。在面临复杂任务时，需要用到复杂的视觉标定方法与视觉建模方法，并且设计人员无法对快速变化的环境做出有效预测，从而难以对机器人的行为做出合理预测。

强化学习是机器学习领域中的一种重要的学习方法。在机器人领域的应用中，强化学习的参与者包括机器人和环境，该方法通过让机器人在环境中不断试错的方式自主学习并做出正确的决策。

深度强化学习算法是将强化学习与深度神经网络结合的一种机器学习方法，它利用了强化学习的自主学习能力和深度学习的非线性拟合能力。在面对连续状态空间和动作空间的学习中有着良好的表现，更接近机器人的应用场景，深度强化学习算法在机器人自主行为学习方面表现出了良好的潜力。

深度强化学习利用了样本回放池这一关键技术，样本回放池的原理是将采集到的样本先放入样本回放池中，在学习中从样本回放池中随机选取样本用于神经网络的训练。这种操作打破了样本间的关联，使样本间相互独立，但也存在忽略了不同样本的学习效率不同的问题。

为了提高样本利用率，一种有效的做法是对样本设置优先级，在进行经验回放时按照样本的优先级进行采样。但科学、有效的优先级设计存在着很大的困难，当前缺少一种针对机器人手臂操作任务的优先级设计方法。

发明内容

本发明针对现有经验池有限回放算法的不足，提出了一种基于目标物体状态变化的优先级经验回放技术方法，在机器人与环境互动学习的过程中，通过优先级经验回放的方式加快学习速度并提升学习效果。

为实现上述发明目的，本发明采用的技术方案是：一种基于物体位置变化的优先级经验回放算法。在机器人操作任务中，机器人的任务是通过一系列的操作，使目标物体的状态达到目标。基于机器人的任务目标，本发明的内在思想为，成功改变目标物体状态的样本轨迹更有助于机器人的学习过程。在机器人完成任务的过程中，通过位置、线性速度、角速度三个方面，计算出机器人对要操作的目标物体的状态改变程度。对于成功改变目标物体状态的样本，以更高的优先级进行采样供深度神经网络进行学习拟合。对于未能成功改变目标物体状态的样本，则尽量减少其被采样学习的概率。

针对上述问题，本发明提供一种基于优先级经验回放的深度强化学习机器人控制方法，所述方法包括：

构建虚拟化环境，完成虚拟环境初始化设置；

根据所述虚拟化环境，获取环境状态参数；

根据所述状态参数，构建样本轨迹集合；

根据所述样本轨迹，计算样本轨迹优先级；

构建强化学习模型，根据所述样本轨迹集合优先级完成训练。

所述构构建虚拟化环境，完成虚拟环境初始化设置，包括：

构建基于Mujoco的虚拟化环境，初始化环境参数包括环境的边界、任务的类型及其起点终点位置，奖励信号r，折扣因子γ；所述虚拟环境包括设置多个传感器的物料和等比例建模的仿真机器人；，所述虚拟环境包括机器人，机器人需要操作的物料和多个传感器。

根据所述虚拟化环境，获取环境状态参数，包括：

采集机器人与环境进行交互过程的环境状态参数，所述环境交互的过程为：机器人观测当前状态，并根据某种策略选择可执行动作，环境状态发生改变进入下一个状态，机器人评估动作结果，并获得奖励信号，交互过程在状态稳定后结束；所述每一次所采集到的环境状态参数构成一个样本，所述样本为四元组信息(s，a，r，s′)，s为当前状态，其中包括物料传感器的参数，所述物料传感器参数包括(x_t，y_t，z_t，l_t，m_t，n_t，o_t)，其中x_t，y_t，z_t表示目标物体在t时刻下在笛卡尔坐标系中的坐标，l_t，m_t，n_t，o_t，是一组四元数，表示目标物体在时间步t的角度，a为机器人执行的动作，r为执行动作a后所收到的奖励信号，s′为执行动作后的下一个状态。

根据所述状态参数，构建样本轨迹集合，包括：

所述样本轨迹τ包括机器人与环境的一次交互过程中的所有样本数据，所述样本轨迹包括五元组τ＝(S，A，p，r，γ)，其中S为当前样本轨迹中的状态集合，A为当前样本轨迹中的执行动作集合，p为当状态转移概率，r为当前样本轨迹的奖励信号，γ为预设的折扣因子；构建样本轨迹集合Γ，并存放到回放存储器中，所述样本轨迹集合包括机器人与环境交互过程中收集到的所有的样本轨迹(τ₁，τ₂，...，τ_i)，其中下标i表示样本轨迹的数量。

根据所述样本轨迹，计算样本轨迹优先级，包括：

所述样本轨迹优先级用于衡量样本轨迹的优先级高低，状态优先级高的样本轨迹将优先被采样学习，所述状态优先级由物料的位置变化E_p(τ_t)、线性速度变化E_k(τ_t)和角速度变化E_r(τ_i)三部分组成；所述样本轨迹的物料位置变化E_p(τ_i)由物料在该样本轨迹中相邻状态的位置差的绝对值之和计算，所述位置差由物料在笛卡尔坐标系中的位置偏移量构成，所述的位置偏移量E_p(τ_i)＝|x_t-x_t-1|+|y_t-y_t-1|+|z_t-z_t-1|；所述样本轨迹的线性速度变化E_k(τ_i)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算，所述线性速度包括物料相对于x轴，y轴和z轴的线性速度，其中，所述相对于x轴的线性速度

所述相对于y轴和z轴的线性速度v_y，t和v_z，t的速度分别由

和

计算得出，所述线性速度变化E_k(τ_i)＝v_x，t+v_y，t+v_z，t；所述样本轨迹的角速度变化E_r(τ_i)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算，所述角度差由物料相对于x轴，y轴和z轴的角度φ，θ，ψ由四元数l，m，n，o计算得出，所述角速度差由物体在时间步t相对于x轴，y轴和z轴的角度φ，θ，ψ与前一个时间步t-1的插值的绝对值之和求得，所述样本轨迹角速度变化

所述样本轨迹优先级由物料的位置变化E_p(τ_i)、线性速度变化E_k(τ_t)和角速度变化E_r(τ_i)之和组成，E(τ_i)＝E_t(τ_i)+E_k(τ_i)+E_r(τ_i)。

构建强化学习模型，根据所述样本轨迹集合优先级完成训练，包括：

所述强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络；所述根据样本轨迹集合优先级完成训练，以

的概率从回放存储器中采样获得小批量样本轨迹；使用样本轨迹中的数据训练策略神经网络和价值神经网络。

本发明的有益效果：本发明提出了一种基于目标物体状态的优先级经验回放技术，应用在深度强化学习方法中，在深度强化学习中的样本回放过程中将学习效率更高的样本以更高的概率进行回放，解决了样本回放过程中忽略不同样本的学习效率不同的问题，提高了深度强化学习的学习效率和效果，从而提高了机器人在完成操作任务的表现，实现了更好的机器人操作性能。

附图说明

图1为本发明实施例的总流程图。

具体实施方式

算法总体流程图如图1所示。以下进行详细说明。

本实施例所述的一种基于目标物体状态变化的优先级经验回放技术方法，是在机器人与环境互动学习的过程中，通过优先级经验回放的方式加快学习速度并提升学习效果，包括以下步骤：

S1、构建虚拟化环境，完成虚拟环境初始化设置。

在本实施例中，本发明通过基于虚拟化环境，并在虚拟化环境中完成训练。

虚拟化环境是基于真实环境和机器人搭建的仿真环境，主要包括两个部分：仿真的任务环境和仿真机器人。虚拟化环境基于GYM搭建，仿真机器人基于Mujoco引擎搭建。

仿真任务环境，可以通过配置参数选择不同的任务类型，设置奖励信号量r，设置折扣因子γ。

根据所设定的不同任务类型，仿真任务环境定义了任务的目标、任务的边界、机器人和物料的起点位置及多个传感器。

在每种任务中，机器人的目标是操作物料，使得物料状态在一定的偏差内达到任务目标，仿真环境模拟操作过程并记录每个时间步的环境状态、机器人状态、物料状态等信息。

仿真机器人，是由多个关节组成的多自由度机器人，根据真实环境的机器人参数进行仿真，根据仿真任务环境所传递的控制信号，模拟机器人的操作，并将返回的机器人仿真操作结果。

多自由度机器人在虚拟环境中，可通过方向指令和力度指定控制每个关节动作的方向和力度。

S2、根据所述虚拟化环境，获取环境状态参数；

本实施例中，虚拟化任务环境在机器人任务执行过程中，观测当前状态，并根据某种策略选择可执行动作，向机器人发送操作指令，机器人根据指令执行操作。在机器人完成操作后，虚拟化环境状态发生改变进入下一个状态，通过评估动作结果获得奖励信号量r，并根据折扣因子γ计算回报，一次任务执行过程在达到任务目标或者达到任务截至时间后结束。

在机器人操作的过程中，虚拟化环境记录每一个时间步的环境状态，包括物料的状态信息。

采集每一个时间步机器人与虚拟化环境进行交互过程的环境状态参数，所述每一次所采集到的环境状态参数构成一个样本，所述样本为五元组信息(s_t，a_t，r_t，s_t+1，o_t)，其中下标t表示时间步。s_t为当前状态，o_t为物料传感器的参数，所述物料传感器参数包括(x_t，y_t，z_t，l_t，m_t，n_t，o_t)，其中x_t，y_t，z_t表示目标物体在t时刻下在笛卡尔坐标系中的坐标，l_t，m_t，n_t，o_t，是一组四元数，表示目标物体在时间步t的角度，a_t为机器人执行的动作，r_t为执行动作a后所收到的奖励信号，s_t+1为执行动作后的下一个状态。

S3、根据所述状态参数，构建样本轨迹集合；

本实施例中，样本轨迹τ由机器人在虚拟化环境中一次任务执行过程中所采集的样本构成。样本轨迹τ包括五元组信息(S，A，p，r，γ)，其中S为当前样本轨迹中的状态集合{s₀，s₁，...，s_T}，A为当前样本轨迹中的执行动作集合{a₀，a₁，...，a_T}，下标T为样本轨迹中的样本个数，p为当样本轨迹的状态转移概率，由样本轨迹中的状态变化计算得出，r为当前样本轨迹的奖励信号，γ为预设的折扣因子。

构建样本轨迹集合，并存放到回放存储器中，其中，样本轨迹集合Γ由样本轨迹τ₁，τ₂，...，τ_N组成，其中N为回放存储器中的样本轨迹个数。

S4、根据所述样本轨迹，计算样本轨迹优先级；

本实施例中，在虚拟化环境训练的过程中，通过物料状态的改变来计算样本轨迹的优先级。在机器人完成任务的过程中，为将物料移动到目标位置，在机器人操作物料的过程中，会改变物料的位置、角度、速度等状态。

本实施例中，通过样本轨迹中物料的位置变化E_p(τ_i)、角度变化E_k(τ_i)、速度变化E_r(τ_i)来计算该样本轨迹的优先级，包括：

S41、计算样本轨迹物料位置变化

通过样本轨迹中记录的物料状态信息，计算物料在笛卡尔坐标系中相对于x轴，y轴和z轴的位置变化之和。其中，在样本轨迹τ_i中，物料相对于x轴的位置变化为

物料相对于y轴的位置变化为

物料相对于z轴的位置变化为

进一步的，样本轨迹τ_i的位置变化为：

其中，T为样本轨迹τ_i的样本数量。

S42、计算样本轨迹物料速度变化

所述样本轨迹的线性速度变化E_k(s_t)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算，所述线性速度包括物料相对于x轴，y轴和z轴的线性速度，其中，所述相对于x轴的线性速度为：

相似地，所述相对于y轴的线性速度v_y，t为：

相似地，所述相对于z轴的线性速度v_z，t为：

所述线性速度变化为：

E_k(τ_i)＝v_x，t+v_y，t+v_z，t；

S43、计算样本轨迹物料角度变化

物料角度变化，针对于完成任务过程中需要旋转物料所述样本轨迹的角度变化E_r(s_t)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算。

所述角度差由物料相对于x轴，y轴和z轴的角度φ，θ，ψ由四元数a，b，c，d计算得出，其中，

θ＝arctan2((ac-db))，

所述角度差由物体在时间步t相对于x轴，y轴和z轴的角度φ，θ，ψ与前一个时间步t-1的插值的绝对值之和求得，所述样本轨迹角度变化

S44、计算样本轨迹优先级

样本轨迹优先级由物料的位置变化E_p(τ_i)、线性速度变化E_k(τ_i)和角速度变化E_r(s_t)之和组成：

E(τ_i)＝E_t(τ_i)+E_k(τ_i)+E_r(τ_t)。

S5、构建强化学习模型，根据所述样本轨迹集合优先级完成训练。

本实施例中，强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络。在回放存储器中根据样本轨迹优先级进行样本轨迹采样输入至强化学习模型中进行训练，其中，样本轨迹τ_i的采样概率为：

其中，n为样本轨迹集合中的样本轨迹个数。强化学习在训练过程中，输入为虚拟化环境的状态参数，端对端的得到动作输出。

Claims

1.一种基于优先级经验回放的深度强化学习机器人控制方法，其特征在于，所述方法包括：

S1、构建虚拟化环境，完成虚拟环境初始化设置；

S2、根据所述虚拟化环境，获取环境状态参数；

S3、根据所述状态参数，构建样本轨迹集合；

S4、根据所述样本轨迹，计算样本轨迹优先级；

S5、构建强化学习模型，根据所述样本轨迹集合优先级完成训练；

构建虚拟化环境，完成虚拟环境初始化设置，包括：

构建基于GYM和Mujoco的虚拟化环境，初始化环境参数包括环境的类型、任务的边界及其起点终点位置，奖励信号r，折扣因子γ；所述虚拟环境包括设置多个传感器的物料和等比例建模的仿真机器人；所述虚拟环境包括机器人，机器人需要操作的物料和多个传感器；

所述虚拟化环境，获取环境状态参数，包括：

采集机器人与环境进行交互过程的环境状态参数，环境交互的过程为：机器人观测当前状态，并根据某种策略选择可执行动作，环境状态发生改变进入下一个状态，机器人评估动作结果，并获得奖励信号，交互过程在状态稳定后结束；每一次所采集到的环境状态参数构成一个样本，所述样本为四元组信息(s，a，r，s′)，s为当前状态，其中包括物料传感器的参数，所述物料传感器参数包括(x_t，y_t，z_t，l_t，m_t，n_t，o_t)，其中x_t，y_t，z_t表示目标物体在t时刻下在笛卡尔坐标系中的坐标，l_t，m_t，n_t，o_t，是一组四元数，表示目标物体在时间t的角度，a为机器人执行的动作，r为执行动作a后所收到的奖励信号，s′为执行动作后的下一个状态。

2.根据权利要求1所述的方法，其特征在于，根据所述状态参数，构建样本轨迹集合，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述样本轨迹，计算样本轨迹优先级，包括：

所述样本轨迹优先级用于衡量样本轨迹的优先级高低，状态优先级高的样本轨迹将优先被采样学习，所述状态优先级由物料的位置变化E_p(τ_i)、线性速度变化E_k(τ_i)和角速度变化E_r(τ_i)三部分组成；所述样本轨迹的物料位置变化E_p(τ_i)由物料在该样本轨迹中相邻状态的位置差的绝对值之和计算，所述位置差由物料在笛卡尔坐标系中的位置变化构成，所述的位置变化E_p(τ_i)＝|x_t-x_t-1|+|y_t-y_t-1|+|z_t-z_t-1|；所述样本轨迹的线性速度变化E_k(τ_i)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算，所述线性速度包括物料相对于x轴，y轴和z轴的线性速度，其中，所述相对于x轴的线性速度

其中Δt表示时间步t和上一个时间步t-1的差值，所述相对于y轴和z轴的线性速度v_y，t和v_z，t的速度分别由

和

计算得出，所述线性速度变化E_k(τ_i)＝v_x，t+v_y，t+v_z，t；所述样本轨迹的角速度变化E_r(τ_i)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算，角度差由物料相对于x轴，y轴和z轴的角度φ，θ，ψ由四元数l，m，n，o计算得出，所述角速度变化由物体在时间步t相对于x轴，y轴和z轴的角度φ，θ，ψ与前一个时间步t-1的插值的绝对值之和求得，所述样本轨迹角速度变化

所述样本轨迹优先级由物料的位置变化E_p(τ_i)、线性速度变化E_k(τ_i)和角速度变化E_r(τ_i)之和组成，E(τ_i)＝E_t(τ_i)+E_k(τ_i)+E_r(τ_i)。

4.根据权利要求1所述的方法，其特征在于，构建强化学习模型，根据所述样本轨迹集合优先级完成训练，包括：

所述强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络；所述根据所述样本轨迹集合优先级完成训练，以

的概率从回放存储器中采样获得小批量样本轨迹，E(τ_i)代表指定样本轨迹i的优先级，N代表样本回放池中存储的样本轨迹的总数，

表示所有的样本轨迹的优先级之和；使用样本轨迹中的数据训练策略神经网络和价值神经网络。