CN114779661B

CN114779661B - 基于多分类生成对抗模仿学习算法的化学合成机器人系统

Info

Publication number: CN114779661B
Application number: CN202210426787.2A
Authority: CN
Inventors: 于欣波; 王远航; 闫子晨; 朱戎; 孙亮; 贺威; 鄂维南
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2023-03-24
Anticipated expiration: 2042-04-22
Also published as: CN114779661A

Abstract

本发明公开了一种基于多分类生成对抗模仿学习算法的化学合成机器人系统，包括：基于Mujoco仿真平台搭建的化学合成操作仿真模块，用于模拟真实化学实验环境；多分类生成对抗模仿学习算法框架，用于根据当前实验任务和机器人状态信息，利用多分类生成对抗模仿学习算法生成当前实验任务的期望轨迹；算法优化模块，用于对多分类生成对抗模仿学习算法进行优化。本发明建立了化学实验仿真环境，给强化学习提供更加便捷的训练方式，采用的多分类生成对抗模仿学习算法引入模态的概念，能够更好地学习不同任务的多种专家策略，增强了算法的决策能力，使之更具扩展性和智能性，同时应用多种技巧优化算法的性能，使算法具有更优秀的收敛性能和稳定性。

Description

基于多分类生成对抗模仿学习算法的化学合成机器人系统

技术领域

本发明涉及自动化系统设计技术领域，特别涉及一种基于多分类生成对抗模仿学习算法的化学合成机器人系统。

背景技术

随着近几年来国家智能制造产业的持续发展，智能机器人已经广泛地被应用于医疗、工业、服务等领域，机器人能够完成的任务也越来越多。近几年来，高校化学实验事故多发，实验安全问题成为急需解决的问题。而在对历年实验事故的成因分析中，由人引起的事故占所有实验事故的98％，实验人员对于实验的不了解、不熟练和情绪波动是造成实验事故的主要原因。实验机械臂由于其高精度、无偏差、不会受情绪影响的特点，让其代替实验人员进行实验能极大地降低实验出错的概率，进而保证实验人员的生命财产安全，是智能机器人的一个重要应用方向。

化学实验机器人相较于普通机器人，有如下难点：

首先由于化学实验中，试管的拿起放下，液体滴入都是十分高精度的行为，所以对于算法的精度提出了很高的要求；

其次，在一系列化学操作之中，许多操作有需要保持所持器皿的直立，这需要机器人对末端姿态的自由度进行持续约束，这对整个轨迹的规划提出了更高的要求；

最后，由于是实时操作，所以对于系统的决策规划提出了更高的实时性需求。

现有的机器人智能控制方案主要分为两种，一种是端到端控制，即算法输入图像，直接输出机器人关节控制量对机器人进行控制，这种方案的好处是不用关心整个控制过程的内部细节，操作起来简单有效，但由于其涉及的系统过于复杂，提出的算法往往难以训练和复现；另一种方案是分段处理，智能算法仅负责轨迹规划方面的任务，图像处理和底层控制交给专门的模块去处理，这种方案各个模块耦合度较低，每一个模块实现起来较为容易，但由于整个过程涉及到众多技术，整个系统操作起来复杂，不易实现。

另外，以上两种方案对于精度和实时性都没有过高的要求，目前主流的高精度控制都是使用逆运动学解算得到准确的控制轨迹，再通过高精度传统控制方案进行轨迹跟踪控制。

因此，如何结合以上算法的优势，实现一种既有一定智能又能实现精度和实时性需求的算法，来控制机器人完成化学合成实验，是一个亟待解决的问题。

发明内容

本发明的目的在于提供一种基于多分类生成对抗模仿学习算法的化学合成机器人系统，以解决现有机器人在实验过程中不具备主动调整任务状态能力的问题。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于多分类生成对抗模仿学习算法的化学合成机器人系统，包括：

基于Mujoco仿真平台搭建的化学合成操作仿真模块，用于模拟真实化学实验环境；

多分类生成对抗模仿学习算法框架，用于根据当前实验任务和机器人状态信息，利用多分类生成对抗模仿学习算法生成当前实验任务的期望轨迹；

算法优化模块，用于对多分类生成对抗模仿学习算法进行优化。

优选地，所述基于Mujoco仿真平台搭建的化学合成操作仿真模块具体用于：

对机器人和实验物理环境进行建模，包括对机械臂、试管架、试管、移液枪和末端夹爪在内的物品建立毫米级三维模型及动力学模型；

对仿真环境进行封装并提供相应接口，以供多分类生成对抗模仿学习算法进行训练和仿真，包括提供状态信息接口、奖励值接口、帧更新接口；

基于仿真环境接口，应用PID控制算法对机械臂的各个关节量进行控制，以达到机械臂整体运动控制的需求。

优选地，基于Mujoco仿真平台的仿真环境模型文件包括三个部分：STL文件，用于定义三维模型；XML文件，用于定义运动学和动力学模型；py文件，用于定义多分类生成对抗模仿学习算法的接口程序，创建可交互环境供算法调用。

优选地，所述多分类生成对抗模仿学习算法框架具体用于：

获取机器人的当前状态数据，以及当前实验任务中机器人的目标状态数据；所述状态数据包括机器人的机械臂关节的位姿、速度和加速度；

采集专家示教轨迹，作为样本集用于多分类生成对抗模仿学习算法进行学习和训练；

根据获取到的机器人的当前状态数据和目标状态数据，利用训练好的多分类生成对抗模仿学习算法生成期望轨迹；

根据生成的期望轨迹，调用Mujoco接口程序对机器人进行控制以完成实验任务。

优选地，所述多分类生成对抗模仿学习算法框架包括采用神经网络设计的生成器、判别器和分类器；神经网络结构包含输入层、输出层和两层隐藏层，每层隐藏层含有100个神经元，层与层之间采用全连接形式；

其中，生成器用于生成强化学习控制策略；判别器用于得到评估奖励，并通过评估奖励反应学习情况的优劣；分类器用于区分生成器生成策略的类别，并驱动生成器最大化不同策略间的区别。

优选地，所述多分类生成对抗模仿学习算法描述如下：

用C＝{c₀,c₁,...,c_N}表示多种模态的模态集合，其中c_i表示第i种专家策略模态，所有模态都服从先验概率c_i～p(c)，专家轨迹用一系列的状态-动作对(s,a,c)表示，其中s表示当前机械臂所处的状态，a表示机械臂在状态s下应采取的动作，而某种状态对应于何种动作取决于当前的策略π，多分类生成对抗模仿学习算法通过对专家轨迹进行模仿去学习专家策略中的多种模态

以此达到逼近甚至超越专家策略的策略；定义每次采样轨迹和专家轨迹样本表示为τ＝(s₀,a₀,...,s_h,a_h|c)，其中h代表轨迹的长度，则专家轨迹样本集合表示为T_E＝{τ₁,τ₂,...,τ_n}；

多分类生成对抗模仿学习算法框架中的生成器根据当前的机械臂状态s和策略类别c，策略π_c生成动作a＝π_c(s)；根据当前机械臂状态s和机械臂下一时刻所做动作a，判别器输出该动作属于专家策略的概率值；分类器输入具有隐式模态信息的专家轨迹状态-动作对样本，输出该样本属于哪种策略模态类别；策略π所生成的样本(s,a)的模态标签表示为c，该变量随机采样生成且服从离散均匀分布，C(s,a)表示分类器将样本划分为每种模态类别的概率。

优选地，所述多分类生成对抗模仿学习算法的优化目标如下：

其中，λ₀、λ₁、λ₂为超参数，π_E表示专家策略，π_θ表示待学习的策略，D表示判别器，c表示当前行为的模态，D(s,a|c)表示在模态c下判别器判别样本(s,a) 来自专家样本分布的概率，C_ψ(c|s,a)表示状态动作对属于第c类策略的概率， H(π_θ)表示策略熵。

优选地，分类器通过对生成器生成策略进行重新分类，来强制生成器生成的策略与输入的策略模式分量强相关；

由于分类器和判别器都是对状态-动作对进行处理，这里共享分类器和判别器隐层的参数，仅最后输出层权值不一样，通过共享参数减少计算量，提高算法性能。

优选地，所述多分类生成对抗模仿学习算法的训练过程描述如下：

确定具体应用场景的状态s、动作a和策略类别c，采集专家轨迹的状态- 动作对和相应的行为模态标签T＝{τ₁,τ₂,...,τ_N},τ_i＝{s₀,a₀,...,s_T,a_T}，确定多分类生成对抗模仿学习算法生成器、分类器和判别器的网络结构，使用行为克隆方法对多分类生成对抗模仿学习算法各个网络参数进行初始化，以确定生成器、分类器和判别器初始化参数θ、ω、ψ；

在得到初始化参数之后，先用初始生成器与仿真环境进行交互，得到当前生成器学到策略的策略轨迹，与专家轨迹一起，输入判别器和分类器，进行M 次迭代优化，分类器和判别器使用ADAM算法更新，使用如下梯度进行更新：

然后固定判别器和分类器参数，使用判别器和分类器输出的最小二乘函数同时对生成器进行N次迭代优化，每一次迭代优化都是一次强化学习过程，生成器与环境进行交互生成交互轨迹，与专家轨迹一同交给判别器和分类器，判别器和分类器给出结果，以此来指导生成器的参数优化，生成器使用TRPO算法更新，其奖励函数设置如下：

式中，D、C代表判别器和分类器网络，χ_i和χ_E分别代表生成器策略采样和专家策略采样，λ_C和λ_H为超参数，H(π_θ)＝E_π[-log_π(a|s)]为策略π_θ的贴现因果熵。

优选地，所述算法优化模块通过以下三种方式对多分类生成对抗模仿学习算法进行优化：

在优化项中加入奖励增强，以克服多分类生成对抗模仿学习算法的潜力受到专家行为能力的限制，通过向优化项中加入手动指定的奖励函数，使得在不干扰模仿学习过程的情况下，将先验知识纳入模仿学习，通过制定奖励函数来实现这一点，并将其加入到优化目标当中去；

使用Wassestein GAN技术缓解传统生成对抗模仿学习算法存在梯度消失和模式崩溃的问题，WGAN通过将衡量两种策略之间相似性指标KL距离修正为 Wassestein距离来改善距离衡量量突变的问题，使得整个更新提升过程变得更加平滑，提高算法稳定性；

使用经验重放池，将交互样本进行收集储存并再采样，提高样本利用率，该方法分为两个步骤，首先对算法与环境交互得到的样本进行收集，放入记忆池中，之后从记忆池中均匀随机采样得到一批数据用于算法参数的更新。

本发明实施例提供的技术方案带来的有益效果至少包括：

1、本发明建立了一套化学实验仿真环境，相较于物理环境，仿真环境可以给强化学习提供更加便捷的训练方式，减少了初始时算法不稳带来的设备损耗，且高度还原的仿真环境给实验方案的扩展提供了可能性。

2、本发明的多分类生成对抗模仿学习算法引入模态的概念，对于需要有多种行为策略的化学实验来说，该算法能更好地学习不同任务的多种专家策略，增强了算法的决策能力，使之更具扩展性和智能性。

3、本发明应用了多种技巧来提升多分类生成对抗模仿学习算法的性能，使得算法相较于没有应用提升技巧有着更优秀的收敛性能和更稳定的训练收敛过程，使模型调参更加简便，降低了使用门槛。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的化学合成仿真实验系统的原理框图；

图2是本发明实施例提供的化学合成操作仿真系统的模块架构图；

图3是本发明实施例提供的多分类生成对抗模仿学习算法的框架图；

图4是本发明实施例提供的多分类生成对抗模仿学习算法的逻辑流程图；

图5是本发明实施例提供的实验结果图。

如图所示，为了能明确实现本发明的实施例的结构，在图中标注了特定的结构和器件，但这仅为示意需要，并非意图将本发明限定在该特定结构、器件和环境中，根据具体需要，本领域的普通技术人员可以将这些器件和环境进行调整或者修改，所进行的调整或者修改仍然包括在本发明的保护范围中。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先需要说明的是，神经网路由于其高效的输入-输出映射能力，具有十分优秀的函数逼近能力，且由于其仅依赖先验数据训练的原因，被广泛应用于各种需要不确定非线性系统进行计算的系统拟合。

强化学习是一种通过代理与环境交互获取反馈进行迭代优化的算法，区别于监督学习，是一种半监督学习算法，其最大的优势在于不需要人为指定标签，在机器人的行为模仿领域有着极为广泛的应用。

而模仿学习是基于强化学习发展而来的一套理论，强化学习中需要人为指定奖励函数，模仿学习假定有专家指导算法学习，即有专家示例轨迹，算法需对示例轨迹进行模仿而不需要人为指定奖励函数，而借用生成对抗网络的框架进行模仿学习的算法就是生成对抗模仿学习算法。该算法利用生成器生成策略与环境进行交互得到策略轨迹，判别器对交互轨迹和专家轨迹进行判别，给出其分别属于专家轨迹的概率，以此监督生成器逐渐向专家策略靠拢，而分类器对每一个状态-动作对进行识别，给出该状态-动作对属于哪种模式的策略，以此使得生成器将模式信息包含在生成的策略中。生成器与判别器、分类器相互对抗，在不断迭代中相互提升，以此同时收敛到全局最优。

基于上述，本发明的实施例提供了一种基于多分类生成对抗模仿学习算法的化学合成机器人系统，参照图1和图2所示，所述系统包括：

进一步地，所述基于Mujoco仿真平台搭建的化学合成操作仿真模块具体用于：

其中，本实施例所使用的仿真平台为Mujoco200，该版本相较于最新的 Mujoco300有着较高的稳定性，并被强化学习相关研究人员广泛使用。而为了运行Mujoco200库，所使用的环境配置为Python3.7、TensorFlow1.14和 mujoco-py1.50，整个仿真环境是搭建在Ubuntu16.04系统上的。

基于Mujoco仿真平台的仿真环境模型文件包括三个部分：STL文件，用于定义三维模型；XML文件，用于定义运动学和动力学模型；py文件，用于定义多分类生成对抗模仿学习算法的接口程序，使用mujoco-py创建成可交互的环境，供强化学习算法调用。由于STL文件是分块集成在XML文件中的，所以本发明实施例的模拟器文件包括建立模型的XML文件和负责与强化学习算法进行交互的py文件。

XML文件主要分为以下三个部分：

<asset>：用<mesh>tag导入STL文件；

<worldbody>：用<body>tag定义了所有的模拟器组件，包括灯光、地板以及机器人模型；

<acutator>：定义可以执行运动的关节。定义的顺序需要按照运动学顺序来，比如多关节串联机器人以工具坐标附近的最后一个关节为joint0，依此类推。

化学合成实验中，最终建模得到的模型包括工作台、UR3机械臂，试管支架，移液枪，robotiq末端夹爪等物体的三维模型和运动学和动力学关系，STL 文件将所有模型进行组装得到一个完整的模拟环境。

mujoco-py是OpenAI提供的Mujoco的python接口，允许python使用Mujoco 平台，以方便进行强化学习训练的交互。

基于仿真环境的py环境接口配置文件，其中包含一个类my_env，生成对抗模仿学习算法主要通过该类与仿真环境进行交互训练，是基于mujoco的自定义python接口，该类提供_init_、get_state、step、reset、close等接口。

_init_主要负责从模型路径调用xml模型文件，建立仿真环境并对一系列状态进行初始化设置；

get_state负责读取当前仿真环境机械臂状态并返回，主要用于记录机械臂轨迹；

step负责帧更新，此函数主要是输入动作，将当前环境向前更新一帧，并返回下一帧虚拟环境各个物体状态和环境反馈的奖励值；

reset提供整个环境的重置操作；

close关闭当前虚拟环境。

进一步地，所述多分类生成对抗模仿学习算法框架具体用于：

参考图3所示，多分类生成对抗模仿学习算法框架包括采用神经网络设计的生成器、判别器和分类器；神经网络结构包含输入层、输出层和两层隐藏层，每层隐藏层含有100个神经元，层与层之间采用全连接形式；

所述多分类生成对抗模仿学习算法描述如下：

用C＝{c₀,c₁,...,c_N}表示多种模态的模态集合，其中c_i表示第i种专家策略模态，所有模态都服从先验概率c_i～p(c)，专家轨迹用一系列的状态-动作对 (s,a,c)表示，其中s表示当前机械臂所处的状态，a表示机械臂在状态s下应采取的动作，而某种状态对应于何种动作取决于当前的策略π，多分类生成对抗模仿学习算法通过对专家轨迹进行模仿去学习专家策略中的多种模态

所述多分类生成对抗模仿学习算法的优化目标如下：

其中，分类器通过对生成器生成策略进行重新分类，来强制生成器生成的策略与输入的策略模式分量强相关；由于分类器和判别器都是对状态-动作对进行处理，这里共享分类器和判别器隐层的参数，仅最后输出层权值不一样，通过共享参数减少计算量，提高算法性能。

进一步地，所述多分类生成对抗模仿学习算法的训练过程描述如下：

在一个具体的实施例中，整个系统的状态定义为 s＝[θ₁,θ₂,θ₃,θ₄,θ₅,θ₆,x,y,z,φ₁,φ₂,φ₃]，θ是六自由度UR3机械臂每个关节的关节角，[x,y,z,φ₁,φ₂,φ₃]是当前任务目标位姿，相应地，算法中的动作定义为 a＝[θ₁,θ₂,θ₃,θ₄,θ₅,θ₆]，该动作表示在当前关节角和位姿状态下下一时刻机械臂所需达到的关节角状态，而c＝{c₁,..,c_n}代表的是不同任务，在本实施例中具体为移液操作和转移试管操作。

首先通过数据采集程序，进行专家轨迹数据的采集，得到N条专家轨迹数据 T＝{τ₁,τ₂,...,τ_N}，每一条专家轨迹数据都是由连续的状态-动作对组成τ＝{s₀,a₀,...,s_T,a_T}，定义每条专家轨迹的采样长度都为T。

将得到的专家轨迹打散成状态-动作对训练集SA＝{(s₁,a₁),...,(s_q,a_q)}和状态-动作-模式训练集SAC＝{(s₁,a₁,c₁),...,(s_q,a_q,c_q)}，通过对SA训练集进行BP回归得到生成器的初始化网络参数，通过对SAC训练集进行BP回归得到判别器和分类器的初始化网络参数。

为了避免专家表现不理想且进一步提升算法性能，本发明的算法优化模块通过以下三种方式对多分类生成对抗模仿学习算法进行优化：

使用Wassestein GAN(WGAN)技术缓解传统生成对抗模仿学习算法存在梯度消失和模式崩溃的问题，WGAN通过将衡量两种策略之间相似性指标KL 距离修正为Wassestein距离来改善距离衡量量突变的问题，使得整个更新提升过程变得更加平滑，提高算法稳定性；

使用经验重放池(replaybuffers)，将交互样本进行收集储存并再采样，提高样本利用率，该方法分为两个步骤，首先对算法与环境交互得到的样本进行收集，放入记忆池中，之后从记忆池中均匀随机采样得到一批(batch)数据用于算法参数的更新。

结合以上三点优化，多分类生成对抗模仿学习算法的算法流程描述如下：

确定具体应用场景的状态s、动作a和策略类别c，采集专家的状态-动作对和相应的行为模态标签T_E＝{τ_E1,τ_E2,...,τ_EN},τ_Ei＝{s₀,a₀,...,s_T,a_T}，确定多分类生成对抗模仿学习生成器、分类器和判别器的网络结构，使用行为克隆方法对生成对抗模仿学习各个模块网络参数进行初始化，以确定生成器、分类器和判别器初始化参数θ、ω、ψ。

初始化replaybuffer为空，

初始化结束后，采样一批任务模式c_i＝P(c)，根据任务模式通过生成器与环境交互采样得到一批轨迹

具体为生成器输入当前机械臂位姿s和任务模式c，输出机械臂下一时刻的期望位姿a，并交由系统自带的PID控制以到达目标位姿，运行1000个时间步作为一条轨迹，多次重复运行得到一批轨迹，该实施例中每一种任务模式采集10条轨迹，由此得到第一次迭代生成轨迹数据库SG_i＝{(s₁,a₁),...,(s_p,a_p)}；

将采样得到的轨迹加入到replaybuffer中B←B∪SG_i，需要注意的是，将采样得到的轨迹加入replaybuffer时，是将每一条轨迹拆成每一时刻的(s,a,c)动作-状态对加入的，而不是将一整条轨迹直接加入，即将SG_i库加入而不是直接将τ_i加入；

从replay buffer和专家轨迹T_E中分别采集相同批大小的数据，即从replaybuffer中随机采样32个状态动作对(s,a,c)作为一批数据，并用该批数据对判别器和分类器进行训练并更新，重复此步骤Z次，直至判别器能有效分别SG_i和SA 的轨迹，分类器能有效区分不同策略类别的策略轨迹；

需要说明的是，由于判别器和分类器都是输入状态-动作对(s,a)，并对其进行高维度信息提取，最后再输入所需要的输出，故在本实施例中判别器和分类器共享隐层结构，仅在输出层进行分别，分别从判别器和分类器的输出层逆向传播的梯度会对隐层进行两次参数更新。

本实施例使用ADAM算法更新，使用如下梯度进行判别器参数更新：

使用如下梯度进行分类器的梯度更新：

然后固定判别器和分类器参数，使用生成器与环境进行交互，交互得到的轨迹并入轨迹生成库SG并入replaybufferB中，然后从replaybufferB中采样一批数据，即从replaybuffer中随机采样32个状态动作对(s,a,c)作为一批数据，分别输入判别器和分类器得到输出结果，并使用这些输出结果来指导生成器参数更新，使用TRPO算法对生成器进行参数更新，该步骤重复P次以使生成器能得到很好地参数提升，优化目标如下：

在生成器训练完成之后，再次重复上述几个步骤，不断迭代提升生成器、判别器和分类器，直到生成器能完成指定任务，达到设定的技能指标。

本发明提供的算法对采样和学习过程进行了分离，使得数据利用率大幅提高，且更易操作，奖励增强的引入，使得更新目标中加入了先验知识，可以更加精准高效的学习到专家策略，以提供更高精度和稳定性的规划轨迹。

本实施例提供的多分类生成对抗模仿学习算法的应用场景如图4所示，其包括：

专家轨迹采集，包括生成和获取专家轨迹；

仿真环境运行，包括算法的学习与仿真，方便算法日后与实际环境进行对接；

多分类生成对抗模仿学习算法的训练，用于学习专家策略。

针对两种不同的实验场景定义两个策略任务，分别为试管移动和向试管滴入液体，试管移动任务是指将试管放置在不同的指定位置，机械臂从指定位置接过试管，并放入另一指定目标位置，然后打开仪器开关开始试验反应；向试管滴入液体任务是指试管放在试管架上，机械臂末端安装有滴液枪专职，机械臂需移动到试管上方并向试管中滴入液体。

由于本实施例不涉及摄像头，故实验直接给定任务目标位姿，定义衡量指标为经过一轮控制后每个时刻机械臂末端位姿距离目标位姿的欧式距离的和。实验结果如图5所示，其中两条线分别代表两种任务的累计回报值，一个任务的专家示教累积回报值为5000，另一个为2000，在经过200步的迭代学习之后，本算法基本上能达到专家示教策略的水平。因此，对于两种不同的任务，本发明所述的多分类模仿学习方法能很好地学习到应对不同任务的策略参数，并呈现出达到预期效果。

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需说明的是，以上所述是本发明的优选实施方式，应当指出，尽管已描述了本发明的优选实施例，但对于本领域普通技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，包括：

算法优化模块，用于对多分类生成对抗模仿学习算法进行优化；

所述多分类生成对抗模仿学习算法描述如下：

多分类生成对抗模仿学习算法框架中的生成器根据当前的机械臂状态s和策略模态类别c，策略π_c生成动作a＝π_c(s)；根据当前机械臂状态s和机械臂下一时刻所做动作a，判别器输出该动作属于专家策略的概率值；分类器输入具有隐式模态信息的专家轨迹状态-动作对样本，输出该样本属于哪种策略模态类别；策略π所生成的样本(s,a)的模态标签表示为c，该变量c随机采样生成且服从离散均匀分布，C(s,a)表示分类器将样本划分为每种模态类别的概率；

分类器通过对生成器生成策略进行重新分类，来强制生成器生成的策略与输入的策略模式分量强相关；

2.根据权利要求1所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，所述基于Mujoco仿真平台搭建的化学合成操作仿真模块具体用于：

3.根据权利要求2所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，基于Mujoco仿真平台的仿真环境模型文件包括三个部分：STL文件，用于定义三维模型；XML文件，用于定义运动学和动力学模型；py文件，用于定义多分类生成对抗模仿学习算法的接口程序，创建可交互环境供算法调用。

4.根据权利要求1所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，所述多分类生成对抗模仿学习算法框架具体用于：

5.根据权利要求4所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，所述多分类生成对抗模仿学习算法框架包括采用神经网络设计的生成器、判别器和分类器；神经网络结构包含输入层、输出层和两层隐藏层，每层隐藏层含有100个神经元，层与层之间采用全连接形式；

6.根据权利要求1所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统，其特征在于，所述算法优化模块通过以下三种方式对多分类生成对抗模仿学习算法进行优化：

使用Wassestein GAN技术缓解传统生成对抗模仿学习算法存在梯度消失和模式崩溃的问题，WGAN通过将衡量两种策略之间相似性指标KL距离修正为Wassestein距离来改善距离衡量量突变的问题，使得整个更新提升过程变得更加平滑，提高算法稳定性；

使用经验重放池，将交互样本进行收集储存并再采样，提高样本利用率，此处分为两个步骤，首先对算法与环境交互得到的样本进行收集，放入记忆池中，之后从记忆池中均匀随机采样得到一批数据用于算法参数的更新。