CN114454160B

CN114454160B - 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

Info

Publication number: CN114454160B
Application number: CN202111680444.0A
Authority: CN
Inventors: 徐昕; 兰奕星; 唐韬; 任君凯; 伍瑞卓; 方强; 曾宇骏; 施逸飞
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-04-16
Anticipated expiration: 2041-12-31
Also published as: CN114454160A

Abstract

本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，步骤包括：S1.在智能体与环境交互过程中使用第一控制策略采集样本，构造基函数；S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本，使用基函数构造样本特征并放入经验池；S3.由Critic模块从经验池中采样，使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数；Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度，更新Actor的权值系数，获得最终的控制策略；S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。

Description

基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

技术领域

本发明涉及智能体控制技术领域，尤其涉及一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统。

背景技术

如机器人等智能体对提高工业生产效率、降低生产成本以及改善人类生活质量发挥着重要的作用，其中，采用多关节机器人手臂、面向精准操控的机器人抓取系统，可被应用于更多的复杂交互场景，如家居服务、排爆救援、航空航天等领域。面向机械臂抓取的规划与控制目前通常是采用基于模型的规划控制方法和数据驱动的智能规划控制方法两类，其中基于模型的机器人规划与控制方法的优势在于能够在建立精确模型的条件下获得良好的控制性能，但是需要依赖于对机器人系统进行精确的动力学建模，因而难以处理复杂任务。另一类基于数据驱动的智能规划控制方法，以强化学习为代表，可以在不知道精确动力学模型的情况下，自动学习对复杂任务的求解。

强化学习方法是将序贯决策优化问题建模为马尔可夫决策过程，其核心在于通过智能体与环境交互，实现模型不确定情况下的自适应优化控制，对于提升机器人系统的自主学习能力具有重要意义。尽管强化学习方法在许多方面都取得了显著的进步，但是目前用于机械臂抓取控制的强化学习算法也存在以下技术缺陷：

1、现有技术中用于策略评价的值函数采用多层非线性网络进行逼近，更新时采用随机梯度下降算法，策略评价较慢，训练收敛性无保证，影响策略的学习效率。而线性逼近虽然有收敛性保证，但却缺乏复杂函数的逼近能力，导致策略学习效果较差。

2、现有技术中的策略更新通常是逼近动作值函数单峰分布，因此策略的探索范围有限，而针对机械臂控制，尤其是机械臂抓取控制任务，由于涉及到多维连续动作空间，难以有效地对环境进行探索与利用。

3、现有技术中与环境交互的历史样本数据，由于存在旧的行为策略与待更新目标策略的偏差，而不能直接用于新策略的优化，导致学习过程中的样本利用率低。

4、现有技术中值函数学习与特征学习相互耦合，影响学习效率且没有收敛性保证。在少有的应用实例中，采用径向基函数、多项式基函数等形式构造特征的传统方法，不仅设计复杂，强烈依赖专家经验，而且在机械臂控制等复杂问题上表现不佳。

综上，现有技术中强化学习方法存在策略评价慢、学习效率低、收敛性能差等问题，导致直接将传统强化学习应用于机械臂抓取控制中时将存在学习控制效率慢以及精度并不高等问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、控制效率及精度高的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统。

为解决上述技术问题，本发明提出的技术方案为：

一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，步骤包括：

S1.基函数学习：在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据，构成初始状态－动作对样本集，根据所述初始状态－动作对样本集构造基函数，所述第一控制策略为随机策略或基于先验知识的控制策略；

S2.样本采集：在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集状态与对应的动作的样本数据，得到状态－动作对，使用所述基函数构造所述状态－动作对的样本特征并放入经验池；

S3.强化学习：由Critic模块从所述经验池中采样，使用最小二乘软贝尔曼残差更新所述Critic模块的权值系数并计算软状态动作值函数；所述Actor模块通过最小化策略分布、所述软状态动作值函数的玻尔兹曼分布的KL散度，更新所述Actor模块的权值系数，最终获得一个近似最优的最终的控制策略；

S4.抓取控制：按照步骤S3最终获得的所述控制策略控制智能体的机械臂抓取。

进一步的，所述步骤S1中，通过在样本空间利用ALD核稀疏化方法构造所述基函数，步骤包括：

S11.将所述状态－动作样本对使用核函数投影到高维空间；

S12.获取所述高维空间中样本之间的线性相关性；

S13.选出线性无关的目标子样本作为核词典；

S14.利用高斯函数构造样本点所对应的基函数。

进一步的，所述核词典为Ω_sub＝{(s₁,a₁),(s₂,a₂),…(s_l,a_l)}，所述步骤S14中样本点构造(s,a)∈Ω_sub所对应的基函数为：

其中，{(s,a)}为状态－动作样本对，l为基函数的维数，为高斯函数且σ为核函数的宽度。

进一步的，所述步骤S2中，通过使用所述基函数将所述状态－动作对映射至样本特征空间，并根据智能体机械臂抓取前后坐标以及末端夹爪的坐标计算状态对应的奖励，将样本特征以及对应的奖励一同存入经验池，计算所述奖励的奖励函数具体为：

其中，r(s)为状态s下的奖励，b_s、g_s、y_s分别为状态s下抓取对象三维坐标、智能体末端夹爪的三维坐标以及抓取后放置目标点的坐标，c₁、c₂以及c₃分别为抓取权重系数、放置权重系数以及避障权重系数，d(·)表示三维空间中两点之间的欧式距离。

进一步的，所述步骤S3中，所述Critic模块具体以核特征基函数为输入，采用线性结构逼近所述软状态动作值函数，基于最小化软贝尔曼残差，根据软贝尔曼残差不动点公式，在样本集中抽取一批次样本对所述Critic模块中参数权值进行更新；所述Actor模块具体以核特征基函数为输入，根据重参数方法选取动作，通过将最小化策略分布、所述软动作值函数玻尔兹曼分布的KL散度最小化以最小化两个分布之间的差异，然后以策略梯度的方式对策略函数进行更新。

进一步的，所述步骤S3中，所述Critic模块的参数权值w按照下式更新：

其中，Φ_t为t时刻的状态动作特征向量，γ为折扣因子，d为特征向量维数，R_t+1为t+1时刻的奖励，α为控制策略分布的熵系数，π_θ为以参数θ表示的动作选取策略，π_θ(a_t+1|s_t+1)为在状态s_t+1时根据策略π_θ采取动作a_t+1的概率分布，A为d×d维实数矩阵，b为d维实数向量，为对随机变量的期望计算操作，/>为d×d维的实数矩阵。

进一步的，所述步骤S3中，所述Actor模块具体采用如下式的策略函数更新公式，以最小化软状态动作值函数的玻尔兹曼分布的KL散度：

其中，π_new为最优更新策略，Q(s_t,·)为Critic模块生成的s_t下的软状态动作值函数，Z(s_t)为归一化系数，D_KL(·||·)为最小化策略分布、软动作值函数玻尔兹曼分布两个分布的KL散度，Π为策略族，π′为策略簇Π中的策略之一。

进一步的，求解最优更新策略π_new时采用梯度下降的更新方式，具体按照下式更新梯度：

其中，θ为Actor模块的权值参数，f_θ(∈_t；s_t)表示Actor模块在状态s_t下适用重参数化参数∈_t选择的动作，J_π(θ)为待优化的目标函数，α为控制策略分布的熵系数，a_t为在t时刻采取的动作，π_θ为以参数θ表示的动作选取策略，Q(s_t,a_t)为状态－动作对(s_t,a_t)的值函数。

一种计算机设备，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序以执行如上述方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序执行时实现如上述方法。

与现有技术相比，本发明的优点在于：

1、本发明通过将Actor－Critic算法应用至机械臂控制中，在此基础上采用在多维连续动作空间下智能体行为策略的高效学习、稳定训练和有效泛化的学习机制，使得机械臂仿真训练得到的策略可以快速迁移至实物进行高效、精准的抓取控制。

2、本发明中的Critic采用了软贝尔曼残差作为目标函数，增加了对动作多峰分布下的奖励，使得智能体在应对复杂任务时能够更加有效的探索近似最优策略。同时，采用了线性最小二乘形式，能够提升大规模连续状态和动作空间中马尔科夫过程问题的求解效率，有收敛性保证，适用于在机械臂抓取控制任务中实现快速自学习控制，确保机械臂抓取控制的效率。

3、本发明中的Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度进行更新，相比于传统策略仅符合逼近动作值函数单峰分布的方法，可以使策略更好地在最大动作值函数和其他峰值部分进行探索，而忽略动作值函数较低的部分，能够显著提高探索的效率和策略表现，以提升学得策略的性能，从而有效提高机械臂抓取控制的效率。

4、本发明中采用基于核稀疏化的二次采样方法构造基函数，不需要专门设计人工特征便可构造出用于逼近线性软动作值函数的基函数，相比于传统采用多层神经网络逼近值函数的非线性方法，具有训练速度快、训练过程稳定、收敛性保证好等显著优点，从而进一步提高机械臂抓取控制的效率以及精度。

附图说明

图1是本实施例基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法的实现流程示意图。

图2是本实施例实现基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法的结构示意图。

图3是本实施例基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法的详细实施流程示意图。

图4是本发明在具体应用实施例采用基于核最小二乘软贝尔曼残差强化学习实现机械臂抓取控制的实物演示效果示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法的步骤包括：

S1.基函数学习：在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据，状态具体为机械臂夹爪位姿和抓取目标位姿之间的偏差量，动作具体为机械臂各关节角度增量，构成初始状态－动作对样本集，根据初始状态－动作对样本集构造基函数，第一控制策略为随机策略或基于先验知识的控制策略；

S2.样本采集：在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集状态与对应的动作的样本数据，状态具体为机械臂夹爪位姿和抓取目标位姿之间的偏差量，动作具体为机械臂各关节角度增量，获得状态－动作对，使用基函数构造状态－动作对的样本特征并放入经验池；

S3.强化学习：由Critic(评价器)模块从经验池中采样，使用最小二乘软贝尔曼残差更新Critic模块的权值系数并计算软状态动作值函数；Actor(执行器)模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度，更新Actor模块的权值系数，最终获得一个近似最优的控制策略；

S4.抓取控制：按照步骤S3最终获得的控制策略控制智能体的机械臂抓取。

Actor－Critic是一种结合了策略梯度和值函数近似两种方法的强化学习框架，其中Actor为执行器，用于根据当前状态选择最优动作，Critic为评价器，用于对Actor选择的动作进行评价，并指导Actor的更新。具体地，Actor一般用参数化策略表示，以最大化长期累积回报期望为目标，负责与环境进行不断交互并收集数据，用于对自身策略参数的更新，不断迭代以至达到近似最优策略；Critic一般同样用参数化函数表示，用于对当前策略下的所有状态进行价值评估，以对Actor的更新提供指导，并在策略的不断更新中逼近最优状态值函数或者状态动作值函数。Actor－Critic框架中两者相互作用、互为前提，通过不断迭代训练，可以有效地学会完成目标任务的近似最优策略。

本实施例通过将Actor－Critic框架应用至机械臂控制中，在此基础上充分考虑机械臂抓取控制领域的特性，在策略分布拟合时采用软动作值函数的玻尔兹曼分布，相比于传统策略仅符合逼近动作值函数单峰分布的方法，可以使策略更好地在最大动作值函数和其他峰值部分进行探索，而忽略动作值函数较低的部分，能够显著提高探索的效率和策略表现，同时Actor模块是通过最小化软状态动作值函数的玻尔兹曼分布的KL散度，更新Actor模块的权值系数，在线性逼近条件下，可将软动作值函数收敛至近似最优的软动作值函数，且无需与环境交互即能够使得不存在行为策略与目标策略的偏差，因而可以反复利用历史样本进行学习，避免与真实环境进行过多重复交互，有着明显的样本效率优势，可以大大提高学习效率，实现在机械臂抓取过程中多维连续动作空间下智能体行为策略的高效学习、稳定训练和有效泛化的学习机制，使得机械臂仿真训练可以快速迁移至实物抓取控制中实现高效、精准的抓取控制。

本实施例步骤S1根据随机策略或者包含先验知识的策略与任务环境交互，采集多个周期的数据形成样本集，然后进行核稀疏化处理。本实施例具体通过在样本空间利用近似线性相关分析(Approximately Linear Dependency，ALD)核稀疏化方法构造基函数，步骤包括：

S11.将状态－动作样本对使用核函数投影到高维空间；

S12.获取高维空间中样本之间的线性相关性；

S13.选出线性无关的目标子样本作为核词典；

S14.利用高斯函数构造样本点所对应的基函数。

上述步骤S13构建的核词典具体为Ω_sub＝{(s₁,a₁),(s₂,a₂),…(s_l,a_l)}，步骤S14中样本点构造(s,a)∈Ω_sub所对应的基函数具体为：

进一步进行稀疏核特征表示，从样本集中采样一批数量为L的子样本集B，利用上一步骤设计的基函数Φ(·)对样本集B中的样本点(s,a)∈B进行稀疏核特征构造。

传统基于强化学习的机械臂抓取控制在策略评价部分主要是使用多层非线性网络，实际收敛性能不佳，且还会存在策略评价慢等缺陷，直接影响了学习效率。本实施例采用基于核稀疏化的二次采样方法构造基函数，不需要专门设计人工特征便可构造出用于逼近线性软动作值函数的基函数，相比于传统采用多层神经网络逼近值函数的非线性方法，具有训练速度快、训练过程稳定、收敛性保证好等显著优点。

本实施例步骤S2中，通过使用基函数将状态－动作对映射至样本特征空间，并将对应的奖励一同存在经验池，计算奖励的奖励函数具体为：

其中，b_s、g_s、y_s分别为状态s下抓取对象三维坐标、智能体末端夹爪的三维坐标以及抓取后放置目标点的坐标，c₁、c₂以及c₃分别为抓取权重系数、放置权重系数以及避障权重系数。

本实施例步骤S3中，Critic模块用于逼近软状态动作值函数其具体形式为：

其中，π为当前策略，ρ_π为当前策略下状态s_t和动作a_t的概率分布，为对随机变量的期望计算操作，γ为折扣因子，r(s_t,a_t)为t时刻的奖励值，H(π(·∣s_t))为状态s_t下策略的熵。

Critic模块逼近的目标是最小化软贝尔曼残差，软贝尔曼残差的具体形式为：

其中J_Q(w)为软贝尔曼残差，为对随机变量的期望计算操作，D为收集的训练样本集，Q_w(s_t,a_t)为t状时刻的状态动作值函数，w为该值函数的权值参数，r(s_t,a_t)为t时刻的奖励值，ρ为下一时刻状态s_t+1服从的概率分布，/>为下一时刻状态s_t+1的目标值函数，w为/>的权值参数。

Critic模块的目标为最小化上述软贝尔曼残差，以构造的核特征基函数为输入，采用线性结构逼近软状态动作值函数Q_w(s_t,a_t)，即：

其中c＝concat(s,a)表示联合状态－动作对，表示联合状态动作对c的特征表示向量，d表示特征向量的维度，w表示权重参数，该权重参数根据软贝尔曼残差的不动点公式进行更新，即：

其中，Φ_t为t时刻的状态动作特征向量，γ为折扣因子，d为特征向量维数，R_t+1为t+1时刻的奖励，α为控制策略分布的熵系数，π_θ为以参数θ表示的动作选取策略，π_θ(a_t+1|s_t+1)为在状态s_t+1时根据策略π_θ采取动作a_t+1的概率分布，A为d×d维实数空间，b为d维实数向量，为对随机变量的期望计算操作，/>为d×d维的实数空间。

本实施例通过采用上述软贝尔曼残差不动点公式，在线性逼近条件下，可将软动作值函数收敛至近似最优的软动作值函数，且无需与环境交互，不存在行为策略与可以反复利用历史样本进行学习，能够避免与真实环境进行过多重复交互，可以大大提高样本学习效率。

本实施例的软状态动作值函数包含引入了最大熵机制，即在最大化奖励回报的同时，也最大化策略的分布，使得智能体在应对复杂任务是能够更加有效的探索近似最优策略，有利于提升大规模连续状态动作空间中马尔科夫过程问题的求解效率，非常适用于机械臂抓取控制任务，实现快速自学习控制。

一般Actor模块的策略输出为高斯分布，本实施例步骤S3中Actor模块具体以核特征基函数为输入，根据重参数方法选取动作，通过最小化策略分布、软动作值函数玻尔兹曼分布的KL散度以最小化两个分布之间的差异，然后以策略梯度的方式对策略函数进行更新。

本实施例具体采用如下式的策略函数更新公式，以最小化软状态动作值函数的玻尔兹曼分布的KL散度：

进一步，本实施例求解最优更新策略π_new时具体采用梯度下降的更新方式，更新梯度的表达式为：

其中，θ为Actor模块的权值参数，f_θ(∈_t；s_t)表示Actor模块在状态s_t下使用重参数化参数∈_t选择的动作，J_π(θ)为待优化的目标函数，α为控制策略分布的熵系数，a_t为在t时刻采取的动作，π_θ为以参数θ表示的动作选取策略，Q(s_t,a_t)为t时刻的状态动作值函数。

为实现上述方法，如图2所示，在具体应用实施例中构造以下结构以实现机械臂抓取控制：

a)样本采集部分：智能体根据随机策略或基于先验知识的策略选择动作，与任务环境交互，收集多个周期的样本组成样本集；

b)核稀疏化部分：将样本集中样本投影至高维空间，利用ALD近似线性相关分析方法分析样本之间的线性相关性，选择其中线性无关的样本构建稀疏化后的核词典；

c)特征构造部分：采用高斯核函数构造核词典中每一样本点的基函数；

d)评价器(Critic)部分：以核特征基函数为输入，采用线性结构逼近软状态动作值函数。基于最小化软贝尔曼残差思想，根据软贝尔曼残差不动点公式，在样本集中抽取一批次样本对评价器网络权值进行更新；

e)执行器(Actor)部分：以核特征基函数为输入，根据重参数方法选取动作，通过最小化策略分布与软动作值函数玻尔兹曼分布的KL散度最小化两个分布之间的差异，以策略梯度的方式对策略函数进行更新。

上述样本采集部分与步骤S1中样本采集步骤对应，核稀疏化部分、特征构造部分与步骤S1中基函数构造对应，评价器(Critic)部分与步骤S3中Critic模块对应，执行器(Actor)部分与步骤S3中Actor模块对应。

如图3所示，本发明在具体应用实施例中采用上述结构，基于核最小二乘软贝尔曼残差强化学习方法实现机械臂抓取控制的详细步骤包括：

S1.初始化算法的参数和网络超参数，设置总的训练周期为N，并初始化当前训练迭代周期Episode为1；

S2.对机器人抓取环境进行初始化，并将机器人设置到起始位姿，随后将机器人末端目标位姿和障碍物位置随机设置在机器人的工作空间内；

S3.智能体与环境进行交互，由执行器部分输出机器人各关节角度增量δ₁，δ₂，δ₃，δ₄，δ₅，δ₆，也即为输出的动作，更新机器人关节旋转角度，即关节旋转角度为Actor模块的权值参数，机器人执行相应动作；

S4.计算机器人夹爪位姿与目标位姿之间的偏差量即获取机器人末端位姿与目标位姿之间的偏差量作为状态－动作对样本数据，并计算奖励回报，将(s,a,r,s′)状态转移样本存到经验池，其中s为状态，a为动作，r为奖励，s′为转移后状态；

S5.当收集到足够样本数据后，通过Critic模块和Actor模块进行网络权值更新；

S6.训练过程中需对任务是否成功进行判定，若任务成功或碰撞障碍物将终止交互，否则继续将机器人末端位姿与目标位姿之间的偏差量输入至智能体，使其继续与环境交互；

S7.限制智能体在每一训练周期的最大训练步数，单次训练中训练步数达到最大决策步数时终止交互。然后重新生成另外一个随机目标位姿并重置机器人的关节状态，使其回归初始状态，进行下一次训练，当达到预定的训练次数时，训练过程结束。

如图4所示，本发明在具体应用实施例中在UR5实物机械臂上，基于核最小二乘软贝尔曼残差强化学习进行机械臂抓取控制时，实物抓取系统由Linux工作站、Realsensed435i深度相机、UR5机械臂以及RG2夹爪四部分组成，图4中序号1至序号8标记的子图展示了采用本发明抓取控制方法驱动的机械臂按照近似最优路线靠近抓取物的过程，序号为9标记的子图展示了机械臂将物体成功抓起的效果。从图4中可以看出，本发明与传统基于模型的机器人控制方法相比，不依赖与对机器人系统进行精确的动力学建模，能够帮助机器人自主学习抓取控制策略，还可以灵活应用于各类控制应用场合中。

本实施例还提供计算机设备，包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行所述计算机程序，处理器用于执行计算机程序以执行如上述方法。

本实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序执行时实现如上述方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，步骤包括：

S1.基函数学习：在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据，所述状态为机械臂夹爪位姿和抓取目标位姿之间的偏差量，所述动作为机械臂各关节角度增量，构成初始状态－动作对样本集，根据所述初始状态－动作对样本集构造基函数，所述第一控制策略为随机策略或基于先验知识的控制策略；

S4.抓取控制：按照步骤S3最终获得的所述控制策略控制智能体的机械臂抓取；

所述步骤S1中，通过在样本空间利用近似线性相关ALD的核稀疏化方法构造所述基函数，步骤包括：

S11.将所述状态－动作样本对使用核函数投影到高维空间；

S12.获取所述高维空间中样本之间的线性相关性；

S13.选出线性无关的目标子样本作为核词典；

S14.利用高斯函数构造样本点所对应的基函数

所述步骤S3中，所述Critic模块具体以核特征基函数为输入，采用线性结构逼近所述软状态动作值函数，基于最小化软贝尔曼残差，根据软贝尔曼残差不动点公式，在样本集中抽取一批次样本对所述Critic模块中参数权值进行更新；所述Actor模块具体以核特征基函数为输入，根据重参数方法选取动作，通过将最小化策略分布、软动作值函数玻尔兹曼分布的KL散度最小化以最小化两个分布之间的差异，然后以策略梯度的方式对策略函数进行更新；

所述步骤S3中，所述Actor模块具体采用如下式的策略函数更新公式，以最小化软状态动作值函数的玻尔兹曼分布的KL散度：

2.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，所述核词典为Ω_sub＝{(s₁,a₁),(s₂,a₂),…(s_l,a_l)}，所述步骤S14中样本点构造(s,a)∈Ω_sub所对应的基函数为：

3.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，所述步骤S2中，通过使用所述基函数将所述状态－动作对映射至样本特征空间，并根据智能体机械臂抓取前后坐标以及末端夹爪的坐标计算状态对应的奖励，将样本特征以及对应的奖励一同存入经验池，计算所述奖励的奖励函数具体为：

4.根据权利要求1～3中任意一项所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，所述步骤S3中，所述Critic模块的参数权值w按照下式更新：

5.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法，其特征在于，求解最优更新策略π_new时采用梯度下降的更新方式，具体按照下式更新梯度：

6.一种计算机设备，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～5中任意一项所述方法。

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序执行时实现如权利要求1～5中任意一项所述的方法。