CN114770523B

CN114770523B - 一种基于离线环境交互的机器人控制方法

Info

Publication number: CN114770523B
Application number: CN202210610748.8A
Authority: CN
Inventors: 刘全; 欧阳震; 朱斐
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-09-15
Anticipated expiration: 2042-05-31
Also published as: CN114770523A

Abstract

本发明公开的一种基于离线环境交互的机器人控制方法，包括通过摄像头采集环境信息，生成目标行动者网络，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新；采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率；判断所述偏差率是否大于预设偏差率阈值，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络；根据更新后的当前评论家网络生成截断固定原子数量；通过截断固定原子数量生成目标值输入当前行动者网络；通过当前行动者网络控制机器人执行相应的动作。

Description

一种基于离线环境交互的机器人控制方法

技术领域

本发明涉及机器人控制领域，更具体的，涉及一种基于离线环境交互的机器人控制方法。

背景技术

人工智能在互联网、智能云计算、自动驾驶等领域有着强大的产能推动力。机器学习的一个重要研究领域是强化学习。强化学习研究的是智能体如何感知环境并能够采取最优的行动，通常采用最新的策略与环境进行交互并收集经验，其目标是最大化累计回报来探索当前环境的最优策略。但传统强化学习无法感知高维状态动作空间，难以在复杂现实环境应用。随着硬件计算能力的指数提升，深度学习取得了重大的突破，拥有组合多个非线性网络层来提取高维度数据特征的能力。因此深度强化学习将深度学习的高维特征提取能力和强化学习的序贯决策能力相结合，是目前解决高维环境最优策略任务的主要方法。

深度强化学习算法的智能体与在线环境进行交互，通过收集在线交互经验样本来训练得到最优的策略。但随着DRL算法逐渐应用到现实工业技术上，发现算法很难落地在机器人技术以及自动驾驶技术等问题。因为与现实环境在线交互收集大量样本的方式，可能会极大地降低采集样本的效率，并且容易导致意想不到的行为。同时，在仿真环境中运行在线强化学习算法，则需要具有高保真度的仿真环境，而这种环境建造成本极其昂贵且难度巨大。对于现实中存在的大量已收集的在线交互数据，离线强化学习也称批处理强化学习，其目标是探索如何利用收集得到的交互数据(即用某个在线策略与环境交互保留后的经验样本)中学习最优策略，在没有任何其他在线交互的情况下，仅利用先前收集到的数据集来学习策略，如同监督学习的机器学习方法，利用已有的数据集有效地训练出强大模式识别器(图像分类器、语音识别引擎等)。深度强化学习自身也拥有强大的函数逼近能力，利用足够大的数据集样本改进智能体的决策网络，使得智能体的策略逐步接近数据集分布上的最优策略。

离线强化学习问题可以定义为强化学习如何有效利用离线样本数据问题。算法最终目标依然是最优化策略从而达到最终状态，但是智能体在离线训练过程中无法再与环境直接交互，只能使用其他行为策略收集到的离线信息进行训练。离线信息将会组合成一个静态的状态转移数据集，算法须利用该数据集并学习到所能学习的最佳策略。本质上，离线强化学习算法需要具备如何从一个固定的数据集中获得对马尔科夫决策过程充分理解的功能。因为离线算法学习必须完全依赖静态数据集，没有探索新样本实时地进行策略改进的功能。所以在利用离线数据过程中往往容易出现探索离线数据集中未出现的状态动作对的区域，使得学习到的离线值分布和真实的值分布存在较大的偏差从而高估了未出现的状态动作值，算法出现分布外样本动作误差现象。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于离线环境交互的机器人控制方法。

本发明第一方面提供了一种基于离线环境交互的机器人控制方法，其特征在于，包括如下步骤：

S1，通过摄像头采集环境信息，生成目标行动者网络，

S2，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新；

S3，采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率；

S4，判断所述偏差率是否大于预设偏差率阈值，

S5，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络；

S6，根据更新后的当前评论家网络生成截断固定原子数量；

S7，通过截断固定原子数量生成目标值输入当前行动者网络；

S8，通过当前行动者网络控制机器人执行相应的动作。

本发明一个较佳实施例中，目标评论家网络为两个，通过两个评论家神经网络来更新Q(s,a)，两个网络的参数记为θ₁,θ₂，目标函数的更新公式为

缓解高估问题的同时，为目标动作添加截断噪声：

本发明一个较佳实施例中，使用已收集未知策略交互样本的离线数据集Β；

初始化总迭代次数T，折扣因子γ，τ＝0.0001，c＝0.5，e_max，e_min，e；

VEA模型参数

循环针对情节中每一时间步；

从数据集Β中取随机批量样本(s,a,r,s′)；

根据编码输入s,a，解码输出计算值函数：

更新VEA模型参数：

本发明一个较佳实施例中，VAE是一个生成模型，实现最大化边际对数似然对数计算X＝{x₁,x₂,x₃,x₄......,x_n}边际对数似然对数通过优化变分下界计算：

logp(X)≥

E_q(X|z)[logp(X|z)]+D_KL(q(z|X)||p(z))

其中p(z)为多元正态分布N(0,1)，定义后验q(z|X)＝N(z|u(X),σ²(X)I)为编码器，p(X|z)为解码器，给定样本通过解码器产生一个随机潜在变量z，给编码器重建原始样本X，VAE模型根据重建损失函数进行训练，重新参数化对变分下界进行梯度下降，公式为：

E_z～N(μ,σ)[f(z)]＝E_ε～N(0,1)[f(μ+σε)]。

本发明一个较佳实施例中，

根据所得权重来截断Q原子数量，衡量公式为:

通过KL散度计算当前策略和预测策略的距离，计算变量值。

本发明一个较佳实施例中，根据最小化损失函数来更新评论家网络参数w：

w←argmin_w∑(Y-Q_w(s,a))²

最大化目标函数来更新行动者网络参数θ：

本发明一个较佳实施例中，目标评论家网络的更新方式为

y_i＝r+γ(z_(i)(s′,a′))i∈[1...KN]

y_i是网络i的状态动作值，Y(s,a)是使用截断控制高估偏差方法后输出更真实的状态动作值。

本发明的上述技术方案相比现有技术具有以下优点：

本专利在选取最大状态动作值(Q值)对应的动作时，只考虑实际在离线数据中出现的动作，不必要考虑动作空间所有的动作以及约束算法的状态分布转移，使分布转移有界，从而要求学习到的策略分布与行为策略分布接近，则不会出现很大的动作误差,准确高效地在线控制机器人，去完成任务。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的一些附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明优选实施例中机器人控制方法流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本发明提供了一种基于离线环境交互的机器人控制方法，TMS320C6670芯片分析摄像头采集的视频数据得出当前机器人的状态信息，然后将此信息通过太网传输到后台服务器，服务器通过我们的方法处理数据得到机器人下一步该执行的动作，然后将动作控制信息通过以太网再传回给芯片，控制机器人的执行，步骤如下：

1)初始化定义预测价值网络Q_wi网络参数分别为w_i，i∈(1…N)

初始化预测价值网络Q_wi′网络参数分别为w_i′，i∈(1…N)

初始化预测策略网络μ_θ和目标策略网络μ_θ′，网络参数分别为θ和θ′；

2)使用已收集未知策略交互样本的数据集Β；

3)初始化总迭代次数T，折扣因子γ，τ＝0.0001，c＝0.5，e_max，e_min，e；

4)VEA模型参数

5)循环针对情节中每一时间步；

6)从数据集Β中取随机批量样本(s,a,r,s′)；

7)根据编码输入s,a，解码输出计算值函数：

8)更新VEA模型参数：

9)取n批次的动作

10)扰动动作

11)计算截断原子的数量，为w的平均值：

12)更新目标值：

y_i＝r+γ(z_(i)(s′,a′))i∈[1...KN]

13)根据最小化损失函数来更新评论家网络参数w：

w←argmin_w∑(Y-Q_w(s,a))²

14)最大化目标函数来更新行动者网络参数θ：

15)软更新目标网络：

16)循环至步数T为止，输出完成模型，并应用结合在机器人部件。

上述技术方案中，提到的状态s是通过摄像头或者传感器以及德州仪器TMS320C6670分析出来的。该仪器有很强的计算能力、高速I/O接口，可以满足计算的实时性要求。而且芯片有很多其他接口对后期的扩展很方便。芯片工作温度在-40度到100度之间可以满足户外工作的要求。

上述技术方案中，步骤8)中，VAE是一个生成模型，旨在最大化边际对数似然对数计算X＝{x₁,x₂,x₃,x₄......,x_n}边际对数似然对数通过优化变分下界来化简

logp(X)≥

E_q(X|z)[logp(X|z)]+D_KL(q(z|X)||p(z))

其中p(z)为多元正态分布N(0,1)，定义后验q(z|X)＝N(z|u(X),σ²(X)I)为编码器，p(X|z)为解码器。给定样本通过解码器产生一个随机潜在变量z，给编码器重建原始样本X，VAE模型根据重建损失函数进行训练，重新参数化对变分下界进行梯度下降，公式为

E_z～N(μ,σ)[f(z)]＝E_ε～N(0,1)[f(μ+σε)]

VAE模型允许随机节点的反向传播，从多变量正太分布中对z样本的随机值进行采样，并且通过解码器产生历史采样的值分布。以此来约束更新Q值时动作的选择，模型会尽量选取历史出现过的动作。

上述技术方案中，步骤11)中，在计算Q值准确度不够理想，无法根据当前的状态动作值进行动态地改变。为了进一步减少目标值计算的误差，获得更好的训练稳定性和性能。针对上述方法进行改进，利用KL距离衡量动作状态值分布差异，并且计算过程中根据所得权重来截断Q原子数量，衡量公式为

在更新网络参数时，从样本池中抽取批量数量的转移样本，然后平均计算样本的e值，e估计样本的动作分布和行为动作分布的距离，值越大表明执行动作产生的高估概率越大，则Q值更新需要保守。截断过多容易导致过于低估，截断太少导致高估问题依然存在。算法计算截断原子的数量需要维持两个变量e_max、e_min。用于记录当前出现的最大权重和最小权重，并且加入扰乱因子c。即下式：

上述技术方案中，步骤12)中，使用Q学习公式不可避免地会导致高估的累计。为了缓解这个问题，结合利用方法使用两个评论家神经网络来更新Q(s,a)，两个网络的参数记为θ₁,θ₂，目标函数的更新公式为

缓解高估问题的同时，为目标动作添加截断噪声：

并且每个评论家会输出M个Q原子。假设评论家数量为N个，在计算的过程中，网络会输出N×M数量的Q原子，将Q原子基于大小排序，每个评论家截断M-K数量Q原子，再对该分布进行一个分位数回归，使其值逼近一个较低的Q值分布。评论家目标网络的更新方式为

y_i＝r+γ(z_(i)(s′,a′))i∈[1...KN]

y_i是网络i的状态动作值，Y(s,a)是使用截断控制高估偏差方法后，输出更真实的状态动作值。使得值分布尽可能趋近真实的分布，更好地控制高估的问题，在连续环境任务下，提高离线算法发明的性能。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的上述实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于离线环境交互的机器人控制方法，其特征在于，包括如下步骤：

S1，通过摄像头采集环境信息，生成目标行动者网络，

S4，判断所述偏差率是否大于预设偏差率阈值，

S6，根据更新后的当前评论家网络生成截断固定原子数量；

S8，通过当前行动者网络控制机器人执行相应的动作；

目标评论家网络为两个，通过两个评论家神经网络来更新Q(s,a)，两个网络的参数记为θ₁,θ₂，目标函数的更新公式为：

r为样本记录的离线环境回报值，γ是回报衰减度，通过计算更新公式，来更新现在的目标值y；

缓解高估问题的同时，为目标动作添加截断噪声：

通过μ(s′,θ′)评论家获取动作值，并且加入ε截断噪声，获取到下一步动作

2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，使用已收集未知策略交互样本的离线数据集B；

初始化总迭代次数T，折扣因子γ，偏移量τ＝0.0001，c＝0.5，训练过程控制头最大范围e_max，已经记录的最小范围e_min，当前值e；

VEA模型参数

循环针对情节中每一时间步；

从数据集B中取随机批量样本(s,a,r,s′)；

根据编码输入s,a，解码输出计算值函数：

更新VEA模型参数：

3.根据权利要求2所述的一种基于离线环境交互的机器人控制方法，其特征在于，VAE是一个生成模型，实现最大化边际对数似然对数计算X＝{x₁,x₂,x₃,x₄......,x_n}边际对数似然对数通过优化变分下界计算：

logp(X)≥

E_q(X|z)[logp(X|z)]+D_KL(q(z|X)||p(z))；

其中p(z)为多元正态分布N(0,1)，定义后验q(z|X)＝N(z|u(X),σ²(X)I)为编码器，p(X|z)为解码器，给定样本通过解码器产生一个随机潜在变量z，给编码器重建原始样本X，VAE模型根据重建损失函数进行训练，重新参数化对变分下界进行梯度下降，公式为:

E_z～N(μ,σ)[f(z)]＝E_ε～N(0,1)[f(μ+σε)]。

4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法，其特征在于，根据所得权重来截断Q原子数量，衡量公式为:

通过KL散度计算当前策略和预测策略的距离，计算变量值。

5.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，根据最小化损失函数来更新评论家网络参数w：

w←argmin_w∑(Y-Q_w(s,a))²

最大化目标函数来更新行动者网络参数θ：

6.根据权利要求5所述的一种基于离线环境交互的机器人控制方法，其特征在于，目标评论家网络的更新方式为:

y_i＝r+γ(z_(i)(s′,a′))i∈[1...KN]