CN115816466B

CN115816466B - 一种提升视觉观测机器人控制稳定性的方法

Info

Publication number: CN115816466B
Application number: CN202310051575.5A
Authority: CN
Inventors: 王杰; 吴枫; 李斌; 刘骐源; 周祺; 杨睿
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2023-06-16
Anticipated expiration: 2043-02-02
Also published as: CN115816466A

Abstract

本发明公开一种提升视觉观测机器人控制稳定性的方法，属机器人控制领域。方法包括：步骤1，用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型训练；步骤2，用训练好的深度神经网络模型对视觉观测机器人进行控制。本发明的方法相较于现有控制机器人的视觉强化学习方法，具有以下优点：性能鲁棒，可直接在多种干扰同时存在的环境下实现高效的表征学习，样本效率受到无关干扰的影响小。由于训练深度神经网络模型的基于行为聚类的图像输入强化学习方式引入了行为相似度量进行表征学习，不需要额外先验知识。计算高效，能在批次较小情况下稳定训练，大大减小显存占用和训练时间，提升训练效率和控制机器人稳定性。

Description

一种提升视觉观测机器人控制稳定性的方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种提升视觉观测机器人控制稳定性的方法。

背景技术

图像输入强化学习(image-based reinforcement learning)因其强大的端到端决策能力在视觉观测机器人控制中得到了广泛应用。表征学习，即将高维图像信息表征为低维向量是图像输入强化学习中的关键技术环节，常见的表征学习技术包括序列自编码器、应用数据增广、构建辅助任务等方法。但是，现有技术在实际应用中往往容易受到任务无关信息的干扰，比如背景、视角的变化，这影响了视觉观测机器人控制的准确性和稳定性。研究鲁棒高效的表征学习成为领域内的难点，其关键在于有效捕捉任务相关信息，同时滤除任务无关信息。

为了提升表征学习的鲁棒性，进而提升视觉观测机器人控制的准确性和稳定性，一类已有改进方法是对图像选用更强的数据增广来缓解训练中的过拟合，但是这往往需要对干扰类型的先验知识来选择维持语义不变的数据增广类型，而且其通常假设可获得无干扰条件的高质量数据，限制了其使用范围。另外一类已有改进方法通过选择设计无监督方法中的对比学习任务，但这往往需要构造复杂的正负样本对或者提高训练中的批次数量，目前的方法或无法保证训练视觉观测机器人得出稳定且准确的控制性能，或过于复杂，导致训练视觉观测机器人的成本过高，均无法以相对简单的方式，提升视觉观测机器人控制的准确性和稳定性。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供了一种提升视觉观测机器人控制稳定性的方法，能不需要先验知识和大批量的训练数据，而以基于行为聚类的相对简单方式对视觉观测机器人进行训练，实现鲁棒的表征学习，解决现有技术中训练视觉观测机器人的图像输入强化学习中表征易受到无关信息干扰造成的视觉观测机器人控制的准确性差和稳定性差的问题。

本发明的目的是通过以下技术方案实现的：

一种提升视觉观测机器人控制稳定性的方法，包括：

步骤1，采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练；

步骤2，通过基于行为聚类的图像输入强化学习方式训练好的深度神经网络模型对所述视觉观测机器人进行控制。

与现有技术相比，本发明所提供的基于行为聚类的图像输入强化学习方法，其有益效果包括：

（1）性能鲁棒，可以直接在多种干扰同时存在的环境下实现高效的表征学习，样本效率受到无关干扰的影响小。

（2）实现简单，基于行为聚类的图像输入强化学习方式训练深度神经网络模型，能引入行为相似性度量进行表征学习，不需要额外的先验知识。

（3）计算高效，可以在训练数据批次较小的情况下稳定训练，大大减小了显存占用和训练时间，提升了训练效率。

由于该方法提升了训练视觉观测机器人的图像输入强化学习的性能，进而提升了利用其控制视觉观测机器人的稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的提升视觉观测机器人控制稳定性的方法的流程图。

图2为本发明实施例提供的提升视觉观测机器人控制稳定性的方法的具体流程图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的提升视觉观测机器人控制稳定性的方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施例提供一种提升视觉观测机器人控制稳定性的方法，包括：

上述方法的步骤1中，按以下方式基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练，包括：

步骤11，在训练开始前，深度神经网络模型用随机策略与环境交互预定步数，获取历史视觉观测交互数据放入经验回放池中，之后从经验回放池的历史视觉观测交互数据中随机采样初始化聚类中心的奖励值；同时，初始化一个全连接神经网络作为状态转移函数，该状态转移函数的目标是给定当前状态和动作，预测下一状态的动作，该全连接神经网络的输入为视觉表征和动作，输出为与视觉表征相同维度的向量作为聚类中心向量；

步骤12，训练开始后，控制机器人的深度神经网络模型交替进行环境交互和网络更新；

步骤13，在环境交互环节，从环境接口获取视觉观测交互数据，通过深度神经网络模型的策略网络进行动作决策，根据动作决策选择的动作获取奖励值，并将历史视觉观测交互数据存入经验回放池；

步骤14，在网络更新环节，深度神经网络模型从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据，在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签，通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类；

步骤15，通过计算所述步骤14得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数值，对最终优化的损失函数值反向传播更新聚类中心和深度神经网络模型的视觉编码器，之后更新深度神经网络模型的价值网络和策略网络。

上述方法的步骤14中，深度神经网络模型按以下方式从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据，在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签，通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类，包括：

步骤131，计算预测聚类软标签：从经验回放池的历史视觉观测交互数据中抽取B组视觉观测交互数据{o,a,r,o'}，a表示动作，r表示奖励值，o和o'为每个视觉观测状态，将每组视觉观测交互数据的各视觉观测状态o和o'分别编码为隐状态z和z'，将各组视觉观测交互数据的隐状态z分别投影到K个聚类中心c上得到各组视觉观测交互数据的投影值，对各投影值进行温度参数为τ的 softmax 归一化操作得到K维预测聚类软标签向量p_i，该向量p_i的第k个元素，k=1,…,K的数学形式如下：

；

步骤132，计算目标聚类软标签：通过以下行为相似性公式逐对近似计算B组视觉观测交互数据的隐状态z_i与K个聚类中心c_j的行为相似性d_ij，所述行为相似性公式为：

其中，r_i表示第i个隐状态z_i对应的奖励值，i=1,…,B，B为视觉观测交互数据的组数；r_j ^c表示第j个聚类中心c_j对应的奖励值，j=1,…,K，K为聚类中心的数量；z_i'表示所述状态转移函数计算得到的下一隐状态,c_j'表示所述状态转移函数计算得到的下一隐状态的聚类中心；

根据逐对计算得出的B组视觉观测交互数据的隐状态z_i与K个聚类中心c_j的行为相似性d_ij，得到距离矩阵

，通过以下公式用Sinkhorn-Knopp归一化过程对所述距离矩阵D计算得出目标聚类软标签矩阵/>

，该矩阵共有B行K列，每个行向量表示一个视觉观测交互数据的视觉观测状态被分别分配到K个聚类中心的目标聚类软标签，q_ij表示第i个视觉观测状态被分配到第j个聚类中心的目标聚类软标签，其具体计算公式为：

其中，u与v分别是B维和K维的重标准化向量，B为视觉观测交互数据的组数，K为聚类中心的数量；ε是控制目标聚类软标签平滑程度的参数，ε越小，目标聚类软标签的取值越稀疏，在Sinkhorn-Knopp归一化过程中默认设置ε为0.05；经过Sinkhorn-Knopp归一化过程后，目标聚类软标签矩阵中的第j列元素，j=1,…，K满足如下关系：

通过Sinkhorn-Knopp归一化过程使各组视觉观测交互数据的视觉观测状态在目标聚类软标签中被均匀地分配到各个聚类中心中；

步骤133，更新聚类中心的奖励值和状态转移函数：通过对B组批次视觉观测交互数据中各组视觉观测交互数据的奖励值

取加权平均计算得出聚类中心的奖励值为：/>

,k=1,…,K，其中K表示聚类中心数量，B表示视觉观测交互数据的组数，乘上系数 K/B 进行标准化；权重/>

的取值通过/>

计算得出，其中，q_1k～q_Bk分别表示第1至第B个视觉观测交互数据的视觉观测状态被分配到第k个聚类中心的目标聚类软标签；

按以下公式用指数滑动平均来更新聚类中心的奖励值：

根据视觉观测交互数据中的视觉观测状态更新状态转移函数，以实际下一状态和预测下一状态之差的二阶向量范数作为损失函数，进行一步梯度下降，反向传播更新状态转移函数对应的全连接神经网络。

上述方法的步骤15中，按以下方式计算所述步骤14得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数，包括：

所述预测聚类软标签与目标聚类软标签的交叉熵计算公式为：

上式中，B表示视觉观测交互数据的组数；q_i表示第i个视觉观测交互数据的目标聚类软标签；p_i表示第i个视觉观测交互数据的预测聚类软标签；

通过上述得出的最终优化的损失函数值来更新聚类中心向量和深度神经网络模型的视觉编码器。优选的，该视觉编码器采用卷积神经网络编码器。

综上可见，本发明实施例的方法，因采用行为相似性度量滤除了任务无关信息，能直接在多种干扰同时存在的环境下实现高效的表征学习，样本效率受到无关干扰的影响小，性能鲁棒；由于引入了行为相似性度量进行表征学习，不需要额外的先验知识，实现简单；能在批次数据较小的情况下稳定训练，大大减小了显存占用和训练时间，提升了训练效率，具有计算高效的优点。由于该方法提升了图像输入强化学习的性能，进而提升了利用其控制视觉观测机器人的稳定性。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的提升视觉观测机器人控制稳定性的方法进行详细描述。

实施例1

如图1所示，本发明实施例提供一种提升视觉观测机器人控制稳定性的方法，能鼓励训练控制视觉观测机器人的深度神经网络模型的图像输入强化学习的上游表征捕捉任务相关信息，滤除任务无关信息，从而实现鲁棒的表征学习。一般来说，控制视觉观测机器人的智能体（即深度神经网络模型）的行为是任务相关的，环境的背景、色彩、角度等要素是任务无关的。强化学习不同于传统的有监督学习，没有标签作为监督信号，但是其任务中的奖励信息可以天然地作为区分任务相关信息的指标，行为相似性度量以递归的方式利用了奖励信息刻画了不同状态之间的行为相似性。

聚类作为一大类无监督任务，可以自动地从数据中挖掘出相似的模式，其中距离度量的选择，决定了模式划分的依据。为了促进表征学习，考虑在聚类中引入行为相似性作为度量，对视觉观测机器人的图像输入强化学习任务中的低维表征向量进行聚类，由此实现保留任务相关信息，滤除无关信息的目标。

首先介绍行为相似性度量这一理论工具及其在聚类情景下的理论保证；然后介绍根据行为相似性来进行聚类以促进表征学习的计算方法。

（一）本发明所用的行为相似性具体如下：

本发明中，将视觉观测机器人运行的环境考虑为马尔可夫决策过程(S,A,P,R,γ)，其中，S 为状态空间，A为动作空间，P为状态转移函数，R为奖励函数，γ为折扣因子。从直观上来说，在马尔可夫决策过程中，两个状态如果具有相同的奖励和转移函数，那么两个状态即是行为等价的，但在连续的状态和动作空间中，寻找严格等价的状态十分困难。因此，本发明定义如下距离函数来度量两个状态之间的行为相似性：

上述的行为相似性d中包含奖励函数和状态转移函数的差值，其中后者在计算中使用Wasserstein距离，即最优运输距离来度量两个概率分布之间在行为相似性下的距离。

在聚类中，一般设置若干聚类中心，聚类中心以向量形式表示，每个聚类中心代表一个类簇，若单个数据距离聚类中心足够近，则将该单个数据归为该聚类中心所属的类，设

为最优价值函数，折扣因子为γ，如果给定0-1之间的权重系数c≥γ，行为相似性d和聚类中心Sc, 那么对任意两个状态s₁,s₂，使得：

可以证明：

由此可以看出，如果两个状态距离相同的聚类中心距离足够近，那么它们的值函数差值也会很小，所以根据行为相似性进行聚类可以使得期望回报相同的状态被分配到同一类簇中。

（二）进行基于行为聚类的图像输入强化学习的计算过程迭代地进行如下两步：

（1）根据行为相似性将视觉观测交互数据分配到各个聚类中心所属的类簇；

（2）根据聚类结果调整聚类中心。

从经验回放池中抽取B组批次视觉观测交互数据{o,a,r,o'}，对于每个视觉观测状态o和o'，将其编码为隐状态z和z'，然后将隐状态z分别投影到K个聚类中心c上，最后对投影值进行温度参数为τ的 softmax 归一化操作得到预测聚类软标签向量的第k个元素，k=1,…,K的数学形式如下：

接下来，根据行为相似性计算目标聚类软标签，为了计算视觉观测与聚类中心的距离，需要近似聚类中心的奖励和转移状态。对于聚类中心的奖励值，通过对批次数据中的奖励

取加权平均来计算，即：

其中权重来自于目标聚类软标签

，其中，q_1k～q_Bk分别表示第1至第B个视觉观测交互数据的视觉观测状态被分配到第k个聚类中心的目标聚类软标签；并按以下公式用指数滑动平均来更新聚类中心的奖励值，因为权重经过了Sinkhorn-Knopp处理，满足

因此，在这里乘上系数 K/B 进行标准化。

在训练开始前，通过随机从经验回放池中采样初始化聚类中心的奖励，在每次迭代后，用指数滑动平均来更新聚类中心的奖励值：

为了得到聚类中心的状态转移，同步学习一个状态转移函数P，在状态转移函数中输入聚类中心c得到其状态转移c'。

由此，对于B组批次数据的视觉观测交互数据的隐状态z_i（i=1,…,B）和K个聚类中心c_j(j=1,…,K)，按如下公式逐对近似计算B组视觉观测交互数据的隐状态z_i与K个聚类中心c_j的行为相似性d_ij：

其中，r_i表示第i个隐状态z_i对应的奖励值，i=1,…,B，B为视觉观测交互数据的组数；r_j ^c表示第j个聚类中心c_j对应的奖励值，j=1,…,K，K为聚类中心的数量；z_i'表示所述状态转移函数计算得到的下一隐状态,c_j'表示所述状态转移函数计算得到的下一隐状态的聚类中心。

由d_ij得到距离矩阵

，为了保证每个聚类中心形成的类簇大小相等，通过以下公式用Sinkhorn-Knopp归一化过程对所述距离矩阵D计算得出目标聚类软标签矩阵/>

，该矩阵共有B行K列，每个行向量表示一个视觉观测交互数据的视觉观测状态被分别分配到K个聚类中心的目标聚类软标签，q_ij表示第i个视觉观测状态被分配到第j个聚类中心的目标聚类软标签，其具体计算公式为：为：

其中，u与v分别是B维和K维的重标准化向量，B为视觉观测交互数据的组数，K为聚类中心的数量；ε是控制目标聚类软标签平滑程度的参数，ε越小，目标聚类软标签的取值越稀疏，在Sinkhorn-Knopp归一化过程中默认设置ε为0.05。

最终优化的损失函数为预测聚类软标签与目标聚类软标签的交叉熵：

通过优化该损失函数来更新深度神经网络模型的视觉编码器和聚类中心，其中，B表示视觉观测交互数据的组数；q_i表示第i个视觉观测交互数据的目标聚类软标签；p_i表示第i个视觉观测交互数据的预测聚类软标签。计算过程的流程如图2所示。

本发明相较于现有的用于视觉观测机器人的视觉强化学习方法，具有以下优点：

（2）实现简单，训练视觉观测机器人的深度神经网络模型的基于行为聚类的图像输入强化学习方式中，引入了行为相似性度量进行表征学习，不需要额外的先验知识。

（3）计算高效，可以在训练批次较小的情况下稳定训练，大大减小了显存占用和训练时间，提升了训练效率。

实施例2

本实施例提供一种提升视觉观测机器人控制稳定性的方法，是一种基于DeepMind Control(DMC)开源机器人控制仿真套件双足机器人奔跑（Cheetah Run），和干扰添加组件Distracting Control Suite(DCS) 的混合干扰的实施例。

（1）任务选定及环境抽象

在DMC仿真器中设定控制任务为双足机器人奔跑，图像观测尺寸3×84×84维像素，机器人动作空间为6维。在DCS组件中设定混合干扰强度，使得环境同时带有背景、角度和色彩三种干扰。背景为DCS组件内置的四个视频中随机抽取，角度在0～10°区间随机变化，色彩在每个通道上添加[-0.1,0.1]区间内的噪声。

（2）智能体（即指视觉观测机器人的深度神经网络模型）初始化：

根据图像观测尺寸随机初始化卷积神经网络作为视觉编码器，其将叠帧输入的连续3帧图像编码为50维低维向量。根据动作维度初始化两个多层感知机作为策略网络和价值网络，策略网络输入50维低维向量，输出6维动作向量，价值网络输入状态和动作共56维向量，输出价值估计。初始化经验回放池，设置经验回放池大小为100000，采集4000步随机数据。初始化32个聚类中心，每个聚类中心为50维向量。

（3）训练智能体

训练开始后，智能体交替进行环境交互、数据存储和网络更新。在环境交互环节，从环境接口获取视觉观测交互数据，通过策略网络进行动作决策，获取奖励信息，并将历史视觉观测交互数据存入经验回放池。在网络更新环节，智能体从经验回放池的历史视觉观测交互数据中随机采样128组视觉观测交互数据，对其中的各组视觉观测交互数据聚类，即通过在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，通过度量各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签。在得到各组视觉观测交互数据的两种聚类标签后，计算它们的交叉熵得到损失函数值，对损失函数值反向传播更新聚类中心和卷积神经网络编码器。之后按照一般强化学习步骤，更新价值网络和策略网络。

（4）测试智能体

将训练好的策略网络进行部署，每个回合以累计进行1000次交互为终止条件，令智能体与环境交互直至回合终止，重复10个回合，计算智能体平均每回合累计奖励，得到智能体的最终性能评测，在DCS混合干扰的环境上，本发明所提出方法较基线方法平均提升221.26%，提升了所控制机器人的准确性和稳定性。

本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（RandomAccess Memory，RAM）等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种提升视觉观测机器人控制稳定性的方法，其特征在于，包括：

步骤1，采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练；具体按以下方式基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练，包括：

步骤15，通过计算所述步骤14得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数值，对最终优化的损失函数值反向传播更新聚类中心和深度神经网络模型的视觉编码器，之后更新深度神经网络模型的价值网络和策略网络；

2.根据权利要求1所述的提升视觉观测机器人控制稳定性的方法，其特征在于，所述步骤14中，深度神经网络模型按以下方式从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据，在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签，通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类，包括：

；

；其中，r_i表示第i个隐状态z_i对应的奖励值，i=1,…,B，B为视觉观测交互数据的组数；r_j ^c表示第j个聚类中心c_j对应的奖励值，j=1,…,K，K为聚类中心的数量；z_i'表示所述状态转移函数计算得到的下一隐状态,c_j'表示所述状态转移函数计算得到的下一隐状态的聚类中心；

；其中，u与v分别是B维和K维的重标准化向量，B为视觉观测交互数据的组数，K为聚类中心的数量；ε是控制目标聚类软标签平滑程度的参数，ε越小，目标聚类软标签的取值越稀疏，在Sinkhorn-Knopp归一化过程中默认设置ε为0.05；经过Sinkhorn-Knopp归一化过程后，目标聚类软标签矩阵中的第j列元素，j=1,…，K满足如下关系：

；通过Sinkhorn-Knopp归一化过程使各组视觉观测交互数据的视觉观测状态在目标聚类软标签中被均匀地分配到各个聚类中心中；

取加权平均计算得出聚类中心的奖励值为：/>

的取值通过/>

按以下公式用指数滑动平均来更新聚类中心的奖励值：

；根据视觉观测交互数据中的视觉观测状态更新状态转移函数，以实际下一状态和预测下一状态之差的二阶向量范数作为损失函数，进行一步梯度下降，反向传播更新状态转移函数对应的全连接神经网络。

3.根据权利要求2所述的提升视觉观测机器人控制稳定性的方法，其特征在于，所述步骤15中，按以下方式计算所述步骤14得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数，包括：

；上式中，B表示视觉观测交互数据的组数；q_i表示第i个视觉观测交互数据的目标聚类软标签；p_i表示第i个视觉观测交互数据的预测聚类软标签；

通过上述得出的最终优化的损失函数值来更新聚类中心向量和深度神经网络模型的视觉编码器。