CN108665056A

CN108665056A - 一种基于nrl的智能搬运机器人预测任务状态的方法

Info

Publication number: CN108665056A
Application number: CN201810209768.8A
Authority: CN
Inventors: 卓汉逵; 李瑞鹏
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-10-16

Abstract

本发明提供一种基于NRL的智能搬运机器人预测任务状态的方法，根据搬运任务中状态对应的网络结构，借助网络表示学习技术，来深入挖掘边上蕴含的丰富语义信息以及顶点之间具体关系的建模和预测能力。从而提高任务状态预测的准确性和高效性，克服了现有技术方案应用于大规模数据时高计算复杂性和内存消耗、核参数难学习以及模型不支持增量式更新的缺陷。

Description

一种基于NRL的智能搬运机器人预测任务状态的方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种基于NRL的智能搬运机器人预测任务状态的方法。

背景技术

智能规划是人工智能的一个重要研究领域，其广泛存在于人类实践活动中，在诸如服务机器人任务规划、应急决策、游戏人工智能、生产线调度、危机管理、后勤规划以及宇航技术等领域中都得到了广泛应用，已经成为机器智能的一个核心问题。所谓规划是一种重要的问题求解技术，它从某个特定的问题状态出发，寻求一系列行为动作，并建立一个操作序列，直到求得目标状态为止。通过监控问题的求解过程，规划能够在造成较大的危害之前发现差错，并且为简化搜索、解决目标矛盾以及为差错补偿提供基础。

智能搬运机器人是机器人的一种，从小到大、从轻到重、从简到繁、从工业到服务、从军工到特种、从生产到生活，它可以有很多的应用场景与价值功能。智能搬运机器人的品质对推动仓储物流的智能化，甚至是整个物流行业、整个制造业、生产和生活方方面面的智能化服务都有重要意义。智能规划技术便在智能搬运机器人的搬运任务规划方面有重要应用，但是目前仍面临一些限制，原因在于真实环境中的搬运任务状态几乎总是不能够完全获知的，而盲目地对任务状态空间进行探索代价又极其高，这就导致在这些环境中进行任务规划求解总是困难度高、鲁棒性低。现有方法通过将搬运任务中的状态翻译成多重图，然后利用“间隔最大化多值回归(Maximum Margin Multi-Valued Regression,M³VR)”方法来预测多重图中缺失边的置信情况——即把搬运任务中的状态预测转化为网络图中缺失边的预测学习，进而将置信度高的预测边重新翻译回搬运任务中的状态。然而这种方法在大规模数据集上存在高计算复杂性和内存消耗、核参数难学习以及模型不支持增量式更新等问题，因此如果能够提出一种动态、增量式，适用于大规模数据的方法对于智能搬运机器人搬运任务规划前的状态预测具有重要意义。

现有用于状态预测的M³VR方法是一种与支持向量机(Support Vector Machine，SVM)相似、基于间隔最大化原则的核函数学习框架，该方法提出可以用实值函数来表示图中的边，进而我们可以用多线性函数来近似这些实值表示函数，如此便把图中缺失边的预测转化为凸单类分类(convex one-class classification)问题。

M³VR方法的目的在于构建一个表示图中边的函数，具体可以通过赋给每个源顶点一个预测函数，然后利用该函数将所有目的顶点映射到对应的边上来实现。这些预测函数需要捕获复杂、非线性网络图中潜在的信息，因此在欧几里得空间中是非常难操作的，所以需要把这些预测函数定义在顶点和边的特征空间。定义函数ψ把边映射到一个希尔伯特空间H_ψ，定义函数φ映射顶点到希尔伯特空间H_φ。H_ψ和H_φ分别代表边和顶点的特征空间，特征空间中的向量ψ(·)和φ(·)则分别是边和顶点的特征向量。如此非欧空间上的预测函数便可以定义在特征向量上，比如F:H_φ→H_ψ，如果假定特征空间H_φ和H_ψ存在线性关系，用线性映射操作W表示，则特征空间H_φ上的向量φ(·)进行线性操作Wφ(·)之后便被映射到特征空间H_ψ。如此我们便可以在特征空间H_ψ上用内积来描述向量Wφ(·)和ψ(· )的相似性，即如果向量Wφ(·)和ψ(·)的相似性较高，则二者的内积值也会较大，那么ψ(·)便可以用Wφ(·)来预测。M³VR方法在模型训练阶段定义的损失函数是间隔最大化损失函数，借助支持向量机的理论基础，可以方便地进行模型的构建，进而可以借助模型完成网络图中边的预测与完备。

由于M³VR方法是一种基于核函数的学习框架，所以不可避免存在核学习方法应用于大规模数据时出现的高计算复杂度和内存消耗的缺点，以及由于核函数中的特征映射定义不精确导致核参数的学习常常无可行解。另外因为该方法所建立的数学模型的训练只发生一次，所以当有新数据产生时，就需要高成本地重新训练模型，因此该方法不支持增量式更新。此外，M³VR方法更侧重于顶点本身的信息，而把边简单地看做0,1值或者连续的实值，忽略了边上丰富的语义信息，也忽略了对顶点之间具体关系的建模和预测能力。

发明内容

本发明提供一种基于NRL的智能搬运机器人预测任务状态的方法，该方法挖掘边上蕴含的丰富语义信息以及顶点之间具体关系的建模和预测能力。

为了达到上述技术效果，本发明的技术方案如下：

一种基于NRL的智能搬运机器人预测任务状态的方法，包括以下步骤：

S1：将与搬运任务相关的规划领域定义语言文件中所描述的问题当前状态转化成网络图G，PDDL文件中的实体转化为网络图的节点，实体之间的关系转化为图中的边；

S2：在网络G上应用深度神经网络模型，从网络结构中习得网络节点的向量表示和边的向量表示；

S3：根据TransE模型中的定义，网络图中的两个连接节点向量vh和vt，及对应的边向量eht，三者存在v_h+e_ht≈v_t的表示关系，换言之e_ht≈v_t-v_h，然后计算任意两个节点之间的向量差，进而対相应边上的关系标签进行预测；

S4：将边上预测好的关系标签翻译回原始PDDL文件，即在搬运任务的状态描述里面把对应状态添加进来，从而达到减少搬运任务中状态不确定性的目的。

与现有技术相比，本发明技术方案的有益效果是：

附图说明

图1为本发明方法流程图；

图2为状态翻译过程示意图；

图3为自动编码器训练过程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于NRL的智能搬运机器人预测任务状态的方法，包括以下步骤：

任务状态翻译

本发明方案的核心是借助网络表示学习技术来预测状态，所以任务状态翻译组件的目的是：将与搬运任务相关的PDDL文件中所描述的问题当前状态转化成网络图。以搬运机器人操作物体为例，状态描述空间包含{拿起-pickUp，推动-push，堆叠-stackOn，装入-fitInside}，环境中的实体包括{机器人-robot，杯子-cup，盒子-box，木块-block}。如图2所示，我们可以根据PDDL文件生成一个网络图，顶点集O:＝{robot,cup,box,block}，描述<robot,block>顶点对之间的边向量：

{0，1}分别表示边上对应的标签{不存在，存在}。如此，领域状态的网络图便构建好了。

转换机制

受词向量表示以及知识表示的启发，网络图中顶点之间的具体关系同样可以刻画为结构空间中的向量表示。特别地，对于每条边e＝(u,v)和该边对应的标签集l，则顶点v的向量表示理应靠近顶点u的向量表示加上边e的向量表示。这样对于每一个顶点，其在网络图中都扮演了两个角色，即边的头顶点以及尾顶点，自然对于每个顶点v，我们都分别对应一个头向量表示v和一个尾向量表示v'。另外考虑到网络图中顶点重要性的直接应用价值，譬如顶点显著性的排序结果，应用在智能搬运机器人的任务搬运，可以用来发现搬运任务中的关键任务，从而在任务搬运时候赋予更多的关注。顶点的重要性等价于该顶点与其他顶点的连接使其具有的显著性，一个顶点的邻居数目越多，影响力就越大。记顶点v的度为k，是指与v直接相连的顶点的数目。为了进行比较，定义顶点v的归一化度中心性指标为k_v是顶点v的度，k_max是所有顶点中最大的度。我们在表示顶点时候，把该顶点的显著性尾缀到其原始表示向量，不失一般性，顶点v初始化时对应的表示向量是M是表示向量的长度，当把顶点的显著性加进来之后,则顶点v的表示向量为为了使得在学习顶点的表示向量时神经网络能够对顶点的显著性有所关注，所以我们给向量尾缀了顶点的5个显著性特征。

如此顶点u,v及边e之间的转换机制便可以用公式表示为

u+l≈v' (1)

这里l是边自标签集l生成的向量表示，后续会有详细介绍。为了度量(u,v,e)满足公式(1)的效果，我们用距离函数d(u+l,v')来计算转换机制的误差大小，实践中可以直接采用L₂-范数。

根据以上定义，对于每一组(u,v,e)和它所对应的负样本转换机制训练时的优化目标便是最小化如下损失：

其中，γ＞0是松弛因子，用于提高模型的普适性；是负样本集N_e中的一个样本。模型中的负样本集按照如下公式产生：

用语言简单描述公式(3)就是，负样本可以通过任意把头顶点或尾顶点替换成与之不相邻的顶点产生，也可以通过把边集合替换为另一与之无交集的集合产生。

多层自编码器

多层自编码器是用来构建边的向量表示，其中的编码器由若干非线性转换层组成，用于将标签集转换成低维空间上的向量表示，解码器则用于把边的低维向量表示重建回原始的表示空间。以下详细介绍多层自编码器的实现方案。

先把边上对应的标签集映射成二值向量，对于边e所对应的标签集l＝{t₁,t₂,…}，映射之后的二值向量为当t_i在集合l中时，s_i＝1；否则，s_i＝0。然后把二值向量s输入多层自编码器，多层自编码器的编码器和解码器均由若干非线性转换层组成，公式表达如下：

h⁽¹⁾＝f(W⁽¹⁾s+b⁽¹⁾)

h⁽ⁱ⁾＝f(W⁽ⁱ⁾h^(i-1)+b⁽ⁱ⁾),i＝2,...，K (4)

这里K表示非线性转换层的层数，f表示激活函数，h⁽ⁱ⁾,W⁽ⁱ⁾和b⁽ⁱ⁾分别表示第i层的隐藏层向量、权重矩阵和偏置向量。因为顶点的向量表示是实值向量，所以边的低维向量表示l＝h^(K/2)所在层的激活函数我们采用tanh函数；而边的重建表示所在层，即解码器的输出层的激活函数我们采用sigmoid函数。由于我们采用的是多层自编码器，就必须考虑到过拟合的情况，如果自编码器的输入和输出完全一致，这样自编码器就失去了意义。因此我们采用如下措施来训练多层自编码器的参数。

(1)权重绑定我们设定解码器的每一层的权重矩阵对应编码器每一层权重矩阵的转置。例如，如果我们的多层自编码器层数是K(为一奇数)，则权重矩阵有如下关系

(2)一次只训练一个自编码器如图3所示的一个多层自编码器，输入向量i经过第一层隐层网络之后输出隐层向量h，此时隐藏向量并不进入第二层隐藏层，而是直接输入到输出层进行训练，网络训练好之后，我们便得到参数W⁽¹⁾、W⁽⁴⁾、b⁽⁴⁾和b⁽¹⁾。然后固定好这些参数，继续训练中间的网络，即由第二、三、四层隐藏层组成的网络，从而得到W⁽²⁾、W⁽³⁾、b⁽³⁾和b⁽²⁾这些参数。最后把两层网络堆叠起来，便构成一个成型的多层自编码器。

多层自编码器训练过程中的优化目标即是最小化输入表示s与重建表示之间的损失，即

此处也直接采用L₂-范数来计算重建损失。由于输入向量s是非常稀疏的，非零值的数量远小于零值，因此会导致自编码器在重建表示时会倾向于重建那些零值。

所以为了让那些非零值有更大的概率被重建，我们赋予不同的值以不同的权重，

如此多层自编码器的损失函数应为

其中x_i＝1当s_i＝0时，否则x_i＝β＞0，表示向量相同位置上的元素点乘综上，对于每一组(u,v,l)和它的负样本我们所提出技术方案中的整体优化函数可以表述如下：

其中α是一超参数，用于平衡转换机制和多层自编码器两部分的损失权重。

预测

通过上述阐述，我们通过所提出的技术方案学习到了网络图中顶点的向量表示和边的向量表示，接下来便可以根据公式(1)来对边上的标签进行预测，对于一个待预测的边(u,v),我们可以计算出该边的向量表示l＝v'-u，然后把该向量表示用多层自编码器进行解码，从而获得一个预测标签集中的具有较大值的元素则表明t_i更有可能存在于标签集l中，我们便可以将对应的标签赋予给边(u,v)，进而在搬运任务的状态描述里面把对应状态添加进来，达到减少搬运任务中状态不确定性的目的。

本发明提出一种减少智能搬运机器人搬运任务中的状态不确定性的技术方案，通过用网络图来描述搬运任务中的状态，进而使用一种基于网络表示学习的方法对搬运任务中不确定的状态进行预测和补充，从而丰富搬运任务中的状态信息，这样可以加快智能搬运机器人任务规划求解的速度、优化求解的质量。基于网络表示学习的智能搬运机器人状态预测方法，是一种适用于智能搬运机器人应用于大规模搬运任务、能够挖掘边上蕴含的丰富信息、建模并且预测顶点之间具体关系的增量式学习方法。通过学习网络图中顶点和边的向量表示，我们不仅能够量化描述网络图的特征，还可以借助这些向量表示来实现网络图的预测和完备。在学习顶点的向量表示时，我们把网络图中各个顶点各自的重要性也视为需要学习的特征。我们认为顶点的重要性等价于该顶点与其他顶点的连接使其具有的显著性，一个顶点的邻居数目越多，影响力就越大。并且为了方便进行比较，我们定义了顶点归一化度中心性作为衡量网络图中顶点显著性的指标。

多层自编码器往往会存在过拟合的现象，一旦出现过拟合就会导致自编码器的泛化能力降低。为了应对可能存在的过拟合，我们通过权值绑定、每次只训练一个自编码器的措施来训练学习多层自编码器的网络参数。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于NRL的智能搬运机器人预测任务状态的方法，其特征在于，包括以下步骤：