CN113838042B

CN113838042B - 双机械臂操作问答方法、装置、电子设备和存储介质

Info

Publication number: CN113838042B
Application number: CN202111163679.2A
Authority: CN
Inventors: 刘华平; 王凯丽; 王业飞; 王毅; 袁小虎; 董言治
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-11-10
Anticipated expiration: 2041-09-30
Also published as: CN113838042A

Abstract

本公开提供的双机械臂操作问答方法、装置、电子设备和存储介质，包括：将获取的操作场景的RGB图像和深度图像并行输入残差‑特征分层网络，以提取RGB图像和深度图像的特征映射；输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量；将特征映射与第一特征向量进行连接得到双机械臂的操作初始状态；构建双机械臂问答操作模型，将操作初始状态输入至双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出。本公开打破了传统上问答系统的被动感知，将其转变为主动探索环境，并且双机械臂协同操作能够实现复杂任务的有序控制，减少对工装夹具的依赖。

Description

双机械臂操作问答方法、装置、电子设备和存储介质

技术领域

本发明属于机器人视觉感知、双机械臂操作以及深度学习技术领域，尤其涉及一种双机械臂操作问答方法、装置、电子设备和存储介质。

背景技术

近年来，问答系统是自然语言处理和信息检索相关的一个重要学科，在实际中有非常广泛的应用场景，其核心方法涉及机器学习和深度学习相关知识。问答系统的目标在于设计合理的模型，对于任意自然语言描述的问题，问答系统在充分理解输入问题之后，使用自然语言自动进行准确的回答，由于问答系统在自然语言处理的成功，人们开始将这种交互式问答方式引入到计算机视觉领域，在这样的背景下，人们提出了视觉问答任务。然而，这些任务，只是试图从视觉输入中被动的回答问题，忽略了机器人的主动探索能力。在现实环境中，感知不能永远只是一个被动的过程，继而出现了一系列具身问答的工作。具身问答是指在没有过多先验知识生成的规则下，通过与环境交互来构建自身认知的一种问答模式，但是具身问答仅仅只是对对象进行标记，缺乏一定的操作性。操作问答任务不仅是参考静态环境，并且需要一定的操作能力，在环境中寻找答案。操作问答任务不仅能够实现问答任务的需求，更加具有主动感知的特性，弥补了被动问答的局限性。操作问答任务的问题表述主要是对问题和图片进行编码，通过对视觉(即图像)和自然语言(即问题)两个模态进行理解与推理，输出自然语言作为对应的答案。在操作问答中，除了对图像和问题进行理解之外，还要结合之前的问题组成的上下文信息进行推理，并且输出自然语言作为相应的回答。如何从多模态输入中提取到有效的信息，是问答任务中的挑战，不仅需要细致理解图像和问题的语义，更需要结合视觉推理来得到一个正确的答案。最简单的方法是通过提取图像和问题的全局特征，再经过简单的特征融合，分类后产生一个预测答案。这种方法虽然容易操作，但是却丢失了大量的局部信息，不利于回答针对局部区域提出的问题。

发明内容

本公开旨在解决上述问题之一。

为此，本公开第一方面实施例提供的可完成双机械臂协同操作，从而实现复杂任务有序控制的双机械臂操作问答方法，包括：

将获取的操作场景的RGB图像和深度图像并行输入残差-特征分层网络，以提取所述RGB图像和所述深度图像的特征映射；

输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量；

将所述特征映射与所述第一特征向量进行连接得到双机械臂的操作初始状态；

构建双机械臂问答操作模型，将所述操作初始状态输入至所述双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出。

本公开第一方面实施例提供的双机械臂操作问答方法，具有以下有益效果：

本公开第一方面实施例提供的双机械臂操作问答方法，在问答系统的基础上加入操作部分，通过优化双机械臂协调操作能力，使得机械臂具有主动探索的能力，弱化了机械臂的被动性，能够根据对象执行一些交互动作，通过操作主动与环境交互来寻找答案，而不是简单的做一些标准动作的选择，使得机械臂同时具备理解能力、探索能力、交互能力和操作能力；本公开第一方面实施例提供的双机械臂操作问答方法，采用双机械臂操作问答方法，实现了机器人与人类的智能交互，体现了机器人的自主探索能力，在包括家庭、商场、工厂等多种场景下都有很大的应用前景，可以应用物体种类多样、陈设复杂且不便于单臂操作的环境。

在一些实施例中，所述操作场景的RGB图像和深度图像通过以下步骤得到：

获取多种物品的RGB图像和深度图像，分别对多个深度图像进行物品类别标注；

依次拍摄机器臂操作区域的多个场景的RGB深度图像，并记为场景图像，将各所述场景图像均放缩为尺寸统一的三维图像，对所有尺寸统一的场景图像中的每一个图层均分别进行归一化处理，得到所述操作场景的RGB图像和深度图像。

在一些实施例中，所述残差-特征分层网络包括若干卷积层，在各所述卷积层后均分别依次连接池化层和激活层。

在一些实施例中，所述残差-特征分层网络包括5层所述卷积层，各所述卷积层均以7*7大小的卷积核步长为2提取特征；所述池化层的大小为2*2；所述激活层的非线性激活函数采用ReLU函数。

在一些实施例中，所述输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量，具体包括以下步骤：

构建基于长短时记忆网络的自然语言处理模型，所述自然语言处理模型包括语言编码网络和分类循环网络；其中，向所述语言编码网络输入物品操作问题，得到所述物品操作问题的编码和关键词，编码形式为一个第二特征向量；所述语言编码网络包含有三层长短时记忆网络，将所述物品操作问题转换为相应维度的特征向量并提取关键词，所述关键词中包含有物品类别；向所述分类循环神经网络输入所述第二特征向量，得到物品操作问题的类型，包括“存在性问题”和“计数性问题”；所述分类循环网络包含有三层，第一层为长短时记忆网络，第二层为线性变换层，最后一层为softmax全连接层，输入所述分类循环网络的所述特征向量经过处理提取特征后被分类得到分类值，用于判断物品操作问题属于“存在性问题”还是“计数性问题”；由所述第二特征向量和所述物品操作问题的类型构成所述第一特征向量。

在一些实施例中，通过深度确定性策略梯度方法对所述双机械臂问答操作模型进行训练，具体包括以下步骤：

(1)构建包括策略网略和价值网络的深度确定性策略梯度模型；所述策略网络的输入为当前时刻的状态和奖励值以及下一时刻的状态，所述策略网络的输出为当前时刻的确定性的行为策略以及下一时刻的确定性的行为策略；所述价值网络的输入为回报、转移概率矩阵和上次迭代的价值函数，所述价值网络的输出的为本次迭代的价值函数；设所述策略网略和所述价值网络的当前参数分别为θ和ω，对应的迭代更新参数分别为θ′和ω′，并构建一用于存储机械臂和环境交互的数据的经验回收集D；随机初始化所述策略网略和所述价值网络的当前参数θ，ω，令θ′＝θ，ω′＝ω，并清空所述经验回收集D；

(2)根据双机械臂的操作初始状态得到状态空间，初始化主臂和副臂的运动状态，输入到所述策略网络和所述价值网络，更新所述策略网络的当前参数和所述价值网络的当前参数，输出最大价值函数Q对应的主臂和副臂的动作，具体步骤如下：

(2-1)初始化S为状态空间中当前状态序列的第一个状态，得到其特征向量φ(S)及双机械臂的初始图像I_start；

(2-2)双机械臂根据所述当前状态序列得到当前动作A＝π_θ(φ(S))+N，π_θ为当前策略，N为引入的随机噪声；

(2-3)双机械臂执行当前动作A，得到新状态S′、新状态的特征向量φ(S′)和奖励R及双机械臂操作后的图像I_stop；将双机械臂的初始图像I_start与操作后的图像I_stop进行对比，决定是否终止状态is_end；

(2-4)将由特征向量φ(S)、当前动作A、奖励R、新状态的特征向量φ(S′)和是否终止状态构成的五元组{φ(S)，A，R，φ(S′)，is_end}存入经验回收集D；

(2-5)更新当前状态，S＝S′；

(2-6)从经验回收集D中随机采样m个样本{φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j}，j＝1，2，…，m，φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j分别为经验回收集D中第j个样本的特征向量、当前动作、奖励、新状态的特征向和是否终止状态，m不超过当前经验回收集中含有的样本总数；分别计算各样本的当前目标价值函数值y_j；

式中，γ为衰减因子，γ∈[0，1]；Q′(φ(S′_jφ)，π_θ′(φ(S′_j))，w′)为第j个样本的当前目标价值函数值的计算函数，Is_end为真时，则当前目标价值函数值y_j为当前回报值，Is_end为假时，则目标价值函数值y_j降低；

(2-7)使用均方差损失函数通过价值网络的梯度反向传播更新价值网络的当前参数ω；

使用梯度反向传播通过策略网络的梯度反向传播更新策略网络的当前参数θ；

(2-8)设T为最大迭代次数、C为目标价值函数参数的更新频率，如果T％C＝1，％表示取余数，则按照下式更新价值网络和策略网略的迭代更新参数ω′和θ′：

w′←τw+(1-τ)w

θ′←τθ+(1-τ)θ′

式中，τ是软更新系数；

(2-9)如果新状态S′为终止状态，当前阶段的迭代结束，得到训练完毕的双机械臂问答操作模型；否则返回步骤(2-2)，继续对双机械臂问答操作模型进行训练。

本公开第二方面实施例提供的双机械臂操作问答装置，包括：

图像获取及处理模块，用于获取双机械臂操作场景的RGB图像和深度图像，并将所述RGB图像和所述深度图像并行输入残差-特征分层网络，以提取所述RGB图像和所述深度图像的特征映射；

自然语言处理模块，包括基于长短时记忆网络的自然语言处理模型，用于对输入的问题进行处理并输出第一特征向量；

特征连接模块，用于将所述特征映射与所述第一特征向量进行连接得到双机械臂的操作状态；和

协调操作模块，用于构建双机械臂问答操作模型，将所述操作初始状态输入至所述双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出。

本公开第三方面实施例提供的电子设备，包括：

至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述双机械臂操作问答方法。

本公开第四方面实施例提供的计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述双机械臂操作问答方法。

附图说明

图1是本公开第一方面实施例提供的双机械臂操作问答方法的流程框图。。

图2是本公开第一方面实施例提供的双机械臂操作问答方法应用的双机械臂操作场景示意图。

图3是本公开第一方面实施例提供的双机械臂操作问答方法采用的残差-特征分层网络的结构框图。

图4是本公开第二方面实施例提出的双机械臂操作问答装置的结构框图。

图5是本公开第三方面实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要求定义的在本申请精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

参见图1，本公开第一方面实施例提供的一种双机械臂操作问答方法，包括：

将获取的操作场景的RGB图像和深度图像并行输入残差-特征分层网络，以提取RGB图像和深度图像的特征映射；

将场景的RGB图像和深度图像的特征映射与第一特征向量进行连接得到双机械臂的操作初始状态；

构建双机械臂问答操作模型，将得到的操作初始状态输入至该双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出。

本公开第一方面实施例提出的一种双机械臂操作问答方法，应用于图1所示操作场景中，参见图2中(a)、(b)，本公开实施例的双机械臂为两个六自由度的UR5机械臂，其中一个机械臂作为主臂、其执行末端设有用于吸附物品的吸盘，另一个机械臂作为副臂、其执行末端设有用于抓取物品的机械爪。两个机械臂对称设置于一容纳有若干物品的操作箱的两侧，分别以该操作箱的宽度、长度和高度方向作为X、Y和Z轴、以操作箱的底面中心作为原点O，构建XYZ坐标系，主臂和副臂的中心连线位于Y轴上，且将操作箱内的操作区域按照操作箱的对角方向等分为区域1和区域2，副臂负责区域1内物品的操作，主臂负责区域2内物品的操作。在操作箱的上方正中心位置处设有Kinect相机，用于采集双机械臂操作过程中的RGB图像和深度图像。

在一些实施例中，将获取的操作场景的RGB图像和深度图像并行输入残差-特征分层网络，以提取RGB图像和深度图像的特征映射，具体包括以下步骤：

依次拍摄机器臂操作区域的多个场景的RGB深度图像，并记为场景图像，将多个场景图像分别放缩为尺寸统一的三维图像，三维图像的尺寸为w*w*h，在一些实施例中，原始的单张三维图像的尺寸为256*256*3，缩放后单张三维图像的尺寸为224*224*3，每个场景图像中分别包含三个图层，每一个图层的尺寸为w*w，利用下式，对所有尺寸统一的场景图像中的每一个图层均分别进行归一化处理，得到操作场景的RGB图像和深度图像：

式中，i为图层中像素点的编号，为归一化后场景图像中像素点i的值，x_i为尺寸统一的场景图像中像素点i的值，/>为图层中所有像素点的像素点值的平均值，std_x为图层中所有像素点的像素点值的标准差；

对所有归一化后场景图像均利用残差-特征分层网络(ResNet-FPN，ResidualNetwork-Feature Pyramid Network)，得到相应的操作区域的场景图像特征，具体包括以下步骤：

将得到的任一张归一化后场景图像输入残差-特征分层网络(ResNet-FPN)中，用于提取RGB图像和深度图像的特征映射，以此作为操作区域的场景图像特征，该操作区域的场景图像特征为一个不同层次的多个特征矩阵；在一些实施例中，操作区域的场景图像特征共有四个特征矩阵P₁，P₂，P₃，P₄；

重复上述步骤，遍历所有归一化后的场景图像，得到多个操作区域的场景图像特征。

在一些实施例中，参见图3，残差-特征分层网络包括五层卷积层，每层卷积层都以7*7大小的卷积核步长为2提取特征，在每一卷积层后都附带有一层大小2*2的池化核进行最大池化的池化层和一层以ReLU函数作为非线性激活函数的激活层，在该架构下，输入的场景图像每经过一层卷积层就以原有尺寸0.5*0.5大小输出不同层次的特征，再分别经过一次1*1卷积减少通道数后再加和并再次经过3*3卷积输出最终的场景图像特征。

在一些实施例中，输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量，具体包括以下步骤：

构建一个基于长短时记忆网络((Long Short Term Memory Network,LSTM)的自然语言处理模型，该自然语言处理模型包括语言编码网络和分类循环网络。其中，向语言编码网络输入物品操作问题，得到物品操作问题的编码和关键词，该编码形式为一个第二特征向量；语言编码网络包含有三层长短时记忆网络，每层长短时记忆网络的神经元数量均为128个，将输入的物品操作问题转换为128维特征向量并提取关键词，关键词中包含有物品类别。向分类循环神经网络输入由语言编码网络得到的第二特征向量，得到物品操作问题的类型，包括“存在性问题”和“计数性问题”；分类循环网络包含有三层，第一层为长短时记忆网络(LSTM)，神经元数量为64，第二层为线性变换层，最后一层为softmax全连接层，输入分类循环网络的特征向量经过处理提取特征后被分类得到分类值，用于判断物品操作问题属于“存在性问题”还是“计数性问题”。由第二特征向量和物品操作问题的类型构成第一特征向量，并输出。

在一些实施例中，将场景的RGB图像和深度图像的特征映射与特征向量进行连接得到双机械臂的操作初始状态。

在一些实施例中，通过深度确定性策略梯度方法对构建的双机械臂问答操作模型进行训练，具体包括以下步骤：

(1)构建用于训练双机械臂问答操作模型的深度确定性策略梯度模型，该深度确定性策略梯度模型包括策略网略和价值网络，其中，策略网络的输入为当前时刻的状态和奖励值以及下一时刻的状态，策略网络的输出为当前时刻的确定性的行为策略以及下一时刻的确定性的行为策略；价值网络的输入为回报、转移概率矩阵和上次迭代的价值函数，价值网络的输出的为本次迭代的价值函数；设策略网略和价值网络的当前参数分别为θ和ω，对应的迭代更新参数分别为θ′和ω′，并构建一用于存储机械臂和环境交互的数据的经验回收集D；随机初始化策略网略和价值网络的当前参数θ，ω，令θ′＝θ，ω′＝ω，并清空经验回收集D；

(2)根据双机械臂的操作初始状态得到状态空间，初始化主臂和副臂的运动状态，输入到策略网络和价值网络，更新策略网络的当前参数和价值网络的当前参数，输出最大价值函数Q对应的主臂和副臂的动作。步骤如下：

(2-1)初始化S为状态空间中当前状态序列的第一个状态，得到其特征向量φ(S)及双机械臂的初始图像(即操作前的图像)I_start；

(2-2)双机械臂根据当前状态序列得到当前动作A＝π_θ(φ(S))+N；π_θ为当前策略，N为引入的随机噪声；

(2-3)双机械臂执行当前动作A，得到新状态S′、新状态的特征向量φ(S′)和奖励R及双机械臂操作后的图像I_stop；将双机械臂的初始图像I_start与操作后的图像I_stop进行对比，决定是否终止状态is_end，即根据双机械臂的初始图像I_start与操作后的图像I_sto探索是否有寻找的目标物体决定是否终止状态，如果判断为终止状态，则双机械臂恢复到初始位置，如果判断非终止状态，则双机械臂继续执行操作；

(2-5)更新当前状态，S＝S′；

(2-6)从经验回收集D中随机采样m个样本{φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j}，j1，2，…，m，φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j分别为经验回收集D中第j个样本的特征向量、当前动作、奖励、新状态的特征向和是否终止状态，m不超过当前经验回收集中含有的样本总数；分别计算各样本的当前目标价值函数值yj；

式中，γ为衰减因子，γ∈[0，1]；Q′(φ(S′_j)，π_θ′(φ(S′_j))，w′)为第j个样本的当前目标价值函数值的计算函数。Is_end为真时，则当前目标价值函数值y_j为当前回报值，为假时，则目标价值函数值y_j降低。

(2-7)使用均方差损失函数通过价值网络的梯度反向传播来更新价值网络的当前参数ω；

使用梯度反向传播通过策略网络的梯度反向传播来更新策略网络的当前参数θ；

w′←τw+(1-τ)w

θ′←τθ+(1-τ)θ′

式中，τ是软更新系数；

本公开第一方面实施例提供的双机械臂操作问答方法，具有以下特地及有益效果：

本公开第一方面实施例提供的双机械臂操作问答方法，打破了传统问答系统的被动感知，将其转变为主动探索环境，并且双机械臂协同操作能够实现复杂任务的有序控制，减少对工装夹具的依赖。本公开第一方面实施例提供的双机械臂操作问答方法，将双机械臂操作模型和问答模型相结合，通过深度确定性策略梯度方法对双机械臂问答操作模型进行训练来生成操作动作，通过双机械臂的协调操作，机械臂能够不断地探索环境，直到找到问题的答案；同时，通过学习模型对观测结果和运动轨迹进行分析以并且获得运动轨迹特征或者操作特征，以便在规划阶段后期应用，减少运动轨迹规划的复杂性，减少机械臂执行响应时间。因此，本公开第一方面实施例提供的双机械臂操作问答方法实现了双机械臂自主探索、人机交互等功能，提升了双机械臂的智能性。

本公开第二方面实施例提出的一种双机械臂操作问答装置，其结构如图4所示，包括：

图像获取及处理模块，用于获取双机械臂操作场景的RGB图像和深度图像，并将其并行输入残差-特征分层网络，以提取RGB图像和深度图像的特征映射；

特征连接模块，用于将RGB图像和深度图像的特征映射与第一特征向量进行连接得到双机械臂的操作状态；和

为了实现上述实施例，本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，用于执行上述实施例的双机械臂操作问答方法。

下面参考图5，其示出了适于用来实现本公开实施例的电子设备100的结构示意图。其中，需要说明的是，本公开实施例中的电子设备100可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、服务器等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备100可以包括处理装置(例如中央处理器、图形处理器等)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储装置108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM 103中，还存储有电子设备100操作所需的各种程序和数据。处理装置101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

通常，以下装置可以连接至I/O接口105：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置106；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置107；包括例如磁带、硬盘等的存储装置108；以及通信装置109。通信装置109可以允许电子设备100与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备100，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图中所示方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置109从网络上被下载和安装，或者从存储装置108被安装，或者从ROM 102被安装。在该计算机程序被处理装置101执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将获取的操作场景的RGB图像和深度图像并行输入残差-特征分层网络，以提取RGB图像和深度图像的特征映射；输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量；将场景的RGB图像和深度图像的特征映射与第一特征向量进行连接得到双机械臂的操作初始状态；构建双机械臂问答操作模型，将得到的操作初始状态输入至该双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤，可以通过程序来指令相关的硬件完成，所开发的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种双机械臂操作问答方法，其特征在于，包括：

构建双机械臂问答操作模型，将所述操作初始状态输入至所述双机械臂问答操作模型中进行训练，输出双机械臂的操作动作，与环境进行交互，得到物品操作问题答案并输出；

通过深度确定性策略梯度方法对所述双机械臂问答操作模型进行训练，具体包括以下步骤：

(1)构建包括策略网络和价值网络的深度确定性策略梯度模型；所述策略网络的输入为当前时刻的状态和奖励值以及下一时刻的状态，所述策略网络的输出为当前时刻的确定性的行为策略以及下一时刻的确定性的行为策略；所述价值网络的输入为回报、转移概率矩阵和上次迭代的价值函数，所述价值网络的输出的为本次迭代的价值函数；设所述策略网络和所述价值网络的当前参数分别为θ和ω，对应的迭代更新参数分别为θ′和ω′，并构建一用于存储机械臂和环境交互的数据的经验回收集D；随机初始化所述策略网络和所述价值网络的当前参数θ，ω，令θ′＝θ，ω′＝ω，并清空所述经验回收集D；

(2-5)更新当前状态，S＝S′；

(2-6)从经验回收集D中随机采样m个样本(φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j}，j＝1，2，…，m，φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j分别为经验回收集D中第j个样本的特征向量、当前动作、奖励、新状态的特征向和是否终止状态，m不超过当前经验回收集中含有的样本总数；分别计算各样本的当前目标价值函数值y_j；

式中，γ为衰减因子，γ∈[0，1]；Q′(φ(S′_j)，π_θ′(φ(S′_j))，w′)为第j个样本的当前目标价值函数值的计算函数，is_end为真时，则当前目标价值函数值y_j为当前回报值，is_end为假时，则目标价值函数值y_j降低；

(2-8)设T为最大迭代次数、C为目标价值函数参数的更新频率，如果T％C＝1，％表示取余数，则按照下式更新价值网络和策略网络的迭代更新参数ω′和θ′：

w′←τw+(1-τ)w′

θ′←τθ+(1-τ)θ′

式中，τ是软更新系数；

2.根据权利要求1所述的双机械臂操作问答方法，其特征在于，所述操作场景的RGB图像和深度图像通过以下步骤得到：

3.根据权利要求1所述的双机械臂操作问答方法，其特征在于，所述残差-特征分层网络包括若干卷积层，在各所述卷积层后均分别依次连接池化层和激活层。

4.根据权利要求3所述的双机械臂操作问答方法，其特征在于，所述残差-特征分层网络包括5层所述卷积层，各所述卷积层均以7*7大小的卷积核步长为2提取特征；所述池化层的大小为2*2；所述激活层的非线性激活函数采用ReLU函数。

5.根据权利要求1所述的双机械臂操作问答方法，其特征在于，所述输入物品操作问题经过基于长短时记忆网络的自然语言处理模型处理后输出第一特征向量，具体包括以下步骤：

构建基于长短时记忆网络的自然语言处理模型，所述自然语言处理模型包括语言编码网络和分类循环网络；其中，向所述语言编码网络输入物品操作问题，得到所述物品操作问题的编码和关键词，编码形式为一个第二特征向量；所述语言编码网络包含有三层长短时记忆网络，将所述物品操作问题转换为相应维度的特征向量并提取关键词，所述关键词中包含有物品类别；向所述分类循环网络输入所述第二特征向量，得到物品操作问题的类型，包括“存在性问题”和“计数性问题”；所述分类循环网络包含有三层，第一层为长短时记忆网络，第二层为线性变换层，最后一层为softmax全连接层，输入所述分类循环网络的所述特征向量经过处理提取特征后被分类得到分类值，用于判断物品操作问题属于“存在性问题”还是“计数性问题”；由所述第二特征向量和所述物品操作问题的类型构成所述第一特征向量。

6.一种根据权利要求1～5中任一项所述双机械臂操作问答方法的双机械臂操作问答装置，其特征在于，包括：

特征连接模块，用于将所述特征映射与所述第一特征向量进行连接得到双机械臂的操作初始状态；和

7.一种电子设备，其特征在于，包括：

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1～5中任一项所述的双机械臂操作问答方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1～5中任一项所述的双机械臂操作问答方法。