CN113516055A

CN113516055A - 一种用于物品搜索的机器人问答方法

Info

Publication number: CN113516055A
Application number: CN202110648041.1A
Authority: CN
Inventors: 刘华平; 司马锲; 邓宇鸿; 郭迪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-19

Abstract

本发明属于图像感知和语言处理技术领域，尤其涉及一种用于物品搜索的机器人问答方法。该方法首先输入图像经过残差‑特征分类网络标注物体边界框和类别标签后用于构建场景图谱，后续输入的图像序列用于更新场景图谱；输入问题经过长短时记忆网络处理后输出特征向量，特征向量经过循环卷积分类网络后得到关键词；并在场景图谱中进行广度优先搜索得到问题答案并输出。本方法突破在传统问答系统中过于依赖预给专家数据且缺乏真实环境中的物理交互过程的缺陷，实现了机器人自主操作、主动环境交互、语义分析，提升了机器人问答系统的交互性和智能性，在包括快递仓储、商场、工厂等多种场景下都有很大的应用前景。

Description

一种用于物品搜索的机器人问答方法

技术领域

本发明属于图像感知和语言处理技术领域，尤其涉及一种用于物品搜索的机器人问答方法。

背景技术

近年来，随着机器人技术的不断发展，人们对于机器人尤其是服务机器人提出了更高的要求，开始逐步要求机器人能在人类自然语言指令下完成一定任务。但在实际应用场景中，如家居环境，往往存在有较多的物体，部分物体甚至隐藏在无法获取视野的位置，这使得机器人很难通过简单获取视野来完成简单任务。因此，机器人在多样化、复杂、大范围的环境下根据人类语言指令完成任务需要引入更多执行方法。

而在目前人工智能技术应用最多的问答系统中，主要手段为分析语言指令和检索预设数据库的经典问答和利用当前视野进行视觉图像分析回答问题的视觉问答，还没有明确使用机器人操作来辅助问答的方法。简单的专家问答系统只能实现语言信息的处理和反馈，而当下应用于酒店、餐厅等公共场所的服务机器人也只能通过导航、移动等手段来进一步获取信息回答问题。当面对需要处理大量多种类物体或室内陈设较为复杂的场景时，如超市、汽修店等。机器人还不能实现根据语言指令主动执行操作探索所处环境来回答问题。

具身智能是近年来人工智能领域从行为学角度出发构建的一类新的人工智能实现方法，在具身智能中，研究者们使用“认识即计算”的方法，即智能体在没有过多先验知识生成的规则下通过与环境交互来构建自身知识结构或认知模型。但受制于同真实环境交互的难度，目前的主流具身智能研究都主要局限于仿真环境，鲜有在真实机器人上应用的研究。少部分在真实环境中应用的研究也局限于移动导航等交互形式较为简单的任务形式，缺乏能执行移动或改物体形态的操作的交互形式，极大地局限了具身智能的实际应用。目前具身智能也在机器人领域中缺少实际应用。

发明内容

本发明的目的是提出一种用于物品搜索的机器人问答方法，突破在传统问答系统中太过于依赖预先给定的专家数据且缺乏真实环境中的物理交互过程的缺陷，并将其应用到实际机器人中，实现基于操作交互的问答过程。

本发明提出的用于物品搜索的机器人问答方法，首先输入图像经过残差-特征分类网络标注物体边界框和类别标签后用于构建场景图谱，后续输入的图像序列用于更新场景图谱。输入问题经过长短时记忆网络处理后输出特征向量，特征向量经过循环卷积分类网络后得到关键词并在场景图谱中进行广度优先搜索得到问题答案并输出。

本发明提出的用于物品搜索的机器人问答方法，其优点是：

1、本发明的用于物品搜索的机器人问答方法，基于现实环境，设计了双目摄像机RGB-D视野采集及处理模块和对应的6自由度机械臂操作系统，使得机器人在实际应用中针对特定场景的问答不用过度依赖预先给定的专家数据库而可以充分利用现有环境交互来学习。可以应用物体种类多样、陈设复杂且不便于预先构建数据库的环境。

2、本发明的方法中同时使用了多帧图像和对应的可以动态更新的场景图谱技术，解决了传统的视觉问答系统中不能处理有操作的动态过程的问题。因此解决了已有技术中机器人问答系统多使用视觉方法存在的诸多问题，例如视觉方法尤其是根据静态图像进行分析判断的方法大部分能获取的信息有限，也不能分析包含有动态过程的问题。

3、本发明方法中，采用具身智能的设计思想，实现了机器人自主操作、主动环境交互、语义分析，提升了机器人问答系统的交互性和智能性，在包括快递仓储、商场、工厂等多种场景下都有很大的应用前景。

附图说明

图1是本发明提出的搜索物品过程中机器人问答方法的流程框图。

图2是本发明方法涉及的残差-特征分层网络架构(ResNet-FPN)的示意图。

具体实施方式

上述用于物品搜索的机器人问答方法，其流程框图如图1所示，具体过程包括以下步骤：

(1)拍摄多种物品的RGB深度图像，分别对多个深度图像进行物品类别标注；

(2)依次拍摄机器人搜索区域的多个场景的RGB深度图像，并记为场景图像，将多个场景图像分别放缩为尺寸统一的三维图像，三维图像的尺寸为w*w*h，本发明的一个实施例中该三维图像的尺寸为224*224*3，每个场景图像中分别包含三个图层，每一个图层的尺寸为w*w，利用下式，对尺寸统一的场景图像中的每一个图层进行归一化处理：

上式中，i为图层中像素点的编号，

代表归一化后场景图像中像素点i的值，x_i代表尺寸统一的场景图像中像素点i的值，

表示该图层中所有像素点的像素点值的平均值，std_x表示图层中所有像素点的像素点值的标准差；

(3)利用残差-特征分层网络中的(ResNet-FPN)卷积神经网络，得到搜索区域的场景图像特征，具体包括以下步骤：

(3-1)向如图2所示的残差-特征分层网络(ResNet-FPN)卷积神经网络输入步骤(2)的归一化后场景图像，卷积神经网络输出得到搜索区域的场景图像特征，该搜索区域的场景图像特征为一个不同层次的多个特征矩阵；本发明的一个实施例中，共有四个特征矩阵P₁,P₂,P₃,P₄，如图2中所示；预处理仿真系统和真实相机传感器采集的带有类别标签的物体图片为256*256*3尺寸，继而导入有五层卷积层的ResNet部分，在该部分每个卷积层都以7*7大小的卷积核步长为2提取特征，在每一卷积层后都附带有一层2*2大小池化核进行最大池化的池化层和一层以ReLU函数作为非线性激活函数的激活层，在该架构下，输入图片每经过一层卷积层就以原有尺寸0.5*0.5大小输出不同层次的特征，再分别经过一次1*1卷积减少通道数后再加和并再次经过3*3卷积输出最终特征。

(3-2)重复步骤(3-1)，遍历步骤(2)的所有归一化后的场景图像，得到多个搜索区域的场景图像特征矩阵；

(4)构建一个物品搜索模型，对该物品搜索模型进行训练，即将上述步骤(3)的场景图像特征矩阵输入到步骤(3)的残差-特征分层网络(ResNet-FPN)卷积神经网络后续部分中，进行融合特征回归，得到场景图像中各物品的边界框，对物品边界框内区域进行兴趣区域(ROI)池化和对齐，提取物品边界框内区域特征，输出物品类别，得到一个初始物品搜索模型；

(5)依次遍历步骤(3)中所有场景图像特征矩阵，重复步骤(4)，得到最终物品搜索模型；

(6)采用强化学习方法生成多个机器人操作动作，记录操作过程中不同采样时刻的场景图像，或在真实环境中对机器人的操作过程进行采样，记录操作过程中不同采样时刻的场景图像；采用步骤(2)的方法，将上述场景图像缩放为与步骤(2)相同尺寸的w*w*h图像，将多帧缩放后的图像I₁,I₂,I₃…作为图像序列和场景搜索问题分别输入机器人操作交互问答系统；

(7)向步骤(5)的物品搜索模型输入步骤(6)的图像序列中第一个图像，从物品搜索模型的输出结果中获取物品给定边界框以及物品类别，将得到的物品类别作为节点添加到一个初始化场景图谱中，并根据物品边界框之间的几何关系，对物品间的相对位置关系进行判断，将判断结果作为临接边添加到上述初始化场景图谱中，得到一个场景图谱；

(8)遍历步骤(6)的图像序列中所有图像，重复步骤(7)，对场景图谱，进行更新，更新过程为：在当前帧场景图像的中心区域寻找边界框最大的物品，以该物品为基础，将当前帧中的该物品与前一帧中的该物品位置对齐，对该物品在场景图谱中当前帧的位置关系进行识别和判定，根据识别和判定结果，在前一帧场景图谱中以该物品所在节点为起点进行场景图谱更新，得到多个场景图谱；

(9)构建一个基于长短时记忆网络(LSTM)的自然语言处理模块，向自然语言处理模块中的语言编码网络输入物品搜索问题，得到搜索问题的编码和关键词，该编码形式为一个特征向量，语言编码网络包含有三层长短时记忆网络，每层网络的神经元数量均为128个，根据预先统计(7)中输入问题词频构建的词汇表将输入问题转为128维特征向量并提取关键词，关键词中包含有物品类别和位置关系。将特征向量输入自然语言处理模块中的分类循环神经网络，得到物品搜索问题的类型；分类循环神经网络包含有三层，第一层为长短时记忆网络(LSTM)，神经元数量为64，第二层为线性变换层，最后一层为softmax全连接层，输入的词向量经过处理提取特征后被分类得到分类值用于判断问题属于“是否性问题”还是“计数性问题”；

(10)根据步骤(9)得到的编码特征向量和搜索问题类型、关键词，对步骤(8)中得到的与多帧场景图像相对应的多个场景图谱进行检索，即：根据关键词，遍历多个场景图谱中的所有节点，得到待搜索物品在每一帧场景图谱中的节点位置；采用广度优先方法(BFS)，根据搜索问题类型和关键词，对待搜索物品所在节点的相邻节点进行搜索，确定符合搜索条件的相对位置关系的多个相邻节点及与相邻节点相对应的邻接边，依搜索顺序从多帧场景图谱中选取邻接边数变化最大的一帧场景图谱，搜索该场景图谱中物品所在节点的相邻节点和与相邻节点相对应的邻接边，得到物品搜索问题答案，并输出。例如，对于“是否性问题”答案为“是”或“否”，对于“计数性问题”，答案为“0”，“1”，“2”等。

上述用于物品搜索的机器人问答方法的步骤(7)中，根据物品边界框之间的几何关系，对物品间的相对位置关系进行判断，具体过程如下：

(1)对于标定了边界框的物品O₁和物品O₂，分别计算覆盖率r和重合度l：

其中，S₁,S₂表示两者边界框面积，S_overlap表示两者边界框重合面积；

其中，L₁,L₂表示两者边界框对角线长度，d_center表示两者边界框中心距离；

(2)分别设定覆盖率r的阈值x和重合度l的阈值y，在本发明的一个特例中，x＝0.5，y＝1，对步骤(1)计算得到的覆盖率r和重合度l进行判断：

若r≥x，表示物品O₁和物品O₂覆盖率高，则判定物品O₁和物品O₂的相对位置关系为“上/下”；

若r<x同时l<y，表示物品O₁和物品O₂的面积重合率不高，但彼此中心足够靠近，则判定物品O₁和物品O₂的相对位置关系为“上/下；

若r<x同时x≤l<y，表示两者重合率不高，但是位置较为靠近，则判定物品O₁和物品O₂的相对位置关系“临近”；

若r<x同时l≥y，表示两者彼此远离，则判定物品O₀和物品O₂的相对位置关系为不存在特殊相对位置关系。

本发明的用于物品搜索的机器人问答方法的具体实施流程包括：

在机器人系统仿真环境中采样物体图像或在真实环境中拍摄采集物体RGB-D图像并标注对应物体类别构建物体识别数据用于预训练物体类别识别模型。继而再以此模型为物体检测器，构建一个可以同时处理输入多帧图像和对应问题并进行问答的操作交互问答系统，其中图像处理部分可以分别检测各张图片中的物体类别并标定边界框判断物体间的相对位置关系，且能将每个物体对齐至上一帧中的对应位置从而更新对应的场景图谱中对应节点和邻边；语言指令处理模块则可以将输入的问题编码成词向量形式并初步判定问题类型。问答分析模块将上述图像信息、问题编码进行拼接得到特征融合向量，采用卷积网络处理上述特征融合向量来找到问题对应场景图谱中的关键节点并检索得到答案。对于输入的是否类问题，输出为“是，否”，对于输入的计数类问题，输出为“1，2，3...”。

以下结合附图介绍本发明方法所给系统的一个实例：

(1)机器人仿真系统中截取的操作区域正上方视野或实际系统中由悬挂支架上的双目深度摄像机拍摄的场景RGB-D图像称之为场景图像。在数据集的构造过程中，场景图像一般被防缩为224*224*3尺寸的图像，场景图像中包含有三个图层，每一个图层的尺寸为224*224，继而我们可以利用下式对原始图像进行归一化处理：

上式中

代表归一化后环境图像中像素点的值，x_i代表原环境图像中像素点的值，

表示该图层中所有像素点的平均值，std_x表示该图层中所有像素点的标准差。

(2)构建一个ResNet-FPN架构的卷积神经网络用于训练物体检测器，具体包括以下步骤：预处理仿真系统和真实相机传感器采集的带有类别标签的物体图片为256*256*3尺寸，继而导入有五层卷积层的ResNet部分，在该部分每个卷积层都以7*7大小的卷积核步长为2提取特征，在每一卷积层后都附带有一层2*2大小池化核进行最大池化的池化层和一层以ReLU函数作为非线性激活函数的激活层，在该架构下，输入图片每经过一层卷积层就以原有尺寸0.5*0.5大小输出不同层次的特征，再分别经过一次1*1卷积减少通道数后再加和并再次经过3*3卷积输出最终特征。

(3)利用上述步骤(2)的卷积神经网络处理输入的图像提取得到大小分别为128，64，32，16的多层次特征矩阵P₁,P₂,P₃,P₄，再次输入到后续的Fast-RCNN网络中进行融合特征回归得到对应目标物体的边界框，再对边界框内区域进行ROI池化和对齐进一步卷积提取特征分析输出物体标签类别，从而完成物体检测器的构建。

(4)在仿真系统或真实环境中针对给定问题由强化学习方法生成一系列操作，并采样记录操作过程中不同时刻的场景图像，并缩放为224*224*3大小。将多帧图像I₁,I₂,I₃…作为图像序列输入同给定问题分别输入操作交互问答系统。

(5)在(4)输入的图像序列基础上构建知识图谱，首先使用(3)中得到的物体检测器识别对输入图像序列中的物体给定边界框并判定类别，将得到的物体类别标签作为节点添加到场景图谱中，再根据物体边界框之间的几何关系判断物体间的相关位置关系作为临接边添加到图谱中完成场景图谱的建构。其中物体相对位置关系的判断准则如下：

对于标定了边界框的物体O₁,O₂分别计算两项指标：覆盖率r和重合度l：

其中S₁,S₂表示两者边界框面积，S_overlap表示两者边界框重合面积

其中L₁,L₂表示两者边界框对角线长度，d_center表示两者边界框中心距离。

若r≥0.5表示两者覆盖率高，则判断关系为“上/下”。

若r<0.5同时l<0.5表示两者面积重合率不高但是彼此中心足够靠近，同样判断关系为“上/下。

若r<0.5同时0.5≤l<1表示两者重合率不高，但是位置较为靠近，判断关系为“临近”。

若r<0.5同时l≥1表示两者彼此远离，判断为不存在特殊相对位置关系，对于第一帧场景图像，上述方法构建起初始场景图谱继而在每一帧输入后根据图像中心区域最大边界框物体为基础对齐上一帧中对应位置，重新进行识别和判定相对位置关系并对场景图谱进行更新。

(6)构建一个自然语言处理模块用于处理输入的问题，首先构造一个语言编码网络用于将输入的问题编码为向量。语言编码网络包含有三层长短时记忆网络，每层网络的神经元数量均为128个，根据预先统计输入问题词频构建的词汇表将输入问题转为128维词向量并提取关键词。得到的特征向量再经过一个分类循环神经网络来判断问题类型，该网络包含有三层，第一层为长短时记忆网络，神经元数量为64，第二层为线性变换层，最后一层为softmax全连接层，输入的词向量经过处理提取特征后被分类得到分类值用于判断问题属于“是否性问题”还是“计数性问题”。

(7)根据关键词对应关键节点搜索场景图谱输出问题答案：

根据前述(6)得到的词特征向量和问题类型、关键词等检索(5)中得到的场景图谱。首先根据关键词逐帧遍历图谱节点定位关键物体所在位置，再使用广度优先方法搜索其存在特殊相对位置关系的物体节点并确定节点数和邻接边数变化最大的一帧为关键帧检索其邻接节点和对应邻接边逻辑判断输出问题答案。

Claims

1.一种用于物品搜索的机器人问答方法，其特征在于该方法输入图像经过残差-特征分类网络标注物体边界框和类别标签后用于构建场景图谱，后续输入的图像序列用于更新场景图谱；输入问题经过长短时记忆网络处理后输出特征向量，特征向量经过循环卷积分类网络后得到关键词；并在场景图谱中进行广度优先搜索得到问题答案并输出。

2.如权利要求1所述的用于物品搜索的机器人问答方法，其特征在于该方法的具体过程包括以下步骤：

(2)依次拍摄机器人搜索区域的多个场景的RGB深度图像，并记为场景图像，将多个场景图像分别放缩为尺寸统一的三维图像，三维图像的尺寸为w*w*h，每个场景图像中分别包含三个图层，每一个图层的尺寸为w*w，利用下式，对尺寸统一的场景图像中的每一个图层进行归一化处理：

上式中，i为图层中像素点的编号，

(3)利用残差-特征分层网络中的；卷积神经网络，得到搜索区域的场景图像特征，具体包括以下步骤：

(3-1)向残差-特征分层网络；卷积神经网络输入步骤(2)的归一化后场景图像，卷积神经网络输出得到搜索区域的场景图像特征，该搜索区域的场景图像特征为一个不同层次的多个特征矩阵；

(9)构建一个基于长短时记忆网络(LSTM)的自然语言处理模块，向自然语言处理模块中的语言编码网络输入物品搜索问题，得到搜索问题的编码和关键词，该编码形式为一个特征向量，将特征向量输入自然语言处理模块中的分类循环神经网络，得到物品搜索问题的类型；

(10)根据步骤(9)得到的编码特征向量和搜索问题类型、关键词，对步骤(8)中得到的与多帧场景图像相对应的多个场景图谱进行检索，即：根据关键词，遍历多个场景图谱中的所有节点，得到待搜索物品在每一帧场景图谱中的节点位置；采用广度优先方法，根据搜索问题类型和关键词，对待搜索物品所在节点的相邻节点进行搜索，确定符合搜索条件的相对位置关系的多个相邻节点及与相邻节点相对应的邻接边，依搜索顺序从多帧场景图谱中选取邻接边数变化最大的一帧场景图谱，搜索该场景图谱中物品所在节点的相邻节点和与相邻节点相对应的邻接边，得到物品搜索问题答案，并输出。

3.如权利要求1所述的用于物品搜索的机器人问答方法，其特征在于所述的步骤(7)中，根据物品边界框之间的几何关系，对物品间的相对位置关系进行判断，具体过程如下：

其中，S₁，S₂表示两者边界框面积，S_overlap表示两者边界框重合面积；

其中，L₁，L₂表示两者边界框对角线长度，d_center表示两者边界框中心距离；

(2)分别设定覆盖率r的阈值x和重合度l的阈值y，对步骤(1)计算得到的覆盖率r和重合度l进行判断：

若r＜x同时l＜y，表示物品O₁和物品O₂的面积重合率不高，但彼此中心足够靠近，则判定物品O₁和物品O₂的相对位置关系为“上/下；

若r＜x同时x≤l＜y，表示两者重合率不高，但是位置较为靠近，则判定物品O₁和物品O₂的相对位置关系“临近”；

若r＜x同时l≥y，表示两者彼此远离，则判定物品O₁和物品O₂的相对位置关系为不存在特殊相对位置关系。