CN109643448A

CN109643448A - 机器人系统中的细粒度物体识别

Info

Publication number: CN109643448A
Application number: CN201880003293.5A
Authority: CN
Inventors: 蒋伟; 王炜
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-03-03
Filing date: 2018-03-05
Publication date: 2019-04-16
Anticipated expiration: 2038-03-05
Also published as: CN109643448B; WO2018157873A1; EP3501002A1; US10322510B2; US20180250826A1; EP3501002A4

Abstract

公开了一种用于机器人系统中的细粒度物体识别的方法，所述方法包括：从成像装置获取物体的图像；基于所述图像，使用深度类别级检测神经网络检测预定义的物体类别；为所述深度类别级检测神经网络检测到的每个预定义物体类别生成特征映射；基于所述特征映射，使用与所述物体的预定义类别对应的深度实例级检测神经网络生成嵌入特征，其中物体的每个预定义类别包括对应的不同实例级检测神经网络；基于所述嵌入特征的分类确定所述物体的实例级。

Description

机器人系统中的细粒度物体识别

相关申请案交叉申请

本申请要求于2017年3月3日递交的发明名称为“机器人系统中的细粒度物体识别”的第15/449,541号美国非临时专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文。

发明内容

本发明涉及机器人系统，尤其涉及用于家庭服务机器人的深度检测嵌入网络中的细粒度物体识别。

背景技术

家庭服务机器人的一个重要功能是能够识别小型室内物体，例如杯子、盘子、控制器、手机、钥匙和瓶子。然而，由于某些物体的个性化以及由此产生的细粒度识别问题，导致对小物体很难识别。

在特定家庭中需要家庭服务机器人识别的物体可能被用户个性化，所述物体具有独特的特性。独特的物体更难以检测和识别。例如，家庭服务机器人不仅需要识别电视控制器类别、杯子类别或鞋子类别，还需要区分这些类别内的不同实例。也就是说，机器人需要能够区分不同控制器、不同型号手机、不同形状、尺寸和颜色的杯子或不同尺寸、款式、纹理和颜色的鞋子。

发明内容

现描述各种示例从而以简化的形式引入概念的选择，这些概念将在以下具体实施方式中进行进一步的描述。本发明内容的目的不在于识别权利要求书保护的主题的关键或必要特征，也不在于限制权利要求书保护的主题的范围。

示例1是一种用于机器人系统中的实例级物体识别的方法，所述方法包括：从成像设备获取物体的图像；基于所述物体的图像以及存储在所述机器人系统中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及多个预定义物体类别；生成由所述类别级深度检测神经网络确定的物体的预定义类别的特征映射；使用与所述物体的预定义类别对应的实例级深度检测神经网络，基于所述特征图生成嵌入特征，其中所述多个预定义物体类别中的每个预定义类别包括对应的不同实例级深度检测神经网络；基于所述嵌入特征的分类识别所述物体的实例级；并且由所述机器人系统基于所述物体的实例级识别情况执行机器人操作。

在示例2中，示例1的主题可选地包括：其中，获取所述物体的图像包括获取所述物体的多个图像，每个图像从不同的透视和/或照明条件获取。

在示例3中，示例2的主题可选地包括使用深度检测神经网络为所述多个图像的每个图像生成热图，所述热图强调所述一个或多个图像中的类别级物体。

在示例4中，示例3的主题可选地包括：其中，生成所述热图包括为所述一个或多个图像的每个像素生成关注值，其中关注值越高对应于所述像素是感兴趣前景物体的可能性越高。

在示例5中，示例4的主题可选地包括基于所述热图生成二值物体掩模图像，其中关注值高于阈值的像素被标记为第一逻辑状态，而所有其他像素被标记为与所述第一个逻辑状态相反的第二逻辑状态。

在示例6中，示例5的主题可选地包括基于标记为所述第一逻辑状态的像素从所述掩模图像中提取所述预定义的物体类别。

在示例7中，示例6的主题可选地包括训练所述深度检测神经网络以识别所述类别级物体的实例级物体包括基于所述提取的类别级物体以及从包含所述提取类别级物体的最小矩形框生成的增强训练数据来识别所述物体的实例级。

在示例8中，示例7的主题可选地包括：其中，生成所述增强型训练数据包括：从所述掩模图像中去除与所述提取的类别级物体相对应的图像像素；并且将所述去除的图像像素嵌入到一组背景场景图像中以生成设置的背景场景图像，而不将所述物体用作增强训练图像。

在示例9中，示例8的主题可选地包括通过所述机器人系统部署环境常见的预定义物体类别来训练所述预定义物体类别上的深度检测神经网络。

在示例10中，示例9的主题可选地包括：其中，训练所述深度检测神经网络还包括为每个类别级物体生成前向计算的特征映射。

在示例11中，示例10的主题可选地包括：其中，训练所述深度检测神经网络以识别实例级物体包括：基于所述前向计算的特征映射生成所述嵌入的特征；并调整所述类别级物体检测以基于所述嵌入的特征确定所述实例级物体的识别情况。

示例12是一种机器人系统，包括：成像装置、存储器和一个或多个处理器，所述成像装置耦合到所述机器人并且定位成获取所述成像装置视场内物体的图像；所述存储器包括指令和预定义物体图像类别；所述一个或多个处理器耦合到所述成像设备和所述存储器并与所述成像设备和所述存储器通信，其中所述一个或多个处理器执行以下指令：从所述成像设备获取物体的图像；基于所述物体的图像以及存储在存储器中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及所述多个预定义物体类别；生成由所述类别级深度检测神经网络确定的物体的预定义类别的特征映射；使用与所述物体的预定义类别对应的实例级深度检测神经网络，基于所述特征图生成嵌入特征，其中所述多个预定义物体类别中的每个预定义类别包括对应的不同实例级深度检测神经网络；基于所述嵌入特征的分类识别所述物体的实例级。

在示例13中，示例12的主题可选地包括，其中，所述一个或多个处理器还执行所述指令，以在部署到所述环境之前使用公共可用的图像或预定义物体预训练所述深度检测神经网络。

在示例14中，示例13的主题可选地包括，其中，所述一个或多个处理器还执行所述指令，以基于自动在所述环境处获得的新训练数据来检测所述特定环境中的预定义物体。

在示例15中，示例14的主题可选地包括，其中，所述一个或多个处理器还执行以下指令：获取所述机器人系统部署环境中的实例级物体的图像；将所述图像传送到远离所述机器人系统部署环境的服务器来微调所述深度检测神经网络以识别所述类别级物体的实例级物体。

在示例16中，示例15的主题可选地包括，其中，所述一个或多个处理器还执行以下指令：生成不包括所述类别级物体的一组背景场景图像；将分割的前景图像嵌入到背景场景图像集中。

在示例17中，示例16的主题可选地包括，其中，所述一个或多个处理器还执行所述指令，以在所述机器人系统部署环境中的不同时间和位置处随机采样所述背景场景图像。

示例18是一种非瞬时性计算机可读介质，用于存储用于机器人系统中的细粒度物体识别的计算机指令，当由一个或多个处理器执行所述指令时，使所述一个或多个处理器执行以下步骤：从成像设备获取物体的图像；基于所述物体的图像以及存储在所述机器人系统中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及多个预定义物体类别；生成由所述类别级深度检测神经网络确定的物体的预定义类别的特征映射；使用与所述物体的预定义类别对应的实例级深度检测神经网络，基于所述特征图生成嵌入特征，其中所述多个预定义物体类别中的每个预定义类别包括对应的不同实例级深度检测神经网络；基于所述嵌入特征的分类识别所述物体的实例级。

在示例19中，示例18的主题可选地包括，其中，所述执行的指令使所述一个或多个处理器通过确定界限关联图像中的类别级物体的最小框来执行限界框标注。

在示例20中，示例19的主题可选地包括，其中，所述执行的指令还使所述一个或多个处理器将所述图像中位于最小框之外的像素视为硬背景像素。

附图说明

图1是示出了根据各种实施例的用于机器人系统中的细粒度物体识别的方法训练阶段的流程图；

图2是示出了根据各种实施例的用于机器人系统中的细粒度物体识别的方法测试阶段的流程图；

图3是根据各种实施例的机器人系统图；

图4是示出了根据示例性实施例的用于执行方法的机器人系统的电路框图。

具体实施方式

所述方法和机器人系统硬件模块的后续描述涉及家庭服务机器人中的实现。这仅仅是用于说明目的，所述细粒度物体识别可以在其他机器(例如，机器人系统)中实现。

后续讨论将物体称为物体类别(即，类别级物体)和物体实例(实例级物体)。物体类别或类别级物体可以被定义为一种物体。例如，杯子、电话、鞋子和瓶子被认为是物体的类别。物体或实例级物体的实例是指该特定物体类别的品牌、类型甚至型号。在电话物体的示例中，该电话的实例将是相对于家庭电话、特定品牌电话甚至某品牌电话特定型号(即，iPhone 4与iPhone 6)的手机。

所公开的实施例通过组合深度神经网络、用于自动训练数据获取的深度关注神经网络、用于类别级物体检测的深度检测神经网络以及用于细粒度实例级物体识别的深度嵌入神经网络来提供细粒度物体识别。所述物体识别方法采用训练阶段和测试阶段来完成所述识别。

如本领域所知，神经网络包括大量高度互连的处理元件(神经元)，所述处理元件通过一致协调地工作解决特定问题(例如，实例级物体分类)。所述神经网络不是被编程，而是使用任意函数近似机制，在预训练一定数量之后“学习”观察数据。所述神经网络的目标是用与人类大脑相同的方式解决问题。所述神经网络利用从复杂或不精确的数据中导出意义的能力，提取因过于复杂而无法被人类或其他计算机技术注意到的模式。深度关注、深度嵌入和实例级检测神经网络各自具有由其标签定义的特定任务，但运行方式基本类似。

所述深度关注网络通过与特定家庭无关的大量训练数据进行预训练。在一实施例中，所述深度关注网络在用户在家庭环境中(例如，在制造期间)使用之前被预训练。预训练生成强调感兴趣物体的热图。感兴趣的物体可以被定义为用户可用的相对小的物体，例如电话、钥匙、杯子、衣物、遥控器、瓶子等。这类感兴趣的物体也称为类别级物体，被自动分割出来以生成用于后续检测和识别步骤的注释训练数据(例如，分割的前景图像)。在一实施例中，在预训练之后可以不更改所述深度关注网络，便在所述机器人系统上部署所述网络。

所述深度检测神经网络通过训练可以使用所述深度关注网络基于所述预训练数据来检测所述类别级物体。所述网络可以通过预训练检测大多数家庭常用的一组预定义常见物体类别(例如，所述机器人系统的部署环境)，并且当所述机器人系统部署到特定家庭中时，可以进一步微调所述预训练网络的参数，以更好地适应所述特定家庭环境中的特定物体类别检测。例如，当将新的不常见物体类别引入所述机器人系统进行检测时，如果需要检测新的物体类别，则可以对所述网络参数进行微调或重新训练。

所述深度嵌入网络可以通过训练识别实例级物体。对于每个类别级物体，所述深度嵌入网络可以通过训练将该类别中检测到的类别级物体嵌入到多维特征空间中，以此可以进一步采用物体分类类别区分不同的实例级物体。所述深度嵌入网络将其部分结构和参数与所述深度检测神经网络共享。当所述训练集很小时，这可以同时降低训练阶段和测试阶段的计算复杂度并减轻过度拟合。

所述系统可以仅通过人工监督的最少数量的手动标注自动获得物体级训练数据。例如，当将未知物体引入所述机器人时可以使用人工监督，并且所述监督的形式可以限于提供相关联的物体类别。所提出的系统可以避免使用复杂的区域级标注，这对于人工标注非常昂贵。

所述机器人系统还可以为家庭服务机器人中的个性化和细粒度物体检测和识别提供可扩展的有效解决方案。与训练类别级检测器的传统解决方案相比，所公开的机器人系统能够区分实例级物体。所公开的机器人系统可以：提高可扩展性，其中相对较小容量的网络可用于以分层方式检测类别级物体和实例级物体，而所述端到端解决方案则需要更高容量的网络来区分所述许多物体实例；减少计算，当添加新物体实例时，所述网络仅需要微调或重新训练相关物体类别的相应嵌入网络，而所述传统解决方案则需要对所述整个端到端网络进行微调或重新训练；减少过度拟合，其中可以使用相对少量的训练数据训练所述较小容量的网络。

图1是示出了根据各种实施例的用于机器人系统中的细粒度物体识别的方法训练阶段的流程图。在101处，通过所述机器人系统使用成像装置(例如，相机)获取图像。所述图像可以包括物体的一个或多个视频序列，该序列示出所述物体的多个不同视点，或者包括所述物体的一个或多个静止图像，该图像示出所述多个不同视点。

在通过所述机器人系统获取所述物体图像的实施例中，当将所述物体引入所述机器人系统时，用户可以将所述物体放置在相对简洁的背景上。例如，可以将所述物体放置在无特征的桌子上或具有简单纹理的地毯上。这可以减少所述物体图像中的噪声(例如，与所述物体无关的图像)。所述机器人系统可以自动地围绕所述物体移动以从各种视图和角度获取所述物体的图像帧。

在一实施例中，用户可以向所述机器人系统一次仅引入一个物体以避免混淆。在另一实施例中，可以请求用户指出感兴趣的物体并且稍后在数据获取期间执行连续跟踪。为了进一步改善所述检测和识别性能，用户可以在一段时间(例如，一天)内将所述物体留在该位置，使所述机器人系统可以在不同的照明条件和不同的视角下获取所述物体的图像帧。

在方框103和方框105中，预训练深度关注网络用于进行自动物体标注。物体标注方框103提供的是通用关注前景检测，其基于预训练深度关注网络105指示最关注前景区域在所述图像中的位置。有不同标注类型可以使用。例如，物体限界框和精确物体掩模是这些标注类型中的两种。这两种标注类型仅仅用于说明，可以使用其他类型。

深度关注网络105使用相对大量的训练数据进行预训练，所述训练数据旨在生成输入图像帧的热图以强调对感兴趣物体的前景进行训练并滤去所述图像的其他部分，例如背景物体、桌子特征或桌子纹理。热图可以按数据的图形表示形式生成，其中矩阵中包含的各值表示所述图像中的颜色。所述预训练的热图数据存储在深度关注网络105中。一旦所述机器人系统被部署到特定家庭，便可以固定深关注网络105。

所述输入图像的热图包括每个像素上的关注值，其中每个关注值是数值(可以是浮点数或整数)，并且关注值越高意味着所述像素是感兴趣前景物体的可能性越高。基于所述热图，可以提取感兴趣的前景物体作为所述前景连接区域。可以使用自动图像分割方法基于所述热图提取感兴趣的前景物体。二进制物体掩模图像107沿着两个单独的路径输入到数据增强方框109、111。

数据增强方框109、111可以改进深度关注网络105的预训练数据。数据增强方框109、111提供基本相同的功能来生成基本相同的增强数据，如随后内容所述。所生成的增强数据在类别级物体检测模型训练方框113和实例级物体嵌入模型训练方框115中的使用有所不同。

如果使用限界框标注，则所述物体限界框是包含(即，限界)前景物体掩模的最小矩形框。所述原始图像帧以及所述限界框用作数据增强方框109、111中的训练数据。同时，去除与所述前景物体掩模对应的图像像素并将所述图像像素嵌入到一组背景场景图像中以生成设置的背景场景图像，而不将所述物体用作增强的训练图像。在所述机器人系统运行的特定家庭中，从不同的时间和位置随机采样没有所述物体的一组背景场景图像。可以相对于前景物体嵌入的位置和角度添加一些随机性。所述背景图像以及所生成图像中的前景物体的限界框用作所述增强训练数据。

另外，基于所述原始限界框，可以在数据增强109、111期间执行自动二进制图像分割过程。例如，通过将所述限界框外面的像素视为硬背景像素，并将位于所述限界框中心的像素视为硬前景像素，V.Lempitsky等人描述的方法“预先使用限界框分割图像，ICCV2009”可用于分割所述背景中的前景物体。由于用于自动物体标注的图像帧的背景相对简单，因此这样的过程可以能够生成比没有所述背景时更好的前景物体掩模。所分割的前景还按照与所述原始物体掩模相同的方式嵌入到没有所述物体的一组场景背景图像中，以生成附加增强训练数据。基于来自原始物体掩模方框107和增强训练数据方框109的数据，类别级物体检测模型训练方框113训练类别级物体深度检测网络117。

预深度检测神经网络117可以通过预训练检测大多数家庭常见的一组预定义物体类别(例如，杯子、瓶子、鞋子等)。这种预训练可以将用户预训练过的公开可用的标注训练图像或图像存储到所述机器人系统的存储器中。当所述机器人系统部署到所述特定家庭时，所述预训练网络可以通过微调基于自动在所述特定家庭获得的新训练数据来检测所述特定家庭中的这些预定义物体类别。对于针对所述特定家庭个性化的新添加物体类别，深度物体检测网络117可以通过进一步微调适应这些新类别的检测。

因此，实例级物体嵌入模型训练方框115能够基于来自原始物体掩模方框107、增强训练数据方框109和深度物体检测网络117的数据来区分特定家庭或其他部署环境中的个性化和细粒度物体实例。来自深度物体检测网络117的训练数据还通过共享网络结构和参数用于实例级物体嵌入模型训练方框115中。在一实施例中可以按非常小的学习速率固定或调整所述预训练检测网络的多个层。可以改变最后分类层的结构以添加新类别，还可以按很大的学习速率微调所述网络的最后几层或者对其重新训练。

针对每个物体类别训练深度物体嵌入网络119。为实现此目的，可以将所述前景物体限界框内的图像像素嵌入到多维特征空间中。在一实施例中，具有三元组损失层的深度物体嵌入网络119将其部分结构和参数与深度物体检测网络117共享。三元组损失层计算输出嵌入特征，以使同一物体实例的所有训练样本之间的平方距离较小，而来自不同物体实例的一对训练样本之间的平方距离较大。也就是说，所述嵌入的特征空间具有区别特性，可区分所述物体类别中的不同物体实例。当所述训练集很小时，这可以同时降低训练和测试阶段的计算复杂度并减轻过度拟合。例如，所述深度检测神经网络中的第一组层直接用作所述深度嵌入网络中的第一组层，并且这些层的参数被固定为来自所述深度检测神经网络的参数。通常，这些层是最后几个完全连接的层和分类层之前的卷积层。然后，将几个完全连接的层连接到这些固定层，并且将所述三元组损失层连接到所述深度嵌入网络的末端。使用所述新标注的训练物体重新训练这些新附加的层。

嵌入特征方框121为物体分类模型训练方框123生成嵌入特征，以此训练物体分类器识别对应的物体类别中的每个物体实例。嵌入特征方框121包括对应于物体每个预定义类别的不同深度实例级检测神经网络。在一实施例中，支持向量机分类器可以用作在所述多维特征空间上训练的分类器。然后，在所述测试阶段中使用由此产生的物体分类器方框125，如随后参考图2所讨论的。

图2是示出了根据各种实施例的用于机器人系统中的细粒度物体识别的方法测试阶段的流程图。考虑到用于识别物体的输入图像序列(例如，视频、多个图像)201，所述机器人系统首先在方框203中检测类别级物体。该类别级物体检测基于深度物体检测网络117通过图1训练阶段期间累积的图像帧来完成。结果是方框205中检测到的物体。

在方框207中，实例级物体嵌入方框207从深度物体嵌入网络119获取检测到的物体205和所述训练数据，并在方框209中生成多维嵌入特征。针对所述物体类别基于与所述物体对应的深度物体嵌入网络119，为每个检测到的物体205生成多维嵌入特征。在方框211中，来自所述训练阶段的物体分类器125用于对所述嵌入特征执行物体分类以生成不同的实例级物体。在方框213中，结果是识别出的实例级物体。然后，所述机器人系统可以使用由此产生的实例级物体识别来执行机器人操作。

在一实施例中，图1和图2的方框位于所述本地机器人系统中。然而，由于计算问题，特别是当在任何物体类别中存在大量实例级物体时，可能优选的是将所述系统的计算密集部分移动到其他计算平台。例如，可以将计算量较大的功能移动到与所述机器人系统的有线或无线信道通信的计算机服务器。图3示出了这种系统的框架的一个实施例。

图3是根据各种实施例的具有机器人部分300和服务器部分301的机器人系统图。在该实施例中，所述类别级物体检测模块被托管在机器人300上，而所有其他部分被移动到服务器301。这种设计的优点是减少了数据传输量以及减少了计算量。所述传输的数据是所述深度检测神经网络的最后共享层和对应于所检测到物体的深度嵌入网络的前向计算的特征图。特征图通常比待传输的原始图像帧小得多。在所述服务器上，所述嵌入网络可以直接使用所传输的特征映射来继续执行所述嵌入特征计算。

先前参考图1和图2讨论了图3的机器人系统的操作。图3简单地示出了将所述实例级计算卸载到远离所述机器人系统的服务器301(例如，不位于所述部署环境中)。因此，可以参考先前关于该系统运行的讨论。

机器人300包括提供图像序列301的成像装置。如随后内容所述，所述成像设备可以是用于静止图像或视频序列的任何图像传感器。

机器人300还包括深度物体检测网络117，深度物体检测网络117耦合到类别级物体方框203。由此产生的类别级检测物体方框205也是机器人300的一部分。将所述类别级检测物体传送到服务器301进行进一步处理，以确定所述实例级物体。

服务器301包括实例级物体嵌入方框207，实例级物体嵌入方框207使用来自所述机器人的类别级检测物体和来自深度物体嵌入网络119的训练数据。嵌入特征方框209也是服务器301的一部分，用于从所述训练阶段获取物体分类器125，以对所述嵌入特征执行服务器300的物体分类方框211中的物体分类，从而生成不同的实例级物体。在方框213中，结果是识别出的实例级物体方框213，实例级物体方框213被传送回机器人300进行进一步使用，例如机器人操作(例如，拾取所述物体、移动所述物体、操作所述物体)。

机器人300可以按许多方式利用所述识别的物体。例如，如果用户指示所述机器人给特定杯子倒水，则所述机器人可以使用所描述的实施例来确定该特定杯子相对于其他杯子的实例，然后给该杯子倒水。机器人300可以根据用户的期望和/或所述机器人的功能对所述识别的物体进行其他使用。

图4是示出了根据示例性实施例的用于执行方法的机器人系统400的电路框图。不需要在各实施例中使用所有组件。所述机器人系统还可称为计算设备或计算机400。

一个示例机器人系统400可以包括处理单元402、存储器403、可移动存储器410以及固定存储器412。处理单元402可以包括一个或多个处理器(例如，控制电路)，所述一个或多个处理器执行存储在存储器403中的指令以实现图1-3的实施例。虽然各种数据存储元件被图示为所述机器人系统400的一部分，但是所述存储器还可以或者可选地包括可经由网络访问的基于云的存储器，例如可通过有线或无线信道访问的基于互联网或服务器的存储器。

存储器403可以包括易失性存储器414和非易失性存储器408。机器人系统400可以包括或者可以访问计算环境，该计算环境包括各种计算机可读介质，例如易失性存储器414和非易失性存储器408、可移动存储410和固定存储器412。计算机存储器包括随机存取存储器(random access memory，简称RAM)、只读存储器(read-only memory，简称ROM)、可擦除可编程只读存储器(erasable programmable read only memory，简称EPROM)和电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称EEPROM)、闪存或其它存储器技术、只读光盘(compact disc read-only memory，简称CDROM)、数字多功能光盘(digital versatile disc，简称DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁存储设备，或者任何其它能够存储计算机可读指令的介质。

机器人设备400可以包括或可以访问包括输入406、输出404和通信连接416的计算环境。输出404可以包括可以用作输入设备的显示设备，例如触摸屏。输入406可以包括触摸屏，触摸板，鼠标，键盘，相机，一个或多个设备专用按钮，集成在机器人系统400的有线或无线数据连接内或通过机器人系统400连接的一个或多个传感器中的一个或多个，以及其他输入设备。

所述计算机可以使用通信连接416在联网环境中工作，以连接到一个或多个远程计算机，如数据库服务器。通信连接416可以包括实现一个或多个无线接入技术所必需的任何无线。所述远程计算机可以包括个人计算机(personal computer，简称PC)、服务器、路由器、网络PC、对等设备或其它公共网络节点等。通信连接可以包括局域网(local areanetwork，简称LAN)、广域网(wide area network，简称WAN)、蜂窝、WiFi、蓝牙或其它网络。

存储在计算机可读介质上的计算机可读指令可由所述计算机400的处理单元402执行。硬盘驱动器、CD-ROM和RAM是产品的一些示例，所述产品包括如存储设备的非瞬时性计算机可读介质。术语“计算机可读介质”和“存储设备”不包括载波，只要认为载波过于短暂。

本文公开的实施例所提供的若干优点优于传统物体分类。例如，实施例提供了一种自动系统，所述自动系统仅使用最少数量的手动标注来获得物体级训练数据。只有在将未知物体引入所述机器人时才可以使用人工监督。监督的形式仅限于提供相关的物体类别。机器人系统不需要复杂的区域级标注，这对于人工标注可能非常昂贵。

所述机器人系统还为家庭服务机器人中的个性化和细粒度物体检测和识别提供可扩展的有效解决方案。与训练类别级检测器的传统现有解决方案相比，所述机器人系统能够区分实例级物体。此外，传统解决方案是训练端到端深度物体检测网络将每个物体实例视为单个类别，因此所提出的系统具有三大优点：提高可扩展性，其中相对较小容量的网络可用于检测类别级物体，而所述端到端解决方案则需要更高容量的网络来区分所述许多物体实例；减少计算，当添加新物体实例时，所述网络仅需要微调或重新训练相关物体类别的相应嵌入网络，而所述端到端解决方案则需要对所述整个端到端网络进行微调或重新训练；减少过度拟合，其中可以使用相对少量的有噪声训练数据很好地训练所述较小容量的网络。

在一实施例中，用于机器人系统中的实例级物体识别的系统包括用于从成像设备获取物体的图像的装置以及用于基于所述物体的图像以及存储在所述机器人系统中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及多个预定义物体类别的装置。所述系统还包括用于生成由所述类别级深度检测神经网络确定的物体的预定义类别的特征映射的装置以及用于使用与所述物体的预定义类别对应的实例级深度检测神经网络，基于所述特征图生成嵌入特征的装置，其中所述多个预定义物体类别中的每个预定义类别包括对应的不同实例级深度检测神经网络。所述系统还包括用于基于所述嵌入特征的分类识别所述物体的实例级的装置，还包括用于由所述机器人系统基于所述物体的实例级识别情况执行机器人操作的装置。

本实施例将组合三个深度神经网络用于家庭服务机器人中的物体检测和识别。所述深度神经网络包括用于自动训练数据获取的深度关注神经网络、用于类别级物体检测的深度检测神经网络以及用于细粒度实例级物体识别的深度嵌入神经网络。

以上结合附图进行描述所述附图是描述的一部分并通过图解说明的方式示出可以实施本发明的具体实施例。这些实施例将充分详细描述使本领域技术人员能够实施本发明而且应该明白的是可以使用其它实施例并且在不脱离本发明的范围的情况下可以做出结构上、逻辑上、电学上的改变。因此以下示例实施例的描述并不当作限定，本发明的范围由所附权利要求书界定。

本文描述的功能或算法可以在一实施例中的软件中实施。该软件可包含计算机可执行指令，这些计算机可执行指令存储在计算机可读介质上或者计算机可读存储设备上，如一个或多个非瞬时性存储器或其它类型的本地或联网的硬件存储设备。此外，这些功能对应模块，这些模块可以是软件、硬件、固件或其任意组合。多个功能可根据需要在一个或多个模块中执行，所描述的实施例仅为示例。该软件可在数字信号处理器、ASIC、微处理器上执行或者在个人计算机、服务器、或其它计算机系统等其它类型的计算机系统上运行的处理器上执行，从而将这些计算机系统转换成一个专门编程的机器。

虽然上文详细描述了几个实施例但是可能进行其它修改。例如为了获得期望的结果附图中描绘的逻辑流不需要按照所示的特定顺序或者先后顺序。可以提供其它步骤或者从所描述的流程中去除步骤，所描述的系统中可以添加或移除其它组件。其它实施例可以在所附权利要求书的范围内。

Claims

1.一种用于机器人系统中的实例级物体识别的方法，其特征在于，所述方法包括：

从成像设备获取物体的图像；

基于所述物体的图像以及存储在所述机器人系统中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及多个预定义物体类别；

生成由所述类别级深度检测神经网络确定的物体的预定义类别的特征映射；

使用与所述物体的预定义类别对应的实例级深度检测神经网络，基于所述特征图生成嵌入特征，其中所述多个预定义物体类别中的每个预定义类别包括对应的不同实例级深度检测神经网络；

基于所述嵌入特征的分类识别所述物体的实例级；

由所述机器人系统基于所述物体的实例级识别情况执行机器人操作。

2.根据权利要求1所述的方法，其特征在于，获取所述物体的图像包括获取所述物体的多个图像，每个图像从不同的透视和/或照明条件获取。

3.根据权利要求1-2中任一项所述的方法，其特征在于，还包括使用深度检测神经网络为所述多个图像的每个图像生成热图，所述热图强调所述一个或多个图像中的类别级物体。

4.根据权利要求1-3所述的方法，其特征在于，生成所述热图包括为所述一个或多个图像的每个像素生成关注值，其中关注值越高对应于所述像素是感兴趣前景物体的可能性越高。

5.根据权利要求1-4中任一项所述的方法，其特征在于，还包括基于所述热图生成二值物体掩模图像，其中关注值高于阈值的像素被标记为第一逻辑状态，而所有其他像素被标记为与所述第一个逻辑状态相反的第二逻辑状态。

6.根据权利要求1-5中任一项所述的方法，其特征在于，还包括基于标记为所述第一逻辑状态的像素从所述掩模图像中提取所述预定义的物体类别。

7.根据权利要求1-6中任一项所述的方法，其特征在于，还包括训练所述深度检测神经网络以识别所述类别级物体的实例级物体包括基于所述提取的类别级物体以及从包含所述提取类别级物体的最小矩形框生成的增强训练数据来识别所述物体的实例级。

8.根据权利要求1-7中任一项所述的方法，其特征在于，生成所述增强训练数据包括：

从所述掩模图像中去除与所述提取的类别级物体相对应的图像像素；

将所述去除的图像像素嵌入到一组背景场景图像中以生成设置的背景场景图像，而不将所述物体用作增强性训练图像。

9.根据权利要求1-8中任一项所述的方法，其特征在于，还包括通过所述机器人系统部署环境常见的预定义物体类别来训练所述预定义物体类别上的深度检测神经网络。

10.根据权利要求1-9中任一项所述的方法，其特征在于，训练所述深度检测神经网络还包括为每个类别级物体生成前向计算的特征映射。

11.根据权利要求1至10中任一项所述的方法，其特征在于，训练所述深度检测神经网络以识别实例级物体包括：

基于所述前向计算的特征映射生成所述嵌入的特征；

调整所述类别级物体检测以基于所述嵌入的特征确定所述实例级物体的识别情况。

12.一种机器人系统，其特征在于，包括：

成像装置，耦合到所述机器人并且定位成获取所述成像装置视场内物体的图像；

存储器，包括指令和预定义物体图像类别；

一个或多个处理器，耦合到所述成像设备和所述存储器并与所述成像设备和所述存储器通信，其中所述一个或多个处理器执行以下指令：

从所述成像设备获取物体的图像；

基于所述物体的图像以及存储在存储器中的预定义类别级物体图像，通过类别级深度检测神经网络确定所述物体的预定义类别以及所述多个预定义物体类别；

基于所述嵌入特征的分类识别所述物体的实例级。

13.根据权利要求12所述的系统，其特征在于，所述一个或多个处理器还执行所述指令，以在部署到所述环境之前使用公共可用的图像或预定义物体预训练所述深度检测神经网络。

14.根据权利要求12-13中任一项所述的系统，其特征在于，所述一个或多个处理器还执行所述指令，以基于自动在所述环境处获得的新训练数据来检测所述特定环境中的预定义物体。

15.根据权利要求12-14中任一项所述的系统，其特征在于，所述一个或多个处理器进一步执行以下指令：

获取所述机器人系统部署环境中的实例级物体的图像；

将所述图像传送到远离所述机器人系统部署环境的服务器来微调所述深度检测神经网络以识别所述类别级物体的实例级物体。

16.根据权利要求12-15中任一项所述的系统，其特征在于，所述一个或多个处理器进一步执行以下指令：

生成不包括所述类别级物体的一组背景场景图像；

将分割的前景图像嵌入到背景场景图像集中。

17.根据权利要求12-16中任一项所述的系统，其特征在于，所述一个或多个处理器还执行所述指令，以在所述机器人系统部署环境中的不同时间和位置处随机采样所述背景场景图像。

18.一种非瞬时性计算机可读介质，用于存储用于机器人系统中的细粒度物体识别的计算机指令，其特征在于，当由一个或多个处理器执行所述计算机指令时使所述一个或多个处理器执行以下步骤：

从成像设备获取物体的图像；

基于所述嵌入特征的分类识别所述物体的实例级。

19.根据权利要求18所述的非瞬时性计算机可读介质，其特征在于，所述执行的指令使所述一个或多个处理器通过确定界限关联图像中的类别级物体的最小框来执行限界框标注。

20.根据权利要求18-19中任一项所述的非瞬时性计算机可读介质，其特征在于，所述执行的指令还使所述一个或多个处理器将所述图像中位于最小框之外的像素视为硬背景像素。