CN109993187A

CN109993187A - 一种用于识别物体类别的建模方法、机器人及存储装置

Info

Publication number: CN109993187A
Application number: CN201711499081.4A
Authority: CN
Inventors: 熊友军; 王先基; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-09

Abstract

本发明公开了一种用于识别物体类别的建模方法，包括：获取所需要识别的物体的样本，并对样本进行类别的分级，以确定每个样本的粗粒度类别和细粒度类别，从而形成样本库；基于样本库，构建识别物体的粗粒度类别的识别模型；基于样本库，构建识别物体的细粒度类别的识别模型。本申请针对不同粒度层级的物体的特点设置不同的识别模型，从而发挥每个识别模型的优点，进而快速的识别出物体的类别。

Description

一种用于识别物体类别的建模方法、机器人及存储装置

技术领域

本申请涉及机器人行业的视觉识别技术领域，特别是涉及一种用于服务机器人识别物体类别的建模方法、机器人以及存储装置。

背景技术

服务机器人由于能够代替人完成工作，因而在现代社会越来越受到欢迎。目前服务机器人的主要功能就是进行人脸识别，特定物体识别等，其中视觉识别常见物体是其中非常重要的功能，它能大大提升家庭服务机器人的交互体验，提升服务质量。在对通用物体识别时，物体类别跨度一般比较大，不同类别物体之间差别比较明显，而对于家庭常见物体进行识别时，物体类别跨度一般比较小，很多物体类别之间差异比较小。但是由于目前服务机器人的计算平台比较弱，如何快速准确地识别常见物体类别是一个很有挑战性的问题。

发明内容

本发明主要解决的技术问题在目前服务机器人计算平台较弱的情况下，快速对物体的类别进行识别，提高识别精度。

为解决上述技术问题，本发明采用的一个技术方案是：获取所需要识别的物体的样本，并对所述样本进行类别的分级，以确定每个所述样本的粗粒度类别和细粒度类别，从而形成样本库；基于所述样本库，构建识别物体的所述粗粒度类别的识别模型；基于所述样本库，构建识别物体的所述细粒度类别的识别模型。

其中，所述获取所需要识别的物体的所述样本，并对所述样本进行类别的分级的步骤包括：自定义所需要识别的所述物体的所有类别；根据所述类别采用渐进式的方式搜集所述类别下的所述物体的样本；对搜集到的所述样本进行类别的标注并分级。

其中，所述对搜集到的所述样本进行类别的标注并分级的步骤包括：将一部分所述样本采用手工的方式进行标注，以得到分类规则；将剩余的部分所述样本按照所述分类规则进行分类并分级。

其中，所述构建识别物体的粗粒度类别的识别模型的步骤为：选择一简化的深度卷积神经网络结构；采用由复杂到简化的框架对所述简化的深度卷积神经网络结构进行训练，以得到能够识别物体的粗粒度类别的识别模型。

其中，所述采用由复杂到简化的框架对所述深度卷积神经网络结构进行训练的步骤包括：选择至少一个复杂的网络结构；采用公开数据集训练所述复杂的网络结构，并利用所述样本库中的所述样本对进行训练后的所述复杂的网络结构的网络参数进行调整；利用经过调整后的所述复杂的网络结构对所述样本库中的样本进行所述粗粒度类别的识别，并对所述识别结果进行简化，得到简化后的识别算法，进一步利用所述简化的识别算法训练所述简化的深度卷积神经网络，从而形成所述能够识别物体的粗粒度类别的识别模型。

其中，所述利用经过调整后的所述复杂的网络结构对所述样本库中的所述样本进行所述粗粒度类别的识别，并对所述识别结果进行简化的方法为：利用经过调整后的所述复杂的网络结构对所述样本库中的样本进行粗粒度类别的识别，并计算出对应每个粗粒度类别的置信度，然后将所述置信度从大到小排序，并取前K个所述置信度对应的类别作为所述每个样本的类别，并根据所述样本的类别形成所述简化的识别算法，K为大于零的整数。

其中，所述构建识别所述细粒度类别的模型的步骤包括：基于所述样本库，定位所述样本的粗略位置；在所述样本的粗略位置内，对所述样本进行精确分割，得到所述样本的精确位置；将所述精确分割后的样本进行对齐；将所述精确分割并对齐后的样本切割成多个子块，提取所述子块的分类特征，得到分类系数和每个子块的特征；获取每个子块的分类权重，将所述分类特征以及所述分类权重输入物体分类函数得到所述样本的细粒度类别，所述物体分类函数为：其中，为所述每个子块的分类权重，w_p,c为所述分类系数，f_p为所述每个子块的特征。

其中，所述将所述精确分割后的样本进行对齐的方法为：将姿态相似的所述样本进行对齐，同时将所述样本的中心位置调整为相同；通过分割的方式得到的所述样本的边界，采用形状上下文的方式进行形状匹配得到相应的对齐函数；利用所述对齐函数进行所述样本的图像的对齐。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种机器人，包括：采集器、处理器和存储器，所述采集器用于获取所需要识别的物体的样本，所述存储器存储有程序数据，所述程序数据能够被所述处理器执行从而实现前文所述的用于识别物体类别的建模方法。

为解决上述技术问题，本发明采用的又一个技术方案是：提供一种存储装置，其上存储有程序数据，所述程序数据能够被执行以实现前文所述的用于识别物体类别的建模方法。

以上方案，通过将样本库中的数据进行分类，得到粗粒度类别物体和细粒度类别物体，然后进一步构建识别粗粒度类别物体的识别模型与识别细粒度类别物体的识别模型。使得在实际应用中，对于不同的应用场景可以定义不同的样本库，从而用以识别不同场景的物体类别。另一方面，对于某个场景的输入物体图像，针对不同粒度层级的特点设置不同的识别模型，从而发挥每个识别模型的优点，进而快速的识别出物体的类别。

附图说明

图1是本申请用于识别物体类别的建模方法一实施例的流程图；

图2是本申请获取样本并进行分级的方法的流程示意图；

图3是本申请标注样本的方法的流程示意图；

图4是本申请构建识别物体的粗粒度类别识别模型的方法的流程示意图；

图5是本申请训练识别模型的方法的流程示意图；

图6是本申请构建识别物体的细粒度类别识别模型的方法的流程示意图；

图7是本申请将样本进行对齐的方法的流程示意图；

图8是本申请机器人一实施例的结构示意图；

图9是本申请存储装置的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，图1是本申请用于识别物体类别的建模方法一实施例的流程图。需注意的是，本实施例可为服务机器人识别物体类别的建模方法。也就是说，本申请是建立一个识别物体类别的模型，以帮助服务机器人识别物体。若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S10：获取所需要识别的物体的样本，并对样本进行类别的分级，以确定每个样本的粗粒度类别和细粒度类别，从而形成样本库。

请参阅图2，图2是本申请获取样本并进行分级的方法的流程示意图。在本实施例中，获取所需要识别的物体的样本，并对样本进行类别的分级的方法还包括如下子步骤：

S110：自定义所需要识别的物体的所有类别。由于服务机器人应用场景的不同，为了提高不同场景物体的类别识别效率，首先将应用场景中的物品可能的类别都列出，并将这些类别作为服务机器人识别时的输出类别，从而根据每个场景定制服务机器人类别识别模型。采用此种方式的好处在于，可以避免大量的类别数据造成的浪费以及效率低下的问题，并且兼顾服务机器人计算平台较弱的特点，采用简化的针对某个具体场景的类别可以降低对计算平台的能力要求。

S120：根据类别采用渐进式的方式搜集类别下的物体的样本。具体地，在搜集前期，每个类别样本数量至少达到千级别，后续持续累积达到每个类别具备万级别样本，甚至更多。样本的数量越多，后续对类别进行分级时，得到的结果就越准确。

S130：对搜集到的样本进行类别的标注并分级。

进一步地，请参阅图3，图3是本申请标注样本的方法的流程示意图。为了提高分类的效率，采用半自动的方式进行类别的标注，对于样本的类别进行标注并分级的方法具体包括如下步骤：

S131：将一部分样本采用手工的方式进行标注，以得到分类规则。具体地，先在搜集的样本中，取一部分进行手工类别标注，例如：在前期搜集的每个类别1000个样本中，取其中500个进行手工标注类别，并利用手工标注的样本来训练一个小的分类模型，从而得到样本的分类规则。

S132：将剩余的部分样本按照分类规则进行分类并分级。

承接前文的例子，然后利用该分类规则对剩下的500个样本进行分类。进一步，对于分类结果置信度较低的样本，可重新采用手工标注的方法进行筛选和标注。对于分类后的样本的类别进行统计，并根据类别间的层级关系，将样本类别进行分级，类别层级数量可以根据实际需求确定。为了提高该小分类模型的分类精度以及提高类别层级的级别精度，需要在后期搜集更多的样本来进行统计及分类，后期样本的分类采用该小分类模型进行，此处不再赘述。

根据上述步骤即可得到自定义的样本类别形成的样本库，并可以根据分级结果确定粗粒度类别层级与细粒度类别层级。

基于以上样本库，进一步执行步骤S20：构建识别物体的粗粒度类别的识别模型。具体请参阅图4，图4是本申请构建识别物体的粗粒度类别识别模型的方法的流程示意图。构建识别物体的粗粒度类别的识别模型的方法具体包括以下步骤：

S210：选择一简化的深度卷积神经网络结构。具体地，深度卷积神经网络结构可以采用业界内常用的MobileNet(Efficient convolutional neural networks for mobilevision applications，用于移动视觉应用的高效卷积神经网络)、ShuffleNet(Anextremely efficient convolutional neural network for mobile devices，用于移动设备的非常高效的卷积神经网络)、ResNext(Deep residual learning for imagerecognition，深度残差网络)、XCeption(搭积木般构建深度学习网络)等深度卷积神经网络结构，由于服务机器人计算平台比较弱，为了适应服务机器人的计算平台，进一步对上述的深度卷积神经网络结构进行简化，简化的方法包括减少通道数和网络深度、缩小卷积核大小等方法。

S220：采用由复杂到简单的框架对简化的深度卷积神经网络结构进行训练，以得到能够识别物体的粗粒度类别的识别模型。

为了提升简化后的网络的分类能力，采用由复杂到简单的框架对简化的深度卷积神经网络结构进行训练，请参阅图5，图5是本申请训练识别模型的方法的流程示意图。训练过程具体包括以下步骤：

S221：选择至少一个复杂的网络结构。为了使粗粒度类别识别模型识别的结果更加准确，必须采用一个复杂的网络来获得识别算法，而考虑到计算平台的计算能力较弱的特点，可以先在服务器上训练一个较复杂的模型，然后利用该模型来训练一个简化的模型，进而让简化的模型获得复杂模型的识别算法，使得简化模型的输出结果与复杂模型的输出结果更加接近，即采用由复杂到简单的框架对简化的深度卷积神经网络进行训练，训练的过程是在服务器上进行的，不涉及服务机器人的计算平台，因而可以采用通道数较多，卷积核较大，网络深度更深的网络。例如：该复杂的网络结构可以采用VGG19(Very deepconvolutional networks for large-scale image recognition，用于大规模图像识别的非常深的卷积网络)、ResNet152、ResNet-Inception、DenseNet(更接近于真实神经网络的跨层连接)等深度卷积神经网络。

S222：采用公开数据集训练复杂的网络结构，并利用样本库中的样本对进行训练后的复杂的网络结构的网络参数进行调整。具体地，在例如ImageNet、OpenImage等大型公开数据集上训练复杂的网络结构，ImageNet数据集是目前广泛使用的一个图像数据集，Imagenet数据集有1400多万幅图片，涵盖2万多个类别，其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开，因而其在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。OpenImage数据集包括约900万张图像，横跨了大约6000个类别，这些图像样本包含了更多贴近实际生活的物体。虽然利用ImageNet数据集和OpenImage数据集可以获得比较准确的类别识别结果，但是为了让该识别模型更加贴近自定义的样本库，利用自定义样本库里的样本对以上训练后的复杂网络识别模型的参数进行调优，从而得到更符合应用实际，输出结果更准确的复杂网络结构识别模型。

S223：利用经过调整后的复杂的网络结构对样本库中的样本进行粗粒度类别的识别，并对识别结果进行简化，得到简化后的识别算法，进一步利用简化的识别算法训练简化的深度卷积神经网络，从而形成能够识别物体的粗粒度类别的识别模型。

进一步地，对识别结果进行简化的方法为：利用经过调整后的复杂的网络结构对样本库中的样本进行粗粒度类别的识别，并计算出对应每个粗粒度类别的置信度，然后将置信度从大到小排序，并取前K个置信度对应的类别作为每个样本的类别，并根据样本的类别形成简化的识别算法，K为大于零的整数。具体地，取前K个置信度对应的类别作为每个样本的分类标签，因为这些标签是由复杂网络识别模型计算得出的，其准确度较高，通过简化的深度卷积神经网络识别模型预测的训练值与复杂网络识别模型计算得出的准确度较高的分类标签的值构建一个用于度量复杂网络识别模型与简化神经网络识别模型差异的损失函数，损失函数越小，简化神经网络识别模型输出的训练值就越接近真实类别。进一步地，利用损失函数反馈指导简化神经网络识别模型，对简化神经网络识别模型的参数进行调优，使得简化神经网络识别模型的输出类别更加接近复杂网络识别模型，从而可以得出，虽然复杂网络识别模型与简化神经网络识别模型两个模型的复杂程度不同，但是输出的类别结果却是相同的。

完成识别物体的粗粒度类别的识别模型的构建之后，进一步执行步骤S30：基于样本库，构建识别物体的细粒度类别的识别模型。

对于细粒度类别的物体，由于物体之间差别比较小，将结合物体分割和物体识别进行识别，请参阅图6，图6是本申请构建识别物体的细粒度类别识别模型的方法的流程示意图。构建识别细粒度类别的模型的方法的步骤包括：

S310：基于样本库，定位样本的粗略位置。具体地，利用物体检测算法训练物体候选区域检测模型，快速定位物体粗略位置。采用的算法框架可以为R-CNN(Regions withConvolutional Neural Network Features)、fast R-CNN、faster R-CNN、SSD(SingleShot MultiBox Detector)等，网络结构可以为AlexNet(深度学习之图像分类模型)、VGG、Inception、ResNet等，考虑服务机器人计算平台能力较弱的特点，此处选用的网络结构应当尽量简单，以提高计算速度。

S320：在样本的粗略位置内，对样本进行精确分割，得到样本的精确位置。具体地，对样本进行精确分割可以采用类似GrabCut的方法进行分割，也可以训练一个结构比较简单的物体分割卷积神经网络进行分割。

S330：将精确分割后的样本进行对齐。

进一步地，请参阅图7，图7是本申请将样本进行对齐的方法的流程示意图。对样本进行对齐的方法具体包括如下步骤：

S331：将姿态相似的样本进行对齐，同时将样本的中心位置调整为相同。具体地，对齐主要是进行样本姿态和位置的对齐，位置对齐即将姿态相似的样本的中心位置调整为一样。

S332：通过分割的方式得到的样本的边界，采用形状上下文的方式进行形状匹配得到相应的对齐函数。具体地，利用分割得到的物体边界，采用形状上下文的方法进行物体边界的匹配，在对物体边界匹配的过程中，可以得到一个变换规则即对齐函数。形状上下文是通过单个点的形状上下文信息获取整个物体的边界。

S333：利用对齐函数进行样本的图像的对齐。

基于以上对齐后的样本，进一步执行步骤S340：将精确分割并对齐后的样本切割成多个子块，提取子块的分类特征，得到分类系数和每个子块的特征。具体地，将对齐后的样本切割成多个子块的方法是：先在物体上采样得到多样化的点集，然后在每个点周围切割一个或多个不同尺度的块，从而得到多样化的子块集合，子块的数量可以根据实际情况灵活选取，在本实施例中，不作限定。提取子块分类特征的方法可以是传统手工特征提取法，例如HOG(Histogram of Oriented Gradient,方向梯度直方图)，HOG是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征；也可以是采用卷积神经网络来提取，提取得到的每个子块的特征表示为f_p，分类系数表示为w_p,c。进一步地，利用分类特征提取方法提取的分类特征反馈训练相应的分类器，使得分类器的特征提取能力以及分类能力更强。选用的分类器包括但不限于SVM(Support Vector Machine，支持向量机)等分类器，在此不作赘述。

S350：获取每个子块的分类权重，将分类特征以及分类权重输入物体分类函数得到样本的细粒度类别，物体分类函数为：

其中，为每个子块的分类权重，w_p,c为分类系数，f_p为每个子块的特征，p代表子块，c表示类别，k表示子块的数量。具体地，由于每个子块对最终识别的重要性不同，本实施例中，采用类似边缘最大化地方法，通过学习得到每个子块的分类权重，再将得到的每个子块的分类权重与上述提取地分类特征融合进行最终物体类别的识别。类别的判断采用argmax(f(x))函数，argmax(f(x))表示的是使得f(x)取得最大值所对应的变量x的值，本实施例中，自变量为细粒度类别，因而选取使最大值的类别作为最终细粒度识别模型识别出的细粒度类别。

上述实施例的有益效果为：通过自定义所要识别的所有常见物体类别，进而构建更加有针对性地类别识别模型，另外由于不同类别层级的物体，其物体特点也不相同，为了更加快速地针对不同类别层级的物体特点进行识别，构建了不同的识别模型来识别不同类别层级的物体类别，从而加快识别的速度。通过采用自定义常见类别的方法以及采用由复杂到简单的框架来训练简化的深度卷积神经网络，使得在服务机器人计算平台能力较弱的情况下，也能输出更接近复杂网络识别模型的结果，从而得到更加精确的类别识别结果。

请参阅图8，图8是本申请机器人一实施例的结构示意图。

本实施例中，该机器人40包括：采集器43、处理器41、与处理器41耦合的存储器42。采集器43用于获取所需要识别的物体的样本，存储器42存储有程序数据，程序数据能够被处理器41执行从而实现前文所述的用于识别物体类别的建模方法。

请参阅图9，图9是本发明存储装置的结构示意图。

该存储装置50存储有程序数据51，所述程序数据51能够被执行以实现前文所述的用于识别物体类别的建模方法，在此就不再赘述。

如本领域技术人员所理解，该具有存储功能的装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等物理存储介质，也可以是服务器等虚拟存储介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用于识别物体类别的建模方法，其特征在于，具体包括以下步骤：

获取所需要识别的物体的样本，并对所述样本进行类别的分级，以确定每个所述样本的粗粒度类别和细粒度类别，从而形成样本库；

基于所述样本库，构建识别物体的所述粗粒度类别的识别模型；

基于所述样本库，构建识别物体的所述细粒度类别的识别模型。

2.根据权利要求1所述的建模方法，其特征在于，所述获取所需要识别的物体的所述样本，并对所述样本进行类别的分级的步骤包括：

自定义所需要识别的所述物体的所有类别；

根据所述类别采用渐进式的方式搜集所述类别下的所述物体的所述样本；

对搜集到的所述样本进行类别的标注并分级。

3.根据权利要求2所述的建模方法，其特征在于，所述对搜集到的所述样本进行类别的标注并分级的步骤包括：

将一部分所述样本采用手工的方式进行标注，以得到分类规则；

将剩余的部分所述样本按照所述分类规则进行分类并分级。

4.根据权利要求1所述的建模方法，其特征在于，所述构建识别物体的粗粒度类别的识别模型的步骤为：

选择一简化的深度卷积神经网络结构；

采用由复杂到简单的框架对所述简化的深度卷积神经网络结构进行训练，以得到能够识别物体的粗粒度类别的识别模型。

5.根据权利要求4所述的建模方法，其特征在于，所述采用由复杂到简单的框架对所述深度卷积神经网络结构进行训练的步骤包括：

选择至少一个复杂的网络结构；

采用公开数据集训练所述复杂的网络结构，并利用所述样本库中的所述样本对进行训练后的所述复杂的网络结构的网络参数进行调整；

利用经过调整后的所述复杂的网络结构对所述样本库中的样本进行所述粗粒度类别的识别，并对所述识别结果进行简化，得到简化后的识别算法，进一步利用所述简化的识别算法训练所述简化的深度卷积神经网络，从而形成所述能够识别物体的粗粒度类别的识别模型。

6.根据权利要求5所述的建模方法，其特征在于，所述利用经过调整后的所述复杂的网络结构对所述样本库中的样本进行所述粗粒度类别的识别，并对所述识别结果进行简化的方法为：

利用经过调整后的所述复杂的网络结构对所述样本库中的所述样本进行粗粒度类别的识别，并计算出对应每个粗粒度类别的置信度，然后将所述置信度从大到小排序，并取前K个所述置信度对应的类别作为所述每个样本的类别，并根据所述样本的类别形成所述简化的识别算法，K为大于零的整数。

7.根据权利要求1所述的建模方法，其特征在于，所述构建识别所述细粒度类别的模型的步骤包括：

基于所述样本库，定位所述样本的粗略位置；

在所述样本的粗略位置内，对所述样本进行精确分割，得到所述样本的精确位置；

将所述精确分割后的样本进行对齐；

将所述精确分割并对齐后的样本切割成多个子块，提取所述子块的分类特征，得到分类系数和每个子块的特征；

获取每个子块的分类权重，将所述分类特征以及所述分类权重输入物体分类函数得到所述样本的细粒度类别，所述物体分类函数为：

其中，为所述每个子块的分类权重，w_p,c为所述分类系数，f_p为所述每个子块的特征。

8.根据权利要求7所述的建模方法，其特征在于，所述将所述精确分割后的样本进行对齐的方法为：

将姿态相似的所述样本进行对齐，同时将所述样本的中心位置调整为相同；

通过分割的方式得到的所述样本的边界，采用形状上下文的方式进行形状匹配得到相应的对齐函数；

利用所述对齐函数进行所述样本的图像的对齐。

9.一种机器人，其特征在于，所述机器人包括采集器、处理器和存储器，所述采集器用于获取所需要识别的物体的样本，所述存储器存储有程序数据，所述程序数据能够被所述处理器执行从而实现权利要求1-8任一项所述的用于识别物体类别的建模方法。

10.一种存储装置，其特征在于，其上存储有程序数据，所述程序数据能够被执行以实现权利要求1-8任一项所述的用于识别物体类别的建模方法。