CN109948515A

CN109948515A - 物体的类别识别方法和装置

Info

Publication number: CN109948515A
Application number: CN201910199890.6A
Authority: CN
Inventors: 马明明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-28
Anticipated expiration: 2039-03-15
Also published as: CN109948515B

Abstract

本发明提出一种物体的类别识别方法和装置，其中，方法包括：根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图，根据局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域，对所述跟踪区域进行物体类别的识别，本发明实施例中，将操作物体前后采集到的图像，结合操作物体过程中采集到的多帧连续图像，综合确定物体类别，提高了物体类别识别的准确性，解决了现有技术中，通过操作物体前后采集的两张静态图片进行物体类别识别，当被操作的物体被遮挡或放置在角落时，导致识别准确度较低的技术问题。

Description

物体的类别识别方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体的类别识别方法和装置。

背景技术

随着计算机视觉技术的进步，计算机视觉识别已广泛应用到各个领域，例如，无人零售场景中，在无人零售场景中，例如，无人超市或无人货柜等，当货架上商品发生变化后，如顾客从货架上取走商品或是放下商品后，需要通过视觉技术准确的识别货架上变化的商品属于哪一种商品。

现有技术中，通常的做法是采用对比顾客操作前后的静态图片来判断顾客操作的商品，但有时候货道的商品互相叠加，或商品在一个角落的位置，这就会导致商品在顾客操作的前后静态图片上被其它遮挡或特征不明显，仅仅依靠顾客操作前后的两张静态图片无法准确判断出顾客操作的商品的情况，导致商品类别识别的准确度较低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种物体的类别识别方法，将操作物体前后采集到的图像，结合操作物体过程中采集到的多帧连续图像，综合确定物体类别，提高了物体类别识别的准确性，解决了现有技术中，仅通过操作物体前后采集的两张静态图片进行物体类别识别，当发生变化的物体被遮挡或放置在角落时，导致识别准确度较低的技术问题。

本发明的第二个目的在于提出一种物体的类别识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种物体的类别识别方法，包括：

根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图；

根据所述局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定所述多帧连续图像对应的跟踪区域；

对所述多帧连续图像对应的跟踪区域，进行物体类别的识别。

为达上述目的，本发明第二方面实施例提出了一种物体的类别识别装置，包括：

确定模块，用于根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图；

跟踪模块，用于根据所述局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定所述多帧连续图像对应的跟踪区域；

第一识别模块，用于对所述多帧连续图像对应的跟踪区域，进行物体类别的识别。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的类别识别方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的类别识别方法。

本发明实施例提供的技术方案可以包含如下的有益效果：

据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有操作物体的局部图，根据局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域，对所述跟踪区域进行物体类别的识别，本发明实施例中，通过将操作物体前后采集到的图像，结合操作物体过程中采集到的多帧连续图像，综合确定物体类别，提高了物体类别识别的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种物体的类别识别方法的流程示意图；

图2为本发明实施例所提供的另一种物体类别识别方法的流程示意图；

图3为本发明实施例提供的一种物体类别的识别装置的结构示意图；以及

图4示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的物体的类别识别方法和装置。

图1为本发明实施例所提供的一种物体的类别识别方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有操作物体的局部图。

本发明实施例中，对物体执行的操作使得物体的空间位置发生了变化，用户对物体执行的操作，例如为取走操作或放下操作。

具体地，确定用户对物体执行了相应操作后，采集操作物体前第一物体图像和操作物体后的第二物体图像，将第一物体图像和第二物体图像进行比对，以确定存在差异的差异区域，作为一种可能的实现方式，可以利用已学习到输入图像和图像之间存在的差异区域的对应关系的学习模型，确定存在差异的差异区域；作为另一种可能的实现方式，可以通过逐点比较第一物体图像和第二物体图像的像素信息，将包含不同像素信息的区域确定为操作物体前后存在差异的差异区域，其中，存在差异的差异区域是因为物体发生变化产生的。进而，将第一物体图像中的差异区域确定为第一候选图像，将第二物体图像中的差异区域确定为第二候选图像，也就是说，第一候选图像和第二候选图像中，仅有一个图像中是包含发生变化的物体的，从而将第一候选图像和第二候选图像中呈现有被操作物体的图像作为被操作物体的局部图，例如，物体发生变化是因用户放下了物体B，那么物体B则会仅存在于第二候选图像中，也就是说第二候选图像可以作为被操作物体的局部图。

步骤102，根据局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域。

其中，在物体被操作过程中采集的多帧连续图像，是指该被操作物体位移也连续发生变化的多帧连续图像，也就是说获取的多帧连续图像中是包含被操作物体的连续图像，例如，用户对物体执行的操作是拿走了该物体，则采集的多帧连续图像即为用户拿走物体的过程中的多帧连续图像；若用户对物体执行的操作是放下了物体，则采集的多帧连续图像即为用户放下物体的过程中的多帧连续图像。

本发明实施例中，可对局部图进行特征提取，得到局部图中被操作物体的特征，利用局部图中被操作物体的特征，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域。具体来说，针对每一帧连续图像进行各区域的特征提取，将被操作物体的局部图的特征与相应连续图像中的各区域的特征进行特征匹配，确定与操作物体的局部图匹配度大于阈值的跟踪区域。通过利用包含被操作物体的局部图，跟踪得到多帧连续图像对应的跟踪区域，因每一个跟踪区域中都包含了被操作物体的特征，实现了被操作物体特征信息的增加和丰富，从而可以在物体被遮挡或物体较小时，也可以对物体的类别进行准确的识别，增加了识别的可信度。

其中，对局部图和多帧连续图像进行特征提取的方法，以对局部图进行特征提取为例，作为一种可能的实现方式，获取局部图的方向梯度直方图(Histogram of OrientedGradient,HOG)特征，具体地，将局部图分割成若干的小的区块，然后对每个区块分别计算对应的方向梯度直方图HOG，将每个区块计算得到的对应的HOG作为该区块的特征，进而，将所有区块的特征组成一个特征向量，作为局部图提取得到的特征，即局部图中包含的被操作物体的特征。作为另一可能的实现方式，是通过训练好的神经网络局部图中包含的被操作物体的特征。对多帧连续图像进行特征提取的方法和局部图进行特征提取的原理相同，此处不再赘述。

其中，对物体进行特征提取提取得到的特征包括物体的形状特征、尺寸特征、纹理特征、颜色特征、图案特征、位置特征中的一个或多个。

步骤103，对多帧连续图像对应的跟踪区域，进行物体类别的识别。

作为一种可能的实现方式，在获取得到多帧连续图像对应的跟踪区域后，对多帧连续图像对应的跟踪区域进行特征提取，得到区域特征，进而对多帧连续图像对应的跟踪区域的区域特征，进行加权求和得到目标区域特征，根据目标区域特征进行物体类别的识别。

作为另一种可能的实现方式，将获取的多帧连续图像对应的跟踪区域输入训练好的神经网络模型中，识别得到多帧连续图像对应的跟踪区域中包含的物体的类别和对应的类别的置信度，进而，根据获取得到的多个物体的类别和置信度，将具有最高置信度的物体的类别确定为最终识别得到的物体的类别。

从而，对多帧连续图像对应的跟踪区域，进行物体类别的识别，实现了丰富了物体类别对应的特征信息，增加了类别识别的可信度，从而实现不管物体在任何状态下，其对应的类别都可以被正确识别出来。

本实施例的物体类别的识别方法中，根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图，根据被操作物体的局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域，对所述跟踪区域进行物体类别的识别，本发明实施例中，将操作物体前后采集到的图像，结合操作物体过程中采集到的多帧连续图像，综合确定物体类别，提高了物体类别识别的准确性，解决了现有技术中，通过操作物体前后采集的两张静态图片进行物体类别识别，当被操作的物体被遮挡或放置在角落时，导致识别准确度较低的技术问题。

基于上一实施例，本实施例提供了另一种物体类别识别方法的流程示意图，图2为本发明实施例所提供的另一种物体类别识别方法的流程示意图。

如图2所示，该方法可以包括以下步骤：

步骤201，根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图。

具体可参照上一实施例中的步骤101，原理相同，此处不再赘述。

步骤202，对局部图进行物体类别的识别，得到物体类别和类别的置信度。

作为一种可能的实现方式，利用已学习到图像和图像中物体类别的类别识别模型对局部图像进行物体类别识别，得到物体类别和类别的置信度。

需要说明的是，该识别模型对于没有被遮挡的物体或者是物体特征较明显的物体，进行类别识别的准确度较高，对应得到的类别置信度的分数也较高，例如，局部图中包含一个完整且较大的物体B，则对物体B进行类别识别时，识别得到的类别的置信度则较高，即识别的准确度较高，相反，若局部图中包含的物体B被其它物体遮挡或者是在图像中所占的比例较小，则识别得到的类别置信度则较低，需要按照下述步骤进一步进行类别识别。

步骤203，判断识别得到的物体类别的置信度是否低于预设阈值，若是，执行步骤204，若都，则结束。

具体地，根据识别得到的物体类别的置信度，将该置信度和物体类别的预设阈值比较，若置信度高于阈值，则说明类别识别的准确度较高，则可以直接结束，相反，则需要执行下述的步骤，进行类别识别，以提高类别识别的准确度。

步骤204，确定在操作物体过程中对用户动作进行监测得到的动作类型。

本发明实施例中，在物体被操作过程中，对用户动作进行监测得到的动作类型包括取走和放下。

需要说明的是，对物体进行的操作，也可以是智能机器人执行的，本实施例中不做限定。

步骤205，根据动作类型，获取呈现有用户动作使得被操作物体移位的多帧连续图像。

本发明实施例中，动作类型不同，则获取多帧连续图像的时间点不同，具体地，若用户执行的动作类型是放下，则获取的多帧连续图像是在监测到用户的放下动作的时刻之前采集的多帧连续图像；若用户执行的动作类型是取走，则获取的多帧连续图像是在监测到用户的取走动作的时刻之后采集的多帧连续图像。

步骤206，根据局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域。

在一种场景下，若用户执行的动作类型是放下，也就是说用户将物体放下，例如，在无人超市中，用户将物体放到了货架上，则需要对在监测到用户的放下动作的时刻之前采集的多帧连续图像进行跟踪，也就是说，确定用户将物体放置到货架上的动作的时刻，采集该时刻之前的多帧连续图像，即该多帧连续图像中都包含被用户放下的物体，例如，采集20帧连续图像，确定多帧连续图像对应的跟踪区域，因跟踪区域中包含了物体的特征，从而获取到更多的可指示物体类别的特征，以提高物体识别的准确性。

作为一种可能的实现方式，对被操作物体的局部图进行特征提取，确定局部图中各特征点的描述向量，再针对每一个多帧连续图像进行特征提取，确定相应多帧连续图像中各个特征点的描述向量，将相应多帧连续图像中各特征点的描述向量和局部图的各特征点的描述向量，进行相似度匹配，最终确定两两匹配度大于阈值的特征点序列，根据属于相应连续图像的特征点的位置，从相应的连续图像中，确定与被操作物体的局部图匹配度大于阈值的跟踪区域。

作为另一种可能的实现方式，在多帧连续图像中对局部图像的特征点进行匹配。具体地：先在局部图像中取一特征点P，再以特征点P为中心，取一个矩形块，然后在每一个多帧连续图像中取一个同样大小的矩形块，确定相应多帧连续图像中的图像块相对于局部图像的图像块的偏移量为(x,y)，移动相应多帧连续图像的矩形块，每次移动时，计算当前位置两个矩形块内，每个对应位置的像素点的差值的平方和，在预设的图像搜索范围内，差值平方和最小的位置，就是特征点在相应多帧连续图像中的匹配位置，进而，将局部图像和相应多帧连续图像分别转换为图像金字塔模型。图像金字塔模型是将一张图像通过逐层降采样得到的多层图像层，各图像层按从下到上的次序编号，在图像金字塔模型中，每一层图像的尺寸都比其下一层图像的尺寸小，通过从上到下逐层计算模板图像对应的图像金字塔中每层图像的位置偏移量，从而确定出最底层对应的最终位置偏移量，即可通过最终位置偏移量确定局部图像的特征点在相应多帧连续图像中的匹配位置，从而可以在相应多帧连续图像中确定和局部图像匹配的跟踪区域。

在另一种场景下，若用户执行的动作类型是取走，也就是说用户将物体取走，例如，在无人超市中，用户将货架上的物体B取走，则需要对在监测到用户的取走动作的时刻之后采集的多帧连续图像进行跟踪，也就是说，确定用户将物体从货架上的取走的时刻，采集用户手取到该物体的时刻之后的多帧连续图像，即该多帧连续图像中都包含被用户取走的物体，例如，采集30帧连续图像，以确定多帧连续图像对应的跟踪区域，因跟踪区域中包含了物体的特征，从而获取到更多的可指示物体类别的特征，以提高物体识别的准确性。其中，在该场景下确定多帧连续图像中的跟踪区域的方法原理相同，不再赘述。

步骤207，对多帧连续图像对应的跟踪区域，进行物体类别的识别。

具体地，可参照上一实施例中的步骤103，原理相同，此处不再赘述。。

需要说明的是，上述步骤202中确定物体类别的置信度的方法，具体还可以为：将第一物体图像和第二物体图像进行比对，以确定存在差异的差异区域，将第一物体图像中的差异区域确定为第一候选图像，将第二物体图像中的差异区域确定为第二候选图像，将第一候选图像和第二候选图像输入训练好的类别识别模型中，通过类别识别模型得到物体类别和类别的置信度。

本实施例的物体类别识别方法中，可以先进行物体类别的识别，确定识别得到的类别的置信度，若类别的置信度较高，说明识别较准确，可结束流程，若识别得到的置信度较低，则需要进一步根据检测到的用户的操作类型，获取和操作类型对应的物体在变化过程中的多帧连续图像，利用局部图对多帧连续图像进行跟踪匹配，确定出多帧连续图像中和局部图的特征匹配度较高的跟踪区域，由于每一个跟踪区域中都包含了被操作物体的特征，从而可以丰富被操作物体类别相关的特征信息，增加了物体类别识别的可信度。

为了实现上述实施例，本发明还提出一种物体类别的识别装置。

图3为本发明实施例提供的一种物体类别的识别装置的结构示意图。

如图3所示，该装置包括：确定模块31、跟踪模块32和第一识别模块33。

确定模块31，用于根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图。

跟踪模块32，用于根据局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定多帧连续图像对应的跟踪区域。

第一识别模块33，用于对多帧连续图像对应的跟踪区域，进行物体类别的识别。

进一步地，在本发明实施例的一种可能的实现方式中，所述装置，还包括：

第二识别模块，用于对所述局部图进行物体类别的识别；

获取模块，用于若识别得到的物体类别的置信度低于预设阈值，获取所述多帧连续图像。

作为一种可能的实现方式，上述获取模块，具体用于：

确定在操作物体过程中对用户动作进行监测得到的动作类型；

根据所述动作类型，获取呈现有用户动作使得被操作物体移位的多帧连续图像。

作为一种可能的实现方式，上述获取模块，具体还用于：

若所述动作类型是放下，则获取监测到用户动作的时刻之前采集的多帧连续图像；

若所述动作类型是取走，则获取监测到用户动作的时刻之后采集的多帧连续图像。

作为一种可能的实现方式，上述确定模块31，具体用于：

将所述第一物体图像和所述第二物体图像进行比对，以确定存在差异的差异区域；

将所述第一物体图像中的所述差异区域确定为所述第一候选图像；

将所述第二物体图像中的所述差异区域确定为所述第二候选图像；

从所述第一候选图像和所述第二候选图像中选取呈现有所述被操作物体的图像作为所述被操作物体的局部图。

作为一种可能的实现方式，上述跟踪模块32，具体用于：

针对每一帧连续图像，将相应连续图像中各区域与所述局部图匹配，以从相应连续图像中，确定与所述局部图匹配度大于阈值的跟踪区域。

作为一种可能的实现方式，上述第一识别模块33，具体用于：

对所述多帧连续图像对应的跟踪区域进行特征提取，得到区域特征；

对所述多帧连续图像对应的跟踪区域的区域特征，进行加权求和得到目标区域特征；

根据所述目标区域特征进行物体类别的识别。

需要说明的是，前述对类别识别方法实施例的解释说明也适用于该实施例的类别识别装置，原理相同此处不再赘述。

本实施例的物体类别识别装置中，可以先进行物体类别的识别，确定识别得到的类别的置信度，若类别的置信度较高，说明识别较准确，可结束流程，若识别得到的置信度较低，则需要进一步根据检测到的用户的操作类型，获取和操作类型对应的物体在变化过程中的多帧连续图像，利用局部图对多帧连续图像进行跟踪匹配，确定出多帧连续图像中和局部图的特征匹配度较高的跟踪区域，由于每一个跟踪区域中都包含了被操作物体的特征，从而可以丰富被操作物体类别相关的特征信息，增加了物体类别识别的可信度。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的物体的类别识别方法。

图4示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图4显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，该程序被处理器执行时，实现如前述方法实施例所述的物体的类别识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种物体的类别识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的类别识别方法，其特征在于，所述根据所述局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定所述多帧连续图像对应的跟踪区域之前，还包括：

对所述局部图进行物体类别的识别；

若识别得到的物体类别的置信度低于预设阈值，获取所述多帧连续图像。

3.根据权利要求2所述的类别识别方法，其特征在于，所述获取所述多帧连续图像，包括：

4.根据权利要求3所述的类别识别方法，其特征在于，所述根据所述动作类型，获取呈现有用户动作使得操作物体移位的多帧连续图像，包括：

5.根据权利要求1所述的类别识别方法，其特征在于，所述根据操作物体前采集的第一物体图像，以及操作物体后采集的第二物体图像，确定呈现有被操作物体的局部图，包括：

从所述第一候选图像和所述第二候选图像中选取呈现有所述被操作物体的图像作为所述局部图。

6.根据权利要求1-5任一所述的类别识别方法，其特征在于，所述根据所述局部图，对操作物体过程中采集的多帧连续图像进行跟踪，确定所述多帧连续图像对应的跟踪区域，包括：

7.根据权利要求1-5任一所述的类别识别方法，其特征在于，所述对所述多帧连续图像对应的跟踪区域，进行物体类别的识别，包括：

根据所述目标区域特征进行物体类别的识别。

8.一种物体的类别识别装置，其特征在于，包括：

9.根据权利要求8所述的类别识别装置，其特征在于，所述装置，还包括：

第二识别模块，用于对所述局部图进行物体类别的识别；

10.根据权利要求9所述的类别识别装置，其特征在于，所述获取模块，具体用于：

11.根据权利要求10所述的类别识别装置，其特征在于，所述获取模块，具体还用于：

12.根据权利要求8所述的类别识别装置，其特征在于，所述确定模块，具体用于：

13.根据权利要求8-12任一所述的类别识别装置，其特征在于，所述跟踪模块，具体用于：

14.根据权利要求8-12任一所述的类别识别装置，其特征在于，所述第一识别模块，具体用于：

根据所述目标区域特征进行物体类别的识别。

15.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的类别识别方法。

16.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的类别识别方法。