CN109977826A

CN109977826A - 物体的类别识别方法和装置

Info

Publication number: CN109977826A
Application number: CN201910199889.3A
Authority: CN
Inventors: 马明明; 罗宇轩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-05
Anticipated expiration: 2039-03-15
Also published as: CN109977826B

Abstract

本发明提出一种物体的类别识别方法和装置，其中，方法包括：获取操作物体前的第一物体图像，以及操作物体后的第二物体图像，对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，根据第一特征图像和第二特征图像进行差分，得到差分特征图像，根据差分特征图像的图像特征进行物体的类别识别，通过将物体被操作前后采集到的两个图像都进行特征提取，并将提取到的特征图像进行融合差分确定差分特征图像，从而消除图片中的共有特征信息，使得差分特征图像中仅保留能真正体现用户操作的物体的特征，提高了被操作物体类别识别的准确度。

Description

物体的类别识别方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体的类别识别方法和装置。

背景技术

随着计算机视觉技术的进步，计算机视觉识别已广泛应用到各个领域，例如，无人零售场景中，在无人零售场景中，例如，无人超市或无人货柜等，当货架上商品发生变化后，如顾客从货架上取走商品或是放下商品后，需要通过视觉技术准确的识别货架上变化的商品属于哪一种商品。

现有技术中，一种方式是，先求出顾客取/放商品的前后图像变化区域，然后直接对取/放商品后变化的区域进行识别，具体来说，图1所示的现有技术中一种商品识别的示意图，当顾客在取走商品B的过程中，碰到了商品A，导致未被取走的商品A也发生了位置变化，也就是说商品B和商品A在顾客取走商品的前后都发生了变化，这就会导致识别得到的变化区域变大，从而使得识别得到的结果中包含了未被取走的商品A，造成商品类别识别出错，识别的准确度较低。另一种方式是，不通过顾客操作商品前后图像变化区域来进行识别，而是对取/放商品的前后图像分别进行传统的图像检测和识别，通过前后的检测结果来判断货架上商品的变化，但是这种方式应用场景只能适用商品数量较少，且商品之间相互没有遮挡的场景，如果商品之间有相互遮挡，则会导致检测的数量或位置不准确，商品类别识别的准确度较低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种物体的类别识别方法，通过对物体被操作前后的图像分别进行特征提取，并将提取到的特征图像进行融合差分确定差分特征图像，从而消除图片中的共有特征信息，使得差分特征图像中仅保留能真正体现用户操作的物体的特征，提高了被操作物体类别识别的准确度。

本发明的第二个目的在于提出一种物体的类别识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种物体的类别识别方法，包括：

获取操作物体前的第一物体图像，以及操作所述物体后的第二物体图像；

对所述第一物体图像和所述第二物体图像分别进行特征提取，得到所述第一物体图像的第一特征图像，以及所述第二物体图像的第二特征图像；

根据所述第一特征图像和所述第二特征图像进行差分，得到差分特征图像；

根据所述差分特征图像的图像特征进行所述物体的类别识别。

为达上述目的，本发明第二方面实施例提出了一种物体的类别识别装置，包括：

获取模块，用于获取操作所述物体前的第一物体图像，以及操作所述物体后的第二物体图像；

第一提取模块，用于对所述第一物体图像和所述第二物体图像分别进行特征提取，得到所述第一物体图像的第一特征图像，以及所述第二物体图像的第二特征图像；

差分模块，用于根据所述第一特征图像和所述第二特征图像进行差分，得到差分特征图像；

识别模块，用于根据所述差分特征图像的图像特征进行物体的类别识别。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的物体的类别识别方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，该程序被处理器执行时，实现如第一方面所述的物体的类别识别方法。

本发明实施例所提供的技术方案可以包含如下的有益效果：

获取操作物体前的第一物体图像，以及操作物体后的第二物体图像，对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，根据第一特征图像和第二特征图像进行差分，得到差分特征图像，根据差分特征图像的图像特征进行物体的类别识别，通过将物体被操作前后采集到的两个图像都进行特征提取，并将提取到的特征图像进行融合差分确定差分特征图像，从而根据差分特征图像的图像特征识别得到真正被操作而发生变化的物体的类别，提高了物体类别识别的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1所示的现有技术中一种商品识别的示意图；

图2为本发明实施例所提供的一种物体的类别识别方法的流程示意图；

图3为本发明实施例所提供的顾客放下物体B前后的第一物体图像和第二物体图像；

图4为本发明实施例所提供的另一种物体的类别识别方法的流程示意图；

图5为本发明实施例所提供的一种神经网络模型的训练方法的流程示意图；

图6为本发明实施例提供的一种物体的类别识别装置的结构示意图；以及

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的物体的类别识别方法和装置。

图2为本发明实施例所提供的一种物体的类别识别方法的流程示意图。

如图2所示，该方法包括以下步骤：

步骤101，获取操作物体前的第一物体图像，以及操作物体后的第二物体图像。

本发明实施例中，获取在用户对物体进行操作前采集到的第一原始图像，和用户完成对物体的操作后采集到的第二原始图片，其中，用户对物品进行操作，例如为取走商品或放下商品。将第一原始图像和第二原始图像进行比对，以确定在用户操作前后存在变化的变化区域，作为一种可能的实现方式，可以利用已学习到输入图像和图像之间存在的变化区域的对应关系的学习模型，确定用户操作前后存在变化的变化区域；作为另一种可能的实现方式，可以通过逐点比较第一原始图像和第二原始图像的像素信息，将包含不同像素信息的区域确定为用户操作前后存在变化的变化区域。进而，将第一原始图像中的变化区域确定为第一物体图像，将第二原始图像中的变化区域确定为第二物体图像。

步骤102，对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像。

图3为本发明实施例所提供的顾客放下物体B前后的第一物体图像和第二物体图像，根据图3中左图和右图比较可知，实际被用户放下的物体为B，而根据变化区域确定的第一物体图像和第二物体图中却包含了并没有被用户放下的物体A，这是因为，用户在货架上放下物体B时，不小心碰到了物体A，使得物体A在获取得到的第二原始图像中的位置发生了较小的位移变化，从而基于对比确定的变化区域确定的第一物体图像和第二物体图像中还包含了并不是用户真正放下的物体A。

因此，本发明实施例中，对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，从而有效的利用物体被操作前的第一物体图像的第一特征图像，和物体被操作后的第二物体图像的第二特征图像之间的相同点和不同点，以识别出用户真正操作的物体。

步骤103，根据第一特征图像和第二特征图像进行差分，得到差分特征图像。

具体地，将第一特征图像中包含的特征和第二特征图像总包含的特征进行差分，得到包含差分特征的差分特征图像，以消除第一特征图像和第二特征图像中共有的特征，以保留不同的差分特征，以使保留下来的差分特征能指示被顾客真正操作的物体的特征，以提高物体识别的准确性。

步骤104，根据差分特征图像的图像特征进行物体的类别识别。

具体地，根据获取得到的差分特征图像的图像特征可以对被操作的物体的类别进行识别，例如，如图3所示，根据图3中左图和右图得到的差分特征图像可以识别得到被用户放下的物体是B，而不是误识别得到用户放下的是物体A和物体B，或者是误识别到用户放下的是物体A。

可选的，在获取得到差分特征图像后，还可以对差分特征图像的图像特征进行特征提取，以实现对所述差分特征图像的图像特征进行降维，以得到最能体现被操作物体类型的低维度特征，以提高物体种类识别的准确度。

本发明实施例的物体的类别识别方法中，获取操作物体前的第一物体图像，以及操作物体后的第二物体图像，对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，根据第一特征图像和第二特征图像进行差分，得到差分特征图像，根据差分特征图像的图像特征进行物体的类别识别，通过将物体被操作前后采集到的两个图像都进行特征提取，并将提取到的特征图像进行融合差分确定差分特征图像，从而消除图片中的共有特征信息，使得差分特征图像中仅保留能真正体现用户操作的物体的特征，提高了被操作物体类别识别的准确度。

为了清楚说明上一实施例，本实施例提供了另一种物体的类别识别方法的可能的实现方式，基于神经网络模型来实现本发明实施例的物体的类别识别方法，图4为本发明实施例所提供的另一种物体的类别识别方法的流程示意图。

如图4所示，该方法可以包括以下步骤：

步骤401，获取操作物体前的第一物体图像，以及操作物体后的第二物体图像。

本实施例中，以一种具体的应用场景，即物体发生变化，是用户对物体执行的操作为放下操作，也就是说用户将一个物体放在了货架上，从而获取到的物体被放下前的第一物体图像例如为图3中的左图，物体被放下后的第二物体图像即为图3中的右图。

具体可参照上一实施例的步骤201，原理相同，此处不再赘述。

步骤402，将第一物体图像和第二物体图像分别输入神经网络模型中的特征提取层，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像。

其中，神经网络模型经过训练，其特征提取层已经学习到了要提取的特征和特征图像之间的对应关系，也就是说通过特征提取层提取得到的特征图像携带有物体的形状特征、尺寸特征、纹理特征、颜色特征、图案特征、位置特征中的一个或多个。

本发明实施例中，将第一物体图像和第二物体图像分别输入特征提取层后可以得到对应的第一特征图像和第二特征图像，第一特征图像中携带的物体的形状特征、尺寸特征、纹理特征、颜色特征、图案特征、位置特征中的一个或多个特征，可以利用特征值表示，例如，第一特征图像用一个W*H的特征矩阵表示，矩阵中元素的值即为第一特征图像中图像特征的特征值。同理，第二特征图像也可以用一个W*H的特征矩阵表示，原理和第一特征图像相同，不再赘述。

步骤403，将第一特征图像和第二特征图像输入神经网络模型的差分层，得到差分特征图像。

其中，神经网络模型的差分层，包括用于指示第一特征图像权重的第一差分参数，和指示第二特征图像权重的第二差分参数。

本发明实施例中，将第一特征图像和第二特征图像输入神经网络模型的差分层是为了将第一特征图像和第二特征图像中相同的特征去除，仅留下可以用于指示用户真实操作的物体的特征，即差分特征，生成差分特征图像。

具体地，差分特征的公式可表示为其中，第一特征图像和第二特征图像的图像特征均用特征矩阵来表示，为了便于区分，将第一特征图像的图像特征用第一特征矩阵表示，第二特征图像的图像特征用第二特征矩阵表示，其中，W，H分别代表第一特征矩阵和第二特征矩阵均为W*H的特征矩阵，也就是说第一特征矩阵和第二特征矩阵均包含W*H个特征值，W_k为指示第一特征图像权重的第一差分参数，I_i为第一特征矩阵中的第i个特征值，W_k’为指示第二特征图像权重的第二差分参数，和I_j为第二特征矩阵中的第j个特征值，从而，根据第一差分参数和所述第二差分参数，对第一特征图像对应的第一特征矩阵中的每一个特征值和第二特征图像对应的第二特征矩阵中的每一个特征值进行加权求和，得到差分特征，实现了将第一特征图像和第二特征图像中的特征在融合的过程中将共有的特征信息去除，仅保留第一特征图像和第二特征图像中可用于指示真实被操作的物体的特征，即差分特征，进而生成携带差分特征的差分特征图像。

需要说明的是，差分层的第一差分参数和第二差分参数，是神经网络模型通过训练确定的，其中，神经网络模型的训练过程，将在下一实施例中具体说明。

步骤404，将差分特征图像输入神经网络模型的差分特征提取层，确定用于指示物体类别的图像特征。

步骤405，根据差分特征图像的图像特征进行物体的类别识别。

具体地，将差分特征图像输入神经网络模型的差分特征提取层，以对差分特征图像中携带的差分特征进行降维，确定用于指示被用户实际操作的物体的物体类别的图像特征，通过特征降维，获得了更能反应物体本质的低维度特征，提高了物体识别的准确度。

本发明实施例的物体的类别识别方法中，将获取操作物体前的第一物体图像，以及操作物体后的第二物体图像，通过神经网络模型的特征提取层进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，将第一特征图像和第二特征图像输入差分层在对特征融合的过程中对特征进行差分，去除第一特征图像和第二特征图像中共有特征信息，使得差分特征图像中仅保留能真正体现用户操作的物体的特征，得到差分特征图像，根据差分特征图像的图像特征进行物体的类别识别，提高了被操作物体识别的准确度。

通过上述实施例的分析可知，本发明实施例的物体的类别识别方法是基于神经网络模型实现的，为此，本发明实施例提供了一种神经网络模型的训练方法，图5为本发明实施例所提供的一种神经网络模型的训练方法的流程示意图，如图5所示，该方法包含如下的步骤：

步骤501，获取样本对图像集，其中，每一个样本对包含操作物体前的第一物体图像，和操作物体后的第二物体图像。

本发明实施例中，可以获取大量的物体被操作前后的第一样本图像和第二样本图像，作为样本对，以构成样本对的图像集。例如，图3中所示的左图对应的物体B被放下前的第一物体图像和右图中的物体B被放下后的第二物体图像。

步骤502，对样本对图像集中的每个样本对图像进行标注处理，以确定每个样本对图像中实际被操作物体的类别。

针对样本对图像集中的每个样本对图像进行标注，具体地，根据每一个样本对图像中指示的实际被操作的物体，即被用户真实取走或放下的物体，对该物体的类别进行标注，例如，若将图3对应的左图和右图作为样本对，则标注的物体类别为：物体B，例如为口香糖。

步骤503，将每个样本对图像输入神经网络模型，以获取神经网络模型输出的预测被操作物体的类别。

具体地，将标注的每个样本对图像输入神经网络模型后，可以获取神经网络模型输出的每个样本对图像的预测被操作物体的类别。

步骤504，根据预测被操作物体的类别与标注的实际被操作物体的类别之间的差异，对神经网络模型进行训练。

具体地，针对每个样本对图像，根据每个样本对图像的标注信息和预测信息，确定样本对图像标注的真实被操作物体的类别与预测被操作物体的类别之间的差异。进而，根据该差异，进行多次迭代对神经网络模型各层的参数进行修正，得到神经网络模型各层的最优参数，其中，包含神经网络模型的差分层的用于指示权重的第一差分参数和第二差分参数，各层的最优参数确定后，神经网络模型的训练即完成。

本发明实施例的神经网络模型训练方法中，通过对神经网络模型进行训练，获取得到神经网络模型各层的最优参数，以使得神经网络模型学习得到输入的图像对和输出的识别到的样本图像对中因真实被执行了放下或取走的操作而发生变化的物体的类别，提高了物体类别识别的准确性。

为了实现上述实施例，本发明还提出一种物体的类别识别装置。

图6为本发明实施例提供的一种物体的类别识别装置的结构示意图。

如图6所示，该装置包括：获取模块61、第一提取模块62、差分模块63和识别模块64。

获取模块61，用于获取操作物体前的第一物体图像，以及操作物体后的第二物体图像。

第一提取模块62，用于对第一物体图像和第二物体图像分别进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像。

差分模块63，用于根据第一特征图像和第二特征图像进行差分，得到差分特征图像。

识别模块64，用于根据差分特征图像的图像特征进行物体的类别识别。

进一步地，在本发明实施例的一种可能的实现方式中，上述获取模块61，具体用于：

获取在用户操作物体前后采集到的第一原始图像和第二原始图像；

将所述第一原始图像和所述第二原始图像进行比对，以确定在所述用户操作物体前后存在变化的变化区域；

将所述第一原始图像中的所述变化区域确定为所述第一物体图像；

将所述第一原始图像中的所述变化区域确定为所述第二物体图像。

作为一种可能的实现方式，本发明实施例的类别识别方法是基于神经网络模型实现的，所述装置还包括：

第二提取模块，将所述差分特征图像输入所述神经网络模型的差分特征提取层，以对所述差分特征图像中携带的差分特征进行降维，确定用于指示所述物体类别的所述图像特征。

作为一种可能的实现方式，上述第一提取模块62，具体用于：

将所述第一物体图像和所述第二物体图像分别输入神经网络模型中的特征提取层，得到所述第一物体图像的第一特征图像，以及所述第二物体图像的第二特征图像；

其中，特征图像携带有物体的形状特征、尺寸特征、纹理特征、颜色特征、图案特征、位置特征中的一个或多个。

作为一种可能的实现方式，上述差分模块63，具体用于：

将所述第一特征图像和第二特征图像输入所述神经网络模型的差分层，得到差分特征图像。

作为一种可能的实现方式，所述差分层，包括用于指示第一特征图像权重的第一差分参数，和指示第二特征图像权重的第二差分参数，上述差分模块63，具体用于：

根据所述第一差分参数和所述第二差分参数，对所述第一特征图像中的每一个特征值和所述第二特征图像中的每一个特征值进行加权求和，得到差分特征图像；其中，所述第一差分参数和所述第二差分参数是对神经网络模型进行训练确定的。

作为一种可能的实现方式，所述装置还包括：

获取模块，用于获取样本对图像集，其中，每一个样本对包含操作物体前的所述第一物体图像，和操作物体后的所述第二物体图像；

标注模块，用于对所述样本对图像集中的每个样本对图像进行标注处理，以确定每个样本对图像中实际被操作物体的类别；

预测模块，用于将所述每个样本对图像输入所述神经网络模型，以获取所述神经网络模型输出的预测被操作物体的类别；

训练模块，根据所述预测被操作物体的类别与所述标注的实际被操作物体的类别之间的差异，对所述神经网络模型进行训练。

需要说明的是，前述对物体的类别识别方法实施例的解释说明也适用于该实施例的物体的类别识别装置，原理相同，此处不再赘述。

本发明实施例的物体的类别识别装置中，将获取操作物体前的第一物体图像，以及操作物体后的第二物体图像，通过神经网络模型的特征提取层进行特征提取，得到第一物体图像的第一特征图像，以及第二物体图像的第二特征图像，将第一特征图像和第二特征图像输入差分层在对特征融合的过程中对特征进行差分，去除第一特征图像和第二特征图像中共有特征信息，使得差分特征图像中仅保留能真正体现用户操作的物体的特征，得到差分特征图像，根据差分特征图像的图像特征进行物体的类别识别，提高了被操作物体识别的准确度。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的物体的类别识别方法。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，该程序被处理器执行时，实现如前述方法实施例所述的物体的类别识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种物体的类别识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的物体的类别识别方法，其特征在于，所述获取操作物体前的第一物体图像，以及操作所述物体后的第二物体图像，包括：

获取在用户操作所述物体前后采集到的第一原始图像和第二原始图像；

将所述第一原始图像和所述第二原始图像进行比对，以确定在所述用户操作所述物体前后存在变化的变化区域；

将所述第二原始图像中的所述变化区域确定为所述第二物体图像。

3.根据权利要求1所述的类别识别方法，其特征在于，所述类别识别方法是基于神经网络模型实现的，所述对所述第一物体图像和所述第二物体图像分别进行特征提取，得到所述第一物体图像的第一特征图像，以及所述第二物体图像的第二特征图像，包括：

其中，特征图像携带有所述物体的形状特征、尺寸特征、纹理特征、颜色特征、图案特征、位置特征中的一个或多个。

4.根据权利要求3所述的类别识别方法，其特征在于，所述根据所述第一特征图像和所述第二特征图像进行差分，得到差分特征图像，包括：

5.根据权利要求4所述的类别识别方法，其特征在于，所述差分层，包括用于指示第一特征图像权重的第一差分参数，和指示第二特征图像权重的第二差分参数，所述将所述第一特征图像和第二特征图像输入所述神经网络模型的差分层，得到差分特征图像，包括：

根据所述第一差分参数和所述第二差分参数，对所述第一特征图像中的每一个特征值和所述第二特征图像中的每一个特征值进行加权求和，得到差分特征图像；

其中，所述第一差分参数和所述第二差分参数是对神经网络模型进行训练确定的。

6.根据权利要求3-5中任一所述的类别识别方法，其特征在于，所述根据所述差分特征图像的图像特征进行物体的类别识别之前，包括：

将所述差分特征图像输入所述神经网络模型的差分特征提取层，以对获取得到的差分特征进行降维，确定用于指示所述物体类别的所述图像特征。

7.根据权利要求3-5任一所述的类别识别方法，其特征在于，对所述多层的神经网络模型进行训练包括：

获取样本对图像集，其中，每一个样本对包含操作物体前的所述第一物体图像，和操作物体后的所述第二物体图像；

对所述样本对图像集中的每个样本对图像进行标注处理，以确定每个样本对图像中实际被操作物体的类别；

将所述每个样本对图像输入所述神经网络模型，以获取所述神经网络模型输出的预测被操作物体的类别；

根据所述预测被操作物体的类别与所述标注的实际被操作物体的类别之间的差异，对所述神经网络模型进行训练。

8.一种物体的类别识别装置，其特征在于，包括：

获取模块，用于获取操作物体前的第一物体图像，以及操作所述物体后的第二物体图像；

识别模块，用于根据所述差分特征图像的图像特征进行所述物体的类别识别。

9.根据权利要求8所述的物体的类别识别装置，其特征在于，所述获取模块，具体用于：

10.根据权利要求8所述的类别识别装置，其特征在于，所述类别识别方法是基于神经网络模型实现的，所述第一提取模块，具体用于：

11.根据权利要求10所述的类别识别装置，其特征在于，所述差分模块，具体用于：

12.根据权利要求11所述的类别识别装置，其特征在于，所述差分层，包括用于指示第一特征图像权重的第一差分参数，和指示第二特征图像权重的第二差分参数，所述差分模块，具体用于：

13.根据权利要求10-12中任一所述的类别识别装置，其特征在于，所述装置，还包括：

14.根据权利要求10-12任一所述的类别识别装置，其特征在于，所述装置，还包括：

15.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的物体的类别识别方法。

16.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的物体的类别识别方法。