CN114677573B

CN114677573B - 视觉分类方法、系统、装置及计算机可读介质

Info

Publication number: CN114677573B
Application number: CN202210596298.1A
Authority: CN
Inventors: 范东平; 李峰
Original assignee: Shanghai Jiebote Robot Co ltd
Current assignee: Shanghai Jiebote Robot Co ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-26
Anticipated expiration: 2042-05-30
Also published as: CN114677573A

Abstract

本申请涉及一种视觉分类方法、系统、装置及计算机可读介质，该方法包括：获取同一物体的m个视角的图像，m为大于等于2的正整数；将图像分别输入基础分类器模型中进行分类，得到每个图像对应的基础分类结果，基础分类结果包括位置、类别和置信度的列表；将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，第一分类结果包括类别和置信度的列表；根据第一分类结果中的置信度确定物体的类别。本申请的视觉分类方法通过采用多视角的图像，能够获取到更多视角的信息，且对多视角的图像的基础分类结果中类别相同的项进行置信度融合计算，有效地增强了分类的准确性和可信度。

Description

视觉分类方法、系统、装置及计算机可读介质

技术领域

本申请主要涉及计算机视觉领域，具体地涉及一种视觉分类方法、系统、装置及计算机可读介质。

背景技术

在自动化物品识别分类领域，基于视觉的分类技术一般有两种。一种是模板匹配的技术，模板匹配的目标检测算法对灯光，背景、相机定位等要求较高，对形状比较单一的物体识别效果较好。但在目标多样的复杂识别场景，如垃圾分类等场景难以实际应用。另外一种是使用机器学习的分类算法，使用机器学习技术进行分类。

目前使用机器学习的分类算法一般使用单摄像头，物体仅有一个视角的图像，在实际应用场景下，识别率往往不是很高。以机器人进行自动化垃圾分拣为例，在实际分拣场景下，会出现两个以上不同种类的垃圾堆叠在一起的情形。由于一个物体被另一个物体遮盖，从某些视角观察不到被遮盖的物体，换一个视角则可以被观察到。仅使用一个视角的图像进行机器学习分类的算法由于缺少其他视角的图像的信息，容易导致识别错误。如果这种堆叠的垃圾被机器人抓取分类，有可能把垃圾放置进错误的分类箱。

因此，亟需一种能增强分类的准确性和可信度的视觉分类方法、系统、装置及计算机可读介质。

发明内容

本申请所要解决的技术问题是提供一种多视角的视觉分类方法、系统、装置及计算机可读介质，解决单视角视觉分类方法分类准确性低的问题。

为了解决上述技术问题，本申请提供一种视觉分类方法，包括如下步骤：获取同一物体的m个视角的图像，m为大于等于2的正整数；将所述图像分别输入基础分类器模型中进行分类，得到每个图像对应的基础分类结果，所述基础分类结果包括位置、类别和置信度的列表；将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，所述第一分类结果包括类别和置信度的列表；以及根据所述第一分类结果中的置信度确定所述物体的类别。

在本申请的一实施例中，所述m个视角的图像之间的视差角为60°~180°。

在本申请的一实施例中，所述基础分类器模型是基于深度学习的目标检测模型。

在本申请的一实施例中，每个所述视角对应一个所述基础分类器模型，各个所述视角对应的所述基础分类器模型使用相同的模型。

在本申请的一实施例中，使用如下公式将m个图像的基础分类结果中类别相同的项进行置信度融合计算：

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

在本申请的一实施例中，根据所述第一分类结果中的置信度确定所述物体的类别的步骤包括：从所述第一分类结果中取置信度最高的项作为第一候选项，如果所述第一候选项的置信度大于等于第一阈值，则将所述第一候选项的类别作为所述物体的类别。

在本申请的一实施例中，方法还包括：如果所述第一候选项的置信度小于所述第一阈值，则继续取置信度第二高的项，求所述第一候选项的置信度与所述第二高的项的置信度的差值；如果所述差值小于第二阈值，则根据所述m个图像的基础分类结果计算输入特征，将所述输入特征输入到冲突判别器中进行判别，得到第二分类结果，所述第二分类结果包括类别和置信度的列表；从所述第二分类结果中取置信度最高的项作为第二候选项，如果所述第二候选项的置信度大于等于第三阈值，则将所述第二候选项的类别作为所述物体的类别。

在本申请的一实施例中，所述输入特征包括以下之一或其组合：各个所述图像的基础分类结果中位置之间的交并比、偏心距离和位置形态，各个图像的基础分类结果中最高的置信度以及模型混淆矩阵。

在本申请的一实施例中，所述冲突判别器是由支持向量机、人工神经网络或随机森林的方式构建的分类器模型。

为了解决上述技术问题，本申请提供一种视觉分类系统，包括：图像获取单元，用于获取同一物体的m个视角的图像，m为大于等于2的正整数；分类单元，用于将所述图像进行分类，得到每个图像对应的基础分类结果，所述基础分类结果包括位置、类别和置信度的列表；融合单元，用于将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，所述第一分类结果包括类别和置信度的列表；以及判断单元，用于根据所述第一分类结果中的置信度确定所述物体的类别。

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

在本申请的一实施例中，根据所述第一分类结果中的置信度确定所述物体的类别包括：从所述第一分类结果中取置信度最高的项作为第一候选项，如果所述第一候选项的置信度大于等于第一阈值，则将所述第一候选项的类别作为所述物体的类别。

在本申请的一实施例中，系统还包括：冲突判别单元，用于当所述第一候选项的置信度小于所述第一阈值，则继续取置信度第二高的项，求所述第一候选项的置信度与所述第二高的项的置信度的差值，如果所述差值小于第二阈值，根据 m个图像的基础分类结果计算输入特征，根据所述输入特征进行判别，得到第二分类结果，所述第二分类结果包括类别和置信度的列表，从所述第二分类结果中取置信度最高的项作为第二候选项，如果所述第二候选项的置信度大于等于第三阈值，则将所述第二候选项的类别作为所述物体的类别。

为了解决上述技术问题，本申请提供一种视觉分类装置，包括：移动装置；如上所述的视觉分类系统，所述视觉分类系统中的图像获取单元呈60°~180°的视差角固定安装在所述移动装置上；以及机械手，安装在所述移动装置上，通过所述视觉分类系统输出的物体的类别抓取物体。

为了解决上述技术问题，本申请提供一种视觉分类装置，装置包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现上述分类方法。

为了解决上述技术问题，本申请提供一种存储有计算机程序代码的计算机可读介质，计算机程序代码在由处理器执行时实现上述分类方法。

本申请的视觉分类方法通过采用多视角的图像，能够获取到更多视角的信息，且对多视角的图像的基础分类结果中类别相同的项进行置信度融合计算，有效地增强了分类的准确性和可信度；通过采用冲突判别器对存在疑似冲突的结果进行继续判别，能进一步提高分类的准确性。

附图说明

为让本申请的上述目的、特征和优点能更明显易懂，以下结合附图对本申请的具体实施方式作详细说明，其中：

图1是本申请一实施例的视觉分类方法的示例性流程示意图；

图2是本申请一实施例的图像之间的视差角的示例性结构示意图；

图3是本申请一实施例的视觉分类系统的示例性结构示意图；

图4是本申请一实施例的视觉分类装置的示例性系统框图；

图5是本申请另一实施例的视觉分类装置的示例性系统框图。

具体实施方式

为让本申请的上述目的、特征和优点能更明显易懂，以下结合附图对本申请的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其它不同于在此描述的其它方式来实施，因此本申请不受下面公开的具体实施例的限制。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

正如背景技术提到的目前使用机器学习的分类算法一般使用单摄像头，物体仅有一个视角的图像，仅使用一个视角的图像进行机器学习分类的算法由于缺少其他视角的图像的信息，容易导致识别错误。本申请提供一种多视角的视觉分类方法，可以有效地增强分类的准确性和可信度。

图1是本申请一实施例的视觉分类方法的示例性流程示意图。如图1所示，本申请实施例的视觉分类方法100包括如下步骤：

步骤S11：获取同一物体的m个视角的图像，m为大于等于2的正整数；

步骤S12：将图像分别输入基础分类器模型中进行分类，得到每个图像对应的基础分类结果，基础分类结果包括位置、类别和置信度的列表；

步骤S13：将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，第一分类结果包括类别和置信度的列表；

步骤S14：根据第一分类结果中的置信度确定物体的类别。

以下结合图1-2对上述的步骤S11-S14进行说明。

在步骤S11中，获取同一物体的m个视角的图像，m为大于等于2的正整数。即本申请提供一种多视角的视觉分类方法。目前使用机器学习的分类算法一般使用单摄像头，物体仅有一个视角的图像，仅使用一个视角的图像进行机器学习分类的算法由于缺少其他视角的图像的信息，容易导致识别错误。因此，获取同一物体的多个视角的图像能有效地增强分类的准确性和可信度。本申请可以从图像数据库中获取同一物体的m个视角的图像，也可以通过m个摄像头分别获取一个视角的图像，得到m个视角的图像，本申请对图像获取的途径不作限制。

图2是本申请一实施例的图像之间的视差角的示例性结构示意图。如图2所示，通过2个摄像头分别获取一个视角的图像，得到2个视角的图像。视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异。从目标看两个点之间的夹角，叫做这两个点的视差角。如图2所示，从目标201看摄像头21和摄像头22形成的夹角为视差角A1，从目标202看摄像头21和摄像头22形成的夹角为视差角A2。可知，视差角越大，图像的差异越大。为了保证能够获取到多个视角的图像足够多的信息，在本申请的一些实施例中，m个视角的图像之间的视差角为

60°~180°，以保证图像之间的差异足够大。

在步骤S12中，基础分类器模型是基于深度学习的目标检测模型。在一些实施例中，基础分类器模型可以是两阶段目标检测模型，也可以是一阶段目标检测模型，本申请对此不作限制。目标检测模型在通过标注分类好的数据对其进行训练后，可以有效地对图像进行分类。例如，在垃圾分拣场景下，目标检测模型在经过训练后，可以将垃圾的图像分为玻璃、纸张、塑料、金属、不可回收物、湿垃圾、混合物等类别，本申请对图像分类的类别不作限制。

在一些实施例中，每个视角图像对应一个基础分类器模型，基础分类器模型使用相同的模型。将图像分别输入到对应的基础分类器模型中进行分类，得到每个图像对应的基础分类结果。基础分类结果是一个列表，每一项包含位置、类别和置信度等信息。以2个视角，3种类别为例。第一个视角的图像的基础分类结果可以是

，表示物体为第一类的置信度为0.5，物体为第二类的置信度为0.3，物体为第三类的置信度为0.2。第二个视角的图像的基础分类结果可以是

，表示物体为第一类的置信度为0.3，物体为第二类的置信度为0.6，物体为第三类的置信度为0.1。第一个视角的图像的分类结果中的位置可以是物体在第一视角坐标系下的4个边界点的坐标。第二个视角的图像的分类结果中的位置可以是物体在第二视角坐标系下的4个边界点的坐标。

在步骤S13中，可以通过计算各个类别的平均值进行置信度融合。具体地，将m个图像的分类结果中类别相同的项进行求和再除以总的视角数目m，得到第一分类结果。以上述2个视角，3种类别为例，通过计算各个类别的平均值进行置信度融合后，得到的第一分类结果为

，第一分类结果包括类别和置信度的列表，表示物体为第一类的置信度为0.4，物体为第二类的置信度为0.45，物体为第三类的置信度为0.15。

在一些实施例中，为了提高分类的准确性，在通过计算各个类别的平均值进行置信度融合的基础上，加上约束条件，使得融合后的第一分类结果中的置信度更符合实际情况。例如，采用底数大于等于1的对数函数对各个类别的平均值进行约束，得到第一分类结果。在一些实施例中，使用如下公式将m个图像的分类结果中类别相同的项进行置信度融合计算：

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

继续以上述2个视角，3种类别为例，假设底数a=2，则融合后的第一分类结果为

，第一分类结果包括类别和置信度的列表，表示物体为第一类的置信度为0.485，物体为第二类的置信度为0.536，物体为第三类的置信度为0.202。

在步骤S14中，可以对第一分类结果中的置信度进行排序，将置信度最高的项对应的类别作为物体的类别。

在一些实施例中，根据第一分类结果中的置信度确定物体的类别的步骤包括：从第一分类结果中取置信度最高的项作为第一候选项，如果第一候选项的置信度大于等于第一阈值，则将第一候选项的类别作为物体的类别。第一阈值的值可以按照实际应用场景进行调整，本申请对第一阈值的值不作限制。当第一候选项的置信度大于等于第一阈值，表示第一候选项的类别作为物体的类别是可信的。

在一些实施例中，根据第一分类结果中的置信度确定物体的类别还包括步骤：

如果第一候选项的置信度小于第一阈值，则继续取置信度第二高的项，求第一候选项的置信度与第二高的项的置信度的差值；

如果差值小于第二阈值，则根据m个图像的基础分类结果计算输入特征，将输入特征输入到冲突判别器中进行判别，得到第二分类结果，第二分类结果包括类别和置信度的列表；

从第二分类结果中取置信度最高的项作为第二候选项，如果第二候选项的置信度大于等于第三阈值，则将第二候选项的类别作为物体的类别。

如果第一候选项的置信度小于第一阈值，表示第一候选项的类别作为物体的类别是不可信的。则需要继续判断是否有疑似冲突的结果，通过将第一候选项的置信度与第二高的项的置信度的差值与第二阈值进行比较，如果差值小于第二阈值，表示第一候选项的置信度与第二高的项的置信度相近，存在疑似冲突的结果。第二阈值的值可以按照实际应用场景进行调整，本申请对第二阈值的值不作限制。假设第一分类结果中，玻璃的置信度为0.45，金属的置信度为0.4，纸张的置信度为0.15。假设第一阈值为0.6，第二阈值为0.1。玻璃为第一候选项，玻璃的置信度小于第一阈值，因此，将玻璃作为物体的类别是不可信的。而玻璃的置信度与第二高的项（金属）的置信度的差值为0.05，差值小于第二阈值。因此，玻璃和金属之间存在冲突，需要进一步判别，才能得到物体真实的类别。在本实施例中，根据m个图像的基础分类结果计算输入特征，将输入特征输入到冲突判别器中进行判别，得到第二分类结果，第二分类结果包括类别和置信度的列表，根据第二分类结果中的置信度确定物体的类别。在一些实施例中，可以从第二分类结果中取置信度最高的项作为第二候选项，如果第二候选项的置信度大于等于第三阈值，则将第二候选项的类别作为物体的类别。第三阈值的值可以按照实际应用场景进行调整，本申请对第三阈值的值不作限制。本申请通过一个冲突判别器对存在疑似冲突的结果继续进行判别，得到物体的类别，提高了分类的准确性和可信度。

在一些实施例中，输入冲突判别器的输入特征包括以下之一或其组合：各个图像的基础分类结果中位置之间的交并比（Intersection of Union，IoU）、偏心距离和位置形态，各个图像的基础分类结果中最高的置信度以及模型混淆矩阵（Confusion Matrix）。在目标检测任务中，通常会使用交并比作为衡量指标，来衡量两个矩形框之间的关系。可以通过各个图像的基础分类结果中的位置计算交并比、偏心距离和位置形态。模型混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值，矩阵的列表示预测值。可以直观地表示模型在哪一类样本里表现得不是很好。本申请中输入特征的选取是按照实际应用场景进行调整的，可以是以上特征之一或其组合，本申请对输入特征的特征不作限制。

在一些实施例中，冲突判别器也是一个分类器，可使用支持向量机(SVM)、人工神经网络(ANN)、随机森林(RF)等方式构建。冲突判别器的参数可由标注数据进行监督学习或强化学习的方式进行训练得到，本申请对冲突判别器训练的方式不作限制。

本申请还包括一种视觉分类系统，该视觉分类系统可以执行视觉分类方法100，因此，关于视觉分类方法100的详细说明皆可以用来描述视觉分类系统，在此，不再赘述。

图3是本申请一实施例的视觉分类系统30的示例性结构示意图。如图3所示，视觉分类系统30包括图像获取单元31、分类单元32、融合单元33和判断单元34。

图像获取单元31用于获取同一物体的m个视角的图像，m为大于等于2的正整数。图像获取单元31可以是分布式的，如图3所示，图像获取单元31包括获取单元311和获取单元312。获取单元311从第一视觉通道获取物体的第一视角图像V1，获取单元312从第二视觉通道获取物体的第二视角图像V2。在一些实施例中，图像获取单元31也可以是一个整体，从图像数据库中获取同一物体的m个视角的图像，本申请对图像获取的途径不作限制。

为了保证能够获取到多个视角的图像足够多的信息，在本申请的一些实施例中，m个视角的图像之间的视差角为60°~180°，以保证图像差异足够大。

分类单元32用于将图像进行分类，得到每个图像对应的基础分类结果，基础分类结果包括位置、类别和置信度的列表。在一些实施例中，每个视角图像对应一个基础分类单元，基础分类单元使用相同的基于深度学习的目标检测模型。基于深度学习的目标检测模型可以是两阶段目标检测模型，也可以是一阶段目标检测模型。如图3所示，分类单元32包括基础分类单元321和基础分类单元322。第一视角图像V1对应基础分类单元321，第二视角图像V2对应基础分类单元322。基础分类单元321和基础分类单元322使用相同的基于深度学习的目标检测模型。第一视角图像V1经过基础分类单元321分类后得到第一基础分类结果F1，第一基础分类结果F1包括位置、类别和置信度的列表。第二视角图像V2经过基础分类单元322分类后得到第二基础分类结果F2，第二基础分类结果F2包括位置、类别和置信度的列表。

融合单元33用于将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，第一分类结果包括类别和置信度的列表。融合单元33可以使用如下公式对第一基础分类结果F1和第二基础分类结果F2进行同类合并融合计算，得到第一分类结果R1，第一分类结果R1包括类别和置信度的列表。

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

本实施例通过在计算各个类别的平均值进行置信度融合的基础上，加上约束条件，使得融合后的第一分类结果中的置信度更符合实际情况，提高了分类的准确性。

判断单元34用于根据第一分类结果中的置信度确定物体的类别。示例性地，判断单元34可以对第一分类结果中的置信度进行排序，将置信度最高的项对应的类别作为物体的类别。在本实施例中，判断单元34根据第一分类结果中的置信度确定物体的类别的步骤包括：从第一分类结果R1中取置信度最高的项作为第一候选项C1，如果第一候选项C1的置信度大于等于第一阈值，则将第一候选项C1的类别作为物体的类别。

在一些实施例中，视觉分类系统30还包括冲突判别单元35。

如图3所示，冲突判别单元35用于当第一候选项C1的置信度小于第一阈值，则继续取置信度第二高的项，求第一候选项的置信度与第二高的项的置信度的差值，如果差值小于第二阈值，表示存在疑似冲突。则根据第一基础分类结果F1和第二基础分类结果F2计算输入特征，输入特征可以是以下特征之一或其组合：各个图像的基础分类结果中位置之间的交并比、偏心距离和位置形态，各个图像的基础分类结果中最高的置信度以及模型混淆矩阵。根据输入特征进行判别，得到第二分类结果，第二分类结果包括类别和置信度的列表。从第二分类结果中取置信度最高的项作为第二候选项C2，如果第二候选项C2的置信度大于等于第三阈值，则将第二候选项C2的类别作为物体的类别。

在一些实施例中，视觉分类系统30还包括输出单元36。输出单元36可以是转换或通讯装置，用来与外部设备10进行通信。例如，外部设备是一个机械手，则输出单元可以是基于传输控制协议（Transmission Control Protocol，TCP）的通讯设备或基于Modbus通讯协议的通讯设备，机械手通过传输控制协议或Modbus通讯协议接收到数据后，将根据位置、类别信息进行抓取。如果外部设备是一个显示屏，则输出单元可以是一个基于通用异步收发传输协议（Universal Asynchronous Receiver/Transmitter，UART）的串口通信设备。显示屏通过UART接口接收到数据后可以将结果显示在屏幕上。如果外部设备是一个扬声器，则输出单元是一个将数据转换为语音的装置。扬声器接收到语音信号后将其转换为声音播放。

本申请还包括一种视觉分类装置，包括移动装置；如前文所述的视觉分类系统，视觉分类系统中的图像获取单元呈60°~180°的视差角固定安装在移动装置上；以及机械手，安装在移动装置上，通过视觉分类系统输出的物体的类别抓取物体。本申请的视觉分类装置的一实施例可参考图4，图4是本申请一实施例的视觉分类装置400的示例性系统框图。如图4所示，视觉分类装置400包括移动装置（未示出）、视觉分类系统40和机械手（未示出）。视觉分类系统40是视觉分类系统30的一个实施例，在本实施例中，视觉分类系统40的图像获取单元包括第一摄像头41和第二摄像头42。在一些实施中，移动装置是一个移动小车，第一摄像头41和第二摄像头42呈90°视差角固定安装在移动小车上。移动小车使用避障等技术进行巡游，地面为工作面。第一摄像头41和第二摄像头42每隔0.1~10秒进行一次拍照，将图像送入视觉分类系统40中，如果图像中识别到物体，则移动小车停止移动，视觉分类系统40将物体的位置和类别等信息发给机械手，机械手抓取物体，并根据类别放入对应的分类箱。小车继续移动寻找下一个物体。视觉分类装置可以用于公园、海滩、住宅区、机场等场合的垃圾拾取分类。

在一些实施中，移动装置是一个传送装置，第一摄像头41和第二摄像头42呈120°视差角部署在传送装置的相对两侧。传送装置的传输带以固定的速度进行运动，传输带所在的平面为工作面，工作面上是待分拣的物料。第一摄像头41和第二摄像头42对准传送带每隔0.1~10s拍摄一次传送带，如果发现有物料，则将物料的图像送入视觉分类系统40中，视觉分类系统40将物体的位置和类别等信息发给机械手，机械手根据传送带的运行速度和物料的位置，估算出最新的位置进行抓取，放入对应的类别箱中。视觉分类装置可以用于流水线上物料分拣，本申请对视觉分类装置的应用场景不作限制。

本申请还包括一种视觉分类装置，包括存储器和处理器。其中，该存储器用于存储可由处理器执行的指令；处理器用于执行该指令以实现前文所述的视觉分类方法。本申请的视觉分类装置的一实施例可参考图5，图5是本申请另一实施例的视觉分类装置的系统框图。参考图5所示，该视觉分类装置500可包括内部通信总线501、处理器502、只读存储器（ROM）503、随机存取存储器（RAM）504以及通信端口505。当应用在个人计算机上时，该视觉分类装置500还可以包括硬盘506。内部通信总线501可以实现该视觉分类装置500组件间的数据通信。处理器502可以进行判断和发出提示。在一些实施例中，处理器502可以由一个或多个处理器组成。通信端口505可以实现该视觉分类装置500与外部的数据通信。在一些实施例中，该视觉分类装置500可以通过通信端口505从网络发送和接收信息及数据。该视觉分类装置500还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘506，只读存储器（ROM）503和随机存取存储器（RAM）504，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器502所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

上述的视觉分类方法可以实施为计算机程序，保存在硬盘506中，并可加载到处理器502中执行，以实施本申请的视觉分类方法。

本申请还包括一种存储有计算机程序代码的计算机可读介质，该计算机程序代码在由处理器执行时实现前文所述的视觉分类方法。

视觉分类方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

本申请的一些方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理器件（DAPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备（例如，硬盘、软盘、磁带……）、光盘（例如，压缩盘CD、数字多功能盘DVD……）、智能卡以及闪存设备（例如，卡、棒、键驱动器……）。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述申请披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

此外，尽管本申请中所使用的术语是从公知公用的术语中选择的，但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的，其详细含义在本文的描述的相关部分中说明。此外，要求不仅仅通过所使用的实际术语，而是还要通过每个术语所蕴含的意义来理解本申请。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

Claims

1.一种视觉分类方法，其特征在于，包括：

获取同一物体的m个视角的图像，m为大于等于2的正整数；

将所述图像分别输入基础分类器模型中进行分类，得到每个图像对应的基础分类结果，所述基础分类结果包括位置、类别和置信度的列表；

将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，所述第一分类结果包括类别和置信度的列表；以及

根据所述第一分类结果中的置信度确定所述物体的类别；

其中，使用如下公式将m个图像的基础分类结果中类别相同的项进行置信度融合计算：

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

2.如权利要求1所述的视觉分类方法，其特征在于，所述m个视角的图像之间的视差角为60°~180°。

3.如权利要求1所述的视觉分类方法，其特征在于，所述基础分类器模型是基于深度学习的目标检测模型。

4.如权利要求1所述的视觉分类方法，其特征在于，每个所述视角对应一个所述基础分类器模型，各个所述视角对应的所述基础分类器模型使用相同的模型。

5.如权利要求1所述的视觉分类方法，其特征在于，根据所述第一分类结果中的置信度确定所述物体的类别的步骤包括：

从所述第一分类结果中取置信度最高的项作为第一候选项，如果所述第一候选项的置信度大于等于第一阈值，则将所述第一候选项的类别作为所述物体的类别。

6.如权利要求5所述的视觉分类方法，其特征在于，还包括：

如果所述第一候选项的置信度小于所述第一阈值，则继续取置信度第二高的项，求所述第一候选项的置信度与所述第二高的项的置信度的差值；

如果所述差值小于第二阈值，则根据所述m个图像的基础分类结果计算输入特征，将所述输入特征输入到冲突判别器中进行判别，得到第二分类结果，所述第二分类结果包括类别和置信度的列表；

从所述第二分类结果中取置信度最高的项作为第二候选项，如果所述第二候选项的置信度大于等于第三阈值，则将所述第二候选项的类别作为所述物体的类别。

7.如权利要求6所述的视觉分类方法，其特征在于，所述输入特征包括以下之一或其组合：各个所述图像的基础分类结果中位置之间的交并比，各个图像的基础分类结果中最高的置信度以及模型混淆矩阵。

8.如权利要求6所述的视觉分类方法，其特征在于，所述冲突判别器是由支持向量机、人工神经网络或随机森林的方式构建的分类器模型。

9.一种视觉分类系统，其特征在于，包括：

图像获取单元，用于获取同一物体的m个视角的图像，m为大于等于2的正整数；

分类单元，用于将所述图像进行分类，得到每个图像对应的基础分类结果，所述基础分类结果包括位置、类别和置信度的列表；

融合单元，用于将m个图像的基础分类结果中类别相同的项进行置信度融合计算，得到第一分类结果，所述第一分类结果包括类别和置信度的列表；以及

判断单元，用于根据所述第一分类结果中的置信度确定所述物体的类别；

其中，m为视角数目，n为类别数目，

为第m个视角在第n种类别上的置信度，a是对数函数的底数且

，

是一维数组，表示各种类别下的置信度。

10.如权利要求9所述的视觉分类系统，其特征在于，所述m个视角的图像之间的视差角为60°~180°。

11.如权利要求9所述的视觉分类系统，其特征在于，根据所述第一分类结果中的置信度确定所述物体的类别包括：

12.如权利要求11所述的视觉分类系统，其特征在于，还包括：

冲突判别单元，用于当所述第一候选项的置信度小于所述第一阈值，则继续取置信度第二高的项，求所述第一候选项的置信度与所述第二高的项的置信度的差值，如果所述差值小于第二阈值，根据 m个图像的基础分类结果计算输入特征，根据所述输入特征进行判别，得到第二分类结果，所述第二分类结果包括类别和置信度的列表，从所述第二分类结果中取置信度最高的项作为第二候选项，如果所述第二候选项的置信度大于等于第三阈值，则将所述第二候选项的类别作为所述物体的类别。

13.一种视觉分类装置，其特征在于，包括：

移动装置；

如权利要求9-12任一项所述的视觉分类系统，所述视觉分类系统中的图像获取单元呈60°~180°的视差角固定安装在所述移动装置上；以及

机械手，安装在所述移动装置上，通过所述视觉分类系统输出的物体的类别抓取物体。

14.一种视觉分类装置，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如权利要求1-8任一项所述的方法。

15.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1-8任一项所述的方法。