CN1936585A

CN1936585A - 分类系统

Info

Publication number: CN1936585A
Application number: CNA2006100869031A
Authority: CN
Inventors: 布雷恩·麦克内密; 格勒瑟·博拉德硕; 约翰·多尔蒂; 詹姆士·马洪; 理查德·艾万斯
Original assignee: MV Res Ltd
Current assignee: MV Res Ltd
Priority date: 2005-08-22
Filing date: 2006-06-14
Publication date: 2007-03-28
Also published as: GB2429544A; US20070043722A1; GB0517112D0

Abstract

一种分类系统基于误标记的参考图像自动生成关于训练特征向量实例是否是污染物的指示。其从集中排除实例，构建k最近邻居置信度分类器，然后利用该分类器对实例分类。如果实例的分类不与其确定的分类匹配，或者如果其匹配而置信度级别低于阈值，则实例可被标记为可疑的。系统可以自动移除或重新标记所有可疑的实例。

Description

分类系统

技术领域

本发明涉及用于机器视觉检查的分类系统。

背景技术

机器检查问题常常依赖于利用从标记的图像中提取出的特征向量训练的分类器。这些标记的精确性通常依赖于人类操作者，因此常常可能是不准确的—尤其是当涉及大量数据时。使用从误标记的图像中提取出的特征向量来训练分类器可能是灾难性的。例如，有缺陷的焊接接合点的图像可能被标记为可接受的接合点，并且所提取的特征向量可能被用于训练分类器，以捕捉焊接接合点缺陷。由于其类似于污染物实例(case)，因此所得到的分类器有可能使随后检查的有缺陷接合点通过。

污染物实例的问题可通过考虑其中每个实例仅具有两个特征的数据集来说明。在图1中示出了这种实例集的图示，其中好的实例示为方形的，坏的实例示为圆形的。在图示情形中，两个污染物实例已被加到训练集中—在图的右侧圆形从中示出的两个方形。污染物数据的问题通过包含查询实例(在图中示为十字)来说明，查询实例是坏分类的真正示例。尽管该实例几乎正好位于坏示例的从的中部，但是其与两个污染物实例的邻近性可能导致其被分类为好的分类的成员。

图2中示出了来自原型应用的类似的图的又一示例。在这种情况下，分类任务试图区分印刷电路板上的存在的和不存在的电子元件。同样示出了可用特征中的两个的图。图顶部的实例是不存在的元件的示例，而图底部的那些是存在的元件的示例。被突出显示的实例(以及在图右侧的图像中所示的实例)是污染物实例，该污染物实例已被标记为存在的元件的示例，但是事实上是不存在的元件的示例。该污染会导致分类器性能较差。

本发明解决了这些问题。

发明内容

根据本发明，提供了一种包括基于参考样本的多个训练特征向量实例的分类系统，其中该系统包括污染物识别装置，该污染物识别装置用于自动生成关于实例是否是来源于误标记的参考样本的污染物实例的指示。

在一个实施例中，污染物识别装置包括用于执行以下步骤的装置：

用于从实例集中移除实例的装置，

用于从剩余实例构建分类器的装置，以及

用于利用所述分类器来对实例分类的装置。

在另一个实施例中，污染物识别装置可操作以用于生成置信度值，该置信度值代表实例被分类为污染物或非污染物的置信度。

在又一个实施例中，分类器可操作以用于生成所述置信度值。

在一个实施例中，分类器是k最近邻居分类器。

在另一个实施例中，污染物识别装置包括用于在确定实例的原始分类是不正确的情况下倒转置信度的装置。

在又一个实施例中，污染物识别装置可操作以用于重复用于依次对每个实例生成关于该实例是污染物的可能性的指示的过程。

在一个实施例中，实例是根据过程的结果被加上标签的。

在另一个实施例中，系统包括交互式工具，该交互式工具用于：

生成与被识别为可能是污染物的实例有关的数据显示；以及

提示用户输入实例状态的确认。

在又一个实施例中，交互式工具可操作以用于自动显示用于被识别为可能污染物的实例的参考样本的图像。

在一个实施例中，工具可操作以用于在实例数据的一旁显示图像。

在另一个实施例中，实例是用于电路板的。

在另一个方面，本发明提供了一种用于检查电路板的机器视觉系统，该系统包括如上定义的任何分类系统。

附图说明

参考附图，从下面对某些实施例的描述中可以更清楚地理解本发明，这些实施例仅用于示例目的，在附图中：

图1示出了其中每个实例仅有两个特征的数据集；

图2示出了来自原型应用的类似的图的又一示例；

图3是在分类系统中用于识别污染物实例的过程的流程图；

图4是图示在识别了可能污染物实例时由系统生成的显示的样本截屏图；以及

图5是没有污染物实例的示例的截屏图。

具体实施方式

参考图3，在分类系统中有i个实例，每个实例是从好的或坏的样本图像中导出的特征向量。图3的方法识别了可能的污染物实例。

依次对于每个实例i，从分类系统的数据集中移除该实例。在移除实例的同时，系统构建k最近邻居置信度分类器(k-nearest neighbourconfidence classifier)。其随后利用在前一步骤中构建的分类器对特定实例i进行分类。该分类导致查询实例的预测分类和该预测的置信度，该置信度是基于查询实例与其最近邻居的相似度的。

在下一步中，系统将最初分配给实例的分类与在前一步骤中确定的分类相比较。

如果预测分类与最初分配给实例的分类相匹配，则将置信度值与预定阈值相比较。如果超过阈值，则实例是可信的，并且被返回到数据集。如果置信度值低于阈值，则实例在返回到数据集之前被标记为可疑的。

在另一分支中，如果分类不匹配，则倒转置信度值从而使其反映该判决(即，该实例是污染物)的置信度。该实例在返回到数据集之前被标记为可疑的。

在处理了所有实例i之后，整个数据集被给予一个等级以指示其污染级别，并且每个特征向量被给予一个等级以指示其是污染物实例的可能性。

一旦检查完成，工具就将其结果以某一方式呈现给用户，该方式使得最有可能是污染物实例的那些特征向量以及提取出这些特征向量的图像被突出显示。显示特征向量所基于的图像使得用户能够确认或否认其状态是污染物实例。可以将污染物实例从数据集中移除，或者可以简单地对其进行重新标记。

在它们被分级后，按等级排序的数据集中所有实例的列表连同提取出这些实例的图像一起被呈现给用户。通过对列表排序，可能是污染物的那些实例会立即引起用户的关注。为了确认或否认实例作为污染物的状态，用户仅仅检查提取出实例中的特征的图像，这些图像紧挨着实例显示。如果实例确实是污染物，则其可被完全从数据集中移除或者被重新分类。

或者，并不需要用户的干预，系统可以自动从数据集中移除所有可疑的污染物实例，如果其被指示这样作的话。

处理数据集中的污染物实例将导致创建更准确的分类器。

对实例分级

更详细地说，各个实例是污染物的可能性是通过执行一系列留一法(leave-one-out)交叉验证(cross validation)来计算的。留一法交叉验证对数据集内的每个实例执行模拟分类。每个实例被用利用所有剩余实例训练的分类器加以分类。所用的分类器是k最近邻居算法的变体，其并不是简单地产生分类，而是产生分类和该分类的置信度。

对数据集分级

数据集内各个实例的等级可被组合在一起，以给出数据集自身的整体等级。许多不同的组合函数可用于此目的，其中各个实例等级的平均是最明显的。

将结果呈现给用户

图4和5中示出了截屏图。在每个截屏图中，屏幕左侧的列表示出了工具考虑要清洁的数据集及其相关联的等级。在图4中，已经选择了以污染物实例为特征的数据集，这导致了显示该数据集中的所有实例以及其关联等级。这些实例显示在两个列表中—一个在屏幕顶部，包含坏的示例，一个在屏幕底部，包含好的示例。在好的示例的列表顶部，一个实例被给予-100的等级，表明其有很强的可能性是污染物实例。这通过列表右侧的图像得以确认，该图像示出了对应于该实例的图像，其中清晰地描绘了不存在的元件。通过突出显示可能的污染，系统允许用户容易地校正该情形，这或者是通过从数据集中完全移除污染物实例而实现的，或者是通过将其重新分类为不存在的元件的示例而实现的。

为了比较，图5示出了相同应用截屏图，其中所选的数据集不包含污染。在该示例中，所有训练实例都被系统给予高的等级，表明数据集是无污染的。

清洁数据集

基于对系统确定可能是污染物的那些实例的检查，用户可以选择采取行动来清洁数据集。污染物实例可被从数据集中删除、被重新分类或被保留—这表明它们事实上不是污染物实例。

自动清洁数据集

不需要人工干预，系统可以自动从数据集中移除所有可疑的污染物实例。尽管这会具有清洁数据集的效果，但是也有可能移除某些有效实例，这些有效实例被错误地怀疑为污染物。

本发明并不限于上述实施例，而是可在结构和细节上变化。

Claims

1.一种包括基于参考样本的多个训练特征向量实例的分类系统，其中所述系统包括污染物识别装置，所述污染物识别装置用于自动生成关于实例是否是来源于误标记的参考样本的污染物实例的指示。

2.如权利要求1所述的分类系统，其中所述污染物识别装置包括用于执行以下步骤的装置：

用于从实例集中移除实例的装置，

用于从剩余实例构建分类器的装置，以及

用于利用所述分类器来对所述实例分类的装置。

3.如权利要求2所述的分类系统，其中所述污染物识别装置可操作以用于生成置信度值，所述置信度值代表所述实例被分类为污染物或非污染物的置信度。

4.如权利要求3所述的分类系统，其中所述分类器可操作以用于生成所述置信度值。

5.如权利要求4所述的分类系统，其中所述分类器是k最近邻居分类器。

6.如权利要求4或5所述的分类系统，其中所述污染物识别装置包括用于在确定所述实例的原始分类是不正确的情况下倒转所述置信度值的装置。

7.如任何一个在先权利要求所述的分类系统，其中所述污染物识别装置可操作以用于重复用于依次对每个实例生成关于该实例是污染物的可能性的指示的过程。

8.如权利要求7所述的分类系统，其中所述实例是根据所述过程的结果被加上标签的。

9.如任何一个在先权利要求所述的分类系统，其中所述系统包括交互式工具，所述交互式工具用于：

生成与被识别为可能是污染物的实例有关的数据显示；以及

提示用户输入实例状态的确认。

10.如权利要求9所述的分类系统，其中所述交互式工具可操作以用于自动显示用于被识别为可能污染物的实例的参考样本的图像。

11.如权利要求10所述的分类系统，其中所述工具可操作以用于在所述实例数据的一旁显示所述图像。

12.如任何一个在先权利要求所述的分类系统，其中所述实例是用于电路板的。

13.一种用于检查电路板的机器视觉系统，所述系统包括如任何一个在先权利要求所述的分类系统。