CN112598017A

CN112598017A - 用于对产品进行分类的系统和方法

Info

Publication number: CN112598017A
Application number: CN202011039099.8A
Authority: CN
Inventors: 李章焕
Original assignee: Samsung Display Co Ltd
Current assignee: Samsung Display Co Ltd
Priority date: 2019-10-01
Filing date: 2020-09-28
Publication date: 2021-04-02
Also published as: JP2021057042A; US20230316084A1; US11710045B2; KR20210039927A; EP3800588A1; US20210097400A1; TW202129528A

Abstract

一种用于对产品进行分类的系统和方法。处理器生成第一分类器的第一实例和第二实例，并且基于输入数据集训练实例。基于输入来训练第二分类器，其中第二分类器被配置成学习与输入相关联的隐空间的表示。在隐空间中生成第一补充数据集，其中第一补充数据集是未标记的数据集。基于第一分类器的第一实例生成用于标记第一补充数据集的第一预测；并且基于第一分类器的第二实例生成用于标记第一补充数据集的第二预测。基于第一预测和第二预测生成第一补充数据集的标记注释。至少基于输入数据集和注释的第一补充数据集来训练第三分类器。

Description

用于对产品进行分类的系统和方法

相关申请的交叉引用

本申请要求于2019年10月1日提交的，名称为“针对数据不足的知识蒸馏(KNOWLEDGE DISTILLATION FOR DATA INSUFFICENCECY)”的美国临时申请第62/909,053号的优先权和权益，其全部内容通过引用并入本文。

技术领域

根据本公开的实施例的一个或多个方面涉及分类器，并且更具体地涉及用于在可用的训练数据少且不平衡的情况下训练机器学习(ML)分类器的系统和方法。

背景技术

近年来，移动显示行业迅速发展。随着新的类型的显示面板模块和生产方法的部署，仅使用传统机制已经越来越难以检查表面缺陷。期望采用人工智能(AI)来自动预测所制造的显示面板模块是否有瑕疵(例如，被分类为“不良”或“良”)。实际上，期望使用AI来预测其他硬件产品而不仅仅是显示面板模块中的缺陷。

能被推广到新的以前从未见过的数据的AI/ML(人工智能/机器学习)模型(被称为“广义ML模型”)将适合此类任务。然而，当训练数据集不足且高度不平衡时，很难生成广义ML模型。由于制造数据集的性质，数据集的不足和类不平衡是不可避免的问题，并且生成广义机器学习模型是一项艰巨的任务。

因此，需要一种改进的系统和方法，用于从可能在二元类上不平衡的有限训练数据量稳步且稳定地构建AI/ML模型。

发明内容

本公开的实施例针对一种对经由制造过程制造的产品进行分类的方法。处理器接收输入数据集，生成第一分类器的至少第一实例和第二实例，并且基于输入数据集来训练第一分类器的第一实例和第二实例。还基于输入数据集来训练第二分类器，其中，第二分类器被配置成学习与输入数据集相关联的隐空间的表示。处理器进一步在隐空间中生成第一补充数据集，其中，第一补充数据集是未标记的数据集。处理器基于第一分类器的第一实例生成用于标记第一补充数据集的第一预测，并且基于第一分类器的第二实例进一步生成用于标记第一补充数据集的第二预测。处理器基于第一预测和第二预测生成第一补充数据集的标记注释。处理器至少基于输入数据集和注释的第一补充数据集进一步训练第三分类器。所训练的第三分类器被配置成接收待分类的产品的数据，以基于所接收的数据而输出对产品的预测。

在一个实施例中，第一分类器、第二分类器和第三分类器中的每一个是神经网络。

在一个实施例中，第二分类器是变分自编码器。

在一个实施例中，隐空间提供输入数据集的压缩表示。

在一个实施例中，第一补充数据集的生成包括在隐空间中生成随机数据元素。

在一个实施例中，标记注释的生成包括：基于第一预测和第二预测来确定多数类；以及基于多数类来标记第一补充数据集。

在一个实施例中，标记注释的生成包括：确定第一预测的第一概率和第二预测的第二概率；计算第一概率和第二概率的平均值；以及基于所计算的平均值，识别第一补充数据集的类。

在一个实施例中，标记注释的生成包括：基于第一预测，确定多数类的第一概率和少数类的第二概率；基于第二预测，确定多数类的第三概率和少数类的第四概率；计算第一概率和第三概率的第一平均值；计算第二概率和第四概率的第二平均值；以及基于所计算的第一平均值和第二平均值来标记第一补充数据集。

在一个实施例中，用于对产品进行分类的方法进一步包括：基于对隐空间的过采样来生成第二补充数据集；以及基于输入数据集、注释的第一补充数据集和第二补充数据集来训练第三分类器。

本公开的实施例还针对一种对经由制造过程制造的产品进行分类的系统。该系统包括处理器和存储器，其中存储器中存储有指令，当该指令由处理器执行时，使处理器：接收输入数据集；生成第一分类器的至少第一实例和第二实例；基于输入数据集训练第一分类器的第一实例和第二实例；基于输入数据集训练第二分类器，其中，第二分类器被配置成学习与输入数据集相关联的隐空间的表示；在隐空间中生成第一补充数据集，其中，第一补充数据集是未标记的数据集；基于第一分类器的第一实例生成用于标记第一补充数据集的第一预测；基于第一分类器的第二实例生成用于标记第一补充数据集的第二预测；基于第一预测和第二预测生成第一补充数据集的标记注释；并且至少基于输入数据集和注释的第一补充数据集来训练第三分类器。所训练的第三分类器被配置成接收待分类的产品的数据，以基于所接收的数据而输出对产品的预测。

本公开的实施例进一步针对一种用于将制造的零件分类为良品或次品的系统。该系统包括被配置成收集输入数据集的数据收集电路；以及耦接到数据收集电路的处理电路。处理电路具有逻辑，用于：接收所收集的输入数据集；生成第一分类器的至少第一实例和第二实例；基于输入数据集训练第一分类器的第一实例和第二实例；基于输入数据集训练第二分类器，其中，第二分类器被配置成学习与输入数据集相关联的隐空间的表示；在隐空间中生成第一补充数据集，其中，第一补充数据集是未标记的数据集；基于第一分类器的第一实例生成用于标记第一补充数据集的第一预测；基于第一分类器的第二实例生成用于标记第一补充数据集的第二预测；基于第一预测和第二预测生成第一补充数据集的标记注释；并且至少基于输入数据集和注释的第一补充数据集来训练第三分类器，其中，所训练的第三分类器被配置成接收待分类的产品的数据，以基于所接收的数据而输出对产品的预测。

附图说明

参照说明书、权利要求书和附图，将了解和理解本公开的这些和其他特征和优点，附图中：

图1是根据一个示例性实施例的用于将零件分类为有瑕疵或没有瑕疵的系统；

图2是根据一个示例性实施例的图1的系统中的分类器引擎的概念性框图；

图3是根据一个示例性实施例的由图2的分类器引擎执行的用于生成和训练学生模型的过程的流程图；

图4是根据一个示例性实施例的图1的系统中的变分自编码器的更详细的框图；

图5是根据一个示例性实施例的用于隐空间过采样的过程的更详细的流程图；

图6A是可用于训练深度学习模型的示例输入数据集的分布的图；

图6B至图6E是基于图6A的输入数据集产生不同决策边界的多个分类器实例的示例图；

图7A是利用附加样本进行了扩充的示例输入数据集的分布的图；并且

图7B描绘了基于图7A的扩充的训练数据集产生不同决策边界的多个分类器实例的图。

具体实施方式

下面结合附图阐述的详细描述旨在作为根据本公开提供的用于数据扩充的系统和方法的示例性实施例的描述，而并非旨在表示可以构造或利用本公开的唯一形式。描述结合所图示的实施例阐述了本公开的特征。然而，应当理解，相同或等同的功能和结构可以通过不同的实施例来实现，这些不同的实施例也旨在被涵盖在本公开的范围内。如本文中其他地方所指示的，相同的附图标记旨在指示相同的元件或特征。

诸如移动显示器制造过程的制造过程可能获取移动显示产品的制造期间的数字跟踪数据。尽管使用移动显示产品作为示例，但是本领域技术人员应该认识到，本公开的实施例可以应用于其他玻璃和非玻璃产品的制造过程，包括例如晶片和半导体玻璃的制造。

跟踪数据经由一个或多个传感器收集，这些传感器可以被放置在例如在生产期间运载产品的传送带上。传感器被配置成将任何感测到的活动记录为跟踪数据。传感器可以是例如被配置成捕获制造过程中的随时间而变化的温度和压力的测量值的多个温度和压力传感器。每个传感器可以被采样多次(例如，每隔几秒钟在腔室中的待制造的玻璃或晶片上方进行采样)。

期望使用分类器来自动地分析跟踪数据，以从没有瑕疵(“良”)的产品预测所制造的有瑕疵(“不良”)的产品。因此，需要对分类器进行训练，以将数据样本分配到两个类(“良”和“不良”)中的一个。然而，用于训练这种分类器的训练数据可能存在很大的不平衡。例如，在用于制造电子零件的制造过程中，可能零件中的大多数是可接受的或“良”，并且零件中的少数在某种程度上是有缺陷的或“不良”。“良”零件的数量可能比坏零件的数量多100到200倍的范围。为此，当在制造和测试过程期间获得数据时，大多数数据可能来自良设备，从而导致训练数据的不平衡。此外，由于产品模型的快速改变，通常也很难指望有足够的数据集来训练深度学习模型。产品模型的寿命很短，因此很难采集到足够的数据样本。通常还需要为新产品模型生成新的AI/ML模型，以检测新产品模型的瑕疵情况。因此，利用有限的数据集生成广义模型是一个普遍的挑战。

存在可用于人为地扩展训练数据集的大小的数据扩充技术。一种技术可以是例如生成所有可能的数据样本案例以用作训练数据。然而，考虑所有可能的案例会生成太大的数据集。另外，尽管可以扩展样本，但它们在训练模型时可能并非全部有意义。

经常用于视觉识别/图像分类的另一种技术是数据蒸馏。数据蒸馏是用于全方位监督学习的一般方法，该方法通过生成未标记数据的注释来从未标记数据中蒸馏知识。使用在大量的标记数据上训练的模型来生成注释。然后，使用额外生成的注释对模型进行重新训练。可以经由标记数据的几何/空间变换(例如，翻转、移位和/或旋转)来生成额外的未标记数据。Ilija Radosavovic等人在计算机视觉和模式识别(Computer Vision andPattern Recognition)(2018)中的“数据蒸馏：迈向全方位监督学习(Data Distillation:Towards Omni-Supervised Learning)”(在https://arxiv.org/abs/1712.04440可获得)中提供了关于数据蒸馏的附加信息，该文章的内容通过引用并入本文。

然而，通常用于扩充数据以进行图像分类的几何变换不适用于跟踪数据，因为无法知道哪些变换将允许在变换被应用后保持输入数据的特性。另外，对于缺陷样本，通常在制造任务和缺陷图案生成之间存在相关性，因此通过应用已知的数据扩充技术不能保证提高分类器的质量。因此，传统的数据扩充技术不适于为训练目的而扩展缺陷或跟踪数据。数据蒸馏建议使用Internet级数据集中的未标记数据集，但是无法在Internet上找到特定公司的制造数据集的相似数据样本。

考虑到现有技术中的缺陷，期望的是一种用于全方位监督学习方法的系统和方法，该系统和方法用于生成解决标记数据集中的数据不足和类不平衡问题的广义ML模型。根据各种实施例，经由使用深度生成模型的数据扩充来解决输入数据集的不足和类不平衡。具体地，在流形(隐)空间而不是输入数据空间中执行数据扩充。

另外，由于生成广义AI/ML模型中的主要问题之一是数据集不足，因此可以通过使用深度生成模型数据生成来将更多变化融合到数据集中来解决该问题。在一些实施例中，扩充/补充的数据是使用随机输入从隐空间生成的未标记数据集。在一些实施例中，扩充的数据由从隐空间过采样所获得的合成数据样本组成。

根据一个实施例，从基线机器学习模型的多个实例蒸馏知识，以注释未标记数据集并生成新的注释的数据集。通过将未标记数据集馈送到训练的ML模型的多个实例中的每一个，可以蒸馏来自多个实例的知识。然后，可以使用集成机制基于ML模型实例中的每一个的输出来标记未标记数据。因此，可以从数据密度较小的模型(例如各个ML模型实例)实现知识蒸馏，同时推广ML模型以实现比单独的传统模型更好的分类准确性。一旦训练后，广义ML模型即可用于预测制造过程导致的瑕疵零件。

图1是根据一个示例性实施例的用于将零件分类为有瑕疵或没有瑕疵的系统。在一些实施例中，该系统包括一个或多个数据收集电路105(其可以包括例如温度和压力传感器、放大器和/或模数转换器)、数据预处理电路110(其可以重新格式化数据，如后面进一步详细讨论的)以及分类器引擎115(其可以生成深度学习(DL)神经网络)。

数据预处理电路110可以从数据收集电路105接收原跟踪数据(例如，如上所提到的多个时间跟踪)，并且可以将数据重整成例如二维阵列(例如，224×224阵列)。在一个实施例中，数据预处理电路110包括用于存储原跟踪数据的一个或多个数据存储设备。可以将二维阵列的大小选择为可与通常由神经网络进行分类的图像的大小相当。然后，重整可以使得有可能再利用用于实现图像的神经网络分类器的代码的特定部分，以在一些实施例中使用。

重整的输入数据被提供到分类器引擎115用于经由DL神经网络进行训练或做出预测。在这方面，分类器引擎115可以被配置有存储在一个或多个有形的机器可读介质上的逻辑或指令，该逻辑或指令可以由一个或多个处理设备执行，用于经由DL神经网络生成、训练和执行预测。

图2是根据一个示例性实施例的分类器引擎115的概念性框图。在训练期间，从预处理电路110接收标记的输入数据集200。标记的输入数据集200包括均标记为“良”(或“G”)的第一数量的数据样本(例如，几千个数据元素)以及均标记为“不良”(或“NG”)的第二数量的数据样本(例如，在10个至100个数据元素之间)。

标记的输入数据集200用于训练分类器，该分类器可以是深度学习神经网络，诸如例如变分自编码器(VAE)202。尽管使用VAE作为示例，但是本领域技术人员应该认识到，可以使用其他深度生成模型(诸如例如对抗生成网络(GAN)或自回归模型等)来代替VAE。在采用VAE的实施例中，VAE 202被配置成学习输入数据集200的隐/隐藏/流形空间表示。一般而言，隐空间由隐向量组成，隐向量是输入数据集200的更简单/压缩(例如，较小的维度)的表示。

在一些实施例中，调用训练的VAE 202用于以统计方式生成附加训练数据(也被称为合成数据样本)。在这方面，VAE 202可以耦接到过采样模块204和随机生成模块206。可以调用过采样模块204用于对由VAE 202学习到的隐空间进行过采样，以生成附加“不良”样本。可以调用随机生成模块206用于使用随机输入在隐空间中生成补充样本。根据一个实施例，随机生成的数据样本是未标记的数据样本。

在一个实施例中，分类器引擎115还被配置成创建二元基线分类器的多个(例如，两个或更多个)分类器实例208a至208c(被统称为208)。每个分类器实例208可以是例如神经网络。

来自随机生成模块206的随机生成的数据样本被提供到不同分类器实例208中的每一个，以进行知识蒸馏。在这方面，来自分类器实例208的关于随机生成的数据样本的预测的集成被用于训练学生分类器/模型210。即，由不同分类器实例208进行的预测的汇总生成可以被蒸馏并用于训练学生分类器210的新知识。

在一个实施例中，除了从分类器实例208蒸馏的知识之外，还使用原始标记的输入数据集200和/或来自过采样模块204的附加样本来训练学生分类器210。一旦训练后，就可以将针对新制造的产品获得的新跟踪数据馈送到学生分类器210，以预测该产品是“良”还是“不良”。在一个实施例中，训练的学生分类器210可以由检测系统(未示出)使用以对新制造的产品进行这种类型的预测。在一个实施例中，如果产品被预测为“不良”，则检测系统可以输出关于待采取的动作的消息或推荐。例如，该动作可以是将有瑕疵的产品移除，以进行进一步的测试、固定或丢弃。实验表明，对于新的跟踪数据，训练的学生模型210将稳定地且在分类准确性(例如90％或更高的准确性)的阈值水平内运行。

图3是根据一个示例性实施例的由分类器引擎115执行的用于生成和训练学生模型210的过程的流程图。在框300中，由分类器引擎115接收标记的输入数据集200。

在框302中，使用输入数据集200来训练(例如，使用监督学习)基线分类器的两个或更多个分类器实例208。每个分类器实例208可以通过将基线分类器初始化成随机初始状态来生成。例如，基线分类器的初始权重可以在初始化时被随机设置。通过训练单个模型的实例，而不是训练通常又大又复杂的分离且独立的模型，可以导致更方便且更经济的训练(就计算资源而言)。

在框308中，在框300中接收的输入数据集200也用于训练VAE 202。在一个实施例中，VAE 202被训练为学习隐空间中的输入数据集200的表示。一旦训练后，VAE 202即可用于在框310和框314中生成扩充的数据。在这方面，在框310中，分类器引擎115调用训练的VAE模型以在隐空间中生成额外的补充未标记数据样本(有时简称为额外的数据集)312。可以使用例如随机输入来生成额外的数据样本。

在框304a至框304c中，分类器实例208中的每一个接收额外的补充未标记数据样本312，并且针对接收到的样本生成预测。

在框306中，来自不同分类器实例208的预测结果的集成被用于针对额外的补充未标记数据样本312生成注释，并生成注释的数据集316。以这种方式，可以将通过调用每个分类器实例208获得的知识蒸馏到学生分类器210中。考虑不同分类器实例208的预测的汇总有助于减少训练的学生模型210的错误，即使各个分类器实例208中的每一个在被独立考虑时可能容易出错。因此，可能期望使用集成机制来稳定地实现训练的学生模型210的稳定性。

可以使用各种集成方法中的一种来生成额外的数据集312的注释。这种集成方法包括但不限于硬投票、软投票和知识蒸馏。基于硬投票集成的方法采用分类器实例208的多数的预测，并基于多数决策来标记额外的数据集。例如，如果分类器实例A 208a和分类器实例B 208b对于特定数据样本预测“良”类，并且分类器实例C 208c预测“不良”类，则将数据样本标记在“良”类中。

基于软投票集成的方法采用不同分类器实例208的预测概率的平均值，如下所示：

其中K是分类器实例208的数量。

例如，如果分类器实例A 208a预测“良”的概率为99％，分类器实例B 208b预测“良”的概率为49％，并且分类器实例C 208c预测“良”的概率为49％，则在不同分类器实例208中数据样本为“良”的平均概率为(99％+49％+49％)/3＝65.67％。因此，数据样本的集成决策是“良”。

基于知识蒸馏的集成方法采用了模型的多个实例的平均概率，不仅考虑多数类(例如“良”)，还考虑少数类(例如“不良”)。在这方面，输出多数类和少数类的平均概率作为数据的集成决策。在一些实施例中，知识蒸馏可以延伸到多个类模型。在这样的实施例中，可以在多个类的模型的多个实例上获得平均概率。

根据一个实施例，在框314中，分类器引擎115还生成用于训练学生模型210的额外数据样本。在这方面，应用过采样算法来生成少数类(例如“不良”类)中的额外的数据样本，以产生过采样数据集318。在一个实施例中，过采样是来自VAE隐空间而不是原始空间或其他隐空间。

在框320中，分类器引擎115使用以下各项来训练学生分类器210：i)原始输入数据集200；ii)注释的数据集316；和/或iii)过采样数据集318。然后，训练的学生分类器210可以用作二项式分类器，以基于针对产品而获取的新跟踪数据将新制造的产品分类为例如“良”或“不良”。

图4是根据一个示例性实施例的VAE 202的更详细的框图。一般而言，VAE202是可以包括编码器网络(简称为“编码器”)400和解码器网络(简称为“解码器”)402的神经网络。编码器400可以将每个接收到的数据元素(诸如，输入数据集200)映射或编码成隐向量404，隐向量404受到以下约束：隐向量404具有近似于单位高斯分布(即，近似于向量的元素是例如均具有均值和方差的独立高斯分布的向量分布)的分布。在这方面，VAE 202采用均值向量406和标准偏差向量408，以将每个接收到的数据元素编码成隐向量404。如本领域技术人员应该理解的，隐向量404是输入数据集200的压缩的低维表示。所有隐向量404的空间可以被称为隐空间。

解码器402可以执行编码器400的操作的近似逆操作；它可以将编码器400所产生的每个隐向量404映射成与编码器400会将其映射为隐向量404的(合成)数据元素近似的数据元素。编码器400和解码器402可以使用输入数据集200一起被训练。

一旦编码器400和解码器402经训练，就可以调用框310(图3)在隐空间中生成补充数据。例如，可以对隐空间进行随机采样以生成随机向量(被生成为具有单位高斯分布)，该随机向量可以被馈送到解码器402中以生成合成数据元素(例如，以生成额外的数据集312)。由于使用来自两个类的数据元素(即，利用“良”数据元素和“不良”数据元素两者)来训练VAE 202，因此额外的数据集312未被标记。

图5是根据一个示例性实施例的用于隐空间过采样的框314(图3)的过程的更详细的流程图。在框500中，通过在框308中训练VAE模型而获得的隐空间数据集被输入到过采样模块502。在一个实施例中，过采样模块502被配置成从少数类(“不良”类)中的实例对属性进行采样以生成合成样本(例如，过采样数据集318)。与使用原始输入数据集来增加原始输入数据集中的少数类的传统过采样不同，本公开的实施例允许从学习的隐空间增加少数类数据。

可以使用诸如SMOTE(合成少数类过采样技术)或ADASYN(自适应合成)过采样等算法来实现过采样。一般而言，SMOTE是从少数类创建合成样本而不是创建副本的过采样方法。根据一个实施例，该算法在隐空间中(使用距离测量)选择两个或更多个相似实例，并且以与相邻实例的差之内的随机量，一次一个属性地对实例进行摄动。

ADASYN可以通过向其添加一个小的随机向量(或“偏移”)来偏移所产生的数据元素中的每一个，以降低来自少数类的合成样本可能干扰其他类(例如可能是“良”类的多数类)的可能性。

在框504中，输出隐空间中的过采样数据集318。

图6A是可用于训练深度学习模型的示例输入数据集(类似于输入数据集200)的分布的图。在图6A的示例中，输入数据集200是小的，并且由标记为“良”的数据600和标记为“不良”的数据602组成。

图6B至图6E是基于图6A的输入数据集200产生不同决策边界604a至604d的多个分类器实例(例如，分类器实例208)的示例图。在一个示例中，变化的决策边界是输入的训练数据很小的结果。由于决策边界604a至604d的变化，预计模型中的每一个会对将来的数据做出不同的分类决策。

图7A是根据本公开的各种实施例的数据扩充机制利用附加训练数据700进行了扩充的示例输入数据集(类似于图6A的示例数据集)的分布的图。由于输入数据集200很小，因此附加样本有助于填补输入数据中的空白。经由以上所述的使用深度生成模型的数据扩充机制来生成附加样本。

图7B描绘了基于图7A的扩充的训练数据集产生不同决策边界704a至704c的多个分类器实例(例如，分类器实例208)的图。如图7B中所描绘的，尽管输入数据中的空白被附加样本700填充，但是多个分类器实例中的每一个仍然倾向于产生不同的决策边界704a至704c。然而，如经由箭头706a至706c所示的，当应用来自多个分类器实例的知识蒸馏时，与各个模型实例中的每一个相比学生分类器可以识别更稳定且更准确的新决策边界704d。

实验表明，通过应用来自模型实例的知识蒸馏，可以在不了解完整测试数据集的情况下稳步且稳定地生成广义ML模型。例如，各个模型实例中的一些对于“不良”数据的验证准确性低至80％。然而，使用本公开的实施例的数据扩充和知识蒸馏机制生成的广义ML模型对于“不良”数据生成90％或更高的验证准确性。

在一些实施例中，以一个或多个处理电路实现上面讨论的数据预处理电路110、分类器引擎115以及各种模块和模型/分类器中的一个或多个。本文使用术语“处理电路”意指用于处理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)以及诸如现场可编程门阵列(FPGA)的可编程逻辑设备。在本文所使用的处理电路中，每个功能都可以通过被配置(即硬连线)成执行该功能的硬件来执行，或者通过被配置成执行存储在非暂时性存储介质中的指令的更通用的硬件(诸如，CPU)来执行。处理电路可以被制造在单个印刷电路板(PCB)上，也可以被分布在几个互连的PCB上。处理电路可以包含其他处理电路；例如，处理电路可以包括互连在PCB上的两个处理电路(FPGA和CPU)。

将理解的是，尽管术语“第一”、“第二”、“第三”等在本文中可用于描述各种元件、部件、区域、层和/或部分，但是这些元件、部件、区域、层和/或部分不应受这些术语的限制。这些术语仅用于将一个元件、部件、区域、层或部分与另一元件、部件、区域、层或部分区分开。因此，本文中所讨论的第一元件、部件、区域、层或部分可以被称为第二元件、部件、区域、层或部分，而不脱离本发明构思的精神和范围。

本文中使用的术语仅出于描述特定实施例的目的，并且不旨在限制本发明构思。如本文中所使用的，术语“基本上”、“大约”和类似术语被用作近似术语而不是程度术语，并且旨在考虑本领域普通技术人员将认识到的测量或计算的值的固有偏差。

如本文中所使用的，除非上下文另外明确指示，否则单数形式“一”也旨在包括复数形式。将进一步理解的是，术语“包含”和/或“包括”当在本说明书中使用时，指定了所陈述的特征、整体、步骤、操作、元件和/或部件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组的存在或添加。如本文中所使用的，术语“和/或”包括一个或多个相关联的列出的项目的任何和所有组合。诸如“…中的至少一个”的表达在一列元件之后时修饰整列元件，而不修饰该列的个别元件。进一步，当描述本发明构思的实施例时，“可以”的使用是指“本公开的一个或多个实施例”。另外，术语“示例性”旨在指示例或图示。如本文中所使用的，术语“使用(use)”、“在使用(using)”和“使用的(used)”可以分别被认为与术语“利用(utilize)”、“在利用(utilizing)”和“利用的(utilized)”同义。

将理解的是，当一元件或层被称为在另一元件或层“上”、“连接到”、“耦接到”或“邻近于”另一元件或层时，它可以直接在另一元件或层上、直接连接到、耦接到或邻近于另一元件或层，或者可以存在一个或多个中间元件或层。相反，当一元件或层被称为“直接在”另一元件或层“上”、“直接连接到”、“直接耦接到”或“紧邻”另一元件或层时，则不存在中间元件或层。

本文中记载的任何数值范围旨在包括包含在所记载的范围内的相同数值精度的所有子范围。例如，“1.0到10.0”的范围旨在包括所记载的最小值1.0和所记载的最大值10.0之间(并且包括所记载的最小值1.0和所记载的最大值10.0)的所有子范围，即具有等于或大于1.0的最小值并且等于或小于10.0的最大值的所有子范围，例如2.4至7.6。本文中记载的任何最大数值限制旨在包括其中包含的所有较低数值限制，并且本说明书中记载的任何最小数值限制旨在包括其中包含的所有较高数值限制。

尽管本文已经具体地描述和图示了用于模型实例的知识蒸馏的系统和方法的示例性实施例，但是许多修改和变化对于本领域技术人员而言将是显而易见的。因此，应当理解，可以以除了本文具体描述的以外的体现方式来体现根据本公开的原理构造的用于知识蒸馏的系统和方法。本公开也在所附权利要求及其等同物中限定。

Claims

1.一种用于对经由制造过程制造的产品进行分类的方法，所述方法包括：

由处理器接收输入数据集；

由所述处理器生成第一分类器的至少第一实例和第二实例；

由所述处理器基于所述输入数据集训练所述第一分类器的所述第一实例和所述第二实例；

由所述处理器基于所述输入数据集训练第二分类器，其中，所述第二分类器被配置成学习与所述输入数据集相关联的隐空间的表示；

由所述处理器在所述隐空间中生成第一补充数据集，其中，所述第一补充数据集是未标记的数据集；

由所述处理器基于所述第一分类器的所述第一实例生成用于标记所述第一补充数据集的第一预测；

由所述处理器基于所述第一分类器的所述第二实例生成用于标记所述第一补充数据集的第二预测；

由所述处理器基于所述第一预测和所述第二预测生成所述第一补充数据集的标记注释；以及

由所述处理器至少基于所述输入数据集和注释的所述第一补充数据集来训练第三分类器，其中，所训练的所述第三分类器被配置成接收待分类的产品的数据，以基于所接收的数据而输出对所述产品的预测。

2.根据权利要求1所述的方法，其中，所述第一分类器、所述第二分类器和所述第三分类器中的每一个是神经网络。

3.根据权利要求2所述的方法，其中，所述第二分类器是变分自编码器。

4.根据权利要求1所述的方法，其中，所述隐空间提供所述输入数据集的压缩表示。

5.根据权利要求1所述的方法，其中，所述第一补充数据集的所述生成包括在所述隐空间中生成随机数据元素。

6.根据权利要求1所述的方法，其中，所述标记注释的所述生成包括：

基于所述第一预测和所述第二预测确定多数类；以及

基于所述多数类来标记所述第一补充数据集。

7.根据权利要求1所述的方法，其中，所述标记注释的所述生成包括：

确定所述第一预测的第一概率和所述第二预测的第二概率；

计算所述第一概率和所述第二概率的平均值；以及

基于所计算的所述平均值，识别所述第一补充数据集的类。

8.根据权利要求1所述的方法，其中，所述标记注释的所述生成包括：

基于所述第一预测，确定多数类的第一概率和少数类的第二概率；

基于所述第二预测，确定所述多数类的第三概率和所述少数类的第四概率；

计算所述第一概率和所述第三概率的第一平均值；

计算所述第二概率和所述第四概率的第二平均值；以及

基于所计算的所述第一平均值和所述第二平均值来标记所述第一补充数据集。

9.根据权利要求1所述的方法，进一步包括：

基于对所述隐空间的过采样来生成第二补充数据集；以及

基于所述输入数据集、注释的所述第一补充数据集和所述第二补充数据集来训练所述第三分类器。

10.一种用于对经由制造过程制造的产品进行分类的系统，所述系统包括：

处理器；以及

存储器，其中所述存储器中存储有指令，当所述指令由所述处理器执行时，使所述处理器：

接收输入数据集；

生成第一分类器的至少第一实例和第二实例；

基于所述输入数据集训练所述第一分类器的所述第一实例和所述第二实例；

基于所述输入数据集训练第二分类器，其中，所述第二分类器被配置成学习与所述输入数据集相关联的隐空间的表示；

在所述隐空间中生成第一补充数据集，其中，所述第一补充数据集是未标记的数据集；

基于所述第一分类器的所述第一实例生成用于标记所述第一补充数据集的第一预测；

基于所述第一分类器的所述第二实例生成用于标记所述第一补充数据集的第二预测；

基于所述第一预测和所述第二预测生成所述第一补充数据集的标记注释；并且

至少基于所述输入数据集和注释的所述第一补充数据集来训练第三分类器，其中，所训练的所述第三分类器被配置成接收待分类的产品的数据，以基于所接收的数据而输出对所述产品的预测。

11.根据权利要求10所述的系统，其中，所述第一分类器、所述第二分类器和所述第三分类器中的每一个是神经网络。

12.根据权利要求11所述的系统，其中，所述第二分类器是变分自编码器。

13.根据权利要求10所述的系统，其中，所述隐空间提供所述输入数据集的压缩表示。

14.根据权利要求10所述的系统，其中，使所述处理器生成所述第一补充数据集的所述指令包括：使所述处理器在所述隐空间中生成随机数据元素的指令。

15.根据权利要求10所述的系统，其中，使所述处理器生成所述标记注释的所述指令包括使所述处理器执行以下操作的指令：

基于所述第一预测和所述第二预测确定多数类；并且

基于所述多数类来标记所述第一补充数据集。

16.根据权利要求10所述的系统，其中，使所述处理器生成所述标记注释的所述指令包括使所述处理器执行以下操作的指令：

确定所述第一预测的第一概率和所述第二预测的第二概率；

计算所述第一概率和所述第二概率的平均值；并且

基于所计算的所述平均值，识别所述第一补充数据集的类。

17.根据权利要求10所述的系统，其中，使所述处理器生成所述标记注释的所述指令包括使所述处理器执行以下操作的指令：

计算所述第一概率和所述第三概率的第一平均值；

计算所述第二概率和所述第四概率的第二平均值；并且

18.根据权利要求10所述的系统，其中，所述指令进一步使所述处理器执行以下操作：

基于对所述隐空间的过采样生成第二补充数据集；并且

19.一种用于将制造的零件分类为良品或次品的系统，所述系统包括：

数据收集电路，被配置成收集输入数据集；和

处理电路，耦接到所述数据收集电路，所述处理电路具有逻辑，用于：

接收所收集的输入数据集；

生成第一分类器的至少第一实例和第二实例；