CN115812210A - 用于增强机器学习分类任务的性能的方法和设备 - Google Patents

用于增强机器学习分类任务的性能的方法和设备 Download PDF

Info

Publication number
CN115812210A
CN115812210A CN202080102954.7A CN202080102954A CN115812210A CN 115812210 A CN115812210 A CN 115812210A CN 202080102954 A CN202080102954 A CN 202080102954A CN 115812210 A CN115812210 A CN 115812210A
Authority
CN
China
Prior art keywords
classification model
model
feature extractor
prediction
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080102954.7A
Other languages
English (en)
Inventor
李想
阿维那什·库马尔
拉尔夫·格罗斯
王晓峰
马蒂亚斯·洛斯克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN115812210A publication Critical patent/CN115812210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

描述用于增强机器学习分类任务的性能的技术。根据本公开的方面的方法包括:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中所述第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供所述生产数据作为所述输入,其中所述第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于所述第一ML分类模型和所述第二ML分类模型的权重计算所述第一预测和所述第二预测的加权和来确定所述生产数据的预测结果。

Description

用于增强机器学习分类任务的性能的方法和设备
背景技术
作为人工智能(AI)的子集的机器学习(ML)涉及计算机从数据中学习以做出预测或决策,而无需明确地编程为如此执行,并且近年来随着强大的计算能力的大幅增加、先进算法和模型的发展以及大数据的可用性,机器学习正经历着巨大的增长。分类是应用机器学习技术的最常见任务中的一个,并且如今各种机器学习分类模型正用于各种应用中,甚至用于工业部门。例如,分类模型的使用极大地提高质量检查、过程控制、异常检测等许多操作的效率,从而促进工业自动化的快速发展。
发明内容
提供此概述以通过简化形式引入下文在具体实施方式中进一步描述的概念选择。此概述不旨在识别所要求保护的主题的任何关键特征或必要特征,也不旨在用作确定所要求保护的主题的范围的辅助手段。
根据本公开的实施例,提供一种用于增强机器学习分类任务的性能的方法,所述方法包括:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
根据本公开的另一实施例,提供一种计算装置,所述计算装置包括:用于存储指令的存储器;以及耦合到存储器的一个或多个处理单元,其中所述指令在由一个或多个处理单元执行时使一个或多个处理单元:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
根据本公开的另一实施例,提供一种非暂时性计算机可读存储媒体,其上存储有指令,所述指令在一个或多个处理单元上执行时使一个或多个处理单元获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
根据本公开的又另一实施例,提供一种用于增强机器学习分类任务的性能的设备,所述设备包括:用于获得由第一机器学习(ML)分类模型输出的第一预测的构件,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;用于获得由第二ML分类模型输出的第二预测的构件,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及用于通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果的构件。
附图说明
本公开的实施例通过实例的方式而不是通过限制的方式在附图的图式中说明,其中相似的附图标记指代相同或相似的元件并且其中:
图1是根据本公开的一些实施例的示例性性能变化曲线图;
图2A和2B说明根据本公开的一些实施例的机器学习分类模型的示例性高级结构;
图3是根据本公开的一些实施例的示例性方法的流程图;
图4是根据本公开的一些实施例的示例性性能变化曲线图;
图5说明根据本公开的一些实施例的示例性总体过程。
图6是根据本公开的一些实施例的示例性设备的框图;以及
图7是根据本公开的一些实施例的示例性计算装置的框图。
附图标记列表:
310:获得由第一机器学习分类模型输出的第一预测
320:获得由第二机器学习分类模型输出的第二预测
330:通过计算第一和第二预测得加权和来确定预测结果
510:模型训练阶段 520:性能评估阶段
530:模型应用阶段 610-630:模块
710:一个或多个处理单元 720:存储器
具体实施方式
在以下描述中,出于解释的目的阐述许多特定细节。然而,应理解,可以在没有这些特定细节的情况下实践本公开的实施例。在其它情况下,尚未详细示出众所周知的电路、结构和技术以免混淆对本公开的理解。
在整个描述中对“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”、“各种实施例”等的引用指示如此描述的本公开的实施例可以包含特定特征、结构或特性,但不一定每个实施例都包含特定特征、结构或特性。此外,一些实施例可以具有针对其它实施例描述的一些、全部特征或没有特征。
在以下描述和权利要求书中,可以使用术语“耦合”和“连接”以及其衍生词。应理解,这些术语并不意图为彼此的同义语。相反,在特定实施例中,“连接”用于指示两个或更多个元件彼此直接物理或电接触,而“耦合”用于指示两个或更多个元件彼此协作或交互,但它们可能会或可能不会进行直接物理或电接触。
机器学习(ML)分类算法和模型已用于各种应用,包含工业应用。目前,对于大多数分类任务,具有完全连接分类器的机器学习分类模型(在下文中还称为“FC模型”)由于其经过验证的性能和可用性而成为首选选项。此FC模型的典型和非限制性实例是卷积神经网络(CNN),它已经在包含但不限于图像分类的许多分类任务中展示其惊人的性能。
FC模型的一个缺点是FC模型的训练过程通常需要大量的训练数据以实现良好的性能。然而,在大多数情况下,收集的数据量随着对应工业过程的数据收集时间跨度而增长。对于要部署机器学习的工厂,通常工厂在意图启动机器学习项目时才开始收集和存储生产数据。因此,经常发生的情况是,在工业机器学习项目开始时,没有足够的数据量用作训练数据来训练性能良好的FC模型。采用例如孪生神经网络、关系网络和原型网络的小样本学习(FSL)算法来解决这个问题,方法是通过仅使用有限量的数据(每个类可能只有一个样本)提供良好的性能,这是因为它能够通过使用先验知识快速推广到可用样本较少的新任务。
图1是说明根据本公开的一些实施例的FSL模型和FC模型的示例性性能变化曲线的图表,其中竖轴表示性能,而横轴表示用于训练的数据量。在此图中,虚线曲线示出FC模型的性能变化曲线,其中性能随着数据量增加而逐渐提高。相反,当数据量低时,实心曲线展示FSL模型的强度,然而从长远来看,FSL模型具有较低的性能上限。
FSL模型的另一优点是它们对新种类具有灵活性,这意味着可以添加新种类来识别而无需太多努力。例如,对于工厂中的缺陷检测过程,其中使用基于机器学习的图像分类来识别从在生产线上生产/组装的产品的所捕获图像中发现的缺陷的种类,可能存在缺陷种类不固定的情况。替代地,由于工艺的改变、检测能力的提高等,可能会出现一种或多种新类型的缺陷,因此也需要进行识别。因此,FSL模型在这种和类似场景中特别有用。相反,FC模型通常具有固定大小,并且添加新种类以进行识别需要对大数据量进行重新训练,这样耗时且计算成本高。
因此,希望具有一种可以受益于FSL模型和FC模型的解决方案,所述FSL模型在种类数目方面灵活并且在开始时用极少数据提供良好的性能,所述FC模型从长远来看具有较高的性能上限。
图2A和2B说明根据本公开的一些实施例的FC模型和FSL模型的示例性高级结构。机器学习分类模型通常包括特征提取器,之后是分类器。如图2A中所示,示例性FC模型可以包括用于从输入数据提取特征的特征提取器EFC以及用于基于所提取特征预测输入数据的分类的完全连接分类器CFC。此处,作为非限制性实例,输入数据可以指代待识别的图像,但是本公开在此方面不应受限制。对于作为FC模型的典型实例的CNN,可以将网络中的卷积层和池化层的堆栈视为其特征提取器,而通常采用softmax函数作为激活函数的最后一个完全连接层可以视为分类器。“完全连接”意味着层中的所有节点完全连接到前一层中的所有节点,这产生复杂模型来探索节点之间的所有可能连接。因此,在先前层中提取的所有特征合并在完全连接层中。softmax用于将网络的非归一化输出映射到预测的输出种类上的概率分布。
图2B示出示例性FSL模型的高级结构。根据本公开的一些实施例,FSL模型与FC模型之间的主要差异在于下游模块。更具体来说,FSL模型配备有在本文中通过CFSL表示的基于度量的分类器。与FC模型中使用的具有需要通过使用大量训练数据来优化的大量参数的完全连接分类器CFC相比,FSL模型中使用的基于度量的分类器CFSL采用距离、相似度等作为度量,并且很容易添加新的类来识别且可以有效地避免由于训练样本较少而导致的过度拟合,因此基于度量的分类器更适合于小样本学习的学习范式。关于在本文中通过EFSL表示的FSL模型的特征提取器,根据一些实施例,它可以与FC模型具有相同或相似的架构。然而,可以容易地了解,本公开在此方面受限制。
通过参考图3,将根据本公开的一些实施例描述示例性方法300的流程图,所述方法将通过整合FSL模型和FC模型来提高机器学习分类任务的性能。
如图3中所说明,示例性方法300开始于步骤310,其中获得由第一ML分类模型输出的第一预测,其中向第一ML分类模型提供生产数据作为输入,并且其中第一ML分类模型是小样本学习模型(即,如上文所论述的FSL模型),所述小样本学习模型具有第一特征提取器(即EFSL),之后是基于度量的分类器(即,CFSL)。
作为实例,本公开的实施例可以部署在工厂中,其中采用计算机视觉和机器学习技术来实施自动分拣系统。具体而言,可能存在需要识别和分拣的许多类型/种类的产品、组件或物品。对于产品、组件或物品中的每一个,例如相机等成像装置可以捕获其图像作为生产数据。成像装置可以耦合到计算装置,所述计算装置的实例可以包含但不限于个人计算机、工作站、服务器等。在必要时进行预处理之后,可以将所捕获的图像数据传输到计算装置,其中包含FSL模型的机器学习分类模型正在运行,并且因此作为输入提供到FSL模型,FSL模型随后输出指示在所定义种类上的概率分布的第一预测。例如,对于可能属于三个定义的种类A、B、C中的一个的物品,预测可以指示种类A的概率为0.6,种类B的概率为0.3,种类C的概率为0.1。换句话说,FSL模型预测此物品属于种类A,因为这三个种类中的最高概率为0.6。然而,应注意,此预测可能不符合特定物品的地面真值,因为FSL模型可能并不总是具有良好的性能,特别是考虑到长期情况。因此,由计算装置获得来自FSL模型的第一预测,以用于下文详细讨论的进一步处理。
在步骤320中,获得由第二ML分类模型输出的第二预测。此处,还将提供到FSL模型的生产数据作为输入提供到第二ML分类模型(即,如上文所论述的FC模型),所述生产数据例如是如上文所述的物品的图像,所述第二ML分类模型具有第二特征提取器(即,EFC),之后是完全连接分类器(即,CFC)。FC模型也可以在计算装置上运行。根据本公开的一些实施例,FC模型可以包括卷积神经网络(CNN),其中EFC可以对应于CNN中的卷积层和池化层的堆栈,而CFC可以对应于最后一个完全连接层,其中softmax函数作为CNN中的激活函数,但是本公开在这方面不受限制。CNN的实例可以包含但不限于LeNet、AlexNet、VGG-Net、GoogLeNet、ResNet等。仍参考通过步骤310论述的上述实例,在步骤320处获得的来自FC模型的第二预测可以指示所述特定物品的种类A的概率为0.1,种类B的概率为0.4并且种类C的概率为0.5。也就是说,FC模型预测此物品属于种类C,因为这三个种类中的最高概率为0.5。然而,第二预测也可能不正确。因此,由计算装置获得来自FC模型的第二预测,以用于下文详细讨论的进一步处理。
随后,方法300进行到步骤330。在此步骤中,通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。代替使用来自单个模型的预测作为最终结果,本文提出一种预测投票机制,以整合来自FSL模型和FC模型的两个预测以提供更好的性能,同时还保留关于FSL模型的种类数目的灵活性。
更具体来说,在本文所公开的投票机制中,根据本公开的一些实施例,FSL模型和FC模型的权重各自基于FSL模型的性能分数和FC模型的性能分数确定,并且性能分数都使用相同测试数据集评估。在一些实施例中,对于模型中的每一个,在训练/重新训练模型之后执行性能分数的评估。
可以用不同方式评估模型的性能分数。根据本公开的一些实施例,针对测试数据集上的模型计算的精度可以用作所述模型的性能分数。性能分数也可以是本领域技术人员可以容易地理解的其它度量,例如精度、召回率或F1分数,并且本公开在这方面不受限制。
基于相同测试数据集,针对两个模型评估的性能分数可比较,并且可以用于通过选择适当算法来确定模型中的每一个的权重。根据本公开的一些实施例,可以使用以下等式计算来自两个模型的预测的逻辑加权和:
Figure BDA0004045854900000081
其中yFSL是FSL模型的预测,yFC是FC模型的预测,并且y是两个模型的整合预测。在此等式中,
Figure BDA0004045854900000082
表示FSL模型的权重,并且
Figure BDA0004045854900000083
表示FC模型的权重,其中e是自然对数的底数(也称为欧拉数),sFSL是FSL模型的性能分数,sFC是FC模型的性能分数,并且τ是控制sFC与sFSL之间的差异放大速率的超参数,其中τ是实数并且τ>0。τ的值越大,性能分数对其投票能力的影响就越大。可以容易地理解,其它算法也可以确定权重并相应地计算预测结果。
仍参考上文相对于步骤310和320论述的实例,下文示出使用本文所公开的方式计算的预测结果y,假设sFC=95%、sFSL=90%和τ=1。对于表1中所示的需要识别三个种类(A、B、C)的此实例,可以看出如果仅使用FSL模型,或如果仅使用FC模型,在将产生错误预测。更具体地说,来自FSL模型的预测指示种类A具有最高概率0.600,而来自FC模型的预测指示种类C具有最高概率0.500。但是实际上,在此实例中,种类B是所述特定物品的地面真值。然而,利用本文所公开的投票机制,可以从两个错误预测中获取正确答案。
Figure BDA0004045854900000084
Figure BDA0004045854900000091
表1:预测投票实例
通过使用本文所公开的预测投票机制整合FSL模型和FC模型,可以获得这两个模型的有利方面,包含即使对于FSL模型的低数据量也具有良好性能以及FC模型的长期高性能上限,以实现更好的性能,同时保持FSL模型识别新种类的灵活性,这在许多场景中尤其有用。
应注意,如上文所论述,从步骤310到步骤330的顺序并不意味着无论如何示例性方法300仅可以按此顺序次序执行。替代地,可以容易地理解,一些操作可以同时、并行或以不同的顺序执行。作为实例,可以同时执行步骤310和320。
在一些实施例中,方法300可以进一步包括由计算装置输出指示在步骤330中确定的预测结果的消息。并且在一些实施例中,因此输出的消息可以视为触发,以控制其它电气和/或机械设备来实施特定物品的自动分拣。
虽然在上述讨论中,在单个计算装置上执行示例性方法300,但可以容易地理解,这些步骤也可以在不同装置上执行。根据本公开的一些实施例,方法300可以在分布计算环境中实施。在一些实施例中,方法300可以使用云计算技术实施,但是本公开在此方面不受限制。
现在转向图4,说明根据本公开的一些实施例的示例性性能变化曲线图。图4类似于图1,不同之处在于它进一步说明可以使用本文所公开的预测投票机制(本文中通过点曲线表示)实现的期望性能变化曲线。如所说明,预测投票机制通常在两个模型的曲线的交点之前遵循FSL模型的性能变化曲线,这意味着即使在早期阶段具有低数据量,它也具有良好的性能;当处于或接近交叉点时,它通常会转变为遵循FC模型的曲线,这意味着从长远来看,它将具有更高的性能上限。
图5说明根据本公开的一些实施例的示例性总体过程500。总体过程500可以包括模型训练阶段510、性能评估阶段520和模型应用阶段530。
在模型训练阶段510,在模型投入使用之前,训练FSL模型和FC模型。在训练之后,如之前所论述,在性能评估阶段520中使用相同测试数据集分别评估受训练模型的性能分数。然后,在模型应用阶段530中,执行参考示例性方法300论述的操作,以使用本文所公开的预测投票机制整合FSL模型和FC模型。
如图5中所说明,根据本公开的一些实施例,可以以迭代方式执行包含三个阶段510到530的总体过程500。还应注意,对于迭代中的每一个,在性能评估阶段520中使用的测试数据集和/或在当前迭代的模型应用阶段530中使用的超参数τ可以与在先前迭代中使用的相同或者不同。
在一些实施例中,总体过程500可以定期从模型应用阶段530跳回到模型训练阶段510,以启动模型的重新训练。根据本公开的一些实施例,以递增方式训练模型中的一个或多个。也就是说,利用例如可以在先前迭代中的模型应用阶段530期间收集的新训练数据对当前模型执行训练,以进一步优化当前模型的参数。
根据本公开的一些实施例,FSL模型的特征提取器(即,图2B中的EFSL)可以与FC模型的特征提取器(即,图2A中的EFC)具有相同或相似架构,因此它们可以共享一个或多个参数。在一些实施例中,在每一迭代中,例如以如上所述的增量方式执行的FSL模型的训练可以触发模型训练阶段510中的参数共享过程,其中受训练FSL模型的EFSL的一个或多个参数将与FC模型的EFC共享。作为实例,考虑FSL模型的特征提取器EFSL与FC模型实施为的CNN具有相同或相似架构的情况,共享参数可以包含但不限于由受训练FSL模型的EFSL选择的一个或多个卷积核。FC模型的EFC然后可以通过适当方式采用共享参数。
根据本公开的一些实施例,实施基于动量的参数共享过程,其中可以通过以下等式更新FC模型的EFC的一个或多个参数:
Figure BDA0004045854900000111
其中
Figure BDA0004045854900000112
是FC模型的旧特征提取器参数,
Figure BDA0004045854900000113
是在当前迭代中刚训练的FSL模型的特征提取器参数,并且
Figure BDA0004045854900000114
是FC模型的更新的特征提取器参数,其中m是控制EFSL的每个共享参数由FC模型的EFC采用的比率,其中m是实数且1≥m≥0。
应注意,当前迭代的参数共享过程中使用的动量m的值与先前迭代可能相同或可能不同。作为实例,可以针对当前迭代调整动量m的值,这取决于在先前迭代的性能评估阶段520中针对FSL模型和FC模型评估的性能分数的比较。此外,可以容易地了解,其它参数共享算法也可以通过使用经过良好训练的FSL模型的EFSL共享参数来更新FC模型的EFC参数。
此外,根据本公开的一些实施例,在FSL模型的EFSL的参数与FC模型的EFC共享之后,可以对FC模型执行微调动作以进一步优化其性能。
在本文所论述的参数共享过程的情况下,FC模型的特征提取器可以从经过良好训练的FSL模型获取信息,并且因此可以尤其在可用数据量低的早期阶段展现与FSL模型相似的性能,而不必从头开始学习,因此减少大量计算成本。
虽然上面的讨论在FC模型从FSL模型获取参数信息的情况下进行,但是应注意,根据本公开的一些实施例,如果需要,FC模型也可以通过使用上文所论述的等式2的变体与FSL模型共享其特征提取器参数。
图6是根据本公开的一些实施例的示例性设备600的框图。设备600可以用于增强机器学习分类任务的性能。
如所说明,设备600可以包括模块610,所述模块被配置成获得由第一ML分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器。设备600可以进一步包括模块620,所述模块被配置成获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器。并且此外,设备600可以包括模块630,所述模块被配置成通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
示例性设备600可以由软件、硬件、固件或其任何组合实施。可以了解,尽管将设备600说明为含有模块610到630,但是设备中可以包含更多或更少模块。例如,图6中所说明的模块610到630中的一个或多个可以分成不同模块,每个模块用于执行本文所描述的各种操作的至少一部分。例如,图6中所说明的模块610到630中的一个或多个可以组合,而不是作为单独模块操作。例如,设备600可以包括配置成执行已经在本说明书描述的其它动作的其它模块。
现在转向图7,说明根据本公开的一些实施例的示例性计算装置700的框图。计算装置700可以用于增强机器学习分类任务的性能。
如本文所说明,计算装置700可以包括一个或多个处理单元710和存储器720。一个或多个处理单元710可以包含任何类型的通用处理单元/核心(例如但不限于CPU、GPU),或专用处理单元、核心、电路、控制器等。存储器720可以包含可以用于存储数据的任何类型的介质。存储器720被配置成存储指令,所述指令在由一个或多个处理单元710执行时使一个或多个处理单元710执行本文所描述的任何方法,例如示例性方法300的操作。
根据一些实施例,计算装置700可以进一步耦合到或包括一个或多个外围设备,包含但不限于显示器、扬声器、鼠标、键盘等。此外,根据一些实施例,计算装置可以配备有一个或多个通信接口以实现与通信网络的通信,所述通信接口可以支持各种类型的有线/无线协议。通信网络的实例可以包含但不限于局域网(LAN)、城域网(MAN)、广域网(WAN)、公用电话网络、互联网、内联网、物联网、红外网络、蓝牙网络、近场通信(NFC)网络、紫蜂网络等。
此外,根据一些实施例,以上和其它组件可以经由一个或多个总线/互连彼此通信,所述总线/互连件可以支持任何合适的总线/互连协议,包含但不限于外围组件互连(PCI)、PCI Express、通用串行总线(USB)、串行连接的SCSI(SAS)、串行ATA(SATA)、光纤通道(FC)、系统管理总线(SMBus)等。
再者,根据一些实施例,计算装置700可以耦合到成像装置以获得由成像系统捕获的图像数据。或者,可以从数据库或存储装置检索图像数据以用于存储耦合到计算装置700的图像。
本文所描述的各种实施例可以包含可以使用硬件、软件、固件或其任何组合实施的多个组件、元件、单元、模块、实例或机构,或者可以在所述多个组件、元件、单元、模块、实例或机构上操作。硬件的实例可以包含但不限于装置、处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器单元、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等等。软件的实例可以包含但不限于软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、软件模块、例程、子例程、函数、方法、程序、软件接口、应用编程接口(API)、指令集、计算机代码、计算机代码段、字、值、符号或其任何组合。确定实施例是否使用硬件、软件和/或固件实施可能根据任何数目的因素变化,所述因素例如所需的计算速率、功率电平、耐热性、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其它设计或性能限制,如给定实施例所期望。
本文所描述的一些实施例可以包括制品。制品可以包括存储介质。存储介质的实例可以包含以用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实施的易失性和非易失性、可装卸式和非可装卸式介质。存储介质可以包含但不限于随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器或其它存储器技术、压缩光盘(CD)、数字通用光盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置,或可以用于存储信息的任何其它介质。在一些实施例中,制品可以存储可执行计算机程序指令,所述可执行计算机程序指令在由一个或多个处理单元执行时使处理单元执行本文所描述的操作。可执行计算机程序指令可以包含任何合适类型的代码,例如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码等。可以使用任何合适的高级、低级、面向对象的、可视的、编译的和/或解释的编程语言来实施可执行计算机程序指令。
下文提供本文所描述的本公开的一些实例。
实例1可以包含一种用于增强机器学习分类任务的性能的方法。所述方法包括:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
实例2可以包含根据实例1所述的标的物,其中各自基于都使用相同测试数据集评估的第一ML分类模型的性能分数和第二ML分类模型的性能分数而确定第一ML分类模型和第二ML分类模型的权重。
实例3可以包含根据实例2所述的标的物,其中在确定第一ML分类模型和第二ML分类模型的权重时,超参数用于控制第一ML分类模型的性能分数与第二ML分类模型的性能分数之间的差异放大速率。
实例4可以包含根据实例1所述的标的物,其中在训练第一ML分类模型之后,第一ML分类模型的第一特征提取器的一个或多个参数将与第二ML分类模型的第二特征提取器共享。
实例5可以包含根据实例4所述的标的物,其中动量用于控制受训练的第一ML分类模型的第一特征提取器的每个共享参数将由第二ML分类模型的第二特征提取器采用的比率。
实例6可以包含根据实例4所述的标的物,其中在第一ML分类模型的第一特征提取器的一个或多个参数与第二ML分类模型的第二特征提取器共享之后,将对第二ML分类模型执行微调动作。
实例7可以包含根据实例4所述的标的物,其中第一ML分类模型定期以增量方式训练,并且其中生产数据包括图像数据。
实例8可以包含一种计算装置。所述计算装置包括:用于存储指令的存储器;以及耦合到存储器的一个或多个处理单元,其中所述指令在由一个或多个处理单元执行时使一个或多个处理单元:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
实例9可以包含根据实例8所述的标的物,其中各自基于都使用相同测试数据集评估的第一ML分类模型的性能分数和第二ML分类模型的性能分数而确定第一ML分类模型和第二ML分类模型的权重。
实例10可以包含根据实例9所述的标的物,其中在确定第一ML分类模型和第二ML分类模型的权重时,超参数用于控制第一ML分类模型的性能分数与第二ML分类模型的性能分数之间的差异放大速率。
实例11可以包含根据实例8所述的标的物,其中在训练第一ML分类模型之后,第一ML分类模型的第一特征提取器的一个或多个参数将与第二ML分类模型的第二特征提取器共享。
实例12可以包含根据实例11所述的标的物,其中动量用于控制受训练的第一ML分类模型的第一特征提取器的每个共享参数将由第二ML分类模型的第二特征提取器采用的比率。
实例13可以包含根据实例11所述的标的物,其中在第一ML分类模型的第一特征提取器的一个或多个参数与第二ML分类模型的第二特征提取器共享之后,将对第二ML分类模型执行微调动作。
实例14可以包含根据实例11所述的标的物,其中第一ML分类模型定期以增量方式训练,并且其中生产数据包括图像数据。
实例15可以包含一种非暂时性计算机可读存储介质。所述介质具有存储于其上的指令,所述指令在一个或多个处理单元上执行时使一个或多个处理单元:获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果。
实例16可以包含根据实例15所述的标的物,其中各自基于都使用相同测试数据集评估的第一ML分类模型的性能分数和第二ML分类模型的性能分数而确定第一ML分类模型和第二ML分类模型的权重。
实例17可以包含根据实例16所述的标的物,其中在确定第一ML分类模型和第二ML分类模型的权重时,超参数用于控制第一ML分类模型的性能分数与第二ML分类模型的性能分数之间的差异放大速率。
实例18可以包含根据实例15所述的标的物,其中在训练第一ML分类模型之后,第一ML分类模型的第一特征提取器的一个或多个参数将与第二ML分类模型的第二特征提取器共享。
实例19可以包含根据实例18所述的标的物,其中动量用于控制受训练的第一ML分类模型的第一特征提取器的每个共享参数将由第二ML分类模型的第二特征提取器采用的比率。
实例20可以包含根据实例18所述的标的物,其中在受训练的第一ML分类模型的第一特征提取器的一个或多个参数与第二ML分类模型的第二特征提取器共享之后,将对第二ML分类模型执行微调动作。
实例21可以包含根据实例18所述的标的物,其中第一ML分类模型定期以增量方式训练,并且其中生产数据包括图像数据。
实例22可以包含一种用于增强机器学习分类任务的性能的设备。所述设备包括:用于获得由第一机器学习(ML)分类模型输出的第一预测的构件,向所述第一ML分类模型提供生产数据作为输入,其中第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;用于获得由第二ML分类模型输出的第二预测的构件,向所述第二ML分类模型提供生产数据作为输入,其中第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及用于通过基于第一ML分类模型和第二ML分类模型的权重计算第一预测和第二预测的加权和来确定生产数据的预测结果的构件。
实例23可以包含根据实例22所述的标的物,其中各自基于都使用相同测试数据集评估的第一ML分类模型的性能分数和第二ML分类模型的性能分数而确定第一ML分类模型和第二ML分类模型的权重。
实例24可以包含根据实例23所述的标的物,其中在确定第一ML分类模型和第二ML分类模型的权重时,超参数用于控制第一ML分类模型的性能分数与第二ML分类模型的性能分数之间的差异放大速率。
实例25可以包含根据实例22所述的标的物,其中在训练第一ML分类模型之后,第一ML分类模型的第一特征提取器的一个或多个参数将与第二ML分类模型的第二特征提取器共享。
实例26可以包含根据实例25所述的标的物,其中动量用于控制受训练的第一ML分类模型的第一特征提取器的每个共享参数将由第二ML分类模型的第二特征提取器采用的比率。
实例27可以包含根据实例25所述的标的物,其中在受训练的第一ML分类模型的第一特征提取器的一个或多个参数与第二ML分类模型的第二特征提取器共享之后,将对第二ML分类模型执行微调动作。
实例28可以包含根据实例25所述的标的物,其中第一ML分类模型定期以增量方式训练,并且其中生产数据包括图像数据。
上文已描述的内容包含所公开架构的实例。当然,不可能描述组件和/或方法的每个可设想组合,但本领域的普通技术人员可以认识到,许多其它的组合和排列是可能的。因此,新颖架构预期涵盖落入所附权利要求书的精神和范围内的所有此类改变、修改以及变化。

Claims (20)

1.一种用于增强机器学习分类任务的性能的方法,其包括:
获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中所述第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;
获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供所述生产数据作为所述输入,其中所述第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及
通过基于所述第一ML分类模型和所述第二ML分类模型的权重计算所述第一预测和所述第二预测的加权和来确定所述生产数据的预测结果。
2.根据权利要求1所述的方法,其中各自基于都使用相同测试数据集评估的所述第一ML分类模型的性能分数和所述第二ML分类模型的性能分数而确定所述第一ML分类模型和所述第二ML分类模型的所述权重。
3.根据权利要求2所述的方法,其中在确定所述第一ML分类模型和所述第二ML分类模型的所述权重时,超参数用于控制所述第一ML分类模型的所述性能分数与所述第二ML分类模型的所述性能分数之间的差异放大速率。
4.根据权利要求1所述的方法,其中在训练所述第一ML分类模型之后,所述第一ML分类模型的所述第一特征提取器的一个或多个参数将与所述第二ML分类模型的所述第二特征提取器共享。
5.根据权利要求4所述的方法,其中动量用于控制受训练的第一ML分类模型的所述第一特征提取器的每个共享参数将由所述第二ML分类模型的所述第二特征提取器采用的比率。
6.根据权利要求4所述的方法,其中在所述受训练的第一ML分类模型的所述第一特征提取器的所述一个或多个参数与所述第二ML分类模型的所述第二特征提取器共享之后,将对所述第二ML分类模型执行微调动作。
7.根据权利要求4所述的方法,其中所述第一ML分类模型定期以增量方式训练,并且其中所述生产数据包括图像数据。
8.一种计算装置,其包括:
用于存储指令的存储器;以及
一个或多个处理单元,其耦合到所述存储器,当所述指令在由所述一个或多个处理单元执行时使所述一个或多个处理单元:
获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中所述第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;
获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供所述生产数据作为所述输入,其中所述第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及
通过基于所述第一ML分类模型和所述第二ML分类模型的权重计算所述第一预测和所述第二预测的加权和来确定所述生产数据的预测结果。
9.根据权利要求8所述的计算装置,其中各自基于都使用相同测试数据集评估的所述第一ML分类模型的性能分数和所述第二ML分类模型的性能分数而确定所述第一ML分类模型和所述第二ML分类模型的所述权重。
10.根据权利要求9所述的计算装置,其中在确定所述第一ML分类模型和所述第二ML分类模型的所述权重时,超参数用于控制所述第一ML分类模型的所述性能分数与所述第二ML分类模型的所述性能分数之间的差异放大速率。
11.根据权利要求8所述的计算装置,其中在训练所述第一ML分类模型之后,所述第一ML分类模型的所述第一特征提取器的一个或多个参数将与所述第二ML分类模型的所述第二特征提取器共享。
12.根据权利要求11所述的计算装置,其中动量用于控制受训练的第一ML分类模型的所述第一特征提取器的每个共享参数将由所述第二ML分类模型的所述第二特征提取器采用的比率。
13.根据权利要求11所述的计算装置,其中在所述受训练的第一ML分类模型的所述第一特征提取器的所述一个或多个参数与所述第二ML分类模型的所述第二特征提取器共享之后,将对所述第二ML分类模型执行微调动作。
14.根据权利要求11所述的计算装置,其中所述第一ML分类模型定期以增量方式训练,并且其中所述生产数据包括图像数据。
15.一种非暂时性计算机可读存储介质,其上存储有指令,所述指令在一个或多个处理单元执行时使所述一个或多个处理单元:
获得由第一机器学习(ML)分类模型输出的第一预测,向所述第一ML分类模型提供生产数据作为输入,其中所述第一ML分类模型是小样本学习模型,所述小样本学习模型具有第一特征提取器,之后是基于度量的分类器;
获得由第二ML分类模型输出的第二预测,向所述第二ML分类模型提供所述生产数据作为所述输入,其中所述第二ML分类模型具有第二特征提取器,之后是完全连接分类器;以及
通过基于所述第一ML分类模型和所述第二ML分类模型的权重计算所述第一预测和所述第二预测的加权和来确定所述生产数据的预测结果。
16.根据权利要求15所述的非暂时性计算机可读存储介质,其中各自基于都使用相同测试数据集评估的所述第一ML分类模型的性能分数和所述第二ML分类模型的性能分数而确定所述第一ML分类模型和所述第二ML分类模型的所述权重。
17.根据权利要求16所述的非暂时性计算机可读存储介质,其中在确定所述第一ML分类模型和所述第二ML分类模型的所述权重时,超参数用于控制所述第一ML分类模型的所述性能分数与所述第二ML分类模型的所述性能分数之间的差异放大速率。
18.根据权利要求15所述的非暂时性计算机可读存储介质,其中在训练所述第一ML分类模型之后,所述第一ML分类模型的所述第一特征提取器的一个或多个参数将与所述第二ML分类模型的所述第二特征提取器共享。
19.根据权利要求18所述的非暂时性计算机可读存储介质,其中动量用于控制共享的第一ML分类模型的所述第一特征提取器的每个共享参数将由所述第二ML分类模型的所述第二特征提取器采用的比率。
20.一种用于增强机器学习分类任务的性能的设备,其包括用于执行根据权利要求1至7中任一项所述的方法的构件。
CN202080102954.7A 2020-08-17 2020-08-17 用于增强机器学习分类任务的性能的方法和设备 Pending CN115812210A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/109601 WO2022036520A1 (en) 2020-08-17 2020-08-17 Method and apparatus for enhancing performance of machine learning classification task

Publications (1)

Publication Number Publication Date
CN115812210A true CN115812210A (zh) 2023-03-17

Family

ID=80323271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080102954.7A Pending CN115812210A (zh) 2020-08-17 2020-08-17 用于增强机器学习分类任务的性能的方法和设备

Country Status (4)

Country Link
US (1) US20230326191A1 (zh)
EP (1) EP4162408A4 (zh)
CN (1) CN115812210A (zh)
WO (1) WO2022036520A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11880347B2 (en) * 2020-11-23 2024-01-23 Microsoft Technology Licensing, Llc. Tuning large data infrastructures
CN115375609A (zh) * 2021-05-21 2022-11-22 泰连服务有限公司 自动零件检查系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
US10332028B2 (en) * 2015-08-25 2019-06-25 Qualcomm Incorporated Method for improving performance of a trained machine learning model
US10691975B2 (en) * 2017-07-19 2020-06-23 XNOR.ai, Inc. Lookup-based convolutional neural network
US11087184B2 (en) * 2018-09-25 2021-08-10 Nec Corporation Network reparameterization for new class categorization
US10832096B2 (en) * 2019-01-07 2020-11-10 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection

Also Published As

Publication number Publication date
EP4162408A1 (en) 2023-04-12
EP4162408A4 (en) 2024-03-13
WO2022036520A1 (en) 2022-02-24
US20230326191A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
EP3467723B1 (en) Machine learning based network model construction method and apparatus
US10607331B1 (en) Image segmentation into overlapping tiles
JP7037478B2 (ja) 分類のための強制的なスパース性
US20210081798A1 (en) Neural network method and apparatus
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN113692594A (zh) 通过强化学习的公平性改进
CN112508085A (zh) 基于感知神经网络的社交网络链路预测方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
US20210110215A1 (en) Information processing device, information processing method, and computer-readable recording medium recording information processing program
Chen et al. SS-HCNN: Semi-supervised hierarchical convolutional neural network for image classification
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN109656818B (zh) 一种软件密集系统故障预测方法
CN112925909B (zh) 一种考虑局部不变性约束的图卷积文献分类方法及系统
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
CN112634992A (zh) 分子性质预测方法及其模型的训练方法及相关装置、设备
CN112868032A (zh) 提升ai识别学习能力
CN110991247B (zh) 一种基于深度学习与nca融合的电子元器件识别方法
KR102144010B1 (ko) 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치
Benmeziane et al. Multi-objective hardware-aware neural architecture search with Pareto rank-preserving surrogate models
Assuncao et al. Automatic evolution of autoencoders for compressed representations
CN114373092A (zh) 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法
US11397868B2 (en) Fungal identification by pattern recognition
Abou Tabl et al. Deep learning method based on big data for defects detection in manufacturing systems industry 4.0
JP7242590B2 (ja) 機械学習モデル圧縮システム、プルーニング方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination