CN113826113A

CN113826113A - 用于人工智能的对罕见训练数据计数

Info

Publication number: CN113826113A
Application number: CN202080033660.3A
Authority: CN
Inventors: M·布兰德斯; F·弗洛特; A·乔万尼尼; F·格拉夫; S·勒维扎
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-13
Filing date: 2020-04-28
Publication date: 2021-12-21
Also published as: US11176429B2; DE112020001034T5; JP7448562B2; WO2020229923A1; US20200364520A1; JP2022531974A

Abstract

可以提供一种针对未充分表示的类别的用于增强分类器预测的系统。利用训练数据进行训练以构建模型的分类器系统用于对未知输入数据进行分类，并且评估器引擎被适配用于确定未充分表示的类。另外，该系统包括一个提取器引擎和一个相似性引擎，该提取器引擎被适配为从另外的源提取相关数据，该相似性引擎被适配为从该相关数据中选择数据集，其中该相似性引擎还被适配为将该相关数据的特征与用于该未充分表示的类别的代表性数据集的特征进行比较。最后，所述系统包括递归单元，所述递归单元被适配成用于触发所述评估器引擎，所述提取器引擎和所述相似性引擎将所选择的数据集合作为输入数据，直到所述评估器引擎以高于置信度阈值水平的置信度水平对所述所选择的数据集合进行分类。

Description

用于人工智能的对罕见训练数据计数

背景技术

本发明总体上涉及一种用于更好的机器学习的系统，并且更具体地涉及一种用于增强关于未充分表示的类别的分类器预测的系统。本发明进一步涉及一种用于增强分类器预测的方法以及一种计算机程序产品。

开发人工智能(AI)领域的软件以及机器学习并将其集成到现有应用中是当今IT(信息技术)行业的关键挑战。在过去几年中，开发变得越来越成为现有元件的组成，这些现有元件将来在如何开发算法方面继续演变成范式变换——编程变成标记，并且通过使计算机解决通过例如AI、神经网络、以及具体地深度学习表示的优化问题来替换编码。这种现象可以被称为“软件1.0vs.与软件2.0开发”。因此，越来越需要通过IDE(集成开发环境)对软件2.0开发(如概念和软件栈)具有相同的支持，如软件1.0可用于开发企业级AI解决方案一样。

行业疼痛点之一是对用于系统或方法的训练的图像进行标记：(i)对图像进行标记是非常耗时的使得需要自动化；(ii)罕见案例可能导致必须解决的系统或方法中的问题和偏差。手动标记对于数据科学家来说是巨大的负担，因为它主要是需要高度熟练的人员的手动过程，这些人在另一方面也可能不能免于偏斜视图。

在典型博士论文期间花费的时间与实际生活使用情况的比较可以展示困境。博士生在数据集上花费约5％至10％，并且在模型和算法上花费超过90％的巨大的“剩余时间”。在像例如特斯拉的公司的实际使用情况下，大约75％的项目时间花费在数据准备和数据集上，并且仅25％花费在模型和算法上(源https：//vimeo.com/272696002)。

这些问题之一是在罕见案例的领域中，在这种情况下，这些罕见案例是图像类别或情形示例，其中，尤其在训练数据集中，仅出现少量的示例，或者与其他情况相比，这些示例展示得非常少。一些示例可以是：(i)与街道上的正常状况相比的车辆事故的图像，(ii)与绿色或红色相比的具有琥珀或甚至蓝色的交通灯的图像，(iii)特殊街道标志，以及(iv)街道上的雪或雾状环境。

经训练的机器学习模型的问题可以是：如果训练集中有具有9，999个人具有棕色眼睛和1个人具有蓝色眼睛，则该算法可能总是预测棕色眼睛。这导致非常高的99.99％的准确度，但从未预测“蓝眼”。如果忽略罕见案例，在许多设置中，诸如街道交通，这样的缺陷可能引起主要问题。

存在若干公开内容，这些公开内容涉及一种用于针对未充分表示的类别增强分类器预测的系统或方法。文件“具有概念漂移的在线类别不平衡学习的系统研究(ASystematic Study of Online Class Imbalance Learning with Concept Drift)”，IEEE神经网络和学习系统会报(IEEE Transactions on Neural Networks and LearningSystems)(第29卷，第10期，2018年10月)公开了一种通过学习未充分表示的类别来处理类别不平衡数据流中的概念漂移的方法。该参考文献还公开了一种基于具有最新示例的窗口来保留类别的方法。

Josh Attenberg等人的由非平衡学习：基础、算法和应用(Imbalanced Learning:Foundations,Algorithms,and Applications)出版的文档“类别失衡与主动学习”(“ClassImbalance and Active Learning”)(2013年)：p.101-149(https：//pdfs.semanticscholar.org)公开了一种使能模型的方法，该模型能够在防止所得模型偏向多数类，反映少数类的真实性质。该参考文献还公开了通过利用示例来重新训练模型来解决未充分表示的类别的方法。

尽管提及了参考文献，并且为了解决机器学习领域中今天的行业挑战，可能需要将更多地集中于罕见案例管理以及如果可用训练数据不具有有待从中学习的示例的良好混合则如何处理它们。

发明内容

根据本发明的一个方面，可以提供一种针对未充分表示的类别用于增强分类器预测的系统。该系统可以包括分类器系统，该分类器系统用训练数据进行训练以构建用于将未知输入数据分类到预测类别中的模型，评估器引擎，该评估器引擎被适配成用于确定预测类别中的未充分表示的类别，其中，所述评估器引擎可以使用所述预测的置信度分布，以及提取器引擎，所述提取器引擎被适配用于从附加源提取相关数据，其中，所述相关数据可以与所确定的未充分表示的类别相关。

此外，该系统可以包括相似性引擎，该相似性引擎被适配成用于从该相关数据中选择数据集。由此，相似性引擎还可以被适配成用于将相关数据的特征与未被充分表示的类别的代表性数据集的特征进行比较，以及递归单元，其适于触发所述评估器引擎，所述提取器引擎以及所述相似性引擎，将选择的数据集合作为输入数据，直到所述评估器引擎以高于置信度阈值级别的置信度级别对所述选择的数据集合进行分类。

根据本发明的另一个方面，提供了一种针对未充分表示的类别的用于增强分类器预测的计算机实现的方法。该方法可以包括：提供利用训练数据来训练，以构建可用于将未知输入数据分类到预测类别中的模型的分类器系统，通过确定所述预测的置信度水平分布来确定所述预测类别中未被充分表示的类别，以及从附加源提取相关数据，所述相关数据与所确定的未被充分表示的类别相关。

此外，该方法可以包括通过将相关数据的特征与用于未充分表示的类别的代表性数据集的特征进行比较来从相关数据中选择数据集，以及通过将所选择的数据集作为输入数据来重复所述评估、所述提取和所述选择，直到所选择的数据集以高于置信度阈值水平的置信度水平被分类。

所提出的针对未充分表示的类别的用于增强分类器预测的系统可以提供多个优点和技术效果。

显然，可以实现机器学习中罕见案例的更好管理。该系统和相关方法关心不平衡的训练数据集。如果例如分类器的预测不确定其自身的结果，则所提出的技术可以监督其自身并且关心其自身，并且自主地找到备选方案。内部评估器检测这样的失衡，并且可以自动寻找用于增强训练数据集合的其他示例。这可以被视为内向外方法，因为系统可以确定训练数据集合可能还不够好并且确定去系统外部——即，在用于训练和搜索替代源的可用数据外部。因此，系统可以“绕过”已经提供了训练数据集的“训练者”并且可以确定“自己体验”可能更好。

为此目的，可以使用和访问外部数据库——典型地经由互联网可获得的——以找出(以确定)所发现的数据是否可以用于现有机器学习算法的更好训练。

因此，可以从相当基本的训练数据集开始，并且让系统找到和增强其自己的训练数据集。所以，归因于可作为此处所提出的概念的副作用而执行的自动加标签过程，可减少对加标签训练数据的要求。

在这个概念中所使用的相似性引擎可以用于定位包含多个图像之间的众多相似特征的图像。该算法可以拍摄图像作为输入并且可以给出从0至1的评级，其中较高的值指示图片之间的更好匹配。图片或图像的处理可基于图像分析，即，通过图像阈值化、图像梯度和卷积来找到可区分特征。首先，可以在图像中计算特征，然后将图像的值和数量进行比较和合并以收集所有有前景的图像对的值。

新发现的图像(其随后以高置信度被预测)可被添加到训练集以随时间改进一般多类模型。该标记可以源自可能已经被未充分表示并且可能已经触发用于“外出”的完整循环的类别。

在下文中，将描述本发明构思的附加实施例——适用于该系统和该方法两者。

根据该系统的一个有用实施例，输入数据可以是图像。目前，这可能是最主要的使用情况；然而，该系统和相关方法可以适用于任何其他数据类型。由此，所提出的概念不仅限于图像数据，而是可以应用于任何类型的机器学习。

根据系统的另一有用实施例，可从视频数据中提取图像数据。由此，这可以显著增加可用图像的数量，因为视频可以被视为静态图像的简单级联。

根据该系统的一个优选实施例，确定未充分表示的类别可以基于预测类别与其他类别之间的差异的函数。如果例如在所有预测的98+％中，总是预测10个类别中的9个，这可具有两个原因：(i)分类器的输入数据可被偏置，即，输入数据可能没有理由预测第10类，或者(ii)作为分类器基础的训练模型没有“看到”最后的类，因为它没有被相应地反映在训练数据集中。

根据该系统的一个优选实施例，附加数据可以是训练数据外部和常规输入数据外部的数据。因此，系统不仅依赖于用于训练的使用数据，而且可以尝试从“系统外部”(即，“超过其自身的鼻子来看”)访问数据。可在用于例如附加图像的数字库或用于附加文本实例的字典中找到附加数据。可以容易地想象其他外部源。一种访问外部数据的方式还可以包括集成访问搜索引擎以经由互联网搜索附加外部数据的搜索引擎的选项。在另一实施例中，搜索可限于内联网。

根据一个优选实施例，该系统还可以包括标记单元，该标记单元被适配成用于如果评估器以高于置信度阈值水平的置信度水平对所选择的数据集进行分类，则将所选择的数据集标记为附加训练数据集。因此，可以做出自动确定，以利用迄今为止现有的体验范围外部的新发现的数据(即，用于实际训练的训练数据集)来增强现有的训练数据集，以便将训练数据集扩展为用作更宽泛的真值库。

根据该系统的另一个优选实施例，标记单元还可以被适配成用于使用与未充分表示的类别相关的标记来注释附加训练数据集。附加训练数据集可包括一个或一个以上附加训练数据实例，针对所述一个或一个以上附加训练数据实例，可使用针对待新集成在训练数据集中的数据的自动加标记或加标签。由此，可能不需要与机器学习系统进行手动交互以便拓宽其体验基础，即，训练数据集。而且，如果预定义数量或量的附加训练数据可能已经变得可用，则可以自动触发机器学习系统的后续重新训练。

根据该系统的一个可选实施例，该递归单元还可以被适配成用于如果已经发生预定义数量的递归则停止触发。这可防止搜索过程对附加的外部数据的无限循环。由此，可以避免不必要地使用系统资源。

根据系统的进一步可选实施例，评估器引擎和/或提取器引擎可以连接至知识图系统。评估器和/或提取器引擎可以使用知识图系统中的数据组织来确定哪些附加的外部数据对于进一步调查数据是否对机器学习过程有用可能是有用的。

此外，实施例可以采取相关计算机程序产品的形式，该相关计算机程序产品可从计算机可用或计算机可读介质访问，该计算机可用或计算机可读介质提供用于由计算机或任何指令执行系统使用或与其结合使用的程序代码。出于本说明的目的，计算机可用或计算机可读介质可为可包含用于存储、传达、传播或传输程序供指令执行系统、设备或装置使用或结合指令执行系统、设备或装置的任何设备。

附图说明

应注意的是，参考不同的主题描述了本发明的实施例。特别地，一些实施例参考方法类型权利要求来描述，而其他实施例参考装置类型权利要求来描述。然而，本领域的技术人员将从以上和以下说明中得出，除非另有说明，除了属于一种类型的主题的特征的任何组合之外，还涉及不同主题的特征之间的任何组合，特别是方法类型权利要求的特征，以及装置类型权利要求的特征之间的任何组合被视为公开在本文件内。

以上限定的方面以及本发明的其他方面从下文中有待描述的实施例的实例中是清楚的并且参考实施例的实例进行解释，但是本发明并不限于这些实施例。

将仅以举例方式并且参考以下附图来描述本发明的优选实施例：

图1示出了用于针对未充分表示的类别的增强分类器预测的本发明系统的一个实施例的框图。

图2示出了所提出的概念的简化实施例的框图。

图3示出了更完整的系统的实施例的框图。

图4示出了用于针对未充分表示的类别的增强分类器预测的本发明方法的流程图的框图。

图5示出了包括根据图1的系统的计算系统的实施例。

具体实施方式

在本说明书的上下文中，可以使用以下惯例、术语和/或表达式：

术语”增强分类器预测”可以表示帮助分类器系统进行更好的预测(即，将输入数据更准确地分类为预测类)的过程。这可以尤其针对罕见案例来完成，即，可能仅很少发生并且可能在训练数据集中表现不足的那些情况。

术语”未充分表示的类别”可以表示分类器的类别，该类别可以或多或少从未被预测-或接近从未被预测，因为底层机器学习模型尚未针对这个类别被足够地训练，因为训练数据集具有过少的未充分表示的类别的示例。

术语”分类器系统”可以表示呈神经网络、深度神经网络、随机森林系统、逻辑回归系统、高斯回归系统和其他形式的机器学习系统和/或模型。可以使用任何分类器。分类器系统和所提出的概念可以涉及已经用训练数据集训练的经训练的分类器。

术语”评估器引擎”可以表示能够判定输入数据的案例是否可能与罕见案例相关的单元。为此，评估器引擎可以使用不同的阈值方法。一种可以是相对阈值方法，其将导致多个类别的预测的置信水平与彼此具有可比较的小差异的置信水平进行比较。因此，”置信度水平分布”可以用作确定基础。

术语”提取器引擎”可以表示所提出的系统的单元并且能够访问外部数据源，该外部数据源在预定义意义上可以是与罕见案例示例可比较的。搜索引擎可以由提取器引擎使用——或者可以是它的一部分——以便识别与罕见案例数据集合相关的数据集合。基于此，”相似性引擎”还可以基于阈值判定在提取器引擎的所标识的附加示例之间的相似性是否足够与罕见案例相关。

术语”附加源”可以表示迄今可能尚未用于开发机器学习模型(即，分类器)的潜在训练数据的源。附加源可以属于独立于迄今可用的训练数据的数据池。附加源可以是可经由互联网或在其他情况下经由一个或多个企业的内联网访问的库和/或储存库的集合。

术语”递归单元”可以表示以预定义顺序控制其他单元的触发的单元。在这种情况下，递归单元可以按顺序至少触发评估器引擎、提取器引擎和相似性引擎，直到满足退出条件。

在下文中，将参照附图描述实施例。

图1示出了用于针对未充分表示的类别的增强分类器预测的系统100的实施例的框图。系统100包括用训练数据来训练以构建可用于将未知输入数据分类到预测类别中的模型的分类器系统102。分类器系统的示例可以包括神经网络——具体地深度神经网络——逻辑回归系统、高斯回归系统、随机森林系统。

此外，系统100可以包括评估器引擎104，该评估器引擎被适配成用于确定在预测类别中的未充分表示的类别。为此，评估器引擎104使用预测的置信度水平分布。这可以被实施为相对阈值化方案。如果对于一个类别，用于该类别的预测的置信水平是相对低的并且其他类别可以示出相对高的值，这可以说关于特定预测的不确定性。另一方面，如果用于预测的置信水平可以示出90％置信并且对于其他类别它可以在个位数字范围内，则置信水平与用于其他预测类别的置信水平相比高得多，使得这个类别可能不表示未充分表示的类别。

此外，系统100可以包括提取器引擎106，其被适配成用于从附加源(具体为外部源)提取相关数据。由此，相关数据涉及所确定的未充分表示的类别，即，涉及仅被模糊地分类的特定输入数据。这是机器学习系统的引人注目的事件，其中，可以扩展该机器学习系统的“经验”，即，其中，预先选择新的训练数据以便被更多地调查。

为此，方法100还包括一个相似性引擎108，其被适配成用于从该相关数据中选择多个数据集，其中该相似性引擎还被适配成用于将该相关数据的特征与用于未充分表示类别的一个代表性数据集的多个特征进行比较。因此，相似性引擎寻找“其已经知道的事物”并且尝试标识在机器学习训练数据集中仅有限数量的训练数据可用的类别的示例。因此，具体地，执行定向搜索，以寻找最初不可用但对可靠且真实的分类器系统绝对需要的训练数据。

最后但并非最不重要，方法100包括递归单元110，其被适配成用于至少触发所述评估器引擎、所述提取器引擎和所述相似性引擎将所述选择的数据集合视为输入数据，直到所述评估器引擎以高于置信度阈值水平的置信度水平对所述选择的数据集合进行分类。因此，所提出的概念不依赖于“第一镜头”来扩展机器学习模型(即，分类器)的训练数据集，而是依赖于针对有待从中学习的新数据的集中的面向目标的搜索。为此目的，递归单元110连接到评估器引擎104、提取器引擎106和相似性引擎108。

图2示出了所提出的概念的简化实施例的框图。训练的分类器202可被有规律地用于评估输入数据以执行分类。系统200使用评估过程204来控制其自身的预测输出，无论其自身的预测是否“足够好”。如果是情况–“Y”，分类器继续其预测不变。然而，如果结果是评估204可能不够好(情况“N”)，则系统寻找206附加的外部数据(“更好的数据”)，所述外部数据可以在分类器202的底层机器学习模型的新训练中使用。可以通过使用比较类别概率中的相对差异的度量来确定“预测是否足够好”。所以，例如，如果存在与其他类别的显著距离，那么接受预测。显著距离可以例如由预定义阈值(百分比值或绝对值)确定。

这个简化的实施例可以使得本文提出的概念是可理解的。由此，提出了一种自优化机器学习系统，其在确定结果不够好的情况下尝试扩展其经验范围。如果没有达到主预测类别与例如第二其他类别之间的差异的预定义阈值，则术语“尝试扩展其经验范围”可以被视为用于扩展用于预测的所使用的数据基础(通过对附加数据的新搜索)的同义词。

图3示出了更完整的系统300的实施例的框图。初始情况和条件可描述为：分类器302可用用于n个不同类别的多类别模型来训练。q个类别(q＜n)在训练数据集中是未充分表示的，即，(类别中的样本数目＜总样本数目/(n*(|均值-中值|))，也称为罕见案例。可以使用不同的阈值来定义罕见案例，并且|平均-中值|因子是实现的一个示例。固有问题可以被描述为：在训练期间，分类器可以学习训练数据集中的分布，而不是作为q个类别中的区分项的特征。评估器引擎304、罕见案例提取器310和相似性引擎316可以有助于应对这种“误训练”。

作为初始步骤301，将图像以及任何另外可用的元数据馈送到分类器302。应注意，为了简单起见，可使用图像数据来描述实例。然而，所提出的概念适用于任何种类的分类(声音、文本、视频、健康数据、股市数据，仅列举几个应用领域)。

分类器的输出(即，预测)被馈送至评估器引擎304，该评估器引擎确定手边的案例是否是罕见案例。为此，它可以使用知识图314来对所预测的类别在上下文中的置信度水平进行良好解释。因此——并且桥接回到术语“足够好”——如果评估器引擎确定主预测类别与经排名的预测类序列中的下一个预测类之间的差异低于预定义的差异阈值，则确定罕见案例。

如果该案例不是罕见案例，即，置信度值足够好(高于预定义的置信度水平阈值或已经达到最大迭代次数)，则分类器的输出是有效的(306)并且被送出(307)。另外，与该案例有关的数据还可用于周期性地增强训练集，即，成为训练数据308的组成部分。

如果评估器引擎306确定案例是罕见案例，则将输入数据转发至罕见案例提取器310。该模块用于潜在地放大具有潜在地相关或类似图像的训练数据的语料库。这些可以从外部数据312——特别是例如经由互联网上的搜索引擎标识的附加数据库或完全外部数据——中提取并且可以被发送到相似性引擎316以选择最相似的图像并将它们反馈到分类器302用于下一次迭代(回到开始301)。

可以注意到，罕见案例提取器也可以访问知识图以确定附加数据312中的相关图像。

在下一次迭代中，交通灯可以用作分类器302的示例性输入图像。然而，交通灯的图像可能是不明确的并且不能清楚地识别的种类(由于不寻常的视角、雾、薄雾、灯缺陷等)。作为分类器302的结果，结果是分类器302返回具有0.712的置信水平的“停止灯”、具有0.709的置信水平的“灯泡”、具有0.698的置信水平的“列车停止灯”等等。因此，系统关于其预测是“不确定的”，因为存在具有相当靠近彼此的置信水平的类似但不相等的预测。因此，使用置信水平的相对测量。

评估器引擎304确定这是罕见案例。然后，作为示例，提取器310可以——例如，利用搜索引擎访问互联网——通过寻找停止灯、灯泡和火车停止灯返回230附加图像，即，置信度水平差可以低于预定阈值的分类器302的预测结果的预定义数量或百分比。

接下来，相似性引擎316可以从230中选择示出与输入图像的相对接近度的例如5个图像，然后以与将用于分类的正常输入数据输入到分类器302的相同方式将这些图像发送回分类器302以供进一步作为输入数据处理。

在进一步的迭代中，分类器302确定从相似性引擎316发送到分类器302的五个附加图像的类别。分类器的结果可以是：

-图像1：“停止灯”，置信水平0.812；“灯泡”置信水平0.809；“火车停止灯”，置信水平0.498；

-图像2：“停止灯”，置信水平0.612；“灯泡”置信水平0.609；“火车停止灯”，置信水平0.598；等等对于所有识别的和附加的图像。还可以注意到，分类器是已训练的分类器，该已训练的分类器已经用带注释的训练数据来训练以自动地确定要用于分类的内部模型。通常，在其余会话期间，类别的数量也被给定为分类器的输入(除了图像)。

接下来，评估器引擎304评估所有五个附加图像的置信水平。至少一个不被归类为罕见案例，并且由于其相对置信水平高于预定阈值，因此作为输出被发送至右侧，即，发送至有效输出框306。此图像可接着用以增强训练数据集308，使得在训练数据集308中累积罕见案例的更多实例。重新训练——其可以每当预定义数量的附加训练数据(绝对数量或相对数量)已经被添加到训练数据集308时发生——现在将修改分类器302的底层机器学习模型，从而使得将来还增强对罕见案例的识别。

然而，对于未被添加到训练数据集306的剩余图像，循环继续。对于这四个剩余的图像，罕见案例提取器310可以通过访问外部数据源再次寻找“停止灯”等来找到附加的350个图像。在这种情况下，350个图像中的7个图像被选择为接近输入图像，并且被发送到系统的另一迭代循环中的进一步处理。此循环过程可继续，直到已执行预定义数目的迭代为止。

现在，以位更详细的方式查看各个单元：使用评估器引擎304以便判定分类器302的输出是否是罕见案例(以上比较)，以确定是否需要主过程中的迭代。评估器引擎304使用的条件基于预测的置信度水平分布。具体地，如果最重要的类别与其他类别具有显著距离(具体地，置信水平)，则接受预测。该距离由预定阈值控制。如果在主过程中没有进一步的迭代并且分类器302的输出被认为是有效的，则进一步的退出条件是在主过程中已经执行了一定数量的迭代。

为了更好地考虑不同的预测置信水平，知识图可以用作参考。两个预测之间的距离越近，两个预测越可能是真实的，反之亦然。

提取器310(或罕见案例提取器)用于访问外部数据。可用的视频材料的量越来越多。这可以来自例如“智能眼镜”(守门员)、视频汽车(用于支持地理位置的自动地图生成)、配备有相机的自动车辆等。可以对构成视频的图像进行分析和分类。然后，可以将这些经分类的图像与“罕见案例”的数据库进行比较，即，与一些机器学习类别相关但是仅存在几个示例的图像。该比较可以使用诸如相似性学习和主成分分析的技术。然后，将被确定为罕见案例类别的一部分的任何图像提取并馈送到罕见案例数据库中，以便在训练新的和改进的分类器中使用。罕见案例类别可以随时间改变；例如，一旦已经累积了针对某个类别的足够数量的案例，则该类别将不再被认为是罕见的。还可以注意到，随着时间的推移，该过程对哪些类被认为是具有罕见案例的类别将偏移。因此，可能需要定期更新类别的“罕见案例”标签。取决于系统反应的硬件要求，所有图像独立地一个接一个地使用，或每n个帧一个使用。使用本文提出的过程的自然结果是，随着训练集变得越大，训练集处理的图像越多，按时间顺序越来越少的罕见案例将被识别。

相似性引擎316用于发现包括多个图像之间的数字相似特征的图像。算法(例如，SSIM(结构相似性)或PSNR(峰值信噪比)算法)可以将图像作为输入并且可以给予其从0至1的评级，其中，较高的值指示图像之间的更好的匹配。对图像的处理是基于图像分析，即，通过图像阈值化、图像梯度和卷积来找到可区分特征。在图像中计算第一特征，然后将这些图像的值和特征化数目与所有有希望的偶合器的值进行比较并且整合在一起。

以高置信度预测的新字体图像将被添加到训练数据集以随着时间改进一般多类别模型。

图4示出了用于针对未充分表示的类别的增强分类器预测的计算机实现的方法400的实施例的流程图的框图。方法100包括：根据以上解释的相关机器学习系统，402提供分类器系统，其利用训练数据来训练以构建可用于将未知输入数据分类到预测类别中的模型，404通过确定预测的置信度水平分布来确定预测类别中的未充分表示的类别，以及从406附加源提取相关数据。由此，相关数据与所确定的未充分表示的类别相关。

另外，方法400包括408通过将相关数据的特征与未被充分表示的类别的代表性数据集的特征进行比较来从相关数据中选择数据集，以及410通过将所选择的数据集作为输入数据来重复所述确定404、所述提取406和所述选择408，直到所选择的数据集被以高于置信度阈值水平的置信度水平分类为止。因此，重复步骤104、106和108，直到出现停止条件。停止条件可以是特定预测的置信水平的阈值，或者可以在已经执行对附加数据的搜索的预定义数量的循环中看到。如果是这种情况，则系统可以确定集合“可能没有意义”来搜索附加数据以增强训练数据集。

本发明的实施例可以与几乎任何类型的计算机一起实现，而不管平台适于存储和/或执行程序代码。出于完整性的原因，图5作为实例示出了适于执行与所提出的方法相关的程序代码的计算系统500。

计算系统500仅是合适的计算机系统的一个实例，并且不旨在对本文描述的本发明的实施例的用途或功能的范围提出任何限制，而不管计算机系统500是否能够被实现和/或执行上文阐述的任何功能。在计算机系统500中，存在可与许多其他通用或专用计算系统环境或配置一起操作的组件。可以适合于与计算机系统/服务器500一起使用的众所周知的计算系统、环境和/或配置的示例包括，但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机，手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品，网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境，等等。计算机系统/服务器500可以在由计算机系统500执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器500可在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可位于本地和远程计算机系统存储介质(包括存储器存储设备)两者中。

如图所示，计算机系统/服务器500以通用计算设备的形式示出。计算机系统/服务器500的组件可以包括但不限于一个或多个处理器或处理单元502、系统存储器504、以及将包括系统存储器504在内的不同系统组件耦合到处理器502的总线506。总线506表示若干类型的总线结构中的任一种总线结构中的一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线。计算机系统/服务器500通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器500访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质两者。

系统存储器504可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)508和/或高速缓存存储器510。计算机系统/服务器500还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统512可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为”硬盘驱动器”)读取和向其写入。虽然未示出，但是可以提供用于从可移除非易失性磁盘(例如，”软盘”)读取和向可移除非易失性磁盘写入的磁盘驱动器，以及用于从可移除非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)读取或向可移除非易失性光盘写入的光盘驱动器。在这样的实例中，每一个都可以通过一个或多个数据介质接口连接到总线506。如下面将进一步描绘和描述的，存储器504可以包括具有一组(例如，至少一个)程序模块的至少一个程序产品，这些程序模块被配置为执行本发明的实施例的功能。

具有一组(至少一个)程序模块516的程序/实用程序可以存储在(作为实例而非限制)存储器504，以及操作系统、一个或多个应用程序、其他程序模块和程序数据中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一者或其某一组合可包含联网环境的实施例。如本文所述，程序模块516通常执行本发明实施例的功能和/或方法。

计算机系统/服务器500还可以与一个或多个外部设备518通信，诸如键盘、定点设备、显示器520等；使得用户能够与计算机系统/服务器500交互的一个或多个设备；和/或使计算机系统/服务器500能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口514发生。此外，计算机系统/服务器500可以经由网络适配器522与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)之类的一个或多个网络通信。如所描绘的，网络适配器522可以经由总线506与计算机系统/服务器500的其他部件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器500结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据归档存储系统等。

另外，用于增强分类器预测的系统100可以附接至总线系统506。

已经出于说明的目的呈现了本发明的不同实施例的描述，但并非旨在是详尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择本文使用的术语以最佳地解释实施例的原理、实际应用或对市场上存在的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

本发明可以体现为系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或介质)，所述计算机可读程序指令用于致使处理器执行本发明的各方面。

该介质可以是用于传播介质的电子、磁性、光学、电磁、红外或半导体系统。计算机可读介质的示例可包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前示例包括致密盘只读存储器(CD-ROM)、致密盘读/写(CD-R/W)、DVD和蓝光盘。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘，硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM)，数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编程序指令，指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，包括面向对象的Smalltalk、C++等编程语言，以及常规的过程式编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全地在用户的计算机上执行、部分地作为独立软件包在用户”的计算机上执行、部分地在用户的计算机上部分在远程计算机上执行、或者完全地在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的各方面。

本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可被提供给通用计算机的处理器、专用计算机或其他可编程数据处理装置，以产生机器，其通过计算机或其他可编程数据处理装置的处理器执行，创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机、可编程数据处理装置，和/或以特定方式起作用的其他设备的计算机可读存储介质中，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可加载到计算机、其他可编程数据处理设备，或者使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤的另一设备上，以产生计算机实现的过程，使得在计算机上执行的指令，其他可编程装置或另一设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和/或框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中，框中所标注的功能可以不以图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

本文使用的术语仅用于描述具体实施例的目的并且不旨在限制本发明。如本文使用的，单数形式“一个”、“一种”和“该”旨在也包括复数形式，除非上下文另外清楚地指示。将进一步理解的是，当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时，其指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组的存在或添加。

以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合其他要求保护的元件(如具体要求保护的)来执行功能的任何结构、材料或动作。本发明的描述是出于说明和描述的目的而呈现的，但不旨在是穷尽性的或局限于所公开的形式的本发明。在不脱离本发明的范围和精神的情况下，许多修改和变化对本领域的普通技术人员将是显而易见的。选择和描述这些实施例是为了最好地解释本发明的原理和实际应用，并且使得本领域的普通技术人员能够针对适合于所考虑的具体用途的具有不同修改的不同实施例理解本发明。

Claims

1.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；以及

存储在所述一个或多个计算机可读存储介质上的用于由所述一个或多个计算机处理器中的至少一个执行的程序指令：

分类器系统，所述分类器系统利用训练数据进行训练以构建用于将未知输入数据分类到预测类别中的模型；

评估器引擎，所述评估器引擎被适配用于确定在所述预测类别中未被充分表示的类别，所述评估器引擎使用所述预测的置信度水平分布；

提取器引擎，所述提取器引擎被适配用于从附加源提取相关数据，所述相关数据与所述确定的未被表示的类别相关；

相似性引擎，所述相似性引擎被适配用于从所述相关数据中选择数据集，其中所述相似性引擎还被适配成用于将所述相关数据的特征与所述未被充分表示的类别代表性数据集的特征进行比较；以及

递归单元，所述递归单元被适配成用于触发所述评估器引擎、所述提取器引擎和所述相似性引擎将所选择的数据集合作为输入数据，直到所述评估器引擎以高于置信度阈值水平的置信度水平对所述所选择的数据集合进行分类。

2.如权利要求1所述的计算机系统，其中，所述输入数据是图像数据。

3.如权利要求2所述的计算机系统，其中，从视频数据中提取所述图像数据。

4.如权利要求1或2所述的计算机系统，其中，确定未充分表示的类别是基于所述预测类别与其他类别之间的差的函数。

5.如权利要求1至3中任一项所述的计算机系统，其中，所述附加数据是所述训练数据和常规输入数据外部的数据。

6.如权利要求1至4之一所述的计算机系统，进一步包括：

标记单元，所述标记单元被适配用于如果所述评估器以高于置信阈值水平的置信水平对所述选择的数据集进行分类，则将所述选择的数据集标记为附加训练数据集。

7.如权利要求6所述的计算机系统，其中，所述标记单元还被适配用于使用与未充分表示的类别相关的所述标记来注释所述附加的训练数据集。

8.如权利要求1至7之一所述的计算机系统，其中，所述递归单元被适配用于如果已经发生预定义数量的递归则停止该触发。

9.如权利要求1至8之一所述的计算机系统，其中，所述评估器引擎连接至知识图系统。

10.如权利要求9所述的计算机系统，其中，所述提取器引擎连接至所述知识图系统。

11.一种计算机实现的方法，包括：

提供利用训练数据进行训练以构建用于将未知输入数据分类到预测类别中的模型的分类器系统；

通过确定所述预测的置信度水平分布来确定所述预测类别中未被充分表示的类别；

从附加源提取相关数据，所述相关数据与所述确定的未被充分表示的类别相关，

通过将所述相关数据的特征与所述未充分表示的类别的代表性数据集的特征进行比较来从所述相关数据中选择数据集；以及

通过将所述选择的数据集作为输入数据来重复所述评估、所述提取和所述选择，直到所述选择的数据集以高于置信度阈值水平的置信度水平被分类。

12.如权利要求11所述的计算机实现方法，其中，所述输入数据是图像数据。

13.如权利要求12所述的计算机实现方法，其中，从视频数据中提取所述图像数据。

14.如权利要求11至13之一所述的计算机实现的方法，其中，确定未充分表示的类别是基于所述预测类别与其他类别之间的差的函数。

15.如权利要求11至14之一所述的计算机实现方法，其中，所述附加数据是所述训练数据和常规输入数据外部的数据。

16.如权利要求11至15之一所述的计算机实现方法，进一步包括：

如果所述选择的数据集被分类为具有高于置信度阈值水平的置信度水平，则将所述选择的数据集标记为附加训练数据集。

17.如权利要求16所述的计算机实现方法，其中，所述标记进一步包括：

使用与未充分表示的类别相关的所述标记来注释所述附加的训练数据集。

18.如权利要求11至17之一所述的计算机实现方法，其中，如果预定义数量的递归已经发生，则停止所述重复。

19.如权利要求11至18之一所述的计算机实现方法，其中，所述评估是访问知识图系统。

20.如权利要求19所述的计算机实现方法，其中，所述提取是访问所述知识图系统。

21.一种计算机程序产品，包括：

计算机可读存储介质，具有随其包含的程序指令，所述程序指令可由一个或多个计算系统或控制器执行以促使所述一个或多个计算系统：

提供利用训练数据进行训练以构建可用于将未知输入数据分类到预测类别中的模型的分类器系统，；

通过确定所述预测的置信度水平分布来确定所述预测类中的未充分表示的类别；

从附加源提取相关数据，所述相关数据与所述确定的未充分表示的类别相关；

通过将所述选择的数据集作为输入数据来重复所述评估步骤、所述提取步骤和所述选择步骤，直到所述选择的数据集以高于置信度阈值水平的置信度水平被分类。