CN115244587A

CN115244587A - 高效基础事实注释

Info

Publication number: CN115244587A
Application number: CN202180018455.4A
Authority: CN
Inventors: P·斯塔尔; M·多尔菲; C·奥尔; L·乔治普洛斯; R·卡斯特纳; A·维利舍夫; D·诺盖尔伊达尔戈; R·库兹涅佐娃; K·贝卡斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-03-06
Filing date: 2021-01-28
Publication date: 2022-10-25
Also published as: DE112021000392T5; IL294854A; CA3165134A1; GB2609126A; AU2021231419A1; JP2023516120A; GB202214681D0; US20210279636A1; WO2021176282A1; AU2021231419B2; US11556852B2; KR20220133914A

Abstract

一种用于确定要被注释以训练机器学习应用的目标项的集合的计算机实现的方法。该方法包括提供具有数据样本的集合的训练数据集和具有分类器的自动编码器。自动编码器包括将数据样本的集合映射到压缩特征向量的集合的嵌入模型。压缩特征向量的集合定义了压缩特征矩阵。进一步提供了：定义与所述压缩特征矩阵相关联的图，应用聚类算法以识别所述图的节点聚类并且应用中心性算法以识别所述节点聚类的中心节点，从注释者节点检索用于所述中心节点的节点标签，将注释节点标签传播到所述图的其他节点，并且利用注释节点标签和传播节点标签执行所述嵌入模型和分类器的训练。

Description

高效基础事实注释

技术领域

本发明涉及一种用于确定要注释的目标项集合以训练机器学习应用的计算机实现的方法。

本发明还涉及相应的系统和相应的计算机程序产品。

背景技术

当前的监督机器学习算法可能非常需要数据，即它们可能需要大量的注释数据以便被成功训练。对于在工业环境中应用这种算法来说，这可能是有问题的，因为大多数行业不维护大的注释数据集，并且由于需要合格的主题专家，注释大的数据集的成本通常是相当大的。这种注释的训练数据也可以称为基础事实(ground truth)。

因此，需要便于以高效方式生成这样的基础事实(特别是从大的数据集生成这样的基础事实)的方法。

发明内容

根据实施例，本发明被实现为一种用于确定要被注释以用于训练机器学习应用的目标项的集合的计算机实现的方法。该方法包括提供包括数据样本的集合的训练数据集。数据样本的集合包括多个数据项，例如像素。该方法还包括提供自动编码器。自动编码器包括分类器。该方法包括执行自动编码器的嵌入模型的初始训练，其中嵌入模型被配置为将数据样本的集合映射到压缩特征向量的集合。特征向量包括特征元素。压缩特征向量的集合定义数据样本的集合的压缩特征矩阵。该方法包括提供与压缩特征矩阵相关联的图的定义，应用聚类算法以识别图的一个或多个节点聚类，以及应用中心性算法以识别一个或多个节点聚类的一个或多个中心节点。该方法包括从注释者检索用于一个或多个节点聚类的一个或多个中心节点的一个或多个节点标签。这创建了注释节点标签。

该方法包括将一个或多个中心节点的注释节点标签传播到图的其他节点，从而创建传播节点标签并执行自动编码器的进一步训练。自动编码器的进一步训练包括用注释的和传播的节点标签训练自动编码器的嵌入模型和自动编码器的分类器。分类器被配置为预测压缩特征向量的元素的一个或多个节点标签。

这种具体化的方法可以允许以先进的方式生成基础事实。

特别地，根据本发明的实施例的方法可以确定数据样本集合的一个或多个目标项，应当对其进行注释以便以有效的方式训练机器学习应用，特别是以可接受的准确度、召回率和/或精确度。根据实施例，一个或多个目标项目建立数据样本集合的受限项目集合。根据实施例，受限将意味着与整个数据项集合相比，仅需要注释少数或非常少的数据项。因此，根据本发明的实施例的方法可以便于自动确定训练数据集中应当被注释的最相关数据项。

根据实施例，该方法还包括在一个或多个迭代循环中重复聚类算法的应用、中心性算法的应用、注释标签的传播以及自动编码器的进一步训练的执行，直到收敛。

重复上述迭代直到收敛可以用于验证已经正确地选择了聚类的中心节点及其注释。根据实施例，收敛将意味着根据一个或多个预定义的标准，训练的嵌入模型不再改变。

根据实施例，该方法还包括输出收敛之前的上一个迭代循环的一个或多个节点标签作为要注释的目标项的集合。输出的标签建立训练数据集中的目标项的集合，其应当由人工注释者来注释，以便生成有利的训练数据集。在这方面，有利的训练数据集应当特别地被理解为针对相应的机器学习应用提供良好训练结果的训练数据集。

根据实施例，该方法还包括重复从一个或多个注释者检索用于一个或多个聚类的一个或多个中心节点的节点标签。这种重复的检索一方面可以用于为较早的注释进行确认。此外，在所确定的节点聚类在迭代循环期间已经在预定义的程度上改变的情况下，从注释者获得额外的反馈可能是特别有用的。

与压缩特征矩阵相关联的图的定义促进了基于图的分析的使用以分析压缩特征矩阵。根据实施例，该图由邻接矩阵定义。邻接矩阵被定义为压缩特征矩阵和压缩特征矩阵的转置的乘积。

根据实施例，应用聚类算法包括应用基于图的聚类算法。这种基于图的聚类算法可以用于以高效的方式来识别图的聚类。存在多个本领域技术人员已知的基于图的聚类算法，可以根据实施例根据相应的训练数据集来选择这些聚类算法。特别适合的基于图的聚类算法可以包括k-生成树或最小生成树算法、共享最近邻居算法、基于中介中心性的算法或谱聚类算法。

根据实施例，应用中心性算法包括应用基于图的中心性算法。这种基于图的中心性算法可以用于以高效的方式来识别图的聚类的中心节点。存在本领域技术人员已知的多个基于图的中心性算法，其可以根据实施例根据相应的训练数据集和图的聚类来选择。一种特别适合的基于图的中心性算法包括对邻接矩阵的矩阵指数和随机探测向量的乘积进行近似，基于矩阵指数和随机探测向量的乘积计算邻接矩阵的对角线，以及基于所计算的对角线计算节点中心性，直到已经检测到一个或多个中心节点中预定数目的中心节点。

根据另一实施例，提供了一种用于执行计算机实现的方法的系统，该方法用于执行机器学习应用。该系统包括处理器和计算机可读存储器。该系统被配置为提供包括数据样本的集合的训练数据集，提供自动编码器，该自动编码器包含分类器，并且执行自动编码器的嵌入模型的初始训练。嵌入模型被配置成将数据样本的集合映射到包括特征元素的压缩特征向量的集合。压缩特征向量的集合定义数据样本的集合的压缩特征矩阵。该系统还被配置为提供与压缩特征矩阵相关联的图的定义，应用聚类算法以识别图的一个或多个节点聚类，应用中心性算法以识别一个或多个节点聚类的一个或多个中心节点，以及从注释者检索用于一个或多个节点聚类的一个或多个中心节点的一个或多个节点标签。这创建了注释节点标签。该系统还被配置为将一个或多个中心节点的注释节点标签传播到图的其他节点，从而创建传播节点标签。该系统还被配置成执行自动编码器的进一步训练。进一步训练包括利用注释的和传播的节点标签来训练自动编码器的嵌入模型和自动编码器的分类器，其中分类器被配置为预测压缩特征向量的元素的一个或多个节点标签。

根据另一实施例，提供了一种用于由包括处理器和计算机可读存储器的系统确定要注释的目标项的集合以训练机器学习应用的计算机程序产品。计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有随其体现的程序指令，该程序指令可由系统执行以使系统执行包括提供包括数据样本的集合的训练数据集的方法。数据样本的集合包括多个数据项，例如像素。该方法还包括提供自动编码器。自动编码器包括分类器。该方法包括执行自动编码器的嵌入模型的初始训练，其中嵌入模型被配置为将数据样本的集合映射到压缩特征向量的集合。特征向量包括特征元素。压缩特征向量的集合定义数据样本的集合的压缩特征矩阵。该方法包括提供与压缩特征矩阵相关联的图的定义，应用聚类算法以识别图的一个或多个节点聚类，以及应用中心性算法以识别一个或多个节点聚类的一个或多个中心节点。该方法包括从注释者检索用于一个或多个节点聚类的一个或多个中心节点的一个或多个节点标签。这创建了注释节点标签。该方法包括将一个或多个中心节点的注释节点标签传播到图的其他节点，从而创建传播节点标签并执行自动编码器的进一步训练。自动编码器的进一步训练包括用注释的和传播的节点标签训练自动编码器的嵌入模型和自动编码器的分类器。分类器被配置为预测压缩特征向量的元素的一个或多个节点标签。

根据另一实施例，提供了一种用于训练机器学习应用的计算机实现的方法。该方法包括提供训练数据集，训练数据集包括数据样本的集合和到注释者的要被注释目标项的集合，接收具有注释的目标项的训练数据集，以及利用包括注释的目标项的训练数据来训练机器学习应用的认知模型。进一步的实施例涉及可通过用于训练机器学习应用的方法获得的训练数据集和可通过用于训练机器学习应用的方法获得的认知模型。

下面将参考附图，通过说明性和非限制性示例，更详细地描述本发明的实施例。

附图说明

图1a、图1b和图1c示出了根据本发明的实施例的计算机实现的方法；

图2a示出了图1a、1b和1c中所示方法的相应流程图；

图2b示出了用于利用训练数据集来训练机器学习应用的计算机实现的方法；

图2c示出了用于执行机器学习应用的计算机实现的方法；

图3示出了可以用于执行如图1a、1b、1c以及图2a、2b和2c中所示的计算机实现的方法的计算系统的示意性框图；

图4示出了在训练期间由自动编码器执行的映射；

图5示出了根据本发明实施例的自动编码器的示例性框图；

图6示出了根据本发明实施例的计算机实现的方法将被应用于其上的图；以及

图7示出了根据本发明实施例的服务器的更详细的框图。

具体实施方式

参考图1-7，描述了本发明实施例的一些一般术语。

术语“基础事实”通常可以指通过直接观察(即经验证据)提供的信息，而不是通过推断提供的信息。

本发明的实施例提供了一种计算机实现的方法，用于以有效的方式生成用于机器学习算法和应用的基础事实和训练数据。

图论是对图的研究，图(graph)是用于对对象之间的成对关系建模的数学结构。在这种情况下的图由顶点或节点以及连接它们的被称为边的线构成。图广泛地用于对在物理、生物、社会和信息系统中的许多类型的关系和过程动态进行建模的应用中。因此，现代技术、科学和商业应用中的许多实际问题通常由图来表示。

节点的中心性是广泛使用的度量，用于确定节点在完整网络或图中的相对重要性。节点中心性可以用于确定在复杂网络中哪些节点是重要的，例如，以理解影响者或找出热点链路。例如，节点中心性通常用于确定某人在社交网络内影响力如何，或者在空间语法的理论中，房间在建筑物内有多重要或者道路在城市网络内使用得有多好。

图1a、1b和1c示出了根据本发明的实施例的计算机实现的方法。

图2a示出了图1a、1b和1c中所示方法的相应流程图。图3示出了可以用于执行如图1a、1b、1c和2a所示的计算机实现的方法的计算系统的示意性框图。

首先参考图3，它示出了计算系统300，其包括被配置成运行机器学习应用程序(MLAP)311的服务器310、用于训练应用程序的机器学习训练程序(MLTP)312、以及目标项确定程序(TIDP)313，用于确定应当被注释以便以高效的方式生成用于机器学习应用的训练数据集的大数据集的目标项。机器学习应用程序311特别地可以是深度学习应用。

服务器310与数据库320耦合。数据库320可以包括用于存储一个或多个数据集，特别是大的数据集的存储器321。存储在存储器321中的数据集特别地可以是迄今为止尚未注释的数据集。因此，存储在存储器321中的数据集也可以表示为初始数据集、原始数据集或初始训练数据集。每个数据集可以包括多个数据样本。多个数据样本可以包括例如各种类型的图像(例如{猫，狗}，{线图，散点图，直方图，地质图或文本(句子，段落，全文本))。多个数据样本中的每一个可以包括多个数据项，例如多个像素。

数据库320还包括用于存储训练数据集的存储器322。训练数据集可以通过初始或原始数据集的多个数据样本中的一个或多个目标项的注释从初始或原始数据集导出。

系统300还包括扫描机器330。扫描机器330可以提供扫描以及打印功能。因此，扫描机器330也可以表示为扫描/打印机。系统300还包括用户设备340。用户设备340可以包括显示器和用户输入装置，例如键盘，以向系统300的用户提供用户接口。用户设备340可以特别地包括应用编程接口(API)341，其适于向在服务器310上运行的程序311、312和313提供接口。

服务器310、扫描机器330和用户设备340耦合到网络350，并且可以经由网络350彼此通信。网络350可以被实现为局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)。

现在参考图1a和2a，该方法从方框201开始。在块201，提供初始训练数据集。初始训练数据集通常可以是应当被注释以便提供注释的训练数据集作为机器学习应用程序的基础事实的任何数据集。初始训练数据集可以存储在数据库320的存储器321中，并且其可以例如经由网络350被接收。

此外，在块202，提供自动编码器100，并且在块203，提供将由自动编码器100提供的压缩特征矩阵的图的定义。

自动编码器100包括嵌入模型和分类器。自动编码器100可被实现为神经网络，该神经网络被配置成学习训练数据集的数据样本的高效编码或换言之高效表示。自动编码器100可以包括几个隐藏层。

在块204，自动编码器100执行其嵌入模型的初始训练。初始训练是用包括多个数据样本的初始数据集执行的，例如存储在数据库320的存储器321中的数据集。自动编码器100的嵌入模型被配置成将该组数据样本映射到包括特征元素的一组压缩特征向量。自动编码器100的嵌入模型在块204是无监督嵌入模型。

更具体地，现在参考图1b，自动编码器100将数据样本的输入向量110映射到压缩特征向量111。该映射也可以表示为编码。压缩的特征向量建立用于输入向量110的代码。

输入向量110包括多个向量元素，例如图像的多个像素。与编码侧一起，自动编码器被配置为学习解码侧，以便将编码解码回对应于数据样本*的输出向量112。更具体地说，自动编码器100的目的是对编码/压缩特征向量进行解码，使得输出向量112和对应的数据样本*尽可能接近输入向量110和输入数据样本。压缩特征向量111的大小，例如压缩特征向量111的元素数目，定义了自动编码器100的编码维度。

自动编码器100被配置成将每个数据样本及其相应的输入向量映射成压缩特征向量。该组压缩特征向量定义该组数据样本的压缩特征矩阵M_C。压缩特征矩阵M_C的大小为“编码维度*数据样本数”，或换句话说，其通过级联数据样本集合的所有压缩特征向量111而建立。作为简单的例子，如果数据集包括映射到压缩特征向量V₁、V₂、V₃、V₄和V₅的5个数据样本，则压缩特征矩阵M_C如下：

M_C＝(V₁V₂V₃V₄V₅)

或者更一般地，如果数据集包括N个数据样本，则压缩特征矩阵M_C包括N个特征向量V₁、…V_N。在块203定义的图可以根据实施例由邻接矩阵A定义。邻接矩阵A可以由压缩特征矩阵M_C和压缩特征矩阵的转置M_C ^T的乘积定义，即：

A＝M_C*M_C ^T

示例性的图如图1c中的图120所示。在嵌入模型的初始训练之后，在块205，该方法应用聚类算法来识别图的一个或多个聚类。

根据本发明实施例的聚类算法的目的在于识别由邻接矩阵A定义的图中的一个或多个聚类。通常，聚类算法以使得同一分组(聚类)中的对象根据一些预定标准相比其它分组(其它聚类)中的对象彼此更相似的方式，执行对一组对象进行分组的任务。

多个聚类算法对于本领域技术人员是已知的，其可以根据实施例根据相应的数据集来选择。根据实施例，可以使用特别适合于对图进行聚类的聚类算法。这种基于图的聚类算法可以包括K-生成树或最小生成树算法、共享最近邻居算法、基于中介中心性的算法或谱聚类算法。

参考图1c，示出了用黑色节点指示的第一聚类130和用灰色节点指示的第二聚类140。

接下来，在框206，计算机实现的应用中心性算法来识别一个或多个节点聚类(例如图1c的聚类130和140)的一个或多个中心节点。参照图1c，已经识别了聚类130的中心节点130c和聚类140的中心节点140c。

在图分析中，节点的中心性是广泛使用的度量，以确定节点在完整网络或图内的相对重要性。节点中心性可以用于确定哪些节点在复杂网络中是重要的，以理解影响者或找出热点链路。例如，节点中心性通常用于确定某人在社交网络内影响力如何，或者在空间语法的理论中，房间在建筑物内有多重要或者道路在城市网络内使用得有多好。

多个中心性算法对于本领域技术人员是已知的，其可以根据实施例根据相应的数据集来选择。根据实施例，可以使用特别适合于图的中心性算法。

根据实施例，可以使用基于图的聚类算法，其包括对定义图的邻接矩阵的随机探测向量和矩阵指数的乘积进行近似。基于图的聚类算法还包括基于矩阵指数和随机探测向量的乘积来计算邻接矩阵的对角线，并且基于所计算的对角线来计算节点中心性，直到已经检测到一个或多个中心节点中预定义数量的中心节点。US 2014/0351307A1中详细描述了这种方法，其全部内容通过引用并入本文。

根据进一步实施例的用于计算节点中心性的替代方法可以采样图的节点，以试图减少节点的数量并因此减少计算复杂度。

根据实施例，多个度量可以用于定义中心性，并且可以使用多个对应的中心性算法。这样的度量包括例如图的度中心性、中介中心性、紧密中心性和特征向量中心性。

然后，在块207，要求人工注释者注释中心节点130C和140C。对于该注释，例如原始图像的原始数据样本的对应部分也被显示给人工注释者。人工注释者将标签作为注释分配给中心节点130c和140c。通常，一个或多个标签可以与图的任何给定节点相关联，其中每个这样的标签指示对应于该节点的项的某一特性。例如，特定标签的值可以指示由图表示的系统中的项目的类型、分类、属性、特征等。标签可以是例如图像的相应部分的内容。作为示例，注释者可以将中心节点130c标记为“dog”，并且将中心节点140c标记为“cat”。计算机实现的程序例如经由如图3中所示的用户设备340接收这些标签作为注释。结果，已创建了注释节点标签。在图1c的示例中，可以表示例如标签“cat”的节点130c的注释节点标签由实线环示出，而可以表示例如标签“dog”的节点140c的注释节点标签由虚线环示出。

在框208，程序执行注释节点标签到图的其他节点(更具体地，到所识别的聚类130和140的其他节点)的标签传播。这已经创建了如图1c中用实线或虚线环示出的传播节点标签。

标签传播在网络科学的许多应用中具有重要作用，包括链路预测、推荐系统、社区检测、种子集扩展、半监督学习等等。根据实施例，可以使用多个标签传播算法。根据实施例，可以通过将传播函数应用于注释的节点标签来执行标签传播操作。传播函数通常可以是定义图的矩阵X的函数，特别是图的邻接矩阵A的函数，或者是从邻接矩阵导出的矩阵，例如对应的拉普拉斯矩阵或其函数。

已知许多不同的传播函数。根据实施例可以使用的已知传播函数的特定示例包括指数核(e^αA)和冯·诺依曼核(I-αA)^-1的变型，其中I是单位矩阵。这种已知的传播函数基于同质性的假设，同质性是图中的元素与共享相同性质的其他元素连接的概念，并且通过扩展，类似的元素通过(多个)短路径链接。

根据实施例，传播函数可被定义为切比雪夫扩展f(X)＝Σ_j＝0c_j P_j(X)，其中P_j是第j个切比雪夫多项式。

然后，在块209，计算机实现的方法执行自动编码器100的进一步训练。进一步的训练使用注释和传播的节点标签。更具体地说，自动编码器100还包括分类器102，其被配置成预测压缩特征向量的元素的节点标签。压缩特征向量的元素对应于图120的节点。进一步训练包括利用注释的和传播的节点标签来训练自动编码器100的嵌入模型以及自动编码器100的分类器102。这将在下面更详细地进一步解释。

然后，在一个或多个迭代方框S210，计算机实现的迭代上述方框，更具体地，迭代应用聚类算法的方框205、应用中心性算法的方框206、检索中心节点的注释的方框207、传播注释标签的方框208和执行自动编码器100的进一步训练的方框209，直到收敛。在这方面，收敛将意味着聚类130和140已经根据预定的收敛标准以充分的方式彼此分离。更具体地说，在每次迭代之前，在块210检查是否已经满足预定的收敛标准。

应当注意，根据实施例，迭代循环可以不包括检索用于中心节点的注释的块207。这可以在迭代循环期间根据需要可选地执行或重复。特别地，如果在应用聚类和中心性算法的第一或后续步骤中已经被识别的聚类的中心节点没有改变，则可能不需要对这些中心节点/聚类的进一步人工注释。

如果已经满足预定义的收敛标准，则计算机实现的方法在块211输出已经在之前的迭代循环中注释的节点标签的集合。在图1c所示的示例中，这些将仅仅是对应于标签“cat”和“dog”的虚线环和实线环的两个节点标签。

节点标签的输出建立了应当在训练数据集中注释以便成功地训练机器学习算法的目标项的集合。训练数据集然后可被提交给一个或多个人工注释者以执行(有限的)注释任务来仅标记训练数据集中所确定的目标项的集合。在上述示例中，这将意味着人工注释者仅需要标记训练数据集的数据样本中的“cat”和“dog”。

所生成的包括经注释的目标项的训练数据集随后建立了如图2b中所示用于训练机器学习应用的基础事实。

在框221处，例如由机器学习训练程序312接收训练数据集。训练数据集包括如上所述的目标项目的集合的注释。在框222处，机器学习训练程序312利用训练数据集来训练机器学习应用程序311的认知模型。

在块223，机器学习训练程序312提供经训练的认知模型作为输出。

现在参考图2c，提供了用于执行机器学习应用的计算机实现的方法230。该方法可以例如由如图3中所示的机器学习应用程序311来执行。

在框231处，机器学习应用程序311例如从机器学习训练程序312接收经训练的认知模型。

在块232处，机器学习应用程序311使用认知模型来执行机器学习应用。

在块233，机器学习应用程序311提供机器学习应用程序的输出。

如图2c中所示的计算机实现的方法230建立机器学习应用及其底层算法的推断阶段。

图4和5更详细地示出了根据本发明实施例的自动编码器100的功能和结构。在这方面，图4更详细地示出了在训练步骤209期间由自动编码器100执行的映射，图5示出了自动编码器100的示例性框图。

参考图4，自动编码器100一方面执行数据样本的输入向量110到相应的压缩特征向量111的映射。并且如前所述，自动编码器被配置成学习解码侧以便将编码解码回对应的输出向量112。另外，自动编码器100还被配置为考虑在当前迭代循环期间已经按注释或传播分配的标记。更具体地说，自动编码器100还在块209执行压缩特征向量到在当前迭代循环中已经分配(按照注释和/或传播)的标签的标签映射。换句话说，自动编码器100预测压缩特征向量111的各个元素的节点标签。利用分类器102执行节点标签的预测。由于自动编码器100在块209还考虑了类标签，因此它可以被表示为语义自动编码器。根据实施例，可以将语义自动编码器视为由从图中预测的标记“监督”的自动编码器。

因此，现在参考图5，可以根据实施例将自动编码器100描述为将输入矢量编码成压缩特征矢量并将其解码回输出矢量的常规自动编码器101。此外，自动编码器100包括分类器102，并且其还通过其嵌入模型来预测压缩特征向量的标签。作为训练块209的结果，已经计算了更新的嵌入模型，其将被用于下一迭代循环。

图6示出了根据本发明实施例的计算机实现的方法将被应用于其上的图600。图600还可以由邻接矩阵来定义，该邻接矩阵由压缩特征矩阵M_C和压缩特征矩阵的转置M_C ^T的乘积来定义，如上面参考图1c所解释的。根据本发明实施例的方法首先应用如参考框205所描述的聚类算法来识别图的一个或多个聚类。在该示例中，示出了用黑色节点指示的第一聚类610和用灰色节点指示的第二聚类620。然后，如参考框206所述，计算机实现的应用中心性算法来识别一个或多个节点聚类(即，聚类610和620)的一个或多个中心节点。在图6中，已经识别了聚类610的中心节点610c和聚类620的中心节点620c。

现在，根据该实施例的方法包括识别一个或多个边界节点。边界节点可以被定义为位于两个聚类之间的边界处的节点，即位于聚类610和620之间的边界处的节点。边界节点可以借助于本领域技术人员已知的各种方法和算法通过预定标准来计算或确定。

在图6中，以示例性方式假设算法已经计算聚类610的节点610b作为边界节点，以及聚类620的两个节点620b作为边界节点。

根据实施例，该方法还可以包括从一个或多个注释者检索用于一个或多个边界节点的节点标签。在图6的示例中，可以表示例如标签“cat”的边界节点610b的注释节点标签由实线环示出，并且可以表示例如标签“dog”的边界节点620b的注释节点标签由虚线环示出。在该示例中，这些分别对应于聚类610和620的相应中心节点610c和620c的标签。

根据进一步的实施例，该方法可以包括识别距一个或多个聚类的一个或多个最远节点。最远的节点可以被定义为相应聚类的离相应聚类的中心节点最远的节点。最远的节点可以通过本领域技术人员已知的各种方法和算法，由预定标准计算或确定。

在图6中，以示例性方式假设算法已经计算聚类610的节点610f作为最远节点，以及节点620f作为聚类620的最远节点。

根据实施例，该方法还可以包括从一个或多个注释者检索用于一个或多个最远节点的节点标签。在图6的示例中，可以表示例如标签“cat”的最远节点610f的注释节点标签由实线环示出，并且可以表示例如标签“dog”的最远节点620f的注释节点标签由虚线环示出。在该示例中，这些分别与聚类610和620的相应中心节点610c和620c的标签相对应。

现在参考图7，示出了服务器310的更详细的实施例。服务器310可以与许多其它计算系统环境或配置一起操作。适合与服务器310一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。特别地，服务器310与系统300的扫描机器330和系统300的用户设备340一起操作，如图3所示。

服务器310可以在计算机系统可执行指令的一般上下文中描述，诸如由计算机系统执行的程序模块。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。服务器310以通用计算设备的形式示出。服务器310的组件可以包括但不限于一个或多个处理器或处理单元716、系统存储器728以及将包括系统存储器728的各种系统组件耦合到处理器716的总线718。

总线718表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制，这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线。

服务器310通常包括各种计算机系统可读介质。这样的介质可以是可由服务器310访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)730和/或高速缓冲存储器732。服务器310还可以包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统734可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是可以提供用于从可移动、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这样的实例中，每个可以通过一个或多个数据介质接口连接到总线718。如下面将进一步描绘和描述的，存储器728可以包括至少一个程序产品，该程序产品具有被配置成执行本发明的实施例的功能的一组(例如，至少一个)程序模块。

作为示例而非限制，具有一组(至少一个)程序模块742的程序/实用程序740以及操作系统、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器728中。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块742通常执行这里描述的本发明的实施例的功能和/或方法。程序模块742可以具体地执行根据本发明的实施方式的用于确定要被注释以训练机器学习应用的目标项集合的计算机实现的方法的一个或多个步骤，例如，如参考图S所描述的方法的一个或多个步骤。2a、2b和/或2c。程序模块742可具体地包括如参考图3以及图2a、2b和2c中的相应流程图所描述的程序311、312和313。

服务器310还可以与一个或多个外部设备715通信，诸如键盘、指示设备、显示器724等；一个或多个设备，其使得用户能够与服务器310交互；和/或使服务器310能够与一个或多个其它计算设备通信的任何设备(例如，网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口722发生。而且，服务器310可以经由网络适配器720与一个或多个网络通信，诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)。如所描绘的，网络适配器720经由总线718与服务器310的其他组件通信。应当理解，尽管未示出，但是可以结合服务器310使用其他硬件和/或软件组件。实例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使服务器310和/或用户设备340的处理器/处理单元执行本发明的实施例。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的实施例，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的实施例。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的实施例的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种计算机实现的方法，包括：

提供包括数据样本的集合的训练数据集；

提供自动编码器，所述自动编码器包含分类器；

执行自动编码器的嵌入模型的初始训练，嵌入模型被配置为将数据样本的集合映射到包括特征元素的压缩特征向量的集合，压缩特征向量的集合定义数据样本的集合的压缩特征矩阵；

提供与所述压缩特征矩阵相关联的图的定义；

应用聚类算法来识别所述图的一个或多个节点聚类；

应用中心性算法来识别所述一个或多个节点聚类的一个或多个中心节点；

从注释者检索用于所述一个或多个节点聚类的所述一个或多个中心节点的一个或多个节点标签，从而创建注释节点标签；

将所述一个或多个中心节点的注释节点标签传播到所述图的其他节点，从而创建传播节点标签；以及

执行所述自动编码器的进一步训练，所述进一步训练包括

利用注释节点标签和传播节点标签来训练所述自动编码器的所述嵌入模型和所述自动编码器的所述分类器，其中所述分类器被配置为预测所述压缩特征向量的所述元素的所述一个或多个节点标签。

2.根据权利要求1所述的方法，所述方法还包括：

在一个或多个迭代循环中，重复聚类算法的应用、中心性算法的应用、注释标签的传播以及自动编码器的进一步训练的执行，直到收敛。

3.根据权利要求2所述的方法，还包括输出收敛之前的上一迭代循环的一个或多个节点标签作为要注释的目标项的集合。

4.根据权利要求1所述的方法，所述方法还包括：

重复从一个或多个注释者检索用于所述一个或多个节点聚类的所述一个或多个中心节点的节点标签。

5.根据权利要求1所述的方法，其中所述图由邻接矩阵定义，所述邻接矩阵是所述压缩特征矩阵与所述压缩特征矩阵的转置的乘积。

6.根据权利要求1所述的方法，其中应用所述聚类算法包括应用基于图的聚类算法。

7.根据权利要求1的方法，其中应用中心性算法包括应用基于图的中心性算法。

8.根据权利要求6所述的方法，其中所述基于图的聚类算法选自包括如下的组：

K-生成树或最小生成树算法；

共享最近邻居算法；

基于中介中心性的算法；以及

谱聚类算法。

9.根据权利要求1所述的方法，其中所述基于图的中心性算法包括：

对邻接矩阵的矩阵指数和随机探测向量的乘积进行近似；

基于所述矩阵指数和所述随机探测向量的乘积来计算所述邻接矩阵的对角线；以及

基于所计算的对角线计算节点中心性，直到检测到所述一个或多个中心节点中预定义数量的中心节点。

10.根据权利要求1所述的方法，所述方法还包括：

识别一个或多个边界节点，所述边界节点被定义为位于所述聚类中的两个聚类之间的边界处的节点。

11.根据权利要求10所述的方法，所述方法还包括：

从一个或多个注释者检索用于所述一个或多个边界节点的节点标签。

12.根据权利要求1所述的方法，所述方法还包括：

识别所述一个或多个聚类的一个或多个最远节点。

13.根据权利要求12所述的方法，所述方法还包括：

从一个或多个注释者检索用于所述一个或多个聚类的一个或多个最远节点的节点标签。

14.根据权利要求1所述的方法，其中传播所述注释节点标签的步骤包括将传播函数应用于所述注释节点标签，其中所述传播函数是所述邻接矩阵的函数。

15.根据权利要求14所述的方法，其中所述传播函数被定义为切比雪夫扩展f(X)＝Σ_j＝0c_j P_j(X)，其中P_j是第j个切比雪夫多项式。

16.根据权利要求1所述的方法，其中所述机器学习应用是深度学习应用。

17.一种方法，包括：

提供训练数据集，所述训练数据集包括数据样本的集合和到注释者的要被注释的目标项的集合；

接收具有注释目标项的训练数据集；以及

利用包括所述注释目标项的训练数据来训练所述机器学习应用的认知模型。

18.一种训练数据集，包括：

数据样本的集合和到注释者的要被注释的目标项的集合；以及

由所述注释者注释的注释目标项。

19.根据权利要求18所述的训练数据集，还包括：

从所述注释者接收注释训练数据集；以及

利用包括所述注释目标项的所述训练数据来训练所述机器学习应用的认知模型。

20.一种包括用于执行计算机可读指令的一个或多个处理器的系统，所述计算机可读指令控制所述一个或多个处理器以执行操作，所述操作包括：

提供包括数据样本的集合的训练数据集；

提供自动编码器，所述自动编码器包含分类器；

提供与所述压缩特征矩阵相关联的图的定义；

应用聚类算法来识别所述图的一个或多个节点聚类；

执行所述自动编码器的进一步训练，所述进一步训练包括：

21.根据权利要求20所述的系统，所述系统还包括：

在一个或多个迭代循环中，重复所述聚类算法的应用、所述中心性算法的应用、注释标签的传播以及所述自动编码器的进一步训练的执行，直到收敛。

22.根据权利要求20所述的系统，所述系统还包括：

输出收敛之前的上一迭代循环的一个或多个节点标签作为要注释的目标项的集合。

23.根据权利要求21所述的系统，所述系统还被配置为

重复从一个或多个注释者检索用于所述一个或多个聚类的所述一个或多个中心节点的节点标签的步骤。

24.一种计算机程序产品，包括具有与其一起体现的程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使所述处理器执行操作，所述操作包括：

提供包括数据样本的集合的训练数据集；

提供自动编码器，所述自动编码器包含分类器；

提供与所述压缩特征矩阵相关联的图的定义；

应用聚类算法来识别所述图的一个或多个节点聚类；

执行所述自动编码器的进一步训练，所述进一步训练包括：

25.根据权利要求24所述的计算机程序产品，还包括：