CN103258239A

CN103258239A - 分类可靠性预测方法和装置

Info

Publication number: CN103258239A
Application number: CN2013100522435A
Authority: CN
Inventors: R·里诺特; N·斯洛宁; A·埃胡德
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-02-19
Filing date: 2013-02-18
Publication date: 2013-08-21
Anticipated expiration: 2033-02-18
Also published as: US20130218813A1; CN103258239B; US9087303B2; GB2500303A; DE102013202457A1; US9342789B2; US20150262070A1; GB201301447D0

Abstract

本发明涉及一种分类可靠性预测方法和装置。提供了对分类可靠性预测有用的方法、装置和产品。所述方法是一种由处理器执行的计算机实现的方法，所述方法包括：获得由分类器工具对数据集的标记进行的预测，其中所述分类器工具旨在根据分类模型并考虑定义所述数据集的一组特性来预测所述标记；根据可靠性分类器工具获得与所述分类器工具的所述预测相关的可靠性标记的可靠性预测，其中所述可靠性分类器工具旨在根据分类模型并考虑第二组特性来预测所述可靠性标记；以及向用户输出所述标记预测和关联的可靠性预测。

Description

分类可靠性预测方法和装置

技术领域

本公开一般地涉及机器学习，更具体地说，涉及估计根据分类算法提供的预测的可靠性。

背景技术

如本领域所公知的，机器学习技术可以用于针对给定数据进行预测。通常，分类算法是一种方法，其中训练数据集被提供给此算法并用于学习。在训练阶段之后，所述分类算法可以适合于手边的具体问题，并且能够针对新的（可选地未见过的）实例预测信息。

训练数据可以包括数据点样本，每个数据点假定使用一组由分类器使用的特性，以及要预测的标记。作为一个实例，如果预测某人的性别，则所述特性可以是身高、年龄、体重和名字。将指出的是，在某些情况下，某些特性对预测有用而其他特性可能没用。在此实例中，除了所述特性之外，还为每个数据点给出性别标记，以便使得分类器能够学习如何针对新数据点预测此类信息。

在结束训练阶段之后，给出数据点的特性并且分类器可以确定预测的标记。在某些情况下，可以给出反馈以便向分类器指示预测是否正确。

发明内容

所公开的主题的一个示例性实施例是一种由处理器执行的计算机实现的方法，所述方法包括：获得由分类器工具对数据集的标记进行的预测，其中所述分类器工具旨在根据分类模型并考虑定义所述数据集的一组特性来预测所述标记；根据可靠性分类器工具获得与所述分类器工具的所述预测相关的可靠性标记的可靠性预测，其中所述可靠性分类器工具旨在根据分类模型并考虑第二组特性来预测所述可靠性标记；以及向用户输出所述标记预测和关联的可靠性预测。

所公开的主题的另一个示例性实施例是一种具有处理器的计算机化装置，所述处理器适于执行以下步骤：获得由分类器工具对数据集的标记进行的预测，其中所述分类器工具旨在根据分类模型并考虑定义所述数据集的一组特性来预测所述标记；根据可靠性分类器工具获得与所述分类器工具的所述预测相关的可靠性标记的可靠性预测，其中所述可靠性分类器工具旨在根据分类模型并考虑第二组特性来预测所述可靠性标记；以及向用户输出所述标记预测和关联的可靠性预测。

所公开的主题的另一个示例性实施例是一种计算机程序产品，包括：保存程序指令的非瞬时性计算机可读介质，当由处理器读取时，这些指令导致所述处理器执行以下步骤：获得由分类器工具对数据集的标记进行的预测，其中所述分类器工具旨在根据分类模型并考虑定义所述数据集的一组特性来预测所述标记；根据可靠性分类器工具获得与所述分类器工具的所述预测相关的可靠性标记的可靠性预测，其中所述可靠性分类器工具旨在根据分类模型并考虑第二组特性来预测所述可靠性标记；以及向用户输出所述标记预测和关联的可靠性预测。

附图说明

从下面结合附图的详细说明，将更全面地理解和领会本公开的主题，其中对应或相同的数字或字符指示对应或相同的组件。除非另外指出，否则附图提供本公开的示例性实施例或方面，并且并非限制本公开的范围。这些附图是：

图1示出了根据所公开的主题的某些示例性实施例的假定使用两个特性的一组数据点的图示；

图2A-2C示出了根据所公开的主题的某些示例性实施例的用于预测预测可靠性的方法中的步骤的流程图；

图3A和3B示出了根据所公开的主题的某些示例性实施例的不同训练方案的流程图；以及

图4示出了根据所公开的主题的某些示例性实施例的计算机化装置的组件的方块图。

具体实施方式

下面将参考根据本主题的实施例的方法、装置（系统）和计算机程序产品的流程图和/或方块图对所公开的主题进行描述。将理解，所述流程图和/或方块图的方块以及所述流程图和/或方块图中的方块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机、被测试处理器或其他可编程数据处理装置的一个或多个处理器以产生机器，以便通过所述计算机或其他可编程数据处理装置的处理器执行的所述指令产生用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的装置。

这些计算机程序指令也可以被存储在能够引导计算机或其他可编程数据处理装置以特定方式执行功能的非瞬时计算机可读介质中，以便存储在所述非瞬时计算机可读介质中的所述指令产生一件包括实现在一个或多个流程图和/或方块图方块中指定的功能/操作的指令装置的制品。

所述计算机程序指令还可被加载到设备、计算机或其他可编程数据处理装置，以导致在所述计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的过程，从而在所述计算机或其他可编程装置上执行的所述指令提供用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的过程。

在本公开中，“分类器工具”是一种以软件、固件、硬件、它们的组合等实现的装置，它能够使用分类算法以便提供预测。将理解，所述分类器工具可提供离散标记组分类（例如，使用分类器算法，例如朴素贝叶斯、k最近邻、支持向量机、决策树、线性分类等）。此外或备选地，所述分类器工具可以提供连续输出（例如，连续分类算法，例如线性回归、逻辑回归、套索算法、LOESS等）。

所公开的主题处理的一个技术问题是估计与由分类器工具进行的预测关联的可靠性。在各种情况下，估计与每个预测关联的可靠性并标识不可靠的预测可以非常重要。例如，在试图预测最佳治疗的临床决策支持系统中，标识不可靠的预测可以帮助用户避免错误决策。

一种技术解决方案是使用单独的分类器工具（称为可靠性分类器工具或RCT）以便预测由分类器工具进行的预测的可靠性。所述RCT可以旨在区分所述分类器工具为其生成的预测可靠的实例与生成的预测不可靠的实例。

另一种技术解决方案是引入附加特性，它们未由分类器工具本身使用，并且可以包含有关可靠性的信息。此外或备选地，所述附加特性可能对执行预测本身没有用，而对预测可靠性仍然有用。在某些示例性实施例中，所述附加特性可以是原始分类操作的副产品，因此可能不可用于分类器工具本身。

在某些示例性实施例中，所述RCT和原始分类器工具（也称为CT）可以使用不同的分类算法。

另一种技术解决方案是提供训练方案以便训练RCT。在某些示例性实施例中，训练RCT可以基于针对同一数据点的多个预测。稳定性方案可以旨在根据考虑CT的不同训练数据的预测的稳定性来确定训练数据集的可靠性。此外或备选地，正确分数（fraction）方案可以旨在根据考虑CT的不同训练数据提供的预测的正确分数来确定训练数据集的可靠性。在某些示例性实施例中，可以根据所述CT针对正确标记进行的预测的正确/错误确定来提供可靠性指示，其可以作为所述训练集的一部分提供。

一个技术效果是所公开的主题是域通用的并且可用于任何分类方法之上。此外，并不限制针对原始分类任务使用一种类型的分类器，以及并不限制采用不同的分类算法作为RCT。

另一个技术效果是当使用不同的分类算法时，能够捕获与不同的不可靠性源关联的不可靠性。不可靠性的一个源可能是训练数据集不足，例如在训练阶段使用小样本或非代表性样本。不可靠性的另一个源可能是数据所固有的，例如以下情况：当至少针对CT使用的特性存在随机行为时。不可靠性的另一个源可能是分类算法本身进行的抽象或建模。不可靠性的不同源可能在不同的样本中具有不同的影响。

作为一个实例，考虑涉及根据血液化验结果将患者分类为病人和健康人的分类任务。现在假设在两个不同实验室的一个中分析血液样本，其中一个实验室被污染，从而在血液化验结果中介入了噪声。尽管实验室的标识与将患者分类为病人和健康人无关，但RCT可以使用它标识针对在被污染实验室中化验的患者进行的预测可靠性较低。在此实例中，不可靠性的源是某些数据所固有的，并且可能针对某些样本产生随机行为而不会针对其他样本产生随机行为。

作为另一个实例，不可靠性的源可能由于分类算法的建模导致，如在下文使用图1说明的那样。如可以理解的，不可靠性的源仅适用于数据点组中的某一区域。

作为另一个实例，不可靠性的源可能由于不足的训练数据集导致，例如使用小样本、使用非代表性样本等训练分类器。

现在参考图1，示出了假定使用两个特性的一组数据点的图示。CT可以确定不同标记之间的线性分隔。然而，分类算法有关存在这种线性分隔的固有假设可能不真实，如组100的情况。如可以理解的，没有线性线可以将标记X和标记Y实例分隔。然而，可以确定估计线110，估计线110针对区域120最有用，针对区域130（其中基于该区域的确定可能不可靠）不太有用。

如果RCT例如通过采用不同的算法、使用其他特性对组100建模等而不限于CT的假设，则RCT能够预测区域130中的数据点具有低的预测可靠性，区域120中的数据点具有高的预测可靠性。

将指出的是，可靠性预测不同于分类器正确的概率。在某些示例性实施例中，“可靠性”可以是提供有关以下内容的信息的度量：与随机分类器相比（例如，由通过随机标记的训练数据训练的同一分类器进行的预测），所述分类器进行的预测的准确性。

将理解，图1例示了CT所做的假设可能导致可靠性问题。仅作为实例提供图1，并且其他分类算法可通过其建模引入类似的可靠性问题。

如可以理解的，所公开的主题的某些实施例的技术效果因此是可以以自动方式标识不同的不可靠性源。

使用所公开的主题的另一个技术效果是能够检测由如下特性产生的不可靠性：在进行预测中没有用，因此在执行预测本身时可能不可用于CT。再次考虑在上文提供的实验室实例。实验室的标识在进行预测中没有用，尽管它在确定预测的可靠性中有用。作为另一个实例，某一实例的缺失值的百分比可能被确定为对分类没有用，然而当估计可靠性时它可能的确重要。

现在参考图2A，示出了根据所公开的主题的某些示例性实施例的用于训练RCT的方法中的步骤的流程图。

提供训练数据集（200）。所述训练数据集包括数据点（X）的特性和其关联的标记（Y）。为CT210提供用于对其训练的训练数据集（200）。根据可靠性标记定义（220）（例如稳定性方案、正确分数方案等），可以确定可靠性训练数据集（230）。所述可靠性训练数据集可以包括假定使用各组不同特性的数据点（X’）和针对预测可靠性的关联标记（Y’），如在（220）中确定的。可以为RCT240提供训练的可靠性训练数据集。

在某些示例性实施例中，可靠性标记定义（220）可以包括CT210获得针对数据集X的预测。根据所述预测，可以确定可靠性指示。

在某些示例性实施例中，X和X’指使用同一组特性的相同实例。备选地，X和X’可以指使用不同特性组的相同实例，以便X’包括附加特性，例如CT210的副产品、在预测中没有用但在可靠性预测中有用的特性等。此外或备选地，X可以包括未包括在X’中的特性。

在某些示例性实施例中，可以针对训练数据集（X）的第一部分训练CT210。可以使用训练数据集（X）的第二部分（例如不同于第一部分的部分）执行可靠性标记定义（220）。因此，根据使用所述第一部分对CT210的训练，可以进行对所述第二部分的预测并将这些预测用于定义在训练RCT240中有用的可靠性标记（Y’）。

现在参考图2B，示出了根据所公开的主题的某些示例性实施例的用于执行预测的方法中的步骤的流程图。

为CT210提供（250）数据点X，CT210提供对其适合的标记的预测。还为RCT（240）提供所述数据点以及所述预测，并且RCT（240）提供有关CT210的预测的可靠性预测。此外或备选地，可以为RCT240提供其他未被提供给CT210的特性，例如CT210的副产品、对于由CT210进行的预测而言不确定的特性等。

现在参考图2C，示出了根据所公开的主题的某些示例性实施例的用于训练分类器工具及其使用的方法中的步骤的流程图。所述方法包括训练阶段（步骤252-272）和预测阶段，所述预测阶段也称为测试阶段（步骤276-298）。可以针对不同的数据点重复执行预测阶段。

在步骤252，获得训练数据集(X,Y)。所述训练数据集包括假定使用一组特性（以F表示）的数据点的样本（即，x∈X），并且针对每个数据点给出关联的标记（即，y∈Y:label(x)=y）。

在步骤256，可以使用所述训练数据集训练CT，例如210。在某些示例性实施例中，仅使用所述数据集的一部分训练CT，以便某些数据点不用于训练CT。此外或备选地，CT可能需要一组特性的子集来定义数据点（即，

），并相应地可以仅为CT提供针对所述数据点的特性子集。

在步骤260，可以获得训练后的CT进行的预测。在某些示例性实施例中，所述预测可以针对所述训练数据集包括的数据点。所述数据点可以用于也可以不用于在步骤256训练CT。

在步骤264，可以针对数据点的每个预测的标记确定可靠性标记（Y’）。可以根据预测是否正确（通过将预测的标记与实际标记y相比较）确定可靠性标记。此外或备选地，可以例如响应于不同的训练会话，根据针对同一数据点进行的多个预测来确定可靠性标记。可以通过确定所述预测的分散系数来测量预测的稳定性。作为一个实例，可以确定最常预测的标记，并且可以计算预测了通常预测的标记的预测的一部分并将其用作分散系数。备选地，可以计算预测的统计方差并将其用作分散系数。在某些示例性实施例中，可以计算预测度量的稳定性并将其规范化为预定范围内的数值。例如，0（指示非稳定的预测）和1（指示稳定并且一致的预测）之间的数值，由此可以针对所述预测确定可靠性标记。

在某些示例性实施例中，可以计算预测的正确系数。与稳定性相反，正确系数考虑对于数据点存在已知的正确标记。可以计算预测总数中正确的预测部分，并将其用于确定可靠性标记。此外或备选地，可以计算平均、频繁或中间预测与正确标记之间的正交距离或其他可计算的差异度量。所述距离可以用于确定可靠性标记（Y’）。

在步骤268，可以确定用于RCT（例如RCT240）的训练数据集（X’）。所述训练数据集可以基于在步骤260进行预测并在步骤264定义可靠性标记的数据集。在某些示例性实施例中，所述训练数据集还可以包括不属于在步骤250获得的原始训练数据集的一部分的特性，例如在步骤250的预测期间生成的副产品。此外或备选地，训练数据集X’可以包括未由CT使用的特性，即，所述一组特性可以是

其中F是在所述训练数据集中提供的一组特性，NewFeatures是未在最初提供和/或可用的特性，例如预测过程的副产品、预测的标记等。在某些示例性实施例中，特性f∈F可以用于训练RCT而非CT（即，f∈F₂，

），反之亦然。

在步骤272，可以使用训练数据集（X’）和可靠性标记（Y’）训练RCT。

在预测阶段，提供数据点，并提供标记预测以及可靠性预测。可选地，还可以获得并输出预测正确的概率。

在步骤276，获得数据点以便标记预测。可以使用对CT和RCT有用的所有特性提供所述数据点。可选地，某些特性在所述过程中自动生成（例如CT预测操作的副产品）并且可能不会预先提供。

在步骤280，CT可以针对所述数据点提供标记预测。在某些示例性实施例中，可以将所述数据点投射到使用F₁定义的空间，并且可以为CT提供投射的数据点以便预测。

在某些示例性实施例中，可选步骤282可以确定由CT进行的预测正确的概率。在某些示例性实施例中，CT本身可以提供此类信息。与可靠性预测相反，步骤282提供预测正确的概率。所述概率可以是由CT本身提供的副产品。

在步骤284，RCT可以针对所述数据点和预测的标记提供可靠性预测。在某些示例性实施例中，可以将在步骤276提供的数据点投射到由F₂义的空间，并且可以自动补充附加特性（例如NewFeatures）。

在步骤292，可以向用户提供输出。因此，可以向用户通知预测和此类预测的可靠性。此外或备选地，还可以向用户通知预测正确的概率。根据提供给用户的信息，用户可以根据输出的数据确定是否接受所述预测、使用不同的预测方法、请求要在所述预测中使用的其他数据，或者采取任何其他操作（步骤296）。在某些示例性实施例中，可以根据预定义规则自动采取部分或全部所述操作。在某些示例性实施例中，可以根据所述信息向用户建议推荐的操作。

可选地，考虑预测的标记和/或可靠性，可以提供对CT和/或RCT的反馈。如本领域所公知的，对分类器的反馈可以用于改进未来预测。

现在参考图3A，示出了根据所公开的主题的某些示例性实施例的可靠性预测训练方案的流程图。可以针对图2C的训练阶段执行图3A的方法。

在步骤300，获得训练数据集(X,Y)。

在步骤310，可以使用所述训练数据集包括的一部分数据点

训练CT。

在步骤320，并且考虑CT的训练，CT可以提供针对一部分数据点

的预测。

将指出的是，X₁和X₂可以相同、可以彼此包含、可以是分离集、可以具有某一交集，或者在其间具有任何其他形式的关系。在某些示例性实施例中，可以将整个数据集用于步骤310和320。在某些示例性实施例中，可以在步骤310使用第一部分，在步骤320使用互补部分。

步骤310和320可以例如在每个训练会话期间针对不同训练数据集被执行多次。可能不会在训练会话之间保留学习的信息（例如，通过在迭代之间初始化CT）。此外或备选地，可以保存学习的信息，因此每次迭代之后，CT的训练数据集将增大。

在足够迭代之后，可以执行步骤330。可以例如在以下情况下确定迭代的足够性：当针对同一数据点具有至少预定数量的预测时、在预定数量的迭代之后等。在步骤330，可以获得有关同一数据点的不同预测。

在步骤340，可以针对所述数据点计算稳定性度量。作为一个实例，所述稳定性度量可以是

其中CP是通用预测，N是进行的预测数量。仍然参考此实例，如果十个预测中的七个是标记为1的预测，而其他三个预测具有一个或多个不同标记，则稳定性度量可以是0.7。作为另一个实例，所述稳定性度量可以基于根据不同标记计算的方差。在某些示例性实施例中，可以为每个标记分配一个数值以便能够计算方差。所述稳定性度量例如可以是方差的倒数，因此最低值指示最低预测稳定性，最高可能预测稳定性（例如，所有预测都相同并且方差是0）是最高数值。可以使用其他计算稳定性度量方法代替上述实例。

在步骤350，可以使用所计算的度量确定数据点的可靠性标记，并且可以使用所述可靠性标记训练RCT（步骤360）。

在某些示例性实施例中，可以在获得不同预测之后随时使用整个数据集训练CT（在步骤320的不同迭代中）。

现在参考图3B，示出了根据所公开的主题的某些示例性实施例的可靠性预测训练方案的流程图，其类似于图3A中示出的流程图。

可以执行步骤340’（而不是步骤340），其中计算正确分数（fraction）度量。作为一个实例，所述正确分数度量可以是其中L是在训练数据集中提供的标记，N是进行的预测数量。仍然参考此实例，如果十个预测中的六个是其标记在训练数据集中被提供为正确标记的预测，则正确分数度量可以是0.6。此外或备选地，可以使用训练数据集中的平均预测的标记和关联（正确）的标记之间的可计算距离来测量正确分数。

将指出的是，如果针对数据点进行单个预测，则所述正确分数可以是指示预测是否正确的二进制数。

现在参考图4，示出了根据所公开的主题的某些示例性实施例的计算机化装置的组件的方块图。

在某些示例性实施例中，装置400可以包括处理器402。处理器402可以是中央处理单元（CPU）、微处理器、电子电路、集成电路（IC）等。处理器402可用于执行装置400或任何其子组件所需的计算。

在某些示例性实施例中，装置400可以包括输入/输出（I/O）模块405，例如接收器、发送器、收发器、调制解调器、输入设备、输出设备等。在某些示例性实施例中，I/O模块405用于连接到I/O设备以便提供人类用户的输入或输出。I/O模块405可以在操作上连接到显示器、指点设备、键盘等。然而，将理解，所述系统可以在无需人类操作的情况下运行。

在某些示例性实施例中，装置400可以包括存储器407。存储器407可以是计算机化存储器，例如永久性存储器或易失性存储器或其组合。例如，存储器407可以是闪存盘、随机存取存储器（RAM）、存储器芯片、光存储设备，例如CD、DVD或激光盘；磁存储设备，例如磁带、硬盘、存储区域网络（SAN）、网络连接存储（NAS）等；半导体存储设备，例如闪存设备、记忆棒等。在某些示例性实施例中，存储器407包括多个存储器设备，例如RAM和硬盘。在某些示例性实施例中，存储器407可以保存程序代码，所述程序代码可运行以导致处理器402执行与图2A-2C、3A-3B中所示的任何步骤关联的操作等。

下面详述的组件可以被实现为例如由处理器402或其他处理器执行的一组或多组相关计算机指令。所述组件可以被布置为在任何计算环境下以任何编程语言编程的一个或多个可执行文件、动态库、静态库、方法、函数、服务等。

在某些示例性实施例中，存储器407可以包括软件实现的分类器（410和420），以便用作根据所公开的主题的CT和RCT。在某些示例性实施例中，分类器410、420可以不使用软件实现和/或可以在装置400的外部。

可靠性标记定义器430可以被配置为定义要在训练阶段用于训练RCT的可靠性标记。可靠性标记定义器430可以被配置为执行诸如264、330、340、340’、350之类的步骤。在某些示例性实施例中，可靠性标记定义器430可以在操作上耦合到要用于计算在定义可靠性标记中有用的度量的稳定性计算器440、正确分数计算器450或类似的计算器。

在某些示例性实施例中，分类器初始化器435可以被配置为初始化分类器（例如410），以便导致所述分类器丢弃先前学习的数据。分类器初始化器435可以用于导致CT的训练会话不在例如重复步骤310和320之间保留学习的数据。

在所公开的主题的某些示例性实施例中，可以训练两个不同的分类器。第一分类器（CT）旨在解决原始分类问题，即，预测与每个测试实例关联的标记。第二分类器（RCT）可以旨在预测由CT进行的预测的可靠性。在某些示例性实施例中，RCT可以被视为从X到{0,1}的函数，其中RCT(x)=1暗示CT(x)应被视为“可靠”，RCT(x)=0暗示CT(x)应被视为“不可靠”。所公开的主题并不限于上述实施例。作为一个实例，可以使用不同的得分暗示可靠性和不可靠性。

附图中的流程图和方块图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在此方面，所述流程图中的每个方块以及所述方块图中的某些方块都可以表示程序代码的模块、段或部分，所述程序代码包括用于实现指定的逻辑功能（多个）的一个或多个可执行指令。还应指出，在某些备选实施方式中，在方块中说明的功能可以不按图中说明的顺序发生。例如，示为连续的两个方块可以实际上被基本同时地执行，或者某些时候，取决于所涉及的功能，可以以相反的顺序执行所述方块。还将指出的是，所述方块图和/或流程图的每个方块以及所述方块图和/或流程图中的方块的组合可以由执行指定功能或操作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

在此使用的术语只是为了描述特定的实施例并且并非旨在作为本公开的限制。如在此所使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其他特性、整数、步骤、操作、元素、组件和/或其组的存在或增加。

如本领域的技术人员应理解的，所公开的主题可以体现为系统、方法、计算机程序产品。因此，所公开的主题可以具体实现为以下形式，即，可以是完全的硬件、完全的软件（包括固件、驻留软件、微代码等）、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本公开可以采取体现在任何有形表达介质（在介质中包含计算机可读程序代码）中的计算机程序产品的形式。

可以使用一个或多个计算机可用或计算机可读介质的任意组合。所述计算机可用或计算机可读介质例如可以是（但不限于）任何非瞬时性计算机可读介质、电、磁、光、电磁、红外线或半导体系统、装置、设备或传播介质。所述计算机可读介质的更具体的实例（非穷举列表）将包括以下项：具有一条或多条线的电连接、便携式计算机软盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦写可编程只读存储器（EPROM或闪存）、光纤、便携式光盘只读存储器（CDROM）、光存储设备、诸如那些支持因特网或内联网的传输介质或磁存储设备。注意，所述计算机可用或计算机可读介质甚至可以是程序被打印在其上的纸张或其他适合的介质，因为所述程序可以通过例如光扫描所述纸张或其他介质被电子地捕获，然后被编译、解释或另外以适合的方式被处理（如果必要），然后被存储在计算机存储器中。在此文档的上下文中，计算机可用或计算机可读介质可以是任何能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合的程序的介质。所述计算机可用介质可以包括其中包含所述计算机可用程序代码（例如，在基带中或作为载波的一部分）的传播数据信号。可以使用任何适当的介质（包括但不限于无线、线缆、光缆、RF等）来传输所述计算机可用程序代码。

用于执行本公开的操作的计算机程序代码可以使用包含一种或多种编程语言的任意组合来编写，所述编程语言包括诸如Java、Smalltalk、C++之类的面向对象的编程语言以及诸如“C”编程语言或类似的编程语言之类的常规过程编程语言。所述程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立的软件包、部分地在用户计算机上并部分地在远程计算机上执行，或者完全地在远程计算机或服务器上执行。在后者的情况中，所述远程计算机可以通过包括局域网（LAN）或广域网（WAN）的任何类型网络与用户的计算机相连，或者可以与外部计算机进行连接（例如，使用因特网服务提供商通过因特网连接）。

下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其他元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本公开的描述，但所述描述并非旨在是穷举的或是将本公开限于所披露的形式。在不偏离本公开的范围和精神的情况下，对于本领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本公开的原理、实际应用，并且当适于所构想的特定使用时，使得本领域的其他普通技术人员能够理解本公开的具有各种修改的各种实施例。

Claims

1.一种由处理器执行的计算机实现的方法，所述方法包括：

获得由分类器工具对数据集的标记进行的预测，其中所述分类器工具旨在根据分类模型并考虑定义所述数据集的一组特性来预测所述标记；

根据可靠性分类器工具获得与所述分类器工具的所述预测相关的可靠性标记的可靠性预测，其中所述可靠性分类器工具旨在根据分类模型并考虑第二组特性来预测所述可靠性标记；以及

向用户输出所述标记预测和关联的可靠性预测。

2.根据权利要求1的方法，还包括：

获得训练数据集，所述训练数据集包括数据点的样本，其中针对每个数据点提供标记；以及

响应于训练会话，使用所述训练数据集以及由所述分类器工具针对所述训练数据集的数据点进行的预测来训练所述可靠性分类器工具，其中所述训练会话包括针对所述训练数据集的一部分来训练所述分类器工具。

3.根据权利要求2的方法，其中所述训练包括：

针对所述分类器工具重复执行训练会话并由所述分类器工具针对数据点或其一部分的样本来确定预测的标记，其中所述分类器工具在从一个训练会话转到另一个训练会话时不保留所训练的信息；以及

根据针对同一数据点的多个预测的标记，训练所述可靠性分类器以便预测所述分类器工具的预测的可靠性。

4.根据权利要求3的方法，其中根据所述多个预测的标记训练所述可靠性分类器包括：

根据所述预测的标记针对同一数据点的变化来确定稳定性度量；以及

当训练所述可靠性分类器工具时，使用所述稳定性度量作为所述数据点的测量的可靠性。

5.根据权利要求3的方法，其中根据所述多个预测的标记训练所述可靠性分类器包括：

根据所述数据点的所述预测的标记基本上等于由所述训练数据集提供的标记的次数来确定所述预测的标记的正确分数；以及

当训练所述可靠性分类器工具时，使用所述正确分数度量作为所述数据点的测量的可靠性。

6.根据权利要求2的方法，其中所述训练包括：

根据所述训练数据集和关联的标记来训练所述分类器工具；

由所述分类器工具针对所述数据集的至少一部分获得预测；以及

根据所述训练数据集以及针对同一数据点的所述预测的标记与关联的标记之间的相关性来训练所述可靠性分类器工具。

7.根据权利要求6的方法，其中针对所述训练数据集的一部分执行训练所述分类器，并且针对所述训练数据集的不同部分执行获得预测。

8.根据权利要求6的方法，

其中获得预测包括，对于所述数据集的所述部分中的每个数据点：

从所述训练数据集获得数据点；以及

将所述数据点的所述一组特性引入所述分类器工具并获得预测的标记；以及

其中训练所述可靠性分类器工具包括：

判定所述预测的标记是否不同于所述训练数据集中的关联的标记，由此提供有关所述分类器工具的预测的可靠性的指示；以及

将针对所述数据点的所述第二组特性连同所述指示一起引入所述可靠性分类器。

9.根据权利要求1的方法，其中所述预测由于所述分类器工具的所述分类模型而相对不可靠；以及其中所述可靠性分类器工具由于基于不同于所述分类器工具的分类模型而能够预测相对不可靠性。

10.根据权利要求1的方法，其中所述第二组特性包括未由所述一组特性包括的至少一个特性。

11.根据权利要求1的方法，还包括获得所述预测的标记正确的概率；以及其中所述输出除了所述可靠性预测之外还输出所述概率。

12.一种具有处理器的计算机化装置，所述处理器适于执行以下步骤：

向用户输出所述标记预测和关联的可靠性预测。

13.根据权利要求12的计算机化装置，其中所述处理器还适于执行以下步骤：

14.根据权利要求13的计算机化装置，其中所述训练包括：

15.根据权利要求14的计算机化装置，其中根据所述多个预测的标记训练所述可靠性分类器包括：

16.根据权利要求14的计算机化装置，其中根据所述多个预测的标记训练所述可靠性分类器包括：

17.根据权利要求13的计算机化装置，其中所述训练包括：

根据所述训练数据集和关联的标记来训练所述分类器工具；

18.根据权利要求17的计算机化装置，其中针对所述训练数据集的一部分执行训练所述分类器，并且针对所述训练数据集的不同部分执行获得预测。

19.根据权利要求12的计算机化装置，其中所述预测由于所述分类器工具的所述分类模型而相对不可靠；以及其中所述可靠性分类器工具由于基于不同于所述分类器工具的分类模型而能够预测相对不可靠性。