CN112070231A

CN112070231A - 用于机器学习性能测试和改进的数据分片

Info

Publication number: CN112070231A
Application number: CN202010434033.2A
Authority: CN
Inventors: R·博瑞尔; E·法尔彻; O·拉兹; A·兹罗尼克
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-10
Filing date: 2020-05-21
Publication date: 2020-12-11
Also published as: US11409992B2; US20200387753A1

Abstract

用于机器学习性能测试和改进的数据分片。用于识别和改进表现不佳的机器学习ML的方法和计算机程序产品。该方法包括基于表示利用ML模型的系统的要求的功能模型对ML模型的数据进行分片。功能模型包括属性集合和相应的值域。每个数据分片与功能模型的一个或多个属性的不同估值相关联。基于属性的估值，将ML模型的每个数据实例映射到一个或多个数据分片。对于每个数据分片，基于ML模型在映射到数据分片的每个数据实例上的应用来计算ML模型的性能测度。可基于数据分片的性能测度来执行ML模型是否符合目标性能要求的确定。

Description

用于机器学习性能测试和改进的数据分片

技术领域

本公开总体上涉及机器学习测试，并且尤其涉及表现不佳的机器学习的识别和改进。

背景技术

基于机器学习的解决方案变得越来越流行和普及。许多计算机系统利用机器学习模型来有效地执行特定任务，而无需使用显式指令，而是依靠模式和推理。机器学习算法被广泛用于各种应用中，例如电子邮件过滤和计算机视觉，在这些应用中，开发用于执行任务的特定指令的算法是不可行的。

可以利用不同的性能和准确度度量(metric)来评估机器学习模型的性能，例如F1分数、准确度等。准确度可以是作为被正确分类的总项目的百分比的测度(measure)。F1分数是精确度(例如，在被识别为正数的总项目当中被正确识别为正数的项目数)和召回率(例如，在总真正数(true positives)当中被正确识别为正数的项目数)的调和平均值。

发明内容

所公开的主题的一个示例性实施例是一种方法，包括：利用机器学习预测模型获得表示系统的系统要求的功能模型。所述机器学习预测模型可被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合，每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性，所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签。所述原始数据包括元数据。所述方法还包括对于每个测试数据实例，基于所述原始数据确定所述功能模型的每个属性的值。所述确定值可包括利用所述测试数据实例的元数据，从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片，计算所述机器学习预测模型在所述数据分片上的性能测度。所述计算可基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用，从而对于每个数据分片计算不同的性能测度。所述方法还包括基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。

所公开的主题的另一个示例性实施例是一种方法，包括：获得表示系统的系统要求的功能模型。所述系统可能够利用多个机器学习预测模型，每个机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合，每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性，所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签，其中所述原始数据包括元数据。所述方法还包括对于每个测试数据实例，基于所述原始数据确定所述功能模型的每个属性的值。所述确定值包括利用所述测试数据实例的元数据，从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片，计算所述多个机器学习预测模型中的每个机器学习预测模型在所述数据分片上的性能测度。所述计算可基于每个机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用来执行，从而对于每个数据分片计算不同性能测度集合，每个性能测度测量不同机器学习预测模型在所述数据分片上的性能。所述方法还包括对于每个数据分片，基于所述每个数据分片的所述不同性能测度集合从所述多个机器学习中确定所选择的机器学习预测模型。响应于获得标签要由所述系统所估计的数据实例，所述方法包括确定所述数据实例所映射到的数据分片；以及利用对于所述数据分片确定的所选择的机器学习预测模型来提供用于所述数据实例的所估计的标签。

所公开的主题的又一示例性实施例是一种计算机程序产品，包括保存程序指令的非瞬态计算机可读存储介质，所述程序指令在被处理器读取时使所述处理器执行方法，所述方法包括：利用机器学习预测模型获得表示系统的系统要求的功能模型。所述机器学习预测模型可被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合，每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性，所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签。所述原始数据包括元数据。所述方法还包括对于每个测试数据实例，基于所述原始数据确定所述功能模型的每个属性的值。所述确定值可包括利用所述测试数据实例的元数据，从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片，计算所述机器学习预测模型在所述数据分片上的性能测度。所述计算可基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用，从而对于每个数据分片计算不同的性能测度。所述方法还包括基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。

附图说明

根据以下结合附图进行的详细描述，将会更充分地理解和领会本公开的主题，在附图中，对应或相似的数字或字符指示对应或相似的组件。除非另有指示，否则附图提供本公开的示例性实施例或方面，并且不限制本公开的范围。在附图中：

图1A-图1B示出了根据所公开的主题的一些示例性实施例的方法的流程图；

图2A-图2C示出了根据所公开的主题的一些示例性实施例的方法的流程图；和

图3示出了根据所公开的主题的一些示例性实施例的示例性架构的示意图。

具体实施方式

由所公开的主题处理的一个技术问题是提供用于测试机器学习预测模型的质量的合适方法。

在一些示例性实施例中，机器学习模型可能固有地不完整。机器学习模型可能仅保证统计上正确的答案。可以基于诸如F1分数、准确度等机器学习度量来执行测试机器学习模型。机器学习模型的这样的测试可能会忽略经典的质量问题，例如如何正确覆盖机器学习模型的所有业务要求、如何检测哪些业务领域未被充分测试等。这可能会导致机器学习模型与其业务要求之间的差距。例如，用来训练机器学习模型的训练数据可能偏向一组特定特征，例如攻击警官分析可能偏向男性黑人。当测试数据也类似地偏向时，机器学习模型的性能测度可能错误地高。为了确保这样的机器学习模型的质量，可能要求训练数据和测试数据包括黑人的真例和假例两者，白人的真例和假例两者，亚洲人、西班牙人等的真例和假例两者。作为另一示例，为了确保用于分析照片的机器学习预测模型的质量，可能要求训练数据对于白天和夜晚的照片两者有作用。

由所公开的主题处理的另一技术问题是相对于模型的业务要求来改进机器学习性能。在一些示例性实施例中，在测试机器学习预测模型的质量中确定的低性能可能是差距的结果，从而导致训练数据丢失或不足。为了改进机器学习性能，可能要求弥补这样的差距。

一种技术解决方案是调整旨在确保覆盖要求的经典软件的测试计划方法，以处理机器学习模型。可以利用该方法来确定机器学习预测模型是否符合目标性能要求，该目标性能要求还覆盖了机器学习模型的特征向量可能未涵盖的机器学习模型的业务要求。可以通过确定基于业务要求确定的数据分片的性能测度来执行这样的确定。

在一些示例性实施例中，来自旨在确保覆盖要求的经典软件的测试计划的方法和技术可以被调整为处理机器学习模型。例如，组合测试及其建模方法可用来检测机器学习模型的薄弱业务领域并加强它们。组合测试可以是实现小型且有效的测试计划的测试技术。组合测试可以提供经验性的观察，即故障的发生取决于被测软件(SUT)的少量特征之间的相互作用。

在一些示例性实施例中，组合测试技术可以将测试观察转换为覆盖标准。可以执行组合模型形式的测试空间的手动定义。手动定义可以包括参数集合、它们各自的值和对值组合的约束。测试空间中的有效测试可以被定义为对满足约束的每个参数分配一个值。组合测试算法可以自动构造覆盖参数的每个子集的所有有效值组合的测试计划。测试计划可以是有效测试集合的子集，其可以实现参数值组合的100％覆盖率。在一些示例性实施例中，组合建模方法可以用来检测机器学习模型可能没有足够的训练数据、可能表现得不如预期那样好等的业务要求领域。

在一些示例性实施例中，业务要求可以在它们捕获的领域知识和细节的水平上变化。例如，一个业务要求可能是支持来自各种来源的数据的要求，例如处理来自在线论坛、科学实验报告、新闻报道等的文档所需的文本摘要解决方案。作为另一示例，业务要求可能是机器学习模型适用于自然语言集合。又一个示例可能是对文档中的至少最小百分比的非词典单词进行处理的要求。可能会注意到，在某些情况下，业务要求可能不会作为特征出现在机器学习模型训练数据或测试数据中。相反，可以将业务要求定义为对这些特征的抽象。

在一些示例性实施例中，组合模型可以通过要求将每个组合测试模型参数映射到机器学习模型特征来连接业务要求和测试数据。测试数据中的每个数据分片可以被表示为组合测试模型(即，经典软件术语中的测试)中的参数值组合。根据表示要求的组合测试模型参数值和交互级别，可以将测试定义为机器学习模型上的数据子集或分片。通过应用机器学习模型性能度量，可以在相应的机器学习模型数据上计算每个分片的测试结果。可以理解，机器学习模型解决方案数据可以是训练数据或测试数据，这取决于从开发到预部署的解决方案生命周期。

在一些示例性实施例中，可以在测试数据上确定数据分片集合。可以使用组合测试模型参数与机器学习模型特征之间的映射来确定数据分片。在一些示例性实施例中，覆盖目标可以由用户定义为t路交互覆盖要求。可以将覆盖目标确定为参数t，该参数t定义用于评估测试数据实例的属性组合的数量，例如1个属性，2个属性，5个属性等。覆盖目标可以引起将测试数据划分为分片。每个数据分片可以对应于大小为t的特定值组合，并且可以包括映射到该特定值组合的所有数据记录。可以注意到，数据分片的数量可以等于CT模型中的t路值组合的数量。分片可能不是不相交的，因为每个数据记录映射到大小为t的多个值组合，反映了数据记录捕获的不同业务要求。

在一些示例性实施例中，可以执行与每个数据分片相关联的测试数据的覆盖差距分析。没有足够的相应测试数据实例的数据分片可能会暴露机器学习解决方案可能表现不佳的业务领域。可以在具有足够数量的测试数据实例或支持的每个数据分片上计算机器学习预测模型的性能测度。可以对于没有相应测试数据实例或测试数据实例的数量低于预定阈值(例如，大于10个测试数据实例，大于20个测试数据实例，大于100个测试数据实例等)的数据分片分配负性能测度。可以执行如下确定：每个数据分片的性能测度是在置信区间内，还是大于所提供的在整个数据上的机器学习性能度量的阈值。如果数据分片的性能测度低于机器学习模型在整个数据上的性能测度，则可以突出该数据分片，以指示机器学习产生模型没有很好地解决的业务要求。

另一技术解决方案是通过使用对于不同数据分片的多个机器学习模型，而不是具有最佳平均性能的单个机器学习模型，改进机器学习性能。变体机器学习模型可加强单个机器学习模型的薄弱业务领域。在一些示例性实施例中，在使用分片方法之后，可以检测机器学习模型表现不佳的数据分片。可以在机器学习模型中识别表现不佳分片的覆盖差距。可以对机器学习模型进行改变以改进其在表现不佳数据分片中的质量。

在一些示例性实施例中，可以对于每个数据分片选择机器学习模型的变体。可以通过超参数的不同值来定义变体，使得机器学习模型变体在数据分片上的机器学习性能可以更接近于预期的整体机器学习性能。

利用所公开的主题的一种技术效果是获得关于对于不同类型输入的机器学习模型的洞察。所公开的主题识别机器学习解决方案的薄弱业务要求领域。即使在训练数据可能不包括薄弱业务要求领域的示例的情况下，也可以基于从经典软件测试调整的方法来识别这样的薄弱业务要求领域。所公开的主题识别不能依赖机器学习模型的领域。通过建议附加的训练数据或包括多个机器学习模型变体作为整体机器学习模型的一部分，可以在机器学习模型生命周期的开发阶段中利用所公开的主题。所公开的主题还可以帮助将标记工作指向最能覆盖业务要求的领域。所公开的主题可以从设计机器学习模型的很早阶段开始就是有效的，以确保所得到的系统满足其要求并且提供其预期值。

利用所公开的主题的另一技术效果是通过使用多个机器学习模型来改进在数据分片上的机器学习性能，所述多个机器学习模型由其超参数的值来区分。使用所公开的主题，可以根据传入的输入数据记录基于其特征值所映射到的数据分片，推荐不同的变体以进行操作。将业务要求映射到机器学习性能可能不仅对于获得有关机器学习模型的洞察至关重要，而且还可以建议动作项目。动作可以是在系统级别(例如基于特征空间识别系统不应该信任的输入)、在训练级别(例如识别对更多数据的需求同时指示附加数据记录的期望特征值)、在系统设计级别(建议混合解决方案方法，该混合解决方案方法可以包括非学习部分或多个机器模型以改进在表现不佳的分片上的系统质量)等等。

所公开的主题可以提供对任何现有技术以及本领域中先前已成为常规或传统的任何技术的一种或多种技术改进。根据本公开，附加技术问题、解决方案和效果对于本领域普通技术人员而言可能是明显的。

现在参考图1A，图1A示出了根据所公开的主题的一些示例性实施例的方法的流程图。

在步骤110，可以获得机器学习预测模型。在一些示例性实施例中，系统可以利用机器学习预测模型来提供对于特征向量的估值的估计。附加地或替选地，可以获得机器学习预测模型的预期性能和阈值，例如置信区间。附加地或替选地，可以获得机器学习预测模型的测试数据和训练数据。测试数据和训练数据可以是标记数据。可以获得附加元数据。测试数据和训练数据可以包括机器学习预测模型的数据实例。每个数据实例可以包括原始数据和标签。原始数据可以包括元数据。注意，原始数据可以是以其原始形式获得的数据，而无需任何处理，诸如从传感器获得的。附加地或替选地，原始数据可以是处理后的传感器数据，处理后的传感器数据包括处理后的特征和不是用来计算馈入到机器学习预测模型中的特征值的元数据。在一些情况下，根据所公开的主题的原始数据可以包括机器学习(ML)特征值以及与系统级别要求相关的元数据参数值。

例如，可以获得Kaggle^TM贷款分类器。可以使用过去的贷款批准数据来训练用于贷款状态、贷款的当前状态(例如全额付清、还款中(current)、逾期等)的分类器。可以训练分类器以优化其F1分数、精确度的调合平均值(例如，正确的正结果的数量除以由分类器返回的所有正结果的数量)、召回率(例如，正确的正结果的数量除以应当已被识别为正的所有样本的数量)等。用来训练分类器的原始数据和特征可以包括Kaggle^TM借贷俱乐部贷款数据。原始数据可以包括在珍贵年份发行的贷款的完整贷款数据、贷款状态、最新还款信息等。可以基于Kaggle^TM借贷俱乐部贷款数据来训练Kaggle^TM贷款机器学习模型(例如，分类器)。相同的原始数据可以用作测试数据。作为示例，一个特征可以是分期付款，例如，如果产生贷款，则由借款人所欠的每月还款。另一特征可以是贷款金额，例如，由借款人申请的贷款的列出金额。其他特征可以是房屋所有权、以年为单位的在职时长、目的等。

在一些示例性实施例中，可以获得机器学习预测模型的预期性能，例如具有置信区间的分数。分数可以包括用于分类器的机器学习性能的标准测度，例如在单个数字中捕获精确度和召回率两者的F1分数等等。作为示例，Kaggle^TM贷款机器学习模型可以是随机森林，该随机森林预测10个种类，这10个种类是Kaggle^TM贷款数据中的贷款状态的10个不同类别。可以将随机森林模型配置为给出在以下所有种类上的平均结果：精确度约为0.98，召回率约为0.99，F1分数约为0.98，整体支持(用于计算的数据记录的数量)约为177476。

在步骤120，可以获得表示系统的系统要求的功能模型。在一些示例性实施例中，功能模型可以包括属性集合，每个属性具有各自的值域。属性集合可以包括至少一个基于元数据的属性，至少一个基于元数据的属性没有包括在机器学习预测模型的特征向量中。在一些示例性实施例中，功能模型可以被配置为捕获系统的业务要求，该业务要求可能不会作为特征出现在机器学习预测模型中。业务要求可能会出现在测试数据的元数据中。基于元数据的属性可以是对数据特征的抽象。基于元数据的属性可能不是用于学习。基于元数据的属性可用于计算测试结果、每个数据分片上的机器学习性能测度、每个数据实例在期望交互级别的估值等。

可以理解，可以使用各种来源作为用于创建功能模型的输入，例如数据域、数据来源、要求文档、测试工件、专家知识等。附加地或替选地，可以基于业务要求来定义功能模型，该业务要求可以被定义为对数据特征的抽象、基于元数据等。

作为示例，可以在Kaggle^TM借贷俱乐部贷款数据上定义功能模型。属性集合可以包括机器学习预测模型的特征，例如具有租赁值、拥有值、抵押值或其他值的房屋所有权，具有12个不同值(1-12)的以年为单位的在职时长，具有14个不同值的贷款目的等。属性集合还可以包括一个或多个特征的抽象，例如可以基于贷款金额特征和分期付款特征确定的具有低、高和中这三个值的贷款风险等。

附加地或替选地，功能模型可以包括对属性的约束集合。每个约束可以定义对功能模型的至少两个属性的值组合的限制。可以定义对贷款风险属性和贷款总额属性的约束。低于贷款金额25％的贷款总额可能与低贷款风险相关联，而高于贷款金额90％的贷款总额可能与高风险相关联。结果，约束可以是低贷款总额可能与高贷款风险不相关联。

在步骤130，可以定义功能模型属性值与数据特征值之间的映射。在一些示例性实施例中，每个测试数据实例可以被表示为功能模型中的属性值组合。对于每个测试数据实例，可以基于原始数据确定功能模型的每个属性的值。测试数据实例的元数据可以用来确定属性的值。作为示例，可以计算从Kaggle^TM贷款计算模型产生的2路交互。

可能重要的是，定义功能模型属性，使得它们不仅捕获要求，而且还映射到机器学习模型训练数据特征空间。这是因为机器学习模型的训练数据或测试数据可用于计算每个数据分片的性能。

在步骤140，可以在测试数据和训练数据上生成数据分片。可以基于步骤130的映射将测试数据和训练数据分片成数据分片。在一些示例性实施例中，可以根据不同的交互级别对机器学习预测模型的测试数据和训练数据进行分片。根据与每个测试数据实例相关联的功能模型属性值组合，可以将每个测试数据实例映射到一个或多个数据分片。

在一些示例性实施例中，可以获得覆盖目标。覆盖目标可以由用户确定。覆盖目标可以定义功能模型的属性之间的交互级别，例如1路、2路和3路交互级别等等。由于测试数据是给定的而不是合成的，因此交互级别越高，对于该交互级别将存在足够数据的可能性越小。对于每个交互级别t，可以确定在功能模型的某个测试中出现的大小为t的所有值组合的集合。

附加地或替选地，可以基于对功能模型的属性的约束集合来执行确定数据分片。每个数据分片可以与满足约束集合的功能模型的一个或多个属性的估值相关联。

在一些示例性实施例中，对于每个值组合，可以使用特征值与属性值之间的映射来生成对应的数据分片。每个数据分片可以与功能模型的一个或多个属性的不同估值相关联。

在步骤150，可以计算机器学习预测模型在每个数据分片上的性能测度。可以基于机器学习预测模型在映射到数据分片的每个测试数据实例上的应用来执行性能测度的计算。

在一些示例性实施例中，性能测度可以被配置为基于分类准确度来测量模型的性能。附加地或替选地，性能测度可以是对机器学习预测模型的准确度以及其他度量(例如对数损失、混淆矩阵、曲线下面积、f1分数、平均绝对误差、均方误差等)的评估。

附加地或替选地，可以计算映射到数据分片的测试数据实例的数量。响应于确定映射到数据分片的测试数据实例的数量低于预定阈值(例如，大约10，大约20等)，可以将负性能测度分配给该数据分片。负性能测度可表示预测模型无法提供对映射到该数据分片的数据实例的所估计的预测。

在步骤160，可以检查每个数据分片的性能测度以确定机器学习预测模型是否符合目标性能要求。在一些示例性实施例中，可以检测如下数据分片：考虑到整体机器学习性能，该数据分片的性能在预期范围之外。

可以注意，由于数据分片对应于功能模型值组合，因此它们可以被配置为指向机器学习预测模型表现不佳的确切业务领域。

在步骤170，可以报告表现不佳的数据分片。在一些示例性实施例中，如果数据分片中的测试数据实例的数量低于预定阈值，则可以将该数据分片报告为覆盖差距。

在步骤180，可以利用计算结果来改进对于表现不佳的数据分片的机器学习性能。在一些示例性实施例中，可以确定机器学习预测模型的机器学习模型变体。机器学习模型变体可以通过其超参数值来区分。可以基于表现不佳的数据分片的基于元数据的属性的值来设定超参数值。其他属性的值可以经由训练得出。

在一些示例性实施例中，当获得映射到表现不佳的数据分片的数据实例时，与表现不佳的数据分片相关联的变体机器学习预测模型可以用于提供对于数据实例的所估计的预测。附加地或替选地，具有对数据分片的负性能测度的数据分片可以指示映射到这样的数据分片的数据实例很少。在这样的情况下，可以将映射到数据分片的测试数据实例添加到测试数据。附加地或替选地，可以发出警报，该警报指示无法提供对于映射到数据分片的数据实例的所估计的预测。

可以理解，可以执行不同的动作来改进机器学习性能。动作可以在系统级别，例如基于特征空间识别系统不应该信任的输入。可以通过识别映射到表现不佳的数据分片的数据实例来执行这样的动作。附加地或替选地，动作可以在训练级别，例如识别对更多数据的需求同时指示附加数据记录的期望特征值。附加地或替选地，动作可以在系统设计级别，例如建议混合解决方案方法，该混合解决方案方法可以包括非学习部分或多个机器模型以改进在表现不佳的分片上的系统质量，等等。

在一些示例性实施例中，功能模型可以提供可行的洞察，以用于改进被测机器学习模型的质量。覆盖差距可能指向机器学习模型未覆盖的要求。表现不佳的分片或具有低支持的分片(例如，映射到该分片的数据实例数量较少)可被指示为警告，并且可能需要进一步检查。根据警告的原因和机器学习模型，可以建议潜在的动作。

在映射到其的数据实例的数量低于预定阈值的分片的情况下，可以按分片要求来添加数据。附加地或替选地，可以指示无法提供对于映射到该分片的输入的预测。在支持过低的表现不佳的分片的情况下，可能指示机器学习模型不能很好地满足的要求。性能可接受但支持低的数据分片可能会令人怀疑，因为在这种情况下机器学习性能可能在这样的分片上不稳定。另一方面，具有低支持和异常高性能的数据分片也可能会令人怀疑，因为在给定更多支持的情况下，它们可能具有更低的性能。具有足够支持的表现不佳的分片可能指示机器学习模型在相应的要求上存在问题。可建议不要对于映射到这样的分片的输入部署机器学习模型。

现在参考图1B，图1B示出了根据所公开的主题的一些示例性实施例的方法的流程图。

在步骤115，可以获得多个机器学习预测模型。多个机器学习预测模型可以包括第一机器学习预测模型和第二机器学习预测模型。在一些示例性实施例中，系统可以利用第一机器学习预测模型和第二机器学习预测模型来提供对于特征向量的估值的估计。可以将不同的机器学习预测模型配置为基于不同特征向量的估值来提供所估计的预测。在某些情况下，不同的机器学习预测模型可以提供对于同一数据实例的不同的所估计的预测，可以具有不同的性能、机器学习预测模型的不同置信区间，等等。作为示例，在图像标注的情况下，可以将不同的分类器用于白天和夜晚的图像。被配置为在白天光线下捕获的图像中提供高置信度分类的分类器可能在夜晚图像或在黑暗中捕获的图像中表现不佳。

附加地或替选地，可以获得多个机器学习预测模型的测试数据实例。每个测试数据实例可以包括原始数据和标签。

在一些示例性实施例中，可以获得机器学习的预期性能，例如具有置信区间的分数。可以基于多个机器学习预测模型中的每个机器学习预测模型的预期性能来确定预期性能。

在步骤120，可以获得表示系统的系统要求的功能模型。作为示例，功能模型可以包括机器学习预测模型的特征，例如特定像素中的颜色、图像分类特征。附加地或替选地，属性集合可以包括基于元数据确定的属性，例如，捕获图像的相机的类型、图像的时间、光线或太阳相对于相机的角度等等。

在步骤135，可以定义多个机器学习预测模型的功能模型属性值与数据特征值之间的映射。针对多个机器学习预测模型中的每个机器学习预测模型，可以类似于步骤130执行步骤135。可以注意到，由于数据分片对应于功能模型值组合，因此它们可以被配置为指向机器学习预测模型表现不佳的确切业务领域。

在步骤140，可以基于步骤135的映射将测试数据分片成数据分片。

在步骤155，可以计算多个机器学习预测模型中的每个机器学习预测模型在每个数据分片上的性能测度。可以基于多个机器学习预测模型中的每个机器学习预测模型在映射到数据分片的每个测试数据实例上的应用来执行性能测度的计算。附加地或替选地，可以向测试数据实例的数量低于预定阈值的数据分片分配负性能测度。

在步骤165，对于每个数据分片，可以选择具有最高性能测度的机器学习模型以应用于数据分片。在一些示例性实施例中，可以为不同的数据分片选择不同的机器学习预测模型。作为示例，白天图像标注分类器可以被选择用于具有在早晨拍摄的图像的数据分片，而夜晚图像标注分类器可以被选择用于具有在午夜拍摄的图像的数据分片。白天图像标注分类器可以被选择用于具有在太阳处于特定角度时的日落期间拍摄的图像的数据分片，而夜晚图像标注分类器可以被选择用于具有在太阳处于不同角度时的日落期间拍摄的图像的数据分片。

附加地或替选地，可以检查具有最高性能测度的机器学习模型，以确定机器学习预测模型是否符合目标性能要求。在一些示例性实施例中，可以检测如下数据分片：考虑到整体机器学习性能，该数据分片的性能在预期范围之外。

在步骤185，可以利用计算结果来改进对于表现不佳的数据分片的机器学习性能。在一些示例性实施例中，可以确定多个机器学习预测模型中的机器学习模型变体。机器学习模型变体可以通过其超参数值来区分。可以基于表现不佳的数据分片的基于元数据的属性的值来设定超参数值。可以对于每个机器学习预测模型确定变体机器学习预测模型，并且可以执行对于数据分片的最佳机器学习的新选择。

现在参考图2A，图2A示出了根据所公开的主题的一些示例性实施例的方法的流程图。

在步骤210，可以获得数据实例。在一些示例性实施例中，可以计划将数据实例提供给机器学习预测模型，以基于数据实例的特征向量的估值来提供所估计的预测。

在步骤220，可以执行是否将数据实例映射到表现不佳的数据分片的确定。在一些示例性实施例中，根据与数据实例相关联的功能模型属性值组合，可以将数据实例映射到一个或多个数据分片。表现不佳的数据分片可以指示系统性能既无法被确定，也无法被信任用于覆盖差距。

在步骤230，响应于确定数据实例没有映射到表现不佳的数据分片，可以利用机器学习预测模型来提供对于数据实例的预测。

在步骤240，响应于确定数据实例被映射到表现不佳的数据分片，可以利用与表现不佳的数据分片相关联的替选机器学习预测模型来提供对于数据实例的预测。替选机器学习预测模型可以由超参数的不同值来定义，使得替选机器学习预测模型在该数据分片上的机器学习性能可以更接近于机器学习预测模型在其他数据分片上的预期整体机器学习性能。在一些示例性实施例中，可以在通过其超参数值进行区分的机器学习模型变体的空间上来自动确定替选机器学习预测模型，以找到在每个表现不佳的数据分片上表现最佳的机器学习模型变体。

附加地或替选地，有可能找到可以在这样的分片上表现更好的模型变体，例如具有不同超参数的相同类型的模型。可以基于传入数据记录的特征空间及其到分片的映射来确定运行哪个模型。

在步骤250，可以基于预测提供输出。

可以理解的是，步骤240-250可以在系统设计级别上执行，可以是可包括非学习部分或多个机器模型以改进在表现不佳的分片上的系统质量的混合解决方案方法的一部分，等等。通过使用多个机器学习模型而不是使用具有最佳平均性能的单个机器学习模型，可以改进机器学习解决方案的性能。根据传入的输入数据记录基于其特征值所映射到的分片，可推荐不同变体以用于操作。

现在参考图2B，图2B示出了根据所公开的主题的一些示例性实施例的方法的流程图。

在步骤260，响应于确定数据实例被映射到表现不佳的数据分片，可以发出无法提供预测的指示。

在步骤270，可以将数据实例标记为要潜在地用于测试。数据实例可以被添加到测试数据，作为具有被提供给表现不佳的数据分片的所指示的交互的数据记录的一部分，以便能够根据底层要求来测试系统的行为。添加如分片参数值所指定的训练数据可以改进重新训练的机器学习模型的性能。

现在参考图2C，图2C示出了根据所公开的主题的一些示例性实施例的方法的流程图。

在步骤225，可以识别数据实例所映射到的数据分片。在一些示例性实施例中，根据与数据实例相关联的功能模型属性值组合，可以将数据实例映射到一个或多个数据分片。可以基于针对数据实例的功能模型的属性集合的估值来执行映射。

在步骤280，可以对于数据分片选择机器学习预测模型。步骤280可以类似于图1中的步骤165，可以是执行步骤115-165的结果，等等。附加地或替选地，响应于确定对于数据分片确定的所选择的机器学习预测模型的性能测度低于目标性能要求，可以对于数据分片确定变体机器学习预测模型。作为示例，映射到数据分片的测试数据实例可以被添加，并且可被用于重新训练对于数据分片确定的所选择的机器学习预测模型。作为另一示例，可以生成变体机器学习模型。

在步骤290，可以将数据分片的所选择的机器学习预测模型应用于所获得的数据实例。附加地或替选地，响应于确定对于数据分片确定的所选择的机器学习预测模型的性能测度低于目标性能要求，可以报告无法提供对于数据实例的所估计的预测。

现在参考图3，图3示出了根据所公开的主题的一些示例性实施例的装置的框图。根据所公开的主题，装置300可以被配置为支持与现实世界物理系统及其数字表示的并行用户交互。

在一些示例性实施例中，装置200可以包括一个或多个处理器302。处理器302可以是中央处理单元(CPU)、微处理器、电子电路、集成电路(IC)等。处理器302可用来执行由装置200或其任何子组件所需的计算。

在所公开的主题的一些示例性实施例中，装置300可以包括输入/输出(I/O)模块305。I/O模块305可以用来向用户提供输出并且从用户接收输入，诸如例如机器学习参数、特征、元数据、原始数据、数据实例、性能要求、覆盖目标、算法参数、属性等。

在一些示例性实施例中，装置300可以包括存储器307。存储器307可以是硬盘驱动器、闪存盘、随机存取存储器(RAM)、存储器芯片等。在一些示例性实施例中，存储器307可以保存可操作以使处理器302执行与装置300的任何子组件相关联的动作的程序代码。

在一些示例性实施例中，系统380可以利用一个或多个机器学习模型320，以基于特征向量315的估值来提供所估计的预测。在一些示例性实施例中，可以利用训练数据和测试数据350来训练机器学习模型320。可以从用户397获得机器学习模型320。机器学习模型320可以处于机器学习的从开发到预部署的任何生命周期中。

作为示例，机器学习模型320可以被配置为在乳腺摄像图像中检测乳腺癌，并且提供对肿瘤的恶性或良性的预测。测试数据350可以是X射线乳腺摄影图像及其标签。

在一些示例性实施例中，图像可以是乳腺摄像图像，乳腺摄像图像可以使用低能X射线来创建以检查人的乳房。特征向量315可以包括成像和临床特征，例如特征性肿块、微钙化、中位射线水平、性别、年龄等。

在一些示例性实施例中，功能模型320可以被配置为表示系统380的系统要求。功能模型320可以包括属性集合322，每个属性具有各自的值域324。属性322可以包括至少一个基于元数据的属性，至少一个基于元数据的属性没有包括在特征向量315中。作为示例，属性322可以包括性别、医学成像设备的类型、成像模态等。附加地或替选地，功能模型320可以包括对属性322的约束326的集合。可以对功能模型320的至少两个属性的值组合定义每个约束。作为示例，一个约束可以是：对于属性“性别”中的值“男性”，可以不要求属性“妊娠”。

在一些示例性实施例中，分片模块340可以被配置为基于功能模型320来确定数据分片345的集合。每个数据分片345可以与功能模型320的一个或多个属性的不同估值相关联。分片模块340可以被配置为根据约束326确定数据分片345的集合。每个数据分片可以与满足约束326的属性322的估值相关联。作为示例，数据分片可以是20-40岁的孕妇的分片。

在一些示例性实施例中，可以从测试数据库385获得测试数据350的实例。测试数据350的每个实例可以包括原始数据和标签。附加地或替选地，可以从测试数据库385获得与测试数据350有关的元数据。

在一些示例性实施例中，映射模块330可以被配置为将测试数据350的每个实例映射到一个或多个数据分片345。映射模块330可以被配置为对于测试数据350的每个实例基于原始数据来确定功能模型322的每个属性322的值。映射模块330可以被配置为利用测试数据350的元数据。附加地或替选地，映射模块330可以被配置为计算针对由用户确定的覆盖目标的属性值组合。分片模块340可以被配置为利用覆盖目标来确定数据分片345的集合。

在一些示例性实施例中，映射模块330可以被配置为使用测试数据350的元数据来确定每个属性322的值，以确定至少一个基于元数据的属性的值。可以注意到，元数据可以不是用于特征向量315的估值。

在一些示例性实施例中，性能计算器360可以被配置为对于每个数据分片345计算机器学习模型310在数据分片上的性能测度。性能计算器360可以被配置为在映射到数据分片的测试数据350的每个实例上运行机器学习模型310的应用。附加地或替选地，性能计算器360可以被配置为基于数据分片345的性能测度来确定机器学习模型310是否符合目标性能要求。目标性能要求可以由用户395来定义，从系统380、数据库385等获得。附加地或替选地，在多个机器学习模型310的情况下，性能计算器360可以被配置为对于每个数据分片345计算每个机器学习模型310在数据分片上的性能测度。

附加地或替选地，性能计算器360可以被配置为对于每个数据分片确定映射到数据分片的测试数据实例的数量。性能计算器360可以被配置为将负性能测度分配给如下数据分片，其中映射到该数据分片的测试数据实例的数量低于预定阈值。预定阈值可以由用户395确定，或者基于系统380的要求。

在一些示例性实施例中，响应于确定数据分片的性能测度低于目标性能要求，性能改进模块370可以被配置为确定对于数据分片的变体机器学习模型375。响应于获得要估计的数据实例，可以利用变体机器学习模型375来提供对于映射到数据分片的数据实例的所估计的预测。附加地或替选地，性能改进模块370可以添加映射到数据分片的测试数据实例，以训练机器学习模型310；指示无法提供对于映射到数据分片的数据实例的所估计的预测，等等。

在一些示例性实施例中，模型选择模块365可以被配置为对于每个数据分片确定利用一个或多个机器学习模型320中的哪个机器学习模型来提供所估计的预测。模型选择模块365可以选择具有由性能计算器360对于数据分片确定的性能测度的机器学习模型。可以利用所选择的机器学习模型来提供对于映射到数据分片的数据实例的预测。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中使用的术语仅出于描述特定实施例的目的，而不是旨在限制本发明。如本文中所使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外明确指出。还将理解，术语“包括”和/或“包含”在本说明书中使用时，指定存在所述特征、整体、步骤、操作、元素和/或组件，但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元素、组件和/或其组。

以下权利要求中的所有装置或步骤加上功能元件的相应结构、材料、动作和等同物旨在包括用于与具体要求保护的其他要求保护的元素组合地执行功能的任何结构、材料或动作。已经出于说明和描述的目的给出了本发明的描述，但并不旨在是穷举的或将本发明限制为所公开的形式。在不偏离本发明的范围和精神的情况下，许多修改和变型对于本领域普通技术人员将是明显的。选择和描述实施例是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的各种实施例、以及具有适合于预期的特定用途的各种修改。

Claims

1.一种方法，包括：

利用机器学习预测模型获得表示系统的系统要求的功能模型，其中所述机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测，其中所述功能模型包括属性集合，每个属性具有相应的值域，其中所述属性集合包括至少一个基于元数据的属性，所述至少一个基于元数据的属性没有包括在所述特征向量中；

基于所述功能模型确定数据分片集合，其中所述数据分片集合中的每个数据分片与所述功能模型的一个或多个属性的不同估值相关联；

获得测试数据实例，其中每个测试数据实例包括原始数据和标签，其中所述原始数据包括元数据；

对于每个测试数据实例，基于所述原始数据确定所述功能模型的每个属性的值，其中所述确定值包括利用所述测试数据实例的元数据，从而将所述测试数据实例映射到一个或多个数据分片；

对于每个数据分片，计算所述机器学习预测模型在所述数据分片上的性能测度，其中所述计算基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用，从而对于每个数据分片计算不同的性能测度；以及

基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。

2.根据权利要求1所述的方法，还包括：

获得由用户确定的覆盖目标；

其中基于所述覆盖目标来执行所述确定数据分片集合。

3.根据权利要求1所述的方法，还包括：

响应于确定数据分片的性能测度低于所述目标性能要求，确定对于所述数据分片的第二机器学习预测模型；

其中响应于获得要估计的数据实例，

确定所述数据实例被映射到所述数据分片；以及

利用所述第二机器学习预测模型来提供对于所述数据实例的所估计的预测。

4.根据权利要求1所述的方法，其中所述功能模型还包括对所述属性的约束集合，每个约束定义对所述功能模型的至少两个属性的值组合的约束；其中基于所述约束集合来执行所述确定数据分片集合，由此将每个数据分片与满足所述约束集合的所述功能模型的所述一个或多个属性的估值相关联。

5.根据权利要求1所述的方法，其中所述计算包括：对于每个数据分片，确定映射到所述数据分片的测试数据实例的数量，其中响应于确定映射到数据分片的测试数据实例的数量低于预定阈值，针对所述数据分片提供负性能测度。

6.根据权利要求5所述的方法，其中响应于对所述数据分片提供负性能测度，执行以下至少一项：

添加映射到所述数据分片的测试数据实例；以及

指示无法提供对于映射到所述数据分片的数据实例的所估计的预测。

7.根据权利要求1所述的方法，其中所述确定所述功能模型的每个属性的值包括利用所述测试数据实例的元数据来确定所述至少一个基于元数据的属性的值，其中所述元数据不是用于所述机器学习预测模型的特征向量的估值。

8.一种方法，包括：

获得表示系统的系统要求的功能模型，其中所述系统能够利用多个机器学习预测模型，每个机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测，其中所述功能模型包括属性集合，每个属性具有相应的值域，其中所述属性集合包括至少一个基于元数据的属性，所述至少一个基于元数据的属性没有包括在所述特征向量中；

对于每个数据分片，计算所述多个机器学习预测模型中的每个机器学习预测模型在所述数据分片上的性能测度，其中所述计算基于每个机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用，从而对于每个数据分片计算不同性能测度集合，每个性能测度测量不同机器学习预测模型在所述数据分片上的性能；

对于每个数据分片，基于每个数据分片的所述不同性能测度集合从所述多个机器学习中确定所选择的机器学习预测模型；

其中响应于获得标签要由所述系统所估计的数据实例，

确定所述数据实例所映射到的数据分片；以及

利用对于所述数据分片确定的所选择的机器学习预测模型来提供用于所述数据实例的所估计的标签。

9.一种计算机程序产品，包括保存程序指令的非瞬态计算机可读存储介质，所述程序指令在被处理器读取时使所述处理器执行方法，所述方法包括：

10.根据权利要求9所述的计算机程序产品，其中，所述方法还包括：

获得由用户确定的覆盖目标；

其中基于所述覆盖目标来执行所述确定数据分片集合。

11.根据权利要求9所述的计算机程序产品，其中，所述方法还包括：

其中响应于获得要估计的数据实例，

确定所述数据实例被映射到所述数据分片；以及

12.根据权利要求9所述的计算机程序产品，其中所述功能模型还包括对所述属性的约束集合，每个约束定义对所述功能模型的至少两个属性的值组合的约束；其中基于所述约束集合来执行所述确定数据分片集合，由此将每个数据分片与满足所述约束集合的所述功能模型的所述一个或多个属性的估值相关联。

13.根据权利要求9所述的计算机程序产品，其中所述计算包括：对于每个数据分片，确定映射到所述数据分片的测试数据实例的数量，其中响应于确定映射到数据分片的测试数据实例的数量低于预定阈值，针对所述数据分片提供负性能测度。

14.根据权利要求13所述的计算机程序产品，其中响应于对所述数据分片提供负性能测度，执行以下至少一项：

添加映射到所述数据分片的测试数据实例；以及

15.根据权利要求9所述的计算机程序产品，其中所述确定所述功能模型的每个属性的值包括利用所述测试数据实例的元数据来确定所述至少一个基于元数据的属性的值，其中所述元数据不是用于所述机器学习预测模型的特征向量的估值。

16.根据权利要求9所述的计算机程序产品：

其中，所述系统能够利用包括所述机器学习预测模型的多个机器学习预测模型，其中每个机器学习预测模型被配置为基于所述特征向量的估值来提供所估计的预测；

其中，所述方法还包括：

其中响应于获得标签要由所述系统所估计的数据实例，

确定所述数据实例所映射到的数据分片；以及

17.一种计算机系统，包括：

其上具有计算机可读代码的一个或多个存储器；和

一个或多个处理器，所述一个或多个处理器响应于所述计算机可读代码的检索和执行使所述计算机系统执行根据权利要求1至8中任一项所述的方法。

18.一种装置，包括用于执行权利要求1至8中任一项的方法中的步骤的模块。