CN117223013A

CN117223013A - 用于比较机器学习模型的系统、方法和计算机程序产品

Info

Publication number: CN117223013A
Application number: CN202280022457.5A
Authority: CN
Inventors: 王俊朋; L·王; 郑艳; M·叶; S·贾因; 张维; 庄中方; 仰颢
Original assignee: Visa International Service Association
Current assignee: Visa International Service Association
Priority date: 2021-03-30
Filing date: 2022-03-30
Publication date: 2023-12-12

Abstract

系统、方法和计算机程序产品能够通过标识具有不一致预测的数据实例并从不一致中学习来比较机器学习模型。基于模型解释技术，可以解释所比较的机器学习模型之间的差异。还可以提供用于从不同角度对元特征进行优先化的多个指标。

Description

用于比较机器学习模型的系统、方法和计算机程序产品

相关申请的交叉引用

本申请要求2021年3月30日提交的美国临时专利申请63/167,882、2022年1月7日提交的美国临时专利申请63/297,288和2021年9月22日提交的国际专利申请PCT/US21/51458的优先权，这些专利的全部公开内容以引用方式并入本文。

技术领域

本公开整体涉及机器学习模型，并且在一些非限制性实施方案或方面中，涉及用于比较机器学习模型的准确率的系统、方法和计算机程序产品。

背景技术

分类(例如，预测给定数据实例成为不同类别的可能性等)是机器学习(ML)中的基本问题。已针对这个问题提出了许多分类模型，包括传统模型(例如，支持向量机(SVM)、朴素贝叶斯( Bayes)分类器等)、集成学习模型(例如，随机森林模型、树提升模型等)，以及深度学习模型(例如，卷积神经网络(CNN)、递归神经网络(RNN)等)。这些分类器的出色性能使它们被广泛应用于许多真实世界应用中，诸如垃圾邮件过滤、广告的点击率(CTR)预测和自动驾驶的目标识别。这些模型的小改进可为对应领域的公司带来显著的营收增长。因此，每天都会产生数量快速增长的分类器。因此，对分类器进行比较并标识最佳分类器来使用成为越来越重要的问题。

近年来，解释分类模型引起了越来越多的关注，并且已经提出了许多解决方案。粗略地说，模型解释可以分为模型特定解释和模型不可知解释。模型特定解释将分类模型视为“白盒”，人们可以在该白盒中访问所有内部细节。例如，使大多数针对深度学习模型的解释可视化并调查内部神经元的激活，以揭露数据如何在内部转换。模型不可知解释将预测模型视为“黑盒”，在该黑盒中只有模型的输入和输出可用。这些方法通常采用可解释的代理模型来局部或全局地模拟或探查经解释模型的行为。例如，局部可解释模型不可知解释(LIME)使用线性模型作为代理来模拟要解释的更复杂的分类器的局部行为。经由知识蒸馏的图像分类器深度视觉解释和诊断(Deep Visual Interpretation and Diagnosis forImage Classifiers via Knowledge Distillation)(DeepVID)使用从用于解释的原始分类器中蒸馏出的知识来训练可解释模型。RuleMatrix仅使用模型的输入-输出行为，将分类模型转换为一组标准化的IF-THEN-ELSE规则。两组解释解决方案的共同目标是回答问题“什么输入特征对模型的输出更重要？”。也有统计地量化特征的重要性的解决方案。

可以使用不同的数字指标(例如，准确率、精确率、LogLoss等)从不同的角度比较两个分类器，这可能有助于选择整体性能更好的模型。基于这些指标已经提出了多个模型不可知的可视化和比较解决方案，因为生成这些指标不需要打开不同分类器的“黑盒”。然而，由于这些现有的解决方案不触及不同分类器的主干，所以该现有的解决方案通常未能揭示分类器在哪里可能优于其他分类器。此外，提供很少的细节来帮助模型设计者将性能差异与个体分类器的不相似工作机制联系起来。例如，许多模型建立和可视化工具包，诸如和scikit-learn，为这些数字指标提供了内置的应用程序编程接口(API)。然而，这些聚合指标通常不足以在模型比较和选择中提供足够的细节。例如，两个模型可能以非常不同的方式实现相同的准确率，并且在对模型进行比较时，潜在的细节通常更受关注。

许多视觉分析工作试图超越这些聚合指标以便进行更全面的模型比较。例如，通过揭示一致和不一致预测来比较两个模型。该比较是模型不可知的，并且对于用户选择的实例，/>可以标识促成模型之间的预测差异的特征。DeepCompare通过深度学习模型和不可比架构的激活模式将它们进行比较(例如，CNN对比RNN等)。CNNComparator将来自不同训练阶段的同一CNN进行比较以揭示模型的演变。去卷积技术也已经被用来比较CNN。这些现有的比较工作大多依赖于人的视觉理解来标识模型的行为差异。

ML中的特征可视化可能关注于(1)揭示预测模型已经捕获了什么特征，或者(2)基于特征的影响幅值或重要性对该特征进行优先化，以限制分析的范围。前者通常在图像数据上进行，并且可能使用“通过优化实现可视化(visualization by optimization)”来产生激活不同神经元以解释深度学习模型的特征图。不同的显著图生成算法也共享相同的目标，即突出所捕获的特征以更好地理解深度神经网络。特征优先化的后一个重点通常在表格数据上进行，其中不同的指标用于对不同数据特征的贡献进行排序。例如，当解释基于树的模型时，每个特征被用来分割树节点的次数通常被用来对特征进行排名。局部可解释模型不可知解释(LIME)和沙普利加和解释(SHapley Additive exPlanations)(SHAP)也提供了量化指标来对不同的数据特征进行排序。

用新模型替换旧的生产模型通常会带来重大的业务影响。为了降低风险，新模型通常最初以“影子模式”启动(例如，通过将模型部署到生产中但仅为了分析而收集其输出等)，在此期间，收集来自旧模型和新模型中的每一者的输出。然后可以进行“交换分析”以通过比较两个模型并揭示它们的相应优势和劣势，来调查是否应当用新模型替换/交换旧模型。由于交换分析期间可用的信息非常有限，因此模型不可知比较可能是更优选的。

现有的模型比较可能局限于数值指标。对于二元分类器，接收者操作特性(ROC)曲线下面积(AUC)是流行的指标，该指标在所有分类阈值上概述了分类器的真阳性率(TPR)与假阳性率(FPR)。较大AUC可能是对较好模型(例如，模型以较低的FPR为代价获得较高的TPR(以较少的错误捕获为代价获得更多的正确捕获)等)的指示。真实应用可能需要小的FPR，因此，ROC的左下角可能更相关，而不是总体AUC值。例如，垃圾邮件过滤应用无法过滤所有的电子邮件以声称它们捕获了所有的垃圾邮件。相反，FPR应当较小以保持电子邮件系统运行。例如，在图6B中，模型M₁可能比模型M₂更好，但M₁的总AUC明显更小。

然而，AUC不能分辨在什么条件下一个模型优于另一个模型，该分辨可能是针对模型选择的期望的问题。通常，ML从业者根据他们对模型的理解来解释模型之间的优越性能。例如，当数据呈现强烈的序列行为时，RNN可能通常优于基于树的模型。然而，这些一般的解释通常很少有证据支持，并且也很少有方法产生任何证据。

发明内容

因此，提供了用于比较机器学习模型的改进的系统、设备、产品、装置和/或方法。

根据一些非限制性实施方案或方面，提供了一种用于比较机器学习模型的系统，所述系统包括：至少一个处理器，所述至少一个处理器被编程或配置为：接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；基于所述第一真标签矩阵训练第一分类器；基于所述第二真标签矩阵训练第二分类器；并且基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

在一些非限制性实施方案或方面中，所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

在一些非限制性实施方案或方面中，当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率。

在一些非限制性实施方案或方面中，所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术。

在一些非限制性实施方案或方面中，当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；并且计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

在一些非限制性实施方案或方面中，当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

在一些非限制性实施方案或方面中，当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

在一些非限制性实施方案或方面中，当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；并且计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

根据一些非限制性实施方案或方面，提供了一种计算机实现的方法，所述计算机实现的方法包括：利用至少一个处理器来接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；利用所述至少一个处理器来基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；利用所述至少一个处理器来确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；利用所述至少一个处理器来生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；利用所述至少一个处理器来基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；利用所述至少一个处理器来基于所述第一真标签矩阵训练第一分类器；利用所述至少一个处理器来基于所述第二真标签矩阵训练第二分类器；以及利用所述至少一个处理器来基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；以及计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；以及计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

根据一些非限制性实施方案或方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一个非暂时性计算机可读介质，所述至少一个非暂时性计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使得所述至少一个处理器：接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；基于所述第一真标签矩阵训练第一分类器；基于所述第二真标签矩阵训练第二分类器；并且基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

在一些非限制性实施方案或方面中，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术，并且其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；以及计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

根据一些非限制性实施方案或方面，提供了一种计算机实现的方法，所述计算机实现的方法包括：利用至少一个处理器来获得与多个样本和所述多个样本的多个标签相关联的多个特征；利用所述至少一个处理器，通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；利用所述至少一个处理器，通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；利用所述至少一个处理器，基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；利用所述至少一个处理器，基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；以及利用所述至少一个处理器，基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

在一些非限制性实施方案或方面中，至少以下各项中的一项：(i)所述第一特征子集不同于所述第二特征子集；(ii)用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集；(iii)用于生成所述第一机器学习模型的第一机器学习算法不同于用于生成所述第二机器学习模型的第二机器学习算法；以及(iv)用于训练所述第一机器学习模型的第一训练数据集不同于用于训练所述第二机器学习模型的第二训练数据集。

在一些非限制性实施方案或方面中，所述第一特征子集不同于所述第二特征子集，并且标识所述第二机器学习模型中的所述弱点还包括：确定所述第一特征子集与所述第二特征子集之间的特征差异；基于包括在所述第一部分样本中的相同第一特征和所述特征差异，选择所述多个特征中的一个或多个特征；基于所选择的一个或多个特征调整所述第二特征子集；以及使用经调整的第二特征子集生成更新后的第二机器学习模型。

在一些非限制性实施方案或方面中，用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集，并且其中标识所述第二机器学习模型中的所述弱点还包括：确定所述第一超参数集与所述第二超参数集之间的超参数差异；基于包括在所述第一部分样本中的相同第一特征和所述超参数差异，确定一个或多个超参数；基于所选择的一个或多个超参数调整所述第二超参数集；以及使用经调整的第二超参数集生成更新后的第二机器学习模型。

在一些非限制性实施方案或方面中，所述多个第一预测包括多个第一预测分数，其中所述多个第二预测包括多个第二预测分数，并且生成所述多个样本的所述多个样本组还包括：将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度；将操作点应用于所述多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测；将所述操作点应用于多个经对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测；以及基于所述多个第一阳性预测、所述多个第一阴性预测、所述多个第二阳性预测、所述多个第二阴性预测来生成所述多个标签和所述多个样本的所述多个样本组。

在一些非限制性实施方案或方面中，将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度包括：根据所述第一预测分数的值将所述多个预测分数中的每个第一预测分数分配到多个第一桶中的第一桶；对于每个第一桶，确定达到分配到所述第一桶的所述第一预测分数的所述值的阳性第一预测的比率；根据所述第二预测分数的值将所述多个预测分数中的每个第二预测分数分配到多个第二桶中的第二桶；对于每个第二桶，确定达到分配到所述第二桶的所述第二预测分数的所述值的阳性第二预测的比率；以及对于每个第二预测分数，确定对准到与所述多个第一预测分数相同的标度的对准分数，所述第一预测分数的所述值被分配到所述多个第一桶中的所述第一桶，对于所述第一桶，所述阳性第一预测的比率是与所述预测分数被分配到的所述第二桶的所述阳性第二预测的比率相同的比率。

在一些非限制性实施方案或方面中，生成所述多个样本的所述多个样本组包括：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

在一些非限制性实施方案或方面中，根据以下等式确定与所述第一机器学习模型相关联的所述第一成功率和与所述第二机器学习模型相关联的所述第二成功率：

其中X1是所述第一样本组中的样本数，Y1是所述第二样本组中的样本数，Z1是所述第三样本组中的样本数，X2是所述第四样本组中的样本数，Y2是所述第五样本组中的样本数，Z2是所述第六样本组中的样本数，并且λ是折扣因子。

根据一些非限制性实施方案或方面，提供了一种系统，所述系统包括：至少一个处理器，所述至少一个处理器被编程和/或配置为：获得与多个样本和所述多个样本的多个标签相关联的多个特征；通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；并且基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

在一些非限制性实施方案或方面中，所述第一特征子集不同于所述第二特征子集，并且其中所述至少一个处理器被编程和/或配置为通过以下操作标识所述第二机器学习模型中的所述弱点：确定所述第一特征子集与所述第二特征子集之间的特征差异；基于包括在所述第一部分样本中的相同第一特征和所述特征差异，选择所述多个特征中的一个或多个特征；基于所选择的一个或多个特征调整所述第二特征子集；以及使用经调整的第二特征子集生成更新后的第二机器学习模型。

在一些非限制性实施方案或方面中，用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集，并且其中所述至少一个处理器被编程和/或配置为进一步通过以下操作标识所述第二机器学习模型中的所述弱点：确定所述第一超参数集与所述第二超参数集之间的超参数差异；基于包括在所述第一部分样本中的相同第一特征和所述超参数差异，确定一个或多个超参数；基于所选择的一个或多个超参数调整所述第二超参数集；以及使用经调整的第二超参数集生成更新后的第二机器学习模型。

在一些非限制性实施方案或方面中，所述多个第一预测包括多个第一预测分数，其中所述多个第二预测包括多个第二预测分数，并且其中所述至少一个处理器被编程和/或配置为进一步通过以下操作生成所述多个样本的所述多个样本组：将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度；将操作点应用于所述多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测；将所述操作点应用于多个经对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测；以及基于所述多个第一阳性预测、所述多个第一阴性预测、所述多个第二阳性预测、所述多个第二阴性预测来生成所述多个标签和所述多个样本的所述多个样本组。

在一些非限制性实施方案或方面中，所述至少一个处理器被编程和/或配置为通过以下操作将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度：根据所述第一预测分数的值将所述多个预测分数中的每个第一预测分数分配到多个第一桶中的第一桶；对于每个第一桶，确定达到分配到所述第一桶的所述第一预测分数的所述值的阳性第一预测的比率；根据所述第二预测分数的值将所述多个预测分数中的每个第二预测分数分配到多个第二桶中的第二桶；对于每个第二桶，确定达到分配到所述第二桶的所述第二预测分数的所述值的阳性第二预测的比率；以及对于每个第二预测分数，确定对准到与所述多个第一预测分数相同的标度的对准分数，所述第一预测分数的所述值被分配到所述多个第一桶中的所述第一桶，对于所述第一桶，所述阳性第一预测的比率是与所述预测分数被分配到的所述第二桶的所述阳性第二预测的比率相同的比率。

在一些非限制性实施方案或方面中，所述至少一个处理器被编程和/或配置为通过以下操作生成所述多个样本的所述多个样本组：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

根据一些非限制性实施方案或方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一个非暂时性计算机可读介质，所述至少一个非暂时性计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使得所述至少一个处理器：获得与多个样本和所述多个样本的多个标签相关联的多个特征；通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；并且基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

在一些非限制性实施方案或方面中，所述指令使得所述至少一个处理器通过以下操作生成所述多个样本的所述多个样本组：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

在以下编号条款中阐述其他非限制性实施方案或方面：

条款1.一种用于比较机器学习模型的系统，所述系统包括：至少一个处理器，所述至少一个处理器被编程或配置为：接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；基于所述第一真标签矩阵训练第一分类器；基于所述第二真标签矩阵训练第二分类器；并且基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

条款2.如条款1所述的系统，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

条款3.如条款1或2所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率。

条款4.如条款1至3中任一项所述的系统，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术。

条款5.如条款1至4中任一项所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：计算针对所述第一分类器的数据集的每个数据实例的每个特征值的SHAP值；并且计算针对所述第二分类器的数据集的每个数据实例的每个特征值的SHAP值。

条款6.如条款1至5中任一项所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

条款7.如条款1至6中任一项所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

条款8.如条款1至7中任一项所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；并且计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

条款9.一种计算机实现的方法，所述计算机实现的方法包括：利用至少一个处理器来接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；利用所述至少一个处理器来基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；利用所述至少一个处理器来确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；利用所述至少一个处理器来生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；利用所述至少一个处理器来基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；利用所述至少一个处理器来基于所述第一真标签矩阵训练第一分类器；利用所述至少一个处理器来基于所述第二真标签矩阵训练第二分类器；以及利用所述至少一个处理器来基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

条款10.如条款9所述的计算机实现的方法，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

条款11.如条款9或10所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率。

条款12.如条款9至11中任一项所述的计算机实现的方法，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术。

条款13.如条款9至12中任一项所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；以及计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

条款14.如条款9至13中任一项所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

条款15.如条款9至14中任一项所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

条款16.如条款9至15中任一项所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；以及计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

条款17.一种计算机程序产品，所述计算机程序产品包括至少一个非暂时性计算机可读介质，所述至少一个非暂时性计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使得所述至少一个处理器：接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；基于所述第一真标签矩阵训练第一分类器；基于所述第二真标签矩阵训练第二分类器；并且基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

条款18.如条款17所述的计算机程序产品，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

条款19.如条款17或18所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术，并且其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；以及计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

条款20.如条款17至19中任一项所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

条款21.如条款17至20中任一项所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

条款22.如条款17至21中任一项所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；以及计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

条款1b.一种计算机实现的方法，所述计算机实现的方法包括：利用至少一个处理器来获得与多个样本和所述多个样本的多个标签相关联的多个特征；利用所述至少一个处理器，通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；利用所述至少一个处理器，通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；利用所述至少一个处理器，基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；利用所述至少一个处理器，基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；以及利用所述至少一个处理器，基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

条款2b.如条款1b所述的计算机实现的方法，其中至少以下各项中的一项：(i)所述第一特征子集不同于所述第二特征子集；(ii)用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集；(iii)用于生成所述第一机器学习模型的第一机器学习算法不同于用于生成所述第二机器学习模型的第二机器学习算法；以及(iv)用于训练所述第一机器学习模型的第一训练数据集不同于用于训练所述第二机器学习模型的第二训练数据集。

条款3b.如条款1b或2b所述的计算机实现的方法，其中所述第一特征子集不同于所述第二特征子集，并且其中标识所述第二机器学习模型中的所述弱点还包括：确定所述第一特征子集与所述第二特征子集之间的特征差异；基于包括在所述第一部分样本中的相同第一特征和所述特征差异，选择所述多个特征中的一个或多个特征；基于所选择的一个或多个特征调整所述第二特征子集；以及使用经调整的第二特征子集生成更新后的第二机器学习模型。

条款4b.如条款1b至3b中任一项所述的计算机实现的方法，其中用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集，并且其中标识所述第二机器学习模型中的所述弱点还包括：确定所述第一超参数集与所述第二超参数集之间的超参数差异；基于包括在所述第一部分样本中的相同第一特征和所述超参数差异，确定一个或多个超参数；基于所选择的一个或多个超参数调整所述第二超参数集；以及使用经调整的第二超参数集生成更新后的第二机器学习模型。

条款5b.如条款1b至4b中任一项所述的计算机实现的方法，其中所述多个第一预测包括多个第一预测分数，其中所述多个第二预测包括多个第二预测分数，并且其中生成所述多个样本的所述多个样本组还包括：将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度；将操作点应用于所述多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测；将所述操作点应用于多个经对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测；以及基于所述多个第一阳性预测、所述多个第一阴性预测、所述多个第二阳性预测、所述多个第二阴性预测来生成所述多个标签和所述多个样本的所述多个样本组。

条款6b.如条款1b至5b中任一项所述的计算机实现的方法，其中将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度包括：根据所述第一预测分数的值将所述多个预测分数中的每个第一预测分数分配到多个第一桶中的第一桶；对于每个第一桶，确定达到分配到所述第一桶的所述第一预测分数的所述值的阳性第一预测的比率；根据所述第二预测分数的值将所述多个预测分数中的每个第二预测分数分配到多个第二桶中的第二桶；对于每个第二桶，确定达到分配到所述第二桶的所述第二预测分数的所述值的阳性第二预测的比率；以及对于每个第二预测分数，确定对准到与所述多个第一预测分数相同的标度的对准分数，所述第一预测分数的所述值被分配到所述多个第一桶中的所述第一桶，对于所述第一桶，所述阳性第一预测的比率是与所述预测分数被分配到的所述第二桶的所述阳性第二预测的比率相同的比率。

条款7b.如条款1b至6b中任一项所述的计算机实现的方法，其中生成所述多个样本的所述多个样本组包括：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

条款8b.如条款1b至7b中任一项所述的计算机实现的方法，其中根据以下等式确定与所述第一机器学习模型相关联的所述第一成功率和与所述第二机器学习模型相关联的所述第二成功率：

条款9b.一种系统，所述系统包括：至少一个处理器，所述至少一个处理器被编程和/或配置为：获得与多个样本和所述多个样本的多个标签相关联的多个特征；通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；并且基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

条款10b.如条款9b所述的系统，其中至少以下各项中的一项：(i)所述第一特征子集不同于所述第二特征子集；(ii)用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集；(iii)用于生成所述第一机器学习模型的第一机器学习算法不同于用于生成所述第二机器学习模型的第二机器学习算法；以及(iv)用于训练所述第一机器学习模型的第一训练数据集不同于用于训练所述第二机器学习模型的第二训练数据集。

条款11b.如条款9b或10b所述的系统，其中所述第一特征子集不同于所述第二特征子集，并且其中所述至少一个处理器被编程和/或配置为通过以下操作标识所述第二机器学习模型中的所述弱点：确定所述第一特征子集与所述第二特征子集之间的特征差异；基于包括在所述第一部分样本中的相同第一特征和所述特征差异，选择所述多个特征中的一个或多个特征；基于所选择的一个或多个特征调整所述第二特征子集；以及使用经调整的第二特征子集生成更新后的第二机器学习模型。

条款12b.如条款9b至11b中任一项所述的系统，其中用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集，并且其中所述至少一个处理器被编程和/或配置为进一步通过以下操作标识所述第二机器学习模型中的所述弱点：确定所述第一超参数集与所述第二超参数集之间的超参数差异；基于包括在所述第一部分样本中的相同第一特征和所述超参数差异，确定一个或多个超参数；基于所选择的一个或多个超参数调整所述第二超参数集；以及使用经调整的第二超参数集生成更新后的第二机器学习模型。

条款13b.如条款9b至12b中任一项所述的系统，其中所述多个第一预测包括多个第一预测分数，其中所述多个第二预测包括多个第二预测分数，并且其中所述至少一个处理器被编程和/或配置为进一步通过以下操作生成所述多个样本的所述多个样本组：将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度；将操作点应用于所述多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测；将所述操作点应用于多个经对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测；以及基于所述多个第一阳性预测、所述多个第一阴性预测、所述多个第二阳性预测、所述多个第二阴性预测来生成所述多个标签和所述多个样本的所述多个样本组。

条款14b.如条款9b至13b中任一项所述的系统，其中所述至少一个处理器被编程和/或配置为通过以下操作将所述多个第二预测分数对准到与所述多个第一预测分数相同的标度：根据所述第一预测分数的值将所述多个预测分数中的每个第一预测分数分配到多个第一桶中的第一桶；对于每个第一桶，确定达到分配到所述第一桶的所述第一预测分数的所述值的阳性第一预测的比率；根据所述第二预测分数的值将所述多个预测分数中的每个第二预测分数分配到多个第二桶中的第二桶；对于每个第二桶，确定达到分配到所述第二桶的所述第二预测分数的所述值的阳性第二预测的比率；以及对于每个第二预测分数，确定对准到与所述多个第一预测分数相同的标度的对准分数，所述第一预测分数的所述值被分配到所述多个第一桶中的所述第一桶，对于所述第一桶，所述阳性第一预测的比率是与所述预测分数被分配到的所述第二桶的所述阳性第二预测的比率相同的比率。

条款15b.如条款9b至14b中任一项所述的系统，其中所述至少一个处理器被编程和/或配置为通过以下操作生成所述多个样本的所述多个样本组：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

条款16b.如条款9b至15b中任一项所述的系统，其中根据以下等式确定与所述第一机器学习模型相关联的所述第一成功率和与所述第二机器学习模型相关联的所述第二成功率：

条款17b.一种计算机程序产品，所述计算机程序产品包括至少一个非暂时性计算机可读介质，所述至少一个非暂时性计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使得所述至少一个处理器：获得与多个样本和所述多个样本的多个标签相关联的多个特征；通过提供所述多个特征的第一特征子集作为对第一机器学习模型的输入，并且接收所述多个样本的多个第一预测作为从所述第一机器学习模型的输出，来生成所述多个样本的所述多个第一预测；通过提供所述多个特征的第二特征子集作为对第二机器学习模型的输入，并且接收所述多个样本的多个第二预测作为从所述第二机器学习模型的输出，来生成所述多个样本的所述多个第二预测；基于所述多个第一预测、所述多个第二预测来生成所述多个标签和所述多个样本的多个样本组；基于所述多个样本组来确定与所述第一机器学习模型相关联的第一成功率和与所述第二机器学习模型相关联的第二成功率；并且基于所述第一成功率和所述第二成功率来标识与所述多个样本的第一部分样本相关联的所述第二机器学习模型中的弱点，所述第一部分样本包括针对所述多个特征的相同第一特征的相同第一值，并且对于所述弱点，与所述第一机器学习模型相关联的所述第一成功率不同于与所述第二机器学习模型相关联的所述第二成功率。

条款18b.如条款17b所述的计算机程序产品，其中至少以下各项中的一项：(i)所述第一特征子集不同于所述第二特征子集；(ii)用于生成所述第一机器学习模型的机器学习算法的第一超参数集不同于用于生成所述第二机器学习模型的相同机器学习算法的第二超参数集；(iii)用于生成所述第一机器学习模型的第一机器学习算法不同于用于生成所述第二机器学习模型的第二机器学习算法；以及(iv)用于训练所述第一机器学习模型的第一训练数据集不同于用于训练所述第二机器学习模型的第二训练数据集。

条款19b.如条款17b或18b所述的计算机程序产品，其中所述指令使得所述至少一个处理器通过以下操作生成所述多个样本的所述多个样本组：利用所述至少一个处理器来确定所述多个样本的第一样本组，对于所述第一样本组，所述多个第一预测中的第一预测与所述多个标签中的标签相匹配，并且所述多个第二预测中的第二预测与所述多个标签中的所述标签相匹配；利用所述至少一个处理器来确定所述多个样本的第二样本组，对于所述第二样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第三样本组，对于所述第三样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第四样本组，对于所述第四样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配；利用所述至少一个处理器来确定所述多个样本的第五样本组，对于所述第五样本组，所述多个第一预测中的所述第一预测与所述多个标签中的所述标签不匹配，并且所述多个第二预测中的所述第二预测与所述多个标签中的所述标签相匹配；以及利用所述至少一个处理器来确定所述多个样本的第六样本组，对于所述第六样本组，所述多个第二预测中的所述第二预测与所述多个标签中的所述标签不匹配，并且所述多个第一预测中的所述第一预测与所述多个标签中的所述标签相匹配。

条款20b.如条款17b至19b中任一项所述的计算机程序产品，其中根据以下等式确定与所述第一机器学习模型相关联的所述第一成功率和与所述第二机器学习模型相关联的所述第二成功率：

在参考附图考虑以下描述和所附权利要求书时，本公开的这些和其他特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见，所有附图形成本说明书的部分，其中相似附图标号在各图中标示对应部分。然而，应明确地理解，图式仅用于说明及描述的目的，且不希望作为对本公开的限制的定义。除非上下文另外明确规定，否则在本说明书和权利要求书中使用时，单数形式“一”和“所述”包括多个指示物。

附图说明

下文参考附图中说明的示例性实施方案更详细地解释本公开的额外优点和细节，在附图中：

图1是可在其中实现本文所描述的系统、设备、产品、装置和/或方法的环境的非限制性实施方案或方面的图；

图2是图1的一个或多个设备和/或一个或多个系统的部件的非限制性实施方案或方面的图；

图3是用于比较机器学习模型的过程的非限制性实施方案或方面的流程图；

图4是用于比较机器学习模型的过程的非限制性实施方案或方面的实施方式的流程图；

图5是用于计算性能指标的样本子集的非限制性实施方案或方面的实施方式的图；

图6A和图6B是示出具有曲线下面积(AUC)指标的二元分类器的示例评估的图表；

图7示出了用于垃圾邮件分类器的示例数据集和解释矩阵；

图8A示出了可视界面的不一致分布视图的非限制性实施方案或方面；

图8B示出了可视界面的特征视图的非限制性实施方案或方面；

图9A示出了概括图的非限制性实施方案或方面；

图9B示出了解决过度绘图问题的概括图的非限制性实施方案或方面；

图10示出了特征和沙普利加和解释(SHAP)值的2D直方图的非限制性实施方案或方面；

图11示出了使特征的贡献可视化的概括图的非限制性实施方案或方面；

图12示出了使特征的贡献可视化的气泡图的非限制性实施方案或方面；

图13是示出根据非限制性实施方案或方面的树和RNN模型以及RNN和GNN模型的示例比较的表格；

图14示出了可视界面的不一致分布视图的非限制性实施方案或方面；

图15示出了可视界面的不一致分布视图的非限制性实施方案或方面；

图16示出了用于比较模型的可视界面的非限制性实施方案或方面；

图17示出了在可视界面中对元特征进行排名时使用的不同指标的非限制性实施方案或方面；

图18是示出个体和集成模型的性能的表格；

图19是示出示例模型的相对成功率的图；

图20是示出示例模型之间的不一致的图；

图21是示出示例模型之间的相对成功率的图；

图22是示出示例模型之间的不一致的图；

图23是示出示例模型之间的相对成功率的图；并且

图24是示出示例模型之间的不一致的图。

具体实施方式

下文出于描述的目的，术语“端”、“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“横向”、“纵向”以及其衍生词应涉及本公开如其在附图中的定向。然而，应理解，除了明确指定相反情况之外，本公开可以采用各种替代变化和步骤序列。还应理解，附图中所说明的以及在以下说明中描述的特定设备和过程仅仅是本公开的示例性实施方案或方面。因此，除非另有指示，否则与本文公开的实施方案或实施方案的方面相关联的特定维度和其它物理特性不应被视为限制。

本文所使用的方面、部件、元件、结构、动作、步骤、功能、指令等都不应当被理解为是关键的或必要的，除非明确地如此描述。另外，如本文所使用，冠词“一”希望包括一个或多个项目，且可与“一个或多个”和“至少一个”互换使用。此外，如本文所使用，术语“集合”希望包括一个或多个项目(例如，相关项目、不相关项目、相关项目与不相关项目的组合等)，并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下，使用术语“一个”或类似语言。且，如本文所使用，术语“具有”等希望是开放式术语。另外，除非另外明确陈述，否则短语“基于”希望意味着“至少部分地基于”。在适当的情况下，短语“基于”也可以意味着“响应于”(例如，作为操作设备功能的触发条件)。

如本文所使用，术语“通信”和“传送”可指信息(例如，数据、信号、消息、指令、命令等)的接收、接受、发送、迁移、提供等。一个单元(例如，设备、系统、设备或系统的部件、其组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元传递(例如，发送)信息。这可以指代本质上有线和/或无线的直接或间接连接。另外，尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由，但这两个单元也可以彼此通信。例如，即使第一单元被动地接收信息且不会主动地将信息发送到第二单元，第一单元也可以与第二单元通信。作为另一示例，如果至少一个中间单元(例如，位于第一单元与第二单元之间的第三单元)处理从第一单元接收的信息且将处理后的信息发送到第二单元，则第一单元可与第二单元通信。在一些非限制性实施方案或方面中，消息可以指包括数据的网络包(例如，数据包等)。

如本文所使用，术语“发行方”、“发行方机构”、“发行方银行”或“支付设备发行方”可指向个体(例如，用户、客户等)提供用于进行例如信用支付交易和/或借记支付交易等支付交易的账户的一个或多个实体。例如，发行方机构可向客户提供唯一地标识与所述客户相关联的一个或多个账户的账户标识符，例如主账号(PAN)。在一些非限制性实施方案中，发行方可以与唯一地标识发行方机构的银行标识号码(BIN)相关联。如本文所使用，“发行方系统”可以指由发行方或代表发行方操作的一个或多个计算机系统，例如执行一个或多个软件应用程序的服务器。例如，发行方系统可以包括用于授权交易的一个或多个授权服务器。

如本文所使用，术语“交易服务提供商”可指向商家或其它实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如，交易服务提供商可包括支付网络，诸如American/>或处理交易的任何其他实体。如本文所使用，术语“交易服务提供商系统”可以指由交易服务提供商或代表交易服务提供商操作的一个或多个计算机系统，例如执行一个或多个软件应用程序的交易服务提供商系统。交易服务提供商系统可以包括一个或多个处理器，并且在一些非限制性实施方案或方面中，可由交易服务提供商或代表交易服务提供商操作。

如本文所使用，术语“商家”可以指基于交易(诸如支付交易)向用户(例如，客户、消费者等)提供商品和/或服务以及/或者对商品和/或服务的访问的一个或多个实体(例如，零售企业的运营者)。如本文所使用，“商家系统”可以指由商家或代表商家操作的一个或多个计算机系统，例如执行一个或多个软件应用程序的服务器。如本文所使用，术语“产品”可以指由商家提供的一种或多种商品和/或服务。

如本文所使用，术语“收单方”可以指由交易服务提供商许可且由交易服务提供商批准以发起涉及与交易服务提供商相关联的支付设备的交易(例如，支付交易)的实体。如本文所使用，术语“收单方系统”也可以指由收单方或代表收单方操作的一个或多个计算机系统、计算机设备等。收单方可发起的交易可以包括支付交易(例如，购买、原始信用交易(OCT)、账户资金交易(AFT)等)。在一些非限制性实施方案或方面中，收单方可以由交易服务提供商授权以与商家或服务提供商签约，发起涉及与交易服务提供商相关联的支付设备的交易。收单方可与支付服务商签合约，以使支付服务商能够向商家提供赞助。收单方可以根据交易服务提供商规章监视支付服务商的合规性。收单方可以对支付服务商进行尽职调查，并确保在与受赞助的商家签约之前发生适当的尽职调查。收单方可能对收单方操作或赞助的所有交易服务提供商计划负责任。收单方可以负责收单方支付服务商、由收单方支付服务商赞助的商家等等的行为。在一些非限制性实施方案或方面中，收单方可以是金融机构，例如银行。

如本文所使用，术语“支付网关”可指实体和/或由此类实体或代表此类实体操作的支付处理系统，所述实体(例如，商家服务提供商、支付服务提供商、支付服务商、与收单方有合约的支付服务商、支付聚合商(payment aggregator)等)向一个或多个商家提供支付服务(例如，交易服务提供商支付服务、支付处理服务等)。支付服务可以与由交易服务提供商管理的便携式金融设备的使用相关联。如本文所使用，术语“支付网关系统”可指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机设备、服务器、服务器群组等。

如本文所使用，术语“客户端”和“客户端设备”可以指一个或多个计算设备，例如处理器、存储设备和/或访问可由服务器提供的服务的类似计算机部件。在一些非限制性实施方案或方面中，客户端设备可以包括被配置为与一个或多个网络通信和/或促进交易的计算设备，诸如但不限于一个或多个台式计算机、一个或多个便携式计算机(例如，平板计算机)、一个或多个移动设备(例如，蜂窝电话、智能手机、个人数字助理、可穿戴设备诸如手表、眼镜、透镜和/或衣物等)和/或其他类似设备。此外，术语“客户端”还可指拥有、使用和/或操作客户端设备以促进与另一实体的交易的实体。

如本文所使用，术语“服务器”可以指一个或多个计算设备，例如处理器、存储设备和/或类似计算机部件，所述计算设备在例如因特网或私用网络等网络上与客户端设备和/或其它计算设备通信，且在一些实例中，促进其它服务器和/或客户端设备之间的通信。

如本文所使用，术语“系统”可指一个或多个计算设备或计算设备组合，例如但不限于处理器、服务器、客户端设备、软件应用程序和/或其它类似部件。此外，如本文所使用，对“服务器”或“处理器”的参考可指先前所述的陈述为执行先前步骤或功能的服务器和/或处理器、不同的服务器和/或处理器，和/或服务器和/或处理器的组合。例如，如在说明书和权利要求书中所使用，陈述为执行第一步骤或功能的第一服务器和/或第一处理器可指陈述为执行第二步骤或功能的相同或不同服务器和/或处理器。

在一些非限制性实施方案或方面中，如本文所使用，对“服务器”或“处理器”的参考可指先前所述的陈述为执行先前步骤或功能的服务器和/或处理器、不同的服务器和/或处理器，和/或服务器和/或处理器的组合。例如，如在说明书和权利要求书中所使用，陈述为执行第一步骤或功能的第一服务器和/或第一处理器可指陈述为执行第二步骤或功能的相同或不同服务器和/或处理器。

如本文所使用，术语“用户界面”或“图形用户界面”或“可视化”是指生成的显示，诸如用户可以直接或间接(例如，通过键盘、鼠标、触摸屏等)与其交互的一个或多个图形用户界面(GUI)。

对于模型解释和模型比较的个体问题，有多种现有的解决方案。出于解释的目的，局部可解释模型不可知解释(LIME)和沙普利加和解释(SHAP)是两个众所周知的示例，它们将分类器的预测输出归因于个体输入特征。出于比较的目的，使用来自一对分类器的可能性分数来反映分类器之间的一致/不一致程度。然而，现有的解决方案未能通过比较地解释多个分类器来同时解决这些问题中的每个问题。例如，考虑垃圾邮件过滤应用中的以下场景，在该场景中机器学习(ML)从业者需要在两个垃圾邮件分类器模型A与模型B之间进行选择，使用LIME的ML从业者可能会发现电子邮件中URL的数量(n_url)对于模型A是重要特征。类似地，基于LIME的解释，n_url也可能对于模型B是重要特征。将A和B与不同的数字指标(例如，准确率等)进行比较，每个模型可显示出具有小差异的相似整体性能。如果收到具有大n_url值的新邮件，并且来自模型A和模型B的预测非常不同，那么应该相信哪个预测？从这里可以看出，个体模型的解释(例如，LIME的输出等)在这种场景中无助于对模型进行比较和选择，因为n_url对于模型A和B中的每一者都是重要特征。由数字指标所揭示的小的性能差异可能也不足以在模型之间进行选择。

本公开的非限制性实施方案或方面涉及用于比较ML模型的系统、方法和计算机程序产品。在一些非限制性实施方案或方面中，一种模型比较系统可以包括至少一个处理器，所述至少一个处理器被编程或配置为：接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；基于所述数据实例的数据集生成第一ML模型的输出和第二ML模型的输出；确定所述第一ML模型的所述输出的第一子集和所述第二ML模型的所述输出的第二子集；生成不一致矩阵，所述不一致矩阵包括所述第一ML模型和所述第二ML模型的第一分组输出集以及所述第一ML模型和所述第二ML模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一ML模型的多个输出和不满足所述第一条件的所述第二ML模型的多个输出，并且所述第二分组输出集包括不满足所述第一条件的所述第一ML模型的多个输出和满足所述第一条件的所述第二ML模型的多个输出；基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一ML模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二ML模型的所述多个输出中的真阳性输出，并且第二真标签矩阵包括满足所述第一条件的所述第一ML模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二ML模型的所述多个输出中的假阳性输出；基于所述第一真标签矩阵训练第一分类器；基于所述第二真标签矩阵训练第二分类器；并且基于所述第一分类器和所述第二分类器确定所述第一ML模型的准确率和所述第二ML模型的准确率。在一些非限制性实施方案或方面中，所述第一ML模型的所述输出的所述第一子集和所述第二ML模型的所述输出的所述第二子集具有相同数量的值。在一些非限制性实施方案或方面中，当确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率时，所述至少一个处理器被编程或配置为基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率。在一些非限制性实施方案或方面中，所述模型解释技术是涉及SHAP值的模型解释技术。在一些非限制性实施方案或方面中，当确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率时，所述至少一个处理器被编程或配置为计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值，并且计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。在一些非限制性实施方案或方面中，当确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率时，所述至少一个处理器被编程或配置为生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。在一些非限制性实施方案或方面中，当确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率时，所述至少一个处理器被编程或配置为生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。在一些非限制性实施方案或方面中，当确定所述第一ML模型的所述准确率和所述第二ML模型的所述准确率时，所述至少一个处理器被编程或配置为计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；并且计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

以这种方式，本公开的非限制性实施方案或方面通过回答哪个分类器在什么特征值范围内(例如，当n_url较大或满足阈值时等)表现相对更好(例如，哪个分类器更可能捕获垃圾邮件等)来为上述场景提供解决方案，这直接有助于对模型进行选择并且产生组合两个模型的更好方式。例如，如果当n_url较大时，模型A优于模型B，并且当n_url较小时，模型B优于模型A，则具有较大n_url的电子邮件可以从A获得分数，而具有较小n_url的电子邮件可以从B获得分数，以生成高级集成模型。例如，可以使用特征加权线性堆叠(FWLS)来生成集成模型，其中在两个所比较的模型中具有更多不相似/互补行为的特征可以更好地集成这两个模型。然而，也不存在基于特征在两个模型中的行为差异来对这些特征进行优先化的现有解决方案。

本公开的非限制性实施方案或方面提供了从不一致中学习(Learning-From-Disagreement)(LFD)框架，以通过从一对ML模型(例如，一对二元分类器等)之间的预测不一致中学习来比较地解释ML模型。例如，在给定一对二元分类器A和B的情况下，可以使用分类器A和B(例如，作为数据过滤器等)来构建不一致矩阵，该不一致矩阵标识被分类器A捕获(例如，得分高等)但被分类器B遗漏的实例(例如，A⁺B^-)，以及被分类器B捕获但被分类器A遗漏的那些实例(例如，A^-B⁺)。出于比较的目的，被分类器A和B中的每一者捕获的实例(例如，A⁺B⁺)可能不太受关注。这些实例的真标签可以将不一致矩阵进一步分成两个矩阵，分别用于真阳性(TP)和假阳性(FP)预测(例如，图4中的步骤1至4)。在LFD中只能使用所比较分类器的输入和输出。例如，LFD可以是模型不可知的(例如，假设不知道要解释和比较的模型等)。对于TP侧和FP侧中的每一侧，可以训练鉴别器模型来区分A⁺B^-和A^-B⁺实例(例如，“学习”部分，图4中的步骤5)。在这样的示例中，鉴别器可以是任何分类模型，并且对鉴别器的唯一约束可以是它是SHAP友好的，使得它可以通过SHAP来解释以得出可行动的见解(例如，图4中的步骤6)。

训练鉴别器时的问题是用于训练分类器A和B的数据特征在比较期间可能不可用。这可能是行业中的常见情况，因为模型构建和比较可能由不同的团队进行。幸运的是，由于域用户可能具有关于所比较分类器的先验知识，所以可以使用一组新特征(例如，元特征)。例如，如果所比较分类器中的一者是递归神经网络(RNN)，则可以提出序列相关特征(例如，序列长度等)来确定RNN在具有较长序列的实例上是否实际表现得更好。如果一个分类器是图神经网络(GNN)，则可以提出邻居相关特征。这些元特征使LFD不可知原始模型训练特征(例如，特征不可知)，并且可以基于用户的先验知识来探查所比较分类器。此外，可以通过四个指标从四个不同的角度概述元特征的影响或重要性，以基于特征在两个模型中的行为差异来对该特征进行优先化。这些指标可以帮助对元特征进行排名，并且更好地标识更互补的特征以集成一对分类器。

因此，本公开的非限制性实施方案或方面提供了LFD框架，并且促进具有视觉特征分析的LFD框架比较地解释一对ML模型和/或引入指标来从不同的角度对大量元特征进行优先化或排名。

现在参考图1，示出了可在其中实现本文所描述的设备、系统、方法和/或产品的示例环境100的图。如图1所示，环境100包括模型比较系统102、交易服务提供商系统104、用户设备106、商家系统108、发行方系统110和通信网络112。模型比较系统102、交易服务提供商系统104、用户设备106、商家系统108和发行方系统110可以经由有线和无线连接互连(例如，建立连接以进行通信等)。

模型比较系统102可包括能够经由通信网络112与交易服务提供商系统104、用户设备106、商家系统108和发行方系统110通信的一个或多个设备。例如，模型比较系统102可包括一个或多个计算设备，诸如一个或多个台式计算机、膝上型计算机、服务器和/或类似设备。在一些非限制性实施方案或方面中，如本文所描述，模型比较系统102可以与交易服务提供商和/或支付网关服务提供商相关联。例如，模型比较系统102可以由交易服务提供商和/或支付网关服务提供商操作。在一些非限制性实施方案或方面中，模型比较系统102可以是交易服务提供商系统和/或支付网关服务提供商系统的部件。

交易服务提供商系统104可包括能够经由通信网络112与模型比较系统102、用户设备106、商家系统108和发行方系统110通信的一个或多个设备。例如，交易服务提供商系统104可包括一个或多个计算设备，诸如一个或多个台式计算机、膝上型计算机、服务器和/或其他类似设备。在一些非限制性实施方案或方面中，如本文所描述，交易服务提供商系统104可以与交易服务提供商和/或支付网关服务提供商相关联。例如，交易服务提供商系统104可以由如本文所描述的交易服务提供商和/或支付网关服务提供商操作。在一些非限制性实施方案或方面中，模型比较系统102可以是交易服务提供商系统104的部件。

用户设备106可包括能够经由通信网络112与模型比较系统102、交易服务提供商系统104、商家系统108和发行方系统110通信的一个或多个设备。例如，用户设备106可包括一个或多个计算设备，诸如一个或多个支付设备、一个或多个移动设备(例如，智能手机、平板电脑等)和/或其他类似设备。在一些非限制性实施方案或方面中，如本文所描述，用户设备106可以与用户相关联。

商家系统108可包括能够经由通信网络112与模型比较系统102、交易服务提供商系统104、用户设备106和发行方系统110通信的一个或多个设备。例如，商家系统108可包括一个或多个计算设备，诸如一个或多个POS设备、一个或多个POS系统、一个或多个服务器和/或其他类似设备。在一些非限制性实施方案或方面中，如本文所描述，商家系统108可以与商家相关联。

发行方系统110可包括能够经由通信网络112与模型比较系统102、交易服务提供商系统104、用户设备106和商家系统108通信的一个或多个设备。例如，发行方系统110可包括一个或多个计算设备，诸如一个或多个台式计算机、膝上型计算机、服务器和/或类似设备。在一些非限制性实施方案或方面中，如本文所描述，发行方系统110可以与发行方相关联。

通信网络112可包括一个或多个有线和/或无线网络。例如，通信网络112可包括蜂窝网络(例如，长期演进(LTE)网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公用陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网络(PSTN))、专用网络、自组网络、内联网、因特网、基于光纤的网络、云计算网络等和/或这些或其他类型的网络中的一些或全部的组合。

图1所示的系统和/或设备的数量和布置作为示例提供。可以存在额外系统和/或设备、更少系统和/或设备、不同的系统和/或设备，或以与图1所示的那些不同的方式布置的系统和/或设备。此外，可以在单个系统和/或单个设备内实施图1所示的两个或更多个系统和/或设备，或图1所示的单个系统或单个设备可实施为多个分布式系统或设备。另外或替代地，环境100的一组系统或一组设备(例如，一个或多个系统、一个或多个设备)可以执行被描述为由环境100的另一组系统或另一组设备执行的一个或多个功能。

现在参考图2，图2是设备200的示例部件的图。设备200可以对应于模型比较系统102(例如，模型比较系统102的一个或多个设备)、交易服务提供商系统104(例如，交易服务提供商系统104的一个或多个设备)、用户设备106、商家系统108(例如，商家系统108的一个或多个设备)和/或发行方系统110(例如，发行方系统110的一个或多个设备)。在一些非限制性实施方案或方面中，模型比较系统102、交易服务提供商系统104、用户设备106、商家系统108和/或发行方系统110可包括至少一个设备200和/或设备200的至少一个部件。

如图2所示，设备200可以包括总线202、处理器204、存储器206、存储部件208、输入部件210、输出部件212和通信接口214。总线202可以包括准许设备200的部件之间的通信的部件。在一些非限制性实施方案或方面中，处理器204可以在硬件、软件，或硬件和软件的组合中实施。例如，处理器204可包括处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可以被编程为执行功能的任何处理部件(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器206可以包括随机存取存储器(RAM)、只读存储器(ROM)，和/或存储供处理器204使用的信息和/或指令的另一类型的动态或静态存储器(例如，快闪存储器、磁存储器、光学存储器等)。

存储部件208可存储与设备200的操作和使用相关联的信息和/或软件。例如，存储部件208可以包括硬盘(例如，磁盘、光盘、磁光盘、固态磁盘等)、压缩光盘(CD)、数字多功能光盘(DVD)、软盘、盒带、磁带和/或另一类型的计算机可读介质，以及对应的驱动器。

输入部件210可以包括准许设备200例如通过用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)接收信息的部件。另外或替代地，输入部件210可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速度计、陀螺仪、致动器等)。输出部件212可以包括从设备200提供输出信息的部件(例如，显示器、扬声器、一个或多个发光二极管(LED)等)。

通信接口214可以包括使设备200能够诸如经由有线连接、无线连接或有线连接和无线连接的组合与其他设备通信的收发器类部件(例如，收发器、单独的接收器和发射器等)。通信接口214可以准许设备200接收来自另一设备的信息和/或向另一设备提供信息。例如，通信接口214可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等。

设备200可以执行本文描述的一个或多个过程。设备200可基于处理器204执行由诸如存储器206和/或存储部件208等的计算机可读介质存储的软件指令来执行这些过程。计算机可读介质(例如，非暂时性计算机可读介质)在本文中定义为非暂时性存储器设备。存储器设备包括位于单个物理存储设备内的存储器空间或跨多个物理存储设备扩展的存储器空间。

软件指令可以经由通信接口214从另一计算机可读介质或从另一设备读取到存储器206和/或存储部件208中。当执行时，存储在存储器206和/或存储部件208中的软件指令可以使处理器204执行本文中所描述的一个或多个过程。另外或替代地，硬接线电路系统可以替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此，本文所描述的实施方案或方面不限于硬件电路系统和软件的任何特定组合。

图2所示的部件的数目和布置作为示例提供。在一些非限制性实施方案或方面中，设备200可以包括额外部件、更少部件、不同部件或以与图2所示的那些不同的方式布置的部件。另外或替代地，设备200的一组部件(例如，一个或多个部件)可执行被描述为由设备200的另一组部件执行的一个或多个功能。

现在参考图3，图3是用于比较ML模型的过程300的非限制性实施方案或方面的流程图。在一些非限制性实施方案或方面中，过程300的步骤中的一个或多个步骤可以(例如，完全地、部分地等)由模型比较系统102(例如，模型比较系统102的一个或多个设备)来执行。在一些非限制性实施方案或方面中，过程300的步骤中的一个或多个步骤可以(例如，完全地、部分地等)由与模型比较系统102(例如，模型比较系统102的一个或多个设备)、交易服务提供商系统104(例如，交易服务提供商系统104的一个或多个设备)、用户设备106、商家系统108(例如，商家系统108的一个或多个设备)或发行方系统110(例如，发行方系统110的一个或多个设备)分离或包括它们的另一设备或设备群组来执行。

如图3所示，在步骤302处，过程300包括生成第一ML模型和第二ML模型的输出。例如，模型比较系统102可以生成第一ML模型和第二ML模型的输出。在一些非限制性实施方案或方面中，模型比较系统102可以接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值，并且模型比较系统102可以基于数据实例的数据集生成第一ML模型的输出和第二ML模型的输出。

例如，模型比较系统102可以获得与多个样本和多个样本的多个标签(例如，真标签、假标签等)相关联的多个特征。作为示例，模型比较系统102可以通过提供多个特征的第一特征子集作为对第一ML模型的输入，并且接收多个样本的多个第一预测作为从第一ML模型的输出，来生成多个样本的多个第一预测。作为示例，第一ML模型可以使用多个特征的第一特征子集、第一超参数集、第一ML算法和/或第一训练数据集来训练，或配置有多个特征的第一特征子集、第一超参数集、第一ML算法和/或第一训练数据集。

例如，模型比较系统102可以通过提供多个特征的第二特征子集作为对第二ML模型的输入，并且接收多个样本的多个第二预测作为从第二ML模型的输出，来生成多个样本的多个第二预测。作为示例，第二ML模型可以使用多个特征的第二特征子集、第二超参数集、第二ML算法和/或第二训练数据集来训练，或配置有多个特征的第二特征子集、第二超参数集、第二ML算法和/或第二训练数据集。

还参考图4，图4是用于比较ML模型的过程的非限制性实施方案或方面的实施方式的流程图。如图4所示，在步骤1处，模型比较系统102可以将数据馈送到所比较分类器(A&B)中，以获得两个分类器对于各个数据实例的分数。例如，已经使用多个特征的第一特征子集、第一超参数集、第一ML算法和/或第一训练数据集来训练或配置有多个特征的第一特征子集、第一超参数集、第一ML算法和/或第一训练数据集的第一ML模型(模型A)可以被配置为接收与包括多个样本(例如，交易样本等)的数据集相关联的多个特征的第一特征子集作为输入，并且多个样本可以与多个标签(例如，真标签、欺诈标签、假标签、非欺诈标签等)相关联。

仍然参考图4，在步骤1中，已经使用多个特征的第二特征子集、第二超参数集、第二ML算法和/或第二训练数据集来训练或配置有多个特征的第二特征子集、第二超参数集、第二ML算法和/或第二训练数据集的第二ML模型(模型B)可以被配置为接收与包括多个样本(例如，交易样本等)的数据集相关联的多个特征的第二特征子集作为输入，该多个样本与多个标签(例如，真标签、欺诈标签、假标签、非欺诈标签等)相关联。

在一些非限制性实施方案或方面中，至少以下各项中的一项：(i)第一特征子集不同于第二特征子集；(ii)用于生成第一ML模型的ML算法的第一超参数集不同于用于生成第二ML模型的相同ML算法的第二超参数集；(iii)用于生成第一ML模型的第一ML算法不同于用于生成第二ML模型的第二ML算法；以及(iv)用于训练第一ML模型的第一训练数据集不同于用于训练第二ML模型的第二训练数据集。例如，第一ML模型(模型A)可以包括旧有模型(例如，较旧模型等)并且第二ML模型(模型B)可以包括新模型(例如，旧有模型的更新后的版本等)。作为示例，用于第一ML模型(模型A)的第一特征子集可以包括一段时间内(例如，先前的30分钟内等)被拒绝的交易的数量、位置(例如，邮政编码)的欺诈率等，并且第二ML模型(模型B)可以包括商家嵌入等。在这样的示例中，第一ML模型(模型A)中的第一ML算法可以包括逻辑回归或梯度提升树，并且第二ML模型(模型B)中的第二ML算法可以包括深度神经网络。

在一些非限制性实施方案或方面中，样本可以与交易相关联。例如，与交易样本相关联的特征可以包括交易参数、基于与多个交易相关联的多个交易参数计算出的指标和/或根据该特征生成的一个或多个嵌入。作为示例，交易参数可以包括账户标识符(例如，PAN等)、交易金额、交易日期和/或时间、与交易相关联的产品和/或服务的类型、货币兑换率、货币类型、商家类型、商家名称、商家位置、商家、商家类别组(MCG)、商家类别代码(MCC)、卡接受者标识符、卡接受者国家/州/地区、一段时间内被拒绝的交易的数量、位置(例如，邮政编码等)的欺诈率、商家嵌入等。在这样的示例中，交易的标签可以包括欺诈标签(例如，交易是欺诈的指示、真标签等)或非欺诈标签(例如，交易不是欺诈的指示、假标签等)。

如图3进一步所示，在步骤304处，过程300包括生成不一致矩阵。例如，模型比较系统102可以生成不一致矩阵。在一些非限制性实施方案或方面中，不一致矩阵可以包括第一ML模型和第二ML模型的第一分组输出集以及第一ML模型和第二ML模型的第二分组输出集。第一分组输出集可以包括满足第一条件的第一ML模型的多个输出和不满足第一条件的第二ML模型的多个输出。在一些非限制性实施方案或方面中，第二分组输出集可以包括不满足第一条件的第一ML模型的多个输出和满足第一条件的第二ML模型的多个输出。作为示例，模型比较系统102可以基于多个第一预测、多个第二预测来生成多个标签和多个样本的多个样本组。作为示例，模型比较系统102可以根据第一ML模型的第一预测和第二ML模型的第二预测中的一者、每一者与样本的标签相匹配或两者都不与样本的标签相匹配，将样本分组为真阳性组和假阳性组。

在一些非限制性实施方案或方面中，模型比较系统102可以基于第一ML模型的输出的第一子集和第二ML模型的输出的第二子集来生成不一致矩阵。在一些非限制性实施方案或方面中，模型比较系统102可以确定第一ML模型的输出的第一子集和第二ML模型的输出的第二子集。例如，模型比较系统102可以基于一个或多个阈值来确定第一ML模型的输出的第一子集和第二ML模型的输出的第二子集。在一些非限制性实施方案或方面中，第一ML模型的输出的第一子集和第二ML模型的输出的第二子集具有相同数量的值。

再次参考图4，在步骤2中，模型比较系统102可以通过两组分数递减地对实例进行排序，并且设置阈值作为分数截止点(例如，所有实例的5％)。分数高于阈值的实例可以是由个体模型捕获的实例(例如，A⁺和B⁺)。阈值可能经常取决于例如用于贷款资格预测的应用，并且/或者阈值可以由银行的预算决定。在图4的步骤3中，模型比较系统102可以将来自两个模型的两组所捕获实例连接到不一致矩阵的三个单元中(例如，A捕获B遗漏(A⁺B^-)、A遗漏B捕获(A^-B⁺)和两者都捕获(A⁺B⁺))。出于比较的目的，A⁺B⁺实例可能不太受关注。此外，可能不存在A^-B^-实例，因为来自图4的步骤2的经过滤的实例可能至少被一个模型捕获。如图4的步骤4所示，基于所捕获实例的真标签，模型比较系统102可以将不一致矩阵分成两个矩阵：一个矩阵用于真阳性(TP)实例(例如，被正确捕获)，另一个矩阵用于假阳性(FP)实例(例如，被错误捕获)。

在一些非限制性实施方案或方面中，生成多个样本的多个样本组包括：利用至少一个处理器来确定多个样本的第一样本组，对于所述第一样本组，多个第一预测中的第一预测与多个标签中的标签相匹配，并且多个第二预测中的第二预测与多个标签中的标签相匹配；利用至少一个处理器来确定多个样本的第二样本组，对于所述第二样本组，多个第二预测中的第二预测与多个标签中的标签相匹配，并且多个第一预测中的第一预测与多个标签中的标签不匹配；利用至少一个处理器来确定多个样本的第三样本组，对于所述第三样本组，多个第一预测中的第一预测与多个标签中的标签相匹配，并且多个第二预测中的第二预测与多个标签中的标签不匹配；利用至少一个处理器来确定多个样本的第四样本组，对于所述第四样本组，多个第二预测中的第二预测与多个标签中的标签不匹配，并且多个第一预测中的第一预测与多个标签中的标签不匹配；利用至少一个处理器来确定多个样本的第五样本组，对于所述第五样本组，多个第一预测中的第一预测与多个标签中的标签不匹配，并且多个第二预测中的第二预测与多个标签中的标签相匹配；以及利用至少一个处理器来确定多个样本的第六样本组，对于所述第六样本组，多个第二预测中的第二预测与多个标签中的标签不匹配，并且多个第一预测中的第一预测与多个标签中的标签相匹配。

在一些非限制性实施方案或方面中，多个第一预测包括多个第一预测分数，并且多个第二预测包括多个第二预测分数。例如，模型比较系统102可以通过以下操作生成多个样本的多个样本组：将多个第二预测分数对准到与多个第一预测分数相同的标度；将操作点应用于多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测；将操作点应用于多个经对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测；以及基于多个第一阳性预测、多个第一阴性预测、多个第二阳性预测、多个第二阴性预测来生成多个标签和多个样本的多个样本组。作为示例，并且再次参考图4，在接收到第一预测分数和第二预测分数之后，模型比较系统102可以将第一预测分数和第二预测分数对准，以确保第一预测分数和第二预测分数中的每一者都在相同的标度上(例如，以确保来自两个模型的分数表示相同的风险水平等)。例如，分数对准可以通过仅修改分数值并且不改变排名顺序(并且因而改变模型性能)将来自不同范围的不同分数值转换成相同的风险评估。

在一些非限制性实施方案或方面中，模型比较系统102可以通过以下操作将多个第二预测分数对准到与多个第一预测分数相同的标度(反之亦然)：根据所述第一预测分数的值将多个预测分数中的每个第一预测分数分配到多个第一桶中的第一桶；对于每个第一桶，确定达到分配到所述第一桶的第一预测分数的值的阳性第一预测的比率；根据所述第二预测分数的值将多个预测分数中的每个第二预测分数分配到多个第二桶中的第二桶；对于每个第二桶，确定达到分配到所述第二桶的第二预测分数的值的阳性第二预测的比率；以及对于每个第二预测分数，确定对准到与多个第一预测分数相同的标度的对准分数，所述第一预测分数的值被分配到多个第一桶中的第一桶，对于第一桶，阳性第一预测的比率是与所述预测分数被分配到的第二桶的阳性第二预测的比率相同的比率。

例如，第一预测分数(模型A分数)可以被分成1000个桶，其中第一桶对应于分数0，第二桶对应于分数1，并且第1000桶对应于分数999。在每个桶中，可以计算达到该桶的当前分数的交易拒绝率，这创建了第一两列表(称为表A)，其中第一列是第一预测或模型A分数，而第二列是该模型A分数被分配到的桶的交易拒绝率。可以对第二预测分数(模型B分数)重复相同的过程，其中可以将第二预测分数(模型B分数)分成1000个桶，其中第一桶对应于分数0，第二桶对应于分数1，并且第1000桶对应于分数999，并且在每个桶中，可以计算达到该桶的当前分数的交易拒绝率，从而得到另一个两列表(称为表B)。表B的第一列是模型B分数，而第二列是该模型B分数被分配到的桶的交易拒绝率。在给定表A中交易拒绝率处的分数(表示为分数A)的情况下，模型比较系统102将表B中的相同交易拒绝率与其对应的分数(表示为分数B)相匹配。分数B是经对准的模型B分数。例如，具有分数B的值的模型B分数可能与具有分数A的值的模型A分数具有相同的风险水平。在实践中，交易拒绝率或分数可能在表A或表B中不可用，并且在这种场景中，可以使用内插法来计算交易拒绝率或分数。

在将多个第二预测分数对准到与多个第一预测分数相同的标度(反之亦然)之后，模型比较系统102可以将操作点应用于多个第一预测分数，以确定多个第一阳性预测和多个第一阴性预测，并且将操作点应用于多个对准的第二预测分数，以确定多个第二阳性预测和多个第二阴性预测。模型比较系统102可以基于多个第一阳性预测、多个第一阴性预测、多个第二阳性预测、多个第二阴性预测来生成多个标签和多个样本的多个样本组。

如图3进一步所示，在步骤306处，过程300包括生成多个真标签矩阵。例如，模型比较系统102可以生成多个真标签矩阵。在一些非限制性实施方案或方面中，模型比较系统102可以基于不一致矩阵的第一分组输出集和不一致矩阵的第二分组输出集的真标签来生成多个真标签矩阵。在一些非限制性实施方案或方面中，多个真标签矩阵中的第一真标签矩阵可以包括满足第一条件的第一ML模型的多个输出中的真阳性输出和满足第一条件的第二ML模型的多个输出中的真阳性输出。在一些非限制性实施方案或方面中，多个真标签矩阵中的第二真标签矩阵可以包括满足第一条件的第一ML模型的多个输出中的假阳性输出和满足第一条件的第二ML模型的多个输出中的假阳性输出。

还参考图5，图5是用于计算性能指标的样本子集的非限制性实施方案或方面的实施方式的图。如图4和图5所示，模型比较系统102可以通过将多个样本分成由图4中的步骤4中的方框表示的六个样本组以及图5中标记为组X1、Y1、Z1、X2、Y2和Z2的对应六个方框来生成多个样本的多个样本组，其中三个方框表示真阳性组，并且三个方框表示假阳性或假拒绝组。在图4中，两个符号“+”和“-”用于指示模型是否正做出正确的预测或决策，其中“+”意味着模型正根据标签做出正确的决策，而“-”意味着模型正根据标签做出不正确的预测或决策。

例如，对于真阳性：A+、B+指示对于标记为阳性的样本，模型A和模型B两者都成功地预测或捕获该样本；A-、B+指示对于标记为阳性的样本，模型A未能预测或捕获该样本为阳性，但模型B预测或捕获该样本为阳性；并且A+、B-指示对于标记为阳性的样本，模型A预测或捕获该样本为阳性，但模型B未能预测或捕获该样本为阳性。

作为示例，对于假阳性：A-、B-指示对于标记为阴性的样本，模型A和模型B中的每一者正通过预测或标示该样本为阳性而出错；A-、B+指示对于标记为阴性的样本，模型A正通过预测或标示该样本为阳性而出错，而模型B正通过预测该样本为阴性而做出正确的决策；并且A+、B-指示对于标记为阴性的样本，模型A正通过预测该样本为阴性而做出正确的决策，但模型B正通过预测或标示该样本为阳性而出错。

如图5所示，组X1可包括与正标签和预测A+、B+相关联的样本，组Y1可包括与正标签和预测A-、B+相关联的样本，组Z1可包括与正标签和预测A+、B-相关联的样本，组X2可包括与负标签和预测A-、B-相关联的样本，组Y2可包括与负标签和预测A-、B+相关联的样本，并且组Z2可包括与负标签和预测A+、B-相关联的样本。同样如图5所示，方框中的菱形符号指示只有模型B对该组中的样本做出正确的预测或决策，圆形符号指示只有模型A对该组中的样本做出正确的预测或决策，而没有符号指示模型A和模型B中的每一者都对该组中的样本做出所有正确的预测或决策，或者都对该组中的样本做出所有不正确的预测或决策。

例如，多个样本的第一样本组X1可以包括多个第一预测中的第一预测与多个标签中的标签相匹配并且多个第二预测中的第二预测与多个标签中的标签相匹配的样本，多个样本的第二样本组Y1可以包括多个第二预测中的第二预测与多个标签中的标签相匹配并且多个第一预测中的第一预测与多个标签中的标签不匹配的样本，多个样本的第三样本组Z1可以包括多个第一预测中的第一预测与多个标签中的标签相匹配并且多个第二预测中的第二预测与多个标签中的标签不匹配的样本，多个样本的第四样本组X2可以包括多个第二预测中的第二预测与多个标签中的标签不匹配并且多个第一预测中的第一预测与多个标签中的标签不匹配的样本，多个样本的第五样本组Y2可以包括多个第一预测中的第一预测与多个标签中的标签不匹配并且多个第二预测中的第二预测与多个标签中的标签相匹配的样本，并且多个样本的第六样本组Z2可以包括多个第二预测中的第二预测与多个标签中的标签不匹配并且多个第一预测中的第一预测与多个标签中的标签相匹配的样本。

如图3进一步所示，在步骤308处，过程300包括从不一致中学习。在一些非限制性实施方案或方面中，过程300的步骤308处的从不一致中学习包括训练分类器。例如，模型比较系统102可以训练多个分类器。在一些非限制性实施方案或方面中，模型比较系统102可以基于第一真标签矩阵训练第一分类器(例如，TP鉴别器等)，并且/或者模型比较系统102可以基于第二真标签矩阵训练第二分类器(例如，FP鉴别器等)。

再次参考图4，在步骤5中，模型比较系统102可以训练TP鉴别器和FP鉴别器(例如，两个二元分类器)以分别区分来自TP侧和FP侧的A⁺B^-(阴性)实例和A^-B⁺(阳性)实例。训练可以使用一组元特征，因为模型A和模型B的特征可能不可用。

可以使用元特征，因为用于训练分类器A和B的数据特征在比较期间可能不可用。以本文描述的示例电子邮件垃圾邮件过滤场景作为示例，原始数据是电子邮件，包括电子邮件标题、正文、地址等。不同的分类器针对它们的相应训练而得出不同的特征，例如，n_wd、n_url和n_num等。在行业中，这些分类器可能来自不同的团队，并且难以了解在比较期间使用了什么特征。相比之下，ML从业者通常被告知分类器从什么类型的模型构建，并且ML从业者可能具有关于不同ML模型的先验知识。因此，可以基于ML从业者的先验知识得出元特征。例如，当将RNN与基于树的模型进行比较时，可以生成序列相关的元特征以验证RNN是否真正受益于对序列行为的感知。为了将GNN与RNN进行比较，可以提出邻居相关的元特征(例如，节点的度)来揭示GNN可以在多大程度上利用邻居的信息。即使提供所比较分类器的很少信息，仍然可以提出新的元特征来探查两个分类器之间的行为差异。例如，并且参考图7，可以提出n_cap(例如，大写单词的数量)来探查所比较的垃圾邮件分类器将如何受到该元特征的影响(但可能不知道所比较分类器是什么)。因此，元特征不是用于训练模型A或B的特征。然而，本公开的非限制性实施方案或方面不限于此，并且如果来自模型A或B的训练特征(例如，样本)是可用的，则该训练特征可以用作元特征。

鉴别器(例如TP鉴别器、FP鉴别器等)可以是任何SHAP友好的二元分类器(例如，XGBoost等)。基于不同元特征的SHAP，可以提供对两个所比较分类器的见解。例如，如果鉴别器示出图7中的SHAP视图(绿色方框中的标签)，则可以得出结论，“与分类器A相比，分类器B倾向于捕获包含更多大写单词的电子邮件(n_cap是元特征)”。如果鉴别器是TP鉴别器，则当该特征较大时(正确捕获更多)，可以确定分类器B优于分类器A。然而，如果鉴别器是FP鉴别器，则分类器B不如分类器A好，因为当特征值较大时，它会错误捕获更多。

以这种方式，LFD可以提供以下直接优势。LFD可能是模型不可知的，因为LFD可能只使用来自两个所比较模型的输入和输出，这使得它成为比较任何类型的分类器的普遍适用的解决方案。LFD是特征不可知的，因为LFD可以基于新提出的元特征来比较分类器，该元特征独立于原始模型训练特征(在比较期间通常不可用)。LFD可避免数据不平衡。例如，对于许多真实世界应用(例如，点击率(CTR)预测)，数据不平衡(例如，阳性实例比阴性实例少得多)给模型训练和解释带来巨大的挑战。LFD巧妙地避免了这种不平衡，因为它比较了两个模型之间的差异(例如，两个“仅捕获”单元通常具有相似的大小)。

特征分析可以揭示输入特征如何影响模型或分类器的输出以及影响的幅值。SHAP是该分析的一种解决方案，它是一致的、可加的，并且可以被有效地计算，该SHAP由M.Lundberg和S.-I.Lee在名称为“A unified approach to interpreting modelpredictions”，载于Advances in neural information processing systems，2017，第4765-4774页的论文中描述，其全部内容以引用方式并入本文。

图7示出了用于垃圾邮件分类器的示例数据集和解释矩阵。例如，具有n个实例和m个特征的表格数据集(例如，输入特征)可被视为大小为n×m的矩阵。示例数据集具有五个实例(例如，电子邮件)，每个实例具有三个特征：电子邮件中的字数(n_wd)、URL的数量(n_url)和数值的计数(n_num)。为了解释分类器在该数据集上的行为，SHAP生成大小为n×m的解释矩阵(例如，SHAP矩阵)。该矩阵的每个元素[i，j]表示第j个特征对第i个实例的预测的贡献。例如，来自SHAP矩阵的第i行的所有值的总和可以是分类器对第i个实例的最终预测(例如，log(odds)，其可以通过sigmoid()成为最终概率值等)。

SHAP概括图被设计成使个体特征对分类器预测的影响可视化，该SHAP概括图由S.M.Lundberg、G.G.Erion和S.-I.Lee在名称为“Consistent individualized featureattribution for tree ensembles”，arXiv:1802.03888，2018的论文中描述，其全部内容以引用方式并入本文。例如，为了示出n_url对示例垃圾邮件分类器的影响，概括图将每封电子邮件编码为点。在图7中，点的颜色和水平位置分别反映对应特征和SHAP值。图7中具有黑色笔划或边缘的五个点示出五封电子邮件。将该图扩展到更多的电子邮件/实例，可以根据实例的集体行为确定特征的影响(例如，具有更多URL的电子邮件(具有较大阳性SHAP的红点)更有可能是垃圾邮件等)。其他特征的影响可以被可视化并与该特征竖直对准(例如，如图9B中沿着SHAP＝0线所示)。这些特征可以基于它们对分类器的重要性来排序，其中n是实例的数量，该数量可以根据以下等式(1)来计算：

因此，如图7所示，利用SHAP解释分类器在数据集上的行为可以生成与输入共享相同大小的解释矩阵，并且使用概括图的特征的贡献可以被可视化(例如，蓝色方框中的红色标签)。在这个示例场景中，所有实例的集体行为反映出具有较高n_url的电子邮件更有可能是垃圾邮件。概括图还可以解释来自LFD的鉴别器(例如，读取绿色方框中的标签)，这反映出具有较高n_cap(例如，元特征)的电子邮件更有可能被模型B捕获但被模型A遗漏(例如，A^-B⁺)。

模型集成是组合多个预训练模型以实现比个体模型更好的性能的研究，该模型集成由Z.-H.Zhou在名称为“Ensemble methods:foundations and algorithms”，CRC出版社，2012的论文中描述，其全部内容以引用方式并入本文。集成两个模型的简单方法是训练线性回归器来拟合来自两个预训练模型的分数，这被称为线性堆叠。考虑到数据实例x和两个预训练模型M_a和M_b，可以根据以下等式(2)计算线性堆叠结果LS(x)：

LS(x)＝w₁·M_a(x)+w₂·M_b(x) (2)

特征加权线性堆叠(FWLS)是最先进的模型集成解决方案，该特征加权线性堆叠由J.Sill、G.Takács、L.Mackey和D.Lin在名称为“Feature-weighted linear stacking”，arXiv preprint arXiv：0911.0460，2009的论文中描述，其全部内容以引用方式并入本文，该特征加权线性堆叠声称权重(等式(2)中的w₁和w₂)不应当是固定的，而是基于不同特征值而变化，因为两个模型在不同的特征值范围内可具有可变的性能。因此，FWLS通过特征交叉将数据特征与模型分数进行组合，并且在交叉特征上训练回归器。权重w₁和w₂成为m对权重(和/>)，其中m是特征的数量，并且F_i(x)根据以下等式(3)检索x的第i个特征值：

因为特征的数量可能很大，所以可以使用特征的子集来进行FWLS。然而，草率地选择的特征可能损害集成结果。因此，对特征进行适当地排名并选择最有影响力或最重要的特征用于集成成为了问题。

在一些非限制性实施方案或方面中，过程300的步骤308处的从不一致中学习另外地或替代地包括确定第一ML模型和第二ML模型的相对成功率。例如，模型比较系统102可以确定第一ML模型和第二ML模型的相对成功率。作为示例，模型比较系统102可以确定包括与第一ML模型相关联的第一成功率和与第二ML模型相关联的第二成功率的相对成功率。例如，模型比较系统102可以基于多个样本组来确定与第一ML模型相关联的第一成功率和与第二ML模型相关联的第二成功率。

与第一ML模型相关联的第一成功率(模型A成功率)可以根据以下等式(4)来确定：

其中X1是第一样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；X1、Y1是第二样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；Y1、Z1是第三样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；Z1、X2是第四样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；X2、Y2是第五样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；Y2、Z2是第六样本组中的样本数量和/或与样本数量相关联的金额(例如，交易金额等)；并且λ是折扣因子。

与第二ML模型相关联的第二成功率(模型B成功率)可以根据以下等式(5)来确定：

以这种方式，对于与第一ML模型(模型A)相关联的第一成功率的等式(4)，组X1包括由模型A和模型B两者捕获的欺诈，使得X1被计为第一ML模型(模型A)的成功。组Z1包括由第一ML模型(模型A)专门捕获的欺诈，使得Z1也被计为第一ML模型(模型A)的成功。组Z2包括来自第二ML模型(模型B)但不来自第一ML模型(模型A)的假阳性，使得Z2被计为第一ML模型(模型A)的成功。例如，组Z2包括合法交易，并且第二ML模型(模型B)错误地预测合法组Z2交易为欺诈并拒绝合法组Z2交易，但第一ML模型(模型A)正确地预测组Z2交易为合法并授权组Z2交易。因为第一ML模型(模型A)在组Z2交易上不出错，所以第一ML模型(模型A)在相对性能指标中被给予信用以用于正确预测这些交易。另一方面，因为来自假阳性的损失不如来自欺诈的损失严重，所以可以将折扣应用于给予用于组Z2交易的第一ML模型(模型A)的信用。与第一ML模型(模型A)相关联的第一成功率的等式(4)的分母可以包括所有欺诈和具有折扣的假阳性的总和。通过用Y1和Y2替换分子中的Z1和Z2以类似方式计算与第二ML模型(模型B)相关联的第二成功率的等式(5)，以给出用于仅由第二ML模型(模型B)捕获的欺诈组Y1交易和仅由第二ML模型(模型B)正确预测的合法组Y2交易的第二ML模型(模型B)信用。

因此，本公开的非限制性实施方案或方面提供了相对成功率，该相对成功率是被设计用于评估一对模型的性能的相对性能指标，并且增加了错误决策的成本。该相对性能指标使得能够通过两个模型之间的从不一致中学习(LFD)来比较给定操作点或分数截止点处的一对模型，以找到两个模型之间的差异(例如，两个模型中的一个模型相对于两个模型中的另一个模型的弱点等)。例如，如果欺诈交易被模型A捕获，则该交易可被计为模型A的成功，并且如果合法交易被模型B拒绝，而不是被模型A拒绝，则该交易也可被计为模型A的成功，但是具有折扣因子。这种相对性能指标进一步增加了错误决策的成本。例如，如果消费者用信用卡为一双鞋花费100美元，对于这100美元，卡发行方可以收到2美元，收单银行可以收到0.50美元，并且交易服务提供商可以从这两家银行收到0.18美元，从而导致商家只收到100美元中的97.50美元。如果这100美元交易是欺诈的，并且欺诈预测模型将该交易预测为欺诈并拒绝了该交易，则节省了100美元，并且该交易的各方都很高兴。然而，如果100美元交易是合法的，并且欺诈预测模型错误地拒绝了该交易，则卡发行方、收单银行和交易服务提供商不收到任何支付，商家损失了营收，并且消费者具有不好的体验。因此，相对性能指标增加了错误决策的成本以捕获这种损失。

如图3中进一步所示，在步骤310处，过程300包括确定第一ML模型和第二ML模型的准确率。例如，模型比较系统102可以确定第一ML模型和第二ML模型的准确率。在一些非限制性实施方案或方面中，模型比较系统102可以基于第一分类器和/或第二分类器来确定第一ML模型的准确率和第二ML模型的准确率。在一些非限制性实施方案或方面中，模型比较系统102可以基于相对成功率来确定第一ML模型的准确率和第二ML模型的准确率。

在一些非限制性实施方案或方面中，模型比较系统102可以基于在第一分类器和/或第二分类器上执行的模型解释技术来确定第一ML模型的准确率和第二ML模型的准确率。在一些非限制性实施方案或方面中，模型解释技术可包括涉及SHAP值的模型解释技术。在一些非限制性实施方案或方面中，模型比较系统102可以计算针对第一分类器的数据集的每个数据实例的每个特征值的SHAP值和/或针对第二分类器的数据集的每个数据实例的每个特征值的SHAP值。在一些非限制性实施方案或方面中，模型比较系统102可以生成针对第一分类器的数据集的每个数据实例的每个特征值的SHAP值和/或针对第二分类器的数据集的每个数据实例的每个特征值的SHAP值的图。在一些非限制性实施方案或方面中，模型比较系统102可以生成针对第一分类器的数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和/或针对第二分类器的数据集的每个数据实例的第一特征的多个特征值的多个SHAP值的图。

在一些非限制性实施方案或方面中，模型比较系统102可以计算与第一分类器的第一特征的准确率指标相关联的准确率指标值。在一些非限制性实施方案或方面中，与第一分类器的第一特征的准确率指标相关联的准确率指标值是基于针对第一分类器的数据集的每个数据实例的第一特征的多个特征值的多个SHAP值。在一些非限制性实施方案或方面中，模型比较系统102可以计算与第二分类器的第一特征的准确率指标相关联的准确率指标值。在一些非限制性实施方案或方面中，与第二分类器的第一特征的准确率指标相关联的准确率指标值是基于针对第二分类器的数据集的每个数据实例的第一特征的多个特征值的多个SHAP值。在一些非限制性实施方案或方面中，准确率指标可以包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标和/或与特征的相关性的度量相关联的指标。

再次参考图4，在步骤6中，模型比较系统102可以通过SHAP使鉴别器可视化/解释鉴别器，以提供对模型A与B之间的基本差异的见解。该见解还可以帮助对元特征进行排名，并挑选最好的元特征来集成模型A和B。

再次参考图4，本公开的非限制性实施方案或方面提供了至少以下各项的视觉呈现：(1)不同截止条件下的不一致矩阵(例如，图4中的步骤2至4)和(2)元特征及其解释(例如，图4中的步骤6)。例如，提供了不一致分布视图来使不同截止条件下的不一致矩阵可视化，并且提供了特征视图来使元特征及其解释可视化。

图15示出了被设计成在不同阈值(图4的步骤2)下呈现数据实例在两个不一致矩阵的六个单元上的分布(图4的步骤4)的示例不一致分布视图。在图4的步骤2处给定阈值，模型比较系统102可以过滤出分别由模型A和模型B捕获的两组实例。这两个实例在图4的步骤3处被连接到三个单元(例如，A⁺B⁺、A⁺B^-和A^-B⁺)中。图8A中附图标记a₁处的红色条表示当前阈值下三个单元的大小。当改变阈值时，三个单元的大小会相应地自动改变。因此，呈现了值在每个单元内的序列(绿色条的序列)，从而表示所有可能阈值上的单元大小。该分布概览指导用户选择适当的阈值，以使用于学习的不一致数据的大小最大化。

为了对数据连接过程进行更好地编码，使用白色和灰色背景矩形来分别表示由模型A和模型B捕获的实例(例如，附图标记a₂处的A⁺和B⁺)。它们的重叠区域反映由两者捕获的实例(A⁺B⁺)，而两侧的非重叠区域是仅由一者捕获的实例(A⁺B^-和A^-B⁺)。矩形(和重叠区域)的宽度可以与实例的数量成比例。

在图4的步骤4处，当考虑到实例的标签时，图8A的附图标记a₂处的不一致矩阵被分成两个矩阵。同时，在附图标记a₃处，三个绿色条形图被旋转90度，并且在两个不一致矩阵的中间呈现当前阈值。在附图标记a₄处，阈值是15％并且六个不一致矩阵单元中的对应条在TP侧的附图标记a₃处和FP侧的附图标记a₅处以红色条突出显示。

附图标记a₄处的两个三角形使得能够从图4的步骤2灵活地调整阈值。例如，图8A中附图标记a₄处所示的当前阈值是15％，两个所比较模型树(A)和RNN(B)的截止分数分别是0.2516和0.2682。具有比这些更大的相应分数的实例被个体模型捕获。当如附图标记a₇处所示将阈值增加到50％时(例如，放宽过滤标准等)，在附图标记a₆和a₈处，重叠的单元在显示内容中变得更大，但两个“仅捕获”单元在显示内容中变得更小。当阈值变为100％时，白色和灰色矩形可以完全重叠。注意，不一致分布视图可以在默认情况下从可视界面中隐藏，并且/或者用户可以通过点击图8B所示的可视界面中附图标记b₁处的按钮来启用不一致分布视图。可以使用几种替代设计来呈现不一致矩阵。例如，三个单元可以按照它们被放置在图8A中的附图标记a₁处的方式进行布局，这种布局是直观的，但因为右下角总是空的，所以不是空间有效的。

因此，本公开的非限制性实施方案或方面可以以ML专家容易理解的方式呈现数据实例在不同阈值下在两个不一致的六个单元上的分布，其隐喻了通过两个重叠矩形的连接过程，并且固有地将单元大小编码成重叠/非重叠区域的宽度。

图8B示出了通过“概览+细节”探索呈现来自TP和FP鉴别器两者的元特征而被设计用于图4的步骤6中的示例特征视图。特征视图被设计成解释TP和FP鉴别器，以解释不同元特征对捕获的实例和错误捕获的实例的影响，比较相同元特征对TP和FP鉴别器的贡献，并且用尽可能少的信息解释差异。特征视图设计从传统的概括图(例如，如图7所示等)开始，但解决了概括图关于可视化准确率和特征重要性顺序的两个限制。

如果实例的数量较大，则概括图的准确率可能会受到破坏。如先前关于图7所解释，每个实例可以被表示为点。在受限的空间内，许多点可能被过度绘图和竖直堆叠，这可能导致误导性的可视化。例如，图9A示出了真实示例(使用Python包SHAP生成)。乍一看，似乎大的特征值(虚线右侧的红色点)总是对预测有积极的贡献。然而，也有红色点被标绘在左侧不太清晰的蓝色点之下。

通过将数据分布可视化为气泡，而不是将各个实例可视化为点，可以解决这种过度绘图问题。例如，如图10中附图标记a所示，可以构建特征值和SHAP值的2D直方图(例如，基于图7中的两个矩阵)。直方图的非空单元可以用气泡表示，该气泡的大小表示实例的数量。使用如图10中附图标记b所示的圆填充或力导向布局，这些气泡基于它们的SHAP值沿着x轴(而不重叠)被填充。例如，圆填充算法可以顺序地将气泡放置成彼此相切，同时努力维持它们的x位置。类似地，力导向算法可以通过迭代地调整气泡的位置来解决气泡之间的重叠，同时还尽力保持气泡的x位置。图9B中示出的最终可视化解决了过度绘图问题(例如，左侧的许多大值实例现在可见)。注意，气泡的数量受2D直方图中特征仓和SHAP仓数量的乘积限制。因此，可以通过(针对不同级别的视觉粒度)调整仓的数量来控制气泡的数量。

然而，由于两个原因，这种新设计不能准确地反映数据分布。首先，它不能保证将气泡定位在其精确的x位置，因为圆可能被移位成紧密地填充。其次，实例数量与气泡大小之间的大小映射也会导致问题。例如，为了确保气泡不会太大或太小，通常应用大小裁剪。如果最大的气泡代表100个实例，则具有1000个实例的气泡可具有相同的大小，并且气泡的累积面积不能准确反映数据分布。为了解决这个问题，本公开的非限制性实施方案或方面可以将数据分布绘制为如图10中的附图标记c处所示的一组水平堆叠的矩形，其高度准确地反映对应SHAP仓中的实例数量，如附图标记c₁处所示。如附图标记c₂处所示，可以通过SHAP仓中所有气泡的加权和来混合矩形的颜色。增加SHAP仓的粒度，可以实现针对一个特征的最终面积图可视化，如图8B中的附图标记b2处所示。

为了保证解释准确率(例如，揭露两个所比较分类器在用户提出的元特征上的行为差异等)并且实现交互性，图10中的每个设计可以通过“概览+细节”设计或可视化界面来使用。来自TP和FP鉴别器的元特征中的每个元特征可以呈现为两列面积图用于概览，其中相同的特征跨列连接，如图8B的附图标记b₅处所示，以比较相同的元特征对TP和FP鉴别器的贡献，并且用尽可能少的信息解释差异。当点击可视界面中的元特征时，元特征的细节可以使用气泡图来示出，如图8B中的附图标记b3处所示。可以提供交互式“传递函数”，其中用户可以添加/拖动/删除图例上的控制点来改变颜色映射。刷图例可以选择特征值在刷过的范围内的气泡(例如，如图16所示)。

在真实世界应用中，使用数百个特征是很常见的。有效地标识更有影响力或更重要的特征可以用于改进模型集成。概括图通过mean(|SHAP|)(这是反映特征的SHAP值的幅值的有效指标)对特征进行优先化。例如，特征的SHAP值的幅值可以根据以下等式(6)来计算：

然而，这个幅值指标通常未能显示最有影响力或最重要的特征。例如，并且现在参考图11，特征F₁可能因为其幅值更大而比特征F₂更重要。然而，与特征F₁相比，特征F₂可能更一致且更具对比度。例如，特征F₁可以具有比F₂更大的绝对幅值，因为这些点在水平方向上分布得更广。然而，F1的贡献可能不如F₂一致。例如，在两条虚线内，小的和大的F₁值(蓝色点和红色点)都可能对最终预测有积极的贡献。相比之下，只有大的F₂值可能有积极贡献。例如，图12在附图标记a处示出了真实的大幅值特征。虽然该特征的贡献幅值很大，但其贡献并不一致，因为蓝色和橙色气泡在任何竖直范围内都是混合的。以这种方式，仅通过特征的贡献幅值来衡量特征的重要性可能是不够的。

为了解决这个问题，本公开的非限制性实施方案或方面提供了一致性指标，该一致性指标可以通过以下操作来计算：(1)计算每个SHAP仓(例如，图10中的一列单元)中的特征值的熵，(2)使用每个仓中的实例的数量作为权重，对来自每个SHAP仓的熵求和，以及(3)取和值的倒数。例如，根据本公开的非限制性实施方案或方面的一致性指标可以根据以下等式(7)来计算：

其中F(x)检索数据实例x的特征值，|bin_i|表示仓的大小，H()计算熵，并且m是SHAP仓的数量。如图12的附图标记b处所示，因此可以呈现由不同SHAP仓(水平范围)内的气泡的均匀颜色反映的具有高一致性的真实特征。然而，该特征在区分预测时也不是很有用，因为小的特征值(蓝色)主要分布在SHAP＝0线的两侧，并且可能有积极和消极的贡献。因而，只依靠一致性指标可能也不能有效地标识重要特征。

为了捕获具有清楚贡献差异的特征，本公开的非限制性实施方案或方面提供了对比度指标，其可以通过由具有正和非正SHAP值的特征值形成的两个归一化分布之间的Jensen-Shannon散度来计算。例如，根据本公开的非限制性实施方案或方面的对比度指标可以根据以下等式(8)来计算：

其中D()表示根据一组值形成归一化分布的运算。典型的对比度特征在图12的附图标记c处示出。这个特征是非常好的特征，因为它有非常清楚的特征贡献。大特征值(橙色气泡)可能总是有积极贡献，而小特征值(蓝色气泡)可能总是有消极贡献。

本公开的非限制性实施方案或方面提供了SHAP值与特征值之间的绝对皮尔逊(Pearson)相关性。该指标通过揭示特征值是否与该特征值的贡献线性相关来进一步增强对比度指标。具有大相关性的特征在图12中的附图标记d处示出。较小的特征值(深蓝色)对预测有更积极的贡献，并且该贡献是大致单调的(例如，从左到右，颜色从深橙色、浅橙色、浅蓝色变化到深蓝色)。

因此，本公开的非限制性实施方案或方面认识到应当从多个角度评估特征的重要性，并且因此可以将四个指标与加权和进行积分以生成第五指标，例如总体指标。根据本公开的非限制性实施方案或方面的总体指标可以根据以下等式(9)来计算：

总体＝2×幅值+一致性+2×对比度+相关性 (9)

注意，等式(9)中的权重可以基于对Avazu数据集的初步研究来得出；然而，对于不同的数据集，权重可能不同。

TP和FP鉴别器可以具有相同的元特征集，并且该元特征集被呈现为两列，这两列可以由图8B中的附图标记b₅处所示的五个指标来容易地排序，以从不同的角度有效地对元特征进行排名，并且使用更有影响力或更重要的元特征(例如，更互补的元特征)来改进模型集成。跨列的相同特征可以通过用于跟踪的曲线来链接，以比较相同元特征对TP和FP鉴别器的贡献，并且用尽可能少的信息解释差异。如图8B中的附图标记b₆处所示，可以提供所选特征在所有五个指标中的排名。

案例研究

下面描述了在两个真实世界应用中使用LFD的示例案例：(1)来自支付和金融服务行业的商家类别验证；以及(2)针对广告的CTR预测。这些案例是与ML专家一起进行的。使用以有声思维方法进行引导式探索作为协议，以三个步骤进行案例研究：(1)解释LFD的高水平目标和可视化；(2)引导专家灵活探索案例，并向他们解释系统部件和对应的发现；以及(3)开放式访谈以收集他们的反馈和建议。

在金融服务行业中，每个注册的商家都具有反映其服务类型的类别(例如，餐馆、药店、娱乐场游戏等)。商家的类别可能由于各种原因而被误报(例如，高风险商家可能报告具有较低风险的虚假类别以避免高处理费等)。因此，一些系统可验证由每个商家报告的类别。商家的信用卡交易(其描述了商家所提供服务的特性)通常用于解决这个问题。

针对这个问题介绍了四种分类器：树模型、CNN、RNN和GNN。为简单起见，该示例仅比较用于餐馆验证的二元分类器(例如，正标签：餐馆，负标签：非餐馆)。分类器将商家作为输入，并输出该商家是餐馆的概率。

树模型是XGBoost模型，它使用呈表格格式的数据(行：商家，列：特征)。CNN将各个商家的序列特征作为输入(每个序列表示跨时间商家的特征值)。CNN通过残余块中的1D卷积来捕获时间行为。但RNN还通过门控递归单元(GRU)来捕获商家的时间行为。GNN考虑了商家的时间和亲和关系信息。时间部分由1D卷积管理，而亲和部分从商家图中得出。如果至少一个持卡人访问两个商家，则这两个商家被连接，并且连接的强度与共享持卡人的数量成比例。然后构建GNN来从这个加权的商家图中学习。

有关模型架构的更多细节可以在由C.-C.M.Yeh、Z.Zhuang、Y.Zheng、L.Wang、J.Wang和W.Zhang在名称为“Merchant category identification using credit cardtransactions”，载于IEEE International Conference on Big Data(Big Data)，2020，第1736-1744页的论文中找到，其全部内容以引用方式并入本文。然而，LFD不需要这些细节，因为LFD是模型不可知的。根据训练数据(例如，原始交易)，四个模型使用不同的特征提取方法来以不同的格式得出它们的相应训练特征(例如，一些是表格形式，而一些是序列形式等)。即使关于由不同分类器使用的特征的知识很少，分类器仍然可以与LFD进行比较，因为LFD是特征不可知的。对于示例比较，在2.5年内有380万商家进行了原始交易。使用LFD对模型进行比较，并由专家对所得出的见解进行验证。

将树模型和RNN进行比较。树具有较高的曲线下面积(AUC)(例如，树优于RNN)，而RNN具有较低的LogLoss(例如，RNN优于树)。由这两个指标所反映的性能相互冲突，并且难以基于这两个指标来选择模型。此外，该指标反映了模型在特定测试数据集上的性能，但没有揭示模型在不同特征上的行为。然而，在实践中，ML从业者经常需要基于特征值分布来选择模型。例如，如果一个人知道大多数即将到来的电子邮件将具有许多URL，则他/她可以选择对具有更多URL的电子邮件表现更好的垃圾邮件分类器。

现在参考图13，使用LFD将树(A)和RNN(B)进行比较，如图13的顶行所示。步骤1将380万商家馈送到两个模型，并为每个商家生成两个分数。步骤2使用这些分数递减地对商家进行排序。基于给定的阈值，分别由模型A和B预测为餐馆(例如，捕获)的商家(例如，A+和B+)被过滤掉。步骤3连接这两个集合并将商家分成三个单元(例如，A+B+、A+B-和A-B+)。基于商家的真标签，在步骤4处，每个单元被进一步分成两个更小的单元(例如，总共有六组商家)。

步骤5从商家的原始交易(过去2.5年)中为每个商家生成70个元特征。没有必要解释每个元特征，但在这个示例案例中使用并在本文后面提到的元特征包括：nonzero_numApprTrans、nonzero_amtDeclTrans、mean_avgAmtAppr、mean_rateTxnAppr和mean_numApprTrans.

元特征nonzero_numApprTrans可以包括商家在一段时间(例如，2.5年)内具有至少一个批准交易的天数。对于时间序列数据，该元特征反映序列中有意义的点的数量。基于先验知识得出的是，RNN通常在具有更丰富序列信息的实例上表现得更好。RNN的取值范围可能是[0，912](2.5年＝912天)，从而反映商家的活跃水平。元特征nonzero_amtDeclTrans可以包括商家在一段时间(例如，2.5年)内具有至少一个拒绝交易(具有非零美元金额)的天数。元特征mean_avgAmtAppr可以包括每个商家在一段时间(例如，2.5年)内每天平均批准金额的平均值。元特征mean_rateTxnAppr可以包括每个商家在一段时间(例如，2.5年)内每日交易批准率的平均值。元特征mean_numApprTrans可以包括每个商家在一段时间(例如，2.5年)内每日批准交易的数量的均值。使用来自TP侧的A+B-和A-B+单元中商家的所有70个元特征来训练TP鉴别器。使用相同的元特征，但通过使用来自对应FP单元的商家来训练FP鉴别器。

步骤6解释鉴别器以得出见解。例如，根据如图14所示的TP侧中的nonzero_numApprTrans的可视化，可以确定橙色气泡中活跃的商家更有可能来自树-RNN+(例如，A-B+(TP))单元，从而指示这些更活跃的商家可被RNN正确地识别(例如，捕获)，但被树遗漏(例如，RNN在活跃商家上优于树)。相比之下，蓝色气泡中较不活跃的商家更有可能来自树+RNN-(例如，A+B-(TP))单元，从而指示树在正确识别较不活跃的商家方面优于RNN。这里的见解可以基于商家的服务频率(例如，活跃或不活跃)直接引导模型选择。

再次参考图13，使用LFD将RNN(A)和GNN(B)进行比较，如图13的底行所示。比较的步骤1至4以与树模型和RNN的比较相同或相似的方式进行，唯一的区别在于商家的样本(例如，来自380万商家的大约7万商家)用于降低商家图的构建成本。

在图13的步骤5处，生成几个亲和相关的元特征来探查两个模型，因为专家期望GNN比RNN更多地利用来自商家邻居的信息。例如，商家的熵反映其邻居的类别的多样性。n_connection表示商家图中每个商家的度。使用这些新的元特征来训练LFD的两个鉴别器。如图15所示，根据图13的步骤6处的可视化，发现熵是非常可区分的元特征。当商家具有更同质的邻居(例如，来自具有更大熵的橙色气泡)时，GNN倾向于正确地捕获商家，而RNN更有可能遗漏商家(例如，橙色气泡大部分落入RNN-GNN+单元)，这指示GNN在这些商家上优于RNN，并且邻居的信息确实有助于预测。这里的观察清楚地揭示了商家之间的亲和信息的值，从而验证专家提出的改进。

这两个简单的案例使用关于所比较模型的先验知识来得出元特征。反过来，模型在元特征上的行为验证了专家的预期。注意，人们仍然可以使用上述元特征来探查模型的行为，即使他们没有关于模型的先验知识。

见解：[CNN对比RNN]

本节呈现了在使用LFD将CNN(A)和RNN(B)模型进行比较时的更深入的见解。这些见解超越了专家们的认知，并且加深了他们对这两个模型的理解。CNN和RNN具有非常相似的性能，并且都捕获商家的时间行为，但方式不同。一个(CNN)使用1D卷积，而另一个(RNN)采用GRU结构。

关于图13的步骤1至4，将380万商家馈送到两个模型(例如，两个黑盒)，接收两组分数，这两组分数用于对商家进行排序并标识由个体模型捕获的两组商家(例如，A+和B+)。连接这两个集合提供不一致矩阵的三个单元(例如，A+B+、A+B-和A-B+)中的商家。基于商家的真类别标签(例如，A+B+(TP)、A+B-(TP)、A-B+(TP)、A+B+(FP)、A+B-(FP)、A+B-(FP)和A-B+(FP))，不一致矩阵可以被分成六个单元的两个矩阵。

关于图13的步骤5，对于LFD的“学习”部分，来自A+B-(TP)和A-B+(TP)单元的商家用于训练TP鉴别器，并且来自A+B-(FP)、A-B+(FP)的商家用于训练FP鉴别器。在元特征方面，可以使用在比较树和RNN模型时得出的70个元特征。

关于图13的步骤6，并且还参考图15，在图16的附图标记a处，示出了对TP和FP鉴别器更有影响力或更重要的元特征，根据本文描述的总体指标对每一侧进行排名以比较相同的元特征对TP和FP鉴别器的贡献，并且用尽可能少的信息解释差异。在TP侧(左侧)，nonzero_numApprTrans排名第三，并且其细节在图16的附图标记b处示出。当商家相对不太活跃时，RNN正确地捕获更多(例如，右侧的蓝色气泡更有可能是CNN-RNN+)，而当商家在过去2.5年的时间段内非常活跃时，CNN正确地捕获更多(例如，橙色气泡)。利用一些分析，模型的行为与专家的预期相匹配并且专家评论说，CNN具有受限的感受域(例如，受卷积层数的限制)，并且更关注局部模式，而RNN可以通过其内部隐藏状态记忆更长的历史。当商家具有长期和活跃的历史时，也存在丰富的局部模式，并且CNN优于RNN。然而，当商家不太活跃时，RNN在捕获更稀疏的时间行为方面表现得更好。在图16的附图标记c处示出了用户交互的相同结果(例如，通过拖动颜色控制点并刷图例，可以容易地标识RNN优于CNN的商家(例如，批准交易少于730天的商家)。使用这个元特征，LFD成功揭示了两个模型之间的微妙差异

另一个元特征mean_rateTxnAppr(在TP侧排名第二)证明了相同的趋势，从而指示RNN在正确标识具有低批准率的餐馆方面也优于CNN。相比之下，mean_avgAmtAppr(排名第一)示出SHAP＝0线两侧的商家存在不明显的差异(两侧的区域为蓝色)，这暗示该元特征不能区分这两个模型。然而，这个特征的大幅值仍然使它排名第一。

在FP侧(图16，右侧)，nonzero_numApprTrans排名第二，并且其细节在图16的附图标记d处示出。这里的所有商家都不是餐馆，但是被错误捕获为餐馆(例如，FP)，并且气泡的图案与图16的附图标记b处的图案相反(例如，蓝色气泡在图16的附图标记d处向左)。蓝色气泡中不太活跃的商家不太可能被RNN错误捕获，但更有可能被CNN错误捕获(例如，来自FP侧的CNN+RNN-单元)，从而指示RNN在具有更稀疏时间行为的商家上仍然优于CNN。

还探讨了对元特征进行排名的不同指标。图17示出了在FP侧进行排名的前八个特征。在图17的附图标记a处示出的元特征mean_numApprTrans具有最大幅值，并且使用传统顺序(例如，mean(|SHAP|))将其标识为最有影响力或最重要的元特征。然而，元特征mean_numApprTrans在一致性顺序中排名第七，并且在对比度和相关性顺序中不在前8位(跟踪红色曲线)。相比之下，在图17中的附图标记b处示出的元特征nonzero_amtDeclTrans(跟踪绿色曲线)在幅值列表中是第七最有影响力或最重要的，但是具有非常大的对比度和相关值。与传统幅值顺序相比，通过考虑元特征的多个方面以有效地从不同角度对元特征进行排名，并使用更重要的元特征(例如，更互补的元特征)来改进模型集成，总体指标提高了nonzero_amtDeclTrans(排名第三)的排名，并降低了mean_numApprTrans(排名第四)的排名。

注意，面积图和气泡图的视觉外观取决于颜色映射，该颜色映射可以通过可视化界面中的“传递函数”小部件进行调整。在图17的附图标记c处，用默认颜色图例示出了mean_numApprTrans的详细视图。可以看出，橙色气泡非常少，并且它们对面积图的聚合颜色的贡献不明显。可以如图17中附图标记d处的图例所示改变颜色映射，以将更大的值范围映射到橙色。然而，大部分气泡仍然是蓝色的，并且特征仍然具有小的对比度。

气泡的布局和大小也可以被灵活地调整，以反映元特征的不同细节水平，这通过在计算2D直方图(本文关于图10解释)时增加特征仓和SHAP仓的数量而在图17的附图标记d和e处被证明。例如，在图17的附图标记e处，使用了更多的仓并且以更精细的粒度呈现特征，这也反映出气泡图的累积面积(例如，细节部分)不能准确地呈现数据分布并且验证面积图(例如，概览部分)的需要。

CTR预测用于预测用户是否会点击广告，这是广告行业中的关键问题。Avazu是公共CTR数据集，包含10天内多于4000万实例。每个实例是印象(例如，广告视图)，并且具有21个匿名分类特征(例如，site_id、device_id等)。

使用Avazu来将基于树的模型(A，简称树)和RNN模型(B)进行比较。每个模型都被训练来区分点击和非点击实例。在两个模型的训练中都使用了以下数据分区：第1天：保留以生成历史特征；第2至8天：用于模型训练；第9天：用于模型测试和比较；以及第10天：进行模型集成实验。

由于模型可使用一些历史特征(例如，过去一天的活跃小时数)，所以第1天的数据被保留用于此目的。第10天的数据不被触及并且留待以后的定量评估实验。注意，还存在通过将10天的数据打乱并分成多个文件夹来划分Avazu的工作。按时间划分数据的方式遵循行业实践，并且更加现实(例如，未来的数据不应泄露到训练过程中)。

树模型将各个数据实例(例如，广告视图)作为输入，而RNN将实例连接成观看序列并将该观看序列作为输入。Avazu CTR挑战的获胜解决方案用于形成序列。个体模型的训练特征和架构的细节是不需要的，因为LFD是特征不可知和模型不可知的。树和RNN的最终AUC分别是0.7468和0.7396。

初始步骤类似于本文较早的示例案例中描述的步骤。图8A示出了针对该示例案例的不一致分布视图，从中可知，如果截止值/阈值在15％到20％之间，则来自TP侧的不一致实例的大小达到峰值。15％被用作使具有最不一致预测的训练数据的大小最大化的截止值，以呈现在不同阈值下数据实例跨越两个不一致矩阵的六个单元(例如，如图4所示的LFD的步骤4)的分布。可以基于FP数据分布选择其他截止值。然而，在这种情况下，TP实例更受关注。

在如图4所示的LFD的步骤5中，在两个步骤中生成来自原始数据的元特征。首先，Avazu原始数据具有21个分类特征，并且这些特征通过连接特征的分类值来扩展，例如，device_id_ip是由device_id和device_ip组合的特征。基于专家关于数据的知识，Avazu扩展到具有42个特征(和特征组合)。其次，由于CTR是点击数(n_clicks)与印象数(n_impressions)之间的比(例如，CTR＝n_clicks/n_impressions)，所以通过从这三个维度概述42个特征的频率来提出元特征。例如，对于原始特征device_id，可以生成元特征n_clicks_device_id，其表示每device_id值的点击数。此外，由于RNN不如树好(参见步骤1处的AUC)，因此期望探查模型的序列相关的行为。因此，生成来自第四维度的元特征以反映特征的活跃水平(例如，n_active_hours_*)。总之，从以下四个维度中的42个特征生成元特征，可以提供168(42×4)个元特征。元特征n_impressions_*表示每*(其中*代表42个特征中的一个特征)值的印象数。n_clicks_*指示每*值的点击数。ctr_*表示针对每*值的CTR。例如，如果*是device_id并且针对某个设备的CTR是x，则对于在该设备上发生的所有印象，ctr_device_id的值是x。n_active_hours_*反映每个*值出现在数据中的小时数(在过去一天)。使用168个元特征来训练TP和FP鉴别器以学习树与RNN之间的差异。

在如图4所示的LFD的步骤6中，在训练之后，对来自TP和FP侧的元特征进行排名，如图8B所示。元特征n_active_hours_*从未出现在顶部可区分特征中，这暗示RNN可能不会从序列信息中受益更多(与树模型相比)。这种见解为进一步诊断RNN提供了线索，以解释TP和FP鉴别器，从而解释不同元特征对捕获的实例和错误捕获的实例的影响。

在一些分析之后，ML专家倾向于认为RNN的相对较差的性能是源于数据。首先，Avazu中没有唯一的序列ID，并且将实例连接成序列的解决方案可能不是最优的。其次，序列长度很短，并且只有10天的数据可能不能够很好地捕获用户的行为模式。相比之下，在考虑CNN和RNN时，使用2.5年的数据，并且每个商家具有唯一的序列ID。所呈现的视觉证据和分析提供了对为什么RNN没有被列为针对该CTR挑战的最佳解决方案之一的一些解释。

从TP侧来看，如图8B中的附图标记b₅处所示，ctr_site_id是非常可区分的特征。虽然RNN具有较小AUC，但当该元特征较大时，RNN在捕获点击方面优于树模型(例如，附图标记b₃处的橙色气泡更有可能来自树-RNN+单元，这在RNN倾向于记住访问历史的站点时是有意义的)。根据由总体指标排序的元特征，可以容易地标识其他有影响力或重要的特征。例如，元特征ctr_site_app_id(排名第二)表示由site_id和app_id组合的特征的CTR。元特征ctr_site_app_id示出与元特征ctr_site_id相同的趋势(例如，如果印象来自与更高点击率配对的站点应用，则RNN表现得比树模型更好)。元特征ctr_c14(排名第三)是另一个有影响力或重要的元特征。当该特征具有小值时(例如，由图8B的附图标记b₇处右侧的蓝色区域指示)，RNN在捕获点击时可能更准确。虽然c14是未知的(例如，Avazu的匿名原始特征)，但可以推断它是来自LFD的有影响力或重要的点击相关的特征。

对于图8B的附图标记b₅处所示的FP侧，元特征ctr_site_id也是最有影响力或最重要的(附图标记b₄跟踪两个元特征列表之间的曲线)。元特征ctr_site_id的行为与附图标记b₂处所示的TP侧一致(例如，橙色区域仍然在右侧，从而指示如果ctr_site_id的值很大，则RNN倾向于错误捕获实例。相比之下，特征nonzero_numApprTrans在图16的附图标记b和d处示出了来自TP和FP侧的相反模式，这揭示了模型的潜在偏差(例如，这里的RNN倾向于给具有大ctr_site_id的实例高分，无论这些实例是否是真实点击实例)。在彻底检查和比较两个案例之后，发现观察实际上反映出商家类别验证和CTR问题的不同信号强度。

数据集的信号强度反映阳性实例与阴性实例的可区分程度。对于商家类别验证，信号强度强(例如，具有伪造类别的商家具有某些常规商家不能偶然进行的有意行为)。然而，对于CTR，信号强度要弱得多。当用户选择点击或不点击广告时，随机性广泛存在。因此，在所有特征中具有非常相似的值的两条记录可具有不同的点击标签。因此，来自A-B+(TP)和A-B+(FP)单元的实例在某种程度上是相似的，来自A+B-(TP)和A+B-(FP)单元的实例也是如此。反过来，所训练的TP和FP鉴别器(由于它们的相似训练数据而)表现相似，这解释了ctr_site_id在TP和FP侧的相似模式，如图8B中的附图标记b₂处所示。

评估

本文描述的模型比较和特征分析结果可以通过定量评估和定性评估两者来评估。对于定量部分，更有影响力或更重要的元特征可以在通过LFD比较两个模型时标识，用于通过FWLS来集成模型，并且用于通过改进的集成结果来验证LFD的功效。对于定性部分，与对用于健全性检查的模型(在案例研究中)有透彻了解的ML专家一起确认比较结果，并且进行开放式访谈以收集专家的反馈。

如本文先前所解释，FWLS通过考虑模型在不同特征中的行为来集成模型。在FWLS中应当使用什么特征是关键问题，并且集成结果可以定量地反映所用特征的质量。由LFD的五个指标排名的前15个元特征可用于生成五个FWLS模型，并且比较它们的AUC以量化排名的质量。

两种最先进的和公开可用的CTR模型可用于进行该LFD实验。一种是逻辑回归(LR)，其由“遵循近似正则化导引(FPRL-Proximal)”实现，如由H.B.McMahan、G.Holt、D.Sculley、M.Young、D.Ebner、J.Grady、L.Nie、T.Phillips、E.Davydov、D.Golovin等人在名称为“Ad click prediction:a view from the trenches”，载于Proceedings of the19th ACM SIGKDD international conference on Knowledge discovery and datamining，2013，第1222-1230页的论文中所描述，其全部内容以引用方式并入本文。另一种是“特征交互图神经网络”(Fi-GNN，简称GNN)，如由Z.Li、Z.Cui、S.Wu、X.Zhang和L.Wang在名称为“Fi-gnn:Modeling feature interactions via graph neural networks for ctrprediction”，载于Proceedings of the 28th ACM International Conference onInformation and Knowledge Management，2019，第539-548页的论文中所描述，其全部内容以引用方式并入本文。这两个模型都使用Avazu的21个原始特征(第2至8天)进行训练。

使用两种模型的分数来对数据实例(例如，来自第9天的测试数据)进行排序，LR+GNN-和LR-GNN+单元中的数据实例被标识(步骤3)，并且鉴别器被训练以使用本文介绍的168个元特征区分数据实例。注意，这里不需要LFD的步骤4，因为使用了考虑TP和FP实例两者的单一顺序的元特征(例如，不需要分离TP和FP实例)。

在获得鉴别器之后，本文描述的五个指标用于将168个元特征排名成五个不同的顺序，并且从每个顺序中选择前15个元特征来进行FWLS。因此，存在五个集成模型。这些模型各自基于第9天的数据进行训练(以拟合w₁和w₂的最佳值)，并在第9天和第10天的数据上测试集成性能。

图18是示出原始模型和集成模型的性能的表格。有三个发现。首先，所有五个集成模型(使用通过不同指标排名的前15个元特征)都实现了比原始LR和GNN更好的性能，从而反映FWLS的功效。其次，对于第9天和第10天的数据，Esb_总体比Esb_幅值更好，从而指示从多个角度概述特征的影响或重要性的总体指标比传统的幅值指标(例如，mean(|SHAP|))更好。模型比较情景中有影响力或重要的元特征是那些最大地区分两个模型的元特征(例如，最互补的元特征)。能够标识这些验证了LFD的功效。第三，对于第10天的数据，Esb_对比度产生最佳性能。这是合理的，因为对比度最能反映互补水平。结果还指示，我们的总体指标(等式6)中的权重可能需要针对不同的数据集进行调整。

使用LFD与ML专家(E1至E5)一起进行了多个案例研究。本文描述的四个商家类别验证模型是由专家提出的，并且专家对它们的差异有足够的了解。作为健全性检查，从LFD得出的见解与专家的期望匹配得很好，例如，RNN在捕获时间行为方面比树更好，并且亲和信息帮助GNN优于RNN。CTR模型的比较结果对专家来说也是有意义的，并且所提出的元特征(例如，n_active_hours_*)有助于揭示对应RNN的缺陷。研究以开放式访谈结束，在访谈中收集了专家的反馈。

总体上，所有专家都印象深刻地看到，LFD可以有效地验证他们对不同模型的假设。E1非常喜欢这个想法并且认为LFD是“离线对抗学习”(例如，类似于生成对抗网络(GAN)的在线对抗学习)，其中两个所比较模型明确地标识在哪里学习，并且鉴别器与GAN的鉴别器相似。这位专家还指出了LFD在“巧妙地避免数据不平衡问题”方面的优势。E2在模型构建和特征工程方面有数十年的经验。这位专家评论道“作为模型设计者，特征顺序是极其重要的”，并对所介绍的特征排序指标表示赞赏。这位专家还认为，提出新的元特征是“探查比较模型的行为”的一种“良好且直观”的方式。来自LFD的见解启发他重新审视早期的工作，这些工作根据模型的分数过滤实例并使用过滤的实例来进一步改进另一个模型。E4至E5是在生产中与ML模型一起工作的一线ML从业者。他们特别喜欢系统在对元特征进行排名方面的交互性，以及LFD在标识针对模型集成的互补特征方面的功效。

LFD和系统也有一些期望的特征。例如，其他特征解释方法可以集成到LFD中，并且可以使框架更通用。也可以启用阴性侧比较(例如，通过在步骤2处递增地对实例进行排序来比较真阴性和假阴性实例)以扩展LFD。两个所比较模型在不同阈值下的精度也可以在不一致分布视图中提供。

尽管本公开的非限制性实施方案或方面主要关注于两个所比较分类器的阳性预测(例如，TP和FP实例)，并且因此实例至少由一个模型捕获，但是它们不限于此，并且可以根据阴性预测来比较两个分类器(例如，在LFD的步骤2处递增地对分数进行排序)。还应注意，出于比较的目的，A-B-(以及A+B+)单元可能不太受关注，因为这是两个分类器一致的地方，并且没有不一致可以从中学习。

LFD可取决于如用于解释准确率的SHAP。因此，在SHAP不能提供准确解释的情况下，LFD可能有固有的限制。对于这种限制，需要注意两点。首先，SHAP广泛适用于大多数ML模型并且有坚实的理论支持。因此，预期不会经常出现相当不准确的解释。其次，由于LFD的六个步骤已经被很好地模块化，所以SHAP可以在步骤6处很容易地被其他解释方法替换(例如，最近提出的影响函数，如由P.W.Koh和P.Liang在名称为“Understanding black-boxpredictions via influence functions”，载于International Conference on MachineLearning，PMLR，2017，第1885-1894页的论文中所描述，其全部内容以引用方式并入本文)。

LFD可能有两个与可伸缩性相关的问题。首先，由于对行业问题的关注，LFD可能仅限于对二元分类器的比较。对于多类分类器，一次只可比较它们在单个类上的差异。其次，该系统目前支持数百个元特征，例如，在CTR情况下支持168个元特征。然而，对于具有数千个元特征的情况，可视化可能无法很好地伸缩。幸运的是，使用所提出的特征重要性指标，可以从可视化中消除不太重要的特征以降低可视化成本。另外，SHAP值的计算也可能是瓶颈。然而，SHAP值可以被离线计算并且/或者其他更有效的模型解释方法可以用于替换。

从至少两个角度来说，LFD可能是有用的。首先，LFD可以在比较两个分类器的情景中提供特征级解释，从而将可行动的见解提供到模型选择中。如本文所述，存在许多针对个体分类模型的模型解释著作。然而，现有著作未能关注于比较地解释两个比较器，从而将LFD与现有著作区分开来。通过从不一致的实例中学习，LFD可以揭示两个模型之间的微妙差异。例如，RNN在时间历史更稀疏的商家上表现更好的见解可能对一线ML从业者选择模型非常有用。其次，LFD提供了在使元特征优先化方面更有效的指标，从而产生更好的模型集成。如所解释，特征的重要性通常通过其贡献幅值来衡量，该贡献幅值仅从一个角度描述了特征的影响或重要性。总体指标从多个角度概述特征并且可以更全面地反映特征的影响或重要性。

本文描述的LFD的六个步骤被很好地模块化，从而使比较和分析是半自动的。例如，步骤1至4可以通过具有几个参数的Python脚本来执行。步骤5处提出的元特征是使用用户的定制输入的唯一部分，并且对于新手用户来说可能会变得很麻烦。然而，在实践中，一线ML从业者通常手头有元特征列表(基于他们的假设和对所比较模型的领域知识)。所以，这个步骤对他们来说也不是很复杂。步骤6处的视觉设计是基于传统的概括图，并且交互仅涉及一些基本操作，例如排序和刷图。根据来自ML专家的反馈，视觉设计并不难理解并且交互对他们来说也很直观。

因此，本公开的非限制性实施方案或方面提供了LFD、模型比较和可视化框架，其通过标识具有不一致预测的数据实例来比较两个分类模型，并且使用一组所提出的元特征从不一致中学习。基于学习过程的SHAP解释，特别是模型对不同元特征的偏好，可以解释两个所比较模型之间的基本差异。还提供了从不同角度对元特征进行优先化的多个指标。经优先化的特征揭露了所比较模型的互补行为并且可以用于更好地集成所比较模型。通过ML专家的定性案例研究和对模型集成的定量评估，验证了LFD的功效。

在一些非限制性实施方案或方面中，模型比较系统102可以基于相对成功率来标识第一ML模型和第二ML模型中的一者中的弱点。作为示例，模型比较系统102可以基于第一成功率和第二成功率来标识与多个样本的第一部分样本相关联的第二ML模型中的弱点，该第一部分样本包括针对多个特征的相同第一特征的相同第一值，并且对于该弱点，与第一ML模型相关联的第一成功率不同于(例如，大于、小于等)与第二ML模型相关联的第二成功率。作为示例，模型比较系统102可以基于第一成功率和第二成功率来标识与多个样本的第二部分样本相关联的第二ML模型中的弱点，该第二部分样本包括针对多个特征的相同第一特征的相同第二值，并且对于该弱点，与第一ML模型相关联的第一成功率不同于(例如，小于、大于等)与第二ML模型相关联的第二成功率。

多个特征中的相同特征可以包括与样本相关联的任何特征(例如，与交易样本相关联的任何特征等)，诸如交易参数、基于与多个交易相关联的多个交易参数计算出的指标和/或根据该特征生成的一个或多个嵌入。例如，相同特征可以包括交易金额、交易日期和/或时间、与交易相关联的产品和/或服务的类型、货币类型、商家类型、商家名称、商家位置、MCG、MCC等。作为示例，针对相同特征的相同值可以包括相同的商家位置(例如，相同的商家国家等)，诸如每个交易样本与包括值“巴西”的商家位置相关联等。在这样的示例中，基于标识出对于具有在巴西的商家位置的交易样本，与第一ML模型相关联的第一成功率大于与第二ML模型相关联的第二成功率，模型比较系统102可以基于第一成功率和第二成功率来将第二ML模型中的弱点标识为在巴西的商家位置。

在一些非限制性实施方案或方面中，第一ML模型的第一特征子集不同于第二ML模型的第二特征子集，并且模型比较系统102可以通过以下操作标识第二ML模型中的弱点：确定第一特征子集与第二特征子集之间的特征差异；基于包括在第一部分样本中的相同第一特征和特征差异，选择多个特征中的一个或多个特征；基于所选择的一个或多个特征调整第二特征子集；以及使用经调整的第二特征子集生成更新后的第二ML模型。例如，模型比较系统102可以将第二ML模型中的弱点标识为具有针对相同商家位置的相同值的交易样本(例如，具有在巴西的商家位置的交易样本等)，并且模型比较系统102可以根据第一特征子集与第二特征子集之间的特征差异(和/或链接输入特征的一个或多个预定规则等)来选择一个或多个特征(例如，新特征、不同特征等)添加到第二特征子集或替换第二特征子集中的一个或多个第二特征，以用于生成第二ML模型的更新后的版本，从而提高第二ML模型在预测被标识为第二ML模型中的弱点的具有针对相同特征的相同值(例如，在巴西的商家位置等)的交易样本方面的性能。

在一些非限制性实施方案或方面中，用于生成第一ML模型的ML算法的第一超参数集不同于用于生成第二ML模型的相同ML算法的第二超参数集，并且模型比较系统102可以通过以下操作标识第二ML模型中的弱点：确定第一超参数集与第二超参数集之间的超参数差异；基于包括在第一部分样本中的相同第一特征和超参数差异，确定一个或多个超参数；基于所选择的一个或多个超参数调整第二超参数集；以及使用经调整的第二超参数集生成更新后的第二ML模型。例如，模型比较系统102可以将第二ML模型中的弱点标识为具有针对相同商家位置的相同值的交易样本(例如，具有在巴西的商家位置的交易样本等)，并且模型比较系统102可以根据第一超参数集与第二超参数集之间的超参数差异(和/或将超参数链接到特征的一个或多个预定规则等)来确定一个或多个超参数(例如，新超参数、不同超参数等)在第二超参数集中调整，以用于生成第二ML模型的更新后的版本，从而提高第二ML模型在预测被标识为第二ML模型中的弱点的具有针对相同特征的相同值(例如，在巴西的商家位置等)的交易样本方面的性能。

LFD的目标是获得见解，该见解使商业伙伴和建模者能够对模型有深刻的理解。见解应当是可行动的：商业伙伴应当能够使用这些见解来说服潜在客户采用新模型，并且建模者应当能够使用这些学到的见解来改进他们的模型。

可以使用各种形式来学习和呈现见解，例如，通过揭示问题和提出可行的解决方案，如由Zachary C.Lipton和Jacob Steinhardt在名称为“Troubling trends in machinelearning scholarship”，arXiv preprint arXiv：1807.03341(2018)的论文中，以及由Maurizio Ferrari Dacrema、Paolo Cremonesi和Dietmar Jannach在名称为“Are wereally making much progress？A worrying analysis of recent neuralrecommendation approaches”，arXiv preprint arXiv：1907.06902v3(2019)的论文中所描述，它们的全部内容以引用方式并入本文。

本公开的非限制性实施方案或方面可以从特征分析/推荐的角度来解决这个问题。例如，模型比较系统102可以创建被称为“谕示特征(oracle feature)”的大的特征轮询，如由Stefanos Poulis和Sanjoy Dasgupta在名称为“Learning with featurefeedback:from theory to practice”，载于Proceedings of the 20th InternationalConference on Artificial Intelligence and Statistics(2017)，第1104-1113页的论文中所描述，其全部内容以引用方式并入本文。模型比较系统102可以调查这些特征中的哪些特征导致在给定操作点处两个模型之间的不一致，其认识到，如果特征(或特征集)具有辨别那些不一致实例的能力，则该特征携带在当前两个模型中的一个模型或模型中的每个模型中使用的特征中被忽略的信息。例如，当前两个模型中的一个模型或模型中的每个模型中的可用特征不能支持类之间的可靠区分，并且因此导致不一致。将这个新特征并入到两个模型中为这两个模型中的一个模型或两个模型提供了新的辨别能力，并且因此帮助减轻不一致。

模型比较系统102可以基于对数据的理解和多年的领域知识来创建谕示特征。例如，模型比较系统102可以使用自动工具，如由以下各项所公开：(i)James Max Kanter和Kalyan Veeramachaneni在名称为“Deep feature synthesis:Towards automating datascience endeavors”，载于IEEE International Conference on Data Science andAdvanced Analytics(DSAA)(2015)，第1-10页的论文中；(ii)Gilad Katz、Eui Chul、Richard Shin和Dawn Song在名称为“ExploreKit:Automatic feature generation andselection”，载于International Conference on Data Mining(2016)，第979–984页的论文中；以及/或者(iii)Yuanfei Luo、Mengshuo Wang、Hao Zhou、Quanming Yao、WeiWei Tu、Yuqiang Chen、Qiang Yang和Wenyuan Dai在名称为“AutoCross:Automatic featurecrossing for tabular data in real-world applications”arXiv preprint arXiv:1904.12857(2019)，它们的全部内容以引用方式并入本文，并且/或者通过理解区分一个类与另一个类的数据的性质来发现强辨别特征，其由Kayur Patel、Steven M.Drucker、JamesFogarty、Ashish Kapoor和Desney S.Tan在名称为“Using multiple models tounderstand data”，载于Proceedings of the Twenty-Second International JointConference on Artificial Intelligence(2011)的论文中公开，其全部内容以引用方式并入本文。

为了查看在给定点处哪些谕示特征对不一致贡献最大，模型比较系统102可以训练两个XGBoost树，一个针对组Z1和组Y1中的实例，而另一个针对组Y2和组Z2中的实例，如由Junpeng Wang、Liang Wang、Yan Zheng、Chin-Chia Michael Yeh、Shubham Jain和WeiZhang在名称为“Learning-from-disagreement:A model comparison and visualanalytics framework”，提交给IEEE Transactions on Visualization and ComputerGraphics的论文中所描述，其全部内容以引用方式并入本文，并且基于该谕示特征的SHAP值对特征影响幅值或重要性进行排名，如由Scott M.Lundberg和Su-In Lee在名称为“Aunified approach to interpreting model predictions,Advances in NeuralInformation Processing Systems”(2017)的论文中，以及由Scott M.Lundberg、GabrielG.Erion和Su-In Lee在名称为“Consistent individualized feature attribution fortree ensembles”arXiv preprint arXiv:1802.03888(2018)的论文中所描述，它们的全部内容以引用方式并入本文。因为XGBoost树需要所有的特征都是数字的，所以使用某种特征编码机制将所有分类特征转换成数字特征(例如，来自发行商网站的历史点击率、来自商家的历史拒绝率等)。

本公开的非限制性实施方案或方面提供了一种替代方法来测量特征的辨别能力，而不需要对模型进行训练。这种方法可以被称为鲁棒信息值(RIV)，它消除了信用卡行业中使用的传统信息值(IV)的两个主要缺陷，如由Naeem Siddiqi在名称为“Credit RiskScorecards:Developing and Implementing Intelligent Credit Scoring”，JohnWiley&Sons、Hoboken、New Jersey(2016)的论文中所描述，其全部内容以引用方式并入本文。鉴于LFD基于大量谕示特征在给定分数截止点分析不一致实例，并且给定分数截止值会因不同客户而异，RIV大大加快了发现导致不一致的有影响力或重要特征的过程。

传统上，IV根据以下等式(10)和(11)来计算：

其中C是特征中的类别数，E_i是类别i中的事件数，NE_i是类别i中的非事件数，E是事件总数，并且NE是非事件总数。

等式(10)指的是证据权重(WOE)。WOE的基本性质可以认为是整个群体的平均值。例如，WOE可以指示假设中的最终信念(例如，点击被模型A正确分类，但没有被模型B正确分类)等于初始信念加上所呈现的任何证据的证据权重。作为示例，点击被模型A正确分类但没有被模型B正确分类的最终信念可以等于任何点击可以被模型A正确分类但没有被模型B正确分类的初始信念加上证据权重，诸如基于训练数据该证据权重出现在模型A比模型B执行得更好的站点ID中。

WOE可以是正的，负的，或零。正WOE导致信念以对数几率的形式增加；负WOE会导致信念的降低；并且为零的WOE不会影响对数几率。

考虑组Z1和Y1，其中组Z1中的实例具有标签0，而组Y1中的实例具有标签1。谕示特征是站点ID，该站点ID本身可能包括数百个站点ID(类别)。如果点击出现在WOE值为0.60的站点ID中，这被解释为属于组Z1的该点击的0.60的证据(也就是说，与点击出现的站点ID已知之前相比，有更多的证据指示该实例被模型A正确分类但没有被模型B正确分类)。然而，如果点击出现在WOE值为-0.58的站点ID中，这被解释为针对属于组Z1的该点击的0.58的证据。

在获得WOE之后，等式(11)中的信息值(IV)的计算是直接的。注意，IV是非负的，因为E_i/E-NE_i/NE和WOE_i的符号是相同的。WOE和IV广泛用于信用评分行业，并且提供了理解特征的简单而强大的方式。WOE最近用于预测差异分析方法中，该预测差异分析方法用于使深度神经网络对给定输入的响应可视化。

传统的WOE和IV公式存在两个缺陷。第一个缺陷是它们平等地对待特征中的类别，从而忽略了小的计数会导致不太鲁棒的统计数据的事实。例如，对于站点ID特征，假设一个站点ID有一次点击和两次未点击，而另一个站点ID有100次点击和200次未点击。两个站点ID的点击率都是0.5，但是第一个站点ID的点击率比第二个站点ID的点击率可信度低。第二个缺陷是IV偏向于给包括更多类别的特征更高的值。因为等式(11)右侧的每个元素决不会有负值，所以将各自具有微小值的大量元素相加可以得到更大的和。

本公开的非限制性实施方案或方面通过根据以下等式(12)和(13)引入受用于概率估计的m估计方法启发的以下新公式来克服这两个缺陷：

其中m是平滑参数。这两个公式可以分别称为鲁棒证据权重(RWOE)和鲁棒信息值(RIV)。

RWOE和RIV的概念可能是，在特征的每个类别中，m*(E/(E+NE)事件和m*(NE/(E+NE)非事件是“借用的”，假定E/(E+NE)和NE/(E+NE)实际上分别代表事件率和非事件率。借用多少事件和非事件可能取决于对类别中的事件和非事件计数的置信度。如果计数很小(例如，不能满足阈值等)，则通过设置更大的m可能会借用更多的事件和非事件，反之亦然。非常大的m可以使等式(12)右侧的第一部分变成log(E/NE)，从而产生零WOE值(例如，为零的全局平均WOE)。因此，该类别可能对该特征的IV计算没有任何贡献，这有效地减轻了传统IV公式中表现出的偏差。

注意，WOE和IV是针对单个特征的。众所周知，孤立地看起来不相关的特征在组合时可能是相关的。在CTR预测和交易异常检测中尤其如此，在这种情况下，指示被分类事件的最强特征是那些最好地捕获几个维度之间的交互的特征。大多数谕示特征可被设计用于捕获交互。因为这些特征通常涉及几个维度(例如，用户ID、站点ID和广告商ID的连接可以产生三维特征)，所以这些特征中的许多类别往往具有较小的计数。

示例应用案例1：CTR预测

LFD可能总是作用于一对模型。在这种应用程序案例中，该对模型包括逻辑回归模型和称为特征交互图神经网络(FiGNN)的图神经网络模型。被命名为模型A的逻辑回归模型包括21个原始特征，该原始特征使用“散列技巧”独热编码进行编码，并且使用遵循正则化导引(FTRL)在线学习算法进行训练。被命名为模型B的图神经网络模型使用旨在从21个原始特征中自动捕获特征交互的新颖的图结构。

在这一对模型中，模型A可以被视为更简单的模型，因为模型A是仅包括21个原始特征的线性模型，而模型B是更高级的模型，因为模型B具有被设计用于自动发现特征交互的更复杂的结构。现在参考图19，该图是示出示例模型的相对成功率的图，图19的左侧面板示出了这对模型的相对成功率。一个有趣的观察是，随着渗透的深入，FiGNN相对于简单逻辑回归模型的优势消失了。这表明，如果期望接触大量受众，则应当使用简单模型还是高级模型并不重要。使用更高级的模型的益处来自作用于高分群体，这是CTR预测和交易异常检测的常见情况。

图19中还提到了命名为模型C的逻辑回归模型，模型C使用由具有FTRL的LFD框架推荐的70个特征进行训练。同样，使用“散列技巧”独热编码对特征进行编码。可以看出，与模型A(中间面板)和模型B(右侧面板)相比，模型C尤其是对于高分人群提供了显著的改进。

现在参考图20，该图是示出示例模型之间的不一致的图，图20示出了三个模型之间的真阳性(点击)和假阳性(非点击)的不一致。从图20中有两个有趣的发现。第一个发现是假阳性(蓝色线)的不一致比真阳性(红色线)的不一致更严重。该发现提出了以下问题：在CTR预测或一般事件预测中，当前所有的努力都关注于标识事件。是否也应当努力标识非事件，即尽力减少假阳性？第二个发现是，与模型A(参考中间面板)相比，使用由LFD推荐的70个特征所训练的模型C在高分区域(参考右侧面板)的真阳性和假阳性方面与模型B的不一致较少，即使模型A和模型B具有相似的架构(两者都是逻辑回归模型)也是如此。

下表1示出了来自图20中的三个模型的AUC。

表1

下表2呈现了由LFD基于来自模型A和模型B的两种类型的不一致、关于真阳性的不一致(参考左侧面板)和关于假阳性的不一致(参考中间面板)所推荐的前20个特征。有趣的是注意到这两个特征集非常一致。表中还包括来自一致实例的前20个特征(参考右侧面板)。这些实例要么被两种模型正确分类(TPAB)，要么被两种模型错误分类(FPAB)。凭直觉，很难区分TPAB中的实例和FPAB中的实例。事实确实如此：右侧面板中的IV值都具有较小的值，从而指示用于分离这两个群体的信号非常弱。

表2

示例应用案例2：异常检测

该应用中使用的一对模型是梯度提升树模型和RNN模型，不同于示例应用案例1，示出的是来自由LFD推荐的特征的预测能力。在这个应用案例中所证明的是，当梯度提升树模型和RNN模型被集成时，LFD有助于理解集成如何工作。图21是示出示例模型之间的相对成功率的图，示出了被命名为模型A的梯度提升树模型、被命名为模型B的RNN模型和被命名为模型C的集成。图22是示出示例模型之间的不一致的图，特别地，示出了三个模型之间的真阳性(异常)和假阳性(非异常)的不一致。

有趣的发现来自中间面板和右侧面板：集成在假阳性上更多地减少了梯度提升树模型上的不一致(参考中间面板中的蓝色曲线)，并且同时在真阳性上更多地减少了RNN上的不一致(参考右侧面板中的红色曲线)。注意，在上面的分析中，集成权重针对两个模型都设置为0.5。这是有意的，因为它使得能够看到如果两个模型分数被同等对待，集成是否工作。

作为比较，图23和图24包括示出当我们将权重0.2应用于梯度提升树模型并将权重0.8应用于RNN模型时的相对成功率曲线和不一致曲线的图。

尽管已出于说明的目的而基于当前被认为是最实用和优选的实施方案或方面详细描述了本公开，但应理解，此类细节仅用于所述目的，并且本公开不限于所公开实施方案或方面，而是相反，旨在涵盖在所附权利要求书的精神和范围内的修改和等效布置。例如，应当理解，本公开预期，尽可能地，任何实施方案或方面的一个或多个特征可以与任何其他实施方案或方面的一个或多个特征组合。

Claims

1.一种用于比较机器学习模型的系统，所述系统包括：

至少一个处理器，所述至少一个处理器被编程或配置为：

接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；

基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；

确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；

生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；

基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；

基于所述第一真标签矩阵训练第一分类器；

基于所述第二真标签矩阵训练第二分类器；并且

基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

2.如权利要求1所述的系统，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

3.如权利要求1所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：

基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率。

4.如权利要求3所述的系统，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术。

5.如权利要求4所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：

计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；并且

计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的SHAP值。

6.如权利要求5所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：

生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述SHAP值的图。

7.如权利要求5所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：

生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个SHAP值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值的图。

8.如权利要求5所述的系统，其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时，所述至少一个处理器被编程或配置为：

计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；并且

计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，

其中所述准确率指标包括与特征的幅值的度量相关联的指标、与特征的一致性的度量相关联的指标、与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标。

9.一种计算机实现的方法，所述计算机实现的方法包括：

利用至少一个处理器来接收数据实例的数据集，其中每个数据实例包括针对多个特征中的每个特征的特征值；

利用所述至少一个处理器来基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出；

利用所述至少一个处理器来确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集；

利用所述至少一个处理器来生成不一致矩阵，所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集，其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出，并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出；

利用所述至少一个处理器来基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵，其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出，并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出；

利用所述至少一个处理器来基于所述第一真标签矩阵训练第一分类器；

利用所述至少一个处理器来基于所述第二真标签矩阵训练第二分类器；以及

利用所述至少一个处理器来基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率。

10.如权利要求9所述的计算机实现的方法，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

11.如权利要求9所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

12.如权利要求11所述的计算机实现的方法，其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术。

13.如权利要求12所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的SHAP值；以及

14.如权利要求13所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

15.如权利要求13所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

16.如权利要求13所述的计算机实现的方法，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值，其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值；以及

17.一种计算机程序产品，所述计算机程序产品包括至少一个非暂时性计算机可读介质，所述至少一个非暂时性计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使得所述至少一个处理器：

基于所述第一真标签矩阵训练第一分类器；

基于所述第二真标签矩阵训练第二分类器；并且

18.如权利要求17所述的计算机程序产品，其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值。

19.如权利要求17所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

基于在所述第一分类器和所述第二分类器上执行的模型解释技术，确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率，

其中所述模型解释技术是涉及沙普利加和解释(SHAP)值的模型解释技术，并且

其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

20.如权利要求19所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

21.如权利要求19所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

22.如权利要求19所述的计算机程序产品，其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括：

计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值，其中

与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个SHAP值，