CN115204409A

CN115204409A - 检测不可推理的数据

Info

Publication number: CN115204409A
Application number: CN202210379239.9A
Authority: CN
Inventors: 林俊叡; 许静; 韩四儿; 张雪英
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-04-14
Filing date: 2022-04-12
Publication date: 2022-10-18
Also published as: US20220335310A1; JP2022163722A

Abstract

一种检测不可信推理的数据。提供了一种方法、系统和程序产品标识多个模型以测试数据集的方法。多个模型中的每一个模型产生对应于多个目标中的一个目标的多个预测中的一个预测。该方法、系统和程序产品响应于对照多个模型中的每个模型而测试数据集来检测该多个预测之间的一个或多个冲突。所述方法、系统和程序产品响应于检测到所述一个或多个冲突而报告测试的不可推理的结果。

Description

检测不可推理的数据

背景技术

人工智能使用机器学习算法来基于样本数据(训练数据)以构建模型，以对主题做出预测或决定，而不被显式地编程为对该主题做出预测或决定。机器学习算法被用于各种各样的应用中，在这些应用中开发常规算法以执行所需任务是困难或不可行的。

机器学习模型的精确度等级基于其“真肯定”、“真否定”、“假肯定”以及“假否定”。真肯定是其中机器学习模型正确地预测肯定类别的结果。真否定是其中机器学习模型正确地预测否定类别的结果。假肯定是其中机器学习模型不正确地预测肯定类别的结果。并且，假否定是其中机器学习模型不正确地预测否定类别的结果。

当机器学习模型生成假肯定结果时，机器学习模型可能试图预测不可预测的结果，在本文中称为“不可推理的”。需要机器学习模型来预测特定结果，即使预测具有低置信度。当系统使用多个机器学习模型来达到最终结果时，用户不能够区分不同机器学习模型的各个结果与随后生成假肯定最终结果之间是否存在冲突。尽管存在变通方案(诸如，创建“其他”类别的结果)，但是这些方法不在二进制分类中起作用。

发明内容

根据本公开的一个实施例，提供方式，其中方法、系统和程序产品标识多个模型以测试数据集。多个模型中的每个模型产生对应于多个目标中的一个目标的多个预测中的一个预测。该方法、系统和程序产品响应于对照多个模型中的每个模型来测试数据集来检测该多个预测之间的一个或多个冲突。所述方法、系统和程序产品响应于检测到所述一个或多个冲突，报告测试的不可推理的结果。

根据本公开的另一实施例，提供了方式，其中方法、系统和程序产品由模型中的第一模型生成对应于多个目标中的第一目标的强第一预测。该方法、系统和程序产品由模型中的第二模型生成对应于多个目标中的第二目标的强第二预测。然后，响应于确定第一目标不同于第二目标，方法、系统和程序产品生成不可推理的结果。

根据本公开的又一实施例，提供了方式，其中方法、系统和程序产品基于第一平均值加上对应于第一模型的第一概率曲线上的两个标准差面积来确定强第一预测，并且基于第二平均值加上对应于第二模型的第二概率曲线上的两个标准差面积来确定强第二预测的方法。

根据本公开的又一实施例，提供了方式，其中方法、系统和程序产品基于训练数据集来构建多个模型。该方法、系统和程序产品针对多个模型中的每个模型来计算多个模型评估度量中的一个模型评估度量，该模型评估度量测量多个模型中的一个模型的性能。然后，该方法、系统和程序产品基于多个模型的对应的模型评估度量，从多个模型中选择(K个)模型子集，其中，K个模型包括重要特征集。

根据本公开的又一实施例，提供方式，其中方法、系统和程序产品将对应于K个模型的重要特征集进行排序。方法、系统和程序产品基于排名标识独特特征集。对于独特特征集中的每个独特特征集，方法、系统和程序产品选择独特特征集中的一个独特特征集，并且移除训练数据的、对应于所选择的独特特征的部分。方法、系统和程序产品在训练数据的子集上测试K个模型中的每个模型，该训练数据的子集排除训练数据的所移除的部分。该方法、系统和程序产品将所选择的K个模型指定为S个模型集中的一个模型，并且在数据集的测试期间，利用S个模型集来检测一个或多个冲突。

根据本公开的又一实施例，提供了方式，其中方法、系统和程序产品确定该S个模型集中的每个S模型的置信度阈值。方法、系统和程序产品然后利用置信度阈值来确定多个预测中的一个或多个预测是否是强预测。

根据本公开的又一实施例，提供了方式，其中方法、系统和程序产品确定多个预测包括多个强第一预测，强第一预测格子对应于多个目标中的第一目标。方法、系统和程序产品确定多个预测包括单个强第二预测，该单个强第二预测对应于多个目标中的第二目标。然后，响应于确定第一目标不同于第二目标，方法、系统和程序产品报告不可推理的结果。

前述内容是概述，并且因此必然包含细节的简化、概括和省略；因此，本领域的技术人员将认识到该概述仅是说明性的并且不旨在以任何方式进行限制。仅由权利要求所限定的本公开的其他方面、创造性特征、和优点将在以下所阐述的非限制性详细说明中变得清楚。

附图说明

通过参考附图，本公开可以被更好地理解，并且其多个目的、特征和优点对于本领域技术人员变得明显，其中：

图1是可以实现本文所描述的方法的数据处理系统的框图；

图2提供了图1中所示的信息处理系统环境的扩展，以示出本文所述的方法可以在联网环境中操作的各种信息处理系统上执行；

图3是描绘生成机器学习模型、选择机器学习模型的部分以用于冲突分析、以及使用所选择的机器学习模型来确定输出结果是否是不可推理的系统的示例性图；

图4是描绘评估预测模型并且选择用于冲突分析的最佳预测模型所采取的步骤的示例性流程图；

图5是描绘在留一(“leave one out”)交叉验证过程中选择模型组用于冲突分析的所采取的步骤的示例性流程图；

图6是描绘在运行时过程期间以确定在冲突分析期间是否出现任何强冲突的所采取的步骤的示例性流程图；

图7是描绘包括特征集和目标的训练数据的示例性示图；

图8是描绘针对S模型的置信度阈值的示例性图；

图9是描绘预测模型决策树的示例性图，该预测模型决策树包括强预测置信度节点和弱到中等预测置信度节点的；以及

图10是描述各种得分数据模型结果的示意图。

具体实施方式

本文中使用的术语仅用于描述具体实施例的目的，而并非旨在限制本公开。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包括”和/或“包含”时，其指定所述特征、整体、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其组合的存在或添加。

以下权利要求中的所有部件或步骤加上功能元素的对应结构、材料、动作和等效物旨在包括用于结合如具体所要求保护的其他所要求的保护的元素来执行功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了对本公开的描述，但并不旨在是详尽的或限于所公开形式的本公开。在不背离本公开的范围和精神的情况下，许多修改和变型对于本领域普通技术人员来说是明显的。选择和描述实施例以便最好地解释本公开的原理和实际应用，并且使本领域的其他普通技术人员能够针对具有适合于预期的特定用途的各种修改的各种实施例来理解本公开。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质(或多个介质)，其上具有用于使处理器执行本发明的各方面的计算机可读程序指令。

计算机可读存储介质可以是有形设备，该设备可以保留和存储指令用于由指令执行设备使用。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不被解释为瞬态信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并且转发计算机可读程序指令用于存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如，Smalltalk、C++等)和过程程序设计语言(诸如，“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))而被连接至用户计算机，或者可以连接至外部计算机(例如，通过使用互联网服务提供方的互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得在经由计算机或其他可编程数据处理装置的处理器执行指令时，创建用于实现在流程图和/或框图的或多个框中所指定的功能/动作的部件。也可以将这些计算机可读程序指令存储在计算机可读存储介质中，这些指令引导计算机、可编程数据处理装置、和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的或多个框中所指定的功能/动作的方面的指令。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个框中所指定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。在一些备选实现中，框中所标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个框实际上可以作为一个步骤来完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以由专用的基于硬件的系统来实现，该专用的基于硬件的系统执行所指定的功能或动作或执行专用硬件与计算机指令的组合。以下详细说明将总体上遵循如以上所阐述的本公开的概述，在必要时进一步解释和扩展本公开的不同方面和实施例的定义。

图1示出信息处理系统100，其为能够执行本文所描述的计算操作的计算机系统的简化示例。信息处理系统100包括耦合到处理器接口总线112的一个或多个处理器110。处理器接口总线112将处理器110连接到北桥115，北桥115也被称为存储器控制器集线器(MCH)。北桥115连接到系统存储器120并且为(多个)处理器110提供访问系统存储器的部件。图形控制器125还连接到北桥115。在一个实施例中，外围组件互连(PCI)快速总线118将北桥115连接到图形控制器125。图形控制器125连接到显示设备130(诸如，计算机监视器)。

北桥115和南桥135使用总线119彼此连接。在一些实施例中，总线是直接媒体接口(DMI)总线，其在北桥115与南桥135之间的每个方向上以高速传输数据。在一些实施例中，PCI总线连接北桥和南桥。南桥135，也被称为输入/输出(I/O)控制器中枢(ICH)，是通常实现以比由北桥提供的能力更慢的速度操作的能力的芯片。南桥135通常提供用于连接各种组件的各种总线。例如，这些总线包括PCI和串行总线(“PCI Express”)、ISA总线、系统管理总线(SMBus或SMB)和/或低引脚数(LPC)总线。LPC总线通常连接低带宽设备，诸如引导ROM196和“传统”I/O设备(使用“超级I/O”芯片)。例如，“传统”I/O设备(198)可以包括串行和并行端口、键盘、鼠标和/或软盘控制器。南桥135中通常所包括的其他组件包括直接存储器存取(DMA)控制器、可编程中断控制器(PIC)和存储设备控制器，其使用总线184将南桥135连接到非易失性存储设备185(例如，硬盘驱动器)。

扩展接口155是将热插拔设备连接到信息处理系统的插槽。扩展接口155支持串行总线s和通用串行总线(USB)连通性两者，因为其使用USB和串行总线两者而连接到南桥135。南桥135包括USB控制器140，其向连接到USB的设备提供USB连通性。这些设备包括网络摄像头(相机)150、红外(IR)接收器148、键盘和触控板144、以及提供无线个域网(PAN)的蓝牙设备146。USB控制器140还提供与其他各种USB连接设备142的USB连通性，该其他各种USB连接设备诸如鼠标、可移动非易失性存储设备145、调制解调器、网卡、综合业务数字网(ISDN)连接器、传真机、打印机、USB集线器和许多其他类型的USB连接设备。尽管可移除非易失性存储设备145被示出为USB连接的设备，但是可移除非易失性存储设备145可以使用不同的接口(诸如，火线接口等)而被连接。

无线局域网(LAN)设备175经由PCI或串行总线172连接到南桥135。LAN设备175通常实现电气与电子工程师协会(IEEE)802.11标准的空中调制技术中的一个技术，其全部使用相同的协议来在信息处理系统100与另一计算机系统或设备之间进行无线通信。光存储设备190使用串行模拟电话适配器(ATA)(SATA)总线188连接到南桥135。串行ATA适配器和设备通过高速串行链路来通信。串行ATA总线还将南桥135连接至其他形式的存储设备(诸如，硬盘驱动器)。音频电路160(诸如，声卡)经由总线158连接到南桥135。音频电路160还提供与音频硬件相关联的功能，诸如音频线路输入和光学数字音频输入端口162、光学数字输出和耳机插孔164、内部扬声器166和内部麦克风168。以太网控制器170使用总线(例如，PCI或串行总线)连接到南桥135。以太网控制器170将信息处理系统100连接到计算机网络(诸如，局域网(LAN)、互联网和其他公共和专用计算机网络)。

虽然图1示出了一个信息处理系统，但是信息处理系统可以采取许多形式。例如，信息处理系统可以采取台式机、服务器、便携式计算机、膝上型计算机、笔记本计算机或其他形状因数计算机或数据处理系统的形式。此外，信息处理系统可以采取其他形式的因素(诸如，个人数字助理(PDA)、游戏设备、自动柜员机(ATM)、便携式电话设备、通信设备或包括处理器和存储器的其他设备。

图2提供了图1所示的信息处理系统环境的扩展，以示出本文所述的方法可以在联网环境中操作的各种信息处理系统上执行。信息处理系统的类型范围从诸如手持式计算机/移动电话210的小型手持式设备到诸如大型计算机270的大型机系统。手持式计算机210的实例包含个人数字助理(PDA)、个人娱乐设备，诸如移动图像专家组层3音频(MP3)播放器、便携式电视和光盘播放器。信息处理系统的其他实例包括笔或平板、计算机220、膝上型或笔记本计算机230、工作站240、个人计算机系统250和服务器260。图2中未单独示出的其他类型的信息处理系统由信息处理系统280表示。如图所示，各种信息处理系统可以使用计算机网络200而被联网在一起。可以用于互连各种信息处理系统的计算机网络类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其他无线网络和可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储器(诸如，硬盘驱动器和/或非易失性存储器)。图2中所示的信息处理系统的实施例包括分离的非易失性数据存储器(更具体地，服务器260利用非易失性数据存储器265，大型计算机270利用非易失性数据存储器275，以及信息处理系统280利用非易失性数据存储器285)。非易失性数据存储器可以是在各种信息处理系统外部的组件，或可以在信息处理系统中的一个信息处理系统内部的组件。此外，可以使用各种技术在两个或更多个信息处理系统之间共享可移动非易失性存储设备145(诸如，将可移动非易失性存储设备145连接到信息处理系统的USB端口或其他连接器)。

如以上所讨论的，机器学习模型总是需要预测结果并且因此有时生成假肯定结果。图3至图10描绘了可以在信息处理系统上执行的方法，该信息处理系统确定两个不同的机器学习模型是否针对两个不同的目标生成不同的强预测。当这种情况发生时，该方法产生并且不可推理的结果。如下面详细讨论的，该方法使用训练数据来构建具有不同参数设置和/或模型类型的N个模型。针对每个模型，该方法计算用于分类预测置信度的阈值，并且选择模型集用于冲突分析(S个模型)。然后，该方法使用S个模型来分析得分数据，并且如果S个模型针对不同目标生成强预测，则该方法输出不可推理的结果。

图3是描绘生成机器学习模型、选择机器学习模型的部分以用于冲突分析、以及使用所选择的机器学习模型来确定输出结果是否是不可推理的系统的示例性图。

系统300使用训练数据302来生成预测模型305、310、315和320的初始集。系统300使用模型评估和初始选择阶段330来开始模型选择阶段325，以选择前K个模型335。在模型评估和初始选择阶段330期间，系统300使用度量来评估分类模型，诸如使用百分比校正分类(PCC)和/或混淆矩阵。百分比校正分类(PCC)测量总体准确度，并且每个误差具有相同的权重。混淆矩阵也测量准确度，但是在错误之间进行区分(例如，假肯定、假否定和正确预测)。

类似地，系统300可以使用度量以评估回归模型，诸如R平方、平均误差、均方误差(MSE)、中值误差、平均绝对误差和/或中值绝对误差。R平方产生范围在0与1之间的拟合优度度量，其中较高值指示模型的较高相干性和预测能力。平均误差是预测值与实际值之间的数值差。当数据中存在许多异常值时，均方误差(MSE)可以为优选方法。中值误差是预测值与实际值之间的所有差的平均值。平均绝对误差类似于平均误差，除了差的绝对值平衡掉数据中的异常值。中值绝对误差是预测和实际观察之间的绝对差的平均值。个体差具有相等的权重并且允许大的异常值影响模型的最终评估。

在选择前K个模型335之后，系统300随后执行留一交叉验证阶段340，以确定前K个模型345中的哪个模组应当被用于冲突分析。图5示出了留一交叉验证阶段340和S个模型345选择的详细步骤。置信度阈值计算阶段350确定S个模型345中的每个模型的强预测开始的阈值。置信度阈值计算阶段350可以使用多个计算置信度阈值或者将置信度阈值指派给给定模型的方法。例如，用户可以依赖于他/她的领域知识来设置置信度阈值，或者置信度阈值置信度计算阶段350将置信度阈值计算为均值+2std，其中“均值”是模型的平均置信度值，“std”是标准差。系统300然后将S个模型345及其相应的置信度阈值加载到运行时阶段355中，该运行时阶段355被示为模型M_1 365、M_2 370和模型M_S 375。

在运行时阶段355期间，由S个模型365、370和375中的每个模型分析得分数据360。冲突分析方380评估S个模型的结果并且确定输出395。当模型365、370或375的输出针对不同目标产生强预测(诸如，强预测“A”和强预测“B”)时，冲突分析方380生成不可推理的结果作为输出395。例如，如果模型M_1 365和模型M_2 370产生针对目标A的强预测，但是模型M_S375产生针对目标B的强预测，则冲突分析方380输出不可推理的结果(针对进一步的细节见图10得分数据结果1050和对应的文本)。

图4是描绘评估预测模型并且选择用于冲突分析的最佳预测模型所采取的步骤的示例性流程图。图4的过程开始于400处，随后在步骤410处，该过程使用训练数据302来建立n个预测模型。

在步骤420处，该过程计算模型评估度量并且选择前K个模型335。如上文所论述，可以使用多个方法来评估和选择前K个模型。例如，可以用于评估分类模型的度量包括百分比校正分类(PCC)和/或混淆矩阵。可以用于评估分类模型的度量包括R平方、平均误差、均方误差(MSE)、中值误差、平均绝对误差和/或中值绝对误差。

在预定义处理430处，处理对K个模型中的每个模型者执行留一交叉验证步骤，并且针对每个留一特征迭代选择顶部模型(S个模型)，从而产生多个S个模型(对于过程细节见图5和对应的文本)。

在步骤440处，该过程确定针对S个模型中的每个模型的置信度阈值。例如，具有显著高置信度的数据组是强的(诸如，>平均值+2*std)。(对于进一步的细节见图8和对应的文本)。在步骤450处，过程将S个模型345及其对应的置信度阈值加载到运行时阶段355中，并且此后图4的过程在495处结束。

图5是描绘在留一交叉验证过程中选择模型组(S个模型)用于冲突分析的所采取的步骤的示例性流程图。图5的过程在500处开始，随后在步骤510处，过程标识K个模型中的每个模型中的最重要特征335，并且在步骤520处，过程标识独特重要特征的总数目(S)。在一个实施例中，K个模型335中的每个模型可以具有稍微不同的最重要的特征集。在该实施例中，假设独特重要特征的总数目是S，该过程标记从1到S的总的最重要特征。

在步骤530处，该过程选择第一独特重要特征(“j”)。在步骤540处，该过程从训练数据中留下第j个特征。参见图7，在j＝1的第一迭代期间，该过程留下对应于训练数据302中的特征X1的列700。

在步骤550处，该过程对训练数据中的剩余特征来测试K个模型335中的每个模型。在步骤560处，该过程选择针对第j次迭代的K个模型中的最佳(例如，最准确的)模型并且将所选择的模型表示为M_j S模型345(例如，模型M_1)。

该过程确定是否已经处理独特重要特征中的每个独特重要特征(j＝S)(决定570)。如果还没有处理独特重要特征中的每个独特重要特征(j＝S)，那么决定570分支到‘是’分支，其循环回以选择和处理下一个独特重要特征。注意，对于下一次迭代，该过程返回先前留下的数据，因此仅特定的第j列数据被留下用于下一次迭代。这个循环继续，直到已经选择了独特重要特征中的每个独特重要特征，此时，决定570分支到退出循环的“是”分支。此后，图5过程在595处返回到调用例程(见图4)。

图6是描绘在运行时过程期间以确定是否生成不可推理的结果的所采取的步骤的示例性流程图。图6过程开始于600处，随后在步骤610处，过程接收得分数据集360。在步骤620处，该过程对照所选择的S个模型345中的每个模型(例如，冲突分析方380)来测试得分数据集。

在步骤630处，该过程分析来自S个模型的结果并且检查强目标预测冲突。参见图10，得分数据结果1000示出针对目标A在行1010中的单个强预测，并且因此，得分数据结果1000不具有冲突。然而，得分数据结果1050示出了针对行1060中的目标A的强预测，并且还示出了针对目标B的行1070中的强预测。因此，得分数据结果1050具有冲突。

该过程确定是否存在任何强预测冲突(决定640)。如果存在任何强预测冲突，那么决定640分支到‘是’分支，随后在步骤650处，该过程生成输出结果395作为不可推理的结果，并且此后图6的过程在660处结束。

另一方面，如果没有任何强预测冲突，那么决定640分支到‘否’分支，随后在步骤670处，该过程基于得分数据测试(例如，强推理目标A)来生成输出结果，并且此后图6的过程在695结束。

图7是描绘包括特征集和目标的训练数据302的示例性示图。图7示出了训练数据302，其包括行1至行n中的多个记录。每列700、710和720是也被称为“预测方”的特征。列730是包括针对各行的目标的目标列。图7中的示例示出了列730中的目标为分类目标。在一个实施例中，目标可以是连续变量目标或分类目标和连续变量目标的组合。

如本文所讨论的，模型选择阶段325使用训练数据302来创建初始预测模型，并且还执行留一交叉验证步骤，该步骤一次从一个特征列移除数据以最终选择S个模型345。

图8是描绘针对S个模型的概率置信度曲线和强置信度阈值的示例性图。图800示出了针对S模型M_1的概率置信度曲线。图800示出了在平均值+2标准差(置信度阈值805)处的强可推理A类预测810。

图820示出了针对S模型M_8的概率置信度曲线。图820示出了在平均值+2标准差(置信度阈值825)处的强可推理B类预测840。参见图10，得分数据结果1050，当得分数据360产生来自模型M_1的强预测A和来自模型M_8的强预测B时，冲突分析方380确定输出395是不可推论的。如本文中所讨论的，以及将置信度阈值805与置信度阈值825相比较，强置信度阈值水平可以在沿针对不同模型的不同概率曲线的不同位置处。

图9是描绘预测模型决策树的示例性图，该预测模型决策树包括强预测置信度节点和弱到中等预测置信度节点。决策树900对应于预测模型及其决策点。

在阈值置信度计算阶段350期间，对预测模型节点的个体置信度等级进行分析。图9示出了节点940、970和990对应于强预测置信度。如此，当对应的预测模型基于这些节点而做出确定时，该预测模型输出强预测推理。节点910、920、930、950、960和980对应于弱至中等的预测置信度。如此，当对应的预测模型基于这些节点做出确定时，该确定在冲突分析方面是不相关的，但是在不同的预测模型之间不存在强冲突时是相关的(针对进一步的细节见图6和对应的文本)。

图10是描述各种得分数据模型结果的示意图。得分数据结果1000示出模型M1至模型M8的列结果。行中的每个行对应于特定目标的强预测或弱预测。行1010、1020和1030包括在冲突分析期间所使用的强预测结果。可以看出，具有强预测结果的唯一行是行1010，其中，模型M1、M4、M7都在强预测A上一致。因此，得分数据结果1000不具有任何强目标预测冲突，并且输出395将指示强预测A推理。

然而，得分数据结果1050示出了强目标预测冲突。行1060示出模型M1、M4和M7针对目标A产生强目标预测。然而，行1070示出模型M8产生针对目标B的强目标预测(1075)。因此，得分数据结果1050将生成不可推理的输出，即使大多数强预测是针对目标A的。

虽然已经示出和描述了本公开的特定实施例，但是对于本领域技术人员明显的是，基于本文的教导，在不背离本公开及其更广泛的方面的情况下可以做出改变和修改。因此，所附权利要求将在其范围内涵盖在本公开的真实精神和范围内的所有这样的改变和修改。此外，应当理解，本公开仅由所附权利要求限定。本领域技术人员将理解，如果旨在特定数目的所引入的权利要求元素，那么将在权利要求中明确叙述这种意图，并且在没有这种叙述的情况下，不存在这种限制。作为非限制性示例，为了帮助理解，以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”来引入权利要求元素。然而，这种短语的使用不应当解释为暗示通过不定冠词“一个”或“一”引入权利要求元素而将包含这种所引入的权利要求元素的任何特定权利要求限制为仅包含一个这种元素的公开，即使当相同的权利要求包括引入性短语“一个或多个”或“至少一个”以及不定冠词“一个”或“一”时；这同样适用于定冠词的权利要求中的用途。

Claims

1.一种计算机实现的方法，包括：

标识多个模型以测试数据集，其中所述多个模型中的每个模型产生对应于多个目标中的一个目标的多个预测中的一个预测；

响应于对照多个模型中的每个模型来测试所述数据集，检测所述多个预测之间的一个或多个冲突；以及

响应于检测到所述一个或多个冲突，报告所述测试的不可推理的结果。

2.根据权利要求1所述的计算机实现的方法，其中所述多个模型包括第一模型和第二模型，所述方法还包括：

由所述第一模型生成对应于所述多个目标中的第一目标的强第一预测；

从所述第二模型生成对应于所述多个目标中的第二目标的强第二预测；以及

响应于确定所述第一目标不同于所述第二目标，生成所述不可推理的结果。

3.根据权利要求2所述的计算机实现的方法，其中所述强第一预测基于第一平均值加上对应于所述第一模型的第一概率曲线上的两个标准差置信度阈值，并且其中所述强第二预测基于第二平均值加上对应于所述第二模型的第二概率曲线上的两个标准差置信度阈值。

4.根据权利要求1所述的计算机实现的方法，还包括：

基于训练数据集来构建所述多个模型；

针对所述多个模型中的每个模型计算多个模型评估度量中的一个模型评估度量，所述多个模型评估度量测量所述多个模型中的一个模型的性能；以及

基于所述多个模型的对应的模型评估度量，从所述多个模型中选择K个模型的子集，其中所述K个模型的子集包括重要特征集。

5.根据权利要求4所述的计算机实现的方法，还包括：

将对应于所述K个模型的子集的重要特征集进行排名；

基于所述排名来标识独特特征集；

针对所述独特特征集中的每个独特特征集：

选择所述独特特征集中的一个独特特征集；

移除所述训练数据的、对应于所选择的所述独特特征的部分；

在所述训练数据的子集上测试所述K个模型的子集中的每个模型，所述训练数据的子集排除所述训练数据的所移除的所述部分；以及

基于所述测试来选择所述K个模型的子集中的一个模型；以及

将所选择的所述K个模型的子集指定为S个模型集的一个模型；以及

在所述数据集的所述测试期间，利用所述S个模型集来检测所述一个或多个冲突。

6.根据权利要求5所述的计算机实现的方法，还包括：

确定针对所述S个模型集中的所述S个模型中的每个模型的置信度阈值；以及

利用所述置信度阈值来确定所述多个预测中的一个或多个预测是否是强预测。

7.根据权利要求1所述的计算机实现的方法，还包括：

确定所述多个预测包括多个强第一预测，所述强第一预测各自对应于所述多个目标中的第一目标；

确定所述多个预测包括单个强第二预测，所述单个强第二预测对应于所述多个目标中的第二目标；以及

响应于确定所述第一目标不同于所述第二目标而报告所述不可推理的结果。

8.一种信息处理系统，包括：

一个或多个处理器；

存储器，所述存储器被耦合到所述处理器中的至少一个处理器；

计算机程序指令集，所述计算机程序指令集被存储在所述存储器中并且由所述处理器中的至少一个处理器执行以便执行根据权利要求1至7中任一项所述的方法的动作。

9.一种存储在计算机可读存储介质中的计算机程序产品，包括计算机程序代码，所述计算机程序代码在由信息处理系统执行时，使所述信息处理系统执行根据权利要求1至7中任一项所述的方法的动作。