CN102667775A

CN102667775A - 训练和使用具有关联规则模型的分类模型的方法

Info

Publication number: CN102667775A
Application number: CN2010800580740A
Authority: CN
Inventors: T·博林格
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-12-21
Filing date: 2010-12-07
Publication date: 2012-09-12
Anticipated expiration: 2030-12-07
Also published as: GB201212804D0; TW201142630A; DE112010004003T5; US8799193B2; CN102667775B; US20120239600A1; GB2490064A; WO2011076560A1

Abstract

本发明涉及一种训练和使用用于检测输入数据(具体地说，来自制造过程的输入数据)中的模式的分类模型的方法。所述模型的训练包含以下步骤：取回包含与多个实体关联的多个项目的先前记录的输入数据集合；以及向每个实体添加已知分类。此外，训练所述模型包含以下步骤：通过将每个实体的分类与该实体的相应项目关联而从所述先前记录的输入数据集合和所述已知分类来确定规则。所述模型的训练还包含以下步骤：确定可应用规则的集合；合计针对该实体所确定的规则的提升值；以及基于每个实体的所合计的相关值来预测分类。将所得到的合计提升值连同相应实体和分类一起用作标准分类算法的输入，该算法的结果为分类模型。

Description

训练和使用具有关联规则模型的分类模型的方法

背景技术

数据挖掘一般指用于从输入数据提取信息的数据驱动型方法。用于从输入数据提取信息的其它方法通常为假设驱动型，其中根据输入数据来证明一组假设为真实的或虚假的。

输入数据的量可为巨大的，且因此数据挖掘技术通常需要考虑如何有效地处理大量数据。考虑产品制造作为一个实例。其中，输入数据可包括与组件的产地及特征、在制造厂中对组件的处理、组件如何被组装在一起有关的各种数据片段。在制造上下文中的数据挖掘的目的可为解决与质量分析和质量保证有关的问题。数据挖掘可用于(例如)根本原因分析、用于制造厂内的预警系统，及用于减少保修索赔。作为第二实例，考虑各种信息技术系统。其中，数据挖掘可进一步用于入侵检测、系统监视及问题分析。数据挖掘亦具有各种其它用途，例如，在零售及服务中(其中可分析典型客户行为)，及在医学及生命科学中用于寻找临床研究中的因果关系。

模式检测是一门数据挖掘学科(discipline)。输入数据可包括若干事务集合，其中每个事务包含一个项目集合。可附加地排序这些事务。排序可基于时间，但备选地，可定义任何排序。例如，可赋予每个事务一个序号。对于事务数据而言，关联规则为描述项目如何在事务内出现的模式。

考虑项目集合I={I1、I2、……、Im}。假设D为事务集合，其中每个事务T为属于I的项目集合。如果

则事务T因此包含I中的项目集合A。关联规则为形式A=>B的蕴涵式(implication)，其中

且A∩B＝φ；A称为规则主体(rule body)且B为规则标题(rule head)。如果D中包含A的事务中的c%亦包含B，则关联规则A=>B在事务集合D中以信任度c有效。换言之，信任度c为条件概率p(B|A)，其中p(S)是发现S为D中的事务T的子集的概率。当D中s%的事务包含A∪B时，规则A=>B在事务集合D中具有支持度s。换言之，支持度s是在事务中出现集合A及集合B中的项目的并集的概率。规则的提升(lift)是规则信任度与预期信任度的商。规则的预期信任度是在以下假定下的信任度：在事务中规则标题项目与规则主体项目的出现在统计上彼此独立。其等于规则标题的支持度且表达了规则主体及规则标题中的项目之间的“吸引”程度。大于1的提升值意味项目彼此吸引，而小于1的值为排斥的指示。

关联规则挖掘的目标是准确地找到满足用户定义的准则的所有规则。用户可定义规则的最小支持度或信任度，因为对于一些应用而言非常罕见或松散地相关的事件可能不重要。用户亦可仅对特定项目感兴趣，且仅想要搜索包含这些感兴趣项目中的至少一个项目的模式。

已知的数据挖掘算法在某些情形中具有缺陷。取决于输入数据的量(在一些情况下多达数亿个直至数十亿个记录)及候选模式空间的大小，宽度优先搜索可为缓慢的，因为需要对原始数据源进行许多次扫描，且因为需要对照所有事务来评估每个候选模式。另一方面，深度优先搜索可由于大量输入数据而用完内存或(由于对照输入数据的大量评估)其可在输入数据被交换至磁盘时为缓慢的。另外，这些数据挖掘算法基于项目层级。由于很少可获得此类项目层级，所以必须首先确定项目层级。此类确定可为有缺陷的且可因此使算法的结果不被信任。

寻找用于预测分类“分类”值的分类模型为另一重要的数据挖掘问题。其实例包括预测客户是否将转向竞争者(例如，“流失预测”)、客户是否将对营销活动做出响应、产品(如汽车)是否将被准时、太迟或太早交付，或产品(如计算机芯片)是否有故障。为构建此类模型，将以历史数据开始，亦即，具有已知分类值的案例(例如，最近12个月的流失及非流失案例、测试营销活动的结果或具有交付时间值的生产数据)。可将这些历史数据收集于数据表中，所述数据表对于每个实体(如客户或产品)包含一个行，且具有用于分类值的一个列及用于实体的其它特性的若干列。

分类算法的任务是从这些其它列(例如，“自变量”)的值导出分类值(例如，“因变量”的值)，这经常称为分类模型的训练。为了进行流失预测及为了预测客户是否对营销活动做出响应，除关于客户的人口数据(如年龄、婚姻状况或居住地)之外，历史数据还可包括关于他或她作为顾客的行为的信息。为预测产品交付延迟，可包括关于产品的信息，如特定特征及关于生产过程的细节。

一旦已训练此类分类模型且其质量足够好(这可通过使用尚未被用于训练该模型的历史数据的子集来确定)，便可将其用于预测未来的案例。对于这些数据而言，仅自变量的值为已知的，而类别标签的值为未知的。通过将分类模型应用于这些数据来确定“预测”值。此步骤亦称为模型的“计分(scoring)”。对于流失预测而言，以此方式确定可能在不久的将来流失的客户，对于营销活动而言，确定潜在的响应者，且对于产品交付而言，确定交付日期的较好估计。

大多数分类算法要求用于训练模型的输入表对于每个实体包含一个行。然而，具有历史信息的可用数据表可能对于每个实体包含一个以上的行，这使得有必要预处理并转换输入数据以满足此要求。

这是当关于实体的信息的一部分被包括在事务中时的状况。具有事务的表具有至少2个列(用于实体的id的一列及具有分类值的“项目”列)。对于包含哪些物品已被哪些客户购买的信息的销售事务数据而言，客户id将对应于实体id，且项目列将包含被购买的物品的id。此类表可包含具有有用信息的额外列。对于销售事务数据而言，这可为物品的购买日期或价格及数量。可在单独的表中定义客户至分类值映射。除事务中所包括的那些信息之外的额外信息(如客户的人口信息或产品的特定特征)亦为可用的。然而，由于此无关于本发明，所以假定仅一个事务集合及实体至分类值为可用的。

一种用于解决此问题的方法是从事务表创建一个新表，其包含用于实体id的一个列及用于项目列的每个可能分类值的一个列。对于一给定的实体及一分类值而言，对应列的值可为1(如果事务数据包含此记录)及可为0(如果并非此状况)。对于此表而言，列的数目将为1+项目列的不同分类值的数目。此方法对于较少数目的不同分类值而言起到很好的作用。然而，对于例如具有数百个可能的产品特征及生产步骤的制造领域或具有甚至数千个在超级市场中出售的不同物品(item)的零售领域之类的领域而言，此方法变得效率低下(如果并非不可行)。

在此情形中，分别在项目列的分类值上分类(taxonomy)的层级可通过仅针对分类中的较高概念创建列而有帮助。一个实体的对应列的值可为项目列中属于该较高概念的关联分类值的数目。

然而，如果此类层级缺失或该层级未反映关于分类问题的适当分割，则结果将为具有不良质量的分类模型。后一种情况可(例如)在质量问题由属于不同类别的特征的特定组合引起的情况下发生。其亦可在营销活动推广有机食品而产品层级未反映产品的此特性的情况下发生。

因此，需要一种克服上文结合已知数据挖掘技术所提及的问题中的至少一些问题的用于确定输入数据中的模式的有效方法。具体地说，存在对能够处置标准分类模型的不含项目层级的分类模型的需求。另外，新模型在处理速度、内存消耗及必要的计算资源方面应更有效率。

发明内容

本发明的一个目标为提议一种新方法，其处理上文所提及的与解决分类数据挖掘问题关联的问题。

此目标通过独立权利要求来实现。在附属权利要求中详述有利的实施例。

根据本发明，提供一种训练用于检测输入数据中的模式的分类模型的方法，所述输入数据包含与多个实体关联的多个项目。所述方法包括：取回包含与多个实体关联的多个项目的先前记录的输入数据集合；以及向每个实体添加该实体的已知分类。此外，所述方法包括：通过将每个实体的分类与该实体的相应项目关联而从所述先前记录的输入数据集合及所述已知分类来确定规则。所述方法接着从所述先前记录的输入数据集合及所述已知分类来确定规则，其中规则将每个实体的分类与该实体的相应项目关联且每个规则包含属性集合。

将先前记录的数据用于训练所述方法。训练所述方法包括生成规则集合。先前记录的数据包含若干实体，对应于所述实体的若干项目，及实体的分类。应注意，同一项目可对应于两个独立实体。通过将实体的所记录的结果或分类与实体的所记录的项目关联来创建所述规则。将一个或多个项目保存在规则主体中，而将分类保存在规则标题中。如前文所述，一个项目可对应于不同实体且因此亦可对应于不同分类。因此，可能情况为，具有将某一项目链接至一个分类的一个规则，而在另一规则中，同一项目可链接至不同分类。如果为此状况，则需要区分这些规则的强度。这通过规则的属性来完成。所述属性包括规则主体与规则标题之间的提升值。此外，所述属性可包含支持度值及信任度值。支持度值对应于规则主体的项目被规则标题的分类支持的实体的百分比。信任度值对应于具有该分类的项目的信任度。

根据本发明，模型的训练进一步包括：针对每个实体而确定可应用哪些规则；以及针对每个实体而合计针对该实体所确定的规则的提升值。将所得到的合计提升值连同关于相应实体和分类的信息一起用作标准分类算法的输入。最终结果为分类模型。

根据本发明，提供用于检测输入数据中的模式的关联规则数据挖掘模型的使用，所述输入数据包含与多个实体关联的多个项目。对新数据使用所训练的模型包含以下步骤：针对每个实体而检查规则集合以确定可应用哪一规则。此外，所述方法包含以下步骤：针对每个实体而合计针对该实体所确定的规则的提升值；以及基于每个实体的所合计的提升值及分类模型而针对每个实体来预测分类。可以将可应用于每个实体以及在规则标题中具有相同分类的规则分组在一起。可以将组中的规则的提升值彼此相乘。

通过本发明，可以为了特定分类问题而定制数据挖掘方法。对于可能出现的每个规格问题而言，可确定特定规则集合。允许选择这些规则使能根据给定情况调整模型。组合来自规则集合的不同规则使得能够对模型进行大范围的精细调节。某一规则组合可特别适合用于某一规格，而不同的组合可能不适合。此外，亦可关于即将到来的特定实体而组合这些规则。再一次，不同规则组合的大量数目允许对模型进行非常敏感的精细调节以最佳地处理分类问题以及即将到来的实体。

以此方式使用关联规则模型使事务的项目的原本必要的层级变得过时。通过使用具有在项目层级处训练的规则的模型，此数据挖掘方法在速度、所需的计算资源及内存消耗方面可更有效率(与目前最新技术水准的文献相比，尤其当无层级可用时)。由于使用的简单性，本模型可容易地处置数亿个或甚至数十亿个记录。此外，分类结果的质量可更好。

根据本发明的另一方面，确定可应用规则集合的步骤进一步包括：检查所述实体的项目；以及确定所述规则集合中在规则主体中具有所述项目的规则。

根据本发明的又一方面，合计所述规则的步骤进一步包括：将在所述规则标题中具有相同分类的所确定的规则分组；以及将具有相同标题的规则的提升值彼此相乘。

针对新数据集合的某一实体，确定所有可应用的规则。在此优选实施例中，现在取决于规则标题中的分类而将可应用的规则分组。将具有相同分类的规则分组在一起。将每个组的提升值相乘给出了实体的分类的指示。具有最高合计提升值的组的分类是实体的最有可能的分类。

根据本发明的又一方面，将所确定的规则分组的步骤进一步包括：仅将提升值高于预定阈值的那些规则分组。

仅将关联值高于预定阈值的那些规则分组允许关于即将到来的特定分类问题而进一步精细调节所述方法。用于精细调节所述方法的方式之一为仅使用具有对类别的相对较高提升值的规则。所得到的提升值乘积将给出对所测试实体的某一分类的可能性的进一步了解。

所属技术领域的技术人员知道，本发明的各方面可以实现为系统、方法或计算机程序产品。因此，本发明的各方面可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是（但不限于）电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括（但不限于）电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括（但不限于）无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的各方面操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或方块图描述本发明的各方面。应当理解，流程图和/或方块图的每个方块以及流程图和/或方块图中各方块的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或方块图中的方块中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置或其他设备以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或方块图中的方块中规定的功能/操作的指令装置(instruction means)的制品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或方块图中的方块中规定的功能/操作的过程。

附图说明

在附图中示出了本发明的优选实施例。这些实施例只是示意性的，即，它们并非旨在限制所附权利要求书的内容和范围。

图1示出训练所要求保护的模型的流程图；

图2示出使用所要求保护的模型的流程图；

图3示出用于训练检测模式的分类模型的计算机系统的方块图；以及

图4示出用于对输入数据应用分类模型的计算机系统的方块图。

具体实施方式

图1是示出所要求保护的方法的训练的流程图。流程图的步骤100包括收集训练数据。所述训练数据代表实体集合，每个实体与一个项目集合关联。训练数据通常包含一组数据表项，每个数据表项包含实体识别符及一个项目识别符。另外，训练数据包含实体的分类。取决于应用的领域，术语实体、项目及分类可指代不同信息。对于客户分类而言，实体为客户且项目为客户购物篮中的物品。对于制造过程而言，分类可用于检测生产差错。在此方面，实体将为产品id且项目可为在生产期间的离散化的温度、湿度、原料的供货商等。其它应用可针对电话公司客户，其中可存储客户的呼叫记录。所述方法亦可应用于呼叫中心记录的文字列表，其中项目可为呼叫中心代理在与客户谈话期间所使用的某些字。

作为一个实例，应用的领域可为计算机芯片的生产线。考虑确定计算机芯片生产线的故障输出的可能原因的问题。在制造过程期间，测量大量参数。这些参数可包括温度、每立方米粉尘数目，及交付半导体材料的公司名称。在对所生产的芯片的随后测试中，测量芯片中是否存在任何逻辑错误。

在此特定实例中，每个芯片为数据集合中的实体。每个实体的数据集合中的项目为针对每个芯片的诸如温度、每立方米粉尘数目及交付半导体材料的公司名称的参数。分类反映了对每个所生产的芯片的测试的结果。两个例示性分类为“逻辑错误”和“无逻辑错误”。

在步骤100中，取回训练数据。可将训练数据存储于诸如下表的表中。训练数据表通常包含一个实体列及一个项目列。在此特定实例中，表的实体列为芯片id。出于简化的原因，将其称为芯片_l至芯片_5。第二列中为项目。在此状况下，其为用于生产芯片的生产参数且亦可包括芯片的特征。出于简单的原因，仅示出三个参数。

实体/芯片-ID

项目/参数

芯片_l	X℃
		芯片_l	Y ppm3
芯片_l	公司A
		芯片_2	X℃
芯片_2	Y ppm3
		芯片_2	公司B
芯片_3	X℃
		芯片_3	Z ppm3
芯片_3	公司C
		芯片_4	X℃
芯片_4	Y ppm3
		芯片_4	公司A
芯片_5	Y℃
		芯片_5	Y ppm3
芯片_5	公司D

表1

在步骤101中，将每个实体的已知分类存储于另一数据表中。

实体/芯片-ID	类别/分类
		芯片_l	NLE(无逻辑错误)
芯片_2	NLE
		芯片_3	LE(逻辑错误)
芯片_4	NLE

芯片_5

LE

表2

对于此实例而言，将已知分类存储于表2中。所述分类为无逻辑错误的NLE或逻辑错误的LE。因此，通过表1及2中的信息，知道芯片_l是在以下条件下生产：温度为X℃、具有Y ppm3的粉尘及使用公司A的原料；对芯片的随后的测试显示无逻辑错误。

在图1的步骤102中，将步骤101的表中所包含的实体的分类作为额外项目添加至步骤100的事务训练数据。这可通过计算步骤100及101的表的并集来完成。对于关联算法的应用而言，所得到的表的两列格式使用最广泛。下文可见对于此实例而得到的表。

表3

在图1的步骤103，将每个实体的分类与该实体的相应项目关联。要指出的是，步骤103为可选的。在此状况下，表3中属于实体芯片_l的参数中的每个参数与芯片_l的为无逻辑错误(NLE)的分类关联。因此，对于芯片_l而言，温度X℃与NLE关联。同样地，Y ppm的值亦与NLE关联。

在图1的步骤104，计算关联规则。每个规则包含规则标题及规则主体。实体的分类在规则标题中，而(原始)项目在规则主体中。此外，规则的额外属性是所关心的且因此被确定以便测量其对于每个规则的统计重要性。这些性质为每个规则的提升、信任度及支持度。

规则(a=>b)的支持度等于用事务的总数除事务a∪b的数目。

规则(a=>b)的信任度等于用其中(a)为规则主体的事务的数目除事务a∪b的数目。

规则(a=>b)的提升等于用规则(a=>b)的预期信任度除规则(a=>b)的信任度。规则的预期信任度为在以下假定下的信任度：在这些事务中在规则主体中的项目(在此状况下为“a”)及规则标题中的项目(此处为“b”)的出现在统计上彼此独立。

在此特定实例中，下表为步骤103及104的结果。

规则	主体	标题	提升	信任度	支持度
						X℃=>NLE	X℃	NLE	1.25	75.00%	60.00%
Y ppm3=>NLE	Y ppm3	NLE	1.25	75.00%	60.00%
						公司A=>NLE	公司A	NLE	1.67	100.00%	40.00%

公司B=>NLE	公司B	NLE	1.67	100.00%	20.00%
						X℃=>LE	X℃	LE	0.63	25.00%	20.00%
Z ppm3=>NLE	Z ppm3	LE	2.50	100.00%	20.00%
						公司C=>LE	公司C	LE	2.50	100.00%	20.00%
Y℃=>LE	Y℃	LE	2.50	100.00%	20.00%
						Y ppm3=>LE	Y ppm3	LE	0.63	25.00%	20.00%
公司D=>LE	公司D	LE	2.50	100.00%	20.00%

表4

在图1的步骤105中，确定可应用于训练模型的每个实体的所有规则。结果为下表5。出于简单性原因，仅对芯片_l及芯片_2进行此步骤。在模型的训练期间，对所有训练数据进行此步骤。

芯片_id	主体	标题	规则	提升
					芯片_l	X℃	NLE	X℃=>NLE	1.25
芯片_l	X℃	LE	X℃=>LE	0.63
					芯片_l	Y ppm3	NLE	Yppm3=>NLE	1.25
芯片_l	Y ppm3	LE	Y ppm3=>LE	0.63
					芯片_l	公司A	NLE	公司A=>NLE	1.67
芯片_2	X℃	NLE	X℃=>NLE	1.25
					芯片_2	X℃	LE	X℃=>LE	0.63
芯片_2	Y ppm3	NLE	Y ppm3=>NLE	1.25
					芯片_2	Y ppm3	LE	Y ppm3=>LE	0.63
芯片_2	公司B	NLE	公司B=>NLE	1.67

表5

接下来，合计每个实体的提升值。在此特定实例中，取决于规则标题而将可应用于芯片_l的规则分组。对于其它实体作相同处理。这发生于图1的步骤106中。为了合计提升值，在步骤106中针对具有相同规则标题的所有规则而相乘提升值。如果对在其规则标题中具有NLE的规则组进行此步骤，则将所得结果称为prodliftNLE。同样地，将规则标题中具有LE的规则组的所得值称为prodliftLE。

可关于不同规则组而重复步骤105及106。仅使用具有超过某一阈值(诸如，1及1.5的提升值)的提升值的那些规则是可能的且出于统计目的是有用的。如果第一所选阈值为1，则用于芯片_l的规则的高于1的提升值被根据其相应规则标题而分组且接着被相乘。将所得到的合计值称为prodlift10NLE及prodlift10LE。如果阈值为1.5，则仅用于芯片_l的规则的高于1.5的那些提升值被分组及相乘。接着，将所得到的合计值称为prodlift15NLE及prodlift15LE。下表示出针对芯片_l至芯片_5的此类计算的结果。

表6

在图1的步骤107中，将这些合计后的提升值用作分类算法的输入以确定能够区别两个分类NLE与LE的模型。在此特定实例中，测试“prodLiftNLE>2”区别了两个分类。通过所述规则集合及其属性、连同关于实体及其合计提升值的信息以及该区别测试，完成了分类模型的训练。

图2是示出对新数据集合应用所要求保护的模型的流程图。所述流程图的步骤200包括收集新数据集合。所述新数据集合包含实体(实体识别符)集合及每个实体的项目集合。实体的分类将通过所要求保护的方法来完成，因此在新数据集合中无实体的分类。

返回参看在计算机芯片的制造过程中的例示性操作领域，新数据集合可如下表。

实体/芯片-ID	项目/参数
		芯片_6	X℃
芯片_6	Y ppm3
		芯片_6	公司A
芯片_7	Y℃
		芯片_7	Z ppm3
芯片_7	公司D

表7

在图2的步骤201中，如果所有现有规则可应用于新数据集合，则检查所有现有规则。例如，对于芯片_6而言，在规则主体中具有X℃、Y ppm3及公司A的每个规则是可应用的。收集新数据集合的每个实体的可应用规则将产生下表。出于简单性原因，仅示出芯片_6的可应用规则。

芯片_id	主体	标题	规则	提升
					芯片_6	X℃	NLE	X℃=>NLE	1.25
芯片_6	X℃	LE	X℃=>LE	0.63
					芯片_6	Y ppm3	NLE	Y ppm3=>NLE	1.25
芯片_6	Y ppm3	LE	Y ppm3=>LE	0.63
					芯片_6	公司A	NLE	公司A=>NLE	1.67

表8

接下来，合计每个实体的提升值。在此特定实例中，根据规则标题而将可应用于芯片_6的规则分组。这发生于图2的步骤202。为了合计提升值，在步骤203中针对具有相同规则标题的所有规则而将提升值相乘。如果对在其规则标题中具有NLE的规则组进行此步骤，则将所得到的值称为prodliftNLE。同样地，将规则标题中具有LE的规则组的所得到的值称为prodliftLE。

可关于不同规则组而重复步骤202及203。仅使用具有超过某一阈值(诸如例如，1及1.5的提升值)的提升值的那些规则是可能的且出于统计目的是有用的。如果第一所选阈值为1，则用于芯片_6的规则的高于1的提升值被根据其相应规则标题而分组且接着被相乘。将所得到的合计值称为prodlift10NLE及prodlift10LE。如果阈值为1.5，则仅用于芯片_6的规则的高于1.5的那些提升值被分组及相乘。接着，将所得到的合计值称为prodlift15NLE及prodlift15LE。下表示出针对芯片_6的此类计算的结果。

表9

不同组的阈值可取决于模型的应用而变化。1、1.2、1.5及1.8的阈值亦可为可能的。此外，与图2中示出的方法类似，图1中示出的训练方法可包含分组步骤202和相乘步骤203。

在图2的最后步骤(步骤204)中，基于每个实体的合计提升值来预测分类。对于当前实例而言，表6的prodLift值清楚地趋向于NLE。此外，应用分类模型的区别测试。区别测试“prodLiftNLE>2”亦产生可将芯片_6分类为NLE的结论。因此，基于所要求保护的方法，可将芯片_6分类为属于类别NLE且不具有逻辑错误。

图3作为一个实例示出训练用于检测模式的分类模型的计算机系统300的方块图。计算机系统300包含输入组件310，其用于取回先前记录的输入数据集合（例如，表1中的训练数据）。如上所述，所述训练数据包含与多个实体关联的多个项目。计算机系统300还包含实体分类组件320，其用于向所述训练数据中的每个实体添加已知分类。组件320接收分类信息（例如，参见表2）作为输入并将每个实体的已知分类与该实体的相应项目关联。组件320的输出例如如表3所示。规则确定组件330用于根据基于组件320的输出的训练数据和已知分类而确定各种规则。

可应用规则确定组件340用于针对训练数据中的每个实体而确定可应用哪些规则。组件340接收所有可能关联规则和组件320的输出作为输入。合计组件350用于针对训练数据中的每个实体而合计组件340为该实体确定的规则的提升值。输出组件360将所得到的合计提升值（来自组件350）连同相应实体和分类（来自组件320）一起输出以作为标准分类算法380的输入。该标准分类算法的结果是分类模型390。

图4作为一个实例示出用于将分类模型380应用于输入数据的计算机系统400的方块图。输入数据的实体未被分类并且目标是借助分类模型380将这些实体分类。检查组件410用于针对输入数据集合中的每个实体而检查来自所述分类模型的规则集合以确定可应用哪些规则。来自组件410的输出例如是输入数据实体和可应用于每个实体的规则。合计组件420用于针对每个实体而合计为该实体所确定的来自所述分类模型的规则的提升值。通常在组件410中计算提升值，然后在组件420中合计这些提升值。预测组件430用于针对每个实体而基于所合计的提升值和所述分类模型来预测分类。合计组件420可包含分组组件422和相乘组件424。分组组件422用于针对输入数据中的每个实体而将在规则标题中具有相同分类的所确定的规则分组。相乘组件424用于将每个组的具有相同标题的规则的提升值彼此相乘。此外，用于训练分类模型的计算机系统300可包含分组组件422和相乘组件424。

附图中的流程图和方块图显示了根据本发明的各实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或方块图中的每个方块可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方块中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方块实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，方块图和/或流程图中的每个方块、以及方块图和/或流程图中的方块的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在所附权利要求书中，计算机化方法指其步骤由计算系统执行的方法，所述计算系统包含一个或多个处理器、内存构件及存储构件的合适组合。

虽然前文已参考本发明的特定实施例，但本领域技术人员应了解，可在不偏离本发明的原理及精神的情况下进行这些实施例的改变，本发明的范围由所附权利要求书限定。

Claims

1.一种训练用于检测输入数据中的模式的分类模型的计算机化方法，其中所述模型的训练包括以下步骤：

取回（100）包含与多个实体关联的多个项目的先前记录的输入数据集合；

向每个实体添加（102）已知分类；

从所述先前记录的输入数据集合和所述已知分类来确定（103，104）规则，所述规则将每个实体的分类与该实体的相应项目关联，其中每个规则包含属性集合；

针对每个实体而确定（105）可应用哪些规则；

针对每个实体而合计（106）针对该实体确定的所述规则的提升值；以及

将所得到的合计提升值连同关于相应实体和分类的信息一起用作（107）标准分类算法的输入，该算法的结果是分类模型。

2.如权利要求1的方法，合计步骤进一步包括：

针对每个实体，将在规则标题中具有相同分类的所确定的可应用规则分成相应的组；以及

将具有相同标题的规则的所述提升值彼此相乘。

3.如任一上述权利要求的方法，其中每个规则包含：

作为规则标题的分类；

作为规则主体的项目；以及

其中每个规则的所述属性集合包含：

提升值；

支持度值；或

信任度值。

4.一种用于将分类模型应用于输入数据的计算机化方法，其中所述输入数据包含与实体关联的多个项目，所述方法包括以下步骤：

针对该实体而检查（201）来自所述分类模型的规则集合以确定可应用哪些规则；

针对该实体而合计（202，203）为该实体所确定的来自所述分类模型的所述规则的提升值；以及

针对该实体而基于所合计的提升值和所述分类模型来预测（204）分类。

5.如权利要求4的方法，其中合计所述规则的步骤进一步包括：

将在规则标题中具有相同分类的所确定的规则分组（202）；以及

将具有相同标题的规则的所述提升值彼此相乘（203）。

6.如权利要求5的方法，其中将所确定的规则分组的步骤进一步包括：

仅将提升值高于预定阈值的那些规则分组（202）。

7.如任一上述权利要求的方法，其中所述输入数据是来自制造过程的数据。

8.一种计算机系统，其中所述计算机系统包括：

用于取回包含与多个实体关联的多个项目的先前记录的输入数据集合的构件；

用于向每个实体添加已知分类的构件；

用于通过将每个实体的所述分类与该实体的相应项目关联而根据所述先前记录的输入数据集合和所述已知分类来确定规则的构件，其中每个规则包含属性集合；

用于针对每个实体而确定可应用哪些规则的构件；

用于针对每个实体而合计针对该实体确定的所述规则的提升值的构件；以及

用于将所得到的合计提升值连同关于相应实体和分类的信息一起用作标准分类算法的输入的构件，该算法的结果是分类模型。

9.如权利要求8的计算机系统，其中所述计算机系统还包括：

用于根据所述用于针对每个实体而确定可应用哪些规则的构件的输出，而针对每个实体将在规则标题中具有相同分类的所确定的规则分成相应的组的构件；以及

用于将每个组的具有相同标题的规则的所述提升值彼此相乘的构件。

10.一种用于将分类模型应用于输入数据的计算机系统，其中所述输入数据包含与实体关联的多个项目，所述计算机系统包括：

用于针对该实体而检查来自所述分类模型的规则集合以确定可应用哪些规则的构件；

用于针对该实体而合计为该实体所确定的来自所述分类模型的所述规则的提升值的构件；以及

用于针对该实体而基于所合计的提升值和所述分类模型来预测分类的构件。

11.如权利要求10的计算机系统，其中所述计算机系统还包括：

用于将在规则标题中具有相同分类的所确定的规则分组的构件；以及

12.一种计算机程序产品，其包含具有计算机可用程序代码的计算机可用介质，其中所述计算机可用程序代码适于执行如权利要求1至3的方法。

13.一种计算机程序产品，其包含具有计算机可用程序代码的计算机可用介质，其中所述计算机可用程序代码适于执行如权利要求4至7的方法。

14.一种计算机系统，其中所述计算机系统包括：

输入组件，用于取回包含与多个实体关联的多个项目的先前记录的输入数据集合；

实体分类组件，用于向每个实体添加已知分类；

规则确定组件，用于通过将每个实体的所述分类与该实体的相应项目关联而根据所述先前记录的输入数据集合和所述已知分类来确定规则，其中每个规则包含属性集合；

可应用规则确定组件，用于针对每个实体而确定可应用哪些规则；

合计组件，用于针对每个实体而合计为该实体确定的所述规则的提升值；以及

输出组件，用于将所得到的合计提升值连同关于相应实体和分类的信息一起用作标准分类算法的输入，该算法的结果是分类模型。

15.如权利要求14的计算机系统，其中所述计算机系统还包括：

分组组件，用于根据所述可应用规则确定组件的输出而针对每个实体将在规则标题中具有相同分类的规则分成相应的组；以及

相乘组件，用于将每个组的具有相同标题的规则的所述提升值彼此相乘。

16.一种用于将分类模型应用于输入数据的计算机系统，其中所述输入数据包含与实体关联的多个项目，所述计算机系统包括：

检查组件，用于针对该实体而检查来自所述分类模型的规则集合以确定可应用哪些规则；

合计组件，用于针对该实体而合计为该实体所确定的来自所述分类模型的所述规则的提升值；以及

预测组件，用于针对该实体而基于所合计的提升值和所述分类模型来预测分类。

17.如权利要求16的计算机系统，其中所述计算机系统还包括：

分组组件，用于将在规则标题中具有相同分类的所确定的规则分组；以及