CN1278345A

CN1278345A - 在线数据库挖掘

Info

Publication number: CN1278345A
Application number: CN98810865A
Authority: CN
Inventors: 钱德雷·阿加沃; 俞士纶
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-11-04
Filing date: 1998-09-29
Publication date: 2000-12-27
Anticipated expiration: 2018-09-29
Also published as: TW505868B; JP3575602B2; DE69809964T2; KR100382296B1; US6092064A; CN1138222C; EP1034489B1; HK1033987A1; AU9272698A; HUP0100161A2; JP2001522095A; PL340380A1; CA2304646C; AU750629B2; DE69809964D1; CZ294171B6; KR20010031687A; EP1034489A1; CA2304646A1; HUP0100161A3

Abstract

提供的计算机方法用于在线挖掘定量相关规则,它具有两个阶段,一个预处理阶段随之以一个在线规则生成阶段。预处理阶段可以减少所需计算量,预处理阶段用于预先处理数据以便组织前趋属性之间的关系而建立一个按照层次结构排列的多量纲索引结构。所得结构便于完成第二阶段即在线处理,它涉及定量相关规则的生成。第二阶段,即在线规则的生成,利用由预处理阶段所建立的多量纲索引结构,首先找到对应于规则的数据区,然后使用一个合并步骤来建立一个合并树以便小心地合并感兴趣区域从而给出规则集的层次结构表示。合并树然后用于实际地生成这些规则。

Description

在线数据库挖掘

本发明一般涉及大型数据库中的在线搜索数据相关性(数据挖掘)。

数据挖掘(mining)，亦称为数据库中的知识发现，它已被认为是数据库研究中的一个新领域。在过去二十年内以电子形式存储的数据的数量飞速增加。电子数据收集设备例如销售点或远程传感设备的日益增加的用途促使可用数据数量的爆炸性增长。当大量计算能力和存储资源以日益降低的成本提供使用时，对于商业机构而言数据存储变为更容易和更具有吸引力。

当很多注意力集中在数据积累上时，也补充地需要知道如何利用这些有价值的资源。商界已经意识到使用所存储数据的决策者可以耐心搜集有价值的内容。通过使用来自条码公司的数据或来自产品目录公司的销售数据，有可能得到有关顾客购买习惯的有用信息。例如零售商可以使用得到的信息来确定超市中哪些货物上架或在其他事情之外设计一个远大目标的市场计划。利用恰当的分析技术可以自数据中发现许多有意义的内容。就普遍情况而言，数据挖掘与数据分析和软件技术的使用有关，用于找出数据集内的模式和规律。数据挖掘的目的是分离出数据中可辨别的模式和趋向并从这些模式中推断相关规则。

数据挖掘技术的特征在于对大量数据的大量计算。大型数据库可定义为包含一百万或更多个记录。在一个典型应用中，末端用户测试相关规则，例如：‘购买可乐的顾客中75％也购买炸玉米片“，其中75％是指规则的信任度系数。规则的支持度是既包含可乐又包含炸玉米片的事务的百分比。

现在现有技术还没有解决在线挖掘的问题，但却集中在一种itemset方案上。该itemset方案的明显缺点是当用户在支持度和信任度的不同值的情况下为相关规则测试数据库时，必须多次检索数据库，可能高达京字节的数量级。对于非常大的数据库，这可能涉及相当数量的I/O以及在有些情况下它可能导致在线查询中无法接受的响应时间。用户必须在一个数据库上进行多次查询，因为很难预先猜测有多少规则可能满足支持度和信任度的给定水平。通常一个人可能只对几条规则感兴趣。这使问题更为困难，因为用户困可能要多次进行查询以便找出最小支持度和最小信任度的恰当水平从而挖掘规则。换言之，挖掘相关规则的问题可能要求在从事务数据库中耐心搜集有用商务信息之前通过重复查询来进行可观的手动参数调整。以上描述的挖掘处理方法因此不适用于重复的在线查询，因为大量磁盘I/O或计算会导致无法接受的响应时间。为将数据挖掘能力扩展到因特网，需要动态在线方法而不是itemset方案的面向批处理方法。

因此，本发明提供一种在线挖掘大型数据库的方法，该数据库具有大量记录，每个记录具有多个定量和分类项目，用于提供定量相关规则，包括以下步骤：

a)接收一个用户确定的最小信任度值，一个用户确定的最小支持度值，一个用户确定的兴趣水平值和一个包括前趋和后继属性的用户查询；

b)组织所述前趋和后继属性之间的关系；

c)预先存储用于确定所述前趋属性之间关系的数据及与所述后继属性有关的数据；及

d)响应于所述用户查询，从所述预先存储的数据中获得一个答案。

在一个优选实施例中，所述答案包括一个或多个定量相关规则，一个与每个规则相关的实际信任度值，一个与每个规则相关的实际支持度值及一个与每个规则相关的兴趣水平，其中一个或多个定量相关规则只包括那些感兴趣的规则(例如它们的计算的兴趣水平至少等于所述用户确定的兴趣水平)。

兴趣水平的一个方便和有效的定义是例如第一和第二计算比例的最小值，其中所述第一比例定义为实际信任度除以预期信任度及第二比例定义为实际支持度除以预期支持度，其中所述预期信任度和支持度是根据统计独立性的推论计算的。

在优选实施例中，所述前趋属性包括分类和定量属性，其中定量属性由包含低界限和高界限的范围所确定。

所述组织步骤最好包括将所述前趋数据在层次结构上划分为索引树，其中所述索引树包括多个索引节点，步骤如下：

a)存储所述索引树的每个索引节点的第一个值，以表示实际支持度；及

b)存储所述索引树的每个索引节点的第二个值，以表示每个用户查询的随后属性的出现频度。

在这一实施例中，可有效地如下地实施所述获得步骤：

i)搜索所述索引树的所有索引节点以便找出其前趋属性范围对应于所述用户查询的前趋属性范围的那些节点；

ii)从步骤i中找出的节点中选择其后继属性至少等于所述用户确定的最小信任度值的那些节点；及

iii)从步骤ii中找出的节点中建立合并树。

建立步骤最好还包括删除无意义节点和组合其他节点以便建立所述合并树，其中无意义节点是一个这样的节点，它的相应的计算的信任度值中没有一个至少等于所述用户确定的最小信任度值。可为单个也可为多个后继属性建立合并树。

在一个优选实施例中，所述接收步骤包括向一个计算机输入包括一个用户确定最小支持度值，一个用户确定最小信任度值，一个用户确定兴趣度值和一个包括前趋和后继条件的用户查询的数据，其中所述前趋和后继条件还包括多个定量和分类属性：

所述组织和预先存储步骤包括在存储器中构作一个包括一个或多个量纲的索引树的步骤，其中每个量纲由包含在所述前趋条件中的用户提供的定量属性中的一个所确定，所述索引树包括多个由多个数据记录组成的索引节点；还包括以下步骤：在存储器中从所述索引树中构作一个非合并规则树和从所述非合并规则树中构作一个合并规则树。

及所述获得步骤包括：

从那些满足所述用户查询及其支持度至少等于所述最小支持度及其信任度至少等于所述最小信任度的索引节点中生成一个或多个定量相关规则；及

向用户显示包含以下内容的输出数据：来自生成步骤的所述定量相关规则；与每个生成的定量相关规则有关的一个实际信任度值；与每个生成的定量相关规则有关的一个实际支持度值；及与每个生成的定量相关规则有关的一个兴趣水平值。

生成一个或多个定量相关规则的步骤可以重复以便交互地修改所述用户查询从而再确定所述相关规则。

构作索引树的步骤最好包括以下步骤：构作一个或多个量纲的二叉索引树，其中每个量纲由所述用户提供的定量前趋属性之一所确定；及在每个索引节点存储所述支持水平和信任水平。

构作非合并规则树的步骤最好还包括以下步骤：搜索所述索引树的每个节点；及选择包含能满足用户规定的随后条件及其信任度至少等于所述用户确定的最小信任度值及其支持度至少等于所述用户确定的最小支持度值的规则的那些节点。此后一选择步骤可由以下步骤完成：

构作一个指针；

将所述指针指向所述索引树中的根节点；

将与所述指针相关的所述节点增加到一个表中；

将由所述指针所指节点的所有子节点加入表中，并带有完全包含于所述用户规定的前趋属性参数中的前趋属性及带有至少等于所述用户确定的最小支持度的最小支持度值；

判定存储于由所述指针所指的节点中存储的数据记录是否至少等于用户规定的随后条件及是否具有一个至少等于所述用户确定的最小信任度的信任度；

生成一个与所述随后条件相关的定量相关规则；

当不满足以前步骤的条件时，自所述表中删除所述节点；

判定所述表是否空的；及

当所述表是空时结束，否则将所述指针指向所述索引树的下一个节点，并从所述将与所述指针相关的所述节点增加到表中的步骤开始，向前重复上述各步骤。

还希望建立合并规则树的步骤包括以下步骤：

a)后序遍历非合并规则树的每个节点；

b)估价每个所遍历节点以便通过以下步骤将其包括于非合并树内或将其排除掉：

i)判定每个所述用户确定的后继属性值是否大于存于所述节点处的后继属性值；

ii)当满足条件(i)时将所述节点保留于所述合并规则树中；

iii)当无法满足条件(i)及所述节点没有相关子节点时将所述节点从所述合并规则树中删除掉；

iv)当无法满足条件(i)及所述节点有一个子节点时将所述节点从所述合并规则树中删除掉并将所述删除节点的一个父节点与子节点直接关联起来；及

v)当无法满足条件(i)时调整所述后继属性的范围；其中所述估价步骤重复进行，直至已经后序遍历所有节点。

本发明还提供用于在线挖掘具有多个记录的大型数据库的设备，其中每个记录具有多个用于提供定量相关规则的定量和分类项目，包括；

a)用于接收一个用户确定的最小信任度值，一个用户确定的最小支持度值，一个用户确定的兴趣水平值和一个包括前趋和后继属性的用户查询的装置；

b)用于组织所述前趋和后继属性之间的关系的装置；

c)用于预先存储确定所述前趋属性及与所述后继属性有关的数据之间的关系的数据的存储器；及

d)响应于所述用户查询，用于自所述预先存储的数据中获得一个答案的装置。

从另一个方面看，本发明还提供一个用于在线挖掘具有多个记录的大型数据库的计算机执行过程，其中每个记录具有多个用于提供定量相关规则的定量和分类项目，该过程包括以下步骤：

向计算机输入包括一个用户确定的最小支持度值，一个用户确定的最小信任度值，一个用户确定的兴趣水平值和一个包括前趋和后继属性的用户查询的数据，其中所述前趋和后继条件还包括多个定量和分类属性；

在存储器中构作一个包括一个或多个量纲的索引树，其中每个量纲由包含于所述前趋条件中的用户规定定量属性之一所确定，所述索引树包括多个索引节点，其中所述索引节点还包括多个数据记录；

在存储器中从所述索引树中构作一个非合并规则树，后者包括多个索引节点，其中所述索引节点还包括多个数据记录；

在存储器中从所述非合并规则树中构作一个合并规则树，后者包括多个索引节点，其中所述索引节点还包括多个数据记录；

构作非合并规则树的步骤最好包括通过以下步骤搜索索引树的每个节点和选择合适节点的步骤：

i)构作一个指针；

ii)将所述指针指向所述索引树中的根节点；

iii)将与所述指针相关的所述节点增加到一个表中；

iv)将由所述指针所指节点的所有子节点加入表中，并带有完全包含于所述用户规定的前趋属性参数中的前趋属性及具有至少等于所述用户确定的最小支持度的最小支持度值；

v)判定由所述指针所指的节点中存储的数据记录是否至少等于用户规定的随后条件及是否具有一个至少等于由所述指针所指的节点的所述用户确定的最小信任度的信任度；

vi)生成一个与所述随后条件相关的定量相关规则；

vii)当不满足前一步骤的条件时，自所述表中删除所述节点；

viii)判定所述表是否空的；

ix)当所述表是空时结束；

x)当不满足步骤ix的条件时，将所述指针指向所述索引树的下一个节点；

xi)当不满足步骤ix的条件时重复iii至x各步骤。

建立合并规则树的步骤最好包括以下步骤：

a)后序遍历非合并规则树的每个节点；

b)估价每个所遍历节点以便通过以下步骤将其包括于非合并规则树内或将其排除掉：

ii)当满足步骤i)条件时将所述节点保留于所述合并规则树中；

iii)当无法满足步骤i)条件及所述节点没有相关子节点时将所述节点从所述合并规则树中删除掉；

iv)当无法满足步骤i)条件及所述节点有一个子节点时将所述节点从所述合并规则树中删除掉；

v)当无法满足步骤i)条件时调整所述后继属性的范围；

vi)当满足步骤iv)条件时，将所述删除节点的一个父节点与子节点直接关联起来；及

vii)重复步骤i)至vi)，直至已经后序遍历所有节点。

由于定量相关规则的在线挖掘的有效性能，此处描述的计算上有效的方案允许在一个数据库上在线查询以便利用用户提供的支持度水平和信任度水平作为预测器来估价相关规则的能力，并发现新的定量相关规则。一个相关规则一般可以定义为一个条件声明，它认定在它的两个分量部分，即前趋和后继之间存在着某些相关性。在一个定量相关规则中前趋和后继两者都由某些用户规定的定量和分类属性的组合所组成。与所建议的规则一起，用户提供三个附加输入，用于表示用户有兴趣的信任度和支持度水平及称为兴趣水平的值。这些输入提供一个由用户建议的(用户查询)规则的能力的标示，换言之，即认定的由用户查询确定的前趋和后继之间的相关性的能力。

为执行此方案，描述了一种方法，它利用前趋属性以便划分数据从而建立一个多量纲索引结构，因此将原始数据预处理，再后继以一个在线规则生成步骤。通过有效地将数据预处理为一个索引结构，就有一种形式适合于回答重复的在线查询而其响应时间几乎是瞬时的。一旦建立以后，该索引结构就不再需要在数据库上多次搜索。该索引结构创造了比先前技术优越性能的优点。索引结构(预处理数据)以这种方式存储，以便应用一种图理论搜索算法来完成在线处理，其中该算法的复杂程度正比于输出的大小。此导致一种在线算法，它的响应时间几乎是瞬时的，并且I/O或计算的多余工作量是最小的。

将参照附图通过例子详细地描述根据本发明的定量相关规则的在线数据挖掘方法，附图中：

图1是一个计算机网络的全面描述；

图2是一种数据挖掘方法的全面描述，该方法包括由图2(a)和图2(b)描述的两个阶段。图2(a)描述预处理阶段。图2(b)描述算法的在线阶段；

图3详细地描述如何使用前趋组来构作索引树。可以认为它是图2(a)中步骤75的扩展；

图4详细地描述如何从索引树中生成非合并规则树。可以认为它是图2(b)中步骤100的扩展；

图5描述如何从非合并规则树中建立合并规则树；及

图6描述如何在某些用户规定的兴趣水平r上从合并规则树中生成定量相关规则。

传统的数据库查询包括简单问题，例如“1995年在长岛地区橙汁的销量如何？”。与此相反，数据挖掘试图在数据中找出可分辨的模式和趋向并从这些模式中推断出规则。依靠这些规则，用户就能够支持，查阅和检查某些有关的商务或科学领域内的决策。例如考虑一个具有大量商品的超市。通常与操作有关的商务决策涉及销售什么，如何设计售货券和如何在架上摆放商品以便获取最大利润等。分析过去的事务数据是常用的改进这类决策质量的方案。先进技术有可能存储所谓basket数据，它在每件事务的基础上存储购买的商品。公司大量收集这类数据。问题是在具有某些最小规定信任度的商品组之间“挖掘”相关规则的basket型事务的大量收集内容。给定一组事务，其中每个事务是一组商品，相关规则是X＝＞Y形式的表达式，其中X和Y是商品组。相关规则的一个例子是：“包含啤酒的事务的30％也包含花纹织物；所有事务的2％包含这两个商品”。此处30％称为此规则的信任度，及2％称为此规则的支持度。

这类相关规则的另一个例子是以下声明：购买面包和黄油的顾客事务的90％也购买牛奶。此规则的前趋X包含面包和黄油及后继Y包含牛奶一件。90％是该规则的信任系数。可能希望例如找出在前趋中具有“硬面包圈”的所有规则，这将有助于确定如果该商店停止出售硬面包圈，什么商品(后继)可能受冲击。

给定一组原始事务D，挖掘相关规则的问题是找出其支持度和信任度大于用户规定的最小支持度(minsupport，s)和最小信任度(minconfidence，c)的所有规则。一般而言，规则X＝＞Y的支持度是顾客事务的百分比，或在一般化数据库中的包含X和Y两者的维数。在更正规的算术名词中，如事务组D中事务的s％包含X并集Y，即XVY，则规则X＝＞Y在事务组D中具有支持度s。规则X＝＞Y的信任度定义为包含X的事务中还包含Y的百分比。或者更正规地，如事务组D中事务的c％既包含X又包含Y，则规则X＝＞Y在事务组D中具有信任度c。因此如果一个规则具有90％信任度，则这意味着90％的事务既有X也有Y。

如以上所述，一个相关规则是形式X＝＞Y的表达式。例如，如果itemset中X和Y分别定义为：

X＝[牛奶和奶酪和黄油]

Y＝[鸡蛋和火腿]

则该规则可解释为：

规则：X＝＞Y，意味着在事务中给定牛奶、奶酪和黄油时，在某些给定的支持度和信任度水平上在相同事务中出现鸡蛋和火腿的概率。

规则的支持度和信任度集体地定义规则的能力。有很多方式供用户对这一系统使用一个规则以便测试其能力。这类系统能支持的在线查询的种类的不全面但有代表性的清单包括：

(1)找到所有在minsupport和minconfidence的一定水平以上的相关规则。

(2)在minsupport和minconfidence的一定水平上找到所有在前趋中具有商品组X的相关规则。

(3)在minsupport和minconfidence的一定水平上找到所有在后继中具有商品组Y的相关规则。

(4)在minsupport和minconfidence的一定水平上找到或在前趋中或在后继中或分布于前趋和后继之间具有商品组Y的所有相关规则。

(5)找到在以上(1)、(2)、(3)、(4)的情况中的任何一个中的相关规则/itemset的数量。

(6)在什么minsupport水平上确切地存在k个包含商品组Z的itemset。

本发明将发现用于从包含一组由不同定量和分类属性确定的原始事务D的大型数据库中找到定量规则的一般相关规则的方法具体化。

例如，一个通常的用于一般市场调查的定量/分类数据库包含一系列记录，其中每个记录反映顾客个性和爱好的组合；

记录(1)＝年龄＝21，性别＝男，户主＝否

记录(2)＝年龄＝43，性别＝男，户主＝是

记录(3)＝年龄＝55，性别＝女，户主＝否

一般而言，一个定量相关规则是一个条件，其形式如下；

一般规则：

X1[l1..u1]，X2[l2..u2]，..Xk[lk.uk]，Y1＝c1，Y2＝c2..Yr＝cr＝＞Z1＝z1，Z2＝z2

其中X1，X2，..Xk对应于定量前趋属性，及Y1，Y2，..Yr，和c对应于分类前趋属性。此处[l1..u1]，[l2..u2]，...[lk..uk]对应于不同定量属性的范围。Z1和Z2对应于一个多后继条件。

本发明要求用户提供三个带有建议的规则(或称为用户查询)的具有一对前趋/后继形式的输入。在建议的规则之外，用户还提供最小所需信任度值(minconfidence＝c)和最小所需支持度(minsupport＝s)以便测试建议的规则(用户查询)的能力。

最小信任度和最小支持度两者对于定量相关规则的发现以及对于一般相关规则的发现都有关系。作为一个典型用户输入的例子可以是：

例子A：典型用户输入

1.用户提供一个建议的规则以供测试(查询)

前趋条件后继条件

年龄[20-40]，工资[100k-200k]，性别＝女＝＞汽车＝2

2.用户为建议的规则提供一个信任度值，

称为Minconfidence，c。

Minconfidence＝50％

3.用户为建议的工资提供一个支持度值，

称为Minsupport，s。

Minsupport＝10％

图1是本发明体系结构的全面描述。假设有多个客户40，它们能在网络35上访问预处理的数据。预处理的数据位于服务器5处。在服务器端，可以有一个高速缓存25与预处理的数据一起。预处理和在线处理都在CPU 10中进行。此外，如数据存于盘上，则有一个盘15。

本发明包括两个阶段，一个预处理阶段，后继以一个在线处理阶段。图2显示预处理步骤以及算法的在线处理(规则生成)步骤的全面描述。预处理阶段涉及二叉索引树结构的构作，参见图2a的步骤75和图3(a)的有关详细描述。索引树是一个技术上众所周知的空间数据结构，它用作一个索引多量纲数据的手段。现有技术中的有关文章可在Proceedings of the ACM SIGMOD Conference中Guttman，A.的“用于空间搜索的动态索引结构”一文中找到。在本方法中，使用不同索引树结构来完成在线查询。利用前趋属性划分数据以便建立一个多量纲索引结构。索引结构是一个双层结构，其中高层节点与最多两个后继节点相关及低层节点可能具有多于两个后继节点。索引结构的构作对于完成有效的在线数据挖掘是关键性的。主要优点在于对用户查询作出响应中所需盘I/O操作最少。

图3(b)中以索引树的形式显示存于计算机存储器内的索引结构的图形模拟。一个索引树是一个众所周知的空间数据结构，用于将多量纲数据索引。在计算机存储器中为每个量纲建立一个单独的索引结构，由用户在在线查询中规定的具体定量属性所确定。图3(b)是一个索引树结构的特定例子，它表示前趋条件“Age”及其后继条件“FirstTimeBuyer”。为进一步澄清一个索引树的概念，图3(b)可以在下面例子中表示“Age”量纲。

例子B：样板用户查询

前趋条件后随条件

Salary[40k-85k]，Age[0-100]＝＞FirstTimeBuyer

一般而言，对于组成前趋和后继条件的定量和分类属性的数量或组合并无限制。

在图3(b)中，索引树结构的根节点确定用户规定的定量属性Age[0-100]。树中每个后继节点也表示定量属性Age，但在树层次结构中自顶向底的过程中此属性的范围逐渐变窄。例如，根节点Age[0-100]的二叉后继节点是Age[0-45]和Age[45-100]。本方法在索引树的每个节点处存储两个数据，用于表示感兴趣的信任度和支持度水平。例如，参照图3(b)，在根节点处，存储的两个数据包括：

1.信任度水平＝50％

2.支持度水平＝输入至原始数据库中的数据的函数

这些在根节点处确定用户查询的信任度和支持度，(前趋/后继对)，

Age[0-100]＝＞FirstTimeBuyer

图3(a)是图2中作为元素75阐述的算法的预处理阶段的详细流程图。此阶段的过程步骤涉及：生成二叉索引树结构，在结构的每个节点处存储后继属性的支持度和信任度水平，然后在结构的低层次上利用压缩算法来保证索引树能存进可用存储器中。步300是进入预处理阶段的入口点。步310表示用于实施过程步骤的软件，它使用一个二叉化算法以生成一个二叉索引树。在现有技术中，二叉化步骤已在下列文章中讨论过：AggarwalC.C.，WolfJ.，YuP.S.和EpelmanM.A.的“S树：一个用于多量纲索引树的有效索引树”，Symposium of Spatial databases，1997。然而，本方法与现有技术至少在一个方面不同。在步315，组织索引节点的入口方式是独一的，也即在结构中每个节点处存储了每个后继属性值的支持度水平和信任度水平两者。步320表示利用一个软件压缩算法以将低层次索引节点压缩为单个节点的过程步骤。

图4(a)是图2(b)中作为元素100描述的用于从索引树生成非合并规则树的初始搜索算法的详细流程图。该算法要求以下输入：用户规定的minconfidence，c值，minsupport，s值，和一个包含Querybox，Q的用户查询及一个或多个右侧值Z1＝z1，Z2＝z2。Querybox只是一个描述词，用于指出用户查询的左侧或前趋部分。为进一步澄清Querybox的意义，下面例子C描述在本方法中要求用户输入什么。

例子C：典型用户输入

用户规定：

(1.)一个最小信任度值[minconfidence，c]

(2.)一个最小支持度值[minsupport，s]

此外，要求在线用户输入一个具有项目3和4内容的一对(前趋/后继)形式的用户查询(建议的规则)。

(3.)一个Querybox，＂Q＂[前趋]

(4.)Z1＝z1，Z2＝z2，等[后继]

项目3，即Querybox，在下面例子中进一步加以描述，并一般包含定量和分类属性的任何组合。项目4，即后继属性，可包含一个或多个分类属性。

[例子1]：此用户规定的查询包含一个前趋条件querybox，它有两个量纲，Age和Lefthandedness，及单个分类后继条件asmoker。

Q u e r y b o x

Age[0-24]，Lefthanded＝＝＞asmoker

[例子2]：此用户规定的查询包含一个前趋条件querybox，它有两个量纲，Height和Income，及多个后继条件。

Q u e r y b o x

Height[5-7]，Income[10k-40k]＝＝＞ownsahome，ownsacar

[例子3]：此用户规定的查询包含一个前趋条件querybox，它有一个量纲，Age，及单个后继条件

Querybox

Age[10-43]＝＝＞asmoker

以上的例子C描述在本方法中由用户提供的作为输入的一般项目。下面例子D提供一个使用以上例子2中的用户查询的代表性例子，用于表示一个典型输入/输出结果看起来像：

例子D：典型用户输入

用户规定作为输入：

1.minconfidence＝.50

2.minsupport＝.4

3.querybox(前趋条件)＝Height[5-7]，Income[10k-40k]

4.感兴趣的后继条件＝ownsahome＝1，ownsacar＝1

从项目(3和4)形成用户查询：

Height[5-7]，Income[10k-40k]＝＝＞ownsahome，ownsacar

结果输出：生成的规则

Height[5.5-6.2]，Income[13k-27.4k]＝＝＞

ownsahome＝1，ownsacar＝1

一般而言，可以设想该输出可以不生成任何规则，可以生成一个规则或多个规则。在上面的例子中生成了一个规则。生成的规则被认为能分别在用户规定的信任度和支持度水平0.5和0.4上(前趋/后继对)满足用户查询。

用于从索引树生成非合并规则树的算法由图4(a)确定，它在索引树中逐个节点地搜索所有节点。步400是进入初始搜索算法的进入点。步410表示设置一个指向索引树的根节点的指针Currentnode的过程步骤。指针Currentnode始终指向该算法正在搜索的索引树中的特定节点。步420将LIST确定为一组节点，它们被认为将被搜索算法扫描的合格节点。在步420中将LIST初始化以便只包含根节点。步430表示以下过程：把由Currentnode指向的节点的所有子节点都加入LIST中，它与Querybox，Q相交，并具有一个至少等于用户提供的输入值minsupport，s的支持度。当所有与子节点相关的前趋条件全部包含于由Querybox确定的前趋条件中时，该子节点即认为是与Querybox，Q相交。步440是一个判定步骤，用于判定包含于CurrentNode中的个别数据记录是否至少在时间百分比c时满足后继条件Z1＝z1，Z2＝z2。如步440的条件可以满足，则算法进至步445。步445生成对应于右侧属性，后继条件组的规则。步450跟随于步440和445之后，并表示以下过程步骤：从LIST内删除Currentnode现正指向的节点并将指针Currentnode设置为指向LIST内包含的下一个节点。步460判定LIST是否为空，并当满足该判定条件时结束该算法，见步470。否则，算法回至步430，并为由指针CurrentNode现正指向的节点重复以上步骤。在结束算法后，输出一个非合并规则树，它包含输入索引树中所的有满足用户规定的最小支持度minsupport，s的节点。

图5(a)是描述从非合并规则树中构作合并规则树的过程的详细流程图。该流程图所描述的算法将非合并规则树压缩以便获得一个规则的层次结构表示。按照深度优先顺序遍历非合并规则树，其中在每个节点处判定该节点是否有意义。有意义节点被确定为一个具有一个与其相关的规则的节点。当建立非合并规则树时，一个规则不一定与一个节点相关连。为进一步澄清有意义节点与无意义节点之间的区别，回来参照图4(b)的非合并规则树，其中有意义节点对应于节点1、2和4。所有有意义节点都保留在合并规则树中。如一个节点被判定为无意义，则该算法或者消除该节点，或者当满足一定条件时将多个子节点合并为单个节点。

步500表示进入算法的进入点。步510表示用于实现按照深度优先顺序遍历非合并规则树的过程步骤的软件。步515表示在深度优先遍历时在非合并规则树中进至下一个节点的步骤。步520表示一个判定步骤，用于判定现有规则节点是否为一个有意义节点。当判定现有节点是有意义时步530有一个转移。否则算法转移至步540，从而将节点定为无意义。步540是一个判定步骤，用于判定该无意义节点是否有一个子节点。如该无意义节点没有子节点，则转移至步550。步550表示将现有的无意义节点删除的过程步骤。否则，在步540中如判定现有节点的确有一个子节点，则将转移至步560。步560是一个判定步骤，用于判定现有无意义节点是否有一个或多个子节点。如现有节点只有单个子节点，则转移至步570。步570表示用于实施以下过程步骤的软件：在索引树中删除现有节点及将所删除的无意义节点的父节点和子节点直接连接起来。否则，在现有节点具有多个子节点的情况下，转移至步580。步580是一个判定步骤，用于判定该两个子节点的最小界限矩形是否大于无意义父节点。最小界限矩形由每个子节点的定量属性的上和下界限(范围)确定。当子节点的范围合并起来并且比父节点的范围更宽时，发生合并。例如，如子节点曾确定为：

子节点1-age[10-20]

子节点2-age[30-40]及相应的父节点曾确定为：

父节点-age[10-30]

则在此例子中发生合并，因为子节点属性范围的组合产生一个组合的范围[10-40]，这比父节点规定的范围[10-30]宽。

如两个子节点的最小界限矩形超过父节点的最小界限矩形，则转移至步590。步590表示用于完成将父节点的最小界限矩形调整为两个子节点的最小界限矩形的过程步骤的软件。转移至判定步600，从而判定在该树中是否还有任何节点需要遍历。如没有更多节点需要遍历，则转移至结束步骤610，否则为其余索引节点重复过程步骤490-515。

图6是描述在用户规定的兴趣水平r上使用合并规则树作为输入以确定各规则的过程的详细流程图。按照深度优先顺序遍历合并规则树。步616是进入流程图的进入点。用户规定r的一个输入值以表示兴趣水平。步618表示按照深度优先顺序在合并规则树中选择下一个节点。步620是一个判定步骤，表示查看现有感兴趣节点的所有父节点以便判定是否它们之中任何一个具有至少等于现有节点的1/r的信任度值。当条件为真时，转移至步630。步630表示剪裁(prune)与现有节点相关的规则。如不满足该条件，则转移至步640。步640是一个判定步骤，用于判定在合并规则树中是否还有任何剩余节点需要估价。如还有多余节点需要估价则重复这些过程步骤，否则过程在此点结束。

总起来说，提供了在线挖掘数据的数据项目以便找到定量相关规则的方法，其中数据项目包括不同类型的定量和分类属性。

Claims

1.一种在线挖掘具有多个记录的大型数据库的方法，每个记录具有多个定量和分类项目以提供定量相关规则，所述方法包括以下步骤：

b)组织所述前趋与后继属性之间的关系；

c)预先存储用于确定所述前趋属性及与所述后继属性有关的数据之间的关系的数据；及

2.权利要求1的方法，其中所述答案包括一个或多个定量相关规则，一个与每个规则相关的实际信任度值，一个与每个规则相关的实际支持度值和一个与每个规则相关的兴趣水平。

3.权利要求2的方法，其中所述一个或多个定量相关规则只包含其计算的兴趣水平至少等于所述用户确定的兴趣水平的那些规则。

4.任何先前权利要求的方法，其中所述兴趣水平确定为第一和第二计算的比例的最小值，其中所述第一比例确定为实际信任度除以预期信任度及第二比例确定为实际支持度除以预期支持度，其中所述预期信任度和支持度是基于统计独立性的推断的计算值。

5.任何先前权利要求的方法，其中所述前趋属性包括分类和定量属性。

6.权利要求5的方法，其中所述定量属性进一步由一个包含低界限和高界限的范围所确定。

7.任何先前权利要求的方法，其中所述组织步骤包括将所述前趋数据按照层次结构划分为一个索引树的步骤，其中所述索引树包括多个索引节点。

8.权利要求7的方法，其中将所述前趋数据按照层次结构划分为一个索引树的步骤包括以下步骤：

a)在所述索引树的每个索引节点处存储用于表示实际支持度的第一值；及

b)在所述索引树的每个索引节点处存储用于表示每个用户查询后继属性的出现频度的第二值。

9.权利要求7或8的方法，其中所述获得步骤包括以下步骤：

i)搜索所述索引树的所有索引节点以便找出其前趋属性范围对应于所述用户查询前趋属性范围的那些节点；

ii)从步骤i)中所找出的节点中选择其后继属性至少等于所述用户确定的最小信任度值的那些节点；及

iii)使用步骤ii)中找出的节点来建立合并树。

10.权利要求9的方法，其中建立步骤还包括删除无意义节点和组合其他节点以建立所述合并树的步骤。

11.权利要求10的方法，其中一个无意义节点是一个没有一个至少等于所述用户确定的最小信任度值的相应计算的信任度值的节点。

12.权利要求9，10或11的方法，其中合并树可以或者为单个或者为多个后继属性而建立。

13.权利要求1的方法，其中：

所述接收步骤包括向一个计算机输入包括一个用户确定的最小支持度值，一个用户确定的最小信任度值，一个用户确定的兴趣值和一个包括一个前趋和后继条件的用户查询的数据的步骤，其中所述前趋和后继条件还包括多个定量和分类属性；

所述组织和预先存储步骤包括在存储器内构作一个包括一个或多个量纲的索引树的步骤；在存储器内从所述索引树构作一个非合并规则树的步骤和从所述非合并规则树构作一个合并规则树的步骤；其中每个量纲由包含于所述前趋条件中的用户提供的定量属性中之一确定，所述索引树包含多个索引节点，其中所述索引节点包含多个数据记录；

及所述获得步骤包括以下步骤：

从满足所述用户查询及其支持度至少等于所述最小支持度

及其信任度至少等于所述最小信任度的那些索引节点中生成一

个或多个定量相关规则；及

向用户显示包含以下内容的输出数据：来自生成步骤的所

述定量相关规则；与每个生成的定量相关规则有关的一个实际

信任度值；与每个生成的定量相关规则有关的一个支持度值；

及与每个生成的定量相关规则有关的一个兴趣水平值。

14.权利要求13的方法，其中重复执行生成一个或多个定量相关规则的步骤以便交互地修改所述用户查询从而进一步确定所述相关规则。

15.权利要求13或14的方法，其中构作一个索引树的步骤包括以下步骤：

构作一个具有一个或多个量纲的二叉索引树，其中每个量纲由所述用户提供的定量前趋属性中之一所确定；及

在每个索引节点处存储所述支持度水平和信任度水平。

16.权利要求13，14或15的方法，其中构作一个非合并规则树的步骤包括以下步骤：

搜索所述索引树的每个节点；及

选择那些包含能满足用户规定的后继条件的规则的及其信任度至少等于所述用户确定的最小信任度值的及其支持度值至少等于所述用户确定的最小支持度值的节点。

17.权利要求16的方法，其中选择那些包含能满足用户规定的后继条件的规则的节点的步骤包括以下步骤：

构作一个指针；

将所述指针指向所述索引树中的根节点；

将与所述指针相关的所述节点增加至一个表中；

将由所述指针所指向的、具有完全包含于所述用户规定的前趋属性参数内的前趋属性的、和具有至少等于所述用户确定的最小支持度的最小支持度值的节点的所有子节点增加至表中；

判定存储于所述指针所指向的节点中的数据记录是否至少等于用户规定的后继条件和具有一个至少等于所述用户确定的最小信任度的信任度；

生成一个与所述后继条件相关的定量相关规则；

当无法满足先前步骤的条件时，从所述表中删除所述节点；

判定所述表是否为空；及

当所述表为空时结束，否则将所述指针指向所述索引树的下一个节点，并从所述将与所述指针相关的节点增加至表中的步骤开始向前重复以上步骤。

18.权利要求13至17中任何一个的方法，其中建立一个合并规则树的步骤包括以下步骤：

a)后序遍历非合并规则树的每个节点；

b)通过以下步骤估价每个遍历的节点以便将它包含于非合并规则树中或将它排除：

i)判定每个所述用户确定的后继属性值是否大于存于所述节点中的后继属性值；

ii)当满足(i)的条件时，保留所述合并规则树中的所述节点；

iii)当无法满足(i)的条件和所述节点没有相关的子节点时，将所述节点从所述合并规则树中删除；

iv)当无法满足(i)的条件和所述节点具有一个子节点时，将所述节点从所述合并规则树中删除并将所述删除的节点的一个父节点和子节点直接关联起来；及

v)当无法满足(i)的条件时，调整所述后继属性的范围；其中重复所述估价步骤直至已经后序遍历所有节点。

19.一种在线挖掘具有多个记录的大型数据库的设备，每个记录具有多个定量和分类项目以提供定量相关规则，所述设备包括：

b)用于组织所述前趋与后继属性之间的关系的装置；

c)用于预先存储用于确定所述前趋属性及与所述后继属性有关的数据之间的关系的数据的存储器；及

d)响应于所述用户查询，用于从所述预先存储的数据中获得一个答案的装置。