CN108122126A

CN108122126A - 关联规则的扩充方法、应用其的装置及电脑可读取介质

Info

Publication number: CN108122126A
Application number: CN201611203732.6A
Authority: CN
Inventors: 吴宣纬
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2016-11-29
Filing date: 2016-12-23
Publication date: 2018-06-05
Anticipated expiration: 2036-12-23
Also published as: TWI634441B; TW201820178A; CN108122126B; US11250338B2; US20180150756A1

Abstract

一种关联规则列表的扩充方法，此扩充方法包括执行一关联规则算法，以建立一既有关联规则列表，其中此既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度。依据此既有关联规则列表，执行最小化一损失函数(cost function)，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中此至少一先导项集参数向量以及此至少一后继项集参数向量分别对应于此至少一先导项集以及此至少一后继项集。以及依据此至少一先导项集参数向量以及此至少一后继项集参数向量，产生一扩充关联规则列表。

Description

关联规则的扩充方法、应用其的装置及电脑可读取介质

技术领域

本发明涉及一种关联规则的方法、应用其的装置及电脑可读取介质。

背景技术

近年来，网络的稳定发展以及物联网装置的崛起，产生了许多大量、高速及类型多变的数据。业者可通过分析收集所得的数据，例如分析顾客购买交易数据，藉此了解顾客喜好，进而调整向客户建议的贩售商品项目以提高商品销售量。

在各领域中，可以藉由关联规则分析收集所得的数据中的各物品、事件或属性之间的相关联系。例如在商业应用上可利用关联规则进行商品、货架的摆设参考；又例如在半导体制造过程中可利用关联规则进行机器排程规划；又例如在医学应用上，利用关联规则分析各病例特征间关联程度，以减少误诊机会。

关联规则的形式通常为给定一先导项集，可得到对应的后继项集。然而，在使用上常有给定一先导项集后，其对应的后继项集的数量不足，甚至不存在对应的后继项集，而发生关联规则短缺的情况。

发明内容

本发明涉及一种扩充关联规则的方法、应用其的装置及电脑可读取介质，其利用既有的关联规则，找出未知的潜在规则，以扩充关联规则。更可进一步地可通过关联规则的先导项集的集合性质，利用先导项集的子集合的对应后继项集来扩充关联规则。

根据本发明的第一方面，提出一种关联规则的扩充方法，该扩充方法包括：执行一关联规则算法，以建立一既有关联规则列表，其中该既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度；依据该既有关联规则列表，执行最小化一损失函数(cost function)的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中该至少一先导项集参数向量以及该至少一后继项集参数向量分别对应于该至少一先导项集以及该至少一后继项集；以及依据该至少一先导项集参数向量以及该至少一后继项集参数向量，产生一扩充关联规则列表。

根据本发明的第二方面，提出一种关联规则的扩充装置，该扩充装置包括：一既有关联规则产生模块，用以建立一既有关联规则列表，其中该既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度；以及一关联规则扩充模块，用以执行最小化一损失函数(cost function)的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中该至少一先导项集参数向量以及该至少一后继项集参数向量分别对应于该至少一先导项集以及该至少一后继项集。

根据本发明的第三方面，提出一种电脑可读取介质，其上储存有一软件程序，该软件程序执行时，将使具有一控制器的一电子装置进行一关联规则的扩充方法，该扩充方法包括：执行一关联规则算法，以建立一既有关联规则列表，其中该既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度；依据该既有关联规则列表，执行最小化一损失函数(cost function)的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中该至少一先导项集参数向量以及该至少一后继项集参数向量分别对应于该至少一先导项集以及该至少一后继项集；以及依据该至少一先导项集参数向量以及该至少一后继项集参数向量，产生一扩充关联规则列表。

为了对本发明的上述及其他方面有更佳的了解，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1绘示依据本发明一实施例的关联规则的扩充装置的示意图；

图2绘示依据本发明一实施例的关联规则的扩充方法的流程图；

图3绘示依据本发明一实施例的关联规则列表执行最小化损失函数的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量的流程图；

图4绘示绘示依本发明的一实施例由先导项集的至少一子集合产生对应先导项集的至少一后继项集的流程图；

图5绘示依据本发明的一实施例的后继项集的提供流程图。

【附图标记说明】

100：扩充装置

110：既有关联规则产生模块

120：关联规则扩充模块

130：关联规则合并模块

140：先导项集子集合产生模块

150：后继项集产生模块

160：后继项集排序整合模块

180：来源数据库

185：既有关联规则数据库

190：扩充关联规则数据库

195：合并关联规则数据库

S210～S240、S310～S370、S410～S430、S510～S550：流程步骤

具体实施方式

以下提出各种实施例进行详细说明，其通过既有的关联规则，找出未知的潜在规则，以扩充关联规则。更进一步地可通过关联规则的先导项集的子集合的对应后继项集来扩充关联规则。然而，实施例仅用以作为范例说明，并不会限缩本发明欲保护的范围。此外，实施例中的附图省略部分元件，以清楚显示本发明的技术特点。

在各领域中，可通过关联规则分析收集所得来的数据的关联性或相关性，找出一个事物中某些属性同时出现的规律和模式。例如在商业应用上，经由分析顾客购买数据，寻找顾客放入购物篮中的不同商品之间的联系，发现在超市中最常跟尿布一起被购买的商品是啤酒。于是，超市调整商品摆设位置，将啤酒和尿布摆在一起，如此可以提高啤酒的销售量。

又例如在半导体制造过程中，参与工艺的机台的组合可能为影响合格率的原因之一，因此可记录各机台所测量的参数，利用关联规则判别哪些机台组合所生产的产品合格率较好，作为机台排程规划的依据，以改善生产合格率。

然而，经由收集所得来的大量数据无法由人工直接进行分析以找出数据之间的相关联系，因此相关的关联规则算法被提出，例如Apriori算法及FP-Growth算法。经由这些算法可找出数据库中具有相关性的既有关联规则，并依据这些既有关联规则建立一既有关联规则列表。

关联规则的形式为给定一先导项集X，可得到后继项集Y，其可表示为“先导项集X→后继项集Y”。其中，关联规则的先导项集X与后继项集Y之间更包括一支持度(support)以及一置信度(confidence)。关联规则X→Y的支持度是为同时包括X及Y的对应数据的个数，例如交易记录中包括X、Y的交易个数。而关联规则X→Y的置信度则为在出现X的前提下，出现Y的概率，即条件概率如果一关联规则同时满足一最小支持度阈值和一最小置信度阈值，则保留此关联规则，并将此关联规则加入既有关联规则列表中，其中最小支持度阈值和最小置信度阈值可由使用者设定。

请参照图1，其绘示依据本发明一实施例的关联规则列表的扩充装置的示意图。扩充装置100包括一既有关联规则产生模块110、一关联规则扩充模块120及一关联规则合并模块130。既有关联规则产生模块110用以执行一关联规则算法，以建立一既有关联规则列表。关联规则扩充模块120用以依据既有关联规则列表，执行最小化一损失函数(costfunction)的动作，以产生一扩充关联规则列表。关联规则合并模块130用以合并既有关联规则列表以及扩充关联规则列表，以建立一合并关联规则列表。既有关联规则产生模块110耦接于关联规则扩充模块120，且关联规则扩充模块120耦接于关联规则合并模块130。其中，既有关联规则产生模块110、关联规则扩充模块120及关联规则合并模块130可以例如是通过使用一芯片、芯片内的一电路区块、一硬件电路、含有数个电子元件及导线的电路板或储存多组程序码的一储存介质来实现，也可通过电脑系统、伺服器等电子装置执行对应软件或程序来实现。

再者，扩充装置100可通过各种不同的数据传递方式与一来源数据库180、一既有关联规则数据库185、一扩充关联规则数据库190及一合并关联规则数据库195之间进行指令与数据的传递。在本实施例中，来源数据库180、既有关联规则数据库185、扩充关联规则数据库190及合并关联规则数据库195位于扩充装置100外部。但并不以此为限，来源数据库180、既有关联规则数据库185、扩充关联规则数据库190及合并关联规则数据库195亦可位于扩充装置100的内部。

请参照图2，其绘示依据本发明一实施例的关联规则的扩充方法的流程图。为了清楚说明上述各项元件的运作以及本发明实施例的扩充装置的扩充方法，以下将搭配图2的流程图详细说明如下。然而，本发明所属技术领域中具有通常知识者均可了解，本发明实施例的扩充方法并不局限应用于图1的扩充装置100，也不局限于图2的流程图的各项步骤顺序。

请同时参照图1及图2。根据本发明一实施例，以超市购物为例，在一固定时间内，例如半个营业日、一个营业日或者五个营业日等，此超市的交易记录(transaction)如表1所示。此交易记录可储存于来源数据库180中。

表1

项次	交易记录
		1	卫生纸、高筋面粉、奶粉
2	葵花油、蓝色原子笔
		3	健康绿茶、冰镇红茶、毛巾
4	牙刷、柠檬汁、玻璃清洁剂
		5	土司、芝士、牛奶
6	尿布、啤酒、奶粉
		7	口罩、橡皮擦、雨衣
8	...

在步骤S210中，既有关联规则产生模块110对此交易记录执行一关联规则算法后，建立一既有关联规则列表。具体地说，先由此交易记录中撷取一定数量的笔数的交易记录数据，以产生一训练集合。随后，既有关联规则产生模块110分析此训练集合以获得至少一先导项集、至少一后继项集，以及各至少一先导项集与对应的后继项集的对应的原始置信度。最后，既有关联规则产生模块110可依据上述获得的至少一先导项集、至少一后继项集以及至少一原始置信度，建立如表2所示的既有关联规则列表。既有关联规则列表可储存于既有关联规则数据库185中。

表2

先导项集	后继项集	原始置信度
			{土司，芝士}	{牛奶}	0.58
{柠檬汁}	{玻璃清洁剂}	0.17
			{尿布}	{啤酒}	0.3
...	...	...

在步骤S220中，关联规则扩充模块120依据既有关联规则列表，执行最小化一损失函数的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中至少一先导项集参数向量以及至少一后继项集参数向量分别对应于至少一先导项集以及至少一后继项集。

随后，在步骤S230中，关联规则扩充模块120依据至少一先导项集参数向量以及至少一后继项集参数向量，产生如表3所示的一扩充关联规则列表。扩充关联规则列表可储存于扩充关联规则数据库190中。

表3

最后，在步骤S240中，关联规则合并模块130合并上述的既有关联规则列表以及扩充关联规则列表，以建立一合并关联规则列表。合并关联规则列表可储存于合并关联规则数据库195中。

关于上述建立合并关联规则列表的步骤，在本发明一实施例中，使用者可先设定一预测置信度阈值，例如预测置信度阈值设定为0.1。关联规则合并模块130可以在扩充关联规则列表中，选择预测置信度大于预测置信度阈值的关联规则，以建立如表4所示的合并关联规则列表。其中合并关联规则列表的合并置信度栏位的内容值为扩充关联规则列表的预测置信度栏位的内容值。

表4

先导项集	后继项集	合并置信度
			{土司，芝士}	{牛奶}	0.57
{柠檬汁}	{玻璃清洁剂}	0.18
			{尿布}	{啤酒}	0.28
...	...	...
			{柠檬汁}	{牛奶}	0.43
...	...	...

在本发明另一实施例中，关联规则合并模块130可对扩充关联规则列表中，针对同一先导项集对应的后继项集，依照所对应的预测置信度进行排序。依据排列顺序中的前n条扩充关联规则(n为正整数)，建立合并关联规则列表，其中合并关联规则列表的合并置信度栏位的内容值为扩充关联规则列表的预测置信度栏位的内容值。

本发明提供另一种产生合并关联规则列表的方法，使用者可先设定一预测置信度阈值，例如可将预测置信度阈值设定为0.1。关联规则合并模块130首先撷取既有关联规则列表的内容值作为合并关联规则列表的部份内容，其中合并关联规则列表的合并置信度栏位的内容值为既有关联规则列表的原始置信度栏位的内容值。接着，将扩充关联规则列表内预测置信度大于预测置信度阈值，且不存在于既有关联规则列表中的关联规则加入合并关联规则列表中。其中，这些原来不存在于既有关联规则列表中的关联规则，在合并关联规则列表的合并置信度栏位中的内容值，为扩充关联规则列表中的预测置信度栏位的内容值。

然而，本发明所属技术领域中具有通常知识者均可了解，本发明的合并既有关联规则列表以及扩充关联规则列表的方法，并不局限于上述实施例所示的合并方法。只要能撷取至少部份的扩充关联规则以产生比既有关联规则列表更多后继项集的作法，即可应用于产生合并关联规则列表的方法中。

请参照图3，其绘示依据既有关联规则列表执行最小化损失函数的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量的流程图。在图2的步骤S220中，关联规则扩充模块120依据既有关联规则列表，执行最小化损失函数的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量。图3的步骤S310至步骤S350进一步说明图2的步骤S220依据既有关联规则列表执行最小化损失函数的动作的流程。

上述的执行最小化损失函数的动作，大体上可概述为依据以下步骤执行：(a)对至少一先导项集以及至少一后继项集进行向量初始化，依据初始化的至少一先导项集参数向量以及至少一后继项集参数向量，执行一预测函数，以获得一预测置信度；(b)判断目前获得的预测置信度与原始置信度之间的误差平方和是否大于一容忍值，若否，则执行步骤(c)，若是，则执行步骤(d)；(c)将目前获得的至少一先导项集参数向量以及至少一后继项集参数向量作为使用于扩充关联规则列表的至少一先导项集参数向量以及至少一后继项集参数向量；(d)调整目前获得的至少一先导项集参数向量以及至少一后继项集参数向量以重新执行预测函数，并获得一更新后的预测置信度，并计算更新后的预测置信度与对应的原始置信度之间的误差平方和，接着，再次执行上述的步骤(b)。

在本发明的一实施例中，最小化损失函数例如可以为最小化潜在因子模型(Latent Factor Model)中的损失函数，其可表示为其中r_u，i为原始置信度、p_u为第u个先导项集参数向量、q_i为第i个后继项集参数向量、K为关联规则数据集，u及i皆为正整数。最小化损失函数的动作例如为通过调整先导项集参数向量p_u以及后继项集参数向量q_i，使得先导项集参数向量p_u以及后继项集参数向量q_i的向量内积结果q_i ^Tp_u(q_i ^Tp_u亦称为预测函数，可得到预测置信度最接近原始置信度r_u，i，亦即让向量内积结果q_i ^Tp_u(预测置信度与原始置信度r_u，i的差异平方和为最小，以取得所要的先导项集参数向量p_u以及后继项集参数向量q_i。

请同时参照图1及图3。以下将详述执行最小化损失函数的动作的流程。由于最小化损失函数的动作例如为通过调整先导项集参数向量p_u以及后继项集参数向量q_i，让向量内积结果q_i ^Tp_u(预测置信度与原始置信度r_u，i的差异平方和为最小。假设在上述的调整过程中，p_u(x)与q_i(x)代表第x个计算回合中的向量，代表第x个计算回合中的预测置信度，x为正整数。在图3的步骤S310中，关联规则扩充模块120首先分别对至少一先导项集以及至少一后继项集进行向量初始化，以产生至少一先导项集参数向量p_u(0)以及至少一后继项集参数向量q_i(0)，p_u(0)为初始化的至少一先导项集参数向量，q_i(0)为初始化的至少一后继项集参数向量。现以既有关联规则列表中具有两个关联规则为例做说明。假设既有关联规则列表中的第一个关联规则的第1个先导项集与对应的第1个后继项集之间的原始置信度r_1，1为0.67，而第二个关联规则的第2个先导项集与对应的第2个后继项集之间的原始置信度r_2，2为0.53。对上述的先导项集以及对应的后继项集进行向量初始化后，假设产生的第1个先导项集参数向量的初始值p₁(0)为{0.8，0.9，-0.6}^T以及对应的第1个后继项集参数向量q₁(0)为{0.8，0.7，0.5}^T，第2个先导项集参数向量的初始值p₂(0)为{0.9，0.8，-0.5}^T以及对应的第2个后继项集参数向量q₂(0)为{0.7，0.9，0.4}^T，并假设上述向量的空间为三维。空间维度可以为三维、四维、五维或任何维度，由使用者自订，并不以此为限。

接着，在步骤S320中，依据初始化的先导项集参数向量p_u(0)以及后继项集参数向量q_i(0)，获得一预测置信度举例来说，由上述所产生的第1个先导项集参数向量的初始值p₁(0)＝{0.8，0.9，-0.6}^T、对应的第1个后继项集参数向量q₁(0)＝{0.8，0.7，0.5}^T、第2个先导项集参数向量的初始值p₂(0)＝{0.9，0.8，-0.5}^T、及对应的第2个后继项集参数向量q₂(0)＝{0.7，0.9，0.4}^T，可得到预测置信度为0.97，为1.15。

随后，在步骤S330中，计算预测置信度与对应的原始置信度r_u，i之间的误差平方和，并判断预测置信度与对应的原始置信度r_u，i之间的误差平方和是否大于一容忍值。此容忍值可由使用者决定。若预测置信度与对应的原始置信度r_u，i之间的误差平方和大于此容忍值，执行步骤S340。举例来说，假设容忍值设定为0.4，上述的预测置信度为0.97，原始置信度r_1，1为0.67，上述的预测置信度为1.15，原始置信度r_2，2为0.53，则：

预测置信度与对应的原始置信度r_u，i之间的误差平方和大于容忍值0.4，故接着执行步骤S340。

在步骤S340中，关联规则扩充模块120调整初始化的先导项集参数向量p_u(0)以及后继项集参数向量q_i(0)，产生先导项集参数向量p_u(1)以及后继项集参数向量q_i(1)，以重新执行上述的预测函数，以获得一更新后的预测置信度并计算更新后的预测置信度与对应的原始置信度r_u，i之间的误差平方和。举例来说，上述的第1个先导项集参数向量调整为p₁(1)＝{0.8，0.8，-0.6}^T，而对应的第1个后继项集参数向量则调整为q₁(1)＝{0.7，0.7，0.5}^T，第2个先导项集参数向量调整为p₂(1)＝{0.7，0.8，-0.5}^T，而对应的第2个后继项集参数向量则调整为q₂(1)＝{0.7，0.7，0.4}^T，故预测置信度为0.82，为0.85。如此，

此时，的值0.1249小于容忍值0.4。

在步骤S350中，判断更新后预测置信度与对应的原始置信度r_u，i之间的误差平方和是否大于此容忍值。若更新后的预测置信度与对应的原始置信度r_u，i之间的误差平方和大于此容忍值时，则重新执行步骤S340，直到更新后的预测置信度与对应的原始置信度r_u，i之间的误差平方和小于或等于此容忍值为止。

当更新后的预测置信度与对应的原始置信度r_u，i之间的误差平方和小于或等于此容忍值时，则执行步骤S360。将调整后的先导项集参数向量p_u(x)以及调整后的后继项集参数向量q_i(x)分别作为使用于扩充关联规则列表的先导项集参数向量p_u′以及后继项集参数向量q_i′。例如，由于上述的值小于容忍值0.4。故在步骤S350的判断中，可以判断出更新后预测置信度(在上述例子中例如为与对应的原始置信度r_u，i之间的误差平方和小于此容忍值。故将调整后的第1个先导项集参数向量p₁(1)＝{0.8，0.8，-0.6}^T、调整后的第1个后继项集参数向量q₁(1)＝{0.7，0.7，0.5}^T、调整后的第2个先导项集参数向量p₂(1)＝{0.7，0.8，-0.5}^T、调整后的第2个后继项集参数向量q₂(1)＝{0.7，0.7，0.4}^T作为使用于扩充关联规则列表的第1个先导项集参数向量p₁′、第1个后继项集参数向量q₁′、第2个先导项集参数向量p₂′、第2个后继项集参数向量q₂′。

随后，在上述的步骤S230中，即可使用第1个先导项集参数向量p₁′、第1个后继项集参数向量q₁′、第2个先导项集参数向量p₂′、第2个后继项集参数向量q₂′来得到扩充关联规则列表。关联规则扩充模块120可依据此至少一先导项集参数向量(例如p₁′及p₂′)以及此至少一后继项集参数向量(例如q₁′及q₂′)，产生如表3所示的扩充关联规则列表。例如，可计算预测置信度来得到新的关联规则“p₂→q₁”的预测置信度，而可以扩充出新的关联规则。例如，可以由表3第2列的先导项集{柠檬汁}(例如对应至p₂′)与表3第1列的后继项集{牛奶}(例如是对应至q₁′)，计算出表3第5列所示的关联规则“先导项集{柠檬汁}→后继项集{牛奶}”的预测置信度(例如是以产生新的关联规则“先导项集{柠檬汁}→后继项集{牛奶}”，来扩充关联规则。

上述的最小化损失函数的作法可以例如使用随机梯度下降法(Stochasticgradient descent，SGD)来进行最佳化。例如，每一个计算回合可以设定一损益值e_u，i，对第x个计算回合来说，损益值则可以设定接下来的第x+1个计算回合的q_i(x+1)＝q_i(x)+γ·(e_u，i·p_u(x))，p_u(x+1)＝p_u(x)+γ·(e_u，i·q_i(x))，其中γ为学习比例(Learning rate)，用以控制调整的步伐大小。而调整的方向为往损失函数的负的梯度方向移动，以使上述的损益值e_u，i随着每一个计算回合而逐渐变小，直到损益值e_u，i小于一容忍值为止。

然而，应了解的是，计算先导项集参数向量p_u以及后继项集参数向量q_i的向量内积以获得预测置信度的预测函数除了上述的以外，还可以使用其他的预测函数，例如是或等函数，其中b_u、b_i、μ为偏差项。上述的用以找出最佳的先导项集参数向量或后继项集参数向量的最小化损失函数的方法亦可以使用其他方法，例如是交替最小二乘法(alternating leastsquares)等方法。上述的预测函数以及最小化损失函数的方法仅是举例说明，本发明并不局限于上述所列的预测函数及最小化损失函数的方法。

请同时参照图1及图4。图4绘示依本发明的一实施例由先导项集的至少一子集合产生对应先导项集的至少一后继项集的流程图。在本实施例中，扩充装置100更可包括一先导项集子集合产生模块140、一后继项集产生模块150以及一后继项集排序整合模块160。

若使用者需要的先导项集未在既有关联规则列表、扩充关联规则列表或合并关联规则列表中有对应的后继项集的话，也就是说，在既有关联规则列表、扩充关联规则列表或合并关联规则列表中没有对应于此先导项集的关联规则，则可使用图4所示的方法来增加新的先导项集、对应的后继项集以及关联规则。举例来说，若需要的先导项集为{外野手套，打击手套}，但在既有关联规则列表、扩充关联规则列表或合并关联规则列表中并未存在先导项集为{外野手套，投手手套}的关联规则的话，则可使用图4所示的方法来增加先导项集{外野手套，打击手套}，以及其所对应的后继项集和关联规则。

在步骤S410，先导项集子集合产生模块140依据先导项集{外野手套，投手手套}产生此先导项集的子集合，其子集合例如为{外野手套}及{投手手套}。

在本实施例中，后继项集产生模块150可在既有关联规则列表、扩充关联规则列表或合并关联规则列表中找到如表五所示的上述子集合{外野手套}及{投手手套}所对应的后继项集及对应的关联规则。

表5

先导项集	后继项集	原始置信度
			{外野手套}	{打击手套}	0.6
{外野手套}	{球棒}	0.5
			{外野手套}	{钉鞋}	0.4
{投手手套}	{钉鞋}	0.5
			{投手手套}	{打击手套}	0.2
{投手手套}	{球棒}	0.1

随后，后继项集排序整合模块160可依一预设关联规则，排序对应于子集合{外野手套}及{投手手套}的关联规则。上述的预设关联规则可以是依据子集合对应的后继项集的原始置信度作排序，并分别给予排序得分。举例来说，排名第一位的关联规则的排序得分为2分，第二位的关联规则的排序得分为1分，第三位之后的关联规则的排序得分为0分，可得到如表5(a)所示的一后继项集排序得分清单。

表5(a)

先导项集	后继项集	原始置信度	排序得分
				{外野手套}	{打击手套}	0.6	2
{外野手套}	{球棒}	0.5	1
				{外野手套}	{钉鞋}	0.4	0
{投手手套}	{钉鞋}	0.5	2
				{投手手套}	{打击手套}	0.2	1
{投手手套}	{球棒}	0.1	0

接着，加总后继项集所对应的关联规则的排序得分，例如后继项集{打击手套}对应的关联规则的排序得分分别为2分和1分，故其加总后的得分为3分。同理，后继项集{钉鞋}的排序得分加总为2分，以及后继项集{球棒}的排序得分加总为1分。最后，依据加总的排序得分，由大至小排列可得到一后继项集排序清单{打击手套}、{钉鞋}、{球棒}，将此后继项集排序清单作为原本未存在的先导项集{外野手套，投手手套}对应的后继项集，亦即新增新的后继项集{打击手套}、{钉鞋}、{球棒}。

在本发明的另一实施例中，上述的预设关联规则可以是计算原始置信度的平均值。计算子集合对应的后继项集的置信度，例如后继项集{钉鞋}所对应的原始置信度分别为0.4及0.5，其平均值为0.45。同理，{打击手套}所对应的原始置信度分别为0.6及0.2，故其平均置信度为0.4。{球棒}所对应的原始置信度分别为0.5及0.1，故其平均置信度为0.3。将上述的平均置信度由大至小排列，可得后继项集排序清单{钉鞋}、{打击手套}、{球棒}，将此后继项集排序清单作为原本未存在的先导项集{外野手套，投手手套}对应的后继项集。在本实施例中可将{钉鞋}、{打击手套}、{球棒}分别对应的平均置信度0.45、0.4、0.3作为先导项集{外野手套，投手手套}分别对应后继项集{钉鞋}、{打击手套}、{球棒}的置信度。应当理解的是，凡是依据先导项集的至少一子集对应的后继项集进行排序过的系统或是方法皆属本发明的范畴。

在本发明另一实施例中，可依据其使用的情景给予一限制条件，以进一步撷取适合此情景的先导项集、对应的后继项集以及对应的关联规则。以网购推荐商品为例，网络购物者已浏览了女用提包a、威士忌b、颈饰c。依据购物者的浏览记录，购物网站推荐白兰地d、女用钱包e、女用围巾f、女用钱包g及女用提包h等关联商品供网络购物者作为参考。在此情景中，先导项集为{女用提包a，威士忌b，颈饰c}，其对应的后继项集为{白兰地d，女用钱包e，女用围巾f，女用钱包g，女用提包h}。

购物者进一步选择希望找到的关联商品为提包及皮夹类别，也就是说，购物者此时给予了一个“提包皮夹”的限制条件。经过限制条件筛选后，购物网站仅推荐女用钱包e、女用钱包g及女用提包h等关联商品供网路购物者作为参考，剔除不符合限制条件的白兰地d及女用围巾f。在剔除不符合限制条件的关联商品后，可能导致购物网站推荐的关联商品项目数量不足。

请参照图5，其绘示依据本发明的一实施例提供的后继项集的流程图。在步骤S510中，可将使用者在购物网站近期浏览商品记录、使用者在购物网站购物车内的商品、使用者使用网路浏览器在一个会话(session)间连接过的网址、使用者近期利用多媒体播放器收看或收听的多媒体内容作为先导项集，并进一步的获得对应的后继项集以及对应的关联规则。

在步骤S520中，依据对于后继项集的一第一限制条件，确认既有关联规则列表、扩充关联规则列表或合并关联规则列表中是否有满足第一限制条件的对应先导项集的后继项集存在。举例来说，第一限制条件可以是上述购物者所给予的“提包皮夹”的限制条件。

若有满足第一限制条件的后继项集存在于既有关联规则列表、扩充关联规则列表或合并关联规则列表中，则执行步骤S530，由既有关联规则列表、扩充关联规则列表或合并关联规则列表中撷取满足第一限制条件的对应于先导项集的后继项集。

若没有满足第一限制条件的后继项集存在于既有关联规则列表、扩充关联规则列表或合并关联规则列表中，则执行步骤S540。在步骤S540中，依据先导项集，执行如上述图4所示的由先导项集的至少一子集合产生对应先导项集的至少一后继项集的流程，包含步骤S410至S430。

其中，在步骤S530由既有关联规则列表、扩充关联规则列表或合并关联规则列表中撷取对应于先导项集的后继项集后，若撷取的后继项集未满足一第二限制条件(步骤S550的结果为否)，则执行步骤S540，依据先导项集的至少一子集合产生对应先导项集的至少一后继项集。第二限制条件例如是后继项集的个数。

如此，当在给予限制条件后，先导项集对应的后继项集的项目个数(第二限制条件)或商品类别(第一限制条件)若不符合限制条件，则可依据本发明的实施例所示的方法，产生扩充的后继项集以及对应的扩充关联规则，使先导项集对应的后继项集的个数足够或符合所需商品类别，以符合要求。

本发明的实施例通过找出先导项集以及后继项集之间的潜在的有用的关联规则，藉此扩充既有的关联规则，找出更多具有关联性的先导项集及后继项集。更进一步通过先导项集的子集合，来产生对应于先导项集的子集合的后继项集以扩充关联规则。通过上述实施例可以从先导项集撷取出更多高度关联的后继项集，找出未知的潜在的关联规则，以扩充关联规则的数量。如此可以避免在应用上发生给定一先导项集后，其对应的后继项集的数量不足，甚至不存在对应的后继项集，而发生关联规则短缺的情况。在商业应用(例如网络购物服务)上，可利用上述扩充的关联规则的作法调整商品、货架的摆设或提出建议购买的商品的建议，如此可以有效地提高商品销售量以及顾客购买率。在产品的制造过程中，可利用扩充的关联法进一步协助机器安排流程规划以提高产品合格率。上述扩充的关联法在应用于医学上分析病例特征之间的关联程度时，可以更有效地减少医疗误诊概率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关联规则的扩充方法，其特征在于，该扩充方法包括：

执行一关联规则算法，以建立一既有关联规则列表，其中该既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度；

依据该既有关联规则列表，执行最小化一损失函数(cost function)的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中该至少一先导项集参数向量以及该至少一后继项集参数向量分别对应于该至少一先导项集以及该至少一后继项集；以及

依据该至少一先导项集参数向量以及该至少一后继项集参数向量，产生一扩充关联规则列表。

2.如权利要求1所述的扩充方法，其特征在于，更包括：

合并该既有关联规则列表以及该扩充关联规则列表，以建立一合并关联规则列表。

3.如权利要求2所述的扩充方法，其特征在于，更包括：

依据该至少一先导项集产生该至少一先导项集的至少一子集合；

依据该至少一子集合，由该合并关联规则列表，获得对应于该至少一子集合的至少一后继项集；以及

依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为至少一对应于该至少一先导项集的至少一新增的后继项集。

4.如权利要求2所述的扩充方法，其特征在于，更包括：

依据该至少一后继项集的一限制条件，确认该既有关联规则列表、该扩充关联规则列表和该合并关联规则列表三者之一中是否仍有满足该限制条件的对应该至少一先导项集的至少一后继项集存在，若是，则撷取对应该至少一先导项集的该至少一后继项集，以及，若否，则依据该至少一先导项集产生该至少一先导项集的至少一子集合，依据该至少一子集合，由该合并关联规则列表，获得对应于该至少一子集合的至少一后继项集，以及依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为至少一对应于该至少一先导项集的至少一新增的后继项集。

5.如权利要求1所述的扩充方法，其特征在于，其中执行该关联规则算法，以取得该既有关联规则列表的步骤包括：

由一来源数据库撷取多笔交易记录以获得一训练集合；

分析该训练集合以获得该至少一先导项集、该至少一后继项集，以及各该至少一先导项集与对应的该后继项集的对应的该原始置信度；以及

依据该至少一先导项集、该至少一后继项集以及该至少一原始置信度建立该既有关联规则列表。

6.如权利要求1所述的扩充方法，其特征在于，其中在获得该至少一先导项集参数向量以及该至少一后继项集参数向量的步骤中包括：

(a)进行向量初始化，依据初始化的该至少一先导项集参数向量以及该至少一后继项集参数向量，执行一预测函数，以获得一预测置信度；

(b)判断目前的该预测置信度与该原始置信度之间的误差平方和是否大于一容忍值，若否，则执行步骤(c)，若是，则执行步骤(d)；

(c)将目前的该至少一先导项集参数向量以及该至少一后继项集参数向量作为使用于该扩充关联规则列表的该至少一先导项集参数向量以及该至少一后继项集参数向量；

(d)调整该至少一先导项集参数向量以及该至少一后继项集参数向量以重新执行该预测函数，并获得一更新后的预测置信度，并计算该更新后的预测置信度与对应的该原始置信度之间的误差平方和，接着执行步骤(b)。

7.如权利要求1所述的扩充方法，其特征在于，更包括：

依据该至少一子集合，由该既有关联规则列表和该扩充关联规则列表至少二者之一，获得对应于该至少一子集合的至少一后继项集；以及

依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为对应于该至少一先导项集的至少一新增的后继项集。

8.一种关联规则的扩充装置，其特征在于，该扩充装置包括：

一既有关联规则产生模块，用以建立一既有关联规则列表，其中该既有关联规则列表包括至少一先导项集、至少一后继项集及至少一原始置信度；以及

一关联规则扩充模块，用以执行最小化一损失函数(cost function)的动作，以获得至少一先导项集参数向量以及至少一后继项集参数向量，其中该至少一先导项集参数向量以及该至少一后继项集参数向量分别对应于该至少一先导项集以及该至少一后继项集。

9.如权利要求8所述的扩充装置，其特征在于，更包括：

一关联规则合并模块，用以合并该既有关联规则列表以及该扩充关联规则列表，以建立一合并关联规则列表。

10.如权利要求9所述的扩充装置，其特征在于，更包括：

一先导项集子集合产生模块，用以依据该至少一先导项集产生该至少一先导项集的至少一子集合；

一后继项集产生模块，用以依据该至少一子集合，由该合并关联规则列表，获得对应于该至少一子集合的至少一后继项集；以及

一后继项集排序整合模块，用以依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为至少一对应于该至少一先导项集的至少一新增的后继项集。

11.如权利要求9所述的扩充装置，其特征在于，更包括：

依据该至少一后继项集的一限制条件，确认该既有关联规则列表、该扩充关联规则列表和该合并关联规则列表三者之一中是否仍有满足该限制条件的对应该至少一先导项集的至少一后继项集存在，若是，撷取对应该至少一先导项集的该至少一后继项集，以及，若否，则依据该至少一先导项集产生该至少一先导项集的至少一子集合，依据该至少一子集合，由该合并关联规则列表，获得对应于该至少一子集合的至少一后继项集，以及依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为至少一对应于该至少一先导项集的至少一新增的后继项集。

12.如权利要求8所述的扩充装置，其特征在于，其中该既有关联规则产生模块由一来源数据库撷取多笔交易记录以获得一训练集合，分析该训练集合以获得该至少一先导项集、该至少一后继项集，以及各该至少一先导项集与对应的该后继项集的对应的该原始置信度，以及依据该至少一先导项集、该至少一后继项集以及该至少一原始置信度建立该既有关联规则列表。

13.如权利要求8所述的扩充装置，其特征在于，其中该关联规则扩充模块更用以执行下列动作以产生该至少一先导项集参数向量以及该至少一后继项集参数向量：

14.如权利要求8所述的扩充装置，其特征在于，更包括：

一后继项集产生模块，依据该至少一子集合，由该既有关联规则列表和该扩充关联规则列表至少二者之一，获得对应于该至少一子集合的至少一后继项集；以及

一后继项集排序整合模块，用以依一预设关联规则，排序对应于该至少一子集合的该至少一后继项集，依照排序顺序将对应于该至少一子集合的该至少一后继项集的至少一部分作为对应于该至少一先导项集的至少一新增的后继项集。

15.一种电脑可读取介质，其特征在于，其上储存有一软件程序，该软件程序执行时，将使具有一控制器的一电子装置进行一关联规则的扩充方法，该扩充方法包括：

16.如权利要求15所述的电脑可读取介质，其特征在于，该扩充方法更包括：

17.如权利要求16所述的电脑可读取介质，其特征在于，该扩充方法更包括：

18.如权利要求16所述的电脑可读取介质，其特征在于，该扩充方法更包括：

19.如权利要求15所述的电脑可读取介质，其特征在于，其中该扩充方法执行该关联规则算法，以取得该既有关联规则列表的步骤包括：

由一来源数据库撷取多笔交易记录以获得一训练集合；

20.如权利要求15所述的电脑可读取介质，其特征在于，其中该扩充方法于获得该至少一先导项集参数向量以及该至少一后继项集参数向量的步骤系包括：

(b)判断目前的该预测置信度与该原始置信度的间的误差平方和是否大于一容忍值，若否，则执行步骤(c)，若是，则执行步骤(d)；

21.如权利要求15所述的电脑可读取介质，其特征在于，该扩充方法更包括：