CN113268528A

CN113268528A - 面向传感数据的多概率阈值频繁项集挖掘方法及装置

Info

Publication number: CN113268528A
Application number: CN202110611198.7A
Authority: CN
Inventors: 贾丹阳; 郭浩; 王新宇; 宋曌; 王啸天; 尤涛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-17
Anticipated expiration: 2041-06-01
Also published as: CN113268528B

Abstract

本发明公开了一种面向传感数据的多概率阈值频繁项集挖掘方法及装置，该方法包括：生成传感数据不确定事务数据库对应的1项集，获取按照其概率频繁阈值升序排列的可扩展1项集；将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集；从各候选2项集获取到频繁2项集后，扩展生成多个候选3项集，采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1；将可扩展频繁1项集、频繁2项集和频繁N项集，确定为从传感数据不确定事务数据库挖掘出的概率频繁项集。本发明引入了多概率阈值的方式，为数据库每一项增加特定的频繁概率阈值，能够在多概率阈值与最小支持度的限制下，通过剪枝与扩展策略，快速高效挖掘出频繁模式。

Description

面向传感数据的多概率阈值频繁项集挖掘方法及装置

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种面向传感数据的多概率阈值频繁项集挖掘方法及装置。

背景技术

传感器网络是由大量部署在作用区域内的、具有无线通信与计算能力的微小传感器节点通过自组织方式构成的能根据环境自主完成指定任务的分布式智能化网络系统。传感器网络通过使用传感器协作地监控不同位置的物理或环境状况，如温度、声音、振动、压力、运动或污染物等，并获得相应的传感数据。

频繁模式挖掘是指从大量的数据中通过算法搜索频繁出现的模式的过程。通过频繁模式挖掘技术获取传感数据中的信息与关联，能够帮助系统及用户快速分析并做出决策。由于传感器的局限性，传感器网络获得的传感数据多为概率表示的不确定数据。如何从海量不确定数据中挖掘出有价值的频繁模式，已成为传感数据频繁模式挖掘的重要研究方向之一。

目前，针对不确定事务数据库的频繁挖掘模式，主要采用两种方法：基于期望支持度的频繁模式挖掘和基于概率的频繁模式挖掘。在基于期望支持度的频繁模式挖掘下，项集的支持度的期望值被定义为度量值，当且仅当该期望值不小于给定的最小期望支持度时，该项集才是频繁的。该方法多使用确定数据库下频繁模式挖掘算法的变体算法，如U-Apriori算法、UFP-Growth 算法等。而对于基于概率的频繁模式挖掘，若一个项集的支持度不低于最小支持度的概率大于给定的概率阈值，该项集就为频繁的。

然而，两种不确定事务数据库下频繁模式的挖掘方法都仅考虑了单一阈值，若阈值设置过高，某些挖掘价值大、极重要的项集可能因频繁概率较低而被忽视；若阈值设置过低，又会挖掘出大量冗余而无用的项集。因此，仅使用单一概率阈值对频繁模式进行限制，易导致稀有却重要的模式被忽略。同时，由于传感数据中各项数据由不同的传感器获得，表示的含义不同，使用单一的概率阈值对所有数据进行限制显然是不合适的。

需要注意的是，本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘方法及装置，以解决现有技术中针对传感数据海量不确定事务数据库进行数据挖掘时，采用的频繁模式挖掘方法使用单一概率阈值对频繁模式进行限制易导致稀有却重要的模式被忽略的问题。

第一方面，本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘方法，包括：

获取传感数据不确定事务数据库后进行扫描，生成所述传感数据不确定事务数据库包括的各元素对应的1项集，并获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集；

按顺序遍历各所述可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集；

根据先验扩展方式，从各所述候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1；

将所述可扩展频繁1项集、所述频繁2项集和所述频繁N项集，确定为从所述传感数据不确定事务数据库挖掘出的概率频繁项集。

作为本发明第一方面的优选方式，所述获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集，包括：

根据所述1项集对应的概率频繁阈值，对所述1项集进行升序排列，并基于动态规划的频繁概率算法计算排序后的各所述1项集的频繁概率；

依次判断所述1项集的频繁概率是否小于所述1项集对应的概率频繁阈值；

若是，剪去所述1项集，继续执行判断所述1项集的频繁概率是否小于所述1项集对应的概率频繁阈值的步骤，直至所述1项集的频繁概率不小于所述1项集对应的概率频繁阈值时，将所述1项集对应的概率频繁阈值确定为剪枝后的全局最小概率频繁阈值；

依次判断剪枝后的各1项集的频繁概率是否小于所述全局最小概率频繁阈值；

若是，剪去所述1项集，并在更新所述全局最小概率频繁阈值后，继续执行判断剪枝后的各1项集的频繁概率是否小于所述全局最小概率频繁阈值的步骤；否则，确定所述1项集为可扩展1项集。

作为本发明第一方面的优选方式，在所述确定所述1项集为满足预设扩展条件的可扩展1项集之后，还包括：

确定各所述可扩展1项集对应的最小概率频繁阈值为全局最小概率阈值；

遍历各所述可扩展1项集，剪去频繁概率小于所述全局最小概率阈值的可扩展1项集。

作为本发明第一方面的优选方式，所述按顺序遍历各所述可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集，包括：

按顺序依次判断所述可扩展1项集的频繁概率是否大于等于所述可扩展 1项集对应的概率频繁阈值；

若是，则确定所述可扩展1项集为可扩展频繁1项集；

将所述可扩展频繁1项集分别与其后续项集结合，生成多个候选2项集。

作为本发明第一方面的优选方式，所述根据先验扩展方式，从各所述候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1，包括：

基于动态规划的频繁概率算法，分别计算各所述候选2项集的频繁概率，并判断所述候选2项集的频繁概率是否大于等于所述候选2项集对应的最小概率频繁阈值；

若是，则确定所述候选2项集为频繁2项集；否则，剪去所述候选2项集；

根据两两求并集的方式，将各所述频繁2项集扩展生成多个候选3项集；

以此类推，采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1。

第二方面，本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘装置，包括：

第一生成单元，用于获取不确定事务数据库后进行扫描，生成所述不确定事务数据库包括的各元素对应的1项集，并获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集；

第二生成单元，用于按顺序遍历各所述可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集；

第三生成单元，用于根据先验扩展方式，从各所述候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1；

项集挖掘单元，用于将所述可扩展频繁1项集、所述频繁2项集和所述频繁N项集，确定为从所述传感数据不确定事务数据库挖掘出的概率频繁项集。

作为本发明第二方面的优选方式，所述第一生成单元具体用于：

作为本发明第二方面的优选方式，所述第二生成单元具体用于：

若是，则确定所述可扩展1项集为可扩展频繁1项集；

作为本发明第二方面的优选方式，所述第三生成单元具体用于：

第三方面，本发明实施例提供一种计算设备，包括处理器和存储器，其中所述存储器内存储有执行指令，所述处理器读取所述存储器内的执行指令用于执行如上述面向传感数据的多概率阈值频繁项集挖掘方法所述的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，包含计算机执行指令，所述计算机执行指令被用于执行如上述面向传感数据的多概率阈值频繁项集挖掘方法所述的步骤。

本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘方法及装置，针对传感数据不确定事务数据库进行频繁模式挖掘时，引入了多概率阈值的方式，为数据库每一项增加特定的频繁概率阈值，能够在多概率阈值与最小支持度的限制下，通过剪枝与扩展策略，快速高效地挖掘出频繁模式，有效解决了传统仅使用单一概率阈值对频繁模式进行限制而导致稀有却重要的模式被忽略的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘方法的实现流程图；

图2为本发明实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘方法中步骤101的实现流程图；

图3为本发明实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘方法中步骤102的实现流程图；

图4为本发明实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘方法中步骤103的实现流程图；

图5为本发明实施例提供的传感数据不确定事务数据库D的示例性挖掘过程示意图；

图6为本发明实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘装置的结构示意图；

图7为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

随着信息技术和数据库技术的飞速发展，人们可以获取和保存的数据量也在逐渐增多。如何在庞大的数据中获取所需要的信息成了一大难点，在这种背景上，数据挖掘技术应运而生。简单来说，数据挖掘就是在大量的数据中提取出自己所需要的信息。数据挖掘技术可以应用于所有的数据库类型和数据流，例如关系数据库、事务数据库等等，其中的事务数据库是本文的主要研究对象。

在实际生活中，由于采集数据的设备具有一定误差或是对原始数据进行简单的分析等原因，最后得到的往往都是包含着概率信息的不确定事务数据库。例如，在传感器网络中，由于传感器的局限性，传感器网络获得的传感数据多为概率表示的不确定数据。因此，如何从海量不确定数据中挖掘出有价值的频繁模式，已成为传感数据频繁模式挖掘领域的重要研究方向之一。

现有的针对不确定事务数据库的频繁模式挖掘，主要有基于期望支持度的频繁模式挖掘和基于概率的频繁模式挖掘。这两种不确定事务数据库下频繁模式的挖掘方法都仅考虑了单一阈值，若阈值设置过高，某些挖掘价值大、极重要的模式可能因频繁概率较低而被忽视；若阈值设置过低，又会挖掘出大量冗余而无用的模式。

在对上述挖掘方式进行总结的基础上，本发明通过使用多概率阈值的频繁模式挖掘方法，对传感数据不确定事务数据库中的每一项设定特定的概率阈值能够解决上述问题。在面对多概率阈值的约束下，如何高效地挖掘传感数据不确定事务数据库中的频繁模式，成为了本发明的主要研究内容。

本发明中所称的不确定事务数据库主要指记录级不确定事务数据库，记录级不确定事务数据库中的不确定信息出现在每一记录的最后。

在介绍本发明所述的方法之前，先对本方法中使用的一些基本定义做如下说明：

设I＝{i₁,i₂,i₃,…,i_n}是n个不同项的集合，我们称I的一个非空子集X为一个项集或模式。若X有k项，则称X为一个k项集。给定一个不确定事务数据库T，每个事务由一个项列表和一个事务概率表示。支持度为一个项集在数据库所有事务中的出现次数，用S(X)表示。最小支持度为项集频繁的最小的支持度阈值，用min_sup表示。

同时，还给出了如下定义：

定义1给定最小支持度min_sup，与一个项集X，X的频繁概率定义为 X的支持度大于等于min_sup的概率，用P(X)表示。用公式表示为：

P(X)＝P(S(X)≥min_sup)。

定义2对数据库中的每个项设置一个概率阈值表示该项频繁的最小概率，称为概率频繁阈值。一个项i_j的概率频繁阈值用pft(i_j)表示。

定义3一个k项集X＝{i₁,i₂,i₃,…,i_k}的最小概率频繁阈值定义为X中所有项的概率频繁阈值的最小值，用MIP(X)表示。用公式表示为：

MIP(X)＝min{pft(i_j)|i_j∈X}。

定义4一个项集X是概率频繁项集当且仅当其频繁概率大于等于X的最小概率频繁阈值。用公式表示为：

FP←{X|P(X)≥MIP(X)}。

下面将详细展开说明本发明中所述的面向传感数据的多概率阈值频繁项集挖掘方法。

参照图1所示，本发明实施例公开了一种面向传感数据的多概率阈值频繁项集挖掘方法，该方法主要包括：

101、获取传感数据不确定事务数据库后进行扫描，生成传感数据不确定事务数据库包括的各元素对应的1项集，并获取按照1项集对应的概率频繁阈值升序排列的可扩展1项集；

102、按顺序遍历各可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集；

103、根据先验扩展方式，从各候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1；

104、将可扩展频繁1项集、频繁2项集和频繁N项集，确定为从传感数据不确定事务数据库挖掘出的概率频繁项集。

在步骤101中，根据实际的应用场景，获取包括至少一件事务的传感数据不确定事务数据库，其中每件事务中包括至少一个元素。其中，本领域技术人员可以根据实际情况对传感数据不确定事务数据库进行获取，本发明实施例中对传感数据不确定事务数据库的获取方式不作限定。

如下表所示，下表示出了获取到的某路口一个交通传感器网络实时监控系统的不确定传感数据：

数据记录

时间

天气

是否拥堵

平均车速

是否周末

概率

1

18:00-19:00

晴

是

20-30

是

0.585

2

18:00-19:00

大雨

是

20-30

否

0.711

3

15:00-16:00

大雨

是

20-30

是

0.304

4

18:00-19:00

大雨

是

20-30

否

0.500

在获取到上述数据后，可以将该表简化为如下表1所示的传感数据不确定事务数据库。其中a表示时间在18:00-19:00，b表示天气为大雨，c表示拥堵，d表示平均车速为20-30，e表示是周末。

示例性地，表1中示出了根据上述应用场景中获取到的数据得到的一个传感数据不确定事务数据库D。

表1

事务ID	事务	事务发生的概率
			1	a c d e	0.585
2	a b c d	0.711
			3	b c d e	0.304
4	a b c d	0.500

表1中，为方便理解起见，仅示出了一个包括4件事务的传感数据不确定事务数据库D，该数据库中共包括a、b、c、d和e在内的5个元素item，但在实际应用场景中，产生的不确定事务和所涉及的元素将远不止于此。

进一步地，表2示出了表1中所示数据库包括的各元素对应的概率频繁阈值。在实际应用中，各项对应的概率频繁阈值由用户根据各项的挖掘价值自行设定。

表2

元素	概率频繁阈值	最小支持度
			a	0.73	0.5
b	0.70	0.5
			c	0.48	0.5
d	0.64	0.5
			e	0.25	0.5

对上述获取到的传感数据不确定事务数据库进行扫描，生成该传感数据不确定事务数据库包括的各元素对应的1项集，并初始化数据库中存在的所有1项集，项集的结构如下表3所示。

表3

例如，针对表1中所示的数据库，其包括的元素有a、b、c、d和e，则对应生成5个1项集，即{a}、{b}、{c}、{d}和{e}，其对应的概率频繁阈值如表2中所示。

将包含该项集的事务ID存入transactionList，并调用基于动态规划的频繁概率算法计算各1项集的频繁概率。初始化完成后，将所有1项集按各自对应的概率频繁阈值升序排列，然后再从各1项集中筛选出可扩展1项集。具体可参照图2所示。

在本申请提供的一种可选实施例中，步骤101中获取按照1项集对应的概率频繁阈值升序排列的可扩展1项集，可按照如下方式具体实施：

1011、根据1项集对应的概率频繁阈值，对1项集进行升序排列，并基于动态规划的频繁概率算法计算排序后的各1项集的频繁概率。

该步骤中，根据上述生成的各1项集对应的概率频繁阈值，将各1项集进行升序排列。

同时，根据动态规划的频繁概率算法，分别计算出排序后的各1项集的频繁概率。该算法为本领域公知技术，在此不再赘述其计算过程。

示例性地，表4中对应示出了排序后的各1项集对应的概率频繁阈值和频繁概率。

表4

项集	概率频繁阈值	频繁概率
			e	0.25	0.18
c	0.48	0.74
			d	0.64	0.74
b	0.70	0.51
			a	0.73	0.65

1012、依次判断1项集的频繁概率是否小于1项集对应的概率频繁阈值。

该步骤中，根据上述计算出的各1项集的频繁概率，依次判断排序后的各1项集的频繁概率是否大于其对应的概率频繁阈值，以此来进行第一次剪枝。

1013、若是，剪去所述1项集，继续执行步骤1012，直至所述1项集的频繁概率不小于1项集对应的概率频繁阈值时，将所述1项集对应的概率频繁阈值确定为剪枝后的全局最小概率频繁阈值。

该步骤中，对于排在前面的概率频繁阈值最小的1项集，若其频繁概率小于自身概率频繁阈值，则可从1项集中剪去该项，因为包含该项的所有项集的频繁概率始终小于最小概率频繁阈值，因此该项不属于可扩展1项集。

循环上述剪枝过程，直至当前判断的概率频繁阈值最小的1项集，其频繁概率大于等于自身对应的概率频繁阈值时为止，停止该剪枝过程，并将该 1项集对应的概率频繁阈值确定为剪枝后的全局最小概率频繁阈值。

示例性地，针对表4中示出的排序后的各1项集对应的概率频繁阈值和频繁概率，判断时，由于排在首位的1项集{e}的频繁概率0.18小于其对应的概率频繁阈值0.25，将其剪去。然后，再判断排在第二位的1项集{c}，其频繁概率0.74大于其对应的概率频繁阈值0.48，因此剪枝过程停止，此时保留剪枝后的1项集{c}、{d}、{b}和{a}，并将1项集{c}对应的概率频繁阈值 0.48确定为剪枝后的全局最小概率频繁阈值。

1014、依次判断剪枝后的各1项集的频繁概率是否小于全局最小概率频繁阈值。

该步骤中，遍历上述剪枝后的1项集，依次按顺序判断剪枝后的各1项集的频繁概率是否小于全局最小概率频繁阈值，以此来进行第二次剪枝，最终筛选出满足条件的可扩展1项集。

1015、若是，剪去所述1项集，并在更新全局最小概率频繁阈值后，继续执行步骤1014；否则，确定所述1项集为可扩展1项集。

该步骤中，遍历剪枝后的1项集，若某1项集的频繁概率小于全局最小概率频繁阈值，则该项集可删去。由于全局最小频繁概率阈值是所有频繁项集频繁概率的最小约束，若该1项集的频繁概率小于全局最小概率频繁阈值，则该项集一定不频繁。此外，根据概率频繁项集的闭包性质，某一项集的超集的频繁概率小于等于该项集的频繁概率，所以该项集的所有超集的频繁概率也一定小于全局最小概率频繁阈值，因此该项集与该项集的超集均不可能频繁，因此为了减少搜索空间，可从数据库中删去该项集。

在剪去该1项集后，然后继续执行步骤1014。若该1项集的频繁概率大于等于全局最小概率频繁阈值，则确定该1项集为可扩展1项集，予以保留。

需要说明的是，在上述剪枝过程中，若某个1项集不频繁，但其频繁概率大于全局最小概率频繁阈值，则该1项集不能删去。由于项集扩展为先验的扩展形式，排序后每个1项集仅与顺序在其后的1项集结合。若某1项集不频繁，其与后续1项集结合所得超集均不频繁，但排序在该1项集前的1 项集与该1项集结合所得的2项集最小概率频繁阈值为前项的概率频繁阈值，该2项集有可能频繁，因此不频繁1项集不可从数据库中删除。

第二次剪枝过程结束后，剩余的1项集即为按其概率频繁阈值升序排列的可扩展1项集。下一阶段对可扩展1项集进行扩展，生成候选2项集。对于后续项集，均使用按概率频繁阈值升序的形式排列。

示例性地，针对上述第一次剪枝后保留的1项集{c}、{d}、{b}和{a}，由于各1项集的频繁概率均大于全局最小概率频繁阈值0.48，因此这4个1 项集均不能剪去，均为可扩展1项集。下表5示出了排序后的两次剪枝后的可扩展1项集。

表5

项集	c	d	b	a
					概率频繁阈值	0.48	0.64	0.70	0.73
频繁概率	0.74	0.74	0.51	0.65

在步骤102中，根据上述步骤101中得到的可扩展1项集，按顺序遍历各可扩展1项集，得到可扩展频繁1项集，将其逐项向后枚举得到多个候选 2项集。

由于排序后，每个扩展1项集的最低概率频繁阈值为项集第一项的概率频繁阈值，因此若可扩展1项集中某项为不频繁1项集，则该项不可作为候选2项集的第一项与后续项结合，但仍可与前项结合，因此保留在可扩展1 项集中，而不予删除。

在生成候选2项集时，首先按照排序逐个遍历可扩展1项集，若为频繁1项集，则可与可扩展1项集的后续项结合生成候选2项集；若不为频繁1 项集则跳过。具体可参照图3所示。

在本申请提供的一种可选实施例中，步骤102可按照如下方式具体实施：

1021、按顺序依次判断可扩展1项集的频繁概率是否大于等于可扩展1 项集对应的概率频繁阈值。

该步骤中，先按顺序判断各可扩展1项集的频繁概率是否大于等于其对应的概率频繁阈值，即判断该可扩展1项集是否为频繁的。

1022、若是，则确定可扩展1项集为可扩展频繁1项集。

该步骤中，若可扩展1项集的频繁概率大于等于其对应的概率频繁阈值，则说明该可扩展1项集是频繁的，确定其为可扩展频繁1项集。否则，将该可扩展1项集跳过，仍进行保留，而不予删除。

由于排序后，每个扩展1项集的最小概率频繁阈值为项集第一项的概率频繁阈值，因此若可扩展1项集中某项为不频繁1项集，则该项不可作为候选2项集的第一项与后续项结合，但仍可与前项结合，因此保留在可扩展1 项集中。

示例性地，针对上述过程得到的可扩展1项集{c}、{d}、{b}和{a}，先判断排在首位的可扩展1项集{c}，其频繁概率0.74大于其对应的概率频繁阈值0.48，说明可扩展1项集{c}是频繁的，项集{c}为可扩展频繁1项集。同理，再判断排在第二位的可扩展1项集{d}，其频繁概率0.74大于其对应的概率频繁阈值0.64，说明可扩展1项集{d}也是频繁的，项集{d}也为可扩展频繁1项集。而排在第三位的可扩展1项集{b}，其频繁概率0.51小于其对应的概率频繁阈值0.70，说明可扩展1项集{b}不是可扩展频繁1项集，因此跳过可扩展1项集{b}。同理，可扩展1项集{a}也不是可扩展频繁1项集，因此也跳过该可扩展1项集{a}。

最后，判断结束后，得到的可扩展频繁1项集只有两个，即{c}和{d}。

1023、将可扩展频繁1项集分别与其后续项集结合，生成多个候选2项集。

该步骤中，将上述得到的可扩展频繁1项集作为扩展项，分别与该可扩展品频繁1项集的后续项扩展生成候选2项集。

示例性地，针对上述过程得到的可扩展频繁1项集{c}和{d}，分别将其作为扩展项，与其后续项扩展生成候选2项集。其中，先对可扩展频繁1项集{c}进行扩展，与其后续扩展项{d}、{b}和{a}分别结合生成3个候选2项集{c,d}、{c,b}和{c,a}。再对可扩展频繁1项集{d}进行扩展，与其后续扩展项{b}和{a}分别结合生成2个候选2项集{d,b}和{d,a}。

该过程结束后，最终生成5个候选2项集，分别为{c,d}、{c,b}、{c,a}、 {d,b}和{d,a}。

在步骤103中，使用先验的方式进行项集扩展，即先从候选k项集筛选出频繁k项集，再通过递归的方式扩展生成候选k+1项集。对于项数大于等于2的项集，其扩展不会改变项集的最小概率频繁阈值，即项集第一项的概率频繁阈值。因此，与生成候选2项集的过程不同，后续候选项集可直接根据频繁项集扩展。具体可参照图4所示。

该过程中，先从各候选2项集获取到频繁2项集后，扩展生成多个候选 3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1为止，即可得到全部的概率频繁项集。

在本申请提供的一种可选实施例中，步骤103可按照如下方式具体实施：

1031、基于动态规划的频繁概率算法，分别计算各候选2项集的频繁概率，并判断候选2项集的频繁概率是否大于等于候选2项集对应的最小概率频繁阈值。

该步骤中，对于上述过程得到的各候选2项集，先基于动态规划的频繁概率算法分别计算出其频繁概率，然后与其对应的最小概率频繁阈值(即第一项的概率频繁阈值)进行比较。

1032、若是，则确定候选2项集为频繁2项集；否则，剪去候选2项集。

该步骤中，若候选2项集的频繁概率大于等于候选2项集对应的最小概率频繁阈值，则确定该候选2项集为频繁2项集。否则，确定该候选2项集为不频繁的，需要将其从候选2项集队列中剪去。

示例性地，针对上述得到的候选2项集{c,d}、{c,b}、{c,a}、{d,b}和{d,a}，经过判断可知，候选2项集{d,b}不频繁，需要剪去，而候选2项集{c,d},{c,b}, {c,a}和{d,a}为频繁2项集。

1033、根据两两求并集的方式，将各频繁2项集扩展生成多个候选3项集。

该步骤中，对上述过程得到的频繁2项集采用两两求并集的方式，生成候选3项集。

示例性地，针对上述过程得到的频繁2项集{c,d},{c,b},{c,a}和{d,a}，先对频繁2项集{c,d}进行扩展，其分别与后续项集{c,b},{c,a}和{d,a}两两求并集，扩展得到2个候选3项集{c,d,b}和{c,d,a}。然后，对频繁2项集{c,b} 进行扩展，其分别与后续项集{c,a}和{d,a}两两求并集，扩展得到1个候选3 项集{c,b,a}。而频繁2项集{c,a}与后续项集{d,a}求并集得到的3项集{c,d,a} 已存在于频繁2项集{c,b}扩展的候选3项集中，因此对频繁2项集{c,a}不进行扩展。而频繁2项集{d,a}没有后续项集，停止扩展。

该过程结束后，最终扩展生成3个候选3项集{c,d,b},{c,d,a},{c,b,a}。频繁2项集的数量大于1，因此需要向下继续扩展。

1034、该步骤中，重复执行上述步骤1031～1033，采用递归方式逐层扩展，依次得到候选4项集、候选5项集、……、N项集，并判断其是否频繁，直至生成的频繁N项集的数量小于等于1时，停止扩展。

由于项集扩展是递归的过程，每次递归生成的频繁k项集均一定有公共k-1前缀项，因此求并集即可达到先验扩展的效果。

初始化生成的候选k+1项集的事务ID列表transactionList，由于候选k+1 项集由频繁k项集两两求并集生成，其transactionList可由求并集的两个频繁k 项集的transactionList求交集得到。

示例性地，针对上述过程得到的候选3项集{c,d,b},{c,d,a},{c,b,a}，经过判断可知，候选3项集{c,b,a}不频繁，需要剪去，而候选3项集{c,d,b}和 {c,d,a}为频繁3项集。频繁3项集的数量大于1，因此需要向下继续扩展。

先对频繁3项集{c,d,b}进行扩展，其与后续项集{c,d,a}两两求并集，扩展得到1个候选4项集{c,d,b,a}。而频繁3项集{c,d,a}没有后续项集，停止扩展。

由于该候选4项集{c,d,b,a}不频繁，即频繁4项集的数量小于等于1，因此停止向下扩展，至此整个挖掘过程结束。

参照图5所示，图5示例性地示出了整个挖掘过程以及最后的挖掘结果。

在步骤104中，经过上述挖掘过程，将步骤1挖掘出的可扩展频繁1项集、步骤3挖掘出的频繁2项集以及步骤3挖掘出的频繁N项集，确定为从传感数据不确定事务数据库挖掘出的概率频繁项集，整个挖掘过程结束。

示例性地，经过上述挖掘过程，根据表1中示出的传感数据不确定事务数据库D，在步骤1中挖掘出两个可扩展频繁1项集{c}和{d}，在步骤102 中挖掘出4个频繁2项集{c,d},{c,b},{c,a}和{d,a}，在步骤103中挖掘出2 个频繁3项集{c,d,b}和{c,d,a}，则项集{c}、{d}、{c,d}、{c,b}、{c,a}、{d,a}、 {c,d,b}和{c,d,a}即为从该传感数据不确定事务数据库挖掘出的全部概率频繁项集。将挖掘结果限制为项数最高的频繁项集，如下表所示：

频繁项集	表示含义	频繁概率
			c,b,d	拥堵，大雨，平均车速20-30	51％
c,d,a	拥堵，平均车速20-30，时间18:00-19:00	65％

根据上表可得出以下有价值的结论：

(1)若该路口大雨时平均车速为20-30km/h，则堵塞概率较高；

(2)时若该路口18:00-19:00平均车速为20-30km/h，则堵塞概率较高。

综上所述，本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘方法，针对传感数据不确定事务数据库进行频繁模式挖掘时，引入了多概率阈值的方式，为数据库每一项增加特定的频繁概率阈值，能够在多概率阈值与最小支持度的限制下，通过剪枝与扩展策略，快速高效地挖掘出频繁模式，有效解决了传统仅使用单一概率阈值对频繁模式进行限制而导致稀有却重要的模式被忽略的问题。

需要说明的是，对于上述方法的实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器或者网络设备等)执行本申请上述实施例所述的方法。

参照图6所示，基于同一发明构思，本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘装置，该装置主要包括：

第一生成单元61，用于获取传感数据不确定事务数据库后进行扫描，生成所述传感数据不确定事务数据库包括的各元素对应的1项集，并获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集；

第二生成单元62，用于按顺序遍历各所述可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集；

第三生成单元63，用于根据先验扩展方式，从各所述候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1；

项集挖掘单元64，用于将所述可扩展频繁1项集、所述频繁2项集和所述频繁N项集，确定为从所述传感数据不确定事务数据库挖掘出的概率频繁项集。

优选地，所述第一生成单元具体61用于：

优选地，所述第二生成单元62具体用于：

若是，则确定所述可扩展1项集为可扩展频繁1项集；

优选地，所述第三生成单元63具体用于：

综上所述，本发明实施例提供一种面向传感数据的多概率阈值频繁项集挖掘装置，针对传感数据不确定事务数据库进行频繁模式挖掘时，引入了多概率阈值的方式，为数据库每一项增加特定的频繁概率阈值，能够在多概率阈值与最小支持度的限制下，通过剪枝与扩展策略，快速高效地挖掘出频繁模式，有效解决了传统仅使用单一概率阈值对频繁模式进行限制而导致稀有却重要的模式被忽略的问题。

需要说明的是，本发明实施例提供的面向传感数据的多概率阈值频繁项集挖掘装置与前述实施例所述的面向传感数据的多概率阈值频繁项集挖掘方法属于相同的技术构思，其具体实施过程可参照前述实施例中对方法步骤的说明，在此不再赘述。

应当理解，以上一种面向传感数据的多概率阈值频繁项集挖掘装置包括的单元仅为根据该装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘装置所实现的功能与上述实施例提供的一种面向传感数据的多概率阈值频繁项集挖掘方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例中已做详细描述，此处不再详细描述。

参照图7所示，基于同一发明构思，本发明实施例提供一种计算设备，该计算设备主要包括处理器71和存储器72，其中存储器72内存储有执行指令。该处理器71读取存储器72内的执行指令用于执行上述面向传感数据的多概率阈值频繁项集挖掘方法任一个实施例中所述的步骤。或者，该处理器 71读取存储器72内的执行指令用于实现上述面向传感数据的多概率阈值频繁项集挖掘装置任一个实施例中各单元的功能。

图7为本发明实施例提供的计算设备的一种结构示意图，如图7所示，该计算设备包括处理器71、存储器72和收发器73；其中，处理器71、存储器72和收发器73通过总线74相互连接。

存储器72用于存储程序；具体地，程序可以包括程序代码，程序代码包括计算机操作指令。存储器72可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，简称RAM)；存储器72也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，简称HDD)或固态硬盘(solid-state drive，简称SSD)；存储器72还可以包括上述种类的存储器的组合。

存储器72存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

总线74可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器71可以是中央处理器(central processing unit，简称CPU)，网络处理器(network processor，简称NP)或者CPU和NP的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，简称ASIC)，可编程逻辑器件(programmable logic device，简称PLD) 或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，简称CPLD)，现场可编程逻辑门阵列(fieldprogrammable gate array，简称FPGA)，通用阵列逻辑(generic array logic，简称GAL)或其任意组合。

本发明实施例还提供一种计算机可读存储介质，包含计算机执行指令，所述计算机执行指令被用于执行上述面向传感数据的多概率阈值频繁项集挖掘方法任一个实施例中所述的步骤。或者，所述计算机执行指令被用于执行上述面向传感数据的多概率阈值频繁项集挖掘装置实施例中各单元的功能。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

本领域技术人员可以理解，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤，而前述的存储介质包括ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向传感数据的多概率阈值频繁项集挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集，包括：

3.根据权利要求1所述的方法，其特征在于，所述按顺序遍历各所述可扩展1项集，分别将获取到的可扩展频繁1项集与其后续项集结合生成多个候选2项集，包括：

按顺序依次判断所述可扩展1项集的频繁概率是否大于等于所述可扩展1项集对应的概率频繁阈值；

若是，则确定所述可扩展1项集为可扩展频繁1项集；

4.根据权利要求1所述的方法，其特征在于，所述根据先验扩展方式，从各所述候选2项集获取到频繁2项集后，扩展生成多个候选3项集，以此类推采用递归方式逐层扩展，直至生成的频繁N项集的数量小于等于1，包括：

5.一种面向传感数据的多概率阈值频繁项集挖掘装置，其特征在于，包括：

第一生成单元，用于获取传感数据不确定事务数据库后进行扫描，生成所述传感数据不确定事务数据库包括的各元素对应的1项集，并获取按照所述1项集对应的概率频繁阈值升序排列的可扩展1项集；

6.根据权利要求5所述的装置，其特征在于，所述第一生成单元具体用于：

7.根据权利要求5所述的装置，其特征在于，所述第二生成单元具体用于：

若是，则确定所述可扩展1项集为可扩展频繁1项集；

8.根据权利要求5所述的装置，其特征在于，所述第三生成单元具体用于：

9.一种计算设备，其特征在于，包括处理器和存储器，其中存储器内存储有执行指令，处理器读取存储器内的执行指令用于执行如权利要求1～4中任一项所述的面向传感数据的多概率阈值频繁项集挖掘方法中的步骤。

10.一种计算机可读存储介质，其特征在于，包含计算机执行指令，所述计算机执行指令被用于执行如权利要求1～4中任一项所述的面向传感数据的多概率阈值频繁项集挖掘方法中的步骤。