CN106354753A

CN106354753A - 数据流中基于模式发现的贝叶斯分类器

Info

Publication number: CN106354753A
Application number: CN201610675770.5A
Authority: CN
Inventors: 孙艳歌; 邵罕; 李艳灵; 李刚; 李然; 郭华平
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2016-07-31
Filing date: 2016-07-31
Publication date: 2017-01-25

Abstract

本发明属于数据挖掘技术领域，具体的说是一种数据流中基于模式发现的贝叶斯分类器，该方法主要有两个阶段组成：模式发现阶段和建立分类器阶段。为建立数据流中基于模式的贝叶斯分类模型，本发明提出了一个单次扫描算法FFI使用滑动窗口模型用于在连续数据流上挖掘频繁项集，本发明提出的方法在运行时间和分类精度上具有较高的性能，更加适应数据流动态的环境。

Description

数据流中基于模式发现的贝叶斯分类器

技术领域

本发明属于数据挖掘技术领域，具体的说是一种数据流中基于模式发现的贝叶斯分类器。

背景技术

目前基于模式的贝叶斯分类模型大多是针对静态数据集合的，通常不能适应于高速动态变化与无限的数据流环境。对此提出一种基于模式发现的数据流环境下贝叶斯分类学习模型以适应高速的数据流环境。分类是在已有数据的基础上构建一个分类模型，该模型能够把数据库中的数据记录映射到给定类别中的某一个，从而可以用于数据预测。贝叶斯分类器是一种已有广泛研究的分类器。构造贝叶斯分类模型中一个难点是对贝叶斯理论中联合概率的计算，这通常需要借助某种简化模型。最经典的简化模型是朴素贝叶斯(Bays，NB)，其基于条件独立性的假设，即数据集中所有的属性都条件独立于给定的类属性。但是NB提出的条件独立性假设在现实数据中很少成立。因此之后提出了许多算法来弱化Bays的条件独立性假设。一种是以研究属性之间的低阶依赖为代表的贝叶斯网络；另一种从属性之间的高阶依赖出发，通过在数据集中抽取的频繁模式来建立联合概率的乘积近似值。

在文献“Bayesian approach to use emerging patterns forclassification.”(Fan，H.，J.，and Ramamohanarao，K.A In：Schewe，K.，D.，and Zhou，X.，F.(eds.).The Proceeding of the 14th Australasian DatabaseConference.Darlinghurst，Australia：Australian Computer Society，2003.pp.39-48.)中，当分类请求时才抽取频繁项集，接着在抽取的项集上依据条件依赖模型建立乘积近似值。并且对于待分类实例在每一个类标值下建立相同结构的乘积近似值。项集抽取的原则是抽取尽可能多的项集来覆盖待分类实例并且抽取项集之间的包含尽可能多的重复项。这种方法的缺点首先是乘积近似值与类标的关联性非常弱；其次算法添加频繁项集直到没有可用的频繁项集，以致乘积近似值中包含乘积项的个数很大程度依赖于给定最小支持度阀值。

在文献“RIB：A robust itemset-based Bayesian approach toclassification.”(Baralis，E.，Cagliero，L.Knowledge-Based Systems，Volume 71，2014.pp.366-375.)中，分类器遵从属性独立假设，算法选择长的非重复的完全覆盖待分类实例的频繁项集的最小集合。并对于同一待分类实例根据类标值抽取不同的频繁项集集合来构建不同结构的乘积近似值。抽取项集的算法采用贪婪式策略，抽取过程是迭代式的，算法无限循环直到抽取到的项集集合完全覆盖待分类实例。同时在每一次迭代的过程中都需要计算项集中属性的依赖程度进行比较来选择局部最优项集。这样算法需要将大量的工作集中于分类器测试阶段，分类器建立过程时间长从而响应分类请求速度慢。

文献“DSM-FI：An efficient algorithm for mining frequent itemsets indata streams.Li，H.，F.，Shan，M.，K.，and Lee，S.，Y.”(Knowledge and InformationSystems，Volume 17，Number 1，2008.pp.79-97.)中提出的DSM-FI算法用于在连续的事务型数据流上增量地挖掘频繁项集。算法使用界标窗口模型来获取流数据，并且提出了频繁项集查找机制用于抽取频繁项集。但是DSM-FI算法中，数据结构的构造过程较为复杂，并且对同一事务中的项中存在重复存储的现象。另外DSM-FI算法在抽取频繁项集时需要进行多次的筛选，在这个过程中需要产生候选项集。

数据流是一个高速的，理论上无限的数据元素的连续序列并且数据的分布可能随着时间发生变化。不同于静态数据集合上分类模型的建立，基于模式的数据流分类器需要处理以下问题：(1)数据流算法在任意时刻只能获取数据流的一个数据片段，因此与能多次扫描全部数据适用于静态数据集合的算法相比，在数据流上算法难以确定挖掘出的频繁模式的完整性。(2)当分类请求出现时，算法处理的当前片段中可能不包含待分类实例中所有的项。(3)由于数据流高速和无界的特点，算法必须在有限的处理时间和内存消耗内完成数据处理。(4)数据流中数据的分布可能发生变化，算法必须能够快速的适应变化。因此，本发明力求解决如何在高速动态变化与无限的数据流环境中建立高效的分类模型。

发明内容

技术问题：本发明致力于在数据流环境下建立基于模式的贝叶斯分类模型，因而提出了使用半懒散式学习策略的基于模式的数据流贝叶斯分类器PDSB(Pattern_basedData Stream Bayesian Classifier)。PDSB在训练阶段只对数据进行初步的处理即建立项的形式的数据表达。当有分类请求时，算法依据待分类实例抽取频繁模式并且在抽取到的模式上建立对待分类实例特定的局部分类模型。

技术方案：该方法主要有两个阶段组成：模式发现阶段和建立分类器阶段。为建立数据流中基于模式的贝叶斯分类模型，本发明提出了一个单次扫描算法FFI使用滑动窗口模型用于在连续数据流上挖掘频繁项集。其具体步骤包括如下：

(1)数据流上的模式发现

作为建立基于模式的贝叶斯分类模型，提出了基于DSM-FI使用滑动窗口模型的单次扫描算法FFI(Find frequent itemset from data stream)用于在连续数据流上挖掘频繁项集。

FFI算法使用滑动窗口模型来获取流数据，对于当前窗口SW＝(T₁，T₂，...，T_w)，其中w是滑动窗口的大小。FFI读取事务T_i，并将其类标c_i∈C进行划分，对不同划分的事务集分别建立混合树结构对于项集的抽取也是按类标在不同的HTS_i中分别进行抽取的。主要包括以下步骤：

1)FFI算法读取当前窗口中的事务，并且按事务的类标值对事务进行划分；

2)FFI算法建立混合树结构HTS来存储当前窗口中事务的所有项；根据事务的划分结果将事务加入到不同的混合结构中；

3)当窗口中的事务发现变化时(新的事务到来旧的事务被丢弃)，FFI算法需对混合树结构HTS进行修剪，删除不在当前窗口中事务的信息；

4)当有分类请求时，根据待分类实例T在混合树结构HTS＝{HTS_i}中分别选择频繁项集集合。

具体说来，给定的数据流DS包含属性A₁，A₂，A₃，A₄，...，A_n和类属性C。c_i是任意的类属性值，T_test＝{x₁，x₂，...，x_n}是待分类实例；当有分类请求时，根据待分类实例T_test＝{x₁，x₂，...，x_n}分别在混合结构HTS＝{HTS_i}中抽取与待分类实例具有相同项的项集集合。

(2)建立分类器阶段

该方法是半懒惰式的，只有当有待分类请求时才对待分类实例建立特定的分类模型。算法使用在数据流中抽取的频繁模式来估计贝叶斯概率，在属性独立假设下依照条件独立模型建立乘积近似值。用于建立乘积近似值的项集必须满足下列要求：

1)抽取的项集之间不包含重复的项

两个项集包含重复的项即这两个项集的所有项的集合之间存在交集。如果选择的项集之间存在重复的项则构建的乘积近似值将不满足属性独立假设，因为乘积项所表示的属性集合之间存在交集。

2)选择尽可能长的项集

项集的长度是指项集中包含项的个数。在抽取不包含重复项的前提下抽取的项集越长则乘积近似值中包含的乘积项就越少。所以建立的乘积近似值就越加符合属性独立假设。同时，在估计联合概率是也会将越多的属性依赖关系考虑进去。

3)选择尽可能覆盖待分类实例的项集集合

由于数据流是无限的而算法只能使用有限的内存，当有待分类实例到来时，算法不能遍历整个数据集来抽取项集。另外，由于数据流是动态的，数据的底层分布可能随时变化即存在概率漂移的情况，若发生概念漂移历史数据将不再适用于当前情况，所以近期的数据的重要性要大于历史数据。使用最近的数据建立分类模型也保证了分类模型在一定程度上避免了概率漂移的发生，因为它受到历史数据干扰较小。这些情况表明了在数据流上数据挖掘中可能存在抽取的项集集合不能够完全覆盖待分类实例的情况。

4)项集的最小集合

最小是指集合中包含的元素(即项集)个数最少。在尽可能抽取到足够多的项的情况下希望抽取到的项集集合是最小集，即希望组成乘积近似值的乘积项尽可能的少。这样可以最小化独立假设的数量，从而使得乘积近似值更加符合条件独立模型。

分类器的训练阶段的主要工作是处理数据，即抽取并维护事务中频繁或非频繁项以方便后续分类模型的建立。所以在这一阶段的主要任务是建立混合树结构，当有新的数据生成时更新滑动窗口和相应的混合树结构。当有分类请求时，PDSB抽取尽可能包含待分类实例所有项的频繁项集集合来估计贝叶斯理论中的概率。

有益效果：本发明提出的方法在运行时间和分类精度上具有较高的性能，更加适应数据流动态的环境。

附图说明

图1与NaiveBayes在randomRBF数据集上的分类精度比较

图2与Bayes在Connect-4数据集上的分类精度比较

图3与k-NN和k-NNwithPAW在SEA数据集上的分类精度比较

图4与k-NN和k-NNwithPAW在agrawal数据集上的分类精度比较

图5与RuleClassifier和RuleClassifierNBayes在agrawal数据集上的分类精度比较

图6与RuleClassifier和RuleClassifierNBayes在randomRBF数据集上的分类精度比较

图7与HoeffdingTree和HoeffdingOptionTree在agrawal数据集上的分类精度比较

图8与HoeffdingTree和HoeffdingOptionTree在SEA数据集上的分类精度比较

具体实施方法

以下结合附图和实施例对本发明的技术方案作进一步描述。

PDSB是一个半懒惰式分类器，在训练阶段建立以项形式的密集数据表达。当有待分类请求时才对待分类实例建立特定的分类模型。

(1)在数据流中创建乘积近似值

PDSB使用在数据流中抽取的频繁模式来估计贝叶斯概率，在属性独立假设下依照条件独立模型建立乘积近似值。

1)抽取的项集决定乘积近似值的结构。

例如，给定的数据流DS包含属性A₁，A₂，A₃，A₄，A₅和类属性C。c_i是任意的类属性值，T＝{a₁，a₂，...，a₅}是待分类实例，为估计概率P(T，c_i)的值算法需要在混合树结构HTS_i抽取项集，其中HTS_i由类标为c_i的数据建立的。如果抽取项集集合为{{a₁，a₂，a₃}，{a₄，a₅}}则建立的用于估计概率的乘积近似值为P(T，c_i)＝P(a₁，a₂，a₃，a₄，a₅，c_i)≈P(c_i)P(a₁a₂a₃|c_i)。如果抽取项集集合为{{a₁，a₂}，{a₃}，{a₄，a₅}}则建立的用于估计概率的乘积近似值为P(T，c_i)＝P(a₁，a₂，a₃，a₄，a₅，c_i)≈P(c_i)P(a₁a₂a₃|c_i)P(a₄ a₅|c_i)P(a₃|c_i)。

2)PDSB对同一个待分类实例在各个类标上分别抽取项集，即乘积近似值的结构与类标相关。

例如：设定类属性C有属性值c₃，c₃，c₃。为预测待分类实例T＝{a₁，a₂，...，a₅}的类标，PDSB需要从混合树结构HTS₁，HTS₂和HTS₃中分别抽取项集集合。若从混合树结构HTS₁中抽取的项集集合为{{a₁，a₂，a₃}，{a₄，a₅}}；从混合树结构HTS₂中抽取的项集集合为{{a₁，a₂}，{a₃}，{a₄，a₅}}；从混合树结构HTS₃中抽取的项集集合为{{a₁，a₂，a₃，a₄}，{a₅}}；则概率P(T，c₁)的乘积近似值为P(T，c₁)＝P(a₁，a₂，a₃，a₄，a₅，c₁)≈P(c₁)P(a₁a₂a₃|c₁)P(a₄ a₅|c₁)；概率P(T，c₂)的乘积近似值为P(T，c₂)＝P(a₁，a₂，a₃，a₄，a₅，c₂)≈P(c₂)P(a₁a₂a₃|c₂)P(a₃|c₂)P(a₄ a₅|c₂)；概率P(T，c₃)的乘积近似值为P(T，c₃)＝P(a₁，a₂，a₃，a₄，a₅，c₃)≈P(c₁)P(a₁a₂a₃a₄|c₃)P(a₅|c₃)；

3)乘积近似值中每一个乘积项中所隐含的属性集条件独立于给定的类标；

例如，联合概率P(T，c_i)的乘积近似值为P(T，c_i)＝P(a₁，a₂，a₃，a₄，a₅，c_i)≈P(c_i)P(a₁a₂a₃|c_i)P(a₄ a₅|c_i)，其中乘积项P(a₁a₂a₃|c_i)和P(a₄ a₅|c_i)的表示的属性集分别为{A1，A2，A3}和{A4，A5}，则这两个属性集之间相互独立。

由于数据流是无限的而算法只能使用有限的内存，当有待分类实例到来时，算法不能够遍历整个数据集来抽取项集。另一方面，由于数据流是动态的，数据的底层分布可能随时变化而存在概率漂移的情况，若发生概念漂移历史数据将不再适用于当前情况，所以近期的数据的重要性要大于历史数据。使用最近的数据建立分类模型也保证了分类模型在一定程度上避免了概率漂移的发生，因为它受到历史数据干扰较小。这些情况表明了为符合数据流上数据挖掘的要求，可以存在抽取的项集集合不能够完全覆盖待分类实例的情况。在本方法中使用Laplace平滑来处理这种情况。

举例：T＝{a₁，a₂，...，a₅}是待分类实例，c_i是任意类属性值。从混合树结构HTS_i中抽取到的项集集合为{{a₁，a₂，a₃}，{a₅}}。项集集合中包含的所有项不能够完全覆盖待分类实例中的所有项{a₁，a₂，a₃，a₄，a₅}。我们使用公式1来估计联合概率P(T，c_i)的值。

P(T，c_i)＝P(a₁，a₂，...，a₅，c_i) (1)

≈P(c_i)P(a₁a₂a₃|c_i)P(a₅|c_i)

≈P(c_i)P(a₁a₂a₃|c_i)P(a₅|c_i)·P(a₄|c_i)

其中

P (a_{1} a_{2} a_{3} | c_{i}) = \frac{c o u n t (a_{1} a_{2} a_{3} c_{i}) + 1}{c o u n t (c_{i}) + a t t n u m (A_{1}) + a t t n u m (A_{2}) + a t t n u m (A_{3})}

P (a_{4} | c_{i}) = \frac{1}{c o u n t (c_{i}) + a t t n u m (A_{4})}

其中，函数attnum(A₄)是计算属性A₄中的属性值的个数。函数count(c_i)是记录当前窗口中类标为c_i的事物个数。

4)项集的最小集合

最小是指集合中包含的元素(即项集)个数少。在尽可能抽取到足够多的项的情况下希望抽取到的项集集合是最小集，即希望组成乘积近似值的乘积项尽可能的少。这样能最小化独立假设的数量使得乘积近似值更加符合条件独立模型。

举例：T＝{a₁，a₂，...，a₅}是待分类实例，c_i是任意类属性值。从混合树结构HTS_i中抽取到的项集集合为{{a₁，a₂}，{a₃}}。项集集合中包含的所有项不能够完全覆盖待分类实例中的所有项{a₁，a₂，a₃，a₄，a₅}。我们使用公式2来估计联合概率P(T，c_i)的值。

P(T，c_i)＝P(a₁，a₂，...，a₅，c_i) (2)

≈P(c_i)P(a₁a₂|c_i)P(a₃|c_i)·P(a₄a₅|c_i)

其中

P (a_{4} a_{5} | c_{i}) = \frac{1}{c o u n t (c_{i}) + a t t n u m (A_{4}) + a t t n u m (A_{5})}

2.PDSB分类器训练阶段

在PDSB分类器的训练阶段的主要工作是处理数据，即抽取并维护事务中频繁或非频繁项以方便后续分类模型的建立。所以在这一阶段的主要任务是建立混合树结构，当有新的数据生成时更新滑动窗口和相应的混合树结构。算法1描述了在训练阶段使用滑动窗口模型处理数据的完整过程。

算法1：FFI：Find frequent item algorithm on data stream

输入：数据流DS＝(T₁，T₂，...，T_n，...)，滑动窗口大小w；

输出：混合树结构HTS＝{HTS_i}，其中i为对应的类标值；

3.类标预测

PDSB分类器是一个半懒惰式的基于模式的数据流贝叶斯分类器。对于待分类实例T_test，在每一个类值所对应的混合结构HTS_i抽取项集并且计算概率P(T，c_i)；将每一次抽取到的最佳项集添加到finalItemset中，finalItemset是用于最终计算概率的频繁项集的集合，finalItemset中的项集都相互独立，项集之间没有相同的项。算法2描述了PDSB分类器为待分类实例预测类标的过程。

算法2：ClassifierClassPrediction(HTS，T_test，min_sup)

输入：HTS＝{HTS_i}，最小用户支持度阀值min_sup and测试实例T_test

输出：T_test待分类实例T_test的类标c

当有分类请求时，PDSB抽取尽可能包含待分类实例所有项的频繁项集集合来估计贝叶斯理论中的概率。算法3描述了用于建立乘积近似值的频繁项集的抽取过程。

算法3：selectBestItemset(T_test，HTS_i，min_sup)

输入：测试实例T_test；混合树结构HTS_i；用户定义最小支持度min_sup；

输出：the best frequent itemset BestFpattern；

本发明的仿真结果

本方明进行了大量实验主要从分类精度和运行时间两个方面对算法的性能进行评价，同时还研究算法参数调整对分类器性能的影响。实验平台是Massive OnlineAnalysis(MOA)。实验在3.00GHz、Intel(R)Core(TM)2Duo CPU、4G内存、Windows7系统的计算机上进行。在真实数据集和合成数据集上进行实验。真实数据集是5个UCI机器学习库中的数据集。合成数据集是使用数据生成器中生成的数据集。表1中列出真实数据和合成数据的主要特征。

Table 1 Synthetic and real data sets characterisdcs

表1 真实数据和合成数据

表1中的数据集Chess，Connect-4，EEG，Firm和MAGIC来自UCI机器学习库。数据集agrawal，random RBF，random RBF drift，SEA和STAGGER分别是由数据生成器AgrawalGenerator，Random RBF Generator，random RBF drift，SEA Generator和STAGGERGenerator生成器生成的100,000条事务组成的；

1数据预处理

有连续属性值的数据不能够以项或者关联规则的形式用于分类器。为了增加可用数据，在PDSB分类器中对数据集进行属性离散化操作。PDSB分类器中对数据的连续属性值离散化采用的是最小化信息熵的启发式算法。离散化代码来自MOA平台。表2中列出预处理之后数据的主要特征。表中的属性Attribute不包含类属性，表中的项Item不包含类属性-值对。

Table 2 datasets after pre-processing

表2 预处理之后的数据集

2实验模型

使用预测误差估计法(prequential error estimators)对算法性能进行评价。对于PDSB分类器，设置了二种参数配置，第一种是标准型，标准型参数设置对所有数据集将滑动窗口的窗口大小w固定为w＝10％*n，其中n是数据集的实例个数；将最小支持度阈值固定为min_sup＝0.01％*w，其中w是当前窗口大小。第二种是调整型，由于算法在不同数据集上达到最优的情况下参数的设置是不同的。调整型参数设置对每一个数据集分别调整滑动窗口的窗口大小w＝p*n其中p∈[10％，90％]和最小支持度阈值min_sup＝q*w的值以使得算法在该数据集上达到最优性能。

3分类精度

将PDSB分类器与数据流贝叶斯分类器进行精度比较。由于PDSB是基于模式的半懒惰式分类器，将PDSB与关联性分类器和懒惰式分类器进行比较。最后为了实验的全面性，将PDSB与其它分类器(非贝叶斯和非关联性的急切式分类器)进行比较。

表3中给出了各个分类器的分类精度。表中第一列描述了使用的数据集。第2，3，4，5，6，7，8，9，10，11，12列分别给出了分类器NaiveBayes，NaiveBayes Multinomial、kNN、kNNwithPAW、RuleClassifier、RuleClassifierNBayes、HoeffdingTree、HoeffdingOptionTree、SGD、ORTO和FIMTDD在各个数据集上的分类精度。

Table 3 Accuracy Comparison with Well-Known Classifiers

表3 算法分类精度对比

(1)与贝叶斯分类器进行比较

选取的数据流贝叶斯分类器包括NaiveBayes和NaiveBayes Multinomial；PDSB算法在标准型和调整型参数设置上分别进行实验。如表3所示，PDSB分类器在分类进度上要总体优于NaiveBayes Multinomial；PDSB与Bayes相比在randomRBF、randomRBFdriff、SEA、Chess、Connect-4、EEG、Firm和MAGIC数据集上具有较高的分类精度，在agrawal和STAGGER数据集上二者相持平。总的来说，PDSB分类器在分类精度上优于其它数据流贝叶斯分类器。图1和图2是PDSB与Bayes在数据集randomRBF和Connect-4上分类精度的比较，PDSB标准型参数设置；采用的评价策略在每10,000条数据时输出一条评价结果。

(2)与基于实例的数据流分类器进行比较；

将所提出的算法与基于实例(懒惰式)分类器k-NN，k-NNwithPAW在分类精度上进行比较；有表3可知，尽管在平均分类进度上PDSB分类器略低于k-NN和k-NNwithPAW分类器，但是在SEA、STAGGER、Firm和MAGIC数据集上PDSB与k-NN，k-NNwithPAW相比在分类精度上相持平甚至略高于。图3和图4是PDSB与k-NN和k-NNwithPAW在数据集SEA和agrawal分类精度的比较，PDSB标准型参数设置；采用的评价策略在每10,000条数据时输出一条评价结果。

(3)与关联性数据流分类器进行比较；

将所提出的算法与关联性分类器RuleClassifier和RuleClassifierNBayes在分类精度上进行比较。由表2可知，PDSB分类器在agrawal、randomRBF、randomRBFdrift、和EEG数据集上分类精度优于RuleClassifier和RuleClassifierNBayes分类器，而在STAGGER、Chess、Connect-4、Firm和MAGIC数据集上分类进度与RuleClassifier和RuleClassifierNBayes持平。总的来说，PDSB分类器优于关联性数据流分类器。图5和图6是PDSB与RuleClassifier和RuleClassifierNBayes在数据集agrawal和randomRBF分类精度的比较，PDSB标准型参数设置；采用的评价策略在每10,000条数据时输出一条评价结果。

(4)与其它的数据流分类器进行比较；

将所提出的算法与其它数据流分类器在分类精度上进行比较。分类器包括HoeffdingTree、Hoeffding Option Tree、ORTO、SGD、ORTO和FIMTDD；由表7可知，PDSB与树形分类器HoeffdingTree和HoeffdingOptionTree相比在数据集agrawal、SEA、STAGGER、Firm和MAGIC上的分类进度较优。在参数设置为调整型时，PDSB在数据集Chess和Connect-4具有较高的分类精度。在参数设置为调整型时PDSB分类器的平均分类精度优于HoeffdingTree和HoeffdingOptionTree分类器。与SGD，ORTO和FIMTDD分类器比较，PDSB在所选的10个数据集上都有较优的分类精度。图7和图8是PDSB与HoeffdingTree和HoeffdingOptionTree在数据集agrawal和SEA分类精度的比较，图中的纵轴表示分类精度，采用的评价策略在每10,000条数据时输出一条评价结果。

5.4运行时间

PDSB是半懒惰式分类器，它在具备懒散式分类器的较高分类进度和能够处理动态复杂环境的优点，同时与懒散式分类器相比算法又有着较快的处理速度。表4是PDSB分类器与kNN和kNNwithPAW分类器在运行时间上的比较，从表中可以看出在agrawal、SEA、Chess、EEG、Firm和MAGIC数据集上PDSB分类器相较于kNN和kNNwithPAW在运行时间上有着较大的优势。但PDSB分类器在randomRBF、randomRBFdrift、Connect-4数据集上运行时间较长。结合表2可知PDSB运行效率会受数据集中所有项的个数的影响。数据集中所有项的个数越多则PDSB分类器处理该数据集的时间越长。综上，PDSB对所含项少的数据集在运行时间和分类精度上具有较高的性能。

表4 运行时间

Table 4 Runtime Comparison

Dataset	kNN	kNNwithPAW	PDSB
				agrawal	18.4339	29.8866	3.7989
randomRBF	40.4763	59.0282	124.2752
				randomRBFdrift	39.4282	59.1799	123.8207
SEA	11.3720	20.1007	1.5522
				STAGGER	12.6606	22.0497	1.3974
Chess	7.8408	11.3098	3.4078
				Connect-4	89.2032	123.4780	303.4664
EEG	7.1333	9.3697	4.4285
				Firm	6.3339	8.9308	4.5657
MAGIC	7.0741	9.7144	2.6431

Claims

1.数据流中基于模式发现的贝叶斯分类器，其特征在于：数据流中基于模式发现的贝叶斯分类器主要有两个阶段组成：模式发现阶段和建立分类器阶段，为建立数据流中基于模式的贝叶斯分类模型，本发明提出了一个单次扫描算法FFI使用滑动窗口模型用于在连续数据流上挖掘频繁项集，其具体步骤包括如下：

(1)数据流上的模式发现

作为建立基于模式的贝叶斯分类模型，提出了基于DSM-FI使用滑动窗口模型的单次扫描算法FFI(Find frequent itemset from data stream)用于在连续数据流上挖掘频繁项集，

FFI算法使用滑动窗口模型来获取流数据，对于当前窗口SW＝(T₁，T₂，...，T_w)，其中w是滑动窗口的大小；FFI读取事务T_i，并将其类标c_i∈C进行划分，对不同划分的事务集分别建立混合树结构对于项集的抽取也是按类标在不同的HTS_i中分别进行抽取的；主要包括以下步骤：

4)当有分类请求时，根据待分类实例T在混合树结构HTS＝{HTS_i}中分别选择频繁项集集合；

具体说来，给定的数据流DS包含属性A₁，A₂，A₃，A₄，...，A_n和类属性C；c_i是任意的类属性值，T_test＝{x₁，x₂，...，x_n}是待分类实例；当有分类请求时，根据待分类实例T_test＝{x₁，x₂，...，x_n}分别在混合结构HTS＝{HTS_i}中抽取与待分类实例具有相同项的项集集合；

(2)建立分类器阶段

该方法是半懒惰式的，只有当有待分类请求时才对待分类实例建立特定的分类模型；算法使用在数据流中抽取的频繁模式来估计贝叶斯概率，在属性独立假设下依照条件独立模型建立乘积近似值；用于建立乘积近似值的项集必须满足下列要求：

1)抽取的项集之间不包含重复的项

两个项集包含重复的项即这两个项集的所有项的集合之间存在交集；如果选择的项集之间存在重复的项则构建的乘积近似值将不满足属性独立假设，因为乘积项所表示的属性集合之间存在交集；

2)选择尽可能长的项集

项集的长度是指项集中包含项的个数；在抽取不包含重复项的前提下抽取的项集越长则乘积近似值中包含的乘积项就越少；所以建立的乘积近似值就越加符合属性独立假设；同时，在估计联合概率是也会将越多的属性依赖关系考虑进去；

3)选择尽可能覆盖待分类实例的项集集合

由于数据流是无限的而算法只能使用有限的内存，当有待分类实例到来时，算法不能遍历整个数据集来抽取项集；另外，由于数据流是动态的，数据的底层分布可能随时变化即存在概率漂移的情况，若发生概念漂移历史数据将不再适用于当前情况，所以近期的数据的重要性要大于历史数据；使用最近的数据建立分类模型也保证了分类模型在一定程度上避免了概率漂移的发生，因为它受到历史数据干扰较小；这些情况表明了在数据流上数据挖掘中可能存在抽取的项集集合不能够完全覆盖待分类实例的情况；

4)项集的最小集合

最小是指集合中包含的元素(即项集)个数最少；在尽可能抽取到足够多的项的情况下希望抽取到的项集集合是最小集，即希望组成乘积近似值的乘积项尽可能的少；这样可以最小化独立假设的数量，从而使得乘积近似值更加符合条件独立模型；

分类器的训练阶段的主要工作是处理数据，即抽取并维护事务中频繁或非频繁项以方便后续分类模型的建立；所以在这一阶段的主要任务是建立混合树结构，当有新的数据生成时更新滑动窗口和相应的混合树结构；当有分类请求时，PDSB抽取尽可能包含待分类实例所有项的频繁项集集合来估计贝叶斯理论中的概率。