CN106934035A

CN106934035A - 一种基于类与特征分布的多标签数据流中概念漂移检测方法

Info

Publication number: CN106934035A
Application number: CN201710151295.6A
Authority: CN
Inventors: 李培培; 李磊; 张玉红; 胡学钢; 刘俊峰; 何路; 吴共庆; 吴信东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-07-07
Anticipated expiration: 2037-03-14
Also published as: CN106934035B

Abstract

本发明公开了一种基于类与特征分布的多标签数据流中概念漂移检测方法，包括：1、根据滑动窗口机制将多标签数据流划分成数据块；2、统计数据块的类标签数据分布，并根据余弦相似度函数与海明损失函数计算类标签分布差异度，用于判断数据块是否发生概念漂移；3、统计数据块的特征数据分布，计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度，根据最大相关最小冗余的原则进行特征排序；4、选择前K个特征向量作为数据块的特征分布并计算特征分布差异度，用于判断数据块是否发生概念漂移。本发明可用于发现多标签数据流中基于类和特征分布变化引发的概念漂移，并根据类和特征分布的差异度判断漂移类型。

Description

一种基于类与特征分布的多标签数据流中概念漂移检测方法

技术领域

本发明属于实际应用中多标签Web数据流挖掘领域，特别是涉及一种基于类与特征分布变化来检测概念漂移问题的方法。

背景技术

随着Web2.0等信息技术的迅猛发展，实际应用领域如社交网络、在线购物、传感器网络等涌现出一种海量、高速和动态的数据——数据流。实际应用中这些数据流的示例会和多个类相关联，需要将示例同时归到多个类中，即存在多标记分类问题。例如：路透社的804414条新闻中平均每条新闻同时属于2.16个不同的类别；Web数据中存在着大量的网页，而每个网页包含的文本、图像与视频可能隐含不同的主题。例如：一篇关于贝克汉姆的网上报道文章，可以为其打上“娱乐”与“体育”两个不同的类标记；社交网络(包括：国内的腾讯/新浪微博、人人网，国外的Facebook、Twitter等)每天都会产生大量的用户数据，而其中包含的大量文本信息常归属不同的类。例如：新浪微博上的一篇关于雾霾的博文：“雾霾就是PM2.5超标造成的，全世界唯一可防PM2.5的隔离防晒霜就在这里啦”，既可以为其打上“大气污染”的标签，又可以为其打上“护肤品”、“广告”的标签。现实世界中的这些数据流(尤其是Web文本数据流)除具有快速、连续、多变、无限等固有特点外，又含有多个类标记，这一新特点使得发现与检测数据流中的概念漂移问题变得更加复杂，使得传统的数据挖掘算法甚至已有的数据流挖掘算法面临严峻的挑战：

挑战之一：传统的挖掘模型如分类模型(包括：Bayes、支持向量机SVMs、k-近邻、人工神经网络、决策树等)与流行的数据流分类算法(包括：基于Hoeffding决策树、基于增量式SVMs模型等)只能解决单标记分类问题，即利用训练样本建立模型并将测试样本分到某一类中，因而难以直接用于处理多标记数据；

挑战之二：人们尝试将其转换为单标记数据问题处理或设计新算法来处理多标记数据，然而，由于多为批处理算法，难以满足实际应用数据流处理时对时间与空间等方面的要求。

挑战之三：已有的数据流概念漂移检测方法大多基于分类错误率的变化来检测概念漂移，这种判断标准较适宜类分布变化导致的概念漂移，而忽略了概念漂移产生的原因可能是因为示例中的若干属性组成的集合变化，也可能是若干属性值的隐含分布规律的变化等，导致分类精度不高。同时这些方法多针对单标签数据流，因而已有检测机制也难以在实际应用的多标签数据流领域推广。

发明内容

本发明是为避免上述现有技术所存在的不足，提供一种基于类与特征分布的多标签数据流中概念漂移检测方法，以期能用于检测实际应用领域多标签数据流中隐含的用户兴趣漂移问题，从而能降低概念漂移检测的误报率、漏报率与延时，提高正确检测概念漂移的次数，达到快速发现用户的兴趣变化，为用户提供更满意的相关主题推荐以及为商家提供更有效的决策支持。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于类与特征分布的多标签数据流中概念漂移检测方法的特点是按如下步骤进行：

步骤1：根据滑动窗口机制将一组多标签数据流D＝{e₁,e₂,…,e_i,…,e_n}划分成N个数据块D＝{D₁,D₂,…,D_t,D_t+1,…,D_N}，其中，e_i表示所述多标签数据流D中第i个示例；D_t表示所述多标签数据流D中第t个数据块，D_t+1表示所述多标签数据流D中第t+1个数据块，并有：与与分别表示第t个数据块D_t中的第j个示例以及第t+1个数据块D_t+1中的第j个示例，并有：与分别表示第t个数据块D_t中的第j个示例的特征空间，以及第t+1个数据块D_t+1中的第j个示例的特征空间，表示一个D维的特征空间；与分别表示第t个数据块D_t中的第j个示例的类标签空间，以及第t+1个数据块D_t+1中的第j个示例的类标签空间，并有： L表示类标签空间中类标签的个数，表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值，表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值，1≤i≤n，1≤j≤m，1≤l≤L，1≤t≤N，

步骤2：根据余弦相似度函数与海明损失函数计算类标签分布变化：

步骤2.1、统计第t个数据块D_t和第t+1个数据块D_t+1的类标签分布，得到第t个数据块D_t的类标签分布信息和第t+1个数据块D_t+1的类标签分布信息其中，表示第t个数据块D_t的第l维类标签向量，表示第t+1个数据块D_t+1的第l维类标签向量，并有：与

同时统计得到第t个数据块D_t的第l维类标签向量和第t+1个数据块D_t+1的第l维类标签向量的两种类标签取值{0,1}的概率分布分别为与与分别表示第t个数据块D_t的第l维类标签向量的第r个类标签取值的概率，以及第t+1个数据块D_t+1的第l维类标签向量的第r个类标签取值的概率，从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的两种类标签取值{0,1}的概率分布，1≤l≤L，1≤t≤N；

步骤2.2、计算第t个数据块D_t的第l维类标签向量和第t+1个数据块D_t+1的第l维类标签向量的余弦相似度从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的余弦相似度均值1≤l≤L；

并利用式(1)计算第t+1个数据块D_t+1中的第j个示例与第t个数据块D_t中的所有示例的海明损失

式(1)中，XOR(·)表示异或运算，并有：

从而得到第t+1个数据块D_t+1中的所有示例与第t个数据块D_t中的所有示例的海明损失均值1≤j≤m；

将与的乘积作为第t个数据块D_t和第t+1个数据块D_t+1的类分布差异度distL_t,t+1；

步骤2.3、将所述类分布差异度distL_t,t+1与阈值α进行比较，0＜α＜1，若distL_t,t+1＞α，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为类分布变化；若distL_t,t+1≤α，表示第t+1个数据块D_t+1未发生概念漂移，并执行步骤3；

步骤3：根据最大相关最小冗余的原则进行特征排序：

步骤3.1、统计第t个数据块D_t和第t+1个数据块D_t+1的特征分布，得到第t个数据块D_t的特征分布信息和第t+1个数据块D_t+1的特征分布信息其中，表示第t个数据块D_t的第d维特征向量，并有：表示第t+1个数据块D_t+1的第d维特征向量，并有：表示第t个数据块D_t的第d维特征向量的第个特征取值，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值，与分别表示第t个数据块D_t的第d维特征向量的所有不同特征取值的个数，以及第t+1个数据块D_t+1的第d维特征向量的所有不同特征取值的个数；

统计得到第t个数据块D_t的第d维特征向量和第t+1个数据块D_t+1的第d维特征向量的特征取值的概率分布分别表示为与表示第t个数据块D_t的第d维特征向量的第个特征取值的概率，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值的概率， 1≤d≤D；

步骤3.2、分别计算第t个数据块D_t的第d维特征向量和第l维类标签向量的互信息以及第t+1个数据块D_t+1的第d维特征向量和第l维类标签向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有维特征向量和所有类标签向量的互信息，并作为特征向量与类标签向量的相关度；

步骤3.3、分别计算第t个数据块D_t的第d维特征向量与其他特征向量的互信息以及第t+1个数据块D_t+1的第d维特征向量与其他特征向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有特征向量间的互信息，并作为特征向量间的冗余度，d′≠d；

步骤3.4、分别计算第t个数据块D_t的第l维类标签向量与其他类标签向量的互信息以及第t+1个数据块D_t+1的第l维类标签向量与其他类标签向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有类标签向量间的互信息，并作为类标签向量间的相关度，l′≠l；

步骤3.5、利用式(3)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的特征分布信息X(D_t)之间的冗余度

步骤3.6、利用式(4)获得第t个数据块D_t的第l维类标签向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度作为第l维类标签向量的重要度

步骤3.7、利用Z-score标准化方法归一化第t个数据块D_t的第l维类标签向量的重要度可得到归一化后的第t个数据块D_t的第l维类标签向量的重要度

并利用式(5)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度从而获得第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度：

步骤3.8、对所述第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度进行降序排序，得到第t个数据块D_t在k时刻的初始特征向量集合表示第t个数据块D_t在k时刻的初始特征向量集合中第d维特征向量；

同理获得第t+1个数据块D_t+1在k时刻的初始特征向量集合表示第t+1个数据块D_t+1在k时刻的初始特征向量集合中第d维特征向量，k＝0；

步骤3.9、初始化第t个数据块D_t在k时刻排序后的特征向量集合

步骤3.10、利用式(6)计算第t个数据块D_t在k时刻第d维特征向量的重要度

从而获得第t个数据块D_t在k时刻所有维特征向量的重要度；

步骤3.11、从所述第t个数据块D_t在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述k时刻排序后的特征向量集合中，从而得到更新后的第t个数据块D_t的排序后的特征向量集合并删除所述k时刻初始特征向量集合X_k(D_t)中的特征向量从而得到更新后的第t个数据块D_t的初始特征向量集合

步骤3.12、将k+1赋值给k，并返回步骤3.10，直到k＝D-1为止；

步骤3.13、重复步骤3.9-步骤3.12，同理获得更新后的第t+1个数据块D_t+1的排序后的特征向量集合X′_k+1(D_t+1)；

步骤4、从所述第t个数据块D_t的排序后的特征向量集合X′_k+1(D_t)和第t+1个数据块D_t+1的排序后的特征向量集合X′_k+1(D_t+1)中分别选择前K个特征向量及其所对应的重要度，作为第t个数据块的特征分布和第t+1个数据块D_t+1的特征分布F(D_t)与F(D_t+1)；并利用余弦相似度函数计算第t个数据块D_t的特征分布集合与第t+1个数据块D_t+1的特征分布集合相似度cos(F(D_t),F(D_t+1))，再将1-cos(F(D_t),F(D_t+1))作为第t个数据块D_t和第t+1个数据块D_t+1的特征分布差异度distF_t,t+1；

将所述特征分布差异度distF_t,t+1与阈值β进行比较，0＜β＜1，若distF_t,t+1＞β，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为特征分布变化；若distF_t,t+1≤β，则表示第t+1个数据块D_t+1未发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为无漂移。

与已有技术相比，本发明有益效果体现如下：

1、本发明综合考虑了数据流中概念漂移产生原因的多样性，利用基于滑动窗口机制的数据块间类与特征分布变化的度量方法，用于发现多标签数据流中隐含的用户兴趣漂移现象，既克服了已有数据流概念漂移检测方法多基于分类错误率判断漂移类型，难以发现特征分布变化带来的概念漂移，导致分类精度降低的问题；又克服了这些漂移检测方法仅适宜于单标签数据流的处理，难以适应具有多标签的数据流环境的问题；从而有效降低了概念漂移检测的误报率、漏报率与延时，提高了概念漂移检测的准确率，达到快速发现用户的兴趣变化的目的。

2、本发明从类标签向量维和示例维两个角度考虑了多标签数据流中类标签分布的差异，分别利用余弦相似度函数与海明损失函数评估两维度的分布差异，并设计了类标签分布差异的综合度量函数，为多标签数据流中类分布变化引发的概念漂移问题提供了量化依据和求解方案。

3、本发明基于互信息理论设计了面向多标签数据流的标签重要度以及特征向量与类标签向量相关度的计算方法，根据最大相关与最小冗余原则，设计了基于特征排序的特征分布差异度量方法用于检测多标签数据流中的概念漂移问题；既考虑了类标签之间的差异度，又考虑了特征维与若干类标签之间的依赖关系，为多标签数据流特征分布变化引发的概念漂移问题提供了量化依据，同时也为基于特征分布变化求解概念漂移问题提供了新的解决方案，降低了数据高维稀疏问题对概念漂移检测的影响，提高了概念漂移检测的准确率。

4、本发明面向实际应用领域如：社交网络用户兴趣的跟踪与挖掘，可用于舆情发现实现舆情监控服务；网上购物用户行为模式变化的跟踪与挖掘，从而为商家、消费者提供预测、预警工作，为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐。

附图说明

图1为本发明多标签数据流中概念漂移检测方法框架示意图；

图2为本发明基于余弦相似度函数与海明损失函数计算数据块间类分布差异度的过程示意图；

图3为本发明基于最大相关最小冗余原则进行特征排序并计算数据块间特征分布差异度的过程示意图。

具体实施方式

本实施例中，如图1所示，一种基于类与特征分布的多标签数据流中概念漂移检测方法是按如下步骤进行：

步骤1：根据滑动窗口机制将数据流划分成数据块：

输入一组多标签数据流D＝{e₁,e₂,…，e_i,…,e_n}，根据滑动窗口机制将多标签数据流D划分成N个数据块D＝{D₁,D₂,…D_t,D_t+1,…,D_N}，其中，e_i表示所述多标签数据流D中第i个示例；D_t表示所述多标签数据流D中第t个数据块，D_t+1表示所述多标签数据流D中第t+1个数据块，并有：与分别表示第t个数据块D_t中的第j个示例以及第t+1个数据块D_t+1中的第j个示例，并有：与分别表示第t个数据块D_t中的第j个示例的特征空间，以及第t+1个数据块D_t+1中的第j个示例的特征空间，表示一个D维的特征空间；与分别表示第t个数据块D_t中的第j个示例的类标签空间，以及第t+1个数据块D_t+1中的第j个示例的类标签空间，并有： L表示类标签空间中类标签的个数，表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值，表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值，1≤i≤n，1≤j≤m，1≤l≤L，1≤t≤N，

本实施例中，如表1所示的给定一组含有10个示例的多标签数据流，基于滑动窗口机制等分数据块D＝{D₁,D₂}，可划分N＝2个数据块，m＝5，D＝3，L＝3，分别记为第1个数据块和第2个数据块；

表1某多标签数据流中10条抽样数据

步骤2：统计每个数据块的类标签数据分布，并根据余弦相似度函数与海明损失函数计算相邻数据块的类分布差异度，进而根据类分布差异度判断相邻数据块中最新到来的数据块是否发生概念漂移。具体的说，

2.1、初始化t＝1。

2.2、当第t个数据块和第t+1个数据块到来时，统计第t个数据块D_t的类标签分布信息记为和第t+1个数据块D_t+1的类标签分布信息记为其中,表示第t个数据块D_t的第l维类标签向量，表示第t+1个数据块D_t+1的第l维类标签向量，并有：

同时统计得到第t个数据块D_t的第l维类标签向量和第t+1个数据块D_t+1的第l维类标签向量的两种类标签取值{0,1}的概率分布，分别表示为与与分别表示第t个数据块D_t的第l维类标签向量的第r个取值的概率，以及第t+1个数据块D_t+1的第l维类标签向量的第r个取值的概率，从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的两种类标签取值{0,1}的概率分布，1≤l≤L，1≤t≤N；

2.3、利用式(1)计算第t个数据块D_t所有示例的第l维类标签向量和第t+1个数据块D_t+1的第l维类标签向量的余弦相似度

从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的余弦相似度均值1≤l≤L；

2.4、利用式(2)计算第t+1个数据块D_t+1中的第j个示例与第t个数据块D_t中的所有示例的海明损失

式(2)中，XOR(·)表示异或运算，并有：

2.5、利用式(4)计算第t个数据块D_t与第t+1个数据块D_t+1的类分布差异度：

2.6、将所述类分布差异度distL_t,t+1与阈值α进行比较，0＜α＜1，若distL_t,t+1＞α，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为类分布变化；若distL_t,t+1≤α，表示第t+1个数据块D_t+1未发生概念漂移，并执行步骤3；

步骤3：统计每个数据块的特征数据分布，计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度，根据最大相关最小冗余的原则，计算相关度与冗余度的差值并进行特征排序。具体的说，

步骤3.1、统计第t个数据块D_t和第t+1个数据块D_t+1的特征分布，得到第t个数据块D_t的特征分布信息和第t+1个数据块D_t+1的特征分布信息其中，表示第t个数据块D_t的第d维特征向量，并有：表示第t+1个数据块D_t+1的第d维特征向量，并有：表示第t个数据块D_t的第d维特征向量的第个特征取值，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值，与分别表示第t个数据块D_t的第d维特征向量的所有不同特征取值的个数，以及第t+1个数据块D_t+1的第d维特征向量的所有不同特征取值的个数；同时统计得到第t个数据块D_t的第d维特征向量和第t+1个数据块D_t+1的第d维特征向量的特征取值的概率分布分别表示为与表示第t个数据块D_t的第d维特征向量的第个特征取值的概率，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值的概率，1≤d≤D；

步骤3.2、初始化d＝1；

步骤3.3、初始化l＝1；

步骤3.4、利用式(5)计算第t个数据块D_t的第d维特征向量和第l维类标签向量的互信息

并作为第t个数据块D_t的第d维特征向量和第l维类标签向量的相关度其中表示第t个数据块D_t的第d维特征向量的信息熵，表示第t个数据块D_t的第l维类标签向量的信息熵，表示第t个数据块D_t的第d维特征向量和第l维类标签向量的特征取值与类标签取值同现的信息熵；表示第t个数据块D_t的第d维特征向量的第个特征取值的概率，表示第t个数据块D_t的第d维特征向量的第个特征取值与第l维类标签向量的第r个类标签取值同现的概率；

步骤3.5、赋值l+1给l，并返回步骤3.4，直到l＝L；

步骤3.6、赋值d+1给d，重复步骤3.3～步骤3.5，直到d＝D；

步骤3.7、同理，重复步骤3.2～步骤3.6，从而获得第t+1个数据块D_t+1中所有维特征向量和所有类标签向量的互信息，并作为特征向量与类标签向量的相关度；

步骤3.8、初始化d＝1；

步骤3.9、初始化d'＝d+1；

步骤3.10、利用式(6)计算第t个数据块D_t的第d维特征向量与其他特征向量的互信息

并作为第t个数据块D_t的第d维特征向量和其他特征向量的冗余度

步骤3.11、赋值d'+1给d'，并返回步骤3.10，直到d'＝D；

步骤3.12、赋值d+1给d，重复步骤3.9～步骤3.11，直到d＝D-1；

步骤3.13、同理，重复步骤3.8～步骤3.12，从而获得第t+1个数据块D_t+1中所有特征向量间的互信息，并作为特征向量间的冗余度；

步骤3.14、初始化l＝1；

步骤3.15、初始化l′＝l+1；

步骤3.16、利用式(7)计算第t个数据块D_t的第l维类标签向量与其他类标签向量的互信息

并作为第t个数据块D_t的第l维类标签向量与其他类标签向量的相关度

步骤3.17、赋值l'+1给l'，并返回步骤3.16，直到l'＝L；

步骤3.18、赋值l+1给l，重复步骤3.15～步骤3.17，直到l＝L-1；

步骤3.19、同理，重复步骤3.14～步骤3.18，从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有类标签向量间的互信息，并作为类标签向量间的相关度；

步骤3.20、利用式(8)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的特征分布信息X(D_t)之间的冗余度

步骤3.21、利用式(9)获得第t个数据块D_t的第l维类标签向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度作为第l维类标签向量的重要度

步骤3.22、利用式(10)Z-score标准化方法归一化第t个数据块D_t的第l维类标签向量的重要度可得到归一化后的第t个数据块D_t的第l维类标签向量的重要度Δ＝10^-10：

步骤3.23、利用式(11)获得第t个数据块D_t的第d维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度

从而获得第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度；

步骤3.24、对所述第t个数据块D_t中所有维特征向量与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度进行降序排序，得到第t个数据块D_t在k时刻的初始特征向量集合表示第t个数据块D_t在k时刻的初始特征向量集合中第d维特征向量；

同理获得第t+1个数据块D_t+1在k时刻的初始特征向量集合表示第t+1个数据块D_t+1在k时刻的初始特征向量集合中第d维特征向量；k＝0；

步骤3.25、初始化第t个数据块D_t在k时刻排序后的特征向量集合

步骤3.26、利用式(12)计算第t个数据块D_t在k时刻第d维特征向量的重要度

从而获得第t个数据块D_t在k时刻所有维特征向量的重要度；

步骤3.27、从所述第t个数据块D_t在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述排序后的特征向量集合中，从而得到更新后的第t个数据块D_t的排序后的特征向量集合并删除所述初始特征向量集合X_k(D_t)中的特征向量从而得到更新后的第t个数据块D_t的初始特征向量集合X_k+1(D_t)

步骤3.28、将k+1赋值给k，并返回步骤3.26，直到k＝D-1为止，从而获得更新后的第t个数据块D_t的最终排序后的特征向量集合记为；表示第t个数据块D_t在k+1时刻排序后的特征向量集合中第d维特征向量；

步骤3.29、重复步骤3.25-步骤3.28，同理获得更新后的第t+1个数据块D_t+1的最终排序后的特征向量集合其中，表示第t+1个数据块D_t+1在k+1时刻排序后的特征向量集合中第d维特征向量；

步骤4：选择前K个特征向量作为数据块的特征分布，并利用余弦相似度函数计算相邻数据块的特征分布差异度，进而根据特征分布差异度判断相邻数据块中最新到来的数据块是否发生概念漂移。具体的说，

步骤4.1、从所述更新后的第t个数据块D_t在k+1时刻排序后的特征向量集合和第t+1个数据块D_t+1在k+1时刻排序后的特征向量集合X_k′₊₁(D_t+1)中分别选择前K个特征向量及其所对应的重要度，作为第t个数据块和第t+1个数据块D_t+1的的特征分布F(D_t)与F(D_t+1)，并有：和

步骤4.2、利用式(13)计算第t个数据块D_t的特征分布与第t+1个数据块D_t+1的特征分布的余弦相似度cos(F(D_t),F(D_t+1))：

并将1-cos(F(D_t),F(D_t+1))作为第t个数据块D_t和第t+1个数据块D_t+1的特征分布差异度distF_t,t+1；

步骤4.3、比较特征分布差异度distF_t,t+1与阈值β的大小，若distF_t,t+1＞β，则表示第t+1个数据块D_t+1发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为特征分布变化；若distF_t,t+1≤β，则表示第t+1个数据块D_t+1未发生概念漂移，并输出第t+1个数据块D_t+1的概念漂移类型为无漂移；0＜β＜1；

步骤4.4、赋值t+1给t，返回步骤2.2，直到t＝N-1。

本实施例中，根据余弦相似度函数与海明损失函数计算数据块间的类分布差异度过程，如图2所示，具体按如下步骤进行：

(1)统计第1个数据块D₁的类标签分布信息记为和第2个数据块D₂的类标签分布信息记为其中，第1个数据块D₁的第1维～第3维类标签向量分别表示为和第2个数据块D₁的第1维～第3维类标签向量分别表示为和同时统计得到第1个数据块D₁的第1维～第3维类标签向量的两种类标签取值{0,1}的概率分布分别表示为与统计得到第2个数据块D₂的第1维～第3维类标签向量的两种类标签取值{0,1}的概率分布分别表示为与

(2)根据第1个数据块D₁和第2个数据块D₂的类标签分布信息，分别计算第1个数据块D₁和第2个数据块D₂的每一维类标签向量的余弦相似度：

(3)计算第2个数据块D₂中的第1个示例分别与第1个数据块D₁中的所有5个示例的海明损失

其中，

同理得到第2个数据块D₂中的第2个示例和第3个示例分别与第1个数据块D₁中的所有5个示例的海明损失与从而得到第2个数据块D₂中的所有示例与第1个数据块D₁中的所有示例的海明损失均值

(4)计算第1个数据块D₁中的所有示例与第2个数据块D₂的类分布差异度

(5)给定阈值α＝0.2，比较distL_1,2与α，由于distF_1,2＜α，则表示第2个数据块D₂未发生类分布变化的概念漂移，需进一步执行特征分布变化的检测；

本实施例中，根据最大相关最小冗余机制进行特征排序，并计算数据块间的特征分布差异度过程，如图3所示，具体按如下步骤进行：

(1)统计第1个数据块D₁和第2个数据块D₂的特征分布，得到第1个数据块D₁的特征分布信息和第2个数据块D₂的特征分布信息其中，第1个数据块D₁的第1维～第3维特征向量分别表示第2个数据块D₁的第1维～第3维特征向量分别表示同时统计得到第1个数据块D₁的第1～第3维特征向量的特征取值概率分布分别表示为统计得到第2个数据块D₂的第1～第3维特征向量的特征取值概率分布分别表示为

(2)计算第1个数据块D₁的第1维特征向量和第1维类标签向量的互信息

并作为第1个数据块D₁的第1维特征向量和第1维类标签向量的相关度同理，可获得第1个数据块D₁的所有维特征向量和所有维类标签向量的相关度从而获得第2个数据块D₂所有维特征向量和所有维类标签向量的相关度

(3)计算第1个数据块D₁的第1维特征向量与第2维特征向量的互信息

并作为第1个数据块D₁的第1维特征向量和第2维特征向量的冗余度同理，可获得第1个数据块D₁的所有维特征向量间的冗余度：可获得第2个数据块D₂的所有维特征向量间的冗余度：

(4)计算第1个数据块D₁的第1维类标签向量与第2维类标签向量的互信息

并作为第1个数据块D₁的第1维类标签向量与第2维类标签向量的相关度同理，可获得第1个数据块D₁的所有维类标签向量间的相关度：可获得第2个数据块D₂的所有维类标签向量间的相关度分别为

(5)计算第1个数据块D₁的第1维特征向量与第1个数据块D₁的特征分布信息X(D₁)之间的冗余度

从而可获得第1个数据块D₁的第1维～第3维特征向量与第1个数据块D₁的特征分布信息X(D₁)之间的冗余度可获得第2个数据块D₂的第1维～第3维特征向量与第2个数据块D₂的特征分布信息X(D₂)之间的冗余度

(6)计算第1个数据块D₁的第1维类标签向量与第1个数据块D₁的类标签分布信息Y(D₁)之间相关度作为第1维类标签向量的重要度

从而获得第1个数据块D₁和第2个数据块D₂的第1维～第3维类标签向量的重要度分别为

(7)计算第1个数据块D₁的第1维特征向量与第1个数据块D₁的类标签分布信息Y(D₁)之间的相关度

从而获得第1个数据块D₁中所有维特征向量与第1个数据块D₁的类标签分布信息Y(D₁)之间的相关度分别为获得第2个数据块D₂中所有维特征向量与第2个数据块D₂的类标签分布信息Y(D₂)之间的相关度分别为

(8)对所述第1个数据块D₁中所有维特征向量与第1个数据块D₁的类标签分布信息Y(D₁)之间的相关度进行降序排序，得到第1个数据块D₁在k＝0时刻的初始特征向量集合同理，得到第2个数据块D₂在k＝0时刻的初始特征向量集合

(9)初始化第1个数据块D₁与第2个数据块D₂在k＝0时刻排序后的特征向量集合分别为

(10)计算第1个数据块D₁在k＝0时刻第1维特征向量的重要度

从而获得第1个数据块D₁在k＝0时刻所有维特征向量的重要度分别表示为：同理获得第2个数据块D₂在k＝0时刻所有维特征向量的重要度分别表示为：

(11)从第1个数据块D₁在k＝0时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述排序后的特征向量集合X₀′(D₁)，从而得到更新后的第1个数据块D₁的k＝1时刻的排序后的特征向量集合并删除所述初始特征向量集合X₀(D₁)中的特征向量从而得到更新后的第1个数据块D₁的k＝1时刻的初始特征向量集合

同理，获得更新后的第2个数据块D₂的k＝1时刻的排序后的特征向量集合和更新后的第1个数据块D₁的k＝1时刻的初始特征向量集合迭代执行直到k＝2停止，从而获得最终更新后的第1个数据块D₁与第2个数据块D₂的排序后的特征向量集合分别表示为与

(12)从最终更新后的第1个数据块D₁与第2个数据块D₂的排序后的特征向量集合X₃′(D₁)和X₃′(D₂)中，分别选择前K＝2个特征向量及其所对应的重要度作为第1个数据块D₁与第2个数据块D₂的特征分布集合，记为：

(13)计算第1个数据块D₁与第2个数据块D₂的特征分布集合的余弦相似度cos(F(D₁),F(D₂))：

并将1-cos(F(D₁),F(D₂))作为第1个数据块D₁和第2个数据块D₂的特征分布差异度distF_1,2＝1-0.9789＝0.0211；

(14)给定阈值β＝0.2，distF_t,t+1＜β，则表示第2个数据块D₂未发生概念漂移，并输出第2个数据块D₂的概念漂移类型为无漂移。

Claims

1.一种基于类与特征分布的多标签数据流中概念漂移检测方法，其特征是按如下步骤进行：

步骤2.1、统计第t个数据块D_t和第t+1个数据块D_t+1的类标签分布，得到第t个数据块D_t的类标签分布信息和第t+1个数据块D_t+1的类标签分布信息其中，Y_l ^t表示第t个数据块D_t的第l维类标签向量，Y_l ^t+1表示第t+1个数据块D_t+1的第l维类标签向量，并有：与

同时统计得到第t个数据块D_t的第l维类标签向量Y_l ^t和第t+1个数据块D_t+1的第l维类标签向量Y_l ^t+1的两种类标签取值{0,1}的概率分布分别为与与分别表示第t个数据块D_t的第l维类标签向量Y_l ^t的第r个类标签取值的概率，以及第t+1个数据块D_t+1的第l维类标签向量Y_l ^t+1的第r个类标签取值的概率，从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的两种类标签取值{0,1}的概率分布，1≤l≤L，1≤t≤N；

步骤2.2、计算第t个数据块D_t的第l维类标签向量Y_l ^t和第t+1个数据块D_t+1的第l维类标签向量Y_l ^t+1的余弦相似度从而得到第t个数据块D_t和第t+1个数据块D_t+1的所有维类标签向量的余弦相似度均值

{ham}_{t, t + 1}^{j} = {Min}_{e_{j}^{t} &Element; D_{t}} X O R (Y (e_{j}^{t + 1}), Y (e_{j}^{t})) - - - (1)

式(1)中，XOR(·)表示异或运算，并有：

X O R (Y (e_{j}^{t + 1}), Y (e_{j}^{t})) = \frac{1}{L} Σ_{l = 1}^{L} X O R (y_{j l}^{t + 1}, y_{j l}^{t}) - - - (2)

从而得到第t+1个数据块D_t+1中的所有示例与第t个数据块D_t中的所有示例的海明损失均值

步骤3：根据最大相关最小冗余的原则进行特征排序：

统计得到第t个数据块D_t的第d维特征向量和第t+1个数据块D_t+1的第d维特征向量的特征取值的概率分布分别表示为与表示第t个数据块D_t的第d维特征向量的第个特征取值的概率，表示第t+1个数据块D_t+1的第d维特征向量的第个特征取值的概率，

步骤3.4、分别计算第t个数据块D_t的第l维类标签向量Y_l ^t与其他类标签向量的互信息以及第t+1个数据块D_t+1的第l维类标签向量Y_l ^t+1与其他类标签向量的互信息从而获得第t个数据块D_t以及第t+1个数据块D_t+1中所有类标签向量间的互信息，并作为类标签向量间的相关度，l′≠l；

R (X_{d}^{t}, X (D_{t})) = \frac{1}{D - 1} \underset{X_{d^{'}}^{t} &Element; X (D_{t}), d^{'} &NotEqual; d}{Σ} R (X_{d}^{t}, X_{d^{'}}^{t}) - - - (3)

步骤3.6、利用式(4)获得第t个数据块D_t的第l维类标签向量Y_l ^t与第t个数据块D_t的类标签分布信息Y(D_t)之间的相关度作为第l维类标签向量Y_l ^t的重要度W(Y_l ^t)：

W (Y_{l}^{t}) = \frac{1}{L - 1} \underset{Y_{l^{'}}^{t} &Element; Y (D_{t}), l^{'} &NotEqual; l}{Σ} D (Y_{l}^{t}, Y_{l^{'}}^{t}) - - - (4)

步骤3.7、利用Z-score标准化方法归一化第t个数据块D_t的第l维类标签向量Y_l ^t的重要度W(Y_l ^t)，可得到归一化后的第t个数据块D_t的第l维类标签向量Y_l ^t的重要度W'(Y_l ^t)；

D (X_{d}^{t}, Y (D_{t})) = \frac{1}{L} \underset{Y_{l}^{t} &Element; Y (D_{t})}{Σ} (W^{'} (Y_{l}^{t}) \cdot D (X_{d}^{t}, Y_{l}^{t})) - - - (5)

Φ (X_{d}^{t} (k)) = D (X_{d}^{t} (k), Y (D_{t})) - R (X_{d}^{t} (k), X_{k}^{'} (D_{k})) - - - (6)

从而获得第t个数据块D_t在k时刻所有维特征向量的重要度；

步骤3.11、从所述第t个数据块D_t在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述k时刻排序后的特征向量集合X′_k(D_t)中，从而得到更新后的第t个数据块D_t的排序后的特征向量集合X′_k+1(D_t)；并删除所述k时刻初始特征向量集合X_k(D_t)中的特征向量从而得到更新后的第t个数据块D_t的初始特征向量集合X_k+1(D_t)；

步骤3.12、将k+1赋值给k，并返回步骤3.10，直到k＝D-1为止；