CN106934035A - 一种基于类与特征分布的多标签数据流中概念漂移检测方法 - Google Patents

一种基于类与特征分布的多标签数据流中概念漂移检测方法 Download PDF

Info

Publication number
CN106934035A
CN106934035A CN201710151295.6A CN201710151295A CN106934035A CN 106934035 A CN106934035 A CN 106934035A CN 201710151295 A CN201710151295 A CN 201710151295A CN 106934035 A CN106934035 A CN 106934035A
Authority
CN
China
Prior art keywords
data block
class label
vector
distribution
dimensional feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710151295.6A
Other languages
English (en)
Other versions
CN106934035B (zh
Inventor
李培培
李磊
张玉红
胡学钢
刘俊峰
何路
吴共庆
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201710151295.6A priority Critical patent/CN106934035B/zh
Publication of CN106934035A publication Critical patent/CN106934035A/zh
Application granted granted Critical
Publication of CN106934035B publication Critical patent/CN106934035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本发明公开了一种基于类与特征分布的多标签数据流中概念漂移检测方法,包括:1、根据滑动窗口机制将多标签数据流划分成数据块;2、统计数据块的类标签数据分布,并根据余弦相似度函数与海明损失函数计算类标签分布差异度,用于判断数据块是否发生概念漂移;3、统计数据块的特征数据分布,计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度,根据最大相关最小冗余的原则进行特征排序;4、选择前K个特征向量作为数据块的特征分布并计算特征分布差异度,用于判断数据块是否发生概念漂移。本发明可用于发现多标签数据流中基于类和特征分布变化引发的概念漂移,并根据类和特征分布的差异度判断漂移类型。

Description

一种基于类与特征分布的多标签数据流中概念漂移检测方法
技术领域
本发明属于实际应用中多标签Web数据流挖掘领域,特别是涉及一种基于类与特征分布变化来检测概念漂移问题的方法。
背景技术
随着Web2.0等信息技术的迅猛发展,实际应用领域如社交网络、在线购物、传感器网络等涌现出一种海量、高速和动态的数据——数据流。实际应用中这些数据流的示例会和多个类相关联,需要将示例同时归到多个类中,即存在多标记分类问题。例如:路透社的804414条新闻中平均每条新闻同时属于2.16个不同的类别;Web数据中存在着大量的网页,而每个网页包含的文本、图像与视频可能隐含不同的主题。例如:一篇关于贝克汉姆的网上报道文章,可以为其打上“娱乐”与“体育”两个不同的类标记;社交网络(包括:国内的腾讯/新浪微博、人人网,国外的Facebook、Twitter等)每天都会产生大量的用户数据,而其中包含的大量文本信息常归属不同的类。例如:新浪微博上的一篇关于雾霾的博文:“雾霾就是PM2.5超标造成的,全世界唯一可防PM2.5的隔离防晒霜就在这里啦”,既可以为其打上“大气污染”的标签,又可以为其打上“护肤品”、“广告”的标签。现实世界中的这些数据流(尤其是Web文本数据流)除具有快速、连续、多变、无限等固有特点外,又含有多个类标记,这一新特点使得发现与检测数据流中的概念漂移问题变得更加复杂,使得传统的数据挖掘算法甚至已有的数据流挖掘算法面临严峻的挑战:
挑战之一:传统的挖掘模型如分类模型(包括:Bayes、支持向量机SVMs、k-近邻、人工神经网络、决策树等)与流行的数据流分类算法(包括:基于Hoeffding决策树、基于增量式SVMs模型等)只能解决单标记分类问题,即利用训练样本建立模型并将测试样本分到某一类中,因而难以直接用于处理多标记数据;
挑战之二:人们尝试将其转换为单标记数据问题处理或设计新算法来处理多标记数据,然而,由于多为批处理算法,难以满足实际应用数据流处理时对时间与空间等方面的要求。
挑战之三:已有的数据流概念漂移检测方法大多基于分类错误率的变化来检测概念漂移,这种判断标准较适宜类分布变化导致的概念漂移,而忽略了概念漂移产生的原因可能是因为示例中的若干属性组成的集合变化,也可能是若干属性值的隐含分布规律的变化等,导致分类精度不高。同时这些方法多针对单标签数据流,因而已有检测机制也难以在实际应用的多标签数据流领域推广。
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于类与特征分布的多标签数据流中概念漂移检测方法,以期能用于检测实际应用领域多标签数据流中隐含的用户兴趣漂移问题,从而能降低概念漂移检测的误报率、漏报率与延时,提高正确检测概念漂移的次数,达到快速发现用户的兴趣变化,为用户提供更满意的相关主题推荐以及为商家提供更有效的决策支持。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于类与特征分布的多标签数据流中概念漂移检测方法的特点是按如下步骤进行:
步骤1:根据滑动窗口机制将一组多标签数据流D={e1,e2,…,ei,…,en}划分成N个数据块D={D1,D2,…,Dt,Dt+1,…,DN},其中,ei表示所述多标签数据流D中第i个示例;Dt表示所述多标签数据流D中第t个数据块,Dt+1表示所述多标签数据流D中第t+1个数据块,并有: 分别表示第t个数据块Dt中的第j个示例以及第t+1个数据块Dt+1中的第j个示例,并有: 分别表示第t个数据块Dt中的第j个示例的特征空间,以及第t+1个数据块Dt+1中的第j个示例的特征空间, 表示一个D维的特征空间;分别表示第t个数据块Dt中的第j个示例的类标签空间,以及第t+1个数据块Dt+1中的第j个示例的类标签空间,并有: L表示类标签空间中类标签的个数,表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值,表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值,1≤i≤n,1≤j≤m,1≤l≤L,1≤t≤N,
步骤2:根据余弦相似度函数与海明损失函数计算类标签分布变化:
步骤2.1、统计第t个数据块Dt和第t+1个数据块Dt+1的类标签分布,得到第t个数据块Dt的类标签分布信息和第t+1个数据块Dt+1的类标签分布信息其中,表示第t个数据块Dt的第l维类标签向量,表示第t+1个数据块Dt+1的第l维类标签向量,并有:
同时统计得到第t个数据块Dt的第l维类标签向量和第t+1个数据块Dt+1的第l维类标签向量的两种类标签取值{0,1}的概率分布分别为 分别表示第t个数据块Dt的第l维类标签向量的第r个类标签取值的概率,以及第t+1个数据块Dt+1的第l维类标签向量的第r个类标签取值的概率,从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的两种类标签取值{0,1}的概率分布,1≤l≤L,1≤t≤N;
步骤2.2、计算第t个数据块Dt的第l维类标签向量和第t+1个数据块Dt+1的第l维类标签向量的余弦相似度从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的余弦相似度均值1≤l≤L;
并利用式(1)计算第t+1个数据块Dt+1中的第j个示例与第t个数据块Dt中的所有示例的海明损失
式(1)中,XOR(·)表示异或运算,并有:
从而得到第t+1个数据块Dt+1中的所有示例与第t个数据块Dt中的所有示例的海明损失均值1≤j≤m;
的乘积作为第t个数据块Dt和第t+1个数据块Dt+1的类分布差异度distLt,t+1
步骤2.3、将所述类分布差异度distLt,t+1与阈值α进行比较,0<α<1,若distLt,t+1>α,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为类分布变化;若distLt,t+1≤α,表示第t+1个数据块Dt+1未发生概念漂移,并执行步骤3;
步骤3:根据最大相关最小冗余的原则进行特征排序:
步骤3.1、统计第t个数据块Dt和第t+1个数据块Dt+1的特征分布,得到第t个数据块Dt的特征分布信息和第t+1个数据块Dt+1的特征分布信息其中,表示第t个数据块Dt的第d维特征向量,并有: 表示第t+1个数据块Dt+1的第d维特征向量,并有: 表示第t个数据块Dt的第d维特征向量的第个特征取值,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值,分别表示第t个数据块Dt的第d维特征向量的所有不同特征取值的个数,以及第t+1个数据块Dt+1的第d维特征向量的所有不同特征取值的个数;
统计得到第t个数据块Dt的第d维特征向量和第t+1个数据块Dt+1的第d维特征向量的特征取值的概率分布分别表示为 表示第t个数据块Dt的第d维特征向量的第个特征取值的概率,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值的概率, 1≤d≤D;
步骤3.2、分别计算第t个数据块Dt的第d维特征向量和第l维类标签向量的互信息以及第t+1个数据块Dt+1的第d维特征向量和第l维类标签向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有维特征向量和所有类标签向量的互信息,并作为特征向量与类标签向量的相关度;
步骤3.3、分别计算第t个数据块Dt的第d维特征向量与其他特征向量的互信息以及第t+1个数据块Dt+1的第d维特征向量与其他特征向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有特征向量间的互信息,并作为特征向量间的冗余度,d′≠d;
步骤3.4、分别计算第t个数据块Dt的第l维类标签向量与其他类标签向量的互信息以及第t+1个数据块Dt+1的第l维类标签向量与其他类标签向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有类标签向量间的互信息,并作为类标签向量间的相关度,l′≠l;
步骤3.5、利用式(3)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的特征分布信息X(Dt)之间的冗余度
步骤3.6、利用式(4)获得第t个数据块Dt的第l维类标签向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度作为第l维类标签向量的重要度
步骤3.7、利用Z-score标准化方法归一化第t个数据块Dt的第l维类标签向量的重要度可得到归一化后的第t个数据块Dt的第l维类标签向量的重要度
并利用式(5)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度从而获得第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度:
步骤3.8、对所述第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度进行降序排序,得到第t个数据块Dt在k时刻的初始特征向量集合 表示第t个数据块Dt在k时刻的初始特征向量集合中第d维特征向量;
同理获得第t+1个数据块Dt+1在k时刻的初始特征向量集合 表示第t+1个数据块Dt+1在k时刻的初始特征向量集合中第d维特征向量,k=0;
步骤3.9、初始化第t个数据块Dt在k时刻排序后的特征向量集合
步骤3.10、利用式(6)计算第t个数据块Dt在k时刻第d维特征向量的重要度
从而获得第t个数据块Dt在k时刻所有维特征向量的重要度;
步骤3.11、从所述第t个数据块Dt在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述k时刻排序后的特征向量集合中,从而得到更新后的第t个数据块Dt的排序后的特征向量集合并删除所述k时刻初始特征向量集合Xk(Dt)中的特征向量从而得到更新后的第t个数据块Dt的初始特征向量集合
步骤3.12、将k+1赋值给k,并返回步骤3.10,直到k=D-1为止;
步骤3.13、重复步骤3.9-步骤3.12,同理获得更新后的第t+1个数据块Dt+1的排序后的特征向量集合X′k+1(Dt+1);
步骤4、从所述第t个数据块Dt的排序后的特征向量集合X′k+1(Dt)和第t+1个数据块Dt+1的排序后的特征向量集合X′k+1(Dt+1)中分别选择前K个特征向量及其所对应的重要度,作为第t个数据块的特征分布和第t+1个数据块Dt+1的特征分布F(Dt)与F(Dt+1);并利用余弦相似度函数计算第t个数据块Dt的特征分布集合与第t+1个数据块Dt+1的特征分布集合相似度cos(F(Dt),F(Dt+1)),再将1-cos(F(Dt),F(Dt+1))作为第t个数据块Dt和第t+1个数据块Dt+1的特征分布差异度distFt,t+1
将所述特征分布差异度distFt,t+1与阈值β进行比较,0<β<1,若distFt,t+1>β,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为特征分布变化;若distFt,t+1≤β,则表示第t+1个数据块Dt+1未发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为无漂移。
与已有技术相比,本发明有益效果体现如下:
1、本发明综合考虑了数据流中概念漂移产生原因的多样性,利用基于滑动窗口机制的数据块间类与特征分布变化的度量方法,用于发现多标签数据流中隐含的用户兴趣漂移现象,既克服了已有数据流概念漂移检测方法多基于分类错误率判断漂移类型,难以发现特征分布变化带来的概念漂移,导致分类精度降低的问题;又克服了这些漂移检测方法仅适宜于单标签数据流的处理,难以适应具有多标签的数据流环境的问题;从而有效降低了概念漂移检测的误报率、漏报率与延时,提高了概念漂移检测的准确率,达到快速发现用户的兴趣变化的目的。
2、本发明从类标签向量维和示例维两个角度考虑了多标签数据流中类标签分布的差异,分别利用余弦相似度函数与海明损失函数评估两维度的分布差异,并设计了类标签分布差异的综合度量函数,为多标签数据流中类分布变化引发的概念漂移问题提供了量化依据和求解方案。
3、本发明基于互信息理论设计了面向多标签数据流的标签重要度以及特征向量与类标签向量相关度的计算方法,根据最大相关与最小冗余原则,设计了基于特征排序的特征分布差异度量方法用于检测多标签数据流中的概念漂移问题;既考虑了类标签之间的差异度,又考虑了特征维与若干类标签之间的依赖关系,为多标签数据流特征分布变化引发的概念漂移问题提供了量化依据,同时也为基于特征分布变化求解概念漂移问题提供了新的解决方案,降低了数据高维稀疏问题对概念漂移检测的影响,提高了概念漂移检测的准确率。
4、本发明面向实际应用领域如:社交网络用户兴趣的跟踪与挖掘,可用于舆情发现实现舆情监控服务;网上购物用户行为模式变化的跟踪与挖掘,从而为商家、消费者提供预测、预警工作,为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐。
附图说明
图1为本发明多标签数据流中概念漂移检测方法框架示意图;
图2为本发明基于余弦相似度函数与海明损失函数计算数据块间类分布差异度的过程示意图;
图3为本发明基于最大相关最小冗余原则进行特征排序并计算数据块间特征分布差异度的过程示意图。
具体实施方式
本实施例中,如图1所示,一种基于类与特征分布的多标签数据流中概念漂移检测方法是按如下步骤进行:
步骤1:根据滑动窗口机制将数据流划分成数据块:
输入一组多标签数据流D={e1,e2,…,ei,…,en},根据滑动窗口机制将多标签数据流D划分成N个数据块D={D1,D2,…Dt,Dt+1,…,DN},其中,ei表示所述多标签数据流D中第i个示例;Dt表示所述多标签数据流D中第t个数据块,Dt+1表示所述多标签数据流D中第t+1个数据块,并有: 分别表示第t个数据块Dt中的第j个示例以及第t+1个数据块Dt+1中的第j个示例,并有: 分别表示第t个数据块Dt中的第j个示例的特征空间,以及第t+1个数据块Dt+1中的第j个示例的特征空间, 表示一个D维的特征空间;分别表示第t个数据块Dt中的第j个示例的类标签空间,以及第t+1个数据块Dt+1中的第j个示例的类标签空间,并有: L表示类标签空间中类标签的个数,表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值,表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值,1≤i≤n,1≤j≤m,1≤l≤L,1≤t≤N,
本实施例中,如表1所示的给定一组含有10个示例的多标签数据流,基于滑动窗口机制等分数据块D={D1,D2},可划分N=2个数据块,m=5,D=3,L=3,分别记为第1个数据块和第2个数据块;
表1某多标签数据流中10条抽样数据
步骤2:统计每个数据块的类标签数据分布,并根据余弦相似度函数与海明损失函数计算相邻数据块的类分布差异度,进而根据类分布差异度判断相邻数据块中最新到来的数据块是否发生概念漂移。具体的说,
2.1、初始化t=1。
2.2、当第t个数据块和第t+1个数据块到来时,统计第t个数据块Dt的类标签分布信息记为和第t+1个数据块Dt+1的类标签分布信息记为其中,表示第t个数据块Dt的第l维类标签向量,表示第t+1个数据块Dt+1的第l维类标签向量,并有:
同时统计得到第t个数据块Dt的第l维类标签向量和第t+1个数据块Dt+1的第l维类标签向量的两种类标签取值{0,1}的概率分布,分别表示为 分别表示第t个数据块Dt的第l维类标签向量的第r个取值的概率,以及第t+1个数据块Dt+1的第l维类标签向量的第r个取值的概率,从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的两种类标签取值{0,1}的概率分布,1≤l≤L,1≤t≤N;
2.3、利用式(1)计算第t个数据块Dt所有示例的第l维类标签向量和第t+1个数据块Dt+1的第l维类标签向量的余弦相似度
从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的余弦相似度均值1≤l≤L;
2.4、利用式(2)计算第t+1个数据块Dt+1中的第j个示例与第t个数据块Dt中的所有示例的海明损失
式(2)中,XOR(·)表示异或运算,并有:
从而得到第t+1个数据块Dt+1中的所有示例与第t个数据块Dt中的所有示例的海明损失均值1≤j≤m;
2.5、利用式(4)计算第t个数据块Dt与第t+1个数据块Dt+1的类分布差异度:
2.6、将所述类分布差异度distLt,t+1与阈值α进行比较,0<α<1,若distLt,t+1>α,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为类分布变化;若distLt,t+1≤α,表示第t+1个数据块Dt+1未发生概念漂移,并执行步骤3;
步骤3:统计每个数据块的特征数据分布,计算特征向量与类标签向量的相关度、特征向量间的冗余度和类标签向量间的相关度,根据最大相关最小冗余的原则,计算相关度与冗余度的差值并进行特征排序。具体的说,
步骤3.1、统计第t个数据块Dt和第t+1个数据块Dt+1的特征分布,得到第t个数据块Dt的特征分布信息和第t+1个数据块Dt+1的特征分布信息其中,表示第t个数据块Dt的第d维特征向量,并有: 表示第t+1个数据块Dt+1的第d维特征向量,并有: 表示第t个数据块Dt的第d维特征向量的第个特征取值,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值,分别表示第t个数据块Dt的第d维特征向量的所有不同特征取值的个数,以及第t+1个数据块Dt+1的第d维特征向量的所有不同特征取值的个数;同时统计得到第t个数据块Dt的第d维特征向量和第t+1个数据块Dt+1的第d维特征向量的特征取值的概率分布分别表示为 表示第t个数据块Dt的第d维特征向量的第个特征取值的概率,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值的概率,1≤d≤D;
步骤3.2、初始化d=1;
步骤3.3、初始化l=1;
步骤3.4、利用式(5)计算第t个数据块Dt的第d维特征向量和第l维类标签向量的互信息
并作为第t个数据块Dt的第d维特征向量和第l维类标签向量的相关度其中表示第t个数据块Dt的第d维特征向量的信息熵,表示第t个数据块Dt的第l维类标签向量的信息熵,表示第t个数据块Dt的第d维特征向量和第l维类标签向量的特征取值与类标签取值同现的信息熵;表示第t个数据块Dt的第d维特征向量的第个特征取值的概率,表示第t个数据块Dt的第d维特征向量的第个特征取值与第l维类标签向量的第r个类标签取值同现的概率;
步骤3.5、赋值l+1给l,并返回步骤3.4,直到l=L;
步骤3.6、赋值d+1给d,重复步骤3.3~步骤3.5,直到d=D;
步骤3.7、同理,重复步骤3.2~步骤3.6,从而获得第t+1个数据块Dt+1中所有维特征向量和所有类标签向量的互信息,并作为特征向量与类标签向量的相关度;
步骤3.8、初始化d=1;
步骤3.9、初始化d'=d+1;
步骤3.10、利用式(6)计算第t个数据块Dt的第d维特征向量与其他特征向量的互信息
并作为第t个数据块Dt的第d维特征向量和其他特征向量的冗余度
步骤3.11、赋值d'+1给d',并返回步骤3.10,直到d'=D;
步骤3.12、赋值d+1给d,重复步骤3.9~步骤3.11,直到d=D-1;
步骤3.13、同理,重复步骤3.8~步骤3.12,从而获得第t+1个数据块Dt+1中所有特征向量间的互信息,并作为特征向量间的冗余度;
步骤3.14、初始化l=1;
步骤3.15、初始化l′=l+1;
步骤3.16、利用式(7)计算第t个数据块Dt的第l维类标签向量与其他类标签向量的互信息
并作为第t个数据块Dt的第l维类标签向量与其他类标签向量的相关度
步骤3.17、赋值l'+1给l',并返回步骤3.16,直到l'=L;
步骤3.18、赋值l+1给l,重复步骤3.15~步骤3.17,直到l=L-1;
步骤3.19、同理,重复步骤3.14~步骤3.18,从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有类标签向量间的互信息,并作为类标签向量间的相关度;
步骤3.20、利用式(8)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的特征分布信息X(Dt)之间的冗余度
步骤3.21、利用式(9)获得第t个数据块Dt的第l维类标签向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度作为第l维类标签向量的重要度
步骤3.22、利用式(10)Z-score标准化方法归一化第t个数据块Dt的第l维类标签向量的重要度可得到归一化后的第t个数据块Dt的第l维类标签向量的重要度Δ=10-10
步骤3.23、利用式(11)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度
从而获得第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度;
步骤3.24、对所述第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度进行降序排序,得到第t个数据块Dt在k时刻的初始特征向量集合 表示第t个数据块Dt在k时刻的初始特征向量集合中第d维特征向量;
同理获得第t+1个数据块Dt+1在k时刻的初始特征向量集合 表示第t+1个数据块Dt+1在k时刻的初始特征向量集合中第d维特征向量;k=0;
步骤3.25、初始化第t个数据块Dt在k时刻排序后的特征向量集合
步骤3.26、利用式(12)计算第t个数据块Dt在k时刻第d维特征向量的重要度
从而获得第t个数据块Dt在k时刻所有维特征向量的重要度;
步骤3.27、从所述第t个数据块Dt在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述排序后的特征向量集合中,从而得到更新后的第t个数据块Dt的排序后的特征向量集合并删除所述初始特征向量集合Xk(Dt)中的特征向量从而得到更新后的第t个数据块Dt的初始特征向量集合Xk+1(Dt)
步骤3.28、将k+1赋值给k,并返回步骤3.26,直到k=D-1为止,从而获得更新后的第t个数据块Dt的最终排序后的特征向量集合记为; 表示第t个数据块Dt在k+1时刻排序后的特征向量集合中第d维特征向量;
步骤3.29、重复步骤3.25-步骤3.28,同理获得更新后的第t+1个数据块Dt+1的最终排序后的特征向量集合其中,表示第t+1个数据块Dt+1在k+1时刻排序后的特征向量集合中第d维特征向量;
步骤4:选择前K个特征向量作为数据块的特征分布,并利用余弦相似度函数计算相邻数据块的特征分布差异度,进而根据特征分布差异度判断相邻数据块中最新到来的数据块是否发生概念漂移。具体的说,
步骤4.1、从所述更新后的第t个数据块Dt在k+1时刻排序后的特征向量集合和第t+1个数据块Dt+1在k+1时刻排序后的特征向量集合Xk+1(Dt+1)中分别选择前K个特征向量及其所对应的重要度,作为第t个数据块和第t+1个数据块Dt+1的的特征分布F(Dt)与F(Dt+1),并有:
步骤4.2、利用式(13)计算第t个数据块Dt的特征分布与第t+1个数据块Dt+1的特征分布的余弦相似度cos(F(Dt),F(Dt+1)):
并将1-cos(F(Dt),F(Dt+1))作为第t个数据块Dt和第t+1个数据块Dt+1的特征分布差异度distFt,t+1
步骤4.3、比较特征分布差异度distFt,t+1与阈值β的大小,若distFt,t+1>β,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为特征分布变化;若distFt,t+1≤β,则表示第t+1个数据块Dt+1未发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为无漂移;0<β<1;
步骤4.4、赋值t+1给t,返回步骤2.2,直到t=N-1。
本实施例中,根据余弦相似度函数与海明损失函数计算数据块间的类分布差异度过程,如图2所示,具体按如下步骤进行:
(1)统计第1个数据块D1的类标签分布信息记为和第2个数据块D2的类标签分布信息记为其中,第1个数据块D1的第1维~第3维类标签向量分别表示为第2个数据块D1的第1维~第3维类标签向量分别表示为同时统计得到第1个数据块D1的第1维~第3维类标签向量的两种类标签取值{0,1}的概率分布分别表示为统计得到第2个数据块D2的第1维~第3维类标签向量的两种类标签取值{0,1}的概率分布分别表示为
(2)根据第1个数据块D1和第2个数据块D2的类标签分布信息,分别计算第1个数据块D1和第2个数据块D2的每一维类标签向量的余弦相似度:
(3)计算第2个数据块D2中的第1个示例分别与第1个数据块D1中的所有5个示例的海明损失
其中,
同理得到第2个数据块D2中的第2个示例和第3个示例分别与第1个数据块D1中的所有5个示例的海明损失从而得到第2个数据块D2中的所有示例与第1个数据块D1中的所有示例的海明损失均值
(4)计算第1个数据块D1中的所有示例与第2个数据块D2的类分布差异度
(5)给定阈值α=0.2,比较distL1,2与α,由于distF1,2<α,则表示第2个数据块D2未发生类分布变化的概念漂移,需进一步执行特征分布变化的检测;
本实施例中,根据最大相关最小冗余机制进行特征排序,并计算数据块间的特征分布差异度过程,如图3所示,具体按如下步骤进行:
(1)统计第1个数据块D1和第2个数据块D2的特征分布,得到第1个数据块D1的特征分布信息和第2个数据块D2的特征分布信息其中,第1个数据块D1的第1维~第3维特征向量分别表示第2个数据块D1的第1维~第3维特征向量分别表示同时统计得到第1个数据块D1的第1~第3维特征向量的特征取值概率分布分别表示为统计得到第2个数据块D2的第1~第3维特征向量的特征取值概率分布分别表示为
(2)计算第1个数据块D1的第1维特征向量和第1维类标签向量的互信息
并作为第1个数据块D1的第1维特征向量和第1维类标签向量的相关度同理,可获得第1个数据块D1的所有维特征向量和所有维类标签向量的相关度 从而获得第2个数据块D2所有维特征向量和所有维类标签向量的相关度
(3)计算第1个数据块D1的第1维特征向量与第2维特征向量的互信息
并作为第1个数据块D1的第1维特征向量和第2维特征向量的冗余度同理,可获得第1个数据块D1的所有维特征向量间的冗余度: 可获得第2个数据块D2的所有维特征向量间的冗余度:
(4)计算第1个数据块D1的第1维类标签向量与第2维类标签向量的互信息
并作为第1个数据块D1的第1维类标签向量与第2维类标签向量的相关度同理,可获得第1个数据块D1的所有维类标签向量间的相关度: 可获得第2个数据块D2的所有维类标签向量间的相关度分别为
(5)计算第1个数据块D1的第1维特征向量与第1个数据块D1的特征分布信息X(D1)之间的冗余度
从而可获得第1个数据块D1的第1维~第3维特征向量与第1个数据块D1的特征分布信息X(D1)之间的冗余度可获得第2个数据块D2的第1维~第3维特征向量与第2个数据块D2的特征分布信息X(D2)之间的冗余度
(6)计算第1个数据块D1的第1维类标签向量与第1个数据块D1的类标签分布信息Y(D1)之间相关度作为第1维类标签向量的重要度
从而获得第1个数据块D1和第2个数据块D2的第1维~第3维类标签向量的重要度分别为
(7)计算第1个数据块D1的第1维特征向量与第1个数据块D1的类标签分布信息Y(D1)之间的相关度
从而获得第1个数据块D1中所有维特征向量与第1个数据块D1的类标签分布信息Y(D1)之间的相关度分别为获得第2个数据块D2中所有维特征向量与第2个数据块D2的类标签分布信息Y(D2)之间的相关度分别为
(8)对所述第1个数据块D1中所有维特征向量与第1个数据块D1的类标签分布信息Y(D1)之间的相关度进行降序排序,得到第1个数据块D1在k=0时刻的初始特征向量集合同理,得到第2个数据块D2在k=0时刻的初始特征向量集合
(9)初始化第1个数据块D1与第2个数据块D2在k=0时刻排序后的特征向量集合分别为
(10)计算第1个数据块D1在k=0时刻第1维特征向量的重要度
从而获得第1个数据块D1在k=0时刻所有维特征向量的重要度分别表示为:同理获得第2个数据块D2在k=0时刻所有维特征向量的重要度分别表示为:
(11)从第1个数据块D1在k=0时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述排序后的特征向量集合X0′(D1),从而得到更新后的第1个数据块D1的k=1时刻的排序后的特征向量集合并删除所述初始特征向量集合X0(D1)中的特征向量从而得到更新后的第1个数据块D1的k=1时刻的初始特征向量集合
同理,获得更新后的第2个数据块D2的k=1时刻的排序后的特征向量集合和更新后的第1个数据块D1的k=1时刻的初始特征向量集合迭代执行直到k=2停止,从而获得最终更新后的第1个数据块D1与第2个数据块D2的排序后的特征向量集合分别表示为
(12)从最终更新后的第1个数据块D1与第2个数据块D2的排序后的特征向量集合X3′(D1)和X3′(D2)中,分别选择前K=2个特征向量及其所对应的重要度作为第1个数据块D1与第2个数据块D2的特征分布集合,记为:
(13)计算第1个数据块D1与第2个数据块D2的特征分布集合的余弦相似度cos(F(D1),F(D2)):
并将1-cos(F(D1),F(D2))作为第1个数据块D1和第2个数据块D2的特征分布差异度distF1,2=1-0.9789=0.0211;
(14)给定阈值β=0.2,distFt,t+1<β,则表示第2个数据块D2未发生概念漂移,并输出第2个数据块D2的概念漂移类型为无漂移。

Claims (1)

1.一种基于类与特征分布的多标签数据流中概念漂移检测方法,其特征是按如下步骤进行:
步骤1:根据滑动窗口机制将一组多标签数据流D={e1,e2,…,ei,…,en}划分成N个数据块D={D1,D2,…,Dt,Dt+1,…,DN},其中,ei表示所述多标签数据流D中第i个示例;Dt表示所述多标签数据流D中第t个数据块,Dt+1表示所述多标签数据流D中第t+1个数据块,并有: 分别表示第t个数据块Dt中的第j个示例以及第t+1个数据块Dt+1中的第j个示例,并有: 分别表示第t个数据块Dt中的第j个示例的特征空间,以及第t+1个数据块Dt+1中的第j个示例的特征空间, 表示一个D维的特征空间;分别表示第t个数据块Dt中的第j个示例的类标签空间,以及第t+1个数据块Dt+1中的第j个示例的类标签空间,并有: L表示类标签空间中类标签的个数,表示所述第t个数据块中的第j个示例的类标签空间中的第l维类标签的取值,表示所述第t+1个数据块中的第j个示例的类标签空间中的第l维类标签的取值,1≤i≤n,1≤j≤m,1≤l≤L,1≤t≤N,
步骤2:根据余弦相似度函数与海明损失函数计算类标签分布变化:
步骤2.1、统计第t个数据块Dt和第t+1个数据块Dt+1的类标签分布,得到第t个数据块Dt的类标签分布信息和第t+1个数据块Dt+1的类标签分布信息其中,Yl t表示第t个数据块Dt的第l维类标签向量,Yl t+1表示第t+1个数据块Dt+1的第l维类标签向量,并有:
同时统计得到第t个数据块Dt的第l维类标签向量Yl t和第t+1个数据块Dt+1的第l维类标签向量Yl t+1的两种类标签取值{0,1}的概率分布分别为 分别表示第t个数据块Dt的第l维类标签向量Yl t的第r个类标签取值的概率,以及第t+1个数据块Dt+1的第l维类标签向量Yl t+1的第r个类标签取值的概率,从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的两种类标签取值{0,1}的概率分布,1≤l≤L,1≤t≤N;
步骤2.2、计算第t个数据块Dt的第l维类标签向量Yl t和第t+1个数据块Dt+1的第l维类标签向量Yl t+1的余弦相似度从而得到第t个数据块Dt和第t+1个数据块Dt+1的所有维类标签向量的余弦相似度均值
并利用式(1)计算第t+1个数据块Dt+1中的第j个示例与第t个数据块Dt中的所有示例的海明损失
ham t , t + 1 j = Min e j t ∈ D t X O R ( Y ( e j t + 1 ) , Y ( e j t ) ) - - - ( 1 )
式(1)中,XOR(·)表示异或运算,并有:
X O R ( Y ( e j t + 1 ) , Y ( e j t ) ) = 1 L Σ l = 1 L X O R ( y j l t + 1 , y j l t ) - - - ( 2 )
从而得到第t+1个数据块Dt+1中的所有示例与第t个数据块Dt中的所有示例的海明损失均值
的乘积作为第t个数据块Dt和第t+1个数据块Dt+1的类分布差异度distLt,t+1
步骤2.3、将所述类分布差异度distLt,t+1与阈值α进行比较,0<α<1,若distLt,t+1>α,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为类分布变化;若distLt,t+1≤α,表示第t+1个数据块Dt+1未发生概念漂移,并执行步骤3;
步骤3:根据最大相关最小冗余的原则进行特征排序:
步骤3.1、统计第t个数据块Dt和第t+1个数据块Dt+1的特征分布,得到第t个数据块Dt的特征分布信息和第t+1个数据块Dt+1的特征分布信息其中,表示第t个数据块Dt的第d维特征向量,并有: 表示第t+1个数据块Dt+1的第d维特征向量,并有: 表示第t个数据块Dt的第d维特征向量的第个特征取值,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值,分别表示第t个数据块Dt的第d维特征向量的所有不同特征取值的个数,以及第t+1个数据块Dt+1的第d维特征向量的所有不同特征取值的个数;
统计得到第t个数据块Dt的第d维特征向量和第t+1个数据块Dt+1的第d维特征向量的特征取值的概率分布分别表示为 表示第t个数据块Dt的第d维特征向量的第个特征取值的概率,表示第t+1个数据块Dt+1的第d维特征向量的第个特征取值的概率,
步骤3.2、分别计算第t个数据块Dt的第d维特征向量和第l维类标签向量的互信息以及第t+1个数据块Dt+1的第d维特征向量和第l维类标签向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有维特征向量和所有类标签向量的互信息,并作为特征向量与类标签向量的相关度;
步骤3.3、分别计算第t个数据块Dt的第d维特征向量与其他特征向量的互信息以及第t+1个数据块Dt+1的第d维特征向量与其他特征向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有特征向量间的互信息,并作为特征向量间的冗余度,d′≠d;
步骤3.4、分别计算第t个数据块Dt的第l维类标签向量Yl t与其他类标签向量的互信息以及第t+1个数据块Dt+1的第l维类标签向量Yl t+1与其他类标签向量的互信息从而获得第t个数据块Dt以及第t+1个数据块Dt+1中所有类标签向量间的互信息,并作为类标签向量间的相关度,l′≠l;
步骤3.5、利用式(3)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的特征分布信息X(Dt)之间的冗余度
R ( X d t , X ( D t ) ) = 1 D - 1 Σ X d ′ t ∈ X ( D t ) , d ′ ≠ d R ( X d t , X d ′ t ) - - - ( 3 )
步骤3.6、利用式(4)获得第t个数据块Dt的第l维类标签向量Yl t与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度作为第l维类标签向量Yl t的重要度W(Yl t):
W ( Y l t ) = 1 L - 1 Σ Y l ′ t ∈ Y ( D t ) , l ′ ≠ l D ( Y l t , Y l ′ t ) - - - ( 4 )
步骤3.7、利用Z-score标准化方法归一化第t个数据块Dt的第l维类标签向量Yl t的重要度W(Yl t),可得到归一化后的第t个数据块Dt的第l维类标签向量Yl t的重要度W'(Yl t);
并利用式(5)获得第t个数据块Dt的第d维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度从而获得第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度:
D ( X d t , Y ( D t ) ) = 1 L Σ Y l t ∈ Y ( D t ) ( W ′ ( Y l t ) · D ( X d t , Y l t ) ) - - - ( 5 )
步骤3.8、对所述第t个数据块Dt中所有维特征向量与第t个数据块Dt的类标签分布信息Y(Dt)之间的相关度进行降序排序,得到第t个数据块Dt在k时刻的初始特征向量集合 表示第t个数据块Dt在k时刻的初始特征向量集合中第d维特征向量;
同理获得第t+1个数据块Dt+1在k时刻的初始特征向量集合 表示第t+1个数据块Dt+1在k时刻的初始特征向量集合中第d维特征向量,k=0;
步骤3.9、初始化第t个数据块Dt在k时刻排序后的特征向量集合
步骤3.10、利用式(6)计算第t个数据块Dt在k时刻第d维特征向量的重要度
Φ ( X d t ( k ) ) = D ( X d t ( k ) , Y ( D t ) ) - R ( X d t ( k ) , X k ′ ( D k ) ) - - - ( 6 )
从而获得第t个数据块Dt在k时刻所有维特征向量的重要度;
步骤3.11、从所述第t个数据块Dt在k时刻所有维特征向量的重要度中选取最大值及其所对应的特征向量存入所述k时刻排序后的特征向量集合X′k(Dt)中,从而得到更新后的第t个数据块Dt的排序后的特征向量集合X′k+1(Dt);并删除所述k时刻初始特征向量集合Xk(Dt)中的特征向量从而得到更新后的第t个数据块Dt的初始特征向量集合Xk+1(Dt);
步骤3.12、将k+1赋值给k,并返回步骤3.10,直到k=D-1为止;
步骤3.13、重复步骤3.9-步骤3.12,同理获得更新后的第t+1个数据块Dt+1的排序后的特征向量集合X′k+1(Dt+1);
步骤4、从所述第t个数据块Dt的排序后的特征向量集合X′k+1(Dt)和第t+1个数据块Dt+1的排序后的特征向量集合X′k+1(Dt+1)中分别选择前K个特征向量及其所对应的重要度,作为第t个数据块的特征分布和第t+1个数据块Dt+1的特征分布F(Dt)与F(Dt+1);并利用余弦相似度函数计算第t个数据块Dt的特征分布集合与第t+1个数据块Dt+1的特征分布集合相似度cos(F(Dt),F(Dt+1)),再将1-cos(F(Dt),F(Dt+1))作为第t个数据块Dt和第t+1个数据块Dt+1的特征分布差异度distFt,t+1
将所述特征分布差异度distFt,t+1与阈值β进行比较,0<β<1,若distFt,t+1>β,则表示第t+1个数据块Dt+1发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为特征分布变化;若distFt,t+1≤β,则表示第t+1个数据块Dt+1未发生概念漂移,并输出第t+1个数据块Dt+1的概念漂移类型为无漂移。
CN201710151295.6A 2017-03-14 2017-03-14 一种基于类与特征分布的多标签数据流中概念漂移检测方法 Active CN106934035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710151295.6A CN106934035B (zh) 2017-03-14 2017-03-14 一种基于类与特征分布的多标签数据流中概念漂移检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710151295.6A CN106934035B (zh) 2017-03-14 2017-03-14 一种基于类与特征分布的多标签数据流中概念漂移检测方法

Publications (2)

Publication Number Publication Date
CN106934035A true CN106934035A (zh) 2017-07-07
CN106934035B CN106934035B (zh) 2019-06-14

Family

ID=59433663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710151295.6A Active CN106934035B (zh) 2017-03-14 2017-03-14 一种基于类与特征分布的多标签数据流中概念漂移检测方法

Country Status (1)

Country Link
CN (1) CN106934035B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
CN110162609A (zh) * 2019-04-11 2019-08-23 阿里巴巴集团控股有限公司 用于向用户推荐咨询问题的方法及装置
CN110717543A (zh) * 2019-10-14 2020-01-21 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN111026846A (zh) * 2019-12-09 2020-04-17 合肥工业大学 一种基于特征扩展的在线短文本数据流分类方法
CN111578154A (zh) * 2020-05-25 2020-08-25 吉林大学 基于lsdr-jmi的供水管网多泄漏压力传感器优化布置方法
CN111901324A (zh) * 2020-07-20 2020-11-06 杭州安恒信息技术股份有限公司 一种基于序列熵流量识别的方法、装置和存储介质
CN112579741A (zh) * 2020-12-24 2021-03-30 合肥工业大学 基于在线序列核极限学习机的高维多标签数据流分类方法
CN113660237A (zh) * 2021-08-10 2021-11-16 和中通信科技有限公司 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器
CN113742288A (zh) * 2020-05-29 2021-12-03 伊姆西Ip控股有限责任公司 用于数据索引的方法、电子设备和计算机程序产品
CN116340864A (zh) * 2023-05-31 2023-06-27 平安科技(深圳)有限公司 一种模型漂移检测方法、装置、设备及其存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720785B2 (en) * 2006-04-21 2010-05-18 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
CN101827002A (zh) * 2010-05-27 2010-09-08 文益民 一种数据流分类的概念漂移检测方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720785B2 (en) * 2006-04-21 2010-05-18 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
CN101827002A (zh) * 2010-05-27 2010-09-08 文益民 一种数据流分类的概念漂移检测方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN103345575A (zh) * 2013-06-19 2013-10-09 华南师范大学 一种数据流概念漂移检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李培培: "数据流中概念漂移检测与分类方法研究", 《万方数据库》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679228B (zh) * 2017-10-23 2019-09-10 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
CN110162609A (zh) * 2019-04-11 2019-08-23 阿里巴巴集团控股有限公司 用于向用户推荐咨询问题的方法及装置
CN110162609B (zh) * 2019-04-11 2023-04-07 创新先进技术有限公司 用于向用户推荐咨询问题的方法及装置
CN110717543A (zh) * 2019-10-14 2020-01-21 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN110717543B (zh) * 2019-10-14 2023-09-19 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN111026846A (zh) * 2019-12-09 2020-04-17 合肥工业大学 一种基于特征扩展的在线短文本数据流分类方法
CN111578154A (zh) * 2020-05-25 2020-08-25 吉林大学 基于lsdr-jmi的供水管网多泄漏压力传感器优化布置方法
CN111578154B (zh) * 2020-05-25 2021-03-26 吉林大学 基于lsdr-jmi的供水管网多泄漏压力传感器优化布置方法
CN113742288A (zh) * 2020-05-29 2021-12-03 伊姆西Ip控股有限责任公司 用于数据索引的方法、电子设备和计算机程序产品
CN111901324B (zh) * 2020-07-20 2023-02-28 杭州安恒信息技术股份有限公司 一种基于序列熵流量识别的方法、装置和存储介质
CN111901324A (zh) * 2020-07-20 2020-11-06 杭州安恒信息技术股份有限公司 一种基于序列熵流量识别的方法、装置和存储介质
CN112579741B (zh) * 2020-12-24 2022-09-27 合肥工业大学 基于在线序列核极限学习机的高维多标签数据流分类方法
CN112579741A (zh) * 2020-12-24 2021-03-30 合肥工业大学 基于在线序列核极限学习机的高维多标签数据流分类方法
CN113660237A (zh) * 2021-08-10 2021-11-16 和中通信科技有限公司 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器
CN116340864A (zh) * 2023-05-31 2023-06-27 平安科技(深圳)有限公司 一种模型漂移检测方法、装置、设备及其存储介质
CN116340864B (zh) * 2023-05-31 2023-09-15 平安科技(深圳)有限公司 一种模型漂移检测方法、装置、设备及其存储介质

Also Published As

Publication number Publication date
CN106934035B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN106934035A (zh) 一种基于类与特征分布的多标签数据流中概念漂移检测方法
Huang et al. SDGNN: Learning node representation for signed directed networks
CN106651519B (zh) 基于标签信息的个性化推荐方法和系统
US20200065616A1 (en) Unsupervised exception access detection method and apparatus based on one-hot encoding mechanism
CN103020288B (zh) 一种动态数据环境下的数据流分类方法
CN104778605B (zh) 电商客户的分类方法及装置
CN107835113A (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN102495864A (zh) 基于评分的协同过滤推荐方法及系统
CN109741112A (zh) 一种基于移动大数据的用户购买意向预测方法
CN108073667B (zh) 产生用户浏览属性的方法、以及非暂存计算机可读介质
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN103810288A (zh) 基于聚类算法对异构社会网络进行社区检测的方法
CN111652654A (zh) 销量预测及神经网络构建的方法、装置、设备、存储介质
CN110955690A (zh) 一种基于大数据技术的自助数据标签平台及自助数据标签方法
CN105354202A (zh) 数据推送方法及装置
CN107341242A (zh) 一种标签推荐方法及系统
CN109740151A (zh) 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
CN107577786A (zh) 一种基于联合聚类的矩阵分解推荐方法
CN105740388B (zh) 一种基于分布漂移数据集的特征选择方法
CN111640033A (zh) 一种网络水军的检测方法及装置
CN111581352B (zh) 基于可信度的互联网恶意域名检测方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN108920647A (zh) 基于谱聚类的低秩矩阵填充top-n推荐方法
Guo et al. Mining structural influence to analyze relationships in social network
CN110119448A (zh) 基于双重自动编码器的半监督跨领域文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant