CN103345575B - 一种数据流概念漂移检测方法及系统 - Google Patents

一种数据流概念漂移检测方法及系统 Download PDF

Info

Publication number
CN103345575B
CN103345575B CN201310255816.4A CN201310255816A CN103345575B CN 103345575 B CN103345575 B CN 103345575B CN 201310255816 A CN201310255816 A CN 201310255816A CN 103345575 B CN103345575 B CN 103345575B
Authority
CN
China
Prior art keywords
bunch
data
collection
tolerance
point set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310255816.4A
Other languages
English (en)
Other versions
CN103345575A (zh
Inventor
赵淦森
虞海
王维栋
卓超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201310255816.4A priority Critical patent/CN103345575B/zh
Publication of CN103345575A publication Critical patent/CN103345575A/zh
Application granted granted Critical
Publication of CN103345575B publication Critical patent/CN103345575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种数据流概念漂移检测方法及系统,方法通过对簇中心、簇消失和簇新增这几个角度进行分析,从而检测出概念漂移的级别。系统包括:簇中心分析单元、簇消失分析单元、簇新增分析单元和概念漂移级别分析单元。本发明利用多角度识别概念漂移,实现了对待检测数据集的概念漂移评估指标的精确量化,能够较全面地对概念漂移情况进行分析,准确检测出概念漂移的级别。本发明作为一种数据流概念漂移检测方法及系统应用于数据演变的检测中。

Description

一种数据流概念漂移检测方法及系统
技术领域
本发明涉及计算机领域,尤其涉及一种数据流概念漂移检测方法及系统。
背景技术
数据的概念漂移是数据流处理的第二大研究问题。目前,数据流概念漂移检测主要有几种方案:基于统计的、基于分类器以及基于划分的。数据概念漂移根据演变过程的激烈程度分为两种:渐进型、突发型。第一种方法基于统计的是对二进制表示的数据的一种基于密度的评估技术,第二种方法基于分类器的是评估一个线性分类器的平均裕度的检测方案,第三种方法基于分类器的平均错误率的对数据概念漂移检测。
然而,对于纯基于统计的检测方案,该方法不能很好地体现聚类处理中的簇集变化的情况,可能受到一些噪声的影响,并且纯从数学的角度分析,与聚类中的簇集信息可能存在不符。比如:假设数据的簇中的数据点围绕着原来的簇中心,在其半径范围内移动时,正常而言簇集的中心位置信息是没变的,但是利用统计的检测方案就可能对检测这是已经演变了,精确性不够。
对于基于分类器的方案,该方法需要人工的参与,通过带有人工标注的标签的数据,构建相应的分类树,然后进行相应的检测。这种方法很明显会有一个缺点:需要人工的参与。在数据流环境下,数据是不断的,并且可能时刻都在变更,数据特性也在演变,意味着所谓的标签也应该随着演变,但是人工很难知道什么时候演变、什么时候添加或更新新的样本数据,准确度不高。
对基于划分的方案,如数据流中使用的方法,将空间划分成多个网格,并将新的数据映射到相应的网格,基于每个网格进行处理。这种方案的缺点是原来属于一个簇集的数据会被拆分到不同的格子中,针对每个网格进行分类,可能会导致簇集的信息的检测的不完整,不能全面地分析。
发明内容
为了解决上述技术问题,本发明的目的是提供一种准确性高,能全面进行检测的一种数据流概念漂移检测方法。
本发明的另一个目的是提供一种准确性高,能全面进行检测的一种数据流概念漂移检测系统。
本发明所采用的技术方案是:
一种数据流概念漂移检测方法,包括以下步骤:
A、根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
B、根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
C、通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
D、根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述的步骤A包括:
A1、根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
A2、通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
A3、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
A4、根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
A5、根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
A6、根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述的步骤C包括:
C1、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
C2、根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
C3、根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述步骤A4中所述的过度分散值,其计算公式为:
DOD = { 1 , if &Sigma; i = 1 t SIZE ( SCTD i ) < n * &alpha; 0 , otherwise
其中,SCTDi为第i个簇容忍点集,t为簇容忍点集的个数,SIZE(SCTDi)为簇容忍点集中的元素个数,n为待检测数据集的点数量,α为过度阈值因子,DOD为过度分散值。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述步骤D中所述的概念漂移级别值,其计算公式为:
DEDV = DED max , if DOD = 1 or &Sigma; i = 1 k CEV ( CD i ( m i ) ) &GreaterEqual; 1 or &Sigma; i = 1 p NCV ( CDN i ) &GreaterEqual; 1 or ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) ROUND ( ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) * ( DED max - DED min ) ) , otherwise
其中,CDi为第i簇,mi为第i簇的元素个数,为第i簇的簇演变值,k为簇的个数,CDN为新簇集,p为新簇集的新簇数量,NCV(CDNi)为第i个新簇的新簇接受值,DO(n)为旧数据集,n为旧数据集的点数量,SCD(k)为簇集,DN(n')为待检测数据集,n'为待检测数据集的点数量,SSCT(DO(n),SCD(k))为对应旧数据集的簇容忍点集距离平方总和,SSCT(DN(n'),SCD(k))为对应待检测数据集的簇容忍点集距离平方总和,DEDmax为概念漂移级别的最大值,DEDmin为概念漂移级别的最小值,DEDV为概念漂移级别值。
本发明采用的另一技术方案是:
一种数据流概念漂移检测系统,包括:
簇中心分析单元,用于根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
簇消失分析单元,用于根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
簇新增分析单元,用于通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
概念漂移级别分析单元,用于根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值。
作为所述的一种数据流概念漂移检测系统的进一步改进,所述的簇中心分析单元包括:
距离计算单元,用于根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
旧数据集簇容忍点集计算单元,用于通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
待检测数据集簇容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
过度分散值计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
旧数据集距离簇容忍点集平方和计算单元,用于根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
待检测数据集距离簇容忍点集平方和计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
作为所述的一种数据流概念漂移检测系统的进一步改进,所述的簇新增分析单元包括:
不可容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
划分单元,用于根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
新簇接受值计算单元,用于根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
本发明的有益效果是:
本发明一种数据流概念漂移检测方法通过对簇中心、簇消失和簇新增这几个角度进行分析,从而检测出概念漂移的级别。本发明利用多角度识别概念漂移,实现了对待检测数据集的概念漂移评估指标的精确量化,能够较全面地对概念漂移情况进行分析,准确检测出概念漂移的级别。
本发明的另一有益效果是:
本发明一种数据流概念漂移检测系统通过簇中心分析单元、簇消失分析单元、簇新增分析单元和概念漂移级别分析单元对簇中心、簇消失和簇新增这几个角度进行分析,从而检测出概念漂移的级别。本发明利用多角度识别概念漂移,实现了对待检测数据集的概念漂移评估指标的精确量化,能够较全面地对概念漂移情况进行分析,准确检测出概念漂移的级别。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明一种数据流概念漂移检测方法的步骤流程图;
图2是本发明一种数据流概念漂移检测方法步骤A的步骤流程图;
图3是本发明一种数据流概念漂移检测方法步骤C的步骤流程图;
图4是本发明一种数据流概念漂移检测系统的模块方框图;
图5是本发明一种数据流概念漂移检测系统簇中心分析单元的子模块方框图;
图6是本发明一种数据流概念漂移检测系统簇新增分析单元的子模块方框图。
具体实施方式
图1是本发明一种数据流概念漂移检测方法的步骤流程图,本发明一种数据流概念漂移检测方法,包括以下步骤:
A、根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
B、根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
C、通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
D、根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值。
图2是本发明一种数据流概念漂移检测方法步骤A的步骤流程图,所述的步骤A包括:
A1、根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
A2、通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
A3、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
A4、根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
A5、根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
A6、根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
图3是本发明一种数据流概念漂移检测方法步骤C的步骤流程图,所述的步骤C包括:
C1、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
C2、根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
C3、根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述步骤A4中所述的过度分散值,其计算公式为:
DOD = { 1 , if &Sigma; i = 1 t SIZE ( SCTD i ) < n * &alpha; 0 , otherwise
其中,SCTDi为第i个簇容忍点集,t为簇容忍点集的个数,SIZE(SCTDi)为簇容忍点集中的元素个数,n为待检测数据集的点数量,α为过度阈值因子,DOD为过度分散值。
作为所述的一种数据流概念漂移检测方法的进一步改进,所述步骤D中所述的概念漂移级别值,其计算公式为:
DEDV = DED max , if DOD = 1 or &Sigma; i = 1 k CEV ( CD i ( m i ) ) &GreaterEqual; 1 or &Sigma; i = 1 p NCV ( CDN i ) &GreaterEqual; 1 or ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) ROUND ( ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) * ( DED max - DED min ) ) , otherwise
其中,CDi为第i簇,mi为第i簇的元素个数,为第i簇的簇演变值,k为簇的个数,CDN为新簇集,p为新簇集的新簇数量,NCV(CDNi)为第i个新簇的新簇接受值,DO(n)为旧数据集,n为旧数据集的点数量,SCD(k)为簇集,DN(n')为待检测数据集,n'为待检测数据集的点数量,SSCT(DO(n),SCD(k))为对应旧数据集的簇容忍点集距离平方总和,SSCT(DN(n'),SCD(k))为对应待检测数据集的簇容忍点集距离平方总和,DEDmax为概念漂移级别的最大值,DEDmin为概念漂移级别的最小值,DEDV为概念漂移级别值。
其中DIS(D1,D2)表示两个点之间的距离,MAX表示获取集合中的最大值,MIN表示获取集合中的最小值,ABS表示获取实数的绝对值,SIZE表示获取集合元素的个数,ROUND表示对浮点数四舍五入取整。
簇是距离相近的点组成的点集合。簇中有一个特殊点来表示簇的中心,称为簇中心点。簇中的所有点与簇中心点距离的最大值被定义为簇最大半径,记作Rmax
簇中所有点与簇中心点的距离的算数平均,即为簇平均半径。
数据点与簇的距离可以用该点与簇的中心点的距离来计算。
点的最近簇表示在一个簇集的所有簇中,与某点的距离值最小的簇。
簇容忍距离表示簇对新的数据点的可接受的距离,设簇对新数据点的可接受程度为,簇容忍距离表示为
若点D与簇C间的距离不大于簇C的簇容忍距离,则称D是簇C的簇容忍点;否则称D为簇C的簇不可容忍点。
簇集中所有的簇容忍点所构成的集合叫该簇的簇容忍点集,簇集中所有的簇都不可容忍点所构成的集合叫该簇的簇不可容忍点集。
本发明的具体处理过程为:
设旧数据集为{DOi|i=1,2,...,n},记作DO(n),簇集为记作SCD(k),计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中,通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合 { CTD i ( s i ) ( DO ( n ) , CD i ( m i ) ) | i = 1,2 , . . . , k } , 记作SCTD(k)(DO(n));待检测数据集为{DNi|i=1,2,...,n'},记作DN(n'),得到对应待检测数据集的簇集各个簇的簇容忍点集的集合为 { CTD i ( t i ) ( DN ( n &prime; ) , CD i ( m i ) ) | i = 1,2 , . . . , k } , 记作SCTD(k)(DN(n'));然后根据对应待检测数据集的簇集各个簇的簇容忍点集的集合SCTD(k)(DN(n')),计算待检测数据集的过度分散值DOD,其中,设过度阈值因子为α,则
DOD = { 1 , if &Sigma; i = 1 k SIZE ( SCTD ( k ) ( DN ( n &prime; ) ) ) < n &prime; * &alpha; 0 , otherwise
过度分散值描述的是数据集是否发生过度分散的行为,若过度分散值为1时,表示数据集过度分散;若过度分散值为0,则表示数据集并没有过度分散。
对于簇集SCD(k)的所有元素,计算该簇的簇容忍集(取第i个为例, { CTD i ( s i ) ( DO ( n ) , CD i ( m i ) ) | i = 1,2 , . . . , k } )中的各个元素与该簇的距离平方和,记作SSCTi,那么其计算公式为
SSCT i = &Sigma; j = 1 s i DIS ( DO j , CD i ( mi ) ) * DIS ( DO j , CD i ( mi ) ) , DO j &Element; CTD i ( s i ) ( DO ( n ) , CD i ( m i ) ) 对于获得的簇集中所有簇的簇容忍集的集合SCTD(k)(DO(n)),计算所有的簇容忍集的距离平方总和为
SSCT ( DO ( n ) , SCD ( k ) ) = &Sigma; i = 1 K SSCT i
同理,对于待检测数据集DN(n'),可以计算出对应待检测数据集的簇容忍点集距离平方总和SSCT(DN(n'),SCD(k))。
设簇演变值用表示,衰退因子为ε,基准阈值为x为该簇原来所包含的点数,衰变函数表示为则簇演变值为
CEV ( CD i ( m i ) ) = { 1 , if SIZE ( CTD i ( s i ) ( DN ( n &prime; ) , CD i ( m i ) ) ) &GreaterEqual; f ( x ) 0 , otherwise
簇演变值用于判断簇集中的簇是否已经消失,若簇演变值为1时,表示该簇没有发生簇消失状况;反之若簇演变值为0,则表示该簇发生簇消失状况。
设对应待检测数据集的簇不可容忍点集的集合为CUD(n'')(SCD(k)),定义对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集后形成的新簇集为CDN(p),划分的过程中,严格要求每个簇的最大簇半径必须在簇容忍距离内,簇新增阈值为θ,则新簇接受值为
NCV ( CDN i ) = { 1 , if SIZE ( CDN i ) &GreaterEqual; &theta; 0 , otherwise
根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别,得出概念漂移级别值DEDV为
DEDV = DED max , if DOD = 1 or &Sigma; i = 1 k CEV ( CD i ( m i ) ) &GreaterEqual; 1 or &Sigma; i = 1 p NCV ( CDN i ) &GreaterEqual; 1 or ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) ROUND ( ABS ( SSCT ( DO ( n ) , SCD ( k ) ) - SSCT ( DN ( n &prime; ) , SCD ( k ) ) ) SSCT ( DO ( n ) , SCD ( k ) ) * ( DED max - DED min ) ) , otherwise 其中,概念漂移级别从DEDmin=0到DEDmax=9共10个级别,随着级别数字的增加,表示数据概念漂移程度越厉害。
图4是本发明一种数据流概念漂移检测系统的模块方框图,本发明一种数据流概念漂移检测系统包括:
簇中心分析单元,用于根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
簇消失分析单元,用于根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
簇新增分析单元,用于通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
概念漂移级别分析单元,用于根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值。
图5是本发明一种数据流概念漂移检测系统簇中心分析单元的子模块方框图,所述的簇中心分析单元包括:
距离计算单元,用于根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
旧数据集簇容忍点集计算单元,用于通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
待检测数据集簇容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
过度分散值计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
旧数据集距离簇容忍点集平方和计算单元,用于根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
待检测数据集距离簇容忍点集平方和计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
图6是本发明一种数据流概念漂移检测系统簇新增分析单元的子模块方框图,所述的簇新增分析单元包括:
不可容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
划分单元,用于根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
新簇接受值计算单元,用于根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
本发明提出了一个数据流概念漂移检测方法及系统。本发明对数据的漂移检测不仅仅是关注在数据聚类结果的簇中心偏移方面,同时也关注数据的簇集的新增和消失情况。首先,通过计算最新的簇集在旧数据集上的簇可容忍点集的距离平方和与待检测数据集的簇可容忍点集的距离平方和,进而分析簇集中簇的中心偏移值。第二,分析在待检测数据集中簇集的各个簇的可容忍点集的数量衰退情况,进而判断簇集中某个簇是否会在待检测数据集中消失;第三,分析在待检测数据集中簇集的簇不可容忍点集所构成的新的潜在簇集,构造相应的簇集过滤器对新的潜在簇集进行过滤,发掘是否存在新的簇的出现。最终,综合这三个角度对数据进行的分析结果,利用数据概念漂移概念检测评估方案对数据的偏移情况进行分级。详细的检测过程的介绍如下:
首先,对数据进行划分并计算各个簇内所有点与簇中心点的距离平方和,然后统计整个簇集的距离平方和的总和。根据新旧数据集下的距离平方和总值的变化情况,评估新的数据段发生的数据概念漂移情况。由于距离平方和是描述数据集划分后的各个数据集的集中程度,那么通过数据概念漂移评估函数对距离平方和计算后,容易保证新的数据段在的簇集的中心漂移能够落在一个范围内,从而降低使用误差太大的旧簇集进行服务的可能性。但是如果单纯地将所有数据进行划分并计算距离平方和总值,那么该值会受到噪声数据的影响,噪声数据会使距离平方和偏大,从而影响数据概念漂移检测的效果,因此在噪声数据存在的场景下利用距离平方和评估的方法的效果不佳。为了解决该问题,本发明会在数据划分前做一些优化:利用旧的簇集将待检测数据集划分,首先获取数据集中数据点的最近邻近簇,然后将该数据点划分到其最近簇上,最后比较数据点与其最近簇的距离和该簇的簇容忍距离,若数据点归属与簇的簇容忍点集中的点则将其保留到该簇中,否则将该数据转移到一个临时的潜在数据集中,以便后期对该数据点进行相关处理。通过这样的方法,不仅仅将数据进行简单的划分和计算距离平方和,而是按照最近分配原则再依据某数据点是否属于所属簇的簇可容忍的点进行过滤,这样的做法保证了每个数据只被处理一次(但是不保证每个点都最终分配到某一簇上),并且也能够对离异值过滤。该方法是对数据顺序不敏感的,可以消除处理效果对数据顺序的影响。
第二,经过第一步计算后获得一个临时的潜在数据集,该数据集包含的数据是不被任何一个簇所容忍的离异点,即簇不可容忍点集。这里对该数据集应用Canopy类的快速粗略聚类方法,快速获取聚集信息。但是原生的Canopy算法存在几个缺点:1、对数据的序列敏感,聚类获得的簇集具有不稳定性;2、簇间的重叠性,由于数据点的距离落在T2和T1之间时被不同的簇重复计算,点被重复计算次数越多,其涉及的簇的中心越会往这些点靠近,其必然会影响聚类效果;3、阈值T1和T2的定义,T1相对T2的大小会影响到簇间的重叠程度。本发明对此做了相应的改进,通过将T1值和T2值设置成一样,使得不同的簇间没有交叉的数据点,并且利用旧的簇的相关信息初始化T1和T2值,以解决这些参数的设定问题。然后对快速聚类处理的结果进行合并,若它们间的距离小于一个阈值则将它们进行合并成一个新的簇。最后,通过密度方法对粗略聚类出来的簇进行筛选,判断每个簇中的数据点数是否已经达到符合条件,若数据量大于阈值,则认为这是新的簇并保留该簇,否则把该簇抛弃。这里使用Canopy方法的目的是检测新簇的情况,并不需要太严格太精确的簇信息,之后对松散型的簇执行过滤操作,进而获得可靠的新的簇集;这样既能消除Canopy不稳定的聚类的影响,又能充分利用Canopy的快速聚类的优势。
综合利用这两种快速处理方法的优点,有效地分析簇的消失、簇新增以及簇中心漂移,并综合这三方面信息对数据概念漂移进行高效、准确的检测判断。
从上述内容可以看出:
本发明一种数据流概念漂移检测方法及系统通过对簇中心、簇消失和簇新增这几个角度进行分析,从而检测出概念漂移的级别。本发明利用多角度识别概念漂移,实现了对待检测数据集的概念漂移评估指标的精确量化,能够较全面地对概念漂移情况进行分析,准确检测出概念漂移的级别。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种数据流概念漂移检测方法,其特征在于,包括以下步骤:
A、根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
B、根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
C、通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
D、根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值;
所述步骤B中簇演变值的计算方法为:
设簇演变值用表示,衰退因子为ε,基准阈值为x为该簇原来所包含的点数,衰变函数表示为则簇演变值为:
C E V ( CD i ( m i ) ) = 1 , i f S I Z E ( CTD i ( s i ) ( DN ( n &prime; ) , CD i ( m i ) ) ) &GreaterEqual; f ( x ) 0 , o t h e r w i s e ;
其中,DN(n')为待检测数据集,n'为待检测数据集的点数量,CDi为第i簇,mi为第i簇的元素个数,表示待检测数据集的簇集各个簇的簇容忍点集,为待检测数据集的簇集各个簇的簇容忍点集中元素的个数;
簇演变值用于判断簇集中的簇是否已经消失,若簇演变值为1时,表示该簇没有发生簇消失状况;反之若簇演变值为0,则表示该簇发生簇消失状况;
其中,簇容忍距离表示簇对新的数据点的可接受的距离,设簇对新数据点的可接受程度为簇中的所有点与簇中心点距离的最大值被定义为簇最大半径,记作Rmax,簇容忍距离表示为
若点D与簇C间的距离不大于簇C的簇容忍距离,则称D是簇C的簇容忍点;否则称D为簇C的簇不可容忍点;
簇集中所有的簇容忍点所构成的集合叫该簇的簇容忍点集,簇集中所有的簇都不可容忍点所构成的集合叫该簇的簇不可容忍点集。
2.根据权利要求1所述的一种数据流概念漂移检测方法,其特征在于:所述的步骤A包括:
A1、根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
A2、通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
A3、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
A4、根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
A5、根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
A6、根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
3.根据权利要求2所述的一种数据流概念漂移检测方法,其特征在于:所述的步骤C包括:
C1、根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
C2、根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
C3、根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
4.根据权利要求3所述的一种数据流概念漂移检测方法,其特征在于:所述步骤A4中所述的过度分散值,其计算公式为:
D O D = 1 , i f &Sigma; i = 1 t S I Z E ( SCTD i ) < n * &alpha; 0 , o t h e r w i s e
其中,SCTDi为第i个簇容忍点集,t为簇容忍点集的个数,SIZE(SCTDi)为簇容忍点集中的元素个数,n为待检测数据集的点数量,α为过度阈值因子,DOD为过度分散值。
5.根据权利要求4所述的一种数据流概念漂移检测方法,其特征在于:所述步骤D中所述的概念漂移级别值,其计算公式为:
D E D V = DED m a x , i f D O D = 1 o r &Sigma; i = 1 k C E V ( CD i ( m i ) ) &GreaterEqual; 1 o r &Sigma; i = 1 p N C V ( CDN i ) &GreaterEqual; 1 o r A B S ( S S C T ( DO ( n ) , SCD ( k ) ) - S S C T ( DN ( n &prime; ) , SCD ( k ) ) ) S S C T ( DO ( n ) , SCD ( k ) ) > 1 R O U N D ( A B S ( S S C T ( DO ( n ) , SCD ( k ) ) - S S C T ( DN ( n &prime; ) , SCD ( k ) ) ) S S C T ( DO ( n ) , SCD ( k ) ) * ( DED max - DED m i n ) ) , o t h e r w i s e
其中,CDi为第i簇,mi为第i簇的元素个数,为第i簇的簇演变值,k为簇的个数,CDN为新簇集,p为新簇集的新簇数量,NCV(CDNi)为第i个新簇的新簇接受值,DO(n)为旧数据集,n为旧数据集的点数量,SCD(k)为簇集,DN(n')为待检测数据集,n'为待检测数据集的点数量,SSCT(DO(n),SCD(k))为对应旧数据集的簇容忍点集距离平方总和,SSCT(DN(n'),SCD(k))为对应待检测数据集的簇容忍点集距离平方总和,DEDmax为概念漂移级别的最大值,DEDmin为概念漂移级别的最小值,DEDV为概念漂移级别值。
6.一种数据流概念漂移检测系统,其特征在于,包括:
簇中心分析单元,用于根据簇集、旧数据集和待检测数据集,计算旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和;
簇消失分析单元,用于根据衰退函数和待检测数据集,计算簇集中各个簇的簇演变值;
簇新增分析单元,用于通过分析得到对应待检测数据集的簇不可容忍点集并对其数据点进行划分形成新簇集,进而计算新簇集中各个簇的新簇接受值;
概念漂移级别分析单元,用于根据计算得到的簇演变值、新簇接受值、旧数据集的簇容忍点集距离平方总和与待检测数据集的簇容忍点集距离平方总和,计算概念漂移级别值;
所述簇消失分析单元中簇演变值的计算方法为:
设簇演变值用表示,衰退因子为ε,基准阈值为x为该簇原来所包含的点数,衰变函数表示为则簇演变值为:
其中,DN(n')为待检测数据集,n'为待检测数据集的点数量,CDi为第i簇,mi为第i簇的元素个数,表示待检测数据集的簇集各个簇的簇容忍点集,为待检测数据集的簇集各个簇的簇容忍点集中元素的个数;
簇演变值用于判断簇集中的簇是否已经消失,若簇演变值为1时,表示该簇没有发生簇消失状况;反之若簇演变值为0,则表示该簇发生簇消失状况;
其中,簇容忍距离表示簇对新的数据点的可接受的距离,设簇对新数据点的可接受程度为簇中的所有点与簇中心点距离的最大值被定义为簇最大半径,记作Rmax,簇容忍距离表示为
若点D与簇C间的距离不大于簇C的簇容忍距离,则称D是簇C的簇容忍点;否则称D为簇C的簇不可容忍点;
簇集中所有的簇容忍点所构成的集合叫该簇的簇容忍点集,簇集中所有的簇都不可容忍点所构成的集合叫该簇的簇不可容忍点集。
7.根据权利要求6所述的一种数据流概念漂移检测系统,其特征在于:所述的簇中心分析单元包括:
距离计算单元,用于根据旧数据集和簇集,计算旧数据集中数据点与簇集中各个簇之间的距离,进而得到数据点的最近簇并将数据点划分到其对应最近簇中;
旧数据集簇容忍点集计算单元,用于通过计算簇集中各个簇的簇容忍距离,得到对应旧数据集的簇集各个簇的簇容忍点集的集合;
待检测数据集簇容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇容忍点集的集合;
过度分散值计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集的集合,计算待检测数据集的过度分散值;
旧数据集距离簇容忍点集平方和计算单元,用于根据对应旧数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应旧数据集的簇容忍点集距离平方总和;
待检测数据集距离簇容忍点集平方和计算单元,用于根据对应待检测数据集的簇集各个簇的簇容忍点集,计算各个簇容忍点集中数据点与对应簇的距离平方和,进而对得到的多个距离平方和进行总和计算,得到对应待检测数据集的簇容忍点集距离平方总和。
8.根据权利要求7所述的一种数据流概念漂移检测系统,其特征在于:所述的簇新增分析单元包括:
不可容忍点集计算单元,用于根据簇集中各个簇的簇容忍距离和待检测数据集,得到对应待检测数据集的簇集各个簇的簇不可容忍点集的集合;
划分单元,用于根据簇集中各个簇的簇容忍距离,对簇不可容忍点集中的数据点通过聚类处理将其划分至簇集中,形成新簇集;
新簇接受值计算单元,用于根据新簇集和簇新增阈值,计算新簇集中各个簇的新簇接受值。
CN201310255816.4A 2013-06-19 2013-06-19 一种数据流概念漂移检测方法及系统 Active CN103345575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310255816.4A CN103345575B (zh) 2013-06-19 2013-06-19 一种数据流概念漂移检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310255816.4A CN103345575B (zh) 2013-06-19 2013-06-19 一种数据流概念漂移检测方法及系统

Publications (2)

Publication Number Publication Date
CN103345575A CN103345575A (zh) 2013-10-09
CN103345575B true CN103345575B (zh) 2016-07-13

Family

ID=49280370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310255816.4A Active CN103345575B (zh) 2013-06-19 2013-06-19 一种数据流概念漂移检测方法及系统

Country Status (1)

Country Link
CN (1) CN103345575B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126385B (zh) * 2016-06-14 2018-09-07 电子科技大学 一种基于同步数据流压缩的设备异常实时检测方法
CN106934035B (zh) * 2017-03-14 2019-06-14 合肥工业大学 一种基于类与特征分布的多标签数据流中概念漂移检测方法
CN107358019B (zh) * 2017-05-25 2021-01-29 上海交通大学医学院附属瑞金医院 用于概念漂移的医疗方案的推荐方法
US11481667B2 (en) 2019-01-24 2022-10-25 International Business Machines Corporation Classifier confidence as a means for identifying data drift
CN110659275B (zh) * 2019-09-23 2022-02-08 东华大学 面向实时数据流的动态生产环境异常监测系统
CN111626351B (zh) * 2020-05-26 2024-03-22 清华大学 一种用于获取数据分布的概念漂移量的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827002A (zh) * 2010-05-27 2010-09-08 文益民 一种数据流分类的概念漂移检测方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN103150470A (zh) * 2013-02-18 2013-06-12 大连理工大学 一种动态数据环境下的数据流概念漂移可视化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565369B2 (en) * 2004-05-28 2009-07-21 International Business Machines Corporation System and method for mining time-changing data streams

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827002A (zh) * 2010-05-27 2010-09-08 文益民 一种数据流分类的概念漂移检测方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN103150470A (zh) * 2013-02-18 2013-06-12 大连理工大学 一种动态数据环境下的数据流概念漂移可视化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Concept drift and how to identify it》;Shenghui Wang 等;《Web Semantics:Science,Services and Agents on the World Wide Web》;20110517;第247-265页 *
《IKnnM-DHecoc:一种解决概念漂移问题的方法》;辛轶 等;《计算机研究与发展》;20110415;第48卷(第4期);第592-601页 *
《具有概念漂移的P2P网络流量识别研究》;刘三民 等;《系统工程与电子技术》;20130430;第35卷(第4期);第864-869页 *
《基于概率数据流的有效聚类算法》;戴东波 等;《软件学报》;20090531;第20卷(第5期);第1313-1328页 *

Also Published As

Publication number Publication date
CN103345575A (zh) 2013-10-09

Similar Documents

Publication Publication Date Title
CN103345575B (zh) 一种数据流概念漂移检测方法及系统
CN105279365B (zh) 用于学习异常检测的样本的方法
CN110634080B (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN110197588A (zh) 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置
CN101493400B (zh) 一种基于形状特征的自动分类校正的方法
CN105940301B (zh) 一种流式细胞分析仪及其多维数据分类方法、装置
CN106248559A (zh) 一种基于深度学习的白细胞五分类方法
CN102254428B (zh) 一种基于视频处理的交通拥塞检测方法
CN103150900A (zh) 一种基于视频的交通拥堵事件自动检测方法
CN102982534B (zh) 基于弦线切线法的Canny边缘检测双阈值获取方法
CN107356515A (zh) 一种荧光图像的荧光强度确定方法和系统
CN110263666A (zh) 一种基于非对称多流的动作检测方法
CN103473459A (zh) 一种多系统大数据的处理及融合方法
CN104200114A (zh) 流式细胞仪数据快速分析方法
Abou Chacra et al. Fully automated road defect detection using street view images
CN102331393A (zh) 一种对人体血液中细胞进行自动分类计算的方法
CN113327248A (zh) 一种基于视频的隧道车流量统计方法
CN114254146A (zh) 图像数据的分类方法、装置和系统
Bitar et al. A probabilistic approach to improve the accuracy of axle-based automatic vehicle classifiers
CN103902798A (zh) 数据预处理方法
CN113593242A (zh) 一种基于路口车辆检测器组的在途量估算方法
CN110674887A (zh) 一种基于视频分类的端到端道路拥堵检测算法
CN104794896B (zh) 基于升降式限高架的高架桥拥堵空间热点自动提取方法
CN104537392A (zh) 一种基于判别性语义部件学习的对象检测方法
CN112767349A (zh) 一种网织红细胞识别方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant