CN107341497A - 结合选择性升采样的不均衡数据流加权集成分类预测方法 - Google Patents
结合选择性升采样的不均衡数据流加权集成分类预测方法 Download PDFInfo
- Publication number
- CN107341497A CN107341497A CN201611038696.2A CN201611038696A CN107341497A CN 107341497 A CN107341497 A CN 107341497A CN 201611038696 A CN201611038696 A CN 201611038696A CN 107341497 A CN107341497 A CN 107341497A
- Authority
- CN
- China
- Prior art keywords
- sample
- mrow
- data block
- msub
- minority class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据挖掘技术领域,提出结合选择性升采样的不均衡数据流加权集成分类预测方法,包括根据相似度对历史数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;对选择的样本通过在决策边界区域合成新样本以达到选择地实施升采样;采用基于概率分布相关度的权重分配策略对新样本进行加权集成分类处理。通过选择相似度高的历史数据和合成边界区域的新数据来有效增加少数类样本信息,扩大少数类的决策域;同时为了适应存在概念漂移的动态数据,使用集成分类思想,设计一种基于概率分布相关度的权重分配策略,提升整体分类精度。实验结果表明该算法有效地提高了少数类的识别率以及整体的分类性能,具有更好的处理不均衡数据流的优势。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及结合选择性升采样的不均衡数据流加权集成分类预测方法。
背景技术
随着通信技术的飞速发展,许多应用领域出现了海量的动态的数据,如商业交易分析,入侵检测和工业控制等。由于数据流中的数据呈现大量、连续到来的特点,不能被一次性装入内存,使得传统的挖掘方法难以有效地进行应用。数据流的分类问题一直是数据流挖掘领域的重要研究课题之一,对数据流学习分类具有两个难点:第一,由于数据随时间的持续变化,因此必然会导致数据中所蕴含的概念随着时间而发生着变化的,即概念漂移(concept drift),如何有效地适应漂移变化,已成为近年来数据挖掘中的一个热点和难点,第二,动态数据经常伴随着类别分布不均衡的情况,例如商业交易数据中诈骗交易可能只占1%甚至更少的比例,由于多数类的信息占据了主要地位,传统的分类器在训练和预测过程中往往向多数类倾斜,从而无法有效地对少数类样本进行学习,而在很多领域中往往少数类的识别率更为重要,所以传统分类器的性能往往不尽如人意。
目前多数的数据流学习算法都是基于类别分布均衡的假设,不均衡数据分布使得概念漂移数据流问题更加复杂,因此直到最近学术界才开始关注这方面的研究,如Gao等提出一种方法SE(Sampling+Ensemble),对最新的数据块中多数类样本采用多轮降采样,并与之前收集的所有少数类样本合并,形成多个较为均衡的数据子集,并分别构建分类器,以实现对最新数据块的集成学习。但是由于概念漂移的存在,之前少数类的样本可能与当前的概念发生了改变,导致对当前训练数据块的学习无法提供有效的信息,而且只对当前训练数据块构建了分类器,不能保持已经学习过的概念。Hoens等提出基于朴素贝叶斯模型的升采样算法IS(Instance Selecting),根据贝叶斯模型生成的样本后验概率来选择与当前数据概念相似的历史样本。但是由于朴素贝叶斯基于所有特征独立,没有相互依赖的假设,在分布复杂的数据中,其后验概率无法准确度量历史样本与当前概念的相关程度。另外,这两种算法都只是使用历史数据进行少数类升采样,并没有生成新的样本信息,导致采样效果有限。
发明内容
为了能有效处理具有概念漂移的不平衡数据流挖掘分类问题,本发明提出结合选择性升采样的加权集成分类预测方法,有效地补充少数类的数据信息,扩展潜在的决策空间;另外,在提升少数类分类精度的同时,也能很好地适应动态数据流中的概念漂移问题。
一种结合选择性升采样的不均衡数据流加权集成分类预测方法,包括:
步骤一:根据相似度对历史训练数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;
步骤二:对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本;
步骤三:根据步骤一筛选的样本和步骤二合成的新样本形成均衡的训练数据块,利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器,并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布;
步骤四:利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度,进行确定每个训练数据块对应的分类器的相关度权重;
步骤五:采用步骤三中训练得到的基分类器和步骤四中基于概率分布的相关度权重,对待预测数据块中的新样本进行加权集成分类预测。
进一步地,步骤一中包括:
选择与当前训练数据块BT概念最相近的样本,计算当前训练数据块中少数类样本的中心其中n为BT中少数类样本数量;
收集0<t<T-1所有训练数据块的少数类样本,生成数据集合Setmin,计算Setmin中每个样本xj与CT的距离Dis(xj,CT)=||xj-CT||,并计算最大距离Dmax=max(Dis(xj,CT));
采用公式计算每个样本的相似度conf,并根据相似度进行排序,选择大于某阈值threshold的样本加入到当前数据集BT中。
进一步地,步骤二中包括:
计算每个少数类样本xi与其K1个相邻异类(多数类)样本的距离其中E(xi)为xi的K1个相邻多数类样本集合;
根据di计算xi的采样权重ri=1/di,;
对ri进行归一化:并根据归一化的采样权重,计算每个样本xi的实际采样数量ni,其中Nos为合成样本的数量;
再根据SMOTE插值原,对每个少数类样本,随机选出其K2个同类的邻近样本,并且在该样本与这些邻近的样本的连线上随机取点,利用公式生成无重复的新的少数类样本xnew,其中为xi的一个相邻少数类样本,0<λ<1。
进一步地,步骤三包括:
利用决策树C4.5分类器对均衡训练数据块构建分类模型Ct;
利用高斯混合模型对均衡的训练数据块估计概率分布:
进一步地,步骤四包括:
根据数据块Bt(0<t<T)与BT+1之间的概率分布相关度,即KL散度对数据分布进行度量:
来确定分类器Mt的相关度权值wt,
进一步地,步骤四包括:
对wt进行归一化,得到
利用分类模型对待预测数据块中的样本xj进行预测,预测结果为ytj;
汇总即得到预测结果:
本发明针对类别不均衡数据分布的数据流分类问题,提出一种结合选择性升采样的加权集成分类算法。为了消除或减少数据的不均衡性,采用选择性升采样算法从两个方面有效增加了少数类样本信息;同时为了提高分类器在概念漂移的动态数据分类性能,使用数据概率分布相关度策略确定各个分类器的权重,可以很好地反映各个基分类器的真实权重分布。通过实验验证表明该算法能够明显提高了少数类的识别率以及整体的分类性能,具有很好的动态数据学习适应性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于SOS方法在每个数据块的性能对比图;
图2为本发明提供的在多种采样率下基于SOS方法的性能变化对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种结合选择性升采样的不均衡数据流加权集成分类预测方法,包括:根据相似度对历史数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;对选择的样本通过在决策边界区域合成新样本以达到选择地实施升采样;采用基于概率分布相关度的权重分配策略对新样本进行加权集成分类处理。
数据流分类的任务是:对持续不断的动态数据,利用有限的内存构造一个分类模型以获取数据流中随时间推移的趋势和模式。数据流是以大小固定的分块形式(Batch)逐次到达的,B1,..,Bt,..,BT,共T个数据块,t代表时间戳,Bt表示在时间戳t到达的数据块,其中BT为当前的数据块,下一时刻到来的数据块为BT+1。在每个数据块中两个类别样本经常呈不均衡分布,并且数据包含的概念会发生改变。
具体实施时,包括:
第一阶段、选择性升采样算法
每个数据块中少数类样本稀少,类内部的规律无法通过训练样本充分表现出来,数据采样是最为简单有效解决不均衡问题的技术手段。从两方面入手对少数类进行升采样,来增加该数据块的少数类样本信息。第一,考虑数据流概念“周期性”出现的特点,即历史数据中可能包含与新概念相近的少数类样本,所以通过相似度距离,从历史数据中选择并引入与当前训练数据块少数类样本相似度较高的样本,第二通过在决策边界区域合成新样本,进而扩大了少数类潜在的决策域,均衡化数据分布。
Step 1:根据相似度对历史训练数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;
根据相似度来对历史数据块的少数类样本进行筛选,选择与当前训练数据块BT概念最相近的样本。首先计算当前训练数据块中少数类样本的中心:
其中n为BT中少数类样本数量。
收集0<t<T-1所有训练数据块的少数类样本,生成数据集合Setmin,计算Setmin中每个样本xj与CT的距离Dis(xj,CT)=||xj-CT||,并计算最大距离Dmax=max(Dis(xj,CT))。之后根据式(2)计算每个样本的相似度conf,并根据相似度进行排序,选择满足条件(大于某阈值threshold)的样本加入到当前数据集BT中。
Step 2:对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本;
增添少数类的历史数据可以一定程度上补充少数类的信息,但没有对少数类注入新的知识,所以还需要通过样本合成技术来增加新的样本。由于边界数据对少数类的识别作用较大,所以为了扩展少数类的决策空间,应对少数类样本有选择地实施升采样,即重点对在决策边界区域的少数类样本进行采样。
计算每个少数类样本xi与其K1个相邻异类(多数类)样本的距离:
其中E(xi)为xi的K1个相邻多数类样本集合。
根据di计算xi的采样权重ri=1/di,di越小说明该样本是边界样本的可能性更大,从而采样权重ri越大。对ri进行归一化:并根据归一化的采样权重,计算每个样本xi的实际采样数量ni,其中Nos为合成样本的数量。
再根据SMOTE插值原则,对每个少数类样本,随机选出其K2个同类(少数类)的邻近样本,并且在该样本与这些邻近的样本的连线上随机取点,利用公式(4)生成无重复的新的少数类样本xnew,从而均衡化类别的数据分布,并扩大了少数类的决策空间。
其中为xi的一个相邻少数类样本,0<λ<1。
通过以上两步选择性采样算法的操作之后,在新的较为均衡的数据集balBT上构建分类模型MT。选择性升采样算法流程如算法1所示:
第二阶段:基于概率分布相关度的加权集成分类算法;
由于单分类器处理概念漂移数据流时需要不断更新分类模型且分类器泛化能力不高,基于集成的方法通过组合多个分类器,既可以保留过去学到的概念,又可以及时对模型进行更新,从而可以提高分类器泛化能力。如何确定集成分类器中的各个基分类器的权重,是数据流集成学习的关键。通常的做法是根据每个基分类器在当前训练数据块的分类性能作为确定权重的依据,即0<t<T-1数据块对应的分类器权重是根据其在BT数据块上的性能进行确定的,之后加权集成分类应用到BT+1数据块的数据预测中,所以权重的确定都要滞后一个数据块,无法及时准确地适应动态概念的变化。如果BT和BT+1之间发生突发性的概念漂移,根据其在BT上的性能确定的权值应用到BT+1上会得到不准确的预测结果,甚至可能比没有权重的普通集成方法性能更差。
本发明提出一种基于概率分布相关度的加权集成分类算法,通过数据分布的空间距离来度量两个数据块分布的相关程度,进而可以准确且及时地调整各个基分类器的权重,增强自适应能力,以减少集成分类器在未来数据块上的预测错误率。
Step 3:根据Step 1筛选的样本和Step 2合成的新样本形成均衡的训练数据块,利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器,并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布;
高斯混合分布(Gaussian mixture distribution,GMM)是一种对数据的真实分布进行模拟和逼近的半参数表达模型,可以近似任意数据分布,所以假定每个时序数据块中的数据遵从具有某种参数的高斯混合分布,从而使用高斯混合分布对每个数据块进行建模,并对进行参数估计。
高斯混合模型可视为多个高斯分布以一定比例混合而成,假定一组观测值由混合分布p产生,该分布由K个单一高斯分布混合而成,即有K个子高斯分布,如公式(4)所示。
在GMM中,每个高斯成分用均值μ和协方差矩阵∑来决定其几何特征。高斯混合模型中共有3个参数向量μk,πk和∑k(k=1,…,K),它将数据的概率密度函数用多个高斯函数的线性组合来表示。
其中:N(x|μk,Σk)为高斯分布密度函数,
对高斯混合模型进行参数估计的常用方法是EM,但由于其需要人工指定K值,并且其对初始值点敏感,所以在本发明中使用Figueiredo-Jain解法来对参数进行估计,该算法可以自动确定高斯混合模型中K值,从而更加准确地计算出模型中的参数。
Step 4:利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度,进行确定每个训练数据块对应的分类器的相关度权重;
信息论中的KL-divergence(又称KL散度,或KL距离)是衡量两个概率分布相似程度的最佳度量方式,可以很好地表示数据分布之间的关系。用KL散度来度量两个数据块概率分布之间的差异。设p1(x)和p2(x)是两个概率密度函数,则两者之间的KL散度表达式为:
由于高斯混合分布的KL散度没有闭式解,根据论文提出的一种针对高斯混合分布的KL度量公式,可直接通过GMM估计的参数向量进行计算:
其中
d为x的特征维度。
根据数据块Bt(0<t<T)与BT+1之间的概率分布相关度,即KL散度,来确定分类器Mt的权值wt,如下:
对wt进行归一化,得到KL值越小说明两个数据块分布越相似,对应的基分类器对当前的数据块具有更好的预测能力,应赋予更高的权值。
Step 5:采用Step 3中训练得到的基分类器和Step 4中基于概率分布的相关度权重,对待预测数据块中的新样本进行加权集成分类预测;
通过直接比较概率分布相关度,可以准确检测出概念漂移,并度量其对每个分类器的影响,进而提高算法对概念漂移的反应速度。
算法2描述了基于概率分布相关度的加权集成分类流程,其中每个分类模型Mt是基于算法1进行构建获得的。
申请人对上述方法进行了实验验证,实验设置如下:
根据多组实验,对算法中选择性采样的参数设置为threshold=0.8,K1=10,K2=5,Nos=|newMinT|。为了对本发明提出的算法性能进行验证和评估,本发明选择三组具有概念漂移且类别分布失衡的数据集进行测试,数据集信息如表1。
其中数据集的背景说明如下:Compustat数据集描述的是某公司几年财务监控状况,Football数据集记录2003-2008年度ESPN中的足球比赛统计,而Ozone-8h是对休斯顿、加尔维斯顿等地区每8小时的臭氧浓度的测量数据。所有数据来源于Lichtenwalter提供的公开数据集。
分类性能的评测指标直接影响着分类器的整体性能,由于以准确率为评测指标的分类器会忽略少数类的分类准确率,为此针对不均衡数据,使用常用的不均衡分类评测指标F-measure,G-mean和AUC。
表1数据集信息
数据集 | 样本总数 | 少数类数量 | 特征维数 | 不均衡比例 |
Compust | 13,657 | 520 | 20 | 1:25 |
Football | 4,288 | 1,597 | 11 | 1:2 |
Ozone-8h | 2,534 | 160 | 72 | 1:15 |
表2混淆矩阵
为了定义G-mean和F-measure,需要用到混淆矩阵的概念,如表2。G-mean是综合考虑两类的准确率,而F-measure是只针对少数类,即查全率和查准率的调和均值,如公式(9)-(10)所示:
其中:
AUC(Area Under the ROC Curve)是另一个有效的不均衡数据分类性能评价手段。由于ROC曲线作为分类器评估的可视化技术得到了广泛应用,AUC能以定量的方式表示ROC曲线对应的分类器性能。
实验结果如下:
(1)验证SOS-PDRWE算法性能
为了测试结合选择性采样的加权集成算法性能,通过实验比较只对当前训练数据块进行训练学习的单分类器算法BL(Baseline),只对当前训练数据块采样和学习的SOS算法,无升采样的加权集成分类算法PDRWE,和本发明的算法SOS-PDRWE。另外,也对根据分类性能来设置权重的方法SOS-IWE进行测试。基分类器使用决策树C4.5算法,实验结果如表3-5所示。所有结果都是每个数据集所有训练数据块上性能的均值。
通过三种指标性能的比较可以发现SOS-PDRWE能够很好地处理不均衡分布的数据流问题,具有较高的分类精度和适应性。特别是对概念漂移和不均衡程度均较为严重的Compustat数据集,有效的升采样和加权集成分类策略可以保证较高的分类性能。
表3F-measure实验结果
分类方法 | Compustat | Football | Ozone-8h |
BL | 0.554 | 0.834 | 0.733 |
SOS | 0.626 | 0.842 | 0.759 |
PDRWE | 0.607 | 0.869 | 0.752 |
SOS-IWE | 0.674 | 0.865 | 0.796 |
SOS-PDRWE | 0.706 | 0.879 | 0.823 |
表4G-mean实验结果
分类方法 | Compustat | Football | Ozone-8h |
BL | 0.414 | 0.707 | 0.712 |
SOS | 0.467 | 0.726 | 0.765 |
PDRWE | 0.460 | 0.755 | 0.730 |
SOS-IWE | 0.483 | 0.751 | 0.787 |
SOS-PDRWE | 0.529 | 0.782 | 0.806 |
表5AUC实验结果
分类方法 | Compustat | Football | Ozone-8h |
BL | 0.658 | 0.843 | 0.786 |
SOS | 0.658 | 0.866 | 0.808 |
PDRWE | 0.710 | 0.925 | 0.797 |
SOS-IWE | 0.721 | 0.872 | 0.842 |
SOS-PDRW | 0.784 | 0.925 | 0.861 |
为了更深入观察PDRWE集成学习在具有概念漂移的数据流下的分类性能,使用Compustat数据集对每个数据块的分类性能F-measure进行对比,如图1所示。Compustat数据中每个数据块记录了不同时期的财务状况,所以存在着不同程度的概念漂移,尤其是第13个数据块发生较为明显的概念变化。由于更加关注少数类识别性能,所以只用F-measure对三种算法进行评估。通过图2可以发现,三种方法在当出现概念漂移时,其F-measure值都出现不同程度的下降。基于PDRWE集成分类算法根据数据分布相关度来调节基分类器的权重,可以有效地克服潜在概念漂移的问题,能很好地及时适应目标概念的改变。
最后应说明的是以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,包括:
步骤一:根据相似度对历史训练数据块的少数类样本进行筛选,选择与当前训练数据块概念最相近的样本;
步骤二:对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本;
步骤三:根据步骤一筛选的样本和步骤二合成的新样本形成均衡的训练数据块,利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器,并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布;
步骤四:利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度,进行确定每个训练数据块对应的分类器的相关度权重;
步骤五:采用步骤三中训练得到的基分类器和步骤四中基于概率分布的相关度权重,对待预测数据块中的新样本进行加权集成分类预测。
2.根据权利要求1所述的结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,步骤一中包括:
选择与当前训练数据块BT概念最相近的样本,计算当前训练数据块中少数类样本的中心其中n为BT中少数类样本数量;
收集0<t<T-1所有训练数据块的少数类样本,生成数据集合Setmin,计算Setmin中每个样本xj与CT的距离Dis(xj,CT)=||xj-CT||,并计算最大距离Dmax=max(Dis(xj,CT));
采用公式计算每个样本的相似度conf,并根据相似度进行排序,选择大于某阈值threshold的样本加入到当前数据集BT中。
3.根据权利要求2所述的结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,步骤二中包括:
计算每个少数类样本xi与其K1个相邻异类样本的距离其中E(xi)为xi的K1个相邻多数类样本集合;
根据di计算xi的采样权重ri=1/di,;
对ri进行归一化:并根据归一化的采样权重,计算每个样本xi的实际采样数量ni,其中Nos为合成样本的数量;
对每个少数类样本,随机选出其K2个同类的邻近样本,并且在该样本与这些邻近的样本的连线上随机取点,利用公式生成无重复的新样本xnew,其中为xi的一个相邻少数类样本,0<λ<1。
4.根据权利要求3所述的结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,步骤三包括:
利用决策树C4.5分类器对均衡的训练数据块构建分类模型Ct;
利用高斯混合模型对均衡的训练数据块估计概率分布:
<mrow>
<msub>
<mi>p</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>&pi;</mi>
<mi>k</mi>
</msub>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<msub>
<mi>&mu;</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
5.根据权利要求4所述的结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,步骤四包括:
根据数据块Bt(0<t<T)与BT+1之间的概率分布相关度,即KL散度对数据分布进行度量:
<mrow>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>p</mi>
<mrow>
<mi>T</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>&Integral;</mo>
<msub>
<mi>p</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mi>l</mi>
<mi>n</mi>
<mfrac>
<mrow>
<msub>
<mi>p</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>p</mi>
<mrow>
<mi>T</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mi>d</mi>
<mi>x</mi>
</mrow>
来确定分类器Mt的相关度权值wt,
6.根据权利要求5所述的结合选择性升采样的不均衡数据流加权集成分类预测方法,其特征在于,步骤四包括:
对wt进行归一化,得到
利用分类模型Ct对待预测数据块中的样本xj进行预测,预测结果为ytj;
汇总即得到预测结果
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611038696.2A CN107341497A (zh) | 2016-11-11 | 2016-11-11 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611038696.2A CN107341497A (zh) | 2016-11-11 | 2016-11-11 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107341497A true CN107341497A (zh) | 2017-11-10 |
Family
ID=60223060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611038696.2A Pending CN107341497A (zh) | 2016-11-11 | 2016-11-11 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341497A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108765A (zh) * | 2017-12-28 | 2018-06-01 | 北京理工大学 | 一种基于概率密度比的数据融合的设备故障诊断方法 |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN109145991A (zh) * | 2018-08-24 | 2019-01-04 | 北京地平线机器人技术研发有限公司 | 图像组生成方法、图像组生成装置和电子设备 |
CN109376944A (zh) * | 2018-11-13 | 2019-02-22 | 国网宁夏电力有限公司电力科学研究院 | 智能电表预测模型的构建方法及装置 |
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN110109969A (zh) * | 2019-04-16 | 2019-08-09 | 公安部第三研究所 | 一种用于类不均衡应用的集成数据流挖掘方法和系统 |
CN110516853A (zh) * | 2019-08-07 | 2019-11-29 | 中南民族大学 | 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 |
CN111178435A (zh) * | 2019-12-30 | 2020-05-19 | 山东英信计算机技术有限公司 | 一种分类模型训练方法、系统、电子设备及存储介质 |
CN111310785A (zh) * | 2020-01-15 | 2020-06-19 | 杭州华网信息技术有限公司 | 一种国家电网机械外破预测方法 |
CN111478904A (zh) * | 2020-04-08 | 2020-07-31 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111582315A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 样本数据处理方法、装置及电子设备 |
CN112000705A (zh) * | 2020-03-30 | 2020-11-27 | 华南理工大学 | 一种基于主动漂移检测的非平衡数据流挖掘方法 |
CN112269841A (zh) * | 2020-09-24 | 2021-01-26 | 华控清交信息科技(北京)有限公司 | 一种数据生成方法、装置和用于数据生成的装置 |
CN112434878A (zh) * | 2020-12-09 | 2021-03-02 | 同济大学 | 一种基于Cascade样本均衡的地震流体预测方法 |
CN112612897A (zh) * | 2020-12-30 | 2021-04-06 | 湖北大学 | 一种维基百科概念依赖关系识别方法 |
US20210182600A1 (en) * | 2019-12-16 | 2021-06-17 | NEC Laboratories Europe GmbH | Measuring relatedness between prediction tasks in artificial intelligence and continual learning systems |
CN113052198A (zh) * | 2019-12-28 | 2021-06-29 | 中移信息技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN113160881A (zh) * | 2021-05-14 | 2021-07-23 | 东北大学 | 一种基于mRMR和MBFA的高维数据特征选择方法 |
CN113887561A (zh) * | 2021-09-03 | 2022-01-04 | 广东履安实业有限公司 | 一种基于数据分析的人脸识别方法、设备、介质、产品 |
CN114120240A (zh) * | 2021-12-02 | 2022-03-01 | 广州辰创科技发展有限公司 | 一种复杂环境的个体行为识别的方法及系统 |
CN114629871A (zh) * | 2022-02-28 | 2022-06-14 | 杭州趣链科技有限公司 | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
-
2016
- 2016-11-11 CN CN201611038696.2A patent/CN107341497A/zh active Pending
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108765A (zh) * | 2017-12-28 | 2018-06-01 | 北京理工大学 | 一种基于概率密度比的数据融合的设备故障诊断方法 |
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN108628971B (zh) * | 2018-04-24 | 2021-11-12 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN109145991A (zh) * | 2018-08-24 | 2019-01-04 | 北京地平线机器人技术研发有限公司 | 图像组生成方法、图像组生成装置和电子设备 |
CN109376944A (zh) * | 2018-11-13 | 2019-02-22 | 国网宁夏电力有限公司电力科学研究院 | 智能电表预测模型的构建方法及装置 |
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN110109969A (zh) * | 2019-04-16 | 2019-08-09 | 公安部第三研究所 | 一种用于类不均衡应用的集成数据流挖掘方法和系统 |
CN110516853A (zh) * | 2019-08-07 | 2019-11-29 | 中南民族大学 | 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 |
US11836751B2 (en) * | 2019-12-16 | 2023-12-05 | Nec Corporation | Measuring relatedness between prediction tasks in artificial intelligence and continual learning systems |
US20210182600A1 (en) * | 2019-12-16 | 2021-06-17 | NEC Laboratories Europe GmbH | Measuring relatedness between prediction tasks in artificial intelligence and continual learning systems |
CN113052198A (zh) * | 2019-12-28 | 2021-06-29 | 中移信息技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111178435A (zh) * | 2019-12-30 | 2020-05-19 | 山东英信计算机技术有限公司 | 一种分类模型训练方法、系统、电子设备及存储介质 |
US11762949B2 (en) | 2019-12-30 | 2023-09-19 | Shandong Yingxin Computer Technologies Co., Ltd. | Classification model training method, system, electronic device and strorage medium |
CN111178435B (zh) * | 2019-12-30 | 2022-03-22 | 山东英信计算机技术有限公司 | 一种分类模型训练方法、系统、电子设备及存储介质 |
CN111310785A (zh) * | 2020-01-15 | 2020-06-19 | 杭州华网信息技术有限公司 | 一种国家电网机械外破预测方法 |
CN112000705A (zh) * | 2020-03-30 | 2020-11-27 | 华南理工大学 | 一种基于主动漂移检测的非平衡数据流挖掘方法 |
CN112000705B (zh) * | 2020-03-30 | 2024-04-02 | 华南理工大学 | 一种基于主动漂移检测的非平衡数据流挖掘方法 |
CN111478904B (zh) * | 2020-04-08 | 2022-05-03 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111478904A (zh) * | 2020-04-08 | 2020-07-31 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111582315A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 样本数据处理方法、装置及电子设备 |
CN111582315B (zh) * | 2020-04-09 | 2023-11-14 | 上海淇毓信息科技有限公司 | 样本数据处理方法、装置及电子设备 |
CN112269841A (zh) * | 2020-09-24 | 2021-01-26 | 华控清交信息科技(北京)有限公司 | 一种数据生成方法、装置和用于数据生成的装置 |
CN112434878B (zh) * | 2020-12-09 | 2022-09-20 | 同济大学 | 一种基于Cascade样本均衡的地震流体预测方法 |
CN112434878A (zh) * | 2020-12-09 | 2021-03-02 | 同济大学 | 一种基于Cascade样本均衡的地震流体预测方法 |
CN112612897B (zh) * | 2020-12-30 | 2023-06-20 | 湖北大学 | 一种维基百科概念依赖关系识别方法 |
CN112612897A (zh) * | 2020-12-30 | 2021-04-06 | 湖北大学 | 一种维基百科概念依赖关系识别方法 |
CN113160881A (zh) * | 2021-05-14 | 2021-07-23 | 东北大学 | 一种基于mRMR和MBFA的高维数据特征选择方法 |
CN113160881B (zh) * | 2021-05-14 | 2023-10-20 | 东北大学 | 一种基于mRMR和MBFA的高维数据特征选择方法 |
CN113887561B (zh) * | 2021-09-03 | 2022-08-09 | 广东履安实业有限公司 | 一种基于数据分析的人脸识别方法、设备、介质、产品 |
CN113887561A (zh) * | 2021-09-03 | 2022-01-04 | 广东履安实业有限公司 | 一种基于数据分析的人脸识别方法、设备、介质、产品 |
CN114120240B (zh) * | 2021-12-02 | 2023-04-18 | 广州辰创科技发展有限公司 | 一种复杂环境的个体行为识别的方法及系统 |
CN114120240A (zh) * | 2021-12-02 | 2022-03-01 | 广州辰创科技发展有限公司 | 一种复杂环境的个体行为识别的方法及系统 |
CN114629871A (zh) * | 2022-02-28 | 2022-06-14 | 杭州趣链科技有限公司 | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN114826675B (zh) * | 2022-03-28 | 2024-05-28 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341497A (zh) | 结合选择性升采样的不均衡数据流加权集成分类预测方法 | |
Siwek et al. | Data mining methods for prediction of air pollution | |
Bowden et al. | Input determination for neural network models in water resources applications. Part 1—background and methodology | |
CN112506990B (zh) | 一种基于时空信息的水文数据异常检测方法 | |
Wahono et al. | Metaheuristic optimization based feature selection for software defect prediction. | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN102542288B (zh) | 一种高光谱数据多特征空间构建与融合分类方法 | |
CN110458313A (zh) | 一种基于svm的电力用户信用风险预警方法及系统 | |
CN111639878B (zh) | 一种基于知识图谱构建的滑坡风险预测方法及系统 | |
CN102693452A (zh) | 基于半监督回归学习的多模型软测量方法 | |
CN103473786A (zh) | 基于多目标模糊聚类的灰度图像分割方法 | |
CN106066493A (zh) | 贝叶斯岩相判别方法及装置 | |
CN110111113A (zh) | 一种异常交易节点的检测方法及装置 | |
CN112785450A (zh) | 一种土壤环境质量分区方法及系统 | |
CN110428270A (zh) | 基于逻辑回归算法的渠道潜在偏好客户识别方法 | |
CN112199862B (zh) | 纳米粒子运移的预测方法、其影响因子分析方法及系统 | |
CN104463673A (zh) | 一种基于支持向量机的p2p网络贷款风险评估模型 | |
Cheng et al. | Groutability prediction of microfine cement based soil improvement using evolutionary LS-SVM inference model | |
CN104915679A (zh) | 一种基于随机森林加权距离的大规模高维数据分类方法 | |
Fallah et al. | Comparison of temporal and spatial patterns of water quality parameters in Anzali Wetland (southwest of the Caspian Sea) using Support vector machine model | |
CN113889198A (zh) | 一种基于油色谱时频域信息和残差注意力网络的变压器故障诊断方法及设备 | |
Alejo et al. | Making accurate credit risk predictions with cost-sensitive mlp neural networks | |
CN104570109A (zh) | 一种储层油气预测的方法 | |
Sharma et al. | Iot in smart cities: Exploring information theoretic and deep learning models to improve parking solutions | |
Shi et al. | Optimization and data mining for fracture prediction in geosciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171110 |