CN108121993A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN108121993A CN108121993A CN201611075915.4A CN201611075915A CN108121993A CN 108121993 A CN108121993 A CN 108121993A CN 201611075915 A CN201611075915 A CN 201611075915A CN 108121993 A CN108121993 A CN 108121993A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- data samples
- determining
- data sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012512 characterization method Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法,包括:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。本发明同时还公开了一种数据处理装置。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法及装置。
背景技术
随着互联网和移动互联网的高速发展,数据呈几何量级的快速增长,数据总量大概每六个月翻一番。大量的有效信息隐藏在数据的海洋中,用户需要充分利用数据,对数据进行有效的挖掘和分析,才能够发现其中隐藏的有效信息,从而让数据产生应有的价值。然而,实际获取数据的过程中,不可避免地会有部分数据缺失,每个数据样本都可能存在部分缺失,数据的缺失会给数据挖掘和分析任务带来巨大的挑战。
对于缺失的数据,目前数据缺失处理方法包括两大类:一类是剔除缺失值;二类是对缺失值进行插补。
然而,这两类处理方式均存在一定问题,具体表现在:
提出缺失值的方法是以信息的损失为代价换取剩余数据的完整性,当缺失的数据量比较大时,大部分样本会被剔除,失去统计意义。
对于插补的方式,无论如何插补,插补结果与实际情况总会有偏差,这种偏差会在后续处理过程中产生累积,产生更多问题。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理方法及装置。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,包括:
获取多个数据样本;所述多个数据样本形成数据集合;
利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,
确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
上述方案中,确定所述多个数据样本的分类过程中,所述方法还包括:
针对所述多个数据样本的每个特征,确定一个弱分类器;
相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。
上述方案中,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
确定所述多个数据样本的分类过程中,所述方法还包括:
利用数据样本对应的类标,为数据样本确定初始权重。
上述方案中,所述利用数据样本对应的标准类别,为数据样本确定初始权重,包括:
当类标表征数据样本的初始分类正确时,确定对应数据样本的初始权重为第一值;
当类标表征数据样本的初始分类错误时,确定对应数据样本的初始权重为第二值。
上述方案中,针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。
上述方案中,确定所述多个数据样本的分类过程中,所述方法还包括:
确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
本发明实施例还提供了一种数据处理装置,包括:
获取单元,用于获取多个数据样本;所述多个数据样本形成数据集合;
确定单元,用于利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,
确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
上述方案中,所述确定单元,用于针对所述多个数据样本的每个特征,确定一个弱分类器;
相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。
上述方案中,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
所述确定单元,用于确定所述多个数据样本的分类过程中,利用数据样本对应的类标,为数据样本确定初始权重。
上述方案中,所述确定单元,用于针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。
上述方案中,所述确定单元,用于确定所述多个数据样本的分类过程中,确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
本发明实施例提供的数据处理方法及装置,获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。基于Adaboost算法,确定所述多个数据样本的分类,且在确定过程中分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,有缺失值的数据样本的权重增加,这样,在该过程中不需要对任何缺失数据进行删除和插补,直接通过未缺失数据进行分类的统计分析,并可以对部分缺失的数据的分类进行分析和预测,如此,使用范围更广,使用更方便。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例一数据处理的方法流程示意图;
图2为本发明实施例二数据分类的处理过程示意图;
图3为Adaboost算法实现的三个方面示意图;
图4为本发明实施例三数据处理装置结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
目前,对于缺失的数据,目前数据缺失处理方法包括两大类:一类是剔除缺失值;二类是对缺失值进行插补。
其中,剔除缺失值有两种实现方式,第一种方式是剔除有缺失值的样例,另一种方式是剔除有缺失值的特征。对缺失值进行插补可以通过很多方法实现,常用的方法包括:均值插补、相似样本插补、回归预测插补以及多重插补等。
这里,均值插补是一种快速有效的缺失值插补方法。变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就采用众数来补齐该缺失的变量值。
相似样本插补是指:从数据集合中找到一个与缺失样本最相似的样本,然后用这个相似样本的值来进行填充。其中,相似性的度量方法有多种,例如相关系数,各种距离等等。
回归预测插补是利用无缺失变量对缺失变量建立回归模型,估计缺失值,用回归结果插补缺失值。这种方法综合考虑了多个样本和多个特征的信息,对整个数据集合的信息进行了充分利用,较上述方法有一定优势。
多重插补方法是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法,是对上述简单插补方法的改进。其基本思想是:首先,用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。接着,对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估算技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法一定程度上反映出了由于数据缺失而导致的不确定。
然而,目前的数据缺失处理方法均存在一定的问题。下面详细说明各方法存在的问题。
剔除缺失值方法的问题显而易见的。具体表现在:对于剔除缺失值的方法,剔除有缺失值的样例会造成样本减少,统计产生偏差;而剔除有缺失值的特征则会减少数据集的信息量。无论以哪种方式剔除,都是以信息的损失为代价换取剩余数据的完整性。当缺失数据较多时,大部分样本会被剔除,统计分析一定程度上丧失意义。此外,在预测阶段,当新获取的数据有部分缺失时,该数据即不能被有效处理,也需要删除。
对于插补方法(包括均值插补、相似样本插补、回归预测插补以及多重插补等)。无论具体采用哪种方法,核心思想都是通过统计信息,挖掘数据集中的潜在信息,补充缺失数据。无论如何插补,插补结果与实际情况总会有偏差,这种偏差会在后续处理过程中产生累积,产生更多问题。以下分别来说明。
均值插补对变量的均值估计不会产生影响,但会造成变量的方差和标准差变小,会产生有偏估计(由样本值求得的估计演与待估参数的真值之间有系统误差,其期望值不是待估参数的真值)。
相似样本插补变量的标准差与插补前比较接近。但是容易使得回归方程的误差增大,参数估计变得不稳定;而且这种方法需要每次遍历整个数据集合使用不便。
回归插补法虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重;此外,研究者必须建立正确的模型才能刻画变量与其他变量的统计关系,这个问题无疑是困难的。
多重插补一定程度上反映了由于样本缺失造成的数据集合的随机性,但这种随机性未必符合实际情况,对后续的统计分析造成的影响也是不确定的。
基于此,在本发明的各种实施例中:获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
实施例一
本发明实施例数据处理的方法,如图1所示,包括以下步骤:
步骤101:获取多个数据样本;
这里,所述多个数据样本形成数据集合。
步骤102:利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类。
其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
这里,Adaboost算法是一种迭代算法,其核心思想是:针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),从而得到对数据样本的最终分类结果。
针对每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类,具体来说,传统的Adaboost弱分类器的输出为{-1,1},分别对应数据样本的分类是错误的和正确的,本发明实施例的方案中,为弱分类器添加一个“哑输出”,将输出种类扩展为3个{-1,0,1};当弱分类器遇到缺失值时输出为“哑输出”,即0,表征该数据样本有缺失值未确定该数据样本的分类。
所述数据集合可以包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
确定所述多个数据样本的分类过程中,还需要利用数据样本对应的类标,为数据样本确定初始权重。
具体地,当类标表征数据样本的初始分类正确时,确定对应数据样本的初始权重为第一值;
当类标表征数据样本的初始分类错误时,确定对应数据样本的初始权重为第二值。
其中,实际应用时,可以根据数据样本分类判决结果的重要性,来确定第一值和第二值。举个例子来说,如果分类正确的数据样本比较重要,则可以让分类正确的数据样本的初始权重值大一些;如果分类错误的数据样本比较重要,可以让分类错误的数据样本的初始权重值大一些。
在一实施例中,确定所述多个数据样本的分类过程中,可以针对所述多个数据样本的每个特征,确定一个弱分类器;相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。
其中,实际应用时,传统的Adaboost算法所使用的弱分类器通常会采用几个特征训练得到的决策树,而在本发明实施例中,每个特征对应一个弱分类器,这样,可以有效地防止数据样本的缺失数据(缺失值)造成弱分类器的功能失效。
实际应用时,针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器,如此,能使得最终分类的判决结果更加准确。
实际应用时,可以根据需要确定数据样本的特征。本发明实施例不对确定数据样本特征的过程进行限定。
在一实施例中,确定所述多个数据样本的分类过程中,该方法还可以包括:
确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
本发明实施例提供的数据处理方法,获取多个数据样本;所述多个数据样本形成数据集合;利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。基于Adaboost算法,确定所述多个数据样本的分类,且在确定过程中分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,有缺失值的数据样本的权重增加,这样,在该过程中不需要对任何缺失数据进行删除和插补,直接通过未缺失数据进行分类的统计分析,并可以对部分缺失的数据的分类进行分析和预测,如此,使用范围更广,使用更方便。
另外,确定所述多个数据样本的分类过程中,针对所述多个数据样本的每个特征,确定一个弱分类器,如此,能保证弱分类器功能的有效性。
实施例二
在实施例一的基础上,本实施例详细描述如何有效地处理缺失值的过程。
如图2所示,本发明实施例提供的方案,无需对缺失数据进行任何插补或删除,直接对原始数据进行分类,识别。
其中,如图3所示,Adaboost算法的实现主要包括三个方面,一是根据当前数据样本权重生成一系列新分类器,选择最佳分类器(弱分类器);二是计算最佳分类器评估误差;三是根据误差计算最佳分类器权重,并更新数据样本权重。最终得到一个最强的分类器,从而得到数据样本分类的最终判决结果。
在上述这些过程中,本发明实施例的方案实施时,需要对传统的Adaboost算法进行修正,主要表现在:
(1)传统的Adaboost算法中,弱分类器通常采用几个特征训练得到的决策树;在本发明实施例的方案中,每个弱分类器由数据样本的一个特征获得,这样做的目的是防止缺失值造成多个特征构成的整个弱分类器失效。也就是说,针对多个数据样本的每个特征,均确定一个弱分类器。
(2)传统Adaboost算法中,弱分类器的输出为{-1,1},分别对应数据样本的分类是错误的和正确的;而在本发明实施例中,每个弱分类器增加一个“哑输出”,将输出种类扩展为3个{-1,0,1};当弱分类器遇到缺失值时输出为“哑输出”,即0,表征该数据样本有缺失值未确定该数据样本的分类。
(3)数据样本权重更新过程中,“哑输出”(即有缺失值)的数据样本权重与分类错误的数据样本的权重一样增加,后续分类过程中,有缺失值的数据样本的权重更大,可以通过非缺失值进行合理分类。
下面描述本发明实施例Adaboost算法的完整流程,主要包括以下步骤:
1.Begin初始化D={x1,y1,...,xn,yn},kmax(最大循环次数)
2.
3.k←0;
4.do k←k+1
5.训练使用按照wk(i)采样的D的弱分类器Ck
6.Ek←对使用wk(i)的D测量的Ck的分类误差
7.确定Ck的权重:
8.更新D中数据样本的权重:
9.Until k=kmax
10.返回带权重的分类器的总体Return Ck和αk,k=1,...,kmax
11.end
12.最后的总体分类的判决可以使用各个分量分类器加权平均来得到:
13.最后对分类结果的判定规则是:
H(x)=sign(g(x))
其中,步骤1为初始化过程,在该过程中得到数据样本集合D,以及最大循环次数kmax。用xi和yi表示原始样本集合D的样本点(对应的数据样本)和它们的类标。这里,yi的取值只能是+1或-1。
这里,最大循环次数可以根据需要进行设置。
步骤2为确定数据样本的初始权重过程。其中,在步骤2中,m表示数据样本集合D中分类正确的数据样本个数,n表示数据集合D中分类错误的数据样本个数。
步骤3至11为迭代过程,在迭代过程中,用Wk(i)表示第k次迭代时全体数据样本的权重分布。具体来说,
步骤5中,在确定弱分类器时,从一系列的分类器(多个分类器)中选择分类判断误差最小的分类器作为弱分类器,表示为hk。相应地,在迭代过程中,每次迭代都选择判断误差最小的分类器作为弱分类器。确定好弱分类器后,弱分类器对数据样本集合D中的数据样本的分类进行判决。当数据缺失时,Ck输出为0,且记为一个错误。
步骤6中,确定步骤5中的弱分类器Ck对数据集合D中的数据样本分类判决的误差率Ek,即分类判断误差。从公式中可以看出,步骤5中的弱分类器Ck对应的误差率就是被弱分类器Ck误分类数据样本的权重之和。
步骤7中,利用弱分类器Ck的分类误差Ek确定弱分类器Ck的权重,即确定弱分类器Ck在最终分类器中的重要程度。
步骤8中,更新数据样本的权重,通过步骤8中的公式,使得被弱分类器Ck误分类数据样本和缺失数据的数据样本的权重增大,即确实数据的数据样本的权重按照错误分类数据样本的方式来处理,而被正确分类的数据样本的权重减小。就这样,通过这样的方式,AdaBoost方法能重点关注或聚焦于那些较难分的数据样本上。
这里,在步骤8中,Zk只是一个归一化系数,使得Wk(i)能够代表一个真正的分布,而hk(xi)是分量分类器Ck给出的对任一样本点xi的标记(+1,0或-1),hk(xi)=yi时,样本被正确分类,当数据缺失时hk(xi)输出为0。
在步骤9中,迭代停止条件可以是:判断当前误差率是否小于一个设定阈值。
步骤10表示迭代结束。
步骤11表示迭代结果的输出。
步骤12至13得到最终分类器并得到数据样本的最终分类判决结果。具体来说,
在步骤12中,通过组合各弱分类器,得到最终分类器。
在步骤13中,通过最终分类器,对数据样本集合D中的数据样本的分类进行最后判决,得到最终的分类结果。
这里,sign函数为符号函数。
从上面的描述中可以看出,本发明实施例提供的方案,不对缺失数据进行处理(删除或插值处理),而是通过修正后续的统计分析方法(选择Adaboost分类器),通过单特征弱分类器集成,忽略缺失值,即采用哑变量实现容缺失,仅利用未缺失的数据对整个数据集合进行分类,识别。
采用本发明实施例的方案可以避免数据缺失值的插补,直接通过未缺失值进行统计分析,可以对部分缺失的数据进行分析、预测。由于不需对任何缺失数据进行删除和插补,所以使用更方便;而且,适用范围更广,即使数据有部分缺失,依然能给出一个预测结果。
实施例三
为实现本发明实施例的方法,本实施例提供一种数据处理装置,如图4所示,该装置包括:
获取单元41,用于获取多个数据样本;所述多个数据样本形成数据集合;
确定单元42,用于利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,
确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
这里,Adaboost算法是一种迭代算法,其核心思想是:针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),从而得到对数据样本的最终分类结果。
针对每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类,具体来说,传统的Adaboost弱分类器的输出为{-1,1},分别对应数据样本的分类是错误的和正确的,本发明实施例的方案中,为弱分类器添加一个“哑输出”,将输出种类扩展为3个{-1,0,1};当弱分类器遇到缺失值时输出为“哑输出”,即0,表征该数据样本有缺失值未确定该数据样本的分类。
所述数据集合可以包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
确定所述多个数据样本的分类过程中,所述确定单元42还需要利用数据样本对应的类标,为数据样本确定初始权重。
具体地,当类标表征数据样本的初始分类正确时,所述确定单元42确定对应数据样本的初始权重为第一值;
当类标表征数据样本的初始分类错误时,所述确定单元42确定对应数据样本的初始权重为第二值。
其中,实际应用时,可以根据数据样本分类判决结果的重要性,来确定第一值和第二值。举个例子来说,如果分类正确的数据样本比较重要,则可以让分类正确的数据样本的初始权重值大一些;如果分类错误的数据样本比较重要,可以让分类错误的数据样本的初始权重值大一些。
在一实施例中,确定所述多个数据样本的分类过程中,所述确定单元42可以针对所述多个数据样本的每个特征,确定一个弱分类器;相应地,所述确定单元42利用确定的弱分类器为数据样本分类的正确与错误进行判断。
其中,实际应用时,传统的Adaboost算法所使用的弱分类器通常会采用几个特征训练得到的决策树,而在本发明实施例中,每个特征对应一个弱分类器,这样,可以有效地防止数据样本的缺失数据(缺失值)造成弱分类器的功能失效。
实际应用时,针对每个弱分类器,确定单元42从多个分类器中确定分类判断误差最小的分类器作为弱分类器,如此,能使得最终分类的判决结果更加准确。
实际应用时,可以根据需要确定数据样本的特征。本发明实施例不对确定数据样本特征的过程进行限定。
在一实施例中,所述确定单元42,用于确定所述多个数据样本的分类过程中,确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
实际应用时,所述获取单元41及确定单元42可由数据处理装置中的中央处理器(CPU,Central Processing Unit)、微处理器(MCU,Micro Control Unit)、数字信号处理器(DSP,Digital Signal Processor)或可编程逻辑阵列(FPGA,Field-Programmable GateArray)实现。
本发明实施例提供的方案,所述获取单元41获取多个数据样本;所述多个数据样本形成数据集合;所述确定单元42利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。基于Adaboost算法,确定所述多个数据样本的分类,且在确定过程中分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,有缺失值的数据样本的权重增加,这样,在该过程中不需要对任何缺失数据进行删除和插补,直接通过未缺失数据进行分类的统计分析,并可以对部分缺失的数据的分类进行分析和预测,如此,使用范围更广,使用更方便。
另外,确定所述多个数据样本的分类过程中,所述确定单元42针对所述多个数据样本的每个特征,确定一个弱分类器,如此,能保证弱分类器功能的有效性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
获取多个数据样本;所述多个数据样本形成数据集合;
利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,
确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
2.根据权利要求1所述的方法,其特征在于,确定所述多个数据样本的分类过程中,所述方法还包括:
针对所述多个数据样本的每个特征,确定一个弱分类器;
相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。
3.根据权利要求1所述的方法,其特征在于,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
确定所述多个数据样本的分类过程中,所述方法还包括:
利用数据样本对应的类标,为数据样本确定初始权重。
4.根据权利要求3所述的方法,其特征在于,所述利用数据样本对应的标准类别,为数据样本确定初始权重,包括:
当类标表征数据样本的初始分类正确时,确定对应数据样本的初始权重为第一值;
当类标表征数据样本的初始分类错误时,确定对应数据样本的初始权重为第二值。
5.根据权利要求1所述的方法,其特征在于,针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。
6.根据权利要求1至5任一项所述的方法,其特征在于,确定所述多个数据样本的分类过程中,所述方法还包括:
确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
7.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取多个数据样本;所述多个数据样本形成数据集合;
确定单元,用于利用所述数据集合,基于Adaboost算法,确定所述多个数据样本的分类;其中,
确定所述多个数据样本的分类过程中,每个弱分类器的输出表征对数据样本分类的判决结果为以下之一:正确、错误、有缺失值未确定数据样本的分类;
分类错误和有缺失值未确定数据样本分类的数据样本的权重增加,以对所述多个数据样本进行下一次的分类。
8.根据权利要求7所述的装置,其特征在于,所述确定单元,用于针对所述多个数据样本的每个特征,确定一个弱分类器;
相应地,利用确定的弱分类器为数据样本分类的正确与错误进行判断。
9.根据权利要求7所述的装置,其特征在于,所述数据集合包含数据样本及类标;所述类标表征对数据样本初始分类的判决结果;
所述确定单元,用于确定所述多个数据样本的分类过程中,利用数据样本对应的类标,为数据样本确定初始权重。
10.根据权利要求7所述的装置,其特征在于,所述确定单元,用于针对每个弱分类器,从多个分类器中确定分类判断误差最小的分类器作为弱分类器。
11.根据权利要求7至10任一项所述的装置,其特征在于,所述确定单元,用于确定所述多个数据样本的分类过程中,确定每个弱分类器在最终分类器中所占的权重;
利用每个弱分类器的权重及对应的输出,生成所述最终分类器,以得到数据样本的最终分类判决。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611075915.4A CN108121993A (zh) | 2016-11-28 | 2016-11-28 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611075915.4A CN108121993A (zh) | 2016-11-28 | 2016-11-28 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108121993A true CN108121993A (zh) | 2018-06-05 |
Family
ID=62225915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611075915.4A Pending CN108121993A (zh) | 2016-11-28 | 2016-11-28 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108121993A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459925A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据组合式插补方法 |
CN111831631A (zh) * | 2019-04-22 | 2020-10-27 | 发那科株式会社 | 缺失值补全装置、缺失值补全方法以及计算机可读介质 |
CN112506906A (zh) * | 2020-12-04 | 2021-03-16 | 北京三维天地科技股份有限公司 | 一种基于人工智能技术的数据治理平台 |
-
2016
- 2016-11-28 CN CN201611075915.4A patent/CN108121993A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831631A (zh) * | 2019-04-22 | 2020-10-27 | 发那科株式会社 | 缺失值补全装置、缺失值补全方法以及计算机可读介质 |
CN111459925A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种园区综合能源异常数据组合式插补方法 |
CN112506906A (zh) * | 2020-12-04 | 2021-03-16 | 北京三维天地科技股份有限公司 | 一种基于人工智能技术的数据治理平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106572493B (zh) | Lte网络中的异常值检测方法及系统 | |
US20160267359A1 (en) | Image object category recognition method and device | |
CN108446741B (zh) | 机器学习超参数重要性评估方法、系统及存储介质 | |
CN116595463B (zh) | 窃电识别模型的构建方法、窃电行为识别方法及装置 | |
CN112949693B (zh) | 图像分类模型的训练方法、图像分类方法、装置和设备 | |
CN106651574A (zh) | 一种个人信用评估方法及装置 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN112086144B (zh) | 分子生成方法、装置、电子设备及存储介质 | |
Larracy et al. | Machine learning model validation for early stage studies with small sample sizes | |
CN110909868A (zh) | 基于图神经网络模型的节点表示方法和装置 | |
CN102955950A (zh) | 用于在线训练分类器的装置和在线训练分类器的方法 | |
CN108171119B (zh) | 基于残差网络的sar图像变化检测方法 | |
CN110851176A (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN115617882A (zh) | 基于gan的带有结构约束的时序图数据生成方法及系统 | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN108121993A (zh) | 一种数据处理方法及装置 | |
CN112016774A (zh) | 一种基于数据增强技术的配网运行状态辨识方法及系统 | |
CN105224954A (zh) | 一种基于Single-pass去除小话题影响的话题发现方法 | |
CN111984842A (zh) | 银行客户数据处理方法及装置 | |
Al-Behadili et al. | Semi-supervised learning using incremental support vector machine and extreme value theory in gesture data | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
CN112419098B (zh) | 基于安全信息熵的电网安全稳定仿真样本筛选扩充方法 | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180605 |