CN101676912A - 在存储器有限的系统中对数据进行分类的方法 - Google Patents
在存储器有限的系统中对数据进行分类的方法 Download PDFInfo
- Publication number
- CN101676912A CN101676912A CN200910166917A CN200910166917A CN101676912A CN 101676912 A CN101676912 A CN 101676912A CN 200910166917 A CN200910166917 A CN 200910166917A CN 200910166917 A CN200910166917 A CN 200910166917A CN 101676912 A CN101676912 A CN 101676912A
- Authority
- CN
- China
- Prior art keywords
- sample
- training dataset
- data
- data collection
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的实施方式表述了一种用于在具有有限存储器的系统中对数据进行分类的方法。该方法对训练数据集应用实例学习(EL)过程,以产生适于该存储器大小的实例数据集。该EL过程是从包括基于熵的实例学习(EBEL)过程和支持宽带的高级学习(ABEL)过程的组中选择的。该实例数据集被用来对系统获取的数据进行分类。
Description
技术领域
本发明总体上涉及数据的分类,更具体地涉及在存储器有限的系统中进行数据的分类。
背景技术
数据分类
数据分类是基于从数据项中提取的某种定量信息以及先前标记过的数据项的训练集而将预定标记指派给该数据项。例如,电子邮件分类系统可以基于电子邮件的内容以及已知是“垃圾邮件”或者“非垃圾邮件”的电子邮件的训练数据集而将特定的邮件标记为“垃圾邮件”或者“非垃圾邮件”。分类器的性能很大程度上依赖于要被分类的数据的特性。不存在对所有的分类问题都能很好地工作的单一分类器。该性能还依赖于训练数据的质量。一个良好训练的分类器要求大的训练数据集,该大的训练数据集具有带有各种特性的带标记样本。
分类器可以根据用于从数据项中提取信息的数学模型、训练数据的量和模型复杂度而不同。分类器的选择通常依赖于数据特性及其对计算资源的要求,例如CPU的使用和存储器要求。例如,当实时地要求分类结果时,某些分类器可能是不适合的。
嵌入式系统
嵌入式系统通常集成在某种其它设备或机器中。嵌入式系统可以被设计为通常实时地执行专用的功能。对于很多设备而言嵌入式系统是非常常见的,这些设备例如便携式视频播放器、照相机、交通信号灯、工厂控制器和监视系统。因为许多嵌入式系统执行专用功能,因此可以在大小、成本、可靠性和性能方面对嵌入式系统进行优化。
包括传感器并执行分类的嵌入式系统可以使用训练数据进行训练。经过训练的嵌入式系统可以具有增强的功能和性能。例如,照相机上的分类器可以报警在“非法侵入(non-trespassing)”监视区域中有入侵者出现。然而,嵌入式系统通常具有有限的存储器,且不能存储大训练数据集。
对于有限存储器的一个解决方法是存储在训练数据中精心选择的足以用于进行有效分类的少量的“实例”。如这里定义的,范例是具有更大量训练数据集的特性的样本数据。
实例学习(EL)方法
实例学习(EL)方法可以被用来从大训练数据集中选择一个小的训练数据集。就像其名称所暗示的,EL通过实例来学习。也就是说,降低了分类器的错误率的“好的”样本被保留,而“坏的”样本被丢弃。因此,EL可以被用来在具有有限存储器的嵌入式系统中生成基于存储器的分类器的少量训练数据集。
常规的EL方法基于某种邻域结构而学习实例。那么,这些方法使用常规的误分类率对由于样本被移除而产生的性能损失或性能增加进行测量。
EL方法可以随着对样本的处理而连续地调整训练数据集,使得好的新样本被保留,而坏的新样本被丢弃。因此,分类器可以动态适应嵌入式系统工作的变化环境。几乎所有的EL方法都基于以下假设来丢弃样本:
假设0(H0):如果移除给定训练数据集中的样本不会增加其余样本的误分类率或者错误率,则该样本可以被丢弃。
EL方法具有某些缺点。
递增更新
常规的EL方法是计算密集型的、离线的且在本质上不是递增的。它们要求整个训练数据集在实例EL方法执行期间始终被存储在存储器中。这使得这些方法不适用于存储器有限并且训练数据定期更新的嵌入式系统。
类不均衡
在假设H0中使用的误分类率对于类不均衡并不敏感。这个问题在EL中非常关键,其中样本的移除改变了类总体(class population)。例如,在具有90个正样本和10个负样本的集合中,移除一个正样本会导致九个正样本的误分类和一个负样本的误分类,而丢弃一个负样本会导致一个正样本和九个负样本的误分类。
因为在这两种情况下错误率是相同的,即为10%,所以类不均衡会导致负样本的丢弃,从而在训练数据集中仅保留了正向样本。
希望具有如下的EL方法,与产生更好结果的整体分类精度相对照,其产生了对分类器在两个分类之间进行区分的能力的估计。
按顺序的移除
大多数按顺序的移除过程或者是ad-hoc的,或者是返回训练数据集,该训练数据集的大小在运行期间是确定的。这些方法忽略了按顺序移除样本以找到对于给定存储器大小而言最佳的训练数据集。希望有如下的EL方法,其产生满足预定的存储器大小限制(例如典型的在嵌入式系统中)的最优训练数据集。
验证一致性
如果在训练数据集中保留的样本的错误率没有增加,则常规的EL方法将样本移除。因此,一个样本扮演了双重的角色。亦即,该样本同时参与了对训练数据集和待分类测试集的更新。随着移除的进行,训练数据集的大小和属性动态变化,因此,错误率是在不一致且具有更低统计显著性的不同集合上确定。这就希望具有一种与训练数据集不相交且在移除过程中保持不变的单独的验证数据集。
发明内容
本发明的实施方式提供了一种用于对数据样本进行分类的方法和系统。更具体地说,通过具有有限存储器的嵌入式系统中的传感器来感测样本。因此,该方法构建了一种与存储器的大小一致的预定大小的实例数据集。
在一个实施方式中,该方法使用在训练期间保持不变的训练数据集以及与该训练数据集不相交的验证数据集。
本发明的一个实施方式使用基于熵的实例学习(EBEL)过程。该EBEL过程基于训练数据集的信息内容而不使用错误率从训练数据集中移除样本的实例。
并不使用ad-hoc分级(ranking)方案,EBEL过程将如下的训练数据实例移除,即对该训练数据实例的移除使得类指示符变量的条件熵的降低最小化。这使得信息的损失最小化。该EBEL方法具有低计算开销,提供了按顺序的移除,且对于类不均衡是不敏感的。
本发明的另一个实施方式使用利用了支持宽带的高级学习(advanced broadband enabled learning,ABEL)过程的接收机工作特性曲线下的面积(AUC),其基于AUC的性能来移除样本。ABEL过程使用验证数据集,并且如果对一个样本的移除没有降低在验证数据集上确定的AUC,则移除该样本。
发明效果
本发明的实施方式描述了用于确定实例数据集的EBEL过程和ABEL过程,该实例数据集可以用于在具有有限存储器的嵌入式系统中的对数据进行分类。该EBEL和ABEL过程可以利用新的训练数据集有效地更新,同时维持任意的用户定义大小的高质量实例数据集。
附图说明
图1是根据本发明的实施方式的用于对数据进行分类的方法和系统的框图;
图2是根据本发明的实施方式的用于确定实例数据集的方法和系统的框图;
图3是根据本发明的实施方式的EBEL过程的伪代码;
图4是根据本发明的实施方式的ABEL过程的伪代码。
具体实施方式
图1使出了根据本发明的实施方式的使用实例学习(EL)来对输入信号101进行分类的方法和系统100。该系统可以被嵌入在某种其它的机器或设备105中,或者可独立工作。该系统100具有有限大小的存储器130。该输入信号101通过传感器110获取和并被实时地分类140。
该传感器110从环境103获取信号101。我们使用术语“环境”通常用来指代可以被感测的任何对象,例如,温度、压力、湿度、气体、液体、固体、机器、声学波形和EM波形、照相机图像等。典型地,环境涉及其中嵌入有系统100的设备105的操作。该传感器生成数据102。
数据102被分类140,以产生数据分类输出145。数据分类140可以由处理器150执行。数据分类140使用实例数据集135来对数据102进行分类。实例数据集135存储在具有有限大小的存储器130中,即,存储器大小是预定的较小值。因此,实例数据集135的大小要根据存储器的大小而适于符合存储器130。
确定实例数据集
图2示出了根据本发明的一个实施方式的用于确定实例数据集135的方法和系统200的框图。该实例数据集135还被用于方法和系统100中进行数据分类140。
本发明的实施方式可以使用基于熵的EL(EBEL)过程或基于AUC的EL(ABEL)过程来学习(210)实例数据集135。该EL过程210根据系统100的有限存储器大小k(220)由训练数据集230来学习实例数据集135。
训练数据集230是从样本数据集260和当前实例数据集250确定(240)。在本发明的一个实施方式中,确定步骤240将样本数据集260和当前实例数据集250组合起来,如这里所述。
样本数据集260包括用于确定训练数据集230的数据样本。该样本数据集260可以通过某些应用程序生成,或者可以从通过传感器110生成的数据102来构建。该样本数据集260可以包括一个或多个数据样本。
该系统和方法200启动并更新实例数据集135。在启动期间,当前实例数据集250为空,且训练数据集230仅从样本数据集260确定(240)。在更新期间,当前实例数据集250是先前确定的实例数据集135。
与常规的EL过程相反,训练数据集230不需要利用先前获得的训练数据集来确定。
基于Parzen核密度估计(PKDE)的分类器
本分类器140使用Parzen核密度估计(PKDE)分类器。该PKDE分类器以非参数方式对随机变量的概率分布函数(pdf)进行估计。然而,本发明还可以推广到任意的分类器。
对于给定的类c和n个样本的训练集Sn,子集Zn c为:
对于PKDE分类器,核函数κ具有带宽λ。对于训练子集Sn,属于类c的样本x的密度估计f为:
其中y是Zn c中的样本元素。
各类的先验概率πc n为:
给定训练数据集Sn,我们可以确定属于特定类c的任意样本x的后验概率p为:
对于二类的分类问题,给定训练数据集Sn,如果两个类由C+和C-表示,则样本x的价值分数(merit-score)γn(x)为:
该价值分数可以用来对利用接收机工作特性曲线下的面积(AUC)或者阈值选择来分类的精度进行分析。
实例学习
从而在从Sn+1转变为Sn时,分类精度的降低小于预定的阈值。
简单的常规解决方法找到全部子集的所有可能的组合,并选择具有最佳性能的子集,其具有复杂度O(2N)。
本发明的实施方式使用从Sn有效地获得Sn-1的递增解决方法。
基于熵的实例学习(EBEL)方法
对于训练数据集230中的各样本x∈Sn,EBEL使用子集Sn\{x}作为训练数据集230且x作为测试样本来确定类变量的条件熵损失。EBEL选择并移除所选择的样本,使得条件熵的减少最小化。
如果C是该类,p(x)是训练实例x上的先验概率,而H(C|x)是存在实例x的条件下类变量的熵,则EBEL根据下式选择并移除所选择的样本:
其中,
因为训练数据集是独立且同分布,所以任何样本实例的先验概率p(x)是恒定的,且可以被忽略。分类器的分类错误由条件熵界定为具有下界:
因此,选择具有最小条件熵的子集最不可能降低分类精度。
本发明的实施方式以有效的方式确定了要移除的最适合的候选样本。通过仅存储训练数据集的成对(pair-wise)核心值之和,可以按O(N)时间找到要被移除的样本。
给定训练子集Sn,按如下方式存储各样本xj∈Sn与该类中的所有其它样本的核心值之和:
然后可以获得如下的具有各实例xj∈Sn的类输出变量的条件熵:
如果使用公式(6)来选择要移除实例y,则ν矩阵可以被更新为:
其中kr是核函数k(.)的特性成分。对于r=2,大小为n的样本的最优带宽为:
其中λ(N)是利用大小为N的训练数据集获得的带宽,其使得MSE最小化。尽管这避免了随着样本大小的改变而重复带宽优化这一计算量很大的工作,但带宽更新仍然要求重新计算公式(10)中的ν矩阵。因为带宽随着样本大小而以n-0.2缓慢地变化,当 时,周期性地更新ν矩阵,其中Nlast是当最后一次带宽更新发生时的样本大小,而α是用户指定的敏感度参数。
在EBEL过程中的递增步骤的复杂度在训练数据集230的大小中是线性的。因此,用于从大小为N的训练数据集230获得大小为k的实例数据集135的EBEL过程的运行时复杂度是O((N-k)α2N)。
图3示出了根据本发明的一个实施方式的EBEL过程的伪代码。当系统已经使用当前实例数据集250进行分类(140)且利用样本数据集260进行了更新时,在学习步骤210中EBEL方法找到实例数据集135 S s.t.,|S|=k。期望的实例集的大小k取决于存储器限制220。对应于的带宽值λ是离线地获得的。在初始阶段,我们通过设置且从样本数据集得到大小为k的实例数据集135。
在计算ν矩阵后,EBEL过程减小训练数据集230S的大小,直到该大小达到期望值k。在步骤4-8中每次移除训练数据集230的一个实例,在步骤9-12,如果样本大小变得小于敏感度参数α所允许的大小,则更新ν矩阵。所产生的实例数据集135S替换当前实例数据集250且被用于对感测的数据102进行分类(140)。
基于AUC的实例学习(ABEL)方法
ABEL过程通过基于一致性验证数据集和保留样本上的AUC性能之间的相关性(dependency)来移除训练数据集的样本,从而解决了验证一致性问题。因此,样本具有训练样本(只要该样本没有被移除)和当确定公式(6)的条件概率时的测试样本的双重角色。
在ABEL过程的不同阶段,性能被验证,即确定对于不同数据集的熵,因此降低了结果的统计显著性。
在ABEL过程中,在移除操作的开始从训练数据集中提取验证数据集,且移除训练数据集的样本使得AUC性能降低,结果,移除的次数被最小化。给定训练数据集230Sn和验证数据集V,使得ABEL过程根据下式移除样本x:
给定验证数据集中的样本的价值分数,在不实际生成ROC曲线的情况下以O(|ν|2)时间确定AUC。然而,对于有限样本集,AUC等于公知的归一化Wilcoxon-Mann-Whitney(WMW)统计量:
其中, 是正类的价值分数,而 是在ν(ν|=n+p)中的负类样本的价值分数。该统计量使用非参数测试来评估两个样本是否来自相同的分布。
图4示出了根据本发明的一个实施方式的ABEL过程的伪代码。ABEL过程首先从训练数据230中提取验证数据集,给定验证数据集(η)的部分大小作为输入参数(步骤2),接着从训练数据集230的其余样本中移除实例(步骤3-6)。部分大小η的最优值取决于存储器的大小以及分类140的复杂度。尽管大小η的较大值导致高存储器开销,但小的值降低了验证数据集元素的AUC分数的统计显著性,从而导致更差的实例移除决策。本发明的一个实施方式使用η=0.1。
将会理解的是,在本发明的精神和范围内可以进行各种其它的改变和修改。因此,所附权利要求书的目的是涵盖落入本发明的真实精神和范围的所有这种变型和修改。
Claims (10)
1、一种用于在具有有限存储器的系统中对数据进行分类的方法,该方法包括以下步骤:
确定训练数据集;
获取用于存储数据的存储器大小;
对所述训练数据集应用实例学习(EL)过程以产生适于所述存储器大小的实例数据集,其中该EL过程是从包括基于熵的实例学习(EBEL)过程和支持宽带的高级学习(ABEL)过程的组中选择的;
获取待分类数据;以及
使用所述实例数据集对所述数据进行分类。
2、根据权利要求1的方法,其中该确定步骤进一步包括以下步骤:
获取当前实例数据集;
获取样本数据集;以及
将所述当前实例数据集和所述样本数据组合起来以产生训练数据集。
3、根据权利要求2的方法,其中,所述当前实例数据集最初为空。
4、根据权利要求1的方法,其中,所述EBEL过程进一步包括以下步骤:
对于所述训练数据集Sn中的各样本x,确定在给定样本x的条件下的类变量C的条件熵损失H(C|x);以及
从所述训练数据集Sn中移除使得条件熵损失H(C|x)最小的所选择的样本。
6、根据权利要求4的方法,其中该存储器限制是所述实例数据集的大小k,该方法进一步包括以下步骤:
对确定所述条件熵损失的步骤和移除样本x的步骤进行重复,直到所述训练数据集达到所述大小k。
7、根据权利要求4的方法,其中确定所述条件熵损失的步骤使用所述训练数据集的样本的成对核心值。
8、根据权利要求1的方法,其中所述ABEL过程进一步包括以下步骤:
从所述训练数据集提取验证数据集v;
对于所述训练数据集Sn中的各样本x,确定子集Sn\v的接收机工作曲线下的面积(AUC);以及
从所述训练数据集中移除与AUC的最小损失相对应的样本x。
10、根据权利要求8的方法,其中所述验证数据集的大小等于所述训练数据集大小的0.1倍。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/210,289 | 2008-09-15 | ||
US12/210,289 US8108325B2 (en) | 2008-09-15 | 2008-09-15 | Method and system for classifying data in system with limited memory |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101676912A true CN101676912A (zh) | 2010-03-24 |
Family
ID=41398944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910166917A Pending CN101676912A (zh) | 2008-09-15 | 2009-08-03 | 在存储器有限的系统中对数据进行分类的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8108325B2 (zh) |
EP (1) | EP2196952A3 (zh) |
JP (1) | JP2010067259A (zh) |
CN (1) | CN101676912A (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9323886B2 (en) | 2012-06-26 | 2016-04-26 | Honda Motor Co., Ltd. | Performance predicting apparatus, performance predicting method, and program |
JP5957312B2 (ja) * | 2012-06-26 | 2016-07-27 | 本田技研工業株式会社 | 記録可否判定装置、記録可否判定方法、及びプログラム |
WO2015120243A1 (en) | 2014-02-07 | 2015-08-13 | Cylance Inc. | Application execution control utilizing ensemble machine learning for discernment |
US10922289B2 (en) * | 2015-12-24 | 2021-02-16 | Koninklijke Philips N.V. | Device for and method of determining a length of a relevant history |
CN112395551A (zh) * | 2019-08-15 | 2021-02-23 | 上海游昆信息技术有限公司 | 一种逻辑回归的优化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167156A (en) * | 1996-07-12 | 2000-12-26 | The United States Of America As Represented By The Secretary Of The Navy | Compression of hyperdata with ORASIS multisegment pattern sets (CHOMPS) |
US6035057A (en) * | 1997-03-10 | 2000-03-07 | Hoffman; Efrem H. | Hierarchical data matrix pattern recognition and identification system |
WO2007064874A2 (en) * | 2005-12-01 | 2007-06-07 | Adchemy, Inc. | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy |
US7788195B1 (en) * | 2006-03-24 | 2010-08-31 | Sas Institute Inc. | Computer-implemented predictive model generation systems and methods |
-
2008
- 2008-09-15 US US12/210,289 patent/US8108325B2/en not_active Expired - Fee Related
-
2009
- 2009-05-26 JP JP2009126696A patent/JP2010067259A/ja active Pending
- 2009-07-22 EP EP09009518A patent/EP2196952A3/en not_active Withdrawn
- 2009-08-03 CN CN200910166917A patent/CN101676912A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20100094783A1 (en) | 2010-04-15 |
EP2196952A3 (en) | 2010-09-01 |
US8108325B2 (en) | 2012-01-31 |
JP2010067259A (ja) | 2010-03-25 |
EP2196952A2 (en) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | Knowledge-maximized ensemble algorithm for different types of concept drift | |
US9053391B2 (en) | Supervised and semi-supervised online boosting algorithm in machine learning framework | |
Chen et al. | Towards incremental learning of nonstationary imbalanced data stream: a multiple selectively recursive approach | |
Mantovani et al. | To tune or not to tune: recommending when to adjust SVM hyper-parameters via meta-learning | |
US20140095425A1 (en) | System and method for predicting events | |
US8121967B2 (en) | Structural data classification | |
Zhao et al. | Distribution-free one-pass learning | |
CN101676912A (zh) | 在存储器有限的系统中对数据进行分类的方法 | |
CN111782491B (zh) | 一种磁盘故障预测方法、装置、设备及存储介质 | |
CN113762519B (zh) | 一种数据清洗方法、装置及设备 | |
US10997748B2 (en) | Machine learning model development with unsupervised image selection | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
EP4053757A1 (en) | Degradation suppression program, degradation suppression method, and information processing device | |
CN111783873A (zh) | 基于增量朴素贝叶斯模型的用户画像方法及装置 | |
Murugesan et al. | Active learning from peers | |
EP3745317A1 (en) | Apparatus and method for analyzing time series data based on machine learning | |
CN116633601A (zh) | 一种基于网络流量态势感知的检测方法 | |
CN103268465A (zh) | 一种射频识别系统中标签类别的快速识别方法 | |
Sarnovsky et al. | Adaptive bagging methods for classification of data streams with concept drift | |
Kozal et al. | Employing chunk size adaptation to overcome concept drift | |
Ray et al. | Performance Evaluation using Online Machine Learning Packages for Streaming Data | |
Museba et al. | ADES: A New Ensemble Diversity‐Based Approach for Handling Concept Drift | |
Ghebriout et al. | Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices | |
Hong et al. | On harmonizing implicit subpopulations | |
Gao et al. | Aggregating data sampling with feature subset selection to address skewed software defect data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100324 |