CN100353355C - 减少支持向量与训练时间的交叉合并方法 - Google Patents
减少支持向量与训练时间的交叉合并方法 Download PDFInfo
- Publication number
- CN100353355C CN100353355C CNB200410053659XA CN200410053659A CN100353355C CN 100353355 C CN100353355 C CN 100353355C CN B200410053659X A CNB200410053659X A CN B200410053659XA CN 200410053659 A CN200410053659 A CN 200410053659A CN 100353355 C CN100353355 C CN 100353355C
- Authority
- CN
- China
- Prior art keywords
- support vector
- training
- training set
- sets
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
一种用于智能信息处理技术领域的减少支持向量与训练时间的交叉合并方法,包括三个步骤:训练集分解:将训练集分类别提取样本后,根据预先设定的分解比率,将训练集中的各类样本集合分别分解成两个子集,然后将样本子集进行组合,得到四个训练集;基于支持向量的分层数据筛选:用支持向量机方法并行处理四个训练集,得到四个支持向量集合,按照交叉合并规则,将四个支持向量的集合分两组合并,得到两个训练集,用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合,将此两个支持向量的集合合并,产生一个训练集,便是最终的训练集;利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。
Description
技术领域
本发明涉及一种基于支持向量本质的分层并行机器学习方法,具体是一种减少支持向量与训练时间的交叉合并方法。用于智能信息处理技术领域。
背景技术
随着科学技术的发展,人类在各个领域积累了大量数据,而且这些数据还在以更高的速度增加。对这些数据的分析和理解,对于人类社会的进一步发展有着非常重要的意义,甚至可能导致人类对自然界更重要的发现。另一方面,由于有统计学习理论作为坚实的理论基础,支持向量机方法已成为一种广泛流行的模式分类方法。使用支持向量机方法解决大规模模式分类问题有两种方法。增量学习方法将一个大规模问题分成若干子问题,然后将各个子问题串行处理。训练支持向量机的工作集方法就属于这类。这种方法的一个主要优点是它对内存只有线性需求,即所需内存的大小与训练样本数目成正比。在处理大规模模式分类问题时,使用增量学习方法会导致迭代次数过多和训练时间过长等问题,这种方法的训练时间复杂度通常是O(N2)左右。并行学习方法按照分而治之的原则将原问题分解成若干子问题,将各个子问题并行处理以后再进行集成。并行学习方法的优点是建立在并行计算的基础上,能缩短训练时间,具有良好的可修改性和可扩充性,但是训练过程结束后所有子模块的结果都需要保留,从而导致支持向量数目增加。
支持向量是支持向量机方法中的重要概念。经对现有技术文献的检索发现,关于支持向量的本质,1999年Syed,N.A.在文献(Incremental Learning withSupport Vector Machines.In:Proceedings of the Workshop on Support VectorMachines at the International Joint Conference on Artificial Intelligence.Sweden.Stockholm,1999)(支持向量机的增量学习,出自:1999国际人工智能联合会议支持向量机研究小组会议论文集)中通过大量的数值仿真试验证明:支持向量集包含了训练集中的分类信息,并且这个支持向量集是必要的,即支持向量的数目不可以减少到超过其总数的10%,但并没有对支持向量的个数有进一步的论述。至今也无有关与本发明相同文献的报道。
发明内容
本发明的目的在于针对现有使用支持向量机方法解决大规模问题时训练时间过长的不足,提供一种减少支持向量与训练时间的交叉合并方法,使其能够减少学习时间,同时减少支持向量。本发明在训练样本筛选的过程中采用一种交叉合并的组合方法,以保证最后得到的训练集与原训练集的一致性。
本发明是通过以下技术方案实现的,本发明方法包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤。
1)训练集分解:将包含有两类样本的训练集分类别提取样本后,根据预先设定的分解比率r,将训练集中的各类样本集合分别分解成两个子集,然后将来自不同类别的样本子集进行组合,进而得到四个训练集。这四个训练集所代表的两类分类问题的规模都比原训练集要小。
2)基于支持向量的分层数据筛选:用支持向量机方法并行处理这四个两类分类问题,将得到四个支持向量集合。按照交叉合并规则,将得到的四个支持向量的集合分两组合并,从而可以得到两个训练集。用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合。将此两个支持向量的集合合并,产生一个训练集。这个训练集便是最终的训练集。由于一个训练集的支持向量集包含了训练集中的分类信息,因此上述过程将非支持向量逐步筛选掉,减少了训练样本从而减少训练时间。本发明通过两层数据筛选最终得到与原训练集等价的包含样本个数较少的训练集。
3)最终分类器的生成:利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。
以下对本发明方法作进一步的说明:
1、训练集分解
假设原两类分类问题中属于类C1的样本为:
属于类C2的样本为: Xi表示一个样本,Lm和Ln分别表示两类样本的数目,则全部训练集可表示为T=PYN。根据事先确定的分解比率r(0<r≤0.5)将原训练集P和N分别分解为两个子集:
T1=P1YN1,T2=P2YN2,T3=P1YN2,T4=P2YN1 (2)
如果这些两类分类问题仍然太大,可以按照以上的方法将它们中的每一个进一步分解成四个规模更小的两类分类问题。
2、基于支持向量的分层数据筛选
采用标准的支持向量机方法,在此四个较小的两类分类问题上并行训练得到四个支持向量机。他们的支持向量的集合分别为:SV1,SV2,SV3和SV4。采用交叉联合规则,将T1和T2的支持向量集合SV1和SV2,合并成T12,将T3和T4的支持向量集合SV3和SV4合并成T34。所谓交叉合并规则,是避免在T1和T2或T3和T4中属于同一类的子集的重复出现,从而避免人为造成T12和T34中训练数据的不平衡和分类信息的损失。
T12=SV1YSV2,T34=SV3YSV4 (3)
由于支持向量集中包含了分类信息,因此T12和T34从两个不同的角度保存了原训练集中的信息,避免了因数据划分带来的分类信息损失。同时,从T1和T2到T12或T3和T4到T34非支持向量的样本被筛选掉。将T12和T34分别作为训练集,经并行处理而得到两个支持向量机。它们的支持向量集合分别为:SV12和SV34,将两者合并:
Tfinal=SV12YSV34 (4)
得到最后的训练集。因此Tfinal将包含训练集T中的全部分类信息。在以上过程中由于只留下支持向量,而非支持向量被逐步筛选掉。与原训练集T相比,Tfinal中将只留下相对较少的训练数据。
3、最终分类器的生成
使用Tfinal作为新的训练集,得到支持向量机SVMfinal。该支持向量机作为最后的模式分类器,它所使用的支持向量较少,这将缩短识别时间。
以上过程可以用算法描述:
已知:
训练集T=PYN和分解比率r
算法:
(1)根据r将P和N分解,然后组合成四个规模较小的分类问题T1、T2、T3和T4;
(2)如果T1、T2、T3和T4的问题规模符合内存限制,则转(3),否则转(1);
(3)采用支持向量机方法将T1、T2、T3和T4并行处理,得到与它们对应的四个支持向量集合:SV1,SV2,SV3和SV4;
(4)按照交叉合并原则将它们组合成两个分类问题T12和T34,采用支持向量机方法将它们并行处理得到两个支持向量集合SV12和SV34;
(5)令Tfinal=SV12YSV34;
(6)将Tfinal作为新的训练集获得最终的支持向量机,将其作为识别阶段的模式分类器。
本发明使得分层筛选后得到的最终训练集与原训练集中包含的分类信息保持一致,从而使得利用分层筛选训练样本得到的分类器与利用原训练集得到的分类器的识别准确率保持一致。根据采用本发明所进行的多个试验表明:本发明所提出的方法减少了训练时间和支持向量个数。本发明的另一个效果在于:在保证不降低分类器识别准确率的前提下,采用分解方法降低了问题规模。
附图说明
图1本发明方法流程图
图2本发明实施例实验一的数据分布和分解示意图
具体实施方式
下面以实例的方式并结合附图对本发明作进一步的描述:
如图1所示,如果是多类问题,需要进行多类两类的转换。然后本发明方法包括以下步骤:
第一、通过训练样本的预处理将训练样本分类提取,属于每个类的样本构成一个集合。这种预处理过程可以在采集训练样本时进行,这样可以降低预处理过程的时间复杂度。在两类的情形下,将训练样本预处理成T=PYN,其中P和N分别表示属于两个类别的训练集。
第二、将P和N按照预先设定的分解比率r进行分解,分别分解成P1、P2和N1、N2。比如在图2中一个[0,200]×[0,200]的棋盘被分成四块,所有的样本点均匀分布在这四块上。位于[0,100]×[0,100]和[100,200]×[100,200]中的样本为正例样本,而位于余下空间中的样本为反例样本。取分解比率为r=0.5,可以做出如图2所示的划分。然后按照图1所示的方法,进行分层筛选得到最后的训练集Tfinal。将SV1和SV34合并获得Tfinal的过程是一个去重合并的过程。为了降低时间复杂度,在合并SV12和SV34时,可分别取SV12和SV34中的各个训练样本在原训练集T中的对应序号构成两个集合,然后进行去重合并,再根据去重合并的结果将对应的训练样本取回,最终构成Tfinal。
第三、以Tfinal作为训练集,使用通用的支持向量机训练方法可得到最后的分类器SVMfinal。注意:图1中的各个支持向量集是通过采用相同的参数得到的。比如:当采用高斯核函数时需要采用相同的C和σ。
使用分类器SVMfinal对要识别的样本进行识别。
本实施例中的两个试验数据分别来自人工和实际问题。实验平台为:2.4GHz512MB RAM Pentium 4 PC。
在实验一中,为了检验本发明的健壮性,随机生成了四个不同的训练集和一个共同的测试集。这样构成四个两类问题:A1、A2、A3和A4每个训练集包含5000个正例样本和5000个反例样本,测试集中包含10000个正例样本和10000个反例样本。采用高斯核函数,参数选择为:c=1000,σ=31.62。
表1实验一的实验数据集
Training | Testing | |||
Positivesamples | Negativesamples | Positivesamples | Negativesamples | |
A1 | 5000 | 5000 | 10000 | 10000 |
A2 | 5000 | 5000 | ||
A3 | 5000 | 5000 | ||
A4 | 5000 | 5000 |
在实验二中,文本分类试验的数据采用日本读卖新闻提供的文本分类数据库。经过特征提取后,特征空间的维数为5000。本发明从该数据库中提取了如表2所示的三类数据。任选其中的两类构成一个两类分类问题,于是得到三个两类问题:A5、A6和A7。参数的选择为:σ=2,C=64和r=0.5。
表2实验二的实验数据集
Category | Data | |
Training | Test | |
AccidentsHealthBy-time | 340443593233590 | 848370047702 |
为了验证本发明所提出的方法的实际效果,分别将本发明提出的分层筛选训练样本的支持向量机方法与将整个训练集一次性学习的支持向量机方法进行试验比较。为了描述方便,将本发明提出的方法记为C-SVM(Cascade SVM),而将后一种方法记为S-SVM(Standard SVM)。实验结果见表3和表4:
表3实验一的实验结果
Method | Accuracy(%) | Trainingtime(s) | Numberof SV | ||
Train | Test | ||||
A1 | S-SVMC-SVM | 99.8499.78 | 99.8199.72 | 46.3913.08 | 9381 |
A2 | S-SVMC-SVM | 99.8999.85 | 99.7299.70 | 38.0015.34 | 9683 |
A3 | S-SVMC-SVM | 99.9399.86 | 99.8499.75 | 32.4413.45 | 8879 |
A4 | S-SVMC-SVM | 99.8999.92 | 99.8199.83 | 35.5019.87 | 9484 |
av | S-SVMC-SVM | 99.8999.85 | 99.8099.75 | 38.0815.44 | 9382 |
表4实验二的实验结果
Method | A5 | A6 | A7 | |
Trainingaccuracy(%) | S-SVMC-SVM | 97.7497.73 | 97.9397.75 | 96.6796.67 |
Testaccuracy(%) | S-SVMC-SVM | 95.8195.83 | 96.0196.02 | 93.6293.62 |
Trainingtime(s) | S-SVMC-SVM | 126649519 | 74584491 | 1856615060 |
Numberof SV | S-SVMC-SVM | 1093310553 | 94459222 | 1275012387 |
由以上数据可以知道:
1、本发明能在保证分类器识别准确率的前提下,减少训练时间。同时该方法对训练样本具有鲁棒性;2、本发明减少了支持向量的数目,与1999年Syed N.A的研究成果没有矛盾,但给出了支持向量究竟能减少到什么程度的例证。这对于提高分类器的识别速度,将分类器用于实时监测有重要的意义。
Claims (3)
1、一种减少支持向量与训练时间的交叉合并方法,其特征在于,包括训练集分解、基于支持向量的分层数据筛选、最终分类器生成三个步骤:
1)训练集分解:将包含有两类样本的训练集分类别提取样本后,根据预先设定的分解比率r,将训练集中的各类样本集合分别分解成两个子集,然后将来自各类别的样本子集进行组合,进而得到四个训练集,这四个训练集所代表的两类分类问题的规模都比原训练集要小;
2)基于支持向量的分层数据筛选:用支持向量机方法并行处理这四个两类分类问题,将得到四个支持向量集合,按照交叉合并规则,将得到的四个支持向量的集合分两组合并,从而得到两个训练集,用支持向量机方法并行处理这两个训练集所代表的两个分类问题,得到两个支持向量的集合,将此两个支持向量的集合合并,产生一个训练集,这个训练集便是最终的训练集;
3)最终分类器的生成:利用分层筛选得到的最终训练集训练支持向量机得到最终的分类器。
2、如权利要求1所述的减少支持向量与训练时间的交叉合并方法,其特征是,步骤1)中,将训练样本分类提取后,根据预先设定的分解比率r,对训练集中的各类样本集合进行分解后组合成四个两类分类问题后,进一步按照同样的分解方法继续分解,分解比率r决定四个两类分类问题中计算负荷的分配。
3、如权利要求1所述的减少支持向量与训练时间的交叉合并方法,其特征是,步骤2)中,四个分类问题经提取支持向量以后,按照交叉合并的规则将四个支持向量集统合成两个分类问题,每个分类问题体现了原训练集的某个角度的分类信息,将得到的两个分类问题经过并行的支持向量提取,然后将得到的两个支持向量集合合并,将来自两个角度的分类信息统合在一起,从而使得SV12∪ SV34与原训练集中包含的分类信息一致,最终使得到的分类器有着一致的识别准确率,SV12∪SV34是把将原训练集分解得到的4个分类问题的支持向量分别提取后,按照交叉合并规则统合后得到的两个分类问题的支持向量的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200410053659XA CN100353355C (zh) | 2004-08-12 | 2004-08-12 | 减少支持向量与训练时间的交叉合并方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200410053659XA CN100353355C (zh) | 2004-08-12 | 2004-08-12 | 减少支持向量与训练时间的交叉合并方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1588342A CN1588342A (zh) | 2005-03-02 |
CN100353355C true CN100353355C (zh) | 2007-12-05 |
Family
ID=34602950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200410053659XA Expired - Fee Related CN100353355C (zh) | 2004-08-12 | 2004-08-12 | 减少支持向量与训练时间的交叉合并方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100353355C (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206667B (zh) * | 2007-12-06 | 2010-06-02 | 上海交通大学 | 减少训练时间与支持向量的方法 |
CN107194411A (zh) * | 2017-04-13 | 2017-09-22 | 哈尔滨工程大学 | 一种改进的分层级联的支持向量机并行化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN1358288A (zh) * | 1999-05-25 | 2002-07-10 | 巴恩希尔科技公司 | 使用多个支持向量机从多个数据组中提升知识发现 |
CN1460947A (zh) * | 2003-06-13 | 2003-12-10 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
US6760715B1 (en) * | 1998-05-01 | 2004-07-06 | Barnhill Technologies Llc | Enhancing biological knowledge discovery using multiples support vector machines |
-
2004
- 2004-08-12 CN CNB200410053659XA patent/CN100353355C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6760715B1 (en) * | 1998-05-01 | 2004-07-06 | Barnhill Technologies Llc | Enhancing biological knowledge discovery using multiples support vector machines |
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN1358288A (zh) * | 1999-05-25 | 2002-07-10 | 巴恩希尔科技公司 | 使用多个支持向量机从多个数据组中提升知识发现 |
CN1460947A (zh) * | 2003-06-13 | 2003-12-10 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1588342A (zh) | 2005-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xin et al. | Complex network classification with convolutional neural network | |
Morse | Reducing the size of the nondominated set: Pruning by clustering | |
Formann | Constrained latent class models: Theory and applications | |
CN100595780C (zh) | 一种基于模块神经网络的手写体数字自动识别方法 | |
CN104536881B (zh) | 基于自然语言分析的众测错误报告优先级排序方法 | |
US20040054499A1 (en) | System and method for identifying an object | |
CN106202177A (zh) | 一种文本分类方法及装置 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
Das | Pattern Recognition using the Fuzzy c-means Technique | |
Amazona et al. | Modelling student performance using data mining techniques: Inputs for academic program development | |
CN102402690A (zh) | 基于直觉模糊集成的数据分类方法与系统 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN105975518A (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN103324758A (zh) | 一种新闻分类方法和系统 | |
Mizianty et al. | Discretization as the enabling technique for the Naive Bayes and semi-Naive Bayes-based classification | |
CN104794241A (zh) | 一种基于情绪倾向性的新闻分类方法及系统 | |
CN112215696A (zh) | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 | |
CN104809104A (zh) | 一种微博文本情绪识别方法及系统 | |
CN104615789A (zh) | 一种数据分类方法及装置 | |
Guswandi et al. | Sistem Pendukung Keputusan Pemilihan Calon Wali Nagari Menggunakan Metode TOPSIS | |
CN109164794B (zh) | 基于偏f值selm的多变量工业过程故障分类方法 | |
CN110516064A (zh) | 一种基于深度学习的航空科研论文分类方法 | |
CN100353355C (zh) | 减少支持向量与训练时间的交叉合并方法 | |
Yan et al. | A fast method to evaluate water eutrophication | |
Sree et al. | Fake News Detection using Cellular Automata Based Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20071205 Termination date: 20100812 |