CN102609714B

CN102609714B - 基于信息增益和在线支持向量机的新型分类器及分类方法

Info

Publication number: CN102609714B
Application number: CN201110458593.2A
Authority: CN
Inventors: 孙广路; 沈跃伍; 齐浩亮
Original assignee: Harbin University of Science and Technology
Current assignee: Daqing Lehen Information Technology Co ltd
Priority date: 2011-12-31
Filing date: 2011-12-31
Publication date: 2017-07-07
Anticipated expiration: 2031-12-31
Also published as: CN102609714A

Abstract

基于信息增益和在线支持向量机的新型分类器及分类方法。在近几年学术研究中，尤其是在信息过滤领域，在线支持向量分类器受到部分学者的关注。一种基于信息增益和在线支持向量机的新型分类器的分类方法，本方法包括如下步骤：第一步对样本信息进行预处理，获得样本的特征；第二步使用信息增益Information Gain方法计算每个特征的信息量，再根据一定的策略选择所需的特征；第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量；第四步利用在线模型训练基于在线支持向量机的新型分类器；第五步利用分类器分类样本。本发明用于文本分类、信息过滤。

Description

基于信息增益和在线支持向量机的新型分类器及分类方法

技术领域：

发明涉及一种机器学习及分类技术领域；具体涉及一种基于信息增益和在线支持向量机的新型分类器及分类方法。

背景技术：

随着网络资源的大量增加，网络信息分类方法显得尤其重要。目前常用的分类方法有贝叶斯方法、支持向量机、逻辑回归，决策树、神经网络等。在这些方法中，支持向量机已表现出优于很多其他分类方法。支持向量机(SupportVector Machines，简称SVMs)是在统计学习理论的基础上发展出的一种新的模式识别方法。在解决小样本、非线性、高维识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究，但很多学者认为，它们正在成为继模式识别和神经网络之后机器学习领域新的研究热点，并将推动机器学习理论和技术的发展。

支持向量机方法已经在文本分类、互联网信息过滤、手机短信过滤以及网络流分类等方面取得了很好的效果。在这些领域中使用的支持向量机方法大部分都是离线模式(batch model)。离线模式先训练一定量的样本，然后进行分类，在分类过程中不再进行训练，即训练和分类是异步的。然而，目前处理的数据具有数据量大和实时性要求，需要支持向量机是在线模型(online model)，即训练和分类同步进行，随着样本的变化，要不停地更新训练模型。

在近几年学术研究中，尤其是在信息过滤领域，在线支持向量分类器受到部分学者的关注。但是，由于在线支持向量机的训练时间复杂度是O(n²m³)(其中，n为训练样本的数量，m为特征向量维度)，时间消耗过大，难以应用在实际系统中。针对大规模真实数据系统来说，在线支持向量机分类器需要不停地重复训练，消耗的训练时间将更大。

发明内容：

发明的目的是提供一种解决了基于在线支持向量机的分类器存在的消耗时间过大的问题的基于信息增益和在线支持向量机的新型分类器及分类方法。

上述的目的通过以下的技术方案实现：

一种基于信息增益和在线支持向量机的新型分类器的分类方法，本方法包括如下步骤：第一步对样本信息进行预处理，获得样本的特征；第二步使用信息增益InformationGain方法计算每个特征的信息量，再根据一定的策略选择所需的特征；第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量；第四步利用在线模型训练基于在线支持向量机的新型分类器；第五步利用分类器分类样本。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小，根据得到每个特征增益信息量来判断是否需要选择该特征。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第二步和第三步建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式，在线模式是分类和训练同时进行；所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的新型分类器包括首先对样本信息预处理，获取样本的特征；然后选择样本有效的特征；之后建立特征空间向量；最后利用基于在线支持向量机的分类器对样本进行分类和训练。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小，根据得到每个特征信息量来判断是否需要选择该特征；所述的建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量；所述的新型分类器中训练部分样本是最近出现的n个样本，并不是全部样本；所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的信息增益(Information Gain)方法的计算公式是

一种基于信息增益和在线支持向量机的新型分类器，其组成包括：样本预测器，所述的样本预测器连接样本特征选择器，所述的样本特征选择器连接空间向量生成器，所述的空间向量生成器连接在线支持向量机训练器，所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的中央处理器包括控制单元，所述的控制单元连接预处理器和算数编辑单元。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，先将代码从磁盘存储器中读入随机访问存储器RAM型号：4G DDR3 1066中，并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区；程序编译之后，在RAM中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器；预处理器处理的样本是网络层的数据包或是磁盘存储器上的数据；预处理器获得数据之后，将数据通过总线发送给中央处理器(CPU)中的控制单元(Control Unit)，控制单元在根据指令将数据送给算术逻辑单(ALU)，算术逻辑单元将处理的结果通过控制单元、总线发送给预处理器，预处理器将全部处理完的结果返回给特征选择器，数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果；特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样，都是按照编写好的程序和指令，通过总线传送给中央处理的控制单元，控制单元控制逻辑运算单元的处理数据，并将处理好的结果传送给样本预测器、样本特征选择器、空间向量生成器和在线支持向量机训练器。

有益效果：

1.本发明降低了分类器中的特征向量维度；减少了训练样本的数量；减少了训练的次数；减少了迭代的次数；降低了在线支持向量机模型的训练时间，从而提升分类器的整体性能。

2.本发明降低了在线支持向量机中特征向量维度和分类器训练中的训练样本个数、训练次数、迭代次数，来降低分类器消耗的时间代价，大大提升了基于在线支持向量机的分类器的运行速度和分类性能。

3.本发明通过减少迭代次数可以减少寻优算法的计算时间，从而达到减少整个运算过程的时间。

4.本发明经过三个方面的处理，在线支持向量机能够克服速度上的限制，提升了分类器的整体性能。

5.本发明的产品在用途广泛，具有很高的使用价值。

附图说明：

附图1是本产品的工作流程图。

附图2是附图1在线训练模式图。

附图3是附图1的流程图。

附图4是本产品分离器的结构示意图。

具体实施方式：

实施例1：

实施例2：

实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小，根据得到每个特征增益信息量来判断是否需要选择该特征。

实施例3：

实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第二步和第三步建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量。

实施例4：

实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式，在线模式是分类和训练同时进行；所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。

实施例5：

实施例1或4所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的新型分类器包括首先对样本信息预处理，获取样本的特征；然后选择样本有效的特征；之后建立特征空间向量；最后利用基于在线支持向量机的分类器对样本进行分类和训练。

实施例6：

实施例1或4所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小，根据得到每个特征信息量来判断是否需要选择该特征；所述的建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量；所述的新型分类器中训练部分样本是最近出现的n个样本，并不是全部样本；所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。

实施例7：

实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的信息增益Information Gain方法的计算公式是

实施例8：

一种基于信息增益和在线支持向量机的新型分类器，其组成包括：样本预测器1，所述的样本预测器连接样本特征选择器2，所述的样本特征选择器连接空间向量生成器3，所述的空间向量生成器连接在线支持向量机训练器4，所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器5(CPU)型号：Intel Q8400(Core 2Quad Yorkfield 2066GHz 4M)。

所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的中央处理器包括控制单元6，所述的控制单元7连接预处理器和算数编辑单元8。

实施例9：

上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法，基于信息增益和在线支持向量机的分类器包括如下步骤：

1)对样本信息预处理，获取样本的特征。

2)选择样本有效的特征

3)建立特征空间向量。

4)利用基于在线支持向量机的分类器对样本进行分类和训练。

所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小，根据得到每个特征信息量来判断是否需要选择该特征。

所述的建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量。

所述的在线支持向量机，是将SVM转化成在线模式。传统的形式都是离线形式，即训练一定数量的样本，然后不再训练，一直分类。而在线模式是分类和训练同时进行。

所述的基于在线支持向量机的分类器中，训练部分样本是最近出现的n个样本，并不是全部样本。

所述的基于在线支持向量机的分类器中，放宽了多次迭代寻找最优分类界面的条件。

实施例10：

上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的基于信息增益策略的特征选择方法是通过计算每个特征的信息增益量来确定该特征是否被选择。特征选择的理论、公式及实施方法如下：

1)信息熵

信息熵(又称Shannon熵)在随机事件发生之前，它是结果不确定性的量度；在随机事件发生之后，它是人们从该事件中所得到信息的量度。定义一个变量X，它的可能取值有n种，分别是{x₁，x₂，...，x_n}，每一种取到的概率分别是{p₁，p₂，...，p_n}，那么X的信息熵H(X)为：

在基于在线支持向量机的分类器中，大部分都是将样本分成两类。：c₁和c₂，对应的概率为p₁和p₂，则这个分类问题的信息熵H(c)为

2)信息增益

相对一个特征t，一个系统针对特征t的信息增益是包含特征t和不包含特征t的信息量(信息熵)之差。系统不包含特征t的信息熵相当于系统包含特征t，但是特征t固定不变时的信息熵，即系统固定t时的条件熵。为了区别特征t出现时的符号与特征t本身的符号，我们用T代表特征，而t代表出现T出现，则计算公式如下：

InforGain(T)＝H(c)-H(c|T) (3)

其中，条件熵H(c|T)的定义形式如下：

其中p(t)表示特征t在所有样本中出现的概率，表示特征t在所有样本中不出现的概率，H(c|t)表示出现特征t的条件下，系统信息熵，表示不出现特征t的条件下，系统的信息熵。因此，特征T的信息增益定义如下：

我们通过使用特征的信息增益的值来评价每个特征。特征信息增益的值越大，该特征的在整个分类器系统中越重要。在分类器中设置阈值θ，当InforGain(T)≥θ时，则该特征应该被选择，否则，去掉该特征。在过滤器系统，根据不同的样本选择不同的θ值。

所述的信息增益策略降低了特征空间向量的维度，降低基于在线支持向量机的分类器训练的时间复杂度。因为基于在线支持向量机的分类器训练时间复杂度和样本的维度平方成正比，所以信息增益策略能够从很大长度上解决分类器消耗时间过大问题。

实施例11：

上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法，基于在线支持向量机的分类器由训练和分类两个模块组成。分类模块是根据选择的特征进行分类，得到该样本的分值，从而判断该样本所属类型。训练模块是根据选择特征训练支持向量机，即更新支持向量机的超平面向量。基于在线支持向量机的分类器的具体理论、公式及实施方法如下：

1)支持向量机(SVM)

支持向量机是在高维空间中使用一个线性函数的超平面将两类样本分开。在线性情况下，间隔是指两类样本中最靠近分类面的两个不同类样本之间的距离。给定一个线性、相互独立的样本S＝{(x₁，y₁)，...，(x_n，y_n)}，x_i表示样本的特征空间向量，y_i的值1和-1，1表示为一类样本，-1表示为另一类样本。分类函数如下：

f(x)＝w·x+b (7)

其中w表示超平面向量，b是偏移项，x是样本的特征向量。当f(x)＝0时，w为超平面，距超平面最近两个不同样本符合f(x)＝±1。因此距超平面最近的两个不同类型的样本的距离为1/||w||²。所以最大间隔的优化问题如下形式：

其中，x_i表示第i个训练样本，y_i表示此样本的所属类型。

然而并不是所有的样本都是线性可分的，即不能找到线性超平面，当训练样本不是线性可分的情况，我们引入松弛变量ξ_i。当最大分类间隔变大时，最少错分样本个数会增加，当最小错分个数减少时，最大分类间隔变小。最大分类间隔和最少错分个数之间是矛盾，所以平衡参数C，调节两者之间的个数。优化形式如下：

其中，ξ_i是松弛变量，C是平衡因子。参数C的值选择很重要，它决定了过滤器的分类性能和消耗的时间。

2)基于在线支持向量机的分类器

传统的SVM都用于离线模型中，应用的实时性的要求促使产生了在线学习模式，如附图2。在线模式是一个实时更新分类器的过程，分类器的收到样本反馈之后需要即时更新特征库。所述的支持向量机分类器是在线模式的，即分类器收到样本反馈后即时的更新支持向量机的最优分类面。在寻找最优分类面中，分类器需要训练之前出现的所有样本，同时迭代多次以使得分类界面达到最优。

所述的在线支持向量机使用Platt的序贯最小化算法(SMO)作为求解器，因为SMO方法对线性支持向量机来说是最快的方法。

实施例12：

上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法，所述的基于在线支持向量机的分类器使用了三种方法降低分类器所消耗的计算代价。随着时间的推移，训练样本源源不断地到来，并达到很大的规模。当训练规模很大时，支持向量机的训练速度就会急剧下降，从而导致分类器不可用。因此，应该采取相应的算法加快模型的训练速度。

1)减少训练集合大小

在线支持向量机使用从开始到当前出现的所有的训练SVM，可以通过仅仅对最近的n个样本进行训练来减少训练数据集合的规模。不需要对所有样本进行训练。

2)减少训练的次数

根据KKT(Karush-Kuhn-Tucker)条件，当y_if(x_i)＞1时，x_i被认为是一个很容易正确分类的样本。所以当样本x_i满足y_if(x_i)≤1时，该样本需要重新训练。现在我们放宽条件来降低重复训练的更新数量，当样本满足y_if(x_i)≤M，(0≤M≤1)时，该样本进行重新训练。这样就降低了训练样本的次数。

3)减少迭代次数

SVM的优化算法会迭代多次以使得分类界面达到最优的位置，很多情况下我们只需要近似最优就可以满足应用需求。较多的迭代次数需要很高的计算代价，但是带来的性能提升有限。

实施例13：

实施例8所述的基于信息增益和在线支持向量机的新型分类器，分类器系统的运行流程：

第一步对样本信息进行预处理，获得样本的特征；第二步使用信息增益(Information Gain)方法计算每个特征的信息量，再根据一定的策略选择所需的特征；第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量；第四步利用在线模型训练基于在线支持向量机的新型分类器；第五步利用分类器分类样本。，

实施例12：

实施例8所述的基于信息增益和在线支持向量机的新型分类器该分类器运行所需的硬件环境；程序运行时，先将代码从磁盘存储器中读入随机访问存储器RAM型号：4G DDR31066中，并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区。程序编译之后，在RAM中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器。预处理器处理的样本可以是网络层的数据包，也可以是磁盘存储器上的数据。预处理器获得的数据之后，将数据通过总线发送给中央处理器(CPU)中控制单元(Control Unit)，控制单元在根据指令将数据送给算术逻辑单元(ALU)，算术逻辑单元将处理的结果通过控制单元、总线发送给与预处理器，预处理器将全部处理完的结果返回给特征选择器，数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果。特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样，都是按照编写好的程序和指令，通过总线传送给中央处理的控制单元，控制单元控制逻辑运算单元的处理数据，并将处理好的结果传送给各自运行器。

Claims

1.一种基于信息增益和在线支持向量机的新型分类器的分类方法，其特征是：基于信息增益和在线支持向量机的新型分类器包括样本预测器，所述的样本预测器连接样本特征选择器，所述的样本特征选择器连接空间向量生成器，所述的空间向量生成器连接在线支持向量机训练器，所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器；

所述的中央处理器包括控制单元，所述的控制单元连接预处理器和算术逻辑单元；

先将代码从磁盘存储器中读入随机访问存储器RAM中，并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区；程序编译之后，在随机访问存储器中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器；预处理器处理的样本是网络层的数据包或是磁盘存储器上的数据；预处理器获得数据之后，将数据通过总线发送给中央处理器(CPU)中的控制单元(Control Unit)，控制单元再根据指令将数据送给算术逻辑单元(ALU)，算术逻辑单元将处理的结果通过控制单元、总线发送给预处理器，预处理器将全部处理完的结果返回给特征选择器，数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果；特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样，都是按照编写好的程序和指令，通过总线传送给中央处理器的控制单元，控制单元控制算术逻辑单元处理数据，并将处理好的结果传送给样本预测器、样本特征选择器、空间向量生成器和在线支持向量机训练器；

本分类方法包括如下步骤：第一步对样本信息进行预处理，获得样本的特征；第二步使用信息增益Information Gain方法计算每个特征的信息量，再根据一定的策略选择所需的特征；第三步根据选择的特征建立能够适应在线支持向量机模型的特征空间向量；第四步利用在线模型训练基于在线支持向量机的新型分类器；第五步利用分类器分类样本；

所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小，根据得到每个特征信息增益量来判断是否需要选择该特征；

所述的第三步建立特征空间向量是根据选择的样本特征，通过哈希表进行特征映射，将其转为在线支持向量机能够识别的特征空间向量；

所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式，在线模式是分类和训练同时进行；所述的基于在线支持向量机的新型分类器中放宽了在线支持向量机的条件，所述放宽了在线支持向量机的条件包括放宽了多次迭代寻找最优分类界面的条件；

所述的新型分类器包括首先对样本信息预处理，获取样本的特征；然后选择样本有效的特征；之后建立特征空间向量；最后利用基于在线支持向量机的分类器对样本进行分类和训练；

所述的新型分类器中训练部分样本是最近出现的n个样本，并不是全部样本；

所述的信息增益(Information Gain)方法的计算公式是

\begin{matrix} I n f o r G a i n (T) = - \underset{c &Element; {c 1, c 2}}{Σ} p (c) \log_{2} p (c) \\ + p (t) \underset{c &Element; {c 1, c 2}}{Σ} p (c | t) \log_{2} p (c | t) \\ + p (\overset{&OverBar;}{t}) \underset{c &Element; {c 1, c 2}}{Σ} p (c | \overset{&OverBar;}{t}) \log_{2} p (c | \overset{&OverBar;}{t}) \end{matrix} .