CN102609714A - 基于信息增益和在线支持向量机的新型分类器及分类方法 - Google Patents

基于信息增益和在线支持向量机的新型分类器及分类方法 Download PDF

Info

Publication number
CN102609714A
CN102609714A CN2011104585932A CN201110458593A CN102609714A CN 102609714 A CN102609714 A CN 102609714A CN 2011104585932 A CN2011104585932 A CN 2011104585932A CN 201110458593 A CN201110458593 A CN 201110458593A CN 102609714 A CN102609714 A CN 102609714A
Authority
CN
China
Prior art keywords
sample
online
svms
information gain
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104585932A
Other languages
English (en)
Other versions
CN102609714B (zh
Inventor
孙广路
沈跃伍
齐浩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daqing Lehen Information Technology Co ltd
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201110458593.2A priority Critical patent/CN102609714B/zh
Publication of CN102609714A publication Critical patent/CN102609714A/zh
Application granted granted Critical
Publication of CN102609714B publication Critical patent/CN102609714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于信息增益和在线支持向量机的新型分类器及分类方法。在近几年学术研究中,尤其是在信息过滤领域,在线支持向量分类器受到部分学者的关注。一种基于信息增益和在线支持向量机的新型分类器的分类方法,本方法包括如下步骤:第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益 InformationGain 方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。本发明用于文本分类、信息过滤。

Description

基于信息增益和在线支持向量机的新型分类器及分类方法
技术领域:
发明涉及一种机器学习及分类技术领域;具体涉及一种基于信息增益和在线支持向量机的新型分类器及分类方法。
背景技术:
随着网络资源的大量增加,网络信息分类方法显得尤其重要。目前常用的分类方法有贝叶斯方法、支持向量机、逻辑回归,决策树、神经网络等。在这些方法中,支持向量机已表现出优于很多其他分类方法。支持向量机(Support Vector Machines,简称SVMs)是在统计学习理论的基础上发展出的一种新的模式识别方法。在解决小样本、非线性、高维识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究,但很多学者认为,它们正在成为继模式识别和神经网络之后机器学习领域新的研究热点,并将推动机器学习理论和技术的发展。
支持向量机方法已经在文本分类、互联网信息过滤、手机短信过滤以及网络流分类等方面取得了很好的效果。在这些领域中使用的支持向量机方法大部分都是离线模式(batch model)。离线模式先训练一定量的样本,然后进行分类,在分类过程中不再进行训练,即训练和分类是异步的。然而,目前处理的数据具有数据量大和实时性要求,需要支持向量机是在线模型(online model),即训练和分类同步进行,随着样本的变化,要不停地更新训练模型。
在近几年学术研究中,尤其是在信息过滤领域,在线支持向量分类器受到部分学者的关注。但是,由于在线支持向量机的训练时间复杂度是                                               
Figure 2011104585932100002DEST_PATH_IMAGE002
(其中,n为训练样本的数量,m为特征向量维度),时间消耗过大,难以应用在实际系统中。针对大规模真实数据系统来说,在线支持向量机分类器需要不停地重复训练,消耗的训练时间将更大。
发明内容:
发明的目的是提供一种解决了基于在线支持向量机的分类器存在的消耗时间过大的问题的基于信息增益和在线支持向量机的新型分类器及分类方法。
上述的目的通过以下的技术方案实现:
一种基于信息增益和在线支持向量机的新型分类器的分类方法,本方法包括如下步骤:第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益Information Gain方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小,根据得到每个特征增益信息量来判断是否需要选择该特征。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第二步和第三步建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式,在线模式是分类和训练同时进行;所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的新型分类器包括首先对样本信息预处理,获取样本的特征;然后选择样本有效的特征;之后建立特征空间向量;最后利用基于在线支持向量机的分类器对样本进行分类和训练。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小,根据得到每个特征信息量来判断是否需要选择该特征;所述的建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量;所述的新型分类器中训练部分样本是最近出现的n个样本,并不是全部样本;所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的信息增益(Information Gain)方法的计算公式是
Figure DEST_PATH_IMAGE004
一种基于信息增益和在线支持向量机的新型分类器,其组成包括:样本预测器,所述的样本预测器连接样本特征选择器,所述的样本特征选择器连接空间向量生成器,所述的空间向量生成器连接在线支持向量机训练器,所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的中央处理器包括控制单元,所述的控制单元连接预处理器和算数编辑单元。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,先将代码从磁盘存储器中读入随机访问存储器RAM型号:4G DDR3 1066中,并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区;程序编译之后,在RAM中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器;预处理器处理的样本是网络层的数据包或是磁盘存储器上的数据;预处理器获得数据之后,将数据通过总线发送给中央处理器(CPU)中的控制单元(Control Unit),控制单元在根据指令将数据送给算术逻辑单(ALU),算术逻辑单元将处理的结果通过控制单元、总线发送给预处理器,预处理器将全部处理完的结果返回给特征选择器,数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果;特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样,都是按照编写好的程序和指令,通过总线传送给中央处理的控制单元,控制单元控制逻辑运算单元的处理数据,并将处理好的结果传送给样本预测器、样本特征选择器、空间向量生成器和在线支持向量机训练器。
有益效果:
1.本发明降低了分类器中的特征向量维度;减少了训练样本的数量;减少了训练的次数;减少了迭代的次数;降低了在线支持向量机模型的训练时间,从而提升分类器的整体性能。
2.本发明降低了在线支持向量机中特征向量维度和分类器训练中的训练样本个数、训练次数、迭代次数,来降低分类器消耗的时间代价,大大提升了基于在线支持向量机的分类器的运行速度和分类性能。
3.本发明通过减少迭代次数可以减少寻优算法的计算时间,从而达到减少整个运算过程的时间。
4.本发明经过三个方面的处理,在线支持向量机能够克服速度上的限制,提升了分类器的整体性能。
5.本发明的产品在用途广泛,具有很高的使用价值。
附图说明:
附图1是本产品的工作流程图。
附图2是附图1在线训练模式图。
附图3是附图1的流程图。
附图4是本产品分离器的结构示意图。
具体实施方式:
实施例1:
一种基于信息增益和在线支持向量机的新型分类器的分类方法,本方法包括如下步骤:第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益Information Gain方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。
实施例2:
实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小,根据得到每个特征增益信息量来判断是否需要选择该特征。
实施例3:
实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第二步和第三步建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量。
实施例4:
实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式,在线模式是分类和训练同时进行;所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。
实施例5:
实施例1或4所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的新型分类器包括首先对样本信息预处理,获取样本的特征;然后选择样本有效的特征;之后建立特征空间向量;最后利用基于在线支持向量机的分类器对样本进行分类和训练。
实施例6:
实施例1或4所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小,根据得到每个特征信息量来判断是否需要选择该特征;所述的建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量;所述的新型分类器中训练部分样本是最近出现的n个样本,并不是全部样本;所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。
实施例7:
实施例1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的信息增益Information Gain方法的计算公式是
Figure DEST_PATH_IMAGE006
实施例8:
一种基于信息增益和在线支持向量机的新型分类器,其组成包括:样本预测器1,所述的样本预测器连接样本特征选择器2,所述的样本特征选择器连接空间向量生成器3,所述的空间向量生成器连接在线支持向量机训练器4,所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器5(CPU)型号:Intel Q8400(Core 2 Quad Yorkfield 2066GHz 4M)。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的中央处理器包括控制单元6,所述的控制单元7连接预处理器和算数编辑单元8。
实施例9:
上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法,基于信息增益和在线支持向量机的分类器包括如下步骤:
1)对样本信息预处理,获取样本的特征。
2)选择样本有效的特征
3)建立特征空间向量。
4)利用基于在线支持向量机的分类器对样本进行分类和训练。
所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小,根据得到每个特征信息量来判断是否需要选择该特征。
所述的建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量。
所述的在线支持向量机,是将SVM转化成在线模式。传统的形式都是离线形式,即训练一定数量的样本,然后不再训练,一直分类。而在线模式是分类和训练同时进行。
所述的基于在线支持向量机的分类器中,训练部分样本是最近出现的n个样本,并不是全部样本。
所述的基于在线支持向量机的分类器中,放宽了多次迭代寻找最优分类界面的条件。
实施例10:
上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的基于信息增益策略的特征选择方法是通过计算每个特征的信息增益量来确定该特征是否被选择。特征选择的理论、公式及实施方法如下:
1) 信息熵
信息熵(又称Shannon熵)在随机事件发生之前,它是结果不确定性的量度;在随机事件发生之后,它是人们从该事件中所得到信息的量度。定义一个变量X,它的可能取值有n种,分别是
Figure DEST_PATH_IMAGE008
,每一种取到的概率分别是
Figure DEST_PATH_IMAGE010
,那么X的信息熵
Figure DEST_PATH_IMAGE012
为:
Figure DEST_PATH_IMAGE014
                       (1)
在基于在线支持向量机的分类器中,大部分都是将样本分成两类。:
Figure DEST_PATH_IMAGE016
,对应的概率为
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
,则这个分类问题的信息熵
Figure DEST_PATH_IMAGE026
   (2)
2) 信息增益
相对一个特征t,一个系统针对特征t的信息增益是包含特征t和不包含特征t的信息量(信息熵)之差。系统不包含特征t的信息熵相当于系统包含特征t,但是特征t固定不变时的信息熵,即系统固定t时的条件熵。为了区别特征t出现时的符号与特征t本身的符号,我们用T代表特征,而t代表出现T出现,则计算公式如下:
Figure DEST_PATH_IMAGE028
                 (3)
其中,条件熵
Figure DEST_PATH_IMAGE030
的定义形式如下:
Figure DEST_PATH_IMAGE032
                (4)
其中
Figure DEST_PATH_IMAGE034
表示特征t在所有样本中出现的概率,
Figure DEST_PATH_IMAGE036
表示特征t在所有样本中不出现的概率,
Figure DEST_PATH_IMAGE038
表示出现特征t的条件下,系统信息熵,
Figure DEST_PATH_IMAGE040
表示不出现特征t的条件下,系统的信息熵。因此,特征T的信息增益定义如下:
                  (5)
我们通过使用特征的信息增益的值来评价每个特征。特征信息增益的值越大,该特征的在整个分类器系统中越重要。在分类器中设置阈值 ,当
Figure DEST_PATH_IMAGE046
时,则该特征应该被选择,否则,去掉该特征。在过滤器系统,根据不同的样本选择不同的θ值。
所述的信息增益策略降低了特征空间向量的维度,降低基于在线支持向量机的分类器训练的时间复杂度。因为基于在线支持向量机的分类器训练时间复杂度和样本的维度平方成正比,所以信息增益策略能够从很大长度上解决分类器消耗时间过大问题。
实施例11:
上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法,基于在线支持向量机的分类器由训练和分类两个模块组成。分类模块是根据选择的特征进行分类,得到该样本的分值,从而判断该样本所属类型。训练模块是根据选择特征训练支持向量机,即更新支持向量机的超平面向量。基于在线支持向量机的分类器的具体理论、公式及实施方法如下:
1) 支持向量机(SVM)
支持向量机是在高维空间中使用一个线性函数的超平面将两类样本分开。在线性情况下,间隔是指两类样本中最靠近分类面的两个不同类样本之间的距离。给定一个线性、相互独立的样本
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
表示样本的特征空间向量,
Figure DEST_PATH_IMAGE052
的值1和-1,1表示为一类样本,-1表示为另一类样本。分类函数如下:
Figure DEST_PATH_IMAGE054
                                (7)
其中
Figure DEST_PATH_IMAGE056
表示超平面向量,
Figure DEST_PATH_IMAGE058
是偏移项,
Figure DEST_PATH_IMAGE060
是样本的特征向量。当
Figure DEST_PATH_IMAGE062
时,
Figure 647713DEST_PATH_IMAGE056
为超平面,距超平面最近两个不同样本符合
Figure DEST_PATH_IMAGE064
。因此距超平面最近的两个不同类型的样本的距离为
Figure DEST_PATH_IMAGE066
。所以最大间隔的优化问题如下形式:
Figure DEST_PATH_IMAGE068
                           
Figure DEST_PATH_IMAGE070
           (8)
其中, 表示第i个训练样本,
Figure 989012DEST_PATH_IMAGE052
表示此样本的所属类型。
然而并不是所有的样本都是线性可分的,即不能找到线性超平面,当训练样本不是线性可分的情况,我们引入松弛变量
Figure DEST_PATH_IMAGE072
。当最大分类间隔变大时,最少错分样本个数会增加,当最小错分个数减少时,最大分类间隔变小。最大分类间隔和最少错分个数之间是矛盾,所以平衡参数C,调节两者之间的个数。优化形式如下:
                     
          (9)
其中, 是松弛变量,C是平衡因子。参数C的值选择很重要,它决定了过滤器的分类性能和消耗的时间。
2) 基于在线支持向量机的分类器
传统的SVM都用于离线模型中,应用的实时性的要求促使产生了在线学习模式,如附图2。在线模式是一个实时更新分类器的过程,分类器的收到样本反馈之后需要即时更新特征库。所述的支持向量机分类器是在线模式的,即分类器收到样本反馈后即时的更新支持向量机的最优分类面。在寻找最优分类面中,分类器需要训练之前出现的所有样本,同时迭代多次以使得分类界面达到最优。
所述的在线支持向量机使用Platt的序贯最小化算法(SMO)作为求解器,因为SMO方法对线性支持向量机来说是最快的方法。
实施例12:
上述实施例所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的基于在线支持向量机的分类器使用了三种方法降低分类器所消耗的计算代价。随着时间的推移,训练样本源源不断地到来,并达到很大的规模。当训练规模很大时,支持向量机的训练速度就会急剧下降,从而导致分类器不可用。因此,应该采取相应的算法加快模型的训练速度。
1)减少训练集合大小
在线支持向量机使用从开始到当前出现的所有的训练SVM,可以通过仅仅对最近的n个样本进行训练来减少训练数据集合的规模。不需要对所有样本进行训练。
2)减少训练的次数
根据KKT(Karush-Kuhn-Tucker)条件,当
Figure DEST_PATH_IMAGE078
时, 被认为是一个很容易正确分类的样本。所以当样本
Figure 910810DEST_PATH_IMAGE050
满足
Figure DEST_PATH_IMAGE080
时,该样本需要重新训练。现在我们放宽条件来降低重复训练的更新数量,当样本满足
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
时,该样本进行重新训练。这样就降低了训练样本的次数。
3)减少迭代次数
SVM的优化算法会迭代多次以使得分类界面达到最优的位置,很多情况下我们只需要近似最优就可以满足应用需求。较多的迭代次数需要很高的计算代价,但是带来的性能提升有限。
实施例13:
实施例8所述的基于信息增益和在线支持向量机的新型分类器,分类器系统的运行流程:
第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益(Information Gain)方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。,
实施例12:
实施例8所述的基于信息增益和在线支持向量机的新型分类器该分类器运行所需的硬件环境;程序运行时,先将代码从磁盘存储器中读入随机访问存储器RAM型号:4G DDR3 1066中,并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区。程序编译之后,在RAM中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器。预处理器处理的样本可以是网络层的数据包,也可以是磁盘存储器上的数据。预处理器获得的数据之后,将数据通过总线发送给中央处理器(CPU)中控制单元(Control Unit),控制单元在根据指令将数据送给算术逻辑单元(ALU),算术逻辑单元将处理的结果通过控制单元、总线发送给与预处理器,预处理器将全部处理完的结果返回给特征选择器,数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果。特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样,都是按照编写好的程序和指令,通过总线传送给中央处理的控制单元,控制单元控制逻辑运算单元的处理数据,并将处理好的结果传送给各自运行器。

Claims (10)

1.一种基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:本方法包括如下步骤:第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益Information Gain方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。
2.根据权利要求1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小,根据得到每个特征信息增益量来判断是否需要选择该特征。
3.根据权利要求1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的第二步和第三步建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量。
4.根据权利要求1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式,在线模式是分类和训练同时进行;所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。
5.根据权利要求1或4所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的新型分类器包括首先对样本信息预处理,获取样本的特征;然后选择样本有效的特征;之后建立特征空间向量;最后利用基于在线支持向量机的分类器对样本进行分类和训练。
6.根据权利要求5所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小,根据得到每个特征信息量来判断是否需要选择该特征;所述的建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量;所述的新型分类器中训练部分样本是最近出现的n个样本,并不是全部样本;所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。
7.根据权利要求1所述的基于信息增益和在线支持向量机的新型分类器的分类方法,其特征是:所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的信息增益(Information Gain)方法的计算公式是
8.一种基于信息增益和在线支持向量机的新型分类器,其组成包括:样本预测器,其特征是:所述的样本预测器连接样本特征选择器,所述的样本特征选择器连接空间向量生成器,所述的空间向量生成器连接在线支持向量机训练器,所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器。
9.根据权利要求8所述的基于信息增益和在线支持向量机的新型分类器,其特征是:所述的中央处理器包括控制单元,所述的控制单元连接预处理器和算数编辑单元。
10.根据权利要求8或9所述的基于信息增益和在线支持向量机的新型分类器,其特征是:先将代码从磁盘存储器中读入随机访问存储器RAM型号:4G DDR3 1066中,并在随机访问存储器中建立程序编译和运行所需的堆、栈、自由存储区、静态存储区和常量存储区;程序编译之后,在RAM中创建预处理器、特征选择器、建立特征空间器、样本预测器以及样本训练器;预处理器处理的样本是网络层的数据包或是磁盘存储器上的数据;预处理器获得数据之后,将数据通过总线发送给中央处理器(CPU)中的控制单元(Control Unit),控制单元在根据指令将数据送给算术逻辑单(ALU),算术逻辑单元将处理的结果通过控制单元、总线发送给预处理器,预处理器将全部处理完的结果返回给特征选择器,数据经过特征选择器、建立特征空间向量器、样本预测器和样本训练器之后输出结果;特征选择器、建立特征空间向量器、样本预测器和样本训练器的处理过程和预处理器一样,都是按照编写好的程序和指令,通过总线传送给中央处理的控制单元,控制单元控制逻辑运算单元的处理数据,并将处理好的结果传送给样本预测器、样本特征选择器、空间向量生成器和在线支持向量机训练器。
CN201110458593.2A 2011-12-31 2011-12-31 基于信息增益和在线支持向量机的新型分类器及分类方法 Active CN102609714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110458593.2A CN102609714B (zh) 2011-12-31 2011-12-31 基于信息增益和在线支持向量机的新型分类器及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110458593.2A CN102609714B (zh) 2011-12-31 2011-12-31 基于信息增益和在线支持向量机的新型分类器及分类方法

Publications (2)

Publication Number Publication Date
CN102609714A true CN102609714A (zh) 2012-07-25
CN102609714B CN102609714B (zh) 2017-07-07

Family

ID=46527073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110458593.2A Active CN102609714B (zh) 2011-12-31 2011-12-31 基于信息增益和在线支持向量机的新型分类器及分类方法

Country Status (1)

Country Link
CN (1) CN102609714B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617156A (zh) * 2013-11-14 2014-03-05 上海交通大学 多协议网络文件内容检查方法
CN103971136A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模数据的并行结构化支持向量机分类方法
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104966106A (zh) * 2015-07-13 2015-10-07 哈尔滨工业大学 一种基于支持向量机的生物年龄分步预测方法
CN105372202A (zh) * 2015-10-27 2016-03-02 九江学院 转基因棉花品种识别方法
CN106096666A (zh) * 2016-06-24 2016-11-09 惠州紫旭科技有限公司 一种降低录播系统学生行为分析误判的方法和装置
CN106933924A (zh) * 2015-12-31 2017-07-07 中国移动通信集团公司 一种信息识别方法及系统
WO2017143914A1 (zh) * 2016-02-25 2017-08-31 阿里巴巴集团控股有限公司 一种利用训练数据训练模型的方法和训练系统
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN110647996A (zh) * 2018-06-08 2020-01-03 上海寒武纪信息科技有限公司 通用机器学习模型的执行方法、装置和存储介质
CN112243247A (zh) * 2019-07-17 2021-01-19 中国移动通信集团浙江有限公司 基站优化优先级确定方法、装置及计算设备
US11036480B2 (en) 2018-06-08 2021-06-15 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钱升华: "基于支持向量机的手机垃圾短信过滤器的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 December 2007 (2007-12-15) *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617156A (zh) * 2013-11-14 2014-03-05 上海交通大学 多协议网络文件内容检查方法
CN103971136A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模数据的并行结构化支持向量机分类方法
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104050242B (zh) * 2014-05-27 2018-03-27 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104966106A (zh) * 2015-07-13 2015-10-07 哈尔滨工业大学 一种基于支持向量机的生物年龄分步预测方法
CN104966106B (zh) * 2015-07-13 2018-06-22 哈尔滨工业大学 一种基于支持向量机的生物年龄分步预测方法
CN105372202A (zh) * 2015-10-27 2016-03-02 九江学院 转基因棉花品种识别方法
CN105372202B (zh) * 2015-10-27 2019-01-29 九江学院 转基因棉花品种识别方法
CN106933924A (zh) * 2015-12-31 2017-07-07 中国移动通信集团公司 一种信息识别方法及系统
US11615346B2 (en) 2016-02-25 2023-03-28 Alibaba Group Holding Limited Method and system for training model by using training data
WO2017143914A1 (zh) * 2016-02-25 2017-08-31 阿里巴巴集团控股有限公司 一种利用训练数据训练模型的方法和训练系统
CN106096666A (zh) * 2016-06-24 2016-11-09 惠州紫旭科技有限公司 一种降低录播系统学生行为分析误判的方法和装置
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN110647996A (zh) * 2018-06-08 2020-01-03 上海寒武纪信息科技有限公司 通用机器学习模型的执行方法、装置和存储介质
US11036480B2 (en) 2018-06-08 2021-06-15 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11307836B2 (en) 2018-06-08 2022-04-19 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11334330B2 (en) 2018-06-08 2022-05-17 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11334329B2 (en) 2018-06-08 2022-05-17 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11379199B2 (en) 2018-06-08 2022-07-05 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11403080B2 (en) 2018-06-08 2022-08-02 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
US11726754B2 (en) 2018-06-08 2023-08-15 Shanghai Cambricon Information Technology Co., Ltd. General machine learning model, and model file generation and parsing method
CN112243247A (zh) * 2019-07-17 2021-01-19 中国移动通信集团浙江有限公司 基站优化优先级确定方法、装置及计算设备
CN112243247B (zh) * 2019-07-17 2023-04-25 中国移动通信集团浙江有限公司 基站优化优先级确定方法、装置及计算设备

Also Published As

Publication number Publication date
CN102609714B (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN102609714A (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN108154430A (zh) 一种基于机器学习和大数据技术的信用评分构建方法
Cao et al. An improved twin support vector machine based on multi-objective cuckoo search for software defect prediction
CN102508859A (zh) 一种基于网页特征的广告分类方法及装置
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN106886569A (zh) 一种基于mpi的ml‑knn多标签中文文本分类方法
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN104361010A (zh) 一种纠正新闻分类的自动分类方法
CN110399487A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN106100922A (zh) 列车通信网络的网络流量的预测方法和装置
CN110009045A (zh) 物联网终端的识别方法和装置
Zhang et al. Improve generated adversarial imitation learning with reward variance regularization
CN111754208A (zh) 一种招聘简历自动筛选方法
CN103268346A (zh) 半监督分类方法及系统
CN113657473B (zh) 一种基于迁移学习的Web服务分类方法
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
KR20220079476A (ko) 전력소모예측시스템 및 방법
CN101470699A (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN109388711A (zh) 日志流聚类的方法和装置
CN107515854A (zh) 基于带权时序文本网络的时序社区以及话题的检测方法
CN109753990B (zh) 一种用户电能替代潜力预测方法、系统及存储介质
Rajat et al. A sentiment analysis of amazon review data using machine learning model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221222

Address after: Room 1035 and Room 1036, Block C1, C2 and C3, Daqing Service Outsourcing Industrial Park, No. 6-1, Xinfeng Road, High tech Zone, Daqing City, Heilongjiang Province, 163711

Patentee after: Daqing Lehen Information Technology Co.,Ltd.

Address before: No. 52 Xuefu Road, Nangang District, Harbin, Heilongjiang Province

Patentee before: HARBIN University OF SCIENCE AND TECHNOLOGY