CN102117411B - 用于构建多级别分类模型的方法和系统 - Google Patents

用于构建多级别分类模型的方法和系统 Download PDF

Info

Publication number
CN102117411B
CN102117411B CN200910258920.2A CN200910258920A CN102117411B CN 102117411 B CN102117411 B CN 102117411B CN 200910258920 A CN200910258920 A CN 200910258920A CN 102117411 B CN102117411 B CN 102117411B
Authority
CN
China
Prior art keywords
level
data sample
rank
spacing
disaggregated model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910258920.2A
Other languages
English (en)
Other versions
CN102117411A (zh
Inventor
陈博
钱明杰
齐红威
杉山高弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN200910258920.2A priority Critical patent/CN102117411B/zh
Priority to JP2010231586A priority patent/JP5429940B2/ja
Publication of CN102117411A publication Critical patent/CN102117411A/zh
Application granted granted Critical
Publication of CN102117411B publication Critical patent/CN102117411B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了用于构建多级别分类模型的方法和系统。提出的方法包括:输入标注数据样本;利用标注数据样本生成初始多级别分类模型;以及对初始多级别分类模型进行优化,其中,所述优化步骤可以包括基于所有级别之间的全局级别值间距对初始多级别分类模型进行调整。在另一实施例中,优化步骤还包括基于数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例中,本发明的方法被扩展应用到半监督学习情形,通过参考标注和未标注数据样本两者,可以基于数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行进一步平滑。

Description

用于构建多级别分类模型的方法和系统
技术领域
本发明一般地涉及信息分类,尤其是将信息样本分类到多个类别的多类别(multi-class)分类和多级别(multi-level)分类。更具体而言,本发明涉及用于构建多级别分类模型的方法和系统。
背景技术
在传统的多类别信息分类方法中,类别通常是相互独立和无序的。例如,在新闻分类中,新闻的类别可以包括政治、经济、军事、科学等等。
然而,在现实生活中,存在另一种特殊的多类别问题。即,各个类别之间有序关联并且平滑分布。这种分类问题被称为多级别分类问题。在多级别分类问题中,信息样本被分类到不同的级别而非不同的类别。例如,在产品评价分类中,用户对产品的评价意见的等级可以包括差、一般、好、非常好等等。
因特网上信息的不断增长使得对信息分类的需求越来越明显。因此,近年来,针对传统的多类别分类问题已经进行了很多研究。但是,作为一种特殊的多类别问题,对多级别分类问题的研究尚不充分。下面将简单介绍几个与本发明相关的现有自动信息分类算法的示例。
首先,在Wei Chu、S.Sathiya Keerhi的题为“New Approaches toSupport Vector Ordinal Regression”的论文(参见ICML2005,第145-152页)中,提出了两种用于序回归(ordinal regression)的监督支持向量方法。该方法用于优化多个有序的尺度阈值,这多个阈值限定了多个平行的分类超平面。要了解更多细节,请具体参考第7节“发明的详细描述”。
另外,于2008年3月17日递交的美国专利US 7533076B2(下称“现有技术1”)提出了一种有效的多类别支持向量机分类方法。该方法通过使用一组监督二元支持向量机分类器将各个数据样本分类到多个类别中。在构建分类模型的过程中,该方法基于各个相邻级别之间的局部邻接性(local level adjacency)对初始分类模型进行调整。图1示出根据该现有技术的用于产生和优化分类模型的系统100的结构框图。在图1中,系统100主要包括分类模型初始化装置101和基于本地级别邻接性的分类模型调整装置102。在信息分类中,分类模型需要被表示为某种机器可读格式。例如,在该方法中,多级别分类模型由一系列平行的分类超平面组成,各个超平面具有相应的级别阈值,这些级别阈值指示相邻级别之间的边界(margin)。在学习分类模型的最初,首先需要生成一初始模型。分类模型初始化装置101用于基于输入的标注训练数据产生初始分类模型。产生初始分类模型的方法可以采用本领域技术人员所公知的方法,这里不对此进行赘述。调整装置102用于基于各个级别之间的局部级别邻接性对所生成的初始分类模型进行调整和优化。在多级别问题中,级别是顺序相关的,即,级别距离越近则越相似。因此,在该方法中,这种级别关系被表示为:第i级别的阈值必须低于第(i+1)级别的阈值。这种表示级别相邻关系的局部级别邻接性被用于调整已生成的初始分类模型,从而得到优化的分类模型。
再例如,在P.N.M.Belkin和V.Sindhwani的题为“ManifoldRegularization:A Geometric Framework for Learning from Labeled andUnlabeled Examples”的论文(参见Journal of Machine Learning Research,第2399-2434页,2006年)(下称“现有技术2”)中,提出一种学习一系列半监督多类别分类模型的方法。该方法是一种典型的半监督学习方法,其核心组件在于“基于样本相似性的分类模型平滑”。图2示出根据该现有技术的用于产生和优化分类模型的系统200的结构框图。在图2中,系统200包括分类模型初始化装置201和基于样本相似性的分类模型平滑装置202。在半监督学习情形中,大多数数据样本是未标注的。就是说,大多数数据样本的类别标签是未知的。但是,这些未标注的训练数据样本的存在可被用于更好地拟合总体的数据分布内在几何结构。其基于这样的假设:相似的数据样本更可能处于相同的类别中。样本相似性可以根据数据样本的特征来计算,并随后被用于调整标注数据样本和未标注数据样本上的预测的类别标签。这样一来,这些类别标签可以根据总体上的数据分布而平滑地变化,从而达到优化分类模型的目的。
在多类别分类模型中,并没有考虑到多级别情形下各个级别之间的两两有序关系。这一点姑且不论,即便是现有技术的多级别分类模型优化方法也不可避免地存在诸多缺陷。在上述现有技术1的序回归模型优化方法中,仅仅考虑到有限的相邻级别之间的顺序关系。并且,序回归模型中的输出级别标签是离散的,不能被连续地测量。此外,在诸如现有技术2之类的半监督学习情形中,没有现有的多级别或序回归方法可以被应用。
发明内容
本发明正是考虑到上述现有技术中存在的问题而研制的。
本发明的多级别分类模型优化方案主要包括四种分别用于监督和半监督情形的分类模型优化功能,即,基于全局级别值间距的分类模型调整功能(第一调整),基于数据样本序关系的分类模型调整功能(第二调整),基于数据样本相似性的分类模型平滑功能(第一平滑)和基于级别相似性的分类模型平滑功能(第二平滑)。其中,第一和第二调整主要应用于监督情形,即,基于标注数据样本,而第一和第二平滑是在第一和第二调整的基础上引入的,用于使模型可被应用到半监督情形,即,基于标注和未标注数据样本两者。
第一调整(即,基于全局级别值间距的分类模型调整)是基于所有分类级别之间的全局关系对分类模型进行调整的功能。不同于上述现有技术1所记载的仅局限于相邻级别之间的局部顺序的情形,该第一调整功能利用级别值之间的间距来惩罚全局误分类误差,从而使得所有级别之间的全局序关系被引入分类模型的调整过程。因此,在使得关于所有数据样本的总误分类误差最小化的同时,分类模型的全局级别序关系也可以被宏观地优化。
第二调整(即,基于数据样本序关系的分类模型调整)是基于如下考量而设计的:基于多个级别之间序的本质,级别之间的序也可以反映在每个数据样本上。因此,该第二调整功能被设计成使得每两个标注数据样本之间的序关系,与它们的级别标签所对应的级别序关系保持一致。从而,级别的序关系可以根据数据样本被微观地进一步优化。
第一平滑(即,基于数据样本相似性的分类模型平滑)类似于现有方法,例如上述现有技术2所描述的方法。在本发明中,标注数据样本和未标注数据样本两者的预测级别标签都基于它们之间的相似性被平滑。
第二平滑(即,基于级别相似性的分类模型平滑)是根据数据样本的级别相似性来调整分类模型的功能。在基于样本相似性的第一平滑功能中,仅仅利用了数据分布的内在几何结构。进一步的,第二平滑被用于对级别分布的内在几何结构建模。基于分类级别之间的距离以及数据样本属于某一级别的概率,数据样本之间的级别相似性可以被计算。因此,分类模型可以根据数据样本的级别相似性被进一步优化。从而,预测的级别标签不仅能够针对总体的数据分布平滑地变化,还可以与级别之间的序关系保持一致。
根据不同的实施例,本发明利用上述第一调整、第二调整、第一平滑和第二平滑的不同组合来优化多级别分类模型。
根据本发明第一方面,提供了一种用于构建多级别分类模型的方法,该方法包括:输入标注数据样本;利用标注数据样本生成初始多级别分类模型;以及基于所有级别之间的全局级别值间距对所述初始多级别分类模型进行优化。在另一实施例中,所述优化步骤还基于数据样本之间的序关系进行进一步调整。在又一实施例中,所述方法被扩展应用到半监督情形,其中所述优化步骤还基于数据样本之间的相似性以及级别之间的相似性对分类模型进行平滑。
根据本发明第二方面,提供了一种用于构建多级别分类模型的系统,包括:第一输入装置,用于输入标注数据样本;分类模型初始化装置,用于利用所述标注数据样本生成初始多级别分类模型;以及分类模型优化装置,用于对所生成的所述初始多级别分类模型进行优化。在一个实施例中,分类模型优化装置基于所有级别之间的全局级别值间距对初始多级别分类模型进行调整。在另一实施例中,分类模型优化装置基于所有级别之间的全局级别值间距以及数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例中,所述系统被扩展应用到半监督学习情形。在此情况下,除了基于所有级别之间的全局级别值间距以及数据样本之间的序关系对初始多级别分类模型进行调整之外,分类模型优化装置还考虑到数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行平滑,以实现最终优化。
本发明的技术优势主要体现在如下几个方面。
首先,通过利用级别值和相似性,级别之间的序关系被充分地结合到分类模型中,从而提高了多级别分类的精确性。
其次,由于针对所有级别构建统一的分类功能,因此每个数据样本按照一致的度量被计算。这样一来,分类器不仅输出离散的级别标签,还输出级别标签据其量化的连续的度量值,从而使得多级别分类器的输出是可测量的。
此外,通过引入两种平滑功能,使得分类模型不仅可以被应用到传统的监督问题,也可以被应用到在实际信息处理应用中更普遍的半监督问题,从而提高了多级别分类的实用性。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的标号指示类似的部分,其中:
图1是示出根据现有技术1的分类模型优化系统100的结构框图;
图2是示出根据现有技术2的分类模型优化系统200的结构框图;
图3是示出根据本发明的分类模型优化系统300的结构框图;
图4A至图4C分别示出图3所示的分类模型优化系统300的三种不同组合工作方式的流程图。
具体实施方式
为了描述方便,下面首先给出说明书中将使用的一些基本符号的定义。
l个标注数据样本,记作XL={(xi,yi)},i=1,...,l,
u个未标注数据样本,记作XU={(xi,?)},i=l+1,...,l+u,
其中,y∈{rk},k=1,...,K,rk是第k级别的值,并且K是级别总数目。
YR={yi},i=1,...,l表示l个标注数据样本的级别标签向量。本发明要构建的是统一的预测或分类函数f(称之为级别函数),其针对数据样本x的输出是数值f(x),即x所属级别值。优化后的级别函数记作f*
本发明所提出的分类模型优化方案用于构建多级别分类模型,其将级别之间的序关系结合到分类模型中。本发明所提出的方法可以被应用到监督和半监督情形两者,作为示例,其统一的构架可以用下式(1)来表示:
f * = arg min f | | f | | K 2 + γ 1 V Level ( f , Y R ) + γ 2 V Order ( f ) + γ 3 ( 1 - α ) | | f | | I 2 + γ 3 α | | f | | L 2 - - - ( 1 )
其中,||f|K 2是级别函数f的基本优化项。γ1,γ2,γ3,α分别是用于调整与本发明的第一、第二、第三和第四组件相对应的项的效果的系数。如上所述,本发明的核心思想主要包括四个优化功能,即,基于全局级别值间距的分类模型调整(第一调整),基于数据样本序关系的分类模型调整(第二调整),基于数据样本相似性的分类模型平滑(第一平滑)和基于级别相似性的分类模型平滑(第二平滑)。在式(1)中,它们分别对应于VLevel(f,YR)、VOrder(f)、||f||I 2和||f||L 2这四项。这里,为了描述方便,以平方和为例描述各项。但是,本发明的原理并不仅仅局限于该示例,而是可被扩展应用到各种数学和,例如绝对值之和或高次方和。
(1)VLevel(f,YR)是一种基于标注数据的损失函数(loss function),用于确保学习到的级别函数能够接近数据的真实级别,其中YR是所有数据的期待预期级别输出向量。该项对应于本发明的第一调整(基于全局级别值间距的分类模型调整功能)。
(2)VOrder(f)是一种为了保持标注数据样本之间的序关系与其级别标签的序关系一致的损失函数。该项对应于本发明的第二调整(基于数据序关系的分类模型调整功能)。
(3)||f||I 2是基于样本相似性的平滑调整项,其反映出数据样本分布的几何结构,从而使得级别函数f能够根据数据分布平滑地变化。该项对应于本发明的第一平滑(基于样本相似性的分类模型平滑功能)。
(4)||f||I 2是基于级别相似性的平滑调整项,其反映出各个级别分布的几何结构,从而使得级别函数f能够根据级别有序分布平滑地变化。该项对应于本发明的第二平滑(基于级别相似性的分类模型平滑功能)。
图3示出根据本发明的分类模型优化系统300的结构框图。图4A至图4C分别示出图3所示的分类模型优化系统300的三种不同组合工作方式的流程图。
如图3所示,系统300包括分类模型初始化装置301和分类模型优化装置302。分类模型优化装置302可以实现四种分类模型优化功能中的一种或多种功能的组合。如上所述,这四种分类模型优化功能包括基于全局级别值间距的分类模型调整(第一调整)3021、基于样本序关系的分类模型调整(第二调整)3022、基于样本相似性的分类模型平滑(第一平滑)3023和基于级别相似性的分类模型平滑(第二平滑)3024。如上所述,第一和第二调整可应用于监督情形,第一和第二平滑可应用于半监督情形。根据本发明的不同实施例,可以通过第一调整、第二调整、第一平滑和第二平滑的不同组合来实现对多级别分类模型的优化。参考图4A至图4C,这里提出如下几种应用情形作为示例。请注意,本发明的工作原理并不局限于下述组合,而是可以由本领域技术人员根据应用需求相应的选择和组合。
应用情形1(图4A):第一调整
应用情形2(图4B):第一调整+第二调整
应用情形3(图4C):第一调整+第二调整+第一平滑+第二平滑
图4A和图4B应用于监督学习情形。图4C可扩展应用于半监督学习情形。
图4A的过程开始于步骤401a。在步骤401a中,用户输入标注数据样本集合。然后,在步骤402a中,分类模型初始化装置301生成初始多级别分类模型。这里,初始多级别分类模型的生成方法可以采用本领域公知的任意现有方法。在本发明中,初始多级别分类模型可以由统一的分类超平面映射函数f、一系列级别值以及某些其它相应的参数构成。然后,在步骤403a中,分类模型优化装置302对初始分类模型执行第一调整。就是说,分类模型优化装置302基于所有级别之间的全局级别值间距对初始分类模型进行调整。在步骤404a中,得到优化后的多级别分类模型。
图4B的过程类似于图4A,区别仅在于步骤403b中分类模型优化装置302的操作。在图4B所示的应用情形2中,分类模型优化装置302对初始分类模型执行第一调整和第二调整。就是说,分类模型优化装置302基于(1)所有级别之间的全局级别值间距,和(2)数据样本之间的序关系对分类模型进行调整。
图4C可应用于半监督学习情形。在步骤401c中,用户输入标注数据样本集合和未标注数据样本集合。然后,在步骤402c中,分类模型初始化装置301利用输入的标注数据样本集合和未标注数据样本集合生成初始多级别分类模型。在步骤403c中,分类模型优化装置302对初始分类模型执行第一调整、第二调整、第一平滑和第二平滑。就是说,分类模型优化装置302基于(1)所有级别之间的全局级别值间距,(2)数据样本之间的序关系,(3)数据样本之间的相似性,以及(4)分类级别之间的相似性对分类模型进行优化。然后,在步骤404c中,得到优化后的多级别分类模型。
下面将对本发明的第一和第二调整功能以及第一和第二平滑功能作详细描述。
第一调整(基于全局级别值间距的分类模型调整)
级别序关系的引入是使得多级别分类器与多类别分类器相区分的一个关键特征。在本发明中,在级别空间中引入了欧几里得度量(Euclideanmetric)的假设,以表示根据级别值所得出的到各个级别之间的距离。例如,可以采用平方损失(square loss)将VLevel(f,YR)记作:
V Level ( f , Y R ) = Σ i = 1 l | | f ( x i ) - y i | | F 2 - - - ( 2 )
上述等式表示标注数据样本的预测级别标签值与其已标注的级别标签值之间的间距的平方和。根据上述等式,数据样本被错误地分类到的级别与其真实级别的距离越远,则损失越大。因此,在使根据全局级别值间距的误分类误差最小化时,级别函数被优化。第一调整的优点在于所有级别之间的全局序关系都被量化,并被隐式地且宏观地优化。如上所述,除了平方和之外,上述等式(2)可以采取各种数学和,例如,绝对值之和或高次方和。
第二调整(基于样本序关系的分类模型调整)
为了进一步利用级别的序关系,本发明引入第二组件来根据数据样本的级别标签保持数据样本的局部顺序。首先,l个标注数据样本可以根据它们的级别标签被重新排序。为了区分,这里使用xp指示数据样本在新序列中的位置。从而,可以采用hinge损失将VOrder(f)记作:
V Order ( f ) = Σ p = 2 l max ( 0,1 - f ( x p ) + f ( x p - 1 ) ) - - - ( 3 )
在第二调整中,标注数据样本序列按照级别标签被重新排序,然后邻接数据样本间预测值的序错误的数学和被用于调整分类模型。从而,级别函数将根据受级别序关系约束的数据之间的序关系而被优化。第二调整的优点在于数据样本的局部顺序关系被显式地且微观地优化。同样地,第二调整中的数学和也不局限于式(3)所给出的形式,可以例如采取绝对值和、平方和、高次方和等形式。
第一平滑(基于样本相似性的分类模型平滑)
第一平滑与现有技术中的常用方法类似,其利用未标注数据样本来使得分类模型更好地符合总体数据分布的内在几何结构。该方法基于如下假设:类似的数据样本更可能被分类到同一级别。例如,所有标注数据样本和未标注数据样本之间的相似性Si,j I可以根据样本特征、使用如下的高斯核(Gaussian kernel)来计算:
S i , j I = exp ( - | | x i - x j | | 2 2 σ 2 ) - - - ( 4 )
然后,基于样本相似性的平滑调整项||f||I 2可以被定义为:
| | f | | I 2 = Σ i , j = 1 l + u S i , j I ( f ( x i ) - f ( x j ) ) 2 - - - ( 5 )
在上式中,根据基于样本相似性加权的预测级别标签值间距的平方和对分类模型进行平滑。因此,通过使以上式(5)最小化,可以使得级别函数根据数据几何分布平滑地变化。第一平滑的优点在于:可以利用大量未标注数据样本来学习分类模型。但是,该方法也存在数据分布通常与级别分布不一致的缺陷。进而,本发明可以使用第二平滑来进一步优化分类模型。同样地,除了平方和之外,上述等式(5)可以采取各种数学和,例如,绝对值之和或高次方和。
第二平滑(基于级别相似性的分类模型平滑)
除了上述常见的数据样本之间的样本相似性之外,本发明还引入了级别相似性,作为使得多级别分类器能够被有效地应用到半监督情形的关键特征。
在本发明中,首先基于欧几里得度量的假设引入了级别间距权值矩阵Bk,k′ L的概念,用于表示根据级别值所得出的的级别之间的距离。例如,可以将其定义为如下指数函数:
B k , k ′ L = e - | rk - r k ′ | - - - ( 6 )
然后,通过利用现有方法,可以计算(数据-级别)概率矩阵Pi,k,其指示数据样本xi属于第k级别的概率。这里的现有方法例如可以采用M.Qian、F.Nie和C.Zhang的题为“Probabilistic labeled semi-supervised svm.In Workshop on Optimization Based Methods for Emerging Data MiningProblems”(IEEE International Conference on Data Mining(ICDM),2009)的文献中所提出的方法。
最后,对数据样本引入级别相似性的概念,如下:
针对两个数据样本xi和xj,它们之间的级别相似性Si,j L由下式表示:
S i , j L = Σ k = 1 K Σ K ′ = 1 K P i , k P j , k ′ B k , k ′ L - - - ( 7 )
基于级别相似性Si,j L的定义,基于级别相似性的平滑调整项||f||L 2可以被定义如下:
| | f | | L 2 = Σ i , j = 1 l + u S i , j L ( f ( x i ) - f ( x j ) ) 2 - - - ( 8 )
在上式中,根据基于数据样本的级别相似性加权的预测级别标签值间距的平方和对分类模型进行平滑。因此,通过式上述式(8)最小化,级别函数将根据级别几何分布平滑地变化。第二平滑的优点在于:不仅大量未标注数据样本可以被用于帮助学习多级别分类模型,并且还可以考虑到级别之间的序关系。同样地,除了平方和之外,上述等式(5)可以采取各种数学和,例如,绝对值之和或高次方和。
以上详细描述了根据本发明的分类模型优化方案。具体讲,本发明提出了四种分类模型优化功能,即,基于全局级别值间距的分类模型调整(第一调整),基于样本序关系的分类模型调整(第二调整),基于样本相似性的分类模型平滑(第一平滑)和基于级别相似性的分类模型平滑(第二平滑),它们分别基于各个分类级别之间的全局级别值间距、样本序关系、样本相似性以及级别相似性来对分类模型进行调整和优化。
如上所述,本发明通过利用级别值和相似性,级别之间的序关系被充分地结合到分类模型中,从而提高了多级别分类的精确性。
另外,由于针对所有级别构建统一的分类功能,因此每个数据样本按照一致的度量被计算。这样一来,分类器不仅输出离散的级别标签,还输出级别标签据其量化的连续的度量值,从而使得多级别分类器的输出是可测量的。
此外,通过引入两种平滑功能,使得分类模型不仅可以被应用到传统的监督问题,也可以被应用到在实际信息处理应用中更普遍的半监督问题,从而提高了多级别分类的实用性。
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (13)

1.一种用于构建在语义网进行多级别分类的多级别分类模型的方法,包括:
输入标注数据样本;
利用所述标注数据样本生成初始多级别分类模型;以及
对所述初始多级别分类模型进行优化,
其中,所述优化步骤包括基于所有级别之间的全局级别值间距对所述初始多级别分类模型进行调整;
其中,所述基于全局级别值间距进行调整的步骤包括:
对所有所述标注数据样本,调整级别分类函数,以使得以下各项之和最小:(1)级别分类函数所对应的分类超平面的间距的倒数;(2)所有标注数据样本的预测级别标签值与其已标注的级别标签值的间距的数学和。
2.如权利要求1所述的方法,其中所述优化步骤还包括基于标注数据样本之间的序关系对所述初始多级别分类模型进行调整。
3.如权利要求2所述的方法,其中,所述基于标注数据样本之间的序关系进行调整的步骤包括:
对所有所述标注数据样本,调整级别分类函数,以使得以下各项之和最小:(1)级别分类函数所对应的分类超平面的间距的倒数;(2)所有标注数据样本的预测级别标签值与其已标注的级别标签值的间距的数学和;以及(3)在按照级别标签重新排序后的标注数据样本序列中,邻接数据样本间预测值的序错误的次数的数学和。
4.如权利要求2所述的方法,该方法被扩展应用到半监督学习情形,所述方法还包括:
输入未标注数据样本;并且
利用所述标注数据样本和所述未标注数据样本生成所述初始多级别分类模型。
5.如权利要求4所述的方法,其中所述优化步骤还包括基于数据样本之间的相似性以及级别之间的相似性对所述初始多级别分类模型进行平滑。
6.如权利要求5所述的方法,其中所述平滑步骤包括:
对所有所述标注和未标注数据样本,调整级别分类函数,以使得以下各项之和最小:(1)级别分类函数所对应的分类超平面的间距的倒数;(2)所有标准数据样本的预测级别标签值与其已标注的级别标签值的间距的数学和;(3)在按照级别标签重新排序后的所有标注数据样本序列中,邻接数据样本间预测值的序错误的次数的数学和;(4)所有标注与未标注数据样本上,基于样本相似性加权的预测级别标签值间距的数学和;以及(5)所有标注与未标注数据样本上,基于数据样本的级别相似性加权的预测级别标签值间距的数学和。
7.如权利要求1、3和6中的任何一个所述的方法,其中,所述数学和是绝对值之和、平方和或高次方和。
8.如权利要求1、3和6中的任何一个所述的方法,还包括:对各项数学和分别配置一个可调整的权重参数,其中,每个所述权重参数取值大于或等于0。
9.如权利要求8所述的方法,其中所述优化步骤使如下等式最小化:
f * = arg min f | | f | | K 2 + γ 1 V Level ( f , Y R ) + γ 2 V Order ( f ) + γ 3 ( 1 - α ) | | f | | I 2 + γ 3 α | | f | | L 2 ,
V Level ( f , Y R ) = Σ i = 1 l | | f ( x i ) - y i | | F 2 ,
V Order ( f ) = Σ p = 2 l max ( 0,1 - f ( x p ) + f ( x p - 1 ) ) ,
| | f | | I 2 = Σ i , j = 1 l + u S i , j I ( f ( x i ) - f ( x j ) ) 2 , S i , j I = exp ( - | | x i - x j | | 2 2 σ 2 ) ,
| | f | | L 2 = Σ i , j = 1 l + u S i , j L ( f ( x i ) - f ( x j ) ) 2 , S i , j L = Σ k = 1 K Σ k ′ = 1 K P i , k P j , k ′ B k , k ′ L , B k , k ′ L = e - | rk - r k ′ | ,
其中,
XL表示l个标注数据样本,且XL={(xi,yi)},i=1,...,l;其中xi表示数据样本,yi表示标注数据样本的级别标签;
f表示级别函数,
是级别函数f的基本优化项,
YR表示l个标注数据样本的级别标签向量,YR={yi},i=1,...,l;
y∈{rk},k=1,...,K,rk是第k级别的值,并且K是级别总数目
γ123,α分别表示基于全局级别值间距的分类模型调整功能、基于数据样本序关系的分类模型调整功能、基于数据样本相似性的分类模型平滑功能、基于级别相似性的分类模型平滑功能的效果系数;
xi表示数据样本,yi表示标注数据样本的级别标签,i=1,...,l;
xp表示l个标注数据样本根据它们的级别标签被重新排序后,数据样本在新序列中的位置;
表示级别k和k′的级别间距权值矩阵,其中rk和rk′表示级别值;
Pi,k表示数据-级别概率矩阵,以指示数据样本xi属于第k级别的概率;
Pj,k′表示数据-级别概率矩阵,以指示数据样本xj属于第k′级别的概率;
表示所有i个标注数据样本和j个未标注数据样本之间的相似性。
10.一种用于构建在语义网进行多级别分类的多级别分类模型的系统,包括:
第一输入装置,用于输入标注数据样本;
分类模型初始化装置,用于利用所述标注数据样本生成初始多级别分类模型;以及
分类模型优化装置,用于对所生成的所述初始多级别分类模型进行优化,
其中,所述分类模型优化装置基于所有级别之间的全局级别值间距对所述初始多级别分类模型进行调整;
其中,所述基于全局级别值间距进行调整的步骤包括:
对所有所述标注数据样本,调整级别分类函数,以使得以下各项之和最小:(1)级别分类函数所对应的分类超平面的间距的倒数;(2)所有标注数据样本的预测级别标签值与其已标注的级别标签值的间距的数学和。
11.如权利要求10所述的系统,其中所述分类模型优化装置还基于数据样本之间的序关系对所述初始多级别分类模型进行调整。
12.如权利要求11所述的系统,该系统被扩展应用到半监督学习情形,所述系统还包括:
第二输入装置,用于输入未标注数据样本;并且
所述分类模型初始化装置利用所述标注数据样本和所述未标注数据样本生成所述初始多级别分类模型。
13.如权利要求12所述的系统,其中所述分类模型优化装置还基于数据样本之间的相似性以及级别之间的相似性对所述初始多级别分类模型进行平滑。
CN200910258920.2A 2009-12-30 2009-12-30 用于构建多级别分类模型的方法和系统 Expired - Fee Related CN102117411B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200910258920.2A CN102117411B (zh) 2009-12-30 2009-12-30 用于构建多级别分类模型的方法和系统
JP2010231586A JP5429940B2 (ja) 2009-12-30 2010-10-14 マルチレベル分類モデルを構築する方法とシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910258920.2A CN102117411B (zh) 2009-12-30 2009-12-30 用于构建多级别分类模型的方法和系统

Publications (2)

Publication Number Publication Date
CN102117411A CN102117411A (zh) 2011-07-06
CN102117411B true CN102117411B (zh) 2015-03-11

Family

ID=44216172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910258920.2A Expired - Fee Related CN102117411B (zh) 2009-12-30 2009-12-30 用于构建多级别分类模型的方法和系统

Country Status (2)

Country Link
JP (1) JP5429940B2 (zh)
CN (1) CN102117411B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485259B (zh) * 2015-08-26 2019-11-15 华东师范大学 一种基于高约束高分散主成分分析网络的图像分类方法
CN106909654B (zh) * 2017-02-24 2020-07-21 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107688823B (zh) 2017-07-20 2018-12-04 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
EP3673375B1 (en) * 2017-10-13 2022-04-06 Huawei Technologies Co., Ltd. System and method for cloud-device collaborative real-time user usage and performance abnormality detection
CN107808661B (zh) * 2017-10-23 2020-12-11 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN109766922B (zh) * 2018-12-18 2021-10-12 东软集团股份有限公司 数据处理方法、装置、存储介质及电子设备
CN109886211B (zh) * 2019-02-25 2022-03-01 北京达佳互联信息技术有限公司 数据标注方法、装置、电子设备及存储介质
CN110442725B (zh) * 2019-08-14 2022-02-25 科大讯飞股份有限公司 实体关系抽取方法及装置
CN110851596B (zh) * 2019-10-11 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN112784863B (zh) * 2019-11-08 2022-12-16 北京市商汤科技开发有限公司 图像处理网络训练、图像处理、智能行驶的方法及装置
CN117875421B (zh) * 2024-03-13 2024-05-17 中国水利水电第一工程局有限公司 基于深度学习的光伏阵列故障诊断方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101332136A (zh) * 2008-08-01 2008-12-31 杭州电子科技大学 脑电肌电联合控制的电动假手以及控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386527B2 (en) * 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101332136A (zh) * 2008-08-01 2008-12-31 杭州电子科技大学 脑电肌电联合控制的电动假手以及控制方法

Also Published As

Publication number Publication date
CN102117411A (zh) 2011-07-06
JP5429940B2 (ja) 2014-02-26
JP2011138484A (ja) 2011-07-14

Similar Documents

Publication Publication Date Title
CN102117411B (zh) 用于构建多级别分类模型的方法和系统
Wang et al. Adapting naive Bayes tree for text classification
US7756799B2 (en) Feature selection based on partial ordered set of classifiers
Silva Filho et al. Classifier calibration: a survey on how to assess and improve predicted class probabilities
Wang et al. Improving semi-supervised co-forest algorithm in evolving data streams
Hosenie et al. Comparing multiclass, binary, and hierarchical machine learning classification schemes for variable stars
Din et al. Data stream classification with novel class detection: a review, comparison and challenges
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
WO2023279674A1 (en) Memory-augmented graph convolutional neural networks
US20220114464A1 (en) Systems and methods for counterfactual explanation in machine learning models
Fujino et al. A semi-supervised AUC optimization method with generative models
Llerena et al. On using sum-product networks for multi-label classification
KR20200092989A (ko) 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
KR20080097753A (ko) 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법
CN111126443A (zh) 基于随机游走的网络表示学习方法
Bahrami et al. Automatic image annotation using an evolutionary algorithm (IAGA)
Vasilev et al. Calibration of neural networks
CN114611668A (zh) 一种基于异质信息网络随机游走的向量表示学习方法及系统
KR20210138893A (ko) 아이템 추천 방법
Golam Sohrab et al. EDGE2VEC: Edge representations for large-scale scalable hierarchical learning
Han et al. Customized classification learning based on query projections
US20240013057A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
US20240013058A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium
Nijaguna et al. Multiple kernel fuzzy clustering for uncertain data classification
US20240012881A1 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150311

Termination date: 20161230

CF01 Termination of patent right due to non-payment of annual fee