CN102945372A - 基于多标签约束支持向量机的分类方法 - Google Patents
基于多标签约束支持向量机的分类方法 Download PDFInfo
- Publication number
- CN102945372A CN102945372A CN201210398567XA CN201210398567A CN102945372A CN 102945372 A CN102945372 A CN 102945372A CN 201210398567X A CN201210398567X A CN 201210398567XA CN 201210398567 A CN201210398567 A CN 201210398567A CN 102945372 A CN102945372 A CN 102945372A
- Authority
- CN
- China
- Prior art keywords
- label
- many
- constraint
- neighborhood
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于多标签约束支持向量机的分类方法,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练。本发明用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。
Description
技术领域
本发明属于多标签技术领域,特别地涉及一种基于多标签约束支持向量机的分类方法。
背景技术
随着信息时代的到来,多媒体数据已经实现了爆炸性的增长。标签,作为多媒体的内容形式之一,能帮助解决数据挖掘方面很多重要的现实应用,特别是在跨媒体领域,体现出非常重要的作用。例如,利用合适的标签作为图像注释的一部分,可以开发出强大的图像标注和图像检索技术;利用合适的标签作为电影评论的一部分,可以开发出有效的电影推荐系统;利用合适的标签作为网页标记的一部分,可以开发出更有效率的搜索引擎。
标签的种类是多种多样的,由于数据量日新月异爆炸性的增长,仅仅依靠数据处理人员对所有的数据手工加标签是不现实的。在这种前提下,社会标签就应运而生了。社会标签,又称合作标签,社会分类法,是一种让普通大众用户能将在线的数字资源和自己提供的标签做关联的方法,是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。在这里,普通民众都可以通过在线环境在相应的系统中为自己感兴趣的数字资源添加自己觉得合适的标签。正是基于这种特点,社会标签的结果往往是不准确的,包含有很多噪声,因为每一位参与社会标签的普通用户都不能排除自己的主观性,粗心大意,甚至是缺乏耐心去提供一个完美的标签。
为了更好的利用社会标签为进一步的数据处理分析服务,必须尽可能的提高标签分类的准确度,降低噪声对标签分类的影响。同时,由于标签的种类是多种多样的,因此,多标签抗噪分类器应运而生,并且有着非常广阔的应用前景和非常重要的实用价值。传统的鉴别型分类器应用到多标签分类问题中时,一般将多标签问题转化为一对多(One Vs All)的分类模式,即把多标签分类问题转化为多个二分类问题。传统的鉴别型分类器在这个转化过程中并没有用到多标签空间中所包含的信息。而实际上,数据被标上的标签越多,标签空间中包含的信息也就越多,这些信息可以被利用起来。当判断数据点是否应该标上某个标签时,该数据点已有的其他标签会对判断起到一定的帮助作用。例如,当一幅包含动物的图像已有的标签为天空,云,草地,树木的时候,它更可能被标上的标签是鸟而不是鱼;而当一幅包含动物的图像已有的标签为水,水草,大海,珊瑚的时候,它更有可能被标上的标签是鱼而不是鸟。多标签空间中包含的信息在某种程度上可以帮助我们更好的进行分类,降低噪声对分类的影响。
发明内容
为解决上述问题,本发明的目的在于提供一种基于多标签约束支持向量机的分类方法,用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。
为实现上述目的,本发明的技术方案为:
一种基于多标签约束支持向量机的分类方法,包括以下步骤:
首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为:将多标签训练集表示为多标签训练集中的每个点都被标上了多种多样的标签,整个多标签训练集的标签字典组成了S维的多标签空间多标签训练集中的每个点在视角中的特征向量表示为xi,在标签字典中的标签向量表示为di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示字典中的第r个标签Tr是否在Ii中出现,同时用yi,r表示Ii的分类标签,yi,r=2·di,r-1。在多标签一对多(One Vs All)的分类模式中,当一个标签Tr被作为分类目标时,标签字典中其余的标签就会组成一个S-1维的标签特征空间用ti,r表示Ii在空间中的特征向量,ti,r=(di,1,...,di,r-1,di,r+1,...,di,S)′,
将每一个标签Tr的关联度向量标记为gr,
gr=(gr,1,...,gr,r-1,gr,r+1,...,gr,S)′;
向量的每一个元素表示标签Tr与其他标签的关联度;
关联度元素gr,k(k∈{1,...,r-1,r+1,...,S})的定义如下式所示:gr,k=P00·P11+P10·P01,将样本点在空间中的特征向量与每一个标签Tr关联度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:disr(Ii,Ij)=||(ti,r-tj,r)⊙gr||p,其中⊙表示向量之间的阿达马(Hadamard)乘积;
然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束。所述的邻域以及多标签邻域相似度约束的建立方法为:Ii在空间中用这种新型距离度量方法定义的邻域,不包括Ii自己,表示为Ii和其邻域中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域的大小u表示Ii在空间中的最邻近的邻居点的个数,所述多标签约束支持向量机通过添加多标签空间邻域相似度约束来最小化每一个点和其在多标签空间中最邻近的邻居点的分类结果之间的差异,该约束如下所示:
其中w是多标签约束支持向量机分类器的系数;
最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练,所述新的多标签约束支持向量机分类器的建立方法为:结合上述多标签约束条件和传统的支持向量机约束条件,整合到多标签约束支持向量机的优化式中,优化式如下所示:
与现有技术相比,本发明具有以下有益效果:
(1)创新性的提出在多标签一对多(One Vs All)的分类模式中充分利用多标签空间中的信息,以降低噪声对分类训练过程的影响,提高多标签分类鉴别型分类器的分类准确度。
(2)在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离。该距离度量方法充分考虑到了标签与标签之间的相互关系和依存程度。并通过该距离度量定义了多标签空间中的邻域,并提出了多标签邻域相似度约束。
(3)发明了多标签约束支持向量机(Support Vector Machine with Multi-labelConstraints,SVM-MC),能通过多标签邻域相似度约束把多标签空间中每个点的邻域信息应用到分类训练过程中,提高分类准确度。
附图说明
图1为本发明实施例的基于多标签约束支持向量机的分类方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,所示为本发明实施例的基于多标签约束支持向量机的分类方法流程图,其包括以下步骤:
S01,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;
S02,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束;
S03,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练。
本发明实施例提出的一种多标签约束支持向量机(SVM with Multi-labelConstraints,SVM-MC)。将多标签训练集表示为训练集中的每个点都被标上了多种多样的标签,整个训练集的标签字典组成了S维的多标签空间当任何一个标签Tr(1≤r≤S)作为二分类的目标时,其余的标签就会组成一个S-1维的标签特征空间训练集中的每个点在视角中的特征向量表示为xi,在标签字典中的标签向量表示为di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示字典中的第r个标签Tr是否在Ii中出现。对于每一个标签Tr和每一个点Ii=(xi,di),用yi,r表示Ii的分类标签,yi,r=2·di,r-1。
本发明实施例在多标签空间中定义的一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离。在多标签一对多(One VsAll)的分类模式中,当一个标签Tr被作为分类目标时,标签字典中其余的标签就会组成一个S-1维的标签特征空间在空间中距离越近的点的分类相似度也越高。用ti,r表示Ii在空间中的特征向量,ti,r=(di,1,...,di,r-1,di,r+1,...,di,S)′。然而,用公式||ti,r-tj,r||p直接来度量Ii和Ij在中的距离在大多数情况下是不合理的,因为这种方法假设标签之间是相互独立的,而忽略了标签之间可能存在的相互关系。在现实情况中,标签之间存在着各种各样的关系,有些标签经常一起出现,有些标签却绝不同时出现。
通过评价对于Ii和Ij在中的距离的影响来讨论标签Tr和Tk(k∈{1,...,r-1,r+1,...,S})之间的关系。当|di,k-dj,k|=0时,|di,k-dj,k|对于Ii和Ij在中的距离的影响也为0;当|di,k-dj,k|=1时,|di,k-dj,k|对于Ii和Ij在中的距离的影响取决于标签Tr和Tk之间的关联度。|di,k-dj,k|=1和|di,r-dj,r|的取值之间的关系如下式所述:
当 且
或 且 时
当 且
或 且 时(1)
定义 公式(1)描述了标签Tr和Tk之间的四种特殊关系。在实际中,当标签Tr在和中分布均匀的时候,Tk对于Tr来说不是一个具有区别性的标签;当标签Tr在和中分布不均匀的时候,Tk对于Tr来说是一个具有区别性的标签。当给定di,k=0or1时,di,r=0or1的条件概率如下所示:
从公式(1)(2)可以看出,当P00·P11或者P10·P01的值越大时,|di,k-dj,k|=1推出|di,r-dj,r|=1的概率也越大,|di,k-dj,k|对于Ii和Ij在中的距离的影响也越大。当P00·P01或者P10·P11的值较大时,|di,k-dj,k|=1推出|di,r-dj,r|=0的概率也越大,|di,k-dj,k|对于Ii和Ij在中的距离的影响也越小。
P00·P11+P10·P01+P00·P01+P10·P11=1。将每一个标签Tr的关联度向量标记为gr,gr=(gr,1,...,gr,r-1,gr,r+1,...,gr,S)′。向量的每一个元素表示标签Tr与其他标签的关联度。用下式来定义关联度元素gr,k(k∈{1,...,r-1,r+1,...,S}):gr,k=P00·P11+P10·P01。
将样本点在空间中的特征向量与每一个标签Tr关联度向量结合起来,定义了多标签空间中一种新型的距离度量方法,如下式所示:disr(Ii,Ij)=||(ti,r-tj,r)⊙gr||p。⊙表示向量之间的阿达马(Hadamard)乘积,Ii在空间中用这种新型距离度量方法定义的邻域(不包括Ii自己)表示为Ii和其邻域中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低。邻域的大小u表示Ii在空间中的最邻近的邻居点的个数,
为了利用多标签空间中包含的信息,本发明实施例的一种新的多标签约束支持向量机(SVM-MC),该向量机通过添加多标签空间邻域相似度约束,来最小化每一个点和其在多标签空间中最邻近的邻居点的分类结果之间的差异,该约束如下所示:
其中w是多标签约束支持向量机分类器的系数。结合上述多标签约束条件和传统的支持向量机(SVM)约束条件,本发明实施例提出的多标签约束支持向量机SVM-MC,其优化式如下所示:
且
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于多标签约束支持向量机的分类方法,其特征在于,包括以下步骤:
首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为:将多标签训练集表示为多标签训练集中的每个点都被标上了多种多样的标签,整个多标签训练集的标签字典组成了S维的多标签空间多标签训练集中的每个点在视角中的特征向量表示为xi,在标签字典中的标签向量表示为di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示字典中的第r个标签Tr是否在Ii中出现,同时用yi,r表示Ii的分类标签,yi,r=2·di,r-1,在多标签一对多One Vs All的分类模式中,当一个标签Tr被作为分类目标时,标签字典中其余的标签就会组成一个S-1维的标签特征空间用ti,r表示Ii在空间中的特征向量,ti,r=(di,1,...,di,r-1,di,r+1,...,di,s)′,
将每一个标签Tr的关联度向量标记为gr,
gr=(gr,1,...,gr,r-1,gr,r+1,...,gr,S)′;
向量的每一个元素表示标签Tr与其他标签的关联度;
关联度元素gr,k(k∈{1,...,r-1,r+1,...,S})的定义如下式所示:gr,k=P00·P11+P10·P01,将样本点在空间中的特征向量与每一个标签Tr关联度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:disr(Ii,Ij)=||(ti,r-tj,r)⊙gr||p,其中⊙表示向量之间的阿达马Hadamard乘积;
然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束,所述的邻域以及多标签邻域相似度约束的建立方法为:Ii在空间中用这种新型距离度量方法定义的邻域,不包括Ii自己,表示为Ii和其邻域中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域的大小u表示Ii在空间中的最邻近的邻居点的个数,所述多标签约束支持向量机通过添加多标签空间邻域相似度约束来最小化每一个点和其在多标签空间中最邻近的邻居点的分类结果之间的差异,该约束如下所示:
且|wTxi-wTxj|≤ηij,ηij≥0;
其中w是多标签约束支持向量机分类器的系数;
最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练,所述新的多标签约束支持向量机分类器的建立方法为:结合上述多标签约束条件和传统的支持向量机约束条件,整合到多标签约束支持向量机的优化式中,优化式如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210398567.XA CN102945372B (zh) | 2012-10-18 | 2012-10-18 | 基于多标签约束支持向量机的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210398567.XA CN102945372B (zh) | 2012-10-18 | 2012-10-18 | 基于多标签约束支持向量机的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102945372A true CN102945372A (zh) | 2013-02-27 |
CN102945372B CN102945372B (zh) | 2015-06-24 |
Family
ID=47728311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210398567.XA Expired - Fee Related CN102945372B (zh) | 2012-10-18 | 2012-10-18 | 基于多标签约束支持向量机的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102945372B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794339A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 基于多标签模型的帕金森病证型的辅助预测方法 |
CN106021170A (zh) * | 2016-05-19 | 2016-10-12 | 中国科学技术大学 | 采用半监督低秩表示模型的图构建方法 |
CN106127247A (zh) * | 2016-06-21 | 2016-11-16 | 广东工业大学 | 基于多任务多示例支持向量机的图像分类方法 |
CN107111869A (zh) * | 2014-09-15 | 2017-08-29 | 淡马锡生命科学研究院有限公司 | 图像辨识系统及方法 |
US20210021616A1 (en) * | 2018-03-14 | 2021-01-21 | Intelici - Cyber Defense System Ltd. | Method and system for classifying data objects based on their network footprint |
CN113516207A (zh) * | 2021-09-10 | 2021-10-19 | 之江实验室 | 一种带噪声标签的长尾分布图像分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080025596A1 (en) * | 2006-06-12 | 2008-01-31 | D&S Consultants, Inc. | System and Method for Machine Learning using a Similarity Inverse Matrix |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN102364498A (zh) * | 2011-10-17 | 2012-02-29 | 江苏大学 | 一种基于多标签的图像识别方法 |
CN102646198A (zh) * | 2012-02-21 | 2012-08-22 | 温州大学 | 具有层次结构的混合线性svm分类器的模式识别方法 |
-
2012
- 2012-10-18 CN CN201210398567.XA patent/CN102945372B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080025596A1 (en) * | 2006-06-12 | 2008-01-31 | D&S Consultants, Inc. | System and Method for Machine Learning using a Similarity Inverse Matrix |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN102364498A (zh) * | 2011-10-17 | 2012-02-29 | 江苏大学 | 一种基于多标签的图像识别方法 |
CN102646198A (zh) * | 2012-02-21 | 2012-08-22 | 温州大学 | 具有层次结构的混合线性svm分类器的模式识别方法 |
Non-Patent Citations (1)
Title |
---|
万书鹏: "基于两类和三类支持向量机的快速多标签分类算法", 《中国优秀硕士学位论文全文数据库》, 15 January 2009 (2009-01-15) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111869A (zh) * | 2014-09-15 | 2017-08-29 | 淡马锡生命科学研究院有限公司 | 图像辨识系统及方法 |
CN107111869B (zh) * | 2014-09-15 | 2021-02-12 | 淡马锡生命科学研究院有限公司 | 图像辨识系统及方法 |
CN107111869B9 (zh) * | 2014-09-15 | 2021-04-06 | 淡马锡生命科学研究院有限公司 | 图像辨识系统及方法 |
CN104794339A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 基于多标签模型的帕金森病证型的辅助预测方法 |
CN106021170A (zh) * | 2016-05-19 | 2016-10-12 | 中国科学技术大学 | 采用半监督低秩表示模型的图构建方法 |
CN106127247A (zh) * | 2016-06-21 | 2016-11-16 | 广东工业大学 | 基于多任务多示例支持向量机的图像分类方法 |
CN106127247B (zh) * | 2016-06-21 | 2019-07-09 | 广东工业大学 | 基于多任务多示例支持向量机的图像分类方法 |
US20210021616A1 (en) * | 2018-03-14 | 2021-01-21 | Intelici - Cyber Defense System Ltd. | Method and system for classifying data objects based on their network footprint |
CN113516207A (zh) * | 2021-09-10 | 2021-10-19 | 之江实验室 | 一种带噪声标签的长尾分布图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102945372B (zh) | 2015-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ilyas et al. | Convolutional-neural network-based image crowd counting: Review, categorization, analysis, and performance evaluation | |
Xiao et al. | A framework for quantitative analysis and differentiated marketing of tourism destination image based on visual content of photos | |
Yang et al. | Layered object models for image segmentation | |
Silberman et al. | Instance segmentation of indoor scenes using a coverage loss | |
Nowak et al. | The CLEF 2011 Photo Annotation and Concept-based Retrieval Tasks. | |
Liu et al. | TransIFC: invariant cues-aware feature concentration learning for efficient fine-grained bird image classification | |
CN102945372B (zh) | 基于多标签约束支持向量机的分类方法 | |
CN109740686A (zh) | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 | |
Feng et al. | Transductive multi-instance multi-label learning algorithm with application to automatic image annotation | |
Qi et al. | Im2sketch: Sketch generation by unconflicted perceptual grouping | |
CN111126464A (zh) | 一种基于无监督域对抗领域适应的图像分类方法 | |
Vezhnevets et al. | Associative embeddings for large-scale knowledge transfer with self-assessment | |
Zhu et al. | A modified deep neural network enables identification of foliage under complex background | |
CN102945371B (zh) | 基于多标签柔性支持向量机的分类方法 | |
Lin et al. | Two stream active query suggestion for active learning in connectomics | |
Ghadi et al. | A graph-based approach to recognizing complex human object interactions in sequential data | |
Sun et al. | Indiscernible object counting in underwater scenes | |
López-Cifuentes et al. | Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss | |
Truong et al. | LIAAD: Lightweight attentive angular distillation for large-scale age-invariant face recognition | |
Han et al. | Multispectral fusion approach for traffic target detection in bad weather | |
Zhou et al. | Semantic image segmentation using low-level features and contextual cues | |
Liu et al. | LIRIS-Imagine at ImageCLEF 2011 Photo Annotation Task. | |
de Curtò et al. | Signature and log-signature for the study of empirical distributions generated with GANs | |
CN102945370B (zh) | 基于多标签二视角支持向量机的分类方法 | |
Thwe et al. | A semi-supervised learning approach for automatic detection and fashion product category prediction with small training dataset using FC-YOLOv4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150624 Termination date: 20201018 |
|
CF01 | Termination of patent right due to non-payment of annual fee |