CN102314614A - 一种基于类共享多核学习的图像语义分类方法 - Google Patents

一种基于类共享多核学习的图像语义分类方法 Download PDF

Info

Publication number
CN102314614A
CN102314614A CN201110324600A CN201110324600A CN102314614A CN 102314614 A CN102314614 A CN 102314614A CN 201110324600 A CN201110324600 A CN 201110324600A CN 201110324600 A CN201110324600 A CN 201110324600A CN 102314614 A CN102314614 A CN 102314614A
Authority
CN
China
Prior art keywords
multinuclear
classification
image
function
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110324600A
Other languages
English (en)
Other versions
CN102314614B (zh
Inventor
田永鸿
杨晶晶
黄铁军
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN 201110324600 priority Critical patent/CN102314614B/zh
Publication of CN102314614A publication Critical patent/CN102314614A/zh
Application granted granted Critical
Publication of CN102314614B publication Critical patent/CN102314614B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于类共享多核学习的图像语义分类方法,涉及人工智能领域。预处理阶段,提取图像的底层特征并计算多核矩阵;建模阶段,构建一个类共享的多核分类器模型;参数学习阶段,在统一的框架内对多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重进行优化;图像分类阶段,对待分类的样本,利用学习好的分类器进行图像分类。本发明一方面通过共享一组基础多核函数权重挖掘各个类别在多核函数空间中共有的隐含知识,另一方面对不同类别具有类别相关的多核函数权重,以考虑各个类别在多核函数空间的个性。根据训练数据的充分程度,提供了多核函数组合在类别间相互独立、部分共享或者完全共享的多核分类方法。

Description

一种基于类共享多核学习的图像语义分类方法
技术领域
本发明涉及一种图像分类和物体识别方法,特别是关于一种基于类共享多核学习的图像语义分类方法,属于人工智能领域,具体属于图像理解技术领域。
背景技术
随着互联网技术和信息采集技术的快速发展,数字化的信息资源呈现爆炸式的增长趋势。面对海量的图像数据,人们期望准确快捷地搜索到自己需要的信息,而目前广泛应用的基于文本的图像搜索技术并不适用于大量无标签和无文本信息的图像数据。因此,机器自动识别图像语义信息成为当前多媒体分析与检索领域最迫切的需求。本发明的背景技术为图像语义分类问题。
随着机器学习方法尤其是核方法的不断发展,目前基于核函数的判别方法在图像语义分类领域取得了显著的进展。利用Kernel trick,可以设计并使用不同的核函数度量样本在不同特征空间的相似性;同时,利用核函数将样本从显式的特征空间映射到隐式的核函数空间,可以避免构建显式的特征表达以及高维特征空间的维数灾难问题;而且,借助多核函数组合的方式,多核学习方法(multiple kernel learning,MKL)可以挖掘图像类别在多核函数空间中的分布模式,在统一的框架下同时优化多核函数的核函数权重及对应的判别函数,具有较强的判别能力。
而对于多个类别的图像语义分类问题(如图1所示),目前基于核函数的学习方法一般将其分解为若干个独立的二值分类问题,并针对单一图像语义类别(简称为图像类别)的二值分类问题挖掘不同特征或者核函数对识别的重要性。虽然这种策略充分考虑了图像类别在特征或者核函数方面的个性,但却忽略了类别间在各种底层特征上共有的潜在信息。当训练数据集中对应该图像类别的图像数目并不充分时,独立地训练各个图像类别的分类器将难以准确地获得各底层特征或核函数对识别该类别的贡献,导致图像语义分类性能受到影响。事实上,相同领域或者背景下,不同类别的图像可能具有相类似的外观表现模式。如图1中,颜色和形状特征对于sunset(落日)、blue-flower(蓝色花)以及airplane(飞机)三种图像类别均具有较强的辨识力。
另一方面,也有工作尝试利用基于核函数的多标签学习方法实现多类图像语义分类。多标签学习方法一般在不同类别之间采用全局统一的特征表达和核函数。虽然这种策略有效地挖掘了不同类别在特征或者核函数方面的共性,却忽略了单一类别在特征或者核函数空间中的个性;同时,这些多标签学习方法通过在校验集上对核函数形式及参数进行优化,未能利用MKL方法在统一的框架下获得最优的判别函数及多核函数组合的优点,其识别性能不甚理想。
在申请号为00808062.3、名称为“使用多个支持向量机从多个数据组中提升知识发现”中国专利申请中,提出在多个数据组中采用多个支持向量机的分类方法。该方法强调多个基于单个核函数的支持向量机的使用,需要首先分别在多个数据组中依次训练多个支持向量机,再用训练好的多个支持向量机测试其对应数据组的测试数据,比较其多个支持向量机的测试输出以便决定哪一个测试输出表示一个最佳解。
本发明与该方法的不同点:在本发明中,不是对多个基于单核的支持向量机分别进行训练及测试比较最优解,而是将多个核函数引入类共享的多核分类器中,在统一的框架下对多个图像类别的多核二值分类器进行训练,不仅能同时训练多个图像类别,而且能针对每个图像类别学习分类器参数及判别能力最优的多核组合参数,提高图像语义分类准确率,同时提高训练效率。
在专利申请号为200710177097.3、名称为“一种多核支持向量机分类方法”的中国专利申请中,提出通过多个核函数来提高支持向量机处理复杂数据的能力。在授权号为ZL200910077364.9、名称为“一种可伸缩的自适应多核分类方法”中国专利中,提出了簇相关的多核分类方法,用以解决类别繁多且特征表现复杂的图像分类问题。以上两个专利均采用了独立训练的策略对各类别的分类模型进行参数学习,其多核函数权值在类别间互不相关。
本发明与它们的不同点:在本发明中,其多核函数权重在类别间共享一组基础多核函数权重,并同时对每个类别赋予类别相关的多核函数权重,其类别相关的多核函数权重与基础多核函数的差值代表每个类别在多核空间的个性化信息。基础多核函数权重及类别相关的多核函数权重均在统一的框架下进行训练,以克服类别间独立的多核函数权重忽略类别间各底层特征/核函数在多核函数空间的共性的问题。借助于类别间的知识共享,能更充分地利用不同类别的样本对于图像语义分类的贡献。
发明内容
本发明的目的在于提供一种基于类共享多核学习的图像语义分类方法。
本发明要解决的技术问题是:面对多个类别的图像语义分类问题,如何在学习图像类别在多核函数空间个性的同时,挖掘多个类别在多核函数空间的共性,以充分利用所有训练样本对识别图像类别的贡献,削弱训练样本不足带来的不利影响,提高分类准确率。
为了实现上述发明目的,本发明提供了一种基于类共享多核学习的图像语义分类方法,其中类共享是指过在图像类别间共享一组基础多核函数权重,以挖掘各个图像类别在多核函数空间中共有的隐含知识。
一种基于类共享多核学习的图像语义分类方法,在图像分类中可同时训练针对多个图像语义类别的分类函数,该分类函数中所有类别共享一个基础多核函数权重,并为每个类别赋予类别相关的多核函数权重,从而构建类共享的多核分类器模型,在此基础上利用所述多核分类器模型对待分类的图像进行分类。
本发明包括以下步骤:
1)预处理阶段,提取图像的底层特征并计算多核矩阵;
2)建模阶段,构建一个类共享的多核分类器模型;
3)参数学习阶段,在统一的框架内对多个类别的分类器参数、基础多核函数权重、类别相关的多核函数权重进行优化;
4)图像分类阶段,对待分类的样本,利用学习好的分类器进行图像分类。
所述预处理阶段包括两个步骤:图像底层特征描述及样本间多核函数计算。
11)首先对训练数据和测试数据进行搜集和划分,构建不同局部特征的视觉关键词词典;然后提取图像的不同类型的底层特征,包含且不限于SIFT(尺度不变特征变换)、Dense-Color-SIFT(DCSIFT,基于颜色的密集SIFT特征)、Dense-SIFT(DSIFT,密集SIFT特征)、Self-similarity(SS,自相似度)和Pyramid histogram of orientated gradients(PHOG,方向梯度的金字塔直方图)特征,从不同侧面和属性对图像内容进行描述;最后,采用“Bag-of-Words”表达模型,将不同的局部特征描述为相应的视觉关键词,其目的在于将图像的视觉内容由像素级的信息转化为高度概括的且机器可理解和使用的离散表达方式。
12)根据不同类型的底层特征对应的视觉关键词,通过不同的核函数,计算图像间的底层特征在对应的核函数空间的相似性,其目的在于将图像从原始的特征空间映射到多核函数空间。
本发明中可采用多种核函数作为基本核函数,包含且不限于通用的核函数,例如高斯核函数(Gaussian kernel、)Sigmoid核函数(Sigmoidkernel)、多项式核函数(polynomial kernel)等;或者计算机视觉领域知识相关的核函数,例如金字塔核函数(Pyramid Matching Kernel,PMK)、空间金字塔核函数(Spatial Pyramid Kernel,SPK)、近邻分布核函数(Proximity Distribution Kernel,PDK)、pyramid histogramof orientated gradients(PHOG)核函数等。不同的核函数还可以选择不同的参数,例如近邻分布核函数中近邻参数k。
所述建模阶段为同时学习多个图像类别对应的多核判别函数。其中多核函数权重包含所有类别都共享的一组基础多核函数权重及各自图像类别的类别相关的多核函数权重。在统一的学习框架下,学习多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重。当所有类别的基础多核函数权重为0时,所述类共享的多核分类器模型等价于传统的类别间独立训练的多核分类器模型;当所有类别的类别相关的多核函数权重等于基础多核函数权重时,所述类共享的多核分类器模型等同于所有类别共享一个多核分类器模型。
所述参数学习阶段将所有类别的分类器参数、基础多核函数权重及类别相关的多核函数权重放在统一的框架中,通过求解最大最小的鞍点问题来进行优化,从而得到类共享的多核判别函数。
所述求解最大最小的鞍点问题包括如下步骤:
31)给定基础多核函数权重及类别相关的多核函数权重,用已有的支持向量机求解方法学习分类器参数;
32)给定分类器参数,用半无限线性规划来学习基础多核函数权重及类别相关的多核函数权重;
33)迭代执行31)步骤和32)步骤,直至满足迭代的终止条件。
所述参数学习阶段的迭代的终止条件包括且不限于连续两次迭代参数的变化阈值、迭代次数上限。
所述图像分类阶段包括如下步骤:
41)提取测试数据的底层特征并计算测试样本与训练样本间的多核函数相似性。
42)计算待分类数据对所有类别对应的多核判别函数的响应值,选出响应值中的最大值所对应的类别为该待分类数据所属的图像类别。
本发明的优点包括:
1)对于训练样本不足的图像语义分类问题,利用多核函数权重在不同类别间的知识共享,充分挖掘了各个类别在多核函数空间共有的隐含知识,有助于弥补训练样本不足的缺陷,具有更好的识别能力。
2)该发明可根据训练样本的充分程度,在统一的框架下提供图像类别间相互独立、部分共享或者完全共享的多核分类方法
3)在统一的学习框架下优化分类器参数、基础多核函数权重及类别相关的多核函数权重。
本发明的有益效果:利用本发明所提供的类共享的多核分类方法,面对多个图像类别的识别问题,能同时学习多个类别的分类模型,并能削弱训练数据不充分带来的不利影响,具有较强的图像类别识别性能及泛化能力。
附图说明
图1是本发明所提到的多类图像语义分类问题示意图;
图2是按照本发明的一个实施方式的工作流程图;
图3是按照本发明的一个实施方式的类共享的多核函数组合示意图;
图4是按照本发明的一个实施方式的类共享的多核判别函数的参数学习流程图;
图5是应用本发明所述分类方法到Scene15数据集上的识别性能趋势图。
具体实施方式
下面结合附图和具体实施例对本发明进一步说明。
图2是按照本发明的一个实施方式的工作流程图。利用本发明解决多个类别的图像语义分类问题,以Scene15图像数据集为例,Scene15数据集包含15类自然场景类别,例如bedroom(卧室类)、kitchen(厨房类)、forest(森林类)、mountain(高山类)和coast(海滨类)等。每类包含200到400幅的正例样本,从中随机筛选出100幅添加到训练数据集,剩余的图像作为测试数据使用。
步骤1、预处理阶段
采用局部特征提取图像的局部内容,其中包括基于颜色和灰度图的Dense-Color-SIFT(DCSIFT)和Dense-SIFT(DSIFT)。两种局部特征均采用“Bag-of-Words”表达模型,并利用k-Means聚类算法分别构建视觉关键词辞典。相应地,图像表示为视觉关键词的集合。同时,还采用了Self-similarity(SS)和Pyramid histogram of orientated gradients(PHOG)两种特征来刻画图像中局部和全局的形状特征。
在核函数方面,采用了基于“Bag-of-Words”表达模型的两种核函数Spatial Pyramid Kernel(SPK)和Proximity Distribution Kernel(PDK)。分别计算训练集中所有样本对的底层特征对应的核函数值,构建成多核矩阵。
步骤2、建模阶段
建模阶段的目的是构建一个类共享的多核分类器模型。图3是按照本发明的一个实施方式的类共享的多核函数组合示意图。
在本实施中,相关数学符号的定义如下:
L为图像类别数,为自然数;
M为核函数的个数,为自然数;
N为训练样本的个数,为自然数;
xi(或xj)为N个训练样本中的第i个(或第j个)样本,
Figure BDA0000101371970000081
(或
Figure BDA0000101371970000082
)对应于第i个(或第j个)样本的类标签;
Km(xi,xj)为第m个核函数,用于度量两个样本xi和xj之间相似性;
T表示L个图像类别的多核函数权重个性的阈值;
Figure BDA0000101371970000083
为类别l对应的类别相关的多核函数权重;
Figure BDA0000101371970000084
Figure BDA0000101371970000085
中包含的一组基础多核函数权重;
Figure BDA0000101371970000091
为第i个支持向量对第l类时的权重,C是其取值范围的上界;
α = { α i l } l = 1 . . . L , i = 1 . . . N , β = { β i l } l = 1 . . . L , i = 1 . . . N , 为对应的参数向量;
参数λ用于调节L个物体类别在多核函数权重的共享程度;
bl为第l类对应的常数偏置项;
fl(x)为图像类别l的多核判别函数,fl(x)∈{+1,-1}。
某些只在某个公式中使用的符号,将在公式周围进行说明。
如图3所示,类别l对应的类别相关的多核函数权重
Figure BDA0000101371970000094
中包含了一组基础多核函数权重
Figure BDA0000101371970000095
该基础多核函数权重存在于数据集中每一个图像类别对应的多核函数权重之中,而且满足:
Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , Σ m = 1 M β m l = 1 - - - ( 1 )
从理论意义上解释,基础多核函数权重
Figure BDA0000101371970000097
对应于L个图像类别在M个核函数空间中的共性;而类别特定的多核函数权重则对应于第m个核函数在图像类别l的个性,并受到阈值T的限制;类别相关的多核函数权重
Figure BDA0000101371970000099
包含基础多核函数权重及类别特定的多核函数权重,对应于第m个核函数对识别图像类别l的贡献。类共享的多核分类方法的目标是挖掘L个图像类别在多核函数空间的共性的同时,学习这些图像类别在多核函数空间的分布模式的个性,并最终得到每个图像类别在多核函数空间的分布情况。
进一步,将公式(1)中的约束添加到传统的多核分类方法的优化问题,可以得到类共享的多核分类方法的对偶优化问题:
max ( Σ l = 1 L max β min α J l ) + max λ · Σ l = 1 L Σ m = 1 M ( β m 0 - β m l ) , where
J l = 1 2 Σ i = 1 N Σ j = 1 N α i l α j l y i l y i l ( Σ m = 1 M β m l K m ( x i , x j ) ) - Σ i = 1 N α i l , - - - ( 2 )
s . t . Σ i = 1 N α i l y i l = 0 , 0 ≤ α i l ≤ C ∀ i ,
Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , Σ m = 1 M β m l = 1
公式(2)的第一项对应于传统的多核多标签学习问题,而第二项则对应于多核函数权重的个性化值最小化问题。约束项中的参数T为控制多核函数权重个性化值变化范围的参数。参数λ用于调节L个物体类别在多核函数权重的共享程度,λ越大,共享程度越大。
步骤3、参数学习阶段
通过参数联合学习的方式对分类器参数
Figure BDA0000101371970000106
基础多核函数权重
Figure BDA0000101371970000107
及类别相关的多核函数权重
Figure BDA0000101371970000108
进行优化,按照本发明的一个具体实施方式,将此参数学习转化为最大最小的鞍点问题,包括优化分类器参数、基础多核函数权重、类别相关的多核函数权重、最后得到给定类别的判决函数。其优化过程如下:
1)优化分类器参数、基础多核函数权重、类别相关的多核函数权重:
a)给定基础多核函数权重、类别相关的多核函数权重的前提下,优化多个物体类别对应的判别函数参数等价于优化:
min α l Σ l J l , where
J l = 1 2 Σ i = 1 N Σ j = 1 N α i l α j l y i l y i l ( Σ m = 1 M β m l K m ( x i , x j ) ) - Σ i = 1 N α i l , - - - ( 2 - 1 )
s . t . Σ i = 1 N α i l y i l = 0 , 0 ≤ α i l ≤ C ∀ i ,
其中,第m个核函数Km(xi,xj)用于度量两个样本xi和xj之间相似性.
在此公式中,最小化目标函数
Figure BDA0000101371970000111
可以进一步分解为L个独立的SVM优化问题,而
Figure BDA0000101371970000112
是典型的二次优化问题(Quadric Programming),并且等价于给定多核函数权重的前提下的SVM对偶优化问题。因此,可以利用已有的SVM算法分别优化这L个物体类别对应的SVM判别函数参数 α = { α i l } l = 1 . . . N , i = 1 . . . L .
b)给定分类器参数,优化基础多核函数权重、类别相关的多核函数权重等价于:
max β l ( J l ( β ) + λ · Σ m = 1 M ( β m 0 - β m l ) ) (3)
= max β l ( Σ m = 1 M β m l · S m l ( α ) + λ · β m 0 - Σ i = 1 N α i l ) ,
其中 S m l ( α ) = 1 2 Σ i = 1 N Σ j = 1 N α i l α j l y i l y j l K m ( x i , x j ) - λ , α = { α i l } l = 1 . . . L , i = 1 . . . N , β = { β i l } l = 1 . . . L , i = 1 . . . N ,
分别为两个参数向量。
不失一般性,公式(3)的优化问题等价于
max Σ l = 1 L θ l
Figure BDA00001013719700001110
Figure BDA00001013719700001111
s . t . Σ m = 1 M β m l · S m l ( α ) + λ · β m 0 - Σ i = 1 N α i l ≥ θ l , - - - ( 4 )
Σ m = 1 M β m l = 1 , Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , ∀ i , ∀ m , ∀ l
其中表示1维实数域空间,而
Figure BDA00001013719700001118
表示由M×L维的实数域空间,θl为第l类对应的对偶向量;参数λ用于调节L个物体类别在多核函数权重的共享程度;
Figure BDA00001013719700001119
的定义参见公式(3)。
在公式(4)的优化问题中,参数β满足线性约束。但与线性规划问题有所不同的是,在迭代过程中已获得的参数α,均需要满足公式(4)中的不等式约束。因此这是个半无限的线性规划问题(Semi-infinite linear program,SILP)。
按照本发明的一个具体实施方式,设置迭代的终止条件可采用且不限于:连续两次迭代参数的变化阈值、迭代次数。在迭代满足终止条件后,分类器参数、基础多核函数权重、类别相关的多核函数权重优化完成。最终第l个图像类别的二值分类器的判别函数如下:
f l ( x ) = Σ i = 1 N α i l y i l Σ m = 1 M β m l K m ( x , x i ) + b l - - - ( 5 )
其中第m个核函数Km(x,xi)用于度量待分类样本x和训练样本中的第i个样本xi之间相似性,参数
Figure BDA0000101371970000122
为优化后的分类器参数,和
Figure BDA0000101371970000123
为优化后的类别相关的多核函数权重,bl为常数偏置项,fl(x)∈{±1}对应于待测试的物体类别出现/不出现在测试图像中。
参数联合学习的流程图见图4,参数学习的具体过程如下:
a)初始化类别相关的多核函数权重参数:
设置
Figure BDA0000101371970000124
l=1,...,L,m=1,...,M
b)最小化目标函数优化分类器参数:
利用多核组合形式K用标准的SVM方法求解第l个图像类别的分类器参数
Figure BDA0000101371970000126
c)最大化目标函数优化类别相关的多核函数权重:
求解自适应多核权值β,用半无限线性规划求解如下问题:
max Σ l = 1 L θ l
Figure BDA0000101371970000128
Figure BDA0000101371970000129
s . t . Σ m = 1 M β m l · S m l ( α ) + λ · β m 0 - Σ i = 1 N α i l ≥ θ l , - - - ( 6 )
Σ m = 1 M β m l = 1 , Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , ∀ i , ∀ m , ∀ l
其中, S m l ( α ) = 1 2 Σ i = 1 N Σ j = 1 N α i l α j l y i l y j l K m ( x i , x j ) - λ , 注意在求解自适应多核权值β时,参数α的取值为前一次迭代所获得的值。
d)参数更新:
更新分类器参数及类别相关的多核函数权重。
e)判断其终止条件(迭代次数=30)是否满足:
若满足,结束参数学习步骤,进入(2)计算给定类别的判别函数
若不满足,用优化后的参数更新目标函数,进入(b)继续优化分类器参数。
2)计算给定类别的判别函数:
a)保存最佳的分类器参数α及类别相关的多核函数权重参数β:
α i l * = α i l , β m l * = β m l , for ∀ i , ∀ l , ∀ m - - - ( 7 )
其中
Figure BDA0000101371970000135
为第l类的最佳分类器参数,而
Figure BDA0000101371970000136
则为该类最佳的类别相关的多核函数权重参数。
b)计算判别函数的偏置b:
b l * = y j l - Σ N α i l * y i l Σ M β m l * K m ( x i , x j ) , ∀ j ∈ { j | α j l * > 0 } - - - ( 8 )
其中为第l类的最佳偏置值。
c)对给定类别l的二值分类器的判决函数如下:
f l ( x ) = Σ i = 1 N α i l * y i l Σ m = 1 M β m l * K m ( x , x i ) + b l * - - - ( 9 )
步骤4、图像分类阶段
具体包括如下两部分:
1)测试图像经过预处理模块,表达为轮廓特征以及不同局部特征对应的视觉关键词的组合;在此基础上与分类器中的训练样本做多核函数的计算;
2)计算待分类图像x对步骤3中学习得到的给定图像类别l的判别函数fl(x)的响应。顺序求得所有15个图像类别的判别函数的响应值,选取响应值中的最大值所对应的类别作为该待分类图像所属的图像类别。
图5给出了应用本发明的类共享的多核分类方法在Scene15数据集上的分类结果,横轴是每个类别选取的图像数目,纵轴是平均识别准确率。对比了类共享的多核分类方法的参数λ在不同取值情况下(λ的值越大,表明多核函数权重的共享程度越大)的性能。它们分别是:
1)Class Independent MKL(以下简称MKL):CS-MKL中设为0,即训练多个相互独立的MKL判别函数;
2)CSMKL-1:CS-MKL中设为1,训练多个MKL判别函数,它们部分共享多核函数权重;
3)CSMKL-10:CS-MKL中设为10,训练多个MKL判别函数,它们部分共享多核函数权重;
4)CSMKL-100:CS-MKL中设为100,训练多个MKL判别函数,它们部分共享多核函数权重;
5)CSMKL-Same:CS-MKL中设为10000,训练多个MKL判别函数,它们完全共享多核函数权重。
从实验结果得到以下结论:
1)当每类正例样本数为10和20时,此时CS-MKL-100取得了最高的识别率;CS-MKL-same获得了排名第二的识别率;类别间采用相互独立的多核函数组合的MKL获得了最低的识别率。这说明,当训练数据并不充分时,采用类间相互独立的多核函数组合的方法,并不足以捕捉单一物体类别在多核函数空间的分布模式;相应地,通过不同类别间部分共享多核函数权重,可以充分利用类别间的共性,具有更好的识别性能。
2)随着正例训练样本增加,更关注类别在多核空间中个性的方法MKL和CS-MKL-1的识别性能获得了显著提升。当每类正例样本数大于30时,MKL获得了最好的识别结果。这说明,当训练数据足够充分时,类别间采用相互独立的多核函数组合的方法能更有效地挖掘单一物体类别在多核函数空间的分布模式,因此具有更强的判别能力。
上述仅为本发明的较佳实施例,并不用来限定本发明的实施范围。也就是说,任何依照本发明的权利要求范围所做的同等变化与修改,但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形,这对本领域的技术人员来说是显而易见的。因此,这样的变形例也全部包含在本发明的保护范围之内。

Claims (12)

1.一种基于类共享多核学习的图像语义分类方法,其特征在于,在图像分类中同时训练针对多个图像语义类别的分类函数,该分类函数中所有类别共享一个基础多核函数权重,并为每个类别赋予类别相关的多核函数权重,从而构建类共享的多核分类器模型,最后利用所述多核分类器模型对待分类的图像进行分类。
2.根据权利要求1所述的基于类共享多核学习的图像语义分类方法,其特征在于构建类共享的多核分类器模型,当所有类别的基础多核函数权重为0时,所述类共享的多核分类器模型等价于类别间独立训练的多核分类器模型;当所有类别的类别相关的多核函数权重等于基础多核函数权重时,所述类共享的多核分类器模型等同于所有类别共享一个多核分类器模型。
3.根据权利要求1或2所述的基于类共享多核学习的图像语义分类方法,其特征在于利用所述多核分类器模型对待分类的样本进行分类包括以下步骤:
1)预处理阶段,提取图像的底层特征并计算多核矩阵;
2)建模阶段,构建一个类共享的多核分类器模型;
3)参数学习阶段,在统一的框架内对多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重进行优化,从而得到多核分类器模型;
4)图像分类阶段,对待分类的样本,利用学习好的多核分类器模型进行图像分类。
4.根据权利要求3所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述预处理阶段所使用的底层特征包含SIFT、Dense-Color-SIFT(DCSIFT)、Dense-SIFT(DSIFT)、Self-similarity(SS)和Pyramid histogram of orientated gradients(PHOG),并采用“Bag-of-Words”表达模型,将不同的局部特征描述为相应的视觉关键词。
5.根据权利要求3所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述预处理阶段计算训练集中所有样本对的多个核函数值,所使用的基本核函数包含通用的高斯核函数、多项式核函数、Sigmoid核函数、金字塔核函数、空间金字塔核函数、近邻分布核函数、或者PHOG核函数。
6.根据权利要求3所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述参数学习阶段将所有类别的多核分类器参数、基础多核函数权重、类别相关的多核函数权重统一进行优化,通过求解最大或最小的鞍点问题来进行学习,从而得到多核分类器模型的多核判别函数。
7.根据权利要求6所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述参数学习阶段中求解最大或最小的鞍点问题包括如下步骤:
31)给定类别相关的多核函数权重参数,用支持向量机求解方法来学习分类器参数;
32)给定分类器参数,用半无限线性规划来学习基础多核函数权重及类别相关的多核函数权重;
33)迭代执行31)步骤和32)步骤,直至满足迭代的终止条件。
8.根据权利要求7所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述迭代的终止条件包括连续两次迭代参数的变化阈值或迭代次数上限。
9.根据权利要求3所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述图像分类阶段包括如下步骤:
41)测试图像经过预处理模块,表达为轮廓特征以及不同局部特征对应的视觉关键词的组合;在此基础上与分类器中的训练样本做基础多核函数的计算;
42)计算待分类图像对所有类别对应的判别函数的响应值,选出响应值中的最大值所对应的类别作为该待分类图像所属的图像类别。
10.根据权利要求3所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述建模阶段同时学习多个图像类别对应的多核判别函数;其中多核函数权重包含所有类别都共享的一组基础多核函数权重及各自图像类别的类别相关的多核函数权重;在统一的学习框架下,学习多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重。
11.根据权利要求10所述的基于类共享多核学习的图像语义分类方法,其特征在于,所述建模阶段的构建一个类共享的多核分类器模型为:
f l ( x ) = Σ i = 1 N α i l y i l Σ m = 1 M β m l K m ( x , x i ) + b l
其中,类别l对应的类别相关的多核函数权重
Figure FDA0000101371960000032
中包含了一组基础多核函数权重
Figure FDA0000101371960000033
该基础多核函数权重存在于数据集中每一个图像类别对应的多核函数权重之中,而且满足:
Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , Σ m = 1 M β m l = 1 - - - ( 1 )
基础多核函数权重
Figure FDA0000101371960000041
对应于L个图像类别在M个核函数空间中的共性;而类别特定的多核函数权重则对应于第m个核函数在图像类别l的个性,并受到阈值T的限制;类别相关的多核函数权重
Figure FDA0000101371960000043
包含基础多核函数权重及类别特定的多核函数权重,对应于第m个核函数对识别图像类别l的贡献;类共享的多核分类方法的目标是挖掘L个图像类别在多核函数空间的共性的同时,学习这些图像类别在多核函数空间的分布模式的个性,并最终得到每个图像类别在多核函数空间的分布情况;
L为图像类别数,为自然数;
M为核函数的个数,为自然数;
N为训练样本的个数,为自然数;
T表示L个图像类别的多核函数权重个性的阈值;
xi为N个训练样本中的第i个样本,x表示待分类样本;
Figure FDA0000101371960000044
对应于第i个样本的类标签;
Figure FDA0000101371960000045
为类别l对应的类别相关的多核函数权重;
Figure FDA0000101371960000046
Figure FDA0000101371960000047
中包含的一组基础多核函数权重;
Km(x,xi)为第m个核函数,用于度量待分类样本x和训练样本中的第i个样本xi之间相似性;
Figure FDA0000101371960000048
为第i个支持向量对第l类时的权重;
bl为第l类对应的常数偏置项;
fl(x)为图像类别l的多核判别函数,fl(x)∈{+1,-1}。
12.根据权利要求11所述的基于类共享多核学习的图像语义分类方法,其特征在于,将公式(1)中的约束添加到传统的多核分类方法的优化问题,可以得到类共享的多核分类方法的对偶优化问题:
公式(2)
max ( Σ l = 1 L max β min α J l ) + max λ · Σ l = 1 L Σ m = 1 M ( β m 0 - β m l ) , where
J l = 1 2 Σ i = 1 N Σ j = 1 N α i l α j l y i l y i l ( Σ m = 1 M β m l K m ( x i , x j ) ) - Σ i = 1 N α i l ,
s . t . Σ i = 1 N α i l y i l = 0 , 0 ≤ α i l ≤ C ∀ i ,
Σ l = 1 L Σ m = 1 M ( β m l - β m 0 ) ≤ T , β m l ≥ β m 0 ≥ 0 , Σ m = 1 M β m l = 1
xi(或xj)为N个训练样本中的第i个(或第j个)样本的类标签;
Figure FDA0000101371960000056
(或)对应于第i个(或第j个)样本的类标签;
Km(xi,xj)为第m个核函数,用于度量两个样本xi和xj之间相似性;
Figure FDA0000101371960000058
为第i个支持向量对第l类时的权重,C是其取值范围的上界;
α = { α i l } l = 1 . . . L , i = 1 . . . N , β = { β i l } l = 1 . . . L , i = 1 . . . N , 为对应的参数向量;
参数λ用于调节L个物体类别在多核函数权重的共享程度。
公式(2)的第一项对应于传统的多核多标签学习问题,而第二项则对应于多核函数权重的个性化值最小化问题;约束项中的参数T为控制多核函数权重个性化值变化范围的参数;参数λ用于调节L个物体类别在多核函数权重的共享程度,λ越大,共享程度越大。
CN 201110324600 2011-10-24 2011-10-24 一种基于类共享多核学习的图像语义分类方法 Expired - Fee Related CN102314614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110324600 CN102314614B (zh) 2011-10-24 2011-10-24 一种基于类共享多核学习的图像语义分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110324600 CN102314614B (zh) 2011-10-24 2011-10-24 一种基于类共享多核学习的图像语义分类方法

Publications (2)

Publication Number Publication Date
CN102314614A true CN102314614A (zh) 2012-01-11
CN102314614B CN102314614B (zh) 2013-06-05

Family

ID=45427761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110324600 Expired - Fee Related CN102314614B (zh) 2011-10-24 2011-10-24 一种基于类共享多核学习的图像语义分类方法

Country Status (1)

Country Link
CN (1) CN102314614B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324940A (zh) * 2013-05-02 2013-09-25 广东工业大学 基于多示例多标签学习的皮肤病理图片特征识别方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN104021261A (zh) * 2013-02-28 2014-09-03 国际商业机器公司 医疗领域数据处理方法和装置
CN104834912A (zh) * 2015-05-14 2015-08-12 北京邮电大学 一种基于图像信息检测的天气识别方法及装置
CN105359186A (zh) * 2013-06-04 2016-02-24 赫尔实验室有限公司 用于检测场景中的感兴趣的对象的系统
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN106156798A (zh) * 2016-07-25 2016-11-23 河海大学 基于环形空间金字塔和多核学习的场景图像分类方法
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106203487A (zh) * 2016-06-30 2016-12-07 北京航空航天大学 一种基于多核学习分类器融合的图像分类方法及装置
CN106250914A (zh) * 2016-07-22 2016-12-21 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN106354744A (zh) * 2015-07-16 2017-01-25 三星电子株式会社 用于共享内容信息的方法及其电子设备
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107958270A (zh) * 2017-12-05 2018-04-24 北京小度信息科技有限公司 类别识别方法、装置、电子设备及计算机可读存储介质
CN108280738A (zh) * 2017-12-13 2018-07-13 西安电子科技大学 基于图像和社会化标签的商品推荐方法
CN108416437A (zh) * 2016-04-18 2018-08-17 中国科学院计算技术研究所 用于乘加运算的人工神经网络的处理系统及方法
CN109726730A (zh) * 2017-10-27 2019-05-07 财团法人工业技术研究院 自动光学检测图像分类方法、系统及计算机可读介质
CN111738298A (zh) * 2020-05-27 2020-10-02 哈尔滨工业大学 一种基于深宽可变多核学习的数据分类方法
US11315231B2 (en) 2018-06-08 2022-04-26 Industrial Technology Research Institute Industrial image inspection method and system and computer readable recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111936A1 (ja) * 2004-05-14 2005-11-24 Matsushita Electric Industrial Co., Ltd. パラメタ推定方法、パラメタ推定装置および照合方法
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN101488188A (zh) * 2008-11-10 2009-07-22 西安电子科技大学 基于混合核函数的svm分类器的sar图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111936A1 (ja) * 2004-05-14 2005-11-24 Matsushita Electric Industrial Co., Ltd. パラメタ推定方法、パラメタ推定装置および照合方法
CN101488188A (zh) * 2008-11-10 2009-07-22 西安电子科技大学 基于混合核函数的svm分类器的sar图像分类方法
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021261A (zh) * 2013-02-28 2014-09-03 国际商业机器公司 医疗领域数据处理方法和装置
CN103324940A (zh) * 2013-05-02 2013-09-25 广东工业大学 基于多示例多标签学习的皮肤病理图片特征识别方法
CN105359186A (zh) * 2013-06-04 2016-02-24 赫尔实验室有限公司 用于检测场景中的感兴趣的对象的系统
CN105359186B (zh) * 2013-06-04 2019-06-25 赫尔实验室有限公司 用于检测场景中的感兴趣的对象的系统、方法和存储介质
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN103678681B (zh) * 2013-12-25 2017-03-01 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN104834912A (zh) * 2015-05-14 2015-08-12 北京邮电大学 一种基于图像信息检测的天气识别方法及装置
CN104834912B (zh) * 2015-05-14 2017-12-22 北京邮电大学 一种基于图像信息检测的天气识别方法及装置
CN106354744A (zh) * 2015-07-16 2017-01-25 三星电子株式会社 用于共享内容信息的方法及其电子设备
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN108416437A (zh) * 2016-04-18 2018-08-17 中国科学院计算技术研究所 用于乘加运算的人工神经网络的处理系统及方法
CN107305543B (zh) * 2016-04-22 2021-05-11 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106203483B (zh) * 2016-06-29 2019-06-11 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106203487A (zh) * 2016-06-30 2016-12-07 北京航空航天大学 一种基于多核学习分类器融合的图像分类方法及装置
CN106250914B (zh) * 2016-07-22 2019-07-09 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN106250914A (zh) * 2016-07-22 2016-12-21 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN106156798A (zh) * 2016-07-25 2016-11-23 河海大学 基于环形空间金字塔和多核学习的场景图像分类方法
CN106156798B (zh) * 2016-07-25 2019-10-25 河海大学 基于环形空间金字塔和多核学习的场景图像分类方法
CN109726730A (zh) * 2017-10-27 2019-05-07 财团法人工业技术研究院 自动光学检测图像分类方法、系统及计算机可读介质
CN107958270A (zh) * 2017-12-05 2018-04-24 北京小度信息科技有限公司 类别识别方法、装置、电子设备及计算机可读存储介质
CN107958270B (zh) * 2017-12-05 2020-07-31 北京小度信息科技有限公司 类别识别方法、装置、电子设备及计算机可读存储介质
CN108280738A (zh) * 2017-12-13 2018-07-13 西安电子科技大学 基于图像和社会化标签的商品推荐方法
US11315231B2 (en) 2018-06-08 2022-04-26 Industrial Technology Research Institute Industrial image inspection method and system and computer readable recording medium
CN111738298A (zh) * 2020-05-27 2020-10-02 哈尔滨工业大学 一种基于深宽可变多核学习的数据分类方法
CN111738298B (zh) * 2020-05-27 2023-09-12 哈尔滨工业大学 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Also Published As

Publication number Publication date
CN102314614B (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
Kölsch et al. Real-time document image classification using deep CNN and extreme learning machines
CN108564029B (zh) 基于级联多任务学习深度神经网络的人脸属性识别方法
Cui et al. Fine-grained categorization and dataset bootstrapping using deep metric learning with humans in the loop
CN106779087B (zh) 一种通用机器学习数据分析平台
CN103116762B (zh) 一种基于自调制字典学习的图像分类方法
CN110457982B (zh) 一种基于特征迁移学习的作物病害图像识别方法
CN101482926B (zh) 一种可伸缩的自适应多核分类方法
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN106845510A (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN107330355B (zh) 一种基于正样本平衡约束的深度行人再标识方法
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN107563439A (zh) 一种识别清洗食材图片的模型及识别食材类别的方法
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN104657718A (zh) 一种基于人脸图像特征极限学习机的人脸识别方法
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN103106265A (zh) 相似图像分类方法及系统
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
Zhuang et al. Multi-task learning of cascaded cnn for facial attribute classification
Narang et al. Devanagari ancient character recognition using DCT features with adaptive boosting and bootstrap aggregating

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130605

Termination date: 20201024

CF01 Termination of patent right due to non-payment of annual fee