CN102542285B - 基于谱图分析的图像集合的场景分类方法及装置 - Google Patents
基于谱图分析的图像集合的场景分类方法及装置 Download PDFInfo
- Publication number
- CN102542285B CN102542285B CN201110221407.3A CN201110221407A CN102542285B CN 102542285 B CN102542285 B CN 102542285B CN 201110221407 A CN201110221407 A CN 201110221407A CN 102542285 B CN102542285 B CN 102542285B
- Authority
- CN
- China
- Prior art keywords
- node
- code word
- sift
- membership
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于谱图分析的图像集合的场景分类方法及装置,该方法包括如下步骤:提取图像集合的SIFT特征集合,并得到K个聚类和K个码字;根据任意图像的SIFT特征和K个码字建立有权谱图G=(V,E);确定与所述任意一节点的欧式距离最近的K’个节点;得到所述节点集合V对应的权重矩阵W;根据W获得散度算子对角矩阵D;根据W和D得到拉普拉斯算子矩阵L;对L进行运算以得到任意图像的每一个SIFT特征与K个码字的之间的交互时间,根据交互时间确定隶属度;以及根据隶属度确定码字分配结果,根据分配结果对场景进行分类。本方法通过交互时间确定的隶属度更加精确,避免非线性数据的丢失,进而提高分类结果的准确性。本发明的装置结构简单,易于实现。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于谱图分析的图像集合的场景分类方法及装置。
背景技术
场景分类的目标是得到输入图像的符合人类普遍认知的宏观语义信息,是计算机视觉中的图像理解技术的重要组成内容。它需要建立底层图像视觉特征(如颜色、边缘、纹理等)和高层场景语义概念的联系,得到一些基本的场景类别信息(如森林、城市、海岸、天空、室内等等)。随着数字图像获取技术的不断发展,图像数据库的内容越来越庞大,传统的人工手工标注变得越来越困难,所以利用计算机自动标注符合人类认知的语义信息就成为了研究的焦点。它不仅表示了人们对图像的整体认识,而且也能为图像中的目标识别提供环境,从而提高算法的准确率。
近几年来,在文本识别中的特征包(bag-of-features)的方法被引入到场景分类中,取得了重要的研究成果,并成为了主流技术。现有基于特征包的场景分类方法的缺点在于码字分配中,只利用每个SIFT特征和码字的欧式距离来确定它们之间的隶属度。而它们均为分布是分布在高维(128维)上的数据,直接使用欧式距离会丢失大量的非线性信息,从而降低分类的效果。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种基于谱图分析的图像集合的场景分类方法。该方法通过谱图分析最终确定的隶属度更加精确,避免非线性数据的丢失,进而提高分类结果的准确性。
本发明的另一目的在于提出一种基于谱图分析的图像集合的场景分类装置。
为了实现上述目的,本发明第一方面实施例提出的基于谱图分析的图像集合的场景分类方法,包括以下步骤:A:提取所述图像集合中的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N;B:根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的所述每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N;C:计算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点 的欧式距离最近的K’个节点,其中K’为预定阈值;D:根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N;E:根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D;F:根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L;G:基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度;以及H:根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像中的场景进行分类。
根据本发明实施例的基于谱图分析的图像集合的场景分类方法,通过建立图像的有权谱图,并对有权谱图谱进行分析,然后计算SIFT特征和码字在谱图上基于随机游走模型的交互时间,并根据交互时间确定SIFT特征和码字之间的相似度,接着通过SIFT特征和码字之间的相似度得到SIFT特征关于每个码字的隶属度,该方法充分利用SIFT特征和码字分布在高维空间上的流性特征计算隶属度,从而避免了直接通过SIFT特征和码字之间的欧氏距离计算得到两者之间的隶属度所带来的丢失大量的非线性数据,导致隶属度不准确的发生。进而提高场景分类的准确性。
另外,根据本发明的基于谱图分析的图像集合的场景分类方法还可以具有如下附加的技术特征:
在本发明的一个实施例中,所述步骤A进一步包括:提取所述图像的SIFT特征集合,并根据K-means算法对所述SIFT特征集合进行聚类以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,N为所述SIFT特征集合中SIFT特征的个数,所述K个码字为所述K个聚类对应的K个聚类中心。
在本发明的一个实施例中,所述步骤C进一步包括:C1:计算所述节点集合V中节点Vx与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中x为[1,N1+K]之间的任意整数;C2:对所述节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合;以及C3:在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点。
在本发明的一个实施例中,在所述步骤D中,根据如下公式计算所述权重矩阵W的元素值wij,其中所述公式为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+K-1]的范围内。
在本发明的一个实施例中,所述步骤E计算得到散度算子对角矩阵D的元素值dii的计算公式如下:
在本发明的一个实施例中,所述步骤F中拉普拉斯算子矩阵L为所述权重矩阵W与所述散度算子对角矩阵D做减法运算得到,如下:
L=D-W。
在本发明的一个实施例中,所述步骤G进一步包括:G1:基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi′与所述K个码字中任意一个码字cn′之间的随机游走时间t(vi′,cn′)和t(cn′,vi′),其中,i′为[1,N1]之间的任意整数,n′为[1,K]之间的任意整数;G2:基于所述随机游走时间t(vi′,cn′)和t(cn′,vi′)并根据如下公式计算所述特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,其中所述公式为:
cti′n′=t(vi′,cn′)+t(cn′,vi′),
其中,cti′n′为特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间;G3:根据所述交互时间cti′n′和预设的负指数函数获得所述特征vi′到所述码字cn′的隶属度,其中,所述隶属度通过如下公式进行:
as(vi′,cn′)=exp(-cti′n′),
其中,as(vi′,cn′)为特征vi′到所述码字cn′的隶属度,exp()为预设的负指数函数。
根据本发明的一个实施例,所述步骤H进一步包括:根据所述特征vi′的隶属度 对所述特征vi′进行码字分配以得到码字分配结果;根据所述码字分配结果获得所述任意图像的直方图向量;通过支持向量机对所述直方图向量进行学习,以得到所述每一类场景类别的判断模型;根据所述判断模型和所述直方图向量确定场景分类结果。
本发明第二方面实施例提出的基于谱图分析的图像集合的场景分类装置,包括聚类模块,用于提取所述图像集合的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N;谱图建立模块,用于根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的所述每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N;欧氏距离计算模块,用于计 算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点的欧式距离最近的K’个节点,其中K’为预定阈值;权重矩阵构造模块,用于根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N;散度算子对角矩阵构造模块,用于根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D;拉普拉斯算子矩阵构造模块,用于根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L;隶属度获取模块,用于基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度;以及分类模块,用于根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像的场景进行分类。
根据本发明实施例的基于谱图分析的图像集合的场景分类装置,通过建立图像的有权谱图,并对有权谱图谱进行分析,然后计算SIFT特征和码字在谱图上基于随机游走模型的交互时间,并根据交互时间确定SIFT特征和码字之间的相似度,接着通过SIFT特征和码字之间的相似度得到SIFT特征关于每个码字的隶属度,该方法充分利用SIFT特征和码字分布在高维空间上的流性特征计算隶属度,从而避免了直接通过SIFT特征和码字之间的欧氏距离计算得到两者之间的隶属度所带来的丢失大量的非线性数据,导致隶属度不准确的发生。进而提高场景分类的准确性。另外,该装置结构简单,易于实现。
另外,根据本发明的基于谱图分析的图像集合的场景分类装置还可以具有如下附加的技术特征:
在本发明的一个实施例中,所述聚类模块用于提取所述图像的SIFT特征集合,并根据K-means算法对所述SIFT特征集合进行聚类以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,所述K个码字为所述K个聚类对应的K个聚类中心。
在本发明的一个实施例中,所述欧氏距离计算模块首先计算所述节点集合V中节点Vx与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中x为[1,N1+K]之间的任意整数,并对所述节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合,然后在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点。
在本发明的一个实施例中,权重矩阵构造模块根据如下公式计算所述权重矩阵W的元素值wij,其中所述公式为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+k-1]的范围 内。
在本发明的一个实施例中,所述散度算子对角矩阵构造模块通过如下公式计算得到散度算子对角矩阵D的元素值dii,所述公式为:
在本发明的一个实施例中,所述拉普拉斯算子矩阵构造模块通过公式L=D-W计算得到所述拉普拉斯算子矩阵L。
在本发明的一个实施例中,所述隶属度获取模块首先通过基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi′与所述K个码字中任意一个码字cn′之间的随机游走时间t(vi′,cn′)和t(cn′,vi′),其中,i′为[1,N1]之间的任意整数,n′为[1,K]之间的任意整数,接着基于所述随机游走时间t(vi′,cn′)和t(cn′,vi′)并根据如下公式计算所述特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,其中所述公式为:
cti′n′=t(vi′,cn′)+t(cn′,vi′),
其中,cti′n′为特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,
最后根据所述交互时间cti′n′和预设的负指数函数获得所述特征vi′到所述码字cn′的隶属度,其中,所述隶属度通过如下公式进行:
as(vi′,cn′)=exp(-cti′n′),
其中,as(vi′,cn′)为特征vi′到所述码字cn′的隶属度,exp()为预设的负指数函数。
根据本发明的一个实施例,所述分类模块首先根据所述特征vi′的隶属度 对所述特征vi′进行码字分配以得到码字分配结果,接着根据所述码字分配结果获得所述任意图像的直方图向量,然后通过支持向量机对所述直方图向量进行学习,以得到每一类场景类别的判断模型,最后根据所述判断模型和所述直方图向量确定场景分类结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的基于谱图分析的图像集合的场景分类方法的流程图;
图2为本发明实施例的方法与其它传统方法的比较图;以及
图3为本发明实施例的基于谱图分析的图像集合的场景分类装置。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图1至2首先描述根据本发明实施例的基于谱图分析的图像场景分类方法。
如图1所示,为本发明实施例的基于谱图分析的图像集合的场景分类方法的流程图。根据本发明实施例的基于谱图分析的图像集合的场景分类方法,包括如下步骤:
步骤S101,提取所述图像集合的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N。本发明实施例的SIFT特征集合的SIFT特征可以为图像集合上每个图像每隔预定数目像素点的像素点通过SIFT特征提取方法确定的SIFT特征集合。例如,可以每隔5个像素点采集一个像素点,并对该像素点通过SIFT特征提取方法提取该像素点的SIFT特征。
在本发明的一些示例中,通过K-means算法对所述SIFT特征集合进行聚类,以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,所述K个码字为所述K个聚类对应的K个聚类中心。每一个聚类的聚类中心为一个码字。
步骤S102,根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的所述每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N。可知,节点集合V的个数为SIFT特征的个数N1与K个码字的和(N1+K)。
步骤S103,计算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点的欧式距离最近的K’个节点,其中K’为预定阈值。欧式距离越小,表示该欧氏距离对应的两个节点越邻近,欧式距离表示两个节点在任意维数空间上的真实距离。这样,可以保证任意一节点与之最邻近的K’个节点的精度。另外,在本发明的一个实施例中,例如K为10。
步骤S104,根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N。在上述步骤中已经得知节点集合V的节点个数为N1+K个,因此节点集合V对应的权重矩阵W为行数和列数相同,均为(N1+K)行的矩阵。然后根据每一个节点和该节点对应的K’个节点(欧氏距离最近的K’个节点)这种关系确定权重矩阵中相应行 列位置的元素值。
在本发明的一个具体事例中,例如采用如下公式1计算所述权重矩阵W的元素值wij,其中所述公式1为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+K-1]的范围内。在节点集合V中,如果第i个节点与之欧式距离最近的K’个节点中包括第j个节点,则可以理解为第i个节点与第j个节点为近邻关系,因此,在式1中,如果i和j为近邻关系,同样表示第i个节点与第j个节点为近邻关系,这样,可以将权重矩阵W中对应的矩阵元素wij赋值为1,否则赋值为0。
步骤S105,根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D。
在本发明的一些实施例中,可以通过公式2获得散度算子对角矩阵D的元素值dii,公式2如下:
通过公式可知,散度算子对角矩阵D的每个元素值为权重矩阵W中对应行的元素值之和。
步骤S106,根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L(Laplace Operator Matrix)。
作为一个具体的示例,采用公式3得到拉普拉斯算子矩阵L,式3如下:
L=D-W 式3,
通过式3对散度算子对角矩阵D与权重矩阵W做减法得到拉普拉斯算子矩阵L。
步骤S107,基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度。在本发明的实施例中,如果交互时间越短,解释为SIFT特征和码字之间的相似度越高,反之则相反,根据以上理解,可以通过交互时间确定相应的SIFT特征和码字之间的隶属度。这样,通过交互时间确定的隶属度更为准确,避免由于两者之间的非线性,而直接通过欧氏距离确定两者之间隶属度的不准确。
步骤S108,根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像的场景进行分类。
根据本发明实施例的基于谱图分析的图像集合的场景分类方法,通过建立图像的有权谱图,并对有权谱图谱进行分析,然后计算SIFT特征和码字在谱图上基于随机游走模型的交互时间,并根据交互时间确定SIFT特征和码字之间的相似度,接着通过SIFT特征和码 字之间的相似度得到SIFT特征关于每个码字的隶属度,该方法充分利用SIFT特征和码字分布在高维空间上的流性特征计算隶属度,从而避免了直接通过SIFT特征和码字之间的欧氏距离计算得到两者之间的隶属度所带来的丢失大量的非线性数据,导致隶属度不准确的发生。进而提高场景分类的准确性。
在本发明的一个实施例中,步骤S103的具体实现过程如下:
S31,计算所述节点集合V中节点Vx与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中x为[1,N1+K]之间的任意整数,通过迭代执行该步骤,可以最终得到节点集合V中全部节点中任意两个节点之间的欧氏距离。
S32,对所述节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合,对于任意一个节点Vi,通过上述步骤可以确定节点集合V中剩余节点与该节点Vi的全部欧氏距离,然后对全部欧氏距离进行从小到大的排序。
S33,在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点(近邻节点),每个欧氏距离分别表示节点Vi与剩余其它节点的欧氏距离,这样,通过每一个欧氏距离可以确定节点Vi与之对应的一个节点,因此,可以得到与节点Vi欧氏距离最小的K’个节点(邻近节点)。
步骤S107的具体实现过程如下:
S71,基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi′与所述K个码字中任意一个码字cn′之间的随机游走时间t(vi′,cn′)和t(cn′,vi′),其中,i′为[1,N1]之间的任意整数,n′为[1,K]之间的任意整数;
S72,基于所述随机游走时间t(vi′,cn′)和t(cn′,vi′)并根据公式4计算所述特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,其中所述式4为:
cti′n′=t(vi′,cn′)+t(cn′,vi′) 式4,
其中,cti′n′为特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,cti′n′衡量了特征vi′和码字cn′之间在图像上的相似程,其交互时间越短则表明特征vi′和码字cn′之间相似程度越大,反之说明相似程度越小。
S73,根据所述交互时间cti′n′和预设的负指数函数获得所述特征vi′到所述码字cn′的隶属度,其中,所述隶属度通过如下公式5进行:
as(vi′,cn′)=exp(-cti′n′) 式5,
其中,as(vi′,cn′)为特征vi′到所述码字cn′的隶属度,exp()为预设的负指数函数。由上可知,交互时间和相似度成反比,因此,为了不失一般性,在本发明实施例中选择简单的负指数函数exp()作为交互时间的惩罚函数,计算每一个SIFT特征到码字的隶属度。
步骤S108的具体实现如下:
S82,根据所述码字分配结果获得所述任意图像的直方图向量,如采用最大汇集(Maximal Pooling)的方法,得到每幅图的直方图向量hisn′,其最大汇集方法如式7:
S83,通过支持向量机对所述直方图向量进行学习,以得到每一类场景类别的判断模型。也就是说,利用支持向量机算法对训练图像的直方图向量进行学习,得到每个场景类别的判断模型。
S84,根据所述判断模型和所述直方图向量确定场景分类结果。具体地,输入图像的直方图向量,利用上述步骤S83中得到的判断模型进行投票,获得票数最多的类别即为场景分类的结果。
如图2所示,应用本发明实施例的方法与其它传统场景分类方法分类正确率的比较图。其中横坐标是各个类别图像的标签,纵坐标是正确率。四种方法为硬分配方法2A、基于欧氏距离的分配算法2B、基于置信度传播的分配方法2C和本发明实施例的方法2D。明显地,从图2中能够看出,应用本发明实施例的方法在各种数据库中的正确率都明显高于其它方法的正确率。
根据本发明实施例的基于谱图分析的图像集合的场景分类方法,通过建立图像的有权谱图,并对有权谱图谱进行分析,然后计算SIFT特征和码字在谱图上基于随机游走模型的交互时间,并根据交互时间确定SIFT特征和码字之间的相似度,接着通过SIFT特征和码字之间的相似度得到SIFT特征关于每个码字的隶属度,该方法充分利用SIFT特征和码字分布在高维空间上的流性特征计算隶属度,从而避免了直接通过SIFT特征和码字之间的欧氏距离计算得到两者之间的隶属度所带来的丢失大量的非线性数据,导致隶属度不准确的发生。进而提高场景分类的准确性。
以下结合附图3描述根据本发明实施例的基于谱图分析的图像集合的场景分类装置。
如图3所示,根据本发明实施例的基于谱图分析的图像集合的场景分类装置300包括聚类模块310、谱图建立模块320、欧氏距离计算模块330、权重矩阵构造模块340、散度算子对角矩阵构造模块350、拉普拉斯算子矩阵构造模块360、隶属度获取模块370和分类模块380。
其中,聚类模块310用于提取所述图像集合的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N。
在本发明的一些示例中,通过K-means算法对SIFT特征集合进行聚类,以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,所述K个码字为所述K个聚类对应的K个聚类中心。每一个聚类的聚类中心为一个码字。
谱图建立模块320用于根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的所述每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N。可知,节点集合V的个数为SIFT特征的个数N与K个码字的和(N1+K)。
欧氏距离计算模块330用于计算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点的欧式距离最近的K’个节点,其中K’为预定阈值。欧式距离越小,表示该欧氏距离对应的两个节点越邻近,欧式距离表示两个节点在任意维数空间上的真实距离。这样,可以保证任意一节点与之最邻近的K’个节点的精度。另外,在本发明的一个实施例中,例如K为10。
权重矩阵构造模块340用于根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N。
在本发明的一个具体事例中,权重矩阵构造模块340采用如下公式计算所述权重矩阵W的元素值wij,其中所述公式为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+K-1]的范围内。在节点集合V中,如果第i个节点与之欧式距离最近的K’个节点中包括第j个节点,则可以理解为第i个节点与第j个节点为近邻关系,因此,在式1中,如果i和j为近邻关系,同样表示第i个节点与第j个节点为近邻关系,这样,可以将权重矩阵W中对应的矩阵元素wij赋值为1,否则赋值为0。
散度算子对角矩阵构造模块350,用于根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D。
在本发明的一些实施例中,散度算子对角矩阵构造模块350通过公式获得散度算子对 角矩阵D的元素值dii,公式如下:
通过公式可知,散度算子对角矩阵D的每个元素值为权重矩阵W中对应行的元素值之和
拉普拉斯算子矩阵构造模块360用于根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L。
作为一个具体的示例,拉普拉斯算子矩阵构造模块360采用公式得到拉普拉斯算子矩阵L,式如下:
L=D-W,
通过式对散度算子对角矩阵D与权重矩阵W做减法得到拉普拉斯算子矩阵L。
隶属度获取模块370用于基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度。在本发明的实施例中,如果交互时间越短,解释为SIFT特征和码字之间的相似度越高,反之则相反,根据以上理解,可以通过交互时间确定相应的SIFT特征和码字之间的隶属度。这样,通过交互时间确定的隶属度更为准确,避免由于两者之间的非线性,而直接通过欧氏距离确定两者之间隶属度的不准确。
分类模块380用于根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像的场景进行分类。
根据本发明实施例的基于谱图分析的图像集合的场景分类装置,通过建立图像的有权谱图,并对有权谱图谱进行分析,然后计算SIFT特征和码字在谱图上基于随机游走模型的交互时间,并根据交互时间确定SIFT特征和码字之间的相似度,接着通过SIFT特征和码字之间的相似度得到SIFT特征关于每个码字的隶属度,该装置充分利用SIFT特征和码字分布在高维空间上的流性特征计算隶属度,从而避免了直接通过SIFT特征和码字之间的欧氏距离计算得到两者之间的隶属度所带来的丢失大量的非线性数据,导致隶属度不准确的发生。进而提高场景分类的准确性。另外,装置结构简单,易于实现。
在本发明的一个实施例中,欧氏距离计算模块330首先计算所述节点集合V中节点Vx与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中x为[1,N1+K]之间的任意整数,通过迭代执行该步骤,可以最终得到节点集合V中全部节点中任意两个节点之间的欧氏距离,接着对所述节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合,对于任意一个节点Vi,通过上述步骤可以确定节点集合V中剩余节点与该节点Vi的全部欧氏距离,然后对全部欧氏距离进行从小到大的排序,并在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点(近邻节点),每个欧氏距离分别表示节点Vi与剩余其它节点的欧氏距离,这样,通过每一个欧氏距离可以确 定节点Vi与之对应的一个节点,因此,可以得到与节点Vi欧氏距离最小的K’个节点(邻近节点)。
在本发明的一个实施例中,隶属度获取模块370首先基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi′与所述K个码字中任意一个码字cn′之间的随机游走时间t(vi′,cn′)和t(cn′,vi′),其中,i′为[1,N1]之间的任意整数,n′为[1,K]之间的任意整数,接着基于所述随机游走时间t(vi′,cn′)和t(cn′,vi′)并根据公式计算所述特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,其中所述式为:
cti′n′=t(vi′,cn′)+t(cn′,vi′),
其中,cti′n′为特征vi′与所述码字cn′之间的在所述有权谱图G上的交互时间,cti′n′衡量了特征vi′和码字cn′之间在图像上的相似程,其交互时间越短则表明特征vi′和码字cn′之间相似程度越大,反之说明相似程度越小,最后根据所述交互时间cti′n′和预设的负指数函数获得所述特征vi′到所述码字cn′的隶属度,其中,所述隶属度通过如下公式进行:
as(vi′,cn′)=exp(-cti′n′),
其中,as(vi′,cn′)为特征vi′到所述码字cn′的隶属度,exp()为预设的负指数函数。由上可知,交互时间和相似度成反比,因此,为了不失一般性,在本发明实施例中选择简单的负指数函数exp()作为交互时间的惩罚函数,计算每一个SIFT特征到码字的隶属度。
在本发明的一个实施例中,分类模块380首先根据所述特征vi′的隶属度 对所述特征vi′进行码字分配以得到码字分配结果,然后根据所述码字分配结果获得所述图像的直方图向量,如采用最大汇集(Maximal Pooling)的方法,得到每幅图的直方图向量hisn,其最大汇集方法如式:
接着通过公式 对直方图向量hisn进行归一化处理以得到得到的结果用于表示图像的中层特征,并通过支持向量机对所述直方图向量进行学习,以得到所述任意图像的场景类别的判断模型。也就是说,利用支持向量机算法对训练图像的直方图向量进行学习,得到每一类场景类别的判断模型,最后根据所述判断模型和所述直方图向量确 定场景分类结果。具体地,输入图像的直方图向量,利用上述实施例中得到的判断模型进行投票,获得票数最多的类别即为场景分类的结果。
根据本发明实施例的基于谱图分析的图像集合的场景分类方法得到的隶属度更为准确,从而保证场景的分类效果更为精确。本发明实施例的装置结构简单,易于实现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
Claims (2)
1.一种基于谱图分析的图像集合的场景分类方法,其特征在于,包括以下步骤:
A:提取所述图像集合的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N;
B:根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N;
C:计算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点的欧式距离最近的K’个节点,其中K’为预定阈值;
D:根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N;
E:根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D;
F:根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L;
G:基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度;以及
H:根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像的场景进行分类,
所述步骤A进一步包括:
提取所述图像的SIFT特征集合,并根据K-means算法对所述SIFT特征集合进行聚类以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,所述K个码字为所述K个聚类对应的K个聚类中心,
所述步骤C进一步包括:
C1:计算所述节点集合V中节点Vi与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中i为[1,N1+K]之间的任意整数;
C2:对节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合;以及
C3:在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点,
在所述步骤D中,根据如下公式计算所述权重矩阵W的元素值wij,其中所述公式为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+K-1]的范围内,
所述步骤E计算得到散度算子对角矩阵D的元素值dii的计算公式如下:
所述步骤F中拉普拉斯算子矩阵L为所述权重矩阵W与所述散度算子对角矩阵D做减法运算得到,如下:
L=D-W,
所述步骤G进一步包括:
G1:基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi'与所述K个码字中任意一个码字cn'之间的随机游走时间t(vi',cn')和t(cn',vi'),其中,i'为[1,N1]之间的任意整数,n'为[1,K]之间的任意整数;
G2:基于所述随机游走时间t(vi',cn')和t(cn',vi')并根据如下公式计算所述特征vi'与所述码字cn'之间的在所述有权谱图G上的交互时间,其中所述公式为:
cti'n'=t(vi',cn')+t(cn',vi'),
其中,cti'n'为特征vi'与所述码字cn'之间的在所述有权谱图G上的交互时间;
G3:根据所述交互时间cti'n'和预设的负指数函数获得所述特征vi'到所述码字cn'的隶属度,其中,所述隶属度通过如下公式进行:
as(vi',cn')=exp(-cti'n'),
其中,as(vi',cn')为特征vi'到所述码字cn'的隶属度,exp()为预设的负指数函数;
所述步骤H进一步包括:
根据所述码字分配结果获得所述任意图像的直方图向量;
通过支持向量机对所述直方图向量进行学习,以得到每一类场景类别的判断模型;
根据所述判断模型和所述直方图向量确定场景分类结果。
2.一种基于谱图分析的图像集合的场景分类装置,其特征在于,包括:
聚类模块,用于提取所述图像集合的SIFT特征集合,并得到所述SIFT特征集合的K个聚类和K个码字,其中,所述K任意整数,所述SIFT特征集合中SIFT特征的个数为N;
谱图建立模块,用于根据所述SIFT特征集合中任意图像的SIFT特征和所述K个码字建立所述任意图像的有权谱图G=(V,E),其中,所述V为由所述任意图像的全部SIFT特征和每个所述码字组成的节点集合,E为相邻的每两个节点连线所组成的边的集合,其中,所述任意图像的全部SIFT特征的个数为N1,且N1小于或等于N;
欧氏距离计算模块,用于计算所述节点集合V中任意一节点与其它节点之间的欧氏距离,并根据所述欧式距离确定与所述任意一节点的欧式距离最近的K’个节点,其中K’为预定阈值;
权重矩阵构造模块,用于根据全部所述任意一节点与所述任意一节点的欧氏距离最近的所述K’个节点得到所述节点集合V对应的权重矩阵W,其中权重矩阵W的行数和列数均为所述节点集合V的节点个数N;
散度算子对角矩阵构造模块,用于根据所述权重矩阵W获得所述有权谱图G的散度算子对角矩阵D;
拉普拉斯算子矩阵构造模块,用于根据所述权重矩阵W和所述散度算子对角矩阵D得到拉普拉斯算子矩阵L;
隶属度获取模块,用于基于随机游走模型对所述拉普拉斯算子矩阵L进行运算以得到所述任意图像的每一个SIFT特征与所述K个码字的每一个码字之间的交互时间,并根据所述交互时间确定所述每一个SIFT特征与所述K个码字之间的隶属度;以及
分类模块,用于根据所述隶属度确定码字分配结果,并根据所述分配结果对所述任意图像的场景进行分类,
所述聚类模块用于提取所述图像的SIFT特征集合,并根据K-means算法对所述SIFT特征集合进行聚类以得到K个聚类和K个码字,其中,所述K为(0,N)之间的预定整数,所述K个码字为所述K个聚类对应的K个聚类中心,
所述欧氏距离计算模块首先计算所述节点集合V中节点Vi与所述节点集合V中剩余节点的每一个节点之间的欧氏距离,其中i为[1,N1+K]之间的任意整数,并对节点Vi与所述节点集合V中剩余节点的全部欧式距离按从小到大的顺序进行排序以得到排序集合,然后在所述排序集合中从所述欧氏距离最小的一端依次提取K’个欧氏距离,并根据所述K’个欧式距离对应的K’节点确定与所述节点Vi的欧式距离最近的所述K’个节点,
权重矩阵构造模块根据如下公式计算所述权重矩阵W的元素值wij,其中所述公式为:
其中,i为元素值wij的行号,j为元素值wij的列号,且i和j均在[0,N1+K-1]的范围内,
所述散度算子对角矩阵构造模块通过如下公式计算得到散度算子对角矩阵D的元素值dii,所述公式为:
所述拉普拉斯算子矩阵构造模块通过公式L=D-W计算得到所述拉普拉斯算子矩阵L,
所述隶属度获取模块首先通过基于所述随机游走模型获得所述SIFT特征集合中任意一个SIFT特征vi'与所述K个码字中任意一个码字cn'之间的随机游走时间t(vi',cn')和t(cn',vi'),其中,i'为[1,N1]之间的任意整数,n'为[1,K]之间的任意整数,接着基于所述随机游走时间t(vi',cn')和t(cn',vi')并根据如下公式计算所述特征vi'与所述码字cn'之间的在所述有权谱图G上的交互时间,其中所述公式为:
cti'n'=t(vi',cn')+t(cn',vi'),
其中,cti'n'为特征vi'与所述码字cn'之间的在所述有权谱图G上的交互时间,
最后根据所述交互时间cti'n'和预设的负指数函数获得所述特征vi'到所述码字cn'的隶属度,其中,所述隶属度通过如下公式进行:
as(vi',cn')=exp(-cti'n'),
其中,as(vi',cn')为特征vi'到所述码字cn'的隶属度,exp()为预设的负指数函数,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110221407.3A CN102542285B (zh) | 2011-08-03 | 2011-08-03 | 基于谱图分析的图像集合的场景分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110221407.3A CN102542285B (zh) | 2011-08-03 | 2011-08-03 | 基于谱图分析的图像集合的场景分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102542285A CN102542285A (zh) | 2012-07-04 |
CN102542285B true CN102542285B (zh) | 2014-01-08 |
Family
ID=46349137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110221407.3A Active CN102542285B (zh) | 2011-08-03 | 2011-08-03 | 基于谱图分析的图像集合的场景分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102542285B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116766B (zh) * | 2013-03-20 | 2015-11-18 | 南京大学 | 一种基于增量神经网络和子图编码的图像分类方法 |
CN103617609B (zh) * | 2013-10-24 | 2016-04-13 | 上海交通大学 | 基于图论的k-means非线性流形聚类与代表点选取方法 |
CN104484675B (zh) * | 2014-12-15 | 2017-10-31 | 上海海事大学 | 一种铁谱磨粒纹理特征提取和模式识别的方法 |
CN104573730A (zh) * | 2015-01-29 | 2015-04-29 | 中国科学院深圳先进技术研究院 | 一种基于决定路径权重的不确定图分割方法及系统 |
CN110110089B (zh) * | 2018-01-09 | 2021-03-30 | 网智天元科技集团股份有限公司 | 文化关系图生成方法和系统 |
CN109783666B (zh) * | 2019-01-11 | 2023-05-23 | 中山大学 | 一种基于迭代精细化的图像场景图谱生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127086A (zh) * | 2007-09-12 | 2008-02-20 | 哈尔滨工程大学 | 高光谱图像复选性加权分类方法 |
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039239B2 (en) * | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
-
2011
- 2011-08-03 CN CN201110221407.3A patent/CN102542285B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127086A (zh) * | 2007-09-12 | 2008-02-20 | 哈尔滨工程大学 | 高光谱图像复选性加权分类方法 |
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
Non-Patent Citations (4)
Title |
---|
Luis Gomez-Chova et al..Semisupervised Image Classification With Laplacian Support Vector Machines.《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》.2008,第5卷(第3期),全文. |
Semisupervised Image Classification With Laplacian Support Vector Machines;Luis Gomez-Chova et al.;《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》;20080731;第5卷(第3期);全文 * |
基于支持向量机的高光谱遥感图像分类;郭春燕;《中国优秀硕士学位论文全文数据库》;20070821;全文 * |
郭春燕.基于支持向量机的高光谱遥感图像分类.《中国优秀硕士学位论文全文数据库》.2007,全文. |
Also Published As
Publication number | Publication date |
---|---|
CN102542285A (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102542285B (zh) | 基于谱图分析的图像集合的场景分类方法及装置 | |
CN103325122B (zh) | 基于双向排序的行人检索方法 | |
CN109978918A (zh) | 一种轨迹追踪方法、装置和存储介质 | |
CN107392968B (zh) | 融合颜色对比图和颜色空间分布图的图像显著性检测方法 | |
CN103984953A (zh) | 基于多特征融合与Boosting决策森林的街景图像的语义分割方法 | |
CN102567731A (zh) | 一种感兴趣区域提取方法 | |
CN105321176A (zh) | 一种基于分层高阶条件随机场的图像分割方法 | |
CN104881865A (zh) | 基于无人机图像分析的森林病虫害监测预警方法及其系统 | |
CN110322453A (zh) | 基于位置注意力和辅助网络的3d点云语义分割方法 | |
CN107133955A (zh) | 一种多层次结合的协同显著性检测方法 | |
CN104182765A (zh) | 一种互联网图像驱动的三维模型最优视图自动选择方法 | |
CN104820841B (zh) | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 | |
CN103996195A (zh) | 一种图像显著性检测方法 | |
CN105260738A (zh) | 基于主动学习的高分辨率遥感影像变化检测方法及系统 | |
CN108446616A (zh) | 基于全卷积神经网络集成学习的道路提取方法 | |
CN108447048B (zh) | 基于关注层的卷积神经网络图像特征处理方法 | |
CN107909102A (zh) | 一种组织病理图像的分类方法 | |
CN103853724A (zh) | 多媒体数据分类方法及装置 | |
CN105787481A (zh) | 一种基于目标性潜在区域分析的目标检测算法及其应用 | |
CN105808665A (zh) | 一种新的基于手绘草图的图像检索方法 | |
CN104732545A (zh) | 结合稀疏近邻传播和快速谱聚类的纹理图像分割方法 | |
CN101710418A (zh) | 基于测地距离的交互方式图象分割方法 | |
CN103985130A (zh) | 一种针对复杂纹理图像的图像显著性分析方法 | |
CN102509119B (zh) | 一种基于分类器的图像场景分层与对象遮挡处理方法 | |
CN102902976A (zh) | 一种基于目标及其空间关系特性的图像场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |