CN1272734C

CN1272734C - 基于非负矩阵分解的相关反馈图像检索方法

Info

Publication number: CN1272734C
Application number: CN 200410018483
Authority: CN
Inventors: 梁栋; 杨杰; 姚莉秀; 卢进军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-05-20
Filing date: 2004-05-20
Publication date: 2006-08-30
Anticipated expiration: 2024-05-20
Also published as: CN1581164A

Abstract

一种基于非负矩阵分解的相关反馈图像检索方法，利用初次检索返回的结果来构建相关类图像矩阵，应用非负矩阵分解训练算法对该矩阵进行矩阵分解，得到语义空间的基矩阵和系数矩阵，对系数矩阵求取均值，生成代表该语义类的语义特征，然后通过非负矩阵分解测试算法将图像库中所有图像在此语义空间进行投影，得到所有图像的语义特征，求取所有图像的语义特征和该语义类特征的相似性，并按照相似性的大小返回出结果图像，如未满足检索要求，重复反馈，给出最终的检索结果。应用本发明的方法所建立的图像检索系统，充分利用人机的交互反馈，能更好地模拟人对于图像的感觉，使得生成的语义空间能更好的吻合图像检索的要求，能够获得较高的检索准确率。

Description

基于非负矩阵分解的相关反馈图像检索方法

技术领域

本发明涉及一种基于非负矩阵分解的相关反馈图像检索方法，涉及模式识别、矩阵分析和图像检索等领域，能直接应用于基于内容的图像检索。

背景技术

上个世纪后期，随着大规模图像数据库的不断涌现，对于如此大数据量的管理和有效的应用逐渐引起人们的重视，图像检索也成为研究的热点。最初的图像检索技术是基于文本的检索技术，这种技术的框架就是首先用文本来标注图像，然后使用基于文本的数据库管理系统来进行图像检索，但是这种方法存在着两个缺陷：1、对大规模的图像数据库进行人工标注需要大量的人力，物力和财力，2、人工标注的主观性非常强，对于同样的一幅图像，不同的人可能就有不同的感觉。到了90年代，为了克服这两个缺点，基于内容的图像检索(content-based imageretrieval，CBIR)应运而生。CBIR的实际意义就是让用户根据自己所要检索的图像内容和含义，在图像库中直观地进行检索并判别图像满足自己的需要程度。

当前成熟的基于内容的图像检索系统在对图像内容进行描述的时候，大多直接从图像中分析抽取底层视觉特征，例如图像的颜色、形状、纹理、空间关系等，而在这些底层视觉特征基础上建立的图像描述模型中，而对图像数据的描述一般以统计数据的形式出现，这些数据与人对图像内容的理解有着很大的差异。1、人具有学习的能力，对图像内容的理解并不仅仅依靠统计进行；2、图像的内容具有模糊性，不能简单的用特征向量来描述；3、人对图像内容的理解无法直接从图像的数据中获得，而要根据人的知识来判断，这个过程结合了日常生活中积累的大量的经验，而底层特征无法反应这些经验知识。因此在传统的底层视觉特征基础上的图像检索并不能取得良好的效果。刘忠伟等(刘忠伟，章毓晋基于特征的图象查询和检索系统应用基础及工程学学报2000.8(1)：69-77)探讨了利用颜色、纹理、形状等单一特征以及综合利用不同特征的查询和检索方法。但由于使用的特征都是底层的视觉特征，无法提供准确的语义描述。为解决该问题，必须提供有效的图像语义的表达方式，即如何表达图像的内容，使其与人对图像内容的理解一致；此外还必须有提取图像语义表达的方法，即如何通过学习来获取图像语义，实现底层视觉特征和高层语义之间的映射。

相关反馈技术可以看作是连接底层视觉特征和高层语义之间的桥梁，这种方法具体过程是：系统首先返回一组结果图像，通过交互反馈信息自动分析最能表征查询目标的特征，自动调整相似度的度量方法，然后进行新的查询，如此多次反馈，最终得到满意的结果。相关反馈可以起到两个作用，一是逐步把握真正的检索需求；二是逐步建立特定语义与底层视觉特征的对应，或是修正与图像关联的高层概念。

最初的相关反馈方法是从信息检索中直接借用过来的，其算法是基于底层特征的，不能有效的提取图像的语义特征。

发明内容

本发明的目的在于针对上述相关反馈技术的不足，提出一种基于非负矩阵分解(Non-negative Matrix Factorization)的相关反馈方法，用于图像的自动检索，提高检索精度。

为实现这样的目的，本发明利用初次检索返回的结果来构建相关类图像矩阵，应用非负矩阵分解训练算法对该矩阵进行矩阵分解，得到语义空间的基矩阵和系数矩阵，对系数矩阵求取均值，生成代表该语义类的语义特征，然后通过非负矩阵分解测试算法将图像库中所有图像在此语义空间进行投影，得到所有图像的语义特征，求取所有图像的语义特征和该语义类特征的相似性，并按照相似性的大小返回出结果图像，如未满足检索要求，重复反馈，给出最终的检索结果。

本发明的基于非负矩阵分解的相关反馈图像检索系统的实现方法按如下步骤进行：

1.初始检索：针对检索图像，提取色度-饱和度混合直方图特征，局部累加直方图特征，基于小波模极大值的形状特征，基于Gabor滤波器的纹理特征，并通过归一化形成综合的底层视觉特征，与图像库中所有图像形成的特征库进行相似性度量，按照相似性的大小进行排序，将与检索图像最相似的若干幅图像返回。

2.构造待分解矩阵：将检索返回的图像进行分类，分成相关图像类和非相关图像类，并将相关图像类和检索图像的底层视觉特征组合为待分解相关图像矩阵，该矩阵的每一列对应于一个图像，每一行对应于特征的一个分量，该矩阵就代表和检索图像处于相同语义类的图像。

3.基和语义类特征的生成：应用非负矩阵分解训练算法对待分解相关图像矩阵进行分解，经过迭代收敛后得到基矩阵和系数矩阵，用该基矩阵张成语义空间，因为系数矩阵是相同语义类在此语义空间的投影，所以可求取系数矩阵的均值，来生成代表该语义类的语义特征，语义特征的维数r的取值要满足(n+m)r＜nm，此处n代表底层视觉特征的维数，m代表相关图像的个数。使得语义特征的维数大大降低，减小了相似性度量的计算量。

4.图像库中所有图像语义特征的生成：将图像库中所有图像的综合底层视觉特征构造一个待分解矩阵。这里同样利用上步中的非负矩阵分解训练算法生成的基矩阵构造的语义空间，通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征，即固定非负矩阵分解训练算法得到的基矩阵，通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征。

5.相似性度量及结果返回：先将前次返回的相关图像记忆下来优先返回，再计算所有图像的语义特征和该语义类的语义特征的相似性，按照相似性的大小进行排序，将与检索图像最相似的其余若干幅图像返回。

6.利用人机交互反馈平台，重复上面的2-5步，直到所有返回图像均为相关图像为止，并给出最终的检索结果。

在实际应用中，当通过该系统输入检索图像，首先返回一组结果图像，系统从反馈信息中自动构建该语义类特征空间，生成语义特征，进行相似性的度量，反馈回结果图像，然后进行新的构建，如此多次反馈，最终得到满意的结果，从而提高检索的准确率。

本发明的方法能够获得较高的检索准确率。由于充分利用人机交互反馈信息，能更好地模拟人对于图像的感觉，使得生成的语义空间能更好的吻合图像检索的要求。在一些初始检索效果不好，要求反馈次数少便能给出较好效果的应用中，本发明的方法更具有使用价值。

本发明建立的基于非负矩阵分解的相关反馈图像检索系统，可以用于基于图像内容和语义的检索，能较准确的检索出所需要的图像。

附图说明

图1为本发明实施例的初次检索结果示意图。

图2为本发明实施例的第一次反馈检索结果示意图。

图3为本发明实施例的第二次反馈检索结果示意图。

图4为本发明实施例的第三次反馈检索结果示意图。

具体实施方式

以下结合具体的实施例对本发明的技术方案作进一步详细描述。

本发明实施例采用的图像数据库共有500个样本，储存有从网络收集的各种语义类别的图像，包括：动物、室外风景、植物、汽车、人造建筑、室内风景等，初始检索用的综合底层视觉特征包括色度-饱和度混合直方图特征，局部累加直方图特征，基于小波模极大值的形状特征，基于Gabor滤波器的纹理特征。综合特征用向量表示，

T = {{\overset{&RightArrow;}{x}}_{l}}

(l＝1，2，…，500)，

{\overset{&RightArrow;}{x}}_{l} = {x_{l 1}, x_{l 2}, \cdot \cdot \cdot, x_{lp}, \cdot \cdot \cdot, x_{l 240}}

含240个特征。每次返回和检索图像最相似的12个图像，结果图像分为相关图像和非相关图像两个类别，所有这些信息被存储在一个数据库中。

整个系统实现过程如下：

1.初始检索：

针对检索图像q，提取其综合的视觉特征

{\overset{&RightArrow;}{x}}_{q} = {x_{q 1}, x_{q 2}, \cdot \cdot \cdot, x_{qp}, \cdot \cdot \cdot, x_{q 240}},

与图像库中所有图像形成的特征库进行相似性度量，

d_{qj} = Σ_{i = 41}^{240} | x_{qi} - x_{ji} |,

并按照相似性的大小进行排序，将与检索图像最相似的12幅显示出来。图1为系统初次检索返回结果示意，其中，左上角第一个图像为检索图像。

2.构造待分解矩阵：

将检索返回的图像进行分类，分成相关图像类和非相关图像类，本实施例中共有8个相关图像，将其底层视觉特征组合为待分解相关图像矩阵，该矩阵大小为240×8，每一列对应一个相关图像，每一行对应于底层视觉特征的一个分量，该矩阵代表和检索图像处于相同语义类的图像。

3.基和语义类特征的生成：

用非负矩阵分解训练算法对待分解相关图像矩阵进行分解，此处，语义特征的维数取值为7，经过数次迭代收敛后得到基矩阵(大小为240×7)和系数矩阵(7×8)，用该基矩阵张成语义空间，因为系数矩阵是相同语义类在此语义空间的投影，所以可求取系数矩阵的均值，大小为7×1，代表该语义类的语义特征。

4.图像库中所有图像语义特征的生成：

将图像库中所有图像的综合底层特征构造一个待分解矩阵，大小为240×500。这里同样利用上步中的非负矩阵分解训练算法生成的基矩阵构造的语义空间，通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征，即固定非负矩阵分解训练算法得到的基矩阵，通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征矩阵，大小为7×500，每一列对应一个图像，每一行对应于语义特征的一个分量。

5.相似性度量及结果返回：

现在所有的图像已经用其在语义空间的特征来表示，下面计算所有图像的语义特征和该语义类的语义特征的相似性，先将前次返回的8个相关图像记忆下来，并按照相似性的大小返回出其余的4个图像。图2为本发明实施例的第一次反馈检索结果示意图。

6.利用人机交互反馈平台，重复上面的2-5步两次，满足检索需求，给出最终的检索结果，图3为本发明实施例的第二次反馈检索结果示意图，图4为本发明实施例的第三次反馈检索结果示意图。

在实际应用中，利用本发明方法建立的基于非负矩阵分解的相关反馈图像检索系统，只要利用人机交互反馈信息来构建语义空间，就可以返回和检索图像属于相同语义类的图像，从而满足检索需求。

Claims

1、一种基于非负矩阵分解的相关反馈图像检索方法，其特征在于包括如下具体步骤：

1)初始检索：针对检索图像，提取色度—饱和度混合直方图特征，局部累加直方图特征，基于小波模极大值的形状特征，基于Gabor滤波器的纹理特征，并通过归一化形成综合的底层视觉特征，与图像库中所有图像形成的特征库进行相似性度量，按照相似性的大小进行排序，将与检索图像最相似的若干幅图像返回；

2)构造待分解矩阵：将检索返回的图像进行分类，分成相关图像类和非相关图像类，并将相关图像类和检索图像的底层视觉特征组合为待分解相关图像矩阵，该矩阵的每一列对应于一个图像，每一行对应于特征的一个分量，该矩阵就代表和检索图像处于相同语义类的图像；

3)基和语义类特征的生成：应用非负矩阵分解训练算法对待分解相关图像矩阵进行分解，经过迭代收敛后得到基矩阵和系数矩阵，用该基矩阵张成语义空间，求取系数矩阵的均值来生成代表该语义类的语义特征，语义特征的维数r的取值要满足(n+m)r＜nm，此处n代表底层视觉特征的维数，m代表相关图像的个数；

4)图像库中所有图像语义特征的生成：将图像库中所有图像的综合底层视觉特征构造一个待分解矩阵，利用上一步基矩阵构造的语义空间，通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征，即固定非负矩阵分解训练算法得到的基矩阵，通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征；

5)相似性度量及结果返回：先将前次返回的相关图像记忆下来优先返回，再计算所有图像的语义特征和该语义类的语义特征的相似性，按照相似性的大小进行排序，将与检索图像最相似的若干幅图像返回；

6)利用人机交互反馈平台，重复上面的2-5步，直到所有返回图像均为相关图像为止，给出最终的检索结果。