CN101236565A

CN101236565A - 一种基于表示转换的多义数字图像检索方法

Info

Publication number: CN101236565A
Application number: CNA2008100207162A
Authority: CN
Inventors: 周志华; 张敏灵
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2008-02-22
Filing date: 2008-02-22
Publication date: 2008-08-06
Anticipated expiration: 2028-02-22
Also published as: CN100592297C

Abstract

本发明公开了一种基于表示转换的多义数字图像检索方法，该方法包括以下步骤：(1)用户从已有的多标记图像库中选择查询图像，包括相关图像和不相关图像；(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息；(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型；(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记，并利用所得预测结果进行检索返回检索图像；(5)如果用户对检索结果满意，则执行步骤6，否则从多标记图像库中选择更多的查询图像进行反馈，执行步骤2；(6)结束。本发明基于表示转换技术，显式地处理图像的多种语义信息，解决了目前大部分图像检索方法只能处理单义图像的局限。

Description

一种基于表示转换的多义数字图像检索方法

技术领域

本发明涉及一种数字图像检索方法，特别涉及一种适用于多义数字图像的检索方法。

背景技术

随着计算机的数据收集以及处理能力的不断提高，数字图像的获取也变得越来越容易。因此，可用的数字图像正快速地增长并在越来越多的行业中得到了应用。图像检索技术是一种高效地辅助用户获取图像信息的方法，该方法通过用户提交给检索装置的查询图像，从图像库中快速、准确地找出其希望获得的图像并返回给用户。一种有效的图像检索策略是将检索过程看作一个学习过程，利用用户提交的查询图像作为学习所需的样本，使用机器学习技术学习得到一个预测模型从而实现对数字图像的检索。

目前的图像检索技术主要涉及单义数字图像，该类型的图像对应于单一的概念类，因此其语义是确定且没有歧义的。然而，在真实世界中，多义数字图像是广泛存在的。例如，一幅室内装饰图像可能同时对应于桌子、沙发、衣橱等多个概念类；一幅自然场景图像可能同时具有蓝天、太阳、山脉等多个概念标记；一幅野外生物图像可能同时隶属于草地、狮子、长颈鹿等多个类别。由于已有的数字图像检索技术只能处理单义数字图像，因此无法利用多义数字图像所蕴含的多种语义信息，不利于有效地进行检索从而获得与用户相关的图像。

发明内容

1、发明目的：本发明的目的是针对目前的数字图像检索技术只能处理单义数字图像的问题，提出一种能够有效处理多义数字图像的方法，该方法通过对图像的初始向量特征进行表示转换，显式地描述多义数字图像内嵌的各种语义信息，从而提高数字图像检索装置的性能。

2、技术方案：为实现上述目的，本发明所述的一种基于表示转换的多义数字图像检索方法，包括以下步骤：(1)用户从已有的多标记图像库中选择查询图像，包括相关图像和不相关图像；(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息；(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型；(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记，并利用所得预测结果进行检索返回检索图像；(5)如果用户对检索结果满意，则执行步骤6，否则从多标记图像库中选择更多的查询图像进行反馈，执行步骤2；(6)结束。

3、有益效果：本发明给出了一种用于多义数字图像的检索方法，该方法基于表示转换技术，显式地处理图像的多种语义信息，解决了目前大部分图像检索方法只能处理单义图像的局限。

附图说明

图1是数字图像检索装置的工作流程图。

图2是本发明方法的流程图。

图3是本发明采用的数字图像表示转换的流程图。

图4是本发明使用的分类方法的流程图。

具体实施方式

下面将结合附图对最佳实施例进行详细说明。

如图1所示，数字图像存储设备中存放了待检索的数字图像，此外还存在一个多标记数字图像库，该图像库中含有一些多义数字图像，每个多义数字图像均对应了一组人工标注的概念标记。用户从多标记数字图像库中选取M幅查询图像提交给数字图像检索装置，其中一些为其感兴趣的相关图像而另外一些为其不感兴趣的非相关图像。可以使用数字图像处理教科书中的经典方法生成适当的图像特征，如颜色、纹理、形状等。由此，每幅图像可由一个特征向量进行表示。在得到图像特征后，采用表示转换的方法对多义数字图像进行处理，然后使用预设的分类方法训练得到相应的预测模型，基于此对数字图像存储设备中的待检索图像进行检索。如果用户对所得结果不满意，可以从多标记数字图像库中选取更多的查询图像反馈给数字图像检索装置。

本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的查询图像对应于集合S＝{(x_i，Y_i)|1≤i≤M}，其中Y_i为与图像对象x_i相关的多义信息，由一组概念标记集合Y_i{1，2，...，Q}表示(Q为所有可能的概念标记个数)。步骤11对所有的查询图像进行表示转换，以显式地描述图像对象的多义信息，其详细说明如图3所示。接下来步骤12从转换后的图像对象中使用预设的分类方法训练得到所需的预测模型，其详细说明如图4所示。步骤13利用训练得到的预测模型，对数字图像存储设备中的待检索图像进行检索。具体地说，检索装置首先采用与步骤11相同的方法将待检索图像进行表示转换，然后将转换后的图像对象提交给训练所得的模型进行预测。在得到待检索图像隶属的概念标记集合后，可以用多种方式来对待检索图像进行排序输出。其中一种直观的方法是考察待检索图像的概念标记集合与相关图像以及非相关图像的概念标记集合之间的相似性，如果与前者的相似性越高而与后者的相似性越低，则该待检索图像的排序就越靠前。在输出检索结果后，检索装置即进入步骤14所示的结束状态。

图3给出了图2中步骤11的详细描述，具体说明了如何对数字图像的向量特征进行表示转换。图3中的步骤1100是起始状态。步骤1101至1105构成了一个循环体，在循环的每一轮中生成与第q类对应的原型向量v_q。其中，步骤1103首先构造集合U_q，如果某个图像对象(x_i，Y_i)含有标记q，则将向量x_i置于该集合中。步骤1104将集合U_q中的所有向量求平均获得所需的原型向量v_q。从直观上说，v_q近似地描述了第q类的概要信息。在上述过程完成后，步骤1106至1109构成了另一个循环体，在循环的每一轮中对每个查询图像进行表示转换。具体来说，步骤1108基于原型向量将每个图像对象(x_i，Y_i)转换为新的表示形式(x_i，Y_i)，其中x_i由一个单一的向量变成了一组向量构成的集合X_i，集合所含向量由x_i与各原型向量求差值获得。从直观上看，每个差值向量反映了x_i与各个类之间的空间关系。在上述转换过程完成之后，初始的查询图像数据集S即变为了新的图像对象数据集S^new，如步骤1110所示。步骤1111是结束状态。

图4给出了图2中步骤12的详细描述，具体说明了如何使用预设的分类方法学习得到相应的预测模型。图4中的步骤1200是起始状态。步骤1201首先将数据集S^new中的所有图像对象对应的集合表示X_i(1≤i≤M)放入未标记数据集U中。然后，在给定集合中不同对象的距离度量方式后，即可基于机器学习与数据挖掘教科书中的经典非监督学习方法，对数据集U中的对象进行聚类，得到k个聚类中心M_i(1≤j≤k)。其中，聚类数目k由用户事先指定。这里，我们利用模式识别教科书中常用的Hausdorff距离来度量集合对象A与集合对象B之间的距离。该度量考察集合A中每个元素与集合B中所有元素的最近距离，以及集合B中每个元素与集合A中所有元素的最近距离。然后，将求得的所有最近距离的最大值作为A与B之间的最终距离。步骤1202至1205构成一个循环体，在循环的每一轮中利用聚类所得的结果将对象X_i转换为向量z_i的表示形式，该向量的第j维z_ij对应于X_i与第j个聚类中心M_j之间的Hausdorff距离。在上述过程完成后，图像检索装置利用最小化误差平方和的方法训练预测模型的矩阵表示W，该矩阵的求解方程组如步骤1208所示，求解所需的矩阵Φ以及矩阵T的设置分别如步骤1206与1207所示。由于直接求解步骤1208所示的方程组可能遇到左端矩阵(Φ^TΦ)不可逆的困难，因此这里采用了奇异值分解这一线性代数教科书中的经典方法来解决上述问题。步骤1209为结束状态。

熟知本领域的人士将理解，虽然这里为了便于解释已描述了具体实施例，但是可在不背离本发明精神和范围的情况下作出各种改变。因此，除了所附权利要求之外不能用于限制本发明。

Claims

1、一种基于表示转换的多义数字图像检索方法，包括以下步骤：

(1)用户从已有的多标记图像库中选择查询图像，包括相关图像和不相关图像；

(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息；

(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型；

(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记，并利用所得预测结果进行检索返回检索图像；

(5)如果用户对检索结果满意，则执行步骤6，否则从多标记图像库中选择更多的查询图像进行反馈，执行步骤2；

(6)结束。

2、根据权利要求1所述的基于表示转换的多义数字图像检索方法，其特征是步骤(2)经历两个阶段，每个阶段对应于一个循环体：

(1)第一阶段对应的循环体包含了Q轮循环，其中Q为所有可能的概念标记个数，在循环的每一轮中，首先构造与当前所考察的概念标记q对应的数据集U_q，该集合由所有具有标记q的图像对象构成；然后将集合U_q中的所有图像向量求平均，得到与第q类对应的原型向量v_q；

(2)第二阶段对应的循环体包含了M轮循环，其中M为用户选择的查询图像个数，在循环的每一轮中，基于上一阶段获得的原型向量v_q，将第i幅图像采用的向量表示形式x_i转换为向量集合表示形式X_i，其中，X_i中共包含Q个向量且每个向量对应于x_i与某个原型向量v_q之间的差值，其中1≤q≤Q，1≤i≤M；

在上述两个阶段完成以后，初始训练集S即转换成了新训练集S^new。

3、根据权利要求1所述的基于表示转换的多义数字图像检索方法，其特征是步骤(3)经历三个阶段：

(1)在第一阶段，首先将数据集S^new中所有图像对象的集合表示X_i放入未标记数据集U中；然后利用非监督机器学习方法对集合U进行聚类分析，得到k个聚类中心M_j；其中1≤i≤M，1≤j≤k；

(3)第二阶段对应于一个共有M轮的循环体，在循环的每一轮中，利用上一阶段所得的聚类结果，将图像对象的集合表示X_i转换为向量表示z_i，其中，z_i为一个k维的属性向量且其第j维z_ij取值为X_i与M_i之间的Hausdorff距离；

(4)在第三阶段，利用最小化误差平方和的方法训练预测模型的矩阵表示W；为了克服求解过程中可能出现的奇异矩阵所带来的困难，可以利用奇异值分解技术来对目标方程组进行求解；

在上述三个阶段完成以后，结合聚类结果以及矩阵表示W，即得到了所需的预测模型。