CN103699612A

CN103699612A - 一种图像检索排序的方法及装置

Info

Publication number: CN103699612A
Application number: CN201310690505.0A
Authority: CN
Inventors: 陈世峰; 曹琛
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-04-02
Anticipated expiration: 2033-12-13
Also published as: CN103699612B

Abstract

本发明公开了一种图像检索排序的方法及装置，所述方法包括：根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集；将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集；根据置信分数对优化图像集进行加权计算并获取高密度图像集，按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。所述装置包括：聚类去噪模块、类间优化模块和排序模块。通过三层检索排序提高了检索排序的精准性。

Description

一种图像检索排序的方法及装置

技术领域

本发明涉及图像处理领域，特别涉及一种图像检索排序的方法及装置。

背景技术

网络图像检索通常采用基于文字关键词的搜索方法。当前，搜索引擎通过匹配搜索关键词和图像的文字标签，以确定检索图像的排序。然而，由于网络图像存在许多错误的文字标签，检索结果的精确度难以令人满意。鉴于网络图像检索在用户需求方面的不确定性。穷举所有关键词并预先存储排序结果是不可能完成的任务。同时，许多应用依赖于收集大量分门别类的图像，用户手工标定辅助排序的方法也会变得耗费人力。因此，理想的图像检索排序技术应当不依赖于任何预先存储和人工标定，并能达到精确而高效的排序结果。

当前，较为常用的方式为：用户辅助选择法。这种方法要求搜索引擎的用户针对初始结果选择自己认为最正确的一幅图像，其它图像则会根据与用户选择图像的视觉特征相似度进行重新排序。此方法能较为准确地表现用户的检索意图。然而，当面对海量不同类别关键词检索或需要自动检索的场景时，该方法则变得无能为力。

此外，一系列对检索排序的深入研究聚焦在训练机器学习模型。聚类模型依据初始检索图像集的特征相似度，将图像聚成几类，取图像数量最多、特征密度最大的类作为检索的目标图像。这种方法假设与检索关键词有关和无关的图像都能各自成类，难以符合真实的数据分布。主题模型运用概率网络学习图像中潜在的主题并计算主题出现的频率。当图像中的主题大部分是高频出现的主题时，这样的图像被当成与检索关键词最相关的图像排在前列。并且需要针对每个检索关键词做离线训练和验证，从而不适合即时的图像检索。分类模型通过结合图像的视觉特征和文本元数据，离线对标定数据训练分类器。此方法要求标定准确，离线训练过程耗时，性能还受到过拟合问题的影响。

发明人在发明本申请的过程中，至少发现现有技术中存在如下技术问题：

1、现有方法假设在图像集的特征空间中，目标图像紧密地分布在一起，而噪声图像则各自离散分布。然而各种方法设计的选择高密度数据的算法却有时会选择到离散的数据点，从而导致检索到的图像不精确。2、上一点提到现有方法对图像分布的假设本身，难以符合真实数据分布的特性，由此选择的高密度数据仍是目标和噪声的混合。3、即使能获得少量较精确的标定数据，对整个图像集的半监督学习仍会因为噪声图像破坏数据集的流型结构并导致传导不准确的结果，并未考虑如何消除这部分噪声。

发明内容

为了解决现有技术存在的检索图像不精确的问题，本发明实施例提供了一种图像检索排序的方法及装置。所述技术方案如下：

第一方面，本发明提供了一种图像检索排序的方法，所述方法包括：

根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集；

将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集；

根据置信分数对优化图像集进行加权计算并获取高密度图像集，按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。

优选地，所述根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集，包括：

根据用户输入的关键词检索得到图像集

其中d代表图像视觉特征的维度；

将所述图像集按照映射g(·)从原始的欧式特征空间投射到新的特征空间，使得特征空间中位于同一流形结构内的数据和离散分布的噪声图像数据分别聚合成m类{X₁，…，X_c，…，X_m}∈X；

根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集。

优选地，所述映射g(·)的构造方法，具体包括：

以图像集

中的数据为节点构造两两连接的无向有权图，其中，节点x_i和x_j的边的权重W_ij为：(1)当i≠j时，

(2)当i＝j时，W_ii＝0；

将所述权重W_ij组成n×n矩阵W，对矩阵W的归一化处理得到S＝D^-1/2WD^-1/2，其中D为对角矩阵

构造对归一化矩阵S的拉普拉斯求逆矩阵F，得到映射映射g(·)为g：X→Rⁿ，

其中，F＝(I-S)^-1。

优选地，所述根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集，具体包括：

当类X_o满足不等式时，则表示所述类Xc为离散点组成的类，其中，所述不等式为：

其中，S[g(x_i)]为映射特征g(x_i)各维度之和，

为求平均算符，为第一阈值。

优选地，所述根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，具体为：根据用户输入一个或多个关键词从网络图像数据库中搜索分别得到每个关键词对应的图像集。

优选地，所述将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对类图像集中的图像进行第二次去噪处理得到优化图像集，具体包括：

从所述网络图像数据库中已建立的其他类图像集获取由r个关键词{q₁，…，q_s，…，q_r}检索形成的类图像集{X⁽¹⁾，…X^(s)，…，X^(r)}，

运用预设的

模型对图像集X^(s)和图像集X^(t)进行两两训练，计算关键词q_s检索的某一图像

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合；其中，所述表示对X^(s)和X^(t)训练模型，测试数据属于q_s类的概率函数，根据所述置信分数

确定所述图像

在语义上与关键词q_s的相关性，

优选地，所述运用预设的

的置信分数并将所述置信分数小于第二阈值的图像数据滤去得到优化图像集合；其中，根据所述置信分数

确定所述图像

在语义上与关键词q_s的相关性，

具体包括：

计算训练中图像集X^(s)的数据未被模型分到图像集X^(t)的概率值，判断所述激活条件是否等于1；其中，

表示在训练中X^(s)的数据未被模型分到X^(t)类的比率；

当所述激活条件

等于1时，则计算关键词q_s检索的某一图像

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合；

当所述激活条件

不等于1时，则确定所述图像集X^(s)与所述图像集X^(t)为同义词，则直接将所述图像数据滤去得到优化图像集合。

优选地，按照线性排序模型对所述高密度图像集进行排序，具体包括：

按照线性排序模型f(x；w，b)＝w^Tx+b对所述高密度图像集进行排序，其中w和b为待学习的模型参数，参数的学习过程是求解弹性网络支持向量机回归问题

\min_{w, b} \frac{1}{n} Σ_{i = 1}^{n} | w^{T} x_{i} + b - y_{i} | + λ_{1} {| | w | |}_{1} + \frac{λ_{2}}{2} w^{T} w,

y_i为x_i的先验权重，λ₁，λ₂为正则项的平衡因子。

第二方面，提供了一种图像检索排序的装置，所述装置包括：

聚类去噪模块，用于根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集；

类间优化模块，用于将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集；

排序模块，用于根据置信分数对优化图像集进行加权计算并获取高密度图像集，按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。

优选地，所述聚类去噪模块包括：检索单元、映射单元和筛选单元，

所述搜索单元，用于根据用户输入的关键词检索得到图像集

其中d代表图像视觉特征的维度；

所述映射单元，用于将所述图像集按照映射g(·)从原始的欧式特征空间投射到新的特征空间，使得特征空间中位于同一流形结构内的数据和离散分布的噪声图像数据分别聚合成m类{X₁，…，X_c，…，X_m}∈X；

所述筛选单元，用于根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集。

优选地，所述映射g(·)的构造方法，具体包括：

以图像集中的数据为节点构造两两连接的无向有权图，其中，节点x_i和x_j的边的权重W_ij为：(1)当i≠j时，

(2)当i＝j时，W_ii＝0；

构造对归一化矩阵S的拉普拉斯求逆矩阵F，得到映射映射g(·)为g：X→Rⁿ，其中，F＝(I-S)^-1。

优选地，所述筛选单元具体用于当类X_o满足不等式时，则表示所述类Xc为离散点组成的类，其中，所述不等式为：

其中，S[g(x_i)]为映射特征g(x_i)各维度之和，

为求平均算符，β为第一阈值。

优选地，所述类间优化模块包括获取单元和训练单元，

所述获取单元，用于从所述网络图像数据库中已建立的其他类图像集获取由r个关键词{q₁，…，q_s，…，q_r}检索形成的类图像集{X⁽¹⁾，…X^(s)，…，X^(r)}，

所述训练单元，用于运用预设的

模型对图像集X^(s)和图像集X^(t)进行两两训练，计算关键词q_s检索的某一图像的置信分数

并将所述置信分数小于第二阈值的图像数据滤去得到优化图像集合；其中，所述

表示对X^(s)和X^(t)训练模型，测试数据属于q_s类的概率函数，根据所述置信分数

确定所述图像在语义上与关键词q_s的相关性，

优选地，所述训练单元具体用于计算训练中图像集X^(s)的数据未被模型分到图像集X^(t)的概率值，判断所述激活条件

是否等于1；其中，表示在训练中X(s)的数据未被模型分到X^(t)类的比率；

用于当所述激活条件

等于1时，则计算关键词q_s检索的某一图像

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合；

用于当所述激活条件

优选地，所述排序模块具体用于按照线性排序模型f(X；w，b)＝w^Tx+b对所述高密度图像集进行排序，其中w和b为待学习的模型参数，参数的学习过程是求解弹性网络支持向量机回归问题

y_i为x_i的先验权重，λ₁，λ₂为正则项的平衡因子。

本发明提供的技术方案带来的有益效果是：

采用本发明提供的图像检排序方法对根据关键词获取的图像集在特征聚类层进行谱图去噪，实现离散噪声和重复图像的消除；再将去噪后的图像集在数据集层进行类间优化得到优化图像集，实现数据集层分类难的噪声数据的清除；然后将所述优化图像集在关键词类别层进行无监督排序，得到排序结果，实现不依赖人工标定及其他特征信息实现无监督网络图像排序。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是方法实施例提供的一种图像检索排序的方法流程图；

图2是装置实施例提供的一种图像检索排序的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明提供的方法包括：根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集；将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集；根据置信分数对优化图像集进行加权计算并获取高密度图像集，按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。

参见图1，本发明实施例中提供的一种图像检排序的方法流程图，本发明实施例的执行主体为计算机，参见图1，该方法包括：

101：根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集。

具体地，本实施例中，根据用户输入的关键词检索得到图像集

其中d代表图像视觉特征的维度；

其中，在本实施例中，还可以根据用户输入一个或多个关键词从网络图像数据库中搜索分别得到每个关键词对应的图像集；当关键词为r个时，分别得到相对应的图像集，例如用Q＝{q₁，…，q_s，…，q_r}表示对r个关键词进行网络图像检索，其检索结果为n_s幅图像的集合

其中d代表图像视觉特征的维度。

102：以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集。

具体地，在本实施例中，所述特征聚类的方式是指按照映射g(·)从原始的欧式特征空间投射到新的特征空间；

本实施例中，步骤102具体包括：

102-1：将所述图像集按照映射g(·)从原始的欧式特征空间投射到新的特征空间，使得特征空间中位于同一流形结构内的数据和离散分布的噪声图像数据分别聚合成m类{X₁，…，X_c，…，X_m}∈X；

其中，同一流形结构内的数据点语义同类的；

优选地，本实施例中，所述映射g(·)的构造方法，具体包括：

A-1：以图像集

W_{ij} = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{{2 σ}^{2}}),

(2)当i＝j时，W_ii＝0；

A-2：将所述权重W_ij组成n×n矩阵W，对矩阵W的归一化处理得到S＝D^-1/2WD^-1/2，其中D为对角矩阵

A-3：构造对归一化矩阵S的拉普拉斯求逆矩阵F，得到映射g(·)为g：X→Rⁿ，

其中，F＝(I-S)^-1。

其中，I为单位矩阵，F(i，·)表示F的第i行向量。

102-2：根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集。

具体地，在本实施例中，所述根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集，具体包括：

当类X_o满足不等式时，则表示所述类X_c为离散点组成的类，其中，所述不等式为：

其中，S[g(x_i)]为映射特征g(x_i)各维度之和，

为求平均算符，β为第一阈值。

其中，由于，离散点的映射特征g(x_i)各维度之和较小，所以可以通过设置第一阈值将离散点数据滤去。

103：将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集。

本实施例中，步骤103具体包括：

103-1：所述类图像集于所述网络图像数据库中已建立的其他类图像集表示成由r个关键词{q₁，…，q_s，…，q_r}检索形成的类图像集{X⁽¹⁾，…X^(s)，…，X^(r)}，

103-2：运用预设的

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合。

其中，所述

表示对X^(s)和X^(t)训练模型，测试数据属于q_s类的概率函数，根据所述置信分数确定所述图像

在语义上与关键词q_s的相关性，

具体地，在本实施例中，所述步骤103-2包括：

B-1：计算训练中图像集X^(s)的数据未被模型分到图像集X^(t)的概率值，判断所述激活条件

是否等于1；其中，

表示在训练中X^(s)的数据未被模型分到X^(t)类的比率；

B-2：当所述激活条件

等于1时，则计算关键词q_s检索的某一图像

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合；

B-3：当所述激活条件

104：根据置信分数对优化图像集进行加权计算并获取高密度图像集。

105：按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。

\min_{w, b} \frac{1}{n} Σ_{i = 1}^{n} | w^{T} x_{i} + b - y_{i} | + λ_{1} {| | w | |}_{1} + \frac{λ_{2}}{2} w^{T} w,

y_i为x_i的先验权重，λ₁，λ₂为正则项的平衡因子。

优选地，本实施例中，所述排序为无监督排序；采用减少过拟合的软间隔回归模型进行排序处理。

本实施例中通过采用本发明提供的图像检排序方法对根据关键词获取的图像集在特征聚类层进行谱图去噪，实现离散噪声和重复图像的消除；再将去噪后的图像集在数据集层进行类间优化得到优化图像集，实现数据集层分类难的噪声数据的清除；然后将所述优化图像集在关键词类别层进行无监督排序，得到排序结果，实现不依赖人工标定及其他特征信息实现无监督网络图像排序。

图2是本发明实施例中提供的一种图像显著性物体检测装置的结构示意图，参见图2，该装置包括：

聚类去噪模块201，用于根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，以特征聚类的方式分别对所述图像集进行去噪处理得到对应的类图像集；

类间优化模块202，用于将所述类图像集与所述网络图像数据库中根据已建立的其他类图像集分别两两之间进行类间优化处理，通过类间优化处理对所述类图像集中的图像进行第二次去噪处理得到优化图像集；

排序模块203，用于根据置信分数对优化图像集进行加权计算并获取高密度图像集，按照线性排序模型对所述高密度图像集进行排序，得到所述图像排序结果。

结合上述装置，所述聚类去噪模块包括：检索单元2011、映射单元2012和筛选单元2013，

所述搜索单元2011，用于根据用户输入的关键词检索得到图像集

其中d代表图像视觉特征的维度；

其中，所述映射g(·)的构造方法，具体包括：

以图像集

(2)当i＝j时，W_ii＝0；

其中，F＝(I-S)^-1。

所述映射单元2012，用于将所述图像集按照映射g(·)从原始的欧式特征空间投射到新的特征空间，使得特征空间中位于同一流形结构内的数据和离散分布的噪声图像数据分别聚合成m类{X₁，…，X_c，…，X_m}∈X；

所述筛选单元2013，用于根据预设判断条件筛选出m类中离散点组成的类，并将所述离散点组成的类滤去得到类图像集。

更进一步地，所述筛选单元具体用于当类X_o满足不等式时，则表示所述类Xc为离散点组成的类，其中，所述不等式为：

其中，S[g(x_i)]为映射特征g(x_i)各维度之和，

为求平均算符，β为第一阈值。

结合上述任一装置，所述根据用户输入的关键词从网络图像数据库中搜索得到关键词对应的图像集，具体为：根据用户输入一个或多个关键词从网络图像数据库中搜索分别得到每个关键词对应的图像集。

所述类间优化模块202包括获取单元2021和训练单元2022，

所述获取单元2021，用于从所述网络图像数据库中已建立的其他类图像集获取由r个关键词{q₁，…，q_s，…，q_r}检索形成的类图像集{X⁽¹⁾，…X^(s)，…，X^(r)}，

所述训练单元2022，用于运用预设的

的置信分数

并将所述置信分数小于第二阈值的图像数据滤去得到优化图像集合；

其中，所述

在语义上与关键词q_s的相关性，

优选地，所述训练单元2022具体用于计算训练中图像集X^(s)的数据未被模型分到图像集X^(t)的概率值，判断所述激活条件

是否等于1；其中，

表示在训练中X^(s)的数据未被模型分到X^(t)类的比率；

还用于当所述激活条件

等于1时，则计算关键词q_s检索的某一图像

的置信分数

并将所述置信分数

小于第二阈值的图像数据滤去得到优化图像集合；

还用于当所述激活条件

结合上述装置，所述排序模块203具体用于按照线性排序模型f(x；w，b)＝w^Tx+b对所述高密度图像集进行排序，其中w和b为待学习的模型参数，参数的学习过程是求解弹性网络支持向量机回归问题

y_i为x_i的先验权重，λ₁，λ₂为正则项的平衡因子。

本实施例中通过采用本发明提供的图像检排序的装置对根据关键词获取的图像集在特征聚类层进行谱图去噪，实现离散噪声和重复图像的消除；再将去噪后的图像集在数据集层进行类间优化得到优化图像集，实现数据集层分类难的噪声数据的清除；然后将所述优化图像集在关键词类别层进行无监督排序，得到排序结果，实现不依赖人工标定及其他特征信息实现无监督网络图像排序。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。