CN108121781B

CN108121781B - 基于高效样本选取与参数优化的相关反馈图像检索方法

Info

Publication number: CN108121781B
Application number: CN201711363543.XA
Authority: CN
Inventors: 王向阳; 梁琳琳; 牛盼盼
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2021-09-24
Anticipated expiration: 2037-12-18
Also published as: CN108121781A

Abstract

本发明公开了一种基于高效样本选取与参数优化的相关反馈图像检索方法，首先提取图像底层特征，并度量示例图像和图像库中图像的欧氏距离；其次，应用MABC‑Kmeans算法对图像库施行聚类操作；然后，用户标注前N幅图像，产生正负例图像，应用距离加权法确定正负例样本，并形成正负例样本集；最后，应用CS‑SVM算法对样本进行训练，把训练结果反馈给用户，继续进行标注直至其满意反馈结果。实验结果表明，本发明方法采用MABC‑Kmeans算法进行样本筛选，减少了用户对样本的标记数量，有效提高了样本精度；采用CS‑SVM算法对样本施行训练，有效提升了分类效果。

Description

基于高效样本选取与参数优化的相关反馈图像检索方法

技术领域

本发明属于数字图像检索技术领域，涉及基于内容的相关反馈图像检索方法，特别涉及一种基于高效样本选取与参数优化的相关反馈图像检索方法。

背景技术

在Internet技术急速普及的今天，网络数字图像每天以数千兆字节速度增长，且已渗透到人们的日常生活中，多媒体技术的应用以及图像信息促使人们急需优秀的技术用于筛选所需信息。因此，如何高效精准地分类和检索出大量的数字图像源是人们共同关注的热点问题，而基于内容的图像检索（CBIR）则是当下解决该问题的主要技术。

CBIR与传统需要人工标注的基于文本的图像检索（TBIR）相比，避免了不同人对同一图像产生不同理解而引起的标注差异，且更加注重图像的边缘、纹理和颜色等固有的底层特征。但图像的信息不单指底层特征，还含有人类视觉主观感受且尤为重要。如何良好的解决底层视觉特征和人类的视觉主观感受的差距问题，即缓解语义鸿沟问题，目前已成为学者最关注的问题之一，相关反馈图像检索技术应运而生。

近年来，相关反馈图像检索方法可归结为下列四类：查询权重调整法，移动查询点法，查询扩展法和支持向量机（SVM）法，其中支持向量机法相对其他几类方法具有更高的检索能力和更好的检索结果。但现有的基于支持向量机的相关反馈图像检索方法仍然存在时间复杂度高、样本选择效率和查准率较低等不足，如何降低时间复杂度，提升样本选择效率和检索查准率是现阶段急需解决的问题。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种基于高效样本选取与参数优化的相关反馈图像检索方法。

本发明的技术解决方案是：一种基于高效样本选取与参数优化的相关反馈图像检索方法，其特征在于按如下步骤进行：

约定：J和Q分别指图像库中的图像和示例图像；

表示Q和J之间的欧氏距离；

分别指Q和J的特征向量在第i个分量处的值；PS和NS分别代表正例样本和负例样本；MABC为改进的人工蜂群算法；DE为差分算法；OS表示最优解，FS表示可行解；EB表示雇佣蜂，OB表示跟随蜂，SB表示侦查蜂；K指聚类类别数，MCN指最大迭代次数，Limit指控制参数，

指适应度，

指初始解，

为侦查蜂邻域搜索产生的新解，CSO为当前解，

为各个解的概率值；

为训练样本集，

为正例样本，

为正例样本个数，

为负例样本；

为各聚类中心与目标图像之间的距离，

为归一化后的距离；CS指布谷鸟算法；Train和 Test分别表示训练样本和测试样本；

代表迭代次数，

代表最大迭代次数，

代表给定的种群数量，

和

分别表示卵被宿主发现的概率和宿主鸟发现寄生蛋的概率，Ｎp为鸟巢位置；

a. 初始设置

获取检索图像库中的图像J并初始化变量；

b.查询模块

提取图像库中所有J的底层特征，即边缘、纹理和颜色等特征，存入库中；

c. 检索模块

利用欧氏距离度量用户选取的Q与J的相似度，输出和用户选取的Q最相似的前N幅图像

d. 标注模块

d.1 结合DE的思想，使用MABC算法将全局的OS引入到搜索过程中，具体方法如下：

其中，

表示当前的OS，引入OS能取得较优良的FS；

d.2 应用MABC-Kmeans算法对图像库施行聚类操作：

d.2.1 初始化参数EB、OB、SB、K、MCN和Limit，产生初始解集

，计算每个解的

；

d.2.2 SB邻域搜索产生新的解

，计算新解

的

，判断

是否优于

，如果CSO优于原来解，则

替换

，否则，保持

不变；

d.2.3 计算各个解的

，OB根据概率选择相应的聚类点，并进行邻域搜索，计算新的聚类点的

进行食物源的选择，如果当前收益解小于OS，则用当前的收益替换原有的收益：

d.2.4 判断终止条件达到与否，如果MABC到达了最大循环次数，输出最优的聚类中心点；

d.2.5 把MABC产生的聚类中心点作为Kmeans的中心，对算法初始化操作，计算Kmeans算法在该中心点下的

，将数据分配到算法

最大的簇中。

d.3 用户标注：

用户将最相似的N幅图像按其相关性，标记为PS和NS，从而筛选出PS所属类簇与NS所属类簇；

d.4 正例样本选取：

以标记的PS为聚类中心得到新的聚类，其中聚类个数n为用户标记的PS的数量，选取距离聚类中心最近的

个图像作为

，将从

个类簇中选取的

叠加，形成新

，

的个数

；

d.5 负例样本选取：

选取距离聚类中心最远的

个图像作为

，参考传统距离加权法，以距离大小作为标准，计算出各聚类中心与Q之间的

，经过归一化处理得到新的距离：

确定每类所选的

个数，以归一化处理后的

作为权值，进一步计算确定每类所选的

个数：

按照已经确定的

数从各类中选出相对应的图片组成负例样本

，将

个类所选出的负例样本相加，得到新的

集：

；

d.6 将正负例样本集组合成新的

，应用CS-SVM训练反馈；

e. 学习模块

e.1 利用CS优化SVM参数，构成新型分类器CS-SVM：

e.1.1 CS参数和种群初始化：

，

，

，

，然后随机产生一个种群，方式如下：

其中，“0”表示第0代，

和

分别代表第

个决策变量的上限和下限，

是一个产生介于0和1之间的随机数的函数，

为待优化函数

的维数；

e.1.2 读入样本集，利用Train进行SVM训练，求鸟巢的目标值，存储当前的OS，采用式

对Ｎp更新操作，并把获得的新Ｎp与之前的Ｎp进行比较，若优于

值，则保留为当前最优位置；

e.1.3 利用

函数产生随机数

，并与

比较，如

，Ｎp保持不变，反之Ｎp随机更改，产生新的Ｎp，并与宿主发现前的Ｎp对比，保留较优的Ｎp；

e.1.4 输出寻优得到的结果；

e.2 利用优化后得到的SVM参数对Train进行分类，将训练结果反馈给用户，当用户满意反馈结果时，输出完成。

本发明首先提取图像底层特征，并度量示例图像和图像库中图像的欧氏距离；其次，应用MABC-Kmeans算法对图像库施行聚类操作；然后，用户标注前N幅图像，产生正负例图像，应用距离加权法确定正负例样本，并形成正负例样本集；最后，应用CS-SVM算法对样本进行训练，把训练结果反馈给用户，继续进行标注直至其满意反馈结果。实验结果表明，本发明采用MABC-Kmeans算法进行样本筛选，减少了用户对样本的标记数量，有效提高了样本精度；采用CS-SVM算法对样本施行训练，有效提升了分类效果。

与现有技术相比，本发明具有以下有益效果：

第一，提出一种高效样本选取与参数优化的相关反馈图像检索方法，通过应用MABC-Kmeans算法筛选样本并用CS-SVM对样本进行分类，有效缓解了分类效果不好产生的反馈次数多以及用户标记量大等问题，提高了相关反馈图像检索算法的平均检索率；

第二，采用一种MABC算法对Kmeans进行优化（MABC-Kmeans），相较传统的K-means算法，加快了收敛速度，提升了全局搜索能力和聚类效果，对选择更具有代表性的未标注图片提供了更好的基础，进一步提升相关反馈图像检索算法的正确率和效率；

第三，采用CS优化SVM参数（CS-SVM），获得具有最优参数的分类器，大大减少SVM的时间复杂度，提升其分类效果，减少反馈次数。

附图说明

图1为本发明实施例人机交互检索界面。

图2为本发明实施例反馈前检索结果。

图3为本发明实施例第一次反馈后结果。

图4为本发明实施例第二次反馈后结果。

图5为本发明实施例第三次反馈后结果。

图6为本发明实施例第四次反馈后结果。

图7为本发明实施例与对比文献方法的第一次反馈查准率比较分析图。

图8为本发明实施例与对比文献方法的第二次反馈查准率比较分析图。

图9为本发明实施例与对比文献方法的第三次反馈查准率比较分析图。

图10为本发明实施例与对比文献方法的第四次反馈查准率比较分析图。

图11为本发明实施例的流程图。

具体实施方式

本发明的方法共包括四个模块：查询模块、检索模块、标注模块和学习模块。

约定：J和Q分别指图像库中的图像和示例图像；

表示Q和J之间的欧氏距离；

指适应度，

指初始解，

为侦查蜂邻域搜索产生的新解，CSO为当前解，

为各个解的概率值；

为训练样本集，

为正例样本，

为正例样本个数，

为负例样本；

为各聚类中心与目标图像之间的距离，

代表迭代次数，

代表最大迭代次数，

代表给定的种群数量，

和

具体步骤如图11所示：

a. 初始设置

获取检索图像库中的图像J并初始化变量；

c.查询模块

c. 检索模块

d. 标注模块

其中，

表示当前的OS，引入OS能取得较优良的FS；

d.2 应用MABC-Kmeans算法对图像库施行聚类操作：

d.2.1 初始化参数EB、OB、SB、K、MCN和Limit，产生初始解集

，计算每个解的

；

d.2.2 SB邻域搜索产生新的解

，计算新解

的

，判断

是否优于

，如果CSO优于原来解，则

替换

，否则，保持

不变；

d.2.3 计算各个解的

，将数据分配到算法

最大的簇中。

d.3 用户标注：

d.4 正例样本选取：

个图像作为

，将从

个类簇中选取的

叠加，形成新

，

的个数

；

d.5 负例样本选取：

选取距离聚类中心最远的

个图像作为

，经过归一化处理得到新的距离：

确定每类所选的

个数，以归一化处理后的

作为权值，进一步计算确定每类所选的

个数：

按照已经确定的

数从各类中选出相对应的图片组成负例样本

，将

个类所选出的负例样本相加，得到新的

集：

；

d.6 将正负例样本集组合成新的

，应用CS-SVM训练反馈；

e. 学习模块

e.1 利用CS优化SVM参数，构成新型分类器CS-SVM：

e.1.1 CS参数和种群初始化：

，

，

，

，然后随机产生一个种群，方式如下：

其中，“0”表示第0代，

和

分别代表第

个决策变量的上限和下限，

是一个产生介于0和1之间的随机数的函数，

为待优化函数

的维数；

值，则保留为当前最优位置；

e.1.3 利用

函数产生随机数

，并与

比较，如

e.1.4 输出寻优得到的结果；

实验测试和参数设置：

本实验是在Matlab R2011a 环境下执行的，实验中所涉及到的图像来自Caltech图像库和Corel图像库，图像尺寸大小不一，本发明设计使得程序可对任意尺寸的图像进行处理。

图1为本发明实施例人机交互检索界面。

图2为本发明实施例反馈前检索结果。

图3为本发明实施例第一次反馈后结果。

图4为本发明实施例第二次反馈后结果。

图5为本发明实施例第三次反馈后结果。

图6为本发明实施例第四次反馈后结果。

图7~图10所述对比文献如下：

[1] Liu R, Wang Y, Baba T, et al. SVM-based active feedback in imageretrieval using clustering and unlabeled data. Pattern Recognition, 2008, 41(8): 2645-265。

[2] Wang X Y, Chen J W, Yang H Y. A new integrated SVM classifiersfor relevance feedback content-based image retrieval using EM parameterestimation. Applied Soft Computing, 2011, 11(2): 2787-2804。

[3] 李永威. 基于多层次特征的彩色图像检索关键技术研究(硕士学位论文).大连：辽宁师范大学, 2014。

[4] 李威仪. 基于内容的图像检索理论与关键技术研究(硕士学位论文). 大连：辽宁师范大学, 2016。

Claims

1.一种基于高效样本选取与参数优化的相关反馈图像检索方法，其特征在于按照以下步骤进行：

定义：J和Q分别指图像库中的图像和示例图像；S(Q,J)表示Q和J之间的欧氏距离；f_i(Q)、f_i(J)分别指Q和J的特征向量在第i个分量处的值；PS和NS分别代表正例样本和负例样本；MABC为改进的人工蜂群算法；DE为差分算法；OS表示最优解，FS表示可行解；EB表示雇佣蜂，OB表示跟随蜂，SB表示侦查蜂；K指聚类类别数，MCN指最大迭代次数，Limit指控制参数，fit_i指适应度，x_i指初始解，v_i为侦查蜂邻域搜索产生的新解，CSO为当前解，P_i为各个解的概率值；T为训练样本集，T_正为正例样本，T_num为正例样本个数，T_负为负例样本；dl为各聚类中心与目标图像之间的距离，xdl_i为归一化后的距离；CS指布谷鸟算法；Train和Test分别表示训练样本和测试样本；N_iter代表迭代次数，N_IterTotal代表最大迭代次数，num代表给定的种群数量，p和p_a分别表示卵被宿主发现的概率和宿主鸟发现寄生蛋的概率，Np为鸟巢位置；

a.初始设置

获取检索图像库中的图像J并初始化变量；

b.查询模块

提取图像库中所有J的底层特征，存入库中；

c.检索模块

d.标注模块

d.1结合DE的思想，使用MABC算法将全局的OS引入到搜索过程中，具体方法如下：

v_ij＝x_ij+(1-rand(0,1))(x_kj-x_ij)+rand(0,1)(Gbest_j-x_ij)

其中，Gbest_j表示当前的OS，引入OS能取得较优良的FS；

d.2应用MABC-Kmeans算法对图像库施行聚类操作：

d.2.1初始化参数EB、OB、SB、K、MCN和Limit，产生初始解集x_i(i＝1,2,…,K)，计算每个解的fit_i；

d.2.2 SB邻域搜索产生新的解v_i，计算新解v_i的fit_i，判断fit_i是否优于x_i，如果CSO优于原来解，则v_i替换x_i，否则，保持x_i不变；

d.2.3计算各个解的P_i，OB根据概率选择相应的聚类点，并进行邻域搜索，计算新的聚类点的fit_i进行食物源的选择，如果当前收益解小于OS，则用当前的收益替换原有的收益：

d.2.4判断终止条件达到与否，如果MABC到达了最大循环次数，输出最优的聚类中心点；

d.2.5把MABC产生的聚类中心点作为Kmeans的中心，对算法初始化操作，计算Kmeans算法在该中心点下的fit_i，将数据分配到算法fit_i最大的簇中；

d.3用户标注：

d.4正例样本选取：

以标记的PS为聚类中心得到新的聚类，其中聚类个数n为用户标记的PS的数量，选取距离聚类中心最近的h个图像作为T_正，将从n_正个类簇中选取的T_正叠加，形成新T_{正例样本集}：

T_正的个数T_num＝hK；

d.5负例样本选取：

选取距离聚类中心最远的g个图像作为T_负，参考传统距离加权法，以距离大小作为标准，计算出各聚类中心与Q之间的dl_{i(i＝1，2，…，K)}，经过归一化处理得到新的距离：

确定每类所选的T_负个数，以归一化处理后的xdl_i作为权值，进一步计算确定每类所选的T_负个数：

g＝xdl_i×T_num,(i＝1，2，…，K)

按照已经确定的T_负数从各类中选出相对应的图片组成负例样本T_负，将K个类所选出的负例样本相加，得到新的T_负集：

d.6将正负例样本集组合成新的Train：Train＝T_正例样本∪T_负例样本，应用CS-SVM训练反馈；

e.学习模块

e.1利用CS优化SVM参数，构成新型分类器CS-SVM：

e.1.1 CS参数和种群初始化：N_iter＝0，N_IterTotal＝200，num＝30，p＝0.25，然后随机产生一个种群，方式如下：

其中，“0”表示第0代，up(j)和low(j)分别代表第j个决策变量的上限和下限，rand()是一个产生介于0和1之间的随机数的函数，d为待优化函数f(x)的维数；

e.1.2读入样本集，利用Train进行SVM训练，求鸟巢的目标值，存储当前的OS，采用式

对Np更新操作，并把获得的新Np与之前的Np进行比较，若优于fit_i值，则保留为当前最优位置；

e.1.3利用rand()函数产生随机数r∈[0,1]，并与p_a比较，如r>p_a，Np保持不变，反之Np随机更改，产生新的Np，并与宿主发现前的Np对比，保留较优的Np；

e.1.4输出寻优得到的结果；

e.2利用优化后得到的SVM参数对Train进行分类，将训练结果反馈给用户，当用户满意反馈结果时，输出完成。