CN108121781B - 基于高效样本选取与参数优化的相关反馈图像检索方法 - Google Patents
基于高效样本选取与参数优化的相关反馈图像检索方法 Download PDFInfo
- Publication number
- CN108121781B CN108121781B CN201711363543.XA CN201711363543A CN108121781B CN 108121781 B CN108121781 B CN 108121781B CN 201711363543 A CN201711363543 A CN 201711363543A CN 108121781 B CN108121781 B CN 108121781B
- Authority
- CN
- China
- Prior art keywords
- new
- sample
- algorithm
- images
- solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于高效样本选取与参数优化的相关反馈图像检索方法,首先提取图像底层特征,并度量示例图像和图像库中图像的欧氏距离;其次,应用MABC‑Kmeans算法对图像库施行聚类操作;然后,用户标注前N幅图像,产生正负例图像,应用距离加权法确定正负例样本,并形成正负例样本集;最后,应用CS‑SVM算法对样本进行训练,把训练结果反馈给用户,继续进行标注直至其满意反馈结果。实验结果表明,本发明方法采用MABC‑Kmeans算法进行样本筛选,减少了用户对样本的标记数量,有效提高了样本精度;采用CS‑SVM算法对样本施行训练,有效提升了分类效果。
Description
技术领域
本发明属于数字图像检索技术领域,涉及基于内容的相关反馈图像检索方法,特别涉及一种基于高效样本选取与参数优化的相关反馈图像检索方法。
背景技术
在Internet技术急速普及的今天,网络数字图像每天以数千兆字节速度增长,且已渗透到人们的日常生活中,多媒体技术的应用以及图像信息促使人们急需优秀的技术用于筛选所需信息。因此,如何高效精准地分类和检索出大量的数字图像源是人们共同关注的热点问题,而基于内容的图像检索(CBIR)则是当下解决该问题的主要技术。
CBIR与传统需要人工标注的基于文本的图像检索(TBIR)相比,避免了不同人对同一图像产生不同理解而引起的标注差异,且更加注重图像的边缘、纹理和颜色等固有的底层特征。但图像的信息不单指底层特征,还含有人类视觉主观感受且尤为重要。如何良好的解决底层视觉特征和人类的视觉主观感受的差距问题,即缓解语义鸿沟问题,目前已成为学者最关注的问题之一,相关反馈图像检索技术应运而生。
近年来,相关反馈图像检索方法可归结为下列四类:查询权重调整法,移动查询点法,查询扩展法和支持向量机(SVM)法,其中支持向量机法相对其他几类方法具有更高的检索能力和更好的检索结果。但现有的基于支持向量机的相关反馈图像检索方法仍然存在时间复杂度高、样本选择效率和查准率较低等不足,如何降低时间复杂度,提升样本选择效率和检索查准率是现阶段急需解决的问题。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种基于高效样本选取与参数优化的相关反馈图像检索方法。
本发明的技术解决方案是:一种基于高效样本选取与参数优化的相关反馈图像检索方法,其特征在于按如下步骤进行:
约定:J和Q分别指图像库中的图像和示例图像;表示Q和J之间的欧氏距离;分别指Q和J的特征向量在第i个分量处的值;PS和NS分别代表正例样本和负例样本;MABC为改进的人工蜂群算法;DE为差分算法;OS表示最优解,FS表示可行解;EB表示雇佣蜂,OB表示跟随蜂,SB表示侦查蜂;K指聚类类别数,MCN指最大迭代次数,Limit指控制参数,指适应度,指初始解,为侦查蜂邻域搜索产生的新解,CSO为当前解,为各个解的概率值;为训练样本集,为正例样本,为正例样本个数,为负例样本;为各聚类中心与目标图像之间的距离,为归一化后的距离;CS指布谷鸟算法;Train和 Test分别表示训练样本和测试样本;代表迭代次数,代表最大迭代次数,代表给定的种群数量,和分别表示卵被宿主发现的概率和宿主鸟发现寄生蛋的概率,Np为鸟巢位置;
a. 初始设置
获取检索图像库中的图像J并初始化变量;
b.查询模块
提取图像库中所有J的底层特征,即边缘、纹理和颜色等特征,存入库中;
c. 检索模块
利用欧氏距离度量用户选取的Q与J的相似度,输出和用户选取的Q最相似的前N幅图像
d. 标注模块
d.1 结合DE的思想,使用MABC算法将全局的OS引入到搜索过程中,具体方法如下:
d.2 应用MABC-Kmeans算法对图像库施行聚类操作:
d.2.4 判断终止条件达到与否,如果MABC到达了最大循环次数,输出最优的聚类中心点;
d.3 用户标注:
用户将最相似的N幅图像按其相关性,标记为PS和NS,从而筛选出PS所属类簇与NS所属类簇;
d.4 正例样本选取:
d.5 负例样本选取:
e. 学习模块
e.1 利用CS优化SVM参数,构成新型分类器CS-SVM:
e.1.4 输出寻优得到的结果;
e.2 利用优化后得到的SVM参数对Train进行分类,将训练结果反馈给用户,当用户满意反馈结果时,输出完成。
本发明首先提取图像底层特征,并度量示例图像和图像库中图像的欧氏距离;其次,应用MABC-Kmeans算法对图像库施行聚类操作;然后,用户标注前N幅图像,产生正负例图像,应用距离加权法确定正负例样本,并形成正负例样本集;最后,应用CS-SVM算法对样本进行训练,把训练结果反馈给用户,继续进行标注直至其满意反馈结果。实验结果表明,本发明采用MABC-Kmeans算法进行样本筛选,减少了用户对样本的标记数量,有效提高了样本精度;采用CS-SVM算法对样本施行训练,有效提升了分类效果。
与现有技术相比,本发明具有以下有益效果:
第一,提出一种高效样本选取与参数优化的相关反馈图像检索方法,通过应用MABC-Kmeans算法筛选样本并用CS-SVM对样本进行分类,有效缓解了分类效果不好产生的反馈次数多以及用户标记量大等问题,提高了相关反馈图像检索算法的平均检索率;
第二,采用一种MABC算法对Kmeans进行优化(MABC-Kmeans),相较传统的K-means算法,加快了收敛速度,提升了全局搜索能力和聚类效果,对选择更具有代表性的未标注图片提供了更好的基础,进一步提升相关反馈图像检索算法的正确率和效率;
第三,采用CS优化SVM参数(CS-SVM),获得具有最优参数的分类器,大大减少SVM的时间复杂度,提升其分类效果,减少反馈次数。
附图说明
图1为本发明实施例人机交互检索界面。
图2为本发明实施例反馈前检索结果。
图3为本发明实施例第一次反馈后结果。
图4为本发明实施例第二次反馈后结果。
图5为本发明实施例第三次反馈后结果。
图6为本发明实施例第四次反馈后结果。
图7为本发明实施例与对比文献方法的第一次反馈查准率比较分析图。
图8为本发明实施例与对比文献方法的第二次反馈查准率比较分析图。
图9为本发明实施例与对比文献方法的第三次反馈查准率比较分析图。
图10为本发明实施例与对比文献方法的第四次反馈查准率比较分析图。
图11为本发明实施例的流程图。
具体实施方式
本发明的方法共包括四个模块:查询模块、检索模块、标注模块和学习模块。
约定:J和Q分别指图像库中的图像和示例图像;表示Q和J之间的欧氏距离;分别指Q和J的特征向量在第i个分量处的值;PS和NS分别代表正例样本和负例样本;MABC为改进的人工蜂群算法;DE为差分算法;OS表示最优解,FS表示可行解;EB表示雇佣蜂,OB表示跟随蜂,SB表示侦查蜂;K指聚类类别数,MCN指最大迭代次数,Limit指控制参数,指适应度,指初始解,为侦查蜂邻域搜索产生的新解,CSO为当前解,为各个解的概率值;为训练样本集,为正例样本,为正例样本个数,为负例样本;为各聚类中心与目标图像之间的距离,为归一化后的距离;CS指布谷鸟算法;Train和 Test分别表示训练样本和测试样本;代表迭代次数,代表最大迭代次数,代表给定的种群数量,和分别表示卵被宿主发现的概率和宿主鸟发现寄生蛋的概率,Np为鸟巢位置;
具体步骤如图11所示:
a. 初始设置
获取检索图像库中的图像J并初始化变量;
c.查询模块
提取图像库中所有J的底层特征,即边缘、纹理和颜色等特征,存入库中;
c. 检索模块
利用欧氏距离度量用户选取的Q与J的相似度,输出和用户选取的Q最相似的前N幅图像
d. 标注模块
d.1 结合DE的思想,使用MABC算法将全局的OS引入到搜索过程中,具体方法如下:
d.2 应用MABC-Kmeans算法对图像库施行聚类操作:
d.2.4 判断终止条件达到与否,如果MABC到达了最大循环次数,输出最优的聚类中心点;
d.3 用户标注:
用户将最相似的N幅图像按其相关性,标记为PS和NS,从而筛选出PS所属类簇与NS所属类簇;
d.4 正例样本选取:
d.5 负例样本选取:
e. 学习模块
e.1 利用CS优化SVM参数,构成新型分类器CS-SVM:
e.1.4 输出寻优得到的结果;
e.2 利用优化后得到的SVM参数对Train进行分类,将训练结果反馈给用户,当用户满意反馈结果时,输出完成。
实验测试和参数设置:
本实验是在Matlab R2011a 环境下执行的,实验中所涉及到的图像来自Caltech图像库和Corel图像库,图像尺寸大小不一,本发明设计使得程序可对任意尺寸的图像进行处理。
图1为本发明实施例人机交互检索界面。
图2为本发明实施例反馈前检索结果。
图3为本发明实施例第一次反馈后结果。
图4为本发明实施例第二次反馈后结果。
图5为本发明实施例第三次反馈后结果。
图6为本发明实施例第四次反馈后结果。
图7为本发明实施例与对比文献方法的第一次反馈查准率比较分析图。
图8为本发明实施例与对比文献方法的第二次反馈查准率比较分析图。
图9为本发明实施例与对比文献方法的第三次反馈查准率比较分析图。
图10为本发明实施例与对比文献方法的第四次反馈查准率比较分析图。
图7~图10所述对比文献如下:
[1] Liu R, Wang Y, Baba T, et al. SVM-based active feedback in imageretrieval using clustering and unlabeled data. Pattern Recognition, 2008, 41(8): 2645-265。
[2] Wang X Y, Chen J W, Yang H Y. A new integrated SVM classifiersfor relevance feedback content-based image retrieval using EM parameterestimation. Applied Soft Computing, 2011, 11(2): 2787-2804。
[3] 李永威. 基于多层次特征的彩色图像检索关键技术研究(硕士学位论文).大连:辽宁师范大学, 2014。
[4] 李威仪. 基于内容的图像检索理论与关键技术研究(硕士学位论文). 大连:辽宁师范大学, 2016。
Claims (1)
1.一种基于高效样本选取与参数优化的相关反馈图像检索方法,其特征在于按照以下步骤进行:
定义:J和Q分别指图像库中的图像和示例图像;S(Q,J)表示Q和J之间的欧氏距离;fi(Q)、fi(J)分别指Q和J的特征向量在第i个分量处的值;PS和NS分别代表正例样本和负例样本;MABC为改进的人工蜂群算法;DE为差分算法;OS表示最优解,FS表示可行解;EB表示雇佣蜂,OB表示跟随蜂,SB表示侦查蜂;K指聚类类别数,MCN指最大迭代次数,Limit指控制参数,fiti指适应度,xi指初始解,vi为侦查蜂邻域搜索产生的新解,CSO为当前解,Pi为各个解的概率值;T为训练样本集,T正为正例样本,Tnum为正例样本个数,T负为负例样本;dl为各聚类中心与目标图像之间的距离,xdli为归一化后的距离;CS指布谷鸟算法;Train和Test分别表示训练样本和测试样本;Niter代表迭代次数,N_IterTotal代表最大迭代次数,num代表给定的种群数量,p和pa分别表示卵被宿主发现的概率和宿主鸟发现寄生蛋的概率,Np为鸟巢位置;
a.初始设置
获取检索图像库中的图像J并初始化变量;
b.查询模块
提取图像库中所有J的底层特征,存入库中;
c.检索模块
利用欧氏距离度量用户选取的Q与J的相似度,输出和用户选取的Q最相似的前N幅图像
d.标注模块
d.1结合DE的思想,使用MABC算法将全局的OS引入到搜索过程中,具体方法如下:
vij=xij+(1-rand(0,1))(xkj-xij)+rand(0,1)(Gbestj-xij)
其中,Gbestj表示当前的OS,引入OS能取得较优良的FS;
d.2应用MABC-Kmeans算法对图像库施行聚类操作:
d.2.1初始化参数EB、OB、SB、K、MCN和Limit,产生初始解集xi(i=1,2,…,K),计算每个解的fiti;
d.2.2 SB邻域搜索产生新的解vi,计算新解vi的fiti,判断fiti是否优于xi,如果CSO优于原来解,则vi替换xi,否则,保持xi不变;
d.2.3计算各个解的Pi,OB根据概率选择相应的聚类点,并进行邻域搜索,计算新的聚类点的fiti进行食物源的选择,如果当前收益解小于OS,则用当前的收益替换原有的收益:
d.2.4判断终止条件达到与否,如果MABC到达了最大循环次数,输出最优的聚类中心点;
d.2.5把MABC产生的聚类中心点作为Kmeans的中心,对算法初始化操作,计算Kmeans算法在该中心点下的fiti,将数据分配到算法fiti最大的簇中;
d.3用户标注:
用户将最相似的N幅图像按其相关性,标记为PS和NS,从而筛选出PS所属类簇与NS所属类簇;
d.4正例样本选取:
d.5负例样本选取:
选取距离聚类中心最远的g个图像作为T负,参考传统距离加权法,以距离大小作为标准,计算出各聚类中心与Q之间的dli(i=1,2,…,K),经过归一化处理得到新的距离:
确定每类所选的T负个数,以归一化处理后的xdli作为权值,进一步计算确定每类所选的T负个数:
g=xdli×Tnum,(i=1,2,…,K)
d.6将正负例样本集组合成新的Train:Train=T正例样本∪T负例样本,应用CS-SVM训练反馈;
e.学习模块
e.1利用CS优化SVM参数,构成新型分类器CS-SVM:
e.1.1 CS参数和种群初始化:Niter=0,N_IterTotal=200,num=30,p=0.25,然后随机产生一个种群,方式如下:
其中,“0”表示第0代,up(j)和low(j)分别代表第j个决策变量的上限和下限,rand()是一个产生介于0和1之间的随机数的函数,d为待优化函数f(x)的维数;
e.1.3利用rand()函数产生随机数r∈[0,1],并与pa比较,如r>pa,Np保持不变,反之Np随机更改,产生新的Np,并与宿主发现前的Np对比,保留较优的Np;
e.1.4输出寻优得到的结果;
e.2利用优化后得到的SVM参数对Train进行分类,将训练结果反馈给用户,当用户满意反馈结果时,输出完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711363543.XA CN108121781B (zh) | 2017-12-18 | 2017-12-18 | 基于高效样本选取与参数优化的相关反馈图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711363543.XA CN108121781B (zh) | 2017-12-18 | 2017-12-18 | 基于高效样本选取与参数优化的相关反馈图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108121781A CN108121781A (zh) | 2018-06-05 |
CN108121781B true CN108121781B (zh) | 2021-09-24 |
Family
ID=62229277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711363543.XA Active CN108121781B (zh) | 2017-12-18 | 2017-12-18 | 基于高效样本选取与参数优化的相关反馈图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108121781B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002843A (zh) * | 2018-06-28 | 2018-12-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN109101602B (zh) * | 2018-08-01 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像检索模型训练方法、图像检索方法、设备及存储介质 |
CN109165309B (zh) * | 2018-08-06 | 2020-10-16 | 北京邮电大学 | 负例训练样本采集方法、装置及模型训练方法、装置 |
CN111680720B (zh) * | 2020-05-18 | 2022-03-08 | 中南大学 | 基于改进cs-svr模型的高炉铁水硅含量预测方法 |
CN112560998A (zh) * | 2021-01-19 | 2021-03-26 | 德鲁动力科技(成都)有限公司 | 针对目标检测的少样本数据扩增方法 |
CN112950601B (zh) * | 2021-03-11 | 2024-01-09 | 成都微识医疗设备有限公司 | 用于食管癌模型训练的图片的筛选方法、系统及存储介质 |
CN116796214B (zh) * | 2023-06-07 | 2024-01-30 | 南京北极光生物科技有限公司 | 一种基于差分特征的数据聚类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110122A (zh) * | 2009-12-24 | 2011-06-29 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
CN103761503A (zh) * | 2013-12-28 | 2014-04-30 | 辽宁师范大学 | 用于相关反馈图像检索的自适应训练样本选取方法 |
CN103902704A (zh) * | 2014-03-31 | 2014-07-02 | 华中科技大学 | 面向大规模图像视觉特征的多维倒排索引与快速检索算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2381343A (en) * | 2001-07-30 | 2003-04-30 | Oneoffshore Inc | Knowledge-Based System for Exchanging and Analysing Information in an Equipment Market. |
-
2017
- 2017-12-18 CN CN201711363543.XA patent/CN108121781B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110122A (zh) * | 2009-12-24 | 2011-06-29 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
CN103761503A (zh) * | 2013-12-28 | 2014-04-30 | 辽宁师范大学 | 用于相关反馈图像检索的自适应训练样本选取方法 |
CN103902704A (zh) * | 2014-03-31 | 2014-07-02 | 华中科技大学 | 面向大规模图像视觉特征的多维倒排索引与快速检索算法 |
Non-Patent Citations (1)
Title |
---|
一种基于区域综合特征的彩色图像检索方法;王向阳 等;《小型微型计算机系统》;20170228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108121781A (zh) | 2018-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121781B (zh) | 基于高效样本选取与参数优化的相关反馈图像检索方法 | |
CN109389037B (zh) | 一种基于深度森林和迁移学习的情感分类方法 | |
Alameda-Pineda et al. | Recognizing emotions from abstract paintings using non-linear matrix completion | |
CN109615014B (zh) | 一种基于kl散度优化的3d物体数据分类系统与方法 | |
Chen et al. | Tag-based image retrieval improved by augmented features and group-based refinement | |
CN102073748B (zh) | 一种基于视觉关键词的遥感影像语义检索方法 | |
Wang et al. | Adaptive pruning of transfer learned deep convolutional neural network for classification of cervical pap smear images | |
CN102314614B (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
Vijayanarasimhan et al. | Cost-sensitive active visual category learning | |
CN114332568B (zh) | 域适应图像分类网络的训练方法、系统、设备及存储介质 | |
JP5212007B2 (ja) | 画像分類学習装置、画像分類学習方法、および画像分類学習システム | |
Zhu et al. | Video synopsis by heterogeneous multi-source correlation | |
CN110569982A (zh) | 一种基于元学习的主动采样方法 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN108492301A (zh) | 一种场景分割方法、终端及存储介质 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
Pang et al. | Camera invariant feature learning for unsupervised person re-identification | |
Yu et al. | Deep metric learning with dynamic margin hard sampling loss for face verification | |
CN108664968B (zh) | 一种基于文本选取模型的无监督文本定位方法 | |
Bui et al. | Deep manifold alignment for mid-grain sketch based image retrieval | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
Liu et al. | Fuzzy C-mean clustering algorithms based on Picard iteration and particle swarm optimization | |
CN115439919A (zh) | 模型更新方法、装置、设备、存储介质及程序产品 | |
CN113792574B (zh) | 一种基于度量学习和教师学生模型的跨数据集表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |