CN101236565A - 一种基于表示转换的多义数字图像检索方法 - Google Patents
一种基于表示转换的多义数字图像检索方法 Download PDFInfo
- Publication number
- CN101236565A CN101236565A CNA2008100207162A CN200810020716A CN101236565A CN 101236565 A CN101236565 A CN 101236565A CN A2008100207162 A CNA2008100207162 A CN A2008100207162A CN 200810020716 A CN200810020716 A CN 200810020716A CN 101236565 A CN101236565 A CN 101236565A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- vector
- retrieval
- digital picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 239000004744 fabric Substances 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 241000282816 Giraffa camelopardalis Species 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于表示转换的多义数字图像检索方法,该方法包括以下步骤:(1)用户从已有的多标记图像库中选择查询图像,包括相关图像和不相关图像;(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息;(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型;(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记,并利用所得预测结果进行检索返回检索图像;(5)如果用户对检索结果满意,则执行步骤6,否则从多标记图像库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。本发明基于表示转换技术,显式地处理图像的多种语义信息,解决了目前大部分图像检索方法只能处理单义图像的局限。
Description
技术领域
本发明涉及一种数字图像检索方法,特别涉及一种适用于多义数字图像的检索方法。
背景技术
随着计算机的数据收集以及处理能力的不断提高,数字图像的获取也变得越来越容易。因此,可用的数字图像正快速地增长并在越来越多的行业中得到了应用。图像检索技术是一种高效地辅助用户获取图像信息的方法,该方法通过用户提交给检索装置的查询图像,从图像库中快速、准确地找出其希望获得的图像并返回给用户。一种有效的图像检索策略是将检索过程看作一个学习过程,利用用户提交的查询图像作为学习所需的样本,使用机器学习技术学习得到一个预测模型从而实现对数字图像的检索。
目前的图像检索技术主要涉及单义数字图像,该类型的图像对应于单一的概念类,因此其语义是确定且没有歧义的。然而,在真实世界中,多义数字图像是广泛存在的。例如,一幅室内装饰图像可能同时对应于桌子、沙发、衣橱等多个概念类;一幅自然场景图像可能同时具有蓝天、太阳、山脉等多个概念标记;一幅野外生物图像可能同时隶属于草地、狮子、长颈鹿等多个类别。由于已有的数字图像检索技术只能处理单义数字图像,因此无法利用多义数字图像所蕴含的多种语义信息,不利于有效地进行检索从而获得与用户相关的图像。
发明内容
1、发明目的:本发明的目的是针对目前的数字图像检索技术只能处理单义数字图像的问题,提出一种能够有效处理多义数字图像的方法,该方法通过对图像的初始向量特征进行表示转换,显式地描述多义数字图像内嵌的各种语义信息,从而提高数字图像检索装置的性能。
2、技术方案:为实现上述目的,本发明所述的一种基于表示转换的多义数字图像检索方法,包括以下步骤:(1)用户从已有的多标记图像库中选择查询图像,包括相关图像和不相关图像;(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息;(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型;(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记,并利用所得预测结果进行检索返回检索图像;(5)如果用户对检索结果满意,则执行步骤6,否则从多标记图像库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。
3、有益效果:本发明给出了一种用于多义数字图像的检索方法,该方法基于表示转换技术,显式地处理图像的多种语义信息,解决了目前大部分图像检索方法只能处理单义图像的局限。
附图说明
图1是数字图像检索装置的工作流程图。
图2是本发明方法的流程图。
图3是本发明采用的数字图像表示转换的流程图。
图4是本发明使用的分类方法的流程图。
具体实施方式
下面将结合附图对最佳实施例进行详细说明。
如图1所示,数字图像存储设备中存放了待检索的数字图像,此外还存在一个多标记数字图像库,该图像库中含有一些多义数字图像,每个多义数字图像均对应了一组人工标注的概念标记。用户从多标记数字图像库中选取M幅查询图像提交给数字图像检索装置,其中一些为其感兴趣的相关图像而另外一些为其不感兴趣的非相关图像。可以使用数字图像处理教科书中的经典方法生成适当的图像特征,如颜色、纹理、形状等。由此,每幅图像可由一个特征向量进行表示。在得到图像特征后,采用表示转换的方法对多义数字图像进行处理,然后使用预设的分类方法训练得到相应的预测模型,基于此对数字图像存储设备中的待检索图像进行检索。如果用户对所得结果不满意,可以从多标记数字图像库中选取更多的查询图像反馈给数字图像检索装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的查询图像对应于集合S={(xi,Yi)|1≤i≤M},其中Yi为与图像对象xi相关的多义信息,由一组概念标记集合Yi{1,2,...,Q}表示(Q为所有可能的概念标记个数)。步骤11对所有的查询图像进行表示转换,以显式地描述图像对象的多义信息,其详细说明如图3所示。接下来步骤12从转换后的图像对象中使用预设的分类方法训练得到所需的预测模型,其详细说明如图4所示。步骤13利用训练得到的预测模型,对数字图像存储设备中的待检索图像进行检索。具体地说,检索装置首先采用与步骤11相同的方法将待检索图像进行表示转换,然后将转换后的图像对象提交给训练所得的模型进行预测。在得到待检索图像隶属的概念标记集合后,可以用多种方式来对待检索图像进行排序输出。其中一种直观的方法是考察待检索图像的概念标记集合与相关图像以及非相关图像的概念标记集合之间的相似性,如果与前者的相似性越高而与后者的相似性越低,则该待检索图像的排序就越靠前。在输出检索结果后,检索装置即进入步骤14所示的结束状态。
图3给出了图2中步骤11的详细描述,具体说明了如何对数字图像的向量特征进行表示转换。图3中的步骤1100是起始状态。步骤1101至1105构成了一个循环体,在循环的每一轮中生成与第q类对应的原型向量vq。其中,步骤1103首先构造集合Uq,如果某个图像对象(xi,Yi)含有标记q,则将向量xi置于该集合中。步骤1104将集合Uq中的所有向量求平均获得所需的原型向量vq。从直观上说,vq近似地描述了第q类的概要信息。在上述过程完成后,步骤1106至1109构成了另一个循环体,在循环的每一轮中对每个查询图像进行表示转换。具体来说,步骤1108基于原型向量将每个图像对象(xi,Yi)转换为新的表示形式(xi,Yi),其中xi由一个单一的向量变成了一组向量构成的集合Xi,集合所含向量由xi与各原型向量求差值获得。从直观上看,每个差值向量反映了xi与各个类之间的空间关系。在上述转换过程完成之后,初始的查询图像数据集S即变为了新的图像对象数据集Snew,如步骤1110所示。步骤1111是结束状态。
图4给出了图2中步骤12的详细描述,具体说明了如何使用预设的分类方法学习得到相应的预测模型。图4中的步骤1200是起始状态。步骤1201首先将数据集Snew中的所有图像对象对应的集合表示Xi(1≤i≤M)放入未标记数据集U中。然后,在给定集合中不同对象的距离度量方式后,即可基于机器学习与数据挖掘教科书中的经典非监督学习方法,对数据集U中的对象进行聚类,得到k个聚类中心Mi(1≤j≤k)。其中,聚类数目k由用户事先指定。这里,我们利用模式识别教科书中常用的Hausdorff距离来度量集合对象A与集合对象B之间的距离。该度量考察集合A中每个元素与集合B中所有元素的最近距离,以及集合B中每个元素与集合A中所有元素的最近距离。然后,将求得的所有最近距离的最大值作为A与B之间的最终距离。步骤1202至1205构成一个循环体,在循环的每一轮中利用聚类所得的结果将对象Xi转换为向量zi的表示形式,该向量的第j维zij对应于Xi与第j个聚类中心Mj之间的Hausdorff距离。在上述过程完成后,图像检索装置利用最小化误差平方和的方法训练预测模型的矩阵表示W,该矩阵的求解方程组如步骤1208所示,求解所需的矩阵Φ以及矩阵T的设置分别如步骤1206与1207所示。由于直接求解步骤1208所示的方程组可能遇到左端矩阵(ΦTΦ)不可逆的困难,因此这里采用了奇异值分解这一线性代数教科书中的经典方法来解决上述问题。步骤1209为结束状态。
熟知本领域的人士将理解,虽然这里为了便于解释已描述了具体实施例,但是可在不背离本发明精神和范围的情况下作出各种改变。因此,除了所附权利要求之外不能用于限制本发明。
Claims (3)
1、一种基于表示转换的多义数字图像检索方法,包括以下步骤:
(1)用户从已有的多标记图像库中选择查询图像,包括相关图像和不相关图像;
(2)使用表示转换的方法显式地描述查询图像蕴含的多义信息;
(3)使用预设的分类方法对转换后的查询图像进行学习得到一个预测模型;
(4)基于预测模型预测数字图像存储设备中待检索图像的概念标记,并利用所得预测结果进行检索返回检索图像;
(5)如果用户对检索结果满意,则执行步骤6,否则从多标记图像库中选择更多的查询图像进行反馈,执行步骤2;
(6)结束。
2、根据权利要求1所述的基于表示转换的多义数字图像检索方法,其特征是步骤(2)经历两个阶段,每个阶段对应于一个循环体:
(1)第一阶段对应的循环体包含了Q轮循环,其中Q为所有可能的概念标记个数,在循环的每一轮中,首先构造与当前所考察的概念标记q对应的数据集Uq,该集合由所有具有标记q的图像对象构成;然后将集合Uq中的所有图像向量求平均,得到与第q类对应的原型向量vq;
(2)第二阶段对应的循环体包含了M轮循环,其中M为用户选择的查询图像个数,在循环的每一轮中,基于上一阶段获得的原型向量vq,将第i幅图像采用的向量表示形式xi转换为向量集合表示形式Xi,其中,Xi中共包含Q个向量且每个向量对应于xi与某个原型向量vq之间的差值,其中1≤q≤Q,1≤i≤M;
在上述两个阶段完成以后,初始训练集S即转换成了新训练集Snew。
3、根据权利要求1所述的基于表示转换的多义数字图像检索方法,其特征是步骤(3)经历三个阶段:
(1)在第一阶段,首先将数据集Snew中所有图像对象的集合表示Xi放入未标记数据集U中;然后利用非监督机器学习方法对集合U进行聚类分析,得到k个聚类中心Mj;其中1≤i≤M,1≤j≤k;
(3)第二阶段对应于一个共有M轮的循环体,在循环的每一轮中,利用上一阶段所得的聚类结果,将图像对象的集合表示Xi转换为向量表示zi,其中,zi为一个k维的属性向量且其第j维zij取值为Xi与Mi之间的Hausdorff距离;
(4)在第三阶段,利用最小化误差平方和的方法训练预测模型的矩阵表示W;为了克服求解过程中可能出现的奇异矩阵所带来的困难,可以利用奇异值分解技术来对目标方程组进行求解;
在上述三个阶段完成以后,结合聚类结果以及矩阵表示W,即得到了所需的预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810020716A CN100592297C (zh) | 2008-02-22 | 2008-02-22 | 一种基于表示转换的多义数字图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810020716A CN100592297C (zh) | 2008-02-22 | 2008-02-22 | 一种基于表示转换的多义数字图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101236565A true CN101236565A (zh) | 2008-08-06 |
CN100592297C CN100592297C (zh) | 2010-02-24 |
Family
ID=39920183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810020716A Active CN100592297C (zh) | 2008-02-22 | 2008-02-22 | 一种基于表示转换的多义数字图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100592297C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102460511A (zh) * | 2009-06-10 | 2012-05-16 | 公立大学法人大阪府立大学 | 用于物体识别的图像数据库的制作方法、制作装置以及制作程序 |
CN105069133A (zh) * | 2015-08-18 | 2015-11-18 | 东南大学 | 一种基于未标记数据的数字图像分类方法 |
CN106557728A (zh) * | 2015-09-30 | 2017-04-05 | 佳能株式会社 | 查询图像处理和图像检索方法和装置以及监视系统 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN111309956A (zh) * | 2017-02-13 | 2020-06-19 | 哈尔滨理工大学 | 一种面向图像检索的提取方法 |
WO2022007596A1 (zh) * | 2020-07-07 | 2022-01-13 | 华为技术有限公司 | 图像检索系统、方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606623B1 (en) * | 1999-04-09 | 2003-08-12 | Industrial Technology Research Institute | Method and apparatus for content-based image retrieval with learning function |
CN100392657C (zh) * | 2006-05-10 | 2008-06-04 | 南京大学 | 数字图像检索中的主动半监督相关反馈方法 |
CN100401302C (zh) * | 2006-09-14 | 2008-07-09 | 浙江大学 | 基于标注重要性次序的图像语义自动标注方法 |
-
2008
- 2008-02-22 CN CN200810020716A patent/CN100592297C/zh active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102460511A (zh) * | 2009-06-10 | 2012-05-16 | 公立大学法人大阪府立大学 | 用于物体识别的图像数据库的制作方法、制作装置以及制作程序 |
CN102460511B (zh) * | 2009-06-10 | 2014-04-16 | 公立大学法人大阪府立大学 | 用于物体识别的图像数据库的制作方法以及制作装置 |
CN105069133A (zh) * | 2015-08-18 | 2015-11-18 | 东南大学 | 一种基于未标记数据的数字图像分类方法 |
CN105069133B (zh) * | 2015-08-18 | 2018-09-14 | 东南大学 | 一种基于未标记数据的数字图像分类方法 |
CN106557728A (zh) * | 2015-09-30 | 2017-04-05 | 佳能株式会社 | 查询图像处理和图像检索方法和装置以及监视系统 |
CN106557728B (zh) * | 2015-09-30 | 2019-06-18 | 佳能株式会社 | 查询图像处理和图像检索方法和装置以及监视系统 |
CN111309956A (zh) * | 2017-02-13 | 2020-06-19 | 哈尔滨理工大学 | 一种面向图像检索的提取方法 |
CN111309956B (zh) * | 2017-02-13 | 2022-06-24 | 哈尔滨理工大学 | 一种面向图像检索的提取方法 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN108319633B (zh) * | 2017-11-17 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
WO2022007596A1 (zh) * | 2020-07-07 | 2022-01-13 | 华为技术有限公司 | 图像检索系统、方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN100592297C (zh) | 2010-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Unsupervised video summarization with attentive conditional generative adversarial networks | |
CN100592297C (zh) | 一种基于表示转换的多义数字图像检索方法 | |
Li et al. | Lstm-cf: Unifying context modeling and fusion with lstms for rgb-d scene labeling | |
Yan et al. | Active learning from crowds | |
CN102508909B (zh) | 一种基于多智能算法及图像融合技术的图像检索方法 | |
Mensink et al. | Learning structured prediction models for interactive image labeling | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN109598939B (zh) | 一种基于多任务多视图学习模型的短时交通预测方法 | |
CN105354202B (zh) | 数据推送方法及装置 | |
CN109063112A (zh) | 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法 | |
CN101853295A (zh) | 一种图像检索方法 | |
CN110909787A (zh) | 基于聚类的进化算法进行多目标批调度优化的方法和系统 | |
CN109919112A (zh) | 一种复杂场景中流动人群的分布与计数检测的方法 | |
CN107145519A (zh) | 一种基于超图的图像检索与标注方法 | |
CN105260746A (zh) | 一种可扩展的多层集成多标记学习系统 | |
Vo et al. | Active learning strategies for weakly-supervised object detection | |
CN110929885A (zh) | 一种面向智慧校园的分布式机器学习模型参数聚合方法 | |
CN103942214A (zh) | 基于多模态矩阵填充的自然图像分类方法及装置 | |
CN104331717B (zh) | 一种整合特征字典结构与视觉特征编码的图像分类方法 | |
US20240037918A1 (en) | Multi-view fine-grained identification method, apparatus, electronic device and medium | |
CN106919647A (zh) | 一种基于聚类的网络结构相似性推荐方法 | |
CN105069133A (zh) | 一种基于未标记数据的数字图像分类方法 | |
CN113377884B (zh) | 基于多智能体增强学习的事件语料库提纯方法 | |
CN114691327A (zh) | 面向两阶段任务调度的多目标群智能优化方法与系统 | |
CN113239219B (zh) | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |