CN101587478A - 图像训练、自动标注、检索方法及装置 - Google Patents
图像训练、自动标注、检索方法及装置 Download PDFInfo
- Publication number
- CN101587478A CN101587478A CNA2008101007214A CN200810100721A CN101587478A CN 101587478 A CN101587478 A CN 101587478A CN A2008101007214 A CNA2008101007214 A CN A2008101007214A CN 200810100721 A CN200810100721 A CN 200810100721A CN 101587478 A CN101587478 A CN 101587478A
- Authority
- CN
- China
- Prior art keywords
- image
- connection
- matrix
- projected
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000002372 labelling Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 240
- 239000013598 vector Substances 0.000 claims abstract description 190
- 238000003709 image segmentation Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 34
- 238000005295 random walk Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000002156 mixing Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 101100449929 Mus musculus Guca1a gene Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种图像训练、自动标注、检索方法及装置,该训练方法包括:对第一图像执行分割操作;提取所有图像区域的图像特征向量和文本特征向量,得到图像特征矩阵和文本特征矩阵;将图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的图像特征矩阵和文本特征矩阵;保存投影后的图像特征矩阵和文本特征矩阵;建立图像区域之间的第一连接,建立第一图像与图像区域的第二连接,建立第一图像与标注的第三连接,建立标注之间的第四连接;计算上述建立的所有连接的权重;根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图。本发明实现了快速、准确地图像训练、图像自动标注和检索。
Description
技术领域
本发明涉及图像处理技术领域,特别是一种图像训练、自动标注、检索方法及装置。
背景技术
随着网络的快速发展,以及数字图像传感器在手机和消费级相机上越来越多的使用,产生了海量的数码图像资源。
大量积累起来的图像数据意味着需要一种有效实用的图像检索系统,因此出现了基于内容的图像检索(CBIR)领域研究,提取出图像中显著的语意内容,以供用户访问和查询。
在最初阶段,CBIR以基于相似度的图像检索为基础,即用户输入为图像、颜色或简略图,检索结果为相似图像,然而CBIR并不实用,主要有两大原因:
首先,需要用户自己要有一幅图像,或者具备准确挑选颜色和描述草图的技能,这对用户本身提出很高的要求,具有局限性,限制了系统的普及。
其次,基于相似度的图像检索依赖于底层图像相似性的比较,但是由于底层特征和高层图像信息之间的语意差异,很容易造成检索结果在视觉上相似,语意却相隔甚远,极大的影响检索结果的准确性。
为了解决SBIR中的问题,研发人员提出了一种基于图像标注的检索系统,它对图像数据使用文本信息进行标注,使得通过文本进行图像检索成为可能。这种方法降低了对用户能力的限制,用户只需要输入关键字即可进行检索。
现有的自动图像标注方法如下所示,包括:
方式一、基于元数据(如数码相机拍摄时与图像关联的时间和GPS信息,图像名以及数字文档形式中与图像相关的文本等)的自动标注;和
方式二、在训练阶段使用计算机视觉和机器学习技术推导出文字和图片之间存在的复杂联系后,利用该联系对训练阶段没有出现的图像进行自动标注。
但是,基于元数据的自动标注存在以下问题:
图像元数据和图像所描绘的内容很可能不相关,降低了图像标注的质量;
只能应用于有文本相连的图像,严重限制了应用场景。
由于方式一中存在不可避免的缺陷,因此,出现了方式二,其是对方式一的改进,详细描述如下。
在训练阶段使用计算机视觉和机器学习技术推导出文字和图片之间存在的复杂联系后,利用该联系对训练阶段没有出现的图像进行自动标注的方法包括如下步骤:
步骤A,使用区域分割方法对图像进行划分,并对每一区域计算特征矢量;
步骤B,在训练阶段,每个区域与它最近的k个邻居在图上相连,同时图像与其相关的每一个真实标注在图上相连;
步骤C,在自动标注阶段,使用可重启的随机游动算法(RWR)遍历已构建的图,获取对应的标注。
上述的方法具体参见:J.Y.Pan,H.J.Yang,C.Faloutsos,and P.Duygulu,“GCap:Graph-based automatic image captioning,”in Proc.of the 4th InternationalWorkshop on Multimedia Data and Document Engineering(MDDE),inconjunction with Computer Vision Pattern Recognition Conference(CVPR’04),2004.
GCap算法的理论基础如下:对应于已标注图像(测试图像)的节点的访问次数会超过其他节点。因此,检查标注节点的访问次数就能够找到相关性最强的标注。
然而,利用上述的方法训练得到的图,很可能会在图中出现错误连接的图像区域,从而降低标注的准确性。
发明内容
本发明实施例的目的是提供一种图像训练、自动标注、检索方法及装置,提高图像自动标注、检索的准确性。
为了实现上述目的,本发明实施例提供了一种图像训练方法,包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
提取所有图像区域的图像特征向量和文本特征向量,得到图像特征矩阵和文本特征矩阵;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存所述投影后的图像特征矩阵和文本特征矩阵;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接;
计算上述建立的所有连接的权重;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图。
为了实现上述目的,本发明实施例还提供了一种图像训练装置,包括:
图像分割模块,用于对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
特征向量提取模块,提取所有图像区域的图像特征向量和文本特征向量,得到图像特征矩阵和文本特征矩阵;
子空间投影模块将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存模块,用于保存所述投影后的图像特征矩阵和文本特征矩阵;
图构建模块,用于根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接,还计算上述建立的所有连接的权重,并根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像自动标注方法,用于对输入的第二图像进行自动标注,包括预处理步骤、图更新步骤和标注步骤,其中:
所述预处理步骤具体包括:
接收第二图像;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域后,提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵;
所述图更新步骤具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接;
根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接;
确定所述第五连接和第六连接的连接权重;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图;
所述标注步骤具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的标注;
使用所述预定数目的标注节点对应的关键词标注所述第二图像。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像自动标注装置,用于对输入的第二图像进行自动标注,所述装置包括预处理模块、图更新模块和标注模块,其中:
所述预处理模块具体包括:
接收第二图像的单元;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域的单元;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵的单元;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵的单元;
所述图更新模块具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接,病根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接的单元;
确定所述第五连接和第六连接的连接权重的单元;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图的单元;
所述标注模块具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的标注的单元;
使用所述预定数目的标注节点对应的关键词标注所述第二图像的单元。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像检索方法,用于基于输入的第二图像进行检索,所述方法包括预处理步骤、图更新步骤和检索步骤,其中:
所述预处理步骤具体包括:
接收第二图像;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵;
所述图更新步骤具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接;
根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接;
确定所述第五连接和第六连接的连接权重;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图;
所述检索步骤具体为:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取并输出与所述第二图像关系最密切的预定数目的图像。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像检索装置,用于对输入的第二图像进行检索,所述装置包括预处理模块、图更新模块和标注模块,其中:
所述预处理模块具体包括:
接收第二图像的单元;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域的单元;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵的单元;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵的单元;
所述图更新模块具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接的单元;
根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接的单元;
确定所述第五连接和第六连接的连接权重的单元;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图的单元;
所述检索模块具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的图像的单元。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像检索方法,用于在输入为检索用关键词的情况下进行图像检索,所述方法检索步骤,其中:
所述检索步骤具体为:
创建对应于所述检索用关键词的重启向量,基于所述图,使用可重启的随机游走算法获取与所述检索用关键词关系最密切的预定数目的图像。
为了实现上述目的,本发明实施例还提供了一种应用上述训练方法的图像训练装置,用于在输入为检索用关键词的情况下进行图像检索,所述装置包括检索模块,具体用于:
创建对应于所述检索用关键词的重启向量,基于所述图,使用可重启的随机游走算法获取与所述检索用关键词关系最密切的预定数目的图像。
本发明实施例具有以下的有益效果:
1、本发明实施例的图像训练、自动标注、检索方法及装置中,在训练阶段,将图像区域的图像特征向量和文本特征向量投影到同一子空间,以最大化图像特征与文本特征的协方差,为图像特征向量与文本特征向量降维,加快了图的构建速度,也提高了图像标注与检索的速度,同时,还增强了图像与文本数据间的一致性,从而能更加鲁棒地构建图,最终获得更高的图像标注精度与图像检索精度。
2、本发明实施例的图像训练、自动标注、检索方法及装置中,使用的子空间为规范共变子空间,其能为具有相似画面的图像区域提供更密切的关系,从而减少了区域节点到区域节点的最近邻连接的误差。
3、本发明实施例的图像训练、自动标注、检索方法及装置中,在建立图像区域节点之间的连接时,连接所对应的图像区域节点的画面差异越大,则权值越小,使得与当前图像区域节点画面差异较大的图像区域节点给当前图像区域节点施加的影响的强度较小,在后续的RWR算法的多次访问后,能保证输出正确的标注和/或检索的结果。
4、本发明实施例的图像训练、自动标注、检索方法及装置中,建立图像节点与它的所有标注节点间的连接时,连接对应的标注节点出现的次数越多,权值越小,能克服对频繁词汇的偏爱,以实现更加准确的自动标注。
附图说明
图1为本发明实施例的图像训练装置的结构示意图;
图2为本发明实施例中把原图像划分成多个矩形块后的示意图;
图3为本发明实施例中把原图像划分成多分辨率四叉树子块的示意图;
图4为本发明实施例中把原图像分割成多个同质区域的示意图;
图5为本发明实施例的文本特征矩阵Y的例子的示意图;
图6~图9为本发明实施例的建立连接和确定连接权重的算法实现示意图;
图10为本发明实施例的图像训练装置得到的图的示意图;
图11为本发明实施例的图像训练装置得到的图的矩阵表示示意图;
图12为本发明实施例中更新后的图的矩阵表示示意图;
图13为本发明实施例的重启向量的示意图;
图14为本发明实施例中用于自动标注的输入图像;
图15为本发明实施例中利用“人、动物”作为文本输入得到的检索结果示意图;
图16为本发明实施例中利用图像作为输入时得到的检索结果示意图;
图17为本发明实施例中利用文本和图像作为输入时得到的检索结果示意图。
具体实施方式
本发明实施例的图像训练、检索方法及装置,通过在训练阶段,将把图像特征投影到规范共变子空间,以最大化图像与标注间的协方差,从而能更加鲁棒地构建图,减少错误连接的图像区域,最终获得更高的图像标注。
本发明实施例的图像训练装置如图1所示,包括:
第一保存模块,用于保存具有标注的图像和用于标注的关键字集合,其中,每幅图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
图像分割模块,用于对所述第一保存模块中保存的图像分别执行分割操作,将图像分割为至少一个图像区域;
特征向量提取模块,用于利用图像特征提取每个图像区域的图像特征向量,并用于利用文本特征提取每个图像区域的文本特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影模块,用于将所述图像区域的图像特征向量投影到子空间,得到图像特征投影矢量,并将每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差;
第二保存模块,用于分别保存图像区域的投影后的图像特征投影矢量和文本特征投影矢量;
图构建模块,用于根据所述投影后的图像特征投影矢量建立图像区域之间的连接,根据图像分割模块的操作建立图像与其图像区域之间的连接,根据所述具有标注的图像建立图像与其标注之间的连接,根据所述投影后的文本特征投影矢量建立标注之间的连接,并计算建立的所有连接的权重,根据所述连接和连接权重得到表示图像、图像区域与标注三者间的关系的图。
本发明实施例的图像训练方法,包括:
第一保存步骤,保存具有标注的图像和用于标注的关键字集合,其中,每幅图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
图像分割步骤,对保存的图像分别执行分割操作,将图像分割为至少一个图像区域;
特征向量提取步骤,利用图像特征提取每个图像区域的图像特征向量,并用于利用文本特征提取每个图像区域的文本特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影步骤,将所述图像区域的图像特征向量投影到子空间,得到图像特征投影矢量,并将每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差;
第二保存步骤,分别保存投影得到的图像特征投影矢量和文本特征投影矢量;
图构建步骤,根据所述投影后的图像特征投影矢量建立图像区域之间的连接,根据图像分割模块的操作建立图像与其图像区域之间的连接,根据所述具有标注的图像建立图像与其标注之间的连接,根据所述投影后的文本特征投影矢量建立标注之间的连接,并计算建立的所有连接的权重,根据所述连接和连接权重得到表示图像、图像区域与标注三者间的关系的图。
图构建模块得到的图可用于图像自动标注、图像检索等领域,这将在后面进行详细说明。
下面对上述的图像训练装置的各个模块及方法的具体实现进行详细说明。
图像分割模块用于对所述第一保存模块中保存的图像分别执行分割操作,将图像分割为至少一个图像区域,在本发明的具体实施例中可以将其分割为一个图像区域、或者两个图像区域或者多个图像区域,在后续的说明中,均以两个或两个以上图像区域进行说明。
在本发明的具体实施例中,图像分割可以采用以下方式进行:
方式一、如图2所示,把原图像(即第一保存模块中保存的具有标注的图像)划分成多个矩形块;
方式二、如图3所示,把原图像划分成多分辨率四叉树子块;
方式三、如图4所示,采用图像分割算法把原图像分割成多个同质不重叠区域。
当然,在本发明的具体实施例中不限于上述的图像分割方式,还可以利用现有的其他图像分割技术。
在图像分割之后,每幅图像的每个图像区域都有其对应的图像特征,需要由特征向量提取模块提取图像特征向量和整个原图像的文本特征向量。
提取图像区域的图像特征向量可以采用任何现有的算法,考虑到图像重要特征的提取能力和提取速度,在本发明的具体实施例中采用混合色度与纹理信息的LBP(local binary pattern,局部二元模式)特征,LBP是一种基于纹理的特征,具有计算简便,且便于混合颜色与对比度信息等优点。
在得到所有图像区域的图像特征向量后(在此,为方便描述,假设图像特征向量的长度为p),将图像区域的图像特征向量作为列向量得到图像特征矩阵X。
文本特征向量的提取过程包括以下步骤:
步骤A1,收集第一保存模块中每幅图像的标注,标注由一组与图像内容相关的关键词组成,所有关键词都出自于事先确定的集合大小为q的词汇表;
标注有以下两种类型:
弱标注,这种标注类型下,图像的关键词与整幅图像有关,虽然图像可能被分割成几个块,但其关键词组只对应于整幅图像;
局部标注,图像的每个图像区域都有自己的关键词。
对于弱标注,所有的图像区域将继承整幅图像的全局标注。
步骤A2,收集到标注后,提取每个图像区域的文本特征向量(长度为q),并将提取到的图像区域的文本特征向量作为列向量得到文本特征矩阵Y。
如图5所示,为一个文本特征矩阵Y的例子,其中,图像区域的文本特征向量为q维,除了在对应于图像关键词的元素为1外,其它位置皆为零,在本例中,第一个区域由集合大小为q(q=8)的词汇表中的第1、3、5个关键词组成。
在得到上述的图像特征矩阵X和文本特征矩阵Y后,需要进行子空间投影,在对子空间投影进行详细说明之前,先对执行该操作的作用进行说明。
子空间投影处理有两个方面的目的:
首先,为图像特征矩阵与文本特征矩阵降维,从而加快后续图的构建速度,也提高了后续的标注与检索的速度。
其次,增强了图像与文本数据间的一致性,从而能在后续的处理中更加鲁棒地构建图,最终获得更高的图像标注精度与图像检索精度。
本发明具体实施例的子空间投影模块执行以下步骤的操作:
步骤B1,获取图像特征矩阵与文本特征矩阵,即图像区域的图像特征向量的集合和文本特征向量的集合;
步骤B2,通过最大化图像特征与文本特征的协方差得到图像特征投影矩阵和文本特征投影矩阵;
步骤B3,利用图像特征投影矩阵与图像特征矩阵获取并保存投影后的图像特征矩阵,并利用文本特征投影矩阵与文本特征矩阵获取并保存投影后的文本特征矩阵。
在本发明的具体实施例中,将图像特征投影到规范共变子空间,以最大化图像与标注间的协方差,采用规范共变分析(canonical covariance analysis,CCovA)的原因在于:
在CCovA空间中,能为具有相似画面的图像区域提供更密切的关系,从而减少区域到区域的最近邻连接的误差;
减少图像特征向量的长度,从而缩短了计算时间。
其中,图像与文本特征的协方差如下所示:
其中,Cxy是图像与文本的互相关矩阵,定义如下:
其中:
上述的N为图像区域的数目,xi与yi分别为矩阵X与Y中的第i列。
为了最大化上述的协方差,可对互相关矩阵Cxy作奇异值分解(SVD),假定Cxy可作如下SVD:
Cxy=UDV′
其中,D是m0×m0的对角矩阵,其对角上包括了m0个以降序排列的最显著的图像-文本的协方差值。
则,图像特征投影矩阵Wx和文本特征投影矩阵Wy如下所示:
Wx=U
Wy=V
得到图像特征投影矩阵Wx和文本特征投影矩阵Wy后,图像与文本特征向量组(亦即堆砌矩阵X与Y)被投影到相应的子空间,投影后的图像特征矩阵Xproj和文本特征矩阵Yproj如下式所示:
Xproj与Yproj是m0×N矩阵,且m0<p,m0<q。
投影后的图像特征矩阵Xproj用以实现图像区域的最近邻搜索,而投影后的文本特征矩阵Yproj用以优化文本子空间的最近邻搜索。
在得到投影后的图像特征矩阵Xproj和文本特征矩阵Yproj后,需要利用其进行图的构造,下面对图的构造进行详细说明。
本发明实施例中,图的构造分为如下几部分:
根据所述投影后的图像特征投影矢量建立图像区域之间的第一连接;
根据图像分割模块的操作建立图像与其图像区域之间的第二连接;
根据所述具有标注的图像建立图像与其标注之间的第三连接;
根据所述投影后的文本特征投影矢量建立标注之间的第四连接;
计算建立的所有连接的权重;
根据所述连接和连接权重得到表示图像、图像区域与标注三者间的关系的图。
由于上述的第一连接、第二连接、第三连接、第四连接均包括多个连接,为方便描述,将第一连接、第二连接、第三连接、第四连接中的单个连接命名为子连接。
在后续的描述中,图像、图像区域与标注均使用节点进行描述,节点之间的关系用节点间的连线来表示,而最后的图使用邻接矩阵A来表示,图中的节点i与节点j之间的连接通过设置aij=w≠0来表示,这里w是连接权重,如果i与j间无连接,则设置aij=0。由于连接是无方向性的,因此矩阵A是对称方阵,且其对角项皆为0(不考虑节点与其本身的连接)。
上述创建的图中包括三种节点:
所有第一保存模块中的原始图像(图像节点);
所有分割后的图像区域(图像区域节点);和
标注用关键词(标注节点)。
图像节点与图像区域节点,图像节点与标注节点间存在从属性关系。
下面分别对各部分进行详细描述。
<图像区域节点之间的连接建立>
对于图像区域节点中的每个图像区域节点(为方便描述,将其命名为第一图像区域节点),需要建立该第一图像区域节点与其他图像区域节点中与第一图像区域节点最近邻的K1个图像区域节点间的连接,在此,根据投影后的图像特征矩阵Xproj来完成最近邻搜索。
在本发明的实施例中,图像区域间连接的权重的确认有两种方式,如下所述。
权重确认方式一,给所有子连接分配相同的权值,即各个连接具有等值权重,均为一个常数;
权重确认方式二,根据子连接所对应的图像区域节点的画面差异,给所有子连接分配不同的权值,具体为子连接所对应的图像区域节点的画面差异越大,则权值越小。
采用权重确认方式二具有以下的优点:与当前图像区域节点画面差异较大的图像区域节点,由于子连接权值较小,因此,其给当前图像区域节点施加的影响的强度较小,在后续的RWR算法的多次访问后,还能保证输出正确的标注和/或检索的结果。
下面对权重确认方式二的实现进行举例说明。
图像区域之间的子连接的权重以link(ri→rj)表示,其中i不等于j。
link(ri→rj)由图像区域节点间的图像的视觉相似度决定,定义为图像区域节点i与图像区域节点j在图像投影子空间的特征距离的递减函数。
例如可采用特征间的L2范数作为距离度量dim,从而定义递减函数如下:
其中,这里dim是图像区域节点ri与它的K1块最近邻图像区域节点的平均距离,A是幅值参数。
当图像区域节点间存在较大的视觉差异时,距离dim增加,权值减小,因此避免了在图中建立错误的图像区域节点的连接,提高了标注与检索质量。
上述以L2范数进行了说明,当然还可以采用其他的方式,如chi-方(chisquare)或熵测度(entropy measures)等方法来进行。
<图像节点与其图像区域节点之间的连接>
对每个图像节点,建立该图像节点与它的所有图像区域节点间的连接,如果不对图像作任何划分,则只有一块图像区域节点,此时图像节点等同于图像区域节点。
在此,该连接的依据来自于图像分割模块的操作。
其中,图像节点与图像区域节点之间的子连接的权重(link(Imi→rj))由图像节点与图像区域节点的父子关系确定,如果图像区域节点rj是图像节点Imi的子图像区域节点,则link(Imi→rj)为一非0常数,否则为0。
<图像节点与其标注节点之间的连接>
对每个图像节点,建立图像节点与它的所有标注节点间的连接。
在此,该连接建立的依据来自于第一保存模块中的图像信息。
在本发明的具体实施例中,图像节点与其标注节点之间的连接的权重由以下两种方式确定:
权重确认方式一,子连接对应的标注节点在第一保存模块保存的图像的标注中出现的次数越多,子连接权值越大;
权重确认方式二,子连接对应的标注节点在第一保存模块保存的图像的标注中出现的次数越多,子连接权值越小。
在方式一下,RWR算法会自然而然地多次历经在训练集中出现频率更高的标注词汇(由于它们在图中建立的连接更多),从而有可能总是输出高频词汇作为查询图像(无论图像的真实内容如何)的标注结果,然而,这种方式并不一定准确,因此确认方式二能克服对频繁词汇的偏爱。
一种具体的权重确定方式如下:
其中,B为幅值参数,β用于平衡高频词汇与低频词汇间的权值分配;max_occur为最高频率词汇的出现次数;min_occur为最低频率词汇的出现次数;wj_occur为当前词汇节点wj的出现次数。
<标注节点之间的连接>
对于每个标注节点,建立与它的最近邻的K2个标准节点间的连接,在此,根据投影后的文本特征矩阵Yproj来完成最近邻搜索。
标注节点之间的子连接的权值以link(wi→wj)表示。
wi与wj间的连接的权重由其关键词间的文本相似度决定,定义为文本特征i与j在投影后的文本子空间的距离的递减函数。例如可采用特征间的L2范数作为距离度量dtxt,从而定义递减函数如下:
其中,这里dtxt是wi与它的K2个最近邻标注节点的平均距离,C是幅值参数。当词汇间存在较大的语义差异时,随着距离dtxt的增加,权值减小,从而增强了语义一致的词汇间的连接,在图像标注中有利于输出更加相关与一致的标注。
上述建立连接和确定连接权重的算法实现分别如图6到图9所示,其中,ImageIndexDB.size和IMIndexDB.size表示图像区域节点数目,AnnImDB.size表示第一保存模块的图像数目,VOCA.size表示用于标注的关键字集合中关键字的数目。
根据上述描述建立的图如图10所示。
图10中,仅列出2个图像节点,第一个图像节点I1包括4个图像区域节点R1~R4,第二个图像节点I2包括4个图像区域节点R5~R8,同时,标注节点包括9个,分别为W1~W9,其中,图中示出了图像区域节点间的连接、图像节点与图像区域节点的连接、图像节点与标注节点的连接以及标注节点间的连接。
而最终得到图的邻接矩阵A如图11所示。
在得到上述的邻接矩阵A之后,本发明实施例的图像检索利用上述的邻接矩阵A进行标注和检索,下面分别进行说明。
本发明实施例的图像自动标注装置,包括:
第一保存模块,用于保存具有标注的第一图像和用于标注的关键字集合,其中,每幅第一图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
接收模块,用于接收待检索的第二图像;
图像分割模块,用于对所述第一图像和第二图像分别执行分割操作,将第一图像和第二图像分割为至少一个图像区域;
特征向量提取模块,用于利用图像特征提取所述第一图像的每个图像区域的图像特征向量,并用于利用文本特征提取所述第一图像的每个图像区域的文本特征向量,并用于利用图像特征提取所述第二图像的每个图像区域的图像特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影模块,用于将所述第一图像的图像区域的图像特征向量投影到子空间,得到投影后的第一图像特征投影矢量,并将所述第一图像的每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差,还用于将所述第二图像的图像区域的图像特征向量投影到子空间,得到第二图像特征投影矢量;
第二保存模块,用于分别保存图像区域的投影后的第一图像特征投影矢量和文本特征投影矢量;
图构建模块,用于根据所述投影后的第一图像特征投影矢量建立图像区域之间的第一连接,根据图像分割模块的操作建立图像与其图像区域之间的第二连接,根据所述具有标注的图像建立图像与其标注之间的第三连接,根据所述投影后的文本特征投影矢量建立标注之间的第四连接,并计算建立的第一连接、第二连接、第三连接和第四连接的权重,并根据第一连接、第二连接、第三连接和第四连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图,该图使用矩阵表示;
图更新模块,用于将第二图像的图像节点和图像区域节点添加到所述图构建模块所构建的图中,根据所述投影后的第一图像特征投影矢量和第二图像特征投影矢量建立所述第二图像的每个图像区域节点与所述图构建模块构建的图中的图像区域节点的第五连接,并建立所述第二图像的图像节点与其图像区域节点的第六连接,并确定第五连接和第六连接的权重,并根据第五连接、第六连接,以及对应的连接权重更新所述矩阵表示的图;
标注节点获取模块,创建对应于所述第二图像的重启向量(Restart Vector),基于所述更新后的矩阵表示的图,使用RWR(Random Walk with Restart,可重启的随机游走)算法获取与所述第二图像关系最密切的预定数目的标注节点。
标注模块,使用所述预定数目的标注节点对应的关键词标注所述第二图像。
本发明实施例的图像自动标注装置是在图像训练装置得到的图的基础上,将待标注的第二图像进行预处理(包括分割、图像区域的图像特征向量的提取、图像特征向量的投影),这些预处理与图像训练装置的处理方式完全相同,在此不进行详细描述。
下面对图像自动标注装置的图更新模块和标注获取模块进行详细说明。
图更新模块的功能就是将待标准图像(也就是查询数据)的图像节点和图像区域节点添加到已构建的图中,由于图使用矩阵表示,而该矩阵是对称方阵,因此,在添加时,分别在图11所示的矩阵的基础上增加行和列,即将第二图像的图像节点和图像区域节点作为矩阵的行和列添加到原矩阵A中,具体步骤如下所示:
添加新节点,在原矩阵A的行和列均添加第二图像的图像节点和图像区域节点;
添加新添加的图像节点和图像区域节点的连接;
添加新增加的图像区域节点与原图中最近邻的K1个图像区域节点间的连接;
添加新增加的连接的权重。
而该更新后的矩阵元素的值根据建立的连接和连接的权重来确定。
该连接的建立和权重的确定在前面已经进行了说明,在此也不再重述。
更新后的矩阵如图12所示。
图12中,未更新之前的矩阵的值没有写出,其中,Rn表示新的图像区域节点,而Imn表示待查询的图像节点。
在更新完矩阵后,即可创建对应于所述第二图像的重启向量(RestartVector),基于所述更新后的矩阵表示的图,使用RWR(Random Walk withRestart,可重启的随机游走)算法获取与所述第二图像关系最密切的预定数目的标注节点,并输出所述预定数目的标注节点所对应的关键词。
该重启向量的创建说明如下。
对于图像标注为查询量的图像检索,此时重启向量的所有元素皆为0,仅在对应于图像查询节点处为1。
如图13所示,为一个重启向量的示意图,其中对应于Imn节点(即图像节点)处为1,其他均为0。
另外,选取预定数目的最相关的关键词作为目标图像标注的RWR算法计算过程如下所示:
初始化步骤,将U0设置为重启向量;
迭代步骤,反复执行Un+1=(1-c)AUn+cV,直至满足停止条件。
其中n作为迭代步的索引,c是用以反映RESTART概率的常量,A为更新后的图的邻接矩阵表示。V是上面创建的RESTART向量。Un是第n步对应的状态向量,其中向量中第i个元素的数值反映了经过n次在图上的迁移,从目标节点(新增加的图像节点)到达节点i的概率,也就是说,反映了第i个元素对应的节点与目标节点间的相关度,即关系密切程度。
提取步骤,提取状态向量Un中对应标注节点的元素,并且按照降序排列;
输出步骤,按照顺序输出预定数目的标注节点所对应的关键词。
在上述的处理步骤中,为了使得RWR在多次迭代后能收敛,可以先对更新后的邻接矩阵进行规范化。
该规范化处理可以采用以下方式进行:
方式一、将更新后的矩阵A中的每列元素除以该列之和,得到规范化的邻接矩阵如下:
方式二、采用Laplacian(拉普拉斯)规范化,得到规范化的邻接矩阵如下:
当然,还可以采用其他的规范化的方式,在此不一一列举。
本发明实施例的图像检索装置,用于在输入为第二图像的情况下进行图像检索,包括:
第一保存模块,用于保存具有标注的第一图像和用于标注的关键字集合,其中,每幅第一图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
接收模块,用于接收待检索的第二图像;
图像分割模块,用于对所述第一图像和第二图像分别执行分割操作,将第一图像和第二图像分割为至少一个图像区域;
特征向量提取模块,用于利用图像特征提取所述第一图像的每个图像区域的图像特征向量,并用于利用文本特征提取所述第一图像的每个图像区域的文本特征向量,并用于利用图像特征提取所述第二图像的每个图像区域的图像特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影模块,用于将所述第一图像的图像区域的图像特征向量投影到子空间,得到投影后的第一图像特征投影矢量,并将所述第一图像的每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差,还用于将所述第二图像的图像区域的图像特征向量投影到子空间,得到第二图像特征投影矢量;
第二保存模块,用于分别保存图像区域的投影后的第一图像特征投影矢量和文本特征投影矢量;
图构建模块,用于根据所述投影后的第一图像特征投影矢量建立图像区域之间的第一连接,根据图像分割模块的操作建立图像与其图像区域之间的第二连接,根据所述具有标注的图像建立图像与其标注之间的第三连接,根据所述投影后的文本特征投影矢量建立标注之间的第四连接,并计算建立的第一连接、第二连接、第三连接和第四连接的权重,并根据第一连接、第二连接、第三连接和第四连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图,该图使用矩阵表示;
图更新模块,用于将第二图像的图像节点和图像区域节点添加到所述图构建模块所构建的图中,根据所述投影后的第一图像特征投影矢量和第二图像特征投影矢量建立所述第二图像的每个图像区域节点与所述图构建模块构建的图中的图像区域节点的第五连接,并建立所述第二图像的图像节点与其图像区域节点的第六连接,并确定第五连接和第六连接的权重,并根据第五连接、第六连接,以及对应的连接权重更新所述矩阵表示的图;
检索模块,创建对应于所述第二图像的重启向量(Restart Vector),基于所述更新后的矩阵表示的图,使用RWR(Random Walk with Restart,可重启的随机游走)算法获取与所述第二图像关系最密切的预定数目的图像节点;
输出模块,用于输出所述预定数目的图像节点所对应的第一图像。
本发明实施例的图像检索装置与自动标注装置相比,其区别仅在于输出结果的差别,其他均与自动标注装置相同,在此不再重述。
本发明实施例的图像检索装置,用于在输入为第二图像和关键词的情况下进行图像检索,包括:
第一保存模块,用于保存具有标注的第一图像和用于标注的关键字集合,其中,每幅第一图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
接收模块,用于接收待检索的第二图像和所述关键词;
图像分割模块,用于对所述第一图像和第二图像分别执行分割操作,将第一图像和第二图像分割为至少一个图像区域;
特征向量提取模块,用于利用图像特征提取所述第一图像的每个图像区域的图像特征向量,并用于利用文本特征提取所述第一图像的每个图像区域的文本特征向量,并用于利用图像特征提取所述第二图像的每个图像区域的图像特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影模块,用于将所述第一图像的图像区域的图像特征向量投影到子空间,得到投影后的第一图像特征投影矢量,并将所述第一图像的每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差,还用于将所述第二图像的图像区域的图像特征向量投影到子空间,得到第二图像特征投影矢量;
第二保存模块,用于分别保存图像区域的投影后的第一图像特征投影矢量和文本特征投影矢量;
图构建模块,用于根据所述投影后的第一图像特征投影矢量建立图像区域之间的第一连接,根据图像分割模块的操作建立图像与其图像区域之间的第二连接,根据所述具有标注的图像建立图像与其标注之间的第三连接,根据所述投影后的文本特征投影矢量建立标注之间的第四连接,并计算建立的第一连接、第二连接、第三连接和第四连接的权重,并根据第一连接、第二连接、第三连接和第四连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图,该图使用矩阵表示;
图更新模块,用于将第二图像的图像节点和图像区域节点添加到所述图构建模块所构建的图中,根据所述投影后的第一图像特征投影矢量和第二图像特征投影矢量建立所述第二图像的每个图像区域节点与所述图构建模块构建的图中的图像区域节点的第五连接,并建立所述第二图像的图像节点与其图像区域节点的第六连接,并确定第五连接和第六连接的权重,并根据第五连接、第六连接,以及对应的连接权重更新所述矩阵表示的图;
检索模块,创建对应于所述第二图像和检索关键词的重启向量(RestartVector),基于所述更新后的矩阵表示的图,使用RWR(Random Walk withRestart,可重启的随机游走)算法获取与所述第二图像和检索关键词关系最密切的预定数目的图像节点;
输出模块,用于输出所述预定数目的图像节点所对应的第一图像。
本发明实施例的图像检索装置与自动标注装置相比,其区别仅在于输出结果的差别,以及重启向量的差别,其他均与自动标注装置相同。
该重启向量由于包括两部分内容:图像和关键词,因此仅在对应于图像查询节点和标注节点处为1,其他所有元素皆为0。
本发明实施例的图像检索装置,用于在输入为检索用关键词的情况下进行图像检索,包括:
第一保存模块,用于保存具有标注的第一图像和用于标注的关键字集合,其中,每幅第一图像都有至少一个标注,作为其语义内容的描述,所述标注来自所述关键字集合;
接收模块,用于接收所述检索用关键词;
图像分割模块,用于对所述第一图像执行分割操作,将第一图像分割为至少一个图像区域;
特征向量提取模块,用于利用图像特征提取所述第一图像的每个图像区域的图像特征向量,并用于利用文本特征提取所述第一图像的每个图像区域的文本特征向量;特征向量能捕获图像的本质内容并去除冗余信息与噪声;
子空间投影模块,用于将所述第一图像的图像区域的图像特征向量投影到子空间,得到投影后的第一图像特征投影矢量,并将所述第一图像的每个图像区域的文本特征向量分别投影到子空间,得到文本特征投影矢量,以最大化图像特征与文本特征的协方差;
第二保存模块,用于分别保存图像区域的投影后的第一图像特征投影矢量和文本特征投影矢量;
图构建模块,用于根据所述投影后的第一图像特征投影矢量建立图像区域之间的第一连接,根据图像分割模块的操作建立图像与其图像区域之间的第二连接,根据所述具有标注的图像建立图像与其标注之间的第三连接,根据所述投影后的文本特征投影矢量建立标注之间的第四连接,并计算建立的第一连接、第二连接、第三连接和第四连接的权重,并根据第一连接、第二连接、第三连接和第四连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图,该图使用矩阵表示;
检索模块,创建对应于所述检索用关键词的重启向量(Restart Vector),基于所述更新后的矩阵表示的图,使用RWR(Random Walk with Restart,可重启的随机游走)算法获取与所述检索用关键词关系最密切的预定数目的图像节点;
输出模块,用于输出所述预定数目的图像节点所对应的第一图像。
在上述的标注装置和检索装置,需输出预定数目的关键词和图像,在本发明的具体实施例中,可以采用多种方式来实现,详细描述如下。
在向量U收敛至稳态后,图中的每个节点都有其对应值(表示从目标节点到达该节点的概率),然后对不同类型的节点(图像节点、区域图像节点和标注节点)的值分别做排序。
在图像标注中,挑选出对应于图中标注节点的U中的所有元素,并以概率大小作降序排列,确定其中的前p个关键词为查询图像的最相关标注。
在图像检索中,挑选出对应于图中图像节点的U中的所有元素,并以概率大小作降序排列,确定其中的前p幅图像为查询(可以是文本、图像或二者的混合)的最相关图像。
其中,该p可以以以下方式确定:
设定为某个常值;
根据相关概率的大小自动确定。
对于后者,p可计算如下:
前p个输出(标注或检索)的累积概率第一次大于阈值th1;或
第p个输出(标注或检索)的概率与第p+1个概率之差首次大于阈值th2。
当然,还可以通过其他的方式进行确定,在此不一一描述。
如图14所示,为本发明实施例用于自动标注的输入图像,以该图像作为输入,得到的标注为室内、人、女人和男人。
如图15所示,为本发明实施例中利用“人、动物”作为输入时,图像检索装置和方法得到的检索结果示意图;
图16为本发明实施例中利用图像作为输入时得到的检索结果示意图,其中图16的左边第一幅图为输入图像,而右边的3个图像为输出结果;
图17为本发明实施例中利用文本和图像作为输入时得到的检索结果示意图,其中图17的左边第一幅图为输入图像,而右边的3个图像为输出结果。
从以上的对图14~16的描述,并结合实际图形可以发现,本发明实施例的方法和装置能较好的实现图像的自动标注和检索。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (56)
1.一种图像训练方法,其特征在于,包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
提取所有图像区域的图像特征向量和文本特征向量,得到图像特征矩阵和文本特征矩阵;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存所述投影后的图像特征矩阵和文本特征矩阵;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接;
计算上述建立的所有连接的权重;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图。
2.根据权利要求1所述的方法,其特征在于,所述分割操作具体为:
把每个所述第一图像划分成矩形块;或
把每个所述第一图像划分成多分辨率四叉树子块;或
采用图像分割算法把每个所述第一图像分割成同质不重叠区域。
3.根据权利要求1所述的方法,其特征在于,所述提取所有图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
4.根据权利要求1所述的方法,其特征在于,所述子空间为规范共变子空间。
5.根据权利要求1所述的方法,其特征在于,所述图中,所述第一图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
6.根据权利要求5所述的方法,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
7.一种图像训练装置,其特征在于,包括:
图像分割模块,用于对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
特征向量提取模块,提取所有图像区域的图像特征向量和文本特征向量,得到图像特征矩阵和文本特征矩阵;
子空间投影模块将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存模块,用于保存所述投影后的图像特征矩阵和文本特征矩阵;
图构建模块,用于根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接,还计算上述建立的所有连接的权重,并根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图。
8.根据权利要求7所述的装置,其特征在于,所述图像分割模块具体用于执行以下操作:
把每个所述第一图像划分成矩形块;或
把每个所述第一图像划分成多分辨率四叉树子块;或
采用图像分割算法把每个所述第一图像分割成同质不重叠区域。
9.根据权利要求7所述的装置,其特征在于,所述特征向量提取模块具体利用混合色度与纹理信息的局部二元模式特征的算法提取所有图像区域的图像特征向量。
10.根据权利要求7所述的装置,其特征在于,所述子空间为规范共变子空间。
11.根据权利要求7所述的装置,其特征在于,所述图中,所述第一图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
12.根据权利要求11所述的装置,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
13.一种图像自动标注方法,用于对输入的第二图像进行自动标注,其特征在于,所述方法包括训练步骤、预处理步骤、图更新步骤和标注步骤,其中:
所述训练步骤具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存所述投影后的第一图像特征矩阵和文本特征矩阵;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接;
计算上述建立的所有连接的权重;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图;
所述预处理步骤具体包括:
接收第二图像;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域后,提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵;
所述图更新步骤具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接;
根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接;
确定所述第五连接和第六连接的连接权重;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图;
所述标注步骤具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的标注;
使用所述预定数目的标注对应的关键词对所述第二图像执行标注操作。
14.根据权利要求13所述的方法,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
15.根据权利要求13所述的方法,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
16.根据权利要求13所述的方法,其特征在于,所述子空间为规范共变子空间。
17.根据权利要求13所述的方法,其特征在于,所述图中,所述第一图像、第二图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
18.根据权利要求17所述的方法,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
19.根据权利要求17所述的方法,其特征在于,在所述标注步骤之前还包括对更新后的邻接矩阵进行规范化的步骤,所述标注步骤基于所述规范化的邻接矩阵进行。
20.一种图像自动标注装置,用于对输入的第二图像进行自动标注,其特征在于,所述装置包括训练模块、预处理模块、图更新模块和标注模块,其中:
所述训练模块具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域的单元;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵的单元;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差的单元;
保存所述投影后的第一图像特征矩阵和文本特征矩阵的单元;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接的单元;
计算上述建立的所有连接的权重的单元;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图的单元;
所述预处理模块具体包括:
接收第二图像的单元;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域的单元;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵的单元;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵的单元;
所述图更新模块具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接,病根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接的单元;
确定所述第五连接和第六连接的连接权重的单元;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图的单元;
所述标注模块具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的标注的单元;
使用所述预定数目的标注对应的关键词对所述第二图像执行标注的单元。
21.根据权利要求20所述的装置,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
22.根据权利要求20所述的装置,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
23.根据权利要求20所述的装置,其特征在于,所述子空间为规范共变子空间。
24.根据权利要求20所述的装置,其特征在于,所述图中,所述第一图像、第二图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
25.根据权利要求24所述的装置,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
26.根据权利要求24所述的装置,其特征在于,在所述标注步骤之前还包括对更新后的邻接矩阵进行规范化的步骤,所述标注步骤基于所述规范化的邻接矩阵进行。
27.一种图像检索方法,用于基于输入的第二图像进行检索,其特征在于,所述方法包括训练步骤、预处理步骤、图更新步骤和检索步骤,其中:
所述训练步骤具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存所述投影后的第一图像特征矩阵和文本特征矩阵;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接;
计算上述建立的所有连接的权重;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图;
所述预处理步骤具体包括:
接收第二图像;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵;
所述图更新步骤具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接,并根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接;
确定所述第五连接和第六连接的连接权重;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图;
所述检索步骤具体为:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取并输出与所述第二图像关系最密切的预定数目的图像。
28.根据权利要求27所述的方法,其特征在于:
所述输入还包括关键字;
所述检索步骤中,创建对应于所述第二图像和所述关键字的重启向量,基于所述更新后的图,获取并输出与所述第二图像和所述关键字关系最密切的预定数目的图像。
29.根据权利要求27或28所述的方法,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
30.根据权利要求27或28所述的方法,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
31.根据权利要求27或28所述的方法,其特征在于,所述子空间为规范共变子空间。
32.根据权利要求27或28所述的方法,其特征在于,所述图中,所述第一图像、第二图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
33.根据权利要求32所述的方法,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
34.根据权利要求32所述的方法,其特征在于,在所述检索步骤之前还包括对更新后的邻接矩阵进行规范化的步骤,所述检索步骤基于所述规范化的邻接矩阵进行。
35.一种图像检索装置,用于对输入的第二图像进行检索,其特征在于,所述装置包括训练模块、预处理模块、图更新模块和检索模块,其中:
所述训练模块具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域的单元;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵的单元;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差的单元;
保存所述投影后的第一图像特征矩阵和文本特征矩阵的单元;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接的单元;
计算上述建立的所有连接的权重的单元;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图的单元;
所述预处理模块具体包括:
接收第二图像的单元;
对所述第二图像执行分割操作,将所述第二图像分割为至少一个图像区域的单元;
提取所述第二图像的所有图像区域的图像特征向量,得到所述第二图像的图像特征矩阵的单元;
将所述第二图像的图像特征矩阵投影到子空间,得到所述第二图像的投影后的图像特征矩阵的单元;
所述图更新模块具体包括:
根据所述投影后的第一图像特征矩阵和第二图像特征矩阵建立所述第二图像的图像区域节点与所述图中的图像区域节点的第五连接的单元;
根据图像分割操作结果建立所述第二图像与图像区域节点的第六连接的单元;
确定所述第五连接和第六连接的连接权重的单元;
根据所述第五连接、第六连接,以及对应的连接权重更新所述图的单元;
所述检索模块具体包括:
创建对应于所述第二图像的重启向量,基于所述更新后的图,使用可重启的随机游走算法获取与所述第二图像关系最密切的预定数目的图像的单元。
36.根据权利要求35所述的装置,其特征在于:
所述输入还包括关键字;
所述检索模块具体创建对应于所述第二图像和所述关键字的重启向量,基于所述更新后的图,获取并输出与所述第二图像和所述关键字关系最密切的预定数目的图像。
37.根据权利要求35或36所述的装置,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
38.根据权利要求35或36所述的装置,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
39.根据权利要求35或36所述的装置,其特征在于,所述子空间为规范共变子空间。
40.根据权利要求35或36所述的装置,其特征在于,所述图中,所述第一图像、第二图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
41.根据权利要求40所述的装置,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
42.根据权利要求40所述的装置,其特征在于,还包括对更新后的邻接矩阵进行规范化的单元,所述检索单元基于所述规范化的邻接矩阵进行。
43.一种图像检索方法,用于在输入为检索用关键词的情况下进行图像检索,其特征在于,所述方法包括训练步骤和检索步骤,其中:
所述训练步骤具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差;
保存所述投影后的第一图像特征矩阵和文本特征矩阵;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接;
根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接;
根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接;
根据所述投影后的文本特征矩阵建立所述标注之间的第四连接;
计算上述建立的所有连接的权重;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图;
所述检索步骤具体为:
创建对应于所述检索用关键词的重启向量,基于所述图,使用可重启的随机游走算法获取与所述检索用关键词关系最密切的预定数目的图像。
44.根据权利要求43所述的方法,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
45.根据权利要求43所述的方法,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
46.根据权利要求43所述的方法,其特征在于,所述子空间为规范共变子空间。
47.根据权利要求43所述的方法,其特征在于,所述图中,所述第一图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
48.根据权利要求47所述的方法,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
49.根据权利要求47所述的方法,其特征在于,还包括对所述邻接矩阵进行规范化的步骤,所述检索步骤基于所述规范化的邻接矩阵进行。
50.一种图像训练装置,用于在输入为检索用关键词的情况下进行图像检索,其特征在于,所述装置包括训练模块和检索模块,其中:
所述训练模块具体包括:
对已有的具有标注的第一图像执行分割操作,将每个所述第一图像分割为至少一个图像区域的单元;
提取所有图像区域的图像特征向量和文本特征向量,得到第一图像特征矩阵和文本特征矩阵的单元;
将所述图像特征矩阵和文本特征矩阵投影到子空间,得到投影后的第一图像特征矩阵和文本特征矩阵,以最大化图像特征与文本特征的协方差的单元;
保存所述投影后的第一图像特征矩阵和文本特征矩阵的单元;
根据所述投影后的图像特征矩阵建立所述图像区域之间的第一连接,根据图像分割操作结果建立所述第一图像与所述图像区域的第二连接,根据所述具有标注的第一图像建立所述第一图像与所述标注的第三连接,根据所述投影后的文本特征矩阵建立所述标注之间的第四连接的单元;
计算上述建立的所有连接的权重的单元;
根据上述建立的所有连接和对应的连接权重得到表示图像、图像区域与标注三者间的关系的图的单元;
所述检索模块具体用于:
创建对应于所述检索用关键词的重启向量,基于所述图,使用可重启的随机游走算法获取与所述检索用关键词关系最密切的预定数目的图像。
51.根据权利要求50所述的装置,其特征在于,所述分割操作具体为:
把所述第一图像和第二图像划分成矩形块;或
把所述第一图像和第二图像划分成多分辨率四叉树子块;或
采用图像分割算法把所述第一图像和第二图像分割成同质不重叠区域。
52.根据权利要求50所述的装置,其特征在于,提取图像区域的图像特征向量采用混合色度与纹理信息的局部二元模式特征的算法实现。
53.根据权利要求50所述的装置,其特征在于,所述子空间为规范共变子空间。
54.根据权利要求50所述的装置,其特征在于,所述图中,所述第一图像、图像区域与标注使用节点进行描述,所述图使用邻接矩阵来表示,所述图中的节点之间的连接通过连接权重来表示,如果节点之间无连接,则对应的权重的值为0。
55.根据权利要求50所述的装置,其特征在于:
所述第一连接中的子连接所对应的图像区域节点的画面差异越大,所述第一连接中的子连接的权值越小;和/或
所述第三连接中的子连接所对应的标注节点在所述第一图像的标注中出现的次数越多,所述第三连接中的子连接的权值越小;和/或
所述第四连接的子连接所对应的标注节点的文本相似度越大,所述第四连接中的子连接的权值越小。
56.根据权利要求54所述的装置,其特征在于,还包括对所述邻接矩阵进行规范化的单元,所述检索模块基于所述规范化的邻接矩阵进行。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101007214A CN101587478B (zh) | 2008-05-20 | 2008-05-20 | 图像训练、自动标注、检索方法及装置 |
JP2009121359A JP5282658B2 (ja) | 2008-05-20 | 2009-05-19 | 画像学習、自動注釈、検索方法及び装置 |
US12/468,423 US8232996B2 (en) | 2008-05-20 | 2009-05-19 | Image learning, automatic annotation, retrieval method, and device |
EP09251342.3A EP2124159B8 (en) | 2008-05-20 | 2009-05-20 | Image learning, automatic annotation, retrieval method, and device |
ES09251342.3T ES2524789T3 (es) | 2008-05-20 | 2009-05-20 | Aprendizaje de imagen, anotación automática, método de recuperación y dispositivo |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101007214A CN101587478B (zh) | 2008-05-20 | 2008-05-20 | 图像训练、自动标注、检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101587478A true CN101587478A (zh) | 2009-11-25 |
CN101587478B CN101587478B (zh) | 2013-07-24 |
Family
ID=41051102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101007214A Expired - Fee Related CN101587478B (zh) | 2008-05-20 | 2008-05-20 | 图像训练、自动标注、检索方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8232996B2 (zh) |
EP (1) | EP2124159B8 (zh) |
JP (1) | JP5282658B2 (zh) |
CN (1) | CN101587478B (zh) |
ES (1) | ES2524789T3 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193946A (zh) * | 2010-03-18 | 2011-09-21 | 株式会社理光 | 为媒体文件添加标签方法和使用该方法的系统 |
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN103345481A (zh) * | 2013-06-19 | 2013-10-09 | 新疆大学 | 一种维吾尔文图像文件的标注方法 |
CN103853797A (zh) * | 2012-12-07 | 2014-06-11 | 中兴通讯股份有限公司 | 一种基于n元图片索引结构的图片检索方法与系统 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN108268510A (zh) * | 2016-12-30 | 2018-07-10 | 华为技术有限公司 | 一种图像标注方法和装置 |
CN108959586A (zh) * | 2012-08-08 | 2018-12-07 | 谷歌有限责任公司 | 响应于可视化查询标识文本词汇 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN111080614A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 铁路货车轮轮辋及踏面的破损识别方法 |
CN112232420A (zh) * | 2020-10-19 | 2021-01-15 | 深圳市华汉伟业科技有限公司 | 一种图像标注方法、目标检测方法及装置、存储介质 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8429176B2 (en) * | 2008-03-28 | 2013-04-23 | Yahoo! Inc. | Extending media annotations using collective knowledge |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
AU2011210535B2 (en) * | 2010-02-01 | 2015-07-16 | Google Llc | Joint embedding for item association |
US9792368B1 (en) * | 2010-03-04 | 2017-10-17 | A9.Com, Inc. | Dynamic map synchronization |
US8625887B2 (en) | 2011-07-13 | 2014-01-07 | Google Inc. | Systems and methods for matching visual object components |
CN102495865B (zh) * | 2011-11-28 | 2013-08-07 | 南京大学 | 结合图像内部空间关系及视觉共生关系的图像标注方法 |
US9239848B2 (en) * | 2012-02-06 | 2016-01-19 | Microsoft Technology Licensing, Llc | System and method for semantically annotating images |
JP2014026455A (ja) * | 2012-07-26 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | メディアデータ解析装置、方法、及びプログラム |
US9754177B2 (en) * | 2013-06-21 | 2017-09-05 | Microsoft Technology Licensing, Llc | Identifying objects within an image |
US10319035B2 (en) | 2013-10-11 | 2019-06-11 | Ccc Information Services | Image capturing and automatic labeling system |
CN103714178B (zh) * | 2014-01-08 | 2017-01-25 | 北京京东尚科信息技术有限公司 | 一种基于词间相关性的图像自动标注方法 |
WO2016038535A1 (en) * | 2014-09-10 | 2016-03-17 | Koninklijke Philips N.V. | Image report annotation identification |
US10223728B2 (en) * | 2014-12-09 | 2019-03-05 | Google Llc | Systems and methods of providing recommendations by generating transition probability data with directed consumption |
JP6607263B2 (ja) * | 2016-02-15 | 2019-11-20 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
US11195313B2 (en) * | 2016-10-14 | 2021-12-07 | International Business Machines Corporation | Cross-modality neural network transform for semi-automatic medical image annotation |
CN107480711B (zh) * | 2017-08-04 | 2020-09-01 | 合肥美的智能科技有限公司 | 图像识别方法、装置、计算机设备和可读存储介质 |
CN109933790B (zh) * | 2019-03-01 | 2020-06-26 | 武汉达梦数据库有限公司 | 一种文本特征提取方法及系统 |
US12001669B2 (en) * | 2019-03-29 | 2024-06-04 | Sony Group Corporation | Searching for write information corresponding to a feature of an image |
CN114297424A (zh) * | 2021-11-16 | 2022-04-08 | 天云融创数据科技(北京)有限公司 | 图像检索方法、装置、电子设备、介质和程序产品 |
WO2023101679A1 (en) * | 2021-12-02 | 2023-06-08 | Innopeak Technology, Inc. | Text-image cross-modal retrieval based on virtual word expansion |
CN117393921B (zh) * | 2023-10-17 | 2024-06-18 | 浙江博时新能源技术有限公司 | 分布式储能设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101061490A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 利用支持向量机(svm)在计算机辅助检测(cad)中进行假阳性降低的系统和方法 |
CN101061509A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 用于医疗成像数据内的肿瘤边界的自动检测和分割的系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698332B2 (en) * | 2006-03-13 | 2010-04-13 | Microsoft Corporation | Projecting queries and images into a similarity space |
-
2008
- 2008-05-20 CN CN2008101007214A patent/CN101587478B/zh not_active Expired - Fee Related
-
2009
- 2009-05-19 US US12/468,423 patent/US8232996B2/en not_active Expired - Fee Related
- 2009-05-19 JP JP2009121359A patent/JP5282658B2/ja not_active Expired - Fee Related
- 2009-05-20 ES ES09251342.3T patent/ES2524789T3/es active Active
- 2009-05-20 EP EP09251342.3A patent/EP2124159B8/en not_active Not-in-force
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101061490A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 利用支持向量机(svm)在计算机辅助检测(cad)中进行假阳性降低的系统和方法 |
CN101061509A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 用于医疗成像数据内的肿瘤边界的自动检测和分割的系统和方法 |
Non-Patent Citations (2)
Title |
---|
JANA URBAN等: "Adaptive image retrieval using a Graph model for semantic feature integration", 《PROCEEDINGS OF THE 8TH ACM INTERNATIONAL WORKSHOP ON MULTIMEDIA INFORMATION RETRIEVAL》 * |
JIA-YU PAN 等: "GCap: Graph-based Automatic Image Captioning", 《PROCEEDINGS OF THE 2004 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193946A (zh) * | 2010-03-18 | 2011-09-21 | 株式会社理光 | 为媒体文件添加标签方法和使用该方法的系统 |
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN108959586A (zh) * | 2012-08-08 | 2018-12-07 | 谷歌有限责任公司 | 响应于可视化查询标识文本词汇 |
CN108959586B (zh) * | 2012-08-08 | 2022-02-01 | 谷歌有限责任公司 | 响应于可视化查询标识文本词汇 |
CN103853797A (zh) * | 2012-12-07 | 2014-06-11 | 中兴通讯股份有限公司 | 一种基于n元图片索引结构的图片检索方法与系统 |
CN103853797B (zh) * | 2012-12-07 | 2017-10-17 | 中兴通讯股份有限公司 | 一种基于n元图片索引结构的图片检索方法与系统 |
CN103345481A (zh) * | 2013-06-19 | 2013-10-09 | 新疆大学 | 一种维吾尔文图像文件的标注方法 |
CN103345481B (zh) * | 2013-06-19 | 2016-08-24 | 新疆大学 | 一种维吾尔文图像文件的标注方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107391505B (zh) * | 2016-05-16 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN108268510B (zh) * | 2016-12-30 | 2022-01-28 | 华为技术有限公司 | 一种图像标注方法和装置 |
CN108268510A (zh) * | 2016-12-30 | 2018-07-10 | 华为技术有限公司 | 一种图像标注方法和装置 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN111080614A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 铁路货车轮轮辋及踏面的破损识别方法 |
CN112232420A (zh) * | 2020-10-19 | 2021-01-15 | 深圳市华汉伟业科技有限公司 | 一种图像标注方法、目标检测方法及装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2124159B1 (en) | 2014-09-03 |
ES2524789T3 (es) | 2014-12-12 |
US8232996B2 (en) | 2012-07-31 |
JP2009282980A (ja) | 2009-12-03 |
CN101587478B (zh) | 2013-07-24 |
EP2124159A1 (en) | 2009-11-25 |
JP5282658B2 (ja) | 2013-09-04 |
EP2124159B8 (en) | 2014-10-29 |
US20090289942A1 (en) | 2009-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101587478B (zh) | 图像训练、自动标注、检索方法及装置 | |
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
US8489589B2 (en) | Visual search reranking | |
Pan et al. | Gcap: Graph-based automatic image captioning | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN110796204B (zh) | 视频标签确定方法、装置和服务器 | |
Weyand et al. | Visual landmark recognition from internet photo collections: A large-scale evaluation | |
CN103984738A (zh) | 一种基于搜索匹配的角色标注方法 | |
CN104794219A (zh) | 一种基于地理位置信息的场景检索方法 | |
CN102542067A (zh) | 基于尺度学习和关联标号传播的自动图像语义标注方法 | |
US8204889B2 (en) | System, method, and computer-readable medium for seeking representative images in image set | |
Tian et al. | Building descriptive and discriminative visual codebook for large-scale image applications | |
CN109711443A (zh) | 基于神经网络的户型图识别方法、装置、设备及存储介质 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
Ivanov et al. | Geotag propagation in social networks based on user trust model | |
Al-Jubouri | Content-based image retrieval: Survey | |
CN114494809A (zh) | 特征提取模型优化方法、装置及电子设备 | |
CN117033534A (zh) | 地理信息处理方法、装置、计算机设备和存储介质 | |
Nguyen et al. | A feature-word-topic model for image annotation | |
CN112597329B (zh) | 一种基于改进的语义分割网络的实时图像检索方法 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
Choe et al. | Semantic video event search for surveillance video | |
CN117131256B (zh) | 一种基于aigc的媒体管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130724 Termination date: 20170520 |
|
CF01 | Termination of patent right due to non-payment of annual fee |