CN103207879A - 图像索引的生成方法及设备 - Google Patents
图像索引的生成方法及设备 Download PDFInfo
- Publication number
- CN103207879A CN103207879A CN2012100152908A CN201210015290A CN103207879A CN 103207879 A CN103207879 A CN 103207879A CN 2012100152908 A CN2012100152908 A CN 2012100152908A CN 201210015290 A CN201210015290 A CN 201210015290A CN 103207879 A CN103207879 A CN 103207879A
- Authority
- CN
- China
- Prior art keywords
- image
- different images
- determining
- target area
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000000007 visual effect Effects 0.000 claims abstract description 113
- 239000013598 vector Substances 0.000 claims description 90
- 239000000284 extract Substances 0.000 claims description 59
- 238000000605 extraction Methods 0.000 claims description 24
- 238000003706 image smoothing Methods 0.000 claims description 12
- 238000005303 weighing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 37
- 238000003064 k means clustering Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 239000003086 colorant Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5862—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
Abstract
本发明公开了一种图像索引的生成方法及设备,用以解决采用现有技术生成的图像索引的准确性较低的问题。该方法分别在图像库包含的图像中的目标区域图像内提取视觉特征,根据提取的视觉特征确定图像之间的相似度值,进而确定图像所属的图像类别,为属于同一图像类别的图像分配相同的类别标识,为属于不同图像类别的图像分配不同的类别标识,将为图像分配的类别标识作为生成的该图像库的图像索引。采用上述方法,由于生成的图像索引是基于在图像中提取的视觉特征而生成的,因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响,提高了生成的图像索引的准确性。
Description
技术领域
本申请涉及数据检索技术领域,尤其涉及一种图像索引的生成方法及设备。
背景技术
在信息搜索领域中,传统的基于关键词的信息检索方式存在着很多弊端。首先,同一词语在不同环境中的含义不同,例如“苹果”一词在不同领域所代表的含义差别就很大,其有可能表示一种水果,也可能表示一种电子产品的品牌。若用户意图搜索一种水果并以“苹果”作为关键词输入搜索引擎,则返回的搜索结果中一般会同时出现水果和电子产品这两种截然不同的信息,而显然电子产品这样的信息与用户的搜索意图并不匹配。可见,基于关键词的信息检索方法可能会导致搜索结果与用户的搜索意图之间产生一定偏差。
针对目前网络上大部分数据信息都有对应的图像的情况,目前也有一些技术提出:用户在进行信息搜索时,可以以图像作为其输入的内容,从而基于用户输入的图像,通过获取该图像所包含的与图像相关的信息(以下简称图像信息),就可以从图像库中搜索具备与获取的图像信息相匹配的图像信息的图像以克服基于关键词的信息检索方法存在的上述弊端。
与基于关键词的信息检索方法需要以生成信息索引为前提类似,上述基于图像的信息检索方法也需要针对图像库中海量的图像生成索引,从而为后续的检索流程提供数据支持。现有技术中,传统的基于图像的信息检索技术,针对图像库中的图像生成图像索引时主要采用的是依据图像的文件名(或其他针对图像的文字描述信息)的方式,该方式的实现前提是需要操作人员手工为图像添加相应的文字描述信息。基于手工添加文字描述信息的方式生成图像索引的缺陷在于:图像库中的图像数量往往非常庞大,基于手工添加文字描述信息的方式生成图像索引势必导致耗费较多的处理资源。并且,由于操作人员在添加文字描述信息时难免带入自身对于图像的一些主观感受,从而上述图像索引生成方式还可能存在生成的图像索引在一定程度上受到操作人员主观感受的影响从而准确性不高的问题。
发明内容
本申请实施例提供一种图像索引的生成方法及设备,用以解决采用现有技术生成的图像索引的准确性较低的问题。
本申请实施例提供的一种图像索引的生成方法,包括:
针对待生成图像索引的图像库所包含的图像,确定所述图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征;
根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值;
根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别;并
按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像库所包含的图像分别分配类别标识。
本申请实施例提供的一种图像索引的生成设备,包括:
提取模块,用于针对待生成图像索引的图像库所包含的图像,确定所述图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征;
相似度确定模块,用于根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值;
类别确定模块,用于根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别;
分配模块,用于按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像库所包含的图像分别分配类别标识。
本申请实施例提供一种图像索引的生成方法及设备,该方法分别在图像库包含的图像中的目标区域图像中提取视觉特征,并根据提取的视觉特征确定图像库中图像之间的相似度值,进而确定图像所属的图像类别,最后为属于同一图像类别的图像分配相同的类别标识,为属于不同图像类别的图像分配不同的类别标识,将为图像分配的类别标识作为生成的该图像库的图像索引。与现有技术相比,该方法可以由相应的设备自动运行实现,无需人工手工添加图像索引,提高了生成图像索引的效率,并且,由于生成的图像索引是基于在图像中提取的视觉特征,确定图像之间的相似度,进而确定图像所属的图像类别而生成的,因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响,提高了生成的图像索引的准确性。
附图说明
图1为本申请实施例提供的图像索引的生成过程;
图2a为本申请实施例提供的多特征融合的图像搜索过程;
图2b为本申请实施例提供的确定图像中的目标区域图像的过程;
图3为本申请实施例提供的图像索引的生成设备结构示意图。
具体实施方式
为了解决采用现有技术生成的图像索引的准确率较低的问题,本申请实施例提供了一种图像索引的生成方法以及一种图像索引的生成设备。
以下结合附图,详细说明本申请实施例提供的图像索引的生成方法及设备。
首先,本申请实施例提供一种图像索引的生成方法,该方法的具体流程示意图如图1所示,包括以下步骤:
S101:针对待生成图像索引的图像库所包含的图像,确定该图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征。
在本申请实施例中,考虑到一幅图像通常是由前景和背景组成,图像的前景一般反映了图像的主要内容,而用户一般也只注重于图像的前景,并不太关注图像的背景。因此本申请实施例中将图像的前景作为图像的目标区域图像,也即确定该图像库中的图像的前景,作为对应该图像的目标区域图像,并只在目标区域图像中提取视觉特征。
S102:根据从不同图像中提取的视觉特征,确定该图像库中包含的图像之间的相似度值。
在本申请实施例中,针对该图像库中的某个图像,在该图像中的目标区域图像中提取的视觉特征包括:颜色特征、形状特征、纹理特征、尺度不变特征转换(SIFT,Scale-Invariant Feature Transform)特征,当然,还可以包括其他特征。提取了图像的视觉特征后,即可以根据不同图像的视觉特征,确定不同图像之间的相似度值。
S103:根据确定的图像之间的相似度值,确定该图像库所包含的图像所属的图像类别。
其中,可以将相似度值较小的若干个图像确定为一个图像类别。
S104:按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为该图像库所包含的图像分别分配类别标识。
也即,对于同一图像类别下的各个图像,每个图像的类别标识相同,对于不同图像类别下的图像,每个图像的类别标识不同。为图像分配的类别标识即为生成的图像索引,在后续的搜索过程中,就可以根据图像的图像索引,也即图像的类别标识,在图像库中进行搜索。
在上述过程中,分别在图像库包含的图像中的目标区域图像中提取视觉特征,并根据提取的视觉特征确定图像库中的不同图像之间的相似度值,进而确定图像所属的图像类别,最后为属于同一图像类别的图像分配相同的类别标识,为属于不同图像类别的图像分配不同的类别标识,将为图像分配的类别标识作为生成的该图像库的图像索引,与现有技术相比,上述过程完全可以由相应的设备自动运行实现,无需人工手工添加图像索引,提高了生成图像索引的效率,并且,由于生成的图像索引是基于在图像中提取的视觉特征,确定图像之间的相似度,进而确定图像所属的图像类别而生成的,因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响,提高了生成的图像索引的准确性。
以下以本申请实施例提供的图像索引的生成方法和图像搜索方法在实际中的应用流程为例,详细说明该方法的具体实现过程。
在实际应用中,图像索引的生成过程和图像搜索过程是相互独立的两个过程,但这两个过程也可以体现在一个流程中。为了便于描述,本申请实施例中将包含这两个过程的流程称为“多特征融合的图像搜索流程”,其具体示意图如图2a所示。由于图像索引的生成过程完全可以在系统离线时进行,而图像搜索过程则必须在系统在线时进行,因此为了在从名称上体现图像索引的生成过程和图像搜索过程在实施时机上的不同特点,本申请实施例中将图像索引的生成过程称为“离线处理过程”,而将图像搜索过程称为“在线搜索过程”。当然,本申请实施例并不是必然的把图像索引的生成限定于采用离线处理技术,对于本领域技术人员可以理解的是本申请实施例同样也可以采用在线方式生成图像索引。
以下对图2a包含的各步骤进行详细介绍。其中,步骤S201~S203属于离线处理过程,而步骤S204~S205则属于在线搜索过程。
S201:针对待生成图像索引的图像库所包含的图像,从该图像中提取目标区域图像。
本申请实施例中,可以采用图像分割和机器学习相结合的方式实现提取目标区域图像。以一种具体实现方式为例,步骤S201可以由如图2b所示的下述子步骤S2011~S2013实现:
S2011:基于均值漂移(Mean-shift)算法,执行对该图像进行图像平滑的操作;
Mean-shift算法是现有技术中一种应用于聚类、图像平滑、图像分割和跟踪领域的成熟的技术,这个概念最早是由Fukunaga等人于1975年在一篇关于概率密度梯度函数的估计(The Estimation of the Gradient of a Density Function,with Applications in Pattern Recognition)中提出来的。由于该技术是一种现有技术,因此,本申请实施例仅对其做下述简单介绍:
Mean-shift算法本质上是一个自适应的梯度上升搜索峰值的方法,该方法的基本思想在于:如果数据集{xi,i=1,2,…,n}服从概率密度函数f(x),那么,若给定一个初始点x,并针对该初始点x执行Mean-shift算法,就会使得该点一步步的移动,最终收敛到一个峰值点。结合图像来说,若数据集{xi,i=1,2,…,n}表示一幅图像中的各个像素点,那么,将该数据集中的每一点作为初始点,并分别对其执行Mean-shift算法,则最终可以使数据集中的各个点收敛到相应的峰值点,从而实现对图像的平滑处理。
从Mean-shift算法的具体实现上看,一幅图像可以表示成一个二维网格点上的p维向量,每一个网格点代表一个像素。p=1表示图像是一个灰度图像,p=3表示图像是一个彩色图像,p>3表示图像是一个多谱图。网格点的坐标一般被认为表示了图像的空间信息。统一考虑图像的空间信息和色彩(或灰度等)信息,可以组成一个p+2维的向量x=(xs,xr),其中,xs表示网格点的坐标,xr表示该网格上p维向量特征。
其中,hs,hr控制着平滑的解析度(解析度即图像的分辨率),C是一个归一化常数,并且满足:
(1)k是非负的;
(2)k是非增的,即如果a<b,那么k(a)≥k(b);
(3)k是分段连续的,并且
假设分别用xi和zi(i=1,2,…,n)表示原始和平滑后的图像,那么,用Mean-shift算法进行图像平滑的具体步骤如下:
对每一个像素点,执行下述操作:
1、初始化j=1,并且使yi,1=xi;
2、运用Mean-shift算法计算yi,j+1,直到收敛,记收敛后的值为yi,c;
3、赋值 zi即为平滑后的图像。
本申请实施例中,对图像进行图像平滑的目的主要在于消除图像中的噪声点,从而为后续的其他图像处理操作提供质量更高的图像。本领域技术人员可以理解,若能容忍图像中的噪声点对后续其他图像处理操作的不利影响,则本申请实施例中,也可以不对图像执行图像平滑操作。此外还需要说明的是,除上述Mean-shift算法外,本申请实施例中,还可以采用其他成熟的图像平滑算法实现对图像的平滑,如Crimmins去斑算法、三角形滤波器、顺序统计滤波器等。
S2012:分别以图像平滑后的图像的每个像素点为种子,进行区域生长(region growing),得到一幅初步分割后的图像,该图像由分割得到的不同区域图像构成。
其中,为了对不同的区域图像进行区分,可以以区域图像中像素的灰度值作为区域图像的标识。
在子步骤S2012中,“区域生长”是指将成组的像素点或区域发展成更大区域的过程。而从种子开始进行的区域生长则具体是指将种子、以及与该种子具有相似属性(这里的属性可以是灰度、纹理颜色等)的相邻像素点合并到一个区域。对图像进行区域生长是一个迭代的过程,其针对每个种子进行区域生长,直到图像中的每个像素点都被合并到某个区域中,从而形成不同的区域。这些区域的边界往往通过闭合的多边形定义。此时,该图像就被分割为了不同的区域图像。
本申请实施例中,还可以采用其他图像分割算法实现对图像的分割,这些算法可以为阈值分割算法、区域分裂合并算法、基于边缘的分割算法等等。
S2013:采用支持向量机(SVM,Support Vector Machine)方法,分别对子步骤S2012中分割得到的每个区域图像进行背景置信度判断。
本申请实施例中,对区域图像进行背景置信度判断即为,判断该区域图像是该图像的背景还是前景,也即判断该区域图像是背景区域图像还是目标区域图像。
具体地,可以从图像库中选取一定数量的样本图像构成第一图像样本库,预先分别根据该第一图像样本库中的各样本图像所包含的由人工标记出的背景区域图像和目标区域图像进行训练,以获得背景区域图像判断模型。其中,由于第一图像样本库中图像的背景区域图像和目标区域图像是已知的,因此可以以第一图像样本库中的图像为训练样本,通过SVM方法拟合出背景区域图像判断模型,使得采用拟合出的该模型判断样本图像库中图像的背景区域图像和目标区域图像时,所得到的结果与已知的结果相比大多数是正确的,例如90%以上是正确的,即可认为拟合出的该模型可以应用于判断其他未知目标区域图像的各个图像。从而,根据该背景区域图像判断模型,对通过子步骤S2012得到的该图像的不同区域图像进行匹配与判断,进而从该图像所包含的区域图像中区分出背景区域图像和目标区域图像。
至此,该图像中的目标区域图像已经被确定出来,可以通过上述子步骤S2011~S2013,确定该图像库中包含的每个图像的目标区域图像。
S202:针对已经确定了目标区域图像的该图像,从确定的目标区域图像中提取视觉特征。
视觉特征一般包括全局视觉特征和局部视觉特征,本申请实施例中,可以只提取全局视觉特征,也可以只提取局部视觉特征,还可以既提取全局视觉特征又提取具备视觉特征。其中,全局视觉特征可以但不限于包括颜色特征、形状特征等;局部视觉特征可以但不限于包括纹理特征、SIFT特征等。
以下具体介绍本申请实施例中针对不同特征所采用的特征提取算法:
1、针对颜色特征的特征提取算法
本申请实施例中,可以将从图像的目标区域图像中统计得到的颜色直方图作为图像的颜色特征。为了统计颜色直方图,可以先对颜色进行量化处理。比如,可以借鉴稀疏编码(sparse coding)的思想实现颜色量化。
从具体实现上来说,颜色直方图可以设置为由24个块(bin)构成,其中,每个bin分别不重复地对应于由红、绿、蓝(RGB)三原色构成的常见的24种颜色(这里所述的常见的24种颜色可以但不限于根据对海量图片的统计而得到)中的一种颜色。这样,对于一幅图像中的每个像素点而言,与该像素点对应的由RGB三原色构成的颜色就可以对应一个bin。可见,对于任意一幅图像来说,颜色直方图中的bin实际上是反映该图像中具备相应颜色的像素点的个数。那么,针对该图像中的目标区域图像所包含的所有像素点,执行对上述24种颜色所分别对应的像素点的个数分别进行统计的操作,就可以得到该图像中的目标区域图像对应的颜色直方图,而该颜色直方图即为该图像中的目标区域图像的颜色特征。
并且,由于颜色直方图实际上就是对该图像的目标区域图像中的各个像素点对应24种颜色的统计个数值,因此可以将统计的这24种颜色所包含的像素点个数作为一个24维的颜色特征向量来表示,这个24维的颜色特征向量对应该颜色直方图,也可作为该图像中的目标区域图像的颜色特征。
2、针对形状特征的特征提取算法
本申请实施例中,针对形状特征的特征提取算法可以采用形状上下文(SC,Shape Context)算法。
对图像进行分析可知,若一幅图像(如目标区域图像)共包含m个像素点,则某像素点Pi与其余m-1个像素点均存在关系。基于Pi与其余m-1个像素点之间的关系可以产生m-1个向量,这m-1个向量描述了丰富的信息,决定了目标的形状特征。由于物体的轮廓线是物体形状最直接的描述,因而轮廓线上一定数量的离散点可以表示该物体的形状信息。因此,SC算法提出在从目标区域图像中提取出轮廓线后,从该轮廓线上选取分布均匀的像素点执行对数极坐标变换,从而求出相应的对数极坐标直方图。若在轮廓线上共选取了Q个像素点,则该对数极坐标直方图的维数为Q维。由于对数极坐标直方图代表轮廓线上的各个像素点之间的空间位置关系,其决定了目标的形状,因此,按照SC算法得出的该对数极坐标直方图可作为体现图像的形状的形状特征。进一步,则可以按照SC算法确定该图像中的目标区域图像的对数极坐标直方图,作为提取的该图像中的目标区域图像的形状特征。与颜色特征类似的,也可以用一个形状特征向量来表示这个对数极坐标直方图,该形状特征向量也可作为该图像中的目标区域图像的形状特征。
鉴于SC算法已是比较成熟的算法,本申请实施例仅对其进行上述简单介绍而不再赘述。
3、针对纹理特征的特征提取算法
本申请实施例中,可以采用局部二值模式(LBP,Local Binary Patterns)算法来提取目标区域图像的纹理特征。基于LBP算法所提取到的纹理特征从物理意义上来说是:某指定像素点的灰度值分别与其等距离的N个像素点的灰度值之间的定序测量特征的组合体,其中,这里的距离(为了便于描述,本申请实施例中用R表示所述距离)可以指定。形象地看,与该指定像素点之间的距离相等的N个像素点均匀分布在以该指定像素点为圆心且半径为R的圆周上。比如,以像素点(xD,yD)为中心像素点的8邻域为例,可以以中心像素点(xD,yD)的灰度值ID作为阈值,并根据和(xD,yD)距离为R的8个相邻像素点的灰度值Iφ(φ分别为0,1,2,…,7)与该阈值的大小关系,将这8个像素点的灰度I0,I1,…,I7分别编码为1或0,最终得到一个八位二进制数;然后,将该八位二进制数转化成一个十进制的整数,并以该整数作为以像素点(xD,yD)为中心的邻域内的纹理基元代码LBPN,R(xD,yD)。LBPN,R(xD,yD)即为该邻域的纹理特征,也就是前文所述的灰度值之间的定序测量特征的组合体,其具体计算公式如下式[2]:
其中,N为处于以像素点(xD,yD)为中心的邻域内且与像素点(xD,yD)之间的距离等于指定距离的像素点的个数(比如若以上文所述情况为例,则这里的个数可以为8),sgn为重新定义的符号函数,sgn(Iφ-ID)则代表了通过比较灰度值Iφ与灰度值ID的大小关系实现对Iφ的编码。具体来说,当Iφ-ID≥0时,有sgn(Iφ-ID)=1;而当Iφ-ID<0时,有sgn(Iφ-ID)=0。
本申请实施例中,为了以较高的效率实现对该图像的目标区域图像的纹理特征的提取,还可以先将确定出的目标区域图像划分为L×L个子区域,然后再执行从各子区域中并行地提取纹理特征的操作。其中,L的取值一般为4。划分得到的该些子区域的形状可以为矩形,这些子区域可以互不重叠也可以重叠,但一般不会出现子区域完全重叠的情况。
针对划分出的每个子区域,可以并行执行:针对该子区域中包含的每个像素点,确定以该像素点为中心的邻域内的纹理基元代码,这样,对于一个包含有N1个像素点的子区域来说,一共可以确定出N1个纹理基元代码。针对确定出的N1个纹理基元代码,对其中的不同的纹理基元代码的出现次数进行统计,并以直方图来表示统计到的次数,就可以得到LBP特征直方图,该LBP特征直方图即可视为该子区域的纹理特征。在得到每个子区域所对应的LBP特征直方图后,就可以确定由所有的子区域构成的目标区域图像的纹理特征。比如,通过简单地合成各个LBP特征直方图,就可以确定目标区域图像的纹理特征。与颜色特征类似的,也可以用纹理特征向量来表示合成后的LBP特征直方图,该纹理特征向量也可作为该图像中的目标区域图像的纹理特征。
4、针对SIFT特征的特征提取算法
SIFT特征是一种利用电脑视觉的算法来侦测与描述图像的局部性特征,为了便于描述,针对SIFT特征的特征提取算法也可以简称为SIFT算法,此算法由David Lowe在1999年发表,2004年完善总结。该算法的基本思想是:在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。
本申请实施例中,针对通过执行步骤S201确定的该图像的目标区域图像,首先可以从目标区域图像中确定出具有旋转不变性和尺度不变性的像素点(通常,该些像素点可以称为SIFT特征点,也称为关键像素点);然后,针对每个关键像素点,从目标区域图像所包含的像素点中,选取以该关键像素点为中心的一个邻域中分散在该关键像素点四周的64个像素点;按照将相邻的4个像素分配到同一像素组的分组方式对选取的64个像素点进行分组,从而一共将其分为16个像素组;最后,针对得到的16个像素组,对每个像素组所包含的4个像素点的方向做向量相加得到像素组的方向,再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上,得到8个坐标值。则16个像素组最终会对应128个坐标值,这128个坐标值所构成的128维特征向量就是该关键像素点的SIFT特征。本申请实施例中,可以将分别针对该目标区域图像中的每个关键像素点确定的128个坐标值构成的向量,作为提取的该图像中的目标区域图像的SIFT特征。
但是,根据上述的SIFT算法原理可知,针对该目标区域图像中的一个关键像素点就需要确定一个128维特征向量,假设该目标区域图像中共有r个关键像素点,则最终确定的该目标区域图像的SIFT特征就是r*128维的特征向量,显然,这个特征向量的维数过于庞大,在后续的应用中显然会耗费较大的计算资源。为了节约计算资源,本申请实施例提供了一种改进型的SIFT算法。该算法的主要思想在于:用一个视觉单词(visual word,往往是一个数字或一个符号)来表示关键像素点的SIFT特征。算法的具体实现步骤分为两个部分,第一部分为模型训练部分,第二部分为确定SIFT特征部分。其中,第一部分具体包括下述步骤:
首先,针对由大量图像构成的第二图像样本库,采用与上述方法类似的技术,分别从第二图像样本库中的各个图像的目标区域图像中确定出关键像素点,从而得到大量的关键像素点。
然后,利用K-means聚类算法对得到的所有关键像素点构成的关键像素点集合进行训练,得到一棵l层、包含K个分支的视觉单词树,该视觉单词树的每个结点都对应一个关键像素点。其中,l和K的值是人工预设值。
需要说明的是,K-means聚类算法是一种比较成熟的用于进行聚类的技术,其目的在于针对s个数据对象(比如,上述得到的每个关键像素点即为数据对象),根据输入量p将这s个数据对象划分为p个聚类,以便使得所获得的聚类满足“同一聚类中的数据对象的相似度值较高;而不同聚类中的数据对象相似度值较小”这一条件。其具体实现过程简单来说包含:步骤一:从s个数据对象中任意选择p个数据对象分别作为p个聚类所对应的各初始聚类中心,然后,对于未被选取的其它数据对象(即剩下的数据对象),根据它们与各个初始聚类中心的相似度值(这里的相似度值可以用数据对象与初始聚类中心之间的距离来衡量,而距离则是指数据对象的SIFT特征(128维特征向量)与初始聚类中心的SIFT特征(128维特征向量)之间的距离(如欧式距离等)),分别将它们分配给与其最相似的聚类;步骤二:在将剩下的其他数据对象分配到聚类中后,重新计算每个聚类的聚类中心(即计算聚类中包含的所有数据对象的均值),从而确定出新的聚类中心,并针对确定出新的聚类中心执行与步骤一类似的步骤。不断重复步骤一、二,直到标准测度函数(一般都采用均方差作为标准测度函数)开始收敛为止。
基于上述K-means聚类算法,本申请实施例中,为了得到一棵l层、包含K个分支的视觉单词树,首先可以通过K-means聚类算法对上述从第二图像样本库中的各个图像的目标区域图像中确定出的所有关键像素点进行聚类,得到K个聚类,得到的K个聚类即为第1层。然后,针对这K个聚类中的每一个聚类,继续使用K-means聚类算法将该聚类中包含的所有关键像素点再次进行聚类,得到该聚类下的K个子聚类。分别针对第1层的K个聚类得到的K*K个子聚类即为第2层,以此类推,共迭代l次,即可得到一棵l层、包含K个分支的视觉单词树,第l层共有Kl个聚类。该视觉单词树所包含的位于第l层的每个聚类则可以称为叶子结点。本申请实施例中,可以为每个叶子结点分别分配不同的编号,只要保证每个叶子节点的编号唯一即可,例如,为叶子结点分配编号的规则可以为:从左至右,从零开始,依次分别为每个叶子结点编号,编号范围为:0~Kl-1。
以上介绍的是“模型训练部分”包括的各个步骤,以下进一步介绍“确定SIFT特征部分”具体包括的各步骤:
首先,针对通过执行步骤S201而确定该图像的目标区域图像,从目标区域图像中确定出关键像素点。
然后,针对上述从目标区域图像中确定出的每个关键像素点,执行:按照传统的SIFT特征确定方式,确定与该关键像素点对应的128维特征向量;然后从视觉单词树的第1层的K个聚类开始比较,具体的,针对第1层的K个聚类,比较该关键像素点与该聚类的聚类中心的距离(即比较该关键像素点对应的128维特征向量,与该聚类的聚类中心对应的128维特征向量之间的距离),在第1层的K个聚类中找到与该关键像素点距离最小的一个聚类,并继续在该聚类下的位于第2层的K个聚类中找到与该关键像素点距离最小的一个聚类,以此类推,也即找到与该关键像素点距离最小的视觉单词树的分支并遍历下去,直到遍历到某个叶子结点为止,该叶子节点对应的聚类的聚类中心与该关键像素点的距离为最小,将该叶子节点对应的聚类的聚类中心称为第一关键像素点;最后,将遍历到的叶子结点的编号,也即该第一关键像素点的编号确定为该关键像素点的编号,作为该关键像素点的视觉单词,而该视觉单词即为该关键像素点的SIFT特征。
采用上述方法,分别针对从目标区域图像中确定的每个关键像素点,确定视觉单词树中与该关键像素点距离最小的第一关键像素点,并确定该第一关键像素点的编号,将分别针对每个关键像素点确定的第一关键像素点的编号所构成的向量,作为提取的该图像中的目标区域图像的SIFT特征。
通过上述步骤,本申请实施例实现了以一个数(即叶子节点的编号,也即视觉单词)来表示关键像素点的SIFT特征,并将各关键像素点的SIFT特征构成的向量作为目标区域图像的SIFT特征。假设从目标区域图像提取到的关键像素点共有r个,则通过上述的SIFT特征确定方式,最终确定的目标区域图像的SIFT特征是一个r维向量,该向量中的每个元素分别代表了一个关键像素点对应的视觉单词。相比于直接将每个关键像素点对应的128维特征向量构成的r*128维特征向量作为目标区域图像的SIFT特征的方法,显然本申请实施例提供的提取SIFT特征的方法极大的降低了表示SIFT特征的特征向量的维数,在后续应用中可以明显较少消耗的计算资源。
至此,该图像的目标区域图像中的视觉特征已经被提取出来,提取的视觉特征包括颜色特征、形状特征、纹理特征、SIFT特征,当然也可以采用上述相应的方法只提取四种特征中的一种或几种,作为提取的视觉特征。
S203:基于通过执行步骤S202而提取到的视觉特征,执行对图像库中的图像的聚类操作,并为聚类后的图像分配类别标识。
本申请实施例中对图像进行聚类操作时所参考的参数可以包括图像的描述信息和提取的视觉特征,或者也可以仅包括提取的视觉特征。而聚类手段则可以为层次聚类和K-means相结合的算法。以下分别介绍在参考不同参数的情况下的图像聚类过程:
第一种情况为参考的参数同时包括图像的描述信息和提取的视觉特征的情况,该情况下实现对图像库中的图像聚类的操作可以包括下述步骤:
第一步:获得图像库中包含的不同图像的描述信息(图像的描述信息可以但不限于基于文字所描述的图像所属类目信息、图像的标题信息、关于图像内容的描述信息等),并根据这些描述信息,分别确定对应于不同图像的文字标注信息。
也即,针对图像库中的图像,根据该图像的描述信息,确定用于描述该图像主要内容的关键字,作为该图像的文字标注信息。其中,各个图像的文字标注信息的大小固定。
第二步:根据确定出的不同图像的文字标注信息,使用层次聚类的方法对各图像进行聚类,将图像分配到多个图像集合。
其中,层次聚类是一种较成熟的基于距离的聚类技术,其含义在于:确定不同图像的文字标注信息之间的相关性,并将彼此之间相关性较大的文字标注信息所对应的图像划分到同一图像类别下。
具体地,按照层次聚类的方法,可以确定用于衡量不同图像的文字标注信息之间的相关性大小的相关性值,并将大于预定相关性阈值的相关性值所对应的图像划分到同一图像类别下。通过这样的处理,就可以把文字标注信息之间相关性很大的图像聚集到同一图像类别中,形成一个在语义层次上具有较高聚合度的图像集合。
第三步:针对层次聚类后得到的图像集合,根据从图像中提取到的视觉特征(包括颜色特征、形状特征、纹理特征和SIFT特征),采用K-means聚类算法进一步进行基于视觉特征的图像聚类。
针对通过执行上述第二步而得到的图像集合来说,一般地,其包含的图像数目仍然很大,而且从视觉内容上来看,其包含的图像也是丰富多样的。由背景技术可知,与图像对应的文字描述信息往往容易受到操作人员主观感受影响,因此可以推断执行上述第二步得到的图像集合也会在一定程度上受到操作人员主观感受影响。为了克服该影响,本申请实施例在第三步中考虑进一步基于从图像中提取的视觉特征对得到的图像集合进行聚类。
具体来说,该聚类过程包括:针对层次聚类后得到的任意图像集合,针对该图像集合中的图像,首先,可以用一个视觉特征向量来表示从该图像中提取到的视觉特征,例如当提取的视觉特征包括颜色特征、形状特征、纹理特征和SIFT特征时,由于可以采用颜色特征向量作为提取到的颜色特征,采用形状特征向量作为提取到的形状特征,采用纹理特征向量作为提取到的纹理特征,采用该图像的目标区域图像中各关键像素点的视觉单词(与各关键像素点距离最小的每个第一关键像素点的编号)构成的向量作为提取到的SIFT特征,因此可以将这4个向量(颜色特征向量、形状特征向量、纹理特征向量,以及该图像的目标区域图像中各关键像素点的视觉单词构成的向量)按固定顺序排列所构成的向量作为该图像的视觉特征向量,该视觉特征向量即唯一表示了该图像的视觉内容;然后,根据确定的对应于不同图像的视觉特征向量,确定不同图像的视觉特征向量之间的相似度值,作为不同图像之间的相似度值,并按照K-means聚类算法,对该图像集合所包含的图像进行聚类操作,确定图像所属的图像类别。其中,可以根据不同图像的视觉特征向量之间的距离,来确定不同图像的视觉特征向量之间的相似度值。这样,就实现了对图像库中的图像的聚类。在确定不同图像的视觉特征向量之间的距离时,由于视觉特征向量中表征SIFT特征的向量的维数已经在提取SIFT特征时被减小,因此此时确定视觉特征向量之间的距离时可以明显减少消耗的计算资源。
最后,按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为该图像集合包含的图像分别分配类别标识,并对图像和类别标识进行对应存储。
上述为以图像的描述信息和提取的视觉特征作为参考参数时的图像聚类过程。通过上述第一步~第三步,本申请实施例可以实现在基于图像的文字描述信息对图像进行聚类的基础上,根据从图像中提取的视觉特征对第一次聚类得到的图像集合中的图像进行进一步聚类。由于第二次聚类时所参考的参数是客观性非常强的视觉特征,从而可以削弱文字描述信息所带有的主观性对第一次聚类得到的图像集合的影响,使得最终得到的各个图像类别更加客观、更准确。
以下继续介绍第二种情况。该第二种情况中,实现对图像库中的图像聚类时所参考的参数仅包括提取的视觉特征。具体地,该情况下实现图像库中的图像聚类的方式与第一种情况下的第三步相似,主要实现思想为:根据从图像库包含的不同图像中分别提取到的视觉特征(包括颜色特征、形状特征、纹理特征、SIFT特征中的一种或几种),采用K-means聚类算法进行基于视觉特征的图像聚类操作。
具体来说,该聚类过程包括下述步骤:
首先,针对图像库中的图像,可以用一个视觉特征向量来表示从该图像中提取到的视觉特征,该视觉特征向量即唯一表示了该图像的视觉内容;其中,视觉特征向量的确定方法与上述第一种情况下的第三步中确定视觉特征向量的方法基本相同。
然后,按照K-means聚类算法,根据不同图像的视觉特征向量之间的相似度值,对该图像库中所包含的图像进行聚类操作,确定图像所属的图像类别;当然,本申请实施例并不限定于采用K-means聚类算法,对本领域技术人员来说也可以采用其他的聚类算法。
最后,按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像分别分配类别标识,并对图像和类别标识进行对应存储。
本申请实施例中,为各个图像分配的类别标识即为生成的图像索引。
至此,该待生成图像索引的图像库中的各图像已经完成了聚类,并已经为各图像分配了作为图像索引的类别标识。该类别标识具体可以为类ID。
本申请实施例中,上述步骤S201~S203属于离线处理过程,其实施目的在于针对图像库生成图像索引,以便为后续的在线搜索过程(包括步骤S204~S205)提供数据支持。以下结合附图,详细说明在线搜索过程所包含的步骤S204~S205的实施方式。
S204:实际在线搜索过程中,根据待搜索图像的类别标识,从图像库中确定与待搜索图像的类别标识匹配的类别标识所对应的所有图像。
在本申请实施例中,图像搜索的实际应用场景如下:用户先输入关键字进行搜索,例如输入“连衣裙”,得到的每个检索结果中会有对应的图像,这些图像就是上述图像库中已经生成了图像索引的图像,然后,用户可以通过点击相应的按钮,将某个检索结果对应的图像作为待搜索图像,也即基于采用关键字搜索到的搜索结果对应的图像,进行第二次搜索,第二次搜索即为基于图像的信息检索。
S205:针对确定的与待搜索图像具备相同类别标识的各个图像,分别确定用于衡量各个图像的视觉特征与待搜索图像相应的视觉特征之间相似性大小的相似度值,并在确定的与待搜索图像具备相同类别标识的各个图像中,选取大于预定相似度值阈值的相似度值所对应的图像作为搜索结果返回给用户终端,流程结束。
可选的,对于上述选取到的图像,可以按照其对应的相似度值由大至小的顺序与对图像进行排序的由先至后顺序,确定用于指示图像排列顺序的排序信息,并在将选取的图像作为搜索结果返回给用户终端的同时,将该排序信息也返回给用户终端,指示用户终端根据该排序信息对图像进行排序显示。其中,在确定具备与待搜索图像相同类别标识的各个图像,与待搜索图像的视觉特征之间的相似度值时,也可以根据该各个图像的视觉特征向量,与该待搜索图像的视觉特征向量之间的距离来确定,并且,由于视觉特征向量中表征SIFT特征的向量的维数,已经在离线处理过程的提取SIFT特征过程中被减小,因此此时确定视觉特征向量之间的距离可以明显减小消耗的计算资源。
需要重点说明的是,若是将图像作为一个不可细分整体来提取图像的视觉特征,那么这样就使得提取的视觉特征无法描述图像所包含的不同内容在空间上的差异,而只能反映图像全局的一些特点,从而难以从图像的不同内容层次出发实现对不同图像之间相似性的比较。由于在一般情况下,在进行图像搜索时往往并不太关心不同图像在整体上的相似性,反而更多关注的是仅包含前景的图像区域即目标区域图像的相似性。因此从这个角度而言,仅针对目标区域图像提取视觉特征更能满足实际需求。并且,由于不再针对背景区域图像提取视觉特征,因此还能够节省从用于实现从背景区域图像中提取视觉特征的这部分资源。
通过本申请实施例提供的方案,由于在生成图像索引时参考了图像所客观具备的视觉特征,因此大大提高了生成的图像索引的准确率。
对应于本申请实施例提供的图像索引的生成方法,本申请实施例还提供一种图像索引的生成设备,该设备的具体结构示意图如图3所示,具体包括:
提取模块301,用于针对待生成图像索引的图像库所包含的图像,确定所述图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征;
相似度确定模块302,用于根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值;
类别确定模块303,用于根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别;
分配模块304,用于按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像库所包含的图像分别分配类别标识。
所述提取模块301具体用于,从确定出的目标区域图像中提取的视觉特征包括:颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种;当提取的视觉特征为SIFT特征时,针对确定的该图像中的目标区域图像,利用SIFT算法,从该目标区域图像中确定各个关键像素点,并分别确定对应于各个关键像素点的128维特征向量,针对每个关键像素点对应的128维特征向量,比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离,确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点,并确定预先为该第一关键像素点分配的编号,将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量,作为从该目标区域图像中提取的SIFT特征。
所述相似度确定模块302具体用于,根据所述图像库中包含的不同图像的描述信息,分别确定对应于不同图像的文字标注信息,确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值,并根据确定的相关性值,利用层次聚类方法,将所述图像库中包含的图像分配到多个图像集合,针对任意图像集合,根据从该图像集合所包含的不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量,根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
所述相似度确定模块302具体用于,根据从所述图像库中包含的不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量,根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
所述提取模块301具体用于,对所述图像执行图像平滑操作,针对进行了图像平滑操作后的图像,以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作,使得该进行了图像平湖操作后的图像被分割为若干个区域图像,并在分割的若干个区域图像中确定目标区域图像。
所述类别确定模块303具体用于,根据确定的图像之间的相似度值,按照K-means聚类算法,对图像库所包含的图像进行聚类操作,确定图像库所包含的图像所属的图像类别。
本申请实施例提供一种图像索引的生成方法及设备,该方法分别在图像库包含的图像中的目标区域图像中提取视觉特征,并根据提取的视觉特征确定图像库中图像之间的相似度值,进而确定图像所属的图像类别,最后为属于同一图像类别的图像分配相同的类别标识,为属于不同图像类别的图像分配不同的类别标识,将为图像分配的类别标识作为生成的该图像库的图像索引。与现有技术相比,该方法可以由相应的设备自动运行实现,无需人工手工添加图像索引,提高了生成图像索引的效率,并且,由于生成的图像索引是基于在图像中提取的视觉特征,确定图像之间的相似度,进而确定图像所属的图像类别而生成的,因此减小了人工生成图像索引时所带来的操作人员对图像的主观感受的影响,提高了生成的图像索引的准确性。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种图像索引的生成方法,其特征在于,包括:
针对待生成图像索引的图像库所包含的图像,确定所述图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征;
根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值;
根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别;并
按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像库所包含的图像分别分配类别标识。
2.如权利要求1所述的方法,其特征在于,从确定出的目标区域图像中提取的视觉特征包括:颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种;
当提取的视觉特征为SIFT特征时,从确定出的目标区域图像中提取视觉特征,具体包括:
针对确定的该图像中的目标区域图像,利用SIFT算法,从该目标区域图像中确定各个关键像素点,并分别确定对应于各个关键像素点的128维特征向量;并
针对每个关键像素点对应的128维特征向量,分别执行下述各个步骤:
比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离,确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点,并确定预先为该第一关键像素点分配的编号;并
将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量,作为从该目标区域图像中提取的SIFT特征。
3.如权利要求1所述的方法,其特征在于,根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值,具体包括:
根据所述图像库中包含的不同图像的描述信息,分别确定对应于不同图像的文字标注信息;
确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值,并根据确定的相关性值,利用层次聚类方法,将所述图像库中包含的图像分配到多个图像集合;
针对任意图像集合,执行下述步骤:
根据从该图像集合所包含不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量;
根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
4.如权利要求1所述的方法,其特征在于,根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值,具体包括:
根据从所述图像库中包含的不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量;
根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
5.如权利要求1~4任一所述的方法,其特征在于,确定所述图像中的目标区域图像,具体包括:
对所述图像执行图像平滑操作;并
针对进行了图像平滑操作后的图像,以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作,使得该进行了图像平滑操作后的图像被分割为若干个区域图像,并在分割的若干个区域图像中确定目标区域图像。
6.如权利要求1所述的方法,其特征在于,根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别,具体包括:
根据确定的图像之间的相似度值,按照聚类算法,对图像库所包含的图像进行聚类操作,确定图像库所包含的图像所属的图像类别。
7.一种图像索引的生成设备,其特征在于,包括:
提取模块,用于针对待生成图像索引的图像库所包含的图像,确定所述图像中的目标区域图像,并从确定出的目标区域图像中提取视觉特征;
相似度确定模块,用于根据从不同图像中提取的视觉特征,确定所述图像库中包含的图像之间的相似度值;
类别确定模块,用于根据确定的图像之间的相似度值,确定图像库所包含的图像所属的图像类别;
分配模块,用于按照为同属同一图像类别的图像分配的类别标识相同,为属于不同图像类别的图像分配的类别标识互不相同的标识分配方式,为图像库所包含的图像分别分配类别标识。
8.如权利要求7所述的设备,其特征在于,所述提取模块具体用于,从确定出的目标区域图像中提取的视觉特征包括:颜色特征、形状特征、纹理特征、尺度不变特征转换SIFT特征中的一种或几种;当提取的视觉特征为SIFT特征时,针对确定的该图像中的目标区域图像,利用SIFT算法,从该目标区域图像中确定各个关键像素点,并分别确定对应于各个关键像素点的128维特征向量,针对每个关键像素点对应的128维特征向量,比较该关键像素点对应的128维特征向量与预设的图像样本库中各个关键像素点对应的128维特征向量之间的距离,确定所述图像样本库中与该关键像素点对应的128维特征向量距离最小的第一关键像素点,并确定预先为该第一关键像素点分配的编号,将分别针对每个关键像素点确定的第一关键像素点的编号构成的向量,作为从该目标区域图像中提取的SIFT特征。
9.如权利要求7所述的设备,其特征在于,所述相似度确定模块具体用于,根据所述图像库中包含的不同图像的描述信息,分别确定对应于不同图像的文字标注信息,确定用于衡量对应于不同图像的文字标注信息之间相关性大小的相关性值,并根据确定的相关性值,利用层次聚类方法,将所述图像库中包含的图像分配到多个图像集合,针对任意图像集合,根据从该图像集合所包含的不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量,根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
10.如权利要求7所述的设备,其特征在于,所述相似度确定模块具体用于,根据从所述图像库中包含的不同图像中提取到的视觉特征,确定对应于不同图像的视觉特征向量,根据确定的对应于不同图像的视觉特征向量,确定不同图像之间的相似度值。
11.如权利要求7~10任一所述的设备,其特征在于,所述提取模块具体用于,对所述图像执行图像平滑操作,针对进行了图像平滑操作后的图像,以该进行了图像平滑操作后的图像中的每个像素点为种子进行区域生长操作,使得该进行了图像平湖操作后的图像被分割为若干个区域图像,并在分割的若干个区域图像中确定目标区域图像。
12.如权利要求7所述的设备,其特征在于,所述类别确定模块具体用于,根据确定的图像之间的相似度值,按照聚类算法,对图像库所包含的图像进行聚类操作,确定图像库所包含的图像所属的图像类别。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210015290.8A CN103207879B (zh) | 2012-01-17 | 2012-01-17 | 图像索引的生成方法及设备 |
TW101117554A TWI552007B (zh) | 2012-01-17 | 2012-05-17 | Method and apparatus for generating image index |
US13/741,967 US9330341B2 (en) | 2012-01-17 | 2013-01-15 | Image index generation based on similarities of image features |
EP13702150.7A EP2805262B1 (en) | 2012-01-17 | 2013-01-16 | Image index generation based on similarities of image features |
PCT/US2013/021738 WO2013109625A1 (en) | 2012-01-17 | 2013-01-16 | Image index generation based on similarities of image features |
JP2014547576A JP5916886B2 (ja) | 2012-01-17 | 2013-01-16 | 画像特徴の類似性に基づく画像索引作成 |
HK13110626.6A HK1183357A1 (zh) | 2012-01-17 | 2013-09-16 | 圖像索引的生成方法及設備 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210015290.8A CN103207879B (zh) | 2012-01-17 | 2012-01-17 | 图像索引的生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103207879A true CN103207879A (zh) | 2013-07-17 |
CN103207879B CN103207879B (zh) | 2016-03-30 |
Family
ID=48755104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210015290.8A Active CN103207879B (zh) | 2012-01-17 | 2012-01-17 | 图像索引的生成方法及设备 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9330341B2 (zh) |
EP (1) | EP2805262B1 (zh) |
JP (1) | JP5916886B2 (zh) |
CN (1) | CN103207879B (zh) |
HK (1) | HK1183357A1 (zh) |
TW (1) | TWI552007B (zh) |
WO (1) | WO2013109625A1 (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412937A (zh) * | 2013-08-22 | 2013-11-27 | 成都数之联科技有限公司 | 一种基于手持终端的搜索购物方法 |
CN104035971A (zh) * | 2014-05-21 | 2014-09-10 | 华为技术有限公司 | 一种获取商品信息的方法和装置 |
CN104199931A (zh) * | 2014-09-04 | 2014-12-10 | 厦门大学 | 一种商标图像一致语义提取方法及商标检索方法 |
CN104317827A (zh) * | 2014-10-09 | 2015-01-28 | 深圳码隆科技有限公司 | 一种商品的图片导航方法 |
CN104836974A (zh) * | 2015-05-06 | 2015-08-12 | 京东方科技集团股份有限公司 | 视频播放器、显示装置、视频播放系统和视频播放方法 |
CN105023025A (zh) * | 2015-08-03 | 2015-11-04 | 大连海事大学 | 一种开集痕迹图像分类方法及系统 |
CN105335524A (zh) * | 2015-11-27 | 2016-02-17 | 中国科学院自动化研究所 | 一种应用于大规模非规则结构数据的图搜索算法 |
CN105354307A (zh) * | 2015-11-06 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
CN105975643A (zh) * | 2016-07-22 | 2016-09-28 | 南京维睛视空信息科技有限公司 | 一种基于文本索引的实时图像检索方法 |
CN106575280A (zh) * | 2014-07-22 | 2017-04-19 | 香港科技大学 | 用于分析用户关联图像以产生非用户生成标签以及利用该生成标签的系统和方法 |
CN106844421A (zh) * | 2016-11-30 | 2017-06-13 | 上海仙剑文化传媒股份有限公司 | 一种数字图片管理方法及系统 |
CN107423294A (zh) * | 2016-02-25 | 2017-12-01 | 北京联合大学 | 一种社群图像检索方法及系统 |
CN107515872A (zh) * | 2016-06-15 | 2017-12-26 | 北京陌上花科技有限公司 | 搜索方法及装置 |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN107730357A (zh) * | 2017-10-19 | 2018-02-23 | 上海斐讯数据通信技术有限公司 | 一种基于视觉词典库实现图像快速检索的方法及系统 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN108133745A (zh) * | 2017-12-21 | 2018-06-08 | 成都真实维度科技有限公司 | 一种以医学影像为核心的临床路径完整数据关联方法 |
CN109308325A (zh) * | 2018-08-21 | 2019-02-05 | 董志忠 | 图像搜索方法及系统 |
CN110597719A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种用于适配测试的图像聚类方法、装置及介质 |
US10708207B2 (en) * | 2016-05-19 | 2020-07-07 | Tencent Technology (Shenzhen) Company Limited | Emoticon sending method, computer device and computer-readable storage medium |
CN111401464A (zh) * | 2020-03-25 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 分类方法、装置、电子设备及计算机可读存储介质 |
CN111476253A (zh) * | 2019-01-23 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 服装图像分类、图像分类方法、装置及设备 |
CN111797260A (zh) * | 2020-07-10 | 2020-10-20 | 宁夏中科启创知识产权咨询有限公司 | 基于图像识别的商标检索方法及系统 |
CN116662588A (zh) * | 2023-08-01 | 2023-08-29 | 山东省大数据中心 | 一种海量数据智能搜索方法及系统 |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI479431B (zh) * | 2012-04-03 | 2015-04-01 | Univ Chung Hua | 物件追蹤方法 |
US10691743B2 (en) * | 2014-08-05 | 2020-06-23 | Sri International | Multi-dimensional realization of visual content of an image collection |
US20150371107A1 (en) * | 2014-06-23 | 2015-12-24 | Canon Kabushiki Kaisha | Material classification using brdf feature vector |
CN105409207A (zh) * | 2013-07-15 | 2016-03-16 | 微软技术许可有限责任公司 | 基于特征的图像集合压缩 |
CN104346370B (zh) * | 2013-07-31 | 2018-10-23 | 阿里巴巴集团控股有限公司 | 图像搜索、获取图像文本信息的方法及装置 |
US9286217B2 (en) | 2013-08-26 | 2016-03-15 | Qualcomm Incorporated | Systems and methods for memory utilization for object detection |
US10853407B2 (en) * | 2013-09-05 | 2020-12-01 | Ebay, Inc. | Correlating image annotations with foreground features |
EP2869213A1 (en) * | 2013-10-31 | 2015-05-06 | Alcatel Lucent | Media content ordering system and method for ordering media content |
TWI472231B (zh) | 2013-11-27 | 2015-02-01 | Ind Tech Res Inst | 用於移動估計的視訊前處理方法與裝置 |
WO2015119711A1 (en) * | 2014-02-07 | 2015-08-13 | Zencolor Corporation | System for normalizing, codifying and categorizing color-based product and data based on a universal digital color language |
JP6194260B2 (ja) * | 2014-02-21 | 2017-09-06 | 日本電信電話株式会社 | 画像分類装置、画像分類方法及び画像分類プログラム |
KR20150100113A (ko) * | 2014-02-24 | 2015-09-02 | 삼성전자주식회사 | 영상 처리 장치 및 이의 영상 처리 방법 |
US10474949B2 (en) | 2014-08-19 | 2019-11-12 | Qualcomm Incorporated | Knowledge-graph biased classification for data |
US9449395B2 (en) | 2014-09-15 | 2016-09-20 | Winbond Electronics Corp. | Methods and systems for image matting and foreground estimation based on hierarchical graphs |
TWI571753B (zh) | 2014-11-07 | 2017-02-21 | 財團法人資訊工業策進會 | 用於產生一影像之一互動索引碼圖之電子計算裝置、其方法及其電腦程式產品 |
US9652688B2 (en) | 2014-11-26 | 2017-05-16 | Captricity, Inc. | Analyzing content of digital images |
JP6571200B2 (ja) | 2015-02-24 | 2019-09-04 | ヴィセンズ・プライベート・リミテッドVisenze Pte Ltd | 製品インデキシング方法およびそのシステム |
CN106156247B (zh) * | 2015-04-28 | 2020-09-15 | 中兴通讯股份有限公司 | 图像管理方法及装置 |
US10810252B2 (en) * | 2015-10-02 | 2020-10-20 | Adobe Inc. | Searching using specific attributes found in images |
CN105608496B (zh) * | 2015-11-09 | 2021-07-27 | 国家电网公司 | 一种基于k - means聚类算法的配抢工单激增原因分析方法 |
CN106373144A (zh) * | 2016-08-22 | 2017-02-01 | 湖南挚新科技发展有限公司 | 图像目标相对位置确定方法与系统 |
RU2647670C1 (ru) * | 2016-09-27 | 2018-03-16 | Общество с ограниченной ответственностью "Аби Девелопмент" | Автоматизированные способы и системы выявления на изображениях, содержащих документы, фрагментов изображений для облегчения извлечения информации из выявленных содержащих документы фрагментов изображений |
TWI636370B (zh) * | 2016-12-09 | 2018-09-21 | 中華電信股份有限公司 | Establishing chart indexing method and computer program product by text information |
CN107066485B (zh) * | 2016-12-27 | 2021-06-25 | 广东三维家信息科技有限公司 | 一种基于草图和特征检测的钻戒检索方法和系统 |
CN108460389B (zh) * | 2017-02-20 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种识别图像中对象的类型预测方法、装置及电子设备 |
US10628890B2 (en) * | 2017-02-23 | 2020-04-21 | International Business Machines Corporation | Visual analytics based vehicle insurance anti-fraud detection |
CN107688815B (zh) * | 2017-08-31 | 2022-02-22 | 京东方科技集团股份有限公司 | 医学图像的分析方法和分析系统以及存储介质 |
CN110019903A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像处理引擎组件的生成方法、搜索方法及终端、系统 |
US10896218B2 (en) * | 2017-12-22 | 2021-01-19 | Oracle International Corporation | Computerized geo-referencing for images |
CN108955718B (zh) * | 2018-04-10 | 2022-08-09 | 中国科学院深圳先进技术研究院 | 一种视觉里程计及其定位方法、机器人以及存储介质 |
CN108829815B (zh) * | 2018-06-12 | 2022-06-07 | 四川希氏异构医疗科技有限公司 | 一种医学影像图像筛选方法 |
US11024037B2 (en) * | 2018-11-15 | 2021-06-01 | Samsung Electronics Co., Ltd. | Foreground-background-aware atrous multiscale network for disparity estimation |
CN111368838A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种举报截图的识别方法及装置 |
CN111652239B (zh) * | 2019-04-30 | 2023-06-20 | 上海铼锶信息技术有限公司 | 一种图像局部特征对整体特征贡献度的评估方法及系统 |
CN111652260B (zh) * | 2019-04-30 | 2023-06-20 | 上海铼锶信息技术有限公司 | 一种人脸聚类样本数量的选择方法及系统 |
US20210142210A1 (en) * | 2019-11-11 | 2021-05-13 | Alibaba Group Holding Limited | Multi-task segmented learning models |
CN110969170B (zh) * | 2019-12-03 | 2024-03-08 | 北京奇艺世纪科技有限公司 | 一种图像主题色提取方法、装置及电子设备 |
CN111179283A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市商汤科技有限公司 | 图像语义分割方法及装置、存储介质 |
CN111310664B (zh) * | 2020-02-18 | 2022-11-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113362351A (zh) * | 2020-03-05 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN111400431A (zh) * | 2020-03-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111553365B (zh) * | 2020-04-30 | 2023-11-24 | 广东小天才科技有限公司 | 一种题目选取的方法、装置、电子设备及存储介质 |
CN111627059B (zh) * | 2020-05-28 | 2023-05-30 | 桂林市思奇通信设备有限公司 | 一种棉花叶片中心点位置定位方法 |
CN111986785B (zh) * | 2020-08-26 | 2023-09-12 | 北京至真互联网技术有限公司 | 医学影像标注方法和装置、设备及存储介质 |
US11823470B2 (en) * | 2020-11-25 | 2023-11-21 | International Business Machines Corporation | Generating analytic applications from a media file |
CN112507921B (zh) * | 2020-12-16 | 2024-03-19 | 平安银行股份有限公司 | 基于目标区域的图形搜索方法、系统、电子装置及存储介质 |
CN112661013B (zh) * | 2020-12-17 | 2023-06-30 | 北京航天自动控制研究所 | 一种自动化码头桥吊遗留锁垫检测方法及系统 |
CN113094465A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种设计产品查重方法和系统 |
CN113609317B (zh) * | 2021-09-16 | 2024-04-02 | 杭州海康威视数字技术股份有限公司 | 一种图像库构建方法、装置及电子设备 |
WO2023084512A1 (en) * | 2021-11-14 | 2023-05-19 | Bria Artificial Intelligence Ltd | Facilitating generation and usage of visual content |
CN116433990B (zh) * | 2023-06-12 | 2023-08-15 | 恒超源洗净科技(深圳)有限公司 | 基于视觉检测的超声波清洗机反馈调节系统 |
CN116664560B (zh) * | 2023-07-28 | 2023-11-10 | 南方医科大学珠江医院 | 一种胃肠道影像数据分割方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754675B2 (en) * | 1998-06-22 | 2004-06-22 | Koninklijke Philips Electronics N.V. | Image retrieval system |
US7212670B1 (en) * | 2002-05-03 | 2007-05-01 | Imagetree Corp. | Method of feature identification and analysis |
CN101211355A (zh) * | 2006-12-30 | 2008-07-02 | 中国科学院计算技术研究所 | 一种基于聚类的图像查询方法 |
CN101506843A (zh) * | 2006-08-14 | 2009-08-12 | 微软公司 | 图像中的对象的自动分类 |
CN101751439A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于层次聚类的图像检索方法 |
CN102089761A (zh) * | 2008-05-12 | 2011-06-08 | 谷歌公司 | 自动发现受欢迎的地标 |
CN102110122A (zh) * | 2009-12-24 | 2011-06-29 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5579471A (en) | 1992-11-09 | 1996-11-26 | International Business Machines Corporation | Image query system and method |
US5911139A (en) | 1996-03-29 | 1999-06-08 | Virage, Inc. | Visual image database search engine which allows for different schema |
US5930783A (en) | 1997-02-21 | 1999-07-27 | Nec Usa, Inc. | Semantic and cognition based image retrieval |
WO1999022318A1 (en) | 1997-10-27 | 1999-05-06 | Massachusetts Institute Of Technology | Image search and retrieval system |
US6026411A (en) | 1997-11-06 | 2000-02-15 | International Business Machines Corporation | Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors |
US6415282B1 (en) | 1998-04-22 | 2002-07-02 | Nec Usa, Inc. | Method and apparatus for query refinement |
US6882746B1 (en) | 1999-02-01 | 2005-04-19 | Thomson Licensing S.A. | Normalized bitmap representation of visual object's shape for search/query/filtering applications |
US7155033B1 (en) | 1999-02-01 | 2006-12-26 | Thomson Licensing | Coarse representation of visual object's shape for search/query/filtering applications |
US6865302B2 (en) | 2000-03-16 | 2005-03-08 | The Regents Of The University Of California | Perception-based image retrieval |
FR2807543B1 (fr) | 2000-04-06 | 2004-11-05 | Imstar S A | Appareil d'imagerie associe a une base de donnees images |
AUPQ921600A0 (en) | 2000-08-04 | 2000-08-31 | Canon Kabushiki Kaisha | Automatic person meta-data labeller |
US7039229B2 (en) | 2000-08-14 | 2006-05-02 | National Instruments Corporation | Locating regions in a target image using color match, luminance pattern match and hill-climbing techniques |
KR100438725B1 (ko) | 2002-06-25 | 2004-07-05 | 삼성전자주식회사 | 메모리 카드를 이용한 영상 인쇄 방법 및 장치 |
KR100461019B1 (ko) | 2002-11-01 | 2004-12-09 | 한국전자통신연구원 | 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법 |
US20060170769A1 (en) * | 2005-01-31 | 2006-08-03 | Jianpeng Zhou | Human and object recognition in digital video |
US8732025B2 (en) | 2005-05-09 | 2014-05-20 | Google Inc. | System and method for enabling image recognition and searching of remote content on display |
US20070133947A1 (en) | 2005-10-28 | 2007-06-14 | William Armitage | Systems and methods for image search |
US20070274609A1 (en) | 2006-05-23 | 2007-11-29 | Hitachi High-Technologies Corporation | Image Search Apparatus, Image Search System, Image Search Method, and Program for Executing Image Search Method |
CN1851709A (zh) | 2006-05-25 | 2006-10-25 | 浙江大学 | 嵌入式多媒体基于内容的查询和检索的实现方法 |
US20070288453A1 (en) | 2006-06-12 | 2007-12-13 | D&S Consultants, Inc. | System and Method for Searching Multimedia using Exemplar Images |
US7684651B2 (en) | 2006-08-23 | 2010-03-23 | Microsoft Corporation | Image-based face search |
US8175394B2 (en) | 2006-09-08 | 2012-05-08 | Google Inc. | Shape clustering in post optical character recognition processing |
US8611673B2 (en) | 2006-09-14 | 2013-12-17 | Parham Aarabi | Method, system and computer program for interactive spatial link-based image searching, sorting and/or displaying |
CN101211341A (zh) | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
US8094948B2 (en) | 2007-04-27 | 2012-01-10 | The Regents Of The University Of California | Photo classification using optical parameters of camera from EXIF metadata |
WO2009016559A1 (en) | 2007-08-01 | 2009-02-05 | Koninklijke Philips Electronics N.V. | Accessing medical image detabases using medically relevant terms |
JP5503921B2 (ja) | 2009-08-21 | 2014-05-28 | ソニーモバイルコミュニケーションズ, エービー | 情報端末、情報端末の情報制御方法及び情報制御プログラム |
JP2011076575A (ja) | 2009-09-04 | 2011-04-14 | Canon Inc | 画像処理装置、画像処理方法及びプログラム |
JP5346756B2 (ja) * | 2009-09-25 | 2013-11-20 | Kddi株式会社 | 画像分類装置 |
CN103946838B (zh) * | 2011-11-24 | 2017-10-24 | 微软技术许可有限责任公司 | 交互式多模图像搜索 |
-
2012
- 2012-01-17 CN CN201210015290.8A patent/CN103207879B/zh active Active
- 2012-05-17 TW TW101117554A patent/TWI552007B/zh not_active IP Right Cessation
-
2013
- 2013-01-15 US US13/741,967 patent/US9330341B2/en active Active
- 2013-01-16 WO PCT/US2013/021738 patent/WO2013109625A1/en active Application Filing
- 2013-01-16 JP JP2014547576A patent/JP5916886B2/ja active Active
- 2013-01-16 EP EP13702150.7A patent/EP2805262B1/en active Active
- 2013-09-16 HK HK13110626.6A patent/HK1183357A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754675B2 (en) * | 1998-06-22 | 2004-06-22 | Koninklijke Philips Electronics N.V. | Image retrieval system |
US7212670B1 (en) * | 2002-05-03 | 2007-05-01 | Imagetree Corp. | Method of feature identification and analysis |
CN101506843A (zh) * | 2006-08-14 | 2009-08-12 | 微软公司 | 图像中的对象的自动分类 |
CN101211355A (zh) * | 2006-12-30 | 2008-07-02 | 中国科学院计算技术研究所 | 一种基于聚类的图像查询方法 |
CN102089761A (zh) * | 2008-05-12 | 2011-06-08 | 谷歌公司 | 自动发现受欢迎的地标 |
CN101751439A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于层次聚类的图像检索方法 |
CN102110122A (zh) * | 2009-12-24 | 2011-06-29 | 阿里巴巴集团控股有限公司 | 一种建立样本图片索引表和图片过滤、搜索方法及装置 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412937A (zh) * | 2013-08-22 | 2013-11-27 | 成都数之联科技有限公司 | 一种基于手持终端的搜索购物方法 |
CN103412937B (zh) * | 2013-08-22 | 2016-12-28 | 成都数之联科技有限公司 | 一种基于手持终端的搜索购物方法 |
CN104035971A (zh) * | 2014-05-21 | 2014-09-10 | 华为技术有限公司 | 一种获取商品信息的方法和装置 |
CN104035971B (zh) * | 2014-05-21 | 2018-03-27 | 华为技术有限公司 | 一种获取商品信息的方法和装置 |
CN106575280A (zh) * | 2014-07-22 | 2017-04-19 | 香港科技大学 | 用于分析用户关联图像以产生非用户生成标签以及利用该生成标签的系统和方法 |
CN104199931B (zh) * | 2014-09-04 | 2018-11-20 | 厦门大学 | 一种商标图像一致语义提取方法及商标检索方法 |
CN104199931A (zh) * | 2014-09-04 | 2014-12-10 | 厦门大学 | 一种商标图像一致语义提取方法及商标检索方法 |
CN104317827A (zh) * | 2014-10-09 | 2015-01-28 | 深圳码隆科技有限公司 | 一种商品的图片导航方法 |
CN104317827B (zh) * | 2014-10-09 | 2017-06-30 | 深圳码隆科技有限公司 | 一种商品的图片导航方法 |
US10225514B2 (en) | 2015-05-06 | 2019-03-05 | Boe Technology Group Co., Ltd. | Video player, a display apparatus, a video playing system and a video playing method |
CN104836974A (zh) * | 2015-05-06 | 2015-08-12 | 京东方科技集团股份有限公司 | 视频播放器、显示装置、视频播放系统和视频播放方法 |
CN105023025B (zh) * | 2015-08-03 | 2018-09-25 | 大连海事大学 | 一种开集痕迹图像分类方法及系统 |
CN105023025A (zh) * | 2015-08-03 | 2015-11-04 | 大连海事大学 | 一种开集痕迹图像分类方法及系统 |
CN105354307A (zh) * | 2015-11-06 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
WO2017075939A1 (zh) * | 2015-11-06 | 2017-05-11 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
US10438091B2 (en) | 2015-11-06 | 2019-10-08 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for recognizing image content |
CN105354307B (zh) * | 2015-11-06 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
CN105335524B (zh) * | 2015-11-27 | 2019-09-24 | 中国科学院自动化研究所 | 一种应用于大规模非规则结构数据的图搜索方法 |
CN105335524A (zh) * | 2015-11-27 | 2016-02-17 | 中国科学院自动化研究所 | 一种应用于大规模非规则结构数据的图搜索算法 |
CN107423294A (zh) * | 2016-02-25 | 2017-12-01 | 北京联合大学 | 一种社群图像检索方法及系统 |
US10708207B2 (en) * | 2016-05-19 | 2020-07-07 | Tencent Technology (Shenzhen) Company Limited | Emoticon sending method, computer device and computer-readable storage medium |
CN107515872A (zh) * | 2016-06-15 | 2017-12-26 | 北京陌上花科技有限公司 | 搜索方法及装置 |
CN107562742A (zh) * | 2016-06-30 | 2018-01-09 | 苏宁云商集团股份有限公司 | 一种图像数据处理方法及装置 |
CN107562742B (zh) * | 2016-06-30 | 2021-02-05 | 江苏苏宁云计算有限公司 | 一种图像数据处理方法及装置 |
CN105975643A (zh) * | 2016-07-22 | 2016-09-28 | 南京维睛视空信息科技有限公司 | 一种基于文本索引的实时图像检索方法 |
CN105975643B (zh) * | 2016-07-22 | 2019-08-16 | 南京维睛视空信息科技有限公司 | 一种基于文本索引的实时图像检索方法 |
CN106844421A (zh) * | 2016-11-30 | 2017-06-13 | 上海仙剑文化传媒股份有限公司 | 一种数字图片管理方法及系统 |
CN107730357A (zh) * | 2017-10-19 | 2018-02-23 | 上海斐讯数据通信技术有限公司 | 一种基于视觉词典库实现图像快速检索的方法及系统 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN107944454B (zh) * | 2017-11-08 | 2021-09-14 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN108133745A (zh) * | 2017-12-21 | 2018-06-08 | 成都真实维度科技有限公司 | 一种以医学影像为核心的临床路径完整数据关联方法 |
CN108133745B (zh) * | 2017-12-21 | 2020-08-11 | 成都真实维度科技有限公司 | 一种以医学影像为核心的临床路径完整数据关联方法 |
CN109308325A (zh) * | 2018-08-21 | 2019-02-05 | 董志忠 | 图像搜索方法及系统 |
CN109308325B (zh) * | 2018-08-21 | 2022-07-01 | 董志忠 | 图像搜索方法及系统 |
CN111476253A (zh) * | 2019-01-23 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 服装图像分类、图像分类方法、装置及设备 |
CN111476253B (zh) * | 2019-01-23 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 服装图像分类、图像分类方法、装置及设备 |
CN110597719A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种用于适配测试的图像聚类方法、装置及介质 |
CN110597719B (zh) * | 2019-09-05 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 一种用于适配测试的图像聚类方法、装置及介质 |
CN111401464A (zh) * | 2020-03-25 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 分类方法、装置、电子设备及计算机可读存储介质 |
CN111797260A (zh) * | 2020-07-10 | 2020-10-20 | 宁夏中科启创知识产权咨询有限公司 | 基于图像识别的商标检索方法及系统 |
CN116662588A (zh) * | 2023-08-01 | 2023-08-29 | 山东省大数据中心 | 一种海量数据智能搜索方法及系统 |
CN116662588B (zh) * | 2023-08-01 | 2023-10-10 | 山东省大数据中心 | 一种海量数据智能搜索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2013109625A1 (en) | 2013-07-25 |
EP2805262B1 (en) | 2021-03-03 |
HK1183357A1 (zh) | 2013-12-20 |
JP5916886B2 (ja) | 2016-05-11 |
CN103207879B (zh) | 2016-03-30 |
EP2805262A1 (en) | 2014-11-26 |
TWI552007B (zh) | 2016-10-01 |
US20130195361A1 (en) | 2013-08-01 |
TW201331772A (zh) | 2013-08-01 |
JP2015506045A (ja) | 2015-02-26 |
US9330341B2 (en) | 2016-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207879B (zh) | 图像索引的生成方法及设备 | |
Chaudhuri et al. | Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method | |
Zhang et al. | Integrating bottom-up classification and top-down feedback for improving urban land-cover and functional-zone mapping | |
Le Goff et al. | Deep learning for cloud detection | |
Zhang et al. | A multilevel point-cluster-based discriminative feature for ALS point cloud classification | |
Srivastava et al. | A review: color feature extraction methods for content based image retrieval | |
CN102968635B (zh) | 一种基于稀疏编码的图像视觉特征提取方法 | |
CN105303195A (zh) | 一种词袋图像分类方法 | |
Wang et al. | Enhancing minimum spanning tree-based clustering by removing density-based outliers | |
Yang et al. | Tree detection from aerial imagery | |
Nunes et al. | Shape based image retrieval and classification | |
CN104778281A (zh) | 一种基于社区分析的图像索引并行构建方法 | |
CN106874421A (zh) | 基于自适应矩形窗口的图像检索方法 | |
CN107657276B (zh) | 一种基于寻找语义类簇的弱监督语义分割方法 | |
CN106897722A (zh) | 一种基于区域形状特征的商标图像检索方法 | |
Yang et al. | Shape-based object matching using interesting points and high-order graphs | |
Luqman et al. | Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images | |
Liu et al. | Flower classification using fusion descriptor and SVM | |
Meng et al. | Merged region based image retrieval | |
Wang et al. | Plant recognition based on Jaccard distance and BOW | |
Karmakar et al. | An enhancement to the spatial pyramid matching for image classification and retrieval | |
CN102306179A (zh) | 基于分级颜色分布描述符的图像内容检索方法 | |
Mercioni et al. | A study on Hierarchical Clustering and the Distance metrics for Identifying Architectural Styles | |
Le et al. | Content-based comic retrieval using multilayer graph representation and frequent graph mining | |
Ke et al. | Remote sensing image classification method based on superpixel segmentation and adaptive weighting K-means |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1183357 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1183357 Country of ref document: HK |