CN101263514A - 在图像数据库中进行导航、可视化和聚类的互序次相似度空间 - Google Patents
在图像数据库中进行导航、可视化和聚类的互序次相似度空间 Download PDFInfo
- Publication number
- CN101263514A CN101263514A CNA2006800332246A CN200680033224A CN101263514A CN 101263514 A CN101263514 A CN 101263514A CN A2006800332246 A CNA2006800332246 A CN A2006800332246A CN 200680033224 A CN200680033224 A CN 200680033224A CN 101263514 A CN101263514 A CN 101263514A
- Authority
- CN
- China
- Prior art keywords
- data item
- similarity
- described method
- image
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 116
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 230000005055 memory storage Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
一种表示一组数据项的方法,该方法包括:对于该组中多个数据项的每个数据项,确定所述数据项与该组中多个其他数据项的每个数据项之间的相似度,基于相似度对每一对数据项指定序次,其中所述多个数据项中的每个数据项的排序相似度值被关联起来,以反映该组中数据项的总体相对相似度。
Description
技术领域
本发明涉及数据项、特别是图像集合的有效表示。它具体涉及可以提取图像内容的数学描述的图像集合中的导航,因为在这样的数据库中可以使用自动算法来分析、组织、搜索和浏览数据。数字图像集合在专业和消费领域正变得日益普遍。技术进步已经使得捕获、存储和传输数字影像比从前更加便宜和容易。这使得需要新的方法来使用户能够与这样的集合进行有效的交互。
背景技术
查询图像数据库的方法是公知的。例如,US-B-6240423公开了一种这样的方法,其中查询的结果是根据基于区域的图像匹配和基于边界的图像匹配的组合得出。
对于初学的用户,特别难以找到直观的方法来介入这样大容量的数据。例如,大多数消费者熟悉于以实体的方式将他们的纸质摄影印刷品组织成相册,但是对于其个人计算机、摄像机电话或数字相机的存储器中的数字照片的集合,这种可触知的交互不再可能。最初,用于对各集合进行导航的电子方法关注于对该物理、可触知的归档体验进行仿真。
Wang等人(US6,028,603)提供了一种以类似相册的格式呈现图像的手段,其由具有定义了该页上图像的布局的信息的一页或更多页组成。顺序和布局可以通过用户的拖放操作而改变。
另一种简单的方法来自Gargi(US 2002/0140746),他以堆叠显示的方式呈现图像。在鼠标移过时显现图像。对于用户,这类似于从桌上的一叠照片进行拾取。
当用户手动地组织其图像集合时,对于结构来说通常有一些重要性。换句话说,其相册的布局对他们具有某种“意义”。这可能涉及与图像关联的事件、人物或情绪,或可能例如讲述故事。一些电子导航工具已经尝试通过允许用户对图像作标记或分组来模拟并且利用该结构。一些甚至尝试对类别或分组进行自动建议。
Mojsilovic等人(US 2003/0123737)公开了一种用于基于从感知实验得到的语义特征浏览、搜索、查询和可视化数字图像集合的方法。其定义了一种用于基于该“完全特征集”比较两个图像的语义相似度的措施,以及一种对每个图像指派语义类别的方法。
Rosenzweig等人(US 2002/0075322)提出了一种用于浏览和检索的、基于时间轴的图形用户界面(GUI),其中各组图像由大小与组的大小成比例的图标表示。用户激活图标来操作其分级系统,该激活动作触发对第一级进行细化的又一级别。该系统还可以对存储在图像文件中、定义例如位置、人物、事件的各种元数据进行解码来得到所述(相互独占的)各组。通过激活最终级别/视图中的图标显示所包含的图像。
Stavely等人(US 2003/0086012)描述了另一种用于图像浏览的用户界面。利用垂直和水平输入控制的简单组合,其通过使每个组具有“优选”图像来允许组内和组间的图像浏览。
Anderson(US 6,538,698)详细说明了一种依赖于通过各种分类标准对各图像进行分类和分组的搜索和浏览系统。
尽管数字库使用户不能进行摄影印刷品所允许的物理交互,但是其允许有用的新功能,特别是涉及内容的自动分析的功能。可以提取以多种方式表征图像的“特征”。图像中呈现的(例如)形状、纹理和颜色可以全部通过数字特征来进行描述,这使得可以通过这些属性来对图像进行比较和索引。
上述的自动类别指派仅仅是其允许的该类功能的一个示例。能够定量地对图像进行比较还使得可能捕获和表示整个数据库的结构。这是个吸引人的构思,因为当用户着手组织其相册时,他们经常试图施加结构。如果集合中的图像具有直观的结构,其将可能是用户开始的有用之处。还可以使得搜索和浏览更有效率,因为用户可以获知该结构以便利用或修改它。
本发明的方法通过分析图像对的相似性,自动发现图像数据库的结构。然后可以以多种方式利用该结构,包括将其表示为用户可以交互式导航的二维图。
从各文献已知多种将数据从高维空间投影到低维空间的处理方法,无论是否纯粹用于表示(例如,主成分分析(Principal ComponentAnalysis,PCA))分类(例如,线性鉴别分析(Linear DiscriminantAnalysis,LDA))或可视化(例如,拉普拉斯特征映射(Laplaciean Eigenmap)、多维标度(MultiDimensional Scaling,MDS))、局部保持投影(Locality PreservingProjection,LPP)和自组织映射(Self-Organising Map,SOM)。在本文中,采取逐对比较的矩阵作为输入的算法受到特别关注。对于许多特征,不能把数字数据简单地解释为卡笛尔空间(Cartesian space)中的点一通常其仅适合于使用特定距离度量进行比较。因此,直接对向量数据进行操作的算法对于我们的目的较无用。基于相似度的技术包括MDS、SOM和拉普拉斯特征映射。这些都创建了数据的低维投影,这最佳地反映了各自的相似度度量(其中,“最佳”是通过一些成本函数确定的)。
Rising(US 6,721,759)描述了一种用于图像的分级MDS数据库的处理。这基于使用特征检测器测量图像集合的相似度,以及查询和更新结构的方法。为了构造该表示法,在顶级对图像的子集(称为控制点)执行MDS。这些点被选择以便近似数据点的凸包-即,完整地表示图像中呈现的变化。其余的点用相对于控制点的位置初始化,并且整个集合被划分为多个“节点”,每个节点表示一个子集。然后对每个节点执行MDS,以细化其内的图像排列。该方法利用了分级树的效率方面,以减少计算MDS的计算负担(迭代优化算法)。
Trepess和Thorpe(EP 1 426 882)的方法使用SOM来创建数据的映射表示法。然后构造分级聚类以便于导航和显示。可以通过从聚类结构自动得到的各种表征信息(标记)来区分各聚类。该应用主要对于文本文档,但是该方法自身是通用的。在某种意义上说,它反映了Rising的工作:该方法将每个级别的数据聚类,然后执行映射,而Trepess和Thorpe首先(全局地)计算映射,然后使用它来构造层次。
Jain和Santini(US 6,121,969)提出了一种对图像数据库中的查询结果进行可视化的方法。其在三维空间中显示结果,该三维空间的轴从N维的集合中任意选择。这些对应于查询图像和数据库图像之间的各种相似度度量。提出了通过穿过该空间的视觉导航,给用户动态和视觉的体验。该方法与之前两个示例不同,因为其不是尝试最优地捕获图像集合的相似度结构,而是给出集合针对用户选择的查询图像的相似度。从该相似度的多个测量,而不是从图像的多个相互相似度产生多个维。
如很快就能看到的,本发明蕴含的关键构思之一在于:序次(rank)结构(而不是相似度结构)是当表现和组织图像数据库时要保留的重要特性。使用序次来引导聚类已经在例如在Novak等人(J.Novak,P.Raghavan和A.Tomkins,“Anti-aliasing on the web”,Proc.InternationalWorld Wide Web Conference,pages 30-39,2004)和Fang,(F.M.Fang,“AnAnalytical Study on Image Databases”,Master’s Thesis,MIT,1997年6月)的文献中简短地提及。这两个论著都把对象i和j的互序次(mutual rank)定义为i相对于j的序次和j相对于i的序次的和。
然而,还没有利用该类型的测量的全部潜力。特别地,前述论著仅考虑了聚类,然后仅仅孤立地处理每个逐对互序次的比较,在局部以“贪婪(greedy)”方式做出决定。用新颖的全局的基于序次的测量来引导表示法,被证明是显现结构的有力手段。
现有技术的每个方法都具有本发明所要解决的缺陷:
简单的浏览方法既没有利用图像集合的结构也没有很好地表示它。
基于分类的方法可能部分地解决该问题。它们开始利用可用的特征信息,但是由于离散的、经常是排他的类别标签的指派而不灵活。可靠的自动分类也是出名地难以实现。
更复杂的方法可以考虑并表示相似度,但是到目前为止,仅仅捕获绝对的比较。本方法将在整个集合的范围中捕获各图像之间相对关系。
现有技术中还没有计算并在表示中嵌入时间上和视觉上的相似度的联合度量的构思。以这种方式结合时间和外观对可视化给出有利的属性,包括使得用户更易于解释作为结果的安排。
发明内容
在权利要求书中提出了本发明的各方面。本发明涉及数据项,利用装置来处理与数据项相对应的信号。本发明主要涉及图像。本发明的应用的进一步细节可以在共同未决欧洲专利申请No.05255033中找到。
本发明的一个方面是:当紧凑地表示图像集合的结构时,相对关系而非相似度的绝对度量是要保留的重要特性。因此定义了互序次矩阵作为以能够进行数学分析的形式对数据结构进行编码的适当方式。该矩阵中的项表示在更宽集合的范围内图像对的比较。数学分析可以包括基于该信息对图像进行分组(聚类),或将该信息投射成保留了该结构的最重要方面的紧凑表示。
第二相关的方面是:当整体而非孤立地考虑所述互序次度量时最有效地捕获该结构。即,当采取全局而非局部(逐对)的角度进行处理时。
第三方面是:时间和视觉信息在确定集合中各图像的前后关系中同等有用。这意味着,在度量所述比较时,时间不被当作单独的或独立的量。因此所得到的聚类或视觉表示在能够共同表示视觉相似度和时间接近性的空间中形成。
附图说明
本发明的实施例将参考附图描述,附图中:
图1是第一实施例的流程图;
图2是第二实施例的流程图;
图3是第三实施例的流程图;
图4示出了浏览装置。
具体实施方式
在图像检索任务的环境中,一个共同的方法是给出按其相似度(一定程度上)排序的、针对查询结果的排序列表。这很好地捕获了数据库中的图像和查询图像的关系。其构思在于,希望用户将在排序列表的顶部附近找到感兴趣的图像,不相关的图像被推到底部。本发明将该概念延伸到试图捕获并可视化数据库中的图像之间的所有相互关系。
本方法的一个实施例是一种系统,该系统分析图像、比较其特征、产生一组互序次矩阵、将其组合并通过求解特征值问题来计算映射表示。该过程在图1的流程图中图示。
图2中示出另一个实施例。这里,在第一实施例中对互序次矩阵执行的组合步骤现在对特征相似度执行。图3示出第三实施例,其中一些组合在较早的阶段执行,而剩余部分在较晚的阶段执行。选择何时根据各种特征值融合数据与本发明构思无关。更正确地说它是特定实现的细节。如将对本领域技术人员明显的,该选择可以通过诸如复杂性、特征数量(维度)和其独立程度的因素来确定。在本说明书的剩余部分,我们不失一般性地集中于图1中示出的顺序。
该系统中的第一步骤是从图像和任何相关联的元数据提取一些描述性特征。该特征例如可以是MPEG-7可视描述符,该描述符描述颜色、纹理和结构属性或图像的任何其他可视属性,如在MPEG-7标准ISO/IEC 15938-3“Information technology-Multimedia content descriptioninterface-Part 3:Visual”中提出的。例如,第一图像的颜色描述符可以表示在给定颜色空间中图像的平均颜色的位置。第二图像的对应颜色描述符进而可与第一图像的颜色描述符比较,给出在给定颜色空间中的相隔距离,以及因此的第一和第二图像之间相似度的定量评估。
换句话说,例如,用简单的距离测量或相似度值S,将第一平均颜色值(a1,b1,c1)与第二平均颜色值(a2,b2,c2)进行比较,其中
S=[a1-a2]+[b1-b2]+[c1-c2]
时间是元数据最重要的元素,但是其他信息,不论是用户提供的还是自动产生的,都可以并入。以这种和其他方式组合时间和视觉信息的示例可以在Cooper等人的“Temporal event clustering for digital photocollections”(Proc.11th ACM International conference on Multimedia,PP.364-373,2003)中找到。
对描述性特征唯一的限制在于,这些特征允许一个图像与另一个进行比较以产生相似度值。US-B-6240423公开了图像之间的相似度值计算的示例。MPEG-7标准自身定义了描述符和相关联的相似度度量。然而,优选地,这些特征还可以捕获图像内容的一些对人有意义的品质。
第二步骤是使用描述性特征执行图像的交叉匹配。描述性特征和其相关联的相似度度量的许多示例是公知的-例如,参见EP-A-1173827,EP-A-1183624、GB 2351826、GB 2352075、GB 2352076。
类似地,存在用于得到描述性标量或向量值(即,特征向量)的许多公知的技术,可以利用很多公知的技术对该值进行比较以确定该标量或向量值的相似度,如简单的距离度量。
这对每个特征F产生逐对相似度的矩阵SF。每项SF(i,j)是针对所述特征F、在图像i和图像j之间的相似度。矩阵因此典型地是对称的。如果例如使用相似度的非对称度量,则各矩阵可以不是对称的。所有图像可以包括在交叉匹配或子集中。例如,图像可以预先聚类,并且仅处理来自每个聚类的一个图像,以减少复杂度和冗余。这可以以多个现有技术算法(例如,k最近邻(k-Nearest Neighbours)、合并融合(agglomerativemerging)等)中的任何一种技术来实现。
第三步骤是将相似度矩阵SF转换为序次矩阵RF。用一些序次序数值(rank ordinal value)代替相似度值独立地处理每列。换句话说,对于每个i,例如用N(其中,N是集合中图像的数量)代替最大相似度SF(i,j),第二大的用N-1代替,第三大的用N-2代替,等等。在该步骤后,矩阵不再对称,因为图像i相对于j的序次与j相对于i的序次不相同。该步骤的副作用在于,我们已经预先计算了对于查询任何图像的检索结果。注意到,这并不是保留序次序数信息的唯一方法。一般而言,该步骤可以视为相似度的依赖于数据的、非线性的、单调变换。任何这样的变换可以视为在本发明的范围内。
序次矩阵的进一步处理是有利的,尽管不是必须的。例如,可以应用阈值来去除虚假信息-对于很多特征,超过一些截止点的序次值变得没有意义:图像是简单的“不相似”,并且保留正在减小的序次值是没有意义的。然而,时间则不是这种情况的一个特征。时间差和序次对所有图像一致,因此,该特征的序次矩阵典型地是没有阈值的。
第四步骤是对于每个特征使序次矩阵对称化。对序次矩阵进行操作的任何线性或非线性、代数或统计函数可以用于此目的。在一个实施例中,将序次矩阵与其转置相加,给出互序次矩阵的一个实施例:
MF=RF+RF T
在该矩阵中,在图像集合的更宽的范围中,每个项对图像i和j之间的相对相似度进行编码。注意MF是对称的。适当对称化的另一个示例是简单地选择最大值:
MF(i,j)=max{RF(i,j),RF(j,i)}
第五步骤是将矩阵MF组合为互序次分数的单个全局矩阵M。存在许多可能的方法来实现它。在一个实施例中,MF被加权并求和。该系统可以包括一些确定权重的手段,或者权重可以在设计中被固定。当要在系统中的早期阶段对特征进行组合时,同样可以有宽范围的各种组合方法(在前面讨论过并由图2和3例示)。
在该阶段,作为关于数据库结构的信息的丰富资源的矩阵M,可以通过多个用于聚类和/或表示的现有技术算法来分析。例如,可以在合并聚类(agglomerative clustering)过程中迭代地并入存在低互序次的图像对。
更有用的,矩阵M可以以“全局”方式分析,以便同时考虑若干(或也许是所有的)互序次度量。这减少了在单个度量(矩阵项)中所述表示对噪声的敏感度,并且更好地捕获了数据的体积性质。从文献获知的谱聚类方法是该类处理的一个示例,但是对本领域技术人员将清楚的是,任何其他的非局部的方法是合适的。
在优选实施例中,互序次矩阵通过拉普拉斯特征映射方法被嵌入低维空间中。为可视化目的,维数优选地为二,但是可以更多或更少。或者,任何数量的维数可以用于聚类。其他方法也可以执行嵌入。拉普拉斯特征映射方法试图将图像作为点嵌入到空间中,使得空间中的距离对应M中的各项。即,具有大互序次值的图像对彼此靠近,而具有小互序次值的图像距离远。
于是可以得到作为特征值问题的以下方程:
(D-M)x=λDx
其中D是通过对M的行求和而形成的对角矩阵:
方程的求解得出N个特征向量,x,该特征向量是图像在互序次相似度空间中的坐标。各个向量(维)在捕获集合的结构中的重要性由相应的特征值指示。这使得可以选择几个最不重要的维来进行可视化、导航和聚类。
图4中示出使用上述方法得到的2维空间中的一组数据项的映射图像的示例。更具体地,图4示出了显示器120上的符号表示空间,其中符号(点)对应各数据项,在这里是图像。
在显示器中符号的排列(即,符号之间相对位置和距离)反映了基于数据项的一个或更多特性(如平均颜色)的、相应数据项的相似度。
用户可以使用点击设备(pointing device)130在表示空间10上移动光标250。根据光标的位置,基于各个符号260对于光标的邻近程度来显示一个或更多图像(缩略图)270。其进一步细节和相关的方法和装置在我们的通过引用结合于此的共同未决欧洲专利申请No.05255033(题为“Method and apparatus for accessing data using a symbolic representationspace”)中描述。
下面讨论各改进和替代。
当计算互序次矩阵时,可以选择图像的子集。这减少了矩阵的大小并减小了计算负担。进而希望确定在原始子集中没有出现的图像在输出空间中的位置。这些可以是更大集合的剩余部分或添加的新图像。根据上述实施例,将需要添加额外的行和列到互序次矩阵中并修改现有的项,因为当出现新的图像时,图像的相对序次将改变。然后,映射将被完全重新计算。然而,可以对该过程进行近似而不修改输出空间中现有图像的位置。Bengio等人(Y.Bengio,P.Vincent,J.-F.Paiement,O.Delalleau,M.Ouimet和N.Le Roux,“Spectral Clustering and Kernel PCA are LearningEigenfunctions”,Technical Report 1239,Département d’Informatique etRecherche Opérationnelle,Centre de Recherches Mathématiques,Universitede Montréal)给出了这样的方法,用于将额外的点添加到拉普拉斯特征映射中,将新的数据投射到由原始分解给出的维上。这将促进欠采样的互序次相似度空间的有效实现。
其次,数学框架的结构是,其易于想象将额外信息并入表示。例如,可以使用用户注释或其他标签信息来创建不同的表示(通过例如LDA或广义判别分析(Generalized Discriminant Analysis,GDA))。这些将更好地表示加标签的类之间和之内的结构和关系。其还可以用于建议添加到数据库中的新图像的类别指派。该改进仅对数学分析-互序次矩阵结构保持不变。该改进系统的输出(嵌入)将包含关于图像之间的视觉和时间关系的组合信息,以及其类属性。
用户可能希望导航的、图像或视频的任何集合(典型的经由关键帧(key-frame)或其他)受该方法的影响。同样地,数据库记录/数据项可以不属于图像和视觉相似度测量,而是任何其他的域,如音频剪辑(audio clip)和相应的相似度度量。例如,MPEG-7标准提出用于音频的描述符(ISO/IEC 15938-4“Information technology-Multimedia content descriptioninterface-Part 4:Audio”)。可以比较两个剪辑的音频元数据以给出定量相似度度量。只要有相似度的适当度量,就可以对文本文档进行处理。用于测量文本文档相似度的方法由Novak等人(如上)公开。已经存在该领域的专门技术,如潜在语义索引(Latent Semantic Indexing,LSI),这是本领域公知的方法。用于提取图像以外的数据项的描述值、并用于比较这些描述值以获得相似度度量的各种技术是公知的,在此将不再进一步详细描述。
本发明不限于任何特定描述值或相似度度量,并且可以使用任何适当的描述值或相似度度量,例如现有技术中描述的或上面提到的。纯粹作为示例,描述性特征可以是颜色值和相应的相似度度量(例如在EP-A-1173827中所述),或物体轮廓和相应的相似度度量(例如在GB2351826或GB 2352075中所述)。
在本说明书中,“图像”一词用于描述图像单元,包括后处理,如滤波、改变分辨率、上采样(upsampling)、下采样(downsampling),但是该词也适用于其他类似术语,如帧、场、画面、或图像、帧的子单元或区域等。术语像素和像素块或组适当时可以相互交换使用。在本说明书中,术语“图像”意味整个图像或图像的一个区域,除了从上下文明显可见的。类似地,图像的区域可以意味整个图像。图像包括帧或场,并且涉及静态图像和诸如电影或视频的图像序列中的图像,或相关的图像组中的图像。
图像可以是灰度或彩色图像,或其他类型的多谱图像(例如,IR、UV)或其他电磁图像或声学图像等。
术语“选择装置”可以是指例如由用户控制的、用于选择的设备,如包括导航和选择按钮的控制器,和/或诸如通过指针或光标实现的显示器上的控制器表示。
本发明优选地通过处理以电子形式表示的数据项、并且通过利用适当装置处理电信号而实现。本发明可以例如在计算机系统中利用适当的软件和/或硬件改进来实现。例如,本发明可以利用具有控制或处理装置(如处理器或控制设备)、包括图像存储装置的数据存储装置(如存储器、磁存储器、CD、DVD等)、数据输出装置(如显示器或监视器或打印机)、数据输入装置(如键盘)、以及图像输入装置(如扫描仪)、或这些组件与附加部件一起的任何组合的计算机等实现。本发明的各方面可以以软件和/或硬件形式提供,或可以提供专用的装置或专用的模块,如芯片。在根据本发明的实施例的装置中,例如可以在互联网上从其他组件远程地提供系统的组件。
Claims (42)
1.一种表示一组数据项的方法,该方法包括:针对该组中多个数据项中的每一个,确定所述数据项与该组中多个其他数据项中的每个数据项之间的相似度,并且基于相似度为每个对指定序次,其中所述多个数据项中的每个数据项的排序相似度值被关联起来以反映该组中数据项的总体相对相似度。
2.一种基于组中数据项之间的总体排序相对相似度表示一组数据项的方法。
3.如权利要求2所述的方法,所述方法包括:通过确定数据项与多个其他数据项之间的相似度,并且确定至少两个额外数据项中的每个数据项与多个其他数据项之间的相似度、对所述相似度值进行排序来确定所述组中数据项的排序相对相似度,并且基于对所述至少两个数据项的相似度来利用所述总体序次相似度值。
4.如任一前述权利要求所述的方法,其中所述排序相似度值被布置成反映所述组中数据项的所述总体相对相似度的阵列。
5.如任一前述权利要求所述的方法,所述方法包括得到矩阵阵列,其中所述矩阵中的项对应于数据项之间的排序相似度值。
6.如权利要求5所述的方法,其中第i列和第j行处的矩阵项对应于第i数据项和第j数据项的排序相似度值。
7.如任一前述权利要求所述的方法,所述方法包括得到矩阵阵列,其中第i列和第j行处的项对应于第i数据项和第j数据项之间的相似度。
8.如权利要求7所述的方法,所述方法包括按行或按列对所述相似度值进行排序。
9.如权利要求5、6或8所述的方法,所述方法包括使所述序次矩阵对称化。
10.如权利要求5到9中的任何一项所述的方法,所述方法包括对矩阵项设定阈值。
11.如任一前述权利要求所述的方法,其中基于数据项的特性而确定数据项的相似度。
12.如权利要求11所述的方法,其中数据项的特性包括元数据,例如时间或用户分配的数据,和/或固有特性,例如颜色、纹理等。
13.如任一前述权利要求所述的方法,所述方法包括针对多个特性中的每个特性确定相似度。
14.如权利要求13所述的方法,所述方法包括使用多个特性的相似度的组合。
15.如权利要求13或权利要求14所述的方法,所述方法使用时间和视觉特性。
16.如权利要求13到15中的任何一项所述的方法,所述方法包括得出并组合多个特性的序次矩阵。
17.如权利要求13到15中的任何一项所述的方法,所述方法包括得出并组合多个特性的相似度矩阵。
18.如任一前述权利要求所述的方法,所述方法包括例如通过选择子集、聚类或对数据项进行欠采样而对数据项进行预处理。
19.一种表示数据项的方法,所述方法包括确定数据项之间的相似度并对所述相似度进行排序,包括利用三个或更多数据项的相对序次一起来进行进一步处理。
20.如任一前述权利要求所述的方法,其中所述数据项包括图像。
21.如任一前述权利要求所述的方法,所述方法包括诸如数据项的嵌入、可视化和聚类的进一步处理。
22.如权利要求21所述的方法,所述方法包括将数据项映射为基于总体排序相似度值的空间中的点。
23.如权利要求22所述的方法,所述方法包括将数据项映射到例如低于所述数据项的表示维数的低维空间。
24.如权利要求23所述的方法,所述方法包括映射到二维空间。
25.如权利要求23到26的任何一项所述的方法,其中在所述空间中映射数据项之间的距离对应于所述数据项的相对相似度。
26.如权利要求22到25的任何一项所述的方法,所述方法包括使用拉普拉斯特征映射技术。
27.如任一前述权利要求所述的方法,所述方法包括显示对应于数据项的符号。
28.如权利要求27所述的方法,其中显示器中符号的相对排列和/或位置对应于各数据项的相对相似度。
29.如任一前述权利要求所述的方法,所述方法包括将新的数据项加到或投射到所述总体表示中。
30.一种表示数据项的方法,所述方法包括基于时间和视觉特性确定数据项之间的相似度。
31.一种对图像对之间的相似度进行排序的方法,该方法包括:
计算图像对之间的相似度值;构造相似度矩阵,该相似度矩阵的元素表示逐对相似度值;以及通过对相似度矩阵值进行分析来计算序次矩阵。
32.如权利要求31所述的方法,所述方法还包括通过相似度矩阵值的逐列分析来计算所述序次矩阵。
33.如权利要求31或权利要求32所述的方法,所述方法还包括使所述序次矩阵对称。
34.如权利要求33所述的方法,包括将所述序次矩阵与其转置相加,或计算相对于主对角线对称排列的序次元素之间的最大值。
35.如权利要求31到34的任何一项所述的方法,还包括通过所述序次矩阵的低维嵌入,对所述序次矩阵执行降维。
36.如权利要求35所述的方法,其中使用拉普拉斯特征映射技术来执行所述降维。
37.一种确定数据项组中数据项之间的关系的方法,包括任一前述权利要求的方法。
38.例如在嵌入、可视化、聚类、搜索和浏览中,前述任何一项所述的方法的使用。
39.一种控制设备,该控制设备被编程为执行前述任何一项的方法。
40.一种装置,该装置适于执行权利要求1到38中的任何一项所述的方法。
41.一种装置,该装置包括设置为执行权利要求1到38的任何一项所述的方法的处理器、显示装置、选择装置和存储数据项的存储装置。
42.一种用于执行权利要求1到38的任何一项所述的方法的计算机程序,或存储有这样的计算机程序的计算机可读存储介质。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05255032A EP1755067A1 (en) | 2005-08-15 | 2005-08-15 | Mutual-rank similarity-space for navigating, visualising and clustering in image databases |
EP05255032.4 | 2005-08-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101263514A true CN101263514A (zh) | 2008-09-10 |
Family
ID=35447182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800332246A Pending CN101263514A (zh) | 2005-08-15 | 2006-08-14 | 在图像数据库中进行导航、可视化和聚类的互序次相似度空间 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090150376A1 (zh) |
EP (2) | EP1755067A1 (zh) |
JP (1) | JP2009509215A (zh) |
CN (1) | CN101263514A (zh) |
WO (1) | WO2007020423A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764068A (zh) * | 2018-05-08 | 2018-11-06 | 北京大米科技有限公司 | 一种图像识别方法和装置 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639028B2 (en) * | 2006-03-30 | 2014-01-28 | Adobe Systems Incorporated | Automatic stacking based on time proximity and visual similarity |
WO2008142675A1 (en) * | 2007-05-17 | 2008-11-27 | Link-It Ltd. | A method and a system for organizing an image database |
JP5229744B2 (ja) * | 2007-12-03 | 2013-07-03 | 国立大学法人北海道大学 | 画像分類装置および画像分類プログラム |
US8472705B2 (en) * | 2008-05-23 | 2013-06-25 | Yahoo! Inc. | System, method, and apparatus for selecting one or more representative images |
GB0901351D0 (en) * | 2009-01-28 | 2009-03-11 | Univ Dundee | System and method for arranging items for display |
US8209330B1 (en) * | 2009-05-29 | 2012-06-26 | Google Inc. | Ordering image search results |
US20100325552A1 (en) * | 2009-06-19 | 2010-12-23 | Sloo David H | Media Asset Navigation Representations |
WO2011017746A1 (en) * | 2009-08-11 | 2011-02-17 | Someones Group Intellectual Property Holdings Pty Ltd | Method, system and controller for searching a database |
US8352465B1 (en) | 2009-09-03 | 2013-01-08 | Google Inc. | Grouping of image search results |
US8774526B2 (en) * | 2010-02-08 | 2014-07-08 | Microsoft Corporation | Intelligent image search results summarization and browsing |
CN102193934B (zh) * | 2010-03-11 | 2013-05-29 | 株式会社理光 | 用于寻找图像集合中的代表性图像的系统和方法 |
US8724910B1 (en) | 2010-08-31 | 2014-05-13 | Google Inc. | Selection of representative images |
KR20120028491A (ko) * | 2010-09-15 | 2012-03-23 | 삼성전자주식회사 | 이미지 데이터 관리장치 및 방법 |
US20120294540A1 (en) * | 2011-05-17 | 2012-11-22 | Microsoft Corporation | Rank order-based image clustering |
US20130080950A1 (en) * | 2011-09-27 | 2013-03-28 | International Business Machines Corporation | Incrementally self-organizing workspace |
US8572107B2 (en) * | 2011-12-09 | 2013-10-29 | International Business Machines Corporation | Identifying inconsistencies in object similarities from multiple information sources |
CN102867027A (zh) * | 2012-08-28 | 2013-01-09 | 北京邮电大学 | 一种基于图像数据结构保护的嵌入式降维方法 |
US8897556B2 (en) | 2012-12-17 | 2014-11-25 | Adobe Systems Incorporated | Photo chapters organization |
US8983150B2 (en) | 2012-12-17 | 2015-03-17 | Adobe Systems Incorporated | Photo importance determination |
US10331724B2 (en) * | 2012-12-19 | 2019-06-25 | Oath Inc. | Method and system for storytelling on a computing device via multiple sources |
US9092818B2 (en) | 2013-01-31 | 2015-07-28 | Wal-Mart Stores, Inc. | Method and system for answering a query from a consumer in a retail store |
US9677886B2 (en) * | 2013-02-10 | 2017-06-13 | Qualcomm Incorporated | Method and apparatus for navigation based on media density along possible routes |
JP6561504B2 (ja) | 2015-03-11 | 2019-08-21 | 富士通株式会社 | データ配置プログラム、データ配置方法およびデータ配置装置 |
CN107169531B (zh) * | 2017-06-14 | 2018-08-17 | 中国石油大学(华东) | 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置 |
US10896218B2 (en) * | 2017-12-22 | 2021-01-19 | Oracle International Corporation | Computerized geo-referencing for images |
WO2020065627A1 (en) * | 2018-09-28 | 2020-04-02 | L&T Technology Services Limited | Method and device for creating and training machine learning models |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915250A (en) * | 1996-03-29 | 1999-06-22 | Virage, Inc. | Threshold-based comparison |
US6121969A (en) | 1997-07-29 | 2000-09-19 | The Regents Of The University Of California | Visual navigation in perceptual databases |
US6028603A (en) | 1997-10-24 | 2000-02-22 | Pictra, Inc. | Methods and apparatuses for presenting a collection of digital media in a media container |
US6240423B1 (en) * | 1998-04-22 | 2001-05-29 | Nec Usa Inc. | Method and system for image querying using region based and boundary based image matching |
US6538698B1 (en) | 1998-08-28 | 2003-03-25 | Flashpoint Technology, Inc. | Method and system for sorting images in an image capture unit to ease browsing access |
US6512850B2 (en) * | 1998-12-09 | 2003-01-28 | International Business Machines Corporation | Method of and apparatus for identifying subsets of interrelated image objects from a set of image objects |
US6721759B1 (en) | 1998-12-24 | 2004-04-13 | Sony Corporation | Techniques for spatial representation of data and browsing based on similarity |
US6950989B2 (en) | 2000-12-20 | 2005-09-27 | Eastman Kodak Company | Timeline-based graphical user interface for efficient image database browsing and retrieval |
US20090106192A1 (en) * | 2001-02-09 | 2009-04-23 | Harris Scott C | Visual database for online transactions |
US6915489B2 (en) | 2001-03-28 | 2005-07-05 | Hewlett-Packard Development Company, L.P. | Image browsing using cursor positioning |
US7773800B2 (en) * | 2001-06-06 | 2010-08-10 | Ying Liu | Attrasoft image retrieval |
US6943842B2 (en) | 2001-11-02 | 2005-09-13 | Hewlett-Packard Development Company, L.P. | Image browsing user interface apparatus and method |
US20030123737A1 (en) | 2001-12-27 | 2003-07-03 | Aleksandra Mojsilovic | Perceptual method for browsing, searching, querying and visualizing collections of digital images |
CA2397424A1 (en) * | 2002-08-09 | 2004-02-09 | Mohammed Lamine Kherfi | Content-based image retrieval using positive and negative examples |
GB2395807A (en) | 2002-11-27 | 2004-06-02 | Sony Uk Ltd | Information retrieval |
US7532804B2 (en) * | 2003-06-23 | 2009-05-12 | Seiko Epson Corporation | Method and apparatus for video copy detection |
US7697792B2 (en) * | 2003-11-26 | 2010-04-13 | Yesvideo, Inc. | Process-response statistical modeling of a visual image for use in determining similarity between visual images |
JP2005234994A (ja) * | 2004-02-20 | 2005-09-02 | Fujitsu Ltd | 類似度判定プログラム、マルチメディアデータ検索プログラム、類似度判定方法、および類似度判定装置 |
JP4465534B2 (ja) * | 2004-03-31 | 2010-05-19 | パイオニア株式会社 | 画像検索方法、装置及びプログラムを記録した記録媒体 |
US7920745B2 (en) * | 2006-03-31 | 2011-04-05 | Fujifilm Corporation | Method and apparatus for performing constrained spectral clustering of digital image data |
-
2005
- 2005-08-15 EP EP05255032A patent/EP1755067A1/en not_active Withdrawn
-
2006
- 2006-08-14 US US11/990,452 patent/US20090150376A1/en not_active Abandoned
- 2006-08-14 WO PCT/GB2006/003037 patent/WO2007020423A2/en active Application Filing
- 2006-08-14 JP JP2008526542A patent/JP2009509215A/ja active Pending
- 2006-08-14 EP EP06765286A patent/EP1915723A2/en not_active Ceased
- 2006-08-14 CN CNA2006800332246A patent/CN101263514A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764068A (zh) * | 2018-05-08 | 2018-11-06 | 北京大米科技有限公司 | 一种图像识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1755067A1 (en) | 2007-02-21 |
US20090150376A1 (en) | 2009-06-11 |
WO2007020423A2 (en) | 2007-02-22 |
JP2009509215A (ja) | 2009-03-05 |
WO2007020423A3 (en) | 2007-05-03 |
EP1915723A2 (en) | 2008-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101263514A (zh) | 在图像数据库中进行导航、可视化和聚类的互序次相似度空间 | |
Card | Information visualization | |
US7904455B2 (en) | Cascading cluster collages: visualization of image search results on small displays | |
Plant et al. | Visualisation and browsing of image databases | |
US9785655B2 (en) | Dynamic maps for exploring and browsing of images | |
JP2009110360A (ja) | 画像処理装置及び画像処理方法 | |
US20140250376A1 (en) | Summarizing and navigating data using counting grids | |
Manandhar et al. | Learning structural similarity of user interface layouts using graph networks | |
US20180285965A1 (en) | Multi-dimensional font space mapping and presentation | |
CN114329069A (zh) | 视觉搜索查询的智能系统和方法 | |
Khanwalkar et al. | Exploration of large image corpuses in virtual reality | |
JP2005525606A (ja) | 階層的な画像特徴ベースの視覚化方法 | |
Cakmak et al. | Multiscale visualization: A structured literature analysis | |
Van Der Corput et al. | ICLIC: Interactive categorization of large image collections | |
Barthel et al. | Fusing keyword search and visual exploration for untagged videos | |
Luo et al. | Texture Browser: Feature‐based Texture Exploration | |
EP2465056B1 (en) | Method, system and controller for searching a database | |
Rallabandi et al. | Image retrieval system using R-tree self-organizing map | |
US20070055928A1 (en) | User workflow lists to organize multimedia files | |
Nath et al. | A survey on personal image retrieval systems | |
Hezel et al. | ImageX-explore and search local/private images | |
Zhang et al. | Content-based retrieval | |
Chun et al. | Visualization of photo album on mobile devices | |
Budikova et al. | Visual Exploration of Human Motion Data | |
JP2005004564A (ja) | 画像分類処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20080910 |