CN101937301B

CN101937301B - 在查询图像上导航显示的方法和设备

Info

Publication number: CN101937301B
Application number: CN 200910148713
Authority: CN
Inventors: 白笛暮; 朱才志; 徐盈辉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2013-10-30
Anticipated expiration: 2029-06-30
Also published as: CN101937301A

Abstract

本发明提供一种在查询图像上导航显示的方法，包括：划分步骤，将待处理的查询图像划分为多个片段；标注步骤，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数；汇集步骤，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域；以及导航显示步骤，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。此外，本发明相应地提供一种在查询图像上导航显示的设备。

Description

在查询图像上导航显示的方法和设备

技术领域

本发明涉及一种在查询图像上导航显示的方法和设备，更具体地说，本发明涉及一种内容驱动的图像导航方法及设备，其中，通过对各种类型的查询图像进行片段标注，来实现查询图像的导航显示。

背景技术

如今，能够拍摄并显示图像的移动设备(诸如数码相机、拍照手机、PDA(个人数字助理)等)的数量与种类正在全球范围迅速增加。例如，InfoTrends(杂志名称)上发表的报告——全球拍照手机预测：2007-2012，其中提到，拍照手机的全球出货量将从2007年的七亿激增到2012年的13亿。

与此同时，主流数码相机支持的图像分辨率也从2001年的100万像素增加到2009年的超过1000万像素。而在拍照手机领域，分辨率的递增效果更为明显：从2003年的30万像素到2009年的1200万像素(例如三星TL320)。尽管数字成像传感器的分辨率一直在递增，但显示高分辨率图像的移动手持设备的显示屏仍然很小。这种图像分辨率大小与显示屏尺寸在递增上的不平衡使得图像的显示变成了非常棘手的人机界面问题。

高分辨率图像在小屏幕的移动手持设备上的显示是非常重要且棘手的难题，特别是当需要放大图像的某个片段的时候。美国专利US 5615384揭示了一种通过手势来控制移动手持设备的缩放及平移功能的方法，其中，装备了触摸屏后，当用户作出某种特别的手势后，就能触发图像的缩放与平移。例如，当移动手指到屏幕上的某个片段后，图像将平移到该片段并放大。尽管这种方法简化了在小尺寸屏幕上高分辨率图像导航的人机交互，但仍存在下述问题：当用户想要放大到某个感兴趣的片段时，先退回到显示整幅图像的模式，然后在整幅图像上滚屏，导航到感兴趣的片段并放大，如此循环；或者无需退出放大显示的状态，通过在整幅图像中滚屏的方式来平移到感兴趣的片段并放大。在上述两种情况下，移动到图像的感兴趣片段需要非常耗时的滚屏操作，过程都是耗时且对用户而言非常繁琐的，特别对高分辨率图像，这种操作最为耗时。

发明内容

鉴于上述问题而提出本发明，本发明提供一种内容驱动的图像导航方法及设备。

根据本发明的一个方面，一种在查询图像上导航显示的方法，包括：划分步骤，将待处理的查询图像划分为多个片段；标注步骤，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数；汇集步骤，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域；以及导航显示步骤，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。

根据本发明的另一个方面，提供一种在查询图像上导航显示的设备，包括：划分装置，将待处理的查询图像划分为多个片段；标注装置，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数；汇集装置，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域；以及导航显示装置，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。

本发明的实施例中采用了对所输入的待处理查询图像的片段进行自动标注的手段，使得能够实现基于内容的图像导航。

根据本发明，关键词列表可以显示在查询图像上，以便用户选择其中的一个标签即关键词，从而直接转换到该标签所描述的图像区域的位置。这样，可以从一个区域的放大显示直接跳转到另一区域的放大显示，而无需退出放大显示状态，也无需任何滚屏与平移操作。该功能的价值体现在数字图片的高效导航上，可带来更好的用户体验。

根据本发明，利用图像自动标注技术来挖掘图像的内容，从而允许用户在图像的内容间切换，这样无需频繁的图像缩放与滚屏过程，从而提供良好的用户体验，且能有效应对当前日益增加的图像分辨率问题。

本发明采用的图像自动标注技术可以是中国专利申请No.2008101007214记载的自动图像标注方法。该方法基于机器学习技术来演绎文本与图片间存在的复杂的相互关系，从而为未知的图片建立文本标注提供了可能。上述技术依赖于已经标注的训练图像集合来学习关键词与图像特征间的相关性，而最终的标注质量也依赖于训练图像的标注质量，通常情况下，这种训练图像可以通过手工标注。此外，标注质量也依赖于使用的图像特征，通常，理想的图像特征是对辐射与几何畸变鲁棒且不敏感的。注意到，上述机器学习方法仅仅依赖于训练过程(以建立统计模型)及图像信息(特征)来标注图像，所以能标注任何静态图像，而无需该图像相关的任何文本元数据。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

附图说明

图1示出根据本发明实施例的在查询图像上导航显示的方法的总体流程；

图2示出根据本发明实施例的对查询图像的片段进行标注操作的流程；

图3示出根据本发明实施例的在用户指定特定主题的情况下对查询图像的片段进行标注操作的流程；

图4示出根据本发明实施例的在通过场景分类技术自动决定特定主题的情况下对查询图像的片段进行标注操作的流程；

图5示出根据本发明实施例的将片段汇集为区域的汇集操作的流程；

图6示出根据本发明实施例的将种子片段及其周围片段汇集为关于显著关键词的区域的片段汇集操作的流程；

图7示出根据本发明实施例的形成区域的外接矩形的外接矩形形成操作的流程；

图8示出根据本发明实施例的导航显示操作的流程；

图9示意性地示出查询图像的片段与训练图像的片段的关联及可重启的随机游走过程；

图10A和10B示出片段汇集及外接矩形形成的第一个示例，其中图10A示出查询图像划分后的情况，图10B为片段汇集及外接矩形形成之后的情况；

图11A和11B示出片段汇集及外接矩形形成的第二个示例，其中图11A示出查询图像划分后的情况，图11B为片段汇集及外接矩形形成之后的情况；

图12A和12B示出片段汇集及外接矩形形成的第三个示例，其中图12A示出查询图像划分后的情况，图12B为片段汇集及外接矩形形成之后的情况；

图13示出基于关键字来进行图像导航的应用示例；

图14A、14B、14C分别示出将待处理的查询图像划分为多个片段的示例，其中图14A示出规则的栅格划分的情况，图14B示出四叉树式划分的情况，图14C示出划分为同质片段的情况；

图15示出根据本发明实施例的在查询图像上导航显示的系统的总体结构框图。

具体实施方式

图1示出根据本发明实施例的在查询图像上导航显示的方法的总体流程。在步骤S11，执行划分过程，将待处理的查询图像划分为多个片段。可以基于查询图像的内容来把该查询图像划分为同质且非重叠的多个片段，或者，也可以把查询图像划分为矩阵形式的规则栅格的多个片段。图14A、14B、14C分别示出将待处理的查询图像划分为多个片段的示例，其中图14A示出规则的栅格划分的情况，图14B示出多分辨率的四叉树式划分的情况，图14C示出划分为同质片段的情况。

在步骤S12，执行标注过程，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数。其中，q个关键词可以预先定义，并记录在词汇表中。针对各个片段，利用例如在中国专利申请No.2008101007214中公开的方法来计算与每个关键词W(i)(i为索引量，属于{1，...，q})的相关概率值p(W(i))，p(W(i))越大，表明关键词W(i)与相应片段越相关。应当注意的是，在本发明的实施例中，标注是在查询图像的各个片段层面上进行的，因而步骤S12所得到的结果是矩阵类型p(W(i)，S(j))，表示查询图像中的片段S(j)(j为索引量，属于{1，...，N})与词汇表中的关键词W(i)的相关概率值，其中N为查询图像中的片段总数。

在步骤S13，执行汇集过程，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域。汇集查询图像片段的理由是，存在查询图像中某单个目标(诸如路标、天空、汽车等等)被分割在多个相邻的片段中的情况。作为汇集片段的一种方法，可以根据片段的最相关的关键词来汇集，即合并具有相同的最相关关键词的片段，此处的最相关的关键词是指，关于给定的片段S(j)，其所对应的相关概率值最大的一个或多个关键词。提取q个关键词之中对于查询图像相关性较高的p个显著关键词，针对显著关键词确定汇集而成的区域，进而获得区域的外接矩形BB(k，n)(k为索引量，属于{1，...，p}，n属于{1，...，N(k)}，N(k)是第k个显著关键词对应的片段数目)，因而步骤S13所得到的结果是所得到的结果是外接矩形BB(k，n)的集合。

在步骤S14，执行导航显示过程，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。在采用图形用户界面的情况下，允许用户通过选择该查询图像的显著关键词之一来进行图像导航，根据用户的选择，例如可以直接转换到相应的外接矩形并放大显示，或者也可以通过其它方式，诸如闪烁、加框等等，来突出显示。

可以利用在中国专利申请No.2008101007214“图像的自动标注与检索方法”中记载的自动图像标注方法来标注例如移动手持设备上待显示图像的片段即图像块，以实现对查询图像的导航显示，关于“图像的导航显示”，其中“导航”包含有定位到图像中的感兴趣部分的技术含义，“显示”可以是对该部分进行缩放显示，然而，对于本领域技术人员显而易见的是，所进行的显示也可以不包含缩放图像中感兴趣部分的过程。

图2示出根据本发明实施例的对查询图像的片段进行标注操作的流程，即步骤S12的处理，步骤S12通过机器学习方法来添加标注，具体可以通过下述方式来实现。

首先，在步骤S121中，执行片段关联操作，即，把查询图像的各个片段分别与训练图像的片段相关联。查询图像的片段S(j)将根据特征空间的距离度量而与训练图像中的片段相关联，其中，可以利用在中国专利申请No.2008101007214中记载的方法来产生训练图像，可以通过作图管理器(中国专利申请No.2008101007214中的图1，模块s2x)在查询图像的片段与训练图像中的片段之间建立关联。

然后，在步骤S122中，执行可重启的随机游走过程，即，针对查询图像的各个片段，分别在训练图像的片段中进行可重启的随机游走过程。随后，在步骤S123中，执行相关概率值标注操作，即，获得查询图像的该片段与q个关键词中每个关键词的相关概率，作为查询图像的该片段的标注。

图9示意性地示出查询图像的片段与训练图像的片段的关联及可重启的随机游走过程。其中，I₁和I₂分别代表已经作好标注的训练图像，分别包含片段r₁至r₄及片段r₅至r₈，而r₉、r₁₀、r₁₁、r₁₂为待处理的查询图像的片段，可以用局部二值模式(Local Binary Pattern，LBP)特征表达。根据CCA(canonical correlation analysis，规范相关分析)空间的图像相似性，在训练图像及查询图像的片段之间建立K-NN(K-Near Neighbor，K个近邻)链接，即为一个片段寻找K个在CCA空间中具有图像近似性的相关联的片段。

对查询图像中每个单独的片段节点S(j)，用可重启的随机游走过程来计算其对于关键词W(i)(i属于{1，...，q})的访问概率，即相关概率值。

本发明的实施例可以采用在中国专利申请No.2008101007214中公开的可重启的随机游走过程。例如，在图9中，对每个新的测试节点(即片段)，以r₁₀为例，模拟一个运动物体以节点r₁₀为中心，以概率1-c随机选择与之建立了链接(链接个数为k-NN)的路径游走，其中c为可重启概率(restartprobability)，图中用虚线表示其随机选择的路径，沿着该路径访问了节点r₆，再以r₆为中心，以概率1-c随机选择与之链接的任何一条路径的游走，设依次走到I₂、W₅、I₁、W₂。在整个随机游走过程中，对达到的任何节点，都有可能以c的概率返回始发节点r₁₀，重新开始(重启)下一次随机游走。这个过程就称为可重启的随机游走。对每个测试节点都作了这样的可重启的随机游走过程之后，最后对词汇表中的所有词汇(即图中所示的W₁～W₉)排序，访问次数越多，则说明该词汇与图像内容越相关。

图9示出的关键词为W₁至W₉。每个片段与词汇表中的每个关键词的相关概率值p(W(i)，S(j))的计算是独立互不相关的，可以利用中国专利申请No.2008101007214中记载的方法来计算该相关概率值。

图3与图4中示出了对图2过程的改进的两种方式。通过限定所使用的词汇表中的关键词，并指定特定主题的训练图像，能够实现更高精度的查询图像的标注，以便更好地导航。

图3示出根据本发明实施例的在用户指定特定主题的情况下对查询图像的片段进行标注操作的流程。图3过程相对于图2过程的差异在于加入了用户对特定主题的训练图像的选择，使训练图像与用户指定的特定主题相关。

图3所示的标注操作S12a中，在步骤S124a，用户可以选择特定主题，然后，在步骤S125a，选择该特定主题的训练图像。这样，在步骤S121a中，把查询图像的各个片段分别与该特定主题的训练图像的片段相关联。随后的步骤S122a和S123a分别类似于图12所示的步骤S122和S123。

例如，如果用户选择“雪景”作为特定主题，则可以限定词汇表包括少数的几个关键词，如雪、滑雪、树、天空、雪花等等，且采用与雪景相关的训练图像，这样能最大程度提高标注的精度。类似地，如果用户选择“室内”作为特定主题，则可以从词汇表中去除任何与户外场景相关的关键词，如天空、湖泊、海洋等等。也可以事先构建一些与特定场景相关的特定主题的训练图像，在进行基于内容的图像导航之前可供用户事先选择。

图4示出根据本发明实施例的在通过场景分类技术自动决定特定主题的情况下对查询图像的片段进行标注操作的流程。图4过程相对于图2过程的差异在于加入了自动对特定主题的训练图像的选择，使所述训练图像与通过场景分类技术自动决定的特定主题相关。图4的过程与图3过程的区别在于用户无需手动选择主题，而是借助于计算机视觉相关的主题检测技术，通过分析待处理的查询图像来自动选择主题。

图4所示的标注操作S12b中，在步骤S124b，可以根据待处理的查询图像，采用现有的主题检测或者说场景分类技术来自动选择特定主题，然后，在步骤S125b，选择该特定主题的训练图像。这样，在步骤S121b中，把查询图像的各个片段分别与该特定主题的训练图像的片段相关联。随后的步骤S122b和S123b分别类似于图12所示的步骤S122和S123。

无论通过用户限定主题，还是根据查询图像自动选择主题，均能够优化自动图像标注的精度，以便为用户提供更便利的导航。

图5示出根据本发明实施例的将片段汇集为区域的汇集操作的流程，即步骤S13的处理。步骤S13具体可以通过下述方式来实现。

首先，在步骤S131，执行显著关键词提取过程，针对q个关键词中的各个关键词，分别累加其与查询图像的全部片段的相关概率值，求得该关键词的累加相关概率值，取累加相关概率值最大的p个关键词，作为显著关键词，其中p为自然数且p≤q。针对片段S(j)和关键词W(i)的相关概率值p(W(i)，S(j))，来计算提取其中p个显著关键词，即，对于每个关键词W(i)(i属于{1，...，q})，分别累加其与所有片段S(j)(j属于{1，...，N})的相关概率值p(W(i))

Fori = 1, . . ., q : p (W (i)) = Σ_{j = 1}^{N} p (W (i), S (j))

对p(W(i))作降序排列并选择其中最大的前p个概率值所对应的关键词，作为p个显著关键词，用Ws(k)表示，k为索引量，属于{1，...，p}。例如，图9示出了对关键词W₁至W₉的访问概率即相关概率值的排序结果，可以选择前6位的关键词W₅、W₁、W₂、W₇、W₈、W₆作为相关性高的显著关键词。

然后，在步骤S132，执行种子片段确定过程，针对各个显著关键词，分别确定查询图像中与其相关概率值最大的一个或多个片段，作为种子片段。对每个显著关键词Ws(k)，计算与其相应的相关概率值最高的一个或一些“种子”片段的集合。“种子”片段表示为Seed(s，k)，在此k为索引量，属于{1，...，p}，在此表示该种子片段所对应的显著关键词的编号，s为索引量，属于{1，...，V(k)}，V(k)是Ws(k)的所有种子片段的数目，s表示该种子片段在Ws(k)的所有种子片段中的编号。决定种子片段的一种可用的方法是，对于给定的显著关键词Ws(k)，遍历查询图像的所有片段，如果p(W(k)，S(j))＞阈值，则把片段S(j)作为种子，阈值可以预先确定；另一种可用的方法是，把所有的片段依据相关概率值p(Ws(k)，S(j))作降序排列，前V(k)个为种子片段。

然后，在步骤S133，执行片段汇集过程，针对各个种子片段，分别根据其周围片段关于同一显著关键词的相关概率值，来汇集其周围片段为关于该显著关键词的区域。对每个显著关键词Ws(k)，用现有的片段生长算法来汇集种子片段及其周围的其它片段。本实施例的汇集过程基于查询图像中各个片段的所标注的相关概率值。汇集过程从种子片段开始，如果已汇集的片段与邻接的片段具有关于Ws(k)的较高的相关性，那么在汇集过程中将会被合并，被合并的邻接片段加入到汇集片段使汇集片段增大，再判断增大的汇集片段与周围的邻接片段，如此循环生长，直至汇集片段不再能够合并周围的邻接片段为止，最后所得的汇集的片段称为区域。

然后，在步骤S134，执行外接矩形形成过程，针对各个所汇集的区域，分别形成区域的外接矩形。汇集过程结束，针对每个显著关键词Ws(k)，计算其对应的所有区域的外接矩形，得到每个显著关键词的外接矩形BB(b，k)，其中k为索引值，属于{1，...，p}，代表相应的显著关键词Ws(k)的编号，b为索引值，属于{1，...，B(k)}，其中B(k)为显著关键词Ws(k)的区域数目。

图6示出根据本发明实施例的将种子片段及其周围片段汇集为关于显著关键词的区域的片段汇集操作的流程，即步骤S133的操作。步骤S133具体可以通过下述方式来实现。针对各个种子片段Seed(s，k)，已汇集片段集合Agr(s，k)(其s及k的含义与在Seed(s，k)中相同)首先被初始化为等同于种子片段Seed(s，k)。然后，针对Agr(s，k)，检测Agr(s，k)的邻接片段Sb，如果Sb可以增加Agr(s，k)与Ws(k)的相关性，那么将被合并到汇集片段集合Agr(s，k)中。上述过程将迭代至汇集片段集合Agr(s，k)不再扩张为止，即找不到任何能被汇集的邻接片段。Agr(s，k)与Sb关于词汇Ws(k)的相关性r可以通过如下多种方式计算：

r (Agr (s, k), Sb) = \frac{p (Ws (k), Sb)}{p (Ws (k), Sb) + p (Ws (k), Agr (s, k))}

或者

r (Agr (s, k), Sb) = \frac{p (Ws (k), Agr (s, k))}{p (Ws (k), Sb) + p (Ws (k), Agr (s, k))}

其中，

p(Ws(k)，Agr(s，k))＝∑_t p(Ws(k)，S(t))，S(t)代表Agr(s，k)中的片段，t为索引量。如果r(Agr(s，k)，Sb)＞Threshold，即r大于预定阈值，则认为汇集片段集合Agr(s，k)与该邻接片段Sb具有较高的相关性，应合并。

图7示出根据本发明实施例的形成区域的外接矩形的外接矩形形成操作的流程，即步骤S134的操作。每个汇集片段集合即区域Agr(s，k)被计算对应的外接矩形BB(s，k)，其s及k的含义与在Agr(s，k)中相同。外接矩形即区域的横纵范围的最大及最小值的四个位置所决定的矩形，可以通过多种现有方法来实现。

图10A和10B示出片段汇集及外接矩形形成的第一个示例，其中图10A示出查询图像划分后的情况，图10B为片段汇集及外接矩形形成之后的情况；图11A和11B示出片段汇集及外接矩形形成的第二个示例，其中图11A示出查询图像划分后的情况，图11B为片段汇集及外接矩形形成之后的情况；图12A和12B示出片段汇集及外接矩形形成的第三个示例，其中图12A示出查询图像划分后的情况，图12B为片段汇集及外接矩形形成之后的情况。

在图10至图12的例子中，词汇表由10个关键词组成{天空，水，树，汽车，道路，路标，雪，人，人脸，鸟}。图10A、11A、12A所示的为同一查询图像，划分为规则栅格形式的片段。对该查询图像进行标注及汇集处理，得到的前3个显著关键词是{汽车，路标，天空}。图10B、11B、12B中分别示出与“汽车”、“路标”、“天空”相应的所汇集而成的区域的外接矩形，即查询图像内部粗线所围的矩形，其中包含显著关键词的标识，“汽车”、“路标”、“天空”分别对应于“car”、“sign”、“sky”。由于显示中图像可以是彩色，因而外接矩形特别是其中的标识显示在查询图像中不会存在表示不清楚的问题，而在本申请文件中，出于清楚表示的目的，在查询图像范围之外示出外接矩形的情况，箭头所指向的矩形框即为查询图像内外接矩形的情况，显然，从本发明的技术意义上，箭头及其所指向的表示在查询图像外侧的外接矩形框并非必要。

在图10B中，外接矩形框中色彩较深的“car”所在的片段为相应于显著关键词“汽车”的种子片段，色彩较浅的“car”所在的片段为汇集过程中合并的片段。显示在查询图像外侧上部的外接矩形中仅有一个种子片段，表明其邻接片段与其关于“汽车”的相关性较低，该种子片段在汇集过程中无法合并其邻接片段。在一个目标刚好与查询图像中的一个片段对应时，上述情况会出现。下部外接矩形中右下片段为种子片段，其余三个为合并的片段。

在图11B中，外接矩形框中色彩较深的“sign”所在的右半部的两个片段为显著关键词“路标”的种子片段，色彩较浅的“sign”所在的左下片段为汇集过程中合并的片段，左上片段为形成外接矩形的过程中并入的片段。

在图12B中，外接矩形框中色彩较深的“sky”所在的上排左起第四个片段及下排左起第二、第五片段为显著关键词“天空”的种子片段，色彩较浅的“sky”所在的片段为汇集过程中合并的片段，左下及右下的片段为形成外接矩形的过程中并入的片段。

图8示出根据本发明实施例的导航显示操作的流程，即步骤S14的操作。其中，在步骤S141，可以在显示终端上显示p个显著关键词，显著关键词可以显示在查询图像上，也可以显示在查询图像周围。在导航显示操作的过程中，响应于在步骤S143中用户对显著关键词的选择，在步骤S144，导航到相关的区域的外接矩形，并放大显示，当放大显示时，响应于用户对相同或不同的显著关键词的选择，直接导航到另一相关的区域的外接矩形，并放大显示。而且在导航显示过程中，在步骤S146中，可以响应于用户的要求而随时返回查询图像全幅的整体显示。此外，在步骤S143中，用户对显著关键词的选择方式可以为以下现有方式中的任意一种或多种：键盘输入、触摸屏输入、语音命令输入、眼神交换输入。

针对前p个显著关键词Ws(k)(k属于{1，...，p})及与其对应的外接矩形集合BB(k，cv(k))，其中cv(k)表示在第k个关键词下的外接矩形编号。用户通过选择例如在查询图像中显示的Ws(k)的标识来与系统交互。显然，显著关键词也可以不像图10至图12中那样，显示在查询图像中对应的片段的位置。显著关键词甚至可以显示在其它显示单元上，当用户矩形图像导航时，显示的显著关键词并不改变。

如果进一步考虑同一显著关键词对应查询图像中的多个区域的情况，则可以在步骤S142，初始化每个显著关键词的浏览计数器cv(k)＝0，k属于{1，...，p}。一旦用户选择了一个显著关键词，系统将自动导航至与该显著关键词对应的第一个区域的外接矩形并放大显示。用户可通过多次选择该显著关键词的标识来在该显著关键词的区域的外接矩形BB(k，cv(k))之间切换，此时，计数器cv(k)递增，即cv(k)＝cv(k)+1。在进行关于某个显著关键词的导航显示的过程中，如果用户选择了另一显著关键词，系统可以直接导航到该另一显著关键词对应的第一个区域的外接矩形并放大显示，而无需退回到图像整体显示的模式。

图13示出基于关键字来进行图像导航的应用示例。其中示例性地示出导航显示的应用场景。待处理的查询图像显示在例如手持设备上，该查询图像可以是由手持设备拍摄的，或者是通过诸如广域网、局域网等等网络的有线或无线的连接从外部的其它设备下载取得的。查询图像的导航显示系统既可可以为该手持设备所有，也可位于计算能力更强的服务器之上，手持设备可以通过有线或无线连接的方式与该服务器相连。提取的显著关键词“汽车”、“路标”、“天空”(分别对应于图中的“car”、“sign”、“sky”)显示在手持设备的显示终端上。类似于图10至图12的情况，出于清楚表示的目的，还在查询图像范围之外示出所显示的显著关键词的情况，箭头所指向的显著关键词即为查询图像内显著关键词的情况，显然，从本发明的技术意义上，箭头及其所指向的表示在查询图像外侧的显著关键词并非必要。

当用户选择“汽车”时，自动导航到汽车区域并放大显示，当用户接着选择“路标”时，直接导航到路标区域并放大显示，其中所选择的显著关键词以相对其它显著关键词较浅的色彩表示，其间无需反复的缩放操作，无需退回到查询图像的全幅显示，实现直接切换的导航显示，使得导航过程更有效与流畅。

用于在查询图像上进行导航显示的系统20中，硬盘281、软盘282、打印设备283、显示设备284、键盘285、图像拍摄系统286、网络287、触摸屏288与输入输出单元28相关联用于输入输出，硬件部分25包括处理器26、内存存储单元27、及输入输出单元28，软件部分29包括划分装置21、标注装置22、汇集装置23、及导航显示装置24。根据本发明的在查询图像上导航显示的设备可以作为该软件部分29来实现。

划分装置21用于执行上述步骤S11的操作。标注装置22用于执行上述步骤S12的操作。汇集装置23用于执行上述步骤S13的操作。导航显示装置24用于执行上述步骤S14的操作。

所述划分装置21可以基于查询图像的内容来把该查询图像划分为同质且非重叠的多个片段。并且，所述划分装置21所划分的所述多个片段可以是矩阵形式的规则栅格。

所述标注装置22包括片段关联装置、可重启的随机游走装置、以及相关概率值标注装置。片段关联装置用于执行上述步骤S121的操作。可重启的随机游走装置用于执行上述步骤S122的操作。相关概率值标注装置用于执行上述步骤S123的操作。

所述汇集装置23包括显著关键词提取装置、种子片段确定装置、片段汇集装置、以及外接矩形形成装置。

显著关键词提取装置用于执行上述步骤S131的操作。种子片段确定装置用于执行上述步骤S132的操作。片段汇集装置用于执行上述步骤S133的操作。外接矩形形成装置用于执行上述步骤S134的操作。

所述导航显示装置可以在显示终端上显示p个显著关键词，所述显著关键词可以显示在查询图像上，也可以显示在查询图像周围。所述导航显示装置可以响应于用户对显著关键词的选择，导航到相关的区域的外接矩形，并放大显示，当放大显示时，响应于用户对相同或不同的显著关键词的选择，直接导航到另一相关的区域的外接矩形，并放大显示。在导航显示过程中，所述导航显示装置可以响应于用户的要求而随时返回查询图像整体的显示。

在所述导航显示装置中，用户对显著关键词的选择方式可以为以下方式中的任意一种或多种：a)键盘输入；b)触摸屏输入；c)语音命令输入；以及d)眼神交换输入。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种内容驱动的在查询图像上导航显示的方法，包括：

划分步骤，将待处理的查询图像划分为多个片段；

标注步骤，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数；

汇集步骤，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域；以及

导航显示步骤，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。

2.按照权利要求1所述的在查询图像上导航显示的方法，其中，在所述划分步骤中，

基于查询图像的内容来把该查询图像划分为同质且非重叠的多个片段。

3.按照权利要求1所述的在查询图像上导航显示的方法，其中，在所述划分步骤中，

所述多个片段是矩阵形式的规则栅格。

4.按照权利要求1所述的在查询图像上导航显示的方法，其中，标注步骤包括：

片段关联步骤，把查询图像的各个片段分别与训练图像的片段相关联；

可重启的随机游走步骤，针对查询图像的各个片段，分别在训练图像的片段中进行可重启的随机游走过程；以及

相关概率值标注步骤，获得查询图像的该片段与q个关键词中每个关键词的相关概率值，作为查询图像的该片段的标注。

5.按照权利要求4所述的在查询图像上导航显示的方法，其中，

所述训练图像与用户指定的特定主题相关。

6.按照权利要求4所述的在查询图像上导航显示的方法，其中，

所述训练图像与通过场景分类技术自动决定的特定主题相关。

7.按照权利要求1所述的在查询图像上导航显示的方法，其中，所述汇集步骤包括：

显著关键词提取步骤，针对q个关键词中的各个关键词，分别累加其与查询图像的全部片段的相关概率值，求得该关键词的累加相关概率值，取累加相关概率值最大的p个关键词，作为显著关键词，其中p为自然数且p≤q；

种子片段确定步骤，针对各个显著关键词，分别确定查询图像中与其相关概率值最大的一个或多个片段，作为种子片段；

片段汇集步骤，针对各个种子片段，分别根据其周围片段关于同一显著关键词的相关概率值，来汇集其周围片段为关于该显著关键词的区域；以及

外接矩形形成步骤，针对各个所汇集的区域，分别形成区域的外接矩形。

8.按照权利要求1所述的在查询图像上导航显示的方法，其中，在所述导航显示步骤中，

在显示终端上显示p个显著关键词，所述显著关键词显示在查询图像上或查询图像周围。

9.按照权利要求1所述的在查询图像上导航显示的方法，其中，在所述导航显示步骤中，

响应于用户对显著关键词的选择，导航到相关的区域的外接矩形，并放大显示，当放大显示时，响应于用户对相同或不同的显著关键词的选择，直接导航到另一相关的区域的外接矩形，并放大显示；以及

在导航显示过程中，响应于用户的要求而随时返回查询图像整体的显示。

10.按照权利要求1所述的在查询图像上导航显示的方法，其中，在所述导航显示步骤中，用户对显著关键词的选择方式为以下方式中的任意一种或多种：

a)键盘输入；

b)触摸屏输入；

c)语音命令输入；以及

d)眼神交换输入。

11.一种内容驱动的在查询图像上导航显示的设备，包括：

划分装置，将待处理的查询图像划分为多个片段；

标注装置，计算分别与所述多个片段之中的各个片段相关的q个关键词的相关概率值，来标注各个片段，其中q为自然数；

汇集装置，根据对各个片段分别所标注的q个关键词的相关概率值，提取q个关键词之中的p个显著关键词，并将片段汇集为与显著关键词相对应的区域；以及

导航显示装置，响应于用户对显著关键词的选择来导航到查询图像中与所选择的显著关键词相对应的区域的外接矩形并显示。

12.按照权利要求11所述的在查询图像上导航显示的设备，其中，

所述划分装置基于查询图像的内容来把该查询图像划分为同质且非重叠的多个片段。

13.按照权利要求11所述的在查询图像上导航显示的设备，其中，

所述划分装置所划分的所述多个片段是矩阵形式的规则栅格。

14.按照权利要求11所述的在查询图像上导航显示的设备，其中，所述标注装置包括：

片段关联装置，把查询图像的各个片段分别与训练图像的片段相关联；

可重启的随机游走装置，针对查询图像的各个片段，分别在训练图像的片段中进行可重启的随机游走过程；以及

相关概率值标注装置，获得查询图像的该片段与q个关键词中每个关键词的相关概率，作为查询图像的该片段的标注。

15.按照权利要求14所述的在查询图像上导航显示的设备，其中，

所述训练图像与用户指定的特定主题相关。

16.按照权利要求14所述的在查询图像上导航显示的设备，其中，

17.按照权利要求11所述的在查询图像上导航显示的设备，其中，所述汇集装置包括：

显著关键词提取装置，针对q个关键词中的各个关键词，分别累加其与查询图像的全部片段的相关概率值，求得该关键词的累加相关概率值，取累加相关概率值最大的p个关键词，作为显著关键词，其中p为自然数且p≤q；

种子片段确定装置，针对各个显著关键词，分别确定查询图像中与其相关概率值最大的一个或多个片段，作为种子片段；

片段汇集装置，针对各个种子片段，分别根据其周围片段关于同一显著关键词的相关概率值，来汇集其周围片段为关于该显著关键词的区域；以及

外接矩形形成装置，针对各个所汇集的区域，分别形成区域的外接矩形。

18.按照权利要求11所述的在查询图像上导航显示的设备，其中，

所述导航显示装置在显示终端上显示p个显著关键词，所述显著关键词显示在查询图像上或查询图像周围。

19.按照权利要求11所述的在查询图像上导航显示的设备，其中，

所述导航显示装置响应于用户对显著关键词的选择，导航到相关的区域的外接矩形，并放大显示，当放大显示时，响应于用户对相同或不同的显著关键词的选择，直接导航到另一相关的区域的外接矩形，并放大显示；以及

在导航显示过程中，所述导航显示装置响应于用户的要求而随时返回查询图像整体的显示。

20.按照权利要求11所述的在查询图像上导航显示的设备，其中，在所述导航显示装置中，用户对显著关键词的选择方式为以下方式中的任意一种或多种：

a)键盘输入；

b)触摸屏输入；

c)语音命令输入；以及

d)眼神交换输入。