CN102193934A - 用于寻找图像集合中的代表性图像的系统和方法 - Google Patents

用于寻找图像集合中的代表性图像的系统和方法 Download PDF

Info

Publication number
CN102193934A
CN102193934A CN2010101220068A CN201010122006A CN102193934A CN 102193934 A CN102193934 A CN 102193934A CN 2010101220068 A CN2010101220068 A CN 2010101220068A CN 201010122006 A CN201010122006 A CN 201010122006A CN 102193934 A CN102193934 A CN 102193934A
Authority
CN
China
Prior art keywords
image
text
images
key word
text feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101220068A
Other languages
English (en)
Other versions
CN102193934B (zh
Inventor
刘媛
王刚
李滔
徐盈辉
朱才志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN2010101220068A priority Critical patent/CN102193934B/zh
Priority to US13/033,016 priority patent/US8204889B2/en
Priority to JP2011052923A priority patent/JP5626042B2/ja
Publication of CN102193934A publication Critical patent/CN102193934A/zh
Application granted granted Critical
Publication of CN102193934B publication Critical patent/CN102193934B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于寻找图像集合中的代表性图像的方法和系统,该方法包括:基于每个图像的元数据信息和/或由用户输入的标记信息,提取每个图像的文本特征;基于每个图像的文本特征,获取该集合的多样性数据;基于多样性数据来计算每个图像的代表性分数;以及基于代表性分数,选择该集合的代表性图像。此外,该方法还可提取每个图像的视觉特征,基于每个图像的视觉特征,获取该图像的显著性数据,并基于多样性数据和显著性数据两者,计算每个图像的代表性分数,从而选择该集合的代表性图像。通过本发明,能够以有效的方式自动寻找图像集合中的代表性图像。

Description

用于寻找图像集合中的代表性图像的系统和方法
技术领域
本发明涉及用于寻找图像集合中的代表性图像的系统和方法。
背景技术
随着信息存储技术的发展,存储装置的存储能力日益提高,所存储的信息量也越来越大。现实生活中,在诸如电子相册之类的包含大量电子图像的图像集合中,常常存在数量众多的、未经组织的各种图像,导致用户难以快速掌握图像集合的整体内容。在此情况下,如果能够自动寻找出最能代表图像集合中的所有图像的内容的一个或多个图像(即,所谓的代表性图像),则这将极大地改进用户体验。
专利申请No.US20070094251提出了一种用于文档图像数据库的导航系统。对于用户输入的搜索关键词,该系统通过采用文本搜索来收集图像,通过使用图像视觉特征来对图像自动分组,并显示每组的代表性图像。然而,在该系统中,需要用户手动输入文本关键词。事实上,在实际应用中,很多情况下用户不能获知诸如电子相册的图像集合中包含的关键词,因此用户常常只能试探性地输入搜索关键词,而该搜索关键词常常不能概括整个图像集合,因此不能令人满意地得到图像集合的代表性图像。
专利申请No.US5995978提出了一种对于语义主题的富呈现(richpresentation)方法。该语义主题可以是一个或多个关键词、人名、事件、场景等。由于图像集合中可能包含多个语义主题,因此为了导航图像集合,首先需要确定包括哪些主题。然而,由于语义主题检测技术目前尚不成熟,导致该方法的性能不够理想。
发明内容
有鉴于上述问题,本发明提出了一种用于寻找图像集合中的代表性图像的方法和系统,其能够以有效的方式自动寻找图像集合中的代表性图像,从而有助于用户快速掌握图像集合的整体内容,改进用户体验。
根据本发明的一方面,提供了一种用于寻找图像集合中的代表性图像的方法,包括:基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征;基于每个图像的所述文本特征,获取该集合的多样性数据,用于表示该集合中的任何两个图像的内容之间的差异性;基于所述多样性数据来计算每个图像的代表性分数,用于表示该图像的内容相对于该集合中的所有图像的内容的代表性;以及基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像。
此外,所述方法还可包括:从该集合中的每个图像提取该图像的视觉特征;以及基于每个图像的所述视觉特征,获取该图像的显著性数据,用于表示该图像的内容在该集合中的普遍性;其中,所述代表性分数还基于所述显著性数据。
此外,在所述方法中,所述选择代表该集合中的所有图像的内容的一个或多个图像可包括:基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
此外,在所述方法中,所述提取每个图像的文本特征可包括:基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库;从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量;以及基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。
此外,在所述方法中,创建所述文本特征空间可包括:统计该集合的文本关键词库中的每个文本关键词的出现频率;以及选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间。
根据本发明另一方面,提供了一种用于寻找图像集合中的代表性图像的系统,包括:文本特征提取器,被配置为基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征;多样性数据获取器,被配置为基于每个图像的所述文本特征,获取该集合的多样性数据,用于表示该集合中的任何两个图像的内容之间的差异性;代表性分数计算器,被配置为基于所述多样性数据来计算每个图像的代表性分数,用于表示该图像的内容相对于该集合中的所有图像的内容的代表性;以及代表性图像选择器,被配置为基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像。
此外,所述系统还可包括:视觉特征提取器,被配置为从该集合中的每个图像提取该图像的视觉特征;以及显著性数据获取器,被配置为基于每个图像的所述视觉特征,获取该图像的显著性数据,用于表示该图像的内容在该集合中的普遍性;其中,所述代表性分数还基于所述显著性数据。
此外,在所述系统中,所述代表性图像选择器可包括:排序器,被配置为基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及选择器,被配置为基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
此外,在所述系统中,所述文本特征提取器可包括:文本关键词库创建器,被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库;文本特征空间创建器,被配置为从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量;以及文本特征形成器,被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。
此外,在所述系统中,所述文本特征空间创建器可包括:统计器,被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率;以及文本关键词选择器,被配置为选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间。
根据本发明实施例,能够基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征,基于文本特征获取该集合的多样性数据,从而得到每个图像的代表性分数,并基于每个图像的代表性分数选择集合的代表性图像。因此,能够以有效的方式自动寻找图像集合中的代表性图像。
此外,根据本发明实施例,除上述多样性数据外,还能够从该集合中的每个图像提取该图像的视觉特征,基于每个图像的所述视觉特征,获取该图像的显著性数据,基于多样性数据和显著性数据两者,得到每个图像的代表性分数,并基于每个图像的代表性分数选择集合的代表性图像。因此,能够综合考虑多样性和显著性两方面,以更有效的方式得到更充分代表图像集合内容的代表性图像。
附图说明
图1是示出根据本发明一实施例的代表性图像寻找系统100的示例性配置的框图;
图2是示出根据本发明另一实施例的代表性图像寻找系统200的示例性配置的框图;
图3是更详细示出根据本发明实施例的代表性图像寻找系统200的示例性配置的框图;
图4是示意性示出根据本发明一实施例的代表性图像寻找方法的流程图。
图5是示意性示出根据本发明另一实施例的代表性图像寻找方法的流程图。
图6是更详细示出在根据本发明实施例的代表性图像寻找方法中的文本特征提取步骤的过程的流程图。
图7是通过示例性的两组图像(A)和(B)表现多样性的含义的图。
图8是通过示例性的图像表现显著性的含义的图。
图9是示意性示出图像的文本特征空间的图。
具体实施方式
以下将参考附图详细描述本发明的实施例。
图1是示出根据本发明第一实施例的代表性图像寻找系统100的示例性配置的框图。如图1所示,根据本发明第一实施例的代表性图像寻找系统100包括文本特征提取器101、多样性数据获取器102、代表性分数计算器103和代表性图像选择器104。
在根据本发明第一实施例的代表性图像寻找系统100中,文本特征提取器101基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征。所述元数据信息包括与图像自身的属性相关的信息。例如,在所述图像为照片的情况下,所述元数据信息包括拍摄时间、拍摄地点、相机参数等。所述标记信息包括由用户定义的与图像相关的信息,例如图像标题、图像说明等。稍后将参考图3更详细地描述文本特征提取器的配置和操作。
多样性数据获取器102基于每个图像的所述文本特征,获取该集合的多样性数据。所述多样性数据用于表示该集合中的任何两个图像的内容之间的差异性,其反映了图像集合的多元化程度。
图7是通过示例性的两组图像(A)和(B)直观地表现多样性的含义的图。在图7中,存在示例性的两组图像(A)和(B),其中(A)组图像中包含了很多同质的图像,因此其多样性较低;而(B)组图像中包括了表现不同位置、不同视图的图像,因此其多样性较高。
由此可知,多样性数据的确定有助于代表性图像的确定。例如,在电子相册的情况下,如果两张照片具有非常接近的拍摄时间,意味着它们趋于具有相似的视觉表现,从而不应将它们同时选为代表性图像。又例如,用户为放入同一文件夹的照片命名特殊的名称,如“年会”,则这些照片很可能记录相同事件,因此不应将它们同时选为代表性图像。
具体地,多样性数据获取器102可基于每个图像的所述文本特征,如下获取矩阵形式的多样性数据(以下适当时称为多样性矩阵):
假设图像集合X={xi|i=0,…,M-1}中存在M张图像,其中xi表示第i个图像。对应地,第i个图像的文本特征矢量表示为ti=[ti1,ti2,…,tiK]T,其中K表示稍后将详细描述的文本特征空间的维度。该图像集合的多样性矩阵可表示为D=[dij](M×M),其中每个元素dij表示第i个图像和第j个图像之间的差异性。
作为非限制性实施例,可基于稍后将详细描述的文本特征空间中的每两个图像之间的距离,获取多样性矩阵D中的每个元素dij
作为一个示例,基于欧几里得距离,通过如下等式(1)获取多样性矩阵D中的每个元素dij
d ( t i , t j ) = Σ m = 1 K ( t im - t jm ) 2 - - - ( 1 )
作为另一示例,基于p规范(p-norm)距离,通过如下等式(2)获取多样性矩阵D中的每个元素dij
d ( t i , t j ) = ( Σ m = 1 K ( t im - t jm ) p ) 1 / p - - - ( 2 )
其中p为一实数,在实践中可根据需要设为任意值。
作为又一示例,基于Kullback-Leibler距离,通过如下等式(3)获取多样性矩阵D中的每个元素dij
d ( t i , t j ) = Σ m = 1 K ( p ( t im ) log p ( t im ) p ( t jm ) + p ( t jm ) log p ( t jm ) p ( t im ) ) - - - ( 3 )
其中p(·)表示文本特征矢量的概率分布,其值可根据该图像在文本特征空间的位置进行估计。所述概率分布的计算方法为本领域技术人员所知,在此不再详述。
在上述公式(1)到(3)中,如上所述,ti和tj分别表示第i个图像和第j个图像的文本特征矢量,K表示文本特征空间的维度。
要注意的是,本领域技术人员可知,多样性矩阵不仅可基于如上所述的两个图像之间的距离信息获取,还可基于两个图像之间的相似度、相互信息等而获取。
代表性分数计算器103基于所述多样性数据来计算每个图像的代表性分数,所述代表性分数用于表示该图像的内容相对于该集合中的所有图像的内容的代表性。在本实施例的情况下,每个图像的代表性分数与该集合的多样性矩阵中对应于该图像的行向量或列向量直接相关。换句话说,在本实施例的情况下,每个图像的代表性分数直接体现该图像与集合中的其他图像之间的差异性。该图像与集合中的其他各图像之间的差异性越高,其代表性分数越高,反之则越低。将在下面更详细地描述代表性分数计算器103的操作。
代表性图像选择器104基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像。也就是说,代表性图像选择器104从集合中识别具备充分代表性的图像子集。具体地,选择的图像应当与所述集合中的其他各图像之间具有最大差异性。
根据本发明的第一实施例,代表性图像寻找系统100能够基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征,基于文本特征获取该集合的多样性数据,从而得到每个图像的代表性分数,并基于每个图像的代表性分数选择集合的代表性图像。因此,根据本发明第一实施例的代表性图像寻找系统100能够以有效的方式自动寻找图像集合中的代表性图像。
以下将参照图2详细描述根据本发明另一实施例的代表性图像寻找系统200的示例性配置。
根据本发明另一实施例的代表性图像寻找系统200包括文本特征提取器201、多样性数据获取器202、代表性分数计算器203、代表性图像选择器204、视觉特征提取器205和显著性数据获取器206。其中,文本特征提取器201、多样性数据获取器202和代表性图像选择器204的配置和操作与如上参照图1所述的文本特征提取器101、多样性数据获取器102和代表性图像选择器104的配置和操作相似,在此将不再详述。以下将参照图2主要描述视觉特征提取器205、显著性数据获取器206和代表性分数计算器203的示例性配置。
在根据本发明另一实施例的代表性图像寻找系统200中,视觉特征提取器205从该集合中的每个图像提取该图像的视觉特征。要注意的是,本领域技术人员可利用任何已知方法从图像提取视觉特征。例如,视觉特征提取器205基于如颜色、纹理、形状等的参数,利用任何已知方法形成图像集合的视觉特征空间。此后,对于每个图像,视觉特征提取器205提取该图像在所述视觉特征空间中的视觉特征。所述参数包括但不限于基于局部二进制模式(Local binary pattern,LBP)的纹理描述特征、颜色空间中基于块的颜色矩(block-wise color moment in lab color space)特征、边缘方向直方图特征、傅立叶描述子特征等。
显著性数据获取器206基于每个图像的所述视觉特征,获取该图像的显著性数据。所述显著性数据表示该图像的内容在该集合中的普遍性,即,该图像属于对应图像集合的程度。换句话说,显著性定义了该图像在整个图像集合当中的重要程度。一图像在图像集合中具有越多在外观上相似的图像,表示该图像的内容在集合当中越普遍,该图像的重要性越高,相应地,该图像的显著性数据越高。具体地,图像集合的显著性可表示为矢量,其中每个元素指示集合中的每个图像的显著性。图8是通过示例性的图像直观地表现显著性的含义的图。图8中示例性地示出了四个图像,其都与主题关键词“金门大桥”相关。从左到右,图像的显著性数据逐渐降低。
由此可知,除多样性数据外,显著性数据的确定也有助于代表性图像的确定。这是因为,通常,具有高显著性的图像与其所属的类别中的其他图像在外观上高度类似,并且具有高显著性的图像通常是最清晰的、填充图像的显著区域、或以若干常见姿态之一出现。这些条件可以提供关于该图像要表现的主题的最多的信息。
具体地,根据本发明实施例的显著性数据获取器206如下获取显著性数据。
在如上所述的图像集合X={xi|i=0,…,M-1}中,第i个图像的视觉特征矢量表示为vi=[vi1,vi2,…,viJ]T,其中J是视觉特征空间的维度。图像集合的显著性数据可表示为s=[s0,s1,…,sM-1]T,其中每个元素si指示第i个图像的显著性数据。
作为非限制性实施例,考虑基于上述视觉特征空间中的核密度估计,获取显著性数据。
作为一个示例,基于简单三角函数,通过如下公式(4)获取第i个图像的显著性数据si
s i = 1 - Σ x j ∈ knn ( x i ) d ( v i , v j ) - - - ( 4 )
其中d(vi,vj)表示第i个图像和第j个图像在视觉特征空间中的欧几里得距离,如下述等式(4-1)所示。
d ( v i , v j ) = Σ m = 1 J ( v im - v jm ) 2 - - - ( 4 - 1 )
作为另一示例,基于高斯函数,通过如下公式(5)获取第i个图像的显著性数据si
s i = 1 2 π Σ x j ∈ knn ( x i ) e d ( v i , v j ) - 2 h - - - ( 5 )
其中表示h是平滑参数,也称为带宽。
作为又一示例,基于余弦函数,通过如下公式(6)获取每个图像的显著性数据si
s i = π 4 Σ x j ∈ knn ( x i ) cos ( π × d ( v i , v j ) 2 h ) - - - ( 6 )
其中,在上述公式(4)到(6)中,knn(xi)表示在视觉特征空间中与图像xi最近的k个邻近图像。
由此,根据本实施例的显著性数据获取器206获取每个图像的显著性数据,并将其提供给代表性分数计算器203。
根据本实施例的代表性分数计算器203根据从多样性数据获取器202输出的多样性数据、以及从显著性数据获取器206输出的显著性数据,计算集合中的每个图像的代表性分数。
具体地,作为代表性分数计算的一个示例,代表性分数计算器203执行图像图的随机行走(random walk),以便在各图像之间传播代表性分数。图的每个节点表示图像,并且图的边缘用逐对图像多样性来加权。在具有M节点的图像图的情况下,使用rl(i)来表示在第l次迭代时节点i的代表性分数,其中本领域技术人员可在实践中根据图像集合的大小以及所要求的精度适当地选择l的值。第l次迭代时图中所有节点的代表性分数形成列向量rl=[rl(0),rl(1),…,rl(M-1)]T。设P表示M×M转移矩阵,其中的每个元素pij表示从节点i到节点j的转移概率,并且通过如下公式(7)计算:
p ij = d ij Σ 1 d il - - - ( 7 )
代表性分数计算器203执行的随机行走处理因此表示为:
rl(j)=α∑irl-1(i)pij+(1-α)sj                 (8)
其中α是0到1之间的加权参数,在实践中可通过加权器适当地实现。此外,本领域技术人员可根据需要适当地选择α的值,例如,α=0.2、α=0.5等。通过代表性分数计算器203执行的该随机行走处理,同时获得了视觉特征空间中的高显著性和文本特征空间中的高多样性。如下验证上述随机行走处理的收敛性。
定理1:等式(8)的迭代收敛于固定点rπ
证明:以矩阵形式重写等式(8)如下:
rl=αPrl-1+(1-α)s                          (9)
因此有
r π = lim n → ∞ ( αP ) n r 0 + ( 1 - α ) ( Σ i = 1 n ( αP ) i - 1 ) s - - - ( 10 )
注意到,其中,转移矩阵P被归一化为1。对于0≤α≤1,存在γ≤1,使得α≤γ,并且可以得到
Σ j ( αP ) ij n = Σ j Σ l ( αP ) il n - 1 ( αP ) lj
= Σ l ( αP ) il n - 1 ( α Σ j P lj )
= Σ l ( αP ) il n - 1 ( α ) - - - ( 11 )
≤ Σ l ( αP ) il n - 1 ( γ )
≤ γ n
因此,(αP)n的行和收敛于零。因此,根据等式(10),可以得到
rπ=(1-α)(I-αP)-1s                       (12)
其中,I是与P同样大小(即,M×M)的单位矩阵。
这是唯一解。
也就是说,根据本实施例的代表性分数计算器203基于上述公式(8),利用显著性数据和多样性数据,获得了每个图像的代表性分数。
要注意的是,在上述α=1的情况下,以上随机行走处理对应于上述实施例中的代表性分数计算器103中的操作。
要注意的是,虽然本实施例中代表性分数计算器203基于上述公式(8)来获得图像的代表性分数,但是本领域技术人员可以通过对公式(8)进行各种改变,以其他方式计算图像的代表性分数。
在根据本实施例的代表性图像寻找系统200中,代表性分数计算器203不但基于从多样性数据获取器202获取的多样性数据,还基于从显著性数据获取器206获取的显著性数据,计算图像的代表性分数,从而使得图像的代表性分数综合考虑了多样性和显著性两方面,因而能够以更有效的方式找到更充分代表图像集合的整体内容的代表性图像。
以下将参考图3所示的框图更详细地描述代表性图像寻找系统200的配置。
如图3所示,所述文本特征提取器201优选地包括:文本关键词库创建器2011、文本特征空间创建器2012和文本特征形成器2013。
文本关键词库创建器2011基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库。
文本特征空间创建器2012从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量。参见图9,其示意性地示出了图像集合中的每个图像的文本特征空间。在该图像集合中,总共存在9个图像。在通过该9个图像的元数据信息和/或由用户输入的标记信息形成的文本关键词库中,选择了11个关键词,因此形成的文本特征空间具有11维,每个图像在该文本特征空间中的每个维度的值指示该图像是否包括对应的关键词。例如,“1”指示该图像包括对应的关键词,“0”指示该图像不包括对应的关键词,反之亦可。
文本特征形成器2013基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。例如,对于图9中的图像名称为0573384.jpg的图像,其包括的文本关键词ID为4、1和9,因此该图像在该文本特征空间中的文本特征为(0,1,0,0,1,0,0,0,0,1,0)。应当注意的是,上述文本特征形成器2013形成文本特征的方法仅仅是一个示例。本领域技术人员完全可通过其他方法,比如计数每个图像所包含的文本关键词的数量等等,形成该图像在该文本特征空间中的文本特征。
优选地,所述文本特征空间创建器2012还包括:统计器2012A,用于统计该集合的文本关键词库中的每个文本关键词的出现频率;文本关键词选择器2012B,用于选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间。这是因为,在实践中,常常存在包含的信息量较少、并且出现频率较高的文本关键词,比如“一个”、“这个”、“图像”等,这类词在信息检索中常常被称为“停止词(stop word)”。这类关键词对于系统的可靠性有不利影响。因而优选地,删除其出现频率高于预定值的这些关键词。本领域技术人员可依据实际性能需要确定所述预定值,这是本领域所公知的,在此不再详述。
此外,优选地,所述代表性图像选择器204包括:排序器2041,用于基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及选择器2042,用于基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
本领域技术人员可构思各种方法来将所选择的代表性图像呈现给用户。例如,可将具有高代表性分数的图像呈现在预定显示部分中,可将代表性分数存储在存储器中,或以其他方式呈现给用户,如以文本关键词组的形式显示、以代表性分数的顺序打印等。
此外,要注意的是,本领域技术人员还可构思各种方法来利用图像的代表性分数。例如,可进一步分析代表性分数和/或将代表性分数用作其他过程的一部分,如通过将本发明中的文本特征空间应用于标签空间,可将本发明用作用于多标记分类的训练集的收集/修正。
下面将参考图4到6详细描述根据本发明实施例的代表性图像寻找方法。
图4是示意性示出由根据本发明第一实施例的代表性图像寻找系统100执行的代表性图像寻找方法的流程图。
如图4所示,在步骤S401,基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征。
在步骤S402,基于每个图像的所述文本特征,获取该集合的多样性数据。所述多样性数据的含义以及获取多样性数据的方法已经参照图1在上面详细描述,在此不再详述。
在步骤S403,基于所述多样性数据来计算每个图像的代表性分数。所述代表性分数的含义以及计算代表性分数的方法已经参照图1在上面详细描述,在此不再详述。
在步骤S404,基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像,即,代表性图像。
通过根据本发明实施例的代表性图像寻找方法,能够以有效的方式自动寻找图像集合中的代表性图像。
图5是示意性示出由根据本发明第二实施例的代表性图像寻找系统200执行的代表性图像寻找方法的流程图。
在图5所示的流程图中,步骤S501、S502和S504的处理与上面参照图4的流程图所述的步骤S401、S402和S404的处理相同,在此不再详述。
与图4所示的流程图不同的是,在图5所示的流程图中,在步骤S505,从该集合中的每个图像提取该图像的视觉特征;在步骤S506,基于每个图像的所述视觉特征,获取该图像的显著性数据。所述显著性数据的含义以及获取显著性数据的方法已经参照图2在上面详细描述,在此不再详述。
在获取了所述显著性数据和多样性数据之后,在步骤S503,基于所述多样性数据和所述显著性数据两者计算每个图像的代表性分数。所述计算方法已经参照图2在上面详细描述,在此不再详述。
此外,优选地,步骤S504的处理包括以下步骤:基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
通过根据本发明该实施例的代表性图像寻找方法,能够综合考虑多样性和显著性两方面来选择代表性图像,因而能够以更有效的方式找到更充分代表图像集合内容的代表性图像。
图6是更详细示出根据本发明实施例的代表性图像寻找方法中的文本特征提取步骤的过程的流程图。
如图6所示,在步骤S5011,基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库。
在步骤S5012,从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量。
在步骤S5013,基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。
此外,优选地,在步骤S5012的处理中,统计该集合的文本关键词库中的每个文本关键词的出现频率,并选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间,从而提高了根据本发明实施例的代表性图像寻找方法的可靠性。
应当注意的是,前述一系列处理可通过硬件或软件执行。在通过软件执行前述一些处理的情况下,构成这种软件的程序从网络或记录介质安装。
上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。例如,图5中的步骤S501和S502的处理可以与步骤S505和S506的处理并行地执行。
上面已经参考附图描述了根据本发明实施例的代表性图像寻找系统和代表性图像寻找方法。应当注意的是,上述实施例仅是示例性的,而并非限制性的。本领域技术人员完全可以对本发明实施例进行各种修改和替换,而不背离本发明的范围。

Claims (10)

1.一种用于寻找图像集合中的代表性图像的方法,包括:
基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征;
基于每个图像的所述文本特征,获取该集合的多样性数据,用于表示该集合中的任何两个图像的内容之间的差异性;
基于所述多样性数据来计算每个图像的代表性分数,用于表示该图像的内容相对于该集合中的所有图像的内容的代表性;以及
基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像。
2.如权利要求1所述的方法,还包括:
从该集合中的每个图像提取该图像的视觉特征;以及
基于每个图像的所述视觉特征,获取该图像的显著性数据,用于表示该图像的内容在该集合中的普遍性;
其中,所述代表性分数还基于所述显著性数据。
3.如权利要求1或2所述的方法,其中,所述选择代表该集合中的所有图像的内容的一个或多个图像包括:
基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及
基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
4.如权利要求1所述的方法,其中所述提取每个图像的文本特征包括:
基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库;
从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量;以及
基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。
5.如权利要求4所述的方法,其中,创建所述文本特征空间包括:
统计该集合的文本关键词库中的每个文本关键词的出现频率;以及
选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间。
6.一种用于寻找图像集合中的代表性图像的系统,包括:
文本特征提取器,被配置为基于每个图像的元数据信息和/或由用户输入的标记信息,从包括多个图像的集合中的每个图像提取该图像的文本特征;
多样性数据获取器,被配置为基于每个图像的所述文本特征,获取该集合的多样性数据,用于表示该集合中的任何两个图像的内容之间的差异性;
代表性分数计算器,被配置为基于所述多样性数据来计算每个图像的代表性分数,用于表示该图像的内容相对于该集合中的所有图像的内容的代表性;以及
代表性图像选择器,被配置为基于所述代表性分数,选择代表该集合中的所有图像的内容的一个或多个图像。
7.如权利要求6所述的系统,还包括:
视觉特征提取器,被配置为从该集合中的每个图像提取该图像的视觉特征;以及
显著性数据获取器,被配置为基于每个图像的所述视觉特征,获取该图像的显著性数据,用于表示该图像的内容在该集合中的普遍性;
其中,所述代表性分数还基于所述显著性数据。
8.如权利要求6或7所述的系统,其中,所述代表性图像选择器包括:
排序器,被配置为基于每个图像的代表性分数,对集合中的所有图像的代表性分数进行排序;以及
选择器,被配置为基于所述排序的结果,选择代表该集合中的所有图像的内容的一个或多个图像。
9.如权利要求6所述的系统,其中所述文本特征提取器包括:
文本关键词库创建器,被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息,创建该集合的文本关键词库;
文本特征空间创建器,被配置为从该集合的文本关键词库中选择一个或多个文本关键词,创建文本特征空间,其中所述文本特征空间的维度等于所选择的文本关键词的数量;以及
文本特征形成器,被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息,通过所述文本特征空间形成每个图像的文本特征。
10.如权利要求9所述的系统,其中,所述文本特征空间创建器包括:
统计器,被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率;以及
文本关键词选择器,被配置为选择其出现频率处于预定范围内的文本关键词,以创建所述文本特征空间。
CN2010101220068A 2010-03-11 2010-03-11 用于寻找图像集合中的代表性图像的系统和方法 Expired - Fee Related CN102193934B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010101220068A CN102193934B (zh) 2010-03-11 2010-03-11 用于寻找图像集合中的代表性图像的系统和方法
US13/033,016 US8204889B2 (en) 2010-03-11 2011-02-23 System, method, and computer-readable medium for seeking representative images in image set
JP2011052923A JP5626042B2 (ja) 2010-03-11 2011-03-10 画像集合における代表画像の検索システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101220068A CN102193934B (zh) 2010-03-11 2010-03-11 用于寻找图像集合中的代表性图像的系统和方法

Publications (2)

Publication Number Publication Date
CN102193934A true CN102193934A (zh) 2011-09-21
CN102193934B CN102193934B (zh) 2013-05-29

Family

ID=44560916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101220068A Expired - Fee Related CN102193934B (zh) 2010-03-11 2010-03-11 用于寻找图像集合中的代表性图像的系统和方法

Country Status (3)

Country Link
US (1) US8204889B2 (zh)
JP (1) JP5626042B2 (zh)
CN (1) CN102193934B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680511A (zh) * 2013-11-29 2015-06-03 宏达国际电子股份有限公司 移动装置及其图像处理方法
CN107491456A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 图像排序方法和装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105309A (ja) * 2011-11-14 2013-05-30 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN104424226B (zh) * 2013-08-26 2018-08-24 阿里巴巴集团控股有限公司 一种获得视觉词词典、图像检索的方法及装置
US10739959B2 (en) * 2014-12-30 2020-08-11 Facebook, Inc. Systems and methods for providing narratives associated with images
JP6516832B2 (ja) * 2015-04-08 2019-05-22 株式会社日立製作所 画像検索装置、システム及び方法
US11080338B2 (en) * 2017-01-13 2021-08-03 Nec Corporation Information processing apparatus, information processing method, and program
CN117235297B (zh) * 2023-11-15 2024-04-26 浙江大华技术股份有限公司 图像选择方法及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080212899A1 (en) * 2005-05-09 2008-09-04 Salih Burak Gokturk System and method for search portions of objects in images and features thereof
CN101295317A (zh) * 2008-06-20 2008-10-29 北京中星微电子有限公司 建立图像数据库索引以及图像识别的方法和装置
JP2009509215A (ja) * 2005-08-15 2009-03-05 ミツビシ・エレクトリック・インフォメイション・テクノロジー・センター・ヨーロッパ・ビーヴィ 画像データベースでのナビゲーション、視覚化、及びクラスタ化のための相互ランク類似度空間

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995978A (en) * 1997-09-24 1999-11-30 Ricoh Company, Ltd. Navigation system for document image database
JP3550681B2 (ja) * 1999-12-10 2004-08-04 日本電気株式会社 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US6834288B2 (en) * 2001-04-13 2004-12-21 Industrial Technology Research Institute Content-based similarity retrieval system for image data
JP2003288363A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 情報提供装置および情報提供方法
JP2004164036A (ja) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> 文書の共通性評価方法
JP2005149455A (ja) * 2003-10-21 2005-06-09 Sharp Corp 画像照合装置、画像照合方法、画像照合プログラムおよび画像照合プログラムを記録したコンピュータ読取り可能な記録媒体
US7492921B2 (en) * 2005-01-10 2009-02-17 Fuji Xerox Co., Ltd. System and method for detecting and ranking images in order of usefulness based on vignette score
JP5009577B2 (ja) * 2005-09-30 2012-08-22 富士フイルム株式会社 画像検索装置および方法並びにプログラム
US8572088B2 (en) * 2005-10-21 2013-10-29 Microsoft Corporation Automated rich presentation of a semantic topic
JP4638366B2 (ja) * 2006-02-27 2011-02-23 パナソニック株式会社 代表画像選択装置および代表画像選択方法
US7792868B2 (en) * 2006-11-10 2010-09-07 Microsoft Corporation Data object linking and browsing tool
JP2009177272A (ja) * 2008-01-22 2009-08-06 Sony Corp 撮像装置、その制御方法およびプログラム
JP5445787B2 (ja) * 2008-03-06 2014-03-19 日本電気株式会社 属性抽出方法、システム及びプログラム
JP5288961B2 (ja) * 2008-09-17 2013-09-11 キヤノン株式会社 画像処理装置および画像処理方法
US8073818B2 (en) * 2008-10-03 2011-12-06 Microsoft Corporation Co-location visual pattern mining for near-duplicate image retrieval
US8112428B2 (en) * 2008-11-24 2012-02-07 Yahoo! Inc. Clustering image search results through voting: reciprocal election
JP2010211262A (ja) * 2009-03-06 2010-09-24 Panasonic Corp 画像検索用情報表示装置
JP5164901B2 (ja) * 2009-03-17 2013-03-21 ヤフー株式会社 画像検索装置
JP5289151B2 (ja) * 2009-04-09 2013-09-11 キヤノン株式会社 データ管理装置、その制御方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080212899A1 (en) * 2005-05-09 2008-09-04 Salih Burak Gokturk System and method for search portions of objects in images and features thereof
JP2009509215A (ja) * 2005-08-15 2009-03-05 ミツビシ・エレクトリック・インフォメイション・テクノロジー・センター・ヨーロッパ・ビーヴィ 画像データベースでのナビゲーション、視覚化、及びクラスタ化のための相互ランク類似度空間
CN101295317A (zh) * 2008-06-20 2008-10-29 北京中星微电子有限公司 建立图像数据库索引以及图像识别的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680511A (zh) * 2013-11-29 2015-06-03 宏达国际电子股份有限公司 移动装置及其图像处理方法
CN107491456A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 图像排序方法和装置

Also Published As

Publication number Publication date
CN102193934B (zh) 2013-05-29
US8204889B2 (en) 2012-06-19
US20110225172A1 (en) 2011-09-15
JP2011192273A (ja) 2011-09-29
JP5626042B2 (ja) 2014-11-19

Similar Documents

Publication Publication Date Title
CN102193934B (zh) 用于寻找图像集合中的代表性图像的系统和方法
Memon et al. GEO matching regions: multiple regions of interests using content based image retrieval based on relative locations
Li et al. GPS estimation for places of interest from social users' uploaded photos
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
US20090190797A1 (en) Recognizing image environment from image and position
WO2010062625A2 (en) Image-based semantic distance
Qian et al. Landmark summarization with diverse viewpoints
Joshi et al. Inferring generic activities and events from image content and bags of geo-tags
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
Weyand et al. Visual landmark recognition from internet photo collections: A large-scale evaluation
Joshi et al. Inferring photographic location using geotagged web images
Singh et al. Semantically guided geo-location and modeling in urban environments
Qiao et al. Rapid trajectory clustering based on neighbor spatial analysis
Weng et al. Semantic signatures for large-scale visual localization
CN103377381A (zh) 识别图像的内容属性的方法和装置
Liu et al. Automatic concept detector refinement for large-scale video semantic annotation
CN111008294A (zh) 交通图像处理、图像检索方法及装置
Peng et al. KISS: knowing camera prototype system for recognizing and annotating places-of-interest
Jones et al. Automated annotation of landmark images using community contributed datasets and web resources
Peng et al. The knowing camera 2: recognizing and annotating places-of-interest in smartphone photos
Velivelli et al. Automatic video annotation by mining speech transcripts
Salma et al. A hybrid feature extraction for satellite image segmentation using statistical global and local feature
CN112015937A (zh) 一种图片地理定位方法及系统
Ma et al. Multi-source fusion based geo-tagging for web images
Yu et al. Aeroplane detection from high-resolution remotely sensed imagery using bag-of-visual-words based hough forests

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130529

Termination date: 20210311