CN102193934A

CN102193934A - 用于寻找图像集合中的代表性图像的系统和方法

Info

Publication number: CN102193934A
Application number: CN2010101220068A
Authority: CN
Inventors: 刘媛; 王刚; 李滔; 徐盈辉; 朱才志
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-03-11
Filing date: 2010-03-11
Publication date: 2011-09-21
Anticipated expiration: 2030-03-11
Also published as: CN102193934B; US8204889B2; US20110225172A1; JP2011192273A; JP5626042B2

Abstract

本发明提供了一种用于寻找图像集合中的代表性图像的方法和系统，该方法包括：基于每个图像的元数据信息和/或由用户输入的标记信息，提取每个图像的文本特征；基于每个图像的文本特征，获取该集合的多样性数据；基于多样性数据来计算每个图像的代表性分数；以及基于代表性分数，选择该集合的代表性图像。此外，该方法还可提取每个图像的视觉特征，基于每个图像的视觉特征，获取该图像的显著性数据，并基于多样性数据和显著性数据两者，计算每个图像的代表性分数，从而选择该集合的代表性图像。通过本发明，能够以有效的方式自动寻找图像集合中的代表性图像。

Description

用于寻找图像集合中的代表性图像的系统和方法

技术领域

本发明涉及用于寻找图像集合中的代表性图像的系统和方法。

背景技术

随着信息存储技术的发展，存储装置的存储能力日益提高，所存储的信息量也越来越大。现实生活中，在诸如电子相册之类的包含大量电子图像的图像集合中，常常存在数量众多的、未经组织的各种图像，导致用户难以快速掌握图像集合的整体内容。在此情况下，如果能够自动寻找出最能代表图像集合中的所有图像的内容的一个或多个图像(即，所谓的代表性图像)，则这将极大地改进用户体验。

专利申请No.US20070094251提出了一种用于文档图像数据库的导航系统。对于用户输入的搜索关键词，该系统通过采用文本搜索来收集图像，通过使用图像视觉特征来对图像自动分组，并显示每组的代表性图像。然而，在该系统中，需要用户手动输入文本关键词。事实上，在实际应用中，很多情况下用户不能获知诸如电子相册的图像集合中包含的关键词，因此用户常常只能试探性地输入搜索关键词，而该搜索关键词常常不能概括整个图像集合，因此不能令人满意地得到图像集合的代表性图像。

专利申请No.US5995978提出了一种对于语义主题的富呈现(richpresentation)方法。该语义主题可以是一个或多个关键词、人名、事件、场景等。由于图像集合中可能包含多个语义主题，因此为了导航图像集合，首先需要确定包括哪些主题。然而，由于语义主题检测技术目前尚不成熟，导致该方法的性能不够理想。

发明内容

有鉴于上述问题，本发明提出了一种用于寻找图像集合中的代表性图像的方法和系统，其能够以有效的方式自动寻找图像集合中的代表性图像，从而有助于用户快速掌握图像集合的整体内容，改进用户体验。

根据本发明的一方面，提供了一种用于寻找图像集合中的代表性图像的方法，包括：基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。

此外，所述方法还可包括：从该集合中的每个图像提取该图像的视觉特征；以及基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。

此外，在所述方法中，所述选择代表该集合中的所有图像的内容的一个或多个图像可包括：基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

此外，在所述方法中，所述提取每个图像的文本特征可包括：基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。

此外，在所述方法中，创建所述文本特征空间可包括：统计该集合的文本关键词库中的每个文本关键词的出现频率；以及选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。

根据本发明另一方面，提供了一种用于寻找图像集合中的代表性图像的系统，包括：文本特征提取器，被配置为基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；多样性数据获取器，被配置为基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；代表性分数计算器，被配置为基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及代表性图像选择器，被配置为基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。

此外，所述系统还可包括：视觉特征提取器，被配置为从该集合中的每个图像提取该图像的视觉特征；以及显著性数据获取器，被配置为基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。

此外，在所述系统中，所述代表性图像选择器可包括：排序器，被配置为基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及选择器，被配置为基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

此外，在所述系统中，所述文本特征提取器可包括：文本关键词库创建器，被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；文本特征空间创建器，被配置为从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及文本特征形成器，被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。

此外，在所述系统中，所述文本特征空间创建器可包括：统计器，被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率；以及文本关键词选择器，被配置为选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。

根据本发明实施例，能够基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征，基于文本特征获取该集合的多样性数据，从而得到每个图像的代表性分数，并基于每个图像的代表性分数选择集合的代表性图像。因此，能够以有效的方式自动寻找图像集合中的代表性图像。

此外，根据本发明实施例，除上述多样性数据外，还能够从该集合中的每个图像提取该图像的视觉特征，基于每个图像的所述视觉特征，获取该图像的显著性数据，基于多样性数据和显著性数据两者，得到每个图像的代表性分数，并基于每个图像的代表性分数选择集合的代表性图像。因此，能够综合考虑多样性和显著性两方面，以更有效的方式得到更充分代表图像集合内容的代表性图像。

附图说明

图1是示出根据本发明一实施例的代表性图像寻找系统100的示例性配置的框图；

图2是示出根据本发明另一实施例的代表性图像寻找系统200的示例性配置的框图；

图3是更详细示出根据本发明实施例的代表性图像寻找系统200的示例性配置的框图；

图4是示意性示出根据本发明一实施例的代表性图像寻找方法的流程图。

图5是示意性示出根据本发明另一实施例的代表性图像寻找方法的流程图。

图6是更详细示出在根据本发明实施例的代表性图像寻找方法中的文本特征提取步骤的过程的流程图。

图7是通过示例性的两组图像(A)和(B)表现多样性的含义的图。

图8是通过示例性的图像表现显著性的含义的图。

图9是示意性示出图像的文本特征空间的图。

具体实施方式

以下将参考附图详细描述本发明的实施例。

图1是示出根据本发明第一实施例的代表性图像寻找系统100的示例性配置的框图。如图1所示，根据本发明第一实施例的代表性图像寻找系统100包括文本特征提取器101、多样性数据获取器102、代表性分数计算器103和代表性图像选择器104。

在根据本发明第一实施例的代表性图像寻找系统100中，文本特征提取器101基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征。所述元数据信息包括与图像自身的属性相关的信息。例如，在所述图像为照片的情况下，所述元数据信息包括拍摄时间、拍摄地点、相机参数等。所述标记信息包括由用户定义的与图像相关的信息，例如图像标题、图像说明等。稍后将参考图3更详细地描述文本特征提取器的配置和操作。

多样性数据获取器102基于每个图像的所述文本特征，获取该集合的多样性数据。所述多样性数据用于表示该集合中的任何两个图像的内容之间的差异性，其反映了图像集合的多元化程度。

图7是通过示例性的两组图像(A)和(B)直观地表现多样性的含义的图。在图7中，存在示例性的两组图像(A)和(B)，其中(A)组图像中包含了很多同质的图像，因此其多样性较低；而(B)组图像中包括了表现不同位置、不同视图的图像，因此其多样性较高。

由此可知，多样性数据的确定有助于代表性图像的确定。例如，在电子相册的情况下，如果两张照片具有非常接近的拍摄时间，意味着它们趋于具有相似的视觉表现，从而不应将它们同时选为代表性图像。又例如，用户为放入同一文件夹的照片命名特殊的名称，如“年会”，则这些照片很可能记录相同事件，因此不应将它们同时选为代表性图像。

具体地，多样性数据获取器102可基于每个图像的所述文本特征，如下获取矩阵形式的多样性数据(以下适当时称为多样性矩阵)：

假设图像集合X＝{x_i|i＝0，…，M-1}中存在M张图像，其中x_i表示第i个图像。对应地，第i个图像的文本特征矢量表示为t_i＝[t_i1，t_i2，…，t_iK]^T，其中K表示稍后将详细描述的文本特征空间的维度。该图像集合的多样性矩阵可表示为D＝[d_ij]_(M×M)，其中每个元素d_ij表示第i个图像和第j个图像之间的差异性。

作为非限制性实施例，可基于稍后将详细描述的文本特征空间中的每两个图像之间的距离，获取多样性矩阵D中的每个元素d_ij。

作为一个示例，基于欧几里得距离，通过如下等式(1)获取多样性矩阵D中的每个元素d_ij：

d (t_{i}, t_{j}) = \sqrt{Σ_{m = 1}^{K} {(t_{im} - t_{jm})}^{2}} - - - (1)

作为另一示例，基于p规范(p-norm)距离，通过如下等式(2)获取多样性矩阵D中的每个元素d_ij：

d (t_{i}, t_{j}) = {(Σ_{m = 1}^{K} {(t_{im} - t_{jm})}^{p})}^{1 / p} - - - (2)

其中p为一实数，在实践中可根据需要设为任意值。

作为又一示例，基于Kullback-Leibler距离，通过如下等式(3)获取多样性矩阵D中的每个元素d_ij：

d (t_{i}, t_{j}) = Σ_{m = 1}^{K} (p (t_{im}) \log \frac{p (t_{im})}{p (t_{jm})} + p (t_{jm}) \log \frac{p (t_{jm})}{p (t_{im})}) - - - (3)

其中p(·)表示文本特征矢量的概率分布，其值可根据该图像在文本特征空间的位置进行估计。所述概率分布的计算方法为本领域技术人员所知，在此不再详述。

在上述公式(1)到(3)中，如上所述，t_i和t_j分别表示第i个图像和第j个图像的文本特征矢量，K表示文本特征空间的维度。

要注意的是，本领域技术人员可知，多样性矩阵不仅可基于如上所述的两个图像之间的距离信息获取，还可基于两个图像之间的相似度、相互信息等而获取。

代表性分数计算器103基于所述多样性数据来计算每个图像的代表性分数，所述代表性分数用于表示该图像的内容相对于该集合中的所有图像的内容的代表性。在本实施例的情况下，每个图像的代表性分数与该集合的多样性矩阵中对应于该图像的行向量或列向量直接相关。换句话说，在本实施例的情况下，每个图像的代表性分数直接体现该图像与集合中的其他图像之间的差异性。该图像与集合中的其他各图像之间的差异性越高，其代表性分数越高，反之则越低。将在下面更详细地描述代表性分数计算器103的操作。

代表性图像选择器104基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。也就是说，代表性图像选择器104从集合中识别具备充分代表性的图像子集。具体地，选择的图像应当与所述集合中的其他各图像之间具有最大差异性。

根据本发明的第一实施例，代表性图像寻找系统100能够基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征，基于文本特征获取该集合的多样性数据，从而得到每个图像的代表性分数，并基于每个图像的代表性分数选择集合的代表性图像。因此，根据本发明第一实施例的代表性图像寻找系统100能够以有效的方式自动寻找图像集合中的代表性图像。

以下将参照图2详细描述根据本发明另一实施例的代表性图像寻找系统200的示例性配置。

根据本发明另一实施例的代表性图像寻找系统200包括文本特征提取器201、多样性数据获取器202、代表性分数计算器203、代表性图像选择器204、视觉特征提取器205和显著性数据获取器206。其中，文本特征提取器201、多样性数据获取器202和代表性图像选择器204的配置和操作与如上参照图1所述的文本特征提取器101、多样性数据获取器102和代表性图像选择器104的配置和操作相似，在此将不再详述。以下将参照图2主要描述视觉特征提取器205、显著性数据获取器206和代表性分数计算器203的示例性配置。

在根据本发明另一实施例的代表性图像寻找系统200中，视觉特征提取器205从该集合中的每个图像提取该图像的视觉特征。要注意的是，本领域技术人员可利用任何已知方法从图像提取视觉特征。例如，视觉特征提取器205基于如颜色、纹理、形状等的参数，利用任何已知方法形成图像集合的视觉特征空间。此后，对于每个图像，视觉特征提取器205提取该图像在所述视觉特征空间中的视觉特征。所述参数包括但不限于基于局部二进制模式(Local binary pattern，LBP)的纹理描述特征、颜色空间中基于块的颜色矩(block-wise color moment in lab color space)特征、边缘方向直方图特征、傅立叶描述子特征等。

显著性数据获取器206基于每个图像的所述视觉特征，获取该图像的显著性数据。所述显著性数据表示该图像的内容在该集合中的普遍性，即，该图像属于对应图像集合的程度。换句话说，显著性定义了该图像在整个图像集合当中的重要程度。一图像在图像集合中具有越多在外观上相似的图像，表示该图像的内容在集合当中越普遍，该图像的重要性越高，相应地，该图像的显著性数据越高。具体地，图像集合的显著性可表示为矢量，其中每个元素指示集合中的每个图像的显著性。图8是通过示例性的图像直观地表现显著性的含义的图。图8中示例性地示出了四个图像，其都与主题关键词“金门大桥”相关。从左到右，图像的显著性数据逐渐降低。

由此可知，除多样性数据外，显著性数据的确定也有助于代表性图像的确定。这是因为，通常，具有高显著性的图像与其所属的类别中的其他图像在外观上高度类似，并且具有高显著性的图像通常是最清晰的、填充图像的显著区域、或以若干常见姿态之一出现。这些条件可以提供关于该图像要表现的主题的最多的信息。

具体地，根据本发明实施例的显著性数据获取器206如下获取显著性数据。

在如上所述的图像集合X＝{x_i|i＝0，…，M-1}中，第i个图像的视觉特征矢量表示为v_i＝[v_i1，v_i2，…，v_iJ]^T，其中J是视觉特征空间的维度。图像集合的显著性数据可表示为s＝[s₀，s₁，…，s_M-1]^T，其中每个元素s_i指示第i个图像的显著性数据。

作为非限制性实施例，考虑基于上述视觉特征空间中的核密度估计，获取显著性数据。

作为一个示例，基于简单三角函数，通过如下公式(4)获取第i个图像的显著性数据s_i：

s_{i} = 1 - Σ_{x_{j} &Element; knn (x_{i})} d (v_{i}, v_{j}) - - - (4)

其中d(v_i，v_j)表示第i个图像和第j个图像在视觉特征空间中的欧几里得距离，如下述等式(4-1)所示。

d (v_{i}, v_{j}) = \sqrt{Σ_{m = 1}^{J} {(v_{im} - v_{jm})}^{2}} - - - (4 - 1)

作为另一示例，基于高斯函数，通过如下公式(5)获取第i个图像的显著性数据s_i：

s_{i} = \frac{1}{\sqrt{2 π}} Σ_{x_{j} &Element; knn (x_{i})} e^{\frac{d (v_{i}, v_{j})}{- 2 h}} - - - (5)

其中表示h是平滑参数，也称为带宽。

作为又一示例，基于余弦函数，通过如下公式(6)获取每个图像的显著性数据s_i：

s_{i} = \frac{π}{4} Σ_{x_{j} &Element; knn (x_{i})} \cos (\frac{π \times d (v_{i}, v_{j})}{2 h}) - - - (6)

其中，在上述公式(4)到(6)中，knn(x_i)表示在视觉特征空间中与图像x_i最近的k个邻近图像。

由此，根据本实施例的显著性数据获取器206获取每个图像的显著性数据，并将其提供给代表性分数计算器203。

根据本实施例的代表性分数计算器203根据从多样性数据获取器202输出的多样性数据、以及从显著性数据获取器206输出的显著性数据，计算集合中的每个图像的代表性分数。

具体地，作为代表性分数计算的一个示例，代表性分数计算器203执行图像图的随机行走(random walk)，以便在各图像之间传播代表性分数。图的每个节点表示图像，并且图的边缘用逐对图像多样性来加权。在具有M节点的图像图的情况下，使用r_l(i)来表示在第l次迭代时节点i的代表性分数，其中本领域技术人员可在实践中根据图像集合的大小以及所要求的精度适当地选择l的值。第l次迭代时图中所有节点的代表性分数形成列向量r_l＝[r_l(0)，r_l(1)，…，rl(M-1)]^T。设P表示M×M转移矩阵，其中的每个元素p_ij表示从节点i到节点j的转移概率，并且通过如下公式(7)计算：

p_{ij} = \frac{d_{ij}}{Σ_{1} d_{il}} - - - (7)

代表性分数计算器203执行的随机行走处理因此表示为：

r_l(j)＝α∑_ir_l-1(i)p_ij+(1-α)s_j (8)

其中α是0到1之间的加权参数，在实践中可通过加权器适当地实现。此外，本领域技术人员可根据需要适当地选择α的值，例如，α＝0.2、α＝0.5等。通过代表性分数计算器203执行的该随机行走处理，同时获得了视觉特征空间中的高显著性和文本特征空间中的高多样性。如下验证上述随机行走处理的收敛性。

定理1：等式(8)的迭代收敛于固定点r_π。

证明：以矩阵形式重写等式(8)如下：

r_l＝αPr_l-1+(1-α)s (9)

因此有

r_{π} = \lim_{n &RightArrow; \infty} {(αP)}^{n} r_{0} + (1 - α) (Σ_{i = 1}^{n} {(αP)}^{i - 1}) s - - - (10)

注意到，其中，转移矩阵P被归一化为1。对于0≤α≤1，存在γ≤1，使得α≤γ，并且可以得到

Σ_{j} {(αP)}_{ij}^{n} = Σ_{j} Σ_{l} {(αP)}_{il}^{n - 1} {(αP)}_{lj}

= Σ_{l} {(αP)}_{il}^{n - 1} (α Σ_{j} P_{lj})

= Σ_{l} {(αP)}_{il}^{n - 1} (α) - - - (11)

\leq Σ_{l} {(αP)}_{il}^{n - 1} (γ)

\leq γ^{n}

因此，(αP)ⁿ的行和收敛于零。因此，根据等式(10)，可以得到

r_π＝(1-α)(I-αP)^-1s (12)

其中，I是与P同样大小(即，M×M)的单位矩阵。

这是唯一解。

也就是说，根据本实施例的代表性分数计算器203基于上述公式(8)，利用显著性数据和多样性数据，获得了每个图像的代表性分数。

要注意的是，在上述α＝1的情况下，以上随机行走处理对应于上述实施例中的代表性分数计算器103中的操作。

要注意的是，虽然本实施例中代表性分数计算器203基于上述公式(8)来获得图像的代表性分数，但是本领域技术人员可以通过对公式(8)进行各种改变，以其他方式计算图像的代表性分数。

在根据本实施例的代表性图像寻找系统200中，代表性分数计算器203不但基于从多样性数据获取器202获取的多样性数据，还基于从显著性数据获取器206获取的显著性数据，计算图像的代表性分数，从而使得图像的代表性分数综合考虑了多样性和显著性两方面，因而能够以更有效的方式找到更充分代表图像集合的整体内容的代表性图像。

以下将参考图3所示的框图更详细地描述代表性图像寻找系统200的配置。

如图3所示，所述文本特征提取器201优选地包括：文本关键词库创建器2011、文本特征空间创建器2012和文本特征形成器2013。

文本关键词库创建器2011基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库。

文本特征空间创建器2012从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量。参见图9，其示意性地示出了图像集合中的每个图像的文本特征空间。在该图像集合中，总共存在9个图像。在通过该9个图像的元数据信息和/或由用户输入的标记信息形成的文本关键词库中，选择了11个关键词，因此形成的文本特征空间具有11维，每个图像在该文本特征空间中的每个维度的值指示该图像是否包括对应的关键词。例如，“1”指示该图像包括对应的关键词，“0”指示该图像不包括对应的关键词，反之亦可。

文本特征形成器2013基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。例如，对于图9中的图像名称为0573384.jpg的图像，其包括的文本关键词ID为4、1和9，因此该图像在该文本特征空间中的文本特征为(0，1，0，0，1，0，0，0，0，1，0)。应当注意的是，上述文本特征形成器2013形成文本特征的方法仅仅是一个示例。本领域技术人员完全可通过其他方法，比如计数每个图像所包含的文本关键词的数量等等，形成该图像在该文本特征空间中的文本特征。

优选地，所述文本特征空间创建器2012还包括：统计器2012A，用于统计该集合的文本关键词库中的每个文本关键词的出现频率；文本关键词选择器2012B，用于选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。这是因为，在实践中，常常存在包含的信息量较少、并且出现频率较高的文本关键词，比如“一个”、“这个”、“图像”等，这类词在信息检索中常常被称为“停止词(stop word)”。这类关键词对于系统的可靠性有不利影响。因而优选地，删除其出现频率高于预定值的这些关键词。本领域技术人员可依据实际性能需要确定所述预定值，这是本领域所公知的，在此不再详述。

此外，优选地，所述代表性图像选择器204包括：排序器2041，用于基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及选择器2042，用于基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

本领域技术人员可构思各种方法来将所选择的代表性图像呈现给用户。例如，可将具有高代表性分数的图像呈现在预定显示部分中，可将代表性分数存储在存储器中，或以其他方式呈现给用户，如以文本关键词组的形式显示、以代表性分数的顺序打印等。

此外，要注意的是，本领域技术人员还可构思各种方法来利用图像的代表性分数。例如，可进一步分析代表性分数和/或将代表性分数用作其他过程的一部分，如通过将本发明中的文本特征空间应用于标签空间，可将本发明用作用于多标记分类的训练集的收集/修正。

下面将参考图4到6详细描述根据本发明实施例的代表性图像寻找方法。

图4是示意性示出由根据本发明第一实施例的代表性图像寻找系统100执行的代表性图像寻找方法的流程图。

如图4所示，在步骤S401，基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征。

在步骤S402，基于每个图像的所述文本特征，获取该集合的多样性数据。所述多样性数据的含义以及获取多样性数据的方法已经参照图1在上面详细描述，在此不再详述。

在步骤S403，基于所述多样性数据来计算每个图像的代表性分数。所述代表性分数的含义以及计算代表性分数的方法已经参照图1在上面详细描述，在此不再详述。

在步骤S404，基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像，即，代表性图像。

通过根据本发明实施例的代表性图像寻找方法，能够以有效的方式自动寻找图像集合中的代表性图像。

图5是示意性示出由根据本发明第二实施例的代表性图像寻找系统200执行的代表性图像寻找方法的流程图。

在图5所示的流程图中，步骤S501、S502和S504的处理与上面参照图4的流程图所述的步骤S401、S402和S404的处理相同，在此不再详述。

与图4所示的流程图不同的是，在图5所示的流程图中，在步骤S505，从该集合中的每个图像提取该图像的视觉特征；在步骤S506，基于每个图像的所述视觉特征，获取该图像的显著性数据。所述显著性数据的含义以及获取显著性数据的方法已经参照图2在上面详细描述，在此不再详述。

在获取了所述显著性数据和多样性数据之后，在步骤S503，基于所述多样性数据和所述显著性数据两者计算每个图像的代表性分数。所述计算方法已经参照图2在上面详细描述，在此不再详述。

此外，优选地，步骤S504的处理包括以下步骤：基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

通过根据本发明该实施例的代表性图像寻找方法，能够综合考虑多样性和显著性两方面来选择代表性图像，因而能够以更有效的方式找到更充分代表图像集合内容的代表性图像。

图6是更详细示出根据本发明实施例的代表性图像寻找方法中的文本特征提取步骤的过程的流程图。

如图6所示，在步骤S5011，基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库。

在步骤S5012，从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量。

在步骤S5013，基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。

此外，优选地，在步骤S5012的处理中，统计该集合的文本关键词库中的每个文本关键词的出现频率，并选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间，从而提高了根据本发明实施例的代表性图像寻找方法的可靠性。

应当注意的是，前述一系列处理可通过硬件或软件执行。在通过软件执行前述一些处理的情况下，构成这种软件的程序从网络或记录介质安装。

上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。例如，图5中的步骤S501和S502的处理可以与步骤S505和S506的处理并行地执行。

上面已经参考附图描述了根据本发明实施例的代表性图像寻找系统和代表性图像寻找方法。应当注意的是，上述实施例仅是示例性的，而并非限制性的。本领域技术人员完全可以对本发明实施例进行各种修改和替换，而不背离本发明的范围。

Claims

1.一种用于寻找图像集合中的代表性图像的方法，包括：

基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；

基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；

基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及

基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。

2.如权利要求1所述的方法，还包括：

从该集合中的每个图像提取该图像的视觉特征；以及

基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；

其中，所述代表性分数还基于所述显著性数据。

3.如权利要求1或2所述的方法，其中，所述选择代表该集合中的所有图像的内容的一个或多个图像包括：

基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及

基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

4.如权利要求1所述的方法，其中所述提取每个图像的文本特征包括：

基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；

从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及

基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。

5.如权利要求4所述的方法，其中，创建所述文本特征空间包括：

统计该集合的文本关键词库中的每个文本关键词的出现频率；以及

选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。

6.一种用于寻找图像集合中的代表性图像的系统，包括：

文本特征提取器，被配置为基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；

多样性数据获取器，被配置为基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；

代表性分数计算器，被配置为基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及

代表性图像选择器，被配置为基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。

7.如权利要求6所述的系统，还包括：

视觉特征提取器，被配置为从该集合中的每个图像提取该图像的视觉特征；以及

显著性数据获取器，被配置为基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；

其中，所述代表性分数还基于所述显著性数据。

8.如权利要求6或7所述的系统，其中，所述代表性图像选择器包括：

排序器，被配置为基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及

选择器，被配置为基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。

9.如权利要求6所述的系统，其中所述文本特征提取器包括：

文本关键词库创建器，被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；

文本特征空间创建器，被配置为从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及

文本特征形成器，被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。

10.如权利要求9所述的系统，其中，所述文本特征空间创建器包括：

统计器，被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率；以及

文本关键词选择器，被配置为选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。