CN103853795A

CN103853795A - 一种基于n元模型的图片索引构建方法及装置

Info

Publication number: CN103853795A
Application number: CN201210522640.XA
Authority: CN
Inventors: 户保田; 陆平; 刘丽霞; 陈清才; 刘胜宇
Original assignee: ZTE Corp; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: ZTE Corp; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-11

Abstract

本发明公开了一种基于n元模型的图片索引构建方法及装置，涉及图像索引的结构与构建技术。本发明公开的方法包括：对带有文本标注的图片数据集进行预处理，从预处理后的图像数据集中提取“图像词元”；根据所提取的“图像词元”构建相应的包含图像n元的图像词典；根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元，建立基于n元模型的图片索引。本发明还公开了一种基于n元模型的图片索引构建装置。本申请技术方案避免了传统的图片索引结构中将图像的高维底层特征作为索引对象，同时避免了构建索引过程中复杂的降维处理过程。

Description

一种基于n元模型的图片索引构建方法及装置

技术领域

本发明涉及图像索引的结构与构建技术，具体涉及一种基于n元(n-gram)模型的图片索引构建方法及装置，主要应用于图像语义自动标注和图像检索领域。

背景技术

在基于内容的图片检索系统中，对大量图片建立一个有效而快速的索引，是一个困难而复杂的问题。传统的图片索引结构都是对图片提取不同的底层特征(一般包括，颜色，纹理特征等)，然后将相应的特征向量作为一个整体进行索引，而这些特征一般维数较大，因此传统的图片索引方法都是对图片底层高维特征进行索引的树状索引结构。这些索引结构随着图片数量的增加与图片特征维数的增加，其性能都会急剧下降。因此，传统的索引结构在对图像建立索引之前，都需要对图像的高维特征数据进行复杂的降维处理过程。

降维处理中较为常用的一种技术是主元分析(Principal ComponentAnalysis，PCA)方法。它通过构造一组新的潜隐变量降低原始数据空间的维数，再从新的映射空间抽取主要变化信息，提取统计特征，从而构成对原始数据空间特性的理解。新的映射空间的变量由原始数据变量的线性组合构成，从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交，消除了变量间的关联性，简化了原始过程特性分析的复杂程度。

对图片高维特征向量进行降维处理后，研究者提出了X-tree，VA-file和i-Distance图片索引结构与方法。由于这些方法将图像高维特征向量作为整体进行索引，并且没有充分考虑到图片的特征，其性能并不理想。针对图像数据的高维数据的特点，Berman等提出了图像数据存储系统FIDS(FlexibleImage Database System)。FIDS系统运用了“三角不等式”算法进行索引数据，从而极大的减少了需要进行与Query图片做比较的次数。而且FIDS允许用户在检索的过程中选择不同的相似度检索方法以及他们的组合对图片进行检索。但该方法仍然是将图片的高维特征向量作为整体进行索引，其索引结构相对复杂并且在建立索引的过程中需要复杂的降维处理过程。同时传统的图片索引结构，没能体现出带有语义标签的图像的底层特征与语义标签之前的关系。

发明内容

本发明所要解决的技术问题是，提供一种基于n-gram模型的图片索引构建方法及装置，以提高图片检索效率。

为了解决上述技术问题，本发明公开了一种基于n元模型的图片索引构建方法，包括：

对带有文本标注的图片数据集进行预处理，从预处理后的图像数据集中提取“图像词元”；

根据所提取的“图像词元”构建相应的包含图像n元的图像词典；

根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元，建立基于n元模型的图片索引。

较佳地，上述方法中，所述提取图像数据集的“图像词元”的过程如下：

将随机选取的图片元均匀切分为若干个图像小块；

提取所述图像小块的图像底层特征，将其多个底层特征进行融合，得到反应图像小块多种底层特征的特征向量；

对得到的每个图像小块的特征向量，进行聚类操作，选取代表相应簇类的典型数据点作为“图像词元”。

较佳地，上述方法中，根据所提取的“图像词元”构建相应的包含图像n元的图像词典的过程如下：

针对每一个“图像词元”，将与其相邻的n-1个“图像词元”构成一个“图像词元”序列，将所有“图像词元”序列作为一个项加入“图像词典”中，同时加入其长度小于n的其他“图像词元”序列，构成“图像词典”，n为大于1的整数。

较佳地，上述方法中，根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元指：

在建立索引的过程中，对索引的图片提取所述“图像词典”项，计算每个图片基于相应“图像词典”的词频-逆向文件频率(TF-IDF)特征向量。

较佳地，上述方法中，按照如下公式计算每个图片的基于相应“图像词典”的TF-IDF特征向量：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和；

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量。

本发明还公开了一种基于n元模型的图片索引构建装置，包括：

第一模块，对带有文本标注的图片数据集进行预处理，从预处理后的图像数据集中提取“图像词元”；

第二模块，根据所提取的“图像词元”构建相应的包含图像n元的图像词典；

第三模块，根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元，建立基于n元模型的图片索引。

较佳地，上述装置中，所述第一模块提取图像数据集的“图像词元”指：

将随机选取的图片元均匀切分为若干个图像小块；

较佳地，上述装置中，所述第二模块根据所提取的“图像词元”构建相应的包含图像n元的图像词典指：

较佳地，上述装置中，所述第三模块根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元指：

较佳地，上述装置中，所述第三模块按照如下公式计算每个图片的基于相应“图像词典”的TF-IDF特征向量：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和；

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量。

本申请技术方案避免了传统的图片索引结构中将图像的高维底层特征作为索引对象，同时避免了构建索引过程中复杂的降维处理过程，且考虑到语义标签与图像特征之间的内在联系，因此，更适应图像语义自动标注与图像检索应用系统的需求。

具体实施方式

图1为本实施例中以图像n-gram为索引，以语义标签和图像为索引内容的图像索引结构示例图；

图2为本实施例中以图像语义标签为索引，以图像n-gram和图像为索引内容的图像索引结构示例图

图3为本实施例基于n-gram模型构建图片索引的流程示意图；

图4为提取“图像词元”的流程图；

图5为图像切割以及提取图像n-gram的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是，在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

实施例1

为了避免传统的图片索引结构中将图像的高维底层特征作为索引对象，以及构建索引过程中复杂的降维处理过程，并同时考虑到语义标签与图像特征之间的内在联系。本案申请人想到一种基于n-gram模型的图片索引，该图片索引可包括两种索引结构：第一种是以图像n-gram为索引，以图像标注和图片为索引对象的索引结构，如图1所示；第二种是以图片标注为索引，以图像n-gram以及图片为索引对象的索引结构，如图2所示。这两种索引结构为同一索引系统中的两个部分，两者之间为并列互补关系。而本实施例即提供此种基于n-gram模型的图片索引的构建方法，该方法至少包括如下步骤：

第一步、对带有文本标注的图片数据集进行预处理，从预处理后的图像数据集中提取“图像词元”；

第二步、根据所提取的“图像词元”构建相应的包含图像n-gram的图像词典；

第三步、根据建立的图像词典，对带有文本标注的图片数据集中的图片进行切割以及提取相应的图像n-gram，从而建立基于n-gram模型的图片索引。

下面以bigram为例对上述图片索引的构建方法进行详细说明。

图片索引的具体构建过程如图3所示，包括如下步骤100至300：

步骤100：首先对带有文本标注的图片数据集进行预处理，预处理操作包括但不限于对图片进行归一化处理，以及对图片进行必要的格式转化。其次，从预处理后的图片数据集中随机选择一定量的图片学习“图像词元”。

学习“图像词元”可采用任意方式，在本实施例中，提供一种学习图像词元的具体过程，该过程如图4所示，包括如下步骤：

第一步、对选取的图片进行文本化切分，文本化切分的方式可以根据不同的应用需求进行设计。例如，可以根据不同应用对切分的小块大小，以及是否均匀与非均匀切分进行设计。

本实施例中给出的一种图片文本化切分方法的范例是将图片均匀分割成大小为m*n的图像小块，如图5所示，每一小块可以看作类似文本处理中的一个“单词”，而每幅图像可以看作相应的“文章”，对图片进行文本化切割的方法不限于此。

第二步、提取切分成的大小相等的图像小块的图像底层特征包括但不限于图像颜色特征，图像纹理特征。并将其多个底层特征进行融合，从而得到一个能反应图像小块多种底层特征的特征向量。

第三步，对得到的每个图像小块的特征向量，采用聚类方法(如k-means聚类方法)进行聚类操作，最后通过选取代表相应簇类的典型数据点作为“图像词元”。

对获取的“图像词元”赋予相应的编号(如图5)。本发明给出的一种实施例(如图4)，是通过对所有图像小块的特征向量做k-means聚类操作，预先确定聚类簇的数量，通过获取k-means聚类结果的质心得到“图像词元”。得到“图像词元”后，对数据集中的任一图像，进行和第一步相同的文本化切割过程，对得到的图像小块，计算与每个“图像词元”的距离，将其归为离其距离最近的“图像词元”。这样就可以将图像转化为包含不同“图像词元”的“文章”。

步骤200：根据步骤100得到的“图像词元”，对图像数据集中的图像进行文本化分割，对分割成的图像小块计算其属于的“图像词元”(如图5所示)。再根据“图像词元”构建图像词典”。

该步骤中，为了进一步表示图像的空间特征，加入了n-gram特征，即对于任一个“图像词元”，与其相邻的n-1个“图像词元”构成一个“图像词元”序列，将所有这些“图像词元”序列都作为一个项加入“图像词典”中，同时加入其长度小于n的其他“图像词元”序列，构成“图像词典”。例如，假设提取的“图像词元”为1、2、3，选取n为2，那么得到的“图像词典”包含的“图像词典”项为：(1)、(2)、(3)、(1，1)、(1，2)、(1，3)、(2，1)、(2，2)、(2，3)、(3，1)、(3，2)、(3，3)。对于提取“图像词元”数量为K，选用n为2的实施例中，“图像词典”包含的gram数量为K*K+K。

步骤300：在建立索引的过程中，首先需要对索引的图片提取由步骤200得到的“图像词典”项。计算每个图片基于相应“图像词典”的TF(TermFrequency Term Frequency，词频)-IDF(Inverse Document Frequency，逆向文件频率)特征向量，基于此TF-IDF特征向量，构建基于n-gram模型的图片索引。

如图5所示，在对图像进行提取图像n-gram的过程中，本实施例选取8个方向，如图5所示，可以提取的bigram为：(1，2)、(2，2)、(2，2)、(2，1)、(2，4)、(2，1)、(2，3)、(2，5)。提取“图像词典”的项后，计算每个图片的基于相应“图像词典”的TF-IDF特征向量。本实施例选择的如下方式计算：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和。

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量(即n_i，j≠0的文件数目)。

最后，根据图像数据集中的文本标签以及图像词典项，构建本实施例所描述的两种图片索引结构如图1和2所示即可。

需要说明的是，本实施例以bigram为例进行具体描述，但在实际应用中，不限于bigram。

下面再介绍一下按照上述方法构建图片索引后，进行图片检索的具体过程。

按照上述方法构建第一种索引结构、如图1所示，图中Mnode为主索引节点，主索引节点中为“图像词典”中的项，包括unigram和bigram，如图1所示，(1，1)为图像bigram，主索引节点索引的内容包括两部分：1、包含主索引节点中的“图像词典”项的所有图片的详细信息，以Mnode为例，其下索引的图片是包含“图像词典”项(1，1)的所有图片的详细信息；2、包含文本标注标签(sun)以及其对应权值(Lweightsun)的子索引节点(Cnode1)。以Cnode1为例，子索引节点中包括图像数据中出现的文本标签sun以及通过计算得到的对应权值Lweightsun。Lweightsun反应的是主索引节点中的“图像词典”项与子索引节点中的文本标签的关系，具体计算可以根据不同的应用进行设计。子索引节点下索引的是既包含主索引节点(Mnode)中的“图像词典”项同时又带有子索引节点中的文本标签的所有图片的详细信息，以Cnode1为例，其下索引的图片包含(1，1)“图像词典”项，同时又带有sun标签。

按照上述方法构建第二种索引结构、如图2所示，图中Mnode为主索引节点，主索引节点中为图片数据集中的文本标签，如图2所示，sun为图像数据集中的一个文本标签。主索引节点索引的内容包括两部分：1、数据集中带有此文本标签的所有图片的详细信息，以Mnode为例，其下索引的内容是所有包含文本标签sun的图片详细信息；2、包含相应“图像词典”项((1))以及其对应权值(Nweightsun)的子索引节点(Cnode1)。以Cnode1为例，子索引节点中包括“图像词典”中的(1)以及通过计算得到的对应权值Nweight(1)。Nweight(1)反应的是主索引节点中的文本标签项与子索引节点中的“图像词典”项的潜层关系，具体计算可以根据不同的应用进行设计。子索引节点下索引的是既带有主索引节点(Mnode)中的文本标签，同时又包含子索引节点中的“图像词典”项的所有图片的详细信息，以Cnode1为例，其下索引的图片带有sun文本标签，同时又包含(1)“图像词典”项。

实施例2

本实施例介绍一种基于n-gram模型的图片索引构建装置。此装置至少包括第一模块、第二模块和第三模块。

上述第一模块提取图像数据集的“图像词元”的过程如下：

1、将随机选取的图片元均匀切分为若干个图像小块；

2、提取所述图像小块的图像底层特征，将其多个底层特征进行融合，得到反应图像小块多种底层特征的特征向量；

3、对得到的每个图像小块的特征向量，进行聚类操作，选取代表相应簇类的典型数据点作为“图像词元”

第二模块，根据所提取的“图像词元”构建相应的包含图像n-gram的图像词典；

上述第二模块根据所提取的“图像词元”构建相应的包含图像n-gram的图像词典的过程如下：

针对每一个“图像词元”，将与其相邻的n-1个“图像词元”构成一个“图像词元”序列，将所有“图像词元”序列作为一个项加入“图像词典”中，同时加入其长度小于n的其他“图像词元”序列，构成“图像词典”，其中，n为大于1的整数。

第三模块，根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n-gram，建立基于n-gram模型的图片索引。

其中，第三模块根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n-gram是指，在建立索引的过程中，对索引的图片提取所述“图像词典”项，计算每个图片基于相应“图像词典”的TF-IDF特征向量。

具体地，第三模块可按照如下公式计算每个图片的基于相应“图像词典”的TF-IDF特征向量：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和；

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量。

需要说明的是，在实际应用中，上述第三模块计算“图像词典”的TF-IDF特征向量的方式不限于上述公式，也可采用其他公式计算。

从上述实施例可以看出，本申请技术方案应用于图像自动语义标注中，能快速、高效的挖掘出丰富的图像语义标注。本申请技术方案应用于图像检索系统中，可以有效的将基于文本的图片检索和基于内容的图片检索方式结合起来，并且有效的提高检索效率和效果。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于n元模型的图片索引构建方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述提取图像数据集的“图像词元”的过程如下：

将随机选取的图片元均匀切分为若干个图像小块；

3.如权利要求1或2所述的方法，其特征在于，根据所提取的“图像词元”构建相应的包含图像n元的图像词典的过程如下：

4.如权利要求3所述的方法，其特征在于，根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元指：

5.如权利要求4所述的方法，其特征在于，按照如下公式计算每个图片的基于相应“图像词典”的TF-IDF特征向量：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和；

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量。

6.一种基于n元模型的图片索引构建装置，其特征在于，该装置包括：

7.如权利要求6所述的装置，其特征在于，所述第一模块提取图像数据集的“图像词元”指：

将随机选取的图片元均匀切分为若干个图像小块；

8.如权利要求6或7所述的装置，其特征在于，所述第二模块根据所提取的“图像词元”构建相应的包含图像n元的图像词典指：

9.如权利要求8所述的装置，其特征在于，所述第三模块根据所构建的图像词典，对带有文本标注的图片数据集中的图片进行切割，提取相应的图像n元指：

10.如权利要求9所述的装置，其特征在于，所述第三模块按照如下公式计算每个图片的基于相应“图像词典”的TF-IDF特征向量：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

式中n_i，j——“图像词典”项在图像d_j中的出现频数；

∑_kn_k，j——图像d_j中所有项出现频数总和；

{idf}_{i} = \log \frac{| D |}{1 + | {j : t_{i} &Element; d_{j}} |}

式中|D|——图片库的图像总数；

|{j：t_i∈d_j}|——包含该“图像词典”项t_i的图像数量。