CN108563777A

CN108563777A - 一种获得图像表示的方法和装置

Info

Publication number: CN108563777A
Application number: CN201810372629.7A
Authority: CN
Inventors: 马福强; 崔利阳; 薛鸿臻; 刘小磊
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-09-21

Abstract

本发明提供了一种获得图像表示的方法和装置。提取目标图像的第一视觉特征；根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列；其中，所述视觉词典为依据训练图像进行至少两次聚类分析后获得；对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。本发明实施例充分利用了训练图像中的视觉特征，因此可以提升图像检索的精度，从而提高图像检索系统的应用灵活性。

Description

一种获得图像表示的方法和装置

技术领域

本发明涉及图像检索技术领域，特别是涉及一种获得图像表示的方法和装置。

背景技术

基于内容的大规模图像检索，其基本概念是给定一张图像，可以从特定图像库中检索出与给定图像相同或相似的图像或图像集合。图像检索技术已经成为一种重要的信息检索方式，商用的图像检索系统展现了极为可观的应用前景。

图像检索的主要流程包括提取图像特征，构建图像表达，判断图像相似性等。目前针对视觉特征的算法模型存在视觉特征利用不充分、检索精度不均衡等问题，影响了图像检索系统的应用灵活性。

发明内容

本发明提供一种获得图像表示的方法和装置，以解决现有技术视觉特征利用不充分的问题。

为了解决上述问题，本发明公开了一种获得图像表示的方法，所述方法包括：

提取目标图像的第一视觉特征；

根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列；其中，所述视觉词典为依据训练图像进行至少两次聚类分析后获得；

对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。

可选地，所述根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列，包括：

根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，所述视觉词典中包含经过所述至少两次聚类分析获得的视觉单词。

可选地，在所述根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列之前，所述方法还包括：

获得所述视觉词典；

所述获得所述视觉词典，包括：

提取所述训练图像的多个第二视觉特征；

对所述多个第二视觉特征进行第一聚类分析，获得由k1个第一视觉单词构成的第一视觉词典；

根据所述第一视觉词典，分别查找各所述第二视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第一残差向量；

对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析，获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典；

其中，k1和k2为正整数。

可选地，所述确定各所述第一视觉单词对应的第一残差向量，包括：

分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量；

根据计算得到的所述残差向量，确定各所述第一视觉单词对应的所述第一残差向量。

可选地，所述根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，包括：

根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典，得到各所述第一视觉单词对应的第一长矢量；

根据所述第一视觉词典和所述第一长矢量，得到所述目标图像的第二长矢量。

可选地，所述根据所述第一视觉特征、所述第一层视觉词典和所述第二层视觉词典，得到各所述第一视觉单词对应的第一长矢量，包括：

根据所述第一视觉词典，分别查找各所述第一视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第二残差向量；

针对所述第一视觉单词对应的所述第二视觉词典，计算所述k2个第二视觉单词与所述第二残差向量的残差向量，并对各所述第二视觉单词对应的残差向量求和，得到k2个第三残差向量；

按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序，将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。

可选地，所述根据所述第一视觉词典和所述第一长矢量，得到所述目标图像的第二长矢量，包括：

按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序，将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。

可选地，所述方法还包括：

获取测试图像的第二图像表示向量；

计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度；

查找所述相似度满足预设条件的目标检索图像；

比对所述测试图像和所述目标检索图像，输出测试结果。

本发明实施例还公开了一种获得图像表示的装置，所述装置包括：

视觉特征提取模块，用于提取目标图像的第一视觉特征；

编码序列获得模块，用于根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列；其中，所述视觉词典为依据训练图像进行至少两次聚类分析后获得；

图像表示向量获得模块，用于对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。

可选地，所述编码序列获得模块，具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。

可选地，在所述编码序列获得模块之前，所述装置还包括：

视觉词典获得模块，用于获得所述视觉词典；

所述视觉词典获得模块包括：

视觉特征提取子模块，用于提取所述训练图像的多个第二视觉特征；

第一视觉词典获得子模块，用于对所述多个第二视觉特征进行第一聚类分析，获得由k1个第一视觉单词构成的第一视觉词典；

第一残差向量获得子模块，用于根据所述第一视觉词典，分别查找各所述第二视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第一残差向量；

第二视觉词典获得子模块，用于对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析，获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典；

其中，k1和k2为正整数；

所述第一残差向量获得子模块包括：

第一残差向量计算单元，用于分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量；

第一残差向量确定单元，根据计算得到的所述残差向量，确定各所述第一视觉单词对应的所述第一残差向量。

可选地，所述编码序列获得模块包括：

第一长矢量获得子模块，用于根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典，得到各所述第一视觉单词对应的第一长矢量；

第二长矢量获得子模块，用于根据所述第一视觉词典和所述第一长矢量，得到所述目标图像的第二长矢量。

可选地，所述第一长矢量获得子模块包括：

第二残差向量计算单元，用于根据所述第一视觉词典，分别查找各所述第一视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第二残差向量；

第三残差向量计算单元，用于针对所述第一视觉单词对应的所述第二视觉词典，计算所述k2个第二视觉单词与所述第二残差向量的残差向量，并对各所述第二视觉单词对应的残差向量求和，得到k2个第三残差向量；

第一长矢量获得单元，用于按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序，将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。

可选地，所述第二长矢量获得子模块，具体用于按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序，将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。

可选地，所述装置还包括：

图像表示向量获取模块，用于获取测试图像的第二图像表示向量；

相似度计算模块，用于计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度；

目标检索图像查找单元，用于查找所述相似度满足预设条件的目标检索图像；

测试结果输出单元，用于比对所述测试图像和所述目标检索图像，输出测试结果。

与现有技术相比，本发明包括以下优点：

本发明实施例中，提取目标图像的第一视觉特征，根据预先获得的视觉词典对第一视觉特征进行编码，获得编码序列；对编码序列进行简化处理，获得目标图像的第一图像表示向量。其中，视觉词典是依据训练图像进行至少两次聚类分析后获得的，充分利用了训练图像中的视觉特征，因此可以提升图像检索的精度，从而提高图像检索系统的应用灵活性。

附图说明

图1示出了本发明实施例一的一种获得图像表示的方法的步骤流程图；

图2示出了本发明实施例二的一种获得图像表示的方法的步骤流程图；

图3示出了本发明实施例三的一种获得图像表示的装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了本发明实施例提供的一种获得图像表示的方法的步骤流程图。所述方法包括：

步骤101，提取目标图像的第一视觉特征。

本实施例中，进行图像检索时，图像数据库中的任意一个图像都可以作为目标图像。提取目标图像的第一视觉特征，具体地，可以采用SIFT(Scale-invariant featuretransform，尺度不变特征转换)、SURF(Speeded Up Robust Features，加速稳健特征)、ORB中的至少一种算法，对图像提取视觉特征，每个目标图像可以提取多个第一视觉特征。例如，目标图像A提取到第一视觉特征a1、a2、a3……an，n为正整数。本发明实施例对第一视觉特征的数量不作详细限定，可以根据实际情况进行设置。第一视觉特征能够表征该目标图像中的颜色特征、线条特征、形状特征等。

步骤102，根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列；其中，所述视觉词典为依据训练图像进行至少两次聚类分析后获得。

本实施例中，预先依据训练图像进行至少两次聚类分析，获得视觉词典；根据获得的视觉词典对第一视觉特征进行编码，获得目标图像的编码序列。具体地，可以根据视觉词典与第一视觉特征之间的关系、视觉词典的层数，以及特定公式对第一视觉特征进行编码。例如，视觉词典分为两层，第一层的视觉词典中有视觉单词c1、c2、c3、c4，第二层的视觉词典中有d1、d2、d3，则可以根据a1与c1、c2、c3、c4之间的关系及特定公式对a1进行编码，再根据a1与d1、d2、d3的关系及特定公式的进行编码。本发明实施例对编码规则不作详细限定，可以根据实际情况进行设置。

步骤103，对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。

本实施例中，编码是将单幅图像进行高维化，将单幅图像转化为高维空间中的数据集合，该图像集合作为图像表示比较复杂，因此可以对其进行降维等简化处理，得到高维数据的一维表示向量，将其作为目标图像的第一图像表示向量。简化处理还可以包括其他方式，本发明实施例对此不作详细限定，可以根据实际情况进行选取。

综上所述，本发明实施例中，提取目标图像的第一视觉特征，根据预先获得的视觉词典对第一视觉特征进行编码，获得编码序列；对编码序列进行简化处理，获得目标图像的第一图像表示向量。其中，视觉词典是依据训练图像进行至少两次聚类分析后获得的，充分利用了训练图像中的视觉特征，因此可以提升图像检索的精度，从而提高图像检索系统的应用灵活性。

实施例二

参照图2，示出了本发明实施例提供的一种获得图像表示的方法的步骤流程图。所述方法包括：

步骤201，提取目标图像的第一视觉特征。

步骤202，获得所述视觉词典。

本实施例中，依据训练图像进行至少两次聚类分析获得视觉词典，具体可以包括步骤2021至步骤2024：

步骤2021，提取所述训练图像的多个第二视觉特征。

其中，提取训练图像的第二视觉特征与提取目标图像的第一视觉特征的过程类似，每个训练图像可以对应多个第二视觉特征。本发明实施例对第二视觉特征的维度不作详细限定，可以根据实际情况进行设置。

步骤2022，对所述多个第二视觉特征进行第一聚类分析，获得由k1个第一视觉单词构成的第一视觉词典。

具体地，针对一个训练图像，可以对该训练图像的所有第二视觉特征采用k-means算法进行聚类分析，设置聚类中心的数量为k1，则可以得到k1个第一视觉单词，由这k1个第一视觉单词构成第一视觉词典。在聚类分析之前，可以对视觉特征进行预处理，比如去均值处理，以提高检索精度。

步骤2023，根据所述第一视觉词典，分别查找各所述第二视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第一残差向量。

具体地，分别计算各第二视觉特征与k1个第一视觉单词的距离，计算距离的方式可以采用余弦距离、欧式距离、汉明距离等，本发明实施例对此不作详细限定，可以根据实际情况进行设置。根据计算得到的距离，查找到各第二视觉特征距离最近的第一视觉单词；分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量；根据计算得到的所述残差向量，确定各所述第一视觉单词对应的所述第一残差向量。在查找各第二视觉特征距离最近的第一视觉单词时，可能出现多个第二视觉特征与同一个第一视觉单词距离最近，因此在计算第二视觉特征与第一视觉单词的残差向量时，可以得到多个残差向量对应同一个第一视觉单词。对多个残差向量进行统计，可以确定各第一视觉单词对应的第一残差向量。

步骤2024，对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析，获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典；其中，k1和k2为正整数。

具体地，一个第一视觉单词对应多个第一残差向量，针对各个第一视觉单词，对第一残差向量进行第二聚类分析，设置聚类中心的数量为k2，得到k2个第二视觉单词。也就是说，每个第一视觉单词均对应一个由k2个第二视觉单词构成第二视觉词典，则第二层的视觉词典中共有k1×k2个第二视觉单词。

步骤203，根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。

本实施例中，根据第一视觉特征，第一视觉词典、第二视觉词典和第一残差向量，形成目标图像的编码序列，具体可以包括步骤2031至2032：

步骤2031，根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典，得到各所述第一视觉单词对应的第一长矢量。具体可以包括如下步骤：

子步骤一，根据所述第一视觉词典，分别查找各所述第一视觉特征距离最近的第一视觉单词，并确定各所述第一视觉单词对应的第二残差向量。步骤2023中已说明如何查找距离最近的第一视觉单词的过程，在此不再赘述。查找到各第一视觉特征距离最近的第一视觉单词后，可以计算各第一视觉特征与k1个第一视觉单词的残差向量，对计算得到的多个残差向量进行统计，可以得到各第一视觉单词对应的第二残差向量。

子步骤二，针对所述第一视觉单词对应的所述第二视觉词典，计算所述k2个第二视觉单词与所述第二残差向量的残差向量，并对各所述第二视觉单词对应的残差向量求和，得到k2个第三残差向量。具体地，一个第一视觉单词对应一个第二视觉词典，该第一视觉单词对应多个第二残差向量，该第二视觉词典中包括k2个第二视觉单词。可以计算一个第二视觉单词与多个第二残差向量的残差向量，并对计算得到的残差向量求和，得到一个第二视觉单词对应的一个第三残差向量。以此类推，可以计算得到k2个第二视觉单词对应的k2个第三残差向量。在对残差向量求和后还可以对得到的残差向量做归一化处理，便于后续的计算。

子步骤三，按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序，将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。具体地，每个第三残差向量均对应一个第二视觉单词，将k2个第三残差向量按照对应的第二视觉单词的索引顺序链接为一个长矢量。由于一个第二视觉词典对应一个第一视觉单词，因此针对一个第二视觉词典组合得到一个长矢量也就是第一视觉单词对应的第一长矢量。

步骤2032，根据所述第一视觉词典和所述第一长矢量，得到所述目标图像的第二长矢量。

根据上述得到的第一长矢量，以及第一视觉词典，可以获得编码序列。具体地，按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序，将所述第一视觉特征对应的所述第一长矢量组合为所述第二长矢量。

步骤204，对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。

本实施例中，对第二长矢量进行PCA((principal component analysis，主成分分析)降维，得到目标图像的第一图像表示向量。

步骤205，获取测试图像的第二图像表示向量。

本实施例中，对目标图像的第一图像表示向量进行准确性测试，首先给定一个测试图像，按照上述步骤获取该测试图像的第二图像表示向量。

步骤206，计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度。

本实施例中，图像数据库中包括多个检索图像，各检索图像的图像表示向量可以由上述步骤获得。计算第二图像表示向量与多个检索图像的图像表示向量的相似度。具体地，可以计算第二图像表示向量与多个检索图像的图像表示向量的余弦距离。例如，获得5个检索图像A、B、X、Y、Z的图像表示向量分别为F1、F2、F3、F4、F5，测试图像的第二图像表示向量为F6，分别计算F6与F1、F2、F3、F4、F5的余弦距离。

步骤207，查找所述相似度满足预设条件的目标检索图像。

本实施例中，预设条件可以是大于90％，也可以是大于80％，本发明实施例对预设条件不作详细限定，可以根据实际情况进行设置。在多个检索图像中，将相似度满足预设条件的作为目标检索图像。例如，检索图像A、B、Z的相似度满足预设条件，为目标检索图像。

步骤208，比对所述测试图像和所述目标检索图像，输出测试结果

本实施例中，比对方式可以是查找目标检索图像中是否包含测试图像，也可以是查找目标检索图像中是否包含设定图像，本发明实施例对此不作详细限定，可以根据实际情况进行设置。最后，输出测试结果，例如目标检索图像A、B、Z中包含设定图像A和B，图像表示向量准确；或者目标检索图像A、B、Z中不包含设定图像C，图像表示向量需要修正。

本发明实施例对获得视觉词典的举例如下：

步骤301，提取训练图像B的多个第二视觉特征为b1、b2、b3、b4；

步骤302，对b1、b2、b3、b4进行聚类分析，k1设置为2，则得到由2个第一视觉单词c1、c2构成的第一视觉词典。

步骤303，计算第二视觉特征b1与第一视觉单词c1、c2的距离，其中第一视觉单词c1与b1距离最近，计算b1与c1的残差，得到残差向量e1；计算第二视觉特征b2与第一视觉单词c1、c2的距离，其中第一视觉单词c1与b2距离最近，计算b2与c1的残差，得到残差向量e2；计算第二视觉特征b3与第一视觉单词c1、c2的距离，其中第一视觉单词c2与b3距离最近，计算b3与c2的残差，得到残差向量e3；计算第二视觉特征b4与第一视觉单词c1、c2的距离，其中第一视觉单词c2与b4距离最近；计算b4与c2的残差，得到残差向量e4。

根据上述计算得到的残差向量e1、e2、e3、e4，确定第一视觉单词c1对应的第一残差向量为e1、e2，第一视觉单词c2对应的第一残差向量为e3、e4。

步骤304，设置聚类中心的数量为2，对第一视觉单词c1对应的第一残差向量e1、e2进行第二聚类分析，得到2个第二视觉单词d1、d2构成的第二视觉词典。

对第一视觉单词c2对应的第一残差向量e3、e4进行第二聚类分析，得到2个第二视觉单词d3、d4构成的第二视觉词典。

本发明实施例对形成编码序列进行举例如下：

步骤305，提取目标图像A的第一视觉特征a1、a2、a3、a4。

步骤306，计算第一视觉特征a1与第一视觉单词c1、c2的距离，c1与a1距离最近，计算a1与c1的残差，得到残差向量f1；计算第一视觉特征a2与第一视觉单词c1、c2的距离，c1与a2距离距离最近，计算a2与c1的残差，得到残差向量f2；计算第一视觉特征a3与第一视觉单词c1、c2的距离，c2与a3距离最近，计算a3与c2的残差，得到残差向量f3；计算第一视觉特征a4与第一视觉单词c1、c2的距离，c2与a4距离最近，计算a4与c2的残差，得到残差向量f4。

根据上述计算得到的残差向量，确定第一视觉单词c1对应的第二残差向量为f1、f2；第一视觉单词c2对应的第二残差向量为f3、f4。

步骤307，第一视觉单词c1对应的第二视觉词典中有2个第二视觉单词d1、d2，计算第二视觉单词d1与f1、f2的残差得到残差向量g1、g2，求和得到第三残差向量g1+g2；计算第二视觉单词d2与f1、f2的残差得到残差向量g3、g4，求和得到第三残差向量g3+g4。

步骤308，按照第二视觉单词d1、d2在第二视觉词典中的索引顺序，对第三残差向量进行链接，组成第一视觉单词c1对应的第一长矢量[(g1+g2),(g3+g4)]。

以此类推，可以得到第一视觉单词c2对应的第一长矢量[(g5+g6),(g7+g8)]。

步骤309，按照第一视觉单词c1、c2在第一视觉词典中的索引顺序，对[(g1+g2),(g3+g4)]、[(g5+g6),(g7+g8)]进行链接，组成第二长矢量[(g1+g2),(g3+g4),(g5+g6),(g7+g8)]。

实施例三

参照图3，示出了本发明实施例提供的一种获得图像表示的装置。所述装置包括：

视觉特征提取模块401，用于提取目标图像的第一视觉特征；

编码序列获得模块402，用于根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列；其中，所述视觉词典为依据训练图像进行至少两次聚类分析后获得；

图像表示向量获得模块403，用于对所述编码序列进行简化处理，获得所述目标图像的第一图像表示向量。

可选地，所述编码序列获得模块402，具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。

可选地，在所述编码序列获得模块402之前，所述装置还包括：

视觉词典获得模块，用于获得所述视觉词典；

所述视觉词典获得模块包括：

其中，k1和k2为正整数；

所述第一残差向量获得子模块包括：

可选地，所述编码序列获得模块包括：

可选地，所述第一长矢量获得子模块包括：

可选地，所述装置还包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种获得图像表示的方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种获得图像表示的方法，其特征在于，所述方法包括：

提取目标图像的第一视觉特征；

2.根据权利要求1所述的方法，其特征在于，所述根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列，包括：

3.根据权利要求2所述的方法，其特征在于，在所述根据预先获得的视觉词典对所述第一视觉特征进行编码，获得编码序列之前，所述方法还包括：

获得所述视觉词典；

所述获得所述视觉词典，包括：

提取所述训练图像的多个第二视觉特征；

其中，k1和k2为正整数。

4.根据权利要求3所述的方法，其特征在于，所述确定各所述第一视觉单词对应的第一残差向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一视觉特征、所述第一层视觉词典和所述第二层视觉词典，得到各所述第一视觉单词对应的第一长矢量，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一视觉词典和所述第一长矢量，得到所述目标图像的第二长矢量，包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取测试图像的第二图像表示向量；

查找所述相似度满足预设条件的目标检索图像；

比对所述测试图像和所述目标检索图像，输出测试结果。

9.一种获得图像表示的装置，其特征在于，所述装置包括：

视觉特征提取模块，用于提取目标图像的第一视觉特征；

10.根据权利要求9所述的装置，其特征在于，

所述编码序列获得模块，具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量，形成所述目标图像的编码序列，所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。

11.根据权利要求10所述的装置，其特征在于，在所述编码序列获得模块之前，所述装置还包括：

视觉词典获得模块，用于获得所述视觉词典；

所述视觉词典获得模块包括：

其中，k1和k2为正整数；

所述第一残差向量获得子模块包括：

12.根据权利要求11所述的装置，其特征在于，所述编码序列获得模块包括：

13.根据权利要求12所述的装置，其特征在于，所述第一长矢量获得子模块包括：

14.根据权利要求13所述的装置，其特征在于，

所述第二长矢量获得子模块，具体用于按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序，将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。

15.根据权利要求9至14中任一项所述的装置，其特征在于，所述装置还包括：