CN108563777A - 一种获得图像表示的方法和装置 - Google Patents

一种获得图像表示的方法和装置 Download PDF

Info

Publication number
CN108563777A
CN108563777A CN201810372629.7A CN201810372629A CN108563777A CN 108563777 A CN108563777 A CN 108563777A CN 201810372629 A CN201810372629 A CN 201810372629A CN 108563777 A CN108563777 A CN 108563777A
Authority
CN
China
Prior art keywords
look
vector
word
dictionary
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810372629.7A
Other languages
English (en)
Inventor
马福强
崔利阳
薛鸿臻
刘小磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Optoelectronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Optoelectronics Technology Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201810372629.7A priority Critical patent/CN108563777A/zh
Publication of CN108563777A publication Critical patent/CN108563777A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供了一种获得图像表示的方法和装置。提取目标图像的第一视觉特征;根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。本发明实施例充分利用了训练图像中的视觉特征,因此可以提升图像检索的精度,从而提高图像检索系统的应用灵活性。

Description

一种获得图像表示的方法和装置
技术领域
本发明涉及图像检索技术领域,特别是涉及一种获得图像表示的方法和装置。
背景技术
基于内容的大规模图像检索,其基本概念是给定一张图像,可以从特定图像库中检索出与给定图像相同或相似的图像或图像集合。图像检索技术已经成为一种重要的信息检索方式,商用的图像检索系统展现了极为可观的应用前景。
图像检索的主要流程包括提取图像特征,构建图像表达,判断图像相似性等。目前针对视觉特征的算法模型存在视觉特征利用不充分、检索精度不均衡等问题,影响了图像检索系统的应用灵活性。
发明内容
本发明提供一种获得图像表示的方法和装置,以解决现有技术视觉特征利用不充分的问题。
为了解决上述问题,本发明公开了一种获得图像表示的方法,所述方法包括:
提取目标图像的第一视觉特征;
根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;
对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
可选地,所述根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列,包括:
根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析获得的视觉单词。
可选地,在所述根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列之前,所述方法还包括:
获得所述视觉词典;
所述获得所述视觉词典,包括:
提取所述训练图像的多个第二视觉特征;
对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典;
根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量;
对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;
其中,k1和k2为正整数。
可选地,所述确定各所述第一视觉单词对应的第一残差向量,包括:
分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;
根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。
可选地,所述根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,包括:
根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量;
根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
可选地,所述根据所述第一视觉特征、所述第一层视觉词典和所述第二层视觉词典,得到各所述第一视觉单词对应的第一长矢量,包括:
根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量;
针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量;
按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。
可选地,所述根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量,包括:
按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。
可选地,所述方法还包括:
获取测试图像的第二图像表示向量;
计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度;
查找所述相似度满足预设条件的目标检索图像;
比对所述测试图像和所述目标检索图像,输出测试结果。
本发明实施例还公开了一种获得图像表示的装置,所述装置包括:
视觉特征提取模块,用于提取目标图像的第一视觉特征;
编码序列获得模块,用于根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;
图像表示向量获得模块,用于对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
可选地,所述编码序列获得模块,具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。
可选地,在所述编码序列获得模块之前,所述装置还包括:
视觉词典获得模块,用于获得所述视觉词典;
所述视觉词典获得模块包括:
视觉特征提取子模块,用于提取所述训练图像的多个第二视觉特征;
第一视觉词典获得子模块,用于对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典;
第一残差向量获得子模块,用于根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量;
第二视觉词典获得子模块,用于对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;
其中,k1和k2为正整数;
所述第一残差向量获得子模块包括:
第一残差向量计算单元,用于分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;
第一残差向量确定单元,根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。
可选地,所述编码序列获得模块包括:
第一长矢量获得子模块,用于根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量;
第二长矢量获得子模块,用于根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
可选地,所述第一长矢量获得子模块包括:
第二残差向量计算单元,用于根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量;
第三残差向量计算单元,用于针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量;
第一长矢量获得单元,用于按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。
可选地,所述第二长矢量获得子模块,具体用于按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。
可选地,所述装置还包括:
图像表示向量获取模块,用于获取测试图像的第二图像表示向量;
相似度计算模块,用于计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度;
目标检索图像查找单元,用于查找所述相似度满足预设条件的目标检索图像;
测试结果输出单元,用于比对所述测试图像和所述目标检索图像,输出测试结果。
与现有技术相比,本发明包括以下优点:
本发明实施例中,提取目标图像的第一视觉特征,根据预先获得的视觉词典对第一视觉特征进行编码,获得编码序列;对编码序列进行简化处理,获得目标图像的第一图像表示向量。其中,视觉词典是依据训练图像进行至少两次聚类分析后获得的,充分利用了训练图像中的视觉特征,因此可以提升图像检索的精度,从而提高图像检索系统的应用灵活性。
附图说明
图1示出了本发明实施例一的一种获得图像表示的方法的步骤流程图;
图2示出了本发明实施例二的一种获得图像表示的方法的步骤流程图;
图3示出了本发明实施例三的一种获得图像表示的装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明实施例提供的一种获得图像表示的方法的步骤流程图。所述方法包括:
步骤101,提取目标图像的第一视觉特征。
本实施例中,进行图像检索时,图像数据库中的任意一个图像都可以作为目标图像。提取目标图像的第一视觉特征,具体地,可以采用SIFT(Scale-invariant featuretransform,尺度不变特征转换)、SURF(Speeded Up Robust Features,加速稳健特征)、ORB中的至少一种算法,对图像提取视觉特征,每个目标图像可以提取多个第一视觉特征。例如,目标图像A提取到第一视觉特征a1、a2、a3……an,n为正整数。本发明实施例对第一视觉特征的数量不作详细限定,可以根据实际情况进行设置。第一视觉特征能够表征该目标图像中的颜色特征、线条特征、形状特征等。
步骤102,根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得。
本实施例中,预先依据训练图像进行至少两次聚类分析,获得视觉词典;根据获得的视觉词典对第一视觉特征进行编码,获得目标图像的编码序列。具体地,可以根据视觉词典与第一视觉特征之间的关系、视觉词典的层数,以及特定公式对第一视觉特征进行编码。例如,视觉词典分为两层,第一层的视觉词典中有视觉单词c1、c2、c3、c4,第二层的视觉词典中有d1、d2、d3,则可以根据a1与c1、c2、c3、c4之间的关系及特定公式对a1进行编码,再根据a1与d1、d2、d3的关系及特定公式的进行编码。本发明实施例对编码规则不作详细限定,可以根据实际情况进行设置。
步骤103,对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
本实施例中,编码是将单幅图像进行高维化,将单幅图像转化为高维空间中的数据集合,该图像集合作为图像表示比较复杂,因此可以对其进行降维等简化处理,得到高维数据的一维表示向量,将其作为目标图像的第一图像表示向量。简化处理还可以包括其他方式,本发明实施例对此不作详细限定,可以根据实际情况进行选取。
综上所述,本发明实施例中,提取目标图像的第一视觉特征,根据预先获得的视觉词典对第一视觉特征进行编码,获得编码序列;对编码序列进行简化处理,获得目标图像的第一图像表示向量。其中,视觉词典是依据训练图像进行至少两次聚类分析后获得的,充分利用了训练图像中的视觉特征,因此可以提升图像检索的精度,从而提高图像检索系统的应用灵活性。
实施例二
参照图2,示出了本发明实施例提供的一种获得图像表示的方法的步骤流程图。所述方法包括:
步骤201,提取目标图像的第一视觉特征。
步骤202,获得所述视觉词典。
本实施例中,依据训练图像进行至少两次聚类分析获得视觉词典,具体可以包括步骤2021至步骤2024:
步骤2021,提取所述训练图像的多个第二视觉特征。
其中,提取训练图像的第二视觉特征与提取目标图像的第一视觉特征的过程类似,每个训练图像可以对应多个第二视觉特征。本发明实施例对第二视觉特征的维度不作详细限定,可以根据实际情况进行设置。
步骤2022,对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典。
具体地,针对一个训练图像,可以对该训练图像的所有第二视觉特征采用k-means算法进行聚类分析,设置聚类中心的数量为k1,则可以得到k1个第一视觉单词,由这k1个第一视觉单词构成第一视觉词典。在聚类分析之前,可以对视觉特征进行预处理,比如去均值处理,以提高检索精度。
步骤2023,根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量。
具体地,分别计算各第二视觉特征与k1个第一视觉单词的距离,计算距离的方式可以采用余弦距离、欧式距离、汉明距离等,本发明实施例对此不作详细限定,可以根据实际情况进行设置。根据计算得到的距离,查找到各第二视觉特征距离最近的第一视觉单词;分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。在查找各第二视觉特征距离最近的第一视觉单词时,可能出现多个第二视觉特征与同一个第一视觉单词距离最近,因此在计算第二视觉特征与第一视觉单词的残差向量时,可以得到多个残差向量对应同一个第一视觉单词。对多个残差向量进行统计,可以确定各第一视觉单词对应的第一残差向量。
步骤2024,对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;其中,k1和k2为正整数。
具体地,一个第一视觉单词对应多个第一残差向量,针对各个第一视觉单词,对第一残差向量进行第二聚类分析,设置聚类中心的数量为k2,得到k2个第二视觉单词。也就是说,每个第一视觉单词均对应一个由k2个第二视觉单词构成第二视觉词典,则第二层的视觉词典中共有k1×k2个第二视觉单词。
步骤203,根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。
本实施例中,根据第一视觉特征,第一视觉词典、第二视觉词典和第一残差向量,形成目标图像的编码序列,具体可以包括步骤2031至2032:
步骤2031,根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量。具体可以包括如下步骤:
子步骤一,根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量。步骤2023中已说明如何查找距离最近的第一视觉单词的过程,在此不再赘述。查找到各第一视觉特征距离最近的第一视觉单词后,可以计算各第一视觉特征与k1个第一视觉单词的残差向量,对计算得到的多个残差向量进行统计,可以得到各第一视觉单词对应的第二残差向量。
子步骤二,针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量。具体地,一个第一视觉单词对应一个第二视觉词典,该第一视觉单词对应多个第二残差向量,该第二视觉词典中包括k2个第二视觉单词。可以计算一个第二视觉单词与多个第二残差向量的残差向量,并对计算得到的残差向量求和,得到一个第二视觉单词对应的一个第三残差向量。以此类推,可以计算得到k2个第二视觉单词对应的k2个第三残差向量。在对残差向量求和后还可以对得到的残差向量做归一化处理,便于后续的计算。
子步骤三,按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。具体地,每个第三残差向量均对应一个第二视觉单词,将k2个第三残差向量按照对应的第二视觉单词的索引顺序链接为一个长矢量。由于一个第二视觉词典对应一个第一视觉单词,因此针对一个第二视觉词典组合得到一个长矢量也就是第一视觉单词对应的第一长矢量。
步骤2032,根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
根据上述得到的第一长矢量,以及第一视觉词典,可以获得编码序列。具体地,按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉特征对应的所述第一长矢量组合为所述第二长矢量。
步骤204,对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
本实施例中,对第二长矢量进行PCA((principal component analysis,主成分分析)降维,得到目标图像的第一图像表示向量。
步骤205,获取测试图像的第二图像表示向量。
本实施例中,对目标图像的第一图像表示向量进行准确性测试,首先给定一个测试图像,按照上述步骤获取该测试图像的第二图像表示向量。
步骤206,计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度。
本实施例中,图像数据库中包括多个检索图像,各检索图像的图像表示向量可以由上述步骤获得。计算第二图像表示向量与多个检索图像的图像表示向量的相似度。具体地,可以计算第二图像表示向量与多个检索图像的图像表示向量的余弦距离。例如,获得5个检索图像A、B、X、Y、Z的图像表示向量分别为F1、F2、F3、F4、F5,测试图像的第二图像表示向量为F6,分别计算F6与F1、F2、F3、F4、F5的余弦距离。
步骤207,查找所述相似度满足预设条件的目标检索图像。
本实施例中,预设条件可以是大于90%,也可以是大于80%,本发明实施例对预设条件不作详细限定,可以根据实际情况进行设置。在多个检索图像中,将相似度满足预设条件的作为目标检索图像。例如,检索图像A、B、Z的相似度满足预设条件,为目标检索图像。
步骤208,比对所述测试图像和所述目标检索图像,输出测试结果
本实施例中,比对方式可以是查找目标检索图像中是否包含测试图像,也可以是查找目标检索图像中是否包含设定图像,本发明实施例对此不作详细限定,可以根据实际情况进行设置。最后,输出测试结果,例如目标检索图像A、B、Z中包含设定图像A和B,图像表示向量准确;或者目标检索图像A、B、Z中不包含设定图像C,图像表示向量需要修正。
本发明实施例对获得视觉词典的举例如下:
步骤301,提取训练图像B的多个第二视觉特征为b1、b2、b3、b4;
步骤302,对b1、b2、b3、b4进行聚类分析,k1设置为2,则得到由2个第一视觉单词c1、c2构成的第一视觉词典。
步骤303,计算第二视觉特征b1与第一视觉单词c1、c2的距离,其中第一视觉单词c1与b1距离最近,计算b1与c1的残差,得到残差向量e1;计算第二视觉特征b2与第一视觉单词c1、c2的距离,其中第一视觉单词c1与b2距离最近,计算b2与c1的残差,得到残差向量e2;计算第二视觉特征b3与第一视觉单词c1、c2的距离,其中第一视觉单词c2与b3距离最近,计算b3与c2的残差,得到残差向量e3;计算第二视觉特征b4与第一视觉单词c1、c2的距离,其中第一视觉单词c2与b4距离最近;计算b4与c2的残差,得到残差向量e4。
根据上述计算得到的残差向量e1、e2、e3、e4,确定第一视觉单词c1对应的第一残差向量为e1、e2,第一视觉单词c2对应的第一残差向量为e3、e4。
步骤304,设置聚类中心的数量为2,对第一视觉单词c1对应的第一残差向量e1、e2进行第二聚类分析,得到2个第二视觉单词d1、d2构成的第二视觉词典。
对第一视觉单词c2对应的第一残差向量e3、e4进行第二聚类分析,得到2个第二视觉单词d3、d4构成的第二视觉词典。
本发明实施例对形成编码序列进行举例如下:
步骤305,提取目标图像A的第一视觉特征a1、a2、a3、a4。
步骤306,计算第一视觉特征a1与第一视觉单词c1、c2的距离,c1与a1距离最近,计算a1与c1的残差,得到残差向量f1;计算第一视觉特征a2与第一视觉单词c1、c2的距离,c1与a2距离距离最近,计算a2与c1的残差,得到残差向量f2;计算第一视觉特征a3与第一视觉单词c1、c2的距离,c2与a3距离最近,计算a3与c2的残差,得到残差向量f3;计算第一视觉特征a4与第一视觉单词c1、c2的距离,c2与a4距离最近,计算a4与c2的残差,得到残差向量f4。
根据上述计算得到的残差向量,确定第一视觉单词c1对应的第二残差向量为f1、f2;第一视觉单词c2对应的第二残差向量为f3、f4。
步骤307,第一视觉单词c1对应的第二视觉词典中有2个第二视觉单词d1、d2,计算第二视觉单词d1与f1、f2的残差得到残差向量g1、g2,求和得到第三残差向量g1+g2;计算第二视觉单词d2与f1、f2的残差得到残差向量g3、g4,求和得到第三残差向量g3+g4。
步骤308,按照第二视觉单词d1、d2在第二视觉词典中的索引顺序,对第三残差向量进行链接,组成第一视觉单词c1对应的第一长矢量[(g1+g2),(g3+g4)]。
以此类推,可以得到第一视觉单词c2对应的第一长矢量[(g5+g6),(g7+g8)]。
步骤309,按照第一视觉单词c1、c2在第一视觉词典中的索引顺序,对[(g1+g2),(g3+g4)]、[(g5+g6),(g7+g8)]进行链接,组成第二长矢量[(g1+g2),(g3+g4),(g5+g6),(g7+g8)]。
综上所述,本发明实施例中,提取目标图像的第一视觉特征,根据预先获得的视觉词典对第一视觉特征进行编码,获得编码序列;对编码序列进行简化处理,获得目标图像的第一图像表示向量。其中,视觉词典是依据训练图像进行至少两次聚类分析后获得的,充分利用了训练图像中的视觉特征,因此可以提升图像检索的精度,从而提高图像检索系统的应用灵活性。
实施例三
参照图3,示出了本发明实施例提供的一种获得图像表示的装置。所述装置包括:
视觉特征提取模块401,用于提取目标图像的第一视觉特征;
编码序列获得模块402,用于根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;
图像表示向量获得模块403,用于对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
可选地,所述编码序列获得模块402,具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。
可选地,在所述编码序列获得模块402之前,所述装置还包括:
视觉词典获得模块,用于获得所述视觉词典;
所述视觉词典获得模块包括:
视觉特征提取子模块,用于提取所述训练图像的多个第二视觉特征;
第一视觉词典获得子模块,用于对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典;
第一残差向量获得子模块,用于根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量;
第二视觉词典获得子模块,用于对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;
其中,k1和k2为正整数;
所述第一残差向量获得子模块包括:
第一残差向量计算单元,用于分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;
第一残差向量确定单元,根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。
可选地,所述编码序列获得模块包括:
第一长矢量获得子模块,用于根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量;
第二长矢量获得子模块,用于根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
可选地,所述第一长矢量获得子模块包括:
第二残差向量计算单元,用于根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量;
第三残差向量计算单元,用于针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量;
第一长矢量获得单元,用于按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。
可选地,所述第二长矢量获得子模块,具体用于按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。
可选地,所述装置还包括:
图像表示向量获取模块,用于获取测试图像的第二图像表示向量;
相似度计算模块,用于计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度;
目标检索图像查找单元,用于查找所述相似度满足预设条件的目标检索图像;
测试结果输出单元,用于比对所述测试图像和所述目标检索图像,输出测试结果。
综上所述,本发明实施例中,提取目标图像的第一视觉特征,根据预先获得的视觉词典对第一视觉特征进行编码,获得编码序列;对编码序列进行简化处理,获得目标图像的第一图像表示向量。其中,视觉词典是依据训练图像进行至少两次聚类分析后获得的,充分利用了训练图像中的视觉特征,因此可以提升图像检索的精度,从而提高图像检索系统的应用灵活性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种获得图像表示的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种获得图像表示的方法,其特征在于,所述方法包括:
提取目标图像的第一视觉特征;
根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;
对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
2.根据权利要求1所述的方法,其特征在于,所述根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列,包括:
根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析获得的视觉单词。
3.根据权利要求2所述的方法,其特征在于,在所述根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列之前,所述方法还包括:
获得所述视觉词典;
所述获得所述视觉词典,包括:
提取所述训练图像的多个第二视觉特征;
对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典;
根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量;
对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;
其中,k1和k2为正整数。
4.根据权利要求3所述的方法,其特征在于,所述确定各所述第一视觉单词对应的第一残差向量,包括:
分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;
根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,包括:
根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量;
根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一视觉特征、所述第一层视觉词典和所述第二层视觉词典,得到各所述第一视觉单词对应的第一长矢量,包括:
根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量;
针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量;
按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量,包括:
按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
获取测试图像的第二图像表示向量;
计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度;
查找所述相似度满足预设条件的目标检索图像;
比对所述测试图像和所述目标检索图像,输出测试结果。
9.一种获得图像表示的装置,其特征在于,所述装置包括:
视觉特征提取模块,用于提取目标图像的第一视觉特征;
编码序列获得模块,用于根据预先获得的视觉词典对所述第一视觉特征进行编码,获得编码序列;其中,所述视觉词典为依据训练图像进行至少两次聚类分析后获得;
图像表示向量获得模块,用于对所述编码序列进行简化处理,获得所述目标图像的第一图像表示向量。
10.根据权利要求9所述的装置,其特征在于,
所述编码序列获得模块,具体用于根据所述第一视觉特征与所述视觉词典中视觉单词的残差向量,形成所述目标图像的编码序列,所述视觉词典中包含经过所述至少两次聚类分析后获得的视觉单词。
11.根据权利要求10所述的装置,其特征在于,在所述编码序列获得模块之前,所述装置还包括:
视觉词典获得模块,用于获得所述视觉词典;
所述视觉词典获得模块包括:
视觉特征提取子模块,用于提取所述训练图像的多个第二视觉特征;
第一视觉词典获得子模块,用于对所述多个第二视觉特征进行第一聚类分析,获得由k1个第一视觉单词构成的第一视觉词典;
第一残差向量获得子模块,用于根据所述第一视觉词典,分别查找各所述第二视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第一残差向量;
第二视觉词典获得子模块,用于对各所述第一视觉单词对应的所述第一残差向量进行第二聚类分析,获得各所述第一视觉单词对应的由k2个第二视觉单词构成的第二视觉词典;
其中,k1和k2为正整数;
所述第一残差向量获得子模块包括:
第一残差向量计算单元,用于分别计算各所述第二视觉特征与查找到的所述第一视觉单词的残差向量;
第一残差向量确定单元,根据计算得到的所述残差向量,确定各所述第一视觉单词对应的所述第一残差向量。
12.根据权利要求11所述的装置,其特征在于,所述编码序列获得模块包括:
第一长矢量获得子模块,用于根据所述第一视觉特征、所述第一视觉词典和所述第二视觉词典,得到各所述第一视觉单词对应的第一长矢量;
第二长矢量获得子模块,用于根据所述第一视觉词典和所述第一长矢量,得到所述目标图像的第二长矢量。
13.根据权利要求12所述的装置,其特征在于,所述第一长矢量获得子模块包括:
第二残差向量计算单元,用于根据所述第一视觉词典,分别查找各所述第一视觉特征距离最近的第一视觉单词,并确定各所述第一视觉单词对应的第二残差向量;
第三残差向量计算单元,用于针对所述第一视觉单词对应的所述第二视觉词典,计算所述k2个第二视觉单词与所述第二残差向量的残差向量,并对各所述第二视觉单词对应的残差向量求和,得到k2个第三残差向量;
第一长矢量获得单元,用于按照所述k2个第二视觉单词在所述第二视觉词典中的索引顺序,将所述k2个第三残差向量组合为所述第一视觉单词对应的所述第一长矢量。
14.根据权利要求13所述的装置,其特征在于,
所述第二长矢量获得子模块,具体用于按照所述k1个第一视觉单词在所述第一视觉词典中的索引顺序,将所述第一视觉单词对应的所述第一长矢量组合为所述第二长矢量。
15.根据权利要求9至14中任一项所述的装置,其特征在于,所述装置还包括:
图像表示向量获取模块,用于获取测试图像的第二图像表示向量;
相似度计算模块,用于计算所述第二图像表示向量与多个检索图像的图像表示向量的相似度;
目标检索图像查找单元,用于查找所述相似度满足预设条件的目标检索图像;
测试结果输出单元,用于比对所述测试图像和所述目标检索图像,输出测试结果。
CN201810372629.7A 2018-04-24 2018-04-24 一种获得图像表示的方法和装置 Pending CN108563777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810372629.7A CN108563777A (zh) 2018-04-24 2018-04-24 一种获得图像表示的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810372629.7A CN108563777A (zh) 2018-04-24 2018-04-24 一种获得图像表示的方法和装置

Publications (1)

Publication Number Publication Date
CN108563777A true CN108563777A (zh) 2018-09-21

Family

ID=63536512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810372629.7A Pending CN108563777A (zh) 2018-04-24 2018-04-24 一种获得图像表示的方法和装置

Country Status (1)

Country Link
CN (1) CN108563777A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753940A (zh) * 2019-01-11 2019-05-14 京东方科技集团股份有限公司 图像处理方法及装置
WO2020199773A1 (zh) * 2019-04-04 2020-10-08 京东方科技集团股份有限公司 图像检索方法及装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902704A (zh) * 2014-03-31 2014-07-02 华中科技大学 面向大规模图像视觉特征的多维倒排索引与快速检索算法
CN104918046A (zh) * 2014-03-13 2015-09-16 中兴通讯股份有限公司 一种局部描述子压缩方法和装置
CN104951562A (zh) * 2015-07-08 2015-09-30 天云融创数据科技(北京)有限公司 一种基于vlad双重自适应的图像检索方法
US20160267351A1 (en) * 2013-07-08 2016-09-15 University Of Surrey Compact and robust signature for large scale visual search, retrieval and classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160267351A1 (en) * 2013-07-08 2016-09-15 University Of Surrey Compact and robust signature for large scale visual search, retrieval and classification
CN104918046A (zh) * 2014-03-13 2015-09-16 中兴通讯股份有限公司 一种局部描述子压缩方法和装置
CN103902704A (zh) * 2014-03-31 2014-07-02 华中科技大学 面向大规模图像视觉特征的多维倒排索引与快速检索算法
CN104951562A (zh) * 2015-07-08 2015-09-30 天云融创数据科技(北京)有限公司 一种基于vlad双重自适应的图像检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753940A (zh) * 2019-01-11 2019-05-14 京东方科技集团股份有限公司 图像处理方法及装置
US11288838B2 (en) 2019-01-11 2022-03-29 Beijing Boe Optoelectronics Technology Co., Ltd. Image processing method and apparatus
WO2020199773A1 (zh) * 2019-04-04 2020-10-08 京东方科技集团股份有限公司 图像检索方法及装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN102368237B (zh) 图像检索方法、装置及系统
Liu et al. Contextual hashing for large-scale image search
Zhou et al. Collaborative index embedding for image retrieval
CN102254015B (zh) 基于视觉词组的图像检索方法
Zhu et al. Exploring consistent preferences: discrete hashing with pair-exemplar for scalable landmark search
Liu et al. Uniting keypoints: Local visual information fusion for large-scale image search
Iakovidou et al. Localizing global descriptors for content-based image retrieval
CN112990228B (zh) 图像特征匹配方法和相关装置、设备及存储介质
Yasmin et al. Content based image retrieval by shape, color and relevance feedback
CN110458175B (zh) 一种基于词汇树检索的无人机影像匹配对选择方法及系统
CN111191652A (zh) 一种证件图像识别方法、装置、电子设备及存储介质
CN104199842A (zh) 一种基于局部特征邻域信息的相似图片检索方法
Kan et al. SURF binarization and fast codebook construction for image retrieval
CN105608478A (zh) 一种图像的特征提取与分类联合方法及系统
Wu et al. A multi-sample, multi-tree approach to bag-of-words image representation for image retrieval
CN103823887B (zh) 基于低秩全局几何一致性检验的错误匹配检测方法
Dai et al. Large scale image retrieval with visual groups
Wang et al. Separable vocabulary and feature fusion for image retrieval based on sparse representation
Yang et al. Polar embedding for aurora image retrieval
CN108563777A (zh) 一种获得图像表示的方法和装置
CN108875828A (zh) 一种相似图像的快速匹配方法和系统
Dong et al. Holons visual representation for image retrieval
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN103823889B (zh) 基于l1范数全局几何一致性检验的错误匹配检测方法
CN105868760A (zh) 模式识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921