CN104008146B

CN104008146B - 一种基于共同视觉模式的图像查询扩展方法及系统

Info

Publication number: CN104008146B
Application number: CN201410196803.9A
Authority: CN
Inventors: 谢洪涛; 王鹏; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2017-02-15
Anticipated expiration: 2034-05-09
Also published as: CN104008146A

Abstract

本发明涉及一种基于共同视觉模式的图像查询扩展方法及系统，包括视觉关键词级查询扩展和图像级查询扩展，视觉关键词级查询扩展是在离线时构建一个训练图像库，挖掘训练图像库中各图像间的CVP，根据CVP计算每一个视觉关键词的上下文同义词并保存，在线查询时，将待查询的视觉关键词扩展到其上下文同义词，并在原始图像库中查询；图像级查询扩展是在视觉关键词级查询扩展的基础上进行的，通过视觉关键词级查询得到初始结果，计算查询图像与初始结果中相似的n幅图像间的CVP，以CVP为线索，找到训练图像库中的相似图像，根据查询图像和相似图像在原始图像库中进行查询；本发明提供多种查询方式，在提高检索精度的同时保证了检索速度。

Description

一种基于共同视觉模式的图像查询扩展方法及系统

技术领域

本发明涉及图像检索领域，尤其涉及一种基于共同视觉模式的图像查询扩展方法及系统。

背景技术

查询扩展是文本检索中提高检索召回率的关键技术之一，它利用统计学和信息学等技术，将与查询相关的信息添加到原查询中构建新的查询；然后以新的查询进行检索以改善信息检索的召回率。随着视觉关键词技术在图像检索中的成功应用，查询扩展被引入到图像检索领域，并有效地提升了检索的精度。

在图像检索中，各种图像变换使得图像内容发生变化，进而导致视觉特征的显著差异。这样仅凭单幅查询图像进行检索只能得到有限的结果，召回率难以保证。因此需要采用查询扩展技术使结果更为全面和准确。根据实现机制的差异，可以将现有的查询扩展算法分为在线查询扩展和离线查询扩展两种类别。

在线扩展包括以下两种方式：Chum根据查询图像获得初次检索结果，然后把排名靠前的结果作为查询图像，再次在图像库中进行检索；Kuo根据返回图像修改查询图像的特征模型(修改特征参数或者加入新的特征)进行再次检测。在线扩展方式简单直观，执行多次可以明显提升召回率。但是在线扩展受初始结果的影响比较大，如果初始结果有误检，则扩展结果中误检率比较高。其次在线查询扩展需要开展多次查询，时间复杂度高。

离线扩展根据经验参数，对图像库进行扩展，每一幅库图像被合成扩展为几十幅变换后的图像。在线检索时只查询一次，无需多次查询。Gao等人根据图像的全仿射空间理论，对图像库中的每一幅图像构建它们所有可能的仿射图像，每幅库图像得到41幅仿射模拟图像，然后通过特征的直接匹配获得相对稳定的特征建立索引；在线检索时，根据查询图像只在库特征索引中查询一次即获得检索结果。离线扩展主动模拟各种可能的图像变换，不增加在线检索时间。但是离线扩展使得图像库容量激增给存储带来不便，并且没有考虑库图像的相互关系。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于共同视觉模式的查询扩展方法，在保证检索时间的同时明显提升检索精度。

本发明解决上述技术问题的技术方案如下：一种基于共同视觉模式的图像查询扩展方法，包括视觉关键词级查询扩展，具体如下步骤：

步骤A1：在原始图像库中抽取若干幅图像构建一个具有代表性的训练图像库；

步骤A2：挖掘训练图像库中各图像间的CVP共同视觉模式，所述CVP由若干个视觉关键词组成；

步骤A3：根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词，并保存在查询表中；

步骤A4：根据视觉关键词在线查询时，通过软加权的方法将该视觉关键词扩展到查询表中其上下文同义词；

步骤A5：根据该视觉关键词连同其扩展后的上下文同义词在原始图像库中进行扩展查询。

本发明的有益效果是：本发明在离线时构建一个具有代表性的训练图像库，挖掘库图像间的CVP，然后根据所有CVP的信息度量每一个视觉关键词w和其它视觉关键词的语义相似性，确定w的上下文同义词；在线查询时，直接把w扩展到其上下文同义词，从而降低关键词量化带来的量化损失和语义鸿沟；上下文同义词保存在查找表中，在线检索时采用软加权(soft assignment)的方式把每个查询视觉关键词扩展到其上下文同义词，因此在提高检索精度的同时保证了检索速度。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤A2中挖掘训练图像库中各图像间CVP的具体实现为：

步骤A2.1：对于训练图像库中的任一一幅图像I，通过BOW框架查找训练图像库D中与其相似度大于预定阈值的图像，得到集合S(I)，计算条件如下式

其中，I_i为训练图像库中除图像I以外的图像，D为训练图像库，c(I_i,I)是图像I_i和图像I中共同具有的视觉关键词的个数，n(I)是图像I中视觉关键词的个数，t为预定阈值；

步骤A2.2：采用图像匹配的方法计算图像I与集合S(I)中每一幅图像I_i的CVP。

采用上述进一步方案的有益效果：假设训练图像库中有n幅图像，如果计算任一幅图像与其余n-1幅图像之间的CVP那么得计算n(n-1)/2次，时间复杂度很高，对于大规模训练图像库，则无法承受如此大的时间开销，因此在计算任一幅图像与其余n-1幅图像间的CVP时，首先过滤出与该图像相似度大于预定阈值的图像，再计算该图像与过滤出的图像间的CVP，大大降低了时间开销，降低了时间复杂度。

进一步，步骤A3中根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词的具体实现为：

根据训练图像库中所有CVP信息度量每一个视觉关键词与其他视觉关键词的语义相似性，其中，确定两个视觉关键词间的语义相似性的具体实现为，通过度量两个视觉关键词的空间布局相似性和几何变换一致性，确定两个视觉关键词在某一个CVP上的语义相似值；进而结合两个所述视觉关键词在整个训练图像库上共出现于同一个CVP的条件概率得到两个视觉关键词之间的真正语义相似值，从而确定它们的上下文同义词。

进一步，还包括在视觉关键词查询扩展的基础上，利用CVP信息进行图像级查询扩展，具体实现步骤为：

步骤B1：在离线时以CVP为线索组织训练图像库中的图像；

步骤B2：在线检索时，通过视觉关键词级扩展查询得到初始结果；

步骤B3：计算查询图像与初始结果中最相似的n幅图像间的CVP，其中n为预定阈值；

步骤B4:那些和查询图像具有相同CVP但不在初始检索结果中的库图像会被自动扩展到检索结果中。

采用上述进一步方案的有益效果：视觉关键词级扩展和图像级扩展分别从视觉关键词和图像这两个不同的检索基元进行扩展，因此它们互相补充，复杂计算都在离线时完成且链表结构占用的存储空间很小，因此不影响在线的时空性能。

进一步，步骤B1的具体实现为：每个图像包括若干个CVP，以p_ij代表图像i的第j个CVP，各图像间相同的CVP以线索相连。

进一步，所述p_ij的数据结构包括Pre Img、Info、Nex Img和Nex CVP，Pre Img代表与p_ij相同的上一幅图像中CVP的存储地址；Info代表p_ij的相关信息，包括图像ID，p_ij在图像i中的位置；Nex Img代表与p_ij相同的下一幅图像中CVP的存储地址；Nex CVP代表p_ij+1的存储地址，或者为NULL。

进一步，同一图像内的CVP采用单链表存储，不同图像间相同的CVP采用双链表存储。

本发明解决上述技术问题的另一技术方案的如下：一种实现基于共同视觉模式的图像查询扩展方法的系统，包括训练图像库建立模块、CVP挖掘模块、同义词确定模块、查询表和关键词级在线查询模块；

所述训练图像库建立模块，其用于在原始图像库中抽取若干幅图像构建一个具有代表性的训练图像库；

所述CVP挖掘模块，其用于挖掘训练图像库中各图像间的CVP共同视觉模式，所述CVP由若干个视觉关键词组成；

所述同义词确定模块，其用于根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词；

所述查询表，其用于保存每个视觉关键词的上下文同义词；

所述关键词级在线查询模块，其用于通过软加权的方法将待查询的视觉关键词扩展到查询表中其上下文同义词，根据该视觉关键词连同其扩展后的上下文同义词在原始图像库中进行扩展查询。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，上述技术方案还包括还包括库图像组织模块、初始结果保存模块、扩展图像计算模块和图像级在线查询模块；

所述库图像组织模块，其用于将不同图像间相同的CVP用线索连接起来，将同一图像内的CVP采用单链表存储起来，不同图像间相同的CVP用双链表存储起来；

所述初始结果保存模块，其用于保存根据视觉关键词级扩展查询得到初始结果，并计算初始结果中与原查询图像最相似的n幅相似图像，其中n为预定阈值；

所述扩展图像计算模块，其用于分别计算原查询图像与n幅相似图像间的CVP，根据计算得到的CVP在训练图像库中找到与原查询图像相似的图像作为扩展图像；

所述图像级在线查询模块，其用于将原查询图像和扩展图像作为查询图像在原始图像库中进行查询。

附图说明

图1为本发明所述视觉关键词级查询扩展的方法流程图；

图2为本发明所述图像级查询扩展的方法流程图；

图3为本发明所述实施例中以CVP为线索组织的训练图像库结构示意图；

图4为CVP内部数据结构示意图；

图5为本发明所述基于共同视觉模式的图像查询扩展系统框图。

附图中，各标号所代表的部件列表如下：

1、训练图像库建立模块，2、CVP挖掘模块，3、同义词确定模块，4、查询表，5、在线查询模块,6、库图像组织模块，7、初始结果保存模块，8、扩展图像计算模块，9、图像级在线查询模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

共同视觉模式(Common Visual Pattern，CVP)是两幅图像在视觉内容上一致，空间布局上相似的共同部分。和局部特征相比，CVP从更高的层面上对图像进行表示和描述，是高层的图像检索/语义基元。CVP从视觉对象的层次上描述图像，可以利用CVP包含的上下文语义信息提高图像检索的精度。因此，我们提出基于CVP的视觉关键词级查询扩展和图像级查询扩展方法及系统。

视觉关键词级查询扩展

CVP是由视觉关键词组成，视觉关键词在不同的CVP中代表意义不同，比如公交车就可以是一个CVP对象，可能有几个视觉关键词描述它，可能车轮就是有其中一个视觉关键词所描述。

CVP描述图像中具体的视觉对象，这些对象具有特定的语义含义，如特定的商标、建筑或者人物等。分布在同一CVP上的视觉关键词描述同一视觉对象，具有相似的语义信息。因此可以在离线时构建一个具有代表性的训练图像库，挖掘库图像间的CVP，然后根据所有CVP的信息度量每一个视觉关键词w和其它所有视觉关键词的语义相似性，确定w的上下文同义词。在线查询时，直接把w扩展到其上下文同义词，从而降低关键词量化带来的量化损失和语义鸿沟，具体实现如下。

如图1所示，一种基于共同视觉模式的图像查询扩展方法，包括视觉关键词级查询扩展，具体如下步骤：

假设训练图像库中有n幅图像，如果计算任一幅图像与其余n-1幅图像之间的CVP那么得计算n(n-1)/2次，时间复杂度很高，对于大规模图像库这个时间开销无法承受。因此我们采用如下优化方案：

步骤A2.1：对于训练图像库D中的任一一幅图像I，通过BOW框架查找训练图像库D中与其相似度大于预定阈值的图像，得到集合S(I)，计算条件如下式

上述条件式包括3层含义，首先，待查找的图像I_i在训练图像库D中，其次，图像I_i是除图像I以外的图像，最后，待查找的图像I_i与图像I的相似度大于预定阈值t。

其中，I_i为训练图像库中除图像I以外的图像，D为训练图像库，c(I_i,I)是图像I_i和图像I中共同具有的视觉关键词的个数，n(I)是图像I中视觉关键词的个数，t为预定阈值，本实施例中其值为0.4；

步骤A2.2：采用图像匹配的方法计算图像I与集合S(I)中每一幅图像I_i的CVP。集合S(I)中的图像是那些与图像I相似的图像，其数量远远小于n-1,因此通过这种方式能极大地减少计算量。

其中，步骤A3中根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词的具体实现为：

具体计算条件概率时如下例。

采用图像匹配的方法计算图像I和集合S(I)中每一幅图像I_i的CVP。得到训练库的所有CVP之后，对于分布在同一CVP上的视觉关键词w₁和w₂，通过度量它们的空间布局相似性和几何变换一致性，确定w₁和w₂在某一个CVP上的语义相似值。进而结合w₁和w₂在整个训练库上共现于同一CVP的条件概率得到它们之间的语义相似值，从而确定它们的上下文同义词。由于w₁和w₂出现的次数不同它们共现的条件概率不同，所以w₁对w₂的语义相似值和w₂对w₁的语义相似值不相等，从而保证它们具有不同的上下文同义词。比如w₁相对于w₂的语义相似性P(W2|W1)即为W2与W1共同出现的概率比上W1出现的概率，就是W1相对于W2的相似性的值。

上下文同义词保存在查找表中，在线检索时采用软加权(soft assignment)的方式把每个查询视觉关键词扩展到其上下文同义词。因此在提高检索精度的同时保证了检索速度。

如图2所示，还包括在视觉关键词查询扩展的基础上，利用CVP信息进行图像级查询扩展，具体实现步骤为：

步骤B1：在离线时以CVP为线索组织训练图像库中的图像；

步骤B3：计算查询图像与初始结果中最相似的n幅图像间的CVP，其中n为预定阈值，一般设置为3；

在视觉关键词级查询扩展的基础上，我们利用CVP信息进一步提出图像级查询扩展。首先在离线时计算训练图像库中所述的CVP(计算训练图像库中CVP方法同步骤A1-A5)，再以训练图像库中CVP为线索组织图像库中的图像，组织结构如图3所示。

如图3所示，每个图像包括若干个CVP，以p_ij代表图像i的第j个CVP，各图像间相同的CVP以线索相连。不同图像间相同CVP用线索连接，同一幅图像内的CVP采用单链表存储，不同图像间相同的CVP用双链表存储，这种组织结构便于以CVP为线索迅速找到相似图像。

如图4所示，所述p_ij的数据结构包括Pre Img、Info、Nex Img和Nex CVP，Pre Img代表与p_ij相同的上一幅图像中CVP的存储地址；Info代表p_ij的相关信息，包括图像ID，p_ij在图像i中的位置；Nex Img代表与p_ij相同的下一幅图像中CVP的存储地址；Nex CVP代表p_ij+1的存储地址，或者为NULL。

在线检索时根据上述线索开展查询扩展：首先通过视觉关键词级查询扩展得到初始结果，然后计算查询图像与初始结果中最相似的n幅图像间的CVP，那些和查询图像具有相同CVP但不在初始检索结果中的库图像会被自动扩展到检索结果中。其中n是阈值，以平衡检索精度和时间开销，一般设置为3。

如图5所示，一种实现基于共同视觉模式的图像查询扩展方法的系统，包括训练图像库建立模块1、CVP挖掘模块2、同义词确定模块3、查询表4和关键词级在线查询模块5；

所述训练图像库建立模块1，其用于在原始图像库中抽取若干幅图像构建一个具有代表性的训练图像库；

所述CVP挖掘模块2，其用于挖掘训练图像库中各图像间的CVP共同视觉模式，所述CVP由若干个视觉关键词组成；

所述同义词确定模块3，其用于根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词；

所述查询表4，其用于保存每个视觉关键词的上下文同义词；

所述关键词级在线查询模块5，其用于通过软加权的方法将待查询的视觉关键词扩展到查询表中其上下文同义词，根据该视觉关键词连同其扩展后的上下文同义词在原始图像库中进行扩展查询。

其中，上述技术方案还包括还包括库图像组织模块6、初始结果保存模块7、扩展图像计算模块8和图像级在线查询模块9；

所述库图像组织模块6，其用于将不同图像间相同的CVP用线索连接起来，将同一图像内的CVP采用单链表存储起来，不同图像间相同的CVP用双链表存储起来；

所述初始结果保存模块7，其用于保存根据视觉关键词级扩展查询得到初始结果，并计算初始结果中与原查询图像最相似的n幅相似图像，其中n为预定阈值；

所述扩展图像计算模块8，其用于分别计算原查询图像与n幅相似图像间的CVP，根据计算得到的CVP在训练图像库中找到与原查询图像相似的图像作为扩展图像；

所述图像级在线查询模块9，其用于将原查询图像和扩展图像作为查询图像在原始图像库中进行查询。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于共同视觉模式的图像查询扩展方法，其特征在于，包括视觉关键词级查询扩展，具体如下步骤：

步骤A2中挖掘训练图像库中各图像间CVP的具体实现为：

步骤A2.1：对于训练图像库中的任意一幅图像I，通过BOW框架查找训练图像库D中与其相似度大于预定阈值的图像，得到集合S(I)，计算条件如下式

步骤A2.2：采用图像匹配的方法计算图像I与集合S(I)中每一幅图像I_i的CVP；

步骤A3中根据训练图像库中所有CVP信息，利用条件概率确定每一个视觉关键词的上下文同义词的具体实现为：

根据训练图像库中所有CVP信息度量每一个视觉关键词与其他视觉关键词的语义相似性，其中，确定两个视觉关键词间的语义相似性的具体实现为，通过度量两个视觉关键词的空间布局相似性和几何变换一致性，确定两个视觉关键词在某一个CVP上的语义相似值；进而结合两个所述视觉关键词在整个训练图像库上共出现于同一个CVP的条件概率得到两个视觉关键词之间的真正语义相似值，从而确定它们的上下文同义词；

2.根据权利要求1所述一种基于共同视觉模式的图像查询扩展方法，其特征在于，还包括在视觉关键词查询扩展的基础上，利用CVP信息进行图像级查询扩展，具体实现步骤为：

步骤B1：在离线时以CVP为线索组织训练图像库中的图像；

步骤B2：在线检索时，根据原查询图像通过视觉关键词级扩展查询得到初始结果，并计算初始结果中与原查询图像最相似的n幅相似图像，其中n为预定阈值；

步骤B3：分别计算原查询图像与n幅相似图像间的CVP，根据计算得到的CVP在训练图像库中找到与原查询图像相似的图像作为扩展图像；

步骤B4：将原查询图像和步骤B3中得到的扩展图像作为查询图像在原始图像库中进行查询。

3.根据权利要求2所述一种基于共同视觉模式的图像查询扩展方法，其特征在于，步骤B1的具体实现为：每个图像包括若干个CVP，以p_ij代表图像i的第j个CVP，各图像间相同的CVP以线索相连。

4.根据权利要求3所述一种基于共同视觉模式的图像查询扩展方法，其特征在于，所述p_ij的数据结构包括Pre Img、Info、Nex Img和Nex CVP，Pre Img代表与p_ij相同的上一幅图像中CVP的存储地址；Info代表p_ij的相关信息，包括图像ID，p_ij在图像i中的位置；Nex Img代表与p_ij相同的下一幅图像中CVP的存储地址；Nex CVP代表p_ij+1的存储地址，或者为NULL。

5.根据权利要求2所述一种基于共同视觉模式的图像查询扩展方法，其特征在于，步骤B3中根据计算得到的CVP在训练图像库中找到与原查询图像相似的图像的具体实现为：根据计算得到的CVP在训练图像库中查找与该CVP相连的其他图像中的CVP，从而找到了训练图像库中与原查询图像相似的图像作为扩展图像。

6.根据权利要求3所述一种基于共同视觉模式的图像查询扩展方法，其特征在于，同一图像内的CVP采用单链表存储，不同图像间相同的CVP采用双链表存储。

7.一种实现权利要求1-6中任一项所述基于共同视觉模式的图像查询扩展方法的系统，其特征在于，包括训练图像库建立模块、CVP挖掘模块、同义词确定模块、查询表和关键词级在线查询模块；

所述查询表，其用于保存每个视觉关键词的上下文同义词；

8.根据权利要求7所述一种实现基于共同视觉模式的图像查询扩展方法的系统，其特征在于，还包括库图像组织模块、初始结果保存模块、扩展图像计算模块和图像级在线查询模块；