CN117280338A

CN117280338A - 细粒度视觉内容搜索平台

Info

Publication number: CN117280338A
Application number: CN202380008383.4A
Authority: CN
Inventors: 陈俊明; 李政龙; 谢谊乒; 张崇浩
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2022-04-12
Filing date: 2023-03-17
Publication date: 2023-12-22
Also published as: WO2023197827A1; US20230325434A1

Abstract

一种视觉内容搜索和检索平台，包括物体检测模型、粗粒度影像分类模型和细粒度影像分类模型的选择。在推断过程中，物体检测模型定位并提取查询影像中的查询物体；粗粒度影像分类模型对查询物体的元类别进行分类；选择针对查询物体的元类别经训练和优化的细粒度影像分类模型；并且所选的细粒度影像分类模型从影像数据库搜索和检索与查询物体最相似的物体的影像。细粒度影像分类模型由多焦点细粒度影像搜索和检索设备实现，该设备包括学习产生查询物体的整体外观查询特征的分类学习模块；局部关键区域描述模块，被学习以产生查询物体的局部区域细节查询特征；轮廓描述模块，其被学习以产生所述查询物体的轮廓查询特征。

Description

细粒度视觉内容搜索平台

与相关申请的交叉引用：

本申请要求2022年4月12日提交的第63/330,311号美国临时专利申请的优先权以及要求2023年2月22日提交的第18/172,356号美国专利申请的优先权；其公开内容通过引用全部并入本文。

技术领域

本发明涉及影像目标识别、影像搜索和检索中的机器学习技术。

背景技术

机器深度学习技术已广泛应用于视觉相关的应用中。在影像分类或识别研究中，大多数研究都集中在元类别(meta-category)分类(即粗粒度影像分类)上。例如，对包括狗、猫、花等元类别进行分类。较少的文献对子类别(sub-category)分类(即细粒度影像分类)进行了研究，以识别同一元类别的具体物种。例如，对狗元类别的犬种子类别进行分类，包括拉布拉多、金毛、贵宾等；在另一种可能应用中，亦包括识别汽车的品牌和型号。细粒度影像分类的人工智能(artificial intelligence,AI)应用潜力广泛，如时尚服装匹配、野生动物识别、医学诊断、车辆品牌和型号识别等。

然而，细粒度影像分析目前是一个重要的挑战。它需要训练一个分类模型(classification model)，通过分析物体的局部细节(即局部部分、形状、纹理、颜色等)来对视觉上相似的物种进行分类。一些现有的细粒度影像分类方法在模型训练期间利用训练数据中物种之间的局部差异进行手动注释(annotation)或标记(labelling)。这些手动过程对于每一个元类别都是必需的。这是一项劳动密集、昂贵且难以实现大规模场景应用的工作。

因此，在本领域中，基于智能视觉内容搜索平台对于细粒度影像识别的需求未得到满足。对此，还需要一种细粒度影像检索方法，其可实现自动定位和分析物种间局部差异的特征，以应对出更大规模和更广泛的应用场景。

发明内容

为了满足基于智能视觉内容搜索平台对于细粒度影像识别的需求，本发明就此目标提出了一个细粒度影像检索方法，该方法可自动定位和分析物种间局部差异的特征，以应对出更大规模和更广泛的应用场景。此外，为了进一步提高模型在大量元类别和子类别场景上的检索效率，本文提出的智能视觉内容搜索平台采用分层架构(hierarchicalarchitecture)设计。同时，其亦支持自定义模型在基准模型上进行重训练(re-training)以获得更高质量的效果。最后，本发明所提出的平台可显着减少数据标记的工作量以降低人力成本，为大规模推广与应用带来巨大的可能性。

本发明的目的是提供一种视觉内容搜索和检索平台，以解决现有技术中的上述缺点和未满足的需求。根据本发明的第一方面，提供了一种从影像数据库执行视觉内容搜索与检索的方法，其使用视觉内容搜索和检索平台。视觉内容搜索和检索平台具有分层结构，并且包括物体检测模型、粗粒度影像分类模型和一个或多个细粒度影像分类模型的选择组合。

在推断过程中，此方法包括：从电子设备(即，IP摄像机、移动通信设备、电子机台(electronic kiosk)、个人计算机等)接收包括一个或多个物体的查询影像；通过物体检测模型在查询影像中的物体中定位并提取查询物体；通过粗粒度影像分类模型对查询物体的元类别进行分类；从细粒度影像分类模型的选择组合中选择出针对查询物体的元类别所训练与优化的一个细粒度影像分类模型；以及通过所选择的细粒度影像分类模型从影像数据库中搜索和检索出多个图库影像，这些图库影像属于所述查询物体的元类别。

根据本发明的第二方面，视觉内容搜索和检索平台还包括半自动标记模块。半自动标记模块包括无监督(unsupervised)或半监督(semi-supervised)预测模型，此模型被训练为通过检测边缘(edges)、纹理变化(texture changes)、颜色偏差(colordeviations)等来预估训练数据影像中多个样本物体的多个位置，并在预估的位置周围放置边界框。在训练期间，包括样本物体的影像的训练数据由半自动标记模块处理，以产生和显示半标记影像，供用户微调边界框，以便更准确地标记其中的样本物体。这样，无需从头开始手动标记即可产生完全注释的训练数据，显着提高了训练数据标记效率。

根据本发明的第三方面，每一个细粒度影像分类模型由用于多焦点细粒度(multi-focus fine-grained,MFFG)影像搜索和检索的设备200实现。用于MFFG影像搜索和检索的设备200包括：特征提取网络(feature extraction network)，其被配置为从查询影像中提取查询物体的一个或多个基本查询特征(basic query feature)；分类学习模块(class learning module,CLM)，其被配置为从这些基本特征产生一个或多个第一特定查询特征，其中第一查询特定特征表示查询物体的整体外观；局部关键区域描述模块(localdescription module,LDM)，其被配置为从这些基本特征产生一个或多个第二特定查询特征，其中第二查询特定特征表示查询物体的局部区域细节；轮廓描述模块(outlinedescription module,ODM)，被配置为从这些基本查询特征产生一个或多个第三特定查询特征，其中第三特定查询特征表示查询物体的轮廓；以及影像搜索引擎，其被配置为组合所述第一、第二和第三特定查询特征以形成一个或多个查询图像的联合特征，用于将所述查询物体与多个图库影像物体进行比较和匹配。

CLM、LDM和ODM中的每一个都包括其特定的基于样本对的损失函数(pair-wiseloss function)。在训练过程中，用区域混淆机制(Region Confusion Mechanism,RCM)增强原始影像的训练数据。CLM、LDM和ODM中的每一个都学习生成物体的各种特定特征，并且CLM、LDM和ODM及其各自对应的基于样本对的损失函数可通过学习原始图像与RCM图像的特征，最小化正样本特征距离的同时亦最大化负样本对的特征距离。

附图说明

下文将参考附图更详细地描述本发明的实施例，其中：

图1示出了根据本发明第一方面的视觉内容搜索和检索平台的示意图；

图2示出了根据本发明第二方面的用于多焦点细粒度(MFFG)影像搜索和检索的设备的示意图；

图3示出了根据本发明实施例的训练用于MFFG影像搜索和检索的设备的方法的示意图；

图4A示出了根据本发明实施例的分类学习模块的基于样本对的损失函数的图示；

图4B示出了根据本发明实施例的区域描述模块局部关键区域描述模块的基于样本对的损失函数的图示；和

图4C描绘了根据本发明实施例的轮廓描述模块的基于样本对的损失函数的图示。

具体实施方式

在以下描述中，基于机器学习(machine learning,ML)的影像搜索和检索等的设备和方法作为优选示例。对于本领域技术人员来说，显而易见的是，可以在不脱离本发明的范围和精神的情况下进行修改，包括添加和/或替换。可以省略具体细节，以免混淆本发明；然而，编写本公开是为了使本领域技术人员能够在没有过度实验的情况下实践本文的教导。

针对下方叙述参考图1。根据本发明的第一方面，提供了一种从影像数据库110执行视觉内容搜索与检索的方法，其使用视觉内容搜索和检索平台。根据一个实施例，视觉内容搜索和检索平台100具有分层架构(hierarchical architecture)，并且包括物体检测模型101、粗粒度影像分类模型102和一个或多个细粒度影像分类模型103的选择组合。

在推断过程中，该方法包括：从电子设备(即，IP摄像机、移动通信设备、电子亭、个人计算机等)接收包括一个或多个物体(object)的查询影像(query image)；通过物体检测模型101在查询影像中的多个物体中定位并提取查询物体；通过粗粒度影像分类模型102对查询物体的元类别(meta-category)进行分类；从细粒度影像分类模型103的选择组合中，选择用训练数据训练的细粒度影像分类模型103a，其中训练数据包括多个样本物体的多个影像，这些影像属于查询物体的元类别；以及通过所选出的细粒度影像分类模型103a，从影像数据库110(image database)中，搜索(search)和检索(retrieve)多个图库影像(gallery image)，其中多个图库影像包括属于查询物体的元类别的图库影像物体(gallery image object)。

根据一个实施例，物体检测模型101是轻量级的和基于卷积的(convolution-based)。它应用基于实时监督的物体检测方法从背景噪声中提取影像中的多个物体。物体检测模型101其通过从包括多个注释影像(annotated images)的训练数据，而被训练为学习多个特征，以预测查询影像中所有可能物体的位置或边界框(bounding boxes)。因此，物体检测模型101能够检测包括在单一查询影像中的多个物体，并且能够针对查询影像定位和提取不同尺度的多个查询物体。

根据一个实施例，粗粒度影像分类模型102(coarse-grained imageclassification model)由预训练卷积神经网络(convolutional neural network,CNN)和决策模块实现，其中预训练卷积神经网络包括一个或多个卷积层(convolutional layer)，决策模块具有一个或更多个全连接层(fully-connected layer)。CNN可以基于，例如但不限于，VGG19、Resnet50或BN Inception神经网络。在推断期间，卷积层提取查询物体的一个或多个基本特征，其中查询物体被物体检测模型101定位和提取。然后将基本特征输入到决策模块中以进行汇总，并对查询物体进行元类别分类。

根据一个实施例，视觉内容搜索和检索平台100还包括用户界面104(userinterface)。用户界面104对视觉内容搜索和检索平台100的用户提供设施，其电子地显示图形和文本信息，以及允许用户输入用户输入数据和命令(user input data andcommands)的设施。用户界面104的功能包括接收用户输入数据和命令，其中用户输入数据和命令用于预处理(preprocessing)查询影像；接收用户输入数据和命令，以客制化和管理视觉内容搜索和检索平台100，如例如针对不同应用程序的搜索和检索模型部署，以及，到不同影像数据库的连接；在针对新的搜索和检索模型(例如训练数据集的获取和标记)训练视觉内容搜索和检索平台100中接收用户输入数据和命令；接收用户输入数据和命令，并显示多个结果，其中这些结果评估视觉内容搜索和检索平台100的多个搜索和检索模型；以及显示搜索和检索结果。

根据本发明的第二方面，视觉内容搜索和检索平台100还包括半自动标记模块105。半自动标记模块105包括无监督或半监督预测模型，其被训练为通过检测边缘(detecting edges)、纹理变化(texture changes)、颜色偏差(color deviations)等来预估影像中多个样本物体的多个位置，并在预估的位置周围放置边界框(bounding box)。在训练期间，多个影像(其包括多个样本物体)的训练数据由半自动标记模块105处理，以产生和显示(经由用户界面104)半标记影像，供用户微调边界框，以便更准确地标记其中的样本物体。如此一来，无需从头开始手动标记即可产生完全注释的训练数据，显着提高了训练数据标记效率。

在训练期间，完全注释的训练数据用于训练物体检测模型101，直到模型收敛。然后，在多个训练数据影像中的多个样本物体(其由物体检测模型101提取)，被用于训练粗粒度影像分类模型102，直到模型收敛。多个训练数据影像(包括选定的元类别的多个物体)被用于训练多个细粒度影像分类模型103中的一个，直到该模型收敛，其中针对选定元类别内的分类对训练的细粒度影像分类模型进行优化。

根据一个实施例，每一个细粒度影像分类模型103由用于多焦点细粒度(multi-focus fine-grained,MFFG)影像搜索和检索的设备而实现，如下所述。

以下描述参见图2。根据本发明的第三方面，提供了一种用于MFFG影像搜索和检索的设备200。用于MFFG影像搜索和检索的设备200包括：特征提取网络(feature extractionnetwork)201，其被配置为从查询影像中提取查询物体的一个或多个基本查询特征(basicquery feature)；分类学习模块(class learning module,CLM)202，其被配置为从多个基本特征产生一个或多个第一特定查询特征，其中第一查询特定特征表示查询物体的整体外观；局部关键区域描述模块(local description module,LDM)203，被配置为从这些基本特征产生一个或多个第二特定查询特征，其中第二查询特定特征表示查询物体的局部区域细节；轮廓描述模块(outline description module,ODM)204，被配置为从这些基本查询特征产生一个或多个第三特定查询特征，其中，第三特定查询特征表示查询物体的轮廓；以及影像搜索引擎205。

在一个实施例中，特征提取网络201由预训练的CNN实现，此CNN包括一个或多个卷积层(convolutional layer)和一个或多个全连接层(fully-connected layer)。CLM 202、LDM 203和ODM 204中的每一个都由CNN(其包括一个或多个卷积层和一个或多个全连接层以及基于样本对的损失函数(pair-wise loss function))实现。

在一个优选实施例中，所有的CLM 202、LDM 203和ODM 204都包括在MFFG影像搜索和检索装置200中，且在其中使用。在一个替代实施例中，仅包括和使用CLM 202和LDM 203。在另一替代实施例中，仅包括和使用CLM 202和ODM 204。这些替代实施例中的任何一个的实现可能是由于资源限制的关系。

影像搜索引擎205将组合第一、第二和第三特定查询特征，以形成一个或多个查询图像的联合特征(joint query feature)。然后，它从影像数据库110中获得每一个图库影像物体(其属于查询物体的相同元类别)的一个或多个特征。为了将查询物体与图库影像物体进行比较和匹配，影像搜索引擎205计算多个查询图像的联合特征与每一个图库影像物体的多个特征之间的余弦距离(cosine distance)。影像搜索引擎205接着依照从最相似于查询物体到最不相似于查询物体的多个余弦距离，对这些图库影像物体进行排序。具有在多个查询图像的联合特征和图库影像物体的多个特征之间的最短余弦距离的图库影像物体与查询物体最相似，并且具有在多个查询图像的联合特征和图库影像物体的多个特征之间的最长余弦距离的图库影像物体与查询物体最不相似。最后，影像搜索引擎205输出与查询物体最相似且经排序过的图库影像物体的前N个图库影像。

在一个优选实施例中，通过串接(concatenation)多个特定查询特征来组合第一、第二和第三特定查询特征，以形成查询图像的联合特征。在另一实施例中，通过对这些特定查询特征加总来完成第一、第二和第三特定查询特征的组合以形成查询图像的联合特征。虽然组合的串接方法产生出比求和方法更大的嵌入大小，因此可能更耗费资源，但是用串接方法学习的MFFG影像搜索和检索装置200的搜索和检索模型产生比用求和方法更好的性能。

以下描述参见图3。根据一个实施例，用于MFFG影像搜索和检索的设备200的训练包括首先获得特定元类别的训练数据集(过程301)，此特定元类别是特定MFFG影像检索和检索设备要优化的。训练数据集包括多个原始影像，每一个原始影像包括属于该特定元类别的多个子类别之一的多个样本物体中的一个样本物体。接下来，由增强模块(augmentation module)产生每一个原始影像的区域混淆机制(Region ConfusionMechanism,RCM)影像。RCM影像是通过将相应的原始影像分离成多个区块，然后随机重新(reshuffling)排列这些区块的位置和一个或多个增强操作(例如区块的垂直和水平翻转)以及裁剪(cropping)和缩放(resizing)区块的内容来产生的。通过用其对应的RCM影像来增强原始影像，在RCM影像中的每一个区块的内容描述了样本物体的局部细节，这反过来可以引导MFFG影像搜索和检索设备200的搜索和检索模型以学习以更多地关注被分类物体的重要局部部分。

为了说明上述内容，汽车影像如图3所示。这些影像由以下形式的标题引用：[元类别]-[子类别]-[样本编号]-[组织：原始影像/RCM:RCM影像]。因此，带有标题Car-A-1-Ori的影像意味着它是在子类别A中的样本物体no.1的原始影像，该样本物体位于Car元类别中；Car-B-1-RCM表示它是子类别B中1号样本物体的RCM影像，属于Car元类别。

训练过程继续将训练数据集输入到MFFG影像搜索和检索装置200，并使其特征提取网络201从每一个原始影像和每一个RCM影像中提取样本物体的一个或多个样本特征(过程302)。然后，用多个样本特征迭代地训练CLM 202、LDM 203和ODM 204，直到它们的分类模型收敛(过程303)。

在训练CLM 202时，目标是最小化CLM 202的第一基于样本对的损失值。首先，构建具有锚定原始影像(anchor original image)以及另一原始影像的第一正样本对(positive sample pair)，其中锚定原始影像作为原始影像之一，且其包括属于这些子类别的其中之一的样本物体。另一原始影像包括属于同一子类别的样本物体。接着，构建具有锚定原始影像(anchor original image)和另一个原始影像的第一负样本对(negativesample pair)。锚定原始影像作为原始影像之一，且其包括属于这些子类别的其中之一的样本物体。另一个原始影像包括的样本物体所属的子类别不同于锚定原始影像中的样本物体的所属的子类别。CLM通过基于样本对的损失函数调整到恰当的神经网络参数使得从具有多个原始影像的所有第一正样本对中，可最小化所有第一正样本对的平均特征距离，以及从具有多个原始影像的所有第一负样本对中，最大化所有第一负样本对的平均特征距离，借此最小化第一成对损失。更具体地，当CLM基于样本对的损失函数最小化第一成对损失时，CLM 202的神经网络被更新，使得CLM 202产生的同样子类别的多个样本物体的多个第一特定特征可以被聚类(clustered)，并且CLM 202产生的不同子类别的多个样本物体的多个第一特定特征可以被分离。由经训练的CLM 202从物体产生的多个第一特定特征是多个物体的多个整体外观特征，并且对于属于相同子类别的多个物体，它们应该是相似的。另一方面，由经训练的CLM 202从属于不同子类别的多个物体产生出的这些总体外观特征应该是可区分的。

参考图4A以示例进行说明。在该示例中，用相同子类别a中的锚定原始影像Car-A-1-Ori和原始影像Car-A-2-Ori构建第一正样本对；并且利用子类别B中的锚定原始影像Car-A-1-Ori和原始影像Car-B-1-Ori构建第一负样本对。第一正样本对之间的特征距离是Dist_pos；并且第一负样本对之间的特征距离是Dist_neg。

CLM 202旨在通过观察多个物体的多个总体外观特征下的一子类别，以区分多个子类别之间的描述。

在训练LDM 203时，目标是最小化LDM 203的第二基于样本对的损失值。首先，构建具有锚定RCM影像以及另一RCM影像的第二正样本对，其中锚定RCM影像作为多个RCM影像之一，且其包括属于这些子类别的其中之一的样本物体。另一RCM影像包括属于同一子类别的样本物体。接着，构建具有锚定原始影像以及另一原始影像的第二负样本对，其中锚定原始影像作为原始影像的其中之一(其对应到锚定RCM影像)。另一RCM影像包括的样本物体其所属的子类别不同于锚定原始影像中的样本物体的子类别。LDM通过基于样本对的损失函数调整到恰当的神经网络参数使得从具有多个RCM影像的所有第二正样本对中，可最小化所有第二正样本对的平均特征距离，以及从具有多个原始影像的所有第二负样本对中，最大化所有第二负样本对的平均特征距离，借此最小化第二成对损失。更具体地，当LDM基于样本对的损失函数最小化第二成对损失时，LDM 203的神经网络被更新，使得由LDM 203产生的样本物体的第二特定特征集中于描述样本物体的局部细节，同时仍然区分不同子类别的多个样本物体。

参考图4B以示例进行说明。在该示例中，第二正样本对由RCM影像Car-A-1-RCM和同一子类别A中的另一RCM影像Car-A-2-RCM构成；并且利用子类别A中的原始影像Car-A-1-Ori和子类别B中的原始影像Car-B-1-Ori构建第二负样本对。第二正样本对之间的特征距离是Dist_pos；并且第二负样本对之间的特征距离是Dist_neg。

LDM 203旨在捕获在同一子类别(即，同一车型的徽标(logo)、前照灯(headlight)和车门(door))中多个物体的共同区域部分描述。因为局部细节通常表示两个视觉上相似的子类别之间的差异。RCM影像中每一个区块的内容是模块主要关注的内容，RCM影像中跨区域的连接特征被忽略。由LDM 203产生的多个第二特定特征预计将显示多个物体的局部细节，从而它可以帮助整个MFFG影像搜索和检索设备从多个物体中定位和提取感兴趣的区域以进行分析。同一子类别的多个物体的唯一区域特征被聚集并找到，而存在于不同子类别中的多个特征被忽略。

在训练ODM 204时，目标是最小化ODM 204的第三基于样本对的损失值。首先，构建具有锚定原始影像以及另一原始影像的第三正样本对，其中锚定原始影像作为原始影像之一，且其包括属于这些子类别的其中之一的样本物体。另一原始影像包括属于同一子类别的样本物体。接着，构建具有锚定RCM影像和另一个RCM影像的第三负样本对，其中锚定RCM影像作为多个RCM影像之一(其对应到锚定原始影像)。另一RCM影像包括的样本物体所属的子类别相同于锚定原始影像中的样本物体的子类别。ODM通过基于样本对的损失函数调整到恰当的神经网络参数使得从具有多个原始影像的所有第三正样本对中，可最小化所有第三正样本对的平均特征距离，和从具有多个RCM影像的所有第三负样本对中，最大化所有第三负样本对的平均特征距离，借此最小化第三成对损失。更具体地，当ODM基于样本对的损失函数最小化第三成对损失时，ODM 204的神经网络被更新，使得ODM 204产生的样本物体的第三特定特征聚焦于样本物体的轮廓，但忽略样本物体的局部细节。

参考图4C以示例进行说明。在该示例中，用原始影像Car-A-1-Ori和相同子类别A中的另一原始影像Car-A-2-Ori构建第三正样本对；并且用相同子类别A中的RCM影像Car-A-1-RCM和另一RCM影像Car-B-1-Ori构建第三负样本对。第三正样本对之间的特征距离是Dist_pos；并且第三负样本对之间的特征距离是Dist_neg。

预计ODM 204将捕捉多个物体的轮廓，并去除RCM影像引入的区块之间的连接特征噪声。本模块只关注多个物体的形状，而忽略多个物体的区域部分特征。

根据本文公开的实施例的设备和方法的功能单元和模块可以使用计算设备、计算机处理器或电子电路来实现，以及根据本公开的教导配置或编程的其他可编程逻辑器件。在计算设备、计算机处理器或可编程逻辑设备中运行的计算机指令或软件代码可以由软件或电子领域的技术人员基于本公开的教导容易地准备。

根据实施例的所有或部分方法可以在一个或多个计算设备中执行，包括服务器计算机、个人计算机、膝上型计算机、移动计算设备(如智能手机和平板电脑)。

实施例可包括计算机存储介质、具有存储在其中的计算机指令或软件代码的瞬态和非瞬态存储器设备，其可用于编程或配置计算设备、计算机处理器或电子电路以执行本发明的任何过程。存储介质、瞬态和非瞬态存储设备可以包括但不限于软盘、光盘、蓝光光盘、DVD、CD-ROM和磁光盘、ROM、RAM、闪存设备，或者适合于存储指令、代码和/或数据的任何类型的介质或设备。

根据各种实施例的每一个功能单元和模块也可以在分布式计算环境和/或云计算环境中实现，局域网(Local Area Network,LAN)、互联网(Internet)和其他形式的数据传输介质。

为了说明和描述的目的，提供了本发明的上述描述。其并非旨在穷尽或将本发明限制于所公开的精确形式。许多修改和变化对于本领域技术人员来说是显而易见的。

选择和描述实施例是为了最好地解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够理解本发明的各种实施例以及适合于预期特定用途的各种修改。

Claims

1.一种用于多焦点细粒度(MFFG)影像搜索和检索的设备，其特征在于，包括：

特征提取网络，由至少一个处理器所执行，其被配置为从查询影像中提取查询物体的一个或多个基本查询特征；

分类学习模块，由至少一个处理器所执行，其被配置为从所述基本特征产生一个或多个第一特定查询特征，其中所述第一查询特定特征表示所述查询物体的整体外观；

局部关键区域描述模块，由至少一个处理器所执行，其被配置为从所述基本特征产生一个或多个第二特定查询特征，其中所述第二查询特定特征表示所述查询物体的局部区域细节；和

影像搜索引擎，由至少一个处理器所执行，其被配置为：

结合所述第一特定查询特征和所述第二特定查询特征以形成一个或多个查询图像的联合特征；

获得属于所述查询物体的元类别的多个图库影像物体中的每一个的一个或多个特征；

决定所述多个查询图像的联合特征与所述图库影像物体中的每一个的多个特征之间的余弦距离；

依据从最相似于所述查询物体到最不相似于所述查询物体的所述多个余弦距离对所述多个图库影像物体进行排序，其中在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最短余弦距离的所述图库影像物体与所述查询物体最相似，并且在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最大余弦距离的所述图库影像物体与所述查询物体最不相似；和

输出N个与所述查询物体最相似的所述已排序的多个图库影像物体的多个图库影像。

2.根据权利要求1所述的设备，其特征在于，进一步包括：

轮廓描述模块，由至少一个处理器所执行，其被配置为从所述多个基本查询特征产生一个或多个第三特定查询特征，其中所述第三特定查询特征表示所述查询物体的轮廓；

其中，所述影像搜索引擎还被配置为组合所述第一特定查询特征、所述第二特定查询特征和所述第三特定查询特征以形成所述查询物体的一个或多个查询图像的联合特征。

3.根据权利要求1所述的设备，其特征在于，

其中所述特征提取网络由包括一个或多个卷积层和一个或多个全连接层的卷积神经网络(Convolutional neural network,CNN)实现；

其中所述分类学习模块由CNN实现，且其包括一个或多个卷积层和一个或多个全连接层以及第一基于样本对的损失函数；和

其中所述局部关键区域描述模块由CNN实现，且其包括一个或多个卷积层和一个或多个全连接层以及第二基于样本对的损失函数。

4.根据权利要求1所述的设备，其特征在于，其中，所述影像搜索引擎还被配置为通过串联所述第一特定查询特征和所述第二特定查询特征来组合所述第一具体查询特征和所述第二具体查询特征，以形成一个或多个查询图像的联合特征。

5.根据权利要求1所述的设备，其特征在于，其中，所述影像搜索引擎还被配置为通过对所述第一特定查询特征和所述第二特定查询特征求和来组合所述第一具体查询特征和所述第二具体查询特征，以形成一个或多个查询图像的联合特征。

6.一种用于训练权利要求2的设备的方法，其特征在于，包括：

获得包括多个原始影像的训练数据集，每一个所述原始影像包括属于单个元类别的多个子类别之一的多个样本物体中的一个样本物体；

通过增强模块为每一个所述原始影像产生区域混淆机制(RCM)影像，其中所述RCM影像是通过将对应的原始影像分离成多个区块，然后随机重新排列所述多个区块的多个位置以及一个或多个所述区块的垂直翻转和水平翻转来产生所述RCM影像；

通过所述特征提取网络从每一个所述原始影像和每一个所述RCM影像中提取所述样本物体的一个或多个样本特征；

用所述多个样本特征迭代地训练所述分类学习模块、所述局部关键区域描述模块和所述轮廓描述模块，直到所有所述模块的分类模型收敛，包括：

最小化所述分类学习模块的第一成对损失；

最小化所述局部关键区域描述模块的第二成对损失；和

最小化所述轮廓描述模块的第三成对损失。

7.根据权利要求6所述的用于训练的方法，其特征在于，

其中最小化所述分类学习模块的所述第一成对损失包括：

构建具有第一锚定原始影像以及所述多个原始影像的另一个的第一正样本对，其中

所述第一锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体，且所述多个原始影像的所述另一个包括属于同一子类别的样本物体；

构建具有所述第一锚定原始影像以及所述多个原始影像的另一个的第一负样本对，其中所述多个原始影像的所述另一个包括样本物体，且所述样本物体的子类别不同于在所述第一锚定原始影像中的所述样本物体的所述子类别；

从具有所述多个原始影像的所有第一正样本对中，最小化所述所有第一正样本对的平均特征距离，以及从具有所述多个原始影像的所有第一负样本对中，最大化所述所有第一负样本对的平均特征距离；和

更新所述分类模块神经网络；

其中最小化所述局部关键区域描述模块的所述第二成对损失包括：

构建具有第二锚定RCM影像以及所述多个RCM影像的另一个的第二正样本对，其中所述第二锚定RCM影像作为所述多个RCM影像的一者且包括属于所述多个子类别中的一个的样本物体，且所述多个RCM影像的所述另一个包括属于所述同样子类别的样本物体；

构建具有第二锚定原始影像以及所述多个原始影像的另一个的第二负样本对，其中所述第二锚定原始影像作为对应于所述第二锚定RCM影像的所述多个原始影像中的一个，且所述多个原始影像的所述另一个包括的样本物体其所属的子类别不同于所述第二锚定原始影像中的所述样本物体的所述子类别；

从具有所述多个RCM影像的所有第二正样本对中，最小化所述所有第二正样本对的平均特征距离，以及从具有所述多个原始影像的所有第二负样本对中，最大化所述所有第二负样本对的平均特征距离；和

更新所述局部关键区域描述模块神经网络；和

其中最小化所述轮廓描述模块的所述第三成对损失包括：

构建具有第三锚定原始影像以及所述多个原始影像的另一个的第三正样本对，其中所述第三锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体，且所述多个原始影像的所述另一个包括属于同一子类别的样本物体；

构建具有第三锚定RCM影像以及所述多个RCM影像的另一个的第三负样本对，其中所述第三锚定RCM影像作为对应于所述第三锚定原始影像的所述多个RCM影像的一者且所述多个RCM影像的所述另一个包括的样本物体所属的子类别相同于在所述第三锚定原始影像中的所述样本物体的子类别；

从具有多个原始影像的所有第三正样本对中，最小化所述所有第三正样本对的平均特征距离，以及从具有多个RCM影像的所有第三负样本对中，最大化所述所有第三负样本对的平均特征距离；和

更新所述轮廓描述模块神经网络。

8.一种从影像数据库执行视觉内容搜索与检索的方法，其使用视觉内容搜索和检索平台，所述视觉内容搜索和检索平台包括物体检测模型、粗粒度影像分类模型和一个或多个细粒度影像分类模型的选择组合，其特征在于，所述方法包括：

接收包括一个或多个物体的查询影像；

通过由至少一个处理器所执行的所述物体检测模型，在所述查询影像中的所述多个物体中定位和提取查询物体；

通过由至少一个处理器所执行的所述粗粒度影像分类模型，对所述查询物体的元类别进行分类；

从所述细粒度影像分类模型的选择组合中选择出一细粒度影像分类模型，其利用由权利要求1的所述设备实现并且利用训练数据训练，其中所述训练数据包括多个影像，所述多个影像包括属于所述查询物体的所述元类别的多个样本物体；和

通过所选的细粒度影像分类模型，从所述影像数据库搜索和检索，其中所述影像数据库多个图库影像，所述多个图库影像包括多个图库影像物体，所述多个图库影像物体属于所述查询物体的所述元类别。

9.根据权利要求8的方法，其特征在于，

其中所述物体检测模型在定位和提取所述查询影像中的所述多个物体中的所述查询物体时，应用基于实时监督的物体检测方法从背景噪声中提取多个影像中的多个物体；和

其中所述粗粒度影像分类模型由卷积神经网络(CNN)实现，所述卷积神经网络包括：

一个或多个卷积层，被配置为提取所述查询物体的一个或更多个基本查询特征；和

决策模块，其具有一个或多个全连接层，所述层被配置为加总所述多个基本查询特征并对所述查询物体的所述元类别进行分类。

10.一种用于训练如权利要求8所述的视觉内容搜索和检索平台的方法，其特征在于，包括：

获得包括多个原始影像的训练数据，每一个所述原始影像包括属于多个元类别之一个的多个子类别之一个的多个样本物体中的一个样本物体；

通过由至少一个处理器所执行的半自动标记模块，对所述多个原始影像进行半标记，所述半标记包括预估所述多个原始影像中的多个样本物体的多个位置并围绕所预估的位置放置多个边界框；

微调所述多个边界框以更准确地标记所述多个原始影像中的所述多个样本物体，以产生完全注释的训练数据；

用所述完全注释的训练数据训练所述物体检测模型，直到所述物体检测模型收敛、定位并从完全注释的训练数据中提取所述多个样本物体；

用提取的多个样本物体训练所述粗粒度影像分类模型，直到所述粗粒度影像分类模型收敛；

获得包括多个原始影像的所选训练数据，每一个所述原始影像包括属于所选元类别的多个样本物体中的一个；和

用所选的训练数据训练所述细粒度影像分类模型，直到所述细粒度影像分类模型收敛。

11.一种用于多焦点细粒度(MFFG)影像检索的设备，其特征在于，包括：

分类学习模块，由至少一个处理器所执行，其被配置为从所述多个基本特征产生一个或多个第一特定查询特征，其中所述第一查询特定特征表示所述查询物体的整体外观；

轮廓描述模块，由至少一个处理器所执行，其被配置为从所述多个基本特征产生一个或多个第三特定查询特征，其中所述多个第三查询特定特征表示所述查询物体的轮廓；和

影像搜索引擎，由至少一个处理器所执行，其被配置为：

组合所述多个第一特定查询特征和所述多个第三特定查询特征以形成一个或多个查询图像的联合特征；

获得多个图库影像物体的每一个的一个或多个特征，所述多个图库影像物体属于所述查询物体的元类别；

决定所述多个查询图像的联合特征与所述图库影像物体中的每一个的特征之间的余弦距离；

依据从最相似于所述查询物体到最不相似于所述查询物体的所述多个余弦距离对所述多个图库影像物体进行排序，其中具有在所述查询图像的联合特征与所述图库影像物体的所述多个特征之间最短余弦距离的所述图库影像物体与所述查询物体最相似，并且

具有在所述查询图像的联合特征与所述图库影像物体的所述多个特征之间最长余弦距离的所述图库影像物体与所述查询物体最不相似；和

输出N个与所述查询物体最相似的所述已排序的图库影像物体的所述多个图库影像。

12.一种用于多焦点细粒度(multi-focus fine-grained,MFFG)影像检索的设备，其特征在于，包括：

特征提取网络，由至少一个处理器所执行，其被配置为从所述查询影像中提取查询物体的一个或多个基本查询特征；

分类学习模块，由至少一个处理器所执行，其被配置为从所述多个基本特征产生一个或多个第一特定查询特征，其中所述多个第一查询特定特征表示所述查询物体的整体外观；

局部关键区域描述模块，由至少一个处理器所执行，其被配置为从所述多个基本查询特征产生一个或多个第二特定查询特征，其中所述第二特定查询特征表示所述查询物体的局部区域细节；

影像搜索引擎，由至少一个处理器所执行，其被配置为：

组合所述第一特定查询特征、所述第二特定查询特征和所述第三特定查询特征以形成一个或多个查询图像的联合特征；

决定所述多个查询图像的联合特征与所述图库影像物体中的每一个的所述多个特征之间的余弦距离；

依据从最相似于所述查询物体到最不相似于所述查询物体的所述多个余弦距离对所述多个图库影像物体进行排序，其中在所述查询图像的联合特征和所述图库影像物体的特征之间具有所述最短余弦距离的所述图库影像物体与所述查询物体最相似，并且在所述查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最大余弦距离的所述图库影像物体与所述查询物体最不相似；和

输出N个所述与查询物体最相似的已排序图库影像物体的多个图库影像。