CN114610942A

CN114610942A - 基于联合学习的图像检索方法及装置、存储介质、电子设备

Info

Publication number: CN114610942A
Application number: CN202210259204.1A
Authority: CN
Inventors: 赵波; 胡郡郡; 唐大闰
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10

Abstract

本发明公开了一种基于联合学习的图像检索方法及装置、存储介质、电子设备，属于人工智能领域。其中，该方法包括：提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；分别获取所述局部图像的局部特征和所述全局图像的全局特征；采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；根据所述融合特征向量进行图像检索。通过本发明，兼顾整体和细节，提升了融合特征向量的图像特征的表征能力，解决了相关技术中图像检索精度低的技术问题，提升了目标图像的检索精度。

Description

基于联合学习的图像检索方法及装置、存储介质、电子设备

技术领域

本发明涉及人工智能领域，具体而言，涉及一种基于联合学习的图像检索方法及装置、存储介质、电子设备。

背景技术

相关技术中，随着移动终端的出现，人们更喜欢用手机记录生活的日常，用手机录像，拍照，再加上分布在城市各个角落的监控摄像头，每天都会有数以亿计的图片资源产生，这些图片中有大量重复或相似的图片，这些相似重复的图片是浪费存储资源的，对于一些机构来说删减掉这些重复的图片意义巨大。而这就需要用到图像检索技术，图像检索可以将图像库中的相似的图片检索出来。随着卷积神经网络的成功应用，图像检索技术也随之不断发展，一张图片中可能存在不同的主体以及背景信息，对于检索来说，可能有时候需要局部信息，有时候需要全局特征，如何设计出能应对这些类内差异的有效且高效的图像检索算法仍是一项研究难题。

相关技术中的提取特征描述子的方法，需要一定的经验性，虽然不要训练，尺度不变特征变换(Scale-invariant feature transform，SIFT)关注的是局部特征，并且对于一些像文字类的关键点检测效果不好。而卷积神经网络，比如ResNet18等在大规模数据集上的预训练，然后提取全局特征。这种技术方案是根据上述方法提取的深度特征描述子，然后对不同的特征进行计算相似度，缺点是网络提取了图片的全局特征，无法对图片中的一些细节进行注意，检索精度不高。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种基于联合学习的图像检索方法及装置、存储介质、电子设备。

根据本申请实施例的一个方面，提供了一种基于联合学习的图像检索方法，包括：提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；分别获取所述局部图像的局部特征和所述全局图像的全局特征；采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；根据所述融合特征向量进行图像检索。

进一步，根据所述融合特征向量进行图像检索包括：将所述目标图像拆分为多个图像块；基于所述多个图像块生成所述目标图像的自注意力特征向量；采用所述自注意力特征向量和所述融合特征向量进行图像检索。

进一步，基于所述多个图像块生成所述目标图像的自注意力特征向量包括：将所述多个图像块按序并列输入自注意力模型；从所述自注意力模型的编码器输出自注意力特征向量，其中，所述自注意力模型包括编码器和解码器，所述自注意力模型采用多个样本对训练得到，每个所述样本对包括样本图像和已分类的向量分隔符。

进一步，采用所述自注意力特征向量和所述融合特征向量进行图像检索包括：将所述自注意力特征向量和所述融合特征向量进行向量相加，得到混合特征向量；计算所述混合特征向量与数据集中所有图像向量的相似度，其中，所述数据集包括多张候选图像，每张候选图像对应一个图像向量；将相似度最大的若干张候选图像输出为所述目标图像的检索结果。

进一步，分别获取所述局部图像的局部特征和所述全局图像的全局特征包括：将所述全局图像的缺失区域采用空白像素进行填充，得到填充图像；将所述局部图像和所述填充图像分别输入第一卷积神经网络和第二卷积神经网络，从所述第一卷积神经网络输出所述局部特征，从所述第二卷积神经网络输出全局特征，其中，所述第一卷积神经网络配置第一网络权重系数，所述第二卷积神经网络配置第二网络权重系数。

进一步，提取目标图像的局部图像和全局图像包括：采用检测器对所述目标图像进行目标检测，将所述检测器输出得分最高的候选区域确定为目标区域；将所述目标区域识别为所述目标图像的前景图像，将所述目标图像除所述目标区域之外的其他图像识别为背景图像；将所述前景图像确定为局部图像，所述背景图像确定为全局图像。

进一步，采用检测器对所述目标图像进行目标检测包括：将所述目标图像输入卷积层，从所述卷积层输出特征图，其中，所述检测器包括所述卷积层和目标检测网络，其中，所述目标检测网络采用带标注的样本数据和损失曲线预先训练得到；将所述特征图输入所述目标检测网络，生成若干个不同分数的候选框。

根据本申请实施例的另一个方面，还提供了一种基于联合学习的图像检索装置，包括：提取模块，用于提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；获取模块，用于分别获取所述局部图像的局部特征和所述全局图像的全局特征；生成模块，用于采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；检索模块，用于根据所述融合特征向量进行图像检索。

进一步，所述检索模块包括：拆分单元，用于将所述目标图像拆分为多个图像块；生成单元，用于基于所述多个图像块生成所述目标图像的自注意力特征向量；检索单元，用于采用所述自注意力特征向量和所述融合特征向量进行图像检索。

进一步，所述生成单元包括：输入子单元，用于将所述多个图像块按序并列输入自注意力模型；输出子单元，用于从所述自注意力模型的编码器输出自注意力特征向量，其中，所述自注意力模型包括编码器和解码器，所述自注意力模型采用多个样本对训练得到，每个所述样本对包括样本图像和已分类的向量分隔符。

进一步，所述检索单元包括：第一计算子单元，用于将所述自注意力特征向量和所述融合特征向量进行向量相加，得到混合特征向量；第二计算子单元，用于计算所述混合特征向量与数据集中所有图像向量的相似度，其中，所述数据集包括多张候选图像，每张候选图像对应一个图像向量；输出子单元，用于将相似度最大的若干张候选图像输出为所述目标图像的检索结果。

进一步，所述获取模块包括：填充单元，用于将所述全局图像的缺失区域采用空白像素进行填充，得到填充图像；处理单元，用于将所述局部图像和所述填充图像分别输入第一卷积神经网络和第二卷积神经网络，从所述第一卷积神经网络输出所述局部特征，从所述第二卷积神经网络输出全局特征，其中，所述第一卷积神经网络配置第一网络权重系数，所述第二卷积神经网络配置第二网络权重系数。

进一步，所述提取模块包括：检测单元，用于采用检测器对所述目标图像进行目标检测，将所述检测器输出得分最高的候选区域确定为目标区域；识别单元，用于将所述目标区域识别为所述目标图像的前景图像，将所述目标图像除所述目标区域之外的其他图像识别为背景图像；确定单元，用于将所述前景图像确定为局部图像，所述背景图像确定为全局图像。

进一步，所述检测单元包括：处理子单元，用于将所述目标图像输入卷积层，从所述卷积层输出特征图，其中，所述检测器包括所述卷积层和目标检测网络，其中，所述目标检测网络采用带标注的样本数据和损失曲线预先训练得到；生成子单元，用于将所述特征图输入所述目标检测网络，生成若干个不同分数的候选框。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的步骤。

根据本申请实施例的另一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行上述方法中的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的步骤。

本方案可以应用于深度学习技术领域的计算机视觉中，通过本发明，提取目标图像的局部图像和全局图像，其中，目标图像包括局部图像和全局图像，分别获取局部图像的局部特征和全局图像的全局特征，采用局部特征和全局特征生成目标图像的融合特征向量，根据融合特征向量进行图像检索，通过从目标图像的局部和全局分别获取局部特征和全局特征，并生成融合特征向量，融合特征向量嵌入了局部特征和全局特征，兼顾整体和细节，提升了融合特征向量的图像特征的表征能力，解决了相关技术中图像检索精度低的技术问题，提升了目标图像的检索精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种服务器的硬件结构框图；

图2是根据本发明实施例的一种基于联合学习的图像检索方法的流程图；

图3是本发明实施例目标检测网络的网络结构图；

图4是本发明实施例的图像检索示意图；

图5是根据本发明实施例的一种基于联合学习的图像检索装置的结构框图；

图6是实施本发明实施例的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在服务器上为例，图1是本发明实施例的一种服务器的硬件结构框图。如图1所示，服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述服务器的结构建成限定。例如，服务器还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储服务器程序，例如，应用软件的软件程序以及模块，如本发明实施例中的一种基于联合学习的图像检索方法对应的服务器程序，处理器102通过运行存储在存储器104内的服务器程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种基于联合学习的图像检索方法，图2是根据本发明实施例的一种基于联合学习的图像检索方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，提取目标图像的局部图像和全局图像，其中，目标图像包括局部图像和全局图像；

在本实施例中，目标图像由局部图像和全局图像组成，局部图像用于表征目标图像的局部特征，全局图像用于表征目标图像的全局特征，其中，局部图像可以是通过目标检测算法检测出来的，也可以是用户在目标图像中自定义截取的图像区域，该自定义的区域是用户重点关心的区域，如标志性建筑，人物头像，车牌号等。

步骤S204，分别获取局部图像的局部特征和全局图像的全局特征；

在本实施例中，采用特征提取算法或者预训练的特征提取神经网络，获取局部图像，获取全局图像和全局特征。

步骤S206，采用局部特征和全局特征生成目标图像的融合特征向量；

本实施例的融合特征向量融合了局部特征的特征描述子和全局特征的特征描述子，同时兼顾目标图像的局部和全局，将融合特征向量作为检索关键信息，可以提高检索的召回率和精度。

步骤S208，根据融合特征向量进行图像检索。

通过上述步骤，提取目标图像的局部图像和全局图像，其中，目标图像包括局部图像和全局图像，分别获取局部图像的局部特征和全局图像的全局特征，采用局部特征和全局特征生成目标图像的融合特征向量，根据融合特征向量进行图像检索，通过从目标图像的局部和全局分别获取局部特征和全局特征，并生成融合特征向量，融合特征向量嵌入了局部特征和全局特征，兼顾整体和细节，提升了融合特征向量的图像特征的表征能力，解决了相关技术中图像检索精度低的技术问题，提升了目标图像的检索精度。

在本实施例的一个实施方式中，根据融合特征向量进行图像检索包括：

S11，将目标图像拆分为多个图像块；

在一个实例中，可以将目标图像的原图在横向和轴向分别分成四份，整体分为4x4＝16个图像块。可选的，也可以根据目标图像的尺寸，分辨率等参数适配拆分后图象块的数量。

S12，基于多个图像块生成目标图像的自注意力特征向量；

在一个示例中，基于多个图像块生成目标图像的自注意力特征向量包括：将多个图像块按序并列输入自注意力模型；从自注意力模型的编码器输出自注意力特征向量，其中，自注意力模型包括编码器和解码器，自注意力模型采用多个样本对训练得到，每个样本对包括样本图像和已分类的向量分隔符。

基于上述实例中，自注意力模型为transformer模块，将这16个图像块按照从上到下，从左到右的顺序并列输入transformer模块，从transformer模块的编码器输出自注意力特征向量。

在自注意力模型的训练过程中，输入多个样本对，将样本对经过transformer后的CLS(special classification embedding，分类的向量)Token进行分类，训练过程中，通过全连接层进行分类，图像检索模型的训练通过分类的方法来训练，通过分类使得相同图片具有相同的特征，分类是训练的时候使用，在后续的检索阶段，使用分类层的前一层的特征，即编码器输出的数据。

S13，采用自注意力特征向量和融合特征向量进行图像检索。

在一个示例中，采用自注意力特征向量和融合特征向量进行图像检索包括：将自注意力特征向量和融合特征向量进行向量相加，得到混合特征向量；计算混合特征向量与数据集中所有图像向量的相似度，其中，数据集包括多张候选图像，每张候选图像对应一个图像向量；将相似度最大的若干张候选图像输出为目标图像的检索结果。

在本实施例中，向量相加是将两个向量相同位置的分量加在一起，实现两类特征向量的混合，将注意力分支提取到的融合特征向量与Transformer注意力提取到的自注意力特征向量混合，实现目标图像的图像特征的更进一步融合，提升提取特征的表征能力。

通过图像检测技术为提升感兴趣区域的注意力，并使用transformer模块得到图片的自注意同时也得到图片的感兴趣区域，最终将特征进行融合，提升了特征向量的表征能力。

在本实施例的另一个实施方式中，如在目标图像的图像布局较为简单，图像中的元素(人或物)较少的场景下，也可以仅采用融合特征向量作为检索关键信息进行图像检索，检索过程包括：计算融合特征向量与数据集中所有图像向量的相似度，其中，数据集包括多张候选图像，每张候选图像对应一个图像向量；将相似度最大的若干张候选图像输出为目标图像的检索结果。

可选的，可以设置一个阈值，在检索结果的输出界面仅显示相似度大于阈值的若干张候选图像，并按照相似度的大小进行列表排序。在一些示例中，在数据集中检索出目标图像的检索结果之后，还包括：将检索结果和目标图像设置相同的标签信息，该标签信息用于表征该目标图像和检索结果为同一个分类的图像集(相似的图像集)。

可选的，分别获取局部图像的局部特征和全局图像的全局特征包括：将全局图像的缺失区域采用空白像素进行填充，得到填充图像；将局部图像和填充图像分别输入第一卷积神经网络和第二卷积神经网络，从第一卷积神经网络输出局部特征，从第二卷积神经网络输出全局特征，其中，第一卷积神经网络配置第一网络权重系数，第二卷积神经网络配置第二网络权重系数。

在一个实施场景中，检测到物体以后，检测到的目标物体作为局部图像抠出来单独作为一个整体，目标图像的原图抠出来的区域使用全0或全1的像素点进行填充。然后局部图像和全局图像两张图分别进入两个不同的卷积神经网络(ResNet18)，两个不同的ResNet18网络是指两个分支不进行权重共享，而是分别使用两个相同网络结构的ResNet18网络。第一ResNet18的作用是提取检测出的局部图像的特征，第二ResNet18的网络是提取除检测区域外全局图像的特征。

在一个实施场景中，提取目标图像的局部图像和全局图像包括：采用检测器对目标图像进行目标检测，将检测器输出得分最高的候选区域确定为目标区域；将目标区域识别为目标图像的前景图像，将目标图像除目标区域之外的其他图像识别为背景图像；将前景图像确定为局部图像，背景图像确定为全局图像。

利用目标检测方法将感兴趣目标区域抠取出来，并用单一像素填充，然后填充后的图像与抠取出来的目标区域单独处理，检测器包括卷积层和目标检测网络，目标检测网络可以找出图像中所有感兴趣的目标(物体)，确定它们的类别和位置。利用目标检测网络可以将图片中的物体检测出来，区分前景和背景，目标图片经过检测器后，可以保留得分最高的一个候选区域即目标区域。

可选的，采用检测器对目标图像进行目标检测包括：将目标图像输入卷积层，从卷积层输出特征图，其中，检测器包括卷积层和目标检测网络，其中，目标检测网络采用带标注的样本数据和损失曲线预先训练得到；将特征图输入目标检测网络，生成若干个不同分数的候选框。

可选的，本实施例的目标检测网络为Faster RCNN(Region ConvolutionalNeural Networks，目标卷积神经网络)网络，图3是本发明实施例目标检测网络的网络结构图，包括：卷积层(conv layers)，RPN(Region Proposal Network，区域建议网络)，目标区域汇集层(ROI pooling，Region Of Interest),目标图像通过卷积层得到特征图，一个分支经过RPN得到候选目标，一个分支直接输出候选目标，最后经过目标区域汇集层，通过分类器得到目标区域。

输入图片经过卷积层后，再经过RPN网络生成候选框，最后再对候选区域进行分类和回归，这里经过目标检测得到的检测框就是需要注意的区域，即目标区域。目标检测网络通过预训练的方式得到，网络训练的数据是由需要检索的数据集确定的，也可由一些通用的数据集组成，具体根据检索任务进行适配，样本数据是有标注的数据，模型的收敛条件可根据训练的损失曲线确定，也可根据模型在测试集上的表现确定。目标检测网络的目的在于将图片中的区域检测出来，是先根据标注好的训练数据进行模型的训练，然后使得模型具有检测的能力，在后续阶段对目标图像进行目标检测。

图4是本发明实施例的图像检索示意图，目标图像通过检测器得到局部图像和全部图像，分别进入不同的ResNet18，同时，将所述目标图像拆分后输入Transformer，最后融合所有的特征向量，进行图像分类检索。

采用本实施例的方案，利用独特的注意力方式，将图片中的感兴趣目标区域提取出来，提升了图片特征的表征能力。将注意力分支与Transformer注意力联合使用，可进一步提升特征的表征能力，最终提升检索精度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种基于联合学习的图像检索装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种基于联合学习的图像检索装置的结构框图，如图5所示，该装置包括：提取模块50，获取模块52，生成模块54，检索模块56，其中，

提取模块50，用于提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；

获取模块52，用于分别获取所述局部图像的局部特征和所述全局图像的全局特征；

生成模块54，用于采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；

检索模块56，用于根据所述融合特征向量进行图像检索。

可选的，所述检索模块包括：拆分单元，用于将所述目标图像拆分为多个图像块；生成单元，用于基于所述多个图像块生成所述目标图像的自注意力特征向量；检索单元，用于采用所述自注意力特征向量和所述融合特征向量进行图像检索。

可选的，所述生成单元包括：输入子单元，用于将所述多个图像块按序并列输入自注意力模型；输出子单元，用于从所述自注意力模型的编码器输出自注意力特征向量，其中，所述自注意力模型包括编码器和解码器，所述自注意力模型采用多个样本对训练得到，每个所述样本对包括样本图像和已分类的向量分隔符。

可选的，所述检索单元包括：第一计算子单元，用于将所述自注意力特征向量和所述融合特征向量进行向量相加，得到混合特征向量；第二计算子单元，用于计算所述混合特征向量与数据集中所有图像向量的相似度，其中，所述数据集包括多张候选图像，每张候选图像对应一个图像向量；输出子单元，用于将相似度最大的若干张候选图像输出为所述目标图像的检索结果。

可选的，所述获取模块包括：填充单元，用于将所述全局图像的缺失区域采用空白像素进行填充，得到填充图像；处理单元，用于将所述局部图像和所述填充图像分别输入第一卷积神经网络和第二卷积神经网络，从所述第一卷积神经网络输出所述局部特征，从所述第二卷积神经网络输出全局特征，其中，所述第一卷积神经网络配置第一网络权重系数，所述第二卷积神经网络配置第二网络权重系数。

可选的，所述提取模块包括：检测单元，用于采用检测器对所述目标图像进行目标检测，将所述检测器输出得分最高的候选区域确定为目标区域；识别单元，用于将所述目标区域识别为所述目标图像的前景图像，将所述目标图像除所述目标区域之外的其他图像识别为背景图像；确定单元，用于将所述前景图像确定为局部图像，所述背景图像确定为全局图像。

可选的，所述检测单元包括：处理子单元，用于将所述目标图像输入卷积层，从所述卷积层输出特征图，其中，所述检测器包括所述卷积层和目标检测网络，其中，所述目标检测网络采用带标注的样本数据和损失曲线预先训练得到；生成子单元，用于将所述特征图输入所述目标检测网络，生成若干个不同分数的候选框。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；

S2，分别获取所述局部图像的局部特征和所述全局图像的全局特征；

S3，采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；

S4，根据所述融合特征向量进行图像检索。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S4，根据所述融合特征向量进行图像检索。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

图6是本发明实施例的一种电子设备的结构图，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，存储器63，用于存放计算机程序；处理器61，用于执行存储器63上所存放的程序。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于联合学习的图像检索方法，其特征在于，包括：

提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；

分别获取所述局部图像的局部特征和所述全局图像的全局特征；

采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；

根据所述融合特征向量进行图像检索。

2.根据权利要求1所述的方法，其特征在于，根据所述融合特征向量进行图像检索包括：

将所述目标图像拆分为多个图像块；

基于所述多个图像块生成所述目标图像的自注意力特征向量；

采用所述自注意力特征向量和所述融合特征向量进行图像检索。

3.根据权利要求2所述的方法，其特征在于，基于所述多个图像块生成所述目标图像的自注意力特征向量包括：

将所述多个图像块按序并列输入自注意力模型；

从所述自注意力模型的编码器输出自注意力特征向量，其中，所述自注意力模型包括编码器和解码器，所述自注意力模型采用多个样本对训练得到，每个所述样本对包括样本图像和已分类的向量分隔符。

4.根据权利要求2或3所述的方法，其特征在于，采用所述自注意力特征向量和所述融合特征向量进行图像检索包括：

将所述自注意力特征向量和所述融合特征向量进行向量相加，得到混合特征向量；

计算所述混合特征向量与数据集中所有图像向量的相似度，其中，所述数据集包括多张候选图像，每张候选图像对应一个图像向量；

将相似度最大的若干张候选图像输出为所述目标图像的检索结果。

5.根据权利要求1-3任意一项所述的方法，其特征在于，分别获取所述局部图像的局部特征和所述全局图像的全局特征包括：

将所述全局图像的缺失区域采用空白像素进行填充，得到填充图像；

将所述局部图像和所述填充图像分别输入第一卷积神经网络和第二卷积神经网络，从所述第一卷积神经网络输出所述局部特征，从所述第二卷积神经网络输出全局特征，其中，所述第一卷积神经网络配置第一网络权重系数，所述第二卷积神经网络配置第二网络权重系数。

6.根据权利要求1-3任意一项所述的方法，其特征在于，提取目标图像的局部图像和全局图像包括：

采用检测器对所述目标图像进行目标检测，将所述检测器输出得分最高的候选区域确定为目标区域；

将所述目标区域识别为所述目标图像的前景图像，将所述目标图像除所述目标区域之外的其他图像识别为背景图像；

将所述前景图像确定为局部图像，所述背景图像确定为全局图像。

7.根据权利要求6所述的方法，其特征在于，采用检测器对所述目标图像进行目标检测包括：

将所述目标图像输入卷积层，从所述卷积层输出特征图，其中，所述检测器包括所述卷积层和目标检测网络，其中，所述目标检测网络采用带标注的样本数据和损失曲线预先训练得到；

将所述特征图输入所述目标检测网络，生成若干个不同分数的候选框。

8.一种基于联合学习的图像检索装置，其特征在于，包括：

提取模块，用于提取目标图像的局部图像和全局图像，其中，所述目标图像包括所述局部图像和所述全局图像；

获取模块，用于分别获取所述局部图像的局部特征和所述全局图像的全局特征；

生成模块，用于采用所述局部特征和所述全局特征生成所述目标图像的融合特征向量；

检索模块，用于根据所述融合特征向量进行图像检索。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7中任一项所述的方法的步骤。

10.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：

存储器，用于存放计算机程序；

处理器，用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法的步骤。