CN115131570A

CN115131570A - 图像特征提取模型的训练方法、图像检索方法及相关设备

Info

Publication number: CN115131570A
Application number: CN202210586125.1A
Authority: CN
Inventors: 王淳; 周迅溢; 王洪斌; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-30
Anticipated expiration: 2042-05-27
Also published as: CN115131570B

Abstract

本申请实施例提供了一种图像特征提取模型的训练方法、图像检索方法及相关设备；其中，图像特征提取模型的训练方法包括：获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；将训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。通过本申请实施例，可以提升检索拍摄视角不同的相似图像的准确性。

Description

图像特征提取模型的训练方法、图像检索方法及相关设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像特征提取模型的训练方法、图像检索方法及相关设备。

背景技术

图像检索，是指基于给定的待检索图像，从数据库中查找出与待检索图像的拍摄目标相同和/或相似的目标图像的过程，其中，拍摄目标可以指图像所包含的场景，或者也可以指图像所包含的场景中的具体拍摄对象。

当前主流的图像检索方法，是利用图像特征提取模型提取待检索图像的图像特征，然后以提取得到的图像特征作为查询条件，从图像特征数据库中查询相应的目标图像。其中，图像特征数据库用于存储图像的图像特征。

目前，上述图像检索方法中用到的图像特征提取模型通常是基于监督学习范式训练得到的，这样，图像特征提取模型的准确性主要取决于有标注数据库的数据标注质量和有标注数据的数量，而高质量大规模的有标注数据库构建成本很高。

为了解决该问题，相关技术提出基于自监督学习范式训练图像特征提取模型的方法，基于自监督学习范式的训练方法对数据标注要求很低，在训练图像特征提取模型时，通常是以一张图像为一个图像类别，然后基于各类别图像通过图像倍增方式，分别得到各类别的至少两个图像样本；最后，将通过图像倍增方式得到的各类别的图像样本作为训练集，训练神经网络模型以得到图像特征提取模型。

然而，由于常规的图像倍增方式通常无法实现对图像的拍摄视角进行变换，因此，通过上述相关技术训练得到的图像特征提取模型，对于从不同拍摄视角拍摄的相似图像，提取图像特征的健壮性较差，进而容易导致基于该图像特征提取模型提取的图像特征可能无法准确检索出拍摄视角不同的相似图像。

发明内容

本申请提供一种图像特征提取模型的训练方法、图像检索方法及相关设备，以提升图像检索时对于拍摄视角发生变化的相似图像的准确性。

第一方面，本申请实施例提供了一种图像特征提取模型的训练方法，包括：

获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；

将训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。

可以看出，本申请实施例中，由于训练样本集是从多个图像集合中获取的多个训练图像对，其中，每个训练图像对中的图像的拍摄场景相同但拍摄视角互不相同，因此，基于该训练样本集对图像特征提取模型进行训练时，图像特征提取模型可以根据每个训练图像对学习拍摄场景相同的相似图像的不同拍摄视角特征，使得训练得到的图像特征提取模型对于不同拍摄视角的相似图像能够具有较好的健壮性，通过该模型得到的图像特征更准确，从而保证基于该模型得到的图像特征进行图像检索时，可以更准确地检索出拍摄视角发生变化的相似图像。

第二方面，本申请实施例提供了一种图像检索方法，包括：

确定待检索图像；

将待检索图像输入图像特征提取模型进行处理，得到待检索图像的图像特征；其中，图像特征提取模型是基于训练样本训练得到的，训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

根据图像特征从图像数据库中确定与待检索图像相似的目标图像。

可以看出，本申请实施例中，由于图像特征提取模型是基于多个训练图像对训练得到的，其中，每个训练图像对中的图像的拍摄场景相同但拍摄视角互不相同，因此，该图像特征提取模型对于不同拍摄视角的相似图像能够具有较好的健壮性，从而可以保证通过该模型得到的图像特征会更准确，进一步使得基于该模型得到的图像特征进行图像检索时，可以更准确地检索出拍摄视角发生变化的相似图像。

第三方面，本申请实施例提供了一种图像特征提取模型的训练装置，包括：

获取单元，用于获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

构建单元，用于从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；

处理单元，用于将训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。

第四方面，本申请实施例提供了一种图像检索装置，包括：

确定单元，用于确定待检索图像；

输入单元，用于将待检索图像输入图像特征提取模型进行处理，得到所述待检索图像的图像特征，其中，图像特征提取模型是基于训练样本训练得到的，训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

检索单元，用于根据图像特征向量从图像数据库中确定与待检索图像相似的目标图像。

第五方面，本申请实施例提供了一种电子设备，包括：处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行上述图像特征提取模型的训练方法中的步骤，或者所述可执行指令包括用于执行上述图像检索方法中的步骤。

第六方面，本申请实施例提供了一种存储介质。所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行上述图像特征提取模型的训练方法，或者所述可执行指令使得计算机执行上述图像检索方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种相似图像的示例图；

图2为本申请提供的现有图像检索方法的流程示意图；

图3为本申请提供的现有特征向量映射模型训练方法的流程示意图；

图4a为本申请实施例提供的一种图像特征提取模型的训练方法的流程示意图；

图4b为本申请实施例提供的一种基于BYOL算法训练得到的图像特征提取模型的结构示意图；

图4c为本申请实施例提供的一种第一投影网络模型和第二投影网络模型的结构示意图；

图5为本申请实施例提供的一种获取多个图像集合的方法的流程示意图；

图6为本申请实施例提供的一种场景视频的相机位姿轨迹图的示意图；

图7为本申请实施例提供的一种对相机位姿轨迹进行修正的方法的流程示意图；

图8为本申请实施例提供的一种根据基于每个场景视频对应的相机位姿信息将每个场景视频包括的多帧图像进行划分，得到每个场景视频对应的图像集合的方法的流程示意图；

图9为本申请实施例提供的一种确定目标场景视频对应的图像集合的方法的流程示意图；

图10a为本申请实施例提供的一种独立倍增和联合倍增的流程示意图；

图10b为本申请实施例提供的一种基于联合倍增后的训练图像对训练图像特征提取模型的流程示意图

图11为本申请实施例提供的一种筛除独立倍增后的多个图像中不符合预设条件的图像的方法的流程示意图；

图12为本申请实施例提供的一种图像检索方法的流程示意图；

图13为本申请实施例提供的一种图像特征提取模型的训练装置的模块组成示意图；

图14为本申请实施例提供的一种图像检索装置的模块组成示意图；

图15为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请的保护范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便本说明书实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

如图1所示，为本申请实施例提供的一种相似图像的示例图。其中，第一行所示的三个图像为从不同拍摄视角拍摄得到的A场景下的相似图像；第二行所示的三个图像为从不同拍摄视角拍摄得到的B场景下的相似图像；第三行所示的三个图像为从不同拍摄视角拍摄得到的C场景下的相似图像；第四行所示的三个图像为从不同拍摄视角拍摄得到的D场景下的相似图像。

例如，如图2所示，可以利用图像特征提取模型提取待查询图像的图像特征，比如特征向量Q，然后，将特征向量Q作为查询条件去图像特征向量数据库检索，其中，图像特征向量数据库内存储有所有候选图像的特征向量的集合{Ri}，具体地，通过计算特征向量Q和{Ri}中各特征向量的距离相似度，然后根据距离相似度从图像特征向量数据库中找出与待检索图像相似的目标图像。

通常，理想的图像特征应该使得相似图像之间相似程度很高，而不相似图像之间相似程度很低，以便基于图像特征检索时，既可以检索出所有相似图像，且不会错误检索到不相似的图像。由此可见，在该技术方法中，图像特征提取模型至关重要，其直接决定了图像特征的质量，以及影响基于图像特征得到的图像检索结果的准确性。

目前，上述图像检索方法中用到的图像特征提取模型通常是基于监督学习范式训练得到的，这样，图像特征提取模型的准确性主要取决于有标注数据库的数据标注质量和有标注数据的数量，而实际应用中，训练一个能够应用于开放环境、应对各种已知或未知挑战的高质量的图像特征提取模型，通常需要大量且丰富的图像，这样，即需要人工对各图像对应的场景进行标注，比较耗时耗力，而且高质量大规模的有标注数据库构建成本很高。

为了解决采用人工标注图像场景时耗时耗力，以及成本较高的问题，相关技术提出了自监督学习范式的图像特征提取模型训练方法，在训练图像特征提取模型时，通常是以一张图像为一个图像类别，然后基于各类别图像通过图像倍增方式，分别得到各类别的至少两个图像样本；最后，将通过图像倍增方式得到的各类别的图像样本作为训练集，训练图像特征提取模型以得到训练完成的图像特征提取模型。

例如，如图3所示，图像x₁为一个图像类别，构成图像集合{x₁}；图像x₂为另一个图像类别，构成图像集合{x₂}，以此类推，图像x_N为一个图像类别，构成图像集合{x_N}；然后，分别从图像集合{x₁}中获取图像x₁，并对图像x₁进行图像倍增，得到V1和V2两张图像；从图像集合{x₂}中获取图像x₂，并对图像x₂进行图像倍增，得到V3和V4两张图像；从图像集合{x_N}中获取图像x_N，并对图像x_N进行图像倍增，得到V5和V6两张图像；最后，基于图像V1、V2、V3、V4、V5和V6训练图像特征提取模型，得到训练完成的图像特征提取模型。

实际应用中，由于图像通常是2D信号，因此，通过图像倍增方式对图像进行处理时，无法实现对图像的拍摄视角进行变换，也即通过倍增无法得到同一拍摄目标在不同拍摄视角的图像，这样，容易使得通过上述相关技术训练得到的图像特征提取模型，对于从不同拍摄视角拍摄的相似图像，提取的图像特征的健壮性较差，进而容易导致基于该图像特征提取模型的图像特征进行图像检索时，可能无法检索出拍摄视角度发生变化的相似图像。

为了解决上述问题，本申请实施例提供了一种图像特征提取模型的训练方法，该方法可以获取多个图像集合，其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；然后，从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集，并基于该训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型，这样，由于训练样本集是从多个图像集合中获取的多个训练图像对，其中，每个训练图像对中的图像的拍摄场景相同但拍摄视角互不相同，因此，基于该训练样本集对图像特征提取模型进行训练时，图像特征提取模型可以根据每个训练图像对学习拍摄场景相同的相似图像的不同拍摄视角特征，使得训练得到的图像特征提取模型对于不同拍摄视角的相似图像能够具有较好的健壮性，通过该模型得到的图像特征会更准确，从而保证基于该模型得到的图像特征进行图像检索时，可以更准确地检索出拍摄视角发生变化的相似图像。

应理解，本说明书实施例提供的图像特征提取模型的训练方法可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。其中，终端设备可以是手机、平板电脑、台式计算机、便携笔记本式计算机等移动设备。服务端可以是独立的服务器，也可以是由多个服务器组成的服务器集群。

本申请实施例提供的图像特征提取模型的训练方法能够应用于任一种需要提取图像特征的场景中，例如，图像检索场景、商品分类场景，敏感图像识别(比如，色情图像识别、血腥图像识别、恐怖图像识别)场景，门禁认证、考勤打卡等场景，以及能够用于这些场景对应的产品中，例如，图像检索系统、图像分类系统，图像识别系统、门禁认证系统和考勤打卡系统等。

例如，以图像检索场景为例，假设需要从购物平台找到某件同款衣服，则图像检索系统可以基于该待检索衣服的图像，通过本申请提供的方法训练得到的图像特征提取模型提取该待检索衣服的图像对应的图像特征，然后基于该图像特征，与购物平台中各衣服对应的图像的图像特征进行比对，从而从购物平台确定出与该衣服对应的商品。

以商品分类场景，图像分类系统可以预先采集待分类商品的商品图像，并通过本申请实施例提供的方法训练得到的图像特征提取模型，提取各商品图像的图像特征，然后基于各图像特征进行相似度计算，把相似度较高的图像特征对应的商品图像中的商品划分为同类商品。

以图像识别场景为例，图像识别系统可以采用本申请实施例提供的方法训练得到的图像特征提取模型，提取预先确定的各敏感图像(比如，色情图像识别、血腥图像识别、恐怖图像识别)的图像特征，并将各图像特征存储至敏感图像数据库。若后续需要对疑似敏感图像进行鉴别时，则可以基于该敏感图像数据库存储的图像特征与疑似敏感图像的图像特征进行相似度计算，若提取的疑似敏感图像的图像特征与敏感图像数据库中某一图像特征的相似度大于预设阈值，则可以确定该疑似敏感图像为敏感图像。

以门禁认证场景为例，门禁认证系统可以预先采集身份认证成功的各用户的人脸图像，并通过本申请实施例提供的图像特征提取模型的训练方法训练得到的图像特征提取模型，提取身份认证成功的各用户的人脸图像的图像特征存储至存储空间，后续接收到待认证用户的认证请求时，可以采集待认证用户的人脸图像并提取该待认证用户的人脸图像的图像特征，然后基于提取的图像特征和存储空间存储的图像特征进行比对，若一致，则认证成功。

需要说明的是，上述例举的应用场景仅是本申请的一种示例性说明，并不对本申请实施例造成任何限定，图像特征提取模型的训练方法可以用于任一种需要提取图像特征的场景中，这里不再一一列举。

基于上述应用场景架构，本申请一个或多个实施例提供了一种图像特征提取模型的训练方法。图4a为本申请一个或多个实施例提供的一种图像特征提取模型的训练方法的流程示意图，如图4a所示，该方法包括以下步骤：

步骤402，获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同。

在一个或多个实施例中，可以通过现有的视频片段获取图像集合；具体地，可以获取现有的视频片段，然后，对该视频片段进行分析，确定该视频片段所包含的拍摄场景，以及各拍摄场景对应的不同拍摄视角的图像；最后，分别将每个拍摄场景中拍摄视角不同的图像划分为一个图像集合，从而得到多个图像集合。

例如，假设以视频片段1为例，通过对视频片段1进行分析，可以确定该视频片段1中包含学校、教堂和医院三个场景，其中，与学校场景对应的图像有5张(5张图像拍摄视角各不相同)，与教堂场景对应的图像有3张(其中，2张图像拍摄视角相同，均为拍摄视角a；另外1张图像的拍摄视角为b)，与医院场景对应的图像有7张(3张拍摄视角为c，2张拍摄视角为d，2张拍摄视角为e)，则可以根据与学校场景对应的5张拍摄视角各不相同的图像构成图像集合1；其次，从与教堂场景对应的、拍摄视角为a的2张图像中任选一张图像和另外一张拍摄视角为b的图像，构成图像集合2；再分别从与医院场景对应的、拍摄视角为c的3张图像中任选一张图像，从拍摄视角为d的2张图像中任选一张图像，以及从拍摄视角为e的2张图像中任选一张图像，一起构成图像集合3。

在一种可选的实施方式中，也可以直接针对不同拍摄场景从不同拍摄视角进行拍摄，然后根据拍摄得到的图像确定多个图像集合。具体地，可以先确定若干个拍摄场景；然后，针对每个拍摄场景，分别从多个不同的拍摄视角对拍摄场景进行拍摄，得到若干张图像；最后，分别将同一个拍摄场景下的所有图像构成一个集合，从而得到多个图像集合。

例如，可以先确定拍摄场景A、拍摄场景B和拍摄场景C三个拍摄场景，然后，针对拍摄场景A从多个不同角度(比如，正面角度、左侧面角度以及右侧面角度拍摄若干张图片；同理，对于拍摄场景B和拍摄场景C也分别从多个不同角度拍摄若干张图片；最后，将对于拍摄场景A从各拍摄视角拍摄得到的图片集合作为图像集合A，将对于拍摄场景B从各拍摄视角拍摄得到的图片集合作为图像集合B，将对于拍摄场景C从各拍摄视角拍摄得到的图片集合作为图像集合C，以得到多个图像集合。

步骤404，从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集。

本申请实施例中，考虑到主要是为了解决采用相关技术训练得到的图像特征提取模型，对于从不同拍摄视角拍摄的相似图像，提取图像特征的健壮性较差的问题。然而，由于一张图像仅包含一个拍摄视角，因此仅依赖一张图像无法体现同一图像的不同拍摄视角。为了解决该问题，本申请实施例在构建训练样本集时，可以从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，这样，对于同一场景而言，由于同时具备至少两张不同拍摄视角的图像，从而，可以避免仅采用一张图像无法体现同一图像的不同拍摄视角的问题。

沿用上例，可以从图像集合1、图像集合2和图像集合3中分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构成训练样本集。

可选的，考虑到从多个图像集合中的每个图像集合获取的训练图像对后续均需要输入到神经网络进行训练，这样一来，若获取的训练图像对数量越多，则后续需要训练的样本数量也将会更多，从而可能导致训练工作量较大，使得训练时间较长。为了解决该技术问题，在一种可选的实施方式中，可以从预先确定的多个图像集合中选取若干个图像集合，然后再从选取的若干个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集，这样，即可以在一定程度上，减少待训练的样本数量，从而减少训练工作量，减少训练时间。

例如，沿用上例，假设获取到图像集合1、图像集合2和图像集合3三个图像集合，此时，为了减少后续的训练工作量，则可以仅选出图像集合1和图像集合2，然后从图像集合1中获取至少两张图像作为一个训练图像对，以及从图像集合2中获取至少两张图像作为另一个训练图像对，并基于这两个训练图像对构建训练样本集。

步骤406，将训练样本集输入至图像特征提取模型进行训练处理，得到图像特征提取模型。

其中，图像特征提取模型可以是卷积神经网络、Transformer网络等可以基于自监督学习范式训练得到的网络。其中，基于自监督学习范式训练得到的网络例如可以是基于(Bootstrap Your Own Latent，BYOL)算法训练得到的网络。

如图4b所示，为本申请一个或多个实施例提供的一种基于BYOL算法训练得到的图像特征提取模型的结构示意图。该图像特征提取模型，可以包括两个网络分支，其中，上面的分支为在线网络(online network)，该在线网络包括第一编码网络模型(encoder)f_θ、第一投影网络模型(projector)g_θ和预测网络模型(predictor)q_θ；下面的分支为目标网络(target network)，该目标网络包括第二编码网络模型(encoder)f_ξ和第二投影网络模型(projector)g_ξ。需要说明的是，第一编码网络模型f_θ和第二编码网络模型f_ξ的网络结构相同，模型参数不同；第一投影网络模型g_θ和第二投影网络模型g_ξ的网络结构相同，模型参数不同，预测网络模型q_θ只存在于在线模型，目标模型中没有对应部分。

在一种可选的实施方式中，f_θ和f_ξ可以采用ResNet50作为主干网络，并将ResNet50中最后的averge pooling层替换为GeM(Generalized Mean Pooling，GeM)层，其中，GeM参数为p＝3，即f_θ和f_ξ网络结构为ResNet50-GeM(p＝3)。其中，f_θ的输入为图像v，输出是2048维度的表征向量。类似的，f_ξ的输入为图像v′，输出是2048维度的表征向量。

在一种可选的实施方式中，如图4c所示，g_θ和g_ξ的网络结构可以是多层感知器(Multilayer Perceptron，MLP)，采用[线性层/全连接层(Linear)—批归一化层(BatchNormalization，BN)—Relu—线性层/全连接层(Linear)]的网络结构，可以记为Linear1-BN-Relu-Linear2网络结构。其中，Linear1的输入为2048维度，输出为4096维度；Linear2的输入为4096维度，输出为2048维度，Linear1和Linear2都不使用bias参数。也即，通过g_θ得到的投影向量为2048维度的投影向量，通过g_ξ得到的投影向量为2048维度的特征向量。

在一种可选的实施方式中，预测网络模型q_θ可以采用和g_θ、g_ξ一样的Linear1-BN-Relu-Linear2网络结构，维度设置也一样，但参数不同，也即，通过预测网络模型q_θ得到的预测向量为2048维度的特征向量。

在一种可选的实施方式中，图4b中的损失函数可以采用均方误差(Mean-SquareError，L2)损失函数，其计算方式如下：

其中，

和

是归一化的向量，

是归一化的向量，z'为第二投影网络模型g_ξ的输出结果，p为预测网络模型q_θ的输出结果。

以下，以图像特征提取模型例为图4b所示的网络模型为例，对步骤406的具体实施方式进行详细说明。

循环执行如下训练操作，直至图像特征提取模型满足预设收敛条件时终止循环执行指定操作，并将满足预设收敛条件时对应的图像特征提取模型确定为训练完成的图像特征提取模型；

一次训练操作，包括：

(1)、确定待训练的图像特征提取模型。

(2)、从训练样本集中取出未被选取的若干个训练图像对，并将若干个训练图像对中的第一图像输入待训练的图像特征提取模型的在线网络，以及将若干个训练图像对中的第二图像输入待训练的图像特征提取模型的目标网络。

(3)、获取在线网络输出的预测特征向量和目标网络输出的投影特征向量。

(4)、根据预测特征向量和投影特征向量确定图像特征提取模型的均方误差损失函数。

(5)、基于均方误差损失函数对图像特征提取模型的模型参数调整，得到模型参数调整后的图像特征提取模型，并将模型参数调整后的图像特征提取模型确定为待训练的图像特征提取模型。

以下，结合实例对上述训练步骤(1)～(5)进行详细说明。

在一个可选的实施例中，假设训练样本集是由10个训练图像对构建的，为方便描述，以下将这10个训练图像对分别称为训练图像对1，训练图像对2，训练图像对3，…，训练图像对9，训练图像对10。

首先，可以确定待训练的图像特征提取模型，然后从训练样本集中取出未被选取的若干个训练图像对，比如，第一次取出训练图像对1和训练图像对2，并将训练图像对1中的第一图像和训练图像对2中的第一图像输入待训练的图像特征提取模型的在线网络，以及将训练图像对1中的第二图像和训练图像对2中的第二图像输入待训练的图像特征提取模型的目标网络。之后，获取在线网络输出的训练图像对1中的第一图像和训练图像对2中的第一图像的预测特征向量1，以及目标网络输出的训练图像对1中的第二图像和训练图像对2中的第二图像的投影特征向量1，再根据预测特征向量1和投影特征向量1确定图像特征提取模型的第1次均方误差损失函数；最后，基于第1次均方误差损失函数对图像特征提取模型的模型参数调整，得到模型参数调整后的图像特征提取模型。此时，可以进一步判断模型参数调整后的图像特征提取模型是否满足预设的收敛条件，若满足预设的收敛条件，则将该模型参数调整后的图像特征提取模型确定为训练完成的图像特征提取模型。

或者，若确定此次模型参数调整后的图像特征提取模型不满足预设的收敛条件，则可以继续从训练样本集中取出未被选取的若干个训练图像对，比如，第二次取出训练图像对3和训练图像对4，并将训练图像对3中的第一图像和训练图像对4中的第一图像输入待训练的图像特征提取模型的在线网络，以及将训练图像对3中的第二图像和训练图像对4中的第二图像输入待训练的图像特征提取模型的目标网络。之后，获取在线网络输出的训练图像对3中的第一图像和训练图像对4中的第一图像的预测特征向量2和目标网络输出的训练图像对3中的第二图像和训练图像对4中的投影特征向量2，再根据此次得到的投影特征向量2和预测特征向量2确定图像特征提取模型的第2次均方误差损失函数，并基于第2次均方误差损失函数对图像特征提取模型的模型参数调整，得到第2次模型参数调整后的图像特征提取模型。此时，可以进一步判断第2次模型参数调整后的图像特征提取模型是否满足预设的收敛条件，若是，则将第2次模型参数调整后的图像特征提取模型确定为训练完成的图像特征提取模型。若否，则继续从训练样本集中取出未被选取的若干个训练图像对，循环执行上述步骤(1)～(5)，直至图像特征提取模型满足预设收敛条件时终止循环执行指定操作。

可以看出，本申请实施例中，由于训练样本集是从多个不同拍摄场景的图像集合中获取的多个训练图像对，其中，每个训练图像对中的图像的拍摄场景相同但拍摄视角互不相同，因此，基于该训练样本集对图像特征提取模型进行训练时，图像特征提取模型可以根据每个训练图像对学习拍摄场景相同的相似图像的不同拍摄视角特征，使得训练得到的图像特征提取模型对于不同拍摄视角的相似图像能够具有较好的健壮性，通过该模型得到的图像特征更准确，从而保证基于该模型得到的图像特征进行图像检索时，可以更准确地检索出拍摄视角发生变化的相似图像。

在一个或多个实施例中，考虑到相关技术中基于现有视频获取多个图像集合时，通常需要通过人工对视频中各图像对应的场景进行标注；然后，再根据标注信息，将相同场景的图像划分为同一个图像集合。这样，由于需要依赖人工实现，因此自动化程度较低；并且，当需要标注的图像数量较多时，可能会耗费大量的人力资源。为了提高自动化程度，如图所示5，步骤402可以通过如下步骤实现：

步骤502，获取至少两个场景的场景视频。

场景视频，是指能够展现现实生活中的特定场景或者氛围的视频；或者，也可以理解为包含地点，以及在该地点发生的具体的事情的视频；例如，用户乘坐电梯的视频，用户在商场购物的视频等。

本申请实施例中，可以通过从影视资源库中下载的方式，获取至少两个场景的场景视频。

或者，在一种实施方式中，也可以通过对影视资源进行录制视频屏幕的方式，获取至少两个场景的场景视频。

再或者，也可以通过对影视资源、录像片、VCD或DVD片进行视频截取操作的方式，获取至少两个场景的场景视频。

需要说明的是，上述例举的场景视频，以及获取场景视频的方式仅是本申请实施例的一种示例性说明，并不对本申请造成任何限定。

步骤504，确定每个场景视频对应的相机位姿信息。

本申请实施例中，可以通过即时定位与地图构建算法(SimultaneousLocalization and Mapping，SLAM)确定每个场景视频对应的相机位姿信息。

如图6所示，为本申请实施例提供的一种场景视频的相机位姿轨迹示意图。其中，图6中每一个三角形均表示场景视频的一个图像帧对应的一个相机位姿，特别地，带有“h”标记的三角形为关键帧图像对应的关键相机位姿，未带有“h”标记的三角形为非关键帧图像对应的非关键相机位姿。

在一种可选的实施方式中，为了提高相机位姿信息的准确性，在得到相机位姿轨迹图之后，还可以采用ORB-SLAM2方式进一步对相机位姿轨迹图中的相机位姿轨迹进行修正。具体地，如图7所示，可以先根据ORB-SLAM2的建图模块对关键帧图像对应的关键相机位姿进行优化，以提高关键帧图像对应的关键相机位姿(图7中记为关键帧位姿)的准确性。得到优化后的关键帧图像对应的关键相机位姿之后，则可以根据非关键帧图像对应的非关键相机位姿(图7中记为非关键帧位姿)和时序相邻的关键帧图像对应的关键相机位姿之间的相对位姿，得到修正后的非关键帧图像对应的非关键相机位姿。

步骤506，基于每个场景视频对应的相机位姿信息将每个场景视频包括的多帧图像进行划分，得到所述每个场景视频对应的图像集合。

在一种实施场景中，若步骤502获取的至少两个场景视频包括目标场景视频，且步骤504得到的每个场景视频对应的相机位姿信息包括每个场景视频包括的多帧图像中每帧图像对应的相机位姿，每个场景视频包括的多帧图像包括N个关键帧图像和M个非关键帧图像，每个场景视频对应的相机位姿包括N个关键帧图像对应的N个关键相机位姿和M个非关键帧图像对应的M个非关键相机位姿；N和M均为正整数；每个场景视频对应的相机位姿信息还包括每个关键相机位姿和M个非关键相机位姿之间的相对姿态，则如图8所示，步骤506具体可以通过如下步骤实现：

步骤802，基于目标场景视频对应的相机位姿信息中N个关键相机位姿，确定目标场景视频对应的关键相机位姿共视图；关键相机位姿共视图用于记录N个关键相机位姿之间的共视关系。

在一种实施方式中，步骤802具体可以通过如下步骤实现：判断N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，得到判断结果；根据相邻的两个关键相机位姿对应的判断结果，确定目标场景视频对应的关键相机位姿共视图。

例如，以目标场景视频对应的相机位姿信息为图6所示的相机位姿轨迹图为例，从图6中可以看出，该目标场景视频对应的相机位姿信息中总共包括5个关键相机位姿，则在执行步骤802时，可以判断这5个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，得到判断结果，比如，判断图6中从左数起第一个关键相机位姿和第二个关键相机位姿是否存在共视关系，判断图6中从左数起第二个关键相机位姿和第三个关键相机位姿是否存在共视关系，判断图6中从左数起第三个关键相机位姿和第四个关键相机位姿是否存在共视关系，以及判断图6中从左数起第四个关键相机位姿和第五个关键相机位姿是否存在共视关系。

其中，判断N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，包括如下方式中任意一种或多种：

依次判断N个关键相机位姿中相邻的两个关键相机位姿之间是否存在预设数量的匹配点；

依次判断N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机坐标是否接近；

依次判断N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机朝向是否接近。

本方案中，若N个关键相机位姿中相邻的两个关键相机位姿之间存在预设数量的匹配点，和/或，N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机坐标接近；和/或，N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机朝向接近，则可以认为N个关键相机位姿中相邻的两个关键相机位姿之间存在共视关系。

步骤804，根据目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定目标场景视频对应的图像集合。

在一种实施方式中，步骤804具体可以通过如下步骤实现：

基于关键相机位姿共视图，从N个关键相机位姿中选取共视关系满足共视条件的P个关键相机位姿，并将选取出的P个关键相机位姿对应的P个关键帧图像合并为一个目标场景视频对应的图像集合，并从该P个关键相机位姿选取任一个作为该目标场景视频对应的图像集合的代表关键相机位姿；P为小于等于N的正整数；

依次遍历N-P+1个关键相机位姿，基于每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定与当前遍历的关键相机位姿之间共视关系满足共视条件的非关键相机位姿，并将当前遍历的关键相机位姿对应的关键帧图像和确定出的非关键相机位姿对应的非关键帧图像组成一个目标场景视频对应的图像集合。

需要说明的是，上述遍历(N-P+1)个关键相机位姿，其中，N-P是指N个关键相机位姿中除共视关系满足共视条件的P个关键相机位姿之外的其他关键相机位姿，“+1”中的“1”是指从P个关键相机位姿选取的代表关键相机位姿。

其中，共视条件包括两个关键相机位姿对应的两个关键图像帧共视的3D点云与两个关键图像帧的可见场景3D点云的比例大于预设比例阈值。例如，本申请实施例中，当两个关键图像帧共视的3D点云与两个关键图像帧的可见场景3D点云的比例大于50％，则认为这两个关键相机位姿之间的共视关系满足共视条件。

例如，假设某关键相机位姿共视图中总共存在6个关键相机位姿，其中，在6个关键相机位姿中有3个关键相机位姿的共视关系满足共视条件，则可以将这3个关键相机位姿选取出来，并将选取出的3个关键相机位姿对应的3个关键帧图像合并为一个目标场景视频对应的图像集合，并从该P个关键相机位姿选取任一个作为该目标场景视频对应的图像集合的代表关键相机位姿。

然后，依次遍历剩下的4(6-3+1＝4)个关键相机位姿，基于每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定与当前遍历的关键相机位姿之间共视关系满足共视条件的非关键相机位姿，并将当前遍历的关键相机位姿对应的关键帧图像和确定出的非关键相机位姿对应的非关键帧图像组成一个目标场景视频对应的图像集合。

例如，如图9所示，可以以剩下的关键相机位姿中的每个关键相机位姿对应的关键帧图像为中心，分别遍历所有非关键图像帧，并计算每个关键相机位姿和M(图9中，设M＝6)个非关键相机位姿之间的相对姿态，确定与当前遍历的关键相机位姿之间共视关系满足共视条件的非关键相机位姿，并将当前遍历的关键相机位姿对应的关键帧图像和确定出的非关键相机位姿对应的非关键帧图像组成一个目标场景视频对应的图像集合。

在一个或多个实施例中，为了增加训练样本集中各样本的特征多样性，在从多个图像集合中的每个图像集合中获取到至少两张图像之后，还可以进一步对获取的图像进行倍增处理，其中，倍增处理也即对各图像分别进行颜色变换、水平翻转、加噪声或随机抠图等倍增操作。其中，倍增处理包括独立倍增处理和联合倍增处理。

如图10a所示，左边的图为进行独立倍增处理后得到的图像，右边的图为进行联合倍增处理后得到的图像。

需要说明的是，实际应用中，如图11所示，通过独立倍增处理虽然可以增加各样本的特征多样性，但独立倍增后通常会有较大概率使得同一场景的不同拍摄视角的图像变得不相似(也即图11中不合格的倍增图像)，而用不相似的两个图像去训练图像特征提取模型，会导致训练困难，从而影响图像特征提取模型的训练结果。为了解决该问题，在一种可选的实施方式中，在得到独立倍增处理后的图像之后，还可以筛除独立倍增后的多个图像中不符合预设条件的图像(比如图11中不合格的倍增图像)，仅留下合格的倍增图像。其中，预设条件包括：同一训练图像对所包括的图像通过独立倍增后得到的独立倍增图像相似。

或者，本申请实施例中针对从多个图像集合中的每个图像集合中获取的训练图像对，可以进行联合倍增处理，得到多个联合倍增后的训练图像对；然后，再根据多个联合倍增后的训练图像对，构建训练样本集。其中，联合倍增处理也即同时结合训练图像对中的多个图像进行倍增处理，从而得到联合倍增后的图像。

例如，如图10b所示，假设某一训练图像对中包括两个图像

和

则对该训练图像对进行联合倍增处理，也即基于

和

进行联合倍增处理，得到联合倍增处理后的图像V1和V2，最后基于V1和V2进行模型训练，得到图像特征提取模型。

本申请实施例中，联合倍增方法包括A、B两类，其中，A类是不改变图像几何形态的倍增方法，如改变颜色，图像模糊等。B类是改变图像几何形态的倍增方法，如随机裁剪，仿射变换等。

对于A类倍增方法{A1,A2,…,An}，两张图像可以任意选一个，比如图像x_i选择倍增方法A1，倍增后得到联合图像I'_i＝A1(x_i)；对于图像x_j，选择倍增方法A2，倍增后得到联合图像I'_j＝A2(x_j)，其中，A1和A2的具体参数(参数指每种倍增方法本身的参数，比如颜色变换倍增的参数是指变成什么具体的颜色)可以独立选择。特别的，不做倍增也是一种A类倍增。

对于B类倍增方法{B1,B2,…,Bm}，可以先为图像x_i选择一个倍增方法，如B1并确定B1的参数，然后根据B1和B1的参数对图像x_i做倍增得到I'_i＝B1(x_i)。之后，再根据I'_i和x_j的关系，选择第二个倍增方法和相应的参数，如B4和B4的参数，得到I'_j＝B4(x_j)，以确保I'_i和I'_j满足相似的定义。

在一种可选的实施方式中，A类倍增方法和B类倍增方法均可以级联使用，比如，针对某训练图像对中的其中一个图像x_i，可以级联使用A类倍增方法中的A1,A2，也即倍增后的图像I'_i＝A1A2(x_i)；或者，可以级联使用B类倍增方法中的B2,B3，也即倍增后的图像I'_i＝B1B2(x_i)。

在另一种可选的实施方式中，A类倍增方法和B类倍增方法也可以混合使用，比如，沿用上例，针对某训练图像对中的其中一个图像x_i，可以混合使用A类倍增方法中的A1和B类倍增方法中的B3，也即倍增后的I'_i＝A1B3(x_i)，具体使用方式与上述方式类似，不再赘述。

需要说明的是，上述列举的级联使用A类倍增方法中的A1,A2，级联使用B类倍增方法中的B2,B3，以及混合使用A类倍增方法中的A1和B类倍增方法中的B3的实例，仅是本申请实施例的一种示例性说明，并不对本方案造成任何限定。

采用本申请实施例提供的联合倍增处理方法，可以在增加图像样本的特征多样性的同时，保证同一场景的不同拍摄视角的图像倍增后相似。

与上述方法相对应地，本说明书实施例还提供一种图像检索方法，能够通过图4所示方法训练出的图像特征提取模型得到待检索图像的特征向量，然后基于该特征向量检索相似图像。

请参考图12，为本说明书的一个实施例提供的一种图像检索方法的流程示意图，该方法可以包括如下步骤：

步骤122，确定待检索图像。

步骤124，将待检索图像输入图像特征提取模型进行处理，得到待检索图像的图像特征；其中，图像特征提取模型是基于训练样本训练得到的，训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同。

步骤126，根据图像特征从图像数据库中确定与待检索图像相似的目标图像。

在一种实施方式中，根据图像特征从图像数据库中确定与待检索图像相似的目标图像，包括：分别计算待检索图像的图像特征与图像数据库中各图像的特征向量的相似度；将与待检索图像的图像特征的相似度满足相似条件的特征向量对应的图像确定为目标图像。

例如，本方案中可以根据待检索图像的图像特征与图像数据库中各图像的特征向量，通过相似度计算方式，分别计算待检索图像的图像特征与图像数据库中各图像的特征向量的相似度，然后将与待检索图像的图像特征的相似度满足预设相似度阈值的特征向量对应的图像确定为目标图像。

其中，相似度计算方式例如可以是杰卡德相似系数计算公式、余弦相似度计算公式、欧氏距离计算公式以及曼哈顿距离计算公式等。

采用本申请实施例提供的方法，由于图像特征提取模型是基于多个训练图像对训练得到的，其中，每个训练图像对中的图像的拍摄场景相同但拍摄视角互不相同，因此，该图像特征提取模型对于不同拍摄视角的相似图像能够具有较好的健壮性，从而可以保证通过该模型得到的图像特征会更准确，进一步使得基于该模型得到的图像特征进行图像检索时，可以更准确地检索出拍摄视角发生变化的相似图像。

需要说明的是，本说明书实施例提供的图像检索方法可应用于多种需要进行图像检索的业务场景，本说明书实施例对此不作具体限定。用于训练图像特征提取模型的样本图片像可根据业务场景的不同而不同。

对应上述描述的图像特征提取模型的训练方法，基于相同的技术构思，本申请实施例还提供了一种图像特征提取模型的训练装置。图13为本申请实施例提供的一种图像特征提取模型的训练装置的单元组成示意图，如图13所示，该装置包括：

获取单元131，用于获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

构建单元132，用于从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；

处理单元133，用于将训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。

可选的，构建单元132，具体用于：分别对每个训练样本对进行联合倍增处理，得到多个联合倍增图像；将多个联合倍增图像组成训练样本集。

可选的，多个图像集合包括至少两个场景视频中每个场景视频对应的图像集合，获取单元131，包括：

获取子单元，用于获取至少两个场景的场景视频；

确定子单元，用于确定每个场景视频对应的相机位姿信息；

划分子单元，用于基于每个场景视频对应的相机位姿信息将每个场景视频包括的多帧图像进行划分，得到每个场景视频对应的图像集合。

可选的，每个场景视频对应的相机位姿信息包括每个场景视频包括的多帧图像中每帧图像对应的相机位姿，每个场景视频包括的多帧图像包括N个关键帧图像和M个非关键帧图像，每个场景视频对应的相机位姿包括N个关键帧图像对应的N个关键相机位姿和M个非关键帧图像对应的M个非关键相机位姿；N和M均为正整数；每个场景视频对应的相机位姿信息还包括每个关键相机位姿和M个非关键相机位姿之间的相对姿态；至少两个场景视频包括目标场景视频；则划分子单元，具体包括：

确定共视图的二级子单元，用于基于目标场景视频对应的相机位姿信息中N个关键相机位姿，确定目标场景视频对应的关键相机位姿共视图；关键相机位姿共视图用于记录N个关键相机位姿之间的共视关系；

确定图像集合的二级子单元，用于根据目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定目标场景视频对应的图像集合。

可选的，确定图像集合的二级子单元，用于：

基于所述关键相机位姿共视图，从N个关键相机位姿中选取共视关系满足共视条件的P个关键相机位姿，并将选取出的P个关键相机位姿对应的P个关键帧图像合并为一个目标场景视频对应的图像集合，以及从该P个关键相机位姿选取任一个作为该目标场景视频对应的图像集合的代表关键相机位姿；P为小于等于N的正整数；

可选的，确定共视图的二级子单元，用于：

判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，得到判断结果；

根据所述相邻的两个关键相机位姿对应的所述判断结果，确定所述目标场景视频对应的关键相机位姿共视图。

可选的，判断N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，包括如下方式中任意一种或多种：

可选的，处理单元133，具体用于：

一次训练操作，包括：

确定待训练的图像特征提取模型；

从训练样本集中取出未被选取的若干个训练图像对，并将若干个训练图像对中的第一图像输入待训练的图像特征提取模型的在线网络，以及将若干个训练图像对中的第二图像输入待训练的图像特征提取模型的目标网络；

获取在线网络输出的预测特征向量和目标网络输出的投影特征向量；

根据预测特征向量和投影特征向量确定图像特征提取模型的均方误差损失函数；

基于均方误差损失函数对图像特征提取模型的模型参数调整，得到模型参数调整后的图像特征提取模型，并将模型参数调整后的图像特征提取模型确定为待训练的图像特征提取模型。

可选的，在线网络包括第一编码网络模型、第一投影网络模型和预测网络模型；目标网络包括第二编码网络模型和第二投影网络模型；其中，第一编码网络模型和第二编码网络模型的网络结构相同，模型参数不同；第一投影网络模型和第二投影网络模型的网络结构相同，模型参数不同。

此外，与上述图12所示的图像检索方法相对应地，本说明书实施例还提供一种图像检索装置。图14是本说明书实施例提供的一种图像检索装置的结构示意图，包括：

确定单元141，用于确定待检索图像；

输入单元142，用于将待检索图像输入预先训练得到的图像特征提取模型进行处理，得到待检索图像的图像特征向量，其中，图像特征提取模型是基于训练样本训练得到的，训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同。

检索单元143，用于根据图像特征向量从图像数据库中确定与待检索图像相似的目标图像。

可选的，检索单元143具体用于：

分别计算待检索图像的图像特征与图像数据库中各图像的特征向量的相似度；

将与待检索图像的图像特征的相似度满足相似条件的特征向量对应的图像确定为目标图像。

例如，本方案中检索单元143可以根据待检索图像的图像特征与图像数据库中各图像的特征向量，通过相似度计算方式，分别计算待检索图像的图像特征与图像数据库中各图像的特征向量的相似度，然后将与待检索图像的图像特征的相似度满足预设相似度阈值的特征向量对应的图像确定为目标图像。

进一步地，对应上述描述的方法，基于相同的技术构思，本申请实施例还提供一种电子设备。图15为本申请实施例提供的一种电子设备的结构示意图。

如图15所示，电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1501和存储器1502，存储器1502中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1502可以是短暂存储或持久存储。存储在存储器1502的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括电子设备中的一系列计算机可执行指令。更进一步地，处理器1501可以设置为与存储器1502通信，在电子设备上执行存储器1502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1503，一个或一个以上有线或无线网络接口1504，一个或一个以上输入输出接口1505，一个或一个以上键盘1506等。

在一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同，但拍摄视角互不相同；

在另一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

确定待检索图像；

需要说明的是，本申请中关于电子设备的实施例与本申请中关于图像检索方法的实施例及图像特征提取模型的训练方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的实施例，重复之处不再赘述。

进一步地，对应上述描述的方法，基于相同的技术构思，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，在一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构构建训练样本集；

在另一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

确定待检索图像；

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像特征提取模型的训练方法，其特征在于，包括：

从所述多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；

将所述训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。

2.根据权利要求1所述的方法，其特征在于，所述基于获取到的训练图像对构建训练样本集，包括：

分别对每个训练样本对进行联合倍增处理，得到多个联合倍增图像；

将所述多个联合倍增图像组成所述训练样本集。

3.根据权利要求1所述的方法，其特征在于，所述多个图像集合包括至少两个场景视频中每个场景视频对应的图像集合，所述获取多个图像集合，包括：

获取至少两个场景的场景视频；

确定每个场景视频对应的相机位姿信息；

基于所述每个场景视频对应的相机位姿信息将所述每个场景视频包括的多帧图像进行划分，得到所述每个场景视频对应的图像集合。

4.根据权利要求3所述的方法，其特征在于，所述每个场景视频对应的相机位姿信息包括所述每个场景视频包括的多帧图像中每帧图像对应的相机位姿，所述每个场景视频包括的所述多帧图像包括N个关键帧图像和M个非关键帧图像，所述每个场景视频对应的相机位姿包括N个关键帧图像对应的N个关键相机位姿和M个非关键帧图像对应的M个非关键相机位姿；N和M均为正整数；所述每个场景视频对应的相机位姿信息还包括每个关键相机位姿和M 个非关键相机位姿之间的相对姿态；

所述至少两个场景视频包括目标场景视频；所述基于所述每个场景视频对应的相机位姿信息将所述每个场景视频包括的多帧图像进行划分，得到所述每个场景视频对应的图像集合，包括：

基于所述目标场景视频对应的相机位姿信息中N个关键相机位姿，确定所述目标场景视频对应的关键相机位姿共视图；所述关键相机位姿共视图用于记录N个关键相机位姿之间的共视关系；

根据所述目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定所述目标场景视频对应的图像集合。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定目标场景视频对应的图像集合，包括：

基于所述关键相机位姿共视图，从N个关键相机位姿中选取共视关系满足共视条件的P个关键相机位姿，并将选取出的P个关键相机位姿对应的P个关键帧图像合并为一个目标场景视频对应的图像集合，以及，从所述P个关键相机位姿中选取任一个关键相机位姿作为所述目标场景视频对应的图像集合的代表关键相机位姿；P为小于等于N的正整数；

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标场景视频对应的相机位姿信息中N个关键相机位姿，确定所述目标场景视频对应的关键相机位姿共视图，包括：

7.根据权利要求6所述的方法，其特征在于，所述判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，包括如下方式中任意一种或多种：

依次判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在预设数量的匹配点；

依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机坐标是否接近；

依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机朝向是否接近。

8.根据权利要求1所述的方法，其特征在于，所述将所述训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型，包括：

循环执行如下训练操作，直至图像特征提取模型满足预设收敛条件时终止循环执行所述指定操作，并将满足预设收敛条件时对应的图像特征提取模型确定为训练完成的图像特征提取模型；

一次训练操作，包括：

确定待训练的图像特征提取模型；

从所述训练样本集中取出未被选取的若干个训练图像对，并依次将所述若干个训练图像对中的第一图像输入所述待训练的图像特征提取模型的在线网络，以及依次将所述若干个训练图像对中的第二图像输入所述待训练的图像特征提取模型的目标网络；

获取所述在线网络输出的预测特征向量和所述目标网络输出的投影特征向量；

根据所述预测特征向量和所述投影特征向量确定所述图像特征提取模型的均方误差损失函数；

基于所述均方误差损失函数对所述图像特征提取模型的模型参数调整，得到模型参数调整后的图像特征提取模型，并将所述模型参数调整后的图像特征提取模型确定为待训练的图像特征提取模型。

9.根据权利要求8所述的方法，其特征在于，所述在线网络包括第一编码网络模型、第一投影网络模型和预测网络模型；所述目标网络包括第二编码网络模型和第二投影网络模型；其中，所述第一编码网络模型和所述第二编码网络模型的网络结构相同，模型参数不同；所述第一投影网络模型和所述第二投影网络模型的网络结构相同，模型参数不同。

10.一种图像检索方法，其特征在于，包括：

确定待检索图像；

将所述待检索图像输入图像特征提取模型进行处理，得到所述待检索图像的图像特征；其中，所述图像特征提取模型是基于训练样本训练得到的，所述训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；所述多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；不同图像集合之间的拍摄场景不相同；

根据所述图像特征从图像数据库中确定与所述待检索图像相似的目标图像。

11.根据权利要求10所述的方法，其特征在于，所述根据所述图像特征从图像数据库中确定与所述待检索图像相似的目标图像，包括：

分别计算所述待检索图像的图像特征与所述图像数据库中各图像的特征向量的相似度；

将与所述待检索图像的图像特征的相似度满足相似条件的特征向量对应的图像确定为目标图像。

12.一种图像特征提取模型的训练装置，其特征在于，包括：

构建单元，用于从所述多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；

处理单元，用于将所述训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。

13.一种图像检索装置，其特征在于，包括：

确定单元，用于确定待检索图像；

输入单元，用于将所述待检索图像输入图像特征提取模型进行处理，得到所述待检索图像的图像特征；其中，所述图像特征提取模型是基于训练样本训练得到的，所述训练样本是基于训练图像对构建的，一个训练图像对是从多个图像集合中每个图像集合中选取的；所述多个图像集合中同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；

检索单元，用于根据所述图像特征从图像数据库中确定与所述待检索图像相似的目标图像。

14.一种电子设备，其特征在于，包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述计算机可执行指令被配置由所述处理器执行，所述计算机可执行指令包括用于执行如权利要求1-8任一项所述的方法中的步骤，或者所述可执行指令包括用于执行如权利要求9-10任一项所述的方法中的步骤。

15.一种存储介质，其特征在于，所述存储介质用于存储计算机可执行指令，所述计算机可执行指令使得处理器执行如权利要求1-8任一项所述的方法，或者所述计算机可执行指令使得处理器执行如权利要求9-10任一项所述的方法。