CN117523330A

CN117523330A - 模型训练方法、图像检索方法、设备及计算机可读介质

Info

Publication number: CN117523330A
Application number: CN202311321962.2A
Authority: CN
Inventors: 周健
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-02-06

Abstract

本申请提供了一种模型训练方法、图像检索方法及设备，该申请可以获取当前训练轮次中目标图像数据集的图像序列，每一图像序列包括两张第一图像；将第一图像输入神经网络模型，获取第一图像的特征向量及除当前训练轮次外的其他训练轮次的第一图像的特征向量；确定当前训练轮次中任一第一图像为查询图像，计算当前训练轮次中任一第一图像与查询图像之间的特征向量的相似度，和，其他训练轮次中任一第一图像与查询图像之间的特征向量的相似度，确定神经网络模型的损失值；将目标图像数据集作为训练样本，对神经网络模型进行训练，直至神经网络模型的损失值逼近于第一预设值。上述方法训练得到的神经网络模型提升模型提取图像的特征向量的精准性。

Description

模型训练方法、图像检索方法、设备及计算机可读介质

技术领域

本申请涉及图像检索领域，尤其涉及一种模型训练方法、图像检索方法、设备及计算机可读介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。

随着信息技术与互联网的发展，图像作为一种二维视觉数据，以其信息表达的直观优势得到越来越广泛的使用和传播，实际应用中较常规的图像检索方法为基于查询图像内容从海量的图像数据库中检索到与查询图像表达内容相同的目标图像。目前在图像处理相关技术领域，常用通过提取查询图像和目标图像的高维特征向量的方式来计算查询图像和目标图像的相似度，从而确定与查询图像表达内容相同的目标图像。

但是，现有的高维特征向量提取模型的高维特征学习能力有限，尤其是对于在互联网中占比较大的纹理图或抽象图等无语义图像，现有的高维特征向量无法深层次的挖掘图像的高维特征向量，从而无法在海量的图像数据中精准、快速地图像检索出与查询图像内容相同的目标图像。

发明内容

本申请的多个方面提供一种模型训练方法方法、图像检索方法、设备及计算机可读存储介质，用以解决现有技术中在提取图像的特征向量时精准性不高的问题。

本申请的一方面，提供一种用于图像检索的模型训练方法，包括：

获取当前训练轮次中目标图像数据集的图像序列，所述图像序列至少为二，每一所述图像序列包括至少两张第一图像，任两张所述第一图像互为正样本；

将所述第一图像输入神经网络模型，获取所述第一图像的特征向量；

获取除当前训练轮次外的其他训练轮次的第一图像的特征向量；

确定当前训练轮次中任一所述第一图像为查询图像，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值；

将所述目标图像数据集作为训练样本，对所述神经网络模型进行训练，直至所述神经网络模型的损失值逼近于第一预设值。

本申请的另一方面，提供一种图像检索方法，包括：

获取查询图像，将所述查询图像输入所述神经网络模型获取所述查询图像的高维特征向量；

获取多个待检索图像，将任一所述待检索图像输入所述神经网络模型获取所述待检索图像的高维特征向量；

分别计算查询图像与任一所述待检索图像之间的高维特征向量的相似度；

从待检索图像中检索出相似度较高的至少一个目标图像。

本申请的另一方面，提供一种用于图像检索的模型训练设备，所述设备包括：

数据获取模块，用于获取当前训练轮次中目标图像数据集的图像序列，所述图像序列至少为二，每一所述图像序列包括至少两张第一图像，任两张所述第一图像互为正样本；以及当前训练轮次前的其他训练轮次的第一图像的高维特征向量；

特征提取模块，用于对所述第一图像进行特征提取，获取第一图像的高维特征向量；

模型训练模块，用于确定当前训练轮次中任一所述第一图像为查询图像，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一所述第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值；以及将所述目标图像数据集作为训练样本，对所述神经网络模型进行训练，直至所述神经网络模型的损失值逼近于第一预设值。

本申请的另一方面，提供一种图像检索设备，所述设备包括：

特征提取模块，用于获取查询图像，将所述查询图像输入所述神经网络模型获取所述查询图像的高维特征向量；以及获取多个待检索图像，将任一所述待检索图像输入所述神经网络模型获取所述待检索图像的高维特征向量；

计算模块，用于分别计算查询图像与任一所述待检索图像之间的高维特征向量的相似度；

检索模块，用于从待检索图像中检索出相似度较高的至少一个目标图像。

本申请的又一方面，提供一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述模型训练方法和或图像检索方法。

本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现所述模型训练方法和图像检索方法。

本申请实施例提供的方案中，在进行模型训练时，获取当前训练轮次中目标图像数据集的图像序列，所述图像序列至少为二，每一所述图像序列包括至少两张第一图像，任两张所述第一图像互为正样本；将所述第一图像输入神经网络模型，获取所述第一图像的特征向量；获取除当前训练轮次外的其他训练轮次的第一图像的特征向量；确定当前训练轮次中任一所述第一图像为查询图像，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值；将所述目标图像数据集作为训练样本，对所述神经网络模型进行训练，直至所述神经网络模型的损失值逼近于第一预设值。上述方法训练得到的神经网络模型可以提升模型提取图像的高维特征向量的精准性，进而实现能够基于查询图像从海量的图像数据中精准、快速地检索出与查询图像相似度最高的目标图像；从而能够有效避免同类或相似图像的误召、对图像清晰、噪声、色彩、偏移和旋转等变换鲁棒，适用于互联网参差复杂的图像数据，且同样适用于纹理、抽象等无语义图像的图像特征提取。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请一实施例提供的用于图像检索的模型训练方法的流程示意图；

图2为本申请经第一图像数据增强规则进行图像数据增强的图像；

图3为本申请又一实施例的经第一图像数据增强规则进行图像数据增强的图像；

图4为本申请再一实施例提供的用于图像检索的模型训练方法中基于原始图像数据集构建图像序列的示意图；

图5为本申请中用于图像检索的神经网络模型的训练目标示意图；

图6为本申请一个实施例中提供的图像检索方法的流程示意图；

图7为本申请一个实施例中提供的用于图像检索的模型训练设备的结构示意图；

图8为本申请又一个实施例中提供的用于图像检索的模型训练设备的结构示意图；

图9为本申请一个实施例中提供的图像检索设备的结构示意图；

图10为适用于实现本申请实施例中的方案的一种设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请一个典型的配置中，终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

现有技术中，常规的图像检索图像方法是基于内容的图像检索(全称为：Content-based Image Retrieval)和哈希(Hash)编码的图像检索。基于内容的图像检索要求目标图像与查询图片表达同一内容，如同一类别的物体。但基于内容的图像检索技术无法用于相同检索，即无法在目标图库中检索与查询图相同的图片，其原因包括以下几点：其一，基于内容的图像检索技术可能检索大量同一类别或者相似图像，但非相同图片，以至产生大量误召回；其二，基于内容的图像检索技术要求图片有一定的语义信息，而互联网图片参差多样，大量图片仅为纹理或者抽象表达。基于哈希编码的图像检索方法可用于检索原图，但该方法泛化性较差，互联网图片的制作与传播过程中，图片易产生清晰度、噪声、色彩、偏移、旋转等等变换，而基于哈希编码的图像检索方法对这些变换较敏感，易产生漏召回。

本申请实施例提供了一种用于图像检索的模型训练方法，该方法构建了多对图像序列，基于图像序列构成了目标图像数据集，基于所述目标图像数据集对神经网络模型进行若干轮次的训练，每当神经网络模型完成一个训练轮次的训练后，即遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值，直至所述神经网络模型的损失值逼近于第一预设值。由此，可以提升模型提取图像的高维特征向量的精准性，进而实现能够基于查询图像从海量的图像数据中精准、快速地检索出与查询图像相似度最高的目标图像。

在实际场景中，该方法的执行主体可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备，或者也可以是运行于上述设备的应用程序，所述用户设备包括但不限于计算机、手机、平板电脑、智能手表、手环等各类终端设备，所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现，可以用于实现设置闹钟时的部分处理功能。在此，云由基于云计算(Cloud Computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。

图1示出了本申请实施例提供的一种用于图像检索的模型训练方法的处理流程，所述方法至少包括以下的处理步骤：

步骤S101，获取当前训练轮次中目标图像数据集的图像序列，所述图像序列至少为二，每一所述图像序列包括至少两张第一图像，任两张所述第一图像互为正样本；

其中，模型训练的主要目的为使得神经网络模型能够从查询图像的正样本中提取出与查询图像相似度较高的高维特征向量，及，能够从查询图像的负样本中提取出与查询图像相似度较低的高维特征向量。因此，训练神经网络模型进行的过程中“查询图像、查询图像的正样本和查询图像的负样本”三元组图像数据。但是在实际的应用场景中，如上所述的三元组图像数据难以收集和标注，因此本申请提出一种类三元组图像数据构建规则。

具体地，上述类三元组图像数据构建规则包括：获取原始图像数据集，其中，所述原始图像数据集包括无标签样本图像和标签样本对，所述标签样本对包括标签正样本对，和/或，标签负样本对；对所述原始图像数据集进行数据重组，得到图像序列；基于所述图像序列，得到目标图像数据集。需要理解的是，图像检索的本质为基于查询图像从图像数据库中图像检索出与查询图像相似度较高的至少一个目标图像，基于图像检索的本质及图像检索任务的特殊性，可以认为除查询图像的目标图像外的其他图像均为查询图像的负样本，因此本申请构建了若干个图像序列，每一图像序列包含了至少两张第一图像，任两张第一图像互为正样本。比如目标图像数据集中包含了N个图像序列，每一图像序列中包含了两张第一图像(第一图像A和第一图像B)，两张第一图像互为正样本(即第一图像B为第一图像A的正样本，第一样本A为第一样本B的正样本)；基于上述目标图像数据集，对于任一张第一图像而言，在目标图像数据集中有1张正样本和(N-1)*2张负样本。因此基于上述通过构建图像序列进而构建目标图像数据集的方法无需构建难以收集和标注的三元组图像数据即可达到与三元组图像数据一样的训练效果。具体而言，所述类三元组图像数据构建规则为构建多对图像序列，即构建多个标签正样本对，每一标签正样本对均包含有第一图像及第一图像的正样本，为方便表述，此处定义任一标签正样本对中的任一第一图像为查询图像；基于构建的多对图像序列，对于每一标签正样本对中的查询图像而言，其所在标签正样本对中除其自身之外的其他第一图像为所述查询图像的正样本，而其他标签正样本对中包含的第一图像即为所述查询图像的负样本。

具体地，对所述原始图像数据集进行数据重组，得到图像序列包括：根据第二图像数据增强规则，对所述无标签样本图像进行图像数据增强，生成第一图像；根据第一图像数据增强规则，对所述第一图像进行图像数据增强，得到第一图像的正样本；基于所述第一图像及其正样本，得到图像序列。其中，所述无标签样本图像包括：原始无标签样本图像，和/或，根据第二图像数据增强规则进行图像数据增强的原始无标签样本图像。另外，任两张原始无标签样本图像可以互为正样本，也可以互为负样本。其中，所述第一图像数据增强规则至少包括以下任意一项：读图、色彩、噪声、模糊、马赛克、仿射变换、非线性变换、拼接纯色块、裁剪粘贴、放缩图像插值、剪影；和/或，所述第二图像数据增强规则至少包括以下任意一项：读图、色彩、噪声、模糊、马赛克、仿射变换、非线性变换、放缩图像插值。如图2所示，即为部分经第一图像数据增强规则进行图像数据增强后的图像。如图3所示，即为部分经第二图像数据增强规则进行图像数据增强后的图像。具体地，拼接纯色块的图像数据增强规则是为了模拟图像在不同分辨率下的显示情况，放缩图像插值的图像数据增强规则是为了模拟图像在压缩、传输、编解码等过程中的消耗。同时需要理解的是，为了提升模型训练过程中训练样本的多样性及模拟参差多样的互联网业务图像，本领域技术人员可以根据第二图像数据增强规则对无标签样本图像进行图像数据增强。其中，每一数据增强规则的数据增强工具如下表1所示。

表1数据增强规则表

具体地，对原始图像数据集进行数据重组，得到图像序列还包括：对原始图像数据集中的标签正样本对，和/或，标签负样本对进行数据重组，得到图像序列。其中，对标签正样本对进行数据重组，包括：确定所述标签正样本对中任一样本图像为查询样本图像，根据第二图像数据增强规则，对所述查询样本图像进行图像数据增强，生成第一图像；根据所述第一图像数据增强规则和第二数据增强规则，对所述标签正样本对中除所述查询样本图像外的其他样本图像进行图像数据增强，生成所述第一图像的正样本；基于所述第一图像及其正样本，得到图像序列。对标签负样本对进行数据重组，包括：确定所述标签负样本对中任一样本图像为查询样本图像，根据所述第二数据增强规则，对所述查询样本图像进行图像数据增强，生成第一图像；根据所述第二数据增强规则，对所述第一图像进行图像数据增强，生成所述第一图像的正样本；基于所述第一图像及其正样本，得到图像序列。需要理解的是，本申请所述互为正样本的任两张第一图像的关系可以定义为第一图像及其正样本。如图4所示，即为对原始图像数据集进行数据重组，得到的图像序列的示例性过程；如图4所示，原始图像数据集中包含了无标签样本图像、标签正样本对和标签负样本对；示例性的，无标签样本图像包括无标签图A，标签正样本对(B1,B2)包括查询图B1及查询图B1的正样本图B2，标签负样本对(C1,C2)包括查询图C1及查询图C1的负样本图C2；基于上述无标签图A、查询图B1、正样本图B2、查询图C1和负样本C2，得到图像包括：基于第二图像数据增强规则对无标签图A进行图像数据增强，得到查询图A1，基于第二图像数据增强规则和第一图像数据增强规则对无标签图A进行图像数据增强，或，基于第一图像数据增强规则对查询图A1进行图像数据增强，得到查询图A11的正样本A12，基于图A11和图A12生成一个图像序列(A11,A12)；基于第二图像数据增强规则对查询图B1进行图像数据增强，得到查询图B11，基于第二图像数据增强规则和第一图像数据增强规则对查询图B1的正样本B2进行图像数据增强，得到查询图B11的正样本B12，基于图B11和图B12生成一个图像序列(B11,B12)；基于第二图像数据增强规则对查询图C1进行图像数据增强得到查询图C11，基于第一图像数据增强规则对查询图C11进行图像数据增强，得到查询图C11的正样本C12，基于图C11和图C12生成一个图像序列(C11，C12)；基于第二图像数据增强规则对查询图C2进行图像数据增强得到查询图C21，基于第一图像数据增强规则对查询图C21进行图像数据增强，得到查询图C21的正样本C22，基于图C21和图C22生成一个图像序列(C21,C22)。

具体地，本申请所述的标签正样本对和标签负样本对的生成方法包括：获取样本图像数据集，确定任一所述样本图像数据集为查询样本图像数据集，所述样本图像数据集至少为二；确定所述查询样本图像数据集中任一样本图像为第一样本图像，将所述第一样本图像和除所述查询样本图像数据集外的其他样本图像数据集中任一样本图像输入神经网络模型，获取所述第一样本图像与所述其他样本图像数据集中任一样本图像的高维特征向量；从其他样本数据集中筛选出与所述第一样本图像的高维特征向量的相似度符合第一预设条件的第二样本图像，所述第一样本图像与所述第二样本图像构成标签正样本对；从其他样本数据集中筛选出与所述第一样本图像的高维特征向量的相似度符合第二预设条件的第三样本图像，所述第一样本图像与所述第三样本图像构成标签负样本对。举例而言，随机收集一批图像数据作为查询样本图像数据集，数量为N，并随机收集一批图像数据作为目标样本图像数据集，数量为M。利用特征提取深度网络提取目标样本图像数据集和查询样本图像数据集中的样本图像的高维特征向量，再使用查询集去检索目标样图图像数据集，组成N*M个图像相似度(本申请中计算两个图像之间的相似度即为将两个图像归一化后的高维特征向量相乘)。相似度极高的一对“查询样本图像-目标样本图像”样本对(pair)一般是正样本对，而相似度极低的样本对一般是负样本对，但对于查询样本图像而言，基于上述方法得到的正样本和负样本仅仅是简单样本，这部分简单样本数量庞大且对模型训练效果作用不大。而与查询样本图像相似度分数居中的目标样本图像常常正负样本混杂，属于模型难分的困难样本，这批样本经过标注后加入训练集可以有效提升模型效果；并且这批样本的数量较少，标注成本较低。鉴于此，本申请取与查询样本图像的高维特征向量的相似度在[0.87,0.94]的目标样本图像作为困难样本，然后基于所述困难样本，从目标样本数据集中筛选出与所述第一样本图像的高维特征向量的相似度符合第二预设条件的第三样本图像为上述查询样本图像的负样本；从目标样本数据集中筛选出与所述查询样本图像的高维特征向量的相似度符合第一预设条件的第二样本图像为上述查询样本图像的正样本。需要理解的是，本申请对于第一预设条件和第二预设条件不作具体限定，本领域技术人员可以根据实际情况进行对其进行限定。

步骤S102，将所述第一图像输入神经网络模型，获取所述第一图像的高维特征向量；

其中，获取所述第一图像的高维特征向量后，所述方法还包括：对所述第一图像的高维特征向量进行归一化处理，以便于计算任两张第一图像之间的高维特征向量的相似度。需要理解的是，本申请对第一图像的高维特征向量的具体获取方法不作限定，本领域技术人员可以根据如图像特点等实际情况选择合适的高维特征向量获取方法；

具体地，将第一图像输入神经网络模型，获取第一图像的高维特征向量后，所述方法还包括：缓存每一第一图像的高维特征向量至预设的记忆缓存模块，以便历史训练轮次的第一图像的高维特征向量可追溯。本申请所用的记忆缓存模块的缓存机制为先进先出。需要理解的是，本申请对于缓存第一图像的高维特征向量的具体模块/装置不作限定，只需具有数据缓存功能即可，本领域技术人员可以根据实际情况进行选择。

步骤S103，获取除当前训练轮次的其他训练轮次的第一图像的高维特征向量；

优选地，本申请所述其他训练轮次为获取当前训练轮次n前的第n-3次至n-1次的训练轮次。鉴于此，本申请选用的记忆缓存模块最多可以存储4个训练轮次的第一图像的高维特征向量。

步骤S104，确定当前训练轮次中任一所述第一图像为查询图像，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一所述第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值；

其中，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一所述第一图像与所述查询图像之间的高维特征向量的相似度，包括：基于归一化后的第一图像和所述查询图像的高维特征向量，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，其中，所述相似度为余弦相似度。

步骤S105，将所述目标图像数据集作为训练样本，对所述神经网络模型进行训练，直至所述神经网络模型的损失值逼近于第一预设值。

其中，模型训练需要大量的图像数据，但是基于本申请提出的通过将查询图像的高维特征向量分别与其对应的负样本及正样本的高维特征向量进行对比获取相似度的模型训练方法，仅需要对少量的图像数据进行多轮训练即可达到如图5所示的拉近正样本与查询图像的距离、推远负样本与查询图像的距离的技术目的；即使得查询图像与其正样本之间的高维特征向量的相似度尽可能逼近于1，使查询图像与其负样本之间的高维特征向量的相似度尽可能逼近于0。

本实施例还提供了一种图像检索方法，该方法采用了前述的模型训练方法所训练完成的神经网络模型，该方法的处理流程如图6所示，至少包括以下的处理步骤：

步骤S601、获取查询图像，将所述查询图像输入所述神经网络模型获取所述查询图像的高维特征向量；所述查询图像可以为用户输入的图像，也可以是用户在包含有海量图像的数据库中确定的图像。

步骤S602、获取多个待检索图像，将任一所述待检索图像输入所述神经网络模型获取所述待检索图像的高维特征向量；待检索图像即为用于适配查询图像的图像；需要理解的是，在本申请中可以是当神经网络模型每获取一张查询图像，或，获取一张查询图像的高维特征向量后，基于神经网络模型获取多个待检索图像的高维特征向量；在本申请中还可以是当神经网络模型每获取一张待检索图像或查询图像的高维特征向量后，即将待检索图像或查询图像的高维特征向量存储至预设的数据缓存单元，当检测到有查询图像输入至神经网络模型时，则直接基于数据缓存单元中存储的高维特征向量计算带检索图像与查询图像之间的高维特征向量的相似度，从而无需多次对待检索图像的高维特征向量进行提取，减少资源浪费。

步骤S603、分别计算查询图像与任一所述待检索图像之间的高维特征向量的相似度；以1个查询图像和100个待检索图像为例，分别计算查询图像的高维特征向量与每一个待检索图像的高维特征向量之间的余弦相似度，计算获得的相似度计算结果的数量为100个。

步骤S604、从待检索图像中检索出相似度较高的至少一个目标图像。

在选取时，可以按照从高到低的顺序计算获得的相似度进行排序，然后选取排序靠前的至少一个待检索图像，此时选取的待检索图像即为相似度较高的至少一个目标图像。在实际场景中，也可以在排序时设定一个截断值，通过截断值来选取所述目标图像。其中，该截断值可以是设定的相似度阈值，即相似度高于截断值的待检索图像即为目标图像；该截断值也可以是排序阈值，比如设定该排序阈值为n，即根据相似度排序(从高到低排序)从多个待筛选图像中筛选出排序靠前的n个待筛选图像为目标图像。

此外，本申请实施例还提供了一种用于图像检索的模型训练设备，该设备的结构如图7所示，该设备包括数据获取模块701、特征提取模块702以及模型训练模块704；其中，数据获取模块701，用于获取当前训练轮次中目标图像数据集的图像序列，所述图像序列至少为二，每一所述图像序列包括至少两张第一图像，任两张所述第一图像互为正样本；以及当前训练轮次前的其他训练轮次的第一图像的高维特征向量；特征提取模块702，用于对所述第一图像进行特征提取，获取第一图像的高维特征向量；模型训练模块704，用于确定当前训练轮次中任一所述第一图像为查询图像，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一所述第一图像与所述查询图像之间的高维特征向量的相似度，确定所述神经网络模型的损失值；以及将所述目标图像数据集作为训练样本，对所述神经网络模型进行训练，直至所述神经网络模型的损失值逼近于第一预设值。

在其中一个实施例中，如图8所示，所述用于图像检索的模型训练设备还包括记忆缓存模块703，用于存储每一训练轮次中的第一图像的高维特征向量。其中，本申请所述的记忆缓存模块的数据缓存特性为先进先出，其数据存储容量为最大可以存储4个训练轮次的第一图像的高维特征向量。

本申请实施例还提供了一种用于图像检索设备，该设备的结构如图9所示，该设备包括特征提取模块901、计算模块902及检索模块903，其中，特征提取模块901，用于获取查询图像，将所述查询图像输入所述神经网络模型获取所述查询图像的高维特征向量；以及获取多个待检索图像，将任一所述待检索图像输入所述神经网络模型获取所述待检索图像的高维特征向量；计算模块902，用于分别计算查询图像与任一所述待检索图像之间的高维特征向量的相似度；检索模块903，用于从待检索图像中检索出相似度较高的至少一个目标图像。

基于同一发明构思，本申请实施例中还提供了一种电子设备，所述电子设备对应的方法可以是前述实施例中的用于图像检索的模型训练方法以及图像检索方法，并且其解决问题的原理与该方法相似。本申请实施例提供的所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述本申请的多个实施例的方法和/或技术方案。

所述电子设备可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备，或者也可以是运行于上述设备的应用程序，所述用户设备包括但不限于计算机、手机、平板电脑、智能手表、手环等各类终端设备，所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现，可以用于实现设置闹钟时的部分处理功能。在此，云由基于云计算(Cloud Computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。

图10示出了适用于实现本申请实施例中的方法和/或技术方案的一种设备的结构，该设备1000包括中央处理单元(CPU，Central Processing Unit)1001，其可以根据存储在只读存储器(ROM，Read Only Memory)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM，Random Access Memory)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O，Input/Output)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标、触摸屏、麦克风、红外传感器等的输入部分1006；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，LiquidCrystal Display)、LED显示器、OLED显示器等以及扬声器等的输出部分1007；包括硬盘、光盘、磁盘、半导体存储器等一个或多个计算机可读介质的存储部分1008；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。

特别地，本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法中限定的上述功能。

本申请另一实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现前述本申请的任意一个或多个实施例的方法和/或技术方案。

具体来说，本实施例可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的针对硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或页面组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一个计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于图像检索的模型训练方法，其中，所述方法包括：

2.根据权利要求1所述的模型训练方法，其中，所述方法还包括：

获取原始图像数据集，其中，所述原始图像数据集包括无标签样本图像和标签样本对，所述标签样本对包括标签正样本对，和/或，标签负样本对；

对所述原始图像数据集进行数据重组，得到图像序列；

基于所述图像序列，得到目标图像数据集。

3.根据权利要求2所述的模型训练方法，其中，

对所述原始图像数据集进行数据重组，得到图像序列包括：

根据第二图像数据增强规则，对所述无标签样本图像进行图像数据增强，生成第一图像；

根据第一图像数据增强规则，对所述第一图像进行图像数据增强，得到第一图像的正样本；

基于所述第一图像及其正样本，得到图像序列。

4.根据权利要求3所述的模型训练方法，其中，

对所述原始图像数据集进行数据重组，得到图像序列包括：

确定所述标签正样本对中任一样本图像为查询样本图像，根据第二图像数据增强规则，对所述查询样本图像进行图像数据增强，生成第一图像；

根据所述第一图像数据增强规则和第二数据增强规则，对所述标签正样本对中除所述查询样本图像外的其他样本图像进行图像数据增强，生成所述第一图像的正样本；

基于所述第一图像及其正样本，得到图像序列。

5.根据权利要求3或4所述的模型训练方法，其中，

对所述原始图像数据集进行数据重组，得到图像序列包括：

确定所述标签负样本对中任一样本图像为查询样本图像，根据所述第二数据增强规则，对所述查询样本图像进行图像数据增强，生成第一图像；

根据所述第二数据增强规则，对所述第一图像进行图像数据增强，生成所述第一图像的正样本；

基于所述第一图像及其正样本，得到图像序列。

6.根据权利要求2或4所述的模型训练方法，其中，

生成所述标签正样本对，包括：

获取样本图像数据集，确定任一所述样本图像数据集为查询样本图像数据集，所述样本图像数据集至少为二；

确定所述查询样本图像数据集中任一样本图像为第一样本图像，将所述第一样本图像和除所述查询样本图像数据集外的其他样本图像数据集中任一样本图像输入神经网络模型，获取所述第一样本图像与所述其他样本图像数据集中任一样本图像的高维特征向量；

从其他样本数据集中筛选出与所述第一样本图像的高维特征向量的相似度符合第一预设条件的第二样本图像，所述第一样本图像与所述第二样本图像构成标签正样本对。

7.根据权利要求6所述的模型训练方法，其中，

生成所述标签负样本对，包括：

从其他样本数据集中筛选出与所述第一样本图像的高维特征向量的相似度符合第二预设条件的第三样本图像，所述第一样本图像与所述第三样本图像构成标签负样本对。

8.根据权利要求7所述的模型训练方法，其中，

所述第一图像数据增强规则至少包括以下任意一项：读图、色彩、噪声、模糊、马赛克、仿射变换、非线性变换、拼接纯色块、裁剪粘贴、放缩图像插值、剪影；

和/或，

所述第二图像数据增强规则至少包括以下任意一项：读图、色彩、噪声、模糊、马赛克、仿射变换、非线性变换、放缩图像插值。

9.根据权利要求1所述的模型训练方法，其中，将所述第一图像输入神经网络模型，获取所述第一图像的高维特征向量后，所述方法还包括：缓存当前训练轮次中第一图像的高维特征向量。

10.根据权利要求1或8所述的模型训练方法，其中，

获取除当前训练轮次外的其他训练轮次的第一图像的高维特征向量，包括：

获取当前训练轮次n前的第n-3次至n-1次的训练轮次中第一图像的高维特征向量。

11.根据权利要求10所述的模型训练方法，其中，

遍历计算当前训练轮次中任一第一图像与查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，包括：

归一化所述第一图像和所述查询图像的高维特征向量；

基于归一化后的第一图像和所述查询图像的高维特征向量，遍历计算当前训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，和，其他训练轮次中任一第一图像与所述查询图像之间的高维特征向量的相似度，其中，所述相似度为余弦相似度。

12.一种图像检索方法，其中，

所述方法使用权利要求1至11中任一项所述的方法所训练完成的神经网络模型，所述方法包括：

从待检索图像中检索出相似度较高的至少一个目标图像。

13.一种用于图像检索的模型训练设备，其中，

所述设备包括：

14.一种图像检索设备，其中，所述设备使用权利要求1至11任一项所述方法所训练完成的神经网络模型，所述设备包括：

15.一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

16.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现如权利要求1至12中任一项所述的方法。