CN109101602A

CN109101602A - 图像检索模型训练方法、图像检索方法、设备及存储介质

Info

Publication number: CN109101602A
Application number: CN201810863354.7A
Authority: CN
Inventors: 琚震; 彭湃; 余宗桥; 郭晓威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-28
Anticipated expiration: 2038-08-01
Also published as: CN109101602B

Abstract

本申请公开了一种图像检索模型训练方法、图像检索方法、设备及存储介质，属于图像检索领域。所述方法包括：根据图像训练集训练图像检索模型，图像训练集中包含具有标注信息的训练图像，标注信息用于表示训练图像所属的类别；将属于同一类别的训练图像输入图像检索模型，得到训练图像对应的图像特征；根据同一类别中各张训练图像对应的图像特征，确定类别的特征中心点；根据训练图像的图像特征，以特征中心点为目标特征训练图像检索模型。本申请实施例采用特征聚类的方式对图像检索模型进一步训练，使得利用训练得到的图像检索模型进行特征提取时，同类图像对应的特征相差较小，进而提高了后续基于特征相似度进行相似图像检索的准确性。

Description

图像检索模型训练方法、图像检索方法、设备及存储介质

技术领域

本申请实施例涉及图像检索领域，特别涉及一种图像检索模型训练方法、图像检索方法、设备及存储介质。

背景技术

随着深度学习技术的不断发展，深度学习技术在各个领域得到了广泛应用。比如，将深度学习技术应用于图像检索领域，用户上传一张图像后，即能够获取到与上传图像具有相似内容的图像。

在一种图像检索方式中，开发人员预先构建基于深度学习的图像检索模型，并将三元组损失(Triplet Loss)作为图像检索模型的损失函数进行模型训练，其中，每个三元组中包含锚(Anchor)示例、正(Positive)示例和负(Negative)示例。进行图像检索时，将待检索图像输入训练得到的图像检索模型后，得到待检索图像的特征，进而返回图像数据库中与待检索图像具有较高特征相似度的图像。

然而，利用上述方法训练出的图像检索模型进行特征提取时，提取到的同类图像对应的特征相差较大，导致后续基于特征相似度检索相似图像的准确性较低。

发明内容

本申请实施例提供了一种图像检索模型训练方法、图像检索方法、设备及存储介质，可以解决相关技术中利用图像检索模型进行特征提取时，提取到的同类图像对应的特征相差较大，导致后续基于特征相似度检索相似图像的准确性较低的问题。所述技术方案如下：

一方面，提供了一种图像检索模型训练方法，所述方法包括：

根据图像训练集训练图像检索模型，所述图像训练集中包含具有标注信息的训练图像，所述标注信息用于表示所述训练图像所属的类别；

将属于同一类别的所述训练图像输入所述图像检索模型，得到所述训练图像对应的图像特征；

根据同一类别中各张所述训练图像对应的所述图像特征，确定所述类别的特征中心点；

根据所述训练图像的所述图像特征，以所述特征中心点为目标特征训练所述图像检索模型。

另一方面，提供了一种图像检索方法，所述方法包括：

获取目标检索图像；

将所述目标检索图像输入图像检索模型，得到所述目标检索图像的目标图像特征，所述图像检索模型根据训练图像的图像特征，并以所述训练图像所属类别的特征中心点为目标特征训练得到，所述特征中心点根据同一类别中各张训练图像的所述图像特征确定得到；

根据所述目标图像特征和候选图像的候选图像特征输出检索结果，所述检索结果中包含与所述目标检索图像相似的所述候选图像。

另一方面，提供了一种图像检索模型训练装置，所述装置包括：

第一训练模块，用于根据图像训练集训练图像检索模型，所述图像训练集中包含具有标注信息的训练图像，所述标注信息用于表示所述训练图像所属的类别；

特征提取模块，用于将属于同一类别的所述训练图像输入所述图像检索模型，得到所述训练图像对应的图像特征；

中心点确定模块，用于根据同一类别中各张所述训练图像对应的所述图像特征，确定所述类别的特征中心点；

第二训练模块，用于根据所述训练图像的所述图像特征，以所述特征中心点为目标特征训练所述图像检索模型。

另一方面，提供了一种图像检索装置，所述装置包括：

第一获取模块，用于获取目标检索图像；

检索模块，用于将所述目标检索图像输入图像检索模型，得到所述目标检索图像的目标图像特征，所述图像检索模型根据训练图像的图像特征，并以所述训练图像所属类别的特征中心点为目标特征训练得到，所述特征中心点根据同一类别中各张训练图像的所述图像特征确定得到；

输出模块，用于根据所述目标图像特征和候选图像的候选图像特征输出检索结果，所述检索结果中包含与所述目标检索图像相似的所述候选图像。

另一方面，提供了一种图像检索模型训练设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的图像检索模型训练方法。

另一方面，提供了一种图像检索设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的图像检索方法。

另一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的图像检索模型训练方法，或，图像检索方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

根据图像训练集训练得到图像检索模型后，利用该图像检索模型对图像训练集中属于同一类别的训练图像进行特征提取，得到各张训练图像对应的图像特征，并根据各张训练图像的图像特征确定类别的特征中心点，进而以特征中心点为图像特征的目标特征，对图像检索模型进行再次训练；基于同类图像的特征内聚性，采用特征聚类的方式对图像检索模型进一步训练，使得利用训练得到的图像检索模型进行特征提取时，同类图像对应的特征相差较小，进而提高了后续基于特征相似度进行相似图像检索的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的实施环境的示意图；

图2示出了本申请一个实施例提供的图像检索模型训练方法的流程图；

图3示出了本申请另一个实施例提供的图像检索模型训练方法的流程图；

图4是对训练图像进行特征聚类过程的实施示意图；

图5是图3所示图像检索模型训练方法的原理示意图；

图6示出了本申请另一个实施例提供的图像检索方法的流程图；

图7是一个实施例示出的图像检索方法的实施示意图；

图8示出了本申请一个实施例提供的图像检索模型训练装置的框图；

图9示出了本申请一个实施例提供的图像检索装置的框图；

图10示出了本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

卷积神经网络(Convolutional Neural Network，CNN)：一种包含多层神经网络结构的深度学习模型，被广泛应用于图像处理领域。CNN可以分为卷积(convolution)层、池化(pooling)层和全连接层。

卷积层是卷积神经网络中用于提取(图像)特征的层，用于对高维数据进行低维特征提取，可以包括卷积操作和激活(activation)操作。其中，进行卷积操作时，使用预先经过训练学习得到的卷积核进行特征提取，进行激活操作时，使用激活函数(activationfunction)对卷积得到的特征图进行激活处理，常用的激活函数包括线性整流(RectifiedLinear Unit，ReLU)函数、S型(Sigmoid)函数和双曲正切(Tanh)函数。

经过卷积层之后，池化层通过池化操作降低卷积激活输出的特征向量(即缩小特征图的尺寸)，同时改善过拟合问题。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和随机池化(stochastic-pooling)。

全连接层又称为内积层，在卷积神经网络中，经过特征提取后，图片被映射到隐藏层的特征空间中，全连接层则是用于将学习训练得到的特征映射到样本分类空间中。

损失函数：是一种用于估量模型的预测值与真实值之间不一致程度的函数。其中，损失函数越小，表明模型的预测效果及鲁棒性越好。常见的损失函数包括0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数、指数损失函数、铰链损失函数等等。

特征聚类：本申请实施例中的特征聚类是指将同类别图像映射到特征空间后，确定该类别图像在特征空间的特征中心点的过程。

欧式距离：又称为欧几里得距离，用于衡量欧几里得空间内两点间的距离。本申请实施例中的欧式距离是指两个N维向量之间的距离，其中，N维向量x(x₁，x₂，x₃，…，x_N)和N维向量y(y₁，y₂，y₃，…，y_N)之间的欧式距离可以表示为

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端110和服务器120。

终端110是具有图像采集功能的电子设备，该电子设备可以是配置有摄像头的智能手机、平板电脑、个人计算机，或者监控设备(比如智能摄像头或者道路监控探头)等等。图1中，终端110是设置有摄像头的手机。

可选的，终端110中安装有具有图像检索功能的预设应用程序，或者，关注有提供图像检索服务的社交账号(比如公众号)，或者，运行有依赖于其它应用程序的小程序(miniprogram)(比如即时通信应用程序中的小程序)。当需要进行图像检索时，终端110即通过预设应用程序、社交账号或者小程序上传待检索图像。

终端110与服务器120之间通过有线或无线网络相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中，服务器120是终端110中预设应用程序的后台服务器、社交账号的后台服务器或者小程序的后台服务器。

本申请实施例中，服务器120用于进行相似图像检索。可选的，服务器120中存储有用于进行图像特征提取的图像检索模型以及图像数据库，该图像数据库中存储有若干候选图像，服务器120即从图像数据库中查找与待检索图像相似的图像。如图1所示，服务器120中包含图像检索模型121和图像数据库122。

在一种可能的应用场景下，如图1所示，终端110通过摄像头采集待检索图像，并将待检索图像发送至服务器120。服务器120将待检索图像输入图像检索模型121，得到图像检索模型121输出的图像特征，进而根据待检索图像的图像特征，以及图像数据库122中各张图像的图像特征，查找与待检索图像的特征相似度大于阈值的相似图像，并将相似图像作为检索结果反馈给终端110。

在另一种可能的应用场景下，当终端110中存储有图像检索模型时，终端110可以借助本地图像检索模型得到待检索图像的图像特征，并将图像特征上传至服务器120，由服务器120基于图像特征反馈相似图像，以降低服务器120的特征提取时消耗的处理资源。

可选的，终端110或服务器120通过神经网络芯片实现图像检索功能。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请各个实施例提供的图像检索模型训练方法可以由模型训练设备执行，该模型训练设备可以为具有较强计算能力的计算机或服务器；本申请各个实施例提供的图像检索方法可以由图像检索设备执行，该图像检索设备可以为图1中的终端110或服务器120。

本申请实施例提供的图像检索方法可以用于人脸识别、车辆监控等场景。下面结合不同的应用场景进行说明。

人脸识别场景

当应用于人脸识别场景时，可以将图像检索方法实现成为人脸识别软件，并将人脸识别软件安装在终端中。在进行人脸识别时，终端即通过摄像头采集人脸图像，并将人脸图像上传至后台服务器，由后台服务器通过人脸检索模型对人脸图像进行特征提取，并将提取到的人脸特征与人脸数据库进行比对，从而获取到人脸特征相似度较高的相似人脸图像，并将相似人脸图像的身份信息返回给终端。借助该人脸识别系统，可以实现员工身份认证、走失儿童查找或可疑人员追踪。

车辆监控场景

当应用于车辆监控场景时，可以将图像检索方法实现成为一套车辆监控系统，并将该系统部署在监控服务器中。当需要定位目标车辆时，将目标车辆的车辆图像上传至监控服务器，由监控服务器对车辆图像进行车辆特征提取。进一步的，监控服务器将目标车辆的车辆特征与其他监控画面中车辆的车辆特征进行比对，从而实现目标车辆定位。借助该车辆监控系统，可以实现车辆定位、车辆行驶轨迹绘制等功能。

当然，上述图像检索方法还可以用于其它需要进行相似图像检索的应用场景，本申请实施例对此不做限定。

相关技术中，在训练图像检索模型时，通过构建基于深度学习的图像检索模型，并以三元损失(改进的三元损失)作为损失函数进行模型训练，使得三元组中相同类别图像之间的距离最小，而不同类别图像之间的距离最大。但是，采用上述方法训练图像检索模型时，并未考虑到同类图像间特征的内聚性，导致利用图像检索模型进行特征提取时，同类图像间图像特征的差距较大。相应的，后续根据图像特征的相似度进行相似图像检索时，部分相似图像可能因图像特征相似度过低而被过滤，进而影响相似图像检索的准确性。

而本申请实施例提供的图像检索模型训练方法中，通过上述方法训练出图像检索模型后，模型训练设备使用该图像检索模型对属于同一类别训练图像进行聚类，从而得到每类训练图像的特征中心点，并将特征中心点作为该类别下训练图像的标签，进一步训练图像检索模型，进而缩小训练图像的图像特征与特征中心点之间的差距，提高同类图像之间的特征内聚性。通过上述方式训练图像检索模型后，同类图像间图像特征的差距得到进一步缩小，从而提高后续根据图像特征相似度进行相似图像检索的准确性。下面采用示意性的实施例对图像检索模型的训练过程进行说明。

请参考图2，其示出了本申请一个实施例提供的图像检索模型训练方法的流程图。本实施例以该方法应用于模型训练设备来举例说明，该方法可以包括以下几个步骤：

步骤201，根据图像训练集训练图像检索模型，图像训练集中包含具有标注信息的训练图像，标注信息用于表示训练图像所属的类别。

在一种可能的实施方式中，图像训练集中包含若干个图像训练子集，每个图像训练子集中包含同一类别的若干张训练图像，即同一图像训练子集中的训练图像具有相同的标注信息。可选的，该类别为车辆类别、用户类别等等。

比如，当图像训练集用于训练车辆检索模型时，图像训练集中包含对应不同类别车辆的图像训练子集，且每个图像训练子集中包含同一车辆的若干张车辆图像，该车辆图像可以是从不同拍摄角度、不同光照条件、不同拍摄部位拍摄的车辆照片，或者，该车辆图像是从一段车辆行驶视频中截取的不同时刻的视频帧。

可选的，该图像检索模型的主干为卷积神经网络，该卷积神经网络可以为视觉几何组网络(Visual Geometry Group Net，VggNet)，AlexNet，Inception网络，可变网络(MobileNet)中的任意一种，本申请实施例并不对图像检索模型所采用卷积神经网络的类型进行限定。

在一种可能的实施方式中，模型训练设备以三元组损失作为图像检索模型的损失函数，通过最小化损失函数的方式训练图像检索模型，使得同类训练图像之间的特征距离最小，非同类训练图像之间的特征距离最大。

通过本步骤训练得到的图像检索模型已具备图像特征提取功能，即将待检索图像输入图像检索模型后，图像检索模型输出待检索图像的图像特征。

步骤202，将属于同一类别的训练图像输入图像检索模型，得到训练图像对应的图像特征。

为了进一步提高图像检索模型的检索性能，基于同类别训练图像的图像特征内聚性，模型训练设备进一步利用已训练得到的图像检索模型，对图像训练集中的各张训练图像进行图像特征提取，以便后续对同类别训练图像的图像特征进行聚类，从而得到各个类别训练图像的特征中心点(或称为类别特征)。

可选的，训练图像的图像特征可以采用特征向量表示。

步骤203，根据同一类别中各张训练图像对应的图像特征，确定类别的特征中心点。

进一步的，对于指定类别，模型训练设备根据该类别中各张训练图像对应的图像特征，确定该类别的特征中心点，最终确定出各个类别对应的特征中心点。可选的，该特征中心点可以采用特征向量表示。

步骤204，根据训练图像的图像特征，以特征中心点为目标特征训练图像检索模型。

为了使同类别图像经过图像检索模型特征提取后得到差距较小的图像特征，在一种可能的实施方式中，模型训练设备将得到的特征中心点作为各张训练图像(属于特征中心点对应的类别)的标签，从而利用训练图像的图像特征和标签，进一步训练图像检索模型。

可选的，在训练图像检索模型时，模型训练设备使用欧拉损失函数作为图像检索模型的损失函数进行训练。

综上所述，本实施例中，根据图像训练集训练得到图像检索模型后，利用该图像检索模型对图像训练集中属于同一类别的训练图像进行特征提取，得到各张训练图像对应的图像特征，并根据各张训练图像的图像特征确定类别的特征中心点，进而以特征中心点为图像特征的目标特征，对图像检索模型进行再次训练；基于同类图像的特征内聚性，采用特征聚类的方式对图像检索模型进一步训练，使得利用训练得到的图像检索模型进行特征提取时，同类图像对应的特征相差较小，进而提高了后续基于特征相似度进行相似图像检索的准确性。

在一种可能的实施方式中，模型训练设备根据图像特征和特征中心点进行模型训练过程中，通过计算图像特征与特征中心点之间的距离，并基于该距离构建损失函数，从而利用该损失函数训练图像检索模型。下面采用示意性的实施例进行说明。

请参考图3，其示出了本申请另一个实施例提供的图像检索模型训练方法的流程图。本实施例以该方法应用于模型训练设备来举例说明，该方法可以包括以下几个步骤：

步骤301，根据图像训练集训练图像检索模型，图像训练集中包含具有标注信息的训练图像，标注信息用于表示训练图像所属的类别。

在一种可能的实施方式中，模型训练设备基于三元损失函数进行图像检索模型预训练，本步骤可以包括如下步骤。

一、根据图像训练集构建三元组，三元组中包含第一训练图像、第二训练图像和第三训练图像，第一训练图像和第二训练图像属于同一类别，第三训练图像与第一训练图像属于不同类别。

图像训练集中包含若干个图像训练子集，不同图像训练子集对应不同类别，且每个图像训练子集中包含多张训练图像。在一种可能的实施方式中，模型训练设备从第一图像训练子集中选取第一训练图像作为三元组中的锚示例，从第一图像训练子集中选取第二训练图像作为三元组中的正示例，从第二图像训练子集中选取第三训练图像作为三元组中的负示例，从而构建得到三元组。

二、根据三元组对应的三元组损失构建图像检索模型的第二损失函数。

模型训练的最终目的是为了在区分不同类别图像的同时，识别出属于同一类别的图像，因此，模型训练过程中需要最小化三元组中第一训练图像和第二训练图像的距离(即最小化锚示例与正示例的距离)，并最大化第一训练图像和第三训练图像的距离(即最小化锚示例与负示例的距离)。

其中，模型训练设备基于三元组损失构建的第二损失函数中包含：第一训练图像与第二训练图像之间的第一欧式距离，第一训练图像与第三训练图像之间的第二欧式距离，第一欧式距离与第二欧式距离之间的最小间隔。

可选的，第二损失函数如下：

其中，是第i三元组中的锚示例，是第i三元组中的正示例，是是第i三元组中的负示例，为锚示例和正示例之间的第一欧式距离，为锚示例和负示例之间的第二欧式距离，a为第一欧式距离与第二欧式距离之间的最小间隔，+表示当[]内的值大于0时，损失即为[]内的值，当]内的值小于0时，损失即为0。

三、根据第二损失函数训练图像检索模型。

相应的，模型训练设备以最小化第二损失函数为目的训练图像检索模型。

步骤302，对于属于同一类别的训练图像，将训练图像输入图像检索模型，得到各张训练图像的图像特征向量，图像特征向量用于表示训练图像的图像特征。

通过上述步骤301训练得到图像检索模型后，模型训练设备进一步将同一类别中的各张训练图像输入图像检索模型中，即将训练图像映射到特征空间，从而得到各张训练图像的图像特征向量，其中，该图像特征向量为N维向量。

在一种可能的实施方式，模型训练设备将训练图像输入图像检索模型后，将图像检索模型中最后一个池化层产生的N维特征向量作为训练图像的图像特征向量。

示意性的，如图4所示，模型训练设备通过图像检索模型，将原本位于图像空间的各张训练图像41，转换为特征空间中的N维图像特征向量42。

步骤303，根据同一类别中各张训练图像的图像特征向量，计算该类别对应的中心点特征向量，中心点特征向量用于表示该类别的特征中心点。

由于同一类别中各张训练图像的图像特征具有内聚性，因此计算得到各张训练图像的图像特征向量后，模型训练设备进一步对同一类别下各张训练图像的图像特征向量进行聚类，从而得到该类别对应的中心点特征向量，该中心点特性向量即位于各个图像特征的特征中心点。

在一种可能的实施方式中，在计算中心点特征向量时，模型训练设备获取同一类别中各张训练图像的图像特征向量，并计算各个图像特征向量的平均特征向量，从而将平均特征向量确定为中心点特征向量。

在一个示意性的例子中，当类别A中包含k张训练图像，且训练图像的图像特征向量依次为N₁，N₂，N₃，…，N_k时，类别A的中心点特征向量即为(N₁+N2+…+N_k)/k。

示意性的，如图4所示，模型训练设备根据同一类别中各张训练图像41对应的N维图像特征向量42，计算得到类别对应的中心点特征向量43，实现图像特征聚类。

通过上述步骤完成图像特征聚类后，模型训练设备通过下述步骤305至307进一步训练图像检索模型。

步骤304，将训练图像输入最近一次训练得到的图像检索模型，得到训练图像的图像特征向量。

在一种可能的实施方式中，每次进行模型训练时，模型训练设备将图像训练集中的各张训练图像输入最近一次训练得到的图像检索模型，从而得到各张训练图像的图像特征向量。

由于图像训练集中包含大量训练图像，若每次训练模型时都对各张训练图像进行特征提取，将耗费大量时间，且不利于模型的快速收敛，因此在另一种可能的实施方式中，模型训练设备从图像训练集中随机选取n张训练图像，并将n张训练图像输入最近一次训练得到的图像检索模型，从而得到n个图像特征向量，后续过程中，即基于n个图像特征向量和对应的中心点特征向量进行模型训练。比如，n＝100。

可选的，为了保证选取训练图像的全面性(即覆盖各种类别)，当训练图像集中包含i个训练图像子集时，模型训练设备从每个训练图像子集中随机选取n/i张训练图像，共选取n张训练图像。

示意性的，如图5所示，模型训练设备根据训练图像51训练得到图像检索模型52，并对训练图像51进行特征聚类，得到中心点特征向量53。在优化图像检索模型时，模型训练设备构建与图像检索模型52相同的待训练图像检索模型54，并进一步将训练图像51输入待训练图像检索模型54，得到训练图像51各自对应的图像特征向量55。

步骤305，计算图像特征向量与对应的中心点特征向量之间的欧式距离。

进一步的，对于各张训练图像，模型训练设备确定训练图像所属类别的中心点特征向量，并比较训练图像的图像特征向量与该中心点特征向量之间的差异，其中，图像特征向量与中心点特征向量之间的差异可以采用向量之间的欧式距离表示，两者之间的欧式距离越大，表明两者差异越大，反之，两者差异越小。

在一个示意性的例子中，模型训练设备通过图像检索模型得到类别A中训练图像A1的图像特征向量N_A1、训练图像A3的图像特征向量N_A3以及训练图像A4的图像特征向量N_A4，且类别A对应的中心点特征向量为N_A，从而分别计算图像特征向量N_A1与中心点特征向量N_A之间的欧式距离，图像特征向量N_A3与中心点特征向量N_A之间的欧式距离，图像特征向量N_A4与中心点特征向量N_A之间的欧式距离。

步骤306，根据各个欧式距离的平均值构建图像检索模型的第一损失函数。

计算得到图像特征向量与中心点特征向量之间的欧式距离后，模型训练设备进一步使用各个欧式距离的平均值作为图像检索模型的第一损失函数，以便后续根据该第一损失函数优化训练图像检索模型，其中，该第一损失函数即为均方差损失函数(mean squaredloss)。

在一个示意性的例子中，当计算得到n个图像特征向量与各自中心点特征向量的欧式距离时，模型训练设备即根据n个欧式距离的平均值构建第一损失函数。

示意性的，如图5所示，模型训练设备根据中心点特征向量53和图像特征向量55，构建出待训练图像检索模型54的均方误差函数56(即损失函数)。

步骤307，根据第一损失函数训练图像检索模型。

相应的，模型训练设备以最小化第一损失函数为目的训练图像检索模型。基于第一损失函数训练图像检索模型过程中，每张训练图像的图像特征向量与其所属类别的中心点特征向量不断靠近，从而不断缩小同一类别内图像特征向量的方差。

可选的，模型训练设备根据第一损失函数，采用反向传播算法训练图像检索模型。

每完成一次图像检索模型训练后，图像检索模型中的参数均得到更新，相应的，各张训练图像输入更新后的图像检索模型后输出的图像特征向量也发生变化。因此，每次训练后，模型训练设备需要将训练图像输入最近一次训练得到的图像检索模型，从而得到变化后的图像特征向量。

本实施例中，基于图像训练集训练得到图像检索模型后，进一步利用图像检索模型将训练图像映射到特征空间，并对特征空间中同类别的图像特征向量进行聚类，得到类别的中心点特征向量；后续优化图像检索模型时，即根据图像特征向量与中心点特征向量构建损失函数，并利用该损失函数对原有图像检索模型进行优化训练，从而提高同类图像的特征内聚性，进而提高图像检索模型对深度特征区分度。

另外，本实施例中，模型优化训练过程中，模型训练设备从图像训练集中随机选取n张训练图像进行模型训练，在降低模型训练计算量的同时，提高了模型的收敛速度；此外，模型优化训练过程中无需对训练图像进行额外标注，简化了优化训练过程的流程。

上述实施例介绍了图像检索模型的训练方法，下面对利用图像检索模型进行图像检索的过程进行说明。

请参考图6，其示出了本申请一个实施例提供的图像检索方法的流程图。本实施例以该图像检索方法应用于图像检索设备来举例说明，该方法可以包括以下几个步骤：

步骤601，获取目标检索图像。

可选的，该目标检索图像可以为一张或者多张。下述实施例以目标检索图像为一张为例进行说明。

在一种可能的实施方式中，当图像检索设备为服务器时，服务器即获取终端上传的目标检索图像。比如，当服务器是车辆监控系统中的监控服务器，且当前需要定位目标车辆时，监控服务器即获取监控平台上传的目标检索图像，该目标检索图像中即包含目标车辆。

步骤602，将目标检索图像输入图像检索模型，得到目标检索图像的目标图像特征，图像检索模型根据训练图像的图像特征，并以训练图像所属类别的特征中心点为目标特征训练得到，特征中心点根据同一类别中各张训练图像的图像特征确定得到。

图像检索设备获取到目标检索图像后，即将目标检索图像输入图像检索模型(通过上述实施例提供的模型训练方法训练得到)，由图像检索模型对目标检索图像进行特征提取，从而得到目标检索图像的目标图像特征。其中，该目标图像特征可以是图像检索模型输出的N维特征向量。

可选的，将目标检索图像输入图像检索模型前，图像检索设备还可以对目标检索图像进行预处理，使得目标检索图像符合图像检索模型的输入条件，该预处理包括尺寸缩放、分辨率调节等等。

步骤603，根据目标图像特征和候选图像的候选图像特征输出检索结果，检索结果中包含与目标检索图像相似的候选图像。

进一步的，图像检索设备获取各张候选图像的候选图像特征，通过计算候选图像的图像特征与目标图像特征之间的特征相似度，从候选图像中筛选出特征相似度大于相似度阈值的候选图像，作为检索到的相似图像。

可选的，候选图像可以为预先给定的图像，即在指定图像范围内检索相似图像。相应的，在进行检索前，图像检索设备预先将候选图像输入图像检索模型，从而得到各张候选图像的候选图像特征，并进行关联存储。

可选的，候选图像也可以是从实时视频中的视频帧。相应的，图像检索设备使用图像检索模型对候选图像进行实时特征提取，并进行特征比对。

在一个示意性的例子中，当上述图像检索方法应用于车辆监控场景时，如图7所示，监控平台71将需要检索的目标车辆图像72上传至监控服务器73，监控服务器73通过图像检索模型对目标车辆图像72进行特征提取，并将提取到的目标图像特征与数据库中候选车辆图像的图像特征进行比对，从而向监控平台71反馈相应的检索结果。监控平台71对接收到的检索结果进行显示，其中，设置有“√”标识的图像即为相似图像，设置有“？”标识的图像即为非相似图像。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请一个实施例提供的图像检索模型训练装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一训练模块810，用于根据图像训练集训练图像检索模型，所述图像训练集中包含具有标注信息的训练图像，所述标注信息用于表示所述训练图像所属的类别；

特征提取模块820，用于将属于同一类别的所述训练图像输入所述图像检索模型，得到所述训练图像对应的图像特征；

中心点确定模块830，用于根据同一类别中各张所述训练图像对应的所述图像特征，确定所述类别的特征中心点；

第二训练模块840，用于根据所述训练图像的所述图像特征，以所述特征中心点为目标特征训练所述图像检索模型

可选的，所述特征提取模块820，用于：

对于属于同一类别的所述训练图像，将所述训练图像输入所述图像检索模型，得到各张所述训练图像的图像特征向量，所述图像特征向量用于表示所述训练图像的所述图像特征；

中心点确定模块830，用于根据同一类别中各张所述训练图像的所述图像特征向量，计算所述类别对应的中心点特征向量，所述中心点特征向量用于表示所述类别的所述特征中心点。

可选的，所述中心点确定模块830，具体用于：

计算各个所述图像特征向量的平均特征向量；

将所述平均特征向量确定为所述中心点特征向量。

可选的，所述第二训练模块840，包括：

特征提取单元，用于将所述训练图像输入最近一次训练得到的所述图像检索模型，得到所述训练图像的所述图像特征向量；

第一计算单元，用于计算所述图像特征向量与对应的所述中心点特征向量之间的欧式距离；

第一构建单元，用于根据各个所述欧式距离的平均值构建所述图像检索模型的第一损失函数；

第一训练单元，用于根据所述第一损失函数训练所述图像检索模型。

可选的，所述特征提取单元，用于：

从所述图像训练集中随机选取n张所述训练图像，n≥2，n为整数；

将n张所述训练图像输入最近一次训练得到的所述图像检索模型，得到n个所述图像特征向量；

所述第一构建单元，用于根据n个所述欧式距离的平均值构建所述第一损失函数。

可选的，所述第一训练模块810，包括：

第二构建单元，用于根据所述图像训练集构建三元组，所述三元组中包含第一训练图像、第二训练图像和第三训练图像，所述第一训练图像和所述第二训练图像属于同一类别，所述第三训练图像与所述第一训练图像属于不同类别；

第三构建单元，用于根据所述三元组对应的三元组损失构建所述图像检索模型的第二损失函数；

第二训练单元，用于根据所述第二损失函数训练所述图像检索模型。

请参考图9，其示出了本申请一个实施例提供的图像检索装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一获取模块910，用于获取目标检索图像；

检索模块920，用于将所述目标检索图像输入图像检索模型，得到所述目标检索图像的目标图像特征，所述图像检索模型根据训练图像的图像特征，并以所述训练图像所属类别的特征中心点为目标特征训练得到，所述特征中心点根据同一类别中各张训练图像的所述图像特征确定得到；

输出模块930，用于根据所述目标图像特征和候选图像的候选图像特征输出检索结果，所述检索结果中包含与所述目标检索图像相似的所述候选图像。

可选的，所述装置还包括：

第二获取模块，用于获取所述候选图像；

候选图像特征提取模块，用于将各张所述候选图像输入所述图像检索模型，得到各张所述候选图像对应的所述候选图像特征。

可选的，所述输出模块930，包括：

相似度计算单元，用于计算所述目标图像特征与所述候选图像特征的特征相似度；

输出单元，用于若所述特征相似度大于相似度阈值，则输出所述候选图像。

请参考图10，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器可以实现成为上述图像检索模型训练设备或图像检索设备，以实施上述实施例提供的图像检索模型训练方法或图像检索方法。具体来讲：

所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述图像检索模型训练方法或图像检索方法中各个步骤的功能。

Claims

1.一种图像检索模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将属于同一类别的所述训练图像输入所述图像检索模型，得到所述训练图像对应的图像特征，包括：

所述根据同一类别中各张所述训练图像对应的所述图像特征，确定所述类别的特征中心点，包括：

根据同一类别中各张所述训练图像的所述图像特征向量，计算所述类别对应的中心点特征向量，所述中心点特征向量用于表示所述类别的所述特征中心点。

3.根据权利要求2所述的方法，其特征在于，所述根据同一类别中各张所述训练图像的所述图像特征向量，计算所述类别对应的中心点特征向量，包括：

计算各个所述图像特征向量的平均特征向量；

将所述平均特征向量确定为所述中心点特征向量。

4.根据权利要求2所述的方法，其特征在于，所述根据所述训练图像的所述图像特征，以所述特征中心点为目标特征训练所述图像检索模型，包括：

将所述训练图像输入最近一次训练得到的所述图像检索模型，得到所述训练图像的所述图像特征向量；

计算所述图像特征向量与对应的所述中心点特征向量之间的欧式距离；

根据各个所述欧式距离的平均值构建所述图像检索模型的第一损失函数；

根据所述第一损失函数训练所述图像检索模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述训练图像输入最近一次训练得到的所述图像检索模型，得到所述训练图像的所述图像特征向量，包括：

所述根据各个所述欧式距离的平均值构建所述图像检索模型的第一损失函数，包括：

根据n个所述欧式距离的平均值构建所述第一损失函数。

6.根据权利要求1至5任一所述的方法，其特征在于，所述根据图像训练集训练图像检索模型，包括：

根据所述图像训练集构建三元组，所述三元组中包含第一训练图像、第二训练图像和第三训练图像，所述第一训练图像和所述第二训练图像属于同一类别，所述第三训练图像与所述第一训练图像属于不同类别；

根据所述三元组对应的三元组损失构建所述图像检索模型的第二损失函数；

根据所述第二损失函数训练所述图像检索模型。

7.一种图像检索方法，其特征在于，所述方法包括：

获取目标检索图像；

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标图像特征和候选图像的图像特征输出检索结果之前，所述方法还包括：

获取所述候选图像；

将各张所述候选图像输入所述图像检索模型，得到各张所述候选图像对应的所述候选图像特征。

9.根据权利要求7或8所述的方法，其特征在于，所述根据所述目标图像特征和候选图像的候选图像特征输出检索结果，包括：

计算所述目标图像特征与所述候选图像特征的特征相似度；

若所述特征相似度大于相似度阈值，则输出所述候选图像。

10.一种图像检索模型训练装置，其特征在于，所述装置包括：

11.一种图像检索装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标检索图像；

12.一种图像检索模型训练设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至6任一所述的图像检索模型训练方法。

13.一种图像检索设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求7至9任一所述的图像检索方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至6任一所述的图像检索模型训练方法，或，实现如权利要求7至9任一所述的图像检索方法。