CN112380369B

CN112380369B - 图像检索模型的训练方法、装置、设备和存储介质

Info

Publication number: CN112380369B
Application number: CN202110051446.7A
Authority: CN
Inventors: 闾凡兵; 翟亚静; 曹达; 秦拯; 姚胜; 曾海文
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-28
Anticipated expiration: 2041-01-15
Also published as: CN112380369A

Abstract

本申请公开了一种图像检索模型的训练方法、装置、设备和存储介质。该方法包括：根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第二RGB图像和第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至目标模态，得到目标模态图像；提取目标模态图像的特征，得到特征向量；根据特征向量训练预设的第二子网络，得到第二目标子网络；根据第一目标子网络和第二目标子网络，确定图像检索模型。

Description

图像检索模型的训练方法、装置、设备和存储介质

技术领域

本申请属于图像识别技术领域，具体涉及一种图像检索模型的训练方法、装置、设备和存储介质。

背景技术

行人重识别（Person re-identification，RE-ID）也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。例如，给出一张待查询的嫌疑人照片，通过行人重识别技术可以在图像数据库中对嫌疑人照片进行相似度检索，检索出与嫌疑人照片相似度比较高的三原色RGB图像。

然而，在实际的应用场景中，并不能保证一定可以获取到待查询照片，即嫌疑人照片。因此，相关技术中提出了跨模态行人重识别方法，通过该方法，可以在图像数据库中对嫌疑人素描画像进行相似度检索，以期望检索出与嫌疑人素描画像相似度比较高的RGB图像。

在实现本申请的过程中，发明人发现相关技术中至少存在以下问题：行人重识别大多数是解决单一模态下外观变化的问题，而素描和照片的检索涉及两个不同的模态，因此与传统的行人重识别相比，跨模态行人重识别方法除了外观差异还存在着模态差异问题，因此存在跨模态图像检索的准确率较低的问题。

发明内容

本申请实施例的目的是提供一种图像检索模型的训练方法和装置，能够解决相关技术中跨模态图像检索的准确率较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图像检索模型的训练方法，该方法包括：根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像；提取目标模态图像的特征，得到特征向量；根据特征向量训练预设的第二子网络，得到第二目标子网络；根据第一目标子网络和第二目标子网络，确定图像检索模型。

在第一方面的一些可实现方式中，根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络，包括：根据第一素描图像、第二素描图像、第一RGB图像、第二RGB图像和预设损失函数确定第一损失值；根据第一损失值对第一子网络进行对抗训练，得到训练后的第一子网络；在训练后的第一子网络的损失值满足第一预设条件的情况下，确定训练后的第一子网络为第一目标子网络。

在第一方面的一些可实现方式中，使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像，包括：向第一目标子网络输入第一素描图像，输出第一素描图像对应的目标RGB图像；向第一目标子网络输入第一RGB图像，输出第一RGB图像对应的目标素描图像。

在第一方面的一些可实现方式中，目标模态图像包括分别由第一素描图像、第二RGB图像、目标素描图像和目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；提取目标模态图像的特征，得到特征向量，包括：分别提取第一图像、第二图像、第三图像和第四图像的特征，得到第一图像对应的第一特征向量、第二图像对应的第二特征向量和第三图像对应的第三特征向量、第四图像对应的第四特征向量；其中，特征向量包括第一特征向量、第二特征向量、第三特征向量和第四特征向量。

在第一方面的一些可实现方式中，根据特征向量训练预设的第二子网络，得到第二目标子网络，包括：根据三元组损失函数和交叉熵损失函数确定第一损失函数；根据第一特征向量、第二特征向量、第三特征向量、第四特征向量和第一损失函数确定第二损失值；根据第二损失值对第二子网络进行训练，得到训练后的第二子网络；在训练后的第二子网络的损失值满足第二预设条件的情况下，确定训练后的第二子网络为第二目标子网络。

在第一方面的一些可实现方式中，根据第一目标子网络和第二目标子网络，确定图像检索模型，包括：将第一目标子网络和第二目标子网络以端到端的方式进行级联，得到图像检索模型。

在第一方面的一些可实现方式中，在根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像之前，该方法还包括：根据变分自编码器对第一素描图像和第一RGB图像进行编码解码处理。

第二方面，本申请实施例提供了一种图像检索模型的训练装置，该装置包括：生成模块，用于根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；训练模块，用于根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；获取模块，用于使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；转换模块，用于将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像；提取模块，用于提取目标模态图像的特征，得到特征向量；训练模块，还用于根据特征向量训练预设的第二子网络，得到第二目标子网络；确定模块，用于根据第一目标子网络和第二目标子网络，确定图像检索模型。

在第二方面的一些可实现方式中，训练模块具体包括：确定单元，用于根据第一素描图像、第二素描图像、第一RGB图像、第二RGB图像和预设损失函数确定第一损失值；训练单元，用于根据第一损失值对第一子网络进行对抗训练，得到训练后的第一子网络；确定单元，还用于在训练后的第一子网络的损失值满足第一预设条件的情况下，确定训练后的第一子网络为第一目标子网络。

在第二方面的一些可实现方式中，获取模块具体用于：向第一目标子网络输入第一素描图像，输出第一素描图像对应的目标RGB图像；向第一目标子网络输入第一RGB图像，输出第一RGB图像对应的目标素描图像。

在第二方面的一些可实现方式中，目标模态图像包括分别由第一素描图像、第二RGB图像、目标素描图像和目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；提取模块具体用于：分别提取第一图像、第二图像、第三图像和第四图像的特征，得到第一图像对应的第一特征向量、第二图像对应的第二特征向量和第三图像对应的第三特征向量、第四图像对应的第四特征向量；其中，特征向量包括第一特征向量、第二特征向量、第三特征向量和第四特征向量。

在第二方面的一些可实现方式中，训练模块具体包括：确定单元，用于根据三元组损失函数和交叉熵损失函数确定第一损失函数；确定单元，还用于根据第一特征向量、第二特征向量、第三特征向量、第四特征向量和第一损失函数确定第二损失值；训练单元，用于根据第二损失值对第二子网络进行训练，得到训练后的第二子网络；确定单元，还用于在训练后的第二子网络的损失值满足第二预设条件的情况下，确定训练后的第二子网络为第二目标子网络。

在第二方面的一些可实现方式中，确定模块具体用于：将第一目标子网络和第二目标子网络以端到端的方式进行级联，得到图像检索模型。

在第二方面的一些可实现方式中，该装置还包括：编码解码模块，用于根据变分自编码器对第一素描图像和第一RGB图像进行编码解码处理。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面或第一方面的一些可实现方式中的图像检索模型的训练方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面或第一方面的一些可实现方式中的图像检索模型的训练方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面或第一方面的一些可实现方式中的图像检索模型的训练方法。

在本申请实施例中，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；并通过训练好的第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；通过将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像。如此，通过将素描图像和RGB图像均转换至同一模态，能够有效减小素描图像与RGB图像之间的模态差异。在此基础上，通过使用目标模态图像对应的特征向量进行模型训练，能够减小素描图像与RGB图像之间的特征差异，使最终得到的图像检索模型能够有效提升跨模态图像检索的准确率。

附图说明

图1是本申请实施例提供的一种图像检索模型的训练方法的流程示意图；

图2是本申请实施例提供的另一种图像检索模型的训练方法的流程示意图；

图3是本申请实施例提供的又一种图像检索模型的训练方法的流程示意图；

图4是本申请实施例提供的再一种图像检索模型的训练方法的流程示意图；

图5是本申请实施例提供的再一种图像检索模型的训练方法的流程示意图；

图6是本申请实施例提供的一种图像检索模型的训练装置的结构示意图；

图7是本申请实施例提供的一种电子设备的硬件结构示意图；

图8是实现本申请实施例的另一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

如背景技术，在实际的应用场景中，并不能保证一定可以获取到待查询照片，即嫌疑人照片。因此，相关技术中提出了跨模态行人重识别方法，通过该方法，可以在图像数据库中对嫌疑人素描画像进行相似度检索，以期望检索出与嫌疑人素描画像相似度比较高的RGB图像。

然而，行人重识别大多数是解决单一模态下外观变化的问题，而素描和照片的检索涉及两个不同的模态，因此与传统的行人重识别相比，跨模态行人重识别方法除了外观差异还存在着模态差异问题，因此存在跨模态图像检索的准确率较低的问题。

针对相关技术中出现的问题，本申请实施例提供了一种图像检索模型的训练方法，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；并通过训练好的第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；通过将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像。如此，通过将素描图像和RGB图像均转换至同一模态，能够有效减小素描图像与RGB图像之间的模态差异。在此基础上，通过使用目标模态图像对应的特征向量进行模型训练，能够减小素描图像与RGB图像之间的特征差异，使最终得到的图像检索模型能够有效提升跨模态图像检索的准确率，解决了相关技术中跨模态图像检索的准确率较低的问题。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像检索模型的训练方法进行详细地说明。

图1是本申请实施例提供的一种图像检索模型的训练方法的流程示意图，该图像检索模型的训练方法的执行主体可以为电子设备。需要说明的是，上述执行主体并不构成对本申请的限定。

如图1所示，本申请实施例提供的图像检索模型的训练方法可以包括：S110-S170。

S110，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像。

在本申请的一些实施例中，预设图像库中可以包括素描图像库和RGB图像库，素描图像库中的每张素描图像（第一素描图像），以及RGB图像库中的每张RGB图像（第一RGB图像）都对应一个标签，该标签可以用于表征每张图像中行人的身份，预设图像库中可以包括对应不同标签的图像，还可以包括对应相同标签的图像，例如监控摄像头拍到的同一人的多张RGB图像。

在一个示例中，预设图像库R中包括素描图像库X={x|x∈R^H×W×1}和RGB图像库Y={y|y∈R^H×W×3}。其中， H和W分别为图像的高度和宽度，每张第一素描图像x∈X或第一RGB图像y∈Y都对应一个标签l∈{1,2…N_i}，其中，N_i为个人身份标识，例如身份编号。

在本申请的一些实施例中，在S110之前，该方法还可以包括：根据变分自编码器（Variational AutoEncoder， VAE）对第一素描图像和第一RGB图像进行编码解码处理。

在一个示例中，以第一RGB图像y为例，编码解码对为：VAE_y={E_y,A_y}，给定一个可见输入y∈Y，编码器Ey首先将y映射到隐向量z，然后解码器Ay对隐向量z进行重构输入，得到重构图像

，即编码解码处理后的第一RGB图像。

其中，a_y(z_y|y)为潜在信息z_y的分布，编码解码器VAE_y的损失函数L_VAEy (E_y,A_y)可以定义为公式（1）：

其中，超参数λ₀和λ₁控制目标项的权重，KL为Kullback-Leibler散度，KL度量了潜在信息z_y的分布与零均值高斯分布先验b_τ(z)之间的偏差。

在另一个示例中，以第一素描图像x为例，编码解码对为：VAE_x={E_x,A_x}，给定一个可见输入x∈X，编码器Ex首先将x映射到隐向量z，然后解码器Ax对隐向量z进行重构输入，得到重构图像

，即编码解码处理后的第一素描图像。其中，a_x(z_x|x)为潜在信息z_x的分布。

在本申请的一些实施例中，第一子网络可以为生成对抗网络（GenerativeAdversarial Networks，GAN），根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像，可以包括：向生成对抗网络输入编码解码处理后的第一素描图像，输出第一素描图像对应的第二RGB图像；向生成对抗网络输入编码解码处理后的第一RGB图像，输出第一RGB图像对应的第二素描图像。

在上述实施例中，生成对抗网络可以包括生成器和判别器。向生成器输入编码解码处理后的第一素描图像，生成器可以输出第一素描图像对应的第二RGB图像；判别器可以对生成器输出的第二RGB图像，以及预设图像库中的第一RGB图像进行“真假”判别，以期望能判别出哪些是预设图像库中的第一RGB图像（“真”），哪些是生成器生成的第二RGB图像（“假”），而生成器则期望判别器无法有效判别RGB图像的“真假”。向生成器输入编码解码处理后的第一RGB图像，生成器可以输出第一RGB图像对应的第二素描图像；相似地，判别器可以对生成器输出的第二素描图像，以及预设图像库中的第一素描图像进行“真假”判别，以期望能判别出哪些是预设图像库中的第一素描图像（“真”），哪些是生成器生成的第二素描图像（“假”），而生成器则期望判别器无法有效判别素描图像的“真假”。

需要说明的是，这里的第一素描图像与第一RGB图像共享生成器，即这里用于输入编码解码处理后的第一素描图像，输出第一素描图像对应的第二RGB图像的生成器，与用于输入编码解码处理后的第一RGB图像，输出第一RGB图像对应的第二素描图像的生成器，为同一生成器。

S120，根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络。

在本申请的一些实施例中，如图2所示，S120可以具体包括下述步骤S121-S123。

S121，根据第一素描图像、第二素描图像、第一RGB图像、第二RGB图像和预设损失函数确定第一损失值。

可选地，在一个实施例中，预设损失函数L_GANy(E_x,G_y,D_y)可以定义为公式（2）。

其中，超参数λ₂控制第一子网络GAN的影响，Ex为编码器，Gy为生成器，Dy为判别器，X为第一素描图像库，x~b_x表示第一素描图像x的概率分布，a_x(z_x|y)表示潜在信息z_x的分布。

在本申请的一些实施例中，可以根据上述公式（2）计算第一损失值，并利用循环一致性进一步正则化不适定的无监督图像到图像的转换问题。

S122，根据第一损失值对第一子网络进行对抗训练，得到训练后的第一子网络。

具体地，利用对抗性损失进行极大极小对策，判别器使公式（2）最大化，而生成器试图使其最小化。

S123，在训练后的第一子网络的损失值满足第一预设条件的情况下，确定训练后的第一子网络为第一目标子网络。

第一预设条件可以包括损失值小于第一预设阈值，第一预设阈值可以根据具体需求进行设置。

在训练后的第一子网络的损失值不满足第一预设条件的情况下，可以继续对生成对抗网络进行对抗训练，直至得到的损失值满足第一预设条件为止。

S130，使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像。

在本申请的一些实施例中，使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像，可以包括：向第一目标子网络输入第一素描图像，输出第一素描图像对应的目标RGB图像；向第一目标子网络输入第一RGB图像，输出第一RGB图像对应的目标素描图像。

如此，通过对第一子网络进行对抗训练，并向上述训练好的第一目标子网络输入第一素描图像，能够获取到判别器无法辨别出“真假”的目标RGB图像，使其更加接近于预设图像库中的第一RGB图像，保证目标RGB图像在可见域内与第一RGB图像相似。相似地，通过向上述训练好的第一目标子网络输入第一RGB图像，能够获取到判别器无法辨别出“真假”的目标素描图像，使其更加接近于预设图像库中的第一素描图像，保证目标素描图像在可见域内与第一素描图像相似。

S140，将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像，其中，同一模态可以为目标模态。

将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，可以包括：将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像投射到统一空间。

如此，素描图像与RGB图像之间的模态差异得到缓解，有效减少了两类模态图像之间的差异性。

S150，提取目标模态图像的特征，得到特征向量。

在本申请的一些实施例中，提取目标模态图像的特征，得到特征向量，可以包括：使用VGG网络模型提取目标模态图像的特征，并通过多层感知机制过滤掉低级特征，保留高级特征。

其中，低级特征可以包括对行人重识别没有贡献的特征，例如背景特征；高级特征可以包括对行人重识别具有贡献的特征，例如相貌特征、穿着特征等。

在本申请的一些实施例中，目标模态图像包括分别由第一素描图像、第二RGB图像、目标素描图像和目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；提取目标模态图像的特征，得到特征向量，可以具体包括：分别提取第一图像、第二图像、第三图像和第四图像的特征，得到第一图像对应的第一特征向量、第二图像对应的第二特征向量和第三图像对应的第三特征向量、第四图像对应的第四特征向量。

S160，根据特征向量训练预设的第二子网络，得到第二目标子网络。

其中，预设的第二子网络可以为预设神经网络模型。特征向量可以包括：第一特征向量、第二特征向量、第三特征向量和第四特征向量。

在本申请的一些实施例中，在根据特征向量训练预设的第二子网络的过程中，可以对输入的训练数据进行批处理归一化，并根据线性整流函数（Rectified Linear Unit，ReLU）和参数正则化方法Dropout进行训练。

在本申请的一些实施例中，如图3所示，S160可以具体包括下述步骤S161-S164。

S161，根据三元组损失函数和交叉熵损失函数确定第一损失函数。

在本申请的一些实施例中，三元组损失函数用于第二子网络的相似性学习，经过相似性学习后的第二子网络试图缩小同一人的图像之间的特征距离，扩大不同人的图像之间的特征距离。

例如，图像A1是在上午9点通过监控摄像头拍摄到的张三的照片，图像A2是在下午3点通过监控摄像头拍摄到的张三的照片，图像A3是在上午9点通过监控摄像头拍摄到的李四的照片。由于图像A1和图像A2均是张三的照片，因此第二子网络要尽可能地减小图像A1与图像A2之间的特征距离，扩大图像A1与图像A3以及图像A2与图像A3之间的特征距离。

在一个示例中，三元组损失函数

可以定义为公式（3）。

其中，f _i ^a是锚点，f _i ^p是和f _i ^a有相同身份的正样本，f _i ⁿ则是与f _i ^a有不同身份的负样本，即f _i ^p和f _i ^a是对应同一标签N_i的图像的特征向量，f _i ⁿ和f _i ^a是对应不同标签的图像的特征向量。S为样本集合，ε是一个超参数margin。D计算了欧几里得距离，基本思想是正对之间的距离应该小于负对的一个预定义的边界，最大化类内相似度、最小化类间相似度。

在本申请的一些实施例中，交叉熵损失函数用于第二子网络的身份学习，它将行人重识别的训练过程视为一个图像分类问题，即每个身份都是一个不同的类，经过身份学习后的第二子网络试图有效区分不同的类，即有效识别素描图像与RGB图像中的行人是否为同一身份。

在一个示例中，交叉熵损失函数

可以定义为公式（4）。

其中，N表示训练最小批中图像的数量，j为1-N中的第j个。 p = softmax(Wf +b)，其中softmax为回归模型，W和b分别是训练权重和偏置，f为训练所有样本的矩阵。

在本申请的一些实施例中，根据三元组损失函数和交叉熵损失函数确定第一损失函数，可以包括：根据公式（3）和公式（4）确定第一损失函数。

在一个示例中，第一损失函数L_F可以定义为公式（5）。

其中，λ₃和λ₄为平衡因子。

S162，根据第一特征向量、第二特征向量、第三特征向量、第四特征向量和第一损失函数确定第二损失值。

在本申请的一些实施例中，可以根据上述公式（5）计算第一损失值。

S163，根据第二损失值对第二子网络进行训练，得到训练后的第二子网络。

S164，在训练后的第二子网络的损失值满足第二预设条件的情况下，确定训练后的第二子网络为第二目标子网络。

第二预设条件可以包括损失值小于第二预设阈值，第二预设阈值可以根据具体需求进行设置。

在训练后的第二子网络的损失值不满足第二预设条件的情况下，可以继续对第二子网络进行训练，直至得到的损失值满足第二预设条件为止。

S170，根据第一目标子网络和第二目标子网络，确定图像检索模型。

在本申请的一些实施例中，根据第一目标子网络和第二目标子网络，确定图像检索模型，可以具体包括如图4所示的S171，将第一目标子网络和第二目标子网络以端到端的方式进行级联，得到图像检索模型。

在一个示例中，图像检索模型可以定义为公式（6）。

其中，L_M1为第一目标子网络，L_M2为第二目标子网络，δ为平衡因子权重，δ用于平衡两个目标子网络的贡献，0<δ<1。

在本申请的一些实施例中，在根据第一目标子网络和第二目标子网络，确定图像检索模型之后，该方法还可以包括：根据预设损失函数L_GANy(E_x,G_y,D_y)和第一损失函数L_F确定目标损失函数；根据目标损失函数对图像检索模型进行损失优化。

如此，通过进行相似性学习、身份学习的模型训练，能够使得到的图像检索模型在进行图像识别和图像检索时，缩小同一人的素描图像与RGB图像之间的特征距离，扩大不同人的图像之间的特征距离，并有效识别素描图像与RGB图像中的行人是否为同一身份。

在本申请的一些实施例中，预设图像库可以包括素描图像库和RGB图像库，图像检索模型可以用于输入待查询素描图像，输出RGB图像库中与待查询素描图像的身份相似度大于预设阈值的第一RGB图像，其中，输出的第一RGB图像基于身份相似度进行排列。

在一个示例中，预设阈值为80%，待查询素描图像为嫌疑人1的画像B1，RGB图像库中可以包括多张RGB图像，通过向图像检索模型输入画像B1，可以检索出20张与嫌疑人1的身份相似度大于80%的RGB图像，其中，20张RGB图像可以按照身份相似度大小进行排列，与嫌疑人1的身份相似度越高的RGB图像排名越靠前。

在本申请的另一些实施例中，图像检索模型可以用于输入待查询素描图像，输出RGB图像库中的第一RGB图像的图像排名列表，该图像排名列表中的第一RGB图像基于身份相似度进行排列。

在一个示例中，待查询素描图像为嫌疑人1的画像B1，RGB图像集图像库中包括800张RGB图像，通过向图像检索模型输入画像B1，可以输出RGB图像库中800张RGB图像的排名列表，与嫌疑人1的身份相似度越高的RGB图像排名越靠前。

在本申请的又一些实施例中，图像检索模型还可以用于输入待查询RGB图像，输出素描图像库中与待查询RGB图像的身份相似度大于预设阈值的第一素描图像，其中，输出的第一素描图像基于身份相似度进行排列。

在本申请的又一些实施例中，图像检索模型还可以用于输入待查询RGB图像，输出素描图像库中的第一素描图像的图像排名列表，该图像排名列表中的第一素描图像基于身份相似度进行排列。

本申请实施例提供的图像检索模型的训练方法，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；并通过训练好的第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；通过将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像。如此，通过将素描图像和RGB图像均转换至同一模态，能够有效减小素描图像与RGB图像之间的模态差异。在此基础上，通过使用目标模态图像对应的特征向量进行模型训练，能够减小素描图像与RGB图像之间的特征差异，使最终得到的图像检索模型能够有效提升跨模态图像检索的准确率，解决了相关技术中跨模态图像检索的准确率较低的问题。

在本申请的一些实施例中，图5是本申请实施例提供的再一种图像检索模型的训练方法的流程示意图，该图像检索模型的训练方法的执行主体可以为电子设备。需要说明的是，上述执行主体并不构成对本申请的限定。

如图5所示，本申请实施例提供的图像检索模型的训练方法可以包括：

RGB图像库中的第一RGB图像与素描图像库中的第一素描图像之间存在模态差异，通过编码器、生成器、判别器对第一RGB图像和第一素描图像进行处理，并使生成器输出无法判别“真假”的RGB图像和素描图像。然后，对RGB图像和素描图像进行统一空间，以减小RGB图像与素描图像之间的模态差异。接着，对减小模态差异后的RGB图像和素描图像进行特征提取，得到特征向量。最后，利用特征向量进行损失优化。

需要说明的是，本申请实施例提供的图像检索模型的训练方法，执行主体可以为电子设备，还可以是图像检索模型的训练装置或该图像检索模型的训练装置中的用于执行图像检索模型的训练方法的模块。

基于本申请实施例提供的图像检索模型的训练方法，本申请实施例还提供了一种图像检索模型的训练装置。下面对图像检索模型的训练装置进行详细介绍。

图6为本申请提供的一种图像检索模型的训练装置的结构示意图。

如图6所示，本申请实施例提供的一种图像检索模型的训练装置600，该图像检索模型的训练装置600可以包括：生成模块601、训练模块602、获取模块603、转换模块604、提取模块605、确定模块606。

其中，生成模块601，用于根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；训练模块602，用于根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；获取模块603，用于使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；转换模块604，用于将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像；提取模块605，用于提取目标模态图像的特征，得到特征向量；训练模块602，还用于根据特征向量训练预设的第二子网络，得到第二目标子网络；确定模块606，用于根据第一目标子网络和第二目标子网络，确定图像检索模型。

本申请实施例提供的图像检索模型的训练装置，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；并通过训练好的第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；通过将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像。如此，通过将素描图像和RGB图像均转换至同一模态，能够有效减小素描图像与RGB图像之间的模态差异。在此基础上，通过使用目标模态图像对应的特征向量进行模型训练，能够减小素描图像与RGB图像之间的特征差异，使最终得到的图像检索模型能够有效提升跨模态图像检索的准确率，解决了相关技术中跨模态图像检索的准确率较低的问题。

在本申请的一些实施例中，训练模块602具体包括：确定单元，用于根据第一素描图像、第二素描图像、第一RGB图像、第二RGB图像和预设损失函数确定第一损失值；训练单元，用于根据第一损失值对第一子网络进行对抗训练，得到训练后的第一子网络；确定单元，还用于在训练后的第一子网络的损失值满足第一预设条件的情况下，确定训练后的第一子网络为第一目标子网络。

在本申请的一些实施例中，获取模块603具体用于：向第一目标子网络输入第一素描图像，输出第一素描图像对应的目标RGB图像；向第一目标子网络输入第一RGB图像，输出第一RGB图像对应的目标素描图像。

在本申请的一些实施例中，目标模态图像包括分别由第一素描图像、第二RGB图像、目标素描图像和目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；提取模块605具体用于：分别提取第一图像、第二图像、第三图像和第四图像的特征，得到第一图像对应的第一特征向量、第二图像对应的第二特征向量和第三图像对应的第三特征向量、第四图像对应的第四特征向量；其中，特征向量包括第一特征向量、第二特征向量、第三特征向量和第四特征向量。

在本申请的一些实施例中，训练模块602具体包括：确定单元，用于根据三元组损失函数和交叉熵损失函数确定第一损失函数；确定单元，还用于根据第一特征向量、第二特征向量、第三特征向量、第四特征向量和第一损失函数确定第二损失值；训练单元，用于根据第二损失值对第二子网络进行训练，得到训练后的第二子网络；确定单元，还用于在训练后的第二子网络的损失值满足第二预设条件的情况下，确定训练后的第二子网络为第二目标子网络。

在本申请的一些实施例中，确定模块606具体用于：将第一目标子网络和第二目标子网络以端到端的方式进行级联，得到图像检索模型。

在本申请的一些实施例中，该装置还包括：编码解码模块，用于根据变分自编码器对第一素描图像和第一RGB图像进行编码解码处理。

在本申请的一些实施例中，预设图像库包括素描图像库和RGB图像库，图像检索模型用于输入待查询素描图像，输出RGB图像库中与待查询素描图像的身份相似度大于预设阈值的第一RGB图像，其中，输出的第一RGB图像基于身份相似度进行排列；图像检索模型还用于输入待查询RGB图像，输出素描图像库中与待查询RGB图像的身份相似度大于预设阈值的第一素描图像，其中，输出的第一素描图像基于身份相似度进行排列。

本申请实施例提供的图像检索模型的训练装置能够实现图1-图5的方法实施例中电子设备所实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的图像检索模型的训练装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本或者个人数字助理（personal digital assistant，PDA）等，非移动电子设备可以为服务器、网络附属存储器（Network Attached Storage，NAS）、个人计算机（personal computer，PC）、电视机（television，TV）、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像检索模型的训练装置可以为具有操作系统的装置。该操作系统可以为安卓（Android）操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

可选的，如图7所示，本申请实施例还提供一种电子设备700，包括处理器701，存储器702，存储在存储器702上并可在处理器701上运行的程序或指令，该程序或指令被处理器701执行时实现上述图像检索模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的另一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源（比如电池），电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器810用于：根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；使用第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像；提取目标模态图像的特征，得到特征向量；根据特征向量训练预设的第二子网络，得到第二目标子网络；根据第一目标子网络和第二目标子网络，确定图像检索模型。

通过本申请实施例，根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成第一素描图像对应的第二RGB图像，以及第一RGB图像对应的第二素描图像；根据第一素描图像、第二素描图像、第一RGB图像和第二RGB图像训练第一子网络，得到第一目标子网络；并通过训练好的第一目标子网络获取第一素描图像对应的目标RGB图像，以及第一RGB图像对应的目标素描图像；通过将目标素描图像、目标RGB图像、第一素描图像和第一RGB图像转换至同一模态，得到目标模态图像。如此，通过将素描图像和RGB图像均转换至同一模态，能够有效减小素描图像与RGB图像之间的模态差异。在此基础上，通过使用目标模态图像对应的特征向量进行模型训练，能够减小素描图像与RGB图像之间的特征差异，使最终得到的图像检索模型能够有效提升跨模态图像检索的准确率，解决了相关技术中跨模态图像检索的准确率较低的问题。

在本申请的一些实施例中，处理器810具体用于：根据第一素描图像、第二素描图像、第一RGB图像、第二RGB图像和预设损失函数确定第一损失值；根据第一损失值对第一子网络进行对抗训练，得到训练后的第一子网络；在训练后的第一子网络的损失值满足第一预设条件的情况下，确定训练后的第一子网络为第一目标子网络。

在本申请的一些实施例中，处理器810具体用于：向第一目标子网络输入第一素描图像，输出第一素描图像对应的目标RGB图像；向第一目标子网络输入第一RGB图像，输出第一RGB图像对应的目标素描图像。

在本申请的一些实施例中，目标模态图像包括分别由第一素描图像、第二RGB图像、目标素描图像和目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；处理器810具体用于：分别提取第一图像、第二图像、第三图像和第四图像的特征，得到第一图像对应的第一特征向量、第二图像对应的第二特征向量和第三图像对应的第三特征向量、第四图像对应的第四特征向量；其中，特征向量包括第一特征向量、第二特征向量、第三特征向量和第四特征向量。

在本申请的一些实施例中，处理器810具体用于：根据三元组损失函数和交叉熵损失函数确定第一损失函数；根据第一特征向量、第二特征向量、第三特征向量、第四特征向量和第一损失函数确定第二损失值；根据第二损失值对第二子网络进行训练，得到训练后的第二子网络；在训练后的第二子网络的损失值满足第二预设条件的情况下，确定训练后的第二子网络为第二目标子网络。

在本申请的一些实施例中，处理器810具体用于：将第一目标子网络和第二目标子网络以端到端的方式进行级联，得到图像检索模型。

在本申请的一些实施例中，处理器810，还用于根据变分自编码器对第一素描图像和第一RGB图像进行编码解码处理。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像检索模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，计算机可读存储介质的示例包括非暂态计算机可读存储介质，如计算机只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述图像检索模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像检索模型的训练方法，其特征在于，包括：

根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成所述第一素描图像对应的第二RGB图像，以及所述第一RGB图像对应的第二素描图像；

根据所述第一素描图像、所述第二素描图像、所述第一RGB图像和所述第二RGB图像训练所述第一子网络，得到第一目标子网络；

使用所述第一目标子网络获取所述第一素描图像对应的目标RGB图像，以及所述第一RGB图像对应的目标素描图像；

将所述目标素描图像、所述目标RGB图像、所述第一素描图像和所述第一RGB图像转换至同一模态，得到目标模态图像；

提取所述目标模态图像的特征，得到特征向量；

根据所述特征向量训练预设的第二子网络，得到第二目标子网络；

根据所述第一目标子网络和所述第二目标子网络，确定图像检索模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一素描图像、所述第二素描图像、所述第一RGB图像和所述第二RGB图像训练所述第一子网络，得到第一目标子网络，包括：

根据所述第一素描图像、所述第二素描图像、所述第一RGB图像、所述第二RGB图像和预设损失函数确定第一损失值；

根据所述第一损失值对所述第一子网络进行对抗训练，得到训练后的第一子网络；

在所述训练后的第一子网络的损失值满足第一预设条件的情况下，确定所述训练后的第一子网络为所述第一目标子网络。

3.根据权利要求2所述的方法，其特征在于，所述使用所述第一目标子网络获取所述第一素描图像对应的目标RGB图像，以及所述第一RGB图像对应的目标素描图像，包括：

向所述第一目标子网络输入所述第一素描图像，输出所述第一素描图像对应的所述目标RGB图像；

向所述第一目标子网络输入所述第一RGB图像，输出所述第一RGB图像对应的所述目标素描图像。

4.根据权利要求1所述的方法，其特征在于，所述目标模态图像包括分别由所述第一素描图像、所述第二RGB图像、所述目标素描图像和所述目标RGB图像转换得到的第一图像、第二图像、第三图像和第四图像；所述提取所述目标模态图像的特征，得到特征向量，包括：

分别提取所述第一图像、第二图像、第三图像和第四图像的特征，得到所述第一图像对应的第一特征向量、所述第二图像对应的第二特征向量和所述第三图像对应的第三特征向量、所述第四图像对应的第四特征向量；

其中，所述特征向量包括所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征向量训练预设的第二子网络，得到第二目标子网络，包括：

根据三元组损失函数和交叉熵损失函数确定第一损失函数；

根据所述第一特征向量、所述第二特征向量、所述第三特征向量、所述第四特征向量和所述第一损失函数确定第二损失值；

根据所述第二损失值对所述第二子网络进行训练，得到训练后的第二子网络；

在所述训练后的第二子网络的损失值满足第二预设条件的情况下，确定所述训练后的第二子网络为所述第二目标子网络。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标子网络和所述第二目标子网络，确定图像检索模型，包括：

将所述第一目标子网络和所述第二目标子网络以端到端的方式进行级联，得到所述图像检索模型。

7.根据权利要求1所述的方法，其特征在于，在所述根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成所述第一素描图像对应的第二RGB图像，以及所述第一RGB图像对应的第二素描图像之前，所述方法还包括：

根据变分自编码器对所述第一素描图像和所述第一RGB图像进行编码解码处理。

8.一种图像检索模型的训练装置，其特征在于，包括：

生成模块，用于根据第一子网络、预设图像库中的第一素描图像和第一RGB图像，生成所述第一素描图像对应的第二RGB图像，以及所述第一RGB图像对应的第二素描图像；

训练模块，用于根据所述第一素描图像、所述第二素描图像、所述第一RGB图像和所述第二RGB图像训练第一子网络，得到第一目标子网络；

获取模块，用于使用所述第一目标子网络获取所述第一素描图像对应的目标RGB图像，以及所述第一RGB图像对应的目标素描图像；

转换模块，用于将所述目标素描图像、所述目标RGB图像、所述第一素描图像和所述第一RGB图像转换至同一模态，得到目标模态图像；

提取模块，用于提取所述目标模态图像的特征，得到特征向量；

所述训练模块，还用于根据所述特征向量训练预设的第二子网络，得到第二目标子网络；

确定模块，用于根据所述第一目标子网络和所述第二目标子网络，确定图像检索模型。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的图像检索模型的训练方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的图像检索模型的训练方法的步骤。