CN112364946A

CN112364946A - 图像确定模型的训练方法、图像确定的方法、装置和设备

Info

Publication number: CN112364946A
Application number: CN202110039302.XA
Authority: CN
Inventors: 闾凡兵; 曾雅文; 曹达; 秦拯; 姚胜; 曾海文
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-02-12
Anticipated expiration: 2041-01-13
Also published as: CN112364946B

Abstract

本发明实施例公开了一种图像确定模型的训练方法、图像确定的方法、装置和设备。通过首先获取用于描述图像特征的文本信息；之后基于预设的神经网络与文本信息，生成与图像特征对应的第一图像；最后根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型，以用于根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

Description

图像确定模型的训练方法、图像确定的方法、装置和设备

技术领域

本发明涉及机器学习领域，尤其涉及一种图像确定模型的训练方法、图像确定的方法、装置和设备。

背景技术

近年来，随着智能城市的建设，世界各地的城市都安装了大量且多种多样的监控摄像头，由此产生了很多宝贵的监控视频数据。

应警方等机构可以快速获得嫌疑人线索或发现失踪儿童和老人等期望，根据监控视频数据进行行人重识别技术备受瞩目。

在实际的应用场景中，对嫌疑人或者失踪人口的描述往往是口头的，即使用自然语言的方式进行描述来确定图像，由此根据自然语言来确定图像的跨模态行人重识别开始出现。

但是，目前的技术方案在通过自然语言的描述生成图像的过程中，因为语言状态与图像状态之间，跨模态语义差异过大，往往无法根据自然语言的描述准确确定与该描述对应的图像。

因此，现有的技术方案中，存在无法根据自然语言的描述准确确定与该描述对应的图像的问题。

发明内容

本发明实施例提供了一种图像确定模型的训练方法、确定的方法、装置、设备及存储介质，解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

为了解决上述技术问题，本发明：

第一方面，提供了一种图像确定模型的训练方法，该方法包括：

获取用于描述图像特征的文本信息；

基于预设的神经网络与文本信息，生成与图像特征对应的第一图像；

根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型。

第二方面，提供了一种图像确定的方法，该方法包括：

获取用于描述图像特征的文本信息；

根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与图像特征对应的第二图像，其中，图像确定模型是基于第一方面的图像确定模型的训练方法得到的。

第三方面，提供了一种图像确定模型的训练装置，该装置包括：

获取模块，用于获取用于描述图像特征的文本信息；

处理模块，用于基于预设的神经网络与文本信息，生成与图像特征对应的第一图像；

处理模块，还用于根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型。

第四方面，提供了一种图像确定的装置，该装置包括：

获取模块，用于获取用于描述图像特征的文本信息；

处理模块，用于根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与图像特征对应的第二图像，其中，图像确定模型是基于第一方面的图像确定模型的训练方法得到的。

第五方面，提供了一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现第一方面的图像确定模型的训练方法，或者，实现第二方面的图像确定的方法。

第六方面，提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面的图像确定模型的训练方法，或者，实现第二方面的图像确定的方法。

本发明实施例提供了一种图像确定模型的训练方法、图像确定的方法、装置、设备及存储介质。通过首先获取用于描述图像特征的文本信息；之后基于预设的神经网络与所述文本信息，生成与所述图像特征对应的第一图像；最后根据所述第一图像和预设的图像数据库中的图像对所述神经网络进行训练，得到图像确定模型，以用于根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。因为在训练过程中，通过预设的神经网络与所述文本信息生成与所述图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练，该第一图像作为文本信息与预设的图像数据库中的图像的中间模态，因此，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像确定模型的训练方法的一种流程示意图；

图2是本发明实施例提供的一种图像确定模型的训练方法的另一种流程示意图；

图3是本发明实施例提供的一种基于预设的神经网络对文本信息进行计算，得到第一图像的流程示意图；

图4是本发明实施例提供的一种根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型的流程示意图；

图5是本发明实施例提供的一种图像确定的方法的流程示意图；

图6是本发明实施例提供的一种图像确定模型的训练装置的结构示意图；

图7是本发明实施例提供的一种图像确定的装置的结构示意图；

图8是本发明实施例提供的一种计算设备的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

近年来，随着智能城市的建设，世界各地的城市都安装了大量且多种多样的监控摄像头，由此产生了很多宝贵的监控视频数据。应警方等机构可以快速获得嫌疑人线索或发现失踪儿童和老人等期望，行人重识别技术备受瞩目。特别的，在实际的应用场景中，对嫌疑人或者失踪人口的描述往往是口头的，即使用自然语言的方式进行描述来确定图像，由此根据自然语言来确定图像的跨模态行人重识别开始出现。

跨模态行人重识别意在给定一段自然语言文本描述，从大量的行人图片底库中检索出相应的行人，其难度在与不仅需要处理复杂多样的环境，行人姿态等等，还需要解决文本描述与行人图片的跨模态语义差异。

在现有的方案中，有的方案通过构建自动编码器神经网络模型以实现不同模态下行人图像的风格属性信息互换（如光照等色差的影响），最后再利用生成得到的行人特征学习相似性矩阵完成识别任务。该方法虽然使用了生成式建模，但是该方案的应用场景有限，仅仅适合用光照影响条件下的模态，无法应用在语义差异更大的文本-图像场景中。

还有的方案，通过对行人图像特征及文本描述特征，建立基于双向跨模态细粒度匹配注意机制的模型，以同时对异构的文本-图像特征进行增强。但是该方法使用注意力机制解决异质性问题不够自然，对于跨模态语义差异过大没有得到更好的特征表示。

由此可以看出，目前的技术方案在通过自然语言的描述生成图像的过程中，因为语言状态与图像状态之间，跨模态语义差异过大，往往无法根据自然语言的描述准确确定与该描述对应的图像。

为了解决目前的技术方案中存在的无法根据自然语言的描述准确确定与该描述对应的图像的问题，本发明实施提供了一种图像确定模型的训练方法、图像确定的方法、装置、设备及存储介质。首先获取用于描述图像特征的文本信息；之后基于预设的神经网络与文本信息，生成与图像特征对应的第一图像；最后根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型，以用于根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。因为在训练过程中，通过预设的神经网络与文本信息生成与图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练，该第一图像作为文本信息与预设的图像数据库中的图像的中间模态，因此，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率，最终实现在实际场景使用对行人的描述语言完成检索。

下面结合附图对本发明实施例提供的技术方案进行描述。

图1是本发明实施例提供的一种图像确定模型的训练方法的一种流程示意图。

如图1所示，图像确定模型的训练方法可以为文本信息与随机噪音特征信息进行拼接，其中，该文本信息是用于描述图像特征的。之后，利用神经网络生成符合文本信息并与图像特征对应的第一图像，利用该第一图像进行任务一从行人底库中即预设的图像数据库中检索最相似的行人图片，即目标图像，同时利用该第一图像进行任务二判断该第一图像的真实性，即判断与标定图像之间的损失值。然后根据任务一和任务二的损失值调整神经网络，得到图像确定模型，以用于后续根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。具体训练过程如图2所示。

图2是本发明实施例提供的一种图像确定模型的训练方法的另一种流程示意图。该方法的执行主体可以是终端设备。

如图2所示，图像确定模型的训练方法可以包括：

S101：获取用于描述图像特征的文本信息。

在一个实施例中，该文本信息例如可以是“一名黑色头发，穿着白色衣服黑色裤子的人”。

S102：基于预设的神经网络与文本信息，生成与图像特征对应的第一图像。

该过程具体可以基于预设的神经网络提取文本信息中的文本特征q，然后根据文本特征q生成与图像特征对应的第一图像。

此外，为了更灵活的逼近实际场景中复杂多变的场景，使生成的图像更贴近实际应用场景中的复杂多变，比如色差和光照等等。图3示出了一种基于预设的神经网络对文本信息进行计算，得到第一图像的流程示意图。在一个实施例中，如图3所示，基于预设的神经网络对文本信息进行计算，得到第一图像的过程具体可以包括：S1021和S1022。

S1021：拼接文本信息和预设的随机噪音特征信息，得到拼接后的特征。

具体地，该预设的随机噪音特征信息是指预先从服从正态分布的向量中获取的随机向量z。

随机噪音特征信息的拼接，使得文本信息描述的图像特征可以得到多种不同的图像表示，增强了神经网络的鲁棒性，更灵活的逼近实际场景中复杂多变的场景，使生成的图像更贴近实际应用场景中的复杂多变。拼接后的特征具体可以如公式（1）所示。

在公式（1）中，q＇是指拼接后的特征；q是指预设的神经网络提取的文本信息中的文本特征；z是指随机向量，即预设的随机噪音特征信息；f₁是神经网络将拼接后的特征压缩成较小维度的表示。

S1022：基于预设的神经网络与拼接后的特征，生成与图像特征对应的第一图像。

具体地，可以基于预设的神经网络中的多层反卷积神经网络，对拼接后的特征进行预设步幅的卷积操作，生成与图像特征对应的第一图像，即生成一个正常图片大小的矩阵X。该步骤是为了缩小文本与图像之间的差距，使用神经网络针对拼接后的包括文本信息的特征进行重建，因此该第一图像具体是指与人眼可见更相似的图像。

在一个实施例中，预设步幅可以设置为2，每个卷积可以带有空间批正则化和线性整流函数（Rectified Linear Unit，ReLU），以保证网络训练的稳定性。

S103：根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型。

为了使生成的第一图像能够更好的应对行人重识别的搜索场景，本发明实施例提出基于三元组对抗学习的重识别判别器方法。图4示出了一种根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型的流程示意图。如图4所示，根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型的具体过程可以包括：S1031、S1032和S1033。

S1031：从图像数据库中获取与第一图像匹配的目标图像。

S1032：根据第一图像、目标图像以及文本信息对应的标定图像确定损失值，并根据损失值对神经网络进行对抗训练，生成训练后的神经网络。

在该对抗训练的过程中，包括两个任务，并针对这个两个任务返回损失函数通过梯度回传进行对抗性训练，生成训练后的神经网络。

具体地，第一个任务是鉴别生成的第一图像的质量，第二个任务是根据第一图像进行行人重识别，即进行匹配检索。

在第一个任务中，可以根据第一图像和标定图像确定第一损失值。在该任务中，目的是鉴别出生成的第一图像和标定图像即真实图像。针对该任务，可以定义第一图像为X，标定图像为I，根据交叉熵损失确定第一损失值的损失函数V(D,G)如公式（2）所示。

在公式（2）中，D是指神经网络中的图像生成子网络，G是指神经网络中的图像判别子网络，E是指的期望。

在第二个任务中，可以根据目标图像和确定第二损失值。在该任务中，目的是利用生成的第一图像进行行人重识别。针对该任务，设计了一个三元组作为判别器即图像匹配子网络，并确定第二损失值的损失函数V(R,G)如公式（3）所示。

在公式（3）中，D是指神经网络中的图像生成子网络，R是指神经网络中的图像匹配子网络，Δ是指预设的距离参数以控制标定图像（正例）和目标图像（负例）的距离。图像匹配子网络的作用是抽取图像数据库的所有图像的特征，并根据抽取的特征与第一图像进行匹配，得到目标图像，并计算目标图像与标定图像之间的第二损失值和相似度分数。需要说明的是，得到该目标图像可以是按照相似度分数排列的图像集，以表示从图像数据库中匹配出符合图像特征的多张图像。

之后，根据第一损失值和第二损失值对神经网络进行对抗性训练，生成训练后的神经网络。

具体地，在一个实施例中，为了保证由文本信息生成第一图像的高质量，任务一中将根据第一损失值通过对抗性学习调整图像生成子网络和图像判别子网络中的参数。即，图像生成子网络和图像判别子网络构成一个对抗学习，图像生成子网络希望通过对抗性训练调节内部参数后生成更贴近图像特征的图像以混淆图像判别子网络，而图像判别子网络希望通过对抗性训练调节内部参数后提升自己的识别性能而不被欺骗。因此，通过任务一的对抗学习可以保证由文本信息生成的第一图像的质量。

在一个实施例中，为了保证文本信息生成的第一图像能够完成在预设的图像数据库中的高质量检索，任务二中将根据第二损失值通过对抗性学习调整图像生成子网络和图像匹配子网络中的参数。即，图像生成子网络和图像匹配子网络构成一个对抗学习，图像生成子网络希望通过对抗性训练调节内部参数后生成更贴近图像特征的图像以更好完成行人重识别任务混淆图像匹配子网络，而图像匹配子网络需要通过对抗性训练调节内部参数后保证从图像数据库中匹配检索到的目标图像与标定图像的相似度。因此，通过任务二的对抗学习以保证由文本信息生成的第一图像能够保证从图像数据库中的检索到的目标图像满足与标定图像的相似度。

在一个实施例中，任务一与任务二将同时工作，图像生成子网络将同时被两个对抗任务约束，即根据第一损失值和第二损失值对抗性训练图像生成子网络中的参数。这样一方面能够保证文本信息可以生成满足图像特征与标定图像相似的第一图像，另一方面也可以保证根据生成的第一图像能够从图像数据库中的检索到与标定图像的相似度满足要求的目标图像。因此，当文本信息是描述行人的图像特征时，通过任务一和任务二的对抗性训练后的神经网络能够缩小文本到图像的语义差异，完成更好的跨模态行人重识别任务，以更好的在实际场景中发挥作用。

S1033：当训练后的神经网络的损失值满足预设条件时，将训练后的神经网络作为图像确定模型。

具体的，当训练后的神经网络的根据文本信息从预设的图像数据库中匹配检索出的目标图像与文本信息对应的标定图像即真实图像之间的损失值小于阈值时，将训练后的神经网络作为图像确定模型。其中，小于阈值即为上述的预设条件。

本发明实施提供的图像确定模型的训练方法。通过首先获取用于描述图像特征的文本信息；之后基于预设的神经网络与所述文本信息，生成与图像特征对应的第一图像；最后根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型，以用于根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。因为在训练过程中，通过预设的神经网络与文本信息生成与图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练。训练过程包括两个对抗训练过程，分别为任务一与任务二，即两个对抗任务。神经网络中的图像生成子网络同时被两个对抗任务约束，一方面能够保证文本信息可以生成满足图像特征与标定图像相似的第一图像，另一方面也可以保证根据生成的第一图像能够从图像数据库中的检索到与标定图像的相似度满足要求的目标图像。因为第一图像作为文本信息与预设的图像数据库中的图像的中间模态，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，所以通过任务一和任务二的对抗性训练后的神经网络能够大大缩小文本到图像的语义差异和鸿沟，完成更好的跨模态行人重识别任务，最终实现在实际场景使用对行人的描述语言完成检索。解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

图5是本发明实施例提供的一种图像确定的方法的流程示意图。该方法的执行主体可以是终端设备。

如图5所示，图像确定的方法可以包括：

S201：获取用于描述图像特征的文本信息。

S202：根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与图像特征对应的第二图像。

其中，图像确定模型是基于图1中的图像确定模型的训练方法得到的。

本发明实施提供的图像确定的方法，基于训练好的图像确定模型，根据根据预设的图像数据库和文本信息进行计算，从图像数据库中得到与图像特征对应的第二图像。因为在根据图像确定模型的训练方法得到图像确定模型的过程中，通过预设的神经网络与文本信息生成与图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练。训练过程包括两个对抗训练过程，分别为任务一与任务二，即两个对抗任务。神经网络中的图像生成子网络同时被两个对抗任务约束，一方面能够保证文本信息可以生成满足图像特征与标定图像相似的第一图像，另一方面也可以保证根据生成的第一图像能够从图像数据库中的检索到与标定图像的相似度满足要求的目标图像。第一图像作为文本信息与预设的图像数据库中的图像的中间模态，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，因此通过任务一和任务二的对抗性训练后的神经网络能够大大缩小文本到图像的语义差异和鸿沟，完成更好的跨模态行人重识别任务，最终实现在实际场景使用对行人的描述语言完成检索。所以本发明实施提供的图像确定的方法解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

与图像确定模型的训练方法的实施例相对应，本发明实施例还提供了一种图像确定模型的训练装置。

图6是本发明实施例提供的一种图像确定模型的训练装置的结构示意图。如图6所示，图像确定模型的训练装置可以包括：

获取模块601，可以用于获取用于描述图像特征的文本信息。

处理模块602，可以用于基于预设的神经网络与文本信息，生成与图像特征对应的第一图像。

处理模块602，还可以用于根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型。

在一个实施例中，处理模块602，还可以用于拼接文本信息和预设的随机噪音特征信息，得到拼接后的特征；基于预设的神经网络与拼接后的特征，生成与图像特征对应的第一图像。

在一个实施例中，处理模块602，还可以用于从图像数据库中获取与第一图像匹配的目标图像；根据第一图像、目标图像以及文本信息对应的标定图像确定损失值，并根据损失值对神经网络进行对抗训练，生成训练后的神经网络；当训练后的神经网络的损失值满足预设条件时，将训练后的神经网络作为图像确定模型。

在一个实施例中，处理模块602，还可以用于根据第一图像和标定图像确定第一损失值；根据目标图像和标定图像确定第二损失值；根据第一损失值和第二损失值对神经网络进行对抗性训练，生成训练后的神经网络。

在一个实施例中，第一图像是预设的神经网络中的图像生成子网络对文本信息进行计算得到的；第一损失值是神经网络中的图像判别子网络对第一图像和与文本特征对应的标定图像进行计算得到的；第二损失值是根据目标图像和标定图像确定的，其中，目标图像是神经网络中的图像匹配子网络根据第一图像从预设的图像数据库中匹配得到的。

因此，在一个实施例中，处理模块602，还可以用于根据第一损失值对图像判别子网络中的参数进行对抗性训练，根据第二损失值对图像匹配子网络中的参数进行对抗性训练，根据第一损失值和第二损失值对图像生成子网络中的参数进行对抗性训练，生成训练后的神经网络。

可以理解的是，图6所示的图像确定模型的训练装置中的各个模块具有实现图1至图4中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

本发明实施提供的图像确定模型的训练装置。通过首先获取用于描述图像特征的文本信息；之后基于预设的神经网络与所述文本信息，生成与图像特征对应的第一图像；最后根据第一图像和预设的图像数据库中的图像对神经网络进行训练，得到图像确定模型，以用于根据用于描述图像特征的文本信息确定与该图像特征对应的第二图像。因为在训练过程中，通过预设的神经网络与文本信息生成与图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练。训练过程包括两个对抗训练过程，分别为任务一与任务二，即两个对抗任务。神经网络中的图像生成子网络同时被两个对抗任务约束，一方面能够保证文本信息可以生成满足图像特征与标定图像相似的第一图像，另一方面也可以保证根据生成的第一图像能够从图像数据库中的检索到与标定图像的相似度满足要求的目标图像。因为第一图像作为文本信息与预设的图像数据库中的图像的中间模态，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，所以通过任务一和任务二的对抗性训练后的神经网络能够大大缩小文本到图像的语义差异和鸿沟，完成更好的跨模态行人重识别任务，最终实现在实际场景使用对行人的描述语言完成检索。解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

与图像确定的方法的实施例相对应，本发明实施例还提供了一种图像确定的装置。

图7是本发明实施例提供的一种图像确定的装置的结构示意图。如图7所示，图像确定的装置可以包括：

获取模块701，可以用于获取用于描述图像特征的文本信息；

处理模块702，可以用于根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与图像特征对应的第二图像，其中，图像确定模型是基于图2至图4中任意一项的图像确定模型的训练方法得到的。

可以理解的是，图7所示的图像确定的装置中的各个模块具有实现图5中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

本发明实施提供的图像确定的装置，基于训练好的图像确定模型，根据根据预设的图像数据库和文本信息进行计算，从图像数据库中得到与图像特征对应的第二图像。因为在根据图像确定模型的训练方法得到图像确定模型的过程中，通过预设的神经网络与文本信息生成与图像特征对应的第一图像，再使用第一图像和预设的图像数据库对神经网络进行训练。训练过程包括两个对抗训练过程，分别为任务一与任务二，即两个对抗任务。神经网络中的图像生成子网络同时被两个对抗任务约束，一方面能够保证文本信息可以生成满足图像特征与标定图像相似的第一图像，另一方面也可以保证根据生成的第一图像能够从图像数据库中的检索到与标定图像的相似度满足要求的目标图像。第一图像作为文本信息与预设的图像数据库中的图像的中间模态，可以缩小文本信息与图像数据之间的巨大分布差异和语义鸿沟，因此通过任务一和任务二的对抗性训练后的神经网络能够大大缩小文本到图像的语义差异和鸿沟，完成更好的跨模态行人重识别任务，最终实现在实际场景使用对行人的描述语言完成检索。所以本发明实施提供的图像确定的装置解决了现有的技术方案中，无法根据自然语言的描述准确确定与该描述对应的图像的问题，提高了跨模态行人重识别的识别准确率。

图8是本发明实施例提供的一种计算设备的硬件架构的结构图。如图8所示，计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备808。其中，输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接，输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接，进而与计算设备800的其他组件连接。

具体地，输入设备801接收来自外部的输入信息，并通过输入接口802将输入信息传送到中央处理器803；中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器804中，然后通过输出接口805将输出信息传送到输出设备806；输出设备806将输出信息输出到计算设备800的外部供用户使用。

也就是说，图8所示的计算设备也可以被实现为图像确定模型的训练设备，或者，图像确定的设备。该图像确定模型的训练设备，或，图像确定的设备可以包括：处理器以及存储有计算机可执行指令的存储器；该处理器在执行计算机可执行指令时可以实现本发明实施例提供的图像确定模型的训练方法，或，图像确定的方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的图像确定模型的训练方法，或，图像确定的方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ApplicationSpecificIntegrated Circuit，ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器（Read-Only Memory，ROM）、闪存、可消除的只读存储器（Erasable Read Only Memory，EROM）、软盘、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、光盘、硬盘、光纤介质、射频（Radio Frequency，RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种图像确定模型的训练方法，其特征在于，所述方法包括：

获取用于描述图像特征的文本信息；

基于预设的神经网络与所述文本信息，生成与所述图像特征对应的第一图像；

根据所述第一图像和预设的图像数据库中的图像对所述神经网络进行训练，得到图像确定模型；

其中，所述根据所述第一图像和预设的图像数据库中的图像对预设的神经网络进行训练，得到图像确定模型，包括：从所述图像数据库中获取与所述第一图像匹配的目标图像；根据所述第一图像、所述目标图像以及所述文本信息对应的标定图像确定损失值，并根据所述损失值对所述神经网络进行对抗训练，生成训练后的神经网络；当训练后的神经网络的损失值满足预设条件时，将所述训练后的神经网络作为所述图像确定模型。

2.根据权利要求1所述的方法，其特征在于，所述基于预设的神经网络与所述文本信息，生成与所述图像特征对应的第一图像，包括：

拼接所述文本信息和预设的随机噪音特征信息，得到拼接后的特征；

基于预设的神经网络与所述拼接后的特征，生成与所述图像特征对应的第一图像。

3.根据权利要求1所述的方法，其特征在于，根据所述第一图像、所述目标图像以及所述文本信息对应的标定图像确定损失值，并根据所述损失值对所述神经网络进行对抗训练，生成训练后的神经网络，包括：

根据所述第一图像和所述标定图像确定第一损失值；

根据所述目标图像和所述标定图像确定第二损失值；

根据所述第一损失值和第二损失值对所述神经网络进行对抗性训练，生成训练后的神经网络。

4.根据权利要求3所述的方法，其特征在于，所述第一图像是预设的神经网络中的图像生成子网络对所述文本信息进行计算得到的；所述第一损失值是所述神经网络中的图像判别子网络对所述第一图像和与所述文本信息对应的标定图像进行计算得到的；所述第二损失值是根据目标图像和所述标定图像确定的，其中，所述目标图像是神经网络中的图像匹配子网络根据所述第一图像从预设的图像数据库中匹配得到的；所述根据所述第一损失值和第二损失值对所述神经网络进行对抗训练，生成训练后的神经网络，包括：

根据所述第一损失值对所述图像判别子网络中的参数进行对抗性训练，根据所述第二损失值对所述图像匹配子网络中的参数进行对抗性训练，根据所述第一损失值和第二损失值对所述图像生成子网络中的参数进行对抗性训练，生成训练后的神经网络。

5.一种图像确定的方法，其特征在于，所述方法包括：

获取用于描述图像特征的文本信息；

根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与所述图像特征对应的第二图像，其中，所述图像确定模型是基于权利要求1至4中任意一项所述的图像确定模型的训练方法得到的。

6.一种图像确定模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取用于描述图像特征的文本信息；

处理模块，用于基于预设的神经网络与所述文本信息，生成与所述图像特征对应的第一图像；

所述处理模块，还用于根据所述第一图像和预设的图像数据库中的图像对所述神经网络进行训练，得到图像确定模型；

所述处理模块，还用于从所述图像数据库中获取与所述第一图像匹配的目标图像；根据所述第一图像、所述目标图像以及所述文本信息对应的标定图像确定损失值，并根据所述损失值对所述神经网络进行对抗训练，生成训练后的神经网络；当训练后的神经网络的损失值满足预设条件时，将所述训练后的神经网络作为所述图像确定模型。

7.一种图像确定的装置，其特征在于，所述装置包括：

获取模块，用于获取用于描述图像特征的文本信息；

处理模块，用于根据预设的图像数据库、图像确定模型和文本信息，得到图像数据库中与所述图像特征对应的第二图像，其中，所述图像确定模型是基于权利要求1至4中任意一项所述的图像确定模型的训练方法得到的。

8.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1至4中任意一项所述的图像确定模型的训练方法，或者，实现如权利要求5所述的图像确定的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1至4中任意一项所述的图像确定模型的训练方法，或者，实现如权利要求5所述的图像确定的方法。