CN111738186B

CN111738186B - 目标定位方法、装置、电子设备及可读存储介质

Info

Publication number: CN111738186B
Application number: CN202010601619.3A
Authority: CN
Inventors: 韩晓光; 张轩烨; 吴毓双; 崔曙光
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Research Institute of Big Data SRIBD
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Research Institute of Big Data SRIBD
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-02-02
Anticipated expiration: 2040-06-28
Also published as: CN111738186A

Abstract

本公开实施例公开了一种目标定位方法、装置、电子设备及可读存储介质，该目标定位方法包括：通过图像着色子任务训练语言特征提取模型；通过文本补全子任务训练图像特征提取模型；获取行人图像和目标行人的语言描述信息；通过所述语言特征提取模型，确定所述目标行人的语言描述信息的语言特征；通过所述图像特征提取模型，确定所述行人图像的图像特征；确定所述语言特征与所述图像特征之间的相似度，以便定位与所述语言描述信息匹配的行人图像。根据本公开实施例，基于图像着色和文本补全的对偶子任务进行特征表示学习，能够显式地提取图片和描述中细粒度的关键信息，有利于建立图片和描述间对应关系，提高图像检索的准确率。

Description

目标定位方法、装置、电子设备及可读存储介质

技术领域

本公开涉及计算机视觉领域，具体涉及一种目标定位方法、装置、电子设备及可读存储介质。

背景技术

由于视频监控和安防领域广泛的应用前景，越来越多的人开始研究在大量行人图片中检索目标人物的技术。由于在实际应用场景中，目标行人常常只有自然语言的描述，而没有捕捉到的该行人图片，因此给该技术带来了极大的挑战。

在现有技术中，语言描述和数据库中的任务图片通常使用神经网络分别提取出整体的特征，然后在特征空间进行比较，这一类方法没有很好地关注细粒度的语言和图片信息，而数据库中常常包含十分相似的行人图片，需要对细节的注意才能正确区分。另一类方法专注于设计注意力机制来建立语言和图片之间局部信息的对应关系，然而此方法对模态间对应关系的学习是隐式的，因此带来更高的对应错误率，导致了检索精度的损失。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种目标定位方法、装置、电子设备及可读存储介质。

第一方面，本公开实施例中提供了一种目标定位方法。

具体地，所述目标定位方法，包括：

通过图像着色子任务训练语言特征提取模型；

通过文本补全子任务训练图像特征提取模型；

获取行人图像和目标行人的语言描述信息；

通过所述语言特征提取模型，确定所述目标行人的语言描述信息的语言特征；

通过所述图像特征提取模型，确定所述行人图像的图像特征；

确定所述语言特征与所述图像特征之间的相似度，以便定位与所述语言描述信息匹配的行人图像。

结合第一方面，本公开在第一方面的第一种实现方式中，所述通过图像着色子任务训练语言特征提取模型，包括：

获得相互匹配的原始行人图像以及原始语言描述信息；

基于所述原始行人图像构造灰度图像；

基于着色图像的第一特征表示与所述原始行人图像的第二特征表示训练语言特征提取模型，其中，所述着色图像的第一特征表示基于原始语言描述信息对灰度图像处理后产生。

结合第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述基于原始语言描述信息对灰度图像处理，包括：

确定所述灰度图像的第三特征表示；

确定所述原始语言描述信息的第四特征表示；

基于所述第三特征表示与所述第四特征表示生成含有颜色信息的着色图像的第一特征表示。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中：

所述确定所述灰度图像的第三特征表示包括，通过残差神经网络确定所述灰度图像的多个不同尺度的第一子特征表示；

所述基于所述第三特征表示与所述第四特征表示生成含有颜色信息的着色图像的第一特征表示包括：

基于所述多个不同尺度的第一子特征表示与所述第四特征表示生成含有颜色信息的着色图像的多个不同尺度的第二子特征表示；

将最小尺寸的第一子特征表示与多个不同尺度的所述第二子特征表示按照尺度从小到大的顺序，循环执行按通道维度联结、反卷积以及上采样，生成含有颜色信息的着色图像的第一特征表示。

结合第一方面的第二种或第三种实现方式，本公开在第一方面的第四种实现方式中，所述基于所述第三特征表示与所述第四特征表示生成含有颜色信息的着色图像的第一特征表示包括：

对所述第三特征表示进行全局池化，得到池化特征向量；

将所述池化特征向量与所述第四特征表示进行联结得到综合特征向量；

基于所述综合特征向量确定注意力权重向量，所述注意力权重向量的通道数与所述第三特征表示的通道数一致；

基于所述注意力权重向量与所述第三特征表示生成含有颜色信息的着色图像的第一特征表示。

结合第一方面，本公开在第一方面的第五种实现方式中，所述通过文本补全子任务训练图像特征提取模型，包括：

获得相互匹配的原始行人图像以及原始语言描述信息；

基于所述原始语言描述信息构造无颜色关键词的残缺语言描述信息；

基于预测缺失关键词与所述原始语言描述信息训练图像特征提取模型，其中，所述预测缺失关键词基于原始行人图像对所述残缺语言描述信息处理后产生。

结合第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述基于原始行人图像对所述残缺语言描述信息处理，包括：

确定所述原始行人图像的第五特征表示；

确定所述残缺语言描述信息的第六特征表示；

基于所述第五特征表示和所述第六特征表示确定一个或多个注意力图；

基于所述第五特征表示、所述第六特征表示以及所述一个或多个注意力图确定预测缺失关键词。

第二方面，本公开实施例中提供了一种目标定位装置。

具体地，所述目标定位装置，包括：

第一训练模块，被配置为通过图像着色子任务训练语言特征提取模型；

第二训练模块，被配置为通过文本补全子任务训练图像特征提取模型；

获取模块，被配置为获取行人图像和目标行人的语言描述信息；

第一确定模块，被配置为通过所述语言特征提取模型，确定所述目标行人的语言描述信息的语言特征；

第二确定模块，被配置为通过所述图像特征提取模型，确定所述行人图像的图像特征；

第三确定模块，被配置为确定所述语言特征与所述图像特征之间的相似度，以便定位与所述语言描述信息匹配的行人图像。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第六种实现方式任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第六种实现方式所述的方法。

根据本公开实施例提供的技术方案，基于图像着色和文本补全的对偶子任务进行特征表示学习，能够显式地提取图片和描述中细粒度的关键信息，有利于建立图片和描述间对应关系，提高图像检索的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的目标定位方法的流程图；

图2示出根据本公开实施例的目标定位方法的示意图；

图3示出根据本公开实施例的图像着色子任务的示意图；

图4示出根据本公开实施例的文本补全子任务的示意图；

图5示出根据本公开实施例的目标定位装置的框图；

图6示出根据本公开实施例的电子设备的框图；以及

图7示出适于实现根据本公开实施例的目标定位方法的计算机系统的框图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不想要排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本公开实施例提供一种根据语言描述对数据库中大量行人图像进行目标人物检索的方法，其通过图像着色和文本补全两个子任务进行多模态的表示学习，并结合特征匹配模块进行图像-语言相似度计算，以便输出相似度最高的图像作为检索结果。该方法的输入是多个图像和目标行人的语言描述，输出是符合描述的目标行人图像。

图1示出根据本公开实施例的目标定位方法的流程图。

如图1所示，该方法包括步骤S110～S160。

在步骤S110中，通过图像着色子任务训练语言特征提取模型；

在步骤S120中，通过文本补全子任务训练图像特征提取模型；

在步骤S130中，获取行人图像和目标行人的语言描述信息；

在步骤S140中，通过所述语言特征提取模型，确定所述目标行人的语言描述信息的语言特征；

在步骤S150中，通过所述图像特征提取模型，确定所述行人图像的图像特征；

在步骤S160中，确定所述语言特征与所述图像特征之间的相似度，以便定位与所述语言描述信息匹配的行人图像。

请参考图2，图2示出根据本公开实施例的目标定位方法的整体的示意图。如图2所示，该目标定位方法分为图像着色子任务和文本补全子任务。通过将彩色图作为图像着色子任务的监督，训练语言特征提取模型，使其具有较好的提取图像颜色特征的能力；通过将语言描述信息中的颜色关键词作为文本补全子任务的监督，训练图像特征提取模型，使其具有较好的提取语言描述信息中的颜色特征的能力。从而，待处理的行人图像和语言描述信息经过两个模型的处理，将得到的特征进行相似度匹配，可以确定具有最高相似度的行人图像，用于定位与该语言描述信息匹配的行人图像。

根据本公开实施例，在步骤S110，通过图像着色子任务，利用语言描述信息，将灰度图像还原成彩色图像，学习语言描述的细粒度特征表示。如图2所示，该步骤输入为行人图像的灰度图像和与之相匹配的语言描述，输出为目标人物的彩色原图或彩色原图的特征表示。

根据本公开实施例，所述通过图像着色子任务训练语言特征提取模型，包括：

获得相互匹配的原始行人图像以及原始语言描述信息；

基于所述原始行人图像构造灰度图像；

根据本公开实施例，相互匹配的原始行人图像以及原始语言描述信息即为训练数据。将彩色的原始行人图像的三个通道压缩为单通道，可得到灰度图像。

如图2所示，基于原始语言描述信息对灰度图像处理得到着色图像的第一特征表示，通过将彩色的原始行人图像作为图像着色子任务的监督，可以训练语言特征提取模型，使其具有较好的提取图像颜色特征的能力。

根据本公开实施例，所述基于原始语言描述信息对灰度图像处理，包括：

确定所述灰度图像的第三特征表示；

确定所述原始语言描述信息的第四特征表示；

根据本公开实施例，可以通过神经网络分别确定所述灰度图像的第三特征表示和所述原始语言描述信息的第四特征表示，通过对第三特征表示和第四特征表示的处理，例如联结操作，可以得到综合了第三特征表示和第四特征表示的第一特征表示，由于第四特征表示中含有颜色信息，第一特征表示中也含有颜色信息。

根据本公开实施例，可以采用BERT模型(Bidirectional EncoderRepresentations from Transformers，转换模型的双向编码器表征)对于所述原始语言描述信息进行嵌词，之后利用双向循环神经网络(RNN)的门控循环单元(GRU)对其进行语言特征抽取，将最后一个时间单元的隐层输出向量作为所述原始语言描述的第四特征表示。BERT模型嵌词的维度例如可以是768；门控循环单元的隐藏层维度例如可以是256。

根据本公开实施例，所述确定所述灰度图像的第三特征表示包括，通过残差神经网络确定所述灰度图像的多个不同尺度的第一子特征表示；所述基于所述第三特征表示与所述第四特征表示生成含有颜色信息的着色图像的第一特征表示包括：

根据本公开实施例，第三特征表示包括多个第一子特征表示。如图3所示，可以利用残差神经网络对所述灰度图像进行图像特征抽取，得到不同尺度的多张图像特征图，即多个第一子特征表示。例如，可以使用残差50神经网络(ResNet50)的前四模块抽取待定位图像的图像特征，所用特征图为四个模块的输出结果，四个特征图的尺度从小到大分别用尺度1，尺度2，尺度3，和尺度4表示。

根据本公开实施例，利用注意力机制将第四特征表示融入多个第一子特征表示，生成带有颜色信息的不同尺度的多个第二子特征表示。例如，可以对输入的第一子特征表示进行全局池化得到一个特征向量，再与第四特征表示进行联结得到综合的特征向量，然后输入到一个双层的全连接层结构中得到一个注意力权重向量，该注意力向量的维度与所述第一子特征表示的通道数一致，该注意力向量与第一子特征表示进行通道上的乘积，即第一子特征表示每个通道的张量分别与注意力向量对应的元素相乘，得到的新特征图融入了语言描述信息，作为输出，即第二子特征表示，如图3中所示的SE步骤。由于有多个不同尺度的第一子特征表示，相应地可以得到多个不同尺度的第二子特征表示。

根据本公开实施例，可以将最小尺度(尺度1)的第一子特征表示，与其融入描述信息的第二子特征表示在通道维度上联结，然后将联结得到的特征图反卷积并上采样到较高尺度，得到的重构特征图大小为尺度2；将其与同样大小为尺度2的第二子特征表示在通道维度上相联结，并再次反卷积和上采样得到尺度3大小的重构特征图；然后重复联结-反卷积-上采样的操作直至使用完所有尺度的第二子特征表示，得到的最终重构特征图，即含有颜色信息的着色图像的第一特征表示。该第一特征表示的通道数例如可以是3，可直接用于和彩色的原始行人图像计算损失，以便训练语言特征提取模型。

根据本公开实施例，所述基于所述第三特征表示与所述第四特征表示生成含有颜色信息的着色图像的第一特征表示包括：

对所述第三特征表示进行全局池化，得到池化特征向量；

根据本公开实施例，若未采用上述多尺度的方法，也可以采用类似的池化、联结、通过全连接层得到预定通道数的注意力权重向量的方法生成含有颜色信息的着色图像的第一特征表示。

本公开实施例的技术方案采用了一个多模态的图像重构U-型网络，接受灰度图像和原始语言描述信息作为输入，并利用原始语言描述信息作为引导重构出含有颜色信息的着色图像的第一特征表示。

根据本公开实施例，在步骤S120，通过文本补全任务，利用原始行人图像补全语言描述中缺失的颜色单词，学习人物图像的细粒度特征表示。如图2所示，该步骤输入为原始行人图像和无颜色关键词的残缺语言描述信息，输出为预测缺失关键词。

根据本公开实施例，所述通过文本补全子任务训练图像特征提取模型，包括：

获得相互匹配的原始行人图像以及原始语言描述信息；

基于预测缺失关键词与所述原始语言描述信息训练图像特征提取模型，其中，所述预测缺失关键词基于原始行人图像对所述残缺语言描述目标定位后产生。

根据本公开实施例，相互匹配的原始行人图像以及原始语言描述信息即为训练数据。从语言描述的所有单词中，去除颜色单词，得到无颜色关键词的残缺语言描述信息，空缺处可以用空缺标记填补。

如图2所示，基于原始行人图像对残缺语言描述信息处理得到预测缺失关键词，通过将原始语言描述信息中的颜色关键词作为文本补全子任务的监督，可以训练图像特征提取模型，使其具有较好的提取语言描述信息中颜色特征的能力。

根据本公开实施例，所述基于原始行人图像对所述残缺语言描述目标定位，包括：

确定所述原始行人图像的第五特征表示；

确定所述残缺语言描述信息的第六特征表示；

根据本公开实施例，可以利用残差神经网络对所述灰度图像进行图像特征抽取。例如，可以使用残差50神经网络(ResNet50)的前四模块抽取原始行人图像的第五特征表示，该第五特征表示为第四个模块的输出结果。

根据本公开实施例，可以利用BERT模型对于所述残缺语言描述信息进行嵌词，之后利用双向循环神经网络(RNN)的门控循环单元(GRU)对其进行特征抽取，将所有时序单元的隐层输出作为所述残缺语言描述信息的第六特征表示，与上文确定第四特征表示的步骤类似。

根据本公开实施例，利用残缺语言描述和原始行人图像的特征，计算每个时序的语言描述信息和人物图像的每个局部区域间的注意力图。例如，可以将行人图像特征图(第五特征表示)的每个位置，与残缺语言描述特征(第六特征表示)的每个时序之间计算相关度，并利用双线性池化的方法得到注意力图。通过预先设置的网络结构，双线性池化过程中可以得到预定数量的注意力图，如图4所示，例如可以得到三个注意力图。

根据本公开实施例，可以对残缺语言描述信息进行残差学习，经过一个或多个残差块得到中间特征向量。在每一个残差块中，第五特征表示会与一张双线性注意力图作用得到带注意力的图像特征，并作用到第六特征表示中相应的时序上，得到的新的语言描述特征即中间特征向量。将该中间特征向量通过一个两层的全连接层构成的分类器，即可预测每个空缺位置的预测缺失关键词。

根据本公开实施例，由于以原始语言描述信息中的颜色关键词作为文本补全子任务的监督，使得上述过程能够突出图像特征中的颜色信息，得到的中间特征向量融入了彩色图像中的颜色信息。

在如图4所示的实施例中，示例行人图像中的红色上衣，蓝色裤子，黑色背包的颜色信息会被突出，并作用到残缺语言描述信息的第六特征表示，对描述中上衣，裤子，背包单词附近的特征加入红色，蓝色和黑色信息，得到的中间特征向量将用于缺失颜色的预测。根据中间特征向量预测残缺语言描述信息中缺失的颜色单词。

文本补全任务可以被看作一个视觉问题回答任务进行处理，本公开实施例选用双线性注意力网络，根据输入的彩色图，对描述语句中缺失的颜色单词进行预测。

返回参考图1。根据本公开实施例，在步骤S130，可以从数据库获取多个行人图像。例如，公共场所的摄像头可以采集大量图像，并将该些图像存储到数据库中。该些图像经过初步目标检测，可以定位到图像中的行人，按照行人进行分割可得到行人图像，每个行人图像仅包括一个行人。行人图像的数量可根据实际应用的情况确定，本发明对其具体取值不作限定。行人图像例如可以是RGB图像，对于图像的格式和尺寸没有要求。

根据本公开实施例，目标行人的语言描述信息指的是与待定位的目标行人有关的语言描述信息。例如，“她戴眼镜，穿红色运动衫，蓝色牛仔裤，背一个黑色背包”。

根据本公开实施例，在步骤S140，根据在S110中训练的语言特征提取模型，处理目标行人的语言描述信息，可以获得目标行人的语言描述信息的语言特征；在步骤S150，根据在S120中训练图像特征提取模型，处理行人图像，可以获得行人图像的图像特征。该语言特征和图像特征可以是特征向量，例如可以是256维的特征向量。

根据本公开实施例，在步骤S160，对于在步骤S140中确定的语言描述信息的语言特征和在步骤S150中确定的行人图像的图像特征，可以确定二者之间的相似度。

根据本公开实施例，可以通过跨模态投影匹配算法确定相似度，该方法首先计算图像特征到语言特征空间的投影向量，从而将图像模态空间的图像特征投影到语言模态空间，然后计算图像投影后特征与语言描述特征间内积作为相似度。另一方面对于语言模态空间的语言特征也将其投影到图像模态空间，重复相同的操作得到图像模态空间中的相似度，基于两个相似度可以确定语言特征和图像特征之间的相似度，例如，可以取两个相似度之和作为语言特征和图像特征之间的相似度。

根据本公开实施例，步骤S140～S160的输入为数据库中任一行人图像和目标人物的语言描述信息，输出为两者之间的相似度。可以重复执行上述S140～S160的步骤，确定多个行人图像分别于语言描述信息之间的相似度，从而可以将相似度最高的一个或多个行人图像输出作为目标定位结果。

本公开实施例的技术方案提出了一种基于对偶子任务进行表示学习的图像检索方法，这两个子任务分别为图像着色和文本补全。该技术利用数据集中标注好的图片-语言描述对，去除图片和描述中的颜色信息，构造出一张灰度图和一个去除了所有颜色单词的描述语句，然后在图像着色子任务中，利用完整的语句对灰度图进行着色，来还原成彩色图，并在文本补全子任务中，利用原图对无颜色单词的描述进行颜色单词的补全。在完成这两个子任务的过程中，模型能够显式地学到细粒度的特征表示。在对偶子任务下学习得到的网络可以极大地提升图片-语言匹配模块对相似度的计算，从而显著提高检索准确率。本公开实施例的方法在CUHK-PEDES的数据集上的数值结果表现超过了state-of-the-arts的算法，证明本公开实施例的方法在大型行人图像数据库中根据语言描述进行细粒度检索方面具有较好的能力。

图5示出根据本公开的实施例的目标定位装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述目标定位装置500包括第一训练模块510、第二训练模块520、获取模块530、第一确定模块540、第二确定模块550以及第三确定模块560。

第一训练模块510，被配置为通过图像着色子任务训练语言特征提取模型；

第二训练模块520，被配置为通过文本补全子任务训练图像特征提取模型；

获取模块530，被配置为获取行人图像和目标行人的语言描述信息；

第一确定模块540，被配置为通过所述语言特征提取模型，确定所述目标行人的语言描述信息的语言特征；

第二确定模块550，被配置为通过所述图像特征提取模型，确定所述行人图像的图像特征；

第三确定模块560，被配置为确定所述语言特征与所述图像特征之间的相似度，以便定位与所述语言描述信息匹配的行人图像。

根据本公开实施例，基于图像着色和文本补全的对偶子任务进行特征表示学习，能够显式地提取图片和描述中细粒度的关键信息，有利于建立图片和描述间对应关系，提高图像检索的准确率。

本公开还公开了一种电子设备，图6示出根据本公开的实施例的电子设备的结构框图。

如图6所示，所述电子设备600包括存储器601和处理器602，其中，存储器601用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器602执行以实现以下方法步骤：

通过图像着色子任务训练语言特征提取模型；

通过文本补全子任务训练图像特征提取模型；

获取行人图像和目标行人的语言描述信息；

获得相互匹配的原始行人图像以及原始语言描述信息；

基于所述原始行人图像构造灰度图像；

确定所述灰度图像的第三特征表示；

确定所述原始语言描述信息的第四特征表示；

根据本公开实施例，所述确定所述灰度图像的第三特征表示包括，通过残差神经网络确定所述灰度图像的多个不同尺度的第一子特征表示；

对所述第三特征表示进行全局池化，得到池化特征向量；

获得相互匹配的原始行人图像以及原始语言描述信息；

根据本公开实施例，所述基于原始行人图像对所述残缺语言描述信息处理，包括：

确定所述原始行人图像的第五特征表示；

确定所述残缺语言描述信息的第六特征表示；

图7示出适于用来实现根据本公开实施例的目标定位的计算机系统的结构示意图。

如图7所示，计算机系统700包括处理单元701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种方法。在RAM 703中，还存储有系统700操作所需的各种程序和数据。处理单元701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信过程。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中，所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标定位方法，其特征在于，包括：

通过图像着色子任务训练语言特征提取模型，包括：获得相互匹配的原始行人图像以及原始语言描述信息；基于所述原始行人图像构造灰度图像；基于着色图像的第一特征表示与所述原始行人图像的第二特征表示训练语言特征提取模型，其中，所述着色图像的第一特征表示基于原始语言描述信息对灰度图像处理后产生；

通过文本补全子任务训练图像特征提取模型，包括：获得相互匹配的原始行人图像以及原始语言描述信息；基于所述原始语言描述信息构造无颜色关键词的残缺语言描述信息；基于预测缺失关键词与所述原始语言描述信息训练图像特征提取模型，其中，所述预测缺失关键词基于原始行人图像对所述残缺语言描述目标定位后产生；

获取行人图像和目标行人的语言描述信息；

2.根据权利要求1所述的方法，其特征在于，所述基于原始语言描述信息对灰度图像处理，包括：

确定所述灰度图像的第三特征表示；

确定所述原始语言描述信息的第四特征表示；

3.根据权利要求2所述的方法，其特征在于：

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个不同尺度的第一子特征表示与所述第四特征表示生成含有颜色信息的着色图像的多个不同尺度的第二子特征表示包括：

对所述第三特征表示进行全局池化，得到池化特征向量；

基于所述注意力权重向量与所述第三特征表示生成含有颜色信息的着色图像的第二子特征表示。

5.根据权利要求1所述的方法，其特征在于，所述基于原始行人图像对所述残缺语言描述目标定位，包括：

确定所述原始行人图像的第五特征表示；

确定所述残缺语言描述信息的第六特征表示；

6.一种目标定位装置，其特征在于，包括：

第一训练模块，被配置为通过图像着色子任务训练语言特征提取模型，包括：获得相互匹配的原始行人图像以及原始语言描述信息；基于所述原始行人图像构造灰度图像；基于着色图像的第一特征表示与所述原始行人图像的第二特征表示训练语言特征提取模型，其中，所述着色图像的第一特征表示基于原始语言描述信息对灰度图像处理后产生；

第二训练模块，被配置为通过文本补全子任务训练图像特征提取模型，包括：获得相互匹配的原始行人图像以及原始语言描述信息；基于所述原始语言描述信息构造无颜色关键词的残缺语言描述信息；基于预测缺失关键词与所述原始语言描述信息训练图像特征提取模型，其中，所述预测缺失关键词基于原始行人图像对所述残缺语言描述目标定位后产生；

7.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1~5任一项所述的方法。

8.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1~5任一项所述的方法。