CN111291887A

CN111291887A - 神经网络的训练方法、图像识别方法、装置及电子设备

Info

Publication number: CN111291887A
Application number: CN202010155120.4A
Authority: CN
Inventors: 廖望
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-06-16
Anticipated expiration: 2040-03-06
Also published as: CN111291887B

Abstract

本发明提供了一种神经网络的训练方法、图像识别方法、装置及电子设备，涉及人工智能技术领域，包括：获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络，本申请缓解了传统的训练方法导致目标重识别网络对难负样本的判别能力不足的技术问题。

Description

神经网络的训练方法、图像识别方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种神经网络的训练方法、图像识别方法、装置及电子设备。

背景技术

随着视频监控在现代社会的广泛应用，对视频图像进行人工智能分析成为十分重要的研究方向。例如，目标重识别，目标重识别技术是诸多安防应用中不可或缺的一环，目标重识别也称目标再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的技术。例如，对视频监控的视频图像进行行人重识别，以判断该视频图像中是否存在特定行人。

在现有技术中，目标重识别网络针对外观相似而不属于同一对象的情况无法准确的进行识别，导致出现该目标重识别网络对这类相似对象的判别能力不足的问题。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络的训练方法、图像识别方法、装置及电子设备，以缓解了传统的训练方法导致目标重识别网络对相似对象的判别能力不足的技术问题。

第一方面，本发明实施例提供了一种神经网络的训练方法，包括：获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

进一步地，通过以下方式确定所述训练样本中的每个负样本对，具体包括：确定所述目标带标签图像所对应的相似无标签图像组，其中，所述相似无标签图像组中包含多个相似无标签图像，且所述多个相似无标签图像中所包含的对象均与所述第一对象相似且不相同；在所述相似无标签图像组中确定所述目标带标签图像所对应的目标无标签图像；并将所述目标带标签图像和其相对应的目标无标签图像确定为一个负样本对。

进一步地，确定所述目标带标签图像所对应的相似无标签图像组包括：提取所述目标带标签图像的特征信息和多张无标签图像的特征信息；基于所述特征信息计算所述目标带标签图像和各个无标签图像之间的特征距离，得到多个特征距离；基于所述多个特征距离在所述多张无标签图像中确定与所述目标带标签图像距离最接近的预设数量个无标签图像；并将所述预设数量个无标签图像确定为所述目标带标签图像所对应的相似无标签图像组中的图像。

进一步地，基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络包括：利用所述初始重识别网络对所述多个负样本对中的每个图像进行特征提取，得到多个目标特征信息；基于所述多个目标特征信息计算目标损失函数的值，并基于所述目标损失函数的值对所述初始重识别网络的网络参数进行调整，调整之后得到目标重识别网络。

进一步地，基于所述多个目标特征信息计算目标损失函数的值包括：根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像；所述正样本图像是从所述训练样本所包括的具有相同标签的多个目标带标签图像中选取的图像，所述负样本图像是从所述训练样本所包括多个目标无标签图像中选取的图像；基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值。

进一步地，根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像包括：根据所述多个目标特征信息计算目标带标签图像Ai和目标图像之间的特征距离，得到多个特征距离；所述目标图像为所述多个负样本对中除所述目标带标签图像Ai外的其他图像，i依次取1至I，I为所述目标带标签图像的数量；基于所述多个特征距离在所述目标图像中确定第一目标图像和第二目标图像，其中，所述第一目标图像和目标带标签图像Ai携带相同的标签，且所述第一目标图像和目标带标签图像Ai之间的特征距离最大，所述第二目标图像和目标带标签图像Ai携带不同的标签，且所述第二目标图像和目标带标签图像Ai之间的特征距离最小；将所述第一目标图像确定为所述目标带标签图像Ai的正样本图像，将所述第二目标图像确定为所述目标带标签图像Ai的负样本图像。

进一步地，基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值包括：基于公式

计算所述目标损失函数的值，其中，x_a表示目标带标签图像，x_p表示目标带标签图像的正样本图像，x_n表示目标带标签图像的负样本图像，P表示所述目标带标签图像的标签种类，K表示所述负样本对中包含相同对象的目标带标签图像的数量，D表示多个特征距离，

则表示目标带标签图像和正样本图像之间的特征距离，m表示一个间距，

表示第i个目标带标签图像的特征信息，

表示第i个目标带标签图像的正样本图像的特征信息。

第二方面，本发明实施例提供了一种图像识别方法，包括：获取第一目标图像和待识别图像集；通过目标重识别模型对所述第一目标图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上述第一方面中任一项所述的方法训练得到的模型；计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；基于所述多个欧式距离在所述待识别图像集确定第二目标图像，其中，所述第一目标图像和所述第二目标图像所属于相同的对象。

第三方面，本发明实施例提供了一种神经网络的训练装置，包括：第一获取单元，用于获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；训练单元，用于基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

第四方面，本发明实施例提供了一种图像识别装置，包括：第二获取单元，用于获取待识别图像和待识别图像集；提取单元，用于通过目标重识别模型对所述待识别图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上第一方面中任一项所述的方法训练得到的模型；计算单元，用于计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；确定单元，用于基于所述多个欧式距离在所述待识别图像集确定目标图像，其中，所述目标图像和所述待识别图像所属于相同的对象。

第五方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤，或者，上述第二方面所述的方法的步骤。

第六方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面中任一项所述的方法的步骤，或者，上述第二方面所述的方法的步骤。

在本发明实施例中，首先，获取训练样本；其中，训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且第一对象和第二对象相似；然后，基于训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。通过上述描述可知，在本申请中，不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了多个负样本对，在多个负样本对中，每张目标带标签图像都有与之对应的相似的目标无标签图像，基于多个负样本对对初始重识别网络进行训练的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对相似对象的判别能力不足的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种电子设备的结构示意图；

图2是根据本发明实施例的一种神经网络的训练方法的流程图；

图3(a)是根据本发明实施例的第一种训练样本的示意图；

图3(b)是根据本发明实施例的第一种训练样本的正样本图像的示意图；

图3(c)是根据本发明实施例的第一种训练样本的负样本图像的示意图；

图4(a)是根据本发明实施例的第二种训练样本的示意图；

图4(b)是根据本发明实施例的第二种训练样本的正样本图像的示意图；

图4(c)是根据本发明实施例的第二种训练样本的负样本图像的示意图；

图5是根据本发明实施例的一种难负样本的选择流程图；

图6是根据本发明实施例的一种掩膜图像的示意图；

图7是根据本发明实施例的一种图像识别方法的流程图；

图8是根据本发明实施例的一种神经网络的训练装置的示意图；

图9是根据本发明实施例的一种图像识别装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

首先，参照图1来描述用于实现本发明实施例的电子设备100，该电子设备可以用于运行本发明各实施例的神经网络的训练方法，或者，图像识别方法。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP，Digital Signal Processing)、现场可编程门阵列(FPGA，Field－Programmable Gate Array)、可编程逻辑阵列(PLA，Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU，Central ProcessingUnit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110用于进行获取带标签图像和无标签图像，其中，摄像机所获取的数据经过所述神经网络的训练方法得到训练之后得到目标重识别网络。所述图像采集装置110用于进行获取第一目标图像和待识别图像集，其中，摄像机所获取的数据经过所述图像识别方法得到第二目标图像。

本申请发明人经研究发现，在现有的目标重识别技术中，普遍采取的损失函数结合了分类损失和距离度量损失。距离度量的目的是为了减少类内的距离同时扩大类间的距离。对于距离度量损失，最常见的是三元组损失函数triplet loss，它的特点是随机采样，只关注一组训练数据minibatch中少部分数据，因此这将导致大部分样本对是简单的，并且容易陷入局部最优。对它的改进包括四元组损失函数quadruplet loss，以及triplet hardloss损失函数，其中，triplet hard loss损失函数是满足类内距离最大化并且类间距离最小化的三元组损失函数。上述改进的损失函数都无法从一个全局整体去筛选难负样本对。随机采样可能造成的情况就是直到训练结束，有的难负样本也不能和待识别的样本anchor匹配成负样本对，导致模型对难负样本对的判别能力不够。基于此，在本申请中，提出了一种神经网络的训练方法，该方法不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了多个负样本对，在多个负样本对中，每张目标带标签图像都有与之对应的相似的目标无标签图像，基于多个负样本对对初始重识别网络进行训练的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对相似对象的判别能力不足的技术问题，下面将结合具体实施例介绍该方法。

实施例2：

根据本发明实施例，提供了一种神经网络的训练方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种神经网络的训练方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似。

在本申请中，带标签图像指的是经过人工标注之后的图像，一张图像有一个标签person ID，通过该标签person ID就可以确定该图像所属的对象(例如，所属的人)。在带标签图像中，同一个对象的所有图像中，两两图像之间称之为正样本对，不同对象的图像两两图像之间称为负样本对。

无标签图像指的是没有经过人工标注的图像，并且无标签图像和带标签图像之间没有重复的对象，也就是说，无标签图像和带标签图像能够组成负样本对。

需要说明的是，在本申请中，在每个负样本对中包含一个目标带标签图像和与之对应的目标无标签图像，其中，该目标无标签图像中所包含的第一对象和目标带标签图像中所包含的第二对象是不相同的对象，且第一对象和第二对象是相似的。其中，第一对象和第二对象相似可以理解为第一对象和第二对象之间的相似度大于或者等于预设相似度。

在本申请中，第一对象和第二对象可以为行人，还可以为动物、车辆、人脸等其他任何能够进行识别的物体，本申请对此不做具体限定。

步骤S204，基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

在本发明实施例中，首先，获取训练样本；其中，训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且第一对象和第二对象相似；然后，基于训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。通过上述描述可知，在本申请中，不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了多个负样本对，在多个负样本对中，每张目标带标签图像都有与之对应的相似的目标无标签图像，基于多个负样本对对初始重识别网络进行训练的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对相似对象(即难负样本)的判别能力不足的技术问题。

在一个可选的实施方式中，可以通过以下方式确定训练样本中的每个负样本对，具体包括：

首先，确定所述目标带标签图像所对应的相似无标签图像组，其中，所述相似无标签图像组中包含多个相似无标签图像，且所述多个相似无标签图像中所包含的对象均与所述第一对象相似且不相同。

在本申请中，预先构建了一个难负样本对池，在该难负样本对池中，包含目标带标签图像和目标带标签图像所对应的相似无标签图像组。如果目标带标签图像为多个，那么在该难负样本对池中包含每个目标带标签图像和每个目标带标签图像所对应的相似无标签图像组。

需要说明的是，在该难负样本对池中，除了包含每个目标带标签图像和每个目标带标签图像所对应的相似无标签图像组之外，还可以包含其他带标签图像和其他带标签图像所对应的相似无标签图像组，其中，该其他带标签图像为未包含在多个负样本对中的目标带标签图像。

在本申请中，相似无标签图像组中包含目标带标签图像的多个相似无标签图像。且每个相似无标签图像中的对象和第二对象不相同，且每个相似无标签图像中的对象和第二对象之间的相似度满足预设要求，例如，大于或者等于预设相似度。

然后，在所述相似无标签图像组中确定所述目标带标签图像所对应的目标无标签图像；并将所述目标带标签图像和其相对应的目标无标签图像确定为一个负样本对。

在难负样本对池中确定相似无标签图像组之后，就可以在相似无标签图像组中选择一张相似无标签图像组作为该目标带标签图像的目标无标签图像，从而将目标带标签图像和选择出的目标无标签图像确定为一个负样本对。

在一个可选的实施方式中，确定所述目标带标签图像所对应的相似无标签图像组包括如下过程：

步骤S1，提取所述目标带标签图像的特征信息和多张无标签图像的特征信息；

步骤S2，基于所述特征信息计算所述目标带标签图像和各个无标签图像之间的特征距离，得到多个特征距离；

步骤S3，基于所述多个特征距离在所述多张无标签图像中确定与所述目标带标签图像距离最接近的预设数量个无标签图像；并将所述预设数量个无标签图像确定为所述目标带标签图像所对应的相似无标签图像组中的图像。

在本申请中，首先，获取预设目标重识别模型，其中，该预设目标重识别模型可以选择为性能较好的模型。之后，利用预设目标重识别模型提取目标带标签图像的特征信息和多张无标签图像的特征信息，例如，得到的特征信息可以为2048维向量。

在得到目标带标签图像的特征信息，以及多张无标签图像的特征信息之后，就可以基于目标带标签图像的特征信息和多张无标签图像的特征信息确定相似无标签图像组。

具体地，针对每张目标带标签图像，首先，计算该目标带标签图像的特征信息与每张无标签图像的特征信息之间的特征距离(例如，欧式距离)，得到多个特征距离。然后，可以从其中选择数值最小的N个(预设数量个)特征距离，并确定这N个特征距离所对应的无标签图像，其中，N可以选择为20，或者选择为30等其他数值，本申请对此不作具体限定。最后，将N个特征距离所对应的无标签图像确定为目标带标签图像所对应的相似无标签图像组中的图像。

如果目标带标签图像的数量M张，无标签图像包含N张图像，则按照上述方式计算每个目标带标签图像和各个无标签图像之间的特征距离之后，将得到一个M*N的距离矩阵D1，其中，在该距离矩阵D1中，第1行，第1列的值就是第一张目标带标签图像与第一无标签图像之间的特征距离。在该距离矩阵D1中，第i行的数值表示第i张目标带标签图像与全部无标签图像之间的特征距离。

通过上述描述可知，在距离矩阵D1中，每一行元素表示每个目标带标签图像与各个无标签图像之间的特征距离，例如，第i行元素表示第i张目标带标签图像与各个无标签图像之间的特征距离。针对距离矩阵D1中的第i行元素，可以从其中选择数值最小的N个特征距离，并确定这N个特征距离所对应的无标签图像，其中，N可以选择为20，或者选择为30等其他数值，本申请对此不作具体限定。在确定N个特征距离所对应的无标签图像之后，就可以将这N个无标签图像确定为第i张目标带标签图像所对应的相似无标签图像组中的图像。针对每一张目标带标签图像，均可以采用上述所描述的方式确定其对应的N个无标签图像，从而得到每张带标签图像所对应的相似无标签图像组。

在得到每张目标带标签所对应的相似无标签图像组之后，就可以基于每张目标带标签图像和其对应的相似无标签图像组构建难负样本对池。也就是说，在难负样本对池中包含：目标带标签图像，以及目标带标签图像所对应的相似无标签图像组，其中，相似无标签图像组可以包含20个无标签图像。其中，难负样本对池中除了包含目标带标签图像之外，还可以包含其他的带标签图像，本申请对此不做具体限定。

通过上述描述可知，针对每张目标带标签图像，都可以筛选出和它最相似的20张无标签图像，以构成相似无标签图像组，其中，无标签图像和目标带标签图像不属于同一个对象，但是所包含的对象相似，即每个相似无标签图像组为距离矩阵D1的每一行元素中，距离值最小的20张图像，这样就保证了特征相似，但是不是同一个对象，又因为这20张来自于数量更多的无标签图像，所以这20张属于难负样本。如图3(a)至图3(c)所示，图3(a)为带标签图像，图3(b)为图3(a)的正样本，图3(c)为图3(a)的负样本。如图4(a)至图4(c)所示，图4(a)为带标签图像，图4(b)为图4(a)的正样本，图4(c)为图4(a)的负样本。

需要说明的是，如图5所示，目标带标签图像的难样本可以从其他带标签图像中来进行确定，还可以从无标签图像中产生，上述所描述为从无标签图像中产生带标签图像的难样本，并通过难样本确定相似无标签图像组的过程。通过为目标带标签图像确定相似无标签图像组，并基于相似无标签图像组确定目标带标签图像的目标无标签图像的方式，能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对。

具体地，在本申请中，若目标带标签图像为多个，那么这多个目标带标签图像所属的标签可以为P个person ID标签，每个person ID(标签)取K张图片。接下来，对P*K张已采样的每一张目标带标签图像，在相对应的相似无标签图像组中随机采样一张图像作为该目标带标签图像的难负样本，即目标无标签图像，此时，又得到P*K个目标无标签图像。之后，将采样得到的P*K个目标无标签图像放在P*K个目标带标签图像之后，组成batchsize的大小等于2*P*K的训练样本，之后，通过大小等于2*P*K的训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

在本申请中，通过为目标带标签图像确定相似无标签图像组，并基于相似无标签图像组确定目标带标签图像的目标无标签图像的方式，能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对难负样本的判别能力不足的技术问题。

在一个可选的实施方式中，步骤S204，基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络包括如下过程：

步骤S2041，利用所述初始重识别网络对所述多个负样本对中的每个图像进行特征提取，得到多个目标特征信息；

步骤S2042，基于所述多个目标特征信息计算目标损失函数的值，并基于所述目标损失函数的值对所述初始重识别网络的网络参数进行调整，调整之后得到目标重识别网络。

具体地，在本申请中，对用于对初始重识别网络进行训练的训练样本进行特征提取，例如，利用初始目标重识别模型对多个负样本对中的每个图像(即，P*K张目标带标签图像和P*K张目标无标签图像)提取高维特征，则得到(2*P*K)个特征信息，即多个目标特征信息。

在得到多个目标特征信息之后，就可以基于多个目标特征信息计算目标损失函数，从而基于该目标损失函数对初始重识别网络的网络参数进行调整，调整之后得到目标重识别网络。在本申请中，目标损失函数可以选择为三元组损失函数triplet loss。

在一个可选的实施方式中，步骤S2062，基于所述多个目标特征信息计算目标损失函数的值包括如下过程：

首先，根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像；所述正样本图像是从所述训练样本所包括的具有相同标签的多个目标带标签图像中选取的图像，所述负样本图像是从所述训练样本所包括多个目标无标签图像中选取的图像；

具体地，通过上述描述可知，在多个负样本对所包含的多个目标带标签图像中，所属于每个标签的目标带标签图像的数量为K，也就是说，这K个目标带标签图像即为上述所描述的第二图像。因此，在本申请中，可以在第二图像中为该目标带标签图像选择正样本图像。

在本申请中，可以从训练样本所包括的具有相同标签的多个目标带标签图像中选择该目标带标签图像的正样本图像，以及从所述训练样本所包括多个目标无标签图像中选取该目标带标签图像的负样本图像。

在确定出正样本图像和负样本图像之后，就可以基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值。

在一个可选的实施方式中，根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像包括如下步骤：

步骤S11，根据所述多个目标特征信息计算目标带标签图像Ai和目标图像之间的特征距离，得到多个特征距离；所述目标图像为所述多个负样本对中除所述目标带标签图像Ai外的其他图像，i依次取1至I，I为所述目标带标签图像的数量。

通过上述描述可知，若目标带标签图像和目标无标签图像的数量均为P*K，那么将计算得到(2*P*K)个目标特征信息。接下来，可以对(2*P*K)个目标特征信息中的每个特征信息和其他的(2*P*K-1)个目标特征信息之间，两两计算特征距离，从而生成(2PK)x(2PK)大小的距离矩阵D2。在D2中的第i行，第j列表示2*P*K的训练样本中第i张图像和第j张图像的距离，如果i和j相等，则该值为0。由于大小为(2*P*K)的训练样本中后一半数据是目标无标签图像，不能构成正样本对，本发明只使用前一半的特征距离矩阵(PK)x(2PK)。也就是说，在前一半的特征距离矩阵(PK)x(2PK)中，包含每个目标带标签图像和各个目标图像之间的多个特征距离。

步骤S12，基于所述多个特征距离在所述目标图像中确定第一目标图像和第二目标图像，其中，所述第一目标图像和目标带标签图像Ai携带相同的标签，且所述第一目标图像和目标带标签图像Ai之间的特征距离最大，所述第二目标图像和目标带标签图像Ai携带不同的标签，且所述第二目标图像和目标带标签图像Ai之间的特征距离最小。

在本申请中，可以基于特征距离矩阵(PK)x(2PK)生成(PK)x(2PK)大小的mask(掩膜图像)，其中，掩膜图像如图6所示，白色区域表示相同标签ID的K张图片之间的两两距离(即，正样本对的距离)，黑色区域表示与负样本对之间的两两距离。

在图6中，总共有2*K行，针对第i行数据，可以在白色区域中找距离最大的样本作为目标带标签图像Ai的正样本图像(即，第一目标图像)，因为正样本图像是同一个人(即，携带相同的标签)，距离越小越好，所以特征距离最大的那个正样本图像就是一个难正样本图像。同理针对第i行数据，在黑色区域中找距离最小的样本，不同人的距离越大越好，特征距离最小的就可以作为目标带标签图像Ai的难负样本图像(即，第二目标图像)，这样每行代表的训练样本可以找到一个正样本图像，一个负样本图像。

步骤S13，将所述第一目标图像确定为所述目标带标签图像Ai的正样本图像，将所述第二目标图像确定为所述目标带标签图像Ai的负样本图像。

在得到目标带标签图像Ai的正样本图像和负样本图像之后，就可以根据目标带标签图像Ai的正样本图像和负样本图计算所述目标损失函数的值，其中，该目标损失函数可以选择为三元组损失函数。

具体地，三元组代价方程(triplet loss)的目的是在样本与样本之间，让正样本对的距离比负样本对的距离小一个阈值，拉近正样本对，推远负样本对，当训练样本满足上述条件，三元组代价方程的公式如下：

基于公式

表示第i个目标带标签图像的特征信息，

表示第i个目标带标签图像的正样本图像的特征信息。其中，m表示一个间距(margin)，上述公式的含义就是anchor与正样本的最大特征距离要比anchor与负样本的最小特征距离还要小一个间隔m，拉近类内距离，推开类间距离。

通过上述描述可知，在本申请中，不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了一个难负样本对池，在难负样本对池中，每张带标签的图像都有与之对应的最相似的无标签的图像，基于难负样本对池构建训练样本的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法无法有效提取难负样本对的技术问题。

实施例3：

根据本发明实施例，提供了一种图像识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图7是根据本发明实施例的一种图像识别方法的流程图，如图7所示，该方法包括如下步骤：

步骤S702，获取第一目标图像和待识别图像集；

步骤S704，通过目标重识别模型对所述第一目标图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上述实施例2中任一项所述的方法训练得到的模型；

步骤S706，计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；

步骤S708，基于所述多个欧式距离在所述待识别图像集确定第二目标图像，其中，所述第一目标图像和所述第二目标图像所属于相同的对象。例如，多个欧式距离中距离最小的样本，或者满足距离小于一定阈值的样本，认为与第一目标图像所属于相同的对象。

在本申请中，首先，获取第一目标图像和待识别图像集；然后，通过目标重识别模型对所述第一目标图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；接下来，计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；最后，基于所述多个欧式距离在所述待识别图像集确定第二目标图像。通过上述描述可知，在本申请中，不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了多个负样本对，在多个负样本对中，每张目标带标签图像都有与之对应的相似的目标无标签图像，基于多个负样本对对初始重识别网络进行训练的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对难负样本的判别能力不足的技术问题。

实施例4：

本发明实施例还提供了一种神经网络的训练装置，该神经网络的训练装置主要用于执行本发明实施例上述内容所提供的神经网络的训练方法，以下对本发明实施例提供的神经网络的训练装置做具体介绍。

图8是根据本发明实施例的一种神经网络的训练装置的示意图，如图8所示，该神经网络的训练装置主要包括第一获取单元81和训练单元82，其中：

第一获取单元81，用于获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；

训练单元82，用于基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

在本发明实施例中，首先，获取训练样本；其中，训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且第一对象和第二对象相似；然后，基于训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。通过上述描述可知，在本申请中，不仅利用带标签的图像，还利用大量无标签的图像与带标签的图像构造了多个负样本对，在多个负样本对中，每张目标带标签图像都有与之对应的相似的目标无标签图像，基于多个负样本对对初始重识别网络进行训练的方式能够减少噪声的影响，从而保证了在整个训练过程中，负样本对始终是一些外观相似的难负样本对，进而缓解了传统的训练方法导致目标重识别网络对难负样本的判别能力不足的技术问题。

可选地，该装置还用于：通过以下方式确定所述训练样本中的每个负样本对，具体包括：确定所述目标带标签图像所对应的相似无标签图像组，其中，所述相似无标签图像组中包含多个相似无标签图像，且所述多个相似无标签图像中所包含的对象均与所述第一对象相似且不相同；在所述相似无标签图像组中确定所述目标带标签图像所对应的目标无标签图像；并将所述目标带标签图像和其相对应的目标无标签图像确定为一个负样本对。

可选地，该装置还用于：提取所述目标带标签图像的特征信息和多张无标签图像的特征信息；基于所述特征信息计算所述目标带标签图像和各个无标签图像之间的特征距离，得到多个特征距离；基于所述多个特征距离在所述多张无标签图像中确定与所述目标带标签图像距离最接近的预设数量个无标签图像；并将所述预设数量个无标签图像确定为所述目标带标签图像所对应的相似无标签图像组中的图像。

可选地，训练单元用于：利用所述初始重识别网络对所述多个负样本对中的每个图像进行特征提取，得到多个目标特征信息；基于所述多个目标特征信息计算目标损失函数的值，并基于所述目标损失函数的值对所述初始重识别网络的网络参数进行调整，调整之后得到目标重识别网络。

可选地，训练单元还用于：根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像；所述正样本图像是从所述训练样本所包括的具有相同标签的多个目标带标签图像中选取的图像，所述负样本图像是从所述训练样本所包括多个目标无标签图像中选取的图像；基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值。

可选地，训练单元还用于：根据所述多个目标特征信息计算目标带标签图像Ai和目标图像之间的特征距离，得到多个特征距离；所述目标图像为所述多个负样本对中除所述目标带标签图像Ai外的其他图像，i依次取1至I，I为所述目标带标签图像的数量；基于所述多个特征距离在所述目标图像中确定第一目标图像和第二目标图像，其中，所述第一目标图像和目标带标签图像Ai携带相同的标签，且所述第一目标图像和目标带标签图像Ai之间的特征距离最大，所述第二目标图像和目标带标签图像Ai携带不同的标签，且所述第二目标图像和目标带标签图像Ai之间的特征距离最小；将所述第一目标图像确定为所述目标带标签图像Ai的正样本图像，将所述第二目标图像确定为所述目标带标签图像Ai的负样本图像。

可选地，训练单元还用于：基于公式

表示第i个目标带标签图像的特征信息，

表示第i个目标带标签图像的正样本图像的特征信息。

实施例5：

本发明实施例还提供了一种图像识别装置，该图像识别装置主要用于执行本发明实施例上述内容所提供的图像识别方法，以下对本发明实施例提供的图像识别装置做具体介绍。

图9是根据本发明实施例的一种图像识别装置的示意图，如图9所示，该图像识别装置主要包括第二获取单元91，提取单元92、计算单元93和确定单元94，其中：

第二获取单元，用于获取待识别图像和待识别图像集；

提取单元，用于通过目标重识别模型对所述待识别图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上述权利要求1至11中任一项所述的方法训练得到的模型；

计算单元，用于计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；

确定单元，用于基于所述多个欧式距离在所述待识别图像集确定目标图像，其中，所述目标图像和所述待识别图像所属于相同的对象。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络的训练方法，其特征在于，包括：

获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；

基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

2.根据权利要求1所述的方法，其特征在于，通过以下方式确定所述训练样本中的每个负样本对，具体包括：

确定所述目标带标签图像所对应的相似无标签图像组，其中，所述相似无标签图像组中包含多个相似无标签图像，且所述多个相似无标签图像中所包含的对象均与所述第一对象相似且不相同；

在所述相似无标签图像组中确定所述目标带标签图像所对应的目标无标签图像；并将所述目标带标签图像和其相对应的目标无标签图像确定为一个负样本对。

3.根据权利要求2所述的方法，其特征在于，确定所述目标带标签图像所对应的相似无标签图像组包括：

提取所述目标带标签图像的特征信息和多张无标签图像的特征信息；

基于所述特征信息计算所述目标带标签图像和各个无标签图像之间的特征距离，得到多个特征距离；

基于所述多个特征距离在所述多张无标签图像中确定与所述目标带标签图像距离最接近的预设数量个无标签图像；并将所述预设数量个无标签图像确定为所述目标带标签图像所对应的相似无标签图像组中的图像。

4.根据权利要求1所述的方法，其特征在于，基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络包括：

利用所述初始重识别网络对所述多个负样本对中的每个图像进行特征提取，得到多个目标特征信息；

基于所述多个目标特征信息计算目标损失函数的值，并基于所述目标损失函数的值对所述初始重识别网络的网络参数进行调整，调整之后得到目标重识别网络。

5.根据权利要求4所述的方法，其特征在于，基于所述多个目标特征信息计算目标损失函数的值包括：

根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像；所述正样本图像是从所述训练样本所包括的具有相同标签的多个目标带标签图像中选取的图像，所述负样本图像是从所述训练样本所包括多个目标无标签图像中选取的图像；

基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值。

6.根据权利要求5所述的方法，其特征在于，根据所述多个目标特征信息确定所述多个负样本对中每个目标带标签图像的正样本图像和负样本图像包括：

根据所述多个目标特征信息计算目标带标签图像Ai和目标图像之间的特征距离，得到多个特征距离；所述目标图像为所述多个负样本对中除所述目标带标签图像Ai外的其他图像，i依次取1至I，I为所述目标带标签图像的数量；

基于所述多个特征距离在所述目标图像中确定第一目标图像和第二目标图像，其中，所述第一目标图像和目标带标签图像Ai携带相同的标签，且所述第一目标图像和目标带标签图像Ai之间的特征距离最大，所述第二目标图像和目标带标签图像Ai携带不同的标签，且所述第二目标图像和目标带标签图像Ai之间的特征距离最小；

将所述第一目标图像确定为所述目标带标签图像Ai的正样本图像，将所述第二目标图像确定为所述目标带标签图像Ai的负样本图像。

7.根据权利要求6所述的方法，其特征在于，基于每个目标带标签图像，以及每个目标带标签图像的正样本图像和负样本图像计算所述目标损失函数的值包括：

基于公式

表示第i个目标带标签图像的特征信息，

表示第i个目标带标签图像的正样本图像的特征信息。

8.一种图像识别方法，其特征在于，包括：

获取第一目标图像和待识别图像集；

通过目标重识别模型对所述第一目标图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上述权利要求1至7中任一项所述的方法训练得到的模型；

计算所述第一特征信息和所述多个第二特征信息之间的欧式距离，得到多个欧式距离；

基于所述多个欧式距离在所述待识别图像集确定第二目标图像，其中，所述第一目标图像和所述第二目标图像所属于相同的对象。

9.一种神经网络的训练装置，其特征在于，包括：

第一获取单元，用于获取训练样本；其中，所述训练样本中包含多个负样本对，其中，每个负样本对包括目标带标签图像和其相对应的目标无标签图像，所述每个负样本对中的目标无标签图像所包含的第一对象和目标带标签图像所包含第二对象不相同，且所述第一对象和所述第二对象相似；

训练单元，用于基于所述训练样本对初始重识别网络进行训练，训练之后得到目标重识别网络。

10.一种图像识别装置，其特征在于，包括：

第二获取单元，用于获取待识别图像和待识别图像集；

提取单元，用于通过目标重识别模型对所述待识别图像进行特征提取，得到第一特征信息，并通过所述目标重识别模型提取所述待识别图像集中图像的特征，得到多个第二特征信息；其中，所述目标重识别模型为采用上述权利要求1至7中任一项所述的方法训练得到的模型；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤，或者，上述权利要求8所述的方法的步骤。

12.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至7中任一项所述的方法的步骤，或者，上述权利要求8所述的方法的步骤。