CN113191461A

CN113191461A - 一种图片识别方法、装置、设备及可读存储介质

Info

Publication number: CN113191461A
Application number: CN202110727794.1A
Authority: CN
Inventors: 范宝余; 王立
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-07-30
Anticipated expiration: 2041-06-29
Also published as: WO2023272993A1; US20230316722A1; CN113191461B

Abstract

本申请公开了一种图片识别方法、装置、设备及可读存储介质，该方法包括：获取待识别的目标图片；将目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；利用图像特征，对目标图片进行识别，得到识别结果。在本申请中，在无需增加特征提取模型的参数量和计算量的情况下，通过引出同构分支，特征相互挖掘即知识协同辅助训练，使得特征提取模型具有较佳的特征提取性能，可基于该特征提取模型所提取的图像特征完成更加准确的图片识别。

Description

一种图片识别方法、装置、设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图片识别方法、装置、设备及可读存储介质。

背景技术

众所周知，深度学习来解决图片分类、图像分割和物体检测等计算机视觉领域的问题并且取得了巨大的成功。为了进一步提高网络性能，以提升图片识别性能，通常通过构建更为复杂的网络结构的形式继续提高性能，但是以该方式提高网络性能有以下缺点：

更深、更宽或更为复杂的网络通常会带来参数量的激增，参数量的增加不利于便携式设备的存储与部署。例如，在网络摄像头中实现实时的行人检测识别程序的部署，需要网络具有较小的参数量（便于存储）和较高的识别准确率。此外，更深、更宽或更为复杂的网络通常会带来计算量的增加，不利于对实时性要求较高的场景应用。例如：对犯罪嫌疑人的检索与跟踪。大的计算延迟会使整个系统错失最好的时机，给系统功能带来负面影响。

综上所述，如何有效地在不增加参数量和计算量的前提下，提升图片识别性能等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种图片识别方法、装置、设备及可读存储介质，在不增加参数量和计算量的前提下，提升图片识别性能。

为解决上述技术问题，本申请提供如下技术方案：

一种图片识别方法，包括：

获取待识别的目标图片；

将所述目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；

利用所述图像特征，对所述目标图片进行识别，得到识别结果；

其中，训练所述特征提取模型的过程，包括：

从模型主干网络中引出同构分支，得到同构辅助训练模型；

将训练样本按批次输入至所述同构辅助训练模型，得到每个所述同构分支分别对应的样本图像特征集合；每个批次的训练样本包括多个样本，对应多个类别；

在每两个所述样本图像特征集合间互相计算每一个样本图像特征分别对应的最大类间距离和最小类间距离；

利用所述最大类间距离和所述最小类间距离，计算知识协同损失值；

利用所述知识协同损失值对所述同构辅助训练模型进行参数调整，直到所述同构辅助训练模型收敛；

去除收敛后的所述同构辅助训练模型中的所述同构分支，得到仅包括主干分支的所述特征提取模型。

优选地，所述从模型主干网络中引出同构分支，得到同构辅助训练模型，包括：

从所述模型主干网络中辅助派生出所述同构分支；

和/或，从所述模型主干网络中层级派生出所述同构分支。

优选地，利用所述最大类间距离和所述最小类间距离，计算知识协同损失值，包括：

将对应的所述最大类间距离与所述最小类间距离做差，并对差值进行累加，得到所述知识协同损失值。

优选地，利用所述知识协同损失值对所述同构辅助训练模型进行参数调整，直到所述同构辅助训练模型收敛，包括：

利用三元组损失函数计算所述同构辅助训练模型的三元组损失值；

将所述三元组损失值与所述知识协同损失值之和确定为所述同构辅助训练模型的总损失值；

利用所述总损失值对所述同构辅助训练模型进行参数调整，直到所述同构辅助训练模型收敛。

优选地，所述利用三元组损失函数计算所述同构辅助训练模型的三元组损失值，包括：

对每个批次的所有训练样本进行遍历，计算每个样本在每个批次中类内差的绝对距离大小；

利用所述绝对距离大小，计算所述同构辅助训练模型的所述三元组损失值。

优选地，利用所述图像特征，对所述目标图片进行识别，得到识别结果，包括：

计算所述图像特征与查询数据集中各个有标签图像特征的向量距离；

对各个所述向量距离进行比较，得到最小向量距离；

将所述最小向量距离对应的所述有标签图像特征对应的标签确定为所述识别结果。

优选地，所述获取待识别的目标图片，包括：

获取待识别的行人图片，并将所述行人图片确定为所述目标图片；

相应地，所述识别结果对应行人身份信息。

一种图片识别装置，包括：

图片获取模块，用于获取待识别的目标图片；

特征提取模块，用于将所述目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；

识别模块，用于利用所述图像特征，对所述目标图片进行识别，得到识别结果；

模型训练模块，用于训练所述特征提取模型；具体训练过程包括：

从模型主干网络中引出同构分支，得到同构辅助训练模型；

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述图片识别方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图片识别方法的步骤。

应用本申请实施例所提供的方法，获取待识别的目标图片；将目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；利用图像特征，对目标图片进行识别，得到识别结果；其中，训练特征提取模型的过程，包括：从模型主干网络中引出同构分支，得到同构辅助训练模型；将训练样本按批次输入至同构辅助训练模型，得到每个同构分支分别对应的样本图像特征集合；每个批次的训练样本包括多个样本，对应多个类别；在每两个样本图像特征集合间互相计算每一个样本图像特征分别对应的最大类间距离和最小类间距离；利用最大类间距离和最小类间距离，计算知识协同损失值；利用知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛；去除收敛后的同构辅助训练模型中的同构分支，得到仅包括主干分支的特征提取模型。

在本实施例中，在训练特征提取模型时，从模型主干网络中引出同构分支，进而得到同构辅助训练模型。然后，在将训练样本按批次输入至同构辅助训练模型后，可以得到每一个同构分支输出的样本图像特征集合。然后，在每两个样本图像特征集合间，相互计算每一个样本图像特征分别对应的最大类间距离和最小类间距离，并计算出知识协同损失值，基于知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛。也就是说，在训练模型时，令同构分支间输出的各个样本之间进行相互参照挖掘。最后，在同构辅助训练模型收敛后，将引出辅助训练的同构分支去除，得到仅存在主干分支的特征提取模型。如此，便可在无需增加特征提取模型的参数量和计算量的情况下，通过引出同构分支，特征相互挖掘即知识协同辅助训练，使得特征提取模型具有较佳的特征提取性能，可基于该特征提取模型所提取的图像特征完成更加准确的图片识别。

相应地，本申请实施例还提供了与上述图片识别方法相对应的图片识别装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种图片识别方法的实施流程图；

图2为本实施例中一种特征提取模型的训练示意图；

图3为本申请实施例中一种辅助派生同构分支的示意图；

图4为本申请实施例中一种层级派生同构分支的示意图；

图5为本申请实施例中一种损失计算示意图；

图6为本申请实施例中一种特征提取模型中主干网络示意图；

图7为本申请实施例中一种引出了同构网络的同构辅助训练模型示意图；

图8为一种特征提取模型中主干网络示意图；

图9为本申请实施例中一种图片识别方法的具体实施流程图；

图10为本申请实施例中一种图片识别装置的结构示意图；

图11为本申请实施例中一种电子设备的结构示意图；

图12为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例中一种图片识别方法的流程图，该方法包括以下步骤：

S101、获取待识别的目标图片。

其中，目标图片可以为任意一张需要进行识别的图片，如可以为人图像，也可以为物体图像，还可以为监控场景图像等。

具体的，可以通过实时采集的方式来获得待识别的目标图片，也可以接收其他设备或应用发送图片的方式来获得待识别的目标图片，还可以从存储介质中直接读取的方式来获得待识别的目标图片。

在本申请中的一种具体实施方式中，步骤S101获取待识别的目标图片，包括：获取待识别的行人图片，并将行人图片确定为目标图片；相应地，最终得到的识别结果对应行人身份信息。即，可以实现有效地行人识别。

S102、将目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征。

得到目标图片之后，可以利用已经训练好的特征提取模型来对目标图片进行特征提取，从而得到目标图片的图像特征。

即，在对目标图片进行识别之前，需要预先训练出一个特征提取模型，以便提取目标图片的图像特征。

具体的，请参考图2，图2为本实施例中一种特征提取模型的训练示意图，训练特征提取模型的过程，包括：

S01、从模型主干网络中引出同构分支，得到同构辅助训练模型。

在本申请中，可以对卷积神经网络进行训练，从而得到特征提取模型。卷积神经网络通常是一个由多层网络叠加而成的深度的结构。一般地，卷积神经网络中包括若干层的ResNet网络（残差网络）包含着Shoutcut Connection（段径连接），若干层的Plain网络和若干层的VGG网络，这些网络都是多层堆叠的结构，每一单分支的网络在本文中称之为主干网络。

从模型主干网络中引出了同构分支后，便可得到同构辅助训练模型。该同构分支也可视为辅助训练分支或简称辅助分支。同构指辅助分支的网络结构与主干网络相同。基于同构网络的辅助训练分支具有以下特点：

1、同构辅助训练分支的网络结构与主干网络近似，不需要单独设计网络结构，因此网络设计比较简单。

2、同构辅助训练分支具有天然的分支相似性，即，每个辅助训练分支结构相同，输入也是相同的，但初始化的权重值不同。每个分支对输入数据提供各自的观点。

3、通过挖掘辅助分支之间的特征信息，可以使分支之间相互正则，从而促使各个分支向准确率更高的方向发展。

具体的，在本实施例中可以采用以下两种不同的同构分支派生方式来引出同构分支。

方式1、从模型主干网络中辅助派生出同构分支。

请参考图3，图3为本申请实施例中一种辅助派生同构分支的示意图。其中，虚线框内的网络结构即模型主干网络，虚线框外的结构即为辅助派生的同构分支。

方式2、从模型主干网络中层级派生出同构分支。

请参考图4，图4为本申请实施例中一种层级派生同构分支的示意图。其中，虚线框内的网络结构即模型主干网络，虚线框外的结构即为辅助派生的同构分支。

其中，辅助派生的同构网络是非对称的，层级派生的同构网络具有对称结构。

在实际应用中，可以仅采用方式1来派生同构分支，也可以仅采用方式2来派生同构分支，可以一部分采用方式1一部分采用方式2的来派生出同构分支。

S02、将训练样本按批次输入至同构辅助训练模型，得到每个同构分支分别对应的样本图像特征集合。

其中，每个批次的训练样本包括多个样本，对应多个类别。

在本实施例中，可以预先准备好多种类别对应的训练样本。在得到同构辅助训练模型之后，便可将训练样本按批次输入同构辅助训练模型提取样本图像特征。由于该同构辅助训练模型具有同构辅助训练分支，因而可以得到每个同构分支分别对应的样本图像特征集合。

S03、在每两个样本图像特征集合间互相计算每一个样本图像特征分别对应的最大类间距离和最小类间距离。

假设存在样本图像特征集A={a1，a2，a3，…，ai}，B={b1，b2，b3，…，bi}，C={c1，c2，c3，…，ci}，则分别计算A集合与B集合，B集合与C集合，A集合与C集合中每一个样本图像特征分别对应的最大类间距离和最小类间距离。

S04、利用最大类间距离和最小类间距离，计算知识协同损失值。

即，知识协同损失值是基于步骤S03计算出的最大类间距离和最小类间距离计算得到的。

具体的，可将对应的最大类间距离与最小类间距离做差，并对差值进行累加，得到知识协同损失值。当然，在本申请中的其他实施例中，还可以采用将对应的最大类间距离与最小类间距离做比后累积的方式得到知识协同损失值。

S05、利用知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛。

得到知识协同损失值之后，便可利用该知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛。其中，同构辅助训练模型收敛可以对应模型的损失值趋于稳定不再继续变化，或损失值小于预设阈值。

在本申请中的一种具体实施方式中，为了提高训练效果，还可以基于三元组损失值和知识协同损失值来对同构辅助训练模型进行参数调整。具体的，步骤S05利用知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛，包括：

步骤一、利用三元组损失函数计算同构辅助训练模型的三元组损失值。

三元组损失值的具体计算过程，包括：

步骤1、对每个批次的所有训练样本进行遍历，计算每个样本在每个批次中类内差的绝对距离大小；

步骤2、利用绝对距离大小，计算同构辅助训练模型的三元组损失值。

步骤二、将三元组损失值与知识协同损失值之和确定为同构辅助训练模型的总损失值；

步骤三、利用总损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛。

S06、去除收敛后的同构辅助训练模型中的同构分支，得到仅包括主干分支的特征提取模型。

同构辅助训练模型收敛后，将用于辅助训练的同构分支去除，可以得到仅包括主干分支的特征提取模型。也就是说，特征提取模型的结构与未引出同构分支时一致。

为了便于理解特征提取模型的具体训练过程，下面将上述步骤S01至步骤S06结合进行详细说明。

首先从模型主干网络中引出同构分支，得到同构辅助训练模型。然后，将训练样本分批次输入至同构辅助训练模型，得到样本图像特征集合。

为便于理解，下面对三元组损失（Triplet Loss）与交叉熵损失(cross-entropy)这两种损失函数的计算方法进行详述。

请参考图5，图5为本申请实施例中一种损失计算示意图。图5所示的网络架构即为对图6所示的主干网络增加了同构分支的同构辅助训练模型。

首先求取每个分支的交叉熵损失函数（cross-entropy loss），公式如下：

；

；

其中，网络输入表示为：

,

代表第n张图像（即样本），y _n代表该张图像对应的分类标签。

代表网络模型输出特征，下标c代表获取网络经过softmax层（归一化层）以后的分类层特征。如图5所示，计算交叉熵损失函数获取网络分类层的输出特征

，K代表网络输出的分类层特征向量的维度。B代表分支数目，

是超参数，代表各分支交叉熵损失的权重。

以上公式即：求取输入图像的每个同构分支的交叉熵损失并进行加权求和。

在本实施例中，三元组损失函数通过对输入数据中的困难样本进行挖掘，计算三元组数据中的最大类内距离和最小类间距离，并在损失函数中对以上距离进行约束，使最大类内距离尽可能的小，最小类间距离尽可能的大，从而使样本在其映射后（深度学习网络计算后得到特征）的特征空间中不同类别样本之间的距离增大，同类别样本尽量聚集，提高了识别准确率。本申请的三元组损失函数可用如下公式表示：

其中，

代表

代表求取向量之间的距离，可以使用欧式距离、余弦距离等计算。

,α代表anchor，即锚点样本。

代表获取图像在网络Embedding层（嵌入层）的特征。在本申请中，遍历每个batch（批次）中的所有样本，所遍历的样本称为锚点样本，求取锚点样本特征的最大类内距离和最小类间距离，带入如上公式。

代表与锚点样本同类的图像特征。

代表与锚点样本不同类的图像特征。这里需要注意的是，本申请

均抽取网络中Embedding层的特征，如图5所示。

更进一步，还可以采用本申请提供的增强的三元组损失函数，其公式如下所示：

传统的三元组损失函数仅仅考虑样本的类内差和类间差之间的差值，忽略了类内差的绝对距离大小（即：绝对值）。

本申请通过以上约束可以使

朝着更小的趋势发展，

朝着更大的趋势发展，即：限制类内差的绝对距离大小。

因此，本申请在同构辅助分支的条件下，可以采用如下损失函数：

其中，γ为超参数，可以训练或预先设定。

即，该三元组损失函数具体执行步骤如下:

1)对每个batch的所有样本进行遍历，如上，假设每个batch的样本包含N个样本，则遍历N次。

2）求取每个样本在每个batch中的最小类内距离和最大类间距离。（每个样本在一个batch中总有一个最小的类内和最大的类间样本）。

3）用公式（4）计算

。

4）用公式（2）计算

。

5）遍历每个同构分支，

按如上步骤求取每个分支的

和

。

6）求取总的loss,

。

此外，得益于同构分支的天然相似性，不同的分支embedding层特征可以相互学习。分支之间可以进行相互之间的艰难样本互挖掘，从而构成分支间三元组损失。通过以上思想，本申请还提出了(Knowledge synergy for hard sample mutual mining ,KSH)，即KSH损失函数，即用于计算知识协同损失值的损失函数。通过KSH，两两分支之间建立知识协同关系，增加了分支间的信息交流，提高分类准确性。KSH损失函数可以表示为:

其中，

代表第m个样本在第u个分支的embedding层特征()，

代表第n个样本在第v个分支的embedding层特征。

代表求同类样本之间的距离，

代表求类间样本的距离。α是超参数，是一个常数。

代表

。

如上公式言简意赅的表达了KSH损失函数的计算方法，下面用文字归纳KSH损失函数的计算过程。

知识协同损失函数具体执行步骤可以归纳如下：

1)如上，假设每个batch（批次）的样本包含N个样本、多个类别。

2）将每个batch的数据输入到网络，获取样本在网络各个同构分支的embedding层的输出结果，例如，假设网络包含3个同构分支，则共有3个同构分支embedding层输出结果，

， x代表每个batch所有输入样本的集合。

3）对于所有分支输出结果，依次遍历。遍历方法如下：

4）假设有3个分支：1分支、2分支、3分支，分支之间艰难样本互挖掘共有6种形式：（1，2）分支间艰难样本互挖掘、（1,3）、（2,1）、（2,3）、（3,1）、（3,2）。下面讲解（1,2）分支间艰难样本互挖掘。

5）首先遍历第一个分支embedding层特征

。共N个样本，维度为H维。因此对于该分支共遍历N次。假设取出第一个样本，则根据表示为

，其中上标1代表第一个分支，下标e1代表第一个分支的embedding层的第一个样本的特征。

然后，取第二个分支embedding层特征

。求取

与

中所有不包括自身的（非相同ID）样本的最大类内距离与最小类间距离。然后，使用如下公式计算知识协同损失：

随后，遍历第2个样本

，求取loss方法如上。依次遍历直到第一个分支的第N个样本

。如上过程遍历完（1,2）分支的艰难样本挖掘过程。

6）同理，遍历其余分支间的艰难样本挖掘过程：（1,3）、（2,1）、（2,3）、（3,1）、（3,2）。

7）以上所有样本的所有组合的知识协同损失求和后求平均，得到最终得知识协同损失L_ksh。

基于同构分支的知识协同网络总的损失函数为：

。

以上内容描述了整个基于同构分支的知识协同网络训练的方法，包括：同构网络如何建立，以及如何求取Loss函数。

下面简述网络如何训练、推理：

众所周知，一个卷积神经网络建立好以后需要训练使其收敛。收敛后得到训练好的网络权重。在推理过程中，预先加载网络训练好的权重系数对输入数据进行最终的分类。

其中，训练过程包括：

1）根据不同的网络结构，选择合适的引出位置，构建基于同构网络的辅助训练分支。

2）对所有辅助训练分支求取：交叉熵损失、三元组损失、知识协同损失。

3）根据如上损失函数对网络进行训练，使其收敛。

4）存储训练好的权重。

5）去掉所有的辅助训练分支，只保留主干网络。

其中，步骤5）可参照图6。图6所示的网络架构即为对图5所示的同构辅助训练模型，在增加同构分支前以及去除同构分支后的主干分支结构。

其中，卷积神经网络训练过程如下：卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。步骤3）对应的训练收敛过程包括：

1、网络层权值进行初始化，一般采用随机初始化；

2、输入图像数据经过卷积层、下采样层、全连接层等各层的前向传播得到输出值；

3、求出网络的输出值与目标值（标签）之间的误差：

4、将误差反向传回网络中，依次求得网络各层：全连接层，卷积层等各层的反向传播误差。

5、网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。

6、重新随机选取新的图像数据，然后进入到第2步，获得网络前向传播得到输出值。

7、无限往复迭代，当求出网络的输出值与目标值（标签）之间的误差小于某个阈值，或者迭代次数超过某个阈值时，结束训练。

8、保存训练好的所有层的网络参数。

S103、利用图像特征，对目标图片进行识别，得到识别结果。

得到图像特征之后，便可利用图像特征对目标图片进行识别，进而得到识别结果。

在本申请的一种具体实施方式中，步骤S103利用图像特征，对目标图片进行识别，得到识别结果，包括：

步骤一、计算图像特征与查询数据集中各个有标签图像特征的向量距离；

步骤二、对各个向量距离进行比较，得到最小向量距离；

步骤三、将最小向量距离对应的有标签图像特征对应的标签确定为识别结果。

为便于描述，下面将上述三个步骤结合起来进行说明。

即，在本实施例中，可以预先在查询数据集中存储有标签图像特征。然后，在提取到目标图片的图像特征之后，便可通过计算图像特征与查询数据即中各个有标签图像特征的向量距离，得到最小向量距离，最终将最小向量距离对应的有标签图像特征对应的标签确定为识别结果。也就是说标签标注的内容是什么，则识别结果即为什么内容。在本实施例中，对标签内容不做限定。

当然，在本申请中的其他具体实施方式中，还可以向特征提取模型输入查询图像和待识别图像，特征提取模型分别提取查询图像和待识别图像的图像特征，然后基于图像特征的相似度，从查询图像中确定出与待识别图像对应同一物品（如行人）的图像，进而实现行人重识别等目的。

为便于本领域技术人员更好地理解本申请实施例所提供的图片识别方法，下面以具体的行人重识别场景为例对本申请提供的图片识别方法进行详细说明。

1）、首先建立同构网络。

图8对应一个典型的MobileNet v2（MobileNet（轻量级网络）系列中三个版本中的其中一种，如图8所示）网络结构，MobileNet的Bottleneck（瓶颈层）网络结构是由多层深度可分离卷积网络堆叠而成的残差结构，是一种固定结构，这里不赘述。Conv代表卷积层，Conv 1×1，Conv与fc（全连接层）之间的箭头代表Global pool层（全局池化层）。图8中结构与MobileNet V2结构完全一致。

在MobileNet v2的网络结构基础上，从第3个Bottleneck输出位置引出同构网络分支，从第5个Bottleneck输出位置引出同构网络分支。如图7所示。

在输出层位置建立交叉熵损失、三元组损失、知识协同损失，并进行训练。如图7中b1与b2，b2与b3，b1与b3之间的双向箭头代表两两分支知识协同关系。

训练使网络收敛，存储网络训练好的权重。

去掉同构辅助分支，只保留主干分支。请参考图8，图8为图7所示的网络去除同构分支后以及引出主干分支前对应的主干分支。

请参考图9，在行人重识别应用中，将输入图像1、2、3输入到网络中，获取其网络中embedding层特征，图像1、2、3构成行人重识别任务的查询数据集。

将待查询图像也输入到网络中，获取待查询图像的embedding层特征。

将待查询图像的embedding层特征与查询数据集中所有特征进行比对，比对方法就是求待查询图像的embedding层特征与查询数据集中所有特征的距离，即向量求距离。

距离最小的查询数据样本与待查询图像是同一个人。

相应于上面的方法实施例，本申请实施例还提供了一种图片识别装置，下文描述的图片识别装置与上文描述的图片识别方法可相互对应参照。

参见图10所示，该装置包括以下模块：

图片获取模块101，用于获取待识别的目标图片；

特征提取模块102，用于将目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；

识别模块103，用于利用图像特征，对目标图片进行识别，得到识别结果；

模型训练模块104，用于训练特征提取模型；具体训练过程包括：

从模型主干网络中引出同构分支，得到同构辅助训练模型；

将训练样本按批次输入至同构辅助训练模型，得到每个同构分支分别对应的样本图像特征集合；每个批次的训练样本包括多个样本，对应多个类别；

在每两个样本图像特征集合间互相计算每一个样本图像特征分别对应的最大类间距离和最小类间距离；

利用最大类间距离和最小类间距离，计算知识协同损失值；

利用知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛；

去除收敛后的同构辅助训练模型中的同构分支，得到仅包括主干分支的特征提取模型。

应用本申请实施例所提供的装置，获取待识别的目标图片；将目标图片输入至训练好的特征提取模型进行特征提取，得到图像特征；利用图像特征，对目标图片进行识别，得到识别结果；其中，训练特征提取模型的过程，包括：从模型主干网络中引出同构分支，得到同构辅助训练模型；将训练样本按批次输入至同构辅助训练模型，得到每个同构分支分别对应的样本图像特征集合；每个批次的训练样本包括多个样本，对应多个类别；在每两个样本图像特征集合间互相计算每一个样本图像特征分别对应的最大类间距离和最小类间距离；利用最大类间距离和最小类间距离，计算知识协同损失值；利用知识协同损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛；去除收敛后的同构辅助训练模型中的同构分支，得到仅包括主干分支的特征提取模型。

在本申请的一种具体实施方式中，模型训练模块104，具体用于从模型主干网络中辅助派生出同构分支；和/或，从模型主干网络中层级派生出同构分支。

在本申请的一种具体实施方式中，模型训练模块104，具体用于将对应的最大类间距离与最小类间距离做差，并对差值进行累加，得到知识协同损失值。

在本申请的一种具体实施方式中，模型训练模块104，具体用于利用三元组损失函数计算同构辅助训练模型的三元组损失值；将三元组损失值与知识协同损失值之和确定为同构辅助训练模型的总损失值；利用总损失值对同构辅助训练模型进行参数调整，直到同构辅助训练模型收敛。

在本申请的一种具体实施方式中，模型训练模块104，具体用于对每个批次的所有训练样本进行遍历，计算每个样本在每个批次中类内差的绝对距离大小；利用绝对距离大小，计算同构辅助训练模型的三元组损失值。

在本申请的一种具体实施方式中，识别模块103，具体用于计算图像特征与查询数据集中各个有标签图像特征的向量距离；对各个向量距离进行比较，得到最小向量距离；将最小向量距离对应的有标签图像特征对应的标签确定为识别结果。

在本申请的一种具体实施方式中，图片获取模块101，具体用于获取待识别的行人图片，并将行人图片确定为目标图片；相应地，识别结果对应行人身份信息。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种图片识别方法可相互对应参照。

参见图11所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的图片识别方法的步骤。

具体的，请参考图12，图12为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的图片识别方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种图片识别方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的图片识别方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发/明的范围。

Claims

1.一种图片识别方法，其特征在于，包括：

获取待识别的目标图片；

其中，训练所述特征提取模型的过程，包括：

从模型主干网络中引出同构分支，得到同构辅助训练模型；

2.根据权利要求1所述的图片识别方法，其特征在于，所述从模型主干网络中引出同构分支，得到同构辅助训练模型，包括：

从所述模型主干网络中辅助派生出所述同构分支；

和/或，从所述模型主干网络中层级派生出所述同构分支。

3.根据权利要求1所述的图片识别方法，其特征在于，利用所述最大类间距离和所述最小类间距离，计算知识协同损失值，包括：

4.根据权利要求1所述的图片识别方法，其特征在于，利用所述知识协同损失值对所述同构辅助训练模型进行参数调整，直到所述同构辅助训练模型收敛，包括：

5.根据权利要求4所述的图片识别方法，其特征在于，所述利用三元组损失函数计算所述同构辅助训练模型的三元组损失值，包括：

6.根据权利要求1至5任一项所述的图片识别方法，其特征在于，利用所述图像特征，对所述目标图片进行识别，得到识别结果，包括：

对各个所述向量距离进行比较，得到最小向量距离；

7.根据权利要求6所述的图片识别方法，其特征在于，所述获取待识别的目标图片，包括：

相应地，所述识别结果对应行人身份信息。

8.一种图片识别装置，其特征在于，包括：

图片获取模块，用于获取待识别的目标图片；

从模型主干网络中引出同构分支，得到同构辅助训练模型；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述图片识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图片识别方法的步骤。