CN110009003A

CN110009003A - 图像处理与图像比对模型的训练方法、装置和系统

Info

Publication number: CN110009003A
Application number: CN201910193539.6A
Authority: CN
Inventors: 杜佳慧
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-12

Abstract

本申请涉及一种图像处理与图像比对模型的训练方法、装置、系统、计算机设备和可读存储介质。所述方法包括：获取待比对的目标图像；将目标图像输入预先训练的图像比对模型，输出所述目标图像的图像特征；所述图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；将所述目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果。采用本方法通过引入自监督损失进行训练，不需要任何额外的标注成本，提高了跨模态比对的准确性。

Description

图像处理与图像比对模型的训练方法、装置和系统

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像处理与图像比对模型的训练方法、装置、系统、计算机设备和可读存储介质。

背景技术

目前，基于人脸识别技术的应用场景越来越多。一般情况下，人脸识别所采用的底库图为RGB图，而因为暗光环境等条件的限制抓拍图为IR(Infrad，红外)图，因此存在诸如RGB图和IR图的人脸比对这样的跨模态图像比对的需求。

传统的一种方案是通过多模态的图像训练样本的交叉熵损失来训练得到卷积神经网络，基于训练得到的卷积神经网络实现跨模态图像比对。

然而，上述跨模态图像比对方案存在误识率过高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确性的图像处理与图像比对模型的训练方法、装置、系统、计算机设备和可读存储介质。

第一方面，一种图像处理方法，所述方法包括：

获取待比对的目标图像；

将所述目标图像输入预先训练的图像比对模型，输出所述目标图像的图像特征；所述图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；

将所述目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果；其中，所述底库图像组包括至少一个底库图像，所述底库图像和所述目标图像为不同模态的两个图像，所述底库图像的图像特征是所述图像比对模型从所述底库图像中提取的。

在其中一个实施例中，用于训练所述图像比对模型的损失函数还包括：交叉熵损失；所述交叉熵损失包括训练样本中各图像的对象标签数据与对象分类数据之间的损失。

在其中一个实施例中，用于训练所述图像比对模型的损失函数还包括：三元组损失；所述三元组损失包括训练样本中三元图像组中各图像的图像特征之间的损失，所述三元图像组包括：参考图像、正样本图像和负样本图像，所述参考图像和所述正样本图像为同一对象的不同模态的两个图像，所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。

在其中一个实施例中，所述图像比对模型的训练方式包括：

获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据；

将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据；

根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，以及计算所述训练样本的损失函数的值；

根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

在其中一个实施例中，所述根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，包括：

根据所述各图像的对象标签数据和模态标签数据，对所述各图像进行分组；

根据分组的各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失。

在其中一个实施例中，所述训练样本包括多个图像集合，每个图像集合包括：至少四个图像，所述四个图像分属两个不同对象，分属于同一对象的两个图像为不同模态的两个图像。

在其中一个实施例中，所述根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，以及计算所述训练样本的损失函数的值，包括：

针对所述多个图像集合，根据所述图像集合中四个图像的图像特征和对象分类数据，计算所述图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失；

根据所述各图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失，计算所述训练样本的损失函数的值。

在其中一个实施例中，所述图像比对模型包括：特征提取子模型和对象分类子模型；

所述将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据，包括：

将所述训练样本中各图像输入所述特征提取子模型中，输出所述各图像的图像特征；

将所述各图像的图像特征输入所述对象分类子模型中，输出所述各图像的对象分类数据。

在其中一个实施例中，所述特征提取子模型和对象分类子模型均为神经网络模型。

在其中一个实施例中，所述特征提取子模型包括轻量化MobileNetV2网络，所述对象分类子模型包括归一化指数softmax网络。

在其中一个实施例中，对于任一对象而言，所述同一对象的不同模态图像的对象分类数据之间的损失包括：||P₁-P₂||² ₂，其中，P1为所述对象的第一模态的图像的对象分类数据，P₂为所述对象的第二模态的图像的对象分类数据；所述图像的对象分类数据为所述图像属于不同对象类别的概率值所组成的多维向量。

在其中一个实施例中，所述底库图像和所述目标图像为两个不同模态的图像；所述训练样本中的各图像同样分属于所述两个不同模态。

在其中一个实施例中，所述两个不同模态分别为红绿蓝RGB模态和红外IR模态。

第二方面，一种图像比对模型的训练方法，包括：

根据所述各图像的图像特征和对象分类数据，计算所述训练样本的损失函数的值；所述损失函数包括自监督损失，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失；

第三方面，一种图像处理装置，所述装置包括：

图像获取模块，用于获取待比对的目标图像；

特征提取模块，用于将所述目标图像输入预先训练的图像比对模型，输出所述目标图像的图像特征；所述图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；

特征比对模块，用于将所述目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果；其中，所述底库图像组包括至少一个底库图像，所述底库图像和所述目标图像为不同模态的两个图像，所述底库图像的图像特征是所述图像比对模型从所述底库图像中提取的。

第四方面，一种图像比对模型的训练装置，包括：

训练样本获取模块，用于获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据；

图像处理模块，用于将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据；

损失计算模块，用于根据所述各图像的图像特征和对象分类数据，计算所述训练样本的损失函数的值；所述损失函数包括自监督损失，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失；

模型训练模块，用于根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

第五方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待比对的目标图像；

第六方面，一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待比对的目标图像；

第七方面，一种图像处理系统，包括拍摄装置以及上述计算机设备；所述拍摄装置与所述计算机设备连接，用于拍摄获取待识别对象的图像，并将所述待识别对象的图像发送给所述计算机设备进行对象识别。

上述图像处理与图像比对模型的训练方法、装置、系统、计算机设备和可读存储介质，图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；自监督损失引入了不同模态，使得同一个人不同模态的图像在进行分类时，不仅对于标签类别的分类性能要好，同时对于其它非标签类别的分类结果也尽可能的接近，起到了更强的监督作用；这种自监督损失的计算不需要任何额外的标注成本，而且是基于自身的一种约束；自监督损失可以对图像比对模型中图像特征提取的性能进行优化，使得图像比对模型可以从同一对象的不同模态的图像中提取出相似的特征，实现跨模态的特征提取，便于实现本实施例的跨模态的图像比对；总之，本实施例的图像处理方法可以通过引入自监督损失进行训练，不需要任何额外的标注成本，提高了跨模态比对的准确性。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为一个实施例中图像比对模型的训练方法的流程示意图；

图4为一个实施例中图像比对模型的训练方法的示意图；

图5为一个实施例中图像比对模型的训练方法的流程示意图；

图6为一个实施例中图像处理装置的结构框图；

图7为一个实施例中图像比对模型的训练装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为一个实施例中图像处理系统的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像处理方法，可以应用于如图1所示的应用环境中。其中，拍摄装置12可以获取目标对象的目标图像，并将目标图像发送给计算机设备11；计算机设备11可以对从所述目标图像中提取目标图像的图像特征，并将目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果，以进行身份识别、对象比对等，例如可以识别目标对象是否为底库图像组中某一底库图像对应的合法对象。其中，计算机设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、服务器等。

在一个实施例中，如图2所示，提供了一种图像处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S201，获取待比对的目标图像。

上述待比对的目标图像可以是计算机设备接收到的其它设备发送的目标图像，如拍摄装置、其它计算机设备等，也可以是计算机设备本地存储的目标图像，或者是其它来源的目标图像；总之，计算机设备需要对该目标图像和底库图像组中的底库图像进行比对，应用场景可以但不限于是身份认证、刷脸支付、人物相似度比对等。本实施例的图像处理方法可以实现不同模态的目标图像和底库图像之间的比对，示例性地，当进行刷脸支付时，底库图像可能是RGB图像，而刷脸时摄像头拍摄的待比对的目标图像可能是IR图像。

S202，将所述目标图像输入预先训练的图像比对模型，输出所述目标图像的图像特征；所述图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的。

其中，所述图像比对模型可以从所述目标图像中提取出图像特征。

可以理解的是，针对某一图像，分类处理可以是基于图像对比模型提取出的图像特征，计算该图像特征属于各对象类别的概率值，因此图像的对象分类数据可以理解为：图像属于不同对象类别的概率值。示例性地，分类处理可以通过各种分类网络实现，如逻辑回归logistic regression网络、归一化指数softmax网络等。

以分类的对象类别数为3类为例，在训练过程中，某图像的对象分类数据可以为[0.7,0.2,0.1]，即属于第一对象的概率值为0.7，属于第二对象的概率值为0.2，属于第三对象的概率值为0.1。针对该图像而言，常规的交叉熵损失是计算真实的对象分类概率分布与预测的对象分类概率分布之间的差异，即对象标签数据与对象分类数据之间的损失。例如，该图像的对象标签数据仅可能为[1,0,0]、[0,1,0]、[0,0,1]中的一个，例如[0,1,0]，即该图像本属于第二对象。交叉熵损失l_cross-entory可以表示为

其中，y_o,c为类别的one hot(独热编码)输出，只有在类别符合的时候才为1，p_o,c是指类别c的概率值。在本示例中，对象分类数据为[0.7,0.2,0.1]，one hot输出为[0,1,0]，则交叉熵损失＝-(0×log0.7+1×log0.2+0×log0.1)＝-log0.2，可见，交叉熵损失仅与所述对象分类数据中的标签类别的概率值有关，而与其它非标签类别的概率值无关，该标签类别与对象标签数据对应。因此，在常规的采用交叉熵损失进行训练时，并不能使得对象分类数据中其它非标签类别的概率值得到优化，即不能很好的优化整个对象分类数据。

而自监督损失(self-supervision loss)包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，例如，以三类别为例，某对象的RGB图像的对象分类数据为[0.7,0.2,0.1]，某对象的IR图像的对象分类数据为[0.7,0.1,0.2]；则针对上述的一组同一对象的不同模态图像而言，该组的自监督损失可以为RGB图像的对象分类数据与IR图像的对象分类数据之间的各种范数，该范数可以但不限于是L1范数(绝对误差之和)、L2范数(欧几里得距离)等。

可以理解的是，首先，自监督损失不但引入了不同模态，还与各模态的对象分类数据中的各类别的概率值均相关，因此在采用自监督损失进行训练时，可以优化整个对象分类数据，使得同一个人不同模态的图像在进行分类时，不仅对于标签类别的分类性能要好，同时对于其它非标签类别的分类结果也尽可能的接近，起到了更强的监督作用；

其次，这种自监督损失的计算不需要任何额外的标注成本，而且是基于自身的一种约束，通过计算训练样本中同一对象的不同模态图像的对象分类数据之间的损失得到；

此外，自监督损失可以在训练过程中约束同一对象的不同模态图像的对象分类数据之间的差距，而同一对象的不同模态图像的对象分类数据是基于同一对象的不同模态图像的图像特征，采用了同一分类网络进行分类处理得到的，因此自监督损失可以约束同一对象的不同模态图像的图像特征之间的差距，即可以对图像比对模型中图像特征提取的性能进行优化，使得图像比对模型可以从同一对象的不同模态的图像中提取出相似的特征，实现跨模态的特征提取，便于实现本实施例的跨模态的图像比对。

S203，将所述目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果；其中，所述底库图像组包括至少一个底库图像，所述底库图像和所述目标图像为不同模态的两个图像，所述底库图像的图像特征是所述图像比对模型从所述底库图像中提取的。

所述计算机设备中可以存储有底库图像组，相当于是图像比对中各对象的参考图像或标准图像；示例性地，在支付场景下可以对应一个对象，该对象对应至少一个底库图像；在打卡场景下，可以对应一个公司的所有员工，每个员工对应至少一个底库图像。可以理解的是，当底库图像组包括至少多个底库图像时，底库图像组中的底库图像可以为多模态的，本实施例对此并不限制。同样地，计算机设备中可以存储有各底库图像对应的对象的数据。当然，计算机设备也可以通过其他方式获取上述的底库图像组等数据，例如通过互联网从预设的服务器中获取，本实施例对此并不限制。

需要说明的是，在对模型训练完成后，计算机设备可以将底库图像组中的底库图像输入图像比对模型，输出所述底库图像组中底库图像的图像特征并存储；该底库图像的图像特征可以复用，无需每次进行图像比对时才从底库图像中提取，提高了图像比对效率。

在进行比对时，因为目标图像的图像特征和底库图像的图像特征均是图像比对模型提取的，因此可以进行比对。示例性地，可以分别计算目标头像的头像特征与底库图像的图像特征之间的相似度，例如各对应像素点的像素值之间的差值的绝对值之和，作为比对参考数据。当底库图像为一个时，判断所述相似度是否大于预设相似度阈值，若是，则确定所述目标图像与所述底库图像是同一对象，若否，则确定所述目标图像与所述底库图像不是同一对象。当底库图像为多个时，分别判断各底库图像的相似度是否大于预设相似度阈值，并将相似度大于预设相似度阈值的至少一个底库图像作为待选图像；当不存在待选图像时，即目标对象与底库图像组中的任一底库图像的对象均不符合；当存在一个待选图像时，可以确定目标对象与该待选图像是同一对象；当存在多个待选图像时，可以确定目标对象与所述多个待选图像疑似为同一对象，并按照相似度大小从大到小排列所述多个待选图像对应的对象。

在本实施例中，图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；自监督损失引入了不同模态，使得同一个人不同模态的图像在进行分类时，不仅对于标签类别的分类性能要好，同时对于其它非标签类别的分类结果也尽可能的接近，起到了更强的监督作用；这种自监督损失的计算不需要任何额外的标注成本，而且是基于自身的一种约束；自监督损失可以对图像比对模型中图像特征提取的性能进行优化，使得图像比对模型可以从同一对象的不同模态的图像中提取出相似的特征，实现跨模态的特征提取，便于实现本实施例的跨模态的图像比对；总之，本实施例的图像处理方法可以通过引入自监督损失进行训练，不需要任何额外的标注成本，提高了跨模态比对的准确性。

可选地，对于任一对象而言，所述自监督损失中同一对象的不同模态图像的对象分类数据之间的损失包括：即P₁与P₂的L2范数的平方，其中，P₁为所述对象的第一模态的图像的对象分类数据，P₂为所述对象的第二模态的图像的对象分类数据；所述图像的对象分类数据为所述图像属于不同对象类别的概率值所组成的多维向量。示例性地，所述同一对象的不同模态图像的对象分类数据之间的损失也可以表示为k为系数，例如0.5，也可以训练得到。

可选地，用于训练所述图像比对模型的损失函数还可以包括：交叉熵损失(cross-entropy loss)；所述交叉熵损失包括训练样本中各图像的对象标签数据与对象分类数据之间的损失。参照上述对交叉熵损失的描述，交叉熵损失可以计算预测的对象分类概率分布和真实的对象分类概率分布之间的差距，交叉熵损失越小，两个概率分布越接近，则基于图像特征的对象分类越接近真实分类，即实现了对图像比对模型中图像特征提取的约束，优化图像特征提取的性能，使得图像比对模型可以从图像中提取出能够标识该图像的本质性特征，可以进一步提高跨模态比对的准确性。

可选地，用于训练所述图像比对模型的损失函数还可以包括：三元组损失(triplet-loss)；所述三元组损失包括训练样本中三元图像组中各图像的图像特征之间的损失，所述三元图像组包括：参考图像、正样本图像和负样本图像，所述参考图像和所述正样本图像为同一对象的不同模态的两个图像，所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。

示例性地，三元图像组的三元组损失可以表示为：

其中，f_i ^a为参考图像的图像特征，f_i ^p为正样本图像的图像特征，f_i ⁿ为负样本图像的图像特征，该参考图像为A对象的第一模态的图像，该正样本图像为A对象的第二模态的图像，该负样本图像为B对象的第一模态的图像。

示例性地，整个训练样本的三元组损失可以表示为：

其中，N为三元图像组的数目；α为三元组损失的阈值，可以训练得到；同时限制了每个三元图像组的损失的最小值为0，避免引入负数的三元组损失导致训练退化。

因此，三元组损失可以拉近同一对象的不同模态的图像特征之间的距离，拉远不同对象的同一模态的图像特征之间的距离，优化了图像比对模型中图像特征提取的性能，使得图像比对模型对于不同对象的同一模态的图像更加敏感，而对同一对象的不同模态的图像不敏感，可以进一步提高跨模态比对的准确性。

在一个实施例中，参照图3所示，涉及图像比对模型的训练方式，具体可以包括：

S301，获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据。

其中，所述对象标签数据用于标识图像对应的对象，所述模态标签数据用于标识图像对应的模态。

示例性地，所述训练样本可以包括多个图像集合，每个图像集合包括：至少四个图像，所述四个图像分属两个不同对象，分属于同一对象的两个图像为不同模态的两个图像。例如，每个图像集合包括：A对象的第一模态的图像和第二模态的图像，以及B对象的第一模态的图像和第二模态的图像。相应地，计算机设备可以根据对象标签数据和模态标签数据，从训练样本中选取符合上述图像集合的至少四个图像组成一个图像集合。

S302，将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据。

可选地，所述图像比对模型可以包括：特征提取子模型和对象分类子模型；上述特征提取子模型和对象分类子模型可以为各种类型的机器学习模型，例如神经网络模型。其中，特征提取子模型的输出可以为对象分类子模型的输入。

相应地，所述S302具体可以包括：将所述训练样本中各图像输入所述特征提取子模型中，输出所述各图像的图像特征；将所述各图像的图像特征输入所述对象分类子模型中，输出所述各图像的对象分类数据。

示例性地，所述特征提取子模型可以包括轻量化MobileNetV2网络，所述对象分类子模型可以包括归一化指数softmax网络。其中MobileNetV2网络训练和比对时占用的资源均较少，简单可行，易于拓展；而softmax网络可以包括与MobileNetV2网络连接的全连接层和与该全连接层连接的softmax层，softmax层的输入为全连接层输出的等于类别数的logits函数(求交叉熵的函数)的结果，输出为经过softmax函数之后的归一化结果，因此可以便于计算交叉熵损失。

S303，根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，以及计算所述训练样本的损失函数的值。

在一种实施方式中，针对上述的多个图像集合，所述S303可以包括：针对所述多个图像集合，根据所述图像集合中四个图像的图像特征和对象分类数据，计算所述图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失；根据所述各图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失，计算所述训练样本的损失函数的值。

可以理解的是，自监督损失和交叉熵损失的计算可以参照上面的描述，三元组损失的计算可以如下：针对某个图像集合，图像集合中A对象的三元组损失，可以根据A对象的第一模态的图像的图像特征、A对象的第二模态的图像的图像特征、以及B对象的第一模态的图像的图像特征，计算得到；B对象的三元组损失，可以根据B对象的第一模态的图像的图像特征、B对象的第二模态的图像的图像特征、以及A对象的第一模态的图像的图像特征，计算得到。

在一种实施方式中，所述根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，可以包括：根据所述各图像的对象标签数据和模态标签数据，对所述各图像进行分组；根据分组的各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失。

具体地，计算机设备可以各图像的对象标签数据和模态标签数据，将所述各图像为分组多个三元图像组，使得每个三元图像组包括：参考图像、正样本图像和负样本图像，所述参考图像和所述正样本图像为同一对象的不同模态的两个图像，所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。可以理解的是，上述的各三元图像组中可以存在相交的图像，例如某个图像可以在某个三元图像组中为参考图像，在另一个三元图像组中为正样本图像，甚至负样本图像，总之，本实施例对此并不限制。

S304，根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

训练样本的损失函数的值可以等于训练样本的自监督损失、三元组损失、交叉熵损失的线性组合，线性组合的系数可以训练得到，也可以均为1；进而通过计算训练样本的损失函数的梯度，通过各种优化算法，例如最速下降法等，优化图像对比模型的参数，得到训练后的图像比对模型。

总之，本实施例的图像比对模型的训练方法可以训练出图像特征提取性能更佳的图像比对模型，提高跨模态比对的准确性。

可选地，所述底库图像和所述目标图像为两个不同模态的图像；所述训练样本中的各图像同样分属于所述两个不同模态。即底库图像和目标图像存在可能的两种模态，而非多种，相应地，训练样本中的各图像同样分属于所述两种模态，如此，可以使得图像比对模型更适应于所述两种模态，可以提高图像比对模型的训练效率和准确性，以及后续的比对效率和比对准确性。

例如，所述两个不同模态分别为红绿蓝RGB模态和红外IR模态。因为常规状态下，RGB图像可以表达更多的图像信息且为图像常用格式，因此多作为底库图像；受限于光照等因素，IR图像多作为抓拍图像，即待比对的目标图像。因此图像比对模型可以更适应于RGB-IR比对这一常用的跨模态比对场景。

具体地，参照图4所示，在训练时，针对上述的由A对象的RGB图像和B对象的RGB图像(分别对应图中RGB域中的左右两个底库图，此处底库图与比对时作为参考标准的底库图不同)、以及A对象的IR图像和B对象的IR图像(分别对应图中IR域中的左右两个抓拍图)组成的图像集合，将图像集合中的四个图像分别输入特征提取子模型(图中的神经网络)中，输出四个图像的图像特征；再将四个图像的图像特征输入对象分类子模型中，输出四个图像的对象分类数据。

然后，根据A对象的RGB图像的对象分类数据、A对象的IR图像的对象分类数据，可以计算得到A对象的自监督损失，同样地，可以计算得到B对象的自监督损失；根据A对象的RGB图像的对象分类数据和对象标签数据，可以计算得到A对象的RGB图像的交叉熵损失，同样地，可以得到A对象的IR图像的交叉熵损失、B对象的RGB图像的交叉熵损失、B对象的IR图像的交叉熵损失；根据A对象的RGB图像的图像特征、A对象的IR图像的图像特征、B对象的RGB图像的图像特征，可以计算得到A对象的三元组损失，同样地，根据B对象的IR图像的图像特征、B对象的RGB图像的图像特征、A对象的IR图像的图像特征，可以计算得到B对象的三元组损失；最后，可以对上述A对象的自监督损失、B对象的自监督损失、A对象的RGB图像的交叉熵损失、A对象的IR图像的交叉熵损失、B对象的RGB图像的交叉熵损失、B对象的IR图像的交叉熵损失、A对象的三元组损失、B对象的三元组损失求和得到所述图像集合的损失；相应地，对各图像集合的损失求和得到所述训练样本的损失函数的值。当然，上述A对象的三元组损失也可以根据A对象的IR图像的图像特征、A对象的RGB图像的图像特征、B对象的IR图像的图像特征计算得到，B对象的三元组损失亦是，本实施例对此并不限制。

可以理解的是，在图像比对模型训练完成后，所述图像比对模型可以仅包括：特征提取子模型，而可以不包括对象分类子模型。因此，图像比对模型在使用时可以仅包括训练好的特征提取子模型，降低图像比对模型占用的存储资源。

本申请的技术方案在一个大规模数据集上进行训练(2.5万人，人均300图)，并在一个500人，总共16万张图的benchmark(基准)上进行测试，相比baseline(基准线)百万一误识率下的通过率可以提升2％，这一结果充分说明了本申请的技术方案的先进性。

在一个实施例中，如图5所示，提供了一种图像比对模型的训练方法，可以包括以下步骤：

S501，获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据；

S502，将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据；

S503，根据所述各图像的图像特征和对象分类数据，计算所述训练样本的损失函数的值；所述损失函数包括自监督损失，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失；

S504，根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

上述图像比对模型的训练方法的具体描述可以参照上述图像处理方法的具体描述，这里不再赘述。

应该理解的是，虽然图2,3,5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2,3,5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种图像处理装置，包括：图像获取模块61、特征提取模块62和特征比对模块63，其中：

图像获取模块61，用于获取待比对的目标图像；

特征提取模块62，用于将所述目标图像输入预先训练的图像比对模型，输出所述目标图像的图像特征；所述图像比对模型是基于包括自监督损失在内的损失函数训练得到的，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失，所述对象分类数据是基于图像特征进行分类处理所得到的；

特征比对模块63，用于将所述目标图像的图像特征和底库图像组中底库图像的图像特征进行比对，得到比对结果；其中，所述底库图像组包括至少一个底库图像，所述底库图像和所述目标图像为不同模态的两个图像，所述底库图像的图像特征是所述图像比对模型从所述底库图像中提取的。

在一个实施例中，用于训练所述图像比对模型的损失函数还包括：交叉熵损失；所述交叉熵损失包括训练样本中各图像的对象标签数据与对象分类数据之间的损失。

在一个实施例中，用于训练所述图像比对模型的损失函数还包括：三元组损失；所述三元组损失包括训练样本中三元图像组中各图像的图像特征之间的损失，所述三元图像组包括：参考图像、正样本图像和负样本图像，所述参考图像和所述正样本图像为同一对象的不同模态的两个图像，所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。

在一个实施例中，所述图像处理装置还可以包括：模型训练模块，所述模型训练模块可以包括：

训练样本获取单元，用于获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据；

图像处理单元，用于将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据；

损失计算单元，用于根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，以及计算所述训练样本的损失函数的值；

模型训练单元，用于根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

在一个实施例中，所述损失计算单元具体可以用于根据所述各图像的对象标签数据和模态标签数据，对所述各图像进行分组；根据分组的各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失。

在一个实施例中，所述训练样本包括多个图像集合，每个图像集合包括：至少四个图像，所述四个图像分属两个不同对象，分属于同一对象的两个图像为不同模态的两个图像。

在一个实施例中，所述损失计算单元还用于针对所述多个图像集合，根据所述图像集合中四个图像的图像特征和对象分类数据，计算所述图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失；根据所述各图像集合中两个不同对象各自的自监督损失、两个不同对象各自的三元组损失、以及四个图像各自的交叉熵损失，计算所述训练样本的损失函数的值。

在一个实施例中，所述图像比对模型包括：特征提取子模型和对象分类子模型；所述图像处理单元具体可以用于将所述训练样本中各图像输入所述特征提取子模型中，输出所述各图像的图像特征；将所述各图像的图像特征输入所述对象分类子模型中，输出所述各图像的对象分类数据。

在一个实施例中，所述特征提取子模型和对象分类子模型均为神经网络模型。

在一个实施例中，所述特征提取子模型包括轻量化MobileNetV2网络，所述对象分类子模型包括归一化指数softmax网络。

在一个实施例中，对于任一对象而言，所述同一对象的不同模态图像的对象分类数据之间的损失包括：其中，P₁为所述对象的第一模态的图像的对象分类数据，P₂为所述对象的第二模态的图像的对象分类数据；所述图像的对象分类数据为所述图像属于不同对象类别的概率值所组成的多维向量。

在一个实施例中，所述底库图像和所述目标图像为两个不同模态的图像；所述训练样本中的各图像同样分属于所述两个不同模态。

在一个实施例中，所述两个不同模态分别为红绿蓝RGB模态和红外IR模态。

在一个实施例中，如图7所示，提供了一种图像比对模型的训练装置，包括：训练样本获取模块71、图像处理模块72、损失计算模块73和模型训练模块74，其中：

训练样本获取模块71，用于获取训练样本；所述训练样本包括多个对象的不同模态的图像，所述训练样本中各图像标注有对象标签数据和模态标签数据；

图像处理模块72，用于将所述训练样本中各图像输入初始的图像比对模型中，输出所述各图像的图像特征，以及基于图像特征进行分类处理所得到的各图像的对象分类数据；

损失计算模块73，用于根据所述各图像的图像特征和对象分类数据，计算所述训练样本的损失函数的值；所述损失函数包括自监督损失，所述自监督损失包括训练样本中同一对象的不同模态图像的对象分类数据之间的损失；

模型训练模块74，用于根据所述训练样本的损失函数的值，对所述初始的图像比对模型的参数进行调整，得到所述图像比对模型。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，关于图像比对模型的训练装置的具体限定可以参见上文中对于图像比对模型的训练方法的限定，在此不再赘述。上述图像处理装置和图像比对模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法和图像比对模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待比对的目标图像；

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待比对的目标图像；

参照图9所示，本实施提出了一种图像处理系统，包括拍摄装置91以及上述计算机设备92；所述拍摄装置91与所述计算机设备92连接，用于拍摄获取待识别对象的图像，并将所述待识别对象的图像发送给所述计算机设备92进行对象识别。

本领域技术人员可以理解，图8-9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待比对的目标图像；

2.根据权利要求1所述的方法，其特征在于，用于训练所述图像比对模型的损失函数还包括：交叉熵损失；所述交叉熵损失包括训练样本中各图像的对象标签数据与对象分类数据之间的损失。

3.根据权利要求2所述的方法，其特征在于，用于训练所述图像比对模型的损失函数还包括：三元组损失；所述三元组损失包括训练样本中三元图像组中各图像的图像特征之间的损失，所述三元图像组包括：参考图像、正样本图像和负样本图像，所述参考图像和所述正样本图像为同一对象的不同模态的两个图像，所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。

4.根据权利要求3所述的方法，其特征在于，所述图像比对模型的训练方式包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，包括：

6.根据权利要求4所述的方法，其特征在于，所述训练样本包括多个图像集合，每个图像集合包括：至少四个图像，所述四个图像分属两个不同对象，分属于同一对象的两个图像为不同模态的两个图像。

7.根据权利要求6所述的方法，其特征在于，所述根据所述各图像的图像特征和对象分类数据，计算所述训练样本的自监督损失、三元组损失、交叉熵损失，以及计算所述训练样本的损失函数的值，包括：

8.根据权利要求4所述的方法，其特征在于，所述图像比对模型包括：特征提取子模型和对象分类子模型；

9.根据权利要求8所述的方法，其特征在于，所述特征提取子模型和对象分类子模型均为神经网络模型。

10.根据权利要求9所述的方法，其特征在于，所述特征提取子模型包括轻量化MobileNetV2网络，所述对象分类子模型包括归一化指数softmax网络。

11.根据权利要求1所述的方法，其特征在于，对于任一对象而言，所述同一对象的不同模态图像的对象分类数据之间的损失包括：其中，P₁为所述对象的第一模态的图像的对象分类数据，P₂为所述对象的第二模态的图像的对象分类数据；所述图像的对象分类数据为所述图像属于不同对象类别的概率值所组成的多维向量。

12.根据权利要求1所述的方法，其特征在于，所述底库图像和所述目标图像为两个不同模态的图像；所述训练样本中的各图像同样分属于所述两个不同模态。

13.根据权利要求12所述的方法，其特征在于，所述两个不同模态分别为红绿蓝RGB模态和红外IR模态。

14.一种图像比对模型的训练方法，其特征在于，包括：

15.一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于获取待比对的目标图像；

16.一种图像比对模型的训练装置，其特征在于，包括：

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述方法的步骤。

18.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

19.一种图像处理系统，其特征在于，包括拍摄装置以及所述权利要求17所述的计算机设备；所述拍摄装置与所述计算机设备连接，用于拍摄获取待识别对象的图像，并将所述待识别对象的图像发送给所述计算机设备进行对象识别。