CN114581838B

CN114581838B - 图像处理方法、装置和云设备

Info

Publication number: CN114581838B
Application number: CN202210441002.9A
Authority: CN
Inventors: 豆朝鹏; 王帆; 李�昊; 陈威华
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-26
Anticipated expiration: 2042-04-26
Also published as: CN114581838A

Abstract

本申请提供一种图像处理方法、装置和云设备，该图像处理方法包括：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量，根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。本申请中通过图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

Description

图像处理方法、装置和云设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、装置和云设备。

背景技术

目标重识别，也可以称为目标再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的技术。

目前，目标重识别主要研究的是正常光照下的图像或者视频序列中是否包含特定目标。但在实际应用中，除了正常光照下的图像或者视频序列，还有其他模态的图像或者视频序列，例如，在光照条件较差的环境下，摄像头采集的图像为近红外图像，等等。在存在多种模态的图像或者视频序列情况下，采用目前的目标重识别技术进行特定目标的再识别会存在识别精度较差的问题，进而限制了目标再识别的应用。

发明内容

本申请的多个方面提供一种图像处理方法、装置和云设备，以实现不同模态下的行人图像的匹配。

本申请实施例第一方面提供一种图像处理方法，应用于服务器，包括：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。

本申请实施例第二方面提供一种图像处理方法，应用于终端设备，包括：获取摄像头采集的至少两种模态下的多个目标图像；向服务器发送多个目标图像，以供服务器采用图像识别模型确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；接收服务器发送的预测匹配结果；显示预测匹配结果。

本申请实施例第三方面提供一种图像处理装置，应用于服务器，包括：

接收模块，用于接收终端设备发送的至少两种模态下的多个目标图像；

处理模块，用于在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；

确定模块，用于根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；

发送模块，用于向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。

本申请实施例第四方面提供一种图像处理装置，应用于终端设备，包括：

获取模块，用于获取摄像头采集的至少两种模态下的多个目标图像；

发送模块，用于向服务器发送多个目标图像，以供服务器采用图像识别模型确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；

接收模块，用于接收服务器发送的预测匹配结果；

显示模块，用于显示预测匹配结果。

本申请实施例第五方面提供一种云设备，包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面或第二方面的图像处理方法。

本申请实施例安防系统中目标对象再识别的场景中，提供的图像处理方法包括：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。本申请实施例中通过图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种图像处理方法的步骤流程图；

图2为本申请示例性实施例提供的一种图像处理方法的示意图；

图3为本申请示例性实施例提供的一种图像识别模型训练过程的步骤流程图；

图4为本申请示例性实施例提供的另一种图像识别模型训练过程的步骤流程图；

图5为本申请示例性实施例提供的一种图像处理方法的步骤流程图；

图6为本申请示例性实施例提供的一种图像识别模型的结构框图；

图7为本申请示例性实施例提供的一种图像处理装置的结构框图；

图8为本申请示例性实施例提供的另一种图像处理装置的结构框图；

图9为本申请示例性实施例提供的一种云设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有安防系统中目标对象再识别的场景中，存在只研究正常光照下的图像或者视频序列中是否包含特定目标，忽略其他模态下的图像和视频序列导致对特定目标的再识别会存在识别精度较差的问题，本申请实施例提供的图像处理方法包括：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。本申请实施例中通过图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

在本实施例中，图像处理方法可以是借助云计算系统实现整体的图像处理方法。此外，执行图像处理方法的服务器可以为云服务器，以便借助于云上资源的优势运行各种神经网络模型；相对于云端，图像处理方法也可以应用于常规服务器或服务器阵列等服务端设备，在此不加以限定。

此外，本申请实施例提供的图像处理方法应用于安防系统中目标对象再识别的场景中，其中，例如，行人在路上行走时，摄像头会拍摄到该行人的视频序列，在光线较好的时候，该视频序列中的图像为RGB图像（可见光图像），在光线较差的时候，视频序列是摄像头采用红外探测器采集的红外图像。其中，由于红外图像存在分辨率差、对比度低、信噪比低、视觉效果模糊的问题，因此，采用人眼很难将红外图像中的行人和RGB图像中的行人进行匹配，进而无法对行人的行走路线进行很好的识别。基于该场景，本申请实施例训练的图像识别模型能够对具有同一行人的RGB图像和红外图像进行匹配，此外，在具有同一行人的RGB图像和红外图像均为多个时，能够融合多个RGB图像的特征以及融合多个红外图像的特征，实现更精确的匹配。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种图像处理方法的步骤流程图。如图1所示该图像处理方法，具体包括以下步骤：

S101，接收终端设备发送的至少两种模态下的多个目标图像。

参照图2，终端设备21向服务器22发送至少两种模态下的多个目标图像，例如，至少两种模态包括：第一模态和第二模态，第一模态为RGB模态，第二模态为红外模态。其中，每个模态下具有至少一个目标图像，如图2中第一模态下的目标图像如目标图像A1至目标图像An是摄像头在光线充足情况下采集到的。第二模态下的目标图像如目标图像B1至目标图像Bm是摄像头在光线不足情况下采集到的。其中，n和m均为大于或等于1的整数。

S102，在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量。

其中，在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量包括：将对应模态的目标图像输入图像识别模型的第一卷积网络层进行特征提取，得到第一目标特征图像，其中，模态与第一卷积网络层一一对应；将第一目标特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二目标特征图像，第二卷积网络层对应至少两种模态的所有模态；将第二目标特征图像输入对应的图像识别模型的池化层进行池化处理，得到对应的目标特征向量，其中，模态和池化层一一对应。

具体地，模态与第一卷积网络层一一对应。在图2中，第一卷积网络层A与第一模态对应，对第一模态的目标图像（如目标图像A1至目标图像An）进行特征提取，第一卷积网络层B与第二模态对应，对第二模态的目标图像（如目标图像B1至目标图像Bm）进行特征提取。

其中，参照图2，第一目标特征图像A包括：第一目标特征图像A1、第一目标特征图像A2至第一目标特征图像An，第一目标特征图像An是目标图像An的特征图像。第一目标特征图像B包括：第一目标特征图像B1、第一目标特征图像B2至第一目标特征图像Bn，第一目标特征图像Bm是目标图像Bm的特征图像。

参照图2，第二目标特征图像A包括：第二目标特征图像A1、第二目标特征图像A2至第二目标特征图像An，第二目标特征图像An是第一目标特征图像An的特征图像。同样的，第二目标特征图像B包括：第二目标特征图像B1、第二目标特征图像B2至第二目标特征图像Bm。第二目标特征图像Bm是第一目标特征图像Bm的特征图像。

其中，第二卷积网络层对应至少两种模态的所有模态。参照图2，不同模态的目标图像的第一目标特征图像均采用第二卷积网络层进行特征提取。

参照图2，目标特征向量A包括：目标特征向量A1、目标特征向量A2至目标特征向量An，目标特征向量An是目标图像An的特征向量。同样的，目标特征向量B包括：目标特征向量B1、目标特征向量B2至目标特征向量Bm，目标特征向量Bm是目标图像Bm的特征向量。

在本申请实施例中，模态和池化层一一对应；参照图2，第一模态对应池化层A，第二模态对应池化层B。

在本申请实施例中，第一卷积网络层和第二卷积网络层均为CNN（一种卷积神经网络），可以为一层或者多层。池化层采用的技术是GAP（Global Average pooling，全局均值池化）。

S103，根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果。

其中，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象。

在本申请实施例中，可以计算不同模态下的目标特征向量的欧式距离，若欧式距离小于距离阈值，则确定对应的两个目标图像包含相同的目标对象。

例如，确定目标特征向量A1分别与目标特征向量B1、目标特征向量B2至目标特征向量Bm的匹配结果，如确定目标特征向量A1和目标特征向量B2匹配，则确定目标图像A1和目标图像B2包含相同的目标对象。

S104，向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。

一种可选实施例中，可以在图像识别模型中输入一个第一模态的目标图像和多个第二模态的目标图像，图像识别模型对第一模态的目标图像进行特征提取，得到目标特征向量A1，图像识别模型分别对多个第二模态的目标图像进行特征提取，对应得到目标特征向量B1、目标特征向量B2至目标特征向量Bm。然后采用欧式距离，确定目标特征向量A1和目标特征向量B1、目标特征向量B2至目标特征向量Bm的匹配程度，如确定目标特征向量A1和目标特征向量B2匹配，则确定第一模态的目标图像和目标特征向量B2对应的第二模态的目标图像中的目标对象相同。

一种可选实施例中，还可以输入多个第一模态的目标图像，图像识别模型对多个第一模态的目标图像分别进行特征提取，得到目标特征向量A1、目标特征向量A2至目标特征向量An，然后将目标特征向量A1、目标特征向量A2至目标特征向量An和目标特征向量B1、目标特征向量B2至目标特征向量Bm两两进行匹配，如输出的预测匹配结果为目标特征向量A1对应的目标图像和目标特征向量B2对应的目标图像中的目标对象相同，目标特征向量A2对应的目标图像和目标特征向量B3对应的目标图像中的目标对象相同。

一种可选实施例中，图像识别模型还可以识别，目标特征向量A1、目标特征向量A2至目标特征向量An对应的一组目标图像是否包含同一目标对象，和目标特征向量B1、目标特征向量B2至目标特征向量Bm对应的一组目标图像是否包含同一目标对象，进而输出结果可以是第一模态的的一组目标图像和第二模态的一组目标图像是否包含相同的目标对象。

本申请实施例中，图像识别模型能够对不同模态的图像进行识别，使具有相同目标对象的图像可以匹配。

进一步地，还包括：接收终端设备发送的目标匹配结果，目标匹配结果是运维人员根据预测匹配结果输入终端设备的；根据目标匹配结果和预测匹配结果，调整图像识别模型。

其中，若预测匹配结果是确定目标图像A1和目标图像B2匹配，但是经过运维人员确定后，目标图像A1和目标图像B2中并不存在相同的目标对象，则可以将目标图像A1和目标图像B2不匹配的目标匹配结果返回给服务器，服务器可以根据目标匹配结果和预测匹配结果的交叉损失值，调整图像识别模型，达到优化图像识别模型。

申请实施例提供的图像处理方法包括：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。本申请实施例中通过图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

图3为本申请示例性实施例提供的一种图像识别模型的训练过程的步骤流程图。如图3所示，具体包括以下步骤：

S301，获取训练样本。

其中，训练样本包括至少两种模态的样本图像，包含相同的样本对象的样本图像的标识信息相同。

在本申请实施例中，至少两种模态包括第一模态和第二模态，其中，第一模态如RGB图像，第二模态如红外图像。则样本图像包括RGB的样本图像和红外的样本图像，参照图5，例如，样本图像A1至样本图像Ak为第一模态的样本图像，样本图像B1至样本图像Bk为第二模态的图像，k为大于1的整数。

进一步地，样本对象可以是行人、动物或者物体中的任意一项。例如，若k为5,样本图像A1、样本图像A2和样本图像A3对应的样本对象均为行人X，则样本图像A1、样本图像A2和样本图像A3的标识信息可以设置为1，样本图像A4和样本图像A5对应的样本对象均为行人2，则样本图像A4和样本图像A5的标识信息可以设置为2。若样本图像B1和样本图像B2对应的样本对象均为行人X，则样本图像B1、样本图像B2的标识信息可以设置为1，若样本图像B3、样本图像B4和样本图像B5对应的样本对象均为行人Y，则样本图像B3、样本图像B4和样本图像B5的标识信息可以设置为2。

S302，在至少两种模态中的每种模态下，将具有相同标识信息的至少一个样本图像分别输入图像识别模型进行特征提取，得到至少一个样本图像的融合特征。

例如，在第一模态下，将具有相同标识信息1的至少一个样本图像如样本图像A1、样本图像A2和样本图像A3，输入图像识别模型后，得到融合特征A1，将具有相同标识信息2的至少一个样本图像如样本图像A4和样本图像A5输入图像识别模型后，得到融合特征A2。

再例如，在第二模态下，将具有相同标识信息2的至少一个样本图像如样本图像B1和样本图像B2，输入图像识别模型后，得到融合特征B1，将具有相同标识信息2的至少一个样本图像如样本图像B3、样本图像B4和样本图像B5输入图像识别模型后，得到融合特征B2。

在本申请实施例中，融合特征是对同一模态、具有相同样本对象的样本图像的特征进行融合，进而能够更准确的表示该样本对象的特征。

S303，根据至少两种模态下的融合特征，调整图像识别模型的模型参数。

示例性地，若第一模态下的样本图像和第二模态下的样本图像的标识信息相同，即包含相同的样本对象。则需要图像识别模型得到的第一模态下的融合特征和第二模态下的融合特征之间的差别较小，如交叉损失值较小，若第一模态下的融合特征和第二模态下的融合特征之间的交叉损失值大于或等于损失值阈值，则可以采用该交叉损失值调整图像识别模型的模型参数，直到得到的至少两种模态下的融合特征的交叉损失值小于损失值阈值。

以上只示例性根据至少两种模态下的融合特征，调整图像识别模型的模型参数的一种方式，在本申请实施例中还包括多种方式根据至少两种模态下的融合特征，调整图像识别模型的模型参数。

在本申请实施例中，训练图像识别模型的目的是使图像识别模型能够识别出不同模态的图像是否包含相同的对象。具体通过采用不同模态的样本图像训练图像识别模型，训练得到图像识别模型能够实现对不同模态的图像的识别，并且，通过融合特征能够表示具有相同目标对象的多个图像，进而提高对图像中的目标对象的识别精度。

在本申请实施例中，提供了另一种图像识别模型的训练过程，如图4所示，具体包括以下步骤：

S401，获取训练样本。

S402，在至少两种模态中的每种模态下，将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量。

具体地，将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量，包括：将样本图像输入对应的图像识别模型的第一卷积网络层进行特征提取，得到第一特征图像；将第一特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二特征图像，第二卷积网络层对应至少两种模态的每种模态；将第二特征图像输入对应的图像识别模型的池化层，得到对应的特征向量。

其中，参照图5，第一特征图像A包括：第一特征图像A1、第一特征图像A2至第一特征图像Ak。第二特征图像A包括：第二特征图像A1、第二特征图像A2至第二特征图像Ak。第一特征向量A包括：第一特征向量A1、第一特征向量A2至第一特征向量Ak。融合特征A包括：融合特征A1至融合特征An，n为大于或等于1的整数。同样的，第一特征图像B包括：第一特征图像B1、第一特征图像B2至第一特征图像Bk。第二特征图像B包括：第二特征图像B1、第二特征图像B2至第二特征图像Bk。第一特征向量B包括：第一特征向量B1、第一特征向量B2至第一特征向量Bk。融合特征B包括：融合特征B1至融合特征Bn，n为大于或等于1的整数。

进一步地，图像识别模型包括：多个第一卷积网络层、一个第二卷积网络层和多个池化层。其中，第一卷积网络层和模态一一对应，第二卷积层和各个模态均对应，池化层和模态一一对应。例如，在图5中第一卷积网络层A对应第一模态的样本图像（如样本图像A1至样本图像Ak）进行特征提取，第一卷积网络层B对第二模态的样本图像（如样本图像B1至样本图像Bk）进行特征提取，第二卷积网络层对第一模态对应的第一特征图像A进行特征提取，也对第二模态对应的第一特征图像B进行特征提取，池化层A对第一模态对应的第二特征图像A进行池化处理，池化层B对第二模态对应的第二特征图像B进行池化处理。

S403，根据至少一个特征向量，确定融合特征。

其中，融合特征采用以下公式确定，

上式中，

为融合特征，m表示模态，如，m为A时，表示第一模态，m为B时，表示第二模态，i表示标识信息，如1或2。L表示属于对应模态下，对应标识信息的样本图像的数量。j 表示样本图像取值的个数，取值1，2，…，L。

对应的第一特征向量。

例如，第一模态A下的样本图像A1、样本图像A2和样本图像A3的标识信息相同，均为1，样本图像A1经过图像识别模型进行特征提取后，得到第一特征向量A1为

。样本图像A2经过图像识别模型进行特征提取后，得到第一特征向量A2为

。样本图像A3经过图像识别模型进行特征提取后，得到第一特征向量A3为

。则融合特征A1为

。此外，第一模态A下的样本图像A4和样本图像A5的标识信息相同，均为2，样本图像A4经过图像识别模型进行特征提取后，得到第一特征向量A4为

。样本图像A5经过图像识别模型进行特征提取后，得到第一特征向量A5为

。则融合特征A2为

。

同样地，第二模态B下的样本图像B1和样本图像B2的标识信息相同，均为2，样本图像B1经过图像识别模型进行特征提取后，得到第一特征向量B1为

。样本图像B2经过图像识别模型进行特征提取后，得到第一特征向量B2为

。则融合特征B1为

。此外，第二模态B下的样本图像B3、样本图像B4和样本图像B5的标识信息相同，均为2，样本图像B3经过图像识别模型进行特征提取后，得到第一特征向量B3 为

。样本图像B4经过图像识别模型进行特征提取后，得到第一特征向量B4为

。样本图像B5经过图像识别模型进行特征提取后，得到第一特征向量B5为

则融合特征B2 为

。

在本申请实施例中，融合特征是当期图像识别模型的训练过程中得到的。其中，当L趋于无穷大时，融合特征是对一类样本图像（同一模态并且具有相同样本对象的多个样本图像）很好的表征，但是在图像识别模型的训练过程中，由于样本图像的数量L是有限的，所以在具有噪声样本时，会影响融合特征对一类样本图像的表征效果。

S404，在至少两种模态中的每种模态下，根据特征向量的数量和融合特征，迭代更新存储特征。

本申请实施例提供一种存储特征，该存储特征存储在存储器中，存储器中存储特征根据特征向量的数量和融合特征进行更新，该存储特征能够降低噪声样本对融合特征的影响。其中，存储特征的确定方式如下公式。

上式中，t为存储器中存储特征更新的次数，取1至L的整数，其中，L为对应模态、对应标识信息的样本图像的数量。其中，

取大于0且小于1的数值，例如取0.9，当样本图像的数量越多，存储特征和融合特征越接近，表示噪声样本对融合特征的影响越小。

例如，对于融合特征A1为

，对应存储器中初始的存储特征

为0，融合特征A1 为

，其中

，

。其中，迭代更新后存储特征为

，如

。对应上述，则融合特征A2（

对应的迭代更新后存储特征为

。融合特征 B1（

对应的迭代更新后存储特征为

。融合特征B2（

对应的迭代更新后存储特征为

。

其中，随着样本图像的增多，根据大数定理，存储特征是对各个样本图像的融合特征的更好的近似，为一个归一化后的向量。

S405，采用第一损失函数，确定融合特征相对存储特征的第一损失值。

其中，第一损失函数如下：

其中，

是第一损失值，可以是

，也可以是

。

是和i不同的标识信息，例如，i为1时，

为2。T为温度系统，为一固定的常数，可以取2或者3。

为校正系统，为一固定常数。其中，第一损失值是实现模态内对齐，例如，对第一模态A实现模态内对齐，对第二模态B实现模态内对齐。

一种可选实施例中，当具有多个标识信息时，也可以采用如下公式调整图像识别模型的模型参数：

其中，

表示标识信息为i时的第一损失值，P为标识信息的个数，

表示多个标识信息对应的第一损失值的和，在本申请实施例中也可以采用

调整图像识别模型的模型参数。

一种可选实施例中，也可以采用如下公式调整图像识别模型的模型参数。

其中，

为

的和，实现最终的模态内对齐。

S406，若第一损失值大于第一损失值阈值，根据第一损失值调整图像识别模型的模型参数。

在本申请实施例中，第一损失值调整图像识别模型的模型参数的目的是使属于同一模态，同一标识信息的图像特征可以彼此靠近，属于同一模态的不同标识信息的特征彼此远离。

S407，采用第二损失函数，确定第一模态下样本图像的特征向量相对第二模态下样本图像的存储特征的第二损失值。

其中，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态。

其中，第二损失函数如下：

上式中，若第一模态A，第二模态B，则第二损失值为

。其中，也可以计算第二损失值

。其中，

为一个第一特征向量，在本申请实施例中，可以基于第一模态下的每个第一特征向量，均进行第二损失值的计算，则得到L个第二损失值，可以采用多个第二损失值，调整图像识别模型的模型参数。

其中，

的和，实现最终的模态间对齐。

S408，若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息相同，且第二损失值大于第二损失值阈值，根据第二损失值调整图像识别模型的模型参数。

其中，标识信息相同时，采用第二损失值调整图像识别模型的模型参数，能够实现不同模态下，同一标识信息的图像特征彼此靠近。

S409，若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息不同，且第二损失值小于第三损失值阈值，根据第二损失值调整图像识别模型的模型参数。

其中，标识信息不同时，采用第二损失值调整图像识别模型的模型参数，能够实现不同模态下，不同标识信息的图像特征彼此远离。

在本申请实施例中，采用第二损失值调整图像识别模型的模型参数，能够实现模态间对齐。

S410，若至少两种模态下样本图像的标识信息相同，确定第一模态下样本图像的融合特征仿射变换至至少一个第一图像的融合特征的第一仿射矩阵。

其中，第一仿射矩阵如下：

上式中，

为第一仿射矩阵，

为第一模态A，标识信息为1的融合特征A1，至少一个第一图像可以是图5中的样本图像B3、样本图像B4和样本图像B5，

为第二模态B，标识信息为2的融合特征B2。其中，当

取1时，

为第二模态B，标识信息为1的融合特征B1。

上式中，是确定第一模态A下，标识信息1对应的样本图像的融合特征A1仿射变换至第二模态B下，标识信息2对应的样本图像的融合特征B2的仿射矩阵为第一仿射矩阵。此外，也可以计算确定第一模态A下，标识信息2对应的样本图像的融合特征A2仿射变换至第二模态B下，标识信息1对应的样本图像的融合特征B1的仿射矩阵为第一仿射矩阵。其中，

表示与第二模态B下标识信息不同的标识信息。

S411，确定至少一个第二图像的融合特征仿射变换至第二模态下样本图像的融合特征的第二仿射矩阵。

其中，第二放射矩阵如下：

式中，

为第二仿射矩阵，

为第二模态B，标识信息为1的融合特征B1，至少一个第二图像可以是图5中的样本图像B1和样本图像B2，

为第二模态B，标识信息为1的融合特征B1。其中，当

取2时，

为第二模态B，标识信息为2的融合特征B2。

上式中，是确定第二模态B下，标识信息2对应的样本图像的融合特征B2仿射变换至第一模态A下，标识信息1对应的样本图像的融合特征A1的仿射矩阵为第二仿射矩阵。此外，也可以计算确定第二模态B下，标识信息1对应的样本图像的融合特征B1仿射变换至第一模态A下，标识信息2对应的样本图像的融合特征A2的仿射矩阵为第二仿射矩阵。其中，

表示与第一模态B下标识信息不同的标识信息。

S412，采用第三损失函数，确定第一仿射矩阵和第二仿射矩阵的第三损失值。

其中，第三损失函数如下：

=

丨

-I丨

其中，上式中

第三损失值，P为单位矩阵I对应的秩。

S413，若第三损失值大于第四损失值阈值，根据第三损失值调整图像识别模型的模型参数。

在本申请实施例中，仿射矩阵是一个状态转移矩阵，其中，第一仿射矩阵是从第一模态A到第二模态B的状态转移，第二仿射矩阵是从第二模态B到第一模态A的转移，第三损失函数表示在一个状态经过第一仿射矩阵和第二仿射矩阵的转移后，应该回归到自己本身，因此，当第三损失值大于第四损失值阈值，调整图像识别模型的模型参数，使第三损失值小于第四损失值阈值。

S414，采用第四损失函数，确定第一模态下样本图像的融合特征和第二模态下样本图像的融合特征的第四损失值。

其中，第四损失函数可以是交叉熵损失函数。

S415，若至少两种模态下样本图像的标识信息相同，且第四损失值大于第五损失值阈值，根据第四损失值调整图像识别模型的模型参数。

在至少两种模态下样本图像的标识信息相同时，则期望第一模态下样本图像的融合特征和第二模态下样本图像的融合特征更接近，因此在第四损失值大于第五损失值阈值调整图像识别模型的模型参数。

S416，若至少两种模态下样本图像的标识信息不同，且第四损失值小于第六损失值阈值，根据第四损失值调整图像识别模型的模型参数。

在至少两种模态下样本图像的标识信息不同时，则期望第一模态下样本图像的融合特征和第二模态下样本图像的融合特征更不同，因此在第四损失值小于第六损失值阈值调整图像识别模型的模型参数。

一种可选实施例中，还可以通过交叉熵损失函数，计算第一特征向量A和第二特征向量B的损失值，若对应的样本图像A和样本图像B包含相同的样本对象，则期望第一特征向量A和第二特征向量B更接近，若对应的样本图像A和样本图像B包含不同的样本对象，则期望第一特征向量A和第二特征向量B更不同。

在本申请实施例中，通过多种损失值对图像识别模型的模型参数调整，能够减小不同模态间差异性，训练得到的图像识别模型收敛可靠，具有很好的鲁棒性。此外，采用第一损失值和第二损失值进行训练过程的一阶监督，采用第三损失值进行训练过程的二阶解读，给图像识别模型的训练过程提供了更丰富的监督，提高了图像识别模型的识别性能。

在本申请实施例中，参照图6，提供一种图像处理方法，应用于终端设备，具体包括以下步骤：

S601，获取摄像头采集的至少两种模态下的多个目标图像。

S602，向服务器发送多个目标图像，以供服务器采用图像识别模型确定不同模态下的目标图像的预测匹配结果。

S603，接收服务器发送的预测匹配结果。

S604，显示预测匹配结果。

其中，还包括：获取运维人员根据预测匹配结果输入的目标匹配结果；向服务器发送目标匹配结果，以供服务器根据目标匹配结果和预测匹配结果，调整图像识别模型。

在本申请实施例中，当运维人员确定服务器发送的预测匹配结果不准确时，可以发送目标匹配结果，进而进行图像识别模型的优化。

进一步地，在本申请实施例中，终端设备接收到的预测匹配结果如第一模态的目标图像X和第二模态的目标图像Y保护相同的目标对象，如相同的行人。其中，若目标图像X和目标图像Y中均包括多个行人时，终端设备可以结合人像匹配技术，匹配目标图像X和目标图像Y中相同的行人，进而显示给运维人员，使运维人员清楚的获知匹配的两个目标图像中具体相同的行人。

本申请实施例提供的终端设备，能够匹配不同模态下的目标图像，在安防场景下，使运维人员能够准确确定行人的行动轨迹。

在本申请实施例中，参照图7，除了提供图像处理方法之外，还提供一种图像处理装置70，该图像处理装置70包括：

接收模块71，用于接收终端设备发送的至少两种模态下的多个目标图像；

处理模块72，用于在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；

确定模块73，用于根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；

发送模块74，用于向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。

一种可选实施例中，处理模块72具体用于：将对应模态的目标图像输入图像识别模型的第一卷积网络层进行特征提取，得到第一目标特征图像，其中，模态与第一卷积网络层一一对应；将第一目标特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二目标特征图像，第二卷积网络层对应至少两种模态的所有模态；将第二目标特征图像输入对应的图像识别模型的池化层进行池化处理，得到对应的目标特征向量，其中，模态和池化层一一对应。

一种可选实施例中，还包括以下模块（未示出），用于训练上述图像识别模型，具体包括：

获取模块，用于获取训练样本，训练样本包括至少两种模态的样本图像，包含相同的样本对象的样本图像的标识信息相同；

处理模块，用于在至少两种模态中的每种模态下，将具有相同标识信息的至少一个样本图像分别输入图像识别模型进行特征提取，得到至少一个样本图像的融合特征；

调整模块，用于根据至少两种模态下的融合特征，调整图像识别模型的模型参数。

在一可选实施例中，处理模块具体用于，将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量，特征向量和样本图像一一对应；根据至少一个特征向量，确定融合特征。

在一可选实施例中，调整模块具体用于，在至少两种模态中的每种模态下，根据特征向量的数量和融合特征，迭代更新存储特征，存储特征用于降低噪声样本的影响；采用第一损失函数，确定融合特征相对存储特征的第一损失值；若第一损失值大于第一损失值阈值，根据第一损失值调整图像识别模型的模型参数。

在一可选实施例中，调整模块具体用于，采用第二损失函数，确定第一模态下样本图像的特征向量相对第二模态下样本图像的存储特征的第二损失值，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息相同，且第二损失值大于第二损失值阈值，根据第二损失值调整图像识别模型的模型参数；若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息不同，且第二损失值小于第三损失值阈值，根据第二损失值调整图像识别模型的模型参数。

在一可选实施例中，调整模块具体用于，若至少两种模态下样本图像的标识信息相同，确定第一模态下样本图像的融合特征仿射变换至至少一个第一图像的融合特征的第一仿射矩阵，第一图像为第二模态的图像，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；确定至少一个第二图像的融合特征仿射变换至第二模态下样本图像的融合特征的第二仿射矩阵，第二图像为第一模态的图像，第二图像的标识信息与第一图像的标识信息相同；采用第三损失函数，确定第一仿射矩阵和第二仿射矩阵的第三损失值；若第三损失值大于第四损失值阈值，根据第三损失值调整图像识别模型的模型参数。

在一可选实施例中，调整模块具体用于，采用第四损失函数，确定第一模态下样本图像的融合特征和第二模态下样本图像的融合特征的第四损失值，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；若至少两种模态下样本图像的标识信息相同，且第四损失值大于第五损失值阈值，根据第四损失值调整图像识别模型的模型参数；若至少两种模态下样本图像的标识信息不同，且第四损失值小于第六损失值阈值，根据第四损失值调整图像识别模型的模型参数。

在一可选实施例中，处理模块在将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量时，具体用于：将样本图像输入对应的图像识别模型的第一卷积网络层进行特征提取，得到第一特征图像；将第一特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二特征图像，第二卷积网络层对应至少两种模态的每种模态；将第二特征图像输入对应的图像识别模型的池化层，得到对应的特征向量。

在一可选实施例中，图像处理装置70还用于：接收终端设备发送的目标匹配结果，目标匹配结果是运维人员根据预测匹配结果输入终端设备的；根据目标匹配结果和预测匹配结果，调整图像识别模型。

本申请实施例提供的图像处理装置，采用图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

在本申请实施例中，参照图8，还提供一种图像处理装置80，该图像处理装置80包括：

获取模块81，用于获取摄像头采集的至少两种模态下的多个目标图像；

发送模块82，用于向服务器发送多个目标图像，以供服务器采用图像识别模型确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；

接收模块83，用于接收服务器发送的预测匹配结果；

显示模块84，用于显示预测匹配结果。

在一可选实施例中，图像处理装置80还用于：获取运维人员根据预测匹配结果输入的目标匹配结果；向服务器发送目标匹配结果，以供服务器根据目标匹配结果和预测匹配结果，调整图像识别模型。

本申请实施例提供的图像处理装置，能够匹配不同模态下的目标图像，在安防场景下，使运维人员能够准确确定行人的行动轨迹。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图9为本申请示例性实施例提供的一种云设备90的结构示意图。该云设备90用于运行上述图像处理方法。如图7所示，该云设备包括：存储器94和处理器95。

存储器94，用于存储计算机程序，并可被配置为存储其它各种信息以支持在云设备上的操作。该存储器94可以是对象存储(Object Storage Service，OSS)。

存储器94可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器95，与存储器94耦合，用于执行存储器94中的计算机程序，以用于：接收终端设备发送的至少两种模态下的多个目标图像；在至少两种模态中的每种模态下，将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；根据至少两种模态下的目标特征向量，确定不同模态下的目标图像的预测匹配结果，预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；向终端设备发送预测匹配结果，以使终端设备向运维人员显示预测匹配结果。

进一步可选地，处理器95在将对应模态的目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量时，具体用于：将对应模态的目标图像输入图像识别模型的第一卷积网络层进行特征提取，得到第一目标特征图像，其中，模态与第一卷积网络层一一对应；将第一目标特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二目标特征图像，第二卷积网络层对应至少两种模态的所有模态；将第二目标特征图像输入对应的图像识别模型的池化层进行池化处理，得到对应的目标特征向量，其中，模态和池化层一一对应。

进一步可选地，处理器95还用于获取训练样本，训练样本包括至少两种模态的样本图像，包含相同的样本对象的样本图像的标识信息相同；在至少两种模态中的每种模态下，将具有相同标识信息的至少一个样本图像分别输入图像识别模型进行特征提取，得到至少一个样本图像的融合特征；根据至少两种模态下的融合特征，调整图像识别模型的模型参数。

进一步可选地，处理器95在至少两种模态中的每种模态下，将具有相同标识信息的至少一个样本图像分别输入图像识别模型进行特征提取，得到至少一个样本图像的融合特征时，具体用于：将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量，特征向量和样本图像一一对应；根据至少一个特征向量，确定融合特征。

进一步可选地，处理器95在根据至少两种模态下的融合特征，调整图像识别模型的模型参数时，具体用于：在至少两种模态中的每种模态下，根据特征向量的数量和融合特征，迭代更新存储特征，存储特征用于降低噪声样本的影响；采用第一损失函数，确定融合特征相对存储特征的第一损失值；若第一损失值大于第一损失值阈值，根据第一损失值调整图像识别模型的模型参数。

进一步可选地，处理器95在根据至少两种模态下的融合特征，调整图像识别模型的模型参数时，具体用于：采用第二损失函数，确定第一模态下样本图像的特征向量相对第二模态下样本图像的存储特征的第二损失值，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息相同，且第二损失值大于第二损失值阈值，根据第二损失值调整图像识别模型的模型参数；若第一模态下样本图像的标识信息和第二模态下样本图像的标识信息不同，且第二损失值小于第三损失值阈值，根据第二损失值调整图像识别模型的模型参数。

进一步可选地，处理器95在根据至少两种模态下的融合特征，调整图像识别模型的模型参数时，具体用于：若至少两种模态下样本图像的标识信息相同，确定第一模态下样本图像的融合特征仿射变换至至少一个第一图像的融合特征的第一仿射矩阵，第一图像为第二模态的图像，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；确定至少一个第二图像的融合特征仿射变换至第二模态下样本图像的融合特征的第二仿射矩阵，第二图像为第一模态的图像，第二图像的标识信息与第一图像的标识信息相同；采用第三损失函数，确定第一仿射矩阵和第二仿射矩阵的第三损失值；若第三损失值大于第四损失值阈值，根据第三损失值调整图像识别模型的模型参数。

在一可选实施例中，处理器95在根据至少两种模态下的融合特征，调整图像识别模型的模型参数时，具体用于：采用第四损失函数，确定第一模态下样本图像的融合特征和第二模态下样本图像的融合特征的第四损失值，第一模态为至少两种模态中的一种模态，第二模态为至少两种模态中的另一种模态；若至少两种模态下样本图像的标识信息相同，且第四损失值大于第五损失值阈值，根据第四损失值调整图像识别模型的模型参数；若至少两种模态下样本图像的标识信息不同，且第四损失值小于第六损失值阈值，根据第四损失值调整图像识别模型的模型参数。

在一可选实施例中，处理器95在将具有相同标识信息的样本图像分别输入图像识别模型进行特征提取，得到至少一个特征向量时，具体用于：将样本图像输入对应的图像识别模型的第一卷积网络层进行特征提取，得到第一特征图像；将第一特征图像输入图像识别模型的第二卷积网络层进行特征提取，得到第二特征图像，第二卷积网络层对应至少两种模态的每种模态；将第二特征图像输入对应的图像识别模型的池化层，得到对应的特征向量。

在一可选实施例中，处理器95还用于：接收终端设备发送的目标匹配结果，目标匹配结果是运维人员根据预测匹配结果输入终端设备的；根据目标匹配结果和预测匹配结果，调整图像识别模型。

一种可选实施例中，处理器95，与存储器94耦合，用于执行存储器94中的计算机程序，以用于：获取第一模态的至少一个第一图像和第二模态的至少一个第二图像；将至少一个第一图像和至少一个第二图像输入图像识别模型进行特征匹配，得到匹配结果，匹配结果用于匹配包含相同的目标对象的第一图像和第二图像，图像识别模型由第一方面的图像处理方法训练得到。

一种可选实施例中，处理器95还用于，获取运维人员根据预测匹配结果输入的目标匹配结果；向服务器发送目标匹配结果，以供服务器根据目标匹配结果和预测匹配结果，调整图像识别模型。

进一步地，如图9，该云设备还包括：防火墙91、负载均衡器92、通信组件96、电源组件93等其它组件。图9中仅示意性给出部分组件，并不意味着云设备只包括图9所示组件。

本申请实施例提供的云设备，采用图像识别模型能够实现对不同模态的图像的识别，以及提高对图像中的目标对象的识别精度。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图1、图3、图4或图6所示方法中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图1、图3、图4或图6所示方法中的步骤。

上述图9的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外信息协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图9的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、信息结构、程序的模块或其他信息。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的文本。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的信息信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像处理方法，其特征在于，应用于服务器，所述图像处理方法，包括：

接收终端设备发送的至少两种模态下的多个目标图像；

在所述至少两种模态中的每种模态下，将对应模态的多个目标图像输入图像识别模型进行特征提取，得到对应的目标特征向量；

根据至少两种模态下的目标特征向量，确定不同模态下的多个目标图像的预测匹配结果，所述预测匹配结果用于表示不同模态的多个目标图像是否包含相同的目标对象；

向所述终端设备发送所述预测匹配结果，以使所述终端设备向运维人员显示所述预测匹配结果;

其中，所述图像识别模型采用以下方式训练得到：

获取训练样本，所述训练样本包括至少两种模态的样本图像，包含相同的样本对象的样本图像的标识信息相同；

在所述至少两种模态中的每种模态下，将具有相同标识信息的多个样本图像分别输入图像识别模型进行特征提取，得到所述多个样本图像的融合特征；

根据所述至少两种模态下的融合特征，调整所述图像识别模型的模型参数。

2.根据权利要求1所述的图像处理方法，其特征在于，所述将对应模态的多个目标图像输入图像识别模型进行特征提取，得到对应的目标特征向量，包括：

将对应模态的多个目标图像输入图像识别模型的第一卷积网络层进行特征提取，得到第一目标特征图像，其中，模态与第一卷积网络层一一对应；

将所述第一目标特征图像输入所述图像识别模型的第二卷积网络层进行特征提取，得到第二目标特征图像，所述第二卷积网络层对应所述至少两种模态的所有模态；

将所述第二目标特征图像输入对应的所述图像识别模型的池化层进行池化处理，得到对应的目标特征向量，其中，模态和池化层一一对应。

3.根据权利要求1所述的图像处理方法，其特征在于，所述将具有相同标识信息的多个样本图像分别输入图像识别模型进行特征提取，得到所述多个样本图像的融合特征，包括：

将具有相同标识信息的样本图像分别输入所述图像识别模型进行特征提取，得到特征向量，特征向量和样本图像一一对应；

根据所述特征向量，确定所述融合特征。

4.根据权利要求3所述的图像处理方法，其特征在于，所述根据所述至少两种模态下的融合特征，调整所述图像识别模型的模型参数，包括：

在所述至少两种模态中的每种模态下，根据所述特征向量的数量和所述融合特征，迭代更新存储特征，所述存储特征用于降低噪声样本的影响；

采用第一损失函数，确定所述融合特征相对所述存储特征的第一损失值；

若所述第一损失值大于第一损失值阈值，根据所述第一损失值调整所述图像识别模型的模型参数。

5.根据权利要求4所述的图像处理方法，其特征在于，所述根据所述至少两种模态下的融合特征，调整所述图像识别模型的模型参数，包括：

采用第二损失函数，确定第一模态下样本图像的特征向量相对第二模态下样本图像的存储特征的第二损失值，所述第一模态为所述至少两种模态中的一种模态，所述第二模态为所述至少两种模态中的另一种模态；

若所述第一模态下样本图像的标识信息和所述第二模态下样本图像的标识信息相同，且所述第二损失值大于第二损失值阈值，根据所述第二损失值调整所述图像识别模型的模型参数；

若所述第一模态下样本图像的标识信息和所述第二模态下样本图像的标识信息不同，且所述第二损失值小于第三损失值阈值，根据所述第二损失值调整所述图像识别模型的模型参数。

6.根据权利要求1至5任一项所述的图像处理方法，其特征在于，所述根据所述至少两种模态下的融合特征，调整所述图像识别模型的模型参数，包括：

若所述至少两种模态下样本图像的标识信息相同，确定第一模态下样本图像的融合特征仿射变换至至少一个第一图像的融合特征的第一仿射矩阵，所述第一图像为第二模态的图像，所述第一模态为所述至少两种模态中的一种模态，所述第二模态为所述至少两种模态中的另一种模态；

确定至少一个第二图像的融合特征仿射变换至所述第二模态下样本图像的融合特征的第二仿射矩阵，所述第二图像为所述第一模态的图像，所述第二图像的标识信息与所述第一图像的标识信息相同；

采用第三损失函数，确定所述第一仿射矩阵和所述第二仿射矩阵的第三损失值；

若所述第三损失值大于第四损失值阈值，根据所述第三损失值调整所述图像识别模型的模型参数。

7.根据权利要求1至5任一项所述的图像处理方法，其特征在于，所述根据所述至少两种模态下的融合特征，调整所述图像识别模型的模型参数，包括：

采用第四损失函数，确定第一模态下样本图像的融合特征和第二模态下样本图像的融合特征的第四损失值，所述第一模态为所述至少两种模态中的一种模态，所述第二模态为所述至少两种模态中的另一种模态；

若所述至少两种模态下样本图像的标识信息相同，且所述第四损失值大于第五损失值阈值，根据所述第四损失值调整所述图像识别模型的模型参数；

若所述至少两种模态下样本图像的标识信息不同，且所述第四损失值小于第六损失值阈值，根据所述第四损失值调整所述图像识别模型的模型参数。

8.根据权利要求3至5任一项所述的图像处理方法，其特征在于，所述将具有相同标识信息的样本图像分别输入所述图像识别模型进行特征提取，得到特征向量，包括：

将样本图像输入对应的所述图像识别模型的第一卷积网络层进行特征提取，得到第一特征图像；

将所述第一特征图像输入所述图像识别模型的第二卷积网络层进行特征提取，得到第二特征图像；

将所述第二特征图像输入对应的所述图像识别模型的池化层，得到对应的所述特征向量。

9.根据权利要求1至5任一项所述的图像处理方法，其特征在于，还包括：

接收终端设备发送的目标匹配结果，所述目标匹配结果是所述运维人员根据所述预测匹配结果输入所述终端设备的；

根据所述目标匹配结果和所述预测匹配结果，调整所述图像识别模型。

10.一种图像处理方法，其特征在于，应用于终端设备，所述图像处理方法包括：

获取摄像头采集的至少两种模态下的多个目标图像；

向服务器发送所述多个目标图像，以供所述服务器采用图像识别模型确定不同模态下的多个目标图像的预测匹配结果，所述预测匹配结果用于表示不同模态的多个目标图像是否包含相同的目标对象；

接收所述服务器发送的预测匹配结果；

显示所述预测匹配结果；

其中，所述图像识别模型采用以下方式训练得到：

11.根据权利要求10所述的图像处理方法，其特征在于，还包括：

获取运维人员根据所述预测匹配结果输入的目标匹配结果；

向所述服务器发送所述目标匹配结果，以供所述服务器根据所述目标匹配结果和所述预测匹配结果，调整所述图像识别模型。

12.一种图像处理装置，其特征在于，应用于服务器，所述图像处理装置包括：

处理模块，用于在所述至少两种模态中的每种模态下，将对应模态的多个目标图像输入图像识别模型的进行特征提取，得到对应的目标特征向量；

确定模块，用于根据至少两种模态下的目标特征向量，确定不同模态下的多个目标图像的预测匹配结果，所述预测匹配结果用于表示不同模态的目标图像是否包含相同的目标对象；

发送模块，用于向所述终端设备发送所述预测匹配结果，以使所述终端设备向运维人员显示所述预测匹配结果；

其中，所述图像识别模型采用以下方式训练得到：

13.一种图像处理装置，其特征在于，应用于终端设备，所述图像处理装置包括：

发送模块，用于向服务器发送所述多个目标图像，以供所述服务器采用图像识别模型确定不同模态下的多个目标图像的预测匹配结果，所述预测匹配结果用于表示不同模态的多个目标图像是否包含相同的目标对象；

接收模块，用于接收所述服务器发送的预测匹配结果；

显示模块，用于显示所述预测匹配结果；

其中，所述图像识别模型采用以下方式训练得到：

14.一种云设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述图像处理方法。