CN113902007A

CN113902007A - 模型训练方法及装置、图像识别方法及装置、设备和介质

Info

Publication number: CN113902007A
Application number: CN202111165084.0A
Authority: CN
Inventors: 谌强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本公开提供了一种模型训练方法及装置、图像识别方法及装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术。方案为：采用识别模型中的编码器对样本图像进行编码，得到编码特征，并将编码特征输入识别模型中的多层映射网络，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，得到样本图像的预测标注信息，并根据预测标注信息和样本图像包括的实际标注信息之间的差异对识别模型进行训练，以使差异最小化。由此，相邻两层映射网络中的前一层映射网络的模型参数可以传递至后一层映射网络，由后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，能够使得模型学习得到更好的特征表达，提升模型的预测效果。

Description

模型训练方法及装置、图像识别方法及装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，尤其涉及模型训练方法及装置、图像识别方法及装置、设备和介质。

背景技术

在智慧城市和智能交通场景下，可以利用深度学习技术，对图像或视频中的车辆、行人、物体等事物或目标进行检测，以根据模型的检测结果进行异常事件检测、犯人追踪、车辆统计等。为了提升模型的预测效果，需要对模型进行训练。

发明内容

本公开提供了一种用于模型训练方法及装置、图像识别方法及装置、设备和介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取样本图像；

采用识别模型中的编码器对所述样本图像进行编码，得到编码特征；

将所述编码特征输入所述识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射；

采用所述识别模型中的预测层，对所述多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到所述样本图像的预测标注信息；

根据所述预测标注信息和所述样本图像包括的实际标注信息之间的差异，对所述识别模型进行训练，以使所述差异最小化。

根据本公开的另一方面，提供了一种图像识别方法，包括：

获取待检测图像；

采用识别模型对所述待检测图像进行对象预测，以得到所述待检测图像中各目标对象的标注信息；其中，所述识别模型是采用上述一方面提出的方法训练得到的。

根据本公开的又一方面，提供了一种模型训练装置，包括：

获取模块，用于获取样本图像；

编码模块，用于采用识别模型中的编码器对所述样本图像进行编码，得到编码特征；

输入模块，用于将所述编码特征输入所述识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射；

预测模块，用于采用所述识别模型中的预测层，对所述多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到所述样本图像的预测标注信息；

训练模块，用于根据所述预测标注信息和所述样本图像包括的实际标注信息之间的差异，对所述识别模型进行训练，以使所述差异最小化。

根据本公开的再一方面，提供了一种图像识别装置，所述装置包括：

获取模块，用于获取待检测图像；

预测模块，用于采用识别模型对所述待检测图像进行对象预测，以得到所述待检测图像中各目标对象的标注信息；其中，所述识别模型是采用上述又一方面提出的装置训练得到的。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的模型训练方法，或者，执行本公开上述另一方面提出的图像识别方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的模型训练方法，或者，执行本公开上述另一方面提出的图像识别方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的模型训练方法，或者，实现本公开上述另一方面提出的图像识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的模型训练方法的流程示意图；

图2为本公开实施例中映射网络的结构示意图；

图3为本公开实施例二所提供的模型训练方法的流程示意图；

图4为本公开实施例中相邻两层映射网络之间的模型参数传递示意图；

图5为本公开实施例三所提供的模型训练方法的流程示意图；

图6为本公开实施例四所提供的模型训练方法的流程示意图；

图7为本公开实施例中在key-value解释下的FFN的结构示意图；

图8为本公开实施例五所提供的图像识别方法的流程示意图；

图9为本公开实施例六所提供的模型训练装置的结构示意图；

图10为本公开实施例七所提供的图像识别装置的结构示意图；

图11示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，在计算机视觉领域中，在训练数据充足的场景下，以Transformer为基本结构的模型(后续称为Transformer模型)的预测效果可以超越基于卷积的网络，然而在训练数据相对较少时，Transformer模型的预测精度或识别精度难以达到理想状态。

为了解决上述问题，近来出现了大量改进视觉(Vision)Transformer模型的工作，其中包括改进网络结构、位置信息(比如注意力(Attention)中的位置编码)、注意力(Attention)的方式等等。上述改进可以在一定程度上提升Transformer模型在视觉任务中应用的识别精度，但是上述改进忽略了Transformer模型中重要的一个部件，即FFN(Feed-Forward Networks，前馈网络)。在一些研究工作中，已经证明FFN对于Transformer模型而言是非常重要的，改进FFN可以进一步提升Transformer模型的可用性以及识别效果。

针对上述问题，本公开提出一种模型训练方法及装置、图像识别方法及装置、设备和介质。

下面参考附图描述本公开实施例的模型训练方法及装置、图像识别方法及装置、设备和介质。

图1为本公开实施例一所提供的模型训练方法的流程示意图。

本公开实施例以该模型训练方法被配置于模型训练装置中来举例说明，该模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该模型训练方法可以包括以下步骤：

步骤101，获取样本图像。

在本公开实施例中，样本图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集样本图像，或者，样本图像也可以为线下采集的图像，或者，样本图像也可以为实时采集的图像，或者，样本图像也可以为人工合成的图像，等等，本公开实施例对此并不做限制。

在本公开实施例中，样本图像可以为多个，每个样本图像中标注有标注信息，本公开中记为实际标注信息。

作为一种示例，以识别模型应用于分类场景或分类任务中进行示例性说明，实际标注信息可以包括样本图像中各目标物体的类别或各目标对象的类别，其中，目标对象可以为车辆、人、物体、动物等任一对象。

作为另一种示例，以识别模型应用于目标检测场景或目标检测任务中进行示例性说明，实际标注信息可以包括样本图像中各目标对象的检测框以及检测框中目标对象的类别。其中，类别可以包括车辆、人等类别。

步骤102，采用识别模型中的编码器对样本图像进行编码，得到编码特征。

在本公开实施例中，识别模型，用于识别得到图像中各个目标对象。其中，对该识别模型的结构不作限制，比如，该识别模型可以为以Transformer为基本结构的模型，或者，也可以为其他结构的模型，比如为Transformer的变种结构的模型。

在本公开实施例中，针对每一个样本图像，可以采用识别模型中的编码器对样本图像进行编码，得到该样本图像的编码特征。

步骤103，将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射。

在本公开实施例中，映射网络还可以称为Transformer模块，映射网络可以由注意力层和FFN(Feed-Forward Network，前馈网络)组成。

作为一种示例，映射网络的结构可以如图2所示，映射网络由注意力(Attention)层和FFN组成，FFN可以由两个FC(Fully Connected layers，全连接层)组成，分别为FC1和FC2。

在本公开实施例中，多层映射网络中的相邻两层映射网络中的后一层映射网络，可以根据前一层映射网络的模型参数进行模型参数更新，并根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射。可选地，标记映射网络的层数为N层，N可以为大于或者等于2的正整数。

也就是说，可以将编码特征输入至多层映射网络中的第一层映射网络，由第一层映射网络对该编码特征进行特征映射，得到第一层映射网络输出的映射特征。之后，可以将第一层映射网络输出的映射特征输入至多层映射网络中的第二层映射网络，同时，还可以将第一层映射网络的模型参数传递至第二层映射网络。

第二层映射网络可以根据第一层映射网络的模型参数，对本层映射网络的模型参数进行更新，并根据更新后的模型参数，对第一层映射网络输出的映射特征进行特征映射，得到第二层映射网络输出的映射特征。

在N大于2时，还可以将第二层映射网络输出的映射特征输入至多层映射网络中的第三层映射网络，同时，还可以将第二层映射网络对应的更新后的模型参数传递至第三层映射网络。

第三层映射网络可以根据第二层映射网络的模型参数，对本层映射网络的模型参数进行更新，并根据更新后的模型参数，对第二层映射网络输出的映射特征进行特征映射，得到第三层映射网络输出的映射特征。

在N大于3时，还可以将第三层映射网络输出的映射特征输入至多层映射网络中的第四层映射网络，同时，还可以将第三层映射网络对应的更新后的模型参数传递至第四层映射网络。以此类推，可以得到最后一层映射网络输出的映射特征。

由此，通过将相邻两层映射网络中的前一层映射网络的模型参数传递至后一层映射网络，由后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，可以使得模型学习得到更好的特征表达，提升模型的编码能力，从而提升模型的预测效果。

步骤104，采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。

在本公开实施例中，可以采用识别模型中的预测层，对多个映射网络中的最后一层映射网络所输出的映射特征进行对象预测，得到该样本图像的预测标注信息。

作为一种可能的实现方式，以识别模型应用于分类场景或分类任务中进行示例性说明，预测层可以为FC，可以采用识别模型中的FC对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。其中，预测标注信息可以包括样本图像中各目标对象的类别。

可以理解的是，样本图像中可以包括至少一个目标对象，比如样本图像中可能存在多辆车辆和/或多个行人，因此，预测标注信息和实际标注信息中可以包括至少一个目标对象的类别。

作为另一种可能的实现方式，以识别模型应用于目标检测场景或目标检测任务中进行示例性说明，预测层可以包括两个分支，每个分支可以包括多层卷积层，即每个分支可以由多层卷积层串联得到，可以通过其中一个分支对最后一层映射网络输出的映射特征进行对象预测，得到样本图像中目标对象的检测框，通过其中另一个分支对最后一层映射网络输出的映射特征进行对象预测，得到检测框中目标对象的类别。

同样地，样本图像中可以包括至少一个目标对象，比如样本图像中可能存在多辆车辆和/或多个行人，因此，预测标注信息和实际标注信息中可以包括至少一个检测框以及每个检测框中目标对象的类别。

步骤105，根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。

在本公开实施例中，可以确定预测标注信和样本图像包括的实际标注信息之间的差异，根据上述差异对识别模型进行训练，以使上述差异最小化，即可以根据上述差异，对识别模型的模型参数进行调整，以使上述差异最小化。

作为一种应用场景，对识别模型进行训练后，可以采用训练后的识别模型对待检测图像或待检测视频中各视频帧进行对象检测，得到待检测图像或各视频帧的标注结果。其中，标注结果可以包括目标对象的检测框和检测框中目标对象的类别。

例如，以该识别模型应用于目标检测任务进行示例，可以获取各个路口采集的视频流，作为待检测视频，从而可以利用经过训练的识别模型对待检测视频中的各个对象(比如车辆和行人)进行检测，得到标注结果，从而可以根据标注结果进行车辆统计(比如车流量统计、违规车辆统计等)、异常事件检测(比如检测违反交通规则的车辆和行人)、罪犯追踪等。

本公开实施例的模型训练方法，通过采用识别模型中的编码器对样本图像进行编码，得到编码特征，并将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射；采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息，并根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。本公开中，在模型训练时，相邻两层映射网络中的前一层映射网络的模型参数可以传递至后一层映射网络，由后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，能够使得模型学习得到更好的特征表达，提升模型的预测效果。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中是如何得利用多层映射网络对编码特征进行特征映射的，本公开还提出一种模型训练方法。

图3为本公开实施例二所提供的模型训练方法的流程示意图。

如图3所示，该模型训练方法可以包括以下步骤：

步骤301，获取样本图像。

步骤302，采用识别模型中的编码器对样本图像进行编码，得到编码特征。

步骤301至302的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤303，采用识别模型中的多层映射网络中的第一层映射网络的注意力层，对编码特征执行矩阵乘法运算，得到第一运算特征。

在本公开实施中，可以采用识别模型中的多层映射网络中的第一层映射网络中的注意力层，对编码特征执行矩阵乘法运算，得到第一运算特征。

作为一种示例，映射网络的结构可以如图2所示，对于第一层映射网络，可以根据公式(1)和公式(2)，确定第一运算特征：

其中：

其中，Self-Att(X)是指注意力层的输出，X是指注意力层的输入，对于第一层映射网络而言，X为编码特征，Self-Att(X)为第一运算特征，

均为注意力层的模型参数，softmax为非线性激活函数。

步骤304，根据第一层映射网络的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。

在本公开实施例中，可以采用第一层映射网络中的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。

作为一种示例，映射网络的结构可以如图2所示，则映射网络中前馈网络的输出为：

FFN(H)＝f(HW₁)W₂； (3)

其中，f表示非线性函数，W₁是指FC1的模型参数，W₂是指FC2的模型参数，FFN(H)表示FFN的输出，H表示FFN的输入，对于第一层映射网络而言，H为第一层映射网络中注意力层的输出，FFN(H)表示第一层映射网络输出的映射特征。

步骤305，将第一层映射网络输出的映射特征以及前馈网络对应的模型参数传递至第二层映射网络。

在本公开实施例中，可以将第一层映射网络输出的映射特征，以及第一层映射网络中前馈网络对应的模型参数传递至第二层映射网络。

作为一种示例，相邻两个映射网络的模型参数的传递示意图可以如图4所示，可以将第一层映射网络中FFN中的FC1对应的模型参数W1传递至第二层映射网络中FFN中的FC1，将第一层映射网络中FFN中的FC2对应的模型参数W2传递至第二层映射网络中FFN中的FC2。

步骤306，采用第二层映射网络的注意力层对第一层映射网络输出的映射特征执行矩阵乘法运算，得到第二运算特征。

在本公开实施例中，可以采用第二层映射网络的注意力层，对第一层映射网络输出的映射特征执行矩阵乘法运算，得到第二层运算特征。例如，可以将第一层映射网络输出的映射特征，作为第二层映射网络中注意力层的输入，而后将第二层映射网络中注意力层的输入，带入公式(1)和(2)，得到第二运算特征。

步骤307，采用第二层映射网络的前馈网络根据第一层映射网络中的前馈网络对应的模型参数进行模型参数更新，并根据更新后的模型参数，对第二运算特征执行非线性运算，得到第二层映射网络输出的映射特征。

在本公开实施例中，可以采用第二层映射网络的前馈网络根据第一层映射网络中的前馈网络对应的模型参数进行模型参数更新，比如，可以将第二层映射网络中的前馈网络对应的模型参数与前一层映射网络中的前馈网络对应的模型参数进行加权，得到第二层映射网络中的前馈网络对应的更新后的模型参数，从而可以根据更新后的模型参数，对第二运算特征执行非线性运算，得到第二层映射网络输出的映射特征。

作为一种示例，如图4所示，可以将第一层映射网络中的FFN中的FC1对应W1与第二层映射网络中的FFN中的FC1对应W1进行加权，得到第二层映射网络中的FFN中的FC1对应的更新后的W1，同理，可以将第一层映射网络中的FFN中的FC2对应W2与第二层映射网络中的FFN中的FC2对应W2进行加权，得到第二层映射网络中的FFN中的FC2对应的更新后的W2，从而可以将更新后的W1、更新后的W2以及第二运算特征带入公式(3)，得到第二层映射网络输出的映射特征。

当映射网络的层数N大于2时，可以根据上述方式，确定每一层映射网络输出的映射特征。

步骤308，采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。

步骤309，根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。

步骤308至309的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的模型训练方法，通过采用第一层映射网络的注意力层对编码特征执行矩阵乘法运算，得到第一运算特征；根据第一层映射网络的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。由此，可以实现对编码特征进行有效映射，得到第一层映射网络输出的映射特征。

需要说明的是，各层映射网络对应的空间可能不同，为了实现提升模型的编码能力，在将前一层映射网络中前馈网络的模型参数传递至后一层映射网络时，可以将模型参数投影至后一层映射网络。下面结合图5，对上述过程进行详细说明。

图5为本公开实施例三所提供的模型训练方法的流程示意图。

如图5所示，该模型训练方法可以包括以下步骤：

步骤501，获取样本图像。

步骤502，采用识别模型中的编码器对样本图像进行编码，得到编码特征。

步骤503，采用识别模型中的多层映射网络中的第一层映射网络的注意力层，对编码特征执行矩阵乘法运算，得到第一运算特征。

步骤504，根据第一层映射网络的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。

步骤501至504的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤505，将第一层映射网络的前馈网络对应的模型参数与投影矩阵相乘，得到投影后的模型参数。

在本公开实施例中，投影矩阵可以为初始设定的矩阵，在模型的训练过程中，可以对该投影矩阵进行优化，以提升模型的预测精度。

在本公开实施例中，可以将第一层映射网络的前馈网络对应的模型参数与投影矩阵相乘，得到投影后的模型参数。比如，参见图4，可以将W1和W2分别与投影矩阵相乘，得到投影后的W1和投影后的W2。

步骤506，将投影后的模型参数与第一层映射网络输出的映射特征传递至第二层映射网络。

在本公开实施例中，可以将投影后的模型参数以及第一层映射网络输出的映射特征传递至第二层映射网络。

步骤507，采用第二层映射网络的注意力层对第一层映射网络输出的映射特征执行矩阵乘法运算，得到第二运算特征。

步骤507的执行过程可以参见上述实施例的执行过程，在此不做赘述。

步骤508，将第二层映射网络的前馈网络对应的模型参数与投影后的模型参数进行加权，得到更新后的模型参数。

作为一种示例，如图4所示，可以将第一层映射网络中FC1对应的W1与投影矩阵相乘，得到投影后的W1，将投影后的W1与第二层映射网络中FC1对应的W1进行加权，得到第二层映射网络中FC1对应的更新后的W1，同理，可以将第一层映射网络中FC2对应的W2与投影矩阵相乘，得到投影后的W2，将投影后的W2与第二层映射网络中FC2对应的W2进行加权，得到第二层映射网络中FC2对应的更新后的W2。

步骤509，采用更新后的模型参数，对第二运算特征执行非线性运算，得到第二层映射网络输出的映射特征。

作为一种示例，如图4所示，可以将更新后的W1、更新后的W2以及第二运算特征带入公式(3)，得到第二层映射网络输出的映射特征。

由此，可以实现对第一层映射网络输出的映射特征进行有效映射，得到第二层映射网络输出的映射特征。

步骤510，采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。

步骤511，根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。

在本公开实施例中，可以根据测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型中的模型参数和投影矩阵进行调整，以使上述差异最小化。

步骤510至511的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的模型训练方法，通过将第一层映射网络的前馈网络对应的模型参数与投影矩阵相乘，得到投影后的模型参数；将投影后的模型参数与第一层映射网络输出的映射特征传递至第二层映射网络。由此，将前一层映射网络的模型参数投影至后一层映射网络，可以使得不同空间的模型参数能够在同一空间进行加权融合，从而使得映射网络能够有效进行特征映射，提升模型的编码能力。

为了清楚说明本公开上述实施例中是如何对样本图像进行编码，得到编码特征的，本公开还提出一种模型训练方法。

图6为本公开实施例四所提供的模型训练方法的流程示意图。

如图6所示，该模型训练方法可以包括以下步骤：

步骤601，获取样本图像。

步骤601的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤602，对样本图像进行特征提取，得到图像特征。

在本公开实施例中，可以基于特征提取技术，对样本图像进行特征提取，得到图像特征。

在本公开实施例的一种可能的实现方式中，为了提升特征提取结果的准确性和可靠性，可以基于深度学习技术，对样本图像进行特征提取，得到图像特征。

作为一种示例，可以使用残差网络(ResNet)等主流主干网络(backbone)对样本图像进行特征提取，得到图像特征。比如，可以采用CNN(Convolutional Neural Network，卷积神经网络)对样本图像进行特征提取，得到图像特征。

步骤603，将图像特征进行分块处理，以得到序列化的特征向量。

在本公开实施例中，可以将图像特征进行分块处理，得到序列化的特征向量。

作为一种示例，CNN网络输出的图像特征可以为C(通道)×H(高)×W(宽)的立体的图像特征，即CNN的数据尺寸为(channel，height，width)，可以将CNN网络输出的图像特征转化为序列化的特征向量序列，例如转化为H×W个C维特征向量。

步骤604，利用识别模型中的编码器对序列化的特征向量进行编码，以得到序列化的编码特征。

在本公开实施例中，可以利用识别模型中的编码器对序列化的特征向量进行编码，以得到序列化的编码特征。

步骤605，将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射。

步骤605的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤606，采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。

在本公开实施例中，最后一层映射网络输出的映射特征也为序列化的特征向量。

作为一种可能的实现方式，以识别模型应用于分类场景或分类任务中进行示例性说明，预测层可以为FC，可以将最后一层映射网络输出的映射特征中的各特征向量求取均值，得到分类特征，采用FC对分类特征进行对象预测，以得到样本图像的预测标注信息。

作为另一种可能的实现方式，以识别模型应用于目标检测场景或目标检测任务中进行示例性说明，预测层可以包括两个分支，每个分支可以包括多层卷积层，可以将最后一层映射网络输出的映射特征中的各特征向量求取均值，得到分类特征，采用两个分支分别对分类特征进行对象预测，以得到样本图像的预测标注信息。

由此，可以实现由预测层，对分类特征进行有效预测，得到样本图像的预测标注信息。

步骤607，根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。

步骤607的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

作为一种示例，以映射网络为图2和图4中的Transformer模块进行示例，本公开可以对Transformer模块中的前馈网络进行改进，致力于提升识别模型的上限，使得模型可以学习到更好的特征表达。为了更清楚地说明本公开上述任一实施例，首先可以介绍现有的Transformer模块，之后根据对Transformer模块中Attention和FFN部件的理解，提出针对FFN部件的改进。

图2可以为现有的Transformer模块的结构示意图，根据公式(1)和公式(3)可以看出，FFN的操作与Attention的操作非常相似，更明显地，可以将公式(3)中的W1看作注意力机制中的key，将公式(3)中的W2看作注意力机制中的value，而将公式(3)中FFN的输入H看作注意力机制中的query，因此，可以将FFN类比为一个Attention，其中，FFN与Attention不同之处在于，非线性层f与Attention中的softmax不同。

通过上述方式，可以将FFN层解释为：W1、W2用于储存数据集中的知识信息，根据不同的输入H，在数据集中进行query检索，从而通过训练从整个数据集中提取出有用的知识信息。通过上述解读，FFN部分的结构图可以变成如图7所示。

根据上述分析，既然FFN中的两个FC层的W1和W2储存的是数据集中的知识，那么将不同Transformer模块提取到的数据集中的知识进行传递，可以使得Transformer模块在拟合数据集的过程中，更快整合知识，实现更好的识别性能。

在两个连续的Transformer模块之间，进行知识传递的过程可以如图4所示，知识从前一个Transformer模块的FFN中传递到后一个Transformer模块的FFN中的过程，具体实现是对W1、W2使用一个投影矩阵将知识投影到下一个Transformer模块的空间中，然后以加权相加的方式，将知识进行传递。上述知识传递的过程，可以使得Transformer模块的学习更加高效，并提升Transformer模块的整体性能。

本公开实施例的模型训练方法，通过对样本图像进行特征提取，得到图像特征；将图像特征进行分块处理，以得到序列化的特征向量；利用编码器对序列化的特征向量进行编码，以得到序列化的编码特征。由此，对图像特征进行分块处理，得到序列化的特征向量，可以满足编码器的输入要求，从而可以保证编码器能够对样本图像进行有效编码，得到编码特征。

上述为识别模型的训练方法所对应的各实施例，本公开还提出一种识别模型的应用方法。

图8为本公开实施例五所提供的图像识别方法的流程示意图。

如图8所示，该图像识别方法可以包括以下步骤：

步骤801，获取待检测图像。

在本公开实施例中，待检测图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集待检测图像，或者，待检测图像也可以为线下采集的图像，或者，待检测图像也可以为人工合成的图像，等等，本公开实施例对此并不做限制。

步骤802，采用识别模型对待检测图像进行对象预测，以得到待检测图像中各目标对象的标注信息；其中，识别模型是采用上述图1至图6任一实施例提出的方法训练得到的。

在本公开实施例中，目标对象可以包括车辆、人、物体、动物等任一对象。

在本公开实施例中，在获取到待检测图像后，可以采用识别模型对该待检测图像进行对象预测，以得到待检测图像中各目标对象的标注信息。即，可以采用识别模型中的编码器对待检测图像进行编码，得到编码特征；将编码特征输入识别模型中的多层映射网络，以得到多层映射网络中最后一层映射网络输出的映射特征；采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到待检测图像中各目标对象的标注信息。

作为一种可能的实现方式，以识别模型应用于分类场景或分类任务中进行示例性说明，标注信息可以包括待检测图像中各目标对象所属的类别。

作为另一种可能的实现方式，以识别模型应用于目标检测场景或目标检测任务中进行示例性说明，标注信息可以包括待检测图像中各目标对象的检测框和检测框中目标对象所属的类别。

需要说明的是，前述任一实施例对模型训练方法的解释说明，也适用于该实施例，其实现原理类似，此处不做赘述。

本公开实施例的图像识别方法，通过获取待检测图像，采用识别模型对待检测图像进行对象预测，以得到待检测图像中各目标对象的标注信息。由此，基于深度学习技术，识别待检测图像中的各目标对象，可以提升识别结果的准确性。

与上述图1至图6实施例提供的模型训练方法相对应，本公开还提供一种模型训练装置，由于本公开实施例提供的模型训练装置与上述图1至图6实施例提供的模型训练方法相对应，因此在模型训练方法的实施方式也适用于本公开实施例提供的模型训练装置，在本公开实施例中不再详细描述。

图9为本公开实施例六所提供的模型训练装置的结构示意图。

如图9所示，该模型训练装置900可以包括：获取模块910、编码模块920、输入模块930、预测模块940以及训练模块850。

其中，获取模块910，用于获取样本图像。

编码模块920，用于采用识别模型中的编码器对样本图像进行编码，得到编码特征。

输入模块930，用于将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射。

预测模块940，用于采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息。

训练模块950，用于根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。

在本公开实施例的一种可能的实现方式中，输入模块930，可以包括：

映射单元，用于采用第一层映射网络根据对应的模型参数，对编码特征进行特征映射，得到第一层映射网络输出的映射特征。

传递单元，用于将第一层映射网络输出的映射特征以及对应的模型参数传递至第二层映射网络。

映射单元，还用于采用第二层映射网络根据第一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对第一层映射网络输出的映射特征进行特征映射。

在本公开实施例的一种可能的实现方式中，映射网络包括注意力层和前馈网络，映射单元，具体用于：采用第一层映射网络的注意力层对编码特征执行矩阵乘法运算，得到第一运算特征；根据第一层映射网络的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。

在本公开实施例的一种可能的实现方式中，传递单元，具体用于：将第一层映射网络的前馈网络对应的模型参数与投影矩阵相乘，得到投影后的模型参数；将投影后的模型参数与第一层映射网络输出的映射特征传递至第二层映射网络。

在本公开实施例的一种可能的实现方式中，映射单元，具体用于：采用第二层映射网络的注意力层对第一层映射网络输出的映射特征执行矩阵乘法运算，得到第二运算特征；将第二层映射网络的前馈网络对应的模型参数与投影后的模型参数进行加权，得到更新后的模型参数；采用更新后的模型参数，对第二运算特征执行非线性运算，得到第二层映射网络输出的映射特征。

在本公开实施例的一种可能的实现方式中，编码模块920，具体用于：对样本图像进行特征提取，得到图像特征；将图像特征进行分块处理，以得到序列化的特征向量；利用编码器对序列化的特征向量进行编码，以得到序列化的编码特征。

在本公开实施例的一种可能的实现方式中，最后一层映射网络输出的映射特征为序列化的特征向量，预测模块940，具体用于：将最后一层映射网络输出的映射特征中的各特征向量求取均值，得到分类特征；采用预测层对分类特征进行对象预测，以得到样本图像的预测标注信息。

本公开实施例的模型训练装置，通过采用识别模型中的编码器对样本图像进行编码，得到编码特征，并将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射；采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息，并根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。本公开中，在模型训练时，相邻两层映射网络中的前一层映射网络的模型参数可以传递至后一层映射网络，由后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，能够使得模型学习得到更好的特征表达，提升模型的预测效果。

与上述图7实施例提供的图像识别方法相对应，本公开还提供一种图像识别置，由于本公开实施例提供的图像识别装置与上述图7实施例提供的图像识别方法相对应，因此在图像识别方法的实施方式也适用于本公开实施例提供的图像识别装置，在本公开实施例中不再详细描述。

图10为本公开实施例七所提供的图像识别装置的结构示意图。

如图10所示，该图像识别装置1000可以包括：获取模块1010和预测模块1020。

其中，获取模块1010，用于获取待检测图像。

预测模块1020，用于采用识别模型对待检测图像进行对象预测，以得到待检测图像中各目标对象的标注信息；其中，识别模型是采用前述实施例提出的模型训练装置训练得到的。

本公开实施例的图像识别装置，通过获取待检测图像，采用识别模型对待检测图像进行对象预测，以得到待检测图像中各目标对象的标注信息。由此，基于深度学习技术，识别待检测图像中的各目标对象，可以提升识别结果的准确性。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的模型训练方法，或者，执行本公开上述实施例提出的图像识别方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的模型训练方法，或者，执行本公开上述实施例提出的图像识别方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的模型训练方法，或者，实现本公开上述实施例提出的图像识别方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。其中，电子设备可以包括上述实施例中的服务端、客户端。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1102中的计算机程序或者从存储单元1107加载到RAM(Random AccessMemory，随机访问/存取存储器)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。I/O(Input/Output，输入/输出)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如上述模型训练或图像识别方法。例如，在一些实施例中，上述模型训练或图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元11011而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的模型训练或图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述模型训练或图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过采用识别模型中的编码器对样本图像进行编码，得到编码特征，并将编码特征输入识别模型中的多层映射网络，其中，相邻两层映射网络中后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对前一层映射网络输出的映射特征进行特征映射；采用识别模型中的预测层，对多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到样本图像的预测标注信息，并根据预测标注信息和样本图像包括的实际标注信息之间的差异，对识别模型进行训练，以使差异最小化。本公开中，在模型训练时，相邻两层映射网络中的前一层映射网络的模型参数可以传递至后一层映射网络，由后一层映射网络根据前一层映射网络的模型参数进行模型参数更新，能够使得模型学习得到更好的特征表达，提升模型的预测效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，所述方法包括以下步骤：

获取样本图像；

2.根据权利要求1所述的方法，其中，所述将所述编码特征输入所述识别模型中的多层映射网络，包括：

采用第一层映射网络根据对应的模型参数，对所述编码特征进行特征映射，得到第一层映射网络输出的映射特征；

将第一层映射网络输出的映射特征以及对应的模型参数传递至第二层映射网络；

采用第二层映射网络根据第一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对第一层映射网络输出的映射特征进行特征映射。

3.根据权利要求2所述的方法，其中，所述映射网络包括注意力层和前馈网络，所述采用第一层映射网络根据对应的模型参数，对所述编码特征进行特征映射，得到第一层映射网络输出的映射特征，包括：

采用第一层映射网络的注意力层对所述编码特征执行矩阵乘法运算，得到第一运算特征；

根据第一层映射网络的前馈网络对应的模型参数，对第一运算特征执行非线性运算，得到第一层映射网络输出的映射特征。

4.根据权利要求3所述的方法，其中，所述将第一层映射网络输出的映射特征以及对应的模型参数传递至第二层映射网络，包括：

将所述第一层映射网络的前馈网络对应的模型参数与投影矩阵相乘，得到投影后的模型参数；

将所述投影后的模型参数与第一层映射网络输出的映射特征传递至第二层映射网络。

5.根据权利要求4所述的方法，其中，所述采用第二层映射网络根据第一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对第一层映射网络输出的映射特征进行特征映射，包括：

采用第二层映射网络的注意力层对第一层映射网络输出的映射特征执行矩阵乘法运算，得到第二运算特征；

将第二层映射网络的前馈网络对应的模型参数与所述投影后的模型参数进行加权，得到更新后的模型参数；

采用更新后的模型参数，对所述第二运算特征执行非线性运算，得到第二层映射网络输出的映射特征。

6.根据权利要求1所述的方法，其中，所述采用识别模型中的编码器对所述样本图像进行编码，得到编码特征，包括：

对所述样本图像进行特征提取，得到图像特征；

将所述图像特征进行分块处理，以得到序列化的特征向量；

利用所述编码器对所述序列化的特征向量进行编码，以得到序列化的所述编码特征。

7.根据权利要求6所述的方法，其中，所述最后一层映射网络输出的映射特征为序列化的特征向量，所述采用所述识别模型中的预测层，对所述多层映射网络中最后一层映射网络输出的映射特征进行对象预测，以得到所述样本图像的预测标注信息，包括：

将所述最后一层映射网络输出的映射特征中的各特征向量求取均值，得到分类特征；

采用所述预测层对所述分类特征进行对象预测，以得到所述样本图像的预测标注信息。

8.一种图像识别方法，所述方法包括：

获取待检测图像；

采用识别模型对所述待检测图像进行对象预测，以得到所述待检测图像中各目标对象的标注信息；其中，所述识别模型是采用权利要求1-7中任一项所述的方法训练得到的。

9.一种模型训练装置，所述装置包括：

获取模块，用于获取样本图像；

10.根据权利要求9所述的装置，其中，所述输入模块，包括：

映射单元，用于采用第一层映射网络根据对应的模型参数，对所述编码特征进行特征映射，得到第一层映射网络输出的映射特征；

传递单元，用于将第一层映射网络输出的映射特征以及对应的模型参数传递至第二层映射网络；

所述映射单元，还用于采用第二层映射网络根据第一层映射网络的模型参数进行模型参数更新，根据更新后的模型参数，对第一层映射网络输出的映射特征进行特征映射。

11.根据权利要求10所述的装置，其中，所述映射网络包括注意力层和前馈网络，所述映射单元，具体用于：

12.根据权利要求11所述的装置，其中，所述传递单元，具体用于：

13.根据权利要求12所述的装置，其中，所述映射单元，具体用于：

14.根据权利要求9所述的装置，其中，所述编码模块，具体用于：

对所述样本图像进行特征提取，得到图像特征；

将所述图像特征进行分块处理，以得到序列化的特征向量；

15.根据权利要求14所述的装置，其中，所述最后一层映射网络输出的映射特征为序列化的特征向量，所述预测模块，具体用于：

16.一种图像识别装置，所述装置包括：

获取模块，用于获取待检测图像；

预测模块，用于采用识别模型对所述待检测图像进行对象预测，以得到所述待检测图像中各目标对象的标注信息；其中，所述识别模型是采用权利要求9-15任一项所述的装置训练得到的。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的模型训练方法，或者，执行权利要求8所述的图像识别方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的模型训练方法，或者，执行权利要求8所述的图像识别方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述模型训练方法的步骤，或者，实现权利要求8所述图像识别方法的步骤。