CN114663687A

CN114663687A - 模型训练方法、目标识别方法、装置、设备及存储介质

Info

Publication number: CN114663687A
Application number: CN202210255817.8A
Authority: CN
Inventors: 郭子歆; 白亚龙; 张炜; 梅涛; 周伯文
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-24
Anticipated expiration: 2042-03-15
Also published as: CN114663687B

Abstract

本申请提出一种模型训练方法、目标识别方法、装置、设备及存储介质，其中，方法包括：对样本图像进行分块，得到多个第一子图块；分别对多个第一子图块进行特征提取，得到多个第一子图块对应的子图像特征；将各子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征；将多个第一子图块的映射特征进行融合，得到融合特征；采用识别模型中的预测层对融合特征进行目标预测，得到预测标注信息；根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。由此，可提升模型对残次目标的判别能力。

Description

模型训练方法、目标识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、目标识别方法、装置、设备及存储介质。

背景技术

在广泛的工业生产场景中，例如3C、机械制造、半导体及电子、化工、医药等行业，工业产品的质量检测(简称工业质检)是必不可少的一道环节。其中，工业质检涉及到的主要内容为产品的外观缺陷检测，包括表面装配、印刷、形状等缺陷检测。

得益于深度学习方法的广泛应用，可以利用质检模型来完成工业质检场景中的通用识别任务(比如残次品或残次区域的分类、定位、分割等)，以替代传统的人工肉眼检测，提高生产力、竞争力和质检准确率。为了提升模型的预测效果，如何实现模型的训练是非常重要的。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

本申请提出一种模型训练方法、目标识别方法、装置、设备及存储介质，以实现通过自注意力记忆神经网络层存储包含非残次目标的正样本图像的特征，可以实现为识别模型提供正样本图像的先验信息，以根据该先验信息来实现对残次目标的检测，可以提升识别模型对残次目标的判别能力，从而提升模型的预测效果。

本申请第一方面实施例提出了一种模型训练方法，包括：

获取样本图像，并对所述样本图像进行分块，得到多个第一子图块；

分别对多个所述第一子图块进行特征提取，以得到多个所述第一子图块对应的子图像特征；

将各所述第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征；其中，所述目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征；

将多个所述第一子图块的映射特征进行融合，以得到融合特征；

采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到预测标注信息；

根据所述预测标注信息与所述样本图像包括的实际标注信息之间的差异，对所述识别模型进行训练。

本申请第二方面实施例提出了一种目标识别方法，包括：

获取待检测图像，并对所述待检测图像进行分块，得到多个子图块；

分别对多个所述子图块进行特征提取，以得到多个所述子图块对应的子图像特征；

将各所述子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各所述子图块对应的映射特征；其中，所述识别模型是采用如本申请第一方面实施例所述的方法训练得到的；

将多个所述子图块的映射特征进行融合，以得到融合特征；

采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到所述目标的识别结果。

本申请第三方面实施例提出了一种模型训练装置，包括：

获取模块，用于获取样本图像；

切分模块，用于对所述样本图像进行分块，得到多个第一子图块；

提取模块，用于分别对多个所述第一子图块进行特征提取，以得到多个所述第一子图块对应的子图像特征；

输入模块，用于将各所述第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征；其中，所述目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征；

融合模块，用于将多个所述第一子图块的映射特征进行融合，以得到融合特征；

预测模块，用于采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到预测标注信息；

训练模块，用于根据所述预测标注信息与所述样本图像包括的实际标注信息之间的差异，对所述识别模型进行训练。

本申请第四方面实施例提出了一种目标识别装置，包括：

获取模块，用于获取待检测图像；

切分模块，用于对所述待检测图像进行分块，得到多个子图块；

提取模块，用于分别对多个所述子图块进行特征提取，以得到多个所述子图块对应的子图像特征；

输入模块，用于将各所述子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各所述子图块对应的映射特征；其中，所述识别模型是采用如本申请第三方面实施例所述的装置训练得到的；

融合模块，用于将多个所述子图块的映射特征进行融合，以得到融合特征；

预测模块，用于采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到所述目标的识别结果。

本申请第五方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请第一方面实施例提出的模型训练方法，或者实现如本申请第二方面实施例提出的目标识别方法。

本申请第六方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面实施例提出的模型训练方法，或者实现如本申请第二方面实施例提出的目标识别方法。

本申请第七方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请第一方面实施例提出的模型训练方法，或者执行如本申请第二方面实施例提出的目标识别方法。

上述本申请中的一个实施例至少具有如下优点或有益效果：

通过对样本图像进行分块，得到多个第一子图块；分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征；将各第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征；其中，目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征；将多个第一子图块的映射特征进行融合，以得到融合特征；采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息；根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。由此，通过自注意力记忆神经网络层存储包含非残次目标的正样本图像的特征，可以实现为识别模型提供正样本图像的先验信息，以根据该先验信息来实现对残次目标的检测，可以提升识别模型对残次目标的判别能力，从而提升模型的预测效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的模型训练方法的流程示意图；

图2为本申请实施例二所提供的模型训练方法的流程示意图；

图3为本申请实施例三所提供的模型训练方法的流程示意图；

图4为本申请实施例四所提供的模型训练方法的流程示意图；

图5为本申请实施例中识别模型的结构示意图；

图6为本申请实施例五所提供的目标识别方法的流程示意图；

图7为本申请实施例六所提供的模型训练装置的结构示意图；

图8为本申请实施例七所提供的模型训练装置的结构示意图；

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

工业质检的产品通常具备以下两个特点：(1)残次品与非残次品样本分布悬殊，即存在大量非残次品和少量残次品；(2)产品的视觉特征模板相对固定，较为单一(原因为用于图像采集的质检摄像头的位置固定，拍摄环境基本保持不变，拍摄目标/产品外观在同一生产线上是统一的)。

得益于深度学习方法的广泛应用，利用现有的机器视觉检测算法可以完成一般通用的图像识别任务(残次品或残次区域的分类，定位，分割等)。例如，具有代表性的残差网络(Residual Neural Network)，通过加深卷积神经网络的层数以及提出残差结构，在解决深层神经网络训练时容易退化的同时，提取到更丰富的特征信息。又例如，近年来替代卷积神经网络层的深度自注意力模型(视觉Vision Transformer)，该模型对输入图像进行特征提取，分为若干子图块并展平后，利用自注意力模块建立子图块之间的长距离依赖关系和全局联系，并具有动态适应输入变化的权重，以及相比于基于卷积神经网络的模型，具有更广的感受野。在对于一般的图像分类任务上，深度自注意力模型性能超越基于卷积神经网络的模型。

目前，基于计算机视觉的智能工业质检任务，通常部署于上述基于卷积神经网络的通用检测算法，替代了传统人工肉眼检测，提高了生产力、竞争力和质检准确率。

然而，通用检测算法的设计通常会忽略上述工业质检中正负样本的悬殊性，视觉特征模式单一的特性。现有通用的图像识别、检测、分割模型在通用数据集上进行训练，样本复杂度高，需要处理的图像特征种类繁多。而工业质检任务样本单一，更多依赖需要“正负样本”，如果将每个样本看作独立的个体进行训练，很难对“正负样本”之间的差异直接进行建模。如果在质检残次品的过程中，不让模型将残次品和对应正样本固定的特征作对比，缺少了模型对样本的先验知识，因而降低模型对残次品的判别能力。在实际工业质检场景下，例如两幅包含铁丝网的图像，其中一幅图像为包含非残次品的图像(正样本)，另一幅图像为带有三段弯曲铁丝的残次品的图像(负样本)，通过深度自注意力模型的自注意力机制，会将所有铁丝列为观察对象，相比之下，由于负样本中三段弯曲铁丝只占据较小的区域，且弯曲程度不高，导致模型对负样本进行识别时，会误识别负样本为正样本，原因为负样本中的三个残次区域相比明显的残次品，更接近于正样本，从而导致模型对该样本的判断容易出现混淆。并且，对于整张图像而言，残次区域的特征不显著，会导致在模型中正样本和负样本的特征向量较为接近，使得模型难以区分正负样本。

综上，缺乏对负样本特征的区分处理机制，影响了模型对负样本特征的判断力，因而降低了质检模型预测结果的准确率。即使在使用深度自注意神经网络替换卷积神经网络之后，上述这些问题依旧无法从根本上得到解决。视觉工业质检任务的核心依旧是对于待质检任务的先验知识总结以及正负样本的对比学习。

因此针对上述问题，本申请主要提出一种模型训练方法，以解决在工业质检场景下，对负样本特征学习的问题，即针对现有技术中缺少对工业质检数据集特点(产品模式相对固定，大量样本为非残次品)的考虑，本申请通过在自注意力记忆神经网络层中引入存储模块，对输入提供先验信息，提高模型对残次品的判别能力。

即本申请中，为了使得模型对残次品具有更好的判别能力，可以提出一种具有融合先验非残次目标(比如非残次品)特征功能的自注意力记忆神经网络层，即自注意力记忆神经网络层中融合了包含非残次目标的正样本图像的特征，可以有效的利用质检工件固有特征提供先验信息，完成视觉工业质检任务。

下面参考附图描述本申请实施例的模型训练方法、目标识别方法、装置、设备及介质。

图1为本申请实施例一所提供的模型训练方法的流程示意图。

本申请实施例以该模型训练方法被配置于模型训练装置中来举例说明，该模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该模型训练方法可以包括以下步骤：

步骤101，获取样本图像，并对样本图像进行分块，得到多个第一子图块。

在本申请实施例中，样本图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集样本图像，或者，样本图像也可以为线下采集的图像，或者，样本图像也可以为实时采集的图像，或者，样本图像也可以为人工合成的图像，或者，样本图像也可以为从现有的测试集或训练集中获取的图像，等等，本申请实施例对此并不做限制。

在本申请实施例中，样本图像可以为多个，每个样本图像中可以标注有标注信息，本申请中记为实际标注信息。

作为一种示例，以识别模型应用于分类场景或分类任务中进行示例性说明，实际标注信息可以包括样本图像中各目标的类别。

举例而言，以该识别模型应用于工业质检场景中的分类任务进行示例，样本图像可以为包括待检测对象(比如质检产品)的图像，样本图像中的目标可以为残次区域或残次品，目标的类别可以为残次区域或残次品的类别。比如，当待检测对象为手机时，目标的类别可以包括：无残次、划伤、凹陷、黑点、白点等类别。再比如，当待检测对象为道路时，目标的类别可以包括：无残次、裂缝、凸起、凹陷等类别。

作为另一种示例，以识别模型应用于检测场景或检测任务中进行示例性说明，实际标注信息可以包括样本图像中各目标的类别，以及包含各目标的预测框(该预测框可以包含位置信息)。

举例而言，以该识别模型应用于工业质检场景中的检测任务进行示例，样本图像可以为包括待检测对象的图像，样本图像中的目标可以为残次区域或残次品，目标的类别可以为残次区域或残次品的类别，包含目标的预测框可以为包含残次区域的预测框。

在本申请实施例中，在获取到样本图像后，可以对样本图像进行分块，得到多个子图块，本申请中记为第一子图块。例如，可以将样本图像切分为n个相同尺寸的区域，得到n个第一子图块。

步骤102，分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征。

在本申请实施例中，针对每个第一子图块，可以基于特征提取算法，对该第一子图块进行特征提取，以得到该第一子图块对应的图像特征，本申请中记为子图像特征。

在本申请实施例的一种可能的实现方式中，为了提升特征提取结果的准确性和可靠性，可以基于深度学习技术，对各第一子图块进行特征提取，得到各第一子图块对应的子图像特征。例如，可以使用主流的主干网络(比如残差网络(ResNet)、DarkNet网络(使用C和CUDA编写的开源的神经网络框架)等)对第一子图块进行特征提取，得到各第一子图块对应的子图像特征。

步骤103，将各第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征。

其中，目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征。

在本申请实施例中，正样本图像可以为包含非残次目标的样本图像，比如，以该识别模型应用于工业质检场景中进行示例，正样本图像可以为包含非残次品的图像。

在本申请实施例中，识别模型中的自注意力记忆神经网络层可以存储有多个第二子图块的图像特征，即可以对正样本图像进行分块，得到各第二子图块，并对第二子图块进行特征提取，得到各第二子图块的图像特征，从而可以将提取到的各第二子图块的图像特征存储至自注意力记忆神经网络层中。

在本申请实施例中，针对每个第一子图块，可以将该第一子图块的子图像特征与自注意力记忆神经网络层中的各第二子图块的图像特征进行匹配，将与该第一子图块的子图像特征匹配的第二子图块的图像特征，作为该第一子图块对应的目标图像特征。

在本申请实施例中，针对每个第一子图块，可以根据该第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制对该第一子图块的子图像特征进行特征映射，得到该第一子图块对应的映射特征。

步骤104，将多个第一子图块的映射特征进行融合，以得到融合特征。

在本申请实施例中，可以将多个第一子图块的映射特征进行融合，得到融合特征。

作为一种示例，可以按照多个第一子图块在样本图像中的位置，将多个第一子图块的映射特征进行拼接，得到融合特征。

作为另一种示例，可以采用融合算法，对多个第一子图块的映射特征进行融合，以得到融合特征。

作为又一种示例，可以按照多个第一子图块在样本图像中的位置，将多个第一子图块的映射特征进行拼接，得到拼接特征，并将拼接特征输入卷积层，以融合得到所述融合特征。

步骤105，采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

在本申请实施例中，可以采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

作为一种可能的实现方式，以识别模型应用于分类场景或分类任务中进行示例性说明，预测层可以为FC(Fully Connected layers，全连接层)，可以采用识别模型中的FC对映射特征进行目标的类别预测，以得到样本图像的预测标注信息。其中，预测标注信息可以包括样本图像中目标所属的类别。

可以理解的是，样本图像中可以包括至少一个目标，比如样本图像中可能存在多个残次区域，因此，预测标注信息和实际标注信息中可以包括至少一个目标所属的类别。

作为另一种可能的实现方式，以识别模型应用于检测场景或检测任务中进行示例性说明，预测层可以包括两个分支，每个分支可以包括多层卷积层，即每个分支可以由多层卷积层串联得到，可以通过其中一个分支对映射特征进行目标的类别预测，得到样本图像中目标所属的类别，通过其中另一个分支对映射特征进行目标的回归预测，得到包含目标的预测框。

同样地，样本图像中可以包括至少一个目标，比如样本图像中可能存在多个残次区域，因此，预测标注信息和实际标注信息中可以包括至少一个预测框以及每个预测框中目标所属的类别。

步骤106，根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。

在本申请实施例中，可以确定预测标注信和样本图像包括的实际标注信息之间的差异，根据上述差异对识别模型进行训练。比如，可以根据上述差异，对识别模型进行训练，以使上述差异最小化，即可以根据上述差异，对识别模型的模型参数进行调整，以使上述差异最小化。

比如，可以根据上述差异，生成目标损失函数，根据目标损失函数的取值，对识别模型进行训练，以使目标损失函数的取值最小化，其中，目标损失函数的取值与上述差异为正向关系，即差异越小，目标损失函数的取值越小，反之，差异越大，目标损失函数的取值越大。

需要说明的是，上述仅以模型训练的终止条件为目标损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，等等，本申请对此并不做限制。

本申请实施例的模型训练方法，通过对样本图像进行分块，得到多个第一子图块；分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征；将各第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征；其中，目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征；将多个第一子图块的映射特征进行融合，以得到融合特征；采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息；根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。由此，通过自注意力记忆神经网络层存储包含非残次目标的正样本图像的特征，可以实现为识别模型提供正样本图像的先验信息，以根据该先验信息来实现对残次目标的检测，可以提升识别模型对残次目标的判别能力，从而提升模型的预测效果。

为了清楚说明本申请中是如何采用自注意力记忆神经网络层对各第一子图块的子图像特征进行特征映射的，本实施例提供了另一种模型训练方法。

图2为本申请实施例二所提供的模型训练方法的流程示意图。

如图2所示，该模型训练方法可以包括以下步骤：

步骤201，获取样本图像，并对样本图像进行分块，得到多个第一子图块。

步骤202，分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征。

步骤201至202的执行过程可以参见上述实施例的执行过程，在此不做赘述。

步骤203，获取识别模型中的自注意力记忆神经网络层存储的多个正例图像特征，其中，多个正例图像特征，是对正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的。

在本申请实施例中，正样本图像的解释说明可以参见上述实施例，在此不做赘述。

在本申请实施例中，可以对正样本图像进行分块，得到多个第二子图块，并对多个第二子图块进行特征提取，得到多个正例图像特征，并将多个正例图像特征存储至自注意力记忆神经网络层中。

步骤204，从多个正例图像特征中，分别确定与各第一子图块的子图像特征匹配的目标图像特征。

在本申请实施例中，可以获取识别模型中自注意力记忆神经网络层存储的多个正例图像特征，从多个正例图像特征中，分别确定与各第一子图块的子图像特征匹配的目标图像特征。

在本申请实施例的一种可能的实现方式中，针对每个第一子图块，可以确定该第一子图块的子图像特征与多个正例图像特征之间的相似度，将最高相似度对应的正例图像特征，作为与该第一子图块的子图像特征匹配的目标图像特征。

作为一种示例，标记第一子图块的个数为n，正例图像特征的个数为m，假设第j个第一子图块的子图像特征为q_j，1≤j≤n，第i个正例图像特征为p_i，1≤i≤m，则可以通过计算q_j与p_i的余弦相似度，来确定与q_j最相关的目标图像特征，即可以通过下述公式(1)，确定与q_j匹配或最相关的目标图像特征：

m_j＝argmax_1≤i≤mcosine(q_j,p_i),q'_j＝p_mj；(1)

其中，q'_j表示与q_j匹配的目标图像特征。

步骤205，根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，对各第一子图块的子图像特征采用注意力机制进行特征映射，得到各第一子图块对应的映射特征。

在本申请实施例中，可以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，对各第一子图块的子图像特征采用注意力机制进行特征映射，得到各第一子图块对应的映射特征。

步骤206，将多个第一子图块的映射特征进行融合，以得到融合特征。

步骤207，采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

步骤208，根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。

步骤206至207的执行过程可以参见上述实施例的执行过程，在此不做赘述。

本申请实施例的模型训练方法，通过自注意力记忆神经网络层存储包含非残次目标的正样本图像的特征，可以实现为识别模型提供正样本图像的先验信息，以根据该先验信息来实现对残次目标的检测，可以提升识别模型对残次目标的判别能力，从而提升模型的预测效果。

为了清楚说明本申请中是如何根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，对各第一子图块的子图像特征采用注意力机制进行特征映射的，本实施例提供了另一种模型训练方法。

图3为本申请实施例三所提供的模型训练方法的流程示意图。

如图3所示，该模型训练方法可以包括以下步骤：

步骤301，获取样本图像，并对样本图像进行分块，得到多个第一子图块。

步骤302，分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征。

步骤303，获取自注意力记忆神经网络层存储的多个正例图像特征，其中，多个正例图像特征，是对正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的。

步骤304，从多个正例图像特征中，分别确定与各第一子图块的子图像特征匹配的目标图像特征。

步骤301至304的执行过程可以参见上述任一实施例的执行过程，在此不做赘述。

步骤305，针对每个第一子图块，根据匹配的目标图像特征与多个第一子图块的子图像特征，确定该第一子图块对应的键值特征。

例如，针对第i个第一子图块的子图像特征q_i，1≤i≤n，n为第一子图块的个数，假设与q_i匹配的目标图像特征为q'_i，则q_i对应的键值特征V可以为：

V＝{q₁,…,q_n}∪{q'_i}； (2)

步骤306，根据该第一子图块的子图像特征和对应目标图像特征之间的相似度，确定中间特征。

在本申请实施例中，可以根据该第一子图块的子图像特征和对应目标图像特征之间的相似度，确定该第一子图块对应的中间特征。仍以上述例子示例，中间特征可以为

其中，

为带符号的向量开方操作。

步骤307，将中间特征与键值特征内积后进行归一化，得到注意力权值。

在本申请实施例中，可以将中间特征与键值特征内积后进行归一化，得到注意力权值。仍以上述例子示例，注意力取值可以为:

其中，softmax为激活函数，d为子图像特征的向量维数。

步骤308，根据注意力权值对键值特征进行加权，以得到该第一子图块对应的映射特征。

在本申请实施例中，可以根据注意力权值对键值特征进行加权，得到该第一子图块对应的映射特征。

例如，可以根据下述公式(3)，确定第i个第一子图块对应的映射特征：

其中，Attention(q_i)表示第i个第一子图块对应的映射特征。

综上，注意力机制不仅考虑了当前计算的第一子图块的子图像特征与其他第一子图块的子图像特征的关联性，还考虑到当前计算的第一子图块的子图像特征与对应目标图像特征之间的关联性，即上述任意一个关联性越大，注意力权值越大。通过上述方式，可以使得识别模型能够捕捉到图像中的重要信息，提升模型的预测效果。

步骤309，将多个第一子图块的映射特征进行融合，以得到融合特征。

步骤310，采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

步骤311，根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。

步骤309至311的执行过程可以参见上述任一实施例的执行过程，在此不做赘述。

本申请实施例的模型训练方法，通过注意力机制，来实现对各第一子图块的子图像特征进行特征映射，可以使得识别模型能够捕捉图像中的重要信息，提升模型的预测效果。

在本申请实施例的一种可能的实现方式中，还可以根据训练过程中的样本图像对正例图像特征进行动态更新，以保证正样本图像的图像特征被自注意力记忆神经网络层有效存储。下面结合图4，对上述过程进行详细说明。

图4为本申请实施例四所提供的模型训练方法的流程示意图。

如图4所示，该模型训练方法可以包括以下步骤：

步骤401，获取样本图像，并对样本图像进行分块，得到多个第一子图块。

步骤402，分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征。

步骤403，获取自注意力记忆神经网络层存储的多个正例图像特征，其中，多个正例图像特征，是对正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的。

步骤401至403的执行过程可以参见上述任一实施例的执行过程，在此不做赘述。

步骤404，针对每个第一子图块，确定第一子图块的子图像特征与多个正例图像特征之间的相似度。

在本申请实施例中，针对每个第一子图块，可以计算该第一子图块的子图像特征与多个正例图像特征之间的相似度。比如，可以计算该第一子图块的子图像特征与多个正例图像特征之间的余弦相似度。

步骤405，根据第一子图块的子图像特征与多个正例图像特征之间的相似度，确定第一子图块的子图像特征与多个正例图像特征之间的权重。

在本申请实施例中，针对每个第一子图块，可以根据该第一子图块的子图像特征与多个正例图像特征之间的相似度，确定该第一子图块的子图像特征与多个正例图像特征之间的权重。

作为一种示例，针对第j个第一子图块的子图像特征q_j，1≤j≤n，该q_j与第i个正例图像特征p_i之间的权重可以为：

其中，v_i,j为q_j与p_i之间的权重，1≤i≤m，m为自注意力记忆神经网络层存储的正例图像特征的个数。

进一步地，还可以对v_i,j进行标准化，得到标准化的权重：

步骤406，针对每个正例图像特征，根据正例图像特征与多个第一子图块的子图像特征之间的权重，对多个第一子图块的子图像特征进行加权，得到加权图像特征。

在本申请实施例中，针对每个正例图像特征，可以根据该正例图像特征与多个第一子图块的子图像特征之间的权重，对多个第一子图块的子图像特征进行加权，得到加权图像特征。

作为一种示例，针对第i个正例图像特征p_i，对应的加权图像特征可以为：

或

步骤407，根据加权图像特征对正例图像特征进行更新，得到更新后的正例图像特征。

在本申请实施例中，针对每个正例图像特征，可以根据对应的加权图像特征对该正例图像特征进行更新，得到更新后的正例图像特征。

作为一种示例，针对第i个正例图像特征p_i，可以通过下述公式，对该p_i进行更新：

或者，

其中，公式(6)中的f表示L2正则化操作。

需要说明的是，可以在步骤401获取的样本图像为正样本图像(包含非残次目标的图像)的情况下，执行步骤404至407，而在步骤401获取的样本图像为负样本图像(包含残次目标的图像)的情况下，可以无需执行步骤404至407。或者，考虑到正样本图像和负样本图像比例悬殊，分布极端不平衡的正样本图像和负样本图像，可以保证自注意力记忆神经网络层存储的绝大多数对应的为与正样本图像相关的特征，即无论步骤401获取的样本图像为正样本图像还是负样本图像，均可以执行步骤404至407，本申请对此并不作限制。

步骤408，从更新后的多个正例图像特征中，分别确定与各第一子图块的子图像特征匹配的目标图像特征。

步骤409，根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，对各第一子图块的子图像特征采用注意力机制进行特征映射，得到各第一子图块对应的映射特征。

步骤410，将多个第一子图块的映射特征进行融合，以得到融合特征。

步骤411，采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

步骤412，根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。

步骤408至412的执行过程可以参见上述任一实施例的执行过程，在此不做赘述。

作为一种示例，识别模型的结构可以如图5所示，该识别模型可以包括多层自注意力记忆神经网络层。在利用包含待检测对象(比如质检产品)的样本图像对识别模型进行训练之前，可以将样本图像进行随机翻转、缩放剪裁等可以提高模型泛化能力的数据增强操作。之后，可以将样本图像切分为n个相同尺寸的区域，输入识别模型中的自注意力记忆神经网络层。

具体地，考虑到工业质检场景中，绝大多数样本为正样本图像，只有极少数的负样本图像(包含残次目标或残次品的图像)，可以将n个子图块的子图像特征与自注意力记忆神经网络层存储的正例图像特征进行比对，确定与各子图块最为相似的正例图像特征，同时利用正样本图像和负样本图像分布差异悬殊的特点，将大量的相似的图像特征进行聚类更新，以保证正样本图像的特征被有效存储。

其中，自注意力记忆神经网络层可以包括存储运算模块和自注意力运算模块。其中，存储运算模块主要涉及以下两组运算操作：更新与查询。其中：

第一，更新：为了更新自注意力记忆神经网络层存储的正例图像特征，针对样本图像中的每个子图块的子图像特征，可以查询与该子图像特征匹配的正例图像特征，然后通过对判断结果加权的方式，结合子图像特征，来进一步修正自注意力记忆神经网络层存储的正例图像特征，由此，将使得自注意力记忆神经网络层存储的正例图像特征，能够根据样本图像中的子图块来做出相应调整，达到记忆学习的效果。具体地，可以将自注意力记忆神经网络层存储的正例图像特征p_i与样本图像中的子图像特征q_j计算余弦相似度，然后进行归一化后得到q_j与p_i之间的权重：

其中，1≤j≤n，n为样本图像中子图块的个数，1≤i≤m，m为自注意力记忆神经网络层存储的正例图像特征的个数。

进一步地，对所有查询的权重v_i,j重新标准化后，得到标准化的权重：

最终，可以将样本图像中的n个子图像特征融合到自注意力记忆神经网络层存储的正例图像特征中，得到更新后的正例图像特征：

第二，查询：对于样本图像中的每个子图块，可以查询与该子图块最为相似的正例图像特征。具体地，可以计算每个子图像特征q_j与更新后的所有正例图像特征p_i之间的余弦相似度，确定与q_j最为相关的正例图像特征，作为目标图像特征q'_j：

由于在工业质检任务中，正样本图像和负样本图像比例悬殊，根据公式(4)的权重计算方式，在正例图像特征更新的过程中，分布极端不均衡的正样本图像和负样本图像，保证了自注意力记忆神经网络层存储的正例图像特征，绝大多数对应的是与正样本图像相关的特征。最后，在查询过程中，对于无论是正样本图像还是负样本图像，均只返回一个与之对应的最为相似的正例图像特征作为查询结果，确保每次查询返回的结果与对应子图块的子图像特征的相关性。

其中，自注意力运算模块：将样本图像的所有子图块的子图像特征q₁,…,q_n，与对应的最为相似的正例图像特征q'₁,…,q'_n进行整合，之后进行自注意力运算。在本申请中，对于样本图像中子图块的子图像特征q_i，可以设定进行自注意力运算的范围为V＝{q₁,…,q_n}∪{q'_i}，其中，在{q₁,…,q_n}中的自注意力运算刻画当前计算的子图块的子图像特征与其他子图块的子图像特征的相互关联性。同时，在本申请中，q_i在与V的自注意力运算之前会首先与q'_i进行乘法操作，这一步是为了刻画当前计算的子图块的子图像特征与对应的目标图像特征之间的关联性和差异性。具体地，对于任意一个子图块的子图像特征，自注意力运算过程可以如下述公式所示：

通过公式(3)，可以为每个子图块的子图像特征，计算得到与之对应的自注意力输出结果，本申请中记为映射特征Attention(q_i)，可以将每个子图块对应的映射特征输入至下一层自注意力记忆神经网络层中。

经过多层自注意力记忆神经网络层的特征映射或特征变换之后，可以得到最后一层自注意力记忆神经网络层输出的各子图块对应的映射特征，由此，可以综合考虑整个图像训练数据集中的正样本图像的特征信息，以及当前样本图像中各个子图块的相互关联之后的特征向量(即映射特征)。最后一层自注意力记忆神经网络层输出的各子图块对应的映射特征，可以直接输入到残次品检测/残次区域检测/残次区域分割等任务的损失函数上，进行端到端的神经网络训练。

通过上述方式，在工业数据集SDNET2018、KolektorSDD、TIG_Aluminium等上，对识别模型进行训练，可以实现在只使用50％训练数据情况下，取得了与采用标准自注意力模型以及深度卷积神经网络模型相当的性能。可以有效地挖掘工业质检场景中正样本图像和负样本图像之间的差异，可以有效减少模型训练对于标注数据量的依赖，可以极大的缩减模型开发周期和成本。

需要说明的是，视觉工业质检是智能制造中非常重要的一环，也是新一代智能供应链必不可少的组成部分。传统视觉工业质检需要投入大量的人力财力，成本较高，且质检质量不可控。而基于深度学习的视觉工业质检技术，虽然只需要利用强大的算力支撑就可以在一定程度取代人工完成质检任务，但是基于深度学习的视觉工业质检模型的训练却需要大量的标注数据。这主要是由于现有的工业质检模型无法深入挖掘工业质检场景中正负样本的差异信息。

而本申请提出的包含多层自注意力记忆神经网络层的识别模型，将记忆力网络与自注意力网络融合，在应用到工业质检领域的图像特征学习或者其他图像分类/检测/分割任务中时，可以有效利用工业质检任务中正样本图像和负样本图像数量悬殊这一特点，自适应地记录整个训练数据中的正样本图像中的图像特征，与输入的图像特征进行对比/关联，在提升模型性能的同时，极大地减少了模型训练对于数据标注的依赖性，大幅缩减的模型的开发周期、降低了数据标注成本。

上述为识别模型的训练方法所对应的各实施例，本申请还提出一种识别模型的应用方法，即该识别模型用于目标识别。

图6为本申请实施例五所提供的目标识别方法的流程示意图。

如图6所示，该目标识别方法可以包括以下步骤：

步骤601，获取待检测图像，并对待检测图像进行分块，得到多个子图块。

在本申请实施例中，待检测图像可以为在线采集的图像，比如可以通过网络爬虫技术，在线采集待检测图像，或者，待检测图像也可以为线下采集的图像，或者，待检测图像也可以为实时采集的图像，或者，待检测图像也可以为人工合成的图像，或者，待检测图像也可以为从现有的测试集中获取的图像，等等，本申请实施例对此并不做限制。

在本申请实施例中，在获取到待检测图像后，可以对待检测图像进行分块，得到多个子图块。例如，可以将待检测图像切分为n个相同尺寸的区域，得到n个子图块。

步骤602，分别对多个子图块进行特征提取，以得到多个子图块对应的子图像特征。

在本申请实施例中，针对每个子图块，可以基于特征提取算法，对该子图块进行特征提取，以得到该子图块对应的图像特征，本申请中记为子图像特征。

步骤603，将各子图块对应的子图像特征输入识别模型的自注意力记忆神经网络层，以输出得到各子图块对应的映射特征。

其中，识别模型为采用上述图1至图4任一实施例所示的模型训练方法训练得到的。需要说明的是，前述对模型训练方法实施例的解释说明也适用于该实施例，其实现原理类似，此处不做赘述。

在本申请实施例中，可以将各子图块对应的子图像特征输入识别模型的自注意力记忆神经网络层，以由自注意力记忆神经网络层输出各子图块对应的映射特征。即自注意力记忆神经网络层可以根据各子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制对相应子图块的子图像特征进行特征映射，得到各子图块对应的映射特征。

步骤604，将多个子图块的映射特征进行融合，以得到融合特征。

作为一种示例，可以按照多个子图块在待检测图像中的位置，将多个子图块的映射特征进行拼接，得到融合特征。

作为另一种示例，可以采用融合算法，对多个子图块的映射特征进行融合，以得到融合特征。

作为又一种示例，可以按照多个子图块在样本图像中的位置，将多个子图块的映射特征进行拼接，得到拼接特征，并将拼接特征输入卷积层，以融合得到所述融合特征。

步骤605，采用识别模型中的预测层，对融合特征进行目标预测，得到目标的识别结果。

作为一种可能的实现方式，以识别模型应用于分类场景或分类任务中进行示例性说明，预测层可以为FC(Fully Connected layers，全连接层)，可以采用识别模型中的FC对映射特征进行目标的类别预测，以得到目标的识别结果。其中，识别结果可以包括待检测图像中目标所属的类别。

举例而言，以该识别模型应用于工业质检场景中的分类任务进行示例，待检测图像可以为包括待检测对象的图像，待检测图像中的目标可以为残次区域或残次品，目标的类别可以为残次区域或残次品的类别。比如，当待检测对象为手机时，目标的类别可以包括：无残次、划伤、凹陷、黑点、白点等类别。再比如，当待检测对象为道路时，目标的类别可以包括：无残次、裂缝、凸起、凹陷等类别。

作为另一种可能的实现方式，以识别模型应用于检测场景或检测任务中进行示例性说明，预测层可以包括两个分支，每个分支可以包括多层卷积层，即每个分支可以由多层卷积层串联得到，可以通过其中一个分支对映射特征进行目标的类别预测，得到待检测图像中目标所属的类别，通过其中另一个分支对映射特征进行目标的回归预测，得到包含目标的预测框。也就是说，识别结果可以包括待检测图像中目标所属的类别，以及包含目标的预测框。

举例而言，以该识别模型应用于工业质检场景中的检测任务进行示例，样本图像可以为包括待检测对象的图像，样本图像中的目标可以为残次区域，目标的类别可以为残次区域的类别，包含目标的预测框可以为包含残次区域的预测框。

本申请实施例的目标识别方法，通过获取待检测图像，并对待检测图像进行分块，得到多个子图块；分别对多个子图块进行特征提取，以得到多个子图块对应的子图像特征；将各子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各子图块对应的映射特征；将多个子图块的映射特征进行融合，以得到融合特征；采用识别模型中的预测层，对融合特征进行目标预测，得到目标的识别结果。由此，基于深度学习技术，对待检测图像进行目标预测，可以提升预测结果的准确性和可靠性。

与上述图1至图4实施例提供的模型训练方法相对应，本申请还提供一种模型训练装置，由于本申请实施例提供的模型训练装置与上述图1至图4实施例提供的模型训练方法相对应，因此在模型训练方法的实施方式也适用于本申请实施例提供的模型训练装置，在本申请实施例中不再详细描述。

图7为本申请实施例六所提供的模型训练装置的结构示意图。

如图7所示，该模型训练装置700可以包括：获取模块710、切分模块720、提取模块730、输入模块740、融合模块750、预测模块760以及训练模块770。

其中，获取模块710，用于获取样本图像。

切分模块720，用于对样本图像进行分块，得到多个第一子图块。

提取模块730，用于分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征。

输入模块740，用于将各第一子图块对应的子图像特征输入识别模型的自注意力记忆神经网络层，以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征；其中，目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征。

融合模块750，用于将多个第一子图块的映射特征进行融合，以得到融合特征。

预测模块760，用于采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息。

训练模块770，用于根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。

在本申请实施例的一种可能的实现方式中，输入模块740，可以包括：

获取单元，用于获取自注意力记忆神经网络层存储的多个正例图像特征，其中，多个正例图像特征，是对正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的。

确定单元，用于从多个正例图像特征中，分别确定与各第一子图块的子图像特征匹配的目标图像特征。

映射单元，用于根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，对各第一子图块的子图像特征采用注意力机制进行特征映射，得到各第一子图块对应的映射特征。

在本申请实施例的一种可能的实现方式中，确定单元，具体用于：针对每个第一子图块，确定对应的子图像特征与多个正例图像特征之间的相似度；将最高相似度对应的正例图像特征，作为与第一子图块的子图像特征匹配的目标图像特征。

在本申请实施例的一种可能的实现方式中，映射单元，具体用于：针对每个第一子图块，根据匹配的目标图像特征与多个第一子图块的子图像特征，确定第一子图块对应的键值特征；根据第一子图块的子图像特征和对应目标图像特征之间的相似度，确定中间特征；将中间特征与键值特征内积后进行归一化，得到注意力权值；根据注意力权值对键值特征进行加权，以得到第一子图块对应的映射特征。

在本申请实施例的一种可能的实现方式中，确定单元，还用于针对每个第一子图块，确定第一子图块的子图像特征与多个正例图像特征之间的相似度，并根据第一子图块的子图像特征与多个正例图像特征之间的相似度，确定第一子图块的子图像特征与多个正例图像特征之间的权重。

输入模块740，还可以包括：

加权单元，用于针对每个正例图像特征，根据正例图像特征与多个第一子图块的子图像特征之间的权重，对多个第一子图块的子图像特征进行加权，得到加权图像特征。

更新单元，用于根据加权图像特征对正例图像特征进行更新，得到更新后的正例图像特征。

在本申请实施例的一种可能的实现方式中，预测模块760，具体用于：采用预测层中的全连接层，对融合特征进行目标的类别预测，以得到目标所属的类别。

在本申请实施例的一种可能的实现方式中，预测模块760，具体用于：采用预测层中的第一分支，对融合特征进行目标的类别预测，得到目标所属的类别；采用预测层中的第二分支，对融合特征进行目标的回归预测，得到包含目标的预测框。

本申请实施例的模型训练装置，通过对样本图像进行分块，得到多个第一子图块；分别对多个第一子图块进行特征提取，以得到多个第一子图块对应的子图像特征；将各第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各第一子图块对应的映射特征；其中，目标图像特征，是包含非残次目标的正样本图像划分的各第二子图块的图像特征中，与对应第一子图块的子图像特征匹配的图像特征；将多个第一子图块的映射特征进行融合，以得到融合特征；采用识别模型中的预测层，对融合特征进行目标预测，得到预测标注信息；根据预测标注信息与样本图像包括的实际标注信息之间的差异，对识别模型进行训练。由此，通过自注意力记忆神经网络层存储包含非残次目标的正样本图像的特征，可以实现为识别模型提供正样本图像的先验信息，以根据该先验信息来实现对残次目标的检测，可以提升识别模型对残次目标的判别能力，从而提升模型的预测效果。

与上述图6实施例提供的目标识别方法相对应，本申请还提供一种目标识别装置，由于本申请实施例提供的模型训练装置与上述图6实施例提供的目标识别方法相对应，因此在目标识别方法的实施方式也适用于本申请实施例提供的目标识别装置，在本申请实施例中不再详细描述。

图8为本申请实施例七所提供的目标识别装置的结构示意图。

如图8所示，该模型训练装置800可以包括：获取模块810、切分模块820、提取模块830、输入模块840、融合模块850以及预测模块860。

其中，获取模块810，用于获取待检测图像。

切分模块820，用于对待检测图像进行分块，得到多个子图块。

提取模块830，用于分别对多个子图块进行特征提取，以得到多个子图块对应的子图像特征。

输入模块840，用于将各子图块对应的子图像特征输入识别模型的自注意力记忆神经网络层，以输出得到各子图块对应的映射特征。其中，所述识别模型是采用如图7实施例所述的装置训练得到的。

融合模块850，用于将多个子图块的映射特征进行融合，以得到融合特征。

预测模块860，用于采用识别模型中的预测层，对融合特征进行目标预测，得到目标的识别结果。

本申请实施例的模型训练装置，通过获取待检测图像，并对待检测图像进行分块，得到多个子图块；分别对多个子图块进行特征提取，以得到多个子图块对应的子图像特征；将各子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各子图块对应的映射特征；将多个子图块的映射特征进行融合，以得到融合特征；采用识别模型中的预测层，对融合特征进行目标预测，得到目标的识别结果。由此，基于深度学习技术，对待检测图像进行目标预测，可以提升预测结果的准确性和可靠性。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述任一实施例提出的模型训练方法，或者，实现如本申请前述实施例提出的目标识别方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述任一实施例提出的模型训练方法，或者，实现如本申请前述实施例提出的目标识别方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请前述任一实施例提出的模型训练方法，或者，实现如本申请前述实施例提出的目标识别方法。

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种模型训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述将各所述第一子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征，包括：

获取所述自注意力记忆神经网络层存储的多个正例图像特征，其中，所述多个正例图像特征，是对所述正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的；

从所述多个正例图像特征中，分别确定与各所述第一子图块的子图像特征匹配的目标图像特征；

根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，对各所述第一子图块的子图像特征采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征。

3.根据权利要求2所述的方法，其特征在于，所述从所述多个正例图像特征中，分别确定与各所述第一子图块的子图像特征匹配的目标图像特征，包括：

针对每个所述第一子图块，确定对应的子图像特征与多个所述正例图像特征之间的相似度；

将最高相似度对应的正例图像特征，作为与所述第一子图块的子图像特征匹配的目标图像特征。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，对各所述第一子图块的子图像特征采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征，包括：

针对每个所述第一子图块，根据匹配的目标图像特征与多个所述第一子图块的子图像特征，确定所述第一子图块对应的键值特征；

根据所述第一子图块的子图像特征和对应目标图像特征之间的相似度，确定中间特征；

将所述中间特征与所述键值特征内积后进行归一化，得到注意力权值；

根据注意力权值对所述键值特征进行加权，以得到所述第一子图块对应的映射特征。

5.根据权利要求2所述的方法，其特征在于，所述获取所述自注意力记忆神经网络层存储的多个正例图像特征之后，所述方法还包括：

针对每个所述第一子图块，确定所述第一子图块的子图像特征与多个所述正例图像特征之间的相似度；

根据所述第一子图块的子图像特征与多个所述正例图像特征之间的相似度，确定所述第一子图块的子图像特征与多个所述正例图像特征之间的权重；

针对每个所述正例图像特征，根据所述正例图像特征与多个所述第一子图块的子图像特征之间的权重，对多个所述第一子图块的子图像特征进行加权，得到加权图像特征；

根据所述加权图像特征对所述正例图像特征进行更新，得到更新后的所述正例图像特征。

6.根据权利要求1-5任一项所述的方法，其中，所述采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到预测标注信息，包括：

采用所述预测层中的全连接层，对所述融合特征进行目标的类别预测，以得到所述目标所属的类别。

7.根据权利要求1-5任一项所述的方法，其中，所述采用所述识别模型中的预测层，对所述融合特征进行目标预测，得到预测标注信息，包括：

采用所述预测层中的第一分支，对所述融合特征进行目标的类别预测，得到所述目标所属的类别；

采用所述预测层中的第二分支，对所述融合特征进行目标的回归预测，得到包含所述目标的预测框。

8.一种目标识别方法，其特征在于，所述方法包括以下步骤：

将各所述子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各所述子图块对应的映射特征；其中，所述识别模型是采用如权利要求1-7任一项所述的方法训练得到的；

将多个所述子图块的映射特征进行融合，以得到融合特征；

9.一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本图像；

10.根据权利要求9所述的装置，其特征在于，所述输入模块，包括：

获取单元，用于获取所述自注意力记忆神经网络层存储的多个正例图像特征，其中，所述多个正例图像特征，是对所述正样本图像进行分块后得到的各第二子图块，进行特征提取后得到的；

确定单元，用于从所述多个正例图像特征中，分别确定与各所述第一子图块的子图像特征匹配的目标图像特征；

映射单元，用于根据各所述第一子图块的子图像特征与对应目标图像特征之间的相似度，对各所述第一子图块的子图像特征采用注意力机制进行特征映射，得到各所述第一子图块对应的映射特征。

11.根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述映射单元，具体用于：

13.根据权利要求10所述的装置，其特征在于，

所述确定单元，还用于针对每个所述第一子图块，确定所述第一子图块的子图像特征与多个所述正例图像特征之间的相似度，并根据所述第一子图块的子图像特征与多个所述正例图像特征之间的相似度，确定所述第一子图块的子图像特征与多个所述正例图像特征之间的权重；

所述输入模块，还包括：

加权单元，用于针对每个所述正例图像特征，根据所述正例图像特征与多个所述第一子图块的子图像特征之间的权重，对多个所述第一子图块的子图像特征进行加权，得到加权图像特征；

更新单元，用于根据所述加权图像特征对所述正例图像特征进行更新，得到更新后的所述正例图像特征。

14.根据权利要求9-13任一项所述的装置，其中，所述预测模块，具体用于：

15.根据权利要求9-13任一项所述的装置，其中，所述预测模块，具体用于：

16.一种目标识别装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

输入模块，用于将各所述子图块对应的子图像特征输入识别模型中的自注意力记忆神经网络层，以输出得到各所述子图块对应的映射特征；其中，所述识别模型是采用如权利要求9-15任一项所述的装置训练得到的；

17.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的方法，或者，实现如权利要求8所述的方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法，或者，实现如权利要求8所述的方法。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-7中任一所述的方法，或者，执行如权利要求8所述的方法。