CN114595352A

CN114595352A - 一种图像识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN114595352A
Application number: CN202210182070.8A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-07

Abstract

本发明实施例提供了一种图像识别方法、装置、电子设备及可读存储介质，该方法包括：获取待识别图像；将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征；图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；对象类别标签用于描述样本图像中的对象所属的类别；利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到；将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像。根据本发明的实施例，能够快速准确地确定待识别图像的相似图像。

Description

一种图像识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像识别方法、装置、电子设备及可读存储介质。

背景技术

随着信息技术和人工智能的不断发展，图像识别得到广泛应用，比如应用于在线购物中的识别同款或相似款的商品图像等。目前，通常采用提取待识别图像的图像特征的方式来进行相似的图像检索。

但是，当待识别图像中的目标对象的姿态或拍摄视角发生变化时，图像特征也会产生较大变化，导致识别效率和准确度低。

发明内容

本发明实施例的目的在于提供一种图像识别方法、装置、电子设备及可读存储介质，能够快速准确地确定待识别图像的相似图像。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图像识别方法，包括：

获取待识别图像；

将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征；图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；对象类别标签用于描述样本图像中的对象所属的类别；

利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到；

将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像。

在本发明实施的第二方面，还提供了一种图像识别装置，包括：

获取模块，用于获取待识别图像；

输入模块，用于将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征；图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；对象类别标签用于描述样本图像中的对象所属的类别；

提取模块，还用于利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到；

确定模块，用于将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的图像识别方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像识别方法。

本发明实施例提供的图像识别方法，通过将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征。由于图像识别模型是根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到，所以能够精准的提取出待识别图像的全局特征和第一局部特征。然后将根据全局特征从预设图像库中筛选得到的多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征，这里，通过图像识别模型也能精准的提取出候选图像的第二局部特征。由于第一局部特征和第二局部特征都能够有效代表待识别图像和候选图像的图像特征，可以通过对第一局部特征和第二局部特征进行空间一致性确认，如果满足空间一致性，即可以互相进行空间变换得到，说明这两个局部特征代表的是同一目标对象的特征，也就是说候选图像和待识别图像中的目标对象是一致的。因此，将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像，能够快速准确地确定待识别图像的相似图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种图像识别方法的流程图；

图2是本发明实施例提供的一种图像识别模型的训练方法的流程图；

图3是本发明实施例提供的一种图像识别模型结构示意图；

图4是本发明实施例提供的一种图像识别模型的训练过程和应用过程的示意图；

图5是本发明实施例提供的一种图像识别装置结构示意图；

图6是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例提供的图像识别方法至少可以应用于下述应用场景中，下面进行说明。

随着图像识别得到了广泛应用，比如应用于在线购物中的识别同款商品图像等，目前，通常采用提取待识别图像的图像特征的方式来进行用于同款或相似款的图像检索。例如人物穿着同一件连衣裙的上半身局部特写与全身图像，服饰区域的图像特征可能会产生较大变化，导致商品库中相似款服饰无法被正确识别到，导致识别效率和准确度低的问题。

基于上述应用场景，下面对本发明实施例提供的图像识别方法进行详细说明。

下面对本发明实施例提供的图像识别方法进行说明。

图1为本发明实施例提供的一种图像识别方法的流程图。

如图1所示，该图像识别方法可以包括步骤110-步骤140，该方法应用于图像识别装置，具体如下所示：

步骤110，获取待识别图像。

步骤120，将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征；图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；对象类别标签用于描述样本图像中的对象所属的类别。

步骤130，利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到。

步骤140，将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像。

在本发明实施例中，通过将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征。由于图像识别模型是根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到，所以能够精准的提取出待识别图像的全局特征和第一局部特征。然后将根据全局特征从预设图像库中筛选得到的多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征，这里，通过图像识别模型也能精准的提取出候选图像的第二局部特征。由于第一局部特征和第二局部特征都能够有效代表待识别图像和候选图像的图像特征，可以通过对第一局部特征和第二局部特征进行空间一致性确认，如果满足空间一致性，即可以互相进行空间变换得到，说明这两个局部特征代表的是同一目标对象的特征，也就是说候选图像和待识别图像中的目标对象是一致的。其中，空间一致性是指待识别图像的第一局部特征与候选图像的第二局部特征中符合特征一致性(例如特征相似度>0.8)的子集对应的局部特征点空间坐标符合透视变化换仿射变换等约束。因此，将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像，能够快速准确地确定待识别图像的相似图像。

下面介绍上述各个步骤的具体实现方式。

涉及步骤110。

获取待识别图像。

其中，待识别图像中包括目标对象。

涉及步骤120。

将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征。全局特征用于表征待识别图像的整体的特征，第一局部特征用于表征待识别图像的局部的特征。

图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；其中，对象类别标签用于描述样本图像中的对象所属的类别。以样本图像为服饰图像为例，与服饰图像对应的对象类别标签可以包括：衬衫、裙子和裤子等。

涉及步骤130。

利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到。

其中，步骤130，具体可以包括以下步骤：

根据全局特征从预设图像库中筛选得到候选图像；将多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征。

这里，可以基于全局特征对预设图像库进行粗筛，得到与待识别图像一定程度相似的候选图像。

涉及步骤140。

对第一局部特征和第二局部特征，进行空间一致性确认，将满足空间一致性条件的第二局部特征对应的候选图像确定为待识别图像的相似图像。

空间一致性是指待识别图像的第一局部特征与候选图像的第二局部特征中符合特征一致性(例如特征相似度>0.8)的子集，对应的局部特征点空间坐标符合透视变化换仿射变换等约束。

在一种可能的实施例中，步骤140，包括：

比较第一局部特征和第二局部特征，确定特征相似度；

根据特征相似度分别从第一局部特征中提取第一相似特征，从第二局部特征中提取第二相似特征，第一相似特征和第二相似特征的特征相似度大于预设阈值；

验证第一相似特征在第一局部特征中的空间坐标，和第二相似特征在第二局部特征中的空间坐标是否符合空间一致性；

将符合空间一致性的第二相似特征对应的候选图像确定为待识别图像的相似图像。

首先，具体可以使用随机抽样一致(Random Sample Consensus，RANSAC)的方法，对待识别图像与候选图像的第一局部特征和第二局部特征的空间一致性进行确认，将符合空间一致性的候选图像，确定为待识别图像的相似图像。

其中，RANSAC是根据一组包含异常数据的样本数据集，计算出数据的数学模型参数，得到有效样本数据的算法。

比较第一局部特征和第二局部特征，确定特征相似度，具体可以包括：根据随机抽样一致算法，提取第一局部特征的第一有效特征，和提取第二局部特征的第二有效特征。比较第一有效特征和第二有效特征，确定特征相似度。

其中，提取第一局部特征的第一有效特征，和提取第二局部特征的第二有效特征，具体可以为：一张图像对应局部特征的尺寸可以为HxWxD，其中每个空间位置(y，x)对应一个D维的局部特征，一张图像对应的局部特征响应图的尺寸为HxWx1，响应超过预设阈值的空间位置的局部特征即认为是有效局部特征；预设阈值可根据经验设置典型值，例如0.8或0.9。

然后，根据特征相似度分别从第一局部特征中提取第一相似特征，从第二局部特征中提取第二相似特征，第一相似特征和第二相似特征的特征相似度大于预设阈值。即分别从待识别图像和候选图像的局部特征中提取出特征相似度大于预设阈值的一些局部特征。

由此，可以对待识别图像和候选图像的局部特征进行比较，找到特征相似度大于阈值的相似特征集合，这些相似特征集合用于验证相似特征对应的空间坐标是否符合空间一致性约束，即局部特征的坐标是否符合仿射变换或透视变换等约束。

最后，将符合空间一致性的第二相似特征对应的候选图像确定为待识别图像的相似图像。

在本发明实施例中，通过将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征。由于图像识别模型是根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到，所以能够精准的提取出待识别图像的全局特征和第一局部特征。然后将根据全局特征从预设图像库中筛选得到的多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征，这里，通过图像识别模型也能精准的提取出候选图像的第二局部特征。由于第一局部特征和第二局部特征都能够有效代表待识别图像和候选图像的图像特征，可以通过对第一局部特征和第二局部特征进行空间一致性确认，如果满足空间一致性，即可以互相进行空间变换得到，说明这两个局部特征代表的是同一目标对象的特征，也就是说候选图像和待识别图像中的目标对象是一致的。因此，将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像，能够快速准确地确定待识别图像的相似图像。

下面接着对本发明实施例提供的图像识别模型的训练过程进行说明。

如图2所示，该图像识别模型的训练过程可以包括步骤210-步骤240，具体如下所示：

在一种可能的实施例中，在步骤120之前，方法还包括：

步骤210，获取多个训练样本，训练样本包括样本图像和与样本图像相对应的对象类别标签。

步骤220，将样本图像输入至预设神经网络，输出样本图像的图像特征和类别特征。

步骤230，根据图像特征、类别特征和对象类别标签，确定多个损失值。

步骤240，根据多个损失值对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型。

通过本发明的实施例，通过根据样本图像的图像特征、类别特征和预先标记的对象类别标签，确定多个误差度量，并根据多个误差度量对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型，这里，能够通过多个误差度量不断缩小预设神经网络预测的对象类别和对象类别标签之间的差距，还能不断精进预设神经网络提取的图像特征的准确度。由此，训练得到的图像识别模型能够准确地提取待识别图像的图像特征以及能够准确地识别待识别图像的类别特征。

涉及步骤210。

获取多个训练样本，训练样本包括相对应的样本图像和对象类别标签。

其中，以样本图像为服饰图像为例，与服饰图像对应的对象类别标签可以包括：衬衫、裙子和裤子等。

涉及步骤220。

具体可以将样本图像输入至级联的预设神经网络，输出样本图像的图像特征和类别特征。其中，级联的预设神经网络可以包括：卷积神经网络、类别特征映射模块、特征金字塔模块、空间注意力模块和局部特征聚类模块。

其中，步骤220，包括：

提取样本图像的样本全局特征和样本特征图像；

提取样本特征图像的样本局部特征；

对样本全局特征进行分类处理，得到全局类别特征；

对样本局部特征进行分类处理，得到局部类别特征。

具体地，预设神经网络可以包括：卷积神经网络、类别特征映射模块、特征金字塔模块、空间注意力模块和局部特征聚类模块。

相应地，步骤220，具体可以包括：将样本图像输入至卷积神经网络，提取样本图像的样本特征图像和样本全局特征；将样本特征图像输入至特征金字塔模块，提取样本特征图像的样本局部特征；通过类别特征映射模块中的类别特征映射参数，对样本全局特征进行分类处理，得到全局类别特征；通过空间注意力模块，对样本局部特征进行卷积及激活处理，得到局部特征加权图；在局部特征聚类模块中通过局部特征加权图对样本局部特征进行加权处理，得到聚合后的样本局部特征；对聚合后的样本局部特征进行分类映射，得到局部类别特征。

为了清楚地解释训练过程，下面结合图3展开说明。

首先，将样本图像输入至卷积神经网络310，提取样本图像的样本特征图像和样本全局特征。

其中，上述涉及到的卷积神经网络可以采用典型的卷积神经网络(ConvolutionalNeural Networks，CNN)的网络结构，如vgg、resnet、resnext等。

其中，卷积层中的每层，均可包含若干个级联的用于进行卷积变换、激活函数、归一化操作及池化操作等运算的网络结构。以实现减少过拟合，加速训练过程，降低内存占用率、提高性能的效果。

这里，使用卷积神经网络的层级约束进行训练，能够提升对样本图像的样本全局特征的表达能力。

其中，上述涉及到的提取样本图像的样本全局特征和样本特征图像的步骤中，具体可以包括以下步骤：

提取样本图像的样本全局特征和多尺度的子样本特征图像；

对多尺度的子样本特征图像进行融合，得到样本特征图像。

其中，子样本特征图像是从样本图像中提取得到的，用于表征样本图像的特征的图像，其表现形式可以为向量。每个卷积层提取的子样本特征图像(如图3所示的特征图2、特征图3、特征图4、特征图5)都可以是不同尺度的。不同尺度，指的是每个卷积层输出的不同尺寸的子样本特征图像。相应地，样本特征图像是对多尺度的子样本特征图像进行融合得到的，所以也是用于表征样本图像的特征的，其表现形式也可以为向量。

由于卷积神经网络的多个卷积层输出的是多尺度的子样本特征图像，所以需要对多尺度的子样本特征图像进行融合，得到样本特征图像。其中，卷积神经网络的多个卷积层输出多尺度的样本特征图像的过程可以通过上采样实现，即通过插值运算来提高特征图像的尺寸。

这里，通过采用特征金字塔模块320对多尺度的样本特征图像进行融合得到的融合图像进行样本局部特征的提取，能够改善局部特征在不同尺度上的表达能力。

其次，提取样本特征图像的样本局部特征，具体可以为：将卷积神经网络输出的样本特征图像输入至特征金字塔模块320，提取样本特征图像的样本局部特征。

其中，对于多尺度的样本特征图像的映射可以采用1*1卷积核变换进行实现，对于不同尺度的样本特征图像的映射可以采用卷积变换及上采样操作实现。对样本特征图像(特征图2、特征图3、特征图4、特征图5)映射后得到特征图3’、特征图4’、特征图5’，对得到的样本特征图像进行拼接融合和特征提取处理，得到样本局部特征。

示例性地，样本局部特征是由特征图2和特征图3’拼接融合得到的，特征图3’是由特征图3和特征图4’拼接融合得到的，……，依此类推。

然后，对样本全局特征进行分类处理，得到全局类别特征，具体可以为：通过类别特征映射模块中的类别特征映射参数，对样本全局特征进行分类映射，得到全局类别特征。

将神经网络输出的样本全局特征输入至类别特征映射模块330，对样本全局特征进行分类映射，得到全局类别特征，以用于根据全局类别特征和训练图像的类别标签确定全局分类误差度量。

其中，类别特征映射模块330，可以由1个BN(BatchNorm)层和一个全连接层(Fullyconnected layer，FC层)联合构成，用于将全局特征映射至分类器维度。为了在训练过程中使得每一层神经网络的输入保持相同分布的，可以通过BN层平滑输入的分布，帮助随机梯度下降的进行，缓解随机梯度下降权重更新对后续层的负面影响。也就是防止梯度消失。也可以防止梯度爆炸。

其中，对样本全局特征进行分类映射，具体可以为对样本全局特征映射至分类器维度，其中，分类器的目的是实现图像中的对象分类，维度即为训练的类别标签总数，需要将输出映射至分类器维度，每个维度上的1可以用于表述属于该类别，0可以用于表述不属于该类别，从而进行模型训练。

其中，上述涉及到的对样本局部特征进行分类处理，得到局部类别特征的步骤中，具体可以包括以下步骤：

对样本局部特征进行卷积及激活处理，得到局部特征加权图；

通过局部特征加权图对样本局部特征进行加权处理，得到聚合后的样本局部特征；

对聚合后的样本局部特征进行分类处理，得到局部类别特征。

接着，通过空间注意力模块340，对特征金字塔模块320输出的样本局部特征进行卷积及激活处理，得到局部特征加权图。

其中，局部特征，就是一些局部才会出现的特征，是指一些能够稳定出现并且具有良好的可区分性的特征点，这些点在光照/视频发生变化的情况下依然稳定存在，这样在目标对象不完全受到遮挡的情况下，一些局部特征依然稳定存在，以代表图像中的目标对象，方便接下来的分析。起到减少计算量的作用。

一方面说，用这些稳定出现的点来代替整幅图像，可以大大降低图像原有携带的大量信息，起到减少计算量的作用。另一方面，当物体受到干扰时，一些冗余的信息即使被遮挡了，依然能够从未被遮挡的特征点上还原重要的信息。

由于人在看一张图片时首先看到的并不是一整张图，而是图的一部分，而这一部分就是图像的关键部分，将这个原理利用到图像语义分割中来，考虑到图像中空间位置信息的重要程度不同，引入空间注意力模块，来推理得到局部特征的局部特征加权图。

其中，本方法使用的空间注意力模块340，可以由两个卷积层叠加softplus激活函数实现。其中，softplus激活函数的定义为：p＝ln(1+exp(q))。

其中，q是输入信号，用于表示样本局部特征经过卷积之后的结果，也就是说激活函数的输入是样本局部特征经过两个卷积层之后的输出结果。p为输出信号，即局部特征加权图。

最后，在局部特征聚类模块350中通过局部特征加权图对样本局部特征进行加权处理，得到聚合后的样本局部特征。

其中，局部特征加权图中的每个像素点表示权重值，样本局部特征中的每个像素点表示多维度的向量，该维度与上述类别特征映射模块中涉及的分类器维度一致。通过局部特征加权图对样本局部特征进行加权处理，即根据上述局部特征加权图中的每个像素点表示的权重值，对样本局部特征中的每个像素点表示的多维度的向量进行加权求和，得到聚合后的样本局部特征。

这里，使用局部特征加权图对样本局部特征进行加权求合，实现样本局部特征的聚合。并对聚合后的样本局部特征进行分类映射，得到局部类别特征。通过引入对样本局部特征的学习步骤，可以增强模型对于识别目标对象的视角变化的鲁棒性。

其中，步骤230中，具体可以包括以下步骤：

根据全局类别特征和对象类别标签，确定全局分类损失值；

根据局部类别特征和对象类别标签，确定局部分类损失值；

根据三元样本图像的样本全局特征，确定特征相似性损失值；三元样本图像包括属于第一类别的第一图像和第二图像，以及属于第二类别的第三图像，特征相似性损失值为第一距离与第二距离之差与预设差值的损失值，第一距离为第一图像和第二图像的误差距离，第二距离为第一图像和第三图像的误差距离；

根据多个损失值对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型，包括：

根据全局分类损失值、局部分类损失值和特征相似性损失值，对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型。

具体地，首先，根据全局类别特征和类别标签进行误差计算，确定全局分类误差度量。

具体可以采用交叉熵或加性角度间隔损失函数等分类误差函数进行计算。

交叉熵和加性角度间隔损失函数(Additive Angular Margin Loss，ArcFaceloss)是分类模型学习所用损失函数的典型方案。其中交叉熵，用于度量两个概率分布间的差异性信息。

其次，根据局部类别特征和类别标签进行误差计算，确定局部分类误差度量。

局部分类误差度量也可以采用交叉熵或加性角度间隔等分类误差函数进行实现。

然后，基于三元组误差(triplet loss)算法，对三元样本图像的样本全局特征，进行误差计算，确定特征相似性度量，即根据三元样本图像的样本全局特征，确定特征相似性损失值；三元样本图像包括属于第一类别的第一图像和第二图像，以及属于第二类别的第三图像，特征相似性损失值为第一距离与第二距离之差与预设差值的损失值，第一距离为第一图像和第二图像的误差距离，第二距离为第一图像和第三图像的误差距离。

示例性地，三元样本图像包括的三张图像：第一张图像记为xai，第二张图像记为xpi，第三张图像记为xni。在这样的一个“三元组”中，xai和xpi对应的是同一对象的图像，即第一类别的图像，而xni是另外一个不同的对象的图像，即属于第二类别的图像。

第一图像xai和第二图像xpi的误差距离是第一距离，第一图像xai和第三图像xni的误差距离为第二距离，然后确定第一距离与第二距离的差值，再比较差值与预设差值之间的损失值，将其作为特征相似性损失值。

三元组误差算法用于控制相同对象间的距离至少要比不同对象间的距离小，实际上就是相当于一个损失函数，三元组误差算法直接对距离进行优化，因此可以解决对象的特征表示问题。

其中，上述涉及到的根据全局分类损失值、局部分类损失值和特征相似性损失值，对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型的步骤中，具体可以包括以下步骤：

根据全局分类误差度量和特征相似性度量，对卷积神经网络中的神经网络参数，和类别特征映射模块中的类别特征映射参数进行训练，直至卷积神经网络和类别特征映射模块满足预设训练条件；

根据局部分类误差度量对特征金字塔模块及空间注意力模块中的训练参数，进行训练，直至特征金字塔模块及空间注意力模块满足预设训练条件；

联合全局分类误差度量、局部分类误差度量，以及特征相似性度量对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型。

模型训练时，可以采用多阶段的训练方式。其中，卷积神经网络的神经网络参数和类别特征映射模块中的类别特征映射参数均有初始值，然后可以采用梯度下降方式进行学习，采用卷积神经网络模型参数学习的典型方法即可。

待卷积神经网络网络收敛后，冻结卷积神经网络中的神经网络参数，和类别特征映射模块中的类别特征映射参数，使用局部分类误差度量对特征金字塔模块及空间注意力模块中的训练参数，进行训练。

待特征金字塔模块及空间注意力模块收敛后，全局分类误差度量、局部分类误差度量，以及特征相似性度量对预设神经网络进行训练，即对上述五个模块进行训练，直至满足预设训练条件，得到图像识别模型。

综上，本发明实施例提供的图像识别模型的训练方法，通过根据样本图像的图像特征、类别特征和预先标记的对象类别标签，确定多个误差度量，并根据多个误差度量对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型，这里，能够通过多个误差度量不断缩小预设神经网络预测的对象类别和对象类别标签之间的差距，还能不断精进预设神经网络提取的图像特征的准确度。由此，训练得到的图像识别模型能够准确地提取待识别图像的图像特征以及能够准确地识别待识别图像的类别特征。

下面对本发明实施例提供的图像识别模型的训练过程和应用过程进行整体说明。

图4是本发明实施例提供的一种图像识别模型的训练过程和应用过程的示意图，如图4所示，分为训练过程410和应用过程420。

在训练过程410中，通过根据样本图像的图像特征、类别特征和413预先标记的对象类别标签414，确定多个误差度量415，并根据多个误差度量对预设神经网络412进行训练，直至满足预设训练条件，得到图像识别模型422，这里，能够通过多个误差度量不断缩小预设神经网络预测的对象类别和对象类别标签之间的差距，还能不断精进预设神经网络提取的图像特征的准确度。由此，训练得到的图像识别模型422能够准确地提取待识别图像的图像特征以及能够准确地识别待识别图像的类别特征。

在应用过程420中，将待识别图像421输入至预先训练的图像识别模型422，输出待识别图像的全局特征和第一局部特征423。然后将根据全局特征从预设图像库中筛选得到的多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征，将满足空间一致性的第二局部特征对应的候选图像424确定为待识别图像的相似图像，并输出，能够快速准确地确定待识别图像的相似图像。

基于上述图1所示的图像识别方法，本发明实施例还提供一种图像识别装置，如图5所示，该图像识别装置500可以包括：

获取模块510，用于获取待识别图像。

输入模块520，用于将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征；图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；对象类别标签用于描述样本图像中的对象所属的类别。

提取模块530，还用于利用图像识别模型提取候选图像的第二局部特征，候选图像为根据全局特征从预设图像库中筛选得到。

确定模块540，用于将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像。

在一种可能的实施例中，确定模块540，具体用于：

比较第一局部特征和第二局部特征，确定特征相似度；

在一种可能的实施例中，该图像识别装置500还可以包括：

第一获取模块，用于获取多个训练样本，训练样本包括样本图像和与样本图像相对应的对象类别标签。

第一输入模块，用于将样本图像输入至预设神经网络，输出样本图像的图像特征和类别特征。

第一确定模块，用于根据图像特征、类别特征和对象类别标签，确定多个损失值。

训练模块，用于根据多个损失值对预设神经网络进行训练，直至满足预设训练条件，得到图像识别模型。

在一种可能的实施例中，第一输入模块，包括：

提取模块，用于提取样本图像的样本全局特征和样本特征图像。

提取模块，还用于提取样本特征图像的样本局部特征。

分类模块，用于对样本全局特征进行分类处理，得到全局类别特征。

分类模块，用于对样本局部特征进行分类处理，得到局部类别特征。

其中，分类模块，具体用于：

其中，提取模块，具体用于：

提取样本图像的样本全局特征和多尺度的子样本特征图像；

对多尺度的子样本特征图像进行融合，得到样本特征图像。

其中，第一确定模块，具体用于：

根据全局类别特征和对象类别标签，确定全局分类损失值；

根据局部类别特征和对象类别标签，确定局部分类损失值；

根据三元样本图像的样本全局特征，确定特征相似性损失值；三元样本图像包括属于第一类别的第一图像和第二图像，以及属于第二类别的第三图像，特征相似性损失值为第一距离与第二距离之差与预设差值的损失值，第一距离为第一图像和第二图像的误差距离，第二距离为第一图像和第三图像的误差距离。

训练模块，具体用于：

综上，在本发明实施例中，通过将待识别图像输入至预先训练的图像识别模型，输出待识别图像的全局特征和第一局部特征。由于图像识别模型是根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到，所以能够精准的提取出待识别图像的全局特征和第一局部特征。然后将根据全局特征从预设图像库中筛选得到的多个候选图像输入至图像识别模型，输出每个候选图像的第二局部特征，这里，通过图像识别模型也能精准的提取出候选图像的第二局部特征。由于第一局部特征和第二局部特征都能够有效代表待识别图像和候选图像的图像特征，可以通过对第一局部特征和第二局部特征进行空间一致性确认，如果满足空间一致性，即可以互相进行空间变换得到，说明这两个局部特征代表的是同一目标对象的特征，也就是说候选图像和待识别图像中的目标对象是一致的。因此，将与第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为待识别图像的相似图像，能够快速准确地确定待识别图像的相似图像。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取待识别图像；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入至预先训练的图像识别模型，输出所述待识别图像的全局特征和第一局部特征；所述图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；所述对象类别标签用于描述所述样本图像中的对象所属的类别；

利用所述图像识别模型提取候选图像的第二局部特征，所述候选图像为根据所述全局特征从预设图像库中筛选得到；

将与所述第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为所述待识别图像的相似图像。

2.根据权利要求1所述的方法，所述将与所述第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为所述待识别图像的相似图像，包括：

比较所述第一局部特征和所述第二局部特征，确定特征相似度；

根据所述特征相似度分别从所述第一局部特征中提取第一相似特征，从所述第二局部特征中提取第二相似特征，所述第一相似特征和所述第二相似特征的特征相似度大于预设阈值；

验证所述第一相似特征在所述第一局部特征中的空间坐标，和所述第二相似特征在所述第二局部特征中的空间坐标是否符合空间一致性；

将符合所述空间一致性的第二相似特征对应的候选图像确定为所述待识别图像的相似图像。

3.根据权利要求1所述的方法，在所述将所述待识别图像输入至预先训练的图像识别模型，输出所述待识别图像的全局特征和第一局部特征之前，所述方法还包括：

获取多个训练样本，所述训练样本包括样本图像和与所述样本图像相对应的所述对象类别标签；

将所述样本图像输入至预设神经网络，输出所述样本图像的图像特征和类别特征；

根据所述图像特征、所述类别特征和所述对象类别标签，确定多个损失值；

根据所述多个损失值对所述预设神经网络进行训练，直至满足预设训练条件，得到所述图像识别模型。

4.根据权利要求3所述的方法，所述将所述样本图像输入至预设神经网络，输出所述训练图像的图像特征和类别特征，包括：

提取所述样本图像的样本全局特征和样本特征图像；

提取所述样本特征图像的样本局部特征；

对所述样本全局特征进行分类处理，得到全局类别特征；

对所述样本局部特征进行分类处理，得到局部类别特征。

5.根据权利要求4所述的方法，所述对所述样本局部特征进行分类处理，得到局部类别特征，包括：

对所述样本局部特征进行卷积及激活处理，得到局部特征加权图；

通过所述局部特征加权图对所述样本局部特征进行加权处理，得到聚合后的样本局部特征；

对所述聚合后的样本局部特征进行分类处理，得到所述局部类别特征。

6.根据权利要求4所述的方法，所述提取所述样本图像的样本全局特征和样本特征图像，包括：

提取所述样本图像的样本全局特征和多尺度的子样本特征图像；

对所述多尺度的子样本特征图像进行融合，得到所述样本特征图像。

7.根据权利要求4所述的方法，所述根据所述图像特征、所述类别特征和所述对象类别标签，确定多个损失值，包括：

根据所述全局类别特征和所述对象类别标签，确定全局分类损失值；

根据所述局部类别特征和所述对象类别标签，确定局部分类损失值；

根据三元样本图像的样本全局特征，确定特征相似性损失值；所述三元样本图像包括属于第一类别的第一图像和第二图像，以及属于第二类别的第三图像，所述特征相似性损失值为第一距离与第二距离之差与预设差值的损失值，所述第一距离为所述第一图像和所述第二图像的误差距离，所述第二距离为所述第一图像和所述第三图像的误差距离；

所述根据所述多个损失值对所述预设神经网络进行训练，直至满足预设训练条件，得到所述图像识别模型，包括：

根据所述全局分类损失值、所述局部分类损失值和所述特征相似性损失值，对所述预设神经网络进行训练，直至满足预设训练条件，得到所述图像识别模型。

8.一种图像识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像；

输入模块，用于将所述待识别图像输入至预先训练的图像识别模型，输出所述待识别图像的全局特征和第一局部特征；所述图像识别模型根据多个样本图像的样本全局特征、样本局部特征和对象类别标签训练得到；所述对象类别标签用于描述所述样本图像中的对象所属的类别；

提取模块，还用于利用所述图像识别模型提取候选图像的第二局部特征，所述候选图像为根据所述全局特征从预设图像库中筛选得到；

确定模块，用于将与所述第一局部特征符合空间一致性的第二局部特征对应的候选图像确定为所述待识别图像的相似图像。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。