CN110516745A

CN110516745A - 图像识别模型的训练方法、装置及电子设备

Info

Publication number: CN110516745A
Application number: CN201910804738.6A
Authority: CN
Inventors: 丁文奎; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-11-29
Anticipated expiration: 2039-08-28
Also published as: CN110516745B

Abstract

本公开关于一种图像识别模型的训练方法、装置、电子设备及存储介质，涉及计算机技术领域，通过使用孪生网络，即结构相同且参数相同的第一卷积神经网络和第二卷积神经网络，使得样本图像数量减少，并且通过相似度网络计算在所述第一卷积神经网络与所述第二卷积神经网络相对应的多个指定层的相似度，得到多个特征相似度，通过多个所述特征相似度，确定输入所述第一卷积神经网络的图像的识别结果以及输入所述第二卷积神经网络的图像的识别结果，使得在所述图像识别模型在训练过程中相同类别的样本尽量接近，不同类别的样本尽量远离，使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果，图像识别准确率更高。

Description

图像识别模型的训练方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及图像识别模型的训练方法、装置及电子设备。

背景技术

以深度学习为代表的机器学习技术近年来在计算机视觉推荐系统、搜索引擎等许多图像识别应用场景取得了长足进步，但深度学习技术依赖于大量训练数据，大量训练数据需求大大限制了深度学习技术的实际应用场景，而孪生网络是一种含有两个或者多个相同子网络结构的神经网络，每个子网络的结构相同并且共享参数，孪生网络具有一次学习和小样本学习的优点，能将从未学过的物体从已有的相似知识中高效识别出来，不需要大量的训练数据和复杂的网络结构，从而减轻计算复杂度。

现有技术中孪生网络每个子网络由卷积层、池化层、全连接层等组成，每个子网络接受图像作为输入，每个子网络的最后一个全连接层输出一个较低维度的向量；整个网络的相似度函数定义在两个子网络最终输出的低维向量上，通常用表示距离、相似度等的函数来描述两个向量之间的相似程度，以侧重于学习两张图像之间的相同或者不同之处。

发明内容

本公开提供一种图像识别模型的训练方法、装置、电子设备、存储介质及包含指令的计算机程序产品，以实现以小样本条件下进行图像特征的自动提取和分类，提高图像识别准确率。

本公开的技术方案如下：

根据本公开实施例的第一方面，本公开提供一种图像识别模型的训练方法，包括：

步骤A，获取多个待训练的样本图像和基于孪生网络的图像识别模型，其中，各所述样本图像标注有图像类别，所述图像识别模型包括第一卷积神经网络、第二卷积神经网络、相似度网络；所述第一卷积神经网络包括多个卷积层、多个池化层、多个全连接层，所述第二卷积神经网络与所述第一卷积神经网络结构相同且参数相同；所述相似度网络包括多个相似度计算模块，各所述相似度计算模块分别连接所述第一卷积神经网络与所述第二卷积神经网络中相对应的指定层；

步骤B，在多个所述样本图像中，选取第一样本图像及第二样本图像；

步骤C，将所述第一样本图像输入到所述第一卷积神经网络，将所述第二样本图像输入到所述第二卷积神经网络中进行训练，分别得到第一样本图像的图像类别、第二样本图像的图像类别，并通过所述相似度网络的各所述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度；

步骤D，根据各所述特征相似度，确定所述第一样本图像及所述第二样本图像的识别结果；

步骤E，根据预设模型损失函数、所述第一卷积神经网络得到的所述第一样本图像的图像类别、所述第二卷积神经网络得到的所述第二样本图像的图像类别及所述相似度网络得到的识别结果，确定所述预设模型损失函数的损失值；

步骤F，根据所述预设模型损失函数的损失值，判断所述预设模型损失函数是否收敛；

步骤G，在所述预设模型损失函数未收敛时，调整所述图像识别模型的参数，并返回上述步骤B继续执行；

步骤H，在所述预设模型损失函数收敛时，得到训练好的基于孪生网络的图像识别模型。

可选的，所述第一卷积神经网络包括多个第一卷积分支子网络，第一拼接层，多个全连接层，所述多个第一卷积分支子网络均包括多个卷积层、多个池化层，所述多个第一卷积分支子网络输出的特征图通过所述第一拼接层拼接；

所述第二卷积神经网络包括多个第二卷积分支子网络，第二拼接层，多个全连接层，所述多个第二卷积分支子网络均包括多个卷积层、多个池化层，所述多个第二卷积分支子网络输出的特征图通过所述第二拼接层拼接。

可选的，所述通过所述相似度网络的各所述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度，包括：

根据以下表达式表示特征相似度：

d_u(g_Ak(X_o),g_ak(X_p))

其中，u表示所述相似度网络的第u个相似度计算模块，A表示第一卷积神经网络，a表示第二卷积神经网络，X_o表示所述第一样本图像，X_p表示所述第二样本图像，g_Ak(X_o)表示所述第一卷积神经网络第k层输出的特征图，g_ak(X_p)表示所述第二卷积神经网络第k层输出的特征图，所述第一卷积神经网络第k层是所述第二卷积神经网络第k层的相对应的层，所述第一卷积神经网络第k层与所述第二卷积神经网络第k层参数相同，d_u(g_Ak(X_o),g_ak(X_p))表示通过所述第u个相似度计算模块计算得到的通过所述第一卷积神经网络第k层输出的特征图与通过所述第二卷积神经网络第k层输出的特征图的特征相似度。

可选的，所述预设模型损失函数包括第一损失函数、第二损失函数、第三损失函数，所述根据预设模型损失函数、所述第一卷积神经网络得到的所述第一样本图像的图像类别、所述第二卷积神经网络得到的所述第二样本图像的图像类别及所述相似度网络得到的识别结果，确定所述预设模型损失函数的损失值，包括：

根据所述第一损失函数和所述第一卷积神经网络输出的所述第一样本图像的图像类别，得到所述第一损失函数的损失值；

根据所述第二损失函数和所述第二卷积神经网络输出的所述第二样本图像的图像类别，得到所述第二损失函数的损失值；

根据所述第三损失函数和所述相似度网络输出的所述第一样本图像及所述第二样本图像的识别结果，得到所述第三损失函数的损失值；

根据所述第一损失函数的损失值、所述第二损失函数的损失值及所述第三损失函数的损失值得到所述预设模型损失函数的损失值。

可选的，所述根据各所述特征相似度，确定所述第一样本图像及所述第二样本图像的识别结果，包括：

采用线性函数将所述各特征相似度进行叠加，得到所述第一样本图像和第二样本图像的目标相似度；

根据所述第一样本图像和第二样本图像的目标相似度，确定所述第一样本图像及所述第二样本图像的识别结果。

可选的，所述根据所述第一样本图像和第二样本图像的目标相似度，确定所述第一样本图像及所述第二样本图像的识别结果，包括：

根据所述第一样本图像和第二样本图像的目标相似度与预设阈值相比，其中，

如果所述第一样本图像和第二样本图像的目标相似度不大于预设阈值，则所述第一样本图像的图像类别与所述第二样本图像的图像类别相同；

如果所述第一样本图像和第二样本图像的目标相似度大于预设阈值，则所述第一样本图像的图像类别与所述第二样本图像的图像类别不相同。

可选的，所述方法还包括：

获取未标注图像类别的图像数据；

根据已标注图像类别的样本图像，通过预设预测算法，预测所述图像数据的图像类别。

根据本公开实施例的第二方面，本公开提供一种图像识别模型的训练装置，包括：

采集模块，被配置为获取多个待训练的样本图像和基于孪生网络的图像识别模型，其中，各所述样本图像标注有图像类别，所述图像识别模型包括第一卷积神经网络、第二卷积神经网络、相似度网络；所述第一卷积神经网络包括多个卷积层、多个池化层、多个全连接层，所述第二卷积神经网络与所述第一卷积神经网络结构相同且参数相同；所述相似度网络包括多个相似度计算模块，各所述相似度计算模块分别连接所述第一卷积神经网络与所述第二卷积神经网络中相对应的指定层；

选取模块，被配置为在多个所述样本图像中，选取第一样本图像及第二样本图像；

相似度计算模块，被配置为将所述第一样本图像输入到所述第一卷积神经网络，将所述第二样本图像输入到所述第二卷积神经网络中进行训练，分别得到第一样本图像的图像类别、第二样本图像的图像类别，并通过所述相似度网络的各所述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度；

识别结果分析模块，被配置为根据各所述特征相似度，确定所述第一样本图像及所述第二样本图像的识别结果；

损失值确定模块，被配置为根据预设模型损失函数、所述第一卷积神经网络得到的所述第一样本图像的图像类别、所述第二卷积神经网络得到的所述第二样本图像的图像类别及所述相似度网络得到的识别结果，确定所述预设模型损失函数的损失值；

判断模块，被配置为根据所述预设模型损失函数的损失值，判断所述预设模型损失函数是否收敛；

第一处理模块，被配置为在所述预设模型损失函数未收敛时，调整所述图像识别模型的参数，并返回上述选取模块继续执行；

第二处理模块，被配置为在所述预设模型损失函数收敛时，得到训练好的基于孪生网络的图像识别模型。

可选的，所述相似度计算模块具体用于：

根据以下表达式表示特征相似度：

d_u(g_Ak(X_o),g_ak(X_p))

可选的，所述预设模型损失函数包括第一损失函数、第二损失函数、第三损失函数，所述损失值确定模块具体用于：

可选的，所述识别结果分析模块具体用于：

可选的，所述装置还包括：

分类模块，被配置为获取未标注图像类别的图像数据；

根据本公开实施例的第三方面，本公开提供一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，

所述处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，被配置为存放计算机程序；

处理器，被配置为执行存储器上所存放的程序时，实现上述第一方面任一项所述的图像识别模型的训练方法。

根据本公开实施例的第四方面，提供一种存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的图像识别模型的训练方法。

根据本公开实施例的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的图像识别模型的训练方法。

本公开的实施例提供的图像识别模型的训练方法、装置、电子设备、存储介质及包含指令的计算机程序产品，至少带来以下有益效果：

通过使用孪生网络，即结构相同且参数相同的第一卷积神经网络和第二卷积神经网络，使得样本图像数量减少，并且通过相似度网络计算在所述第一卷积神经网络与所述第二卷积神经网络相对应的多个指定层的相似度，得到多个特征相似度，通过多个所述特征相似度，确定输入所述第一卷积神经网络的图像的识别结果以及输入所述第二卷积神经网络的图像的识别结果，使得在所述图像识别模型在训练过程中相同类别的样本尽量接近，不同类别的样本尽量远离，使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果，图像识别准确率更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像识别模型的训练方法的流程图；

图2是根据一示例性实施例示出的一种图像识别模型的训练方法的示意图；

图3是根据一示例性实施例示出的一种图像识别模型的训练装置的框图；

图4是根据一示例性实施例示出的第一种设备的框图；

图5是根据一示例性实施例示出的第二种设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例公开了一种图像识别模型的训练方法、装置、电子设备、存储介质及包含指令的计算机程序产品，以下分别进行说明。

图1是根据一示例性实施例示出的一种图像识别模型的训练方法的流程图，如图1所示，包括以下步骤：

在步骤S110中，获取多个待训练的样本图像和基于孪生网络的图像识别模型，其中，各上述样本图像均标注有图像类别，上述图像识别模型包括第一卷积神经网络、第二卷积神经网络、相似度网络；上述第一卷积神经网络包括多个卷积层、多个池化层、多个全连接层，上述第二卷积神经网络与上述第一卷积神经网络结构相同且参数相同；上述相似度网络包括多个相似度计算模块，各上述相似度计算模块分别连接上述第一卷积神经网络与上述第二卷积神经网络中相对应的指定层。

本公开实施例的图像识别模型的训练方法可以通过电子设备实现，具体的，该电子设备可以是服务器。

电子设备获取多个待训练的样本图像，其中，各上述样本图像标注有图像类别。例如，假设有m个待训练的样本图像，其中m个待训练的样本图像共分为C种类别，定义样本图像集为X＝{X₁,…,X_m}，定义图像类别为Y＝{1,…,C}，定义已标注图像类别的样本图像为{X_i，Y_i}，X_i表示为第i个样本图像，i∈{1,…,m}，Y_i为第i个待训练的样本图像的图像类别，Y_i∈{1,…,C}。

孪生网络是一种含有两个或者多个相同子网络结构的神经网络，每个子网络的结构相同并且共享参数，上述第一卷积神经网络及上述第二卷积神经网络结构相同，是指上述第一卷积神经网络及上述第二卷积神经网络包含的各层以及各层的神经元的个数均相同，并且各神经元的参数相同。因为孪生网络具有一次学习和小样本学习的优点，能将从未学过的物体从已有的相似知识中高效识别出来，所以在训练过程中不需要大量的标注的训练数据和复杂的网络结构，可以减少所需要的标注样本数量，从而可以减轻工作复杂度。

上述相似度网络包括多个相似度计算模块，各上述相似度计算模块分别连接上述第一卷积神经网络与上述第二卷积神经网络中相对应的指定层，一个相似度计算模块连接的上述第一卷积神经网络与上述第二卷积神经网络中相对应的指定层是指一个相似度计算模块连在上述第一卷积神经网络与上述第二卷积神经网络中的神经元的位置相同，例如，上述第一卷积神经网络包括5层，第一层为卷积层，第二层为池化层，第三层为拼接层，第四层为全连接层，第五层为输出层，因为上述第一卷积神经网络与上述第二卷积神经网络是孪生网络，则上述第二卷积神经网络也包括5层，第一层为卷积层，第二层为池化层，第三层为拼接层，第四层为全连接层，第五层为输出层，且第二卷积神经网络参数与上述第一卷积神经网络参数相同，相似度网络包括2个相似度计算模块，第一相似度计算模块一端连接的是上述第一卷积神经网络的第二层池化层的输出，那么第一相似度计算模块另一端连接的是上述第二卷积神经网络的第二层池化层的输出，上述相似度计算模块连接的上述第一卷积神经网络与上述第二卷积神经网络中神经元是相互对应的，位置结构相同，参数相同。多个相似度计算模块计算上述第一卷积神经网络与上述第二卷积神经网络中相对应的多个指定层之间的相似度，可以在使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果。

在一种可能的实施方式中，上述第一卷积神经网络包括多个第一卷积分支子网络，第一拼接层，多个全连接层，上述多个第一卷积分支子网络均包括多个卷积层、多个池化层，上述多个第一卷积分支子网络输出的特征图通过上述第一拼接层拼接；

上述第二卷积神经网络包括多个第二卷积分支子网络，第二拼接层，多个全连接层，上述多个第二卷积分支子网络均包括多个卷积层、多个池化层，上述多个第二卷积分支子网络输出的特征图通过上述第二拼接层拼接。

上述第一卷积神经网络和第二卷积神经网络的结构可以根据实际需要设置分支数及各分支的神经元个数，比如第一卷积神经网络采用二分支结构，上述第一卷积神经网络包括第一卷积第一分支子网络、第一卷积第二分支子网络，因为第一卷积神经网络和第二卷积神经网络为孪生网络，结构相同且参数共享，相应的，第二卷积神经网络采用的也是二分支结构，包括第二卷积第一分支子网络、第二卷积第二分支子网络。当然，第一卷积神经网络也可以采用三分支结构，四分支结构，各分支的神经元如卷积层、池化层数量根据需要设置。

这样可以融合多分支的指定层的相似度，可以在使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果。

在步骤S120中，在多个上述样本图像中，选取第一样本图像及第二样本图像。

可以在各样本图像中，选取尚未选取过的两张图像，得到第一样本图像及第二样本图像。例如，假设有m个待训练的样本图像，样本图像集为X＝{X₁,…,X_m}，选取第一样本图像X₁，第二样本图像X₂。

在步骤S130中，将上述第一样本图像输入到上述第一卷积神经网络，将上述第二样本图像输入到上述第二卷积神经网络中进行训练，分别得到第一样本图像的图像类别、第二样本图像的图像类别，并通过上述相似度网络的各上述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度。

例如，假设有20个待训练的样本植物图像，其中20个待训练的样本图像共分为2种类别，每个样本图像均标注有图像类别，一种为玫瑰花，一种为百合花。假设第一样本图像标注的图像类别为玫瑰花，第一样本图像标注的图像类别为百合花，将上述第一样本图像输入到上述第一卷积神经网络，将上述第二样本图像输入到上述第二卷积神经网络中进行训练，则经过上述第一卷积神经网络各层神经元进行特征提取，使得模型学习到玫瑰花的特征，上述第一卷积神经网络输出第一样本图像的图像类别为玫瑰花，同理，上述第二卷积神经网络输出第二样本图像的图像类别为百合花。经过多个样本图像特征的提取，使得上述第一卷积神经网络及上述第二卷积神经网络学习到玫瑰花和百合花特征，当待识别图像输入到网络时，即可识别待识别图像的图像类别。

在步骤S140中，根据各上述特征相似度，确定上述第一样本图像及上述第二样本图像的识别结果。

根据上述计算的特征相似度，可以得到上述第一样本图像和上述第二样本图像的相似度，从而确定上述第一样本图像及上述第二样本图像的识别结果。

例如，上述第一样本图像为玫瑰花，上述第二样本图像为百合花，根据上述计算的特征相似度为0，则上述第一样本图像及上述第二样本图像的识别结果为上述第一样本图像及上述第二样本图像的图像类别不相同。

在步骤S150中，根据预设模型损失函数、上述第一卷积神经网络得到的上述第一样本图像的图像类别、上述第二卷积神经网络得到的上述第二样本图像的图像类别及上述相似度网络得到的识别结果，确定上述预设模型损失函数的损失值。

根据上述第一卷积神经网络得到的上述第一样本图像的图像类别、上述第二卷积神经网络得到的上述第二样本图像的图像类别及上述相似度网络得到的识别结果，可以得到包括第一卷积神经网络、第二卷积神经网络及相似度网络在内的图像识别模型整体模型的损失值。为使上述图像识别模型训练结果达到最优，需要根据预设模型损失函数的损失值调整上述图像识别模型的参数，使得随着模型的训练，预设模型损失函数的损失值不断减小，当损失值最小时，图像识别模型训练结果达到最优，使得模型识别误差减小，从而提高图像识别准确率。

在步骤S160中，根据上述预设模型损失函数的损失值，判断上述预设模型损失函数是否收敛。

为使上述图像识别模型训练结果达到最优，需要根据预设模型损失函数的损失值调整上述图像识别模型的参数，使得随着模型的训练，预设模型损失函数的损失值不断减小，当损失值最小时，图像识别模型训练结果达到最优，上述预设模型损失函数收敛，使得模型识别误差减小，从而提高图像识别准确率。

在步骤S170中，在上述预设模型损失函数未收敛时，调整上述图像识别模型的参数，并返回上述在步骤S120中继续执行。

在步骤S180中，在上述预设模型损失函数收敛时，得到训练好的基于孪生网络的图像识别模型。

训练好的图像识别模型可应用于图像的识别，应用场景可以为图像或视频相关推荐系统，比如，某图像网站分有不同类别的图像，当新上传一图像时，根据训练好的图像识别模型识别出图像类别，根据识别出的图像类别，从而推荐其他同图像类别的图像，以提升用户体验度。

通过使用孪生网络，即结构相同且参数相同的第一卷积神经网络和第二卷积神经网络，使得样本图像数量减少，并且通过相似度网络计算在上述第一卷积神经网络与上述第二卷积神经网络相对应的多个指定层的相似度，得到多个特征相似度，通过多个上述特征相似度，确定输入上述第一卷积神经网络的图像的识别结果以及输入上述第二卷积神经网络的图像的识别结果，使得在上述图像识别模型在训练过程中相同类别的样本尽量接近，不同类别的样本尽量远离，使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果，图像识别准确率更高。

在一种可能的实施方式中，上述通过上述相似度网络的各上述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度，包括：

根据以下表达式表示特征相似度：

d_u(g_Ak(X_o),g_ak(X_p))

其中，u表示上述相似度网络的第u个相似度计算模块，A表示第一卷积神经网络，a表示第二卷积神经网络，X_o表示上述第一样本图像，X_p表示上述第二样本图像，g_Ak(X_o)表示上述第一卷积神经网络第k层输出的特征图，g_ak(X_p)表示上述第二卷积神经网络第k层输出的特征图，上述第一卷积神经网络第k层是上述第二卷积神经网络第k层的相对应的层，上述第一卷积神经网络第k层与上述第二卷积神经网络第k层参数相同，d_u(g_Ak(X_o),g_ak(X_p))表示通过上述第u个相似度计算模块计算得到的通过上述第一卷积神经网络第k层输出的特征图与通过上述第二卷积神经网络第k层输出的特征图的特征相似度。

第一卷积神经网络和第二卷积神经网络的结构可以根据实际需要设置分支数及各分支的神经元个数，第一卷积神经网络和第二卷积神经网络采用多分支结构，这样可以融合多分支的指定层的相似度，可以在使得在相同的样本量下基于孪生网络的图像识别模型能取得比传统网络更好的效果。

例如，图2是根据一示例性实施例示出的一种图像识别模型的训练方法的示意图，如图2所示，上述第一卷积神经网的第一层为第一卷积层，表示为A1、第二层为第一池化层，表示为A2、第三层为第二卷积层，表示为A3、第四层为第二池化层，表示为A4，第五层为第三卷积层，表示为A5、第六层为第三池化层，表示为A6、第七层为第一拼接层，表示为A7、第八层为第一全连接层，表示为A8，第九层为第二全连接层，表示为A9。

上述第二卷积神经网的第一层为第四卷积层，表示为a1、第二层为第四池化层，表示为a2、第三层为第五卷积层，表示为a3、第四层为第五池化层，表示为a4，第五层为第六卷积层，表示为a5、第六层为第六池化层，表示为a6、第七层为第二拼接层，表示为a7、第八层为第三全连接层，表示为a8，第九层为第四全连接层，表示为a9。

假设有m个待训练的样本图像，样本图像集为X＝{X₁,…,X_m}，第一样本图像为X_o，第二样本图像为X_p，X_o∈{X₁,…,X_m}，X_p∈{X₁,…,X_m}，将上述第一样本图像X_o分别输入上述第一卷积神经网络，将上述第二样本图像X_p分别输入上述第二卷积神经网络，则定义第一卷积神经网络指定层的输出的图像特征为g_Ak(X_o)，k∈{1,…,9}，Ak表示第k层，X₁为第一样本图像，相应的，定义第二卷积神经网指定层的输出为g_ak(X_p)，k∈{1,…,9}，各上述相似度计算模块分别连接上述第一卷积神经网络与上述第二卷积神经网络中相对应的指定层，定义上述相似度网络共有r个相似度计算模块计算，各相似度计算模块计算的特征相似度为d_u(g_Ak(X_o),g_ak(X_p))，u∈{1,…,r}，d_u为欧几里得距离度量函数，满足d_u(x,y)≥0,d_u(x,y)＝d_u(y,x),d_u(x,y)+d_u(y,z)≥d_u(x,z)，x、y、z为函数中d_u变量，表示各层输出的图像特征，具体的，d_u可以表示为d_u(x,y)＝∑_i|x_i-y_i|，或者可以表示为

例如，将上述第一样本图像X₁分别输入上述第一卷积神经网络，将上述第二样本图像X₂分别输入上述第二卷积神经网络。

上述第一相似度计算模块连接上述第一卷积神经网络的第一池化层A2与上述第二卷积神经网络中的第四池化层a2，第一池化层A2的输出为g_A2(X₁)，第四池化层a2的输出为g_a2(X₂)，则：

通过第一相似度计算模块计算的通过上述第一池化层输出的特征图和通过上述第四池化层输出的特征图的特征相似度为d₁(g_A2(X₁),g_a2(X₂))。

上述第二相似度计算模块连接上述第一卷积神经网络的第三池化层A6与上述第二卷积神经网络中的第六池化层a6，第三池化层A6的输出为g_A6(X₁)，第六池化层a6的输出为g_a6(X₂)，则：

通过第二相似度计算模块计算的通过上述第三池化层A6输出的特征图和通过上述第六池化层a6输出的特征图的特征相似度为d₂(g_A6(X₁),g_a6(X₂))。

上述第三相似度计算模块连接上述第一卷积神经网络的第二池化层A4与上述第二卷积神经网络中的第五池化层a4，第三池化层A4的输出为g_A4(X₁)，第五池化层a4的输出为g_a4(X₂)，则：

通过第三相似度计算模块计算的通过上述第二池化层A4输出的特征图和通过上述第五池化层a4输出的特征图的特征相似度为d₃(g_A4(X₁),g_a4(X₂))。

上述第三相似度计算模块连接上述第一卷积神经网络的第一全连接层A8与上述第二卷积神经网络中的第三全连接层a8，第一全连接层A8的输出为g_A8(X₁)，第三全连接层a8的输出为g_a8(X₂)，则：

通过第四相似度计算模块计算的通过上述第一全连接层A8输出的特征图和通过上述第三全连接层a8输出的特征图的特征相似度为d₄(g_A8(X₁),g_a8(X₂))。

上述第三相似度计算模块连接上述第一卷积神经网络的第二全连接层A9与上述第二卷积神经网络中的第四全连接层a9，第二全连接层A8的输出为g_A9(X₁)，第三四全连接层a9的输出为g_a9(X₂)，则：

通过第五相似度计算模块计算的通过上述第二全连接层A9输出的特征图和通过上述第四全连接层a9输出的特征图的特征相似度为d₅(g_A9(X₁),g_a9(X₂))。

在一种可能的实施方式中，上述预设模型损失函数包括第一损失函数、第二损失函数、第三损失函数，上述根据预设模型损失函数、上述第一卷积神经网络得到的上述第一样本图像的图像类别、上述第二卷积神经网络得到的上述第二样本图像的图像类别及上述相似度网络得到的识别结果，确定上述预设模型损失函数的损失值，包括：

根据上述第一损失函数和上述第一卷积神经网络输出的上述第一样本图像的图像类别，得到上述第一损失函数的损失值；

根据上述第二损失函数和上述第二卷积神经网络输出的上述第二样本图像的图像类别，得到上述第二损失函数的损失值；

根据上述第三损失函数和上述相似度网络输出的上述第一样本图像及上述第二样本图像的识别结果，得到上述第三损失函数的损失值；

根据上述第一损失函数的损失值、上述第二损失函数的损失值及上述第三损失函数的损失值得到上述预设模型损失函数的损失值。

例如，预设模型损失函数由三部分组成:L(X_o,X_p)＝L₁(f(X_o,X_p),I(y＝y′))+αL₂(g_Ak(X_o),y)+αL₂(,g_ak(X_p),y′)。

第一部分为第一损失函数L₁(f(X_o,X_p),I(y＝y′))，是针对相似度网络输出的上述第一样本图像及上述第二样本图像的识别结果的损失函数，其中

L₁(f(X_o,X_p),I(y＝y′))是(f(X_o,X_p),1-f(X_o,X_p))和(I(y＝y′),1-I(y＝y′))之间的交叉熵，所以有

L₁(f(X_o,X_p),I(y＝y′))＝I(y＝y′)log2/(1+expf(X_o，X_p))+1-I(y＝y′))log(exp(f(X_o,X_p)-1)/(1+f(X_o,X_p))

第二部分为第二损失函数αL₂(g_Ak(X_o),y)，是针对第一卷积神经网络输出的上述第一样本图像的图像类别，得到上述第一损失函数的损失值。

第三部分为第三损失函数αL₂(,g_ak(X_p),y′)，是针对第二卷积神经网络输出的上述第二样本图像的图像类别，得到上述第二损失函数的损失值。

其中第二部分和第三部分具有相同的形式，超参数α用来控制第一部分损失函数和其余部分损失函数的相对重要性。

可选的，为使上述图像识别模型训练工作降低，可以使用一个较大的图像训练集对图像识别模型中的第一卷积神经网络、第二卷积神经网络进行预训练，或直接采用预训练好的模型对第一卷积神经网络、第二卷积神经网络进行初始化，接着对整个图像识别模型进行训练，训练过程中模型的损失函数采用L₁(f(X_o,X_p),I(y＝y′))，即只考虑成对的图像样本之间的损失，最后对整个网络进行微调，损失函数可以采用L(X_o,X_p)＝L₁(f(X_o,x_p),I(y＝y′))+αL₂(g_Ak(X_o),y)+αL₂(,g_ak(X_p),y′)。具体的，训练过程中的优化算法可以采用常见的随机梯度下降算法，比如Adam优化算法，RMSProp优化算法等。

在一种可能的实施方式中，上述根据各上述特征相似度，确定上述第一样本图像及上述第二样本图像的识别结果，包括：

采用线性函数将上述各特征相似度进行叠加，得到上述第一样本图像和第二样本图像的目标相似度；

根据上述第一样本图像和第二样本图像的目标相似度，确定上述第一样本图像及上述第二样本图像的识别结果。

例如，采用线性函数对将上述第一特征相似度、上述第二特征相似度、上述第三特征相似度、上述第四特征相似度、上述第五特征相似度进行叠加，得到上述第一样本图像和第二样本图像的目标相似度。

具体的，定义上述第一样本图像和第二样本图像的目标相似度为f(X_o,X_p)，其中定义f(X_o,X_p)＝∑_uw_ud_u(g_Ak(X_o),g_ak(X_p))，其中系数w_u都是非负数。其中f(X_o,X_p)＝∑_uw_ud_u(g_Ak(X_o),g_ak(X_p))为欧几里得距离度量函数，即f(x,y)≥0,f(x,y)＝f(y,x),f(x,y)+f(y,z)≥f(x,z)，x、y、z为函数中的变量，表示各层输出的图像特征。

在一种可能的实施方式中，上述根据上述第一样本图像和第二样本图像的目标相似度，确定上述第一样本图像及上述第二样本图像的识别结果，包括：

根据上述第一样本图像和第二样本图像的目标相似度与预设阈值相比，其中，

如果上述第一样本图像和第二样本图像的目标相似度不大于预设阈值，则上述第一样本图像的图像类别与上述第二样本图像的图像类别相同；

如果上述第一样本图像和第二样本图像的目标相似度大于预设阈值，则上述第一样本图像的图像类别与上述第二样本图像的图像类别不相同。

根据第一样本图像和第二样本图像的目标相似度，确定上述第一样本图像及上述第二样本图像的识别结果，例如，定义上述第一样本图像及上述第二样本图像的识别结果为定义S(X_o,X_p)＝2/(1+expf(X_o,X_p))，S(X_o,X_p)的取值范围是[0,1]，当f(X_o,X_p)＝0时，即上述第一样本图像及上述第二样本图像之间的欧几里得距离度量值为0，则S(X_o,X_p)＝1，表示上述第一样本图像及上述第二样本图像的图像类型相同，当f(X_o,X_p)→∞时，即上述第一样本图像及上述第二样本图像之间的欧几里得距离度量值为无穷大是，S(X_o,X_p)＝0，表示上述第一样本图像及上述第二样本图像的图像类别不相同。

在一种可能的实施方式中，上述方法还包括：

获取未标注图像类别的图像数据；

根据已标注图像类别的样本图像，通过预设预测算法，预测上述图像数据的图像类别。

假设获取的多个样本图像，部分样本图像已标注图像类别，但是部分样本图像未标注图像类别，那么可以根据预设算法以及已标注图像类别的样本图像，确定未标注图像类别的样本图像的图像类别。

例如，根据以下公式确定未标注图像类别的样本图像的图像类别。

其中，X_j为第j个待训练的样本图像，j∈{1,…,m}，其中X_j为未标注图像类别，o(X_j)为根据已标注图像类别的样本图像预测出的X_j的图像类别，o(X_j)∈{1,…,C}。

根据预设算法以及已标注图像类别的样本图像，确定未标注图像类别的样本图像的图像类别，这样当总标注的样本图像数据量很少的时候，可以根据已标注图像类别的样本图像，确定未标注图像类别的样本图像的图像类别，实现图像特征的自动提取和分类。

图3为本公开实施例的图像识别模型的训练装置的一种示意图，参见图3，该装置包括：采集模块310，选取模块320，相似度计算模块330，识别结果分析模块340，损失值确定模块350，判断模块360，第一处理模块370，第二处理模块380。

采集模块310，被配置为获取多个待训练的样本图像和基于孪生网络的图像识别模型，其中，各上述样本图像标注有图像类别，，上述图像识别模型包括第一卷积神经网络、第二卷积神经网络、相似度网络；上述第一卷积神经网络包括多个卷积层、多个池化层、多个全连接层，上述第二卷积神经网络与上述第一卷积神经网络结构相同且参数相同；上述相似度网络包括多个相似度计算模块，各上述相似度计算模块分别连接上述第一卷积神经网络与上述第二卷积神经网络中相对应的指定层；

选取模块320，被配置为在多个上述样本图像中，选取第一样本图像及第二样本图像；

相似度计算模块330，被配置为将上述第一样本图像输入到上述第一卷积神经网络，将上述第二样本图像输入到上述第二卷积神经网络中进行训练，分别得到第一样本图像的图像类别、第二样本图像的图像类别，并通过上述相似度网络的各上述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度；

识别结果分析模块340，被配置为根据各上述特征相似度，确定上述第一样本图像及上述第二样本图像的识别结果；

损失值确定模块350，被配置为根据预设模型损失函数、上述第一卷积神经网络得到的上述第一样本图像的图像类别、上述第二卷积神经网络得到的上述第二样本图像的图像类别及上述相似度网络得到的识别结果，确定上述预设模型损失函数的损失值；

判断模块360，被配置为根据上述预设模型损失函数的损失值，判断上述预设模型损失函数是否收敛；

第一处理模块370，被配置为在上述预设模型损失函数未收敛时，调整上述图像识别模型的参数，并返回上述选取模块继续执行；

第二处理模块380，被配置为在上述预设模型损失函数收敛时，得到训练好的基于孪生网络的图像识别模型。

在一种可能的实施方式中，上述相似度计算模块330具体用于：

根据以下表达式表示特征相似度：

d_u(g_Ak(X_o),g_ak(X_p))

在一种可能的实施方式中，上述预设模型损失函数包括第一损失函数、第二损失函数、第三损失函数，上述损失值确定模块350具体用于：

在一种可能的实施方式中，上述识别结果分析模块340具体用于：

在一种可能的实施方式中，上述装置还包括：

分类模块，被配置为获取未标注图像类别的图像数据；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4为本公开实施例的电子设备的第一种示意图，参见图4，例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在上述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如上述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例中任一上述的图像识别模型的训练方法。

图5是根据一示例性实施例示出的第二种电子设备的示意图。例如，电子设备900可以被提供为一服务器。参照图5，电子设备900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述实施例中任一上述的图像识别模型的训练方法。

电子设备900还可以包括一个电源组件926被配置为执行电子设备900的电源管理，一个有线或无线网络接口950被配置为将电子设备900连接到网络，和一个输入输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似操作系统。

在本公开实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一上述的图像识别模型的训练方法。在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。可选地，例如，存储介质可以是非临时性计算机可读存储介质，例如，上述存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一上述的图像识别模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络包括多个第一卷积分支子网络，第一拼接层，多个全连接层，所述多个第一卷积分支子网络均包括多个卷积层、多个池化层，所述多个第一卷积分支子网络输出的特征图通过所述第一拼接层拼接；

3.根据权利要求2所述的方法，其特征在于，所述通过所述相似度网络的各所述相似度计算模块分别对相应的指定层进行相似度计算，得到多个特征相似度，包括：

根据以下表达式表示特征相似度：

d_u(g_Ak(X_o)，g_ak(X_p))

其中，u表示所述相似度网络的第u个相似度计算模块，A表示第一卷积神经网络，a表示第二卷积神经网络，X_o表示所述第一样本图像，X_p表示所述第二样本图像，g_Ak(X_o)表示所述第一卷积神经网络第k层输出的特征图，g_ak(X_p)表示所述第二卷积神经网络第k层输出的特征图，所述第一卷积神经网络第k层是所述第二卷积神经网络第k层的相对应的层，所述第一卷积神经网络第k层与所述第二卷积神经网络第k层参数相同，d_u(g_Ak(X_o)，g_ak(X_p))表示通过所述第u个相似度计算模块计算得到的通过所述第一卷积神经网络第k层输出的特征图与通过所述第二卷积神经网络第k层输出的特征图的特征相似度。

4.根据权利要求3所述的方法，其特征在于，所述预设模型损失函数包括第一损失函数、第二损失函数、第三损失函数，所述根据预设模型损失函数、所述第一卷积神经网络得到的所述第一样本图像的图像类别、所述第二卷积神经网络得到的所述第二样本图像的图像类别及所述相似度网络得到的识别结果，确定所述预设模型损失函数的损失值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各所述特征相似度，确定所述第一样本图像及所述第二样本图像的识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一样本图像和第二样本图像的目标相似度，确定所述第一样本图像及所述第二样本图像的识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取未标注图像类别的图像数据；

8.一种图像识别模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，

存储器，被配置为存放计算机程序；

处理器，被配置为执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的图像识别模型的训练方法。

10.一种存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的图像识别模型的训练方法。