CN111695415B

CN111695415B - 图像识别方法及相关设备

Info

Publication number: CN111695415B
Application number: CN202010353180.7A
Authority: CN
Inventors: 胡艺飞; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-04-12
Anticipated expiration: 2040-04-28
Also published as: CN111695415A

Abstract

本申请涉及区块链技术，应用于智慧安防领域中，提供了一种图像识别模型的构建方法，该方法包括：获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测；若所述样本图像中存在目标人脸，则通过岭回归的方法对目标人脸进行补全操作，得到第二训练数据集；利用第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；利用第三训练数据集和联合损失函数对初始图像识别模型进行参数调整，得到构建完成的图像识别模型。提高对图像中的目标对象进行性别年龄识别的准确率。此外，本申请还涉及区块链技术，所述相关训练数据可存储于区块链中。

Description

图像识别方法及相关设备

技术领域

本申请涉及区块链技术，尤其涉及一种图像识别模型的构建方法、识别方法及相关设备。

背景技术

随着计算机技术的发展，计算机与人之间的交互面越来越广，其不仅能够识别人的指令，更能进行图像语义理解、性别年龄检测等更高层次的处理。性别年龄检测通常需要性别年龄识别模型实现，现有的性别年龄识别模型多采用开源非亚洲人脸数据集训练得到，且适用于基本无噪声，面部无遮挡的场景。但实际场景中，难免会遇到图像中人脸存在部分模糊、缺失等情况，此时现有性别年龄识别模型的预测准确率将受到很大的影响，预测出的结果也仅仅为跨度较大的年龄区间。可见，目前的性别年龄识别技术的准确率还有待提高。

发明内容

针对以上问题，本申请实施例提出一种图像识别模型的构建方法、识别方法及相关设备，有利于提高对图像中的目标对象进行性别年龄识别的准确率。

本申请实施例第一方面，提供了一种图像识别模型的构建方法，该方法包括：

获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测；

若所述样本图像中存在目标人脸，则通过岭回归的方法对所述目标人脸进行补全操作，得到第二训练数据集；

利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；

利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型。

在第一方面的一种较佳实施例中，所述通过岭回归的方法对所述目标人脸进行补全操作，包括：

利用参数θ建立岭回归模型函数h_θ(x_i)；其中，x_i表示因子矩阵X的第i行数据，i＝1，2，...，m，m表示因子矩阵X的总行数；

求取使得目标代价函数值最小的所述参数θ，得到岭回归模型，以完成对所述目标人脸进行补全。

在第一方面的另一种较佳实施例中，所述利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型，包括：

将所述第二训练数据集输入所述GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作；

对经过连续的卷积和池化操作后的输出特征进行全局平均池化操作；

将经过全局平均池化操作后输出的特征输入所述GoogLeNet神经网络的主分类器进行最终的分类，并将所述GoogLeNet神经网络的两个辅助分类器的输出作为权重加到最终的分类结果中；

在对所述第二训练数据集进行迭代的过程中，根据所述联合损失函数的值初步固定所述GoogLeNet神经网络的参数，得到所述初始图像识别模型。

在第一方面的另一种较佳实施例中，通过所述stem网络中的卷积层对输入的所述第二训练数据集进行特征提取；

将提取出的特征输入所述多个inception层中的第一个inception层进行卷积和池化操作，得到所述第一个inception层的输出；

对所述第一个inception层的输出进行拼接和并联后传输至第二个inception层进行卷积和池化操作，得到所述第二个inception层的输出；

重复执行将当前inception层的输出进行拼接和并联后传输至下一个inception层进行卷积和池化的操作，直至所述多个inception层中的最后一个inception层卷积和池化处理完毕。

在第一方面的另一种较佳实施例中，所述联合损失函数的构建过程，包括：

从所述第二训练数据集中选择第一目标样本图像x_a、与所述第一目标样本数据类别相同的第二目标样本图像x_p以及与所述第一目标样本数据类别不同的第三目标样本图像x_n；

根据所述第一目标样本图像x_a、所述第二目标样本图像x_p及所述第三目标样本图像x_n组成的三元组构建triplet损失；

根据所述triplet损失和交叉熵损失构建所述联合损失函数。

本申请实施例第二方面，提供了一种图像识别方法，该方法包括：

获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对所述待识别图像进行人脸检测；所述待识别图像中包括至少一个目标对象；

若所述待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像；

将所述补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间；

根据所述目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到所述目标对象的性别年龄识别结果，并将所述目标对象的性别年龄识别结果返回至所述第二终端。

本申请实施例第三方面提供了一种图像识别模型的构建装置，该装置包括：

第一人脸检测模块，用于获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测；

第一人脸补全模块，用于若所述样本图像中存在目标人脸，则通过岭回归的方法对所述目标人脸进行补全操作，得到第二训练数据集；

模型训练模块，用于利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；

模型调整模块，用于利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型。

本申请实施例第四方面提供了一种图像识别装置，该装置包括：

第二人脸检测模块，用于获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对所述待识别图像进行人脸检测；所述待识别图像中包括至少一个目标对象；

第二人脸补全模块，用于若所述待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像；

年龄区间预测模块，用于将所述补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间；

年龄值确定模块，用于根据所述目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到所述目标对象的性别年龄识别结果，并将所述目标对象的性别年龄识别结果返回至所述第二终端。

本申请实施例第五方面提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面或第二方面所述的方法中的步骤。

本申请实施例第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法中的步骤。

本申请的上述方案至少包括以下有益效果：本申请实施例通过获取第一终端上传的第一训练数据集(非亚洲人脸数据集)，采用预训练的多任务卷积神经网络对第一训练数据集中的样本图像进行人脸检测；若样本图像中存在目标人脸(被遮挡的人脸)，则通过岭回归的方法对目标人脸进行补全操作，得到第二训练数据集；利用第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；利用第三训练数据集(亚洲人脸数据集)和联合损失函数对初始图像识别模型进行参数调整，得到构建完成的图像识别模型。这样在第一训练数据集中的人脸存在遮挡的情况下，采用岭回归的方法进行人脸补齐，克服了检测过程中噪声、角度等问题带来的干扰，采用亚洲人脸数据集对初始图像识别模型进行参数调整，增加了模型的泛化能力，对亚洲人的性别年龄识别更为准确，同时，非亚洲人脸数据集和亚洲人脸数据集均标注出了具体年龄值，使得训练出的图像识别模型在预测出年龄区间的基础上能够进一步给出区间内的具体年龄值，从而有利于提高性别年龄识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为申请实施例提供的一种应用环境示例图；

图2为本申请实施例提供的一种图像识别模型的构建方法的流程示意图；

图3为本申请实施例提供的一种多任务卷积神经网络的结构示意图；

图4为本申请实施例提供的一种GoogLeNet神经网络的结构示意图；

图5为本申请实施例提供的一种GoogLeNet神经网络中stem网络的结构示意图；

图6为本申请实施例提供的另一种图像识别模型的构建方法的流程示意图；

图7为本申请实施例提供的一种图像识别方法的流程示意图；

图8为本申请实施例提供的一种图像识别模型的构建装置的结构示意图；

图9为本申请实施例提供的另一种图像识别模型的构建装置的结构示意图；

图10为本申请实施例提供的一种图像识别装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提出一种图像识别模型的构建方案，本方案可应用于智慧安防领域中，从而推动智慧城市的建设。由该图像识别模型构建方案构建的图像识别模型，可应用于企业或相关部门对客户或目标人群进行性别年龄等基本信息的统计中，或者还可应用于产品营销中，根据模型识别出的性别年龄向潜在客户推荐不同的产品、短视频、软文等等，而该图像识别模型可部署于服务器中，也可嵌入至应用程序中，相比现有仅能预测出年龄区间的模型，该图像识别模型可预测出具体的年龄值，精度更高。具体的，该图像识别模型的构建方案可基于图1所示的应用场景进行实施，如图1所示，该应用环境中至少包括终端和服务器，终端和服务器之间通过网络进行通信，该网络包括但不限于有线网络、无线网络，该终端主要是指开发人员的终端，用于进行训练数据集的标注，提供键盘输入、语音输入以及触摸输入等，通过开发人员的程序代码与服务器交互，终端可以是平板电脑、笔记本电脑、台式电脑等设备。服务器在获取到终端发送的训练数据集后，执行程序代码进行人脸检测、人脸补齐、模型训练、模型调整等一系列操作，最后向终端返回模型构建成功或失败的提示信息，服务器可以是单台服务器，也可以是服务器集群，是图像识别模型的构建方案的执行主体。

基于上述描述，以下结合其他附图对本申请实施例提供的图像识别模型的构建方法进行详细阐述。请参见图2，图2为本申请实施例提供的一种图像识别模型的构建方法的流程示意图，应用于服务器，如图2所示，包括步骤S21-S24：

S21，获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测。

本申请具体实施例中，第一终端即开发人员或模型构建人员的终端，第一训练数据集是经过标注的多个样本图像的集合，样本图像可以是任一开源数据库中的图像，具体不作限定，且主要是非亚洲人的图像。考虑到传统滑动窗口+分类器的思路所带来的性能消耗，这里采用预训练的多任务卷积神经网络(Multi-task convolutional neuralnetwork，MTCNN)进行人脸检测，能够有效兼顾性能和准确率。

如图3所示，MTCNN包括P网络(Proposal Network，P-Net)、R网络(RefineNetwork，R-Net)、O网络(Output Network，O-Net)，处理过程正如网络结构所体现，先由P-Net处理，P-Net的输出为R-Net的输入，R-Net的输出为O-Net的输入，最后由O-Net输出结果。在输入P-Net之前需要构建第一训练数据集中的样本图像的图像金字塔，得到不同尺寸的图像，如图1中所示，P-Net的输入是12*12*3的图像、R-Net的输入是24*24*3的图像、O-Net的输入是48*48*3的图像。P-Net中先经过3*3的卷积、2*2的池化，再经过3*3的卷积、3*3的卷积，然后通过人脸分类器检测是否是人脸，使用边界框回归和关键点定位器进行人脸的初定位。R-Net中除最后一次卷积外其他卷积操作仍是3*3的卷积，但在卷积后接3*3的池化，最后一次卷积为2*2卷积，其后再接128通道的全连接层，最后使用边界框回归和关键点定位器进行人脸的边界框回归和关键点定位。O-Net在R-Net的处理过程上增加了一次3*3的卷积和2*2的池化，并且最后接的是256通道的全连接，通过更多的监督识别待识别图像中的人脸。

S22，若所述样本图像中存在目标人脸，则通过岭回归的方法对所述目标人脸进行补全操作，得到第二训练数据集。

本申请具体实施例中，目标人脸即样本图像中被遮挡的人脸，此处被遮挡的人脸不仅包括障碍物遮挡的情况，还应包括部分人脸区域模糊的情况，第二训练数据集即经过人脸补全后对第一训练数据集进行更新后得到的数据集。可选的，可以采用对存在被遮挡的人脸的样本图像进行平滑去噪，然后进行瞳孔检测、角度规范化处理，最后移除遮挡物进行人脸缺失区域填充的方法进行人脸补全，还可以采用深度卷积神经生成对抗网络的无监督学习进行人脸补全。

为了使人脸补全效果更符合实际，本申请采用岭回归的方法来对被遮挡的人脸进行补全，补全的过程实际就是求取合适岭回归模型的过程，利用参数θ建立岭回归模型函数：其中，x_i表示因子矩阵X的第i行数据，j＝1，2，...，n，n表示因子的总个数，i＝1，2，...，m，m表示因子矩阵X的总行数，x_ij表示第i行的第j列数据，h_θ(x_i)表示第i组样本数据的预测值，即岭回归模型的输出，因子矩阵X为人脸被遮挡的样本图像的特征矩阵。岭回归的方法的目标是寻找参数θ使得目标代价函数：最小，其中，y_i表示第i组样本数据的实际值，λ表示惩罚项参数，用于减少过拟合，求得参数θ使代价函数值最小便得到岭回归模型，即完成对被遮挡的人脸的补全。

S23，利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型。

本申请具体实施例中，如图4所示，GoogLeNet神经网络主要包括stem网络、9个inception层(inception1、inception2、...、inception9，共27小层)、主分类器(softmax2)和两个辅助分类器(softmax0、softmax1)，stem网络主要用于对输入GoogLeNet神经网络的第二训练数据集中的样本图像进行卷积以提取特征，9个inception层主要用于对stem网络提取出的特征进行连续的卷积和池化操作，最后一个inception层与主分类器之间采用全局平均池化代替全连接层，全局平均池化后输出的特征进入主分类器进行分类，并且辅助分类器的输出将作为一个较小的权重(例如：0.2)加到主分类器最后的分类结果中，最后输出样本图像中的人物的具体性别年龄值，例如：男性26岁、女性20岁，等等，在对第二训练数据集进行迭代的过程中，参照联合损失函数的值，当其满足预设要求时，初步固定GoogLeNet神经网络的参数，得到初始图像识别模型，即还需进一步调整的模型。需要说明的是，两个辅助分类器是对9个inception层中间的某层的输出进行分类，主要是为了避免梯度消失，其在实际预测中将会被去掉。

具体的，stem网络如图5所示，主要通过两个卷积层对输入的样本图像进行特征提取，第一个卷积层使用7*7的卷积核，然后进行ReLU操作，再使用3*3的最大池化，再进行ReLU操作，第二个卷积层3*3的卷积核，然后进行ReLU操作，再使用3*3的最大池化，再进行ReLU操作，其输出再输入第一个inception层(即inception1)，分为四个分支，每个分支采用不同尺度的核进行卷积或最大池化处理，对四个分支输出的结果进行拼接、在第三维上进行并联得到第一个inception层的输出，例如：四个分支输出的结果尺寸分别为28*28*64、28*28*96、28*28*16和28*28*32，则第一个inception层的输出尺寸为28*28*(64+96+16+32)。第一个inception层的输出作为第二个inception层的输入，第二个inception层同样分为四个分支进行处理，按照第一个inception层的处理方式，得到第二个inception层的输出，第二个inception层的输出又作为第三个inception层的输入，如此重复，直到得到最后一个inception层的输出。

S24，利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型。

本申请具体实施例中，第三训练数据集即经过标注的亚洲人脸数据集，由于步骤S23中训练初始图像识别模型的第二训练数据集使用的是开源非亚洲人脸数据集，为了使模型在亚洲人的性别年龄识别上准确性更高，采用第三训练数据集对初始图像识别模型进行参数微调。同样地，将第三训练数据集输入初始图像识别模型，依次经过stem网络、9个inception层和主分类器的处理，在联合损失函数的值收敛的过程中，逐步调整初始图像识别模型的参数，最后得到可直接使用的图像识别模型。

需要强调的是，为进一步保证上述第一训练数据集、第二训练数据集及第三训练数据集的私密和安全性，上述第一训练数据集、第二训练数据集及第三训练数据集还可以存储于一区块链的节点中。

可以看出，本申请实施例通过获取第一终端上传的第一训练数据集(非亚洲人脸数据集)，采用预训练的多任务卷积神经网络对第一训练数据集中的样本图像进行人脸检测；若样本图像中存在目标人脸(被遮挡的人脸)，则通过岭回归的方法对目标人脸进行补全操作，得到第二训练数据集；利用第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；利用第三训练数据集(亚洲人脸数据集)和联合损失函数对初始图像识别模型进行参数调整，得到构建完成的图像识别模型。这样在第一训练数据集中的人脸存在遮挡的情况下，采用岭回归的方法进行人脸补齐，克服了检测过程中噪声、角度等问题带来的干扰，采用亚洲人脸数据集对初始图像识别模型进行参数调整，增加了模型的泛化能力，对亚洲人的性别年龄识别更为准确，同时，非亚洲人脸数据集和亚洲人脸数据集均标注出了具体年龄值，使得训练出的图像识别模型在预测出年龄区间的基础上能够进一步给出区间内的具体年龄值，从而有利于提高性别年龄识别的准确率。

基于图2所示的图像识别模型的构建方法实施例的描述，请参见图6，图6为本申请实施例提供的另一种图像识别模型的构建方法的流程示意图，如图6所示，包括步骤S61-S65：

S61，获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测；

S62，若所述样本图像中存在目标人脸，则利用目标参数建立岭回归模型函数；

其中，目标参数为θ，岭回归模型函数为h_θ(x_i)，x_i表示因子矩阵X的第i行数据，i＝1，2，...，m，m表示因子矩阵X的总行数；

S63，求取使得目标代价函数值最小的所述目标参数，得到岭回归模型，以对所述目标人脸进行补全，得到第二训练数据集；

S64，利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；

可选的，上述利用第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型，包括：

将第二训练数据集输入GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作；

将经过全局平均池化操作后输出的特征输入GoogLeNet神经网络的主分类器进行最终的分类，并将GoogLeNet神经网络的两个辅助分类器的输出作为权重加到最终的分类结果中；

在对第二训练数据集进行迭代的过程中，根据联合损失函数的值初步固定GoogLeNet神经网络的参数，得到初始图像识别模型。

可选的，上述将第二训练数据集输入GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作，包括：

通过stem网络中的卷积层对输入的第二训练数据集进行特征提取；

将提取出的特征输入多个inception层中的第一个inception层进行卷积和池化操作，得到第一个inception层的输出；

对第一个inception层的输出进行拼接和并联后传输至第二个inception层进行卷积和池化操作，得到第二个inception层的输出；

重复执行将当前inception层的输出进行拼接和并联后传输至下一个inception层进行卷积和池化的操作，直至多个inception层中的最后一个inception层卷积和池化处理完毕。

该实施方式中，采用GoogLeNet神经网络进行图像识别模型的训练，由于GoogLeNet神经网络的多个inception层结构，在增加和修改网络，以及对输出进行调整方面更灵活，同时，两个辅助分类器在训练过程中能够避免梯度消失的问题。

S65，利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型。

可选的，上述联合损失函数的构建过程，包括：

从第二训练数据集中选择第一目标样本图像x_a、与第一目标样本数据类别相同的第二目标样本图像x_p以及与第一目标样本数据类别不同的第三目标样本图像x_n；

根据第一目标样本图像x_a、第二目标样本图像x_p及第三目标样本图像x_n组成的三元组构建triplet损失；

根据triplet损失和交叉熵损失构建联合损失函数。

本申请具体实施例中，第一目标样本图像x_a、第二目标样本图像x_p与第三目标样本图像x_n都是第二训练数据集中经过标注的样本图像，第一目标样本图像x_a随机选取，第一目标样本图像x_a与第二目标样本图像x_p类别相同是指其标注信息相同，例如：同为男性13-15岁，同理，第一目标样本图像x_a与第三目标样本图像x_n类别不同是指标注信息不同，例如：第三目标样本图像x_n的标注信息为男性0-5岁。由x_a、x_p和x_n组成一个三元组来构建triplet损失：max(d(x_ai，x_pi)-d(x_ai，x_ni+margin)，0)，由triplet损失再加上交叉熵损失构建联合损失函数：/> 0+yAog(yi)，其中，xai表示由第二训练数据集构成的矩阵X1第i行中的第一目标样本数据，x_pi表示矩阵X1第i行中的第二目标样本数据，x_ni表示矩阵X1第i行中的第三目标样本数据，/>表示第i组样本数据的预测值。

该实施方式中，由triplet损失和交叉熵损失构建联合损失函数，而triplet损失的目的是通过学习拉近相似的样本数据x_a和x_p之间的距离，同时，拉远不相似的样本数据x_a和x_n之间的距离，并且使x_a和x_p之间的距离与x_a和x_n之间的距离存在一个最小间隔margin，让模型对x_a和x_p的输出变得相近，而对x_a和x_n的输出变得不相近。

其中，上述步骤S61-S65的具体实施方式在图2所示的实施例中已有详细描述，且能达到相同或相似的有益效果，为避免重复，此处不再赘述。

请参见图7，本申请实施例还提供一种图像识别方法，将图2或图6所示实施例中所构建的图像识别模型应用到实际性别年龄识别场景中，如图7所示，包括步骤S71-S74：

S71，获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对所述待识别图像进行人脸检测；所述待识别图像中包括至少一个目标对象。

本申请具体实施例中，第二终端可以是企业工作人员的终端，也可以是用户的终端，例如：在一些场景中，企业工作人员为客户办理业务的过程中，需要采集客户的待识别图像(客户的人脸图像)进行性别年龄识别，然后通过终端上传至服务器进行处理；在另一些场景中，用户使用自己终端上安装的应用程序进行性别年龄识别，此时便是用户的终端上传待识别图像(用户自己的人脸图像)至服务器，而待识别图像中至少应包括一个目标对象，例如：客户与其亲属，用户与其朋友等等。对待识别图像进行人脸检测同样采用P网络、R网络和O网络级联的MTCNN进行。

S72，若所述待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像。

本申请具体实施例中，岭回归的方法即通过求取参数θ建立合适的岭回归模型对待识别图像中存在遮挡的人脸进行补全。

S73，将所述补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间。

S74，根据所述目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到所述目标对象的性别年龄识别结果，并将所述目标对象的性别年龄识别结果返回至所述第二终端。

本申请具体实施例中，由于图像识别模型的参数已经基本固定，所以此处补全后的待识别图像的尺寸是与图像识别模型的输入参数匹配的，特征向量的提取由模型中的stem网络和9个inception层进行，最后的年龄区间预测和年龄值预测由主分类器完成。目标对象所属的年龄区间，即与目标对象的特征向量最接近的年龄区间，特征向量与年龄区间的映射关系即某个人的特征向量A与男性10-15岁这个区间最接近，与男性15-20岁这个区间次接近，第三接近的是男性5-10岁这个区间，那么，更倾向于得到目标对象的年龄为10-15岁这个区间中的一个具体值，例如：13或14，最后服务器可将该具体年龄值返回至第二终端，例如：男性，13岁。

本申请实施例通过获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对待识别图像进行人脸检测；若待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像；将补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出待识别图像中目标对象所属的年龄区间；根据目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到目标对象的性别年龄识别结果，并将目标对象的性别年龄识别结果返回至第二终端。这样采用岭回归的方法对待识别图像中存在遮挡的人脸进行补全，然后采用预先训练好的图像识别模型进行特征向量的提取和年龄值的预测，有利于提高对待识别图像中的目标对象进行性别年龄识别的准确率。

基于上述图像识别模型的构建方法实施例的描述，本申请还提供一种图像识别模型的构建装置，所述图像识别模型的构建装置可以是运行于终端中的一个计算机程序(包括程序代码)。该图像识别模型的构建装置可以执行图2或图6所示的方法。请参见图8，该装置包括：

第一人脸检测模块81，用于获取第一终端上传的第一训练数据集，采用预训练的多任务卷积神经网络对所述第一训练数据集中的样本图像进行人脸检测；

第一人脸补全模块82，用于若所述样本图像中存在目标人脸，则通过岭回归的方法对所述目标人脸进行补全操作，得到第二训练数据集；

模型训练模块83，用于利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；

模型调整模块84，用于利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型。

在一种可能的实施方式中，在通过岭回归的方法对所述目标人脸进行补全操作方面，第一人脸补全模块82具体用于：

在一种可能的实施方式中，在利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型方面，模型训练模块83具体用于：

在一种可能的实施方式中，所述GoogLeNet神经网络包括stem网络和多个inception层；在将所述第二训练数据集输入所述GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作方面，模型训练模块83具体用于：

通过所述stem网络中的卷积层对输入的所述第二训练数据集进行特征提取；

在一种可能的实施方式中，如图9所示，图像识别模型的构建装置还包括损失函数构建模块85，该损失函数构建模块85具体用于：

根据所述triplet损失和交叉熵损失构建所述联合损失函数。

本申请实施例提供的图像识别模型的构建装置，通过获取第一终端上传的第一训练数据集(非亚洲人脸数据集)，采用预训练的多任务卷积神经网络对第一训练数据集中的样本图像进行人脸检测；若样本图像中存在目标人脸(被遮挡的人脸)，则通过岭回归的方法对目标人脸进行补全操作，得到第二训练数据集；利用第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型；利用第三训练数据集(亚洲人脸数据集)和联合损失函数对初始图像识别模型进行参数调整，得到构建完成的图像识别模型。这样在第一训练数据集中的人脸存在遮挡的情况下，采用岭回归的方法进行人脸补齐，克服了检测过程中噪声、角度等问题带来的干扰，采用亚洲人脸数据集对初始图像识别模型进行参数调整，增加了模型的泛化能力，对亚洲人的性别年龄识别更为准确，同时，非亚洲人脸数据集和亚洲人脸数据集均标注出了具体年龄值，使得训练出的图像识别模型在预测出年龄区间的基础上能够进一步给出区间内的具体年龄值，从而有利于提高性别年龄识别的准确率。

基于上述图像识别方法实施例的描述，本申请还提供一种图像识别装置，该图像识别装置可以执行图7所示的方法。请参见图10，该装置包括：

第二人脸检测模块1001，用于获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对所述待识别图像进行人脸检测；所述待识别图像中包括至少一个目标对象；

第二人脸补全模块1002，用于若所述待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像；

年龄区间预测模块1003，用于将所述补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间；

年龄值确定模块1004，用于根据所述目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到所述目标对象的性别年龄识别结果，并将所述目标对象的性别年龄识别结果返回至所述第二终端。

本申请实施例提供的图像识别装置通过获取第二终端发送的待识别图像，采用预训练的多任务卷积神经网络对待识别图像进行人脸检测；若待识别图像中的人脸存在遮挡，则通过岭回归的方法对存在遮挡的人脸进行补全，得到补全后的待识别图像；将补全后的待识别图像输入预训练的图像识别模型进行特征向量的提取，以预测出待识别图像中目标对象所属的年龄区间；根据目标对象的特征向量、所属的年龄区间以及预设的特征向量与年龄区间的映射关系得到目标对象的性别年龄识别结果，并将目标对象的性别年龄识别结果返回至第二终端。这样采用岭回归的方法对待识别图像中存在遮挡的人脸进行补全，然后采用预先训练好的图像识别模型进行特征向量的提取和年龄值的预测，有利于提高对待识别图像中的目标对象进行性别年龄识别的准确率。

需要说明的是，图8-图10所示的各个装置的各个模块可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，图像识别模型的构建装置和图像识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图6或图7中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8、图9或图10中所示的装置设备，以及来实现本申请实施例的图像识别模型的构建方法或图像识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，请参见图11，图11为本申请实施例提供的一种电子设备的结构示意图，如图11所示，该电子设备至少包括存储器1101，用于存储计算机程序；处理器1102，用于调用存储器1101存储的计算机程序实现上述图像识别模型的构建方法或图像识别方法的实施例中的步骤；输入输出接口1103，用于进行输入输出，该输入输出接口1103可以为一个或多个；可以理解的，电子设备中各部分分别与总线相连。

计算机可读存储介质可以存储在电子设备的存储器1101中，所述计算机可读存储介质用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1102用于执行所述计算机可读存储介质存储的程序指令。处理器1102(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，处理器1102具体用于调用计算机程序执行如下步骤：

在一种可能的实施方式中，处理器1102执行所述通过岭回归的方法对所述目标人脸进行补全操作，包括：

在一种可能的实施方式中，处理器1102执行所述利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到用于性别年龄识别的初始图像识别模型，包括：

在一种可能的实施方式中，所述GoogLeNet神经网络包括stem网络和多个inception层；处理器1102执行所述将所述第二训练数据集输入所述GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作，包括：

在一种可能的实施方式中，处理器1102执行所述联合损失函数的构建，包括：

根据所述triplet损失和交叉熵损失构建所述联合损失函数。

在另一个实施例中，处理器1102具体还用于调用计算机程序执行如下步骤：

示例性的，上述电子设备可以是各种服务器、主机等设备。电子设备可包括但不仅限于处理器1102、存储器1101、输入输出接口1103。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器1102执行计算机程序时实现上述的图像识别模型的构建方法或图像识别方法中的步骤，因此上述图像识别模型的构建方法或图像识别方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的图像识别模型的构建方法或图像识别方法中的步骤。

示例性的，计算机可读存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，由于计算机可读存储介质的计算机程序被处理器1102执行时实现上述的图像识别模型的构建方法或图像识别方法中的步骤，因此上述图像识别模型的构建方法或图像识别方法的所有实施例均适用于该计算机可读存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型；

所述联合损失函数的构建过程，包括：

从所述第二训练数据集中选择第一目标样本图像、与所述第一目标样本图像/>类别相同的第二目标样本图像/>以及与所述第一目标样本图像/>类别不同的第三目标样本图像/>；其中，类别相同是指标注信息相同，类别不同是指标注信息不同；

根据所述第一目标样本图像、所述第二目标样本图像/>及所述第三目标样本图像组成的三元组构建triplet损失；所述triplet损失的目的是使/>和/>之间的距离与/>和/>之间的距离存在一个最小间隔margin；

根据所述triplet损失和交叉熵损失构建所述联合损失函数；所述联合损失函数表示为：，其中，/>表示由第二训练数据集构成的矩阵X1第i行中的第一目标样本数据，/>表示矩阵X1第i行中的第二目标样本数据，/>表示矩阵X1第i行中的第三目标样本数据，/>表示第/>组样本数据的预测值；

将所述补全后的待识别图像输入构建完成的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间；

2.根据权利要求1所述的方法，其特征在于，所述通过岭回归的方法对所述目标人脸进行补全操作，包括：

利用参数建立岭回归模型函数/>；其中，/>表示因子矩阵X的第q行数据，q=1,2,…,m，m表示因子矩阵X的总行数；

求取使得目标代价函数值最小的所述参数，得到岭回归模型，以完成对所述目标人脸进行补全。

3.根据权利要求1所述的方法，其特征在于，所述利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到性别年龄的初始图像识别模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述GoogLeNet神经网络包括stem网络和多个inception层；所述将所述第二训练数据集输入所述GoogLeNet神经网络进行特征提取，对提取出的特征再进行连续的卷积和池化操作，包括：

5.一种图像识别装置，其特征在于，所述装置包括：

模型训练模块，用于利用所述第二训练数据集和预构建的联合损失函数对GoogLeNet神经网络进行训练，得到性别年龄的初始图像识别模型；

模型调整模块，用于利用第三训练数据集和所述联合损失函数对所述初始图像识别模型进行参数调整，得到构建完成的图像识别模型；

损失函数构建模块具体用于：

根据所述triplet损失和交叉熵损失构建所述联合损失函数，所述联合损失函数表示为：，其中，/>表示由第二训练数据集构成的矩阵X1第i行中的第一目标样本数据，/>表示矩阵X1第i行中的第二目标样本数据，/>表示矩阵X1第i行中的第三目标样本数据，/>表示第/>组样本数据的预测值；

年龄区间预测模块，用于将所述补全后的待识别图像输入构建完成的图像识别模型进行特征向量的提取，以预测出所述目标对象所属的年龄区间；

6.一种电子设备，其特征在于，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法中的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法中的步骤。