CN113505678B

CN113505678B - 基于深度可分离卷积的猴类面部识别方法

Info

Publication number: CN113505678B
Application number: CN202110744859.3A
Authority: CN
Inventors: 王浩博; 刘焘; 许鹏飞; 何刚; 郭松涛
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2023-03-21
Anticipated expiration: 2041-07-01
Also published as: CN113505678A

Abstract

本发明公开了一种基于深度可分离卷积的猴类面部识别方法，具体包括如下步骤：步骤1：采集猴类面部图像，得到数据集；步骤2：对数据集分为训练集、验证集和测试集；步骤3：预处理；步骤4：构建MonkeyNet‑V1网络模型；步骤5：构建MSE‑Net模块；步骤6：将MSE‑Net模块分别嵌入到MonkeyNet‑V1网络模型的conv2、conv3、conv4层的两步求和操作之间，得到模型MonkeyNet‑V2；步骤7：将训练集和验证集代入模型MonkeyNet‑V2中进行训练，得到训练好的模型MonkeyNet‑V2模型；步骤8：将测试集代入训练好的模型MonkeyNet‑V2，得到识别结果。本发明通过对现有的ResNeXt‑101进行改进，有效实现了模型轻量化，使得效率大大提高；本发明的准确率在95.10％左右，在精度上有明显提升。

Description

基于深度可分离卷积的猴类面部识别方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于深度可分离卷积的猴类面部识别方法。

背景技术

在对猴类的研究中，对猴类进行分类的传统手段，是人为的对其个体分类。人为对猴类个体分类，不仅耗时耗力，而且分类结果往往受到主观因素的影响，造成猴类个体分类不准，不利于猴类的研究和管理。近些年来，深度学习的蓬勃发展给许多传统问题提供了新的解决思路。将卷积神经网络应用到猴类面部识别分类是一个重要且有意义的研究课题，使用人工智能进行猴类面部识别分类是一种实时高效的识别方式，可以有效地推进猴类的研究工作。将其研究成果应用到现实中势必会高效的推动猴类的监测研究工作，从源头解决猴类个体识别问题。

最近，Hou等(2020)使用了VGGNet对25只大熊猫的65000张面部图像进行了面部识别，获得了个体识别精度的95％。Schofield等人(2019)提出了一种用于人脸的深度卷积神经网络(CNN)方法，从一个14年的数据集的长期视频记录中检测、跟踪和识别野生大猩猩得到了23个个体的1000万张面部图像，他们获得了92.5％的整体准确率身份识别。

但是，现有的动物识别模型普遍存在以下缺点：识别精度低；模型过于庞大，运算效率低。并且，没有一种能有效识别猴类面部的方法存在。因此研究一种识别精度高以及运算效率高的猴类识别模型对于猴类研究是非常有现实意义的。

发明内容

本发明的目的是，提供一种基于深度可分离卷积的猴类面部识别方法，解决了现有的动物面部识别方法中缺少对猴类面部识别的准确、高效的方法的问题。

本发明所采用的技术方案是：

一种基于深度可分离卷积的猴类面部识别方法，具体包括如下步骤：

步骤1：采集猴类面部图像，得到数据集；

步骤2：对数据集分为训练集、验证集和测试集；

步骤3：对训练集、验证集和测试集分别进行预处理；

步骤4：构建MonkeyNet-V1网络模型；

所述MonkeyNet-V1根据ResNeXt-101改进得到，具体是将ResNeXt-101中的conv2、conv3、conv4中的所有3x3卷积替换成深度可分离卷积；

步骤5：构建MSE-Net模块；具体如下：

所述的MSE-Net模块包括四个SE模块、融合模块和点积模块，其中，四个SE模块如下：

第一个SE模块：包括依次连接的global pooling、F C、ReLU、F C、Sigmoid子模块；

第二个SE模块：包括从上至下依次连接的max pooling、F C、ReLU、FC、Sigmoid子模块；

第三个和第四个SE模块相同：包括从上至下依次连接的max pooling、globalpooling、F C、ReLU、F C、Sigmoid子模块；

所述融合模块用于实现对每个输入其内的数据进行平均求和操作；

所述点积模块用于实现将MSE-Net的输入和融合模块的输出进行点积操作。

步骤6：将MSE-Net模块分别嵌入到MonkeyNet-V1网络模型的conv2、conv3、conv4层的两步求和操作之间，得到模型MonkeyNet-V2。

步骤7：将训练集和验证集代入模型MonkeyNet-V2中进行训练，得到训练好的模型MonkeyNet-V2模型；

步骤8：将测试集代入训练好的模型MonkeyNet-V2，得到猴类的识别结果。

进一步的，所述步骤2中，将数据集以7:2:1的比例进行了随机分组，分别为训练集、验证集和测试集。

进一步的，所述步骤3中，所述预处理包括数据增强与数据归一化。

进一步的，所述数据增强包括水平垂直翻转、平移变换、色彩增强和添加噪声操作。

进一步的，所述步骤3中，所述数据归一化采用下式进行：

其中，x_mean为原始数据的均值，S为原始数据标准差。

相较于现有技术，本发明的方法的有益效果如下；

1、通过对现有的ResNeXt-101进行改进，将ResNeXt-101中的conv2、conv3、conv4中的所有3x3卷积替换成深度可分离卷积，有效实现了模型轻量化，使得效率大大提高。

2、经试验，本发明的准确率在95.10％左右，在精度上有明显提升。

附图说明

图1是MonkeyNet V1模型对于ResNeXt-101的优化示意图；

图2是MSE-NET模块结构图；

图3是MonkeyNet V2网络模型结构。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供的一种基于深度可分离卷积的猴类面部识别方法，具体包括如下步骤：

步骤1：采集猴类面部图像，得到数据集。

实施例中采集了33238幅猴类面部图像。

步骤2：对数据集分为训练集、验证集和测试集。

具体是，将数据集以7:2:1的比例进行了随机分组，分别为训练集(trainingset)、验证集(validation set)和测试集(test set)。其中训练集有23267张图像，验证集有6648张图片，测试集有3323张图像。将数据集分为三部分，主要是为了测试算法验证精度和测试精度。

步骤3：对训练集、验证集和测试集分别进行预处理。

优选的，预处理包括数据增强与数据归一化。

优选的，数据增强包括水平垂直翻转、平移变换、色彩增强、添加噪声。

优选的，数据归一化采用下式进行：

其中，x_mean为原始数据的均值，S为原始数据标准差。

经过归一化处理后数据的均值为0，标准差为1。

步骤4：构建MonkeyNet-V1网络模型。具体如下：

MonkeyNet-V1是根据ResNeXt-101改进得到：如图1所示，将ResNeXt-101中的conv2、conv3、conv4中的所有3x3卷积替换成深度可分离卷积(例如MobileNet中的深度可分离卷积)，该改进实现了模型轻量化。

表1 ResNeXt-101的结构

步骤5：构建MSE-Net模块。具体如下：

如图2，所述的MSE-Net模块包括四个SE模块、融合模块和点积模块，其中，四个SE模块如下：在现有的SE-NET结构上添加了三个SE模块，并分为三个等级。对于Level 1对应的SE模块，包括从上至下依次连接的max pooling、F C、ReLU、F C、Sigmoid子模块；Level 2和Level 3对应的SE模块包括从上至下依次连接的max pooling、global pooling、F C、ReLU、F C、Sigmoid子模块。

现有的SE-NET包括依次连接的global pooling、F C、ReLU、F C、Sigmoid子模块。

融合模块用于实现对每个输入其内的数据进行平均求和操作。

点积模块用于实现将MSE-Net的输入和融合模块的输出进行点积操作。

步骤6：如图3所示，将MSE-Net模块分别嵌入到MonkeyNet-V1网络模型的conv2、conv3、conv4层的两步求和操作之间，得到模型MonkeyNet-V2。

为了解决随着层数增加，大量的特征对图像分类任务贡献不大的问题，将MSE-Net模块嵌入到MonkeyNet-V1网络的conv2、conv3、conv4层中，得到MonkeyNet-V2网络模型。通过引入MSE-Net模块对特征进行重新标定，使得对图像分类贡献大的特征进行加强，无效的特征进行抑制，从而来减轻MonkeyNet-V1网络层数过深带来的特征冗余问题。

步骤7：将训练集和验证集代入模型MonkeyNet-V2中进行训练，得到训练好的模型MonkeyNet-V2模型。

为了验证本发明的方法的有效性，发明人进行了如下实验：

1、实验环境

实验中所有网络模型均在统一实验平台进行。实验硬件软件如表2所示。

表2实验平台硬件、软件信息

2、模型超参数设置及模型评价指标

模型的超参数及其值设置为：批处理大小(Batch Size)32，其中Monkey-V2网络Batch Size为16、学习率(Learning Rate)0.001、学习率衰减值(Decay)0.1、优化器(Optimizer)SGD、动量(Momentum)0.9以及迭代次数(Epochs)80等。

采用准确率(Accuracy)、精确率(Precision)两个参数作为模型的评价指标。

3、MonkeyNet-V2实验结果与分析

本发明直接采用了数据增强后的金丝猴面部数据集对MonkeyNet-V2网络进行训练，采用表2中设置的实验条件。MonkeyNet-V2网络经过大概65次训练后，验证集的准确率和Loss逐渐趋于平稳，最终准确率稳定在95.10％左右。为了验证MonkeyNet-V2的有效性，将MonkeyNet-V2网络模型和其他分类模型结果进行对比，表3为对比结果。由表3可知，对比现有的识别算法，本发明得到的MonkeyNet-V2网络模型在精度上有着明显的提升。

表3其他分类网络与MonkeyNet-V2网络实验结果对比

网络名称	验证精度	测试精度
			AlexNET	0.8651	0.6918
VGG16	0.9283	0.8627
			ResNet-34	0.9765	0.9178
ResNet-50	0.9684	0.7009
			ResNet-101	0.9795	0.8932
RAP-Net	0.9628	0.9287
			MonkeyNet-V2	0.9816	0.9510

Claims

1.一种基于深度可分离卷积的猴类面部识别方法，其特征在于，具体包括如下步骤：

步骤1：采集猴类面部图像，得到数据集；

步骤2：对数据集分为训练集、验证集和测试集；

步骤3：对训练集、验证集和测试集分别进行预处理；

步骤4：构建MonkeyNet-V1网络模型；

步骤5：构建MSE-Net模块；具体如下：

所述点积模块用于实现将MSE-Net的输入和融合模块的输出进行点积操作；

步骤6：将MSE-Net模块分别嵌入到MonkeyNet-V1网络模型的conv2、conv3、conv4层的两步求和操作之间，得到模型MonkeyNet-V2；

2.如权利要求1所述的基于深度可分离卷积的猴类面部识别方法，其特征在于，所述步骤2中，将数据集以7:2:1的比例进行了随机分组，分别为训练集、验证集和测试集。

3.如权利要求1所述的基于深度可分离卷积的猴类面部识别方法，其特征在于，所述步骤3中，所述预处理包括数据增强与数据归一化。

4.如权利要求3所述的基于深度可分离卷积的猴类面部识别方法，其特征在于，所述数据增强包括水平垂直翻转、平移变换、色彩增强和添加噪声操作。

5.如权利要求1所述的基于深度可分离卷积的猴类面部识别方法，其特征在于，所述步骤3中，所述数据归一化采用下式进行：

其中，x_mean为原始数据的均值，S为原始数据标准差。