CN116912879A

CN116912879A - 一种基于迁移学习的刷耳身份识别方法

Info

Publication number: CN116912879A
Application number: CN202310655206.7A
Authority: CN
Inventors: 尚文利; 廖玟皓; 揭海; 曹忠; 常志伟; 时昊天; 李淑琦; 韦蕴珊
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-10-20

Abstract

本发明公开了一种基于迁移学习的刷耳身份识别方法，提出了一种基于迁移学习的刷耳身份识别方法，通过对数据集图片进行预处理，并将预处理后的图片按照等比例划分后，抽取部分分别用于验证集、神经网络学习人耳特征、评估神经网络学习效果和评估已经完成训练的神经网络模型，通过预训练模型从新的样本中提取出特征，然后将这些特征输入到一个新的分类器，从头开始训练，选择冻结预训练权重，只对新的分类器权重进行训练，最后对预训练权重进行微调使模型更适应于人耳图像分类任务。

Description

一种基于迁移学习的刷耳身份识别方法

技术领域

本发明涉及迁移学习的技术领域，具体涉及一种基于迁移学习的刷耳身份识别方法。

背景技术

传统的人耳识别方法是基于美国学者Alfred Tannarelli提出的一种名为人耳十二点测量法进行识别，其基本思想是利用每人独有的人耳生理特征进行有效识别，在进行人工识别人耳时，需要借助专业的仪器，费时费力，效率低下。

随着计算机科学技术的发展，硬件计算处理速度得到极大提升，大量数据的产生与存储也有了成熟的条件，推动以卷积神经网络为代表的深度学习算法在计算机视觉领域的广泛应用，尤其是图像分类领域。卷积神经网络在花、鸟和人耳等图像的识别分类任务都具有突出表现，但具体到人耳图像分类任务中，由于存在不同人耳之间仅有细微差别的情况，传统的基于卷积神经网络的人耳图像识别方法需要大量数据来作为支持，才能较为准确地提取出细微差别，得到一个不错的识别精度。但是在以人耳为生物特征进行身份识别的小数据场景中，如刑侦、安防等领域，往往只能获取到人物的少量侧脸图片，直接采用深度神经网络进行识别可能难以达到理想效果。此外，在一些计算与存储资源受限的嵌入式设备中，大量数据的训练也变得不可行。

发明内容

为了解决上述问题，推广人耳识别模型到更多的应用场合并提高其实用性，本发明提出了一种基于迁移学习的人耳身份识别方法，来提升人耳识别模型的泛化能力并减少模型训练过程中计算、存储资源的消耗。该方法通过使用迁移学习卷积神经网络训练一个识别率准确的模型，对人耳图像进行识别。

本发明的技术方案以如下方式实现：一种基于迁移学习的刷耳身份识别方法，包括以下步骤：

S1、对原始人耳图像进行预处理，生成数据集；

S2、将数据集随机划分成训练集、验证集和测试集；

S3、使用预训练模型进行人耳特征提取，并新建全连接分类器；

S4、对预训练权重进行微调；

S5、使用测试集对网络模型进行验证。

优选的，所述S1中，预处理步骤包括将图片统一转换为jpeg格式，并将转换格式后的图片进行灰度化处理，最后将灰度化处理后的图片尺寸统一调整为224*224像素。

优选的，所述S2中，将预处理后的数据集按照4:1的比例划分为训练集和测试集，再从训练集中取出20％作为验证集；其中，训练集用于使神经网络学习区分不同人耳的有效特征，验证集用于在训练过程中实时评估神经网络学习效果，减少过拟合情况的发生，测试集用于评估已经完成训练的神经网络模型，分析其准确率是否符合实用要求。

优选的，所述S3中，通过预训练模型从新的样本中提取出特征，然后将这些特征输入到一个新的分类器，从头开始训练，选择冻结预训练权重，只对新的分类器权重进行训练。

更优的，在训练过程中将训练集划分为数个批次，其中每个批次为为16张人耳图像，设置学习率η＝0.01，采用具有自适应特性的Adam方法进行模型参数的更新，根据训练过程中的验证集精度，设置训练30个epoch，减少模型出现过拟合的风险。

优选的，所述S4中，完成分类器权重训练后，对预训练模型的最后三个卷积层进行微调，将学习率η设置为10^-6并对预训练权重进行微调，使预训练模型更适应于人耳图像分类任务。

优选的，所述S5中，预训练模型微调完成后，通过使用测试集来评估模型的识别准确率与损失函数值等指标，分析是否符合要求的指标。

本发明与现有技术相比，还存在以下优点：

(1)减少训练参数量。通过迁移预训练权重，可以极大减少训练过程中的训练参数量，减少过拟合风险，减少模型训练中计算、存储资源的消耗，更具实用性。

(2)提高模型识别准确率。基于大规模数据训练好的权重具有更好的特征表示能力，模型识别准确率有了很大提高。

(3)减少训练数据量。在许多领域中，人耳图像的获取是十分困难的，而迁移学习方法可以将一些先前已经在另一个相关领域上收集的数据和知识，移植到新分布中，从而使新分布上的数据量变得足够。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明一种基于迁移学习的刷耳身份识别方法的实现流程图；

图2是本发明一个较好实施例的数据集的部分样本图；

图3是本发明一个较好实施例的VGG16网络模型结构图；

图4是本发明一个较好实施例冻结预训练权重并新建随机初始化分类器、示意图；

图5是本发明一个较好实施例微调VGG16网络模型最后三个卷积层、示意图。

具体实施方式

以下结合具体实施例对一种基于迁移学习的刷耳身份识别方法作进一步的详细描述，这些实施例只用于比较和解释的目的，本发明不限定于这些实施例中。

如图1所示，一种基于迁移学习的刷耳身份识别方法，具体步骤包括：

S1、对原始人耳图像进行预处理，生成数据集；

S2、将数据集随机划分成训练集、验证集和测试集；

S4、对预训练权重进行微调；

S5、使用测试集对网络模型进行验证。

在本实施例中，使用自建数据集，通过网络爬虫，收集网上人物的公开侧脸照，再进行裁剪，得到人耳图像。数据集中有16个对象，一共有1684张人耳图像。这个数据集包含了现实生活中各种常见的场景，例如过度光照、昏暗光照等情况。此外，每个主体的耳朵图像像素也存在差异，包括图像质量和外部拍摄条件的差异，因此数据集中的样本具有多样性和复杂性。数据集的部分样本如图2所示。

由于收集到的图片文件格式不统一，为后续预处理工作带来不便，因此将图片统一转换为jpeg格式。

考虑到人耳图像的识别不需要用到颜色信息，因此将图像进行灰度化处理，减少训练过程中计算资源的消耗。常用的图像灰度化处理方法一般有均值化和最值化，本发明采用了能有效保留人耳特征的均值化方法完成图像灰度化处理。

同时由于不同图片的像素存在较大差异，无法直接送入神经网络进行训练，因此将图像尺寸统一调整为224*224像素。至此完成图像预处理工作。

在本实施例中，选择了在ImageNet数据集上预训练的VGG16模型权重进行迁移，VGG16的网络结构如图3所示。ImageNet数据集包含超过百万张图片，涵盖了超过一千个类别，包括动物、物体、人物等多种类别，涵盖了多种场景、光照条件、角度和尺度变化等，这使得在ImageNet数据集在预训练的模型可以学习到鲁棒的特征表示，对于不同类型的图像任务具有一定的泛化能力。具体到人耳图像分类任务，可能涉及到不同光照条件、人耳朝向、人耳形状等变化，因此在ImageNet上预训练的模型可以提供较好的初始特征表示，有助于提升分类性能。

利用在之前网络已经学习到的表示，从新的样本中提取出特征，然后将这些特征输入一个新的分类器，从头开始训练，详细流程如图4所示。

考虑到新建分类器为随机化权重，具有较大的误差，为了不破坏已经学习到的表示，选择冻结预训练权重，只对新的分类器权重进行训练。

在训练过程中将训练集划分为数个批次(mini-batch)，其中每个批次为为16张人耳图像，设置学习率η＝0.01，采用具有自适应特性的Adam方法进行模型参数的更新。根据训练过程中的验证集精度，设置训练30个epoch，减少模型出现过拟合的风险。

考虑到在卷积神经网络的训练中，更靠底部的层所提取的是更具通用性、可复用的特征，而更靠顶部的层所提取的则是更专用化的特征，而专用化特征需要根据新的问题做出改变和调整，因此在选择对VGG16网络模型的最后三个卷积层进行微调。详细流程如图5所示。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于迁移学习的刷耳身份识别方法，其特征在于，包括：

S1、对原始人耳图像进行预处理，生成数据集；

S2、将数据集随机划分成训练集、验证集和测试集；

S4、对预训练权重进行微调；

S5、使用测试集对网络模型进行验证。

2.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，所述S1中，预处理步骤包括将图片统一转换为jpeg格式，并将转换格式后的图片进行灰度化处理，最后将灰度化处理后的图片尺寸统一调整为224*224像素。

3.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，所述S2中，将预处理后的数据集按照4:1的比例划分为训练集和测试集，再从训练集中取出20％作为验证集；其中，训练集用于使神经网络学习区分不同人耳的有效特征，验证集用于在训练过程中实时评估神经网络学习效果，减少过拟合情况的发生，测试集用于评估已经完成训练的神经网络模型，分析其准确率是否符合实用要求。

4.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，所述S3中，通过预训练模型从新的样本中提取出特征，然后将这些特征输入到一个新的分类器，从头开始训练，选择冻结预训练权重，只对新的分类器权重进行训练。

5.根据权利要求4所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，在训练过程中将训练集划分为数个批次，其中每个批次为为16张人耳图像，设置学习率η＝0.01，采用具有自适应特性的Adam方法进行模型参数的更新，根据训练过程中的验证集精度，设置训练30个epoch，减少模型出现过拟合的风险。

6.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，所述S4中，完成分类器权重训练后，对预训练模型的最后三个卷积层进行微调，将学习率η设置为10^-6并对预训练权重进行微调，使预训练模型更适应于人耳图像分类任务。

7.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法，其特征在于，所述S5中，预训练模型微调完成后，通过使用测试集来评估模型的识别准确率与损失函数值等指标，分析是否符合要求的指标。