CN116912879A - 一种基于迁移学习的刷耳身份识别方法 - Google Patents

一种基于迁移学习的刷耳身份识别方法 Download PDF

Info

Publication number
CN116912879A
CN116912879A CN202310655206.7A CN202310655206A CN116912879A CN 116912879 A CN116912879 A CN 116912879A CN 202310655206 A CN202310655206 A CN 202310655206A CN 116912879 A CN116912879 A CN 116912879A
Authority
CN
China
Prior art keywords
training
model
ear
transfer learning
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310655206.7A
Other languages
English (en)
Inventor
尚文利
廖玟皓
揭海
曹忠
常志伟
时昊天
李淑琦
韦蕴珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202310655206.7A priority Critical patent/CN116912879A/zh
Publication of CN116912879A publication Critical patent/CN116912879A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于迁移学习的刷耳身份识别方法,提出了一种基于迁移学习的刷耳身份识别方法,通过对数据集图片进行预处理,并将预处理后的图片按照等比例划分后,抽取部分分别用于验证集、神经网络学习人耳特征、评估神经网络学习效果和评估已经完成训练的神经网络模型,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练,最后对预训练权重进行微调使模型更适应于人耳图像分类任务。

Description

一种基于迁移学习的刷耳身份识别方法
技术领域
本发明涉及迁移学习的技术领域,具体涉及一种基于迁移学习的刷耳身份识别方法。
背景技术
传统的人耳识别方法是基于美国学者Alfred Tannarelli提出的一种名为人耳十二点测量法进行识别,其基本思想是利用每人独有的人耳生理特征进行有效识别,在进行人工识别人耳时,需要借助专业的仪器,费时费力,效率低下。
随着计算机科学技术的发展,硬件计算处理速度得到极大提升,大量数据的产生与存储也有了成熟的条件,推动以卷积神经网络为代表的深度学习算法在计算机视觉领域的广泛应用,尤其是图像分类领域。卷积神经网络在花、鸟和人耳等图像的识别分类任务都具有突出表现,但具体到人耳图像分类任务中,由于存在不同人耳之间仅有细微差别的情况,传统的基于卷积神经网络的人耳图像识别方法需要大量数据来作为支持,才能较为准确地提取出细微差别,得到一个不错的识别精度。但是在以人耳为生物特征进行身份识别的小数据场景中,如刑侦、安防等领域,往往只能获取到人物的少量侧脸图片,直接采用深度神经网络进行识别可能难以达到理想效果。此外,在一些计算与存储资源受限的嵌入式设备中,大量数据的训练也变得不可行。
发明内容
为了解决上述问题,推广人耳识别模型到更多的应用场合并提高其实用性,本发明提出了一种基于迁移学习的人耳身份识别方法,来提升人耳识别模型的泛化能力并减少模型训练过程中计算、存储资源的消耗。该方法通过使用迁移学习卷积神经网络训练一个识别率准确的模型,对人耳图像进行识别。
本发明的技术方案以如下方式实现:一种基于迁移学习的刷耳身份识别方法,包括以下步骤:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
优选的,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
优选的,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
优选的,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
更优的,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
优选的,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
优选的,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
本发明与现有技术相比,还存在以下优点:
(1)减少训练参数量。通过迁移预训练权重,可以极大减少训练过程中的训练参数量,减少过拟合风险,减少模型训练中计算、存储资源的消耗,更具实用性。
(2)提高模型识别准确率。基于大规模数据训练好的权重具有更好的特征表示能力,模型识别准确率有了很大提高。
(3)减少训练数据量。在许多领域中,人耳图像的获取是十分困难的,而迁移学习方法可以将一些先前已经在另一个相关领域上收集的数据和知识,移植到新分布中,从而使新分布上的数据量变得足够。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明一种基于迁移学习的刷耳身份识别方法的实现流程图;
图2是本发明一个较好实施例的数据集的部分样本图;
图3是本发明一个较好实施例的VGG16网络模型结构图;
图4是本发明一个较好实施例冻结预训练权重并新建随机初始化分类器、示意图;
图5是本发明一个较好实施例微调VGG16网络模型最后三个卷积层、示意图。
具体实施方式
以下结合具体实施例对一种基于迁移学习的刷耳身份识别方法作进一步的详细描述,这些实施例只用于比较和解释的目的,本发明不限定于这些实施例中。
如图1所示,一种基于迁移学习的刷耳身份识别方法,具体步骤包括:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
优选的,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
在本实施例中,使用自建数据集,通过网络爬虫,收集网上人物的公开侧脸照,再进行裁剪,得到人耳图像。数据集中有16个对象,一共有1684张人耳图像。这个数据集包含了现实生活中各种常见的场景,例如过度光照、昏暗光照等情况。此外,每个主体的耳朵图像像素也存在差异,包括图像质量和外部拍摄条件的差异,因此数据集中的样本具有多样性和复杂性。数据集的部分样本如图2所示。
由于收集到的图片文件格式不统一,为后续预处理工作带来不便,因此将图片统一转换为jpeg格式。
考虑到人耳图像的识别不需要用到颜色信息,因此将图像进行灰度化处理,减少训练过程中计算资源的消耗。常用的图像灰度化处理方法一般有均值化和最值化,本发明采用了能有效保留人耳特征的均值化方法完成图像灰度化处理。
同时由于不同图片的像素存在较大差异,无法直接送入神经网络进行训练,因此将图像尺寸统一调整为224*224像素。至此完成图像预处理工作。
优选的,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
优选的,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
在本实施例中,选择了在ImageNet数据集上预训练的VGG16模型权重进行迁移,VGG16的网络结构如图3所示。ImageNet数据集包含超过百万张图片,涵盖了超过一千个类别,包括动物、物体、人物等多种类别,涵盖了多种场景、光照条件、角度和尺度变化等,这使得在ImageNet数据集在预训练的模型可以学习到鲁棒的特征表示,对于不同类型的图像任务具有一定的泛化能力。具体到人耳图像分类任务,可能涉及到不同光照条件、人耳朝向、人耳形状等变化,因此在ImageNet上预训练的模型可以提供较好的初始特征表示,有助于提升分类性能。
利用在之前网络已经学习到的表示,从新的样本中提取出特征,然后将这些特征输入一个新的分类器,从头开始训练,详细流程如图4所示。
考虑到新建分类器为随机化权重,具有较大的误差,为了不破坏已经学习到的表示,选择冻结预训练权重,只对新的分类器权重进行训练。
在训练过程中将训练集划分为数个批次(mini-batch),其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新。根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
更优的,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
优选的,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
考虑到在卷积神经网络的训练中,更靠底部的层所提取的是更具通用性、可复用的特征,而更靠顶部的层所提取的则是更专用化的特征,而专用化特征需要根据新的问题做出改变和调整,因此在选择对VGG16网络模型的最后三个卷积层进行微调。详细流程如图5所示。
优选的,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (7)

1.一种基于迁移学习的刷耳身份识别方法,其特征在于,包括:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
2.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
3.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
4.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
5.根据权利要求4所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
6.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
7.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
CN202310655206.7A 2023-06-02 2023-06-02 一种基于迁移学习的刷耳身份识别方法 Pending CN116912879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310655206.7A CN116912879A (zh) 2023-06-02 2023-06-02 一种基于迁移学习的刷耳身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310655206.7A CN116912879A (zh) 2023-06-02 2023-06-02 一种基于迁移学习的刷耳身份识别方法

Publications (1)

Publication Number Publication Date
CN116912879A true CN116912879A (zh) 2023-10-20

Family

ID=88363649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310655206.7A Pending CN116912879A (zh) 2023-06-02 2023-06-02 一种基于迁移学习的刷耳身份识别方法

Country Status (1)

Country Link
CN (1) CN116912879A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
CN112381787A (zh) * 2020-11-12 2021-02-19 福州大学 一种基于迁移学习的钢板表面缺陷的分类方法
CN114359629A (zh) * 2021-12-20 2022-04-15 桂林理工大学 一种基于深度迁移学习的肺炎x胸片分类识别方法
CN115223001A (zh) * 2021-04-19 2022-10-21 南京工业大学 一种基于迁移学习的医学图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
CN112381787A (zh) * 2020-11-12 2021-02-19 福州大学 一种基于迁移学习的钢板表面缺陷的分类方法
CN115223001A (zh) * 2021-04-19 2022-10-21 南京工业大学 一种基于迁移学习的医学图像识别方法
CN114359629A (zh) * 2021-12-20 2022-04-15 桂林理工大学 一种基于深度迁移学习的肺炎x胸片分类识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUSAN EL-NAGGAR ET AL.: "Image Quality Assessment for Effective Ear Recognition", 《IEEE ACCESS》, vol. 10, 12 September 2022 (2022-09-12), pages 98153 - 98164 *

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Yuan et al. Fingerprint liveness detection using an improved CNN with image scale equalization
CN104239858B (zh) 一种人脸特征验证的方法和装置
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN109815826A (zh) 人脸属性模型的生成方法及装置
JP2022551683A (ja) 人工知能(ai)モデルを使用した非侵襲的遺伝子検査を行う方法及びシステム
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN113076927B (zh) 基于多源域迁移的指静脉识别方法及系统
CN111260568B (zh) 基于多辨别器对抗网络的碑帖二值化背景噪声去除方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN113221655B (zh) 基于特征空间约束的人脸欺骗检测方法
CN108564061A (zh) 一种基于二维主元分析的图像识别方法和系统
CN113095156A (zh) 一种基于逆灰度方式的双流网络签名鉴定方法及装置
Hoque et al. Bdsl36: A dataset for bangladeshi sign letters recognition
Verma et al. Hmm-based convolutional lstm for visual scanpath prediction
CN116912879A (zh) 一种基于迁移学习的刷耳身份识别方法
CN109165587A (zh) 智能图像信息抽取方法
CN111783526B (zh) 一种利用姿势不变和图结构对齐的跨域行人重识别方法
Katoch et al. Recognition Of Handwritten English Character Using Convolutional Neural Network
CN114049500A (zh) 基于元学习重加权网络伪标签训练的图像评价方法及系统
Nandre et al. Comparative Analysis of Transfer Learning CNN for Face Recognition
Guzzi et al. Distillation of a CNN for a high accuracy mobile face recognition system
Li et al. Diffusion Probabilistic Model Based End-to-End Latent Fingerprint Synthesis
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
CN107341485B (zh) 人脸识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination