CN116912879A - 一种基于迁移学习的刷耳身份识别方法 - Google Patents
一种基于迁移学习的刷耳身份识别方法 Download PDFInfo
- Publication number
- CN116912879A CN116912879A CN202310655206.7A CN202310655206A CN116912879A CN 116912879 A CN116912879 A CN 116912879A CN 202310655206 A CN202310655206 A CN 202310655206A CN 116912879 A CN116912879 A CN 116912879A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- ear
- transfer learning
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013526 transfer learning Methods 0.000 title claims abstract description 18
- 230000001680 brushing effect Effects 0.000 title claims description 3
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 230000008014 freezing Effects 0.000 claims abstract description 3
- 238000007710 freezing Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 13
- 210000005069 ears Anatomy 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迁移学习的刷耳身份识别方法,提出了一种基于迁移学习的刷耳身份识别方法,通过对数据集图片进行预处理,并将预处理后的图片按照等比例划分后,抽取部分分别用于验证集、神经网络学习人耳特征、评估神经网络学习效果和评估已经完成训练的神经网络模型,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练,最后对预训练权重进行微调使模型更适应于人耳图像分类任务。
Description
技术领域
本发明涉及迁移学习的技术领域,具体涉及一种基于迁移学习的刷耳身份识别方法。
背景技术
传统的人耳识别方法是基于美国学者Alfred Tannarelli提出的一种名为人耳十二点测量法进行识别,其基本思想是利用每人独有的人耳生理特征进行有效识别,在进行人工识别人耳时,需要借助专业的仪器,费时费力,效率低下。
随着计算机科学技术的发展,硬件计算处理速度得到极大提升,大量数据的产生与存储也有了成熟的条件,推动以卷积神经网络为代表的深度学习算法在计算机视觉领域的广泛应用,尤其是图像分类领域。卷积神经网络在花、鸟和人耳等图像的识别分类任务都具有突出表现,但具体到人耳图像分类任务中,由于存在不同人耳之间仅有细微差别的情况,传统的基于卷积神经网络的人耳图像识别方法需要大量数据来作为支持,才能较为准确地提取出细微差别,得到一个不错的识别精度。但是在以人耳为生物特征进行身份识别的小数据场景中,如刑侦、安防等领域,往往只能获取到人物的少量侧脸图片,直接采用深度神经网络进行识别可能难以达到理想效果。此外,在一些计算与存储资源受限的嵌入式设备中,大量数据的训练也变得不可行。
发明内容
为了解决上述问题,推广人耳识别模型到更多的应用场合并提高其实用性,本发明提出了一种基于迁移学习的人耳身份识别方法,来提升人耳识别模型的泛化能力并减少模型训练过程中计算、存储资源的消耗。该方法通过使用迁移学习卷积神经网络训练一个识别率准确的模型,对人耳图像进行识别。
本发明的技术方案以如下方式实现:一种基于迁移学习的刷耳身份识别方法,包括以下步骤:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
优选的,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
优选的,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
优选的,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
更优的,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
优选的,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
优选的,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
本发明与现有技术相比,还存在以下优点:
(1)减少训练参数量。通过迁移预训练权重,可以极大减少训练过程中的训练参数量,减少过拟合风险,减少模型训练中计算、存储资源的消耗,更具实用性。
(2)提高模型识别准确率。基于大规模数据训练好的权重具有更好的特征表示能力,模型识别准确率有了很大提高。
(3)减少训练数据量。在许多领域中,人耳图像的获取是十分困难的,而迁移学习方法可以将一些先前已经在另一个相关领域上收集的数据和知识,移植到新分布中,从而使新分布上的数据量变得足够。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明一种基于迁移学习的刷耳身份识别方法的实现流程图;
图2是本发明一个较好实施例的数据集的部分样本图;
图3是本发明一个较好实施例的VGG16网络模型结构图;
图4是本发明一个较好实施例冻结预训练权重并新建随机初始化分类器、示意图;
图5是本发明一个较好实施例微调VGG16网络模型最后三个卷积层、示意图。
具体实施方式
以下结合具体实施例对一种基于迁移学习的刷耳身份识别方法作进一步的详细描述,这些实施例只用于比较和解释的目的,本发明不限定于这些实施例中。
如图1所示,一种基于迁移学习的刷耳身份识别方法,具体步骤包括:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
优选的,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
在本实施例中,使用自建数据集,通过网络爬虫,收集网上人物的公开侧脸照,再进行裁剪,得到人耳图像。数据集中有16个对象,一共有1684张人耳图像。这个数据集包含了现实生活中各种常见的场景,例如过度光照、昏暗光照等情况。此外,每个主体的耳朵图像像素也存在差异,包括图像质量和外部拍摄条件的差异,因此数据集中的样本具有多样性和复杂性。数据集的部分样本如图2所示。
由于收集到的图片文件格式不统一,为后续预处理工作带来不便,因此将图片统一转换为jpeg格式。
考虑到人耳图像的识别不需要用到颜色信息,因此将图像进行灰度化处理,减少训练过程中计算资源的消耗。常用的图像灰度化处理方法一般有均值化和最值化,本发明采用了能有效保留人耳特征的均值化方法完成图像灰度化处理。
同时由于不同图片的像素存在较大差异,无法直接送入神经网络进行训练,因此将图像尺寸统一调整为224*224像素。至此完成图像预处理工作。
优选的,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
优选的,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
在本实施例中,选择了在ImageNet数据集上预训练的VGG16模型权重进行迁移,VGG16的网络结构如图3所示。ImageNet数据集包含超过百万张图片,涵盖了超过一千个类别,包括动物、物体、人物等多种类别,涵盖了多种场景、光照条件、角度和尺度变化等,这使得在ImageNet数据集在预训练的模型可以学习到鲁棒的特征表示,对于不同类型的图像任务具有一定的泛化能力。具体到人耳图像分类任务,可能涉及到不同光照条件、人耳朝向、人耳形状等变化,因此在ImageNet上预训练的模型可以提供较好的初始特征表示,有助于提升分类性能。
利用在之前网络已经学习到的表示,从新的样本中提取出特征,然后将这些特征输入一个新的分类器,从头开始训练,详细流程如图4所示。
考虑到新建分类器为随机化权重,具有较大的误差,为了不破坏已经学习到的表示,选择冻结预训练权重,只对新的分类器权重进行训练。
在训练过程中将训练集划分为数个批次(mini-batch),其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新。根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
更优的,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
优选的,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
考虑到在卷积神经网络的训练中,更靠底部的层所提取的是更具通用性、可复用的特征,而更靠顶部的层所提取的则是更专用化的特征,而专用化特征需要根据新的问题做出改变和调整,因此在选择对VGG16网络模型的最后三个卷积层进行微调。详细流程如图5所示。
优选的,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (7)
1.一种基于迁移学习的刷耳身份识别方法,其特征在于,包括:
S1、对原始人耳图像进行预处理,生成数据集;
S2、将数据集随机划分成训练集、验证集和测试集;
S3、使用预训练模型进行人耳特征提取,并新建全连接分类器;
S4、对预训练权重进行微调;
S5、使用测试集对网络模型进行验证。
2.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S1中,预处理步骤包括将图片统一转换为jpeg格式,并将转换格式后的图片进行灰度化处理,最后将灰度化处理后的图片尺寸统一调整为224*224像素。
3.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S2中,将预处理后的数据集按照4:1的比例划分为训练集和测试集,再从训练集中取出20%作为验证集;其中,训练集用于使神经网络学习区分不同人耳的有效特征,验证集用于在训练过程中实时评估神经网络学习效果,减少过拟合情况的发生,测试集用于评估已经完成训练的神经网络模型,分析其准确率是否符合实用要求。
4.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S3中,通过预训练模型从新的样本中提取出特征,然后将这些特征输入到一个新的分类器,从头开始训练,选择冻结预训练权重,只对新的分类器权重进行训练。
5.根据权利要求4所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,在训练过程中将训练集划分为数个批次,其中每个批次为为16张人耳图像,设置学习率η=0.01,采用具有自适应特性的Adam方法进行模型参数的更新,根据训练过程中的验证集精度,设置训练30个epoch,减少模型出现过拟合的风险。
6.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S4中,完成分类器权重训练后,对预训练模型的最后三个卷积层进行微调,将学习率η设置为10-6并对预训练权重进行微调,使预训练模型更适应于人耳图像分类任务。
7.根据权利要求1所述的一种基于迁移学习的刷耳身份识别方法,其特征在于,所述S5中,预训练模型微调完成后,通过使用测试集来评估模型的识别准确率与损失函数值等指标,分析是否符合要求的指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310655206.7A CN116912879A (zh) | 2023-06-02 | 2023-06-02 | 一种基于迁移学习的刷耳身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310655206.7A CN116912879A (zh) | 2023-06-02 | 2023-06-02 | 一种基于迁移学习的刷耳身份识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912879A true CN116912879A (zh) | 2023-10-20 |
Family
ID=88363649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310655206.7A Pending CN116912879A (zh) | 2023-06-02 | 2023-06-02 | 一种基于迁移学习的刷耳身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912879A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508650A (zh) * | 2018-10-23 | 2019-03-22 | 浙江农林大学 | 一种基于迁移学习的树种识别方法 |
CN112381787A (zh) * | 2020-11-12 | 2021-02-19 | 福州大学 | 一种基于迁移学习的钢板表面缺陷的分类方法 |
CN114359629A (zh) * | 2021-12-20 | 2022-04-15 | 桂林理工大学 | 一种基于深度迁移学习的肺炎x胸片分类识别方法 |
CN115223001A (zh) * | 2021-04-19 | 2022-10-21 | 南京工业大学 | 一种基于迁移学习的医学图像识别方法 |
-
2023
- 2023-06-02 CN CN202310655206.7A patent/CN116912879A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508650A (zh) * | 2018-10-23 | 2019-03-22 | 浙江农林大学 | 一种基于迁移学习的树种识别方法 |
CN112381787A (zh) * | 2020-11-12 | 2021-02-19 | 福州大学 | 一种基于迁移学习的钢板表面缺陷的分类方法 |
CN115223001A (zh) * | 2021-04-19 | 2022-10-21 | 南京工业大学 | 一种基于迁移学习的医学图像识别方法 |
CN114359629A (zh) * | 2021-12-20 | 2022-04-15 | 桂林理工大学 | 一种基于深度迁移学习的肺炎x胸片分类识别方法 |
Non-Patent Citations (1)
Title |
---|
SUSAN EL-NAGGAR ET AL.: "Image Quality Assessment for Effective Ear Recognition", 《IEEE ACCESS》, vol. 10, 12 September 2022 (2022-09-12), pages 98153 - 98164 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
Yuan et al. | Fingerprint liveness detection using an improved CNN with image scale equalization | |
CN104239858B (zh) | 一种人脸特征验证的方法和装置 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
JP2022551683A (ja) | 人工知能(ai)モデルを使用した非侵襲的遺伝子検査を行う方法及びシステム | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN113076927B (zh) | 基于多源域迁移的指静脉识别方法及系统 | |
CN111260568B (zh) | 基于多辨别器对抗网络的碑帖二值化背景噪声去除方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN113221655B (zh) | 基于特征空间约束的人脸欺骗检测方法 | |
CN108564061A (zh) | 一种基于二维主元分析的图像识别方法和系统 | |
CN113095156A (zh) | 一种基于逆灰度方式的双流网络签名鉴定方法及装置 | |
Hoque et al. | Bdsl36: A dataset for bangladeshi sign letters recognition | |
Verma et al. | Hmm-based convolutional lstm for visual scanpath prediction | |
CN116912879A (zh) | 一种基于迁移学习的刷耳身份识别方法 | |
CN109165587A (zh) | 智能图像信息抽取方法 | |
CN111783526B (zh) | 一种利用姿势不变和图结构对齐的跨域行人重识别方法 | |
Katoch et al. | Recognition Of Handwritten English Character Using Convolutional Neural Network | |
CN114049500A (zh) | 基于元学习重加权网络伪标签训练的图像评价方法及系统 | |
Nandre et al. | Comparative Analysis of Transfer Learning CNN for Face Recognition | |
Guzzi et al. | Distillation of a CNN for a high accuracy mobile face recognition system | |
Li et al. | Diffusion Probabilistic Model Based End-to-End Latent Fingerprint Synthesis | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
CN107341485B (zh) | 人脸识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |